CN109189842A

CN109189842A - 大数据分析方法

Info

Publication number: CN109189842A
Application number: CN201810870778.6A
Authority: CN
Inventors: 黄海
Original assignee: Putian University
Current assignee: Putian University
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2019-01-11

Abstract

本发明公开了一种大数据分析方法，包括以下步骤：步骤100、数据采集，包括通过网络爬虫或网站公开API的方式从网站上获取数据信息，将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件，或使用特定系统接口的方式采集数据；步骤200、对采集的数据进行清洗、转化、提取；步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘；步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。本发明通过对数据的采集、存储、处理和分析，然后再将经过分析的数据用文字、图片和表格等方式呈现给用户，达到数据整合的目的，快速直观。

Description

大数据分析方法

技术领域

本发明涉及一种大数据分析方法。

背景技术

大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息以及形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实际应用中，数据分析可帮助人们作出判断，以便采取适当行动。

数据多样化的形成主要有两方面的原因：一是数据来源多，有搜索引擎、社交网络、通话记录、传感器等等；二是数据格式多，有结构数据、半结构数据和非结构数据。据相关数据统计，每秒钟人们发送290封电子邮件；亚马逊处理72.9笔订单；每分钟人们在YouTube上传20小时的视频；每月人们总共在facebook上浏览7000亿分钟。

目前的数据分析面临的问题是数据量大、多种结构形式和实时性等多样化要求，这些问题增加了数据采集和整合困难。

发明内容

本发明的目的是克服现有技术的不足，提供一种大数据分析方法，该方法可以对数据进行采集、存储、分析、处理和呈现，达到数据整合的目的。

本发明提供了一种大数据分析方法，包括以下步骤：

步骤100、数据采集,包括：通过网络爬虫或网站公开API的方式从网站上获取数据信息，将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件，或，使用特定系统接口的方式采集数据；

步骤200、对采集的数据进行清洗、转化、提取；

步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘；

步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。

可选地，对于数据的清洗包括：

确定对采集的数据进行清洗的至少一种数据筛选机制，并获取用户根据采集的数据对每种数据筛选机制设定的筛值；

根据至少一种数据筛选机制和用户设定的筛选值对采集的数据进行筛选，以对采集的数据进行清洗。

可选地，所述至少一种筛选机制包括：将不符合目标样本特征的数据从采集的数据中剔除；筛选值包括目标样本特征。

可选地，对于数据的转化包括：

对经过筛选的数据执行转化处理，得到转化结果，包括：确定预设转化类型；

根据预设转化类型将待转化数据转化为目标数据，其中目标数据的类型为预设转化类型；

建立目标数据与待转化数据的对应关系；

根据转化结果获取待转化数据中的转化成功数据和转化失败数据。

可选地，转化成功数据是指待转化数据中成功转化为目标数据的数据，转化失败数据是指待转化数据中未成功转化为目标数据的数据。

可选地，对经步骤200处理后的数据进行统计分析和深度挖掘，包括：

从经步骤200处理后的数据中抽取若干采样数据；

确定特征向量中个元素的权重值，假设权重值为V，元素即特征向量的组成部分对数据挖掘的重要性参数为i，则V＝i*2，对特征向量进行修正；

根据目标集合的格式设置迭代矩阵，随机选择符合要求的迭代矩阵，通过迭代进行修正，逐步靠近目标；将数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第一中间数据集合，求出第一中间数据集合与数据集合的第一偏移率；使用第一中间数据集合与迭代矩阵相乘，然后与修正后的特征向量相乘，得到第二中间数据集合，求出第二中间数据集合与第一中间数据集合的第二偏移率，当第二偏移率小于第一偏移率时，继续上述迭代过程，直至第N偏移率小于设定的阈值，得到目标数据集合，当第二偏移率大于第一偏移率时，修订迭代举着，重新进行迭代；

将目标数据结合的数据进行归一化，将归一化过程中删除的数据进行原始位置标记，并存入数据缓冲集合；

根据数据归一化的结合，从决策表中选取相应决策。

可选地，采样方法为每生成一个随机数，使用随机数从经步骤200处理后的数据中抽取对应位置的数据；计算采样数据的分布关系，并根据采样数据的分布关系将数据源中剩余的数据进行分隔，形成若干数据集合。

本发明的有益效果在于：

本发明通过对数据的采集、存储、处理和分析，然后再将经过分析的数据用文字、图片和表格等方式呈现给用户，达到数据整合的目的，快速直观。使用特定系统接口提高数据安全性。

附图说明

图1为实施本发明的方法流程图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

本发明实施例提供一种大数据分析方法，包括以下步骤：

步骤100、数据采集；例如，通过网络爬虫或网站公开API的方式从网站上获取数据信息，将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件；其他数据采集模块通过与企业或研究机构合作，使用特定系统接口的方式采集数据。

步骤200、对采集的数据进行清洗、转化、提取；

在本发明的一些实施例中，对于数据的清洗包括：

确定对采集的数据进行清洗的至少一种数据筛选机制，并获取用户根据采集的数据对每种数据筛选机制设定的筛值。

所述至少一种筛选机制包括：将不符合目标样本特征的数据从采集的数据中剔除。在这种情况下，筛选值包括目标样本特征。

在本发明的一些实施例中，对于数据的转化包括：

对经过筛选的数据执行转化处理，得到转化结果，包括：确定预设转化类型；根据预设转化类型将待转化数据转化为目标数据，其中目标数据的类型为预设转化类型；建立目标数据与待转化数据的对应关系；数据转化包含多种类型，例如，类型转化、数据整合等，预设转化类型可以是任意一种数据转化类型。用户可以预先设置数据转化类型。

根据转化结果获取待转化数据中的转化成功数据和转化失败数据，其中，转化成功数据是指待转化数据中成功转化为目标数据的数据，转化失败数据是指待转化数据中未成功转化为目标数据的数据。

在本发明的一些实施例中，对经步骤200处理后的数据进行统计分析和深度挖掘，具体包括：

从经步骤200处理后的数据中抽取若干采样数据；其中，采样方法为每生成一个随机数，使用随机数从经步骤200处理后的数据中抽取对应位置的数据；计算采样数据的分布关系，并根据采样数据的分布关系将数据源中剩余的数据进行分隔，形成若干数据集合；

根据数据归一化的结合，从决策表中选取相应决策。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种大数据分析方法，其特征在于，包括以下步骤：

步骤100、数据采集，包括通过网络爬虫或网站公开API的方式从网站上获取数据信息，将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件，或使用特定系统接口的方式采集数据；

步骤200、对采集的数据进行清洗、转化、提取；

2.根据权利要求1所述的大数据分析方法，其特征在于，对于数据的清洗包括：

3.根据权利要求2所述的大数据分析方法，其特征在于，所述至少一种筛选机制包括：

将不符合目标样本特征的数据从采集的数据中剔除；筛选值包括目标样本特征。

4.根据权利要求1所述的大数据分析方法，其特征在于，对于数据的转化包括：

建立目标数据与待转化数据的对应关系；

5.根据权利要求4所述的大数据分析方法，其特征在于，转化成功数据是指待转化数据中成功转化为目标数据的数据，转化失败数据是指待转化数据中未成功转化为目标数据的数据。

6.根据权利要求1所述的大数据分析方法，其特征在于，对经步骤200处理后的数据进行统计分析和深度挖掘，包括：

从经步骤200处理后的数据中抽取若干采样数据；

根据数据归一化的结合，从决策表中选取相应决策。

7.根据权利要求6所述的大数据分析方法，其特征在于，采样方法为每生成一个随机数，使用随机数从经步骤200处理后的数据中抽取对应位置的数据；计算采样数据的分布关系，并根据采样数据的分布关系将数据源中剩余的数据进行分隔，形成若干数据集合。