CN109189842A - 大数据分析方法 - Google Patents

大数据分析方法 Download PDF

Info

Publication number
CN109189842A
CN109189842A CN201810870778.6A CN201810870778A CN109189842A CN 109189842 A CN109189842 A CN 109189842A CN 201810870778 A CN201810870778 A CN 201810870778A CN 109189842 A CN109189842 A CN 109189842A
Authority
CN
China
Prior art keywords
data
conversion
acquisition
target
analysis method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810870778.6A
Other languages
English (en)
Inventor
黄海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Putian University
Original Assignee
Putian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Putian University filed Critical Putian University
Priority to CN201810870778.6A priority Critical patent/CN109189842A/zh
Publication of CN109189842A publication Critical patent/CN109189842A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据分析方法,包括以下步骤:步骤100、数据采集,包括通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件,或使用特定系统接口的方式采集数据;步骤200、对采集的数据进行清洗、转化、提取;步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘;步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。

Description

大数据分析方法
技术领域
本发明涉及一种大数据分析方法。
背景技术
大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息以及形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实际应用中,数据分析可帮助人们作出判断,以便采取适当行动。
数据多样化的形成主要有两方面的原因:一是数据来源多,有搜索引擎、社交网络、通话记录、传感器等等;二是数据格式多,有结构数据、半结构数据和非结构数据。据相关数据统计,每秒钟人们发送290封电子邮件;亚马逊处理72.9笔订单;每分钟人们在YouTube上传20小时的视频;每月人们总共在facebook上浏览7000亿分钟。
目前的数据分析面临的问题是数据量大、多种结构形式和实时性等多样化要求,这些问题增加了数据采集和整合困难。
发明内容
本发明的目的是克服现有技术的不足,提供一种大数据分析方法,该方法可以对数据进行采集、存储、分析、处理和呈现,达到数据整合的目的。
本发明提供了一种大数据分析方法,包括以下步骤:
步骤100、数据采集,包括:通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件,或,使用特定系统接口的方式采集数据;
步骤200、对采集的数据进行清洗、转化、提取;
步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘;
步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。
可选地,对于数据的清洗包括:
确定对采集的数据进行清洗的至少一种数据筛选机制,并获取用户根据采集的数据对每种数据筛选机制设定的筛值;
根据至少一种数据筛选机制和用户设定的筛选值对采集的数据进行筛选,以对采集的数据进行清洗。
可选地,所述至少一种筛选机制包括:将不符合目标样本特征的数据从采集的数据中剔除;筛选值包括目标样本特征。
可选地,对于数据的转化包括:
对经过筛选的数据执行转化处理,得到转化结果,包括:确定预设转化类型;
根据预设转化类型将待转化数据转化为目标数据,其中目标数据的类型为预设转化类型;
建立目标数据与待转化数据的对应关系;
根据转化结果获取待转化数据中的转化成功数据和转化失败数据。
可选地,转化成功数据是指待转化数据中成功转化为目标数据的数据,转化失败数据是指待转化数据中未成功转化为目标数据的数据。
可选地,对经步骤200处理后的数据进行统计分析和深度挖掘,包括:
从经步骤200处理后的数据中抽取若干采样数据;
确定特征向量中个元素的权重值,假设权重值为V,元素即特征向量的组成部分对数据挖掘的重要性参数为i,则V=i*2,对特征向量进行修正;
根据目标集合的格式设置迭代矩阵,随机选择符合要求的迭代矩阵,通过迭代进行修正,逐步靠近目标;将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当第二偏移率大于第一偏移率时,修订迭代举着,重新进行迭代;
将目标数据结合的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
根据数据归一化的结合,从决策表中选取相应决策。
可选地,采样方法为每生成一个随机数,使用随机数从经步骤200处理后的数据中抽取对应位置的数据;计算采样数据的分布关系,并根据采样数据的分布关系将数据源中剩余的数据进行分隔,形成若干数据集合。
本发明的有益效果在于:
本发明通过对数据的采集、存储、处理和分析,然后再将经过分析的数据用文字、图片和表格等方式呈现给用户,达到数据整合的目的,快速直观。使用特定系统接口提高数据安全性。
附图说明
图1为实施本发明的方法流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
本发明实施例提供一种大数据分析方法,包括以下步骤:
步骤100、数据采集;例如,通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件;其他数据采集模块通过与企业或研究机构合作,使用特定系统接口的方式采集数据。
步骤200、对采集的数据进行清洗、转化、提取;
步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘;
步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。
在本发明的一些实施例中,对于数据的清洗包括:
确定对采集的数据进行清洗的至少一种数据筛选机制,并获取用户根据采集的数据对每种数据筛选机制设定的筛值。
根据至少一种数据筛选机制和用户设定的筛选值对采集的数据进行筛选,以对采集的数据进行清洗。
所述至少一种筛选机制包括:将不符合目标样本特征的数据从采集的数据中剔除。在这种情况下,筛选值包括目标样本特征。
在本发明的一些实施例中,对于数据的转化包括:
对经过筛选的数据执行转化处理,得到转化结果,包括:确定预设转化类型;根据预设转化类型将待转化数据转化为目标数据,其中目标数据的类型为预设转化类型;建立目标数据与待转化数据的对应关系;数据转化包含多种类型,例如,类型转化、数据整合等,预设转化类型可以是任意一种数据转化类型。用户可以预先设置数据转化类型。
根据转化结果获取待转化数据中的转化成功数据和转化失败数据,其中,转化成功数据是指待转化数据中成功转化为目标数据的数据,转化失败数据是指待转化数据中未成功转化为目标数据的数据。
在本发明的一些实施例中,对经步骤200处理后的数据进行统计分析和深度挖掘,具体包括:
从经步骤200处理后的数据中抽取若干采样数据;其中,采样方法为每生成一个随机数,使用随机数从经步骤200处理后的数据中抽取对应位置的数据;计算采样数据的分布关系,并根据采样数据的分布关系将数据源中剩余的数据进行分隔,形成若干数据集合;
确定特征向量中个元素的权重值,假设权重值为V,元素即特征向量的组成部分对数据挖掘的重要性参数为i,则V=i*2,对特征向量进行修正;
根据目标集合的格式设置迭代矩阵,随机选择符合要求的迭代矩阵,通过迭代进行修正,逐步靠近目标;将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当第二偏移率大于第一偏移率时,修订迭代举着,重新进行迭代;
将目标数据结合的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
根据数据归一化的结合,从决策表中选取相应决策。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (7)

1.一种大数据分析方法,其特征在于,包括以下步骤:
步骤100、数据采集,包括通过网络爬虫或网站公开API的方式从网站上获取数据信息,将非结构化数据从网页中抽取出来并以结构化的方式存储为统一的本地数据文件,或使用特定系统接口的方式采集数据;
步骤200、对采集的数据进行清洗、转化、提取;
步骤300、对经步骤200处理后的数据进行统计分析和深度挖掘;
步骤400、对步骤300处理后的数据以表格、图片和文字的形式进行呈现。
2.根据权利要求1所述的大数据分析方法,其特征在于,对于数据的清洗包括:
确定对采集的数据进行清洗的至少一种数据筛选机制,并获取用户根据采集的数据对每种数据筛选机制设定的筛值;
根据至少一种数据筛选机制和用户设定的筛选值对采集的数据进行筛选,以对采集的数据进行清洗。
3.根据权利要求2所述的大数据分析方法,其特征在于,所述至少一种筛选机制包括:
将不符合目标样本特征的数据从采集的数据中剔除;筛选值包括目标样本特征。
4.根据权利要求1所述的大数据分析方法,其特征在于,对于数据的转化包括:
对经过筛选的数据执行转化处理,得到转化结果,包括:确定预设转化类型;
根据预设转化类型将待转化数据转化为目标数据,其中目标数据的类型为预设转化类型;
建立目标数据与待转化数据的对应关系;
根据转化结果获取待转化数据中的转化成功数据和转化失败数据。
5.根据权利要求4所述的大数据分析方法,其特征在于,转化成功数据是指待转化数据中成功转化为目标数据的数据,转化失败数据是指待转化数据中未成功转化为目标数据的数据。
6.根据权利要求1所述的大数据分析方法,其特征在于,对经步骤200处理后的数据进行统计分析和深度挖掘,包括:
从经步骤200处理后的数据中抽取若干采样数据;
确定特征向量中个元素的权重值,假设权重值为V,元素即特征向量的组成部分对数据挖掘的重要性参数为i,则V=i*2,对特征向量进行修正;
根据目标集合的格式设置迭代矩阵,随机选择符合要求的迭代矩阵,通过迭代进行修正,逐步靠近目标;将数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第一中间数据集合,求出第一中间数据集合与数据集合的第一偏移率;使用第一中间数据集合与迭代矩阵相乘,然后与修正后的特征向量相乘,得到第二中间数据集合,求出第二中间数据集合与第一中间数据集合的第二偏移率,当第二偏移率小于第一偏移率时,继续上述迭代过程,直至第N偏移率小于设定的阈值,得到目标数据集合,当第二偏移率大于第一偏移率时,修订迭代举着,重新进行迭代;
将目标数据结合的数据进行归一化,将归一化过程中删除的数据进行原始位置标记,并存入数据缓冲集合;
根据数据归一化的结合,从决策表中选取相应决策。
7.根据权利要求6所述的大数据分析方法,其特征在于,采样方法为每生成一个随机数,使用随机数从经步骤200处理后的数据中抽取对应位置的数据;计算采样数据的分布关系,并根据采样数据的分布关系将数据源中剩余的数据进行分隔,形成若干数据集合。
CN201810870778.6A 2018-08-02 2018-08-02 大数据分析方法 Pending CN109189842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810870778.6A CN109189842A (zh) 2018-08-02 2018-08-02 大数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810870778.6A CN109189842A (zh) 2018-08-02 2018-08-02 大数据分析方法

Publications (1)

Publication Number Publication Date
CN109189842A true CN109189842A (zh) 2019-01-11

Family

ID=64920562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810870778.6A Pending CN109189842A (zh) 2018-08-02 2018-08-02 大数据分析方法

Country Status (1)

Country Link
CN (1) CN109189842A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382329A (zh) * 2020-02-17 2020-07-07 山东外事职业大学 一种用于大数据分析的数据挖掘方法及系统
WO2020173334A1 (zh) * 2019-02-25 2020-09-03 阿里巴巴集团控股有限公司 数据存储方法及数据查询方法
CN111897853A (zh) * 2020-07-08 2020-11-06 东莞理工学院城市学院 一种基于大数据的计算机数据挖掘探索方法及系统
CN112416921A (zh) * 2020-12-03 2021-02-26 策拉人工智能科技(云南)有限公司 一种财税大数据分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995873A (zh) * 2014-05-22 2014-08-20 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN106294390A (zh) * 2015-05-20 2017-01-04 上海纳鑫信息科技有限公司 一种数据挖掘分析方法及系统
CN106339439A (zh) * 2016-08-22 2017-01-18 成都众易通科技有限公司 一种大数据分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103995873A (zh) * 2014-05-22 2014-08-20 长春工业大学 一种数据挖掘方法及数据挖掘系统
CN106294390A (zh) * 2015-05-20 2017-01-04 上海纳鑫信息科技有限公司 一种数据挖掘分析方法及系统
CN106339439A (zh) * 2016-08-22 2017-01-18 成都众易通科技有限公司 一种大数据分析方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020173334A1 (zh) * 2019-02-25 2020-09-03 阿里巴巴集团控股有限公司 数据存储方法及数据查询方法
CN111382329A (zh) * 2020-02-17 2020-07-07 山东外事职业大学 一种用于大数据分析的数据挖掘方法及系统
CN111897853A (zh) * 2020-07-08 2020-11-06 东莞理工学院城市学院 一种基于大数据的计算机数据挖掘探索方法及系统
CN112416921A (zh) * 2020-12-03 2021-02-26 策拉人工智能科技(云南)有限公司 一种财税大数据分析方法及系统

Similar Documents

Publication Publication Date Title
CN109189842A (zh) 大数据分析方法
CN105550583B (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
CN105956015A (zh) 一种基于大数据的服务平台整合方法
CN106101121B (zh) 一种全网络流量异常抽取方法
CN103793501B (zh) 基于社交网络的主题社团发现方法
CN106339439A (zh) 一种大数据分析方法
CN104572976B (zh) 网站数据更新方法和系统
CN103593371A (zh) 推荐搜索关键词的方法和装置
CN109446816A (zh) 一种基于大数据平台审计日志的用户行为分析方法
CN103812872A (zh) 一种基于混合狄利克雷过程的网络水军行为检测方法及系统
CN108304551A (zh) 一种企业大数据分析系统和方法
Ahmed et al. Space-efficient sampling from social activity streams
CN103699544B (zh) 跨页选择数据的方法和系统
CN105447146A (zh) 一种海量数据的收集与交换系统及方法
CN103580919A (zh) 一种利用邮件服务器日志进行邮件用户标记的方法与系统
Abrahamson et al. Assessing the performance of sampling designs for measuring the abundance of understory plants
CN111078754A (zh) 基于海量时空数据的频繁轨迹提取方法及其挖掘系统
Thakur et al. Detection of malicious URLs in big data using RIPPER algorithm
CN104484412A (zh) 基于多形式处理的大数据分析系统
Goodman et al. PIGLT: a pollen identification and geolocation system for forensic applications
CN107358534A (zh) 社交网络的无偏数据采集系统及采集方法
CN105553787B (zh) 基于Hadoop的边缘网出口网络流量异常检测方法
CN104317880A (zh) 一种专门针对微博数据采集方式的方法
CN103902709A (zh) 一种关联分析方法
CN107784588A (zh) 保险用户信息合并方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190111