CN109857784A - 一种大数据统计分析系统 - Google Patents
一种大数据统计分析系统 Download PDFInfo
- Publication number
- CN109857784A CN109857784A CN201910110625.6A CN201910110625A CN109857784A CN 109857784 A CN109857784 A CN 109857784A CN 201910110625 A CN201910110625 A CN 201910110625A CN 109857784 A CN109857784 A CN 109857784A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- statistical analysis
- analysis system
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种大数据统计分析系统,包括目标数据采集模块、数据处理模块、数据标准化模块、数据识别分类模块、数据统计分析模块、图形绘制模块、数据可视化分析模块、数据定位模块。本发明基于目标数据采集模块进行数据的针对性挖掘,然后基于Hadoop的粗糙集快速属性约简算法进行数据的预处理,提高了大规模数据的分析效率,从而可以将纷繁多样的海量数据转换成具有信息和商业价值的可用数据,基于Tableau Desktop实现了数据的可视化分析,从而实现了多种目标数据的计算获取,大大方便了工作人员的使用。
Description
技术领域
本发明涉及数据分析领域,具体涉及一种大数据统计分析系统。
背景技术
大数据、云计算、“互联网+”已成为创新发展的新趋势,在大数据条件下,,企业需具备在第一时间洞察数据的变化、感知有问题的数据,并提供有效的安全策略的能力。企业的每个系统就会产生成千上万的数据,虽然现在有很多传统的日志或者其他专业工具能够帮助企业分析这些数据,而传统的安全产品工具却不能给我们带来效率,来自传统IPS/IDS、防火墙/UTM、AV、日志系统的各类信息每天高达数千万条,但传统的产品工具对数据的处理目前仅仅停留在各自割裂的、独立的、简易的图表与简单列示查询的方式,这些数据还没有很好的呈现为可视化的关联,关键数据的提取与关联要靠人工进行逐条甄别。
鉴于此,迫切需要设计一种可实现数据自动获取识别分析处理的系统。
发明内容
为解决上述问题,本发明提供了一种大数据统计分析系统,基于目标数据采集模块进行数据的针对性挖掘,然后基于Hadoop的粗糙集快速属性约简算法进行数据的预处理,提高了大规模数据的分析效率,从而可以将纷繁多样的海量数据转换成具有信息和商业价值的可用数据,基于Tableau Desktop实现了数据的可视化分析,从而实现了多种目标数据的计算获取,大大方便了工作人员的使用。
为实现上述目的,本发明采取的技术方案为:
一种大数据统计分析系统,包括:
目标数据采集模块,用于进行目标数据的采集;
数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;
数据标准化模块,基于BP神经网络模对完成预处理的目标数据进行标准化处理;
数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;
数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;
图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图。
进一步地,所述数据标准化模块采用PCA-BP神经网络模型。
进一步地,还包括一数据可视化分析模块,基于完成标准化处理后的数据通过Tableau Desktop实现数据的可视化分析。
进一步地,还包括一数据定位模块,基于完成识别分类后的数据在数据库中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系。
进一步地, 所述标准化后的数据至少包括数据的属性参数和特征参数。
进一步地,还包括一数据整理模块,用于查找并清除所接收到的数据之间存在的冗余内容。
进一步地,在调用对应数据统计模型和数据分析模型前需先经多特征加权融合模块完成多特征的融合操作。
进一步地,所述多特征加权融合模块采用自适应的融合算法,公式如下:
(1)
其中,表示主因素项的得分,表示次因素项的得分,其中,,和采用自适应的取值方案,公式如(2)和(3)所示:
(2)
(3)。
进一步地,所述数据识别分类模块基于不同的分析目标调用不同的于BP神经网络模型实现数据的识别分类,每个数据的识别结果均携带主/次因素标记。
本发明具有以下有益效果:
1)基于目标数据采集模块进行数据的针对性挖掘,然后基于Hadoop的粗糙集快速属性约简算法进行数据的预处理,提高了大规模数据的分析效率,从而可以将纷繁多样的海量数据转换成具有信息和商业价值的可用数据;
2)基于Tableau Desktop实现了数据的可视化分析,从而实现了多种目标数据的计算获取,大大方便了工作人员的使用;
3)将多特征分为主因素项和次因素项,然后采用加权的方式进行最终特征项的获取,从而提高了数据分析的精确度;
4)不同数据的类型采用不同的统计模型和分析模型,实现了数据的分开加载分析,提高了系统的工作效率;
5)基于数据整理模块实现了亢余数据的清除,通过数据定位模块实现了数据的自动分类储存,在减轻工作人员工作量的同时,方便了后续数据的调用。
附图说明
图1为本发明实施例一种大数据统计分析系统的系统框图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种大数据统计分析系统,包括:
目标数据采集模块,用于进行目标数据的采集;使用时,用户可以根据需要经人机操作模块选中算法调用编辑模块进行目标数据采集规则的编辑,从而可以实现在大数据库中进行目标数据的自动查询挖掘;
数据整理模块,用于查找并清除所接收到的数据之间存在的冗余内容,所述数据整理模块采用EKA算法和AKF算法查找亢余内容,具体的,在redundancy函数中,分别将k1和k2中的知识元素取出e1和e2,然后将e1和e2中的X,Y以及关系R取出进行比较并分别对比xe1,xe2,ye1,ye2,将具有相同内容的元素项挖掘出来,通过对话框的模式进行显示;所述冗余内容采用redundancy函数进行查找。
数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;
数据标准化模块,基于PCA-BP神经网络模型对完成预处理的目标数据进行标准化处理;所述标准化后的数据至少包括数据的属性参数和特征参数;
数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;
数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;
图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图;
数据可视化分析模块,基于完成标准化处理后的数据通过Tableau Desktop实现数据的可视化分析;
数据定位模块,基于完成识别分类后的数据在数据库中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系。所述数据定位模块基于刻面技术来实现数据定位,通过计算不同数据术语间的刻面距离来准确定位数据;在定位数据时,在已知刻面的约束下选择相应的术语,以此来完成对所需数据的描述,如果选择成功,则返回相应的数据;如果选择不成功,则系统将根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息;
中央处理器,用于协调上述模块工作。
本实施例中,在调用对应数据统计模型和数据分析模型前需先经多特征加权融合模块完成多特征的融合操作。所述多特征加权融合模块采用自适应的融合算法,公式如下:
(1)
其中,表示主因素项的得分,表示次因素项的得分,其中,,采用自适应的取值方案,公式如(2)和(3)所示:
(2)
(3)。
本实施例中,所述数据识别分类模块基于不同的分析目标调用不同的于BP神经网络模型实现数据的识别分类,每个数据的识别结果均携带主/次因素标记。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种大数据统计分析系统,其特征在于,包括:
目标数据采集模块,用于进行目标数据的采集;
数据处理模块,采用基于Hadoop的粗糙集快速属性约简算法对目标数据进行预处理;
数据标准化模块,基于BP神经网络模对完成预处理的目标数据进行标准化处理;
数据识别分类模块,基于BP神经网络模型根据特征数据对完成标准化处理的数据进行识别分类;
数据统计分析模块,基于数据识别分类模块的识别分类结果进行对应数据统计模型、数据分析模型的调用,并输出对应的统计结果、分析结果;
图形绘制模块,用于根据完成标准化处理后的数据生成各种曲线图。
2.如权利要求1所述的一种大数据统计分析系统,其特征在于,所述数据标准化模块采用PCA-BP神经网络模型。
3.如权利要求1所述的一种大数据统计分析系统,其特征在于,还包括一数据可视化分析模块,基于完成标准化处理后的数据通过Tableau Desktop实现数据的可视化分析。
4.如权利要求1所述的一种大数据统计分析系统,其特征在于,还包括一数据定位模块,基于完成识别分类后的数据在数据库中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系。
5.如权利要求1所述的一种大数据统计分析系统,其特征在于, 所述标准化后的数据至少包括数据的属性参数和特征参数。
6.如权利要求1所述的一种大数据统计分析系统,其特征在于,还包括一数据整理模块,用于查找并清除所接收到的数据之间存在的冗余内容。
7.如权利要求1所述的一种大数据统计分析系统,其特征在于,在调用对应数据统计模型和数据分析模型前需先经多特征加权融合模块完成多特征的融合操作。
8.如权利要求7所述的一种大数据统计分析系统,其特征在于,所述多特征加权融合模块采用自适应的融合算法,公式如下:
(1)
其中,表示主因素项的得分,表示次因素项的得分,其中, 采用自适应的取值方案,公式如(2)和(3)所示:
(2)
(3)。
9.如权利要求1所述的一种大数据统计分析系统,其特征在于,所述数据识别分类模块基于不同的分析目标调用不同的于BP神经网络模型实现数据的识别分类,每个数据的识别结果均携带主/次因素标记。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910110625.6A CN109857784A (zh) | 2019-02-12 | 2019-02-12 | 一种大数据统计分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910110625.6A CN109857784A (zh) | 2019-02-12 | 2019-02-12 | 一种大数据统计分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109857784A true CN109857784A (zh) | 2019-06-07 |
Family
ID=66897742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910110625.6A Pending CN109857784A (zh) | 2019-02-12 | 2019-02-12 | 一种大数据统计分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857784A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111008227A (zh) * | 2019-12-27 | 2020-04-14 | 广西民族师范学院 | 一种数据分析处理平台 |
CN111061779A (zh) * | 2019-12-16 | 2020-04-24 | 延安大学 | 一种基于大数据平台的数据处理方法及装置 |
CN111324782A (zh) * | 2020-03-18 | 2020-06-23 | 清华大学 | 一种大数据存储系统 |
CN111737549A (zh) * | 2020-06-30 | 2020-10-02 | 西安欧亚学院 | 一种经济指标智能分析系统 |
CN112256937A (zh) * | 2020-11-28 | 2021-01-22 | 河南工业职业技术学院 | 一种基于计算机的信息分析系统 |
CN112632156A (zh) * | 2021-01-29 | 2021-04-09 | 赵琰 | 一种基于大数据的计算机数据分析管理系统 |
CN114942960A (zh) * | 2022-06-09 | 2022-08-26 | 深圳市埃德乐科技开发有限公司 | 一种业务数据的可视化应用构建方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336791A (zh) * | 2013-06-06 | 2013-10-02 | 湖州师范学院 | 基于Hadoop的粗糙集快速属性约简方法 |
CN108009940A (zh) * | 2017-11-10 | 2018-05-08 | 国网浙江省电力公司电力科学研究院 | 基于Tableau的同期线损异常分析方法及系统 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
-
2019
- 2019-02-12 CN CN201910110625.6A patent/CN109857784A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103336791A (zh) * | 2013-06-06 | 2013-10-02 | 湖州师范学院 | 基于Hadoop的粗糙集快速属性约简方法 |
CN108009940A (zh) * | 2017-11-10 | 2018-05-08 | 国网浙江省电力公司电力科学研究院 | 基于Tableau的同期线损异常分析方法及系统 |
CN108053840A (zh) * | 2017-12-29 | 2018-05-18 | 广州势必可赢网络科技有限公司 | 一种基于pca-bp的情绪识别方法及系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061779A (zh) * | 2019-12-16 | 2020-04-24 | 延安大学 | 一种基于大数据平台的数据处理方法及装置 |
CN111008227A (zh) * | 2019-12-27 | 2020-04-14 | 广西民族师范学院 | 一种数据分析处理平台 |
CN111324782A (zh) * | 2020-03-18 | 2020-06-23 | 清华大学 | 一种大数据存储系统 |
CN111737549A (zh) * | 2020-06-30 | 2020-10-02 | 西安欧亚学院 | 一种经济指标智能分析系统 |
CN112256937A (zh) * | 2020-11-28 | 2021-01-22 | 河南工业职业技术学院 | 一种基于计算机的信息分析系统 |
CN112632156A (zh) * | 2021-01-29 | 2021-04-09 | 赵琰 | 一种基于大数据的计算机数据分析管理系统 |
CN114942960A (zh) * | 2022-06-09 | 2022-08-26 | 深圳市埃德乐科技开发有限公司 | 一种业务数据的可视化应用构建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857784A (zh) | 一种大数据统计分析系统 | |
US11915104B2 (en) | Normalizing text attributes for machine learning models | |
CN113254510B (zh) | 业务风险客群的识别方法、装置、设备及存储介质 | |
CN107016019B (zh) | 数据库索引创建方法及装置 | |
CN108345670B (zh) | 一种用于95598电力工单的服务热点发现方法 | |
CN112733146B (zh) | 基于机器学习的渗透测试方法、装置、设备及存储介质 | |
CN115576999B (zh) | 基于云平台的任务数据处理方法、装置、设备及存储介质 | |
CN106971254A (zh) | 一种业务监控系统及方法 | |
CN115797962B (zh) | 基于装配式建筑ai设计的墙柱识别方法及装置 | |
CN111369133A (zh) | 一种大数据风险监测系统 | |
CN111241072A (zh) | 一种判断数据段连续性的方法及其系统 | |
CN115660288A (zh) | 一种基于互联网大数据的分析管理系统 | |
CN106779582B (zh) | 一种tws流程配置方法及装置 | |
CN114238474A (zh) | 基于排水系统的数据处理方法、装置、设备及存储介质 | |
US7844601B2 (en) | Quality of service feedback for technology-neutral data reporting | |
CN111061779A (zh) | 一种基于大数据平台的数据处理方法及装置 | |
CN115689656B (zh) | 基于物联网的广告投放方法、装置、设备及存储介质 | |
CN112712348A (zh) | 换流站的日志关联分析方法及诊断装置 | |
CN116308679A (zh) | 供应链异常订单处理方法、装置、设备及存储介质 | |
CN112528762B (zh) | 一种基于数据关联分析的谐波源识别方法 | |
CN111881146B (zh) | 用于收取费用的方法、计算设备和介质 | |
CN109684379A (zh) | 一种多元数据的分析方法及系统 | |
CN113779275B (zh) | 基于医疗数据的特征提取方法、装置、设备及存储介质 | |
CN110019780A (zh) | 文本信息排序的方法、信息处理的方法及相关装置 | |
US20220294716A1 (en) | Early warning method and early warning apparatus for service flow, storage medium, and computer equipment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190607 |