CN104461551A - 基于数据并行处理的大数据处理系统 - Google Patents

基于数据并行处理的大数据处理系统 Download PDF

Info

Publication number
CN104461551A
CN104461551A CN201410783094.4A CN201410783094A CN104461551A CN 104461551 A CN104461551 A CN 104461551A CN 201410783094 A CN201410783094 A CN 201410783094A CN 104461551 A CN104461551 A CN 104461551A
Authority
CN
China
Prior art keywords
module
data
processing
map
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410783094.4A
Other languages
English (en)
Inventor
高辉
尚成辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhu Leruisi Information Consulting Co Ltd
Original Assignee
Wuhu Leruisi Information Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhu Leruisi Information Consulting Co Ltd filed Critical Wuhu Leruisi Information Consulting Co Ltd
Priority to CN201410783094.4A priority Critical patent/CN104461551A/zh
Publication of CN104461551A publication Critical patent/CN104461551A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及网络通信技术领域,具体地说是一种能够有效提高数据处理速度、降低系统复杂度的基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块、与数据预处理模块相连接的数据挖掘模块以及与数据挖掘模块相连接的显示输出模块,还设有与数据挖掘模块相连接的参数设置模块;所述数据预处理模块包括属性增/删模块、属性位置交换模块、添加ID属性模块、多表合并模块、属性规约模块、数据冗余处理模块、数据抽样模块、数据噪声处理模块,本发明与现有技术相比,克服了单机节点串行处理方式的不足,提高了数据处理量和处理速度,具有结构合理、运行稳定、效率高等显著的优点。

Description

基于数据并行处理的大数据处理系统
技术领域:
本发明涉及网络通信技术领域,具体地说是一种能够有效提高数据处理速度、降低系统复杂度的基于数据并行处理的大数据处理系统。
背景技术:
大数据技术或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到汲取、管理、处理并整理成为帮助企业经营决策更积极目的资讯。大数据计数的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化的处理,换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过加工数据实现增值。
如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但有时潜在有用的信息的过程被称为数据挖掘,显而易见,数据挖掘时大数据技术的关键。
现有的大数据系统处理数据时仍采用单机节点上的串行方式实现,其数据处理量以及算法的负载度依赖于单个执行节点的性能,而由于大数据处理系统往往要对海量数据进行处理,现有的单机节点串行机制显然存在效率低、运算量低的问题。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种能够有效提高数据处理速度、降低系统复杂度的基于数据并行处理的大数据处理系统。
本发明可以通过以下措施达到:
一种基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块、与数据预处理模块相连接的数据挖掘模块以及与数据挖掘模块相连接的显示输出模块,还设有与数据挖掘模块相连接的参数设置模块;所述数据预处理模块包括属性增/删模块、属性位置交换模块、添加ID属性模块、多表合并模块、属性规约模块、数据冗余处理模块、数据抽样模块、数据噪声处理模块。
本发明所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块。
本发明所述聚类模块中设有K-means算法模型。
本发明所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明与现有技术相比,克服了单机节点串行处理方式的不足,提高了数据处理量和处理速度,具有结构合理、运行稳定、效率高等显著的优点。
附图说明:
附图1是本发明的结构框图。
附图标记:数据预处理模块1、数据挖掘模块2、显示输出模块3、参数设置模块4、属性增/删模块5、属性位置交换模块6、添加ID属性模块7、多表合并模块8、属性规约模块9、数据冗余处理模块10、数据抽样模块11、数据噪声处理模块12、聚类模块13、分类模块14、关联规则模块15、社会关系网分析模块16。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图1所示,本发明提出了一种基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块1、与数据预处理模块1相连接的数据挖掘模块2以及与数据挖掘模块2相连接的显示输出模块3,还设有与数据挖掘模块2相连接的参数设置模块4;所述数据预处理模块1包括属性增/删模块5、属性位置交换模块6、添加ID属性模块7、多表合并模块8、属性规约模块9、数据冗余处理模块10、数据抽样模块11、数据噪声处理模块12。
本发明所述数据挖掘模块2包括聚类模块13、分类模块14、关联规则模块15、社会关系网分析模块16。
本发明所述聚类模块中设有K-means算法模型。
本发明所述数据预处理模块1采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块2为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明与现有技术相比,克服了单机节点串行处理方式的不足,提高了数据处理量和处理速度,具有结构合理、运行稳定、效率高等显著的优点。

Claims (5)

1.一种基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块、与数据预处理模块相连接的数据挖掘模块以及与数据挖掘模块相连接的显示输出模块,还设有与数据挖掘模块相连接的参数设置模块;所述数据预处理模块包括属性增/删模块、属性位置交换模块、添加ID属性模块、多表合并模块、属性规约模块、数据冗余处理模块、数据抽样模块、数据噪声处理模块。
2.根据权利要求1所述的一种基于数据并行处理的大数据处理系统,其特征在于所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块。
3.根据权利要求2所述的一种基于数据并行处理的大数据处理系统,其特征在于所述聚类模块中设有K-means算法模型。
4.根据权利要求1所述的一种基于数据并行处理的大数据处理系统,其特征在于所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
5.根据权利要求1所述的一种基于数据并行处理的大数据处理系统,其特征在于所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
CN201410783094.4A 2014-12-16 2014-12-16 基于数据并行处理的大数据处理系统 Pending CN104461551A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410783094.4A CN104461551A (zh) 2014-12-16 2014-12-16 基于数据并行处理的大数据处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410783094.4A CN104461551A (zh) 2014-12-16 2014-12-16 基于数据并行处理的大数据处理系统

Publications (1)

Publication Number Publication Date
CN104461551A true CN104461551A (zh) 2015-03-25

Family

ID=52907662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410783094.4A Pending CN104461551A (zh) 2014-12-16 2014-12-16 基于数据并行处理的大数据处理系统

Country Status (1)

Country Link
CN (1) CN104461551A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427016A (zh) * 2015-10-28 2016-03-23 南车株洲电力机车研究所有限公司 一种机车车载数据处理方法及系统
CN105608539A (zh) * 2015-12-30 2016-05-25 芜湖乐锐思信息咨询有限公司 基于复杂产品投产规划的快速分析系统
CN105631029A (zh) * 2015-12-30 2016-06-01 芜湖乐锐思信息咨询有限公司 基于用户主观行为分析的网络监控系统
CN105677784A (zh) * 2015-12-30 2016-06-15 芜湖乐锐思信息咨询有限公司 基于并行处理的集成网络信息分析系统
CN105701157A (zh) * 2015-12-30 2016-06-22 芜湖乐锐思信息咨询有限公司 集成社交网站信息的监控系统
CN106530723A (zh) * 2016-12-28 2017-03-22 芜湖乐锐思信息咨询有限公司 基于并行数据挖掘的交通导航系统
CN106650852A (zh) * 2016-12-28 2017-05-10 芜湖乐锐思信息咨询有限公司 基于数据挖掘的交通信息管理系统
CN106781482A (zh) * 2016-12-28 2017-05-31 芜湖乐锐思信息咨询有限公司 新型智能交通数据处理系统
CN106781481A (zh) * 2016-12-28 2017-05-31 芜湖乐锐思信息咨询有限公司 基于云计算的城市道路信息交互系统
CN107357873A (zh) * 2017-07-04 2017-11-17 深圳齐心集团股份有限公司 一种大数据存储管理系统
CN107395694A (zh) * 2017-07-04 2017-11-24 深圳齐心集团股份有限公司 一种大数据管理系统
CN108549583A (zh) * 2018-04-17 2018-09-18 成都致云科技有限公司 大数据处理方法、装置、服务器及可读存储介质
WO2019006634A1 (zh) * 2017-07-04 2019-01-10 深圳齐心集团股份有限公司 一种计算机大数据存储系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328192B1 (en) * 2002-05-10 2008-02-05 Oracle International Corporation Asynchronous data mining system for database management system
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库系统
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN103886487A (zh) * 2014-03-28 2014-06-25 焦点科技股份有限公司 基于分布式的b2b平台的个性化推荐方法与系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328192B1 (en) * 2002-05-10 2008-02-05 Oracle International Corporation Asynchronous data mining system for database management system
CN101799809A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 数据挖掘方法和数据挖掘系统
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库系统
CN103838863A (zh) * 2014-03-14 2014-06-04 内蒙古科技大学 一种基于云计算平台的大数据聚类算法
CN103886487A (zh) * 2014-03-28 2014-06-25 焦点科技股份有限公司 基于分布式的b2b平台的个性化推荐方法与系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105427016A (zh) * 2015-10-28 2016-03-23 南车株洲电力机车研究所有限公司 一种机车车载数据处理方法及系统
CN105608539A (zh) * 2015-12-30 2016-05-25 芜湖乐锐思信息咨询有限公司 基于复杂产品投产规划的快速分析系统
CN105631029A (zh) * 2015-12-30 2016-06-01 芜湖乐锐思信息咨询有限公司 基于用户主观行为分析的网络监控系统
CN105677784A (zh) * 2015-12-30 2016-06-15 芜湖乐锐思信息咨询有限公司 基于并行处理的集成网络信息分析系统
CN105701157A (zh) * 2015-12-30 2016-06-22 芜湖乐锐思信息咨询有限公司 集成社交网站信息的监控系统
CN106650852A (zh) * 2016-12-28 2017-05-10 芜湖乐锐思信息咨询有限公司 基于数据挖掘的交通信息管理系统
CN106530723A (zh) * 2016-12-28 2017-03-22 芜湖乐锐思信息咨询有限公司 基于并行数据挖掘的交通导航系统
CN106781482A (zh) * 2016-12-28 2017-05-31 芜湖乐锐思信息咨询有限公司 新型智能交通数据处理系统
CN106781481A (zh) * 2016-12-28 2017-05-31 芜湖乐锐思信息咨询有限公司 基于云计算的城市道路信息交互系统
CN107357873A (zh) * 2017-07-04 2017-11-17 深圳齐心集团股份有限公司 一种大数据存储管理系统
CN107395694A (zh) * 2017-07-04 2017-11-24 深圳齐心集团股份有限公司 一种大数据管理系统
WO2019006634A1 (zh) * 2017-07-04 2019-01-10 深圳齐心集团股份有限公司 一种计算机大数据存储系统
CN108549583A (zh) * 2018-04-17 2018-09-18 成都致云科技有限公司 大数据处理方法、装置、服务器及可读存储介质
CN108549583B (zh) * 2018-04-17 2021-05-07 致云科技有限公司 大数据处理方法、装置、服务器及可读存储介质

Similar Documents

Publication Publication Date Title
CN104461551A (zh) 基于数据并行处理的大数据处理系统
CN107145586B (zh) 一种基于电力营销数据的标签产出方法和装置
CN104361110B (zh) 海量用电数据分析系统及其实时计算、数据挖掘方法
CN103488709B (zh) 一种索引建立方法及系统、检索方法及系统
CN110019267A (zh) 一种元数据更新方法、装置、系统、电子设备及存储介质
CN104331435A (zh) 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法
CN103995807B (zh) 一种基于Web架构下海量数据查询和二次处理的方法
CN109241414A (zh) 基于消息模板的系统消息推送方法及终端设备
CN110471900A (zh) 数据处理方法及终端设备
CN103116599A (zh) 一种基于改进Bloom Filter结构的城市海量数据流快速冗余消除方法
CN103064748A (zh) 一种Linux下处理多进程间通讯的方法
CN103150149A (zh) 处理数据库重做数据的方法和装置
CN104618304A (zh) 数据处理方法及数据处理系统
CN104462456A (zh) 基于生活数据处理的大数据系统
CN104881467A (zh) 基于频繁项集的数据关联性分析和预读取方法
CN104731852A (zh) 一种大数据系统
CN103309867A (zh) 基于Hadoop平台的Web数据挖掘系统
CN113568938B (zh) 数据流处理方法、装置、电子设备及存储介质
EP3475852A1 (en) Method and system for flexible, high performance structured data processing
CN102685222B (zh) 一种用于电力系统的云存储资源管理装置
CN205899536U (zh) 一种基于瓦片地图的地理信息服务系统
CN112613964A (zh) 一种对账方法、装置、设备及存储介质
CN104407811B (zh) 一种基于云计算的合并io装置
CN112000703B (zh) 数据入库处理方法、装置、计算机设备和存储介质
CN113704215B (zh) 业务过程事件日志采样方法、系统、存储介质及计算设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150325