CN104461551A - 基于数据并行处理的大数据处理系统 - Google Patents
基于数据并行处理的大数据处理系统 Download PDFInfo
- Publication number
- CN104461551A CN104461551A CN201410783094.4A CN201410783094A CN104461551A CN 104461551 A CN104461551 A CN 104461551A CN 201410783094 A CN201410783094 A CN 201410783094A CN 104461551 A CN104461551 A CN 104461551A
- Authority
- CN
- China
- Prior art keywords
- module
- data
- processing
- map
- mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及网络通信技术领域,具体地说是一种能够有效提高数据处理速度、降低系统复杂度的基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块、与数据预处理模块相连接的数据挖掘模块以及与数据挖掘模块相连接的显示输出模块,还设有与数据挖掘模块相连接的参数设置模块;所述数据预处理模块包括属性增/删模块、属性位置交换模块、添加ID属性模块、多表合并模块、属性规约模块、数据冗余处理模块、数据抽样模块、数据噪声处理模块,本发明与现有技术相比,克服了单机节点串行处理方式的不足,提高了数据处理量和处理速度,具有结构合理、运行稳定、效率高等显著的优点。
Description
技术领域:
本发明涉及网络通信技术领域,具体地说是一种能够有效提高数据处理速度、降低系统复杂度的基于数据并行处理的大数据处理系统。
背景技术:
大数据技术或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到汲取、管理、处理并整理成为帮助企业经营决策更积极目的资讯。大数据计数的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化的处理,换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过加工数据实现增值。
如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但有时潜在有用的信息的过程被称为数据挖掘,显而易见,数据挖掘时大数据技术的关键。
现有的大数据系统处理数据时仍采用单机节点上的串行方式实现,其数据处理量以及算法的负载度依赖于单个执行节点的性能,而由于大数据处理系统往往要对海量数据进行处理,现有的单机节点串行机制显然存在效率低、运算量低的问题。
发明内容:
本发明针对现有技术中存在的缺点和不足,提出了一种能够有效提高数据处理速度、降低系统复杂度的基于数据并行处理的大数据处理系统。
本发明可以通过以下措施达到:
一种基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块、与数据预处理模块相连接的数据挖掘模块以及与数据挖掘模块相连接的显示输出模块,还设有与数据挖掘模块相连接的参数设置模块;所述数据预处理模块包括属性增/删模块、属性位置交换模块、添加ID属性模块、多表合并模块、属性规约模块、数据冗余处理模块、数据抽样模块、数据噪声处理模块。
本发明所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块。
本发明所述聚类模块中设有K-means算法模型。
本发明所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明与现有技术相比,克服了单机节点串行处理方式的不足,提高了数据处理量和处理速度,具有结构合理、运行稳定、效率高等显著的优点。
附图说明:
附图1是本发明的结构框图。
附图标记:数据预处理模块1、数据挖掘模块2、显示输出模块3、参数设置模块4、属性增/删模块5、属性位置交换模块6、添加ID属性模块7、多表合并模块8、属性规约模块9、数据冗余处理模块10、数据抽样模块11、数据噪声处理模块12、聚类模块13、分类模块14、关联规则模块15、社会关系网分析模块16。
具体实施方式:
下面结合附图对本发明作进一步的说明。
如附图1所示,本发明提出了一种基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块1、与数据预处理模块1相连接的数据挖掘模块2以及与数据挖掘模块2相连接的显示输出模块3,还设有与数据挖掘模块2相连接的参数设置模块4;所述数据预处理模块1包括属性增/删模块5、属性位置交换模块6、添加ID属性模块7、多表合并模块8、属性规约模块9、数据冗余处理模块10、数据抽样模块11、数据噪声处理模块12。
本发明所述数据挖掘模块2包括聚类模块13、分类模块14、关联规则模块15、社会关系网分析模块16。
本发明所述聚类模块中设有K-means算法模型。
本发明所述数据预处理模块1采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
本发明所述数据挖掘模块2为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
本发明与现有技术相比,克服了单机节点串行处理方式的不足,提高了数据处理量和处理速度,具有结构合理、运行稳定、效率高等显著的优点。
Claims (5)
1.一种基于数据并行处理的大数据处理系统,其特征在于设有数据预处理模块、与数据预处理模块相连接的数据挖掘模块以及与数据挖掘模块相连接的显示输出模块,还设有与数据挖掘模块相连接的参数设置模块;所述数据预处理模块包括属性增/删模块、属性位置交换模块、添加ID属性模块、多表合并模块、属性规约模块、数据冗余处理模块、数据抽样模块、数据噪声处理模块。
2.根据权利要求1所述的一种基于数据并行处理的大数据处理系统,其特征在于所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块。
3.根据权利要求2所述的一种基于数据并行处理的大数据处理系统,其特征在于所述聚类模块中设有K-means算法模型。
4.根据权利要求1所述的一种基于数据并行处理的大数据处理系统,其特征在于所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
5.根据权利要求1所述的一种基于数据并行处理的大数据处理系统,其特征在于所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783094.4A CN104461551A (zh) | 2014-12-16 | 2014-12-16 | 基于数据并行处理的大数据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410783094.4A CN104461551A (zh) | 2014-12-16 | 2014-12-16 | 基于数据并行处理的大数据处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104461551A true CN104461551A (zh) | 2015-03-25 |
Family
ID=52907662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410783094.4A Pending CN104461551A (zh) | 2014-12-16 | 2014-12-16 | 基于数据并行处理的大数据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104461551A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427016A (zh) * | 2015-10-28 | 2016-03-23 | 南车株洲电力机车研究所有限公司 | 一种机车车载数据处理方法及系统 |
CN105608539A (zh) * | 2015-12-30 | 2016-05-25 | 芜湖乐锐思信息咨询有限公司 | 基于复杂产品投产规划的快速分析系统 |
CN105631029A (zh) * | 2015-12-30 | 2016-06-01 | 芜湖乐锐思信息咨询有限公司 | 基于用户主观行为分析的网络监控系统 |
CN105677784A (zh) * | 2015-12-30 | 2016-06-15 | 芜湖乐锐思信息咨询有限公司 | 基于并行处理的集成网络信息分析系统 |
CN105701157A (zh) * | 2015-12-30 | 2016-06-22 | 芜湖乐锐思信息咨询有限公司 | 集成社交网站信息的监控系统 |
CN106530723A (zh) * | 2016-12-28 | 2017-03-22 | 芜湖乐锐思信息咨询有限公司 | 基于并行数据挖掘的交通导航系统 |
CN106650852A (zh) * | 2016-12-28 | 2017-05-10 | 芜湖乐锐思信息咨询有限公司 | 基于数据挖掘的交通信息管理系统 |
CN106781481A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 基于云计算的城市道路信息交互系统 |
CN106781482A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 新型智能交通数据处理系统 |
CN107357873A (zh) * | 2017-07-04 | 2017-11-17 | 深圳齐心集团股份有限公司 | 一种大数据存储管理系统 |
CN107395694A (zh) * | 2017-07-04 | 2017-11-24 | 深圳齐心集团股份有限公司 | 一种大数据管理系统 |
CN108549583A (zh) * | 2018-04-17 | 2018-09-18 | 成都致云科技有限公司 | 大数据处理方法、装置、服务器及可读存储介质 |
WO2019006634A1 (zh) * | 2017-07-04 | 2019-01-10 | 深圳齐心集团股份有限公司 | 一种计算机大数据存储系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7328192B1 (en) * | 2002-05-10 | 2008-02-05 | Oracle International Corporation | Asynchronous data mining system for database management system |
CN101799809A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 数据挖掘方法和数据挖掘系统 |
CN102521246A (zh) * | 2011-11-11 | 2012-06-27 | 国网信息通信有限公司 | 一种云数据仓库系统 |
CN103838863A (zh) * | 2014-03-14 | 2014-06-04 | 内蒙古科技大学 | 一种基于云计算平台的大数据聚类算法 |
CN103886487A (zh) * | 2014-03-28 | 2014-06-25 | 焦点科技股份有限公司 | 基于分布式的b2b平台的个性化推荐方法与系统 |
-
2014
- 2014-12-16 CN CN201410783094.4A patent/CN104461551A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7328192B1 (en) * | 2002-05-10 | 2008-02-05 | Oracle International Corporation | Asynchronous data mining system for database management system |
CN101799809A (zh) * | 2009-02-10 | 2010-08-11 | 中国移动通信集团公司 | 数据挖掘方法和数据挖掘系统 |
CN102521246A (zh) * | 2011-11-11 | 2012-06-27 | 国网信息通信有限公司 | 一种云数据仓库系统 |
CN103838863A (zh) * | 2014-03-14 | 2014-06-04 | 内蒙古科技大学 | 一种基于云计算平台的大数据聚类算法 |
CN103886487A (zh) * | 2014-03-28 | 2014-06-25 | 焦点科技股份有限公司 | 基于分布式的b2b平台的个性化推荐方法与系统 |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105427016A (zh) * | 2015-10-28 | 2016-03-23 | 南车株洲电力机车研究所有限公司 | 一种机车车载数据处理方法及系统 |
CN105608539A (zh) * | 2015-12-30 | 2016-05-25 | 芜湖乐锐思信息咨询有限公司 | 基于复杂产品投产规划的快速分析系统 |
CN105631029A (zh) * | 2015-12-30 | 2016-06-01 | 芜湖乐锐思信息咨询有限公司 | 基于用户主观行为分析的网络监控系统 |
CN105677784A (zh) * | 2015-12-30 | 2016-06-15 | 芜湖乐锐思信息咨询有限公司 | 基于并行处理的集成网络信息分析系统 |
CN105701157A (zh) * | 2015-12-30 | 2016-06-22 | 芜湖乐锐思信息咨询有限公司 | 集成社交网站信息的监控系统 |
CN106650852A (zh) * | 2016-12-28 | 2017-05-10 | 芜湖乐锐思信息咨询有限公司 | 基于数据挖掘的交通信息管理系统 |
CN106530723A (zh) * | 2016-12-28 | 2017-03-22 | 芜湖乐锐思信息咨询有限公司 | 基于并行数据挖掘的交通导航系统 |
CN106781481A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 基于云计算的城市道路信息交互系统 |
CN106781482A (zh) * | 2016-12-28 | 2017-05-31 | 芜湖乐锐思信息咨询有限公司 | 新型智能交通数据处理系统 |
CN107357873A (zh) * | 2017-07-04 | 2017-11-17 | 深圳齐心集团股份有限公司 | 一种大数据存储管理系统 |
CN107395694A (zh) * | 2017-07-04 | 2017-11-24 | 深圳齐心集团股份有限公司 | 一种大数据管理系统 |
WO2019006634A1 (zh) * | 2017-07-04 | 2019-01-10 | 深圳齐心集团股份有限公司 | 一种计算机大数据存储系统 |
CN108549583A (zh) * | 2018-04-17 | 2018-09-18 | 成都致云科技有限公司 | 大数据处理方法、装置、服务器及可读存储介质 |
CN108549583B (zh) * | 2018-04-17 | 2021-05-07 | 致云科技有限公司 | 大数据处理方法、装置、服务器及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104461551A (zh) | 基于数据并行处理的大数据处理系统 | |
US11979433B2 (en) | Highly scalable four-dimensional web-rendering geospatial data system for simulated worlds | |
CN107145586B (zh) | 一种基于电力营销数据的标签产出方法和装置 | |
CN105260319A (zh) | 移动终端的清理方法及系统 | |
CN104331435A (zh) | 一种基于Hadoop大数据平台的低影响高效率的海量数据抽取方法 | |
CN110019267A (zh) | 一种元数据更新方法、装置、系统、电子设备及存储介质 | |
WO2019047441A1 (zh) | 一种通信优化方法及系统 | |
CN109241414A (zh) | 基于消息模板的系统消息推送方法及终端设备 | |
CN106126601A (zh) | 一种社保大数据分布式预处理方法及系统 | |
CN112000703B (zh) | 数据入库处理方法、装置、计算机设备和存储介质 | |
CN110471900A (zh) | 数据处理方法及终端设备 | |
CN103064748A (zh) | 一种Linux下处理多进程间通讯的方法 | |
CN104618304A (zh) | 数据处理方法及数据处理系统 | |
CN104462456A (zh) | 基于生活数据处理的大数据系统 | |
CN104615684A (zh) | 一种海量数据通信并发处理方法及系统 | |
CN104731852A (zh) | 一种大数据系统 | |
CN113568938A (zh) | 数据流处理方法、装置、电子设备及存储介质 | |
CN112613964A (zh) | 一种对账方法、装置、设备及存储介质 | |
CN105005604A (zh) | 一种大数据系统 | |
CN103995827A (zh) | MapReduce计算框架中的高性能排序方法 | |
CN103309867A (zh) | 基于Hadoop平台的Web数据挖掘系统 | |
CN113014674B (zh) | 服务依赖关系图的绘制方法及装置 | |
CN104407811B (zh) | 一种基于云计算的合并io装置 | |
CN109388615A (zh) | 基于Spark的任务处理方法及系统 | |
CN106682047B (zh) | 一种数据导入方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150325 |