CN103150163A - 一种基于MapReduce模型的并行关联方法 - Google Patents

一种基于MapReduce模型的并行关联方法 Download PDF

Info

Publication number
CN103150163A
CN103150163A CN2013100641171A CN201310064117A CN103150163A CN 103150163 A CN103150163 A CN 103150163A CN 2013100641171 A CN2013100641171 A CN 2013100641171A CN 201310064117 A CN201310064117 A CN 201310064117A CN 103150163 A CN103150163 A CN 103150163A
Authority
CN
China
Prior art keywords
item
map
collection
task
reduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013100641171A
Other languages
English (en)
Inventor
李千目
陈强富
施丛丛
魏士祥
印杰
侯君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Original Assignee
Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology Changshu Research Institute Co Ltd filed Critical Nanjing University of Science and Technology Changshu Research Institute Co Ltd
Priority to CN2013100641171A priority Critical patent/CN103150163A/zh
Publication of CN103150163A publication Critical patent/CN103150163A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘技术,特别是一种基于MapReduce模型的并行关联方法。该方法首先对数据进行预处理,设置最小支持度和最小置信度;然后经特殊处理1项集,求得第1项集和第2项集;然后配置第k项集,执行后再统计出k项集的计数,通过主进程读取第k个任务的输出,计算支持度,获得频繁k项集和k+1项候选集,并设置k=k+1,开始循环,直至k+1项候选集为空。本发明与现有技术相比,其显著优点:(1)利用Map/Reduce编程模型,能够执行分布式的计算,充分地利用集群的效率;(2)使用Map/Reduce能够有效地进行负载均衡;(3)使用Map/Reduce能够有效的避免分布式的节点失效。

Description

一种基于MapReduce模型的并行关联方法
技术领域
本发明属于数据挖掘技术,特别是一种基于MapReduce模型的并行关联方法。
背景技术
随着信息化技术的不断发展,人们的现实生活都被数字化了,各种数据被搜集起来,引起了数据爆炸式的增长,为了充分挖掘这些数据之间的关联性,许多公司投入了大量了人力财力来进行数据分析。数据分析得到的结果是企业决策的重要依据,所以,数据分析的方法决定了这些数据的价值。
在数据挖掘方面,关联规则是非常重要的一种技术。它能够将数据库中的一些具有相关联性的数据分析出来。关联规则的挖掘一般分为两步的步骤。第一阶段,从原始资料集合中找出所有频繁项集(Large Itemsets)。频繁的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。该水平值被称为支持度,若支持度大于等于所设定的最小支持度(Minimum Support)阀值时,则该项目组称为频繁项集。一个满足最小支持度的k项集,则称为频繁k项集(Frequent k-itemset)。算法从频繁k项集中再产生频繁k+1项集,直到无法再找到更长的频繁项集为止。第二阶段是产生关联规则(Association Rules)。从频繁项集产生关联规则,是利用前一步骤的频繁k项集来产生规则,在最小置信度(Minimum Confidence)的阀值下,若一规则所求得的置信度满足最小置信度,称此规则为关联规则。
在并行式的关联规则挖掘算法方面,Rakesh Agrawal等(Rakesh Agrawal,John C. Shafer. Parallel Mining of Association Rules[J]. IEEE Transactions on Knowledge and Data Engineering. 1996, 8(6): 962-969P.)提出了三种并行式的关联规则挖掘算法:CD,DD,CaD。这几种关联规则挖掘算法都是基于Apriori算法,主要是通过计数来获得频繁项集并通过集合递推的方式来获得最终结果。
在分布式的编程模型方面,谷歌公司提出了Map/Reduce的分布式编程模型,如图1所示,其利用map和reduce框架能够在分布式的集群上实现大规模的分布式计算(Dean J. and Ghemawat S. Mapreduce: simplified data processing on large clusters[J], Commun. ACM, 51, 1, pp. 107-113, 2008.),并且具有很高的稳定性能。
发明内容
本发明的目的在于提供一种基于MapReduce模型的并行关联方法,从而实现了在巨量的数据中并行式的数据关联性分析,并且克服并行计算的弊端。
实现本发明目的的技术解决方案为:一种基于MapReduce模型的并行关联方法,步骤如下:
第一步,对数据进行预处理,将所有的数据值规约在有限的离散集合中,并设置最小支持度fF和最小置信度fS。
第二步,在MapReduce编程框架下,特殊处理1项集,即:把整个数据集作为输入文件,实现一个map类来统计数据中候选项的计数,实现一个reduce类来合并由map进程返回的计数,然后处理第一个任务,输出作为一个文件,包含1项集的计数m和总记录个数n。
第三步,主进程读取第一个任务的输出文件,利用公式                                               
Figure 2013100641171100002DEST_PATH_IMAGE002
计算出支持度,如果该支持度不小于最小支持度fF的话,可以得到频繁1项集。
第四步,为第k(k>=2)个任务设置map类和reduce类,这两个类实现并行关联算法CD,利用map/reduce框架来执行任务,输出包含k项集的项目名和该项目的计数。
第五步,主进程读取第k个任务的输出集合,计算并对比支持度,获得了频繁k项集,然后计算出k+1项侯选集,如果k+1项候选集为空,那么结束该步骤;如果候选集为非空,那么执行第四步,设置k值等于k+1,开始下一轮的循环。
第六步,利用公式
Figure 2013100641171100002DEST_PATH_IMAGE004
来计算置信度,如果置信度大于最小置信度fS,该规则就是强规则。
本发明与现有技术相比,其显著优点:(1)利用Map/Reduce编程模型,能够执行分布式的计算,充分地利用集群的效率;(2)使用Map/Reduce能够有效地进行负载均衡;(3)使用Map/Reduce能够有效的避免分布式的节点失效。
附图说明
图1是现有技术中MapReduce编程模型。
图2是使用MapReduce模型编写的程序流程图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
本发明涉及基于MapReduce模型的并行关联方法,步骤如下:
第一步,安装Hadoop集群,并且将数据分为M份,M必须大于整个Hadoop集群的处理单元数。
第二步,对数据进行预处理,将所有的数据值规约在有限的离散集合中,并设置最小支持度fF和最小置信度fS。程序流程图如图2所示。
第三步,特殊处理1项集,即:把整个数据集作为输入文件,编写一个map类来实现从数据集中寻找相同的数据项并计数,编写一个reduce类来实现计数,在实验中采用hadoop自带的类LongSumReducer,在hadoop框架中设定map类和reduce类,然后处理第一个任务,输出作为一个文件,包含1项集的计数m和总记录个数n。
第四步,主进程读取第一个任务的输出文件,利用公式
Figure 474133DEST_PATH_IMAGE002
计算出支持度,如果该支持度不小于最小支持度fF的话,那么该项就包含于频繁1项集,并且寻找出第2项候选集,其中寻找第k+1项候选集的方法是:在数据集DS中寻找包含该k项的项目,如果其长度为k+1,那么该k+1项目就包含于k+1候选集。
第五步,为第k(k>=2)个任务设置map类和reduce类,将分割的数据集DSi作为参数传递给该任务,利用map/reduce框架来执行任务。输出为一个列表,该列表中包含(key,value)项,其中key为项目的名称,value为计数。
第六步,待第k个任务完成后,主进程读取第k个任务的输出列表,计算并对比其支持度,获得了频繁k项集,然后寻找出k+1项候选集。如果k+1项候选集为空,那么结束该步骤;如果候选集为非空,那么执行第四步,设置k值等于k+1,开始下一轮的循环。
第七步,利用公式
Figure 391273DEST_PATH_IMAGE004
来计算置信度,如果置信度大于最小置信度fS,该规则就是强规则。
本发明利用Map/Reduce编程模型,能够执行分布式的计算,充分地利用集群的效率;使用Map/Reduce能够有效地进行负载均衡;使用Map/Reduce能够有效的避免分布式的节点失效。

Claims (2)

1.一种基于Hadoop的并行关联方法,其特征在于具体步骤如下:
第一步,对数据集进行预处理,将所有的数据值规约在有限的离散集合中,并设置最小支持度fF和最小置信度fS;
第二步,在MapReduce编程框架下,特殊处理1项集,把整个数据集作为输入文件,实现一个map类来统计数据中候选项的计数,实现一个reduce类来合并由map进程返回的计数,然后处理第一个任务,输出作为一个文件,包含1项集的计数m和总记录个数n;
第三步,利用MapReduce分布式编程模型来在集群中执行分布式计算,采用递推式的方式来求得k项集,直到第k项集为空为止; 
第四步,利用公式                                               来计算置信度,如果置信度大于最小置信度fS,该规则就是强规则。
2.根据权利要求1所述的基于Hadoop的并行关联方法,其特征在于:第三步中所述的利用MapReduce分布式编程模型来在集群中执行分布式的计算,具体实现过程如下:
第一步,安装Hadoop集群,并且将数据分为M份,M大于整个Hadoop集群的处理单元数;
第二步,特殊处理1项集,把整个数据集作为输入文件,编写一个map类来实现从数据集中寻找相同的数据项并计数,编写一个reduce类来实现计数,在实验中采用hadoop自带的类LongSumReducer,在hadoop框架中设定map类和reduce类,然后处理第一个任务;输出作为一个文件,包含1项集的计数m和总记录个数n;
第三步,主进程读取第一个任务的输出文件,利用公式
Figure 2013100641171100001DEST_PATH_IMAGE004
计算出支持度,如果该支持度不小于最小支持度fF的话,那么该项就包含于频繁1项集;
第四步,为第k(k>=2)个任务设置map类和reduce类,将分割的数据集DSi作为参数传递给该任务,利用map/reduce框架来执行任务,输出为一个列表,该列表中包含(key,value)项,其中key为项目的名称,value为计数;
第五步,待第k个任务完成后,主进程读取第k个任务的输出列表,计算并对比其支持度,获得了频繁k项集,然后在整个数据集DS中寻找包含k项的项目,如果其长度等于k+1的话,该项目就属于k+1项侯选集,如果k+1项候选集为空,那么结束该步骤;如果候选集为非空,那么执行第四步,设置k值等于k+1,开始下一轮的循环;
第六步,计算最后所获得的最大k项集的置信度,根据置信度确定关联规则。
CN2013100641171A 2013-03-01 2013-03-01 一种基于MapReduce模型的并行关联方法 Pending CN103150163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013100641171A CN103150163A (zh) 2013-03-01 2013-03-01 一种基于MapReduce模型的并行关联方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013100641171A CN103150163A (zh) 2013-03-01 2013-03-01 一种基于MapReduce模型的并行关联方法

Publications (1)

Publication Number Publication Date
CN103150163A true CN103150163A (zh) 2013-06-12

Family

ID=48548265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013100641171A Pending CN103150163A (zh) 2013-03-01 2013-03-01 一种基于MapReduce模型的并行关联方法

Country Status (1)

Country Link
CN (1) CN103150163A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425795A (zh) * 2013-08-31 2013-12-04 四川川大智胜软件股份有限公司 一种基于云计算的雷达数据分析方法
CN103440351A (zh) * 2013-09-22 2013-12-11 广州中国科学院软件应用技术研究所 一种关联规则数据挖掘算法的并行计算方法及装置
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法
CN104573124A (zh) * 2015-02-09 2015-04-29 山东大学 一种基于并行化关联规则算法的教育云应用统计方法
CN105095673A (zh) * 2015-08-26 2015-11-25 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于医疗大数据挖掘的慢性病风险模型的构建方法
CN106503218A (zh) * 2016-10-27 2017-03-15 北京邮电大学 一种并行化工作流关联数据发现方法
CN107229686A (zh) * 2017-05-11 2017-10-03 武汉博创睿新信息科技有限公司 一种基于Hadoop并行挖掘海量数据关联规则的方法
CN107577809A (zh) * 2017-09-27 2018-01-12 北京锐安科技有限公司 离线小文件处理方法及装置
CN108550401A (zh) * 2018-03-20 2018-09-18 昆明理工大学 一种基于Apriori的病症数据关联方法
CN108805755A (zh) * 2018-07-04 2018-11-13 山东汇贸电子口岸有限公司 一种旅游套餐生成方法及装置
US10185752B2 (en) 2014-09-29 2019-01-22 International Business Machines Corporation Mining association rules in the map-reduce framework
CN110489448A (zh) * 2019-07-24 2019-11-22 西安理工大学 基于Hadoop的大数据关联规则的挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301575B1 (en) * 1997-11-13 2001-10-09 International Business Machines Corporation Using object relational extensions for mining association rules
CN102567488A (zh) * 2011-12-21 2012-07-11 江苏远为科技有限公司 基于云计算机框架的电动汽车数据挖掘系统与挖掘方法
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301575B1 (en) * 1997-11-13 2001-10-09 International Business Machines Corporation Using object relational extensions for mining association rules
CN102567488A (zh) * 2011-12-21 2012-07-11 江苏远为科技有限公司 基于云计算机框架的电动汽车数据挖掘系统与挖掘方法
CN102945240A (zh) * 2012-09-11 2013-02-27 杭州斯凯网络科技有限公司 一种支持分布式计算的关联规则挖掘算法实现方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余楚礼: "基于Hadoop的并行并联规则算法研究", <中国优秀硕士学位论文全文数据库> *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425795B (zh) * 2013-08-31 2016-09-21 四川川大智胜软件股份有限公司 一种基于云计算的雷达数据分析方法
CN103425795A (zh) * 2013-08-31 2013-12-04 四川川大智胜软件股份有限公司 一种基于云计算的雷达数据分析方法
CN103440351B (zh) * 2013-09-22 2017-06-30 广州中国科学院软件应用技术研究所 一种关联规则数据挖掘算法的并行计算方法及装置
CN103440351A (zh) * 2013-09-22 2013-12-11 广州中国科学院软件应用技术研究所 一种关联规则数据挖掘算法的并行计算方法及装置
CN103761236A (zh) * 2013-11-20 2014-04-30 同济大学 一种增量式频繁模式增长数据挖掘方法
CN103761236B (zh) * 2013-11-20 2017-02-08 同济大学 一种增量式频繁模式增长数据挖掘方法
US10467236B2 (en) 2014-09-29 2019-11-05 International Business Machines Corporation Mining association rules in the map-reduce framework
US10185752B2 (en) 2014-09-29 2019-01-22 International Business Machines Corporation Mining association rules in the map-reduce framework
CN104573124B (zh) * 2015-02-09 2018-04-10 山东大学 一种基于并行化关联规则算法的教育云应用统计方法
CN104573124A (zh) * 2015-02-09 2015-04-29 山东大学 一种基于并行化关联规则算法的教育云应用统计方法
CN105095673B (zh) * 2015-08-26 2018-03-13 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于医疗大数据挖掘的慢性病风险模型的构建方法
CN105095673A (zh) * 2015-08-26 2015-11-25 中国人民解放军军事医学科学院放射与辐射医学研究所 一种基于医疗大数据挖掘的慢性病风险模型的构建方法
CN106503218A (zh) * 2016-10-27 2017-03-15 北京邮电大学 一种并行化工作流关联数据发现方法
CN107229686A (zh) * 2017-05-11 2017-10-03 武汉博创睿新信息科技有限公司 一种基于Hadoop并行挖掘海量数据关联规则的方法
CN107577809A (zh) * 2017-09-27 2018-01-12 北京锐安科技有限公司 离线小文件处理方法及装置
CN108550401A (zh) * 2018-03-20 2018-09-18 昆明理工大学 一种基于Apriori的病症数据关联方法
CN108805755A (zh) * 2018-07-04 2018-11-13 山东汇贸电子口岸有限公司 一种旅游套餐生成方法及装置
CN110489448A (zh) * 2019-07-24 2019-11-22 西安理工大学 基于Hadoop的大数据关联规则的挖掘方法

Similar Documents

Publication Publication Date Title
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
Ren et al. On querying historical evolving graph sequences
CN102214213B (zh) 一种采用决策树的数据分类方法和系统
CN102222092B (zh) 一种MapReduce平台上的海量高维数据聚类方法
CN107229751A (zh) 一种面向流式数据的并行增量式关联规则挖掘方法
CN102306183B (zh) 一种对事务数据流进行闭合加权频繁模式挖掘的方法
Luo et al. A parallel dbscan algorithm based on spark
CN103676645A (zh) 一种时间序列数据流中的关联规则的挖掘方法
CN104318481A (zh) 一种面向电网运行的全息时标量测数据萃取转换方法
CN105630797B (zh) 数据处理方法及系统
CN106844607A (zh) 一种适用于非整型主键与空闲块合并的SQLite数据恢复方法
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
CN104317794A (zh) 基于动态项权值的中文特征词关联模式挖掘方法及其系统
Theeten et al. Chive: Bandwidth optimized continuous querying in distributed clouds
Khodaei et al. Temporal-textual retrieval: Time and keyword search in web documents
CN102622447B (zh) 一种基于Hadoop的频繁闭项集挖掘方法
CN103559574B (zh) 一种工作流操作方法及系统
CN103761298B (zh) 一种基于分布式架构的实体匹配方法
CN107908696A (zh) 一种并行高效的基于网格与密度的多维空间数据聚类算法griden
CN113641654B (zh) 一种基于实时事件的营销处置规则引擎方法
Zhou et al. Data-driven solutions for building environmental impact assessment
CN108446342A (zh) 一种环境质量评价系统、方法、装置及存储装置
CN104199824A (zh) 一种树型数据上判定节点关系的方法
CN108121807A (zh) Hadoop环境下多维索引结构OBF-Index的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130612