CN103995882A

CN103995882A - 基于MapReduce的概率频繁项集挖掘方法

Info

Publication number: CN103995882A
Application number: CN201410231646.0A
Authority: CN
Inventors: 杨育彬; 徐静; 王苏琦
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-05-28
Filing date: 2014-05-28
Publication date: 2014-08-20
Anticipated expiration: 2034-05-28
Also published as: CN103995882B

Abstract

本发明公开了一种基于MapReduce的概率频繁项集挖掘方法，包含以下步骤：1)读入不确定数据集T1；2)在Map端依次处理不确定数据集T1中的每一个事务，将事务中每一项及其概率值映射成<key,value>键值对；3)在Reduce端接收Map端的输出,利用正态近似方法生成概率频繁1项集；4)，将3)中所输出的概率频繁1项集，生成列表F_list；5)，读入存储在分布式文件系统HDFS上的不确定数据集T1，按照列表F_list进行处理，生成不确定数据集T2；6)，运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集，然后利用正态近似的方法从候选项集中生成概率频繁项集，直到生成所有的概率频繁项集为止。

Description

基于MapReduce的概率频繁项集挖掘方法

技术领域

本发明涉及计算机数据发掘方法，特别是基于MapReduce的大规模不确定数据概率频繁项集的近似挖掘方法。

背景技术

近年来，由于一些新的应用，比如：传感器网络的检测、移动物体的搜索、蛋白间相互作用的网络分析以及数据的集成和数据的清洗等等，不确定数据的挖掘成为了数据挖掘领域的一个新的热门研究话题。不确定数据挖掘主要包括聚类、分类、关联规则的挖掘、孤立点检测等方面，其中频繁项集的挖掘是数据挖掘领域的一个基础。因此，不确定数据中的概率频繁项集的挖掘成为了研究的热点。例如目前比较流行的无线传感网络，无线传感网络搜集了大量的数据。然而由于传感器固有的不确定性，搜集到的数据通常是不精确的。因此，如何挖掘不确定的概率数据中隐藏的规则是很必要的。然而在传统数据的频繁项集的挖掘过程中，每一事物包含的项是确定的，但是在很多不确定数据中，不确定性造成了挖掘结果的复杂性，因此不确定数据中有效的概率频繁项集的挖掘方法是研究的重要课题。而面对海量的数据，传统的单机模式下的概率频繁项集的挖掘方法往往难以满足要求，开源的Hadoop平台为许许多多的数据挖掘方法提供了沃土。

授权中国专利“一种基于Hadoop的频繁闭项集挖掘方法”(102622447A)和“一种基于MapReduce模型的并行关联方法”(103150163A)也是基于Hadoop平台MapReduce模型下，关于频繁项集的挖掘方法。但是，其所关注的问题还是在确定数据中的频繁项集，所求解的频繁项集也是基于项集在所有事务中的支持度，而非项集的频繁概率，该传统方法根本无法处理不确定数据。另有专利“一种关联规则挖掘方法及其系统”(101799810B)也是针对确定数据中频繁项集的挖掘，但一方面该方法因为没有基于MapReduce的并行化不能处理大数据，另一方面该方法不能处理不确定数据，目前已知的关于频繁项集挖掘的专利都不适用于复杂的不确定数据中概率频繁项集的挖掘。

发明内容

发明目的：本发明为了解决现有技术中的问题，提出了一种基于MapReduce的概率频繁项集挖掘方法，通过Hadoop的MapReduce分布式框架下，采用UApriori方法基础上的一种概率频繁项集正态近似挖掘方法，从而有效解决大规模不确定数据下，概率频繁项集快速准确挖掘的问题。

发明内容：本发明公开了一种基于MapReduce的概率频繁项集挖掘方法，包含以下步骤：

1)，读入存储在分布式文件系统HDFS上的不确定数据集T1，该不确定数据集共包含N个事务，N>1；

2)，在Map端依次处理不确定数据集T1中的每一个事务，事务中包含不同的项以及该项在事务中出现的概率值，项是事务中记录数据的基本单元，将事务的每一项及其概率值映射成<key,value>键值对，其中key代表项集，项集是由项组成的集合，value代表该项集在一个事务中的概率值，以事务t1{(B,1.0)；(C,0.5)；(D,0.2)；(E,0.5)}为例，t1中包含5个项B,C,D,E，每一项后面的数字，表示该项出现在事务t1中的概率值，对事务t1来说它将会生成<{B},1.0>,<{C},0.5>,<{D},0.2>和<{E},0.5>的<key,value>键值对，此时的项集key中都只含有1个项，为1项集，当项集中含有k(k≥2)个项时，称之为k项集；

3)，在Reduce端接收Map端的输出，依次处理每个项集key，利用正态近似方法计算项集key的频繁概率，判断该项集key是否为概率频繁项集，若是，则以项集key的频繁概率作为项集key对应的value的值，输出<key,value>键值对，否则舍去当前项集key，继续处理下一个项集，Reduce输出关于概率频繁1项集的<key,value>键值对；

4)，将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序，由此生成列表F_list，列表F_list为概率频繁1项集的集合；

5)，读入存储在分布式文件系统HDFS上的不确定数据集T1，并且将每个事务中的项及其概率值，按照这些项在列表F_list中的顺序进行排序，删去不在列表F_lsit中的项及其概率值，生成处理后的不确定数据集T2，将T2存储在分布式文件系统HDFS上；

6)，运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集，然后利用正态近似的方法从候选项集中生成概率频繁项集，直到生成所有概率频繁项集为止。

本发明中，所述步骤3中利用正态近似来计算项集key的频繁概率，具体如下：

给定一个包含N条事务的不确定数据集，用户给定一个最小支持率minsup和最小频繁概率阈值σ，其中minsup和σ取值范围都为(0,1)，项集X满足：P(sup(X)≥N×minsup)≥σ，那么项集X是概率频繁项集；

正态分布近似概率频繁项挖掘包括以下步骤：

不确定数据集中每个事务是否包含项集X可以看作是一个单一的硬币投掷过程，也就是项集X是否出现在事务中服从泊松二项分布，当数据量很大时，根据Lyapunov中心极限定理，泊松二项分布可以用正态分布来近似求解。sup(X)是指项集X在所有事务中出现的次数，即项集X在不确定数据集中的支持度，首先计算项集X在所有事务中出现的次数得到sup(X)；

如果项集X不满足sup(X)≥N×minsup的条件，那么项集X不是概率频繁项集，若项集X满足sup(X)≥N×minsup的条件，再利用正态分布近似求解项集X的频繁概率，其公式如下：

P (\sup (X) &GreaterEqual; N \times \min \sup) \approx Φ (\frac{N \times \min \sup - 0.5 - esup (X)}{\sqrt{Var (X)}}) - - - (a),

如果项集X的频繁概率不小于阈值σ，那么X是概率频繁项集，否则，X不是概率频繁项集，其中，P(sup(X)≥N×minsup)代表sup(X)大于等于N×minsup的概率值，即项集X的频繁概率，Φ代表正态分布的累积分布函数，esup(X)代表项集X的期望概率支持度，Var(X)代表项集X的方差，计算公式如下：

esup (X) = Σ_{i = 1}^{N} P_{i} (X) - - - (b),

Var (X) = Σ_{i = 1}^{N} P_{i} (X) \times (1 - P_{i} (X)) - - - (c),

其中，P_i(X)表示项集X在第i个事务中的概率值，i取值范围为[1,N]，若第i个事务不包含项集X，则P_i(X)＝0，若第i个事务包含项集X，P_i(X)计算公式如下：

n≥2，P_i(x)表示项x在第i个事务中的概率值，若第i个事务不包含项x，则P_i(x)＝0。

本发明中，所述步骤6)运行基于MapReduce的UApriori方法包含以下步骤：

21)根据列表F_list概率频繁1项集的集合，将列表F_list中任意两个不相同的概率频繁1项集组合生成候选2项集，所有的候选2项集组成候选2项集的集合，存储在分布式文件系统HDFS中；

22)若候选项集的集合不为空，直接进入步骤23)，若候选项集的集合为空，则结束；

23)在Map端载入分布式文件系统HDFS上的候选项集的集合，读取分布式文件系统HDFS上的不确定数据集T2，根据候选项集的集合依次处理不确定数据集T2中的每个事务：如果一个事务中包含候选集合中的一个候选项集，将该候选项集及其在事务中的概率值映射成新的<key,value>键值对，其中key代表新的候选项集，value代表该候选项集在这个事务中的概率值，该概率值根据公式(d)计算；

24)在Reduce端接收Map端的输出，依次处理每个项集key，利用正态近似方法计算项集key的频繁概率，判断该项集key是否为概率频繁项集，若是，则以项集key的频繁概率作为项集key对应的新的value的值，输出新的<key,value>键值对，否则舍去当前项集key，继续处理下一个项集；

25)如果步骤24)中Reduce输出的概率频繁k项集的集合为空，则结束，如果Reduce输出的概率频繁k项集的集合不为空,k≥2，其中k项集表示为项集含有k个项，如果概率频繁k项集的集合中存在任意两个不相同的概率频繁k项集，且任意两个不相同的概率频繁k项集之间包含k-1个相同的项，只有1个项不相同，那么将这两个概率频繁k项集进行合并，生成这两个概率频繁k项集的候选k+1项集，直到生成所有的概率频繁k项集的候选k+1项集，组成候选k+1项集的集合，然后返回步骤22)继续运行。

本方法基于MapReduce分布式框架，以正态近似方法作为计算项集频繁概率的方法，以不确定数据概率频繁项集挖掘算法UApriori作为不断生成概率频繁项集的方法，能够有效提高大规模不确定数据概率频繁项集挖掘的运行效率，并且保证高度的精确率。

本发明提出的基于Hadoop平台MapReduce框架下的概率频繁项集挖掘方法，对于不确定数据中的概率频繁项集挖掘有重要的研究意义。由于概率频繁项集精确挖掘方法的计算复杂度相当高，即使是使用规模较小的不确定数据并且在MapReduce分布式处理框架下，概率频繁项集精确挖掘方法的运行时间也是难以忍受的。为了高效的挖掘概率频繁项集，基于单机的挖掘方法已经被提了出来，但是，这些方法在面对大规模不确定数据时，往往因为内存溢出而运行失败并不能挖掘出概率频繁项集。因此，本发明提出了基于MapReduce的概率频繁项集挖掘方法。

本发明的一些定义如下：

定义1.MapReduce：MapReduce是谷歌提出的分布式并行计算框架，它让程序员只需关注数据的处理，而数据的分布式存储和容错都交给计算框架来解决。而本发明所使用的Hadoop是MapReduce的开源实现，由Apache基金会开发的。Hadoop的配备了一个分布式文件系统HDFS，是Hadoop分布式文件系统Hadoop Distributed File System的缩写。在MapReduce平台上的计算过程中，数据存储在分布式文件系统HDFS中，分布式文件系统HDFS会将数据切分到集群的不同节点上；计算过程主要分为两个阶段：Map阶段和Reduce阶段。集群中的每个节点都有几个Map和Reduce任务，Map阶段主要是从HDFS上读取数据生成<key,value>键值对，共享同一个key的<key,value>键值对由同一个Reduce来处理，Reduce的输出结果存储在HDFS分布式文件系统中。

定义2.UApriori算法：UApriori算法的中文含义是不确定数据的先验算法，是先验算法Apriori在不确定数据中的扩展，是一种基于“生成-测试”的概率频繁项集挖掘算法，算法的基本过程是首先根据概率频繁1项集的集合生成候选2项集，所有的候选2项集组成候选2项集的集合，若候选项集的集合为空则结束，若候选项集的集合不为空则根据数据集测试候选集合中的项集是否是概率频繁项集，输出概率频繁项集，所有的概率频繁项集组成了概率频繁项集的集合，判断输出的概率频繁项集的集合是否为空，为空则结束，不为空则从概率频繁k(k≥2)项集的集合中生成候选k+1项集，所有的候选k+1项集组成候选k+1项集的集合，再根据数据集测试候选集合中的项集是否是概率频繁项集，不断反复迭代，直到生成所有的概率频繁项集为止。

本发明的有益效果在于：

1.高效的计算频繁概率的方法

概率频繁项集的频繁概率不再根据计算复杂度很高的精确挖掘方法来得到，而是利用项集X是否出现在事务中服从泊松二项分布这一性质，当数据量很大时，根据Lyapunov中心极限定理，泊松二项分布可以用正态分布来近似求解，这样利用正态近似求解项集的频繁概率大大降低了计算复杂度。

2.高效的概率频繁项集生成方法

利用不断“生成-测试”的概率频繁项集挖掘算法UApriori，在MapReduce分布式框架下，对数据进行分布式处理，根据频繁概率判断项集是否是概率频繁项集，然后不断生成候选项集，在整个不确定数据集上并行地进行测试，提高概率频繁项集生成的效率。

附图说明

图1为基于正态近似计算频繁概率方法的流程图；

图2为基于MapReduce下UApriori方法实现流程图；

图3为UApriori方法的MapReduce分布式设计框架；

图4为基于MapReduce的概率频繁项集挖掘方法的流程图。

具体实施方式：

以下将结合附图和具体实例对本发明做进一步说明.

本发明提出的基于MapReduce的概率频繁项集挖掘方法对于不确定数据中的概率频繁项集的挖掘有重要的研究意义。一方面，由于现有概率频繁项集精确挖掘方法，挖掘每个概率频繁项集的计算复杂度为O(N²×minsup)，其中N表示不确定数据集中的总事务数，minsup为设定的最小支持率。面对如此之高的计算复杂度，即使使用规模较小的不确定数据集，并且在MapReduce分布式处理的框架下，概率频繁项集精确挖掘方法的运行时间也是难以忍受的。为了高效的挖掘概率频繁项集，一些基于单机的挖掘方法已经被提出来了，但是，这些方法在面对大规模不确定数据时，往往因为内存溢出而运行失败，并不能得到概率频繁项集。因此，本发明提出了基于MapReduce分布式框架下的概率频繁项集挖掘方法，其挖掘每个概率频繁项集的计算复杂度仅为O(N)，主要侧重于利用正态近似求解频繁概率和MapReduce分布式框架下UApriori方法的高效运行，以此提高大规模不确定数据中概率频繁项集的挖掘效率。

如图4所示，本发明公开了一种基于MapReduce的概率频繁项集挖掘方法，包含以下步骤：

2)，在Map端依次处理不确定数据集T1中的每一个事务，事务中包含不同的项以及该项在事务中出现的概率值，项是事务中记录数据的基本单元，将事务的每一项及其概率值映射成<key,value>键值对，其中key代表项集，项集是由项组成的集合，此时项集中只含有1项，为1项集，value代表该项集在一个事务中的概率值；

4)，将3)中所输出<key,value>键值对中的项集key按照value值由大到小进行排序，由此生成列表F_list，列表F_list为概率频繁1项集的集合，其中1项集表示项集中只含有1个项，当项集中含有k(k≥2)个项时，称之为k项集；

6)，运行基于MapReduce的UApriori方法不断处理5)中得到的不确定数据集T2生成候选项集，然后利用正态近似的方法从候选项集中生成概率频繁项集，直到生成所有的概率频繁项集为止。

给定一个包含N条事务的不确定数据集，用户给定一个最小支持率minsup和最小小频繁概率阈值σ，其中minsup和σ取值范围都为(0,1)，项集X满足：P(sup(X)≥N×minsup)≥σ，则项集X是概率频繁项集；

正态分布近似概率频繁项集挖掘包括以下步骤：

sup(X)是指项集X在所有事务中出现的次数，即项集X在不确定数据集中的支持度，首先计算项集X在所有事务中出现的次数得到sup(X)；

P (\sup (X) &GreaterEqual; N \times \min \sup) \approx Φ (\frac{N \times \min \sup - 0.5 - esup (X)}{\sqrt{Var (X)}}) - - - (a),

esup (X) = Σ_{i = 1}^{N} P_{i} (X) - - - (b),

Var (X) = Σ_{i = 1}^{N} P_{i} (X) \times (1 - P_{i} (X)) - - - (c),

25)如果步骤24)中Reduce输出的概率频繁k项集的集合为空，则结束，如果Reduce输出的概率频繁k项集的集合不为空，k≥2，其中k项集表示为项集含有k个项，如果概率频繁k项集的集合中存在任意两个不相同的概率频繁k项集，且任意两个不相同的概率频繁k项集之间包含k-1个相同的项，只有1个项不相同，那么将这两个概率频繁k项集进行合并，生成这两个概率频繁k项集的候选k+1项集，直到生成所有的概率频繁k项集的候选k+1项集，组成候选k+1项集的集合，然后返回步骤22)继续运行。

实施例1

本实施例具体介绍概率频繁项集在不确定数据中体现出的优越性。以表1.Jack的网上购物数据为例，表1中每个事务中的项表示Jack一周中在某购物网站会购买的东西，项后面跟随的数值表明在一周中Jack购买该物品的概率。例如事务t1表示的第一周中Jack浏览某购物网站后共达成P次交易(P为大于0的整数)，其中共有0.7×P次的交易中购买了CD，那么CD在t1中的概率就是0.7，而每次交易中都有购买食品，那么食品在t1中的概率就是1.0。之所以会使用概率来表示购物信息是因为真实的购物数据是非常庞大的，为了更好的存储这些数据，往往需要将数据进行压缩，由此产生了大量的不确定数据。此外，本例只是一个简单的购物数据的例子。在传统频繁项集挖掘的方法中只给定最小支持率minsup，该例子中设定minsup＝0.5，不考虑不确定数据的概率信息，如果项集在数据集中的支持度(sup)不小于N×minsup(3＝6×0.5)，那么该项集就是频繁项集。其中N表示不确定数据中事务的总数，此例子中N为6。由表1可以得知，项CD出现在事务t1，t2，t3，t4，t6中，那么项集{CD}的支持度为sup({CD})＝5，项集是由项组成的集合，此时项集{CD}只含有1个项CD，所以它是1项集。项Book出现在事务t2，t3，t4，t5中，那么项集{Book}的支持度为sup({Book})＝4。由于项集{CD}和{Book}的支持度都大于3，从传统方法的角度，他们都是频繁项集且sup({CD})>sup({Book})。那么当需要向Jack推荐某一类商品的时候，按照支持度大小，传统方法会优先考虑推荐CD而不是Book。

事实上，不考虑不确定数据中的概率信息的传统方法挖掘出的频繁项集是不准确的甚至是错误的。因为传统方法通过计算项集的支持度来得到频繁项集，这种方法只适用于确定数据，在不确定数据的情况下不再具有任何意义。实际上，所谓的概率频繁项集也就是不确定数据中的频繁项集，因为更多的考虑到了不确定数据中的概率信息，所以称之为概率频繁项集。因为项集{CD}和{Book}的支持度都大于3(N×minsup)，考虑到表1中的概率信息，本发明对项集{CD}和{Book}做了进一步的计算。表2列出了项集{CD}和{Book}的支持度sup，期望支持度esup，方差Var以及最终根据公式(a)求得的频繁概率P(sup(X)≥N×minsup)的值，其中X代表项集，在该例中N×minsup为3(6*0.5)。

表1Jack的网上购物数据

TID	Transaction
		t1	(CD,0.7)；(Food,1.0)
t2	(Book,0.1)；(CD,0.3)；(Shoes,0.6)
		t3	(Book,1.0)；(Razor,0.5)；(CD,0.2)
t4	(Book,0.9)；(CD,0.8)；
		t5	(Book,1.0)；(Food,0.1)
t6	(CD,1.0)；(Shoes,0.9)

表2

	sup	esup	Var	P(sup(x)>＝3)
					{Book}	4	3	0.18	0.901
{CD}	5	3	0.74	0.719

根据不确定数据中的概率频繁项集的定义，由公式(b),(c)，(d)，本发明可以得到sup({Book})＝4和esup({Book})＝0.1+1.0+0.9+1.0＝3,Var({Book})＝0.1*(1-0.1)+1.0*(1-1.0)+0.9*(1-0.9)+1.0*(1-1.0)＝0.18，同样的可以得到，sup({CD})＝5，esup({CD})＝3，Var({CD})＝0.74。最后利用公式(a)可以近似求得他们的频繁概率，P(sup({Book})≥3)≈0.901，P(sup({CD})≥3)≈0.719。一般来说，本发明会设置最小频繁阈值σ为0.9，只有频繁概率P(sup(X)≥N×minsup)的值满足大于等于σ的项集才被认为是概率频繁项集。因此在项集{CD}和{Book}中，只有{Book}是概率频繁项集。经过这样的计算后，本发明就可以发现如果Jack打开购物网站，本发明向他进行书籍的相关推荐，Jack最后购买的概率会更大。这也是概率频繁项集的意义所在，它揭示了传统频繁项集支持度计算中，不能发掘的关于项集支持度的频繁概率的信息。由此概率信息出发，才能真正挖掘出不确定数据中的概率频繁项集。从不确定的购物数据中得到真正需要向Jack推荐的商品，既提高了产品销量也提升了用户的购物体验。

实施例2

以农业大棚生产中无线传感器收集到的不确定数据为例。在传统农业中，人们获取农田信息的方式都很有限，主要是通过人工测量，获取过程需要消耗大量的人力，而通过使用无线传感器网络可以有效降低人力消耗和对农田环境的影响。但因为无线传感器自身缺陷，在收集温度、湿度时存在误差和信息缺失，在传输信息的过程中又易于受到噪声影响，从而导致产生大量不确定数据，如何从这种不确定数据中挖掘出潜在的规则是本发明需要考虑的问题。某个农场大棚有一种可种植多季的蔬菜，本发明得到该蔬菜一共N季的温度湿度的不确定数据和每一季度的产量值，其中每一季M天。首先，本发明对N季蔬菜的产量求平均，选择N季中蔬菜产量大于平均值的季度的温度湿度的不确定数据作为本发明的不确定数据集。这一处理表明本发明的实验是基于产量较高的温度湿度的不确定数据集上，去挖掘当产量较高时，与时间相关的温度和湿度的概率频繁项集的信息。

本发明得知无线传感器在传输温度信息时存在±1的误差，在传输湿度信息时存在±4或者±6的误差。为了更好的了解真实的温度湿度情况，根据无线传感器存在的误差，数据中心会将无线传感器监测到的一天中的温度湿度信息表示成一个事务，并将该事务记录到温度湿度的不确定数据集中。例如无线传感器监测到一天1点时的温度为11，由于无线传感器监测到的温度存在±1的误差，所以可能在1点时存在三个温度值，10，11和12，然后1/3就可以得到每个温度对应的概率值。它们将分别以(1T,10,0.33),(1T,11,0.33),(1T,12,0.33)的形式记录在事务中。以(1T,10,0.33)为例，“1T”代表1点时的温度，“10”代表温度值，“0.33”代表1点时的温度为10的概率值为0.33。同样可以对无线传感器监测到的湿度值以相同的方法和形式记录在一个事务中。例如(1H,53,0.2)，表示1点时湿度值为53的概率为0.2。只不过这里使用“H”表示湿度。数据中心依据无线传感器监测到的数据和无线传感器自身的误差，将一天监测到的信息表示成温度湿度的不确定数据集中的一个事务，事务将表示成如下的形式：{(1T,10,0.33),(1T,11,0.33),(1T,12,0.33),(1H,45,0.2),……}。事实上由于无线传感器固有的不确定性，最终记录下来的不确定数据中存在着温度湿度数据的缺失，并不能保证不确定数据中每个事务完整的记录下一天中所有时间的温度湿度的数据，另外为了方便起见，本实施例中的时间都以整点为例，事实上，该不确定数据集中，还包含非整点时间的温度湿度数据，非整点时间精确到分钟，所有非整点时间的分钟归一化为小数表示。

将高产量的温度湿度的不确定数据集T1存储在分布式文件系统HDFS上，本发明将对其进行以下操作：

1)，读入存储在分布式文件系统HDFS上的不确定数据集T1，该不确定数据集共包含372个事务，一个事务表示一天的温度湿度数据；

2)，在Map端依次处理不确定数据集T1中的每一个事务，事务中包含不同的项以及该项在事务中出现的概率，项是事务中记录数据的基本单元，例如事务可以表示成{(1T,10,0.33),(1T,11,0.33),(1T,12,0.33),(1H,45,0.2),……}的形式，将事务中的每一项及其概率值映射成<key,value>键值对，其中(1T,10,0.33)对应的<key,value>键值对为<{(1T,10)}，0.33>，key代表项集{(1T,10)}，项集是由项组成的集合，由于在农业生产的事务中时间和温度或者时间和湿度是1个数据记录的基本单位，即1项，此时的key是1项集，1项集用来表示只包含1个项的项集，value代表该项集在这个事务中的概率值，为0.33；

3)在Reduce端接收Map端的输出，依次处理每个项集key，利用正态近似的方法，计算每一个项集key的频繁概率，判断该项集key是否为概率频繁项集，若是，则以项集key的频繁概率作为项集key对应的value的值，输出<key,value>键值对，否则舍去当前项集key，继续处理下一个项集，Reduce输出关于概率频繁1项集的<key,value>键值对；

4)，将3)中所输出的<key,value>键值对中的项集key按照value值由大到小进行排序，由此生成列表F_list{{(1T,10)},{(1H,45)},{(4T,12)},{(6H,60)},……}，其中列表F_list是概率频繁1项集的集合，1项集用来表示只包含1个项的项集，k项集用来表示包含k个项的项集，k≥2；

5)，读入存储在文件系统HDFS上的不确定数据集T1，并且将每个事务中的项及其概率值，按照这些项在列表F_list中的顺序进行排序，删去不在列表F_lsit中的项及其概率值，生成处理后的不确定数据集T2，将T2存储在HDFS上；

6)，运行基于MapReduce的UApriori方法处理5)中得到的不确定数据集T2不断生成候选项集并测试候选项集，然后利用正态近似的方法从候选项集中生成概率频繁项集，直到生成所有的概率频繁项集为止。

步骤3)中概率频繁项集的定义以及利用正态近似来计算每一个项集的频繁概率的公式，具体如下：

概率频繁项集的定义：给定一个不确定数据集包含N条事务，用户给定一个最小支持率minsup和最小频繁概率阈值σ，假设X是一个非空的概率频繁项集，那么X一定满足：P(sup(X)≥N×minsup)≥σ；

以1项集{(1T,10)}为例，sup({(1T,10)})是指项集{(1T,10)}在所有事务中出现的次数，也称为项集{(1T,10)}在不确定数据集中的支持度，首先计算项集{(1T,10)}在所有事务中出现的次数得到sup({1T,10})；

如果项集{(1T,10)}不满足sup({(1T,10)})≥N×minsup的条件，那么项集{(1T,10)}不是概率频繁项集，若项集{(1T,10)}满足sup({(1T,10)})≥N×minsup的条件，就可以利用正态分布近似求解项集的频繁概率(令X＝{(1T,10)})，其公式如下：

P (\sup (X) &GreaterEqual; N \times \min \sup) \approx Φ (\frac{N \times \min \sup - 0.5 - esup (X)}{\sqrt{Var (X)}})

(公式1)，

如果项集X的频繁概率不小于阈值σ，那么X是概率频繁项集，否则，X不是概率频繁项集，其中，P(sup(X)≥N×minsup)代表sup(X)大于等于N×minsup的概率值，即项集X的频繁概率，Φ代表正态分布的累积分布函数，esup(X)代表项集X的期望概率支持度，Var(X)代表项集X的方差，计算公式如下。它们的计算公式如下：

esup (X) = Σ_{i = 1}^{N} P_{i} (X)

(公式2)，

Var (X) = Σ_{i = 1}^{N} P_{i} (X) \times (1 - P_{i} (X))

(公式3)，

其中，P_i(X)表示项集X在第i个事务中的概率值，i取值范围为[1,N]，若第i个事务不包含项集X，则P_i(X)＝0，若第i个事务包含项集X，P_i(X)的计算公式如下：

公式4，n≥2，P_i(x)表示项x在第i个事务中的概率值，若第i个事务不包含项x，则P_i(x)＝0。

当项集是{(1T,10)}时，它代表1项集，当项集包含n个项时，项集的表达形式可能为{(1T,10),(1H,40),(2H,60),……}，这时候，利用公式4中第二项可以计算出项集在第i个事务中的概率值。

方法具体实现流程如附图1所示，首先计算出项集X在整个不确定数据集中的支持度sup(X)，如果项集X的支持度sup(X)小于N×minsup的值，那么该项集不是概率频繁项集。反之若项集X的sup(X)≥N×minsup，再计算出项集X在整个不确定数据集中的esup(X)和Var(X)，利用公式1计算项集X的频繁概率，并且频繁概率P(sup(X)≥N×minsup)的值不小于设定的阈值σ，那么项集X就是概率频繁项集，反之，它不是概率频繁项集。

6)所述基于MapReduce框架的UApriori方法包含如下步骤：

在实现不断挖掘概率频繁项集方法时选用UApriori方法作为概率频繁项集的挖掘方法，为了提高挖掘效率和精度，在计算频繁概率时采用正态近似计算频繁概率的方法。此外，基于MapReduce下的UApriori方法参见附图2，包含如下步骤：

1)根据列表F_list概率频繁1项集的集合，例如列表F_list为{{(1T,10)},{(1H,45)},{(4T,12)},{(6H,60)},……}，将列表F_list中的任意两个概率频繁1项集进行组合，生成候选2项集{(1T,10),(1H,45)}，{(1T,10),(4T,12)}，{(1T,10),(6H,60)}，……，所有的候选2项集组成了候选2项集的集合，存储在HDFS中；

2)若候选项集的集合不为空，直接进入步骤3)，若候选项集的集合为空，则结束；

3)在Map端载入HDFS上候选项集的集合，读取分布式文件系统HDFS上的不确定数据集T2，根据候选项集的集合依次处理不确定数据集T2中的每个事务，以候选2项集的集合中的一个候选2项集{(1T,10),(1H,45)}为例，如果事务包含该候选项集，{(1T,10),(1H,45)}及其在事务中的概率值将会被映射成新的<key,value>键值对，其中key代表该候选项集{(1T,10),(1H,45)}，value代表该候选项集在这个事务中的概率值由公式(4)可以计算得到；

4)在Reduce端接收Map端的输出，依次处理每个项集key，利用正态近似方法计算项集key的频繁概率，判断该项集key是否为概率频繁项集，若是，则以项集key的频繁概率作为项集key对应的新的value的值，输出新的<key,value>键值对，否则舍去当前项集key，继续处理下一个项集；

5)如果步骤4)中Reduce输出的概率频繁k项集的集合为空，则结束，如果Reduce输出的概率频繁k项集的集合不为空,k≥2，其中k项集表示为项集含有k个项，如果概率频繁k项集的集合中存在任意两个不相同的概率频繁k项集，且任意两个不相同的概率频繁k项集之间包含k-1个相同的项，只有1个项不相同，那么将这两个概率频繁k项集进行合并，生成这两个概率频繁k项集的候选k+1项集，直到生成所有的概率频繁k项集的候选k+1项集，组成候选k+1项集的集合，然后返回步骤2)继续运行。例如经过Reduce端正态近似计算后得到了的概率频繁2项集的集合为，{{(1T,10),(1H,45)}，{(1T,10),(6H,60)}，{(3T,15),(4T,17)}，{(3T,15),(3H,50)}，……}。以该集合中的第一个项集{(1T,10),(1H,45)}和第二个项集{(1T,10),(6H,60)}为例，这两个概率频繁2项集之间包含1个相同的项，并且只有1个项不相同，那么将这两个概率频繁2项集进行合并，生成这两个概率频繁2项集的候选3项集表示为{(1T,10),(1H,45),(6H,60)}。按照这样的方法生成所有的概率频繁2项集的候选3项集，组成候选3项集的集合为{{(1T,10),(1H,45),(6H,60)}，{(3T,15),(4T,17),(3H,50)}，……}，然后返回步骤2)继续运行。

基于MapReduce的UApriori方法分布式设计框架，如图3所示，在MapReduce平台上的计算过程中，不确定数据集存储在分布式文件系统HDFS中，分布式文件系统HDFS会将不确定数据集分割成大小相同的数据块，表示为G1至Gm，分别存储在不同的节点当中。计算过程主要分为两个阶段：Map阶段和Reduce阶段。集群中的每个节点都有几个Map和Reduce任务，Map阶段主要是从HDFS上读取数据块Gi，i的取值范围[1,m]，一个Map任务处理一个数据块，生成一些<key,value>键值对，共享同一个key的<key,value>键值对被发送到同一个Reduce端，Reduce任务对收到的数据进行处理，将输出结果存储在HDFS分布式文件系统中。在本发明提出的基于MapReduce的概率频繁项集挖掘方法，命名为PNDUA方法。图3中，表示的是UApriori方法的MapReduce分布式设计框架，UApriori方法中具体Map和Reduce任务的描述参见图2。

最终通过利用蔬菜高产量的大规模不确定的温度湿度数据，经过多次实验发现在给定最小支持率minsup(0.2)和最小频繁概率阈值σ(0.9)情况下，挖掘出蔬菜不同时间的温度和湿度的概率频繁项集，根据这些概率频繁项集对该蔬菜种植过程予以温度和湿度的进一步调控，其他变量控制不变，经过Y季后得到其平均产量较前N季的平均产量提高了7.6％。这表明通过在高产量的大规模不确定的温度湿度数据上，进行温度和湿度概率频繁项集挖掘，可以揭示隐藏在高产量背后的与时间相关的温度和湿度的规则信息，而利用这些概率频繁项集进行实际的调控，就可以起到提高产量的目的。

表1给出了用本发明的方法进行相关测试的结果。本发明的实验采用了基于云计算的Hadoop平台，共有13个节点，其中1个主控节点master的硬件环境是Pentium(R)Dual-Core E58003.2GHz1G内存，其余12个是从节点slave，其硬件环境是Intel Corei5-24003.1GHz2G内存。软件环境是Hadoop1.0.4和ubuntu11.04。本发明用Java语言实现了本发明提出的方法。由KarolienGeurts捐赠(匿名)的农业生产中温度湿度的不确定数据，经过处理后以高产量的温度湿度的不确定数据集T作为实验测试数据。另外为了将本发明应用到大规模不确定数据上，将不确定数据集T(不确定数据集T大小约1GB)利用复制方式扩大为2GB，3GB，4GB的大规模不确定数据集，给定相应的最小支持率minsup和最小频繁概率阈值σ(默认使用0.9，因为σ取值对实验结果的影响很小，一般不改变σ)。本发明体现在农业大棚生产中的传感器监测的温度湿度数据集上主要的应用意义是，利用高产量的温度湿度的不确定数据，通过给定的最小支持率minsup和最小频繁概率阈值σ，人们可以从该不确定数据中，挖掘出与时间相关的温度、湿度概率频繁项集信息。利用这些隐藏在高产量的温度湿度的不确定数据中的概率频繁项集信息，对该蔬菜生产过程中的时间相关的温度湿度进行更加精准高效率的控制，以提高的蔬菜产量。

实际上，本发明提出的不确定数据的概率频繁项集挖掘方法，一方面可以快速高效地从大规模不确定数据中挖掘出概率频繁项集，另一方面这些概率频繁项集也是不确定数据中所隐含的规则信息。在第一个购物的例子中，本发明提出的不确定数据中概率频繁项集的挖掘可以帮助确定如何向顾客提供商品推荐，以达到提高商品销量提升用户体验的目的。而在农业生产无线传感器的例子中，本发明对高产量不确定数据中概率频繁项集的挖掘，可以帮助发现隐藏在高产量背后的与时间相关的温度湿度的规则信息，利用挖掘出的概率频繁项集进行农业生产中的调控，可以达到提高产量的目的。所以，本方法挖掘出概率频繁项集依据具体的应用而产生相应的效用，但总的情况是，概率频繁项集可以揭示大规模不确定数据中隐藏的规则信息，进而可以帮助人们进一步提高生产效率。

因为现有的概率频繁项集精确挖掘方法DPA，DPA算法的中文含义是基于动态规划的先验算法，它的弊端就是计算复杂度高，根本无法处理大数据。为了从运行时间和准确性角度进行比较，本发明选择将本发明提出的方法同并行化了的概率频繁项集精确挖掘方法进行了比较。并行化的概率频繁项集精确挖掘方法命名为Parallel DPA，缩写为PDPA，PDPA算法的中文含义是并行化的基于动态规划的先验算法。在表1中设定最小支持率minsup(0.2)和最小频繁概率阈值σ(0.9)。如表1所示，虽然PDPA可以处理大规模不确定数据但是与本发明提出的基于MapReduce的概率频繁项集挖掘方法(记为PNDUA)相比依旧十分耗时。此外，为了高效的挖掘概率频繁项集，基于单机的挖掘方法ApproxApriori和MBP已经被提了出来，ApproxApriori算法的中文含义是近似的先验算法，MBP算法的中文含义是修正的先验算法。但是，这些方法在面对大规模不确定数据时，往往因为内存溢出而运行失败并不能挖掘出概率频繁项集。例如表1所显示的，所有大规模不确定数据上，ApproxApriori和MBP都因为内存溢出(memory out)而运行失败。所以从表1可见，本发明提出的方法在大规模不确定数据上可以快速的挖掘出概率频繁项集。

另外在不确定数据集T(1GB)上，最小频繁概率阈值σ(0.9)，将本发明与方法PDPA精确挖掘得到的概率频繁项集进行比较。由表2可见，在最小支持度minsup变化的情况下，本发明近似挖掘得到的概率频繁项集，无论从精确度(precision)还是召回率(recall)的角度而言，依旧有很高的准确性。同时，在挖掘效率方面，当面对大规模不确定数据时，本发明的方法能在较短时间内挖掘出概率频繁项集，而现有的单机方法ApproxApriori和MBP根本无法处理大规模不确定数据，并行化的概率频繁项集精确挖掘方法PDPA无法实现快速挖掘概率频繁项集的目的。所以不论从实际应用意义，还是本发明提出的方法的时间效率和准确度上来说，本发明提出的基于MapReduce的概率频繁项集挖掘方法都是具有很高应用价值的。

表1：

表2：

minsup	precision	Recall
			0.15	100％	100％
0.2	99％	100％
			0.25	100％	100％
0.3	100％	100％
			0.35	100％	100％

本发明提供了一种基于MapReduce的概率频繁项集挖掘方法的思路和方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于MapReduce的概率频繁项集挖掘方法，其特征在于，包含以下步骤：

2)，在Map端依次处理不确定数据集T1中的每一个事务，事务中包含不同的项以及该项在事务中出现的概率值，项是事务记录数据的基本单元，将事务的每一项及其概率值映射成<key,value>键值对，其中key代表项集，项集是由项组成的集合，此时项集中只含有1项，为1项集，value代表该项集在一个事务中的概率值；

2.根据权利要求1所述基于MapReduce的概率频繁项集挖掘方法，其特征在于，所述步骤3中利用正态近似来计算项集key的频繁概率，具体如下：

给定一个包含N条事务的不确定数据集，用户给定一个最小支持率minsup和最小频繁概率阈值σ，其中minsup和σ取值范围都为(0,1)，项集X满足：P(sup(X)≥N×minsup)≥σ，则项集X是概率频繁项集；

正态分布近似概率频繁项集挖掘包括以下步骤：

sup(X)是指项集X在不确定数据集所有事务中出现的次数，即项集X在不确定数据集中的支持度，首先计算项集X在所有事务中出现的次数得到sup(X)；

P (\sup (X) &GreaterEqual; N \times \min \sup) \approx Φ (\frac{N \times \min \sup - 0.5 - esup (X)}{\sqrt{Var (X)}}) - - - (a),

esup (X) = Σ_{i = 1}^{N} P_{i} (X) - - - (b),

Var (X) = Σ_{i = 1}^{N} P_{i} (X) \times (1 - P_{i} (X)) - - - (c),

3.根据权利要求2所述的基于MapReduce的概率频繁项集挖掘方法，其特征在于，所述步骤6)运行基于MapReduce的UApriori方法包含以下步骤：