CN108509531A

CN108509531A - 一种基于Spark平台的不确定数据集频繁项挖掘方法

Info

Publication number: CN108509531A
Application number: CN201810212000.6A
Authority: CN
Inventors: 丁家满; 杨阳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2018-09-07
Anticipated expiration: 2038-03-15
Also published as: CN108509531B

Abstract

本发明涉及一种基于Spark平台的不确定数据集频繁项挖掘方法，属于数据挖掘领域。本发明基于Spark大数据框架，提出了一种新颖的UWPFP‑tree结构，并行化处理数据集，且不需要对数据集进行多次扫描，不会产生大量候选集，大大提高了算法的执行效率；同时，通过兼顾不确定数据项的生存概率和权重值，挖掘出更加符合用户需求的频繁项，为不确定数据集频繁项挖掘方法提供了一种新的思路。

Description

一种基于Spark平台的不确定数据集频繁项挖掘方法

技术领域

本发明涉及一种基于Spark平台的不确定数据集频繁项挖掘方法，属于数据挖掘技术领域。

背景技术

随着互联网技术的快速发展，在网络实际应用中产生了各种各样的数据。在这些海量数据中，很多的数据是不完整的或是以不确定形式存在的，从不确定数据中发现有趣的知识和内容已经成为新的研究方向和热点。然而大多数不确定数据集的挖掘算法无法在兼顾数据项的生存概率及其自身的重要性的情况下同时提高算法的执行效率。通常不确定数据集的频繁模式挖掘算法分为三种：一种是，考虑数据项出现概率的基于概率分布或基于期望的算法；一种是，考虑数据项重要性的基于权重的算法；一种是，考虑数据项出现概率和数据项重要性的基于期望和权重的算法。对大规模的不确定数据集而言，要求算法能在短时间内准确地挖掘出频繁项，需要提高算法的效率降低时间空间复杂度。现有的不确定数据集的频繁模式挖掘算法中，为了提高算法的执行效率，大多通过减少候选集，采用非递归模式挖掘等方式。就算法的原理来看，减少候选集的方式可以在一定程度上提高算法的时间复杂度，然而此类算法均没有考虑到数据项的不同重要性；非递归模式的挖掘算法，将数据项完全压缩到一棵树上，算法的内存开销较大。综上，无论使用哪种方式都无法满足大规模不确定数据集挖掘方法所需的准确性和高效性。

发明内容

本发明要解决的技术问题是为了克服上述现有技术存在的缺陷而提供一种针对大规模的不确定数据集频繁模式挖掘方法。

本发明的技术方案是：一种基于Spark平台的不确定数据集频繁项挖掘方法，

(1)将原始数据文件按照默认块大小分组，其中默认块大小为128M，分成多个组，每组对应一个数据集，对这些数据集中的各个数据项进行预处理，生成不确定数据集；

(2)读取步骤(1)所述的不确定数据集，设定最小阈值，对每组不确定数据集中的各数据项进行最高概率权重值的计算；

(3)在每组数据集中分别构建UWPFP-tree，其中UWPFP-tree为基于FP-growth算法改进的频繁模式树，并计算出局部数据项集的最高概率权重值；

(4)对局部数据项集进行整合，得到完整的多项集；

(5)将整合后的多项集的最高概率权重值和设定的最小阈值进行对比，筛选出初始频繁项集；

(6)对初始频繁项集分组，计算初始频繁项集的期望权重值，将初始频繁项集的期望权重值和预设的最低阈值进行对比，筛选并汇总出最终频繁项集。

所述步骤(2)中的设定最小阈值，对每组数据集中的各数据项进行最高概率权重值的计算，具体包括以下步骤：

(11)设I＝{i₁，i₂，......，i_n}是一个有m个数据项的集合，W＝{w(i₁)，w(i₂)，……，w(i_m)}是对应各个数据项的权重集，不确定事务集为T＝{t₁，t₂，......，t_n}，p(i_m,t_n)是事务t_n中i_m数据项的生存概率，最小阈值为ε×|D|，其中|D|是原不确定数据集中事务的个数，ε是0到1之间的任意实数，计算每个事务的最高概率值，并用maxp(t_n)表示：

maxp(t_n)＝max{p(i₁,t_n),......,p(i_m,t_n)}； (1)

(12)计算每个事务的最高权重值，并用maxw(t_n)表示：

maxw(t_n)＝max{w(i₁,t_n),......,w(i_m,t_n)}； (2)

(13)计算每个事务的最高概率值，并用maxwp(t_n)表示：

maxwp(t_n)＝maxp(t_n)×maxw(t_n)； (3)。

所述步骤(3)中构建UWPFP-tree，并计算出局部数据项集的最高概率权重值，具体包括以下步骤：

(21)建立UWPFP-tree的根节点Null；

(22)扫描步骤(1)所述的不确定数据集中的事务；

(23)扫描事务中的数据项，从左到右沿树的根节点往下遍历；

(24)判断树中是否存在与当前遍历到的数据项相同的结点，是则执行步骤(25)；否则执行步骤(26)；

(25)计算当前项的maxwp(t_n)，并累加到相同的节点上，同时计算并更新当前项所有超集的maxwp(t_n)，然后转至步骤(27)；

(26)建立新的分支，计算当前项的maxwp(t_n)，同时计算当前项所有超集的maxwp(t_n)，其中计算当前项和当前项所有超集的maxwp(t_n)的过程同步骤(2)中对每组不确定数据集中的各数据项进行最高概率权重值的计算过程一样，然后转至步骤27)；

(27)判断所有的事务是否扫描完毕，是则执行步骤(28)；否则返回步骤(23)；

(28)程序结束。

所述步骤(4)中对局部数据项集进行整合，得到完整的多项集，具体包括以下步骤：

(31)在每个不确定数据集分组中各自遍历UWPFP-tree，把所有数据项相同的maxwp(t_n)值累加起来，并重新赋值给数据项。

所述步骤(5)筛选出初始频繁项集，具体包括以下步骤：

(41)依次判断数据项的maxwp(t_n)是否不小于预设的最小阈值ε×|D|，是则执行步骤 (42)，否则执行步骤(43)；

(42)把筛选出的数据项放入初始频繁多项集中；

(43)舍弃该数据项。

所述步骤(6)中筛选出最终频繁项集，具体包括以下步骤：

(51)对初始频繁项集自动分组；

(52)计算各个数据项的平均权重w(x,tn)：

其中，表示事务t_n所有项x的权重之和，|k|表示x项中数据项的个数；

(53)计算每个数据项的期望支持度expsup(x)：

其中，

(54)计算每个数据项的期望权重值expwsup(x)：

expwsup(x)＝w(x,tn)×expsup(x)； (7)

(55)判断每个数据项的expwsup(x)，是否不小于所预设的最小阈值ε×|D|，若是执行步骤(56)，否则执行步骤(57)；

(56)把筛选出的数据项放入最终频繁项集中；

(57)舍弃该数据项；

(58)汇总最终频繁项集。

本发明的有益效果是：本发明基于Spark大数据框架，提出了一种新颖的UWPFP-tree结构，并行化处理数据集，且不需要对数据集进行多次扫描，不会产生大量候选集，大大提高了算法的执行效率；同时，通过兼顾不确定数据项的生存概率和权重值，挖掘出更加符合用户需求的频繁项，为不确定数据集频繁项挖掘方法提供了一种新的方法。

附图说明

图1是本发明Spark处理数据集的过程图；

图2是本发明的流程图；

图3是本发明构建UWPFP-tree的流程图；

图4是本发明第一组数据集中UWPFP-tree的构建示意图；

图5是本发明第二组数据集中构建出的UWPFP-tree。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，Spark通过划分的步骤，将海量数据分组并将对海量数据的处理分配给主节点下的各个工作阶段共同完成，最后整合各个分节点的计算结果得到最终结果。

如图2所示，针对大规模的不确定数据集频繁模式挖掘方法，包括以下步骤：

1、将原数据文件按照默认块大小分组(缺省块大小为128M)，分成多个组，每组对应一个数据集，对这些数据集中的各个数据项进行预处理，生成不确定数据集。假设表1为原数据集，如下：

A C D E
	D F
A C E
	D E
B C E
	B C
C D F
	B C
D E F
	A B C

表1

Spark将原数据库自动分成多组，假设分成两组，map函数为每个数据集中的各个数据项加上ID号，RDD中的数据项以<ID，key>的形式存储，flatmap函数为每个数据项附上随机概率和权重值，RDD中的数据项以<ID，key，value，weight>的形式存储，以此生成不确定数据集，得到表2如下：

表2

2、读取步骤1所述的不确定数据集，使用fliter函数分别筛选出ID号相同的数据项中的最高权重和最大概率，使用reduceBykey函数计算每组不确定数据集中各个数据项的最高概率权重值。其中，设I＝{i₁，i₂，......，是一个有m个数据项的集合，W＝{w(i₁)， w(i₂)，……，w(i_m)}是数据项的权重集，不确定事务集为T＝{t₁，t₂，......，，p(i_m,t_n) 是事务t_n中i_m数据项的生存概率，事务的最高概率值为maxp(t_n)，事务的最高权重值为 maxw(t_n)，每个事务的最高概率值为maxwp(t_n)，最小阈值为ε×|D|，其中|D|是原不确定数据集中事务的个数，此例中|D|为10，ε是0到1之间的任意实数，此例中ε设为0.3，所以最小阈值ε×|D|＝3。

2.1、根据公式maxp(t_n)＝max{p(i1,tn),......,p(im,tn)}；(1)计算每个事务的最高概率值，例如，事务1中的数据项A，C，D，E的概率最高的是A：0.5，所以事务1的最高概率值为 0.5，由此得到表3如下：

表3

2.2、根据公式maxw(t_n)＝max{w(i₁,t_n),......,w(i_m,t_n)}；(2)计算每个事务的最高权重值，例如，事务1中的数据项A，C，D，E的权重最高的是C：1.0，所以事务1的最高权重值为 1.0，由此得到表4如下：

表4

2.3、根据公式maxwp(t_n)＝maxp(t_n)×maxw(t_n)；(3)计算每个事务的最高概率权重值，例如，事务1的最高概率值maxp(t_n)为0.5，最高权重值maxw(t_n)为1.0，所以事务1的最高概率权重值maxwp(t_n)＝0.5×1.0＝0.5，即事务1中所有数据项和数据项超集的maxwp(t_n)都为 0.5，由此得到表5如下：

表5

3、使用map函数在每组数据集中分别构建UWPFP-tree，其中UWPFP-tree为基于FP-growth算法改进的频繁模式树，并计算出局部多项集的最高概率权重值。

如图4(a)所示，建立第一组中的UWPFP-tree的根节点Null，并且扫描数据库中的事务1，从前往后建立节点A，C，D，E，根据表5得到它们的maxwp(t_n)为0.5，以及所有超集：AC，AD，CD，ACD，AE，CE，DE，ACE，ADE，CDE，ACDE的maxwp(t_n)为0.5；

如图4(b)所示，由于树中不存在事务2中相应的节点，所以建立新的分支D，F，根据表5得到它们的maxwp(t_n)为0.6，以及超集DF的maxwp(t_n)为0.6；

如图4(c)所示，扫描事务3中的项A，C，E，由于树中存在相应的节点A，C，根据表5得到A，C，E，以及其所有超集AC，AE，CE，ACE的maxwp(t_n)为1.0，把A，C， AC的maxwp(t_n)值累加到树中相同节点后，A为1.5，C为1.5，AC为1.5，节点E另起一个分支，同时附上超集AE，CE，ACE的maxwp(t_n)值；

如图4(d)所示，扫描事务4中的项D，E，由于树中存在相应的节点D，根据表5得到D，E，以及超集DE的maxwp(t_n)为0.64，把D的maxwp(t_n)值累加到树中的相同节点后，D为1.24，节点E另起一个分支，同时附上超集DE的maxwp(t_n)值；

如图4(e)所示，扫描事务5中的项B，C，E，由于树中不存在相应的节点，所以建立新的分支B，C，E，根据表5得到它们的maxwp(t_n)为1.0，以及超集BC，BE，CE，BCE 的超集maxwp(t_n)为1.0。第一组中的CWUFP-tree建立完毕。

同理，构建第二组数据集中的UWPFP-tree，如图5所示。

4、对局部数据项集进行整合，得到完整的多项集。

4.1、整合第一组数据集的UWPFP-tree中的所有数据项集。把各组数据集中相同项的 maxwp(t_n)累加起来，并重新更新，得到表6如下：

A：1.5	AC：1.5	ACE：1.5	ACDE：0.5
				B：1.0	AD：0.5	CDE：0.5
C：2.5	CD：0.5	BCE：1.0
				D：1.74	AE：1.5
E：1.5	CE：2.5
				F：0.6	DE：1.14
	DF：0.5
					BC：1.0
	BE：1.0

表6

整合第二组数据集的UWPFP-tree中的所有数据项集。把各组数据集中相同项的maxwp(t_n)累加起来，并重新更新，得到表7如下：

A：0.8	BC：2.6	CDF：0.8
			B：2.6	DE：0.8	DEF：0.8
C：3.4	CD：0.8	ABC：0.8
			D：1.6	CF：0.8
E：0.8	EF：0.8
			F：0.8	DF：1.6
	AB：0.8
				AC：0.8

表7

4.2、累加所有分组中数据项相同的maxwp(t_n)，并重新赋值给数据项，得到表8如下：

表8

5、将整合后的多项集的最高概率权重值和设定的最小阈值进行对比，筛选出初始频繁项集。依次判断数据项的maxwp(t_n)是否不小于ε×|D|即是否不小于3，表8中A＝2.3小于3，舍去，B＝3.6大于3，保留，得到初始频繁项集表9如下：

B：3.6	BC：3.6
		C：5.9
D：3.34

表9

6、对初始频繁项集分组，计算初始频繁相集的期望权重值，将初始频繁项集的期望权重值和预设的最低阈值进行对比，筛选并汇总出最终频繁项集。其中每个数据项的平均权重为 w(x,t_n)：

例如，B的平均权重为B的权重值0.9，BC的平均权重等于B的权重0.9于C的权重1.0之和除以2，为0.95。

数据项的期望支持度expsup(x)：

其中

例如，B的期望支持度为事务5中的B的概率、事务6中的B的概率、事务8中的B的概率、事务10中的B的概率之和，为2.9。BC的期望支持度的概率为事务5中B，C的概率之积0.8×1.0＝0.8、事务6事务5中B，C的概率之积0.8×1.0＝0.8、事务8中B，C的概率之积0.6×0.8＝0.48、事务10中B，C的概率之积0.7×0.4＝0.28之和为2.36。

数据项的期望权重值expwsup(x)：

expwsup(x)＝w(x,t_n)×expsup(x)； (7)

例如，B的期望权重值为B的期望支持度2.9与B的平均权重0.9之积，为2.61；BC的期望权重值为BC的期望支持度2.36与B的平均权重0.95之积，为2.242。

6.1、对初始频繁项集自动分组。假设Spark将初始频繁项集分成了两组，得到表10如下：

表10

6.2、根据公式(4)在每组中各自计算每个数据项的平均权重w(x,t_n)，得到表11如下：

表11

6.3、根据公式(5)在每组中各自计算每个数据项的期望支持度expsup(x)，得到表12 如下：

表12

6.4、根据公式(7)在每组中各自计算每个数据项的期望权重值expwsup(x)，得到表13 如下：

表13

6.5、通过对比预设的最小阈值ε×|D|＝3，筛选并且汇总出最终频繁项集，由于B＝2.61 小于3，所以舍去B，C＝4.45大于3，保留C，最终得到频繁项集：{C}。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于Spark平台的不确定数据集频繁项挖掘方法，其特征在于：