CN104408127A

CN104408127A - 基于深度优先的不确定数据最大模式挖掘方法

Info

Publication number: CN104408127A
Application number: CN201410697046.3A
Authority: CN
Inventors: 邱卫东; 王杨德
Original assignee: WUXI SIKURUI TECHNOLOGY INFORMATION Co Ltd
Current assignee: WUXI SIKURUI TECHNOLOGY INFORMATION Co Ltd
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2015-03-11

Abstract

本发明涉及一种基于深度优先的不确定数据最大模式挖掘方法。它包括：不确定数据处理、频繁项集判断以及最大模式挖掘方法三大技术部分。所述不确定数据处理是利用数据垂直格式转换将以事务ID作为主键的不确定数据水平格式转换为以项ID作为主键的不确定数据垂直格式。所述频繁项集判断是计算一个项集是否支持度大于等于给定支持度阈值，且置信度大于等于给定置信度阈值的过程。所述最大模式挖掘方法是挖掘最大频繁项集的过程，挖掘过程以转换后的垂直格式数据作为输入，根据给定的支持度和置信度阈值，挖掘出所有的不确定数据最大模式频繁项集。该方法可有效获取不确定数据中的有价值信息，同时具有较高的挖掘效率。

Description

基于深度优先的不确定数据最大模式挖掘方法

技术领域

本发明涉及一种计算机应用技术领域的算法，具体说是基于深度优先的不确定数据最大模式挖掘方法。

背景技术

随着科学技术的飞速发展，传感器网络、无线射频识别、隐私保护等技术得到了广泛的研究与应用，随之而来地产生了这样一类数据，它们不是以单个数据点的形式存在，而是以一定的概率出现在多个数据点上。这与传统的数据库中的数据有着本质的区别，人们称其为不确定数据。

频繁项集的挖掘是数据挖掘领域的一个基础和核心的问题，目前已提出的具有代表性的最大频繁项集挖掘方法，如Max-Miner、Mafia、Genmax等，它们分别采用了双向搜索策略、Depth-Project、用于超集检验的局部最大频繁项集、不支持度排序以及高效的剪枝策略等技术手段。但这些方法都是应用在确定性数据上的，无法高效获取不确定数据中的有价值信息，而挖掘方法的好坏是直接影响数据挖掘尤其是关联挖掘的效率和应用范围。因此，不确定数据的最大频繁项集挖掘方法的研究具有重要的理论和应用价值。

经过对现有技术的检索发现，Karam Gouda在《Efficiently Mining Maximal Frequent Itemsets》（2001年IDCM会议）中提出了一种最大频繁项集的挖掘方法GenMax，该文献中以深度优先为原理，利用现有节点与其扩展节点的组合，来递归的挖掘最大频繁项集。但是该现有技术的缺陷在于：只能应用于确定性数据结构，它主要是以项出现的次数是否大于给定阈值来判断其是否频繁，但当项是以一定概率出现的话，该方法不再适用。另外，该方法以递归方式来进行深度挖掘，每次只能回退一步，会出现很多不必要的分支判断，从而降低了挖掘效率。

发明内容

本发明是针对现有技术的不足，提供一种基于深度优先的不确定数据最大模式挖掘方法。该方法可有效获取不确定数据中的有价值信息，同时具有较高的挖掘效率。

为解决上述问题，采取以下技术方案。

本发明的基于深度优先的不确定数据最大模式挖掘方法的特点是包括以下步骤：

第一步，在计算机系统中加载数据文件；

第二步，通过垂直格式转换，将以事务ID为主键的水平格式数据集转化为以项ID为主键的垂直格式数据集，并以关联数据表的形式表示；

第三步，计算关联数据表中每一项的支持度，并根据切尔诺夫界判断每一项是否频繁，频繁则保留在关联数据表汇中，否则删除；通过动态规划方法，计算关联数据表中保留项是频繁的置信度，当置信度大于等于给定阈值时，该项为频繁项，保留在关联数据表中，否则删除；当所有项处理完毕后，得到的关联数据表中的元素就是所有频繁一项集；

第四步，计算关联数据表中频繁一项集的不支持度，并按照不支持度降序对频繁一项集进行排列，若不支持度相同，则按照支持度升序排列；

第五步，构建根节点，初始化栈结构，根节点入栈，以迭代方式进行栈式结构的深度挖掘；根节点包含扩展项、待扩展项以及局部最大项集投影；初始时，根节点扩展项和局部最大项集投影为空，待扩展项为排序的频繁一项集；深度挖掘过程表现为两种形式：一种形式为新建节点，节点入栈，表示在挖掘树上向下进行挖掘，直至处理到扩展项为空的叶子节点；另一种形式为节点出栈，表示在挖掘树上向上回退，可以多步回退，直至到达下一个分支待处理的节点，更新挖掘结果，进行新分支的挖掘；最终，当挖掘树的所有分支处理完毕，根节点出栈，深度挖掘结束；根节点的局部最大项集投影即为所有挖掘到的最大频繁项集。

其中，所述第二步的具体步骤如下：

2.1）初始化以项ID为主键，以其事务集和概率为值的关联数据表；

2.2）读取第一步中加载的数据文件中的每一个事务；

2.3）读取事务的每一个项，如果其不存在于关联数据表，将其加入到关联数据表；将事务ID及其概率，加入到以项ID为主键的数据表的值中；

2.4）重复2.2）及2.3），直至数据文件结束，最终得到的关联数据表即为转换后的垂直格式数据集表示。

所述第三步的具体步骤如下：

3.1）对关联数据表的每一项，根据其事务数目的多少，计算出它的支持度；

3.2）如果其支持度小于给定的阈值minsup，则删除该项，重新回到3.1）处理下一项，否则进行3.3）；

3.3）累加项的每一个事务出现的概率，结果为它的期望支持度，令，则根据切尔诺夫界，按以下两个条件进行频繁项判断：

（1）并且

（2）并且

式中，e为自然常数，是一个无限不循环小数，其值约等于2.718281828459；minprob代表最小置信度阈值；

如满足两个条件之一，则该项是非频繁的，直接删除，重新回到3.1）处理下一项；

如果不满足，则进入3.4）；

3.4）通过动态规划方法，计算项是频繁的置信度，当置信度大于等于给定阈值时，该项为频繁项，保留在数据表中，否则删除该项；之后重新回到3.1）处理下一项；

3.5）当所有项处理完毕后，得到的数据表中的元素就是所有频繁项集。

所述第四步的具体步骤如下：

4.1）对每一个频繁一项集，计算项ID比它大的频繁一项集，并将这些项ID大的频繁一项集与基础频繁一项集进行一一判断，看两个频繁一项集是否可以一起构成频繁二项集，频繁项集的判断方法与所述第三步相同；如果无法构成，则两个频繁一项集的不支持度均加1；

4.2）按照不支持度降序，对频繁一项集进行排序，如果不支持度相同，则按照支持度升序排列。

所述第五步的具体步骤如下：

5.1）初始化根节点，初始化栈结构；

5.2）根节点入栈；

5.3）当栈不为空时，进入循环，由5.3.1）开始；

5.3.1）取当前处理节点为栈顶节点；

5.3.2）如果当前节点未完成扩展，取最新的扩展项，构建新节点，进入5.3.3），否则进入5.3.7）；

5.3.3）如果当前节点的局部最大频繁项的集合中，存在新节点的超集，则当前扩展项已完成扩展，继续5.3.2），否则进行5.3.4）；

5.3.4) 判断新节点的扩展项集合是否为空，如果为空代表其是叶子节点，进入5.3.5），否则进入5.3.6）；

5.3.5）所有与新节点元素集合相等的节点出栈，多步回退，将最后出栈的节点加入最大频繁项集的集合中；

5.3.6）构建新节点的局部最大频繁项集投影，新节点入栈；

5.3.7）当前节点出栈，合并挖掘结果，回到5.3.1）；

5.4）栈为空，代表挖掘过程完毕，此时根节点的局部最大频繁项集投影就为所有挖掘到的最大频繁项集，方法结束。

采取上述方案，具有以下优点：

本发明的基于深度优先的不确定数据最大模式挖掘方法主要包括不确定数据处理、频繁项集判断以及最大模式挖掘方法三大技术部分。

不确定数据处理是利用可能世界数据模型，将不确定数据进行处理，转换为可被挖掘方法利用的数据集合的过程。本发明提出了一种不确定数据的垂直数据格式。该垂直数据格式是一种键值表的形式，类似哈希表，表中每个元素的键是项的标识符，值是项的事务的列表（如果项在一个事务中出现，代表这个事务属于这个项的列表），列表的每个元素包括事务的标识符以及项在事务中出现的概率。这种垂直格式的优点在于易于构造，存储空间小，最重要的是通过垂直结构，很容易计算出两个乃至多个项共同出现的事务的集合，只需要将这些项的事务列表取交集即可。

频繁项集判断，本发明应用的不确定性频繁项集标准，是基于置信度的判断方法，判断不确定项集要满足两个条件，分别为支持度大于等于给定的支持度，同时还要满足在满足前一条件下的置信度大于等于给定的最小置信度。本发明采用了一种动态规划的计算方法，该方法最初由Thomas Bernecker在《不确定数据库的概率频繁项集挖掘》（Probabilistic Frequent Itemset Mining in Uncertain Databases）一文中提出。如果以|T|代表包含目标项集的事务数目，则该方法能够以O(minsup*|T|)的时间复杂度和O(|T|)的空间复杂度计算出置信度。在动态规划方法之外，本发明依据切尔诺夫界，提出了一种前置剪枝手段，对频繁项集的判断过程进行了优化。前置剪枝将以很小的计算代价对一些非频繁项集进行剪枝，避免了这些非频繁项集的置信度计算。

最大模式挖掘方法是基于深度优先原理，提出了一种栈式结构来改进GenMax方法，实现了在挖掘过程中的多步回退策略，避免了传统深度优先方法一次只能回退一步的缺陷，大大提高了挖掘的效率。栈式结构存放的是节点元素，节点元素存放的是当前挖掘的信息，包括三个部分，分别为已扩展的项集、已扩展项集的可扩展集合、挖掘到的最大频繁项集在当前节点的投影。节点元素入栈，表示在更深的程度上进行挖掘，节点元素出栈，表示在挖掘分支上回退，准备在另一个分支进行挖掘。当挖掘到叶子节点，也就是已扩展项集的可扩展集合为空时，我们可以让多个节点元素出栈，达到多步回退的目的。

本发明涉及上述的数据处理和挖掘方法，首先通过数据处理，将不确定数据集进行垂直格式转换。其次，通过频繁项集挖掘方法，挖掘出所有频繁一项集，并按照不支持度进行排序。最后，以排序的频繁一项集来初始化栈式结构的根节点，利用改进的GenMax方法进行挖掘，最终得到所有的最大频繁项集。因此，该方法不但可以有效获取不确定数据中的有价值信息，同时还具有较高的挖掘效率。

附图说明

图1是本发明的基于深度优先的不确定数据最大模式挖掘方法的总体过程示意图；

图2是本发明第二步的数据格式转换过程示意图；

图3是本发明第三步的频繁项集判断过程示意图；

图4是本发明第五步的最大模式挖掘过程示意图；

图5是本发明第五步中挖掘栈和节点结构示意图。

具体实施方式

以下结合附图对本发明的实施例作详细说明。

本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施的系统是一台单机节点，单节点配置如下表所示：

OS	Windows 7旗舰版（64bit）
		CPU	Intel Core i5 x 2
CPU参数	2.5G/四核8线程
		内存	4G
硬盘	320G
		编译工具	Eclipse 4.3
编程语言	Java
		JDK版本	1.6

如图1所示，本发明的基于深度优先的不确定数据最大模式挖掘方法包括以下步骤。

第一步，在上述计算机系统中加载数据文件。

第二步，通过垂直格式转换，将以事务ID为主键的水平格式数据集转化为以项ID为主键的垂直格式数据集，并以关联数据表的形式表示。如图2所示，其具体步骤如下：

2.2）读取第一步中加载的数据文件中的每一个事务；

第三步，计算关联数据表中每一项的支持度，并根据切尔诺夫界判断每一项是否频繁，频繁则保留在关联数据表汇中，否则删除。通过动态规划方法，计算关联数据表中保留项是频繁的置信度，当置信度大于等于给定阈值时，该项为频繁项，保留在关联数据表中，否则删除。当所有项处理完毕后，得到的关联数据表中的元素就是所有频繁一项集。如图3所示，其具体步骤如下：

（1）并且

（2）并且

如果不满足，则进入3.4）；

第四步，计算关联数据表中频繁一项集的不支持度，并按照不支持度降序对频繁一项集进行排列，若不支持度相同，则按照支持度升序排列。具体步骤如下：

第五步，构建根节点，初始化栈结构，根节点入栈，以迭代方式进行栈式结构的深度挖掘。根节点包含扩展项、待扩展项以及局部最大项集投影。初始时，根节点扩展项和局部最大项集投影为空，待扩展项为排序的频繁一项集。深度挖掘过程表现为两种形式：一种形式为新建节点，节点入栈，表示在挖掘树上向下进行挖掘，直至处理到扩展项为空的叶子节点；另一种形式为节点出栈，表示在挖掘树上向上回退，可以多步回退，直至到达下一个分支待处理的节点，更新挖掘结果，进行新分支的挖掘。最终，当挖掘树的所有分支处理完毕，根节点出栈，深度挖掘结束。根节点的局部最大项集投影即为所有挖掘到的最大频繁项集。最大项集挖掘流程如图4所示。节点结构以及初始和结束时根节点状态如图5所示，其中doneSet表示节点已扩展项集，todoSet代表可以与doneSet组合成为更大频繁项集的项的集合，pos代表todoSet中尚未扩展到的项的位置，LMFI代表挖掘到的最大频繁项集在节点的投影，初始时，根节点的doneSet和LMFI为空，以表示，todoSet为所有的频繁一项集，记为F1，当挖掘算法结束，根节点最后出栈，此时根节点的LMFI为所有挖掘到的最大频繁项集。具体步骤如下：

5.1）初始化根节点，初始化栈结构；

5.2）根节点入栈；

5.3）当栈不为空时，进入循环，由5.3.1）开始；

5.3.1）取当前处理节点为栈顶节点；

5.3.6）构建新节点的局部最大频繁项集投影，新节点入栈；

5.3.7）当前节点出栈，合并挖掘结果，回到5.3.1）；

应用本发明，在IBM数据生成器生成的两个数据集进行测试，数据集生成参数如下：

序号	事务数	事务平均长度	最大项集平均长度	数据集类型
					1	100000条	10	4	稀疏型
2	100000条	10	10	稠密型

数据集生成的是确定性数据，我们对每一条事务的每一项添加一个(0,1]范围内的概率，概率由高斯分布N()生成，每一项的值在区间[0.87,0.99]内随机独立产生，值在[1/21,1/12]之间独立随机产生。

测试一共包括了4个实验，实验一在数据集1上测试单层回退机制与本发明提出的多层回退机制，在相同条件下，处理节点个数随最小支持度的变化情况。实验结果如下：

最小支持度	最小置信度	多步回退处理节点数	单步回退处理节点数
				0.04%	0.5	7342	9857
0.06%	0.5	3420	4213
				0.08%	0.5	1649	2450
0.10%	0.5	1121	1367
				0.12%	0.5	908	1126
0.14%	0.5	812	987

结果表明，多步回退处理节点的个数要明显小于单步回退处理节点的个数，且随着最小支持度的减小，差距愈加明显。

实验二在数据集1上测试多步回退与单步回退的挖掘时间随最小支持度的变化情况，实验结果如下：

最小支持度	最小置信度	多步回退运行时间(s)	单步回退运行时间(s)
				0.01%	0.5	364.0	500.1
0.02%	0.5	179.0	232.0
				0.05%	0.5	109.3	123.7
0.06%	0.5	103.6	114.2
				0.08%	0.5	98.3	108.4
0.10%	0.5	94.2	103.6
				0.12%	0.5	93.1	100.0
0.14%	0.5	92.6	99.1

实验结果表明多步回退比单步回退在不同最小支持度下，都有一定的效率提升，且最小支持度越低，提升越大。

实验三在数据集1上测试单步回退与多步回退的运行时间随最小置信度的变化情况，实验结果如下：

最小置信度	最小支持度	多步回退运行时间(s)	单步回退运行时间(s)
				0.1	0.1%	80.1	72.2
0.2	0.1%	79.0	72.1
				0.3	0.1%	78.7	71.9
0.4	0.1%	77.9	71.4
				0.5	0.1%	77.8	71.2
0.6	0.1%	77.6	71.1
				0.7	0.1%	77.5	71.0
0.8	0.1%	77.2	70.9

实验结果表明多步回退相比单步回退，在不同置信度下都有稳定的效率提升，且总体运行时间随着最小置信度增加而降低。

实验四对比数据集1和数据集2，在相同条件下，挖掘时间随着最小支持度的变化情况，实验结果如下：

最小支持度	最小置信度	数据集1运行时间(s)	数据集2运行时间(s)
				0.06	0.5	103.6	382.1
0.08	0.5	98.3	163.5
				0.10	0.5	94.2	137.4
0.12	0.5	93.1	103.9
				0.14	0.5	92.6	96.6
0.16	0.5	92.3	94.2
				0.18	0.5	92.2	93.1
0.20	0.5	92.0	92.7

实验四表明，在最小支持度较低的情况下，在最小支持度较低的情况下，稠密数据集的挖掘时间要明显变长，这是由于支持度较低导致每个节点的扩展集合增大，降低了剪枝的效率。而在最小支持度较高的情况下，每个节点的扩展集合变小，可以通过已经挖掘到的长模式最大频繁项集实现高效剪枝，因而可以观察到方法在稀疏和稠密数据集上均有很高的效率。

Claims

1.基于深度优先的不确定数据最大模式挖掘方法，其特征在于包括以下步骤：

第一步，在计算机系统中加载数据文件；

第五步，构建根节点，初始化栈结构，根节点入栈，以迭代方式进行栈式结构的深度挖掘；

根节点包含扩展项、待扩展项以及局部最大项集投影；

初始时，根节点扩展项和局部最大项集投影为空，待扩展项为排序的频繁一项集；

深度挖掘过程表现为两种形式：一种形式为新建节点，节点入栈，表示在挖掘树上向下进行挖掘，直至处理到扩展项为空的叶子节点；另一种形式为节点出栈，表示在挖掘树上向上回退，可以多步回退，直至到达下一个分支待处理的节点，更新挖掘结果，进行新分支的挖掘；

最终，当挖掘树的所有分支处理完毕，根节点出栈，深度挖掘结束；根节点的局部最大项集投影即为所有挖掘到的最大频繁项集。

2.如权利要求1所述的基于深度优先的不确定数据最大模式挖掘方法，其特征在于所述第二步的步骤如下：

2.2）读取第一步中加载的数据文件中的每一个事务；

3.如权利要求1所述的基于深度优先的不确定数据最大模式挖掘方法，其特征在于所述第三步的步骤如下：

（1）并且

（2）并且

如果不满足，则进入3.4）；

4.如权利要求1所述的基于深度优先的不确定数据最大模式挖掘方法，其特征在于所述第四步的步骤如下：

5.如权利要求1所述的基于深度优先的不确定数据最大模式挖掘方法，其特征在于所述第五步的步骤如下：

5.1）初始化根节点，初始化栈结构；

5.2）根节点入栈；

5.3）当栈不为空时，进入循环，由5.3.1）开始；

5.3.1）取当前处理节点为栈顶节点；

5.3.6）构建新节点的局部最大频繁项集投影，新节点入栈；

5.3.7）当前节点出栈，合并挖掘结果，回到5.3.1）；