CN104809185A

CN104809185A - 面向不确定数据的闭项集挖掘方法

Info

Publication number: CN104809185A
Application number: CN201510185652.1A
Authority: CN
Inventors: 尤涛; 杜承烈; 王川文; 张利军; 徐伟
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2015-04-20
Filing date: 2015-04-20
Publication date: 2015-07-29

Abstract

本发明公开了一种面向不确定数据的闭项集挖掘方法，用于解决现有闭项集挖掘方法精度差的技术问题。技术方案是：在挖掘闭项集时，首先将不确定数据转换为确定数据，再通过递归调用DCI_Closed()算法来建立新的生成子和相应的闭项集。在概率频繁闭项集过滤时，首先计算闭项集集合中单项集的概率频繁；再计算所有闭项集子集的概率频繁，利用卷积的计算方式得到项集的频次分布特征。最后，在项集生成的过程中，使用合理的剪枝技术加快项集的生长过程。本发明方法直接从不确定数据对应的原始数据中挖掘闭项集，再对其进行概率频繁特性的过滤，挖掘不确定数据中的概率频繁闭项集的精度高，而且进一步提高了挖掘效率。

Description

面向不确定数据的闭项集挖掘方法

技术领域

本发明涉及一种闭项集挖掘方法，特别是涉及一种面向不确定数据的闭项集挖掘方法。

背景技术

文献“王爽,王国仁.面向不确定感知数据的频繁项查询算法[J].计算机学报,2013,36(3):571-581”公开了一种面向不确定感知数据的频繁项查询算法。该算法主要描述了用以连续维护传感器网络中的概率阈值频繁项查询结果的过程，同时设计了两种优化过程：(1)设计了一种通过预测元素概率上界的方法进行候选集的构造，仅维护必要信息从而提高查询效率；(2)设计了一种新的CP-list结构，可以压缩不同窗口候选集中的重复元素，降低存储开销。但是在对于频繁闭项集的挖掘过程中仍旧不能避免对于可能世界的遍历。同时，近年来面向不确定数据的频繁项集挖掘可分为期望计算法、频次分布计算法、近似挖掘法三类。基于期望计算法的典型算法有如下算法：UApriori算法核心是基于生长-测试思想，使用广度优先搜索策略来进行挖掘，是Apriori算法在不确定数据挖掘中的扩充应用；UFP-growth和UH-Mine算法的核心则是基于分治思想，使用深度优先搜索策略来进行挖掘。其中UFP-growth算法是对于FP-growth算法的扩充，与传统的FP-growth算法相同的是，UFP-growth算法在最初的时候也建立一个索引树(UFP-tree)来保存不确定数据库中所有的信息，然后，基于UFP-tree，算法递归的建立条件子树和找出频繁项集(通过使用预期支持度判断)。UH-Mine算法则是对于H-Mine算法(传统的确定数据频繁项集挖掘方法)扩充。基于频次分布计算法的典型算法有：DP(基于动态规划思想的Apriori算法)和DC(基于分治策略的Apriori算法)。在概率频繁项集的定义下，关键是计算有效频繁项目集的概率。通过对不确定数据集的抽象我们可以得到可能世界模型。根据每个事件出现概率可以实现可能世界的实例化。因此，每个事务的概率是源自两个可能世界：项集x的存在和不存在。所以对于每个可能世界，都联系着一个存在概率，包含确定的数据。所以，数据库对应的可能世界数量是伴随着事务数量的增长和其中不确定项数量的增长。基于近似挖掘法的算法如今也得到了发展。

概率频繁项集中存在大量的冗余信息，同时根据MDL基本原理，概率频繁闭项集具有更好的分类特性，故概率频繁闭项集的研究引起广大学者的关注。面向不确定数据的频繁闭项集挖掘也可分为期望计算法、频次分布计算法、近似挖掘法三类。由于能够精确反映真实发生情况，频次分布计算法被广泛应用。本文提出的PFCIM算法，引入动态规划思想，遍历可能世界模型计算项集的频繁概率，再根据闭项集和项集在支持度方面的关系，通过剪枝策略挖掘概率频繁闭项集。但该算法“闭”检查没有发生在可能世界模型里，因此不能保证概率频繁闭项集的永久性。针对这一不足，文献提出挖掘不确定频繁闭项集需要在可能世界模型中进行，且无法通过动态规划等方式避免可能世界遍历，因此是一个NP问题。该文献提出一种基于深度优先搜索策略的方法快速挖掘频繁闭项集。为了减小NP问题的规模，算法提出利用切比雪夫不等式上界剪枝、子集剪枝、超集剪枝、de Caen与Kwerel概率不等式等方法来减少搜索空间。但是，未能过滤掉的项集仍然需要在可能世界中进行闭特性检查，因此代价仍然很高。

发明内容

为了克服现有闭项集挖掘方法精度差的不足，本发明提供一种面向不确定数据的闭项集挖掘方法。该方法在挖掘闭项集时，首先将不确定数据转换为确定数据，再通过利用项集前的项集来拓展闭项集以产生所有的可能生成子，通过递归调用DCI_Closed()算法来建立新的生成子和相应的闭项集。在概率频繁闭项集过滤时，首先计算闭项集集合中单项集的概率频繁；接着，基于项集的Apriori生长理论，计算所有闭项集子集的概率频繁，利用卷积的计算方式得到项集的频次分布特征。最后，在项集生成的过程中，使用合理的剪枝技术加快项集的生长过程。由于可能世界模型遍历挖掘的闭项集和直接从不确定数据对应的确定数据挖掘的闭项集是等价的，故本发明方法直接从不确定数据对应的原始数据中挖掘闭项集，再对其进行概率频繁特性的过滤，精确高效地挖掘不确定数据中的概率频繁闭项集。在保证挖掘完备的概率频繁闭项集的前提下，进一步提高了挖掘效率。

本发明解决其技术问题所采用的技术方案是：一种面向不确定数据的闭项集挖掘方法，其特点是采用以下步骤：

步骤一、挖掘闭项集。

首先，将不确定数据作为确定数据。数据集D扫描决定1-频繁项建立垂直数据集VD。VD包括tid列表g(i)，假设和记录所包含的项集，如果有的话，这个单项会出现在数据集中的所有事务中。

通过利用POST_SET中的项拓展CLOSED_SET以产生所有可能生成子，非频繁且不保序的生成子是被当作无效的。记录这些属于POST_SET的项，如果曾经是包含在上述生成子之中的，在随后的递归调用过程是不再被考虑的，只有有效的生成子可以被拓展。每一个生成子new_gen←CLOSED_SET∪i是严格的依据保序性被拓展的，通过使用所有属于POST_SET的项j(i＜j)拓展，记录POST_SET中所有的不属于生成子和用于下次递归调用的项j(i<j)。产生一个新的闭合集CLOSED_SET_new←c(new_gen)。从新的闭项集中，通过递归调用DCI_Closed()来建立新的生成子和相应的闭项集。最后，为了能够按词典序的顺序访问，必须按照字典序的顺序从POST_SET中提取项。使用DCI算法挖掘出所有的闭项集，Cset＝{{a b},{a b c}}。

步骤二、概率频繁闭项集过滤。

根据确定数据挖掘的频繁闭项集及其子集和不确定数据的闭项集等价，计算由步骤一得到的闭项集及其子集的频繁闭概率值，过滤概率非频繁项集。

基于边界的Chernoff-Hoeffding剪枝：给定项集X，不确定数据集UD，X的预期支持度μ，最小的支持度阈值min_sup，频繁闭概率的阈值pfct，项集X是概率非频繁的条件是：

\{\begin{matrix} e^{- {2 n}^{2} δ^{2}} < pfct, & δ > μ \\ e^{- 2 n δ^{2}} < pfct, & δ < μ \end{matrix}

δ＝(min_sup-μ-1)/n，n是UD中事务的数量。

超集剪枝：给定长度为|X|的项集，不确定数据集UD和X的长度为|X|+1的超集X+e_i。按照字母顺序，至少小于X中的一个项，即X不是X+e_i的前缀，并且X.sup＝(X+e_i).sup能够得到如下的两个结果：

1)X的频繁概率是0，X必然不是概率频繁项集。

2)基于字母顺序，所有以X为前缀的超集必然不是概率频繁项集。

以{a}为前缀基于深度优先搜索的超集剪枝方法，能够避免生长{ac,fcp:0}，{bc,fcp:0}。

子集剪枝：给定不确定数据集UD，项集X，X是X-e_i的超集，e_i是X的最后一个项，如果X.sup＝(X-e_i).sup，得到以下两个结果：

1)X-e_i的频繁概率是0，必然不是概率频繁项集。

2)含有X-e_i作为前缀的项集，如果长度相同，则能够判断必然不是频繁的概率项集，这样的项集超集也必然不是频繁的概率项集。

本发明的有益效果是：该方法在挖掘闭项集时，首先将不确定数据转换为确定数据，再通过利用项集前的项集来拓展闭项集以产生所有的可能生成子，通过递归调用DCI_Closed()算法来建立新的生成子和相应的闭项集。在概率频繁闭项集过滤时，首先计算闭项集集合中单项集的概率频繁；接着，基于项集的Apriori生长理论，计算所有闭项集子集的概率频繁，利用卷积的计算方式得到项集的频次分布特征。最后，在项集生成的过程中，使用合理的剪枝技术加快项集的生长过程。由于可能世界模型遍历挖掘的闭项集和直接从不确定数据对应的确定数据挖掘的闭项集是等价的，故本发明方法直接从不确定数据对应的原始数据中挖掘闭项集，再对其进行概率频繁特性的过滤，精确高效地挖掘不确定数据中的概率频繁闭项集。在保证挖掘完备的概率频繁闭项集的前提下，进一步提高了挖掘效率。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1为本发明面向不确定数据的闭项集挖掘方法的流程图。

图2为本发明方法对应表1数据的概率频繁闭项集举例图。

具体实施方式

参照图1-2。本发明面向不确定数据的闭项集挖掘方法具体步骤如下：

首先介绍本发明方法的基本定义：

支持度：令I＝{x₁，x₂，...，x_m}为不同项集合，定义一个I的非空子集X(项或序列),用I＝{x₁，x₂，...，x_m}的形式来描述项集，l-项集则表示项集存在l个项，I在事务种中的发生次数t称为支持度，即support(X)。

频繁项集：项集X是否为的频繁的条件是X的支持度大于给定的支持度阈值minsup。

闭项集：X为闭项集的条件是不存在X的超集Y有support(X)＝support(Y)。

频繁闭项集：X为频繁闭项集的条件是同时满足频繁条件和闭条件。

可能世界模型是从不确定性数据中演化出很多确定的数据实例，成为可能世界实例。每一个可能世界实例是由确定的事务构成。不确定项集X在t_i发生的概率为 P(I∈t_i)，此概率可以产生两个可能世界实例，一个实例是X存在t_i中，另一个实例是X不存在于t_i中。各元组的任意合法组合均构成一个可能世界实例PW_i。不确定事务互相独立，则P(PW_j)等于实例内的元组概率乘积和实例外的元组概率乘积：

P(PW_j)＝Π_t∈I(Π_x∈t P(x∈t)*Π_x∈t(1-P(x∈t)))，且所有的可能世界实例的发生概率之和为1。

频繁概率：给定支持度阈值min_sup，项集X的频繁概率表示为PrF(X)。

Pr_F(X)＝Pr{support(X)≥min_sup}

概率频繁项集：给定支持度阈值min_sup、概率频繁阈值pft，项集X是概率频繁项集的条件是X的频繁概率大于给定阈值。

Pr{support(X)≥min_sup}＝Pr_F(X)＞pft

闭概率：项集X是闭项集的概率表示为PrC(X)，是存在闭项集X的所有可能世界的概率总和。

频繁闭概率：项集X的频繁闭概率表示为Pr_FC(X)，是存在频繁闭项集X的所有可能世界的概率总和。

概率频繁闭项集：给出一个概率闭频繁阈值pfct，存在项集X是概率频繁闭项集的条件是X的频繁闭概率大于给定阈值。

Pr{X is frequent closed itemset}＝Pr_FC(X)＞pfct

在传感器网络中频繁闭项集挖掘在环境监测、关联规则挖掘等领域有非常重要的应用。例如在温度监测系统中某温度值频繁出现就会被认为是异常情况从而报警。由于传感器自身的限制检测的记录是不确定的每一个监控记录都会附加概率信息表示该记录的可信程度。以表1为例，每行事务数据表示某传感器记录值及其概率。在传感器数据中挖掘的频繁闭项集可以得知传感数据的一般模式，以便于异常情况的监测等。参照图1的方法流程，挖掘概率频繁闭项集。

表1

TID	Transaction	Prob
			T₁	a b	0.9
T₂	a b c	0.6
			T₃	a b c	0.7

1、挖掘闭项集。

DCI算法是迄今为止最高效的闭项集挖掘算法。首先，忽略不确定数据的概率将不确定数据作为确定数据。数据集D扫描决定1-频繁项建立垂直数据集VD。VD包括tid列表g(i)，假设和记录所包含的项集，如果有的话，这个单项会出现在数据集中的所有事务中。

接着，通过利用POST_SET中的项来拓展CLOSED_SET以产生所有可能生成子，非频繁且不保序的生成子是被当作无效的。记录这些属于POST_SET的项，如果曾经是包含在上述生成子之中的，在随后的递归调用过程是不再被考虑的，只有有效的生成子可以被拓展。值得注意的是，每一个生成子(new_gen←CLOSED_SET∪i)是严格的依据保序性被拓展的，通过使用所有属于POST_SET的项j(i＜j)拓展，记录POST_SET中所有的不属于生成子和用于下次递归调用的项j(i<j)。在程序过程的最后，产生一个新的闭合集(CLOSED_SET_new←c(new_gen))。从新的闭项集中，可以通过递归调用DCI_Closed()来建立新的生成子和相应的闭项集。最后，值得指出的是，为了能够按词典序的顺序访问，这两步必须是按照字典序的顺序从POST_SET中提取项。按照第一步，使用DCI算法挖掘出所有的闭项集，Cset＝{{a b},{a b c}}。

2、概率频繁闭项集过滤。

根据确定数据挖掘的频繁闭项集及其子集和不确定数据的闭项集等价，故计算第一步得到的闭项集及其子集的频繁闭概率值，过滤概率非频繁项集。下面具体介绍可能用到的剪枝技术。

\{\begin{matrix} e^{- {2 n}^{2} δ^{2}} < pfct, & δ > μ \\ e^{- 2 n δ^{2}} < pfct, & δ < μ \end{matrix}

δ＝(min_sup-μ-1)/n，n是UD中事务的数量。

超集剪枝：给定长度为|X|的项集，不确定数据集UD和X的长度为|X|+1的超集X+e_i。如果按照字母顺序，至少小于X中的一个项(也就是说，X不是X+e_i的前缀)，并且X.sup＝(X+e_i).sup可以得到如下的两个结果：

1)X的频繁概率是0的话，X必然不是概率频繁项集。

以{a}为前缀基于深度优先搜索的超集剪枝方法，我们可以避免生长{ac,fcp:0}，{bc,fcp:0}。

子集剪枝：给定不确定数据集UD，项集X，X是X-e_i的超集，e_i是X的最后一个项(根据字母顺序)，如果X.sup＝(X-e_i).sup，我们可以得到以下两个结果：

1)X-e_i的频繁概率是0的话，必然不是概率频繁项集。

2)含有X-e_i作为前缀的项集，如果长度相同，则可以判断必然不是频繁的概率项集，这样的项集超集也必然不是频繁的概率项集。

针对表1数据，给出min_sup＝2，pfct＝0.6。首先，我们通过基于边界的Chernoff-Hoeffding剪枝技术将概率非频繁单项过滤，以避免概率非频繁项集的生长。{a}和{b}的δ都是2.2，n为3，{c}的δ是1.3，故故{c}不是概率频繁项，即我们可以确定不需要对{c,fcp:0}进行生长；接着，基于项集的Apriori生长理论，计算其他分支的概率值。为了快速地计算项集的概率频繁，利用卷积的计算方式得到项集的频次分布特征，故计算出所有闭项集子集的概率频繁{ab,fp:0.834,fcp:0.834},{ac,fp:0.42,fcp:0},{bc,fp:0.42,fcp:0},{abc,fp:0.42,fcp:0.42}。根据pfct＝0.6，得到概率频繁闭项集集：{ab,fcp:0.834}。

Claims

1.一种面向不确定数据的闭项集挖掘方法，其特征在于包括以下步骤：

步骤一、挖掘闭项集；

首先，将不确定数据作为确定数据；数据集D扫描决定1-频繁项建立垂直数据集VD；VD包括tid列表g(i)，假设和记录所包含的项集，如果有的话，这个单项会出现在数据集中的所有事务中；

通过利用POST_SET中的项拓展CLOSED_SET以产生所有可能生成子，非频繁且不保序的生成子是被当作无效的；记录这些属于POST_SET的项，如果曾经是包含在上述生成子之中的，在随后的递归调用过程是不再被考虑的，只有有效的生成子可以被拓展；每一个生成子new_gen←CLOSED_SET∪i是严格的依据保序性被拓展的，通过使用所有属于POST_SET的项拓展，记录POST_SET中所有的不属于生成子和用于下次递归调用的项j(i<j)；产生一个新的闭合集CLOSED_SET_new←c(new_gen)；从新的闭项集中，通过递归调用DCI_Closed()来建立新的生成子和相应的闭项集；最后，为了能够按词典序的顺序访问，必须按照字典序的顺序从POST_SET中提取项；使用DCI算法挖掘出所有的闭项集，Cset＝{{a b},{ab c}}；

步骤二、概率频繁闭项集过滤；

根据确定数据挖掘的频繁闭项集及其子集和不确定数据的闭项集等价，计算由步骤一得到的闭项集及其子集的频繁闭概率值，过滤概率非频繁项集；

\{\begin{matrix} e^{- 2 n^{2} δ^{2}} < pfct, & δ > μ \\ e^{- 2 n δ^{2}} < pfct, & δ < μ \end{matrix}

δ＝(min_sup-μ-1)/n，n是UD中事务的数量；

超集剪枝：给定长度为|X|的项集，不确定数据集UD和X的长度为|X|+1的超集X+e_i；按照字母顺序，至少小于X中的一个项，即X不是X+e_i的前缀，并且X.sup＝(X+e_i).sup能够得到如下的两个结果：

1)X的频繁概率是0，X必然不是概率频繁项集；

2)基于字母顺序，所有以X为前缀的超集必然不是概率频繁项集；

以{a}为前缀基于深度优先搜索的超集剪枝方法，能够避免生长{ac,fcp:0}，{bc,fcp:0}；

1)X-e_i的频繁概率是0，必然不是概率频繁项集；