CN108228607B

CN108228607B - 基于连通度的最大频繁项集挖掘方法

Info

Publication number: CN108228607B
Application number: CN201611154069.5A
Authority: CN
Inventors: 郭鹏; 孙允明
Original assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Current assignee: Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date: 2016-12-14
Filing date: 2016-12-14
Publication date: 2021-10-15
Anticipated expiration: 2036-12-14
Also published as: CN108228607A

Abstract

随着计算机和因特网技术的迅猛发展，从各种各样应用中收集到的数据量越来越庞大，从海量数据中挖掘出有价值的信息和知识已经成为数据挖掘研究领域中的重要任务之一。针对当前最大频繁项集挖掘方法挖掘效率不高的问题，提出一种基于连通度的最大频繁项集挖掘方法，扫描事务数据库生成有序的事务集并构造出ppc‑tree、根据事务数据库中项与项之间的连通度缩小最大频繁项集挖掘时的搜索空间、超集检测并生成最大频繁项集的集合。本方法在空间复杂度不增加的情况下，有效提升最大频繁项集的挖掘效率。

Description

基于连通度的最大频繁项集挖掘方法

技术领域

本发明涉及一种数据挖掘方法，更特别地说，是一种基于连通度的最大频繁项集挖掘方法

背景技术

近年来开展了最大频繁项集挖掘的各类算法，虽然在数据组织、处理流程等方面各有不同，但主要分为两类，如表1所示。

产生候选集的典型算法为Aprioror，该类算法以产生候选集为基础，再通过扫描数据库排除不满足最小支持度的项集来搜索最大频繁项集。

不产生候选集的算法有基于FP-tree有效挖掘最大频繁项集的算法，该类算法主要以FP-tree、ppc-tree、poc-tree为基础，通过结点支持列表的方法来搜索最大频繁项集。

基于层次的典型算法有基于层次的最大频繁项集挖掘算法，该类算法将数据库按照大小分为不同的层次来加速搜索最大频繁项集的过程。

表1典型最大频繁项集挖掘算法比较

类别	产生候选集	遍历数据库
			1	产生	多次
2	不产生	一次
			3	产生	次

从上述最大频繁项集挖掘算法的发展不难看出，最大频繁项集的产生方式主要分为产生候选集和不产生候选集两大类。前者主要是基于Aproior算法做出了一些改进，设法避免产生重复的候选集或者加快候选集的产生；后者主要是基于FP-tree算法做出了相关的改进。其中增加结点上保存的相关信息可以提高算法的效率，基于ppc-tree的算法增加了结点在数据库中的前后关系，而基于poc-tree的算法则在基于ppc-tree的算法上只保留前序关系或者后序关系，减少了一半的空间代价。在最大频繁项集挖掘算法研究不断发展中，算法的效率是在不断地提高，但依然有进一步提高的空间。

发明内容

1.本发明的目的：

通过对现有典型最大频繁项集挖掘相关算法的归纳不难发现，现有的基于FP-tree的算法都是通过按项的支持度对数据库中的项进行排序然后生成已挖掘的最大频繁项集的超集，再进行超集检测，但是忽略了项与项在数据库事务中的关系。基于项与项在数据库事务中的关系对最大频繁项集挖掘的相关算法进行改进是本发明的主要动机。

2.本发明的技术方案：

为了实现上述发明目的，本发明采用的技术方案为：基于连通度的最大频繁项集挖掘方法。

基于连通度的最大频繁项集挖掘过程主要分为三步：扫描事务数据库生成有序的事务集并构造出ppc-tree、根据事务数据库中项与项之间的连通度缩小最大频繁项集挖掘时的搜索空间、超集检测并生成最大频繁项集的集合。包括以下步骤：

步骤1扫描事务数据库生成有序的事务集并构造出ppc-tree

扫描一遍事务数据库，得到事务数据库中的每一个项的支持度，将事务数据库中的所有项按照支持度的降序排列。然后，再将事务数据库中的事务按照上述降序重新排列得到一个新的有序的事务集。此事务集中的每一项都按照事务数据库中的每一项的支持度的降序排列。

根据得到的新的事务集构造一棵ppc-tree来表示原有的事务数据库，ppc-tree的每一个分支都表示了事务数据库中的一个事务，一个分支中的父子结点则表示了其代表项的支持度的大小关系。

步骤2根据项与项之间的连通度缩小搜索空间

扫描数据库，得到事务数据库中的任意一项与其它项的连通度，将事务数据库中的项按照连通度从大到小的顺序排序。在最大频繁项集搜索过程中，可以根据项的连通度确定出该项一定不能加入已知的最大频繁项集或者该项可以加入已知的最大频繁项集，然后再用超集检测的方法确定加入了新项的集是否满足最大频繁项集的要求。

当已知的最大频繁项集R的长度为N，另一个不属于R的项i的连通度若小于N，那么项集R∪{i}就一定不是最大频繁项集，所以在最大频繁项集的挖掘过程中就不用考虑项集R∪{i}。

利用上述性质，可以大大减少最大频繁项集挖掘过程中需要考察的项集数量，提高了算法的效率。

步骤3超集检测并生成最大频繁项集的集合

上述过程可以避免搜索过程中，搜索那些根本不可能是最大频繁项集的顶集。最终生成的项集再使用超集检测的方法确定它是一个最大频繁项集。最后，生成的所有最大频繁项集的集合便是最大频繁项集挖掘的最终结果。

3.发明的效果：

本发明引入了事务数据库中项的连通度的概念，提出一种基于事务数据库中的项的连通度的最大频繁项集的挖掘算法，在传统挖掘最大频繁项集的基础上，基于事务数据库中的项的连通度的最大频繁项集的挖掘方法在保证挖掘出来的最大频繁项集不冗余不遗漏的前提下，可以相对更快速。

附图说明

图1基于连通度的最大频繁项集挖掘方法流程图

图2根据数据库构造的ppc-tree

图3 ppc-tree中的每一个结点的n-list

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实例对本发明作进一步的详细描述。所举实例只用于解释本发明，并非用于限定本发明的范围。为了解释方便，所取实例较为简单，未能充分体现本发明的优势，但在实际的应用过程中，本发明与现有的方法相比，具有明显优势。

设I＝{i1,i2,…,in}是n个不同项目的集合.如果对一个集合X,有:

且k＝|X|,则X称为k项集,或者简单地称为一个项集.记D为事务T的集合,

对于给定事务数据库D,定义X的支持度为D中包含X的事务个数,记为Sup(X).用户可自定义一个小于|D|的最小支持度,记为min_s。

定义1：给定事务数据库D和支持度min_s,对于项集

若Sup(X)≥min_s,则称X为D中的频繁项集。

定义2：给定事务数据库D和支持度min_s,对于项集

Sup(X)≥min_s,且对

均有Sup(Y)<min_s,则称X为D中的最大频繁项集。

性质1：任何频繁项集的真子集都不是最大频繁项集。

性质2：任何频繁项集的子集都是频繁项集。

定义3：ppc-tree是一个树结构：

(1)它包括一个根结点被标记为null，和一些项集作为根结点的前序遍历子树。

(2)子树中的每一个结点都包括4个域：名字、支持度、孩子列表、前序序号。名字代表了此结点代表的项集；支持度表示此结点所代表的项集在事务数据库中的支持度、孩子列表表示了此结点的所有孩子结点、前序序号表示该结点在ppc-tree中前序遍历的位置。

定义4：对于每个结点N，我们将(N.pre-order:count)称作结点N的poc-code。

定义5：如果事务数据库中的一个项I1与其不包括自己在内的任意n项满足下面的关系时，我们称该项I1的连通度为n:

(1)当搜索到任意一个不包括自己在内的项I2与自己处在同一个事务中时，该项的连通度加一，并将I2收入I1的连通集中；

(2)当搜索到的任意一项I3属于I1的连通集时，保持项I1的连通度不变，继续向下搜索。

定理1：假设当前已经搜索到的最大频繁项集Fk的长度为k，事务数据库中的项的个数为N，那么满足下列条件时：

(1)项i是事务数据库中的一个元素，但是项i不属于已经搜索到的最大频繁项集Fk；

(2)项i在事务数据库中的连通度小于k；

项集Fk∪{i}一定不是最大频繁项集。

设给定的事务数据库DB为(如表2)：

{a,c,g,f},{e,a,c,b},{e,c,b,i},{b,f,h},{b,f,e,c,d},{I2,I3}，最小支持度域值min_sup为2。

步骤一：

扫描一遍数据库，得到事务数据库中的每个项的支持度，并按照降序排列得到的序列记为F1：

F1＝{b,c,e,a,f}

将事务数据库中的事务按照F1的顺序排列得到一个有序的事务集(如表3)。

根据表3中的Ordered Frequent Items构造出ppc-tree，如图1所示。

并且可以得到树中每个结点的n-list,如图2所示。

定理2：两个k项集A，B可以合并生成一个k+1项集C，当且仅当下列条件成立时，假设A＝{ixi2i3i4…ik},B＝{iyi2i3…ik}：

(1)集合A与集合B除去第一个无素外有相同的后缀且它们的前缀元素是不相同的。

(2)项集A的n-list和项集B的n-list满足条件：A.pre<B.pre^A.post>B.post，那么项集A和项集B可以合并生成k+1项集C＝{ixiyi2i3…ik}

(3)项集C满足最小支持度域值。

步骤二：

扫描一遍数据库，得到事务数据库中的每一个项的连通度，并按照连通度的降序排列，如表4所示。

步骤三：

考虑项集C＝{c,b}和项集D＝{k,b}。

项集C的n-list是{(6,4)},项集D的n-list是{(6,2)},按照定理2的条件，项集C和项集D是可以合并生成一个3项集{c,k,b}的，但是显而易见3项集{c,k,b}并不是一个频繁项集，它的支持度是0。

所以在定理2的基础上应用定理1，因为事务数据库中项k的连通度只有1，小于项集C和项集D的长度2，所以算法执行过程中可以根据定理1进行减枝，缩小搜索空间。

表2需要挖掘的事务数据库

ID	Items
		1	a,c,g,f
2	e,a,c,b
		3	e,c,b,i
4	b,f,h
		5	b,f,e,c,d
6	b,k
		7	b,k

表3按照支持度降序排列的事务集

ID	Item	Ordered Frequent Items
			1	a,c,g,f	c,f,a
2	e,a,c,b	b,c,e,a
			3	e,c,b,i	b,c,e
4	b,f,h	b,f
			5	b,f,e,cd	b,c,e,f
6	b,k	b,k
			7	b,k	b,k

表4按照项连通度降序排列的序列

项	c	b	e	a	f	k
							连通度	4	4	4	4	4	1

Claims

1.一种基于连通度的最大频繁项集挖掘方法，其特征在于，包含以下步骤：

步骤1：扫描事务数据库生成有序的事务集并构造出ppc-tree：

1)扫描一遍事务数据库，得到事务数据库中的每一个项的支持度，将事务数据库中的所有项按照支持度的降序排列；然后，再将事务数据库中的事务按照上述降序重新排列得到一个新的有序的事务集；此事务集中的每一项都按照事务数据库中的每一项的支持度的降序排列；

2)根据得到的新的事务集构造一棵ppc-tree来表示原有的事务数据库，ppc-tree的每一个分支都表示了事务数据库中的一个事务，一个分支中的父子结点则表示了其代表项的支持度的大小关系；

步骤2：根据项与项之间的连通度缩小搜索空间：

1)扫描数据库，得到事务数据库中的任意一项与其它项的连通度，将事务数据库中的项按照连通度从大到小的顺序排序；在最大频繁项集搜索过程中，可以根据项的连通度确定出该项一定不能加入已知的最大频繁项集或者该项可以加入已知的最大频繁项集，然后再用超集检测的方法确定加入了新项的集是否满足最大频繁项集的要求；

2)当已知的最大频繁项集R的长度为N，另一个不属于R的项i的连通度若小于N，那么项集R∪{i}就一定不是最大频繁项集，所以在最大频繁项集的挖掘过程中不用考虑项集R∪{i}；

利用上述性质，可以大大减少最大频繁项集挖掘过程中需要考察的项集数量，提高了算法的效率；

步骤3：超集检测并生成最大频繁项集的集合：

上述过程可以避免搜索过程中，搜索那些根本不可能是最大频繁项集的顶集；最终生成的项集再使用超集检测的方法确定它是一个最大频繁项集；最后，生成的所有最大频繁项集的集合便是最大频繁项集挖掘的最终结果。