CN106570128A

CN106570128A - 一种基于关联规则分析的挖掘算法

Info

Publication number: CN106570128A
Application number: CN201610953160.7A
Authority: CN
Inventors: 岳东; 朱昌敏; 商永婕; 黄崇鑫
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-04-19

Abstract

一种基于关联规则分析的挖掘算法，属于互联网个性化推荐领域。本发明首先将数据集进行频繁1‑项集的项总数扫描，在产生FP‑Tree之前，对不必要的冗余项先进行删除，减少挖掘量，然后对事务中每个项的提取得到各数据集子集，再使用FP‑Growth算法对各数据集子集进行频繁项挖掘，在挖掘过程中，只保留当前索要挖掘的有用的，必要的信息，省时又省空间。最后按L‑1的次序对事务数据集的每一列排序，在存在共享前缀的条件下,遍历节点的第一个子女节点就发现相同前缀，根据共享前缀构建FP树。提高生成FP‑Tree的速度，进而提高生成频繁项集的速度，提高挖掘数据集中关联规则的速度。

Description

一种基于关联规则分析的挖掘算法

技术领域

本发明涉及互联网个性化推荐领域，尤其涉及一种基于关联规则分析的挖掘算法。

背景技术

关联规则最早是由R.Agrawal等人针对超市购物篮分析问题提出的，其目的是发现超市交易数据库中不同商品之间的关联关系。关联规则体现了顾客购物的行为模式，这可以为经营决策、市场预测和策划等方面提供依据。关联规则挖掘系统已经被成功应用于市场营销、银行业、零售业、保险业、电信业和公司经营管理等各个方面。关联规则还可以应用于文本挖掘、商品广告有机分析和网络故障分析等领域。

假设是项的集合。给定一个数据集D，其中每个事务t是I的非空子集，即每一个事务都与一个唯一的标识符Tid(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率；置信度(confidence)是D中事务已经包含X的情况下包含Y的百分比，即条件概率。如果满足最小支持度阈值和最小置信度阈值，则认为关联规则是有趣的(阈值是人为设定)。

关联规则挖掘分两步进行：1)生成频繁项集。这一阶段找出所有满足最小支持度的项集，找出的这些项集称为频繁项集。2)生成规则。在上一步产生的频繁项集的基础上生成满足最小支持度的规则，产生的规则称为强规则。

Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法。该算法的基本思想是：首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项，这里采用的是中规则的定义。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集，使用了递推的方法。

针对Apriori算法的固有缺陷，J.Han等提出了不产生候选挖掘频繁项集的方法：FP-树频集算法。采用分而治之的策略，在经过第一遍扫描之后，把数据库中的频集压缩进一棵频繁模式树(FP-Tree)，同时依然保留其中的关联信息，随后再将FP-Tree分化成一些条件库，每个库和一个长度为1的频集相关，然后再对这些条件库分别进行挖掘。当原始数据量很大的时候，也可以结合划分的方法,使得一个FP-Tree可以放入主存中。实验表明，FP-growth对不同长度的规则都有很好的适应性，同时在效率上较之Apriori算法有巨大的提高。

FP-Growth算法虽然只扫描数据库两次，而且不产生候选项集，但数据集规模过大时，构造FP-Tree的条件模式基和条件FP-Tree时,这种链表存储的数据结构，产生的分枝多且长，构造和遍历FP-Tree占用大量存储和计算资源，大大降低空间利用率，影响挖掘效率。

发明内容

本发明目的是解决现有技术的不足，提供一种首先对不必要的冗余项进行删除，减少挖掘量，提高生成频繁项集的速度，提高挖掘数据集中关联规则的速度。

一种基于关联规则分析的挖掘算法，包括如下步骤：

第一步：扫描数据集D，生成候选1-项集，按支持度降序排列，删除支持度小于minSupport的项，得到频繁L-1项集；

第二步：再次扫描数据集D，删除各事务中支持度小于minSupport的项，再将事务中剩余项按支持度降序排列，得到数据集D^/；

第三步：对第二步得到的数据集D^/中每个事务抽取某项，并删除事务中支持度小于该项支持度的项，得到数据子集D^//；

第四步：对于第三步得到的数据子集D^//的每一列分别按照L-1项集的次序排序，构建共享前缀数据集D^///；

第五步：对第四步得到的共享前缀数据集D^///进行FP-Tree的创建；

第六步：对第五步的创建进行是否含有相同前缀进行判断，若判断为是，则对共享前缀计数加1，继续搜索下一前缀；若判断为否，则建立新节点，连接到FP-Tree；

第七步：对第六步处理完的数据判断是否为最后一个数据，若判断为是，结束；若判断为否，则返回第六步再次判断，直到结束。

上述第三步根据频繁L-1项集的各项的支持度由小到大，提取所有含该项的事务，并且删除事务中支持度小于该项支持度的项，得到数据子集D^//。

本发明的优点：本发明的改进算法，继承了FP-Growth算法不产生候选项集的优点，首先将数据集进行频繁1-项集的项总数扫描，在产生FP-Tree之前，对不必要的冗余项先进行删除，减少挖掘量，然后对事务中每个项的提取得到各数据集子集，再使用FP-Growth算法对各数据集子集进行频繁项挖掘，在挖掘过程中，只保留当前索要挖掘的有用的，必要的信息，省时又省空间。最后按L-1的次序对事务数据集的每一列排序，在存在共享前缀的条件下,遍历节点的第一个子女节点就发现相同前缀，根据共享前缀构建FP树。提高生成FP-Tree的速度，进而提高生成频繁项集的速度，提高挖掘数据集中关联规则的速度。

附图说明

图1是本发明共享前缀数据集D^///的过程图。

图2是现有技术与本发明的运行时间表生成对比分析图。

具体实施方式

下面详细描述本发明的实施例，参考附图描述实现实施例的关联规则的挖掘算法。

数据集D中有10个事务，最小支持度＝4，最小支持度阈值minSupport＝40％。

*每一个事务都与一个唯一的标识符Tid(Transaction ID)对应

Tid	Tid所包含的项
		1	I1,I2,I3,I5,I6
2	I1,I2,I3,
		3	I1,I2,I4,I5
4	I1,I2,I5,I6
		5	I4,I5
6	I1,I2,I4
		7	I1,I4,I5,I6
8	I2,I5,I6
		9	I5,I6
10	I1,I2,I3

首先对数据集进行第一次扫描，找出候选1-项集及其支持度计数。删除小于minSupport＝40％的项，得到频繁1-项集L-1。

*1-项集表

项集	支持度
		I1	7
I2	7
		I3	3
I4	4
		I5	7
I6	5

*频繁L-1项集

项集	支持度
		I1	7
I2	7
		I5	7
I6	5
		I4	4

再次扫描数据集D,将支持度小于minSupport的项从各事务中删除，并按照各项的支持度计数递减顺序将各事务重新排列，得到数据集D^/。

*数据集D^/

根据L-1中的各项的支持度由小到大，提取所有含该项的事务，并且删除事务中支持度小于该项支持度的项，得到新的数据集子集D^//。以项I1为例，项I1的数据集子集由包含项I1的事务{T1,T2,T3,T4,T6,T9,T10}组成，但由于事务T1中最后一项I6其支持度小于项I1的支持度，因此删除I6项；同理删除事务T3中的I4项；删除T4中的I6项；删除T6中的I4项；删除T9中的I6项。按照相同方法，对L-1中每项的数据库子集进行提取，结果如下表所示。

*数据集子集D^//

项I1子集	项I2子集	项I4子集	项I5子集	项I6子集
					I1,I2,I5	I1,I2,I5	I1,I2,I5,I4	I1,I2,I5	I1,I2,I5,I6
I1,I2	I1,I2	I5,I4	I1,I2,I5	I1,I2,I5,I6
					I1,I2,I5	I1,I2,I5	I1,I2,I4	I1,I2,I5	I1,I5,I6
I1,I2,I5	I1,I2,I5	I1,I5,I4	I5	I2,I5,I6
					I1,I2	I1,I2		I1,I5	I5,I6
I5	I2,I5		I2,I5
					I1,I2	I1,I2		I5

按照L-1的次序对事务数据集D″的整个数据集排序,即首先对事务集的第一列按照L-1的次序排序,然后在此基础上对事务集的第二列按照L-1的次序排序,依次类推到数据集的最后一列得到共享前缀数据集D^///(如图1所示)。

*共享前缀数据集D^///

项I1子集	项I2子集	项I4子集	项I5子集	项I6子集
					I1,I2,	I1,I2	I1,I2,I5,I4	I1,I2,I5	I1,I2,I5,I6
I1,I2	I1,I2	I1,I2,I4	I1,I2,I5	I1,I2,I5,I6
					I1,I2,	I1,I2	I1,I5,I4	I1,I2,I5	I2,I5,I6
I1,I2,I5	I1,I2,I5	I5,I4	I1,I5	I1,I5,I6
					I1,I2,I5	I1,I2,I5		I2,I5	I5,I6
I1,I2,I5	I1,I2,I5		I5
					I5	I2,I5		I5

根据共享前缀数据集D^///生成FP-Tree,构造FP-Tree的条件模式基和条件FP-Tree，导出其频繁项集。项I1所提取的数据集子集挖掘如下表所示：

得到的共享前缀数据集D^///是存储在一个头指针表中(见上表)，头指针表是用字典存储的。HeadList＝{'i1':6,'I2':6,'I5':4}.从头指针表的第一项HeadList[0]开始，循环构建FP-Tree直到到达链表末尾HeadList[-1]。根据头指针表构建FP-Tree时，代码实现是用一个for循环，循环次数就是头指针表的长度len(HeadList)。当循环结束时即表示已到达最后数据。算法描述时写的是判断当前数据是否是最后数据，但是代码实现其实没有判断，for循环结束就代表已经处理了所有数据。

合并所有的约束频繁项集即可得到数据库D的所有频繁项集。

通过实验比较FP-Growth算法和改进算法的性能。测试算法用python语言编写，Selenium+Python自动化测试环境,CPU:PIV 2.10GHZ,内存6G，实验数据选取的是阿里天池大数据比赛--新人实战赛(离线赛)的20000用户的完整行为数据以及百万级的商品信息。在不同支持度情况下对两种算法进行测试，测试两种算法的运行时间(单位s)。参见图2。

*运行时间表

支持度	40％	35％	30％	25％	20％	15％	10％
								FP-Growth	115	133	176	256	577	1343	4326
改进后算法	78	99	126	189	441	1154	3633

Claims

1.一种基于关联规则分析的挖掘算法，其特征在于包括如下步骤：

2.根据权利要求1所述的基于关联规则分析的挖掘算法，其特征在于上述第三步根据频繁L-1项集的各项的支持度由小到大，提取所有含该项的事务，并且删除事务中支持度小于该项支持度的项，得到数据子集D^//。