CN103176976A

CN103176976A - 一种基于数据压缩的改进的Apriori算法

Info

Publication number: CN103176976A
Application number: CN2011104305289A
Authority: CN
Inventors: 高海洋; 沈强; 张轩溢; 唐朝伟; 赵志军; 慈松; 唐晖
Original assignee: Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd; Institute of Acoustics CAS
Current assignee: Wuxi Zhongke Intelligent Information Processing Research & Development Center Co ltd; Institute of Acoustics CAS
Priority date: 2011-12-20
Filing date: 2011-12-20
Publication date: 2013-06-26
Anticipated expiration: 2031-12-20
Also published as: CN103176976B

Abstract

一种基于数据压缩的改进的Apriori算法，包括步骤：判断数据库中的事物记录条数N大于该数据库中所有数据项的所有可能的组合数M时，生成数据库项与该数据项数量的映射表DB_Map_Table；将该映射表DB_Map_Table中的所有健值对<key，value>按照key的大小升序排列；使用Apriori算法生成I(I＞2)项候选集时，判断将要合并的两个频繁集中不同的项所组成的二项集是否为2项频繁集的子集，如果是，则将将要合并的两个频繁集的合集加入候选集。本发明的效果在于，减小了原有事务数据库的大小，减少了数据库的扫描次数，减少了算法运行过程中候选集的生成，从而在保证算法正确的同时有效地提高了算法的速度和效率。

Description

一种基于数据压缩的改进的Apriori算法

技术领域

本发明涉及对一种Apriori算法的改进算法。

背景技术

关联规则挖掘用来发现大量数据中项集之间的有趣的关联或相关联系，它在数据挖掘中是一个重要的课题，最近几年已被业界所广泛研究。关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系，找出顾客购买行为模式，如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。

Agrawal等于1994年提出了一个挖掘顾客交易数据库中项集间的关联规则的重要方法Apriori，其核心是基于两阶段频繁集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。

该算法的基本思想是：首先找出所有的频繁项集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频繁集产生强关联规则，这些规则必须满足最小支持度和最小可信度。一旦这些规则被生成，那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频繁项集，使用了递推的方法。Apriori的总体性能由第一步决定，第二步相对容易实现。

传统的Apriori算法具有两个主要的缺陷：

1.会产生大量的候选集；

2.会重复地扫描数据库；

为解决上述问题，本发明利用数据库中数据的特点，提出一种基于数据压缩的Apriori算法的改进算法，同时在候选集的选择上进行预先判断，以减少所产生的候选集的数目。

本发明的再一目的是减少扫描数据库的次数，以提高查询的速度。

发明概述

为了实现上述目的，本发明采用了压缩数据库的办法。设有由m个项{I₁，I₂...I_m}组成的数据集合，数据库中的每一项均由该集合中的元素组成，即T_k＝{I₁，I₂...I_j}，数据库共包含N条事务记录，数据库中所有组合的总数为：

M = C_{m}^{1} + C_{m}^{2} + C_{m}^{3} + . . . + C_{m}^{k} + . . . + C_{m}^{m} = 2^{m} - 1

当N＞M时，对数据库进行压缩，提取出数据库中的有效信息，生成数据库项和该数据项数量的映射表DB_Map_Tbale，映射函数为H(key)。这里引入转换函数f(X)，F(X)的作用是将数据库项转换为DB_Map_Tbale中该项对应的键值。如：

对于T_k＝{I₁，I₂...I_j}

F(T_k)＝key_k

进一步，对DB_Map_Tbale中内容排序，将该映射表DB_Map_Table中的所有健值对<key，value>按key的大小升序排列，即KEY＝{key₁，key₂，...key_m}，key₁＜key₂＜...＜key_m。

进一步，使用Apriori算法，由n--1项频繁集合并生成n项候选集I_n(n＞2)。每次从n-1项频繁集中选出没有合并过的两个频繁集I_X，I_Y，如果I_X，I_Y这两个集合的前n-2项相同，第n-1项不同，则它们符合原始算法的合并条件。本发明在此基础上额外加入新的判断条件，判断将要合并的两个频繁集I_X，I_Y中不同的两项i_x，i_y所组成的2项集i_xy＝{i_x，i_y}是否是2项频繁集IF的子集，若则将I_X∪I_Y加入候选集的集合I_n中。

根据Apriori算法的原理，当在第一个阶段要计算每一个候选集合I_k＝{I₁，I₂...I_X}的支持度sup(I_k)时，从处开始顺序扫描DB_Map_Tbale，引入函数d(key_I)，

d(key_I)＝I＝{I₁，I₂，...I_x}

那么

\sup (I_{k}) = \overset{m}{Σ} H (i), (d ({key}_{k}) &SubsetEqual; d (i))

本发明的优点在于，减小了原有事务数据库的大小，减少了数据库的扫描次数，减少了算法运行过程中生产的候选集的数量，从而在保证算法正确的同时有效地提高了算法的速度和效率。

附图说明

图1是根据本发明的生成DB_Map_Tbale的流程图；

图2是根据本发明的利用DB_Map_Tbale计算支持度的流程图；

图3显示的是本发明的算法与已有算法执行时间的比较；

图4显示的是使用了Apriori性质进一步验证后生成的候选集的数量。

具体实施方式

以下将对本发明的实施进行详细描述。

图1根据本发明的生成DB_Map_Tbale的流程图，具体步骤如下：

1)设置长度为m的bitmask＝<0000...0>；

2)扫描数据库，顺序读取数据库的每一项，对读取的数据库的项，T_k＝{I_x，I_Y，...I_z}调用f(X)，将bitmask＝<0000...0>对应的x，y，...z位设置为1，生成T_k对应的bitvector＝<01_x....1_y..1_z0>；

3)bitvector＝<01_x....1_y..1_z0>转化为对应的十进制键值key_k；

4)调用count＝H(key_k)，若返回的结果为0，则H(key_k)＝1，若返回值大于0，H(key_k)＝count+1；

5)当扫描完整个数据库后，对DB_Map_Tbale按照key的大小按升序排序，至此生成DB_Map_Tbale的过程结束。

图2是根据本发明的利用DB_Map_Tbale计算支持度的流程图，具体步骤如下：

1)对于候选集I_c＝{I_x，I_y，..._Iz}，调用f(X)，生成key_c，

2)调用H(x)，从key_c处开始顺序向后遍历DB_Map_Tbale，因为例如，对于任意两个集合

bitvector_x-bitvector_y＜＝0，所以key_x＜key_y

3)对于每一个key＞key_c，调用d(x)，若

sup(I_c)＝sup(I_c)+H(key)

4)当到达DB_Map_Tbale末尾时，此过程结束。

数据库经过去重压缩处理之后，数据库的信息被无损地保存在DB_Map_Tbale，这种方式可减少数据库的操作次数，提高算法的效率。使用映射表进行存储，可提高存储空间的利用效率，同时借助key在DB_Map_Tbale中递增排列的特点，在求某一个候选集的支持度时，可以不用遍历整个DB_Map_Tbale，仅从包含该候选集的最小单元开始遍历DB_Map_Tbale即可，这样可以降低查询操作的时间复杂度。而通过利用Apriori性质，本发明的算法可有效减少生成的候选集的数量。

在对本发明算法的仿真过程中，数据集包含46243条数据记录，包含13个不同的单元项。图3显示的是改进后的算法与原有算法执行时间的比较，横轴表示支持度，纵轴表示算法的执行时间。图4显示的是在使用了Apriori性质进一步验证后，生成的候选集的数量，这里以三项候选集为例，其中横轴表示支持度，纵轴表示生成三项候选集的数量。

虽然已经结合具体实施方式对本发明的基于数据压缩的Apriori算法的改进算法进行了说明，但是本发明不限于此。在本发明的精神和原理下做出的各种变型均应包含在本发明的权利要求书限定的范围之内。

Claims

1.一种基于数据压缩的改进的Apriori算法，包括步骤：

判断数据库中的事物记录条数N大于该数据库中所有数据项的所有可能的组合数M时，生成数据库项与该数据项数量的映射表DB_Map_Table；

将该映射表DB_Map_Table中的所有健值对<key，value>按key的大小升序排列，即KEY＝{key₁，key₂，...key_m}，key₁＜key₂＜...＜key_m；

利用Apriori算法从DB_Map_Table表的第

处开始扫描该DB_Map_Table表，以计算每个候选集I_k＝{I₁，I₂...I_x}的支持度。

2.根据权利要求1的基于数据压缩的改进的Apriori算法，其特征在于生成所述映射表DB_Map_Table的过程包括以下步骤：

设置长度为m的bitmask＝<0000...0>；

顺序读取数据库的每一项，对于所读取的数据库的项T_k＝{I_x，I_y，...I_z}，调用f(X)，将bitmask＝<0000...0>对应的x，y，...z位设置为1，生成T_k对应的bitvector＝<01_x....1_y..1_z0>；

bitvector＝<01_x....1_y..1_z0>转化为对应的十进制键值key_k；

调用count＝H(key_k)，若返回的结果为0，则H(key_k)＝1，若返回值大于0，H(key_k)＝count+1；

重复以上步骤直至扫描完整个数据库。

3.根据权利要求1或2的基于数据压缩的改进的Apriori算法，其特征在于还包括：引入函数d(key_I)，d(key_I)＝I＝{I₁，I₂，...I_x}，并且根据公式

\sup (I_{k}) = Σ_{{key}_{k}}^{m} H (i), (d ({key}_{k}) &SubsetEqual; d (i))

计算每个候选集合的支持度。

4.根据前述权利要求之一的基于数据压缩的改进的Apriori算法，其特征在于还包括：使用Apriori算法生成I(I＞2)项候选集时，判断将要合并的两个频繁集I_X，I_Y中不同的两项i_x，i_y所组成的2项集i_xy＝{i_x，i_y}是否是2项频繁集I_F的子集，若则将I_X ∪I_Y加入候选集的集合I_n中。