CN101042698A

CN101042698A - 一种关联规则及元规则的综合挖掘方法

Info

Publication number: CN101042698A
Application number: CN 200710019879
Authority: CN
Inventors: 叶飞跃
Original assignee: Jiangsu University of Technology
Current assignee: Jiangsu University of Technology
Priority date: 2007-02-01
Filing date: 2007-02-01
Publication date: 2007-09-26

Abstract

一种关联规则及元规则的综合挖掘方法，包括如下步骤：(1)将时序数据库按照时间片断划分成若干部分；(2)依次对各个部分分别扫描，并在各个部分分别形成频繁1－项集；(3)再次分别扫描各部分，形成频繁1－项集超结构；(4)采用递归分解法形成完全超结构；(5)挖掘超结构形成关联规则及元规则。本发明只需要扫描数据库两次，就可以获得整体的强关联规则集、各时间段的强关联规则集、元规则集及其元规则的分类，该方法不需要产生候选项集，与现有的公认关联规则挖掘算法相比，在产生频繁项集阶段至少具有基本相同的时间效率。

Description

一种关联规则及元规则的综合挖掘方法

技术领域

本发明涉及计算机数据处理，是一种关联规则及其元规则的综合挖掘方法

背景技术

数据挖掘是人工智能领域的一个重要分支，而关联规则的挖掘则是许多数据挖掘问题的重要任务，然而，现有的各种单一算法上不能同时满足挖掘关联规则、元规则、关联规则变化趋势等方面的任务，如果将各种算法进行组合挖掘，则挖掘效率将大大降低，而对于元规则的挖掘，现存的算法只能适应同一数据域上进行挖掘。

目前国际上较为有影响的频繁模式挖掘的方法是Apriori算法(R.Agrawal and R.Srikant.Fast algorithms for mining association rules.In VLDB’94，pages 487-499)及其相关的改进算法，如DCP(S.Orlando，P.Palmerini and R.Perego，Enhancing the apriori algorithm for frequentset counting.Proceeding of 3^rd international conference on DaWaK2001.Munich，Germany：Spriger，2001.1-17)、FP-Tree算法(J.Han，J.Pei，and Y.Yin.Mining frequent patterns withoutcandidate generation.In SIGMOD’00，pages 1-12)。这些算法主要针对关联规则的挖掘方法和效率进行研究，只是适合于挖掘整体上平均水平的支持度来说的关联规则。但是，有些关联规则是会随着时间的改变而发生变化的，例如一些关联规则是周期性出现的，在某一特定的时段内会周期性的出现，如每周一等，而对整个周期如一周的平均支持度来说，不能形成强关联规则；再比如一些关联规则会随着时间的变化，关联程度是逐渐增强的，就整个时间段的平均的支持度来说也许不能形成强关联规则，但就趋势来说，下一时间将形成强关联规则；同样，一些规则的关联程度呈下降趋势，也许就挖掘整个时间段来说是强规则，但根据趋势，下一时间段将不形成强规则。对于这些知识的发现，以上算法是无法实现的。因此，这些趋势的挖掘需要特定的挖掘算法来实现。

为了能够发现关联规则的变化，Abraham于1999年在“从大临时数据集中增量元挖掘”中提出了元挖掘思想(Abraham，T.，& Roddick，J.F.，Incremental Meta-mining from LargeTemporal Data Sets[C]，Advances in Database Technologies，Proceedings of the 1st InternationalWorkshop on Data Warehousing and Data Mining(DWDM′98)，pp.41-54，1999)，元挖掘是从规则集中发现知识的方法，它是对数据挖掘结果的分析或者说再挖掘，通过元挖掘可以获得元规则。Abraham等研究了基于空间临时数据库的元规则的挖掘，对于在同一数据域上的不同时间片断上产生的规则集上的元规则的挖掘提出了相应的方法，但这种方法尚不适用于一般交易数据库的元规则的挖掘。

Banu Ozden等在“周期关联规则挖掘”中针对周期性关联规则的挖掘进行了研究(B.Ozden，S.Ramaswamy，and A.Silberschatz.Cyclic Association Rules.In Proc.of the 14th Int.Conf.on Data Engineering，Orlando，Florida，February 1998)，在研究中提出的相关算法只能对具有周期性的关联规则的变化趋势进行分析，而不能对非周期性的关联规则的变化趋势进行分析及其他一些关联规则，例如稳定出现的关联规则。

本发明针对目前关联规则挖掘存在的问题，提出一种基于超结构的关联规则及其元挖掘的综合方法，使用该方法既可以挖掘整体上的强关联规则，也可以挖掘其它一些强关联规则及其元规则，如周期性、有增强(或)下降趋势的关联规则，本发明中提出的方法只需要整体扫描数据库两次就可形成相应的强关联规则集及其元规则集。

发明内容

本发明的目的在于针对现有关联规则挖掘算法中存在的不足，提出了基于的超结构关联规则挖掘综合算法。使用该发明的算法，只需要扫描数据库两次就可以挖掘出各类强规则集及元规则集。

为达到上述目的，本发明包括如下步骤：

(1)将时序数据库按照时间片断划分成若干部分；

(2)依次对各个部分分别扫描，并在各个部分分别形成频繁1-项集；

(3)再次分别扫描各部分，形成频繁1-项集超结构；

(4)采用递归分解法形成完全构建超结构；

(5)挖掘超结构形成关联规则及元规则。

将元规则输入到BP神经网络进行分类，得出分类的元规则。

频繁1-项集超结构的基本构建如下：在扫描交易数据库一遍得到频繁1-项集的基础上再一次扫描数据库，并在扫描过程中将频繁1-项集投影到每条交易，得到每条交易的频繁1-项集的投影交易，这样每条投影交易就是一个频繁1-项集的一个子集，然后，项集中的项数即集合的势大于1的项集按照式

h (k_{1}, k_{2}, \cdot \cdot \cdot, k_{m}) = (Σ_{i = 1}^{m} α (k_{i})) \mod p

计算哈希地址，并依此构建或存储Count1m和X(m)到哈希链结构中，第二次数据库扫描结束时，频繁1-项集投影超结构构建完成。

超结构完全构建如下：依据超结构头表，从最长项哈希链结构开始，使用递归分解方，将分解得出的子集的相关信息记录到相应的哈希链结构中去，直到n-项哈希链分解完毕后。

本发明提出的关联规则及元规则挖掘方法，只需要扫描数据库两次，就可以获得整体的强关联规则集、各时间段的强关联规则集、元规则集及其元规则的分类，该方法不需要产生候选项集，与现有的公认关联规则挖掘算法相比，在产生频繁项集阶段至少具有基本相同的时间效率。如与Apriori类算法相比具有更高的效率，因Apriori类算法对数据库的扫描次数与产生的频繁项集的项数相同，这样Apriori类算法会有高的I/O开销；如与FP-Tree方法相比，对于数据库的整体扫描次数相同，也需要两次。但在形成关联规则阶段，也就是计算置信度阶段，本发明直接在超结构中获得相关频繁项集的支持度用来计算置信度这样减少了I/O的开销，从而使得在挖掘关联规则方面具有更高的效率。同时，该方法还可以直接从超结构中获得各时段的强关联规则集以及元规则集，可以获得目前关联规则挖掘算法不能挖掘到的一些强关联规则。

本发明与目前元规则挖掘算法相比，现有的元挖掘算法是首先采用现有的关联规则挖掘算法，对于各时间段的数据库分别进行挖掘，输出各自的关联规则，然后对各时间段的规则集进行比较分析，获得元规则集，而且目前仅仅限于对相同数据域上的元挖掘，显然，其综合效率将低于本发明。

与目前关联规则趋势分析算法，如周期关联规则挖掘算法，这些算法的基础是Apriori算法，Apriori算法的缺陷在这类算法中仍然存在，且这类算法只能准对某一类关联规则进行挖掘，例如周期关联规则挖掘则只能挖掘具有周期变化的那些关联规则，而放弃了其它类型关联规则的挖掘。显然，本发明提出的方法更具有优越性。

附图说明

图1是超级哈希链结构图；

图2是1-项头表节点结构图；

图3是1-项链表节点图；

图4是多项头表节点结构结构图；

图5是多项链表节点结构图。

具体实施方式

本发明的步骤如下：

(1)将时序数据库按照时间片断划分成若干部分；

(3)再次分别扫描各部分，形成频繁1-项集超结构；

(4)采用递归分解法形成完全构建超结构；

(5)挖掘超结构形成关联规则及元规则。

紧一步将元规则输入到BP神经网络进行分类，得出分类的元规则。

下面为具体构建过程：

(1)超结构的构造

(a)超结构头表的构建

超结构头表包含两个域：项长度域和指针域。指针域中的指针指向对应的哈希链结构。超结构头表如表1所示。

(b)哈希函数的构造

以下所说的项集均按照项编号从小到大的次序排列，项集的哈希函数都是对项集中的项的编号进行计算的。

①1-项集的哈希函数构造

1-频繁项i_k(这里k是项编号)的哈希函数如下：

h(k)＝k (1-1)

②多项集的哈希函数构造

设某n-项集X＝i₁i₂...i_n，项编号集合B＝{1，2，...，n}，其某一子集X’＝i_k1i_k2...i_km，项编号集合B’＝{k₁，k₂，...，k_m}，显然，X′X，B′B，则项集X’采用除留余数法的基于项集X的哈希函数如下：

h (k_{1}, k_{2}, \cdot \cdot \cdot, k_{m}) = (Σ_{i = 1}^{m} α (k_{i})) \mod p - - - (1 - 2)

式中，α(k_i)可根据需要取值，如2^ki-1，2k_i-1，10^ki-1等；P为某一素数。

(c)链地址结构

设X_(m)表示项集X包含m项，即|X_(m)|＝m，1-频繁项集的头表节点结构和链表节点结构分别如图2和图3所示。

图3中的“链地址”是由式(1-1)计算得到，“指针”指向链表节点结构，Count1₁为项X₍₁₎的累计计数。

频繁多项集的头表节点结构如图4所示，频繁多项集得链表节点结构如图5所示。

图4中的“链地址”由频繁多项集X_(m)基于所有频繁项构成的集合计算的哈希函数h(k₁，k₂，...，k_m)得到，头表节点中的“指针”指向链表节点结构；图5中的Count1_m为第m项哈希链链表节点中项集X_(m)通过扫描数据库得到的原始累计计数，称为“计数”。Count2_m用于记录第m项哈希链中的项集X_(m)来自其原始超集(即不包括分解得出的集合)的累计计数，称为“分解计数”。链表节点结构中的“指针”指向具有相同链地址值的下一链表节点。

(d)哈希链结构的基本构建过程

首先扫描交易数据库一遍得到频繁1-项集，然后再一次扫描数据库，并在扫描过程中将频繁1-项集投影到每条交易，得到每条交易的频繁1-项集的投影交易，这样每条投影交易就是一个频繁1-项集的一个子集，然后，项集中的项数(即集合的势)大于1的项集按照式(1-2)计算哈希地址，并依此构建或存储Count1_m和X_(m)到超结构中的哈希链结构中，第二次数据库扫描结束时，频繁1-项集投影超结构构建完成。然后首先依据超结构头表，从最长项哈希链结构开始，使用递归分解方，将分解得出的子集的相关信息记录到相应的哈希链结构中去。这样，直到3-项哈希链分解完毕后，超结构构建过程结束。

(2)超结构构建和频繁项集挖掘算法(MHSC-Mine)

算法：MHSC-Mine

输入：事务数据库TDB；最小支持数min_sup。

输出：频繁项集的完全集。

方法：

扫描事务数据库TDB一次，收集频繁项的集合I′和它们的支持数，并构建1-项哈希链；

n′＝1，N＝0；

while事务数据库交易记录尚未结束

{

扫描一条纪录得到一个项集

X_{n^{'}} = {i_{k_{1}}, i_{k_{2}}, \cdot \cdot \cdot, i_{k_{n}}};

求频繁1-项集投影交易

A_{n^{'}} = I^{'} \cup X_{n^{'}} = {i_{q_{1}}^{n^{'}}, i_{q_{2}}^{n^{'}}, \cdot \cdot \cdot, i_{q_{n^{'}}}^{n^{'}}};

n2＝|A_n′|；

if n2＞N then N＝n2 //N用于记录最长的频繁1-项集投影的项数

按照式(1-2)求项集A_n′哈希地址；

If A_n′哈希地址上的指针不为空

{

If 在该指针所指的链表节点找到项集A_n′

{Count1_n2＝Count1_n2+1；}

else

{创建新的链表节点，并将项集A_n′作为X_(n2)保存到相应的n2-项哈希链的节

点中，同时保存n2，令Count1_n2＝1；}}

else{在该地址上创建立链表节点，并将项集A_n′作为X_(n2)保存到相应的n2-项

哈希链的节点中，同时保存n2，令Count1_n2＝1；}

n′＝n′+1；

}

For(i＝N；i＜＝3；i--)

{

for all Count1_i大于0的项集X_(i)

{

递归分解成2-项集到(N-1)-项集，每分解得出一个项集A_n后就计算各项集A_n的“链地址”，并在n-项哈希链搜索在该地址中是否已经存在项集，如果已经存在，则将项集A_i的Count1_i累加到在该节点的Count2_n中，否则，增加新的节点，并在节点中保存项集A_n和Count2_n的信息；

}

For(i＝1；i＜＝N；i++)

{

扫描i-项哈希链结构；

总计数＝Count1_i+Count2_iIf 项集X_(i)的总计数＞＝min_sup then输出项集X_(i)和总计数；}

关联规则的挖掘主要是频繁项集的挖掘，在获得频繁项集之后，对频繁项集形成相应的子集并计算相应的置信度，对于满足置信度域值的，则形成相应的规则。对于数据集D₀＝{D₁，D₂，...，D_n}的关联规则挖掘，首先从超结构中获得相应的项集X的支持数，在对应时间段数据集在超结构中形成的累计支持数分别为Sup₁(X)，Sup₂(X)，...，Sup_n(X)，对于整个时间段的数据D₀而言，其支持数是项集X在各时间段数据集中的支持数之和

{Sup}_{0} (X) = Σ_{i = 1}^{n} {Sup}_{i} (X) .

这样根据定义4就很容易形成整体频繁项集以及在各部分形成相应的频繁项集，最后可以在频繁的部分形成相应的规则。

关联规则的形成：对于在数据集D_i中的项集X＝{i_k1，i_k2，...，i_kn}在形成相应的规则时，是根据相应的子集来计算支持度的。例如，对于项集X中的子集i_k1i_k2形成的规则i_k1i_k2，其置信度的计算如下：

{conf}^{i}_{i_{k 1} &DoubleRightArrow; i_{k 2}} = \frac{{Sup}_{i} (i_{k 1} i_{k 2})}{{Sup}_{i} (i_{k 1})} \times 100 % - - - (5)

式(5)中confⁱ _ik1ik2表示关联规则i_k1i_k2在数据集D_i中的置信度。式(5)中的Sup_i(i_k1i_k2)和Sup_i(i_k1)均已在超结构中存在，这样，利用超结构很容易就可计算得到相应的规则的置信度，如此，可以在数据集D₁，D₂，...，D_n分别得到相应的支持度Sup₁(i_k1i_k2)，Sup₂(i_k1i_k2)，...，Sup_n(i_k1i_k2)和Sup₁(i_k1)，Sup₂(i_k2)，...，Sup_n(i_k1)以及置信度conf¹ _ik1ik2，conf² _ik1ik2，...，confⁿ _ik1ik2。这样，就很容易在超结构中获得相应频繁项集在相关数据集D_i上的相应的强关联规则集。

而对于数据集D₀上可以得到相应的支持度

{Sup}_{0} (i_{k 1} i_{k 2}) = Σ_{i = 1}^{n} {Sup}_{i} (i_{k 1} i_{k 2}),

{Sup}_{0} (i_{k 1}) = Σ_{i = 1}^{n} {Sup}_{i} (i_{k 1}),

如果Sup₀(i_k1i_k2)≥Sup₀_min，则需要计算置信度，而对于关联规则i_k1i_k2在数据集D₀上的置信度为：

{conf}^{0}_{i_{k 1} &DoubleRightArrow; i_{k 2}} = \frac{Σ_{i = 1}^{n} {Sup}_{i} (i_{k 1} i_{k 2})}{Σ_{i = 1}^{n} {Sup}_{i} (i_{k 1})} \times 100 % - - - (6)

因此，在数据集D₀上可以从超结构上相应的频繁项集i_k1i_k2形成的置信度conf⁰ _ik1ik2，如果满足

{conf}^{0}_{i_{k 1} &DoubleRightArrow; i_{k 2}} &GreaterEqual; conf_\min

获得在数据集D₀上的相应的强关联规则。

根据定义6，如果存在一个i(i＝1，2，...，n)，使得(Sup_i(X)≥s_i×d_i)且使得形成的规则集R′存在r∈R′的confⁱ _r≥conf_min，即v_i＝1，则可以获得元规则：

r：{v₁，v₂，...，v_n} (7)

(3)利用神经网络按规则变化趋势分析进行分类

利用神经网络进行分类，首先需要选用训练样本，样本数据按照如下几类来选取：

1)随时间变化稳定出现的规则集，其输出结果为y₁；

2)随时间变化呈增强趋势规则集，其输出结果为y₂；

3)随时间变化呈减弱趋势规则集，其输出结果为y₃；

4)循环变化的规则集，其输出结果为y₄；

5)季节性变化的规则集，其输出结果为y₅；

6)随机变化的规则集，其输出结果为y₆。

然后，在以下BP网络结构中进行训练：

其BP网络的训练和使用将分别对于相应的时间属性t₀＝{t₁，t₂，...，t_n}来进行，例如时间段是按小时为单位来划分，则选用相应n个小时的样本数据及神经元个数(n及p的取值)来进行训练，如果时间段是按照月份来进行的，则选用相应的n个月份的样本数据来进行训练，这样，按照图6所示的BP网络结构进行训练获得各种情况下的网络中各节点之间的权值W_ij和W_jt。使用时采用对应的训练好的网络来进行分类。这样在元规则的挖掘过程中，将在超结构中挖掘得到的元规则直接作为相应的问题定义的神经网络的输入，进行关联规则的分类，通过神经网络的分类得到六类不同的元规则集。

通过这样的元规则分类之后，大大体高了规则的可用性，也将大大方便用户对于规则的应用和对规则进行进一步的挖掘。

Claims

1、一种关联规则及元规则的综合挖掘方法，其特征在于：包括如下步骤：

(1)将时序数据库按照时间片断划分成若干部分；

(3)再次分别扫描各部分，形成频繁1-项集超结构；

(4)采用递归分解法形成完全超结构；

(5)挖掘超结构形成关联规则及元规则。

2、根据权利要求1所述的一种关联规则及元规则的综合挖掘方法，其特征在于：将元规则输入到BP神经网络进行分类，得出分类的元规则。

3、根据权利要求1所述的一种关联规则及元规则的综合挖掘方法，其特征在于：频繁1-项集超结构的基本构建如下：在第二次扫描数据库过程中将频繁1-项集投影到每条交易，得到每条交易的频繁1-项集的投影交易，这样每条投影交易就是一个频繁1-项集的一个子集，项集中的项数即集合的势大于1的项集按照式

h (k_{1}, k_{2}, \cdot \cdot \cdot, k_{m}) = (Σ_{i = 1}^{m} α (j_{i})) \mod p

计算哈希地址，并依此构建或存储Count1_m和X_(m)到哈希链结构中，第二次数据库扫描结束时，频繁1-项集投影超结构构建完成。

4、根据权利要求3所述的一种关联规则及其元规则的综合挖掘方法，其特征在于：完全超结构构建如下：依据超结构头表，从最长项哈希链结构开始，使用递归分解方，将分解得出的子集的相关信息记录到相应的哈希链结构中去，直到n-项哈希链分解完毕后。