CN104281617A

CN104281617A - 一种基于领域知识的多层关联规则挖掘方法及系统

Info

Publication number: CN104281617A
Application number: CN201310290018.5A
Authority: CN
Inventors: 孟振宇; 吴晓鸰; 王慰; 李建军
Original assignee: Guangzhou Institute of Advanced Technology of CAS
Current assignee: Guangzhou Institute of Advanced Technology of CAS
Priority date: 2013-07-10
Filing date: 2013-07-10
Publication date: 2015-01-14

Abstract

本发明属于数据挖掘技术领域，本发明具体公开了一种基于领域知识的多层关联规则挖掘方法及系统，该方法包括以下步骤：以领域知识作为基础数据，根据该基础数据的相关性构建领域相关性模型；以领域知识作为基础数据，根据该基础数据构建结构分类层；在所述结构分类层基础上对项进行聚类存储，从而产生项的聚类层以及构建原始事务数据库；对所述原始事务数据库进行层次分类，并将此层次分类映射到频繁模式树中构建频繁模式树结构；对频繁模式树进行搜索得到频繁项集的结果。本发明不仅可以确保频繁项集挖掘结果的正确性和完整性，而且还比现有同类最新挖掘算法具有更好的执行效率和扩展性。

Description

一种基于领域知识的多层关联规则挖掘方法及系统

技术领域

本发明属于数据挖掘技术领域，本发明具体涉及一种基于领域知识的多层关联规则挖掘方法及系统。

背景技术

近年来，随着数据量的极速增长，从大量数据中自动搜索隐藏于其中的特殊相关性的数据挖掘技术应运而生。数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。起初仅仅是对存储在计算机中数据库的访问与查询。进入海量数据时期，数据挖掘的相关技术延伸到通过数据的查询与遍历，找到数据之前潜在的联系，促进信息的传递。

与基于Aprior思想的算法不同，多层关联规则挖掘问题自提出以来，有人提出了基于FP-Growth思想的算法，其思想是：首先对原始事务数据库中的项进行扩展，使之包含分类数据中各个层次的项，然后将扩展后的事务数据库映射至一棵压缩的FP-tree树，由于树的每个节点记载着对应项的计数信息，从而可以达到无需产生候选项集而直接找出频繁项集的目的。与需要通过多次扫描事务数据库，并通过计数来判定项集是否频繁的候选项集挖掘算法相比，FP-tax算法使分类数据关联规则的挖掘效率有了较大的提升。同时，FP-tax方法也因基于FP-Growth挖掘而具有自身的局限性。该方法在自下而上遍历策略寻找每个项集的前缀频繁项集时，由于无法重用原始的FP-tree而必须不断循环新建以该项为前缀的条件FP-tree，从而使算法需要大量额外开销；其分类数据关联规则的挖掘归根结底为一种完全无监督的学习过程，而在实际应用领域中，事务的项之间必定存在一定的相关性，有些项与项之间更是存在着大量父子或祖先后代等关系，而通过这些关系我们可以实现事务数据库所在的领域知识的提取，以及有指导的关联规则挖掘工作。

Agrawal提出的Apriori算法是挖掘完全频繁项集中有影响力的算法，是一种宽度优先算法，经过演化，提出了AprioriTid算法。之后Apriori算法和AprioriTid算法又融合生成AprioriHybrid算法。总体来说，宽度优先算法不足之处在于需要生成大量候选项集，需要多次扫描数据库。FP-growth算法是另一种高效并且本质上不同于Apriori算法的经典算法。与Apriori算法相比，FP-growth算法有以下优点：只需要扫描两次数据库，不需要产生庞大的候选项集，在挖掘过程中降低了搜索空间。但其有应用难点，在处理很大的且很稀疏的数据库时，挖掘处理与递归运算仍需要很大的空间。

发明内容

本发明的目的在于提供一种基于领域知识的多层关联规则挖掘方法及系统，不仅可以确保频繁项集挖掘结果的正确性和完整性，而且还比现有同类最新挖掘算法具有更好的执行效率和扩展性。

为了实现上述发明目的，本发明所采取的技术方案如下：

一种基于领域知识的多层关联规则挖掘方法，包括以下步骤：

以领域知识作为基础数据，根据该基础数据的相关性构建领域相关性模型；

以领域知识作为基础数据，根据该基础数据构建结构分类层；

在所述结构分类层基础上对项进行聚类存储，从而产生项的聚类层以及构建原始事务数据库；

对所述原始事务数据库进行层次分类，并将此层次分类映射到频繁模式树中构建频繁模式树结构；

对频繁模式树进行搜索得到频繁项集的结果。

进一步的，所述原始事务数据库中存储的数据与领域知识一一对应。

进一步的，所述将此层次分类映射到频繁模式树中构建频繁模式树结构，具体是：

对于数据的项集进行编码描述，其中每一个数据项集由数据项的属性信息构成；

将上述属性信息按照多元组的形式进行构造性分类建立元组；

根据构建的元组关系进行建频繁模式树的建立；

对建频繁模式树节点进行编码，其编码规则依层次计算，每层节点按照非零十六进制数依次编码；

进行频繁项集的搜索。

进一步的，所述对于数据的项集进行编码描述中的编码由业务用户序列号构成。

进一步的，根据构建的元组关系进行建频繁模式树的建立，具体是：

将元组的第一属性作为父节点，之后的属性依次作为次级节点以及叶子节点建立建频繁模式树。

一种基于领域知识的多层关联规则挖掘系统，包括以下模块：

领域相关性模型构建模块，用于以领域知识作为基础数据，根据该基础数据的相关性构建领域相关性模型；

结构分类层构建模块，用于以领域知识作为基础数据，根据该基础数据构建结构分类层；

原始事务数据库构建模块，用于在所述结构分类层基础上对项进行聚类存储，从而产生项的聚类层以及构建原始事务数据库；

频繁模式树构建模块，用于对所述原始事务数据库进行层次分类，并将此层次分类映射到频繁模式树中构建频繁模式树结构；

搜索模块，用于对频繁模式树进行搜索得到频繁项集的结果。

进一步的，所述频繁模式树构建模块将此层次分类映射到频繁模式树中构建频繁模式树结构，具体是：

根据构建的元组关系进行建频繁模式树的建立；

进行频繁项集的搜索。

本发明通过大量人工随机生成数据和实际金融交易数据的实验表明，本发明提出的多层关联规则挖掘方法不仅可以确保频繁项集挖掘结果的正确性和完整性，而且还比现有同类最新挖掘算法具有更好的执行效率和扩展性。

附图说明

此附图说明所提供的图片用来辅助对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的不当限定，在附图中：

图1是本发明方法的流程图；

图2是本发明系统对应的框图；

图3是本发明构造的抽象树示意图。

具体实施方式

实施例1

如图1所示，本实施例公开了了一种基于领域知识的多层关联规则挖掘方法，包括以下步骤：

S1、以领域知识作为基础数据，根据该基础数据的相关性构建领域相关性模型；

S2、以领域知识作为基础数据，根据该基础数据构建结构分类层；

S3、在所述结构分类层基础上对项进行聚类存储，从而产生项的聚类层以及构建原始事务数据库；其中，所述原始事务数据库中存储的数据与领域知识一一对应；

S4、对所述原始事务数据库进行层次分类，并将此层次分类映射到频繁模式树中构建频繁模式树结构，具体可以是：

S41、对于数据的项集进行编码描述，其中每一个数据项集由数据项的属性信息构成；其中，所述对于数据的项集进行编码描述中的编码由业务用户序列号（Transaction id）构成；

S42、将上述属性信息按照多元组的形式进行构造性分类建立元组；

S43、根据构建的元组关系进行建频繁模式树的建立，具体是：将元组的第一属性作为父节点，之后的属性依次作为次级节点以及叶子节点建立建频繁模式树；

S44、对建频繁模式树节点进行编码，其编码规则依层次计算，每层节点按照非零十六进制数依次编码；

S45、进行频繁项集的搜索。

S5、对频繁模式树进行搜索得到频繁项集的结果。

频繁模式树，即是FP-tree。频繁模式树(Frequent Pattern tree)简称为FP-tree，是满足下列条件的一个树结构：它由一个根节点(值为null)、项前缀子树(作为子女)和一个频繁项头表组成。

如图2所示，本实施例还公开了与上述方法完全对应一致的一种基于领域知识的多层关联规则挖掘系统包括以下模块：

领域相关性模型构建模块1，用于以领域知识作为基础数据，根据该基础数据的相关性构建领域相关性模型；

结构分类层构建模块2，用于以领域知识作为基础数据，根据该基础数据构建结构分类层；

原始事务数据库构建模块3，用于在所述结构分类层基础上对项进行聚类存储，从而产生项的聚类层以及构建原始事务数据库；其中，所述原始事务数据库中存储的数据与领域知识一一对应；

频繁模式树构建模块4，用于对所述原始事务数据库进行层次分类，并将此层次分类映射到频繁模式树中构建频繁模式树结构，具体是：对于数据的项集进行编码描述，其中每一个数据项集由数据项的属性信息构成，其中，所述对于数据的项集进行编码描述中的编码由业务用户序列号（Transaction id）构成；将上述属性信息按照多元组的形式进行构造性分类建立元组；根据构建的元组关系进行建频繁模式树的建立，具体是：将元组的第一属性作为父节点，之后的属性依次作为次级节点以及叶子节点建立建频繁模式树；对建频繁模式树节点进行编码，其编码规则依层次计算，每层节点按照非零十六进制数依次编码；进行频繁项集的搜索；

搜索模块5，用于对频繁模式树进行搜索得到频繁项集的结果。

其中，数据的项集描述如下：

Transaction id	Bar-code-set
		351428	{17325,92108,55349,88157}
…	{…,…}

数据的关系描述：

Bar-code

Category

Brand

Content

Size

Storage_id

Price

17325

Milk

Foremost

2%

1(ga.)

14(days)

3.89dollar

…

我们可以根据相同属性的元组进行分类，（以categroy,content和brand的属性值相同进行分类，我们可以得到如下关系：

然后，我们以category作为第二层，content作为第三层，brand作为第四层可以通过上表构造抽象树（如图3所示）。

我们采取如下编码，在上述树状图种，milk为第一层第一个，编号为1；2%为第二层第一个，编号为1；foremost为的三层第二个，编号为2。此时的foremost milk就被标记为112。

对于编码后商品列表如下：

其算法工作如下:

步骤1:挖掘第一层的所有频繁项集

过将原始事务数据库映射成FP-tree结构，然后挖掘第一层的频繁项集，同时保存了“2-项”集支持度的计算中间结果。

步骤2:对第一层的项进行聚类，然后对原始数据库进行约简划分。首先对第一层的项进行层次聚类，这时相关性函取值可以直接从步骤1的2-项集支持度选取，而无须单独进行计算。然后根据项的聚类结果，对原始事务数据库进行约简划分。

.步骤3:挖掘第二层的所有频繁项集

同步骤1的方法，在步骤2约简划分后的事务数据库基础上，分别映射成FP-tree结构，然后挖掘第二层所有的频繁项集。由于约简划分后的每个事物数据库规模通常要小于原始事务数据库，因此可以节省构建FP-tree时扫描事务数据库的I/O时间，从而提升算法效率。

.步骤4:对第二层的项进行聚类，然后对事务数据库进行约简划分

同步骤2的方法，首先对第二层的项进行层次聚类。然后根据项的聚类结果，对二层划分后的事务数据库而不是原始事务数据库进行进一步约简划分。一般情况下，事务数据库会随着层次的深入而被不断约简划分，规模也会不断缩小，从而有利于节省遍历1/0时间，提升算法挖掘效率。

步骤5:挖掘其余层的频繁项集

参照步骤3至4的方法，挖掘产生分类数据的其余层的频繁项集，直至叶子层结束。其中叶子层只需进行挖掘而不需进行项的聚类和数据库的约简划分，因为已经没有后续层需要挖掘。

输入：分类数据Tax，最大层数Maxlevel:原始事务数据库D0:用户定义的层最小支持度σminsup[L]，用户定义的相关性阈值δ。其中D_l1表示第L层的第i个事务数据库;

输出：第L层的频繁项集LL(L);

本发明从分类数据的内在特征和相关领域知识入手，结合最新挖掘方法的研究成果，提出了一种新的多层关联规则挖掘方法，其基本思想是:

(I)利用分类数据所在的领域知识来构建项与项之间的相关性模型。基于该相关性模型构建的相关性函数可以实现对通用相关性函数的有效修正，使之更加适合于分类数据项之间相关性的度量。

(2)基于该相关性函数对分类数据的项按层进行聚类，即根据用户给定的控制阈值，将相关性较高的项尽量聚成一类。然后根据聚类结果对事务数据库进行约简划分，即划分后事务数据库的交易列表中只保留来自同一聚类中的项，从而缩小事务数据库的规模，节省了挖掘算法扫描事务数据库的I/O时间，进而提高了挖掘算法的执行效率。

(3)提出了一种利用层间智慧(Level-wise)思想来指导多层关联规则挖掘的方法。首先，不管采用自顶向下方式还是自底向上方式，在挖掘分类数据当前层频繁项集的同时，根据数据的层次化特性，尽量保存当前层项的聚类结果和事务数据库的约简划分结果，并用于指导下一层项的聚类和事务数据库的约简划分，形成逐层递归指导关系，以减少在分类数据后续层次频繁项集挖掘过程中对事务数据库的扫描次数和规模，从而有效地节约了算法开销。

基于上述核心思想，本发明提出并实现了一种多层关联规则挖掘算法和一种自底向上的多层关联规则挖掘算法。通过大量人工随机生成数据和实际金融交易数据的实验表明，本发明提出的多层关联规则挖掘算法不仅可以确保频繁项集挖掘结果的正确性和完整性，而且还比现有同类最新挖掘算法具有更好的执行效率和扩展性。

本发明提出并实现了多层关联规则挖掘方法，通过大量人工随机生成数据和实际金融交易数据的实验表明，本发明提出的多层关联规则挖掘算法不仅可以确保频繁项集挖掘结果的正确性和完整性，而且还比现有同类最新挖掘算法具有更好的执行效率和扩展性。

以上详细描述了本发明的较佳具体实施例，应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明构思在现有技术基础上通过逻辑分析、推理或者根据有限的实验可以得到的技术方案，均应该在由本权利要求书所确定的保护范围之中。

Claims

1.一种基于领域知识的多层关联规则挖掘方法，其特征在于包括以下步骤：

对频繁模式树进行搜索得到频繁项集的结果。

2.根据权利要求1所述的基于领域知识的多层关联规则挖掘方法，其特征在于：

所述原始事务数据库中存储的数据与领域知识一一对应。

3.根据权利要求1所述的基于领域知识的多层关联规则挖掘方法，其特征在于，所述将此层次分类映射到频繁模式树中构建频繁模式树结构，具体是：

根据构建的元组关系进行建频繁模式树的建立；

进行频繁项集的搜索。

4.根据权利要求3所述的基于领域知识的多层关联规则挖掘方法，其特征在于：

所述对于数据的项集进行编码描述中的编码由业务用户序列号构成。

5.根据权利要求3所述的基于领域知识的多层关联规则挖掘方法，其特征在于，根据构建的元组关系进行建频繁模式树的建立，具体是：

6.一种基于领域知识的多层关联规则挖掘系统，其特征在于包括以下模块：

7.根据权利要求6所述的基于领域知识的多层关联规则挖掘系统，其特征在于：

所述原始事务数据库中存储的数据与领域知识一一对应。

8.根据权利要求6所述的基于领域知识的多层关联规则挖掘系统，其特征在于，所述频繁模式树构建模块将此层次分类映射到频繁模式树中构建频繁模式树结构，具体是：

根据构建的元组关系进行建频繁模式树的建立；

进行频繁项集的搜索。

9.根据权利要求8所述的基于领域知识的多层关联规则挖掘系统，其特征在于：

10.根据权利要求8所述的基于领域知识的多层关联规则挖掘系统，其特征在于，根据构建的元组关系进行建频繁模式树的建立，具体是：