CN107908776A

CN107908776A - 基于事务‑项目关联矩阵的频繁模式网络挖掘算法及系统

Info

Publication number: CN107908776A
Application number: CN201711244146.0A
Authority: CN
Inventors: 陈飞; 郑伟民; 王蕾; 孙丰杰; 侯佳; 黄晶晶; 王承民; 戴攀; 刘家齐; 张利军; 谢宁; 黄淳驿; 朱超; 赵玉勇
Original assignee: Shanghai Jiaotong University; State Grid Zhejiang Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Shanghai Jiaotong University; State Grid Zhejiang Electric Power Co Ltd; Economic and Technological Research Institute of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2017-11-30
Filing date: 2017-11-30
Publication date: 2018-04-13

Abstract

本发明公开了一种基于事务‑项目关联矩阵的频繁模式网络挖掘算法及系统。目前的FP‑tree模型存在更新、维护困难的缺点，不适合于大型数据库的关联规则挖掘。本发明频繁模式网络挖掘算法的特征在于将提供频繁项目集的数据压缩到一个FP‑network上，通过形成事务‑项目关联矩阵，将此FP‑network进行存储，进行关联规则挖掘。本发明继承了FP‑tree模型不产生候选项以及重复扫描数据库的优点，又克服了FP‑tree模型更新、维护困难的缺点，特别适合于大型数据库的关联规则挖掘。

Description

基于事务-项目关联矩阵的频繁模式网络挖掘算法及系统

技术领域

本发明属于数据挖掘技术领域，涉及一种基于事务-项目关联矩阵的频繁模式网络挖掘算法及系统。

背景技术

数据挖掘又称知识发现(knowledge discovery in databases，简称KDD)，是现在数据库研究的热点和应用最活跃的分支之一。关联规则挖掘是数据挖掘的重要内容之一，用于发现大量数据中项集之间有趣的关联或相关联系。随着大量数据不停地收集和存储，许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。

频繁项目集挖掘是关联规则挖掘的基础和核心。自1993年Agrawal等人初次提出Apriori算法以来，大批科研工作者对挖掘频繁项目集的问题进行了相关研究。后来J.Han等人提出了用频繁模式树产生频繁集的方法—FP-growth算法，它将提供频繁项目集的数据库压缩到一个被称为FP-tree上，然后从初始后缀模式开始，构造条件模式基，再形成条件FP-树，并递归地在该树上进行挖掘。FP-growth算法具有以下优点：1)不需要产生候选项，仅需要构造FP-Tree和条件FP-Tree，通过递归地访问FP-Tree产生频繁模式；2)对事务数据库仅需两次遍历，第1次遍历产生频繁1-项集，第2次遍历用于创建FP-Tree，从而极大地降低了访问数据库的次数。

现有方法主要存在以下问题：

(1)经典关联规则Apriori算法的主要缺点是需要寻找大量的侯选项目集，当数据库较大时，存在组合爆炸问题；同时，挖掘数据时需要多次搜索数据库，也增加了计算的负担和I/0访问负担；

(2)FP-growth算法不需要产生候选项，仅需要构造FP-Tree和条件FP-Tree，一定程度地解决了Apriori算法的问题；但是FP-growth算法所形成的FP-tree是一个有向图，存在着更新、维护困难，此外，树的形成与关联规则挖掘的过程也较复杂。

发明内容

本发明所要解决的技术问题是克服现有FP-tree模型更新、维护困难的缺点，提供一种基于事务-项目关联矩阵的频繁模式网络挖掘算法，以适合于大型数据库的关联规则挖掘。

为此，本发明采用的技术方案是：基于事务-项目关联矩阵的频繁模式网络挖掘算法，其将提供频繁项目集的数据压缩到一个FP-network上，通过形成事务-项目关联矩阵，将此FP-network进行存储，进行关联规则挖掘。

作为上述技术方案的补充，建立无向图FP-network的事务-项目关联矩阵，以矩阵形式代替传统的FP-tree模型。

作为上述技术方案的补充，引入“节点负容量”的定义，对FP-network的存储转换为存储一个关联矩阵和对应各个节点的节点负容量。

作为上述技术方案的补充，FP-network模型建立后，通过对节点负容量不等于零的节点搜索路径，挖掘所有的频繁项目集，得到关联规则。

作为上述技术方案的补充，所述的频繁模式网络挖掘算法包括如下步骤：

扫描数据库，建立事务-项目关联矩阵，并存储对应各个节点的节点负容量，利用FP-network模型及关联矩阵表示实现关联规则的挖掘。

作为上述技术方案的补充，所述的频繁模式网络挖掘算法包括如下具体步骤：

1)扫描数据库，忽略出现频数低于最小支持度的节点，构建FP-network的矩阵B、I；

2)从节点负容量不等于零的节点开始；

3)搜索关联矩阵中对应此节点的值为1的所有路径，仅保留此节点之前的节点信息，形成新的矩阵B、I；

4)若节点负容量的绝对值大于或等于最小支持度阈值，则此节点作为一个频繁项集的元素；若节点负容量的绝对值小于最小支持度阈值，不作处理，忽略此节点的信息，形成新的矩阵B、I，转至步骤2)；

5)此过程持续至所有的节点负容量不等于零的节点挖掘完为止。

本发明的另一目的是提供一种基于事务-项目关联矩阵的频繁模式网络挖掘系统，其包括：

事务-项目关联矩阵构建单元：基于FP-network模型，构建事务-项目关联矩阵；

存储单元：存储事务-项目关联矩阵和对应各个节点的节点负容量；

关联规则挖掘单元：通过对节点负容量不等于零的节点搜索路径，挖掘所有的频繁项目集，得到关联规则。

上述关联规则挖掘单元的挖掘步骤如下：

1)扫描数据库，忽略出现频数低于最小支持度的节点，构建FP-network模型的事务-项目关联矩阵B、I；

2)从节点负容量不等于零的节点开始；

本发明具有的有益效果如下：本发明以关联矩阵形式表示的FP-network模型与节点的排列顺序无关，继承了FP-tree模型不产生候选项以及重复扫描数据库的优点，又克服了FP-tree模型更新、维护困难的缺点，特别适合于大型数据库的关联规则挖掘。

附图说明

图1为本发明实施例1频繁模式网络挖掘算法的流程图；

图2为本发明实施例1中表1对应的FP-tree模型示意图；

图3为本发明实施例1中表1对应FP-network的连通图示意图；

图4为本发明实施例1中更新后的FP-network的连通图示意图；

具体实施方式

下面结合说明书附图和具体实施方式对本发明作进一步说明。

实施例1

本实施例提供一种基于事务-项目关联矩阵的频繁模式网络挖掘算法，如图1所示，包括如下具体步骤：

2)从节点负容量不等于零的节点开始；

上述技术方案的形成过程如下：

一、FP-network模型

电力系统的数据库通常是事务和项目之间的关联，如下表1所述的一个事务数据库，其中第一列为事务，TID为事务ID，而第二列为项目集合，即事务包含哪些项目，项目集合为[I1 I2 I3 I4 I5]。

表1事务数据库列表

TID	项目ID列表
		T001	I1,I2,I5
T002	I2,I4
		T003	I2,I3
T004	I1,I2,I4
		T005	I1,I2,I3
T006	I2,I3
		T007	I1,I3
T008	I1,I2,I3,I5
		T009	I1,I2,I3

1.1 FP-network的连通图形式

根据表1，FP-tree模型将提供频繁项的数据库压缩到一个有向树状图上，如图2所示，所以存在维护、更新困难的缺点且数据较多时，树的生成过程十分复杂。为了避免这些缺点，本发明提出了无向的FP-network模型。

首先对以下几个概念进行定义：

弧容量：扫描事务数据库，第i条弧出现的次数，记作cap_arci；

节点负容量：扫描每条事务时，节点i最后被扫描的次数，记作cap_neg_j；

节点频数：扫描事务数据库，节点j出现的次数，记为freq_j。

建立FP-network模型的过程为：1)将各个项目作为网络中的节点，上述表1中有5个项目，分别为I1,I2,I3,I4,I5，则此网络有5个节点；2)扫描数据库，事务T001存在三个项，可以认为是由2条弧组成的，即并分别cap_arc记数为1；此事务包含I1、I2、I5，节点频数分别记为1；而由节点I5终止的，所以I5节点负容量记数为-1；3)按照上述原则依次扫描其他事务，所建立的FP-network如图3所示，对于节点I1，6表示节点的频数，0表示节点的负容量。

FP-network的连通图形式如图3所示，可以发现有以下特点：1)不同于FP-tree，FP-network是无向图，且同一项目对应图中唯一节点；2)弧容量之和等于所有节点频数与节点负容量的和，即

其中，n表示弧的数目，m表示节点数目；

3)网络表示实际上是将事务数量扩大了。如对于项目I5来说，有2个事务与其相关联，分别为I1,I2,I3,I5和I1,I2,I5，但是从上图中，节点I5可以找到4条路径，分别为I1,I2,I3,I5、I1,I2,I5、I1,I3,I5、I2,I5，而后两条路径实际上并不存在。

1.2FP-network的矩阵形式

为了避免上述缺点，FP-network的计算机存储采取事务(路径)-项目(节点)关联矩阵表示方式。可以将表1的数据库表示成：T＝f(B,I)，具体如下所示。

其中：T表示事务集合；I为项目集合；矩阵B就是事务-项目关联矩阵，其元素b_ij可以定义为：对于事务i，如果与项目j相关联，则相应的元素为1；否则，相应的元素为0。对于大数据而言，通常事务数)>>项目数目，因此生成关联矩阵的时间复杂度近似为O(项目数目)，从而对FP-network的存储可以转换为存储矩阵布尔矩阵B和I，节省内存。

1.2FP-network算法的步骤

利用FP-network算法可以方便地实现关联规则的挖掘，具体步骤如下：

1)扫描数据库，删去freq_j低于min_sup(最小支持度阈值)的节点，构建FP-network模型矩阵B，I；

2)从cap_neg不等于零的节点开始挖掘；

3)搜索关联矩阵中对应此节点的值为1的所有路径，仅保留此节点之前的节点信息，形成新的矩阵B，I；

4)若该节点|cap_neg|大于或等于min_sup，则此节点作为一个频繁项集的元素；反之，不作处理。删去此节点，形成新的矩阵B，I，转至步骤2)；

5)此过程持续至所有的cap_neg不等于零的节点挖掘完为止。

二、关联规则挖掘算法的比较

FP-tree模型的一个关键缺点是维护和更新困难，因为当新数据加入、数据库更新或者改变支持度阈值时，FP-tree算法需要重新扫描两次数据库，构造FP-tree。对于FP-network模型则不存在这个问题，因为FP-network是以关联矩阵的形式保存的，而事务-项目关联矩阵中节点的顺序是任意的。例如，若节点I5和I1的顺序进行调换，可以将上述事务-项目关联矩阵做如下调整：

所产生的FP-network如图4所示，上述FP-network的关联规则挖掘是首先从I3进行挖掘，得到频繁项目模式为I2,I3,I1；其次，从节点I4开始挖掘，得到频繁项目集为I2,I4；最后从节点I1频繁模式为I5,I2,I1。至此挖掘结束，无需重新扫描数据库，只需要进行矩阵操作即可实现数据库的更新。所以，以关联矩阵形式表示的FP-network模型与节点的排列顺序无关，克服了FP-tree算法更新维护困难的缺点。

添加新的事务数据时，只需在B矩阵增加新的第j行和第i列，并改变I矩阵相应节点负容量；

改变支持度阈值时，无需对矩阵作出处理。

综上所述，FP-network算法与Aprori、FP-tree的对比如下表所示

表2关联规则挖掘算法的比较

应用本发明频繁模式网络挖掘算法对表1的示例进行计算的过程如下：

取min_sup为2，因I1-I5节点频数均不小于2，故保留所有节点信息。首先从节点I3开始挖掘，矩阵B对应节点I3的列为第3列，其中元素为1的是第3、5、6、7、8、9行，保留这些信息得到新的矩阵。

则I3作为一个频繁项集的元素，并得到新矩阵

则I2也作为此频繁项集的元素；再重复一次，可得此频繁项集为I1,I2,I3，且其所有子集(包括一项和两项)也是频繁项集。

同理从节点I4进行挖掘，其频繁项目集为I2,I4；从节点I5进行挖掘，其频繁项目集为I1,I2,I5。至此，挖掘结束，所挖掘出来的频繁项目集及其所有子集构成了频繁项集的集合。

实施例2

本实施例提供一种基于事务-项目关联矩阵的频繁模式网络挖掘系统，其包括：

上述关联规则挖掘单元的挖掘步骤如下：

2)从节点负容量不等于零的节点开始；

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于事务-项目关联矩阵的频繁模式网络挖掘算法，其特征在于，将提供频繁项目集的数据压缩到一个FP-network上，通过形成事务-项目关联矩阵，将此FP-network进行存储，进行关联规则挖掘。

2.根据权利要求1所述的基于事务-项目关联矩阵的频繁模式网络挖掘算法，其特征在于，建立无向图FP-network的事务-项目关联矩阵，以矩阵形式代替传统的FP-tree模型。

3.根据权利要求2所述的基于事务-项目关联矩阵的频繁模式网络挖掘算法，其特征在于，引入“节点负容量”的定义，对FP-network的存储转换为存储一个关联矩阵和对应各个节点的节点负容量。

4.根据权利要求3所述的基于事务-项目关联矩阵的频繁模式网络挖掘算法，其特征在于，FP-network模型建立后，通过对节点负容量不等于零的节点搜索路径，挖掘所有的频繁项目集，得到关联规则。

5.根据权利要求1-4任一项所述的基于事务-项目关联矩阵的频繁模式网络挖掘算法，其特征在于，包括如下步骤：

6.根据权利要求1-4任一项所述的基于事务-项目关联矩阵的频繁模式网络挖掘算法，其特征在于，包括如下具体步骤：

1)扫描数据库，忽略出现频数低于最小支持度的节点，构建FP-network的事务-项目关联矩阵B、I；

2)从节点负容量不等于零的节点开始；

7.基于事务-项目关联矩阵的频繁模式网络挖掘系统，其特征在于，包括：

事务-项目关联矩阵矩阵构建单元：基于FP-network模型，构建事务-项目关联矩阵；

8.根据权利要求7所述的频繁模式网络挖掘系统，其特征在于，所述关联规则挖掘单元的挖掘步骤如下：

2)从节点负容量不等于零的节点开始；