CN107908711A

CN107908711A - 基于垂直数据分布的稠密数据库快速关联规则挖掘方法

Info

Publication number: CN107908711A
Application number: CN201711100787.9A
Authority: CN
Inventors: 潘可佳; 刘捷; 龚艳; 杨懿; 王鑫; 郭雷; 刘仲
Original assignee: State Grid Sichuan Electric Power Co Ltd; Integrated Electronic Systems Lab Co Ltd
Current assignee: State Grid Sichuan Electric Power Co Ltd; Integrated Electronic Systems Lab Co Ltd; Information and Telecommunication Branch of State Grid Sichuan Electric Power Co Ltd
Priority date: 2017-11-09
Filing date: 2017-11-09
Publication date: 2018-04-13

Abstract

本发明涉及基于垂直数据分布的稠密数据库快速关联规则挖掘方法，1.设项集集合为I，对给定事务数据库T＝{t1,...,tn}，记D为T的集合，对应每一个事务t1,...,tn有唯一的标识TID；2.利用DAG结构替代CARMA算法中的lattice结构存储项集和项集附加信息，每个项集存储于Q中的单个节点，并与其前两个子集的结点相连；3.令T(X)代表项集X的tidlist，d(X)代表X的diffset；4.得到包含所有频繁项集的超集结构Q；5.采用CARMA算法的前向剪枝技术对Q中满足条件的项集修剪，直到Q中没有多余频繁项集则扫描终止。本发明结合划分和diffset概念，弥补了传统垂直算法对大型稠密数据库挖掘能力的不足，整体上提高了频繁项集的计算效率，减轻了磁盘I/O读取开销。

Description

基于垂直数据分布的稠密数据库快速关联规则挖掘方法

技术领域

本发明属于数据库快速关联规则挖掘技术领域，具体涉及一种基于垂直数据分布的稠密数据库快速关联规则挖掘方法。

背景技术

关联规则是数据挖掘的一个重要研究方向。近年来，随着商业和科学数据库急剧增长及存储设备不断升级，大型事务数据库的关联规则挖掘成为数据挖掘领域中一个非常重要的研究课题。

经典的数据库关联规则挖掘算法主要包括：DHP算法、DIC算法等。但这些算法在对大型数据库进行关联规则挖掘过程中，通常无法将驻留磁盘的数据一次性读入内存，造成大量的磁盘I/O操作和严重的CPU开销。尽管基于关联规则算法改进的各种水平挖掘算法对于频繁模式长度较短的稀疏数据库有良好的表现，但是，对于具有较长频繁模式的稠密数据库，如人口普查数据库，这些算法的性能下降较为严重。下降的原因是这些算法在执行过程中多次扫描数据库，产生了大量的长频繁项集。这一方面导致多次扫描磁盘驻留数据库带来的较高I/O开销；另一方面，在对大候选项集集合进行模式匹配时，特别是挖掘长模式时，产生了较高的CPU运算开销。频繁项集挖掘算法的CPU开销将成为瓶颈，针对稠密数据集，尤其是数据集具有普遍的长频繁模式时，传统垂直挖掘方法的性能下降较为严重。

发明内容

为解决上述技术问题，本发明提出一种基于垂直数据分布的稠密数据库快速关联规则挖掘方法，包括以下步骤：

S1、设项集集合为I，I＝{i1,...,im}是一个值域为{0,1}的属性集，对给定事务数据库T＝{t1,...,tn}，记D为T的集合，对应每一个事务t1,...,tn有唯一的标识TID，每个事务是一分量为m的二元向量，F为D的频繁项集集合，P1,...,Pn为D的n个互不相交的划分，d为算法执行过程中除当前划分之外的已扫描事务，Q表示存储候选项集的DAG结构，v表示Q中项集，即有定义v的支持度计数为count(v)，v的支持度为support(v)，minsup为用户设定的最小支持度；

S2、利用DAG结构替代CARMA算法中的lattice结构存储项集和项集附加信息，每个项集存储于Q中的单个节点，并与其前两个子集的结点相连，项集按照字典序排列，mother表示较小子项集、father表示较大子项集，对于Q中的每个项集v存储与v的超集的链接、这些保存链接的链表用childes表示；

S3、令T(X)代表项集X的tidlist，d(X)代表X的diffset，P为一单项集，t(P)为P的tidlist，PX和PY组合项集，σ(PX)为PX的支持度；

S4、利用单项集的集合对Q进行初始化，通过ReadPartition函数对数据库划分中的事务进行读取，在此过程中同时完成Q结构的构建、Q中单项集diffset结构的创建以及Q中所有候选项集的firstTrans、maxMissed值的计算，VARMLDb算法在构建Q的过程中通过单项集来构造并计算其他的候选项集，检查待插入项集的所有真子集是否已经被插入到lattice集合当中，在单个划分读取完毕之后，利用UpdateItem函数对Q中候选项集进行迭代计算，更新所有候选项集的count、min-Support和max-Support，所有划分读取完毕后第一次扫描结束，得到包含所有频繁项集的超集结构Q；

S5、利用条件max-Support(v)＜minsup对Q进行初步修剪，扫描数据库过程中不再增加候选项集个数，对Q中项集的count值和maxMissed值进行更新；同时采用CARMA算法中的前向剪枝技术对Q中满足条件的项集进行修剪，并利用OutPutFreItem函数对Q中的频繁项集进行输出，如果输出的项集在Q中没有超集，则将此项集从Q中移除，直到Q中没有多余频繁项集则扫描终止。

进一步地，所述给定事务数据集D和最小支持度minsup，对于项集vI，若support(v)≥minsup，则称v为D的频繁项集，若v为D中的频繁项集，则对任意都有w是D中的频繁项集；给定D，若v为D中的非频繁项集，则对任意都有w是D中的非频繁项集。

进一步地，所述步骤S3中以及进而通过计算t(PXY)的基可以得到项集PXY的支持度，其中t(PX)∩t(PY)＝t(PXY)；

d(PX)＝t(P)－t(X)、即项集X和P的tidlist之差，d(PY)＝t(P)－t(Y)、即项集Y和P的tidlist之差，组合项集PX的支持度不等于diffset的基，而有σ(PX)＝σ(P)－|d(PX)|；

进一步计算项集PXY的支持度σ(PXY)＝σ(PX)－|d(PXY)|，则d(PXY)的计算方法如下：

d(PXY)＝t(PX)－t(PY)

＝t(PX)－t(PY)+t(P)－t(P)

＝(t(P)－t(PY))－t(P)－t(PX))

＝d(PY)－d(PX)。

本发明的有益效果：

本发明结合了划分和diffset的概念，弥补了传统垂直算法对于大型稠密数据库挖掘能力的不足，在整体上提高了频繁项集的计算效率，减轻了磁盘I/O读取开销，算法在性能上优于传统垂直算法，而且最小支持度越小，VARMLDb算法的优势越明显，计算更为简单，将要存放在内存中的数据项支持集进行压缩，以减小算法的空间开销，提高算法可扩展性，进一步减少基于数据垂直分布的关联规则挖掘算法运行中频繁项集支持集在内存空间的占用。

具体实施方式

下面结合具体实施例，对本发明进行进一步详细说明。

一种基于垂直数据分布的稠密数据库快速关联规则挖掘方法，包括以下步骤：

S1、设项集集合为I，I＝{i1,...,im}是一个值域为{0,1}的属性集，对给定事务数据库T＝{t1,...,tn}，记D为T的集合，对应每一个事务t1,...,tn有唯一的标识TID，每个事务是一分量为m的二元向量，F为D的频繁项集集合，P1,...,Pn为D的n个互不相交的划分，d为算法执行过程中除当前划分之外的已扫描事务，Q表示存储候选项集的DAG结构，v表示Q中项集，即有定义v的支持度计数为count(v)，v的支持度为support(v)，minsup为用户设定的最小支持度门限，若ti〔j1〕＝1,...,ti〔jk〕＝1，则称事务ti支持属性集{iji,...,ijk}。记事务集T中支持属性集{ij1,...,ijk}事务的个数为nsup({ij1,...,ijk})，称nsup({ij1,...,ijk})/|T|/为属性集{iji,...,ijk}的支持度，记为sup({ij1,...,ijk})。关联规则是这样一个逻辑蕴涵式：XY，其中XI,YI并且X∩Y＝，X称为关联规则的前集；Y称为关联规则的后集，sup(X∪Y)称为关联规则的支持度(suppport)；sup(X∪Y)/sup(X)称为关联规则的信任度(confidence)记为conf(XY)。关联规则挖掘问题就是由用户事先指定规则的最小支持度minsup和最小信任度minconf，然后找出满足minsup和minconf阀值约束的所有规则；

步骤S1中提出了用于挖掘关联规则的著名Apriori算法，随后又有许多改进的算法〔2,3,4〕。Apriori算法思想分两步：首先找出所有支持度不小于用户指定的最小支持度minsup约束的所有属性组合，在〔1〕中称为大项目集(largeitemsets)，然后利用大项目集产生满足minconf约束的所有规则，算法的执行时间主要在第一步。这些算法只有支持度和信任度约束，能够较好地分析非稠密数据，如超市数据。这是因为在超市数据中，各种商品(属性)间没有必然联系，顾客购买哪几种商品完全由顾客本身决定，并且所有顾客购买某种商品的总次数相对整个顾客购买事务集而言是很小的。但现实世界中也有许多数据是稠密的，如人口统计数据，更一般的如关系型数据，它们具有以下特点：

·某些属性出现频率相当高(如性别属性)；

·某些属性间有很强的关联性；

·个别属性出现在每一个事务中；

S2、利用DAG结构替代CARMA算法中的lattice结构存储项集和项集附加信息，每个项集存储于Q中的单个节点，并与其前两个子集的结点相连，项集按照字典序排列，mother表示较小子项集、father表示较大子项集，同时，对于Q中的每个项集v存储与v的超集的链接、这些保存链接的链表用childes表示；

假设I＝{a，b，c，d}，T＝{t1，…，t6}，令t(v)表示项集v的tidlist，d(v)表示步骤S1中项集v的diffset，以及进而通过计算t(PXY)的基可以得到项集PXY的支持度，其中t(PX)∩t(PY)＝t(PXY)，现在假设t(PX)值未知，但可以得到d(PX)＝t(P)－t(X)，即项集X和P的tidlist之差，类似地可以得到d(PY)，组合项集PX的支持度不等于diffset的基，而有σ(PX)＝σ(P)－|d(PX)|，类似地，现已知d(PX)和d(PY)，可进一步计算项集PXY的支持度σ(PXY)＝σ(PX)－|d(PXY)|，则d(PXY)的计算方法推导如下：d(PXY)＝t(PX)－t(PY)＝t(PX)－t(PY)+t(P)－t(P)＝(t(P)－t(PY))－t(P)－t(PX))＝d(PY)－d(PX)；

S4、首先利用单项集的集合对Q进行初始化，再通过ReadPartition函数对数据库划分中的事务进行读取，在此过程中同时完成Q结构的构建、Q中单项集diffset结构的创建以及Q中所有候选项集的firstTrans、maxMissed值的计算，VARMLDb算法在构建Q的过程中通过单项集来构造并计算其他的候选项集，检查待插入项集的所有真子集是否已经被插入到lattice集合当中，在单个划分读取完毕之后，利用UpdateItem函数对Q中候选项集进行迭代计算，更新所有候选项集的count、min-Support和max-Support 3个值，所有划分读取完毕后第一次扫描结束，得到包含所有频繁项集的超集结构Q；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.基于垂直数据分布的稠密数据库快速关联规则挖掘方法，其特征在于，包括以下步骤：

S1、设项集集合为I，I＝{i1,...,im}是一个值域为{0,1}的属性集，对给定事务数据库T＝{t1,...,tn}，记D为T的集合，对应每一个事务t1,...,tn有唯一的标识TID，每个事务是一分量为m的二元向量，F为D的频繁项集集合，P1,...,Pn为D的n个互不相交的划分，d为执行过程中除当前划分之外的已扫描事务，Q表示存储候选项集的DAG结构，v表示Q中项集，定义v的支持度计数为count(v)，v的支持度为support(v)，minsup为用户设定的最小支持度；

2.根据权利要求1所述的基于垂直数据分布的稠密数据库快速关联规则挖掘方法，其特征在于，所述给定事务数据集D和最小支持度minsup，对于项集vI，若support(v)≥minsup，则称v为D的频繁项集，若v为D中的频繁项集，则对任意都有w是D中的频繁项集；给定D，若v为D中的非频繁项集，则对任意都有w是D中的非频繁项集。

3.根据权利要求1所述的基于垂直数据分布的稠密数据库快速关联规则挖掘方法，其特征在于，所述步骤S3中以及进而通过计算t(PXY)的基可以得到项集PXY的支持度，其中t(PX)∩t(PY)＝t(PXY)；

d(PXY)＝t(PX)－t(PY)

＝t(PX)－t(PY)+t(P)－t(P)

＝(t(P)－t(PY))－t(P)－t(PX))

＝d(PY)－d(PX)。