CN105335785B

CN105335785B - 一种基于向量运算的关联规则挖掘方法

Info

Publication number: CN105335785B
Application number: CN201510729332.8A
Authority: CN
Inventors: 周斌; 裴峥; 李波
Original assignee: Xihua University
Current assignee: Xihua University
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2017-12-19
Anticipated expiration: 2035-10-30
Also published as: GB201803769D0; GB2558438A; NL1042116B1; WO2017071005A1; CN105335785A; NL1042116A

Abstract

本发明公开了一种基于向量运算的关联规则挖掘方法，包括以下步骤：定义对象和属性的向量表示，约定对象向量和属性向量的运算规则，用于计算属性集上的向量基；根据向量基计算生成属性集上的向量；根据所述属性集上的向量计算属性集上的任一向量的支持度；设定向量基的支持度阈值，筛选出大于支持度阈值条件的向量；根据预先设定的可信度阈值，在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则。本发明的基于向量运算的属性关联规则挖掘方法，利用向量基生成属性集上的向量拓扑，避免了生成频繁闭项集的幂集，因而避免了在属性集的幂集中运算，以及属性关联规则的重复生成问题，提高了计算效率。

Description

一种基于向量运算的关联规则挖掘方法

技术领域

本发明涉及数据挖掘领域，特别是涉及一种基于向量运算的关联规则挖掘方法。

背景技术

关联规则挖掘的目的是从大数据库中挖掘由数量关系确定的属性之间的关联规则，典型的关联规则挖掘例子是“90％的顾客如果购买面包和黄油，那么也购买牛奶”，其中，“面包和黄油”是关联规则前件，牛奶是后件，90％为关联规则的可信度。属性关联规则是对大数据中有用知识的科学、合理刻画，已广泛应用于计算机科学、管理科学、经济学、社会科学等领域。将支持度和可信度作为目标函数，属性关联规则挖掘可转化为一个优化问题，而挖掘出的属性关联规则就是满足目标函数的较优解。

目前，基于优化模型的属性关联规则挖掘方法已有很多，在该类方法中，各种优化方法或智能优化算法，如shafer证据理论、有向图方法、主成分分析方法、进化计算、粒子群算法及遗传算法等，被用于从某一属性子集中挖掘相应的属性关联规则。在现有的属性关联规则挖掘中，频繁闭项集的极小生成元用来生成一类Min-Max关联规则，即令A′是一频繁闭项集，B是A′的一个极小生成元，则B→(A′-B)是一条Min-Max关联规则。

通过分析可得，现有的属性关联规则挖掘通常在属性集的幂集或频繁闭项集的幂集中挖掘满足条件的属性关联规则，在挖掘过程中，相关运算通常会在对象和属性之间重复进行，同时会涉及较复杂的幂集运算，导致对象集上的闭包算子运算量大，使得运算效率低下。

发明内容

为了解决上述潜在的问题，本发明的目的在于克服现有技术中所存在的上述不足，提供一种能够简单快速的得到属性关联规则的挖掘方法。

为了实现上述发明目的，本发明采用的技术方案是：

一种基于向量运算的关联规则挖掘方法，包括以下步骤：

定义对象和属性的向量表示，约定对象向量和属性向量的运算规则，用于计算属性集上的向量基；

根据向量基计算生成属性集上的向量；

根据所述属性集上的向量计算属性集上的任一向量的支持度；

设定向量基的支持度阈值，筛选出大于支持度阈值条件的向量；

根据预先设定的可信度阈值，在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则。

进一步地，所述定义对象和属性的向量表示，约定对象向量和属性向量的运算规则包括：

定义信息系统I表示为：I＝(U,A,f)，U表示对象集、A表示属性集，其中U＝{u₁,…,u_n}，A＝{a₁,…,a_m}，u_n表示对象集中第n个元素、a_m表示属性集中第m个元素；

f称为I的信息函数，即f:U×A→{0,1}，对任意(u_i,a_j)∈U×A，若f(u_i,a_j)＝p_ij＝0，则称第i个对象u_i不具有第j个属性a_j；若f(u_i,a_j)＝p_ij＝1，则称第i个对象u_i具有第j个属性a_j。

定义A₁→A₂为一条属性关联规则，其中，且A₁称为前件，A₂称为后件；

定义u_i＝(p_i1,...,p_im)_1×m，表示对象u_i可表示为由0或1构成的m维行向量；

定义表示属性a_j可表示为由0或1构成的n维列向量；

约定如下向量运算规则，1οu_i＝u_i、0οu_i＝1_1×m＝(1,…,1)_1×m、1οa_j＝a_j、其中，(1,…,1)_1×m表示元素全为1的m维行向量，表示元素全为1的n维列向量；

约定属性a_j与(u₁,…,u_n)之间的向量运算规则如下，

约定属性u_i与(a₁,…,a_m)之间的向量运算规则如下，

其中n，m，i，j均为正整数。

进一步地，所述计算属性集上的向量基为：

定义B(a_j)表示属性a_j可生成一个向量基，

得到属性集上的向量基为，

B(A)＝{B(a_j)|a_j∈A}，

其中n，j均为正整数。

进一步地，所述根据向量基计算生成属性集上的向量为：

由J′对应的向量基生成的向量T(J′)表示为

T(J′)＝∨_j∈J′B(a_j)，

其中J′是某一指标集，J′对应的向量基生成的所有向量记为T(A)＝{T(J′)其中m，j均为正整数。

进一步地，所述根据所述属性集上的向量计算属性集上的任一向量的支持度为：

任一向量T(J′)∈T(A)的支持度为：

S(T(J′))＝(p′_1j+p′_2j+...+p′_nj)/n，其中n，j均为正整数。

进一步地，所述根据预先设定的可信度阈值，在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则包括：

根据预先设定的关联规则的可信度阈值，在T(A)中挖掘大于可信度阈值的属性关联规则。

进一步地，所述挖掘大于可信度阈值的属性关联规则为：

在T(A)中选择两个向量，记为T(A₁)和T(A₂)，其中，T(A₁)表示由属性子集A₁中所有元素对应的向量基确定的属性集上的向量，T(A₂)表示由属性子集A₂中所有元素对应的向量基确定的属性集上的向量。T(A₁)和T(A₂)中任一个向量为前件，另一个向量减去前件为后件，生成一条属性关联规则，即：

T(A₁)→(T(A₂)-T(A₁))或T(A₂)→(T(A₁)-T(A₂))。

则生成属性关联规则的可信度为：

C(T(A₁)→(T(A₂)-T(A₁)))＝S(T(A₁∪A₂))/S(T(A₁))或

C(T(A₂)→(T(A₁)-T(A₂)))＝S(T(A₁∪A₂))/S(T(A₂))。

与现有技术相比，本发明的有益效果

本发明是一种基于向量运算的关联规则挖掘方法，借助对象和属性的向量表示，利用约定的向量运算生成属性集上的向量基，刻画属性之间的最基本的相关关系，利用向量基生成属性集上的向量，避免了在属性集的幂集中运算，减少了对象和属性之间运算次数，并生成满足支持度、可信度大于设定阈值的属性关联规则，避免了生成频繁闭项集的幂集，以及属性关联规则的重复生成问题，提高了计算效率。

附图说明

图1是本发明一个实施例中的一种基于向量运算的关联规则挖掘方法。

图2是本发明一个实施例中的算法与现有技术的Aprior算法计算同一数据的运行时间对比图。

具体实施方式

下面结合具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

图1所示是本发明的一个实施例示出的一种基于向量运算的关联规则挖掘方法，包括以下步骤：

一种基于向量运算的关联规则挖掘方法，包括以下步骤：

根据向量基计算生成属性集上的向量；

具体的，所述定义对象和属性的向量表示，约定对象向量和属性向量的运算规则包括：

定义表示属性a_j可表示为由0或1构成的n维列向量；

约定属性a_j与(u₁,…,u_n)之间的向量运算规则如下，

约定属性u_i与(a₁,…,a_m)之间的向量运算规则如下，

其中n，m，i，j均为正整数。

具体的，所述计算属性集上的向量基为：

定义B(a_j)表示属性a_j可生成一个向量基，

得到属性集上的向量基为，

B(A)＝{B(a_j)|a_j∈A}，

其中n，j均为正整数。

具体的，所述根据向量基计算生成属性集上的向量为：

由J′对应的向量基生成的向量T(J′)表示为

T(J′)＝∨_j∈J′B(a_j)，

具体的，所述根据所述属性集上的向量计算属性集上的任一向量的支持度为：

任一向量T(J′)∈T(A)的支持度为：

S(T(J′))＝(p′_1j+p′_2j+...+p′_nj)/n，其中n，j均为正整数。

具体的，所述所述根据预先设定的可信度阈值，在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则包括：

具体的，所述挖掘大于可信度阈值的属性关联规则为：

T(A₁)→(T(A₂)-T(A₁))或T(A₂)→(T(A₁)-T(A₂))。

则生成属性关联规则的可信度为：

C(T(A₁)→(T(A₂)-T(A₁)))＝S(T(A₁∪A₂))/S(T(A₁))或

C(T(A₂)→(T(A₁)-T(A₂)))＝S(T(A₁∪A₂))/S(T(A₂))。

实施例1:

一个信息系统I＝(U,A,f)＝({u₁,...,u₁₀},{a₁,a₂,a₃,a₄,a₅},f)实例如表1所示。

表1

根据表1，u₁的对象向量表示为

u₁＝(1,0,1,0,1),

即表1中第一行的向量表示，其它u_i的对象向量表示类似可得。

表1中a₁的属性向量表示为

即表1中第一列的向量表示，其它a_j的属性向量表示类似可得。

u₁和a₁的对象向量和属性向量的数乘向量运算为

1×u₁＝u₁＝(1,0,1,0,1)，

0×u₁＝(1,1,1,1,1)，

其它对象向量和属性向量的数乘向量运算类似可得。

基于对象和属性向量的数乘向量运算规则，具体实例中属性集上的属性a₁确定的向量基可如下计算得到

其支持度为

S(B(a₁))＝S(a₁)＝(1+0+0+1+0+1+1+1+1+0)/10＝0.6。

其它属性确定的向量基类似可得，分别为

B(a₂)＝(0,1,0,0,1)，

B(a₃)＝(0,0,1,0,0)，

B(a₄)＝(0,0,1,1,0)，

B(a₅)＝(0,0,0,0,1)。

在一个实施例中，具体的，对向量基按从小到大排序并按此排序从小到大两两并的方式生成属性集上的向量，即属性a_j确定的向量基(p′_i1,p′_i2,p′_i3,p′_i4,p′_i5)对应自然数p′_i1×2⁴+p′_i2×2³+p′_i3×2²+p′_i4×2+p′_i5，因此，B(a₁)，B(a₂)，B(a₃)，B(a₄)和B(a₅)按各自对应的自然数大小从小到大排序。最小的向量基分别和其它向量基分别取并得到新向量，并按其对应的自然数大小插入向量基的排序中，然后次小的向量再次执行上述步骤，至无新向量生成终止。上述过程保证每次均只有两个向量参与取并运算，即令T(J′)＝(p′_i1,p′_i2,p′_i3,p′_i4,p′_i5)和T(J″)＝(p″_i1,p″_i2,p″_i3,p″_i4,p″_i5)分别为已生成的向量，则T(J′)和T(J″)生成的向量为

T(J′)∨T(J″)＝(p′_i1,p′_i2,p′_i3,p′_i4,p′_i5)∨(p″_i1,p″_i2,p″_i3,p″_i4,p″_i5)

＝(p′_i1∨p″_i1,p′_i2∨p″_i2,p′_i3∨p″_i3,p′_i4∨p″_i4,p′_i5∨p″_i5)。

B(a₁)对应自然数为1×2⁴+0×2³+0×2²+0×2+1＝17，B(a₂)对应自然数为9，B(a₃)对应自然数为4，B(a₄)对应自然数为6及B(a₅)对应自然数为1。表2是按各自对应的自然数大小从小到大排序5个基的结果及其支持度。

序号	属性集上的向量基	支持度
			1	B(a₅)＝(0,0,0,0,1)	S(B(a₅))＝0.7
2	B(a₃)＝(0,0,1,0,0)	S(B(a₃))＝0.8
			3	B(a₄)＝(0,0,1,1,0)	S(B(a₄))＝0.5
4	B(a₂)＝(0,1,0,0,1)	S(B(a₂))＝0.3
			5	B(a₁)＝(1,0,0,0,1)	S(B(a₁))＝0.6

表2

基于表2所示，最小的向量基分别和其它向量基分别取并得到新向量，并按其对应的自然数大小插入向量基的排序中，表3给出了B(a₅)和其它向量基分别取并得到新向量。

序号	属性集上的生成向量	支持度
			1	B(a₅)＝(0,0,0,0,1)	S(B(a₅))＝0.7

2	B(a₃)＝(0,0,1,0,0)	S(B(a₃))＝0.8
			3	B(a₅)∨B(a₃)＝(0,0,1,0,1)	S(B(a₅)∨B(a₃))＝0.5
4	B(a₄)＝(0,0,1,1,0)	S(B(a₄))＝0.5
			5	B(a₅)∨B(a₄)＝(0,0,1,1,1)	S(B(a₅)∨B(a₄))＝0.2
6	B(a₂)＝(0,1,0,0,1)	S(B(a₂))＝0.3
			7	B(a₁)＝(1,0,0,0,1)	S(B(a₁))＝0.6

表3

表4给出了按上述过程逐次生成的属性集上的所有向量。

序号	属性集上的生成向量	支持度
			1	B(a₅)＝(0,0,0,0,1)	S(B(a₅))＝0.7
2	B(a₃)＝(0,0,1,0,0)	S(B(a₃))＝0.8
			3	B(a₅)∨B(a₃)＝(0,0,1,0,1)	S(B(a₅)∨B(a₃))＝0.5
4	B(a₄)＝(0,0,1,1,0)	S(B(a₄))＝0.5
			5	B(a₅)∨B(a₄)＝(0,0,1,1,1)	S(B(a₅)∨B(a₄))＝0.2
6	B(a₂)＝(0,1,0,0,1)	S(B(a₂))＝0.3
			7	B(a₃)∨B(a₂)＝(0,1,1,0,1)	S(B(a₃)∨B(a₂))＝0.1
8	B(a₄)∨B(a₂)＝(0,1,1,1,1)	S(B(a₄)∨B(a₂))＝0
			9	B(a₁)＝(1,0,0,0,1)	S(B(a₁))＝0.6

10	B(a₃)∨B(a₁)＝(1,0,1,0,1)	S(B(a₃)∨B(a₁))＝0.5
			11	B(a₄)∨B(a₁)＝(1,0,1,1,1)	S(B(a₄)∨B(a₁))＝0.2
12	B(a₂)∨B(a₁)＝(1,1,0,0,1)	S(B(a₂)∨B(a₁))＝0.2
			13	B(a₂)∨B(a₃)∨B(a₁)＝(1,1,1,0,1)	S(B(a₂)∨B(a₃)∨B(a₁))＝0.1
14	B(a₂)∨B(a₄)∨B(a₁)＝(1,1,1,1,1)	S(B(a₂)∨B(a₄)∨B(a₁))＝0

表4

根据表4，设定支持度和可信度阈值为0.5，按生成向量从小到大的顺序两两逐次判断是否满足阈值并生成属性关联规则，如从最小的向量B(a₅)开始，首先和B(a₃)生成的向量B(a₅)∨B(a₃)满足支持度大于等于0.5，因此，B(a₅)和B(a₃)可生成如下属性关联规则：

(0,0,0,0,1)→(0,0,1,0,0)和(0,0,1,0,0)→(0,0,0,0,1)，

即a₅→a₃和a₃→a₅，其可信度分别为5/7和5/8，大于等于0.5。

其它满足支持度和可信度阈值条件的属性关联规则可类似生成。

表5给出了两两向量逐次生成满足条件的属性关联规则。

序号	关联规则	支持度(≥0.5)	可信度(≥0.5)
				1	a₅→a₃	S(a₅→a₃)＝0.5	C(a₅→a₃)＝5/7
2	a₃→a₅	S(a₃→a₅)＝0.5	C(a₅→a₃)＝5/8
				3	a₅→a₁	S(a₅→a₁)＝0.6	C(a₅→a₁)＝6/7
4	a₁→a₅	S(a₁→a₅)＝0.6	C(a₁→a₅)＝1
				5	a₃→a₄	S(a₃→a₄)＝0.5	C(a₃→a₄)＝5/8

6	a₄→a₃	S(a₄→a₃)＝0.5	C(a₄→a₃)＝1
				7	a₃→a₁∧a₅	S(a₃→a₁∧a₅)＝0.5	C(a₃→a₁∧a₅)＝5/8
8	a₁∧a₅→a₃	S(a₁∧a₅→a₃)＝0.5	C(a₁∧a₅→a₃)＝5/6
				9	a₃∧a₅→a₁	S(a₃∧a₅→a₁)＝0.5	C(a₃∧a₅→a₁)＝1
10	a₁→a₃∧a₅	S(a₁→a₃∧a₅)＝0.5	C(a₁→a₃∧a₅)＝5/6

表5

本发明的一种基于向量运算的关联规则挖掘方法，借助对象和属性的向量表示，利用约定的向量运算生成属性集上的向量基，用于刻画属性之间的最基本相关关系，利用向量基生成属性集上的向量拓扑，避免了在属性集的幂集中运算，减少了对象和属性之间运算次数。在属性集上的向量拓扑中寻找满足条件的频繁闭项集，同时，包括其极小生成元在内的所有生成元均在向量拓扑，缩减了频繁闭项集及其极小生成元的搜索范围。

实施例2：

本实施例使用EXTENDED BAKERY Dataset数据集，该数据集记录了购买40种面包(编号为1至40)和10中饮料(编号为41至50)共75000条销售记录，所挖掘的属性关联规则体现为购买面包和饮料的关联关系，使用本发明方法挖掘属性关联规则，支持度阈值设定为0.01，可信度阈值设定为0，共生成352条属性关联规则，并与经典Aprior算法从属性关联规则的数量、运行时间和占用内存方面进行比较，其中，属性关联规则的数量及规则的前后件内容完全一致，运行时间和占用内存见表6。

表6

在比较实验中，本实施例将原始数据75000条数据进行复制翻倍操作7次，以2的倍数规模增长，分别得到8组数据，所得规则数量及其支持度、可信度不变，但运行时间和占用内存有变化，由于对数据进行了翻倍处理，突出了数据重复计算的问题，很明显的可以看出，现有技术的算法在处理属性关联规则的重复生成问题上有较大的缺点。图2展示了本发明所提算法与Aprior算法的运行时间曲线，图中可清楚的看出本发明的方法相比现有的Aprior算法在处理同一数据时的运行时间大幅度降低，在表6中，本发明的方法较现有的Aprior算法在内存占用上也有较大的优势。

上面结合附图对本发明的具体实施方式进行了详细说明，但本发明并不限制于上述实施方式，在不脱离本申请的权利要求的精神和范围情况下，本领域的技术人员可以作出各种修改或改型。

Claims

1.一种基于向量运算的关联规则挖掘方法，其特征在于，包括以下步骤：

根据向量基计算生成属性集上的向量；

根据预先设定的可信度阈值，在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则；

所述定义对象和属性的向量表示，约定对象向量和属性向量的运算规则包括：

f称为I的信息函数，即f:U×A→{0,1}，对任意(u_i,a_j)∈U×A，若f(u_i,a_j)＝p_ij＝0，则称第i个对象u_i不具有第j个属性a_j；若f(u_i,a_j)＝p_ij＝1，则称第i个对象u_i具有第j个属性a_j；

定义表示属性a_j可表示为由0或1构成的n维列向量；

约定如下向量运算规则，其中，(1,…,1)_1×m表示元素全为1的m维行向量，表示元素全为1的n维列向量；

约定属性a_j与(u₁,…,u_n)之间的向量运算规则如下，

约定属性u_i与(a₁,…,a_m)之间的向量运算规则如下，

其中n，m，i，j均为正整数；

所述计算属性集上的向量基为：

定义B(a_j)表示属性a_j可生成一个向量基，

得到属性集上的向量基为，

B(A)＝{B(a_j)|a_j∈A}，

其中n，j均为正整数；

所述根据向量基计算生成属性集上的向量为：

由J′对应的向量基生成的向量T(J′)表示为

T(J′)＝∨_j∈J′B(a_j)，

其中J′是某一指标集，J′对应的向量基生成的所有向量记为其中m，j均为正整数；

所述根据所述属性集上的向量计算属性集上的任一向量的支持度为：

任一向量T(J′)∈T(A)的支持度为：

S(T(J′))＝(p′_1j+p′_2j+...+p′_nj)/n，其中n，j均为正整数。

2.根据权利要求1所述的一种基于向量运算的关联规则挖掘方法，其特征在于，所述根据预先设定的可信度阈值，在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则包括：

3.根据权利要求2所述的一种基于向量运算的关联规则挖掘方法，其特征在于，所述挖掘大于可信度阈值的属性关联规则为：

在T(A)中选择两个向量，记为T(A₁)和T(A₂)，其中，T(A₁)表示由属性子集A₁中所有元素对应的向量基确定的属性集上的向量，T(A₂)表示由属性子集A₂中所有元素对应的向量基确定的属性集上的向量；T(A₁)和T(A₂)中任一个向量为前件，另一个向量减去前件为后件，生成一条属性关联规则，即：

T(A₁)→(T(A₂)-T(A₁))或T(A₂)→(T(A₁)-T(A₂))；则生成属性关联规则的可信度为：

C(T(A₁)→(T(A₂)-T(A₁)))＝S(T(A₁∪A₂))/S(T(A₁))或C(T(A₂)→(T(A₁)-T(A₂)))＝S(T(A₁∪A₂))/S(T(A₂))。