CN105335785B - 一种基于向量运算的关联规则挖掘方法 - Google Patents

一种基于向量运算的关联规则挖掘方法 Download PDF

Info

Publication number
CN105335785B
CN105335785B CN201510729332.8A CN201510729332A CN105335785B CN 105335785 B CN105335785 B CN 105335785B CN 201510729332 A CN201510729332 A CN 201510729332A CN 105335785 B CN105335785 B CN 105335785B
Authority
CN
China
Prior art keywords
vector
attribute
rule
basis
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510729332.8A
Other languages
English (en)
Other versions
CN105335785A (zh
Inventor
周斌
裴峥
李波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN201510729332.8A priority Critical patent/CN105335785B/zh
Priority to PCT/CN2015/096627 priority patent/WO2017071005A1/zh
Priority to GB1803769.7A priority patent/GB2558438A/en
Publication of CN105335785A publication Critical patent/CN105335785A/zh
Priority to NL1042116A priority patent/NL1042116B1/en
Application granted granted Critical
Publication of CN105335785B publication Critical patent/CN105335785B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于向量运算的关联规则挖掘方法,包括以下步骤:定义对象和属性的向量表示,约定对象向量和属性向量的运算规则,用于计算属性集上的向量基;根据向量基计算生成属性集上的向量;根据所述属性集上的向量计算属性集上的任一向量的支持度;设定向量基的支持度阈值,筛选出大于支持度阈值条件的向量;根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则。本发明的基于向量运算的属性关联规则挖掘方法,利用向量基生成属性集上的向量拓扑,避免了生成频繁闭项集的幂集,因而避免了在属性集的幂集中运算,以及属性关联规则的重复生成问题,提高了计算效率。

Description

一种基于向量运算的关联规则挖掘方法
技术领域
本发明涉及数据挖掘领域,特别是涉及一种基于向量运算的关联规则挖掘方法。
背景技术
关联规则挖掘的目的是从大数据库中挖掘由数量关系确定的属性之间的关联规则,典型的关联规则挖掘例子是“90%的顾客如果购买面包和黄油,那么也购买牛奶”,其中,“面包和黄油”是关联规则前件,牛奶是后件,90%为关联规则的可信度。属性关联规则是对大数据中有用知识的科学、合理刻画,已广泛应用于计算机科学、管理科学、经济学、社会科学等领域。将支持度和可信度作为目标函数,属性关联规则挖掘可转化为一个优化问题,而挖掘出的属性关联规则就是满足目标函数的较优解。
目前,基于优化模型的属性关联规则挖掘方法已有很多,在该类方法中,各种优化方法或智能优化算法,如shafer证据理论、有向图方法、主成分分析方法、进化计算、粒子群算法及遗传算法等,被用于从某一属性子集中挖掘相应的属性关联规则。在现有的属性关联规则挖掘中,频繁闭项集的极小生成元用来生成一类Min-Max关联规则,即令A′是一频繁闭项集,B是A′的一个极小生成元,则B→(A′-B)是一条Min-Max关联规则。
通过分析可得,现有的属性关联规则挖掘通常在属性集的幂集或频繁闭项集的幂集中挖掘满足条件的属性关联规则,在挖掘过程中,相关运算通常会在对象和属性之间重复进行,同时会涉及较复杂的幂集运算,导致对象集上的闭包算子运算量大,使得运算效率低下。
发明内容
为了解决上述潜在的问题,本发明的目的在于克服现有技术中所存在的上述不足,提供一种能够简单快速的得到属性关联规则的挖掘方法。
为了实现上述发明目的,本发明采用的技术方案是:
一种基于向量运算的关联规则挖掘方法,包括以下步骤:
定义对象和属性的向量表示,约定对象向量和属性向量的运算规则,用于计算属性集上的向量基;
根据向量基计算生成属性集上的向量;
根据所述属性集上的向量计算属性集上的任一向量的支持度;
设定向量基的支持度阈值,筛选出大于支持度阈值条件的向量;
根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则。
进一步地,所述定义对象和属性的向量表示,约定对象向量和属性向量的运算规则包括:
定义信息系统I表示为:I=(U,A,f),U表示对象集、A表示属性集,其中U={u1,…,un},A={a1,…,am},un表示对象集中第n个元素、am表示属性集中第m个元素;
f称为I的信息函数,即f:U×A→{0,1},对任意(ui,aj)∈U×A,若f(ui,aj)=pij=0,则称第i个对象ui不具有第j个属性aj;若f(ui,aj)=pij=1,则称第i个对象ui具有第j个属性aj
定义A1→A2为一条属性关联规则,其中,A1称为前件,A2称为后件;
定义ui=(pi1,...,pim)1×m,表示对象ui可表示为由0或1构成的m维行向量;
定义表示属性aj可表示为由0或1构成的n维列向量;
约定如下向量运算规则,1οui=ui、0οui=11×m=(1,…,1)1×m、1οaj=aj其中,(1,…,1)1×m表示元素全为1的m维行向量,表示元素全为1的n维列向量;
约定属性aj与(u1,…,un)之间的向量运算规则如下,
约定属性ui与(a1,…,am)之间的向量运算规则如下,
其中n,m,i,j均为正整数。
进一步地,所述计算属性集上的向量基为:
定义B(aj)表示属性aj可生成一个向量基,
得到属性集上的向量基为,
B(A)={B(aj)|aj∈A},
其中n,j均为正整数。
进一步地,所述根据向量基计算生成属性集上的向量为:
由J′对应的向量基生成的向量T(J′)表示为
T(J′)=∨j∈J′B(aj),
其中J′是某一指标集,J′对应的向量基生成的所有向量记为T(A)={T(J′)其中m,j均为正整数。
进一步地,所述根据所述属性集上的向量计算属性集上的任一向量的支持度为:
任一向量T(J′)∈T(A)的支持度为:
S(T(J′))=(p′1j+p′2j+...+p′nj)/n,其中n,j均为正整数。
进一步地,所述根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则包括:
根据预先设定的关联规则的可信度阈值,在T(A)中挖掘大于可信度阈值的属性关联规则。
进一步地,所述挖掘大于可信度阈值的属性关联规则为:
在T(A)中选择两个向量,记为T(A1)和T(A2),其中,T(A1)表示由属性子集A1中所有元素对应的向量基确定的属性集上的向量,T(A2)表示由属性子集A2中所有元素对应的向量基确定的属性集上的向量。T(A1)和T(A2)中任一个向量为前件,另一个向量减去前件为后件,生成一条属性关联规则,即:
T(A1)→(T(A2)-T(A1))或T(A2)→(T(A1)-T(A2))。
则生成属性关联规则的可信度为:
C(T(A1)→(T(A2)-T(A1)))=S(T(A1∪A2))/S(T(A1))或
C(T(A2)→(T(A1)-T(A2)))=S(T(A1∪A2))/S(T(A2))。
与现有技术相比,本发明的有益效果
本发明是一种基于向量运算的关联规则挖掘方法,借助对象和属性的向量表示,利用约定的向量运算生成属性集上的向量基,刻画属性之间的最基本的相关关系,利用向量基生成属性集上的向量,避免了在属性集的幂集中运算,减少了对象和属性之间运算次数,并生成满足支持度、可信度大于设定阈值的属性关联规则,避免了生成频繁闭项集的幂集,以及属性关联规则的重复生成问题,提高了计算效率。
附图说明
图1是本发明一个实施例中的一种基于向量运算的关联规则挖掘方法。
图2是本发明一个实施例中的算法与现有技术的Aprior算法计算同一数据的运行时间对比图。
具体实施方式
下面结合具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
图1所示是本发明的一个实施例示出的一种基于向量运算的关联规则挖掘方法,包括以下步骤:
一种基于向量运算的关联规则挖掘方法,包括以下步骤:
定义对象和属性的向量表示,约定对象向量和属性向量的运算规则,用于计算属性集上的向量基;
根据向量基计算生成属性集上的向量;
根据所述属性集上的向量计算属性集上的任一向量的支持度;
设定向量基的支持度阈值,筛选出大于支持度阈值条件的向量;
根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则。
具体的,所述定义对象和属性的向量表示,约定对象向量和属性向量的运算规则包括:
定义信息系统I表示为:I=(U,A,f),U表示对象集、A表示属性集,其中U={u1,…,un},A={a1,…,am},un表示对象集中第n个元素、am表示属性集中第m个元素;
f称为I的信息函数,即f:U×A→{0,1},对任意(ui,aj)∈U×A,若f(ui,aj)=pij=0,则称第i个对象ui不具有第j个属性aj;若f(ui,aj)=pij=1,则称第i个对象ui具有第j个属性aj
定义A1→A2为一条属性关联规则,其中,A1称为前件,A2称为后件;
定义ui=(pi1,...,pim)1×m,表示对象ui可表示为由0或1构成的m维行向量;
定义表示属性aj可表示为由0或1构成的n维列向量;
约定如下向量运算规则,1οui=ui、0οui=11×m=(1,…,1)1×m、1οaj=aj其中,(1,…,1)1×m表示元素全为1的m维行向量,表示元素全为1的n维列向量;
约定属性aj与(u1,…,un)之间的向量运算规则如下,
约定属性ui与(a1,…,am)之间的向量运算规则如下,
其中n,m,i,j均为正整数。
具体的,所述计算属性集上的向量基为:
定义B(aj)表示属性aj可生成一个向量基,
得到属性集上的向量基为,
B(A)={B(aj)|aj∈A},
其中n,j均为正整数。
具体的,所述根据向量基计算生成属性集上的向量为:
由J′对应的向量基生成的向量T(J′)表示为
T(J′)=∨j∈J′B(aj),
其中J′是某一指标集,J′对应的向量基生成的所有向量记为T(A)={T(J′)其中m,j均为正整数。
具体的,所述根据所述属性集上的向量计算属性集上的任一向量的支持度为:
任一向量T(J′)∈T(A)的支持度为:
S(T(J′))=(p′1j+p′2j+...+p′nj)/n,其中n,j均为正整数。
具体的,所述所述根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则包括:
根据预先设定的关联规则的可信度阈值,在T(A)中挖掘大于可信度阈值的属性关联规则。
具体的,所述挖掘大于可信度阈值的属性关联规则为:
在T(A)中选择两个向量,记为T(A1)和T(A2),其中,T(A1)表示由属性子集A1中所有元素对应的向量基确定的属性集上的向量,T(A2)表示由属性子集A2中所有元素对应的向量基确定的属性集上的向量。T(A1)和T(A2)中任一个向量为前件,另一个向量减去前件为后件,生成一条属性关联规则,即:
T(A1)→(T(A2)-T(A1))或T(A2)→(T(A1)-T(A2))。
则生成属性关联规则的可信度为:
C(T(A1)→(T(A2)-T(A1)))=S(T(A1∪A2))/S(T(A1))或
C(T(A2)→(T(A1)-T(A2)))=S(T(A1∪A2))/S(T(A2))。
实施例1:
一个信息系统I=(U,A,f)=({u1,...,u10},{a1,a2,a3,a4,a5},f)实例如表1所示。
表1
根据表1,u1的对象向量表示为
u1=(1,0,1,0,1),
即表1中第一行的向量表示,其它ui的对象向量表示类似可得。
表1中a1的属性向量表示为
即表1中第一列的向量表示,其它aj的属性向量表示类似可得。
u1和a1的对象向量和属性向量的数乘向量运算为
1×u1=u1=(1,0,1,0,1),
0×u1=(1,1,1,1,1),
其它对象向量和属性向量的数乘向量运算类似可得。
基于对象和属性向量的数乘向量运算规则,具体实例中属性集上的属性a1确定的向量基可如下计算得到
其支持度为
S(B(a1))=S(a1)=(1+0+0+1+0+1+1+1+1+0)/10=0.6。
其它属性确定的向量基类似可得,分别为
B(a2)=(0,1,0,0,1),
B(a3)=(0,0,1,0,0),
B(a4)=(0,0,1,1,0),
B(a5)=(0,0,0,0,1)。
在一个实施例中,具体的,对向量基按从小到大排序并按此排序从小到大两两并的方式生成属性集上的向量,即属性aj确定的向量基(p′i1,p′i2,p′i3,p′i4,p′i5)对应自然数p′i1×24+p′i2×23+p′i3×22+p′i4×2+p′i5,因此,B(a1),B(a2),B(a3),B(a4)和B(a5)按各自对应的自然数大小从小到大排序。最小的向量基分别和其它向量基分别取并得到新向量,并按其对应的自然数大小插入向量基的排序中,然后次小的向量再次执行上述步骤,至无新向量生成终止。上述过程保证每次均只有两个向量参与取并运算,即令T(J′)=(p′i1,p′i2,p′i3,p′i4,p′i5)和T(J″)=(p″i1,p″i2,p″i3,p″i4,p″i5)分别为已生成的向量,则T(J′)和T(J″)生成的向量为
T(J′)∨T(J″)=(p′i1,p′i2,p′i3,p′i4,p′i5)∨(p″i1,p″i2,p″i3,p″i4,p″i5)
=(p′i1∨p″i1,p′i2∨p″i2,p′i3∨p″i3,p′i4∨p″i4,p′i5∨p″i5)。
B(a1)对应自然数为1×24+0×23+0×22+0×2+1=17,B(a2)对应自然数为9,B(a3)对应自然数为4,B(a4)对应自然数为6及B(a5)对应自然数为1。表2是按各自对应的自然数大小从小到大排序5个基的结果及其支持度。
序号 属性集上的向量基 支持度
1 B(a5)=(0,0,0,0,1) S(B(a5))=0.7
2 B(a3)=(0,0,1,0,0) S(B(a3))=0.8
3 B(a4)=(0,0,1,1,0) S(B(a4))=0.5
4 B(a2)=(0,1,0,0,1) S(B(a2))=0.3
5 B(a1)=(1,0,0,0,1) S(B(a1))=0.6
表2
基于表2所示,最小的向量基分别和其它向量基分别取并得到新向量,并按其对应的自然数大小插入向量基的排序中,表3给出了B(a5)和其它向量基分别取并得到新向量。
序号 属性集上的生成向量 支持度
1 B(a5)=(0,0,0,0,1) S(B(a5))=0.7
2 B(a3)=(0,0,1,0,0) S(B(a3))=0.8
3 B(a5)∨B(a3)=(0,0,1,0,1) S(B(a5)∨B(a3))=0.5
4 B(a4)=(0,0,1,1,0) S(B(a4))=0.5
5 B(a5)∨B(a4)=(0,0,1,1,1) S(B(a5)∨B(a4))=0.2
6 B(a2)=(0,1,0,0,1) S(B(a2))=0.3
7 B(a1)=(1,0,0,0,1) S(B(a1))=0.6
表3
表4给出了按上述过程逐次生成的属性集上的所有向量。
序号 属性集上的生成向量 支持度
1 B(a5)=(0,0,0,0,1) S(B(a5))=0.7
2 B(a3)=(0,0,1,0,0) S(B(a3))=0.8
3 B(a5)∨B(a3)=(0,0,1,0,1) S(B(a5)∨B(a3))=0.5
4 B(a4)=(0,0,1,1,0) S(B(a4))=0.5
5 B(a5)∨B(a4)=(0,0,1,1,1) S(B(a5)∨B(a4))=0.2
6 B(a2)=(0,1,0,0,1) S(B(a2))=0.3
7 B(a3)∨B(a2)=(0,1,1,0,1) S(B(a3)∨B(a2))=0.1
8 B(a4)∨B(a2)=(0,1,1,1,1) S(B(a4)∨B(a2))=0
9 B(a1)=(1,0,0,0,1) S(B(a1))=0.6
10 B(a3)∨B(a1)=(1,0,1,0,1) S(B(a3)∨B(a1))=0.5
11 B(a4)∨B(a1)=(1,0,1,1,1) S(B(a4)∨B(a1))=0.2
12 B(a2)∨B(a1)=(1,1,0,0,1) S(B(a2)∨B(a1))=0.2
13 B(a2)∨B(a3)∨B(a1)=(1,1,1,0,1) S(B(a2)∨B(a3)∨B(a1))=0.1
14 B(a2)∨B(a4)∨B(a1)=(1,1,1,1,1) S(B(a2)∨B(a4)∨B(a1))=0
表4
根据表4,设定支持度和可信度阈值为0.5,按生成向量从小到大的顺序两两逐次判断是否满足阈值并生成属性关联规则,如从最小的向量B(a5)开始,首先和B(a3)生成的向量B(a5)∨B(a3)满足支持度大于等于0.5,因此,B(a5)和B(a3)可生成如下属性关联规则:
(0,0,0,0,1)→(0,0,1,0,0)和(0,0,1,0,0)→(0,0,0,0,1),
即a5→a3和a3→a5,其可信度分别为5/7和5/8,大于等于0.5。
其它满足支持度和可信度阈值条件的属性关联规则可类似生成。
表5给出了两两向量逐次生成满足条件的属性关联规则。
序号 关联规则 支持度(≥0.5) 可信度(≥0.5)
1 a5→a3 S(a5→a3)=0.5 C(a5→a3)=5/7
2 a3→a5 S(a3→a5)=0.5 C(a5→a3)=5/8
3 a5→a1 S(a5→a1)=0.6 C(a5→a1)=6/7
4 a1→a5 S(a1→a5)=0.6 C(a1→a5)=1
5 a3→a4 S(a3→a4)=0.5 C(a3→a4)=5/8
6 a4→a3 S(a4→a3)=0.5 C(a4→a3)=1
7 a3→a1∧a5 S(a3→a1∧a5)=0.5 C(a3→a1∧a5)=5/8
8 a1∧a5→a3 S(a1∧a5→a3)=0.5 C(a1∧a5→a3)=5/6
9 a3∧a5→a1 S(a3∧a5→a1)=0.5 C(a3∧a5→a1)=1
10 a1→a3∧a5 S(a1→a3∧a5)=0.5 C(a1→a3∧a5)=5/6
表5
本发明的一种基于向量运算的关联规则挖掘方法,借助对象和属性的向量表示,利用约定的向量运算生成属性集上的向量基,用于刻画属性之间的最基本相关关系,利用向量基生成属性集上的向量拓扑,避免了在属性集的幂集中运算,减少了对象和属性之间运算次数。在属性集上的向量拓扑中寻找满足条件的频繁闭项集,同时,包括其极小生成元在内的所有生成元均在向量拓扑,缩减了频繁闭项集及其极小生成元的搜索范围。
实施例2:
本实施例使用EXTENDED BAKERY Dataset数据集,该数据集记录了购买40种面包(编号为1至40)和10中饮料(编号为41至50)共75000条销售记录,所挖掘的属性关联规则体现为购买面包和饮料的关联关系,使用本发明方法挖掘属性关联规则,支持度阈值设定为0.01,可信度阈值设定为0,共生成352条属性关联规则,并与经典Aprior算法从属性关联规则的数量、运行时间和占用内存方面进行比较,其中,属性关联规则的数量及规则的前后件内容完全一致,运行时间和占用内存见表6。
表6
在比较实验中,本实施例将原始数据75000条数据进行复制翻倍操作7次,以2的倍数规模增长,分别得到8组数据,所得规则数量及其支持度、可信度不变,但运行时间和占用内存有变化,由于对数据进行了翻倍处理,突出了数据重复计算的问题,很明显的可以看出,现有技术的算法在处理属性关联规则的重复生成问题上有较大的缺点。图2展示了本发明所提算法与Aprior算法的运行时间曲线,图中可清楚的看出本发明的方法相比现有的Aprior算法在处理同一数据时的运行时间大幅度降低,在表6中,本发明的方法较现有的Aprior算法在内存占用上也有较大的优势。
上面结合附图对本发明的具体实施方式进行了详细说明,但本发明并不限制于上述实施方式,在不脱离本申请的权利要求的精神和范围情况下,本领域的技术人员可以作出各种修改或改型。

Claims (3)

1.一种基于向量运算的关联规则挖掘方法,其特征在于,包括以下步骤:
定义对象和属性的向量表示,约定对象向量和属性向量的运算规则,用于计算属性集上的向量基;
根据向量基计算生成属性集上的向量;
根据所述属性集上的向量计算属性集上的任一向量的支持度;
设定向量基的支持度阈值,筛选出大于支持度阈值条件的向量;
根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则;
所述定义对象和属性的向量表示,约定对象向量和属性向量的运算规则包括:
定义信息系统I表示为:I=(U,A,f),U表示对象集、A表示属性集,其中U={u1,…,un},A={a1,…,am},un表示对象集中第n个元素、am表示属性集中第m个元素;
f称为I的信息函数,即f:U×A→{0,1},对任意(ui,aj)∈U×A,若f(ui,aj)=pij=0,则称第i个对象ui不具有第j个属性aj;若f(ui,aj)=pij=1,则称第i个对象ui具有第j个属性aj
定义A1→A2为一条属性关联规则,其中,A1称为前件,A2称为后件;
定义ui=(pi1,...,pim)1×m,表示对象ui可表示为由0或1构成的m维行向量;
定义表示属性aj可表示为由0或1构成的n维列向量;
约定如下向量运算规则, 其中,(1,…,1)1×m表示元素全为1的m维行向量,表示元素全为1的n维列向量;
约定属性aj与(u1,…,un)之间的向量运算规则如下,
约定属性ui与(a1,…,am)之间的向量运算规则如下,
其中n,m,i,j均为正整数;
所述计算属性集上的向量基为:
定义B(aj)表示属性aj可生成一个向量基,
得到属性集上的向量基为,
B(A)={B(aj)|aj∈A},
其中n,j均为正整数;
所述根据向量基计算生成属性集上的向量为:
由J′对应的向量基生成的向量T(J′)表示为
T(J′)=∨j∈J′B(aj),
其中J′是某一指标集,J′对应的向量基生成的所有向量记为其中m,j均为正整数;
所述根据所述属性集上的向量计算属性集上的任一向量的支持度为:
任一向量T(J′)∈T(A)的支持度为:
S(T(J′))=(p′1j+p′2j+...+p′nj)/n,其中n,j均为正整数。
2.根据权利要求1所述的一种基于向量运算的关联规则挖掘方法,其特征在于,所述根据预先设定的可信度阈值,在所述大于支持度阈值条件的向量中挖掘满足条件的属性关联规则包括:
根据预先设定的关联规则的可信度阈值,在T(A)中挖掘大于可信度阈值的属性关联规则。
3.根据权利要求2所述的一种基于向量运算的关联规则挖掘方法,其特征在于,所述挖掘大于可信度阈值的属性关联规则为:
在T(A)中选择两个向量,记为T(A1)和T(A2),其中,T(A1)表示由属性子集A1中所有元素对应的向量基确定的属性集上的向量,T(A2)表示由属性子集A2中所有元素对应的向量基确定的属性集上的向量;T(A1)和T(A2)中任一个向量为前件,另一个向量减去前件为后件,生成一条属性关联规则,即:
T(A1)→(T(A2)-T(A1))或T(A2)→(T(A1)-T(A2));则生成属性关联规则的可信度为:
C(T(A1)→(T(A2)-T(A1)))=S(T(A1∪A2))/S(T(A1))或C(T(A2)→(T(A1)-T(A2)))=S(T(A1∪A2))/S(T(A2))。
CN201510729332.8A 2015-10-30 2015-10-30 一种基于向量运算的关联规则挖掘方法 Active CN105335785B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510729332.8A CN105335785B (zh) 2015-10-30 2015-10-30 一种基于向量运算的关联规则挖掘方法
PCT/CN2015/096627 WO2017071005A1 (zh) 2015-10-30 2015-12-08 一种基于向量运算的关联规则挖掘方法
GB1803769.7A GB2558438A (en) 2015-10-30 2015-12-08 Vector operation-based association rule mining method
NL1042116A NL1042116B1 (en) 2015-10-30 2016-10-27 Association rule mining method based on vector operations

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510729332.8A CN105335785B (zh) 2015-10-30 2015-10-30 一种基于向量运算的关联规则挖掘方法

Publications (2)

Publication Number Publication Date
CN105335785A CN105335785A (zh) 2016-02-17
CN105335785B true CN105335785B (zh) 2017-12-19

Family

ID=55286300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510729332.8A Active CN105335785B (zh) 2015-10-30 2015-10-30 一种基于向量运算的关联规则挖掘方法

Country Status (4)

Country Link
CN (1) CN105335785B (zh)
GB (1) GB2558438A (zh)
NL (1) NL1042116B1 (zh)
WO (1) WO2017071005A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021546A (zh) * 2016-05-27 2016-10-12 西华大学 基于项目子集事例树的极小非约简关联规则挖掘方法
CN107766323B (zh) * 2017-09-06 2021-08-31 淮阴工学院 一种基于互信息和关联规则的文本特征提取方法
CN108182294B (zh) * 2018-01-31 2021-04-16 湖北工业大学 一种基于频繁项集增长算法的电影推荐方法及系统
CN109120634B (zh) * 2018-09-05 2021-02-05 广州视源电子科技股份有限公司 一种端口扫描检测的方法、装置、计算机设备和存储介质
CN110417594B (zh) * 2019-07-29 2020-10-27 吉林大学 网络构建方法、装置、存储介质及电子设备
CN112597236B (zh) * 2020-12-04 2022-10-25 河南大学 一种基于概念格的关联规则的优化方法及可视化展示方法
CN113822702B (zh) * 2021-08-30 2023-10-20 国网辽宁省电力有限公司阜新供电公司 突发事件下的行业间用电量需求关联分析系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477375A (zh) * 2009-01-05 2009-07-08 东南大学 基于矩阵奇异值关联规则挖掘的传感器数据校验方法
CN101510204A (zh) * 2009-03-02 2009-08-19 南京航空航天大学 一种基于目标条件关联规则数据库异常查询监测方法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN102968375A (zh) * 2012-11-30 2013-03-13 中国矿业大学 基于关联规则挖掘的不可达路径检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10222493A (ja) * 1997-02-06 1998-08-21 Kokusai Denshin Denwa Co Ltd <Kdd> 相互因果関係解析システム
US7370033B1 (en) * 2002-05-17 2008-05-06 Oracle International Corporation Method for extracting association rules from transactions in a database
CN103678530A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种频繁项集快速检出的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477375A (zh) * 2009-01-05 2009-07-08 东南大学 基于矩阵奇异值关联规则挖掘的传感器数据校验方法
CN101510204A (zh) * 2009-03-02 2009-08-19 南京航空航天大学 一种基于目标条件关联规则数据库异常查询监测方法
CN101655857A (zh) * 2009-09-18 2010-02-24 西安建筑科技大学 基于关联规则挖掘技术挖掘建设法规领域数据的方法
CN102968375A (zh) * 2012-11-30 2013-03-13 中国矿业大学 基于关联规则挖掘的不可达路径检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Cost Vector Matrix – A New Approach to Association Rule Mining;Shikhar Kumar Jain,et al.;《International Journal of Recent Research and Review》;20140630;第VII卷(第2期);全文 *
基于 Web挖掘的决策支持系统模型研究;何丽;《中国博士学位论文全文数据库信息科技辑》;20070815;第2007年卷(第2期);正文第2.3节,第2.4节,第3.3节,第3.5节 *
基于矩阵行向量运算的关联规则挖掘算法研究;焦振;《重庆电子工程职业学院学报》;20090331;第18卷(第2期);全文 *

Also Published As

Publication number Publication date
GB201803769D0 (en) 2018-04-25
GB2558438A (en) 2018-07-11
NL1042116B1 (en) 2017-09-07
WO2017071005A1 (zh) 2017-05-04
CN105335785A (zh) 2016-02-17
NL1042116A (en) 2017-05-19

Similar Documents

Publication Publication Date Title
CN105335785B (zh) 一种基于向量运算的关联规则挖掘方法
Shang et al. A survey on the hypervolume indicator in evolutionary multiobjective optimization
Schultz Stochastic programming with integer variables
Heiss Structural choice analysis with nested logit models
Peng et al. Generalized hesitant fuzzy synergetic weighted distance measures and their application to multiple criteria decision-making
Huang Estimation of technical inefficiencies with heterogeneous technologies
Zhang et al. An efficient multiobjective genetic algorithm for mixed-model assembly line balancing problem considering demand ratio-based cycle time
Wang et al. An integrating OWA–TOPSIS framework in intuitionistic fuzzy settings for multiple attribute decision making
Huang et al. Forecasting container throughput of Qingdao port with a hybrid model
CN107770783B (zh) 一种基站扩容改造方案设计方法及相关设备
CN108229578B (zh) 基于数据、信息和知识三层图谱架构的图像数据目标识别方法
CN109255586A (zh) 一种面向电子政务办事的在线个性化推荐方法
De Queiroz et al. Sharing cuts under aggregated forecasts when decomposing multi-stage stochastic programs
WO2019233089A1 (zh) 一种互联网测试床拓扑结构大比例规模缩减方法及装置
CN101697174B (zh) 面向稳态热分析的零件模型自动简化及评价方法
CN109916350A (zh) 一种生成三坐标测量程序的方法、装置及终端设备
Lewiner Critical sets in discrete Morse theories: Relating Forman and piecewise-linear approaches
Yuan et al. Intuitionistic trapezoidal fuzzy group decision-making based on prospect choquet integral operator and grey projection pursuit dynamic cluster
Ma Classification of coverings in the finite approximation spaces
Yue et al. Probabilistic linguistic multi-criteria decision-making based on double information under imperfect conditions
Ke et al. PBWA: A Provenance‐Based What‐If Analysis Approach for Data Mining Processes
Zhou On hesitant fuzzy reducible weighted bonferroni mean and its generalized form for multicriteria aggregation
Vaghela et al. Entropy based feature selection for multi-relational naïve bayesian classifier
Dong et al. Ranking from crowdsourced pairwise comparisons via smoothed matrix manifold optimization
CN113158088A (zh) 一种基于图神经网络的位置推荐方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant