CN106021546A - 基于项目子集事例树的极小非约简关联规则挖掘方法 - Google Patents

基于项目子集事例树的极小非约简关联规则挖掘方法 Download PDF

Info

Publication number
CN106021546A
CN106021546A CN201610365087.1A CN201610365087A CN106021546A CN 106021546 A CN106021546 A CN 106021546A CN 201610365087 A CN201610365087 A CN 201610365087A CN 106021546 A CN106021546 A CN 106021546A
Authority
CN
China
Prior art keywords
subset
items
project
item
item sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610365087.1A
Other languages
English (en)
Inventor
裴峥
李波
周斌
孔明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xihua University
Original Assignee
Xihua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xihua University filed Critical Xihua University
Priority to CN201610365087.1A priority Critical patent/CN106021546A/zh
Priority to PCT/CN2016/098788 priority patent/WO2017201920A1/zh
Priority to GB1801845.7A priority patent/GB2568558A/en
Publication of CN106021546A publication Critical patent/CN106021546A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于项目子集事例树的极小非约简关联规则挖掘方法,包括以下步骤,在事例项目数据库中,利用单个项目生成的闭项目集和集合的并运算,生成项目子集合,该集合是项目集的幂集的一个真子集;利用生成的项目子集合,构造事例项目数据库的项目子集事例树结构;在项目子集事例树中挖掘闭频繁项目集及其极小生成元,根据挖掘出的闭频繁项目集及其极小生成元,快速生成极小非约简关联规则。本发明利用单个项目生成的闭项目集,获得若干项目子集并构造项目子集事例树刻画项目子集的层次关系及其对应的支持度,有效地减少了事例和项目之间的检索次数;同时有效地减少存储空间,提高了极小非约简关联规则的挖掘速度和效率。

Description

基于项目子集事例树的极小非约简关联规则挖掘方法
技术领域
本发明涉及数据挖掘和知识获取领域,提出了一种基于项目子集事例树快速从大型事例项目数据库中挖掘极小非约简关联规则,从而获取该大型事例项目数据库的一种非冗余知识库。
背景技术
在大型事例项目数据库中,关联规则刻画了项目之间的一种同时发生关系,即在大型事例项目数据库中若干事例同时满足某些项目,其中,部分项目作为前件,剩余项目作为后件构成项目之间的关联规则。例如在大型超市的交易数据库中,每次交易作为一个事例,交易中涉及到的商品作为项目,挖掘出的关联规则刻画了商品在交易中同时发生的情况,这种知识可用于超市中商品位置摆放、商品进货数量等超市商品管理中。理论上,若满足某一项目子集的事例集不为空集,则该项目子集就可用于挖掘关联规则。因此,一方面,挖掘关联规则是在项目集的幂集中完成的,这样的问题在计算机科学中是一个NP-难问题。另一方面,由于关联规则刻画了大型事例项目数据库中一种合理、科学及有用的知识,关联规则挖掘已广泛应用于计算机科学、管理科学、经济学、社会科学等领域,用于获取相应数据库的合理、科学及有用的知识。
通常挖掘出的关联规则非常多,完全超出了人们所能理解的范围,因此,结合实际应用,人们提出了各种扩展或改进的关联规则挖掘方法,总体来看,这些关联规则挖掘方法包含如下两个主要内容:
1、生成频繁项目集或闭频繁项目集。
2、从频繁项目集或闭频繁项目集中挖掘各种关联规则。
在实际应用中,一方面,生成的频繁项目集或闭频繁项目集很多,因此,人们又提出如极大频繁项目集、广义项目集、自由项目集、析取自由项目集等,限制生成关联规则的项目集个数或生成特殊需求的关联规则;另一方面,从频繁项目集或闭频繁项目集中挖掘出的关联规则有冗余信息,因此,人们又提出如极小-极大关联规则、不可约关联规则、极小非约简关联规则、带权重关联规则等,限制 关联规则的形式,减少冗余关联规则的生成。从生成关联规则的方法来看,已有方法可分为两大类,第一大类为源于Apriori方法的关联规则挖掘方法,Apriori方法是最早提出的关联规则挖掘方法,其核心思想是构造Apriori生成函数并按每个项目的支持度大小逐次添加项目生成项目子集,生成的项目子集存储在hash-树结构中,通过hash-树结构快速挖掘关联项目子集作为关联规则的前后件,从而快速生成关联规则。随后,人们对Apriori方法进行了很多扩展或改进研究。第二大类为源于FP-树(frequent-pattern(FP)tree)的方法,与Apriori方法的hash-树结构不同,FP-树是一种相关频繁项目子集表示方式,FP-树的每一枝存储一族按降序排列的频繁项目子集,要构造FP-树,首先将每个项目按其支持度从大到小排列,然后分别遍历事例集与项目集,可逐层构造出支持度从大到小的频繁项目子集,利用FP-树可快速生成关联规则。随后,人们对FP-树方法进行了很多扩展或改进研究。
可以看出,已有关联规则挖掘方法的共同特点是由单个项目通过逐次增加的方式生成频繁项目子集,在生成过程中,每个项目按其支持度从大到小排列,从而频繁项目子集按支持度从大到小的顺序生成。在hash-树的存储结构中,由单个项目开始逐次增加,需要遍历事例集与项目集多次才可生成频繁项目子集,在大型事例项目数据库中,其计算次数及存储空间将呈现为指数增长。在FP-树的存储结构中,利用项目按其支持度从大到小排列表,经事例集与项目集两次遍历就可构造出频繁项目子集按支持度从大到小在FP树中的分支图,由于频繁项目子集仍是按每个项目逐次增加的方式生成,因此,在大型事例项目数据库中,源于FP-树的方法在生成频繁项目子集及其相应的关联规则过程中仍涉及计算次数及存储空间的问题。总体来看,通过单个项目的支持度大小以及逐次添加项目的方式生成频繁项目子集具有如下不足:
1、逐个添加项目本质上是在项目集中对单个项目进行遍历搜索,导致生成的频繁项目子集数量庞大,特别在大型事例项目数据库中频繁项目子集数量呈现指数增长,不利于快速挖掘如极小-极大关联规则、极小非约简关联规则等。事实上,在大型事例项目数据库中,各项目之间是存在一种相关关系的,某一个项目的出现必然会导致另一个项目的出现,逐个添加项目的方式没有用到这种项目之间的相关关系。
2、逐个添加项目方法在生成频繁项目子集的过程中计算量大,生成了很多冗余的频繁项目子集,导致搜索闭频繁项目集、项目子集的生成元等信息的范围扩大,带来了运算和存储两方面的问题,不利于关联规则的快速挖掘。事实上,利用大型事例项目数据库中各项目之间的相关关系可有效约简冗余频繁项目子集的生成个数。
发明内容
针对逐次添加项目方法在关联规则挖掘过程中的不足,本发明利用大型事例项目数据库中各项目之间的一种相关关系生成频繁项目子集,提供项目子集事例树的构造方法,提供在项目子集事例树中快速挖掘闭频繁项目集、极小生成元和极小非约简关联规则的方法。
为了实现上述发明目的,本发明采用的技术方案是:
一种基于项目子集事例树的极小非约简关联规则挖掘方法包括以下步骤:在事例项目数据库中,根据事例与项目之间的闭包运算,生成每个项目对应的闭项目集,该闭项目集满足其支持度与对应项目的支持度相同;
对生成的闭项目集按集合中元素个数从大到小排序,通过集合的并运算,生成各项目子集。通过集合的交运算,生成各项目子集满足的事例集(项目子集的支持度),并按生成顺序,构建项目子集事例树结构;
在项目子集事例树中,挖掘闭频繁项目集及其极小生成元,进一步,生成极小非约简关联规则。
具体的,令事例项目数据库为D=(U,A),其中,U={u1,u2,...,un}为事例集,A={a1,a2,...,am}为项目集,每一事例ui(i=1,2,...,n)是一个项目子集,例如u1={a1,a2,a3}是A的一个子集,表示事例u1满足项目a1,a2和a3。本发明采用如下两个映射描述事例与项目之间的两种运算:对任意aj∈A,j=1,2,...,m,
直观地,τ(aj)表示所有满足项目aj的事例构成的事例子集,因此,在事例项目数据库中,项目aj的支持度为τ(aj)的元素个数,即sup(aj)=|τ(aj)|。自然地,对任意项目子集
直观地,τ(Ak)表示同时满足Ak中每一个项目的事例构成的事例子集,因此,项目子集Ak的支持度为τ(Ak)的元素个数,即|τ(Ak)|。
对任意事例子集Ul所满足的项目子集为
γ ( U 1 ) = ∩ u i ∈ U l u i
基于上述映射表示,本发明所述基于项目子集事例树的极小非约简关联规则挖掘方法具体描述如下:
1、生成每个项目对应的闭项目集
对任意项目aj∈A,使用上述两个映射τ和γ,由项目aj生成的闭项目集为
C ( a j ) = γ ( τ ( a j ) ) = ∩ ∀ u i ∈ U a j ∈ u i u i
根据映射τ和γ的表示,τ(aj)是所有满足项目aj的事例子集,τ(aj)所满足的项目子集为γ(τ(aj)),因此,项目子集C(aj)满足的事例子集与项目aj满足的事例子集相同,即C(aj)的支持度就是项目aj的支持度。人们已得到很多关于映射τ和γ的良好性质,根据已有的性质,容易证明C(aj)是一个闭项目集。形式上,闭项目集C(aj)刻画了与项目aj同时发生这样一种相关关系,即项目aj满足的事例同时也被C(aj)中任一项目满足,若项目aj出现,则C(aj)中其它项目也必然出现。
2、构建项目子集事例树
与逐次添加单个项目生成频繁项目集不同,本发明采用单个项目的闭项目集C(aj)生成项目子集,即将B={C(a1),C(a2),...,C(am)}理解为生成基,项目子集由B中若干元素利用集合的并运算生成,例如C(a1)∪C(a2)∪C(am)生成一个项目子集,形式地,令A′为生成的一个项目子集,则
A ′ = ∪ a j ∈ A ′ C ( a j ) ,
人们已得到很多关于闭项目集C(aj)的良好性质,根据已有的性质,容易证明事例项目数据库的所有闭项目集一定包含在由生成基B={C(a1),C(a2),...,C(am)} 生成的所有项目子集中。根据这一结论,我们可由生成基B首先生成所有的项目子集,然后在生成的项目子集中挖掘所需的闭频繁项目集。由于每个C(aj)本身是一个闭项目集,一方面,由生成基B生成的项目子集与逐次添加单个项目生成的项目子集不同,另一方面,由生成基B生成的项目子集是项目集幂集的一个真子集,数量上比逐次添加单个项目生成的项目子集少,这意味着挖掘闭频繁项目集的范围要小。形式地,满足由生成基B生成的项目子集A′的事例集可表示为
τ ( A ′ ) = ∩ a j ∈ A ′ τ ( C ( a j ) ) .
如下过程用于构建项目子集事例树,并快速生成上述所有项目子集及其满足的事例集:
(1)项目子集事例树的每一个节点表示为
A′×τ(A′)
其中,A′为由生成基B生成的一个项目子集,τ(A′)是满足A′的事例集。
(2)项目子集事例树的根节点表示为
(3)根节点的每一个子节点表示为
C(aj)×τ(C(aj))
其中,子节点从左到右按C(aj)中包含项目的个数从大到小排列,即从左到右,第一个子节点是C(aj)中包含项目的个数最多,最后一个子节点是C(aj)中包含项目的个数最少,个数相同时按序号排列。
(4)每一个子节点C(aj)×τ(C(aj))的子节点按如下方式生成:令C(a1)×τ(C(a1)),C(a2)×τ(C(a2)),...,C(am)×τ(C(am))是按(3)要求的排序结果,对任一子节点C(aj)×τ(C(aj)),其第一个子节点为
(C(aj)∪C(aj+1))×(τ(C(aj))∩τ(C(aj+1)))
若C(aj)∪C(aj+1)≠A且其它节点可分别按(C(aj)∪C(aj+2))×(τ(C(aj))∩τ(C(aj+2))),...,(C(aj)∪C(am))×(τ(C(aj)) ∩τ(C(am)))依次生成。
(5)对任一节点A′×τ(A′),假设A′=A″∪C(aj),则A′×τ(A′)的第一个子节点为
(A′∪C(aj+1))×(τ(A′)∩τ(C(aj+1)))
若A′∪C(aj+1)≠A且其它节点可分别按(C(A′)∪C(aj+2))×(τ(C(A′))∩τ(C(aj+2))),...,(C(A′)∪C(am))×(τ(C(A′))∩τ(C(am)))依次生成。
(6)如需生成频繁项目子集,只需要在每个节点生成过程中增加大于等于最小支持度α这一限制条件,即对任一节点A′×τ(A′),增加限制条件
|τ(A′)|≥α
3、挖掘闭频繁项目集及其极小生成元并生成极小非约简关联规则
在项目子集事例树,每一个节点均由项目子集及其满足的事例集构成,根据事例集,可在项目子集事例树的节点上定义如下等价关系≈:
对任意两个节点A′×τ(A′)和A″×τ(A″),
A′×τ(A′)≈A″×τ(A″)当且仅当τ(A′)=τ(A″)
根据等价关系≈,可将节点合并为
[A′]×τ(A′)
其中,[A′]是由项目子集事例树中所有与节点A′×τ(A′)等价的节点的项目子集构成的集合,即[A′]中的项目子集满足的事例集为τ(A′)。为便于描述,本发明给出如下约定:
(1)max[A′]为[A′]中按包含关系确定的最大元。
(2)min[A′]为[A′]中最大元的生成元集合
基于上述约定,闭频繁项目集及其极小生成元如下生成:
·max[A′]是支持度为|τ(A′)|的闭频繁项目集
·令A″∈min[A′],若存在A″的子集满足该子集的事例集就是τ(A′)且没有 比该子集更小的子集其事例集也是τ(A′),则该子集为闭频繁项目集max[A′]的一个极小生成元,记Gmin[A′]为所有从min[A′]中获得的max[A′]的极小生成元。
根据闭频繁项目集及其极小生成元,极小非约简关联规则如下生成:
·可信度为1的极小非约简关联规则
对任一等价类[A′],令A1∈Gmin[A′],则
A1→(max[A′]-A1)
为极小非约简关联规则,其支持度为sup(A1→(max[A′]-A1))=|τ(A′)|,可信度conf(A1→(max[A′]-A1))=|τ(A′)|/|τ(A1)|=1。
·可信度为β的极小非约简关联规则
对任一等价类[A′]及其父节点等价类[A″],即在项目子集事例树中,A″是A′的父节点且τ(A″)≠τ(A′),令A1∈Gmin[A″],则
A1→(max[A′]-A1)
为极小非约简关联规则,其支持度为sup(A1→(max[A′]-A1))=|τ(A′)|,可信度β=conf(A1→(max[A′]-A1))=|τ(A′)|/|τ(A1)|<1。
与现有技术相比,本发明的有益效果:
本发明是一种基于项目子集事例树的极小非约简关联规则挖掘方法,利用单个项目的闭项目集生成项目子集事例树,与利用枚举单个项目生成项目子集的方法比较,生成较少的项目子集,有效地避免了冗余项目子集的生成。同时,将搜索闭频繁项目集及其极小生成元限制在项目子集事例树中,有效地减少了闭频繁项目集及其极小生成元的搜索范围。此外,利用目子集事例树中的等价类及其层次关系,快速挖掘极小非约简关联规则,有效地避免了在项目集与事例集之间的多次重复计算。
附图说明
图1是本发明一个实施例中用来计算得到每一个项目对应的闭项目集;
图2是本发明一个实施例中用来生成项目子集事例树;
图3是本发明一个实施例中生成的具体项目子集事例树;
图4是本发明一个实施例中CHARM-L算法中生成的IT-树;
图5是本发明一个实施例中用来挖掘极小非约简关联规则;
图6为本发明所提算法与Aprior算法的运行时间曲线;
图7为本发明所提算法与Aprior算法的使用内存曲线;
图8为本发明算法流程图;
图9给出6个事例5个项目的事例项目数据库;
图10给出闭项目集及其支持度;
图11给出图3所示项目子集事例树经过合并后的节点、闭项目集及其极小生成元;
图12给出可信度阈值为0.9的极小非约简关联规则;
图13给出实施例2运行时间和占用内存。
具体实施方式
下面结合具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
实施例1
图1所示是本发明的一个实施例示出的一种基于项目子集事例树的极小非约简关联规则挖掘方法,其目的是计算得到每一个项目对应的闭项目集,包括以下步骤:
提供一个6个事例5个项目的事例项目数据库D=(U,A)实例及其表格,给出该实例的满足每一个项目的事例集及被事例集所满足的项目集,用于计算得到每一个项目对应的闭项目集;
具体的,图9描述了给出的6个事例5个项目的事例项目数据库D=(U,A),结合图9,满足每一个项目的事例集及被事例集所满足的项目集为:
&gamma; ( &tau; ( a j ) ) = &cap; i &Element; &tau; ( a j ) i ,
其中,i=1,2,...,6,j=1,2,3,4,5。据此,每一个项目对应的闭项目集为:
C(aj)=γ(τ(aj))
其支持度为
Sup(C(aj))=|τ(aj)|。
本具体实例每一项目对应的闭项目集为B={C(a1),C(a2),C(a3),C(a4),C(a5)}。
图2所示是本发明的一个实施例示出的一种基于项目子集事例树的极小非约简关联规则挖掘方法,其目的是基于图1生成的每一项目对应的闭项目集生成项目子集事例树,包括以下步骤:
生成L0层的节点,即根节点
生成L1层的节点,即根节点的子节点,
L1:C(a1)×τ(C(a1)),C(a2)×τ(C(a2)),...,C(a5)×τ(C(a5))
其中,C(aj)是包含项目的个数第j大的闭项目集。
假设Lr-1层已经生成,则第Lr层的节点由Lr-1层中每个节点的子节点构成,对Lr-1层的节点Aj′×τ(Aj′)且满足Aj′=Aj″∪C(ak),其子节点如下生成:
(Aj′∪C(ak+1))×(τ(Aj′)∩τ(C(ak+1))),...,(Aj′∪C(a5))×(τ(Aj′)∩τ(C(a5)))
且满足Aj′∪C(ai)≠A且i=k+1,...,5。
图3所示是本发明的一个实施例示出的一种基于项目子集事例树的极小非约简关联规则挖掘方法,其目的是基于图2生成的项目子集事例树挖掘极小非约简关联规则,包括以下步骤:
利用如下节点上的等价关系,对项目子集事例树中节点进行合并,对任意两个节点A′×τ(A′)和A″×τ(A″),
A′×τ(A′)≈A″×τ(A″)当且仅当τ(A′)=τ(A″)
据此可将事例集相同的节点合并为
[A′]×τ(A′)
其中,项目子集等价类[A′]中的项目子集满足的事例集都为τ(A′),按集合包含关系,[A′]中的最大元和生成元记为
max[A′]
min[A′]
max[A′]是由A′生成的闭项目集,max[A′]的极小生成元在min[A′]中搜索,即对任一A″∈min[A′],若存在A″的子集满足该子集的事例集就是τ(A′)且没有比该子集更小的子集其事例集也是τ(A′),则该子集为闭项目集max[A′]的一个极小生成元,记Gmin[A′]为所有从min[A′]中获得的max[A′]的极小生成元。
据此,极小非约简关联规则如下生成:
对任一等价类[A′],令A1∈Gmin[A′],则
A1→(max[A′]-A1)
其支持度为sup(A1→(max[A′]-A1))=|τ(A′)|,可信度为conf(A1→(max[A′]-A1))=|τ(A′)|/|τ(A1)|=1。
对任一等价类[A′]及其父节点等价类[A″],即在项目子集事例树中,A″是A′的父节点且τ(A″)≠τ(A′),令A1∈Gmin[A″],则
A1→(max[A′]-A1)
其支持度为sup(A1→(max[A′]-A1))=|τ(A′)|,可信度为β=conf(A1→(max[A′]-A1))=|τ(A′)|/|τ(A1)|<1。
实施例1:
一个事例项目数据库为D=(U,A)=({1,2,3,4,5,6},{a1,a2,a3,a4,a5})实例如图9所示。
根据图9及图1所示,满足a1的事例集为
事例集{1,2,5}所满足的项目子集为
&gamma; ( &tau; ( a 1 ) ) &cap; i &Element; &tau; ( a 1 ) i = { a 1 , a 5 } &cap; { a 1 , a 3 } &cap; { a 1 , a 2 , a 3 , a 4 , a 5 } = { a 1 }
因此,项目a1对应的闭项目集为:
C(a1)=γ(τ(a1))={a1}
其支持度为
Sup(C(a1))=|τ(a1)|=|{1,2,5}|=3。
同理可得a2,a3,a4和a5对应的闭项目集及其支持度,本例结果见图10
根据图10所示,按包含项目数排序结果为:C(a4),C(a2),C(a1),C(a3),C(a5),因此,根节点的子节点构成L1层,从左到右分别为
C(a4)×{5,6},C(a2)×{4,5},C(a1)×{1,2,5},C(a3)×{2,3,4,5,6},C(a5)×{1,3,5,6}。
L1层各节点的子节点构成L2层,其中,C(a4)×{5,6}的子节点为
(C(a4)∪C(a2))×({5,6}∩{4,5}),(C(a4)∪C(a1))×({5,6}∩{1,2,5})
C(a4)∪C(a3)和(C(a4)∪C(a5))不生成节点,因为不满足其它子节点类似可生成。L2层各节点的子节点构成L3层,其中,(C(a4)∪C(a2))×{5}的子节点为
((C(a4)∪C(a2))∪C(a1))×({5}∩{1,2,5})
((C(a4)∪C(a2))∪C(a3))和((C(a4)∪C(a2))∪C(a5))不生成节点,因为不满足其它子节点类似可生成。图3给出了本例中生成的具体项目子集事例树,其中,如a3a4a5表示项目子集{a3,a4,a5},56表示事例子集{5,6}。图4是在本例中使用CHARM-L算法所生成的IT-树,其中,项目子集与事例子集表示类似于图3。与图4比较,图3的项目子集事例树的层数和节点数均少于图4的IT-树,自然地,挖掘闭频繁项目集及其极小生成元的范围比IT-树要少,因此在项目子集事例树中可更快地生成极小非约简关联规则。
根据图3所示的项目子集事例树,通过事例集相等,合并项目子集事例树中的节点,例如[a1a2a3]×5,其中,
[a1a2a3]={a1a2a3,a1a3a5,a2a3a5,a1a2a3a5,a1a3a4a5,a2a3a4a5,a1a2a3a4a5}
max[a1a2a3]=a1a2a3a4a5,
min[a1a2a3]={a1a2a3,a1a3a5,a2a3a5,a1a2a3a5,a1a3a4a5,a2a3a4a5},
Gmin[a1a2a3]={a1a2,a1a4,a2a4,a2a5,a1a3a5}
生成可信度为1的极小非约简关联规则如下
a1a2→a3a4a5,a1a4→a2a3a5,a2a4→a1a3a5,a2a5→a1a3a4,a1a3a5→a2a4
图11给出了图3所示项目子集事例树经过合并后的节点,闭项目集及其极小生成元,图12给出了可信度阈值为0.9的极小非约简关联规则。
实施例2
本实施例使用EXTENDED BAKERY Dataset数据集,该数据集记录了购买40种面包(编号为1至40)和10中饮料(编号为41至50)共75000条销售记录,所挖掘的属性关联规则体现为购买面包和饮料的关联关系,使用本发明方法挖掘属性关联规则,支持度阈值设定为0.01,可信度阈值设定为0,共生成112条属性关联规则,并与经典Aprior算法从属性关联规则的数量(352条)、运行时间和占用内存方面进行比较,其中,属性关联规则的数量及规则的前后件内容完全一致,运行时间和占用内存见图13,在比较实验中,本实施例将原始数据75000条数据进行复制翻倍操作7次,以2的倍数规模增长,分别得到8组数据,所得规则数量及其支持度、可信度不变,但运行时间和占用内存有变化。图6展示了本发明所提算法与Aprior算法的运行时间曲线。图7展示了本发明所提算法与Aprior算法的使用内存曲线。
使用本方法生成的112条属性关联规则全部在Aprior算法生成的属性关联规则(352条)之中,且全部规则为Min-Max规则。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (5)

1.基于项目子集事例树的极小非约简关联规则挖掘方法,其特征在于,包括以下步骤:
步骤1、在事例项目数据库中,根据事例与项目之间的闭包运算,生成每个项目对应的闭项目集,该闭项目集满足其支持度与对应项目的支持度相同;
步骤2、对生成的闭项目集按集合中元素个数从大到小排序,通过集合的并运算,生成各项目子集;
步骤3、通过集合的交运算,生成各项目子集满足的事例集,并按生成顺序,并根据生成的事例集构建项目子集事例树结构;
步骤4、在项目子集事例树中,挖掘闭频繁项目集及其极小生成元,再利用获得的闭频繁项目集及其极小生成元生成极小非约简关联规则。
2.根据权利要求1所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特征在于,所述的步骤1,包括以下步骤,
步骤1.1、满足某项目的事例与某事例所满足的项目,构成一对事例与项目之间的闭包运算;
步骤1.2、使用该闭包运算,可以生成满足某一项目的事例共同满足的项目子集,即满足某一项目的事例确定的闭项目集。
3.根据权利要求1所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特征在于,所述的步骤2,包括以下步骤,
步骤2.1、对每一项目满足的事例确定的闭项目集,根据其中包含的项目个数从大到小排序;
步骤2.2、再按排序顺序,对已生成的项目子集和选定的闭项目集,通过集合的并运算,生成一个新的项目子集。
4.根据权利要求3所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特征在于,所述的步骤3,通过集合的交运算,计算新项目子集满足的事例集,并按事例集生成顺序,构建项目子集事例树结构。
5.根据权利要求1所述的基于项目子集事例树的极小非约简关联规则挖掘方法,其特征在于,所述的步骤4,包括以下步骤,
步骤4.1、在项目子集事例树中,选择具有相同事例集的项目子集;
步骤4.2、按包含关系,相同事例集的项目子集中的最大元为闭项目集,其中的生成元用于得到该闭项目集的极小生成元;
步骤4.3、以极小生成元为前件,该闭项目集减去极小生成元为后件,生成极小非约简关联规则。
CN201610365087.1A 2016-05-27 2016-05-27 基于项目子集事例树的极小非约简关联规则挖掘方法 Pending CN106021546A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610365087.1A CN106021546A (zh) 2016-05-27 2016-05-27 基于项目子集事例树的极小非约简关联规则挖掘方法
PCT/CN2016/098788 WO2017201920A1 (zh) 2016-05-27 2016-09-13 基于项目子集事例树的极小非约简关联规则挖掘方法
GB1801845.7A GB2568558A (en) 2016-05-27 2016-09-13 Minimum non-reduction association rule mining method based on item subset example tree

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610365087.1A CN106021546A (zh) 2016-05-27 2016-05-27 基于项目子集事例树的极小非约简关联规则挖掘方法

Publications (1)

Publication Number Publication Date
CN106021546A true CN106021546A (zh) 2016-10-12

Family

ID=57092299

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610365087.1A Pending CN106021546A (zh) 2016-05-27 2016-05-27 基于项目子集事例树的极小非约简关联规则挖掘方法

Country Status (3)

Country Link
CN (1) CN106021546A (zh)
GB (1) GB2568558A (zh)
WO (1) WO2017201920A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475292A (zh) * 2018-03-20 2018-08-31 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN112733915A (zh) * 2020-12-31 2021-04-30 大连大学 基于改进d-s证据理论的态势估算方法
CN115114327A (zh) * 2022-07-28 2022-09-27 昆明理工大学 一种减少重复计算的数据库查询关系建模方法
CN117114116A (zh) * 2023-08-04 2023-11-24 北京杰成合力科技有限公司 一种基于机器学习的根因分析方法、介质和设备

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112861008B (zh) * 2021-03-01 2022-08-09 山东大学 一种基于多用户信息融合和熵的餐厅点餐推荐方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5615341A (en) * 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
CN101996102B (zh) * 2009-08-31 2013-07-17 中国移动通信集团公司 数据关联规则挖掘实现方法与系统
CN105589908A (zh) * 2014-12-31 2016-05-18 中国银联股份有限公司 用于事务集合的关联规则计算方法
CN105335785B (zh) * 2015-10-30 2017-12-19 西华大学 一种基于向量运算的关联规则挖掘方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108475292A (zh) * 2018-03-20 2018-08-31 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN108475292B (zh) * 2018-03-20 2021-08-24 深圳大学 大规模数据集的频繁项集挖掘方法、装置、设备及介质
CN112733915A (zh) * 2020-12-31 2021-04-30 大连大学 基于改进d-s证据理论的态势估算方法
CN112733915B (zh) * 2020-12-31 2023-11-07 大连大学 基于改进d-s证据理论的态势估算方法
CN115114327A (zh) * 2022-07-28 2022-09-27 昆明理工大学 一种减少重复计算的数据库查询关系建模方法
CN115114327B (zh) * 2022-07-28 2024-05-28 昆明理工大学 一种减少重复计算的数据库查询关系建模方法
CN117114116A (zh) * 2023-08-04 2023-11-24 北京杰成合力科技有限公司 一种基于机器学习的根因分析方法、介质和设备

Also Published As

Publication number Publication date
WO2017201920A1 (zh) 2017-11-30
GB201801845D0 (en) 2018-03-21
GB2568558A (en) 2019-05-22

Similar Documents

Publication Publication Date Title
CN106021546A (zh) 基于项目子集事例树的极小非约简关联规则挖掘方法
Xu et al. A novel approach to information fusion in multi-source datasets: A granular computing viewpoint
Greene et al. Producing a unified graph representation from multiple social network views
Lin et al. Multi-label feature selection with streaming labels
Sánchez High training set size reduction by space partitioning and prototype abstraction
Zhu et al. An integrated feature selection and cluster analysis techniques for case-based reasoning
US20070055655A1 (en) Selective schema matching
CN101320370B (zh) 基于查询接口连接图的深层网页数据源分类管理方法
CN109783628B (zh) 结合时间窗口和关联规则挖掘的关键词搜索ksaarm方法
CN102214169A (zh) 关键词信息与目标信息的提供方法及装置
Dai A novel ensemble pruning algorithm based on randomized greedy selective strategy and ballot
CN103455487A (zh) 一种搜索词的提取方法及装置
Lin et al. A frequent itemset mining algorithm based on the Principle of Inclusion–Exclusion and transaction mapping
Zul et al. Social media sentiment analysis using K-means and naïve bayes algorithm
CN105488195A (zh) 一种基于层次结构子话题的搜索结果多样化排序方法
Agrawal et al. A novel algorithm for automatic document clustering
Myszkorowski et al. Using fuzzy logic for recommending groups in e-learning systems
Peng et al. Optimization research of decision support system based on data mining algorithm
Jensen et al. Semi-supervised fuzzy-rough feature selection
El Barbary et al. Feature selection for document classification based on topology
CN116362236A (zh) 一种目标词挖掘方法及装置、存储介质
Mathur et al. A graph-based recommender system for food products
Ouvrard et al. Hypergraph modeling and visualisation of complex co-occurence networks
Rădulescu et al. Enhancing scientific collaborations using community detection and document clustering
Kousari et al. Improvement of mining fuzzy multiple-level association rules from quantitative data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161012

RJ01 Rejection of invention patent application after publication