CN108228607B - 基于连通度的最大频繁项集挖掘方法 - Google Patents

基于连通度的最大频繁项集挖掘方法 Download PDF

Info

Publication number
CN108228607B
CN108228607B CN201611154069.5A CN201611154069A CN108228607B CN 108228607 B CN108228607 B CN 108228607B CN 201611154069 A CN201611154069 A CN 201611154069A CN 108228607 B CN108228607 B CN 108228607B
Authority
CN
China
Prior art keywords
item
frequent item
item set
connectivity
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611154069.5A
Other languages
English (en)
Other versions
CN108228607A (zh
Inventor
郭鹏
孙允明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201611154069.5A priority Critical patent/CN108228607B/zh
Publication of CN108228607A publication Critical patent/CN108228607A/zh
Application granted granted Critical
Publication of CN108228607B publication Critical patent/CN108228607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

随着计算机和因特网技术的迅猛发展,从各种各样应用中收集到的数据量越来越庞大,从海量数据中挖掘出有价值的信息和知识已经成为数据挖掘研究领域中的重要任务之一。针对当前最大频繁项集挖掘方法挖掘效率不高的问题,提出一种基于连通度的最大频繁项集挖掘方法,扫描事务数据库生成有序的事务集并构造出ppc‑tree、根据事务数据库中项与项之间的连通度缩小最大频繁项集挖掘时的搜索空间、超集检测并生成最大频繁项集的集合。本方法在空间复杂度不增加的情况下,有效提升最大频繁项集的挖掘效率。

Description

基于连通度的最大频繁项集挖掘方法
技术领域
本发明涉及一种数据挖掘方法,更特别地说,是一种基于连通度的最大频繁项集挖掘方法
背景技术
近年来开展了最大频繁项集挖掘的各类算法,虽然在数据组织、处理流程等方面各有不同,但主要分为两类,如表1所示。
产生候选集的典型算法为Aprioror,该类算法以产生候选集为基础,再通过扫描数据库排除不满足最小支持度的项集来搜索最大频繁项集。
不产生候选集的算法有基于FP-tree有效挖掘最大频繁项集的算法,该类算法主要以FP-tree、ppc-tree、poc-tree为基础,通过结点支持列表的方法来搜索最大频繁项集。
基于层次的典型算法有基于层次的最大频繁项集挖掘算法,该类算法将数据库按照大小分为不同的层次来加速搜索最大频繁项集的过程。
表1典型最大频繁项集挖掘算法比较
类别 产生候选集 遍历数据库
1 产生 多次
2 不产生 一次
3 产生
从上述最大频繁项集挖掘算法的发展不难看出,最大频繁项集的产生方式主要分为产生候选集和不产生候选集两大类。前者主要是基于Aproior算法做出了一些改进,设法避免产生重复的候选集或者加快候选集的产生;后者主要是基于FP-tree算法做出了相关的改进。其中增加结点上保存的相关信息可以提高算法的效率,基于ppc-tree的算法增加了结点在数据库中的前后关系,而基于poc-tree的算法则在基于ppc-tree的算法上只保留前序关系或者后序关系,减少了一半的空间代价。在最大频繁项集挖掘算法研究不断发展中,算法的效率是在不断地提高,但依然有进一步提高的空间。
发明内容
1.本发明的目的:
通过对现有典型最大频繁项集挖掘相关算法的归纳不难发现,现有的基于FP-tree的算法都是通过按项的支持度对数据库中的项进行排序然后生成已挖掘的最大频繁项集的超集,再进行超集检测,但是忽略了项与项在数据库事务中的关系。基于项与项在数据库事务中的关系对最大频繁项集挖掘的相关算法进行改进是本发明的主要动机。
2.本发明的技术方案:
为了实现上述发明目的,本发明采用的技术方案为:基于连通度的最大频繁项集挖掘方法。
基于连通度的最大频繁项集挖掘过程主要分为三步:扫描事务数据库生成有序的事务集并构造出ppc-tree、根据事务数据库中项与项之间的连通度缩小最大频繁项集挖掘时的搜索空间、超集检测并生成最大频繁项集的集合。包括以下步骤:
步骤1扫描事务数据库生成有序的事务集并构造出ppc-tree
扫描一遍事务数据库,得到事务数据库中的每一个项的支持度,将事务数据库中的所有项按照支持度的降序排列。然后,再将事务数据库中的事务按照上述降序重新排列得到一个新的有序的事务集。此事务集中的每一项都按照事务数据库中的每一项的支持度的降序排列。
根据得到的新的事务集构造一棵ppc-tree来表示原有的事务数据库,ppc-tree的每一个分支都表示了事务数据库中的一个事务,一个分支中的父子结点则表示了其代表项的支持度的大小关系。
步骤2根据项与项之间的连通度缩小搜索空间
扫描数据库,得到事务数据库中的任意一项与其它项的连通度,将事务数据库中的项按照连通度从大到小的顺序排序。在最大频繁项集搜索过程中,可以根据项的连通度确定出该项一定不能加入已知的最大频繁项集或者该项可以加入已知的最大频繁项集,然后再用超集检测的方法确定加入了新项的集是否满足最大频繁项集的要求。
当已知的最大频繁项集R的长度为N,另一个不属于R的项i的连通度若小于N,那么项集R∪{i}就一定不是最大频繁项集,所以在最大频繁项集的挖掘过程中就不用考虑项集R∪{i}。
利用上述性质,可以大大减少最大频繁项集挖掘过程中需要考察的项集数量,提高了算法的效率。
步骤3超集检测并生成最大频繁项集的集合
上述过程可以避免搜索过程中,搜索那些根本不可能是最大频繁项集的顶集。最终生成的项集再使用超集检测的方法确定它是一个最大频繁项集。最后,生成的所有最大频繁项集的集合便是最大频繁项集挖掘的最终结果。
3.发明的效果:
本发明引入了事务数据库中项的连通度的概念,提出一种基于事务数据库中的项的连通度的最大频繁项集的挖掘算法,在传统挖掘最大频繁项集的基础上,基于事务数据库中的项的连通度的最大频繁项集的挖掘方法在保证挖掘出来的最大频繁项集不冗余不遗漏的前提下,可以相对更快速。
附图说明
图1基于连通度的最大频繁项集挖掘方法流程图
图2根据数据库构造的ppc-tree
图3 ppc-tree中的每一个结点的n-list
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实例对本发明作进一步的详细描述。所举实例只用于解释本发明,并非用于限定本发明的范围。为了解释方便,所取实例较为简单,未能充分体现本发明的优势,但在实际的应用过程中,本发明与现有的方法相比,具有明显优势。
设I={i1,i2,…,in}是n个不同项目的集合.如果对一个集合X,有:
Figure GDA0003066561580000031
且k=|X|,则X称为k项集,或者简单地称为一个项集.记D为事务T的集合,
Figure GDA0003066561580000032
对于给定事务数据库D,定义X的支持度为D中包含X的事务个数,记为Sup(X).用户可自定义一个小于|D|的最小支持度,记为min_s。
定义1:给定事务数据库D和支持度min_s,对于项集
Figure GDA0003066561580000033
若Sup(X)≥min_s,则称X为D中的频繁项集。
定义2:给定事务数据库D和支持度min_s,对于项集
Figure GDA0003066561580000041
Sup(X)≥min_s,且对
Figure GDA0003066561580000042
均有Sup(Y)<min_s,则称X为D中的最大频繁项集。
性质1:任何频繁项集的真子集都不是最大频繁项集。
性质2:任何频繁项集的子集都是频繁项集。
定义3:ppc-tree是一个树结构:
(1)它包括一个根结点被标记为null,和一些项集作为根结点的前序遍历子树。
(2)子树中的每一个结点都包括4个域:名字、支持度、孩子列表、前序序号。名字代表了此结点代表的项集;支持度表示此结点所代表的项集在事务数据库中的支持度、孩子列表表示了此结点的所有孩子结点、前序序号表示该结点在ppc-tree中前序遍历的位置。
定义4:对于每个结点N,我们将(N.pre-order:count)称作结点N的poc-code。
定义5:如果事务数据库中的一个项I1与其不包括自己在内的任意n项满足下面的关系时,我们称该项I1的连通度为n:
(1)当搜索到任意一个不包括自己在内的项I2与自己处在同一个事务中时,该项的连通度加一,并将I2收入I1的连通集中;
(2)当搜索到的任意一项I3属于I1的连通集时,保持项I1的连通度不变,继续向下搜索。
定理1:假设当前已经搜索到的最大频繁项集Fk的长度为k,事务数据库中的项的个数为N,那么满足下列条件时:
(1)项i是事务数据库中的一个元素,但是项i不属于已经搜索到的最大频繁项集Fk;
(2)项i在事务数据库中的连通度小于k;
项集Fk∪{i}一定不是最大频繁项集。
设给定的事务数据库DB为(如表2):
{a,c,g,f},{e,a,c,b},{e,c,b,i},{b,f,h},{b,f,e,c,d},{I2,I3},最小支持度域值min_sup为2。
步骤一:
扫描一遍数据库,得到事务数据库中的每个项的支持度,并按照降序排列得到的序列记为F1:
F1={b,c,e,a,f}
将事务数据库中的事务按照F1的顺序排列得到一个有序的事务集(如表3)。
根据表3中的Ordered Frequent Items构造出ppc-tree,如图1所示。
并且可以得到树中每个结点的n-list,如图2所示。
定理2:两个k项集A,B可以合并生成一个k+1项集C,当且仅当下列条件成立时,假设A={ixi2i3i4…ik},B={iyi2i3…ik}:
(1)集合A与集合B除去第一个无素外有相同的后缀且它们的前缀元素是不相同的。
(2)项集A的n-list和项集B的n-list满足条件:A.pre<B.pre^A.post>B.post,那么项集A和项集B可以合并生成k+1项集C={ixiyi2i3…ik}
(3)项集C满足最小支持度域值。
步骤二:
扫描一遍数据库,得到事务数据库中的每一个项的连通度,并按照连通度的降序排列,如表4所示。
步骤三:
考虑项集C={c,b}和项集D={k,b}。
项集C的n-list是{(6,4)},项集D的n-list是{(6,2)},按照定理2的条件,项集C和项集D是可以合并生成一个3项集{c,k,b}的,但是显而易见3项集{c,k,b}并不是一个频繁项集,它的支持度是0。
所以在定理2的基础上应用定理1,因为事务数据库中项k的连通度只有1,小于项集C和项集D的长度2,所以算法执行过程中可以根据定理1进行减枝,缩小搜索空间。
表2需要挖掘的事务数据库
ID Items
1 a,c,g,f
2 e,a,c,b
3 e,c,b,i
4 b,f,h
5 b,f,e,c,d
6 b,k
7 b,k
表3按照支持度降序排列的事务集
ID Item Ordered Frequent Items
1 a,c,g,f c,f,a
2 e,a,c,b b,c,e,a
3 e,c,b,i b,c,e
4 b,f,h b,f
5 b,f,e,cd b,c,e,f
6 b,k b,k
7 b,k b,k
表4按照项连通度降序排列的序列
c b e a f k
连通度 4 4 4 4 4 1

Claims (1)

1.一种基于连通度的最大频繁项集挖掘方法,其特征在于,包含以下步骤:
步骤1:扫描事务数据库生成有序的事务集并构造出ppc-tree:
1)扫描一遍事务数据库,得到事务数据库中的每一个项的支持度,将事务数据库中的所有项按照支持度的降序排列;然后,再将事务数据库中的事务按照上述降序重新排列得到一个新的有序的事务集;此事务集中的每一项都按照事务数据库中的每一项的支持度的降序排列;
2)根据得到的新的事务集构造一棵ppc-tree来表示原有的事务数据库,ppc-tree的每一个分支都表示了事务数据库中的一个事务,一个分支中的父子结点则表示了其代表项的支持度的大小关系;
步骤2:根据项与项之间的连通度缩小搜索空间:
1)扫描数据库,得到事务数据库中的任意一项与其它项的连通度,将事务数据库中的项按照连通度从大到小的顺序排序;在最大频繁项集搜索过程中,可以根据项的连通度确定出该项一定不能加入已知的最大频繁项集或者该项可以加入已知的最大频繁项集,然后再用超集检测的方法确定加入了新项的集是否满足最大频繁项集的要求;
2)当已知的最大频繁项集R的长度为N,另一个不属于R的项i的连通度若小于N,那么项集R∪{i}就一定不是最大频繁项集,所以在最大频繁项集的挖掘过程中不用考虑项集R∪{i};
利用上述性质,可以大大减少最大频繁项集挖掘过程中需要考察的项集数量,提高了算法的效率;
步骤3:超集检测并生成最大频繁项集的集合:
上述过程可以避免搜索过程中,搜索那些根本不可能是最大频繁项集的顶集;最终生成的项集再使用超集检测的方法确定它是一个最大频繁项集;最后,生成的所有最大频繁项集的集合便是最大频繁项集挖掘的最终结果。
CN201611154069.5A 2016-12-14 2016-12-14 基于连通度的最大频繁项集挖掘方法 Active CN108228607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611154069.5A CN108228607B (zh) 2016-12-14 2016-12-14 基于连通度的最大频繁项集挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611154069.5A CN108228607B (zh) 2016-12-14 2016-12-14 基于连通度的最大频繁项集挖掘方法

Publications (2)

Publication Number Publication Date
CN108228607A CN108228607A (zh) 2018-06-29
CN108228607B true CN108228607B (zh) 2021-10-15

Family

ID=62638570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611154069.5A Active CN108228607B (zh) 2016-12-14 2016-12-14 基于连通度的最大频繁项集挖掘方法

Country Status (1)

Country Link
CN (1) CN108228607B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188131B (zh) * 2019-06-03 2022-10-11 西北工业大学 一种频繁模式挖掘方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609528A (zh) * 2012-02-14 2012-07-25 云南大学 基于概率图模型的频繁模式关联分类方法
WO2013186980A2 (en) * 2012-06-12 2013-12-19 Sony Corporation Method, non-transitory computer readable storage medium, device and system
CN103678530A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种频繁项集快速检出的方法
CN104408127A (zh) * 2014-11-27 2015-03-11 无锡市思库瑞科技信息有限公司 基于深度优先的不确定数据最大模式挖掘方法
CN106095951A (zh) * 2016-06-13 2016-11-09 哈尔滨工程大学 基于负载均衡和查询日志的数据空间多维索引方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609528A (zh) * 2012-02-14 2012-07-25 云南大学 基于概率图模型的频繁模式关联分类方法
WO2013186980A2 (en) * 2012-06-12 2013-12-19 Sony Corporation Method, non-transitory computer readable storage medium, device and system
CN103678530A (zh) * 2013-11-30 2014-03-26 武汉传神信息技术有限公司 一种频繁项集快速检出的方法
CN104408127A (zh) * 2014-11-27 2015-03-11 无锡市思库瑞科技信息有限公司 基于深度优先的不确定数据最大模式挖掘方法
CN106095951A (zh) * 2016-06-13 2016-11-09 哈尔滨工程大学 基于负载均衡和查询日志的数据空间多维索引方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种高效频繁子图挖掘算法;李先通 等;《Journal of Software》;20071231;全文 *

Also Published As

Publication number Publication date
CN108228607A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
Angles A comparison of current graph database models
CN104462582B (zh) 一种基于结构和内容二级过滤的Web数据相似性检测方法
Chen et al. Mining frequent patterns in a varying-size sliding window of online transactional data streams
CN106126543B (zh) 一种关系型数据库到MongoDB的模型转换和数据迁移方法
Zhou et al. Fast SLCA and ELCA computation for XML keyword queries based on set intersection
Wang et al. Clan: An algorithm for mining closed cliques from large dense graph databases
CN105320756A (zh) 一种基于改进Apriori算法的数据库关联规则挖掘方法
Yun et al. Mining recent high average utility patterns based on sliding window from stream data
CN112287118B (zh) 事件模式频繁子图挖掘与预测方法
Al Aghbari et al. On clustering large number of data streams
Apiletti et al. Pampa-HD: A parallel MapReduce-based frequent pattern miner for high-dimensional data
Feng et al. UT-Tree: Efficient mining of high utility itemsets from data streams
CN108228607B (zh) 基于连通度的最大频繁项集挖掘方法
Rao et al. An approach to merging of two community subgraphs to form a community graph using graph mining techniques
Song et al. Mining multi-relational high utility itemsets from star schemas
Lin et al. Mining of high average-utility patterns with item-level thresholds
Iqbal et al. TKFIM: Top-K frequent itemset mining technique based on equivalence classes
Prabha et al. A survey on closed frequent pattern mining
Van et al. An expanded prefix tree-based mining algorithm for sequential pattern maintenance with deletions
Maw An improvement of FP-growth mining algorithm using linked list
Li et al. A novel approach for mining probabilistic frequent itemsets over uncertain data streams
CN106407296B (zh) 基于预判筛选的局部扫描关联规则计算机数据分析方法
Shan et al. A subgraph query method based on adjacent node features on large-scale label graphs
Li et al. Generating closed frequent itemsets with the frequent pattern list
Raj et al. Mining frequent temporal structures in web graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant