CN102096719A - 一种基于图的存储模式挖掘方法 - Google Patents

一种基于图的存储模式挖掘方法 Download PDF

Info

Publication number
CN102096719A
CN102096719A CN2011100409630A CN201110040963A CN102096719A CN 102096719 A CN102096719 A CN 102096719A CN 2011100409630 A CN2011100409630 A CN 2011100409630A CN 201110040963 A CN201110040963 A CN 201110040963A CN 102096719 A CN102096719 A CN 102096719A
Authority
CN
China
Prior art keywords
limit
pattern
frequency
fragment
frequent mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011100409630A
Other languages
English (en)
Inventor
张敬亮
梁爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zhongke Bluewhale Information Technology Co ltd
Institute of Computing Technology of CAS
Original Assignee
Tianjin Zhongke Bluewhale Information Technology Co ltd
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Zhongke Bluewhale Information Technology Co ltd, Institute of Computing Technology of CAS filed Critical Tianjin Zhongke Bluewhale Information Technology Co ltd
Priority to CN2011100409630A priority Critical patent/CN102096719A/zh
Publication of CN102096719A publication Critical patent/CN102096719A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于图的存储模式挖掘方法,通过一次遍历将原始序列信息累积并压缩保存于频繁模式图中,再利用模式生长条件通过对频繁模式图中频繁子图的游历产生优化有效的模糊频繁子模式。通过图中拓扑对原始序列信息的保存避免了对序列的多次扫描;同时其利用频度模式简化挖掘目标,降低了挖掘开销,适合大规模数据密集应用的存储模式挖掘并支持在线流式挖掘。

Description

一种基于图的存储模式挖掘方法
技术领域
本发明涉及存储模式挖掘,尤其涉及基于图的存储模式挖掘方法。
背景技术
应用数据集及存储系统规模的不断扩大对模式分析的效率提出了极高的要求。但现有存储模式挖掘基于数据挖掘领域中的序列模式SP(Sequential Pattern)(参见SP定义)方法进行。现有挖掘方法的巨大开销使其难以在实际系统中应用。这是因为SP模式基于元素间相关性来定义,而对序列中相关性的挖掘是一个NP难题(NP-hard),随着问题规模增大,模式挖掘的时空性能急剧恶化。因而其对大规模数据密集型应用场景中的存储模式挖掘无能为力,更无法满足基于存储模式的实时优化需求。基于SP的存储模式挖掘方法的局限性表现为如下两个方面:
1.时空开销大:由于模式中松耦合关系的定义以及无法避免的对原始序列的多遍扫描,导致了相应的挖掘方法有很高的时空复杂度。更为严重的是,随着问题规模扩大,方法的时空开销会呈现指数剧增。因而对于大规模实际存储系统而言,以往挖掘方法的时空开销导致其基本无法应用。
2.无法支持在线流式挖掘:SP模式的挖掘方式为对序列数据库的整体挖掘而非增量式挖掘。因而在原始序列发生变化时不能在之前挖掘模式的基础上进行模式的增量更新挖掘。基于上述局限性,当前SP方法大都采用静态挖掘方式,将长时间累积的IO序列通过集中挖掘的方式来进行整体模式更新。在海量IO序列信息面前,集中模式挖掘的方式代价高昂,无法支持存储系统中实时在线优化的需求。
另外,与传统数据挖掘不同,存储模式挖掘的目标在于将模式应用于后续的性能优化,因而其不要求结果精确(比如频度精确),而只要对优化有效即可(频繁出现即可)。同时因为利用模式进行性能优化时模式挖掘处于IO关键路径中,因而要求模式挖掘的效率高且时空复杂度低。紧邻序列模式CISP(Contiguous Item Sequential Pattern)(参见CISP定义)的挖掘方法虽然对于SP模式进行了简化,但要求所挖掘出的模式频度也是精确的,虽然可以部分缩减挖掘空间,但其仍是类SP模式的挖掘方法,所以在对大规模数据密集型应用场景中的存储模式挖掘中仍然无法解决上述问题。
发明内容
本发明的目的在于克服上述现有技术的缺陷,提供一种适合大规模数据密集应用的存储模式挖掘方法,并且可以支持在线流式挖掘。
本发明的目的是通过以下技术方案实现的:
本发明提出了一种基于图的存储模式挖掘方法FPG-Grow(FrequentPattern Graph-Grow),包括以下步骤:
(a)基于原始序列来构建频繁模式图FPG(Frequent Pattern Graph),其中所述原始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素为先片段头元素的后继;边的频度,为此后继关系在原始序列中出现的总次数;
(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;
(c)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;
(d)重复步骤(b)(c)直到所有频度大于最小阈值的边都被访问过为止。
根据本发明优选实施例的基于图的存储模式挖掘方法,在所述步骤(a)中的所述频繁模式图是由原始序列和片段的长度唯一确定的,所述片段的长度可以根据实际应用模式的特点或用户需求进行设置,但必须是大于1的正整数。
根据本发明优选实施例的基于图的存储模式挖掘方法,在所述步骤(d)中的所述最小阈值可以根据实际应用模式的特点,用户需求或内存容量进行设置,但不应低于1。
根据本发明优选实施例的基于图的存储模式挖掘方法,在所述步骤(c)中的所述模式生长条件是指相邻的两条边的权重之和与这两条边的共同节点的所有边的权重总和之间的比值大于给定的阀值。在一些实施例中,所述给定的阀值是可设置的,但必须大于0.5。在本发明的优选实施例中所述给定的阀值为0.85。
根据本发明优选实施例的基于图的存储模式挖掘方法,所述步骤(a)基于原始序列来构建频繁模式图包括以下步骤:
(1)为原始序列设置滑动指针,指向原始序列的初始位置;
(2)从滑动指针所指原始序列位置截取长度为L的片段,将所述片段加入频繁模式图的节点集合,并设置该片段为频繁模式图的当前节点;
(3)滑动指针向前滑动一位;
(4)从滑动指针所指原始序列位置截取长度为L的片段,设置该片段为频繁模式图的后续节点;如果所述片段不在频繁模式图的节点集合中,则将所述片段加入频繁模式图的节点集合;
(5)当前节点与该后续节点之间形成自然连边,如果所述边不在频繁模式图的边集合中,则将所述边加入频繁模式图的边集合;如果所述边已在频繁模式图的边集合中,则将边的频度加1;
(6)将该后续节点设置为当前节点;滑动指针向前滑动一位;
(7)重复上述(4)(5)(6)步骤直到滑动指针指向原始序列的末尾。
在一些实施例中,在所述步骤(b)之前还包括频度排序步骤,对所述频繁模式图中的所有的边按其频度进行排序,得到有序的边序列。
根据本发明优选实施例的基于图的存储模式挖掘方法,所述频度排序步骤是对频繁模式图中的所有的边按其频度进行逆排,得到逆排序的边序列。
与现有技术相比,本发明的上述实施例中的存储模式挖掘方法FPG-Grow创新性地采用频繁模式图结构FPG来对存储模式进行挖掘,通过图中拓扑对原始序列信息的保存避免了对序列的多次扫描;同时FPG-Grow通过模式简化有效降低模式挖掘的复杂度,此挖掘方法的复杂度为O(n)的,而传统的SP模式挖掘方法复杂度是近似O(n2);其利用模糊频度模式简化挖掘目标,避免了频度检验带来的效率损失,实现了挖掘性能的巨大提升;最后FPG-Grow采用了基于频繁图的累积式数据结构,从其挖掘过程可看出模式挖掘时FPG是增量更新的,同时在任一模式生长状态可以依据NGC条件沿边得到频繁模式,因而可支持模式的流式挖掘及基于此模式的实时在线优化。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明实施例的示例序列构建的FPG图;
图2是根据本发明实施例的示例序列频度逆排后的FPG图;
图3是根据本发明实施例的示例序列的模式生长的第一步示意图;
图4是根据本发明实施例的示例序列的模式生长的第二步示意图;
图5是根据本发明实施例的示例序列模式生长的第三步示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在介绍具体实施例之前,首先对本发明所涉及的几个概念进行定义:
1.SP定义:
定义1.1非空集合I={i1,i2,...,im}称为项集,其中ik(k=1,...,m)称为项。
定义1.2序列是项集的有序排列子集,记为α=<a1,a2,...,an>,其中ai(i=1,...,n)为项集,称为序列的元素。含有k个项的序列长度为k=∑|ai|,称为k-序列。
定义1.3令序列α=<a1,a2,...,an>,序列β=<b1,b2,...,bm>,若存在整数1≤i1<i2<...<in≤m,使得
Figure BDA0000047243560000041
则称序列α是序列β的子序列,即
Figure BDA0000047243560000042
定义1.4所有序列构成的序列集合称为序列数据库。序列数据库中相同子序列出现的次数称为该子序列的支持度。
定义1.5支持度大于最小支持度(min_sup)的序列模式称为序列模式(SP)。
2.CISP定义:
定义2.1令序列α=<a1,a2,...,an>,序列β=<b1,b2,...,bm>,m≥n,若存在整数i,1≤i≤m-n+1,使得a1=bi,a2=bi+1,...,an=bi+n-1,则称序列α是序列β的邻接子序列,即
定义2.2给出两个序列p和s,p出现在s中的总次数我们称为p在s中的支持度sups(p)。
定义2.3给定一个最小支持度min_sup,如果sups(p)≥min_sup,则称p为s的一个紧邻序列模式(CISP)。
3.FPG定义
定义3.1:给定一个序列S,构造图G如下:G的节点集合为S中所有不同元素的集合。如果S中元素A的后继为元素B(元素A出现在元素B之前),则G中必存在一条A→B的有向边,且边的权重为此后继关系在S中出现的总次数。我们称G为序列S的访问图(Access Graph:AG)。AG其由序列S唯一确定。
定义3.2:给定一个序列S则S中长度为L的子序列称为S的一个片段(slice)。S中所有长度为L的不同片段构成S的片段集合。其中L称为slice长度。
定义3.3:设a,b为序列S中元素,如果a的后继为b,且以a为前缀的片段为A,以b为前缀的片段为B,则称片段B为S中片段A的后继。
定义3.4:给定一个序列S及片段长度L,构造图G(S,L)如下:G的节点集合由S长度为L的片段集合构成。如果片段A的后继为片段B,则G中必存在一条A→B的有向边,且边的权重为此后继关系在S中出现的总次数。则称G(S,L)为序列S在片段长度为L时的频繁模式图FPG(Frequent Pattern Graph)。其由序列S及L唯一确定。
定义3.5:设e为FPG中一条边,则sup(e)表示此边在FPG中的权重;边ei与ej为相邻边,这两条边的共同节点n∈FPG,IN(n)表示所有流入节点n的边集合,OUT(n)表示所有流出节点n的边集合;给定DC(DominatingCriterion)作为判断边在所有分支中支配程度的度量。定义DC如下:
DC = sup ( e j ) + sup ( e i ) &Sigma; e k &Element; OUT ( n ) sup ( e k ) + &Sigma; e k &Element; IN ( n ) sup ( e k )
给定一个阈值d,则当DC>d时,我们称边ei与ej满足模式生长条件NGC(Naturally Grow Condition)。满足NGC可得到如下推论:
(1)保证边ei及ej的频度在节点n的边的总频度中有较高比重。
(2)同时保证ei与ej的频度差别较小,较为均衡。
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
对传统数据挖掘而言,其要求挖掘模式频度是精确的,而对存储模式而言,只要模式是频繁的,多次出现的,则其对后续的性能优化就是有效地,因而无需要求频度严格。同时因为利用模式进行性能优化时模式挖掘处于IO关键路径中,因而要求模式挖掘的效率高且时空复杂度低。因此本发明的挖掘方法所挖掘的模式是并非精确频度模式,准确说是近似频度模式,也称为模糊频度模式。在本发明的实施例中提供的存储模式挖掘方法中存在频度损失,但考虑存储模式挖掘的目标在于将模式应用于后续的性能优化,所以其不要求结果精确(比如频度精确),而只要对优化有效即可(频繁出现即可),因此优化时有效性则可容忍此频度损失,从而可避免耗时的精确频度验证过程。
在本发明的一些实施例中的基于图的存储模式挖掘方法FPG-Grow,包括以下步骤:首先基于原始序列来构建频繁模式图FPG(参见FPG定义),通过一次遍历将原始序列S的信息累积并压缩保存于FPG图中;其次,依次对所述频繁模式图中的边执行模式生长步骤,直到所有频度大于最小阈值的边都被访问过为止。其中所述模式生长步骤还包括以下步骤:从频繁模式图中未被访问的边集合中选取频度最高的边;沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止。
在本发明的一些实施例中在依次对FPG的边执行模式生长步骤之前可以先对频繁模式图FPG中的所有的边按其频度进行排序,得到有序的边序列。排序操作尽管简单,但其可避免对FPG中大量低频区域的扫描而有效提高模式挖掘效率。在本发明的一些实施例中频度排序步骤是对频繁模式图中的所有的边按其频度进行逆排,得到逆排序的边序列。对边序列进行逆排可以提高挖掘效率,保证内存有限的情况下挖掘得到的模式是最有效(频繁)的。
在本发明的下述实施例中,最小阈值取1。但是本领域技术人员应当了解,在本发明的一些实施例中,上述最小阈值是可以根据实际应用模式的特点或者后续优化的需求来进行设置的,可以是任何不低于1的值。例如对于大量的具有重复模式的原始序列的挖掘,可以将最小阈值设置为10,20,30等。在本发明的其他一些实施例中最小阈值可以根据系统的内存容量来进行设置,例如FGP图比较大,但内存容量有限,则可以先对FGP中的边进行逆排序,得到逆排序的边序列,优先将高频边存入内存,将在内存中存放的FGP的有序边序列中的边的最小频度作为最小阈值,以保证内存有限的情况下挖掘得到的模式是最有效(频繁)的。
下面对结合附图对本发明提供的基于图的存储模式挖掘方法FPG-Grow的一个优选实施例进行详细的描述:
本实施例中以一个示例序列为例说明FPG-Grow的基本流程。
示例序列如下:
1wolf2tiger3wolf4lion5wolf6wolf7lion8tiger9lion
在本优先实施例中FPG-Grow方法分为FPG构建(FPG Create),频度逆排(Edge Sort)及模式生长(Pattern Grow)3个阶段。首先通过原始序列遍历生成FPG;然后将FPG中所有边按频度逆排选取频度高的边做为后续模式生长因子;最后在模式生长阶段通过不断的边扩展来完成模式的生长。
(1)FPG构建
在本实施例的存储模式挖掘方法的第一个阶段,首先要基于原始序列来构建频繁模式图FPG,这是进行后续模式挖掘的基础。其中,频繁模式图FPG是由原始序列S和片段的长度L唯一确定的;原始序列S是信息元素的有序集合,片段(slice)是原始序列S的子序列,FPG的节点集合是由具有长度L的片段的集合构成;FPG的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素为先片段头元素的后继,即两个片段仅有头尾元素不同,中间交叠部分相同;边的频度,即边的权重,为此后继关系在原始序列中出现的总次数;其中L为大于1的正整数。
FPG构建流程如下所示:
Figure BDA0000047243560000071
从以上描述可以看出,FPG图的建立通过对原始序列一次扫描完成。随着片段窗口依次向前滑动,将顺次从原始序列中截取片段。同时每一个片段成为FPG图中的一个节点,当前节点与后续产生节点间在FPG中形成一条自然连边。扫描时如果此边已经存在,则将其频度加1。以此类推,直到将整个序列扫描完成。则每两个节点间的前后继关系都存放在了FPG图中。FPG中信息为完整访问序列信息的子集。重复信息则会通过边的频度累加得到压缩。通过执行FPG_Create过程可以得到如图1所示的示例序列在片段长度L为2时的频繁模式图FGP。
在本实施例中片段的长度L取2;但是本领域技术人员应当了解,在本发明的一些实施例中,片段的长度L可以根据实际应用模式的特点,优化的需求或者用户需求进行设置,但至少应该大于1。例如用户希望挖掘比较长的模式,而忽略短模式,那么可以将片段的长度L的值设置的相对大一些。又例如,如果后续的优化只关注短模式或者实际应用中短模式占很大比例,则可以将片段的长度L的值设置的小一些。
(2)频度逆排
在对原始序列扫描构建出FPG图之后,在频度逆排阶段将FPG图中所有边按其频度进行逆排。逆排后的边序列将被用于后续的模式增长阶段。排序操作尽管简单,但其可避免对FPG中大量低频区域的扫描而有效提高模式挖掘效率。图1示例FPG中所有边按频度逆排后结果如图2左侧所示。由于只是为了示例的目的,图2左侧频度逆排后的边序列只列出了频度较高的边,省略了一部分频度为1的边。图2右侧FPG中边按频度比例进行加粗后可以直观地看到FPG中粗边构成的子图就为目标模式的生长区域。
(3)模式生长
在模式生长阶段,依次对所述频繁模式图中的边执行模式生长步骤,直到所有频度大于最小阈值的边都被访问过为止。针对本实施例中的示例序列,最小阈值设置为1。模式生长步骤是指从频繁模式图中未被访问的边集合中选取频度最高的边;沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;将上述步骤中访问过的边均标志为已访问。
其中模式扩展的判定条件为模式生长条件NGC(参见定义3.5)。边ei与ej为相邻边,这两条边的共同节点n,边ei与ej的权重之和与节点n的所有边的权重总和的比值作为判断边在所有分支中支配程度的度量DC(Dominating Criterion),给定一个阈值d,在本实施例中阈值d为0.85,则当DC>d时,称边ei与ej满足模式生长条件NGC。
DC = sup ( e j ) + sup ( e i ) &Sigma; e k &Element; OUT ( n ) sup ( e k ) + &Sigma; e k &Element; IN ( n ) sup ( e k )
其中,则sup(e)表示边在FPG中的权重;IN(n)表示所有流入节点n的边集合,OUT(n)表示所有流出节点n的边集合。利用NGC条件来保证边ei及ej的频度在节点n的所有边的总频度中有较高比重,即此2边为所有分支边中最粗的,可消除低频“毛边”影响;同时保证ei与ej的频度差别较小,较为均衡,即此两边频度相近,粗细近似,很大概率上是由频繁同时出现的序列产生。
模式生长流程如下所示:
Figure BDA0000047243560000092
Figure BDA0000047243560000101
下面依据模式生长方法,分步给出示例FPG中的模式增长过程(见图3,4,5)。在扫描时从链表头部取频度最高的边,再对应到图中相应位置进行模式增长,当不满足NGC截止生长时,重新从未访问过的链表头部取频度最高边作为生长因子重新进行生长过程。如图3所示,选取频度最高的边wo→ol作为模式生长因子:
首先边wo→ol与其每条前继边具有共同节点wo,根据定义3.5计算每条前继边的DC值,例如,边3w→wo的DC值
DC=(sup(3w→wo)+sup(wo→ol))/(sup(3w→wo)+sup(5w→wo)+sup(1w→wo)+sup(6w→wo)+sup(wo→ol))=(1+4)/(1+1+1+1+4)=0.625;
在本实施例中阈值d为0.85;在本发明的一些实施例中阈值d是可设置的,但必须大于0.5,在本发明的优先实施例中d取0.85,对实际存储模式的挖掘较为合适。可见,边3w→wo的DC<d,因此边3w→wo与边wo→ol不满足模式生长条件NGC。类似地根据定义3.5可以计算出边5w→wo的DC值为0.625;边1w→wo的DC值为0.625;边6w→wo的DC值为0.625;以上边wo→ol的每条前继边都不满足NGC条件。
其次对wo→ol与其每条后继边具有共同节点ol,根据定义3.5计算每条后继边的DC值,例如,边ol→lf的DC值
DC=(sup(wo→ol)+sup(ol→lf))/(sup(wo→ol)+sup(ol→lf))=(4+4)/(4+4)=1;
可见,边ol→lf的DC>d,因此边wo→ol与边ol→lf满足模式生长条件NGC,因此可以生长出模式wolf;
然后,沿边ol→lf继续进行模式生长,与边ol→lf有共同节点lf的每条后继边继续按照上述方法计算对应的DC值,边lf→f4的DC值为0.625,边lf→f2的DC值为0.625,边lf→f7的DC值为0.625,边lf→f6的DC值为0.625,由于边ol→fl所有后继边的DC值均小于阀值d,均不能满足模式生长条件NGC,因此第一步的模式生长到此终止,生长出模式wolf,将上述步骤中所涉及的所有边均标识为已访问。
继续从未被访问的边集合中选取频度最高的边重复执行上述模式生长步骤。如图4所示在第2步生长中,从未被访问过的链表头部优先选取频度最高边作为生长因子重新进行生长,以边li→io作为模式生长因子可生长出模式lion;如图5所示在第3步生长中,选取ti→ig为模式生长因子,最后经过两步生长得到模式tiger。将上述步骤中所涉及的所有边均标识为已访问。因为未被访问的边序列中边的频度不满足大于最小阈值1的条件,所以模式生长过程终止。所有模式被挖掘出后,对应得到如图5所示的一个FGP的频繁模式子图。
从上面的步骤可以看出NGC的目标就是将频度近似的模式边聚合为一个整模式,同时以此条件来消除伪连接边。直观的说就是将近似粗细的边从图中摘出来做为挖掘结果。NGC可以保证模式生长在合适的地方终止,同时保证生长出的模式与原始序列中包含的频繁模式相一致。利用NGC进行模式生长时一方面可保证得到频度一致性好的长模式;另一方面可保证同一区域的不同模式在生长时不会产生混杂和割裂。
可见,利用NGC条件挖掘虽然存在一定的频度损失,其挖掘的目标并非类似传统技术中的精确的频度模式而是近似频度模式,也可以称为模糊频度模式,但可以满足存储模式挖掘的要求,保证存储模式有效性的同时保证挖掘效率,其利用模糊频度模式简化挖掘目标,避免了频度检验带来的效率损失,实现了挖掘性能的巨大提升。
如上所述,可将本发明的上述实施例中提供的FPG-Grow的方法本质总结为:通过一次遍历以匹配片段(slice)的形式将原始序列信息累积并压缩保存于频繁模式图FPG中,再通过对FPG中频繁子图的游历产生对后续优化有效的模糊频繁模式。
与之前基于SP相关性的存储模式挖掘方法不同,本发明上述实施例中提供的存储模式挖掘方法,通过对存储模式挖掘目标进行简化,挖掘不要求准确精度的近似模式,即模糊频繁模式,极大了降低了模式挖掘的复杂度。同时在模式挖掘时基于存储模式特性对算法及数据结构进行了针对性地设计,其创新性地采用频繁模式图结构FPG来对存储模式进行挖掘,通过图中拓扑对原始序列信息的保存避免了对序列的多次扫描;其利用模糊频度模式简化挖掘目标,避免了频度检验带来的效率损失;相比之前方法,FPG-Grow通过模式简化和高效算法设计两方面实现了挖掘性能的巨大提升。
挖掘开销的显著降低使FPG-Grow具备了挖掘大规模IO访问序列痕迹(trace)(指对存储系统中IO行为的追踪记录)的实际可行性,使大规模存储系统中应用基于模式的优化技术成为可能;同时FPG-Grow采用累积式数据结构,可有效支持流模式挖掘及基于模式的实时在线性能优化。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (9)

1.一种基于图的存储模式挖掘方法,其特征在于包括下列步骤:
(a)基于原始序列来构建频繁模式图,其中所述原始序列是信息元素的有序集合;所述频繁模式图的节点集合是由具有相同长度的片段的集合构成的,所述片段是原始序列的子序列,所述频繁模式图的边是有后继关系的两个片段之间的有向边,所述有后继关系的两个片段是指后片段的头元素分别为先片段头元素的后继;边的频度,为此后继关系在原始序列中出现的总次数;
(b)从所述频繁模式图中未被访问的边集合中选取频度最高的边;
(c)沿所述频度最高的边向两侧进行模式扩展,直到不能满足模式生长条件为止;
(d)重复步骤(b)(c)直到所有频度大于最小阈值的边都被访问过为止。
2.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于在所述步骤(a)中的所述频繁模式图是由原始序列和片段的长度唯一确定的,所述片段的长度可以根据实际应用模式的特点或用户需求进行设置,但必须是大于1的正整数。
3.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于在所述步骤(d)中的所述最小阈值可以根据实际应用模式的特点,用户需求或内存容量进行设置,但不应低于1。
4.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于在所述步骤(c)中的所述模式生长条件是指相邻的两条边的权重之和与这两条边的共同节点的所有边的权重总和之间的比值大于给定的阀值。
5.根据权利要求4所述的基于图的存储模式挖掘方法,其特征在于所述给定的阀值是可设置的,但必须大于0.5。
6.根据权利要求4所述的基于图的存储模式挖掘方法,其特征在于所述给定的阀值为0.85。
7.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于所述步骤(a)基于原始序列来构建频繁模式图包括以下步骤:
(1)为原始序列设置滑动指针,指向原始序列的初始位置;
(2)从滑动指针所指原始序列位置截取长度为L的片段,将所述片段加入频繁模式图的节点集合,并设置该片段为频繁模式图的当前节点;
(3)滑动指针向前滑动一位;
(4)从滑动指针所指原始序列位置截取长度为L的片段,设置该片段为频繁模式图的后续节点;如果所述片段不在频繁模式图的节点集合中,则将所述片段加入频繁模式图的节点集合;
(5)当前节点与该后续节点之间形成自然连边,如果所述边不在频繁模式图的边集合中,则将所述边加入频繁模式图的边集合;如果所述边已在频繁模式图的边集合中,则将边的频度加1;
(6)将该后续节点设置为当前节点;滑动指针向前滑动一位;
(7)重复上述(4)(5)(6)步骤直到滑动指针指向原始序列的末尾。
8.根据权利要求1所述的基于图的存储模式挖掘方法,其特征在于所述步骤(b)之前还包括频度排序步骤,对所述频繁模式图中的所有的边按其频度进行排序,得到有序的边序列。
9.根据权利要求8所述的基于图的存储模式挖掘方法,其特征在于所述频度排序步骤是对频繁模式图中的所有的边按其频度进行逆排,得到逆排序的边序列。
CN2011100409630A 2011-02-18 2011-02-18 一种基于图的存储模式挖掘方法 Pending CN102096719A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011100409630A CN102096719A (zh) 2011-02-18 2011-02-18 一种基于图的存储模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011100409630A CN102096719A (zh) 2011-02-18 2011-02-18 一种基于图的存储模式挖掘方法

Publications (1)

Publication Number Publication Date
CN102096719A true CN102096719A (zh) 2011-06-15

Family

ID=44129814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011100409630A Pending CN102096719A (zh) 2011-02-18 2011-02-18 一种基于图的存储模式挖掘方法

Country Status (1)

Country Link
CN (1) CN102096719A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559016A (zh) * 2013-10-23 2014-02-05 江西理工大学 一种基于图形处理器并行计算的频繁子图挖掘方法
CN103699550A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
CN106649609A (zh) * 2016-11-29 2017-05-10 郑州云海信息技术有限公司 一种基于cpu+mic的序列模式挖掘方法及流程
CN106844736A (zh) * 2017-02-13 2017-06-13 北方工业大学 基于时空网络的时空同现模式挖掘方法
CN107885797A (zh) * 2017-10-27 2018-04-06 中国科学院信息工程研究所 一种基于结构相关性的多模式图匹配方法
CN108319600A (zh) * 2017-01-16 2018-07-24 华为技术有限公司 一种数据挖掘方法及装置
CN109101570A (zh) * 2018-07-17 2018-12-28 东南大学 一种基于图摘要的图模式挖掘方法
WO2019028710A1 (zh) * 2017-08-09 2019-02-14 深圳清华大学研究院 基于图结构数据的候选项集支持度计算方法及其应用
CN115994374A (zh) * 2023-03-23 2023-04-21 汶上县金源物流有限公司 一种物流流转分拣信息管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627292A (zh) * 2003-12-12 2005-06-15 叶飞跃 一种自适应快速关联规则挖掘算法
CN101976313A (zh) * 2010-09-19 2011-02-16 四川大学 基于频繁子图挖掘的异常入侵检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627292A (zh) * 2003-12-12 2005-06-15 叶飞跃 一种自适应快速关联规则挖掘算法
CN101976313A (zh) * 2010-09-19 2011-02-16 四川大学 基于频繁子图挖掘的异常入侵检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《电子学报》 20070831 刘波等 《基于频繁模式图的多维关联规则挖掘算法研究》 第1612-1616页 1-9 第35卷, 第8期 *
ZHANG JING-LIANG等: "FPG-Grow:A Graph based Pattern Grow algorithm for application level IO pattern mining", 《2010 FIFTH IEEE INTERNATIONAL CONFERENCE ON NETWORKING, ARCHITECTURE, AND STORAGE》 *
ZHANG JING-LIANG等: "FPG-Grow:A Graph based Pattern Grow algorithm for application level IO pattern mining", 《2010 FIFTH IEEE INTERNATIONAL CONFERENCE ON NETWORKING, ARCHITECTURE, AND STORAGE》, 17 July 2010 (2010-07-17), pages 311 - 315 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699550A (zh) * 2012-09-27 2014-04-02 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
CN103699550B (zh) * 2012-09-27 2017-12-12 腾讯科技(深圳)有限公司 数据挖掘系统及数据挖掘方法
CN103559016A (zh) * 2013-10-23 2014-02-05 江西理工大学 一种基于图形处理器并行计算的频繁子图挖掘方法
CN103559016B (zh) * 2013-10-23 2016-09-07 江西理工大学 一种基于图形处理器并行计算的频繁子图挖掘方法
CN106649609A (zh) * 2016-11-29 2017-05-10 郑州云海信息技术有限公司 一种基于cpu+mic的序列模式挖掘方法及流程
CN108319600A (zh) * 2017-01-16 2018-07-24 华为技术有限公司 一种数据挖掘方法及装置
CN108319600B (zh) * 2017-01-16 2021-01-08 华为技术有限公司 一种数据挖掘方法及装置
CN106844736A (zh) * 2017-02-13 2017-06-13 北方工业大学 基于时空网络的时空同现模式挖掘方法
CN106844736B (zh) * 2017-02-13 2021-07-16 北方工业大学 基于时空网络的时空同现模式挖掘方法
WO2019028710A1 (zh) * 2017-08-09 2019-02-14 深圳清华大学研究院 基于图结构数据的候选项集支持度计算方法及其应用
US10776372B2 (en) 2017-08-09 2020-09-15 Research Institute Of Tsinghua University In Shenzhen Method for computing support of itemset candidate based on graph structure data and application thereof
CN107885797A (zh) * 2017-10-27 2018-04-06 中国科学院信息工程研究所 一种基于结构相关性的多模式图匹配方法
CN109101570A (zh) * 2018-07-17 2018-12-28 东南大学 一种基于图摘要的图模式挖掘方法
CN115994374A (zh) * 2023-03-23 2023-04-21 汶上县金源物流有限公司 一种物流流转分拣信息管理方法及系统

Similar Documents

Publication Publication Date Title
CN102096719A (zh) 一种基于图的存储模式挖掘方法
CN103473171B (zh) 一种基于函数调用路径的覆盖率动态跟踪方法及装置
Leung et al. CanTree: a tree structure for efficient incremental mining of frequent patterns
CN104408584B (zh) 一种交易关联性的分析方法及系统
CN109711106A (zh) 一种集输管网优化方法及装置
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN106202205A (zh) 基于内存计算框架和长短周期兴趣迁移及融合模型的音乐推荐方法
CN106528589A (zh) 数据管理方法及装置
Klunder et al. The shortest path problem on large‐scale real‐road networks
CN102880684A (zh) 基于日志记录挖掘与组合验证的工作流建模方法
CN106203631A (zh) 描述型多维度事件序列的并行频繁情节挖掘方法与系统
Min et al. Symmetric continuous subgraph matching with bidirectional dynamic programming
CN105138650A (zh) 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
CN106640547A (zh) 监测风电机组状态的方法及系统
CN1632792A (zh) 一种基于xml数据的高效路径索引方法
Anwar et al. An effective streamline history matching technique
CN116822628A (zh) 一种基于优化知识图谱的犯罪团伙挖掘分析方法
Italiano et al. Maintaining spanning trees of small diameter
CN110807061A (zh) 一种基于分层搜索不确定图的频繁子图的方法
Aydin et al. Discovering spatiotemporal event sequences
CN110427341A (zh) 一种基于路径排序的知识图谱实体关系挖掘方法
CN102982146B (zh) 一种地理实体拓扑关系的代数结构表达方法
CN105389337A (zh) 用于统计显著性模式的搜索大数据空间的方法
Margret et al. Frequent Pattern Mining Using Db-Scan Algorithm.
YILDIRIM et al. FIMHAUI: Fast incremental mining of high average-utility itemsets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110615