CN102306183A - 一种对事务数据流进行闭合加权频繁模式挖掘的方法 - Google Patents

一种对事务数据流进行闭合加权频繁模式挖掘的方法 Download PDF

Info

Publication number
CN102306183A
CN102306183A CN201110252777A CN201110252777A CN102306183A CN 102306183 A CN102306183 A CN 102306183A CN 201110252777 A CN201110252777 A CN 201110252777A CN 201110252777 A CN201110252777 A CN 201110252777A CN 102306183 A CN102306183 A CN 102306183A
Authority
CN
China
Prior art keywords
closed
tree
node
window
cwfp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201110252777A
Other languages
English (en)
Other versions
CN102306183B (zh
Inventor
王洁
曾宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201110252777.3A priority Critical patent/CN102306183B/zh
Publication of CN102306183A publication Critical patent/CN102306183A/zh
Application granted granted Critical
Publication of CN102306183B publication Critical patent/CN102306183B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大规模数据流上的闭合加权频繁模式挖掘方法DS_CWFP。DS_CWFP方法以滑动窗口中的基本窗口为计算单位,先挖掘当前基本窗口中的局部潜在闭合加权频繁项集,在删除了过期窗口对滑动窗口的影响后,将局部闭合加权频繁项集及其子集按一定的规则动态更新到滑动窗口的全局DSCWFP结构中。复合的DSCWFP结构用来记录数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,降低了维护多个模式树的空间开销以及由于数据流数据不断变化带来的维护复杂度。同时在挖掘过程中,采用了项合并、子项集剪枝等策略。DS_CWFP算法仅需对流数据进行单遍扫描,并能够在有限的存储空间中高速挖掘数据流滑动窗口中的闭合加权频繁模式,具有较高的时空效率。

Description

一种对事务数据流进行闭合加权频繁模式挖掘的方法
技术领域
本发明涉及数据挖掘技术中的数据流频繁模式挖掘方法,具体涉及一种对事务数据流进行闭合加权频繁模式挖掘的方法。
背景技术
数据流是一类由高速到达的数据元素组成的无界数据序列。近年来,数据流广泛应用在多个领域,例如:网络流量监控、金融数据管理、传感器网络数据管理、web日志分析、移动对象数据管理、通信数据分析等。在这些应用中,发现事务数据流中的频繁模式具有重要的意义,例如:对应于异常流量的频繁报文可能意味着存在网络攻击;在大量的零销售记录中,频繁商品及其组合总是对应热门销售的商品以及它们之间的关联关系;在传感器网络数据管理中,发现传感器数据中的频繁模式可以有助于去估计那些丢失的数据值。
在加权频繁模式挖掘中,当最小加权支持度设置较小或数据集比较稠密时,会产生数量众多的频繁模式,将耗费大量的内存和I/O资源,也会给挖掘结果的分析者提取知识带来难度。针对Mushroom数据集的频繁模式挖掘实验表明,当最小支持度设置为0.1时,挖掘得到的频繁模式数量是574431,而闭合频繁模式数量是4885,由此可见闭合频繁模式可以显著减少频繁项集挖掘所产生的模式数量。
闭合频繁模式是频繁模式的一种压缩无损的替代表示形式,可以保持关于频繁项集的完整信息。从闭合频繁项集中可以推出频繁项集的集合以及它们的支持度,因此在频繁模式挖掘实践与应用中,相比加权频繁模式挖掘来说,挖掘闭合加权频繁模式更加具有实用意义。
发明内容
由于对于数据流的闭合加权频繁模式的挖掘更具有实用意义,且大规模数据中容易产生数量众多的频繁模式,本发明提出了一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP,该方法包括:
滑动窗口闭合加权频繁模式树创建步骤:闭合加权频繁模式树结构DSCWFP用来记录滑动窗口中数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,由三部分组成,一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表IHT以及一个哈希表,压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树,由一个根节点和若干由根节点引出的前缀子树组成,用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式,树中的节点代表从根节点的直接子节点到该节点路径对应的模式;项头表用来保存CWFP-Tree树中各数据项的相关信息;哈希表是一个二级哈希映射结构,用来进行加权频繁模式的闭合性检查;
基本窗口闭合加权频繁模式树创建步骤,在基本窗口中,所用的数据结构与DSCWFP相似,被命名为LCWFP,LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式,包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT,与DSCWFP中的CWFP-Tree相比,LCWFP-Tree只需处理当前基本窗口信息,因此省略了bw_list域;
当前基本窗中闭合加权频繁模式挖掘步骤,此过程包括以下步骤:(1)利用真实权值计算模式是否加权频繁;(2)根据局部哈希表进行子集检查以判断当前模式的闭合性;(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注,若LCWFP-Tree树中没有相对应的结点,则在树中增加一个虚结点若发现新的闭合加权频繁模式,并将新的闭合加权频繁模式信息加入局部哈希表中;
新到窗口处理步骤:对新到窗口的处理包括以下几个步骤:1)用新到数据生成当前基本窗的局部LCWFP结构;2)递归调用子过程,构造局部潜在闭合加权频繁模式集;3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中,局部CWFP-Tree生成后,方法通过对局部CWFP-Tree的一次遍历,可以过滤基本窗中大量低频数据,同时得到当前基本窗中潜在闭合加权频繁模式集;
过期窗口处理步骤:当新的基本窗到达时,滑动窗口中最早的基本窗口成为过期窗口,要删除过期窗口对滑动窗口的影响删除,并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中,删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响;如果某节点是闭合节点且在过期窗口中支持度计数不为0,则由于支持度计数减小改为非闭合节点;若为虚节点则应删除,同时更新哈希表;
全局CWFP-Tree结构更新步骤:当过期窗口被删除且对最新基本窗口的挖掘完成后,最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中,基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集,方法要将其更新到全局CWFP-Tree结构中;
闭合加权频繁模式挖掘步骤,采用自底向上深度优先遍历的递归方法,实现对滑动窗口内加权CWFP-Tree树的闭合加权频繁模式的挖掘。
更具体的,压缩前缀扩展树CWFP-Tree以下列方式生成,其中除了根结点外每个树结点主要拥有以下域:item_name表示该结点对应的项目名;sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数;node_parent为指向该结点父结点的指针;refined_weight记录该结点对应模式的修订权值;node_link链接到树中具有相同项目名称的下一个结点,若下一个结点不存在,则为null;iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式,值为true表示是,否则为false;closed_sup若该结点为闭合模式所包含的项,则值为闭合模式的支持度计数,否则为0;如果多个闭合模式有相同的前缀,则前缀中结点的这个域的值取其前缀中支持度最高的值;isvnd反映该结点是否是一个虚结点,值为true表示是,否则为false;cl_link如果该结点对应闭合模式,则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点,若下一结点不存在,则为null;bw_list是长度为n的列表,n为滑动窗口内包含的基本窗口的数目,列表中的元组表示为<cnt,refined_weight>,分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值;
更具体的,所述项头表IHT生成如下:记录各数据项在滑动窗口内的支持度计数,其中每个元素包含以下5个域:item_name表示项目名称;sup_count表示该项在当前滑动窗口内的支持度总计数;weight存储该项目的权值;refined_weight记录该节点对应模式的修订权值;headpoint指向模式树中与item_name对应的第一个节点的指针;
更具体的,哈希表是一个两级索引结构的hash表,用来保存指向CWFP-Tree前缀树中闭合加权频繁模式结点的指针,其中第一级以闭合模式的最后一项作为索引关键字,第二级以闭合加权频繁模式的支持度作为索引关键字,即采用<闭合模式的最后一项,支持度>作为索引关键字;
更具体的,全局CWFP-Tree结构更新以下规则进行处理:对基本窗中局部模式树中的每个潜在闭合加权频繁模式集中的模式P,计算其全局加权频繁支持度,若P在滑动窗口内是加权频繁的,因此更新到全局CWFP结构时,不必进行闭合性检查,直接将其作为结果更新到全局CWFP-Tree及哈希表即可,否则P是候选结果;同时P的子集也作为全局候选结果更新到CWFP结构;当已经将当前基本窗口潜在闭合加权频繁模式更新到全局CWFP结构,删除当前基本窗口的LCWFP结构。
附图说明
图1示出了基于本发明的加入数据流后当前基本窗口中LCWFP-Tree结构;
图2示出了基于本发明的对当前基本窗进行挖掘后的LCW-HT和LCWFP-Tree结构;
图3示出了基于本发明的频繁模式挖掘的流程图;
具体实施方式
对于大规模事务数据流,在进行闭合加权频繁模式挖掘时,先应用加权频繁约束,再应用闭合约束,采用上述组合顺序能得到更优化的挖掘结果。
本发明中使用的相关术语定义如下:
定义1(闭合频繁模式)如果模式P是频繁模式,且不存在模式P的任何超模式P′,即
Figure BDA0000087450000000041
使得P′与P有相同的支持度,即sup(P)=sup(P′),则称模式P为闭合频繁模式。
定义2(闭合加权频繁模式)模式P的加权支持度w sup(P)大于给定的最小加权支持度WSmin,且不存在P的超模式P′,使得P为加权频繁模式sup(P)=sup(P′),则称P为闭合加权频繁模式。
闭合约束与加权频繁约束可以以两种不同的组合顺序作用于数据流频繁模式挖掘,第一种组合顺序为:先用闭合约束挖掘闭合模式,再应用加权频繁约束挖掘得到加权闭合频繁模式(Weighted Closed Frequent Pattern,WCFP);第二种约束顺序为:先用加权频繁约束挖掘得到加权频繁模式,再应用闭合约束挖掘得到闭合加权频繁模式(Closed Weighted Frequent Pattern,CWFP)。在具有闭合约束与加权频繁约束的频繁模式挖掘中,先应用加权频繁约束再应用闭合约束的组合顺序将得到正确的挖掘结果。
定义闭合加权频繁模式树结构DSCWFP,用于存储滑动窗口的数据信息和已被发现的闭合模式信息,以降低维护树的空间开销,和由于数据流的不断变化而带来的维护结果模式树的复杂度。其中,闭合加权频繁模式树结构DSCWFP由三部分组成,一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表以及一个哈希表。压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树,由一个根节点和若干由根节点引出的前缀子树组成,用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式。树中的节点代表从根节点的直接子节点到该节点路径对应的模式。项头表用来保存CWFP-Tree树中各数据项的相关信息。哈希表是一个二级哈希映射结构,用来进行加权频繁模式的闭合性检查。DSCWFP结构用来记录数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,降低了维护多个模式树的空间开销以及由于数据流数据不断变化带来的维护复杂度。
CWFP-Tree模式树中除了根结点外每个树结点主要拥有以下域,:item_name表示该结点对应的项目名;sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数;node_parent为指向该结点父结点的指针;refined_weight记录该结点对应模式的修订权值;node_link链接到树中具有相同项目名称的下一个结点,若下一个结点不存在,则为null;iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式,值为true表示是,否则为false;closed_sup若该结点为闭合模式所包含的项,则值为闭合模式的支持度计数,否则为0。如果多个闭合模式有相同的前缀,则前缀中结点的这个域的值取其前缀中支持度最高的值;isvnd反映该结点是否是一个虚结点,值为true表示是,否则为false;cl_link如果该结点对应闭合模式,则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点,若下一结点不存在,则为null;bw_list是长度为n的列表,n为滑动窗口内包含的基本窗口的数目,列表中的元组表示为<cnt,refined_weight>,分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值。
项头表IHT的定义如下:记录各数据项在滑动窗口内的支持度计数,其中每个元素包含以下5个域:item_name表示项目名称;sup_count表示该项在当前滑动窗口内的支持度总计数;weight存储该项目的权值;refined_weight记录该节点对应模式的修订权值;headpoint指向模式树中与item_name对应的第一个节点的指针。
哈希表是一个两级索引结构的hash表,用来保存指向CWFP-Tree前缀树中闭合加权频繁模式结点的指针。其中第一级以闭合模式的最后一项作为索引关键字,第二级以闭合加权频繁模式的支持度作为索引关键字,即采用<闭合模式的最后一项,支持度>作为索引关键字。
DSCWFP是在滑动窗口内所采用的数据结构,在基本窗口中,所用的数据结构与DSCWFP相似,被命名为LCWFP(Local Closed Weighted Frequent Pattern),L用来挖掘和保存当前基本窗口内的闭合加权频繁模式,包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT。与DSCWFP中的CWFP-Tree相比,LCWFP-Tree只需处理当前基本窗口信息,因此省略了bw_list域。
假设某个基本窗中包含6个事务,数据如表1所示,项的权值以及闭合加权频繁模式挖掘结果如表2所示。图1显示了将事务数据加入基本窗后,当前基本窗中局部模式树LCWFP-Tree的结构(为简明起见,树中结点仅标注了支持度域)。设最小加权支持度WSmin为0.5,允许误差ε为0.1WSmin。则对此基本窗中的流数据进行挖掘后得到当前基本窗口中潜在闭合频繁模式的结果直接在模式树LCWFP-Tree上进行标注,所得结果如图2所示。
表1基本窗口中的数据流    表2第一个基本窗挖掘结果
Figure BDA0000087450000000061
如图2所示,当前基本窗口挖掘后,得到的闭合加权频繁模式为(a:5),(b:4),(c:4),(ba:4)以及(ca:3)。对于(ca:3),在LCWFP-Tree中没有对应的结点,因此加入虚结点,以虚方框表示。其他闭合模式的末结点在图中以实方框表示。为简明起见,图2中只标出了结点的(iscfi,closed_sup,isvnd)域值,例如结点a:1:3:1,其中第一个1表示该结点到根结点的直接子结点的路径所构成的模式是闭合模式,3表示结点对应的闭合模式的支持度计数,后一个1表示该结点是一个虚结点。当前基本窗中的局部哈希表LCW-HT是一个二级哈希结构,索引为<闭合模式的最后一项,支持度>。
上述过程说明了DS_CWFP基本窗口中局部闭合加权频繁模式的表示方式,DS_CWFP算法中滑动窗口中全局闭合加权频繁模式的数据结构与此类似,只是增加了对于各个基本窗进行维护的域。
通过下述条件进行闭合加权频繁模式的判断:若模式P在某个基本窗口中是局部潜在闭合加权频繁模式,在滑动窗口内又是加权频繁的,则模式P必定是滑动窗口内的闭合加权频繁模式。
根据前述定义及判断条件,下面详细描述对事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP。
步骤一:以滑动窗口中的基本窗口为计算单位,先计算当前基本窗口中的局部潜在闭合加权频繁项集,对滑动窗口内的闭合加权频繁模式CWFP结构进行初始化,创建一棵只有根节点的全局模式树;
步骤二:随着流数据的不断连续到来,扫描新到基本窗口的数据流,以最小加权支持度为阀值,挖掘得到当前基本窗口的局部潜在闭合加权频繁模式项集,在挖掘过程中更新局部LCWFP结构;
步骤三:删除过期窗口对当前滑动窗口的影响,并将挖掘新达到的基本窗口得到的全局候选闭合加权频繁模式按一定规则更新到滑动窗口的全局闭合加权频繁模式CWFP结构。
具体实现方式如下:
(1)随着流数据的连续到来,对新到窗口的处理包括以下几个步骤:1)用新到数据生成当前基本窗的局部LCWFP结构;2)递归调用子过程,构造局部潜在闭合加权频繁模式集;3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中。局部CWFP-Tree生成后,方法通过对局部CWFP-Tree的一次遍历,可以过滤基本窗中大量低频数据,同时得到当前基本窗中潜在闭合加权频繁模式集。
挖掘当前基本窗中闭合加权频繁模式是一个自底向上的递归过程。此过程包括以下步骤:(1)利用真实权值计算模式是否加权频繁;(2)根据局部哈希表进行子集检查以判断当前模式的闭合性;(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注,若LCWFP-Tree树中没有相对应的结点,则在树中增加一个虚结点若发现新的闭合加权频繁模式,并将新的闭合加权频繁模式信息加入局部哈希表中。
(2)当新的基本窗到达时,滑动窗口中最早的基本窗口成为过期窗口,要删除过期窗口对滑动窗口的影响删除,并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中。该过程主要是删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响。如果某节点是闭合节点且在过期窗口中支持度计数不为0,则由于支持度计数减小改为非闭合节点;若为虚节点则应删除,同时更新哈希表。
(3)当过期窗口被删除且对最新基本窗口的挖掘完成后,最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中,基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集,方法要将其更新到全局CWFP结构中。
方法按以下规则进行处理:对基本窗中局部模式树中的每个潜在闭合加权频繁模式集中的模式P,计算其全局加权频繁支持度,若P在滑动窗口内是加权频繁的,因此更新到全局CWFP结构时,不必进行闭合性检查,直接将其作为结果更新到全局CWFP-Tree及哈希表即可,否则P是候选结果。同时P的子集也作为全局候选结果更新到CWFP结构。
当已经将当前基本窗口潜在闭合加权频繁模式更新到全局CWFP结构,删除当前基本窗口的LCWFP结构。
(4)闭合加权频繁模式挖掘时,方法运用“分而治之”的策略,采用自底向上深度优先遍历的递归方法,实现对滑动窗口内加权CWFP-Tree树的闭合加权频繁模式的挖掘。
由于方法在不同阶段分别采取相应的优化策略以提高执行效率,具体优化策略有如下四点:过滤低频数据;生成局部潜在闭合加权频繁模式集;采用项合并和子项集剪枝两种剪枝策略;当一个新的加权频繁模式导出后,进行两种闭包检查(超集和子集检查)。
本发明解决了Web日志分析、网络安全监控等数据流应用中闭合加权频繁模式挖掘的问题,解决了加权频繁模式挖掘中当最小加权支持度设置较小或数据集比较稠密时,会产生数量众多的频繁模式的问题。真实和合成数据的实验结果验证了该方法的快速、有效和时空需求稳定性。
在真实数据集Chain-store上测试了该方法的性能。Chain-store数据集来自于加利福利亚州连锁店的销售数据,共包含1,112,949个事物和46,086个不同项。实验对比了该方法与Close+的时空性能。在不同最小加权支持度阀值下,该方法性能提升平均达到20%左右,最大内存需求减少30%左右。

Claims (5)

1.一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP,该方法包括:
滑动窗口闭合加权频繁模式树创建步骤:闭合加权频繁模式树结构DSCWFP用来记录滑动窗口中数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果,由三部分组成,一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表IHT以及一个哈希表,压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树,由一个根节点和若干由根节点引出的前缀子树组成,用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式,树中的节点代表从根节点的直接子节点到该节点路径对应的模式;项头表用来保存CWFP-Tree树中各数据项的相关信息;哈希表是一个二级哈希映射结构,用来进行加权频繁模式的闭合性检查;
基本窗口闭合加权频繁模式树创建步骤:在基本窗口中,所用的数据结构与DSCWFP相似,被命名为LCWFP,LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式,包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT,与DSCWFP中的CWFP-Tree相比,LCWFP-Tree只需处理当前基本窗口信息,因此省略了bw_list域;
当前基本窗中闭合加权频繁模式挖掘步骤:此过程包括以下步骤:(1)利用真实权值计算模式是否加权频繁;(2)根据局部哈希表进行子集检查以判断当前模式的闭合性;(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注,若LCWFP-Tree树中没有相对应的结点,则在树中增加一个虚结点若发现新的闭合加权频繁模式,并将新的闭合加权频繁模式信息加入局部哈希表中;
新到窗口处理步骤:对新到窗口的处理包括以下几个步骤:1)用新到数据生成当前基本窗的局部LCWFP结构;2)递归调用子过程,构造局部潜在闭合加权频繁模式集;3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中,局部CWFP-Tree生成后,方法通过对局部CWFP-Tree的一次遍历,可以过滤基本窗中大量低频数据,同时得到当前基本窗中潜在闭合加权频繁模式集;
过期窗口处理步骤:当新的基本窗到达时,滑动窗口中最早的基本窗口成为过期窗口,要删除过期窗口对滑动窗口的影响删除,并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中,删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响;如果某节点是闭合节点且在过期窗口中支持度计数不为0,则由于支持度计数减小改为非闭合节点;若为虚节点则应删除,同时更新哈希表;
全局CWFP-Tree结构更新步骤:当过期窗口被删除且对最新基本窗口的挖掘完成后,最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中,基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集,方法要将其更新到全局CWFP-Tree结构中;
闭合加权频繁模式挖掘步骤,采用自底向上深度优先遍历的递归方法,实现对滑动窗口内加权CWFP-Tree树的闭合加权频繁模式的挖掘。
2.如权利要求1的方法,其中压缩前缀扩展树CWFP-Tree以下列方式生成,除了根结点外每个树结点主要拥有以下域:item_name表示该结点对应的项目名;sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数;node_parent为指向该结点父结点的指针;refined_weight记录该结点对应模式的修订权值;node_link链接到树中具有相同项目名称的下一个结点,若下一个结点不存在,则为null;iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式,值为true表示是,否则为false;closed_sup若该结点为闭合模式所包含的项,则值为闭合模式的支持度计数,否则为0;如果多个闭合模式有相同的前缀,则前缀中结点的这个域的值取其前缀中支持度最高的值;isvnd反映该结点是否是一个虚结点,值为true表示是,否则为false;cl_link如果该结点对应闭合模式,则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点,若下一结点不存在,则为null;bw_list是长度为n的列表,n为滑动窗口内包含的基本窗口的数目,列表中的元组表示为<cnt,refined_weight>,分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值;
3.如权利要求1的方法,所述项头表IHT生成如下:记录各数据项在滑动窗口内的支持度计数,其中每个元素包含以下5个域:item_name表示项目名称;sup_count表示该项在当前滑动窗口内的支持度总计数;weight存储该项目的权值;refined_weight记录该节点对应模式的修订权值;headpoint指向模式树中与item_name对应的第一个节点的指针;
4.如权利要求1的方法,所述哈希表是一个两级索引结构的hash表,用来保存指向CWFP-Tree前缀树中闭合加权频繁模式结点的指针,其中第一级以闭合模式的最后一项作为索引关键字,第二级以闭合加权频繁模式的支持度作为索引关键字,即采用<闭合模式的最后一项,支持度>作为索引关键字;
5.如权利要求1的方法,所述全局CWFP-Tree结构更新步骤以下规则进行处理:对基本窗中局部模式树中的每个潜在闭合加权频繁模式集中的模式P,计算其全局加权频繁支持度,若P在滑动窗口内是加权频繁的,因此更新到全局CWFP结构时,不必进行闭合性检查,直接将其作为结果更新到全局CWFP-Tree及哈希表即可,否则P是候选结果;同时P的子集也作为全局候选结果更新到CWFP结构;当已经将当前基本窗口潜在闭合加权频繁模式更新到全局CWFP结构,删除当前基本窗口的LCWFP结构。
CN201110252777.3A 2011-08-30 2011-08-30 一种对事务数据流进行闭合加权频繁模式挖掘的方法 Expired - Fee Related CN102306183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110252777.3A CN102306183B (zh) 2011-08-30 2011-08-30 一种对事务数据流进行闭合加权频繁模式挖掘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110252777.3A CN102306183B (zh) 2011-08-30 2011-08-30 一种对事务数据流进行闭合加权频繁模式挖掘的方法

Publications (2)

Publication Number Publication Date
CN102306183A true CN102306183A (zh) 2012-01-04
CN102306183B CN102306183B (zh) 2014-05-21

Family

ID=45380045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110252777.3A Expired - Fee Related CN102306183B (zh) 2011-08-30 2011-08-30 一种对事务数据流进行闭合加权频繁模式挖掘的方法

Country Status (1)

Country Link
CN (1) CN102306183B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779308A (zh) * 2012-01-09 2012-11-14 合一网络技术(北京)有限公司 一种广告投放方法及系统
WO2013170435A1 (en) * 2012-05-15 2013-11-21 Hewlett-Packard Development Company, L.P. Pattern mining based on occupancy
CN103838854A (zh) * 2014-03-14 2014-06-04 广西教育学院 用于发现文本词间关联规则的完全加权模式挖掘方法
CN104598992A (zh) * 2015-01-12 2015-05-06 北京中交兴路车联网科技有限公司 一种车辆常跑路线分析方法
CN104933083A (zh) * 2014-03-19 2015-09-23 国家电网公司 一种传感器数据动态伸缩的处理方法及装置
CN107154947A (zh) * 2017-06-16 2017-09-12 清华大学 基于有效频繁流特征的网络流量异常检测和分类方法
CN107633068A (zh) * 2017-09-22 2018-01-26 深圳大学 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统
CN109165522A (zh) * 2018-07-26 2019-01-08 安徽师范大学 一种基于数据流的敏感数据挖掘保护方法
CN110096629A (zh) * 2019-05-15 2019-08-06 重庆大学 一种基于有效加权树的挖掘频繁加权项集的方法
CN111488496A (zh) * 2020-04-30 2020-08-04 湖北师范大学 一种基于滑动窗口的Tango树构建方法及系统
CN112506999A (zh) * 2020-12-17 2021-03-16 夏红梅 基于云计算和人工智能的大数据挖掘方法及数字内容中心

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198548A1 (en) * 2005-11-28 2007-08-23 Lee Won S Compressed prefix trees and estDec+ method for finding frequent itemsets over data streams
CN101650730A (zh) * 2009-09-08 2010-02-17 中国科学院计算技术研究所 数据流中带权值频繁项挖掘方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070198548A1 (en) * 2005-11-28 2007-08-23 Lee Won S Compressed prefix trees and estDec+ method for finding frequent itemsets over data streams
CN101650730A (zh) * 2009-09-08 2010-02-17 中国科学院计算技术研究所 数据流中带权值频繁项挖掘方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张小彬: "数据流中频繁项集挖掘算法及其应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 4, 15 April 2010 (2010-04-15), pages 1 - 59 *
耿汝年: "加权频繁模式挖掘算法研究", 《中国博士学位论文全文数据库信息科技辑》, no. 5, 15 May 2010 (2010-05-15), pages 1 - 125 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779308A (zh) * 2012-01-09 2012-11-14 合一网络技术(北京)有限公司 一种广告投放方法及系统
CN102779308B (zh) * 2012-01-09 2017-04-26 合一网络技术(北京)有限公司 一种广告投放方法及系统
WO2013170435A1 (en) * 2012-05-15 2013-11-21 Hewlett-Packard Development Company, L.P. Pattern mining based on occupancy
CN104254854A (zh) * 2012-05-15 2014-12-31 惠普发展公司,有限责任合伙企业 基于占有率的模式挖掘
US9679036B2 (en) 2012-05-15 2017-06-13 Hewlett Packard Enterprise Development Lp Pattern mining based on occupancy
CN103838854A (zh) * 2014-03-14 2014-06-04 广西教育学院 用于发现文本词间关联规则的完全加权模式挖掘方法
CN103838854B (zh) * 2014-03-14 2017-03-22 广西财经学院 用于发现文本词间关联规则的完全加权模式挖掘方法
CN104933083B (zh) * 2014-03-19 2018-02-09 国家电网公司 一种传感器数据动态伸缩的处理方法及装置
CN104933083A (zh) * 2014-03-19 2015-09-23 国家电网公司 一种传感器数据动态伸缩的处理方法及装置
CN104598992A (zh) * 2015-01-12 2015-05-06 北京中交兴路车联网科技有限公司 一种车辆常跑路线分析方法
CN107154947A (zh) * 2017-06-16 2017-09-12 清华大学 基于有效频繁流特征的网络流量异常检测和分类方法
CN107633068A (zh) * 2017-09-22 2018-01-26 深圳大学 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统
WO2019056570A1 (zh) * 2017-09-22 2019-03-28 深圳大学 滑动窗口下基于位置top-k关键词查询的快速索引方法及系统
CN107633068B (zh) * 2017-09-22 2020-04-07 深圳大学 滑动窗口下基于位置top-k关键词查询的快速索引方法及系统
CN109165522A (zh) * 2018-07-26 2019-01-08 安徽师范大学 一种基于数据流的敏感数据挖掘保护方法
CN110096629A (zh) * 2019-05-15 2019-08-06 重庆大学 一种基于有效加权树的挖掘频繁加权项集的方法
CN111488496A (zh) * 2020-04-30 2020-08-04 湖北师范大学 一种基于滑动窗口的Tango树构建方法及系统
CN112506999A (zh) * 2020-12-17 2021-03-16 夏红梅 基于云计算和人工智能的大数据挖掘方法及数字内容中心
CN112506999B (zh) * 2020-12-17 2021-07-16 福建顶点软件股份有限公司 基于云计算和人工智能的大数据挖掘方法及数字内容服务器

Also Published As

Publication number Publication date
CN102306183B (zh) 2014-05-21

Similar Documents

Publication Publication Date Title
CN102306183B (zh) 一种对事务数据流进行闭合加权频繁模式挖掘的方法
CN102289507B (zh) 一种基于滑动窗口的数据流加权频繁模式挖掘方法
Lee et al. Finding maximal frequent itemsets over online data streams adaptively
CN103150163A (zh) 一种基于MapReduce模型的并行关联方法
CN101582817A (zh) 网络交互行为模式提取及相似性分析方法
CN107517216A (zh) 一种网络安全事件关联方法
CN104462582A (zh) 一种基于结构和内容二级过滤的Web数据相似性检测方法
Shin et al. CP-tree: An adaptive synopsis structure for compressing frequent itemsets over online data streams
CN104881427A (zh) 一种面向电网调控运行的数据血统分析方法
CN101794296A (zh) 一种基于空中活动目标数据的挖掘方法
Shah et al. Incremental mining of association rules: A survey
Kim et al. Average utility driven data analytics on damped windows for intelligent systems with data streams
Feng et al. UT-Tree: Efficient mining of high utility itemsets from data streams
CN102495883B (zh) 一种水文时间序列的异步周期模式挖掘方法
Ghesmoune et al. Clustering over data streams based on growing neural gas
Chadokar et al. Optimizing network traffic by generating association rules using hybrid apriori-genetic algorithm
Hu et al. An incremental rare association rule mining approach with a life cycle tree structure considering time-sensitive data
Hu et al. 5G‐Oriented IoT Big Data Analysis Method System
CN103488757A (zh) 一种基于云计算的聚类特征等值直方图的维护方法
Kumar et al. MaRFI: Maximal Regular Frequent Itemset Mining using a pair of Transaction-ids
CN102955796B (zh) 基于频繁子树来导出记录模板的方法
Padillo et al. Subgroup discovery on big data: Pruning the search space on exhaustive search algorithms
Kumar et al. IncMaRFI: mining maximal regular frequent itemsets in incremental databases
Shan et al. A subgraph query method based on adjacent node features on large-scale label graphs
Li et al. Frequent itemset mining over time-sensitive streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140521

Termination date: 20200830