CN102306183A

CN102306183A - 一种对事务数据流进行闭合加权频繁模式挖掘的方法

Info

Publication number: CN102306183A
Application number: CN201110252777A
Authority: CN
Inventors: 王洁; 曾宇
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-08-30
Filing date: 2011-08-30
Publication date: 2012-01-04
Anticipated expiration: 2031-08-30
Also published as: CN102306183B

Abstract

本发明涉及一种大规模数据流上的闭合加权频繁模式挖掘方法DS_CWFP。DS_CWFP方法以滑动窗口中的基本窗口为计算单位，先挖掘当前基本窗口中的局部潜在闭合加权频繁项集，在删除了过期窗口对滑动窗口的影响后，将局部闭合加权频繁项集及其子集按一定的规则动态更新到滑动窗口的全局DSCWFP结构中。复合的DSCWFP结构用来记录数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果，降低了维护多个模式树的空间开销以及由于数据流数据不断变化带来的维护复杂度。同时在挖掘过程中，采用了项合并、子项集剪枝等策略。DS_CWFP算法仅需对流数据进行单遍扫描，并能够在有限的存储空间中高速挖掘数据流滑动窗口中的闭合加权频繁模式，具有较高的时空效率。

Description

一种对事务数据流进行闭合加权频繁模式挖掘的方法

技术领域

本发明涉及数据挖掘技术中的数据流频繁模式挖掘方法，具体涉及一种对事务数据流进行闭合加权频繁模式挖掘的方法。

背景技术

数据流是一类由高速到达的数据元素组成的无界数据序列。近年来，数据流广泛应用在多个领域，例如：网络流量监控、金融数据管理、传感器网络数据管理、web日志分析、移动对象数据管理、通信数据分析等。在这些应用中，发现事务数据流中的频繁模式具有重要的意义，例如：对应于异常流量的频繁报文可能意味着存在网络攻击；在大量的零销售记录中，频繁商品及其组合总是对应热门销售的商品以及它们之间的关联关系；在传感器网络数据管理中，发现传感器数据中的频繁模式可以有助于去估计那些丢失的数据值。

在加权频繁模式挖掘中，当最小加权支持度设置较小或数据集比较稠密时，会产生数量众多的频繁模式，将耗费大量的内存和I/O资源，也会给挖掘结果的分析者提取知识带来难度。针对Mushroom数据集的频繁模式挖掘实验表明，当最小支持度设置为0.1时，挖掘得到的频繁模式数量是574431，而闭合频繁模式数量是4885，由此可见闭合频繁模式可以显著减少频繁项集挖掘所产生的模式数量。

闭合频繁模式是频繁模式的一种压缩无损的替代表示形式，可以保持关于频繁项集的完整信息。从闭合频繁项集中可以推出频繁项集的集合以及它们的支持度，因此在频繁模式挖掘实践与应用中，相比加权频繁模式挖掘来说，挖掘闭合加权频繁模式更加具有实用意义。

发明内容

由于对于数据流的闭合加权频繁模式的挖掘更具有实用意义，且大规模数据中容易产生数量众多的频繁模式，本发明提出了一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP，该方法包括：

滑动窗口闭合加权频繁模式树创建步骤：闭合加权频繁模式树结构DSCWFP用来记录滑动窗口中数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果，由三部分组成，一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表IHT以及一个哈希表，压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树，由一个根节点和若干由根节点引出的前缀子树组成，用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式，树中的节点代表从根节点的直接子节点到该节点路径对应的模式；项头表用来保存CWFP-Tree树中各数据项的相关信息；哈希表是一个二级哈希映射结构，用来进行加权频繁模式的闭合性检查；

基本窗口闭合加权频繁模式树创建步骤，在基本窗口中，所用的数据结构与DSCWFP相似，被命名为LCWFP，LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式，包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT，与DSCWFP中的CWFP-Tree相比，LCWFP-Tree只需处理当前基本窗口信息，因此省略了bw_list域；

当前基本窗中闭合加权频繁模式挖掘步骤，此过程包括以下步骤：(1)利用真实权值计算模式是否加权频繁；(2)根据局部哈希表进行子集检查以判断当前模式的闭合性；(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注，若LCWFP-Tree树中没有相对应的结点，则在树中增加一个虚结点若发现新的闭合加权频繁模式，并将新的闭合加权频繁模式信息加入局部哈希表中；

新到窗口处理步骤：对新到窗口的处理包括以下几个步骤：1)用新到数据生成当前基本窗的局部LCWFP结构；2)递归调用子过程，构造局部潜在闭合加权频繁模式集；3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中，局部CWFP-Tree生成后，方法通过对局部CWFP-Tree的一次遍历，可以过滤基本窗中大量低频数据，同时得到当前基本窗中潜在闭合加权频繁模式集；

过期窗口处理步骤：当新的基本窗到达时，滑动窗口中最早的基本窗口成为过期窗口，要删除过期窗口对滑动窗口的影响删除，并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中，删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响；如果某节点是闭合节点且在过期窗口中支持度计数不为0，则由于支持度计数减小改为非闭合节点；若为虚节点则应删除，同时更新哈希表；

全局CWFP-Tree结构更新步骤：当过期窗口被删除且对最新基本窗口的挖掘完成后，最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中，基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集，方法要将其更新到全局CWFP-Tree结构中；

闭合加权频繁模式挖掘步骤，采用自底向上深度优先遍历的递归方法，实现对滑动窗口内加权CWFP-Tree树的闭合加权频繁模式的挖掘。

更具体的，压缩前缀扩展树CWFP-Tree以下列方式生成，其中除了根结点外每个树结点主要拥有以下域：item_name表示该结点对应的项目名；sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数；node_parent为指向该结点父结点的指针；refined_weight记录该结点对应模式的修订权值；node_link链接到树中具有相同项目名称的下一个结点，若下一个结点不存在，则为null；iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式，值为true表示是，否则为false；closed_sup若该结点为闭合模式所包含的项，则值为闭合模式的支持度计数，否则为0；如果多个闭合模式有相同的前缀，则前缀中结点的这个域的值取其前缀中支持度最高的值；isvnd反映该结点是否是一个虚结点，值为true表示是，否则为false；cl_link如果该结点对应闭合模式，则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点，若下一结点不存在，则为null；bw_list是长度为n的列表，n为滑动窗口内包含的基本窗口的数目，列表中的元组表示为<cnt，refined_weight>，分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值；

更具体的，所述项头表IHT生成如下：记录各数据项在滑动窗口内的支持度计数，其中每个元素包含以下5个域：item_name表示项目名称；sup_count表示该项在当前滑动窗口内的支持度总计数；weight存储该项目的权值；refined_weight记录该节点对应模式的修订权值；headpoint指向模式树中与item_name对应的第一个节点的指针；

更具体的，哈希表是一个两级索引结构的hash表，用来保存指向CWFP-Tree前缀树中闭合加权频繁模式结点的指针，其中第一级以闭合模式的最后一项作为索引关键字，第二级以闭合加权频繁模式的支持度作为索引关键字，即采用<闭合模式的最后一项，支持度>作为索引关键字；

更具体的，全局CWFP-Tree结构更新以下规则进行处理：对基本窗中局部模式树中的每个潜在闭合加权频繁模式集中的模式P，计算其全局加权频繁支持度，若P在滑动窗口内是加权频繁的，因此更新到全局CWFP结构时，不必进行闭合性检查，直接将其作为结果更新到全局CWFP-Tree及哈希表即可，否则P是候选结果；同时P的子集也作为全局候选结果更新到CWFP结构；当已经将当前基本窗口潜在闭合加权频繁模式更新到全局CWFP结构，删除当前基本窗口的LCWFP结构。

附图说明

图1示出了基于本发明的加入数据流后当前基本窗口中LCWFP-Tree结构；

图2示出了基于本发明的对当前基本窗进行挖掘后的LCW-HT和LCWFP-Tree结构；

图3示出了基于本发明的频繁模式挖掘的流程图；

具体实施方式

对于大规模事务数据流，在进行闭合加权频繁模式挖掘时，先应用加权频繁约束，再应用闭合约束，采用上述组合顺序能得到更优化的挖掘结果。

本发明中使用的相关术语定义如下：

定义1(闭合频繁模式)如果模式P是频繁模式，且不存在模式P的任何超模式P′，即

使得P′与P有相同的支持度，即sup(P)＝sup(P′)，则称模式P为闭合频繁模式。

定义2(闭合加权频繁模式)模式P的加权支持度w sup(P)大于给定的最小加权支持度WS_min，且不存在P的超模式P′，使得P为加权频繁模式sup(P)＝sup(P′)，则称P为闭合加权频繁模式。

闭合约束与加权频繁约束可以以两种不同的组合顺序作用于数据流频繁模式挖掘，第一种组合顺序为：先用闭合约束挖掘闭合模式，再应用加权频繁约束挖掘得到加权闭合频繁模式(Weighted Closed Frequent Pattern，WCFP)；第二种约束顺序为：先用加权频繁约束挖掘得到加权频繁模式，再应用闭合约束挖掘得到闭合加权频繁模式(Closed Weighted Frequent Pattern，CWFP)。在具有闭合约束与加权频繁约束的频繁模式挖掘中，先应用加权频繁约束再应用闭合约束的组合顺序将得到正确的挖掘结果。

定义闭合加权频繁模式树结构DSCWFP，用于存储滑动窗口的数据信息和已被发现的闭合模式信息，以降低维护树的空间开销，和由于数据流的不断变化而带来的维护结果模式树的复杂度。其中，闭合加权频繁模式树结构DSCWFP由三部分组成，一棵具有根节点的压缩前缀扩展树CWFP-Tree、一个项头表以及一个哈希表。压缩前缀扩展树CWFP-Tree是一棵对数据项的顺序进行预定义的压缩前缀扩展树，由一个根节点和若干由根节点引出的前缀子树组成，用来保存当前滑动窗口中的候选闭合加权频繁模式并维护当前滑动窗口中业已发现的闭合加权频繁模式。树中的节点代表从根节点的直接子节点到该节点路径对应的模式。项头表用来保存CWFP-Tree树中各数据项的相关信息。哈希表是一个二级哈希映射结构，用来进行加权频繁模式的闭合性检查。DSCWFP结构用来记录数据流加权频繁模式的动态变化并同时保存业已发现的闭合加权频繁模式结果，降低了维护多个模式树的空间开销以及由于数据流数据不断变化带来的维护复杂度。

CWFP-Tree模式树中除了根结点外每个树结点主要拥有以下域，：item_name表示该结点对应的项目名；sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数；node_parent为指向该结点父结点的指针；refined_weight记录该结点对应模式的修订权值；node_link链接到树中具有相同项目名称的下一个结点，若下一个结点不存在，则为null；iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式，值为true表示是，否则为false；closed_sup若该结点为闭合模式所包含的项，则值为闭合模式的支持度计数，否则为0。如果多个闭合模式有相同的前缀，则前缀中结点的这个域的值取其前缀中支持度最高的值；isvnd反映该结点是否是一个虚结点，值为true表示是，否则为false；cl_link如果该结点对应闭合模式，则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点，若下一结点不存在，则为null；bw_list是长度为n的列表，n为滑动窗口内包含的基本窗口的数目，列表中的元组表示为<cnt，refined_weight>，分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值。

项头表IHT的定义如下：记录各数据项在滑动窗口内的支持度计数，其中每个元素包含以下5个域：item_name表示项目名称；sup_count表示该项在当前滑动窗口内的支持度总计数；weight存储该项目的权值；refined_weight记录该节点对应模式的修订权值；headpoint指向模式树中与item_name对应的第一个节点的指针。

哈希表是一个两级索引结构的hash表，用来保存指向CWFP-Tree前缀树中闭合加权频繁模式结点的指针。其中第一级以闭合模式的最后一项作为索引关键字，第二级以闭合加权频繁模式的支持度作为索引关键字，即采用<闭合模式的最后一项，支持度>作为索引关键字。

DSCWFP是在滑动窗口内所采用的数据结构，在基本窗口中，所用的数据结构与DSCWFP相似，被命名为LCWFP(Local Closed Weighted Frequent Pattern)，L用来挖掘和保存当前基本窗口内的闭合加权频繁模式，包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT。与DSCWFP中的CWFP-Tree相比，LCWFP-Tree只需处理当前基本窗口信息，因此省略了bw_list域。

假设某个基本窗中包含6个事务，数据如表1所示，项的权值以及闭合加权频繁模式挖掘结果如表2所示。图1显示了将事务数据加入基本窗后，当前基本窗中局部模式树LCWFP-Tree的结构(为简明起见，树中结点仅标注了支持度域)。设最小加权支持度WS_min为0.5，允许误差ε为0.1WS_min。则对此基本窗中的流数据进行挖掘后得到当前基本窗口中潜在闭合频繁模式的结果直接在模式树LCWFP-Tree上进行标注，所得结果如图2所示。

表1基本窗口中的数据流表2第一个基本窗挖掘结果

如图2所示，当前基本窗口挖掘后，得到的闭合加权频繁模式为(a:5)，(b:4)，(c:4)，(ba:4)以及(ca:3)。对于(ca:3)，在LCWFP-Tree中没有对应的结点，因此加入虚结点，以虚方框表示。其他闭合模式的末结点在图中以实方框表示。为简明起见，图2中只标出了结点的(iscfi，closed_sup，isvnd)域值，例如结点a:1:3:1，其中第一个1表示该结点到根结点的直接子结点的路径所构成的模式是闭合模式，3表示结点对应的闭合模式的支持度计数，后一个1表示该结点是一个虚结点。当前基本窗中的局部哈希表LCW-HT是一个二级哈希结构，索引为<闭合模式的最后一项，支持度>。

上述过程说明了DS_CWFP基本窗口中局部闭合加权频繁模式的表示方式，DS_CWFP算法中滑动窗口中全局闭合加权频繁模式的数据结构与此类似，只是增加了对于各个基本窗进行维护的域。

通过下述条件进行闭合加权频繁模式的判断：若模式P在某个基本窗口中是局部潜在闭合加权频繁模式，在滑动窗口内又是加权频繁的，则模式P必定是滑动窗口内的闭合加权频繁模式。

根据前述定义及判断条件，下面详细描述对事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP。

步骤一：以滑动窗口中的基本窗口为计算单位，先计算当前基本窗口中的局部潜在闭合加权频繁项集，对滑动窗口内的闭合加权频繁模式CWFP结构进行初始化，创建一棵只有根节点的全局模式树；

步骤二：随着流数据的不断连续到来，扫描新到基本窗口的数据流，以最小加权支持度为阀值，挖掘得到当前基本窗口的局部潜在闭合加权频繁模式项集，在挖掘过程中更新局部LCWFP结构；

步骤三：删除过期窗口对当前滑动窗口的影响，并将挖掘新达到的基本窗口得到的全局候选闭合加权频繁模式按一定规则更新到滑动窗口的全局闭合加权频繁模式CWFP结构。

具体实现方式如下：

(1)随着流数据的连续到来，对新到窗口的处理包括以下几个步骤：1)用新到数据生成当前基本窗的局部LCWFP结构；2)递归调用子过程，构造局部潜在闭合加权频繁模式集；3)将局部潜在闭合加权频繁模式集更新到全局闭合加权频繁模式CWFP结构中。局部CWFP-Tree生成后，方法通过对局部CWFP-Tree的一次遍历，可以过滤基本窗中大量低频数据，同时得到当前基本窗中潜在闭合加权频繁模式集。

挖掘当前基本窗中闭合加权频繁模式是一个自底向上的递归过程。此过程包括以下步骤：(1)利用真实权值计算模式是否加权频繁；(2)根据局部哈希表进行子集检查以判断当前模式的闭合性；(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注，若LCWFP-Tree树中没有相对应的结点，则在树中增加一个虚结点若发现新的闭合加权频繁模式，并将新的闭合加权频繁模式信息加入局部哈希表中。

(2)当新的基本窗到达时，滑动窗口中最早的基本窗口成为过期窗口，要删除过期窗口对滑动窗口的影响删除，并将新的基本窗口中的局部潜在闭合加权频繁模式集更新到滑动窗口中。该过程主要是删除过期窗口对滑动窗口项头表以及模式树CWFP-Tree的影响。如果某节点是闭合节点且在过期窗口中支持度计数不为0，则由于支持度计数减小改为非闭合节点；若为虚节点则应删除，同时更新哈希表。

(3)当过期窗口被删除且对最新基本窗口的挖掘完成后，最新基本窗口中的潜在闭合加权频繁模式集被保存在基本窗口的局部CWFP结构中，基本窗中的局部潜在闭合加权频繁模式是整个滑动窗口中全局闭合加权频繁模式的候选项集，方法要将其更新到全局CWFP结构中。

方法按以下规则进行处理：对基本窗中局部模式树中的每个潜在闭合加权频繁模式集中的模式P，计算其全局加权频繁支持度，若P在滑动窗口内是加权频繁的，因此更新到全局CWFP结构时，不必进行闭合性检查，直接将其作为结果更新到全局CWFP-Tree及哈希表即可，否则P是候选结果。同时P的子集也作为全局候选结果更新到CWFP结构。

当已经将当前基本窗口潜在闭合加权频繁模式更新到全局CWFP结构，删除当前基本窗口的LCWFP结构。

(4)闭合加权频繁模式挖掘时，方法运用“分而治之”的策略，采用自底向上深度优先遍历的递归方法，实现对滑动窗口内加权CWFP-Tree树的闭合加权频繁模式的挖掘。

由于方法在不同阶段分别采取相应的优化策略以提高执行效率，具体优化策略有如下四点：过滤低频数据；生成局部潜在闭合加权频繁模式集；采用项合并和子项集剪枝两种剪枝策略；当一个新的加权频繁模式导出后，进行两种闭包检查(超集和子集检查)。

本发明解决了Web日志分析、网络安全监控等数据流应用中闭合加权频繁模式挖掘的问题，解决了加权频繁模式挖掘中当最小加权支持度设置较小或数据集比较稠密时，会产生数量众多的频繁模式的问题。真实和合成数据的实验结果验证了该方法的快速、有效和时空需求稳定性。

在真实数据集Chain-store上测试了该方法的性能。Chain-store数据集来自于加利福利亚州连锁店的销售数据，共包含1,112,949个事物和46,086个不同项。实验对比了该方法与Close+的时空性能。在不同最小加权支持度阀值下，该方法性能提升平均达到20％左右，最大内存需求减少30％左右。

Claims

1.一种针对大规模事务数据流的闭合加权频繁模式挖掘的方法DS_CWFP，该方法包括：

基本窗口闭合加权频繁模式树创建步骤：在基本窗口中，所用的数据结构与DSCWFP相似，被命名为LCWFP，LCWFP用来挖掘和保存当前基本窗口内的闭合加权频繁模式，包括局部模式树LCWFP-Tree、局部项头表LIHT以及局部哈希表LCW-HT，与DSCWFP中的CWFP-Tree相比，LCWFP-Tree只需处理当前基本窗口信息，因此省略了bw_list域；

当前基本窗中闭合加权频繁模式挖掘步骤：此过程包括以下步骤：(1)利用真实权值计算模式是否加权频繁；(2)根据局部哈希表进行子集检查以判断当前模式的闭合性；(3)对新发现的潜在闭合加权频繁模式在LCWFP-Tree树中直接进行标注，若LCWFP-Tree树中没有相对应的结点，则在树中增加一个虚结点若发现新的闭合加权频繁模式，并将新的闭合加权频繁模式信息加入局部哈希表中；

2.如权利要求1的方法，其中压缩前缀扩展树CWFP-Tree以下列方式生成，除了根结点外每个树结点主要拥有以下域：item_name表示该结点对应的项目名；sup_count记录该结点对应的模式在当前滑动窗口内总的支持度计数；node_parent为指向该结点父结点的指针；refined_weight记录该结点对应模式的修订权值；node_link链接到树中具有相同项目名称的下一个结点，若下一个结点不存在，则为null；iscfi反映该结点到根结点的直接子结点的路径所构成的模式是否是闭合模式，值为true表示是，否则为false；closed_sup若该结点为闭合模式所包含的项，则值为闭合模式的支持度计数，否则为0；如果多个闭合模式有相同的前缀，则前缀中结点的这个域的值取其前缀中支持度最高的值；isvnd反映该结点是否是一个虚结点，值为true表示是，否则为false；cl_link如果该结点对应闭合模式，则指向下一个具有相同支持度和相同最后一项目的闭合模式对应的结点，若下一结点不存在，则为null；bw_list是长度为n的列表，n为滑动窗口内包含的基本窗口的数目，列表中的元组表示为<cnt，refined_weight>，分别该结点对应的模式在此基本窗口内的支持度计数以及该结点对应模式在此基本窗口内的修订权值；

3.如权利要求1的方法，所述项头表IHT生成如下：记录各数据项在滑动窗口内的支持度计数，其中每个元素包含以下5个域：item_name表示项目名称；sup_count表示该项在当前滑动窗口内的支持度总计数；weight存储该项目的权值；refined_weight记录该节点对应模式的修订权值；headpoint指向模式树中与item_name对应的第一个节点的指针；

4.如权利要求1的方法，所述哈希表是一个两级索引结构的hash表，用来保存指向CWFP-Tree前缀树中闭合加权频繁模式结点的指针，其中第一级以闭合模式的最后一项作为索引关键字，第二级以闭合加权频繁模式的支持度作为索引关键字，即采用<闭合模式的最后一项，支持度>作为索引关键字；

5.如权利要求1的方法，所述全局CWFP-Tree结构更新步骤以下规则进行处理：对基本窗中局部模式树中的每个潜在闭合加权频繁模式集中的模式P，计算其全局加权频繁支持度，若P在滑动窗口内是加权频繁的，因此更新到全局CWFP结构时，不必进行闭合性检查，直接将其作为结果更新到全局CWFP-Tree及哈希表即可，否则P是候选结果；同时P的子集也作为全局候选结果更新到CWFP结构；当已经将当前基本窗口潜在闭合加权频繁模式更新到全局CWFP结构，删除当前基本窗口的LCWFP结构。