CN102289507A - 一种基于滑动窗口的数据流加权频繁模式挖掘方法 - Google Patents

一种基于滑动窗口的数据流加权频繁模式挖掘方法 Download PDF

Info

Publication number
CN102289507A
CN102289507A CN2011102527769A CN201110252776A CN102289507A CN 102289507 A CN102289507 A CN 102289507A CN 2011102527769 A CN2011102527769 A CN 2011102527769A CN 201110252776 A CN201110252776 A CN 201110252776A CN 102289507 A CN102289507 A CN 102289507A
Authority
CN
China
Prior art keywords
tree
window
swfp
node
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011102527769A
Other languages
English (en)
Other versions
CN102289507B (zh
Inventor
王洁
曾宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201110252776.9A priority Critical patent/CN102289507B/zh
Publication of CN102289507A publication Critical patent/CN102289507A/zh
Application granted granted Critical
Publication of CN102289507B publication Critical patent/CN102289507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种基于滑动窗口的数据流加权频繁模式挖掘方法,该方法采用SWFP单元来压缩存储数据流滑动窗口内的加权频繁模式;当流数据流过时,本方法仅对数据进行单遍扫描,并将数据包含的模式信息及权重信息增量更新到SWFP单元中的SWFP-Tree模式树中,随着新数据不断流入滑动窗口,过期数据被删除,方法采用两种剪枝策略来定期删除模式树种不频繁模式,以便压缩SWFP-Tree模式树的存储空间。本发明提供的数据流加权频繁模式挖掘方法具有快速、有效和时空需求稳定性高的特点,并适用于数据流环境的加权频繁模式挖掘。

Description

一种基于滑动窗口的数据流加权频繁模式挖掘方法
技术领域
本发明涉及通信领域,具体涉及一种数据流加权频繁模式挖掘方法。 
背景技术
数据挖掘技术已经广泛的应用在Web日志分析、网络安全监控等当中。数据挖掘技术可以有效地、精确的对用户的访问、检索进行有限的扩展,提高用户的效率;还可根据实际用户的浏览情况,挖掘用户的兴趣点,定期为用户推送相关信息,以及调整网站中网页的链接结构和内容,为用户提供个人的定制服务。 
频繁模式挖掘是发现关联规则的基础,传统的频繁模式挖掘方法认为数据中每个项都是同等重要的。然而在实际应用中,特定的项或模式由于用户对其兴趣度不同,可能比其他项或模式更加重要,例如:在零售业中,钻石戒指的支持度可能比发卡的支持度低很多,但销售者显然对前者的知识信息具有较高的兴趣度;又如在生物数据分析中,某些基因对特定的疾病治疗比其他基因更为重要。若采用传统的频繁模式挖掘方法,有较低支持度但较高兴趣度的模式信息将无法被挖掘。因此在频繁模式挖掘中,可以为每个项目赋予不同的权值来反映不同的重要性,以便挖掘出具有较高兴趣度但支持度较低的项或模式。 
随着Internet以及传感器网络等技术的发展,越来越多应用中的数据以流数据的形式出现。流数据具有连续、流动、高速、无限等特点,当新的数据达到时,数据流所包含的知识信息在不断的变化。与快照窗口和界标窗口相比,滑动窗口模型更关注最近到达的数据,因此在数据流频繁模式挖掘领域被广泛应用。但在基于滑动窗口的数据流挖掘中,不但要增量处理高速到达的新数据,还要及时淘汰过期数据,滑动窗口中的数据既增又减,因此其频繁模式的挖掘具有更大的挑战性。 
目前尽管对加权频繁模式挖掘问题已经进行了一定的相关研究,但针对具体应用问题的数据流加权频繁模式挖掘的研究还开展的比较少。 
发明内容
本发明的目的在于,提供一种数据流加权频繁模式挖掘方法,所述方法采用SWFP单元来压缩存储数据流滑动窗口内的加权频繁模式;当流数据流过时,本方法仅对数据进行单遍扫描。而且基于滑动窗口的数据流加权频繁模式挖掘方法 采用两种剪枝策略来定期删除模式树种不频繁模式,以便压缩SWFP-Tree的存储空间,减少了维护滑动窗口SWFP-Tree模式树的时间与空间代价。 
为实现上述目的,本发明提供了一种数据流加权频繁模式挖掘方法,基于滑动窗口进行操作,所述滑动窗口是数据流上固定个数的事务序列,并随着时间的推进不断向前滑动;将滑动窗口SW分割成大小相同的n个子窗口,即基本窗口BW,我们以基本窗口作为更新处理单元,其改进在于,采用SWFP单元来动态维护数据流滑动窗口内的数据的有效数据信息,实现加权频繁模式的数据挖掘,SWFP单元包含一个SWFP-Tree模式树以及一个项头表IHT;上述挖掘方法包括以下步骤: 
1.进行项头表和SWFP-Tree的初始化; 
2.往滑动窗口中加入新到达的基本窗口; 
3.判断滑动窗口是否已经积满,如果判断结果为“是”,则设置当前滑动窗口中最老的基本窗口为过期窗口并删除,在删除过期窗口之后,往滑动窗口继续加入新到达的基本窗口,如果判断结果为“否”,则继续往滑动窗口加入新到达的基本窗口; 
4.当项头表中节点对应的项支持度为0或SWFP-Tree中节点的支持度为0时,按照两种剪枝策略对SWFP-Tree模式树执行剪枝; 
5.对滑动窗口进行挖掘,输出当前滑动窗口中的加权频繁模式集; 
其中,在步骤2和步骤3中的往滑动窗口中加入新到达的基本窗口时,将新的基本窗中的数据更新到SWFP-Tree模式树和项头表IHT中,所述更新的数据包括模式信息及权重信息增量。 
本发明提供的优选技术方案中,所述SWFP单元中的SWFP-Tree模式树是一棵具有根节点的压缩前缀扩展模式树,由一个根节点和若干由根节点引出的前缀子树组成,用来维护当前滑动窗口的概要数据信息,所述SWFP-Tree模式树中的节点以项的升序进行排列,代表从根节点的直接子节点到该节点路径对应的模式;所述SWFP单元的所述项头表用来保存所述SWFP-Tree模式树中各数据项的支持度计数。 
本发明提供的第二优选技术方案中,在步骤3中,设所述滑动窗口内包含K个所述基本窗口,当所述基本窗口编号i小于K时,往滑动窗口中加入新 到达的基本窗口,当滑动窗口积满后,即新的基本窗口编号i大于K时,先进行过期窗口的删除,再加入新到达的基本窗口。 
本发明提供的第三优选技术方案中,往所述滑动窗口中加入新到达的基本窗口,是一个Inserting_Weighted_Tree过程,所述Inserting_Weighted_Tree过程完成将排序后的数据流事务T’中的各项加入SWFP-Tree模式树的任务;所述Inserting_Weighted_Tree过程是对排序后事务的所有项目进行递归式处理直到项目表为空。 
本发明提供的第四优选技术方案中,步骤4中的所述过期窗口,包含的模式信息是过期信息。 
本发明提供的第五优选技术方案中,所述步骤5中的两种剪枝策略为: 
第一种:自顶向下获取项头表IHT中每个项e,若不加权频繁,则剪枝SWFP-Tree模式树中所有与e同名的节点以及它们的子孙节点; 
第二种:若节点nd在各基本窗口内修订加权支持度之和小于ε|SW|,则剪枝所述节点nd以及所述节点nd的子孙节点; 
其中,ε表示允许的误差,|SW|表示滑动窗口的大小。 
本发明提供的较优选技术方案中,在所述步骤6中,在SWFP-Tree模式树被创建和更新后,采用自底向上的深度优先的遍历算法,递归的挖掘加权频繁模式树,同时将挖掘得到的结果保存到一个加权频繁数据项集中。 
本发明提供的第二较优选技术方案中,所述Inserting_Weighted_Tree过程的具体步骤为: 
2-1.判断SWFP-Tree模式树的根节点R是否有一个子女N的项名与p相同,如果判断结果为“是”,则N的支持度计数加1,并比较所述子女N的当前窗口修订权值与数据流事务T’的真实权值wt的大小关系,若所述wt较大,则将子女N的当前窗口修订权值改为wt;如果判断结果为“否”,则创建一个新的节点N,将所述新节点N的计数设置为1,并将所述新节点N的当前窗口的修订权值设置为wt,使所述新节点N链接到根节点R,并通过节点链结构将所述新节点N链接到SWFP-Tree模式树中具有相同item_name的节点; 
2-2.更新所述项头表中与p有关项的支持度计数以及修订权值; 
2-3.递归调用所述Inserting_Weighted_Tree过程,将所述数据流事务T’ 中剩余的项加入所述SWFP-Tree模式树; 
其中,p是数据流事务T’的第一个元素。 
与现有技术比,本发明的有益效果是,本发明提供的基于滑动窗口的数据流加权频繁模式挖掘方法具有快速、有效、时空需求稳定性高以及占用系统资源少的特点,使模式树的空间代价减小,在SWFP-Tree模式树的节点域中我们加入修订权值,在进行剪枝时可保证“向下闭合”特性,而且剪枝算法无需遍历SWFP-Tree树上的所有节点,提高了模式树剪枝的速度。 
附图说明
图1为本发明数据流加权频繁模式挖掘方法的流程图。 
图2为SWFP-Tree模式树的结构示意图。 
图3为从SWFP-Tree模式树中对D同名的节点及其子孙节点剪枝前的SWFP-Tree模式树的结构示意图。 
图4为应用了第一种剪枝策略,从SWFP-Tree模式树中对D同名的节点及其子孙节点剪枝后的SWFP-Tree模式树的结构示意图。 
图5表示了对图3中SWFP-Tree模式树应用了第二种剪枝策略后的SWFP-Tree模式树的结构示意图。 
具体实施方式
如图1所示,本发明提供了一种数据流加权频繁模式挖掘方法,基于滑动窗口进行操作,所述滑动窗口是数据流上固定个数的事务序列,并随着时间的推进不断向前滑动;将滑动窗口SW分割成大小相同的n个子窗口,即基本窗口BW,我们以基本窗口作为更新处理单元,其改进在于,采用SWFP单元来动态维护数据流滑动窗口内的数据的有效数据信息,实现加权频繁模式的数据挖掘,SWFP单元包含一个SWFP-Tree模式树以及一个项头表IHT;上述挖掘方法包括以下步骤: 
1.进行项头表和SWFP-Tree的初始化; 
2.往滑动窗口中加入新到达的基本窗口; 
3.判断滑动窗口是否已经积满,如果判断结果为“是”,则设置当前滑动窗口中最老的基本窗口为过期窗口并删除,在删除过期窗口之后,往滑动窗口继续加入新到达的基本窗口,如果判断结果为“否”,则继续往滑动窗口加入新到达的基本窗口; 
4.按照两种剪枝策略对SWFP-Tree模式树执行剪枝; 
5.对滑动窗口进行挖掘,输出当前滑动窗口中的加权频繁模式集; 
其中,在步骤2和步骤3中的往滑动窗口中加入新到达的基本窗口时,将新的基本窗中的数据更新到SWFP-Tree模式树和项头表IHT中,所述更新的数据包括模式信息及权重信息增量。 
如图2所示,所述SWFP单元中的SWFP-Tree模式树是一棵具有根节点的压缩前缀扩展模式树,由一个根节点和若干由根节点引出的前缀子树组成,用来维护当前滑动窗口的概要数据信息,所述SWFP-Tree模式树中的节点以项的升序进行排列,代表从根节点的直接子节点到该节点路径对应的模式;所述SWFP单元的所述项头表用来保存所述SWFP-Tree模式树中各数据项的支持度计数。 
SWFP-Tree模式树中除了根节点外每个树节点拥有以下5个域:item_name表示该节点对应的项目名;sup_count记录该节点对应的模式在当前滑动窗口内的总的支持度计数;refined_weight记录该节点对应模式的修订权值;node_parent为指向父节点的指针;node_link链接到树中具有相同项目名称的下一个节点,若下一个节点不存在,则为null;bw_list是长度为n的列表,n为滑动窗口内包含的基本窗口的数目,列表中的元组表示为<cnt,refined_weight>,分别表示该节点对应的模式在此基本窗口内的支持度计数以及该节点对应模式在此基本窗口内的修订权值。 
项头表IHT记录各数据项在滑动窗口内的支持度计数,其中每个元素包含以下5个域:item_name表示项目名称;sup_count表示该项在当前滑动窗口内的支持度总计数;weight存储该项目的权值;refined_weight记录该节点对应模式的修订权值;headpoint指向模式树中与item_name对应的第一个节点的指针。 
SWFP-Tree是一种改进的前缀模式树,它继承了FP-Tree结构紧凑的优点,但又对模式树FP-Tree节点的存储结构进行了重要改进。SWFP-Tree具有以下适合于增量维护数据流滑动时间窗口加权频繁模式挖掘的性质。 
(1)FP-Tree将各分枝上的节点按支持度降序排列,但至少需要对数据进行两遍扫描。由于数据流高速流入、数据流过即逝的特点,无法对数据进行多遍扫描,因此SWFP-Tree中各节点按预定义的全序关系进行排列,我们采用按项的权值升序排列。采用预定义的全序关系来对数据流事务数据中的项进行排序,可 以使SWFP-Tree模式树的节点间排列顺序相对固定,不必随流数据的达到而不断调整模式数上的各节点顺序。同时我们采用按项的权值进行升序排列,是因为权值高的项通常出现频率较低,按项的权值升序排列可以使流数据有更多的机会共享相同的前缀,从而使模式树的空间代价减小。 
(2)在SWFP-Tree模式树中引入“修订权值”和“修订加权支持度”来保证“向下闭合性”。 
在频繁模式挖掘中,“向下闭合性”是一个重要的性质,可以用来压缩搜索空间。“向下闭合性”表明,如果一个k-模式Pk是非频繁的,则Pk的所有超模式Pl即 P k &Subset; P l ( k < l ) 都是非频繁模式,即 sup ( P k ) < S min &DoubleRightArrow; sup ( p l ) < S min .
k-模式Pk的修订权值可定义为:w′(Pk)=max(w(Pi)),其中k≤i≤l且 
Figure BDA0000087401490000063
即若存在Pk的超模式的权值大于模式Pk的权值,则采用Pk的所有超模式中的最大权值定义为Pk的修订权值。 
k-模式Pk的修订加权支持度wsup′(Pk)可定义为:wsup′(Pk)=w′(Pk)*sup(Pk)=max(w(Pi))*sup(Pk),其中k≤i≤l且 
采用修订加权支持度,可以在加权频繁模式挖掘中保持“向下闭合”特性。因为k-模式Pk与Pk的任意超模式Pl,都满足sup(Pk)≥sup(Pl)。若对于Pk采用其修订权值w′(Pk)=max(w(Pi))其中k≤i≤l且 
Figure BDA0000087401490000065
则Pk的修订加权支持度wsup′(Pk)=w′(Pk)*sup(Pk)=max(w(Pi))*sup(Pk)≥w(Pl)*sup(Pl),即wsup′(Pk)≥wsup(Pl),其中k≤i≤l且 
Figure BDA0000087401490000066
因此若k-模式Pk是加权非频繁模式,即模式Pk的加权支持度小于最小加权支持度阀值wsup′(Pk)<wsmin,则Pk的任意超模式Pl的加权支持度都应小于最小支持度加权阀值,即满足wsup(Pl)<wsmin。因此 wsup &prime; ( P k ) < ws min &DoubleRightArrow; wsup ( p l ) < w s min . 其中 P k &Subset; P l ( k < l ) , 即在采用修订加权支持度的情况下,若k-模式Pk是加权非频繁模式,则Pk的任意超模式也是加权非频繁的。 
在SWFP-Tree模式树的节点域中我们加入修订权值,在进行剪枝时我们使用模式的修订的加权支持度来可保证“向下闭合”特性。但由于修订权值将模式 P的加权支持度进行了放大,因此修订加权支持度大于最小加权支持度阀值WSmin的模式不一定是最终的加权频繁模式,还需要在挖掘的最后阶段用模式P的真实加权支持度来进行判定。 
下面对方法中的“基本窗口的加入”、“过期窗口删除”、“剪枝策略”和“加权频繁模式挖掘”进行如下详细描述: 
1.基本窗口的加入: 
每当一个新的基本窗口到来时,将新到达的流数据更新到SWFP-Tree和项头表IHT,其主要步骤如算法1描述如下: 
Figure BDA0000087401490000071
基本窗加入算法的主要步骤是Inserting_Weighted_Tree过程。Inserting_Weighted_Tree过程是对流数据的一个投影事务对应的项目集的处理,它对排序后事务的所有项目进行递归式处理直到项目表为空。Inserting_Weighted_Tree([p/P],N,wt)的实现如下: 
Figure BDA0000087401490000072
Inserting_Weighted_Tree过程完成将排序后的数据流事务T’中各项加入SWFP-Tree的任务。如果SWFP-Tree的根R有一个子女N的项名与p(p是T’ 的第一个元素,P是剩余元素列表)相同,则N的支持度计数加1,并比较N的当前窗口修订权值与模式T’的真实权值wt的大小关系,若wt较大,则N的当前窗口修订权值改为wt;若SWFP-Tree的根R没有子女与p的项名相同,则创建一个新的节点N,将其计数设置为1,新节点N的当前窗口的修订权值设置为wt,并链接到根节点R,并通过节点链结构将其链接到SWFP-Tree具有相同item_name的节点。之后更新项头表中与p有关项的支持度计数以及修订权值。最后,递归调用Inserting_Weighted_Tree,将T’中剩余的项加入SWFP-Tree。此过程中与修订权值有关的操作是为了保证“向下闭合性”,以便进行有效的剪枝。 
2.过期窗口删除 
当新的基本窗到来时,当前滑动窗口中最老的基本窗口成为过期窗口,其所包含的模式信息是过期信息,要消除其对SWFP-Tree中相关节点的影响。算法4Deleting_Expired_BW描述了处理过程,其中(i mod K)是过期窗口的时间戳。 
Figure BDA0000087401490000081
Deleting_Expired_BW过程的作用是消除过期基本窗口对当前滑动窗口的影响。其中要分别消除过期窗口对项头表IHT和SWFP-Tree支持度计数以及修订权值的影响。当SWFP-Tree中节点nd的支持度为0时,要对其进行剪枝。 
3.SWFP-Tree剪枝 
当数据流上的事务数据连续到达时,事务数据所包含的模式信息都增量更新到SWFP单元中,这其中也包括数据所包含的加权非频繁模式。随着时间推移,加权非频繁模式的数量将迅速增加,而导致SWFP-Tree树的空间复杂度大大增加。为了减少维护滑动窗口SWFP-Tree树的时间与空间代价,必须定期对SWFP-Tree进行剪枝,删除树上那些必定加权非频繁模式所对应的分枝。 
我们的剪枝算法Pruning_SWFP-Tree()中主要定义了两种剪枝策略,能有效 的减少搜索空间的大小,两种剪枝策略为: 
自顶向下获取项头表IHT中每个项e,若不加权频繁(即e.sup_count*e.refined_weight<WSmin),则剪枝SWFP-Tree中所有与e同名的节点以及它们的子孙节点。 
若节点nd各基本窗内修订加权支持度之和小于ε|SW|,则剪枝该节点以及其子孙节点。 
如图3和图4分别显示了应用第一种剪枝策略前后的SWFP-Tree的结构。假设项头表IHT中项D的修订加权支持度小于加权支持度阀值,则D一定是加权非频繁的。同时由于计算时采用的是“修订加权支持度”,因此保证了“向下闭合”特性,即非频繁项集的超集一定是非频繁的,因此D的子孙节点可以安全剪枝。 
图5表示了对图3中SWFP-Tree应用了第二种剪枝策略后的SWFP-Tree的结构。若模式P在i个基本窗口中是加权非频繁的,则可以忽略P在此基本窗口中的计数不计,可以保证滑动窗口内的加权频繁模式正确输出,即保持真实加权支持度与估计误差支持度误差小于ε。 
当滑动窗口树SW-tree剪枝时,我们采用自顶向下的方法遍历项头表IHT中的数据项,能尽快对加权非频繁项及其子孙实施剪枝。对于IHT中任意一个数据项e,如果它是加权非频繁的(采用修订权值计算),则删除SWFP-Tree模式树上所有与其同名的节点。否则遍历SWFP-Tree模式树上与其同名的节点,并删除那些无功节点以及它们的孩子节点。我们的剪枝算法无需遍历SWFP-Tree树上的所有节点,故提高了模式树剪枝的速度。滑动窗口加权频繁模式的剪枝操作由下算法4是用来执行,主要步骤描述如下: 
4.加权频繁模式挖掘: 
在我们的SWFP结构中,IHT中的项和SWFP-Tree中的节点按项的权值降序排列,在SWFP-Tree创建和更新后,我们采用自底向上的深度优先的遍历算法,递归的挖掘加权频繁模式树,同时挖掘得到的结果保存到一个称为WFIS(Weighted Frequent Itemset)的加权频繁数据项集的集中。算法Mining_SWFP-Tree()用来实现数据流上加权频繁模式的挖掘Mining_SWFP-Tree()是一个递归算法。 
由于SWFP-Tree中不仅维护着真实加权频繁模式的信息,还包含临界加权频繁的模式信息。因此当模式输出时,需要首先计算SWFP-Tree中节点对应的模式的真实权值,判断其所对应的模式是否为真实加权频繁模式。只有当节点对应的模式是真实加权频繁模式时,才从SWFP-Tree上输出该模式,然后构成该节点的条件模式基,具体算法描述如下: 
Figure BDA0000087401490000101
在真实数据集Kosarak上测试了所述数据流加权频繁模式挖掘方法的性能。Kosarak包含匈牙利在线新闻网站Web点击流数据,是一个较大的数据集,包含约100万的事务和41,270个不同的项。实验对比了所述数据流加权频繁模式挖掘方法与FP-Growth的时空性能。在不同最小加权支持度阀值下,所述数据流加权频繁模式挖掘方法性能提升平均达到25%左右,最大内存需求减少30%左右。 
需要声明的是,本发明内容及具体实施方式意在证明本发明所提供技术方案的实际应用,不应解释为对本发明保护范围的限定。本领域技术人员在本发明的精神和原理启发下,可作各种修改、等同替换、或改进。但这些变更或修改均在申请待批的保护范围内。 

Claims (8)

1.一种数据流加权频繁模式挖掘方法,所述数据流加权频繁模式挖掘方法基于滑动窗口进行操作,所述滑动窗口是数据流上固定个数的事务序列,并随着时间的推进不断向前滑动;将滑动窗口SW分割成大小相同的n个子窗口,即基本窗口BW,我们以基本窗口作为更新处理单元,其特征在于,采用SWFP单元来动态维护数据流滑动窗口内的数据的有效数据信息,实现加权频繁模式的数据挖掘,SWFP单元包含一个SWFP-Tree模式树以及一个项头表IHT;上述挖掘方法包括以下步骤:
1.进行项头表和SWFP-Tree的初始化;
2.往滑动窗口中加入新到达的基本窗口;
3.判断滑动窗口是否已经积满,如果判断结果为“是”,则设置当前滑动窗口中最老的基本窗口为过期窗口并删除,在删除过期窗口之后,往滑动窗口继续加入新到达的基本窗口,如果判断结果为“否”,则继续往滑动窗口加入新到达的基本窗口;
4.当项头表中节点对应的项支持度为0或SWFP-Tree中节点的支持度为0时,按照两种剪枝策略对SWFP-Tree模式树执行剪枝;
5.对滑动窗口进行挖掘,输出当前滑动窗口中的加权频繁模式集;
其中,在步骤2和步骤3中的往滑动窗口中加入新到达的基本窗口时,将新的基本窗中的数据更新到SWFP-Tree模式树和项头表IHT中,所述更新的数据包括模式信息及权重信息增量。
2.如权利要求1所述的数据流加权频繁模式挖掘方法,其特征在于,所述SWFP单元中的SWFP-Tree模式树是一棵具有根节点的压缩前缀扩展模式树,由一个根节点和若干由根节点引出的前缀子树组成,用来维护当前滑动窗口的概要数据信息,所述SWFP-Tree模式树中的节点以项的升序进行排列,代表从根节点的直接子节点到该节点路径对应的模式;所述SWFP单元的所述项头表用来保存所述SWFP-Tree模式树中各数据项的支持度计数。
3.如权利要求1所述的数据流加权频繁模式挖掘方法,其特征在于,在步骤3中,设所述滑动窗口内包含K个所述基本窗口,当所述基本窗口编号i小于K时,往滑动窗口中加入新到达的基本窗口,当滑动窗口积满后,即新的基本窗口编号i大于K时,先进行过期窗口的删除,再加入新到达的基本窗口。
4.如权利要求1所述的数据流加权频繁模式挖掘方法,其特征在于,往所述滑动窗口中加入新到达的基本窗口,是一个Inserting_Weighted_Tree过程,所述Inserting_Weighted_Tree过程完成将排序后的数据流事务T’中的各项加入SWFP-Tree模式树的任务;所述Inserting_Weighted_Tree过程是对排序后事务的所有项目进行递归式处理直到项目表为空。
5.如权利要求1所述的数据流加权频繁模式挖掘方法,其特征在于,步骤4中的所述过期窗口,包含的模式信息是过期信息。
6.如权利要求1所述的数据流加权频繁模式挖掘方法,其特征在于,所述步骤5中的两种剪枝策略为:
第一种:自顶向下获取项头表IHT中每个项e,若不加权频繁,则剪枝SWFP-Tree模式树中所有与e同名的节点以及它们的子孙节点;
第二种:若节点nd在各基本窗口内修订加权支持度之和小于ε|SW|,则剪枝所述节点nd以及所述节点nd的子孙节点;
其中,ε表示允许的误差,0<ε<1;|SW|表示滑动窗口的大小。
7.如权利要求1所述的数据流加权频繁模式挖掘方法,其特征在于,在所述步骤6中,在SWFP-Tree模式树被创建和更新后,采用自底向上的深度优先的遍历方法,递归的挖掘加权频繁模式树,同时将挖掘得到的结果保存到一个加权频繁数据项集中。
8.如权利要求4所述的数据流加权频繁模式挖掘方法,其特征在于,所述Inserting_Weighted_Tree过程的具体步骤为:
2-1.判断SWFP-Tree模式树的根节点R是否有一个子女N的项名与p相同,如果判断结果为“是”,则N的支持度计数加1,并比较所述子女N的当前窗口修订权值与数据流事务T’的真实权值wt的大小关系,若所述wt较大,则将子女N的当前窗口修订权值改为wt;如果判断结果为“否”,则创建一个新的节点N,将所述新节点N的计数设置为1,并将所述新节点N的当前窗口的修订权值设置为wt,使所述新节点N链接到根节点R,并通过节点链结构将所述新节点N链接到SWFP-Tree模式树中具有相同item_name的节点;
2-2.更新所述项头表中与p有关项的支持度计数以及修订权值;
2-3.递归调用所述Inserting_Weighted_Tree过程,将所述数据流事务T’中剩余的项加入所述SWFP-Tree模式树;
其中,p是数据流事务T’的第一个元素。
CN201110252776.9A 2011-08-30 2011-08-30 一种基于滑动窗口的数据流加权频繁模式挖掘方法 Active CN102289507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110252776.9A CN102289507B (zh) 2011-08-30 2011-08-30 一种基于滑动窗口的数据流加权频繁模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110252776.9A CN102289507B (zh) 2011-08-30 2011-08-30 一种基于滑动窗口的数据流加权频繁模式挖掘方法

Publications (2)

Publication Number Publication Date
CN102289507A true CN102289507A (zh) 2011-12-21
CN102289507B CN102289507B (zh) 2015-05-27

Family

ID=45335933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110252776.9A Active CN102289507B (zh) 2011-08-30 2011-08-30 一种基于滑动窗口的数据流加权频繁模式挖掘方法

Country Status (1)

Country Link
CN (1) CN102289507B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662642A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
CN104298778A (zh) * 2014-11-04 2015-01-21 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及系统
CN104516905A (zh) * 2013-09-29 2015-04-15 日电(中国)有限公司 一种挖掘稀有均衡序列的方法及装置
CN104850577A (zh) * 2015-03-19 2015-08-19 浙江工商大学 一种基于有序复合树结构的数据流最大频繁项集挖掘方法
CN105698803A (zh) * 2016-01-15 2016-06-22 武汉光庭信息技术股份有限公司 基于滑动窗二进制比对算法的导航数据增量信息提取方法
CN105786919A (zh) * 2014-12-26 2016-07-20 亿阳信通股份有限公司 一种告警关联规则挖掘方法和装置
CN106095930A (zh) * 2016-06-12 2016-11-09 西南石油大学 基于弱通配符的石油生产数据频繁模式挖掘方法
CN106375339A (zh) * 2016-10-08 2017-02-01 电子科技大学 基于事件滑动窗口的攻击模式检测方法
CN106778346A (zh) * 2016-12-22 2017-05-31 广西师范大学 事务型数据流发布的隐私保护方法
CN107451302A (zh) * 2017-09-22 2017-12-08 深圳大学 滑动窗口下基于位置top‑k关键词查询的建模方法及系统
CN107633068A (zh) * 2017-09-22 2018-01-26 深圳大学 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统
CN107832431A (zh) * 2017-11-14 2018-03-23 泰州学院 事件序列上频繁闭情节的挖掘方法
CN108073700A (zh) * 2017-12-12 2018-05-25 清华大学 一种基于滑动窗口的数据可视化方法和系统
CN108563757A (zh) * 2018-04-16 2018-09-21 泰州学院 普适的事件序列频繁情节挖掘方法
CN109033189A (zh) * 2018-06-27 2018-12-18 阿里巴巴集团控股有限公司 链路结构日志的压缩方法、装置、服务器及可读存储介质
CN109857758A (zh) * 2018-12-29 2019-06-07 天津南大通用数据技术股份有限公司 一种基于邻居窗口的关联分析方法及系统
CN113011231A (zh) * 2019-12-20 2021-06-22 舜宇光学(浙江)研究院有限公司 分类滑窗方法和slam定位方法及其系统和电子设备
CN113268529A (zh) * 2021-07-21 2021-08-17 广东粤港澳大湾区硬科技创新研究院 一种基于卫星时序关联关系算法的优化方法及装置
CN115374384A (zh) * 2022-10-24 2022-11-22 北京长河数智科技有限责任公司 基于大数据分析的信息发布方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张啸剑: "基于Web点击流的频繁访问序列挖掘研究", 《 中国优秀硕士学位论文全文数据库》 *
张小彬: "数据流中频繁项集挖掘算法及其应用研究", 《中国优秀硕士学位论文全文数据库》 *
李国徽等: "挖掘数据流任意滑动时间窗口内频繁模式", 《JOURNAL OF SOFTWARE》 *
李国徽等: "挖掘滑动窗口中的数据流频繁模式", 《小型微型计算机系统》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662642B (zh) * 2012-04-20 2016-05-25 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN102662642A (zh) * 2012-04-20 2012-09-12 浪潮电子信息产业股份有限公司 一种基于嵌套滑动窗口和遗传算法的并行处理方法
CN103258049A (zh) * 2013-05-27 2013-08-21 重庆邮电大学 一种基于海量数据的关联规则挖掘方法
CN104516905A (zh) * 2013-09-29 2015-04-15 日电(中国)有限公司 一种挖掘稀有均衡序列的方法及装置
CN104516905B (zh) * 2013-09-29 2020-11-06 日电(中国)有限公司 一种挖掘稀有均衡轨迹数据的方法及装置
CN104298778A (zh) * 2014-11-04 2015-01-21 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及系统
CN104298778B (zh) * 2014-11-04 2017-07-04 北京科技大学 一种基于关联规则树的轧钢产品质量的预测方法及系统
CN105786919A (zh) * 2014-12-26 2016-07-20 亿阳信通股份有限公司 一种告警关联规则挖掘方法和装置
CN105786919B (zh) * 2014-12-26 2019-11-26 亿阳信通股份有限公司 一种告警关联规则挖掘方法和装置
CN104850577A (zh) * 2015-03-19 2015-08-19 浙江工商大学 一种基于有序复合树结构的数据流最大频繁项集挖掘方法
CN105698803B (zh) * 2016-01-15 2018-06-19 武汉中海庭数据技术有限公司 基于滑动窗二进制比对算法的导航数据增量信息提取方法
CN105698803A (zh) * 2016-01-15 2016-06-22 武汉光庭信息技术股份有限公司 基于滑动窗二进制比对算法的导航数据增量信息提取方法
CN106095930A (zh) * 2016-06-12 2016-11-09 西南石油大学 基于弱通配符的石油生产数据频繁模式挖掘方法
CN106375339A (zh) * 2016-10-08 2017-02-01 电子科技大学 基于事件滑动窗口的攻击模式检测方法
CN106375339B (zh) * 2016-10-08 2019-07-09 电子科技大学 基于事件滑动窗口的攻击模式检测方法
CN106778346B (zh) * 2016-12-22 2019-10-15 广西师范大学 事务型数据流发布的隐私保护方法
CN106778346A (zh) * 2016-12-22 2017-05-31 广西师范大学 事务型数据流发布的隐私保护方法
CN107451302A (zh) * 2017-09-22 2017-12-08 深圳大学 滑动窗口下基于位置top‑k关键词查询的建模方法及系统
CN107633068A (zh) * 2017-09-22 2018-01-26 深圳大学 滑动窗口下基于位置top‑k关键词查询的快速索引方法及系统
CN107633068B (zh) * 2017-09-22 2020-04-07 深圳大学 滑动窗口下基于位置top-k关键词查询的快速索引方法及系统
CN107832431A (zh) * 2017-11-14 2018-03-23 泰州学院 事件序列上频繁闭情节的挖掘方法
CN108073700A (zh) * 2017-12-12 2018-05-25 清华大学 一种基于滑动窗口的数据可视化方法和系统
CN108073700B (zh) * 2017-12-12 2019-06-18 清华大学 一种基于滑动窗口的数据可视化方法和系统
CN108563757A (zh) * 2018-04-16 2018-09-21 泰州学院 普适的事件序列频繁情节挖掘方法
CN108563757B (zh) * 2018-04-16 2021-05-28 泰州学院 普适的事件序列频繁情节挖掘方法
CN109033189A (zh) * 2018-06-27 2018-12-18 阿里巴巴集团控股有限公司 链路结构日志的压缩方法、装置、服务器及可读存储介质
CN109033189B (zh) * 2018-06-27 2021-08-24 创新先进技术有限公司 链路结构日志的压缩方法、装置、服务器及可读存储介质
CN109857758A (zh) * 2018-12-29 2019-06-07 天津南大通用数据技术股份有限公司 一种基于邻居窗口的关联分析方法及系统
CN113011231A (zh) * 2019-12-20 2021-06-22 舜宇光学(浙江)研究院有限公司 分类滑窗方法和slam定位方法及其系统和电子设备
CN113268529A (zh) * 2021-07-21 2021-08-17 广东粤港澳大湾区硬科技创新研究院 一种基于卫星时序关联关系算法的优化方法及装置
CN113268529B (zh) * 2021-07-21 2021-11-16 广东粤港澳大湾区硬科技创新研究院 一种基于卫星时序关联关系算法的优化方法及装置
CN115374384A (zh) * 2022-10-24 2022-11-22 北京长河数智科技有限责任公司 基于大数据分析的信息发布方法及装置
CN115374384B (zh) * 2022-10-24 2022-12-16 北京长河数智科技有限责任公司 基于大数据分析的信息发布方法及装置

Also Published As

Publication number Publication date
CN102289507B (zh) 2015-05-27

Similar Documents

Publication Publication Date Title
CN102289507B (zh) 一种基于滑动窗口的数据流加权频繁模式挖掘方法
Shie et al. Efficient algorithms for mining maximal high utility itemsets from data streams with different models
Gan et al. Mining of frequent patterns with multiple minimum supports
Tzvetkov et al. TSP: Mining top-k closed sequential patterns
CN102929996B (zh) XPath查询优化方法及系统
CN102306183B (zh) 一种对事务数据流进行闭合加权频繁模式挖掘的方法
Shin et al. CP-tree: An adaptive synopsis structure for compressing frequent itemsets over online data streams
CN106202430A (zh) 基于关联规则的直播平台用户兴趣度挖掘系统及挖掘方法
CN103676645A (zh) 一种时间序列数据流中的关联规则的挖掘方法
CN100354865C (zh) 仿人工细粒度网页信息采集方法
CN104537025A (zh) 频繁序列挖掘方法
Farzanyar et al. Max-FISM: Mining (recently) maximal frequent itemsets over data streams using the sliding window model
Dam et al. Towards efficiently mining closed high utility itemsets from incremental databases
CN103455593B (zh) 一种基于社交网络的服务竞争性实现系统及方法
Roy et al. Mining weighted sequential patterns in incremental uncertain databases
CN103440328B (zh) 一种基于鼠标行为的用户分类方法
CN103020283B (zh) 一种基于背景知识的动态重构的语义检索方法
Shah et al. Incremental mining of association rules: A survey
Feng et al. UT-Tree: Efficient mining of high utility itemsets from data streams
CN106156321A (zh) 一种面向分布异构安全数据流的数据挖掘模型系统
Cheng et al. ETKDS: An efficient algorithm of Top-K high utility itemsets mining over data streams under sliding window model
Pradeepini et al. Tree-based incremental association rule mining without candidate itemset generation
Prasad et al. Frequent pattern mining and current state of the art
CN100403308C (zh) 基于sql负载挖掘的物理数据库自动设计方法
Hu et al. An incremental rare association rule mining approach with a life cycle tree structure considering time-sensitive data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant