CN104408290A

CN104408290A - 基于包含与演绎分析的精确序列规则挖掘方法

Info

Publication number: CN104408290A
Application number: CN201410598480.6A
Authority: CN
Inventors: 杜承烈; 吴其蔓; 尤涛; 钟冬
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2014-10-30
Filing date: 2014-10-30
Publication date: 2015-03-11

Abstract

本发明公开了一种基于包含与演绎分析的精确序列规则挖掘方法，用于解决现有规则冗余的技术问题。技术方案是首先挖掘频繁闭情节及生成子，以保证序列规则在挖掘过程是无冗余的；然后，在构成序列规则的过程中，通过检查频繁闭情节集和生成子集，找到其最大重叠集元素以及其投影与被投影元素，过滤其投影与被投影元素产生的序列规则，即可达到冗余性检查的目的；最后，根据序列规则的定义，根据过滤后的频繁闭序列集和生成子集，生成精确序列规则。该方法在保证时刻复杂度和现有序列规则挖掘算法相当的前提下，消除了序列规则间的冗余，在保证序列规则代表信息完整性的前提下，保证了规则数量最少。

Description

基于包含与演绎分析的精确序列规则挖掘方法

技术领域

本发明涉及一种精确序列规则挖掘方法，特别是涉及一种基于包含与演绎分析的精确序列规则挖掘方法。

背景技术

文献“基于最小且非重叠发生的频繁闭情节挖掘，计算机研究与发展,2013,50(4),852-860”公开了一种基于频繁闭情节和生成子的无冗余序列规则挖掘方法。该方法选择频繁闭序列与生成子作为规则基。算法采用最小且非重叠发生的支持度定义和深度优先的搜索策略来发现频繁闭序列及其生成子，直接由频繁闭序列及其生成子产生序列规则。该算法的规则基——闭序列及其生成子已被证明可产生具有最小前件和最大后件的包含无冗余序列规则。但是该算法忽略了规则间的冗余关系，造成挖掘的序列规则存在冗余。同时，近年来序列规则挖掘方面开展的各类算法，虽然在数据组织、处理流程等方面各有不同，但主要分为三类，如表1所示。

产生序列规则全集的典型算法为TASA、WinMiner，该类算法以频繁序列为规则基，通过投影的方式产生序列规则全集。

产生最小前件序列规则全集的典型算法为GenMiner，其规则基为频繁序列与生成子。算法首先采用深度优先的搜索策略来创建存储所有序列的前缀搜索树PSL，然后通过遍历PSL得到包含所有序列模式生成子的超集，据此可以得到最小前件序列规则。

产生包含无冗余序列规则集的典型算法为Extractor。

表1典型序列规则挖掘算法分类比较

类别	规则基	产生规则
			1	频繁序列	序列规则全集
2	频繁序列与生成子	最小前件序列规则全集
			3	频繁闭序列与生成子	包含无冗余序列规则集

从上述序列规则挖掘算法的发展不难看出，规则的产生方式经历了频繁序列投影、频繁序列及其生成子投影、频繁闭序列及其生成子投影等阶段；算法的效率、精确程度、精简粒度都在逐步提高。但却忽略了多规则间的关联关系在挖掘过程中的作用，造成了规则冗余。

发明内容

为了克服现有挖掘方法存在规则冗余的不足，本发明提供一种基于包含与演绎分析的精确序列规则挖掘方法。该方法首先挖掘频繁闭情节及生成子，以保证序列规则在挖掘过程是无冗余的；然后，在构成序列规则的过程中，通过检查频繁闭情节集和生成子集，找到其最大重叠集元素以及其投影与被投影元素，过滤其投影与被投影元素产生的序列规则，即可达到冗余性检查的目的；最后，根据序列规则的定义，根据过滤后的频繁闭序列集和生成子集，生成精确序列规则。该方法在保证时刻复杂度和现有序列规则挖掘算法相当的前提下，消除序列规则间的冗余，在保证序列规则代表信息完整性的前提下，保证规则数量最少。

本发明解决其技术问题所采用的技术方案是：一种基于包含与演绎分析的精确序列规则挖掘方法，其特点是采用以下步骤：

步骤一、频繁闭序列及生成子挖掘：序列按照迭代生长的方式生长，即多序列是由1-序列生成。在挖掘频繁序列的过程中，首先在时间窗口内找到所有的1-频繁序列，再由1-频繁序列排列组成2-频繁序列，并挖掘这些候选2-频繁序列中的频繁序列，以此类推。按照频繁闭序列的定义，从频繁序列集中再次挖掘频繁闭序列。然后，根据生成子的定义，通过比较频繁序列与其前向扩展即父序列的支持度来检查此序列的前向扩展是否为生成子。故在得到频繁序列集后，针对尚未确定为生成子的频繁序列而言，只要通过比较此序列和它的其他真子序列的支持度就能确定此序列是否是生成子。

步骤二、冗余性检查：在生成规则的过程中，通过检查、过滤机制就能有效避免冗余演绎规则的产生。但即便如此，由于投影关系的传递性，进行演绎规则的过滤仍然是复杂的。为了提高演绎规则的过滤效率，只需要考虑闭序列和生成子的最大重叠项，对其进行演绎规则冗余检查。具体步骤如下：

(a)对于闭序列集和生成子集，遍历搜索找出这两个集合的相同序列集，且在相同序列集中找出最长的序列；

(b)找出最长相同序列在闭序列集合生成子集的投影和被投影序列；

(c)根据定理知规则间的冗余是由于存在生成子和闭序列的公共相同序列。故最长相同序列的一次投影和被投影过程中，最多只产生两个规则，其余规则均存在规则间的冗余性。冗余演绎规则的过滤过程，即对最长相同序列产生的规则进行过滤即可；

(d)产生无相同序列的生成子和闭序列集合；

步骤三、精确序列规则的产生：根据序列规则的定义，从频繁闭序列集和生成子集中产生序列规则。首先，对于给定的闭序列以及其生成子，求出生成子在闭序列上的投影；其次，对于给定的最小可信度，计算闭序列和生成子的支持度比值，若比值大于可信度阈值，则根据规则的定义，将此闭序列和生成子构成的序列规则加入到序列规则集合中。

本发明的有益效果是：该方法首先挖掘频繁闭情节及生成子，以保证序列规则在挖掘过程是无冗余的；然后，在构成序列规则的过程中，通过检查频繁闭情节集和生成子集，找到其最大重叠集元素以及其投影与被投影元素，过滤其投影与被投影元素产生的序列规则，即可达到冗余性检查的目的；最后，根据序列规则的定义，根据过滤后的频繁闭序列集和生成子集，生成精确序列规则。该方法在保证时刻复杂度和现有序列规则挖掘算法相当的前提下，消除了序列规则间的冗余，在保证序列规则代表信息完整性的前提下，保证了规则数量最少。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于包含与演绎分析的精确序列规则挖掘方法的流程图。

图2是本发明方法中冗余性检查的流程图。

具体实施方式

参照图1-2。本发明基于包含与演绎分析的精确序列规则挖掘方法具体步骤如下：

首先介绍该方法使用的基本定义如下：

事件，事件流：事件是给定事件类型集ε＝{E₁,E₂,…,E_n}中的事件E和事件发生时间t的二元组(E,t)。事件流是由若干ε中的事件按发生时间先后排列的序列，表示为ES＝<(E₁,t₁),(E₂,t₂),…,(E_s,t_s)>。

序列：由若干事件组成的串，表示为α＝<(E₁,t₁),(E₂,t₂),…,(E_k,t_k)>，简记为α＝<E₁E₂…E_k>。

串接，投影：给定序列α＝<E₁E₂…E_m>和β＝<E′₁E′₂…E′_k>，则<E₁E₂…E_mE′₁E′₂…E′_k>称为α和β的串接，记为concat(α,β)。设j是β在α中首次出现的结束位置，则从α中删除第1至第j个事件后剩余的序列称为β在α上的投影，记为project(α,β)。

发生：给定事件流ES和序列α＝<E₁E₂…E_k>，若ES在时间区间[t₁,t_k]上按α的事件排列顺序出现了α所代表的所有事件，则称ES上发生了序列α，时间区间[t₁,t_k]称为α在ES上的一次发生。

支持度：情节α在事件序列ES上所有最小且非重叠发生组成的最大集合的基数称为α的支持度，记为α.sup。

频繁序列，频繁闭序列，序列生成子：给定支持度阈值min_sup，若序列α的支持度大于等于min_sup，则α是一个频繁序列。若序列α是频繁的，且α的支持度不等于α的任何一个真超序列的支持度，则α是一个频繁闭序列。设f是一个闭序列，若g的支持度等于f的支持度，且g不存在与其支持度相同的任何一个真子序列，则g称为闭序列f的一个序列生成子。

序列规则：一个序列规则γ是一个五元组(l,r,s,c,ω)，分别表示规则的前件、后件、支持度、置信度和窗口宽度。序列规则集记为

RA = {(l, r, s, c, w) | l &Element; G^r = project (f, l)^f &Element; C^δ (l) &Subset; f},

其中l是频繁闭序列δ(l)的序列生成子，δ(l)是另一个频繁闭序列f的真子序列。

精确序列规则：给定序列规则γ(l,r,s,c,w)，若不存在序列规则γ′(l,r,s,c,w)，使得γ′.s＝γ.s，则称γ是一个精确序列规则，否则是一个包含冗余序列规则。

从http://www.d.umn.edu/～tkwon/TMCdata/TMCarchive.html网站下载了美国交通管理中心TMC(Traffic Management Center)在双城地铁高速公路的道路传感器上收集到的真实数据。进行数据预处理后使其符合序列数据的一般格式，其中A-F分别表示不同的路况情况。设某段时间的路况为<(C,1),(C,2),(E,3),(D,4),(C,5),(A,6),(E,7),(E,8),(B,9),(C,10),(E,11),(C,12),(A,13),(B,14),(F,15)>，最小支持度min_sup为2，最小置信度min_conf为0。参照图1所示方法流程，挖掘精确序列规则。

1、挖掘频繁闭序列和生成子

首先是挖掘频繁闭序列。序列按照迭代生长的方式生长，即多序列是由1-序列生成。在挖掘频繁序列的过程中，首先在时间窗口内找到所有的1-频繁序列，再由1-频繁序列排列组成2-频繁序列，并挖掘这些候选2-频繁序列中的频繁序列，以此类推。挖掘到所有的频繁序列后，按照频繁闭序列的定义，从频繁序列集中再次挖掘频繁闭序列。

其次是从频繁序列集中挖掘生成子。项集生成子具有如下性质：“若一个项集是一个频繁闭项集的生成子，则该生成子的真子集也是这个频繁闭项集的生成子”，这个性质可以用来加快项集生成子的挖掘。但是，在事件数据流中，序列生成子不具有此性质，一些非生成子序列具有此性质，可以加快序列生成子的发生。则通过比较频繁序列与其父序列的支持度来检查此序列的前向扩展是否为生成子。所以，在得到频繁序列集后，针对尚未确定为生成子的频繁序列而言，只要通过比较此序列和它的其他真子序列的支持度就可以确定此序列是否是生成子。

表2

序列生成子	支持度	闭序列	支持度
				<C>	5	<C>	5
<CC>	2	<CCE>	2
				<E>	4	<CE>	3
<A>	2	<CECAB>	2
				<EC>	3	<E>	4
<EE>	2	<EC>	3
				<CE>	3	<ECE>	2
<B>	2

表2是从已知事件序列中挖掘到的所有频繁闭序列和生成子。

2、冗余性检查。

虽然根据定义暴力搜索闭序列集合生成子集，但是为了提高演绎规则的过滤效率，下面给出定理及证明，发现只需考虑闭序列和生成子的最大重叠项进行演绎规则冗余检查即可。

定理生成子向频繁闭序列投影时，对互相重叠的生成子和闭序列，重叠集内部会存在互相包含关系，这些关系中，只需考虑最大的重叠项进行演绎规则冗余检查即可。

证明：设有生成子g₀、g₁、g₂，g₁、g₂是重叠集中的元素，并且g₀可以投影到g₁，g₁可以投影到g₂。由于投影规则是可传递的，g₀也可以投影到g₂，记为g₀-g₁-g₂。设有闭序列e，满足g₂-e，则有g₀-g₁-g₂-e。根据定理1，对于g₀-g₁-e而言，g₀-e、g₁-e两条规则蕴含g₀-g₁；对于g₀-g₂-e而言，g₀-e、g₂-e两条规则蕴含g₀-g₂；对于g₁-g₂-e而言，g₁-e、g₂-e两条规则蕴含g₁-g₂。可以看出，由g₀-g₁-e所产生的规则g₀-e、g₁-e完全包含在g₁-g₂-e、g₀-g₂-e所产生的规则中，而g₂为重叠集中较大的元素。以此类推，可证明在进行演绎规则冗余检查时，只需要检查重叠集最大元素的投影和被投影情况即可。得证。

进行冗余性检查。首先是要找出频繁闭序列集和生成子集构成的重叠集里面的最大元素；其次是找出最大元素的所有投影和被投影元素；然后进行冗余序列规则的过滤过程，即最大重叠元素的一次投影和被投影过程中，最多只产生两个序列规则。过滤掉重叠元素的投影和被投影元素，剩下的频繁闭序列和生成子即可构成精确序列规则。结合给定的事件序列，按照图2的流程，可以找到频繁闭序列集和生成子集的重叠元素集合，即{<C>，<E>，<CE>}，可知<CE>是重叠集中的最大元素。对于重叠集中的最大元素而言，作为生成子，<CE>在频繁闭序列<CECAB>上的投影为<CAB>；而作为频繁闭序列，<CE>被生成子<C>投影后的元素是<E>。故可产生三个序列规则{C,E,2,60％,7}和{CE,CAB,3,67％,7}。由于规则{C,ECAB,2,40％,7}的存在，所以，{CE,CAB,3,67％,7}是冗余规则，即此规则所代表的信息存在冗余。故只需要过滤<CE>的投影和被投影元素，得到无重叠集元素的频繁闭序列集和生成子集便可产生精确序列规则。

3、生成精确序列规则。

根据序列规则的定义，生成精确序列规则。其具体步骤如下：首先，从生成子集中找到对应的闭序列，对其进行投影，得到投影元素，其次，计算生成子和闭序列的支持度比值，判断其是否超过最小可信度，若超过，则将生成子作为规则前件，投影元素作为规则后件，构成序列规则。

例如，生成子<CC>在频繁闭序列<CCE>上的投影是<E>，接下来，计算闭序列和生成子的支持度比值为2/2*100＝100％，即表示规则的置信度，超过了最小置信度阈值。故将生成子作为前件，投影元素作为后件，闭序列的支持度作为规则的支持度，规则的置信度为100％，有效窗口宽度是发生区间长度，故此生成子和闭序列生成的序列规则为{CC,E,2,100％,6}。

表3

前件	后件	支持度	置信度/％	窗口宽度
					<CC>	<E>	2	100	5
<CC>	<AB>	2	100	7
					<A>	<B>	2	100	3
<C>	<AB>	2	40	7
					<C>	<E>	3	60	3
<C>	<ECAB>	2	40	7
					<CE>	<AB>	2	67	6
<E>	<CAB>	2	50	6
					<E>	<C>	3	75	3
<E>	<CE>	2	50	5
					<EC>	<E>	2	67	5

表3是按照生成序列规则的算法流程，得到从已知事件序列中挖掘到的所有精确序列规则。

Claims

1.一种基于包含与演绎分析的精确序列规则挖掘方法，其特征在于包括以下步骤：

步骤一、频繁闭序列及生成子挖掘：序列按照迭代生长的方式生长，即多序列是由1-序列生成；在挖掘频繁序列的过程中，首先在时间窗口内找到所有的1-频繁序列，再由1-频繁序列排列组成2-频繁序列，并挖掘这些候选2-频繁序列中的频繁序列，以此类推；按照频繁闭序列的定义，从频繁序列集中再次挖掘频繁闭序列；然后，根据生成子的定义，通过比较频繁序列与其前向扩展即父序列的支持度来检查此序列的前向扩展是否为生成子；故在得到频繁序列集后，针对尚未确定为生成子的频繁序列而言，只要通过比较此序列和它的其他真子序列的支持度就能确定此序列是否是生成子；

步骤二、冗余性检查：在生成规则的过程中，通过检查、过滤机制就能有效避免冗余演绎规则的产生；但即便如此，由于投影关系的传递性，进行演绎规则的过滤仍然是复杂的；为了提高演绎规则的过滤效率，只需要考虑闭序列和生成子的最大重叠项，对其进行演绎规则冗余检查；具体步骤如下：

(c)根据定理知规则间的冗余是由于存在生成子和闭序列的公共相同序列；故最长相同序列的一次投影和被投影过程中，最多只产生两个规则，其余规则均存在规则间的冗余性；冗余演绎规则的过滤过程，即对最长相同序列产生的规则进行过滤即可；

(d)产生无相同序列的生成子和闭序列集合；

步骤三、精确序列规则的产生：根据序列规则的定义，从频繁闭序列集和生成子集中产生序列规则；首先，对于给定的闭序列以及其生成子，求出生成子在闭序列上的投影；其次，对于给定的最小可信度，计算闭序列和生成子的支持度比值，若比值大于可信度阈值，则根据规则的定义，将此闭序列和生成子构成的序列规则加入到序列规则集合中。