CN104915683A - 基于递增投影规则的广义无冗余序列规则挖掘方法 - Google Patents

基于递增投影规则的广义无冗余序列规则挖掘方法 Download PDF

Info

Publication number
CN104915683A
CN104915683A CN201510312885.3A CN201510312885A CN104915683A CN 104915683 A CN104915683 A CN 104915683A CN 201510312885 A CN201510312885 A CN 201510312885A CN 104915683 A CN104915683 A CN 104915683A
Authority
CN
China
Prior art keywords
sequence
projection
abc
abcd
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510312885.3A
Other languages
English (en)
Inventor
尤涛
杜承烈
吴其蔓
钟冬
成驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201510312885.3A priority Critical patent/CN104915683A/zh
Publication of CN104915683A publication Critical patent/CN104915683A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Abstract

本发明公开了一种基于递增投影规则的广义无冗余序列规则挖掘方法,用于解决现有序列规则挖掘方法生成序列规则效率低的技术问题。技术方案是包括冗余性检查和递增投影产生规则两部分,通过多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的检查,通过递增消除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障规则完备性的前提下,得到了更为精简的序列规则,提高了生成序列规则的效率。

Description

基于递增投影规则的广义无冗余序列规则挖掘方法
技术领域
本发明涉及一种序列规则挖掘方法,特别是涉及一种基于递增投影规则的广义无冗余序列规则挖掘方法。
背景技术
文献“Lo D,Khoo S C,Li J.Mining and Ranking Generators of SequentialPatterns[C]//SDM.2008:553-564.”公开了利用序列生成子和等价类挖掘序列规则的方法。该方法引入了序列数据库等价类和序列模式生成子的概念:一个序列数据库中包含在相同序列集的序列模式集合称为一个等价类;一个序列模式称为生成子,当且仅当该序列模式不存在与其支持度相同的任何一个真子序列模式。基于MDL原理,可以证明序列模式生成子比闭序列模式更适合解决分类问题。该文献提出的GenMiner算法产生了最小前件序列规则全集,首先采用深度优先的搜索策略来创建存储所有序列的前缀搜索树PSL,然后通过遍历PSL得到包含所有序列模式生成子的超集,得到最小前件序列规则。同时,近年来序列规则挖掘方面开展的各类算法,虽然在数据组织、处理流程等方面各有不同,但主要分为三类,如表1所示。
产生序列规则全集的典型算法为TASA、WinMiner。TASA算法分为三个步骤,首先基于广度优先的搜索策略和滑动窗口的序列支持度定义,通过多遍扫描事件序列,以候选、剪枝再测试的处理方式发现频繁序列;其次,由频繁集产生序列规则集;最后使用剪枝技术来筛选无冗余的序列规则。WinMiner算法采用了深度优先的搜索策略和最小发生的序列支持度定义,只需单遍扫描事件序列便可完成挖掘,且不产生任何候选序列。
产生无冗余序列规则集的典型算法为Extractor,算法采用最小且非重叠发生的支持度定义和深度优先的搜索策略来发现频繁闭序列及其生成子,保证了频繁闭序列及其生成子的挖掘质量和挖掘效率;利用非生成子的Apriori性质,避免了冗余的序列生成子判断;直接由频繁闭序列及其生成子产生序列规则,提高了序列规则的生成质量和生成效率。
表1 典型序列规则挖掘算法分类比较
上述序列规则挖掘算法的发展不难看出,规则的产生方式经历了频繁序列投影、频繁序列及其生成子投影、频繁闭序列及其生成子投影等阶段;无论是算法的效率、精确程度、精简粒度都在逐步提高;且都保持了序列规则的完备性,属于无损规则挖掘方法。
有损规则集的挖掘方法典型的算法包括Top-K无冗余序列规则挖掘方法,算法根据支持度大小,选择前K个序列规则。这样既限定了序列规则数量,又保证了规则代表信息的有用性,达到了对规则约减的目的,但却损失了支持度较小的序列规则信息。
综上所述,现有的序列规则挖掘算法存在以下不足:
(1)无损规则挖掘方法仅考虑了两规则间的包含冗余,忽略了多规则之间的关联关系,造成了该类方法虽然能够产生完备的规则集,但仍存在冗余;
(2)有损规则挖掘方法虽然考虑了多规则间的关联关系(如Top-K利用多规则间排序关系、信息序列规则利用多规则的表达关系等),但是方法本身得到的是规则的不完备集。
发明内容
为了克服现有序列规则挖掘方法生成序列规则效率低的不足,本发明提供一种基于递增投影规则的广义无冗余序列规则挖掘方法。该方法包括冗余性检查和递增投影产生规则两部分,通过多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的检查,通过递增消除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障规则完备性的前提下,得到了更为精简的序列规则,提高了生成序列规则的效率。
本发明解决其技术问题所采用的技术方案是:一种基于递增投影规则的广义无冗余序列规则挖掘方法,其特点是采用以下步骤:
第一部分、冗余性检查的步骤如下:
步骤一、遍历搜索找出闭序列集和生成子集的相同序列构成的重叠集,并删除重叠集中的相同元素;对于输入的频繁闭序列ee及其生成子集合ge,扫描得到生成子和闭序列的重叠项是:AB、ABC和ABCD;
步骤二、找出重叠集在闭序列集合生成子集的投影和被投影序列,即找出生成子集中能被重叠集元素投影的序列集合,并找出闭序列集中能被重叠集中元素投影的序列集合;得到重叠集公共集合ge’,元素包括AB、ABC和ABCD。扫描频繁闭序列集合ee,以及生成子集合ge,得到能投影元素集合g2:A;能被投影的元素集合g1:ABCDE;
步骤三、对重叠集的所有序列进行冗余迹检查,遍历重叠集中元素,将不满足冗余迹检查的元素删除。对于重叠集进行冗余性迹检查后得到重叠集元素AB、ABC和ABCD。
第二部分、递增投影产生规则的步骤如下:
步骤一、得到冗余性迹检查后的频繁闭序列及其生成子的重叠集,以及频繁闭序列中可被重叠集元素投影的投影集合,以及重叠集中可被生成子投影的被投影集合。得到重叠集元素包括AB、ABC和ABCD;g1集合:ABCDE;g2集合:A;
步骤二、将重叠集中的元素按照字典序排列。按照字典序排列得到AB、ABC和ABCD;
步骤三、按照字典序对重叠集中元素依次进行投影。AB、ABC投影得到AB—>C;AB、ABCD投影得到AB—>CD;ABC、ABCD投影得到ABC—>D;最终r1集得到满足置信度阈值的如下序列规则:ABC—>D;AB—>C;AB—>CD;
步骤四、将重叠集元素投影到投影集中得到无冗余序列规则,并将被投影集中元素投影到重叠集中得到无冗余序列规则。对于无冗余规则集合r3:A、AB投影得到A—>B;A、ABC投影得到A—>BC;A、ABCD投影得到A—>BCD。对于无冗余规则集合r2:AB、ABCDE投影得到AB—>CDE;ABC、ABCDE投影得到ABC—>DE;ABCD、ABCDE投影得到ABCD—>E。最终得到所有的无冗余序列规则集合为r1、r2、r3之和,包括ABC—>D;AB—>C;AB—>CD;A—>B;A—>BC;A—>BCD;AB—>CDE;ABC—>DE;ABCD—>E。
本发明的有益效果是:该方法包括冗余性检查和递增投影产生规则两部分,通过多规则的关联关系,将频繁闭序列和序列生成子的检查精简到重叠集的检查,通过递增消除冗余的方法经行规则投影,从而提升了时间及空间效率。该方法在保障规则完备性的前提下,得到了更为精简的序列规则,提高了生成序列规则的效率。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明方法中冗余性检查的流程图。
图2是本发明方法中递增投影消除冗余的流程图。
图3是本发明方法实施例得到无冗余序列规则示意图。
具体实施方式
参照图1-3。本发明基于递增投影规则的广义无冗余序列规则挖掘方法具体步骤如下:
基本定义。
事件,事件序列:事件是给定事件类型集ε={E1,E2,L,En}中的事件E和事件发生时间t的二元组(E,t)。事件序列是由若干ε中的事件按发生时间先后排列的序列,表示为ES=<(E1,t1),(E2,t2),L,(Es,ts)>。
序列:一个序列是由若干事件组成:α=<(E1,t1),(E2,t2),L,(Ek,tk)>,简记为α=<E1E2L Ek>。
串接,投影:给定序列α=<E1E2L Em>和β=<E'1E'2L E'k>,则<E1E2L EmE'1E'2L E'k>称为α和β的串接,记为concat(α,β)。设j是β在α中首次出现的结束位置,则从α中删除第1至第j个事件后剩余的序列称为β在α上的投影,记为project(α,β)。
发生:给定事件序列ES和序列α=<E1E2L Ek>,若ES在时间区间[t1,tk]上按α的事件排列顺序出现了α所代表的所有事件,则称ES上发生了序列α,时间区间[t1,tk]称为α在ES上的一次发生。
支持度:序列α在事件序列ES上所有发生的数目称为α的支持度,记为α.sup。
频繁序列、频繁闭序列、序列生成子:给定支持度阈值min_sup,若序列α的支持度大于等于min_sup,则α是一个频繁序列。若序列α是频繁的,且α的支持度不等于α的任何一个真超序列的支持度,则α是一个频繁闭序列。设f是一个闭序列,若g的支持度等于f的支持度,且g不存在与其支持度相同的任何一个真子序列,则g称为闭序列f的一个序列生成子。
序列规则:一个序列规则γ是一个五元组(l,r,s,c,ω)。其中γ的前件、后件、支持度、置信度和窗口宽度分别记为l、r、s、c、ω。
无冗余序列规则:给定序列规则γ(l,r,s,c,w),若不存在序列规则γ'(l,r,s,c,w),使得γ'.s=γ.s,则称γ是一个无冗余序列规则,否则是一个冗余序列规则。
无冗余序列迹规则:给定序列规则γ(l,r,s,c,w),若不存在序列规则γ'(l,r,s,c,w)、γ”(l,r,s,c,w),使得(1)γ.l=γ'.l或者γ.l=concat(γ'.l,γ'.r);(2)concat(γ.l,γ.r)=γ”.l或者concat(γ.l,γ.r)=concat(γ”.l,γ”.r)同时成立。即γ不可以从其他规则的产生轨迹上推导得出,则称γ是一个无冗余序列迹规则,否则是一个冗余序列迹规则。
http://www.d.umn.edu/~tkwon/TMCdata/TMCarchive.html网站下载了美国交通管理中心TMC(Traffic Management Center)在双城地铁高速公路的道路传感器上收集到的真实数据。进行数据预处理后使其符合序列数据的一般格式,其中A-F分别表示不同的路况情况。设从此段路况中挖掘出来的频繁闭序列为ABCD,AB,ABC,ABCD,ABCDE,序列生成子A,AB,ABC,ABCD,最小支持度min_sup为2,最小置信度min_conf为0.7。
1.冗余性迹检查。
虽然可以根据定义暴力搜索闭序列集合生成子集,但是为了提高演绎规则的过滤效率,下面给出定理,发现只需对闭序列和生成子的重叠集进行演绎规则冗余迹检查即可。冗余产生原因:
定理:生成子向频繁闭情节投影时,对互相重叠的生成子和闭情节,他们既可作为闭情节被其他生成子投影,又可作为生成子向其他闭情节投影,这造成了冗余情节迹规则。
证明:反证法。设冗余情节迹规则不是由重叠生成子和闭情节的多重投影造成,即规则γ、γ'、γ”之间满足则(1)γ.l=γ'.l或者γ.l=concat(γ'.l,γ'.r);(2)concat(γ.l,γ.r)=γ”.l或者concat(γ.l,γ.r)=concat(γ”.l,γ”.r)。
下面分四种情况讨论:
1.γ.l=concat(γ'.l,γ'.r)且concat(γ.l,γ.r)=concat(γ”.l,γ”.r),此时,γ'的产生是由于γ.l被γ'.l投影,γ的产生是由于γ.l的在concat(γ”.l,γ”.r)上投影。即γ.l既是生成子又是闭情节,充当了投影和被投影的角色,这与假设矛盾,情况1得证。同理可以证明其他三种情况,定理1得证。
参照图1,按照步骤一:对于输入的频繁闭序列ee及其生成子集合ge,扫描得到生成子和闭序列的重叠项是:AB、ABC、ABCD。(已删除重复元素);按照步骤二:得到重叠集公共集合ge’,元素包括AB,ABC,ABCD。扫描频繁闭序列集合ee,以及生成子集合ge,得到可投影元素集合g2:A;可被投影的元素集合g1:ABCDE;按照步骤三:对于重叠集进行冗余性迹检查后得到重叠集元素AB,ABC,ABCD。
2.递增投影产生规则
参照图2,按照步骤一:得到重叠集元素包括AB,ABC,ABCD;g1集合:ABCDE;g2集合:A;按照步骤二:按照字典序排列得到AB,ABC,ABCD;按照步骤三:AB,ABC投影得到AB—>C;AB,ABCD投影得到AB—>CD;ABC,ABCD投影得到ABC—>D;最终r1集得到满足置信度阈值的如下序列规则:ABC—>D;AB—>C;AB—>CD;按照步骤四:对于无冗余规则集合r3:A,AB投影得到A—>B;A,ABC投影得到A—>BC;A,ABCD投影得到A—>BCD。对于无冗余规则集合r2:AB,ABCDE投影得到AB—>CDE;ABC,ABCDE投影得到ABC—>DE;ABCD,ABCDE投影得到ABCD—>E。最终得到所有的无冗余序列规则集合为r1,r2,r3之和,包括:ABC—>D;AB—>C;AB—>CD;A—>B;A—>BC;A—>BCD;AB—>CDE;ABC—>DE;ABCD—>E。

Claims (1)

1.一种基于递增投影规则的广义无冗余序列规则挖掘方法,其特征在于包括以下步骤:
第一部分、冗余性检查的步骤如下:
步骤一、遍历搜索找出闭序列集和生成子集的相同序列构成的重叠集,并删除重叠集中的相同元素;对于输入的频繁闭序列ee及其生成子集合ge,扫描得到生成子和闭序列的重叠项是:AB、ABC和ABCD;
步骤二、找出重叠集在闭序列集合生成子集的投影和被投影序列,即找出生成子集中能被重叠集元素投影的序列集合,并找出闭序列集中能被重叠集中元素投影的序列集合;得到重叠集公共集合ge’,元素包括AB、ABC和ABCD;扫描频繁闭序列集合ee,以及生成子集合ge,得到能投影元素集合g2:A;能被投影的元素集合g1:ABCDE;
步骤三、对重叠集的所有序列进行冗余迹检查,遍历重叠集中元素,将不满足冗余迹检查的元素删除;对于重叠集进行冗余性迹检查后得到重叠集元素AB、ABC和ABCD;
第二部分、递增投影产生规则的步骤如下:
步骤一、得到冗余性迹检查后的频繁闭序列及其生成子的重叠集,以及频繁闭序列中可被重叠集元素投影的投影集合,以及重叠集中可被生成子投影的被投影集合;得到重叠集元素包括AB、ABC和ABCD;g1集合:ABCDE;g2集合:A;
步骤二、将重叠集中的元素按照字典序排列;按照字典序排列得到AB、ABC和ABCD;
步骤三、按照字典序对重叠集中元素依次进行投影;AB、ABC投影得到AB—>C;AB、ABCD投影得到AB—>CD;ABC、ABCD投影得到ABC—>D;最终r1集得到满足置信度阈值的如下序列规则:ABC—>D;AB—>C;AB—>CD;
步骤四、将重叠集元素投影到投影集中得到无冗余序列规则,并将被投影集中元素投影到重叠集中得到无冗余序列规则;对于无冗余规则集合r3:A、AB投影得到A—>B;A、ABC投影得到A—>BC;A、ABCD投影得到A—>BCD;对于无冗余规则集合r2:AB、ABCDE投影得到AB—>CDE;ABC、ABCDE投影得到ABC—>DE;ABCD、ABCDE投影得到ABCD—>E;最终得到所有的无冗余序列规则集合为r1、r2、r3之和,包括ABC—>D;AB—>C;AB—>CD;A—>B;A—>BC;A—>BCD;AB—>CDE;ABC—>DE;ABCD—>E。
CN201510312885.3A 2015-06-09 2015-06-09 基于递增投影规则的广义无冗余序列规则挖掘方法 Pending CN104915683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510312885.3A CN104915683A (zh) 2015-06-09 2015-06-09 基于递增投影规则的广义无冗余序列规则挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510312885.3A CN104915683A (zh) 2015-06-09 2015-06-09 基于递增投影规则的广义无冗余序列规则挖掘方法

Publications (1)

Publication Number Publication Date
CN104915683A true CN104915683A (zh) 2015-09-16

Family

ID=54084732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510312885.3A Pending CN104915683A (zh) 2015-06-09 2015-06-09 基于递增投影规则的广义无冗余序列规则挖掘方法

Country Status (1)

Country Link
CN (1) CN104915683A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434104A (zh) * 2020-12-04 2021-03-02 东北大学 面向关联规则挖掘的冗余规则筛除方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434104A (zh) * 2020-12-04 2021-03-02 东北大学 面向关联规则挖掘的冗余规则筛除方法及装置
CN112434104B (zh) * 2020-12-04 2023-10-20 东北大学 面向关联规则挖掘的冗余规则筛除方法及装置

Similar Documents

Publication Publication Date Title
Song et al. PRESS: A novel framework of trajectory compression in road networks
Zheng et al. On discovery of gathering patterns from trajectories
Li et al. Swarm: Mining relaxed temporal moving object clusters
Achar et al. Pattern-growth based frequent serial episode discovery
Zhang et al. New techniques for mining frequent patterns in unordered trees
Yin et al. A general feature-based map matching framework with trajectory simplification
CN106127590A (zh) 一种基于节点影响力的信息态势感知及传播管控模型
Loy et al. Incremental activity modeling in multiple disjoint cameras
CN103678714A (zh) 实体知识库的构建方法和装置
CN103064966B (zh) 一种从单记录网页中抽取规律噪音的方法
CN116500411A (zh) 一种电机故障检测方法及装置
CN106294824A (zh) 制造物联网面向不确定数据流的复杂事件检测方法及系统
CN101604408B (zh) 一种检测器的生成和检测方法
He et al. Graph learning-based arithmetic block identification
CN109522396A (zh) 一种面向国防科技领域的知识处理方法及系统
CN104700311B (zh) 一种社会网络中的邻域跟随社区发现方法
Liu et al. Spotting significant changing subgraphs in evolving graphs
CN104915683A (zh) 基于递增投影规则的广义无冗余序列规则挖掘方法
Seol et al. Reduction of association rules for big data sets in socially-aware computing
CN104809184A (zh) 基于规则前件发生树匹配的数据流预测方法
Keyvanpour et al. Classification and Analysis of Frequent Subgraphs Mining Algorithms.
Peng et al. Member promotion in social networks via skyline
CN112765313A (zh) 一种基于原文和评论信息分析算法的虚假信息检测方法
You et al. Multi-source data stream online frequent episode mining
CN110807061A (zh) 一种基于分层搜索不确定图的频繁子图的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150916