CN113902003A - 一种基于MITree的多维时间序列在线模体发现方法 - Google Patents

一种基于MITree的多维时间序列在线模体发现方法 Download PDF

Info

Publication number
CN113902003A
CN113902003A CN202111160315.9A CN202111160315A CN113902003A CN 113902003 A CN113902003 A CN 113902003A CN 202111160315 A CN202111160315 A CN 202111160315A CN 113902003 A CN113902003 A CN 113902003A
Authority
CN
China
Prior art keywords
motif
mitree
motifs
dimensional
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111160315.9A
Other languages
English (en)
Inventor
王继民
刘赛佳
朱旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202111160315.9A priority Critical patent/CN113902003A/zh
Publication of CN113902003A publication Critical patent/CN113902003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多维实例树的多维时间序列在线模体发现方法,包括如下步骤:首先使用单维时间序列模体挖掘方法KMotif挖掘初始滑动窗口内所有维度包含的K‑模体;然后,基于预先定义的时间阈值,构造模体实例邻居;最后,构建维护全局模体实例信息的MITree结构;随着新数据的到达,增量更新MITree结构,实现在线挖掘多维模体。本发明通过构造MITree结构,利用前缀复用的树形数据结构的优势,每次只需要将基本窗口内的数据更新到树结构中,不需要重新对窗口内的所有数据重新建立树结构,节省了时间开销。本发明在线挖掘流时间序列中存在的多频率出现的时间近似的同步多维模体。

Description

一种基于MITree的多维时间序列在线模体发现方法
技术领域
本发明涉及信息处理方法,具体涉及一种基于MITree的多维时间序列模体在线发现方法。
背景技术
模体被定义为近似重复的序列、形状、频繁的趋势、重复的模式等。对于单维模体的定义可以概括分为两类:K-模体和最近邻模体。模体挖掘可以通过无监督的方式发现时间序列数据中重复出现、未知的、有意义的片段,进而发现时间序列中的潜在规则和特定事件。随着大数据时代的到来,在科学实验和正常的业务操作过程中时刻都在产生大量的数据,同时这些数据呈现多变量、高维度、大容量等特点。多维时间序列模体是指在多维时间序列的若干个维度上同时出现的重复模式或者片段。在挖掘多维时间序列模体时,需要能够发现任意组合的多个维度上可能的模体。多维模体分析可以从由时序序列组成的多维序列数据中寻找有用的信息,在发现时序序列数据中内在行为和规律的同时,反映不同维度时序序列之间的相互关系。在环境管理、医疗健康、基因工程等领域,进行多维模体挖掘具有重要的现实意义。
目前对于时间序列模体挖掘的研究,主要集中在离线时间序列模体发现,对于在线模体挖掘算法的研究较少。
发明内容
发明目的:为了克服现有技术中存在的问题,本发明的目的是提供一种基于多维实例树(简称:MITree)的多维时间序列在线模体发现方法,能够在线发现多维时间序列中存在的多实例模体信息。
技术方案:一种基于MITree的多维时间序列在线模体发现方法,包括如下步骤:
(1)首先对基本窗口内的时间序列逐维提取单维时间序列中的模体,得到单维模体实例;基于时间阈值,将所有的单维模体实例划分为模体实例邻居;
(2)利用发现的模体实例邻居构造并更新MITree树结构;基于MITree树在线发现最新的多维模体。
进一步的,步骤(1)中,提取单维模体实例的具体方式为:
采用长度为m的滑动窗口对时间序列生成子序列,计算子序列之间的相关系数,构造相关系数矩阵;通过相关系数定义两个子序列之间的相似度;相关系数越高表明两个子序列越相似;
去除相关系数矩阵中不满足相关系数阈值条件的子序列,,然后将相关系数由高到低此时得到所有子序列满足条件的匹配序列集合;在每个维度上提取前k个K-模体,构成K-Motif集合(以下称为K-Motifs);按照基于频率的K-Motifs的定义输出单维模体 K-Motifs结果。
进一步的,步骤(1)中,构造模体实例邻居的具体方式为:
使用三元组[dim,k,timestamp]描述所有的单维模体实例,其中dim表示该模体属于多维时间序列哪个维度序列,k表示属于该dim维度中第k重要的模体,timestamp描述该模体实例在原始时间序列中的开始位置;
基于预先定义的时间阈值td,将满足阈值条件的不同维度的单维模体实例置入相同的模体实例邻居之中;对于两个不同维度的模体实例[dim1,k1,timestamp1]和 [dim2,k2,timestamp2],如果满足条件|timestamp1-timestamp2|<td,则这两个模体实例属于邻居,多个互为邻居的模体实例构成一个模体实例邻居;
进一步的,步骤(2)中,所述MITree树结构包括头指针表headTable和模体实例树结构;所述头指针表headTable存储当前所有的K-Motifs信息,包括模体所在的维度 dim、所属模体K、频率Frequency、时间列表timeList、是否更新Modify、更新次数Count、是否是新的K-Motifs信息New,其中,所述频率Frequency即模体实例个数,时间列表 timeList即模体实例出现的位置。
进一步的,步骤(2)中,构造MITree树结构的具体方式为:
针对每个模体实例邻居中的模体实例,按照各自实例的频率从高到底进行排序;
基于模体实例构造的模体实例邻居,将所有的模体实例邻居中的单维模体实例按照维度由低到高顺序排列;将排序完毕的模体实例邻居顺序插入tree结构中,同一个模体实例邻居中,排序在前的模体实例对应树路径中的祖先节点,排序在后的项集对应子孙节点;当所有的模体实例邻居插入完毕时,MITree结构构造完成。
进一步的,步骤(2)中,更新MITree树结构的具体方式为:
当基本窗口大小的新数据到达时,需要移动原本的滑动窗口,将新数据插入,旧数据删除;
使用单维流模体发现方法SWKMotif,首先判断新的基本窗口中的子序列,是否属于已有的K-Motifs集合;如果属于已有的K-Motifs集合,则更新headTable中Modify字段为1,以表明该字段被更新,同时将Count字段加1,以表明该模体被更新一次;如果不属于已有的K-Motifs集合,计算子序列与其它所有子序列间的相关系数,基于 K-Motifs的定义,判断是否构成新的K-Motif;如果构成新的K-Motif,在headTable中新增一条模体信息,其中,根据频率确定新模体为第几重要的模体K、New字段标记为1,以表明该模体是新模体,同时更新其他模体的K,确定当前维度中所有K-Motifs的优先级;如果不构成新的K-Motifs,证明该子序列在当前滑动窗口不频繁,继续遍历下一个子序列;当MITree的头指针表headTable更新完毕,将所有单维模体的更新信息,增量更新到tree结构中。
进一步的,步骤(2)中,基于MITree树在线发现最新的多维模体的具体方式为:
基于挖掘得到的单维K-Motifs和模体实例邻居,构造初始的MITree的头指针表headtable和树结构tree;遍历headtable中所有的单维模体,找到该单维模体对应的MITree中节点,寻找所有该节点在MITree中所在路径构成的子树,同时将路径上的结点支持度计数改为与该节点支持度计数相同;寻找该节点的条件模式基,通过递归合并较少维度的多维模体,构造更多维度的多维模体模体;
最终,挖掘到的多维模体满足:每个模体实例的支持度计数大于等于2,并且至少由两个不同维度的单维模体构成。
有益效果:
和现有技术相比,本发明具有以下优点:
通过构造MITree结构,利用前缀复用的树形数据结构的优势。算法每次只需要将基本窗口内的数据更新到MITree中,不需要重新对窗口内的所有数据重新建立树结构,节省时间开销。
附图说明
图1为本发明的流程图;
图2为子序列间的相关系数矩阵结构图;
图3为MITree结构图;
图4为SWKMotif与Modified-Online-MK不同数据集、滑动窗口大小下各算法更新时间结果图;其中,(a)对应AtrialFibrillation数据集,(b)对应StandWalkJump数据集;
图5为SWKMotif与Modified-Online-MK不同数据集、模体长度下各算法更新时间结果图;其中,(a)对应AtrialFibrillation数据集,(b)对应StandWalkJump数据集;
图6为MSTSKMD与MTS-Online-MK不同数据集、维度下各算法更新时间结果图;其中,(a)对应FingerMovements数据集,(b)对应Heartbeat数据集。
具体实施方式
下面结合附图和具体实施例,对本发明技术方案进行详细说明。
如图1所示,一种基于MITree的多维时间序列在线模体发现方法,能够定时处理基本窗口内的多维时间序列模体信息。首先对基本窗口内的时间序列逐维提取单维时间序列中的模体,基于时间阈值,将所有的单维模体实例,划分为模体实例邻居;利用发现的模体实例邻居更新MITree树结构;基于MITree树在线发现最新的多维模体。算法利用MITree结构保存历史和最新的模体信息,并基于该结构发现最新的多维模体。包括如下步骤:
1.单维模体发现
1.1构造初始滑动窗口相关系数矩阵
KMotif算法以给定长度为m的滑动窗口,计算时间序列T中所有子序列之间的相关系数,构造相关系数矩阵。子序列之间的相关系数描述子序列之间的相似程度。
1.2挖掘单维K-Motifs
根据KMotif方法计算所得的相关系数矩阵Mc,基于预先定义的相关系数阈值thc。首先去除Mc中相关系数低于阈值thc的子序列,然后相关系数由高到低删除平凡匹配的子序列,此时得到所有子序列满足条件的匹配序列集合。最后,按照基于K-模体的定义输出单维模体结果。
以长度为120的三维时间序列数据集S=[A,B,C]T为例,从每个维度挖掘到的模体长度为10,满足相似度阈值条件的所有的K-Motifs,并对所有单维模体实例的表示方式进行了简化,多维时间序列中每个维度的时间序列中挖掘得到的K-Motifs用(开始时间,符号)描述,以方便展示。
Figure RE-GDA0003379723540000041
在每个时间序列A、B、C中,将挖掘到的满足相似阈值的K-Motifs的实例按照开始时间顺序排列,其中时间序列A中的K-Motifs用符号ai表示,同一个模体的模体的所有实例用(开始时间,ai)表示,如:A中有满足相似阈值条件的1-Motif={(1,a1),(45,a1),(90,a1)} 和2-Motif={(30,a2),(65,a2)},序列B和C同理。
2.基于MITree的多维在线模体发现
在处理初始滑动窗口中的多维时间序列数据时,使用单维离线算法KMotif挖掘得到所有的K-Motifs结果。通过构造模体实例邻居、初始化MITree(构造headtable和tree)和基于MITree的模体发现步骤,可以挖掘初始滑动窗口中的多维模体。随着新的基本窗口大小的数据到达时,移动滑动窗口,将新的基本窗口中的序列与新滑动窗口中的序列进行模体发现,通过更新MITree和基于MITree的模体发现步骤,在线发现多维模体。
2.1构造模体实例邻居
将KMotif方法挖掘到的多维时间序列中所有维度K-Motifs结果,基于预先定义的时间阈值td,将满足阈值条件的不同维度的单维模体实例置入相同的模体实例邻居之中,反之创建新的模体实例邻居。对于两个不同维度的模体实例(开始时间1,符号1)和(开始时间2,符号2),如果满足条件|开始时间1-开始时间2|<td,则这两个模体实例属于同一个模体实例邻居。
将1.2中所有的模体ai、bi、ci的模体实例(1,a1)、(90,a1)...等,基于预先定义的时间阈值td,按照所有实例开始时间顺序,将满足时间阈值的所有模体实例置入同一个模体实例邻居中。
2.2初始化MITree
2.2.1基于单维K-Motifs结果构造头指针表headTable
将所有的单维模体信息,插入到头指针表中,用于维护全局的单维模体信息。所有维度的单维模体按照维度升序排列,同一个维度中的所有K-Motifs按照模体实例的个数降序排列。将1.2中所有的模体ai、bi、ci的模体实例(1,a1)、(90,a1)...等插入headTable 中,每个模体包含维度Dim、所属模体K、频率Frequency、时间列表timeList、是否更新Modify、更新次数Count、是否是新的K-Motif信息New,以此更好的描述单维模体的信息,同样保证新数据的到达,实时更新模体信息。所有的单维模体插入结果如图3 中的headTable所示。
2.2.2基于模体实例邻居构造MITree
将所有的模体实例邻居中的不同维度的单维模体实例,按照维度由低到高排列,目的是为了在构造MITree结构时,利用前缀复用的树形数据结构的优势,将相同前缀的不同模体实例邻居聚合在一起,同时对应节点的支持度计数加一。此时原本的集合Set 变为Set’={[(1,a1),(1,b1),(2,c1)],[(30,a2),(29,b2)],[((45,a1),44,b1)],[(65,a2),(66,b2)],[(90, a1),(91,b1),(93,c1)]},Set’中的所有的模体实例邻居就是多维候选模体的实例。将排序完毕的模体实例邻居顺序插入tree结构中,同一个模体实例邻居中,排序在前的模体实例对应树路径中的祖先节点,排序在后的项集对应子孙节点,将相同前缀的不同模体实例邻居聚合在一起,同时对应节点的支持度计数加一。当所有的模体实例邻居插入完毕时, MITree结构构造完成。MITree中的tree结构中,从非根节点(支持度计数≥2)到根节点路径上所有节点构成一个多维模体。所有的多维模体结果如图3中的树结构所示。
MITree的头指针表headTable和树结构实现过程如算法1所示。
Figure RE-GDA0003379723540000061
其中递归将模体实例邻居插入MITree结构的实现过程如算法2所示。
Figure RE-GDA0003379723540000062
2.3更新MITree
MITree作为存储结构在运行时一直保存在内存中,当以固定采样频率收集到的一个基本窗口大小的数据到达时,需要对该窗口中所有子序列进行分析,挖掘其中可能存在的模体,同时新到达的基本窗口大小的数据实际是对原始数据集的更新,所以也需要考虑新到达的数据与原始数据中子序列之间的关系,新到达的数据中有意义的模式可能也存在于原始数据中。基于在原始数据建立的全局MITree结构的基础上,将新到达的基本窗口大小的数据中有意义的模式,更新到tree中,在线调整已有的多维模体。算法每次只需要将基本窗口内的数据更新到tree中,不需要重新对窗口内的所有数据重新建立树结构,这样可以节省很多时间。当有新的子序列到达时,MITree的更新步骤如下:
Step1:计算该子序列与已有的K-Motifs的模体子序列之间的相关系数,如果满足预先设置的相关系数阈值,那么这个子序列属于原本存在的某个K-Motif集合,此时将该子序列的信息更新到对应K-Motif的头指针表中,将支持度加一,将该子序列的开始时间,添加到对应的时间列表中,并将头指针表中Modify字段设置为1,表明该K-Motif 被更新,并将Count加1。
Step2:如果该子序列不属于原有的K-Motifs集合,则计算该子序列与当前维度目前所有的子序列之间的相关系数,判断是否构成满足定义4.2.1(相关系数阈值条件),如果满足条件,即新的子序列与原始数据中的子序列共同构成新的K-Motif。此时,将新的K-Motif的所有模体实例信息加入头指针表中,即添加新的一条记录,描述新的 K-Motif信息,包括维度、支持度计数、时间列表等信息,最重要的是标注New属性为 1,表明该K-Motif是新的模体,需要在所有的数据集即MITree树上进行匹配。
Step3:如果新的子序列不满足步骤Step1和Step2,表明在该子序列相对于当前时间序列中的所有子序列是无关的,继续下一个子序列的匹配。
Step4:重复步骤Step1、Step2、Step3,当基本窗口中的所有子序列都匹配完毕,基于最新的头指针表结构,根据头指针表中Modify、Count、New字段,判断哪些模体是新增加的K-Motif,哪些是原本的K-Motif中增加了新的实例。基于这些修改过的模体实例信息,基于定义4.2.2,判断新增的模体实例(新的子序列)是否与tree中已有的多维模体满足时间阈值td的约束,从而构成维度更高的多维模体,如果满足条件,则将该模体实例信息更新到全局tree中,获得最新的多维模体信息。
2.4基于MITree的模体发现
基于2.2节和2.4节MITree的构建和更新,将满足时间阈值和相关系数阈值的所有维度的K-Motifs进行聚合,构造存储单维K-Motifs的头指针表headTable和树结构tree。此时,基于MITree的多维模体发现问题,可以转换为在MITree中寻找频繁项集的问题,除了频繁一项集以外,其余的每一个频繁项集对应一个多维模体。这些频繁项集都映射到MITree树中的一条路径,因此通过扫描包含特定节点的路径,就可以发现以该模体为结尾的频繁项集,使用与节点相关联的指针,可以快速访问这些路径。
MITree中的频繁项集的挖掘过程如下:首先,遍历headtable中所有的单维模体,找到该单维模体对应的tree中节点,寻找所有该节点在tree中的前缀路径。然后,将将前缀路径上的结点支持度计数改为与该节点相同的支持度计数,这些前缀路径集合构成该节点的条件模式基。最后,合并条件模式基中重复的模式信息,挖掘所有频繁项集。其中,挖掘到的多维模体满足,每个模体实例的支持度计数大于等于2,并且至少由两个不同维度的单维模体构成。
实验验证
为了验证本发明算法(下文称为MSTSKMD)的效果,实验使用多维公共数据集进行实验,分析本发明算法的时间性能。
(1)实验数据
Figure RE-GDA0003379723540000081
(2)实验结果分析
第一部分实验,基于多维公共数据集AtrialFibrillation和StandWalkJump,分别在每个数据集的第一个维度上,固定模体长度分别为128和300,相关系数阈值为0.9和0.92,基本窗口为500和1000时,比较滑动窗口分别为4、6、8、10、12、14和3、4、5、6、 7、8个基本窗口大小时,SWKMotif与Modified-Online-MK更新一个基本窗口的数据所需的时间,更新时间结果如图4所示。
分析图4的(a)、(b)可以发现,随着滑动窗口中基本窗口个数增大,当新的基本窗口中的数据到达时,新的子序列需要匹配的原始子序列增多,SWKMotif和 Modified-Online-MK更新最新模体信息所需要的时间都呈现增加趋势。相比较 Modified-Online-MK算法,SWKMotif随着滑动窗口大小的增大,更新效率更高。
第二部分实验:基于多维公共数据集AtrialFibrillation和StandWalkJump,分别在每个数据集的第一个维度上,固定滑动窗口为8000,基本窗口大小为1000,相关系数阈值为0.9,模体长度设置为16、32、64、128、256时,比较SWKMotif与Modified-Online-MK 更新一个基本窗口的数据所需的时间,结果如图5所示。
分析图5的(a)、(b)可以发现,当滑动窗口和基本窗口大小事先确定时,随着模体长度的增加,SWKMotif和Modified-Online-MK更新一个基本窗口大小的数据时,两个算法更新时间的趋势呈现一个相反的情况。SWKMotif随着模体长度增加,更新时间以一个相对平缓的增速增加,而Modified-Online-MK更新时间首先以一个快速的时间减少到相对平缓的降低。因为,SWKMotif首先会匹配新序列与原本K-Motifs的结果,如果该新序列属于原始模体,则无需计算该子序列与其他所有子序列之间的相关系数结果,反之,使用快速傅里叶计算可以快速求得新子序列与所有子序列之间的相关系数矩阵,从而快速更新模体结果。而Modified-Online-MK虽然在计算新序列与所有其他子序列之间距离时引入了下界距离,但是参考子序列的选择和模体长度的增加都会影响真实计算距离的次数和时间。相比较快速傅里叶计算,传统的距离计算效率相对较低。
第三部分实验:基于多维公共数据集FingerMovements和Heartbeat,固定滑动窗口为4000,基本窗口大小分别为500和1000,相关系数阈值分别为0.9和0.73,模体长度分别为50和405,以2为步长不断增加维度,比较MSTSKMD与MTS-Online-MK更新一个基本窗口的数据所需的时间结果如图6所示。
分析图6的(a)、(b)可以发现,随着待处理的新的基本窗口大小的数据的维度的增加,本发明方法MSTSKMD与MTS-Online-MK更新一个基本窗口大小的数据所花费的时间都呈现一个上升趋势。MTS-Online-MK整体呈现一个线性增长的趋势,因为串行处理每个维度的最新信息,当单个维度更新效率不高的情况下,多维在线更新所需要的时间明显增加。相反,通过第一部分个第二部分的实验可以发现,MSTSKMD的单维更新算法SWKMotif无论是在增加模体长度和数据集长度的情况下,都能保持较低的更新时间,因此在处理多维在线数据时,同样也能保持一个较快的更新效率。

Claims (7)

1.一种基于MITree的多维时间序列在线模体发现方法,其特征在于,包括如下步骤:
(1)首先对基本窗口内的时间序列逐维提取单维时间序列中的K模体,得到单维模体实例;基于时间阈值,在所有的单维模体实例中划分模体实例邻居;
(2)利用划分的模体实例邻居构造和更新MITree树结构;
(3)基于MITree树中的信息在线发现最新的多维模体。
2.根据权利要求1所述的一种基于MITree的多维时间序列在线模体发现方法,其特征在于,步骤(1)中,提取单维模体实例的具体方式为:
采用长度为m的滑动窗口对时间序列生成子序列,计算子序列之间的相关系数,构造相关系数矩阵,通过相关系数定义两个子序列之间的相似度,相关系数越高表明两个子序列越相似;
去除相关系数矩阵中不满足相关系数阈值条件的子序列和平凡匹配的子序列,然后将相关系数由高到低此时得到所有子序列满足条件的匹配序列集合;在每个维度上提取前k个K-模体,构成K-Motif集合。
3.根据权利要求1所述的一种基于MITree的多维时间序列在线模体发现方法,其特征在于,步骤(1)中,构造模体实例邻居的具体方式为:
使用三元组[dim,k,timestamp]描述所有的单维模体实例,其中dim表示该模体所属的维度,k表示属于dim维度中第k重要的模体,timestamp描述该模体实例在原始时间序列中的开始位置;
基于预先定义的时间阈值td,将满足阈值条件的不同维度的单维模体实例置入相同的模体实例邻居之中;对于两个不同维度的模体实例[dim1,k1,timestamp1]和[dim2,k2,timestamp2],如果满足条件|timestamp1-timestamp2|<td,则这两个模体实例属于邻居,多个互为邻居的模体实例构成一个模体实例邻居。
4.根据权利要求1所述的一种基于MITree的多维时间序列在线模体发现方法,其特征在于,步骤(2)中,所述MITree树结构包括头指针表headTable和模体实例树结构;所述头指针表headTable存储从各维度提取的所有K-Motifs信息,包括模体所在的维度dim、所属模体K、频率Frequency、时间列表timeList、是否更新Modify、更新次数Count、是否是新的K-Motif信息New。其中,所述频率Frequency即模体实例个数,时间列表timeList即模体实例出现的位置。
5.根据权利要求4所述的一种基于MITree的多维时间序列在线模体发现方法,其特征在于,步骤(2)中,构造MITree树结构的具体方式为:
针对每个模体实例邻居中的模体实例,按照各实例的所属K-模体的频率从高到低进行排序;
基于模体实例构造的模体实例邻居,将所有的模体实例邻居中的单维模体实例按照维度由低到高顺序排列;将排序完毕的模体实例邻居顺序插入MITree结构中,同一个模体实例邻居中,排序在前的模体实例对应树路径中的祖先节点,排序在后的项集对应子孙节点;当所有的模体实例邻居插入完毕时,MITree结构构造完成。
6.根据权利要求5所述的一种基于MITree的多维时间序列在线模体发现方法,其特征在于,步骤(2)中,更新MITree树结构的具体方式为:
当基本窗口大小的新数据到达时,需要移动原本的滑动窗口,将新数据插入,旧数据删除;
使用单维流模体发现方法SWKMotif,首先判断新的基本窗口中的子序列,是否属于已有的K-Motifs集合;如果属于已有的K-Motifs集合,则更新headTable中Modify字段为1,以表明该字段被更新,同时将Count字段加1,以表明该模体被更新一次;如果不属于已有的K-模体集合,计算子序列与其它所有子序列间的相关系数,基于K-模体的定义,判断是否构成新的K-模体;如果构成新的K-模体,在headTable中新增一条模体信息,其中,根据频率确定新模体为第几重要的模体K、New字段标记为1,以表明该模体是新模体,同时更新其他模体的K,确定当前维度中所有K-Motifs的优先级;如果不构成新的K-Motifs,证明该子序列在当前滑动窗口不频繁,继续遍历下一个子序列;当MITree的头指针表headTable更新完毕,将所有单维模体的更新信息,增量更新到MITree结构中。
7.根据权利要求6所述的一种基于MITree的多维时间序列在线模体发现方法,其特征在于,步骤(2)中,基于MITree树在线发现最新的多维模体的具体方式为:
基于挖掘得到的单维K-Motifs和模体实例邻居,构造初始的MITree的头指针表headtable和MITree树;遍历headtable中所有的单维模体,找到该单维模体对应的MITree中节点,寻找所有该节点在MITree中所在路径构成的子树,同时将路径上的结点支持度计数改为与该节点支持度计数相同;寻找该节点的条件模式基,通过递归合并较少维度的多维模体,构造更多维度的多维模体模体;
最终,挖掘到的多维模体满足:每个模体实例的支持度计数大于等于2,并且至少由两个不同维度的单维模体构成。
CN202111160315.9A 2021-09-30 2021-09-30 一种基于MITree的多维时间序列在线模体发现方法 Pending CN113902003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111160315.9A CN113902003A (zh) 2021-09-30 2021-09-30 一种基于MITree的多维时间序列在线模体发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111160315.9A CN113902003A (zh) 2021-09-30 2021-09-30 一种基于MITree的多维时间序列在线模体发现方法

Publications (1)

Publication Number Publication Date
CN113902003A true CN113902003A (zh) 2022-01-07

Family

ID=79189711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111160315.9A Pending CN113902003A (zh) 2021-09-30 2021-09-30 一种基于MITree的多维时间序列在线模体发现方法

Country Status (1)

Country Link
CN (1) CN113902003A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128582A (zh) * 2021-04-14 2021-07-16 河海大学 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN114647679A (zh) * 2022-03-14 2022-06-21 河海大学 一种基于数值特征聚类的水文时间序列模体挖掘方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128582A (zh) * 2021-04-14 2021-07-16 河海大学 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN113128582B (zh) * 2021-04-14 2022-09-02 河海大学 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN114647679A (zh) * 2022-03-14 2022-06-21 河海大学 一种基于数值特征聚类的水文时间序列模体挖掘方法

Similar Documents

Publication Publication Date Title
Bodon A fast APRIORI implementation.
Zhang et al. Treepi: A novel graph indexing method
CN113902003A (zh) 一种基于MITree的多维时间序列在线模体发现方法
US7610284B2 (en) Compressed prefix trees and estDec+ method for finding frequent itemsets over data streams
Chen et al. Mining frequent patterns in a varying-size sliding window of online transactional data streams
Bertoin et al. The cut-tree of large Galton–Watson trees and the Brownian CRT
JP2009244996A (ja) 文字列検索システム及び方法
CN112287118B (zh) 事件模式频繁子图挖掘与预测方法
Shen et al. Sequential pattern mining
Shah et al. Incremental mining of association rules: A survey
Totad et al. Batch processing for incremental FP-tree construction
Chen et al. Mining sequential patterns across data streams
CN117494060A (zh) 基于gpu的在趋势数据中挖掘变长模体方法
Ansari et al. TFI-Apriori: Using new encoding to optimize the apriori algorithm
Pradeepini et al. Tree-based incremental association rule mining without candidate itemset generation
Pan et al. Efficient algorithms for mining maximal frequent concatenate sequences in biological datasets
CN114661927A (zh) 一种基于社区检测的频繁子图挖掘方法
CN107451290B (zh) 一种并行化的数据流频繁项集挖掘方法
Yang et al. Towards automatic clustering of protein sequences
CN109800231A (zh) 一种基于Flink的实时轨迹co-movement运动模式检测方法
Sutha et al. Mining frequent, maximal and closed frequent itemsets over data stream-a review
Vu et al. An efficient approach for mining association rules from sparse and dense databases
Stamoulakatou et al. DLA: A distributed, location-based and Apriori-based algorithm for biological sequence pattern mining
KR20130063652A (ko) 이미지 데이터 검색을 위한 점진 어휘 트리 구조 구축 방법
Soliman et al. SPEDS: A framework for mining sequential patterns in evolving data streams

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination