CN110362606B - 一种时间序列变长模体挖掘方法 - Google Patents

一种时间序列变长模体挖掘方法 Download PDF

Info

Publication number
CN110362606B
CN110362606B CN201910496208.XA CN201910496208A CN110362606B CN 110362606 B CN110362606 B CN 110362606B CN 201910496208 A CN201910496208 A CN 201910496208A CN 110362606 B CN110362606 B CN 110362606B
Authority
CN
China
Prior art keywords
motif
length
die body
motifs
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910496208.XA
Other languages
English (en)
Other versions
CN110362606A (zh
Inventor
王继民
朱旭
朱晓晓
季昌政
李家欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201910496208.XA priority Critical patent/CN110362606B/zh
Publication of CN110362606A publication Critical patent/CN110362606A/zh
Application granted granted Critical
Publication of CN110362606B publication Critical patent/CN110362606B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种时间序列变长模体挖掘方法,步骤为:1.模体提取:本发明使用基于Matrix Profile的模体挖掘算法STOMP作为子程序,并引入结合增量距离的下界距离计算加速策略,加速找到所有可能长度的模体。2.模体分组:加入模体重叠和长度相似性条件进行模体分组。3.模体分组等价类划分:加入模体分组重叠条件对模体分组进行等价类划分。4.变长模体提取:提取每个分组等价类中的模体代表,模体代表集合即为变长模体。本发明能够剔除过短、过长和存在平凡匹配的模体,提取时间序列中变长模体,在准确率、效率和可扩展性方面有了提升。

Description

一种时间序列变长模体挖掘方法
技术领域
本发明属于信息处理技术领域,特别涉及一种时间序列变长模体挖掘方法。
背景技术
时间序列模体挖掘能够以无监督的方式从时间序列中寻找重复出现的相似片段,寻找数据中有意义的、新颖的、未知的知识,从而发现时间序列中的潜在规则和特定事件。此外,时间序列模体挖掘不仅适用于一维或多维数据,同样能够适用于不同类型的序列数据,例如空间序列数据,时间序列数据以及流数据。并且时间序列模体挖掘技术在遗传学、医学、数学、音乐等诸多领域也得到应用。
模体被定义为重复的模式、频繁的趋势、或者近似重复的序列、形状、片段、子序列等。Mueen给出了其对模体的定义:模体是一段长时间序列中,一对彼此最相似的,并且不重叠的时间序列子序列。目前大致可以将模体的定义可分为两类:基于相似度的时间序列模体和基于支持度的时间序列模体。
而基于支持度的时间序列模体,即给定时间序列T,子序列长度n和距离范围σ,时间序列模体是指在给定的距离范围σ内,出现次数最多的时间序列子序列。基于相似度的时间序列模体,即给定时间序列T及其长度n,模体长度m,基于相似性的模体是指时间序列中相似度最高、不重叠的、z归一化欧氏距离最小的一对子序列。基于相似度的模体Mw,即时间序列T中长度为w且彼此相似度最高的一对子序列。可将其定义为一个四元组:Mw=(MDist,L1,L2,w)。其中,L1和L2为子序列的起始位置,MDist为子序列L1和L2之间的平方欧式距离。
目前针对时间序列定长模体挖掘问题的解决方法较多,而适用于时间序列变长模体挖掘问题的解决方法较少。此外已有的基于相似度的时间序列变长模体挖掘算法可扩展性差,时间复杂度高。例如,VLMD算法,其结果中存在无意义的过短、过长和平凡匹配的模体。此外,使用MK算法作为子程序进行迭代,导致算法的速度较慢、可扩展性较差的问题等。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于MatrixProfile的时间序列变长模体挖掘方法FMPVLMD,通过模体提取、模体分组、模体分组等价类划分、变长模体提取四个步骤以高效地发现时间序列中的变长模体。
技术方案:为实现上述目的,本发明提供一种时间序列变长模体挖掘方法,包括如下步骤:
(1)模体提取:以模体挖掘算法STOMP作为子程序,提取所有可能长度的模体;
(2)模体分组:采用模体重叠判断条件和长度相似性判断条件对步骤(1) 所得模体进行模体分组;
(3)模体分组等价类划分:采用模体分组重叠条件对步骤(2)产生的模体分组进行等价类划分;
(4)变长模体提取:提取步骤(3)等价类中的模体代表,输出变长模体集合。
进一步的,所述步骤(1)中模体提取的具体步骤如下:
(1.1)STOMP算法提取定长模体;
(1.2)以STOMP作为子程序并迭代,结合增量距离的下界距离计算加速策略,提取所有可能长度的模体。
进一步的,所述步骤(1.1)中STOMP算法提取定长模体的具体步骤如下:
STOMP算法以给定长度为m的滑动窗口,计算时间序列T中每个子序列的平均值μ和标准差σ;计算每一个查询子序列Q和T中所有子序列的点积,再计算查询子序列和T中所有子序列的z-归一化欧式距离,得到距离矩阵Distance Profile;选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P 和矩阵向量索引Matrix Profile Index I,Matrix Profile P表示为 (P1,P2,...,Ps,...Pn-m+1),其中n表示时间序列长度,Ps表示第s个子序列和其最相似的子序列之间的距离,(Ps)min对应的一对子序列即为模长为m的模体;使用z-归一化的平方欧氏距离作为距离度量,平方欧氏距离Dxy公式如下:
Figure GDA0003829632350000021
其中,x,y分别为时间序列T中长度为l的时间序列子序列,xk表示x中的第k 个元素,yk表示y中的第k个元素,μxy分别表示x和y的均值,σx,σy分别为x和 y的标准差。
进一步的,所述步骤(1.2)中以STOMP作为子程序并迭代,结合增量距离的下界距离计算加速策略,提取所有可能长度的模体的具体步骤如下:
在已知模长为m的矩阵向量P,求模长m+1的矩阵向量时,使用下界距离公式求得模长为m+1的下界距离,剔除P中z-归一化欧氏距离大于该下界距离的子序列对,在剩下的子序列对中,利用增量计算重用长度m的子序列间的距离来计算长度m+1的子序列距离,加快模体提取速度;使用增量距离的下界距离计算加速策略,加速提取所有可能长度的模体。下界距离dLB 2公式如下:
Figure GDA0003829632350000031
其中,z=maxs(tss-j+1,j-1)/σs-j+1,j-1;d为模长为j-1的模体的子序列之间的z-归一化欧式距离。
进一步的,所述步骤(2)中模体分组的具体步骤如下:将满足模体重叠条件的两个模体置入相同模体分组中,反之创建新的模体分组,并将其中未分组的一个模体作为首个元素存储到其中;对同一个分组中的模体,使用长度相似性条件,剔除过短模体。
进一步的,所述步骤(3)中模体分组等价类划分的具体步骤如下:不同模体分组中可能存在子序列相同或者相似的情况,通过引入模体分组重叠条件,将存在该情况的这些模体分组置入同一个等价类中。
进一步的,所述步骤(4)中变长模体提取的具体步骤如下:提取模体分组等价类中每个模体分组中z-归一化欧氏距离最小的模体作为模体分组代表,并将这些模体分组代表按照z-归一化欧氏距离正序排列,选择中间位置模体代表的z- 归一化欧氏距离作为距离最大值,删除z-归一化欧氏距离大于该最大距离的模体代表;最终输出每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。
进一步的,所述步骤(2)中模体分组的详细步骤如下:将满足模体重叠条件的两个模体置入相同模体分组中,反之创建新的模体分组,并将其中未分组的一个模体作为首个元素存储到其中;对于两个模体Mi和Mj,如果满足条件 Mi.L1≤Mj.L1<Mi.L1+i or Mj.L1≤Mi.L1<Mj.L1+j,并且Mi.L2≤ Mj.L2<Mi.L2+i or Mj.L2≤Mi.L2<Mj.L2+j;其中i、j表示模体的长度,只要满足一个模体的一对子序列的起始位置在另外一个模体的一对子序列的起始位置到终止位置之间,便满足模体重叠条件时,则模体Mi和Mj重叠;对同一个分组中的模体,使用长度相似性条件
Figure GDA0003829632350000041
如果模体Mw的HMw值与其他模体的HMother值不同,剔除模体Mw;其中,n表示时间序列长度,w表示模体长度。
进一步的,所述步骤(3)中模体分组等价类划分的详细步骤如下:将存在存在子序列相同或者相似情况的模体分组置入同一个等价类中;假设两个模体 Mw和Mx分别属于分组groupi和分组groupj,如果满足Mw.L1=Mx.L1||Mw.L1= Mx.L2||Mw.L2=Mx.L1||Mw.L2=Mx.L2;则groupi和groupj同属一个模体分组等价类;其中两个模体的一对子序列的起始位置,只要有一个相同,便满足分组等价类条件。
有益效果:本发明与现有技术相比具有以下优点:
(1)本发明中FMPVLMD算法结合两种加速策略,提出结合增量计算的下界距离加速策略,从而提出效率更高的模体提取算法。与单独使用下界距离或增量距离计算相比,FMPVLMD算法在速度方面有较大的提升,并且能够降低发现所有可能长度模体所进行迭代计算的代价。
(2)本发明中提出的算法能够在较短时间内发现时间序列中的变长模体,并且具有高效性、准确性和更强的可扩展性。
附图说明
图1为本发明的方法流程图;
图2为具体实施例中子序列间距离矩阵和矩阵向量MP结构图;
图3为具体实施例中不同算法发现Dataset1中植入模体的准确率图;
图4为具体实施例中不同算法发现Dataset2中植入模体的准确率图;
图5为具体实施例中不同算法在各数据集下运行时间增速对比折线图;
图6为具体实施例中不同算法在各数据集下运行时间对比图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示,一种基于Matrix Profile的时间序列变长模体挖掘方法,包括以下步骤:以STOMP作为子程序,迭代该子程序,结合增量距离的下界距离计算的加速策略,加速提取所有可能长度的模体集合。然后对该模体集合进行模体重叠、长度相似性判断得到模体分组,然后对该分组进行模体分组重叠判断得到模体分组等价类,然后提取模体代表,通过以上操作剔除过长、过短的模体,输出每个等价类中最长的模体集合即为变长模体。
具体过程如下:
步骤101、确定模体长度。
给定长度为n的时间序列T,由于模体被定义为一对彼此最相似且不重叠的子序列,并且滑动窗口长度必须大于1,所以模体长度的最小值为2,最大值为 n/2。
步骤102、使用定长模体挖掘算法STOMP,提取固定长度的模体。
STOMP算法以给定长度为m的滑动窗口,计算时间序列T中每个子序列的平均值μ和标准差σ。计算每一个查询子序列Q和T中所有子序列的点积,再计算查询子序列和T中所有子序列的z归一化平方欧式距离,得到距离矩阵Distance Profile。选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P 和矩阵向量索引Matrix Profile Index I,Matrix Profile P表示为 (P1,P2,...,Ps,...Pn-m+1),其中n表示时间序列长度,Ps表示第s个子序列和其最相似的子序列之间的距离。STOMP算法的伪代码如表1所示。
表1 STOMP算法
Figure GDA0003829632350000051
Figure GDA0003829632350000061
第4到11行,通过循环计算每一个查询子序列与T中所有子序列的距离向量,共同组成距离矩阵Distance Matrix。其中第10行,选取每一列的最小值作为矩阵向量MatrixProfile P的一个元素,P为固定模长对应的最相似子序列的集合。其中第6行,使用增量计算的思想,避免重复计算,重用前一个相邻子序列的点积结果来加速下一个子序列点积的计算。
增量计算距离举例:计算上三角部分各子序列间的点积时,依然可以重用前一个相邻子序列的点积结果来加速下一个子序列点积的计算。假设计算出 (ai,ai+1,...,ai+m-1)·(aj,aj+1,...aj+m-1)的结果之后,先减去ai·aj的值,再加上(ai+m)(aj+m)的值,就可以得到(ai+1,ai+2,...,ai+m)·(aj+1,aj+2,...,aj+m)的结果。
使用z-归一化的平方欧氏距离作为距离度量,平方欧氏距离Dxy公式如下:
Figure GDA0003829632350000062
其中,x,y分别为时间序列T中长度为l时间序列子序列,xk表示x中的第k 个元素,yk表示y中的第k个元素,μxy分别表示x和y的均值,σx,σy分别为x和 y的标准差。
步骤103、迭代STOMP子程序,提取所有可能长度的模体。
在已知模长为m的矩阵向量P,求模长m+1的矩阵向量时,使用下界距离公式求得模长为m+1的下界距离,下界距离可将对长度为m+1的模体的搜索空间限制在P中,剔除P中z归一化欧氏距离大于该下界距离的子序列对,在剩下的子序列中通过增量计算加速提取模长m+1的最相似的子序列对和模体。使用结合增量距离计算的下界距离加速策略加快模体提取所有可能长度模体速度的 MotifExtraction算法如表2所示。
表2结合增量距离计算的下界距离加速策略的MotifExtraction算法
Figure GDA0003829632350000063
Figure GDA0003829632350000071
表2第一行计算z,以便后续计算下界距离。第2行,使用STOMP算法提取模长为j-1的模体以及按距离升序排列的彼此最相似的子序列对列表List。第3 行,计算模长为j的下界距离。第6-7行,使用增量距离计算技术,重用长度为 j-1模体之间的距离计算长度为j的模体之间的距离。同时在此处使用文献[75]中的缓存技术。第8-9行,将新长度j的彼此最相似的子序列间距离存储在NewList 中。第10行进行了关键性判断:如果列表中的最小距离小于下界距离,可修剪。第11行将模体的位置存储在平行数组L1,L2中,用于后续模体重叠判断。第 12行输出模长为j的最佳模体。下界距离满足公式:
Figure GDA0003829632350000072
其中,z=maxs(tss-j+1,j-1)/σs-j+1,j-1;d为模长为j-1的模体的子序列之间的z-归一化欧式距离。
步骤104、利用模体重叠条件对模体进行模体分组。
将满足模体重叠条件的两个模体置入相同模体分组中,反之创建新的模体分组,并将其中未分组的一个模体作为首个元素存储到其中。对于两个模体Mi和Mj,如果满足条件Mi.L1≤Mj.L1<Mi.L1+i or Mj.L1≤Mi.L1<Mj.L1+j,并且 Mi.L2≤Mj.L2<Mi.L2+i or Mj.L2≤Mi.L2<Mj.L2+j(i、j表示模体的长度,只要满足一个模体的一对子序列的起始位置在另外一个模体的一对子序列的起始位置到终止位置之间,便满足模体重叠条件)时,则模体Mi和Mj重叠。
步骤105、利用长度相似性条件修剪同一模体分组中过短模体。
对同一个分组中的模体,使用长度相似性条件
Figure GDA0003829632350000081
如果模体Mw的HMw值与其他模体Mmother的HMmother值不同,剔除模体Mw。其中,n表示时间序列长度,w表示模体长度。
步骤106、利用模体分组重叠条件对模体分组进行等价类划分。
不同模体分组中可能存在子序列相同或者相似的情况,将存在该情况的这些模体分组置入同一个等价类中。假设两个模体Mw和Mx分别属于分组groupi和分组groupj,如果满足Mw.L1=Mx.L1||Mw.L1=Mx.L2||Mw.L2=Mx.L1||Mw.L2= Mx.L2(两个模体的一对子序列的起始位置,只要有一个相同,便满足分组等价类条件),则groupi和groupj同属一个模体分组等价类。其中L1,L2是模体子序列的起始位置。
步骤107、提取每个模体分组等价类的模体代表。
提取模体分组等价类中每个模体分组中z归一化欧氏距离最小的模体作为模体分组的模体代表,将这些模体分组的模体代表按照z归一化欧氏距离正序排列,选择中间位置模体代表的z归一化欧氏距离(如果模体分组个数为奇数即为中间位置模体代表的z归一化欧氏距离,如果是偶数取中间两个模体代表的z归一化欧氏距离的均值)作为距离最大值,删除z归一化欧氏距离大于该最大距离的模体代表。最终输出每个模体分组等价类中z归一化欧氏距离最大的模体代表。
步骤108、每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。
实施例:
为了验证本发明的效果,实验采用UCR中的部分数据集作为实验数据,实验将从两个方面进行,(1)针对数据集详细分析按照具体实施方式中的步骤产生的结果;(2)与已有的算法比较,分析本发明算法的时间性能和识别准确率。
下面基于两个数据集分别分析FMPVLMD的准确率以及可扩展性。
1)准确率分析,将FMVLMD与文献[51]中的MN方法,以及原始VLMD算法进行比较。利用准确性检测方法(Accuracy-on-Detection,AoD),计算算法输出的模体与植入模体间的重叠比,以衡量各算法的准确性。
2)基于Dataset1、Dataset2数据集,将FMPVLMD方法与不使用任何加速策略的MPVLMD方法、单独使用下界距离的SFMPVLMD方法、单独使用增量距离计算的IFMPVLMD方法、MN方法和VLMD算法进行比较。分别运行各算法十次,记录各算法每次运行所需时间并求其平均值。对比六个算法在每个数据集上运行所需的平均运行时间,考察FMPVLMD方法效率。
1.数据准备
以UCR的部分数据集作为实验数据,数据集信息如表3所示。
表3数据集中所有植入模式的详细信息
Figure GDA0003829632350000091
UCR数据集是由事先确定好的模式长度的已知模式组成,将UCR数据集中已知模式随机植入到随机游走数据中,创建实验所用数据集Dataset1,Datase2。通过比较模体挖掘算法挖掘出的模体与植入的模体的重叠覆盖率,得出各算法的准确率。针对不同数据集长度,进行模体挖掘运行所需时间并求其平均值,得出各算法的可扩展性。同样,针对相同数据集长度,进行模体挖掘运行所需时间并求其平均值,得出各算法的效率。
2.实验分析
1)FMPVLMD算法的准确性对比验证
基于UCR数据集Dataset1、Dataset2,选用准确性衡量方法AoD,计算本发明FMPVLMD算法、MN算法和VLMD算法输出模体与预先植入模体的重叠比,验证本发明算法的准确性。表4和图3、4列出了实验结果。
表4各数据集中不同算法发现植入模体的准确率
Figure GDA0003829632350000101
分析图3、4所示实验结果可以发现:基于多个数据集的整体实验结果来看,FMPVLMD算法能够发现所有的植入模体,其发现模体的准确率要优于VLMD算法,整体表现更为稳定和准确。同时,在基于某些数据集进行模体发现实验时, VLMD算法会出现不能发现植入模体的情况。对比本发明提出的FMPVLMD算法与MN算法发现模体的结果,虽然MN算法也能有效地发现所有的植入模体,但是其发现模体的准确率整体来看要略低于FMPVLMD算法。证实本发明算法不仅能够有效地发现不同长度的模体,而且具有较高的准确率。
2)FMPVLMD算法的可扩展性与效率对比验证
为了验证算法的可扩展性和效率,同样基于前文对比实验所用的两个不同的数据集,分别使用VLMD、MPVLMD、FMPVLMD、IFMPVLMD、SFMPVLMD、MN 算法基于每个数据集进行十次模体挖掘实验。统计并求取各算法在不同数据集中进行模体挖据实验所需的平均运行时间。为了更好地呈现实验结果,同时使用了折线图和柱形图,结果如图5和6所示。
如图5、6实验结果所示,随着数据集长度的增加,VLMD算法进行模体挖据所需的运行时间近似呈现指数型增加。而FMPVLMD、MPVLMD、IFMPVLMD、 SFMPVLMD、MN算法所需的运行时间虽然也都有所增长,但是整体运行时间都要远低于VLMD算法。
对比各算法运行时间的增长速率,VLMD算法运行时间随数据集长度增加呈现指数型增加,相反其余算法对于数据集长度的变化相对不太敏感,增长速率均要缓慢得多。其中,使用STOMP算法作为子程序的算法、下界距离加速策略或增量距离计算加速策略,运行时间更短,增长速率更为缓慢。实验证明FMPVLMD 算法具有较好的可扩展性。
综合上述两个实验的结果,可以得出结论:FMPVLMD算法能够有效地发现时间序列中不同长度的模体,在准确率、效率和可扩展性方面均优于原始的VLMD算法。

Claims (6)

1.一种时间序列变长模体挖掘方法,其特征在于,包括如下步骤:
(1)模体提取:以模体挖掘算法STOMP作为子程序,提取所有可能长度的模体;具体步骤如下:
(1.1)STOMP算法提取定长模体,具体步骤如下:
STOMP算法以给定长度为m的滑动窗口,计算时间序列T中每个子序列的平均值μ和标准差σ;计算每一个查询子序列Q和T中所有子序列的点积,再计算查询子序列和T中所有子序列的z-归一化欧式距离,得到距离矩阵Distance Profile;选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P和矩阵向量索引Matrix Profile Index I,MatrixProfile P表示为(P1,P2,...,Ps,...,Pn-m+1),其中n表示时间序列长度,Ps表示第s个子序列和其最相似的子序列之间的距离,(Ps)min对应的一对子序列即为模长为m的模体;使用z-归一化欧氏距离作为距离度量,z-归一化欧氏距离Dxy公式如下:
Figure FDA0003800098760000011
其中,x,y分别为时间序列T中长度为l的时间序列子序列,xk表示x中的第k个元素,yk表示y中的第k个元素,μxy分别表示x和y的均值,σx,σy分别为x和y的标准差;
(1.2)以STOMP作为子程序并迭代,结合增量距离的下界距离计算加速策略,提取所有可能长度的模体,具体步骤如下:
在已知模长为m的矩阵向量P,求模长m+1的矩阵向量时,使用下界距离公式求得模长为m+1的下界距离,剔除P中z-归一化欧氏距离大于该下界距离的子序列对,在剩下的子序列对中,利用增量计算重用长度m的子序列间的距离来计算长度m+1的子序列距离,加快模体提取速度;使用增量距离的下界距离计算加速策略,加速提取所有可能长度的模体;下界距离dLB 2公式如下:
Figure FDA0003800098760000012
其中,z=maxs(tss-j+1,j-1)/σs-j+1,j-1;d为模长为j-1的模体的子序列之间的z-归一化欧式距离;
(2)模体分组:采用模体重叠判断条件和长度相似性判断条件对步骤(1)所得模体进行模体分组;
(3)模体分组等价类划分:采用模体分组重叠条件对步骤(2)产生的模体分组进行等价类划分;
(4)变长模体提取:提取步骤(3)等价类中的模体代表,输出变长模体集合。
2.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(2)中模体分组的具体步骤如下:将满足模体重叠条件的两个模体置入相同模体分组中,反之创建新的模体分组,并将其中未分组的一个模体作为首个元素存储到其中;对同一个分组中的模体,使用长度相似性条件,剔除过短模体。
3.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(3)中模体分组等价类划分的具体步骤如下:不同模体分组中可能存在子序列相同或者相似的情况,通过引入模体分组重叠条件,将存在该情况的这些模体分组置入同一个等价类中。
4.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(4)中变长模体提取的具体步骤如下:提取模体分组等价类中每个模体分组中z-归一化欧氏距离最小的模体作为模体分组代表,并将这些模体分组代表按照z-归一化欧氏距离正序排列,选择中间位置模体代表的z-归一化欧氏距离作为距离最大值,删除z-归一化欧氏距离大于最大距离的模体代表;最终输出每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。
5.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(2)中模体分组的详细步骤如下:将满足模体重叠条件的两个模体置入相同模体分组中,反之创建新的模体分组,并将其中未分组的一个模体作为首个元素存储到其中;对于两个模体Mi和Mj,如果满足条件Mi.L1≤Mj.L1<Mi.L1+i or Mj.L1≤Mi.L1<Mj.L1+j,并且Mi.L2≤Mj.L2<Mi.L2+i or Mj.L2≤Mi.L2<Mj.L2+j;其中i、j表示模体的长度,只要满足一个模体的一对子序列的起始位置在另外一个模体的一对子序列的起始位置到终止位置之间,便满足模体重叠条件时,则模体Mi和Mj重叠;对同一个分组中的模体,使用长度相似性条件
Figure FDA0003800098760000021
如果模体Mi的HMi值与其他模体的HMother值不同,剔除模体Mi
6.根据权利要求1所述的一种时间序列变长模体挖掘方法,其特征在于,所述步骤(3)中模体分组等价类划分的详细步骤如下:将存在子序列相同或者相似情况的模体分组置入同一个等价类中;假设两个模体Mi和Mj分别属于分组groupa和分组groupb,如果满足(Mi.L1==Mj.L1)or(Mi.L1==Mj.L2)or(Mi.L2==Mj.L2)or(Mi.L2==Mj.L1),则groupa和groupb同属一个模体分组等价类;其中两个模体的一对子序列的起始位置,只要有一个相同,便满足分组等价类条件。
CN201910496208.XA 2019-06-10 2019-06-10 一种时间序列变长模体挖掘方法 Active CN110362606B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910496208.XA CN110362606B (zh) 2019-06-10 2019-06-10 一种时间序列变长模体挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910496208.XA CN110362606B (zh) 2019-06-10 2019-06-10 一种时间序列变长模体挖掘方法

Publications (2)

Publication Number Publication Date
CN110362606A CN110362606A (zh) 2019-10-22
CN110362606B true CN110362606B (zh) 2022-11-08

Family

ID=68216800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910496208.XA Active CN110362606B (zh) 2019-06-10 2019-06-10 一种时间序列变长模体挖掘方法

Country Status (1)

Country Link
CN (1) CN110362606B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324638B (zh) * 2020-02-10 2023-03-28 上海海洋大学 基于AR_TSM的时间序列motif关联规则挖掘方法
CN113128582B (zh) * 2021-04-14 2022-09-02 河海大学 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN113420070B (zh) * 2021-06-24 2023-06-30 平安国际智慧城市科技股份有限公司 排污监测数据处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070092000A1 (en) * 2005-10-21 2007-04-26 Wen-Hsiung Chen Spatial filtering for improving compression efficiency of motion compensated interframe coding
CN102262679A (zh) * 2011-08-17 2011-11-30 河海大学 一种水文时间序列模体挖掘方法
CN109241118A (zh) * 2018-08-08 2019-01-18 河海大学 基于子序列全连接和最大团的时间序列模体发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6840379B2 (ja) * 2016-12-02 2021-03-10 株式会社アドバンスト・メディア 情報処理システム、情報処理装置、情報処理方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070092000A1 (en) * 2005-10-21 2007-04-26 Wen-Hsiung Chen Spatial filtering for improving compression efficiency of motion compensated interframe coding
CN102262679A (zh) * 2011-08-17 2011-11-30 河海大学 一种水文时间序列模体挖掘方法
CN109241118A (zh) * 2018-08-08 2019-01-18 河海大学 基于子序列全连接和最大团的时间序列模体发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
水文时间序列模体挖掘;朱跃龙等;《水利学报》;20121215;第43卷(第12期);第1422-1430页 *

Also Published As

Publication number Publication date
CN110362606A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
CN110362606B (zh) 一种时间序列变长模体挖掘方法
Brock et al. High-performance large-scale image recognition without normalization
Linderman et al. Efficient algorithms for t-distributed stochastic neighborhood embedding
US20190171665A1 (en) Image similarity search via hashes with expanded dimensionality and sparsification
CN108600246B (zh) 一种基于knn算法的网络入侵检测并行化加速方法
CN111370064B (zh) 基于simd的哈希函数的基因序列快速分类方法及系统
CN103020321B (zh) 近邻搜索方法与系统
Huang et al. Fast algorithms for finding the common subsequence of multiple sequences
CN113128582B (zh) 一种基于Matrix Profile的时间序列变长模体挖掘方法
KR102615073B1 (ko) 유사도 검색을 위한 신경 해싱
CN108920483B (zh) 基于后缀数组的字符串快速匹配方法
Lang et al. Dictionary-based compression for long time-series similarity
CN103336963A (zh) 一种图像特征提取的方法及装置
Sogabe et al. An acceleration method of short read mapping using FPGA
Fomin A Simple Approach to the Reconstruction of a Set of Points from the Multiset of n 2 Pairwise Distances in n 2 Steps for the Sequencing Problem: II. Algorithm
Merry et al. Accelerating kd-tree searches for all k-nearest neighbours
US11080193B2 (en) Method for improving the execution time of a computer application
Mitzev et al. Time series shapelets: training time improvement based on particle swarm optimization
Psomopoulos et al. A finite state automata based technique for protein classification rules induction
CN113722374B (zh) 基于后缀树的时间序列变长模体挖掘方法
CN116089491B (zh) 基于时序数据库的检索匹配方法和装置
CN114004286B (zh) 一种基于频繁项挖掘的多维时间序列同步模体发现方法
Maiorino et al. Information Granules Filtering for Inexact Sequential Pattern Mining by Evolutionary Computation.
CN117494060A (zh) 基于gpu的在趋势数据中挖掘变长模体方法
Kettani et al. A fast deterministic kmeans initialization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant