CN110362606B

CN110362606B - 一种时间序列变长模体挖掘方法

Info

Publication number: CN110362606B
Application number: CN201910496208.XA
Authority: CN
Inventors: 王继民; 朱旭; 朱晓晓; 季昌政; 李家欢
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2022-11-08
Anticipated expiration: 2039-06-10
Also published as: CN110362606A

Abstract

本发明公开了一种时间序列变长模体挖掘方法，步骤为：1.模体提取：本发明使用基于Matrix Profile的模体挖掘算法STOMP作为子程序，并引入结合增量距离的下界距离计算加速策略，加速找到所有可能长度的模体。2.模体分组：加入模体重叠和长度相似性条件进行模体分组。3.模体分组等价类划分：加入模体分组重叠条件对模体分组进行等价类划分。4.变长模体提取：提取每个分组等价类中的模体代表，模体代表集合即为变长模体。本发明能够剔除过短、过长和存在平凡匹配的模体，提取时间序列中变长模体，在准确率、效率和可扩展性方面有了提升。

Description

一种时间序列变长模体挖掘方法

技术领域

本发明属于信息处理技术领域，特别涉及一种时间序列变长模体挖掘方法。

背景技术

时间序列模体挖掘能够以无监督的方式从时间序列中寻找重复出现的相似片段，寻找数据中有意义的、新颖的、未知的知识，从而发现时间序列中的潜在规则和特定事件。此外，时间序列模体挖掘不仅适用于一维或多维数据，同样能够适用于不同类型的序列数据，例如空间序列数据，时间序列数据以及流数据。并且时间序列模体挖掘技术在遗传学、医学、数学、音乐等诸多领域也得到应用。

模体被定义为重复的模式、频繁的趋势、或者近似重复的序列、形状、片段、子序列等。Mueen给出了其对模体的定义：模体是一段长时间序列中，一对彼此最相似的,并且不重叠的时间序列子序列。目前大致可以将模体的定义可分为两类：基于相似度的时间序列模体和基于支持度的时间序列模体。

而基于支持度的时间序列模体，即给定时间序列T，子序列长度n和距离范围σ，时间序列模体是指在给定的距离范围σ内，出现次数最多的时间序列子序列。基于相似度的时间序列模体，即给定时间序列T及其长度n，模体长度m，基于相似性的模体是指时间序列中相似度最高、不重叠的、z归一化欧氏距离最小的一对子序列。基于相似度的模体Mw，即时间序列T中长度为w且彼此相似度最高的一对子序列。可将其定义为一个四元组：Mw＝(MDist,L1,L2,w)。其中，L1和L2为子序列的起始位置，MDist为子序列L1和L2之间的平方欧式距离。

目前针对时间序列定长模体挖掘问题的解决方法较多，而适用于时间序列变长模体挖掘问题的解决方法较少。此外已有的基于相似度的时间序列变长模体挖掘算法可扩展性差，时间复杂度高。例如，VLMD算法，其结果中存在无意义的过短、过长和平凡匹配的模体。此外，使用MK算法作为子程序进行迭代，导致算法的速度较慢、可扩展性较差的问题等。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于MatrixProfile的时间序列变长模体挖掘方法FMPVLMD，通过模体提取、模体分组、模体分组等价类划分、变长模体提取四个步骤以高效地发现时间序列中的变长模体。

技术方案：为实现上述目的，本发明提供一种时间序列变长模体挖掘方法，包括如下步骤：

(1)模体提取：以模体挖掘算法STOMP作为子程序，提取所有可能长度的模体；

(2)模体分组：采用模体重叠判断条件和长度相似性判断条件对步骤(1) 所得模体进行模体分组；

(3)模体分组等价类划分：采用模体分组重叠条件对步骤(2)产生的模体分组进行等价类划分；

(4)变长模体提取：提取步骤(3)等价类中的模体代表，输出变长模体集合。

进一步的，所述步骤(1)中模体提取的具体步骤如下：

(1.1)STOMP算法提取定长模体；

(1.2)以STOMP作为子程序并迭代，结合增量距离的下界距离计算加速策略，提取所有可能长度的模体。

进一步的，所述步骤(1.1)中STOMP算法提取定长模体的具体步骤如下：

STOMP算法以给定长度为m的滑动窗口，计算时间序列T中每个子序列的平均值μ和标准差σ；计算每一个查询子序列Q和T中所有子序列的点积，再计算查询子序列和T中所有子序列的z-归一化欧式距离，得到距离矩阵Distance Profile；选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P 和矩阵向量索引Matrix Profile Index I，Matrix Profile P表示为 (P₁,P₂,...,P_s，...P_n-m+1)，其中n表示时间序列长度，P_s表示第s个子序列和其最相似的子序列之间的距离，(P_s)_min对应的一对子序列即为模长为m的模体；使用z-归一化的平方欧氏距离作为距离度量，平方欧氏距离D_xy公式如下：

其中，x,y分别为时间序列T中长度为l的时间序列子序列，x_k表示x中的第k 个元素，y_k表示y中的第k个元素，μ_x,μ_y分别表示x和y的均值，σ_x，σ_y分别为x和 y的标准差。

进一步的，所述步骤(1.2)中以STOMP作为子程序并迭代，结合增量距离的下界距离计算加速策略，提取所有可能长度的模体的具体步骤如下：

在已知模长为m的矩阵向量P，求模长m+1的矩阵向量时，使用下界距离公式求得模长为m+1的下界距离，剔除P中z-归一化欧氏距离大于该下界距离的子序列对，在剩下的子序列对中，利用增量计算重用长度m的子序列间的距离来计算长度m+1的子序列距离，加快模体提取速度；使用增量距离的下界距离计算加速策略，加速提取所有可能长度的模体。下界距离d_LB ²公式如下：

其中，z＝max_s(t_s-μ_s-j+1,j-1)/σ_s-j+1,j-1；d为模长为j-1的模体的子序列之间的z-归一化欧式距离。

进一步的，所述步骤(2)中模体分组的具体步骤如下：将满足模体重叠条件的两个模体置入相同模体分组中，反之创建新的模体分组，并将其中未分组的一个模体作为首个元素存储到其中；对同一个分组中的模体，使用长度相似性条件，剔除过短模体。

进一步的，所述步骤(3)中模体分组等价类划分的具体步骤如下：不同模体分组中可能存在子序列相同或者相似的情况，通过引入模体分组重叠条件，将存在该情况的这些模体分组置入同一个等价类中。

进一步的，所述步骤(4)中变长模体提取的具体步骤如下：提取模体分组等价类中每个模体分组中z-归一化欧氏距离最小的模体作为模体分组代表，并将这些模体分组代表按照z-归一化欧氏距离正序排列，选择中间位置模体代表的z- 归一化欧氏距离作为距离最大值，删除z-归一化欧氏距离大于该最大距离的模体代表；最终输出每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。

进一步的，所述步骤(2)中模体分组的详细步骤如下：将满足模体重叠条件的两个模体置入相同模体分组中，反之创建新的模体分组，并将其中未分组的一个模体作为首个元素存储到其中；对于两个模体M_i和M_j，如果满足条件 M_i.L₁≤M_j.L₁<M_i.L₁+i or M_j.L₁≤M_i.L₁<M_j.L₁+j，并且M_i.L₂≤ M_j.L₂<M_i.L₂+i or M_j.L₂≤M_i.L₂<M_j.L₂+j；其中i、j表示模体的长度，只要满足一个模体的一对子序列的起始位置在另外一个模体的一对子序列的起始位置到终止位置之间，便满足模体重叠条件时，则模体M_i和M_j重叠；对同一个分组中的模体，使用长度相似性条件

如果模体M_w的HM_w值与其他模体的HM_other值不同，剔除模体M_w；其中，n表示时间序列长度，w表示模体长度。

进一步的，所述步骤(3)中模体分组等价类划分的详细步骤如下：将存在存在子序列相同或者相似情况的模体分组置入同一个等价类中；假设两个模体 M_w和M_x分别属于分组group_i和分组group_j，如果满足M_w.L₁＝M_x.L₁||M_w.L₁＝ M_x.L₂||M_w.L₂＝M_x.L₁||M_w.L₂＝M_x.L₂；则group_i和group_j同属一个模体分组等价类；其中两个模体的一对子序列的起始位置，只要有一个相同，便满足分组等价类条件。

有益效果：本发明与现有技术相比具有以下优点：

(1)本发明中FMPVLMD算法结合两种加速策略，提出结合增量计算的下界距离加速策略，从而提出效率更高的模体提取算法。与单独使用下界距离或增量距离计算相比，FMPVLMD算法在速度方面有较大的提升，并且能够降低发现所有可能长度模体所进行迭代计算的代价。

(2)本发明中提出的算法能够在较短时间内发现时间序列中的变长模体，并且具有高效性、准确性和更强的可扩展性。

附图说明

图1为本发明的方法流程图；

图2为具体实施例中子序列间距离矩阵和矩阵向量MP结构图；

图3为具体实施例中不同算法发现Dataset1中植入模体的准确率图；

图4为具体实施例中不同算法发现Dataset2中植入模体的准确率图；

图5为具体实施例中不同算法在各数据集下运行时间增速对比折线图；

图6为具体实施例中不同算法在各数据集下运行时间对比图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示，一种基于Matrix Profile的时间序列变长模体挖掘方法，包括以下步骤：以STOMP作为子程序，迭代该子程序，结合增量距离的下界距离计算的加速策略，加速提取所有可能长度的模体集合。然后对该模体集合进行模体重叠、长度相似性判断得到模体分组，然后对该分组进行模体分组重叠判断得到模体分组等价类，然后提取模体代表，通过以上操作剔除过长、过短的模体，输出每个等价类中最长的模体集合即为变长模体。

具体过程如下：

步骤101、确定模体长度。

给定长度为n的时间序列T，由于模体被定义为一对彼此最相似且不重叠的子序列，并且滑动窗口长度必须大于1，所以模体长度的最小值为2，最大值为 n/2。

步骤102、使用定长模体挖掘算法STOMP，提取固定长度的模体。

STOMP算法以给定长度为m的滑动窗口，计算时间序列T中每个子序列的平均值μ和标准差σ。计算每一个查询子序列Q和T中所有子序列的点积，再计算查询子序列和T中所有子序列的z归一化平方欧式距离，得到距离矩阵Distance Profile。选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P 和矩阵向量索引Matrix Profile Index I，Matrix Profile P表示为 (P₁,P₂,...,P_s，...P_n-m+1)，其中n表示时间序列长度，P_s表示第s个子序列和其最相似的子序列之间的距离。STOMP算法的伪代码如表1所示。

表1 STOMP算法

第4到11行，通过循环计算每一个查询子序列与T中所有子序列的距离向量，共同组成距离矩阵Distance Matrix。其中第10行，选取每一列的最小值作为矩阵向量MatrixProfile P的一个元素，P为固定模长对应的最相似子序列的集合。其中第6行，使用增量计算的思想，避免重复计算，重用前一个相邻子序列的点积结果来加速下一个子序列点积的计算。

增量计算距离举例：计算上三角部分各子序列间的点积时，依然可以重用前一个相邻子序列的点积结果来加速下一个子序列点积的计算。假设计算出 (a_i,a_i+1,...,a_i+m-1)·(a_j,a_j+1,...a_j+m-1)的结果之后，先减去a_i·a_j的值，再加上(a_i+m)(a_j+m)的值，就可以得到(a_i+1,a_i+2,...,a_i+m)·(a_j+1,a_j+2,...,a_j+m)的结果。

使用z-归一化的平方欧氏距离作为距离度量，平方欧氏距离D_xy公式如下：

其中，x,y分别为时间序列T中长度为l时间序列子序列，x_k表示x中的第k 个元素，y_k表示y中的第k个元素，μ_x,μ_y分别表示x和y的均值，σ_x，σ_y分别为x和 y的标准差。

步骤103、迭代STOMP子程序，提取所有可能长度的模体。

在已知模长为m的矩阵向量P，求模长m+1的矩阵向量时，使用下界距离公式求得模长为m+1的下界距离，下界距离可将对长度为m+1的模体的搜索空间限制在P中，剔除P中z归一化欧氏距离大于该下界距离的子序列对，在剩下的子序列中通过增量计算加速提取模长m+1的最相似的子序列对和模体。使用结合增量距离计算的下界距离加速策略加快模体提取所有可能长度模体速度的 MotifExtraction算法如表2所示。

表2结合增量距离计算的下界距离加速策略的MotifExtraction算法

表2第一行计算z，以便后续计算下界距离。第2行，使用STOMP算法提取模长为j-1的模体以及按距离升序排列的彼此最相似的子序列对列表List。第3 行，计算模长为j的下界距离。第6-7行，使用增量距离计算技术，重用长度为 j-1模体之间的距离计算长度为j的模体之间的距离。同时在此处使用文献[75]中的缓存技术。第8-9行，将新长度j的彼此最相似的子序列间距离存储在NewList 中。第10行进行了关键性判断：如果列表中的最小距离小于下界距离，可修剪。第11行将模体的位置存储在平行数组L1，L2中，用于后续模体重叠判断。第 12行输出模长为j的最佳模体。下界距离满足公式：

步骤104、利用模体重叠条件对模体进行模体分组。

将满足模体重叠条件的两个模体置入相同模体分组中，反之创建新的模体分组，并将其中未分组的一个模体作为首个元素存储到其中。对于两个模体M_i和M_j，如果满足条件M_i.L₁≤M_j.L₁<M_i.L₁+i or M_j.L₁≤M_i.L₁<M_j.L₁+j，并且 M_i.L₂≤M_j.L₂<M_i.L₂+i or M_j.L₂≤M_i.L₂<M_j.L₂+j(i、j表示模体的长度，只要满足一个模体的一对子序列的起始位置在另外一个模体的一对子序列的起始位置到终止位置之间，便满足模体重叠条件)时，则模体M_i和M_j重叠。

步骤105、利用长度相似性条件修剪同一模体分组中过短模体。

对同一个分组中的模体，使用长度相似性条件

如果模体M_w的HM_w值与其他模体M_mother的HM_mother值不同，剔除模体M_w。其中，n表示时间序列长度，w表示模体长度。

步骤106、利用模体分组重叠条件对模体分组进行等价类划分。

不同模体分组中可能存在子序列相同或者相似的情况，将存在该情况的这些模体分组置入同一个等价类中。假设两个模体M_w和M_x分别属于分组group_i和分组group_j，如果满足M_w.L₁＝M_x.L₁||M_w.L₁＝M_x.L₂||M_w.L₂＝M_x.L₁||M_w.L₂＝ M_x.L₂(两个模体的一对子序列的起始位置，只要有一个相同，便满足分组等价类条件)，则group_i和group_j同属一个模体分组等价类。其中L₁，L₂是模体子序列的起始位置。

步骤107、提取每个模体分组等价类的模体代表。

提取模体分组等价类中每个模体分组中z归一化欧氏距离最小的模体作为模体分组的模体代表，将这些模体分组的模体代表按照z归一化欧氏距离正序排列，选择中间位置模体代表的z归一化欧氏距离(如果模体分组个数为奇数即为中间位置模体代表的z归一化欧氏距离，如果是偶数取中间两个模体代表的z归一化欧氏距离的均值)作为距离最大值，删除z归一化欧氏距离大于该最大距离的模体代表。最终输出每个模体分组等价类中z归一化欧氏距离最大的模体代表。

步骤108、每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。

实施例：

为了验证本发明的效果，实验采用UCR中的部分数据集作为实验数据，实验将从两个方面进行，(1)针对数据集详细分析按照具体实施方式中的步骤产生的结果；(2)与已有的算法比较，分析本发明算法的时间性能和识别准确率。

下面基于两个数据集分别分析FMPVLMD的准确率以及可扩展性。

1)准确率分析，将FMVLMD与文献[51]中的MN方法，以及原始VLMD算法进行比较。利用准确性检测方法(Accuracy-on-Detection,AoD)，计算算法输出的模体与植入模体间的重叠比，以衡量各算法的准确性。

2)基于Dataset1、Dataset2数据集，将FMPVLMD方法与不使用任何加速策略的MPVLMD方法、单独使用下界距离的SFMPVLMD方法、单独使用增量距离计算的IFMPVLMD方法、MN方法和VLMD算法进行比较。分别运行各算法十次，记录各算法每次运行所需时间并求其平均值。对比六个算法在每个数据集上运行所需的平均运行时间，考察FMPVLMD方法效率。

1.数据准备

以UCR的部分数据集作为实验数据，数据集信息如表3所示。

表3数据集中所有植入模式的详细信息

UCR数据集是由事先确定好的模式长度的已知模式组成，将UCR数据集中已知模式随机植入到随机游走数据中，创建实验所用数据集Dataset1，Datase2。通过比较模体挖掘算法挖掘出的模体与植入的模体的重叠覆盖率，得出各算法的准确率。针对不同数据集长度，进行模体挖掘运行所需时间并求其平均值，得出各算法的可扩展性。同样，针对相同数据集长度，进行模体挖掘运行所需时间并求其平均值，得出各算法的效率。

2.实验分析

1)FMPVLMD算法的准确性对比验证

基于UCR数据集Dataset1、Dataset2，选用准确性衡量方法AoD，计算本发明FMPVLMD算法、MN算法和VLMD算法输出模体与预先植入模体的重叠比，验证本发明算法的准确性。表4和图3、4列出了实验结果。

表4各数据集中不同算法发现植入模体的准确率

分析图3、4所示实验结果可以发现：基于多个数据集的整体实验结果来看，FMPVLMD算法能够发现所有的植入模体，其发现模体的准确率要优于VLMD算法，整体表现更为稳定和准确。同时，在基于某些数据集进行模体发现实验时， VLMD算法会出现不能发现植入模体的情况。对比本发明提出的FMPVLMD算法与MN算法发现模体的结果，虽然MN算法也能有效地发现所有的植入模体，但是其发现模体的准确率整体来看要略低于FMPVLMD算法。证实本发明算法不仅能够有效地发现不同长度的模体，而且具有较高的准确率。

2)FMPVLMD算法的可扩展性与效率对比验证

为了验证算法的可扩展性和效率，同样基于前文对比实验所用的两个不同的数据集，分别使用VLMD、MPVLMD、FMPVLMD、IFMPVLMD、SFMPVLMD、MN 算法基于每个数据集进行十次模体挖掘实验。统计并求取各算法在不同数据集中进行模体挖据实验所需的平均运行时间。为了更好地呈现实验结果，同时使用了折线图和柱形图，结果如图5和6所示。

如图5、6实验结果所示，随着数据集长度的增加，VLMD算法进行模体挖据所需的运行时间近似呈现指数型增加。而FMPVLMD、MPVLMD、IFMPVLMD、 SFMPVLMD、MN算法所需的运行时间虽然也都有所增长，但是整体运行时间都要远低于VLMD算法。

对比各算法运行时间的增长速率，VLMD算法运行时间随数据集长度增加呈现指数型增加，相反其余算法对于数据集长度的变化相对不太敏感，增长速率均要缓慢得多。其中，使用STOMP算法作为子程序的算法、下界距离加速策略或增量距离计算加速策略，运行时间更短，增长速率更为缓慢。实验证明FMPVLMD 算法具有较好的可扩展性。

综合上述两个实验的结果，可以得出结论：FMPVLMD算法能够有效地发现时间序列中不同长度的模体，在准确率、效率和可扩展性方面均优于原始的VLMD算法。

Claims

1.一种时间序列变长模体挖掘方法，其特征在于，包括如下步骤：

(1)模体提取：以模体挖掘算法STOMP作为子程序，提取所有可能长度的模体；具体步骤如下：

(1.1)STOMP算法提取定长模体，具体步骤如下：

STOMP算法以给定长度为m的滑动窗口，计算时间序列T中每个子序列的平均值μ和标准差σ；计算每一个查询子序列Q和T中所有子序列的点积，再计算查询子序列和T中所有子序列的z-归一化欧式距离，得到距离矩阵Distance Profile；选取距离矩阵中的每一列的最小值组成矩阵向量Matrix Profile P和矩阵向量索引Matrix Profile Index I，MatrixProfile P表示为(P₁,P₂,...,P_s，...,P_n-m+1)，其中n表示时间序列长度，P_s表示第s个子序列和其最相似的子序列之间的距离，(P_s)_min对应的一对子序列即为模长为m的模体；使用z-归一化欧氏距离作为距离度量，z-归一化欧氏距离D_xy公式如下：

其中，x,y分别为时间序列T中长度为l的时间序列子序列，x_k表示x中的第k个元素，y_k表示y中的第k个元素，μ_x,μ_y分别表示x和y的均值，σ_x，σ_y分别为x和y的标准差；

(1.2)以STOMP作为子程序并迭代，结合增量距离的下界距离计算加速策略，提取所有可能长度的模体，具体步骤如下：

在已知模长为m的矩阵向量P，求模长m+1的矩阵向量时，使用下界距离公式求得模长为m+1的下界距离，剔除P中z-归一化欧氏距离大于该下界距离的子序列对，在剩下的子序列对中，利用增量计算重用长度m的子序列间的距离来计算长度m+1的子序列距离，加快模体提取速度；使用增量距离的下界距离计算加速策略，加速提取所有可能长度的模体；下界距离d_LB ²公式如下：

其中，z＝max_s(t_s-μ_s-j+1,j-1)/σ_s-j+1,j-1；d为模长为j-1的模体的子序列之间的z-归一化欧式距离；

(2)模体分组：采用模体重叠判断条件和长度相似性判断条件对步骤(1)所得模体进行模体分组；

2.根据权利要求1所述的一种时间序列变长模体挖掘方法，其特征在于，所述步骤(2)中模体分组的具体步骤如下：将满足模体重叠条件的两个模体置入相同模体分组中，反之创建新的模体分组，并将其中未分组的一个模体作为首个元素存储到其中；对同一个分组中的模体，使用长度相似性条件，剔除过短模体。

3.根据权利要求1所述的一种时间序列变长模体挖掘方法，其特征在于，所述步骤(3)中模体分组等价类划分的具体步骤如下：不同模体分组中可能存在子序列相同或者相似的情况，通过引入模体分组重叠条件，将存在该情况的这些模体分组置入同一个等价类中。

4.根据权利要求1所述的一种时间序列变长模体挖掘方法，其特征在于，所述步骤(4)中变长模体提取的具体步骤如下：提取模体分组等价类中每个模体分组中z-归一化欧氏距离最小的模体作为模体分组代表，并将这些模体分组代表按照z-归一化欧氏距离正序排列，选择中间位置模体代表的z-归一化欧氏距离作为距离最大值，删除z-归一化欧氏距离大于最大距离的模体代表；最终输出每个模体分组等价类中长度最长的模体代表的集合即为时间序列的变长模体。

5.根据权利要求1所述的一种时间序列变长模体挖掘方法，其特征在于，所述步骤(2)中模体分组的详细步骤如下：将满足模体重叠条件的两个模体置入相同模体分组中，反之创建新的模体分组，并将其中未分组的一个模体作为首个元素存储到其中；对于两个模体M_i和M_j，如果满足条件M_i.L₁≤M_j.L₁<M_i.L₁+i or M_j.L₁≤M_i.L₁<M_j.L₁+j，并且M_i.L₂≤M_j.L₂<M_i.L₂+i or M_j.L₂≤M_i.L₂<M_j.L₂+j；其中i、j表示模体的长度，只要满足一个模体的一对子序列的起始位置在另外一个模体的一对子序列的起始位置到终止位置之间，便满足模体重叠条件时，则模体M_i和M_j重叠；对同一个分组中的模体，使用长度相似性条件

如果模体M_i的HM_i值与其他模体的HM_other值不同，剔除模体M_i。

6.根据权利要求1所述的一种时间序列变长模体挖掘方法，其特征在于，所述步骤(3)中模体分组等价类划分的详细步骤如下：将存在子序列相同或者相似情况的模体分组置入同一个等价类中；假设两个模体M_i和M_j分别属于分组group_a和分组group_b，如果满足(M_i.L₁＝＝M_j.L₁)or(M_i.L₁＝＝M_j.L₂)or(M_i.L₂＝＝M_j.L₂)or(M_i.L₂＝＝M_j.L₁)，则group_a和group_b同属一个模体分组等价类；其中两个模体的一对子序列的起始位置，只要有一个相同，便满足分组等价类条件。