CN114003636A

CN114003636A - 一种基于变量相关性的多元时间序列相似性搜索方法

Info

Publication number: CN114003636A
Application number: CN202111224437.XA
Authority: CN
Inventors: 王继民; 张晨楠; 余祖愿; 张新华
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-02-01

Abstract

本发明公开了一种基于变量相关性的多元时间序列相似性搜索方法，首先，对预先获取的多元时间序列进行归一化处理；其次，计算查询序列变量间的皮尔逊相关系数；以皮尔逊相关性为基础，使用OPTICS聚类，将趋势相似的变量聚成一类；然后，提取聚类后每个类的中心序列，使用中心序列代表该类；最后。对所有中心序列进行PAA特征提取，获得多元时间序列的特征表示序列；计算特征表示后的多元时间序列间的DTW距离，找出相似序列。本发明通过变量聚类获取简洁且保留原始数据特征的特征序列，并使用多维DTW计算特征序列间的距离，以提高检索效率及查询准确率。

Description

一种基于变量相关性的多元时间序列相似性搜索方法

技术领域

本发明属于信息技术领域，特别涉及一种基于变量相关性的多元时间序列相似性搜索方法。

背景技术

时间序列是按照时间顺序排列的一系列观测值的集合，广泛存在于现实世界的各个领域，包括金融、气象、医疗、工程等。随着科学技术的不断发展，时间序列数据越来越丰富，且时间序列相似搜索对时间序列预测、分类、聚类、知识发现等有着重要的意义，因此，时间序列相似搜索越来越受到研究者们的重视。

目前，针对一元时间序列相似度量的研究比较多，研究成果也较为丰富，但是针对多元时间序列相似度量的研究还不是很多，主要原因在于，很多适用于一元时间序列相似度量的方法无法直接用于多元时间序列的研究(如最长公共子序列、编辑距离等)，而适用于多元时间序列的相似度量方法(如动态时间弯曲、欧氏距离等)往往无法平衡计算效率与查询准确率之间的矛盾，因此针对多元时间序列相似度量方法还需要进一步的研究。

由于多元时间序列比一元时间序列有更多的变量，因此计算相似度时也会有更高的复杂度，经常会出现“维度灾难”的情况。因此，大部分研究者在进行多元时间序列相似度量前会先进行降维处理(特征提取)，然后再进行相似度量。目前常见的多元时间序列特征提取方法主要包括主成分分析(CPCA)、多维分段拟合、奇异值分解(SVD)以及特征点提取等，常见的多元时间序列相似度量方法包括欧氏距离、DTW距离以及扩展的Frobenius范数(Eros)等。

然而现有的多元时间序列相似搜索方法大多无法兼顾效率与准确率，同时，一部分降维方法还缺乏可解释性，因此，找到一中既能平衡效率与准确率，还能保留一定的可解释性的多元时间序列相似搜索方法是很有必要的。

发明内容

发明目的：为了克服现有技术存在的问题，本发明提供了一种在保证查询效率的同时，可以有较好的查询准确率的多元时间序列相似性搜索方法。

技术方案：本发明提供了一种基于变量相关性的多元时间序列相似性搜索方法，具体包括以下步骤：

(1)对预先获取的多元时间序列进行归一化处理；

(2)计算归一化后查询序列变量间的皮尔逊相关系数，将变量间的两两相关性记录在矩阵中；

(3)以变量间的Pearson相关性为基础，使用OPTICS聚类，将相关系数高，且相关性为正的变量序列聚成一类；

(4)提取聚类后每个类的中心序列作为原始多元时间序列的变量维特征序列，使用中心序列代表该类，中心序列通过计算该类所有序列同一时间点的平均值得到；

(5)对所有中心序列使用PAA进行时间维度的特征提取，获得多元时间序列的时间维度特征表示序列；

(6)计算对变量维和时间维特征提取后多元时间序列特征序列间的DTW距离，找出相似序列。

进一步地，所述步骤(1)实现过程如下：

通过归一化公式将原始数据映射至[0-1]之间，对于多元时间序列：

X_m×l＝{x_1i，x_2i，…，x_mi}，i＝1，2，…，l

归一化公式如下：

其中，x′_ij为转换后的值，x_ij为原始值，表示第i个变量的第j个时间点的数据，x_i(min)为第i行的最小值，即第i个变量的最小值，x_i(max)为第i行的最大值，即第i个变量的最大值。

进一步地，所述步骤(2)实现过程如下：

采用皮尔逊相关系数，计算所有变量间的两两相关性，根据变量间的相关性判断两变量是否可以归为一类，皮尔逊相关系数计算公式如下：

其中，x_i和x_j分别表示多元时间序列的两个不同的变量序列，t＝1，2，…，T表示多元时间序列的时间点，

和

分别表示变量序列x_i和x_j的平均值，x_i(t)和x_j(t)分别表示变量序列x_i和x_j在t时刻的值。

进一步地，所述步骤(3)实现过程如下：

根据步骤(2)计算得到的皮尔逊相关系数，将相关系数为负的变量间相关系数置为零；然后根据置零后的相关系数矩阵，作为变量间距离的参考值，使用OPTICS聚类，将相关性高的变量聚为一类。

进一步地，所述步骤(4)实现过程如下：

假设某一类中有n个变量序列，分别为x₁，x₂，...，x_n，则中心序列第t个时间点的数值计算公式如下：

其中，x_i(t)表示第i个变量的第t个时刻的值，x′(t)表示中心序列第t时刻的值，则中心序列x′＝{x′(1)，x′(2)，...，x′(T)}。

进一步地，所述步骤(5)实现过程如下：

使用滑动窗口，将中心序列按照固定窗口大小分割，则长度为T的中心序列按照窗口大小w，w能被T整除，进行分割，可以得到T/w个时间序列子序列；然后取每个子序列的平均值代表该段序列，将所有平均值作为新序列的值。

进一步地，步骤(6)所述DTW距离通过以下公式实现：

其中，X和Y表示特征序列，D_base(x_i，y_j)表示X第i个时间点向量与Y第j个时间点向量间的基础距离，基础距离通常使用欧氏距离表示。

有益效果：与现有技术相比，本发明的有益效果：本方法将趋势相似的变量合并达到变量约简的目的，同时有较高的变量约简的可解释性，使用PAA提取变量序列的趋势特征，该方法可以快速且有效的提取时间序列的特征。此外，本方法还使用多维DTW计算序列间的相似性，该方法支持序列在时间轴上的伸缩和弯曲，可以更准确的描述序列间的相似程序，同时，由于前面采用了降维方式减少了数据量，提取了数据特征，DTW计算效率也得到了较大的提升。综上所述，本方法的特征提取方式既减少了数据量，又提取了原始数据特征，在查找相似序列时既能保证查询效率，还能兼顾查询准确率。

附图说明

图1为本发明的流程图；

图2为具体实施例中五种方法在四种数据集上的查询准确率对比图；

图3为具体实施例中在ASL数据集中五种方法找到的与查询序列最相似的序列图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

本发明提供一种基于变量相关性的多元时间序列相似性搜索方法，如图1所示，包括以下步骤：

步骤1：预先获取查询序列Q以及时间序列数据集S，将多元时间序列处理成统一格式。采用最大最小归一化方法，将查询序列Q和时间序列数据集S进行归一化处理。

采用最大最小归一化，将多元时间序列的每一变量分别进行归一化处理，通过归一化公式将原始数据映射至[01]之间，对于多元时间序列：

X_m×l＝{x_1i，x_2i，...，x_mi}，i＝1，2，...，l

归一化公式如下：

其中，x′_ij为转换后的值，x_ii为原始值，表示第i个变量的第j个时间点的数据，x_i(min)为第i行的最小值，即第i个变量的最小值，x_i(max)为第i行的最大值，即第i个变量的最大值。

步骤2：计算归一化后查询序列变量间的皮尔逊相关系数，将变量间的两两相关性记录在矩阵中。

计算查询序列Q的变量序列之间的皮尔逊相关系数，将相关系数记录在对称矩阵中，根据变量间的相关性可以判断两变量是否可以归为一类，皮尔逊相关系数计算公式如下：

其中，x_i和x_j分别表示多元时间序列的两个不同的变量序列，t＝1，2，...，T表示多元时间序列的时间点，

和

将相关系数矩阵中相关系数小于0的值置为0，因为本方法只考虑变量间的正相关性，不考虑变量间负相关性，当变量间相关性为负时，统一置0处理。根据处理后的相关系数矩阵，我们可以得到所有变量间的两两相关性，相关系数值越大，表示两变量的趋势越相似，则后面将其分为同一类的可能性也越大。

步骤3：以变量间的Pearson相关性为基础，使用OPTICS聚类，将相关系数高，且相关性为正的变量序列聚成一类。

根据步骤2中得到的变量间的相关系数，将变量序列进行聚类，在矩阵中的值越高表示变量的相关性越高，则在聚类中两变量间的距离越短。将相关系数为负的变量间相关系数置为零，然后根据置零后的相关系数矩阵，作为变量间距离的参考值，使用OPTICS聚类，将相关性高的变量聚为一类。OPTICS算法不需要在聚类前指定聚类个数，同时，对参数设置不敏感，因此，聚类操作使用密度聚类OPTICS完成，得到由变量序列聚成的多个类。

步骤4：提取聚类后每个类的中心序列作为原始多元时间序列的变量维特征序列，使用中心序列代表该类，中心序列通过计算该类所有序列同一时间点的平均值得到。

将变量序列聚成的多个类进行中心序列的提取，由于步骤3中得到的类，有些由若干变量序列组成，有些只有一个变量序列(被当作离群点)，对于只有一个变量序列的类，保留该序列，不进行任何操作，直接将其作为特征提取后多元时间序列的一个变量序列，对于由多个变量序列组成的类，使用取平均值法计算中心序列，该中心序列代表该类的所有变量序列，放入特征提取后的多元时间序列，作为新序列的一个变量序列，最终得到新的查询序列Q′。中心序列计算方式如下：

步骤5：将得到的变量数减少的查询序列Q′进行PAA降维，使用滑动窗口，将Q′中所有变量序列按照固定窗口大小分割，则长度为T的中心序列按照窗口大小w(w能被T整除)进行分割，可以得到T/w个时间序列子序列，然后取每个子序列的平均值代表该段序列，得到查询序列Q的最终特征表示方式Q″。

按照步骤3中的聚类方式，将时间序列数据集S中的所有序列进行同样方式的中心序列提取以及PAA计算，得到原时间序列数据集S的特征表示数据集S″。

步骤6：计算对变量维和时间维特征提取后多元时间序列特征序列间的DTW距离，找出相似序列。

计算查询序列Q″与特征表示处理后的时间序列数据集S″中所有序列的DTW距离，将DTW距离最小的序列s″作为与查询序列Q″最相似的序列。DTW距离的计算公式如下：

其中，Q为查询序列，Y为时间序列数据集S″中的一个序列，D_base(q_i，y_j)表示Q的第i个时间点的列向量与Y的第j个时间点的列向量间的基础距离，基础距离通常使用欧氏距离表示。

为验证本发明的效果，选取四个数据集(EEG、ASL、DSA和PEMS-SF)作为本发明的实验数据集，同时，将本文方法与PD、Eros、DTW、IP_DTW四种已有方法进行比较。EEG是对两类人群测得的一组脑电图数据集，包含64个变量，所有序列的长度为256，选取前2位测试者的前11次测试作为实验数据；澳大利亚手语数据集(ASL)是包含22个变量的手语信号数据集，左、右手各11个变量描述。选用前8种语义(alive，all，answer，boy，building，buy，change-mind，maybe)对应的216个序列作为实验数据；DSA是包含45个变量的日常体育活动传感器信号数据集，躯干、右臂、左臂、右腿、左腿各9个变量描述。选用前十种活动(sitting，standing，lyingonbackside,lyingonrightside,ascending stairs,descending stairs,standing in an elevator still,moving around in an elevator,walking in aparking lot,walking on a treadmill with a speed of 4km/h)对应的210个序列作为实验数据集。PEMS-SF是描述旧金山湾区高速公路不同车道占用率的数据集，包含963个变量，分为周一到周日七个类，每个类选用前21个样本作为试验数据集。

下面将本发明方法CP_DTW与上述四种其他方法在相似查询准确率以及查询时间两方面进行比较，分析实验结果，每次实验的查询序列由时间序列数据集中随机抽取。

使用查询准确率P对查询结果进行比较，P的计算公式如下：

其中，N表示相似搜索中找到的与查询序列最相似的前n个序列，M表示在找到的N个序列中，与查询序列确实是同一类的序列个数。每组查询进行多次实验，取平均值，得到平均准确率，平均准确率的计算公式如下：

其中，T表示实验的重复次数。

在四种数据集上使用上述四种相似搜索方法与本文方法进行比较，查询准确率如下表1和图2所示：

表1平均查询准确率表

从四个数据集查询准确率的结果来看，Eros和PD都更适用于EEG数据集，在另外三个数据集上的表现不佳，其原因在于PD方法和Eros都是基于统计方式进行相似性度量，而没有考虑序列的对齐匹配关系。DTW、IP-DTW和CP_DTW都考虑到了特征对齐匹配，因此相似查询效果较好且较为稳定。

同时，本文方法对原始序列进行特征提取后，EEG、ASL、DSA和PEMS-SF变量的平均数量分别减少到30、16、37和505，分别占原始序列变量的47％、72％、82％和52％。由于ASL和DSA的变量相对较少，不需要过度压缩数据，而PEMS-SF数据集的变量相对较多，因此有必要压缩一定数量的变量来提取数据特征并加快计算速度。

由于大大减少了变量，本文方法的计算效率也高于原DTW方法。实验结果表明，CP_DTW在EEG、ASL、DSA和PEMS-SF上的查询时间仅为DTW的11.54％、44.30％、4.78％和33.36％。

如图2所示，DTW、IP_DTW和CP_DTW在四个数据集上的表现比较接近且查询效果较好也较稳定，但综合来看，本文提出的CP_DTW方法在保持较高准确率的同时也能兼顾查询效率，是一个比较好的方法。

用ASL数据集中第5个序列(ASL_5，class：alive)作为输入，分别采用上述5种相似性度量方法,找出最相似序列，结果如图3所示。DTW，IP_DTW和CP_DTW找到的最相似序列均为change_mind-01，与输入样本属于同一类别，而PD和Eros方法找到的最相似序列分别为alive-05和building-22，均为其他类别的样本。从图3中也可以看出，DTW，IP_DTW和CP_DTW找出的最相似序列与输入序列的形态特征是比较接近的，而PD和Eros找出的最相似序列与输入序列形态差异较大。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。