CN114218292A

CN114218292A - 一种多元时间序列相似性检索方法

Info

Publication number: CN114218292A
Application number: CN202111313480.3A
Authority: CN
Inventors: 王翔; 邓文; 黄知涛; 李保国; 徐强; 刘世雄; 孙丽婷; 柯达; 王丰华
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-03-22
Anticipated expiration: 2041-11-08
Also published as: CN114218292B

Abstract

本发明公开一种多元时间序列相似性检索方法，包括以下步骤：采集原始多元时间序列MTS数据；提取所述原始多元时间序列MTS数据中的特征向量；对所述特征向量进行映射，获得所述特征向量对应的标量；基于所述标量的大小排序，重新建立所述原始多元时间序列MTS数据在磁盘内的存储索引，获得存储位置；构建学习索引模型，利用所述标量和所述存储位置训练所述学习索引模型，获得训练好的学习索引模型；将待查询数据的标量输入所述训练好的学习索引模型，输出相邻的k个所述原始多元时间序列MTS数据。本发明提高了多元时间序列数据特征提取的效率和准确性，显著减少了多元数据场景中空间计算开销、更新计算开销，提高了搜索效率和准确率。

Description

一种多元时间序列相似性检索方法

技术领域

本发明涉及信息处理技术领域，特别是涉及一种多元时间序列相似性检索方法。

背景技术

时间序列的相似性搜索，是根据给定的查询目标在时间序列候选数据中正确、快速查找到符合要求的数据，是时间序列挖掘领域一项重要工作。在实际生活中，多元时间序列相似性搜索可直接应用于各类场景，如基于每日最高、最低价寻找走势相似的股票，根据传感集群数据查找相似行为的目标，以及根据心、脑电图搜寻相似病情的患者。在理论研究中，它是时间序列分类、聚类的一项子流程，也是时间序列异常检测的一种有效途径，可以说，时间序列相似性搜索是时间序列数据挖掘领域一项重要的基础性工作，不仅具有很高的理论意义，也有广泛的应用价值。

随着信息化技术的广泛应用，以及物联网技术的蓬勃发展，时间序列呈多元化的发展趋势，给相似性搜索工作带来极大挑战，主要体现为：①由于多元变量之间存在复杂的相关性，以及现有多元时间序列数据普遍缺少先验信息的数据现状，对多元时间序列相似性进行精确度量的难度较大；②传统的空间索引结构在处理高维数据时面临空间开销激增、查询效率降低的挑战。

目前来看，大部分的研究主要面向特征表示与相似性度量，针对搜索策略的研究相对较少，大多是基于传统的空间索引结构直接进行搜索。早期的时间序列特征表示算法大多为基于模型的方法，即假设序列数据符合某种规律，随后使用特定的模型对数据进行拟合，以拟合后的模型参数对原始数据进行表征，并基于此开展相似性度量工作，这类方法存在以下问题：首先，当序列数据不符合预先的假设时性能将严重衰退；其次，这类方法着眼于数据整体的情况，难以捕捉数据的局部特征、高层的复杂特征，且在处理多元时间序列时难以捕捉多变量之间的复杂关联关系；最后，真实世界的复杂性导致基于模型的方法泛化性不足、鲁棒性低。

因此，解决无监督条件下多元时间序列的特征表示问题和高维场景下的相似性搜索问题对推动时间序列数据深层挖掘、推广序列搜索实际应用具有重大意义。

发明内容

本发明的目的是提供一种多元时间序列相似性检索方法，以解决上述现有技术存在的问题，提高了多元时间序列数据特征提取的效率和准确性，显著减少了多元数据场景中空间计算开销、更新计算开销，提高了搜索效率和准确率。

为实现上述目的，本发明提供了如下方案：一种多元时间序列相似性检索方法，包括以下步骤：

采集原始多元时间序列MTS数据，其中，所述多元时间序列MTS数据为每个时刻同时对多个指标进行观测、记录形成的数据；

提取所述原始多元时间序列MTS数据中的特征向量；

对所述特征向量进行映射，获得所述特征向量对应的标量，其中，所述标量指；

基于所述标量的大小排序，重新建立所述原始多元时间序列MTS数据在磁盘内的存储索引，获得存储位置；

构建学习索引模型，利用所述标量和所述存储位置训练所述学习索引模型，获得训练好的学习索引模型；

将待查询数据的标量输入所述训练好的学习索引模型，输出相邻的k个所述原始多元时间序列MTS数据。

可选地，提取所述原始多元时间序列MTS数据中的特征向量包括：

基于所述原始多元时间序列MTS数据构造训练样本；

构建特征向量提取模型，利用所述训练样本训练所述特征向量提取模型；

利用所训练好的所述特征向量提取模型提取所述原始多元时间序列MTS数据中的特征向量。

可选地，所述训练样本包括锚点、正样本和负样本。

可选地，在利用所述训练样本训练所述特征向量提取模型的过程中，根据所述特征向量提取模型的训练自行调整正负样本的选取策略。

可选地，所述特征向量提取模型采用卷积神经网络，所述卷积神经网络包括因果-空洞卷积模块、通道注意力模块和时序注意力模块。

可选地，对所述特征向量进行映射，获得所述特征向量对应的标量包括：对所述特征向量所属的低维稠密空间进行分割，根据各所述特征向量所处的超网格体以及所述特征向量与所处网格所围成的所述超网格体的体积之比，将所述特征向量映射为标量。

可选地，对所述特征向量所属的低维稠密空间进行分割包括：沿各个维度对所述低维稠密空间进行网格划分，设第i维空间被分割为T_i个部分，使用

表示第i维的所有分界点，设所述低维稠密空间被分割为

个网格C，其中，Π表示连乘，所述低维稠密空间V可表示为：

其中，t为网格编号，C_t为网格上下分界点刻画的超网格体，∪为取并集，T₀×...×T_d-1-1表示集合数量。

可选地，将所述特征向量映射为标量包括：基于落在所述网格C内的所述特征向量，构造映射函数M：

其中,H_t为特征向量与所处网格的下界点所围成的超网格体，μ为勒贝格测度。

本发明公开了以下技术效果：

本发明提供的一种多元时间序列相似性检索方法，使用自监督度量学习的方法。解决了基于机器学习的特征表示对数据标签的依赖问题，通过基于分段线性近似的时间序列数据增强方法解决度量学习中的样本构造问题。通过改进的卷积神经网络与卷积注意力模块，结合Triplet Loss度量学习损失函数优化特征空间的数据分布情况，在保持数据相似关系的基础上将原始数据嵌入低维特征空间。利用学习索引方法，将原始数据对应的特征向量进一步投影为可排序的标量并基于该标量重新组织原始数据的存储位置。随后使用递归模型索引结构对标量的分布情况进行拟合，进而学习到高维数据的分布特征，并最终通过查询序列对应的标量值预测相似数据的存储位置，显著减少了多元数据场景中空间计算开销、更新计算开销，提高了搜索效率和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中多元时间序列相似性检索方法的流程示意图；

图2为本发明实施例中基于注意力机制的MTS自监督度量学习网络结构示意图；

图3为本发明实施例中CBAM模块工作示意图；

图4为本发明实施例中数据空间网格化原理示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种多元时间序列相似性检索方法，如图1所示，包括以下步骤：

S1、采集原始多元时间序列MTS数据，将数据集输入基于自监督度量学习的特征表示模块，输出原始多元时间序列MTS数据对应的特征向量集合。

多元时间序列MTS数据为每个时刻同时对多个指标进行观测、记录形成的数据，多元时间序列MTS数据是一种无标签数据。

在本实施例中，自监督度量学习的特征表示模块采用卷积神经网络搭建，并根据时间序列特征对卷积神经网络进行改进，如图2所示。在传统卷积神经网络的基础上增加通过多个因果、空洞卷积模块实现对原始MTS的特征提取，在增加空洞卷积网络结构后，空洞卷积在隐含层中以间隔采样的策略代替了普通卷积逐个采样进行计算，在不扩大卷积核尺寸的前提下，获取到了更大的感受野，提高了卷积网络对时序数据变化趋势的提取能力。

为进一步加强在卷积神经网络提取时间序列关键信息的能力，本实施例在改进的卷积神经网络搭建过程中引入了注意力机制。CBAM是一种基于卷积操作的注意力计算模块，在训练中通过对通道内、通间极值与均值的整合，实现了对通道间、通道内“注意力”权重的学习，能放大原始数据中有价值的信息，促进了网络整体对于数据的认知。本实施例中，根据多元时间序列数据的特点对CBAM模块进行了改造，以一维卷积单元构造时序注意力模块，与原有的通道注意力进行结合，加强了对MTS数据中关键信息的提取能力，其框架概览如图3所示。图3沿用了传统CBAM中C×H×W的三维形式，但实际上本实施例针对时间序列数据设计的卷积注意力模块以C×L形式的二维张量(Tensor)作为输入，在时序与空间注意力的计算过程中均通过一维卷积进行，其中C为原始MTS的变元数目，L为序列长度。图3中F是经过若干层计算得到的特征图(Feature Map)，

表示逐个对应元素的点乘操作，M_c表示在各通道内做注意力提取操作，将F与时序注意力矩阵相乘得到了时序信息特征强化后的新特征图F'；M_t表示在各通道之间做注意力提取操作，将F与时序注意力矩阵相乘得到了通道特征强化的新特征图F'。通道注意力的计算过程如式(1)所示：

其中，M_c表示在各通道内做注意力提取操作；F表示输入特征；avg_pool1d(·)表示均值池化操作；max_pool1d(·)表示最大池化操作；MLP()表示多层感知机，一种前向结构的人工神经网络；σ()表示sigmoid激活函数；W₁与W₀表示网络的权重系数；

和

分别表示输入特征F的经过平均池化和最大池化后的特征表述。

即先对数据进行均值池化与最大值池化，随后将这两个统计特征输入多层感知机，通过这两个特征学习通道间数据的重要程度，最后加权并通过sigmoid函数计算最终结果。时序注意力为表达式如式(2)所示：

其中，M_t表示在各通道之间做注意力提取操作；F表示输入特征；Conv1d表示卷积操作；σ()表示sigmoid激活函数；avg_pool1d(·)表示均值池化操作；max_pool1d(·)表示最大池化操作；

和

即先对通道内数据进行均值与池化操作，并将获得的结果拼接后输入卷积模块，通过卷积模块计算各个时间点数据的重要程度。

改进后的CBAM模块整体流程可表示为如式(3)-(4)所示：

在自监督度量学习的特征表示模块的训练过程中，采用Triplet Loss损失函数引导网络训练，首先在数据集中构造三元组，即随机选取一个样本a作为锚点(anchor)，表示关注的样本点；选取和a同一类别的样本p(positive)，选取和a类别不同的样本n(negative)，按照该规则选取的三个样本所构成的组合(a，p，n)被称为三元组。由于MTS数据整体呈无标签、难标签的态势，因此需要在缺失类别标签的情况下进行度量学习。在本实施例中，采用基于semi-hard采样策略的自监督度量学习，构建无监督条件下的时间序列多级数据增强策略，根据网络收敛的情况自行调整正负样本的选取策略，具体如下：

首先设损失函数变化阈值σ，并记录最近i个epoch的Triplet Loss变化情况。当最近i个epoch的损失变化小于σ，表示难以采集到合适的负样本，导致网络收敛减缓。此时先进行一次数据增强并将获得的数据作为正样本，随后更换原本随机选取对比序列的负采样方式，改为从正样本中以更严格的增强系数构造负样本；当loss的变化情况符合σ值约束时，为降低训练复杂度，仍以随机形式选取负样本。

具体如下：

对于每个选定的多元锚点序列x^a，

(1)当选择以截取x^a()的方式选取正负样本时，以不低于70％的长度比例截取x^a获得x⁺(正样本)，并在x⁺内一步截取x^-(负样本)。

(2)当选择以分段线性近似的方法构造正样本，且各段长度为3，最大程度保留原始序列信息；在构造负样本时，以长度为5的线段对原始序列进行表示。

(3)当选择以幅度漂移的方式构造正负样本时，以不超过10％的幅度漂移构造正样本，以介于10％到20％的幅度进行漂移，作为负样本。

(4)当选择以时移的方式构造正负样本时，以不超过10％的时间漂移幅度构造正样本，以介于10％到20％的幅度进行漂移，作为负样本。

利用训练好的自监督度量学习的特征表示模块，对原始多元时间序列MTS数据进行降维，提取原始多元时间序列MTS数据对应的特征向量集合。

S2、对特征向量集合中的特征向量所属的低维稠密空间进行分割，根据各特征向量所处的“超网格体”以及特征向量与所处网格所围成的“超网格体”体积之比，其中，多个网格组成超网格体，将特征向量映射为标量。

将学习索引用于组织多维数据的关键，在于寻找合适的投影方式将高维数据投影至低维空间，并在低维空间形成良好的数据分布(data layout)。在本实施例中，根据MTS特征向量的坐标，将其划分到不同的空间网格中，结合网格的空间信息与数据点在网格内的相对位置信息，将原始MTS特征向量的坐标映射为标量。标量又称纯量，是只有大小、没有方向、可用实数表示的一个量。或者有些物理量，只具有数值大小，而没有方向，部分有正负之分。这些量之间的运算遵循一般的代数法则，称做“标量”。

在本实施例中，采用LISA(Learned Index structure for Spatial data)框架对特征向量映射为标量。根据MTS(多元时间序列)特征向量的坐标，也即输入是多个维度的特征向量，将其划分到不同的空间网格中，结合网格的空间信息与数据点在网格内的相对位置信息，将特征向量映射为标量。这一过程包括两个子过程：为空间网格划分和映射计算。

(1)网格划分：如图4所示，沿各个维度对N维空间进行网格划分，设第i维空间被分割为

个网格C，此时原始空间V可表示为如式(5)所示：

其中，t为网格编号，是自然数。C_t可表示为

即以网格上下分界点刻画的“超网格体”。在划分过程中严格按照逐维顺序进行划分，对应形成的表格编号t也顺次从0递增到T₀×T₁×...T_d-1-1，具体可表示为如式(6)所示：

t＝(((t₀×T₁)+t₁)×T₂+t₃)×...)×T_d-1+t_d-1 (6)

在这一步中，多维空间被划分为多个网格，将数据点各维与分界点进行比较，通过近邻下标表示该维信息。

对于N维数据x＝(x₁，x₂，...x_n)，将各维数值与各位分界点进行对比，可以通过二分查找的方法快速找到各维度上的临近分界点

以下分界点标号作为t_i的值。

(2)对于落在网格C内的数据点x，为能更精准描述各点在网格内的相对位置，构造映射函数M，如式(7)所示：

其中，H_t为该数据点与所处网格的下界点所围成的超立方体。μ为勒贝格测度，可用于计算欧几里得空间内超网格体体积。式(7)分数部分即通过两超网格体的体积表征数据点在该超立方体内的相对位置。同一网格内的点将被映射到两个相邻的自然数之间，且映射值能较好表征在整个空间中的大致位置(网格编号)，以及各点在网格内的相对位置(勒贝格测度之比)。

S3、基于各特征向量对应的标量在内存中重新建立MTS原始数据在磁盘内的存储索引，按照对应标量的大小在内存中顺次排序；

S4、将各标量值与内存页中的相对存储位置，输入学习索引模型，对数据累积分布函数进行拟合。

S5、在查询数据时，将查询数据通过特征表示模块转为低维查询向量，并将低维查询向量映射为对应标量，随后将对应标量输入训练好的索引模型，则能快速定位到相似数据在内存中所处的相对位置。

S6、输出内存位置中彼此相邻的k个记录对应的MTS原始数据。

在本实施例中，以Cricket、Libras、NATOPS数据集为实验对象验证本发明MTS相似性检索方法的有效性。考虑到数据规模，为避免网格划分后数据在网格间的分布过于稀疏，以及网格数量过少导致大量数据聚集在同一网格内影响映射性能，在特征表示阶段将原始数据映射为长度为5的特征向量，并尝试将各个维度划分为2到5个部分，即总网格数目分别问32、243、1024、3125。将长度为5的特征向量映射为标量。在学习索引研究中，通过开辟内存空间的连续区间，存放与存储空间的索引信息。但在本验证中，主要为探究学习索引方法用于时间序列相似性搜索的可行性，因此在实验验证部分采取以下策略：

①基于特征向量，通过空间划分映射为一组标量X_i,i∈[1，N]，N为根据X_i的大小，申请一块连续存储空间按顺序排放对原始数据的类标签L_i。

②根据X_i的大小，申请一块连续空间(为简化流程，直接使用数组)按顺序排放对原始数据的类标签L_i；

③将标量值输入RMI模型进行训练，RMI的顶层复杂模型使用三层全连接网络，每层包含5个节点，底层使用20个回归模型作为简单模型部分，epoch设置为6000，学习率为0.001，最终其通过多层模型计算快速得到目标索引位置，在此处即为对应数组下标；

④通过对比计算值最近的K个标签数据，与测试数据的标签数据，即可算出本次查询的精确率。

根据实验结果表明，通过运用semi-hard采样策略，CR数据集和NA数据集上的分类性能有较为明显的提升。LIB数据集在使用semi-hard采样策略前后，在k为1、4、11、12时性能较普通采样训练的结果有轻微下滑，但是在其余各点的表现都优于普通采样方法。CR与LIB数据集上的度量精确率整体随K值增大而下降，NA上的性能则存在一定波动，说明经过特征映射后前二者特征空间内的数据分布情况较为理想，同类别样本聚集程度较高，后者特征空间内的同类样本聚集程度有待提高，分布情况存在一定的优化空间。但是总的来说，使用了semi-hard采样法之后，相似性度量性能虽然在个别点上出现了轻微下滑，但整体精度仍有较明显的提升，从上述三个数据集的分类情况仍能推测出，相似的原始数据点在特征空间中的分布较未采取采样策略时有所改进。在基于三个数据集的实验中，存在性搜索的精确率均显著高于1-NN搜索的精确率，其中CR、NA两数据集上的存在性搜索可接近100％。综上所述，多维数据投影方法，实现对目标数据在查询数据内相对位置的预估从而学习、构造索引，实现从键值到寻址、取值的一系列操作，并最终实现对目标数据的快速查询，具备一定的查询精度，同时学习索引基于分布拟合的思想，对有序空间进行近似并估计目标数据的所在位置从而实现快速检索。本实验验证了这种查询方法在时间序列相似性搜索中的可行性。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多元时间序列相似性检索方法，其特征在于，包括以下步骤：

提取所述原始多元时间序列MTS数据中的特征向量；

对所述特征向量进行映射，获得所述特征向量对应的标量；

2.根据权利要求1所述的多元时间序列相似性检索方法，其特征在于，提取所述原始多元时间序列MTS数据中的特征向量包括：

基于所述原始多元时间序列MTS数据构造训练样本；

3.根据权利要求2所述的多元时间序列相似性检索方法，其特征在于，所述训练样本包括锚点、正样本和负样本。

4.根据权利要求3所述的多元时间序列相似性检索方法，其特征在于，在利用所述训练样本训练所述特征向量提取模型的过程中，根据所述特征向量提取模型的训练自行调整正负样本的选取策略。

5.根据权利要求2所述的多元时间序列相似性检索方法，其特征在于，所述特征向量提取模型采用卷积神经网络，所述卷积神经网络包括因果-空洞卷积模块、通道注意力模块和时序注意力模块。

6.根据权利要求1所述的多元时间序列相似性检索方法，其特征在于，对所述特征向量进行映射，获得所述特征向量对应的标量包括：对所述特征向量所属的低维稠密空间进行分割，根据各所述特征向量所处的超网格体以及所述特征向量与所处网格所围成的所述超网格体的体积之比，将所述特征向量映射为标量。

7.根据权利要求6所述的多元时间序列相似性检索方法，其特征在于，对所述特征向量所属的低维稠密空间进行分割包括：沿各个维度对所述低维稠密空间进行网格划分，设第i维空间被分割为Ti个部分，使用

表示第i维的所有分界点，设所述低维稠密空间被分割为

个网格C，其中，Π表示连乘，所述低维稠密空间V可表示为：

8.根据权利要求7所述的多元时间序列相似性检索方法，其特征在于，将所述特征向量映射为标量包括：基于落在所述网格C内的所述特征向量，构造映射函数M：

其中，H_t为特征向量与所处网格的下界点所围成的超网格体，μ为勒贝格测度。