CN107871140B

CN107871140B - 一种基于斜率弹性相似性度量方法

Info

Publication number: CN107871140B
Application number: CN201711085758.XA
Authority: CN
Inventors: 王念滨; 张海彬; 宋奎勇; 王红滨; 周连科; 白云鹏; 原明旗; 王勇军; 陈田田; 何茜茜
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2021-10-01
Anticipated expiration: 2037-11-07
Also published as: CN107871140A

Abstract

本发明提供的是一种基于斜率弹性相似性度量方法。步骤一：输入时间序列x和y及过滤参数λ，进行l₁趋势过滤，输出折线X和Y；步骤二：计算折线X和Y各分段加权斜率，折线X和Y用加权斜率表示为k_x和k_y；设定等距间隔参数d，等距插入加权斜率；步骤三：经过插值处理后，形成两个新不等长序列，使用动态时间弯曲距离DTW计算不等长序列的趋势距离。本发明把时间序列通过滤波特征表示为折线段，保留了趋势信息并实现了降维；线段权重斜率可实现趋势的度量比较；通过等距插值以适应DTW等间隔计算，实现了弹性度量。

Description

一种基于斜率弹性相似性度量方法

技术领域

本发明涉及的是一种对传感器在目标跟踪与检测过程中产生的大量时间序列数据进行挖掘时间序列数据的方法。

背景技术

在海试试验与评估中，传感器在目标跟踪与检测过程中产生大量时间序列数据，这些时间序列数据数量大、维数多，并且包含大量噪声。但是，这些时间序列数据中隐藏着事物发展的趋势和规律，挖掘时间序列数据有着重要的意义。时间序列挖掘包括时间序列相似性搜索、分类、聚类、预测及离群点检测等。在这些研究中，时间序列相似性度量是研究的前提和基础，一个好的度量方法可以显著提高时间序列挖掘的效率和精度。

时间序列相似性度量以距离度量为主，包括欧式距离、马氏距离、动态时间弯曲(DTW)距离等。等长序列距离度量称为锁步度量，不等长序列距离度量称为弹性度量。为了提高效率和排除噪声的干扰，时间序列相似性度量通常与时间序列数据降维和特征表示相结合。数据降维和特征表示常用的方法包括：分段近似表示、基于符号化分段聚合近似、奇异值分解和离散小波变换等。

分段近似表示(PAA)对时间序列进行等距分割并利用分段序列均值来表示原分段特征的方法，PAA在一定程度上能够达到压缩数据长度、降低维数的效果，但是PAA分段大小是关键因素，采用均值表示也会造成极值信息的丢失，没有考虑序列数据的趋势变化信息。基于符号化分段聚合近似(SAX)采用等频率直方图和PAA分段符号化的表示方法，在PAA基础上，划分成等概率区间，并用符号表示每一个区间，把时间序列转化成一个符号串。SAX与PAA一样的压缩比率，度量精度较PAA更高。然而，SAX存在和PAA同样的问题。SAX-TD在SAX的基础上被提出，为了解决SAX的不足，在符号化分段基础上，把趋势信息划分成六种情况，并把每一分段开始点和结束点与均值的差的变化作为分段的趋势信息，由于考虑了趋势信息，SAX-TD相较于SAX度量精度更准确。然而，SAX-TD对分段大小比较敏感，如果分段过大，其效果并不明显，并且会出现起始点和结束点值相同的情况，则添加趋势信息无效。以上方法存在一个共性问题，只能对序列点对点的锁步度量，而现实中更多的是对于不等长、存在振幅平移和伸缩时间序列进行“一对多”或“一对零”的比较，即弹性度量。DTW是经典弹性度量方法，然而，DTW时间复杂度过高限制了其使用范围。

发明内容

本发明的目的在于提供一种结合特征表示和弹性度量的优点，能解决时间序列相似性度量问题的基于斜率弹性相似性度量方法。

本发明的目的是这样实现的：

步骤一：输入时间序列x和y及过滤参数λ，进行l₁趋势过滤，输出折线X和Y；

步骤二：计算折线X和Y各分段加权斜率，折线X和Y用加权斜率表示为k_x和k_y；设定等距间隔参数d，等距插入加权斜率；

步骤三：经过插值处理后，形成两个新不等长序列，使用动态时间弯曲距离DTW计算不等长序列的趋势距离。

本发明还可以包括：

1、x＝{(t₁,x₁)(t₂,x₂),…,(t_m,x_m)},y＝{(t₁,y₁),(t₂,y₂,…,(t_n,y_n)}，设定l₁过滤参数λ并过滤后，时间序列x和y被线性化为折线，若X由p₁个线性分段构成，表示为X＝{X₁,X₂,…,X_P1}，其中X_i＝{(t_li,x_li),(t_ri,x_ri)},i＝1,2,…,p₁，t_li为第i段起点时间，t_ri为第i段终点时间；Y由p₂个线性分段构成，表示为Y＝{Y₁,Y₂,…,Y_p2}，其中Y_j＝{(t_lj,y_lj),(t_rj,y_rj)},j＝1,2,…,p₂，t_lj为第j段起点时间，t_rj为第j段终点时间。

2、

为X的<t_li,t_ri>分段的斜率，

为Y的<t_lj,t_rj>分段的斜率。

3、设定一个等距间隔参数d，若(t_ri-t_li)>d，则对此分段插值，每隔d个时间点插入一个值，若分段长度小于d或者最后插值剩余不足d，不需要插入值。第i段插入的值为：

其中，k_i为第i段斜率，(t_ri-t_li)/t_n为分段权重，d为等距间隔参数。

锁步度量方法不能解决噪声干扰、振幅平移及伸缩等问题，而DTW弹性度量方法对噪声敏感且时间复杂度过高。考虑到，时间序列特征表示可以消除噪声干扰，降低序列维数。若结合特征表示和弹性度量的优点，则可行之有效的解决时间序列相似性度量问题。

本发明针对SAX_TD不能弹性度量和DTW时间复杂度过高的事实，提出了基于斜率弹性度量方法SESM，引入l₁趋势过滤，把原时间序列特征表示为连续折线段，并按照线段长度计算带有权重的斜率值，得到每一分段趋势信息，然后，按照统一大小划分分段并插入相应权重斜率值，得到一个新的趋势序列，最后，应用DTW度量序列相似度。

本发明的SESM方法有三个优势：第一，把时间序列通过滤波特征表示为折线段，保留了趋势信息并实现了降维；第二，线段权重斜率可实现趋势的度量比较；第三，通过等距插值以适应DTW等间隔计算，实现了弹性度量。

附图说明

图1是本发明的操作流程图；

图2是l₁趋势过滤流程图；

图3a-3b时间序列斜率模式示意图，图3a折线斜率表示、图b折线插值斜率表示；

图4是两条不等长序列动态时间弯曲(DTW)距离计算模拟图，图中局部距离是计算线段加权斜率差值；

图5中(1)、(2)、(3)经l₁趋势过滤后特征表示为(4)、(5)、(6)；

图6是把图5中(4)、(5)、(6)用X、Y、Z表示，比较X、Y、Z之间EU、PAA、SAX、SAX_TD、DTW、SESM距离，已知X与Z最相似，其次X与Y相似。

图7a-7b是4类时间序列聚类分析结果，图7a中(1)与(2)、(3)与(4)、(5)与(6)、(7)与(8)是同一类。图7b中由Euc、SAX_TD、DTW和SESM距离度量聚类层次图。

具体实施方式

下面举例对本发明做更详细的描述。

输入：时间序列x＝{x₁,x₂,…,x_m}和y＝{y₁,y₂,…,y_n}，l₁过滤参数λ及分段参数d。

输出：度量距离Dist(x,y)。

步骤一：输入时间序列x和y及过滤参数λ，进行l₁趋势过滤。输出折线段X和Y。

步骤二：计算线性分段序列X和Y加权斜率表示为k_x和k_y；设定插值阈值d，等距插入加权斜率值。

步骤三：插值处理后，形成两个新不等长序列k_x和k_y，使用DTW(k_x,k_y)计算趋势距离。

(1)由于时间序列通常维数高、数据量大并且噪声干扰严重，直接在时间序列上进行相似性度量不但花费高昂的存贮和计算，而且影响算法的准确性和可靠性。所以，首先对时间序列l₁趋势过滤，把原时间序列转化为折线，折线反映了时间序列整体趋势，并且达到压缩数据、去除噪声干扰，提高效率和精度的目的。

给定两个一维时间序列x和y，x＝{(t₁,x₁)(t₂,x₂),…,(t_m,x_m)},y＝{(t₁,y₁),(t₂,y₂,…,(t_n,y_n)}，设定l₁过滤参数λ并过滤，时间序列x和y被线性化为折线，若x由p₁个线性分段构成，表示为X＝{X₁,X₂,…,X_P1}，其中X_i＝{(t_li,x_li),(t_ri,x_ri)},i＝1,2,…,p₁。t_li为第i段起点时间，t_ri为第i段终点时间。Y由p₂个线性分段构成，表示为Y＝{Y₁,Y₂,…,Y_p2}，其中Y_j＝{(t_lj,y_lj),(t_rj,y_rj)},j＝1,2,…,p₂。t_lj为第j段起点时间，t_rj为第j段终点时间。

(2)线性分段序列X和Y斜率表示为k_x和k_y：

为X的<t_li,t_ri>分段的斜率，

为Y的<t_lj,t_rj>分段的斜率，一般地p1≠p2。斜率距离具有明确的物理含义，同时满足对称性、自相似性、非负性和三角不等式。

(3)x和y为不等长时间序列，且p1≠p2，则斜率度量无法处理。由此，提出一种加权斜率插值法，使得斜率度量可计算。

考虑到通过等距插值法使得X和Y对齐。设定一个等距间隔参数d，若t_ri-t_li>d，则需要对此分段插值，此分段需插入t_ri-t_li>d个加权斜率值，每隔d个时间点插入一个值，若分段长度小于d或者最后插值剩余不足d，不需要插入值。第i段插入的值为：

在公式(1)中，k_i为第i段斜率，t_ri-t_li/t_n为分段权重，d为插值间隔参数。

(4)最后，经过加权插值的k_x和k_y，虽然个数不同，但每一个斜率值却等权重，可反映出序列整个趋势变化，k_x和k_y长度不同，可使用DTW(k_x,k_y)计算两序列距离。

Claims

1.一种基于斜率弹性相似性度量方法，其特征是：

步骤一：输入传感器在目标跟踪与检测过程中产生的时间序列x和y及过滤参数λ，进行l₁趋势过滤，输出折线X和Y，X＝{(t₁,x₁)(t₂,x₂),…,(t_m,x_m)},Y＝{(t₁,y₁),(t₂,y₂,…,(t_n,y_n)}；

步骤二：计算折线X和Y各分段加权斜率，折线X和Y用加权斜率表示为k_x和k_y；设定等距间隔参数d，等距插入加权斜率；具体包括：若(t_ri-t_li)>d，则对此分段插值，每隔d个时间点插入一个值，若分段长度小于d或者最后插值剩余不足d，不需要插入值；第i段插入的值为：

其中，k_i为第i段斜率，(t_ri-t_li)/t_n为分段权重，d为等距间隔参数；

2.根据权利要求1所述的基于斜率弹性相似性度量方法，其特征是：设定l₁过滤参数λ并过滤后，时间序列x和y被线性化为折线，若X由p₁个线性分段构成，表示为X＝{X₁,X₂,…,X_P1}，其中X_i＝{(t_li,x_li),(t_ri,x_ri)},i＝1,2,…,p₁，t_li为第i段起点时间，t_ri为第i段终点时间；Y由p₂个线性分段构成，表示为Y＝{Y₁,Y₂,…,Y_p2}，其中Y_j＝{(t_lj,y_lj),(t_rj,y_rj)},j＝1,2,…,p₂，t_lj为第j段起点时间，t_rj为第j段终点时间。

3.根据权利要求2所述的基于斜率弹性相似性度量方法，其特征是：

为X的<t_li,t_ri>分段的斜率，

为Y的<t_lj,t_rj>分段的斜率。