CN106777980A

CN106777980A - 一种基于dtw的时间序列相似性预测方法

Info

Publication number: CN106777980A
Application number: CN201611167179.5A
Authority: CN
Inventors: 陶洋; 李鹏亮; 熊炫睿; 沈敬红
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-05-31

Abstract

本发明涉及一种基于DTW的时间序列相似性预测方法，属于时间序列数据挖掘技术领域。该方法将目前已知的对DTW进行加速的方法，如LB_Kim、LB_Keogh、逆LB_Keogh和传统的DTW方法等进行级联，在不同阶段利用不同方法对查询集进行过滤。同时，为了提高查询准确性，我们引入z‑score标准化，在计算DTW距离之前对查询序列进行标准化，在读取数据的过程中，同步进行标准化，进一步提高算法效率。然后，将改进的DTW方法应用到时间序列的类比合成预测方法中，从而提高预测的速度与精度。本方法充分利用不同方法的优点，有效的提高了时间序列的查询速度，继而提高了类比合成预测方法的速度和准确性。

Description

一种基于DTW的时间序列相似性预测方法

技术领域

本发明属于数据挖掘技术领域，特别是时间序列数据挖掘技术领域，涉及一种基于DTW的时间序列相似性预测方法。

背景技术

动态时间规整(Dynamic Time Warping，DTW)是时间序列的一个强大的相似性度量方法。虽然我们常见的欧氏距离计算简单、容易理解，但它要求两条时间序列的长度必须相等，且对时间轴伸缩和弯曲问题无能为力。DTW距离定义了序列之间的最佳对齐匹配关系，支持不同长度时间序列的相似性度量，支持时间轴的伸缩和弯曲。由于DTW距离比欧式距离有更好的鲁棒性，因此被广泛用于时间序列的相似性度量，这是很多时间序列数据挖掘问题的基础，比如分类和聚类以及预测等。然而，DTW的时间和空间复杂度较高，导致基于DTW的数据挖掘效率很低。因此，如何降低DTW时空复杂度成为了当前的研究重点和难点。

DTW最早是用于语音识别中的一项技术，目前在金融、生物、化学以及机器人等领域都有广泛的应用，特别是在多媒体数据领域。目前，对DTW进行加速的方法主要有以下两种：1)添加全局约束。这种方法的目的是对DTW中的规整路径进行全局约束，即限定一个序列中的点只能同另一序列中位置相近的某些点进行匹配。然而，该方法由于只针对查询空间进行约束，并未从实质上降低DTW方法的复杂度，且在查询时，由于查询范围的限制，存在误报情况。2)利用下界距离进行过滤。该方法的主要思想是寻找一种计算更简单的距离度量来粗略地估计DTW距离，称为DTW下界距离，通过它可以过滤掉大部分不满足相似性要求的序列，从而提高查询效率。然而，该类方法，如果下界距离选取复杂度较高，则会降低整体查询效率；如果下界距离选取比较简单，又会降低过滤效果，增大候选集，产生误报。

传统的时间序列分析预测方法将时间序列数据匹配到某些数学模型中，然后再对其整体进行分析和预测。但这些数据模型往往对数据有必要的限制，而现实中许多数据不能满足模型参数要求。基于时间序列相似性的类比合成方法是一种典型的非参数回归方法，其非参数回归特性使得它能够很好的规避上述问题，所以该方法日渐成为时间序列预测领域的研究焦点，然而，传统的类比合成方法在选取距离度量方法时，大多使用的是欧式距离，由于该方法不能处理时间序列的伸缩，平移等。所以，利用该方法得到的相似序列具有一定的局限性，其用于后期合成预报的参考模式数据质量不高，从而会影响后期预测的准确性。

因此，如何综合考虑下界距离复杂度与下界距离过滤能力，从而实现时间序列快速而且准确的查询，进而将其应用到类比合成预测方法中目前来说很少有人进行研究，但具有重要的研究意义。

发明内容

有鉴于此，本发明的目的在于提供一种基于DTW的时间序列相似性预测方法，该方法将目前已知的对DTW进行加速的方法，如LB_Kim、LB_Keogh、逆LB_Keogh和传统的DTW方法等进行级联，在不同阶段利用不同方法对查询集进行过滤。同时，为了提高查询准确性，我们引入z-score标准化，在计算DTW距离之前对查询序列进行标准化，在读取数据的过程中，同步进行标准化，进一步提高算法效率。然后，将改进的DTW方法应用到时间序列的类比合成预测方法中，从而提高预测的速度与精度。

为达到上述目的，本发明提供如下技术方案：

一种基于DTW的时间序列相似性预测方法，该方法包括以下步骤：

S1：生成类比模式和参考模式：假设一个一维时间序列为T＝{x₁,x₂,…,x_m,…x_m+k}，先假定已有合适的模式长度k，则生成类比模式C＝{x₁,x₂,…,x_m}和参考模式Q＝{x_m+1,x_m+2,…,x_m+k}，其中类比模式为时间序列T中的历史数据，参考模式为时间序列最近的发展趋势；

S2：构造类比模式C的封带，所述封带指的是利用全局约束条件得到序列的上下边界，其边界所包含的部分；对C进行z-score标准化，z-score标准化是基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化，定义如下：

其中，x为X中的数据点，μ为X的均值，σ为X的标准差；选择z-score标准化的原因是利用z-score标准化方法得到的标准化时间序列的形状与原始时间序列较为接近，因此其经常被用于时间序列数据挖掘任务中。

S3：利用LB_kimFL方法对类比模式C进行过滤，所述LB_kimFL方法为LB_kim方法的改进，具体如下：LB_kim方法通过提取四元组特征向量，包括序列第一个元素、最后一个元素和序列的最大值和最小值，该下界利用提取四元组中个向量之间平方差最大值最为下界，其算法复杂度为O(N)，特征提取的计算公式如下：

由于进行标准化后的时间序列数据的最大和最小值对于整个下界距离贡献较小，因此，去除原来LB_kim方法中提取的四个特征点中的最大和最小值，只保留起始点和终止点，称为LB_kimFL方法，其算法复杂度降为O(1)，定义如下：

S4：利用LB_keogh方法对查询集进行过滤；由于LB_kim方法的过滤能力有限，因此还有一大部分的非候选集序列需要过滤，因此选择过滤效果较好的LB_keogh方法对序列进行再次过滤；

S5：利用LB_rkeogh方法进行过滤，当步骤S4中的方法计算得到的下界距离还未超出预定阈值时，利用LB_rkeogh方法进行进一步判断；

S6：经过步骤S5得到与参考模式相似的序列候选集S，那么得到的相似序列结果为S＝{Q₁，Q₂,…,Q_n}；接下来从S中的相似序列按照相似性大小进行排序，得到S’＝{Q₁’,Q₂’,…,Q_n’}；根据实验，从中选取p个最相似序列，最为合成预报的参考模式，最终的得到整合的参考模式Q，＝{Q,Q₁’,Q₂’,…,Q_P’}，将其用于下一步的合成预报；

S7：将得到的参考模式利用加权平均法进行合成预报。

进一步，在所述步骤S2中，利用的全局约束条件是Sakoe-Chiba约束，该方法是通过参数r来限制弯曲路径偏离对角线的带状约束。

进一步，在所述步骤S4中，引入Sakoe-Chiba约束条件，将其用于构造参考模式Q的封带E_Q：设Q封带的上下边界分别为U＝{u_m+1,u_m+2,…,u_m+i,…,u_m+k}和L＝{l_m+1,l_m+2,…,l_m+i,…,l_m+k}，则基于DTW的下界函数LB_keogh定义如下：

进一步，在所述步骤S5中，LB_rkeogh是将LB_keogh中的Q和C进行调换，构造C的封带，这意味着Q要和C的封带E_c进行比较；C封带的上下边界为U＝{u₁,u₂,…,u_m}和L＝{l₁,l₂,…,l_m}，那么

其定义如下：

当该方法不能再进一步过滤查询集时，便计算Q和C的DTW距离，将其放入候选集，其计算公式如下：

D_dtw(Q,C)＝f(M,N) (8)

其中，D_base(c_i,q_i)表示向量点c_i和q_i之间的基距离，可以根据情况进行选择。为不失一般性，在本发明中使用欧式距离作为基距离，即D_base(c_i,q_i)＝|c_i-q_i|。

本发明的有益效果在于：本发明提供的方法针对当前查询方法的准确性和查询效率不高的情况，利用目前已知的对DTW进行加速的方法，如LB_kim、LB_keogh、LB_rkeogh和传统的DTW方法等进行级联，在不同阶段利用不同方法对查询集进行过滤。同时，引入z-score标准化，在计算DTW距离之前对查询序列进行标准化。然后将查询得到的结果集作为合成预测方法的合成预报的参考模式，利用加权平均法对其进行处理，进行合成预报。综合来说，本发明充分利用不同方法的优点，有效的提高了时间序列的查询速度，继而提高了类比合成预测方法的速度和准确性。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明提出的相似性预测方法流程图；

图2为Sakoe-Chiba方法原理图；

图3为LB_kimFL方法原理图；

图4为LB_keogh以及其封带上下边界结构图；

图5为LB_rkeogh以及其封带上下边界结构图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

图1为本发明提出的相似性预测方法流程图，如图所示，该方法包括如下步骤：

步骤一：生成类比模式和参考模式。假设一个一维时间序列为T＝{x₁,x₂,…,x_m,…x_m+k}，先假定已有合适的模式长度k，则生成类比模式C＝{x₁,x₂,…,x_m}和参考模式Q＝{x_m+1,x_m+2,…,x_m+k}。其中类比模式为时间序列T中的历史数据，参考模式为时间序列最近的发展趋势。

步骤二：构造类比模式C的封带，封带指的是利用全局约束条件得到序列的上下边界，其边界所包含的部分。对C进行z-score标准化。z-score标准化是基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。定义如下：

其中，x为X中的数据点，μ为X的均值，σ为X的标准差。选择z-score标准化的原因是利用z-score标准化方法得到的标准化时间序列的形状与原始时间序列较为接近，因此其经常被用于时间序列数据挖掘任务中。

在步骤二中，本发明利用的全局约束条件是Sakoe-Chiba约束，该方法是通过参数r来限制弯曲路径偏离对角线的带状约束，参见图2，其中阴影部分为约束区域，动态弯曲路径只在该区域前进，不能超过该区域，从而防止了病态弯曲情况的发生，也提高了查询效率。

步骤三：利用LB_kimFL方法对类比模式C进行过滤。由于LB_kim方法通过提取四元组特征向量，包括序列第一个元素、最后一个元素和序列的最大值和最小值。该下界利用提取四元组中个向量之间平方差最大值最为下界。其算法复杂度为O(N)，特征提取的计算公式如下：

在本发明中，对该方法进行了改进，由于进行标准化后的时间序列数据的最大和最小值对于整个下界距离贡献较小，因此，去除原来LB_kim方法中提取的四个特征点中的最大和最小值，只保留起始点和终止点，称为LB_kimFL方法，参见图3，可以看到构建特征空间的过程，其算法复杂度降为O(1)，定义如下：

步骤四：利用LB_keogh方法对查询集进行过滤。由于LB_kim方法的过滤能力有限，因此还有一大部分的非候选集序列需要过滤，因此选择过滤效果较好的LB_keogh方法对序列进行再次过滤。参见图4，描述了在Sakoe-Chiba约束下，构造的Q的封带，其中的黑色直线代表C超出封带部分的点的连线，需要计算其欧式距离，然后求和，作为下界距离。

在步骤四中，引入Sakoe-Chiba约束条件，将其用于构造参考模式Q的封带E_Q。设Q封带的上下边界分别为U＝{u_m+1,u_m+2,…,u_m+i,…,u_m+k}和L＝{l_m+1,l_m+2,…,l_m+i,…,l_m+k}，则基于DTW的下界函数LB_keogh定义如下：

步骤五：该步骤利用LB_rkeogh方法进行过滤，当步骤四中的方法计算得到的下界距离还未超出预定阈值时，利用LB_rkeogh方法进行进一步判断。参见图5，描述了在Sakoe-Chiba约束下，构造的C的封带，其中黑色直线代表Q超出封带部分的点的连线，需要计算其欧式距离，然后求和，作为下界距离。

在步骤五中，LB_rkeogh是将LB_keogh中的Q和C进行调换，构造C的封带，这意味着Q要和C的封带E_c进行比较。C封带的上下边界为U＝{u₁,u₂,…,u_m}和L＝{l₁,l₂,…,l_m}，那么

其定义如下：

当该方法不能再进一步过滤查询集时，便计算Q和C的DTW距离，将其放入候选集。其计算公式如下：

D_dtw(Q,C)＝f(M,N) (8)

其中，D_base(c_i,q_i)表示向量点c_i和q_i之间的基距离，可以根据情况进行选择。为不失一般性，本实施例使用欧式距离作为基距离，即D_base(c_i,q_i)＝|c_i-q_i|。

步骤六：经过步骤五得到与参考模式相似的序列候选集S，那么得到的相似序列结果为S＝{Q₁，Q₂,…,Q_n}。接下来从S中的相似序列按照相似性大小进行排序，得到S’＝{Q₁’,Q₂’,…,Q_n’}。根据实验，从中选取p个最相似序列，最为合成预报的参考模式，最终的得到整合的参考模式Q，＝{Q,Q₁’,Q₂’,…,Q_P’},将其用于下一步的合成预报。

步骤七：将得到的参考模式利用加权平均法进行合成预报。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于DTW的时间序列相似性预测方法，其特征在于：该方法包括以下步骤：

x^{'} = \frac{x - μ}{σ} - - - (1)

μ = \frac{1}{m} Σ_{i = 1}^{m} x_{i} - - - (2)

σ^{2} = \frac{1}{m} Σ_{i = 1}^{m} {x_{i}}^{2} - μ^{2} - - - (3)

其中，x为X中的数据点，μ为X的均值，σ为X的标准差；

L B_k i m (Q, C) = \max \{\begin{matrix} | f i r s t {Q} - f i r s t {C}) | \\ | l a s t {Q} - l a s t {C}) | \\ | \max {Q} - \max {C} | \\ | \min {Q} - \min {C} | \end{matrix} - - - (4)

L B_k i m F L (Q, C) = \max \{\begin{matrix} | f i r s t {Q} - f i r s t {C} | \\ | l a s t {Q} - l a s t {C} | \end{matrix} - - - (5);

S4：利用LB_keogh方法对查询集进行过滤；

S7：将得到的参考模式利用加权平均法进行合成预报。

2.根据权利要求1所述的一种基于DTW的时间序列相似性预测方法，其特征在于：在所述步骤S2中，利用的全局约束条件是Sakoe-Chiba约束，该方法是通过参数r来限制弯曲路径偏离对角线的带状约束。

3.根据权利要求1所述的一种基于DTW的时间序列相似性预测方法，其特征在于：在所述步骤S4中，引入Sakoe-Chiba约束条件，将其用于构造参考模式Q的封带E_Q：设Q封带的上下边界分别为U＝{u_m+1,u_m+2,…,u_m+i,…,u_m+k}和L＝{l_m+1,l_m+2,…,l_m+i,…,l_m+k}，则基于DTW的下界函数LB_keogh定义如下：

L B_k e o g h (Q, C) = \{\begin{matrix} \sqrt{{(x_{m + i} - u_{m + i})}^{2}}, x_{m + i} > u_{m + i} \\ \sqrt{{(x_{m + i} - l_{m + i})}^{2}}, x_{m + i} < l_{m + i} \\ 0 \end{matrix} - - - (6) .

4.根据权利要求1所述的一种基于DTW的时间序列相似性预测方法，其特征在于：在所述步骤S5中，LB_rkeogh是将LB_keogh中的Q和C进行调换，构造C的封带，这意味着Q要和C的封带E_c进行比较；C封带的上下边界为U＝{u₁,u₂,…,u_m}和L＝{l₁,l₂,…,l_m}，那么

其定义如下：

L B_r k e o g h (C, Q) = \{\begin{matrix} \sqrt{{(x_{m + i} - u_{i})}^{2}}, x_{m + i} > u_{i} \\ \sqrt{{(x_{m + i} - l_{i})}^{2}}, x_{m + i} < l_{i} \\ 0 \end{matrix} - - - (7)

D_dtw(Q,C)＝f(M,N) (8)

\begin{matrix} f (M, N) = D_{b a s e} (c_{i}, q_{i}) + \\ \min {f (i, j - 1), f (i - 1, j), f (i, j)} \end{matrix} - - - (9)

\begin{matrix} f (0, 0) = 0, f (i, 0) = f (0, i) = \infty \\ (1 \leq i \leq m, 1 \leq j \leq n) \end{matrix} - - - (10)

其中，D_base(c_i,q_i)表示向量点c_i和q_i之间的基距离，可以根据情况进行选择。