CN106295711A

CN106295711A - 一种时间序列分类方法及系统

Info

Publication number: CN106295711A
Application number: CN201610693425.4A
Authority: CN
Inventors: 张莉; 陶志伟; 张召; 李凡长; 王邦军
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-08-19
Filing date: 2016-08-19
Publication date: 2017-01-04

Abstract

本申请公开了一种时间序列分类方法，包括：预先对GDTW核函数进行优化，得到改进后的GDTW核函数；利用改进后的GDTW核函数，分别对预设的时间序列训练样本集和时间序列测试样本进行核变换；利用预设的分类算法，并依据训练样本的核变换数据集中的时间序列类别标签，对测试样本的核变换数据进行分类处理，得到时间序列测试样本的类别。本申请改进后的GDTW核函数在计算时间序列元素之间的欧氏距离时，是对满足最优偏移路径的两个时间序列元素之间的欧式距离进行计算的，这样使得改进后的GDTW核函数保留了时间序列之间的偏移路径信息，从而使得后续的分类效果得到进一步的改善。另外，本申请还相应公开了一种时间序列分类系统。

Description

一种时间序列分类方法及系统

技术领域

本发明涉及时间序列分类技术领域，特别涉及一种时间序列分类方法及系统。

背景技术

时间序列是某种现象或统计指标在不同时间点上的各个数值，按照时间顺序排列而成的有序序列。时间序列的分类问题一直是时间序列数据挖掘领域研究人员关注的重点。随着大数据时代的到来，快速有效地对杂乱无章的时间序列分类显得尤为重要。当前，对时间序列进行分类的分类算法主要包括最近邻分类器、支持向量机以及稀疏编码算法等。

目前，在利用最近邻分类器、支持向量机或稀疏编码算法对时间序列进行分类时，需要事先对时间序列进行核变换处理，然后再对经过核变换处理的时间序列进行分类。例如，可以利用高斯核函数对时间序列进行核变换处理，但是由于传统的欧氏距离难以处理时间序列特有的偏移性，有学者提出将能够对时间序列进行有效度量的动态时间规整距离(DTW，即Dynamic Time Warping)引入到高斯核函数中，相应地得到了GDTW(即GaussianDynamic Time Warping kernel，高斯动态时间规整核函数)。时间序列经过GDTW核函数的核变换处理后，最终的分类效果得到了一定的提升。但是，由于GDTW核函数仅将DTW作为一种距离度量，简单地将其替换高斯核函数中的欧氏距离，而忽略了DTW中较为重要的偏移路径信息，因此使得时间序列的分类效果还有待进一步的改善。

综上所述可以看出，如何进一步改善时间序列的分类效果是目前有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种时间序列分类方法及系统，进一步改善了时间序列的分类效果。其具体方案如下：

一种时间序列分类方法，包括：

预先对GDTW核函数进行优化，得到改进后的GDTW核函数；

利用所述改进后的GDTW核函数，分别对预设的时间序列训练样本集和时间序列测试样本进行核变换，相应地得到训练样本的核变换数据集和测试样本的核变换数据；

利用预设的分类算法，并依据所述训练样本的核变换数据集中的时间序列类别标签，对所述测试样本的核变换数据进行分类处理，得到所述时间序列测试样本的类别；

其中，所述改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

式中，σ表示核参数，x表示输入所述改进后的GDTW核函数中的第一时间序列，y表示输入所述改进后的GDTW核函数中的第二时间序列，w_s|x表示所述第一时间序列上的第g个序列元素，w_s|y表示所述第二时间序列上的第h个序列元素，并且，(w_s|x,w_s|y)表示最优偏移路径W_x,y上的第s个路径元素，Dist_eu(w_s|x,w_s|y)表示w_s|x和w_s|y之间的欧氏距离，所述最优偏移路径W_x,y表示所述第一时间序列和所述第二时间序列之间的最优偏移路径，其中，W_x,y＝{w₁,w₂,...,w_N}。

优选的，对所述时间序列训练样本集进行核变换的过程，包括：

利用所述改进后的GDTW核函数，对所述时间序列训练样本集进行核变换，得到所述训练样本的核变换数据集；其中，所述训练样本的核变换数据集为：

式中，x_k表示所述时间序列训练样本集中的第k个时间序列训练样本，v_k表示x_k的类别标签，表示所述训练样本的核变换数据集中的第k个核变换数据元素，

优选的，对所述时间序列测试样本进行核变换的过程，包括：

利用所述改进后的GDTW核函数，并结合所述时间序列训练样本集，对所述时间序列测试样本进行核变换，得到所述测试样本的核变换数据；其中，所述测试样本的核变换数据为：

式中，y表示所述时间序列测试样本，x_k表示所述时间序列训练样本集中的第k个时间序列训练样本，k＝{1,2,...,M}。

优选的，所述分类算法为最近邻分类器、支持向量机或稀疏编码算法。

本发明还公开了一种时间序列分类系统，包括：

核函数优化模块，用于预先对GDTW核函数进行优化，得到改进后的GDTW核函数；

核变换模块，用于利用所述改进后的GDTW核函数，分别对预设的时间序列训练样本集和时间序列测试样本进行核变换，相应地得到训练样本的核变换数据集和测试样本的核变换数据；

时间序列分类模块，用于利用预设的分类算法，并依据所述训练样本的核变换数据集中的时间序列类别标签，对所述测试样本的核变换数据进行分类处理，得到所述时间序列测试样本的类别；

其中，所述改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

优选的，所述核变换模块，包括：

第一核变换单元，用于利用所述改进后的GDTW核函数，对所述时间序列训练样本集进行核变换，得到所述训练样本的核变换数据集；其中，所述训练样本的核变换数据集为：

第二核变换单元，用于利用所述改进后的GDTW核函数，并结合所述时间序列训练样本集，对所述时间序列测试样本进行核变换，得到所述测试样本的核变换数据；其中，所述测试样本的核变换数据为：

优选的，所述时间序列分类模块中所采用的分类算法为最近邻分类器、支持向量机或稀疏编码算法。

本发明中，时间序列分类方法包括：预先对GDTW核函数进行优化，得到改进后的GDTW核函数；利用改进后的GDTW核函数，分别对预设的时间序列训练样本集和时间序列测试样本进行核变换，相应地得到训练样本的核变换数据集和测试样本的核变换数据；利用预设的分类算法，并依据训练样本的核变换数据集中的时间序列类别标签，对测试样本的核变换数据进行分类处理，得到时间序列测试样本的类别；其中，改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

式中，σ表示核参数，x表示输入改进后的GDTW核函数中的第一时间序列，y表示输入改进后的GDTW核函数中的第二时间序列，w_s|x表示第一时间序列上的第g个序列元素，w_s|y表示第二时间序列上的第h个序列元素，并且，(w_s|x,w_s|y)表示最优偏移路径W_x,y上的第s个路径元素，Dist_eu(w_s|x,w_s|y)表示w_s|x和w_s|y之间的欧氏距离，最优偏移路径W_x,y表示第一时间序列和第二时间序列之间的最优偏移路径，其中，W_x,y＝{w₁,w₂,...,w_N}。

由上可知，本发明将时间序列间的最优偏移路径引入了GDTW核函数中，也即，本发明中，改进后的GDTW核函数在计算时间序列元素之间的欧氏距离时，是对满足最优偏移路径的两个时间序列元素之间的欧式距离进行计算的，这样使得改进后的GDTW核函数保留了时间序列之间的偏移路径信息，从而使得后续的分类效果得到进一步的改善。也即，本发明进一步改善了时间序列的分类效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种时间序列分类方法流程图；

图2为本发明实施例公开的一种时间序列分类系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种时间序列分类方法，参见图1所示，该方法包括：

步骤S11：预先对GDTW核函数进行优化，得到改进后的GDTW核函数。其中，改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

本实施例中，上述第一时间序列为输入上述改进后的GDTW核函数中的任一时间序列，上述第二时间序列为输入上述改进后的GDTW核函数中的另一任意时间序列。上述改进后的GDTW核函数中，(w_s|x,w_s|y)表示最优偏移路径W_x,y上的第s个路径元素，w_s|x表示第一时间序列上的第g个序列元素，w_s|y表示第二时间序列上的第h个序列元素，其中，上述g值小于或等于第一时间序列上的序列元素的总数，同理，上述h值小于或等于第二时间序列上的序列元素的总数。可见，在将上述第一时间序列和上述第二时间序列输入上述改进后的GDTW核函数之后，需要先确定出上述第一时间序列和上述第二时间序列之间的最优偏移路径，其中，最优偏移路径中包括多个路径元素，每个路径元素均包括两个序列元素，其中一个序列元素位于上述第一时间序列，另一个序列元素位于上述第二时间序列。由此可以看出，在上述改进后的GDTW核函数中，需要进行欧氏距离计算的任意两个序列元素需要满足能够构成最优偏移路径上的路径元素的条件。

步骤S12：利用上述改进后的GDTW核函数，分别对预设的时间序列训练样本集和时间序列测试样本进行核变换，相应地得到训练样本的核变换数据集和测试样本的核变换数据。

需要说明的是，上述预设的时间序列训练样本集中携带有每一时间序列样本所对应的序列类别标签。利用上述改进后的GDTW核函数对上述时间序列训练样本集进行核变换后，所得到的训练样本的核变换数据集中依然会携带原有的时间序列类别标签。而由于上述时间序列测试样本的类别在上述核变换之前还处于未知状态，所以，经过上述核变换后，上述时间序列测试样本的类别依然处于未知状态。

步骤S13：利用预设的分类算法，并依据训练样本的核变换数据集中的时间序列类别标签，对测试样本的核变换数据进行分类处理，得到时间序列测试样本的类别。

需要说明的是，本实施例中，上述预设的分类算法可以是最近邻分类器、支持向量机或稀疏编码算法。

由上可知，本发明实施例将时间序列间的最优偏移路径引入了GDTW核函数中，也即，本发明实施例中，改进后的GDTW核函数在计算时间序列元素之间的欧氏距离时，是对满足最优偏移路径的两个时间序列元素之间的欧式距离进行计算的，这样使得改进后的GDTW核函数保留了时间序列之间的偏移路径信息，从而使得后续的分类效果得到进一步的改善。也即，本发明实施例进一步改善了时间序列的分类效果。

本发明实施例公开了一种具体的时间序列分类方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

上一实施例步骤S11中，通过将最优偏移路径W_x,y引入GDTW核函数，以对GDTW核函数进行优化，从而得到了改进后的GDTW核函数。其中，上述最优偏移路径W_x,y＝{w₁,w₂,...,w_N}。需要说明的是，如何确定上述最优偏移路径W_x,y是现有技术中已知的技术方案。具体的，利用第一时间序列和第二时间序列，创建一个n行×m列的矩阵D；其中，n与第一时间序列的序列长度相等，m与第二时间序列的序列长度相等，并且，最优偏移路径W_x,y的第s个路径元素(w_s|x,w_s|y)所对应的路径距离D(g,h)为：

D(g,h)＝Dist_eu(x_g,y_h)+min{D(g-1,h),D(g,h-1),D(g-1,h-1)}；

式中，Dist_eu(x_g,y_h)表示第一时间序列上的第g个序列元素和第二时间序列上的第h个序列元素之间的欧氏距离，D(g,h)表示第一时间序列上长度为g的子序列和第二时间序列上长度为h的子序列之间的路径距离，其中，第一时间序列上长度为g的子序列表示第一时间序列上从第1个序列元素到第g个序列元素之间的数据，同理，第二时间序列上长度为h的子序列表示第二时间序列上从第1个序列元素到第h个序列元素之间的数据。另外，需要说明的是，上述最优偏移路径W_x,y的第1个路径元素w₁所对应的路径距离为D(1,1)，第N个路径元素w_N所对应的路径距离为D(n,m)，也即，D(1,1)所对应的序列元素构成了上述最优偏移路径W_x,y的下边界，D(n,m)所对应的序列元素构成了上述最优偏移路径W_x,y的上边界。

上一实施例步骤S12中，需要对时间序列训练样本集进行核变换。本实施例中，对时间序列训练样本集进行核变换的过程，具体包括：

利用改进后的GDTW核函数，对时间序列训练样本集进行核变换，得到训练样本的核变换数据集；其中，训练样本的核变换数据集为：

式中，x_k表示时间序列训练样本集中的第k个时间序列训练样本，v_k表示x_k的类别标签，表示训练样本的核变换数据集中的第k个核变换数据元素，

另外，上一实施例步骤S12中，还需要对时间序列测试样本进行核变换。本实施例中，对时间序列测试样本进行核变换的过程，具体包括：

利用改进后的GDTW核函数，并结合时间序列训练样本集，对时间序列测试样本进行核变换，得到测试样本的核变换数据；其中，测试样本的核变换数据为：

式中，y表示时间序列测试样本，x_k表示时间序列训练样本集中的第k个时间序列训练样本，k＝{1,2,...,M}。

相应的，本发明实施例还公开了一种时间序列分类系统，参见图2所以，该系统包括：

核函数优化模块21，用于预先对GDTW核函数进行优化，得到改进后的GDTW核函数；

核变换模块22，用于利用改进后的GDTW核函数，分别对预设的时间序列训练样本集和时间序列测试样本进行核变换，相应地得到训练样本的核变换数据集和测试样本的核变换数据；

时间序列分类模块23，用于利用预设的分类算法，并依据训练样本的核变换数据集中的时间序列类别标签，对测试样本的核变换数据进行分类处理，得到时间序列测试样本的类别；

其中，上述改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

另外，上述核变换模块，具体包括第一核变换单元和第二核变换单元，其中：

第一核变换单元，用于利用改进后的GDTW核函数，对时间序列训练样本集进行核变换，得到训练样本的核变换数据集；其中，训练样本的核变换数据集为：

第二核变换单元，用于利用改进后的GDTW核函数，并结合时间序列训练样本集，对时间序列测试样本进行核变换，得到测试样本的核变换数据；其中，测试样本的核变换数据为：

另外，上述时间序列分类模块中所采用的分类算法具体可以为最近邻分类器、支持向量机或稀疏编码算法。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种时间序列分类方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种时间序列分类方法，其特征在于，包括：

预先对GDTW核函数进行优化，得到改进后的GDTW核函数；

其中，所述改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

2.根据权利要求1所述的时间序列分类方法，其特征在于，对所述时间序列训练样本集进行核变换的过程，包括：

3.根据权利要求2所述的时间序列分类方法，其特征在于，对所述时间序列测试样本进行核变换的过程，包括：

4.根据权利要求1至3任一项所述的时间序列分类方法，其特征在于，所述分类算法为最近邻分类器、支持向量机或稀疏编码算法。

5.一种时间序列分类系统，其特征在于，包括：

其中，所述改进后的GDTW核函数为：

K (x, y) = Σ_{s = 1}^{N} \exp (- {Dist}_{e u} {(w_{s | x}, w_{s | y})}^{2} / σ^{2});

6.根据权利要求5所述的时间序列分类系统，其特征在于，所述核变换模块，包括：

7.根据权利要求5或6所述的时间序列分类系统，其特征在于，所述时间序列分类模块中所采用的分类算法为最近邻分类器、支持向量机或稀疏编码算法。