CN103150364A

CN103150364A - 一种时间序列特征提取方法

Info

Publication number: CN103150364A
Application number: CN 201310068261
Authority: CN
Inventors: 孔祥增; 许力; 陈丽萍; 郑之; 宋考
Original assignee: Fujian Normal University
Current assignee: Fujian Normal University
Priority date: 2013-03-04
Filing date: 2013-03-04
Publication date: 2013-06-12

Abstract

本发明公开一种时间序列特征提取方法，其包括以下步骤：1、对一组时间序列数据进行光滑；2、将X轴划分成一个以上长度相等的域，在每个域内分别找出该域中Y值取得最大值或最小值的点，设定该点为极值点；3、将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点；4、根据得到的特征点将时间序列分成若干部分，将相邻两个特征点连成直线，该直线的斜率绝对值的绝对值越大，则该特征区间在Y轴方向上的信号强度和变化度越大；5、提取Y轴方向上变化度大的区域。本发明的时间序列特征提取方法能有效的划分时间序列片段的特征区间，根据相邻两特征点的连线的斜率能够提取Y轴方向上变化度大的特征值，特别适用于时间序列的异常检测。

Description

一种时间序列特征提取方法

技术领域

本发明涉及时间序列，尤其涉及一种时间序列特征提取方法。

背景技术

时间序列是一种重要的高维数据类型，它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列，在经济管理以及工程领域具有广泛应用。例如证券市场中股票的交易价格与交易量、外汇市场上的汇率、期货和黄金的交易价格以及各种类型的指数等，这些数据都形成一个持续不断的时间序列。利用时间序列数据挖掘，可以获得数据中蕴含的与时间相关的有用信息，实现知识的提取。

发明内容

本发明的目的是提供一种适用于时间序列的异常检测的时间序列特征提取方法。

为实现上述目的，本发明采用以下的技术方案：

一种时间序列特征提取方法，其包括以下步骤：

步骤1：对一组时间序列数据D＝＜(x₁,y₁),(x₂,y₂),...,(x_n,y_n)＞,进行光滑，以时间序列数据的时间变量的为X轴坐标，以随时间变量的增加而得到的变量为Y轴坐标；

步骤2：根据步骤1光滑的时间序列数据，将X轴划分成一个以上长度相等的域，在每个域内分别找出该域中Y值取得最大值或最小值的点，设定该点为极值点；

步骤3：将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点；

步骤4：根据步骤3得到的特征点将时间序列分成若干部分，相邻两个特征点之间形成一个特征区间，将相邻两个特征点连成直线，该直线与X轴的锐角夹角为θ，k＝|tanθ|，k为该直线斜率的绝对值，k值越大，则表示该特征区间在Y轴方向上的信号强度和变化度越大；

步骤5：根据特征点划分时间序列片段的特征区间，提取Y轴方向上变化度大的区域。

本发明所述步骤1中，对一组时间序列数据进行光滑的具体操作为：

A）计算指定窗口内各个数据点的初始权重，权重函数一般表达为数值之间欧氏距离比值的立方函数；

B）利用初始权重进行回归估计，利用估计式的残差即估计值跟被估计值的差定义稳健的权函数，计算新的权重；

C）利用新的权重重复步骤2），不停的修正权函数，第N步收敛后可根据多项式和权重得到任意点的光滑值，所述N为20；

本发明所述步骤2中，所述的域为邻域，领域的长度为4的整倍数的偶数。

进一步，所述邻域的长度为8。

本发明所述步骤3中，根据时间序列D＝＜(x₁,y₁),(x₂,y₂),...,(x_n,y_n)＞,如果点(x_m,y_m)，1≤m≤n为步骤2得到的极值点，再选取参数点(x_r,y_r)，1≤r≤n，将y_m值与y_r进行比较，若y_m值大于y_r，则保留该极值点(x_m,y_m)为特征点，若y_m值小于y_r，则舍弃该极值点。

根据以上的定义，将每个域中得到的极值点与选取的参数点的Y值进行比较。其中(x_r,y_r)是可控制选取的参数，可以根据时间序列的长度来自适应确定，y_r值越大则被选中的特征点越少，时间序列被划分的段就越粗，反之，y_r值越小，则被选中的特征点越多，时间序列被划分的段就越细。因此通过选择参数点(x_r,y_r)，可以在不同程度的精细程度上进行数据挖掘。以上方法选取特征点的优点是可以选取到Y轴方向变化度大的一些点作为特征点，可以有效地识别Y轴方向上的变化。

所述步骤4中，根据特征点将时间序列分成若干部分，相邻两个特征点之间形成一个特征区间，(x_e,y_e),(x_f,y_f),(x_g,y_g)，1≤e,f,g≤n是相邻的3个特征点，构成2个特征区间ef、fg，将相邻的两个特征点连成直线，直线fg与X轴的锐角夹角为θ，直线fg的斜率

k = | \tan θ | = \tan | \frac{y_{g} - y_{f}}{x_{g} - x_{f}} | .

本发明的时间序列特征提取方法能有效的划分时间序列片段的特征区间，根据相邻两特征点的连线的斜率能够提取Y轴方向上变化度大的特征值，特别适用于时间序列的异常检测。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明：

图1为本发明时间序列数据上相邻特征点斜率的得到图。

具体实施方式

本发明一种时间序列特征提取方法，其包括以下步骤：

本发明的时间序列特征提取方法具体为：

步骤1：对一组时间序列数据D＝＜(x₁,y₁),(x₂,y₂),...,(x_n,y_n)＞,进行光滑，以时间序列数据的时间变量的为X轴坐标，以随时间变量的增加而得到的变量为Y轴坐标。

该对一组时间序列数据进行光滑的具体操作为：

C）利用新的权重重复步骤2），不停的修正权函数，第N步收敛后可根据多项式和权重得到任意点的光滑值，所述N为20。

步骤2：根据步骤1光滑的时间序列数据，将X轴划分成一个以上长度相等的域，在每个域内分别找出该域中Y值取得最大值或最小值的点，设定该点为极值点；所述的域为邻域，领域的长度为4的整倍数的偶数，本发明中选取的领域长度为8。

根据时间序列D＝＜(x₁,y₁),(x₂,y₂),...,(x_n,y_n)＞,如果点(x_m,y_m)，1≤m≤n为步骤2得到的极值点，再选取参数点(x_r,y_r)，1≤r≤n，将y_m值与y_r进行比较，若y_m值大于y_r，则保留该极值点(x_m,y_m)为特征点，若y_m值小于y_r，则舍弃该极值点。

根据步骤3得到的特征点将时间序列分成若干部分，相邻两个特征点之间形成一个特征区间。如图1所示，例如(x_e,y_e),(x_f,y_f),(x_g,y_g)，1≤e,f,g≤n是相邻的3个特征点，构成2个特征区间ef、fg，将相邻的两个特征点连成直线，设直线fg与X轴的锐角夹角为θ，直线fg的斜率

k = | \tan θ | = \tan | \frac{y_{g} - y_{f}}{x_{g} - x_{f}} | .

步骤5：根据特征点划分时间序列片段的特征区间及对应的直线斜率，提取Y轴方向上变化度大的区域。

Claims

1.一种时间序列特征提取方法，其特征在于：其包括以下步骤：

2.根据权利要求1所述的时间序列特征提取方法，其特征在于：所述步骤1中，对一组时间序列数据进行光滑的具体操作为：

3.根据权利要求1所述的时间序列特征提取方法，其特征在于：所述步骤2中，所述的域为邻域，领域的长度为4的整倍数的偶数。

4.根据权利要求3所述的时间序列特征提取方法，其特征在于：所述邻域的长度为8。

5.根据权利要求1所述的时间序列特征提取方法，其特征在于：所述步骤3中，根据时间序列D＝＜(x₁,y₁),(x₂,y₂),...,(x_n,y_n)＞,如果点(x_m,y_m)，1≤m≤n为步骤2得到的极值点，再选取参数点(x_r,y_r)，1≤r≤n，将y_m值与y_r进行比较，若y_m值大于y_r，则保留该极值点(x_m,y_m)为特征点，若y_m值小于y_r，则舍弃该极值点。

6.根据权利要求1所述的时间序列特征提取方法，其特征在于：所述步骤4中，根据特征点将时间序列分成若干部分，相邻两个特征点之间形成一个特征区间，

(x_e,y_e),(x_f,y_f),(x_g,y_g)，1≤e,f,g≤n是相邻的3个特征点，构成2个特征区间ef、fg，将相邻的两个特征点连成直线，直线fg与X轴的锐角夹角为θ，直线fg的斜率

k = | \tan θ | = \tan | \frac{y_{g} - y_{f}}{x_{g} - x_{f}} | .