CN103150364A - 一种时间序列特征提取方法 - Google Patents

一种时间序列特征提取方法 Download PDF

Info

Publication number
CN103150364A
CN103150364A CN 201310068261 CN201310068261A CN103150364A CN 103150364 A CN103150364 A CN 103150364A CN 201310068261 CN201310068261 CN 201310068261 CN 201310068261 A CN201310068261 A CN 201310068261A CN 103150364 A CN103150364 A CN 103150364A
Authority
CN
China
Prior art keywords
time series
point
value
unique
straight line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN 201310068261
Other languages
English (en)
Inventor
孔祥增
许力
陈丽萍
郑之
宋考
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Normal University
Original Assignee
Fujian Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Normal University filed Critical Fujian Normal University
Priority to CN 201310068261 priority Critical patent/CN103150364A/zh
Publication of CN103150364A publication Critical patent/CN103150364A/zh
Withdrawn legal-status Critical Current

Links

Images

Abstract

本发明公开一种时间序列特征提取方法,其包括以下步骤:1、对一组时间序列数据进行光滑;2、将X轴划分成一个以上长度相等的域,在每个域内分别找出该域中Y值取得最大值或最小值的点,设定该点为极值点;3、将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点;4、根据得到的特征点将时间序列分成若干部分,将相邻两个特征点连成直线,该直线的斜率绝对值的绝对值越大,则该特征区间在Y轴方向上的信号强度和变化度越大;5、提取Y轴方向上变化度大的区域。本发明的时间序列特征提取方法能有效的划分时间序列片段的特征区间,根据相邻两特征点的连线的斜率能够提取Y轴方向上变化度大的特征值,特别适用于时间序列的异常检测。

Description

一种时间序列特征提取方法
技术领域
本发明涉及时间序列,尤其涉及一种时间序列特征提取方法。
背景技术
时间序列是一种重要的高维数据类型,它是由客观对象的某个物理量在不同时间点的采样值按照时间先后次序排列而组成的序列,在经济管理以及工程领域具有广泛应用。例如证券市场中股票的交易价格与交易量、外汇市场上的汇率、期货和黄金的交易价格以及各种类型的指数等,这些数据都形成一个持续不断的时间序列。利用时间序列数据挖掘,可以获得数据中蕴含的与时间相关的有用信息,实现知识的提取。
发明内容
本发明的目的是提供一种适用于时间序列的异常检测的时间序列特征提取方法。
为实现上述目的,本发明采用以下的技术方案:
一种时间序列特征提取方法,其包括以下步骤:
步骤1:对一组时间序列数据D=<(x1,y1),(x2,y2),...,(xn,yn)>,进行光滑,以时间序列数据的时间变量的为X轴坐标,以随时间变量的增加而得到的变量为Y轴坐标;
步骤2:根据步骤1光滑的时间序列数据,将X轴划分成一个以上长度相等的域,在每个域内分别找出该域中Y值取得最大值或最小值的点,设定该点为极值点;
步骤3:将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点;
步骤4:根据步骤3得到的特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间,将相邻两个特征点连成直线,该直线与X轴的锐角夹角为θ,k=|tanθ|,k为该直线斜率的绝对值,k值越大,则表示该特征区间在Y轴方向上的信号强度和变化度越大;
步骤5:根据特征点划分时间序列片段的特征区间,提取Y轴方向上变化度大的区域。
本发明所述步骤1中,对一组时间序列数据进行光滑的具体操作为:
A)计算指定窗口内各个数据点的初始权重,权重函数一般表达为数值之间欧氏距离比值的立方函数;
B)利用初始权重进行回归估计,利用估计式的残差即估计值跟被估计值的差定义稳健的权函数,计算新的权重;
C)利用新的权重重复步骤2),不停的修正权函数,第N步收敛后可根据多项式和权重得到任意点的光滑值,所述N为20;
本发明所述步骤2中,所述的域为邻域,领域的长度为4的整倍数的偶数。
进一步,所述邻域的长度为8。
本发明所述步骤3中,根据时间序列D=<(x1,y1),(x2,y2),...,(xn,yn)>,如果点(xm,ym),1≤m≤n为步骤2得到的极值点,再选取参数点(xr,yr),1≤r≤n,将ym值与yr进行比较,若ym值大于yr,则保留该极值点(xm,ym)为特征点,若ym值小于yr,则舍弃该极值点。
根据以上的定义,将每个域中得到的极值点与选取的参数点的Y值进行比较。其中(xr,yr)是可控制选取的参数,可以根据时间序列的长度来自适应确定,yr值越大则被选中的特征点越少,时间序列被划分的段就越粗,反之,yr值越小,则被选中的特征点越多,时间序列被划分的段就越细。因此通过选择参数点(xr,yr),可以在不同程度的精细程度上进行数据挖掘。以上方法选取特征点的优点是可以选取到Y轴方向变化度大的一些点作为特征点,可以有效地识别Y轴方向上的变化。
所述步骤4中,根据特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间,(xe,ye),(xf,yf),(xg,yg),1≤e,f,g≤n是相邻的3个特征点,构成2个特征区间ef、fg,将相邻的两个特征点连成直线,直线fg与X轴的锐角夹角为θ,直线fg的斜率 k = | tan θ | = tan | y g - y f x g - x f | .
本发明的时间序列特征提取方法能有效的划分时间序列片段的特征区间,根据相邻两特征点的连线的斜率能够提取Y轴方向上变化度大的特征值,特别适用于时间序列的异常检测。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为本发明时间序列数据上相邻特征点斜率的得到图。
具体实施方式
本发明一种时间序列特征提取方法,其包括以下步骤:
步骤1:对一组时间序列数据D=<(x1,y1),(x2,y2),...,(xn,yn)>,进行光滑,以时间序列数据的时间变量的为X轴坐标,以随时间变量的增加而得到的变量为Y轴坐标;
步骤2:根据步骤1光滑的时间序列数据,将X轴划分成一个以上长度相等的域,在每个域内分别找出该域中Y值取得最大值或最小值的点,设定该点为极值点;
步骤3:将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点;
步骤4:根据步骤3得到的特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间,将相邻两个特征点连成直线,该直线与X轴的锐角夹角为θ,k=|tanθ|,k为该直线斜率的绝对值,k值越大,则表示该特征区间在Y轴方向上的信号强度和变化度越大;
步骤5:根据特征点划分时间序列片段的特征区间,提取Y轴方向上变化度大的区域。
本发明的时间序列特征提取方法具体为:
步骤1:对一组时间序列数据D=<(x1,y1),(x2,y2),...,(xn,yn)>,进行光滑,以时间序列数据的时间变量的为X轴坐标,以随时间变量的增加而得到的变量为Y轴坐标。
该对一组时间序列数据进行光滑的具体操作为:
A)计算指定窗口内各个数据点的初始权重,权重函数一般表达为数值之间欧氏距离比值的立方函数;
B)利用初始权重进行回归估计,利用估计式的残差即估计值跟被估计值的差定义稳健的权函数,计算新的权重;
C)利用新的权重重复步骤2),不停的修正权函数,第N步收敛后可根据多项式和权重得到任意点的光滑值,所述N为20。
步骤2:根据步骤1光滑的时间序列数据,将X轴划分成一个以上长度相等的域,在每个域内分别找出该域中Y值取得最大值或最小值的点,设定该点为极值点;所述的域为邻域,领域的长度为4的整倍数的偶数,本发明中选取的领域长度为8。
步骤3:将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点;
根据时间序列D=<(x1,y1),(x2,y2),...,(xn,yn)>,如果点(xm,ym),1≤m≤n为步骤2得到的极值点,再选取参数点(xr,yr),1≤r≤n,将ym值与yr进行比较,若ym值大于yr,则保留该极值点(xm,ym)为特征点,若ym值小于yr,则舍弃该极值点。
根据以上的定义,将每个域中得到的极值点与选取的参数点的Y值进行比较。其中(xr,yr)是可控制选取的参数,可以根据时间序列的长度来自适应确定,yr值越大则被选中的特征点越少,时间序列被划分的段就越粗,反之,yr值越小,则被选中的特征点越多,时间序列被划分的段就越细。因此通过选择参数点(xr,yr),可以在不同程度的精细程度上进行数据挖掘。以上方法选取特征点的优点是可以选取到Y轴方向变化度大的一些点作为特征点,可以有效地识别Y轴方向上的变化。
步骤4:根据步骤3得到的特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间,将相邻两个特征点连成直线,该直线与X轴的锐角夹角为θ,k=|tanθ|,k为该直线斜率的绝对值,k值越大,则表示该特征区间在Y轴方向上的信号强度和变化度越大;
根据步骤3得到的特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间。如图1所示,例如(xe,ye),(xf,yf),(xg,yg),1≤e,f,g≤n是相邻的3个特征点,构成2个特征区间ef、fg,将相邻的两个特征点连成直线,设直线fg与X轴的锐角夹角为θ,直线fg的斜率 k = | tan θ | = tan | y g - y f x g - x f | .
步骤5:根据特征点划分时间序列片段的特征区间及对应的直线斜率,提取Y轴方向上变化度大的区域。

Claims (6)

1.一种时间序列特征提取方法,其特征在于:其包括以下步骤:
步骤1:对一组时间序列数据D=<(x1,y1),(x2,y2),...,(xn,yn)>,进行光滑,以时间序列数据的时间变量的为X轴坐标,以随时间变量的增加而得到的变量为Y轴坐标;
步骤2:根据步骤1光滑的时间序列数据,将X轴划分成一个以上长度相等的域,在每个域内分别找出该域中Y值取得最大值或最小值的点,设定该点为极值点;
步骤3:将时间序列两端的端点与步骤2每个域中得到的极值点设定为特征点;
步骤4:根据步骤3得到的特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间,将相邻两个特征点连成直线,该直线与X轴的锐角夹角为θ,k=|tanθ|,k为该直线斜率的绝对值,k值越大,则表示该特征区间在Y轴方向上的信号强度和变化度越大;
步骤5:根据特征点划分时间序列片段的特征区间,提取Y轴方向上变化度大的区域。
2.根据权利要求1所述的时间序列特征提取方法,其特征在于:所述步骤1中,对一组时间序列数据进行光滑的具体操作为:
A)计算指定窗口内各个数据点的初始权重,权重函数一般表达为数值之间欧氏距离比值的立方函数;
B)利用初始权重进行回归估计,利用估计式的残差即估计值跟被估计值的差定义稳健的权函数,计算新的权重;
C)利用新的权重重复步骤2),不停的修正权函数,第N步收敛后可根据多项式和权重得到任意点的光滑值,所述N为20。
3.根据权利要求1所述的时间序列特征提取方法,其特征在于:所述步骤2中,所述的域为邻域,领域的长度为4的整倍数的偶数。
4.根据权利要求3所述的时间序列特征提取方法,其特征在于:所述邻域的长度为8。
5.根据权利要求1所述的时间序列特征提取方法,其特征在于:所述步骤3中,根据时间序列D=<(x1,y1),(x2,y2),...,(xn,yn)>,如果点(xm,ym),1≤m≤n为步骤2得到的极值点,再选取参数点(xr,yr),1≤r≤n,将ym值与yr进行比较,若ym值大于yr,则保留该极值点(xm,ym)为特征点,若ym值小于yr,则舍弃该极值点。
6.根据权利要求1所述的时间序列特征提取方法,其特征在于:所述步骤4中,根据特征点将时间序列分成若干部分,相邻两个特征点之间形成一个特征区间,
(xe,ye),(xf,yf),(xg,yg),1≤e,f,g≤n是相邻的3个特征点,构成2个特征区间ef、fg,将相邻的两个特征点连成直线,直线fg与X轴的锐角夹角为θ,直线fg的斜率
k = | tan θ | = tan | y g - y f x g - x f | .
CN 201310068261 2013-03-04 2013-03-04 一种时间序列特征提取方法 Withdrawn CN103150364A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201310068261 CN103150364A (zh) 2013-03-04 2013-03-04 一种时间序列特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201310068261 CN103150364A (zh) 2013-03-04 2013-03-04 一种时间序列特征提取方法

Publications (1)

Publication Number Publication Date
CN103150364A true CN103150364A (zh) 2013-06-12

Family

ID=48548441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201310068261 Withdrawn CN103150364A (zh) 2013-03-04 2013-03-04 一种时间序列特征提取方法

Country Status (1)

Country Link
CN (1) CN103150364A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346169A (zh) * 2014-10-14 2015-02-11 济南大学 一种流程对象原始数据时序发现与调整方法
CN105512330A (zh) * 2015-12-25 2016-04-20 石成富 一种基于大数据的计算机数据挖掘分类方法
CN104267610B (zh) * 2014-08-29 2017-05-17 内蒙古科技大学 高精度的高炉冶炼过程异常数据检测及修补方法
CN106875027A (zh) * 2016-06-06 2017-06-20 阿里巴巴集团控股有限公司 资源请求值的预测方法及装置、交易量的预测方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104267610B (zh) * 2014-08-29 2017-05-17 内蒙古科技大学 高精度的高炉冶炼过程异常数据检测及修补方法
CN104346169A (zh) * 2014-10-14 2015-02-11 济南大学 一种流程对象原始数据时序发现与调整方法
CN104346169B (zh) * 2014-10-14 2017-06-16 济南大学 一种流程对象原始数据时序发现与调整方法
CN105512330A (zh) * 2015-12-25 2016-04-20 石成富 一种基于大数据的计算机数据挖掘分类方法
CN106875027A (zh) * 2016-06-06 2017-06-20 阿里巴巴集团控股有限公司 资源请求值的预测方法及装置、交易量的预测方法
CN106875027B (zh) * 2016-06-06 2020-11-06 创新先进技术有限公司 资源请求值的预测方法及装置、交易量的预测方法
CN110071913A (zh) * 2019-03-26 2019-07-30 同济大学 一种基于无监督学习的时间序列异常检测方法
CN110071913B (zh) * 2019-03-26 2020-10-02 同济大学 一种基于无监督学习的时间序列异常检测方法

Similar Documents

Publication Publication Date Title
CN103150364A (zh) 一种时间序列特征提取方法
CN103246702B (zh) 一种基于分段形态表示的工业序列数据缺失的填补方法
Bukkapatnam et al. Forecasting the evolution of nonlinear and nonstationary systems using recurrence-based local Gaussian process models
CN106709509A (zh) 一种基于时间序列特殊点的卫星遥测数据聚类方法
CN105574642A (zh) 一种基于智能电网大数据的电价执行稽查方法
CN102244520B (zh) 一种卷积码编码参数的盲识别方法
Crowley et al. Measuring the intermittent synchronicity of macroeconomic growth in Europe
CN105989410A (zh) 一种重叠核脉冲分解方法
CN104732076A (zh) 一种侧信道能量迹特征提取的方法
CN102609501B (zh) 一种基于实时历史数据库的数据清洗方法
CN104634713A (zh) 特高含水期油水相渗比值曲线非线性关系表征方法
Liu et al. Blackout missing data recovery in industrial time series based on masked-former hierarchical imputation framework
CN104834811A (zh) 一种海浪波高分析方法
CN103712702A (zh) 一种机电设备温度预警方法
CN103308829A (zh) 一种gis单次局放信号提取与触发时刻调整方法
CN102033936A (zh) 一种用于时间序列相似性比较的方法
CN103560863A (zh) 一种伪随机扰码的识别方法
CN105466710B (zh) 基于频域相似度的局部均值分解端点效应改进方法
CN103376795A (zh) 一种基于集成学习建模技术的半导体过程监测方法
CN104714964A (zh) 一种生理数据离群检测方法及装置
CN115733675A (zh) 一种基于感应电机系统的分布式滤波方法
Zalk Markups in South African Manufacturing-Are they high and what can they tell us?
CN103995821A (zh) 一种基于谱聚类算法的选择性聚类集成方法
CN103822960A (zh) 极谱法多金属离子浓度在线检测方法
CN106446814A (zh) 一种时间序列波峰的提取方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20130612