CN107871140B - 一种基于斜率弹性相似性度量方法 - Google Patents

一种基于斜率弹性相似性度量方法 Download PDF

Info

Publication number
CN107871140B
CN107871140B CN201711085758.XA CN201711085758A CN107871140B CN 107871140 B CN107871140 B CN 107871140B CN 201711085758 A CN201711085758 A CN 201711085758A CN 107871140 B CN107871140 B CN 107871140B
Authority
CN
China
Prior art keywords
slope
segment
trend
time
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711085758.XA
Other languages
English (en)
Other versions
CN107871140A (zh
Inventor
王念滨
张海彬
宋奎勇
王红滨
周连科
白云鹏
原明旗
王勇军
陈田田
何茜茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201711085758.XA priority Critical patent/CN107871140B/zh
Publication of CN107871140A publication Critical patent/CN107871140A/zh
Application granted granted Critical
Publication of CN107871140B publication Critical patent/CN107871140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供的是一种基于斜率弹性相似性度量方法。步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y;步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。本发明把时间序列通过滤波特征表示为折线段,保留了趋势信息并实现了降维;线段权重斜率可实现趋势的度量比较;通过等距插值以适应DTW等间隔计算,实现了弹性度量。

Description

一种基于斜率弹性相似性度量方法
技术领域
本发明涉及的是一种对传感器在目标跟踪与检测过程中产生的大量时间序列数据进行挖掘时间序列数据的方法。
背景技术
在海试试验与评估中,传感器在目标跟踪与检测过程中产生大量时间序列数据,这些时间序列数据数量大、维数多,并且包含大量噪声。但是,这些时间序列数据中隐藏着事物发展的趋势和规律,挖掘时间序列数据有着重要的意义。时间序列挖掘包括时间序列相似性搜索、分类、聚类、预测及离群点检测等。在这些研究中,时间序列相似性度量是研究的前提和基础,一个好的度量方法可以显著提高时间序列挖掘的效率和精度。
时间序列相似性度量以距离度量为主,包括欧式距离、马氏距离、动态时间弯曲(DTW)距离等。等长序列距离度量称为锁步度量,不等长序列距离度量称为弹性度量。为了提高效率和排除噪声的干扰,时间序列相似性度量通常与时间序列数据降维和特征表示相结合。数据降维和特征表示常用的方法包括:分段近似表示、基于符号化分段聚合近似、奇异值分解和离散小波变换等。
分段近似表示(PAA)对时间序列进行等距分割并利用分段序列均值来表示原分段特征的方法,PAA在一定程度上能够达到压缩数据长度、降低维数的效果,但是PAA分段大小是关键因素,采用均值表示也会造成极值信息的丢失,没有考虑序列数据的趋势变化信息。基于符号化分段聚合近似(SAX)采用等频率直方图和PAA分段符号化的表示方法,在PAA基础上,划分成等概率区间,并用符号表示每一个区间,把时间序列转化成一个符号串。SAX与PAA一样的压缩比率,度量精度较PAA更高。然而,SAX存在和PAA同样的问题。SAX-TD在SAX的基础上被提出,为了解决SAX的不足,在符号化分段基础上,把趋势信息划分成六种情况,并把每一分段开始点和结束点与均值的差的变化作为分段的趋势信息,由于考虑了趋势信息,SAX-TD相较于SAX度量精度更准确。然而,SAX-TD对分段大小比较敏感,如果分段过大,其效果并不明显,并且会出现起始点和结束点值相同的情况,则添加趋势信息无效。以上方法存在一个共性问题,只能对序列点对点的锁步度量,而现实中更多的是对于不等长、存在振幅平移和伸缩时间序列进行“一对多”或“一对零”的比较,即弹性度量。DTW是经典弹性度量方法,然而,DTW时间复杂度过高限制了其使用范围。
发明内容
本发明的目的在于提供一种结合特征表示和弹性度量的优点,能解决时间序列相似性度量问题的基于斜率弹性相似性度量方法。
本发明的目的是这样实现的:
步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y;
步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;
步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。
本发明还可以包括:
1、x={(t1,x1)(t2,x2),…,(tm,xm)},y={(t1,y1),(t2,y2,…,(tn,yn)},设定l1过滤参数λ并过滤后,时间序列x和y被线性化为折线,若X由p1个线性分段构成,表示为X={X1,X2,…,XP1},其中Xi={(tli,xli),(tri,xri)},i=1,2,…,p1,tli为第i段起点时间,tri为第i段终点时间;Y由p2个线性分段构成,表示为Y={Y1,Y2,…,Yp2},其中Yj={(tlj,ylj),(trj,yrj)},j=1,2,…,p2,tlj为第j段起点时间,trj为第j段终点时间。
2、
Figure BDA0001460041190000021
Figure BDA0001460041190000022
为X的<tli,tri>分段的斜率,
Figure BDA0001460041190000023
为Y的<tlj,trj>分段的斜率。
3、设定一个等距间隔参数d,若(tri-tli)>d,则对此分段插值,每隔d个时间点插入一个值,若分段长度小于d或者最后插值剩余不足d,不需要插入值。第i段插入的值为:
Figure BDA0001460041190000024
其中,ki为第i段斜率,(tri-tli)/tn为分段权重,d为等距间隔参数。
锁步度量方法不能解决噪声干扰、振幅平移及伸缩等问题,而DTW弹性度量方法对噪声敏感且时间复杂度过高。考虑到,时间序列特征表示可以消除噪声干扰,降低序列维数。若结合特征表示和弹性度量的优点,则可行之有效的解决时间序列相似性度量问题。
本发明针对SAX_TD不能弹性度量和DTW时间复杂度过高的事实,提出了基于斜率弹性度量方法SESM,引入l1趋势过滤,把原时间序列特征表示为连续折线段,并按照线段长度计算带有权重的斜率值,得到每一分段趋势信息,然后,按照统一大小划分分段并插入相应权重斜率值,得到一个新的趋势序列,最后,应用DTW度量序列相似度。
本发明的SESM方法有三个优势:第一,把时间序列通过滤波特征表示为折线段,保留了趋势信息并实现了降维;第二,线段权重斜率可实现趋势的度量比较;第三,通过等距插值以适应DTW等间隔计算,实现了弹性度量。
附图说明
图1是本发明的操作流程图;
图2是l1趋势过滤流程图;
图3a-3b时间序列斜率模式示意图,图3a折线斜率表示、图b折线插值斜率表示;
图4是两条不等长序列动态时间弯曲(DTW)距离计算模拟图,图中局部距离是计算线段加权斜率差值;
图5中(1)、(2)、(3)经l1趋势过滤后特征表示为(4)、(5)、(6);
图6是把图5中(4)、(5)、(6)用X、Y、Z表示,比较X、Y、Z之间EU、PAA、SAX、SAX_TD、DTW、SESM距离,已知X与Z最相似,其次X与Y相似。
图7a-7b是4类时间序列聚类分析结果,图7a中(1)与(2)、(3)与(4)、(5)与(6)、(7)与(8)是同一类。图7b中由Euc、SAX_TD、DTW和SESM距离度量聚类层次图。
具体实施方式
下面举例对本发明做更详细的描述。
输入:时间序列x={x1,x2,…,xm}和y={y1,y2,…,yn},l1过滤参数λ及分段参数d。
输出:度量距离Dist(x,y)。
步骤一:输入时间序列x和y及过滤参数λ,进行l1趋势过滤。输出折线段X和Y。
步骤二:计算线性分段序列X和Y加权斜率表示为kx和ky;设定插值阈值d,等距插入加权斜率值。
步骤三:插值处理后,形成两个新不等长序列kx和ky,使用DTW(kx,ky)计算趋势距离。
(1)由于时间序列通常维数高、数据量大并且噪声干扰严重,直接在时间序列上进行相似性度量不但花费高昂的存贮和计算,而且影响算法的准确性和可靠性。所以,首先对时间序列l1趋势过滤,把原时间序列转化为折线,折线反映了时间序列整体趋势,并且达到压缩数据、去除噪声干扰,提高效率和精度的目的。
给定两个一维时间序列x和y,x={(t1,x1)(t2,x2),…,(tm,xm)},y={(t1,y1),(t2,y2,…,(tn,yn)},设定l1过滤参数λ并过滤,时间序列x和y被线性化为折线,若x由p1个线性分段构成,表示为X={X1,X2,…,XP1},其中Xi={(tli,xli),(tri,xri)},i=1,2,…,p1。tli为第i段起点时间,tri为第i段终点时间。Y由p2个线性分段构成,表示为Y={Y1,Y2,…,Yp2},其中Yj={(tlj,ylj),(trj,yrj)},j=1,2,…,p2。tlj为第j段起点时间,trj为第j段终点时间。
(2)线性分段序列X和Y斜率表示为kx和ky
Figure BDA0001460041190000041
Figure BDA0001460041190000042
Figure BDA0001460041190000043
为X的<tli,tri>分段的斜率,
Figure BDA0001460041190000044
为Y的<tlj,trj>分段的斜率,一般地p1≠p2。斜率距离具有明确的物理含义,同时满足对称性、自相似性、非负性和三角不等式。
(3)x和y为不等长时间序列,且p1≠p2,则斜率度量无法处理。由此,提出一种加权斜率插值法,使得斜率度量可计算。
考虑到通过等距插值法使得X和Y对齐。设定一个等距间隔参数d,若tri-tli>d,则需要对此分段插值,此分段需插入tri-tli>d个加权斜率值,每隔d个时间点插入一个值,若分段长度小于d或者最后插值剩余不足d,不需要插入值。第i段插入的值为:
Figure BDA0001460041190000045
在公式(1)中,ki为第i段斜率,tri-tli/tn为分段权重,d为插值间隔参数。
(4)最后,经过加权插值的kx和ky,虽然个数不同,但每一个斜率值却等权重,可反映出序列整个趋势变化,kx和ky长度不同,可使用DTW(kx,ky)计算两序列距离。

Claims (3)

1.一种基于斜率弹性相似性度量方法,其特征是:
步骤一:输入传感器在目标跟踪与检测过程中产生的时间序列x和y及过滤参数λ,进行l1趋势过滤,输出折线X和Y,X={(t1,x1)(t2,x2),…,(tm,xm)},Y={(t1,y1),(t2,y2,…,(tn,yn)};
步骤二:计算折线X和Y各分段加权斜率,折线X和Y用加权斜率表示为kx和ky;设定等距间隔参数d,等距插入加权斜率;具体包括:若(tri-tli)>d,则对此分段插值,每隔d个时间点插入一个值,若分段长度小于d或者最后插值剩余不足d,不需要插入值;第i段插入的值为:
Figure FDA0003172556220000011
其中,ki为第i段斜率,(tri-tli)/tn为分段权重,d为等距间隔参数;
步骤三:经过插值处理后,形成两个新不等长序列,使用动态时间弯曲距离DTW计算不等长序列的趋势距离。
2.根据权利要求1所述的基于斜率弹性相似性度量方法,其特征是:设定l1过滤参数λ并过滤后,时间序列x和y被线性化为折线,若X由p1个线性分段构成,表示为X={X1,X2,…,XP1},其中Xi={(tli,xli),(tri,xri)},i=1,2,…,p1,tli为第i段起点时间,tri为第i段终点时间;Y由p2个线性分段构成,表示为Y={Y1,Y2,…,Yp2},其中Yj={(tlj,ylj),(trj,yrj)},j=1,2,…,p2,tlj为第j段起点时间,trj为第j段终点时间。
3.根据权利要求2所述的基于斜率弹性相似性度量方法,其特征是:
Figure FDA0003172556220000012
Figure FDA0003172556220000013
Figure FDA0003172556220000014
为X的<tli,tri>分段的斜率,
Figure FDA0003172556220000015
为Y的<tlj,trj>分段的斜率。
CN201711085758.XA 2017-11-07 2017-11-07 一种基于斜率弹性相似性度量方法 Active CN107871140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711085758.XA CN107871140B (zh) 2017-11-07 2017-11-07 一种基于斜率弹性相似性度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711085758.XA CN107871140B (zh) 2017-11-07 2017-11-07 一种基于斜率弹性相似性度量方法

Publications (2)

Publication Number Publication Date
CN107871140A CN107871140A (zh) 2018-04-03
CN107871140B true CN107871140B (zh) 2021-10-01

Family

ID=61753710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711085758.XA Active CN107871140B (zh) 2017-11-07 2017-11-07 一种基于斜率弹性相似性度量方法

Country Status (1)

Country Link
CN (1) CN107871140B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109682908B (zh) * 2019-01-18 2021-08-06 湖南中医药大学 一种中药宏观质量的评价控制方法
CN113017628B (zh) * 2021-02-04 2022-06-10 山东师范大学 融合erp成分与非线性特征的意识情绪识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007058001A1 (ja) * 2005-11-17 2007-05-24 Kochi University 易動度の正規化装置、正規化方法、正規化プログラムおよび自己組織化マップ、並びに、物質の検出方法、検出プログラム、検出ルール生成方法およびデータ構造
CN102033936A (zh) * 2010-12-20 2011-04-27 天津大学 一种用于时间序列相似性比较的方法
CN102682573A (zh) * 2012-03-31 2012-09-19 上海海洋大学 一种基于时间序列分析的风暴潮灾害预警系统
CN103778439A (zh) * 2014-01-23 2014-05-07 电子科技大学 基于动态时空信息挖掘的人体轮廓重构方法
CN107133478A (zh) * 2017-05-10 2017-09-05 南京航空航天大学 一种高速增量式航空发动机异常检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095132A1 (en) * 2012-10-01 2014-04-03 Ford Global Technologies, Llc System and method for rating computer model relative to empirical results for dynamic systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007058001A1 (ja) * 2005-11-17 2007-05-24 Kochi University 易動度の正規化装置、正規化方法、正規化プログラムおよび自己組織化マップ、並びに、物質の検出方法、検出プログラム、検出ルール生成方法およびデータ構造
CN102033936A (zh) * 2010-12-20 2011-04-27 天津大学 一种用于时间序列相似性比较的方法
CN102682573A (zh) * 2012-03-31 2012-09-19 上海海洋大学 一种基于时间序列分析的风暴潮灾害预警系统
CN103778439A (zh) * 2014-01-23 2014-05-07 电子科技大学 基于动态时空信息挖掘的人体轮廓重构方法
CN107133478A (zh) * 2017-05-10 2017-09-05 南京航空航天大学 一种高速增量式航空发动机异常检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Downsampling of Time-series Data for Approximated Dynamic Time Warping on Nonvolatile Memories;Xingni Li 等;《2017 IEEE 6th Non-Volatile Memory Systems and Applications Symposium》;20171012;第1-6页 *
Similarity measure based on piecewise linear approximation and derivative dynamic time warping for time series mining;Hailin Li 等;《Expert Systems with Applications》;20110530;第38卷(第12期);第14732-14743页 *
Similarity measure for time series based on piecewise linear approximation;Guiling Li 等;《2009 International Conference on Wireless Communications & Processing》;20091231;第1-4页 *
基于斜率表示的时间序列相似性度量方法;张建业 等;《模式识别与人工智能》;20070430;第271-274页 *

Also Published As

Publication number Publication date
CN107871140A (zh) 2018-04-03

Similar Documents

Publication Publication Date Title
CN111291824B (zh) 时间序列的处理方法、装置、电子设备和计算机可读介质
CN107871140B (zh) 一种基于斜率弹性相似性度量方法
CN113670616B (zh) 一种轴承性能退化状态检测方法及系统
CN113128582A (zh) 一种基于Matrix Profile的时间序列变长模体挖掘方法
CN115796378A (zh) 一种基于分段线性近似的用户负荷曲线相似性度量方法
CN109034179B (zh) 一种基于马氏距离idtw的岩层分类方法
CN111260776A (zh) 一种自适应正态分析的三维形貌重建方法
CN112329654B (zh) 基于多流形学习算法的高光谱影像数据分类方法及系统
CN108507607B (zh) 一种基于核函数的微弱信号检测方法
CN102622517A (zh) 一种识别水文时间序列周期的方法
Sloboda Boundary transformation representation of attractor shape deformation
US20140355885A1 (en) Retrieving apparatus, retrieving method, and computer program product
CN110990383A (zh) 一种基于工业大数据集的相似度计算方法
CN103093461B (zh) 一种基于度量信息的形状匹配方法
CN113705335B (zh) 一种低频稀疏线谱信号时频超分辨率提取方法
CN104751459A (zh) 多维特征的相似性度量优化方法及图像匹配方法
CN106952211B (zh) 基于特征点投影的紧凑型图像哈希方法
CN114859404B (zh) 超采样地震波形匹配方法及装置
CN115310041A (zh) 一种基于dtw算法解读时间序列局部特征的方法
Wan et al. Hydrological time series anomaly mining based on symbolization and distance measure
Taktak et al. SAX-based representation with longest common subsequence dissimilarity measure for time series data classification
Yang et al. Similarity Search Method of Hydrological Time Series based on Fragment Alignment Distance and Dynamic Time Warping
Raju et al. Texture classification with high order local pattern descriptor: local derivative pattern
CN106777913A (zh) 一种近似熵和样本熵共同最优参数m、r确定的新方法
CN111785296B (zh) 基于重复旋律的音乐分段边界识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant