CN105046203A - 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法 - Google Patents

基于夹角dtw距离的卫星遥测数据自适应层次聚类方法 Download PDF

Info

Publication number
CN105046203A
CN105046203A CN201510351183.6A CN201510351183A CN105046203A CN 105046203 A CN105046203 A CN 105046203A CN 201510351183 A CN201510351183 A CN 201510351183A CN 105046203 A CN105046203 A CN 105046203A
Authority
CN
China
Prior art keywords
prime
class
angle
distance
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510351183.6A
Other languages
English (en)
Other versions
CN105046203B (zh
Inventor
刘大同
彭宇
陈静
张玉杰
彭喜元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN201510351183.6A priority Critical patent/CN105046203B/zh
Publication of CN105046203A publication Critical patent/CN105046203A/zh
Application granted granted Critical
Publication of CN105046203B publication Critical patent/CN105046203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments
    • G06F2218/18Classification; Matching by matching signal segments by plotting the signal segments against each other, e.g. analysing scattergrams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Image Analysis (AREA)

Abstract

基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,属于卫星遥测数据挖掘领域。传统的欧式距离存在不适用于卫星遥测数据分段后的时间序列的相似性度量和传统的层次聚类方法存在需要人工设定聚类数目的问题。一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,根据卫星遥测数据的周期特性对卫星遥测数据进行分段,分段后得到的子序列之间存在微小偏差特点;采用能够实现异步度量的动态时间规整DTW距离对卫星遥测数据时间序列转换得到的夹角序列进行度量;结合自适应层次聚类算法对卫星遥测数据历史数据进行聚类,得到最佳聚类数目,并完成聚类。本发明在度量结果能够有效反映时间序列变化趋势的基础之上实现了卫星遥测数据的自适应聚类。

Description

基于夹角DTW距离的卫星遥测数据自适应层次聚类方法
技术领域
本发明涉及一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法。
背景技术
聚类功能是数据挖掘领域中一项重要的基本功能,在聚类的基础之上可以完成多种数据挖掘任务,比如异常检测、模式挖掘等等。同时,由于卫星遥测数据有其自身特点,比如:参数多、维度高、存在漂移等,这些特点致使在针对卫星遥测数据的数据挖掘工作中需要应用更为合理的时间序列相似性度量方法。针对一些复杂或者特点不尽相同的卫星遥测数据,选取适当的时间序列相似性度量方法,可以确保相应的模式挖掘取得更为良好的效果。
卫星遥测数据分段后的序列是典型的时间序列具有动态变化、存在微小偏差的特点,而传统的欧式距离是以点距离为基础的,而点距离只能度量时间序列的静态特性,无法有效体现时间序列的动态特性,同时,针对存在偏差的时间序列需要采用能够实现异步度量的度量方法,欧式距离同样无法实现,故传统的欧式距离不适用于卫星遥测数据分段后的时间序列的相似性度量。
另一方面,传统的层次聚类方法存在需要人工设定聚类数目的缺陷,若聚类数目设定不当将会使得聚类结果不够理想。
发明内容
本发明的目的是为了解决传统的欧式距离存在不适用于卫星遥测数据分段后的时间序列的相似性度量和传统的层次聚类方法存在需要人工设定聚类数目的问题,而提出一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法。
一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,所述聚类方法通过以下步骤实现:
步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的原始时间序列X0={x01,x02,…,x0n};其中,n为大于0的正整数,表示时间序列数目;
步骤二、依据原始时间序列的特征,引入时间变量,对无类别标签的原始时间序列重新进行表示,得到基于数值与时间表示的时间序列集合X={X1,X2,…,Xn};其中,
Xi={(xi1,ti1),(xi2,ti2),…,(xim,tim)},表示用数值与时间表示的时间序列集合X中的第i个序列,i=1,2,…,n,m表示时间序列长度;
步骤三、在数值与时间表示的时间序列集合X基础上,用相邻线段间的夹角构成的角度序列近似表示X0,得到角度表示的序列集合X′={X1′,X2′,…,Xn′};其中,
Xi′={αi1′,αi2′,…,αi(m-2)′},表示角度表示的序列集合X′中的第i个序列;
步骤四、将角度表示的序列集合X′中的序列成员X′i、X′j作为计算序列成员之间夹角DTW距离的输入,得到序列成员之间夹角DTW距离dij=DTWia(X′i,X′j),遍历所有成员,从而得到由所有的序列成员之间的夹角DTW距离构成的n×n距离矩阵其中j=1,2,…,n;
步骤五、将每个无类别标签的角度表示的序列集合X′的成员归为一个类,共得到n个类,每个类仅包含一个对象,类与类之间的距离就是序列成员之间的夹角DTW距离,并令RJ(n)=0以保证不会将类别数为n的情况视为最佳聚类数目,RJ为类间类内距离比值序列,用于评估聚类质量,RJ序列长度为n,RJ(n)表示RJ中的第n个元素;
步骤六、将夹角DTW距离最小的两个类作为最接近的两个类进行合并,形成一个新类,则类的总数减少一个,此时类别数目为j',计算加权类间夹角DTW距离与加权类内夹角DTW距离之间的比值,即类间类内距离比RJ(j');
步骤七、将步骤六中未合并的类作为旧类,重新计算新类与所有旧类之间的夹角DTW距离,更新距离矩阵;
步骤八、重复步骤六和步骤七的过程,对所有可能的类别都遍历一遍直到合并成一个类别为止,并令RJ(1)=0以避免将类别数为1的情况视为最佳聚类数目;
步骤九、获取RJ序列中前半段序列的最大值RJ(c);其中,最大值RJ(c)对应的c即为最佳的聚类数目,并获得对应c类的角度表示的序列集合X′聚类后类别标签L={l1,l2,…,ln},完成自适应层次聚类过程。
本发明的有益效果为:
本文根据卫星遥测数据的周期特性对卫星遥测数据进行分段,分段后得到的子序列具有存在微小偏差的特点;再采用能够实现异步度量的动态时间规整(DynamicTimeWarping,DTW)距离对卫星遥测数据时间序列转换后得到的夹角序列进行度量,结合自适应层次聚类算法对卫星遥测数据历史数据进行聚类,得到卫星正常运行模式。各部分的具体发明效果如下:
首先,采用夹角DTW距离对卫星遥测数据分段后的时间序列之间的距离进行度量,能有效体现时间序列的动态特性同时实现异步度量,解决了由于时间序列存在微小偏移而使度量结果不够确的问题。
其次,针对层次聚类需要人工设定聚类数目的问题,提出了一种以类间类内距离比值为评价标准的自适应层次聚类方法,使层次聚类算法能够自动确定最优类别数目,避免了由于人工设定聚类数目不当的情况导致的聚类结果以及异常检测结果不够理想的问题。
附图说明
图1为本发明基于夹角DTW距离的卫星遥测数据自适应层次聚类方法的流程框图;
图2为选择FaceUCR数据集对公开数据集进行验证的结果;
图3为选择SonyAIBORobotSurface数据集对公开数据集进行验证的结果;
图4为选择fish数据集对公开数据集进行验证的结果;
图5为选择TwoLeadECG数据集对公开数据集进行验证的结果;
图6为进行自适应层次聚类方法的有效性验证仿真数据;
图7为对仿真数据采用自适应层次聚类的处理结果的聚类质量曲线;
图8为仿真数据进行聚类的聚类结果;
图9为针对卫星遥测数据开展基于夹角DTW距离的自适应层次聚类方法应用实验数据示例;
图10为采用基于夹角DTW距离的自适应层次聚类方法将飞轮转速D测试参量的20个时间序列识别为两类的示意。
具体实施方式
具体实施方式一:
本实施方式的一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,如图1所示的流程图,所述聚类方法通过以下步骤实现:
步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的原始时间序列X0={x01,x02,…,x0n};其中,n为大于0的正整数,表示时间序列数目;
步骤二、依据原始时间序列的特征,引入时间变量,对无类别标签的原始时间序列重新进行表示,得到基于数值与时间表示的时间序列集合X={X1,X2,…,Xn};其中,
Xi={(xi1,ti1),(xi2,ti2),…,(xim,tim)},表示用数值与时间表示的时间序列集合X中的第i个序列,i=1,2,…,n,m表示时间序列长度;
步骤三、在数值与时间表示的时间序列集合X基础上,用相邻线段间的夹角构成的角度序列近似表示X0,得到角度表示的序列集合X′={X1′,X2′,…,Xn′};其中,
Xi′={αi1′,αi2′,…,αi(m-2)′},表示角度表示的序列集合X′中的第i个序列;
步骤四、将角度表示的序列集合X′中的序列成员X′i、X′j作为计算序列成员之间夹角DTW距离的输入,得到序列成员之间夹角DTW距离dij=DTWia(X′i,X′j),遍历所有成员,从而得到由所有的序列成员之间的夹角DTW距离构成的n×n距离矩阵其中j=1,2,…,n;
步骤五、将每个无类别标签的角度表示的序列集合X′的成员归为一个类,共得到n个类,每个类仅包含一个对象,类与类之间的距离就是序列成员之间的夹角DTW距离,并令RJ(n)=0以保证不会将类别数为n的情况视为最佳聚类数目,RJ为类间类内距离比值序列,用于评估聚类质量,RJ序列长度为n,RJ(n)表示RJ中的第n个元素;
步骤六、将夹角DTW距离最小的两个类作为最接近的两个类进行合并,形成一个新类,则类的总数减少一个,此时类别数目为j',计算加权类间夹角DTW距离与加权类内夹角DTW距离之间的比值,即类间类内距离比RJ(j');
步骤七、将步骤六中未合并的类作为旧类,重新计算新类与所有旧类之间的夹角DTW距离,更新距离矩阵;
步骤八、重复步骤六和步骤七的过程,对所有可能的类别都遍历一遍直到合并成一个类别为止,并令RJ(1)=0以避免将类别数为1的情况视为最佳聚类数目;
步骤九、不考虑RJ序列后半段序列,获取RJ序列中前半段序列的最大值RJ(c);其中,最大值RJ(c)对应的c即为最佳的聚类数目,并获得对应c类的角度表示的序列集合X′聚类后类别标签L={l1,l2,…,ln},完成自适应层次聚类过程。
具体实施方式二:
与具体实施方式一不同的是,本实施方式的基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,步骤四所述计算序列成员之间夹角DTW距离的过程为,DTW是一种通过弯曲时间轴来更好地对时间序列形态进行匹配映射的相似性度量方法。它最早被应用于处理语音数据,后来被Berndt和Clifford用来进行时间序列相似性的度量。从此,DTW在时间序列数据挖掘领域中得到广泛的应用。DTW在两条时间序列X′i和X′j之间寻找最优弯曲路径来得到最小距离度量值。采用夹角距离进行时间序列的相似性度量,能够有效反应时间序列的动态变化特性。但是,若需要度量的时间序列在时间刻度上产生微小偏移,或者在时间长度上进行一定的拓展,则夹角距离的度量效果将会有很大程度的降低,同时,传统的夹角距离计算方式不能度量不等长角度序列之间相似性。针对上述问题,此部分将DTW思想应用到夹角距离中,得到夹角DTW距离,可以有效解决上述问题,表示为DTWia(X′i,X′j),即将通过弯曲时间轴对时间序列形态进行匹配映射的相似性度量方法DTW应用到夹角距离中,得到夹角DTW距离,表示为DTWia(X′i,X′j),以度量不等长角度序列之间相似性,具体为:在步骤三获得的角度表示的序列集合X′={X1′,X2′,…,Xn′}中,选取两个序列成员Xi′={αi1′,αi2′,…,αin′}和Xj′={αj1′,αj2′,…,αjn′}作为计算序列成员之间夹角DTW距离的输入,即在X′i和X′j之间寻找最优弯曲路径以得到最小夹角距离度量值:
步骤四一、采用夹角距离计算公式:计算得到α'ii'k与αjj'k的弯曲代价d(pk),即为X′i中α'ii'k与X′j中αjj'k之间的弯曲代价;
步骤四二、在步骤四一得到弯曲路径中,寻找最优路径使得其弯曲总代价最小,即得到夹角DTW距离求解公式:其中,P表示弯曲路径且P={p1,p2,…,pK};pk表示弯曲路径P中的第k个成员,并用来表示X′i中的第i'个元素α'ii'k与X′j中的第j'个元素αjj'k之间的对应关系,k=1,2,…,K,K=(m-2)2,i'=1,2,…,m-2,j'=1,2,…,m-2,d(pk)表示α'ii'k与αjj'k的弯曲代价。
具体实施方式三:
与具体实施方式一或二不同的是,本实施方式的基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,步骤六所述类别数目为j',计算加权类间夹角DTW距离与加权类内夹角DTW距离之间的比值,即类间类内距离比RJ(j')的过程为,由于误差平方和准则中涉及到聚类中心的计算,并且不能通过其他途径代替这一过程,因此不适用于采用了不满足三角不等式的相似性度量方法的自适应聚类情况;加权平均平方距离和准则评价类内距离,其值越小表示聚类质量越高;加权类间距离和准则评价类间距离,其值越大表示聚类质量越高,并且其中求均值的过程可以被其他方式代替,因此,综合加权平均平方距离和准则与加权类间距离和准则构建聚类准则函数,计算类间类内距离比RJ(j'),将类间类内距离比值达到最大时的类别数目作为自适应聚类方法的最佳聚类数目估计,设加权类内距离为加权类间距离为则相关定义如下: J b * = Σ j ′ ′ = 1 j ′ p j ′ ′ · S j ′ ′ * J b * = Σ j ′ ′ = 1 j ′ Σ i ′ ′ = j ′ ′ + 1 j ′ q i ′ ′ j ′ ′ · T i ′ ′ j ′ ′ * R J ( j ′ ) = J c * J b * ; 其中,为第j”类的类内距离均值, S j ′ ′ * = 2 n j ′ ′ ( n j ′ ′ - 1 ) Σ x j ′ ′ k ′ ∈ X j ′ ′ Σ x j ′ ′ t ∈ X j ′ ′ d i s t ( x j ′ ′ k ′ , x j ′ ′ t ) , n j ′ ′ > 1 min ( S * ) , n j ′ ′ = 1 ; p j ′ ′ = n j ′ ′ n ;
为第i”类与第j”类的类间距离均值, T i ′ ′ j ′ ′ * = 1 n i ′ ′ · n j ′ ′ Σ t ′ = 1 n i ′ ′ Σ k ′ ′ = 1 n j ′ ′ d i s t ( x i ′ ′ t ′ , x j ′ ′ k ′ ′ ) ;
式中,xj”t为第j”类Xj”中的第t个序列,t=1,2,…,nj”,dist表示计算两序列之间的夹角DTW距离,pj”为第j”类的类内距离权重,qi”j”为第i”类与第j”类的类间距离权重,j”=1,2,…,j',i”=1,2,…,j',xj”k'为第j'类Xj'中的第k'个序列,k'=1,2,…,nj”,xj”k”为第j”类Xj”中的第k”个序列,k”=1,2,…,nj”,nj”为第j”类的成员数目,xi”t'为第i”类Xi”中的第t'个序列t'=1,2,…,ni”,ni”为第i”类的成员数目,Xj”为第j”类的夹角时间序列集合S*为类内距离均值序列,Xi”为第i”类的夹角时间序列集合采用了类间类内距离比值的自适应聚类函数,同时考虑各类别的类间距离和类内距离,是一种更适宜的聚类准则函数。
具体实施方式四:
与具体实施方式二不同的是,本实施方式的基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,步骤四二所述通过求解:得到最小弯曲代价的过程为,求解通过动态规划来构造一个代价矩阵R(i”',j”'),即:
R(i',j')=d(i”',j”')+min{R(i”',j”'-1),R(i”'-1,j”'-1),R(i”'-1,j”')};
其中,R(0,0)=0,R(i”',0)=R(0,j”')=+∞;R(m-2,m-2)是相似性度量方法DTW度量时间序列X′i和X′j的最小距离值x即得到DTWia(X'i,X'j)=R(m-2,m-2)。。
且具体实现算法伪码的过程为:
将时间序列X′i、X′j作为输入,将DTW距离dij作为输出,
(1)Fori'=1tom-2
(2)Forj'=i'-m+2toi'+m-2
(3)dij=DTWia(X′i,X′j)//计算X′i和X′j之间的夹角DTW距离
(4)R(i',j')=d(i',j')+min{R(i',j'-1),R(i'-1,j'-1),R(i'-1,j')};//计算两个时间序列对象之间的代价矩阵
(5)Nextj'
(6)Nexti'
(7)dij=R(m-2,m-2)//获得DTW距离。
实施例:
基于夹角DTW距离的卫星遥测数据自适应层次聚类方法通过以下步骤实现:
步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的原始时间序列X0={x01,x02,…,x0n};其中,n为大于0的正整数,表示时间序列数目;
步骤二、依据原始时间序列的特征,引入时间变量,对无类别标签的原始时间序列重新进行表示,得到基于数值与时间表示的时间序列集合X={X1,X2,…,Xn};其中,
Xi={(xi1,ti1),(xi2,ti2),…,(xim,tim)},表示用数值与时间表示的时间序列集合X中的第i个序列,i=1,2,…,n,m表示时间序列长度;
步骤三、在数值与时间表示的时间序列集合X基础上,用相邻线段间的夹角构成的角度序列近似表示X0,得到角度表示的序列集合X′={X1′,X2′,…,Xn′};其中,
Xi′={αi1′,αi2′,…,αi(m-2)′},表示角度表示的序列集合X′中的第i个序列;
步骤四、将角度表示的序列集合X′中的序列成员X′i、X′j作为计算序列成员之间夹角DTW距离的输入,得到序列成员之间夹角DTW距离dij=DTWia(X′i,X′j),遍历所有成员,从而得到由所有的序列成员之间的夹角DTW距离构成的n×n距离矩阵其中j=1,2,…,n;
步骤五、将每个无类别标签的角度表示的序列集合X′的成员归为一个类,共得到n个类,每个类仅包含一个对象,类与类之间的距离就是序列成员之间的夹角DTW距离,并令RJ(n)=0以保证不会将类别数为n的情况视为最佳聚类数目,RJ为类间类内距离比值序列,用于评估聚类质量,RJ序列长度为n,RJ(n)表示RJ中的第n个元素;
步骤六、将夹角DTW距离最小的两个类作为最接近的两个类进行合并,形成一个新类,则类的总数减少一个,此时类别数目为j',计算加权类间夹角DTW距离与加权类内夹角DTW距离之间的比值,即类间类内距离比RJ(j');
步骤七、将步骤六中未合并的类作为旧类,重新计算新类与所有旧类之间的夹角DTW距离,更新距离矩阵;
步骤八、重复步骤六和步骤七的过程,对所有可能的类别都遍历一遍直到合并成一个类别为止,并令RJ(1)=0以避免将类别数为1的情况视为最佳聚类数目;
步骤九、获取RJ序列中前半段序列的最大值RJ(c);其中,最大值RJ(c)对应的c即为最佳的聚类数目,并获得对应c类的角度表示的序列集合X′聚类后类别标签L={l1,l2,…,ln},完成自适应层次聚类过程。
传统的欧式距离对于时间序列的相似性度量和本发明对时间序列的相似性度量的对比仿真实验分别为,
实验一:验证夹角DTW距离的度量准确率
针对公开数据集进行验证,选择FacesUCR、SonyAIBORobotSurface、fish、TwoLeadECG四个数据集进行验证,其中,FaceUCR示例如图2所示,SonyAIBORobotSurface示例如图3所示,fish示例如图4所示,TwoLeadECG示例如图5所示。验证结果如表1,根据实验结果发现,采用夹角DTW距离的度量准确率相比于欧式距离而言,分别提升了5.07%、2.88%、19.70%、26.92%。
表1夹角DTW距离的准确率提升百分比
实验二:验证自适应层次聚类方法的有效性
对自适应层次聚类的验证采用仿真实验完成。仿真数据如图6所示,共200个数据点,对其采用自适应层次聚类的处理结果为:聚类质量曲线如图7所示,可知当类别数为4时,聚类质量最好,因此将仿真数据聚类为4类,聚类结果如图8所示,其中不同形状表示所属不同类别。由处理结果图8对比原始数据图6可知自适应层次聚类有效可行。
实验三:基于夹角DTW距离的自适应层次聚类方法应用于卫星遥测数据针对卫星遥测数据开展基于夹角DTW距离的自适应层次聚类方法应用实验,选取卫星遥测数据中的飞轮转速D测试参量的20个时间序列作为实验数据,其数据示例如图9所示。实验结果如图10所示,由实验结果可知,基于夹角DTW距离的自适应层次聚类方法将飞轮转速D测试参量的20个时间序列识别为两类,各类别的数据内容如图10中的类别1和类别2所示。

Claims (4)

1.一种基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,其特征在于:所述聚类方法通过以下步骤实现:
步骤一、根据卫星遥测数据的周期特性对卫星遥测历史数据进行分段,得到无类别标签的原始时间序列X0={x01,x02,…,x0n};其中,n为大于0的正整数,表示时间序列数目;
步骤二、依据原始时间序列的特征,引入时间变量,对无类别标签的原始时间序列重新进行表示,得到基于数值与时间表示的时间序列集合X={X1,X2,…,Xn};其中,
Xi={(xi1,ti1),(xi2,ti2),…,(xim,tim)},表示用数值与时间表示的时间序列集合X中的第i个序列,i=1,2,…,n,m表示时间序列长度;
步骤三、在数值与时间表示的时间序列集合X基础上,用相邻线段间的夹角构成的角度序列近似表示X0,得到角度表示的序列集合X′={X1′,X2′,…,Xn′};其中,
Xi′={αi1′,αi2′,…,αi(m-2)′},表示角度表示的序列集合X′中的第i个序列;
步骤四、将角度表示的序列集合X′中的序列成员X′i、X′j作为计算序列成员之间夹角DTW距离的输入,得到序列成员之间夹角DTW距离dij=DTWia(X′i,X′j),遍历所有成员,从而得到由所有的序列成员之间的夹角DTW距离构成的n×n距离矩阵其中j=1,2,…,n;
步骤五、将每个无类别标签的角度表示的序列集合X′的成员归为一个类,共得到n个类,每个类仅包含一个对象,类与类之间的距离就是序列成员之间的夹角DTW距离,并令RJ(n)=0以保证不会将类别数为n的情况视为最佳聚类数目,RJ为类间类内距离比值序列,用于评估聚类质量,RJ序列长度为n,RJ(n)表示RJ中的第n个元素;
步骤六、将夹角DTW距离最小的两个类作为最接近的两个类进行合并,形成一个新类,则类的总数减少一个,此时类别数目为j',计算加权类间夹角DTW距离与加权类内夹角DTW距离之间的比值,即类间类内距离比RJ(j');
步骤七、将步骤六中未合并的类作为旧类,重新计算新类与所有旧类之间的夹角DTW距离,更新距离矩阵;
步骤八、重复步骤六和步骤七的过程,对所有可能的类别都遍历一遍直到合并成一个类别为止,并令RJ(1)=0以避免将类别数为1的情况视为最佳聚类数目;
步骤九、获取RJ序列中前半段序列的最大值RJ(c);其中,最大值RJ(c)对应的c即为最佳的聚类数目,并获得对应c类的角度表示的序列集合X′聚类后类别标签L={l1,l2,…,ln},完成自适应层次聚类过程。
2.根据权利要求1所述基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,其特征在于:步骤四所述计算序列成员之间夹角DTW距离的过程为,在步骤三获得的角度表示的序列集合X′={X1′,X2′,…,Xn′}中,选取两个序列成员Xi′={αi1′,αi2′,…,αin′}和Xj′={αj1′,αj2′,…,αjn′}作为计算序列成员之间夹角DTW距离的输入,即在X′i和X′j之间寻找最优弯曲路径以得到最小夹角距离度量值:
步骤四一、采用夹角距离计算公式:计算得到α'ii'k与αjj'k的弯曲代价d(pk),即为X′i中α'ii'k与X′j中αjj'k之间的弯曲代价;
步骤四二、在步骤四一得到弯曲路径中,寻找最优路径使得其弯曲总代价最小,即得到夹角DTW距离求解公式:其中,P表示弯曲路径且P={p1,p2,…,pK};pk表示弯曲路径P中的第k个成员,并用来表示X′i中的第i'个元素α'ii'k与X′j中的第j'个元素αjj'k之间的对应关系,k=1,2,…,K,K=(m-2)2,i'=1,2,…,m-2,j'=1,2,…,m-2,d(pk)表示α'ii'k与αjj'k的弯曲代价。
3.根据权利要求1或2所述基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,其特征在于:步骤六所述类别数目为j',计算加权类间夹角DTW距离与加权类内夹角DTW距离之间的比值,即类间类内距离比RJ(j')的过程为,综合加权平均平方距离和准则与加权类间距离和准则构建聚类准则函数,计算类间类内距离比RJ(j'),将类间类内距离比值达到最大时的类别数目作为自适应聚类方法的最佳聚类数目估计,设加权类内距离为加权类间距离为则相关定义如下:
{ J b * = Σ j ′ ′ = 1 j ′ p j ′ ′ · S j ′ ′ * J b * = Σ j ′ ′ = 1 j ′ Σ i ′ ′ = j ′ ′ + 1 j ′ q i ′ ′ j ′ ′ · T i ′ ′ j ′ ′ * R J ( j ′ ) = J c * J b * ; 其中,
为第j”类的类内距离均值 S j ′ ′ * = 2 n j ′ ′ ( n j ′ ′ - 1 ) Σ x j ′ ′ k ′ ∈ X j ′ ′ Σ x j ′ ′ t ∈ X j ′ ′ d i s t ( x j ′ ′ k ′ , x j ′ ′ t ) , n j ′ ′ > 1 min ( S * ) , n j ′ ′ = 1 ;
p j ′ ′ = n j ′ ′ n ;
为第i”类与第j”类的类间距离均值, T i ′ ′ j ′ ′ * = 1 n i ′ ′ · n j ′ ′ Σ t ′ = 1 n i ′ ′ Σ k ′ ′ = 1 n j ′ ′ d i s t ( x i ′ ′ t ′ , x j ′ ′ k ′ ′ ) ;
式中,xj”t为第j”类Xj”中的第t个序列,t=1,2,…,nj”,dist表示计算两序列之间的夹角DTW距离,pj”为第j”类的类内距离权重,qi”j”为第i”类与第j”类的类间距离权重,j”=1,2,…,j',i”=1,2,…,j',xj”k'为第j'类Xj'中的第k'个序列,k'=1,2,…,nj”,xj”k”为第j”类Xj”中的第k”个序列,k”=1,2,…,nj”,nj”为第j”类的成员数目,xi”t'为第i”类Xi”中的第t'个序列t'=1,2,…,ni”,ni”为第i”类的成员数目,Xj”为第j”类的夹角时间序列集合S*为类内距离均值序列,Xi”为第i”类的夹角时间序列集合 X i ′ ′ = { x i ′ ′ 1 , x i ′ ′ 2 , ... , x i ′ ′ n i ′ ′ } .
4.根据权利要求2所述基于夹角DTW距离的卫星遥测数据自适应层次聚类方法,其特征在于:步骤四二所述通过求解:得到最小弯曲代价的过程为,求解通过动态规划来构造一个代价矩阵R(i″′,j″′),即:
R(i',j')=d(i″′,j″′)+min{R(i″′,j″′-1),R(i″′-1,j″′-1),R(i″′-1,j″′)};
其中,R(0,0)=0,R(i″′,0)=R(0,j″′)=+∞;R(m-2,m-2)是相似性度量方法DTW度量时间序列X′j和X′j的最小距离值,即得到DTWia(X'i,X'j)=R(m-2,m-2)。
CN201510351183.6A 2015-06-24 2015-06-24 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法 Active CN105046203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510351183.6A CN105046203B (zh) 2015-06-24 2015-06-24 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510351183.6A CN105046203B (zh) 2015-06-24 2015-06-24 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法

Publications (2)

Publication Number Publication Date
CN105046203A true CN105046203A (zh) 2015-11-11
CN105046203B CN105046203B (zh) 2018-03-30

Family

ID=54452732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510351183.6A Active CN105046203B (zh) 2015-06-24 2015-06-24 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法

Country Status (1)

Country Link
CN (1) CN105046203B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709509A (zh) * 2016-11-30 2017-05-24 哈尔滨工业大学 一种基于时间序列特殊点的卫星遥测数据聚类方法
CN109522852A (zh) * 2018-11-22 2019-03-26 中国科学院长春光学精密机械与物理研究所 基于光学遥感影像的人造目标检测方法、装置及设备
CN110135642A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于dtw距离的交通流量序列相似性度量方法
CN111751671A (zh) * 2020-06-29 2020-10-09 三峡大学 基于vmd-dtw聚类的小电流接地系统故障选线方法
CN116168350A (zh) * 2023-04-26 2023-05-26 四川路桥华东建设有限责任公司 基于物联网实现施工人员违规行为的智能监测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1486882A2 (en) * 2003-06-13 2004-12-15 Nec Corporation Change-point detection
CN103400152A (zh) * 2013-08-20 2013-11-20 哈尔滨工业大学 基于分层聚类的滑动窗口多数据流异常检测方法
CN103577562A (zh) * 2013-10-24 2014-02-12 河海大学 一种多度量时间序列相似分析方法
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1486882A2 (en) * 2003-06-13 2004-12-15 Nec Corporation Change-point detection
CN103400152A (zh) * 2013-08-20 2013-11-20 哈尔滨工业大学 基于分层聚类的滑动窗口多数据流异常检测方法
CN103577562A (zh) * 2013-10-24 2014-02-12 河海大学 一种多度量时间序列相似分析方法
CN104462217A (zh) * 2014-11-09 2015-03-25 浙江大学 一种基于分段统计近似表示的时间序列相似性度量方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
DING H等: "Querying and mining of time series data:experimental comparison of representations and distance measures", 《PROCESSING OF THE VLDB ENDOWMENT》 *
WAND X等: "Experimental comparison of representation methods and distance measures for time series data", 《DATA MINING AND KNOWLEDGE DISCOVERY》 *
张鹏等: "时间序列的夹角距离及相似性搜索", 《模式识别与人工智能》 *
肖瑞等: "基于趋势的时间序列相似性度量和聚类研究", 《计算机应用研究》 *
陈湘涛等: "基于时间序列相似性聚类的应用研究综述", 《计算机工程与设计》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709509A (zh) * 2016-11-30 2017-05-24 哈尔滨工业大学 一种基于时间序列特殊点的卫星遥测数据聚类方法
CN106709509B (zh) * 2016-11-30 2021-05-28 哈尔滨工业大学 一种基于时间序列特殊点的卫星遥测数据聚类方法
CN109522852A (zh) * 2018-11-22 2019-03-26 中国科学院长春光学精密机械与物理研究所 基于光学遥感影像的人造目标检测方法、装置及设备
CN110135642A (zh) * 2019-05-17 2019-08-16 东南大学 一种基于dtw距离的交通流量序列相似性度量方法
CN110135642B (zh) * 2019-05-17 2022-12-20 东南大学 一种基于dtw距离的交通流量序列相似性度量方法
CN111751671A (zh) * 2020-06-29 2020-10-09 三峡大学 基于vmd-dtw聚类的小电流接地系统故障选线方法
CN116168350A (zh) * 2023-04-26 2023-05-26 四川路桥华东建设有限责任公司 基于物联网实现施工人员违规行为的智能监测方法及装置
CN116168350B (zh) * 2023-04-26 2023-06-27 四川路桥华东建设有限责任公司 基于物联网实现施工人员违规行为的智能监测方法及装置

Also Published As

Publication number Publication date
CN105046203B (zh) 2018-03-30

Similar Documents

Publication Publication Date Title
CN105046203A (zh) 基于夹角dtw距离的卫星遥测数据自适应层次聚类方法
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN107463993B (zh) 基于互信息-核主成分分析-Elman网络的中长期径流预报方法
CN107590565A (zh) 一种构建建筑能耗预测模型的方法及装置
CN110555230B (zh) 基于集成gmdh框架的旋转机械剩余寿命预测方法
CN111400371A (zh) 一种基于电压相关性校验的户变关系识别方法
CN104899327A (zh) 一种无类别标签的时间序列异常检测方法
CN103324798B (zh) 基于区间响应面模型的随机模型修正方法
CN109490072B (zh) 一种土木工程建筑用检测系统及其检测方法
CN113297787A (zh) 一种基于迁移学习的航空发动机剩余寿命预测方法
CN114358427B (zh) 一种预测页岩气井最终可采储量的方法
CN110502277A (zh) 一种基于bp神经网络的代码坏味检测方法
CN104035431A (zh) 用于非线性过程监控的核函数参数的获取方法和系统
CN112948932A (zh) 一种基于TSP预报数据与XGBoost算法的围岩等级预测方法
CN106568647B (zh) 一种基于神经网络的混凝土强度预测方法
CN105678417A (zh) 一种施工隧道撑子面涌水量预测方法及装置
CN110096805A (zh) 一种有限观测数据下基于改进自助法的结构参数不确定性量化及传递方法
CN114358434A (zh) 基于lstm循环神经网络模型的钻井机械钻速预测方法
CN103559542A (zh) 基于先验知识的可拓神经网络模式识别方法
CN104134013A (zh) 一种风力机叶片模态分析方法
CN116894180B (zh) 一种基于异构图注意力网络的产品制造质量预测方法
CN110705114B (zh) 一种无训练样本的通风故障诊断方法
CN110956330A (zh) 一种基于多维影响量对输电线路线损进行预测的方法及系统
CN110486009A (zh) 一种无限大地层的参数自动反求方法及系统
CN109101759A (zh) 一种基于正逆响应面法的参数识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant