CN103984844A - 一种不等长序列相似度度量算法 - Google Patents

一种不等长序列相似度度量算法 Download PDF

Info

Publication number
CN103984844A
CN103984844A CN201410112444.4A CN201410112444A CN103984844A CN 103984844 A CN103984844 A CN 103984844A CN 201410112444 A CN201410112444 A CN 201410112444A CN 103984844 A CN103984844 A CN 103984844A
Authority
CN
China
Prior art keywords
similarity
sequence
length
isometric
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410112444.4A
Other languages
English (en)
Inventor
关欣
孙贵东
宋瑞华
赵志勇
衣晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201410112444.4A priority Critical patent/CN103984844A/zh
Publication of CN103984844A publication Critical patent/CN103984844A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明针对不等长序列相似度度量问题,公开了一种不等长序列相似度度量算法。该算法通过构造滑动窗口遍历不等长序列,将长度较短的序列作为滑动窗口,沿长度较长的序列依次滑动一个单位长度直至遍历整个长度序列,计算每次遍历过程中所对应的等长序列相似度,形成滑动相似度,通过最优权向量加权组合各滑动区间相似度,得到不等长序列的相似度度量。该方法即减小了相似度误差,又实现相似度权重的自适应调节。

Description

一种不等长序列相似度度量算法
技术领域
本发明涉及数据融合算法,尤其涉及一种不等长序列的数据挖掘算法。 
背景技术
作为一种不确定性数据,序列数据是数据挖掘领域主要研究的对象,广泛存在于经济预测,医学研究,气象预报、网络安全和军事科学等领域。随着信息技术的飞速发展,数据量越来越大,蕴含的信息也越来越多,无疑进入了大数据时代。如何挖掘隐含在这些数据中有效的信息和知识,近年来得到了广泛的研究。序列数据是由很多数据点组成的高维数据,这些数据点的长度随着时间变化可能长度不一致,对这些长度不一致的序列数据进行挖掘是数据挖掘的关键问题。序列相似度度量方法是数据挖掘的重要过程和基本方法,相似度度量是衡量不同对象之间的相互关系的方法,关于不等长序列的相似度度量方法说法不一,在实际处理过程中也遇到了很多困难和挑战。 
当前解决不等长序列的相似度度量方法主要有离散傅里叶变换(discrete Fourier transform,DFT)、奇异值分解(singular value decomposition,SVD)、离散小波变换(discrete wavelet transform,DWT)、分段合计近似piecewise aggregate approximation,PAA)、动态时间弯曲dynamic time warping,DTW)、分段线性表示(piecewise linear representation,PLR)、分段多项式表示piecewise polynomial representation,PPR)等。这些方法从不同的观点来对不等长序列进行度量,但从根本上讲都是先对不等长数据进行变换,成为能够直接处理的等长度序列或某个变换域内的数据,再利用等长序列或变换域的某种相似度度量对不等长数据进行相似度度量。这类方法在对序列数据进行变换易引入变换误差,影响了序列间的相似度度量,从而降低数据关联的真实性。 
发明内容
针对不等长序列相似度度量现有技术存在的不足,本发明基于滑动窗口的最优匹配增权方法,公开了一种不等长序列相似度度量算法。该算法利用比较序列或参考序列中短序列作为滑动窗口,沿长序列依次滑动一个单位长度直至遍历整个长度序列,滑动每个单位长度时利用等长序列的度量算法,计算其相似度,最后组合这些相似度得到不等长序列的相似度。在组合过程中,采用了一种最优匹配增权方法,即在窗口滑动过程中随着序列的匹配程度不同相似度也随之变化,如果将这些相似度简单地叠加组合得到相似度,就不能突出匹配的程度,所以最优匹配增权方法是指在组合相似度时增大相似度匹配程度大的权重,以达到突出 匹配效果的作用。 
本发明提出的一种基于滑动窗口的最优匹配增权法不等长序列相似度度量算法流程如图1所示。 
本发明主要包括以下技术措施。 
①发明的条件和序列的表示 
如果把一条序列看成是传感器对某个对象的一个特征描述,则由很多条序列组成一个序列组就可以看成是传感器对某个对象的多个特征描述。如果有多个传感器对对象进行特征描述,则会有很多个序列组,融合这些序列组对对象的特征描述,就可以得到多传感器对对象的特征判断,本发明正是想通过研究这些序列之间的关系来实现传感器对描述对象的特征判断。 
首先对长度为n的某条序列定义: 
Si=(Si1,Si2,…,Sii,…,Sin)   (1) 
其中,Sii表示第i条序列的第i的取值。则多条序列组成的某个序列组可以用序列矩阵的形式表示为: 
其中,表示第k个序列组中第i条序列的第j个取值,对应第k个传感器对描述对象的第i个特征的第j个量化描述取值。 
记长度为n的某条序列Si=(Si1,Si2,…,Sin)的长度为: 
length(Si)=n   (3) 
简记为|Si|,如果序列之间的长度不一样,则称这样的序列为不等长序列。比如序列Si=(Si1,Si2,…,Sia)、Sj=(Sj1,Sj2,…,Sjb),若a≠b,则length(Si)≠length(Sj)。 
②序列的相似度度量描述 
对于某两条序列Si和Sj,如果满足 
(1)ρ(Si,Sj)=ρ(Sj,Si
(2)若序列Si和Sj的长度及各元素取值相同,则ρ(Si,Sj)=1 
(3)ρ(Si,Si C)=0 
( 4 ) , ∀ S i ⊆ S j ⊆ S k , ρ ( S k , S i ) ≤ ρ ( S k , S j ) , ρ ( S k , S i ) ≤ ρ ( S i , S j ) ,
则称ρ(Si,Sj)为序列Si和Sj的序列相似度。 
本发明的目的是实现多传感器对描述对象的特征判断,所以就需要计算多传感器描述对象的序列矩阵与对象本身已有描述的序列矩阵之间的相似度,以某个传感器为例,即序列矩阵 
与对象本身已有描述的序列矩阵 
之间的相似度。其中,ST ij表示对象本身的第i个特征的第j个取值。要计算序列矩阵Sk和ST之间的相似度,通常从其中对应两条序列Sk i和ST i之间的相似度着手。 
等长序列向量的相似度度量方法已有的文献资料研究的较多,主要有基于p-范数和灰关联度等,可以按照已有方法直接求得。针对不等长序列的相似度度量方法,本发明在前人研究的基础上,改进了基于滑动窗口的不等长相似度度量算法,提出一种基于滑动窗口的最优匹配增权法不等长序列相似度度量算法。 
③基于滑动窗口的最优匹配增权法构建不等长序列相似度度量算法 
在本发明中,以短序列长度为滑动窗口大小,沿长序列依次滑动一个单位长度直至遍历整个长度序列,并分别利用等长序列的度量算法计算各滑动窗口区间的相似度,最后利用加权融合算法组合这些相似度,得到不等长序列的相似度。窗口滑动示意图如图2所示。 
不等长序列Sk i和ST j分别记为 
Sk i=(Sk i1,Sk i2,…,Sk ia)   (6) 
ST i=(ST i1,ST i2,…,ST ib)   (7) 
假设a<b,即不等长序列Sk i和ST i的长度length(Sk i)<length(ST i),则以序列Sk i的长度作为滑动窗口大小,按照图2所示示意图,从ST i序列的第一个序列点开始滑动,依次滑动一个单位长度直至遍历整个ST i序列。在每个滑动过程中,依次计算序列Sk i与ST i滑动区间内对应的等长度子序列STl i的相似度,子序列STl i和序列Sk i满足关系式:length(STi i)=length(Sk i)。 
关于序列间距离的表示方法有多种,如欧氏距离、马氏距离、海明距离、p-范数等。本发明仅以2-范数为例,计算序列Sk i与子序列STl i的距离。对于本领域内的普通技术人员而言,关于其它一些众所周知的序列距离度量方法,这里不再进行详细阐述。 
序列Sk i与子序列STl i的2-范数距离可表示为: 
D l ( S k i , S Tl i ) = ( Σ j = 1 length ( S k i ) ( S k ij - S Tl ij ) 2 ) 1 / 2 - - - ( 8 )
令 
Dlmax=max{Dl(Sk i,STl i),l=1,…,elngth(ST i)-length(Sk i)+1}  (9) 
则序列Sk i与子序列STl i之间的相似度Siml(Sk i,STl i)可以定义为 
Sim l ( S k i , S Tl i ) = 1 - D l ( S k i , S Tl i ) D l max - - - ( 10 )
则在整个滑动过程中,可以得到[length(ST i)-length(Sk i)+1]组滑动相似度,可表示为: 
Sim ( S k i , S Tl i ) = ( Sim 1 ( S k i , S T 1 i ) , . . . , Sim l ( S k i , S T ( length ( S T i ) - length ( S k i ) + 1 ) i ) ) - - - ( 11 )
在本发明,提出了一种最优匹配增权方法,组合各滑动区间的相似度,得到不等长度序列间的相似度。所谓最优匹配增权方法,是指在组合各滑动区间的相似度时,增大相似度匹配程度大的权重,以达到突出匹配效果的作用,以免各滑动区间的相似度简单地叠加组合,降低各滑动区间的匹配程度。 
在本发明所提出的最优匹配增权方法中,最优权向量wl定义为 
w l = Sim l ( S k i , S Tl i ) Σ 1 [ length ( S T i ) - length ( S k i ) + 1 ] Sim l ( S k i , S Tl i ) , l = 1,2 , . . . , [ length ( S T i ) - length ( S k i ) + 1 ] - - - ( 12 )
根据最优权向量,加权组合各滑动窗区间内的相似度,得到不等长序列Sk i与ST i之间的相似度,可表示为: 
Sim ( S k i , S T i ) = 1 [ length ( S T i ) - length ( S k i ) + 1 ] Σ l = 1 [ length ( S T i ) - length ( S k i ) + 1 ] w l · Sim l ( S k i , S Tl i ) - - - ( 13 )
同理,多条序列组成的序列矩阵Sk和ST之间的相似度,就可以根据每条序列所描述特征的重要性,加权组合不等长序列的相似度,得到不等长序列矩阵Sk和ST之间的相似度,可表示为: 
Sim ( S k , S T ) = 1 dim ( S k ) Σ i = 1 dim ( S k ) λ i · sim ( S k i , S T i ) - - - ( 14 )
其中,dim(Sk)表示序列矩阵的行数,即所包含描述特征的序列条数,λi为每条序列所描述特征的权重,可以根据具体情况对λi的取值进行确定。 
至此,关于不等长序列之间的相似度就通过上述方法挖掘出来,表征了某传感器对对象的特征判断,如果是多传感器,可以参照上述方法继续进行求解,得到多传感器对对象的特征判断。 
与现有序列相似度度量算法相比,本发明具有如下有益效果: 
①减小了相似度误差。本发明中,不需要对序列数据进行变换,而是直接处理序列本身的相似度,最后融合而成,减小了序列变换过程中引入的误差。 
②实现相似度权重的自适应调节。在本发明中,在求得滑动区间相似度之后,通过最优匹配增权方法,加权组合各滑动区间相似度,得到不等长序列之间的相似度,此方法的权重直接源于滑动区间的相似度,不需采用其他因子来控制,实现了权重自适应调节。 
附图说明
图1是不等长序列相似度度量算法流程图。 
图2是滑动窗口示意图。 
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。 
实施例 
假设两类传感器sensor1,sensor2设定为ESM和ELINT,对目标进行测量,量测到三类目标身份信息,雷达载频RF,脉冲重复频率PRF和脉宽PW,经前端数据处理,关联后得到两个待识别目标序列矩阵S1和S2,分别由三个条序列组成,代表RF,PRF和PW三类参数。目标数据库中存在四类目标身份属性分别用序列矩阵Q1,Q2,Q3和Q4表示,其中矩阵内数据参数与待识别目标序列矩阵S1和S2对应,它们之间的长度是不等长的。采用本发明提出的方法计算两个待识别目标序列矩阵S1和S2与四类目标身份属性序列矩阵Q1,Q2,Q3和Q4之间的相似度。 
采用本发明提出的方法计算上述不等长序列相似度时,首先计算序列矩阵内对应的每条序列之间的相似度,再根据三类参数的重要性融合序列相似度得到序列矩阵的相似度,完成待识别目标与数据库目标身份之间的属性判断。上述设计要求可按如下技术措施实施。 
①不等长序列参数描述和构建量测数据与数据库 
在进行仿真时首先描述仿真数据的产生,仿真时序列数据data可以采用下式产生: 
data=A+α·B   (15) 
其中,A为服从均匀分布的离散序列值,B为服从高斯分布的离散序列值,α为高斯分布的标准差,可以用来描述量测误差。 
仿真时首先进行数据的标准化去量纲处理,暂不考虑数量级的问题,实际中RF单位为GHZ,PRF单位为MHZ,PW单位为us。不等长序列仿真数据采用传感器100个测量周期形成待识别目标序列矩阵,数据库采用200个长度的序列矩阵。数据库和量测值服从的分布值范围和量测误差如表1所示。 
表1仿真数据生成表 
②求解序列距离和序列相似度 
按照基于滑动窗口的最优匹配增权法不等长序列相似度度量算法所述,首先按照表达式(8)计算窗口滑动过程中的距离度量,对于每一条序列来讲得到101个距离,这里给出其中一组数据作为参照,按步长10从S2与Q4矩阵中的PRF序列度量的101个数据中截取10组距离数据如下: 
d prf = 32.6177 32.0382 30.7726 29.2139 27.5605 27.2711 28.1198 27.0778 25.9139 26.2848
参照表达式(9,10)处理距离度量可以计算得到每一条序列的101个滑动相似度,再按照式(12)计算最优权重,对于每条序列来讲得到101个最优权重,仍按步长10从S2与Q4矩阵中的PRF序列度量的101个数据中截取10组最优权重数据如下: 
w = 0 0.013 0.043 0.079 0.118 0.124 0.105 0.129 0.156 0.147
参照表达式(13)加权滑动相似度计算序列矩阵中对应的每条序列之间的相似度,得到两组4行3列的序列相似度矩阵为: 
Sim 1 = 0.8136 0.4865 0.1985 0 0.6652 0.4958 0.2133 0 0.6521 0.5321 0.1989 0
Sim 2 = 0.1130 0.1099 0.7991 0.2002 0.1262 0.0468 0.6658 0.1664 0.1310 0.0577 0.6497 0.1898
其中Sim1和Sim2分别表示序列矩阵S1和S2中对应的三类序列参数与四类目标身份属性序列矩阵Q1,Q2,Q3和Q4中相应序列之间的相似度。最后根据RF,PRF和PW三类参数的重要性加权组合序列相似度得到矩阵S1和S2与四类目标身份属性序列矩阵Q1,Q2,Q3和Q4之间的相似度如表2所示。 
表2  量测数据与数据库数据的相似度表 
通过上述基于滑动窗口的最优匹配增权法不等长序列相似度度量算法计算,就得到了不等长序列之间的相似度度量。 

Claims (3)

1.一种不等长序列相似度度量算法,其特征是:以短序列长度为滑动窗口大小,沿长序列依次滑动一个单位长度,直至遍历整个长序列,并分别利用等长序列的度量算法计算各滑动窗口区间的相似度,最后采用最优匹配增权方法组合这些相似度,得到不等长序列的相似度。
2.根据权利要求1所述的一种不等长序列相似度度量算法,所述的最优匹配增权方法是:在组合各滑动区间的相似度时,通过最优权向量加权组合各滑动区间相似度,得到不等长序列的相似度。
3.根据权利要求1所述的一种不等长序列相似度度量算法,所述的最优权向量是:各滑动区间相似度与所有滑动区间相似度加和的比值。
CN201410112444.4A 2014-03-19 2014-03-19 一种不等长序列相似度度量算法 Pending CN103984844A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410112444.4A CN103984844A (zh) 2014-03-19 2014-03-19 一种不等长序列相似度度量算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410112444.4A CN103984844A (zh) 2014-03-19 2014-03-19 一种不等长序列相似度度量算法

Publications (1)

Publication Number Publication Date
CN103984844A true CN103984844A (zh) 2014-08-13

Family

ID=51276812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410112444.4A Pending CN103984844A (zh) 2014-03-19 2014-03-19 一种不等长序列相似度度量算法

Country Status (1)

Country Link
CN (1) CN103984844A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105792351A (zh) * 2016-02-25 2016-07-20 湖州师范学院 基于不等长序列相似性的无线指纹匹配方法
CN107742000A (zh) * 2017-08-31 2018-02-27 国网江西省电力公司电力科学研究院 锅炉燃烧含氧量建模方法
CN108052628A (zh) * 2017-12-19 2018-05-18 河北省科学院应用数学研究所 道岔启动电流检测方法、系统及终端设备
CN108154189A (zh) * 2018-01-10 2018-06-12 重庆邮电大学 基于ldtw距离的灰关联聚类方法
CN108491436A (zh) * 2018-02-10 2018-09-04 大连智慧海洋软件有限公司 一种基于自适应伸缩动态时间弯曲算法的钢板厚度匹配方法
CN110353664A (zh) * 2019-07-25 2019-10-22 山东凯迪泰科智能系统有限公司 心电图pqrst波分段方法及系统
CN110413647A (zh) * 2019-07-08 2019-11-05 上海鸿翼软件技术股份有限公司 一种高维向量不等长序列相似度快速计算系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105792351A (zh) * 2016-02-25 2016-07-20 湖州师范学院 基于不等长序列相似性的无线指纹匹配方法
CN105792351B (zh) * 2016-02-25 2019-04-30 湖州师范学院 基于不等长序列相似性的无线指纹匹配方法
CN107742000A (zh) * 2017-08-31 2018-02-27 国网江西省电力公司电力科学研究院 锅炉燃烧含氧量建模方法
CN107742000B (zh) * 2017-08-31 2021-01-05 国网江西省电力公司电力科学研究院 锅炉燃烧含氧量建模方法
CN108052628A (zh) * 2017-12-19 2018-05-18 河北省科学院应用数学研究所 道岔启动电流检测方法、系统及终端设备
CN108154189A (zh) * 2018-01-10 2018-06-12 重庆邮电大学 基于ldtw距离的灰关联聚类方法
CN108491436A (zh) * 2018-02-10 2018-09-04 大连智慧海洋软件有限公司 一种基于自适应伸缩动态时间弯曲算法的钢板厚度匹配方法
CN110413647A (zh) * 2019-07-08 2019-11-05 上海鸿翼软件技术股份有限公司 一种高维向量不等长序列相似度快速计算系统
CN110353664A (zh) * 2019-07-25 2019-10-22 山东凯迪泰科智能系统有限公司 心电图pqrst波分段方法及系统
CN110353664B (zh) * 2019-07-25 2022-09-20 山东凯迪泰科智能系统有限公司 心电图pqrst波分段方法及系统

Similar Documents

Publication Publication Date Title
CN103984844A (zh) 一种不等长序列相似度度量算法
CN104459668B (zh) 基于深度学习网络的雷达目标识别方法
CN107038292A (zh) 一种基于自适应多变量非参数核密度估计的多风电场出力相关性建模方法
CN107290730A (zh) 互耦条件下双基地mimo雷达角度估算方法
CN103018730A (zh) 分布式子阵波达方向估计方法
CN104155650A (zh) 一种基于熵权值法点迹质量评估的目标跟踪方法
CN103500450A (zh) 一种多光谱遥感影像变化检测方法
CN106646344A (zh) 一种利用互质阵的波达方向估计方法
CN102944872B (zh) 雷达散射截面近场到近场的变换方法
CN104991236A (zh) 一种单基地mimo雷达非圆信号相干源波达方向估计方法
CN109116293A (zh) 一种基于离格稀疏贝叶斯的波达方向估计方法
CN104375133B (zh) 一种空间二维doa的估算方法
CN108710102A (zh) 基于互质阵列二阶等价虚拟信号离散傅里叶逆变换的波达方向估计方法
CN103914831A (zh) 一种基于量子粒子群优化的二维双阈值sar图像分割方法
CN104502900A (zh) 一种单频网雷达多目标跟踪方法
CN103942444B (zh) 一种基于dtw的平权1‑范数多传感器不等长序列相似度度量方法
CN108520310A (zh) 基于G-L混合噪声特性v-支持向量回归机的风速预报方法
CN103605121A (zh) 基于快速稀疏贝叶斯学习算法的宽带雷达数据融合方法
CN103218623B (zh) 基于自适应近邻保持鉴别投影的雷达目标特征提取方法
CN105117609A (zh) 一种基于推广型K-Means分类决策的动态称重的方法
CN106226729A (zh) 基于四阶累量的互质阵列波达方向角估计方法
CN104182753A (zh) 结合图像分割与子空间匹配追踪的目标散射中心提取方法
CN103399308A (zh) 主瓣和旁瓣干扰背景下雷达目标角度快速估计方法
CN105182292B (zh) 一种基于模式搜索算法的多波形相位编码方法
CN102280877A (zh) 一种多量测断面的电力系统不良支路参数辨识方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140813