CN103984844A

CN103984844A - 一种不等长序列相似度度量算法

Info

Publication number: CN103984844A
Application number: CN201410112444.4A
Authority: CN
Inventors: 关欣; 孙贵东; 宋瑞华; 赵志勇; 衣晓
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-03-19
Filing date: 2014-03-19
Publication date: 2014-08-13

Abstract

本发明针对不等长序列相似度度量问题，公开了一种不等长序列相似度度量算法。该算法通过构造滑动窗口遍历不等长序列，将长度较短的序列作为滑动窗口，沿长度较长的序列依次滑动一个单位长度直至遍历整个长度序列，计算每次遍历过程中所对应的等长序列相似度，形成滑动相似度，通过最优权向量加权组合各滑动区间相似度，得到不等长序列的相似度度量。该方法即减小了相似度误差，又实现相似度权重的自适应调节。

Description

一种不等长序列相似度度量算法

技术领域

本发明涉及数据融合算法，尤其涉及一种不等长序列的数据挖掘算法。

背景技术

作为一种不确定性数据，序列数据是数据挖掘领域主要研究的对象，广泛存在于经济预测，医学研究，气象预报、网络安全和军事科学等领域。随着信息技术的飞速发展，数据量越来越大，蕴含的信息也越来越多，无疑进入了大数据时代。如何挖掘隐含在这些数据中有效的信息和知识，近年来得到了广泛的研究。序列数据是由很多数据点组成的高维数据，这些数据点的长度随着时间变化可能长度不一致，对这些长度不一致的序列数据进行挖掘是数据挖掘的关键问题。序列相似度度量方法是数据挖掘的重要过程和基本方法，相似度度量是衡量不同对象之间的相互关系的方法，关于不等长序列的相似度度量方法说法不一，在实际处理过程中也遇到了很多困难和挑战。

当前解决不等长序列的相似度度量方法主要有离散傅里叶变换(discrete Fourier transform，DFT)、奇异值分解(singular value decomposition，SVD)、离散小波变换(discrete wavelet transform，DWT)、分段合计近似piecewise aggregate approximation，PAA)、动态时间弯曲dynamic time warping，DTW)、分段线性表示(piecewise linear representation，PLR)、分段多项式表示piecewise polynomial representation，PPR)等。这些方法从不同的观点来对不等长序列进行度量，但从根本上讲都是先对不等长数据进行变换，成为能够直接处理的等长度序列或某个变换域内的数据，再利用等长序列或变换域的某种相似度度量对不等长数据进行相似度度量。这类方法在对序列数据进行变换易引入变换误差，影响了序列间的相似度度量，从而降低数据关联的真实性。

发明内容

针对不等长序列相似度度量现有技术存在的不足，本发明基于滑动窗口的最优匹配增权方法，公开了一种不等长序列相似度度量算法。该算法利用比较序列或参考序列中短序列作为滑动窗口，沿长序列依次滑动一个单位长度直至遍历整个长度序列，滑动每个单位长度时利用等长序列的度量算法，计算其相似度，最后组合这些相似度得到不等长序列的相似度。在组合过程中，采用了一种最优匹配增权方法，即在窗口滑动过程中随着序列的匹配程度不同相似度也随之变化，如果将这些相似度简单地叠加组合得到相似度，就不能突出匹配的程度，所以最优匹配增权方法是指在组合相似度时增大相似度匹配程度大的权重，以达到突出匹配效果的作用。

本发明提出的一种基于滑动窗口的最优匹配增权法不等长序列相似度度量算法流程如图1所示。

本发明主要包括以下技术措施。

①发明的条件和序列的表示

如果把一条序列看成是传感器对某个对象的一个特征描述，则由很多条序列组成一个序列组就可以看成是传感器对某个对象的多个特征描述。如果有多个传感器对对象进行特征描述，则会有很多个序列组，融合这些序列组对对象的特征描述，就可以得到多传感器对对象的特征判断，本发明正是想通过研究这些序列之间的关系来实现传感器对描述对象的特征判断。

首先对长度为n的某条序列定义：

S_i=(S_i1，S_i2，…，S_ii，…，S_in) (1)

其中，S_ii表示第i条序列的第i的取值。则多条序列组成的某个序列组可以用序列矩阵的形式表示为：

其中，表示第k个序列组中第i条序列的第j个取值，对应第k个传感器对描述对象的第i个特征的第j个量化描述取值。

记长度为n的某条序列S_i=(S_i1，S_i2，…，S_in)的长度为：

length(S_i)=n (3)

简记为|S_i|，如果序列之间的长度不一样，则称这样的序列为不等长序列。比如序列S_i=(S_i1，S_i2，…，S_ia)、S_j=(S_j1，S_j2，…，S_jb)，若a≠b，则length(S_i)≠length(S_j)。

②序列的相似度度量描述

对于某两条序列S_i和S_j，如果满足

(1)ρ(S_i，S_j)=ρ(S_j，S_i)

(2)若序列S_i和S_j的长度及各元素取值相同，则ρ(S_i，S_j)=1

(3)ρ(S_i，S_i ^C)=0

(4), &ForAll; S_{i} &SubsetEqual; S_{j} &SubsetEqual; S_{k}, ρ (S_{k}, S_{i}) \leq ρ (S_{k}, S_{j}), ρ (S_{k}, S_{i}) \leq ρ (S_{i}, S_{j}),

则称ρ(S_i，S_j)为序列S_i和S_j的序列相似度。

本发明的目的是实现多传感器对描述对象的特征判断，所以就需要计算多传感器描述对象的序列矩阵与对象本身已有描述的序列矩阵之间的相似度，以某个传感器为例，即序列矩阵

与对象本身已有描述的序列矩阵

之间的相似度。其中，S^T _ij表示对象本身的第i个特征的第j个取值。要计算序列矩阵S^k和S^T之间的相似度，通常从其中对应两条序列S^k _i和S^T _i之间的相似度着手。

等长序列向量的相似度度量方法已有的文献资料研究的较多，主要有基于p-范数和灰关联度等，可以按照已有方法直接求得。针对不等长序列的相似度度量方法，本发明在前人研究的基础上，改进了基于滑动窗口的不等长相似度度量算法，提出一种基于滑动窗口的最优匹配增权法不等长序列相似度度量算法。

③基于滑动窗口的最优匹配增权法构建不等长序列相似度度量算法

在本发明中，以短序列长度为滑动窗口大小，沿长序列依次滑动一个单位长度直至遍历整个长度序列，并分别利用等长序列的度量算法计算各滑动窗口区间的相似度，最后利用加权融合算法组合这些相似度，得到不等长序列的相似度。窗口滑动示意图如图2所示。

不等长序列S^k _i和S^T _j分别记为

S^k _i=(S^k _i1，S^k _i2，…，S^k _ia) (6)

S^T _i=(S^T _i1，S^T _i2，…，S^T _ib) (7)

假设a＜b，即不等长序列S^k _i和S^T _i的长度length(S^k _i)＜length(S^T _i)，则以序列S^k _i的长度作为滑动窗口大小，按照图2所示示意图，从S^T _i序列的第一个序列点开始滑动，依次滑动一个单位长度直至遍历整个S^T _i序列。在每个滑动过程中，依次计算序列S^k _i与S^T _i滑动区间内对应的等长度子序列S^Tl _i的相似度，子序列S^Tl _i和序列S^k _i满足关系式：length(S^Ti _i)=length(S^k _i)。

关于序列间距离的表示方法有多种，如欧氏距离、马氏距离、海明距离、p-范数等。本发明仅以2-范数为例，计算序列S^k _i与子序列S^Tl _i的距离。对于本领域内的普通技术人员而言，关于其它一些众所周知的序列距离度量方法，这里不再进行详细阐述。

序列S^k _i与子序列S^Tl _i的2-范数距离可表示为：

D_{l} ({S^{k}}_{i}, {S^{Tl}}_{i}) = {(Σ_{j = 1}^{length ({S^{k}}_{i})} {({S^{k}}_{ij} - {S^{Tl}}_{ij})}^{2})}^{1 / 2} - - - (8)

令

D_lmax=max{D_l(S^k _i，S^Tl _i)，l=1，…，elngth(S^T _i)-length(S^k _i)+1} (9)

则序列S^k _i与子序列S^Tl _i之间的相似度Sim_l(S^k _i，S^Tl _i)可以定义为

{Sim}_{l} ({S^{k}}_{i}, {S^{Tl}}_{i}) = 1 - \frac{D_{l} ({S^{k}}_{i}, {S^{Tl}}_{i})}{D_{l \max}} - - - (10)

则在整个滑动过程中，可以得到[length(S^T _i)-length(S^k _i)+1]组滑动相似度，可表示为：

Sim ({S^{k}}_{i}, {S^{Tl}}_{i}) = ({Sim}_{1} ({S^{k}}_{i}, {S^{T 1}}_{i}), . . ., {Sim}_{l} ({S^{k}}_{i}, {S^{T (length ({S^{T}}_{i}) - length ({S^{k}}_{i}) + 1)}}_{i})) - - - (11)

在本发明，提出了一种最优匹配增权方法，组合各滑动区间的相似度，得到不等长度序列间的相似度。所谓最优匹配增权方法，是指在组合各滑动区间的相似度时，增大相似度匹配程度大的权重，以达到突出匹配效果的作用，以免各滑动区间的相似度简单地叠加组合，降低各滑动区间的匹配程度。

在本发明所提出的最优匹配增权方法中，最优权向量w_l定义为

w_{l} = \frac{{Sim}_{l} ({S^{k}}_{i}, {S^{Tl}}_{i})}{Σ_{1}^{{[length ({S^{T}}_{i}) - length ({S^{k}}_{i}) + 1]}_{{Sim}_{l} ({S^{k}}_{i}, {S^{Tl}}_{i})}}}, l = 1,2, . . ., [length ({S^{T}}_{i}) - length ({S^{k}}_{i}) + 1] - - - (12)

根据最优权向量，加权组合各滑动窗区间内的相似度，得到不等长序列S^k _i与S^T _i之间的相似度，可表示为：

Sim ({S^{k}}_{i}, {S^{T}}_{i}) = \frac{1}{[length ({S^{T}}_{i}) - length ({S^{k}}_{i}) + 1]} Σ_{l = 1}^{[length ({S^{T}}_{i}) - length ({S^{k}}_{i}) + 1]} w_{l} \cdot {Sim}_{l} ({S^{k}}_{i}, {S^{Tl}}_{i}) - - - (13)

同理，多条序列组成的序列矩阵S^k和S^T之间的相似度，就可以根据每条序列所描述特征的重要性，加权组合不等长序列的相似度，得到不等长序列矩阵S^k和S^T之间的相似度，可表示为：

Sim (S^{k}, S^{T}) = \frac{1}{\dim (S^{k})} Σ_{i = 1}^{\dim (S^{k})} λ_{i} \cdot sim ({S^{k}}_{i}, {S^{T}}_{i}) - - - (14)

其中，dim(S^k)表示序列矩阵的行数，即所包含描述特征的序列条数，λ_i为每条序列所描述特征的权重，可以根据具体情况对λ_i的取值进行确定。

至此，关于不等长序列之间的相似度就通过上述方法挖掘出来，表征了某传感器对对象的特征判断，如果是多传感器，可以参照上述方法继续进行求解，得到多传感器对对象的特征判断。

与现有序列相似度度量算法相比，本发明具有如下有益效果：

①减小了相似度误差。本发明中，不需要对序列数据进行变换，而是直接处理序列本身的相似度，最后融合而成，减小了序列变换过程中引入的误差。

②实现相似度权重的自适应调节。在本发明中，在求得滑动区间相似度之后，通过最优匹配增权方法，加权组合各滑动区间相似度，得到不等长序列之间的相似度，此方法的权重直接源于滑动区间的相似度，不需采用其他因子来控制，实现了权重自适应调节。

附图说明

图1是不等长序列相似度度量算法流程图。

图2是滑动窗口示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

实施例

假设两类传感器sensor1，sensor2设定为ESM和ELINT，对目标进行测量，量测到三类目标身份信息，雷达载频RF，脉冲重复频率PRF和脉宽PW，经前端数据处理，关联后得到两个待识别目标序列矩阵S¹和S²，分别由三个条序列组成，代表RF，PRF和PW三类参数。目标数据库中存在四类目标身份属性分别用序列矩阵Q¹，Q²，Q³和Q⁴表示，其中矩阵内数据参数与待识别目标序列矩阵S¹和S²对应，它们之间的长度是不等长的。采用本发明提出的方法计算两个待识别目标序列矩阵S¹和S²与四类目标身份属性序列矩阵Q¹，Q²，Q³和Q⁴之间的相似度。

采用本发明提出的方法计算上述不等长序列相似度时，首先计算序列矩阵内对应的每条序列之间的相似度，再根据三类参数的重要性融合序列相似度得到序列矩阵的相似度，完成待识别目标与数据库目标身份之间的属性判断。上述设计要求可按如下技术措施实施。

①不等长序列参数描述和构建量测数据与数据库

在进行仿真时首先描述仿真数据的产生，仿真时序列数据data可以采用下式产生：

data=A+α·B (15)

其中，A为服从均匀分布的离散序列值，B为服从高斯分布的离散序列值，α为高斯分布的标准差，可以用来描述量测误差。

仿真时首先进行数据的标准化去量纲处理，暂不考虑数量级的问题，实际中RF单位为GHZ，PRF单位为MHZ，PW单位为us。不等长序列仿真数据采用传感器100个测量周期形成待识别目标序列矩阵，数据库采用200个长度的序列矩阵。数据库和量测值服从的分布值范围和量测误差如表1所示。

表1仿真数据生成表

②求解序列距离和序列相似度

按照基于滑动窗口的最优匹配增权法不等长序列相似度度量算法所述，首先按照表达式(8)计算窗口滑动过程中的距离度量，对于每一条序列来讲得到101个距离，这里给出其中一组数据作为参照，按步长10从S²与Q⁴矩阵中的PRF序列度量的101个数据中截取10组距离数据如下：

d_{prf} = [\begin{matrix} 32.6177 \\ 32.0382 \\ 30.7726 \\ 29.2139 \\ 27.5605 \\ 27.2711 \\ 28.1198 \\ 27.0778 \\ 25.9139 \\ 26.2848 \end{matrix}]

参照表达式(9，10)处理距离度量可以计算得到每一条序列的101个滑动相似度，再按照式(12)计算最优权重，对于每条序列来讲得到101个最优权重，仍按步长10从S²与Q⁴矩阵中的PRF序列度量的101个数据中截取10组最优权重数据如下：

w = [\begin{matrix} 0 \\ 0.013 \\ 0.043 \\ 0.079 \\ 0.118 \\ 0.124 \\ 0.105 \\ 0.129 \\ 0.156 \\ 0.147 \end{matrix}]

参照表达式(13)加权滑动相似度计算序列矩阵中对应的每条序列之间的相似度，得到两组4行3列的序列相似度矩阵为：

Sim 1 = [\begin{matrix} 0.8136 & 0.4865 & 0.1985 & 0 \\ 0.6652 & 0.4958 & 0.2133 & 0 \\ 0.6521 & 0.5321 & 0.1989 & 0 \end{matrix}]

Sim 2 = [\begin{matrix} 0.1130 & 0.1099 & 0.7991 & 0.2002 \\ 0.1262 & 0.0468 & 0.6658 & 0.1664 \\ 0.1310 & 0.0577 & 0.6497 & 0.1898 \end{matrix}]

其中Sim1和Sim2分别表示序列矩阵S¹和S²中对应的三类序列参数与四类目标身份属性序列矩阵Q¹，Q²，Q³和Q⁴中相应序列之间的相似度。最后根据RF，PRF和PW三类参数的重要性加权组合序列相似度得到矩阵S¹和S²与四类目标身份属性序列矩阵Q¹，Q²，Q³和Q⁴之间的相似度如表2所示。

表2 量测数据与数据库数据的相似度表

通过上述基于滑动窗口的最优匹配增权法不等长序列相似度度量算法计算，就得到了不等长序列之间的相似度度量。

Claims

1.一种不等长序列相似度度量算法，其特征是：以短序列长度为滑动窗口大小，沿长序列依次滑动一个单位长度，直至遍历整个长序列，并分别利用等长序列的度量算法计算各滑动窗口区间的相似度，最后采用最优匹配增权方法组合这些相似度，得到不等长序列的相似度。

2.根据权利要求1所述的一种不等长序列相似度度量算法，所述的最优匹配增权方法是：在组合各滑动区间的相似度时，通过最优权向量加权组合各滑动区间相似度，得到不等长序列的相似度。

3.根据权利要求1所述的一种不等长序列相似度度量算法，所述的最优权向量是：各滑动区间相似度与所有滑动区间相似度加和的比值。