CN101488190A

CN101488190A - 一种向量间相似度的计算方法

Info

Publication number: CN101488190A
Application number: CNA2009100738363A
Authority: CN
Inventors: 李中; 苑津莎; 杨宏
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2009-02-27
Filing date: 2009-02-27
Publication date: 2009-07-22

Abstract

一种向量间相似度的计算方法，属数据识别技术领域，用于判断向量间的相似度。其技术方案是：定义n维向量x_j与x_k间的相似度距离是：d_SSD(j，k)＝ED×[1+COS(ASD/MSAD×π/2)]或d_MSD(j，k)＝ED×(2－ASD/MSAD)，则n维向量x_j与x_k之间相似度是：s(j，k)＝1/(d_SSD+1)或s(j，k)＝1/(d_MSD+1)，其数值越大，则两者越相似，反之，则差异越大。本发明不但考虑了向量间各维差值绝对值的和，而且考虑了向量间各维差值的具体特征，因而比传统方法具有更高的精度，更能逼近实际。

Description

一种向量间相似度的计算方法

技术领域

本发明涉及一种计算不同向量间相似度或相异度的方法，属数据识别技术领域。

背景技术

如何计算对象之间相似度是现代科学技术一个非常重要的问题。两个对象之间的相似度是这两个对象相似程度的数值度量。两个对象越相似，它们的相似度就越高。通常，相似度是非负的，并常常在0(不相似)和1(完全相似)之间取值。一般用一个多维向量来表示一个对象。为了度量两个向量之间的相似度，通常采用计算向量间的距离的方法(距离越小，相似度越大)。在相似度测量所采用的各种距离中，应用最普遍的是欧几里得距离和曼哈顿距离，其定义如下：p个n维向量，可看作是n维空间的p个点，分别用n维向量x_i＝(x_i1，...，x_in)^T，i＝1，2，...，p来表示，向量x_j与向量x_k之间的欧几里得距离计算公式是：

ED (j, k) = {(Σ_{i = 1}^{n} {| x_{ji} - x_{ki} |}^{2})}^{1 / 2} - - - (1)

向量x_j与向量x_k之间的曼哈顿距离计算公式是：

SAD (j, k) = Σ_{i = 1}^{n} | x_{ji} - x_{ki} | - - - (2)

相似度测量的有关研究表明，不同距离适合于不同分布的数据，有些情况下，欧几里得距离和曼哈顿距离并不适用。根据计算公式(1)和(2)，传统的欧几里得距离和曼哈顿距离的计算仅考虑了代表对象的向量之间差值的绝对值，忽略了向量间各维差值的具体情况。因此，通过研究向量之间差值的具体特征对相似度测量的影响，找出更精确的相似度距离计算方法，可以能够有效提高相似度的测量精度。

发明内容

本发明的目的是克服已有技术之缺陷而提供一种基于向量之间的差值特征的向量间相似度的计算方法。

本发明所述问题是以下述技术方案实现的：

一种向量间相似度的计算方法，设在n维坐标系中有两个n维向量：x_j＝(x_j1，...，x_jn)^T和x_k＝(x_k1，...，x_kn)^T，定义n维向量x_j与n维向量x_k间的相似度测量距离是：

d_{SSD} (j, k) = ED \times [1 + COS (\frac{ASD}{MSAD} \times \frac{π}{2})]

其中，ED为欧几里得距离：

ED (j, k) = {(Σ_{i = 1}^{n} {| x_{ji} - x_{ki} |}^{2})}^{1 / 2},

ASD为向量差值和绝对值：

ASD (j, k) = | Σ_{i = 1}^{n} δ_{i} (x_{ji} - x_{ki}) |,

MSAD为向量差值绝对值和：

MSAD (j, k) = Σ_{i = 1}^{n} δ_{i} | x_{ji} - x_{ki} |,

式中δ_i(δ_i≥0，i＝1，2，...，n)是给n维向量各维设置的权值系数，根据n维向量第i维所表达的信息设定，

则n维向量x_j＝(x_j1，...，x_jn)^T与n维向量x_k＝(x_k1，...，x_kn)^T之间相似度是：

s (j, k) = \frac{1}{d_{SSD} + 1}

其数值越大，则两者越相似，反之，则差异越大。

上述向量间相似度的计算方法，所述权值系数δ_i按如下原则取值：

A、如果n维向量x_m第i维值x_mi表达的信息与物体的形态有关，例如位置、长度、宽度、高度、体积等，则δ_i可以取值为1；

B、如果n维向量x_m第i维值x_mi表达的信息与物体的形态无关，例如颜色、浓度、密度、时间等，则δ_i的取值范围为：0≤δ_i<1。

C、如果对n维向量x_m各维取值具体定义不明确，则δ_i＝1，i＝1，2，...，n。

d_MSD(j，k)＝ED×(2-ASD/MSAD)

其中，ED为欧几里得距离：

ED (j, k) = {(Σ_{i = 1}^{n} {| x_{ji} - x_{ki} |}^{2})}^{1 / 2},

ASD为向量差值和绝对值：

ASD (j, k) = | Σ_{i = 1}^{n} δ_{i} (x_{ji} - x_{ki}) |,

MSAD为向量差值绝对值和：

MSAD (j, k) = Σ_{i = 1}^{n} δ_{i} | x_{ji} - x_{ki} |,

s (j, k) = \frac{1}{d_{MSD} + 1}

其数值越大，则两者越相似，反之，则差异越大。

上述向量间相似度的计算方法，各维设置的权值系数δ_i按如下原则取值::

a、如果n维向量x_m第i维值x_mi表达的信息与物体的形态有关，则δ_i可以取值为1；

b、如果n维向量x_m第i维值x_mi表达的信息与物体的形态无关，则δ_i的取值范围为：0≤δ_i<1；

本发明提出的相似度计算方法，计算简便，与欧几里得距离具有近似的复杂度，且对数据没有任何限制。由于本方法采用的差值和绝对值能够反映向量间差值的分布情况，因而该方法不但考虑了向量间各维差值绝对值的和(如同欧几里得距离和曼哈顿距离)，而且考虑了向量间各维差值的具体特征，即若把向量作为空间中物体，则本发明的方法从物体的大小和形状两个方面进行相似度的计算。故此，本发明的相似度测量方法具有比传统方法具有更高的精度，更能逼近实际。

附图说明

下面结合附图对本发明作进一步说明。

图1-1、图1-2、图1-3、图1-4分别表示二维向量的四个二维物体；

图2是在二维空间中到原点距离等于1时，SSD、ED和SAD构成的形状比较；

图3是在二维空间中到原点距离等于1时，MSD、ED和SAD构成的形状比较。

图中各标号表示为：a.二维物体a；b.二维物体b；c.二维物体c；d.二维物体d。

文中所用符号为：SSD、相似度测量距离，MSD、相似度测量距离，ED、欧几里得距离，SAD、曼哈顿距离，δ_i、权值系数，x_j、x_k、向量。

具体实施方式

设在n维坐标系中有两个n维向量：x_j＝(x_j1，...，x_jn)^T和x_k＝(x_k1，...，x_kn)^T，n维向量x_j与n维向量x_k间的差值和绝对值(ASD)定义为：

ASD (j, k) = | Σ_{i = 1}^{n} δ_{i} (x_{ji} - x_{ki}) |

差值和绝对值能够反映向量间差值的分布情况，当δ_i＝1(i＝1，2，...，n)时，有以下性质：

a)差值和绝对值的取值范围是[0，SAD]，其中SAD是曼哈顿距离；

b)当参照物向量的各维值均大于等于(或小于等于)待测向量时，即两者形状相同或相似而大小存在差异时，差值和绝对值等于曼哈顿距离，即满足ASD＝SAD；

c)当参照物向量的各维值部分大于而部分小于待测向量时(形状差异比较大)时，两者之间的差值和绝对值小于曼哈顿距离，特殊情况下，差值和绝对值等于零；

d)结合前面b)和c)，在曼哈顿距离一定的前提条件下，差值和绝对值能够近似地反映向量间形状差异的大小，差值和绝对值越大，则两者的形状越相似，反之，形状差异越大。

本发明利用差值和绝对值的性质，结合传统的欧几里得距离和曼哈顿距离，设计了两种基于向量间差值特征的相似度测量距离，不但考虑了向量间各维差值绝对值的和(如同欧几里得距离和曼哈顿距离)，而且考虑了向量间各维差值的具体特征，故此，本发明的相似度测量方法具有比传统方法更高的精度，更能逼近实际。

实施例1.假设有四个二维向量：x₁＝(5，5)^T，x₂＝(4，4)^T，x₃＝(4，6)^T和x₄＝(5，7)^T，以向量x₁为参照物，分析向量x₂，x₃，x₄与x₁之间的相似度。

首先，按照各自的距离定义，分别计算二维向量x₂，x₃，x₄与x₁之间的各种距离，计算结果记录在表1中。根据表1，二维向量x₂，x₃，x₄与x₁之间的曼哈顿距离都是2，表明以曼哈顿距离作为相似度的测量标准，x₂，x₃，x₄与x₁具有相同的相似度；相应的欧几里得距离分别1.414、1.414和2，表示x₂，x₃与x₁具有相同的相似度，并且比x₄更接近x₁。

表1：向量x₁＝(5，5)^T与x₂＝(4，4)^T，x₃＝(4，6)^T和x₄＝(5，7)^T之间的不同距离

距离标准	曼哈顿距离	欧几里得距离	相似度测量距离(SSD)	相似度测量距离(MSD)
距离标准	曼哈顿距离	欧几里得距离	相似度测量距离(SSD)	相似度测量距离(MSD)	d(x₂，x₁)	2	1.414	1.414	1.414
d(x₃，x₁)	2	1.414	2.828	2.828	d(x₂，x₁)	2	1.414	1.414	1.414
d(x₃，x₁)	2	1.414	2.828	2.828	d(x₄，x₁)	2	2	2	2

注：表中计算结果四舍五入，保留小数点后三位。

如果把这四个二维向量看作二维空间中的四个二维物体，物体的宽度和高度分别取二维自向量各维的数值，则可用图1-1、图1-2、图1-3、图1-4中的四个二维物体(a)、(b)、(c)和(d)依次表示二维向量x₁，x₂，x₃和x₄。

分析图1-1、图1-2、图1-3、图1-4，物体(b)、(c)和(d)与物体(a)的宽度和高度的差值的绝对值之和都是2，由于(b)与(a)都属于正方形，可以看作是物体(a)等比例的缩小，推出(b)与(a)最为相似；由于物体(d)与物体(a)的长度一样，且与物体(c)相比更接近于正方形，因而物体(d)比物体(c)更接近于物体(a)。显然，这一结果考虑了四个物体之间的大小和形状两个因素，符合人们的日常经验和视觉对比。由此，物体(b)、(c)和(d)与物体(a)的相似度由大到小的排列顺序应当是：(b)、(d)和(c)，若用距离测量四个向量的相似度程度，彼此间的距离应当满足：d(x₂，x₁)<d(x₄，x₁)<d(x₃，x₁)。根据表1，欧几里得距离和曼哈顿距离均无法得出准确结果，依据本发明的相似度距离计算方法则能够得出正确的结果。

实施例2.本例采用著名的国际标准的数据测试集—Iris数据集进行说明。Iris数据集共包含150条样本记录，分别取自三种不同的鸢尾属植物Setosa、Versicolor和Virginica的花朵样本，每一种植物各有50条记录，其中每条记录有四个属性：萼片长度(sepallength)、萼片宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。

测试中，首先分别计算出三种植物记录(各有50条)的算术平均值，作为三种植物的标准参照样本，然后计算数据集中所有记录与三个参照样本的距离，选择与其距离最近的参照样本的类别作为该记录的类别，进行分类。计算后分类结果记录在表2中。

表2：依据不同距离作为相似度测量标准，Iris数据集的分类结果对比

注：由于数据集中的数据表述了物体的形状，本发明的相似度测量距离的计算中，向量各维设置的权值系数δ均取值为1.

根据表2，应用欧几里得距离和曼哈顿距离进行分类，其错误分类数都是11，应用本发明的两种相似度计算方法，其错误分类数分别是5和7，错误分类数目分别下降了54.5％和36.4％。显然本发明方法能够获得比欧几里得距离和曼哈顿距离更好的分类效果，具有更高的精度。

图2、3结合具体实例对各相似度距离之间的差异作了进一步的说明，图2是在二维空间中到原点距离等于1时，SSD、ED和SAD构成的形状。分析图2，到原点的曼哈顿距离等于1的所有点构成了菱形，表明了按照曼哈顿距离进行相似度测量，菱形上的各个点与原点具有相同的相似度；到原点的欧几里得距离等于1的所有点构成了圆形，表明了按照欧几里得距离进行相似度测量，圆形上的各个点与原点具有相同的相似度；到原点的相似度测量距离SSD等于1的所有点构成不规则的类似椭圆的图形，表明了按照相似度测量距离(本发明方法一)SSD进行相似度测量，这个不规则的类似椭圆的图形上的各个点与原点具有相同的相似度。

图3是在二维空间中到原点距离等于1时，MSD、ED和SAD构成的形状。分析图3，到原点的曼哈顿距离等于1的所有点构成了菱形，表明了按照曼哈顿距离进行相似度测量，菱形上的各个点与原点具有相同的相似度；到原点的欧几里得距离等于1的所有点构成了圆形，表明了按照欧几里得距离进行相似度测量，圆形上的各个点与原点具有相同的相似度；到原点的相似度测量距离MSD距离等于1的所有点构成不规则的图形，表明了按照相似度测量距离MSD进行相似度测量，这个不规则的图形上的各个点与原点具有相同的相似度。

Claims

1、一种向量间相似度的计算方法，设在n维坐标系中有两个n维向量：x_j＝(x_jl，...，x_jn)^T和x_k＝(x_kl，...，x_kn)^T，定义n维向量x_j与n维向量x_k间的相似度测量距离是：

d_{SSD} (j, k) = ED \times [1 + COS (\frac{ASD}{MSAD} \times \frac{π}{2})]

其中，ED为欧几里得距离：

ED (j, k) = {(Σ_{i = 1}^{n} {| x_{ji} - x_{ki} |}^{2})}^{1 / 2},

ASD为向量差值和绝对值：

ASD (j, k) = | Σ_{i = 1}^{n} δ_{i} (x_{ji} - x_{ki}) |,

MSAD为向量差值绝对值和：

MSAD (j, k) = Σ_{i = 1}^{n} δ_{i} | x_{ji} - x_{ki} |,

则n维向量x_j＝(x_jl，...，x_jn)^T与n维向量x_k＝(x_k1，...，x_kn)^T之间相似度是：

s (j, k) = \frac{1}{d_{SSD} + 1}

其数值越大，则两者越相似，反之，则差异越大。

2、根据权利要求1所述向量间相似度的计算方法，其特征是，所述权值系数δi按下述原则取值：

A、如果n维向量x_m第i维值x_mi表达的信息与物体的形态有关，则δ_i取值为1；

B、如果n维向量x_m第i维值x_mi表达的信息与物体的形态无关，则δ_i取值为：0≤δ_i<1；

3、一种向量间相似度的计算方法，设在n维坐标系中有两个n维向量：x_j＝(x_jl，...，x_jn)^T和x_k＝(x_k1，...，x_kn)^T，定义n维向量x_j与n维向量x_k间的相似度测量距离是：

d_MSD(j，k)＝ED×(2-ASD/MSAD)

其中，ED为欧几里得距离：

ED (j, k) = {(Σ_{i = 1}^{n} {| x_{ji} - x_{ki} |}^{2})}^{1 / 2},

ASD为向量差值和绝对值：

ASD (j, k) = | Σ_{i = 1}^{n} δ_{i} (x_{ji} - x_{ki}) |,

MSAD为向量差值绝对值和：

MSAD (j, k) = Σ_{i = 1}^{n} δ_{i} | x_{ji} - x_{ki} |,

s (j, k) = \frac{1}{d_{MSD} + 1}

其数值越大，则两者越相似，反之，则差异越大。

4、根据权利要求3所述向量间相似度的计算方法，其特征是，所述权值系数δ_i按下述原则取值：