CN101488190A - 一种向量间相似度的计算方法 - Google Patents
一种向量间相似度的计算方法 Download PDFInfo
- Publication number
- CN101488190A CN101488190A CNA2009100738363A CN200910073836A CN101488190A CN 101488190 A CN101488190 A CN 101488190A CN A2009100738363 A CNA2009100738363 A CN A2009100738363A CN 200910073836 A CN200910073836 A CN 200910073836A CN 101488190 A CN101488190 A CN 101488190A
- Authority
- CN
- China
- Prior art keywords
- similarity
- dimensional vector
- vector
- value
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种向量间相似度的计算方法,属数据识别技术领域,用于判断向量间的相似度。其技术方案是:定义n维向量xj与xk间的相似度距离是:dSSD(j,k)=ED×[1+COS(ASD/MSAD×π/2)]或dMSD(j,k)=ED×(2-ASD/MSAD),则n维向量xj与xk之间相似度是:s(j,k)=1/(dSSD+1)或s(j,k)=1/(dMSD+1),其数值越大,则两者越相似,反之,则差异越大。本发明不但考虑了向量间各维差值绝对值的和,而且考虑了向量间各维差值的具体特征,因而比传统方法具有更高的精度,更能逼近实际。
Description
技术领域
本发明涉及一种计算不同向量间相似度或相异度的方法,属数据识别技术领域。
背景技术
如何计算对象之间相似度是现代科学技术一个非常重要的问题。两个对象之间的相似度是这两个对象相似程度的数值度量。两个对象越相似,它们的相似度就越高。通常,相似度是非负的,并常常在0(不相似)和1(完全相似)之间取值。一般用一个多维向量来表示一个对象。为了度量两个向量之间的相似度,通常采用计算向量间的距离的方法(距离越小,相似度越大)。在相似度测量所采用的各种距离中,应用最普遍的是欧几里得距离和曼哈顿距离,其定义如下:p个n维向量,可看作是n维空间的p个点,分别用n维向量xi=(xi1,...,xin)T,i=1,2,...,p来表示,向量xj与向量xk之间的欧几里得距离计算公式是:
向量xj与向量xk之间的曼哈顿距离计算公式是:
相似度测量的有关研究表明,不同距离适合于不同分布的数据,有些情况下,欧几里得距离和曼哈顿距离并不适用。根据计算公式(1)和(2),传统的欧几里得距离和曼哈顿距离的计算仅考虑了代表对象的向量之间差值的绝对值,忽略了向量间各维差值的具体情况。因此,通过研究向量之间差值的具体特征对相似度测量的影响,找出更精确的相似度距离计算方法,可以能够有效提高相似度的测量精度。
发明内容
本发明的目的是克服已有技术之缺陷而提供一种基于向量之间的差值特征的向量间相似度的计算方法。
本发明所述问题是以下述技术方案实现的:
一种向量间相似度的计算方法,设在n维坐标系中有两个n维向量:xj=(xj1,...,xjn)T和xk=(xk1,...,xkn)T,定义n维向量xj与n维向量xk间的相似度测量距离是:
其中,ED为欧几里得距离: ASD为向量差值和绝对值: MSAD为向量差值绝对值和:
则n维向量xj=(xj1,...,xjn)T与n维向量xk=(xk1,...,xkn)T之间相似度是:
其数值越大,则两者越相似,反之,则差异越大。
上述向量间相似度的计算方法,所述权值系数δi按如下原则取值:
A、如果n维向量xm第i维值xmi表达的信息与物体的形态有关,例如位置、长度、宽度、高度、体积等,则δi可以取值为1;
B、如果n维向量xm第i维值xmi表达的信息与物体的形态无关,例如颜色、浓度、密度、时间等,则δi的取值范围为:0≤δi<1。
C、如果对n维向量xm各维取值具体定义不明确,则δi=1,i=1,2,...,n。
一种向量间相似度的计算方法,设在n维坐标系中有两个n维向量:xj=(xj1,...,xjn)T和xk=(xk1,...,xkn)T,定义n维向量xj与n维向量xk间的相似度测量距离是:
dMSD(j,k)=ED×(2-ASD/MSAD)
其中,ED为欧几里得距离: ASD为向量差值和绝对值: MSAD为向量差值绝对值和:
则n维向量xj=(xj1,...,xjn)T与n维向量xk=(xk1,...,xkn)T之间相似度是:
其数值越大,则两者越相似,反之,则差异越大。
上述向量间相似度的计算方法,各维设置的权值系数δi按如下原则取值::
a、如果n维向量xm第i维值xmi表达的信息与物体的形态有关,则δi可以取值为1;
b、如果n维向量xm第i维值xmi表达的信息与物体的形态无关,则δi的取值范围为:0≤δi<1;
c、如果对n维向量xm各维取值具体定义不明确,则δi=1,i=1,2,...,n。
本发明提出的相似度计算方法,计算简便,与欧几里得距离具有近似的复杂度,且对数据没有任何限制。由于本方法采用的差值和绝对值能够反映向量间差值的分布情况,因而该方法不但考虑了向量间各维差值绝对值的和(如同欧几里得距离和曼哈顿距离),而且考虑了向量间各维差值的具体特征,即若把向量作为空间中物体,则本发明的方法从物体的大小和形状两个方面进行相似度的计算。故此,本发明的相似度测量方法具有比传统方法具有更高的精度,更能逼近实际。
附图说明
下面结合附图对本发明作进一步说明。
图1-1、图1-2、图1-3、图1-4分别表示二维向量的四个二维物体;
图2是在二维空间中到原点距离等于1时,SSD、ED和SAD构成的形状比较;
图3是在二维空间中到原点距离等于1时,MSD、ED和SAD构成的形状比较。
图中各标号表示为:a.二维物体a;b.二维物体b;c.二维物体c;d.二维物体d。
文中所用符号为:SSD、相似度测量距离,MSD、相似度测量距离,ED、欧几里得距离,SAD、曼哈顿距离,δi、权值系数,xj、xk、向量。
具体实施方式
设在n维坐标系中有两个n维向量:xj=(xj1,...,xjn)T和xk=(xk1,...,xkn)T,n维向量xj与n维向量xk间的差值和绝对值(ASD)定义为:
差值和绝对值能够反映向量间差值的分布情况,当δi=1(i=1,2,...,n)时,有以下性质:
a)差值和绝对值的取值范围是[0,SAD],其中SAD是曼哈顿距离;
b)当参照物向量的各维值均大于等于(或小于等于)待测向量时,即两者形状相同或相似而大小存在差异时,差值和绝对值等于曼哈顿距离,即满足ASD=SAD;
c)当参照物向量的各维值部分大于而部分小于待测向量时(形状差异比较大)时,两者之间的差值和绝对值小于曼哈顿距离,特殊情况下,差值和绝对值等于零;
d)结合前面b)和c),在曼哈顿距离一定的前提条件下,差值和绝对值能够近似地反映向量间形状差异的大小,差值和绝对值越大,则两者的形状越相似,反之,形状差异越大。
本发明利用差值和绝对值的性质,结合传统的欧几里得距离和曼哈顿距离,设计了两种基于向量间差值特征的相似度测量距离,不但考虑了向量间各维差值绝对值的和(如同欧几里得距离和曼哈顿距离),而且考虑了向量间各维差值的具体特征,故此,本发明的相似度测量方法具有比传统方法更高的精度,更能逼近实际。
实施例1.假设有四个二维向量:x1=(5,5)T,x2=(4,4)T,x3=(4,6)T和x4=(5,7)T,以向量x1为参照物,分析向量x2,x3,x4与x1之间的相似度。
首先,按照各自的距离定义,分别计算二维向量x2,x3,x4与x1之间的各种距离,计算结果记录在表1中。根据表1,二维向量x2,x3,x4与x1之间的曼哈顿距离都是2,表明以曼哈顿距离作为相似度的测量标准,x2,x3,x4与x1具有相同的相似度;相应的欧几里得距离分别1.414、1.414和2,表示x2,x3与x1具有相同的相似度,并且比x4更接近x1。
表1:向量x1=(5,5)T与x2=(4,4)T,x3=(4,6)T和x4=(5,7)T之间的不同距离
距离标准 | 曼哈顿距离 | 欧几里得距离 | 相似度测量距离(SSD) | 相似度测量距离(MSD) |
d(x2,x1) | 2 | 1.414 | 1.414 | 1.414 |
d(x3,x1) | 2 | 1.414 | 2.828 | 2.828 |
d(x4,x1) | 2 | 2 | 2 | 2 |
注:表中计算结果四舍五入,保留小数点后三位。
如果把这四个二维向量看作二维空间中的四个二维物体,物体的宽度和高度分别取二维自向量各维的数值,则可用图1-1、图1-2、图1-3、图1-4中的四个二维物体(a)、(b)、(c)和(d)依次表示二维向量x1,x2,x3和x4。
分析图1-1、图1-2、图1-3、图1-4,物体(b)、(c)和(d)与物体(a)的宽度和高度的差值的绝对值之和都是2,由于(b)与(a)都属于正方形,可以看作是物体(a)等比例的缩小,推出(b)与(a)最为相似;由于物体(d)与物体(a)的长度一样,且与物体(c)相比更接近于正方形,因而物体(d)比物体(c)更接近于物体(a)。显然,这一结果考虑了四个物体之间的大小和形状两个因素,符合人们的日常经验和视觉对比。由此,物体(b)、(c)和(d)与物体(a)的相似度由大到小的排列顺序应当是:(b)、(d)和(c),若用距离测量四个向量的相似度程度,彼此间的距离应当满足:d(x2,x1)<d(x4,x1)<d(x3,x1)。根据表1,欧几里得距离和曼哈顿距离均无法得出准确结果,依据本发明的相似度距离计算方法则能够得出正确的结果。
实施例2.本例采用著名的国际标准的数据测试集—Iris数据集进行说明。Iris数据集共包含150条样本记录,分别取自三种不同的鸢尾属植物Setosa、Versicolor和Virginica的花朵样本,每一种植物各有50条记录,其中每条记录有四个属性:萼片长度(sepallength)、萼片宽度(sepal width)、花瓣长度(petal length)和花瓣宽度(petal width)。
测试中,首先分别计算出三种植物记录(各有50条)的算术平均值,作为三种植物的标准参照样本,然后计算数据集中所有记录与三个参照样本的距离,选择与其距离最近的参照样本的类别作为该记录的类别,进行分类。计算后分类结果记录在表2中。
表2:依据不同距离作为相似度测量标准,Iris数据集的分类结果对比
注:由于数据集中的数据表述了物体的形状,本发明的相似度测量距离的计算中,向量各维设置的权值系数δ均取值为1.
根据表2,应用欧几里得距离和曼哈顿距离进行分类,其错误分类数都是11,应用本发明的两种相似度计算方法,其错误分类数分别是5和7,错误分类数目分别下降了54.5%和36.4%。显然本发明方法能够获得比欧几里得距离和曼哈顿距离更好的分类效果,具有更高的精度。
图2、3结合具体实例对各相似度距离之间的差异作了进一步的说明,图2是在二维空间中到原点距离等于1时,SSD、ED和SAD构成的形状。分析图2,到原点的曼哈顿距离等于1的所有点构成了菱形,表明了按照曼哈顿距离进行相似度测量,菱形上的各个点与原点具有相同的相似度;到原点的欧几里得距离等于1的所有点构成了圆形,表明了按照欧几里得距离进行相似度测量,圆形上的各个点与原点具有相同的相似度;到原点的相似度测量距离SSD等于1的所有点构成不规则的类似椭圆的图形,表明了按照相似度测量距离(本发明方法一)SSD进行相似度测量,这个不规则的类似椭圆的图形上的各个点与原点具有相同的相似度。
图3是在二维空间中到原点距离等于1时,MSD、ED和SAD构成的形状。分析图3,到原点的曼哈顿距离等于1的所有点构成了菱形,表明了按照曼哈顿距离进行相似度测量,菱形上的各个点与原点具有相同的相似度;到原点的欧几里得距离等于1的所有点构成了圆形,表明了按照欧几里得距离进行相似度测量,圆形上的各个点与原点具有相同的相似度;到原点的相似度测量距离MSD距离等于1的所有点构成不规则的图形,表明了按照相似度测量距离MSD进行相似度测量,这个不规则的图形上的各个点与原点具有相同的相似度。
Claims (4)
1、一种向量间相似度的计算方法,设在n维坐标系中有两个n维向量:xj=(xjl,...,xjn)T和xk=(xkl,...,xkn)T,定义n维向量xj与n维向量xk间的相似度测量距离是:
其中,ED为欧几里得距离: ASD为向量差值和绝对值:
则n维向量xj=(xjl,...,xjn)T与n维向量xk=(xk1,...,xkn)T之间相似度是:
其数值越大,则两者越相似,反之,则差异越大。
2、根据权利要求1所述向量间相似度的计算方法,其特征是,所述权值系数δi按下述原则取值:
A、如果n维向量xm第i维值xmi表达的信息与物体的形态有关,则δi取值为1;
B、如果n维向量xm第i维值xmi表达的信息与物体的形态无关,则δi取值为:0≤δi<1;
C、如果对n维向量xm各维取值具体定义不明确,则δi=1,i=1,2,...,n。
3、一种向量间相似度的计算方法,设在n维坐标系中有两个n维向量:xj=(xjl,...,xjn)T和xk=(xk1,...,xkn)T,定义n维向量xj与n维向量xk间的相似度测量距离是:
dMSD(j,k)=ED×(2-ASD/MSAD)
其中,ED为欧几里得距离: ASD为向量差值和绝对值:
则n维向量xj=(xj1,...,xjn)T与n维向量xk=(xk1,...,xkn)T之间相似度是:
其数值越大,则两者越相似,反之,则差异越大。
4、根据权利要求3所述向量间相似度的计算方法,其特征是,所述权值系数δi按下述原则取值:
a、如果n维向量xm第i维值xmi表达的信息与物体的形态有关,则δi可以取值为1;
b、如果n维向量xm第i维值xmi表达的信息与物体的形态无关,则δi的取值范围为:0≤δi<1;
c、如果对n维向量xm各维取值具体定义不明确,则δi=1,i=1,2,...,n。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100738363A CN101488190A (zh) | 2009-02-27 | 2009-02-27 | 一种向量间相似度的计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2009100738363A CN101488190A (zh) | 2009-02-27 | 2009-02-27 | 一种向量间相似度的计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101488190A true CN101488190A (zh) | 2009-07-22 |
Family
ID=40891074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2009100738363A Pending CN101488190A (zh) | 2009-02-27 | 2009-02-27 | 一种向量间相似度的计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101488190A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200805A (zh) * | 2014-08-30 | 2014-12-10 | 长城汽车股份有限公司 | 汽车驾驶员语音助手 |
CN106209605A (zh) * | 2016-08-30 | 2016-12-07 | 程传旭 | 一种网络信息中附件的处理方法和设备 |
CN107062517A (zh) * | 2017-01-03 | 2017-08-18 | 芜湖美智空调设备有限公司 | 一种基于空调应用的智能交互方法、系统及空调器 |
CN110795527A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 候选实体排序方法、训练方法及相关装置 |
CN110909577A (zh) * | 2018-09-18 | 2020-03-24 | 上汽通用汽车有限公司 | 基于信号相似距离的路面特征分类识别方法 |
-
2009
- 2009-02-27 CN CNA2009100738363A patent/CN101488190A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104200805A (zh) * | 2014-08-30 | 2014-12-10 | 长城汽车股份有限公司 | 汽车驾驶员语音助手 |
CN104200805B (zh) * | 2014-08-30 | 2018-01-19 | 长城汽车股份有限公司 | 汽车驾驶员语音助手 |
CN106209605A (zh) * | 2016-08-30 | 2016-12-07 | 程传旭 | 一种网络信息中附件的处理方法和设备 |
CN106209605B (zh) * | 2016-08-30 | 2019-12-06 | 西安航空学院 | 一种网络信息中附件的处理方法和设备 |
CN107062517A (zh) * | 2017-01-03 | 2017-08-18 | 芜湖美智空调设备有限公司 | 一种基于空调应用的智能交互方法、系统及空调器 |
CN110909577A (zh) * | 2018-09-18 | 2020-03-24 | 上汽通用汽车有限公司 | 基于信号相似距离的路面特征分类识别方法 |
CN110909577B (zh) * | 2018-09-18 | 2023-11-17 | 上汽通用汽车有限公司 | 基于信号相似距离的路面特征分类识别方法 |
CN110795527A (zh) * | 2019-09-03 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 候选实体排序方法、训练方法及相关装置 |
CN110795527B (zh) * | 2019-09-03 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 候选实体排序方法、训练方法及相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105134619B (zh) | 一种基于小波能量、流形降维和动态时间规整的故障诊断与健康评估方法 | |
CN105224960B (zh) | 基于聚类算法的玉米种子高光谱图像分类识别模型更新方法 | |
CN104008375B (zh) | 基于特征融合的集成人脸识别方法 | |
CN105809693B (zh) | 基于深度神经网络的sar图像配准方法 | |
CN101561868B (zh) | 基于高斯特征的人体运动情感识别方法 | |
CN108052886B (zh) | 一种小麦条锈病菌夏孢子自动统计计数方法 | |
CN103021029B (zh) | 一种三维模型构件类别的自动标注方法 | |
CN106056082B (zh) | 一种基于稀疏低秩编码的视频动作识别方法 | |
CN104751469B (zh) | 基于核模糊c均值聚类的图像分割方法 | |
CN101809619A (zh) | 属性估计系统、年龄估计系统、性别估计系统、年龄和性别估计系统和属性估计方法 | |
CN101488190A (zh) | 一种向量间相似度的计算方法 | |
CN103295031B (zh) | 一种基于正则风险最小化的图像目标计数方法 | |
CN103345760B (zh) | 一种医学图像对象形状模板标记点的自动生成方法 | |
CN109858386A (zh) | 一种基于荧光显微图像的微藻细胞识别方法 | |
CN105574265B (zh) | 面向模型检索的装配体模型定量描述方法 | |
CN104615634A (zh) | 基于方向特征的手掌静脉指导性快速检索方法 | |
CN109003266A (zh) | 一种基于模糊聚类统计图像质量主观评价结果的方法 | |
CN102930291B (zh) | 用于图形图像的k近邻局部搜索遗传自动聚类方法 | |
CN112347894A (zh) | 基于迁移学习和高斯混合模型分离的单株植被提取方法 | |
CN106778897B (zh) | 基于余弦距离和中心轮廓距离的两次植物物种识别方法 | |
CN104951666A (zh) | 一种疾病诊断方法和装置 | |
CN105930859A (zh) | 基于线性流形聚类的雷达信号分选方法 | |
CN106250818B (zh) | 一种全序保持投影的人脸年龄估计方法 | |
Herdiyeni et al. | Leaf shape identification of medicinal leaves using curvilinear shape descriptor | |
CN101667253B (zh) | 一种高光谱遥感数据多类别监督分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20090722 |