现有技术中计算图像图形的相似距离多使用如下四种方案:
方案一
现有的使用归一法计算多特征计算距离的方案。一般都会采用高斯归一算法,因为高斯归一效果比较好,一般会使用下面(1-1)公式最终的归一处理,简单但降低了搜索的质量。原因是距离小于0的多个距离值都被归一为0,而大于1的就被处理成1。
特征归到0到1区间
其中,Ni为每一个特征归一化后的值。
这个是被大量采用的方案,但有两个非常明显的缺点:
从公式(1-1)看出,多张图片的特征值在归一时可能因为小于0而被归成0,这样的话,不同的图片距离值变得一样,这明显是有问题的,不利于找到最合适的相似图。同样大于1的情况也存在类似的问题。同时在逻辑上来说,如果距离为0的话,理想应该就是2张一模一样的图片,理想的情况是不同的图片有不同的距离值。
由上分析得知,这样没有经过优化过的算法造成在相似搜索时质量变差,而精确搜索同样的图片时会出现多张不同的图片但距离值都是0。
分析原因:造成的原因是公式(1-1)简单归一造成的,小于零的距离值都被归成0,这样的话有多张图片的特征值在归一时都被归成0了,这时究竟哪张图片的距离是最小呢?在相似距离的判断中,这直接影响相似的排序和质量。简单地把这一步去掉也不行,这样的话就会存在负值了,负值的问题在于如果比较的2张图片是一样的,那计算出来的距离逻辑上应该为0才对。
方案二
聚类法-通过对多个特征进行聚类,使用K-MEAN等类似的聚类算法,得到相似特征集合。缺点是不方便定量得到精确的特征间的距离,结果粗糙,大多数时候是一个定性的结果。
方案三
直接使用广义欧氏计算公式进行多特征整合,如下:
其中,wi是权重。优点是能定量得到特征的距离,但是,多个特征之间的地位不平等,需要进行大量的试验确定wi来实现各个特征的平衡或者说是突出某一特征,即平衡各特征间地位的步骤相当复杂,而该步骤对相似度判断结果影响较大。
方案四
主成分分析法principal component analysis(PCA)
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。主成分分析法简介-principal component analysis(PCA)主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分;第二变量的方差次大,并且和第一变量不相关,称为第二主成分;依次类推。
此方案相对先进也最复杂。它的准确依赖一些前提条件,否则效果不好。主成分分析有如下不足:①没有明确和判断该数据降维的条件是否成立。②主成分系数的平方和不为1。③没有明确和判断所用数据是否适合作单独的主成分分析。④选取的主成分对原始变量没有代表性。也就是说,方案四的实现,需要上述多个先决条件都满足的情况下,才能实现准确的相似度判断,即需要经历多次测试和配置,才能满足上述先决条件,方案实现很复杂。
综上可知,现有技术中计算图像图形的相似距离的方案存在复杂、不能够有效定量得到特征间距离或不方便把多个特征的地位均衡等问题。
发明内容
本发明要解决的技术问题是提供一种数据处理方法及装置,为解决现有技术中计算图像图形的相似距离的方案存在复杂、不能够有效定量得到特征间距离或不方便把多个特征的地位均衡等问题。
为了解决上述技术问题,本发明实施例提供一种数据处理方法,包括如下步骤:
获取待检测图片的第一特征值和图片库中的图片的第二特征值;
根据所述第一特征值和所述第二特征值,获得所述待检测图片与所述图片库中的图片之间的特征距离值;
对所述特征距离值进行归一化处理,获得归一化处理结果;
根据所述归一化处理结果,获得所述待检测图片与所述图片库中的图片的相似距离。
上述的方法,其中,对所述特征距离值进行归一化处理,获得归一化处理结果的步骤包括:
获取所述特征距离值的均值;
根据所述均值获得所述特征距离值的标准差;
将所述标准差进行归一化处理,获得初步归一的所述特征距离值;
根据所述标准差获得初步归一的所述特征距离值的偏离常数;
根据所述偏离常数获得纠偏后的所述特征距离值,将所述纠偏后的所述特征距离值作为所述归一化处理结果。
上述的方法,其中,获取所述特征距离值的均值的步骤包括:
采用如下计算公式:
获取所述均值;
其中,所述T_ave为均值;所述n为图片库中图片的数量;所述Di为所述特征距离值。
上述的方法,其中,根据所述均值获得所述特征距离值的标准差的步骤包括:
采用如下计算公式:
获得所述标准差;
其中,所述T_bzc为标准差;所述n为图片库中图片的数量;所述Di为所述特征距离值;所述T_ave为均值。
上述的方法,其中,将所述标准差进行归一化处理,获得初步归一的所述特征距离值的步骤包括:
采用如下计算公式:
Ni=(Di-T_bzc)/3×T_bzc,将所述标准差进行归一化处理;
其中,所述Ni为初步归一的所述特征距离值;所述Di为所述特征距离值;所述T_bzc为标准差。
上述的方法,其中,根据所述标准差获得初步归一的所述特征距离值的偏离常数的步骤包括:
采用如下计算公式:
ContOff=(0-T_bzc)/3×T_bzc,获得所述偏离常数;
其中,所述ContOff为偏离常数;所述T_bzc为标准差。
上述的方法,其中,根据所述偏离常数获得纠偏后的所述特征距离值的步骤包括:
采用如下计算公式:
获得纠偏后的所述特征距离值;
其中,所述Vi为纠偏后的所述特征距离值;所述n为图片库中图片的数量;所述Ni为初步归一的所述特征距离值;所述ContOff为偏离常数。
上述的方法,其中,根据所述归一化处理结果,获得所述待检测图片与所述图片库中的图片的相似距离的步骤具体为:
根据归一化后的所述特征距离值和预设权重进行加权求和,进而得到所述相似距离。
上述的方法,其中,所述方法还包括如下步骤:
对所述相似距离进行线性扩展。
上述的方法,其中,对所述相似距离进行线性扩展的步骤包括:
采用如下计算公式:
Z=E×V0,E×V1,···,E×Vi,对所述相似距离进行线性扩展;
其中,所述Z为相似距离数组;所述V0、所述V1和所述Vi均为所述相似距离,i取0到n-1,n为图片库中图片的数量;所述E为扩展常数。
本发明还提供了一种数据处理装置,包括:
获取模块,用于获取待检测图片的第一特征值和图片库中的图片的第二特征值;
第一获得模块,用于根据所述第一特征值和所述第二特征值,获得所述待检测图片与所述图片库中的图片之间的特征距离值;
处理模块,用于对所述特征距离值进行归一化处理,获得归一化处理结果;
第二获得模块,用于根据所述归一化处理结果,获得所述待检测图片与所述图片库中的图片的相似距离。
上述的装置,其中,所述处理模块包括:
获取单元,用于获取所述特征距离值的均值;
第一获得单元,用于根据所述均值获得所述特征距离值的标准差;
归一处理获得单元,用于将所述标准差进行归一化处理,获得初步归一的所述特征距离值;
第二获得单元,用于根据所述标准差获得初步归一的所述特征距离值的偏离常数;
第三获得单元,用于根据所述偏离常数获得纠偏后的所述特征距离值,将所述纠偏后的所述特征距离值作为所述归一化处理结果。
上述的装置,其中,所述装置还包括:
线性扩展模块,用于对所述相似距离进行线性扩展。
本发明的上述技术方案的有益效果如下:
上述方案中,所述方法相对不复杂,能够有效定量得到特征间的距离,同时又能够方便的把多个特征的地位均衡;在对多个特征做归一化后的值均大于等于0,不同的图片的特征有唯一的不同的归一化值,保证同样的图片的距离归一后为0。通过技术改进提高了相似图片搜索的质量。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的技术中计算图像图形的相似距离的方案存在复杂、不能够有效定量得到特征间距离或不方便把多个特征的地位均衡等问题,提供一种数据处理方法,如图1所示,包括如下步骤:
步骤11,获取待检测图片的第一特征值和图片库中的图片的第二特征值;
步骤12,根据所述第一特征值和所述第二特征值,获得所述待检测图片与所述图片库中的图片之间的特征距离值;
步骤13,对所述特征距离值进行归一化处理,获得归一化处理结果;
步骤14,根据所述归一化处理结果,获得所述待检测图片与所述图片库中的图片的相似距离。
其中,根据所述第一特征值和所述第二特征值,获得所述待检测图片与所述图片库中的图片之间的特征距离值的步骤包括:
采用如下欧氏距离计算公式:
获得所述特征距离值;其中,0<wi<
1;所述Di为所述特征距离值;m为图片中某特征的子特征个数;wi为图片中各个特征对应的
权重;ri和si分别为对应于待检测图片和图片库中图片同一子特征的各个值。
具体的,对所述特征距离值进行归一化处理,获得归一化处理结果的步骤包括:
获取所述特征距离值的均值;
根据所述均值获得所述特征距离值的标准差;
将所述标准差进行归一化处理,获得初步归一的所述特征距离值;
根据所述标准差获得初步归一的所述特征距离值的偏离常数;
根据所述偏离常数获得纠偏后的所述特征距离值,将所述纠偏后的所述特征距离值作为所述归一化处理结果。
本发明实施例提供的所述方法相对不复杂,能够有效定量得到特征间的距离,同时又能够方便的把多个特征的地位均衡;在对多个特征做归一化后的值均大于等于0,不同的图片的特征有唯一的不同的归一化值,保证同样的图片的距离归一后为0。通过技术改进提高了相似图片搜索的质量。
本发明实施例提供的所述方法中获取所述特征距离值的均值的步骤包括:采用如下计算公式:
获取所述均值;其中,所述T_ave为均值;所述n为图片库中图片的数量;所述Di为所述特征距离值。
本发明实施例提供的所述方法中根据所述均值获得所述特征距离值的标准差的步骤包括:采用如下计算公式:
获得所述标准差;其中,所述T_bzc为标准差;所述n为图片库中图片的数量;所述Di为所述特征距离值;所述T_ave为均值。
本发明实施例提供的所述方法中将所述标准差进行归一化处理,获得初步归一的所述特征距离值的步骤包括:采用如下计算公式:
Ni=(Di-T_bzc)/3×T_bzc,将所述标准差进行归一化处理;其中,所述Ni为初步归一的所述特征距离值;所述Di为所述特征距离值;所述T_bzc为标准差。
本发明实施例提供的所述方法中根据所述标准差获得初步归一的所述特征距离值的偏离常数的步骤包括:采用如下计算公式:
ContOff=(0-T_bzc)/3×T_bzc,获得所述偏离常数;其中,所述ContOff为偏离常数;所述T_bzc为标准差。
本发明实施例提供的所述方法中根据所述偏离常数获得纠偏后的所述特征距离值的步骤包括:采用如下计算公式:
获得纠偏后的所述特征距离值;其中,所述Vi为纠偏后的所述特征距离值;所述n为图片库中图片的数量;所述Ni为初步归一的所述特征距离值;所述ContOff为偏离常数。
具体的,本发明实施例提供的所述方法中根据所述归一化处理结果,获得所述待检测图片与所述图片库中的图片的相似距离的步骤具体为:根据归一化后的所述特征距离值和预设权重进行加权求和,进而得到所述相似距离;采用如下计算公式进行计算:
Sumj=w1*Cj+w2*Sj...+wi*Tj,其中,wi为图片中各个特征对应的权重,i取1到m,m为提取的同一图片的特征个数;0<wi<1;Sumj为待检测图片与图库中某一图片之间的相似距离;j取0到n-1,这样得到一共n个相似距离,其中n为图片库中图片的数量;Cj、Sj和Tj分别对应着特征距离数组的值(即待检测图片与图片库中同一图片的各个特征之间的距离值)。权重的选择可以根据重要程度等原则进行取值。
下面以图片中颜色和形状两个特征为例,具体说明本发明实施例提供的所述方法的执行流程,如图2所示。
需要说明的是,待检测图片为需要比较的图片,需要计算出这张图片和库里的图片的距离,从而知道相似程度最接近的是哪些图片。首先需要对图片进行预处理。原因是图片的大小一般不一致,需要进行处理,把图片规格成统一大小。经过预处理后就可以开始提取图片的特征了,在这里,以提取图片的颜色、形状二个特征为例。
1.计算特征距离数组。
我们采用通用的欧氏距离计算公式对二类特征分别求取距离。如下:
获得所述特征距离值;其中,0<wi<
1;所述Di为所述特征距离值;m为图片中某特征的子特征个数;wi为图片中各个特征对应的
权重;ri和si分别为对应于待检测图片和图片库中图片同一子特征的值。
对于颜色特征,分别有4个子特征组成,则m=4,如(R、G、B、Gray)使用上述公式得到其中j取0-3,分别对应(R、G、B、Gray)4个特征;i取0到n-
1,这样一共得到n个距离,其中n为图片库中图片的数量。Cj为待检测图片的子特征,Lj为图
片库中图片的子特征。(R、G、B、Gray)的含义如下:红、绿、蓝、灰度值。
颜色特征数组,结果如下:
D_Color0,D_Color1,···,D_Colorn-1,其中n为图片库中图片的数量。
对于形状特征,分别有5个子特征组成,则m=5,如(A、D、OA、OD、N)使用上述公式得
到其中j取0-4,分别对应(A、D、OA、OD、N)5个特征;i取0到
n-1,这样也得到一共n个距离,其中n为图片库中图片的数量。Cj待检测图片的子特征,Lj为
图片库中图片的子特征。A、D、OA、OD、N的含义如下:角度、质量中心、外部角度、外部质量中
心、顶点。
形状特征数组,结果如下:
D_Shape0,D_Shape1,···,D_Shapen-1,其中n为图片库中图片的数量。
2.利用改进的高斯归一化计算方法和步骤对所述特征距离值进行归一化处理,获得归一化处理结果。
1)计算均值T_ave。
其中,所述T_ave为均值;所述n为图片库中图片的数量;所述Di为步骤1计算出来的特征距离值(Di为形状特征或颜色特征的距离值)。
2)计算标准差T_bzc。
其中,所述T_bzc为标准差;所述n为图片库中图片的数量;所述Di为步骤1计算出来的特征距离值;所述T_ave为步骤1)计算出来的均值。
3)归一化处理,获得初步归一的所述特征距离值Ni。
Ni=(Di-T_bzc)/3×T_bzc,其中,所述Ni为初步归一的所述特征距离值;所述Di为步骤1计算出来的特征距离值;所述T_bzc为步骤2)计算出来的标准差。
4)计算偏离常数ContOff。
ContOff=(0-T_bzc)/3×T_bzc,其中,所述ContOff为偏离常数;所述T_bzc为步骤2)计算出来的标准差。
5)对初步归一化后的特征距离Ni进行纠偏(正值化)。
其中,所述Vi为纠偏后的所述特征距离值;所述n为图片库中图片的数量;所述Ni为步骤3)计算出来的初步归一的所述特征距离值;所述ContOff为步骤4)计算出来的偏离常数。
3.计算待检测图片与图片库中图片之间的相似距离(设定权重求和)。
各个特征经过了步骤2的归一化后,特征的地位平等了,然后可以设定权重,较为重要的特征可以设定高的权值;计算方法如下:
Sumj=w1*Cj+w2*Sj...+wi*Tj,其中,wi为图片中各个特征对应的权重,i取1到m,m为提取的同一图片的特征个数(特征数组的数量);0<wi<1;Sumj为待检测图片与图库中某一图片之间的相似距离;j取0到n-1,这样得到一共n个相似距离,其中n为图片库中图片的数量;Cj、Sj和Tj分别对应着特征距离数组的值(即待检测图片与图片库中同一图片的各个特征之间的距离值)。
由此得到相似距离数组:
D_Sum0,D_Sum1,···,D_Sumn-1,其中n为图片库中图片的数量。
本实施例中m=2;w1+w2=1;Sumj=w1*Cj+w2*Sj,其中,w1和w2分别为颜色和形状的权重;Cj和Sj对应于待检测图片与图片库中同一图片的颜色和形状的特征距离;j取0到n-1,这样得到一共n个相似距离,其中n为图片库中图片的数量。由此得到相似距离数组。
进一步的,为满足后期数据的线性扩展需求(如有些降维处理中要求输入数据在一定范围内),本发明实施例提供的所述方法还包括如下步骤:对所述相似距离进行线性扩展。
其中,对所述相似距离进行线性扩展的步骤包括:采用如下计算公式:
Z=E×V0,E×V1,···,E×Vi,对所述相似距离进行线性扩展;其中,所述Z为相似距离数组;所述V0、所述V1和所述Vi均为所述相似距离(即上述的D_Sum0,D_Sum1,···,D_Sumn-1),i取0到n-1,n为图片库中图片的数量;
所述E为扩展常数。举例如下:
若要扩展到[0,255]之间,则E=255。
{Zj}=255×V0,255×V1,···,255×Vi;其中,所述Z为相似距离数组;所述V0、所述V1和所述Vi均为所述相似距离,i取0到n-1,n为图片库中图片的数量。
为解决上述技术问题,本发明实施例还提供了一种数据处理装置,如图3所示,包括:
获取模块,用于获取待检测图片的第一特征值和图片库中的图片的第二特征值;
第一获得模块,用于根据所述第一特征值和所述第二特征值,获得所述待检测图片与所述图片库中的图片之间的特征距离值;
处理模块,用于对所述特征距离值进行归一化处理,获得归一化处理结果;
第二获得模块,用于根据所述归一化处理结果,获得所述待检测图片与所述图片库中的图片的相似距离。
具体的,所述处理模块包括:获取单元,用于获取所述特征距离值的均值;第一获得单元,用于根据所述均值获得所述特征距离值的标准差;归一处理获得单元,用于将所述标准差进行归一化处理,获得初步归一的所述特征距离值;第二获得单元,用于根据所述标准差获得初步归一的所述特征距离值的偏离常数;第三获得单元,用于根据所述偏离常数获得纠偏后的所述特征距离值,将所述纠偏后的所述特征距离值作为所述归一化处理结果。
进一步的,本发明实施例提供的所述装置还包括:线性扩展模块,用于对所述相似距离进行线性扩展。
本发明实施例提供的所述装置能够有效定量得到特征间的距离,同时又能够方便的把多个特征的地位均衡;在对多个特征做归一化后的值均大于等于0,不同的图片的特征有唯一的不同的归一化值,保证同样的图片的距离归一后为0。通过技术改进提高了相似图片搜索的质量。
需要说明的是,上述方法的所述实现实施例均适用于该装置的实施例中,也能达到相同的技术效果。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。