CN103679206B - 图像分类的方法和装置 - Google Patents
图像分类的方法和装置 Download PDFInfo
- Publication number
- CN103679206B CN103679206B CN201310728193.8A CN201310728193A CN103679206B CN 103679206 B CN103679206 B CN 103679206B CN 201310728193 A CN201310728193 A CN 201310728193A CN 103679206 B CN103679206 B CN 103679206B
- Authority
- CN
- China
- Prior art keywords
- code
- image
- dimension
- coefficient
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 94
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Abstract
本发明公开了一种图像分类的方法和装置,属于图像处理技术领域。所述方法包括:获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值;根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。本发明通过根据权重函数计算中间代码权重,由中间代码权重的和代表局部特征的高维代码矢量,以得到数量较多的非零系数,有效实现了非线性的局部特征到线性高维码的描述,有利于图像的线性分类。
Description
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像分类的方法和装置。
背景技术
图像分类是根据图像特征区分不同类别目标的图像处理方法。特征编码是图像分类的关键步骤,实现了图像从非线性的局部特征描述到线性高维码的描述,有利于图像的线性分类。
现有技术中,局部编码方案将非线性的局部特征映射到线性高维码后,得到特定数量的高维码的非零系数,实现了图像从非线性的局部特征描述到线性高维码的描述。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
现有技术中,局部编码方案收到非零系数数量的限制,不能构造足够多的非零系数进行图像的描述,造成了图像特征信息的丢失,使得属于同一个群集的特征点之间仍有较大差异,不利于图像分类。
发明内容
为了解决现有技术中高维码非零系数的数量的问题,本发明实施例提供了一种图像分类的方法和装置。所述技术方案如下:
第一方面,提供了一种图像分类的方法,所述方法包括:
获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值;
根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;
根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。
结合第一方面,在第一方面的第一种可能的实施方式下,所述根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重,具体包括:
利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];
根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g]。
结合第一方面的第一种实施方式,在第一方面的第二种可能实施方式下,所述根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别,具体包括:
根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci,根据根据所述图像特征值的高维码确定所述图像的类别。
结合第一方面或者第一方面的第一种可能的实施方式或者第二种可能的实施方式,在第一方面的第三种可能的实施方式中,计算非零系数的第一数量值K和系数因子g的比值,得到非零系数的第二数量值f之前,所述方法包括:
根据待分类图像,获取所述待分类图像的局部特征向量X=[x1,x2,……,xN]∈RD×N。
结合第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,将所述中间代码系数代入高维码公式得到高维码ci之后,所述方法包括:
判断所述局部特征向量中的每一个特征值是否都有对应的高维码;
如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第l个高维码的系数。
结合第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式中,如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第l个高维码的系数之后,所述方法包括:
将图像按照预设区域进行分割,获取分割后的各个区域的最大池;
合并所述各个区域的最大池,得到图像的空间池。
结合第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,合并所述各个区域的最大池,得到图像的空间池之后,所述方法包括:
根据所述图像的空间池和线性分类器,对图像进行分类。
第二方面,提供了一种图像分类的装置,所述装置包括:
第一计算模块,用于获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值;
分解模块,用于根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;
第一分类模块,用于根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。
结合第二方面,在第二方面的第一种可能的实施方式下,所述分解模块,包括:
分解单元,用于利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];
权重函数计算单元,用于根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g]。
结合第二方面,在第二方面的第二种可能的实施方式下,所述第一分类模块,包括:
中间代码计算单元,用于根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
高维码计算单元,用于将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci,根据所述图像特征的高维码确定所述图像的类别。
结合第二方面或者第二方面的第一种可能实施方式或者第第二方面下第二种可能的实施方式,在第二方面的第三种可能的实施方式中,所述装置包括:
特征向量获取模块,用于根据待分类图像,获取所述待分类图像的局部特征向量X=[x1,x2,……,xN]∈RD×N。
结合第二方面的第三种可能的实施方式,在第二方面的第四种可能的实施方式中,所述装置包括:
判断模块,用于判断所述局部特征向量中的每一个特征值是否都有对应的高维码;
最大池计算模块,用于如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第l个高维码的系数。
结合第二方面的第四种可能的实施方式,在第二方面的第五种可能的实施方式中,所述装置包括:
分割模块,用于将图像按照预设区域进行分割,获取分割后的各个区域的最大池;
合并模块,用于合并所述各个区域的最大池,得到图像的空间池。
结合第二方面的第五种可能的实施方式,在第二方面的第六种可能的实施方式中,所述装置包括:
第二分类模块根据所述图像的空间池和线性分类器,对图像进行分类。
本发明实施例提供的技术方案带来的有益效果是:
本发明提供了一种图像分类的方法和装置,通过获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值;根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别ci。采用本发明实施例提供的技术方案,通过根据权重函数计算中间代码权重,由中间代码权重的和代表局部特征的高维代码矢量,以得到数量较多的非零系数,有效实现了非线性的局部特征到线性高维码的描述,有利于图像的线性分类。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例中提供的一种图像分类的方法流程图;
图2是本发明第二实施例中提供的一种图像分类的方法流程图;
图3是本发明第三实施例中提供的一种图像分类的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明第一实施例中提供的一种方法流程图,本发明实施例的执行主体是具有图像处理功能的电子设备,如计算机、笔记本、平板电脑等,参见图1,该方法包括:
101:获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值。
本实施例中,步骤101具体包括:计算非零系数的第一数量值K和系数因子g的比值,得到非零系数的第二数量值f;
其中,非零系数的第一数量值K为图像编码中码本的维度,为了使图像的非线性特征在编码过程中,得到足够多的非零系数,K值的选值可以为60、70、80等,对此,本发明实施例不做具体限定。系数因子g为码本的维度的分解因子,非零系数的第二数量值f为图像的特征值在编码后对应的高维码的维度。非零系数的第一数量值K和非零系数的第二数量值f可由技术人员在设计过程中进行设置,也可以由用户自行设置,对此,本发明实施例不做具体限定。
计算非零系数的第一数量值K和系数因子g的比值,得到用于表示编码后高维码的维度的非零系数的第二数量值f,具体可用公式(1)表示:
f=K/g (1)
通过公式(1)计算得到非零系数的第二数量值f。
102:根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重。
具体地,所述步骤102具体包括:
102-1:利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];
其中,码本B为用于表示图像的特征向量的基向量,码本B由k个分量组成的向量。N为码本B的索引,取值范围为[1,k]。
利用系数因子g对码本B的索引N进行分解,将该码本B的索引N分为g个分量,得到分解后的索引H=[N1,……,Ng],H中的每一个分量包括f个值,即
通过利用系数因子对码本B的索引N进行分解,以便于进行局部权重的分配。
102-2:根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g];
其中,图像特征值x为图像局部特征向量中的任一特征值,用于描述图像的局部特性。
在得到该分解后的索引H=[N1,……,Ng]后,根据该H向量中的每一个分量以及分量作为索引对应的基向量,将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi)。
由于t为中间代码矢量,t=[1,2,……,g],则可得到对应的g个中间代码权重,每个码本B中的基向量bi,都可获得对应的g个中间代码权重。
103:根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。
具体地,在本实施例中,步骤103具体包括:
103-1:根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
当i属于码本B中的索引值时,将该中间代码权重ψt(x,bi)代入到公式将该中间代码权重ψt(x,bi)作为中间代码系数当i不属于码本B中的索引值时,该中间代码系数取值为0。
103-2:将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci。
由步骤102-2可知,由于t为中间代码矢量,t=[1,2,……,g],则可得到对应的g个中间代码权重,每个码本B中的基向量bi,都可获得对应的g个中间代码权重。通过步骤103对中间代码系数进行赋值后,每个ci都对应于g个中间代码系数
在该步骤103-2中,将中间代码系数代入高维码公式通过相加求和,得到图像特征值x的高维码ci。由于在步骤102-1中利用系数因子g对码本B的索引N进行分解,将该码本B的索引N分为g个分量,得到分解后的索引H=[N1,……,Ng],H中的每一个分量包括f个值,即该ci为f维的向量,实现了特征值到高维码的转换。
本发明提供了一种图像分类的方法,通过获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值;根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。采用本发明实施例提供的技术方案,通过根据权重函数计算中间代码权重,由中间代码权重的和代表局部特征的高维代码矢量,以得到数量较多的非零系数,有效实现了非线性的局部特征到线性高维码的描述,有利于图像的线性分类。
图2是本发明第二实施例中提供的一种图像分类的方法流程图,参见图2,该方法包括:
201:根据待分类图像,获取所述待分类图像的局部特征向量X=[x1,x2,……,xN]∈RD×N;
其中,该待分类图像为一幅给定的具有类别的图像,通过对该图像进行分类,实现该待待分类图像类别的确定。如给定的一组图像Iz=[i1,i2,……,ij],该组图像包括j幅图像,每一幅图像都是待分类图像,当存在L个类别时,图像分类的任务是基于局部特征以及分类器对j幅图像进行分类,即将每幅图像分配于L类中的一类。
根据待分类图像,采用特征提取算法进行特征提取,如尺度不变特征变换、定向梯度直方图、局部二值模式等,对此,本发明实施例不做具体限定,以获取该待分类图像的局部特征向量。
其中,尺度不变特征变换是基于物体上的一些局部外观的兴趣点的特征,与影像的大小和旋转无关。对于光线、噪声、些微视角改变具有不变性。基于这些不变特性,在数据量庞大的特征数据库中,该尺度不变特征具有较高的辨识度。
202:计算非零系数的第一数量值K和系数因子g的比值,得到非零系数的第二数量值f;
为了使图像的非线性的局部特征映射到线性高维码时,可以获取到足够多的非零系数,通常情况下非零系数的第一数量值K取较大的数值,而g取较小的数值,通过计算非零系数的第一数量值K和系数因子g的比值,得到非零系数的第二数量值f,非零系数的第二数量值f即为一个局部特征值对应的高维码的维数。K较大时,f值也较大。
图像的非线性的局部特征映射到线性高维码,便于使用线性分类器对图像进行分类,该映射过程称为非线性函数学习,非线性函数学习的过程应满足四点要求:
1.邻居描述(neighbor descriptors)也有类似的高维编码表示;
2.局部编码是必不可少的,也就是说,编码矢量的权重系数应该是正比邻居基向量的距离(基向量可以找到所有图像的图像特征聚类);
3.编码向量应该是平移不变;
4.编码向量的非零系数的数量应足够大,以便充分保留原有信息。
现有技术不能满足条件4,即不能提供做够多的非零系数,不能获取足够多的信息代表局部特征。因此,在非线性函数学习过程中,获取足够多的非零系数,用高维码表示图像局部特征的更多信息,从而使图像特征类线性可分幅度变大,得到一个图像分类的理想系统。
203:利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];
码本B为k个分量组成的向量,利用系数因子g对码本B的索引N进行分解,将该码本B的索引N分为g个分量,得到分解后的索引H=[N1,……,Ng],H中的每一个分量Ni包括f个值,即如当K为100,g为5时,通过K与g的比值可得f为20,即码本B的索引为H=[1,2,……,100]。
204:根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g];
在得到该分解后的索引H=[N1,……,Ng]后,根据该H向量中的每一个分量以及分量作为索引对应的基向量,将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi)。权重函数的分母为特征值x到与H向量中的每一个分量Nt对应的基向量的距离和,分子为特征值x与基向量bi的距离,通过分子和分母的比值,得到基向量bi的中间代码权重。
205:根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
该公式为中间代码系数的约束条件,约束了i与索引值之间的关系,即当i属于码本B中的索引值时,将该中间代码权重ψt(x,bi)代入到公式将该中间代码权重ψt(x,bi)作为中间代码系数当i不属于码本B中的索引值时,该中间代码系数取值为0。
206:将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci;
将中间代码系数代入高维码公式通过对g个中间代码系数相加求和,得到图像特征值x对应的f维的高维码ci。
207:判断所述局部特征向量中的每一个特征值是否都有对应的高维码,如果是,执行步骤208,如果否,执行步骤202;
图像的局部特征向量可表示为X=[x1,x2,……,xN]∈RD×N,对X中的每一个特征值进行步骤202-206的计算,以获取每一个特征值对应的高维码。
在计算每一个特征值对应的高维码的过程中,按照局部特征向量X的索引顺序进行计算,如果局部特征向量X的索引值等于N,该局部特征向量中的每一个特征值都有对应的高维码,如果局部特征向量X的索引值小于N,该局部特征向量中的每一个特征值不都有对应的高维码,需要对未得到高维码的特征值进行步骤202-206的计算。
208:如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第l个高维码的系数;
其中,最大池为图像中的所有高维码向量中具有相同的索引下标的值中的最大值,用于表示图像中高维码在图像中的最大响应。
在得到该局部特征向量中的每一个特征值的高维码后,按照最大池的计算方式,计算图像中的所有高维码向量中具有相同的索引下标的值中的最大值。
209:将图像按照预设区域进行分割,获取分割后的各个区域的最大池;
其中,预设区域可以为1x1,2x2,4x4等,对于预设区域的数量和大小,本发明实施例不做具体限定,根据预设区域对图像进行分割,如当预设区域为1x1,2x2,4x4三种大小的区域时,将图像按照三种大小的区域进行分割。
在将图像分割成各个区域后,根据最大池公式计算各个区域的最大池,如当按照1x1,2x2,4x4三种大小的区域对图像分别进行分割后,需要计算1x1的图像的1个最大池,2x2中四个区域的最大池,4x4的16个区域的最大池,共需要计算21次最大池。
210:合并所述各个区域的最大池,得到图像的空间池;
在得到各个区域的最大池后,将各个区域的最大池按照一定的顺序进行合并,即将各个最大池序列串联,得到图像的空间池。如当最大池的维度为1x20时,存在21个最大池时,则图像空间池的维度为1x420。
211:根据所述图像的空间池和线性分类器,对图像进行分类。
其中,该线性分类器可以为通过感知机算法、最小平方误差算法、线性SVM算法设计的分类器,对此,本发明实施例不做具体限定。
将该图像的空间池序列作为线性分类器的输入值,经过线性分类,得到图像的分类结果。
本发明提供了一种图像分类的方法,通过计算非零系数的第一数量值K和系数因子g的比值,得到非零系数的第二数量值f;利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g];根据所述中间代码权重系数ψt(x,bi)和中间代码系数公式得到中间代码系数将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci。采用本发明实施例提供的技术方案,通过根据权重函数计算中间代码权重,由中间代码权重的和代表局部特征的高维代码矢量,以得到数量较多的非零系数,有效实现了非线性的局部特征到线性高维码的描述,有利于图像的线性分类。
图3是本发明第三实施例中提供的一种图像分类的装置结构示意图,参见图3,该装置包括:第一计算模块31、分解模块32和第一分类模块33。
第一其中,计算模块31,用于获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值。
在本实施例中,第一计算模块具体用于计算非零系数的第一数量值K和系数因子g的比值,得到非零系数的第二数量值f。
分解模块32,用于根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;
具体地,所述分解模块32包括:分解单元和权重函数计算单元,
所述分解单元,用于利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];
权重函数计算单元,用于根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g];
第一分类模块33,用于根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。
其中,所述第一分类模块包括:中间代码计算单元和高维码计算单元,
所述中间代码计算单元,用于根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
所述高维码计算单元,用于将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci。
所述装置还包括:
特征向量获取模块,用于根据待分类图像,获取所述待分类图像的局部特征向量X=[x1,x2,……,xN]∈RD×N。
所述装置还包括:
判断模块,用于判断所述局部特征向量中的每一个特征值是否都有对应的高维码;
最大池计算模块,用于如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第l个高维码的系数。
所述装置包括:
分割模块,用于将图像按照预设区域进行分割,获取分割后的各个区域的最大池;
合并模块,用于合并所述各个区域的最大池,得到图像的空间池。
所述装置包括:
分类模块根据所述图像的空间池和线性分类器,对图像进行分类。
本发明提供了一种图像分类的装置,通过获取所述第一数量值和系数因子,计算所述第一数量值和所述系数因子的比值得到非零系数的第二数量值;根据所述系数因子g对码本的索引进行分解,按照所述分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别。采用本发明实施例提供的技术方案,通过根据权重函数计算中间代码权重,由中间代码权重的和代表局部特征的高维代码矢量,以得到数量较多的非零系数,有效实现了非线性的局部特征到线性高维码的描述,有利于图像的线性分类。
需要说明的是:上述实施例提供的图像分类的装置在图像分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像分类的装置与图像分类的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种图像分类的方法,其特征在于,所述方法包括:
获取非零系数的第一数量值k和系数因子g,计算所述第一数量值k和所述系数因子g的比值得到非零系数的第二数量值f;所述第一数量值k为图像编码中码本的维度;所述系数因子g为 码本的维度的分解因子;第二数量值f为图像的特征值在编码后对应的高维码的维度;
根据所述系数因子g对码本的索引进行分解,按照分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;
根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别;
其中,所述根据所述系数因子g对码本的索引进行分解,按照分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重,具体包括:
利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],i=[1,2,……,g];
根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g],f为非零系数的第二数量值,σ是调节局部系数衰减速度参数。
2.根据权利要求1所述的方法,其特征在于,所述根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别,具体包括:
根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci,根据所述图像特征值的高维码确定所述图像的类别。
3.根据权利要求1-2所述的任一方法,其特征在于,计算所述第一数量值k和所述系数因子g的比值得到非零系数的第二数量值f之前,所述方法包括:
根据待分类图像,获取所述待分类图像的局部特征向量X=[x1,x2,……,xN]∈RD×N。
4.根据权利要求3所述的方法,其特征在于,将所述中间代码系数代入高维码公式得到高维码ci之后,所述方法包括:
判断所述局部特征向量中的每一个特征值是否都有对应的高维码;
如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第个高维码的系数。
5.根据权利要求4所述的方法,其特征在于,如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第个高维码的系数,所述方法包括:
将图像按照预设区域进行分割,获取分割后的各个区域的最大池;
合并所述各个区域的最大池,得到图像的空间池。
6.根据权利要求5所述的方法,其特征在于,合并所述各个区域的最大池,得到图像的空间池之后,所述方法包括:
根据所述图像的空间池和线性分类器,对图像进行分类。
7.一种图像分类的装置,其特征在于,所述装置包括:
第一计算模块,用于获取非零系数的第一数量值k和系数因子g,计算所述第一数量值k和所述系数因子g的比值得到非零系数的第二数量值f;所述第一数量值k为图像编码中码本的维度;所述系数因子g为 码本的维度的分解因子;第二数量值f为图像的特征值在编码后对应的高维码的维度;
分解模块,用于根据所述系数因子g对码本的索引进行分解,按照分解后的索引,将图像特征值和所述码本的基向量按照权重函数进行计算得到中间代码权重;
第一分类模块,用于根据所述中间代码权重进行计算得到图像特征值的高维码,根据所述图像特征值的高维码确定所述图像的类别;
所述分解模块,包括:
分解单元,用于利用所述系数因子g对码本B的索引N=[n1,n2,……,nk]进行分解,得到分解后的索引H=[N1,……,Ng],其中,码本B=[b1,b2,……bk],
权重函数计算单元,用于根据所述分解后的索引H=[N1,……,Ng],将图像特征值x和码本B中的基向量bi代入权重函数得到中间代码权重ψt(x,bi),其中,dist(x,bi)=||x-bi||,t为中间代码矢量,t=[1,2,……,g],f为非零系数的第二数量值,σ是调节局部系数衰减速度参数。
8.根据权利要求7所述的装置,其特征在于,所述第一分类模块,包括:
中间代码计算单元,用于根据所述中间代码权重ψt(x,bi)和中间代码系数公式得到中间代码系数
高维码计算单元,用于将所述中间代码系数代入高维码公式得到图像特征值x的高维码ci,根据所述图像特征值的高维码确定所述图像的类别。
9.根据权利要求7-8所述的任一装置,其特征在于,所述装置包括:
特征向量获取模块,用于根据待分类图像,获取所述待分类图像的局部特征向量X=[x1,x2,……,xN]∈RD×N。
10.根据权利要求9所述的装置,其特征在于,所述装置包括:
判断模块,用于判断所述局部特征向量中的每一个特征值是否都有对应的高维码;
最大池计算模块,用于如果所述局部特征向量中的每一个特征值都有对应的高维码,根据最大池公式计算最大池,其中,为第i个高维码向量中的第个高维码的系数。
11.根据权利要求10所述的装置,其特征在于,所述装置包括:
分割模块,用于将图像按照预设区域进行分割,获取分割后的各个区域的最大池;
合并模块,用于合并所述各个区域的最大池,得到图像的空间池。
12.根据权利要求11所述的装置,其特征在于,所述装置包括:
第二分类模块根据所述图像的空间池和线性分类器,对图像进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310728193.8A CN103679206B (zh) | 2013-12-24 | 2013-12-24 | 图像分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310728193.8A CN103679206B (zh) | 2013-12-24 | 2013-12-24 | 图像分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103679206A CN103679206A (zh) | 2014-03-26 |
CN103679206B true CN103679206B (zh) | 2017-10-27 |
Family
ID=50316694
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310728193.8A Expired - Fee Related CN103679206B (zh) | 2013-12-24 | 2013-12-24 | 图像分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103679206B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104318271B (zh) * | 2014-11-21 | 2017-04-26 | 南京大学 | 一种基于适应性编码和几何平滑汇合的图像分类方法 |
CN104573696B (zh) * | 2014-12-29 | 2018-09-21 | 杭州华为数字技术有限公司 | 用于处理人脸特征数据的方法和装置 |
CN108256544B (zh) * | 2016-12-29 | 2019-07-23 | 杭州光启人工智能研究院 | 图片分类方法和装置、机器人 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156885A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于级联式码本生成的图像分类方法 |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN103324954A (zh) * | 2013-05-31 | 2013-09-25 | 中国科学院计算技术研究所 | 一种基于树结构的图像分类方法及其系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110085728A1 (en) * | 2009-10-08 | 2011-04-14 | Yuli Gao | Detecting near duplicate images |
-
2013
- 2013-12-24 CN CN201310728193.8A patent/CN103679206B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156885A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于级联式码本生成的图像分类方法 |
CN102156871A (zh) * | 2010-02-12 | 2011-08-17 | 中国科学院自动化研究所 | 基于类别相关的码本和分类器投票策略的图像分类方法 |
CN103324954A (zh) * | 2013-05-31 | 2013-09-25 | 中国科学院计算技术研究所 | 一种基于树结构的图像分类方法及其系统 |
Non-Patent Citations (3)
Title |
---|
"Learning weights for codebook in image classification and retrieval";Hongping Cai et al.;《2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20100805;全文 * |
"基于改进局部特征分布的图像分类方法";郭立君 等;《模式识别与人工智能》;20110630;第24卷(第3期);全文 * |
"基于高维局部特征和LSH索引的图像检索技术";刘婉 等;《电子设计工程》;20111031;第19卷(第20期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103679206A (zh) | 2014-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A spatial attentive and temporal dilated (SATD) GCN for skeleton‐based action recognition | |
Tsuchiya et al. | The tensor structure on the representation category of the triplet algebra | |
CN110111901B (zh) | 基于rnn神经网络的可迁移病人分类系统 | |
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
Gao et al. | Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework | |
Tan et al. | Fine-grained classification via hierarchical bilinear pooling with aggregated slack mask | |
CN106097381B (zh) | 一种基于流形判别非负矩阵分解的目标跟踪方法 | |
CN103679206B (zh) | 图像分类的方法和装置 | |
CN109190672A (zh) | 电力系统运行工况无监督聚类方法及装置 | |
Ma et al. | Mdcn: Multi-scale, deep inception convolutional neural networks for efficient object detection | |
Wang et al. | Relation-attention networks for remote sensing scene classification | |
Zhang et al. | Image-level classification by hierarchical structure learning with visual and semantic similarities | |
Wang et al. | Category-specific semantic coherency learning for fine-grained image recognition | |
CN110188825A (zh) | 基于离散多视图聚类的图像聚类方法、系统、设备及介质 | |
CN107958472A (zh) | 基于稀疏投影数据的pet成像方法、装置、设备及存储介质 | |
CN106446806A (zh) | 基于模糊隶属度稀疏重构的半监督人脸识别方法及系统 | |
Chen et al. | An method for power lines insulator defect detection with attention feedback and double spatial pyramid | |
Lin et al. | Few-shot learning approach with multi-scale feature fusion and attention for plant disease recognition | |
Sugimoto et al. | Multi-class cell detection using modified self-attention | |
Yin et al. | Pyramid tokens-to-token vision transformer for thyroid pathology image classification | |
CN108960246A (zh) | 一种用于图像识别的二值化处理装置及方法 | |
CN108564595A (zh) | 图像跟踪方法和装置、电子设备、存储介质、程序 | |
CN109740682B (zh) | 一种基于域转化和生成模型的图像识别方法 | |
Song et al. | Srrm: Semantic region relation model for indoor scene recognition | |
Sang et al. | Image recognition based on multiscale pooling deep convolution neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171027 |
|
CF01 | Termination of patent right due to non-payment of annual fee |