CN104318271A - 一种基于适应性编码和几何平滑汇合的图像分类方法 - Google Patents

一种基于适应性编码和几何平滑汇合的图像分类方法 Download PDF

Info

Publication number
CN104318271A
CN104318271A CN201410677128.1A CN201410677128A CN104318271A CN 104318271 A CN104318271 A CN 104318271A CN 201410677128 A CN201410677128 A CN 201410677128A CN 104318271 A CN104318271 A CN 104318271A
Authority
CN
China
Prior art keywords
feature
image
coding
overbar
zeta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410677128.1A
Other languages
English (en)
Other versions
CN104318271B (zh
Inventor
杨育彬
王喆正
毛晓蛟
李亚楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201410677128.1A priority Critical patent/CN104318271B/zh
Publication of CN104318271A publication Critical patent/CN104318271A/zh
Application granted granted Critical
Publication of CN104318271B publication Critical patent/CN104318271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于适应性编码和几何平滑汇合的图像分类方法,包含如下步骤:图像底层局部特征提取;码书学习;特征编码;特征汇合;训练数据分割;建立模型;图像分类。本发明应用在图像分类领域,在图像表示上,本发明能够保持码书以及特征编码的结构化信息,能够大大降低码书生成的时间复杂度,以及生成具有结构化特性的图像特征表示,充分利用了图像特征丰富的空间位置信息,在图像分类上有着显著的效果,因此本发明具有较高的使用价值。

Description

一种基于适应性编码和几何平滑汇合的图像分类方法
技术领域
本发明属于图像分类领域,是一种基于适应性编码和几何平滑汇合的图像分类方法。
背景技术
图像分类任务主要包括目标和场景分类,是计算机视觉和模式识别领域中重要的研究领域之一。近年来由于一些局部特征能够展现图像中独特的信息,故被广泛用来表示图像,如SIFT特征和HOG特征。这些特征主要通过一些小的,可能重叠的且独立的局部块来进行图像内容的表示。由于计算复杂度和对噪声的敏感度,这些底层局部特征并不会直接用来进行图像分类。一种普遍的策略是将这些特征编码为全局的图像特征表示,因此基于码书的模型(BoW模型)及其扩展方法被提出且在视觉领域中获得了成功的应用。基于码书模型的图像分类框架主要由以下三步组成:(1)对图像中感兴趣的点抽取底层局部特征;(2)学习码书并对底层特征进行局部编码;最后(3)将所有的编码结果进行汇合得到最终的图像特征表示。以上的框架由于特征量化和空间汇合,在底层特征编码过程中难免会引起图像空间信息的损失。这种不可恢复的信息损失严重损害了图像特征表示的判别性,导致了最终图像分类性能的下降。因此研究人员提出各种编码方法并且通过一些汇合策略来避免图像信息的损失,生成鲁棒的图像特征表示。
在编码策略当中,普遍有硬编码策略,软编码策略,基于重构的编码策略以及局部线性限制的编码策略(Locality-constrained Linear Coding,LLC)。然而,LLC方法是通过标准的K-means算法生成码书,当数据集非常大的时候码书训练时间复杂度比较高,此外,上述大部分编码方法只考虑了编码过程中的显著特征信息,而忽略了显著编码特征周围局部特征的几何分布。从而特征描述符只保留了每个码字的最大的响应值,没有充分利用显著特征周围局部特征的空间几何位置信息,导致了图像空间信息的损失。
发明内容
发明目的:本发明为了解决现有技术中的问题,提出了一种适应性局部限制线性编码方法及几何平滑汇合策略生成图像结构化特征表示的图像分类方法。
发明内容:本发明公开了一种基于适应性编码和几何平滑汇合的图像分类方法,包含如下步骤:
对待分类的图像和图像数据库中所有图像分别进行以下步骤1~步骤4的处理;
步骤1,图像提取局部特征:在图像I的N个位置进行密集采样,利用尺度不变特征转换方法(Scale-invariant feature transform,SIFT)抽取底层局部特征F;N一般取值为大于10000的自然数,本发明中N取200000。
步骤2,对采样的底层局部特征,利用k-均值(k-means)方法以及其扩展方法训练过完备的码书;
步骤3,利用码书对采样的底层局部特征进行编码;
步骤4,将所有的编码结果进行汇合得到全局图像特征表示;
步骤5,将全部图像的全局特征进行随机采样:随机以每类图像的一定数量(取值为自然数,本发明中取值为1~30,)的图像作为训练数据,其余作为测试图像;本发明中,所有图像数据库中的图像都自带类标识。
步骤6,对全局图像特征表示使用支持向量机(Support Vector Machine,SVM)进行建模;
步骤7,利用分类模型对待测试图像进行分类;
步骤1图像提取底层局部特征具体包括如下步骤:
利用相同的比率,每幅图像都将被调整成为300*300像素,本发明以每步6像素从图像中以16*16的像素框抽取底层局部特征F。
步骤2的码书学习包括:
首先利用基于封闭簇的快速近似K-means算法初始化码书,手段为利用寻找活跃点来提高K-means算法在分配阶段的正确率和效率:对于初始给定的K(K<=N,一般取500或1000,即字典维数,K在本发明中优选地取1000)个簇中心和一个由随机分割树(Random Patition Tree,RP Tree)生成的封闭簇集合 其中上标t表示为初始化时的迭代次数,t=1,2,…,τ,τ取10。对每个特征 f n j &Element; &zeta; i &OverBar; n = 1,2 , . . , N , j = 1,2 , . . . , | &zeta; j &OverBar; | , | | f n j - c o ( t ) | | 2 2 < D [ n ] , i = 1,2 , . . . , K , 则定义 index f n ( t + 1 ) = i , 并更新距离 D [ n ] = | | f n j - c i ( t ) | | 2 2 , 其中表示封闭簇集合所含特征的个数,D[n]表示特征fn的最近距离,indexfn表示特征fn所属的簇;之后更新每个封闭簇的中心特征: &zeta; &OverBar; i ( t + 1 ) = { f n | indexf n ( t + 1 ) = i } , 并重新计算中心特征的位置: c i ( t + 1 ) = 1 | &zeta; &OverBar; j | &Sigma; f n &Element; &zeta; &OverBar; i ( t + 1 ) f n ;
基于每个中心特征分布调整码书:
对于所有的局部特征定义向量eij=fij-ci,fij表示第i个簇中第j个特征,并定义ci的切平面向量近似为
计算点积其中ci的相对位置由点积密度决定;
根据切平面向量的方向更新中心特征,具体如下:若则定义适应性因子然后计算权重ωi=ηi*σ,其中σ是第i个簇的距离方差,最后更新中心特征为否则保持不变,其中γ在本发明中优选为0.75;
对于上述步骤进行最优条件检查,若收敛至阈值τ或达到最大迭代次数后终止,从而得到码书B。阈值τ取值为自然数,本发明中优选为10。
步骤3的编码阶段包括:
对于采样的图像底层局部特征输入F=[f1,f2,...,fN]∈RN,通过过完备的码书可以保持编码结果的稀疏性,根据局部限制线性方法(LLC)编码,需要根据以下的目标函数进行编码:
在编码之前,需要根据码书的密度关系有机的选择对保持结构化信息更为有效的编码基:定义聚类中心点ci的估计密度为: p i = 1 ( 1 + 1 M &Sigma; m = 1 M | | f m - c i | | 2 2 &sigma; &OverBar; ) 2 , i = 1,2 , . . . , K , 其中M是类ζj的结点个数且是类中各元素与中心特征距离的方差值。
粗略地选择f的近邻中心特征集合,本发明中优选的选择10个中心特征,然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基:
条件1:ci是f的两个最近邻特征之一;
条件2:ci的估计密度其中是所有中心的平均密度;
之后根据之前的目标函数对F进行编码,在上式中,⊙记录了元素之间的点乘,si是f和码书B中第i个编码基的距离:
s j = exp ( | | f j - c i | | 2 2 &gamma; ) , | | f j - c i | | 2 2 < &gamma; , j = 1,2 , . . . , | &zeta; j &OverBar; | , i = 1,2 , . . . , K ,
根据目标函数固定了f和B能够获得局部的适应性编码α。
步骤4的特征汇合获得全局图像特征的步骤包括:
对每幅图像的编码矩阵V∈Rk×N矩阵,每个码字都能获得高冗余度的多个响应值,于是需要采用汇合策略将编码响应向量联结为一个全局图像统计向量。
定义具体的汇合操作符为:Gg(v)=Εnwnvn=Vw,n=1,2,…,N。这里w=[w1,w2,…,wN]T∈RN定义为基于几何平滑汇合策略的权重向量,Gg(v)是最终图像的几何平滑汇合特征向量。|V|是图像的几何图像子空间区域的非零的个数。
对于每个wn,定义为1≤n≤N,其中,an=(xn,yn)和amax=(xmax,ymax)分别为局部编码特征和最大编码特征在图像中空间位置的坐标,σ′是所有非零的编码特征空间坐标位置距离的方差;从而汇合操作符展开为:
G g ( v ) = &Sigma; n w n v n
= &Sigma; t exp ( - | | a i - a max | | 2 2 * &sigma; &prime; 2 ) v i = | | v | | &infin; + &Sigma; n &NotEqual; m exp ( - | | a n - a max | | 2 2 * &sigma; &prime; 2 ) v n = | | v | | &infin; + H ( v ) ,
其中||v||=maxvmax,max是图像中每个局部编码特征最大响应值的相对位置,H(v)是基于特征编码空间位置最大汇合的平均值。
步骤5的采样阶段包括:
将步骤4获得的所有图像数据库中的全局特征向量按类排列,对每类图像的全局图像特征,随机选择一定数量的特征作为训练数据,在本发明中,在Caltech-101以及Caltehc-256数据集上选择30作为训练数据,其余的特征作为待分类数据。
步骤6的建模阶段包括:
对于训练数据的所有全局图像特征,对其使用线性支持向量机进行建模。
步骤7的分类阶段包括:
对于待分类的图像的全局图像特征,利用步骤6中所得到的模型对这些向量进行分类判定,以获得最终的分类结果。
本发明是为了解决现有技术忽略了显著编码特征周围局部特征的几何分布,以及码书的结构性信息而提出的方法。本发明具有以下特征:1)在码书学习过程中,基于封闭簇的快速K-means算法初始化码书,然后通过每个码字周围局部特征的分布来动态地更新码书;2)在编码阶段,在1)的基础上根据码字的密度适应性地选择编码基实现对图像底层局部特征的编码;3)在汇合阶段,我们采用几何平滑汇合策略对编码特征汇合生成图像结构化特征表示,不像以往最大值汇合那样丢弃局部特征的响应值,而是利用权重对编码特征进行汇合,主要根据局部特征响应值和显著特征响应值的空间几何位置关系来有效地保护图像显著特征周围局部特征的信息。本发明可用于图像的分类或检索方面的任务。
本发明先在码书学习阶段大大降低了码书生成的时间复杂度,然后码字通过局部特征的几何空间分布进行适应性地动态更新,最后基于空间金字塔的几何平滑汇合策略生成具有结构化特性的图像特征表示,充分利用了图像特征丰富的空间位置信息,并在图像分类实验上获得了较好的实验效果。
有益效果:本发明应用在图像分类领域,在图像特征表示上,本发明能够保持码书以及特征编码的结构化信息,能够大大降低码书生成的时间复杂度,以及生成具有结构化特性的图像特征表示,充分利用了图像特征丰富的空间位置信息,在图像分类上有着显著的效果,因此基于适应性编码和几何平滑汇合的图像分类方法具有较高的使用价值。
附图说明:
图1为本发明流程图。
图2为空间金字塔结构示意图。
图3为15个场景类数据库图像示意图。
图4为部分分类结果示例图。
图5为不同汇合策略在分类准确率上的比较图。
具体实施方式:
如图1所示,本发明公开了一种基于适应性编码和几何平滑汇合的图像分类方法,包含如下步骤:
对待分类的图像和图像数据库中所有图像分别进行以下步骤1~步骤4的处理;
步骤1,图像提取局部特征:在图像I的N个位置进行密集采样,利用尺度不变特征转换方法(Scale-invariant feature transform,SIFT)抽取底层局部特征F;N一般取值为大于10000的自然数,本发明中N取200000。
步骤2,对采样的底层局部特征,利用k-均值(k-means)方法以及其扩展方法训练过完备的码书;
步骤3,利用码书对采样的底层局部特征进行编码;
步骤4,将所有的编码结果进行汇合得到全局图像特征表示;
步骤5,将全部图像的全局特征进行随机采样:随机以每类图像的一定数量(取值为自然数,本发明中取值为1~30,)的图像作为训练数据,其余作为测试图像;本发明中,所有图像数据库中的图像都自带类标识。
步骤6,对全局图像特征表示使用支持向量机(Support Vector Machine,SVM)进行建模;
步骤7,利用分类模型对待测试图像进行分类;
步骤1图像提取底层局部特征具体包括如下步骤:
利用相同的比率,每幅图像都将被调整成为300*300像素,本发明以每步6像素从图像中以16*16的像素框抽取底层局部特征F。
步骤2的码书学习包括:
首先利用基于封闭簇的快速近似K-means算法初始化码书,手段为利用寻找活跃点来提高K-means算法在分配阶段的正确率和效率:
对于初始给定的K(K<=N,一般取500或1000,即字典维数,K在本发明中优选地取1000)个簇中心和一个由随机分割树(Random Patition Tree,RP Tree)生成的封闭簇集合其中上标t表示为初始化时的迭代次数,t=1,2,…,τ,τ取10,
对每个特征 f n j &Element; &zeta; i &OverBar; , n = 1,2 , . . , N , j = 1,2 , . . . , | &zeta; j &OverBar; | , | | f n j - c i ( t ) | | 2 2 < D [ n ] , i = 1,2 , . . . , K , 则定义 index f n ( t + 1 ) = i , 并更新距离 D [ n ] = | | f n j - c i ( t ) | | 2 2 , 其中表示封闭簇集合所含特征的个数,D[n]表示特征fn的最近距离,indexfn表示特征fn所属的簇;之后更新每个封闭簇的中心特征:并重新计算中心特征的位置: c i ( t + 1 ) = 1 | &zeta; j &OverBar; | &Sigma; f n &Element; &zeta; &OverBar; i ( t + 1 ) f n ;
基于每个中心特征分布调整码书:
对于所有的局部特征定义向量eij=fij-ci,,fij表示第i个簇中第j个特征,并定义ci的切平面向量近似为
计算点积其中ci的相对位置由点积密度决定;
根据切平面向量的方向更新中心特征,具体如下:若则定义适应性因子然后计算权重ωi=ηi*σ,其中σ是第i个簇的距离方差,最后更新中心特征为否则保持不变,其中γ在本发明中优选为0.75;
对于上述步骤进行最优条件检查,若收敛至阈值τ或达到最大迭代次数后终止,从而得到码书B。阈值τ取值为自然数,本发明中优选为10。
步骤3的编码阶段包括:
对于采样的图像底层局部特征输入F=[f1,f2,…,fN]∈RN,通过过完备的码书可以保持编码结果的稀疏性,根据局部限制线性方法(LLC)编码,需要根据以下的目标函数进行编码:
在编码之前,需要根据码书的密度关系有机的选择对保持结构化信息更为有效的编码基:定义聚类中心点ci的估计密度为: p i = 1 ( 1 + 1 M &Sigma; m = 1 M | | f m - c i | | 2 2 &sigma; &OverBar; ) 2 , i = 1,2 , . . . , K , 其中M是类ζj的结点个数且是类中各元素与中心特征距离的方差值。
粗略地选择f的近邻特征集合,然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基:
条件1:ci是f的两个最近邻特征之一;
条件2:ci的估计密度其中是所有中心的平均密度;
之后根据之前的目标函数对F进行编码,在上式中,⊙记录了元素之间的点乘,si是f和码书B中第i个编码基的距离:
s j = exp ( | | f j - c i | | 2 2 &gamma; ) , | | f j - c i | | 2 2 < &gamma; , j = 1,2 , . . . , | &zeta; j &OverBar; | , i = 1,2 , . . . , K ,
根据目标函数固定了f和B能够获得局部的适应性编码α。
步骤4的特征汇合获得全局图像特征的步骤包括:
对每幅图像的编码矩阵V∈RK×N矩阵,每个码字都能获得高冗余度的多个响应值,于是需要采用汇合策略将编码响应向量联结为一个全局图像统计向量。
定义具体的汇合操作符为:fg(v)=∑nwnvn=Vw,n=1,2,…,N。这里w=[w1,w2,…,wN]T∈RN定义为基于几何平滑汇合策略的权重向量,fg(v)是最终图像的几何平滑汇合特征向量。|V|是图像的几何图像子空间区域的非零的得个数。
对于每个wn,定义为1≤n≤N,其中,an=(xn,yn)和amax=(xmax,ymax)分别为局部编码特征和最大编码特征在图像中空间位置的坐标,σ′是所有非零的编码特征空间坐标位置距离的方差;从而汇合操作符展开为:
f g ( v ) = &Sigma; n w n v n
= &Sigma; t exp ( - | | a i - a max | | 2 2 * &sigma; &prime; 2 ) v i | | v | | &infin; + &Sigma; n &NotEqual; m exp ( - | | a n - a max | | 2 2 * &sigma; &prime; 2 ) v n = | | v | | &infin; + H ( v )
其中||v||=maxvmax,max是图像中每个码字最大响应值的相对位置,H(v)是基于特征编码空间位置最大汇合的平均值。
步骤5的采样阶段包括:
将步骤4获得的所有图像数据库中的全局特征向量按类排列,对每类图像的全局图像特征,随机选择一定数量的特征作为训练数据,在本发明中,在Caltech-101以及Caltehc-256数据集上选择30作为训练数据,其余的特征作为待分类数据。
步骤6的建模阶段包括:
对于训练数据的所有全局图像特征,对其使用线性支持向量机进行建模。
步骤7的分类阶段包括:
对于待分类的图像的全局图像特征,利用步骤6中所得到的模型对这些向量进行分类判定,以获得最终的分类结果。
实施例1
本实施例包括以下部分:
1.提取图像底层局部特征:
利用尺度旋转不变特性(Scale-invariant feature transform,SIFT)在图像中抽取局部特征,在本模块中主要应用到的是尺度旋转不变特征。
尺度不变特征转换(SIFT)特征是一种计算机视觉的算法用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由David Lowe在1999年所发表,2004年完善总结。
2.码书学习:
对采样而得的底层局部特征利用快速k-means方法进行码书训练,以期望学习出过完备的码书。本模块主要包含2个步骤:初始化码书以及更新中心特征。
初始化码书:从图像中抽取的d维的局部底层特征,d在本发明中优选为128。利用k-means聚类的主要目的是将这N个底层局部特征分为K(K≤n)组,在这个过程中,本发明的方法将找到活跃特征f并根据与中心特征的距离改变其在聚类过程中的类别属性。记f的邻居集合与其本身为NBf,定义封闭簇ζ=∪f∈ζNBf。当计算f的邻居集合Hf时,利用随机分割树(Random Partition Tree,RP Tree)搜索每个特征的近邻,且最终的近邻由多个随机空间区域组合而得。之后,对簇中心点集合、封闭簇集合以及所有底层局部特征,有:
对每个特征 f n j &Element; &zeta; i &OverBar; , n = 1,2 , . . , N , j = 1,2 , . . . , | &zeta; j &OverBar; | , | | f n j - c i ( t ) | | 2 2 < D [ n ] , i = 1,2 , . . . , K , 则定义 index f n ( t + 1 ) = i , 并更新距离 D [ n ] = | | f n j - c i ( t ) | | 2 2 , 其中表示封闭簇集合所含特征的个数,D[n]表示特征fn的最近距离,indexfn表示特征fn所属的簇;之后更新每个封闭簇的中心特征:并重新计算中心特征的位置: c i ( t + 1 ) = 1 | &zeta; &OverBar; j | &Sigma; f n &Element; &zeta; &OverBar; i ( t + 1 ) f n ;
基于每个中心特征分布调整码书:
对于所有的局部特征定义向量 e ij = f ij - c i , i = 1,2 , . . , Kj = 1,2 , . . . , | &zeta; i &OverBar; | , 并定义ci的切平面向量近似为
计算点积其中ci的相对位置由点积密度决定;
根据切平面向量的方向更新中心特征,具体如下:若则定义适应性因子然后计算权重ωi=ηi*σ,其中σ是第i个簇的距离方差,最后更新中心特征为否则保持不变,其中γ在本发明中优选为0.75;
对于上述步骤进行最优条件检查,若收敛至阈值τ或达到最大迭代次数后终止,从而得到码书B。阈值τ取值为自然数,本发明中优选为10。
3.自适应编码:
在编码阶段,直观地,如果一个编码基比其他的编码基距离底层局部特征更近,该编码基将获得较大的响应值。这个编码基将会增强全局图像特征表示的描述性。此外,中心特征ci被一组密集的底层局部特征包围,在汇合操作过程中将获得很强的响应。因此为了获得显著的编码特征,码书中的视觉单词应当尽量分布于输入局部特征空间的密集区域中。而由于在视觉码书中的各个码字周围局部特征的密度分布是不同的。如果底层局部特征的近邻中心特征分布比较稀疏,固定的选择编码基将会产生很弱的响应。对于处于密集区域中的底层局部特征,固定的选择不适当的编码基将会导致不准确的响应值以及不匹配的局部性。由此可见不同的编码基对于底层局部特征的重要性是不同的。因此对于给定的码书B和底层局部特征F,我们需要基于码书中视觉单词周围局部特征的密度分布适应性地基。具体选择条件为:
定义聚类中心点ci的估计密度为: p i = 1 ( 1 + 1 M &Sigma; m = 1 M | | f m - c i | | 2 2 &sigma; &OverBar; ) 2 , i = 1,2 , . . . , K , 其中M是类ζj的结点个数且是类中各元素与中心特征距离的方差值。
粗略地选择f的近邻特征集合,然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基:
条件1:ci是f的两个最近邻特征之一;
条件2:ci的估计密度其中是所有中心的平均密度;
之后根据之前的目标函数对F进行编码,在上式中,⊙记录了元素之间的点乘,si是f和码书B中第i个编码基的距离:
s j = exp ( | | f j - c i | | 2 2 &gamma; ) , | | f j - c i | | 2 2 < &gamma; , j = 1,2 , . . . , | &zeta; j &OverBar; | , i = 1,2 , . . . , K ,
根据目标函数固定了f和B能够获得局部的适应性编码α。
4.特征汇合:
金字塔空间模型如图4所示,按照空间金字塔理论,将每幅图像都分割为1+4+6=21个网格空间,对每个子空间都使用特征汇合将所有编码汇合成一个统计分量,再将统计分量拼接成全局的特征向量。具体的汇合方法如下:
定义具体的汇合操作符为:Gg(v)=Σnwnvn=Vw,n=1,2,...,N。这里w=[w1,w2,...,wN]"∈RN定义为基于几何平滑汇合策略的权重向量,Gg(v)是最终图像的几何平滑汇合特征向量。|V|是图像的几何图像子空间区域的非零值的个数。
对于每个wn,定义为1≤n≤N,其中,an=(xn,yn)和amax=(xmax,ymax)分别为局部编码特征和最大编码特征在图像中空间位置的坐标,σ′是所有非零的编码特征空间坐标位置距离的方差;从而汇合操作符展开为:
G g ( v ) = &Sigma; n w n v n
= &Sigma; t exp ( - | | a i - a max | | 2 2 * &sigma; &prime; 2 ) v i = | | v | | &infin; + &Sigma; n &NotEqual; m exp ( - | | a n - a max | | 2 2 * &sigma; &prime; 2 ) v n = | | v | | &infin; + H ( v ) ,
其中||v||=maxvmax,max是图像中每个码字最大响应值的相对位置,H(v)是基于特征编码空间位置最大汇合的平均值。
5.进行建模:
在本实施例中,将数据集中图像每类图中随机抽取30张图像作为训练集,使用线性支持向量机(Support vector machine,SVM)对数据进行建模。
6.图像分类:
对于待分类的图像的全局图像特征,利用所得到的模型对这些特征进行分类判定,使得模型对每一幅待分类的图像都有一个类的定性,从而获得最终的分类结果。
实施例2
图3为来源为15个场景类数据库的图像示例。图4为用本发明方法在15个场景类上的分类准确率,图5为不同的特征汇合策略在Caltech-101数据库上分类准确率的比较。
本发明提供了一种基于适应性编码和几何平滑汇合的图像分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (8)

1.一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,包含以下步骤:
对待分类的图像和图像数据库中所有图像分别进行以下步骤1~步骤4的处理;
步骤1,图像提取底层局部特征:在图像I的N个位置进行采样,利用尺度不变特征转换方法抽取底层局部特征F;
步骤2,对采样的底层局部特征,进行码书学习;
步骤3,利用码书对采样的底层局部特征进行编码;
步骤4,将所有的编码结果进行汇合得到全局图像特征;
步骤5,将图像数据库中的全部图像的全局特征进行随机采样:随机以每类图像的一定数量的图像作为训练图像,其余作为测试图像;
步骤6,将训练图像的全局图像特征表示使用支持向量机进行建模;
步骤7,利用分类模型对待分类图像进行分类。
2.根据权利要求1所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤1具体包括如下步骤:
将每幅图像都调整成为300*300像素,以每步6像素从图像中以16*16的像素框抽取方法抽取底层局部特征F。
3.根据权利要求2所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤2的码书学习阶段包括如下步骤:
利用基于封闭簇的快速近似K-means算法初始化码书:对于初始给定的K个簇中心 B ( t ) = { c 1 ( t ) , c 2 ( t ) , . . . , c K ( t ) } 和一个由随机分割树生成的封闭簇集合 &zeta; &OverBar; = { &zeta; 1 &OverBar; , &zeta; 2 &OverBar; , . . . , &zeta; K &OverBar; } , 其中上标t表示为初始化时的迭代次数,t=1,2,...,τ,对每个特征 f n j = &zeta; i &OverBar; , n = 1,2 , . . . N , j = 1,2 , . . . , | &zeta; j &OverBar; | , | | f n j - c i ( t ) | | 2 2 < D [ n ] , i = 1,2 , . . . , K , 则定义 indexf n ( t + 1 ) = i , 并更新距离其中表示封闭簇集合所含特征的个数,D[n]表示特征fn的最近距离,indexfn表示特征fn所属的簇;之后更新每个封闭簇的中心特征: &zeta; &OverBar; i ( t + 1 ) = { f n | indexf n ( t + 1 ) = i } , 并重新计算中心特征的位置: c i ( t + 1 ) = 1 | &zeta; j &OverBar; | &Sigma; f n &Element; &zeta; &OverBar; i ( t + 1 ) f n ;
基于每个中心特征分布调整码书:
对于所有的局部特征定义向量eij=fij-ci,,其中,fij表示第i个簇中第j个特征,并定义ci的切平面向量近似为 e i | &zeta; j &OverBar; | = &Sigma; j = 1 | &zeta; j &OverBar; | e ij ;
计算点积其中ci的相对位置由点积密度决定;
根据切平面向量的方向更新中心特征,具体如下:若则定义适应性因子然后计算权重ωi=ηi*σ,其中σ是第i个簇的距离方差,最后更新中心特征为 c i t + 1 = c i t + &omega; i &CenterDot; e i | &zeta; j &OverBar; | ; 否则保持不变;
对于上述步骤进行最优条件检查,若收敛至阈值τ或达到最大迭代次数后终止,从而得到码书B。
4.根据权利要求3所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤3包括如下步骤:
对于步骤2得到的码书B和底层局部特征F,定义封闭簇中心特征ci的估计密度为pi p i = 1 ( 1 + 1 M &Sigma; m = 1 M | | f m - c i | | 2 2 &sigma; &OverBar; ) 2 , i = 1,2 , . . . , K ,
其中M是封闭簇ζi的结点个数且是封闭簇中各元素与中心特征距离的方差值;
首先粗略地选择f的近邻中心特征集合,然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基:
条件1:ci是f的两个最近邻特征之一;
条件2:ci的估计密度其中是所有中心特征的平均密度;
根据局部限制线性编码的目标函数进行编码:
其中⊙记录了元素之间的点乘,sj是fn和码书B中第j个编码基的距离:
s j = exp ( | | f j - c i | | 2 2 &gamma; ) , | | f j - c i | | 2 2 < &gamma; , j = 1,2 , . . . , | &zeta; j &OverBar; | , i = 1,2 , . . . , K ,
根据目标函数固定了f和B能够获得适应性的局部编码特征α。
5.根据权利要求4所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤4中将所有的适应性编码结果进行汇合得到全局图像特征表示包括如下步骤:
按照空间金字塔理论,将每幅图像都分别分割成为1×1,2×2,4×4的网格结构,并对每个子区域进行特征汇合,最后将总共的21个特征汇合向量拼接成为1个全局特征向量来表示该图的全局图像特征。
6.根据权利要求5所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤4中将所有的编码结果进行汇合得到全局图像特征表示进行全局特征向量计算,包括如下步骤:
定义具体的汇合操作符为:Gg(v)=∑nwnvn=Vw,n=1,2,...,N,其中w=[w1,w2,...,wN]T∈RN定义为基于几何平滑汇合策略的权重向量,Gg(v)是最终图像的几何平滑汇合特征向量,|V|是图像的几何图像子空间区域的非零值的个数;
对于每个wn,定义为1≤n≤N,其中,an=(xn,yn)和amax=(xmax,ymax)分别为局部编码特征和最大编码特征在图像中空间位置的坐标,σ′是所有非零的局部编码特征空间坐标位置距离的方差;从而汇合操作符展开为:
G g ( v ) = &Sigma; n w n v n = &Sigma; i exp ( - | | a i - a max | | 2 2 * &sigma; &prime; 2 ) v i = | | v | | &infin; + &Sigma; n &NotEqual; max exp ( - | | a n - a max | | 2 2 * &sigma; &prime; 2 ) v n = | | v | | &infin; + H ( v ) ,
其中||v||=maxvmax,max是图像中每个局部编码特征最大响应值的相对位置,H(v)是基于特征编码空间位置最大汇合的平均值。
7.根据权利要求6所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤6包括如下步骤:以步骤4所得到的全局图像特征为输入,利用标准的线性支持向量机对分类任务进行建模。
8.根据权利要求7所述的一种基于适应性编码和几何平滑汇合的图像分类方法,其特征在于,步骤7包括如下步骤:对于待分类的图像的全局图像特征,利用步骤6中得到的模型对其进行分类,给予图像类标,完成分类任务。
CN201410677128.1A 2014-11-21 2014-11-21 一种基于适应性编码和几何平滑汇合的图像分类方法 Active CN104318271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410677128.1A CN104318271B (zh) 2014-11-21 2014-11-21 一种基于适应性编码和几何平滑汇合的图像分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410677128.1A CN104318271B (zh) 2014-11-21 2014-11-21 一种基于适应性编码和几何平滑汇合的图像分类方法

Publications (2)

Publication Number Publication Date
CN104318271A true CN104318271A (zh) 2015-01-28
CN104318271B CN104318271B (zh) 2017-04-26

Family

ID=52373500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410677128.1A Active CN104318271B (zh) 2014-11-21 2014-11-21 一种基于适应性编码和几何平滑汇合的图像分类方法

Country Status (1)

Country Link
CN (1) CN104318271B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203510A (zh) * 2016-07-11 2016-12-07 南京大学 一种基于形态学特征和字典学习的高光谱图像分类方法
CN108604388A (zh) * 2015-10-17 2018-09-28 亚力维斯股份有限公司 虚拟现实和/或扩增现实中的直接体渲染
CN109492772A (zh) * 2018-11-28 2019-03-19 北京百度网讯科技有限公司 生成信息的方法和装置
CN109558904A (zh) * 2018-11-21 2019-04-02 咪咕文化科技有限公司 图像局部特征的分类方法、装置和存储介质
CN110647643A (zh) * 2018-06-07 2020-01-03 佳能株式会社 特征向量的聚类方法、检索方法、装置及存储介质
CN111539277A (zh) * 2020-04-14 2020-08-14 华北电力大学(保定) 一种输电线路区域内施工机械的检测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694049B1 (en) * 2000-08-17 2004-02-17 The United States Of America As Represented By The Secretary Of The Navy Multimode invariant processor
CN103116766A (zh) * 2013-03-20 2013-05-22 南京大学 一种基于增量神经网络和子图编码的图像分类方法
CN103295026A (zh) * 2013-05-15 2013-09-11 西安电子科技大学 基于空间局部聚合描述向量的图像分类方法
CN103366181A (zh) * 2013-06-28 2013-10-23 安科智慧城市技术(中国)有限公司 多特征视觉码本融合的场景识别方法和装置
CN103679206A (zh) * 2013-12-24 2014-03-26 Tcl集团股份有限公司 图像分类的方法和装置
CN103745200A (zh) * 2014-01-02 2014-04-23 哈尔滨工程大学 一种基于词带模型的人脸图像识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6694049B1 (en) * 2000-08-17 2004-02-17 The United States Of America As Represented By The Secretary Of The Navy Multimode invariant processor
CN103116766A (zh) * 2013-03-20 2013-05-22 南京大学 一种基于增量神经网络和子图编码的图像分类方法
CN103295026A (zh) * 2013-05-15 2013-09-11 西安电子科技大学 基于空间局部聚合描述向量的图像分类方法
CN103366181A (zh) * 2013-06-28 2013-10-23 安科智慧城市技术(中国)有限公司 多特征视觉码本融合的场景识别方法和装置
CN103679206A (zh) * 2013-12-24 2014-03-26 Tcl集团股份有限公司 图像分类的方法和装置
CN103745200A (zh) * 2014-01-02 2014-04-23 哈尔滨工程大学 一种基于词带模型的人脸图像识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JING WANG ET AL: ""Fast Approximate k-Means via Cluster Closures"", 《CVPR》 *
JINJUN WANG ET AL: ""Locality-constrained Linear Coding for Image Classification"", 《INIEEECONFERENCEONCOMPUTERVISIONAND PATTERNRECOGNITION》 *
YE TANG ET AL: ""Codebook Quantization for Image Classification Using Incremental Neural Learning and Subgraph Extraction"", 《IDEAL 2012, LNCS 7435》 *
YU-BIN YANG ET AL: ""STRUCTURALLY ENHANCED INCREMENTAL NEURAL LEARNING FOR IMAGE CLASSIFICATION WITH SUBGRAPH EXTRACTION"", 《INTERNATIONAL JOURNAL OF NEURAL SYSTEMS》 *
贺广南: ""面向语义的图像检索关键技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108604388A (zh) * 2015-10-17 2018-09-28 亚力维斯股份有限公司 虚拟现实和/或扩增现实中的直接体渲染
CN108604388B (zh) * 2015-10-17 2023-07-04 卡尔蔡司显微镜软件中心罗斯托克有限公司 虚拟现实和/或扩增现实中的直接体渲染
CN106203510A (zh) * 2016-07-11 2016-12-07 南京大学 一种基于形态学特征和字典学习的高光谱图像分类方法
CN110647643A (zh) * 2018-06-07 2020-01-03 佳能株式会社 特征向量的聚类方法、检索方法、装置及存储介质
CN109558904A (zh) * 2018-11-21 2019-04-02 咪咕文化科技有限公司 图像局部特征的分类方法、装置和存储介质
CN109492772A (zh) * 2018-11-28 2019-03-19 北京百度网讯科技有限公司 生成信息的方法和装置
CN111539277A (zh) * 2020-04-14 2020-08-14 华北电力大学(保定) 一种输电线路区域内施工机械的检测方法及系统

Also Published As

Publication number Publication date
CN104318271B (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Tang et al. Deep fishernet for image classification
Lu et al. Bidirectional adaptive feature fusion for remote sensing scene classification
EP3029606A2 (en) Method and apparatus for image classification with joint feature adaptation and classifier learning
CN104318271A (zh) 一种基于适应性编码和几何平滑汇合的图像分类方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
CN103955702A (zh) 基于深度rbf网络的sar图像地物分类方法
CN103605985B (zh) 一种基于张量全局‑局部保持投影的数据降维的人脸识别方法
CN103258210B (zh) 一种基于字典学习的高清图像分类方法
CN105184298A (zh) 一种快速局部约束低秩编码的图像分类方法
CN110046634B (zh) 聚类结果的解释方法和装置
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN104298999B (zh) 基于递归自动编码的高光谱特征学习方法
CN104616316A (zh) 基于阈值矩阵和特征融合视觉单词的人物行为识别方法
CN106503672A (zh) 一种老年人异常行为的识别方法
CN101515328B (zh) 一种用于鉴别具有统计不相关性的局部保持投影方法
US8131086B2 (en) Kernelized spatial-contextual image classification
Altintakan et al. Towards effective image classification using class-specific codebooks and distinctive local features
CN104268546A (zh) 一种基于主题模型的动态场景分类方法
Chen et al. Efficient maximum appearance search for large-scale object detection
CN107451562A (zh) 一种基于混沌二进制引力搜索算法的波段选择方法
CN108805280B (zh) 一种图像检索的方法和装置
CN111652177A (zh) 基于深度学习的信号特征提取方法
CN114329031A (zh) 一种基于图神经网络和深度哈希的细粒度鸟类图像检索方法
CN102930258A (zh) 一种人脸图像识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant