CN104318271B

CN104318271B - 一种基于适应性编码和几何平滑汇合的图像分类方法

Info

Publication number: CN104318271B
Application number: CN201410677128.1A
Authority: CN
Inventors: 杨育彬; 王喆正; 毛晓蛟; 李亚楠
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2014-11-21
Filing date: 2014-11-21
Publication date: 2017-04-26
Anticipated expiration: 2034-11-21
Also published as: CN104318271A

Abstract

本发明公开了一种基于适应性编码和几何平滑汇合的图像分类方法，包含如下步骤：图像底层局部特征提取；码书学习；特征编码；特征汇合；训练数据分割；建立模型；图像分类。本发明应用在图像分类领域，在图像表示上，本发明能够保持码书以及特征编码的结构化信息，能够大大降低码书生成的时间复杂度，以及生成具有结构化特性的图像特征表示，充分利用了图像特征丰富的空间位置信息，在图像分类上有着显著的效果，因此本发明具有较高的使用价值。

Description

一种基于适应性编码和几何平滑汇合的图像分类方法

技术领域

本发明属于图像分类领域，是一种基于适应性编码和几何平滑汇合的图像分类方法。

背景技术

图像分类任务主要包括目标和场景分类，是计算机视觉和模式识别领域中重要的研究领域之一。近年来由于一些局部特征能够展现图像中独特的信息，故被广泛用来表示图像，如SIFT特征和HOG特征。这些特征主要通过一些小的，可能重叠的且独立的局部块来进行图像内容的表示。由于计算复杂度和对噪声的敏感度，这些底层局部特征并不会直接用来进行图像分类。一种普遍的策略是将这些特征编码为全局的图像特征表示，因此基于码书的模型(BoW模型)及其扩展方法被提出且在视觉领域中获得了成功的应用。基于码书模型的图像分类框架主要由以下三步组成：(1)对图像中感兴趣的点抽取底层局部特征；(2)学习码书并对底层特征进行局部编码；最后(3)将所有的编码结果进行汇合得到最终的图像特征表示。以上的框架由于特征量化和空间汇合，在底层特征编码过程中难免会引起图像空间信息的损失。这种不可恢复的信息损失严重损害了图像特征表示的判别性，导致了最终图像分类性能的下降。因此研究人员提出各种编码方法并且通过一些汇合策略来避免图像信息的损失，生成鲁棒的图像特征表示。

在编码策略当中，普遍有硬编码策略，软编码策略，基于重构的编码策略以及局部线性限制的编码策略(Locality-constrained Linear Coding，LLC)。然而，LLC方法是通过标准的K-means算法生成码书，当数据集非常大的时候码书训练时间复杂度比较高，此外，上述大部分编码方法只考虑了编码过程中的显著特征信息，而忽略了显著编码特征周围局部特征的几何分布。从而特征描述符只保留了每个码字的最大的响应值，没有充分利用显著特征周围局部特征的空间几何位置信息，导致了图像空间信息的损失。

发明内容

发明目的：本发明为了解决现有技术中的问题，提出了一种适应性局部限制线性编码方法及几何平滑汇合策略生成图像结构化特征表示的图像分类方法。

发明内容：本发明公开了一种基于适应性编码和几何平滑汇合的图像分类方法，包含如下步骤：

对待分类的图像和图像数据库中所有图像分别进行以下步骤1～步骤4的处理；

步骤1，图像提取局部特征：在图像I的N个位置进行密集采样，利用尺度不变特征转换方法(Scale-invariant feature transform，SIFT)抽取底层局部特征F；N一般取值为大于10000的自然数，本发明中N取200000。

步骤2，对采样的底层局部特征，利用k-均值(k-means)方法以及其扩展方法训练过完备的码书；

步骤3，利用码书对采样的底层局部特征进行编码；

步骤4，将所有的编码结果进行汇合得到全局图像特征表示；

步骤5，将全部图像的全局特征进行随机采样：随机以每类图像的一定数量(取值为自然数，本发明中取值为1～30，)的图像作为训练数据，其余作为测试图像；本发明中，所有图像数据库中的图像都自带类标识。

步骤6，对全局图像特征表示使用支持向量机(Support Vector Machine，SVM)进行建模；

步骤7，利用分类模型对待测试图像进行分类；

步骤1图像提取底层局部特征具体包括如下步骤：

利用相同的比率，每幅图像都将被调整成为300*300像素，本发明以每步6像素从图像中以16*16的像素框抽取底层局部特征F。

步骤2的码书学习包括：

首先利用基于封闭簇的快速近似K-means算法初始化码书，手段为利用寻找活跃点来提高K-means算法在分配阶段的正确率和效率：对于初始给定的K(K<＝N，一般取500或1000，即字典维数，K在本发明中优选地取1000)个簇中心和一个由随机分割树(Random Patition Tree，RP Tree)生成的封闭簇集合其中上标t表示为初始化时的迭代次数，t＝1,2,…,τ，τ取10。对每个特征若则定义并更新距离其中表示封闭簇集合所含特征的个数，D[n]表示特征f_n的最近距离，indexf_n表示特征f_n所属的簇；之后更新每个封闭簇的中心特征：并重新计算中心特征的位置：

基于每个中心特征分布调整码书：

对于所有的局部特征定义向量e_ij＝f_ij-c_i，f_ij表示第i个簇中第j个特征，并定义c_i的切平面向量近似为

计算点积其中c_i的相对位置由点积密度决定；

根据切平面向量的方向更新中心特征，具体如下：若则定义适应性因子然后计算权重ω_i＝η_i*σ，其中σ是第i个簇的距离方差，最后更新中心特征为否则保持不变，其中γ在本发明中优选为0.75；

对于上述步骤进行最优条件检查，若收敛至阈值τ或达到最大迭代次数后终止，从而得到码书B。阈值τ取值为自然数，本发明中优选为10。

步骤3的编码阶段包括：

对于采样的图像底层局部特征输入F＝[f₁，f₂，...，f_N]∈R^N，通过过完备的码书可以保持编码结果的稀疏性，根据局部限制线性方法(LLC)编码，需要根据以下的目标函数进行编码：

在编码之前，需要根据码书的密度关系有机的选择对保持结构化信息更为有效的编码基：定义聚类中心点c_i的估计密度为：其中M是类ζ_j的结点个数且是类中各元素与中心特征距离的方差值。

粗略地选择f的近邻中心特征集合，本发明中优选的选择10个中心特征，然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基：

条件1：c_i是f的两个最近邻特征之一；

条件2：c_i的估计密度其中是所有中心的平均密度；

之后根据之前的目标函数对F进行编码，在上式中，⊙记录了元素之间的点乘，s_i是f和码书B中第i个编码基的距离：

根据目标函数固定了f和B能够获得局部的适应性编码α。

步骤4的特征汇合获得全局图像特征的步骤包括：

对每幅图像的编码矩阵V∈R^k×N矩阵，每个码字都能获得高冗余度的多个响应值，于是需要采用汇合策略将编码响应向量联结为一个全局图像统计向量。

定义具体的汇合操作符为：G_g(v)＝Ε_nw_nv_n＝Vw，n＝1，2，…，N。这里w＝[w₁，w₂，…，w_N]^T∈R^N定义为基于几何平滑汇合策略的权重向量，G_g(v)是最终图像的几何平滑汇合特征向量。|V|是图像的几何图像子空间区域的非零的个数。

对于每个w_n，定义为1≤n≤N，其中，a_n＝(x_n，y_n)和a_max＝(x_max，y_max)分别为局部编码特征和最大编码特征在图像中空间位置的坐标，σ′是所有非零的编码特征空间坐标位置距离的方差；从而汇合操作符展开为：

其中||v||_∞＝maxv_max，max是图像中每个局部编码特征最大响应值的相对位置，H(v)是基于特征编码空间位置最大汇合的平均值。

步骤5的采样阶段包括：

将步骤4获得的所有图像数据库中的全局特征向量按类排列，对每类图像的全局图像特征，随机选择一定数量的特征作为训练数据，在本发明中，在Caltech-101以及Caltehc-256数据集上选择30作为训练数据，其余的特征作为待分类数据。

步骤6的建模阶段包括：

对于训练数据的所有全局图像特征，对其使用线性支持向量机进行建模。

步骤7的分类阶段包括：

对于待分类的图像的全局图像特征，利用步骤6中所得到的模型对这些向量进行分类判定，以获得最终的分类结果。

本发明是为了解决现有技术忽略了显著编码特征周围局部特征的几何分布，以及码书的结构性信息而提出的方法。本发明具有以下特征：1)在码书学习过程中，基于封闭簇的快速K-means算法初始化码书，然后通过每个码字周围局部特征的分布来动态地更新码书；2)在编码阶段，在1)的基础上根据码字的密度适应性地选择编码基实现对图像底层局部特征的编码；3)在汇合阶段，我们采用几何平滑汇合策略对编码特征汇合生成图像结构化特征表示，不像以往最大值汇合那样丢弃局部特征的响应值，而是利用权重对编码特征进行汇合，主要根据局部特征响应值和显著特征响应值的空间几何位置关系来有效地保护图像显著特征周围局部特征的信息。本发明可用于图像的分类或检索方面的任务。

本发明先在码书学习阶段大大降低了码书生成的时间复杂度，然后码字通过局部特征的几何空间分布进行适应性地动态更新，最后基于空间金字塔的几何平滑汇合策略生成具有结构化特性的图像特征表示，充分利用了图像特征丰富的空间位置信息，并在图像分类实验上获得了较好的实验效果。

有益效果：本发明应用在图像分类领域，在图像特征表示上，本发明能够保持码书以及特征编码的结构化信息，能够大大降低码书生成的时间复杂度，以及生成具有结构化特性的图像特征表示，充分利用了图像特征丰富的空间位置信息，在图像分类上有着显著的效果，因此基于适应性编码和几何平滑汇合的图像分类方法具有较高的使用价值。

附图说明：

图1为本发明流程图。

图2为空间金字塔结构示意图。

图3为15个场景类数据库图像示意图。

图4为部分分类结果示例图。

图5为不同汇合策略在分类准确率上的比较图。

具体实施方式：

如图1所示，本发明公开了一种基于适应性编码和几何平滑汇合的图像分类方法，包含如下步骤：

步骤3，利用码书对采样的底层局部特征进行编码；

步骤4，将所有的编码结果进行汇合得到全局图像特征表示；

步骤7，利用分类模型对待测试图像进行分类；

步骤1图像提取底层局部特征具体包括如下步骤：

步骤2的码书学习包括：

首先利用基于封闭簇的快速近似K-means算法初始化码书，手段为利用寻找活跃点来提高K-means算法在分配阶段的正确率和效率：

对于初始给定的K(K<＝N，一般取500或1000，即字典维数，K在本发明中优选地取1000)个簇中心和一个由随机分割树(Random Patition Tree，RPTree)生成的封闭簇集合其中上标t表示为初始化时的迭代次数，t＝1，2，…，τ，τ取10，

对每个特征若则定义并更新距离其中表示封闭簇集合所含特征的个数，D[n]表示特征f_n的最近距离，indexf_n表示特征f_n所属的簇；之后更新每个封闭簇的中心特征：并重新计算中心特征的位置：

基于每个中心特征分布调整码书：

对于所有的局部特征定义向量e_ij＝f_ij-c_i，，f_ij表示第i个簇中第j个特征，并定义c_i的切平面向量近似为

计算点积其中c_i的相对位置由点积密度决定；

根据切平面向量的方向更新中心特征，具体如下：若则定义适应性因子然后计算权重ωi＝η_i*σ，其中σ是第i个簇的距离方差，最后更新中心特征为否则保持不变，其中γ在本发明中优选为0.75；

步骤3的编码阶段包括：

对于采样的图像底层局部特征输入F＝[f₁，f₂，…，f_N]∈R^N，通过过完备的码书可以保持编码结果的稀疏性，根据局部限制线性方法(LLC)编码，需要根据以下的目标函数进行编码：

粗略地选择f的近邻特征集合，然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基：

条件1：c_i是f的两个最近邻特征之一；

条件2：c_i的估计密度其中是所有中心的平均密度；

根据目标函数固定了f和B能够获得局部的适应性编码α。

步骤4的特征汇合获得全局图像特征的步骤包括：

定义具体的汇合操作符为：f_g(v)＝∑_nw_nv_n＝Vw，n＝1，2，…，N。这里w＝[w₁，w₂，…，w_N]^T∈R^N定义为基于几何平滑汇合策略的权重向量，f_g(v)是最终图像的几何平滑汇合特征向量。|V|是图像的几何图像子空间区域的非零的得个数。

其中||v||_∞＝maxv_max，max是图像中每个码字最大响应值的相对位置，H(v)是基于特征编码空间位置最大汇合的平均值。

步骤5的采样阶段包括：

步骤6的建模阶段包括：

步骤7的分类阶段包括：

实施例1

本实施例包括以下部分：

1.提取图像底层局部特征：

利用尺度旋转不变特性(Scale-invariant feature transform，SIFT)在图像中抽取局部特征，在本模块中主要应用到的是尺度旋转不变特征。

尺度不变特征转换(SIFT)特征是一种计算机视觉的算法用来侦测与描述影像中的局部性特征，它在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量，此算法由David Lowe在1999年所发表，2004年完善总结。

2.码书学习：

对采样而得的底层局部特征利用快速k-means方法进行码书训练，以期望学习出过完备的码书。本模块主要包含2个步骤：初始化码书以及更新中心特征。

初始化码书：从图像中抽取的d维的局部底层特征，d在本发明中优选为128。利用k-means聚类的主要目的是将这N个底层局部特征分为K(K≤n)组，在这个过程中，本发明的方法将找到活跃特征f并根据与中心特征的距离改变其在聚类过程中的类别属性。记f的邻居集合与其本身为NB_f，定义封闭簇ζ＝∪f∈ζNB_f。当计算f的邻居集合H_f时，利用随机分割树(Random Partition Tree，RP Tree)搜索每个特征的近邻，且最终的近邻由多个随机空间区域组合而得。之后，对簇中心点集合、封闭簇集合以及所有底层局部特征，有：

基于每个中心特征分布调整码书：

对于所有的局部特征定义向量并定义c_i的切平面向量近似为

计算点积其中c_i的相对位置由点积密度决定；

3.自适应编码：

在编码阶段，直观地，如果一个编码基比其他的编码基距离底层局部特征更近，该编码基将获得较大的响应值。这个编码基将会增强全局图像特征表示的描述性。此外，中心特征ci被一组密集的底层局部特征包围，在汇合操作过程中将获得很强的响应。因此为了获得显著的编码特征，码书中的视觉单词应当尽量分布于输入局部特征空间的密集区域中。而由于在视觉码书中的各个码字周围局部特征的密度分布是不同的。如果底层局部特征的近邻中心特征分布比较稀疏，固定的选择编码基将会产生很弱的响应。对于处于密集区域中的底层局部特征，固定的选择不适当的编码基将会导致不准确的响应值以及不匹配的局部性。由此可见不同的编码基对于底层局部特征的重要性是不同的。因此对于给定的码书B和底层局部特征F，我们需要基于码书中视觉单词周围局部特征的密度分布适应性地基。具体选择条件为：

定义聚类中心点c_i的估计密度为：其中M是类ζ_j的结点个数且是类中各元素与中心特征距离的方差值。

条件1：c_i是f的两个最近邻特征之一；

条件2：c_i的估计密度其中是所有中心的平均密度；

根据目标函数固定了f和B能够获得局部的适应性编码α。

4.特征汇合：

金字塔空间模型如图4所示，按照空间金字塔理论，将每幅图像都分割为1+4+6＝21个网格空间，对每个子空间都使用特征汇合将所有编码汇合成一个统计分量，再将统计分量拼接成全局的特征向量。具体的汇合方法如下：

定义具体的汇合操作符为：G_g(v)＝Σ_nw_nv_n＝Vw，n＝1，2，...，N。这里w＝[w₁，w₂，...，w_N]^"∈R^N定义为基于几何平滑汇合策略的权重向量，G_g(v)是最终图像的几何平滑汇合特征向量。|V|是图像的几何图像子空间区域的非零值的个数。

5.进行建模：

在本实施例中，将数据集中图像每类图中随机抽取30张图像作为训练集，使用线性支持向量机(Support vector machine，SVM)对数据进行建模。

6.图像分类：

对于待分类的图像的全局图像特征，利用所得到的模型对这些特征进行分类判定，使得模型对每一幅待分类的图像都有一个类的定性，从而获得最终的分类结果。

实施例2

图3为来源为15个场景类数据库的图像示例。图4为用本发明方法在15个场景类上的分类准确率，图5为不同的特征汇合策略在Caltech-101数据库上分类准确率的比较。

本发明提供了一种基于适应性编码和几何平滑汇合的图像分类方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于适应性编码和几何平滑汇合的图像分类方法，其特征在于，包含以下步骤：对待分类的图像和图像数据库中所有图像分别进行以下步骤1～步骤4的处理；

步骤1，图像提取底层局部特征：在图像I的N个位置进行采样，利用尺度不变特征转换方法抽取底层局部特征F；

步骤2，对采样的底层局部特征，进行码书学习；

步骤3，利用码书对采样的底层局部特征进行编码；

步骤4，将所有的编码结果进行汇合得到全局图像特征；

步骤5，将图像数据库中的全部图像的全局特征进行随机采样：随机以每类图像的一定数量的图像作为训练图像；

步骤6，将训练图像的全局图像特征表示使用支持向量机进行建模；

步骤7，利用分类模型对待分类图像进行分类；

步骤1具体包括如下步骤：

将每幅图像都调整成为300*300像素，以每步6像素从图像中以16*16的像素框抽取方法抽取底层局部特征F；

步骤2的码书学习阶段包括如下步骤：

利用基于封闭簇的快速近似K-means算法初始化码书：对于初始给定的K个簇中心和一个由随机投影树生成的封闭簇集合其中上标t表示为初始化时的迭代次数，t＝1,2,…,τ，对每个特征 N为取值为大于10000的自然数，若则定义并更新距离其中表示封闭簇集合所含特征的个数，D[n]表示特征f_n的最近距离，indexf_n表示特征f_n所属的簇；之后更新每个封闭簇中的特征：并重新计算中心特征：

基于每个中心特征分布调整码书：

对于所有的局部特征定义向量e_ij＝f_ij-c_i，其中，f_ij表示第i个簇中第j个特征，并定义c_i的切平面向量近似为

计算点积其中c_i的相对位置由点积密度决定；

根据切平面向量的方向更新中心特征，具体如下：若则定义适应性因子然后计算权重ω_i＝η_i*σ，其中σ是第i个簇的距离方差，最后更新中心特征为否则保持不变；γ取值为0.75；

对于上述步骤进行最优条件检查，若收敛至阈值τ或达到最大迭代次数后终止，从而得到码书B。

2.根据权利要求1所述的一种基于适应性编码和几何平滑汇合的图像分类方法，其特征在于，步骤3包括如下步骤：

对于步骤2得到的码书B和底层局部特征F，定义封闭簇中心特征c_i的估计密度为p_i：

其中M是封闭簇ζ_i的元素个数且是封闭簇中各元素与中心特征距离的方差值；

首先粗略地选择f的近邻中心特征集合，然后根据以下两个条件从这个集合中适应性地选择中心特征作为编码基：

条件1：c_i是f的两个最近邻特征之一；

条件2：c_i的估计密度其中是所有中心特征的平均密度；

根据局部限制线性编码的目标函数进行编码：

其中⊙记录了元素之间的点乘，s_j是f_n和码书B中第j个编码基的距离：

根据目标函数固定了f和B能够获得适应性的局部编码特征α。

3.根据权利要求2所述的一种基于适应性编码和几何平滑汇合的图像分类方法，其特征在于，步骤4中将所有的适应性编码结果进行汇合得到全局图像特征表示包括如下步骤：

按照空间金字塔理论，将每幅图像都分别分割成为1×1，2×2，4×4的网格结构，并对每个子区域进行特征汇合，最后将总共的21个特征汇合向量拼接成为1个全局特征向量来表示该图的全局图像特征。

4.根据权利要求3所述的一种基于适应性编码和几何平滑汇合的图像分类方法，其特征在于，步骤4中将所有的编码结果进行汇合得到全局图像特征表示进行全局特征向量计算，包括如下步骤：

定义具体的汇合操作符为：G_g(v)＝∑_nw_nv_n＝Vw,n＝1,2,…,N，其中w＝[w₁,w₂,…,w_N]^T∈R^N定义为基于几何平滑汇合策略的权重向量，G_g(v)是最终图像的几何平滑汇合特征向量，|V|是图像的几何图像子空间区域的非零值的个数；V为每幅图像的编码矩阵；

对于每个w_n，定义为其中，a_n＝(x_n,y_n)和a_max＝(x_max,y_max)分别为局部编码特征和最大编码特征在图像中空间位置的坐标，σ′是所有非零的局部编码特征空间坐标位置距离的方差；从而汇合操作符展开为：

其中‖v‖_∞＝maxv_max，max是图像中每个局部编码特征最大响应值的相对位置，H(v)是基于特征编码空间位置最大汇合的平均值。

5.根据权利要求4所述的一种基于适应性编码和几何平滑汇合的图像分类方法，其特征在于，步骤6包括如下步骤：以步骤4所得到的全局图像特征为输入，利用标准的线性支持向量机对分类任务进行建模。

6.根据权利要求5所述的一种基于适应性编码和几何平滑汇合的图像分类方法，其特征在于，步骤7包括如下步骤：对于待分类的图像的全局图像特征，利用步骤6中得到的模型对其进行分类，给予图像类标，完成分类任务。