CN108805183A

CN108805183A - 一种融合局部聚合描述符和局部线性编码的图像分类方法

Info

Publication number: CN108805183A
Application number: CN201810523705.XA
Authority: CN
Inventors: 龙显忠; 程成
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2018-05-28
Filing date: 2018-05-28
Publication date: 2018-11-13
Anticipated expiration: 2038-05-28
Also published as: CN108805183B

Abstract

本发明涉及一种融合局部聚合描述符和局部线性编码的图像分类方法，包括以下步骤：提取数据集中每张图像显著区域的局部特征；对提取的局部特征进行聚类，得到聚类字典；对图像显著区域的局部特征进行重构，累加每张图像中局部特征的重构系数；利用局部特征和聚类字典进行VLAD编码；将每张图像中累加的重构系数向量与VLAD编码进行融合；利用分类器对测试图像的融合编码进行分类。本发明充分考虑到了特征的重构信息对图像的有效表示以及VLAD编码对于图像的准确表达性能，提高了图像分类中的准确率。

Description

一种融合局部聚合描述符和局部线性编码的图像分类方法

技术领域

本发明涉及一种融合局部聚合描述符(VLAD)和局部线性编码(LLC)的图像分类方法，属于模式识别与信息处理技术领域。

背景技术

图像分类是计算机视觉、模式识别领域非常热门的研究方向，并且被广泛运用到很多领域，包括安防领域中的人脸识别、行人检测，交通领域中的交通标记识别、车牌检测和识别等。随着大数据时代的来临，图像数量不断增加，这使得图像分类面临巨大的挑战，因此在图像分类、检索等任务中，如何有效的表示一张图像显得至关重要。

早期的图像分类研究主要采用图像的颜色、纹理和形状等全局特征来表示图像，但是由于全局特征缺乏图像的局部信息，并且对光照变化、比例缩放等现象表现出较差的鲁棒性，于是一些基于局部不变特征的编码算法被提出来，例如，词袋(bag of words，BoW)、fisher vector(FV)、局部聚合描述符(vector of locally aggregateddescriptors，VLAD)等。

BoW算法基于投票方式将特征量化到最近邻字典，信息损失较多，但是BOW算法会忽略有关特征空间布局的信息，因此它无法捕获形状或定位对象。空间金字塔匹配(SPM)方法可用于将图像划分为越来越精细的空间子区域，并计算每个子区域的局部特征的直方图，但是SPM是一个很难投票的过程，所以编码的量化损失非常高。基于稀疏编码的SPM(ScSPM)使用稀疏编码策略对每个局部描述符进行编码。然而，当字典比较完备时，稀疏编码过程可能会为相似特征选择完全不同的视觉单词，从而失去了编码之间的相关性。为了确保相似的特征有相似的编码，有人提出了局部约束线性编码(LLC)，其引入了用于特征编码的局部约束。在LLC中,使用视觉字典中的多个视觉单词表示一个特征描述子的方式更加精确,且相似的特征描述子通过共享其局部的视觉单词,得到相似的编码,这使得ScSPM的不稳定性得到极大改善。

FV算法使用混合高斯模型(Gaussian mixturemodel，GMM)估计特征分布，能够较细致地描绘特征，但是计算量较大。VLAD作为FV的非概率版本，考虑了特征点每一维的值，对图像局部信息有更细致的刻画，并且计算量相对较小，已经被成功应用于图像分类和检索等任务中。但是，现有的VLAD编码对图像的表达不足。

发明内容

本发明的目的在于：针对现有技术存在的缺陷，考虑特征的重构信息对图像有效表示的性能，提出一种融合VLAD(局部聚合描述符)和LLC(局部线性编码)的图像分类方法，该方法能有效的提高图像分类的准确率。

为了达到以上目的，本发明提供了一种融合局部聚合描述符和局部线性编码的图像分类方法，包括以下步骤：

步骤1、建立包含一组测试图像的数据集，利用视觉显著性检测得到数据集中每张图像的显著区域，并提取每张图像显著区域的局部特征(SIFT特征)；

步骤2、对步骤1中获得的所有图像的局部特征进行聚类，得到关于局部特征的一个字典，聚类的个数为字典的大小；

步骤3、由步骤2得到的字典对步骤1中每张图像显著区域的局部特征进行重构，并将每张图像得到的重构系数进行累加，得到每张图像的重构系数向量；

步骤4、将步骤1得到的每张图像显著区域的局部特征和步骤2得到的字典采用VLAD算法进行编码，得到每张图像的VLAD编码；

步骤5、将步骤4得到的每张图像的VLAD编码和步骤3得到的每张图像的重构系数向量进行融合，得到每张图像的融合编码；

步骤6、利用分类器对由步骤5得到的测试图像的融合编码进行分类。

本发明通过提取图像的显著区域的SIFT特征，利用近似LLC对提取的SIFT特征进行重构，将重构的权重信息和图像的VLAD编码融合为一个紧凑的全局表示，以解决大规模图像的分类问题。

优选地，在步骤1中，采用GBVS(graph-basedvisual saliency)算法得到每张图像的显著区域，在显著区域提取128维的局部特征。

优选地，在步骤2中，采用K-means算法对每张图像显著区域的局部特征进行聚类，得到大小为K的字典B，所述字典的表达式如下：B＝[b₁，b₂，…，b_k]∈R^128×K，b表示视觉单词。

优选地，在步骤3中，采用近似LLC算法对提取的每张图像显著区域的局部特征进行重构，得到每张图像提取特征的重构系数，将上述重构系数进行累加，并每张图像与K维的累加系数相关联，得到每张图像的重构向量。

优选地，在步骤4中，采用VLAD算法对提取的每张图像显著区域的局部特征进行编码，得到每张图像的VLAD编码。

优选地，在VLAD编码时，先找到提取的局部特征在字典中的最近邻视觉单词，然后在局部特征及其最接近的视觉单词之间累积残差向量，对于每张图像得到一个K*128维的向量。

优选地，在步骤5中，对得到的VLAD描述符和近似LLC的重构系数的累加和向量进行融合，融合VLAD编码和近似LLC时，将得到的K维累加系数中的每一维放在原始VLAD编码的每128维的下一维，得到最终的K*(128+1)维来表示每张图像。

与现有技术相比，本发明的优点如下：

(1)本发明提取的局部特征是图像显著区域特征，而不是所有特征，它能够避免图像中非显著区域特征的干扰，以实现对图像更准确地表达；

(2)本发明采用K-means算法处理数据集的局部特征，能够快速实现对数据集局部特征空间的划分；

(3)利用近似LLC可以快速得到每张图像的重构信息，且每张图像的重构信息对于图像自身的描述很有效；

(4)利用VLAD描述符对图像描述的准确性结合重构信息的性能，融合为一个紧凑的全局表示，能够快速有效的得到图像新的表示，减少特征的存储空间，提高分类的准确率。

总之，本发明充分考虑到了局部特征的重构信息对图像的有效表示以及VLAD编码对于图像的准确表达性能，提高了图像分类中的准确率。

附图说明

下面结合附图对本发明作进一步的说明。

图1为本发明面向图像分类的融合VLAD和LLC编码方法的流程图。

图2为本发明与VLAD在15Scenes数据集中不同字典大小下比较的示意图。

图3为本发明与VLAD在15Scenes数据集中不同数量训练图像下比较的示意图。

图4为本发明与VLAD在UIUC SPORT数据集中不同字典大小下比较的示意图。

图5为本发明与VLAD在UIUC SPORT数据集中不同数量训练图像下比较的示意图。

具体实施方式

为了使本发明的目的、技术方案和有益效果更加清楚明白，以下结合具体案例，并参照附图，对本发明进行进一步详细说明。实施例1

本实施例提供一种融合VLAD(局部聚合描述符)和LLC(局部线性编码)的图像表达方法在图像分类中的应用，具体过程如下：

步骤1、建立包含一组测试图像的数据集，利用GBVS(graph-based visualsaliency)算法得到数据集中每张图像的显著区域，在每张图像的显著区域提取其局部特征，本实施例的局部特征采取的是经典SIFT特征。将提取的每张图像显著区域的SIFT特征表示为V＝[V₁，V₂，…V_p]∈R^D×P，其中，D为SIFT特征的维度，D取值128，P为集合中SIFT特征的个数，v表示SIFT特征。

步骤2、利用K-means算法对从数据集中提取的所有图像的SIFT特征进行聚类，得到关于SIFT特征的一个聚类字典B，聚类字典B包含K个视觉单词，其表达式为B＝[b₁，b₂，...，b_k]∈R^D×K，由于D＝128，则B＝[b₁，b₂，...，b_K]∈R^128×K，其中b表示视觉单词。

步骤3、采用近似LLC算法对提取的SIFT特征进行重构，得到每张图像提取特征的重构系数，将这些重构系数进行累加，每张图像与K维的累加系数相关联。在LLC重构中，每个SIFT特征更准确的由多个视觉单词表示，并且LLC编码通过共享视觉单词来表示类似特征之间的相关性，LLC确保相似特征将具有相似编码。具体公式如下：

其中，e表示单元乘法；w_i为每个SIFT特征的一组编码(即重构系数)，约束对重构系数向量w_i进行归一化；d_i被用来描述词典中v_i(特征)与每个视觉词之间的距离，作为一个正则化项，它可对更接近特征的视觉单词施加更大的权重；i为SIFT特征集V中每个特征的编号。

事实上，近似LLC算法用于提高编码速度。可以选择N(N<<K)个局部最近邻视觉单词来重构特征，并求解一个更小的线性系统来得到代码。那么，基于公式(1)可得到如下公式：

从每张图像显著区域中提取的SIFT特征假设有P个，利用近似LLC可以得到重构系数矩阵。重构系数矩阵中，每列表示一个SIFT特征的重构系数。对每张图像SIFT特征的重构系数进行求和操作，即可得到其累加向量，累加向量记为W_sum＝[w_s1，w_s2，...，w_sK]^T，则

其中，T表示向量转置，S₁，S₂，...，S_k表示向量中对应维度的下标索引。累加的重构系数向量中的每一项代表字典中特定视觉词对重构特征的重要性。

步骤4、采用VLAD算法对每张图像显著区域的SIFT特征和聚类字典进行编码，得到每张图像的VLAD编码。VLAD构建过程如下：

其中，C表示在SIFT特征及其最接近的视觉单词之间累积的残差向量，NN(vt)表示提取的SIFT特征聚类字典中最接近的视觉单词。

在VLAD编码时，要先找到提取的SIFT特征在聚类字典B中的最近邻视觉单词，然后在SIFT特征及其最接近的视觉单词之间累积残差向量，即可获得VLAD描述符。对于每张图像，得到一个K*D(128)维的向量。

步骤5、将得到的VLAD描述符和近似LLC的重构系数向量进行融合。融合VLAD编码和近似LLC时，将得到的K维累加系数中的每一维放在原始VLAD编码的每D(128)维的下一维，得到最终的K*(D+1)即K*(128+1)来表示每张图像，得到每张图像的融合编码。

步骤6、利用SVM对得到的每张图像的融合编码进行分类。

步骤1～5的详细过程可以通过下属表格进行描述：

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，包括以下步骤：

步骤1、建立包含一组测试图像的数据集，利用视觉显著性检测得到数据集中每张图像的显著区域，并提取每张图像显著区域的局部特征；

2.根据权利要求1所述一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，在步骤1中，采用GBVS算法得到每张图像的显著区域，在显著区域提取128维的局部特征。

3.根据权利要求2所述一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，在步骤2中，采用K-means算法对每张图像显著区域的局部特征进行聚类，得到大小为K的字典B，所述字典的表达式如下：B＝[b₁，b₂，...，b_K]∈K^128×K，b表示视觉单词。

4.根据权利要求3所述一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，在步骤3中，采用近似LLC算法对提取的每张图像显著区域的局部特征进行重构，得到每张图像提取特征的重构系数，将上述重构系数进行累加，并每张图像与K维的累加系数相关联，得到每张图像的重构向量。

5.根据权利要求4所述一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，在步骤4中，采用VLAD算法对提取的每张图像显著区域的局部特征进行编码，得到每张图像的VLAD编码。

6.根据权利要求5所述一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，在VLAD编码时，先找到提取的局部特征在字典中的最近邻视觉单词，然后在局部特征及其最接近的视觉单词之间累积残差向量，对于每张图像得到一个K*128维的向量。

7.根据权利要求6所述一种融合局部聚合描述符和局部线性编码的图像分类方法，其特征在于，在步骤5中，对得到的VLAD描述符和近似LLC的重构系数的累加和向量进行融合，融合VLAD编码和近似LLC时，将得到的K维累加系数中的每一维放在原始VLAD编码的每128维的下一维，得到最终的K*(128+1)维来表示每张图像。