CN109902692A

CN109902692A - 一种基于局部区域深度特征编码的图像分类方法

Info

Publication number: CN109902692A
Application number: CN201910030840.5A
Authority: CN
Inventors: 祝晓斌; 李现波; 王倩; 张新明
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2019-01-14
Filing date: 2019-01-14
Publication date: 2019-06-18

Abstract

本发明涉及一种基于局部区域深度特征编码的图像分类方法，具体涉及到融合似物性采样技术、卷积神经网络技术和局部聚合描述符编码技术，包括：步骤1，对图像进行似物性采样，得到一组可能包含目标对象的候选窗口和窗口得分；步骤2，利用卷积神经网络对得到的候选窗口进行特征提取；步骤3，采用基于多近邻分配策略和窗口得分改进的VLAD编码技术对提取的特征进行编码；步骤4，采用线性SVM作为分类器，实现图像分类任务。本发明采用似物性采样和卷积神经网络技术相结合的方法提取图像局部区域深度特征，随后采用改进的VLAD技术对局部特征进行编码，有效提高了计算效率，达到了较好的分类效果，适应于各种图像分类任务。

Description

一种基于局部区域深度特征编码的图像分类方法

技术领域

本发明总的涉及计算机视觉与模式识别技术，具体属于一种基于局部区域深度特征编码的图像分类方法，适用于各种图像数据。

背景技术

图像分类广泛应用于目标识别、图像检索等任务，是计算机视觉等领域的研究热点之一。由于尺度与视角的变化、复杂背景、光照变化等原因，图像分类成为计算机视觉领域中最具有挑战性的任务之一。

早期图像分类研究主要采用图像的颜色、纹理和形状等全局特征，由于全局特征缺乏图像的局部信息，并且对光照变化、遮挡等现象鲁棒性较差，基于SIFT等局部不变性特征的图像分类算法被提出。近年来，深度学习技术被广泛应用在计算机视觉等领域，取得了很好的实验和应用效果。其中，卷积神经网络可以学习到更加抽象的特征表示，这种特征表示对图像平移、比例缩放、倾斜等变形具有更好的不变性。采用卷积神经网络可以提取有效的图像全局特征，但是缺乏图像局部信息。已有的基于滑动窗口选取图像局部区域，并用卷积神经网络提取局部区域特征，随后采用局部聚合描述符技术对局部特征进行编码得到图像表示的方法，由于没有考虑窗口中图像内容的显著性等特性，使得所提特征的有效表达能力较弱，同时，为保证特征表示能力，通常需要大量候选窗口，导致计算量过大。此外，现有的局部聚合描述符技术将特征分配到最近邻字典进行编码，如果存在局部特征与多个视觉字典的距离相近甚至相同的情况，会造成编码冲突导致有效邻域信息丢失，进而影响其在实际中的应用。

与滑动窗口相比，似物性采样方法可以显著减少候选窗口数量，同时提高窗口质量，属于物体检测中的一种目标定位方法。该方法不区分物体的类别，根据图像的低层特征，如边缘、显著性、颜色对比度等似物性特征，对图像中可能存在物体的位置进行评估和采样，选取一组可能包含目标对象且能覆盖图像中所有目标的候选窗口，已经成功应用于物体检测等任务中。

现有的基于卷积神经网络的图像分类方法的两个方面的不足：(1)现有的基于滑动窗口和卷积神经网络提取局部特征的方式，使得所提特征的有效表达能力较弱，且计算量过大。(2)现有的局部聚合描述符技术将特征分配到最近邻字典进行编码，会造成编码冲突导致有效邻域信息丢失。

在牛津大学计算机视觉组(Visual Geometry Group)的aren Simonyan和GoogleDeepMind公司的ndrew Zisserman、2014年发表、题目为“Very Deep ConvolutionalNetworks for Large-Scale Image Recognition”的论文中提出名为“VGGNet”的卷积神经网络，作者认为通过加深卷积神经网络的深度可以更好的提取输入图片的全局特征。预处理是把每个像素减去一个RGB均值，卷积层均用的3*3大小的滤波器，填充和步长均为1，最后一个卷积层使用滑窗的方式进行分类预测，将不同窗口的分类结果平均，再将不同尺寸的结果平均作为最后的分类结果。该论文中提出的方法虽然对分类的效果有提升，但是中间的卷积层在反向传播过程会占用更多的内存，针对于对整个图像进行提取全局的深度特征表示，缺乏对目标对象的深度特征表示的提取能力。

在微软亚洲研究院何恺明、张翔宇、任少卿、孙剑、2015年发表、题目为“Learningfor Image Recognition”的论文中，提出通过更深层的名为“ResNet”的卷积神经网络来解决图像分类的任务。随着卷积神经网络的加深，带来的问题也显而易见，带来的诸如梯度消失，梯度爆炸的问题也使得分类的准确率下降。ResNet通过引入残差的概念。假设x是输入，F(x)是隐藏层操作，那么一般神经网络的输出为H(x)＝F(x)而残差网络的输出为H(x)＝F(x)+x，残差块包含两个部分：快捷连接(shortcut connections)和残差部分。F(x)是残差。残差的引入是的卷积神经网络在加深的同时，也解决了梯度的问题，分类效果较之前技术而言有提升。不足之处是随着神经网络的加深，内存占用很大，计算量也随之增长，同时，仍然针对于对整个图像进行提取全局的深度特征表示，缺乏对目标对象的深度特征表示的提取能力。

发明内容

本发明要解决的技术问题为：克服现有技术的不足，提供一种基于局部区域深度特征编码的图像分类方法，以提高图像特征的表示能力和计算效率。

本发明技术解决方案：一种基于局部区域深度特征编码的图像分类方法，包含一下步骤：

(1)利用似物性采样技术获取图像候选区域。算法首先利用结构化边缘检测器得到图像中每个像素的边缘响应值，并对其进行非最大抑制正交处理得到一个稀疏边缘图；然后，根据边缘图中像素的边缘值和方向信息对其进行分组形成多个边缘组，并计算两两边缘组之间的相似度，给出一个边界框x，判断每个边缘组与x的交叉关系：如果边缘组完全在x中，其连续值w_x设为1；如果边缘组与x的边界线重合或者完全在边界框的外面，w_x为0；其他情况按照公式计算每个边缘组基于边界框x的连续值：

为每个与边界框交叉的边缘组找到一个到其最近似边缘组的路径。由于大部分边缘组的相似度为0，因此计算速度很快。最后，根据每个边缘组连续值和边界框x的位置对x进行评分。

基于上述步骤，可以迅速得到图像中每个窗口的位置、大小以及得分信息。根据窗口得分对窗口进行降序排序，选取一组可能包含目标对象的窗口作为图像区域候选窗口。

(2)采用卷积神经网络提取图像局部区域深度特征。在得到图像区域候选窗口后，本发明采用卷积神经网络AlexNet模型依次提取图像候选窗口区域的特征表示。该模型总共有八层，包括五层卷积层、两层全连接层和最后一层softmax分类层，由于深层网络特征区分能力更强，本发明将网络第七层全连接层的4096维输出向量作为图像局部区域特征表示。随后，对局部特征进行PCA降维和白化处理。

(3)基于VLAD技术将局部特征编码成单一向量。在VLAD模型中，一般采用SIFT等手工特征表示图像局部特征点，如果存在局部特征与多个视觉字典的距离相近甚至相同的情况，会造成编码冲突导致有效邻域信息丢失，因此，本发明采用多近邻分配代替最近邻分配，将特征点量化到多个最近邻字典。另外，由于每个候选窗口包含目标对象的可能性不同，本发明在编码过程中，根据窗口得分赋予其对应特征以不同的权重。上述方法即对VLAD技术进行的改进。

(4)为了进一步提高分类精度以及分类器的训练速度，本发明对VLAD特征描述符进行SSR归一化。

(5)训练分类器。得到图像特征表示后，本发明采用线性SVM做分类器，并且基于一对多的方式进行分类器的训练，实现图像分类任务。

SVM即支持向量机，一般来说SVM应用于二分类的任务。通过SVM中的核函数，将局部深度特征编码映射到高维特征编码空间，通过与各类别特征样本对比找到最优分类超平面，实现二分类任务。对于多分类任务，可以先把多分类转换为二分类任务，即本类别与其他类别。若有n个类别，执行n次二分类任务，可以实现多分类任务。

本发明与现有技术相比的优点在于：

(1)本发明通过似物性采样技术选取图像中到可能包含目标对象的图像局部区域候选框，似物性采样方法可以显著减少候选窗口数量，计算量也随之下降，同时提高候选窗口的质量。可以为后续提取深度特征表示提供更好的候选区域。

(2)由于可以得到更好的候选区域，采用卷积神经网络提取到的图像局部区域深度特征也就更加完整，进而可以对图像局部区域深度特征编码得到图像整体特征表示，相对于直接使用深度卷积神经网络提取到图像整体特征表示而言，本发明提取的图像整体特征表示有更强的表达能力。

(3)用基于多近邻分配策略和窗口得分改进的VLAD编码技术对局部区域深度特征进行编码可以有效解决传统VLAD技术造成编码冲突导致有效邻域信息丢失问题。

附图说明

图1是本发明进行图像分类的整体实现流程图；

图2是本发明中似物性采样获取候选区域及区域得分的方法示意图。

具体实施方式

附图1描述了基于局部区域深度特征编码的图像分类整体过程。下面结合附图对本发明进行进一步的说明。

本发明包括以下步骤：

步骤1，输入图像，采用似物性采样技术，得到图像局部候选区域框。

步骤2，使用卷积神经网络提取图像候选区域的特征表示，作为图像局部区域深度特征。

步骤3，基于VLAD技术将局部特征编码成单一向量作为图像整体特征表示。

步骤4，对VLAD特征描述符进行归一化。

步骤5，采用线性SVM作为分类器，实现图像分类任务。

通过以上的步骤，即可实现图像分类任务。其中，将似物性采样技术和卷积神经网络相结合提取图像局部区域深度特征，采用VLAD技术对局部特征进行编码得到图像整体特征。

具体的实现步骤：

(1)利用似物性采样技术获取图像候选区域。本发明采用Edge Boxes算法选取少量的、高质量的候选窗口，并且计算速度快。如图2所示，首先利用结构化边缘检测器得到图像中每个像素的边缘响应值，并对其进行非最大抑制正交处理得到一个稀疏边缘图；然后，根据边缘图中像素的边缘值和方向信息对其进行分组形成多个边缘组，并计算两两边缘组之间的相似度，公式如下：

d(s_i,s_j)＝|cos(θ_i-θ_ij)cos(θ_j-θ_ij)|^γ (1)

其中，d(s_i，s_j)表示边缘组s_i，s_j的相似度，θ_i、θ_j为s_i、s_j的平均方向，θ_ij为s_i、s_j的夹角，i，j表示边缘组的编号，用来区分不同的边缘组，γ用来调节相似性对角度变化的敏感度。给出一个边界框x，判断每个边缘组s_i与x的交叉关系，该交叉关系用连续值w_x(s_i)表示：如果s_i完全在x中，其连续值w_x(s_i)设为1；如果s_i与x的边界线重合或者完全在边界框的外面，w_x(s_i)为0；其他情况按照以下公式计算每个边缘组基于边界框x的连续值：

其中，t_j∈S_x，t_T∈s_i，S_x为与边界框x有交叉的边缘组集合，d(t_j，t_j+1)表示边缘组t_j,t_j+1的相似度，j，T均表示边缘组的编号。公式(2)为每个与边界框交叉的边缘组找到一个到其最近似边缘组的路径。由于大部分边缘组的相似度为0，因此计算速度很快。最后，根据每个边缘组连续值和边界框x的位置对x进行评分。考虑到位于边界框中心位置的边缘像素点的重要性不如靠近边界框边缘的像素点，边界框x的得分(即其包含目标对象的可能性)可以按照式(3)计算：

其中，m_i为边缘组s_i中所有边缘像素的幅度的和，w_x(s_i)为连续值，即如上所述，为每个边缘组s_i与x的交叉关系，x_w、x_h分别为边界框的宽和高，p为位于xⁱⁿ中的边缘组集合，m_p表示位于xⁱⁿ中的边缘组集合中所有边缘像素的幅度和，xⁱⁿ表示位于边界框x中心位置且宽和高分别为x_w/2、x_h/2的小矩形框，此小矩形框相对于宽和高分别为x_w、x_h的矩形框而言。

(3)基于VLAD技术将局部特征编码成单一向量。在VLAD模型中，一般采用SIFT等手工特征表示图像局部特征点，记X＝[x₁，x₂，……，x_N]∈R^DXN为图像局部特征矩阵，其中D为局部特征的维度，N为局部特征的个数。首先采用K-means算法对局部特征进行聚类得到M个视觉字典C＝[c₁，c₂，……，c_M]∈R^DXM，然后将特征点量化到最近邻字典，并计算其与最近邻字典的残差。但是，如果存在局部特征与多个视觉字典的距离相近甚至相同的情况，会造成编码冲突导致有效邻域信息丢失，因此，本发明对VLAD技术进行改进，采用多近邻分配代替最近邻分配，将特征点量化到多个最近邻字典。另外，由于每个候选窗口包含目标对象的可能性不同，本发明在编码过程中，根据窗口得分赋予其对应特征以不同的权重。此方法可以表示为：

其中，NN(x)＝c_i表示c_i为局部特征x的一组最近邻字典，c_ik∈c_i，c_ik为局部特征x的第k个最近邻字典，a_k为x与c_ik的残差的权重，计算方法如式(5)所示：

t_x为局部特征x的权重，该权重根据其对应候选窗口的得分得到。基于窗口得分的范围与分布情况，本发明设置的候选窗口得分h_x与其特征权重t_x的关系如式(6)所示：

v_i为图像中最近邻字典属于c_i的所有特征点与c_i的残差的累计和。将所有字典的残差向量聚合得到图像特征表示V＝{v₁，v₂，……，v_i}，i表示第i个候选窗口。

(4)为了进一步提高分类精度以及分类器的训练速度，本发明对VLAD特征描述符进行SSR归一化：

v_i对应与式(4)，为图像中最近邻字典属于c_i的所有特征点与c_i的残差的累计和。对向量v_i取绝对值而后进行开平方根，得到临时中间向量结果1，用tmp₁表示，把向量v_i输入到符号函数sign(v_i)中得到临时中间向量结果2，用tmp₂表示，临时中间向量结果tmp₁与临时中间向量结果tmp₂进行相乘操作，得到最终结果赋值给向量v_i，即完成对向量v_i的归一化操作。

(5)训练分类器。得到图像整体特征表示后，本发明采用线性SVM做分类器，并且基于一对多的方式进行分类器的训练，实现图像分类任务。

Claims

1.一种基于局部区域深度特征编码的图像分类方法，其特征在于：包括以下步骤：

步骤1，采用似物性采样技术，选取图像局部候选区域框，似物性采样技术可以提取到图像局部候选区域中包含目标对象的边缘组，并把该图像局部候选区域中的边缘组与该图像局部候选区域框的交叉关系作为包含目标对象的可能性；并根据局部候选区域框中包含目标对象的可能性赋予图像局部候选区域框以相应的得分，该得分为图像局部特征的权重赋值提供依据；

步骤2，将图像局部候选区域框依次输入到卷积神经网络中，提取图像候选区域的特征表示；

步骤3，采用基于多近邻分配策略和窗口得分改进的VLAD编码技术对步骤2提取到图像候选区域的特征表示进行编码，得到图像整体特征表示；

步骤4，对图像整体特征表示进行归一化；

步骤5，采用线性SVM作为分类器，把归一化后的图像整体特征表示作为分类器的输入，实现图像分类任务。

2.根据权利要求1所述的一种基于局部区域深度特征编码的图像分类方法，其特征在于：所述步骤1中，似物性采样技术为Edge boxes技术，实现为：选取1000个可能包含目标对象的图像局部候选区域，根据图像局部候选区域包含目标对象的可能性赋予其相应的得分，该方法考虑到图像局部候选区域目标对象的显著性，同时提高计算效率；

所述步骤1具体实现步骤如下：

(1)Edge boxes技术判断图像中目标对象的边界，通过获取的图像中目标对象的边缘组信息，确定可能包含目标对象的图像局部候选区域；

(2)确定图像局部候选区域中包含的目标对象可能性，根据上述可能性，通过算法赋予该图像局部候选区域框相应的分数。

3.根据权利要求1所述的一种基于局部区域深度特征编码的图像分类方法，其特征在于：所述步骤2中，采用具有八层网络结构AlexNet模型依次提取图像局部候选区域的特征表示，将AlexNet网络中第七层的4096维向量作为图像局部候选区域的特征表示；

所述步骤2具体实现步骤如下：

(1)将得到的一系列的图像局部候选区域框输入到卷积神经网络AlexNet模型中，AlexNet模型为具有八层网络结构；

(2)AlexNet的第七层的输出是4096维向量，把该向量作为局部候选区域的深度特征表示，随后，对局部候选区域的深度特征表示进行PCA降维处理和白化处理。

4.根据权利要求1所述的一种基于局部区域深度特征编码的图像分类方法，其特征在于：所述步骤3中，基于改进的VLAD编码技术对图像的局部候选区域特征表示进行编码，采用多近邻分配的策略代替原有的最近邻分配策略，将局部特征量化到多个最近邻字典，计算局部特征与多个最近邻字典的残差，同时，在编码过程中根据候选窗口得分赋予其局部特征相应的权重；

所述采用基于多近邻分配策略和窗口得分改进的VLAD编码技术对步骤2提取到的图像局部候选区域特征进行编码，得到图像整体特征表示的具体步骤如下：

(1)采用K-means算法对局部候选区域特征进行聚类到多个视觉字典，将提取的局部区域深度特征量化到多个最近邻字典，计算其与多个最近邻字典的残差；

(2)同时根据窗口的得分赋予其对应的局部区域深度特征相应的权重。

5.根据权利要求1所述的一种基于局部区域深度特征编码的图像分类方法，其特征在于：所述步骤4中，对VLAD特征描述符进行SSR归一化；

所述步骤4具体实现步骤如下：

(1)对特征描述符向量取绝对值而后进行开平方根，得到临时特征描述符；

(2)特征描述符向量输入到符号函数中，输出向量与上述临时特征描述符进行相乘操作，即完成归一化操作。

6.根据权利要求1所述的一种基于局部区域深度特征编码的图像分类方法，其特征在于：采用线性SVM作为分类器，采用一对多的方式进行分类器的训练，实现图像分类任务,具体实现如下：

(1)通过SVM中的核函数，将局部深度特征编码映射到高维特征编码空间，通过与各类别特征样本对比找到最优分类超平面，实现二分类任务；

(2)对于多分类任务，可以先把多分类转换为二分类任务，即本类别与其他类别；若有n个类别，执行n次二分类任务，可以实现多分类任务。