CN109165699B

CN109165699B - 细粒度图像分类方法

Info

Publication number: CN109165699B
Application number: CN201811210182.XA
Authority: CN
Inventors: 张勇东; 闵少波; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2020-06-26
Anticipated expiration: 2038-10-17
Also published as: CN109165699A

Abstract

本发明公开了一种细粒度图像分类方法，包括：利用特征提取器提取输入图像的特征；利用两个特征映射函数对提取到的特征做映射操作，并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达；其中一个映射操作中使用了针对提取到的特征所预测到的最优池化阶数，另一个映射操作中使用了针对提取到的特征中每一个像素位置的重要性程度；利用分类器对所述最终图像表达进行分类，从而实现对输入图像的分类。通过上述方案可以解决样本异质性与区域异质性的问题，极大的提高了细粒度图像分类的准确率。

Description

细粒度图像分类方法

技术领域

本发明涉及图像分类技术领域，尤其涉及一种细粒度图像分类方法。

背景技术

细粒度图像分类在近几年间获得了广泛的关注，其目标为区分一个基本类别下的众多子类。由于细粒度级别的信息对于理解物体细节更加重要，细粒度图像分类技术比传统图像分类具有更加广阔的应用前景。

作为传统目标识别的一个子类，细粒度图像分类的难点在于如何识别出不同子类别图像间细微的差别。在众多细粒度图像分类方法中，双线性池化被广泛的运用于提取图像高阶信息。通过外积的重组方式，双线性池化能够将基础网络的一阶特征映射成更高阶的特征，从而显式地表达出更多的图像细节信息。然而目前的方法都不合理地将固定的高阶池化运用于所有的图像样本，没有考虑样本之前的差异性。除此之外，图像中不同区域的不同信息量导致了同一高阶池化对不同区域也有着不同的效果。

发明内容

本发明的目的是提供一种细粒度图像分类方法，可以提高细粒度图像分类的准确率。

本发明的目的是通过以下技术方案实现的：

一种细粒度图像分类方法，包括：

利用特征提取器提取输入图像的特征；

利用两个特征映射函数对提取到的特征做映射操作，并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达；其中一个映射操作能够根据图像内容预测一个最优的池化阶数，另一个映射操作能够对图像中的每一个像素点预测一个重要性权重；

利用分类器对所述最终图像表达进行分类，从而实现对输入图像的分类。

由上述本发明提供的技术方案可以看出，一方面，能够对每一张输入图像学习到一个特定阶数的池化策略，来解决样本异质性的问题，另一方面，能够学习到图像中哪些区域包含更有价值的信息，解决的是区域异质性问题；该方案在三个广泛使用的基准数据集中都取得了当前最好的结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种细粒度图像分类方法的流程图；

图2为本发明实施例提供的实现细粒度图像分类方法的网络结构示意图；

图3为本发明实施例提供的自适应双线性池化的三种实现方式的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提出一种细粒度图像分类方法，其步骤如图1所示，相应的网络结构如图2所示，该方法的主要步骤如下：

步骤1、利用特征提取器提取输入图像的特征。

本发明实施例中，所述特征提取器可以通过卷积神经网络实现，所述卷积神经网络包含多组卷积层结构，每组卷积层结构中包含多个卷积层和ReLU激活函数；组与组之间设有一个最大池化层，每组卷积块层内部卷积层的卷积核数量一样，并且随着网络的加深，不同组的卷积核数量会依次递增，将最后一个卷积层输出的特征作为特征提取器的特征提取结果。

示例性的，特征提取器可以通过CNN模型实现，包括VGG-16或ResNet-101。例如VGG-16包含五组卷积层结构，每组结构中包含2-3个卷积层和ReLU激活函数。组与组之间插入一个最大池化层来降低特征维度和扩大感受野。每组卷积块层内部的卷积核数量一样，并且随着网路的加深，不同组的卷积核数量会依次递增。在VGG-16结构里，五组卷积结构的输出特征的通道数可以依次设置为：64,128,256,512,512。随着特征通道数目的增多，以及特征的空间维度变小，网络提取到的特征也包含了更高层语义上的信息。最后VGG-16输出的最后一个卷积层特征作为特征提取结果X_i。

步骤2、利用两个特征映射函数对提取到的特征做映射操作，并利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达。

本发明实施例中，其中一个映射操作能够根据图像内容预测一个最优的池化阶数，而另一个映射操作能够对图像中的每一个像素点预测一个重要性权重。具体来说，利用P-order learning对给定的特征推断出一个最优的池化阶数p_i。利用spatial attentionlearning学习一个向量ω_i来帮助模型去挑选哪些区域的特征最具有区分性。

这两个特征映射函数分别记为f_p与f_s；f_p、f_s分别对应的通过P-net(P网络)、S-net(S网络)实现。

P-net和S-net共有三种组合方式，分别对应图3中的：(a)对称双路结构，P-net和S- net分别放置在双线性池化输入的两个输入端；(b)非对称结构，P-net和S-net都放置在同一路输入中；(c)S-net放置在双线性池化的输出位置。根据乘法交换律，图3中的三种组合方式在用原始的双线性池化会得到一样的结果。而当用核化的双线性池化时，结果却有很大的区别。因此通过实验验证选择最合适的一种网络结果，最后发现对称双路结构 (图3中的 (a))能同时与原始的和核化的双线性池化都兼容，并给出最好的结果。不仅如此，通过这种双路结构，P-Net和S-Net对输入图像生成的两种类型的特征能达到互补的效果，相应的结构也在图2所示的网络结构中示出。

前述步骤1所提取到的特征X_i将分别进行两种映射操作，主要如下：

1)P-net中，通过一个全局平均池化层(GAP)将提取到的特征X_i映射成一个全局向量，再依次通过一个全连接层(FC)与ReLU激活函数将全局向量映射成数值p_i，所述数值p_i为针对提取到的特征X_i预测的最优池化阶数，表示对每一个输入样本都预测了一个最优的高阶池化策略，最后利用数值p_i对提取到的特征X_i中的每一个元素进行指数操作 (EXP)，作为f_p映射后的特征，其表示为：

上式中

是对提取到的特征X_i的每个元素做指数操作。

2)S-net中，通过一个1×1的卷积层(Conv)加上ReLU激活函数将提取到的特征X_i映射成一个通道数为1的特征图；然后通过softmax操作将特征图进行归一化得到一个向量ω_i，向量ω_i表示了提取到的特征X_i中的每一个像素位置的重要性程度，最后将向量ω_i作为权重矩阵乘(MUL)在提取到的特征X_i上，作为f_s映射后的特征其表示为：

f_s(X_i)＝X_idiag(ω_i)；

其中，diag(·)为对角化操作，其生成的对角矩阵中的对角线元素对应于向量中的元素。

需要主要的是，S-net中softmax的使用主要有两点原因：1.使用softmax能保证得到的向量ω_i中的数值都较小，并且只有少部分大数值集中在最有区分性的区域内；2.使用softmax能抑制梯度爆炸的现象，从而使网络的训练更稳定。

本发明实施例提供的上述方案对每一副图像都学习一个特定的池化阶数，区别于传统技术中对所有样本使用固定的池化阶数，例如，对于一些内容简单，容易区分的图像来说，低阶的池化足以提取到足够的信息。而对于一些困难的样本来说，高阶的池化才有能力提取到具有分辨力的信息。另外由于与p-order learning互补，向量ω_i能进一步使本发明的池化策略集中在那些富含信息量线索的区域，从而产生更鲁棒可靠的特征表达。

在后续池化过程中可以采用双线性池化(Bilinear Pooling)或核化的双线性池化 (Compact Bilinear Pooling)，正是由于本发明实施例采用图3中的 (a)中的对称双路结构，使我们的模型能同时对以上两种池化策略兼容，并达到更好的结果。

获得最终图像表达过程如下：利用双线性池化或者核化的双线性池化将这两个映射操作结果组合得到表达Y_i，然后将Y_i形变成一个高维向量，最后通过l2规则化，得到最终图像表达。

本领域技术人员可以理解，所述的高维向量是指向量的维度足够高或者满足指定的维度要求，例如，其维度可以是8192维。

假设利用双线性池化将这两个映射操作结果组合得到表达Y_i，其表示为：

步骤3、利用分类器对所述最终图像表达进行分类，从而实现对输入图像的分类。

由于本发明的任务是做细粒度图像分类，因此，由卷积神经网络、P-net与S-net组成的整个网络的目标损失函数采取softmax分类误差函数：

其中，y_i表示真实的分类结果，即标签；a_i表示网络输出层(整个网络的最后一层)的softmax的值。

另一方面，为了确保分类准确性，需要预先对整个网络进行训练；训练过程与之前介绍的步骤1～步骤3完全相同。

网络训练时，对训练集中的图像数据进行数据增广操作(例如，翻折，伸缩，随机裁剪等)，并将数据打乱，再按照一定数量进行分批(例如batch size＝8)，同时固定图像数据的尺寸大小(例如448*448)；

采用用随机梯度下降法作为优化器来训练整个网络的参数，其学习率衰减策略选择指数型衰减，并设定初始学习率(例如设为0.01)，同时，设定正则化操作中Dropout的比率(例如设为1)，以及L2惩罚项的系数数值(例如，设为0.0005)；

对于网络中所有超参数的初始值，使用MSRA初始化方法，其原理为将网络中每层的权重参数初始化为满足

的正态分布；其中n为相应网络层权重参数的个数；且网络中的正则化操作L2惩罚也是基于对网络参数的高斯先验假设对其进行惩罚，所以在端到端训练中该初始化方法会提高网络训练效率并提高网络性能。

此外，为了验证本发明实施例上述方案的效果，还在三个广泛使用的基准数据集中进行了验证实验。

在三个基准数据集为别为两个细粒度物体分类任务集(CUB-200和Car-196)与一个动作识别任何集(MPII)。这三个基准数据集数据划分如下：

1、CUB-200：该数据集包含了来自200个鸟类别的11788张图片。整个数据集被划分为5994张训练图片和5794张测试图片。

2、Car-196：该数据集包含来自196类车的16185张图片，其中8114图片用于训练，8041张图片用于测试。

3、MPII：该数据集包含393个行为类别的15205张图片，其中8218张训练图片，6987张测试图片。

经过240个epoch(即训练轮次，每一个epoch包含所有的训练样本)的训练，本发明实施例上述方案在三个基准数据集中都取得了当前最好的结果。其中在CUB-200和 Car-196数据集的准确率分别为85.7％和91.8％，在MPII数据集的MAP(平均精度均值) 为32.5％。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种细粒度图像分类方法，其特征在于，包括：

利用特征提取器提取输入图像的特征；

利用分类器对所述最终图像表达进行分类，从而实现对输入图像的分类；

其中，两个特征映射函数分别记为f_p与f_s；f_p、f_s分别对应的通过P-net、S-net实现；所述P-net和S-net分别放置在双线性池化输入的两个输入端，形成对称双路结构；两个映射操作分别如下：

所述P-net中，通过一个全局平均池化层将提取到的特征X_i映射成一个全局向量，再依次通过一个全连接层与ReLU激活函数将全局向量映射成数值p_i，所述数值p_i为针对提取到的特征X_i预测的最优池化阶数，最后利用数值p_i对提取到的特征X_i中的每一个元素进行指数操作，作为f_p映射后的特征；

所述S-net中，通过一个1×1的卷积层加上ReLU激活函数将提取到的特征X_i映射成一个通道数为1的特征图；然后通过softmax操作将特征图进行归一化得到一个向量ω_i，向量ω_i表示了提取到的特征X_i中的每一个像素位置的重要性程度，最后将向量ω_i作为权重矩阵乘在提取到的特征X_i上，作为f_s映射后的特征。

2.根据权利要求1所述的一种细粒度图像分类方法，其特征在于，所述特征提取器通过卷积神经网络实现，所述卷积神经网络包含多组卷积层结构，每组卷积层结构中包含多个卷积层和ReLU激活函数；组与组之间设有一个最大池化层，每组卷积块层内部卷积层的卷积核数量一样，并且随着网络的加深，不同组的卷积核数量会依次递增，将最后一个卷积层输出的特征作为特征提取器的特征提取结果。

3.根据权利要求1所述的一种细粒度图像分类方法，其特征在于，所述f_p映射后的特征表示为：

4.根据权利要求1所述的一种细粒度图像分类方法，其特征在于，所述f_s映射后的特征表示为：

f_s(X_i)＝X_idiag(ω_i)；

其中，diag(·)为对角化操作。

5.根据权利要求1所述的一种细粒度图像分类方法，其特征在于，所述利用双线性池化或者核化的双线性池化将这两个映射操作结果组合成更高阶的最终图像表达包括：

利用双线性池化或者核化的双线性池化将这两个映射操作结果组合得到表达Y_i，然后将Y_i形变成一个高维向量，最后通过l2 规则化，得到最终图像表达。

6.根据权利要求5所述的一种细粒度图像分类方法，其特征在于，假设利用双线性池化将这两个映射操作结果组合得到表达Y_i，其表示为：

其中，diag(·)为对角化操作。

7.根据权利要求1所述的一种细粒度图像分类方法，其特征在于，由卷积神经网络、P-net与S-net组成的整个网络的目标损失函数采取softmax分类误差函数：

其中，y_i表示真实的分类结果，即标签；a_i表示网络输出层的softmax的值。

8.根据权利要求7所述的一种细粒度图像分类方法，其特征在于，该方法还包括：预先对整个网络进行训练；

网络训练时，对训练集中的图像数据进行数据增广操作，并将数据打乱，再按照一定数量进行分批，同时固定图像数据的尺寸大小；

采用用随机梯度下降法作为优化器来训练整个网络的参数，其学习率衰减策略选择指数型衰减，并设定初始学习率，同时，设定正则化操作中Dropout的比率，以及L2惩罚项的系数数值；

的正态分布；其中n为相应网络层权重参数的个数；且网络中的正则化操作L2惩罚也是基于对网络参数的高斯先验假设对其进行惩罚。