CN111191737A

CN111191737A - 基于多尺度反复注意力机制的细粒度图像分类方法

Info

Publication number: CN111191737A
Application number: CN202010007816.2A
Authority: CN
Inventors: 何凯; 冯旭; 高圣楠; 马希涛
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-01-05
Filing date: 2020-01-05
Publication date: 2020-05-22
Anticipated expiration: 2040-01-05
Also published as: CN111191737B

Abstract

本发明公开了一种基于多尺度反复注意力机制的细粒度图像分类方法，所述方法包括：对训练数据集进行随机裁剪，水平翻转来增强数据集，防止过拟合；在ResNet50模型的基础上以多尺度的方式，引入反复注意力机制；输入训练样本，将训练样本统一输入大小为448*448，使用多尺度反复注意力模型作为特征提取器，将不同尺度得到的特征矩阵进行拼接，送入全连接层和softmax进行分类训练；保存最终的训练模型，在测试集上进行测试，得到最终的准确率。本发明提高了细粒度图像的分类准确率。

Description

基于多尺度反复注意力机制的细粒度图像分类方法

技术领域

本发明涉及图像分类任务中的细粒度图像分类领域，细粒度图像分类是对某一类别下的图像子类进行精确划分。细粒度图像分类以其“特征相似，姿态各异，背景干扰”等特点，一直是计算机视觉和模式识别领域的研究热点和难点，具有重要的研究价值。尤其涉及一种基于多尺度反复注意力机制的细粒度图像分类方法。

背景技术

鉴于传统算法对细粒度图像分类准确率低，模型泛化能力差，基于深度学习实现细粒度图像分类逐渐成为当前的主流，主要可分为：强监督算法和弱监督算法2大类。其中，强监督算法需要基于人工标注特征完成，利用人工标注好的信息对待分类目标的判别性区域进行精确定位，可以大大减少运算时间，但是由于强监督算法成本较高，对显著性特征提取能力不足，不能满足实际工程的需要，与之相比，弱监督算法生成的特征矩阵具有更好的表现力。

细粒度图像分类的难点在于：训练样本的分类数目较多，但每个类别下的样本数目太少，容易导致过拟合；网络模型复杂，参数量较多，对计算机要求较高；同一类别下的样本受光照，姿态等影响差异较大，使得网络难以学习到判别性特征。目前，细粒度图像分类的问题主要体现在三个方面：

1)如何使网络精确地提取显著性区域特征；

2)如何有效去除无关背景的干扰；

3)如何有效防止过拟合现象。

发明内容

本发明提供了一种基于多尺度反复注意力机制的细粒度图像分类方法，本发明提高了细粒度图像的分类准确率，详见下文描述：

一种基于多尺度反复注意力机制的细粒度图像分类方法，所述方法包括：

对训练数据集进行随机裁剪，水平翻转来增强数据集，防止过拟合；

在ResNet50模型的基础上以多尺度的方式，引入反复注意力机制；

输入训练样本，将训练样本统一输入大小为448*448，使用多尺度反复注意力模型作为特征提取器，将不同尺度得到的特征矩阵进行拼接，送入全连接层和softmax进行分类训练；

保存最终的训练模型，在测试集上进行测试，得到最终的准确率。

进一步地，所述反复注意力机制具体为：

先将某一层级的特征矩阵X，并行经过通道和空间注意力支路，分别得到通道和空间权重矩阵；再将特征矩阵X与通道权重矩阵相乘，对输入图像的不同特征图进行权重赋值；

再与空间权重矩阵相乘，以去除无关背景的干扰；最后以残差的方式，将注意力结果与输入特征X结合。

其中，所述反复注意力机制的通道注意力支路具体为：

先将原有的特征图进行空间压缩，将其从空间(B,H,W,C)映射到空间(B,1,1,C)当中，以去除空间位置信息干扰；

分别采用全局平均池化和全局最大池化，将二者的池化结果进行拼接，得到维度为(B,1,1,2C)的特征图，由于原始输入特征图的通道数为C，需要经过两个1×1大小的卷积核，对通道数进行降维，以进一步提取通道特征。

进一步地，所述反复注意力机制的空间注意力支路包括：

对输入特征图分别采用1×1和3×3两种大小的卷积核，对输入特征矩阵进行特征提取，获得多样化的特征信息并将通道数逐步压缩为1；

将3×3大小的卷积核分解为1×3和3×1的卷积，减少计算量；

对得到的两条支路的特征描述子，利用矩阵运算中对应元素相乘的方法，将两路特征进行融合，获取空间特征信息。

本发明提供的技术方案的有益效果是：

第一：综合考虑到了神经网络不同层级中分别对应不同的特征信息，且每个层级的输出特征图大小不尽相同，将多个尺度的特征矩阵结合起来可以获取更加丰富的特征信息。

第二：注意力机制是以类似人眼的功能，高效快速的获得一张图片中的关键部位，再由大脑进行深度处理。本发明提出的反复注意力机制可以嵌入到任意的特征提取过程中，且分别从空间和通道的角度对特征图进行有效的显著性区域识别。

第三：本发明可以在国际上公开的细粒度数据集(CUB-200-2011、FGVC Aircraft和Stanford Cars)上进行实验仿真，分类准确率分别达到86.16％、92.26％和93.40％；与只使用ResNet50结构相比，分别提高了1.66％，1.46％和1.10％；明显高于现有经典算法BCNN等，也高于人类表现，验证了本发明算法的有效性。

附图说明

图1为嵌入多尺度反复注意力机制的网络结构图；

图2为本发明反复注意力机制网络结构图；

图3为本发明通道注意力支路网络结构图；

图4为本发明空间注意力支路网络结构图；

图5为FGVC数据集示例；

其中，每一行为一个类别，由上到下依次为：Boeing 737-200，Boeing 737-300，Boeing737-400，Boeing 737-500和Boeing 737-600。

图6为不同数据库的准确率和损失曲线；

图7为不同数据集的混淆矩阵；

图8为特征图注意力区域可视化。

表1为不同算法细粒度分类准确率对比；

表2为不同算法复杂度对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

一种基于多尺度反复注意力机制的细粒度图像分类算法，该方法包括以下步骤：

101：获取国际上公开的细粒度数据集；

102：由于训练数据集样本数过少，对训练数据集进行随机裁剪，水平翻转等操作来增强数据集，防止过拟合；

103：在ResNet50模型的基础上以多尺度的方式，引入本发明提出的反复注意力机制；

104：输入训练样本，将训练样本统一输入大小为448*448，使用多尺度反复注意力模型作为特征提取器，将不同尺度得到的特征矩阵进行拼接，送入全连接层和softmax进行分类训练；

105：保存最终的训练模型，在测试集上进行测试，得到最终的准确率。

其中，步骤101的细粒度数据集包括：CUB-200-2011、FGVC Aircraft和StanfordCars，进行实验仿真。

1)CUB-200-2011数据集：由加利福尼亚理工学院颁布和维护，包含200类，共10000余张鸟类图像；其中，5994张用作训练集，5794张用作测试集。

2)FGVC数据集：包含100种飞机类型，共10000个飞机图像；其中，训练集和测试集按2:1的比率进行划分。

3)Stanford Cars数据集：由斯坦福大学发布，包含196类，共16185张汽车图片；其中8144张为训练数据，8041张为测试数据；每个类别按照年份、制造商、型号进行区分。

图5为FGVC数据集示例，其中，每一行为一个类别，由上到下依次为：Boeing 737-200，Boeing 737-300，Boeing 737-400，Boeing 737-500和Boeing 737-600。

其中，步骤103中的反复注意力机制具体指在通道和空间角度对输入特征图进行权重分配的基础上，再将权重矩阵先后作用于原始输入特征矩阵。

其中，步骤104对输入的训练样本经过本发明提出的多尺度反复注意力机制模型进行特征提取，分别从多个尺度将特征信息融合以及分别经过通道、空间注意力机制提取其显著性特征，将得到的特征图送入全连接层，全连接层的输出维度数为待分类的类别数(CUB-200-2011为200，FGVC为100，Stanford Cars为196)，最后经过softmax得到预测向量，取该向量中最大的预测值对应的分类类别作为最终的预测结果。在训练过程将此预测结果与真实标签比较，经过交叉熵损失函数和随机梯度下降优化器对网络结构中各层的参数不断优化，提高网络结构的分类精度；在测试过程中，利用训练好的网络模型得到测试图片的特征矩阵，同样经过全连接层和softmax进行预测得到最终的分类结果，计测试样本的总数为num，与预测标签相比，正确的个数计为correct，

用(correct/num)×100％作为最终的模型分类准确率。

实验所用计算机配置为：Intel Core i7-7800X的CPU，64G的内存，两块GTX1080Ti的GPU，每块11G的显存；在Linux16.04系统、python编程环境下运行，使用pytorch框架，对细粒度数据集分类。由于每个类别中的样本数较少，直接训练容易产生过拟合；为此，本发明采用权重迁移学习将在ImageNet数据集上训练好的权重参数作为本任务的参数初始化值，使得网络能够快速收敛；同时对训练数据集进行随机裁剪，水平翻转等操作来增强数据集。本方法的实验参数设置为：输入图片大小统一设定为448×448，训练集的batchsize设为24，测试集的batch_size设为8；使用在imagenet数据集上训练好的权重参数进行初始化，初始学习率设为0.01，动量为0.9，使用随机梯度下降(SGD)作为网络优化器，每15个epoch对学习率乘以0.8，训练100个epoch后，保存训练模型为.pth文件，对测试集进行分类，得到最终结果。

综上所述，本发明实施例通过上述步骤101-步骤105可以显著提升分类精度。

实施例2

下面结合具体的实例、计算公式、图1-图4、进行进一步的介绍，详见下文描述：

201：多尺度特征融合；

现有算法在局部特征提取与去除冗余的无关信息能力上仍有较大的改进空间，为此，本发明提出一种反复注意力(Re-attention)机制，如图1所示。输入图像经ResNet基本网络提取相关特征后，将其以多尺度的方式嵌入到特征提取器当中。鉴于高、低层级的特征分别具有丰富的语义、纹理信息，将注意力机制嵌入到不同尺度(即不同层级)中，有助于获取更加丰富的特征信息。

202：反复注意力机制：

为了更好地提取特征，融合不同维度的特征信息，本发明提出了一种反复注意力机制，如图2所示。具体作法是：先将某一层级的特征矩阵X，并行经过通道和空间注意力支路，分别得到通道和空间权重矩阵；再将特征矩阵X与通道权重矩阵相乘，网络能够按重要程度，对输入图像的不同特征图进行权重赋值，重要的特征图具有较大的权重值；在此基础上，再与空间权重矩阵相乘，使网络能够学习到每张特征图显著性区域的位置信息，以去除无关背景的干扰；最后以残差的方式，将注意力结果与输入特征X结合，具体过程可表述为：

out＝W_b*(W_a*X)+X＝σ(F_b)*(σ(F_a)*X)+X (1)

其中，X代表输入特征矩阵，F_a和F_b分别代表通道和空间特征矩阵，W_a和W_b分别代表通道和空间权重矩阵，σ代表Softmax函数；对该维度分配0～1的权重参数，保证该维度上所有权重之和为1。

其中，参数c代表通道数，h×w为每幅特征图大小。

203：通道注意力机制；

为充分保留背景和纹理信息，本发明采取将两个池化结果进行拼接的方法，如图3所示。鉴于输入特征矩阵X的维度为(B,H,W,C)，需要根据X中每张特征图的重要程度，在维度C上对其进行权重分配。

本发明采取的具体作法是：先将原有的特征图进行空间压缩，将其从空间(B,H,W,C)映射到空间(B,1,1,C)当中，以去除空间位置信息干扰；然后分别采用全局平均池化和全局最大池化的方法，将二者的池化结果进行拼接，得到维度为(B,1,1,2C)的特征图。由于原始输入特征图的通道数为C，需要经过两个1×1大小的卷积核，对通道数进行降维，以进一步提取通道特征。上述过程可表述为：

F_a＝Conv(ReLU(BN(Conv(concat(maxpool,avgpool))))) (4)

其中，F_a代表通道特征矩阵，BN为归一化，ReLU为激活函数。F_a∈R^(B,1,1,C)，经过Softmax后，得到相应的权重矩阵W_a∈R^(B,1,1,C)，R为空间维度表示法，maxpool为最大池化，avgpool为平均池化。

204：空间注意力机制。

为了获得更加丰富的特征信息，本发明在压缩通道时采用大小不同的并行卷积结构，如图4所示。对输入特征图分别采用1×1和3×3两种大小的卷积核，对输入特征矩阵进行特征提取，获得多样化的特征信息；将3×3大小的卷积核分解为1×3和3×1的卷积，可以有效减少计算量，节约计算成本。由于空间注意力只需要对H×W个特征点分配权重，因此，采用不同大小的卷积核，将通道数逐步压缩为1；对得到的两条支路的特征描述子，利用矩阵运算中对应元素相乘的方法，将两路特征进行融合，可以获取更加丰富的空间特征信息，上述过程可表述为：

其中，

为图4上面一条支路得到的特征矩阵，

为图4下面一条支路得到的特征矩阵，F_b为空间特征描述子，*代表两个矩阵对应元素相乘的运算。

实施例3

下面结合图6-图8，表1-表2，对实施例1和2中的方案进行进一步地介绍，详见下文描述：

采用本发明算法，在3种国际标准细粒度图像库上，其训练和测试准确率，以及对应的损失函数曲线如图6所示，其中，图(a)(b)(c)为准确率曲线，图(d)(e)(f)为损失函数曲线。图(a)(d)、(b)(e)、(c)(f)分别为在CUB-200-2011数据集、FGVC-Aircraft数据集，以及Stanford-cars数据集的相关曲线。横坐标表示迭代次数，纵坐标分别代表准确率(百分制)和损失函数值，实线代表训练曲线，虚线代表测试曲线。从图中可以看出：epoch介于0到25时，准确率有显著提升，损失函数也有明显下降；在经历25个epoch后，准确率和损失值曲线有微小变化并逐渐趋于平滑；由此可见，本发明算法模型的收敛速度较快，在不同数据集上都能取得较好效果，具有较强的泛化能力。

为了测试本发明模型在细粒度分类方面的准确性，分别在3个国际标准细粒度图像库上，与当前经典细粒度分类算法进行比较，top-1分类结果如表1所示：

表1不同算法细粒度分类准确率对比(％)

从表1中可以看出，与只使用ResNet50相比，在CUB-200-2011、FGVC和Stanford-cars数据集上，本发明算法的分类准确率分别提高了1.66％，1.46％和1.1％。与经典的双线性算法相比，本发明算法在CUB-200-2011、FGVC和Stanford-cars数据集上，分别提高了2.06％，8.16％和2.1％；与其它经典方法相比，也有不同程度的提高，均获得了最高的分类精度，证明了本发明算法的有效性。

此外，从表中还可以看出：CUB-200-2011数据集的分类准确率最低；这是由于鸟类目标较小，姿态各异，易受背景干扰；此外，该数据集类别数目最多，但训练样本数目最少，因此分类难度最大。

三个数据集的混淆矩阵如图7所示。其中，图7(a)为CUB-200-2011数据集的混淆矩阵，图7(b)为FGVC Aircraft数据集的混淆矩阵，图7(c)为Stanford-cars数据集的混淆矩阵。

注意力区域可视化如图8所示。其中，图8(a)为输入图像，图8(b)为ResNet50的热力图，图8(c)为本文算法的热力图。

就算法的复杂度而言，本发明算法仅仅在原有的ResNet50结构中引入了简单的注意力机制，在不显著增加参数量的前提下有效提升了分类准确率。将本发明算法与其他算法从复杂度的角度进行对比且综合考虑分类精度，如表2所示：

表2不同算法复杂度对比(％)

参考文献：

[1]Lin T Y，Roychowdhury A，Maji S.Bilinear CNN Models for Fine-grainedVisual Recognition[C]//2015IEEE International Conference on Computer Vision(ICCV).Santiago，Chile：2015：1449-1457.

[2]He Kaiming，Zhang xiangyu，Ren Shaoqing，et al.Deep residual learningfor image recognition[C]//29th IEEE Conference on Computer Vision and PatternRecognition,CVPR2016.Las Vegas，NV，United states：2016：770-778.

[3]Fu J，Zheng H，Mei T.Look closer to see better:Recurrent attentionconvolutional neural network for fine-grained image recognition[C]//2017IEEEConference on Computer Vision and Pattern Recognition(CVPR).Honolulu，HI，USA：2017：4476-4484.

[4]PengY，He X，Zhao J.Object-Part Attention Model for Fine-grainedImage Classification[J].IEEE Transactions on Image Processing(TIP).2018：27(3)1487-1500.

[5]Zhichao Li，Yi Yang，Xiao Liu.，et al.Dynamic Computational Time forVisual Attention[C]//2017IEEE International Conference on Computer VisionWorkshop(ICCVW).Los Alamitos，CA，USA：2017：1199-1209.

[6]M.Cimpoi，S.Maji，A.Vedaldi.Deep filter banks for texturerecognition and segmentation[C]//2015IEEE Conference on Computer Vision andPattern Recognition(CVPR).Boston，MA，USA：2015：3828–3836.

[7]Y.Gao，O.Beijbom，N.Zhang，et al.Compact bilinear pooling[C]//29thIEEE Conference on Computer Vision and Pattern Recognition,CVPR 2016.LasVegas，NV，United states：2016：317-326.

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多尺度反复注意力机制的细粒度图像分类方法，其特征在于，所述方法包括：

输入训练样本，将训练样本统一输入大小为448*448，使用多尺度的反复注意力模型作为特征提取器，将不同尺度得到的特征矩阵进行拼接，送入全连接层和softmax进行分类训练；

2.根据权利要求1所述的一种基于多尺度反复注意力机制的细粒度图像分类方法，其特征在于，所述反复注意力机制具体为：

3.根据权利要求1所述的一种基于多尺度反复注意力机制的细粒度图像分类方法，其特征在于，所述反复注意力机制的通道注意力支路具体为：

4.根据权利要求1所述的一种基于多尺度反复注意力机制的细粒度图像分类方法，其反复注意力机制的空间注意力支路具体为：

将3×3大小的卷积核分解为1×3和3×1的卷积，减少计算量；