CN112686242B

CN112686242B - 一种基于多层聚焦注意力网络的细粒度图像分类方法

Info

Publication number: CN112686242B
Application number: CN202011588241.4A
Authority: CN
Inventors: 乔伟晨; 黄青松; 王波; 单文琦; 刘利军; 黄冕
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-04-18
Anticipated expiration: 2040-12-29
Also published as: CN112686242A

Abstract

本发明涉及一种基于多层聚焦注意力网络的细粒度图像分类方法，属于计算机视觉技术领域。本发明包括步骤：首先通过首层聚焦网络能够准确有效聚焦于识别局域并生成定位区域；再根据定位区域对原图像分别进行裁剪和遮挡后输入下一层的聚焦网络进行训练分类，其中单层聚焦网络以Inception‑V3网络为基础，通过卷积注意力特征模块和定位区域选择机制来聚焦有效的定位区域；然后使用双线性注意力最大池化提取各个局部的特征；最后进行分类预测；实验结果表明，本方法的分类准确率高于目前主流方法。

Description

一种基于多层聚焦注意力网络的细粒度图像分类方法

技术领域

本发明涉及一种基于多层聚焦注意力网络的细粒度图像分类方法，属于计算机视觉技术领域。

背景技术

随着深度学习、卷积网络技术的不断发展,深度学习网络在计算机视觉领域得到广泛的应用，如图像检索，场景解析，目标跟踪等。在细粒度图像识别领域，深度卷积网络也得到广泛地研究与应用。由于在细粒度图像识别中，类内差异容易受姿态，视角与位置等因素影响。其次类间具有相似性。最后手工标注位置不稳定且耗费人力。因此细粒度识别任务更具有挑战性。Zhang等人提出强监督细粒度图像分类模型(Part-basedRegionConvolutional Neural Network，R-CNN)借助边界框和部分批注标签进行对象部件定位等操作得到对象与部件的图像块，最后将对象部件等特征级联之后进行分类。强监督细粒度图像分类模型(Part-based R-CNN)分类准确率取得不错的效果，但存在算法速度慢，过于依赖标签，定位检测不稳定等问题。因此Wei等人提出掩膜卷积神经网络模型(Mask-CNN)在训练时仅需要部分批注和图像等级标签。同时借助全卷积网络(FullyConvolutional Networks，FCN)学习部分掩膜来进行对象部件定位等操作得到对象与部件的图像块，最后将对象部件等特征级联之后进行分类。掩膜卷积神经网络模型(Mask-CNN)取得很好的定位效果以及分类准确率，并且大大降低对标记依赖性，但是任避免不了强监督标记分类。Lin等人提出高阶特征编码双线性卷积网络(Bilinear-CNN，B-CNN)和改进的双线性卷积网络，通过对特征图进行外积操作建立了特征图中通道之间的线性相关，并进行端到端的联合优化学习，在细粒度分类任务上取得了优异的性能。但是存在无法捕捉特征图中通道之间的非线性关系，于是Ge等人提出一种核化的双线性卷积网络，通过使用核函数的方式有效地建模特征图中通道之间的非线性关系，改进了高阶特征编码方法，提升特征的表达能力。但是该方法存在外积导致特征的维度增大为原来的平方等缺点。Zheng等人提出多注意力卷积神经网络(Multi-attention Convolutional Neural Network，MA-CNN)模型抛弃手工标记对象部件的方法，采用弱监督学习方法。同时定位多个对象部件，提出信道分组损耗，通过聚类产生多个部分。将这些部分分别与特征进行点乘得到局部精细化的特征分别进行分类，取得很好的分类准确率。但是该方法中对象的部件数量有限(2个或4个)，因此会限制分类的准确。先前工作通常采用定位或者分割来解决类内的差异性，但是类间相似性依然影响特征的学习；

面向数据的年代，特征选择这个任务越来越不适合人工来做。模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去。模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读，把环境与客体统称为模式。随着计算机技术的发展，人类有可能研究复杂的信息处理过程，其过程的一个重要形式是生命体对环境及客体的识别。模式识别以图像处理与计算机视觉、语音语言信息处理等为主要研究方向，研究人类模式识别的机理以及有效的计算方法。

计算机要解释一张图片的内容是很难的，因为计算机看到的图片是一个大的数字矩阵，它对图像传递的思想、知识和意义一无所知。为了理解图像的内容，我们必须应用图像分类，这是使用计算机视觉和机器学习算法从图像中抽取意义的任务。

细粒度图像分类是近年来计算机视觉、模式识别等领域一个热门的研究课题。其目的是对粗粒度的大类别进行更加细致的子类划分。细粒度图像的类别精度更加细致，类间差异更加细微，往往只能借助于微小的局部差异才能区分出不同的类别。而与人脸识别等对象级分类任务相比，细粒度图像的类内差异更加巨大，存在着姿态、光照、遮挡、背景干扰等诸多不确定因素。因此，细粒度图像分类是一项极有意义的研究任务。

细粒度图像分类无论在工业界还是学术界都有着广泛的研究需求与应用场景。与之相关的研究课题主要包括识别不同种类的鸟、狗、花、车、飞机等。在实际生活中，识别不同的子类别又存在着巨大的应用需求。例如,在生态保护中,有效识别不同种类的生物，是进行生态研究的重要前提。如果能够借助于计算机视觉的技术,实现低成本的细粒度图像识别,那么无论对于学术界,还是工业界而言,都有着非常重要的意义。

发明内容

本发明提供了一种基于多层聚焦注意力网络的细粒度图像分类方法，多层聚焦网络模型能有效定位识别对象位置；卷积特征注意力模块能在增强目标对象有效特征的提取，同时相比同类模块降低计算复杂度；定位区域选择机制增强模型泛化能力；双线性注意力最大池化增强特征的表达，降低维度和减少卷积层参数误差造成估计均值的偏移的误差，提高模型的鲁棒性。

本发明的技术方案是：一种基于多层聚焦注意力网络的细粒度图像分类方法，所述方法的具体步骤如下：

Step1、首层聚焦网络是结合了卷积块注意力特征模块的单层聚焦卷积网络，其生成特征与注意力积矩阵，同时输出定位区域；

Step2、裁剪及遮挡操作：经Step1操作之后得到了定位区域，裁剪操作根据该定位区域对原图像进行裁剪得到裁剪图像；遮挡操作根据Step1操作之后得到的定位区域对原图相应位置进行遮挡，得到遮挡图像；

Step3、把得到的裁剪图像及遮挡图像分别输入到第二、三层聚焦网络，生成特征与注意力矩阵积矩阵；

Step4、分类预测方法：把特征与注意力矩阵积矩阵输入到全连接层得到分类预测结果，分类预测结果采用注意力中心损失进行优化。

作为本发明的进一步方案，所述步骤Step1的具体步骤如下：

Step1.1、图像输入的首层聚焦网络采用Inception-V3作为基础网络，用于提取图像的基础特征；

Step1.2、由Step1.1得到Inception-V3网络提取图像的特征图F∈R^C×H×W输入卷积块特征注意力模块中得到特征图F_a∈R^C×H×W和注意力图A∈R^M×H×W，如计算公式所示：

F_a＝f^1*1(M(F))，

其中C、H、W分别表示特征图的通道数、高度、宽度，

分别代表经过全局平均池化层和全局最大池化层计算后的特征值，W₀和W₁代表的是多层感知机模型中的两层参数，σ表示的是sigmoid激活函数，f^7*7表示卷积层使用7x7的卷积核，f^1*1表示卷积层使用1x1的卷积核，M是注意力图的数量；

表示从1至M的并集；

Step1.3、双线性注意力最大池化：将Step1.2得到的特征图F_a∈R^C×H×W与每个注意力图A∈R^M×H×W相乘，生成M个部分的特征与注意力矩阵积矩阵F_k∈R^C×H×W，加入非线性激活函数，最大池化层，如计算公式所示：

其中F_k为两个张量的元素乘；通过全局最大池层得到第k个特征与注意力矩阵积矩阵f_k∈R^1×C；如计算公式所示：f_k＝MaxPool(F_k)；P_k∈R^M×C表示对象不同部分特征矩阵将作为模型输出进行预测，P_k由特征f_k叠加而成；A_i表示注意力图A中的第i个子集，i∈[1,M]；

Step1.4、定位区域选择机制：在注意力图A∈R^M×H×W中有M个特征矩阵表示图像中的不同对象部件，使用softmax函数处理注意力图A得到

将注意力图中的值映射成为(0,1)的值，这些值的累和为1；softmax函数加入幂函数使这些值两极化：正样本的结果将趋近于1，而负样本的结果趋近于0；根据softmax函数的性质将进一步的去除噪音；计算M个特征矩阵被选中的概率p_M，

在参考概率p_M的同时采用随机的方式从M个特征矩阵中选出一个特征矩阵A_k∈R^1×H×W，其中概率大的特征矩阵优先选中，根据p_M采用概率和随机方式得到定位区域注意力矩阵A_k∈R^1×H×W进行标准化处理得到定位区域

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

Step2.1、根据Step1.4得到的定位区域

对原图像进行裁剪，裁剪后的图像能更大面积的覆盖识别对象，去除无关背景,起到非常好的分类效果；通过设置

大于阈值θc∈[0.4,0.6]时等于1，其他为0得到裁剪边框C_k，采取上采样的方式从原图像中放大这个区域得到裁剪图像作为第二层聚焦网络的输入；由于对象部分的规模增加，因此能更好地对对象提取更细粒度的特性，如计算公式所示：

C_k(i,j)表示裁剪边框的第i行第j个元素；

Step2.2、根据定位区域

对原图像进行局部遮挡；促进模型找出更多具有代表性的多个有判别性对象部分的定位区域

以此对抗由于裁剪操作产生局部最优过拟合的负面效果，提高分类的稳健性和定位的准确性；通过设置

小于或等于阈值θ_d∈[0.4,0.6]时为1，其他为0得到遮挡框D_k，将遮挡框与原图像相乘得到遮挡图像作为第三层聚焦网络的输入；计算公式所示：

D_k(i,j)遮挡框的第i行第j个元素。

作为本发明的进一步方案，所述步骤Step3的具体步骤如下：

Step3.1、将定位区域输入裁剪和遮挡模块对原图像进行裁剪和遮挡得到裁剪图像和遮挡图像分别作为第二、三层聚焦网络的输入；

Step3.2、第二、三层聚焦网络按照Step1.1、Step1.2、Step1.3的步骤对裁剪或遮挡后的图像进行操作，生成特征与注意力矩阵积矩阵。

作为本发明的进一步方案，所述步骤Step4中，分类预测结果采用注意力中心损失进行优化包括：

在首层聚焦网络和使用裁剪图像作为输入的第二层聚焦网络中使用注意力中心损失，通过惩罚每个种类的样本和该种类样本中心的偏移，使得同一种类的样本尽量聚合在一起；对属于同一对象部件的特征的方差进行惩罚，即部件特征P_k∈R^M×C将趋近于全局特征中心E_k∈R^M×C，在同一对象部件k_th中反馈注意力图A；其中损失函数L_C计算公式如：

E_k初始化为(0,0)计算公式如：E_k←E_k+β(P_k-E_k)，β为控制更新速度的参数。

本发明的有益效果是：本发明多层聚焦网络模型能有效定位识别对象位置；卷积特征注意力模块能在增强目标对象有效特征的提取，同时相比同类模块降低计算复杂度；定位区域选择机制增强模型泛化能力；双线性注意力最大池化增强特征的表达，降低维度和减少卷积层参数误差造成估计均值的偏移的误差，提高模型的鲁棒性。

附图说明

图1为本发明中多层聚焦网络总体架构图；

图2为本发明中单层聚焦网络具体流程图；

图3为本发明所采用公共数据集的示例图。

具体实施方式

实施例1：如图1-3所示，一种基于多层聚焦注意力网络的细粒度图像分类方法，所述方法的具体步骤如下：

Step1、公共数据集CUB-200-2011共包含来自200个鸟类物种的11788张图像,其中5994张训练与验证图像,5794张测试图像。将训练图像输入首层聚焦网络，首层聚焦网络是结合了卷积块注意力特征模块的单层聚焦卷积网络，其生成特征与注意力积矩阵，同时输出定位区域；

作为本发明的进一步方案，所述步骤Step1的具体步骤如下：

F_a＝f^1*1(M(F))，

其中C、H、W分别表示特征图的通道数、高度、宽度，

表示从1至M的并集；

作为本发明的进一步方案，所述步骤Step2的具体步骤如下：

Step2.1、根据Step1.4得到的定位区域

C_k(i,j)表示裁剪边框的第i行第j个元素；

Step2.2、根据定位区域

D_k(i,j)遮挡框的第i行第j个元素。

作为本发明的进一步方案，所述步骤Step3的具体步骤如下：

把特征与注意力矩阵积矩阵输入到全连接层训练好的模型输入公共数据集CUB-200-2011的5794张测试图像，分类结果与真实标签对比得到分类准确率及各模块组合结果如表1所示。

表1组成部分及其组合的贡献

实施例2，如图1-3所示，一种基于多层聚焦注意力网络的细粒度图像分类方法，本实施例与实施例1相同，不同之处在于，本实施例中公共数据集CUB-200-2011(200类11788张鸟类图像)、FGVC-Aircraft(100类10000张飞机图像)以及Stanford Cars(196类16185张汽车图像)上分别对本文方法进行评估，分别获得89.7％、93.6％、95.1％的Top-1准确率；在三个细粒度公共数据集上得到的结果与当前主流细粒度图像分类方法(VGG-19、ResNet-101等)比较结果如表2所示，实验结果表明，本方法的分类准确率高于目前主流方法。

表2与当前方法准确率对比

本发明提出一种基于多层聚焦注意力卷积网络的细粒度图像分类方法，整体结构如图1所示，具体单层聚焦网络内部流程图如图2所示，能够提取更多有效的局部特征，聚焦于对象的识别位置。得到更具有判别力的图像表达。同时多层聚焦卷积网络之间相互对抗、相互合作、相互受益、共同进步，进一步提高网络的性能。实验表明本文所提出的多层聚焦网络在图3所示的三个细粒度图像数据集上均取得优异的性能。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。