CN111539469A

CN111539469A - 一种基于视觉自注意力机制的弱监督细粒度图像识别方法

Info

Publication number: CN111539469A
Application number: CN202010311761.4A
Authority: CN
Inventors: 李春国; 刘杨; 杨哲; 杨绿溪; 徐琴珍
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2020-08-14
Anticipated expiration: 2040-04-20
Also published as: CN111539469B

Abstract

本发明公开了一种基于视觉自注意力机制的弱监督细粒度图像识别方法，包含student‑model、teacher‑model以及classification‑model模块；student‑model和teacher‑model经基于Pairwise Approach排序学习的Teacher‑Student循环反馈机制联合，构成自注意力区域推荐网络，从而增强判别性区域定位与细粒度特征学习之间的联系，在缺少目标边界框和部位标注点的情况下依然能够较为准确地检测细粒度图像中判别性区域，促使识别准确率显著提高；同时，student‑model、teacher‑model和classification‑model三个模块共享卷积层，有效压缩模型存储空间并降低计算成本，使得该方法满足实时性识别任务要求，适用于大规模真实场景；此外，多任务联合学习中采用动态权重分配机制减少人为设定超参数量，增强模型鲁棒性，最终整体模型通过端到端的单阶段方式进行训练与学习，降低网络优化难度。

Description

一种基于视觉自注意力机制的弱监督细粒度图像识别方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于视觉自注意力机制的弱监督细粒度图像识别方法。

背景技术

细粒度图像识别是计算机视觉领域一项颇具挑战性的研究课题，目的是区分同一大类下各个不同的子类。与跨物种的粗粒度图像识别任务相比，细粒度图像数据集中不同种类的目标外观相似度较高，而同一种类的目标由于光照、姿势和视角等因素导致视觉差异显著，因此使用一般的深度学习图像识别技术难以准确地判别细粒度目标类别。以往研究表明，细粒度图像识别任务的难点在于判别性区域定位和细粒度特征学习，现有的研究工作也基本上是围绕这两个方向开展。强监督细粒度识别模型利用目标边界框或部位标注点等额外的监督信息，使得网络具有自主检测细粒度图像判别性区域的能力。然而由于手工标注的监督信息获取代价高昂，致使这项技术无法应用于大规模实际问题。与此同时，弱监督细粒度识别模型多依赖于深度神经网络强大的特征提取与表达能力来提升识别准确率。例如，ResNet系列网络(详见K.He,X.Zhang,S.Ren.Deep Residual Learning forImage Recognition.CVPR,2015.)优化残差函数使得网络层级扩展至152，有效学习深层语义信息；Bilinear CNN(详见T.Lin.Bilinear CNN Models for Fine-Grained VisualRecognition.ICCV,2015.)通过双线性池化捕捉特征通道间的相关关系，进而挖掘潜藏信息。尽管上述两类方法已取得初步的成果，但是由于割裂判别性区域定位与细粒度特征学习之间的联系，因而后续发展受限。

针对这一问题，注意力机制(Attention Mechanism)通过相互增强、彼此促进的方式加深区域定位和特征学习之间的联系，从而自主检测图像显著性区域，受到学术界和工业界的广泛关注。注意力机制源于对人类视觉的研究，在认知学科中，人类为了合理利用有限的视觉信息处理资源，在图像观察过程中会选择性地关注其中某些重点区域，而忽略其他可见信息，这一机制通常称为注意力机制。然而，利用图像级标签弱监督信息构建注意力机制实现细粒度图像识别存在一个关键性问题，即如何借助图像级标签信息来确定目标或判别性区域的空间位置。早期的注意力检测方案基于颜色、纹理等底层特征搜索图像中颜色对比度高或纹理突出的区域，这种方法在一定程度上符合人类认知和思维方式，因此具有较强的解释性。但是由于底层特征多采用手工方式进行提取，缺少来自高层语义信息的指导与反馈，导致此类方法在复杂场景中失效。

RA-CNN(详见J.Fu,H.Zheng,T.Mei.Look Closer to See Better:RecurrentAttention Convolutional Neural Network for Fine-Grained ImageRecognition.CVPR,2017.)基于深度卷积神经网络提取的高级语义特征创建注意力区域，其整体框架由三重相互独立的基础网络构成，每重网络又可进一步分解为分类模块与注意力推荐模块。在注意力推荐模块中，RA-CNN设定推荐区域的形状为正方形，原始图像经过卷积层和全连接层输出通道数为3的特征张量，分别对应于推荐区域的中心点横纵坐标及边长，然后使用boxcar函数作为注意力掩模结合全连接层特征信息对原始图像进行裁剪，并且将裁剪所得区域进行双线性插值放大输入至下一重神经网络，重复上述步骤使得模型逐渐聚焦至细粒度图像中判别性区域，最终联合分类模块确定目标类别。由此可见，RA-CNN本质是将三重网络串行联接，然而这种结构一方面会导致模型参数量和计算量过高，另一方面如果第一重网络推荐的注意力区域偏离实际判别性区域，在前向传播过程中误差会不断积累，影响模型整体识别效果。除此之外，通常情况下细粒度图像中存在多个关键部位，综合所有部位的特征信息才能保证预测类别的正确性，而RA-CNN仅针对单一注意力区域进行多尺度特征提取，这可能模型导致无法充分地掌握细粒度特征信息。MA-CNN(详见H.Zheng,J.Fu.Learning Multi-attention Convolutional Neural Network for Fine-GrainedImage Recognition.ICCV,2017.)则是基于单流卷积神经网络生成注意力区域，从而压缩模型存储空间，降低计算成本。MA-CNN整体结构由卷积模块、通道分组模块以及局部区域分类模块组成，其中注意力推荐在通道分组模块内完成。MA-CNN认为每一通道的卷积特征对应某种类型的视觉模式，通过聚类算法可以将多个空间相关的特征通道进行融合，以无监督方式生成一组特定模式，原始图像某一局部位置在该模式下产生强烈响应。基于这一思想，MA-CNN通道分组模块依据卷积特征响应分布对通道进行分组与合并，并将这些分组特征输入sigmoid函数获得注意力掩模，该掩模与神经网络输出特征相乘即可得到对应区域的特征信息，经分类模块进行目标识别。然而，MA-CNN整体模型采用交替训练方式，即在误差反向传播阶段，首先更新卷积模块权重参数，之后对特征通道分组模块进行优化，最后结合softmax分类函数再次更新卷积模块，直至损失函数不再改变。这种训练方式较为复杂，且容易陷入局部最优解。

综上所述，针对仅使用图像级标签信息的弱监督细粒度图像识别任务，现有的方法难以简单、准确且稳定的检测图像判别性区域并学习细粒度特征，因此需要一种自适应性和鲁棒性较高的基于视觉自注意力机制的细粒度图像识别方法。

发明内容

本发明所要解决的技术问题在于，提供一种基于视觉自注意力机制的弱监督细粒度图像识别方法，能够仅借助图像级标签信息自主检测细粒度中图像判别性区域，减少图像背景干扰，提高识别准确率，增强模型鲁棒性。

为解决上述技术问题，本发明提供一种基于视觉自注意力机制的弱监督细粒度图像识别方法，包括如下步骤：

(1)在预处理阶段，将任意尺寸的原始图像缩放至600×600像素，在此基础上以图像中心为原点裁剪出448×448像素区域，按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理，而后将归一化图像输入基于视觉自注意力机制的细粒度识别模型；

(2)输入图像经共享卷积神经网络输出14×14×2048维特征张量，student-model借助目标检测领域常用的区域建议网络RPN的锚框思想，将步长为1、2、2，输出通道数为128的三个3×3卷积层序贯连接至共享基础网络，对特征进行降维，此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4；针对单个降维特征图中每一像素点，student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框(anchor)，将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分，该数值表示锚框内物体属于前景的概率，由于细粒度数据集中每幅图像仅包含单个目标，因此这一概率值能够反映此区域内语义信息量；

(3)非极大值抑制算法Hard-NMS将student-model创建的锚框{R′₁,R′₂,…,R′_P}按照分类全连接层输出的得分{s′₁,s′₂,…,s′_P}，即信息量降序排列，保留其中分值最高的锚框，并且将与该锚框交并比(Intersection over Union,IOU)大于设定阈值的所有锚框分值强制归零，即

式中，R′_i表示第i个锚框，s′_i表示锚框R′_i的信息量，M表示当前信息量最高的锚框，N_t表示非极大值抑制算法Hard-NMS的阈值，重复步骤(3)直至剩余锚框数量为N，N表示用户定义的候选区域数目；

(4)经过非极大值抑制算法初步筛选后，student-model剩余N个候选区域{R₁,R₂,…,R_N}，此时s₁≥s₂≥…s_N，其中s_i表示候选区域R_i对应的信息量；

(5)teacher-model将候选区域{R₁,R₂,…,R_N}的卷积特征并行输入多个独立的全连接层，结合softmax函数计算对应区域属于真实目标类别的概率，获得置信度{c₁,c₂,…,c_N}；与此同时，设定细粒度图像中候选区域类别标签与所在图像级标签相同，利用交叉熵损失函数计算目标真实类别与teacher-model预测结果之间的误差，即

式中，L_tch表示teacher-model的损失函数，i∈{1,2,…,N}表示候选区域索引，c_i表示候选区域R_i属于真实目标类别的概率，c_I表示输入图像I属于真实目标类别的概率，公式中第二项-log(c_I)表示完整输入图像的交叉熵，能够帮助teacher-model从全局角度把握预测方向；

(6)student-model与teacher-model经Teacher-Student循环反馈机制构成自注意力区域推荐网络，Teacher-Student循环反馈机制利用Pairwise Approach排序学习算法将候选区域R_i和R_j在student-model中的信息量与teacher-model中的置信度构建文档对{(s_i,s_j),(c_i,c_j)}；如果置信度c_i＞c_j，信息量满足s_i＞s_j，则认为该文档对构成正确的偏序关系；反之，如果c_i＞c_j，而s_i＜s_j，则认为偏序关系错误；Pairwise Approach排序学习算法通过最大边界损失(Hinge Loss)函数对偏序关系错误的文档对进行惩罚，即

式中，L_rank表示Teacher-Student循环反馈机制的损失函数，margin表示边界阈值；

(7)student-model根据Teacher-Student循环反馈机制的损失函数优化卷积层和分类全连接层参数，重复步骤(2)～(6)直至候选区域{R₁,R₂,…,R_N}的信息量{s₁,s₂,…,s_N}和置信度{c₁,c₂,…,c_N}排列顺序一致，此时从候选区域中选取信息量最高的K个区域进行推荐，这K个推荐区域{R₁,R₂,…,R_K}即为注意力区域；

(8)将注意力区域{R₁,R₂,…,R_K}和输入图像I经共享卷积神经网络输出的特征信息通过特征级联方式融合，输入classification-model判断图像类别，利用交叉熵损失函数衡量预测类别与真实目标类别之间的差异，即

L_cls＝-logc(I,R₁,…,R_K)

式中，L_cls表示classification-model的损失函数，c(I,R₁,R₂,…,R_K)表示联合输入图像和注意力区域的特征信息计算出的图像属于真实目标类别的概率；

(9)在teacher-model、Teacher-Student循环反馈机制和classification-model多任务学习过程中，为提升每个子任务的学习效率和预测速度，并增强模型泛化能力，联合全部子任务的损失函数进行优化，则总体损失函数L_total为

L_total＝w₁L_tch+w₂L_rank+w₃L_cls

式中，w₁、w₂和w₃为权重超参数，分别表示teacher-model损失函数L_tch、Teacher-Student循环反馈机制排序损失函数L_rank和classification-model分类损失函数L_cls在总体损失函数L_total中所占比例；

(10)动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数，即

式中，γ_k(·)∈(0,1)表示第k个子任务损失函数的相对变化率，初始化γ_k(0)＝γ_k(1)＝1，L_k表示第k个子任务的损失函数，t表示训练迭代次数epoch，结合softmax函数计算相对权重系数

式中，w_k表示第k个子任务的相对权重，B＝3表示总体任务数目，T为超参数，用于设置各权重系数的相似程度，T值越大表明各子任务的权重系数差距越小；

(11)根据总体损失函数利用动量随机梯度下降算法对整体模型进行端到端的训练。

优选的，步骤(2)中，student-model依据目标检测领域中区域建议网络RPN的锚框思想并在此基础上有所改进，从而在缺少目标位置信息的情况下产生大量可能包含目标的锚框，并通过非极大值抑制算法进行初步筛选，获得候选区域及对应信息量，网络结构具体为：假设原始图像经过预处理操作后尺寸统一为448×448像素，输入共享卷积层获得14×14×2048维特征张量，该特征张量首先通过卷积核大小为3×3，步长为1，输入通道数为2048，输出通道数为128的卷积层生成14×14×128维特征，对特征进行降维；其次，将降维特征输入步长为2，输入和输出通道数均为128的3×3卷积层获得7×7×128维特征张量；之后，使用步长为2，输入和输出通道数均为128的3×3卷积层再次缩小特征图谱分辨率，产生4×4×128维特征张量；最后，将分辨率为14×14特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为48×48，比例为{2:3,1:1,3:2}的3种规格的锚框，将分辨率为7×7特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为96×96，比例为{2:3,1:1,3:2}的3种规格的锚框，将分辨率为4×4特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为192×192，比例为{2:3,1:1,3:2}的3种规格的锚框；此时，将所有锚框{R′₁,R′₂,…,R′_P}经共享卷积层输出的特征信息独立地输入分类全连接层计算对应得分{s′₁,s′₂,…,s′_P}；由于student-model需对三个降维特征14×14×128、7×7×128和4×4×128每128维特征向量采取相同的操作，这一操作与使用三个独立的1×1卷积层等价，并且通过1×1卷积层代替分类全连接层能够有效降低计算复杂度；student-model得到锚框及对应得分后使用非极大值抑制算法Hard-NMS对其进行初步筛选，滤除冗余锚框，获得候选区域{R₁,R₂,…,R_N}和对应信息量{s₁,s₂,…,s_N}。

优选的，步骤(6)中，Teacher-Student循环反馈机制通过检索与推荐领域的PairwiseApproach排序学习算法对student-model参数进行优化，使其能够自主检测细粒度图像的判别性区域，Teacher-Student循环反馈机制具体为：student-model借助区域建议网络RPN的锚框思想，利用3×3卷积层和1×1分类全连接层产生大量可能包含目标的锚框{R′₁,R′₂,…,R′_P}，并且通过非极大值抑制算法Hard-NMS对锚框进行初步筛选，获得候选区域集合{R₁,R₂,…,R_N}以及对应信息量{s₁,s₂,…,s_N}；teacher-model首先将候选区域{R₁,R₂,…,R_N}输入共享卷积层获得特征信息，之后将特征信息并行输入多个独立的全连接层，结合softmax计算候选区域的置信度{c₁,c₂,…,c_N}；Pairwise Approach排序学习算法根据teacher-model的反馈结果，基于候选区域R_i和R_j的信息量(s_i,s_j)和置信度(c_i,c_j)构建信息量-置信度文档对{(s_i,s_j),(c_i,c_j)}，当置信度c_i＞c_j时，如果s_i＞s_j，那么文档对{(s_i,s_j),(c_i,c_j)}的偏序关系正确，记作

反之，如果s_i＜s_j，则认为偏序关系错误，记作

Pairwise Approach通过最大边界损失函数对错误偏序关系的文档对进行惩罚，获得代价函数

等式中，margin表示边界阈值；在误差反向传播过程中，利用梯度下降算法对student-model中3×3卷积层和1×1分类全连接层的参数进行更新；student-model在此基础上再次借助锚框思想创建大量可能包含目标的锚框，并经非极大值抑制算法初步筛选，从而产生候选区域集合，teacher-model根据候选区域卷积特征预测类别置信度，Pairwise Approach排序学习算法构建新的信息量-置信度文档对，计算代价函数，并结合梯度下降算法优化student-model网络参数；循环往复，直至候选区域{R₁,R₂,…,R_N}在student-model的信息量{s₁,s₂,…,s_N}与teacher-model的置信度{c₁,c₂,…,c_N}顺序一致，此时代价函数J＝0，Teacher-Student循环反馈停止。

优选的，步骤(7)中，候选区域{R₁,R₂,…,R_N}的信息量{s₁,s₂,…,s_N}和置信度{c₁,c₂,…,c_N}排列顺序相同是指，任意候选区域R_i对应信息量s_i在信息量集合{s₁,s₂,…,s_N}中的相对位置与置信度c_i在其集合{c₁,c₂,…,c_N}中的相对位置一致。

本发明的有益效果为：利用student-model、teacher-model及Teacher-Student循环反馈机制构建的自注意力区域推荐网络增强判别性区域定位和细粒度特征学习之间的联系，在缺少目标边界框和部位标注点的情况下依然能够较为准确地检测细粒度图像中判别性区域，降低图像背景干扰，显著提升识别准确率；同时，student-model、teacher-model和classification-model三个模块共享卷积层，能够有效压缩模型存储空间，降低计算成本，使得该方法满足实时性识别任务要求，适用于大规模真实场景；此外，动态权重分配机制帮助减少人为设定的超参数量，增强模型鲁棒性，最终整体模型通过端到端的单阶段方式进行训练与学习，减轻设计负担，降低模型优化难度。

附图说明

图1为本发明的结构框架示意图。

图2为本发明student-model结构框架示意图。

图3为本发明Teacher-Student循环反馈机制示意图。

图4为本发明多任务损失函数联合优化示意图。

图5为本发明采用动态权重分配机制各子任务权重系数变化趋势示意图。

图6为本发明采用不同权重分配机制细粒度识别模型准确率对比示意图。

图7为本发明自注意力区域推荐网络针对CUB-200-2011数据集部分样例的判别性区域定位可视化结果示意图。

具体实施方式

一种基于视觉自注意力机制的弱监督细粒度图像识别方法，包括如下步骤：

步骤1：在预处理阶段，将任意尺寸的原始图像缩放至600×600像素，在此基础上以图像中心为原点裁剪出448×448像素区域，按照均值[0.485,0.456,0.406]和标准差[0.229,0.224,0.225]对裁剪区域进行规范化处理，而后将归一化图像输入基于视觉自注意力机制的细粒度识别模型；

步骤2：输入图像经共享卷积神经网络输出14×14×2048维特征张量，student-model借助目标检测领域常用的区域建议网络RPN的锚框思想，将步长为1、2、2，输出通道数为128的三个3×3卷积层序贯连接至共享基础网络，对特征进行降维。此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4。针对单个降维特征图中每一像素点，student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框(anchor)，将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分，该数值表示锚框内物体属于前景的概率。由于细粒度数据集中每幅图像仅包含单个目标，因此这一概率值能够反映此区域内语义信息量；

步骤3：非极大值抑制算法Hard-NMS将student-model创建的锚框{R′₁,R′₂,…,R′_P}按照分类全连接层输出的得分{s′₁,s′₂,…,s′_P}，即信息量降序排列，保留其中分值最高的锚框，并且将与该锚框交并比(Intersection over Union,IOU)大于设定阈值的所有锚框分值强制归零，即

式中，R′_i表示第i个锚框，s′_i表示锚框R′_i的信息量，M表示当前信息量最高的锚框，N_t为非极大值抑制算法Hard-NMS的阈值。重复步骤3直至剩余锚框数量为N，N表示用户定义的候选区域数目；

步骤4：经过非极大值抑制算法初步筛选后，student-model剩余N个候选区域{R₁,R₂,…,R_N}，此时s₁≥s₂≥…s_N，其中s_i表示候选区域R_i对应的信息量；

步骤5：teacher-model将候选区域{R₁,R₂,…,R_N}的卷积特征并行输入多个独立的全连接层，结合softmax函数计算对应区域属于真实目标类别的概率，获得置信度{c₁,c₂,…,c_N}。与此同时，设定细粒度图像中候选区域类别标签与所在图像级标签相同，利用交叉熵损失函数计算目标真实类别与teacher-model预测结果之间的误差，即

式中，L_tch表示teacher-model的损失函数，i∈{1,2,…,N}表示候选区域索引，c_i表示候选区域R_i属于真实目标类别的概率，c_I表示输入图像I属于真实目标类别的概率。公式中第二项-log(c_I)表示完整输入图像的交叉熵，能够帮助teacher-model从全局角度把握预测方向；

步骤6：student-model与teacher-model经Teacher-Student循环反馈机制构成自注意力区域推荐网络，Teacher-Student循环反馈机制利用Pairwise Approach排序学习算法将候选区域R_i和R_j在student-model中的信息量与teacher-model中的置信度构建文档对{(s_i,s_j),(c_i,c_j)}。如果置信度c_i＞c_j，信息量满足s_i＞s_j，则认为该文档对构成正确的偏序关系；反之，如果c_i＞c_j，而s_i＜s_j，则认为偏序关系错误。Pairwise Approach排序学习算法通过最大边界损失(Hinge Loss)函数对偏序关系错误的文档对进行惩罚，即

步骤7：student-model根据Teacher-Student循环反馈机制的损失函数优化卷积层和分类全连接层参数，重复步骤2～6直至候选区域{R₁,R₂,…,R_N}的信息量{s₁,s₂,…,s_N}和置信度{c₁,c₂,…,c_N}排列顺序一致，此时从候选区域中选取信息量最高的K个区域进行推荐，这K个推荐区域{R₁,R₂,…,R_K}即为注意力区域；

步骤8：将注意力区域{R₁,R₂,…,R_K}和输入图像I经共享卷积神经网络输出的特征信息通过特征级联方式融合，输入classification-model判断图像类别，利用交叉熵损失函数衡量预测类别与真实目标类别之间的差异，即

L_cls＝-logc(I,R₁,…,R_K)

步骤9：在teacher-model、Teacher-Student循环反馈机制和classification-model多任务学习过程中，为提升每个子任务的学习效率和预测速度，并增强模型泛化能力，联合全部子任务的损失函数进行优化，则总体损失函数L_total为

L_total＝w₁L_tch+w₂L_rank+w₃L_cls

步骤10：动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数，即

式中，γ_k(·)∈(0,1)表示第k个子任务损失函数的相对变化率，初始化γ_k(0)＝γ_k(1)＝1，L_k表示第k个子任务的损失函数，t表示训练迭代次数epoch。结合softmax函数计算相对权重系数

步骤11：根据总体损失函数利用动量随机梯度下降算法对整体模型进行端到端的训练。

图1给出本发明的实现流程框图。首先，原始图像经过预处理后输入共享卷积神经网络提取特征信息，student-model根据这一特征信息生成大量可能包含目标及其关键部位的锚框并且计算对应的信息量，使用非极大值抑制算法对锚框进行初步筛选，进而获得候选区域。其次，设定候选区域类别标签与所在图像级标签相同，teacher-model评估候选区域属于目标真实类别的置信度并将其反馈至student-model，student-model依据反馈结果结合Pairwise Approach排序学习算法优化网络参数，产生新的候选区域，teacher-model在此基础上再次评估区域置信度，循环往复直至候选区域在student-model中信息量与teacher-model中置信度顺序一致，从中选取信息量Top-K区域进行推荐，即注意力区域。之后，将注意力区域与完整图像的特征信息通过特征级联方式融合，输入classification-model判断图像类别。最后，在student-model、teacher-model和classification-model三个模块联合学习过程中，采用动态权重分配机制根据每一学习任务的自身损失函数变化情况自适应地调整对应的权重系数，使用赋权相加的方式计算总体损失函数，并结合动量随机梯度下降算法更新模型参数。

图2为student-model结构框架示意图。原始图像经预处理操作后输入共享卷积神经网络输出14×14×2048维特征张量，student-model将步长为1、2、2，输出通道数为128的三个3×3卷积层序贯连接至共享基础网络，实现特征降维。此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4。这一过程等同于进行三次不同步长的3×3滑动窗口操作。针对单个降维特征图中每一像素点，student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框(anchor)，将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分，该数值表示锚框内物体属于前景的概率。由于student-model需要对三个降维特征中每128维向量采取相同的操作，这一过程与使用3个独立的1×1卷积层等价，并且与全连接层相比，1×1卷积层计算复杂度较低，因此使用1×1卷积层代替全连接层。非极大值抑制算法Hard-NMS根据分类全连接层得分对student-model创建的锚框进行初步筛选，保留其中分值较高的N个锚框用作候选区域。

图3为Teacher-Student循环反馈机制示意图。经过非极大值抑制算法初步筛选后，student-model剩余N个候选区域{R₁,R₂,…,R_N}，且s₁≥s₂≥…s_N，其中s_i表示候选区域R_i对应的信息量。设定候选区域标签与所在图像标签相同，teacher-model将候选区域{R₁,R₂,…,R_N}的卷积特征并行输入多个独立的全连接层，结合softmax函数计算对应区域属于真实目标类别的概率，获得置信度{c₁,c₂,…,c_N}，并将这一结果反馈至student-model。student-model根据反馈结果计算损失函数并以此优化3×3卷积层和分类全连接层的参数。之后，student-model基于新的网络参数再次创建候选区域并计算对应的信息量，同时将候选区域的卷积特征输入teacher-model评估置信度，teacher-model将结果反馈至student-model。循环往复，直至候选区域{R₁,R₂,…,R_N}在student-model中的信息量{s₁,s₂,…,s_N}与teacher-model的置信度{c₁,c₂,…,c_N}排序一致，此时从候选区域中选取信息量最高的K个区域进行推荐，这K个推荐区域{R₁,R₂,…,R_K}即为注意力区域。

图4为teacher-model、Teacher-Student循环反馈机制和classification-model多任务损失函数联合优化示意图。由于每一子任务的优化目标均不相同，为了提升每个子任务的学习效率与预测精度，并增强整体模型的泛化能力，基于视觉自注意力机制的弱监督细粒度识别方法联合全部子任务的损失函数对模型参数进行训练和更新，总体损失函数为L_total＝w₁L_tch+w₂L_rank+w₃L_cls，其中w₁、w₂和w₃为权重超参数，分别表示teacher-model交叉熵损失函数L_tch、Teacher-Student循环反馈机制排序损失函数L_rank以及classification-model分类损失函数L_cls在总体损失函数中所占比例。

图5为采用动态权重分配机制下各子任务权重系数变化趋势图，可见动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数，这一机制一方面使得每一子任务的权重分配更加合理，另一方面能够在一定程度上减少人为设定的超参数量。此时，识别模型仅需设置参数T即可确定每一子任务的权重系数，从而避免了暴力穷举或网格搜索带来的巨大计算成本，并且增强了整体识别模型的鲁棒性。同时，从图中可以看出每一子任务的相对权重w₁、w₂和w₃围绕数值1上下振荡。从理论上讲，如果依据子任务对整体任务的相对贡献程度来分配权重，由于每个子任务在多任务学习过程中具有同等重要性，因此应该为其赋予相同的权重系数，即w₁:w₂:w₃＝1:1:1。然而，考虑到每个子任务的收敛速度、网络优化难度以及损失函数量级存在差异，因此动态权重分配机制根据每一子任务自身情况对权重进行细微调整，避免总体损失被某个子任务主导，其余子任务对共享层学习的影响因子降低，使得不同子任务之间的表现差距拉大，进而降低整体任务性能。除此之外，当设置不同超参数T时，各子任务相对权重变化速率和相似程度存在差异。与采用T＝16的动态权重分配机制的细粒度识别模型相比，当超参数T＝8时，每一子任务的权重系数随着训练迭代次数剧烈变化，并且不同子任务对应的权重数值相差较大。这是因为在动态权重分配机制中，超参数T用于设置各权重系数的相似程度，T值越大，则不同子任务之间相对权重差距越小，特别地，当T→∞时，w₁:w₂:w₃≈1:1:1，即等比例简单相加。

图6为采用不同权重分配机制下细粒度识别模型在CUB-200-2011数据集上准确率对比图。考虑到基于视觉自注意力机制的弱监督细粒度识别方法的性能很大程度上取决于teacher-model、Teacher-Student循环反馈机制和classification-model对应子任务的相对权重，因此采用动态权重分配机制对子任务权重赋值，并且研究不同超参数T对识别准确率的影响。设定student-model锚框尺度为{48,96,192}，比例为{2:3,1:1,3:2}，候选区域数量N＝6，推荐区域数量K＝4，Hard-NMS阈值N_t＝0.25。从图中可以看出，动态权重分配机制根据每个子任务自身损失变化率自适应地调整对应的权重系数使得识别准确率有所上升。特别地，当T＝8时模型的总体分类精度分别达到88.2％，比采用简单相加法的识别模型高出0.3％。因此，动态权重分配机制合理分配每一子任务的权重系数，促使多任务联合学习细粒度识别模型性能提升。除此之外，当设定动态权重分配机制的超参数T＝8和T＝16时，模型的识别准确率类似，约为88.2％，但是超参数T＝8对应的模型收敛速率较快。这是因为如果超参数T数值较小，则子任务相对权重差距较大，总体损失变化剧烈，因此在误差反向传播阶段梯度更新幅值较大，进而加速网络收敛。

图7为本发明中自注意力区域推荐网络针对CUB-200-2011数据集部分样例的判别性区域定位可视化结果。从图中可以看出，自注意力区域推荐网络在缺少目标边界框和部位标注点等监督信息情况下，仅使用图像级标签依然能够较为准确地检测细粒度图像中判别性区域。第一行对应注意力区域数量K＝2和非极大值抑制算法Hard-NMS阈值N_t＝0.25，可见注意力区域几乎能够覆盖细粒度图像中全部判别性区域。第二行对应超参数K＝4和N_t＝0.25，根据可视化结果，注意力区域主要分布在鸟类的头部、躯干、尾部和羽毛共四处位置，符合人类的认知和思维方式。第三行对应超参数K＝2和N_t＝0.5，从图中可以看出注意力区域的重合程度较高，目标的部分关键部位未被推荐区域覆盖。第四行对应超参数K＝2和N_t＝0.25，但未使用Teacher-Student循环反馈机制，可以发现注意力推荐区域严重偏离图像中真实判别性区域。

表1列出本发明涉及的细粒度识别模型与其他现有的细粒度识别方法在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上的总体分类精度。其中，“标注信息”用于指明模型在训练阶段是否借助目标边界框或部位标注点等额外的人工监督信息。本发明设定student-model锚框尺度为{48,96,192}，比例为{2:3,1:1,3:2}，候选区域数量N＝6，推荐区域数量K＝4，Hard-NMS阈值N_t＝0.25。由表格中的数据可知，FCAN、PN-CNN以及Mask CNN借助强监督信息构建注意力区域回归模型，进而检测细粒度图像中判别性区域，在CUB-200-2011数据集上分别获得84.3％、85.4％和87.3％的识别准确率，而采用超参数T＝8的本发明方法在训练过程中仅利用图像级标签这种弱监督信息，结合Teacher-Student循环反馈机制搭建自注意力区域推荐网络，在CUB-200-2011数据集上分类精度达到88.2％，与FCAN、PN-CNN和Mask CNN相比，分别高出3.9％、2.8％和0.9％。由此可见，自注意力区域推荐网络在缺少目标边界框和部位标注点的情况下仍然能够较为准确地定位图像中判别性区域，并提取相应的特征信息，通过相互增强的方式促进判别性区域定位和细粒度特征学习之间的联系，从而提高细粒度识别模型的性能。弱监督细粒度识别模型B-CNN利用双线性池化捕捉特征通道间的相关关系，在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集的总体分类精度达到84.0％、86.9％和90.6％，与本发明方法相比降低4.2％、5.5％和4.0％。而Boost-CNN通过集成多个基学习器以增强整体模型的识别性能，在三个数据集上分别获得85.6％、88.5％和92.1％的准确率，比本发明方法减少2.6％、3.9％和2.5％。可见，本发明涉及的细粒度识别方法通过自注意力区域推荐网络检测图像中判别性区域，促使模型专注于此类区域的特征信息，从而降低图像背景干扰，能够显著提升模型的识别准确率。RA-CNN、DT-RAM、MA-CNN以及WS-LAN也是通过图像级标签信息构建视觉注意力机制，从而自主定位细粒度图像中判别性区域。其中，RA-CNN通过三重相互独立的神经网络逐渐聚焦于细粒度图像判别性区域，并针对单一注意力区域提取多尺度特征信息，在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上分别获得85.3％、88.2％和92.5％的分类精度，比本发明方法减少2.9％、4.2％和2.1％。MA-CNN利用聚类算法依据卷积特征响应分布对通道进行分组与合并，而后将这些分组特征输入sigmoid函数获得注意力掩模，在三个数据集上识别准确率达到86.5％、89.9％和92.8％。WS-LAN则是首先利用基础网络获得细粒度图像的特征图和注意力图(attention maps)，为防止注意力图集中于目标的某一关键部位，在训练阶段使用attention dropout策略随机丢弃注意力图，在一定程度上避免了过拟合现象的发生。与此同时，为保证每个注意力图仅关注目标的单一部位，WS-LAN添加中心约束损失(center loss)函数，从而确保每个部位的特征信息均接近全局部位中心，在CUB-200-2011、FGVC Aircraft和Stanford Cars数据集上达到此前最优分类精度，分别为87.9％、91.2％和93.0％，与本发明方法相比降低0.3％、1.2％和1.6％。与RA-CNN、MA-CNN以及WS-LAN不同，DT-RAM本质是一种以序列数据作为输入，在序列演进方向进行递归，并且网络节点依据链式规则连接的循环神经网络(Recurrent Neural Network,RNN)。DT-RAM按照时间顺序对细粒度图像的判别性区域进行序列化，即每一时间点仅处理单个注意力区域，而后将所有区域的特征信息联合起来以构建特征动态间隔表示，在CUB-200-2011和Stanford Cars数据集上获得86.0％和93.1％的识别准确率，低于本发明方法。因此，本发明涉及的弱监督细粒度识别方法利用student-model、teacher-model以及Teacher-Student循环反馈机制构建的自注意力区域推荐网络能够在缺少目标边界框和部位标注点的情况的准确、完整且稳定地自主检测细粒度图像中判别性区域。与此同时，整体模型采用端到端方式进行训练，避免在完成目标关键部位定位后搭建多重网络提取局部特征信息，加速网络收敛速度，降低计算资源消耗。

表1本发明方法与经典细粒度图像识别方法总体分类精度对比

Claims

1.一种基于视觉自注意力机制的弱监督细粒度图像识别方法，其特征在于，包括如下步骤：

(2)输入图像经共享卷积神经网络输出14×14×2048维特征张量，student-model借助目标检测领域常用的区域建议网络RPN的锚框思想，将步长为1、2、2，输出通道数为128的三个3×3卷积层序贯连接至共享基础网络，对特征进行降维，此时三个卷积层输出降维特征图分辨率依次是14×14、7×7和4×4；针对单个降维特征图中每一像素点，student-model将其映射至448×448像素的输入图像产生不同尺度和比例的k种规格的锚框，将锚框对应的共享卷积特征信息输入分类全连接层获得k个得分，该数值表示锚框内物体属于前景的概率，由于细粒度数据集中每幅图像仅包含单个目标，因此这一概率值能够反映此区域内语义信息量；

L_cls＝-log c(I,R₁,…,R_K)

L_total＝w₁L_tch+w₂L_rank+w₃L_cls

2.如权利要求1所述的基于视觉自注意力机制的弱监督细粒度图像识别方法，其特征在于，步骤(2)中，student-model依据目标检测领域中区域建议网络RPN的锚框思想并在此基础上有所改进，从而在缺少目标位置信息的情况下产生大量可能包含目标的锚框，并通过非极大值抑制算法进行初步筛选，获得候选区域及对应信息量，网络结构具体为：假设原始图像经过预处理操作后尺寸统一为448×448像素，输入共享卷积层获得14×14×2048维特征张量，该特征张量首先通过卷积核大小为3×3，步长为1，输入通道数为2048，输出通道数为128的卷积层生成14×14×128维特征，对特征进行降维；其次，将降维特征输入步长为2，输入和输出通道数均为128的3×3卷积层获得7×7×128维特征张量；之后，使用步长为2，输入和输出通道数均为128的3×3卷积层再次缩小特征图谱分辨率，产生4×4×128维特征张量；最后，将分辨率为14×14特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为48×48，比例为{2:3,1:1,3:2}的3种规格的锚框，将分辨率为7×7特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为96×96，比例为{2:3,1:1,3:2}的3种规格的锚框，将分辨率为4×4特征图谱中每一像素点映射回448×448像素的输入图像创建尺度为192×192，比例为{2:3,1:1,3:2}的3种规格的锚框；此时，将所有锚框{R′₁,R′₂,…,R′_P}经共享卷积层输出的特征信息独立地输入分类全连接层计算对应得分{s′₁,s′₂,…,s′_P}；由于student-model需对三个降维特征14×14×128、7×7×128和4×4×128每128维特征向量采取相同的操作，这一操作与使用三个独立的1×1卷积层等价，并且通过1×1卷积层代替分类全连接层能够有效降低计算复杂度；student-model得到锚框及对应得分后使用非极大值抑制算法Hard-NMS对其进行初步筛选，滤除冗余锚框，获得候选区域{R₁,R₂,…,R_N}和对应信息量{s₁,s₂,…,s_N}。

3.如权利要求1所述的基于视觉自注意力机制的弱监督细粒度图像识别方法，其特征在于，步骤(6)中，Teacher-Student循环反馈机制通过检索与推荐领域的PairwiseApproach排序学习算法对student-model参数进行优化，使其能够自主检测细粒度图像的判别性区域，Teacher-Student循环反馈机制具体为：student-model借助区域建议网络RPN的锚框思想，利用3×3卷积层和1×1分类全连接层产生大量可能包含目标的锚框{R′₁,R′₂,…,R′_P}，并且通过非极大值抑制算法Hard-NMS对锚框进行初步筛选，获得候选区域集合{R₁,R₂,…,R_N}以及对应信息量{s₁,s₂,…,s_N}；teacher-model首先将候选区域{R₁,R₂,…,R_N}输入共享卷积层获得特征信息，之后将特征信息并行输入多个独立的全连接层，结合softmax计算候选区域的置信度{c₁,c₂,…,c_N}；Pairwise Approach排序学习算法根据teacher-model的反馈结果，基于候选区域R_i和R_j的信息量(s_i,s_j)和置信度(c_i,c_j)构建信息量-置信度文档对{(s_i,s_j),(c_i,c_j)}，当置信度c_i＞c_j时，如果s_i＞s_j，那么文档对{(s_i,s_j),(c_i,c_j)}的偏序关系正确，记作

反之，如果s_i＜s_j，则认为偏序关系错误，记作

4.如权利要求1所述的基于视觉自注意力机制的弱监督细粒度图像识别方法，其特征在于，步骤(7)中，候选区域{R₁,R₂,…,R_N}的信息量{s₁,s₂,…,s_N}和置信度{c₁,c₂,…,c_N}排列顺序相同是指，任意候选区域R_i对应信息量s_i在信息量集合{s₁,s₂,…,s_N}中的相对位置与置信度c_i在其集合{c₁,c₂,…,c_N}中的相对位置一致。