CN117173422A

CN117173422A - 基于图融合多尺度特征学习的细粒度图像识别方法

Info

Publication number: CN117173422A
Application number: CN202310984714.XA
Authority: CN
Inventors: 李万益; 区济初; 黄靖敏; 陈憶悯; 郑淋萍; 杨焙婷; 郑丹暖
Original assignee: GUANGDONG UNIVERSITY OF EDUCATION
Current assignee: GUANGDONG UNIVERSITY OF EDUCATION
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-12-05
Anticipated expiration: 2043-08-07
Also published as: CN117173422B

Abstract

本发明公开了一种基于图融合多尺度特征学习的细粒度图像识别方法，包括以下步骤：S1：构建基于图融合多尺度特征学习模型，采用多尺度密集块搭建区域建议网络和特征提取网络，确定模型损失函数；S2：图像输入区域建议网络，得到多尺度特征图，对应不同建议区域的位置信息，生成不同位置不同大小的建议区域集合；S3：特征提取网络引入注意力情境整合模块，拼接和整合当前区域输入特征和上一区域特征，提取不同区域多尺度特征；S4：特征融合网络采用区域关系图像融合，将不同区域多尺度特征输入特征融合网络进行融合，获得图像联合特征；S5：将图像联合特征输入分类器进行细粒度图像识别，分类器输出基于图融合多尺度特征学习的细粒度图像识别结果。

Description

基于图融合多尺度特征学习的细粒度图像识别方法

技术领域

本发明涉及图像识别技术领域，具体地说，尤其涉及一种基于图融合多尺度特征学习的细粒度图像识别方法。

背景技术

弱监督的细粒度图像识别(Weakly Supervised Fine-Grained ImageRecognition，WSFGIR)是计算机视觉领域中正在解决的问题之一，其目标是识别同一基础类别下细化程度更高的子类(如不同种类的鸟：尖头鸊鷉、角鸊鷉和西鸊鷉之间进行识别)，并且其仅利用图像类别标签进行训练。区别于普通图像分类任务，其研究的核心难点主要来自于其类间差异小、类内差异大。

现有技术的一些端对端的卷积神经网络(Convolutional Neural Networks，CNN)在弱监督的细粒度图像识别(WSFGIR)上得到验证。它们从学习到的高阶特征中获取积极的信息，从而达到与普通图像分类任务相近的较高精度。但是，一味地挖掘可辨特征，而缺少考虑特征之间的重要性轻重和上下文关系，制约了这些方法的准确性。一种自然的解决方案是引入注意力机制来突出关注区域，自动聚焦于目标对象。在引入注意力的基础上，一些研究还专门设计了特殊的损失函数来优化网络参数，使特征更具辨别力。

此外，或建立一个图像内和跨图像的通道式相互作用模型，或利用类激活图来减少标签噪音。转换器结构也在弱监督的细粒度图像识别(WSFGIR)中表现出了优越的性能，例如，或应用对比性特征学习来扩大混淆的子类别之间的表征距离，或通过构建特征级的相互关系和捕捉部件级的判别特征，处理不同子类别之间的微妙差异。但应当注意的是，转换器与注意力机制一样，都只突出最重要的区域，而忽略了其他次重要的区域。

为此，在最新的研究中提到先采用区域建议网络来自动选取一系列感兴趣的区域，再输入到设计的主干网络中用于特征提取和分类。这种方法的好处是消除了复杂背景的干扰，使网络能够更好地从图像中提取可辨特征。或设计一个高斯混合模型来精确定位判别区域，或提出一种用于鉴别性零件区域提出的过滤学习方法和一种用于加强基于区域的特征学习的蒸馏学习方法。通过注意力模型，在双向过程中实现了零件定位和特征识别的强化。或设计一个带有递归网络的注意集合，以捕捉不同区域之间的语义相关性。或提出一个基于图形传播的定位阶段的子网络。

尽管上述方法已经取得了较好的分类性能，但仍存在不足之处。要克服之前提到的弱监督的细粒度图像识别(WSFGIR)的难点，准确地找出可辨区域起着关键作用。然而，除了这一挑战之外，与其他计算机视觉任务类似，弱监督的细粒度图像识别(WSFGIR)还存在着尺度及视角多变的问题。模型性能对图像中物体的姿态、视角、位置较敏感。因此，使用标准卷积搭建区域建议网络可能会导致不良的定位结果。同时，不同尺度的区域被实施具有相同尺寸感受野的卷积和池化操作，抑制了尺度信息，而这些尺度信息中仍然会含有目标的有效特征，也就是说现有方法在特征提取时存在显著信息提取不充分的问题。在区域特征融合时，多尺度特征紊乱，导致空间分辨能力退化。

发明内容

本发明的目的在于解决传统市场调研方法存在的主观性和局限性问题，提供一种基于图融合多尺度特征学习的细粒度图像识别方法，学习多尺度信息，提高模型的判别性能。

为了实现上述目的，本发明所采用的技术方案如下：

一种基于图融合多尺度特征学习的细粒度图像识别方法，包括以下步骤：

S1：构建基于图融合多尺度特征学习的模型，采用多尺度密集块搭建区域建议网络和特征提取网络，确定模型的损失函数；

S2：图像输入区域建议网络，得到多尺度特征图，对应不同建议区域的位置信息，生成不同位置不同大小的建议区域集合；

S3：特征提取网络引入注意力情境整合模块，拼接和整合当前区域输入特征和上一区域特征，提取不同区域的多尺度特征；

S4：特征融合网络采用区域关系图像融合机制，将不同区域的多尺度特征输入特征融合网络进行融合，获得图像联合特征；

S5：将图像联合特征输入分类器进行细粒度图像识别，分类器最终输出基于图融合多尺度特征学习的细粒度图像识别结果。

优选地，图像输入区域建议网络，得到多尺度特征图，对应不同建议区域的位置信息，生成不同位置不同大小的建议区域集合，具体为：

将输入图像的大小调整为448×448，并将调整大小后的图像输入区域建议网络；经过多个多尺度密集块和下采样层后，对学到的带有多尺度信息的高质量特征图进行全局平均池化，然后全连接层通过非线性映射生成4N个值，对应N个建议区域的位置信息，每个区域由4个参数(r_x,r_y,r_w,r_h)表示，其中r_x和r_y分别是区域中心的横纵坐标，r_w和r_h分别是区域的1/2宽度和1/2高度；裁剪操作通过原始图像和参数化掩模之间的逐元素乘法来实现；通过这种方式，生成了N个位于不同位置的不同大小不同纵横比的建议区域集合R＝{R₁,R₂,…,R_N}。

优选地，特征提取网络引入注意力情境整合模块，拼接和整合当前区域输入特征和上一区域特征，提取不同区域的多尺度特征，具体为：

对于区域R_i，首先通过双线性池化操作将裁剪的图像大小调整为224×224，然后将其传入特征提取网络，从而获取该区域的多尺度特征向量V_i；引入注意力情境整合模块，拼接和整合当前区域和上一区域中的隐藏层特征，学习区域的上下文信息，并通过动态注意力增强关键特征的可辨别度。

优选地，多尺度密集块基于多尺度卷积构建，多尺度密集块中使用跳跃连接策略。

优选地，多尺度卷积中引入分组操作，将输入通道分成3组，分别采用大小为3×3、5×5、7×7的算子核，把各组的通道维数比设置为4：3：1，在每组通道中，依次进行步长均为1的深度卷积、最大池化和点卷积，最后，将每组的特征通道图进行融合；

多尺度卷积表示为：

F＝Concat(F₁,F₂,F₃)

式中，X_i为第i组的输入特征图；F_i为第i组的输出特征图；F为融合后的多尺度特征图；PWConv表示点卷积运算；Maxpool表示最大池化；DWConv表示深度卷积运算；k_i为第i组的卷积核或池化核大小；k₁＝3；k₂＝5；k₃＝7。

优选地，多尺度密集块包括依次连接的3个密集连接单元和1个1×1卷积层，密集连接单元包括依次连接的多尺度卷积层、BatchNorm层和PReLU层；密集连接单元用于增强多尺度信息的传递，实现特征的尺度多样性，在一定程度上能缓解训练过程中的梯度消失问题；1×1卷积层用于控制输出通道的维数，融合粗粒度和细粒度特征，提取稠密特征图在各个通道上不同尺度的空间信息。

优选地，特征提取网络引入注意力情境整合模块，注意力情境整合模块包括两个部分：一是上下文信息提取，它通过不同大小的感受野中挖掘丰富的上下文信息；二是增强上下文依赖的动态注意力；

对于区域的特征提取，在获取了当前层的输入特征后，将其与区域建议网络的隐藏层特征图拼接，输入至注意力情境整合模块；将拼接的特征沿着3个路径从不同的感受野获取特征图，自粗粒度至细粒度路径的元素乘法加权；最后，通过1×1卷积来降低通道维数得到K_i；

区域R_i的上下文信息提取的计算过程表示为：

式中，PWConv表示点卷积运算；DWConv_(7×7)表示卷积核大小为7×7的深度卷积运算；DWConv_(5×5)表示卷积核大小为5×5的深度卷积运算；DWConv_(3×3)表示卷积核大小为3×3的深度卷积运算；F_i为第i组的输出特征图；表示拼接操作；P为区域建议网络的隐藏层特征图；/>表示相乘操作；Tanh表示双曲正切函数；/>表示由感受野为7×7的卷积运算得到的第i个区域的特征图；/>表示由感受野为5×5的卷积运算得到的第i个区域的特征图；表示由感受野为3×3的卷积运算得到的第i个区域的特征图；K_i为第i个区域的上下文特征。

优选地，注意力情境整合模块引入动态注意力，采用可变形卷积变换来适应不同尺度下的目标得到矩阵图，再通过softmax函数得到注意力图，将注意力图与图像特征进行相乘和相加操作，获得加权且精炼的特征图；

动态注意力表示为：

式中，DFConv为可变形卷积运算；表示相加操作，E_i为第i个区域的注意力图。

优选地，当多尺度特征V＝{V₁,V₂,…,V_N}，即被构造时，它被表示为一张具有N个d_c维节点的图；

为了保持其上下文特征，区域关系图像融合基于这些特征的位置关联和信息关联，使用两层图卷积网来融合这些特征，两层图卷积网络表示为：

式中，H表示第一层图卷积网络的输出；Z表示第二层图卷积网络的输出；W₁、W₂为可训练图权重，d_c、d_h、d_s分别是矩阵的维度，代表矩阵的行数或列数；A表示第一层图卷积网络不同节点之间位置关联的邻接矩阵，A∈R^N×N，I为单位矩阵，I∈R^N×N，N为区域提案的数量；/>为A的度矩阵；/>G表示第二层图卷积网络不同节点之间信息关联的邻接矩阵，G∈R^N×N；/>为G的度矩阵；PReLU为激活函数；

第一层图卷积网络不同节点之间位置关联定义为：

式中，S_i∩j为节点i和节点j所代表的两个建议区域的交集区域的像素点个数；S_i∪j为节点i和节点j所代表的两个建议区域的并集区域的像素点个数；A_ij为第一层图卷积网络节点i和节点j之间位置关联矩阵；

第二层图卷积网络不同节点之间信息关联定义为：

式中，W^e为可训练的参数矩阵；T表示矩阵转置；h_i为矩阵h的第i列元素；h_j为矩阵h的第j列元素；G_ij为第二层图卷积网络节点i和节点j之间信息关联矩阵。

优选地，采用额外的角差损失作为模型的损失函数，损失函数定义为：

式中，x_i为归一化后的第i个样本的深度特征，即最后的全连接层的输入特征，W_j为归一化后的全连接层的权重矩阵的第j列；y_i为第i个样本的真实数据；s为尺度参数；m为边界惩罚；M为样本个数。

与现有技术相比，本发明具有如下优点和有益效果：

1.本发明设计基于多尺度卷积架构的多尺度密集块(MSDB)，其可在区域建议网络和特征提取网络中，学习多尺度信息。

2.本发明设计注意力情境整合模块(ACIM)，其可捕获上下文信息和增强区域特征的位置依赖信息，使网络包含更多的积极信息，并生成具有较强识别能力的客观特征，有利于提高模型的判别性能。

3.本发明提出区域关系图像融合(RRGF)，其融合携带丰富空间和语义信息的图像特征，增强特征之间的交互作，提高了模型的判别性能。

附图说明

图1为基于图融合多尺度特征学习的细粒度图像识别方法的流程示意图。

图2为基于图融合多尺度特征学习模型的整体架构示意图。

图3为多尺度卷积的设计示意图。

图4为多尺度密集块的结构示意图。

图5为注意力情境整合模块的结构示意图。

图6为使用t-SNE监测不含注意力情境整合模块的基于图融合多尺度特征学习在CUB-200-2011数据集的辨别能力示意图。

图7为使用t-SNE监测没有区域关系图融合的基于图融合多尺度特征学习在CUB-200-2011数据集的辨别能力示意图。

图8为使用t-SNE监测基于图融合多尺度特征学习模型在CUB-200-2011数据集的辨别能力示意图。

具体实施方式

下面结合附图和具体实施例对本发明基于图融合多尺度特征学习的细粒度图像识别方法作进一步说明。

本发明提出一种新颖的基于图融合多尺度特征学习(Graph-Fusion BasedMulti-Scale Feature Learning，GFMSFL)方法。具体来说，本发明采用基于多尺度卷积的多尺度密集块(Multi-Scale Dense Block，MSDB)来搭建网络，提取多尺度特征，这为区域建议和特征提取提供了直接的优化。为了改善信息流，本发明还在多尺度密集块(MSDB)中使用了跳跃连接策略。为了更好的学习区域上下文(context)信息，本发明设计了注意力情境整合模块(Attentional Context Integration Module，ACIM)，并引入动态注意力增强空间几何形变学习能力，从而生成高质量的特征图，进而可融合所有区域提取到的特征。

普通的特征求和方法忽略了区域特征向量之间的语义相关性。此外，普通的特征求和方法在所选择的辨别区域内会存在一些噪声的上下文信息。另外一种常见方法是拼接特征并馈送至全连接的多层感知机(Multilayer Perceptron，MLP)。然而，多层感知机(MLP)很难针对细粒度分类进行优化，并且还伴随着巨大的参数量。为此，本发明提出了区域关系图像融合(Region Relation Graph Fusion，RRGF)以增强特征之间的交互作用，使模型获得更好的判别能力。

请参阅图1，本发明公开了一种基于图融合多尺度特征学习的细粒度图像识别方法，包括以下步骤：

请参阅图2，本发明提出的方法架构主要包括区域建议、特征提取、特征融合和分类器。为了有效地学习多尺度特征，本发明在区域建议和特征提取中采用基于多尺度密集块(MSDB)来搭建网络。

为了公平起见，本发明首先将输入图像的大小调整为448×448，并将调整大小后的图像送入区域(Region)提出的网络。经过若干个多尺度密集块(MSDB)和下采样层后，对学到的带有多尺度信息的高质量特征图进行全局平均池化(Golbal Average Pooling)，然后全连接层(Fully Connected Layer，FC)通过非线性映射生成4N个值，对应N个建议区域的位置(Position)信息，每个区域由4个参数(r_x,r_y,r_w,r_h)表示，其中r_x和r_y分别是区域中心的横纵坐标，r_w和r_h分别是区域的1/2宽度和1/2高度。基于上述表示，裁剪操作可以通过原始图像和参数化掩模之间的逐元素乘法来实现。通过这种方式，本发明生成了N个位于不同位置的不同大小不同纵横比的建议区域集合R＝{R₁,R₂,…,R_N}。

对于区域R_i，本发明首先通过双线性池化(Bilinear Pool)操作将裁剪的图像大小调整为224×224，然后将其传入特征提取网络，从而获取该区域的多尺度特征向量V_i。此外，本发明引入了注意力情境整合模块(ACIM)，拼接和整合当前区域和上一区域中的隐藏层特征，学习区域的上下文(context)信息，并通过动态注意力增强关键特征的可辨别度。将多尺度特征V₁,V₂,…,V_N送入区域关系图像融合(RRGF)中获得融合后的特征。最后，在分类器(Classification)中，依次经过全连接层和softmax层输出各类别的预测概率。通过全连接层，得到区域提案的位置(The Positions of Proposal Regions)，通过分类器得到类别概率(Category Probability)。

多尺度卷积(MSConv)

标准卷积仅用同一个卷积核对所有特征图进行相同的采样操作，然而采用相同操作会导致网络对尺度敏感，无法有效地区分不同尺度下的相似物体的有效信息与无效信息。考虑到弱监督的细粒度图像识别(WSFGIR)中对象尺度多变的问题，本发明提出了一种基于多尺度卷积(Multi-Scale Convolution，MSConv)的多尺度密集块(MSDB)来搭建网络。

请参阅图3，多尺度卷积(MSConv)中引入了分组操作，将输入通道分成3组，分别采用大小为3×3，5×5，7×7的算子核，从而更好地捕获图像的多尺度特征，其中小核善于提取特征图中的局部细节信息，而大核善于提取整体环境信息。由于在弱监督的细粒度图像识别(WSFGIR)中，细节信息比环境信息更为关键，故赋予小核的组更深维数的通道。具体的把各组的通道维数比设置为4:3:1。在每组通道中，依次进行步长均为1的Depthwise Conv(深度卷积)、最大池化(Max Pool)和Pointwise Conv(点卷积)。这里在卷积之间使用最大池化而不适用平均池化，是因为最大池化能够更好地保留图像的细节信息。请注意，分组操作、Depthwise Conv(深度卷积)和Pointwise Conv(点卷积)都大大降低了卷积运算的参数量。最后，将每组的特征通道图进行融合。

综上所述，多尺度卷积(MSConv)表示为：

F＝Concat(F₁,F₂,F₃) (2)

请参阅图4，图4为单个多尺度密集块(MSDB)的具体结构示意图，多尺度密集块(MSDB)包含3个密集连接的MSConv+BatchNorm+PReLU units和1个1×1卷积层。密集连接不仅可以增强多尺度信息的传递，实现特征的尺度多样性，而且在一定程度上能缓解训练过程中的梯度消失问题。1×1卷积层用于控制输出通道的维数，融合粗粒度和细粒度特征，提取稠密特征图在各个通道上不同尺度的空间信息。目前的多尺度特征融合方法，如MixConv、PSPNet、ASPP、ScaleNet等，均有各种提取特征的局限性。

注意力情境整合模块(ACIM)

许多基于裁剪的细粒度分类方法无法显著提高基线模型的精度，这主要是因为这些方法仅仅利用由裁剪区域所生成的特征来完成类别的预测，忽略了区域的上下文信息。因此，为了捕获区域的全局相关性，本发明在特征提取网络中引入了注意力情境整合模块，如图5所示，该模块包括两个部分：一是上下文(context)信息提取，它通过不同大小的感受野(Receptive Field)中挖掘丰富的上下文信息；二是增强上下文依赖的动态注意力。

而对于区域R_i的特征提取，在获取了当前层的输入特征F_i后，将其与区域建议网络的隐藏层特征图H拼接，输入至注意力情境整合模块(ACIM)。将拼接的特征沿着3个路径从不同的感受野获取特征图，自粗粒度至细粒度路径的元素乘法加权。最后，通过1×1卷积来降低通道维数得到K_i。

综上所述，区域R_i的上下文(context)信息提取的计算过程表示为：

虽然此时的特征图包含丰富的上下文信息，但并不是所有的特征都有助于提高对象检测的性能。为了消除冗余的负面影响，进一步提高特征映射的表示能力，本发明引入了一种动态注意力。为了增强网络的几何形变能力，本发明采用Deform Conv(可变形卷积)变换来适应不同尺度下的目标得到矩阵图，再通过softmax函数得到注意力图，将注意力图与图像特征进行相乘和相加操作，从而获得加权且精炼的特征图。

该动态注意力被公式化为：

区域关系图像融合(RRGF)

当多尺度特征V＝{V₁,V₂,…,V_N}，即被构造时，它可以被公式化为一张具有N个d_c维节点的图。为了保持其上下文(context)特征，区域关系图像融合(RRGF)基于这些特征的位置关联和信息关联，使用两层图卷积网络(GCN)来融合这些特征。

该机制被公式化为：

式中，H表示第一层图卷积网络的输出；Z表示第二层图卷积网络的输出；W₁、W₂为可训练图权重，d_c、d_h、d_s分别是矩阵的维度，代表矩阵的行数或列数；A表示第一层图卷积网络不同节点之间位置关联的邻接矩阵，A∈R^N×N，I为单位矩阵，I∈R^N×N，N为区域提案的数量；/>为A的度矩阵；/>G表示第二层图卷积网络不同节点之间信息关联的邻接矩阵，G∈R^N×N；/>为G的度矩阵；PReLU为激活函数。其中，

第一层图卷积网络不同节点之间位置关联定义为：

式中，S_i∩j为节点i和节点j所代表的两个建议区域的交集区域的像素点个数；S_i∪j为节点i和节点j所代表的两个建议区域的并集区域的像素点个数；A_ij为第一层图卷积网络节点i和节点j之间位置关联矩阵。

第二层图卷积网络不同节点之间信息关联定义为：

值得注意的是，两层图卷积网络(GCN)采用了不同的邻接矩阵，分别用来学习区域特征之间的位置关联和信息关联。每层图卷积网络(GCN)通过递归地交换邻域信息来更新节点状态(经过多次图传播)，直到当层的全局图状态达到收敛。经过两个阶段的图传播，得到最终的节点特征，最后拼接所有节点的特征向量并送入分类器进行下游的分类任务。

图形更新通过迭代式更新所有节点的隐藏状态来实现，在t时刻，节点V_i的隐藏状态按照如公式更新：不断地利用当前时刻邻居节点的隐藏状态作为部分输入来生成下一时刻中心节点的隐藏状态，直到每个节点的隐藏状态变化幅度很小，整个图的信息流动趋于平稳。至此，每个节点都“知晓”了其邻居的信息。

模型实验

本发明在三个流行的基准数据集CUB-200-2011、Stanford Cars、FGIR-Aircraft上进行了实验。数据集的基本信息为：①CUB-200-2011包含200种野生鸟类的11788张图像，其中5994张图像用于训练，5794张用于测试。②Stanford Cars包含196种汽车风格的16185张图片，其中8144张图片用于训练，8041张用于测试。③FGIR-Aircraft包含100种飞机变体的10000张图像，其中6667张图像用于训练，3333张用于测试。

在训练阶段，本发明采用了随机翻转、随机旋转以及亮度、对比度、饱和度上的变化进行数据增强。同时，本发明还采用了随机擦除的增强方式，即在输入图中随机选择一块区域以概率P擦除该区域，并使用图像的均值进行填充，这样做可以有效缓解过拟合现象。不同于普通的图像分类任务，在弱监督的细粒度图像识别(WSFGIR)中使用简单的softmax层加交叉熵损失函数，往往训练起来收敛较慢且效果欠佳。于是，本发明选择了额外的角差损失(additive angular margin loss，ArcFace)作为损失函数，通过增加边界惩罚m，增强了类内的紧凑度以及类间的差异。

该损失函数定义为：

式中，x_i为归一化后的第i个样本的深度特征，即最后的FC层的输入特征，W_j为归一化后的FC层的权重矩阵的第j列；y_i为第i个样本的真实数据；M为样本个数；s为尺度参数，设置为固定值30；m为边界惩罚，为一个可学习参数，其范围为[0.2,0.8]，并初始化为0.5。本发明使用SGD优化器，动量为0.9，批次大小为64。初始学习率被设定为1e-3，每50个历时时间衰减0.1。

消融分析及可视化

本发明通过消融分析来展示本发明提出的方法在CUB-200-2011数据集上的关键部分。

①区域提案的数量

表1给出了不同区域数(N)对基于图融合多尺度特征学习(GFMSF)准确性的影响，当N＝9时达到最佳精度，并且精度随着N的减小或增大而减小。这是因为当区域数量过少时，模型忽视了不应忽视的次重要区域；而当区域数量过多时，有效特征不再显著，空间分辨能力退化。因此，本实施例中，利用区域建议网络生成N＝9个区域。

表1不同区域数的识别精度

②多尺度密集块(MSDB)的影响

多尺度密集块(MSDB)是区域建议网络(RPN)和特征提取网络(FEN)中的重要组件，表2记录了不同组件的组合的结果。表2中的首两行分别表示采用ResNet和采用DenseNet来搭建网络。单元规模的网络(Unitary-scale net，USNet)取消了多尺度卷积(MSConv)中的分组操作，由单一大小的核执行它的密集区块。双尺度网(Dual-scale net，DSNet)沿用了分组操作，由一大一小两个核作用，其中大核作用的通道维数比上小核作用的通道维数为3:1。而多尺度网(Multi-scale net，MSNet)表示由多尺度密集块(MSDB)搭建的网络，即本发明的网络结构。如表2所示，末行的水平要优于其上方的，表明多尺度密集块(MSDB)的多尺度特征提取能力有利于识别。同时，本发明还发现小核更适用于细粒度识别。

表2对Cub-200-2011的组件分析

③注意力情境整合模块(ACIM)的影响

注意力情境整合模块(ACIM)能在特征提取中学习到区域的上下文信息。在表2中，本发明发现注意力情境整合模块(ACIM)的加入始终可以实现精度提高0.6％以上。注意力情境整合模块(ACIM)被证明是不可或缺的。

④区域关系图像融合(RRGF)的影响

要验证所提出的区域关系图像融合(RRGF)是否有助于特征融合，请参考表2的最后一列。具体地讲，在不使用区域关系图像融合(RRGF)进行改进的情况下，本发明通过将各区域特征加权后加总的方式进行融合。比较发现，应用区域关系图像融合(RRGF)能提高至少1.3％的精度。这表明区域关系图像融合(RRGF)的图卷积可以很好地利用区域之间关系来融合特征，从而得到用于分类的深层特征。

⑤与其他方法的比较

实验结果表明，本发明所提出的模型在三个细粒度基准数据集上表现出优越的性能。表3在三个基准数据集上报告了不同方法的性能表现，基于区域建议的方法一般要比其他方法有更高的精度。尽管这些方法在各种数据集上工作得很好，但它们忽略了尺度及视角多变的问题,并且在融合时没有考虑区域之间的关系。本发明的方法不仅解决了这些问题，并且实现了新的先进技术。

表3与其他方法进行精度比较

为了全面地评估组件，本发明还进行了t-SNE可视化。本发明评估了不含注意力情境整合模块(-ACIM)和没有区域关系图融合(-RRGF)的基于图融合多尺度特征学习(GFMSF)，视觉结果如图6、图7和图8所示。

本发明提出一种基于图形融合的多尺度特征学习方法，用于弱监督的细粒度图像识别。区域建议网络和特征提取网络是由多尺度密集块(MSDB)搭建的，在不会产生巨大参数量的同时确保学习到图像的多尺度特征。并且提出了注意力情境整合模块(ACIM)以挖掘区域的空间上下文信息。考虑到区域之间的关系，本发明提出了区域关系图像融合(RRGF)来融合区域特征。本发明在三个基准数据集上进行了比较和消融实验，本发明的方法能够突破普通端对端模型的准确率瓶颈，并且取得了比大多数基于区域建议的方法更好的性能。

综上所述，本发明具有如下优点和有益效果：

上述说明是针对本发明较佳可行实施例的详细说明，但实施例并非用以限定本发明的专利申请范围，凡本发明所揭示的技术精神下所完成的同等变化或修饰变更，均应属于本发明所涵盖专利范围。

Claims

1.一种基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，图像输入区域建议网络，得到多尺度特征图，对应不同建议区域的位置信息，生成不同位置不同大小的建议区域集合，具体为：

3.根据权利要求2所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，特征提取网络引入注意力情境整合模块，拼接和整合当前区域输入特征和上一区域特征，提取不同区域的多尺度特征，具体为：

4.根据权利要求1所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，多尺度密集块基于多尺度卷积构建，多尺度密集块中使用跳跃连接策略。

5.根据权利要求4所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，多尺度卷积中引入分组操作，将输入通道分成3组，分别采用大小为3×3、5×5、7×7的算子核，把各组的通道维数比设置为4：3：1，在每组通道中，依次进行步长均为1的深度卷积、最大池化和点卷积，最后，将每组的特征通道图进行融合；

多尺度卷积表示为：

F＝Concat(F₁,F₂,F₃)

6.根据权利要求5所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，多尺度密集块包括依次连接的3个密集连接单元和1个1×1卷积层，密集连接单元包括依次连接的多尺度卷积层、BatchNorm层和PReLU层；密集连接单元用于增强多尺度信息的传递，实现特征的尺度多样性，在一定程度上能缓解训练过程中的梯度消失问题；1×1卷积层用于控制输出通道的维数，融合粗粒度和细粒度特征，提取稠密特征图在各个通道上不同尺度的空间信息。

7.根据权利要求1所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，特征提取网络引入注意力情境整合模块，注意力情境整合模块包括两个部分：一是上下文信息提取，它通过不同大小的感受野中挖掘丰富的上下文信息；二是增强上下文依赖的动态注意力；

区域R_i的上下文信息提取的计算过程表示为：

式中，PWConv表示点卷积运算；DWConv_(7×7)表示卷积核大小为7×7的深度卷积运算；DWConv_(5×5)表示卷积核大小为5×5的深度卷积运算；DWConv_(3×3)表示卷积核大小为3×3的深度卷积运算；F_i为第i组的输出特征图；表示拼接操作；P为区域建议网络的隐藏层特征图；/>表示相乘操作；Tanh表示双曲正切函数；/>表示由感受野为7×7的卷积运算得到的第i个区域的特征图；/>表示由感受野为5×5的卷积运算得到的第i个区域的特征图；/>表示由感受野为3×3的卷积运算得到的第i个区域的特征图；K_i为第i个区域的上下文特征。

8.根据权利要求7所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，注意力情境整合模块引入动态注意力，采用可变形卷积变换来适应不同尺度下的目标得到矩阵图，再通过softmax函数得到注意力图，将注意力图与图像特征进行相乘和相加操作，获得加权且精炼的特征图；

动态注意力表示为：

9.根据权利要求1所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，当多尺度特征V＝{V₁,V₂,…,V_N}，即被构造时，它被表示为一张具有N个d_c维节点的图；

第一层图卷积网络不同节点之间位置关联定义为：

第二层图卷积网络不同节点之间信息关联定义为：

10.根据权利要求1所述的基于图融合多尺度特征学习的细粒度图像识别方法，其特征在于，采用额外的角差损失作为模型的损失函数，损失函数定义为：