CN114067107A

CN114067107A - 基于多粒度注意力的多尺度细粒度图像识别方法及系统

Info

Publication number: CN114067107A
Application number: CN202210034322.2A
Authority: CN
Inventors: 黄磊; 安辰; 魏志强; 张科
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-02-18
Anticipated expiration: 2042-01-13
Also published as: CN114067107B

Abstract

本发明属于图像处理技术领域，公开了基于多粒度注意力的多尺度细粒度图像识别方法及系统，该方法构建基于注意力的多粒度结构，将特征提取网络划分为若干个阶段，向特征提取网络的不同阶段输入不同粒度大小的图像，并对其进行特征提取，得到原始特征图；通过多粒度注意力模块对每个阶段的特征图分别从通道域和空间域获得注意力权重并融合，然后与特征图进行加权融合，获得不同阶段不同粒度的关键区域；构建并行多尺度卷积模块，给特征图分组，对每组特征图独立地应用不同类型的卷积核，对不同阶段不同尺度和粒度的特征图进行特征提取；最后对所得到的特征图进行特征融合。本发明能充分挖掘不同区域之间的关系，融合低维空间信息和高维语义信息。

Description

基于多粒度注意力的多尺度细粒度图像识别方法及系统

技术领域

本发明属于图像处理技术领域，涉及深度学习、细粒度图像识别技术，特别涉及基于多粒度注意力的多尺度细粒度图像识别方法及系统。

背景技术

细粒度图像识别目的是对粗粒度类别中更详细的子类进行分类。然而，由于细粒度图像存在类内方差高、类间方差低等特点，使得细粒度图像识别仍然是一项具有挑战性的任务。

早期的细粒度图像识别方法通过人类注释的边界框/部位注释进行基于部位的特征表示来解决这个问题。然而，在标记过程中需要专业的知识和大量的注释时间。因此，对于实际的细粒度图像识别任务，需要花费大量时间和资源进行注释的强监督方法并非最优。为了解决这个问题，研究重点转移到仅提供类别标签的弱监督方法，通过定位不同部位来学习区分性特征。目前，细粒度图像识别的研究方法集中在放大、裁剪局部可区分性区域。具体来说，这种方法利用注意力机制捕获关键区域，然后放大、裁剪关键特征，提高细粒度图像识别精度。

虽然上述方法已经取得了良好的效果，但仍有几个主要的问题。具体而言，1）忽视了注意力机制在不同粒度中的作用。2)没有考虑到如何将不同放大部位的特征以协同的方式融合在一起。3）这些方法主要学习高维特征捕获语义信息，却忽略了低维特征中包含的空间信息。

发明内容

针对上述现有技术存在的不足，本发明提供基于多粒度注意力的多尺度细粒度图像识别方法及系统，（1）首先为了解决如何将注意力机制在不同图像粒度中定位关键区域的问题，提出了基于注意力的多粒度结构，该结构将特征提取网络划分为若干个阶段，通过多粒度注意力模块，每个阶段侧重于捕获特征提取网络对应层中具有特定粒度的最具辨别力的区域；（2）然后提出了利用并行多尺度卷积模块提取不同阶段中不同尺度不同粒度的特征图，该模块分为若干层级，每个层级包含不同大小和深度的卷积核，并行多尺度卷积模块可以使用不同大小的卷积核并行处理输入特征映射，以捕获不同尺度不同粒度粒度特征图的细节；（3）最后针对将不同区域的特征以协同的方式融合在一起的问题，本发明设计了特征融合模块，将不同阶段的特征图通过最大池化层压缩成特征向量并融合，既充分挖掘了不同区域之间的关系，而且有效地融合了低维空间信息和高维语义信息，进而提高分类精度。

为了解决上述技术问题，本发明采用的技术方案是：

首先，本发明提供一种基于多粒度注意力的多尺度细粒度图像识别方法，包括以下步骤：

步骤1、多粒度特征提取：构建基于注意力的多粒度结构，将特征提取网络划分为若干个阶段，向特征提取网络的不同阶段输入不同粒度大小的图像，并对不同阶段不同粒度的图像进行特征提取，得到不同阶段不同粒度的原始特征图；

步骤2、通过多粒度注意力模块捕获每个阶段不同粒度特征图中最具鉴别性的区域：

首先，步骤1得到的不同阶段不同粒度的原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合；融合后的特征图经多粒度注意力模块分别从通道和空间两个域上为不同阶段生成通道注意力权重和空间注意力权重；

然后，将注意力权重与其对应的不同阶段不同粒度的特征图进行加权融合：将获得的通道注意力权重和通道注意力权重进行融合，得到混合注意力权重，将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合，模型为更适合当前粒度的感受野自适应分配权重并捕获不同粒度特征图的关键区域；

步骤3、提取多粒度多尺度特征图：构建并行多尺度卷积模块，给每个阶段不同粒度不同尺度特征图分组，对每组特征图独立地应用不同大小和深度的卷积核，提取不同阶段中不同尺度不同粒度的特征图；

步骤4、特征图融合：对从步骤3所得到的不同尺度不同粒度的特征图进行特征融合，分别对不同阶段的特征图以及融合后的特征图完成细粒度类别识别，通过类别损失函数优化网络参数；

重复训练步骤2-步骤3。

进一步的，在获取注意力权重时，多粒度注意力模块包括两个分支，一个分支取融合特征图自适应最大池化结果和自适应平均池化结果得到两个特征通道，经过共享卷积层为每个通道生成权重，将两个特征通道融合在一起，获取特征图中通道域的注意力权重；另一个分支将融合后的特征图进行降维，分别获取全局最大池化和全局平均池化结果并进行融合，使用卷积层获取特征图空间域的注意力权重。

进一步的，基于注意力的多粒度结构第k阶段输出的原始特征图为F ^k，

；H ^k，W ^k，C ^k 分别是第k阶段特征图的高度、宽度和通道数，S是阶段数，C是所有通道的数量；步骤2中，由多粒度注意力模块捕获第k阶段最具鉴别性的区域的具体步骤如下：

（1）F ^k经过卷积块得到

，将

与

进行融合得到

；对于融合特征图

，首先计算融合特征图

的自适应最大池化结果和自适应平均池化结果，形成两个特征通道，然后将上述两个特征通道经过共享卷积层并融合得到通道注意力权重

；

（2）对于融合特征图

进行全局最大池化和全局平均池化，并将全局最大池化和全局平均池化结果进行拼接，经过卷积层得到通道注意力权重

。

进一步的，获取通道注意力权重公式为：

获取空间注意力权重公式为：

其中，shardConv表示共享卷积层，AdaptiveMaxPool2d表示自适应最大池化，AdaptiveAvgPool2d 表示自适应平均池化，GlobalMaxPool表示全局最大池化，GlobalAvgPool表示全局平均池化，conv表示卷积核，

表示最大值特征通道的注意力向量，

表示平均值特征通道的注意力向量。

进一步的，将步骤2中的通道注意力权重

和空间注意力

进行融合得到混合注意力权重λ，将混合注意力权重λ与特征图

和

进行加权融合，得到包含混合注意力的特征图

；

获取混合注意力权重公式为：

获取包含混合注意力的特征图公式为：

其中

表示Sigmoid激活函数，

代表广播机制，

代表逐元素相乘。

进一步的，步骤3中，并行多尺度卷积模块包括若干层级，分别对应基于注意力的多粒度结构中的不同阶段，每个层级包含不同尺度和不同深度的卷积核，具体公式如下：

其中

表示第k阶段经过并行多尺度卷积模块得到的特征图，mconv表示多尺度卷积，包含不同尺度和不同深度的卷积核，pconv表示1×1大小的卷积核，β表示批归一化，γ表示修正线性单元。

进一步的，步骤4，首先将不同阶段的特征图采用最大池化层将每个阶段的特征图压缩为特征向量，并将不同阶段的特征向量融合在一起；然后将不同阶段的特征向量以及融合后的特征向量与真实标签计算损失，公式如下：

其中，z ^s表示第S阶段的预测标签向量，z表示真实标签向量，z ^fuse表示各个阶段融合后的预测标签向量；

表示第S阶段在第i个类别的预测标签向量，

表示各个阶段融合后在第i个类别的预测标签向量，i表示当前是第i个类别，m表示类别的总数；

表示第S阶段的损失，

表示各个阶段融合后的损失。

本发明还提供基于多粒度注意力的多尺度细粒度图像识别系统，包括基于注意力的多粒度结构、多粒度注意力模块、并行多尺度卷积模块、特征融合模块、分类器，所述的基于注意力的多粒度结构，将特征提取网络分为若干个阶段，提取不同阶段中不同粒度图像的原始特征图；所述的多粒度注意力模块用于将每个阶段不同粒度的原始特征图及其经过卷积块得到感受野增大的特征图进行融合，然后分别从通道和空间两个域上生成注意力权重，并将空间注意力权重和通道注意力权重融合成混合注意力权重，将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合，捕获不同阶段不同粒度的关键区域；所述的并行多尺度卷积模块，该模块分为若干层级，分别对应基于注意力的多粒度结构的各个阶段，每个层级包含不同大小和不同深度的卷积核，使用不同大小和不同深度的卷积核并行处理输入特征映射，提取多尺度多粒度特征；所述的特征融合模块，将并行多尺度卷积模块输出的不同阶段的特征图进行特征融合，保证了不同阶段捕获的特征图以协同的方式融合在一起；所述的分类器，用于输出分类结果。

与现有技术相比，本发明优点在于：

（1）为了解决如何将注意力机制在不同图像粒度中定位关键区域的问题，本专利提出了基于注意力的多粒度结构，引导网络从小粒度学习到粗粒度。具体的，首先基于注意力的多粒度结构将特征提取网络分为若干个阶段，对每个阶段的特征图分别从通道和空间两个域上生成注意力权重；其次，将空间注意力权重和通道注意力权重融合成混合注意力权重，捕获不同阶段不同粒度的关键区域。当前阶段训练完成后，下一阶段根据前一阶段的关键区域捕获更大粒度的关键区域，这防止了在大区域内出现较大的类内变化所造成的混淆。通过这种设计形式，可以有效利用注意力网络捕获不同阶段不同粒度的关键区域。

（2）为了有效提取不同阶段不同粒度不同尺度特征图的问题，本发明提出了利用并行多尺度卷积模块提取多尺度和多粒度特征，能够有效地提取不同阶段中不同尺度不同粒度的特征图。

具体的，并行多尺度卷积模块分为不同层级，每个层级包含不同尺度和不同深度的卷积核，为了在每一层级都能使用多尺度卷积核，将基于注意力的多粒度结构不同阶段的特征图进行分组，对不同的特征图组使用不同尺度和不同深度的卷积核，并行处理输入特征映射，以捕获不同尺度和粒度特征图的细节；网络能够有效捕获多粒度多尺度特征，使细粒度分类结果更加准确。

（3）针对将不同区域的特征以协同的方式融合在一起的问题，本发明设计了特征融合模块，将不同阶段的特征图通过最大池化层压缩成特征向量并融合，保证了不同阶段捕获的特征图以协同的方式融合在一起，既充分挖掘了不同区域之间的关系，而且有效地融合了低维空间信息和高维语义信息，提升整个网络模型的性能，进而提高分类精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明多粒度注意力模块生成注意力特征步骤图；

图3为本发明分组卷积结构示意图（分组数=1）；

图4为本发明分组卷积结构示意图（分组数=2）；

图5为本发明的网络结构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

实施例1

结合图1-图5所示，本实施例基于多粒度注意力的多尺度神经网络，提供一种细粒度图像识别方法，包括以下步骤：

步骤1、多粒度特征提取：

本实施例采用ScaleNet作为特征提取网络，一共包含N个阶段。

本实施例通过基于注意力的多粒度结构，将特征提取网络划分为S个阶段，向特征提取网络的不同阶段输入不同粒度大小的图像，并对不同阶段不同粒度的图像进行特征提取，得到不同粒度的原始特征图。

设基于注意力的多粒度结构第k阶段的输入图像为

，其中

。这里第k阶段的输出的原始特征图为F ^k为：

QUOTE

表示ScaleNet中第k阶段的卷积块。

经过步骤1，得到的原始特征图

；H ^k，W ^k，C ^k 分别是第k阶段特征图的高度、宽度和通道数，S是阶段数，C是所有通道的数量。然后本实施例通过设计多粒度注意力模块，有效获得对应于原始特征图的关键特征信息。

步骤2、通过多粒度注意力模块捕获每个阶段不同粒度特征图中最具鉴别性的区域，具体如下：

1、步骤1得到的不同阶段不同粒度的原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合；融合后的特征图经多粒度注意力模块分别从通道和空间两个域上为不同阶段生成通道注意力权重和空间注意力权重。

具体地，原始特征图经过卷积块得到感受野增大的特征图并将两者进行融合；融合后的特征图经多粒度注意力模块的两个分支，一方面取自适应最大池化结果和自适应平均池化结果得到两个特征通道，经过共享卷积层为每个通道生成权重，将两个特征通道融合在一起，获取特征图中通道域的注意力权重；另一方面将融合后的特征图进行降维，分别获取全局最大池化和全局平均池化结果并进行融合，使用卷积层获取特征图空间域的注意力权重。

由多粒度注意力模块捕获第k阶段最具鉴别性区域的具体步骤如下：

（1）F ^k经过卷积块得到

，将

与

进行融合得到

，

，

；

、

、

分别是融合特征图

在第k阶段的高度、宽度和通道数。

对于融合特征图

，首先计算融合特征图

，具体操作如图2所示。

（2）对于融合特征图

进行全局最大池化和全局平均池化，并将全局最大池化和全局平均池化结果进行拼接，经过卷积层得到空间注意力权重

。具体操作如图2所示。

需要说明的是，在上述步骤中，获取通道注意力权重公式为：

获取空间注意力权重公式为：

其中，shardConv表示共享卷积层，由两个1×1卷积层和修正线性单元组成，为上述两个通道（最大值特征通道和平均值特征通道）生成注意力，AdaptiveMaxPool2d表示自适应最大池化，AdaptiveAvgPool2d 表示自适应平均池化，GlobalMaxPool表示全局最大池化，GlobalAvgPool表示全局平均池化，conv表示卷积核，本实施例采用大小为3×3卷积核，

表示最大值特征通道的注意力向量，

表示平均值特征通道的注意力向量。

经过上述步骤，初步得到了特征图中空间注意力权重和通道注意力权重，由于空间注意力和通道注意力的聚焦不同，空间注意力更适用于特征图空间维度中的特征信息的聚焦和激活；通道注意力更适用于特征图通道中的聚焦和激活特征信息。这两种信息都属于通过卷积运算提取的图像中的深度特征信息。因此，仅仅考虑某种关注并不足以表达一个全面和有效的特征。现需要将空间注意力权重和通道注意力权重进行融合得到可以关注更细粒度特性的混合注意力权重。

2、将注意力权重与其对应的不同阶段不同粒度的特征图进行加权融合：

将步骤2中获得的通道注意力权重

和空间注意力

和

进行加权融合，模型为更适合当前粒度的感受野自适应分配权重并捕获不同粒度特征图的关键区域；得到包含混合注意力的特征图

。

获取混合注意力权重公式为：

获取包含混合注意力的特征图公式为：

其中

表示Sigmoid激活函数，

代表广播机制，

代表逐元素相乘。

此处需要说明的是，通过基于注意力的多粒度结构，网络从低阶段的稳定粒度开始训练，在低阶段训练具有局部细节的鉴别特征，逐渐向深层阶段的粗粒度过渡；通过基于注意力的多粒度结构，网络可以在早期阶段定位有用的信息，并且可以更加关注更微妙的区域，模型可以有效地捕获不同粒度特征图的关键区域。

经过步骤3，各个阶段中不同尺度不同粒度的特征图都能够捕获当前尺度和粒度中最具鉴别性的区域。为了有效地提取不同尺度和不同粒度的特征图，本实施例构建并行多尺度卷积模块。

步骤3、提取多粒度多尺度特征图：

构建并行多尺度卷积模块，给每个阶段不同粒度不同尺度特征图分组，对每个特征图组独立地应用不同大小和深度的卷积核，提取不同阶段不同粒度不同尺度的特征图。

由于基于注意力的多粒度结构中不同阶段包含不同尺度不同粒度的特征图，使用单一类型的卷积核和单一空间大小可能不是解决这一复杂性的最佳解决方案。因此，本实施例利用并行多尺度卷积模块提取不同尺度不同粒度的特征图，具体的，并行多尺度卷积模块包括不同层级，并行多尺度卷积模块的每个层级分别对应基于注意力的多粒度结构中的不同阶段。每个层级包含不同大小和不同深度的卷积核，每个层级的卷积核包含不同空间大小。为了能够在并行多尺度卷积模块的每个层级使用不同深度和大小的卷积核，输入特征图被分成不同的组进行独立卷积计算，如图3、图4所示。

将基于注意力的多粒度结构中不同阶段输出的不同尺度不同粒度的特征图经过并行多尺度卷积模块进行特征提取，具体公式如下：

其中

经过步骤3，基于注意力的多粒度结构中各个阶段的特征图经过并行多尺度卷积模块提取后，为了探索不同阶段不同粒度不同尺度特征图中最具鉴别性区域之间的联系，需要将不同阶段的特征图能够以协同的方式融合在一起。

步骤4、特征图融合：

对不同阶段从步骤3所得到的不同尺度不同粒度的特征图进行特征融合，分别对不同阶段的特征图以及融合后的特征图完成细粒度类别识别，通过类别损失函数优化网络参数。

具体如下：

首先将不同阶段的特征图采用最大池化层将每个阶段的特征图压缩为特征向量，并将不同阶段的特征向量融合在一起；然后将不同阶段的特征向量以及融合后的特征向量与真实标签计算损失，公式如下：

表示第S阶段在第i个类别的预测标签向量，

表示第S阶段的损失，

表示各个阶段融合后的损失。

重复训练步骤2-步骤3。

结合图1，使用本发明的方法处理图像时，将不同粒度的图像输入训练好的网络中，经特征提取网络分阶段提取特征，其中低阶段捕获稳定粒度的空间信息，深层阶段捕获较粗粒度的语义信息；通过多粒度注意力模块对不同阶段的特征图处理获得注意力图，基于本发明多粒度注意力机制，各个阶段中不同尺度和不同粒度的特征图都能够捕获当前尺度和粒度中最具鉴别性的区域；然后利用并行多尺度卷积模块，有效地提取不同阶段中不同尺度不同粒度的特征图；随后再经特征融合模块，将不同阶段的特征图融合，最后输出分类结果。通过本发明的方法能够有效捕获多粒度多尺度特征，使细粒度分类结果更加准确。

实施例2

本实施例提供一种基于多粒度注意力的多尺度细粒度图像识别系统，结合图5所示的本发明所使用的模型的网络架构图，本细粒度图像识别系统包括基于注意力的多粒度结构、多粒度注意力模块、并行多尺度卷积模块、特征融合模块、分类器。所述的基于注意力的多粒度结构，将特征提取网络分为若干个阶段，提取不同阶段中不同粒度图像的原始特征图；所述的多粒度注意力模块将每个阶段不同粒度的原始特征图及其经过卷积块得到感受野增大的特征图进行融合，然后对于融合后的特征图分别从通道和空间两个域上生成注意力权重，并将空间注意力权重和通道注意力权重融合成混合注意力权重，将混合注意力权重与原始特征图和感受野较大的特征图进行加权融合，捕获不同阶段不同粒度的关键区域。网络从低阶段的稳定粒度开始训练，逐渐向深层阶段的粗粒度过渡；当前阶段训练完成后，网络通过反向传播更新参数，更新后的参数作为下一阶段的初始化参数，下一阶段能够根据前一阶段捕获的关键区域定位粒度较大的关键区域。

所述的并行多尺度卷积模块，该模块分为若干层级，分别对应基于注意力的多粒度结构的各个阶段，每个层级包含不同大小和深度的卷积核，使用不同大小和不同深度的卷积核并行处理输入特征映射，提取多尺度多粒度特征。

所述的特征融合模块，将并行多尺度卷积模块输出的不同阶段的特征图进行特征融合，保证了不同阶段捕获的特征图以协同的方式融合在一起；将不同阶段的特征图通过最大池化操作压缩成特征向量并融合，既充分挖掘了不同区域之间的关系，而且有效地融合了低维空间信息和高维语义信息。所述的分类器，用于输出分类结果。

需要说明的是，使用本实施例的基于多粒度注意力的多尺度细粒度图像识别系统，可实现细粒度图像识别，如实施例1记载的图像识别方法，具体图像识别方法此处不再赘述。

综上所述，本发明提出了一种基于注意力的多粒度结构，基于注意力的多粒度结构将特征提取网络划分为若干个阶段，通过本发明设计的多粒度注意力模块，每个阶段能够捕获特征提取网络对应层中特定尺度和粒度特征图的最具辨别力的区域。同时，为了有效地提取不同尺度和不同粒度的特征图，本发明提出了利用并行多尺度卷积模块，通过给特征图进行分组，并行多尺度卷积模块对每组特征图独立地应用不同大小和深度的卷积核，以捕获不同粒度不同尺度特征图的细节。本发明将不同阶段中不同粒度不同尺度的特征图以协同的方式融合在一起，解决了注意力机制在不同图像粒度中定位关键区域的问题，充分挖掘了不同区域之间的关系，而且有效地融合了低维空间信息和高维语义信息。

当然，上述说明并非是对本发明的限制，本发明也并不限于上述举例，本技术领域的普通技术人员，在本发明的实质范围内，做出的变化、改型、添加或替换，都应属于本发明的保护范围。

Claims

1.基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，包括以下步骤：

步骤2、设计多粒度注意力模块，捕获每个阶段不同粒度特征图中最具鉴别性的区域：

然后，将注意力权重与其对应的不同阶段不同粒度的特征图进行加权融合：将获得的通道注意力权重和空间注意力权重进行融合，得到混合注意力权重，将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合，模型为更适合当前粒度的感受野自适应分配权重，并捕获不同粒度特征图的关键区域；

重复训练步骤2-步骤3。

2.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，步骤2中，在获取注意力权重时，多粒度注意力模块包括两个分支，一个分支取融合特征图自适应最大池化结果和自适应平均池化结果得到两个特征通道，经过共享卷积层为每个通道生成权重，将两个特征通道融合在一起，获取特征图中通道域的注意力权重；另一个分支将融合后的特征图进行降维，分别获取全局最大池化和全局平均池化结果并进行融合，使用卷积层获取特征图空间域的注意力权重。

3.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，基于注意力的多粒度结构第k阶段输出的原始特征图为F ^k，

（1）F ^k经过卷积块得到

，将

与

进行融合得到

；对于融合特征图

，首先计算融合特征图

；

（2）对于融合特征图

。

4.根据权利要求3所述的基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，获取通道注意力权重公式为：

获取空间注意力权重公式为：

表示最大值特征通道的注意力向量，

表示平均值特征通道的注意力向量。

5.根据权利要求3所述的基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，将步骤2中的通道注意力权重

和空间注意力

和

进行加权融合，得到包含混合注意力的特征图

；

获取混合注意力权重公式为：

获取包含混合注意力的特征图公式为：

其中

表示Sigmoid激活函数，

代表广播机制，

代表逐元素相乘。

6.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，步骤3中，并行多尺度卷积模块包括若干层级，分别对应基于注意力的多粒度结构中的不同阶段，每个层级包含不同尺度和不同深度的卷积核，具体公式如下：

其中

7.根据权利要求1所述的基于多粒度注意力的多尺度细粒度图像识别方法，其特征在于，步骤4，首先将不同阶段的特征图采用最大池化层将每个阶段的特征图压缩为特征向量，并将不同阶段的特征向量融合在一起；然后将不同阶段的特征向量以及融合后的特征向量与真实标签计算损失，公式如下：

表示第S阶段在第i个类别的预测标签向量，

表示第S阶段的损失，

表示各个阶段融合后的损失。

8.基于多粒度注意力的多尺度细粒度图像识别系统，其特征在于，包括基于注意力的多粒度结构、多粒度注意力模块、并行多尺度卷积模块、特征融合模块、分类器，所述的基于注意力的多粒度结构，将特征提取网络分为若干个阶段，提取不同阶段中不同粒度图像的原始特征图；所述的多粒度注意力模块用于将每个阶段不同粒度的原始特征图及其经过卷积块得到感受野增大的特征图进行融合，然后分别从通道和空间两个域上生成注意力权重，并将空间注意力权重和通道注意力权重融合成混合注意力权重，将混合注意力权重与原始特征图和感受野增大的特征图进行加权融合，捕获不同阶段不同粒度的关键区域；所述的并行多尺度卷积模块，该模块分为若干层级，分别对应基于注意力的多粒度结构的各个阶段，每个层级包含不同大小和不同深度的卷积核，使用不同大小和不同深度的卷积核并行处理输入特征映射，提取多尺度多粒度特征；所述的特征融合模块，将并行多尺度卷积模块输出的不同阶段的特征图进行特征融合，保证了不同阶段捕获的特征图以协同的方式融合在一起；所述的分类器，用于输出分类结果。