CN113688894B

CN113688894B - 一种融合多粒度特征的细粒度图像分类方法

Info

Publication number: CN113688894B
Application number: CN202110954862.8A
Authority: CN
Inventors: 孙俊; 杨祺; 李超; 陈祺东; 吴豪; 方伟; 吴小俊
Original assignee: Uniform Entropy Technology Wuxi Co ltd
Current assignee: Uniform Entropy Technology Wuxi Co ltd
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2023-08-01
Anticipated expiration: 2041-08-19
Also published as: CN113688894A

Abstract

本发明提供一种融合多粒度特征的细粒度图像分类方法，属于图像处理领域。本发明首先通过一个局部错位模块选择细粒度图像中的不同粒度，然后引入注意力机制定位它们并提取其多粒度特征，并且通过迭代学习的方式提取多粒度间的互补信息，最后采用可变形卷积融合这些多粒度特征，从而实现细粒度图像分类。本文所提出的方法在CUB‑200‑2011、FGVC‑Aircraft和Stanford Cars三个数据集上准确率分别达到88.6％、93.6％和94.8％，这表明我们的方法能够获得优秀的分类性能。

Description

一种融合多粒度特征的细粒度图像分类方法

技术领域

本发明的属于图像处理领域，具体涉及一种融合多粒度特征的细粒度图像分类方法。

背景技术

细粒度图像分类旨在识别给定对象类别的子类，例如不同种类的鸟类以及飞机和汽车。由于这些子类存在细微的类间差异和显著的类内变化，细粒度图像分类比传统分类问题更具挑战性。迄今为止，最有效的解决方案依赖于从局部区域提取辨别性的细粒度特征表示，这种局部辨别性特征被集中融合以进行最终分类。早期工作中辨别性特征绝大多数来自于相关领域专家的人工注释。然而由于专业性限制使得人工注释获取代价高昂且有一定误差。因此，近年来的研究重点已经转移到仅使用类别标签的弱监督训练模型。这些模型拥有能够定位更具辨别性的局部区域的能力，这使得它们能够在不使用额外人工注释的情况下获得不俗的性能。

然而，尽管依靠定位局部辨别性区域的弱监督细粒度分类研究取得了很多进展，但普遍来说它们都很少关注以下两个问题：第一，提取的具有辨别性的局部区域在哪些粒度上最具辨别性，例如鸟的头部或爪两个辨别性区域中哪个对分类结果帮助更大，第二，用什么方式可以将不同粒度上的信息融合在一起以提高分类精度，换句话说就是头部和爪的两个不同辨别性区域如何能够更好地协同工作来提升分类结果。由于跨不同粒度的信息有助于避免大的类内变化的影响，例如，鸟类鉴别专家有时需要使用鸟头部的整体结构和更精细的细节，如鸟喙的形状来识别一只鸟。因此我们认为，模型不仅需要找到最具区别性的粒度，同时还需要考虑不同粒度的局部如何有效地合并。

发明内容

在本发明中，我们提出了一个融合多粒度特征的网络框架，该框架通过迭代学习方式引导网络学习由低到高的不同粒度及不同粒度之间的互补信息，同时将多粒度特征融合在一起，从而提高分类准确率。具体地说，这是通过以下几个相互协同工作的组件来实现的:(1)限定输入图像粒度的局部错位模块，它能够迫使网络学习限定粒度下图像的局部信息；(2)注意力模块，因为图像的背景中存在噪声，所以有必要先通过注意力来定位辨别性的局部，同时有选择地增强其中具有丰富信息的特征，并抑制那些语义无关的特征；(3)迭代学习方式，具体来说，我们从更细的粒度开始训练，逐渐转向更粗的粒度，当每个迭代步骤结束时，在当前迭代步骤训练的参数将作为下一迭代步骤的初始化参数，这种传递使网络能够基于上一迭代步骤的经验来挖掘更大粒度的信息；(4)有效融合多粒度特征的可变形卷积模块，在迭代学习完成后，利用原始图像进行新一轮训练，并将提取到的多粒度进行融合，以更进一步提升效果。

本发明的技术方案：

一种融合多粒度特征的细粒度图像分类方法，步骤如下：

1、搭建融合多粒度特征的网络模型：

融合多粒度特征的网络模型包括局部错位模块、注意力模块和可变形卷积模块；通过局部错位模块来制造输入数据粒度的差异性；融合多粒度特征的网络模型使用ResNet50作为骨干网络，用F代表ResNet50，F在特征提取的过程中有L个阶段，每个阶段都会生成一份特征图，把第i个阶段生成的输出特征图记为F_i，并用H_i、W_i、C_i分别表示第i阶段输出特征图的高度、宽度和通道数，其中i∈{1,2,...,L}；注意力模块用于让模型定位并提取到不同粒度的局部特征，通过注意力模块找到具有辨别性的多粒度局部，记为F_i'；可变形卷积模块能够根据不同粒度局部的大小自适应的改变卷积核采样点位置，扩大感受野，然后将多个不同粒度的特征融合到一起，得到特征向量FV_c，最后我们将FV_c输入分类器得到最终预测值y_c，分类器由两个全连接层和一个softmax层组成。

进一步地，各个模块的结构组成：

局部错位模块：由图像划分、打乱图像位置矩阵、图像重组三个操作组成。

注意力模块：注意力模块包括空间注意力和通道注意力，其中空间注意力由全局平均池化层、三个带有不同卷积核大小的卷积层、对卷积输出求均值的均值计算层、Sigmoid激活函数层组成。通道注意力由全局最大池化层、全连接层、Relu激活函数层、全连接层、Sigmoid激活函数层组成。

可变形卷积模块：由一个增加卷积核偏移量的卷积层和一个向量连接层组成。

2、利用迭代学习的方式来引导融合多粒度特征的网络模型在较浅的特征层中学习稳定的细粒度信息，并随着训练的进行逐步将计算资源转移到较深的特征层中学习粗粒度的抽象信息，具体如下：

(1)用L表示主干网络提取特征过程中的阶段数(L的取值由选取的主干网络决定，如ResNet50中L＝5)，用s表示迭代学习中迭代总步骤数，因为网络最多能够提取L个不同粒度的特征，所以s∈[1,L]。用i代表具体某一次迭代步骤，其中i∈[1,s]。

(2)在第i次迭代时，首先使用局部错位模块将输入图像p转化为新的图像B(p,n)，具体来说，模块将输入图像p分割成n×n个局部，其中n＝2^L-s+i，之后将这些局部的位置矩阵打乱并根据新的位置矩阵生成新的图像B(p,n)；图像B(p,n)与输入图像p共享相同的标签y。

(3)主干网络从新图像B(p,n)中提取第L-s+i个阶段的特征F_L-s+i。

(4)注意力模块对F_L-s+i进行进一步处理，为了得到对应于第i个迭代步骤的空间注意力权重在空间域上，先对特征作全局平均池化得到池化图AP_i，之后分别用三个不同卷积核大小的卷积操作对AP_i进行变化得到/>然后对/>对应位置相加求均值，并用Sigmoid函数对均值做归一化，得到空间注意力权重/>

进一步地，平均池化公式如下：

其中AP_i代表特征图通过压缩得到的全局平均池化图，c代表特征图的通道数，F_i(k)代表特征图在每个通道对应空间位置的局部像素值。

进一步地，选择用(1，1)、(3，3)和(5，5)三个不同大小的卷积核来学习AP_i。

并获得三个不同的空间描述符

进一步地，可以表示为：

其中σ为sigmoid函数，Mean为对应位置相加求均值。从而我们可以获得空间注意力

(5)在通道域上，首先对F_L-s+i做全局最大池化操作，之后通过一个全连接层和激活函数Relu，在经过一个全连接层和Sigmoid函数处理后得到通道注意力权重

进一步地，可以表示为：

其中σ和ReLU分别代表sigmoid函数和ReLU函数，W₁和W₂为两个全连接层的权重矩阵，GAP(·)是全局平均池化函数，W_i和H_i代表F_i的空间维度，(m,n)表示空间维度中的像素位置。

(6)注意力模块将学习到的空间注意力权重和通道注意力权重/>对特征进行加权，具体操作是先分别将空间注意力权重和通道注意力权重与输入特征F_L-s+i相乘，之后再对两个结果进行对应位置相加，得到最终结果F'_L-s+i。

进一步地，F'_L-s+i计算过程为：

其中代表对应元素相乘，/>表示对应元素相加。

(7)将特征F'_L-s+i输入分类器，分类器由由两个带有BatchNorm的全连接层和一个softmax层组成。

(8)分类过后得到预测值y_L-s+i，用交叉熵函数计算其与真实标签的损失，并通过反向传播更新网络权重，之后开启下一次迭代。

(9)第i+1次迭代重复步骤(2)至(8)，并以此类推

3、在迭代学习结束后，将原始图像输入网络，由主干网络提取到特征{F_L-s+1,...,F_L-1,F_L}，用注意力模块提取具有辨别性的局部特征{F'_L-s+1,...,F'_L-1,F'_L}，之后用可变形卷积分别对局部特征进行操作得到特征向量{FV'_L-s+1,...,FV'_L-1,FV'_L}。

4、用向量连接操作将特征向量{FV'_L-s+1,...,FV'_L-1,FV'_L}连接到一起得到融合特征FV_c，最后用分类器对融合了多粒度信息的特征向量FV_c做预测，得到最终预测结果y_c，对y_c施加交叉熵损失来进一步优化网络。

融合特征FV_c计算公式如下：

FVc＝concat[FV_L-s+1,...,FV_L-1,FV_L] (9)

其中L代表主干网络特征提取过程中的阶段数，s代表本发明迭代学习的总迭代步骤数，concat代表向量连接操作。

本发明的有益效果：

1.本发明提出了一种融合多粒度特征的细粒度分类网络，它能够通过局部错位模块生成不同粒度的图像并通过迭代学习方式学习不同粒度之间的互补信息。

2.本发明引入了注意力机制，它融合了空间注意力和通道注意力，它能够适应不同粒度特征，实现细粒度辨别性局部定位功能。

3.本发明在三个广泛使用的细粒度图像分类数据集(CUB-200-2011、Stanford-Cars和FGVC-Aircraft)上进行对比和消融实验，证明本发明的方法拥有优秀的分类性能。

附图说明

图1多粒度特征融合网络结构图。

图2局部错位模块。

图3注意力模块。

图4普通卷积与可变形卷积比较图，其中(a)为普通卷积，(b)为可变形卷积。

具体实施方式

以下根据实施例及附图对本发明的技术方案进行进一步说明。

1.1细粒度图像分类

深度学习方法已经在各种视觉分析任务中展现出了其强大的特征提取能力。但是在细粒度图像分类领域，仅使用ResNet，VGG等传统特征提取网络的效果仍无法达到预期标准。

现有的算法大致分为基于强监督学习和基于弱监督学习的算法研究，他们都是对传统卷积神经网络的进一步拓展。强监督学习借助数据集中的额外标注信息定位关键区域，比如标注图像中目标位置的边界框，以及标注物体各部位的部件信息(如鸟的翅膀、爪、喙等)。在弱监督场景下，最近的研究主要集中在定位目标物体中最有辨别性的部分和不同粒度特征的部分。受到大规模标注信息获取难度的限制和实际应用的需要，近年来有关细粒度图像分类的研究已经从带有额外注释(如边界框、部件语义信息)的强监督场景发展到只使用类别标签的弱监督场景。

1.2特征融合

尽管在弱监督场景下，很多研究通过定位图像中最有辨别性的局部和利用多粒度的特征取得了进展。然而，很少有人考虑如何更好地将这些辨别性的局部以及不同粒度的信息融合在一起，目前的融合技术大致可以分为两类。第一种方法将从不同部分提取的特征连接在一起，之后放入一个分类器进行预测。Fu等人【Fu,J.,Zheng,H.,Mei,T.:Lookcloser to see better:Recurrent attention convolutional neural network forfine-grained image recognition.In:CVPR(2017)】发现局部区域检测和细粒度特征学习可以相互加强，并构建了一系列网络，这些网络在进行预测时为下一个网络找到有辨别性的局部区域，最后通过训练一个全连接层来融合所有被找到的辨别性区域，与之类似的，Zheng等【Ge,W.,Lin,X.,Yu,Y.:Weakly supervised complementary parts models forfine-grained image classification from the bottom up.In:CVPR(2019)】学习了人工标注的零件注释和每个零件的特征表示，从而在预测前定位了多个具有辨别性的零件，之后用一个全连接层融合来自不同零件的特征。第二种技术基于不同的部分进行预测，每个部分用一个分类器得出预测结果，然后直接将它们的预测结合在一起。Zhang等【Zhang,L.,Huang,S.,Liu,W.,Tao,D.:Learning a mixture of granularity-specific experts forfine-grained categorization.In:ICCV(2019)】训练了几个集中于不同粒度特征的网络，以产生不同的预测分布，然后在将它们组合在一起之前对它们的结果进行加权。

1.3注意力机制

注意力机制是近几年在图像、语音、自然语言处理方面应用比较广泛的方法，该方法本质上是用机器模拟人类的视觉特性。在认知科学中，人类会有选择地关注所接收到的信息中的某些部分，例如人在看书时，通常只有少量的词句会被关注处理，而人工智能领域的注意力机制正是在模仿这样一个过程，所以注意力机制主要关注如何将有限的资源分配给最重要的部分。

从注意力机制的作用角度出发，可以将注意力机制分为通道域注意力机制、空间域注意力机制和混合域注意力机制。通道域注意力通过建模特征各个通道的重要程度增强或者抑制不同的通道。SENet是一个基于通道的注意力模型，它将特征图的空间维度进行特征压缩，再通过构建权重w来学习特征通道间的相关性。并将该权重应用于原来的每个特征通道，基于特定的任务，就可以学习到不同通道的重要性。而空间域注意力旨在增强感兴趣的特定目标区域同时弱化不相关的背景区域。MA-CNN和PA-CNN都是在空间域中计算注意力，将具有同一语义信息的局部进行聚类。CBAM将3D注意力图分解为空间和通道注意力，能够在混合域中同时关注空间和通道关系。

2.1网络结构

在这一节中，我们将展示本发明提出的融合多粒度特征的网络结构。如图1所示，为了让模型适应巨大的类内变化，我们用局部错位模块来制造输入数据粒度的差异性。本发明用ResNet50作为骨干网络,这里我们用F代表ResNet50，F在特征提取的过程中有L个阶段，每个阶段都会生成一份特征图，我们把第i个阶段生成的输出特征图记为F_i，并用H_i、W_i、C_i分别表示第i阶段输出特征图的高度、宽度和通道数，其中i∈{1,2,...,L}。为了能够让模型定位并提取到不同粒度的局部特征，我们又引入了一个注意力模块，通过该模块找到具有辨别性的多粒度局部，记为F_i'。与此同时，我们引入迭代学习的方式，用来引导模型在较浅的特征层中学习稳定的细粒度信息，并随着训练的进行逐步将计算资源转移到较深的特征层中学习粗粒度的抽象信息，这样能够使得到的多粒度特征具备与其他粒度间的互补信息，之后为了将这些多粒度的特征融合到一起，我们引入了可变形卷积模块，它能够根据不同粒度局部的大小自适应的改变卷积核采样点位置，扩大感受野，然后将多个不同粒度的特征融合到一起，得到特征向量FV_c，最后我们将FV_c输入分类器得到最终预测值y_c，分类器由两个全连接层和一个softmax层组成。

2.2局部错位模块

在自然语言处理的任务中，G.Lample【G.Lample,A.Conneau,L.Denoyer,andM.Ranzato.Un-supervised machine translation using monolingualcorporaonly.2018】等人将句子中单词打乱语序从而迫使神经网络专注于有区别的单词而忽略不相关的单词。在最近的细粒度图像分类研究中，DCL【Chen,Y.,Bai,Y.,Zhang,W.,Mei,T.:Destruction and construction learning forfine-grained imagerecognition.In:CVPR(2019)】通过破坏全局结构来强调局部细节，它们将图像分割成若干区域并重构图像来学习局部区域之间的语义相关性。

受以上方法的启发，我们提出了局部错位模块(Part Dislocation Module，简称PDM)，目的是选择细粒度图像中的不同的粒度。模块的运作原理如下：给定一个输入图像p∈R^3×W×H，W和H分别代表输入图像的宽和高，我们将输入图像平均分割成n×n个局部，这些局部大小为通道数为3。其中W和H必须分别是n的整数倍。

如图2所示，输入图像的位置矩阵被随机打乱并生成新的位置矩阵，这些被划分的局部会根据新的位置矩阵重新合并为新图像B(p，n)。这里，局部的粒度由超参数n控制。超参数n需要满足两个条件:(1)所划分局部的大小要小于对应阶段的感受野，否则会降低局部错位模块的性能；(2)所划分局部的大小应随着不同迭代步骤感受野的增加而成比例地增加。通常，每个迭代步骤的感受野大约是后面一个迭代步骤的两倍。因此，对于第l个迭代步骤我们将n设置为2^L-l+1。其中l∈{1,2,...,s}，s为迭代学习的总步骤数。

在迭代学习的过程中，对于单一的迭代步骤s而言，训练数据p将首先被通过局部错位模块扩充获得B(p，n)，其中n＝2^L-l+1，它与p共享相同的标签y。该模块为每个不同的迭代步骤生成不同粒度的输入图像B(p，n)以替代单一粒度的输入p，这种做法的优势在于它能够选择输入图像的粒度级别，从而迫使模型的其他部分在特定的粒度级别中找到更多具有辨别性的局部。

2.3注意力模块

为了充分提取多粒度的辨别性局部特征来进一步改善细粒度图像分类的性能，我们引入通道和空间注意力来增强特征的表示能力并定位最具辨别性的特征局部。具体地，我们在特征提取器对应的阶段提取的{F_L-s+1,...,F_i,...,F_L}中引入额外的注意力{A_L-s+1,...,A_i,...,A_L}，其中包含能够在不同粒度信息中进一步定位辨别性局部的空间注意力和建模了特征通道相关性的通道注意力/>上文中L代表主干网络特征提取过程中的阶段数，s代表本发明迭代学习的总迭代步骤数。空间注意力和通道注意力的具体细节如下：

2.3.1空间注意力

如图3所示，我们以特征图F_i作为输入，生成一个空间注意力我们使用2D卷积运算来学习像素之间以及局部感受野之间的关系，使得网络能够更好地学习跨空间的关系。具体来说，每个特征图F_i首先通过全局平局池化沿通道维度平均每个像素点，平均池化公式如下：

然后为了让空间注意力适应具有不同粒度和空间位置关系的特征，我们选择用(1，1)、(3，3)和(5，5)三个不同大小的卷积核来学习AP_i。并获得三个不同的空间描述符

最后的空间注意力权重由/>三个空间描述符求均值并经过sigmoid归一化后得到，/>可以表示为：

2.3.2通道注意力

我们希望通过建模特征通道间的相关性来精炼局部信息，从而提高网络对细粒度特征的学习能力。我们将对应的特征映射通过全局平均池化和全连接层相结合，得到通道注意力可以表示为：

最后用学习到的空间注意力和通道注意力对特征F_i进行加权得到F_i'：

其中代表对应元素相乘，/>表示对应元素相加。

2.4迭代学习方式

我们采用迭代学习方式来增量地学习多粒度特征，旨在寻找多粒度特征间的互补信息，首先训练ResNet50特征提取的低层阶段，然后逐步增加新的迭代步骤训练特征提取的高层阶段。这是因为如果让模型同时学习所有的粒度，那么模型提取出的多粒度局部特征会有相当高的相似性，与直接训练整个网络相比，迭代学习允许模型在图像粒度逐渐增大的过程中将低层阶段的权重系数带到高层阶段，从而学习到多粒度特征间的互补信息。为了实现这一目的，我们采用交叉熵函数来计算真实标签y和预测概率分布之间的损失，并通过反向传播来更新系数。对于第l个迭代学习步骤的预测值y^l，损失函数如下：

2.5可变形卷积模块

为了融合多粒度特征，我们引入可变形卷积，可变形卷积的思想是将原来固定形状的卷积核变成可变的，如图4所示，与标准卷积不同，可变形卷积的位置随位移变化而变化，它能够自适应的调整感受野和采样位置。

可变形卷积对于处理不同形状的特征表示是有利的，我们在网络中引入可变形卷积，目的是让卷积适应特征密集的几何变化，之后融合多粒度的特征，从而提升分类效果。在迭代学习完成后，我们将原始图片输入网络，通过ResNet50和注意力模块得到多粒度特征F_i'，i∈{L-s+1,...,L-1,L}，L代表主干网络特征提取过程中的阶段数，s代表本发明迭代学习的总迭代步骤数。之后我们将多粒度特征F_i'输入可变性卷积模块，该模块通过可变性卷积将多粒度特征F_i'转变为具有同一维度的多粒度特征向量FV_i，i∈{L-s+1,...,L-1,L}，之后将这些向量通过连接操作融合起来，得到融合特征FV_c：

FVc＝concat[FV_L-s+1,...,FV_L-1,FV_L] (19)

然后我们将融合特征FV_c输入一个额外的分类器得到最终预测值y^c。并对y^c施加交叉熵损失来进一步优化网络参数：

3.实验结果及分析

3.1实验设计

本发明所有的实验均在一个拥有2张1080Ti GPU资源的服务器集群上运行，pytorch框架版本为1.4，python版本为3.6。为全面衡量本发明方法的性能，本发明在三个广泛使用的细粒度图像分类领域的数据集上进行了相关实验，如表1所示，这些数据集分别是CUB-200-2011，FGVC-Aircraft和Stanford Cars。

表1数据集信息汇总表

本发明我们用分类准确率Accuracy来评价细粒度图像分类方法的性能，公式如下：

其中N表示测试集图片数量，N_T表示测试集图片中分类正确的图片数量。

3.2实验细节及参数设置

整个实验过程中我们只使用图像的类别标签而不使用任何额外标注。我们使用预训练的ResNet50作为特征提取器，在训练过程中，我们将输入图像大小调整到550×550，并将其随机裁剪成448×448大小，并运用随机水平翻转做数据增强。在测试过程中，输入图像被调整到550×550的大小，后被中心裁剪成448×448大小。我们使用随机梯度下降优化器和批量归一化作为正则化器。同时，我们添加的可变形卷积层和全连接层的学习速率分别被初始化为0.002。我们对它们进行了200个Epoch的训练，批次大小为32，使用的权重衰减为0.0005，动量为0.9。

表2不同迭代步数下的准确率

在迭代学习步数选择上，我们设置迭代步数从1变化到5，如表2所示，当s＜4时，s的增加显著提高了模型的性能。然而，当s＝4时，模型准确率开始下降，当s＝5时，准确率下降更为明显。实验证明，迭代步数为3时效果最佳。

3.3对比实验

我们的方法与其他最先进方法在CUB200-2011、Stanford Cars和FGVC-Aircraft数据集上的比较见表3，其中列出了基础模型和分类准确率。

表3不同方法在三个数据集中分类准确率的对比结果

3.3.1 CUB-200-2011数据集分类结果

我们在CUB-200-2011数据集上进行实验，实验结果都优于其他所有的对比方法。在所有的方法中，MSEC具有较高的准确率，它首先将输入图像划分为若干子区域，通过置信度函数计算这些子区域的置信度得分。然后擦除具有较低置信度分数的子区域，之后用多粒度区域模块分别对被擦除子区域和置信度较高的子区域分别进行划分和混淆，生成具有多粒度信息的图像。最后，骨干网络分别提取上述两份图像中的特征，利用多损失函数优化整个网络，实现分类任务。与它不同的是，我们的网络并没有放弃一些相关度不高的特征，而是挖掘出多粒度特征间的互补信息并对多粒度特征进行了融合，这有利于提高我们分类的准确率。最终我们方法获得了88.6％的分类准确率。

3.3.2 FGVC-Aircraft数据集分类结果

同样的，我们在FGVC-Aircraft数据集上进行了实验并于其他方法进行比较。显然，我们的方法取得了领先的性能，准确率为93.6％。BAM B-CNN用一个基于注意力的双线性卷积神经网络来进行分类，具体来说，它将原始图像、物体图像、局部图像分别输入网络得到特征后将其融合起来用作分类，这和本发明中融合多粒度特征的想法有些许类似，但不同的是本发明用迭代学习的方式来挖掘不用粒度之间的互补信息从而增强分类效果，实验表明在FGVC-Aircraft数据集上我们的分类准确率对比BAM B-CNN提升了4.6％，这印证了我们方法的优越性。

3.3.3 Stanford Cars数据集分类结果

从表2中我们可以看出，我们的方法以Resnet50为基础模型获得了94.8％的准确率，优于其他的方法，Corss-X认为相同语义部分的特征应该比不同语义部分的特征相关性大，尽管这些相同语义特征来自同类别的其他图像或不同类别的图像，所以Corss-X利用来自不同图像和不同网络层的特征之间的关系来学习强大的细粒度特征，并取得了优秀的效果。与它不同的是我们让网络学习同一图像下的多粒度特征及其互补信息，这一差异使得我们的网络在Stanford-Cars数据集上的准确率比Corss-X提升了0.2％。ACNet构建了一个结合注意力的二叉神经树结构，它通过从根节点到叶子节点的计算方式来学习从细到粗粒度的特征，并在每个叶子节点利用特征进行预测，最后将结合所有叶子节点的预测得到最终预测值。与它相比，我们的方法不仅循序渐进的学习了由细到粗的多粒度特征，并且还将他们融合在一起，从而在效果上比ACNet提升了0.2％。尽管相对上述两个方法来说，我们的方法得到的效果提升并不显著，但是考虑到Stanford Cars数据集中的汽车数据相似度极高，取得的微弱优势仍然足以证明我们的方法具有强大的竞争力。

3.4消融实验

我们在CUB-200-2011数据集上进行了一些消融实验，来探究局部错位模块，注意力模块以及可变形卷积在我们方法中的实用性。实验中我们设置迭代学习步数S＝3，实验结果如表4所示，PDM代表局部错位模块，A代表注意力模块，D代表可变形卷积模块。

表4在CUB-200-2011数据集上的消融实验结果表

在只加入局部错位模块的情况下，模型的准确率提高了0.7％，这是因为局部错位模块能够生成不同粒度的输入图像，有助于网络利用不同粒度的特征来弥补只使用相同粒度特征的劣势，实验结果显示，局部错位模块对模型的性能提升有帮助。同时注意力模块也给模型的效果带来了稳定的提升，加入注意力模块的情况比只使用局部错位模块提升了0.9％的模型准确率，这是因为引入的注意力模块可以更好地定位特征中具有辨别性的区域。可形变卷积模块由于将含有互补信息的多粒度特征融合在一起，对模型的贡献极大，可形变卷积的加入给模型带来了1.3％的准确率提升。这有力的印证了可变性卷积模块的有效性。实验表明，上述三个模块都对模型性能做出了贡献，并且由于它们作用的内在联系，三个模块的协同合作的效果远远大于单个模块给模型带来的提升，在加入三个模块的情况下，准确率整整比只是用ResNet50时增长了2.8％，这再一次验证了本发明使用的模块的有效性。

本发明面向细粒度图像分类，提出了一种融合多粒度特征的网络，该网络通过局部错位模块、注意力模块、迭代学习方式、和可变形卷积模块的协同合作，使网络逐步学习粒度从细到粗的特征表示并将提取到不同粒度的特征进行融合，目的是利用不同粒度特征之间的互补信息来提高分类网络的准确率。我们在CUB-200-2011、FGVC-Aircraft和Stanford Cars三个数据集上的进行了一系列的实验，证明了我们方法的优越性。在未来的工作计划中，我们将致力于去除多粒度特征的冗余信息以及解决过拟合现象，来提高细粒度图像分类方法的性能。

Claims

1.一种融合多粒度特征的细粒度图像分类方法，其特征在于，步骤如下：

步骤1、搭建融合多粒度特征的网络模型：

融合多粒度特征的网络模型包括局部错位模块、注意力模块和可变形卷积模块；通过局部错位模块来制造输入数据粒度的差异性；融合多粒度特征的网络模型使用ResNet50作为骨干网络，用F代表ResNet50，F在特征提取的过程中有L个阶段，每个阶段都会生成一份特征图，把第i个阶段生成的输出特征图记为F_i，并用H_i、W_i、C_i分别表示第i阶段输出特征图的高度、宽度和通道数，其中i∈{1,2,...,L}；注意力模块用于让模型定位并提取到不同粒度的局部特征，通过注意力模块找到具有辨别性的多粒度局部，记为F_i′；可变形卷积模块能够根据不同粒度局部的大小自适应的改变卷积核采样点位置，扩大感受野，然后将多个不同粒度的特征融合到一起，得到特征向量FV_c，最后我们将FV_c输入分类器得到最终预测值y_c，分类器由两个全连接层和一个softmax层组成；

步骤2、利用迭代学习的方式来引导融合多粒度特征的网络模型在较浅的特征层中学习稳定的细粒度信息，并随着训练的进行逐步将计算资源转移到较深的特征层中学习粗粒度的抽象信息，具体如下：

(1)用L表示主干网络提取特征过程中的阶段数：用s表示迭代学习中迭代总步骤数，因为网络最多能够提取L个不同粒度的特征，所以s∈[1,L]；用i代表具体某一次迭代步骤，其中i∈[1,s]；

(2)在第i次迭代时，首先使用局部错位模块将输入图像p转化为新的图像B(p,n)，具体来说，模块将输入图像p分割成n×n个局部，其中n＝2^L-s+i，之后将这些局部的位置矩阵打乱并根据新的位置矩阵生成新的图像B(p,n)；图像B(p,n)与输入图像p共享相同的标签y；

(3)主干网络从新图像B(p,n)中提取第L-s+i个阶段的特征F_L-s+i；

(4)注意力模块对F_L-s+i进行进一步处理：在空间域上，先对特征作全局平均池化得到池化图AP_i，之后分别用三个不同卷积核大小的卷积操作对AP_i进行变化得到然后对/>对应位置相加求均值，并用Sigmoid函数对均值做归一化，得到空间注意力权重/>

(6)注意力模块将学习到的空间注意力权重和通道注意力权重/>对特征进行加权，具体操作是先分别将空间注意力权重和通道注意力权重与输入特征F_L-s+i相乘，之后再对两个结果进行对应位置相加，得到最终结果F′_L-s+i；

(7)将特征F′_L-s+i输入分类器，分类器由由两个带有BatchNorm的全连接层和一个softmax层组成；

(8)分类过后得到预测值y_L-s+i，用交叉熵函数计算其与真实标签的损失，并通过反向传播更新网络权重，之后开启下一次迭代；

(9)第i+1次迭代重复步骤(2)至(8)，并以此类推

步骤3、在迭代学习结束后，将原始图像输入网络，由主干网络提取到特征{F_L-s+1,...,F_L-1,F_L}，用注意力模块提取具有辨别性的局部特征{F′_L-s+1,...,F′_L-1,F′_L}，之后用可变形卷积分别对局部特征进行操作得到特征向量{FV′_L-s+1,...,FV′_L-1,FV′_L}；

步骤4、用向量连接操作将特征向量{FV′_L-s+1,...,FV′_L-1,FV′_L}连接到一起得到融合特征FV_c，最后用分类器对融合了多粒度信息的特征向量FV_c做预测，得到最终预测结果y_c，对y_c施加交叉熵损失来进一步优化网络。

2.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，融合多粒度特征的网络模型的各个模块的结构组成：局部错位模块：由图像划分、打乱图像位置矩阵、图像重组三个操作组成；注意力模块：注意力模块包括空间注意力和通道注意力，其中空间注意力由全局平均池化层、三个带有不同卷积核大小的卷积层、对卷积输出求均值的均值计算层、Sigmoid激活函数层组成；通道注意力由全局最大池化层、全连接层、Relu激活函数层、全连接层、Sigmoid激活函数层组成；可变形卷积模块：由一个增加卷积核偏移量的卷积层和一个向量连接层组成。

3.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤(4)中，平均池化公式如下：

4.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤(4)中，选择用(1，1)、(3，3)和(5，5)三个不同大小的卷积核来学习AP_i；并获得三个不同的空间描述符

5.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤(4)中，可以表示为：

其中σ为sigmoid函数，Mean为对应位置相加求均值；从而我们可以获得空间注意力

6.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤(5)中，可以表示为：

7.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤(6)中，F′_L-s+i计算过程为：

其中代表对应元素相乘，/>表示对应元素相加。

8.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤(6)中，融合特征FV_c计算公式如下：

FVc＝concat[FV_L-s+1,...,FV_L-1,FV_L] (9)。

9.根据权利要求1所述的一种融合多粒度特征的细粒度图像分类方法，其特征在于，所述步骤4中，其中L代表主干网络特征提取过程中的阶段数，s代表本发明迭代学习的总迭代步骤数，concat代表向量连接操作。