CN113239981A

CN113239981A - 局部特征耦合全局表征的图像分类方法

Info

Publication number: CN113239981A
Application number: CN202110444230.7A
Authority: CN
Inventors: 叶齐祥; 彭智亮; 王耀威; 韩振军; 焦建彬
Original assignee: University of Chinese Academy of Sciences
Current assignee: University of Chinese Academy of Sciences
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-08-10
Anticipated expiration: 2041-04-23
Also published as: CN113239981B

Abstract

本发明公开了一种局部特征耦合全局表征的图像分类方法，所述方法包括训练部分和测试部分，其中，训练部分包括以下步骤：步骤1，建立网络模型；步骤2，提取训练集图片特征；步骤3，获得训练集图片特征图；步骤4，对网络参数进行优化调整。本发明提供的局部特征耦合全局表征的图像分类方法，显著增强了局部特征的全局感知能力和全局表征的局部细节；在相似的参数量和计算代价的情况下，能够一致地超过传统的CNN网络以及视觉Transformer网络的性能，对于图像识别具有重要应用价值。

Description

局部特征耦合全局表征的图像分类方法

技术领域

本发明属于图像分类技术领域，具体涉及网络结构设计、图像分类、目标检测以及实例分割，尤其涉及局部特征耦合全局表征的图像分类方法。

背景技术

卷积神经网络(CNN)有效地促进了计算机视觉任务的发展，例如图像分类、目标检测和实例分割，这在很大程度上归功于卷积计算，该运算以分层方式收集局部特征作为强大的图像表示形式。尽管在局部特征提取方面具有优势，CNN却难以捕获全局表示，例如视觉元素之间的远距离关系，而这对于高级计算机视觉任务而言通常至关重要。直观的解决方案是扩大感受野，但是这可能需要更密集但具有破坏性的池化操作。

最近，ViT(Vision Transformer)将转换器(Transformer)引入了视觉任务，它将每个图像分割成具有位置嵌入的小块来构造图片嵌入序列，并应用级联的Transformer层来提取参数化的矢量作为视觉表示。由于具有自注意力(self-attention)机制和多层感知器(MLP)结构，转换器可以反映复杂的空间变换和远距离特征相关性，从而构成全局表示。但是，转换器忽略了局部特征细节，这便降低了背景和前景之间的可辨别性。

目前常用的图像分类方法，其基网的表征学习能力不佳，对视觉任务的分割效果较差，因此，亟需提供一种能够同时考虑全局表征和局部特征的图像分类方法，以解决上述问题。

发明内容

为了克服上述问题，本发明人进行了锐意研究，设计出一种局部特征耦合全局表征的图像分类方法，该方法建立了一种同时保留卷积神经网络和转换器分支的网络模型，且两个分支通过特征耦合单元进行特征的交互，实现了局部特征和全局表征的耦合，增强了网络模型的表征学习能力。本发明提供的局部特征耦合全局表征的图像分类方法，在相似的参数量和计算代价的情况下，能够一致地超过传统的CNN网络以及视觉Transformer网络，且在目标检测和实例分割等视觉任务中也能得到一致的提升，从而完成了本发明。

具体来说，本发明的目的在于提供以下方面：

第一方面，提供了一种局部特征耦合全局表征的图像分类方法，所述方法包括训练部分和测试部分，其中，

所述训练部分包括以下步骤：

步骤1，建立网络模型；

步骤2，提取训练集图片特征；

步骤3，获得训练集图片特征图；

步骤4，对网络参数进行优化调整。

第二方面，提供了一种局部特征耦合全局表征的图像分类系统，优选用于实施第一方面所述的图像分类方法，所述系统包括卷积神经网络单元、视觉转换器单元和特征耦合单元，其中，

所述卷积神经网络单元用于获得图像的局部特征，

所述视觉转换器单元用于获得图像的全局表征；

所述特征耦合单元，用于以交互的方式融合基于卷积的局部特征和基于自注意力的全局表征。

第三方面，提供了一种计算机可读存储介质，存储有局部特征耦合全局表征的图像分类训练程序，所述程序被处理器执行时，使得处理器执行第一方面所述的所述局部特征耦合全局表征的图像分类方法的步骤。

第四方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有局部特征耦合全局表征的图像分类训练程序，所述程序被处理器执行时，使得处理器执行第一方面所述局部特征耦合全局表征的图像分类方法的步骤。

本发明所具有的有益效果包括：

(1)本发明提供的局部特征耦合全局表征的图像分类方法，建立了一种同时具有卷积操作和自注意力机制的网络，即构建了一个对偶的网络结构，能够最大程度地保留局部特征和全局表征；

(2)本发明提供的局部特征耦合全局表征的图像分类方法，采用特征耦合单元，能够以交互的方式融合基于卷积的局部特征和基于自注意力的全局表征，极大地增强了局部特征的全局感知能力和全局表征的局部细节；

(3)本发明提供的局部特征耦合全局表征的图像分类方法，在相似的参数量和计算代价的情况下，能够一致地超过传统的CNN网络以及视觉Transformer网络性能，且在目标检测和实例分割等视觉任务中也能得到一致的提升。

附图说明

图1示出根据本发明一种优选实施方式的局部特征耦合全局表征的图像分类方法的训练阶段流程图；图2示出本发明实施例中不同方法的特征响应对比图；图3示出本发明实施例中网络的不同子结构图，其中的(a)、(b)、(c)、(d)、(e)分别表示实施例所述网络的抽象结构、实施例所述网络的CNN子结构、实施例所述网络的Transformer模块嵌入CNN网路的子结构、实施例所述网络的Transformer子结构、实施例所述网络的卷积模块嵌入Transformer网络子结构；图4示出本发明实施例中不同方法的网络类别激活图与注意力图；图5示出本发明实施例中不同方法的网络泛化性能对比图；图6示出本发明实施例中不同方法的网络推理时间及性能对比图；图7示出本发明实施例中不同方法的特征总响应对比图；图8示出本发明实施例中不同方法的目标检测样例对比图；图9示出本发明实施例中不同方法的实例分割样例对比图。

具体实施方式

下面通过优选实施方式和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

基于现有技术中卷积神经网络(CNN)和转换器(Transformer)的优缺点，本发明人研究发现，将二者结合起来可以取长补短，即让卷积神经网络拥有全局感知能力的同时，让转换器保留更多的局部细节，使得网络具有更强的特征表达能力，提高视觉任务的分割效果。

因此，本发明的第一方面，提供了一种局部特征耦合全局表征的图像分类方法，所述方法包括训练部分和测试部分，其中，如图1所示，所述训练部分包括以下步骤：

步骤1，建立网络模型；

步骤2，提取训练集图片特征；

步骤3，获得训练集图片特征图；

步骤4，对网络参数进行优化调整。

其中，所述图像分类包括但不限于图像分类、目标检测以及实例分割。

以下进一步详细描述所述训练部分的步骤：

步骤1，建立网络模型。

根据本发明一种优选的实施方式，如图1中的(b)所示，所述建立的网络模型包括卷积神经网络(Convolutional neural network，简称CNN)分支和视觉转换器(VisualTransformer，简称Transformer)分支，

其中，所述卷积神经网络分支和视觉转换器分支通过特征耦合单元(FCU)消除彼此获得的特征之间的语义差异。

在本发明中，所述特征耦合单元作为桥接结构，以交互的方式连续地消除两个分支捕获的特征之间的语义差异。

步骤2，提取训练集图片的特征。

在本发明中，在给定训练集的图片及其标签后，对建立的网络模型进行训练。

根据本发明一种优选的实施方式，所述提取的训练集图片的特征为初始的低级特征，包括边缘和纹理信息。

优选地，如图1中的(c)所示，所述网络模型包括启动模块(stem)，其用于提取训练集图片的特征，所述启动模块包括一个卷积层、一个批归一化(BatchNorm)层、一个非线性激活(ReLU)层和一个最大池化层。

更优选地，所述卷积层的大小为7×7，输入通道为3，输出通道为64，步长为2，填充为3；

所述最大池化层的大小为3×3，步长为2，填充为1。

在本发明中，维度为224×224×3的图像经过启动模块后会得到56×56×64的特征图。

步骤3，获得训练集图片的特征图。

其中，步骤3包括以下子步骤：

步骤3-1，卷积神经网络分支获得初始特征图。

在本发明中，如图1中的(c)所示，根据启动模块获得的特征，卷积神经网络分支的第一个卷积块进行卷积处理，获得初始特征图。

其中，所述卷积神经网络分支具有多个卷积块(层)，优选具有12个卷积块。

根据本发明一种优选的实施方式，所述初始特征图由卷积神经网络分支的第一个卷积块的瓶颈模块(Bottleneck)进行卷积处理得到。

在进一步优选的实施方式中，如图1中的(b)所示，所述瓶颈模块包括三个卷积单元和一个残差单元，其中，

第一个卷积单元包括一个大小为1×1，步长为1，填充为0的卷积层，一个BatchNorm层和一个ReLU层；

第二个卷积单元包括一个大小为3×3，步长为1或者2，填充为1的卷积层，一个BatchNorm层和一个ReLU层；

第三个卷积单元包括一个大小为1×1，步长为1，填充为0的卷积层，一个BatchNorm层和一个ReLU层。

在本发明中，卷积神经网络中的瓶颈模块的作用是为了降低计算消耗。

在更进一步优选的实施方式中，每个卷积块具有多个瓶颈模块，优选具有2个瓶颈模块。

优选地，在第一个瓶颈模块中，第一个卷积单元和第二个卷积单元的输入通道为64，输出通道为64，第三个卷积单元的输入通道为64，输出通道为256。因此，经过第一个卷积块(层)后，获得的初始特征图的尺度为56×56×256。

步骤3-2，视觉转换器分支获得第一层的全局表征。

其中，步骤3-2包括以下子步骤：

步骤3-2-1，视觉转换器分支对步骤2中的特征图进行切分，并进行编码得到块嵌入。

根据本发明一种优选的实施方式，所述视觉转换器分支通过线性编码层将特征图切分成14×14个块，并进行编码得到块嵌入。

在进一步优选的实施方式中，所述线性编码层为一个大小为4×4，输入通道为64，输出通道为384，步长为4，填充为0的卷积层。

步骤3-2-2，通过第一个视觉转换器层得到第一层的全局表征。

在本发明中，所述视觉转换器分支的层数与卷积神经网络分支的层数相同。

优选地，如图1中的(b)所示，每个视觉转换器层包括两个单元，其中，

第一个单元包括一个归一化(LayerNorm)层、一个多头自注意力(Multi-headSelf-Attention)层以及一个残差单元，其中，多头自注意力层内含三个全连接层，

第二个单元包括一个归一化(LayerNorm)层、两个全连接层、一个非线性激活(GELU)层以及一个残差单元。

在本发明中，第一个单元中的多头自注意力层与卷积层的工作机制完全不同，具体地，所述多头自注意力层利用三个全连接层将同一嵌入映射到三个不同的向量空间，分别为查询向量Q、键向量K以及值向量V，然后通过下式获得当前位置与所有其他位置的加权和:

其中，T表示向量转置运算，d_k表示向量Q、K、V的通道维度。

在本发明中，任何位置的输出都可以看作是当前位置与所有其他位置的加权和，而权重则是和向量的内积决定的，即相似度。因此，不同于卷积的局部特性，注意力机制无视两个输入向量的空间距离长短，可以认为是全局的算子。

根据本发明一种优选的实施方式，所述步骤3-2-1得到的块嵌入与用于分类的嵌入，共同通过第一个转换器层获得第一层的全局表征，所述全局表征的表现形式为块嵌入。

根据本发明的实施例，视觉转换器分支先利用一个大小为4×4，输入通道为64，输出通道为384，步长为4，填充为0的卷积层把该特征图切分并编码成14×14个块(196个特征向量)，然后加上一个用于分类的嵌入(用于图像分类的特征矢量)，组成的197个特征向量一起通过第一个转换器层得到第一层的全局表征。

步骤3-3，卷积神经网络分支和视觉转换器分支之间进行特征耦合。

在本发明中，如图1中的(b)和(c)所示，卷积神经网络分支的第一层和视觉转换器分支的第一层不进行交互，从两个分支的第二层开始直至最后一层，通过特征耦合单元(FCU)作为桥接结构，以交互的方式连续地消除两个分支捕获的特征之间的语义差异，从而增强局部特征的全局感知能力和全局表征的局部细节。

优选地，所述步骤3-3包括以下子步骤：

步骤3-3-1，卷积神经网络分支利用初始特征图得到中间特征图。

根据本发明一种优选的实施方式，如图1中的(b)所示，所述卷积神经网络分支的第二个卷积块(层)的第一个瓶颈模块利用初始特征图得到中间特征图。

其中，经过3×3卷积之后的特征图编码了一定的相对位置信息，被传递给特征耦合单元(即：特征图经过第二个卷积块的第一个瓶颈模块的第二个卷积单元(3×3Conv-BN)后就被传递给特征耦合单元，获得中间特征图)，而经过了整个瓶颈模块的特征图则被传递给卷积神经网络分支第二个卷积块(层)的第二个瓶颈模块。

步骤3-3-2，中间特征图转换为块嵌入。

根据本发明一种优选的实施方式，所述中间特征图通过特征耦合单元转换为块嵌入，如图1中的(a)所示，

优选包括以下步骤：

(i)对齐中间特征图的通道维度；

(ii)对齐中间特征图的空间维度；

(iii)将经过上述处理的中间特征图转换为块嵌入。

优选地，步骤(i)中，所述特征耦合单元通过一个大小为1×1，输入通道为64，输出通道为384，步长为1，填充为0的卷积层对齐中间特征图的通道维度。

步骤(ii)中，特征耦合单元通过平均池化对齐中间特征图的空间维度。

步骤(iii)中，通过变形层(即reshape，改变维度的排列顺序)将中间特征图转换为块嵌入。

步骤3-3-3，视觉转换器分支对块嵌入进行处理。

根据本发明一种优选的实施方式，如图1中的(b)所示，视觉转换器分支将中间特征图转换为的块嵌入与步骤3-2中第一个视觉转换器层获得的块嵌入合并相加，实现全局表征和局部特征的融合。

在本发明中，中间特征图转换的块嵌入体现的是局部特征，步骤3-2中视觉转换器分支获得的块嵌入体现的是全局表征，将二者合并，能够实现全局表征和局部特征的融合。

在进一步优选的实施方式中，将中间特征图转换为的块嵌入与步骤3-2中第一个视觉转换器层获得的块嵌入合并相加后，通过第二个视觉转换器层，获得处理后的块嵌入。

步骤3-3-4，将处理后的块嵌入转换为特征图。

根据本发明一种优选的实施方式，所述处理后的块嵌入通过特征耦合单元转换为特征图，如图1中的(a)所示，优选所述转换包括以下步骤：

(1)将块嵌入进行变形，形成特征图；

(2)对齐特征图的通道维度；

(3)对齐特征图的空间维度。

其中，步骤(1)中，通过变形层将块嵌入进行变形，形成特征图，所述变形层与步骤(iii)中的变形层相同。

步骤(2)中，通过一个大小为1×1，输入通道为384，输出通道为64，步长为1，填充为0的卷积层对齐通道维度。

步骤(3)中，通过最近邻插值对齐空间维度。

步骤3-3-5，卷积神经网络分支将步骤3-3-4获得的特征图进行处理，获得优化特征图。

根据本发明一种优选的实施方式，如图1中的(b)所示，卷积神经网络分支将步骤3-3-4获得的特征图与步骤3-3-1中经过整个瓶颈模块获得的特征图合并相加，实现局部特征和全局表征的耦合。

在本发明中，步骤3-3-4中获得的特征图体现的是全局表征，步骤3-3-1中卷积神经网络分支第二个卷积块第一个瓶颈模块获得的特征图体现的是局部特征，将二者合并，能够实现局部特征和全局表征的耦合。

在进一步优选的实施方式中，将步骤3-3-1中经过整个第一个瓶颈模块获得的特征图先通过第二个瓶颈模块的第一卷积单元(即1×1Conv-BN)，再与步骤3-3-4获得的特征图合并相加后，通过第二个瓶颈模块的其余卷积单元(即：剩余的3×3Conv-BN和1×1Conv-BN)，得到最终优化后的特征图。

根据本发明一种优选的实施方式，在步骤3-3-5之后，还包括步骤3-3-6，依次循环步骤3-3-1～步骤3-3-5，直至卷积神经网络分支和视觉转换器分支的最后一层结束。

在本发明中，优选所述卷积神经网络分支和视觉转换器分支均具有12层，其中，在第4、9、12层的最后一个瓶颈模块中，其第二个卷积单元的3×3卷积层的步长设置为2。

在上述设置情况下，特征图的分辨率会下降，同时后面的第三个卷积单元的1×1卷积层通道数会翻倍，因此卷积神经网络分支会保留金字塔结构的设计形式。

在本发明中，考虑到CNN与Transformer的特征失配问题，在网络模型中设置特征耦合单元(FCU)作为桥接结构。一方面，为了融合两种不同表现形式的特征，FCU利用1×1的卷积来对齐通道维度，使用下/上采样策略来对齐特征空间分辨率，LayerNorm和BatchNorm以对齐特征归一化值。另一方面，由于CNN和Transformer分支倾向于捕获不同级别的特征(例如，本地与全局)，因此将FCU插入到每个块中，以交互的方式连续地消除两者之间的语义差异。这样的融合过程可以极大地增强局部特征的全局感知能力和全局表征的局部细节。

步骤4，对网络参数进行优化调整。

其中，步骤4包括以下子步骤：

步骤4-1，获得卷积神经网络分支和视觉转换器分支的交叉熵损失。

在本发明中，优选地，对于卷积神经网络分支，最终优化后的特征图，经过一个全局池化层后再经过一个全连接层后获得预测结果，而后获得交叉熵损失；对于视觉转换器分支，只提供分类嵌入，并直接通过另一个全连接层得到预测结果，而后获得交叉熵损失。

在本发明中，所述交叉熵损失用于监督卷积神经网络分支的局部特征和视觉转换器分支的全部表征的耦合。

步骤4-2，根据两个分支的交叉熵损失，获得损失函数的梯度，对网络参数进行优化。

其中，优选将卷积神经网络分支的交叉熵损失和视觉转换器分支的交叉熵损失相加，计算损失函数的梯度，并对网络进行误差梯度反传，更新网络参数。

优选地，获得损失函数的梯度后，利用AdamW优化器调整网络参数。

通过上述训练，获得训练收敛的网络模型。

在本发明中，将上述获得的网络模型直接应用于测试集，进行图像分类。

本发明提供的局部特征耦合全局表征的图像分类方法，设置的网络模型保留卷积神经网络和转换器两个分支，以最大程度保留两个分支的特征表达能力，同时两个分支通过特征耦合单元在网络每一层进行特征的交互，以实现局部特征和全局表征耦合，从而达到增强该网络的表征学习能力的目的，对计算机视觉任务具有重要意义以及实际的应用价值。

根据本发明的实施例，在相似的参数量和计算代价的情况下，本发明所提供的局部特征耦合全局表征的图像分类方法，能够一致地超过传统的CNN网络以及视觉Transformer网络，且在目标检测和实例分割等视觉任务中也能得到一致的提升。

本发明的第二方面，提供了一种局部特征耦合全局表征的图像分类系统，优选用于实施第一方面所述的图像分类方法，所述系统包括卷积神经网络单元、视觉转换器单元和特征耦合单元，

其中，所述卷积神经网络单元用于获得图像的局部特征，

所述视觉转换器单元用于获得图像的全局表征；

在本发明中，所述系统的特征运算主要是局部的卷积算子和全局的自注意力机制。

本发明的第三方面，提供了一种计算机可读存储介质，存储有局部特征耦合全局表征的图像分类训练程序，所述程序被处理器执行时，使得处理器执行所述局部特征耦合全局表征的图像分类方法的步骤。

本发明中所述的局部特征耦合全局表征的图像分类方法可借助软件加必需的通用硬件平台的方式来实现，所述软件存储在计算机可读存储介质(包括ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机、计算机、服务器、网络设备等)执行本发明所述方法。

本发明的第四方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有局部特征耦合全局表征的图像分类训练程序，所述程序被处理器执行时，使得处理器执行所述局部特征耦合全局表征的图像分类方法的步骤。

实施例

以下通过具体实例进一步描述本发明，不过这些实例仅仅是范例性的，并不对本发明的保护范围构成任何限制。

实施例1

1、数据集

本实施例在ImageNet-1k数据集和MSCOCO2017数据集上进行评估。

其中，ImageNet-1k是标准的用于图像分类的数据集，该数据集主要由1300000张图片的训练集和50000张图片构成，其中类别数量为1000。

MSCOCO2017数据集是被广泛使用的用于目标检测和实例分割的数据集，其中训练集有118000张图片，测试集有5000张图片，共80个类别。

2、性能评测准则

对于图片分类任务，采用Top-1Accuracy指标来进行性能评估，该指标为所有正确的预测数量占总数量的百分比。

对于目标检测任务和实例分割任务，均采用mAP(mean Average Precision)度量标准(由IoU＝0.5:0.05:0.95的平均AP加权)，同时还报告了小物体、中等大小的物体以及大物体各自对应的AP。

其中，mAP参照文献“Tsung-Yi Lin,Michael Maire,Serge J.Belongie,JamesHays,Pietro Perona,Deva Ramanan,Piotr Doll′ar,and C.LawrenceZitnick.Microsoft COCO:common objects in context.In ECCV,pages 740–755,2014.”中所述。

3、任务描述

具体地，训练部分的步骤如下；

(1)建立的网络模型(Conformer)包括卷积神经网络分支(CNN)和视觉转换器分支(Transformer)，

Conformer先利用启动模块提取输入图片的初级特征，启动模块具体由一个大小为7×7，输入通道为3，输出通道为64，步长为2，填充为3的卷积层，一个批归一化(BatchNorm)层，一个非线性激活(ReLU)层以及一个大小为3×3，步长为2，填充为1的最大池化层组成；

其中，维度为224×224×3的图像经过启动模块后会得到56×56×64的特征图。

(2)利用步骤(1)提供的特征，CNN分支的第一个卷积块的瓶颈模块进行卷积处理得到特征图，

其中，一个瓶颈模块包括三个卷积单元和一个残差单元，第一个卷积单元包括一个大小为1×1，步长为1，填充为0的卷积层，一个BatchNorm层和一个ReLU层；第二个卷积单元包括一个大小为3×3，步长为1或者2，填充为1的卷积层，一个BatchNorm层和一个ReLU层；第三个卷积单元包括一个大小为1×1，步长为1，填充为0的卷积层，一个BatchNorm层和一个ReLU层；

在第一个瓶颈模块中，第一个卷积单元和第二个卷积单元的输入通道为64，输出通道为64，第三个卷积单元的输入通道为64，输出通道为256，因此经过第一层后，特征图的尺度变为56×56×256。

(3)利用步骤(1)提供的特征图，Transformer分支先利用一个大小为4×4，输入通道为64，输出通道为384，步长为4，填充为0的卷积层把该特征图切分并编码成196个特征向量，且加上一个用于分类的特征矢量，随后这197个特征向量一起通过第一个转换器层得到第一层的全局表征，表现形式为块嵌入；

每个视觉转换器层包括两个单元，其中，

第一个单元中的多头自注意力层利用三个全连接层将同一嵌入映射到三个不同的向量空间，分别为查询向量Q、键向量K以及值向量V，然后通过下式获得当前位置与所有其他位置的加权和：

其中，T表示向量转置运算，d_k表示向量Q、K、V的通道维度。

(4)利用步骤(2)提供的特征图，CNN分支的第二层的第一个瓶颈模块进行处理得到中间的特征图。

(5)利用步骤(4)的中间特征图，特征耦合模块先通过一个大小为1×1，输入通道为64，输出通道为384，步长为1，填充为0的卷积层对齐通道维度，再通过平均池化对齐空间维度，最后通过变形层将其转换为块嵌入。

(6)利用步骤(5)提供的由CNN分支转换而来的块嵌入，Transformer分支将其与步骤(3)提供的块嵌入相加后，实现全局表征和局部特征的融合后，通过第二个Transformer层，得到处理后的块嵌入。

(7)利用步骤(6)提供的块嵌入，特征耦合模块将块嵌入转换为特征图是通过变形层先进行变形，形成特征图，再通过一个大小为1×1，输入通道为384，输出通道为64，步长为1，填充为0的卷积层对齐通道维度，最后通过最近邻插值对齐空间维度。

(8)CNN分支第二个瓶颈模块先进行1×1的卷积，而后将步骤(7)提供的特征图与其相加，实现局部特征和全局表征的耦合，然后通过第二个瓶颈模块的其余卷积层，得到最后的特征图。

(9)依次循环步骤(4)、(5)、(6)、(7)、(8)，直到最后一层结束，其中在第4、9、12层的最后一个瓶颈模块层的中间的3×3卷积层的步长设置为2。

(10)对于CNN分支，最后的特征图经过一个全局池化层后经过一个全连接层后得到预测结果，而后计算交叉熵损失。

(11)对于Transformer分支，只提供分类嵌入，并直接通过另一个全连接层得到预测结果，而后计算交叉熵损失。

(12)两个交叉熵损失相加，计算梯度后利用AdamW优化器调整网络参数。

测试部分：将训练得到的模型(简称Conformer模型，其中，Conformer-Ti\S\B是不同大小的模型，类比于ResNet-50/101/152)直接应用到测试集。

在本实施例中，对于图像分类任务，利用已经训练好的Conformer模型直接对输入图像进行预测，将其结果与正确结果进行比较得到Accuracy即可。

对于目标检测和实例分割任务，分别利用现有的FPN、MaskR-CNN算法，直接将ResNet基网换成本实施例所提出的Conformer，对推理得到的结果与实际结果计算mAP即可。

其中，FPN所述方法具体如文献“Lin,T.Y.,Dollár,P.,Girshick,R.,He,K.,Hariharan,B.,&Belongie,S.(2017).:Feature pyramid networks for objectdetection.In IEEE CVPR.(2017).”中所述；

MaskR-CNN所述方法具体如文献“He,K.,Gkioxari,G.,Dollár,P.,&Girshick,R.(2017).:Mask r-cnn.In IEEE ICCV.(2017).”中所述。

4、结果与分析

本实施例分别使用resnet50和VGG16作为基网，在ImageNet和MSCOCO2017数据集上进行学习与评测，结果如表1～4所示。

表1ImageNet验证集准确率比较

其中，ResNet如文献“He,K.,Zhang,X.,Ren,S.,&Sun,J.:Deep residuallearning for image recognition.In IEEE CVPR.(2016).”中所述；

RegNetY如文献“Radosavovic,I.,Kosaraju,R.P.,Girshick,R.,He,K.,&Dollár,P.:Designing network design spaces.In IEEE CVPR.(2020).”中所述；

ViT如文献“Dosovitskiy,A.,Beyer,L.,Kolesnikov,A.,Weissenborn,D.,Zhai,X.,Unterthiner,T.,…&Houlsby,N.(2020).:An image is worth 16x16 words:Transformers for image recognition at scale.In ICLR.(2021)”中所述；

T2T-ViT如文献“Yuan,L.,Chen,Y.,Wang,T.,Yu,W.,Shi,Y.,Tay,F.E.,...&Yan,S.:Tokens-to-token vit:Training vision transformers from scratch onimagenet.In arXiv preprint arXiv:2101.11986.(2021)”中所述；

DeiT如文献“Touvron,H.,Cord,M.,Douze,M.,Massa,F.,Sablayrolles,A.,&Jégou,H.(2020).:Training data-efficient image transformers&distillation throughattention.In arXivpreprint arXiv:2012.12877.(2021)”中所述。

Conformer-Ti、Conformer-S、Conformer-B分别表示Conformer不同大小的网络，参数量分别为23.5M、37.7M和83.3M。

由表1可知，相对于卷积神经网络，Conformer能够在更少的参数量、相似的浮点计算量的前提下大幅地超过ResNet系列基网。例如，Conformer-S参数量为37.7M，浮点计算量是10.6B，准确率是83.4％；ResNet-152参数量为60.2M，浮点计算量是11.6B，准确率是78.3％，低于Conformer-S 5.1％的准确率；RegNetY-12.0GF参数量为51.8M，浮点计算量是12.1B，准确率是80.3％，低于Conformer-S3.1％的准确率。

相对于Transformer网络，Conformer也能够一致的超过ViT系列基网。例如，在相同的数据增强的训练条件前提下，T2T-ViT-19参数量为39.0M，浮点计算量是8.4B，准确率是81.4％，而此时Conformer-S在略小的参数量、略大的浮点计算量的条件上能够超过2％的准确率；DeiT-B参数量为86.6M，浮点计算量是17.6B，准确率是81.8％，而此时Conformer-S在一般的参数量、约一半的浮点计算量的条件上能够超过1.6％的准确率。

进一步地，通过图2～6比较分析了本实施例所述方法与现有技术的方法的性能。

其中，图2示出了本实施例所述方法与基网为“ResNet-101”和“DeiT-S”的方法的特征响应对比图，由图可知，CNN倾向于激活局部区域(如图2(a)中的孔雀头部和(e)中的孔雀尾巴)，当耦合了全局表征之后，Conformer的CNN分支能够激活更完整的目标区域((b)和(f))；同时，Transformer会很严重的丢失细节信息(如图(c)和(g))，但是耦合了局部特征之后，Conformer的Transformer分支能够保留细节信息(如图2(c)和(g)中完整的轮廓)。

图3示出了本发明实施例中所述方法的子结构示意图，其中的(a)、(b)、(c)、(d)、(e)分别表示Conformer的抽象结构、Conformer的CNN子结构、Conformer的Transformer模块嵌入CNN网络的子结构、Conformer的Transformer子结构、Conformer的卷积模块嵌入Transformer网络子结构，由图3可知，由于残差单元的存在，Conformer可以退化成各种子结构，这大大丰富了网络的表达能力。

图4示出了本实施例中所述方法与基网为“ResNet-101”和“DeiT-S”的方法的网络类别激活图与注意力图对比，由图可知，CNN倾向于激活局部的重点区域而Conformer的CNN分支倾向于激活全局的整体区域，同时Transformer由于细节信息的丢失导致注意力图很分散，而Conformer的Transformer分支由于局部特征的补充导致注意力图更加完整和集中。

图5示出了本实施例所述方法与现有技术方法的网络泛化性能对比图，其中，图5中的(a)表示旋转不变性的性能对比，(b)表示尺度不变性的性能对比，由图5可知，当训练和测试条件一致时，相比于其他方法，Conformer在测试图像发生旋转和缩放时均能维持更高的性能，且下降百分比更少，展现出了更高的鲁棒性以及更好的泛化性能。

图6示出了本实施例所述方法与现有的基网为DeiT系列、ResNet系列、RegNetY系列、EfficientNet(EfficientNet系列，搜索得到的网络)的方法的网络推理时间及性能对比图，由图6可知，当推理时间一致时，本发明的Conformer网络仍能够超过现有的Transformer网络以及CNN网络，甚至是搜索得到的EfficientNet。

图7示出了本实施例所述方法(Conformer-S、Conformer-B)与现有的基网为ResNet-50、ResNet-101、DeiT-S、DeiT-B的方法的特征总响应对比图，由图7可知，耦合了局部特征和全局表征之后的Conformer的特征图会保留更加完整的目标区域，同时也会更好地抑制背景噪声。

表2MSCOCO测试集目标检测包围框性能比较

其中，Conformer-S/32表示(将81行中大小为4×4的卷积替换成8×8，含义为每一个块嵌入都代表原图的32个像素)；

Conformer-S/16表示(每一个块嵌入都代表原图的16个像素，是标准的Conformer-S)。

由表2可知，在使用目标检测FPN算法进行目标检测任务的情况下，Conformer-S/32参数量为55.4M，浮点计算量是288.4G，mAP为43.1％，而当基网为ResNet-101时，参数量为60.5M，浮点计算量是295.7G，mAP为39.4％，即Conformer-S/32能够在略小的参数量和浮点计算量情况下超过ResNet-101 3.7％mAP。

表3MSCOCO测试集实例分割包围框性能比较

由表3可知，在使用实例分割Mask R-CNN算法进行目标检测任务的情况下，Conformer-S/32参数量为58.1M，浮点计算量是341.4G，mAP为43.6％，而当基网为ResNet-101时，参数量为63.2M，浮点计算量是348.8G，mAP为40.0％，即Conformer-S/32能够在略小的参数量和浮点计算量情况下超过ResNet-1013.6％mAP。

表4MSCOCO测试集实例分割掩码性能比较

由表4可知，在使用实例分割Mask R-CNN算法进行实例分割任务的情况下，Conformer-S/32参数量为58.1M，浮点计算量是341.4G，mAP为39.7％，而当基网为ResNet-101时，参数量为63.2M，浮点计算量是348.8G，mAP为36.1％，即Conformer-S/32能够在略小的参数量和浮点计算量情况下超过ResNet-1013.6％mAP。

进一步地，图8示出了本实施例所述方法(Conformer-S/32)与基网为ResNet-101的方法进行目标检测的样例对比图，由图8可知，由于全局表征的存在，相比于ResNet-101，Conformer能够检测更加细长的物体，以及更擅长检测出被遮挡的物体。

图9示出了本实施例所述方法(Conformer-S/32)与基网为ResNet-101的方法进行实例分割的样例对比图，由图9可知，由于全局表征的存在，相比于ResNet-101，Conformer能够检测以及分割出更加细长的物体，以及被遮挡的物体，因为全局关系的存在有利于克服遮挡。

以上结合具体实施方式和范例性实例对本发明进行了详细说明，不过这些说明并不能理解为对本发明的限制。本领域技术人员理解，在不偏离本发明精神和范围的情况下，可以对本发明技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本发明的范围内。

Claims

1.一种局部特征耦合全局表征的图像分类方法，其特征在于，所述方法包括训练部分和测试部分，其中，

所述训练部分包括以下步骤：

步骤1，建立网络模型；

步骤2，提取训练集图片特征；

步骤3，获得训练集图片特征图；

步骤4，对网络参数进行优化调整。

2.根据权利要求1所述的方法，其特征在于，步骤1中，所述建立的网络模型包括卷积神经网络分支和视觉转换器分支，

所述卷积神经网络分支和视觉转换器分支通过特征耦合单元消除彼此获得特征之间的语义差异。

3.根据权利要求1所述的方法，其特征在于，步骤2中，所述网络模型还包括启动模块，其用于提取训练集图片的特征，

所述启动模块包括一个卷积层、一个批归一化层、一个非线性激活层和一个最大池化层。

4.根据权利要求1所述的方法，其特征在于，步骤3包括以下子步骤：

步骤3-1，卷积神经网络分支获得初始特征图；

步骤3-2，视觉转换器分支获得第一层的全局表征；

5.根据权利要求4所述的方法，其特征在于，步骤3-3包括以下子步骤：

步骤3-3-1，卷积神经网络分支利用初始特征图得到中间特征图；

步骤3-3-2，中间特征图转换为块嵌入；

步骤3-3-3，视觉转换器分支对块嵌入进行处理；

步骤3-3-4，将处理后的块嵌入转换为特征图；

6.根据权利要求5所述的方法，其特征在于，步骤3-3-2中，所述中间特征图通过特征耦合单元转换为块嵌入，

优选地，包括以下步骤：

(i)对齐中间特征图的通道维度；

(ii)对齐中间特征图的空间维度；

(iii)将经过上述处理的中间特征图转换为块嵌入。

7.根据权利要求5所述的方法，其特征在于，在步骤3-3-5之后，还包括

步骤3-3-6，依次循环步骤3-3-1～步骤3-3-5，直至卷积神经网络分支和视觉转换器分支的最后一层结束。

8.一种局部特征耦合全局表征的图像分类系统，优选用于实施权利要求1至7之一所述的图像分类方法，其特征在于，所述系统包括卷积神经网络单元、视觉转换器单元和特征耦合单元，其中，

所述卷积神经网络单元用于获得图像的局部特征，

所述视觉转换器单元用于获得图像的全局表征；

9.一种计算机可读存储介质，其特征在于，存储有局部特征耦合全局表征的图像分类训练程序，所述程序被处理器执行时，使得处理器执行权利要求1至7之一所述的所述局部特征耦合全局表征的图像分类方法的步骤。

10.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有局部特征耦合全局表征的图像分类训练程序，所述程序被处理器执行时，使得处理器执行权利要求1至7之一所述局部特征耦合全局表征的图像分类方法的步骤。