CN116246109A

CN116246109A - 一种多尺度孔洞邻域注意力计算骨干网络模型及其应用

Info

Publication number: CN116246109A
Application number: CN202310138042.0A
Authority: CN
Inventors: 周全; 江晨风; 倪英豪; 莫玉玮; 樊亚文; 康彬; 张索非; 吴晓富
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-06-09

Abstract

本发明属于图像识别领域，具体地说，是一种多尺度孔洞邻域注意力计算骨干网络模型及其应用，由输入、图像特征提取、输出组成。主体部分为图像特征提取，该部分共有4个阶段：第一阶段包括一个图像块嵌入层和一个孔洞Transformer模块，第二三四阶段结构相同，包括一个下采样层和一个DT模块。在DT模块的构成中，核心模块为孔洞邻域注意力计算模块，它用来对输入到该部分的特征图进行自注意力的计算，通过该模块的计算可以保证在获取图像局部信息的同时也可以获取到图像全局信息。与目前最先进的骨干网模型相比，本发明实现了自注意力计算中参数量和计算量的有效权衡，成为解决图像识别领域问题的有效网络模型。

Description

一种多尺度孔洞邻域注意力计算骨干网络模型及其应用

技术领域

本发明属于图像识别领域，具体地说，是一种多尺度孔洞邻域注意力计算骨干网络模型及其应用，以解决现阶段以Transformer模型为基础的骨干网普遍存在的问题，并将其应用于图像分类任务以及其他下游任务。

背景技术

图像分类任务是计算机视觉领域的一个主流研究方向，它具有广泛的应用，是根据图像的语义信息对不同类别图像进行区分，是目标检测、图像分割、行为预测、人脸识别等其他高层次视觉任务的基础。图像分类在许多领域都有着广泛的应用，如：安防领域的人脸识别和智能视频分析等，交通领域的交通场景识别，互联网领域基于内容的图像检索和相册自动归类，医学领域的图像识别等。本发明所研究的深度学习方法下的新型骨干网设计正是以图像分类任务作为主要任务。

近几年来，计算机视觉中骨干网的设计与研究大致分为两类：基于卷积神经网络(CNN)的算法研究和基于Transformer体系结构的算法研究。两种网络结构下的探索大致归纳如下：

(1)CNN结构

自从AlexNet在ILSVRC-2012竞赛中获得冠军以来，CNN作为整个计算机视觉的中心网络模型，得到了广泛的应用。最初的计算机视觉任务是在CNN的基础上进行创新，例如VGG、GoogleNet、ResNet等工作，都取得了很大的成功。而随着在该领域研究的进一步加深，近几年来，基于CNN的算法性能逐渐到达了极限。伴随着Transformer体系结构的提出，研究重点已经转变为以Transformer结构为基础进行实践。

(2)Transformer结构

Transformer结构体系自2017年被提出以来，得到了广泛的应用。与传统的CNN模型不同，它是一种典型的基于自注意力机制的深层神经网络，具有很好的表征能力，首先被应用于自然语言处理领域，而第一次将其用于CV(Computer Vision，计算机视觉)领域的是DETR(Detection Transformer，基于Transformer的端到端目标检测网络)，随后便开始了在计算机视觉领域的飞速蓬勃发展，先后产出了以Transformer为基础的一系列有代表性的结构体系，在不同的视觉任务中取得了很好的效果。

为了更好的适应现实场景的需求，最近的研究热点如下：

(1)以ViT(Vision Transformer，视觉Transformer)为例，它第一个直接将Transformer结构应用于非重叠图像块的图像分类任务，整个框架不包含局部卷积运算，通过大规模的预训练，实现了很好的性能；

(2)以DeiT(Data-Efficient Image Transformers，数据高效的图像Transformer)为例，它第一个应用于大规模图像分类任务，但却没有使用任何大规模数据集，在不引入卷积的情况下，仅通过使用Transformer也能达到很好的效果，这证明了Transformer与精心调配的CNN设计相比的潜力；

(3)以Swin Transformer(Hierarchical Vision Transformer using ShiftedWindows，利用移位窗口的层次化Transformer)为例，它通过将自注意力计算限制为不重叠的局部窗口，同时允跨窗口连接，移位的窗口方案带来了更高的效率。这种分层体系结构具有在各种尺度上建模的灵活性，在图像分类任务上也具有很好的兼容性；

(4)以DynamicViT(Efficient Vision Transformers with Dynamic TokenSparsification，动态图像块稀疏化的视觉Transformer)为例，它提出了一个轻量化的模型，来动态地决定哪个Token(一个完整的特征图所划分的每一个单独的部分)可以被剪枝掉。具体来说就是，对每个输入，模型都会生成一个二元决定掩码,来判断哪些Token不包含太多重要信息，对于这些对最终的预测结果影响不大的Token，可以丢弃掉，使其不再参与后续的计算，从而极大地减少了参数量和计算量；

(5)以NAT(Neighborhood Attention Transformer，邻域注意力Transformer)为例，它通过将每个Query领域范围内固定数量的Token作为Key和Value，来实现局部的自注意力计算。其中查询(Q，Query)、键值(K，Key)、本值(V，Value)矩阵是通过对输入特征图进行线性投影产生的用于自注意力计算的矩阵，Query的作用是在Token(一个完整的特征图所划分的每一个单独的部分)之间搬运信息，而Value本身就是从当前Token中提取出来的所有信息。每一个Query的自注意力计算仅需在选定的Token内进行，类似SwinTransformer的加窗操作，但却无需将窗口固定，从而使得模型更具灵活性，能够更好的完成局部的特征信息交互，在图像分类以及其他下游任务上取得了很好的效果。

正如上述介绍中所总结的那样，近年来为了充分发掘和利用Transformer的力量，提出了许多解决方案，尽管上述方法都取得了很好的效果，但如今的研究体系中依然存在诸多问题，尤其是如何在实现Transformer模型高效运作的同时又可以保证提高模型预测精度，以使其更好的适用于工业应用，仍然是当前计算机视觉研究领域的一大热点和挑战。

发明内容

鉴于上述现有技术的缺陷与不足，本发明的目的旨在提出一种多尺度孔洞邻域注意力计算骨干网络模型及其应用，以增强模型对多尺度图像特征的提取能力，在保证局部和全局信息交互的同时实现模型参数量和计算复杂度的最佳平衡。

为达成上述目标，本发明的具体解决方案是：

一种多尺度孔洞邻域注意力计算骨干网络模型，整体采用层次化结构，这种分层体系结构具有在各种尺度上建模的灵活性，在网络加深过程中，图像块(Patch，当图像分辨率太大而难以有效处理时，可以将图像划分成一个个小块，这些小块就是Patch)的数量会随着层次化的网络搭建特征而逐渐减少，以使其更好应用于下游任务。整体由三部分组成：输入模块、图像特征提取模块和输出模块。作为骨干网的核心组件，本发明在四个连续的图像特征提取阶段内设计了孔洞Transformer(DT，Dilated Transformer)模块，其内部核心模块为孔洞邻域注意力计算(DNA，Dilated Neighborhood Attention)模块，它用来对输入到该部分的特征图进行自注意力的计算，同时获得多尺度图像信息。

在上述技术方案中，图像特征提取模块共有四个阶段：对于输入进骨干网的图像，在第一个图像特征提取阶段首先经过Patch嵌入层改变图像通道数和分辨率，使其适合层次化的结构处理，然后经过DT模块进行特征图自注意力计算和获取多尺度图像信息，处理后的特征图传递到第二个图像特征提取阶段；在第二个图像特征提取阶段经过下采样层再次改变特征图通道数和分辨率，输出到DT模块进行与第一图像特征提取阶段同样的处理方式，处理后的特征图传递到第三图像特征提取阶段；紧随其后的第三第四图像特征提取阶段重复第二图像特征提取阶段的处理流程，将最后的输出特征图经过全连接层后得到最终的分类结果。

本发明的进一步改进，孔洞邻域注意力计算(DNA，Dilated NeighborhoodAttention)模块主要用来进行多头自注意力的计算，该模块主要由三支路组成，以实现多尺度图像特征提取。首先通过线性投影产生自注意力计算所需的查询(Q，Query)、键值(K，Key)、本值(V，Value)矩阵，其中Query、Key的作用是在Token(一个完整的特征图所划分的每一个单独的部分)之间搬运信息，而Value本身就是从当前Token中提取出来的所有信息。对于传统的自注意力计算而言，每个输入的Token使用其Query矩阵对其他所有的Token的Key矩阵进行评分，获得注意力分数，这个过程是通过Query和Key矩阵相乘产生注意力图来完成的。然后注意力图再与Value矩阵相乘，得到最终的注意力结果。这一计算过程没有涉及到对于Key的筛选，即Token的全局Key都参与了计算。而DNA模块中的计算，对于Token的每一个Q，采用不同的孔洞率来对其邻域(上下左右四个方向)固定数量的Token进行选择然后拼接，以此作为K和V。在第一支路，对于孔洞率为1(即无间隔的对Token进行选择)的情况，Q只需在选定的K范围内进行局部邻域自注意力计算，以保证局部信息的提取能力。随着孔洞率的改变，对Token的选取方式也有所改变，感受野也在逐渐增大，但Q所选取作为K的Token数量保持不变，仅改变了选取的位置。所以在第二支路，以孔洞率为2(即每间隔一个Token选择一次)的方式选择其周围固定数量的Token作为K和V，然后只在选定范围内进行自注意力计算。此时相较于第一支路，感受野(Receptive Field,每一层输出的特征图上的像素点映射回原始输入图像上的区域大小)扩大，能够提取到更多的全局信息。在第三支路将孔洞率选取为3(即每间隔两个Token选择一次)，采取同样的选取方式进行K和V的处理，最后将三支路进行与传统自注意力相同的计算方式，得到三个不同的特征图，相加在一起，得到新的特征图。此时的特征图便包含了三个尺度下的图像特征信息。

本发明还披露了一种多尺度孔洞邻域注意力计算骨干网络模型，用于实现轻量化图像识别，具体包括以下步骤：

S1、对输入原始图像在Patch嵌入层进行两个连续的卷积核为3×3，步长为2的重叠卷积，得到分辨率为原始图像1/4，通道数为64的第一特征图。

S2、对第一特征图依次经过归一化层，DT模块处理，得到分辨率为原始图像1/4，通道数为64的第二特征图。

S3、将第二特征图与第一特征图进行残差连接，得到分辨率为原始图像1/4，通道数为64的第三特征图。

S4、对第三特征图再次经过归一化层，多层感知机(MLP)层处理，得到分辨率为原始图像1/4，通道数为64的第四特征图。

S5、将第四特征图与第三特征图进行残差连接，得到分辨率为原始图像1/4，通道数为64的第五特征图。

S6、对第五特征图进行卷积核为3×3，步长为2的卷积，获得分辨率为原始图像1/8，维度为128的第六特征图。

S7、对第六特征图重复S2、S3、S4、S5、S6的步骤，获得分辨率为原始图像1/16，维度为256的第七特征图。

S8、对第七特征图重复S2、S3、S4、S5、S6的步骤，获得分辨率为原始图像1/32，维度为512的第八特征图。

S9、对第八特征图重复S2、S3、S4、S5的步骤，获得分辨率为原始图像1/32，维度为512的第九特征图。

S10、对第九特征图的宽度和高度进行平均池化，然后经过一个线性层，得到最后的输出分类结果。

本发明的有益效果：

本发明的提出并应用，较之于现有的高性能模型具有显著的进步性：本发明设计了一种普遍用于图像识别领域视觉任务，例如图像分类以及其他下游任务(检测，分割等)的基于Transformer模型的深度学习骨干网络。对于如何权衡Transformer模型的参数量和计算复杂度；如何更好交互局部自注意力计算和全局自注意力计算；如何实现多尺度图像特征提取等问题提供了一种高效的解决方法。本发明所述骨干网模型主要由三部分组成：输入，图像特征提取，输出。对于输入进骨干网的图像，在第一个图像特征提取阶段首先经过Patch嵌入层改变图像通道数和分辨率，使其适合层次化的结构处理，然后经过DT模块进行特征图自注意力计算和获取多尺度图像信息，处理后的特征图传递到第二个图像特征提取阶段。在第二个图像特征提取阶段经过下采样层再次改变特征图通道数和分辨率，输出到DT模块进行与第一图像特征提取阶段同样的处理方式，处理后的特征图传递到第三图像特征提取阶段。紧随其后的第三第四图像特征提取阶段重复第二图像特征提取阶段的处理流程，将最后的输出特征图经过全连接层后得到最终的分类结果。在DT模块中，本发明所述DNA模块主要用来进行多头自注意力的计算，该模块主要由三支路组成，每一支路采用不同的孔洞率(对Token进行选择时彼此之间间隔的距离)以实现多尺度图像特征提取。采用小的孔洞率可以很好的保留住局部图像特征信息，而通过这种增大孔洞率的方式，便可以实现在不增加参数量的前提下提取到更多的全局信息。

附图说明

图1为本发明中多尺度孔洞邻域注意力计算骨干网络模型的结构图。

图2为本发明设中孔洞Transformer(DT，Dilated Transformer)模块结构图。

图3为本发明中孔洞邻域注意力计算(DNA，Dilated Neighborhood Attention)模块结构图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

如图1所示，一种以Transformer模型结构为基础设计而成的骨干网模型，它主要由三部分组成：输入模块、图像特征提取模块和输出模块。

对于输入进骨干网的图像，在第一个图像特征提取阶段首先经过Patch嵌入层改变图像通道数和分辨率，使其适合层次化的结构处理，本发明中图像分辨率变为输入图像分辨率的1/4，然后经过DT模块进行特征图自注意力计算和获取多尺度图像信息，处理后的特征图传递到第二个图像特征提取阶段。在第二个图像特征提取阶段经过下采样层再次改变特征图通道数和分辨率，本发明中图像分辨率变为输入图像分辨率的1/8，输出到DT模块进行与第一图像特征提取阶段同样的处理方式，处理后的特征图传递到第三图像特征提取阶段。紧随其后的第三第四图像特征提取阶段重复第二图像特征提取阶段的处理流程，其特征图分辨率分别降低为输入图像分辨率的1/16和1/32。此外，图像特征提取阶段的特征图维度随着阶段数的加深，依次增大为上一个图像特征提取阶段特征图维度的2倍。经过四个特征提取阶段处理，将最后的输出特征图经过全连接层后得到最终的分类结果。

如图2所示，特征提取阶段中的DT模块，该模块整体处理过程如下所示：

其中X表示DT模块的输入，

代表逐元素相加，LN(LayerNorm，层归一化)表示归一化操作，DNA表示在DNA模块中进行自注意力计算的结果，X₁表示经过DNA模块处理后的特征图输出，MLP(多层感知机)表示MLP层，该层内部的处理流程依次为：线性层，激活层，DropOut层，线性层，Drop Out层，其中激活层利用的是GELU函数，X₂表示经过整个DT模块处理后的特征图输出。

如图3所示，DT模块中的DNA模块，作为本发明的核心组件，主要用来进行多头自注意力的计算。该模块主要由三支路组成，以实现多尺度图像特征提取。首先通过线性投影产生自注意力计算所需的查询(Q，Query)、键值(K，Key)、本值(V，Value)矩阵，其中Query、Key的作用是在Token(一个完整的特征图所划分的每一个单独的部分)之间搬运信息，而Value本身就是从当前Token中提取出来的所有信息。对于传统的自注意力计算而言，每个输入的Token使用其Query矩阵对其他所有的Token的Key矩阵进行评分，获得注意力分数，这个过程是通过Query和Key矩阵相乘产生注意力图来完成的。然后注意力图再与Value矩阵相乘，得到最终的注意力结果。这一计算过程没有涉及到对于Key的筛选，即Token的全局Key都参与了计算。而DNA模块中的计算，对于Token的每一个Q，采用不同的孔洞率来对其邻域(上下左右四个方向)固定数量的Token进行选择然后拼接，以此作为K和V。在第一支路，对于孔洞率为1(即无间隔的对Token进行选择)的情况，Q只需在选定的K范围内进行局部邻域自注意力计算，以保证局部信息的提取能力。随着孔洞率的改变，对Token的选取方式也有所改变，感受野也在逐渐增大，但Q所选取作为K的Token数量保持不变，仅改变了选取的位置。所以在第二支路，以孔洞率为2(即每间隔一个Token选择一次)的方式选择其周围固定数量的Token作为K和V，然后只在选定范围内进行自注意力计算。此时相较于第一支路，感受野扩大，能够提取到更多的全局信息。在第三支路将孔洞率选取为3(即每间隔两个Token选择一次)，采取同样的选取方式进行K和V的处理，最后将三支路进行与传统自注意力相同的计算方式，得到三个不同的特征图，逐元素相加在一起，得到新的特征图。此时的特征图便包含了三个尺度下的图像特征信息。由于本模块的自注意力计算过程中三支路共用同一组参数，因此在不引入更多参数量，仅少量增加计算量的前提下，本模块能够实现多尺度特征提取，增强了对高低分辨率特征图的自适应能力，进而可以有效提高分类任务准确度。

图3是本发明的核心模块DNA模块，图中，每一个Token代表分辨率大小为1×1，每一支路输入的特征图分辨率大小均为7×7，其邻域大小为3×3，此处的3×3代表选取的Token个数。首先对特征图进行线性投影生成对应的Q，K，V矩阵。

其中X代表输入特征图，

为权重矩阵。

对于第一支路，选取孔洞率为1进行自注意力计算，图例中的Q表示对特征图中的每一个单独的Token进行线性投影产生的矩阵，K和V表示对特征图邻域中的Token线性投影产生的矩阵。对于每一个Q，选择其邻域大小范围内的3×3个Token作为K和V，首先Q和K进行矩阵相乘产生注意力图：

Attention map＝Q·K^T (3)

其中，K^T代表K矩阵的转置，Attention map代表Q和K矩阵相乘产生的注意力图。

然后，注意力图再与Value矩阵相乘，得到最终的注意力关注度结果：

其中softmax即softmax函数运算，d_k代表K矩阵的维度，这里进行

的尺度放缩是为了保持梯度稳定同时对注意力图的分数归一化，缩小softmax计算前的差距，进而缩小softmax后的差距。

以此类推，每一个Q都和其邻域内的3×3个K和V进行运算，对于边缘处的Token，通过对特征图边缘采用填充(padding)的方式来完成Token选取过程，然后再进行自注意力计算，其计算流程和上述过程无异。对于第二支路，选取孔洞率为2进行自注意力计算，此时相较于第一支路，感受野增大，对于每一个Q，同样选择其邻域大小范围内的3×3个Token作为K和V，但此时Token的选取位置发生改变，而Token个数没有发生改变。将选出的Token拼接作为新的K和V，Q和K首先进行矩阵相乘得到注意力图，然后注意力图和V进行矩阵相乘得到新的特征图。此时的特征图相对于第一支路的特征图，拥有更多的全局信息，对于高分辨率特征图的特征提取更加有效。第三支路的Token选取规则和第二支路相同，仅将孔洞率设置为3，然后进行自注意力计算得到新的特征图。最后，将三支路计算得到的特征图对应元素相加，即可得到本模块最后输出的特征图。此特征图结合了多个尺度下的图像信息，比较完整的实现了高低分辨率特征图的信息交互，在共用同一组参数的前提下，可以有效提高模型的特征提取能力，进而提高分类任务结果准确度。

图3是在单头情况下的设计，对于多头，仅需计算多头自注意力：

MH Self-Attention＝Concat(Attention₁，Attention₂，...，Attention_L) (5)

其中Attention₁，Attention₂，...，Attention_L分别代表L个头各自的自注意力计算结果。Concat表示在维度方向上对L个头的自注意力结果进行拼接。

本发明所披露的骨干网，可以高效获得低分辨率的深层语义特征图和高分辨率的浅层细节特征图，在特征图层面使其局部信息和全局信息更好交互，同时也可更方便对多尺度特征进行提取。

结合图1，本发明的具体应用，用于实现轻量化图像识别，具体包括以下步骤：

S1、对输入原始图像在Patch嵌入层进行两个连续的卷积核为3×3，步长为2的重叠卷积，得到分辨率为原始图像1/4，通道数为64的第一特征图；

S2、对第一特征图依次经过归一化层，DT模块处理，得到分辨率为原始图像1/4，通道数为64的第二特征图；

S3、将第二特征图与第一特征图进行残差连接，得到分辨率为原始图像1/4，通道数为64的第三特征图；

S4、对第三特征图再次经过归一化层，多层感知机(MLP)层处理，得到分辨率为原始图像1/4，通道数为64的第四特征图；

S5、将第四特征图与第三特征图进行残差连接，得到分辨率为原始图像1/4，通道数为64的第五特征图；

S6、对第五特征图进行卷积核为3×3，步长为2的卷积，获得分辨率为原始图像1/8，维度为128的第六特征图；

S7、对第六特征图重复S2、S3、S4、S5、S6的步骤，获得分辨率为原始图像1/16，维度为256的第七特征图；

S8、对第七特征图重复S2、S3、S4、S5、S6的步骤，获得分辨率为原始图像1/32，维度为512的第八特征图；

S9、对第八特征图重复S2、S3、S4、S5的步骤，获得分辨率为原始图像1/32，维度为512的第九特征图；

特别说明：上述步骤S1-S10是结合附图1本发明设计的整体网络结构图进行阐述的，步骤和附图1可相互印证。

以上所述为本发明的示例性实施例，并非因此限制本发明专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种多尺度孔洞邻域注意力计算骨干网络模型，整体采用层次化结构，其特征在于，整体由三部分组成：输入模块、图像特征提取模块和输出模块，在所述四个连续的图像特征提取模块阶段内设置了孔洞模块。

2.根据权利要求1所述的多尺度孔洞邻域注意力计算骨干网络模型，其特征在于，所述模型采用层次化结构，所述层次化结构通过在模型的不同阶段进行不同倍率的下采样，产生一种逐层递进的不同尺度的特征图信息。

3.根据权利要求2所述的多尺度孔洞邻域注意力计算骨干网络模型，其特征在于，所述孔洞模块包括孔洞邻域注意力计算模块，所述孔洞邻域注意力计算模块由三支路组成，以实现多尺度图像特征提取。

4.根据权利要求3所述的多尺度孔洞邻域注意力计算骨干网络模型，其特征在于，所述图像特征提取模块共有四个阶段：对于输入进骨干网的图像，在第一个图像特征提取阶段首先经过Patch嵌入层改变图像通道数和分辨率，使其适合层次化的结构处理，然后经过DT模块进行特征图自注意力计算和获取多尺度图像信息，处理后的特征图传递到第二个图像特征提取阶段；在第二个图像特征提取阶段经过下采样层再次改变特征图通道数和分辨率，输出到DT模块进行与第一图像特征提取阶段同样的处理方式，处理后的特征图传递到第三图像特征提取阶段；紧随其后的第三第四图像特征提取阶段重复第二图像特征提取阶段的处理流程，将最后的输出特征图经过全连接层后得到最终的分类结果。

5.一种多尺度孔洞邻域注意力计算骨干网络模型实现轻量化图像识别的方法，使用如权利要求4所述的多尺度孔洞邻域注意力计算骨干网络模型，其特征在于，包括以下步骤：

S1、对输入原始图像在Patch嵌入层进行两个连续的重叠卷积，得到第一特征图；

S2、对第一特征图依次经过归一化层，DT模块处理，得到第二特征图；

S3、将第二特征图与第一特征图进行残差连接，得到第三特征图；

S4、对第三特征图再次经过归一化层，多层感知机层处理，得到第四特征图；

S5、将第四特征图与第三特征图进行残差连接，得到第五特征图；

S6、对第五特征图进行卷积，获得第六特征图；

S7、对第六特征图重复S2、S3、S4、S5、S6的步骤，获得第七特征图；

S8、对第七特征图重复S2、S3、S4、S5、S6的步骤，获得第八特征图；

S9、对第八特征图重复S2、S3、S4、S5的步骤，获得第九特征图；

6.根据权利要求5所述的多尺度孔洞邻域注意力计算骨干网络模型实现轻量化图像识别的方法，其特征在于，所述S1中，对输入原始图像在Patch嵌入层进行两个连续的卷积核为3×3，步长为2的重叠卷积，得到分辨率为原始图像1/4，通道数为64的第一特征图。

7.根据权利要求6所述的多尺度孔洞邻域注意力计算骨干网络模型实现轻量化图像识别的方法，其特征在于，

所述S2得到的第二特征图、所述S3得到的第三特征图、所述S4得到的第四特征图和所述S5得到的第五特征图的分辨率为原始图像1/4，通道数为64；

所述S6得到的第六特征图的分辨率为原始图像1/8，维度为128；

所述S7得到的第七特征图的分辨率为原始图像1/16，维度为256；

所述S8得到的第八特征图和所述S9得到的第九特征图的分辨率为原始图像1/32，维度为512。