CN116486155A

CN116486155A - 基于Transformer和级联特征的目标检测方法

Info

Publication number: CN116486155A
Application number: CN202310451310.4A
Authority: CN
Inventors: 田成军; 刘哲; 刘浩博; 王雨雨; 颜禹; 张晋通
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-04-25
Filing date: 2023-04-25
Publication date: 2023-07-25

Abstract

基于Transformer和级联特征的目标检测方法涉及计算机视觉技术技术领域，解决了现有检测精度有待提高的问题，该方法包括：将原始图像通过Patch分割模块划分为若干图像片；将图像片输入到由基于移位窗口的TransformerBlock模块构成的四阶段特征提取骨干网络得到由浅到深的四个不同尺度的特征图；将特征图输入级联特征融合模块进行不同尺度间的特征图融合得到五个不同尺度的融合特征图；根据融合特征图进行候选框的提取得到可能存在目标的候选框；将融合特征图和可能存在目标的候选框输入到基于ROIAlign的目标检测头得到目标检测结果。本发明提高了目标检测方法的多尺度融合能力、检测框的准确度以及网络检测小物体的能力。

Description

基于Transformer和级联特征的目标检测方法

技术领域

本发明涉及计算机视觉技术领域，尤其涉及基于Transformer和级联特征的目标检测方法。

背景技术

目标检测也是一项基础且重要的任务，具体来说是找到图像中所有感兴趣的目标，并使用矩形边界框来定位检测到的物体位置及大小，即确定它们的类别和位置，这是计算机视觉领域的核心问题之一。图像实例和语义分割、物体追踪、医学图像分割等等通常都以目标检测为基础。在进行目标检测时，由于每张图像中物体的数量、大小及姿态各有不同，也就是非结构化的输出，而且图像中的目标会有被截断、模糊的情况，这导致目标检测任务富有挑战性。

自从AlexNet卷积神经网络结构模型出现以来，卷积神经网络在计算机视觉领域具有绝对地位，随着研究人员对算法和网络结构越来越深入的探索，目标检测大致可分为基于候选(两阶段)和基于回归(一阶段)这两类算法，二者在准确率和检测速度上分别占据优势，但随着对目标检测的高性能和高效率的追求，研究人员不断的尝试各种突破手段来兼顾精度和速度的要求。近年来，自然语言处理(NLP)领域的Transformer模型被应用于计算机视觉，2021年ICLR(国际学习表征会议)上关于的一篇文章—《Vision Transformer》创造性的实现了这一思路，同年微软研究院发表在ICCV(国际计算机视觉大会)上的一篇《Swin Transformer》让Transformer在视觉领域又一次碰撞出了火花，Transformer的全局交互机制可以迅速的扩大特征的有效感受野，其展现出了与卷积神经网络相似甚至优于神经网络的算法能力，这让很多研究人员认为这开创了计算机视觉领域研究的新纪元。在不断的探索研究下计算机视觉领域取得了重大的突破，目标检测算法的准确率以及轻量化也在不断的被研究。

尽管目标检测技术已经取得了巨大的进步，但是在较复杂的环境下检测精度仍有待提高，以及对浅层特征信息利用不足造成目标信息丢失和误检漏检的问题，这对所提出来的目标检测算法也有了更高的要求。

发明内容

为了解决上述问题，本发明提出一种基于Transformer和级联特征融合的目标检测方法，基于FasterR-CNN架构下以基于移位窗口Transformer的网络作为骨干网络，并通过级联特征融合模块对不同阶段由浅到深的特征进行融合，同时利用浅层特征的高分辨率信息和深层特征的高语义信息，以达到提高目标检测精度的目的。

本发明解决其技术问题采用了如下技术方案：

基于Transformer和级联特征的目标检测方法，包括：

步骤一、将原始图像通过Patch分割模块划分为若干图像片；

步骤二、将所述步骤一得到的图像片输入到由基于移位窗口的TransformerBlock模块构成的四阶段特征提取骨干网络，得到由浅到深的四个不同尺度的特征图；

步骤三、将所述四个不同尺度的特征图输入级联特征融合模块进行不同尺度间的特征图融合，得到融合后五个不同尺度的融合特征图；

步骤四、根据所述五个不同尺度的融合特征图进行候选框的提取，得到可能存在目标的候选框；

步骤五、将所述融合特征图和所述可能存在目标的候选框输入到基于RoI Align的目标检测头，得到目标检测结果。

本发明的有益效果：

1、本发明基于Transformer和级联特征的目标检测方法通过使用基于移位窗口Transformer的网络，解决了传统算法特征提取不充分，优化检测框冗余以及误检漏检的问题，提高了检测精准度。

2、本发明利用级联特征融合模块，同时利用浅层特征的高分辨率和深层特征的高语义信息，来提高目标检测方法的多尺度融合能力。

3、本发明在检测头模块中采用RoI Align，消除了现有RoI Pooling的两次浮点数取整量化造成的误差，提高了检测框的准确度以及网络检测小物体的能力。

附图说明

图1为本发明提出的一种基于Transformer和级联特征的目标检测方法的流程示意图；

图2为本发明的基于移位窗口的Transformer模块构成的四阶段特征提取骨干网络结构示意图；

图3为本发明的一个Transformer模块的结构示意图；

图4为本发明的级联特征融合模块的示意图。

具体实施方式

为使本专利的技术方案和优点能够更清晰完整易懂，下面将结合附图和具体实施方式对本发明进行进一步的详细描述。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明，以使得本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

本实施例提供基于Transformer和级联特征的目标检测方法，其流程如图1所示。包括如下步骤：

步骤一、将原始图像通过Patch分割模块划分为若干图像片；

步骤二、将步骤一得到的图像片输入到由基于移位窗口的Transformer Block模块构成的四阶段特征提取骨干网络，得到由浅到深的四个不同尺度的特征图；

步骤三、将所述四个不同尺度的特征图输入级联特征融合模块进行不同尺度间的特征图融合，得到级联融合后五个不同尺度的融合特征图；

步骤四、根据五个不同尺度的融合特征图进行候选框的提取，得到可能存在目标的候选框；

步骤五、将融合特征图和可能存在目标的候选框输入到基于RoI Align(反向传播)的目标检测头，得到目标检测结果。

下面对一种基于Transformer和级联特征融合的目标检测方法进行详述，具体包括以下步骤：

步骤一、将原始图像经过Patch分割模块划分，得到若干固定尺寸的图像片(patch)，具体为：将大小为H×W×3的输入图像中进行分块，把每4×4大小的相邻像素划分为一个patch，即相邻patch不存在重叠，然后在通道方向展开，则每个patch的特征维度为4×4×3＝48，patch的数量为H/4×W/4。其中，H、W分别表示原始图像的像素高度和宽度。

步骤二、然后将上述patches输入到由基于移位窗口的TransformerBlock模块构成的四阶段特征提取骨干网络中，如图2所示，具体包括四个阶段，按照顺序分别记为阶段一、阶段二、阶段三和阶段四，顺次输出由浅到深的四个不同尺度的特征。网络层数由浅到深，随着网络层数的不断加深，图像片会不断减少，而每个图像片的感知范围会扩大。其中，阶段一包括顺次连接的线性嵌入模块和第一TransformerBlock模块；阶段二包括顺次连接的第二patch融合模块和第二Transformer Block模块；阶段三包括顺次连接的第三patch融合模块和第三Transformer Block模块；阶段四包括顺次连接的第四patch融合模块和第四TransformerBlock模块。其中，第一Transformer Block模块、第二Transformer Block模块、第三TransformerBlock模块和第四Transformer Block模块的结构相同，均称为Transformer Block模块。

线性嵌入模块用于对划分后的一堆Patches进行维度变换，图像的格式由(H/4,W/4,48)变成了(H/4,W/4,C)，C表示图像片的特征维度，即通过线性嵌入模块将划分后的patch特征维度变成C，再将H和W两个维度展平，即将每个patch通过线性映射到一维向量，最终得到图像全部数据的二维向量信息表达X^P。

一个Transformer Block模块包括第一Transformer Block子模块和第二Transformer Block子模块。如图3所示，第一Transformer Block子模块包括顺次连接的第一归一化操作层(Layer Normalization，即图3的LayerNorm)、窗口自注意力机制层(Windows Multi-Head Self-Attention，W-MSA)、第一残差层、第二归一化操作层、第一多层感知机模块(MLP)和第二残差层，且第一残差层的输出连接第二残差层，第二残差层用于将第一多层感知机模块的输出和第一残差层的输出进行残差操作。第二TransformerBlock子模块包括顺次连接的第三归一化操作层、转换窗口自注意力机制层(ShiftedWindows Multi-Head Self-Attention，SW-MSA)、第三残差层、第四归一化操作层、第二多层感知机模块(MLP)、第四残差层，且第三残差层的输出连接第四残差层，第四残差层用于将第二多层感知机模块的输出和第三残差层的输出进行残差操作。第一TransformerBlock子模块的输出作为第二Transformer Block子模块的输入，二者顺次连接。

Transformer Block模块对每个窗口内的patch进行多头自注意力操作，其中每个窗口内的patch个数设置为M*M。该模块最主要的结构是包含W-MSA层或SW-MSA层，其中顺次连接的第一Transformer Block子模块中的W-MSA层为减少注意力机制的计算量，将输入的特征划分为不同的窗口，分别在每个窗口内进行自注意力机制的运算，得到了图片的局部信息。另外，在顺次连接的第二TransformerBlock子模块的SW-MSA层中添加移位窗口操作，实现跨窗口连接，从而获取图像的全局注意力信息。同时为避免移动窗口后形成的新窗口中不同区域的信息混乱，而造成提前学习到之后序列的特征，在该模块中的注意力计算增加了mask操作。其他部分和标准的Transformer结构类似，连续Transformer提取模块如图3所示，可以表示为：

f_W-MSA＝MSA(f_W(LN(x_j)))+x_j (1)

f_SW-MSA＝MSA(f_SW(LN(x_j)))+x_j (2)

f_MLP＝MLP((LN(x_j')))+x_j'(3)

X^T＝M_n(f_MLP(f_SW-MSA(f_MLP(f_W-MSA(X^P))))) (4)

其中，x_j表示输入特征图；x'_j表示经过注意力计算和残差连接后的输出；f_W-MSA和f_SW-MSA分别表示W-MSA层和SW-MSA层中多头注意力计算及残差连接；f_W和f_SW分别表示将特征图划分为窗口和移位窗口，并重构为查询(Query)、键(Key)和值(Value)；f_MLP表示具有GELU()激活函数的两层MLP及残差连接；M_n表示整个编码过程循环n次，LN()表示归一化操作。

Patch融合模块(第二patch融合模块、第三patch融合模块、第四patch融合模块)用于对特征图在进入TransformerBlock模块前，先对输入特征图进行下采样操作。为达到该目的，该模块在输入特征图的行方向和列方向上，按位置间隔2选取元素拼成新的patch，然后将每个新patch中相同位置的像素给拼在一起就得到4个特征图，再将这4个特征图在深度方向进行Concat()拼接，就得到了通道数为原来4倍的结果4C(E_PATCH)，然后通过全连接层的线性变化(Linear)调整特征图通道数为2C，最终得到高和宽各为原来1/2，通道数为原来2倍的特征表达。该模块可简化为：

X^M＝f_Linear(E_PATCH(X^T)) (5)

再重复三次基于Transformer提取模块的学习过程，最后图像通过基于移位窗口Transformer的网络输出4个特征图。阶段一、阶段二、阶段三和阶段四输出的特征图分别为X₁、X₂、X₃、X₄。

窗口自注意力机制层(即W-MSA模块)学习特征执行如下步骤：

S11、首先通过W_q、W_k、W_v获得对应第i个head的查询矩阵Q、键矩阵K和值矩阵V。其中W_q表示Q(即Q^hw×C)的可学习参数，W_k表示K(即K^hw×C)的可学习参数，W_v表示V(即V^hw×C)的可学习参数。假设查询矩阵Q、键矩阵K、值矩阵V的向量长度与特征图的维度C保持一致，那么对应所有窗口生成Q、K和V的过程如下式：

其中A^hw×C为窗口内所有patch拼接在一起得到的矩阵，共有hw个patch，每个patch深度为C；分别表示生成Q、K、V的变换矩阵。

S12、接下来针对每个head使用单注意力机制进行计算，如式(9)所示。

其中，公式(9)表示单头注意力机制，Softmax()表示归一化指数函数，d_k表示K向量的长度；

S13、接下来进行多头注意力机制过程，该机制能够联合来自不同head部分学习到的信息，针对每个head使用多注意力机制计算，最后得到每个head的多注意力机制下的自注意力结果一。首先将每个head的自注意力结果一进行Concat拼接，再通过线性变换的权重矩阵W^O进行融合，得到多头注意力机制下的注意力结果一，计算过程如公式(10)和(11)所示。

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W^O (10)

Where head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (11)

其中，公式(10)表示多头自注意力机制，W^O表示线性变换的权重矩阵；Concat()表示矩阵拼接，head_i表示第i个子空间，1≤i≤h；公式(11)表示多头自注意力机制中的单头注意力函数，其中，W_i ^Q表示第i个头的查询矩阵Q的可学习参数，W_i ^K表示第i个头的键矩阵K的可学习参数，W_i ^V表示第i个头的值矩阵V的可学习参数。

至此完成了每个窗口中的多头注意力计算，也就是W-MSA模块的过程。它与传统的Multi-Head Attention的区别就在于它先会通过一系列操作将特征图分成一个个第一窗口，以达到减少计算量的效果，二者的复杂度分别为(忽略了Softmax()的计算复杂度)：

Ω(MSA)＝4hwC²+2(hw)²C (12)

Ω(W-MSA)＝4hwC²+2M²hwC (13)

其中，h,w分别代表特征图的高度、宽度，特征图的深度即是图像片的特征维度；M代表每个窗口(Window)的大小。则采用W-MSA模块相比于MSA模块能够节省2(hw)²C-2M²hwC(FLOPs)。

转换窗口自注意力机制层(即SW-MSA模块)学习特征执行如下步骤：

S21、对第一窗口使用向左上方向循环移位的批处理计算方法，得到第二窗口；

对W-MSA模块中的第一窗口使用向左上方向循环移位的高效批处理计算移位配置方法得到新的批处理窗口，它由多个子窗口组成，子窗口即所述第二窗口；

S22、上述S21生成的子窗口在特征图中不相邻，因此采用mask机制将自注意力计算限制在每个原有子窗口内，这样通过设置mask来隔绝不同区域的信息就不会使原有窗口间信息混淆；

S23、在S22产生的第二窗口中进行多头自注意力机制的计算得到多头注意力机制下的注意力结果二，该过程与W-MSA模块的执行步骤基本类似。这使得原先不相邻的像素之间做自注意力机制计算；

即，在进行偏移后的W-MSA产生的第二窗口内的每一个像素进行多头自注意力计算，首先生成每个head的查询矩阵Q、键矩阵K和值矩阵V，对于偏移后产生的Q要与每一个像素的K进行匹配，接下来就是W-MSA模块学习特征的步骤，但是，在SW-MSA模块中另外还使用了mask机制，目的是希望只在偏移后的新窗口中的原有区域进行的自注意力机制计算。最后通过计算得到多头注意力机制下的注意力结果二。

S24、每个第二窗口完成计算后需要将数据循环移位还原得到最终特征图，这样批处理窗口的数量与常规窗口分区的数量相同，同时也解决了不同窗口之间无法进行信息交流的问题。

步骤三、受FPN特征金字塔网络结构的启发，提出在特征提取骨干网络和RPN网络之间增加级联特征融合模块，将Transformer Block模块每个阶段输出的特征图进行特征融合，把网络深层和浅层的信息结合，使网络具有多尺度特征检测的能力，级联特征融合模块网络结构示意图如图4所示。

具体操作分为以下两个级联部分：

在第一部分中，①首先对阶段四输出的特征图X₄进行2倍下采样的额外操作，得到融合特征图K₄；

②将阶段四输出的特征图X₄上采样到与阶段三输出的特征图X₃相同大小(分辨率大小相同)，具体将X₄两次上采样，上采样结果传递给卷积单元F(·)，卷积操作得到和然后将/>与X₃相乘(Hadamard乘积)，输出结果与X₄2进行Concat()拼接，产生融合特征图K₃；

③将K₃、X₄和X₃上采样到与阶段二输出的特征图X₂相同大小，并分别通过卷积单元F(·)对它们进行平滑处理，一一对应的得到和/>随后将/> 和X₂相乘，输出结果与/>进行Concat()拼接，产生融合特征图K₂；

④将K₂、X₄、X₃和X₂上采样到与阶段一输出的特征图X₁相同大小，再将结果分别传递给卷积单元F(·)进行平滑处理，一一对应的得到随后将与X₁相乘，输出结果与/>进行Concat()拼接，产生融合特征图K₁。

在第二部分中，K₄、X₄、K₃、K₂、K₁分别通过卷积单元F(·)进行降维，产生级联特征融合模块输出的融合特征图T₅、T₄、T₃、T₂、T₁。

具体过程如式(14)-(22)所示：

K₄＝F[Down(X₄)] (14)

T₅＝F(K₄) (15)

T₄＝F(X₄) (16)

K₃＝Concat{F[Up(X₄)] X₃,F[Up(X₄)]} (17)

T₃＝F(K₃) (18)

K₂＝Concat{F[Up(X₄)] F[Up(X₃)] X₂,Up[F(K₃)]} (19)

T₂＝F(K₂) (20)

K₁＝Concat{F[Up(X₄)] F[Up(X₃)] F[Up(X₂)] X₁,Up[F(K₂)]} (21)

T₁＝F(K₁) (22)

其中，Down(·)表示上采样，Up(·)表示下采样，卷积单元F(·)为1*1卷积层。

经过级联融合特征模块处理后得到由浅到深的五个不同尺度的融合特征图，分别为T₁、T₂、T₃、T₄、T₅。

步骤四、将五个不同尺度的融合特征图输入到区域候选网络RPN进行候选框的提取，得到可能存在目标的候选框。RPN网络采用移动窗口机制，其工作流程分为以下几个步骤：

S41、把步骤二得到的特征图中的每个点映射回原始图像感受野的中心点，将该中心点作为一个基准点，然后围绕这个基准点选取n个不同的尺寸和比例的锚框(anchor)，不同锚框的尺寸不同，比例(宽高比)也不同，对于大小为h×w的卷积特征图，共有h×w×n个锚点。

S42、使用Softmax分类器给上述产生的锚框分配一个二进制标签，来确定该锚框为前景还是背景，最后提取出前景锚框。

S43、通过边框回归器(Bounding-box Regression)得到前景锚框到真实框之间的变换参数，以此来对S42提取的前景锚框进行微调，得到调整后的前景锚框相对于真实框的偏移量，使其更加接近于物体的真实框(groundtruthbox)。

S44、S43中得到的调整后的前景锚框作为候选框，再通过非极大值抑制(NMS)算法剔除重叠和超出边界的候选框，得到可能存在目标的候选框，至此完成RPN网络的目标检测定位功能。

RPN网络的损失值由分类分支和回归分支组成。其中，分类分支采用二值交叉熵损失，回归分支采用smooth L1损失。

步骤五、将通过步骤三得到的融合特征图{T₁,T₂,T₃,T₄}和通过RPN网络得到的可能存在目标的候选框输入到基于RoI Align的目标检测头，得到目标检测结果。

可以是融合特征图{T₁,T₂,T₃,T₄}都输入到基于RoI Align的目标检测头，也可以将{T₁,T₂,T₃,T₄}其中一个融合特征图输入到基于RoI Align的目标检测头。

具体的，作为一种优选，基于RoI Align的目标检测头首先通过式(23)将RPN输出的可能存在目标的候选框和步骤三得到的融合特征图{T₁,T₂,T₃,T₄}中尺寸最合适的对应起来执行RoI Align操作，即让感受野更接近对象尺寸的融合特征图来预测该对象，例如{T₁,T₂,T₃,T₄}中的融合特征图T₄感受野最接近可能存在目标的候选框的尺寸。接下来通过RoI Align操作统一预测候选框特征图的大小，再将得到指定大小的特征图输入到检测头后续部分，进一步预测候选框中对象的具体类别，得到最终的目标检测结果。

其中，224表示骨干网络在ImageNet上预训练的尺寸；w、h表示proposal的宽和高；k表示适合尺寸为w*h的proposal的特征图位置，即对应{T₁,T₂,T₃,T₄}的下标值；k₀表示proposal大致为224*224时对应特征图的位置；式(23)中k₀＝3，具体可求得k值，如式(24)所示。

其中RoI Align是RoI Pooling的改进，前者克服了后者操作过程中的两次浮点数取整量化造成的检测框检测误差。在RoI Align中首先将可能存在目标的候选框划分为L×L个子区域，将每个子区域映射到一个特征图中，在每个子区域中做最大池化操作，具体操作分为以下步骤：

S51、遍历可能存在目标的候选框，保持可能存在目标的候选框浮点数边界不做量化取整操作；

S52、将可能存在目标的候选框划分为L×L个子区域，对每个子区域中的边界也不做量化取整操作，L为大于1的正整数；

S53、在每个子区域内均匀的取N个点(N为大于1的正整数)，对于N个点中的每个点，找到在融合特征图T₄上与其离得最近的4个像素点，通过双线性差值的方式，获得坐标为浮点数的像素点在特征图上的数值；

S54、对每个子区域，均对该子区域内得到的N个点对应的所述数值取平均值，得到该子区域的输出。

通过RoI Align得到每个候选框映射到特征图的目标候选框特征图，而且对于具有不同特征大小的输入区域(子区域)，都可以得到相同大小的输出特征。最后根据每个子区域的输出，通过检测头的全连接层的分类和回归分支得到目标检测结果。其中分类分支学习每个候选框内物体所属的类别，采用多分类交叉熵损失函数；回归分支学习每个候选框和真实框的偏移量，采用smooth L1损失函数。

本发明基于Transformer和级联特征的目标检测方法通过在Faster-RCNN模型的基础上，将原有骨干网络VGG16改进为基于移位窗口Transformer的网络，解决传统算法特征提取不充分，优化检测框冗余以及误检漏检的问题。通过提出的级联特征融合模块，能同时利用浅层特征的高分辨率和深层特征的高语义信息，来提高模型的多尺度融合能力；通过将检测头模块中的RoI Pooling改进为RoI Align，以消除RoI Pooling的两次浮点数取整量化造成的误差，提高了检测框的准确度，同时也提高了网络检测小物体的能力。

Claims

1.基于Transformer和级联特征的目标检测方法，其特征在于，包括：

步骤一、将原始图像通过Patch分割模块划分为若干图像片；

步骤二、将所述步骤一得到的图像片输入到由基于移位窗口的Transformer Block模块构成的四阶段特征提取骨干网络，得到由浅到深的四个不同尺度的特征图；

步骤三、将所述四个不同尺度的特征图输入级联特征融合模块进行不同尺度间的特征图融合，得到融合后的五个不同尺度的融合特征图；

2.如权利要求1所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述四阶段特征提取骨干网络的四阶段按照顺序分别记为阶段一、阶段二、阶段三和阶段四，顺次输出由浅到深的四个不同尺度的特征图；

所述阶段一包括顺次连接的线性嵌入模块和第一TransformerBlock模块；所述线性嵌入模块用于对步骤一得到的图像片进行维度变换；所述阶段二包括顺次连接的第二patch融合模块和第二TransformerBlock模块；阶段三包括顺次连接的第三patch融合模块和第三TransformerBlock模块；阶段四包括顺次连接的第四patch融合模块和第四TransformerBlock模块；

所述第一TransformerBlock模块、第二TransformerBlock模块、第三TransformerBlock模块和第四TransformerBlock模块结构相同，均包括第一TransformerBlock子模块和第二TransformerBlock子模块；

所述第一TransformerBlock子模块包括顺次设置的第一归一化操作层、窗口自注意力机制层、第二归一化操作层、第一多层感知机模块；所述第二TransformerBlock子模块包括顺次设置的第三归一化操作层、转换窗口自注意力机制层、第四归一化操作层、第二多层感知机模块。

3.如权利要求2所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述第一TransformerBlock子模块包括顺次连接的第一归一化操作层、窗口自注意力机制层、第一残差层、第二归一化操作层、第一多层感知机模块和第二残差层，且第一残差层的输出连接第二残差层，第二残差层用于将第一多层感知机模块的输出和第一残差层的输出进行残差操作；所述第二TransformerBlock子模块包括顺次连接的第三归一化操作层、转换窗口自注意力机制层、第三残差层、第四归一化操作层、第二多层感知机模块和第四残差层，且所述第三残差层的输出连接第四残差层，所述第四残差层用于将第二多层感知机模块的输出和第三残差层的输出进行残差操作。

4.如权利要求2所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述窗口自注意力机制层学习特征的步骤为：

S11、获得每个head的查询矩阵Q、键矩阵K和值矩阵V，针对每个head使用多注意力机制计算得到每个head的自注意力结果一；

所述自注意力结果一的计算过程包括：对每个第一窗口内部进行自注意力操作，得到每个第一窗口的Q、K和V；根据Q、K和V，使用单头注意力机制计算注意力结果；所述第一窗口为通过第二Patch融合模块、第三Patch融合模块或第四Patch融合模块进行下采样操作获得，或者，输入到窗口自注意力机制层中的图像片作为第一窗口；

S12、将每个head的自注意力结果一进行拼接，将拼接后的结果通过线性变换的权重矩阵进行融合，得到的多注意力机制下的注意力结果一。

5.如权利要求4所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述转换窗口自注意力机制层学习特征的步骤为：

S22、设置mask来隔绝各个第二窗口；

S23、在S22产生的第二窗口中进行多头自注意力机制的计算，得到每个head的自注意力结果二；

S24、将数据循环移位还原得到特征图。

6.如权利要求2所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述步骤三包括：

首先对阶段四输出的特征图X₄进行2倍下采样操作，得到特征图K₄；

将X₄上采样到与阶段三输出的特征图X₃分辨率相同，上采样结果传递给卷积单元F(·)进行卷积操作得到和/>然后将/>与X₃相乘，相乘的输出结果与/>进行Concat拼接，产生融合特征图K₃；

将K₃、X₄和X₃上采样到与阶段二输出的特征图X₂分辨率相同，再将上采样的结果分别通过F(·)进行平滑处理一一对应的得到和/>将/>和X₂相乘，输出结果与/>进行Concat拼接，产生融合特征图K₂；

将K₂、X₄、X₃和X₂上采样到与阶段一的X₁分辨率相同，再将上采样的结果分别通过F(·)进行平滑处理一一对应的得到将/>与X₁相乘，输出结果与/>进行Concat拼接，产生融合特征图K₁；

将K₄、X₄、K₃、K₂、K₁分别通过F(·)进行降维，得到级联特征融合模块输出的融合特征图T₅、T₄、T₃、T₂、T₁。

7.如权利要求1所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述步骤四包括：

S41、把所述步骤二得到的特征图中的每个点映射回所述原始图像感受野的中心点，并将所述中心点作为基准点，围绕所述基准点选取n个不同的尺寸和比例的锚框；

S42、使用Softmax分类器给所述锚框分配一个二进制标签，所述二进制标签为前景锚框和背景锚框，提取前景锚框；

S43、通过边框回归器得到前景锚框到真实框之间的变换参数，根据所述变换参数调整前景锚框使前景锚框更接近真实框；

S44、根据调整后的前景锚框获取候选框，再通过非极大值抑制算法剔除重叠和超出边界的候选框，得到可能存在目标的候选框。

8.如权利要求1所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述五个不同尺度的融合特征图由浅到深分别为T₁、T₂、T₃、T₄、T₅，所述步骤五中将所述T₁、T₂、T₃、T₄输入到基于RoI Align的目标检测头。

9.如权利要求8所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述步骤五为：

S51、遍历所述可能存在目标的候选框，对所述可能存在目标的候选框浮点数边界不做量化取整操作；

S52、将所述可能存在目标的候选框划分为L×L个子区域，对每个子区域中的边界也不做量化取整操作，L为大于1的正整数；

S53、在每个子区域内均匀的取N个点；在融合特征图上、对于N个点中的每个点，均找到与其离得最近的4个像素点；通过双线性差值的方式，获得坐标为浮点数的像素点在特征图上的数值；

S54、对每个子区域内N个点的所述数值取平均值，得到每个子区域的输出；

S55、根据每个子区域的输出，所述通过检测头的全连接层的分类和回归分支得到目标检测结果。

10.如权利要求9所述的基于Transformer和级联特征的目标检测方法，其特征在于，所述S53中所述融合特征图为：融合特征图T₁、T₂、T₃、T₄中感受野最接近可能存在目标的候选框尺寸的融合特征图。