CN115908772A

CN115908772A - 一种基于Transformer和融合注意力机制的目标检测方法及系统

Info

Publication number: CN115908772A
Application number: CN202211475396.6A
Authority: CN
Inventors: 赵志刚; 张兆虔; 耿丽婷; 霍吉东; 李传涛; 王春晓; 张俭; 李响
Original assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-04-04

Abstract

本发明提出了一种基于Transformer和融合注意力机制的目标检测方法，包括：获取待检测图像进行预处理；将预处理后的待检测图像输入至训练好的目标检测模型中，输出检测结果；其中，所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块，所述Swin Transformer模块用于提取待检测图像的全局特征，所述注意力融合模块用于局部特征提取，并将全局特征和局部特征采用跨层级联的方式进行融合，所述检测模块用于根据融合后的特征输出检测结果。融合局部感受野与Transformer的全局信息，以进一步提升局部特征与全局信息融合的能力，增强低信噪比目标的检测效果。

Description

一种基于Transformer和融合注意力机制的目标检测方法及系统

技术领域

本发明属于深度学习计算机视觉相关技术领域，尤其涉及一种基于Transformer和融合注意力机制的目标检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着近两年深度学习技术的发展，越来越精良的模型结构应运而生，2020年以前，图像视觉领域大多采用卷积神经网络(CNN)用于图像特征提取，卷积神经网络采用分层方式进行特征表示，相较于自然语言处理(NLP)采用序列进行特征表示，CNN需要逐层积累，由浅入深提取更高级的语义信息特征。即便如此CNN所获取的实际感受野仍远小于理论感受野，不利于特征信息的捕获，反而带来了计算量的剧增。为此不少学者开始尝试将NLP领域应用的Transformer应用于计算机视觉(CV)领域。2020年Google提出ViT模型验证了Transformer模型在图像分类领域的有效性。由此，基于Transformer的CV时代得以展开。Swin Transformer模型提出于CVPR2021，该模型通过shifted windows来计算，针对视觉实体的尺度变换以及图像高分辨问题，借助Shifted Windows Multi-Head Self-Attention(SW-MSA)概念，实现信息在相邻窗口间的传递，加强上下文联系，Swin Transformer在性能上展现了较好的优势，但其更倾向于获取图像的全局特征，对于局部信息的提取能力不强，而目标检测任务中存在较多低信噪比的目标特征，为此存在局部边缘纹理等特征信息提取能力弱的情况。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于Transformer和融合注意力机制的目标检测方法及系统，采用Swin Transformer技术作为骨干网络应用于目标检测任务中。同时提出AGFF方法融合局部感受野与Transformer的全局信息，以进一步提升局部特征与全局信息融合的能力，增强低信噪比目标的检测效果。同时采用YOLOX检测器完成检测任务。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：一种基于Transformer和融合注意力机制的目标检测方法，包括：

获取待检测图像进行预处理；

将预处理后的待检测图像输入至训练好的目标检测模型中，输出检测结果；

其中，所述目标检测模型包括Swin Transformer模块、注意力融合模块和检测模块，所述Swin Transformer模块用于提取待检测图像的全局特征，所述注意力融合模块用于局部特征提取，并将全局特征和局部特征采用跨层级联的方式进行融合，所述检测模块用于根据融合后的特征输出检测结果。

本发明的第二个方面提供一种基于Transformer和融合注意力机制的目标检测系统，包括：

图像获取模块：获取待检测图像进行预处理；

目标检测模块：将预处理后的待检测图像输入至训练好的目标检测模型中，输出检测结果；

本发明的第三个方面提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法所述的步骤。

本发明的第四个方面提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法所述的步骤。

以上一个或多个技术方案存在以下有益效果：

在本发明中，将Transformer模型应用于目标检测任务中，融合卷积神经网络，提高模型捕获特征能力。首先Swin Transformer可借助Shifted Windows实现相邻窗口信息交互和传递，弥补ViT中只在窗口内进行特征交互的缺陷。同时在检测层分支处，引入三个1×1卷积层，实现维度变换的同时获取局部边缘纹理特征信息，以提升模型的特征提取能力。

在本发明中，提出了一种注意力全局特征融合方法(AGFF)，该方法是将局部感受野信息与全局信息做融合，该方式采用跨层级联的方式，融合语义和尺度不一致的特征，将不同层的语义信息融合的同时，获取到由Transformer处得到的全局信息，在此基础上，将局部感受野信息与全局信息作进一步融合处理以实现特征融合。

在本发明中，采用YOLOX检测器，该检测器采用Anchor-Free机制，具有更高的灵活性和适应性。同时采用分支解耦头部，极大的改善了收敛速度。引入SimOTA方法，自动分析每个ground truth(GT)所需样本数，自适配GT对应特征图以完成检测任务。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中Mosaic操作的数据预处理的示意图；

图2为本发明实施例一中MixUP操作的数据预处理的示意图；

图3为本发明实施例一中目标检测模型的整体结构示意图；

图4为本发明实施例一中Swin Transformer block结构图；

图5为本发明实施例一中AGFF的结构图；

图6为本发明实施例一中模型预测效果图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图3所示，本实施例公开了一种基于Transformer和融合注意力机制的目标检测方法，包括：

获取待检测图像进行预处理；

在本实施例中，首先划分数据，包含训练样本和测试样本，其中80％为训练样本，20％为测试样本。

预处理中采用数据形状变换、色域变换等方式对图像进行增强，如常规的几何变换(如图像翻转、缩放、旋转、移位等)、颜色变换(如模糊处理、色域处理、噪声、填充等)以及混类增强(如Mixup操作)。如图1-2所示，基于此本实施例采用Mosaic和Mixup操作，丰富数据集背景，实现图像的融合处理，以达到扩充数据集的作用。

在本实施例中，Swin Transformer模块主要包含4个layer层进行特征提取，在进行特征提取前，需先将图片进行分片处理，输入图片448×448，经过Patch Partition模块，设置patch size为4×4，设置embed_dim为96，即经过该层后此时卷积特征图变为112×112，通道数为96；随后进入4个layer层。

(1)layer1层：首先经过linear embedding层，linear embedding层以一个带有LayerNorm(LN)操作的卷积结构实现，负责将特征图拉直为12544×96。然后通过SwinTransformer Block层实现对特征序列的处理。Swin Transformer Block层包含W-MSA结构以及SW-MSA结构。设置窗口大小为14×14，将原始12544的长度序列，变为196长度序列的问题，以减少计算复杂度。同时设置深度depths为2，即连续经过两个Swin TransformerBlock层。输出矩阵向量为[-1,3136,192]，此时采用1×1的卷积对矩阵向量进行特征变换，得到大小为56×56，通道数为192的特征图，向量为[-1,56,56,192]。为融合全局和局部特征信息，这里引入了AGFF模块，将经过1×1的卷积输出的第一特征图与linear embedding层的输出作为AGFF模块的输入，进行全局特征信息融合后得到大小仍为56×56，通道数为192的第四特征图作为YOLOX的预测分支头记作f1。

(2)layer2层：相较于layer1层，layer2层首先经过Patch Merging层，降低图像的分辨率，起到下采样的作用。经过改成后将特征图变为大小为28×28，通道数为384的特征图。同时经过两层Swin Transformer block层，最后得到的特征图仍为28×28。此时并未进行与AGFF融合的过程，而是直接经过1×1卷积进行维度变换操作，得到第二特征图作为YOLOX的预测分支头记作f2。

(3)layer3层：首先经过Patch Merging层，得到大小为14×14的特征图。随后经过Swin Transformer block层时设置了depths为6，最后得到的特征图为14×14，通道数为768。该层既没有进行AGFF融合操作也没有进行1×1卷积操作。

(4)layer4层：首先经过Patch Merging层，随后经过两层Swin Transformerblock层，最后得到的特征图为7×7，随后引入1×1卷积输出第三特征图。引入了AGFF模块，将经过1×1卷积输出的第三特征图与Patch Merging层的输出作为AGFF模块的输入，进行全局特征信息融合后得到大小为7×7，通道数为768的第五特征图作为YOLOX的预测分支头记作f3。

具体的，实施例中的Swin Transformer Block由LN、MLP以及W-MSA结构以及SW-MSA结构组成，如图4所示，首先输入的特征图先经过LN层做样本归一化，随后经过W-MSA结构，在窗口内使用多头注意力模块以降低计算复杂度。Swin Transformer Block的输入特征图x0与W-MSA结构的输出特征图通过残差结构实现信息融合相加得到特征图输出x₁。随后依次级联LN层与MLP结构，MLP的输出特征图与特征图x1通过残差结构实现信息融合相加得到x₂。

W-MSA结构相较于ViT结构中的特征图内部进行信息交互和沟通的方法使信息上下文间失去联系，针对该问题W-MSA结构首先对特征图进行分割，分割为多个窗口，并在每个窗口内执行MSA内部信息像素匹配，以达到降低计算量的作用。其中MLP层如图4中MLPBlock结构所示，其包含Linear层、GELU激活函数以及Dropout操作。

但是W-MSA结构的使用未考虑到窗口间交互，使窗口和窗口间的信息无法互通，影响全局视野的捕获，为此引入SW-MSA结构，x₂特征图输入至LN层，将LN层的输出输入至SW-MSA结构，SW-MSA结构对窗口实现像素偏移(偏移值为

)，实现多个窗口间实现信息交流。此时Swin Transformer中所采用的注意力机制公式可表示为：

其中，Q为查询向量，K为键向量，V为值向量，d_k为k的长度，B为偏置。x₂特征图与SW-MSA结构的输出特征图实现残差特征相加后，再依次经过LN层以及MLP层输出最终特征图。

如图5所示，本实施的注意力融合模块即AGFF模块首先级联多层感受野的信息，采用全局池化方式将全局特征信息压缩。将两个输入特征图(y,z)实现特征融合相加，得到融合特征图U。为获取通道间特征关系，分为最大池化(max_pooling)表示特征为

以及平均池化(avg_pooling)表示特征为

两个分支对特征图(U)实现空间维度压缩，通过带有瓶颈结构的共享网络(SharedMLP)将两个分支的像素点位置元素相加，得到特征融合信息M_c(U)，该过程可表示为公式(2)，其中σ表示Sigmoid函数，W₁及W₀代表权重：

经过最大池化后所得特征图记作m_out，经过平均池化后的特征图记作a_out。SharedMLP由m_out及a_out作为分支输入，每一个分支进行相同的操作：包括依次顺序连接的1×1卷积块、RELU和1×1卷积块，最后将两个分支实现特征相加，通过Sigmoid函数得到最终的特征图输出M_c(U)，记作F。

随后引入Global_MLP结构，将所得特征图与获取不同感受野的初始全局分支相融合，实现全局信息与局部信息的融合。

具体的，Global_MLP结构有三个分支，第一个分支输入特征图为F经过全局池化(global_pool)操作，实现每个通道维度的信息压缩，该过程可表示为：

其中，H和W代表特征图大小(高、宽)。

获取当前通道的全局信息，依次引入fc1、GELU、fc2结构，该结构是带有瓶颈结构的全连接层，在降低模型复杂度和参数量的同时提升模型的泛化能力，后为自适应不同通道的关注度，采用Sigmoid激活函数，获取不同通道的权重系数，自适应学习重要特征。将第一分支的输出特征信息M_c(F)，记作W_c1。

第二个分支将保留了当前的位置信息的特征图F，与第一个分支获取的通道信息W_c1点乘实现信息融合交互，输出特征图记作W_c2，同时与第三个分支所得的特征信息记作W_c3实现融合相加，最终输出特征图记作out，该过程可表示为：

其中，F_scale代表点积操作。

第三分支输入特征图F首先也经过一个全局池化操作获取当前全局信息，同时通过瓶颈结构，该结构由带有卷积和BN融合加速的1×1卷积和ReLU组成。该结构包括依次顺序连接带有BN层的1×1卷积、ReLU、带有BN层的1×1卷积。

将经过Global_MLP操作后的特征图结果记作G，为获取全局特征信息，将初始特征信息U与当前特征信息G融合相加后经过ReLU激活函数得到最终的特征输出。

在本实施例中，检测模块采用YOLOX检测器，该检测器采用Anchor-Free机制，具有更高的灵活性和适应性。同时采用分支解耦头部，极大的改善了收敛速度。引入SimOTA方法，自动分析每个ground truth(GT)所需样本数，自适配GT对应特征图以完成检测任务。

在本实施例中，骨干网络部分输出后得到的三层预测分支，其特征图分别为：f1、f2、f3，在进入预测层前，先经过Neck层，该层采用feature pyramid networks(FPN)自顶向下方式进行，其过程为：f3特征图经过CBL层以及上采样等操作后得到的特征图与f2层特征图实现特征对齐，实现特征相加后输出特征图F2；f2经过CBL层以及上采样等操作后与f1进行特征相加得到特征图F1。

Head层中沿用了YOLOX所改进的耦合检测机制，通过分支结构进行预测，在解耦Head层中有三个预测分支结构，操作一致。特征图F2、特征图F1和f3特征图分别输入至解耦Head层的三个分支结构中。

以Head层中的一个预测分支为例进行说明，首先输入特征图F2或特征图F1或f3特征图连续经过多组CBL操作，将特征通道数减少至256个通道，随后采用两个分支结构形式，每个分支有CBL层，采用3×3卷积操作，分别用于分类和回归。其中，两个分支结构中的第一分类分支中采用卷积核sigmoid操作实现分类任务(Cls)，其作用为判断每一个特征点所包含的物体种类；第二回归分支该分支又解耦了两个分支，分别代表Reg以及Obj。Reg是判断每一个特征点的回归参数以获取预测框，Obj的作用是判断每个特征点中是否包含物体。

将Cls、Reg以及Obj三个分支做concat操作以及sigmoid函数后得到预测特征图。

最后，将三条预测分支结果做concat处理，得到最终输出结果out。Neck层以及Head层的操作如图3所示，其中CBL结构由卷积、BN和Leaky ReLU组成。

在分支解耦阶段，Yolo系列中通常是将Cls、Reg、Obj三个Head层组合在于一起实现分类和回归操作，可表达为：[H,W,anchor×(C+4+1)]。其中cls用于识别图像类别占用C个通道数，Reg用于坐标标记，占用4个通道数，最后一个用于区分目标背景和前景即obj，占用1个通道。而分支解耦即将Head层分离实现[cls,reg,obj]的解耦。

首先采用1×1卷积降维至通道数为256，通过两个并行分支分别进行reg(损失表示为L_reg)和cls(损失表示为L_cls)，同时在reg分支中添加IoU(损失表示为L_IoU)。经过分支解耦后仍可得到三条分支结构，其表达为：[H,W,C]、[H,W,4]、[H,W,1]。L_cls以及L_IoU采用BCELoss(Binary CrossEntropy Loss)损失函数，L_reg采用IoULoss损失。解耦分支预测损失为，其中N_pos为划分的正样本数：

模型训练阶段共迭代100次，设置batch_size为8。采用Swin Transformer结合注意力全局特征融合方法，将Transformer捕获的全局特征与CNN的局部纹理特征结合，实现全局+局部的视觉特征提取。通过注意力全局特征融合方法，级联不同层的感受野信息，将其进行特征融合进一步提升模型的特征表达能力。模型迭代优化后取最优权值，得到训练模型，并通过该模型预测测试集样本，实现样本类型识别与定位。

图6为该实施例所提出的算法应用于华为云杯生活垃圾检测任务中的预测效果图。

实施例二

本实施例提出一种基于Transformer和融合注意力机制的目标检测系统，包括：

图像获取模块：获取待检测图像进行预处理；

在图像获取模块中，采用划分数据集，划分训练、测试数据样本集。数据预处理中采用数据形状变换、色域变换等方式对图像进行增强，如常规的几何变换(如图像翻转、缩放、旋转、移位等)、颜色变换(如模糊处理、色域处理、噪声、填充等)以及混类增强(如Mixup操作)。基于此本实验采用Mosaic和Mixup操作，丰富数据集背景，实现图像的融合处理，以达到扩充数据集的作用。

目标检测模块包括Transformer模块、注意力融合模块和YOLOX检测模块。

Transformer模块：将经过预处理后的数据输入模型中，该模型骨干网络部分采用Swin Transformer，首先对图片分片处理，主要包含4个layer层进行特征提取，通过滑动窗口的方式，移动窗口学习到语义特征，增强了上下层间的联系和交互，提升全局建模能力。

注意力融合模块：该模块级联不同层的感受野，融合多层感知信息，同时加入普通卷积层模块，变换维度的同时也获取一定的局部特征信息，进一步提升模型精度。采用AGFF进行特征融合时，引入了1×1卷积模块，不仅可以实现Transformer的维度变换，同时也可实现AGFF结构与Transformer结构特征融合处理。

YOLOX检测模块：将Swin Transformer与AGFF模块做融合处理后，得到三层分支结构，Neck层采用FPN自顶向下进行高阶与低阶特征信息融合。同时得到三层预测分支，通过YOLOX的解耦分支方式以及SimOTA方法实现模型检测。

对于目标检测模块的训练和预测：模型训练阶段共迭代100次，设置batch_size为8。采用Swin Transformer结合注意力全局特征融合方法，将Transformer捕获的全局特征与CNN的局部纹理特征结合，实现全局+局部的视觉特征提取。通过注意力全局特征融合方法，级联不同层的感受野信息，将其进行特征融合进一步提升模型的特征表达能力。模型迭代优化后取最优权值，得到训练模型，并通过该模型预测测试集样本，实现样本类型识别与定位。

实施例三

本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时执行上述方法的步骤。

以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，包括：

获取待检测图像进行预处理；

其中，所述目标检测模型包括Swin Transformer模块、、注意力融合模块和检测模块，所述Swin Transformer模块用于提取待检测图像的全局特征，所述注意力融合模块用于局部特征提取，并将全局特征和局部特征采用跨层级联的方式进行融合，所述检测模块用于根据融合后的特征输出检测结果。

2.如权利要求1所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，所述Swin Transformer模块包括依次顺序连接的4个layer层，其中，layer1层包括依次连接的linear embedding层和2个Swin Transformer Block层；layer2层包括依次连接的Patch Merging层和2个Swin Transformer Block层；layer3层包括依次连接的PatchMerging层和6个Swin Transformer Block层；layer4层包括依次连接的Patch Merging层和2个Swin Transformer Block层。

3.如权利要求1所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，所述Swin Transformer Block层包括W-MSA结构以及SW-MSA结构，所述W-MSA结构对特征图进行分割，分割为多个窗口；所述SW-MSA结构对分割的多个窗口进行像素偏移，使多个窗口实现信息交流。

4.如权利要求2所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，1×1的卷积层分别对layer1层的输出特征图、layer2层的输出特征图以及layer4层的输出特征图进行维度变换分别得到第一特征图、第二特征图、第三特征图。

5.如权利要求4所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，分别将layer1层的linear embedding层的输出特征图与第一特征图、layer4层的Patch Merging层的输出特征图和layer4层的输出的第三特征图作为所述注意力融合模块的输入进行特征融合后输出第四特征图和第五特征图。

6.如权利要求5所述的一种基于Transformer和融合注意力机制的目标检测方法，所述注意力融合模块包括最大池化层和平均池化层，将注意力融合模块的两个输入融合相加后分别输入至两个分支最大池化层、平均池化层；将两个分支的输出结果输入至SharedMLP层，所述SharedMLP层将两个分支输出结果的像素点位置元素相加，得到特征融合信息；将所述特征融合信息输入至Global_MLP层进行不同层的融合；

其中，所述Global_MLP层包括三个分支，第一分支包括顺序连接的全局池化层、全连接层、GELU激活函数、全连接层和Sigmoid激活函数；

第二分支将所述第一分支的输出与SharedMLP层的输出点乘进行信息融合，然后与第三分支的的输出融合相加；

第三分支包括依次顺序连接的全局池化层、1×1卷积和BN层、ReLU、1×1卷积和BN层。

7.如权利要求5所述的一种基于Transformer和融合注意力机制的目标检测方法，其特征在于，所述第四特征图、layer2层输出的特征图、第五特征图分别作为预测模块的三个预测分支，所述预测模块采用YOLOX检测器；

或，所述YOLOX检测器的Head层包括是三个相同的分支，其中一个分支包括依次连接的CBL层、并列的CBL层、Concat层和sigmoid；其中一个并列的CBL层后顺序连接卷积层、sigmoid；另外一个并列的CBL层后连接并列的卷积层，其中一个卷积层后连接sigmoid。

8.一种基于Transformer和融合注意力机制的目标检测系统，其特征在于，包括：

图像获取模块：获取待检测图像进行预处理；

其中，所述目标检测模型包括Swin Transformer模块、CNN模块、注意力融合模块和检测模块，所述Swin Transformer模块用于提取待检测图像的全局特征，所述注意力融合模块用于局部特征提取，并将全局特征和局部特征采用跨层级联的方式进行融合，所述检测模块用于根据融合后的特征输出检测结果。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如权利要求1-7中任一项所述的一种基于Transformer和融合注意力机制的目标检测方法中的步骤。

10.一种处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的一种基于Transformer和融合注意力机制的目标检测方法中的步骤。