CN114743017A

CN114743017A - 基于Transformer全局与局部注意力交互的目标检测方法

Info

Publication number: CN114743017A
Application number: CN202210399175.9A
Authority: CN
Inventors: 王坤峰; 陈阳; 张书琴; 陈思涵
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2022-07-12

Abstract

本发明属于计算机视觉领域，具体涉及了一种基于Transformer全局与局部注意力交互的目标检测方法，旨在解决Transformer模型计算成本高、复杂度高、全局和局部交互不充分，导致目标检测结果准确性和精度低的问题。本发明包括：对待处理二维图像预处理；以图像令牌为单位进行窗口划分；基于窗口做局部多头注意力计算；局部窗口下采样，拼接为一个新的全局窗口并做全局多头注意力计算；进行全局和局部的交互，使全局信息的补充到局部信息；进行图像令牌合并获得多尺度特征后送入目标检测模块，获取待处理二维图像的感兴趣区域的类别及位置坐标。本发明具有较强的特征表达能力，可以克服复杂环境下目标存在的巨大差异性，具有较高的处理速度，并能获取更精准的检测结果。

Description

基于Transformer全局与局部注意力交互的目标检测方法

技术领域

本发明属于计算机视觉领域，具体涉及了一种基于Transformer全局与局部注意力交互的目标检测方法。

背景技术

目标检测一直是计算机视觉领域中的核心任务。计算机收集存储学习现实世界的图像，提取深层特征最终精准高效的捕获图像中感兴趣的区域，并在该目标周围绘制边界框，得到其类别信息与二维坐标信息。随着智能化与信息化时代的发展，目标检测技术越来越渗透在实际应用中，如自动驾驶、人脸识别、公共安全等，在学术界或商业界具有很大的现实研究意义与价值。

目前主流目标检测方法分为基于传统卷积的深度学习方法与基于Transformer自注意力机制新型模型检测方法。传统卷积方法通过有无候选框生成分为两阶段和单阶段两类。两阶段方法首先学习生成候选框，而后基于回归进行定位；单阶段方法不生成候选框而是基于整幅图像直接做回归任务。Transformer模型首先应用在自然语言理解(NLP)领域，其利用编码器-解码器和自注意力机制实现对信息的并行计算而突破传统卷积方法的时序限制，编码器由若干个自注意力模块和前馈神经网络堆叠构成，其中自注意力机制通过计算查询向量Q和一系列键值向量K的注意力系数代表数据或特征间重要性，然后再作用到值向量V，从而筛选大量冗余信息而聚焦自身信息，减少对外部信息的依赖。解码器整体和编码器结构类似，只是多了一个用于与编码器的输出进行交互的多头注意力机制。随后，Transformer逐步向视觉领域拓展，相比传统卷积模型，基于Transformer自注意力机制检测模型作为信息提取的骨干网，不仅可以通过捕获图像高级语义特征更有利于判断物体类别及位置信息，而且可以实现计算并行化处理。

总的来说，现有技术还存在以下问题：基于深度学习的两阶段和单阶段方法网络结构庞大复杂，且像素间的长距离信息依赖性被丢失，导致检测精度不高；基于自注意力机制的Transformer模型补充基于深度网络学习模型的视野局限缺点，具有对长距离特征的建模能力，但自注意机制的全局交互的二次复杂度阻碍其在密集预测任务的应用，另外对全局信息的提取过于集中而导致局部和全局交互不充分。

发明内容

为了解决现有技术中的上述问题，即Transformer模型计算成本高、复杂度高、全局和局部交互不充分，导致目标检测结果准确性和精度低的问题，本发明提供了一种基于Transformer全局与局部注意力交互的目标检测方法，该目标检测方法包括：

将待处理图像划分为4*4的图像令牌，线性投影成高纬度向量，并对投影的第一初始特征图进行第一设定次数的全局局部注意力特征变换，获得第一特征图；

对所述第一特征图进行图像令牌合并，并对合并的初始第二特征图进行第二设定次数的全局局部注意力特征变换，获得第二特征图；

对所述第二特征图进行图像令牌合并，并对合并的初始第三特征图进行第三设定次数的全局局部注意力特征变换，获得第三特征图；

对所述第三特征图进行图像令牌合并，并对合并的初始第四特征图进行第四设定次数的全局局部注意力特征变换，获得第四特征图；

将所述第二特征图、所述第三特征图和所述第四特征图的特征信息分别输入检测头，获得目标检测结果。

在一些优选的实施例中，所述图像令牌合并，其方法为：

将所述第一特征图/第二特征图/第三特征图的每相邻2*2个图像令牌合并为1个图像令牌，并通过线性投影层最终实现特征图的分辨率2倍下采样和特征维度2倍上采样，获得初始第二特征图/初始第三特征图/初始第四特征图。

在一些优选的实施例中，所述全局局部注意力特征变换，其方法为：

对所述第一初始特征图/第二初始特征图/第三初始特征图/第四初始特征图进行层归一化处理；

将层归一化后的特征图以设定大小分割为不重叠的多个局部窗口，并分别进行每一个局部窗口的多头自注意力计算，获得局部特征图；

将所述局部特征图分别与对应的初始特征图进行残差连接，并分别进行下采样操作，将下采样的图像令牌拼接为全局窗口，进行全局窗口的多头自注意力计算，获得全局特征图；

进行所述局部窗口和所述全局窗口的跨尺度全局局部注意力计算，获得融入全局信息的局部特征图；

进行所述融入全局信息的局部特征图的窗口合并、层归一化以及多层感知机操作，获得第一特征图/第二特征图/第三特征图/第四特征图。

在一些优选的实施例中，所述多头自注意力计算，其表示为：

其中，Q，K，V代表将特征图通过线性层使特征维度扩大3倍后拆分获取的查询矩阵、键值矩阵和值矩阵，矩阵的每个张量代表窗口的像素特征，B为表征像素间的相对位置的相对位置偏移矩阵，T代表矩阵转置，

代表关系矩阵，

代表注意力关系矩阵，Softmax为将一组注意力系数转换为范围在[0,1]并且和为1的概率分布的函数，d代表通道数；

局部多头自注意力计算将查询矩阵Q、键值矩阵K和值矩阵的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示为：

MultiHead(Q，K，V)＝Concat(head₁，…，head_i，…，head_h)

其中，h为局部多头自注意力计算中头的数目，获取第一特征图的阶段，h＝3，随后获取第二特征图、第三特征图和第四特征图的阶段，h以2倍递增，head_i，i∈[1，h]为第i组查询矩阵Q、键值矩阵K和值矩阵V的进行自注意力计算的结果，Concat为横向拼接。

在一些优选的实施例中，所述跨尺度全局局部注意力计算，其表示为：

其中，Q_L为局部窗口查询矩阵，矩阵的每个张量代表局部窗口的像素特征，K_G，V_G为全局窗口键值矩阵和值矩阵，矩阵的每个张量代表全局窗口的像素特征；

全局局部多头自注意力计算将查询矩阵Q_L、键值矩阵K_G和值矩阵V_G的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示为：

GL-MultiHead(Q_L，K_G，V_G)＝Concat(head_GL-1，…，head_GL-i，…，head_GL-h)

其中，GL-h为全局局部多头自注意力计算中头的数目，获取第一特征图的阶段，GL-h＝3，随后获取第二特征图、第三特征图和第四特征图的阶段，GL-h以2倍递增，head_GL-i，GL-i∈[GL-1，GL-h]为第i组查询矩阵Q_L、键值矩阵K_G和值矩阵V_G的进行自注意力计算的结果，Concat为横向拼接。

在一些优选的实施例中，所述第一设定次数为2，第二设定次数为6，第三设定次数为12，第四设定次数为1。

在一些优选的实施例中，所述目标检测结果包括待处理图像感兴趣区域的边界框、目标类别及位置坐标。

本发明的另一方面，提出了一种基于Transformer全局与局部注意力交互的目标检测系统，该目标检测系统包括预处理模块、阶段一模块、阶段二模块、阶段三模块、阶段四模块、特征融合及目标检测模块；

所述预处理模块，配置为将待处理图像划分为4*4的图像令牌，线性投影成高纬度向量，获得第一初始特征图；

所述阶段一模块，配置为对所述第一初始特征图进行第一设定次数的全局局部注意力特征变换，获得第一特征图；

所述阶段二模块，配置为对所述第一特征图进行图像令牌合并，并对合并的初始第二特征图进行第二设定次数的全局局部注意力特征变换，获得第二特征图；

所述阶段三模块，配置为对所述第二特征图进行图像令牌合并，并对合并的初始第三特征图进行第三设定次数的全局局部注意力特征变换，获得第三特征图；

所述阶段四模块，配置为对所述第三特征图进行图像令牌合并，并对合并的初始第四特征图进行第四设定次数的全局局部注意力特征变换，获得第四特征图；

所述目标检测模块，配置为将所述第二特征图、所述第三特征图和所述第四特征图的特征信息分别输入检测头，获得目标检测结果。

本发明的第三方面，提出了一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述的基于Transformer全局与局部注意力交互的目标检测方法。

本发明的第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于Transformer全局与局部注意力交互的目标检测方法。

本发明的有益效果：

(1)本发明基于Transformer全局与局部注意力交互的目标检测方法，通过基于窗口注意力的分层视觉Transformer骨干网，缓解Transformer在密集预测任务和图片像素大小呈二次复杂度问题，大大节省资源消耗、提升效率。

(2)本发明基于Transformer全局与局部注意力交互的目标检测方法，通过全局局部交互机制使用每一个局部窗口和带有丰富高级语义信息的全局窗口进行跨尺度和层次的交互，更充分利用全局信息，解决了由于全局信息高度集中化而导致的交互不充分问题，进一步提升后续目标检测结果的准确性和精度。

(3)本发明基于Transformer全局与局部注意力交互的目标检测方法，能够作为一种通用的特征提取框架，和各种检测器结合，在目标检测公开数据集COCO上检测精度更高，性能优于之前取得SOTA效果的Swin Transformer，为自动驾驶、人脸识别、车辆检测等密集检测领域提供一种有效的方法。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本发明基于Transformer全局与局部注意力交互的目标检测方法的流程示意图；

图2是本发明基于Transformer全局与局部注意力交互的目标检测方法的总结架构图；

图3是本发明基于Transformer全局与局部注意力交互的目标检测方法一种实施例的局部与全局注意力计算示意图；

图4是本发明基于Transformer全局与局部注意力交互的目标检测方法一种实施例的全局与局部注意力交互示意图；

图5是本发明基于Transformer全局与局部注意力交互的目标检测方法一种实施例的目标检测结果可视化图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本发明的一种基于Transformer全局与局部注意力交互的目标检测方法，该目标检测方法包括：

为了更清晰地对本发明基于Transformer全局与局部注意力交互的目标检测方法进行说明，下面结合图1对本发明实施例中各步骤展开详述。

本发明第一实施例的基于Transformer全局与局部注意力交互的目标检测方法，包括步骤S10-步骤S50，各步骤详细描述如下：

步骤S10，将待处理图像划分为4*4的图像令牌，线性投影成高纬度向量，并对投影的第一初始特征图进行第一设定次数的全局局部注意力特征变换，获得第一特征图。

如图2所示，为本发明基于Transformer全局与局部注意力交互的目标检测方法的总结架构图，将进行目标检测之前的特征处理过程划分为四个阶段，获取第一初始特征图和第一特征图的过程称为阶段一(Stage 1)，包括图像令牌嵌入和2个全局局部交互模块，获取第二初始特征图和第二特征图的过程称为阶段二(Stage 2)，包括令牌下采样和6个全局局部交互模块，获取第三初始特征图和第三特征图的过程称为阶段三(Stage 3)，包括令牌下采样和12个全局局部交互模块，获取第四初始特征图和第四特征图的过程称为阶段四(Stage 4)，包括令牌下采样和1个全局局部交互模块。

本发明一个实施例中，待处理图像大小为H*W*3，H*W为待处理图像的高和宽，3为待处理图像的原始特征维度，将待处理图像通过二维卷积划分为(H/4)*(W/4)个非重叠的4*4的图像令牌，通过线性投影将待处理图像的原始特征维度3转换为C，获得(H/4)*(W/4)*C的特征图，即第一初始特征图。

如图3所示，为本发明基于Transformer全局与局部注意力交互的目标检测方法一种实施例的局部与全局注意力计算示意图，具体过程如下：

步骤S11，对第一初始特征图进行层归一化处理，加快训练收敛，增强数据特征分布的稳定性，其计算方法如式(1)所示：

其中，x和x′分别为归一化前和归一化后的特征图图像特征的像素信息，μ和σ分别为归一化前的特征图通道中的像素的均值和方差。

步骤S12，将层归一化后的特征图以设定大小分割为不重叠的多个局部窗口，并分别进行每一个局部窗口的多头自注意力计算，获得局部特征图。

本发明一个实施例中，为了更有效的建模，以图像令牌为单位，将7*7大小的图像令牌对第一初始特征图以不重叠的方式均匀分割为多个局部窗口。

以局部窗口为单位进行局部的多头自注意力计算，增强局部窗口像素间的关联性，其计算方法如式(2)所示：

代表关系矩阵，

代表注意力关系矩阵，Softmax为将一组注意力系数转换为范围在[0,1]并且和为1的概率分布的函数，d代表通道数。

局部多头自注意力计算将查询矩阵Q、键值矩阵K和值矩阵的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示如式(3)所示：

MultiHead(Q，K，V)＝Concat(head₁，…，head_i，…，head_h) (3)

以局部窗口为单位进行局部的多头自注意力计算，增强局部窗口像素间的关联性的具体过程描述如下：

步骤S121，对第一特征图通过线性层使特征维度扩大3倍并拆分为查询矩阵Q、键值矩阵K和值矩阵V。

步骤S122，计算查询矩阵Q和键值矩阵K中每个像素间的特征内积，为了防止内积过大除以d的平方根，得到关系矩阵。

步骤S123，由于局部窗口中的像素在高和宽维度上的相对位置都在[-7+1，7-1]范围内，共有13个取值，采用二维相对位置编码，设置形状为13*13大小的可学习变量，由相对编码位置索引得到相对位置编码，和关系矩阵相加，获得注意力关系矩阵。

步骤S124，将注意力关系矩阵在最后一个维度进行softmax计算，得到局部注意力关系图，计算方法如式(4)所示：

其中，z_i代表注意力关系矩阵中第i个内积值，C为注意力关系矩阵中张量的数量，通过Softmax函数就可以将多分类的输出值转换为范围在[0,1]并且和为1的概率分布。

步骤S125，将局部关系图与值矩阵V相乘，得到进过局部窗口自注意力计算的局部特征图。

步骤S13，将所述局部特征图分别与第一初始特征图进行残差连接，更新局部特征图，用于解决多层网络训练的问题，可以让模型更关注当前差异部分。然后对每个更新局部特征图分别通过卷积进行下采样操作。为了保证全局局部注意力计算过程的有效性，每个局部窗口下采样的图像令牌数和阶段相关，阶段一的每个局部窗口下采样为1个图像令牌，随着阶段数的增加，每个局部窗口经过下采样生成以4倍递增的图像令牌数。将下采样的图像令牌拼接为全局窗口，进行全局窗口的多头自注意力计算，获得全局特征图。

全局特征图的全局的多头自注意力计算过程与局部的多头自注意力计算过程相同，即步骤S121-步骤S125的过程。

步骤S14，如图4所示，本发明基于Transformer全局与局部注意力交互的目标检测方法一种实施例的全局与局部注意力交互示意图，进行所述局部窗口和所述全局窗口的跨尺度全局局部注意力计算，突破Q，K，V矩阵来自同一特征空间的限制，通过全局局部交互将全局信息补充到局部窗口，获得融入全局信息的局部特征图，计算方法如式(5)所示：

其中，Q_L为局部窗口查询矩阵，矩阵的每个张量代表局部窗口的像素特征，K_G，V_G为全局窗口键值矩阵和值矩阵，矩阵的每个张量代表全局窗口的像素特征。

全局局部多头自注意力计算将查询矩阵Q_L、键值矩阵K_G和值矩阵V_G的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示如式(6)所示：

GL-MultiHead(Q_L，K_G，V_G)＝Concat(head_GL-1，…，head_GL-i，…，head_GL-h) (6)

对局部窗口和全局窗口做跨尺度全局局部注意力计算，通过全局局部交互将全局信息补充到局部窗口的具体过程包括：

步骤S141，计算大小为7*7的局部窗口查询矩阵中每个Q_L和大小为M*N全局窗口中每个K_G的特征内积，为了防止内积过大除以d的平方根，获得关系矩阵。

步骤S142，与步骤S123和步骤S124相似，将步骤S141的关系矩阵加上相对位置编码并在最后一个维度进行Softmax计算，得到大小为(m*n)*(M*N)的全局局部注意力计算图。

步骤S143，将全局局部注意力计算图与V_G相乘，最终得到和原局部窗口大小相同的全局局部交互窗口。

步骤S15，进行融入全局信息的局部特征图的窗口合并、层归一化以及多层感知机操作，获得第一特征图。

将多个全局局部交互窗口的图像特征通过reshape函数重新合并为一个整体图像特征，对整体图像特征进行层归一化处理，层归一化的方法与步骤S11相同，将层归一化处理的整体图像特征通过多层感知机，获得第一特征图。

步骤S20，对所述第一特征图进行图像令牌合并，并对合并的初始第二特征图进行第二设定次数的全局局部注意力特征变换，获得第二特征图。

为了充分利用图像特征，检测不同尺度的目标，网络产生分层的具体过程如下：

步骤S21，将所述阶段一最后的输出的第一特征图在行方向和列方向上以间隔2选取元素(即将第一特征图的每相邻2*2个图像令牌合并为1个图像令牌)，并将选取的元素拼接为一个张量。

步骤S22，将所述张量通过线性投影实现对阶段一的第一特征图的分辨率2倍下采样和特征维度2倍增加。

步骤S23，将所述张量通过线性投影实现对步骤S15中“整体图像特征”的分辨率2倍下采样和特征维度2倍增加，记作阶段二的第二初始特征图。

步骤S24，将阶段二的第二初始特征送入阶段一中的“全局局部注意力模块”并重复6次(即第二设定次数为6)进行第二初始特征处理得到阶段二的第二特征图。阶段二的全局局部注意力模块对特征图的处理过程与阶段一种相同，区别仅在于输入特征图不同。

步骤S30，对所述第二特征图进行图像令牌合并，并对合并的初始第三特征图进行第三设定次数的全局局部注意力特征变换，获得第三特征图。

阶段三中通过12个全局局部注意力模块(即第三设定次数为12)进行第三初始特征处理得到阶段三的第三特征图。

步骤S40，对所述第三特征图进行图像令牌合并，并对合并的初始第四特征图进行第四设定次数的全局局部注意力特征变换，获得第四特征图。

阶段四中通过1个全局局部注意力模块(即第四设定次数为1)进行第四初始特征处理得到阶段四的第四特征图。

步骤S50，将所述第二特征图、所述第三特征图和所述第四特征图的特征信息分别输入检测头，获得目标检测结果。

目标检测结果包括待处理图像感兴趣区域的边界框、目标类别及位置坐标。

如图5所示，为本发明基于Transformer全局与局部注意力交互的目标检测方法一种实施例的目标检测结果可视化图，图片来源于COCO数据集，目标检测模块为CascadeMask R-CNN网络。

上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述，但是本领域技术人员可以理解，为了实现本实施例的效果，不同的步骤之间不必按照这样的次序执行，其可以同时(并行)执行或以颠倒的次序执行，这些简单的变化都在本发明的保护范围之内。

本发明第二实施例的基于Transformer全局与局部注意力交互的目标检测系统，该目标检测系统包括预处理模块、阶段一模块、阶段二模块、阶段三模块、阶段四模块、特征融合及目标检测模块；

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于Transformer全局与局部注意力交互的目标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种电子设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

本发明第四实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述的基于Transformer全局与局部注意力交互的目标检测方法。

所属技术领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，该目标检测方法包括：

2.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述图像令牌合并，其方法为：

3.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述全局局部注意力特征变换，其方法为：

4.根据权利要求3所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述多头自注意力计算，其表示为：

代表关系矩阵，

局部多头自注意力计算将查询矩阵Q、键值矩阵K和值矩阵V的通道数拆分为若干组，每组属于1个头，每个头独立的进行自注意力计算，并将各个头的结果进行横向拼接，其表示为：

MultiHead(Q，K，V)＝Concat(head₁，…，head_i，…，head_h)

5.根据权利要求4所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述跨尺度全局局部注意力计算，其表示为：

GL-MultiHead(Q_L，K_G，V_G)

＝Concat(head_GL-1，…,head_cL-i，…，head_GL-h)

6.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述第一设定次数为2，第二设定次数为6，第三设定次数为12，第四设定次数为1。

7.根据权利要求1所述的基于Transformer全局与局部注意力交互的目标检测方法，其特征在于，所述目标检测结果包括待处理图像感兴趣区域的边界框、目标类别及位置坐标。

8.一种基于Transformer全局与局部注意力交互的目标检测系统，其特征在于，该目标检测系统包括预处理模块、阶段一模块、阶段二模块、阶段三模块、阶段四模块、特征融合及目标检测模块；

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-7任一项所述的基于Transformer全局与局部注意力交互的目标检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现权利要求1-7任一项所述的基于Transformer全局与局部注意力交互的目标检测方法。