CN110084299A

CN110084299A - 基于多头融合注意力的目标检测方法和装置

Info

Publication number: CN110084299A
Application number: CN201910333158.3A
Authority: CN
Inventors: 蒋杰; 许辉; 方玉杰; 康来; 郭延明; 魏迎梅; 谢毓湘
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-08-02
Anticipated expiration: 2039-04-24
Also published as: CN110084299B

Abstract

一种基于多头融合注意力的目标检测方法和装置，方法包括：将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图；对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，能够实现不同尺度的特征图像信息的融合。

Description

基于多头融合注意力的目标检测方法和装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于多头融合注意力的目标检测方法和装置。

背景技术

目标检测作为计算机视觉中长期存在的基本的、具有挑战性的问题。几十年来一直是研究的热点。目标检测的任务目的是确定给定的图像中是否存在给定类别的任何实例。给定一张图片，如果存在需要检测的对象，则返回每个对象实例的空间位置和范围，例如返回边界框，作为图像理解和计算机视觉的基石，目标检测构成了解决更复杂或更高级别视觉任务的基础。但是相关技术中的目标检测存在小目标检测困难的问题。

发明内容

本发明的目的是提供一种基于多头注意力融合的目标检测方法，能够实现不同尺度的特征图像信息的融合。

为解决上述问题，本发明的第一方面提供了一种基于多头注意力融合的目标检测方法，包括：将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图；对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息。

进一步地，所述对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，还包括：将所述三个相同尺度的特征图进行连接，获取连接后的第一特征图；将所述连接后的第一特征图与原始特征图进行注意力融合，得到注意力融合结果；将所述注意力融合结果与所述原始特征图组合，获得原始预测信息。

进一步地，所述对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，还包括：将所述三个相同尺度的特征图与原始特征图分别进行注意力融合，得到注意力融合结果；将所述注意力融合结果进行连接，获得原始预测信息。

进一步地，所述对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，还包括：将所述三个相同尺度的特征图与原始特征图分别进行注意力融合，以计算注意力融合参数；将三个所述注意力融合参数进行连接，得到连接的注意力融合参数；将所述连接的注意力融合参数与原始特征图进行组合，获得原始预测信息。

进一步地，所述将所述连接后的第一特征图和/或所述三个相同尺度的特征图进行注意力融合，还包括：接收所述特征图并进行处理，获得所述特征图对应的注意力图；其中，所述特征图为所述连接后的第一特征图和所述三个相同尺度的特征图中的一种；将原始特征图进行处理，获得子原始特征图；将所述注意力图和所述子原始特征图进行处理，并进行重新整形，得到注意力融合参数；将所述接收到的特征图与所述注意力融合参数进行相加，得到所述注意力融合的结果。

进一步地，所述将原始特征图进行处理和/或将原始特征图进行处理，还包括：进行归一化处理和线性修正。

进一步地，所述将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图，还包括：采用双线性差值算法对所述三种不同尺度的特征图分别进行尺度统一。

根据本发明的另一个方面提出一种基于多头注意力融合的目标检测装置，包括：统一模块，用于将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图；多头注意力融合模块，用于对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息。

本发明的上述技术方案能够实现不同层的全局上下文信息的融合，从而提高了目标检测的性能，尤其在具有特定背景和小对象目标的类上有巨大改进。例如飞机、船、羊这些类通常有非常特殊的背景，飞机的天空、羊的草地等等同时植物通常都很小。这表明SSD中小物体检测的弱点可以通过所提出的多头注意力融合模型更好的解决，并且对于具有独特上下文的类来说，性能更好。

附图说明

图1为本发明一个具体实施例的Resnet-SSD网络的结构示意图；

图2为本发明实施例的基于多头注意力融合的目标检测方法的流程图；

图3为本发明一个具体实施例的基于Resnet-SSD网络的多头注意力融合的结构示意图；

图4为本发明一个实施例的基于多头注意力融合的目标检测方法的流程图；

图5为本发明一个实施例的基于多头注意力融合的目标检测方法的原理图；

图6为本发明另一个实施例的基于多头注意力融合的目标检测方法的流程图；

图7为本发明另一个实施例的基于多头注意力融合的目标检测方法的原理图；

图8为本发明又一个实施例的基于多头注意力融合的目标检测方法的流程图；

图7为本发明又一个实施例的基于多头注意力融合的目标检测方法的原理图；

图9为本发明再一个实施例的基于多头注意力融合的目标检测方法的流程图；

图10为本发明再一个实施例的基于多头注意力融合的目标检测方法的原理图；

图11为本发明实施例的基于多头注意力融合的目标检测装置的方框示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的，其中为了清楚的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

以下将参照附图更详细地描述本发明。在各个附图中，相同的元件采用类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。

在下文中描述了本发明的许多特定的细节，例如器件的结构、材料、尺寸、处理工艺和技术，以便更清楚地理解本发明。但正如本领域的技术人员能够理解的那样，可以不按照这些特定的细节来实现本发明。除非在下文中特别指出，半导体器件中的各个部分可以由本领域的技术人员公知的材料构成。

目标检测作为计算机视觉中长期存在的基本的和具有挑战性的问题，几十年来一直是研究的热点。目标检测的任务目的是确定给定的图像中是否存在给定类别的任何实例。给定一张图片，如果存在需要检测的对象，则返回每个对象实例的空间位置和范围(例如，通过边界框)，作为图像理解和计算机视觉的基石，目标检测构成了解决更复杂或更高级别视觉任务的基础。例如物体跟踪、图像捕获、实例分割等。目标检测在人工智能和信息技术的许多领域有广泛的应用，包括机器视觉，自动驾驶，人机交互等。

深度学习的发展极大地促进了视觉、自动化和许多其他领域的发展。相关技术中，通过深度学习从数据中自动学习特征表示的方法极大提高了目标检测的性能。因此，如何设计更好的神经网络已经成为一个对性能影响的关键问题。相关技术中，基于CNN(Convolutional Neural Networks,卷积神经网络)的目标检测器可以被分类为两阶段检测器以及单阶段检测器。前者是先由算法生成一系列作为样本的候选框，再通过卷积神经网络进行样本分类，后者则不用产生候选框，直接将目标边框定位的问题转化为回归问题处理。

在上述各种目标检测器中，为了不牺牲太多精度的情况下保持实时速度，一部分研究提出SSD(Single Shot MultiBox Detector，多分类单阶段检测器)，比YOLO(You OnlyLook Once，单杆检测器)快并且具有当时最先进的基于区域的目标检测器的准确性。SSD将YOLO的回归思想和anchor box(锚箱)机制结合。通过在不同卷积层的特征图上预测物体区域，输出离散化的多尺度、多比例的default boxes(默认框)坐标，同时利用小卷积核预测一系列候选框的边框坐标补偿和每个类别的置信度。在整副图像上各个位置用多尺度区域的局部特征图边框回归，保持YOLO算法快速特性的同时，也保证了边框定位效果。但因其利用多层次特征分类，导致其对于小目标检测困难，最后一个卷积层的感受野范围很大，使得小目标特征不明显。

在卷积神经网络出现之前，早期得的目标检测方法通常是基于滑动窗口。它们大多数被广泛应用于ROIs(region of interest，感兴趣区域)分类为各种类别。DPM(Deformable Part Model，可变型部件模型)是其中最常用的方法之一，该模型在2008年被提出，正如其名，它是一种基于组件的检测方法，也是当时最好的方法。它的基本思想是先提取DPM人工特征，再用latentSVM(隐层支持向量机)分类。这种特征提取方式存在明显的局限性：首先，DPM特征计算复杂，计算速度慢，其次，人工特征对于旋转、拉伸、视角变化的物体检测效果差。这些弊端很大程度上限制了该方法的应用场景。为了解决这个问题，另一种相关技术提出了一种基于深度神经网络的目标检测方法，它大大超过了以往方法的性能，之后几乎所有最优的目标检测方法都是基于卷积神经网络。两阶段检测器和单阶段检测器是目前主流的两种目标检测方法。

两阶段检测器大多采用卷积网络的最顶层来检测不同尺度大小的物体。这些方法首先使用单独的生成器生成候选对象集合。其中，大多数是基于超像素合并或基于滑窗算法，他们的共同特点都是主要用CNN作为分类器，不预测对象边界。尽管这些方法大大提高了检测精度，但这些方法计算量大、速度较慢。

单阶段检测器通过使用一组不同尺度的固定尺寸的锚箱覆盖整个图像，代替region proposal(候选区域)阶段。在具有高分辨率特征的浅层卷积层中检测小对象，而在具有低分辨率特征的深层卷积层中检测大对象。因此，单阶段检测器可以用更小的输入尺寸来提取丰富的特征以降低计算成本。但是，这一类方法都没有注意每个位置的局部信息，并且较低卷积层中的信息并没有得到充分利用，因此，尽管单阶段方法比两阶段方法具有许多优点，但是精确度仍然落后于两阶段检测方法。

为了改善两阶段检测器和单阶段检测器的性能，相关技术已经提出了多种策略将多尺度信息聚合到目标检测器。其中，MSCNN(Multi-scale CNN，多尺度下快速目标检测)利用各种分辨率的特征图来检测不同尺度的物体，从而产生一组可变的感受野大小用来覆盖不同物体尺寸；或者通过pooling(池化)加反卷积融合不同层的特征，不仅增加了不同层特征图之间的关系同时也增加了不同层的特征图的数量，一定程度上解决了小物体检测的问题；DSSD(Deconvolutional Single Shot Detector，反卷积单发探测器)使用额外的反卷积层增加特征映射层的分辨率并融合上下文信息；以及另一种方法引入组合特征模块，它以自上而下的方式增强上下文语义信息，进一步推断组合信息。

基于此，本申请提出了一种基于多头融合注意力的目标检测方法和装置。

下面对本申请中采用的技术特征进行介绍。

相关技术中通过将特征图与邻近层组合在一起，用来提高检测的精确度。但是，邻近层提供的信息不足以使当前层检测各种比例的对象。因此，本申请提出了多头融合特征的技术，通过多头注意力集成不同大小的特征图，获取融合特征，以提取更准确的信息。

由于相关技术中指出有效的感受野大小远小于理论上感受野的大小，导致SSD模型在小物体检测上的性能表现较差，因此，可认为SSD无法较好的检测小物体的原因是低层特征层的感受野较小，因此可以通过融合不同深度不同大小的特征图的信息，增加有效的感受野，以加强上下文联系，提高检测性能。所以，本申请提出一种多头注意力的检测方法用来融合来自不同层不同大小分辨率的特征图的信息，弥补当前层的信息，从而提高检测的性能。

SSD沿用了YOLO中直接归回bbox和分类概率的方法，同时又使用锚点来提升识别准确度。通过把这两种结果相结合，SSD保持了很高的识别速度，还能把mAP(平均精度)提升到较高的水平。同时，采用了特征金字塔结构进行预测检测结果，即检测时利用了不同大小的feature maps(特征映射)，在多个feature maps上同时进行归一化分类和位置回归。同时，它使用非最大抑制(Non-Maximum Suppression，NMS)对预测后的结果进行处理，去掉冗余的检测框，以获得最终的检测结果。

为了更好的进行分析，本申请提出的多头融合注意力检测方法MANet采用与DSSD一样的策略，第一个修改使用ResNet(Residual Neural Network，残差神经网络)代替原始SSD中使用的VGG网络，但是本申请选择的特征图尺度大小与SSD选择的特征图尺度一样。图1是一种Resnet-SSD结构，如图1所示，选择conv3_x，conv5_x,conv6_x,conv7_x，conv8_x，conv9_x输入到原始预测模块中，与SSD一样额外的增加了一系列的卷积特征层在基础网络末端。这些层在尺寸上会逐渐减小，并允许在多个尺度上对检测结果进行预测。通过实验结果可知，将SSD的基础卷积网络替换成残差网络并不会提高它的准确度反而有所下降，接来下本申请将逐步添加不同的模块提高检测的准确度。

在目标检测的任务中，直观上可以理解，底层特征层的尺度往往较大所以对小物体的检测效果较好，而越深层的特征层具有更精炼的语义信息但是对于小物体的检测效果并不是很好。因此，不同尺度特征之间关系对目标检测精度具有重要影响，不同尺度特征关系只在捕获不同尺度之间依赖关系，增强各自特征表达能力。例如DSSD只整合了最邻近的特征的信息，这是远远不够的。

由于不同特征分辨率大小的特征图，包含着不同的特征信息，SSD指出多尺度信息对于目标检测精度具有总要的影响。以往的做法通常直接将不同尺度的特征信息直接输入到预测模块，但是不同尺度各自包含的信息不足以有效的检测对象，因此，本申请通过其他不同尺度特征图的信息，弥补当前层的信息，以提高检测精确度。本申请提出了一个多头注意力融合方法，用来融合多个不同尺度之间的信息，在全局上增强不同尺度各自的特征表达能力，以提高目标检测的精度。

图2为本发明实施例的基于多头注意力融合的目标检测方法的流程图。如图2所示，本发明实施例的基于多头注意力融合的目标检测方法，包括以下步骤：

S101：将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个不同尺度的特征图。

需要说明的是，在本申请中的待检测图像为实际应用中的最初待检测的图像，如图1所示中未进行数据处理的底层图像，三种不同尺度的特征图分别为用Resnet-101作为基础网络的Resnet-SSD的卷积层3_x、卷积层6_x、卷积层7_x和卷积层8_x，如图3所示。

进一步地，在本发明实施例中，可采用双线性差值算法对三种不同尺度的特征图分别进行尺度统一，然后通过1x1卷积将通道统一到同一维度。其中，双线性插值不引入参数，计算量少。

其中，本发明一个具体实施例中将尺度38×38、19×19和10×10的三种尺度统计成5×5的尺度。

S102：对三个相同尺度的特征图进行多头注意力融合，获取原始预测信息。

需要说明的是，对于步骤S102，本申请提供了三种不同的融合方法，下面结合附图详细说明。

方法一：如图4所示，包括以下步骤：

S211：将三个相同尺度的特征图进行连接，获取连接后的第一特征图。

S212：将连接后的第一特征图与原始特征图进行注意力融合，得到注意力融合结果。

S213：将注意力融合结果与原始特征图组合，获得原始预设信息。

具体地，如图5所示，把三种不同尺度(38×38、19×19和10×10)的特征图通过线性插值整合成同一尺度(5×5)后的特征张量进行concat(连接)操作，然后直接输入到多头注意力融合模块FA(Fusion attention)中，得到注意力融合结果outpu_c。具体公式如下，其中，f_all是三个相同尺度的特征图concat后的新的特征结果(第一特征图)，f_38×38、f_19×19、f_10×10分别指被同一尺度后的三个特征图，f_5×5指原始特征图，FA是指多头融合注意力模块。

f_all＝concat(f_38×38，f_19×19，f_10×10)

output_a＝FA(f_5×5，f_all)

方法二：如图6所示，包括以下步骤：

S221：将三个相同尺度的特征图与原始特征图分别进行注意力融合，得到注意力融合结果。

S222：将注意力融合结果进行连接，获得原始预测信息。

具体地，如图7所示，把三种不同尺度(38×38、19×19和10×10)的特征图通过线性插值整合成同一尺度(5×5)后的特征张量，分别输入到多头注意力融合模块中，然后将输出的注意力融合结果进行concat操作得到最终的结果。公式如下所示，其中，f_38×38、f_19×19、f_10×10分别指被同一尺度后的三个特征图，f_5×5指原始特征图，f₁、f₂、f₃，是指f_38×38、f_19×19、f_10×10分别与原始特征图f_5×5通过多头注意力融合模块FA进行融合得到的注意力融合结果，将f₁、f₂、f₃进行concat(连接)操作得到最终的结果output_c。

f₁=FA(f_5×5，f_38×38)

f₂=FA(f_5×5，f_19×19)

f₃=FA(f_5×5，f_10×10)

output_b＝concat(f₁，f₂，f₃)

方法三：如图8所示，包括以下步骤：

S231：将三个相同尺度的特征图与原始特征图分别进行注意力融合，以计算注意力融合参数。

S232：将三个注意力融合参数进行连接，得到连接的注意力融合参数。

S233：将连接的注意力融合参数与原始特征图进行组合，获得原始预测信息。

具体地，如图9所示，与之前两个模型有一定的区别，没有直接用多头融合注意力模块，而是首先分别计算了不同尺度对应的注意力融合参数V，然后将不同尺度计算得到的注意力融合参数进行concat操作，再与原始特征图进行相加得到最终到的结果output_c。

V₁＝V(f_5×5，f_38×38)

V₂＝V(f_5×5，f_19×19)

V₃＝V(f_5×5，f_10×10)

V_c＝concat(V₁，V₂，V₃)

output_c＝V_c+f_5×5

其中，V是注意力融合的计算参数，i＝1，...N，j＝1，...N，f_ji代表特征图上位置权重，Y为后文注意力融合过程中得到的新的特征，V₁、V₂、V₃分别是通过三个被同一尺度后的三个特征图与原始特征图计算得到的融合参数，V_c是连接的注意力融合参数。

进一步地，如图9所示，将所接后的第一特征图和/或三个相同尺度的特征图进行注意力融合，还包括：

S301：接收特征图并进行处理，获得特征图对应的注意力图。

其中，特征图为连接后的第一特征图和三个相同尺度的特征图中的一种。

S302：将原始特征图进行处理，获得子原始特征图。

S303：将注意力图和子原始特征图进行处理，并进行重新整形，得到注意力融合参数。

其中，将原始特征图进行处理和/或将原始特征图进行处理，具体包括进行归一化处理和线性修正。

S304将接收到的特征图与注意力融合参数进行相加，得到注意力融合的结果。

具体地，如图10所示，接收前述方法一取得的第一特征图或方法二和方法三取得的三个相同尺度的特征图中任一幅作为X∈R^C×H×W，这里的C，H，W分别表示通道(channel)，高度(height)，宽度(width)，首先将其输入到具有批量归一化和ReLU(Rectified LinearUnit,修正线性单元)层的卷积层，生成两个新的特征F和G，其中，{F,G}∈R^C×H×W，然后将它们重新整形为R^C×N，其中，N＝H×W是特征的数量。然后，将特征F和特征G转置相乘，再经过归一化指数操作归一化获得该尺度特征的注意力图O∈R^N×N：

其中，i＝1,…N,j＝1,…N，f_ji代表特征图上位置权重，F_i，G_j是新的特征

同时，再获取前述的原始特征图W∈R^C×H×W，将特征W送到具有批量归一化和ReLU层的卷积层，以生成新的特征Y∈R^C×H×W，然后其将整形为R^C×N，将注意力图O与特征Y转置相乘，并将结果重新整形为R^C×H×W，最后，将它乘以一个尺度参数α，并用特征X进行和运算，得到最终输出T∈R^C×H×W，如下：

其中，α初始化为0并逐渐学会分配更多的权重，可以从上公式推断出最后特征T是融合两种不同特征图的结果。

因此，注意力融合模块，具有融合不同特征之间的能力，并且根据注意力融合选择性地聚合特征。实现了特征之间的相互增益，并且更加有利于目标

进一步地，原始预测信息还包括Resnet-SSD网络中的两个小比例的尺度(1×1，3×3)，为了减少计算量，本申请在多头融合注意力模块中舍弃了两个小比例的尺度(1×1，3×3)，直接将这两个尺度输入到最后的预测模块中。

综上所述，本发明的上述技术方案能够实现不同层的全局上下文信息的融合，从而提高了目标检测的性能，尤其在具有特定背景和小对象目标的类上有巨大改进。例如飞机、船、羊这些类通常有非常特殊的背景，飞机的天空、羊的草地等等同时植物通常都很小。这表明SSD中小物体检测的弱点可以通过所提出的多头注意力融合模型更好的解决，并且对于具有独特上下文的类来说，性能更好。

图11为本发明实施例的基于多头注意力融合的目标检测装置的方框示意图。如图11所示，本发明实施例的基于多头注意力融合的目标检测装置100，包括：统一模块10和多头注意力融合模块20。

其中，统一模块10用于将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图；多头注意力融合模块20用于对三个相同尺度的特征图进行多头注意力融合，获取原始预测信息。

需要说明的是，前述对基于多头注意力融合的目标检测方法实施例的解释说明也适用于该实施例的基于多头注意力融合的目标检测装置，此处不再赘述。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

在以上的描述中，对于各层的构图、刻蚀等技术细节并没有做出详细的说明。但是本领域技术人员应当理解，可以通过现有技术中的各种手段，来形成所需形状的层、区域等。另外，为了形成同一结构，本领域技术人员还可以设计出与以上描述的方法并不完全相同的方法。

以上参照本发明的实施例对本发明予以了说明。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围，本领域技术人员可以做出多种替换和修改，这些替换和修改都应落在本发明的范围之内。

尽管已经详细描述了本发明的实施方式，但是应该理解的是，在不偏离本发明的精神和范围的情况下，可以对本发明的实施方式做出各种改变、替换和变更。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种基于多头注意力融合的目标检测方法，其特征在于，包括：

将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图；

对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息。

2.根据权利要求1所述的基于多头注意力融合的目标检测方法，其特征在于，所述对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，还包括：

将所述三个相同尺度的特征图进行连接，获取连接后的第一特征图；

将所述连接后的第一特征图与原始特征图进行注意力融合，得到注意力融合结果；

将所述注意力融合结果与所述原始特征图组合，获得原始预测信息。

3.根据权利要求1所述的基于多头注意力融合的目标检测方法，其特征在于，所述对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，还包括：

将所述三个相同尺度的特征图与原始特征图分别进行注意力融合，得到注意力融合结果；

将所述注意力融合结果进行连接，获得原始预测信息。

4.根据权利要求1所述的基于多头注意力融合的目标检测方法，其特征在于，所述对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息，还包括：

将所述三个相同尺度的特征图与原始特征图分别进行注意力融合，以计算注意力融合参数；

将三个所述注意力融合参数进行连接，得到连接的注意力融合参数；

将所述连接的注意力融合参数与原始特征图进行组合，获得原始预测信息。

5.根据权利要求2-4中任一所述的基于多头注意力融合的目标检测方法，其特征在于，所述将所述连接后的第一特征图和/或所述三个相同尺度的特征图进行注意力融合，还包括：

接收所述特征图并进行处理，获得所述特征图对应的注意力图；其中，所述特征图为所述连接后的第一特征图和所述三个相同尺度的特征图中的一种；

将原始特征图进行处理，获得子原始特征图；

将所述注意力图和所述子原始特征图进行处理，并进行重新整形，得到注意力融合参数；

将所述接收到的特征图与所述注意力融合参数进行相加，得到所述注意力融合的结果。

6.根据权利要求5所述的基于多头注意力融合的目标检测方法，其特征在于，所述将原始特征图进行处理和/或将原始特征图进行处理，还包括：

进行归一化处理和线性修正。

7.根据权利要求1所述的基于多头注意力融合的目标检测方法，其特征在于，所述将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图，还包括：

采用双线性差值算法对所述三种不同尺度的特征图分别进行尺度统一。

8.一种基于多头注意力融合的目标检测装置，其特征在于，包括：

统一模块，用于将待检测图像的三种不同尺度的特征图分别进行尺度统一，获取三个相同尺度的特征图；

多头注意力融合模块，用于对所述三个相同尺度的特征图进行多头注意力融合，获取原始预测信息。