CN114373110A

CN114373110A - 对输入图像进行目标检测的检测方法、设备及其相关产品

Info

Publication number: CN114373110A
Application number: CN202111500485.7A
Authority: CN
Inventors: 刘文龙; 曾卓熙; 肖嵘; 王孝宇
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-19

Abstract

本发明提供一种对输入图像进行目标检测的检测方法、设备及其相关产品，其中检测方法包括从输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征；对多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征；对多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征；以及根据多尺度的注意力融合特征来执行预测操作，以便实现对输入图像中所述目标的目标检测。利用本发明的方案，可以实现多尺度的特征融合并显著提升目标检测的检测性能。

Description

对输入图像进行目标检测的检测方法、设备及其相关产品

技术领域

本发明一般的涉及目标检测领域。更具体地，本发明涉及用于对输入图像进行目标检测的检测方法、检测装置及其相应的设备和计算机可读存储介质。

背景技术

随着基于Anchor的目标检测算法如YOLO系列和RCNN系列性能达到极限，基于Anchor-free的目标检测算法成为当前的研究热点，其中具有代表性的算法包括CenterNet算法等。该CenterNet算法基于Anchor-free并且在CornerNet算法的基础上进行改进。与其他的目标检测算法相比，该CenterNet算法提升了算法精度，去除低效复杂的Anchors操作并且还具有良好的通用性。尽管CenterNet算法具有如前的多种技术优势，但其也存在一定的技术局限性。为了便于讨论，下面将结合图1所示出的示例性CenterNet算法架构来描述现有CenterNet算法的缺陷。

如图1中所示，该CenterNet算法架构100包括特征提取模块101、特征融合模块102和预测模块103。从图中特征融合模块102的处理流程可以看出，其特征融合后得到的是由上到下单向的一个多尺度特征融合输出(如图中104处所示)。基于此特征融合输出，预测模块仅能在一个特征尺度上执行预测操作。可以看出，这种仅单一尺度的融合特征输出算法并没有完全利用多尺度的特征信息，因此无法对目标大小差距大和分布不均匀的图像进行良好的目标检测，由此严重影响其检测性能。

发明内容

至少为了解决上文所提到的技术问题，本发明提出一种改进的目标检测方案。特别地，通过对多尺度特征融合模块进行改进，本发明的检测方案可以克服例如CenterNet中特征融合的单一尺度输出而造成的“特征遗忘”问题。进一步，借助于本发明的多尺度特征融合所获得的多尺度融合特征输出，不仅可以保持深尺度的特征不被遗忘，而且可以适应不同大小目标的检测，从而极大地提高本发明的检测方案对不同大小目标的适应能力。为此，本发明在如下的多个方面提供解决方案。

在第一方面中，本发明提供了一种对输入图像进行目标检测的检测方法，其特征在于，包括：从所述输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征；对所述多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征；对所述多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征；以及根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。

在第二方面中，本发明提供了一种对输入图像进行目标检测的检测装置，其特征在于，包括：特征提取模块，其配置成从所述输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征；多尺度特征融合模块，其包括预融合模块和多尺度注意力融合模块，其中所述预融合模块配置成对所述多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征，并且所述多尺度注意力融合模块配置成对所述多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征；以及预测模块，其配置成根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。

在第三方面中，本发明提供了一种对输入图像进行目标检测的设备，其特征在于，包括：处理器；以及存储器，其用于存储对输入图像进行目标检测的计算机程序指令，当所述计算机程序指令由处理器执行时，使得所述设备实现上述的检测方法。

在第四方面中，本发明提供了一种计算机可读存储介质，其存储有用于对输入图像进行目标检测的计算机程序指令，当所述计算机程序指令由处理器执行时，实现上述的检测方法。

通过利用本发明如上提供并且如下将具体描述的检测方法、检测装置、设备和计算机可读存储介质，可以实现对输入图像中的目标物的高效检测。具体地，通过利用本发明的多尺度特征融合模块中的预融合模块，可以将例如CenterNet网络中单一尺度的融合特征输出转化成多尺度的融合特征输出，由此避免例如“深尺度”的图像特征在融合过程中被遗忘并适应于不同大小目标的检测。进一步，通过引入与预融合操作的多路输出对应连接的多尺度注意力融合操作，从而可以利用注意力机制来实现自适应地选择融合不同尺度的输入融合特征。另外，通过利用多尺度注意力融合操作输出的多尺度的注意力融合特征，本发明的预测操作可以实现对目标更为准确的检测，并且提高了检测尺寸不同的目标的检测性能。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，并且相同或对应的标号表示相同或对应的部分其中：

图1是示出CenterNet算法框架的示意图；

图2是示出根据本发明实施例的用于对输入图像进行目标检测的检测方法的简化流程图；

图3是示出根据本发明实施例的用于对输入图像进行目标检测的检测方法的流程图；

图4是示出根据本发明实施例的用于对输入图像进行目标检测的检测方法的详细流程图；

图5是示出根据本发明实施例的用于对输入图像进行目标检测的检测装置的示意简化框图；

图6是示出根据本发明实施例的用于对输入图像进行目标检测的检测装置的示意详细框图；

图7是示出根据本发明实施例的多尺度注意力融合模块的示意框图；以及

图8是示出根据本发明实施例的用于对输入图像进行目标检测的设备的示意框图。

具体实施方式

现在将参考附图描述实施例。应当理解，为了说明的简单和清楚，在认为合适的情况下，可以在附图中重复附图标记以指示对应或类似的元件。进一步，本申请阐述了许多具体细节以便提供对本文所述实施例的透彻理解。然而，基于本申请的公开和教导，本领域普通技术人员将理解，可以在没有这些具体细节的情况下实践本文描述的实施例。在其他情况下，公知的方法、过程和组件将不再做详细的描述，以避免模糊本文描述的实施例。另外，该描述不应被视为限制本文描述的实施例的范围。

如前所述，本发明的目标检测方案通过提供相对于例如CenterNet网络显著改进的多尺度特征融合模块，从而实现不同大小的目标可以自适应地偏向不同尺度的特征。由此，可以更为有效地利用从特征提取模块中提取的多尺度图像特征，从而可以显著地提升对输入图像中目标的检测性能。下面将结合附图对本发明的检测方案进行详细的描述。

图2是示出根据本发明实施例的用于对输入图像进行目标检测的检测方法200的简化流程图。根据不同的应用场景，这里的输入图像可以是图像采集设备(例如高清照相机)所获取的包含检测目标的各类图像。在某些应用场景中，此处的输入图像是包含一个或多个人脸、动物或特定物品的图片，从而本发明的检测装置可以实现对人脸、动物或特定物品的高效检测。基于此，本发明的检测装置可以例如用于门禁系统的人脸识别或智能手机上的人脸认证等实际应用场景。

如图2所示，在步骤S202处，从例如上述的输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征。在一个实施场景中，可以通过设置的神经网网络模型中的各个层(例如卷积层、池化层或全连接层)的权重参数来从不同阶段的特征图中提取图像特征。通过这样的方式，提取的特征尺度不一且语义层次也不同(例如可以包括浅层空间特征和深层语义特征)，因此可以得到多尺度的图像特征。在实际的目标检测中，通过提取这样多尺度的图像特征可以获得更多有用的特征信息，从而显著提升检测网络的最终检测性能。

接着，在步骤S204处，对所述多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征。在一个实施方式中，这里的特征预融合操作可以由多层级联的特征金字塔网络来实现，其中特征金字塔网络中的每层配置成对应地输出多个不同尺度的图像特征的预融合特征。作为示例，前述的特征金字塔网络可以是三层的网络，并且涉及卷积层的卷积操作、采样操作(例如上采样)和特征相加操作。

此后，流程前进到步骤S206处。在该步骤处，对上述多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征。通过这样的多尺度的注意力融合操作，不同大小的目标可以自适应地偏向不同尺度的特征层(例如小尺度的目标在大尺度的融合过程中将分配更大的特征权重)，因此可以更有效地利用从特征提取模块中提取的多尺度特征，从而最终显著提高本发明目标检测的检测性能。

最后，在步骤S208处，根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。根据不同的应用场景，预测操作可以涉及多个输出分支并且不同的目标检测任务可能结构上会有所差异。在典型的配置中，预测操作可以包含三个预测分支，分别表示为hm分支、wh分支和offset分支(如图6中503处所示)。

图3是示出根据本发明实施例的用于对输入图像进行目标检测的检测方法300的流程图。基于图3所示内容，本领域技术人员可以理解方法300可以视为图2所示方法200的一种示例性具体实现方式，因此前文关于方法200的描述也同样适于下文关于图3中方法300的描述并且相同的内容将不再赘述。

如图3中所示，在步骤S302处，从输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征。接着，在步骤S304处，对所述多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征。可以看出，此处的步骤S302和S304与前述方法200中的步骤S202和S204相同，因此关于步骤S202和S204的描述也同样适用于步骤S302和S304。接着，方法300通过步骤S306、S308和S310的执行来实现对所述多尺度的预融合特征执行基于注意力机制的特征融合操作。

具体地，在步骤S306处。接收多路经所述预融合处理后的多尺度的预融合特征。在一个实施场景中，此处的多路可以是前文的特征金字塔网络的多路输出。接着，在步骤S308处，对多尺度的预融合特征执行特征拼接操作，以获得对应的拼接特征。在一个实施场景中，此处的拼接操作可以是基于通道维度对准后的数据摆放。此后，在步骤S310处，根据所述注意力机制对所述拼接特征进行特征融合，以输出多尺度的注意力融合特征。最后，在步骤S312处，根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。关于目标检测的具体操作，稍后将结合图6中所示出的预测模块来详细描述。

图4是示出根据本发明实施例的用于对输入图像进行目标检测的检测方法400的详细流程图。基于图4所示内容，本领域技术人员可以理解方法400可以视为图2所示方法200和图3所示方法300的一种示例性具体实现方式，因此前文关于方法200和300的描述也同样适于下文关于图4中方法400的描述并且相同的内容将不再赘述。

如图4中所示，在步骤S402处，利用多层级联的特征金字塔网络对多尺度的图像特征执行特征预融合操作，以生成多路的多尺度的预融合特征。关于多层级联的特征金字塔网络，其可以具有如图6中的504处所示出的示例性结构。接着，在步骤S404处，对所述多路中的一路或若干路的预融合特征执行采样操作(例如上采样或者下采样)，以令多路的预融合特征具有相同的尺度。

在步骤S406处，对多路中的每路预融合特征分别执行具有相同卷积参数的卷积操作，以实现相同的维度压缩。接着，在步骤S408处，将经维度压缩后的多路的预融合特征进行特征拼接操作，以获得所述拼接特征。在步骤S410处，确定与所述拼接特征中每路预融合特征关联的特征权重(例如图7中所示出的“W”)。接着，在步骤S412处，利用特征权重对所述拼接特征执行加权求和，以得到对应的注意力融合特征。

在输出所述注意力融合特征前，附加地，在步骤S414处，对所述注意力融合特征执行卷积操作，以便经所述卷积操作后的注意力融合特征的通道维度适配预测操作。最后，在步骤S416处，根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。

上文结合图2-图4所示的方法步骤对本发明的目标检测方案进行了示例性和详细的描述。进一步，基于前述的方法步骤的描述，本领域技术人员也可以理解本发明的方案可以采取模块化的实现方式。换句话说，本发明的方案可以由包含多个模块的检测装置来实现，并且前述多个模块中的每个模块可以相应地实现结合图2-图4所示和讨论的方法步骤。为此，下文将结合图5-图7来详细描述本发明检测方案的模块化实现方式。

图5是示出根据本发明实施例的用于对输入图像进行目标检测的检测装置500的示意简化框图。

如图5中所示，本发明的检测装置可以包括特征提取模块501、多尺度特征融合模块502和预测模块503。进一步，前述的多尺度特征融合模块可以包括预融合模块504和多尺度注意力融合模块505。鉴于本发明的检测装置基于神经网络搭建而成，因此本发明的检测装置也可以称为检测网络。下面将对该多个模块的工作原理进行示例性的描述。

根据本发明的方案，特征提取模块可以配置成从输入图像中提取不同尺度的图像特征，以形成多尺度的图像特征。作为示例，通过利用特征提取模块中的层(例如卷积层、池化层或全连接层)的设置，可以实现从不同阶段的特征图中提取图像特征，从而获得特征尺度不一且语义层次也不同(例如可以包括浅层空间特征和深层语义特征)的多尺度的图像特征。

在通过特征提取模块获得多尺度的图像特征(如图中的P1、P2、P3和P4所表示的不同尺度的输出)后，可以利用本发明的多尺度特征融合模块来对该多尺度的图像特征进行特征融合操作。具体地，多尺度特征融合模块中的预融合模块可以配置成对多尺度的图像特征执行特征预融合操作，以生成多尺度的预融合特征。如前所述，不同于现有的例如CenterNet的检测方案，即只有由下而上的通道，并仅在单一尺度(例如仅在P1尺度)上有融合特征的输出。为了充分利用高尺度(例如P3或P4尺度)的特征而避免“特征遗忘”的问题，本发明的预融合模块将输出多尺度而非单一尺度的预融合特征。为此，在一个实施场景中，预融合模块可以设置有级联的多个层的特征金字塔网络(Feature Pyramid Networks，简称“FPN”)，其中特征金字塔网络中的每层配置成向对应的注意力融合模块输入多个不同尺度的图像特征的预融合特征。关于预融合的示例性模块化具体操作，稍后将结合图6进行详细描述。

当接收到来自于预融合模块的多尺度的预融合特征后，本发明的多尺度特征融合模块中的多尺度注意力融合模块可以配置成对多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征。在一个实施场景中，多尺度特征融合模块可以包括多个多尺度注意力融合模块，以便分别来执行生成多尺度的注意力融合特征的操作。在一个实施场景中，每个多尺度注意力融合模块可以配置成接收多路(例如图6或图7中所示出的三路)经预融合模块处理后的多尺度的预融合特征，并且对多尺度的预融合特征执行特征拼接操作，以获得对应的拼接特征。此后，多尺度注意力融合模块可以根据注意力机制对拼接特征进行特征融合，以输出多尺度的注意力融合特征。

在一个实施例中，在对多尺度的预融合特征执行特征拼接操作中，本发明的多尺度注意力融合模块可以配置成对多路中的每路预融合特征分别执行具有相同卷积参数的卷积操作，以实现相同的维度压缩。接着，可以将经维度压缩后的多路的预融合特征进行特征拼接(“Concat”)操作，以获得拼接特征。在另一个实施例中，当执行卷积操作前的预融合特征具有不同的尺度时，本发明还提出在执行卷积操作前，多尺度注意力融合模块还可以配置成对前述多路中的一路或若干路(如图7中所示出的输入2和输入3)执行采样操作。例如，可以对尺度小的特征图(其包含预融合特征)进行上采样操作，以将其扩展到与一路(如图7中所示出的输入1)具有最大尺度的特征图的尺度相同。

在一个实施例中，为了实现根据注意力机制对拼接特征进行特征融合，本发明的多尺度注意力融合模块可以配置成确定与拼接特征中每路预融合特征关联的特征权重(例如图7中所示出的“W”)，并且利用特征权重对拼接特征执行加权求和(例如图7中所示出的加权求和公式)，以得到对应的注意力融合特征。通过这样的多尺度注意力融合操作，不同大小的目标可以自适应地偏向不同尺度的特征层(例如小尺度的目标在大尺度的融合过程中将分配更大的特征权重)，因此可以更有效地利用从特征提取模块中提取的多尺度特征，从而最终显著提高本发明目标检测的检测性能。在一个实施场景中，为了适配预测模块的通道维度，本发明的多尺度注意力融合模块还可以配置成在向预测模块输出注意力融合特征前，对该注意力融合特征执行卷积操作，以便经卷积操作后的注意力融合特征的通道维度适配预测模块，从而简化预测模块的网络结构并且便于预测模块的加速执行。

在经过上述多尺度特征融合操作后，多尺度特征融合模块可以将多尺度的注意力融合特征输出至预测模块。根据不同的应用场景，预测模块可以由多个输出分支所构成并且不同的任务可能结构上会有所差异。在典型的配置中，预测模块可以包含三个预测分支，分别表示为hm分支、wh分支和offset分支(如图6中所示)。在一个应用场景中，前述的hm分支可以用于预测目标中心的高斯热力图，wh分支可以用于预测目标的宽度和高度，而Offset分支可以用于预测目标中心点由于输入尺度是输出尺度的倍数而导致的位置偏差。关于预测模块的示例性操作，将结合图6来具体描述。

图6是示出根据本发明实施例的用于对输入图像进行目标检测的检测装置500的示意详细框图。可以理解的是，图6所示出的内容是图5所示检测装置的一种可能实现方式。因此，上文结合图5对检测装置500的描述同样适用于下文结合图6的描述并且相同的内容将不再赘述。

如图6所示，特征提取模块可以对输入图像(例如包含目标的一张图片)执行不同特征图的特征顺序提取，从而得到如图中所示出的具有不同尺度(即“多尺度”，如所示出的P1、P2、P3和P4)的图像特征。在一个实施场景中，该特征提取模块可以利用卷积网络(或层)来提取特征并经过池化层输出一个尺度的特征图。通过这样级联的多个卷积层和池化层，就可以实现提取多个尺度不同的特征图，从而得到本发明的多尺度的图像特征。在一些应用场景中，还可以在特征提取前对输入图像进行预处理。该预处理例如可以包括图像像素归一化以及将图像的宽高缩放到预定的高(“H”)×宽(“W”)大小。通常，H和W的大小可以不限并且在一些操作中可以是例如32的倍数等。

接着，如图中所示出的四路多尺度图像特征输入至本发明的多尺度特征融合模块，以进行特征融合操作。为了便于理解示例性的处理流程，图中以“Conv”表示卷积层、参数“k”表示卷积核的大小、参数“s”表示卷积核的步长、“Up”表示执行上采样操作的上采样层、“Down”表示执行下采样操作的下采样层、“x2”表示将输入特征上采样到原尺度的2倍，而“1/2”表示将输入特征下采样到原尺度的“1/2”、“⊕”表示下一尺度经过上采样后的特征与特征提取模块输入的相同尺度的特征进行特征相加。

以输入的浅层特征P1为例，其与下一尺度(也即P2)经过特征相加、以卷积核为“3*3”并且步长为“1*1”的卷积操作以及2倍的上采样后所获得的输出进行特征相加，并且将相加的结果作为一路输出(如图中601所示)来输入到本发明的一个多尺度注意力融合模块中。当确定601处所示出的输出是来自于P1(即当前尺度)的一路输出，则可以将图中602和603处所示出的两路输出视为是与P1当前尺度连续的两个尺度的输出。基于此，本发明的一个多尺度注意力融合模块可以融合当前尺度下的连续三个不同尺度的FPN的输出。

具体到图6中所示出的F1～F3三个多尺度注意力融合模块，对于F1多尺度注意力融合模块，其输入分别是stride＝4，8，16的三层FPN输出；对于F2多尺度注意力融合模块，其输入分别是stride＝8，16，32的三层FPN输出。类似地，对于F3多尺度注意力融合模块，其输入分别是stride＝16，32，64的三层FPN输出，其中stride＝32的输入是P4(如图中的604处所示)，而stride＝64的输入是由P4下采样1/2后所构成的图像特征(或称特征图，如图中的605处所示)。基于这样的示例性输入设置，最终形成的F1～F3多尺度注意力融合模块的输出stride分别是4，8，16。这里，“stride”表示当前特征图宽高相对于特征融合前输入特征图宽高的倒数。

当本发明的多个多尺度注意力融合模块执行基于注意力机制的特征融合操作(具体操作将结合图7来详细描述)后，其将向预测模块输出对应的注意力融合特征。如图6中示意性示出的三个预测模块，其分别接收F1、F2和F3三个尺度下的注意力融合特征，并且执行相应地预测操作。下面以针对F3尺度下的预测模块为例来描述本发明的预测操作。

从图中可以看出，每个预测模块可以包括三个分支，即hm分支、wh分支和offset分支，以用于分别通过卷积操作来输出hm、wh和offset特征。首先，可以在hm输出特征图上执行例如“3*3”大小的最大池化操作，以获取hm的高斯峰值点，并接着选取前“K”个关键点。接着，可以根据例如人为设定的阈值来过滤出最终符合要求的关键点。此后，可以根据前述关键点的坐标(i,j)在wh分支上索引出对应位置的目标宽度“w”和高度“h”，并且在offset分支上索引出对应位置的目标中心点的x方向偏置“dx”和y方向偏置“dy”。

基于上述三个分支的预测值就可以计算出所有目标的检测框。具体来说，该检测框可以用左上顶点坐标(xmin,ymin)和右下顶点坐标(xmax,ymax)来表示，其中xmin＝i+dx-w/2,ymin＝j+dy-h/2,xmax＝i+dx+w/2,ymax＝j+dy+h/2。此后，可以将所有的检测结果缩放到原图(即输入图像)尺度，从而得到该尺度下的检测结果。对于本发明的三个预测模块，可以融合对应的F1、F2和F3三个尺度下的检测结果，以得到最终的检测结果。

在一个实施场景中，可以通过非极大值抑制算法(“NMS”)来输出输入图像的最终检测结果。以图6的三个多尺度注意力融合模块为例，针对每个多尺度注意力融合模块，预测模块将在对应的一个尺度上获得一个检测结果。换句话说，每个尺度对应的结果在原图上具有对应的一个目标检测框。通过NMS算法可以把三个尺度的检测结果在原图尺度上进行整合相加，并滤除掉一些重复的检测结果。例如，当在一个尺度上检测到的目标也在另一个尺度上被检测到，则可以通过NMS算法来最终输出对应于一个目标的一个目标检测框。

尽管图中未示出具体的计算模块，但可以理解的是关于目标检测框的确定和最终检测结果的确定和输出操作都可以由本发明的预测模块涵盖和执行。另外，本发明的多个预测模块经学习训练后所得到的参数是可以共享的。例如，对于预测模块针对F1尺度训练后所获得的权重就可以由另外其他的预测模块来使用，也即F1、F2和F3三个尺度共用相同的参数。由此，可以减少训练学习的参数量，从而有利于加速网络的训练学习。

通过上文结合图6的描述，本领域技术可以理解本发明的检测装置的示例性结构。当然，图6中所示出的网络结构以及模块的连接和数目仅仅是示例性的而非限制性的，本领域技术人员根据本发明的教导也可以想到对本发明的检测装置的示例性结构做出修改。例如，对于包含FPN网络的预融合模块来说，本领域技术人员可以根据特征提取模块提取的特征尺度的尺度数目而相应地增加或减小FPN网络的层数，从而可以向对应的多个多尺度注意力融合模块输入不同路数的预融合特征。类似地，根据输入的预融合特征的尺度多少，本领域技术人员可以适应性地增加或减小多尺度注意力融合模块的数目。

图7是示出根据本发明实施例的多尺度注意力融合模块505的示意框图。可以理解的是，图7中所示出的多尺度注意力融合模块仅是图5或图6中所示多尺度注意力融合模块的一种可能实现方式，因此前文结合图5或图6对多尺度注意力融合模块所做的描述同样合适于下文结合图7所做的描述，并且相同的内容将不再赘述。

如图7中所示，该多尺度注意力融合模块接收三路输入(即三个不同尺度的输入)，分别是所示的输入1(如图6中的601处所示)、输入2(如图6中的602处所示)和输入3((如图6中的603处所示)。具体地，输入1的尺度与该多尺度注意力融合模块的输出尺度相同，因此在多尺度注意力融合模块融合前只经过一层卷积核为“3*3”且步长为1的卷积层，如图中的“Conv,k3s1”所示。与输入1不同，输入2的宽高仅是输入1的1/2，因此先经过一个上采样倍率为2的上采样层(如图中“Up,x2”所示)，而后接入一层卷积核为“3*3”且步长为1的卷积层，从而将输出通道压缩到与输入P1的相同。同理，对于输入3，其尺度仅是输入1尺度的1/4，因此先经过一个上采样倍率为4的上采样层(如图中“Up,x4”所示)，而后同样接入一层卷积核为“3*3”且步长为1的卷积层，以进行通道压缩。此后，可以将这三个不同来源的特征输出(如图中的C1、C2和C3所示)在通道维度上进行拼接(如图中“Concat”所示)，从而得到本发明的拼接特征。

在经过上述的特征拼接之后，可以使用注意力机制来获得自适应输出。在一个示例性实施方式中，具体如图中所示，可以首先在concat后接一层卷积层，其参数可以为如图中所示“k1s1o3”，即表示卷积核大小为1、步长为1且输出特征通道数为3的卷积层。接着，将卷积后的特征图在通道维度上使用“softmax”激活函数进行激活输出，该激活函数的3个输出分数值分别表示拼接后3个不同来源(即对应于输入1的C1、对应于输入2的C2和对应于输入3的C3)的特征的权重(如图中“W”所示)。由此，可以结合拼接特征和通道权重来计算自适应的融合特征。作为示例，此处的计算方法可以表示为“C1*W[0]+C1*W[1]+C3*W[3]”，即将不同来源的特征图乘以相对应的特征权重，从而得到本发明上下文的多尺度的注意力融合特征。在一个实现场景中，为了适配预测模块的通道数，还可以使用一个卷积核大小为3x3且步长为1的卷积层将前述的注意力融合特征压缩到常规预测模块所要求的通道数。

图8是示出根据本发明实施例的用于对输入图像进行目标检测的设备800的示意框图。为了对该设备800进行详细和全面描述，图8还示出了其外围设备和网络。

如图8所示，本发明的设备800可以包括CPU 8011，其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步，该设备800还可以包括大容量存储器8012和只读存储器ROM8013，其中大容量存储器8012可以配置用于存储各类数据，例如包括本发明的图像数据、特征数据、权重数据等以及运行本发明的网络架构所需要的各种程序。ROM8013可以配置成存储对于设备800的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据。

进一步，设备800还包括其他的硬件平台或组件，例如示出的张量运算单元(“TPU”)8014、图形处理单元(“GPU”)8015、现场可编程门阵列(“FPGA”)8016和机器学习单元(“MLU”)8017。可以理解的是，尽管在设备800中示出了多种硬件平台或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。例如，在一些场景中，设备800可以仅包括CPU作为公知硬件平台来执行本发明的检测方案。

为了实现数据传递，本发明的设备800还包括通信接口8018，从而可以通过该通信接口8018连接到局域网/无线局域网(LAN/WLAN)805，进而可以通过LAN/WLAN连接到本地服务器806或连接到因特网(“Internet”)807。替代地或附加地，本发明的设备800在实现为智能无线终端时，其还可以通过通信接口8018基于无线通信技术直接连接到因特网或蜂窝网络，例如基于第三代(“3G”)、第四代(“4G”)或第5代(“5G”)的无线通信技术。在一些应用场景中，本发明的设备800还可以根据需要访问外部网络的服务器808以及可能的数据库809，以便获得各种已知的神经网络模型、数据和模块，并且可以远程地存储目标检测相关的各类型数据。

在一些场景中，设备800的外围设备可以包括显示装置802、输入装置803以及数据传输接口804。在一个实施例中，显示装置802可以例如包括一个或多个扬声器和/或一个或多个视觉显示器，其配置用于对本发明的目标检测结果进行语音提示和/或图像视频显示。例如，当将本发明的检测方案应用于人脸识别时，显示装置上将会显示最终附加有目标检测框的人脸图像。输入装置803可以包括例如键盘、鼠标、麦克风、姿势捕捉相机，或其他输入按钮或控件，其配置用于接收数据的输入(例如本发明上下文的输入图像)或用户指令。数据传输接口804可以包括例如串行接口、并行接口或通用串行总线接口(“USB”)、小型计算机系统接口(“SCSI”)、串行ATA、火线(“FireWire”)、PCI Express和高清多媒体接口(“HDMI”)等，其配置用于与其他设备或系统的数据传输和交互。根据本发明的方案，该数据传输接口804还可以接收用于目标检测的原始图像数据或者经过类型转换的数据以便向设备800传送。

本发明的设备800的上述CPU8011、大容量存储器8012、只读存储器ROM8013、TPU8014、GPU8015、FPGA8016、MLU8017和通信接口8018可以通过总线8019相互连接，并且通过该总线与外围设备实现数据交互。在一个实施例中，通过该总线8019，CPU8011可以控制设备800中的其他硬件组件及其外围设备。

基于上文，本发明还公开了一种计算机可读存储介质，其中存储有程序指令，所述程序指令适于由处理器(如图8所示CPU8011)加载并执行上文结合图2-图4所描述的方法步骤或图5-图7所示出的模块化操作。进一步，此处的计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质，比如，阻变式存储器RRAM(Resistive Random AccessMemory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(EnhancedDynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等，或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。本发明描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实现。

应当理解，本发明披露的权利要求、说明书及附图中的可能术语“第一”或“第二”等是用于区别不同对象，而不是用于描述特定顺序。本发明披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明披露说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本发明披露。如在本发明披露说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本发明披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

虽然本发明的实施方式如上，但所述内容只是为便于理解本发明而采用的实施例，并非用以限定本发明的范围和应用场景。任何本发明所述技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种对输入图像进行目标检测的检测方法，其特征在于，包括：

从所述输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征；

对所述多尺度的图像特征执行特征预融合操作，以生成多尺度的预融合特征；

对所述多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征；以及

根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。

2.根据权利要求1所述的检测方法，其特征在于，其中对所述多尺度的预融合特征执行基于注意力机制的特征融合操作包括：

接收多路经所述预融合处理后的多尺度的预融合特征；

对所述多尺度的预融合特征执行特征拼接操作，以获得对应的拼接特征；以及

根据所述注意力机制对所述拼接特征进行特征融合，以输出多尺度的注意力融合特征。

3.根据权利要求2所述的检测方法，其特征在于，其中对所述多尺度的预融合特征执行特征拼接操作包括：

对所述多路中的每路预融合特征分别执行具有相同卷积参数的卷积操作，以实现相同的维度压缩；以及

将经维度压缩后的多路的预融合特征进行特征拼接操作，以获得所述拼接特征。

4.根据权利要求3所述的检测方法，其特征在于，所述方法还包括：

在执行所述卷积操作前，对所述多路中的一路或若干路的预融合特征执行采样操作，以令多路的预融合特征具有相同的尺度。

5.根据权利要求2所述的检测方法，其特征在于，其中根据所述注意力机制对所述拼接特征进行特征融合包括：

确定与所述拼接特征中每路预融合特征关联的特征权重；以及

利用所述特征权重对所述拼接特征执行加权求和，以得到对应的注意力融合特征。

6.根据权利要求5所述的检测方法，其特征在于，还包括：

在输出所述注意力融合特征前，对所述注意力融合特征执行卷积操作，以便经所述卷积操作后的注意力融合特征的通道维度适配预测操作。

7.根据权利要求2所述的检测方法，其特征在于，其中对所述多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征包括：

利用多层级联的特征金字塔网络对多尺度的图像特征执行特征预融合操作，以生成多路的多尺度的预融合特征。

8.一种对输入图像进行目标检测的检测装置，其特征在于，包括：

特征提取模块，其配置成从所述输入图像中提取具有不同尺度的图像特征，以形成多尺度的图像特征；

多尺度特征融合模块，其包括预融合模块和多尺度注意力融合模块，其中所述预融合模块配置成对所述多尺度的图像特征执行特征预融合操作，以生成所述多尺度的预融合特征，并且所述多尺度注意力融合模块配置成对所述多尺度的预融合特征执行基于注意力机制的特征融合操作，以输出多尺度的注意力融合特征；以及

预测模块，其配置成根据所述多尺度的注意力融合特征来执行预测操作，以便实现对所述输入图像中所述目标的目标检测。

9.一种对输入图像进行目标检测的设备，其特征在于，包括：

处理器；以及

存储器，其用于存储对输入图像进行目标检测的计算机程序指令，当所述计算机程序指令由处理器执行时，使得所述设备实现根据权利要求1-7的任意一项所述的检测方法。

10.一种计算机可读存储介质，其存储有用于对输入图像进行目标检测的计算机程序指令，当所述计算机程序指令由处理器执行时，实现根据权利要求1-7的任意一项所述的检测方法。