CN115393682A

CN115393682A - 目标检测方法、装置、电子设备及介质

Info

Publication number: CN115393682A
Application number: CN202210988226.1A
Authority: CN
Inventors: 马莞悦; 朱宏勋
Original assignee: Longxin Zhongke Nanjing Technology Co ltd
Current assignee: Longxin Zhongke Nanjing Technology Co ltd
Priority date: 2022-08-17
Filing date: 2022-08-17
Publication date: 2022-11-25

Abstract

本申请提供的目标检测方法、装置、电子设备及介质中，根据最顶层的特征图和包括除最顶层之外的至少一个层级的特征图的特征图集合，获得包括最顶层的特征图以及最顶层的特征图与特征图集合的融合结果的多个融合特征图，将每个融合特征图输入区域建议网络，得到多个目标检测框，再依据目标识别网络对多个目标检测框下的目标进行识别，获得目标识别结果。本方案能够提高目标检测的准确率。

Description

目标检测方法、装置、电子设备及介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种目标检测方法、装置、电子设备及介质。

背景技术

目标检测是图像处理技术的重要研究方向，广泛应用于机器人导航、智能监控、等领域。

深度学习模型是目标检测技术的主流算法。相关技术中，将待识别图像输入卷积神经网络中，对待识别图像进行多层级的特征提取，并依据最顶层的特征图，获得目标检测识别框，再对目标检测识别框下的目标进行识别。

然而，最顶层的特征图在特征提取的过程中，会丢失小目标的像素特征，这样则无法对图像中的小目标进行检测，进而降低了目标检测的准确率。

发明内容

本申请提供一种目标检测方法、装置、电子设备及介质，以解决无法对图像中的小目标进行检测，进而降低目标检测的准确率的技术问题。

第一方面，本申请提供一种目标检测方法，包括：对输入图像进行特征提取，获得各层级下的特征图；其中，所述特征图的层级与所述特征图的语义信息正相关；根据最顶层的特征图和特征图集合，获得多个融合特征图；所述多个融合特征图包括所述最顶层的特征图以及所述最顶层的特征图与特征图集合的融合结果；每个特征图集合包括除最顶层之外的至少一个层级的特征图；将每个融合特征图和所述输入图像输入区域建议网络，以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述每个融合特征图对应的目标检测框；将所述目标检测框映射至所述目标检测框对应的融合特征图，得到每个融合特征图对应的区域特征图；所述区域特征图包括所述目标检测框映射在所述融合特征图中的区域；将所述输入图像和每个融合特征图对应的区域特征图输入目标识别网络，得到多个目标识别结果。

可选的，所述特征图集合的数量为多个，且各所述特征图集合中的特征图不完全相同。

可选的，所述根据最顶层的特征图和特征图集合，获得多个融合特征图，包括：针对最顶层，基于最顶层的特征图获得融合特征图；针对除最顶层以外的预定层级，将所述最顶层的特征图与所述预定层级对应的特征图集合进行融合，将融合结果作为融合特征图，直至所有所述预定层级经过融合；其中，每个所述预定层级对应的特征图集合包括除最顶层以外，不低于所述预定层级的所有层级下的特征图。

可选的，所述预定层级为最顶层的下一层级的多个连续相邻的层级中的其中一层级；所述针对除最顶层以外的预定层级，将最顶层的特征图与所述预定层级对应的特征图集合进行融合，将融合结果作为所述融合特征图，直至所有所述预定层级经过融合，包括：对所述最顶层和所述预定层级对应的特征图进行卷积处理，以使处理后的所述最顶层和所述预定层级对应的特征图的通道数一致；将所述最顶层的特征图作为所述最顶层的融合特征图，并自上向下依次针对每个所述预定层级，执行以下处理：对所述预定层级的上一层级的融合特征图进行上采样；所述上采样得到的特征图与所述预定层级下的特征图的尺寸一致；将所述预定层级下的特征图与所述上采样得到的特征图进行融合，得到所述预定层级对应的融合特征图。

可选的，所述对所述最顶层和所述预定层级对应的特征图进行卷积处理，包括：分别将所述最顶层和每个所述预定层级对应的特征图，与第一数量个1x1卷积核进行卷积运算；所述第一数量为卷积处理后的特征图的通道数。

可选的，所述对输入图像进行特征提取，获得各层级下的特征图，包括：将所述输入图像输入残差网络，获得所述残差网络输出的所述各层级下的特征图；所述残差网络包括多个连续阶段的残差块，当前阶段的残差块的输出为下一阶段的残差块的输入，所述各阶段的残差块输出的特征图作为所述各层级下的特征图；所述残差网络是基于所述每个残差块的输出与输入的差趋近于零进行训练的。

可选的，所述以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述多个每个融合特征图对应的目标检测框，包括：针对输入的融合特征图，在输入图像中与所述融合特征图的每个像素点对应的位置设置具有预定尺度且比例不同的多个候选框；其中，不同融合特征图对应的尺度不同，且融合特征图的尺寸与尺度负相关；确定所述多个候选框对应的区域类型，并删除区域类型为背景类型的候选框，得到目标候选框；其中，所述区域类型包括前景类型和背景类型；对所述目标候选框进行修正过滤，以获得所述融合特征图对应的目标检测框。

可选的，将每个融合特征图对应的目标检测框映射至所述融合特征图，得到所述多个融合特征图对应的区域特征图，包括：将每个所述融合特征图对应的目标检测框和所述融合特征图输入ROI Align网络，获得所述ROI Align网络输出的所述融合特征图对应的区域特征图；其中，所述ROI Align网络用于：依据所述融合特征图的尺寸与所述输入图像的尺寸的比值，调整所述融合特征图对应的目标检测框的尺寸；将调整后的目标检测框映射至所述融合特征图，提取所述目标检测框对应的区域特征图；基于双线性差值法，将所述区域特征图调整至预定尺寸。

第二方面，本申请提供一种目标检测装置，包括：特征融合模块，用于根据最顶层的特征图和特征图集合，获得多个融合特征图；所述多个融合特征图包括所述最顶层的特征图以及所述最顶层的特征图与特征图集合的融合结果；每个特征图集合包括除最顶层之外的至少一个层级的特征图；目标检测框生成模块，用于将每个融合特征图和所述输入图像输入区域建议网络，以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述每个融合特征图对应的目标检测框；目标检测模块，用于将所述目标检测框映射至所述目标检测框对应的融合特征图，得到每个融合特征图对应的区域特征图；所述区域特征图包括所述目标检测框映射在所述融合特征图中的区域；目标识别模块，用于将所述输入图像和每个融合特征图对应的区域特征图输入目标识别网络，得到多个目标识别结果。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；所述存储器存储计算机执行指令；所述处理器执行所述存储器存储的计算机执行指令，以实现如前所述的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如前所述的方法。

本申请提供的目标检测方法、装置、电子设备及介质中，根据最顶层的特征图和包括除最顶层之外的至少一个层级的特征图的特征图集合，获得包括最顶层的特征图以及最顶层的特征图与特征图集合的融合结果的多个融合特征图，将每个融合特征图输入区域建议网络，得到多个目标检测框，再依据目标识别网络对多个目标检测框下的目标进行识别，获得目标识别结果。本方案中的融合特征图结合了最顶层的特征图的语义信息及底层特征图的位置信息，因而依据融合特征图获取目标识别结果时，能够实现对小目标的检测，进而能够提高目标检测的准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请实施例的实施例，并与说明书一起用于解释本申请实施例的原理。

通过上述附图，已示出本申请实施例明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请实施例构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请实施例的概念。

图1为本申请实施例一提供的一种目标检测方法的流程示意图；

图2为本申请实施例一提供的另一种目标检测方法的流程示意图；

图3为一示例中融合特征图生成过程的流程示意图；

图4为另一示例中融合特征图生成过程的流程示意图；

图5为一示例中设置候选框的流程示意图；

图6为本申请实施例一提供的又一种目标检测方法的流程示意图；

图7为本申请实施例二提供的目标检测装置的结构示意图；

图8为本申请实施例三提供的电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

然而，在逐层通过卷积运算进行特征提取的过程中，特征图的语义信息逐渐增强，局部的位置信息逐渐减弱，也就是说小目标的像素特征会被逐渐丢失。这样，在一些如航拍图像的目标检测的场景中，航拍图像的拍摄距离较高，使得图像中的目标较小，检测时需要框选出小目标的区域，以为后续对小目标类别的识别。然而相关技术中，最高层的特征图中丢失了小目标的位置信息，因而无法对图像中的小目标进行检测，进而降低了目标检测的准确率。

下面以具体的实施例对本申请的技术方案以及本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。在本申请的描述中，除非另有明确的规定和限定，各术语应在本领域内做广义理解。下面将结合附图，对本申请的实施例进行描述。

实施例一

图1为本申请实施例一提供的一种目标检测的流程示意图，如图1所示，本实施例提供的目标检测方法包括：

S101：对输入图像进行特征提取，获得各层级下的特征图；其中，所述特征图的层级与所述特征图的语义信息正相关；

S102：根据最顶层的特征图和特征图集合，获得多个融合特征图；所述多个融合特征图包括所述最顶层的特征图以及所述最顶层的特征图与特征图集合的融合结果；每个特征图集合包括除最顶层之外的至少一个层级的特征图；

S103：将每个融合特征图和所述输入图像输入区域建议网络，以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述每个融合特征图对应的目标检测框；

S104：将所述目标检测框映射至所述目标检测框对应的融合特征图，得到每个融合特征图对应的区域特征图；所述区域特征图包括所述目标检测框映射在所述融合特征图中的区域；

S105：将所述输入图像和每个融合特征图对应的区域特征图输入目标识别网络，得到多个目标识别结果。

本实施例中，输入图像为待检测的图像，实际应用中，为方便后续处理，可将输入图像以一预定的尺寸输入。对输入图像进行特征提取，获得各层级下的特征图。其中，特征图的层级与特征图的语义信息正相关，语义信息为有意义的特征提供的信息，可以理解，特征图的层级越高，语义信息越强，而分辨率越低。

一个示例中，所述S101包括：将所述输入图像输入残差网络，获得所述残差网络输出的所述各层级下的特征图；所述残差网络包括多个连续阶段的残差块，当前阶段的残差块的输出为下一阶段的残差块的输入，所述各阶段的残差块输出的特征图作为所述各层级下的特征图。所述残差网络是基于所述每个残差块的输出与输入的差趋近于零进行训练的。

本示例中，残差网络包括多个残差块，各残差块输出的特征图作为各层级下的特征图。作为示例，残差网络可以为Resnet-50，Resnet-50中有5个阶段的残差块，每个阶段的残差块包括10层网络。

残差网络是基于残差块的输出与输入的差趋近于零进行训练。残差块的输出与输入的差为残差函数。示例性的，残差块的输入为x，出为F(x)，残差函数为H(x)＝F(x)-x，残差网络基于H(x)趋近于0进行训练。由实际应用可知，优化残差函数比优化目标函F(x)数容易的多，具体详见相关技术。因此残差网络相比通常应用的基于目标函数训练的VGG网络更容易训练。这也保证了残差块输入与输出的恒等映射性。因而使用残差网络获得特征图，能够避免深层网络退化的问题，进而能够提高目标网络模型对输入图像检测的准确率。

在获取各层级的特征图后，执行S102，根据最顶层的特征图和特征图集合，获得多个融合特征图。其中多个融合特征图包括最顶层的特征图以及最顶层的特征图与特征图集合的融合结果；多个融合特征图的尺寸不同，每个特征图集合包括除最顶层之外的至少一个层级的特征图。

值得说明的是，对于特征图融合的方式，可以将特征图中相对应的位的特征值相加，以获得对应的融合特征图。

在上述方案基础上，一个示例中，所述特征图集合的数量为多个，且各所述特征图集合中的特征图不完全相同。也就是说融合特征图包括多个融合结果，则融合特征图的数量超过2个。因而，通过本示例能够获取多个融合特征图，能够从多个层次对输入图像进行检测，进而可以提高目标检测的准确率。

下面将对S102作示例性的说明。图2为本申请实施例一提供的另一种目标检测方法的流程示意图，如图2所示，所述S102，包括：

S201：针对最顶层，基于最顶层的特征图获得融合特征图；

S202：针对除最顶层以外的预定层级，将所述最顶层的特征图与所述预定层级对应的特征图集合进行融合，将融合结果作为融合特征图，直至所有所述预定层级经过融合。

实际应用中，可以将输出的特征图对应的所有层级均设定为预设层级，也可以将输出的特征图对应的部分层级设定为预设层级。每个预定层级对应的特征图集合包括除最顶层以外，不低于所述预定层级的所有层级下的特征图。举例而言，最顶层的特征图C5，预定层级为C3，则C3对应的特征图集合包括C4、C3。

实际应用中，预定层级可以为连续相邻的层级。例如特征图包括{C1,C2,C3,C4,C5}共5个层层级，C5为最顶层的特征图，预定层级可以包括{C2,C3,C4}。当然预定层级也可以为不连续的层级。结合上述示例，预定层级可以包括{C1,C2,C4}。

下面将以所述预定层级为最顶层的下一层级的多个连续相邻的层级中的其中一层级的场景为例，对S202作示例说明。一个示例中，S202包括：

对所述最顶层和所述预定层级对应的特征图进行卷积处理，以使处理后的所述最顶层和所述预定层级对应的特征图的通道数一致；

将所述最顶层的特征图作为最顶层的融合特征图，并自上向下依次针对每个预定层级，执行以下处理：

对所述预定层级的上一层级的融合特征图进行上采样；

将本层级下的特征图与所述上采样得到的特征图进行融合，得到本层级的融合特征图。

实际应用中，输出的特征图的尺寸通常会随着层级的升高逐层减半，为保证相邻层级下的特征图的信息差距不会太大，会将输出的特征图的通道数逐层加倍。因而本示例中，对最顶层和预定层级对应的特征图进行处理，使得处理后的最顶层和预定层级对应的特征图的通道数一致，以为后续能够基于最顶层和预定层级对应的特征图生成融合特征图。

对于处理过程，作为示例，分别将所述最顶层和每个所述预定层级对应的特征图，与第一数量个1x1卷积核进行卷积运算，所述第一数量为卷积处理后的特征图的通道数。

本示例中，将最顶层的特征图与第一数量个1x1卷积核进行卷积运算，同样将各层级下的特征与第一数量个1x1卷积核进行卷积运算。可以理解，1x1卷积核不会对各层级的特征图的特征值产生影响，运算后的最顶层和所述预定层级对应的特征图的通道数均为第一数量。作为示例，第一数量可以为256。

本示例中，通过第一数量个1x1卷积核，对顶层和预定层级对应的特征图进行统一通道数的处理，能够避免对各层级下特征图中的特征值造成影响，进而能够进一步的保证目标识别结果的准确性。

S202中，在统一通道数后，将最顶层的特征图作为最顶层的融合特征图。自上而下依次针对每个预定层级的上一层级的融合特征图进行上采样，上采样后的融合特征图与预定层级下的特征图的尺寸一致。再将本层级下的特征图与上采样得到的特征图进行融合，得到本层级的融合特征图。

值得说明的是，对于下采样的方法，本示例中不作限制，例如可以为反池化法、近邻差值法。

下面将结合实际场景对本方案作示例性说明：图3为一示例中融合特征图生成过程的流程示意图，如图3所示，通过ResNet-50对HxW尺寸的输入图像进行特征提取，获得输出5层级的特征图，分别为{C1,C2,C3,C4,C5}，且层级逐渐升高。获取每个层级的特征图时，皆需要在上一层级的特征图的基础上进行下采样，因此{C1,C2,C3,C4,C5}的尺寸逐层递减。例如，C4的尺寸为输入图像的1/16，C5的尺寸为输入图像的1/32。预定层级为{C2,C3,C4}.。将C5与256个1x1卷积核进行卷积运算，获得C5对应的融合特征图M5。将C4与256个1x1卷积核进行卷积运算，并将运算结果与上采样后的M5进行融合，获得C4对应的通道数为256的融合特征图M4。以此类推，获得C3、C2对应的融合特征图M3、M2。实际应用中，将融合特征图{M2,M3,M4,M5}分别与256个3x3卷积核进行卷积运算，获得最终的融合特征图{P2,P3,P4,P5}。这样是为了降低前述上采样带来的混叠效应。实际应用中，还可以对P5进行上采样，获得对应的P6。P6对应的特征图的尺寸更小，P6是为了防止目标过大，后续在生成目标检测框时，候选框不能将目标框住，通过P6来对应一个更大的候选框，以框住较大的目标。

本示例中，将预定层级下的特征图与上一层级对应的融合特征图进行融合，利用了上一层级的融合结果，进而减少了目标检测过程中的计算量。

本示例中，特征图集包括除除顶层外，不低于预定层级的所有层级，丰富了融合后的融合特征图中的语义信息和局部位置信息，同时也提高了融合特征图中特征之间的过渡性，进而能够提高目标识检测的准确率。

另一示例中，所述S102包括：

针对最顶层，基于最顶层的特征图获得融合特征图；

针对除最顶层以外的每个第二预定层级，将所述最顶层的特征图分别与第二预定层级下的特征图进行特征融合，获得多个层级的融合特征图。

本示例中，针对最顶层，基于最顶层的特征图获得融合特征图；针对除最顶层以外的每个第二预定层级，将最顶层与第二预定层级下的特征图进行融合。其中每个第二预定层级对应的特征图集合包括第二预定层级对应的特征图。

一个示例中，所述第二预定层级为包括最顶层的下一层级的多个连续相邻的层级；针对除最顶层以外的每个第二预定层级，将所述最顶层的特征图分别与第二预定层级下的特征图进行特征融合，获得多个层级的融合特征图，包括：

对所述最顶层和所述第二预定层级对应的特征图进行卷积处理，以使处理后的所述最顶层和所述第二预定层级对应的特征图的通道数一致；

将所述最顶层的特征图作为所述最顶层的融合特征图，并自上向下依次针对每个所述第二预定层级，执行以下处理：将最顶层的融合特征图进行上采样；所述上采样得到的特征图与所述第二预定层级下的特征图的尺寸一致；

将第二预定层级下的特征图与所述上采样得到的特征图进行融合，得到第二预定层级对应的的融合特征图。

本示例中，同样先对所有层级下的特征图的通道数进行统一。具体方法参见上述示例。之后对最顶层的融合特征图进行上采样，上采样得到的特征图与第二预定层级下的特征图的尺寸一致。可以理解，针对不同的第二预定层级层级，最顶层的融合特征图上采样的次数不同。将上采样后的融合特征图与统一通道后的预定层级下的特征图进行融合，得到预定层级下的融合特征图。

下面将结合具体场景对本示例作相关的说明：图4为另一示例中融合特征图生成过程的流程示意图，如图4所示，特征图包括{C1,C2,C3,C4,C5}共5个层级的特征图。{C1,C2,C3,C4,C5}的尺寸逐层减半，第二预定层级为{C2,C3,C4}。将C5与256个1x1卷积核进行卷积运算，获得C5对应的融合特征图M5。C4与256个1x1卷积核进行卷积运算，将运算结果与M5进行融合，获得C4对应的融合特征图M4。同样C3、C2分别与256个1x1卷积核进行卷积运算，将运算结果分别与M5进行融合，获得C3对应的融合特征图M3，C2对应的融合特征图M2。

本示例中，将最顶层的融合特征图直接与第二预定层级下的特征图进行融合，以获的第二预定层级的融合特征图，减少了特征图集中特征图的个数，进而减小了模型的计算负担，提高了目标检测的速度。

通过S102获得多个融合特征图后，将执行S103：将每个融合特征图和输入图像输入区域建议网络，得到多个融合特征图对应目标检测框。其中，输出的目标检测框基于所述输入图像生成，也就是说，输出的目标检测框标注在输入图像上的。区域建议网络用于进行目标检测。

下面将对区域建议网络作示例性的说明。

一个示例中，S103包括：

针对输入的融合特征图，在输入图像中与所述融合特征图的每个像素点对应的位置设置具有预定尺度且比例不同的多个候选框；其中，不同融合特征图对应的尺度不同，且融合特征图的尺寸与尺度负相关；

确定所述多个候选框对应的区域类型，并删除区域类型为背景类型的候选框，得到目标候选框；其中，所述区域类型包括前景类型和背景类型；

对所述目标候选框进行修正过滤，以获得所述融合特征图对应的目标检测框。实际应用中，融合特征图是基于输入图像的各层级下的特征图生成的，因此融合特征图中的每个像素点与输入图像中的像素点对应。本实施例中，在输入图像中与融合特征图的每个像素点对应的位置设置多个候选框，且多个候选框均为同一预定尺度且比例不同。其中候选框尺度为候选框的面积。此外，不同融合特征图对应的尺度不同，且融合特征图的尺寸与尺度负相关。

也就是说，输入的每个融合特征图对应一个尺度的候选框，候选框的比例有多种，这样可以更贴合的框选出不同形状的目标。此外融合特征图的尺寸越大对应的候选框的尺度越小。融合特征图的尺度越大，融合特征图的分辨率越高，局部的位置信息清晰，对应的小目标的特征比较多。因而较低的层级对应的融合特征图中，用比较小的尺度可以框选出小目标。可以理解，不同尺度的候选框是为了框选出输入图像中不同尺寸的目标。

通过上述方案，获得大量的标注在输入图像上的候选框，这些候选框下的区域可能为前景或背景，其中前景为需要被识别的目标，而背景则不需要被识别。因而本示例中，可以通过Softmax算法确定多个候选框对应的区域类型，区域类型包括前景类型和背景类型，删除区域类型为背景类型的候选框，则获得区域类型为前景类型的目标候选框。

再依据回归损失函数，对所述目标候选框进行修正。修正后的目标候选框中，可能存在一些重叠度较高的目标候选框，可以理解，这些重叠度较高的目标候选框对应同一个目标，因而本示例中，通过非极大值抑制法对修正后的目标候选框进行过滤，过滤掉重叠度较高的目标候选框，获得融合特征图对应的目标检测框。

下面将结合具体场景对本方案作示例性说明：继续结合图3中的示例，如图3所示，融合特征图包括{P2,P3,P4,P5,P6}，其尺寸依次递减，对应的候选框的尺度为{16²,32²,64²,128²,256²}，每种尺度对应{1:1,1:2,2:1}三种比例的候选框。图5为一示例中设置候选框的流程示意图，如图5所示，融合特征图52为P2，P2包括像素点A1，A1对应输入图像51中的A0点，以A0点为中心分别设置{1:1,1:2,2:1}三种比例的尺度为16²的候选框53。以此类推，对输入图像51中每一个与C2中的像素点对应的像素点设置1:1,1:2,2:1三种比例的尺度为16²的候选框53。

然后通过Softmax算法对输入图像中的候选框53进行分类，以获得框有前景的目标候选框。再通过回归损失函数对目标候选框进行修正。基于非极大值抑制法对修正后的目标候选框进行过滤，过滤掉重复度较大的目标候选框，以获得最终的目标检测框。目标检测框可以以参数的形式输出，例如，目标检测框的参数包括(x,y,w,h)。其中，x、y为目标检测框的中心坐标相对于输入图像，w、h为目标检测框的宽和高。

本示例中，依据融合特征图的像素点在输入图像上直接生成目标候选框，与现有技术中通过滑动候选框生成目标检测框的方式相比，提高了目标检测框的生成速度。

下面将对S104作进一步说明。

通过S103获取多个融合特征图对应的目标检测框后，将分别将多个融合特征图对应的目标检测框映射至融合特征图，得到多个融合特征图对应的区域特征图。其中每个融合特征图对应的区域特征图包括所述融合特征图对应的目标检测框映射在所述融合特征图中的区域；可以理解，本实施例通过S101-S103获得了目标检测框，下一步将要对目标检测框下的目标进行识别。目标检测框是标注在输入图像上的，输入图像中目标检测框下的特征不够明显，不能够实现对目标检测框下的目标的识别。因而将目标检测框映射至对应的融合特征图上，通过融合特征图中与目标检测框对应的区域的特征进行识别，以获取目标识别结果。

一个示例中，S104包括：将每个所述融合特征图对应的目标检测框和所述融合特征图输入ROI Align网络，获得所述ROI Align网络输出的所述融合特征图对应的区域特征图；其中，所述ROI Align网络用于：

依据所述融合特征图的尺寸与所述输入图像的尺寸的比值，调整所述融合特征图对应的目标检测框的尺寸；

将调整后的目标检测框映射至所述融合特征图，提取所述目标检测框对应的区域特征图；

基于双线性差值法，将所述区域特征图调整至预定尺寸。

本示例中，将融合特征图对应的目标检测框和融合特征图输入ROI Align(Regionof Interest Align，兴趣区域量化)网络，获得融合特征图对应的区域特征图。举例来说，融合特征图C2对应的目标检测框T2，将C2和T2输入ROI Align网络，输出T2映射在C2中对应的区域特征图。

本示例中，依据目标检测框，并通过ROI Align从对应的融合特征图中提取目标检测框对应区域的特征。而各目标检测框大小不同，则对应的区域尺寸也不同，为后续能够获得目标识别结果，通过ROI Align输出预定尺寸的区域特征图。

ROI Align基于双线性差值法，将区域特征图调整至预定尺寸，与相关技术中采用的ROI Pooling(Region of Interest Pooling，兴趣区域池化)网络相比，避免了因量化取整造成的区域特征图位置的偏差问题，进而能够提高目标检测的精度。

S105中，将输入图像和每个融合特征图对应的区域特征图分别输入目标识别网络，得到目标识别网络输出的多个目标识别结果。实际应用中目标识别结果包括标注有目标检测框及目标信息的输入图像。目标信息包括目标类别。

一个示例中，目标识别网络包括平铺层和全连接层；平铺层用于将输入的区域特征图的通道数转化为一；全连接层用于对所述平铺层的输出进行卷积计算。

本示例中，平铺层用于将输出三维区域特征图转变为二维的区域特征图，以使得区域特征图能够与全连接层进行卷积运算。实际应用中，可以通过两个全连接层实现对区域特征图下的目标的分类。

下面将结合上述示例对目标检测的过程作示例性的说明：图6为本申请实施例一提供的又一种目标检测方法的流程示意图，如图6所示，将输入图像61输入ResNet-50网络62中，得到输出的各层级下的特征图，对各层级下的特征图进行特征融合，获得多个融合特征图63，将多个融合特征图63输入区域建议网络64，获得目标检测框65，将输入图像61、目标检测框65及目标检测框65对应的融合特征图63输入ROI Align网络66，获得区域特征图，将区域特征图及输入图像输入目标识别网络，通过目标识别网络中的平铺层67及全连接层68，获得目标识别结果69。

本实施例提供的目标检测方法中，根据最顶层的特征图和包括除最顶层之外的至少一个层级的特征图的特征图集合，获得包括最顶层的特征图以及最顶层的特征图与特征图集合的融合结果的多个融合特征图，将每个融合特征图输入区域建议网络，得到多个目标检测框，再依据目标识别网络对多个目标检测框下的目标进行识别，获得目标识别结果。本方案中的融合特征图结合了最顶层的特征图的语义信息及底层特征图的位置信息，因而依据融合特征图获取目标识别结果时，能够实现对小目标的检测，进而能够提高目标检测的准确率。

实施例二

图7为本申请实施例二提供的目标检测装置的结构示意图，如图7所示，本实施例提供的目标检测方法包括：

特征提取模块71，用于对输入图像进行特征提取，获得各层级下的特征图；其中，所述特征图的层级与所述特征图的语义信息正相关；

特征融合模块72，用于根据最顶层的特征图和特征图集合，获得多个融合特征图；所述多个融合特征图包括所述最顶层的特征图以及所述最顶层的特征图与特征图集合的融合结果；每个特征图集合包括除最顶层之外的至少一个层级的特征图；

目标检测框生成模块73，用于将每个融合特征图和所述输入图像输入区域建议网络，以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述每个融合特征图对应的目标检测框；

目标检测模块74，用于将所述目标检测框映射至所述目标检测框对应的融合特征图，得到每个融合特征图对应的区域特征图；所述区域特征图包括所述目标检测框映射在所述融合特征图中的区域；

目标识别模块75，用于将所述输入图像和每个融合特征图对应的区域特征图输入目标识别网络，得到多个目标识别结果。

一个示例中，特征提取模块71，具体用于将所述输入图像输入残差网络，获得所述残差网络输出的所述各层级下的特征图；所述残差网络包括多个连续阶段的残差块，当前阶段的残差块的输出为下一阶段的残差块的输入，所述各阶段的残差块输出的特征图作为所述各层级下的特征图；所述残差网络是基于所述每个残差块的输出与输入的差趋近于零进行训练的。

本示例中，残差网络包括多个残差块，各残差块输出的特征图作为各层级下的特征图。残差网络是基于残差块的输出与输入的差趋近于零进行训练。残差块的输出与输入的差为残差函数。示例性的，残差块的输入为x，出为F(x)，残差函数为H(x)＝F(x)-x，残差网络基于H(x)趋近于0进行训练。由实际应用可知，优化残差函数比优化目标函F(x)数容易的多，具体详见相关技术。因此残差网络相比通常应用的基于目标函数训练的VGG网络更容易训练。这也保证了残差块输入与输出的恒等映射性。因而使用残差网络获得特征图，能够避免深层网络退化的问题，进而能够提高目标网络模型对输入图像检测的准确率。

在特征提取模块71获取各层级的特征图后，特征融合模块72根据最顶层的特征图和特征图集合，获得多个融合特征图。其中多个融合特征图包括最顶层的特征图以及最顶层的特征图与特征图集合的融合结果；多个融合特征图的尺寸不同，每个特征图集合包括除最顶层之外的至少一个层级的特征图。

在上述方案基础上，一个示例中，所述特征图集合的数量为多个，且不同特征图集合中的特征图不同。也就是说融合特征图包括多个融合结果，则融合特征图的数量超过2个。因而，通过本示例能够获取多个融合特征图，能够从多个层次对输入图像进行检测，进而可以提高目标检测的准确率。

下面将对特征融合模块72作示例性的说明。

特征融合模块72，具体用于针对最顶层，基于最顶层的特征图获得融合特征图；

特征融合模块72，具体还用于针对除最顶层以外的预定层级，将所述最顶层的特征图与所述预定层级对应的特征图集合进行融合，将融合结果作为融合特征图，直至所有所述预定层级经过融合。

实际应用中，可以将输出的特征图对应的所有层级均设定为预设层级，也可以将输出的特征图对应的部分层级设定为预设层级。每个预定层级对应的特征图集合包括除最顶层以外，不低于所述预定层级的所有层级下的特征图。

实际应用中，预定层级可以为连续相邻的层级。当然预定层级也可以为不连续的层级。

下面将以所述预定层级为最顶层的下一层级的多个连续相邻的层级中的其中一层级的场景为例，对特征融合模块72作示例说明。一个示例中，

特征融合模块72，具体用于对所述最顶层和所述预定层级对应的特征图进行卷积处理，以使处理后的所述最顶层和所述预定层级对应的特征图的通道数一致；

特征融合模块72，具体还用于将所述最顶层的特征图作为最顶层的融合特征图，并自上向下依次针对每个预定层级，执行以下处理：

特征融合模块72，具体还用于对所述预定层级的上一层级的融合特征图进行上采样；

特征融合模块72，具体还用于将本层级下的特征图与所述上采样得到的特征图进行融合，得到本层级的融合特征图。

对于处理过程，作为示例，特征融合模块72，具体用于分别将所述最顶层和每个所述预定层级对应的特征图，与第一数量个1x1卷积核进行卷积运算，所述第一数量为卷积处理后的特征图的通道数。

本示例中，特征融合模块72将最顶层的特征图与第一数量个1x1卷积核进行卷积运算，同样将各层级下的特征与第一数量个1x1卷积核进行卷积运算。可以理解，1x1卷积核不会对各层级的特征图的特征值产生影响，运算后的最顶层和所述预定层级对应的特征图的通道数均为第一数量。

在统一通道数后，将最顶层的特征图作为最顶层的融合特征图。自上而下依次针对每个预定层级的上一层级的融合特征图进行上采样，上采样后的融合特征图与预定层级下的特征图的尺寸一致。再将本层级下的特征图与上采样得到的特征图进行融合，得到本层级的融合特征图。

本示例中，将预定层级下的特征图与上一层级对应的融合特征图进行融合，利用了上一层级的融合结果，进而减少了目标检测过程中的计算量。本示例中，特征图集包括除除顶层外，不低于预定层级的所有层级，丰富了融合后的融合特征图中的语义信息和局部位置信息，同时也提高了融合特征图中特征之间的过渡性，进而能够提高目标识检测的准确率。

获得多个融合特征图后，将每个融合特征图和输入图像输入区域建议网络，得到多个融合特征图对应目标检测框。其中，输出的目标检测框基于所述输入图像生成，也就是说，输出的目标检测框标注在输入图像上的。区域建议网络用于进行目标检测。

下面将对目标检测框生成模块73作示例性的说明。

一个示例中，目标检测框生成模块73，具体用于针对输入的融合特征图，在输入图像中与所述融合特征图的每个像素点对应的位置设置具有预定尺度且比例不同的多个候选框；其中，不同融合特征图对应的尺度不同，且融合特征图的尺寸与尺度负相关；

目标检测框生成模块73，具体还用于确定所述多个候选框对应的区域类型，并删除区域类型为背景类型的候选框，得到目标候选框；其中，所述区域类型包括前景类型和背景类型；

目标检测框生成模块73，具体还用于对所述目标候选框进行修正过滤，以获得所述融合特征图对应的目标检测框。

实际应用中，融合特征图是基于输入图像的各层级下的特征图生成的，因此融合特征图中的每个像素点与输入图像中的像素点对应。本实施例中，在输入图像中与融合特征图的每个像素点对应的位置设置多个候选框，且多个候选框均为同一预定尺度且比例不同。其中候选框尺度为候选框的面积。此外，不同融合特征图对应的尺度不同，且融合特征图的尺寸与尺度负相关。

通过上述方案，获得大量的标注在输入图像上的候选框，这些候选框下的区域可能为前景或背景，其中前景为需要被识别的目标，而背景则不需要被识别。因而本示例中，通过Softmax算法确定多个候选框对应的区域类型，区域类型包括前景类型和背景类型，删除区域类型为背景类型的候选框，则获得区域类型为前景类型的目标候选框。

然后通过Softmax算法对输入图像中的候选框进行分类，以获得框有前景的目标候选框。再通过回归损失函数对目标候选框进行修正。基于非极大值抑制法对修正后的目标候选框进行过滤，过滤掉重复度较大的目标候选框，以获得最终的目标检测框。目标检测框可以以参数的形式输出，

下面将对目标检测模块74作进一步说明。

通过目标检测模块74获取多个融合特征图对应的目标检测框后，将分别将多个融合特征图对应的目标检测框映射至融合特征图，得到多个融合特征图对应的区域特征图。其中每个融合特征图对应的区域特征图包括所述融合特征图对应的目标检测框映射在所述融合特征图中的区域；可以理解，本实施例获得了目标检测框，下一步将要对目标检测框下的目标进行识别。目标检测框是标注在输入图像上的，输入图像中目标检测框下的特征不够明显，不能够实现对目标检测框下的目标的识别。因而将目标检测框映射至对应的融合特征图上，通过融合特征图中与目标检测框对应的区域的特征进行识别，以获取目标识别结果。

一个示例中，目标检测模块74，具体用于将每个所述融合特征图对应的目标检测框和所述融合特征图输入ROI Align网络，获得所述ROI Align网络输出的所述融合特征图对应的区域特征图；其中，所述ROI Align网络用于：

基于双线性差值法，将所述区域特征图调整至预定尺寸。

本示例中，将融合特征图对应的目标检测框和融合特征图输入ROI Align(Regionof Interest Align，兴趣区域量化)网络，获得融合特征图对应的区域特征图。

ROI Align基于双线性差值法，将区域特征图调整至预定尺寸，与相关技术中采用的ROI Pooling((Region of Interest Pooling，兴趣区域池化)网络相比，避免了因量化取整造成的区域特征图位置的偏差问题，进而能够提高目标检测的精度。

通过目标识别模块75将输入图像和每个融合特征图对应的区域特征图分别输入目标识别网络，得到目标识别网络输出的多个目标识别结果。实际应用中目标识别结果包括标注有目标检测框及目标信息的输入图像。目标信息包括目标类别。

本实施例提供的目标检测装置中，特征融合模块根据最顶层的特征图和包括除最顶层之外的至少一个层级的特征图的特征图集合，获得包括最顶层的特征图以及最顶层的特征图与特征图集合的融合结果的多个融合特征图，目标检测框生成模块将每个融合特征图输入区域建议网络，得到多个目标检测框，目标识别模块依据目标识别网络对多个目标检测框下的目标进行识别，获得目标识别结果。本方案中的融合特征图结合了最顶层的特征图的语义信息及底层特征图的位置信息，因而依据融合特征图获取目标识别结果时，能够实现对小目标的检测，进而能够提高目标检测的准确率。

实施例三

图8为本申请实施例三提供的电子设备的结构示意图，如图8所示，该电子设备包括：

处理器(processor)291，电子设备还包括了存储器(memory)292；还可以包括通信接口(Communication Interface)293和总线294。其中，处理器291、存储器292、通信接口293、可以通过总线294完成相互间的通信。通信接口293可以用于信息传输。处理器291可以调用存储器292中的逻辑指令，以执行上述实施例的方法。

此外，上述的存储器292中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器292作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序，如本申请实施例中的方法对应的程序指令/模块。处理器291通过运行存储在存储器292中的软件程序、指令以及模块，从而执行功能应用以及数据处理，即实现上述方法实施例中的方法。

存储器292可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器292可以包括高速随机存取存储器，还可以包括非易失性存储器。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现任一实施例中所述的方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种目标检测方法，其特征在于，包括：

对输入图像进行特征提取，获得各层级下的特征图；其中，所述特征图的层级与所述特征图的语义信息正相关；

根据最顶层的特征图和特征图集合，获得多个融合特征图；所述多个融合特征图包括所述最顶层的特征图以及所述最顶层的特征图与特征图集合的融合结果；每个特征图集合包括除最顶层之外的至少一个层级的特征图；

将每个融合特征图和所述输入图像输入区域建议网络，以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述每个融合特征图对应的目标检测框；

将所述目标检测框映射至所述目标检测框对应的融合特征图，得到每个融合特征图对应的区域特征图；所述区域特征图包括所述目标检测框映射在所述融合特征图中的区域；

将所述输入图像和每个融合特征图对应的区域特征图输入目标识别网络，得到多个目标识别结果。

2.根据权利要求1所述的方法，其特征在于，所述特征图集合的数量为多个，且各所述特征图集合中的特征图不完全相同。

3.根据权利要求2所述的方法，其特征在于，所述根据最顶层的特征图和特征图集合，获得多个融合特征图，包括：

针对最顶层，基于最顶层的特征图获得融合特征图；

针对除最顶层以外的预定层级，将所述最顶层的特征图与所述预定层级对应的特征图集合进行融合，将融合结果作为融合特征图，直至所有所述预定层级经过融合；其中，每个所述预定层级对应的特征图集合包括除最顶层以外，不低于所述预定层级的所有层级下的特征图。

4.根据权利要求3所述的方法，其特征在于，所述预定层级为最顶层的下一层级的多个连续相邻的层级中的其中一层级；所述针对除最顶层以外的预定层级，将最顶层的特征图与所述预定层级对应的特征图集合进行融合，将融合结果作为所述融合特征图，直至所有所述预定层级经过融合，包括：

将所述最顶层的特征图作为所述最顶层的融合特征图，并自上向下依次针对每个所述预定层级，执行以下处理：对所述预定层级的上一层级的融合特征图进行上采样；所述上采样得到的特征图与所述预定层级下的特征图的尺寸一致；将所述预定层级下的特征图与所述上采样得到的特征图进行融合，得到所述预定层级对应的融合特征图。

5.根据权利要求4所述的方法，其特征在于，所述对所述最顶层和所述预定层级对应的特征图进行卷积处理，包括：

分别将所述最顶层和每个所述预定层级对应的特征图，与第一数量个1x1卷积核进行卷积运算；所述第一数量为卷积处理后的特征图的通道数。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述对输入图像进行特征提取，获得各层级下的特征图，包括：

将所述输入图像输入残差网络，获得所述残差网络输出的所述各层级下的特征图；所述残差网络包括多个连续阶段的残差块，当前阶段的残差块的输出为下一阶段的残差块的输入，各阶段的所述残差块输出的特征图作为所述各层级下的特征图；所述残差网络是基于所述残差块的输出与输入的差趋近于零进行训练的。

7.根据权利要求1-5任一项所述的方法，其特征在于，所述以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述多个每个融合特征图对应的目标检测框，包括：

对所述目标候选框进行修正过滤，以获得所述融合特征图对应的目标检测框。

8.根据权利要求1-5任一项所述的方法，其特征在于，将每个融合特征图对应的目标检测框映射至所述融合特征图，得到所述多个融合特征图对应的区域特征图，包括：

将每个所述融合特征图对应的目标检测框和所述融合特征图输入ROI Align网络，获得所述ROIAlign网络输出的所述融合特征图对应的区域特征图；其中，所述ROI Align网络用于：

基于双线性差值法，将所述区域特征图调整至预定尺寸。

9.一种目标检测装置，其特征在于，包括：

特征提取模块，用于对输入图像进行特征提取，获得各层级下的特征图；其中，所述特征图的层级与所述特征图的语义信息正相关；

特征融合模块，用于根据最顶层的特征图和特征图集合，获得多个融合特征图；所述多个融合特征图包括所述最顶层的特征图以及所述最顶层的特征图与特征图集合的融合结果；每个特征图集合包括除最顶层之外的至少一个层级的特征图；

目标检测框生成模块，用于将每个融合特征图和所述输入图像输入区域建议网络，以使得所述区域建议网络根据所述融合特征图和所述输入图像进行目标检测，得到所述每个融合特征图对应的目标检测框；

目标检测模块，用于将所述目标检测框映射至所述目标检测框对应的融合特征图，得到每个融合特征图对应的区域特征图；所述区域特征图包括所述目标检测框映射在所述融合特征图中的区域；

目标识别模块，用于将所述输入图像和每个融合特征图对应的区域特征图输入目标识别网络，得到多个目标识别结果。

10.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8中任一项所述的方法。