CN112418271A

CN112418271A - 一种目标检测方法、装置、系统及存储介质

Info

Publication number: CN112418271A
Application number: CN202011175764.6A
Authority: CN
Inventors: 李昂; 杨学; 张志强; 俞刚
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-02-26

Abstract

本发明提供了一种目标检测方法、装置、系统及存储介质，方法包括：将待处理图像输入主干神经网络,得到所述主干神经网络的多个网络层输出的多个基础特征，其中，所述多个基础特征包括多个层次的特征；结合所述多个基础特征之间的语义信息，得到多个融合特征；基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果。根据本发明的方法、装置、系统及存储介质，通过级联检测网络对多个融合语义信息的特征进行分类和边界框预测，提升了目标检测准确度，且不依赖于后处理的集成，提高了整个网络的稳定性。

Description

一种目标检测方法、装置、系统及存储介质

技术领域

本发明涉及图像处理技术领域，更具体地涉及目标检测的处理。

背景技术

目标检测是计算机视觉领域最广为关注的问题之一，尽管来自于CNN的目标检测算法较传统方法在准确率上取得的突飞猛进的进展，然而目标检测被构建为目标分类和边界框回归的问题后在一定程度上提高了目标检测的准确率。但是，尽管基于此类目标分类和边界框回归进行目标检测的神经网络模型在mmAP指标中获得了增长，且提高了候选框的质量，并在高IoU(Intersection over Union，交并比)阈值情况下的性能指标中取得了提升，但在低IoU阈值情况下的性能指标中出现了下降，且依赖于后处理过程。

因此，现有技术中的目标检测在低IoU阈值情况下性能不好且依赖于后处理的在问题。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种目标检测方法、装置、系统及计算机存储介质，以至少解决上述问题之一。

根据本发明的第一方面，提供了一种目标检测方法，包括：

将待处理图像输入主干神经网络,得到所述主干神经网络的多个网络层输出的多个基础特征，其中，所述多个基础特征包括多个层次的特征；

结合所述多个基础特征之间的语义信息，得到多个融合特征；

基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果。

示例性地，所述基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果，包括：

将所述多个融合特征输入所述级联的检测网络，得到所述多个融合特征的分类结果和边界框预测结果；

对所述多个融合特征的分类结果和边界框预测结果进行筛选，得到所述目标检测结果。

示例性地，所述级联的检测网络包括多个回归模块，所述将所述多个融合特征输入所述级联的检测网络，得到所述多个融合特征的分类结果和边界框预测结果，包括：

当前回归模块接收上一回归模块的输出结果和所述多个融合特征，并对所述输出结果和所述多个融合特征进行卷积运算；

基于所述多个回归模块的最后一个回归模块的卷积运算结果，得到所述边界框预测结果。

示例性地，所述级联的检测网络包括多个分类模块，所述将所述多个融合特征输入所述级联的检测网络，得到所述多个融合特征的分类结果和边界框预测结果，包括：

当前分类模块和所述当前分类模块的前序分类模块分别对所述多个融合特征进行处理，得到所述当前分类模块对应的多个当前分类结果；

基于所述多个当前分类结果，得到所述当前分类模块对应的分类结果。

示例性地，所述对多个所述融合特征的分类结果和边界框预测结果进行筛选，得到所述目标检测结果，包括：

基于非极大值抑制算法对所述分类结果和所述边界框预测结果进行筛选，得到所述目标检测结果。

示例性地，所述目标检测结果包括至少一个目标的边界框以及所述至少一个目标对应的分类结果。

根据本发明的第二方面，提供了一种目标检测装置，包括：

特征提取模块，用于将待处理图像输入主干神经网络,得到所述主干神经网络的多个网络层输出的多个基础特征，其中，所述多个基础特征包括多个层次的特征；

特征融合模块，用于结合所述多个基础特征之间的语义信息，得到多个融合特征；

目标检测模块，用于基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果。

根据本发明的第三方面，提供了一种目标检测系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现第一方面所述方法的步骤。

根据本发明的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机执行时实现第一方面所述方法的步骤。

根据本发明实施例的目标检测方法、装置、系统及计算机存储介质，通过级联检测网络对多个融合语义信息的特征进行分类和边界框预测，提升了目标检测准确度，且不依赖于后处理的集成，提高了整个网络的稳定性。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是用于实现根据本发明实施例的目标检测方法和装置的示例电子设备的示意性框图；

图2是根据本发明实施例的目标检测方法的示意性流程图；

图3是根据本发明实施例的主干神经网络的示例；

图4是根据本发明实施例的目标检测方法的分类示例；

图5是根据本发明实施例的目标检测方法的边界框预测示例；

图6是根据本发明实施例的目标检测方法的示例；

图7是根据本发明实施例的目标检测装置的示意性框图；

图8是根据本发明实施例的目标检测系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

首先，参考图1来描述用于实现本发明实施例的目标检测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器101、一个或多个存储装置102、输入装置103、输出装置104、图像传感器105，这些组件通过总线系统106或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器101可以是中央处理单元(CPU)或者具有数据处理能力或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置102可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用或产生的各种数据等。

所述输入装置103可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置104可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像传感器105可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置102中以供其它组件使用。

示例性地，用于实现根据本发明实施例的目标检测方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑、图像采集端等。

下面，将参照图2描述根据本发明实施例的目标检测方法200。如图2所示，一种目标检测方法200，包括：

首先，在步骤S210，将待处理图像输入主干神经网络,得到所述主干神经网络的多个网络层输出的多个基础特征，其中，所述多个基础特征包括多个层次的特征；

在步骤S220，结合所述多个基础特征之间的语义信息，得到多个融合特征；

在步骤S230，基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果。

其中，主干神经网络的多个网络层依次对所述待处理图像进行特征提取，得到多个层次的多个基础特征。示例地，主干神经网络中的多个网络层分别对应对多个层次，比如低层次网络层用于提取浅层的特征，高层次的网络层用于提高深层的语义特征，每个网络层进行特征提取后输出对应于该层次的基础特征，每个层次的基础特征可以是该层次的网络层输出的特征图。将对应层次的基础特征之间的语义信息进行融合，可以得到多个融合特征，检测网络对多个融合特征分别进行分类和目标的边界框预测，在所有IoU阈值上提高了均通用的目标检测性能(如平均精度AP等)，不依赖于后处理的集成而是依赖于网络本身，使得网络更加稳定，适合广泛应用于各种场合，进一步提高了目标检测的质量和效果，并降低成本。

示例性地，根据本发明实施例的目标检测方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的目标检测方法可以部署在图像采集端处或个人终端处，例如，可以部署在摄像头处，个人终端处(如智能电话、平板电脑、个人计算机等)或具有摄像头的个人终端处(如具有摄像头的智能电话、平板电脑、个人计算机等)。例如，可以在图像采集端或具有摄像头的个人终端处采集图像数据，或从其它来源获取的图像数据作为待检测图像，在图像采集端处或个人终端处进行目标检测得到相应的目标检测结果。

替代地，根据本发明实施例的目标检测方法还可以分布地部署在图像采集端处和个人终端处，所述个人终端处诸如智能电话、平板电脑、个人计算机等。例如，可以在图像采集端采集图像数据作为待检测图像，将所述待检测图像发送至所述个人终端，在个人终端处进行目标检测得到相应的目标检测结果。进一步地，个人终端可以将所述目标检测结果返回至图像采集端处。

替代地，根据本发明实施例的目标检测方法还可以分布地部署在服务器端(或云端)和图像采集端处/个人终端处。例如，可以在图像采集端处/个人终端处直接采集或从其他数据源获取的图像数据作为待检测图像，将所述待检测图像传递给服务器端(或云端)，然后服务器端(或云端)基于所述待检测图像进行目标检测得到相应的目标检测结果。进一步地，服务器端(或云端)可以将所述目标检测结果返回至图像采集端处/个人终端处。

根据本发明实施例的目标检测方法，通过级联的检测网络对多个融合语义信息的特征进行分类和边界框预测，提升了目标检测准确度，且不依赖于后处理的集成，提高了整个网络的稳定性。

此外，根据本发明实施的目标检测方法，可以将所述主干神经网络和级联的多个检测网络可以合成为一个目标检测模型。

根据本发明实施例的步骤S210，将待处理图像输入主干神经网络,得到所述主干神经网络的多个网络层输出的多个基础特征,其中,所述多个基础特征包括多个层次的特征。

示例性地，所述待处理图像可以是通过图像采集装置直接采集得到的实时图像，也可以是从本地数据源或远程数据源获取得到的图像。

示例性地，所述待处理图像还可以是实时视频数据或非实时视频数据中的每一帧图像。当需要对所述视频数据进行目标检测时，可以基于本发明实施例的目标检测方法对所述视频数据中的每一帧图像进行目标检测后，得到视频数据的目标检测结果。

在一些实施例中，主干神经网络包括多个网络层，该多个网络层分别能提取不同层次的特征，其中浅层的网络层能提取待处理图像的浅层特征，深层的网络层能提取待处理图像的深层语义特征。使用该主干神经网络对待处理图像进行特征提取，可得到该多个基础特征，该多个基础特征包括通过主干神经网络的浅层网络层提取到的浅层特征图和神经网络的深层网络层提取到深层语义特征图。

示例性地，所述主干神经网络可以为训练后的现有模型，比如VGG16,resnet，xception14等神经网络模型，或者为自主设计的神经网络模型。示例地，可以利用Imagenet上的数据对VGG16，Resnet，Xception等神经网络模型进行训练，得到所述主干神经网络。

在一些实施例中，该主干神经网络例如为自底而上的网络，包括多个网络层，通过该多个网络层对待处理图像进行卷积运算，可以得到该多个基础特征，该多个基础特征包括浅层的特征和深层的语义特征，也即包括多个层次的特征。

自底而上网络中的较浅的多个网络层的特征语义信息比较少，但是目标位置准确，较深的多个网络层的特征语义信息比较丰富，但是目标位置比较粗略，可以同时利用较浅的多个层的高分辨率和较深的多个层的高语义信息，通过利用多个层次的特征，可以使得图像分类和边界框检测的结果更为准确。

根据本发明实施例的步骤S220，结合所述多个基础特征之间的语义信息，得到多个融合特征。

在一些实施例中，可以直接融合多个基础特征之间的语义信息,得到多个融合特征。

在另外一些实施例中，所述结合所述基础特征之间的语义信息,得到多个融合特征，可以包括：

基于多个所述基础特征与自顶向下网络中多个网络层输出的对应的输出特征，得到多个所述融合特征。

示例性地，还可以通过自顶向下网络对该多个基础特征进行融合处理，得到该多个融合特征。该自顶向下网络可以对深层的语义特征和浅层的特征分别进行上采样，分别得到深层的语义特征对应的上采样结果和浅层特征对应的上采样结果，并将深层的语义特征对应的上采样结果与主干神经网络生成的对应的深层基础特征进行融合处理，得到对应的融合特征；以及将浅层特征对应的上采样结果与主干神经网络生成的对应的浅层基础特征进行融合处理，得到对应的融合特征。基于此该主干神经网络和该自顶而下网络，即可以融合多个基础特征之间的语义信息，得到该多个融合特征。

在一些实施例中，该多个融合特征还可以包括基于该主干神经网络和该自顶向下网络的不同多个层次的特征预测得到的多个感兴趣区域，该感兴趣区域表征待处理图像中目标物所在的位置，达到精确度更高的预测效果。例地，该自顶向下网络例如可以为FPN(Feature Pyramid Networks)网络，但本发明实施例对此不作限定。对于尺寸相对待处理图像较小的目标物而言，该自顶向下网络可以增加了特征映射的分辨率，即使在尺寸较大的特征图像上进行操作，也可以获得更多关于该较小目标物的有用信息。因此，不管对于较小目标物还是较大目标物，通过结合主干神经网络和自顶向下网络都能够快速且精确的检测到目标物，也即能快速且精确地确定待处理图像所对应的感兴趣区域，有利于提升后续分类和边界框预测的准确度。

其中，在一些实施例中，所述主干神经网络可以包括至少n个网络层C1……Cn，所述自顶向下网络包括至少n-1个网络层P2……Pn，n为自然数。

将第n个网络层Cn进行1×1卷积降维至预定通道数后得到所述自顶向下网络的第n个网络层Pn；

对所述第n个网络层Pn进行2倍上采样得到第n采样结果，以及对第n-1个网络层Cn-1进行1×1卷积降维至预定通道数后与所述采样结果融合后进行3×3卷积得到所述自顶向下网络的第n-1个网络层Pn-1；

以此类推，对所述第3个网络层P2进行2倍上采样得到第3采样结果，以及对第2个网络层C1进行1×1卷积降维至预定通道数后与所述第3采样结果融合后进行3×3卷积得到所述自顶向下网络的第2个网络层P2。

其中，自顶向下网络对多个基础特征分别进行上采样，并将上采样的结果(也即自顶向下网络中多个网络层对应的输出特征)和自底向上网络中多个网络层输出的基础特征进行融合。示例地，还可以对融合处理后的基础特征进行卷积操作，例如3×3卷积，以消除上采样的混叠效应。应了解，主干神经网络的网络层与自底而上网络的网络层的层次一一对应，进行融合处理的基础特征与对应的上采样结果具有相同的尺寸。

需要说明的是，所述自底而上网络中的第n个网络层可以是指第n个卷积阶段(卷积阶段可以是不改变该阶段输入的特征图像大小的若干卷积层)，并不表示自底而上网络中仅包含n个卷积层，自底而上网络的层数可以根据实际需要进行设置。

在一些实施例中，所述预定通道数包括256。

示例性地，所述主干神经网络还包括池化层，用于对所述融合特征进行池化。

在一个实施例中，参见图3，图3示出了根据本发明实施例的主干神经网络和自顶向下网络的示例，以所述主干神经网络中的n＝6为例对步骤S210-S220进行说明。如图3所示，将所述待处理图像输入到主干神经网络得到所述主干神经网络的多个网络层输出的多个基础特征,其中,所述多个基础特征包括多个层次；结合所述基础特征之间的语义信息,得到多个融合特征，具体可以包括：

将待处理图像输入主干神经网络(也即自底而上网络)中，得主干神经网络的网络层C1-C6输出的基础特征；

将网络层C6输出的基础特征进行1×1卷积降维至256通道数后输入所述自顶向下网络的网络层P6，网络层P6输出融合特征P6’；

将融合特征P6’进行2倍上采样得到第6采样结果，以及对网络层C5输出的基础特征进行1×1卷积降维至256通道数后与所述第6采样结果进行语义信息融合，并输入所述自顶向下网络的网络层P5，网络层P5输出融合特征P5’；

将融合特征P5’进行2倍上采样得到第5采样结果，以及对网络层C4输出的基础特征进行1×1卷积降维至256通道数后与所述第5采样结果进行语义信息融合，并输入所述自顶向下网络的网络层P4，网络层P4输出融合特征P4’；

将融合特征P4’进行2倍上采样得到第4采样结果，以及对网络层C3输出的基础特征进行1×1卷积降维至256通道数后与所述第3采样结果进行语义信息融合，并输入所述自顶向下网络的网络层P2，网络层P3输出融合特征P3’；

将融合图像P3’进行2倍上采样得到第3采样结果，以及对网络层C3输出的特征图像进行1×1卷积降维至256通道数后与所述第3采样结果进行语义信息融合，并输入所述自顶向下网络的特征层P2，网络层P2输出融合特征P2’；此时，即得到了多个融合特征P2’，P3’，P4’，P5’，P6’。

如图3所示，所述方法还可以包括：对所述多个融合特征进行池化。

根据本发明实施例的步骤S230，所述基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果，包括：

示例性地，每个所述检测网络包括：分类模块和边界框预测模块。其中，所述级联的多个检测网络中的分类模块均并行，以及所述级联的多个检测网络中的边界框的回归模块均并行。

分类模块可以用于对输入数据分类，输出相应的分类分数，根据分类分数可以确定输入数据的类别；而边界框的回归模块可以用于对输入数据的边界框进行微调，以提高边界框的准确度。

根据本发明实施例中级联的多个检测网络，其包括将基于不同IoU阈值训练得到的多个检测网络串联连接，上一级检测网络的输出作为下一级检测网络的输入，其中，分类模块均并行，边界框回归模块均串行，通过多级检测网络对输入特征的多次分类以及多次边界框回归，不断地提升分类和边界框的准确率，并基于每个检测网络的分类分数和边界框回归结果共享融合得到每个融合特征的分类分数和边界框结果，在此基础上再进行筛选得到所述待检测图像中检测到的目标的分类结果和边界框。由于将级联的多个检测网络中不同阶段即不同检测网络的分类分数和边界框回归的特征共享融合得到每个融合特征的结果和边界框位置，取得了更好的目标检测结果。

在一些实施例中，每个分类模块可以包括2个全连接卷积层和分类层。将所述融合特征分别输入当前分类模块以及前序分类模块，经过当前分类模块以及前序分类模块中的两个全连接卷积层后输入分类层，得到每个分类模块对所述融合特征的分类结果。

在一些实施例中，所述分类结果包括所述融合特征属于某一类目标的概率或置信度分数。

示例性地，所述边界框的回归模块可以包括若干卷积层。在一些实施例中，所述边界框的回归模块可以包括2个3×3卷积层，或1个3×3卷积层加上1个1×1卷积层。

示例性地，所述方法200还包括：

将训练数据输入级联的多个神经网络进行训练，得到所述级联的多个检测网络；其中，当前级检测网络的IoU阈值高于上一级检测网络，将上一级检测网络的输出数据输入当前级检测网络，根据所述当前级检测网络的IoU阈值将所述上一级检测网络的输出数据分为当前级正负样本并基于所述当前级级正负样本对所述当前级检测网络进行训练。

具体来说，当前分类模块对每个融合特征进行分类处理时，输出的结果可以包括当前分类模块之前的所有前序分类模块对该融合特征的分类结果，以及当前分类模块对该融合特征的分类结果；进一步地，可以将当前分类模块及其前序分类模块对该融合特征的所有分类结果之和作为当前分类模块对应的分类结果。其中，由于级联的多个检测网络中，每个检测网络都是基于不同的IoU阈值进行训练得到，采用多个检测网络中的分类模块并将它们的输出融合起来作为融合特征的分类分数，将不同检测网络即级联的不同阶段的特征进行共享融合，进而提升了分类的准确度。

在一个示例中，参见图4，图4示出了本发明实施例的目标检测方法的分类示例。如图4所示，以3个检测网络为例，得到所述融合特征的分类结果，可以包括：

假设每个检测网络可以检测k类目标以及背景类，分类结果S＝[S1，S2，……Sk+1]，其中，Si对应于所述融合特征特征属于第i类目标的置信度分数，i＝1,2,3……k+1，k+1表示背景类；

将所述融合特征输入所述级联的3个检测网络中，分别经过每个检测网络的2个1024维全连接层和分类层后，得到3个分类结果，具体包括：

将所述融合特征输入所述级联的3个检测网络中，经过第1级检测网络的2个1024维全连接层和分类层，得到第1级检测网络的分类结果；

所述融合特征经过第1级检测网络的2个1024维全连接层和分类层得到第一分类结果，以及第2级检测网络的2个1024维全连接层和分类层得到第二分类结果，将所述第一分类结果和所述第二分类结果之和作为第2级检测网络的分类结果；

所述融合特征经过第1级检测网络的2个1024维全连接层和分类层得到第一分类结果，第2级检测网络的2个1024维全连接层和分类层得到第二分类结果以及第3级检测网络的2个1024维全连接层和分类层得到第三分类结果，将所述第一分类结果，所述第二分类结果和第三分类结果之和作为第3级检测网络的分类结果即所述融合特征的分类结果S＝[S1，S2，……Sk+1]；

选取S1，S2，……Sk+1中的最大值Smax，将Smax对应的类别作为所述融合特征的分类结果(例如，如果S4为最大值，则所述感兴趣区域特征属于第4类目标)。

其中，级联的多个检测网络中每一级检测网络都是基于不同的IoU阈值进行训练得到，将多个融合特征分别输入多个回归模块，对于每个融合特征，当前级边界框的回归模块的输出与融合特征一起作为下一级边界框回归模块的输入，利用每一级检测网络的输出特征与融合特征进行共享融合，对边界框的预测结果不断地微调，以达到更准确的边界框定位。

在一个示例中，参见图5，图5示出了本发明实施例的目标检测方法的边界框预测示例。如图5所示，以3个检测网络为例，得到所述融合特征的边界框，可以包括：

将所述融合特征输入所述级联的3个检测网络中，经过第1级检测网络的2个3×3卷积层，得到第1级检测网络的边界框结果；

将所述融合特征与所述第1级检测网络的边界框结果融合后得到所述第1级检测网络的边界框结果对应的感兴趣区域，并经过第1级检测网络的2个3×3卷积层和第2级检测网络的1个3×3卷积层和1个1×1卷积层，得到第2级检测网络的边界框结果；

将所述融合特征与所述第2级检测网络的边界框结果融合后得到所述第2级检测网络的边界框结果对应的感兴趣区域，并经过第1级检测网络的2个3×3卷积层，第2级检测网络的1个3×3卷积层和1个1×1卷积层，和第3级检测网络的1个3×3卷积层和1个1×1卷积层，得到第3级检测网络的边界框结果作为最终的所述融合特征的边界框。

其中，将所有边界框按照其对应的所述融合特征的分类分数排序，分类分数最高的框作为候选框，去掉所有与该候选框的IoU高于一个阈值(可以根据实际需要设置)；然后在剩余的边界框里寻找分类分数第二大的边界框，去掉其它所有与分类分数第二的边界框的IoU高于一个阈值(可以根据实际需要设置)，依次类推，最终所有的边界框相互之间的IoU都是小于阈值的，剩下的边界框即为最终的目标检测结果。

在一些实施例中，所述目标检测结果包括至少一个目标的边界框以及所述至少一个目标对应的分类结果。

应了解，所述检测网络的个数可以根据需要进行设置，在此不做限制。

参见图6，图6示出了本发明实施例的目标检测方法的示例。如图所示，以级联的3个检测网络为例，所述目标检测方法600包括：

首先，获取待处理图像；

然后，将待处理图像输入主干神经网络，得到每个网络层C1-C6输出的多个基础特征，结合所述多个基础特征的语义信息得到网络层P2-P6的多个融合特征；将多个融合特征输入主干神经网络中的ROI池化层进行池化；

接着，将所述多个融合特征输入到级联的3个检测网络；一方面，所述融合特征输入到Stage1检测网络中的分类模块Classification1，Stage2检测网络中的分类模块Classification2，Stage3检测网络中的分类模块Classification3，分别得到3个检测网络的分类分数，将这3个分类分数相加得到所述融合特征的分类分数，并确定出分类结果；

另一方面，所述融合特征输入到Stage1检测网络中的边界框回归模块BoundingBOX1，将所述Bounding BOX1的输出结果与所述感兴趣特征进行融合后，经过所述BoundingBOX1和Stage2网络中的边界框回归模块Bounding BOX2，将所述Bounding BOX2的输出结果与所述感兴趣特征进行融合后，经过所述Bounding BOX1，Bounding BOX2和Stage3网络中的边界框回归模块Bounding BOX3，将所述Bounding BOX3的输出结果作为所述融合特征的边界框；

最后，基于所有的融合特征的边界框和分类结果，采用NMS方法(非极大值抑制方法)进行筛选得到最终的目标检测结果。

根据本发明实施例的目标检测方法所得的检测结果在平均精度等性能上均有大幅度提升。如下表1所示，表1中Cascade R-CNN为传统的以ResNet-101为骨干网络的级联R-CNN，FSCascade R-CNN为根据本申请实施例的目标检测方法中的目标检测网络。AP表示总体平均精度，AP₅₀表示在IoU阈值大于0.50时的平均精度，AP₇₅表示在IoU阈值大于0.75时的平均精度，AP_S、AP_M、AP_L分别表示对小目标，中目标、大目标检测时的平均精度。通过比较传统Cascade R-CNN提出时给出的检测精度，基于传统Cascade R-CNN结构自己进行实验得到的检测精度以及根据本发明实施例的目标检测方法中的目标检测网络FSCascade R-CNN的检测精度，可以证明，在任何IoU阈值情况，或对于不同大小的目标的检测，FSCascade R-CNN的检测精度在多个方面均有较大提升。

表1

由此可知，根据本发明实施例的目标检测方法，通过级联检测网络对多个融合语义信息的特征进行分类和边界框预测，提升了目标检测准确度，且不依赖于后处理的集成，提高了整个网络的稳定性。

图7示出了根据本发明实施例的目标检测装置700的示意性框图。如图7所示，根据本发明实施例的目标检测装置700包括：

特征提取模块710，用于将待处理图像输入主干神经网络,得到所述主干神经网络的多个网络层输出的多个基础特征，其中，所述多个基础特征包括多个层次的特征；

特征融合模块720，用于结合所述多个基础特征之间的语义信息，得到多个融合特征；

目标检测模块730，用于基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果。

所述各个模块可分别执行上文中结合图2-图6描述的目标检测方法中的各个步骤/功能。以上仅对该目标检测装置700的各部件的主要功能进行描述，而省略上文已经描述过的细节内容。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图8示出了根据本发明实施例的目标检测系统800的示意性框图。目标检测系统800包括图像传感器810、存储装置820、以及处理器830。

图像传感器810用于采集图像数据。

所述存储装置820存储用于实现根据本发明实施例的目标检测方法中的相应步骤的程序代码。

所述处理器830用于运行所述存储装置820中存储的程序代码，以执行根据本发明实施例的目标检测方法的相应步骤，并且用于实现根据本发明实施例的目标检测装置中的特征提取模块710、特征融合模块720、目标检测模块730。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的目标检测方法的相应步骤，并且用于实现根据本发明实施例的目标检测装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合，例如一个计算机可读存储介质包含用于随机地生成动作指令序列的计算机可读的程序代码，另一个计算机可读存储介质包含用于进行目标检测的计算机可读的程序代码。

在一个实施例中，所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的目标检测装置的各个功能模块，并且/或者可以执行根据本发明实施例的目标检测方法。

根据本发明实施例的目标检测系统中的各模块可以通过根据本发明实施例的目标检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的目标检测方法、装置、系统以及存储介质，通过将级联检测网络的每个阶段的目标分类和边界框回归共享融合，提升了目标检测在所有IoU阈值情况下的性能，不依赖于后处理的集成，得到更好的目标检测结果。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述基于级联的检测网络对所述多个融合特征分别进行分类和边界框预测，得到目标检测结果，包括：

3.如权利要求2所述的方法，其特征在于，所述级联的检测网络包括多个回归模块，所述将所述多个融合特征输入所述级联的检测网络，得到所述多个融合特征的分类结果和边界框预测结果，包括：

4.如权利要求2或3所述的方法，其特征在于，所述级联的检测网络包括多个分类模块，所述将所述多个融合特征输入所述级联的检测网络，得到所述多个融合特征的分类结果和边界框预测结果，包括：

5.如权利要求2所述的方法，其特征在于，所述对多个所述融合特征的分类结果和边界框预测结果进行筛选，得到所述目标检测结果，包括：

6.如权利要求1所述的方法，其特征在于，所述目标检测结果包括至少一个目标的边界框以及所述至少一个目标对应的分类结果。

7.一种目标检测装置，其特征在于，所述装置包括：

8.一种目标检测系统，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机执行时实现权利要求1至6中任一项所述方法的步骤。