CN111401424A

CN111401424A - 目标检测方法、装置和电子系统

Info

Publication number: CN111401424A
Application number: CN202010164152.0A
Authority: CN
Inventors: 楚选耕
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-10
Anticipated expiration: 2040-03-10
Also published as: CN111401424B

Abstract

本发明提供了一种目标检测方法、装置和电子系统；该方法包括：将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；输出结果包括：针对每个提议区域的、每组检测网络输出的中间检测结果；基于输出结果，确定待处理图像的目标检测结果。目标检测模型包括多组并联的检测网络，每组检测网络分别检测待处理图像的提议区域的不同目标，因此目标检测模型可以输出待处理图的每个提议区域的不同目标的检测结果。该方式中，对于不同目标由不同的检测网络分别进行检测，即使多个目标处于拥挤或高度遮挡的场景中，多个检测网络也可以输出该场景中多个目标的检测结果，有效降低对目标的漏检情况，从而提高了目标检测结果的准确度。

Description

目标检测方法、装置和电子系统

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种目标检测方法、装置和电子系统。

背景技术

相关技术中，在图像中检测目标对象，可以先生成一个或多个目标提议，该目标提议的具体形式可以为预定义的锚定框、或者通过网络学习生成的锚定框等；然后针对每个目标提议，预测更精确的目标对象的位置和置信度，基于预测出的位置和置信度，检测图像中的目标对象。该方式中，在一个目标对象附近易生成多个预测位置，然后通过非极大值抑制的方式，删除重复的预测位置，得到目标对象最终的位置。如果图像中目标对象之间存在遮挡，相互遮挡的目标对象在神经网络中会产生相似的特征矩阵，因而预测位置的重叠程度较高同时置信度的得分也很相似，此时，基于上述方式删除重复的预测位置的过程中，可能会将不同目标对象的预测位置误认为是一个目标对象的预测位置，进而误删除，造成目标对象的漏检。

发明内容

有鉴于此，本发明的目的在于提供一种目标检测方法、装置和电子系统，以避免在拥挤或高度遮挡场景中出现漏检，提高目标检测结果的准确度。

第一方面，本发明实施例提供了一种目标检测方法，方法包括：将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；其中，目标检测模型包括多组并联的检测网络；对于待处理图像的一个提议区域，多组检测网络用于检测该提议区域中的不同目标；输出结果包括：针对每个提议区域的、每组检测网络输出的中间检测结果；基于输出结果，确定待处理图像的目标检测结果。

在本发明较佳的实施例中，上述检测网络包括并联的第一分类层和第一回归层；第一分类层用于根据提议区域的区域特征，输出从提议区域中检测到的目标的置信度；第一回归层用于根据提议区域的区域特征，输出从提议区域中检测到的目标的位置。

在本发明较佳的实施例中，上述检测网络还包括：与第一回归层连接的特征增强子网络；特征增强子网络用于：根据提议区域对应的区域特征，以及第一回归层输出的从提议区域中检测到的目标的位置，输出提议区域的中间检测结果。

在本发明较佳的实施例中，上述增强子网络包括特征连接层、全连接层、第二分类层和第二回归层；特征连接层用于对提议区域对应的区域特征，以及第一回归层输出的从提议区域中检测到的目标的位置进行连接处理，得到连接特征；全连接层用于对连接特征进行变换处理，得到变换特征；第二分类层用于根据变换特征，输出从提议区域中检测到的目标的置信度；第二回归层用于根据变换特征，输出从提议区域中检测到的目标的位置。

在本发明较佳的实施例中，上述目标检测模型，通过下述方式训练得到：将预设的样本图像输入至目标检测模型中，得到样本图像对应的输出结果；其中，样本图像携带有目标的标注信息；标注信息包括标准位置和标准类别；输出结果包括：针对样本图像的每个提议区域，每组检测网络输出的该提议区域对应的中间检测结果；将目标的标注信息变换排列顺序，得到多组信息组合；其中，每组信息组合中，目标的标注信息的排列顺序不同；针对每个提议区域，基于预设的损失函数，计算该提议区域对应的中间检测结果和每组信息组合之间的损失值；基于损失值，训练目标检测模型。

在本发明较佳的实施例中，上述将目标的标注信息变换排列顺序，得到多组信息组合的步骤，包括：如果目标的数量，小于一个提议区域对应的中间检测结果的数量，在目标中增加虚拟目标，以及虚拟目标的标注信息；将增加虚拟目标后的每个目标的标注信息变换排列顺序，得到多组信息组合。

在本发明较佳的实施例中，上述基于预设的损失函数，计算该提议区域对应的中间检测结果和每组信息组合之间的损失值的步骤，包括：该提议区域对应的损失值：

其中，b_i代表第i个提议区域；

代表第i个提议区域对应的损失值；π代表第π组信息组合；Π表示信息组合的总组数；

表示目标分类损失值；

表示第i个提议区域的第k个中间检测结果中的置信度；

表示第π组信息组合中第k个目标的标注信息；

表示目标回归损失值；

表示第i个提议区域的第k个中间检测结果中的位置。

在本发明较佳的实施例中，上述中间检测结果包括：从提议区域中检测到的目标的置信度和位置；上述基于输出结果，确定待处理图像的目标检测结果的步骤，包括：将每个提议区域对应的置信度和位置作为一个集合，在每个提议区域对应的集合之间进行非极大值抑制处理；将抑制处理后得到的位置，确定为待处理图像的目标检测结果。

在本发明较佳的实施例中，上述在每个提议区域对应的集合之间进行非极大值抑制处理的步骤，包括：将输出结果中，最大的置信度对应的位置，确定为目标位置；从输出结果中删除目标位置以及目标位置对应的置信度，将输出结果中的剩余位置以及剩余位置对应的置信度，确定为待处理集合；根据待处理集合中各个位置与目标位置的重叠程度，以及各个位置与目标位置对应的提议区域，从待处理集合中删除至少一部分位置，以及至少一部分位置对应的置信度，得到删除后的待处理集合；如果删除后的待处理集合不为空，将删除后的待处理集合作为更新的输出结果，继续执行将输出结果中，最大的置信度对应的位置，确定为目标位置的步骤，直至删除后的待处理集合为空；将抑制处理后得到的位置，确定为待处理图像的目标检测结果的步骤，包括：将确定出的所有的目标位置，确定为待处理图像的目标检测结果。

在本发明较佳的实施例中，上述根据待处理集合中各个位置与目标位置的重叠程度，以及各个位置与目标位置对应的提议区域，从待处理集合中删除至少一部分位置，以及至少一部分位置对应的置信度的步骤，包括：针对待处理集合中的每个位置，如果当前位置与目标位置的交并比小于预设的交并比阈值，且当前位置对应的提议区域与目标位置对应的提议区域不同，从输出结果中删除当前位置，以及当前位置对应的置信度。

第二方面，本发明实施例还提供一种目标检测装置，装置包括：待处理图像输入模块，用于将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；其中，目标检测模型包括多组并联的检测网络；对于待处理图像的一个提议区域，多组检测网络用于检测该提议区域中的不同目标；输出结果包括：针对每个提议区域的、每组检测网络输出的中间检测结果；目标检测结果确定模块，用于基于输出结果，确定待处理图像的目标检测结果。

第三方面，本发明实施例还提供一种电子系统，电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取图像；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述目标检测方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如上述目标检测方法的步骤。

本发明实施例带来了以下有益效果：

本发明实施例提供了一种目标检测方法、装置和电子系统，目标检测模型包括多组并联的检测网络，每组检测网络分别检测待处理图像的提议区域的不同目标，因此目标检测模型可以输出待处理图的每个提议区域的不同目标的检测结果。该方式中，对于不同目标由不同的检测网络分别进行检测，即使多个目标处于拥挤或高度遮挡的场景中，多个检测网络也可以输出该场景中多个目标的检测结果，有效降低对目标的漏检情况，从而提高了目标检测结果的准确度。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种电子系统的结构示意图；

图2为本发明实施例提供的一种的目标检测模型的结构示意图；

图3为本发明实施例提供的一种目标检测方法的流程图；

图4为本发明实施例提供的另一种目标检测方法的流程图；

图5为本发明实施例提供的另一种目标检测模型的结构示意图；

图6为本发明实施例提供的另一种目标检测模型的结构示意图；

图7为本发明实施例提供的一种目标检测装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，通过神经网络在图像中检测目标时，如果多个目标处于拥挤或高度遮挡的场景中，这些相互遮挡的目标在神经网络中会产生相似的特征矩阵以及相似的置信度得分，神经网络因此会将这些相互遮挡的目标误认为是一个目标，进而导致误删除，造成目标的漏检。基于此，本发明实施例提供的一种目标检测方法、装置和电子系统，该技术可以应用于服务器、计算机、相机、手机、平板电脑、车辆中控设备等多种设备中，该技术可采用相应的软件和硬件实现，以下对本发明实施例进行详细介绍。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种目标检测方法进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的目标检测方法、装置和电子系统的示例电子系统100。

如图1所示的一种电子系统的结构示意图，电子系统100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及一个或多个图像采集设备110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子系统100的组件和结构只是示例性的，而非限制性的，根据需要，电子系统也可以具有其他组件和结构。

处理设备102可以为智能终端，或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对电子系统100中的其它组件的数据进行处理，还可以控制电子系统100中的其它组件以执行目标对象统计的功能。

存储装置104可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行程序指令，以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据，例如应用程序使用和/或产生的各种数据等。

输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

图像采集设备110可以采集图像，并且将采集到的图像存储在存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的目标检测方法、装置和电子系统中的各器件可以集成设置，也可以分散设置，诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体，而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时，该电子系统可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端等智能终端。

实施例二：

本实施例提供了一种目标检测方法，该方法对传统的目标检测模型进行了改进，参见图2所示的一种的目标检测模型的结构示意图，如图2所示，输入到目标检测模型的待处理图像中包括多个目标，这些目标在图2中用不同的方框表示，本实施例中的目标检测模型包括并联的多个检测网络1-检测网络N，每个检测网络会对待处理图像中的不同目标进行检测，可以保证准确地检测出待处理图像的不同目标。

基于上述描述，如图3所示的一种目标检测方法的流程图，该目标检测方法包括如下步骤：

步骤S302，将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果。

待处理图像可以为图像采集设备(例如：摄像机、照相机等)采集的图像，也可以为一段视频中的图像帧。待处理图像中可能包含目标，也可能不包含目标，目标是指需要通过目标检测模型识别出的对象，目标可以为物体或者人，例如：人脸、货箱、动物等。

其中，目标检测模型包括多组并联的检测网络；检测网络是目标检测模型的核心，用于从待处理图像中识别不同的目标。检测网络预先训练后可以识别不同的目标，即每个检测网络识别的目标可以相同，也可以不同。在输入检测网络前，目标检测模型将待处理图像划分为不同的提议区域，每个提议区域中可能包含目标，也可能不包含目标，包含目标的种类和数目也不做限定。提议区域之间可以存在重叠，对于待处理图像的一个提议区域，多组检测网络用于检测该提议区域中的不同目标。

目标检测模型的输出结果包括：针对每个提议区域的、每组检测网络输出的中间检测结果。每组检测网络对于待处理图像的每个提议区域都会输出一个中间检测结果，中间检测结果包括：该检测网络识别的在该提议区域包括的目标的可能性大小，以及该检测网络识别的在该提议区域包括的目标的位置。对于待处理图像的每个提议区域，所有检测网络都会输出对应的中间检测结果，假设一个待处理图像中包括M个提议区域，目标检测模型包括N组检测网络，那么针对该待处理图像，目标检测模型一共会输出M×N个中间检测结果。

步骤S304，基于输出结果，确定待处理图像的目标检测结果。

将目标检测模型输出的中间检测结果进行整理，剔除中间检测结果中相同的目标，就可以确定待处理图像的所有目标，以及上述在所有目标的位置，作为该待处理图像的目标检测结果。

本发明实施例提供了一种目标检测方法，目标检测模型包括多组并联的检测网络，每组检测网络分别检测待处理图像的提议区域的不同目标，因此目标检测模型可以输出待处理图的每个提议区域的不同目标的检测结果。该方式中，对于不同目标由不同的检测网络分别进行检测，即使多个目标处于拥挤或高度遮挡的场景中，多个检测网络也可以输出该场景中多个目标的检测结果，有效降低对目标的漏检情况，从而提高了目标检测结果的准确度。

实施例三：

本实施例提供了另一种目标检测方法，该方法在上述实施例的基础上实现；本实施例重点描述目标检测模型的结构；目标检测模型的训练方法；以及基于输出结果，确定待处理图像的目标检测结果的具体实施方式。如图4所示的另一种目标检测方法的流程图，本实施例中的目标检测方法包括如下步骤：

步骤S402，将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；其中，输出结果包括：从待处理图像的提议区域中检测到的目标的置信度和位置。

参见图5所示的另一种目标检测模型的结构示意图，将待处理图像输入到目标检测模型中，目标检测模型的特征金字塔网络(简称FPN)会输出该待处理图像对应的一个特征矩阵，之后，该特征矩阵输入到目标检测模型的区域提议网络(简称RPN)，RPN生成第一阶段的目标预测结果，其中，第一阶段的目标预测结果在待处理图像上分了若干个提议区域，提议区域的数目可以为500-1000个，提议区域之间可以重叠，每个提议区域包括的目标数目不做限制，可以包括目标，可以不包括目标。

如图5所示，通过针对感兴趣区域的池化方法(简称ROI-Align)处理第一阶段的目标预测结果，得到每个提议区域的特征矩阵。每个提议区域的特征矩阵经过两层全连接层进行矩阵变换，得到每个提议区域的区域特征。

在上述检测模型中，每个检测网络包括并联的第一分类层和第一回归层；第一分类层用于根据提议区域的区域特征，输出从提议区域中检测到的目标的置信度；第一回归层用于根据提议区域的区域特征，输出从提议区域中检测到的目标的位置。

如图5所示，经过两层全连接层矩阵变换后输出每个提议区域的区域特征，每个提议区域的区域特征输入到检测网络中(图5中包括两个检测网络，分别输出预测1和预测2作为每个检测网络输出的中间检测结果)。通过第一分类层根据该提议区域的区域特征输出该提议区域中检测到的目标的置信度，通过第一回归层根据该提议区域的区域特征输出该提议区域中检测到的目标的位置。置信度是指该提议区域中检测到目标的可能性，置信度越高，说明该提议区域中检测到目标的可能性越大；目标的位置可以为目标在待处理图像中的坐标。

此外，每个检测网络的结构可以一致，但是在每个检测网络进行训练的时候要求其回归不同的结果并给出不同的置信度，检测网络之间的权值并不共享，因此，每个检测网络可以检测不同的目标，实际预测时候每个检测网络大概率给出不同的位置和置信度。

该方式中，每个检测网包括并联的第一分类层和第一回归层，对于输入的提议区域的区域特征，分别确定从提议区域中检测到的目标的置信度和位置，可以准确地确定每个提议区域包括目标的可能性和每个目标的位置，增加目标检测的准确性。

为了进一步优化中间检测结果，本发明实施例还包括与第一回归层连接的特征增强子网络；特征增强子网络用于：根据提议区域对应的区域特征，以及第一回归层输出的从提议区域中检测到的目标的位置，输出提议区域的中间检测结果。

第一回归层输出的从提议区域中检测到的目标的位置，以及提议区域对应的区域特一起输入至特征增强子网络，输出更加精确的中间检测结果。上述中间检测结果包括该提议区域中检测到的目标的置信度和该提议区域中检测到的目标的位置。也就是说，通过第一回归层输出的从提议区域中检测到的目标的位置，特征增强子网络可以针对该位置，在该位置周围进行更加准确地进行目标检测，输出更加准确地目标的置信度和目标的位置，以提高中间检测结果的准确率。

参见图6所示的另一种目标检测模型的结构示意图，图6中的预测增强模块即为特征增强子网络，在特征增强子网络中包括特征连接层、全连接层、第二分类层和第二回归层。

特征连接层用于对提议区域对应的区域特征，以及第一回归层输出的从提议区域中检测到的目标的位置进行连接处理，得到连接特征。也就是说，特征连接层进行连接处理即确定在第一回归层输出的从提议区域中检测到的目标的位置上的区域特征，并将该区域特征作为连接特征。

全连接层用于对连接特征进行变换处理，得到变换特征。全连接层对连接特征进行矩阵变换(即变换处理)，将矩阵变化后的特征矩阵作为变换特征。

第二分类层用于根据变换特征，输出从提议区域中检测到的目标的置信度。第二分类层根据变化特征检测目标，并确定检测到的目标的置信度。因为变化特征考虑到了第一回归层输出的目标的位置，在上述目标的位置周围进行进一步的检测，可以得到更加准确的检测结果。

第二回归层用于根据变换特征，输出从提议区域中检测到的目标的位置。第二回归层同样根据变化特征检测目标，并确定检测到的目标的位置，第二回归层同样在第一回归层输出的目标的位置周围进行进一步的检测，也可以得到更加准确的检测结果。

本实施例中的目标检测模型包括多个可以检测不同目标的检测网络，因此，预测结果和目标分别形成了集合，现有的训练方法都不能很好的适应这种情况。因此，可以按照推土机距离(earth mover distance，简称EMD)来优化产生的预测结果集合和目标集合之间的距离，得到预测结果集合到目标集合之间的最小损失，解决集合优化的问题。本实施例中的目标检测模型可以通过步骤A1-步骤A3训练：

步骤A1，将预设的样本图像输入至目标检测模型中，得到样本图像对应的输出结果；其中，样本图像携带有目标的标注信息；标注信息包括标准位置和标准类别；输出结果包括：针对样本图像的每个提议区域，每组检测网络输出的该提议区域对应的中间检测结果。

样本图像是指用于训练目标检测模型的图像，每一个样本图像都带有目标的标注信息，标注信息由人为手动标注，包括标准位置和标准类别。本实施例中采用的样本图像可以CrowdHuman数据集中的图像，该数据集对约两万五千张图片进行了高质量的标注，标注了其中人的完整框，可见框，和头部框。其中公开的部分包含15000张训练用数据和4370张验证用数据。其他具有高质量标注的数据集如CityPersons等数据集也可以在本实施例中使用。

将预设的样本图像输入至目标检测模型中，目标检测模型输出样本图像的每个提议区域对应的中间检测结果。其中，中间检测结果包括检测到的每个目标的位置和置信度。

步骤A2，将目标的标注信息变换排列顺序，得到多组信息组合；其中，每组信息组合中，目标的标注信息的排列顺序不同。

目标检测模型输出的中间检测结果包括多个目标的位置和置信度，但是这些位置和置信度的顺序与标注信息中的标准位置和标准类别并不是一一对应的，例如：假设检测出两个目标，分别为目标A和目标B，中间检测结果中目标A与标注信息a对应，目标B与标注信息b对应。如果目标A和目标B的排列顺序与标注信息a和标注信息b的排列顺序并不相同，例如：(A，B)与(b，a)，那么训练就会出现错误。因此，需要将目标的标注信息变换不同的排列顺序，得到多组信息组合，并且针对每组信息组合计算损失值，再根据需求将核实的损失值对应的信息组合作为标注信息的合理信息。

这里需要说明的是，标注信息对应的目标的数量很可能小于中间检测结果的数量，例如：标注信息对应的目标的数量为5个，即与余弦标注了样本图像的5个目标。而中间检测结果的数量为6个，说明目标检测模型检测到样本图像有6个目标，此时就需要在标注信息对应的目标中增加虚拟目标(虚拟目标即不存在的目标)，通过步骤B1-步骤B2执行：

步骤B1，如果目标的数量，小于一个提议区域对应的中间检测结果的数量，在目标中增加虚拟目标，以及虚拟目标的标注信息。

虚拟目标的标注信息中，标准位置和标准类别均可以为空值。这样，可以保证虚拟目标对应的损失值较高，以使调整参数后的目标检测模型，不再检测到虚拟目标。

步骤B2，将增加虚拟目标后的每个目标的标注信息变换排列顺序，得到多组信息组合。

添加虚拟目标后的目标的数量与中间检测结果的数量相同，此时再对标注信息的位置变换排列顺序，可以保证信息组合排列的准确性。

步骤A3，针对每个提议区域，基于预设的损失函数，计算该提议区域对应的中间检测结果和每组信息组合之间的损失值；基于损失值，训练目标检测模型。

该提议区域的损失值可以通过EMD损失计算，即可以通过下述算式计算：

其中，b_i代表第i个提议区域；

表示目标分类损失值；

表示第i个提议区域的第k个中间检测结果中的置信度；

表示第π组信息组合中第k个目标的标注信息；

表示目标回归损失值；

表示第i个提议区域的第k个中间检测结果中的位置。

对于第i个提议区域，假设一共有Π组信息组合，其中，第π组信息组合的第k个中间检测结果的目标分类损失值

基于第i个提议区域的第k个中间检测结果中的置信度

和第π组信息组合中第k个目标的标注信息

确定。其中，如果第π组信息组合中第k个目标为虚拟目标，则目标分类损失值

取0。

第π组信息组合的第k个中间检测结果的目标回归损失值

其中，第π组信息组合的第k个中间检测结果的目标分类损失值

基于第i个提议区域的第k个中间检测结果中的位置

和第π组信息组合中第k个目标的标注信息

确定。其中，如果第π组信息组合中第k个目标为虚拟目标，则目标回归损失值

取0。

通过上述算式计算Π组信息组合中每组信息组合的损失值，将损失值最低的数值作为本次训练的损失值。也就是说，损失值最低的数值对应的信息组合的排列顺序与中间检测结果的排列顺序最为一致。该方式可以确保获取到预测结果集合和目标集合之间的最小损失，得到模型的最优优化方向，有效地训练目标检测模型。

步骤S404，将每个提议区域对应的置信度和位置作为一个集合，在每个提议区域对应的集合之间进行非极大值抑制处理。

将每个提议区域对应的置信度和位置作为一个集合，集合中的置信度并不相同，对于位置比较接近的目标对应的置信度，可以进行非极大值抑制处理。非极大值抑制处理是指抑制置信度不是极大值的目标，传统的非极大值抑制处理是将置信度不是极大值的目标剔除，剔除后得到目标对应的位置可以为待处理图像的目标检测结果。

然而，在多个目标重叠程度较高的场景中，如果将不是极大值的元素剔除，很可能将一些目标剔除，存在漏检的可能。因此，本实施例通过下步骤C1-步骤C4进行非极大值抑制处理：

步骤C1，将输出结果中，最大的置信度对应的位置，确定为目标位置。

首先，将最大的置信度对应的位置确定为目标位置，对除目标位置之外的其他位置进行非极大值抑制处理。

步骤C2，从输出结果中删除目标位置以及目标位置对应的置信度，将输出结果中的剩余位置以及剩余位置对应的置信度，确定为待处理集合。

将除了目标位置之外的其他位置和其他位置对应的置信度作为待处理集合，本实施例的非极大值抑制处理方法在传统的非极大值抑制处理的基础上增加一个判断，如果待处理集合中的目标与目标位置对应的目标属于同一个提议区域生成的中间检测结果，并且重叠程度较高，则跳过抑制步骤。

步骤C3，根据待处理集合中各个位置与目标位置的重叠程度，以及各个位置与目标位置对应的提议区域，从待处理集合中删除至少一部分位置，以及至少一部分位置对应的置信度，得到删除后的待处理集合。

对于待处理集合中与目标位置同属一个提议区域的位置，分别确定每个位置与目标位置的重叠程度，将重叠程度较低的位置删除，并删除重叠程度较低的位置对应的置信度，即进行非极大值抑制处理。对于重叠程度较高的位置，则不删除这些位置以及这些位置对应的置信度，即不进行非极大值抑制处理，可以防止漏检情况的出现，增加检验的准确率。从待处理集合中删除至少一部分位置，以及至少一部分位置对应的置信度的步骤可以通过下述步骤执行：

针对待处理集合中的每个位置，如果当前位置与目标位置的交并比小于预设的交并比阈值，且当前位置对应的提议区域与目标位置对应的提议区域不同，从输出结果中删除当前位置，以及当前位置对应的置信度。

每个位置与目标位置的交并比即每个位置与位置的重叠程度，只有交并比小于预设的交并比阈值，且当前位置对应的提议区域与目标位置对应的提议区域不同时，才会进行非极大值抑制，从输出结果中删除当前位置，以及当前位置对应的置信度。还可以通过下述代码实现：

代码输入:待处理集合中各个位置B＝{b1,b2,...,bN},待处理集合中各个位置对应的置信度S＝{s1,s2,...,sN},待处理集合中各个位置对应的提议区域编号C＝{c1,c2,...,cN},非极大值抑制的抑制阈值Nt。集合D为算法最终输出的结果集合。

Begin：

步骤C4，如果删除后的待处理集合不为空，将删除后的待处理集合作为更新的输出结果，继续执行将输出结果中，最大的置信度对应的位置，确定为目标位置的步骤，直至删除后的待处理集合为空。

如果删除后的待处理集合不为空，这说明抑制处理并没有完成，需要继续进行抑制处理，此时将删除后的待处理集合作为更新的输出结果，继续选择目标位置，并继续进行极致处理，直至删除后的待处理集合为空。

通过上述步骤进行非极大值抑制处理，可以假如跳过抑制处理的判断步骤，只会将当前位置与目标位置的交并比小于预设的交并比阈值，且当前位置对应的提议区域与目标位置对应的提议区域不同的位置剔除，在多个目标重叠程度较高的场景中，也不会漏检。

步骤S406，将抑制处理后得到的位置，确定为待处理图像的目标检测结果。

每次抑制处理都会一个目标位置，每个目标位置都是对应的抑制处理中置信度最大的位置，即最可能出现目标的位置，因此可以将这些目标位置作为抑制处理后得到的位置，通过下述步骤执行：将确定出的所有的目标位置，确定为待处理图像的目标检测结果。

本实施例在CrowHuman数据验证集上评测了提出的物体检测方法。同时与基线方法FPN NMS，常见的后处理改进方法soft-NMS,GossipNet，RelationNet进行比较。结果如表1所示。本实施例提出的方法比传统的基线方法在mJI(mean Jaccard Index，平均杰卡德系数)，mAP(mean average precision，平均精度均值)，mMR(mean missing rate，平均丢失率)和Recall(召回率)上分别提升了4.9％，2.5％，1.5％和8.9％。

表1

因此，与传统的目标检测方法相比，本实施例提出的方法具有更高的准确性。

实施例四：

对应于上述方法实施例，参见图7所示的一种目标检测装置的结构示意图，该目标检测装置包括：

待处理图像输入模块71，用于将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；

其中，目标检测模型包括多组并联的检测网络；对于待处理图像的一个提议区域，多组检测网络用于检测该提议区域中的不同目标；输出结果包括：针对每个提议区域的、每组检测网络输出的中间检测结果；

目标检测结果确定模块72，用于基于输出结果，确定待处理图像的目标检测结果。

本发明实施例提供了一种目标检测装置，目标检测模型包括多组并联的检测网络，每组检测网络分别检测待处理图像的提议区域的不同目标，因此目标检测模型可以输出待处理图的每个提议区域的不同目标的检测结果。该方式中，对于不同目标由不同的检测网络分别进行检测，即使多个目标处于拥挤或高度遮挡的场景中，多个检测网络也可以输出该场景中多个目标的检测结果，有效降低对目标的漏检情况，从而提高了目标检测结果的准确度。

进一步地，上述检测网络包括并联的第一分类层和第一回归层；第一分类层用于根据提议区域的区域特征，输出从提议区域中检测到的目标的置信度；第一回归层用于根据提议区域的区域特征，输出从提议区域中检测到的目标的位置。

进一步地，上述检测网络还包括：与第一回归层连接的特征增强子网络；特征增强子网络用于：根据提议区域对应的区域特征，以及第一回归层输出的从提议区域中检测到的目标的位置，输出提议区域的中间检测结果。

进一步地，上述增强子网络包括特征连接层、全连接层、第二分类层和第二回归层；特征连接层用于对提议区域对应的区域特征，以及第一回归层输出的从提议区域中检测到的目标的位置进行连接处理，得到连接特征；全连接层用于对连接特征进行变换处理，得到变换特征；第二分类层用于根据变换特征，输出从提议区域中检测到的目标的置信度；第二回归层用于根据变换特征，输出从提议区域中检测到的目标的位置。

进一步地，上述装置还包括目标检测模型训练模块，用于将预设的样本图像输入至目标检测模型中，得到样本图像对应的输出结果；其中，样本图像携带有目标的标注信息；标注信息包括标准位置和标准类别；输出结果包括：针对样本图像的每个提议区域，每组检测网络输出的该提议区域对应的中间检测结果；将目标的标注信息变换排列顺序，得到多组信息组合；其中，每组信息组合中，目标的标注信息的排列顺序不同；针对每个提议区域，基于预设的损失函数，计算该提议区域对应的中间检测结果和每组信息组合之间的损失值；基于损失值，训练目标检测模型。

进一步地，上述目标检测模型训练模块，用于如果目标的数量，小于一个提议区域对应的中间检测结果的数量，在目标中增加虚拟目标，以及虚拟目标的标注信息；将增加虚拟目标后的每个目标的标注信息变换排列顺序，得到多组信息组合。进一步地，上述目标检测模型训练模块，用于该提议区域对应的损失值：

其中，b_i代表第i个提议区域；

表示目标分类损失值；

表示第i个提议区域的第k个中间检测结果中的置信度；

表示第π组信息组合中第k个目标的标注信息；

表示目标回归损失值；

表示第i个提议区域的第k个中间检测结果中的位置。

进一步地，上述中间检测结果包括：从提议区域中检测到的目标的置信度和位置；目标检测结果确定模块，用于将每个提议区域对应的置信度和位置作为一个集合，在每个提议区域对应的集合之间进行非极大值抑制处理；将抑制处理后得到的位置，确定为待处理图像的目标检测结果。

进一步地，上述目标检测结果确定模块，用于将输出结果中，最大的置信度对应的位置，确定为目标位置；从输出结果中删除目标位置以及目标位置对应的置信度，将输出结果中的剩余位置以及剩余位置对应的置信度，确定为待处理集合；根据待处理集合中各个位置与目标位置的重叠程度，以及各个位置与目标位置对应的提议区域，从待处理集合中删除至少一部分位置，以及至少一部分位置对应的置信度，得到删除后的待处理集合；如果删除后的待处理集合不为空，将删除后的待处理集合作为更新的输出结果，继续执行将输出结果中，最大的置信度对应的位置，确定为目标位置的步骤，直至删除后的待处理集合为空；将抑制处理后得到的位置，确定为待处理图像的目标检测结果的步骤，包括：将确定出的所有的目标位置，确定为待处理图像的目标检测结果。

进一步地，上述目标检测结果确定模块，用于针对待处理集合中的每个位置，如果当前位置与目标位置的交并比小于预设的交并比阈值，且当前位置对应的提议区域与目标位置对应的提议区域不同，从输出结果中删除当前位置，以及当前位置对应的置信度。

实施例五：

本发明实施例提供了一种电子系统，该电子系统包括：图像采集设备、处理设备和存储装置；图像采集设备，用于获取图像；存储装置上存储有计算机程序，计算机程序在被处理设备运行时执行如上述目标检测方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行如目标检测方法的步骤。

本发明实施例所提供的目标检测方法、装置和电子系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和/或装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；

其中，所述目标检测模型包括多组并联的检测网络；对于所述待处理图像的一个提议区域，多组所述检测网络用于检测该提议区域中的不同目标；所述输出结果包括：针对每个提议区域的、每组所述检测网络输出的中间检测结果；

基于所述输出结果，确定所述待处理图像的目标检测结果。

2.根据权利要求1所述的方法，其特征在于，所述检测网络包括并联的第一分类层和第一回归层；

所述第一分类层用于根据所述提议区域的区域特征，输出从所述提议区域中检测到的目标的置信度；所述第一回归层用于根据所述提议区域的区域特征，输出从所述提议区域中检测到的目标的位置。

3.根据权利要求2所述的方法，其特征在于，所述检测网络还包括：与所述第一回归层连接的特征增强子网络；

所述特征增强子网络用于：根据所述提议区域对应的区域特征，以及所述第一回归层输出的从所述提议区域中检测到的目标的位置，输出所述提议区域的中间检测结果。

4.根据权利要求3所述的方法，其特征在于，所述增强子网络包括特征连接层、全连接层、第二分类层和第二回归层；

所述特征连接层用于对所述提议区域对应的区域特征，以及所述第一回归层输出的从所述提议区域中检测到的目标的位置进行连接处理，得到连接特征；

所述全连接层用于对所述连接特征进行变换处理，得到变换特征；

所述第二分类层用于根据所述变换特征，输出从所述提议区域中检测到的目标的置信度；

所述第二回归层用于根据所述变换特征，输出从所述提议区域中检测到的目标的位置。

5.根据权利要求1所述的方法，其特征在于，所述目标检测模型，通过下述方式训练得到：

将预设的样本图像输入至所述目标检测模型中，得到所述样本图像对应的输出结果；其中，所述样本图像携带有目标的标注信息；所述标注信息包括标准位置和标准类别；所述输出结果包括：针对所述样本图像的每个提议区域，每组所述检测网络输出的该提议区域对应的中间检测结果；

将所述目标的标注信息变换排列顺序，得到多组信息组合；其中，每组所述信息组合中，所述目标的标注信息的排列顺序不同；

针对每个提议区域，基于预设的损失函数，计算该提议区域对应的中间检测结果和每组所述信息组合之间的损失值；基于所述损失值，训练所述目标检测模型。

6.根据权利要求5所述的方法，其特征在于，将所述目标的标注信息变换排列顺序，得到多组信息组合的步骤，包括：

如果所述目标的数量，小于一个所述提议区域对应的中间检测结果的数量，在所述目标中增加虚拟目标，以及所述虚拟目标的标注信息；

将增加虚拟目标后的每个所述目标的标注信息变换排列顺序，得到多组所述信息组合。

7.根据权利要求5所述的方法，其特征在于，基于预设的损失函数，计算该提议区域对应的中间检测结果和每组所述信息组合之间的损失值的步骤，包括：

该提议区域对应的损失值：

其中，b_i代表第i个提议区域；

代表第i个提议区域对应的损失值；π代表第π组所述信息组合；Π表示所述信息组合的总组数；

表示目标分类损失值；

表示第i个提议区域的第k个中间检测结果中的置信度；

表示第π组所述信息组合中第k个目标的标注信息；

表示目标回归损失值；

表示第i个提议区域的第k个中间检测结果中的位置。

8.根据权利要求1所述的方法，其特征在于，所述中间检测结果包括：从所述提议区域中检测到的目标的置信度和位置；

所述基于所述输出结果，确定所述待处理图像的目标检测结果的步骤，包括：

将每个提议区域对应的置信度和位置作为一个集合，在每个所述提议区域对应的所述集合之间进行非极大值抑制处理；

将抑制处理后得到的位置，确定为所述待处理图像的目标检测结果。

9.根据权利要求8所述的方法，其特征在于，所述在每个所述提议区域对应的所述集合之间进行非极大值抑制处理的步骤，包括：

将所述输出结果中，最大的置信度对应的位置，确定为目标位置；

从所述输出结果中删除所述目标位置以及所述目标位置对应的置信度，将所述输出结果中的剩余位置以及所述剩余位置对应的置信度，确定为待处理集合；

根据所述待处理集合中各个位置与所述目标位置的重叠程度，以及所述各个位置与所述目标位置对应的提议区域，从所述待处理集合中删除至少一部分位置，以及所述至少一部分位置对应的置信度，得到删除后的待处理集合；

如果所述删除后的待处理集合不为空，将所述删除后的待处理集合作为更新的输出结果，继续执行将所述输出结果中，最大的置信度对应的位置，确定为目标位置的步骤，直至所述删除后的待处理集合为空；

所述将抑制处理后得到的位置，确定为所述待处理图像的目标检测结果的步骤，包括：将确定出的所有的目标位置，确定为所述待处理图像的目标检测结果。

10.根据权利要求9所述的方法，其特征在于，根据所述待处理集合中各个位置与所述目标位置的重叠程度，以及所述各个位置与所述目标位置对应的提议区域，从所述待处理集合中删除至少一部分位置，以及所述至少一部分位置对应的置信度的步骤，包括：

针对所述待处理集合中的每个位置，如果当前位置与所述目标位置的交并比小于预设的交并比阈值，且所述当前位置对应的提议区域与所述目标位置对应的提议区域不同，从所述输出结果中删除所述当前位置，以及所述当前位置对应的置信度。

11.一种目标检测装置，其特征在于，所述装置包括：

待处理图像输入模块，用于将待处理图像输入至预先训练得到的目标检测模型中，得到输出结果；

目标检测结果确定模块，用于基于所述输出结果，确定所述待处理图像的目标检测结果。

12.一种电子系统，其特征在于，所述电子系统包括：图像采集设备、处理设备和存储装置；

所述图像采集设备，用于获取图像；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理设备运行时执行如权利要求1至10任一项所述的目标检测方法。

13.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理设备运行时执行如权利要求1至10任一项所述的目标检测方法的步骤。