CN107918767A

CN107918767A - 目标检测方法、装置、电子设备及计算机可读介质

Info

Publication number: CN107918767A
Application number: CN201711203671.8A
Authority: CN
Inventors: 徐子尧; 张弛
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-04-17
Anticipated expiration: 2037-11-27
Also published as: CN107918767B

Abstract

本发明提供了一种目标检测方法、装置、电子设备及计算机可读介质，涉及图像处理的技术领域，该方法包括：提取目标图像帧中前景物体的度量特征，前景物体的数量至少为一个；确定待检对象的度量特征，待检对象的数量至少为一个；基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象，本申请缓解了现有技术中存在的在采用较少的训练样本对网络进行训练时，无法进行有效的目标检测的技术问题。

Description

目标检测方法、装置、电子设备及计算机可读介质

技术领域

本发明涉及图像处理的技术领域，尤其是涉及一种目标检测方法、装置、电子设备及计算机可读介质。

背景技术

目标检测在诸多领域都有广泛的应用，针对视频序列的目标检测可用于视频标签、视频检索、视频分类、视频安全鉴定等多个任务。在以往的视频序列的目标检测方法中，往往采用基于机器学习的方法。例如，传统的HAAR/LBP/HOG特征与SVM结合的传统方法，以及采用深度学习与卷积神经网络的目标检测方法，如Faster RCNN、YOLO、SSD、RFCN。但是，这些方法往往需要大量的训练数据，而且只能检测特定的、有限的目标。如果待检测目标只有极少(例如，一张)样本，这类方法就失效了。

针对上述问题，还未提出有效解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种目标检测方法、装置、电子设备及计算机可读介质，以缓解了现有技术中存在的在采用较少的训练样本对网络进行训练时，无法进行有效的目标检测的技术问题。

第一方面，本发明实施例提供了一种目标检测方法，包括：提取目标图像帧中前景物体的度量特征，所述前景物体的数量至少为一个；确定待检对象的度量特征，所述待检对象的数量至少为一个度量特征；基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象。

进一步地，提取目标图像帧中前景物体的度量特征包括：通过第一卷积神经网络确定所述前景物体的基础属性特征；基于所述前景物体的基础属性特征确定所述前景物体的度量特征。

进一步地，通过第一卷积神经网络确定所述前景物体的基础属性特征包括：通过所述第一卷积神经网络在所述目标图像帧中检测所述前景物体的物体框；基于所述物体框在所述目标图像帧的特征图中提取所述前景物体的局部特征图；基于所述局部特征图确定所述前景物体的基础属性特征。

进一步地，通过所述第一卷积神经网络在所述目标图像帧中检测所述前景物体的物体框包括：获取所述目标图像帧的特征图；通过所述第一卷积神经网络对所述特征图进行预测，得到至少一个预测区域和每个所述预测区域的预测分数；将目标预测区域的区域框作为所述物体框，其中，所述目标预测区域为所述至少一个预测区域中预测分数大于预设分数的区域。

进一步地，基于所述前景物体的基础属性特征确定所述前景物体的度量特征包括：将所述前景物体的基础属性特征作为所述前景物体的度量特征；或者，通过第二卷积神经网络对所述前景物体的基础属性特征进行处理，得到所述前景物体的度量特征。

进一步地，所述确定待检对象的度量特征包括：将所述待检对象的基础属性特征作为所述待检对象的度量特征；或者，对每个所述待检对象的基础属性特征进行处理，得到所述待检对象的度量特征。

进一步地，所述基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象包括：计算所述待检对象的度量特征和所述前景物体的度量特征之间的距离，得到至少一个距离；确定所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为所述至少一个距离中的最小距离。

进一步地，所述基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象还包括：计算所述待检对象的度量特征的平均值；计算所述前景物体的度量特征与所述平均值之间的距离，得到至少一个距离；确定所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为所述至少一个距离中的最小距离。

进一步地，所述目标图像帧包括多个连续的图像帧，所述方法还包括：如果在所述多个连续的图像帧中的第一图像帧和第二图像帧中检测到所述待检对象，则在所述第一图像帧和所述第二图像帧之间的部分图像帧或者全部图像帧中预测所述待检对象的边界框。

第二方面，本发明实施例还提供了一种目标检测装置，包括：提取模块，用于提取目标图像帧中前景物体的度量特征，所述前景物体的数量至少为一个；确定模块，用于确定待检对象的度量特征，所述待检对象的数量至少为一个度量特征；检测模块，用于基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法。

第四方面，本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述所述的方法。

在本发明实施例中，首先提取目标图像帧中前景物体的度量特征；然后，确定待检对象的度量特征；最后，基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象。在本发明实施例中，通过提取目标图像帧的前景物体的度量特征，并基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象中的待检对象，能够缓解现有技术中存在的在采用较少的训练样本对网络进行训练时，无法进行有效的目标检测的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种电子设备的示意图；

图2是根据本发明实施例的一种目标检测方法的流程图；

图3是根据本发明实施例的一种基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象的流程图；

图4是根据本发明实施例的另一种基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象的流程图；

图5是根据本发明实施例的一种目标检测装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

首先，参照图1来描述用于实现本发明实施例的目标检测方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储器104、输入装置106、输出装置108以及图像采集器110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集器110可以采集待识别的目标图像帧，并且将采集到的目标图像帧存储在所述存储器104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的目标检测方法和装置的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。

实施例二：

根据本发明实施例，提供了一种目标检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种目标检测方法的流程图，如图2所示，该方法包括如下步骤：

步骤S102，提取目标图像帧中前景物体的度量特征，所述前景物体的数量至少为一个。

在本发明实施例中，当观察场景的是一个固定的相机时，背景几乎保持不变。在这种情况下，感兴趣的元素是在场景中运动的物体，该物体即为前景物体。也就是说，前景物体是具有显著特征的区域中的物体。

可选地，在步骤S102之前，图2所示方法还可以包括：获取目标图像帧。例如，可以使用图像采集装置采集目标图像帧，或者，从存储器中获取使用图像采集装置预先采集到的目标图像帧。可选地，通过目标卷积神经网络提取目标图像帧中前景物体的度量特征。上述目标卷积神经网络为预先已经训练完成的神经网络，其中，目标卷积神经网络为通过可复用的物体识别数据集进行训练之后的网络；该训练之后的神经网络能够对待处理的图像中具有显著特征的区域进行学习，从而学习得到位于该区域内前景物体的基本特征。

需要说明的是，前景物体的数量可以为一个，还可以为多个，具体可以根据实际需要来对目标卷积神经网络进行调整，以实现检测一个前景物体，或者，实现同时检测多个前景物体。

步骤S104，确定待检对象的度量特征，所述待检对象的数量至少为一个。

在本发明实施例中，该待检对象可以为不常见的物体，例如，宇宙飞船，不常见的物体，不常见的logo等物体，但本发明实施例对此不予限定，该待检对象也可以为任意的其他物体。

在本发明实施例中，在获取待检对象时，可以先获取包含有待检对象的载体介质，例如，包含待检对象的图片，从而获取该待检对象的度量特征。

步骤S106，基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象。

在本发明实施例中，在确定出待检对象的度量特征和前景物体的度量特征之后，就可以基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象。

需要说明的是，待检对象可以为多个。其中，多个待检对象可以同时包含在一个图像帧上，例如，图像帧1中包括待检对象1和待检对象2。除此之外，多个待检对象还可以分别包含在不同的图像帧上，例如，图像帧1中包括待检对象1，图像帧2中包括待检对象2。

在本发明实施例中，需要说明的是，该目标卷积神经网络为通过可复用的物体识别数据集进行训练之后的网络。其中，可复用的物体识别数据集为现有的大规模物体识别数据集，例如，MSCOCO数据集。

当包含待检对象的待检对象的数量较少时，通过以往的训练和检测方法无法进行有效的检测，从而导致检测效果较差，以至于无法从视频或者图像中准确识别待检对象。但是，在本发明实施例中，通过对目标图像帧和待检对象进行度量分析，就能够准确并快速的从目标图像帧中识别出待检物体，使得检测精确度更高，检测效果更佳。进一步地，在本发明实施例中，无需采用包含待检对象的样本数据进行训练，通过可复用的物体识别数据集对目标卷积神经网络进行训练的方式，就能够实现目标卷积神经网络的训练，从而使得该目标卷积神经网络对任何的物体都能都进行准确地进行检测。

通过上述描述可知，在本发明实施例中，首先，通过目标卷积神经网络提取目标图像帧中前景物体的度量特征。其中，目标图像帧为检测到的视频流中待处理的图像帧。

可选地，目标卷积神经网络可以包括第一卷积神经网络和第二卷积神经网络两个分支。其中第一卷积神经网络可以用于学习具有显著特征的区域(即图像帧中的前景物体)，第二卷积神经网络可以用于学习不同类别物体的度量特征。下面结合具体例子描述。

在提取目标图像帧中前景物体的度量特征时，首先，要获取所述目标图像帧的特征图；

然后，可以通过目标卷积神经网络中的第一卷积神经网络对所述特征图进行预测，得到至少一个预测区域和每个所述预测区域的预测分数；

接下来，将目标预测区域的区域框作为所述物体框，其中，所述目标预测区域为所述至少一个预测区域中预测分数大于预设分数的区域。应理解，区域框或物体框也可以称为边界框(bounding box)。

也就是说，在本发明实施例中，首先，要将视频流中的每个图像帧(即，目标图像帧)输入到一层或者多层卷积神经网络中，以提取该目标图像帧的特征信息，并输出目标图像帧的特征图。具体地，在本发明实施例中，可以将目标图像帧输入到基础卷积神经网络中，以使基础卷积神经网络对目标图像帧进行特征提取，以提取得到目标图像帧的特征图，然后将该特征图输入目标卷积神经网络中，其中，基础卷积神经网络的输出层可以与目标卷积神经网络相连。其中，基础卷积神经网络的参数用已经训练好的基础模型进行初始化处理，基础模型可以为：GoogleNet，VGG，ResNet等模型。

在得到特征图之后，就可以通过目标卷积神经网络中的第一卷积神经网络对该特征图进行预测，得到至少一个预测区域，以及每个预测区域的预测分数。该预测分数用于表明该区域中出现待检对象的概率。

在得到至少一个预测区域之后，就可以在至少一个预测区域中确定目标预测区域，并将目标预测区域作为目标图像帧中前景物体的物体框。其中，目标预测区域的预测分数大于预设分数。也就是说，在筛选目标预测区域时，是将至少一个预测区域中预测分数大于预设分数的预测区域作为目标预测区域，其中，预设分数可以根据实际需要来进行设定。

通过上述描述可知，上述描述的过程为通过第一卷积神经网络在目标图像帧中检测前景物体的物体框的具体过程。通过上述过程，能够在目标图像帧中检测前景物体的物体框，从而就能够确定前景物体。

需要说明的是，上述第一卷积神经网络可以为区域生成网络(RegionProposalNetwork，RPN)。RPN网络会对特征图的每个像素区域产生一些不同形状，不同大小的预测区域和预测分数，此时，就可以将预测分数大于预设分数的预测区域作为目标预测区域，从而得到前景物体的物体框。

在本发明实施例中，在通过第一卷积神经网络在目标图像帧中检测前景物体的物体框之后，还可以基于所述物体框在所述目标图像帧的特征图中提取所述前景物体的局部特征图；并基于所述局部特征图确定所述前景物体的基础属性特征。其中，上述描述的过程为通过第一卷积神经网络确定前景物体的基础属性特征的过程，在该过程中确定出的基础属性特征用于确定前景物体的度量特征，具体确定过程将在下述实施例中进行详细介绍。

例如，通过上述描述的方法得到前景物体1的物体框1，以及得到前景物体2的物体框2之后，就可以在目标图像帧的特征图中分别提取前景物体1的局部特征图，以及提取前景物体2的局部特征图。

具体地，可以将特征图中位于物体框1中的特征图作为前景物体1的局部特征图，以及将位于物体框2中的特征图作为前景物体2的局部特征图。在确定出前景物体1的局部特征图之后，就可以将前景物体1的局部特征图作为前景物体1的基础属性特征，以及在确定出前景物体1的局部特征图之后，将前景物体2的局部特征图作为前景物体2的基础属性特征。

在本发明实施例中，在通过第一卷积神经网络确定所述前景物体的基础属性特征之后，就可以基于前景物体的基础属性特征确定前景物体的度量特征。该过程即为通过目标卷积神经网络提取目标图像帧中前景物体的度量特征的过程。

在本发明实施例中，可以通过以下方式一和方式二来基于前景物体的基础属性特征确定前景物体的度量特征。

方式一

将所述前景物体的基础属性特征作为所述前景物体的度量特征。

也就是说，在本发明实施例中，确定前景物体的度量特征的一个可选的实施方式就是将前景物体的基础属性特征作为该前景物体的度量特征。例如，通过上述方式确定出两个前景物体，分别为前景物体1和前景物体2。此时，可以将前景物体1的基础属性特征作为前景物体11的度量特征，以及将前景物体2的基础属性特征作为前景物体12的度量特征。

方式二

通过第二卷积神经网络对所述前景物体的基础属性特征进行处理，得到所述前景物体的度量特征。

在该实施方式中，可以将利用第一卷积神经网络得到的该前景物体的基础属性特征输入到第二卷积神经网络中，以使第二卷积神经网络对基础属性特征进行处理，得到前景物体的度量特征。其中，第二卷积神经网络的输出即为预测的前景物体的度量特征信息。

在本发明实施例中，第二卷积神经网络能够学习不同类别物体的度量特征信息，其中，相同类别物体的度量特征距离较近，不同类别物体的度量特征距离较远。需要说明的是，在本发明实施例中，特征距离可以为欧氏距离，马氏距离，切比雪夫距离或者余弦距离等能够表明两个物体之间的相似程度的距离信息。该第二卷积神经网络的训练可以在现有的大规模物体识别数据集(例如，MSCOCO数据集)上进行。在对第二卷积神经网络进行训练时，对于相同或者不同类别的物体，可以通过triplet loss或quadloss等度量学习方法作为其损失函数，使相同类别物体的度量距离缩小，不同类别物体的度量距离增加。

另外，还可以确定待检对象的度量特征。其中，在本发明实施例中，并不限制前景物体的度量特征和待检对象的度量特征的确定顺序。

在另一个可选的实施方式中，同样可以采用上述方式一和方式二所描述的方式来确定待检对象的度量特征，具体过程描述如下：

方式一：

将所述待检对象的基础属性特征作为所述待检对象的度量特征。

在本发明实施例中，如果待检对象包含在一个图像帧中，首先在图像帧中标注待检对象的边界框(也即，待检对象的物体框)。如果在该图像帧中包括多个待检对象，则在该图像帧中标注多个待检对象的边界框。然后，将多个待检对象的边界框中的基础属性特征作为待检对象的度量特征。

例如，在一个图像帧中包括2个待检对象，分别是特定目标和该特定物体的logo。此时，可以预先在该图像帧中标注该特定物体的边界框以及logo的边界框。然后，将该图像帧的边界框中的基础属性特征作为该特定物体的度量特征21；以及将该logo的边界框中的基础属性特征作为logo的度量特征22。

方式二：

通过第二卷积神经网络对每个所述待检对象的基础属性特征进行处理，得到所述待检对象的度量特征。

在本发明实施例中，在通过上述方式一获取到待检对象的基础属性特征之后，还可以将待检对象的基础属性特征输入到第二卷积神经网络中，以使第二卷积神经网络对待检对象的基础属性特征进行处理，得到待检对象的度量特征。其中，第二卷积神经网络的输出即为预测的待检对象的度量特征信息。可选地，第二卷积神经网络可以为上文描述的目标卷积神经网络中的另一分支网络。

在本发明实施例中，第二卷积神经网络能够学习不同类别物体的度量特征信息，其中，相同类别物体的度量特征距离较近，不同类别物体的度量特征距离较远。需要说明的是，在本发明实施例中，特征距离可以为欧氏距离，马氏距离，切比雪夫距离或者余弦距离等能够表明两个物体之间的相似程度的距离信息。该第二卷积神经网络的训练可以在现有的大规模物体识别数据集(例如，MSCOCO数据集)上进行。在对第二卷积神经网络进行训练时，对于相同与不同类别的物体，通过triplet loss或quad loss等度量学习方法作为其损失函数，使相同类别物体的度量距离缩小，不同类别物体的度量距离增加。

例如，通过上述方式一得到特定物体的边界框中的基础属性特征1，以及得到logo的边界框中的基础属性特征2之后，将基础属性特征1输入到第二卷积神经网络中学习得到度量特征21，以及将基础属性特征2输入到第二卷积神经网络中学习得到度量特征22。

在得到待检对象的度量特征和前景物体的度量特征之后，就可以基于待检对象的度量特征和前景物体的度量特征在前景物体中检测待检对象。

在一个可选的实施方式中，如图3所示，基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象包括如下步骤：

步骤S11，计算所述待检对象的度量特征和所述前景物体的度量特征之间的距离，得到至少一个距离；

步骤S12，确定所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为至少一个距离中的最小距离。

具体地，在本发明实施例中，首先计算待检对象的度量特征与前景物体的度量特征之间的距离，得到至少一个距离。通过上述描述可知，该距离为能够表明两个物体之间的相似程度的距离，距离越小，表明越相似，距离越大，则表明差距越大。

因此，可以在至少一个距离中选择小于预设距离的距离所对应的前景物体作为目标前景物体；或者，在至少一个距离中选择最小距离所对应的前景物体作为目标前景物体。其中，用户可以根据实际需要来调整预设距离的大小。

例如，待检对象的度量特征为：度量特征21和度量特征22；前景物体的度量特征为：度量特征11和度量特征12。

此时，需要分别计算度量特征21与度量特征11、度量特征21与度量特征12之间的距离，得到结果1和结果2(结果2小于结果1)。接下来，可以将结果1和结果2中小于预设距离的结果所对应的前景物体作为目标前景物体；或者，直接将最小的结果1作为目标前景物体。

此时，还需要分别计算度量特征22与度量特征11、度量特征22与度量特征12的之间距离，得到结果3和结果4(结果4小于结果3)。接下来，可以将结果3和结果4中小于预设距离的结果所对应的前景物体作为目标前景物体；或者直接将最小的结果4作为目标前景物体。

通过上述描述可知，采用本发明实施例提供的方法，能够同时在视频流中检测多个待检对象，其中，多个待检对象可以为相互关联的，还可以为相互不关联的。

在一个可选的实施方式中，待检对象的数量为多个，如图4所示，基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象还包括如下步骤：

步骤S21，计算所述待检对象的度量特征的平均值；

步骤S22，计算所述前景物体的度量特征与所述平均值之间的距离，得到至少一个距离；

步骤S23，确定多个所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为至少一个距离中的最小距离。

在本发明实施例中，如果待检对象的数量为多个，那么会计算出多个度量特征，此时，需要计算多个待检对象的度量特征的平均值。需要说明的是，在计算该平均值时，将分为以下两种情况：

情况一、

如果多个待检对象为一个相同的待检对象，此时，可以计算多个待检对象的度量特征的平均值。此时，可以分别计算每个前景物体的度量特征与平均值之间的距离，得到至少一个距离。然后，可以在至少一个距离中选择小于预设距离的距离所对应的前景物体作为目标前景物体；或者，在至少一个距离中选择最小距离所对应的前景物体作为目标前景物体。其中，用户可以根据实际需要来调整预设距离的大小。

情况二、

如果多个待检对象包括不同的待检对象，此时可以分别计算各个待检对象所对应的度量特征的平均值。例如，假设多个待检对象中包括待检对象1、待检对象2、……、待检对象N，则计算多个待检对象中待检对象1所对应的度量特征的平均值1，以及计算多个待检对象中待检对象2所对应的度量特征的平均值2，直至计算待检对象N所对应的度量特征的平均值N。此时，针对平均值1，平均值2，…，平均值N，均采用上述情况一中所描述的方法来进行处理。从而，针对每个待检对象，均预测得到一个或者多个目标前景物体。此处，不再详细赘述。

通过上述描述可知，在本发明实施例中，在对上述目标卷积神经网络进行训练时，不需要待检对象的训练数据，而是用现有的大规模物体检测数据进行度量学习。当从未出现过的目标检测任务出现时，不需要训练新的模型，用现有的训练好的模型就能够对该目标检测任务中的目标进行检测。

需要说明的是，可以采用上述所描述的方法对视频流中的每个图像帧进行同样的处理，此处处理过程不再赘述。

当目标图像帧包括多个连续的图像帧的情况，该方法还包括：

如果在所述多个连续的图像帧中的第一图像帧和第二图像帧中检测到所述待检对象，则在所述第一图像帧和所述第二图像帧之间的部分图像帧或者全部图像帧中预测所述待检对象的边界框。

也就是说，判断间隔设定数量帧的两帧图像(即，第一图像帧和第二图像帧)中是否都存在检测结果，其中，检测结果表示在在第一图像帧和第二图像帧中均检测到待检对象；如果是，则用单目标跟踪方法(例如CSK，KCF/DCF，CN等方法)对这两帧(即，第一图像帧和第二图像帧)之间的图像帧进行待检对象的边界框的预测，获得最后的平滑的目标检测结果。

在较难的目标检测任务中检测结果往往难以做到连续平滑，采用本发明实施例所提供的方法，能够使检测到的边界框平滑过渡，得到一个平滑的检测结果。

在本发明实施例中，采用RPN网络预测出视频画面中的前景物体，在卷积神经网络中通过ROI Pooling提取前景物体以及待检对象的度量特征，以及计算所有前景物体与待检对象的度量特征的距离，选取距离小于预设距离的前景物体作为检测结果，并在检测出物体的若干帧之间通过目标跟踪方法来获取视频中连续的目标检测结果，本发明实施例能够解决传统的视频物体检测中训练样本过少的问题。

实施例二：

本发明实施例还提供了一种目标检测装置，该目标检测装置主要用于执行本发明实施例上述内容所提供的目标检测方法，以下对本发明实施例提供的目标检测装置做具体介绍。

图5是根据本发明实施例的一种目标检测装置的示意图，如图5所示，该目标检测装置主要包括：提取模块10，确定模块20和检测模块30，其中：

提取模块10，用于提取目标图像帧中前景物体的度量特征，所述前景物体的数量至少为一个；

确定模块20，用于确定待检对象的度量特征，所述待检对象的数量至少为一个度量特征；

检测模块30，用于基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象。

可选地，提取模块10包括：第一确定单元，用于通过第一卷积神经网络确定所述前景物体的基础属性特征；第二确定单元，用于基于所述前景物体的基础属性特征确定所述前景物体的度量特征。

可选地，第二确定单元用于：通过所述第一卷积神经网络在所述目标图像帧中检测所述前景物体的物体框；基于所述物体框在所述目标图像帧的特征图中提取所述前景物体的局部特征图；基于所述局部特征图确定所述前景物体的基础属性特征。

可选地，第二确定单元还用于：获取所述目标图像帧的特征图；通过所述第一卷积神经网络对所述特征图进行预测，得到至少一个预测区域和每个所述预测区域的预测分数；将目标预测区域的区域框作为所述物体框，其中，所述目标预测区域为所述至少一个预测区域中预测分数大于预设分数的区域。

可选地，第二确定单元用于：将所述前景物体的基础属性特征作为所述前景物体的度量特征；或者，通过第二卷积神经网络对所述前景物体的基础属性特征进行处理，得到所述前景物体的度量特征。

可选地，确定模块用于：将所述待检对象的基础属性特征作为所述待检对象的度量特征；或者，通过对每个所述待检对象的基础属性特征进行处理，得到所述待检对象的度量特征。

可选地，检测模块用于：计算所述待检对象的度量特征和所述前景物体的度量特征之间的距离，得到至少一个距离；确定所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为所述至少一个距离中的最小距离。

可选地，检测模块还用于：计算所述待检对象的度量特征的平均值；计算所述前景物体的度量特征与所述平均值之间的距离，得到至少一个距离；确定所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为所述至少一个中的最小距离。

可选地，该装置还用于：如果在所述多个连续的图像帧中的第一图像帧和第二图像帧中检测到所述待检对象，则在所述第一图像帧和所述第二图像帧之间的部分图像帧或者全部图像帧中预测所述待检对象的边界框。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

应理解，提取模块10、确定模块20和检测模块30可以由处理器实现。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

本发明实施例所提供的一种目标检测方法的计算机程序产品，包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，包括：

提取目标图像帧中前景物体的度量特征，所述前景物体的数量至少为一个；

确定待检对象的度量特征，所述待检对象的数量至少为一个；

基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象。

2.根据权利要求1所述的方法，其特征在于，所述提取目标图像帧中前景物体的度量特征包括：

通过第一卷积神经网络确定所述前景物体的基础属性特征；

基于所述前景物体的基础属性特征确定所述前景物体的度量特征。

3.根据权利要求2所述的方法，其特征在于，通过第一卷积神经网络确定所述前景物体的基础属性特征包括：

通过所述第一卷积神经网络在所述目标图像帧中检测所述前景物体的物体框；

基于所述物体框在所述目标图像帧的特征图中提取所述前景物体的局部特征图；

基于所述局部特征图确定所述前景物体的基础属性特征。

4.根据权利要求3所述的方法，其特征在于，通过所述第一卷积神经网络在所述目标图像帧中检测所述前景物体的物体框包括：

获取所述目标图像帧的特征图；

通过所述第一卷积神经网络对所述特征图进行预测，得到至少一个预测区域和每个所述预测区域的预测分数；

将目标预测区域的区域框作为所述物体框，其中，所述目标预测区域为所述至少一个预测区域中预测分数大于预设分数的区域。

5.根据权利要求2所述的方法，其特征在于，基于所述前景物体的基础属性特征确定所述前景物体的度量特征包括：

将所述前景物体的基础属性特征作为所述前景物体的度量特征；或者

6.根据权利要求1所述的方法，其特征在于，所述确定待检对象的度量特征包括：

将所述待检对象的基础属性特征作为所述待检对象的度量特征；或者

对每个所述待检对象的基础属性特征进行处理，得到所述待检对象的度量特征。

7.根据权利要求1至6中任一项中所述的方法，其特征在于，所述基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象包括：

计算所述待检对象的度量特征和所述前景物体的度量特征之间的距离，得到至少一个距离；

确定所述前景物体中的目标前景物体为所述待检对象，其中，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离小于预设距离，或者，所述目标前景物体的度量特征与所述待检对象的度量特征之间的距离为所述至少一个距离中的最小距离。

8.根据权利要求1至6中任一项中所述的方法，其特征在于，所述基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象还包括：

计算所述待检对象的度量特征的平均值；

计算所述前景物体的度量特征与所述平均值之间的距离，得到至少一个距离；

9.根据权利要求1至6中任一项所述的方法，其特征在于，所述目标图像帧包括多个连续的图像帧，所述方法还包括：

10.一种目标检测装置，其特征在于，包括：

提取模块，用于提取目标图像帧中前景物体的度量特征，所述前景物体的数量至少为一个；

确定模块，用于确定待检对象的度量特征，所述待检对象的数量至少为一个；

检测模块，用于基于所述待检对象的度量特征和所述前景物体的度量特征在所述前景物体中检测所述待检对象。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至9中任一项所述的方法。

12.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行所述权利要求1-9中任一所述的方法。