CN108629354B

CN108629354B - 目标检测方法及装置

Info

Publication number: CN108629354B
Application number: CN201710161063.9A
Authority: CN
Inventors: 李哲暘; 谭文明
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2020-08-04
Anticipated expiration: 2037-03-17
Also published as: CN108629354A

Abstract

本发明公开了一种目标检测方法及装置，属于机器视觉领域。该方法包括：从第一CNN模型的第一浅卷积层的特征图中以边长小于或等于预设阈值的锚点框为基准回归出多个第一检测目标候选框；对该第一深卷积层的特征图进行全尺度目标候选框提取，得到多个第二检测目标候选框；从该多个第二检测目标候选框中选取边长小于或等于该预设阈值的多个第三检测目标候选框；基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框；基于该多个第四检测目标候选框，对该目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率。本发明提高了对小尺寸目标进行检测和识别的准确度。

Description

目标检测方法及装置

技术领域

本发明实施例涉及机器视觉领域，特别涉及一种目标检测方法及装置。

背景技术

目标检测是机器视觉和模式识别领域中最活跃的研究主题之一，在智能化交通系统、智能监控系统等方面具有广泛的应用价值。目标检测是指将特定目标从复杂场景图像中检测出来，以便后续对目标进行分类或跟踪等处理。在目标检测中，通常采用从待检测的图像或者该图像的特征图中提取proposal(目标候选框)的方法，目标候选框用于指示可能存在目标的矩形区域。

现有技术中提供了一种基于CNN(Convolutional Neural Network，卷积神经网络)的目标检测方法，在该方法中，可以使用CNN模型实现对proposal的初步提取。具体地，为了减小计算量，初始阶段可以先对原图进行缩放，将缩放后的原图作为待检测的目标图像输入CNN模型。然后通过该CNN模型中的各级卷积层对该目标图像进行卷积处理，得到各级卷积层的特征图。其中，该CNN模型中包括多级卷积层，各级卷积处理的过程中，第一级卷积层对输入的目标图像进行卷积处理，得到特征图，对该特征图进行缩放后输入第二级卷积层；第二级卷积层对该缩放后的特征图进行卷积处理再得到特征图，缩放后再输入第三级卷积层进行卷积处理和缩放，如此，各级卷积层重复上述操作即可得到各级卷积层对应的特征图。之后，对上述各卷积层中靠近输出层的深卷积层的特征图进行全尺度的目标候选框提取，得到多个不同尺度的目标候选框；基于该多个不同尺度的目标候选框，对该深卷积层的特征图中进行特征提取，得到多个不同尺度的目标特征图。最后将该多个不同尺度的目标特征图输入该CNN模型中的RCNN(Region CNN，区域卷积神经网络)分类网络部分，通过该RCNN分类网络对该多个不同尺度的目标特征图进行分类，得到各个目标特征图中的目标属于预设类别的概率，以对目标图像中的目标进行检测。

但是CNN模型各级卷积处理的过程中，为了减小计算量，各级卷积层通常都会对卷积得到的特征图进行降采样处理，即将卷积得到的特征图进行缩放后再输送至下一级卷积层，以便下一级卷积层进行卷积处理。由于深卷积层中小尺寸目标的特征在降采样过程中会被大量削减，回归性较差，造成小尺寸目标候选框提取时目标对齐较差，影响后面的分类过程，因此易造成对小尺寸目标的漏检，导致无法精确地检测出小尺寸目标。

发明内容

为了解决现有技术中存在的对小尺寸目标进行检测和识别的准确度较低的问题，本发明实施例提供了一种目标检测方法及装置。所述技术方案如下：

第一方面，提供了一种目标检测方法，所述方法包括：

基于第一卷积神经网络CNN模型和待检测的目标图像，生成第一浅卷积层的特征图，所述第一浅卷积层是指所述第一CNN模型包括的多个卷积层中第一深卷积层之前的任一卷积层，所述第一深卷积层是指最靠近输出层的卷积层；

从所述第一浅卷积层的特征图中以边长小于或等于预设阈值的锚点框为基准回归出目标候选框，得到多个第一检测目标候选框；

基于所述第一CNN模型和所述第一浅卷积层的特征图，生成所述第一深卷积层的特征图；

对所述第一深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二检测目标候选框；

从所述多个不同尺度的第二检测目标候选框中选取边长小于或等于所述预设阈值的目标候选框，得到多个第三检测目标候选框；

基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框；

基于所述多个第四检测目标候选框，对所述目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率。

可选地，所述基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框，包括：

对于所述多个第三检测目标候选框中的每个第三检测目标候选框，从所述多个第一检测目标候选框中选择所述第三检测目标候选框的多个邻域目标候选框；

确定各个邻域目标候选框与所述第三检测目标候选框的交并比，所述交并比是指所述各个邻域目标候选框与所述第三检测目标候选框的交集区域的面积与所述各个邻域目标候选框与所述第三检测目标候选框的并集区域的面积之间的比例；

将交并比最大的邻域目标候选框确定为所述第四检测目标候选框。

可选地，所述基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框之前，还包括：

获取所述多个第一检测目标候选框的置信度，每个第一检测目标候选框的置信度用于指示每个第一检测目标候选框对应的区域是目标的可能性；

相应地，所述基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框，包括：

基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度以及所述多个第一检测目标候选框的置信度，从所述多个第一检测目标候选框中选取所述多个第四检测目标候选框。

可选地，所述基于所述多个第四检测目标候选框，对所述目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率之前，还包括：

从所述多个不同尺度的第二检测目标候选框中选取边长大于所述预设阈值的目标候选框，得到多个第五检测目标候选框；

相应地，所述基于所述多个第四检测目标候选框，对所述目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率，包括：

基于所述多个第五检测目标候选框，从所述第一深卷积层的特征图中提取多个第一目标特征图；

基于所述多个第四检测目标候选框，从所述第一浅卷积层的特征图中提取多个第二目标特征图；

基于所述第一CNN模型中的分类网络，对所述多个第一目标特征图和所述多个第二目标特征图进行分类，得到所述多个第一目标特征图中的目标以及所述多个第二目标特征图中的目标分别属于预设类别的概率。

可选地，所述基于第一卷积神经网络CNN模型和目标图像，生成第一浅卷积层的特征图之前，还包括：

基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练，所述第一真值样本包括所述训练图像中的各个目标对应的目标候选框，所述第二CNN模型为待训练的CNN模型，所述第一网络是指所述第二CNN模型中能够对第二深卷积层的特征图进行全尺度目标候选框提取的部分网络，所述第二深卷积层是指所述第二CNN模型包括的多个卷积层中最靠近输出层的卷积层；

基于训练后的第一网络和所述训练图像，确定多个不同尺度的第一训练目标候选框；

基于所述多个不同尺度的第一训练目标候选框，确定第二真值样本，所述第二真值样本包括多个边长小于或等于所述预设阈值的目标候选框；

基于所述训练图像和所述第二真值样本对所述第二CNN模型中的第二网络进行训练，所述第二网络是指所述第二CNN模型中能够从第二浅卷积层的特征图中回归出边长小于或等于所述预设阈值的目标候选框的部分网络，所述第二浅卷积层是指所述第二CNN模型包括的多个卷积层中所述第二深卷积层之前的任一卷积层；

基于训练后的第一网络和训练后的第二网络，对所述第二CNN模型中的分类网络进行训练，得到所述第一CNN模型。

可选地，所述基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练，包括：

基于所述第二CNN模型和所述训练图像，生成所述第二深卷积层的特征图；

对所述第二深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二训练目标候选框；

基于所述多个不同尺度的第二训练目标候选框和所述第一真值样本，生成所述第一网络的训练参数；

基于所述第一网络的训练参数对所述第一网络进行调整。

可选地，所述基于所述多个不同尺度的第一训练目标候选框，确定第二真值样本，包括：

从所述多个不同尺度的第一训练目标候选框中选取边长小于或等于所述预设阈值的目标候选框，得到多个第三训练目标候选框；

从所述多个第三训练目标候选框中选取与所述第一真值样本的重合度最大的第三训练目标候选框；

将选取的第三训练目标候选框确定为正样本，并将选取后剩余的第三训练目标候选框确定为负样本；

将所述正样本与所述负样本进行组合，得到所述第二真值样本。

可选地，所述基于所述训练图像和所述第二真值样本对所述第二CNN模型中的第二网络进行训练，包括：

基于所述第二CNN模型和所述训练图像，生成所述第二浅卷积层的特征图；

从所述第二浅卷积层的特征图中以边长小于或等于所述预设阈值的锚点框为基准回归出目标候选框，得到多个第四训练目标候选框；

基于所述多个第四训练目标候选框和所述第二真值样本，生成所述第二网络的训练参数；

基于所述第二网络的训练参数对所述第二网络进行调整。

可选地，所述基于训练后的第一网络和训练后的第二网络，对所述第二CNN模型中的分类网络进行训练，包括：

确定所述第一真值样本的类别信息；

基于训练后的第一网络、所述第一真值样本和所述第一真值样本的类别信息，确定第一分类样本，所述第一分类样本包括多个边长大于所述预设阈值的目标候选框和类别信息；

基于训练后的第二网络、所述第一样本真值和所述第一真值样本的类别信息，确定第二分类样本，所述第二分类样本包括多个边长小于或等于所述预设阈值的目标候选框和类别信息；

基于所述第一分类样本和所述第二分类样本，对所述第二CNN模型中分类网络进行训练。

可选地，所述基于训练后的第一网络、所述第一真值样本和所述第一真值样本的类别信息，确定第一分类样本，包括：

从所述多个不同尺度的第一训练目标候选框中选取边长大于所述预设阈值的目标候选框，得到多个第五训练目标候选框；

从所述多个第五训练目标候选框中选取与所述第一真值样本的重合度最大的第五训练目标候选框；

基于所述第一真值样本的类别信息，确定所述选取的第五训练目标候选框的类别信息；

将所述选取的第五训练目标候选框和对应的类别信息进行组合，得到所述第一分类样本。

可选地，所述基于所述训练后的第二网络、所述第一样本真值和所述第一真值样本的类别信息，确定第二分类样本，包括：

基于训练后的第二网络和所述训练图像，确定多个第六训练目标候选框；

基于所述多个第六训练目标候选框和所述多个第三训练目标候选框的重合度，从所述多个第六训练目标候选框中选取多个第七训练目标候选框；

从所述多个第七训练目标候选框选取与所述第一真值样本的重合度最大的第七训练目标候选框；

基于所述第一真值样本的类别信息，确定所述选取的第七训练目标候选框的类别信息；

将所述选取的第七训练目标候选框和对应的类别信息进行组合，得到所述第二分类样本。

可选地，所述基于所述第一分类样本和所述第二分类样本，对所述第二CNN模型中分类网络进行训练，包括：

基于所述多个第五训练目标候选框，从所述第二深卷积层的特征图中提取多个第三目标特征图；

基于所述多个第七训练目标候选框，从所述第二浅卷积层的特征图中提取多个第四目标特征图；

基于所述第二CNN模型中的分类网络，对所述多个第三目标特征图和所述多个第四目标特征图进行分类，得到分类结果，所述分类结果包括所述多个第三目标特征图和所述多个第四目标特征图中的目标分别属于预设类别的概率；

基于所述分类结果、所述第一分类样本和所述第二分类样本，生成所述分类网络训练参数；

基于所述分类网络的训练参数，对所述分类网络进行调整。

第二方面，提供了一种目标检测装置，所述装置包括：

第一生成模块，用于基于第一卷积神经网络CNN模型和待检测的目标图像，生成第一浅卷积层的特征图，所述第一浅卷积层是指所述第一CNN模型包括的多个卷积层中第一深卷积层之前的任一卷积层，所述第一深卷积层是指最靠近输出层的卷积层；

回归模块，用于从所述第一浅卷积层的特征图中以边长小于或等于预设阈值的锚点框为基准回归出目标候选框，得到多个第一检测目标候选框；

第二生成模块，用于基于所述第一CNN模型和所述第一浅卷积层的特征图，生成所述第一深卷积层的特征图；

全尺度提取模块，用于对所述第一深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二检测目标候选框；

第一选取模块，用于从所述多个不同尺度的第二检测目标候选框中选取边长小于或等于所述预设阈值的目标候选框，得到多个第三检测目标候选框；

第二选取模块，用于基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框；

分类模块，用于基于所述多个第四检测目标候选框，对所述目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率。

可选地，所述第二选取模块用于：

可选地，所述装置还包括：

获取模块，用于获取所述多个第一检测目标候选框的置信度，每个第一检测目标候选框的置信度用于指示每个第一检测目标候选框对应的区域是目标的可能性；

相应地，所述第二选取模块用于：

可选地，所述装置还包括：

第三选取模块，用于从所述多个不同尺度的第二检测目标候选框中选取边长大于所述预设阈值的目标候选框，得到多个第五检测目标候选框；

相应地，所述分类模块用于：

可选地，所述装置还包括：

第一网络训练模块，用于基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练，所述第一真值样本包括所述训练图像中的各个目标对应的目标候选框，所述第二CNN模型为待训练的CNN模型，所述第一网络是指所述第二CNN模型中能够对第二深卷积层的特征图进行全尺度目标候选框提取的部分网络，所述第二深卷积层是指所述第二CNN模型包括的多个卷积层中最靠近输出层的卷积层；

第一确定模块，用于基于训练后的第一网络和所述训练图像，确定多个不同尺度的第一训练目标候选框；

第二确定模块，用于基于所述多个不同尺度的第一训练目标候选框，确定第二真值样本，所述第二真值样本包括多个边长小于或等于所述预设阈值的目标候选框；

第二网络训练模块，用于基于所述训练图像和所述第二真值样本对所述第二CNN模型中的第二网络进行训练，所述第二网络是指所述第二CNN模型中能够从第二浅卷积层的特征图中回归出边长小于或等于所述预设阈值的目标候选框的部分网络，所述第二浅卷积层是指所述第二CNN模型包括的多个卷积层中所述第二深卷积层之前的任一卷积层；

分类网络训练模块，用于基于训练后的第一网络和训练后的第二网络，对所述第二CNN模型中的分类网络进行训练，得到所述第一CNN模型。

可选地，所述第一网络训练模块用于：

基于所述第一网络的训练参数对所述第一网络进行调整。

可选地，所述第二确定模块用于：

可选地，所述第二网络训练模块用于：

基于所述第二网络的训练参数对所述第二网络进行调整。

可选地，所述分类网络训练模块用于：

确定所述第一真值样本的类别信息；

可选地，所述分类网络训练模块用于：

基于所述分类网络的训练参数，对所述分类网络进行调整。

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例中，在基于CNN模型对目标图像进行检测的过程中，可以先从浅卷积层的特征图中回归出边长小于或等于预设阈值的多个第一检测目标候选框，再从深卷积层的特征图中提取的全尺度的目标候选框中选取边长小于或等于预设阈值的多个第三检测目标候选框，并基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框，以便基于选取的多个第四检测目标候选框，对该目标图像中的各个目标进行分类。由于从深卷积层的特征图中提取的小尺寸的第三检测目标候选框的置信度通常较高，即所指示的区域中存在目标的可能性较大，因此基于第一检测目标候选框和第三检测目标候选框的重合度，从第一检测目标候选框中选取的第四检测目标候选的置信度也将较高，而且由于第四检测目标候是从浅卷积层的特征图中回归出的小尺寸目标候选框，因此其对应的小尺寸目标的特征不会因多级的降采样处理而被大量削减，回归性较高，因此基于该多个第四检测目标候选框对该目标图像中的各个目标进行分类，即能够精确地识别出该目标图像中的小尺寸目标，从而减小了对小尺寸目标漏检的概率，提高了小尺寸目标的检出能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本发明实施例提供的一种目标检测方法的流程图；

图1B是本发明实施例提供的一种邻域目标候选框的选取示意图；

图2是本发明实施例提供的一种训练CNN模型的方法流程图；

图3是本发明实施例提供的一种目标检测装置的框图；

图4是本发明实施例提供的一种目标检测装置400的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在对本发明实施例进行详细的解释说明之前，先对本发明实施例的应用场景予以介绍。本发明实施例提供的方法应用于对图像进行目标检测的场景中，例如，可以应用于智能化交通系统、智能监控系统、军事目标检测及医学导航手术等场景中的图像处理，而且尤其适用于对图像中的小目标进行检测和识别。进一步地，该方法应用于终端中，该终端可以对采集的图像、接收的图像或者存储的图像进行目标检测，示例的，该终端可以利用图像处理软件对图像进行目标检测。该终端可以为计算机、智能监控设备、医学影像设备等能够进行图像处理的设备。

图1A是本发明实施例提供的一种目标检测方法的流程图，参见图1A，该方法应用于终端中，该方法包括：

步骤101：基于第一CNN模型和待检测的目标图像，生成第一浅卷积层的特征图，该第一浅卷积层是指该第一CNN模型包括的多个卷积层中第一深卷积层之前的任一卷积层，该第一深卷积层是指最靠近输出层的卷积层。

本发明实施例中，该终端可以通过该第一CNN模型对目标图像进行目标检测，该目标图像可以为该终端采集的图像、接收的图像或者存储的图像等，本发明实施例对此不做限定。该第一CNN模型为该终端配置的CNN模型，例如该终端可以通过安装图像处理软件配置该第一CNN模型，该第一CNN模型为该图像处理软件自带的图像处理算法。

当该终端需要对目标图像进行目标检测时，可以将该目标图像输入至该第一CNN模型的输入层，以便通过该第一CNN模型对该目标图像进行处理。进一步地，为了减小计算量，还可以先对该目标图像进行缩放，再将缩放后的目标图像输入该第一CNN模型进行目标检测。

该第一CNN模型中包括多级卷积层，通过输入层接收到该目标图像之后，即会通过一级一级的卷积层对该目标图像依次进行卷积处理，并依次得到各级卷积层的特征图。

本发明实施例中，为了便于说明，将该第一CNN模型包括的多个卷积层中最靠近输出层的卷积层、即最后一级卷积层称之为第一深卷积层，并将该第一深卷积层之前的任一卷积层称之为第一浅卷积层。其中，该第一浅卷积层具体为该第一深卷积层之前的哪个卷积层可以由技术人员预先设置。例如，若该第一CNN模型中包括1级输出层、10级卷积层和2级全连接层，且最后一级全连接层为输出层，则即可将最靠近输出层的第10级卷积层称之为第一深卷积层，并可以选取1-9级卷积层中的任一级卷积层作为第一浅卷积层。

因此，在该第一CNN模型接收到该目标图像之后，首先可以基于输入层到该第一浅卷积层之间的各级卷积层对该目标图像进行依次的卷积处理，得到该目标图像在该第一浅卷积层上的特征图。

步骤102：从该第一浅卷积层的特征图中以边长小于或等于预设阈值的锚点框为基准回归出目标候选框，得到多个第一检测目标候选框。

本发明实施例中，为了实现对小尺寸目标的精确检测，需要从第一浅卷积层的特征图中提取小尺寸目标候选框，该小尺寸目标候选框用于指示该目标图像中小尺寸的目标所在的矩形区域。实际应用中，可以以预先设置的小尺寸的锚点框为基准，通过预设回归算法从该第一浅卷积层的特征图中回归出小尺寸的目标候选框。

锚点框(anchor)是指在对该第一浅卷积层的特征图进行预处理的过程中，在该特征图上绘制得到的多个尺寸相等的类似栅格的基准框。通过预设回归算法，对该锚点框进行移动或缩放，即可将该锚点框定位至该锚点框附件的目标所在的区域，从而得到目标候选框。以较大尺寸的锚点框为基准进行回归，将回归出较大尺寸的目标候选框，而以较小尺寸的锚点框为基准进行回归，将回归出较小尺寸的目标候选框，因此为了回归出小尺寸的目标候选框，可以将该锚点框的尺寸设置为较小尺寸，即将该锚点框的边长设置为小于或等于预设阈值，且该预设阈值为一个较小的值，相应地，回归出的第一检测目标候选框的边长也将小于或等于预设阈值。

其中，该预设阈值可以由该第一CNN模型默认设置，可以由用户设置，本发明实施例对此不做限定。示例地，可以将该锚点框的尺寸设置为16(宽度上的像素点数目)×16(高度上的像素点数目)，则基于该16×16的锚点框为基准进行回归，将得到边长小于或等于16的多个第一检测目标候选框。其中，所述的边长小于或等于16是指边上的像素点的数目小于或等于16。

步骤103：基于该第一CNN模型和该第一浅卷积层的特征图，生成该第一深卷积层的特征图。

从该第一浅卷积层的特征图中回归出该多个第一检测目标候选框之后，即可基于该第一浅卷积层之后的各级卷积层继续对该第一浅卷积层的特征图进行卷积处理，直至通过该第一深卷积层的卷积处理之后，即可得到该第一深卷积层的特征图。

步骤104：对该第一深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二检测目标候选框。

其中，对该第一深卷积层的特征图进行目标候选框提取时，可以采用现有的Faster RCNN(快速区域卷积神经网络)结构的RPN(Region-proposal-network，区域目标候选框网络)部分的提取算法进行全尺度目标候选框提取。由于提取的是全尺度的目标候选框，因此该多个不同尺度的第二检测目标候选框中将既包括大尺寸的目标候选框，也包括小尺寸的目标候选框。

需要说明的是，在该第一CNN模型各级卷积处理的过程中，为了减小计算量，各级卷积层通常都会对卷积得到的特征图进行降采样处理，即将卷积得到的特征图进行缩放后再输送至下一级卷积层，以便下一级卷积层进行卷积处理。由于深卷积层的特征图相较于浅卷积层的特征图来说，会经过更多级卷积层的降采样处理，因此，深卷积层的特征图中的小尺寸目标的特征在降采样过程中将会被大量削减，回归性较差，造成小尺寸目标候选框提取时目标对齐较差，影响后面的分类过程，因此易造成对小尺寸目标的漏检。而浅卷积层的特征图中的小尺寸目标的特征则削减的较少，保留了大量的小目标信息，回归性相对较好，但是同时浅卷积层中也保留了较多的噪声信息，如只用浅卷积层信息来提取小尺寸目标候选框，会造成较大量的误检。因此使用单一的深层网络或者浅层网络，均无法很好的完成精确检测出小尺寸目标的任务。

为此，本发明实施例提出了一种深层网络-浅层网络联合提取小目标的方法，以提高小目标的检出能力和检准能力。

步骤105：从该多个不同尺度的第二检测目标候选框中选取边长小于或等于该预设阈值的目标候选框，得到多个第三检测目标候选框。

其中，可以将该多个不同尺度的第二检测目标候选框的各个边长分别与该预设阈值进行比较，并从中选取各个边长均小于或等于该预设阈值的目标候选框，得到多个第三检测目标候选框。

进一步地，还可以将该多个不同尺度的第二检测目标候选框中的最大边长与该预设阈值进行比较，并从中选取最大边长小于或等于该预设阈值的目标候选框，得到该多个第三检测目标候选框。

步骤106：基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框。

其中，基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框的实现方式可以包括如下几种方式：

第一种实现方式：从该多个第一检测目标候选框中选取与该多个第三检测目标候选框的重合度最大的目标候选框，得到该多个第四检测目标候选框。

具体地，该第一种实现方式可以包括如下几个步骤：

1)对于该多个第三检测目标候选框中的每个第三检测目标候选框，从该多个第一检测目标候选框中选择该第三检测目标候选框的多个邻域目标候选框。

其中，所述邻域目标候选框是指该多个第一检测目标候选框中与该第三检测目标候选框在各个预设方向上具有重合区域的目标候选框。所选取的邻域目标候选框的预设方向和数目可以由该第一CNN模型默认设置，也可以由用户设置，本发明实施例对此不做限定。

示例的，参见图1B，其中目标候选框1为第三检测目标候选框，除框1之外的其他几个目标候选框为从多个第一检测目标候选框中选取的该目标候选框1的9邻域候选框。

2)确定各个邻域目标候选框与该第三检测目标候选框的交并比(IOU，Intersection over Union)，该交并比是指该各个邻域目标候选框与该第三检测目标候选框的交集区域的面积与该各个邻域目标候选框与该第三检测目标候选框的并集区域的面积之间的比例。

其中，该交并比可以指示各个邻域目标候选框与该第三检测目标候选框之间的重合度，交并比越大，表示重合度越高。

3)将交并比最大的邻域目标候选框确定为该第四检测目标候选框。

例如，由图1B可知，该目标候选框1最中心的邻域候选框2与该目标候选框1的交并比最大，则即可将该邻域候选框2确定为该第四检测目标候选框。

第二种实现方式：获取该多个第一检测目标候选框的置信度，每个第一检测目标候选框的置信度用于指示每个第一检测目标候选框对应的区域是目标的可能性；基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度以及该多个第一检测目标候选框的置信度，从该多个第一检测目标候选框中选取该多个第四检测目标候选框。

该第一CNN模型在从第一浅卷积层的特征图中回归出该多个第一检测目标候选框的过程中，还可以得到该多个第一检测目标候选框中每个第一检测目标候选框的置信度，置信度越高，表示该第一检测目标候选框中对应的区域是目标的可能性就越大。

其中，基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度以及该多个第一检测目标候选框的置信度，从该多个第一检测目标候选框中选取该多个第四检测目标候选框的过程可以包括以下几个步骤：

2)确定各个邻域目标候选框与该第三检测目标候选框的交并比，以及各个邻域目标候选框的置信度。

3)将各个邻域目标候选框与该第三检测目标候选框的交并比以及各个邻域目标候选框的置信度进行加权合并，得到各个邻域目标候选框的加权值，并从中选取加权值最大的邻域目标候选框，作为该第四检测目标候选框。

通过根据该多个第一检测目标候选框与该多个第三检测目标候选框的重合度以及该多个第一检测目标候选框的置信度，从该多个第一检测目标候选框综合选取该第四检测目标候选框，使得所选取的第四检测目标候选框的精确度更高，能够更为精确地指示小目标所处区域，从而提高了对小目标的检出能力和检准能力。

步骤107：基于该多个第四检测目标候选框，对该目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率。

其中，基于该多个第四检测目标候选框，对该目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率的实现方式可以包括以下几种：

第一种实现方式：基于该多个第四检测目标候选框，从该第一浅卷积层的特征图中提取多个第二目标特征图；基于该第一CNN模型中的分类网络，对该多个第二目标特征图进行分类，得到该多个第二目标特征图中的目标分别属于预设类别的概率。

其中，该第一CNN模型中的分类网络可以为RCNN分类网络等。由于该多个第二目标特征图是基于该多个第四检测目标候选框从该第一浅卷积层的特征图中提取得到的，因此该多个第二目标特征图均为小尺寸目标的特征图，且该小尺寸目标的特征还未被大量削减。通过对该多个第二目标特征图进行分类，即可得到这些小尺寸目标的类别信息，从而实现了对小尺寸目标的精确检测和识别，解决了相关技术中存在的在对图像进行目标检测的过程中，容易漏检小尺寸目标，从而无法精确地检测出小尺寸目标的问题。

进一步地，在基于该第一CNN模型中的分类网络，对该多个第二目标特征图进行分类的过程中，还可以得到该多个第四检测目标候选框的二次回归值，从而得到更为精确的第四检测目标候选框。

第二种实现方式：在基于该多个第四检测目标候选框，对该目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率之前，从该多个不同尺度的第二检测目标候选框中选取边长大于该预设阈值的目标候选框，得到多个第五检测目标候选框。之后，基于该多个第四检测目标候选框和该多个第五检测目标候选框，对该目标图像中的各个目标进行分类。

例如，可以在步骤105中，将该多个不同尺度的第二检测目标候选框的边长分别与该预设阈值进行比较，并按照比较结果将边长小于或等于该预设阈值的目标候选框划分为第三目标候选框，将边长大于该预设阈值的目标候选框划分第五目标候选框。示例的，将该多个不同尺度的第二检测目标候选框按照该预设阈值进行划分，可以得到两个目标候选框集合proposal_3和proposal_5，其中proposal_3中包括多个第三目标候选框，proposal_5中包括多个第五目标候选框。

具体地，基于该多个第四检测目标候选框和该多个第五检测目标候选框，对该目标图像中的各个目标进行分类包括：基于该多个第五检测目标候选框，从该第一深卷积层的特征图中提取多个第一目标特征图；基于该多个第四检测目标候选框，从该第一浅卷积层的特征图中提取多个第二目标特征图；基于该第一CNN模型中的分类网络，对该多个第一目标特征图和该多个第二目标特征图进行分类，得到该多个第一目标特征图中的目标以及该多个第二目标特征图中的目标分别属于预设类别的概率。

其中，多个第一目标特征图是指小尺寸目标的特征图，该多个第二目标特征图是指大尺寸目标的特征图，通过对该多个第一目标特征图和该多个第二目标特征图进行分类，可以分别得到小尺寸目标和大尺寸目标的类别信息，从而实现了对目标图像中的多尺度目标的精确检测和识别。

进一步地，在基于该第一CNN模型中的分类网络，对该多个第一目标特征图和该多个第二目标特征图进行分类，还可以得到该多个第四检测目标候选框和该多个第五检测目标候选框的二次回归值，从而得到更为精确的第四检测目标候选框和第五检测目标候选框。

需要说明的是，本发明实施例设计了一种可以兼容不同网络部分特征图分类的分类网络模块，即可以分别对从深卷积层提取的大尺寸目标特征图和从浅卷积层提取的小尺寸目标特征图进行分类预处理，得到大尺寸目标的深层特征信息和小尺寸目标的浅层特征信息，再将大尺寸目标的深层特征信息和小尺寸目标的浅层特征信息进行连接后，输入该分类网络模块的卷积层进行分类处理，最后由该分类网络模块输出分类结果以及大尺寸目标候选框和小尺寸目标候选框的精细回归结果。通过该大目标-小目标联合分类的网络结构，简化了并行检测时复杂的后处理过程。

而且，由于该第一CNN模型能够对目标图像中的小尺寸目标进行精确检测，因此该第一CNN模型能够对更小输入尺寸的目标图像进行检测，从而较大幅度地减小了卷积理论计算量，提高了计算速度。

本发明实施例中，在基于CNN模型对目标图像进行检测的过程中，可以先从浅卷积层的特征图中回归出边长小于或等于预设阈值的多个第一检测目标候选框，再从深卷积层的特征图中提取的全尺度的目标候选框中选取边长小于或等于预设阈值的多个第三检测目标候选框，并基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框，以便基于选取的多个第四检测目标候选框，对该目标图像中的各个目标进行分类。由于从深卷积层的特征图中提取的小尺寸的第三检测目标候选框的置信度通常较高，即所指示的区域中存在目标的可能性较大，因此基于第一检测目标候选框和第三检测目标候选框的重合度，从第一检测目标候选框中选取的第四检测目标候选的置信度也将较高，而且由于第四检测目标候是从浅卷积层的特征图中回归出的小尺寸目标候选框，因此其对应的小尺寸目标的特征不会因多级的降采样处理被大量削减，回归性较高，因此若基于该多个第四检测目标候选框对该目标图像中的各个目标进行分类，即能够精确地识别出该目标图像中的小尺寸目标，从而减小了对小尺寸目标漏检的概率，提高了小尺寸目标的检测能力。

进一步地，在实现上述目标检测方法之前，为了得到上述能够精确地检测出小尺寸目标的第一CNN模型，还需通过训练图像对待训练的CNN模型进行训练。图2是本发明实施例提供的一种训练CNN模型的方法流程图，参见图2，该方法包括如下几个步骤：

步骤201：基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练，该第一真值样本包括该训练图像中的各个目标对应的目标候选框，该第二CNN模型为待训练的CNN模型，该第一网络是指该第二CNN模型中能够对第二深卷积层的特征图进行全尺度目标候选框提取的部分网络，该第二深卷积层是指该第二CNN模型包括的多个卷积层中最靠近输出层的卷积层。

其中，该第二CNN模型为预先设置的待训练的CNN模型，且该第二CNN模型中包括能够从深卷积层的特征图中提取出全尺度的目标候选框的部分网络，即第一网络。例如，该第二CNN模型可以为Faster RCNN模型，该第一网络可以为Faster RCNN的RPN网络。

其中，该训练图像为已对各个不同尺度的目标所在区域进行标记的图像，且该训练图像具有一个对应的第一真值样本，该第一真值样本中包括多个不同尺度的实际目标对应的目标候选框。

由于对该第二CNN模型进行训练的目的是为了保证该第二CNN模型能够从浅卷积层的特征图中提取出小尺寸目标候选框，而且为了保证小尺寸目标候选框的置信度，还需要通过从深卷积层中提取的全尺度的目标候选框来确定该小尺寸目标候选框。因此在对该CNN模型进行训练时，需要先对该第二CNN模型中第一网络进行训练。

具体地，基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练包括：基于该第二CNN模型和该训练图像，生成该第二深卷积层的特征图；对该第二深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二训练目标候选框；基于该多个不同尺度的第二训练目标候选框和该第一真值样本，生成该第一网络的训练参数；基于该第一网络的训练参数对该第一网络进行调整。

其中，基于该多个不同尺度的第二训练目标候选框和该第一真值样本，生成该第一网络的训练参数包括：将该多个不同尺度的第二训练目标候选框与该第一真值样本中包括的多个不同尺度的实际目标对应的目标候选框进行比较，计算该多个不同尺度的第二训练目标候选框与该第一真值样本之间的误差，基于所述误差对该第一网络中的各个参数进行偏导运算，即可得到该第一网络的训练参数。之后采用随机梯度下降法，基于该第一网络的训练参数对该第一网络的各个参数进行调整，即可得到训练后的第一网络。

步骤202：基于训练后的第一网络和该训练图像，确定多个不同尺度的第一训练目标候选框。

在对该第一网络进行训练得到训练后的第一网络之后，通过该训练后的第一网络重新对该第二深卷积层的特征图进行全尺度目标候选框提取，即可得到该多个不同尺度的第一训练目标候选框，而且该多个不同尺度的第一训练目标候选框的置信度相对较高。

步骤203：基于该多个不同尺度的第一训练目标候选框，确定第二真值样本，该第二真值样本包括多个边长小于或等于该预设阈值的目标候选框。

其中，该第二真值样本为用于训练该第二CNN模型中的第二网络的训练样本。该第二网络是指该第二CNN模型中能够从第二浅卷积层的特征图中回归出边长小于或等于该预设阈值的目标候选框的部分网络，即能够回归出小尺寸目标候选框的部分网络，该第二浅卷积层是指该第二CNN模型包括的多个卷积层中第二深卷积层之前的任一卷积层。而且，由于上述第一CNN模型是基于该第二CNN模型训练得到，因此上述第一浅卷积层的位置与该第二浅卷积层的位置相同。

具体地，基于该多个不同尺度的第一训练目标候选框，确定第二真值样本包括：从该多个不同尺度的第一训练目标候选框中选取边长小于或等于该预设阈值的目标候选框，得到多个第三训练目标候选框；从该多个第三训练目标候选框中选取与该第一真值样本的重合度最大的第三训练目标候选框；将选取的第三训练目标候选框确定为正样本，并将选取后剩余的第三训练目标候选框确定为负样本；将该正样本与该负样本进行组合，得到该第二真值样本。

其中，可以基于该多个第三训练目标候选框与该第一真值样本的交并比，确定该多个第三训练目标候选框与该第一真值样本的重合度。具体地，从该多个第三训练目标候选框中选取与该第一真值样本的重合度最大的第三训练目标候选框的过程可以包括以下几个步骤：

1)对于该多个第三训练目标候选框中的每个第三检测目标候选框，从该第一真值样本中选择该第三训练目标候选框的多个邻域目标候选框。

2)确定各个邻域目标候选框与该第三训练目标候选框的交并比，该交并比是指该各个邻域目标候选框与该第三训练目标候选框的交集区域的面积与该各个邻域目标候选框与该第三训练目标候选框的并集区域的面积之间的比例。

3)将交并比最大的邻域目标候选框确定为与该第一真值样本的重合度最大的第三训练目标候选框。

需要说明的是，通过根据与该第一真值样本的重合度，将不符合重合度要求的第三训练目标候选框选取为负样本，这些负样本往往能够筛选出高置信度的难样本，所以能够对该第二CNN模型起到难例挖掘的作用。通过在训练过程中加入难例挖掘，可以简化和强化去误检的流程，进而加快训练速度。

步骤204：基于该训练图像和该第二真值样本对该第二CNN模型中的第二网络进行训练。

具体地，基于该训练图像和该第二真值样本对该第二CNN模型中的第二网络进行训练包括：基于该第二CNN模型和该训练图像，生成该第二浅卷积层的特征图；从该第二浅卷积层的特征图中以边长小于或等于该预设阈值的锚点框为基准回归出目标候选框，得到多个第四训练目标候选框；基于该多个第四训练目标候选框和该第二真值样本，生成该第二网络的训练参数；基于该第二网络的训练参数对该第二网络进行调整。

其中，基于该多个第四训练目标候选框和该第二真值样本，生成该第二网络的训练参数包括：将该多个第四训练目标候选框和该第二真值样本中包括的多个边长小于该预设阈值的目标候选框进行比较，计算该多个第四训练目标候选框与该第二真值样本之间的误差，基于该误差对该第二网络中的各个参数进行偏导运算，即可得到该第二网络的训练参数。之后采用随机梯度下降法，基于该第二网络的训练参数对该第二网络的各个参数进行调整，即可得到训练后的第二网络。

步骤205：基于训练后的第一网络和训练后的第二网络，对该第二CNN模型中的分类网络进行训练，得到该第一CNN模型。

具体地，基于训练后的第一网络和训练后的第二网络，对该第二CNN模型中的分类网络进行训练的过程可以包括以下几个步骤：

1)确定该第一真值样本的类别信息。

其中，该第一真值样本的类别信息可以根据该训练图像预先设置，确定该第一真值样本的类别信息，也即是，确定该第一真值样本中包括的多个不同尺度的实际目标分别对应的类别信息。

2)基于训练后的第一网络、该第一真值样本和该第一真值样本的类别信息，确定第一分类样本，该第一分类样本包括多个边长大于该预设阈值的目标候选框和类别信息。

具体地，基于训练后的第一网络、该第一真值样本和该第一真值样本的类别信息，确定第一分类样本包括：从该多个不同尺度的第一训练目标候选框中选取边长大于该预设阈值的目标候选框，得到多个第五训练目标候选框；从该多个第五训练目标候选框中选取与该第一真值样本的重合度最大的第五训练目标候选框；基于该第一真值样本的类别信息，确定该选取的第五训练目标候选框的类别信息；将该选取的第五训练目标候选框和对应的类别信息进行组合，得到该第一分类样本。

其中，该多个不同尺度的第一训练目标候选框为该训练后的第一网络输出的目标候选框。本发明实施例中，可以从该多个不同尺度的第一训练目标候选框中选取大尺寸的目标候选框，再将该大尺寸的目标候选框与该第一真值样本进行匹配，并从中选取与该第一真值样本的重合度最大的大尺寸目标候选框，然后基于该第一真值样本的类别信息，确定所选取的大尺寸目标候选框的类别信息，再将所选取的大尺寸目标候选框和对应的类别信息进行组合，即可得到该第一分类样本。

3)基于训练后的第二网络、该第一样本真值和该第一真值样本的类别信息，确定第二分类样本，该第二分类样本包括多个边长小于或等于该预设阈值的目标候选框和类别信息。

具体地，基于该训练后的第二网络、该第一样本真值和该第一真值样本的类别信息，确定第二分类样本包括：从该多个不同尺度的第一训练目标候选框中选取边长小于或等于该预设阈值的目标候选框，得到多个第三训练目标候选框；基于训练后的第二网络和该训练图像，确定多个第六训练目标候选框；基于该多个第六训练目标候选框和该多个第三训练目标候选框的重合度，从该多个第六训练目标候选框中选取多个第七训练目标候选框；从该多个第七训练目标候选框选取与该第一真值样本的重合度最大的第七训练目标候选框；基于该第一真值样本的类别信息，确定该选取的第七训练目标候选框的类别信息；将该选取的第七训练目标候选框和对应的类别信息进行组合，得到该第二分类样本。

其中，该多个不同尺度的第一训练目标候选框为该训练后的第一网络输出的目标候选框。从该多个不同尺度的第一训练目标候选框中选取边长小于或等于该预设阈值的目标候选框，也即是从第二深卷积层的特征图中提取出小尺寸目标候选框。而基于训练后的第二网络和该训练图像，确定多个第六训练目标候选框，也即是，基于训练后的第二网络，从第二浅卷积层的特征图中回归出小尺寸目标候选框。

之后，可以基于与第二深卷积层的特征图中的小尺寸目标候选框的重合度，从第二浅卷积层的特征图中的小尺寸目标候选框中选取置信度较高的小尺寸目标候选框，再将选取的小尺寸目标候选框与该第一真值样本进行匹配，并从中选取与该第一真值样本的重合度最大的小尺寸目标候选框，然后基于该第一真值样本的类别信息，确定所选取的小尺寸目标候选框的类别信息，再将所选取的小尺寸目标候选框和对应的类别信息进行组合，即可得到该第二分类样本。

需要说明的是，上述从该多个第五训练目标候选框中选取与该第一真值样本的重合度最大的第五训练目标候选框的方式，以及从该多个第七训练目标候选框选取与该第一真值样本的重合度最大的第七训练目标候选框的实现方式，均与步骤203中从该多个第三训练目标候选框中选取与该第一真值样本的重合度最大的第三训练目标候选框的实现方式同理，具体过程可以参考步骤203的相关描述，本发明实施例在此不再赘述。另外，上述基于该多个第六训练目标候选框和该多个第三训练目标候选框的重合度，从该多个第六训练目标候选框中选取多个第七训练目标候选框的实现方式，与上述步骤106同理，具体实现过程可以参考步骤106的相关描述，在此也不再赘述。

4)基于该第一分类样本和该第二分类样本，对该第二CNN模型中分类网络进行训练。

具体地，基于该第一分类样本和该第二分类样本，对该第二CNN模型中分类网络进行训练包括：基于该多个第五训练目标候选框，从该第二深卷积层的特征图中提取多个第三目标特征图；基于该多个第七训练目标候选框，从该第二浅卷积层的特征图中提取多个第四目标特征图；基于该第二CNN模型中的分类网络，对该多个第三目标特征图和该多个第四目标特征图进行分类，得到分类结果，该分类结果包括该多个第三目标特征图和该多个第四目标特征图中的目标分别属于预设类别的概率；基于该分类结果、该第一分类样本和该第二分类样本，生成该分类网络训练参数；基于该分类网络的训练参数，对该分类网络进行调整。

其中，基于该分类结果、该第一分类样本和该第二分类样本，生成该分类网络训练参数包括：将该分类结果与该第一分类样本和该第二分类样本分别进行比较，得到类别误差，基于该类别误差对该分类网络中的各个参数进行偏导运算，即可得到该分类网络的训练参数。之后，可以采用随机梯度下降法，基于该分类网络的训练参数对该分类网络的各个参数进行调整，即可得到训练后的分类网络。

通过训练过程中的参数调整，可以使得该第二CNN模型中的第一网络部分和第二网络部分输出的目标候选框逐渐趋近于该第一真值样本，并可以使得该第二CNN模型中分类网络部分输出的分类结果逐渐趋近于该第一分类样本和该第二分类样本，而经过多次训练和调整后，即可得到上述第一CNN模型。

图3是本发明实施例提供的一种目标检测装置的框图，参见图3，该装置包括：

第一生成模块301，用于基于第一卷积神经网络CNN模型和待检测的目标图像，生成第一浅卷积层的特征图，该第一浅卷积层是指该第一CNN模型包括的多个卷积层中第一深卷积层之前的任一卷积层，该第一深卷积层是指最靠近输出层的卷积层；

回归模块302，用于从该第一浅卷积层的特征图中以边长小于或等于预设阈值的锚点框为基准回归出目标候选框，得到多个第一检测目标候选框；

第二生成模块303，用于基于该第一CNN模型和该第一浅卷积层的特征图，生成所述第一深卷积层的特征图；

全尺度提取模块304，用于对该第一深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二检测目标候选框；

第一选取模块305，用于从该多个不同尺度的第二检测目标候选框中选取边长小于或等于该预设阈值的目标候选框，得到多个第三检测目标候选框；

第二选取模块306，用于基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框；

分类模块307，用于基于该多个第四检测目标候选框，对该目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率。

可选地，该第二选取模块306用于：

对于该多个第三检测目标候选框中的每个第三检测目标候选框，从该多个第一检测目标候选框中选择该第三检测目标候选框的多个邻域目标候选框；

确定各个邻域目标候选框与该第三检测目标候选框的交并比，该交并比是指该各个邻域目标候选框与该第三检测目标候选框的交集区域的面积与该各个邻域目标候选框与该第三检测目标候选框的并集区域的面积之间的比例；

将交并比最大的邻域目标候选框确定为该第四检测目标候选框。

可选地，该装置还包括：

获取模块，用于获取该多个第一检测目标候选框的置信度，每个第一检测目标候选框的置信度用于指示每个第一检测目标候选框对应的区域是目标的可能性；

相应地，该第二选取模块306用于：

基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度以及该多个第一检测目标候选框的置信度，从该多个第一检测目标候选框中选取该多个第四检测目标候选框。

可选地，该装置还包括：

第三选取模块，用于从该多个不同尺度的第二检测目标候选框中选取边长大于该预设阈值的目标候选框，得到多个第五检测目标候选框；

相应地，该分类模块307用于：

基于该多个第五检测目标候选框，从该第一深卷积层的特征图中提取多个第一目标特征图；

基于该多个第四检测目标候选框，从该第一浅卷积层的特征图中提取多个第二目标特征图；

基于该第一CNN模型中的分类网络，对该多个第一目标特征图和该多个第二目标特征图进行分类，得到该多个第一目标特征图中的目标以及该多个第二目标特征图中的目标分别属于预设类别的概率。

可选地，该装置还包括：

第一网络训练模块，用于基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练，该第一真值样本包括该训练图像中的各个目标对应的目标候选框，该第二CNN模型为待训练的CNN模型，该第一网络是指该第二CNN模型中能够对第二深卷积层的特征图进行全尺度目标候选框提取的部分网络，该第二深卷积层是指该第二CNN模型包括的多个卷积层中最靠近输出层的卷积层；

第一确定模块，用于基于训练后的第一网络和该训练图像，确定多个不同尺度的第一训练目标候选框；

第二确定模块，用于基于该多个不同尺度的第一训练目标候选框，确定第二真值样本，该第二真值样本包括多个边长小于或等于该预设阈值的目标候选框；

第二网络训练模块，用于基于该训练图像和该第二真值样本对该第二CNN模型中的第二网络进行训练，该第二网络是指该第二CNN模型中能够从第二浅卷积层的特征图中回归出边长小于或等于该预设阈值的目标候选框的部分网络，该第二浅卷积层是指该第二CNN模型包括的多个卷积层中第二深卷积层之前的任一卷积层；

分类网络训练模块，用于基于训练后的第一网络和训练后的第二网络，对该第二CNN模型中的分类网络进行训练，得到该第一CNN模型。

可选地，该第一网络训练模块用于：

基于该第二CNN模型和该训练图像，生成该第二深卷积层的特征图；

对该第二深卷积层的特征图进行全尺度目标候选框提取，得到多个不同尺度的第二训练目标候选框；

基于该多个不同尺度的第二训练目标候选框和该第一真值样本，生成该第一网络的训练参数；

基于该第一网络的训练参数对该第一网络进行调整。

可选地，该第二确定模块用于：

从该多个不同尺度的第一训练目标候选框中选取边长小于或等于该预设阈值的目标候选框，得到多个第三训练目标候选框；

从该多个第三训练目标候选框中选取与该第一真值样本的重合度最大的第三训练目标候选框；

将该正样本与该负样本进行组合，得到该第二真值样本。

可选地，该第二网络训练模块用于：

基于该第二CNN模型和该训练图像，生成该第二浅卷积层的特征图；

从该第二浅卷积层的特征图中以边长小于或等于该预设阈值的锚点框为基准回归出目标候选框，得到多个第四训练目标候选框；

基于该多个第四训练目标候选框和该第二真值样本，生成该第二网络的训练参数；

基于该第二网络的训练参数对该第二网络进行调整。

可选地，该分类网络训练模块用于：

确定该第一真值样本的类别信息；

基于训练后的第一网络、该第一真值样本和该第一真值样本的类别信息，确定第一分类样本，该第一分类样本包括多个边长大于该预设阈值的目标候选框和类别信息；

基于训练后的第二网络、该第一样本真值和该第一真值样本的类别信息，确定第二分类样本，该第二分类样本包括多个边长小于或等于该预设阈值的目标候选框和类别信息；

基于该第一分类样本和该第二分类样本，对该第二CNN模型中分类网络进行训练。

可选地，该分类网络训练模块用于：

从该多个不同尺度的第一训练目标候选框中选取边长大于该预设阈值的目标候选框，得到多个第五训练目标候选框；

从该多个第五训练目标候选框中选取与该第一真值样本的重合度最大的第五训练目标候选框；

基于该第一真值样本的类别信息，确定该选取的第五训练目标候选框的类别信息；

将该选取的第五训练目标候选框和对应的类别信息进行组合，得到该第一分类样本。

可选地，该分类网络训练模块用于：

基于训练后的第二网络和该训练图像，确定多个第六训练目标候选框；

基于该多个第六训练目标候选框和该多个第三训练目标候选框的重合度，从该多个第六训练目标候选框中选取多个第七训练目标候选框；

从该多个第七训练目标候选框选取与该第一真值样本的重合度最大的第七训练目标候选框；

基于该第一真值样本的类别信息，确定该选取的第七训练目标候选框的类别信息；

将该选取的第七训练目标候选框和对应的类别信息进行组合，得到该第二分类样本。

可选地，该分类网络训练模块用于：

基于该多个第五训练目标候选框，从该第二深卷积层的特征图中提取多个第三目标特征图；

基于该多个第七训练目标候选框，从该第二浅卷积层的特征图中提取多个第四目标特征图；

基于该第二CNN模型中的分类网络，对该多个第三目标特征图和该多个第四目标特征图进行分类，得到分类结果，该分类结果包括该多个第三目标特征图和该多个第四目标特征图中的目标分别属于预设类别的概率；

基于该分类结果、该第一分类样本和该第二分类样本，生成该分类网络训练参数；

基于该分类网络的训练参数，对该分类网络进行调整。

本发明实施例中，该装置可以在基于CNN模型对目标图像进行检测的过程中，先从浅卷积层的特征图中回归出边长小于或等于预设阈值的多个第一检测目标候选框，再从深卷积层的特征图中提取的全尺度的目标候选框中选取边长小于或等于预设阈值的多个第三检测目标候选框，并基于该多个第一检测目标候选框和该多个第三检测目标候选框的重合度，从该多个第一检测目标候选框中选取多个第四检测目标候选框，以便基于选取的多个第四检测目标候选框，对该目标图像中的各个目标进行分类。由于从深卷积层的特征图中提取的小尺寸的第三检测目标候选框的置信度通常较高，即所指示的区域中存在目标的可能性较大，因此基于第一检测目标候选框和第三检测目标候选框的重合度，从第一检测目标候选框中选取的第四检测目标候选的置信度也将较高，而且由于第四检测目标候是从浅卷积层的特征图中回归出的小尺寸目标候选框，因此其对应的小尺寸目标的特征不会因多级的降采样处理被大量削减，回归性较高，因此若基于该多个第四检测目标候选框对该目标图像中的各个目标进行分类，即能够精确地识别出该目标图像中的小尺寸目标，从而减小了对小尺寸目标漏检的概率，提高了小尺寸目标的检出能力。

需要说明的是：上述实施例提供的目标检测装置在对目标图像进行目标检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的目标检测装置与目标检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是根据一示例性实施例示出的一种用于目标检测装置400的框图。例如，装置400可以是计算机，移动电话，数字广播终端，监控设备，平板设备，医疗设备，游戏控制台，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电源相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

基于第一卷积神经网络CNN模型和待检测的目标图像，生成第一浅卷积层的特征图，所述第一浅卷积层是指所述第一卷积神经网络CNN模型包括的多个卷积层中第一深卷积层之前的任一卷积层，所述第一深卷积层是指最靠近输出层的卷积层；

基于所述第一卷积神经网络CNN模型和所述第一浅卷积层的特征图，生成所述第一深卷积层的特征图；

2.如权利要求1所述的方法，其特征在于，所述基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框，包括：

3.如权利要求1所述的方法，其特征在于，所述基于所述多个第一检测目标候选框和所述多个第三检测目标候选框的重合度，从所述多个第一检测目标候选框中选取多个第四检测目标候选框之前，还包括：

4.如权利要求1所述的方法，其特征在于，所述基于所述多个第四检测目标候选框，对所述目标图像中的各个目标进行分类，得到各个目标属于预设类别的概率之前，还包括：

基于所述第一卷积神经网络CNN模型中的分类网络，对所述多个第一目标特征图和所述多个第二目标特征图进行分类，得到所述多个第一目标特征图中的目标以及所述多个第二目标特征图中的目标分别属于预设类别的概率。

5.如权利要求1-4任一所述的方法，其特征在于，所述基于第一卷积神经网络CNN模型和待检测的目标图像，生成第一浅卷积层的特征图之前，还包括：

基于训练后的第一网络和训练后的第二网络，对所述第二CNN模型中的分类网络进行训练，得到所述第一卷积神经网络CNN模型。

6.如权利要求5所述的方法，其特征在于，所述基于训练图像和第一真值样本对第二CNN模型中的第一网络进行训练，包括：

基于所述第一网络的训练参数对所述第一网络进行调整。

7.如权利要求5所述的方法，其特征在于，所述基于所述多个不同尺度的第一训练目标候选框，确定第二真值样本，包括：

8.如权利要求5所述的方法，其特征在于，所述基于所述训练图像和所述第二真值样本对所述第二CNN模型中的第二网络进行训练，包括：

基于所述第二网络的训练参数对所述第二网络进行调整。

9.如权利要求5所述的方法，其特征在于，所述基于训练后的第一网络和训练后的第二网络，对所述第二CNN模型中的分类网络进行训练，包括：

确定所述第一真值样本的类别信息；

基于训练后的第二网络、所述第一真值样本和所述第一真值样本的类别信息，确定第二分类样本，所述第二分类样本包括多个边长小于或等于所述预设阈值的目标候选框和类别信息；

10.如权利要求9所述的方法，其特征在于，所述基于训练后的第一网络、所述第一真值样本和所述第一真值样本的类别信息，确定第一分类样本，包括：

11.如权利要求10所述的方法，其特征在于，所述基于训练后的第二网络、所述第一真值样本和所述第一真值样本的类别信息，确定第二分类样本，包括：

12.如权利要求11所述的方法，其特征在于，所述基于所述第一分类样本和所述第二分类样本，对所述第二CNN模型中分类网络进行训练，包括：

基于所述分类网络的训练参数，对所述分类网络进行调整。

13.一种目标检测装置，其特征在于，所述装置包括：

第一生成模块，用于基于第一卷积神经网络CNN模型和待检测的目标图像，生成第一浅卷积层的特征图，所述第一浅卷积层是指所述第一卷积神经网络CNN模型包括的多个卷积层中第一深卷积层之前的任一卷积层，所述第一深卷积层是指最靠近输出层的卷积层；

第二生成模块，用于基于所述第一卷积神经网络CNN模型和所述第一浅卷积层的特征图，生成所述第一深卷积层的特征图；

14.如权利要求13所述的装置，其特征在于，所述第二选取模块用于：

15.如权利要求13所述的装置，其特征在于，所述装置还包括：

相应地，所述第二选取模块用于：

16.如权利要求13所述的装置，其特征在于，所述装置还包括：

相应地，所述分类模块用于：

17.如权利要求13-16任一所述的装置，其特征在于，所述装置还包括：

分类网络训练模块，用于基于训练后的第一网络和训练后的第二网络，对所述第二CNN模型中的分类网络进行训练，得到所述第一卷积神经网络CNN模型。

18.如权利要求17所述的装置，其特征在于，所述第一网络训练模块用于：

基于所述第一网络的训练参数对所述第一网络进行调整。

19.如权利要求17所述的装置，其特征在于，所述第二确定模块用于：

20.如权利要求17所述的装置，其特征在于，所述第二网络训练模块用于：

基于所述第二网络的训练参数对所述第二网络进行调整。

21.如权利要求17所述的装置，其特征在于，所述分类网络训练模块用于：

确定所述第一真值样本的类别信息；

22.如权利要求21所述的装置，其特征在于，所述分类网络训练模块用于：

23.如权利要求22所述的装置，其特征在于，所述分类网络训练模块用于：

24.如权利要求23所述的装置，其特征在于，所述分类网络训练模块用于：

基于所述分类网络的训练参数，对所述分类网络进行调整。