CN110633716A

CN110633716A - 一种目标对象的检测方法和装置

Info

Publication number: CN110633716A
Application number: CN201810641831.5A
Authority: CN
Inventors: 张立成
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2019-12-31

Abstract

本发明公开了一种目标对象的检测方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图；根据所述输入图像的特征图生成多个检测框；对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息。该实施方式能够保证较高的检测精度，并且大大降低目标对象检测的计算量，从而很好地应用到实时检测场景，且可以检测到较小的目标对象。

Description

一种目标对象的检测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标对象的检测方法和装置。

背景技术

目前目标对象的检测常用的模型主要包括YOLO(You Only Look Once，一种对象检测模型)，SSD(Single Shot MultiBox Detector，一种对象检测模型)和Faster RCNN(更快速基于图像区域的卷积神经网络)模型。其中，性能较好的模型是Faster RCNN模型，但是，现有的Faster RCNN模型在应用到目标对象的检测时，无法同时满足检测精度高和计算量小的要求，因此不能很好地应用到实时检测场景。此外，现有的Faster RCNN模型还无法检测到交通指示牌、位于远处位置的人等较小的目标对象。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有方案无法同时满足检测精度高和计算量小的要求，从而不能很好地应用到实时检测场景，且无法检测到较小的目标对象。

发明内容

有鉴于此，本发明实施例提供一种目标对象的检测方法和装置，能够保证较高的检测精度，并且大大降低目标对象检测的计算量，从而很好地应用到实时检测场景，且可以检测到较小的目标对象。

为实现上述目的，根据本发明实施例的一个方面，提供了一种目标对象的检测方法。

一种目标对象的检测方法，包括：通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图；根据所述输入图像的特征图生成多个检测框；对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息。

可选地，通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图的步骤，包括：通过ThiNet网络的选定层对所述输入图像进行卷积和降采样处理，以生成第一特征图；通过与所述ThiNet网络并行的SqueezeNet网络的选定层对所述输入图像进行卷积和降采样处理，以生成第二特征图；通过连接层对所述第一特征图和所述第二特征图进行拼接，以生成输入图像的特征图。

可选地，根据所述输入图像的特征图生成多个检测框的步骤，包括：通过卷积层对所述输入图像的特征图提取特征，生成第三特征图，所述第三特征图每个点对应多个矩形框，每个矩形框对应所述输入图像的一个区域；通过第一分类层对各矩形框分类，以确定所述各矩形框的所属类别为前景或背景；通过第一回归层对所述各矩形框进行回归处理，以确定所述各矩形框的位置；通过建议层从所属类别为前景的矩形框中选出置信度大于预设值的矩形框，从而生成所述多个检测框，所述多个检测框的尺度和宽高比根据所述目标对象的大小确定。

可选地，对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息的步骤，包括：将所述输入图像的特征图和所述多个检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过经过节点数量剪裁的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第四特征图；通过第二分类层对所述第四特征图对应的各检测框分类，以确定所述第四特征图对应的各检测框的类别标签；通过第二回归层对所述第四特征图对应的各检测框进行回归处理，以确定所述第四特征图对应的各检测框的位置信息；根据所述第四特征图对应的各检测框的类别标签，以及所述第四特征图对应的各检测框的位置信息，确定所述输入图像中的所述目标对象及所在位置信息。

根据本发明实施例的另一方面，提供了一种目标对象的检测装置。

一种目标对象的检测装置，包括：特征图生成模块，用于通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图；检测框生成模块，用于根据所述输入图像的特征图生成多个检测框；检测模块，用于对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息。

可选地，所述特征图生成模块还用于：通过ThiNet网络的选定层对所述输入图像进行卷积和降采样处理，以生成第一特征图；通过与所述ThiNet网络并行的SqueezeNet网络的选定层对所述输入图像进行卷积和降采样处理，以生成第二特征图；通过连接层对所述第一特征图和所述第二特征图进行拼接，以生成输入图像的特征图。

可选地，所述检测框生成模块还用于：通过卷积层对所述输入图像的特征图提取特征，生成第三特征图，所述第三特征图每个点对应多个矩形框，每个矩形框对应所述输入图像的一个区域；通过第一分类层对各矩形框分类，以确定所述各矩形框的所属类别为前景或背景；通过第一回归层对所述各矩形框进行回归处理，以确定所述各矩形框的位置；通过建议层从所属类别为前景的矩形框中选出置信度大于预设值的矩形框，从而生成所述多个检测框，所述多个检测框的尺度和宽高比根据所述目标对象的大小确定。

可选地，所述检测模块还用于：将所述输入图像的特征图和所述多个检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过经过节点数量剪裁的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第四特征图；通过第二分类层对所述第四特征图对应的各检测框分类，以确定所述第四特征图对应的各检测框的类别标签；通过第二回归层对所述第四特征图对应的各检测框进行回归处理，以确定所述第四特征图对应的各检测框的位置信息；根据所述第四特征图对应的各检测框的类别标签，以及所述第四特征图对应的各检测框的位置信息，确定所述输入图像中的所述目标对象及所在位置信息。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明提供的目标对象的检测方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明提供的目标对象的检测方法。

上述发明中的一个实施例具有如下优点或有益效果：通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图，能够保证较高的检测精度，并且大大降低目标对象检测的计算量，从而很好地应用到实时检测场景。根据输入图像的特征图生成的多个检测框的尺度和宽高比根据目标对象的大小确定，使得可以得到适合较小的目标对象尺度和宽高比的检测框，从而可以检测到较小的目标对象。通过经过节点数量剪裁的全连接层对各检测框的相同大小特征图提取特征，可以进一步减小目标对象检测的计算量，以保证更好的实时检测效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的目标对象的检测方法的主要步骤示意图；

图2是根据本发明实施例的目标对象的检测模型的示意图；

图3是根据本发明实施例的目标对象的检测装置的主要模块示意图；

图4是本发明实施例可以应用于其中的示例性系统架构图；

图5是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例的目标对象的检测方法和目标对象的检测装置适用于交通标示牌的实时检测等较小的目标对象(目标对象是指要检测的对象)的实时检测场景，交通标示牌检测本质上属于目标对象检测的一种，交通标示牌检测可以辅助自动驾驶的导航，当检测到特定的交通标示牌时，无人车就可以根据这一信息判断自己当前的位置，这在无人车自动驾驶中有广泛的应用前景。需要说明的是，本发明实施例不仅限于交通标示牌等较小的目标对象的实时检测场景，还可以用于实时检测其他常规大小的目标对象。

图1是根据本发明实施例的目标对象的检测方法的主要步骤示意图。

如图1所示，本发明实施例的目标对象的检测方法主要包括如下的步骤S101至步骤S103。

步骤S101：通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图。

该网络模型中，第一轻量级卷积神经网络和第二轻量级卷积神经网络并行(即处于并列位置)。

步骤S101具体包括：通过ThiNet网络的选定层对输入图像进行卷积和降采样处理，以生成第一特征图；通过SqueezeNet网络的选定层(SqueezeNet网络的选定层在上述网络模型中处于与ThiNet网络的选定层并列的位置)对输入图像进行卷积和降采样处理，以生成第二特征图；通过连接层对第一特征图和第二特征图进行拼接，以生成输入图像的特征图。

ThiNet网络包括一连串的卷积层、降采样层和激活层，ThiNet网络是对VGG16网络(一种卷积神经网络)裁剪后得到的网络，具有比VGG16网络少得多的参数，且准确率(即精度)和AlexNet网络(一种卷积神经网络)相当，使用ThiNet网络对输入图像进行卷积和降采样处理，以提取输入图像的特征，从而生成第一特征图，在损失一定准确率的情况下可以大大降低计算量。第一特征图是一个512通道的特征图，该特征图的大小是原图(输入图像)的十六分之一。

SqueezeNet网络包括一连串的卷积层、降采样层和连接层，SqueezeNet网络是对AlexNet网络裁剪得到的网络，与AlexNet网络或VGG16网络相比，具有非常少的参数。通过SqueezeNet网络的选定层对输入图像进行卷积和降采样处理，以对输入图像提取特征，从而生成第二特征图，在损失一定准确率的情况下可以大大降低计算量。第二特征图也是一个512通道的特征图，该特征图的大小也是原图(输入图像)的十六分之一。

选定层指选定的部分层，其中，ThiNet网络的选定层可以是ThiNet网络的激活层relu5_3之前(包括激活层relu5_3本身)的各层，SqueezeNet网络的选定层可以是SqueezeNet网络的连接层fire9/concat之前(包括连接层fire9/concat本身)的各层。

用一个连接层(concat layer)把得到的512通道的第一特征图与512通道的第二特征图拼接起来，得到1024通道的特征图，即为输入图像的特征图。这样，既利用上了通过ThiNet网络从输入图像中提取得到的特征，也利用上了通过SqueezeNet网络从输入图像中提取得到的特征，特征图中信息更加丰富，从而比单独使用ThiNet网络或SqueezeNet网络提取特征的准确率更高，降低了通过单独使用ThiNet网络或SqueezeNet网络提取特征所带来的准确率(或称精度)上的损失，计算量增加很少，仍然满足实时应用的需求。因此，步骤S101中使用第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，来对输入图像提取特征，可以保证较高的目标对象的检测精度，并大大降低目标对象检测的计算量。

步骤S102：根据输入图像的特征图生成多个检测框。

通过卷积层对输入图像的特征图提取特征，生成第三特征图，第三特征图每个点对应多个矩形框(也称矩形框又称anchor)，每个矩形框对应输入图像的一个区域，且每个矩形框的尺度和宽高比根据目标对象来设定，在对交通标示牌进行实时检测时，可以根据交通标示牌的尺度和宽高比来设定矩形框的尺度和宽高比。

通过第一分类层对各矩形框分类，以确定各矩形框的所属类别为前景或背景。具体地，可以通过第一分类层得到各矩形框属于前景的概率，当某矩形框属于前景的概率大于预设的前景概率阈值时，则将该矩形框的所属类别确定为前景。

通过第一回归层对各矩形框进行回归处理，以确定各矩形框的位置。各矩形框的位置可以通过与各矩形框对应的四个坐标值来体现。

通过建议层从所属类别为前景的矩形框中选出置信度大于预设值的矩形框，从而生成多个检测框。由于上述每个矩形框的尺度和宽高比根据目标对象来设定，因此该多个检测框的尺度和宽高比也是根据目标对象的大小确定的。例如，可以根据交通标示牌的大小，将矩形框的尺度从传统的8、16、32三种调整为3、6、9、16、32五种，将矩形框的宽高比例从传统的0.5、1.0、2.0三种调整为0.333、0.5、0.667、1.0、1.5、2.0、3.0七种。由于生成的检测框中包括较小尺度的检测框，从而使交通标示牌等较小的目标对象也可以被较好的检测出来。所属类别为前景的矩形框的置信度可以根据每个矩形框属于前景的概率的大小来确定，某一矩形框属于前景的概率越大，则该矩形框的置信度越高。

步骤S103：对各检测框进行分类和回归处理，以确定输入图像中的目标对象及所在位置信息。

步骤S103具体可以包括：将输入图像的特征图和多个检测框输入ROI(Region OfInterest，感兴趣的区域)降采样层进行降采样处理，以得到各检测框的相同大小特征图，该ROI降采样层的作用是把不同尺度的特征图降采样到相同尺度(大小)的特征图；通过经过节点数量剪裁的全连接层对各检测框的相同大小特征图提取特征，以生成对应各检测框的第四特征图；通过第二分类层对第四特征图对应的各检测框分类，以确定第四特征图对应的各检测框的类别标签；通过第二回归层对第四特征图对应的各检测框进行回归处理，以确定第四特征图对应的各检测框的位置信息；根据第四特征图对应的各检测框的类别标签，以及第四特征图对应的各检测框的位置信息，确定输入图像中的目标对象及所在位置信息。

步骤S103中全连接层经过节点数量剪裁，由原有的4096个节点裁剪为512个节点，从而可以进一步减少目标对象检测的计算量。

全连接层的后面可以分别接一个分类层(即第二分类层)和一个回归层(即第二回归层)，以分别得到检测框的类别标签以及检测框的精准坐标，检测框的类别标签用于识别该检测框对应的输入图像中物体是否为目标对象，例如是否为交通标示牌。检测框的精准坐标用于表示目标对象的所在位置信息。

图2是根据本发明实施例的目标对象的检测模型的示意图。

如图2所示，本发明实施例的目标对象的检测模型可以包括：ThiNet网络201、SqueezeNet网络202、连接层203、区域生成网络204、ROI(Region Of Interest，感兴趣的区域)降采样层205、全连接层206、全连接层207、分类层208(即第二分类层)和回归层209(即第二回归层)。其中，本发明实施例的目标对象的检测模型只使用选定的ThiNet网络201、SqueezeNet网络202的部分层(即选定层)。

其中，输入图像分别输入ThiNet网络201和SqueezeNet网络202(输入ThiNet网络201和SqueezeNet网络202的输入图像相同)，以进行特征提取，然后分别从ThiNet网络201的激活层relu5_3和SqueezeNet网络202的连接层fire9/concat输出得到的特征图(即第一特征图和第二特征图)。ThiNet网络201和SqueezeNet网络202分别与连接层203连接，通过连接层203对第一特征图和第二特征图进行拼接，以生成输入图像的特征图。

区域生成网络204与连接层203连接，用于根据输入图像的特征图生成多个检测框。区域生成网络204具体可以包括卷积层、第一分类层、第一回归层和建议层。区域生成网络204中的上述各层的功能在步骤S102已经详细介绍，此处不再赘述。

ROI降采样层205分别与连接层203和区域生成网络204连接，以根据输入图像的特征图和多个检测框得到各检测框的相同大小特征图，ROI降采样层205之后连接级联的全连接层206、207，通过全连接层206、全连接层207进一步提取特征，生成对应各检测框的第四特征图。全连接层206、全连接层207均为经过节点数量剪裁后的全连接层，将具有4096个节点的全连接层的节点数量裁剪为512个，从而得到本发明实施例的全连接层206和全连接层207，通过本发明实施例的全连接层206和全连接层207进一步提取特征，可以进一步减少目标对象检测的计算量。

全连接层207分别连接分类层208(即第二分类层)和回归层209(即第二回归层)，通过分类层208对第四特征图对应的各检测框分类，以确定第四特征图对应的各检测框的类别标签，以及，通过回归层209对第四特征图对应的各检测框进行回归处理，以确定第四特征图对应的各检测框的位置信息，最后，根据分类层208输出的各检测框的类别标签和回归层209输出的各检测框的位置信息，确定输入图像中的目标对象及所在位置信息。

本发明实施例的目标对象的检测模型为经过训练(深度学习)的模型，模型的训练可以采用卷积神经网络中通常使用的反向传播算法，参数的优化采用常用的随机梯度下降等方法，训练过程可以包括：输入训练样本；前向传播；计算损失(包括分类层和回归层的Loss(损失))；计算损失关于模型各参数的导数；更新模型的各参数。

图3是根据本发明实施例的目标对象的检测装置的主要模块示意图。

如图3所示，本发明实施例的目标对象的检测装置300主要包括：特征图生成模块301、检测框生成模块302、检测模块303。

特征图生成模块301用于通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图。

特征图生成模块301具体可以用于：通过ThiNet网络的选定层对输入图像进行卷积和降采样处理，以生成第一特征图；通过SqueezeNet网络的选定层对输入图像进行卷积和降采样处理，以生成第二特征图；通过连接层对第一特征图和所述第二特征图进行拼接，以生成输入图像的特征图。

ThiNet网络的选定层可以是位于ThiNet网络的激活层relu5_3之前(包括激活层relu5_3本身)的各层，SqueezeNet网络的选定层可以是位于SqueezeNet网络的连接层fire9/concat之前(包括连接层fire9/concat本身)的各层。

检测框生成模块302用于根据输入图像的特征图生成多个检测框。

检测框生成模块302具体可以用于：通过卷积层对输入图像的特征图提取特征，生成第三特征图，第三特征图每个点对应多个矩形框，每个矩形框对应输入图像的一个区域；通过第一分类层对各矩形框分类，以确定各矩形框的所属类别为前景或背景；通过第一回归层对各矩形框进行回归处理，以确定各矩形框的位置；通过建议层从所属类别为前景的矩形框中选出置信度大于预设值的矩形框，从而生成所述多个检测框，该多个检测框的尺度和宽高比根据目标对象的大小确定。

其中，所属类别为前景的矩形框的置信度可以根据每个矩形框属于前景的概率的大小来确定，某一矩形框属于前景的概率越大，则该矩形框的置信度越高。

检测模块303用于对各检测框进行分类和回归处理，以确定输入图像中的目标对象及所在位置信息。

检测模块303具体可以用于：将输入图像的特征图和多个检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过经过节点数量剪裁的全连接层对各检测框的相同大小特征图提取特征，以生成对应各检测框的第四特征图；通过第二分类层对第四特征图对应的各检测框分类，以确定第四特征图对应的各检测框的类别标签；通过第二回归层对第四特征图对应的各检测框进行回归处理，以确定第四特征图对应的各检测框的位置信息；根据第四特征图对应的各检测框的类别标签，以及第四特征图对应的各检测框的位置信息，确定输入图像中的目标对象及所在位置信息。

另外，在本发明实施例中目标对象的检测装置的具体实施内容，在上面所述目标对象的检测方法中已经详细说明了，故在此重复内容不再说明。

图4示出了可以应用本发明实施例的目标对象的检测方法或目标对象的检测装置的示例性系统架构400。

如图4所示，系统架构400可以包括终端设备401、402、403，网络404和服务器405。网络404用以在终端设备401、402、403和服务器405之间提供通信链路的介质。网络404可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备401、402、403通过网络404与服务器405交互，以接收或发送消息等。终端设备401、402、403上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备401、402、403可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器405可以是提供各种服务的服务器，例如对用户利用终端设备401、402、403所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如推送信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的目标对象的检测方法可以由服务器405或终端设备401、402、403执行，相应地，目标对象的检测装置可以设置于服务器405或终端设备401、402、403中。

应该理解，图4中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统500的结构示意图。图5示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征图生成模块301、检测框生成模块302、检测模块303。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征图生成模块301还可以被描述为“用于通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图；根据所述输入图像的特征图生成多个检测框；对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息。

根据本发明实施例的技术方案，通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图，能够保证较高的检测精度，并且大大降低目标对象检测的计算量，从而很好地应用到实时检测场景。根据输入图像的特征图生成的多个检测框的尺度和宽高比根据目标对象的大小确定，使得可以得到适合较小的目标对象尺度和宽高比的检测框，从而可以检测到较小的目标对象。通过经过节点数量剪裁的全连接层对各检测框的相同大小特征图提取特征，可以进一步减小目标对象检测的计算量，以保证更好的实时检测效果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标对象的检测方法，其特征在于，包括：

通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图；

根据所述输入图像的特征图生成多个检测框；

对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息。

2.根据权利要求1所述的方法，其特征在于，通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图的步骤，包括：

通过ThiNet网络的选定层对所述输入图像进行卷积和降采样处理，以生成第一特征图；

通过与所述ThiNet网络并行的SqueezeNet网络的选定层对所述输入图像进行卷积和降采样处理，以生成第二特征图；

通过连接层对所述第一特征图和所述第二特征图进行拼接，以生成输入图像的特征图。

3.根据权利要求1所述的方法，其特征在于，根据所述输入图像的特征图生成多个检测框的步骤，包括：

通过卷积层对所述输入图像的特征图提取特征，生成第三特征图，所述第三特征图每个点对应多个矩形框，每个矩形框对应所述输入图像的一个区域；

通过第一分类层对各矩形框分类，以确定所述各矩形框的所属类别为前景或背景；

通过第一回归层对所述各矩形框进行回归处理，以确定所述各矩形框的位置；

通过建议层从所属类别为前景的矩形框中选出置信度大于预设值的矩形框，从而生成所述多个检测框，所述多个检测框的尺度和宽高比根据所述目标对象的大小确定。

4.根据权利要求1所述的方法，其特征在于，对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息的步骤，包括：

将所述输入图像的特征图和所述多个检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；

通过经过节点数量剪裁的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第四特征图；

通过第二分类层对所述第四特征图对应的各检测框分类，以确定所述第四特征图对应的各检测框的类别标签；

通过第二回归层对所述第四特征图对应的各检测框进行回归处理，以确定所述第四特征图对应的各检测框的位置信息；

根据所述第四特征图对应的各检测框的类别标签，以及所述第四特征图对应的各检测框的位置信息，确定所述输入图像中的所述目标对象及所在位置信息。

5.一种目标对象的检测装置，其特征在于，包括：

特征图生成模块，用于通过第一轻量级卷积神经网络和第二轻量级卷积神经网络构造的网络模型，生成输入图像的特征图；

检测框生成模块，用于根据所述输入图像的特征图生成多个检测框；

检测模块，用于对各检测框进行分类和回归处理，以确定所述输入图像中的所述目标对象及所在位置信息。

6.根据权利要求5所述的装置，其特征在于，所述特征图生成模块还用于：

7.根据权利要求5所述的装置，其特征在于，所述检测框生成模块还用于：

8.根据权利要求5所述的装置，其特征在于，所述检测模块还用于：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-4中任一所述的方法。