CN110633594A

CN110633594A - 一种目标检测方法和装置

Info

Publication number: CN110633594A
Application number: CN201810641822.6A
Authority: CN
Inventors: 张立成
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2019-12-31

Abstract

本发明公开了一种目标检测方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：利用轻量级卷积神经网络的选定层生成输入图像的特征图；根据所述特征图生成多尺度检测框，所述多尺度检测框具有与检测目标对应的尺度和宽高比；对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息。该实施方式能够减小目标检测的计算量，满足实时应用需求，并且可以检测到较小的目标。

Description

一种目标检测方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种目标检测方法和装置。

背景技术

目标检测是自动驾驶中用到的一项关键技术，在图像中准确的定位出检测目标的位置，可以很好地辅助自动驾驶的决策。目前目标检测的方法主要包括YOLO(You OnlyLook Once，一种目标检测方法)，SSD(Single Shot MultiBox Detector，一种目标检测方法)和Faster RCNN(更快速基于图像区域的卷积神经网络)，其中，Faster RCNN表现出最好的性能。然而，现有的Faster RCNN方法在应用到目标检测时计算量大，难以满足实时应用的需求，并且无法检测到交通指示牌、位于远处位置的人等较小的目标。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

现有方案计算量大，难以满足实时应用的需求，并且无法检测到较小目标。

发明内容

有鉴于此，本发明实施例提供一种目标检测方法和装置，能够减小目标检测的计算量，满足实时应用需求，并且可以检测到较小的目标。

为实现上述目的，根据本发明实施例的一个方面，提供了一种目标检测方法。

一种目标检测方法，包括：利用轻量级卷积神经网络的选定层生成输入图像的特征图；根据所述特征图生成多尺度检测框，所述多尺度检测框具有与检测目标对应的尺度和宽高比；对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息。

可选地，所述轻量级卷积神经网络为ThiNet网络，且将所述ThiNet网络的选定激活层作为所述选定层的特征图输出层；或者，所述轻量级卷积神经网络为SqueezeNet网络，且将所述SqueezeNet网络的选定连接层作为所述选定层的特征图输出层；所述特征图输出层用于输出生成的所述输入图像的特征图。

可选地，根据所述特征图生成多尺度检测框的步骤，包括：通过卷积层对所述特征图提取特征，生成第一特征图，所述第一特征图的每个点对应多个矩形框，每个矩形框对应所述输入图像的一个区域，且每个矩形框的尺度和宽高比根据所述检测目标设定；通过第一分类层对各矩形框分类，得到所述各矩形框属于前景的概率；通过第一回归层对所述各矩形框进行回归处理，以确定所述各矩形框的位置；通过建议层对所述各矩形框属于前景的概率排序，得到所述属于前景的概率最大的预设数量的矩形框，利用非极大值抑制算法对所述预设数量的矩形框去重后，得到所述多尺度检测框。

可选地，对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息的步骤，包括：将所述输入图像的特征图和所述多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第二特征图；通过第二分类层对所述第二特征图对应的各检测框分类，得到所述第二特征图对应的各检测框属于所述检测目标的概率；通过第二回归层对所述第二特征图对应的各检测框进行回归处理，以确定所述第二特征图对应的各检测框的位置信息；选出所述属于所述检测目标的概率大于预设阈值的所述第二特征图对应的检测框，并利用非极大值抑制算法对选出的检测框去重，以得到目标检测框；根据所述目标检测框及所述目标检测框的位置信息，确定所述输入图像中的所述检测目标及所在位置信息。

可选地，对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息的步骤，包括：将所述输入图像的特征图和所述多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第三特征图；通过分类层对所述第三特征图对应的各检测框分类，得到所述第三特征图对应的各检测框属于所述检测目标的概率，以根据该概率确定所述第三特征图对应的各检测框的类别标签；通过回归层对所述第三特征图对应的各检测框进行回归处理，以确定所述第三特征图对应的各检测框的位置信息；根据所述第三特征图对应的各检测框的类别标签和位置信息，确定所述输入图像中的所述检测目标及所在位置信息。

根据本发明实施例的另一方面，提供了一种目标检测装置。

一种目标检测装置，包括：特征图生成模块，用于利用轻量级卷积神经网络的选定层生成输入图像的特征图；检测框生成模块，用于根据所述特征图生成多尺度检测框，所述多尺度检测框具有与检测目标对应的尺度和宽高比；检测模块，用于对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息。

可选地，所述轻量级卷积神经网络为ThiNet网络，且所述特征图生成模块将所述ThiNet网络的选定激活层作为所述选定层的特征图输出层；或者，所述轻量级卷积神经网络为SqueezeNet网络，且所述特征图生成模块将所述SqueezeNet网络的选定连接层作为所述选定层的特征图输出层；所述特征图输出层用于输出生成的所述输入图像的特征图。

可选地，所述检测框生成模块还用于：通过卷积层对所述特征图提取特征，生成第一特征图，所述第一特征图的每个点对应多个矩形框，每个矩形框对应所述输入图像的一个区域，且每个矩形框的尺度和宽高比根据所述检测目标设定；通过第一分类层对各矩形框分类，得到所述各矩形框属于前景的概率；通过第一回归层对所述各矩形框进行回归处理，以确定所述各矩形框的位置；通过建议层对所述各矩形框属于前景的概率排序，得到所述属于前景的概率最大的预设数量的矩形框，利用非极大值抑制算法对所述预设数量的矩形框去重后，得到所述多尺度检测框。

可选地，所述检测模块还用于：将所述输入图像的特征图和所述多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第二特征图；通过第二分类层对所述第二特征图对应的各检测框分类，得到所述第二特征图对应的各检测框属于所述检测目标的概率；通过第二回归层对所述第二特征图对应的各检测框进行回归处理，以确定所述第二特征图对应的各检测框的位置信息；选出所述属于所述检测目标的概率大于预设阈值的所述第二特征图对应的检测框，并利用非极大值抑制算法对选出的检测框去重，以得到目标检测框；根据所述目标检测框及所述目标检测框的位置信息，确定所述输入图像中的所述检测目标及所在位置信息。

可选地，所述检测模块还用于：将所述输入图像的特征图和所述多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第三特征图；通过分类层对所述第三特征图对应的各检测框分类，得到所述第三特征图对应的各检测框属于所述检测目标的概率，以根据该概率确定所述第三特征图对应的各检测框的类别标签；通过回归层对所述第三特征图对应的各检测框进行回归处理，以确定所述第三特征图对应的各检测框的位置信息；根据所述第三特征图对应的各检测框的类别标签和位置信息，确定所述输入图像中的所述检测目标及所在位置信息。

根据本发明实施例的又一方面，提供了一种电子设备。

一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现本发明提供的目标检测方法。

根据本发明实施例的又一方面，提供了一种计算机可读介质。

一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现本发明提供的目标检测方法。

上述发明中的一个实施例具有如下优点或有益效果：利用轻量级卷积神经网络的选定层生成输入图像的特征图，能够减小目标检测的计算量，满足实时应用需求；根据输入图像的特征图生成多尺度检测框，且该多尺度检测框具有与检测目标对应的尺度和宽高比，使得可以检测到较小的检测目标；对多尺度检测框进行分类和回归处理，以确定输入图像中的检测目标及所在位置信息，其中，通过节点数量剪裁后的全连接层对各检测框的相同大小特征图提取特征，可以进一步减小目标检测的计算量，以保证更好的实时检测效果。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的目标检测方法的主要步骤示意图；

图2是根据本发明一个实施例的目标检测模型的构架示意图；

图3是根据本发明另一个实施例的目标检测模型的构架示意图；

图4是根据本发明实施例的目标检测装置的主要模块示意图；

图5是本发明实施例可以应用于其中的示例性系统架构图；

图6是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的目标检测方法的主要步骤示意图。

如图1所示，本发明实施例的目标检测方法主要包括如下的步骤S101至步骤S103。

步骤S101：利用轻量级卷积神经网络的选定层生成输入图像的特征图。

轻量级卷积神经网络可以为ThiNet网络或SqueezeNet网络，其中，使用ThiNet网络时，将ThiNet网络的激活层relu5_3作为选定层的特征图输出层；使用SqueezeNet网络时，将SqueezeNet网络的连接层fire9/concat作为选定层的特征图输出层。特征图输出层用于输出生成的输入图像的特征图。

步骤S102：根据输入图像的特征图生成多尺度检测框，该多尺度检测框具有与检测目标对应的尺度和宽高比。

该多尺度检测框具有与检测目标对应的尺度和宽高比是指该多尺度检测框中包括与检测目标的尺度和宽高比一致的检测框。

步骤S102具体可以包括：通过卷积层对输入图像的特征图提取特征，生成第一特征图，该第一特征图的每个点对应多个矩形框，每个矩形框对应输入图像的一个区域，且每个矩形框的尺度和宽高比根据检测目标设定；通过第一分类层对各矩形框分类，得到各矩形框属于前景的概率；通过第一回归层对各矩形框进行回归处理，以确定各矩形框的位置；通过建议层对各矩形框属于前景的概率排序，得到属于前景的概率最大的预设数量的矩形框，利用非极大值抑制算法对该预设数量的矩形框去重后，得到多尺度检测框。由于多尺度检测框是通过由矩形框筛选得到，因此多尺度检测框与输入图像的特征图中的点是相对应的。

步骤S103：对多尺度检测框进行分类和回归处理，以确定输入图像中的检测目标及所在位置信息。

在一个实施方式中，步骤S103具体可以包括：将输入图像的特征图和多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对各检测框的相同大小特征图提取特征，以生成对应各检测框的第二特征图；通过第二分类层对第二特征图对应的各检测框分类，得到第二特征图对应的各检测框属于检测目标的概率；通过第二回归层对第二特征图对应的各检测框进行回归处理，以确定第二特征图对应的各检测框的位置信息；选出属于检测目标的概率大于预设阈值的第二特征图对应的检测框，并利用非极大值抑制算法对选出的检测框去重，以得到目标检测框；根据目标检测框及目标检测框的位置信息，确定输入图像中的检测目标及所在位置信息。

在另一个实施方式中，步骤S103具体可以包括：将输入图像的特征图和多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对各检测框的相同大小特征图提取特征，以生成对应各检测框的第三特征图；通过分类层对第三特征图对应的各检测框分类，得到第三特征图对应的各检测框属于检测目标的概率，以根据该概率确定第三特征图对应的各检测框的类别标签；通过回归层对第三特征图对应的各检测框进行回归处理，以确定第三特征图对应的各检测框的位置信息；根据第三特征图对应的各检测框的类别标签和位置信息，确定输入图像中的检测目标及所在位置信息。

图2是根据本发明一个实施例的目标检测模型的构架示意图。

如图2所示，本发明一个实施例的目标检测模型的构架可以包括SqueezeNet网络、区域生成网络、ROI(Region Of Interest，感兴趣的区域)降采样层、全连接层、分类层和回归层。其中，本实施例的目标检测模型对SqueezeNet网络进行了处理，只选取SqueezeNet网络部分级联的层用于对输入图像提取特征(选取出的这部分层称为选定层)，而去掉了SqueezeNet网络中部分对检测特定目标(例如交通指示牌等较小的检测目标)没有帮助的层，例如部分层会导致检测特定目标时丢失特征信息，从而影响目标检测结果，这些层应去掉。并且，本实施的目标检测模型对全连接层进行了节点数量的剪裁，以减少目标检测时的计算量。下面详细介绍上述架构各部分的功能。

SqueezeNet网络由一连串的卷积层和降采样层、连接层组成，本实施例SqueezeNet网络的选定层为连接层fire9/concat之前的各层(其中，选定层也包括连接层fire9/concat本身)，即只需要SqueezeNet网络的连接层fire9/concat的输出，而将连接层fire9/concat之后的层去掉。以连接层fire9/concat这一层输出的特征图为输入图像的特征图，并作为后续区域生成网络的输入以及ROI降采样的输入。SqueezeNet网络从AlexNet网络(一种卷积神经网络)压缩而来，具有和AlexNet网络相当的识别准确率(即目标检测准确率)，但是SqueezeNet网络的参数量是AlexNet网络的五十分之一，比VGG16网络(一种卷积神经网络)的参数量少得更多，因而，其前向计算的时间与VGG16网络等相比也小很多。

区域生成网络用于根据输入图像的特征图生成多尺度检测框，区域生成网络包括卷积层、分类层、回归层和建议层，该区域生成网络中的分类层、回归层在图2中并未示出。其中，区域生成网络的卷积层与SqueezeNet网络的连接层fire9/concat连接，用于对连接层fire9/concat输出的输入图像的特征图提取特征，以生成第一特征图。输入图像的特征图以及第一特征图的每个点均对应多个矩形框(每个矩形框也可称为一个anchor)，每个矩形框对应输入图像的一个区域；该卷积层后面分别连接一个分类层(区域生成网络中的分类层)和一个回归层(区域生成网络中的回归层)，其中，该分类层用于判断第一特征图的多个矩形框(anchors)属于前景还是背景，具体可以通过各矩形框属于前景的概率来对各矩形框分类，如果某个矩形框属于前景的概率大于一个预先设定的值，则该矩形框判定为属于前景，否则判定该矩形框属于背景，该分类层的输出为各矩形框属于前景的概率；该回归层用于对各矩形框进行回归处理，以估计各矩形框的四个坐标值，以确定各矩形框的位置。建议层用于对各矩形框属于前景的概率排序，得到属于前景的概率最大的预设数量的矩形框，例如，选取排名前6000的矩形框，利用非极大值抑制算法对该6000个矩形框去重，因为重叠的矩形框会得到重复的结果，应该尽量避免矩形框重叠，抑制(即去重)后得到更少的矩形框(例如300个矩形框)。其中，非极大值抑制的阈值可以设置成0.7，选定一个矩形框后，与该矩形框重叠比率大于0.7的矩形框都被抑制掉，最后剩余的矩形框即作为生成的多尺度检测框(例如上述300个检测框)。

利用本实施例的目标检测模型可以预先根据检测目标的大小来调整矩形框的尺度和宽高比，从而使生成的多尺度检测框中包括与检测目标大小对应的尺度的检测框。具体地，对于交通指示牌较小目标，可以调整矩形框尺度为较小尺度(小于某预设尺度值)，对于行人、车辆等较大目标，可以调整矩形框尺度为较大尺度(大于或等于某预设尺度值)，可以根据输入图像中的检测目标的真实宽高比来调整矩形框的宽高比。现有的基于FasterRCNN框架的目标检测模型中对应特征图的每个点的矩形框的尺度为8、16、32三种，且宽高比为0.5、1.0、2.0三种，因此无法实现对较小目标的检测。本实施例根据检测目标的大小来调整矩形框的尺度和宽高比，使得本实施例目标检测模型中对应特征图的每个点的矩形框的尺度变为3、6、9、16、32五种，且宽高比变0.5、0.667、1.0、1.5、2.0五种，使得最终生成的矩形框中包含了较小尺度的检测框，从而，本实施例的目标检测模型可以检测出交通指示牌、尺度较小的行人(位于图像远处区域的行人)等较小目标。

ROI降采样层分别以连接层fire9/concat输出的输入图像的特征图和区域生成网络输出的多尺度检测框作为两个输入，用于根据输入图像的特征图和生成的多尺度检测框，对每个检测框进行降采样处理，以得到各检测框的相同大小特征图。ROI降采样层和一般的降采样层的区别在于，该降采样层可以把不同尺度的矩形框降采样到相同大小特征图。

全连接层用于进一步提取特征，本实施例通过两个经过节点数量剪裁后的全连接层级联，来对ROI降采样层输出的各检测框的相同大小特征图进一步提取特征。其中，每个节点数量剪裁后的全连接层的节点数量由4096个节点裁剪为512个节点，可以进一步减少计算量，以使得本实施例的目标检测模型达到更好的实时检测效果。

上述级联的全连接层后面分别连接一个分类层和一个回归层。其中，分类层用于对级联的全连接层输出的特征图的各检测框分类，得到各检测框属于检测目标的概率，并根据检测框属于检测目标的概率确定各检测框的类别标签，以检测目标为行人为例，类别标签可以为行人或背景。回归层用于对级联的全连接层输出的特征图的各检测框进行回归处理，以确定各检测框的位置信息，该位置信息为检测目标的位置信息。

根据上述得到的类别标签，以及各检测框的位置信息，即可确定输入图像中的检测目标及检测目标所在的位置信息。

本实施例的目标检测模型对Faster RCNN框架进行了改进，其中，利用SqueezeNet网络的选定层生成输入图像的特征图，大大减少了模型计算量，并且采用多尺度的锚(anchors，也称矩形框)，以识别小尺度的检测目标，并且对全连接层进行了节点数量裁剪，使模型计算量进一步减少，满足实时检测应用的需求。

图3是根据本发明另一个实施例的目标检测模型的构架示意图。

在本发明另一个实施例的目标检测模型中，以ThiNet网络作为目标检测模型的特征提取网络。ThiNet网络是对VGG16网络裁剪后得到的网络，包括一连串的卷积层、降采样层、激活层，具有比VGG16少得多的参数，准确率和AlexNet网络相当，损失了非常小的准确率，却大大降低了计算量，从而使得Faster RCNN框架用于实时检测成为可能。

本实施例的目标检测模型包括：ThiNet网络、区域生成网络、ROI(Region OfInterest，感兴趣的区域)降采样层、全连接层、分类层、回归层和后处理单元。其中对ThiNet网络进行了处理，只选取ThiNet网络部分级联的层用于对输入图像提取特征(选取出的这部分层称为选定层)，而去掉了SqueezeNet网络中部分对检测特定目标(例如交通指示牌等较小的检测目标)没有帮助的层，例如会导致检测特定目标时丢失特征信息，从而影响目标检测结果的部分层。具体地，以激活层relu5_3之前(包括激活层relu5_3本身)的各层作为ThiNet网络的选定层，对输入图像提取特征，通过激活层relu5_3输出生成的输入图像特征图。并且，对全连接层进行了节点数量的剪裁，以减少目标检测时的计算量。本实施例的后处理单元用于在得到各检测框属于检测目标的概率和各检测框的位置信息之后，对各检测框进行后处理操作。具体地，后处理操作包括：保留属于检测目标的概率大于某一预设的数值(例如0.8)的检测框，接着采用非极大值抑制方法，设置非极大值抑制的阈值是0.3，抑制掉重叠比率超过0.3的检测框，最后得到需要的目标检测框，根据目标检测框及目标检测框的位置信息，确定输入图像中的检测目标及所在位置信息。

由于在图2对应的实施例中已经详细介绍了区域生成网络、ROI(Region OfInterest，感兴趣的区域)降采样层、全连接层、分类层和回归层的功能，此处不再赘述。

本发明实施例的目标检测模型为经过训练(深度学习)的模型，模型的训练可以采用卷积神经网络中通常使用的反向传播算法，参数的优化采用常用的随机梯度下降等方法，训练过程可以包括：输入训练样本；前向传播；计算损失(包括分类层和回归层的Loss(损失))；计算损失关于模型各参数的导数；更新模型的各参数。

图4是根据本发明实施例的目标检测装置的主要模块示意图。

如图4所示，本发明实施例的目标检测装置400主要包括特征图生成模块401、检测框生成模块402、检测模块403。

特征图生成模块401用于利用轻量级卷积神经网络的选定层生成输入图像的特征图。

轻量级卷积神经网络可以为ThiNet网络或SqueezeNet网络，其中，使用ThiNet网络时，特征图生成模块401将ThiNet网络的激活层relu5_3作为选定层的特征图输出层；使用SqueezeNet网络时，特征图生成模块401将SqueezeNet网络的连接层fire9/concat作为选定层的特征图输出层。特征图输出层用于输出生成的输入图像的特征图。

检测框生成模块402用于根据输入图像的特征图生成多尺度检测框，该多尺度检测框具有与检测目标对应的尺度和宽高比。

检测框生成模块402具体用于：通过卷积层对输入图像的特征图提取特征，生成第一特征图，该第一特征图的每个点对应多个矩形框，每个矩形框对应输入图像的一个区域，且每个矩形框的尺度和宽高比根据检测目标设定；通过第一分类层对各矩形框分类，得到各矩形框属于前景的概率；通过第一回归层对各矩形框进行回归处理，以确定各矩形框的位置；通过建议层对各矩形框属于前景的概率排序，得到属于前景的概率最大的预设数量的矩形框，利用非极大值抑制算法对预设数量的矩形框去重后，得到多尺度检测框。

检测模块403用于对多尺度检测框进行分类和回归处理，以确定输入图像中的检测目标及所在位置信息。

在一个实施方式中，检测模块403具体可以用于：将输入图像的特征图和多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对各检测框的相同大小特征图提取特征，以生成对应各检测框的第二特征图；通过第二分类层对第二特征图对应的各检测框分类，得到第二特征图对应的各检测框属于检测目标的概率；通过第二回归层对第二特征图对应的各检测框进行回归处理，以确定第二特征图对应的各检测框的位置信息；通过后处理单元选出属于检测目标的概率大于预设阈值的第二特征图对应的检测框，并利用非极大值抑制算法对选出的检测框去重，以得到目标检测框；根据目标检测框及目标检测框的位置信息，确定输入图像中的检测目标及所在位置信息。其中，

在另一个实施方式中，检测模块403具体可以用于：将输入图像的特征图和多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；通过节点数量剪裁后的全连接层对各检测框的相同大小特征图提取特征，以生成对应各检测框的第三特征图；通过分类层对第三特征图对应的各检测框分类，得到第三特征图对应的各检测框属于检测目标的概率，以根据该概率确定第三特征图对应的各检测框的类别标签；通过回归层对第三特征图对应的各检测框进行回归处理，以确定第三特征图对应的各检测框的位置信息；根据第三特征图对应的各检测框的类别标签和位置信息，确定输入图像中的所述检测目标及所在位置信息。

另外，在本发明实施例中目标检测装置的具体实施内容，在上面所述目标检测方法中已经详细说明了，故在此重复内容不再说明。

图5示出了可以应用本发明实施例的目标检测方法或目标检测装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如产品信息)反馈给终端设备。

需要说明的是，本发明实施例所提供的目标检测方法一般由终端设备501、502、503或服务器505执行，相应地，目标检测装置一般设置于终端设备501、502、503或服务器505中。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。图6示出的终端设备或服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考主要步骤示意图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的主要步骤示意图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，主要步骤示意图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或主要步骤示意图中的每个方框、以及框图或主要步骤示意图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括特征图生成模块401、检测框生成模块402、检测模块403。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征图生成模块401还可以被描述为“用于利用轻量级卷积神经网络的选定层生成输入图像的特征图的模块”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：利用轻量级卷积神经网络的选定层生成输入图像的特征图；根据所述特征图生成多尺度检测框，所述多尺度检测框具有与检测目标对应的尺度和宽高比；对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息。

根据本发明实施例的技术方案，利用轻量级卷积神经网络的选定层生成输入图像的特征图，能够减小目标检测的计算量，满足实时应用需求；根据输入图像的特征图生成多尺度检测框，且该多尺度检测框具有与检测目标对应的尺度和宽高比，使得可以检测到较小的检测目标；对多尺度检测框进行分类和回归处理，以确定输入图像中的检测目标及所在位置信息，其中，通过节点数量剪裁后的全连接层对各检测框的相同大小特征图提取特征，可以进一步减小目标检测的计算量，以保证更好的实时检测效果。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种目标检测方法，其特征在于，包括：

利用轻量级卷积神经网络的选定层生成输入图像的特征图；

根据所述特征图生成多尺度检测框，所述多尺度检测框具有与检测目标对应的尺度和宽高比；

对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息。

2.根据权利要求1所述的方法，其特征在于，所述轻量级卷积神经网络为ThiNet网络，且将所述ThiNet网络的选定激活层作为所述选定层的特征图输出层；

或者，所述轻量级卷积神经网络为SqueezeNet网络，且将所述SqueezeNet网络的选定连接层作为所述选定层的特征图输出层；

所述特征图输出层用于输出生成的所述输入图像的特征图。

3.根据权利要求1所述的方法，其特征在于，根据所述特征图生成多尺度检测框的步骤，包括：

通过卷积层对所述特征图提取特征，生成第一特征图，所述第一特征图的每个点对应多个矩形框，每个矩形框对应所述输入图像的一个区域，且每个矩形框的尺度和宽高比根据所述检测目标设定；

通过第一分类层对各矩形框分类，得到所述各矩形框属于前景的概率；

通过第一回归层对所述各矩形框进行回归处理，以确定所述各矩形框的位置；

通过建议层对所述各矩形框属于前景的概率排序，得到所述属于前景的概率最大的预设数量的矩形框，利用非极大值抑制算法对所述预设数量的矩形框去重后，得到所述多尺度检测框。

4.根据权利要求1所述的方法，其特征在于，对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息的步骤，包括：

将所述输入图像的特征图和所述多尺度检测框输入ROI降采样层进行降采样处理，以得到各检测框的相同大小特征图；

通过节点数量剪裁后的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第二特征图；

通过第二分类层对所述第二特征图对应的各检测框分类，得到所述第二特征图对应的各检测框属于所述检测目标的概率；

通过第二回归层对所述第二特征图对应的各检测框进行回归处理，以确定所述第二特征图对应的各检测框的位置信息；

选出所述属于所述检测目标的概率大于预设阈值的所述第二特征图对应的检测框，并利用非极大值抑制算法对选出的检测框去重，以得到目标检测框；

根据所述目标检测框及所述目标检测框的位置信息，确定所述输入图像中的所述检测目标及所在位置信息。

5.根据权利要求1所述的方法，其特征在于，对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息的步骤，包括：

通过节点数量剪裁后的全连接层对所述各检测框的相同大小特征图提取特征，以生成对应各检测框的第三特征图；

通过分类层对所述第三特征图对应的各检测框分类，得到所述第三特征图对应的各检测框属于所述检测目标的概率，以根据该概率确定所述第三特征图对应的各检测框的类别标签；

通过回归层对所述第三特征图对应的各检测框进行回归处理，以确定所述第三特征图对应的各检测框的位置信息；

根据所述第三特征图对应的各检测框的类别标签和位置信息，确定所述输入图像中的所述检测目标及所在位置信息。

6.一种目标检测装置，其特征在于，包括：

特征图生成模块，用于利用轻量级卷积神经网络的选定层生成输入图像的特征图；

检测框生成模块，用于根据所述特征图生成多尺度检测框，所述多尺度检测框具有与检测目标对应的尺度和宽高比；

检测模块，用于对所述多尺度检测框进行分类和回归处理，以确定所述输入图像中的所述检测目标及所在位置信息。

7.根据权利要求6所述的装置，其特征在于，所述轻量级卷积神经网络为ThiNet网络，且所述特征图生成模块将所述ThiNet网络的选定激活层作为所述选定层的特征图输出层；

或者，所述轻量级卷积神经网络为SqueezeNet网络，且所述特征图生成模块将所述SqueezeNet网络的选定连接层作为所述选定层的特征图输出层；

所述特征图输出层用于输出生成的所述输入图像的特征图。

8.根据权利要求6所述的装置，其特征在于，所述检测框生成模块还用于：

9.根据权利要求6所述的装置，其特征在于，所述检测模块还用于：

10.根据权利要求6所述的装置，其特征在于，所述检测模块还用于：

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。