CN108363998A

CN108363998A - 一种对象的检测方法、装置、系统和电子设备

Info

Publication number: CN108363998A
Application number: CN201810237037.4A
Authority: CN
Inventors: 彭超; 俞刚
Original assignee: Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2018-08-03

Abstract

本发明提供了一种对象的检测方法、装置、系统和电子设备，涉及图像识别的技术领域，该方法包括：获取待识别图像；通过对象检测模型对待识别图像进行图像识别，识别得到至少一个检测框；通过筛选模型对至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在至少一个检测框中检测目标检测框，其中，目标检测框表示为包含待检对象的检测框，本发明缓解了现有的对象检测系统在进行对象检测时检测精度较低的技术问题。

Description

一种对象的检测方法、装置、系统和电子设备

技术领域

本发明涉及图像识别的技术领域，尤其是涉及一种对象的检测方法、装置、系统和电子设备。

背景技术

在现有的对象检测方式中，对象检测系统现已成为视频结构化应用的核心技术，人们使用这项技术来检测图片中的对象，并针对不同的应用场景做出了诸多应用功能，例如，通过检测结果进对象的统计、通过检测结果进行对象跟踪、通过检测结果进行对象重识别等等。

现有的对象检测系统通常只包含前端检测系统，但是，前端检测系统经常会出现误报。因此，由于误报的存在，现有的对象检测系统常常给使用者带来诸多不便。

针对上述问题，还未提出有效解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种对象的检测方法、装置、系统和电子设备，以缓解了现有的对象检测系统在进行对象检测时检测精度较低的技术问题。

第一方面，本发明实施例提供了一种对象的检测方法，包括：获取待识别图像；通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

进一步地，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：通过所述筛选模型对所述每个检测框进行检测，得到第一评价值；基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框，其中，所述第一评价值用于表征所述每个检测框中包含所述待检对象的概率。

进一步地，基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框包括：确定所述至少一个检测框中第一评价值大于第一阈值的检测框为所述目标检测框。

进一步地，在识别得到所述至少一个检测框之后，所述方法还包括：获取所述对象检测模型对所述待识别图像进行图像识别之后得到的所述至少一个检测框中每个检测框的第二评价值，其中，所述第二评价值用于表征所述每个检测框中包含待检对象的概率；基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框包括：基于所述第一评价值和所述第二评价值在所述至少一个检测框中筛选得到所述目标检测框。

进一步地，基于所述第一评价值和所述第二评价值在所述至少一个检测框中筛选得到所述目标检测框包括：确定所述至少一个检测框中第二评价值大于第二阈值、且第一评价值大于第一阈值的检测框为所述目标检测框，其中，所述第二阈值小于所述第一阈值。

进一步地，通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框包括：通过所述对象检测模型对所述待识别图像进行图像识别，识别得到所述至少一个检测框的坐标信息；通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：通过所述筛选模型对所述待识别图像中位于所述坐标信息内的图像信息进行检测。

进一步地，所述对象检测模型包括：卷积层，深度残差网络，区域推荐网络RPN，兴趣区域ROI池化层以及全连接层；其中，所述卷积层的输入为所述待识别图像，所述全连接层的输出为所述至少一个检测框的坐标信息，以及所述至少一个检测框的第二评价值。

进一步地，通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框包括：通过所述卷积层对所述待识别图像进行卷积处理，得到第一特征图；通过所述深度残差网络对所述第一特征图进行深度残差学习，得到第二特征图；通过所述RPN在所述第二特征图中标注所述检测框，并通过所述ROI池化层对标注所述检测框的所述第二特征图进行池化处理，得到第三特征图；通过所述全连接层对所述第三特征图进行处理，得到所述至少一个检测框的坐标信息，以及所述至少一个检测框中每个检测框的第二评价值。

进一步地，所述筛选模型包括：多个卷积层，一个全局池化层，一个全连接层；其中，所述多个卷积层中第一个卷积层的输入为所述至少一个检测框，所述一个全连接层的输出为所述第一评价值。

进一步地，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：通过所述筛选模型中的多个卷积层对所述待识别图像中位于所述至少一个检测框中每个检测框内的图像信息进行卷积处理，得到第一特征信息；通过所述筛选模型中的一个全局池化层和一个全连接层依次对所述第一特征信息进行处理，得到所述第一评价值。

进一步地，所述筛选模型是经过以下训练后得到的：获取训练图像，并通过所述对象检测模型对所述训练图像进行检测，在所述训练图像中预先标记有检测框；对每个所述训练图像中位于所述检测框内的图像信息进行切割，得到多个目标图像；获取为所述多个目标图像各自添加的标记信息，其中，所述标记信息用于表明每个目标图像中是否包含待检对象；基于添加所述标记信息之后的目标图像对所述筛选模型进行训练。

第二方面，本发明实施例提供了一种对象的检测装置，包括：获取单元，用于获取待识别图像；识别单元，用于通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；检测筛选单元，用于通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

第三方面，本发明实施例提供了一种对象的检测系统，包括：图片解码装置，对象检测装置和数据筛选装置；所述图片解码装置用于获取待识别图像，并对所述待识别图像进行解码；所述对象检测装置用于通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；所述数据筛选装置用于通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

第四方面，本发明实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述所述的方法的步骤。

第五方面，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述所述的方法。

在本发明实施例中，首先，获取待识别图像；然后，通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；最后，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中检测目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。在本发明实施例中，在传统的对象检测模型的后端接入筛选模型，然后，通过筛选模型筛选出得到包含待检对象的检测框，从而提升了对象检测系统的检测精度和用户体验，进而缓解了现有的对象检测系统在进行对象检测时检测精度较低的技术问题。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种用于实现本发明实施例的对象的检测方法的示例电子设备；

图2是根据本发明实施例的一种对象的检测方法的流程图；

图3是根据本发明实施例的一种对象检测模型的示意图；

图4是根据本发明实施例的一种筛选模型的示意图；

图5是根据本发明实施例的一种对象的检测装置的示意图；

图6是根据本发明实施例的一种对象的检测系统的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

首先，参照图1来描述用于实现本发明实施例的对象的检测方法的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理设备102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理设备102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理设备102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的对象的检测方法的示例电子设备可以被实现为诸如智能手机、平板电脑等移动终端上。

误报(False Positive，简称FP)是计算机视觉物体检测系统中广泛存在的一种错误，由于检测系统的负样本是任意物体或场景，所以很难从检测器入手，完全消除误报的情况。另一方面，由于深度学习的有偏性，中间层的特征图可能已经在检测训练中产生了较大的偏执，并不适用于筛选模型。因此，本发明实施例所提供的系统被分为了两个部分：对象检测模型和筛选模型。通过这两个独立的模型，能够构建一套更为精确的对象检测装置，来对图像进行行人的识别，下面将结合具体的实施例对对象的检测方法进行详细的介绍。

根据本发明实施例，提供了一种对象的检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图2是根据本发明实施例的一种对象的检测方法的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取待识别图像；

在本发明实施例中，待识别图像可以为待识别视频流中的每个图像帧，还可以为图片格式的待识别图像。

步骤S204，通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；

如果待识别图像为待识别视频流中的每个图像帧，那么可以设置对象检测模型对待识别视频流中的每个图像帧均进行图像识别，以在每个图像帧中识别得到检测框。还可以设置对象检测模型每隔N帧对待识别视频流中的图像帧均进行图像识别，识别得到至少一个检测框。具体识别方式可以根据实际需要来进行设定，本发明不做具体限定。

如果待识别图像为图片格式的待识别图像，那么可以设置对象检测模型对每个待识别图像均进行图像识别。

步骤S206，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

在本发明实施例中，通过对象检测模型识别出的检测框为可能包含待检对象的检测框。也就是说，在上述至少一个检测框中，可能存在误报的检测框，也即不包含待检对象的检测框。此时，就需要通过筛选模型对至少一个检测框进行检测，以在至少一个检测框中检测包含待检对象的检测框(也即，目标检测框)。

需要说明的是，在本发明实施例中，待检对象可以为行人，可以为人体某一部位(如脸部)，可以为某种物体，例如，某一个动物，某种标志性建筑，某种标志性标识等任意一种物体，在本实施例中，对此不作具体限定。

在一些实施例中，上述筛选模型还可以为误报剔除模型。该误报剔除模型用于对检测框内的图像信息进行检测，以根据检测结果在所述检测框中检测不包含待检对象的检测框，之后就可以在对象检测模型识别得到的检测框中剔除不包含待检对象的检测框，从而完成误报的剔除操作。

在本发明实施例中，可以通过行人检测系统来执行上述步骤S202至步骤S206。

在一个可选的实施例中，对象检测模型包括：卷积层，深度残差网络，区域推荐网络(Region Proposal Network，RPN)，兴趣区域(Region of Interest，ROI)池化层以及全连接层。在对象检测模型中，卷积层、深度残差网络、ROI池化层和全连接层依次连接，另外深度残差网络还经由RPN与ROI连接。可选地，对象检测模型包括：一个卷积层，多个深度残差网络，一个RPN，一个ROI池化层，多个全连接层。

可选地，如图3所示，可以设置对象检测模型为：一个卷积层Conv-1，三个深度残差网络，分别为Res-2，Res-3和Res-4；一个RPN；一个ROI池化层，即ROI Pooling；以及2个全连接层，分别为：FC-1和FC-2。从图3中可以看出，Conv-1，Res-2，Res-3，Res-4，ROI Pooling，FC-1和FC-2依次串联连接，其中，一个RPN网络设置在Res-4和ROI Pooling之间。其中，所述一个卷积层Conv-1的输入为所述待识别图像，全连接层FC-2的输出为检测框的坐标信息(具体在下述实施例中进行介绍)，以及所述检测框的第二评价值(具体在下述实施例中进行介绍)。

在一个可选的实施例中，筛选模型包括依次串联连接的：多个卷积层，一个全局池化层，一个全连接层；其中，所述多个卷积层中第一个卷积层的输入为所述检测框，所述一个全连接层的输出为所述第一评价值(具体在下述实施例中进行介绍)。

可选地，如图3所示，可以设置筛选模型为：三个卷积层，分别为：Conv-1，Conv-2和Conv-3；一个全局池化层，即Global Pool；一个全连接层，即FC-1。需要说明的是，在本发明实施例中，筛选模型中的每个卷积层Conv都带有stride＝2的参数，通过设置该参数能够使卷积层输出的特征图边长减半。

需要说明的是，当筛选模型为误报剔除模型时，误报剔除模型的结构与筛选模型的结构相同，此时，误报剔除模型的工作过程是通过在对象检测模型检测到的至少一个检测框中确定不包含待检对象的检测框。并误报剔除模型检测到不包含待检对象的检测框之后，可以在至少一个检测框中剔除不包含待检对象的检测框之后，完成目标检测框的筛选。

在基于上述方式构建得到对象检测模型和筛选模型之后，就可以基于上述对象检测模型对待识别图像进行图像识别，识别得到至少一个检测框。并基于筛选模型对至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在至少一个检测框中筛选得到目标检测框。

在一个实施例中，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：

通过所述筛选模型对所述每个检测框进行检测，得到第一评价值；

基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框，其中，所述第一评价值用于表征所述每个检测框中包含待检对象的概率。

在本实施例中，对象检测模型检测到的检测框的数量至少为一个。在通过筛选模型对至少一个检测框中的每个检测框进行检测时，得到每个检测框的第一评价值。然后，就可以基于第一评价值对至少一个检测框进行筛选，筛选得到目标检测框，其中，筛选得到的目标检测框为包含待检对象的检测框。

可选地，基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框包括：

确定所述至少一个检测框中第一评价值大于第一阈值的检测框为所述目标检测框。

在本发明实施例中，可以将至少一个检测框中每个检测框的第一评价值与第一阈值进行比较，当比较出第一评价值大于第一阈值的情况下，则确定该检测框为目标检测框。例如，将第一评价值与0.99(即，第一阈值)进行比较，如果比较出第一评价值大于0.99，则确定该检测框为目标检测框，即包含待检对象的检测框。

在本发明实施例中，还可以将一个检测框的第一评价值与第一阈值进行比较，当比较出第一评价值小于或者等于第一阈值的情况下，则确定该检测框为不包含待检对象的检测框，此时，在对象检测模型检测的至少一个检测框中剔除该不包含待检对象的检测框，得到包含待检对象的目标检测框。例如，将一个检测框的第一评价值与0.99(即，第一阈值)进行比较，如果比较结果为第一评价值小于或者等于0.99，则确定出该检测框为不包含待检对象的检测框，此时，在对象检测模型检测的至少一个检测框中剔除该不包含待检对象的检测框。在对至少一个检测框中的每个检测框均执行上述步骤之后，就可以在至少一个检测框中筛选得到目标检测框。

在另一个实施例中，还可以通过下述过程来确定目标检测框。

在本发明实施例中，在识别得到所述至少一个检测框之后，所述方法还包括：获取所述对象检测模型对所述待识别图像进行图像识别之后，得到所述至少一个检测框中每个检测框的第二评价值，其中，所述第二评价值用于表征所述每个检测框中包含待检对象的概率；

基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框包括：基于所述第一评价值和所述第二评价值在所述至少一个检测框中筛选得到所述目标检测框。

也就是说，在本发明实施例中，在通过对象检测模型对待识别图像进行图像识别之后，除了得到至少一个检测框之外，还得到至少一个检测框中每个检测框的另一个评价值，即第二评价值，其中，该第二评价值为对象检测模型确定出的每个检测框中包含待检对象的概率。如图3所示，对象检测模型中FC-2的输出可以为对每个待识别图像进行之后得到的至少一个检测框，以及每个检测框的第二评价值(Score)。

在得到至少一个检测框，以及得到每个检测框的第二评价值(Score)之后，通过筛选模型对每个检测框进行检测，以得到每个检测框的第一评价值。最后，就可以基于第一评价值和第二评价值在所述至少一个检测框中检测目标检测框。

在一个可选的实施例中，基于所述第一评价值和所述第二评价值在所述至少一个检测框中筛选得到所述目标检测框包括如下步骤：

确定所述至少一个检测框中第二评价值大于第二阈值、且第一评价值大于第一阈值的检测框为所述目标检测框，其中，所述第二阈值小于所述第一阈值。

在本发明实施例中，对于每个检测框，首先判断该检测框的第二评价值是否大于第二阈值；如果判断出是，则继续判断该检测框的第一评价值是否大于第一阈值；如果判断出是，则确定出该检测框为目标检测框。

通过上述描述可知，通过对象检测模型和筛选模型分别确定至少一个检测框的评价值的方式，能够更加准确的从至少一个检测框中进一步筛选出包含待检对象的检测框，从而提升了对象检测系统的检测精度和用户体验。

例如，假设至少一个检测框包括检测框1和检测框2，其中，检测框1的第一评价值为A，检测框1的第二评价值为B；检测框2的第一评价值为C，检测框2的第二评价值为D，第一阈值为K1，第二阈值为K2。

按照上述进行判断之后，如果判断出第二评价值为B大于第二阈值K2，以及判断出第一评价值A大于第一阈值K1，则能够确定出该检测框1为目标检测框。按照上述进行判断之后，如果判断出第二评价值D大于第二阈值K2，以及判断出第一评价值C大于第一阈值A2，则就能够确定出该检测框2为目标检测框。

可选地，第一阈值选取为0.99，第二阈值选取为0.5。也就是说，如果判断出第二评价值D大于0.5，以及判断出第一评价值为C大于0.99，则就能够确定出该检测框2为目标检测框。

在另一个可选的实施例中，当筛选模型为误报剔除模型时，基于所述第一评价值和所述第二评价值在所述检测框中检测目标检测框还包括如下步骤：

确定所述至少一个检测框中第二评价值小于或者等于第二阈值、且第一评价值小于或者等于第一阈值的检测框为所述目标检测框，其中，所述第二阈值小于所述第一阈值，此时，在至少一个检测框中剔除不包含待检对象的检测框，从而得到目标检测框所述目标检测框；其中，所述第二阈值小于所述第一阈值。

在本发明实施例中，对于每个检测框，首先判断该检测框的第二评价值是否小于或者等于第二阈值；如果判断出是，则继续判断该检测框的第一评价值是否小于或者等于第一阈值；如果判断出是，则确定出该检测框为不包含待检对象的检测框。

通过上述描述可知，通过对象检测模型和误报剔除模型分别确定至少一个检测框的评价值的方式，能够更加准确的从至少一个检测框中剔除不包含待检对象的检测框，从而提升了对象检测系统的检测精度和用户体验。

在一个可选的实施例中，通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框包括：通过所述对象检测模型对所述待识别图像进行图像识别，识别得到所述至少一个检测框的坐标信息；

通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：通过所述筛选模型对所述待识别图像中位于所述坐标信息内的图像信息进行检测。

在本发明实施例中，在通过对象检测模型对待识别图像进行图像识别时，可以识别得到至少一个检测框的坐标信息。在本发明实施例中，检测框可以为正方形，还可以为矩形，还可以为圆形，还可以为椭圆形，对此，本实施例不做具体限定。相应地，检测框的坐标信息也可以有多种表示方式，本实施例也不做具体限定。例如，当该检测框为矩形或者正方形时，该坐标信息可以为左上角坐标信息和右下角坐标信息；该坐标信息还可以为该矩形(或者正方形)的边长信息和中心位置信息；还可以为该矩形(或者正方形)的对角线信息和中心位置信息等能够唯一确定该矩形(或者正方形)位置和大小的信息。当该检测框为圆形时，还坐标信息可以为圆心位置信息和半径信息(或者直径信息，以及周长信息)。在得到检测框的坐标信息之后，就可以通过筛选模型对位于坐标信息内的图像信息进行检测，从而得到该检测框的第一评价值。

当上述坐标信息为矩形(或者正方形)的左上角坐标信息(x1,y1)和右下角坐标信息(x2,y2)时。在对象检测模型对待识别图像进行识别得到N个检测框时，得到N个检测框的坐标信息，即，左上角坐标信息和右下角坐标信息(x1,y1,x2,y2)以及相应的分数(即，上述所述的第二评价值)。待识别图像中位于该坐标信息内的图像信息会作为下一阶段筛选模型的输入。

可选地，由于待识别图像中行人的尺寸一般不大，因此，在本发明实施例中，可以根据每个检测框的坐标信息在待识别图像中裁剪出相应的区域(即，上述所述的待识别图像中位于坐标信息内的图像信息)。在裁剪出相应的区域之后，还可以将该图像信息缩放至统一的112×112尺寸，然后，将缩放之后的图像信息输入至筛选模型中进行识别。

在一个可选的实施例中，通过对象检测模型对所述待识别图像进行图像识别，识别得到检测框包括如下步骤：

通过所述卷积层对所述待识别图像进行卷积处理，得到第一特征图；

通过所述深度残差网络对所述第一特征图进行深度残差学习，得到第二特征图；

通过所述RPN在所述第二特征图中标注所述检测框，并通过所述ROI池化层对标注所述检测框的所述第二特征图进行池化处理，得到第三特征图；

通过所述全连接层对所述第三特征图进行处理，得到所述至少一个检测框的坐标信息，以及所述至少一个检测框中每个检测框的第二评价值。

如果对象检测模型为如图3所示的模型，在本发明实施例中，首先，可以通过卷积层Conv-1对待识别图像进行卷积计算，得到第一特征图。然后，依次通过深度残差网络Res-2，深度残差网络Res-3和深度残差网络Res-4对第一特征图进行深度残差学习，其中，深度残差网络Res-4的输出即为第二特征图。接下来，通过RPN网络在第二特征图中标注检测框，并通过ROI池化层对标注检测框的所述第二特征图进行池化处理，得到第三特征图。需要说明的是，在本发明实施例中，RPN网络在第二特征图中标注检测框是按照预设检测框对第二特征图进行标注，其中，预设检测框为预先设定好的检测框。最后，通过全连接层FC-1和FC-2对所述第三特征图进行处理，得到至少一个检测框的坐标信息，以及至少一个检测框中每个检测框的第二评价值。

在一个可选的实施例中，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括如下步骤：

通过所述筛选模型中的多个卷积层对所述待识别图像中位于所述至少一个检测框中每个检测框内的图像信息进行卷积处理，得到第一特征信息；

通过所述筛选模型中的一个全局池化层和一个全连接层依次对所述第一特征信息进行处理，得到所述第一评价值。

如果筛选模型为如图4所示的模型，在本发明实施例中，首先，依次通过Conv-1，Conv-2和Conv-3对待识别图像中位于每个检测框内的图像信息进行卷积计算，得到第一特征信息；然后，通过全局池化层Global Pool和全连接层FC-1依次对第一特征信息进行处理，得到第一评价值。

在本发明实施例中，在通过筛选模型对检测框进行检测之前，需要对筛选模型进行训练，具体训练步骤描述如下：

首先，获取训练图像，并通过所述对象检测模型对所述进行检测，在所述训练图像中预先标记有检测框；

然后，对每个所述训练图像中位于所述检测框内的图像信息进行切割，得到多个目标图像；

接下来，获取为所述多个目标图像各自添加的标记信息，其中，所述标记信息用于表明每个目标图像中是否包含待检对象；

最后，基于添加所述标记信息之后的目标图像对所述筛选模型进行训练。

在本发明实施例中，首先，收集一批图像作为训练图像，并用训练好的对象检测模型对训练图像进行测试，从而在每个训练图像中标记至少一个检测框。然后，根据每个检测框的坐标信息切割(crop)出检测框中的图片，得到多个目标图像。并为多个目标图像添加标记信息，例如，标注为两类，即待检对象和非待检对象。最后，基于添加标记信息之后的目标图像对筛选模型进行训练，从而得到训练之后的筛选模型。

通过上述描述可知，在本发明实施例中，在传统的对象检测系统的后端接入筛选模型，然后，通过筛选模型删除掉不包含待检对象的检测框的方式，提升了行人检测系统的检测精度和用户体验，进而缓解了现有的行人检测系统在进行行人检测时检测精度较低的技术问题。

本发明实施例还提供了一种对象的检测装置，该对象的检测装置主要用于执行本发明实施例上述内容所提供的对象的检测方法，以下对本发明实施例提供的对象的检测装置做具体介绍。

图5是根据本发明实施例的一种对象的检测装置的示意图，如图5所示，该对象的检测装置主要包括获取单元51，识别单元52和检测筛选单元53，其中：

获取单元51，用于获取待识别图像；

识别单元52，用于通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；

检测筛选单元53，用于通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

可选地，检测筛选单元53包括：第一检测模块，用于通过所述筛选模型对所述每个检测框进行检测，得到第一评价值；第一筛选模块，用于基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框，其中，所述第一评价值用于表征所述每个检测框中包含所述待检对象的概率。

可选地，第一筛选模块用于：确定所述至少一个检测框中第一评价值大于第一阈值的检测框为所述目标检测框。

可选地，该装置还用于：在识别得到所述至少一个检测框之后，获取所述对象检测模型对所述待识别图像进行图像识别之后得到的所述至少一个检测框中每个检测框的第二评价值，其中，所述第二评价值用于表征所述每个检测框中包含待检对象的概率；第一筛选模块还包括：筛选子模块，用于基于所述第一评价值和所述第二评价值在所述至少一个检测框中筛选得到所述目标检测框。

可选地，筛选子模块用于：确定所述至少一个检测框中第二评价值大于第二阈值、且第一评价值大于第一阈值的检测框为所述目标检测框，其中，所述第二阈值小于所述第一阈值。

可选地，识别单元用于：通过所述对象检测模型对所述待识别图像进行图像识别，识别得到所述至少一个检测框的坐标信息；检测筛选单元还用于：通过所述筛选模型对所述待识别图像中位于所述坐标信息内的图像信息进行检测。

可选地，所述对象检测模型包括：卷积层，深度残差网络，区域推荐网络RPN，兴趣区域ROI池化层以及全连接层；其中，所述卷积层的输入为所述待识别图像，所述全连接层的输出为所述至少一个检测框的坐标信息，以及所述至少一个检测框的第二评价值。

可选地，识别单元用于：通过所述卷积层对所述待识别图像进行卷积处理，得到第一特征图；通过所述深度残差网络对所述第一特征图进行深度残差学习，得到第二特征图；通过所述RPN在所述第二特征图中标注所述检测框，并通过所述ROI池化层对标注所述检测框的所述第二特征图进行池化处理，得到第三特征图；通过所述全连接层对所述第三特征图进行处理，得到所述至少一个检测框的坐标信息，以及所述至少一个检测框中每个检测框的第二评价值。

可选地，所述筛选模型包括：多个卷积层，一个全局池化层，一个全连接层；其中，所述多个卷积层中第一个卷积层的输入为所述至少一个检测框，所述一个全连接层的输出为所述第一评价值。

可选地，检测筛选单元还用于：通过所述筛选模型中的多个卷积层对所述待识别图像中位于所述至少一个检测框中每个检测框内的图像信息进行卷积处理，得到第一特征信息；通过所述筛选模型中的一个全局池化层和一个全连接层依次对所述第一特征信息进行处理，得到所述第一评价值。

可选地，该装置还用于：获取训练图像，并通过所述对象检测模型对所述训练图像进行检测，在所述训练图像中预先标记有检测框；对每个所述训练图像中位于所述检测框内的图像信息进行切割，得到多个目标图像；获取为所述多个目标图像各自添加的标记信息，其中，所述标记信息用于表明每个目标图像中是否包含待检对象；基于添加所述标记信息之后的目标图像对所述筛选模型进行训练。

本发明实施例还提供了一种对象的检测系统。

图6是根据本发明实施例的一种对象的检测系统的示意图，如图6所示，该对象的检测系统主要包括图片解码装置61，对象检测装置62和数据筛选装置63，其中：

所述图片解码装置61用于获取待识别图像，并对所述待识别图像进行解码；

所述对象检测装置62用于通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；

所述数据筛选装置63用于通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

需要说明的是，在本发明实施例中，对象检测装置62和数据筛选装置63用于执行上述前述方法实施例所提供的方法的步骤，此处不再赘述。

本发明实施例所提供的装置和系统，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

进一步的，本实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述前述方法实施例所提供的方法的步骤。

本发明实施例所提供的人脸识别方法、装置及系统的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种对象的检测方法，其特征在于，包括：

获取待识别图像；

通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；

通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

2.根据权利要求1所述的方法，其特征在于，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：

基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框，其中，所述第一评价值用于表征所述每个检测框中包含所述待检对象的概率。

3.根据权利要求2所述的方法，其特征在于，基于所述第一评价值在所述至少一个检测框中筛选得到所述目标检测框包括：

4.根据权利要求2所述的方法，其特征在于，

在识别得到所述至少一个检测框之后，所述方法还包括：获取所述对象检测模型对所述待识别图像进行图像识别之后得到的所述至少一个检测框中每个检测框的第二评价值，其中，所述第二评价值用于表征所述每个检测框中包含待检对象的概率；

5.根据权利要求4所述的方法，其特征在于，基于所述第一评价值和所述第二评价值在所述至少一个检测框中筛选得到所述目标检测框包括：

6.根据权利要求1至5中任一项所述的方法，其特征在于，

通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框包括：通过所述对象检测模型对所述待识别图像进行图像识别，识别得到所述至少一个检测框的坐标信息；

7.根据权利要求6所述的方法，其特征在于，所述对象检测模型包括：卷积层，深度残差网络，区域推荐网络RPN，兴趣区域ROI池化层以及全连接层；

其中，所述卷积层的输入为所述待识别图像；所述全连接层的输出为所述至少一个检测框的坐标信息，以及所述至少一个检测框的第二评价值。

8.根据权利要求7所述的方法，其特征在于，通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框包括：

9.根据权利要求2所述的方法，其特征在于，所述筛选模型包括：多个卷积层，一个全局池化层，一个全连接层；其中，所述多个卷积层中第一个卷积层的输入为所述至少一个检测框，所述一个全连接层的输出为所述第一评价值。

10.根据权利要求9所述的方法，其特征在于，通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测包括：

11.根据权利要求1至5中任一项所述的方法，其特征在于，所述筛选模型是经过以下训练后得到的：

获取训练图像，并通过所述对象检测模型对所述训练图像进行检测，在所述训练图像中预先标记有检测框；

对每个所述训练图像中位于所述检测框内的图像信息进行切割，得到多个目标图像；

获取为所述多个目标图像各自添加的标记信息，其中，所述标记信息用于表明每个目标图像中是否包含待检对象；

基于添加所述标记信息之后的目标图像对所述筛选模型进行训练。

12.一种对象的检测装置，其特征在于，包括：

获取单元，用于获取待识别图像；

识别单元，用于通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；

检测筛选单元，用于通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

13.一种对象的检测系统，其特征在于，包括：图片解码装置，对象检测装置和数据筛选装置；

所述图片解码装置用于获取待识别图像，并对所述待识别图像进行解码；

所述对象检测装置用于通过对象检测模型对所述待识别图像进行图像识别，识别得到至少一个检测框；

所述数据筛选装置用于通过筛选模型对所述至少一个检测框中每个检测框内的图像信息进行检测，以根据检测结果在所述至少一个检测框中筛选得到目标检测框，其中，所述目标检测框表示为包含待检对象的检测框。

14.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至11中任一项所述的方法的步骤。

15.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至11中任一所述方法。