CN108875481B

CN108875481B - 用于行人检测的方法、装置、系统及存储介质

Info

Publication number: CN108875481B
Application number: CN201710770887.6A
Authority: CN
Inventors: 林孟潇; 张祥雨
Original assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Current assignee: Beijing Kuangshi Technology Co Ltd; Beijing Megvii Technology Co Ltd
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2021-10-12
Anticipated expiration: 2037-08-31
Also published as: CN108875481A

Abstract

本发明的实施例提供了一种用于行人检测的方法、装置、系统及存储介质。该方法包括：获取待检测图像；对所述待检测图像进行行人检测，以获得行人检测框，其中所述行人检测框用于指示所述待检测图像中可能包括行人的区域；在所述行人检测框中进行人头检测，以获得人头检测框，其中所述人头检测框用于指示所述行人检测框中可能包括人头的区域；以及根据所述人头检测框筛选所述行人检测框，并且将最终筛选结果作为行人检测结果。本发明能降低现有技术的行人检测中的漏检，提高检测准确率。

Description

用于行人检测的方法、装置、系统及存储介质

技术领域

本发明涉及模式识别技术领域，更具体地涉及一种用于行人检测的方法、装置、系统及存储介质。

背景技术

现有的行人检测技术中，一般首先针对待检测图像进行行人检测。然后，采用非极大值抑制算法(non-maximum suppression，NMS)来去除重复的行人检测框，从而提高行人检测结果的精度。

然而，针对密集人群进行拍照时，在图像中不同人的身体相互重叠会比较多。由于在行人检测的过程中，需要使用NMS来消除人与人之间身体的重叠；因此，现有技术往往会出现大量漏检错误以及将多人检测为一人的错误。例如，图1示出了一个示例性的待检测图像。图2是针对图1所示的待检测图像利用现有的行人检测技术获得的行人检测结果。如图2所示，待检测图像中左上角位置的人被漏检了。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种用于行人检测的方法、装置、系统及存储介质。

根据本发明一方面，提供了一种用于行人检测的方法，包括：

获取待检测图像；

对所述待检测图像进行行人检测，以获得行人检测框，其中所述行人检测框用于指示所述待检测图像中可能包括行人的区域；

在所述行人检测框中进行人头检测，以获得人头检测框，其中所述人头检测框用于指示所述行人检测框中可能包括人头的区域；以及

根据所述人头检测框筛选所述行人检测框，并且将最终筛选结果作为行人检测结果。

示例性地，所述对所述待检测图像进行行人检测还获得所述行人检测框的置信度，

所述根据所述人头检测框筛选所述行人检测框包括：

确定有重叠部分的两个行人检测框的重叠率，以作为第一重叠率；

确定所述两个行人检测框中的两个人头检测框的重叠率，以作为第二重叠率；

根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余；以及

对于所述两个行人检测框中存在冗余的情况，根据所述两个行人检测框的置信度筛选出所述两个行人检测框中的一个，将所述两个行人检测框中的另一个丢弃。

示例性地，所述根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余包括：

计算所述第一重叠率和所述第二重叠率的加权和；

比较所述加权和和阈值；以及

对于所述加权和大于所述阈值的情况，确定所述两个行人检测框中存在冗余。

示例性地，在所述确定有重叠部分的两个行人检测框的重叠率之前，所述根据所述人头检测框筛选所述行人检测框还包括：

根据所述行人检测框的置信度对现有的行人检测框进行排序；以及

针对经排序的行人检测框，从置信度最高的行人检测框开始依次确定所述有重叠部分的两个行人检测框。

示例性地，所述方法还包括：

提取所述待检测图像的图像特征；

其中，直接利用所述图像特征对所述待检测图像进行行人检测；和/或

直接利用所述图像特征在所述行人检测框中进行人头检测。

示例性地，所述提取所述待检测图像的图像特征是基于以下模型中的一个：卷积神经网络(CNN)特征提取器、尺度无关特征变换(SIFT)特征提取器和方向梯度直方图(HOG)特征提取器。

示例性地，所述在所述行人检测框中进行人头检测包括：

基于第一检测模型，利用与所述行人检测框对应的数据确定所述行人检测框与其中的人头检测框的宽度比例、高度比例和中心偏移；以及

基于所述宽度比例、所述高度比例和所述中心偏移确定所述其中的人头检测框。

示例性地，所述第一检测模型是快速区域卷积神经网络(Faster R-CNN)、关键区域检测网络(Region Proposal Network)或提升树(AdaBoost tree)。

示例性地，所述方法还包括：利用训练输入数据和对应的标注内容训练所述第一检测模型。

示例性地，所述对待检测图像进行行人检测包括：

基于第二检测模型，确定所述待检测图像中的行人检测初选框；

基于打分神经网络，利用与所述行人检测初选框对应的数据计算所述行人检测初选框的置信度；以及

确定预定个数的、置信度最高的行人检测初选框为所述行人检测框。

根据本发明另一方面，还提供了一种用于行人检测的装置，包括：

图像获取模块，用于获取待检测图像；

行人检测模块，用于对所述待检测图像进行行人检测，以获得行人检测框，其中所述行人检测框用于指示所述待检测图像中可能包括行人的区域；

人头检测模块，用于在所述行人检测框中进行人头检测，以获得人头检测框，其中所述人头检测框用于指示所述行人检测框中可能包括人头的区域；以及

后处理模块，用于根据所述人头检测框筛选所述行人检测框，并且将最终筛选结果作为行人检测结果。

根据本发明又一方面，还提供了一种用于行人检测的系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取待检测图像；

根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取待检测图像；

根据本发明实施例的用于行人检测的方法、装置、系统及存储介质，能够提高图像的行人检测精度，特别是针对人群密集场景所拍摄的图像。通过在行人检测的基础上，引入了重叠率极低的人头检测参与后处理，显著降低了漏检，提高行人检测准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出了一个示例性的待检测图像；

图2示出了针对图1所示的待检测图像利用现有的行人检测技术获得的行人检测结果；

图3示出了用于实现根据本发明实施例的用于行人检测的方法和装置的示例电子设备的示意性框图；

图4示出了根据本发明一个实施例的用于行人检测的方法的示意性流程图；

图5示出了针对图1所示的待检测图像利用根据本发明一个实施例的用于行人检测的方法获得的行人检测结果；

图6示出了根据本发明一个实施例的用于行人检测的方法的示意性框图；

图7示出了根据本发明的实施例的对待检测图像进行行人检测的示意性流程图；

图8示出了根据本发明的实施例的在行人检测框中进行人头检测的示意性流程图；

图9示出了根据本发明的实施例的后处理的示意性流程图；

图10示出了根据本发明一个实施例的用于行人检测的装置1000的示意性框图；以及

图11示出了根据本发明一个实施例的用于行人检测的系统1100的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明实施例提供一种用于行人检测的方法。其中，以每个行人检测框为基础，检测其内部的人头检测框。然后，根据人头检测框来得到召回率更高的无重复的行人检测结果。本发明实施例所提供的用于行人检测的方法可以在很大程度上解决现有行人检测技术中的漏检问题，因此可以很好地应用于监控领域。

首先，参照图3来描述用于实现根据本发明实施例的用于行人检测的方法和装置的示例电子设备300。

如图3所示，电子设备300包括一个或多个处理器302、一个或多个存储装置304、输入装置306、输出装置308和图像采集装置310，这些组件通过总线系统312和/或其它形式的连接机构(未示出)互连。应当注意，图3所示的电子设备300的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器302可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备300中的其它组件以执行期望的功能。

所述存储装置304可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器302可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置306可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置308可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置310可以采集图像(包括视频帧)，并且将所采集的图像存储在所述存储装置304中以供其它组件使用。图像采集装置310可以是监控摄像头。应当理解，图像采集装置310仅是示例，电子设备300可以不包括图像采集装置310。在这种情况下，可以利用其他图像采集装置采集用于行人检测的图像，并将采集的图像发送给电子设备300。

示例性地，用于实现根据本发明实施例的用于行人检测的方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图4描述根据本发明实施例的用于行人检测的方法。图4示出根据本发明一个实施例的用于行人检测的方法400的示意性流程图。如图4所示，该方法400包括以下步骤。

步骤S410，获取待检测图像。

待检测图像可以是任何合适的、需要进行行人检测的图像，例如针对被监控区域采集到的图像。待检测图像可以是摄像头等图像采集装置采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。

待检测图像可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备300以由电子设备300的处理器302进行处理，也可以由电子设备300包括的图像采集装置310(例如摄像头)采集并传送到处理器302进行处理。

步骤S420，对所述待检测图像进行行人检测，以获得行人检测框。所述行人检测框用于指示所述待检测图像中可能包括行人的区域。

步骤S420可以采用任何常规的行人检测算法实现，例如HOG结合支持向量机(SVM)的行人检测算法。利用行人检测算法检测待检测图像中的行人，可以获得若干行人检测框。行人检测框可以是矩形框，用于指示待检测图像中可能存在行人的区域。此外，利用行人检测算法检测待检测图像中的行人还可以获得与每个行人检测框对应的置信度，用于表示该行人检测框中确实存在人的概率。

需注意的是，在步骤S420中所获得的行人检测框是未利用NMS进行处理的行人检测框。也就是说，在步骤S420中所获得的行人检测框中，多个不同的行人检测框可能对应着同一行人。此外，待检测图像中可能存在两个距离较近的行人，在这种情况下，这两个行人的行人检测框会具有较大的重叠区域。

步骤S430，在步骤S420所获得的行人检测框中进行人头检测，以获得人头检测框。所述人头检测框用于指示所述待检测图像中可能包括人头的区域。

在步骤S430中，仅仅在步骤S420所获得的行人检测框中，即行人检测操作认为有人的位置，进行人头检测。人们拍照时，会对人的头部更感兴趣，所以所拍图像中一般会包括人的头部。因此，每个行人检测框中一般包括一个行人的头部。在步骤S430中，利用人头检测框将行人检测框中的行人的头部圈画出来。示例性地，人头检测框也可以是矩形框。

在一个示例中，针对步骤S420所获得的所有行人检测框进行人头检测。在另一个示例中，可以从步骤S420所获得的行人检测框中选择至少部分行人检测框进行人头检测。例如，可以从所获得的行人检测框中选择置信度大于预设置信度阈值的行人检测框进行人头检测，将置信度不大于预设置信度阈值的行人检测框丢弃。

示例性地，步骤S430可以基于神经网络来实现。

步骤S440，根据步骤S430所获得的人头检测框筛选行人检测框，并且将最终筛选结果作为行人检测结果。该过程可以称为后处理过程。

可以理解的是，如果在步骤S420中获得的行人检测框的数目仅有一个，则在步骤S440中可以直接保留该行人检测框，即仅检测出待检测图像中的一个行人。如果在步骤S420中获得的行人检测框的数目不止一个，则可以对所获得的行人检测框进行进一步选择。特别是对包含同一行人的多个行人检测框进行过滤，针对每个行人仅保留一个行人检测框，最终可以获得与待检测图像中的行人一一对应的行人检测框。

可以理解，如果两个行人检测框所包含的行人是同一行人，则在待检测图像中这两个行人检测框中的人头检测框必将有很大的重叠区域。因此，根据不同行人检测框中的人头检测框之间的重叠区域可以对行人检测框进行筛选，从而可以从包含同一行人的多个行人检测框中挑选出一个行人检测框，将其余行人检测框丢弃。通过上述操作，可以针对每个行人仅保留一个行人检测框，从而获得与待检测图像中各个行人一一对应的行人检测框。相对地，如果两个行人检测框所包含的行人不是同一行人，则这两个行人检测框中的人头检测框不会有太大的重叠区域，即使这两个行人检测框存在较大重叠区域，也不应因其中的一个行人检测框而将另一行人检测框丢弃。因此，综合利用人头检测框的方式可以避免错误地过滤包含不同行人的行人检测框，提高行人检测的准确性。

应了解，步骤S420和S430可以并行处理。具体地，在步骤S420，获得一个或多个行人检测框后，即可通过步骤S430，针对已经获得的行人检测框进行人头检测以获得人头检测框；而非必须等待获得所有的行人检测框之后再进行人头检测。进而大幅缩短行人检测时间。

根据本发明实施例的上述行人检测方法，由于引入了图像中重叠率极低的人头参与后处理，可以降低现有行人检测技术中的漏检，提高检测准确率。图5示出了针对图1所示的待检测图像利用根据本发明一个实施例的行人检测方法获得的行人检测结果。如图5所示，虽然待检测图像左上角的行人被其他行人所遮挡，但是根据本发明实施例的用于行人检测的方法仍能够将其检测出来。这对行人监控(特别是在行人密集场景下的行人监控)具有非常重要的价值。

示例性地，根据本发明实施例的用于行人检测的方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的用于行人检测的方法可以部署在图像采集端处，例如，可以部署在小区门禁系统的图像采集端或者部署在诸如车站、商场、银行等公共场所的安防监控系统的图像采集端。替代地，根据本发明实施例的用于行人检测的方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集图像，客户端将采集到的图像传送给服务器端(或云端)，由服务器端(或云端)进行行人检测。

根据本发明的实施例，上述方法400还可包括以下步骤：提取待检测图像的图像特征。在步骤S410获取待检测图像之后，提取该待检测图像的图像特征。在后续的行人检测和/或人头检测的步骤中，直接利用该图像特征，而不是利用待检测图像。直接利用图像特征进行检测，可以提高检测效率。

图6示出了根据本发明一个实施例的用于行人检测的方法的示意性框图。如图6所示，在获取待检测图像之后，首先对待检测图像进行特征提取，以获得图像特征。然后，利用图像特征进行行人检测，获得初步行人检测结果。利用图像特征并基于初步行人检测结果进行人头检测，获得人头检测结果。最后，基于人头检测结果，对初步行人检测结果进行后处理，获得最终的行人检测结果。在该实施例中，行人检测没有直接利用待检测图像，而是利用从待检测图像中提取的图像特征。人头检测复用行人检测所用的图像特征。这样，可以进一步提高检测效率。

示例性地，基于以下模型中的一个：CNN特征提取器、SIFT特征提取器和HOG特征提取器来提取待检测图像的图像特征。这些模型所提取的图像特征更适于做行人检测，使得检测结果更准确。

下面以卷积神经网络为例来描述图像特征的提取过程。卷积神经网络的不同层次能够提取不同的特征，由此，总层数不同的卷积神经网络能够提取不同的特征。卷积神经网络的第一卷积层可提取一些低级的特征，如图像的边缘、线条和角等特征。后面的卷积层可根据前面的卷积层所提取的低级的特征迭代提取更高级、更复杂的特征。换言之，总层数越多的卷积神经网络提取的特征越复杂。可以根据需要采用各种图像特征，对此不做限制。

对于一个待检测图像，由所提取的图像特征可以用张量表示，在本文中称其为特征张量。特征张量可以是三阶的。三阶特征张量的三个阶可以分别代表图像的横向，纵向和频道(channel)。横向是图像的宽度的方向。纵向是图像的高度的方向。三阶特征张量X可以包括多个元素。示例性地，三阶特征张量X中的每个元素可以表示为X[i][j][k]，其中，i、j、k分别表示不同阶，i＝0,1,2,..,h-1；j＝0,1,...,w-1；k＝0,1,...,c-1；h、w、c分别表示特征张量X的高度，宽度和频道个数。特征张量中的、横坐标为i且纵坐标为j的所有频道的数值组成的一个c维向量。即该c个元素可以构成一个超像素点(superpixel)，可以用X[i][j]表示。可以理解，每一个超像素点分别对应待检测图像中的一个相应区域。

在一个示例中，采用诸如50层的深度残差网络(Deep Residual Network)来提取图像特征。可以取该深度残差网络倒数第3层的输出作为图像特征。具体的，该图像特征的频道个数可以是2048，高度和宽度可以分别为H/16、W/16，其中H是待检测图像的高度，W是待检测图像的宽度。

图7示出了根据本发明的实施例的步骤S420的示意性流程图。步骤S420中对待检测图像进行行人检测可以进一步包括以下步骤。

步骤S421，基于第二检测模型，确定待检测图像中的行人检测初选框。通过该过程可能得到很多个行人检测框，因为后续操作将在这多个行人检测框中进行进一步选择，所以本文将其称为行人检测初选框。

根据本发明的一个示例，步骤S421可以直接利用待检测图像来实现。根据本发明的另一个示例，步骤S421还可以利用上述图像特征来实现。根据图像特征来实现计算量更小，所需时间更短。

可以理解，第二检测模型可以是快速区域卷积神经网络检测器、关键区域检测网络检测器和提升树检测器等。可选地，第二检测模型在确定行人检测初选框的同时，还计算了每个行人检测初选框的置信度，并且根据该置信度输出特定个数的行人检测初选框。在一个示例中，利用第二检测模型对待检测图像进行行人检测，确定了3000个行人检测初选框。

步骤S423，确定预定个数的、置信度最高的行人检测初选框为所述行人检测框。

可以从已经获得的行人检测初选框中选择预定个数的行人检测初选框。通常，该预定个数大于图像中可能包括的行人的个数。对于行人非常密集的待检测图像，可以将该预定个数设置的较高；对于行人相对较稀疏的待检测图像，可以将该预定个数设置的较低。从行人检测初选框中选择行人检测框的过程可以依据行人检测初选框的置信度，从置信度由高到低的顺序来进行选择，优先选择置信度较高的行人检测初选框。如前一示例，确定了3000个行人检测初选框。按照其置信度由高到低的顺序，对这3000个行人检测初选框进行排序。可以确定经排序的行人检测初选框中的例如前50个作为行人检测框。

如图7所示，步骤S420还可以包括步骤S422，基于打分神经网络，计算步骤S421所获得的行人检测初选框的置信度。在步骤S421中，可能计算了行人检测初选框的置信度，但该计算是利用整个待检测图像或其图像特征来完成的。与之不同的是，在步骤S422中，打分神经网络仅利用与每个行人检测初选框对应的数据来对行人检测初选框进行打分，即计算该行人检测初选框的置信度。该与行人检测初选框对应的数据包括待检测图像中与该行人检测初选框对应的数据。该与行人检测初选框对应的数据还可包括图像特征中与该行人检测初选框对应的数据。如前所述，图像特征中的每个超像素点对应原始图像中的一个区域，所以，每个行人检测初选框也唯一地对应图像特征中的一部分超像素点。在步骤S422中，仅根据图像特征中该部分超像素点的数据计算该行人检测初选框的置信度。

具体地，首先，针对每个行人检测初选框，抠取与该行人检测初选框对应的数据。如前所述，可以从待检测图像中抠取。如是，则根据行人检测初选框的位置获得一个来自待检测图像的小矩阵。此外，还可以从待检测图像的图像特征中抠取。如是，则可以根据行人检测初选框在待检测图像中的位置获得一个来自图像特征的小的张量。该小的张量的频道个数仍然为c，其位置、宽度和高度分别与该行人检测初选框的位置、宽度和高度相对应。然后，利用与行人检测初选框对应的数据，基于打分神经网络计算该行人检测初选框的置信度。

因为在步骤S422中，仅利用与行人检测初选框对应的数据来计算该行人检测初选框的置信度，所以该置信度能够更准确地反映行人检测初选框中包括行人的概率。因此，步骤S422能够获得更准确的前景打分，从而更精确地进行人脸检测。

本领域普通技术人员可以理解，如果步骤S420中包括步骤S422，那么在步骤S423中，确定行人检测框时，根据步骤S422所计算的置信度来确定。

图8示出了根据本发明的实施例的步骤S430的示意性流程图。步骤S430中在行人检测框中进行人头检测可以进一步包括以下步骤。

步骤S431，基于第一检测模型，利用与行人检测框对应的数据确定所述行人检测框与其中的人头检测框的宽度比例、高度比例和中心偏移。

对于每个行人检测框，抠取与行人检测框对应的数据。与前面所述的与行人检测初选框对应的数据类似的，可以从待检测图像中抠取。由此，该与行人检测框对应的数据是来自待检测图像的与之对应的小矩阵。此外，还可以从待检测图像的图像特征中抠取。由此，该与行人检测框对应的数据是来自图像特征的与之对应的小张量。参见上面的描述，本领域普通技术人员可以理解该抠取过程。

基于第一检测模型，利用抠取所获得的与行人检测框对应的数据，确定行人检测框和人头检测框的各个数据之间的关系。例如行人检测框和人头检测框的宽度比和高度比。由此，可以确定人头检测框的尺寸。又例如。行人检测框和人头检测框的中心偏移，即人头检测框的中心相对于行人检测框的中心的偏移。由此，可以确定人头检测框在待检测图像中的位置。

可以理解，第一检测模型可以是快速区域卷积神经网络检测器、关键区域检测网络检测器和提升树检测器等。

步骤S432，基于所述宽度比例、所述高度比例和所述中心偏移确定所述人头检测框。

因为行人检测框的尺寸和位置是已知的，所以基于行人检测框与其中的人头检测框宽度比例、高度比例和中心偏移即可最终确定行人检测框中的人头检测框。

上述确定行人检测框中的人头检测框的方式准确度高，计算量小。

可选地，在上述用于行人检测的方法中还可以包括利用训练输入数据和对应的标注内容训练前述第一检测模型、第二检测模型和/或打分神经网络。

如前所述，第一检测模型可以是快速区域卷积神经网络。下面以其为例来描述该第一检测模型的训练过程。首先，接收训练输入数据，例如训练图像。训练图像是其中已经标注了的行人检测框和人头检测框的图像。然后，利用所接收的训练图像训练初始神经网络，以获得上述快速区域卷积神经网络。初始神经网络的参数可以进行随机初始化，也可以利用之前已经训练好的网络进行初始化，例如VGG，GoogleLeNet等。对于这些训练好的网络，可以选取其中的某些部分作为本发明的快速区域卷积神经网络的一部分，也可以固定其中的一部分参数不参与训练。快速区域卷积神经网络中的每个卷积单元的参数可以在训练过程中通过反向传播算法优化得到。

第二检测模型和打分神经网络的训练过程与上述第一检测模型的训练过程类似。第二检测模型的训练输入数据中标注了存在行人的行人检测框。打分神经网络的训练输入数据中标注了行人检测框以及所述行人检测框的置信度。

为了简洁，不再详细描述第二检测模型和打分神经网络的训练过程。

利用了训练的方式来获得第一检测模型、第二检测模型和/或打分神经网络。这可以获得可靠性和实用性更强的神经网络，由此保证行人检测的准确性。

图9示出了根据本发明的实施例的步骤S440后处理的示意性流程图。该后处理操作中，可以综合考虑行人检测框和行人检测框中的人头检测框对行人检测框进行筛选，并将最终筛选结果作为行人检测结果。步骤S440的后处理可以进一步包括以下步骤。

步骤S441，确定有重叠部分的两个行人检测框的重叠率，以作为第一重叠率。

在一个示例中，针对所有的行人检测框，两两计算其重叠率。可以理解，在此示例中，计算了任意两个行人检测框的重叠率，包括有重叠部分的行人检测框和没有重叠部分的行人检测框。如果两个行人检测框的重叠率非零，则这两个行人检测框存在重叠部分。存储这两个行人检测框以及其重叠率，以作为第一重叠率。在另一个示例中，首先，根据行人检测框的位置坐标判断两个行人检测框是否存在重叠部分。换言之，首先确定有重叠部分的两个行人检测框。然后，仅针对有重叠部分的行人检测框，计算重叠率。

可选地，重叠率可以用交并比(inter-section-over-union，简写为IoU)来表示，即两个行人检测框的交集的面积除以该两个行人检测框的并集的面积所获得的商。

步骤S442，确定有重叠部分的两个行人检测框中的两个人头检测框的重叠率，以作为第二重叠率。对于步骤S441中的有重叠部分的两个行人检测框，计算其中的人头检测框之间的重叠率。

步骤S443，根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余。一般而言，当两个行人检测框中的人为同一个时，两个行人检测框中存在冗余。然而，希望在行人检测结果中只存在一个行人检测框来标识该人。另一个行人检测框是冗余的，应该在行人检测的过程中丢弃掉。根据本发明一个示例，综合考虑第一重叠率和第二重叠率来确定该两个行人检测框中是否存在冗余。对于第一重叠率和第二重叠率较高的情况，认为该两个行人检测框中存在冗余。

根据本发明一个示例，首先，计算第一重叠率IoU(b1,b2)和第二重叠率IoU(h1,h2)的加权和，其中b1和b2分别表示第一行人检测框和第二行人检测框，h1和h2分别表示第一行人检测框中的人头检测框和第二行人检测框中的人头检测框。关于第一重叠率和第二重叠率的权重，可以根据图像中行人的密度进行设置。可选地，图像中行人较密集的情况中，后者的权重设置得更大些；图像中行人较稀疏的情况中，后者的权重设置得更小些。然后，比较所述加权和和预设重叠阈值。该预设重叠阈值可以是事先根据图像中的行人密度设置的。最后，对于所述加权和大于所述重叠阈值的情况，确定所述两个行人检测框中存在冗余。

步骤S444，对于所述两个行人检测框中存在冗余的情况，根据所述两个行人检测框的置信度筛选出所述两个行人检测框中的一个，将所述两个行人检测框中的另一个丢弃。换言之，筛选出两个行人检测框中置信度较高的一个，作为行人检测结果之一，将置信度较低的另一个丢弃。可以理解，这里的置信度可以是上文中步骤S422中确定的。如果方法400中没有执行步骤S422，这里的置信度还可以是步骤S421中确定的。

在上述步骤S440的实现方式中，综合考虑了行人检测框的重叠率和行人检测框中的人头检测框的重叠率，使得行人检测的结果更准确。

在一个示例中，一共有三个行人检测框：行人检测框b1、行人检测框b2和行人检测框b3。分别计算IoU(b1,b2)、IoU(b1,b3)和IoU(b2,b3)。针对这三个行人检测框中的人头检测框h1、h2和h3，分别计算IoU(h1,h2)、IoU(h1,h3)和IoU(h2,h3)。

根据IoU(b1,b2)和IoU(h1,h2)，确定行人检测框b1和行人检测框b2之间存在冗余。根据行人检测框b1和行人检测框b2的置信度，将行人检测框b2丢弃，保留行人检测框b1。

根据IoU(b1,b3)和IoU(h1,h3)，确定行人检测框b1和行人检测框b3之间存在冗余。根据行人检测框b1和行人检测框b3的置信度，将行人检测框b1丢弃，保留行人检测框b3。

根据IoU(b2,b3)和IoU(h2,h3)，确定行人检测框b2和行人检测框b3之间不存在冗余。因此，在该示例中，行人检测结果为行人检测框b3。

本领域普通技术人员可以理解，上述实施例中步骤S440所给出的实现方式仅是示意性的，而非限制，还可以采用其他方式实现步骤S440。例如可以不计算行人检测框之间的重叠率。直接计算人头检测框之间的重叠率，即第二重叠率。然后，对于第二重叠率高于重叠率阈值的情况，将所涉及的人头检测框所在的行人检测框视为存在冗余。最后，根据该行人检测框的置信度，从中筛选出置信度较高的行人检测框作为行人检测结果，置信度较低的行人检测框丢弃。

可选地，在步骤S441之前，步骤S440还包括以下步骤。

首先，根据行人检测框的置信度对现有的行人检测框进行排序。可以理解，在方法400刚刚执行到步骤S440时，现有的行人检测框是步骤S420检测出来的所有的行人检测框。对于方法400中已经执行了一次或数次行人检测框的筛选操作的情况，现有的行人检测框不包括之前已经丢弃的行人检测框，仅仅包括之前的筛选操作保留下来的行人检测框。可以理解，这里的置信度可以是上文中步骤S422中确定的。如果方法400中没有执行步骤S422，这里的置信度还可以是步骤S421中确定的。

然后，针对经排序的行人检测框，从置信度最高的行人检测框开始依次确定所述有重叠部分的两个行人检测框。确定了有重叠部分的两个行人检测框之后，针对所确定的两个行人检测框执行上述步骤S441至步骤S444。

在一个示例中，一共有三个行人检测框，将其按照置信度排序后，其依次为行人检测框b3、行人检测框b1和行人检测框b2，其中的人头检测框分别为h3、h1和h2。

在该示例中，首先考虑的两个行人检测框是行人检测框b3和行人检测框b1。计算IoU(b1,b3)和IoU(h1,h3)。根据IoU(b1,b3)和IoU(h1,h3)，确定行人检测框b1和行人检测框b3之间存在冗余。根据行人检测框b1和行人检测框b3的置信度，将行人检测框b1丢弃，保留行人检测框b3。

当前，现有的行人检测框为行人检测框b2和行人检测框b3。将这两个行人检测框进行排序获得行人检测框b3和行人检测框b2。根据IoU(b2,b3)和IoU(h2,h3)，确定行人检测框b2和行人检测框b3之间不存在冗余。因此，在该示例中，行人检测结果为行人检测框b2和行人检测框b3。

首先对现有的行人检测框根据其置信度进行排序，然后针对经排序的行人检测框进行筛选。这样，避免了行人检测框的误删，保证了行人检测结果的准确率。

根据本发明另一方面，还提供了一种用于行人检测的装置。图10示出了根据本发明一个实施例的用于行人检测的装置1000的示意性框图。

如图10所示，装置1000包括图像获取模块1010、行人检测模块1020、人头检测模块1030和后处理模块1040。所述各个模块可分别执行上文中所述的用于行人检测的方法的各个步骤/功能。以下仅对该装置1000的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

图像获取模块1010用于获取待检测图像。图像获取模块1010可以由图3所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

行人检测模块1020用于对所述待检测图像进行行人检测，以获得行人检测框，其中所述行人检测框用于指示所述待检测图像中可能包括行人的区域。行人检测模块1020可以由图3所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

人头检测模块1030用于在所述行人检测框中进行人头检测，以获得人头检测框，其中所述人头检测框用于指示所述行人检测框中可能包括人头的区域。人头检测模块1030可以由图3所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

后处理模块1040用于根据所述人头检测框筛选所述行人检测框，并且将最终筛选结果作为行人检测结果。后处理模块1040可以由图3所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

根据本发明实施例，所述装置1000还包括特征提取模块(未示出)，用于提取所述待检测图像的图像特征。在所述装置1000中，所述对所述待检测图像进行行人检测和/或所述在所述行人检测框中进行人头检测是直接利用所述图像特征。特征提取模块可以由图3所示的电子设备中的处理器302运行存储装置304中存储的程序指令来实现。

示例性地，所述特征提取模块提取所述待检测图像的图像特征是基于以下模型中的一个：卷积神经网络特征提取器、尺度无关特征变换特征提取器和方向梯度直方图特征提取器。

根据本发明实施例，所述行人检测模块1020包括行人检测单元、置信度计算单元和行人检测框选定单元。所述行人检测单元用于基于第二检测模型，确定所述待检测图像中的行人检测初选框。所述置信度计算单元用于基于打分神经网络，利用与所述行人检测初选框对应的数据计算所述行人检测初选框的置信度。所述行人检测框选定单元用于确定预定个数的、置信度最高的行人检测初选框为所述行人检测框。

根据本发明实施例，所述人头检测模块1030包括人头检测单元和人头检测框确定单元。所述人头检测单元用于基于第一检测模型，利用与所述行人检测框对应的数据确定所述行人检测框与所述人头检测框的宽度比例、高度比例和中心偏移。所述人头检测框确定单元用于基于所述宽度比例、所述高度比例和所述中心偏移确定所述人头检测框。

示例性地，所述第一检测模型是快速区域卷积神经网络、关键区域检测网络或提升树。

根据本发明实施例，所述装置1000还包括训练模块，用于利用训练输入数据和对应的标注内容训练所述第一检测模型、所述第二检测模型和/或所述打分神经网络。

根据本发明实施例，所述后处理模块包括第一重叠率确定单元、第二重叠率确定单元、冗余确定单元和筛选单元。所述第一重叠率确定单元用于确定有重叠部分的两个行人检测框的重叠率，以作为第一重叠率。所述第二重叠率确定单元用于确定所述两个行人检测框中的两个人头检测框的重叠率，以作为第二重叠率。所述冗余确定单元用于根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余。所述筛选单元用于对于所述两个行人检测框中存在冗余的情况，根据所述两个行人检测框的置信度筛选出所述两个行人检测框中的一个，将所述两个行人检测框中的另一个丢弃。

示例性地，所述冗余确定单元包括计算子单元、比较子单元和冗余确定子单元。所述计算子单元用于计算所述第一重叠率和所述第二重叠率的加权和。所述比较子单元用于比较所述加权和和重叠阈值。所述冗余确定子单元用于对于所述加权和大于所述重叠阈值的情况，确定所述两个行人检测框中存在冗余。

示例性地，所述后处理模块还包括排序单元和确定有重叠行人检测框单元。所述排序单元用于在所述确定有重叠部分的两个行人检测框的重叠率之前，根据所述行人检测框的置信度对现有的行人检测框进行排序。所述确定有重叠行人检测框单元用于针对经排序的行人检测框，从置信度最高的行人检测框开始依次确定所述有重叠部分的两个行人检测框。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图11示出了根据本发明一个实施例的用于行人检测的系统1100的示意性框图。如图11所示，系统1100包括输入装置1110、存储装置1120、处理器1130以及输出装置1140。

所述输入装置1110用于接收用户所输入的操作指令以及采集数据。输入装置1110可以包括键盘、鼠标、麦克风、触摸屏和图像采集装置等中的一个或多个。

所述存储装置1120存储用于实现根据本发明实施例的用于行人检测的方法中的相应步骤的计算机程序指令。

所述处理器1130用于运行所述存储装置1120中存储的计算机程序指令，以执行根据本发明实施例的用于行人检测的方法的相应步骤，并且用于实现根据本发明实施例的用于行人检测的装置中的图像获取模块1010、行人检测模块1020、人头检测模块1030和后处理模块1040。

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述系统1100执行以下步骤：

获取待检测图像；

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述系统1100还执行以下步骤：提取所述待检测图像的图像特征；其中，所述对所述待检测图像进行行人检测和/或所述在所述行人检测框中进行人头检测是直接利用所述图像特征。

示例性地，所述提取所述待检测图像的图像特征是基于以下模型中的一个：卷积神经网络特征提取器、尺度无关特征变换特征提取器和方向梯度直方图特征提取器。

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述系统1100执行的所述对待检测图像进行行人检测的步骤包括：

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述系统1100执行的所述在所述行人检测框中进行人头检测的步骤包括：

基于第一检测模型，利用与所述行人检测框对应的数据确定所述行人检测框与所述人头检测框的宽度比例、高度比例和中心偏移；以及

基于所述宽度比例、所述高度比例和所述中心偏移确定所述人头检测框。

示例性地，在所述计算机程序指令被所述处理器1130运行时使所述系统1100还执行以下步骤：利用训练输入数据和对应的标注内容训练所述第一检测模型、第二检测模型和/打分神经网络。

在一个实施例中，在所述计算机程序指令被所述处理器1130运行时使所述系统1100执行的所述根据所述人头检测框筛选所述行人检测框的步骤包括：

示例性地，在所述计算机程序指令被所述处理器1130运行时使所述系统1100执行的所述根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余的步骤包括：

计算所述第一重叠率和所述第二重叠率的加权和；

比较所述加权和和重叠阈值；以及

对于所述加权和大于所述重叠阈值的情况，确定所述两个行人检测框中存在冗余。

示例性地，在所述计算机程序指令被所述处理器1130运行时使所述系统1100执行所述确定有重叠部分的两个行人检测框的重叠率之前，所述系统1100执行的所述根据所述人头检测框筛选所述行人检测框的步骤还包括：

此外，根据本发明再一方面，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时使得所述计算机或处理器执行本发明实施例的用于行人检测的方法的相应步骤，并且用于实现根据本发明实施例的用于行人检测的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。

在一个实施例中，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行以下步骤：

获取待检测图像；

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器还执行以下步骤：提取所述待检测图像的图像特征；

其中，所述对所述待检测图像进行行人检测和/或所述在所述行人检测框中进行人头检测是直接利用所述图像特征。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述对待检测图像进行行人检测的步骤包括：

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述在所述行人检测框中进行人头检测的步骤包括：

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器还执行以下步骤：利用训练输入数据和对应的标注内容训练所述第一检测模型、第二检测模型和/或打分神经网络。

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述根据所述人头检测框筛选所述行人检测框的步骤包括：

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行的所述根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余的步骤包括：

计算所述第一重叠率和所述第二重叠率的加权和；

比较所述加权和和重叠阈值；以及

示例性地，所述计算机程序指令被计算机或处理器运行时，使得所述计算机或处理器执行所述确定有重叠部分的两个行人检测框的重叠率之前，所述计算机或处理器执行的所述根据所述人头检测框筛选所述行人检测框的步骤还包括：

根据本发明实施例的用于行人检测的系统中的各模块可以通过根据本发明实施例实施行人检测的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的用于行人检测的方法、装置、系统和存储介质，通过人头检测改善行人检测的准确性。在行人检测的基础上，引入了重叠率极低的人头检测参与后处理，能显著降低现有技术中存在的漏检问题。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于行人检测的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于行人检测的方法，包括：

获取待检测图像；

根据所述人头检测框之间的重叠区域筛选所述行人检测框，并且将最终筛选结果作为行人检测结果。

2.如权利要求1所述的方法，其中，所述对所述待检测图像进行行人检测还获得所述行人检测框的置信度，

所述根据所述人头检测框之间的重叠区域筛选所述行人检测框包括：

3.如权利要求2所述的方法，其中，所述根据所述第一重叠率和所述第二重叠率确定所述两个行人检测框中是否存在冗余包括：

计算所述第一重叠率和所述第二重叠率的加权和；

比较所述加权和和重叠阈值；以及

4.如权利要求2或3所述的方法，其中，在所述确定有重叠部分的两个行人检测框的重叠率之前，所述根据所述人头检测框之间的重叠区域筛选所述行人检测框还包括：

5.如权利要求1至3任一项所述的方法，其中，所述方法还包括：

提取所述待检测图像的图像特征；

直接利用所述图像特征在所述行人检测框中进行人头检测。

6.如权利要求5所述的方法，其中，所述提取所述待检测图像的图像特征是基于以下模型中的一个：卷积神经网络特征提取器、尺度无关特征变换特征提取器和方向梯度直方图特征提取器。

7.如权利要求1至3任一项所述的方法，其中，所述在所述行人检测框中进行人头检测包括：

8.如权利要求7所述的方法，其中，所述第一检测模型是快速区域卷积神经网络、关键区域检测网络或提升树。

9.如权利要求7所述的方法，其中，所述方法还包括：

利用训练输入数据和对应的标注内容训练所述第一检测模型。

10.如权利要求1至3任一项所述的方法，其中，所述对待检测图像进行行人检测包括：

11.一种用于行人检测的装置，包括：

图像获取模块，用于获取待检测图像；

后处理模块，用于根据所述人头检测框之间的重叠区域筛选所述行人检测框，并且将最终筛选结果作为行人检测结果。

12.一种用于行人检测的系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取待检测图像；

13.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取待检测图像；