CN111695491A

CN111695491A - 用于检测行人的方法和装置

Info

Publication number: CN111695491A
Application number: CN202010523215.7A
Authority: CN
Inventors: 张上鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-22
Anticipated expiration: 2040-06-10
Also published as: CN111695491B; JP7269979B2; KR20210042859A; JP2021192224A

Abstract

本申请实施例公开了用于检测行人的方法和装置，涉及行人检测领域。上述方法的一具体实施方式包括：获取目标图像；对目标图像进行剪裁处理，得到第一剪裁图像；提取第一剪裁图像的特征，得到特征图；对特征图进行剪裁处理，得到第二剪裁图像；识别第二剪裁图像中的行人，得到行人的检测结果。该实施方式减少了图像的计算量，降低了对计算资源的使用量，能够更方便的落地在硬件水平较低的移动端。

Description

用于检测行人的方法和装置

技术领域

本申请实施例涉及计算机技术领域，尤其涉及自动驾驶领域，具体涉及用于检测行人的方法和装置。

背景技术

随着行人检测算法准确度的不断进步以及车机端对小计算量的行人检测的迫切需求，有越来越多的行人检测算法置于移动端。这些移动端的硬件水平较低，计算能力较差。由于目前效果较好的行人检测算法都是使用深度学习技术，深度学习算法往往需要大量的计算资源。这些深度学习算法往往不能在硬件水平较低的移动端运行。

发明内容

本申请实施例提出了用于检测行人的方法和装置。

根据第一方面，提供了一种用于检测行人的方法，包括：获取目标图像；对上述目标图像进行剪裁处理，得到第一剪裁图像；提取上述第一剪裁图像的特征，得到特征图；对上述特征图进行剪裁处理，得到第二剪裁图像；识别上述第二剪裁图像中的行人，得到行人的检测结果。

根据第二方面，提供了一种用于检测行人的装置，包括：图像获取单元，被配置成获取目标图像；第一剪裁单元，被配置成对上述目标图像进行剪裁处理，得到第一剪裁图像；特征提取单元，被配置成提取上述第一剪裁图像的特征，得到特征图；第二剪裁单元，被配置成对上述特征图进行剪裁处理，得到第二剪裁图像；行人检测单元，被配置成识别上述第二剪裁图像中的行人，得到行人的检测结果。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现如第一方面任一实施例所描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面任一实施例所描述的方法。

根据本申请的技术解决了现有的行人检测算法计算量大的问题，通过对目标图像进行剪裁处理，减少了图像的计算量，降低了对计算资源的使用量，能够更方便的落地在硬件水平较低的移动端。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于检测行人的方法的一个实施例的流程图；

图3是根据图2所示的第一实施例的应用场景的示意图；

图4是根据本申请的用于检测行人的方法的一个实施例的流程图；

图5是根据本申请的用于检测行人的装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于检测行人的方法或用于检测行人的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103和图像采集装置104。图像采集装置104与终端设备101、102、103之间通过网络通信连接，网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以通过网络接收图像采集装置104采集的图像，并对图像进行处理。图像采集装置104可以安装在终端设备101、102、103上。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏并且支持图像处理的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

图像采集装置104可以是各种用于采集图像的设备，如照相机、摄像机等。图像采集装置104可以将采集的图像实时传输给终端设备101、102、103。

需要说明的是，本申请实施例所提供的用于检测行人的方法可以由终端设备101、102、103执行，也可以由图像采集装置104执行。相应地，用于检测行人的装置一般可以设置于终端设备101、102、103，也可以设置于图像采集装置104中。

应该理解，图1中的终端设备和图像采集装置的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备和图像采集装置。

继续参考图2，示出了根据本申请的用于检测行人的方法的一个实施例的流程200。本实施例的用于检测行人的方法，包括以下步骤：

步骤201，获取目标图像。

在本实施例中，用于检测行人的方法的执行主体(例如图1所示的终端设备101、102、103或图像采集装置104)可以通过有线连接方式或者无线连接方式获取目标图像。这里，目标图像可以是包括行人的任意图像。

步骤202，对目标图像进行剪裁处理，得到第一剪裁图像。

执行主体在得到目标图像后，可以对图像进行剪裁处理，得到第一剪裁图像。具体的，执行主体可以裁剪上方的部分区域，得到第一剪裁图像。或者，执行主体还可以将目标图像剪裁至预设尺寸，得到第一剪裁图像。可以理解的是，执行主体剪裁掉的部分可以不包括有效的行人信息，即剪裁掉的部分包括行走在天桥上的行人。则第一剪裁图像中包括的是有效行人信息。

步骤203，提取第一剪裁图像的特征，得到特征图。

执行主体在得到第一剪裁图像后，执行主体可以提取第一剪裁图像的特征，得到特征图。具体的，执行主体可以采用多种特征提取算法对第一剪裁图像进行特征提取，得到特征图。上述特征提取算法可以包括卷积神经网络等等。上述特征图中可以包括有效的行人的信息，例如行人的轮廓、位置、中心等信息。

步骤204，对特征图进行剪裁处理，得到第二剪裁图像。

执行主体在得到特征图后，可以对特征图进行剪裁处理，可以得到第二剪裁图像。可以理解的是，经过步骤203的特征提取后，特征图中已经包括行人的部分信息，也就是说包括了行人检测的必要信息。在此基础上，为了进一步减少计算量，可以对特征图进行进一步剪裁处理，得到第二剪裁图像。在这里，执行主体可以剪裁特征图上方的部分区域。或者执行主体可以将特征图裁剪至预设尺寸。

步骤205，识别第二剪裁图像中的行人，得到行人的检测结果。

在得到第二剪裁图像后，执行主体可以对第二剪裁图像进行行人检测，得到行人的检测结果。具体的，执行主体可以利用各种行人检测算法对第二剪裁图像进行处理，得到行人的检测结果。上述行人检测算法可以包括各种神经网络。

本申请的上述实施例提供的用于检测行人的方法，可以对目标图像进行多次剪裁，同时还可以提取行人的特征，减小计算量的同时，还可以保证行人检测的正确性。

继续参见图3，其示出了根据本申请的用于检测行人的方法的另一个实施例的流程300。如图3所示，本实施例的方法可以包括以下步骤：

步骤301，将车辆上安装的行车记录仪采集的图像作为目标图像。

执行主体可以获取车辆上安装的行车记录仪采集的图像，并将上述图像作为目标图像。上述图像中可以包括车辆的行车环境的信息。可以理解的是，行车记录仪的安装位置较低，其采集的图像可以包括天桥信息，上述天桥上可能包括行人。上述行人不会影响车辆的行驶，因此不必对上述行人进行检测。

步骤302，剪裁目标图像上方的预设比例的区域，得到第一剪裁图像。

本实施例中，执行主体可以对剪裁目标图像上方的预设比例的区域，得到第一剪裁图像。上述预设比例可以由图像中包括的内容来确定。具体的，执行主体可以识别目标图像中的各对象，将距离车辆预设距离之外的区域所包括的对象裁剪掉。举例来说，执行主体可以将车辆前方50米之外的区域裁减掉。上述区域位于目标图像的上方。在一些具体的应用中，上述预设比例可以为四分之一。

步骤303，提取第一剪裁图像的特征，在提取过程中对第一剪裁图像进行剪裁处理，得到特征图。

本实施例中，执行主体在得到第一剪裁图像后，可以提取第一剪裁图像进行特征提取，并在提取的过程中对第一剪裁图像进行剪裁处理，得到特征图。具体的，执行主体可以采用特征提取算法对第一剪裁图像进行特征提取后，得到中间特征图。然后，执行主体可以剪裁得到的中间特征图。然后，执行主体再采用特征提取算法对剪裁后的中间特征图进行再次特征提取，再次得到中间特征图。执行主体可以再次对得到的中间特征图进行剪裁，得到特征图。可以理解的是，执行主体可以多次提取第一剪裁图像的特征，也可以对得到的特征图进行多次剪裁，得到特征图。这样，可以保证不会剪裁掉行人的有效特征。

在本实施例的一些可选的实现方式中，执行主体可以通过图3中未示出的以下步骤来得到特征图：对第一剪裁图像进行至少两次卷积运算；在至少一次卷积运算后，对得到的特征图进行至少一次剪裁处理，得到特征图。

本实现方式中，执行主体可以采用至少两个卷积层来对第一剪裁图像进行特征提取。执行主体可以利用上述至少两个卷积层对第一剪裁图像进行至少两次卷积运算。可以理解的是，每次进行卷积运算后，都可以得到中间特征图。在进行至少一次卷积运算后，对得到的中间特征图进行至少一次剪裁处理。具体的，执行主体可以在进行两次卷积运算后，对得到的中间特征图进行一次剪裁处理。例如，裁剪掉中间特征图上方的九分之一区域。或者，执行主体可以在进行一次卷积运算后，剪裁掉中间特征图上方的十八分之一区域。然后对剪裁后的中间特征图进行再次卷积运算，再次得到中间特征图。并对上述中间特征图再次进行剪裁，即再次剪裁掉中间特征图上方的十八分之一区域。

由于行人的中心一般位于目标图像的中下方，由于提取了行人的特征，则可以对得到的中间特征图的上方区域进行剪裁。这样，可以保证不会剪裁掉行人的有效特征。

步骤304，对特征图进行剪裁处理，得到第二剪裁图像。

在得到特征图后，执行主体可以对得到的特征图进行剪裁处理。由于特征图已经包括了行人的中心位置信息。此时，再次对特征图进行剪裁处理，并不会影响行人的检测结果。为了减少计算量，则可以剪裁掉特征图上方的部分区域。在一些具体的应用中，上述部分区域可以为四分之一区域。

在本实施例的一些可选的实现方式中，上述第二剪裁图像的尺寸大于或等于目标图像尺寸的二分之一。

本实现方式中，为了减少行人检测的计算量，同时保证行人检测的准确性，设置第二剪裁图像的尺寸大于或等于目标图像尺寸的二分之一。

步骤305，识别第二剪裁图像中的行人，得到行人的检测结果。

继续参见图4，图4是根据本实施例的用于检测行人的方法的一个应用场景的示意图。在图4的应用场景中，自动驾驶车辆中安装了行车记录仪401，行车记录仪401可以将采集的图像发送给自动驾驶车辆的车载电脑402。上述车载电脑402可以通过上述实施例进行行人检测，得到行人检测结果。

本申请的上述实施例提供的用于检测行人的方法，可以对行车记录仪采集的图像进行多次剪裁处理，并且尽可能的提取包括有效行人信息的特征，既保证了行人检测的准确性，也减少了行人检测的计算量。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种用于检测行人的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的用于检测行人的装置500包括：图像获取单元501、第一剪裁单元502、特征提取单元503、第二剪裁单元504以及行人检测单元505。

图像获取单元501，被配置成获取目标图像。

第一剪裁单元502，被配置成对目标图像进行剪裁处理，得到第一剪裁图像。

特征提取单元503，被配置成提取第一剪裁图像的特征，得到特征图。

第二剪裁单元504，被配置成对特征图进行剪裁处理，得到第二剪裁图像。

行人检测单元505，被配置成识别第二剪裁图像中的行人，得到行人的检测结果。

在本实施例的一些可选的实现方式中，特征提取单元503可以进一步被配置成：提取第一剪裁图像的特征，在提取过程中对第一剪裁图像进行剪裁处理，得到特征图。

在本实施例的一些可选的实现方式中，特征提取单元503可以进一步被配置成：对第一剪裁图像进行至少两次卷积运算；在至少一次卷积运算后，对得到的特征图进行至少一次剪裁处理，得到特征图。

在本实施例的一些可选的实现方式中，图像获取单元501可以进一步被配置成：将车辆上安装的行车记录仪采集的图像作为目标图像。

在本实施例的一些可选的实现方式中，第一剪裁单元502进一步被配置成：剪裁目标图像上方的预设比例的区域，得到第一剪裁图像。

在本实施例的一些可选的实现方式中，第二剪裁图像的尺寸大于或等于目标图像尺寸的二分之一。

应当理解，用于检测行人的装置500中记载的单元501至单元505分别与参考图2中描述的方法中的各个步骤相对应。由此，上文针对用于检测行人的方法描述的操作和特征同样适用于装置500及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的用于检测行人的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线603互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线603与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器602存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的用于检测行人的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于检测行人的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于检测行人的方法对应的程序指令/单元(例如，附图5所示的图像获取单元501、第一剪裁单元502、特征提取单元503、第二剪裁单元504以及行人检测单元505)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于检测行人的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行用于检测行人的方法的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至执行用于检测行人的方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行用于检测行人的方法的电子设备还可以包括：输入装置604和输出装置605。处理器601、存储器602、输入装置604和输出装置605可以通过总线603或者其他方式连接，图6中以通过总线603连接为例。

输入装置604可接收输入的数字或字符信息，以及产生与执行用于检测行人的方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置605可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于检测行人的方法，包括：

获取目标图像；

对所述目标图像进行剪裁处理，得到第一剪裁图像；

提取所述第一剪裁图像的特征，得到特征图；

对所述特征图进行剪裁处理，得到第二剪裁图像；

识别所述第二剪裁图像中的行人，得到行人的检测结果。

2.根据权利要求1所述的方法，其中，所述提取所述第一剪裁图像的特征，得到特征图，包括：

提取所述第一剪裁图像的特征，在提取过程中对所述第一剪裁图像进行剪裁处理，得到所述特征图。

3.根据权利要求2所述的方法，其中，所述提取所述第一剪裁图像的特征，在提取过程中对所述第一剪裁图像进行剪裁处理，得到所述特征图，包括：

对所述第一剪裁图像进行至少两次卷积运算；

在至少一次卷积运算后，对得到的特征图进行至少一次剪裁处理，得到所述特征图。

4.根据权利要求1所述的方法，其中，所述获取目标图像，包括：

将车辆上安装的行车记录仪采集的图像作为目标图像。

5.根据权利要求1所述的方法，其中，所述对所述目标图像进行剪裁处理，得到第一剪裁图像，包括：

剪裁所述目标图像上方的预设比例的区域，得到所述第一剪裁图像。

6.根据权利要求1所述的方法，其中，所述第二剪裁图像的尺寸大于或等于所述目标图像尺寸的二分之一。

7.一种用于检测行人的装置，包括：

图像获取单元，被配置成获取目标图像；

第一剪裁单元，被配置成对所述目标图像进行剪裁处理，得到第一剪裁图像；

特征提取单元，被配置成提取所述第一剪裁图像的特征，得到特征图；

第二剪裁单元，被配置成对所述特征图进行剪裁处理，得到第二剪裁图像；

行人检测单元，被配置成识别所述第二剪裁图像中的行人，得到行人的检测结果。

8.根据权利要求7所述的装置，其中，所述特征提取单元进一步被配置成：

9.根据权利要求8所述的装置，其中，所述特征提取单元进一步被配置成：

对所述第一剪裁图像进行至少两次卷积运算；

10.根据权利要求7所述的装置，其中，所述图像获取单元进一步被配置成：

将车辆上安装的行车记录仪采集的图像作为目标图像。

11.根据权利要求7所述的装置，其中，所述第一剪裁单元进一步被配置成：

12.根据权利要求7所述的装置，其中，所述第二剪裁图像的尺寸大于或等于所述目标图像尺寸的二分之一。

13.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-6中任一所述的方法。