CN107220581A

CN107220581A - 通过后置摄像机的行人检测和运动预测

Info

Publication number: CN107220581A
Application number: CN201710152991.9A
Authority: CN
Inventors: 斯科特·文森特·迈尔斯; 温卡塔帕斯·拉居·纳尔帕; 维迪亚·那利亚姆布特·穆拉里; 玛德琳·J·吴
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-03-21
Filing date: 2017-03-15
Publication date: 2017-09-29
Anticipated expiration: 2037-03-15
Also published as: MX2017003588A; CN107220581B; GB201704231D0; GB2550262A; US20170270374A1; DE102017105903A1; US10055652B2; RU2017109073A

Abstract

本文公开了用于行人检测的系统、方法和装置。一种方法包括从车辆上的后置摄像机接收一个或多个图像。该方法进一步包括确定行人存在于该一个或多个图像中、预测行人的未来运动、以及当车辆的向前运动和行人的预测的未来运动之间存在冲突时通知驾驶员辅助或自动驾驶系统。

Description

通过后置摄像机的行人检测和运动预测

技术领域

本发明总体上涉及用于自动驾驶或用于辅助驾驶员的方法、系统和装置，并且更具体地涉及用于使用机器学习和后置摄像机来检测一个或多个行人的方法、系统和装置。

背景技术

机动车为商业、政府和私人实体提供了大部分的运输。自主车辆和驾驶员辅助系统当前正在被开发和部署以减少所需的用户输入量或者甚至完全消除用户参与。然而，由于涉及驾驶的危险和车辆的成本，所以自主车辆和驾驶员辅助系统安全地操作是重要的。因此，需要的是改进自主车辆和驾驶员辅助系统的安全性的系统和方法。

发明内容

根据本发明的一方面，提供一种方法，包含：

从车辆上的后置摄像机接收一个或多个图像；

通过计算机系统确定行人存在于该一个或多个图像中；

通过计算机系统基于该一个或多个图像来预测行人的未来运动；以及

当车辆的向前运动和该未来运动之间存在冲突时，通过计算机系统通知驾驶员辅助或自动驾驶系统。

根据本发明的一个实施例，其中确定包含：

通过计算机系统使用第一神经网络处理该一个或多个图像以确定该一个或多个图像内行人可能处于的一个或多个位置；并且

通过计算机系统使用第二神经网络处理该一个或多个图像的该一个或多个位置以确定行人存在。

根据本发明的一个实施例，其中预测包含基于该一个或多个图像来确定行人的速度和方向。

根据本发明的一个实施例，其中预测进一步包含基于一个或多个图像来确定行人相对于车辆的位置。

根据本发明的一个实施例，其中未来运动包含在后置摄像机的视野之外的运动。

根据本发明的一个实施例，其中第一神经网络包含被训练以识别该一个或多个图像内可能包含行人的大致位置的网络。

根据本发明的一个实施例，其中第一神经网络生成显著图，显著图指示行人的最可能位置。

根据本发明的一个实施例，其中显著图包含比该一个或多个图像更低的分辨率。

根据本发明的一个实施例，其中第二神经网络以全分辨率处理该一个或多个图像内的该一个或多个位置。

根据本发明的一个实施例，其中：

后置摄像机是倒车摄像机；并且

当车辆处于前进挡时，该一个或多个图像通过倒车摄像机被捕获。

根据本发明的另一方面，提供一种用于检测行人的方法，包含：

从车辆上的后置摄像机接收一个或多个图像，一个或多个图像在车辆处于前进挡时被捕获；

通过计算机系统的第一神经网络识别该一个或多个图像以确定该一个或多个图像内行人可能处于的一个或多个区域；

通过计算机系统的第二神经网络确定行人存在于该一个或多个区域中的至少一个中；

通过计算机系统基于该一个或多个图像来预测行人的未来运动，预测的未来运动包含在后置摄像机的视野之外的运动；以及

当车辆的向前运动和该预测的未来运动之间存在冲突时，通过计算机系统通知驾驶员辅助或自动驾驶系统。

根据本发明的一个实施例，其中预测进一步包含基于该一个或多个图像来确定行人相对于车辆的位置。

根据本发明的一个实施例，其中：

第一神经网络生成指示该一个或多个区域的一个或多个显著图；

该一个或多个显著图各自包含比该一个或多个图像更低的分辨率；并且

第二神经网络以全分辨率处理该一个或多个图像内的该一个或多个区域。

根据本发明的又一方面，提供一种系统，包含：

后置摄像机，后置摄像机被定位在车辆上以捕获车辆后方区域的一个或多个图像；

显著部件，显著部件被配置为使用第一神经网络处理该一个或多个图像以生成指示该一个或多个图像内行人最可能处于的一个或多个区域的一个或多个低分辨率显著图；

检测部件，检测部件被配置为使用第二神经网络处理该一个或多个区域以针对该一个或多个区域中的每个确定行人是否存在；

预测部件，预测部件被配置为处理该一个或多个图像以预测在该一个或多个图像中捕获的一个或多个行人的未来运动；以及

通知部件，通知部件被配置为提供指示车辆的向前运动和该一个或多个行人的预测的未来运动之间的冲突的通知。

根据本发明的一个实施例，其中预测部件被配置为：

基于该一个或多个图像来确定该一个或多个行人中的每个的速度和方向；

基于该一个或多个图像来确定该一个或多个行人中的每个相对于车辆的位置；并且

至少部分地基于该一个或多个行人中的每个的速度、方向和位置来预测该一个或多个行人的未来运动。

根据本发明的一个实施例，其中该一个或多个显著图包含比该一个或多个图像更低的分辨率。

根据本发明的一个实施例，其中检测部件使用第二神经网络来以全分辨率处理该一个或多个图像内的该一个或多个区域。

根据本发明的一个实施例，其中第二神经网络包含深度神经网络分类器，深度神经网络分类器已经使用裁切的地面实况边界框来训练以确定行人存在或不存在。

根据本发明的一个实施例，其中：

后置摄像机是倒车摄像机；并且

附图说明

为了容易理解本发明的优点，将通过参照附图中所示的具体实施例来呈现上面简要描述的本发明的更具体的描述。应当理解的是，这些附图仅描述本发明的典型实施例，并且因此不应该被认为是对其范围的限制，本发明将通过使用附图用附加特征和细节进行描述和解释，其中：

图1是由车辆和行人占据的十字路口的一部分的俯视示意图；

图2是包括自动驾驶或驾驶员辅助系统的安全系统的一个实施例的示意图；

图3是示出了由车辆的后置摄像机捕获的图像的示意性示例的图示；

图4是示出了根据一个实施方式的用于图3的图像的显著图的示意性示例的图示；

图5是示出了根据一个实施方式的行人检测的示意性框图；

图6是示出根据一个实施方式的行人部件的示例部件的示意性框图；以及

图7是示出了根据一个实施方式的用于行人检测的方法的示意性框图。

具体实施方式

应当容易理解的是，如在本文的附图中总体上描述和示出的本发明的部件可以以各种各样的不同配置来设置和设计。因此，如图所示的本发明的实施例的以下更详细的描述不旨在限制所要求保护的本发明的范围，而是仅表示根据本发明目前预期的实施例的某些示例。目前描述的实施例通过参照附图将最佳地理解，其中相同的部件始终通过相同的附图标记来表示。

参照图1，用于自主驾驶和/或主动安全的视觉感知领域中的一个挑战可能是足够早地检测和预测行人以避免碰撞。这个挑战可能与交叉路口和十字路口10周围的环境特别相关。行人经常不服从交通控制信号和/或在试图穿过街道时误判情况。这种动作可能为决策过程和规避动作的实施留下非常少的时间。

例如，当车辆12在十字路口10等待(例如，等待右转)时，行人14可能从车辆12的后方或从车辆12的驾驶员的盲点进入人行横道16。因此，在驾驶员(或车辆12上的前视传感器)感知行人14之前或者在可以采取或完全实施适当的规避动作(例如制动)之前，车辆12可能与行人14碰撞。

因此，根据本发明的安全系统18可以结合在一个或多个车辆12内。安全系统18可以防止或减少这种事故的数量。在所选择的实施例中，安全系统18可以包括行人部件20和至少一个后置摄像机22。

后置摄像机22可以安装到车辆12，以便捕获车辆12后方的区域的图像。在某些实施例中，后置摄像机22可以是具有宽视角24的倒车摄像机等等。例如，后置摄像机22可以是采用“鱼眼”透镜以提供宽视场(例如，约150度的视场)的标准倒车摄像机。在这样的实施例中，每当车辆12运行时，倒车摄像机可以“开启”并且用于行人检测的目的。然而，出于安全原因，仅当车辆12倒车(例如，处于倒车挡)时，通过倒车摄像机捕获的图像可以直接显示给车辆12的驾驶员。

行人部件20可以处理通过后置摄像机22捕获的一个或多个图像，以便确定任何行人14是否存在于那些图像中。另外，行人部件20可以使用一个或多个图像来预测在其中捕获的一个或多个行人14的未来运动26。因此，行人部件20可以在车辆12的向前运动28可能与以预测方式26行进的行人14冲突或处于碰撞航向上时进行指示(例如，提供或发起警告)。

例如，自主车辆12和/或车辆12的人类驾驶员可能具有一个或多个“盲点”。盲点可以是车辆12附近的位置，其中对于车辆12的传感器或车辆12的人类驾驶员可能难以或不可能感知行人14。因此，根据本发明的安全系统18可以使用在行人14进入盲点之前收集的信息，以预测行人14将如何在盲点中行动。

也就是说，当他或她处于后置摄像机22的视场中时(例如，当他或她接近和/或通过车辆12的后部时)收集的行人14的图像可以用来预测他或她将在不久的将来(例如，当位于车辆12的侧面在车辆12的驾驶员和/或传感器的盲点中时)如何行动。这可以每当车辆12的向前运动28可能与以预测方式26行进的行人14冲突时使车辆12能够警告驾驶员或采取规避动作。因此，根据本发明的行人部件20不需要总是具有行人14的位置的当前的实际认识，以便采取一个或多个动作来避免与该行人14的碰撞。

在所选择的实施例中，由行人部件20实施以检测行人14的方法可以包括从后置摄像机22接收图像，并且使用第一神经网络处理图像以确定图像内行人14可能位于的一个或多个位置或区域。该方法可以进一步包括使用第二神经网络处理图像的一个或多个位置或区域以确定是否行人14存在。

因此，行人部件20可以基于深度学习技术来采用两阶段计算机视觉。在第一阶段中，从后置摄像机22获取的图像的一个或多个区域被识别为更可能包括行人。第一阶段可以产生以显著图的形式的这样区域的指示。在某些实施例中，可以以低分辨率(例如，比由后置摄像机22捕获的图像的分辨率低)产生一个或多个显著图。这些低分辨率显著图可以用作对应图像的标签。

在第二阶段中，深度神经网络分类器可以确定行人14是否实际存在于在第一阶段中识别的一个或多个区域内。在所选择的实施例中，第二阶段可以使用深度神经网络分类器。在某些实施例中，卷积神经网络可以在正和负行人数据的裁切的地面实况边界框(cropped ground truth bounding box)上训练。在第一阶段中识别的图像的特定部分可以被选择并且被识别作为候选区域。这些候选区域可以被馈送到训练的深度神经网络中，训练的深度神经网络对潜在的行人进行分类。大的深度神经网络可以被配置且被训练以实现高百分比的准确度和低漏报。第一阶段神经网络和第二阶段神经网络中的一个或两个可以在现有数据集(比如加州理工学院(Caltech)行人数据集、来自车队车辆的内部数据集和/或来自相关项目的模拟数据)上训练。

在A.Angelova、A.Krizhevsky、V.Vanhoucke，标题为“用大视场深度网络的行人检测”(2015年互联网内容分级协会(ICRA)关于机器人学和自动化的电气电子工程师协会(IEEE)国际会议)中提出了行人网络检测的一个示例。由Angelova等人开发的大视场网络提出了行人检测和快速定位。然而，Angelova等人不利用定位的显著性，而是需要额外生成行人位置图像的单独的基于网格的数据集、忽略重叠网格的行人并且执行用于检测的网罩(grid enclosure)。因此，它们具有比对于主动安全应用可行所需要的行人错失率更高的行人错失率。相比之下，本发明的所选择的实施例不需要滑动窗口，并且因此消除了最先进的深度学习技术的计算上最昂贵的方面之一。

一旦检测到一个或多个行人14，可以使用状态空间估算技术(例如，粒子滤波器)来追踪它们的状态(例如，位置和速度)。例如，在所选择的实施例中，行人部件20可以基于所追踪的数据，甚至在行人14已经移出后置摄像机22的视场之后来预测一个或多个行人14的路径。这可以通过聚类和学习行人行为模式来实现。供选择地，或者除此之外，行人部件20可以采用在具有不确定意图的行人14的存在的情况下确定对象行为变化和实时路径规划的一个或多个算法。

安全系统18可以继续估算一个或多个行人14的路径，并且每当行人14的预期或预测的路线26与车辆12的路线28相交时，采取或提供足够的时间来采取适当的动作。这样的动作可以包括等待直到行人14已完全穿过十字路口10，在行人14已完全停止之后向前移动等等。以这种方式，车辆12或车辆12的驾驶员在行人14进入前置摄像机或驾驶员的视野之前可以关于行人14进行警告。因此，根据本发明的安全系统18可以使用安装在车辆12上的后置摄像机22来通知该车辆12的向前运动。

参照图2，在所选择的实施例中，根据本发明的安全系统18可以包括自动驾驶和/或驾驶员辅助系统30(以下称为“驾驶系统”30)、一个或多个传感器32、一个或多个数据存储器34、一个或多个车辆控制致动器36、一个或多个显示器38、一个或多个扬声器40、一个或多个无线通信装置42(例如，接收器、发射器或收发器)等等或者它们的组合或子组合。

驾驶系统30可以自动化、辅助或控制车辆12(比如小汽车、卡车、厢式货车、公共汽车、大型卡车、紧急车辆或用于运输人或货物的任何其他机动车)的操作。例如，驾驶系统30可以控制制动、转向、加速、灯、警报、驾驶员通知、无线电或车辆12的任何其它辅助系统中的一个或多个。供选择地，驾驶系统30可以不提供车辆12的驾驶(例如，转向、加速或制动)的任何直接控制，而是可以提供通知和警报以辅助人类驾驶员安全驾驶。在所选择的实施例中，驾驶系统30可以包括行人部件20或与行人部件20协作操作。

安全系统18可以包括一个或多个传感器32。这样的传感器32可以检测车辆12附近的一个或多个对象的存在。在所选择的实施例中，安全系统18的传感器32可以包括后置摄像机22。另外，安全系统18可以包括一个或多个其他传感器44，比如一个或多个雷达装置、激光雷达系统、一个或多个其他摄像机、全球定位系统(GPS)、一个或多个超声波装置等等或者它们的组合或子组合。

数据存储器34可以存储安全系统18或它的任何部件所需的任何数据。在所选择的实施例中，数据存储器34可以存储用于导航和安全的相关或有用的数据，比如地图数据、驾驶历史、其它数据等等或者它们的组合或子组合。

在某些实施例中，安全系统18可以包括一个或多个无线通信装置42。这样的装置42可以使安全系统18或与其对应的车辆12能够与移动或无线网络、其他车辆12、基础设施或任何其他通信系统通信。例如，一个或多个无线通信装置42可以为安全系统18提供机构以接收更新的模型或算法，以供行人部件20用于检测、定位和/或预测行人14的未来运动。

车辆控制致动器36可以实施驾驶系统30的一个或多个指令，以便控制对应车辆12的某些方面。合适的车辆控制致动器36可以包括电动马达、开关或用于控制制动器、节气门、转向器等等的其他致动器。

安全系统18可以包括一个或多个显示器38，扬声器40等等，以便促进与一个或多个人类(例如，位于对应车辆12内的人类驾驶员或乘客)的通信。显示器38可以是抬头显示器、仪表板显示器或指示器、显示屏或者可以由车辆12的驾驶员或乘客看到的任何其他视觉指示器。安全系统18的扬声器40可以形成车辆12的语音系统的一部分，或者可以是专用于提供通知给车辆12的驾驶员或乘客的独立扬声器。

应当理解的是，图1中所示的实施例仅通过示例的方式给出。在不脱离本发明的范围的情况下，其他实施例可以包括更少或附加的部件。另外，所示的部件可以组合或包括在其他部件内，而非限制。例如，行人部件20可以与驾驶系统30分离，并且数据存储器34可以被包括作为驾驶系统30的一部分和/或作为行人部件20的一部分。

参照图3，行人14可以是没有驾驶车辆12的人。例如，行人14可以包括在车辆12附近的区域中行走、跑步、就坐或躺着的人。行人14还可以包括使用人力装置(比如自行车、踏板车、滚轴溜冰鞋或轮式溜冰鞋等等)的那些。行人14可以位于道路44上或附近，比如在人行横道16中、在人行道46上、在道路44的路肩部48上等等。行人14可以在体型、形状等等方面具有显著变化。例如，儿童、青少年、老年人等等可以全部被检测或被识别为行人14。类似地，行人14可以在衣服的类型或量方面显著变化。因此，行人14对于后置摄像机22或其他传感器的外观可以是相当多变的。

图3提供图像50的示意图。图像50是可以由安装在车辆12(例如，停在十字路口10处的车辆12)上的后置摄像机22捕获的一个示例。如图所示，图像50可以包括道路44上或附近的一个或多个行人14a、14b。因此，行人部件20可以生成一个或多个边界框52a、52b或限定行人14可能位于的图像50的一个或多个子区域52a、52b。

例如，行人部件20可以生成限定图像50内用于行人14可能位于其中并且值得进一步分析或处理的每个子区域52a、52b的位置的信息。在所选择的实施例中，行人部件20可以使用已被训练的神经网络来处理图像50，以产生指示行人可能位于的区域52a、52b的显著图。

使用显著图，或者行人14可能位于的图像50的区域52a、52b的任何其它指示，行人部件20可以处理那些子区域52a、52b以将区域分类为包括或不包括行人14。在所选择的实施例中，行人部件20可以检测且定位图像50内的一个或多个行人14。例如，行人部件20可以确定第一子区域52a包括第一行人14a，并且第二子区域52b包括第二行人14b。

在某些实施例中，由后置摄像机22捕获的图像50可以不包括一个或多个行人14的全部。例如，为了实现它们预期的目的，倒车摄像机通常定向为具有向下分量。这允许他们“看见”接近对应车辆12后方的地面。因此，当后置摄像机22是倒车摄像机时，由此产生的图像50可以具有稍微向下的视点。这个视点可以导致仅在图像50中捕获一个或多个行人14的一部分。例如，一个或多个行人14的上部可以由于后置摄像机22的视点而被实际上裁剪掉。因此，即使少于全部身体的行人14存在于图像50中或在图像50中被捕获时，也可以训练行人部件20来检测和定位行人14。

类似地，在所选择的实施例中，由后置摄像机22捕获的图像50可能使一个或多个行人14的形状失真。例如，为了实现它们预期的目的，倒车摄像机通常具有非常宽的视场。这允许它们具有良好的周边视觉，但它将失真引入到所得的图像中。因此，当后置摄像机22是倒车摄像机时，在所得的图像50中捕获的对象(例如，行人14)可能在形状上失真。因此，在所选择的实施例中，即使行人14的形状在图像50中失真，也可以训练行人部件20以检测和定位行人14。

参照图4，提供可以由行人部件20产生的显著图54的一个实施例的示意图。显著图54可以操作为对应图像50的标签。例如，图4的显著图54提供图3的图像50的标签。

在所选择的实施例中，行人部件20可以处理对应于由显著图54描绘的位置56a、56b的图像50的部分，以试图检测和/或定位一个或多个行人14。在图示中，第一位置56a和第二位置56b可以分别对应于第一子区域52a和第二子区域52b。

在某些实施例中，行人部件20可以通过将显著图54与对应的图像50重叠或组合来生成已修改的图像，并且处理已修改的图像以检测行人14。例如，除了在图像50的对应部分可以至少部分地保持可见或完全不变的位置56a、56b之外，已修改的图像可以是黑色的(或一些其他颜色)。显著图54可以被放大和/或图像50可以被缩小以便具有匹配的分辨率，以使行人检测可以被执行。

在所选择的实施例中，显著图54可以具有比对应的图像50更低的分辨率。例如，显著图54可以具有标准尺寸或者可以具有以预定因素减小的分辨率。低分辨率显著图54可能仍然非常有效并且减少处理工作量或处理延迟。在这样的实施例中，行人部件20可以通过按比例放大显著图54基于对应的显著图54来处理图像50。例如，行人部件20可以处理与显着图54中的相同像素相关的对应的图像50中的多个像素。尽管图4的显著图54用黑色或白色像素示出，但是一些实施例可以生成并且使用具有灰度值的显著图54。

参照图5，在某些实施例中，根据本发明在安全系统18内的流程58可以在后置摄像机22输出图像数据60(例如，包含或限定一个或多个图像50的数据60)时开始。图像数据60可以被馈送到显著图神经网络62。显著图神经网络62可以处理图像数据60以产生显著图54和/或可能包含行人14的图像数据60的一个或多个子区域52a、52b的指示。

显著图54或可能包含行人14的图像数据60的一个或多个子区域52a、52b的其他指示连同图像数据60一起可以被馈送到行人检测神经网络64，用于分类和/或定位。例如，行人检测神经网络64可以将由显著图神经网络62识别的每个子区域52a、52b的图像数据60分类为包含或不包含行人14。另外，行人检测神经网络64可以确定图像数据60内的特定位置或区域(例如，可以识别图像50内的多个像素)，其中行人14位于该特定位置或区域中。

行人检测神经网络64可以将一个或多个行人14的存在和/或位置的指示66输出到运动预测模块68。运动预测模块68可以使用来自在一段时间内(例如，包含几秒或更少的相对短的时间段内)收集的多个图像50中的一个图像50或图像数据60，以确定以下中的一个或多个：相对于对应车辆12的行人14的位置、行人14的行进速度和行人14的行进方向。因此，运动预测模块68可以预测一个或多个行人14的未来运动26。

例如，基于相对于车辆12的估算的位置、估算的当前速度和估算的当前方向，运动预测模块68可以预测当前处于后置摄像机22的视场内(例如，当前在车辆后方)的行人14何时将到达车辆12的路径内的位置。因此，运动预测模块68可以提供行人14可能在选定时刻所处位置的认识，甚至当行人14不在对应的车辆12的任何传感器或对应的车辆12的驾驶员的视野内时。

在所选择的实施例中，运动预测模块68可以是或包括运动预测神经网络。例如，运动预测模块68可以包含被配置用于聚类集和学习行人行为模式的运动预测神经网络。供选择地，或者除此之外，运动预测神经网络可以实施在具有不确定意图的行人14的存在的情况下确定对象-行为变化和实时路径规划的算法。因此，运动预测神经网络可以在图像数据60中找到对应于做某些事情(比如减速停止、匆忙进入人行横道16、右转、左转等等)的行人14的模式。因此，运动预测模块68可以使用不止当前位置、速度和方向来预测未来运动26。

运动预测模块68可以输出对应于在图像数据60中捕获的一个或多个行人14的预测的未来运动26。在所选择的实施例中，预测的未来运动26可以被输出到通知系统70。因此，一个或多个行人14的存在、位置和/或预测的未来运动26可以由通知系统70使用以每当车辆12的向前运动28可能与以预测的方式26行进的行人14冲突或处于碰撞航向上时警告人类驾驶员或通知车辆的驾驶系统14。

参照图6，在所选择的实施例中，行人部件20可以包括感知部件72、显著部件74、检测部件76、预测部件78、通知部件80、驾驶部件82、一个或多个其他部件84等等或者它们的组合或子组合。因此，所示的部件72、74、76、78、80、82、84仅仅通过说明的方式给出，并且可以不全部包括在所有实施例中。实际上，一些实施例可以包括所示部件72、74、76、78、80、82、84中仅一个或者两个或多个的任何组合。在所选择的实施例中，示出的部件72、74、76、78、80、82、84中的一些可以位于行人部件20的外部，比如在驾驶系统30内或安全系统18内的其他地方，而不脱离本发明的范围。

感知部件72可以被配置为从后置摄像机22接收图像数据60。显著部件74可以被配置为处理从后置摄像机22接收的图像数据60，以识别行人14可能位于的位置52a、52b。在所选择的实施例中，显著部件74可以生成一个或多个图像50的显著图54。

显著部件74可以使用神经网络来处理图像数据60。例如，图像50的每个像素值可以被馈送到神经网络(例如，显著图神经网络62)中，该神经网络已被训练以识别图像50内的区域52a、52b，该区域52a、52b在与图像50的其他区域相比时可能或最可能包括行人14。在某些实施例中，这样的神经网络可以包括已被训练用于快速识别可能包括行人14的子区域52a、52b的深度卷积网络。

由这样的神经网络识别的子区域52a、52b可以是可能包括具有低水平漏报的行人14但潜在地具有更高水平的误报的区域。例如，子区域52a、52b的识别可以是过度包含的，因为一些区域可能实际上不包括行人，同时子区域的识别也具有错失行人14位于的区域的低概率。

在某些实施例中，对应于显著部件74的神经网络的输出可以是图像50的x-y坐标和限定距被包括在子区域52a、52b内的x-y坐标的距离的一个或多个距离参数。例如，距离参数可以限定图像50的矩形或椭圆形子区域52a、52b的边缘。在其他实施例中，对应于显著部件74的神经网络的输出可以是显著图54。

在所选择的实施例中，神经网络(例如，显著图神经网络62)可以被配置为以比由后置摄像机22收集的图像50或其他信息更低的分辨率操作。例如，神经网络可以处理低分辨率版本的图像50以产生显著图54。供选择地，神经网络可以处理全分辨率图像50并且产生低分辨率显著图54。在又一实施例中，用于神经网络的输入分辨率和用于显著图54的输出分辨率两者可以低于图像50的全分辨率。在这样的实施例中，低分辨率显著图54可以提供与全分辨率显著图54一样好或几乎一样好的性能，同时需要更少的计算资源和/或导致更快的处理时间。

在所选择的实施例中，神经网络(例如，显著图神经网络62)可以用图像50和地面实况来训练以识别其中行人14存在或不存在的区域。因此，神经网络和/或显著部件74的输出可以是行人位置显著图54。这不同于试图预测或指示人眼在观看图像时自然指向的位置的一些显著图，因为它特定于行人位置。识别行人14可能位于的位置可以显着地降低检测行人14所需的处理能力，因为远远小于完整的图像可能需要被处理用于对象检测或更小的神经网络可以被使用。

在某些实施例中，显著部件74可以对被识别为可能具有行人14的一个或多个位置进行优先级排序。例如，可以按照行人14存在的可能性的顺序来对位置进行优先级排序。然后可以按照优先级的顺序处理这些位置，以便于识别行人14的速度。例如，基于使用神经网络(例如，显著图神经网络62)的处理，第一区域52a可能是最可能包括行人14，并且第二区域52b可能不太可能包括行人14。通过首先搜索第一区域52a，可以显着增加行人14将更快被定位的机会。类似地，可以基于相对于由车辆12行驶的路径的位置来将一个或多个位置进行优先级排序。例如，更靠近车辆12的位置可以优先于车辆12后方更远的位置或者更远离车辆12的路径的位置。

检测部件76可以被配置为检测图像50内的行人14的存在。例如，检测部件76可以使用对象识别或任何图像处理技术来处理图像数据60以检测人类行人14。在所选择的实施例中，检测部件76可以定位图像数据60内的行人76。例如，检测部件76可以识别对应于行人14的一个或多个像素。在某些实施例中，检测部件76可以相对于车辆12(例如，相对于安装在车辆12上的后置摄像机22)定位行人14。也就是说，检测部件76可以确定后置摄像机22和行人14之间的距离和/或相对于车辆12和行人14的向前或驾驶方向的方向。

在所选择的实施例中，检测部件76可以通过处理由显著部件74识别的子区域52a、52b来检测行人14。也就是说，检测部件76可以仅处理由显著部件74识别为可能或更可能地包含行人14的图像50的区域52a、52b，而不是整体处理图像50。因此，检测部件76可以分别处理每个子区域52a、52b以确认或确定行人14在特定区域52a、52b内存在或不存在。

在某些实施例中，通过将图像50与由显著部件74限定的显著图54结合(例如，使用阈值或其他效果)生成的已修改的图像可以通过检测部件76处理以定位行人14。显著图54可以“遮蔽”、“模糊”或以其他方式隐藏不可能包括行人14的图像50的部分，同时允许其他部分通过检测部件76处理。

在所选择的实施例中，检测部件76可以被配置为使用神经网络(例如，行人检测神经网络64)处理图像50或图像50的一个或多个子部分52a、52b。用于检测行人14的神经网络可以是与由显著部件74使用的神经网络不同的神经网络。

在某些实施例中，神经网络(例如，行人检测神经网络64)可以包括深度卷积神经网络，该深度卷积神经网络已被训练来以高准确度和低漏报率检测行人14。在所选择的实施例中，检测部件76可以使用显著图54或由显著部件74生成的子区域52a、52b的其他指示来以全分辨率处理图像50或其部分。例如，检测部件76可以使用低分辨率显著图54来识别需要处理的图像50的区域52a、52b，但是然后以提高的或原始的分辨率处理那些区域52a、52b。

在某些实施例中，检测部件76可以使用神经网络(例如，行人检测神经网络64)——其已使用裁切的地面实况边界框来训练——来确定行人14是存在还是不存在。这样的神经网络可以是将图像50或图像50的一部分分类为包含行人14或不包含行人14的分类器。例如，检测部件76可以将由显著部件74识别的每个部分分类为包括或不包括行人14。

在所选择的实施例中，检测部件76可以按照优先级的顺序处理由显著部件74识别的区域52a、52b。例如，可以首先处理具有较高优先级的位置52a、52b以确定是否行人14存在。以优先级顺序的处理可以允许检测行人14时的增加的速度和防止事故、碰撞或路径规划的更快的响应时间。

预测部件78可以使用图像数据60(例如，一个或多个图像50)来确定行人14相对于对应的车辆12的位置、行人14的行进速度、或行人14的行进方向中的一个或多个和/或以特定方式推断行为的意图(例如，移动或不移动)。因此，预测部件78可以是或包括运动预测模块68。

在所选择的实施例中，预测部件78可以按照优先级的顺序预测一个或多个行人14的未来运动26。例如，可以首先处理对应于(例如，在其中识别的)具有较高优先级的位置52a、52b的行人14。按优先级顺序的处理可以允许预测行人14的未来运动26时的增加的速度和防止事故、碰撞或路径规划的更快的响应时间。

通知部件80可以被配置为提供一个或多个通知给车辆12的驾驶员或自动驾驶系统。因此，通知部件80可以是或包括通知系统70。在所选择的实施例中，通知部件80可以使用显示器38或扬声器40提供通知给驾驶员。例如，行人14的位置可以在抬头显示器上指示。在某些实施例中，来自通知部件80的通知可以包括执行操纵的指令，或者仅是行人14存在的警告，即使当行人14当前处于对应车辆12或者对应车辆12的驾驶员的盲点。

在所选择的实施例中，通知部件80可以通知驾驶员或驾驶系统30由驾驶部件82选择或建议的驾驶操纵。在其他实施例中，通知部件80可以通知驾驶员或驾驶系统30行人14的当前位置和/或预测的未来运动26，以使碰撞规避可以被执行。

驾驶部件82可以被配置为基于行人14的存在或不存在和与其对应的预测的未来运动26来选择对应车辆12的驾驶操纵。例如，基于特定行人14的预测的未来运动26，驾驶部件82可以确定对应的车辆12(例如，自主车辆12)由于与该行人14的预测的碰撞而应该等待执行右转、行进通过十字路口10等等。

参照图7，安全系统18可以支持、实现或执行根据本发明的过程86。在所选择的实施例中，当感知部件72接收(88)车辆12后方的区域的图像50时，这样的过程86可以开始。显著部件74可以使用第一神经网络来处理图像50，以识别图像50内行人14可能位于的一个或多个区域52a、52b。检测部件76然后可以使用第二神经网络处理(92)图像50的一个或多个区域52a、52b，以确定行人14是否存在于任何这样的区域52a、52b中。

如果没有检测(94)到行人14，则感知部件72可以接收(88)另一图像50，并且识别(90)和处理(92)可以被重复用于该图像50。然而，如果检测(94)到一个或多个行人14，则预测部件78可以预测(96)一个或多个行人14的未来运动26。通知部件80和/或驾驶部件82可以基于预测的运动26按需行动(98)。例如，通知部件80和/或驾驶部件82可以每当车辆12的向前运动28可能与以预测方式26行进的行人14冲突或处于碰撞航向上时根据需要或必要提供或发起车辆12的警告或控制操作。

在上述公开内容中，已经参照了附图，该附图形成本发明的一部分并且其中通过说明的方式示出了可以实践本发明的特定实施方式。应当理解的是，在不脱离本发明的范围的情况下，可以利用其他实施方式并且可以进行结构改变。说明书中对“所选择的实施例”、“某些实施例”或任何其它“实施例”、“实施例”或“实施方式”的引用表示所描述的实施例可以包括特定特征、结构或特性，但不需要每个实施例都包括那样的特定特征、结构或特性。此外，这样的短语不一定指的是相同的实施例。此外，当结合所选择的或某些实施例描述特定特征、结构或特性时，应当认为结合无论是否明确描述的其他实施例来改变这样的特征、结构或特性在本领域技术人员的知识范围内。

如本文所使用的，“自主车辆”可以是完全独立于人类驾驶员行动或操作的车辆；或者可以是在一些情况下独立于人类驾驶员行动或操作而在其他情况下人类驾驶员能够操作车辆的车辆；或者可以是主要由驾驶员操作但是在自动驾驶/辅助系统的辅助下的车辆。

本文所公开的系统、装置和方法的实施方式可以包含或利用包括计算机硬件(例如一个或多个处理器和系统存储器，如下面更详细所讨论的)的专用或通用计算机。在本发明的范围内的实施方式还可以包括用于携带或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。这样的计算机可读介质可以是可以由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。携带计算机可执行指令的计算机可读介质是传输介质。因此，通过示例的方式，并且非限制，本发明的实施方式可以包含至少两种截然不同种类的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除编程只读存储器(EEPROM)、只读光盘驱动器(CD-ROM)、固态驱动器(“SSD”)(例如基于RAM的)、闪存存储器、相变存储器(“PCM”)、其它类型的存储器、其它光盘存储器、磁盘存储器或其它磁性存储装置或可以用来存储以计算机可执行指令或数据结构的形式的期望的程序代码并且可以由通用或专用计算机访问的任何其它介质。

本文所公开的装置、系统和方法的实施方式可以通过计算机网络通信，该计算机网络包含使电子数据能够在计算机系统和/或模块和/或其他电子装置之间传输的一个或多个数据链路。当信息通过计算机网络或另一通信连接(硬连线、无线或硬连线或无线的组合)传送或提供给计算机时，计算机适当地将该连接视为传输介质。传输介质可以包括计算机网络和/或数据链路，其可以用于运送以计算机可执行指令或数据结构的形式的期望的程序代码并且可以由通用或专用计算机访问。上述的组合也应该包括在计算机可读介质的范围内。

计算机可执行指令包含例如当在处理器处被执行时使通用计算机、专用计算机或专用处理装置执行某一功能或一组功能的指令和数据。计算机可执行指令可以是例如二进制、中间格式指令(比如汇编语言)、或甚至源代码。尽管已经以对结构特征和/或方法动作的特定语言描述了主题，但是应当理解的是，所附权利要求中限定的主题不一定限于上面描述的特征或动作。相反地，所描述的特征和动作被公开作为实施权利要求的示例形式。

本领域技术人员应当理解的是，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，包括个人计算机、台式计算机、便携式计算机、消息处理器、手持装置、多处理器系统、基于微处理器或可编程消费电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、平板、寻呼机、路由器、交换机、各种存储装置等。本发明还可以在分布式系统环境中实践，其中通过网络链接(通过硬连线数据链路、无线数据链路、或通过硬连线和无线数据链路的组合)的本地和远程计算机系统都执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器存储装置中。

此外，在适当的情况下，本文所描述的功能可以以下面的一个或多个执行：硬件、软件、固件、数字部件或模拟部件。例如，一个或多个专用集成电路(ASIC)可以被编程为执行本文描述的系统和过程中的一个或多个。在整个以下描述和权利要求书中使用某些术语来指代特定的系统部件。如本领域技术人员应当理解的是，部件可以通过不同的名称来指代。本文献不旨在名称不同而不是功能不同的部件之间区分。

应当注意的是，上述传感器实施例可以包含计算机硬件、软件、固件或它们的任何组合以执行它们的功能的至少一部分。例如，传感器可以包括被配置为在一个或多个处理器中执行的计算机代码，并且可以包括由计算机代码控制的硬件逻辑/电路。这些示例装置在本文中是为了说明的目的，并且不旨在进行限制。如相关领域的技术人员所知的是，本发明的实施例可以在其他类型的装置中实施。

本发明的至少一些实施例针对包含存储在任何计算机可用介质上的这种逻辑(例如，以软件的形式)的计算机程序产品。这样的软件在一个或多个数据处理装置中被执行时使装置如本文所描述的那样操作。

尽管本发明的各种实施例已经在上面被描述，但是应当理解的是，它们仅仅通过示例的方式呈现，并且非限制。在不脱离本发明的精神和范围的情况下，对于相关领域的技术人员而言，可以在形式和细节上进行各种改变是显而易见的。因此，本发明的宽度和范围不应该由任何上述示例性实施例限制，而是应该仅根据所附权利要求及其等同物来限定。前面的描述被呈现是为了说明和描述的目的。它不旨在是穷尽的或将本发明限制为所公开的精确形式。根据上述教导，许多修改和变化是可能的。此外，应当注意的是，任何或所有上述替代实施例可以以期望的任何组合使用以形成本发明的另外的混合实施例。

此外，尽管本发明的具体实施例已经被描述和示出，但是本发明不限于如此描述和示出的部件的具体形式或设置。本发明的范围由所附权利要求书、在此和不同申请中提交的任何未来权利要求和它们的等同物来限定。

Claims

1.一种方法，包含：

从车辆上的后置摄像机接收一个或多个图像；

通过计算机系统确定行人存在于所述一个或多个图像中；

通过所述计算机系统基于所述一个或多个图像来预测所述行人的未来运动；以及

当所述车辆的向前运动和所述未来运动之间存在冲突时，通过所述计算机系统通知驾驶员辅助或自动驾驶系统。

2.根据权利要求1所述的方法，其中所述确定包含：

通过所述计算机系统使用第一神经网络处理所述一个或多个图像以确定所述一个或多个图像内行人可能处于的一个或多个位置；并且

通过所述计算机系统使用第二神经网络处理所述一个或多个图像的所述一个或多个位置以确定所述行人存在。

3.根据权利要求2所述的方法，其中所述预测包含基于所述一个或多个图像来确定所述行人的速度和方向。

4.根据权利要求3所述的方法，其中所述预测进一步包含基于所述一个或多个图像来确定所述行人相对于所述车辆的位置。

5.根据权利要求4所述的方法，其中所述未来运动包含在所述后置摄像机的视野之外的运动。

6.根据权利要求5所述的方法，其中所述第一神经网络包含被训练以识别所述一个或多个图像内的可能包含行人的大致位置的网络。

7.根据权利要求6所述的方法，其中所述第一神经网络生成显著图，所述显著图指示行人的最可能位置。

8.根据权利要求7所述的方法，其中所述显著图包含比所述一个或多个图像更低的分辨率。

9.根据权利要求8所述的方法，其中所述第二神经网络以全分辨率处理所述一个或多个图像内的所述一个或多个位置。

10.根据权利要求1所述的方法，其中：

所述后置摄像机是倒车摄像机；并且

当所述车辆处于前进挡时，所述一个或多个图像通过所述倒车摄像机被捕获。

11.一种用于检测行人的方法，包含：

从车辆上的后置摄像机接收一个或多个图像，所述一个或多个图像在所述车辆处于前进挡时被捕获；

通过计算机系统的第一神经网络识别所述一个或多个图像以确定所述一个或多个图像内行人可能处于的一个或多个区域；

通过所述计算机系统的第二神经网络确定行人存在于所述一个或多个区域中的至少一个中；

通过所述计算机系统基于所述一个或多个图像来预测所述行人的未来运动，所述预测的未来运动包含在所述后置摄像机的视野之外的运动；以及

当所述车辆的向前运动和所述预测的未来运动之间存在冲突时，通过所述计算机系统通知驾驶员辅助或自动驾驶系统。

12.根据权利要求11所述的方法，其中所述预测包含基于所述一个或多个图像来确定所述行人的速度和方向。

13.根据权利要求12所述的方法，其中所述预测进一步包含基于所述一个或多个图像来确定所述行人相对于所述车辆的位置。

14.根据权利要求13所述的方法，其中：

所述第一神经网络生成指示所述一个或多个区域的一个或多个显著图；

所述一个或多个显著图各自包含比所述一个或多个图像更低的分辨率；并且

所述第二神经网络以全分辨率处理所述一个或多个图像内的所述一个或多个区域。

15.一种系统，包含：

后置摄像机，所述后置摄像机被定位在车辆上以捕获所述车辆后方区域的一个或多个图像；

显著部件，所述显著部件被配置为使用第一神经网络处理所述一个或多个图像以生成指示所述一个或多个图像内行人最可能处于的一个或多个区域的一个或多个低分辨率显著图；

检测部件，所述检测部件被配置为使用第二神经网络处理所述一个或多个区域以针对所述一个或多个区域中的每个确定行人是否存在；

预测部件，所述预测部件被配置为处理所述一个或多个图像以预测在所述一个或多个图像中捕获的一个或多个行人的未来运动；以及

通知部件，所述通知部件被配置为提供指示所述车辆的向前运动和所述一个或多个行人的所述预测的未来运动之间的冲突的通知。

16.根据权利要求15所述的系统，其中所述预测部件被配置为：

基于所述一个或多个图像来确定所述一个或多个行人中的每个的速度和方向；

基于所述一个或多个图像来确定所述一个或多个行人中的每个相对于所述车辆的位置；并且

至少部分地基于所述一个或多个行人中的每个的所述速度、所述方向和所述位置来预测所述一个或多个行人的所述未来运动。

17.根据权利要求16所述的系统，其中所述一个或多个显著图包含比所述一个或多个图像更低的分辨率。

18.根据权利要求17所述的系统，其中所述检测部件使用所述第二神经网络来以全分辨率处理所述一个或多个图像内的所述一个或多个区域。

19.根据权利要求18所述的系统，其中所述第二神经网络包含深度神经网络分类器，所述深度神经网络分类器已经使用裁切的地面实况边界框来训练以确定行人存在或不存在。

20.根据权利要求15所述的系统，其中：

所述后置摄像机是倒车摄像机；并且