CN106980814A

CN106980814A - 用显著性地图的行人检测

Info

Publication number: CN106980814A
Application number: CN201710028187.XA
Authority: CN
Inventors: 玛德琳·J·吴; 维迪亚·那利亚姆布特·穆拉里; 吉恩特·普什科留斯
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2016-01-15
Filing date: 2017-01-13
Publication date: 2017-07-25
Also published as: RU2017100270A; GB2548200A; GB201700496D0; DE102017100199A1; US20170206426A1; MX2017000688A

Abstract

本发明公开了用于行人检测的系统、方法和装置。方法包括接收车辆附近的区域的图像。方法进一步地包括使用第一神经网络来处理图像以确定在图像内行人可能位于那里的一个或多个位置。方法也包括使用第二神经网络来处理图像的该一个或多个位置以确定存在行人并且通知驾驶辅助系统或自动驾驶系统存在行人。

Description

用显著性地图的行人检测

技术领域

本公开总体上涉及用于自动驾驶或用于辅助驾驶员的方法、系统和装置，以及更具体地涉及用于使用机器学习和显著性地图(saliency map)来检测一个或多个行人的方法、系统和装置。

背景技术

汽车为商业、政府和私人实体提供交通工具的重要部分。自主车辆和驾驶辅助系统目前正在被开发并且被部署用于提供安全、减少所需的用户输入量或甚至完全消除用户参与。例如，比如防撞系统这样的某些驾驶辅助系统可以在人类正在驾驶时监测车辆和其他物体的行驶、位置和速度。当系统检测到碰撞或撞击即将发生时，防撞系统可以干预并且应用制动器、转向车辆或执行其他规避或安全操纵。作为另一示例，自主车辆可以在很少或没有用户输入的情况下驾驶并且导航车辆。然而，由于包含在驾驶中的危险和车辆的成本，因此自主车辆和驾驶辅助系统安全地操作并且能够准确地导航道路和避开其他车辆和行人是非常重要的。

发明内容

根据本发明的一方面，提供一种用于检测行人的方法，该方法包含：

接收车辆附近的区域的图像；

使用第一神经网络来处理图像以确定在图像内行人可能位于那里的一个或多个位置；

使用第二神经网络来处理图像的该一个或多个位置以确定存在行人；以及

通知驾驶辅助系统或自动驾驶系统存在行人。

根据本发明的一实施例，其中第一神经网络包含训练用于识别在图像内可能包含行人的大概位置的网络。

根据本发明的一实施例，其中第一神经网络生成指示行人的最可能位置的显著性地图。

根据本发明的一实施例，其中显著性地图包含比图像低的分辨率。

根据本发明的一实施例，其中第二神经网络在全分辨率下处理在图像内的该一个或多个位置。

根据本发明的一实施例，其中第二神经网络包含深度神经网络分类器，已经使用剪裁的地面实况边界框来训练深度神经网络分类器以确定行人存在或不存在。

根据本发明的一实施例，其中确定存在行人包含确定该一个或多个位置中的每一个中是否存在行人。

根据本发明的一实施例，本发明方法进一步地包含基于图像确定行人相对于车辆的位置。

根据本发明的一实施例，本发明方法进一步地包含确定关于该一个或多个位置的优先级，其中处理该一个或多个位置包含基于优先级使用第二神经网络来处理。

根据本发明的另一方面，提供一种系统，该系统包含：

定位在车辆上以捕捉车辆附近的区域的图像的一个或多个摄像机；

显著性部件，该显著性部件配置成使用第一神经网络来处理图像以生成指示在图像内行人最可能位于那里的一个或多个区域的低分辨率显著性地图；

检测部件，该检测部件配置成使用第二神经网络来处理一个或多个区域以关于一个或多个区域中的每一个确定是否存在行人；以及

配置成提供指示行人的存在或不存在的通知的通知部件。

根据本发明的一实施例，其中检测部件使用第二神经网络以在全分辨率下处理在图像内的该一个或多个位置。

根据本发明的一实施例，其中检测部件配置成确定一个或多个区域中的每一个中是否存在行人。

根据本发明的一实施例，其中通知部件配置成向输出装置中的一个或多个提供通知以通知驾驶员和自动驾驶系统。

根据本发明的一实施例，本发明系统进一步地包含配置成确定供车辆执行的驾驶操纵的驾驶操纵部件。

根据本发明的又一方面，提供一种存储指令的计算机可读存储介质，该指令当由一个或多个处理器执行时使一个或多个处理器：

接收车辆附近的区域的图像；

为驾驶辅助系统或自动驾驶系统提供存在行人的指示。

根据本发明的一实施例，其中使用第一神经网络来处理图像包含生成指示该一个或多个位置的显著性地图，其中显著性地图包含比图像低的分辨率。

根据本发明的一实施例，其中指令使一个或多个处理器确定该一个或多个位置中的每一个中是否存在行人。

根据本发明的一实施例，其中指令使一个或多个处理器确定关于该一个或多个位置的优先级并且基于优先级处理该一个或多个位置。

附图说明

参考下面的附图描述本公开的非限制性且非详尽的实施方式，其中除另有规定外，在各种视图中的相同的附图标记指的是相同的部分。关于下面的描述和附图，本公开的优势将变得更好理解，在附图中：

图1是说明包括自动驾驶/辅助系统的车辆控制系统的示例实施方式的示意性框图；

图2说明道路的图像；

图3说明根据一实施方式的用于图2的图像的显著性地图的示意图；

图4是根据一实施方式的说明行人检测的示意性框图；

图5是根据一实施方式的说明行人部件的示例部件的示意性框图；以及

图6是根据一实施方式的说明用于行人检测的方法的示意性框图。

具体实施方式

为了安全地操作，智能车辆应该能够快速地并且准确地识别行人。关于主动安全性和驾驶员辅助应用，共同的挑战是快速地并且准确地检测场景中的行人和行人的位置。已经利用深度神经网络非常成功地实现某些分类解决方案。然而，检测和定位仍然是具有挑战性的，因为行人以不同的尺度存在并且在不同的位置。例如，当前的检测和定位技术不能匹配人类确定场景中的关注物体的尺度和位置和/或快速地理解场景的“要点(gist)”的能力。

在本公开中，申请人提出改善自动行人定位和检测的系统、装置和方法。在一实施例中，用于检测行人的方法包括接收车辆附近的区域的图像并且使用第一神经网络来处理该图像以确定在该图像内的行人可能位于那里的一个或多个位置。方法进一步地包括使用第二神经网络来处理图像的一个或多个位置以确定存在行人。方法还包括通知驾驶辅助系统或自动驾驶系统存在行人。

根据一实施例，用于行人定位和检测的改进的方法使用基于两阶段计算机视觉的深度学习技术。在第一阶段，从车辆的感知传感器获取图像的一个或多个区域和传感器数据被识别为更可能包括行人。第一阶段可以产生显著性地图形式的行人在那里的可能区域的指示或行人可能位于那里的图像的区域的其他指示。申请人已经认识到视觉心理研究已经表明来自较低分辨率图像的目光注视(gaze fixation)可以预测在更高分辨率图像上的注视。同样，某些实施例可以在低分辨率下产生有效的显著性地图。这些低分辨率的显著性地图可以用作用于相应图像的标签。在一实施例中，深度神经网络可以被训练以基于训练数据来输出用于任何图像的显著性地图。在一实施例中，显著性地图将指示最可能包含行人的图像的区域。显著性地图甚至在非常低的分辨率下也保持有效，通过减少搜索空间来允许更快的处理同时仍然准确地检测环境中的行人。

在第二阶段，深度神经网络分类器可以用于确定在第一阶段中识别的一个或多个区域内是否实际上存在行人。在一实施例中，第二阶段可以使用深度神经网络分类器(deepneural network classifier)，包括在由A.Krizhevsky,I.Sutskever,G.Hinton的“具有深度卷积神经网络的ImageNet分类(ImageNet Classification with Deep ConvolutionalNeural Networks)”(2012年神经信息处理系统会议(Neural Information ProcessingSystems Conference 2012))中公开的深度网络上的变体。在一实施例中，可以在正和负行人数据两者的剪裁的地面实况边界框(cropped ground truth bounding box)上训练卷积神经网络。如在第一阶段中识别的图像的特定部分可以被选择并且识别为候选区域。这些候选区域可以输入至训练的深度神经网络中，该训练的深度神经网络把潜在行人分类。大的深度神经网络可以被配置并且被训练以实现高的准确率和低的漏报。可以在比如加州理工学院的行人数据集(Caltech Pedestrian Dataset)、来自车队车辆的内部数据集和/或来自相关项目的模拟数据这样的现有数据集上训练第一阶段神经网络和第二阶段神经网络中的一个或两个。

在A.Angelova,A.Krizhevsky,V.Vanhoucke的“具有大视野深度网络的行人检测(Pedestrian Detection with a Large-Field-Of-View Deep Network)”(2015年IEEE机器人和自动化国际会议ICRA(IEEE International Conference on Robotics andAutomation ICRA 2015))中提出行人网络检测的一示例。由Angelova等开发的大视野网络提出行人检测和快速定位。然而，Angelova等没有利用显著性进行定位，而是需要行人位置图像的单独的基于网格的数据集的附加生成，忽略重叠网格的行人并且执行用于检测的网格围栏(grid enclosure)。因此，它们具有比主动安全性应用可行所需要的行人错失率高的行人错失率。与此相反，本公开的至少某些实施例不需要滑动窗口，从而消除现有技术深度学习技术的最计算昂贵方面中的一个。

现在参考附图，图1说明包括自动驾驶/辅助系统102的示例车辆控制系统100。自动驾驶/辅助系统102可以用于自动操作、辅助或控制比如汽车、卡车、厢式货车、公共汽车、大型卡车、紧急车辆或者用于运送人或货物的任何其他车辆这样的车辆的操作，或为人类驾驶员提供辅助。例如，自动驾驶/辅助系统102可以控制车辆的制动、转向、加速、照明、警报、驾驶员通知、无线电或任何其他辅助系统中的一个或多个。在另一示例中，自动驾驶/辅助系统102可能不能提供任何驾驶控制(例如，转向、加速或制动)，但可以提供通知和警报以帮助人类驾驶员安全驾驶。自动驾驶/辅助系统102包括行人部件104，该行人部件104可以定位并且检测车辆附近或车辆的驾驶路径附近的行人。例如，行人部件104可以确定在图像内具有包含行人的更高可能性的一个或多个区域，然后处理该一个或多个区域以确定行人是否存在于该区域中。作为另一示例，行人部件104可以产生用于图像的显著性地图，然后基于该显著性地图来处理该图像以检测或定位图像中的行人或者相对于车辆检测或定位行人。

车辆控制系统100也包括一个或多个用于检测附近物体的存在或者确定母车辆(例如，包括车辆控制系统100的车辆)或附近物体的位置的传感器系统/装置。例如，车辆控制系统100可以包括一个或多个雷达系统106、一个或多个LIDAR(激光雷达)系统108、一个或多个摄像机系统110、全球定位系统(GPS)112和/或一个或多个超声波系统114。

车辆控制系统100可以包括用于存储比如地图数据、驾驶历史或其他数据这样的用于导航和安全性的相关或有用数据的数据存储器116。车辆控制系统100也可以包括用于与移动或无线网络、其他车辆、基础设施或任何其他通信系统无线通信的收发器118。车辆控制系统100可以包括车辆控制执行器120以控制车辆的驾驶的各个方面，比如电动马达、开关或其他执行器以用于控制制动、加速、转向等。车辆控制系统100也可以包括一个或多个显示器122、扬声器124或其他装置以便可以为人类驾驶员或乘客提供通知。显示器122可以包括抬头显示器、仪表盘显示器或指示器、显示屏幕或可以被车辆的驾驶员或乘客看到的任何其他视觉指示器。扬声器124可以包括车辆的音响系统的一个或多个扬声器或可以包括专用于驾驶员通知的扬声器。

将要领会的是，仅通过示例给出图1的实施例。其他实施例在没有背离本公开的保护范围的情况下可以包括较少部件或附加部件。此外，图示部件可以没有限制地结合在或包括在其他部件内。例如，行人部件104可以与自动驾驶/辅助系统102分离并且数据存储器116可以被包括作为自动驾驶/辅助系统102的一部分和/或行人部件104的一部分。

雷达系统106可以通过发射无线电信号并且检测物体上的反射来操作。在地面应用中，雷达可以用于检测有形物体，比如其他车辆、停车屏障或停车制动垫块、景观(比如树、悬崖、岩石、山等)、道路边缘、标志、建筑物或其他物体。雷达系统106可以使用反射的无线电波来确定关于有形物体或物质的大小、形状、距离、表面纹理或其他信息。例如，雷达系统106可以扫掠地区以获取关于在雷达系统106的特定范围和视角内的物体的数据。在一实施例中，雷达系统106配置成从车辆附近的区域生成感知信息，比如车辆附近或周围的一个或多个区域。例如，雷达系统106可以获取关于直接邻近车辆或车辆附近的地面或垂直地区的区域的数据。雷达系统106可以包括许多广泛使用的商用雷达系统中的一个。在一实施例中，雷达系统106可以为自动驾驶/辅助系统102提供包括二维或三维的地图或模型的感知数据以用于参考或处理。

LIDAR系统108可以通过发射可见光波长或红外线波长激光并且检测物体上的激光的反射来操作。在地面应用中，激光可以用于检测有形物体，比如其他车辆、停车屏障或停车制动垫块、景观(比如树、悬崖、岩石、山等)、道路边缘、标志、建筑物或其他物体。LIDAR系统108可以使用反射的激光来确定关于有形物体或物质的大小、形状、距离、表面纹理或其他信息。例如，LIDAR系统108可以扫掠地区以获取在LIDAR系统108的特定范围和视角内的数据或物体。例如，LIDAR系统108可以获取关于直接邻近车辆或车辆附近的地面或垂直地区的区域的数据。LIDAR系统108可以包括许多广泛使用的商用LIDAR系统中的一个。在一实施例中，LIDAR系统108可以提供包括检测的物体或表面的二维或三维的模型或地图的感知数据。

摄像机系统110可以包括一个或多个摄像机，比如可见波长摄像机或红外线摄像机。摄像机系统110可以提供视频或周期性图像，该视频或周期性图像可以被处理以用于物体检测、道路识别和定位或其他检测或定位。在一实施例中，摄像机系统110可以包括两个或多个摄像机，该摄像机可以用于提供在视野范围内物体的测距(例如，检测距离)。在一实施例中，图像处理可以在捕捉的摄像机图像或视频上使用以检测车辆、转向灯、驾驶员、驾驶员的姿势和/或身体语言。在一实施例中，摄像机系统110可以包括摄像机，该摄像机获取关于车辆周围两个或两个以上方向的图像。

GPS系统112是定位系统的一实施例，该定位系统可以基于卫星或无线电塔信号来提供车辆的地理位置。GPS系统112在本领域中是众所周知并且广泛使用的。虽然GPS系统112可以提供非常精确的定位信息，但GPS系统112通常几乎没有提供关于车辆和其他物体之间的距离的信息。相反，它们仅提供位置，该位置然后可以与比如地图这样的其他数据相比较以确定到其他物体、道路或关注位置的距离。

超声波系统114可以用于使用超声波来检测物体或车辆与物体之间的距离。例如，超声波系统114可以从保险杠上或附近的位置或者车辆的侧板位置发射超声波。超声波——其可以通过空气传播短的距离——可以在其他物体上反射并且由超声波系统114检测。基于发射和反射的超声波的接收之间的时间量，超声波系统114可能能够检测保险杠或侧板与任何其他物体之间的准确距离。由于它的较短的范围，所以超声波系统114在停车期间检测物体或在驾驶期间检测即将发生的碰撞可以更有用。

在一实施例中，雷达系统106、LIDAR系统108、摄像机系统110和超声波系统114可以检测车辆附近的环境属性或障碍物。例如，系统106-110和114可以用于检测并且定位其他车辆、行人、人、动物、若干车道、车道宽度、路肩宽度、道路表面曲率、道路方向曲率、停车振动带、车道标志、存在的十字路口、道路标志、桥、高架桥、屏障、中央隔离带、路缘、或关于道路的任何其他细节。作为又一示例，系统106-110和114可以检测环境属性，该环境属性包括关于道路附近的结构、物体或表面的信息，比如存在的车道、停车场、停车场出口/入口、人行道、走道、树、栅栏、建筑物、停放的车辆(在道路上或道路附近)、门、标志、停车带、或任何其他结构或物体。

数据存储器116存储地图数据、驾驶历史和其他数据，该其他数据可以包括用于自动驾驶/辅助系统102的其他导航数据、设置或操作指令。地图数据可以包括比如GPS位置数据这样关于道路、停车场、停车位或者车辆可以驾驶或停放的其他地方的位置数据。例如，关于道路的位置数据可以包括特定车道的位置数据，比如车道方向、合并车道、公路或高速公路车道、驶出车道、或者任何其他车道或道路的分隔物。位置数据也可以包括关于停车场中的一个或多个停车位的位置或关于沿着道路的停车位的位置。在一实施例中，地图数据包括关于在道路或停车位置上或者道路或停车位置附近的一个或多个结构或者物体的位置数据。例如，地图数据可以包括关于GPS信号位置、桥位置、建筑物或其他结构位置等的数据。在一实施例中，地图数据可以包括具有在几米精度范围内或在亚米级精度范围内的精度的精确位置数据。地图数据也可以包括关于路径、土路、或其他道路或路径的位置数据，该其他道路或路径可以由陆地车辆驾驶。

收发器118配置成从一个或多个其他数据或信号源接收信号。收发器118可以包括一个或多个无线电装置，该无线电装置配置成根据各种通信标准和/或使用各种不同频率通信。例如，收发器118可以从其他车辆接收信号。从另一车辆接收信号在此被引用为车辆至车辆(V2V)通信。在一实施例中，收发器118也可以用于传输信息至其他车辆以潜在地辅助它们定位车辆或物体。在V2V通信期间，收发器118可以从其他车辆接收关于它们的位置、先前位置或状态、其他交通、事故、道路状况、停车屏障或停车制动垫块的位置的信息，或可以帮助车辆和/或自动驾驶/辅助系统102准确或安全驾驶的其他细节。例如，收发器118可以接收更新的模型或算法以供行人部件104在检测和定位行人或其他物体中使用。

收发器118可以从在固定位置处的其他信号源接收信号。基础设施收发器可以位于特定的地理位置并且可以传输具有时间戳的它的特定地理位置。因此，自动驾驶/辅助系统102可能能够基于时间戳来确定距基础设施收发器的距离，然后基于该基础设施收发器的位置来确定它的位置。在一实施例中，从在固定位置处的装置或塔接收或发送位置数据在此被引用为车辆至基础设施(V2X)通信。V2X通信也可以用于提供关于其他车辆的位置、它们的先前状态等的信息。例如，V2X通信可以包括关于车辆在十字路口已经停止或等待多长时间的信息。在一实施例中，术语V2X通信也可以包含V2V通信。

在一实施例中，自动驾驶/辅助系统102配置成控制母车辆的驾驶或导航。例如，自动驾驶/辅助系统102可以控制车辆控制执行器120以驾车行驶道路上、停车场上、通过十字路口、车道或其他位置的路径。例如，自动驾驶/辅助系统102可以基于由部件106-118中的任一个提供的信息或感知数据来确定驾驶的路径和速度。作为另一示例，自动驾驶/辅助系统102可以确定何时变换车道、合并、避开障碍物或行人，或何时给另一车辆留下空间以变换车道等。

在一实施例中，行人部件104配置成检测并且定位车辆附近的行人。例如，行人部件104可以处理来自雷达系统106、LIDAR系统108、摄像机系统110和超声波系统114中的一个或多个的在车辆附近的区域中或在车辆的行驶方向上收集的感知数据以检测行人的存在。自动驾驶/辅助系统102然后可以使用该信息以避开行人、改变驾驶路径或执行驾驶或规避操纵。

如在此所使用的，术语“行人”表示没有驾驶车辆的人类。例如，行人可以包括感知传感器可感知的在地区中走、跑、坐或躺的个人。行人也可以包括使用比如自行车、小型摩托车、单排轮溜冰鞋或溜冰鞋等的人类动力装置的那些个人。行人可以位于道路上或在道路附近，比如在人行横道、人行道中，在道路的路肩上等。行人可以在大小形状等方面具有显著变化。例如，小婴儿、青少年、年长的人或任何其他年龄的人类可以被检测或识别为行人。同样，行人可以在服装的类型或数量方面显著地变化。因此，行人的外观对摄像机或其他传感器来说可能完全不同。

图2说明可以由车辆控制系统100的摄像机捕捉到的透视图的图像200。例如，图像200说明在车辆前面的道路的场景，该场景在车辆正沿着道路行驶时可以被捕捉。图像200包括在道路上或道路附近的多个行人。在一实施例中，行人部件104可以识别可能包括行人的图像200的一个或多个区域。例如，行人部件104可以生成一个或多个边界框或定义行人可能位于那里的图像200的一个或多个子区域。在一实施例中，行人部件104把子区域202-208定义为行人可能位于那里的区域。例如，行人部件104可以生成信息，该信息定义在图像内行人可能位于那里的子区域202-208中的每一个的位置并且因此进一步地被分析或处理。在一实施例中，行人部件104可以使用神经网络来处理图像200，该神经网络已经被训练以产生指示行人可能位于那里的区域的显著性地图。显著性地图可以特别提供图像200中行人最可能位于那里的区域或位置。

使用显著性地图或行人可能位于那里的区域的任何其他指示，行人部件104可以处理图像200的子区域以把区域分类为包括或不包括行人。在一实施例中，行人部件104可以检测并且定位在图像200内的一个或多个行人。例如，第一子区域202包括行人，第二子区域204不包括行人而是包括树，第三子区域206包括行人，并且第四子区域208包括行人。

图3是由行人部件104产生的显著性地图300的实施例的示意图。显著性地图300可以作为用于图2的图像200的标签。例如，行人部件104可以处理相应于位置302-308的图像的部分以试图检测和/或定位行人。第一位置302、第二位置304、第三位置306和第四位置308可以相应于图2的图像的第一子区域202、第二子区域204、第三子区域206和第四子区域208。在一实施例中，行人部件104可以通过叠加或结合显著性地图300与图像200来生成修改的图像并且处理该修改的图像以检测行人。例如，修改的图像可以除了位置302-308中以外是黑色的(或一些其他颜色)，在该位置302-308中图像200的相应部分可以至少部分地保持是可见的或完全不变。显著性地图300可以按比例放大和/或图像200可以按比例缩小以便具有匹配的分辨率，因此可以执行人检测。

在一实施例中，显著性地图300可以具有比图像200低的分辨率。例如，显著性地图300可以具有标准大小或可以具有减少预定义因子的分辨率。如上所述，低分辨率显著性地图仍然可以是非常有效的并且也可以减少处理工作量或处理延迟。在一实施例中，行人部件104可以基于显著性地图300通过按比例放大显著性地图300来处理图像200。例如，行人部件104可以关于显著性地图中的相同像素来处理图像200的多重像素。虽然用黑色或白色像素说明图3的显著性地图300，但某些实施例可以生成和使用具有灰度值的显著性地图。

图4是根据一实施例的说明行人检测和定位的示意性框图400。感知传感器402输出传感器数据。传感器数据可以包括来自雷达系统106、LIDAR系统108、摄像机系统110和超声波系统114中的一个或多个的数据。将传感器数据输入至显著性地图神经网络404。显著性地图神经网络处理传感器数据(比如图像或向量矩阵)以产生显著性地图和/或可能包含行人的传感器数据的一个或多个子区域的指示(或关于行人的传感器数据)。显著性地图或可能包含行人的传感器数据的一个或多个子区域的其他指示连同传感器数据一起，输入至行人检测神经网络406以用于分类和/或定位。例如，行人检测神经网络406可以把传感器数据或由显著性地图神经网络404识别的每个子区域分类为包含或不包含行人。此外，行人检测神经网络406可以确定在传感器数据内的行人位于那里的特定位置或区域(例如，可以识别在图像内的多个像素)。行人检测神经网络406输出行人的存在和/或位置的指示至通知系统或决策神经网络408。例如，行人的存在和/或行人的位置可以提供至通知系统以通知驾驶员或车辆的驾驶系统。作为又一示例，行人的存在和/或行人的位置可以作为输入提供至决策神经网络。例如，决策神经网络可以基于行人检测神经网络406的输出来做出用于自动驾驶/辅助系统102的驾驶决策或其他操作决策。在一实施例中，决策神经网络可以基于行人的存在或位置的指示来决定特定的驾驶操纵、驾驶路径、驾驶员通知或任何其他操作决策。

图5是根据一实施例的说明行人部件104的部件的示意性框图。行人部件104包括感知数据部件502、显著性部件504、检测部件506、通知部件508和驾驶操纵部件510。部件502-510仅通过图示给出并且可以不全部包括在所有实施例中。实际上，某些实施例可以仅包括部件502-510中的一个或部件502-510中的两个或两个以上的任何组合。部件502-510中的某些可以位于行人部件104外部，比如在图1的自动驾驶/辅助系统102内或不背离本公开的保护范围的其他地方。

感知数据部件502配置成从车辆的一个或多个传感器系统接收传感器数据。例如，感知数据部件502可以从雷达系统106、LIDAR系统108、摄像机系统110、GPS 112、超声波系统114等接收数据。在一实施例中，感知数据可以包括关于车辆附近的一个或多个区域的感知数据。例如，车辆的传感器可以提供车辆周围的360度视野。在一实施例中，摄像机系统110捕捉车辆附近的区域的图像。感知数据可以包括关于车辆附近的行人的数据。例如，摄像机系统110可以捕捉在车辆前面或在车辆侧面或在车辆后面的区域，一个或多个行人可以位于该区域中。例如，穿过街道、在道路附近走或在停车场中的行人可以在图像或其他感知数据中被捕捉。

显著性部件504配置成处理从一个或多个传感器系统接收到的感知数据以识别行人可能位于那里的位置。例如，如果从摄像机系统110接收到比如图2中的图像200这样的图像，则显著性部件504可以处理该图像以确定在图像内行人可能位于那里的一个或多个位置。在一实施例中，显著性部件504可以产生定义行人最可能位于那里的图像的子区域的信息。例如，显著性部件504可以产生一个或多个x-y坐标以定义行人可能位于那里的位置或图像的有界区域。子区域可以包括或定义在图像内的矩形或椭圆形区域。在一实施例中，显著性部件504配置成生成关于感知数据的显著性地图。

显著性部件504可以使用神经网络来处理比如图像这样的感知数据。例如，图像的每个像素值可以输入至神经网络，该神经网络已经被训练以识别在图像内可能或当与图像的其他区域相比较时最可能包括行人的区域。在一实施例中，神经网络包括网络，该网络被训练以识别在图像内的大概位置，或可能包含行人的其他感知数据。神经网络可以包括深度卷积网络(Deep Convolutional Neural Networks)，该深度卷积网络已经被训练用于快速地识别可能包括行人的子区域。由神经网络识别的子区域可以是具有低水平漏报但具有潜在较高水平的误报的可能包括行人的区域。例如，子区域的识别可能涵盖过广，因为某些区域实际上可能不包括行人同时子区域的识别也具有对于错失行人位于那里的区域的低概率。在可能包括行人的子区域的识别之后，第二神经网络或算法可以用于分析识别的子区域以确定是否实际上存在行人。在一实施例中，神经网络或显著性部件504的输出是图像的x-y坐标以及定义距包括在子区域内的x-y坐标的距离的一个或多个距离参数。例如，距离参数可以定义图像的矩形或椭圆形子区域的边缘。

在一实施例中，神经网络或显著性部件504的输出是显著性地图。例如，神经网络可以生成指示行人的最可能位置的显著性地图。在一实施例中，神经网络可以配置成在比图像或由感知传感器系统收集的其他信息低的分辨率下操作。例如，神经网络可以处理图像的低分辨率版本以产生显著性地图。作为另一示例，神经网络可以处理全分辨率图像并且产生低分辨率显著性地图。在一实施例中，神经网络的输入分辨率和显著性地图的输出分辨率两者低于图像或由感知数据部件502收集的其他数据的全分辨率。在一实施例中，低分辨率显著性地图可以提供与全分辨率显著性地图一样好或几乎一样好的性能，同时需要较少的计算资源和/或导致更快的处理时间。

由使用神经网络来处理所产生的显著性地图可以包括指示行人可能位于那里的位置的显著性地图。例如，可以用图像以及识别行人存在或不存在于那里的区域的地面实况来训练神经网络。因此，神经网络和/或显著性部件504的输出是行人位置显著性地图。这与试图预测或指示当看图像时人类的眼睛自然对准那里的位置的某些显著性地图不同，因为它特定于行人位置。行人可能位于那里的位置的识别可以显著地减少检测行人所需要的处理能力，因为远小于完全图像可能需要被处理用于物体检测或可以使用较小的神经网络。

在一实施例中，显著性部件504可以确定识别为可能具有行人的一个或多个位置的优先顺序。例如，可以按行人存在的可能性的顺序确定位置的优先顺序。然后可以按优先级顺序处理这些位置以促进识别行人的速度。例如，基于使用神经网络的处理，第一区域可以是最可能包括行人并且第二区域可以是较低可能包括行人。通过首先搜索第一区域，可以显著地增加行人将很快被定位的机会。同样，可以基于与车辆要行驶的路径有关的位置来确定一个或多个位置的优先顺序。例如，更接近车辆或沿着车辆的驾驶路径的位置可以优先于更远离车辆或远离车辆的路径的位置来确定优先顺序。

检测部件506配置成检测在图像或其他感知数据内的行人的存在。例如，检测部件506可以使用物体识别或任何图像处理技术来处理图像数据以检测人类行人或其他人类。在一实施例中，检测部件506可以在图像或感知数据内定位行人。例如，检测部件506可以识别相应于行人的一个或多个像素。在一实施例中，检测部件506可以相对于车辆(例如相对于捕捉图像的车辆上的摄像机)定位行人。检测部件506可以确定传感器和行人之间的距离和/或相对于车辆的前面或驾驶方向以及行人的方向。

在一实施例中，检测部件506通过处理由显著性部件504识别的子区域来检测行人。例如，不是处理整个图像，而是检测部件506可以仅处理由显著性部件识别为可能或更可能包含行人的图像的区域。例如，检测部件506可以分别处理每个子区域以确认或确定行人存在于或不存在于特定区域内。作为另一示例，通过把图像和由显著性部件504定义的显著性地图结合(例如，使用阈值或其他效应)而生成的图像可以被检测部件506处理以定位行人。显著性地图可以“用黑色涂掉”、“模糊”或以其他方式隐藏不可能包括行人的图像的部分，同时允许其他部分被检测部件506处理。

在一实施例中，检测部件506配置成使用神经网络处理图像或者图像的一个或多个子区域。例如，用于检测行人的神经网络可以是与显著性部件504使用的神经网络不同的神经网络。在一示例中，神经网络可以包括深度卷积神经网络，该深度卷积神经网络已经被训练以在高准确度和低漏报率的情况下检测行人。在一实施例中，检测部件506可以使用显著性地图或由显著性部件504生成的子区域的其他指示来处理图像的全分辨率版本或图像的子部分。例如，检测部件506可以使用低分辨率显著性地图来识别需要处理的图像的区域，但接着在提高的或原始的图像分辨率下处理那些区域。

在一实施例中，检测部件506可以使用已经使用剪裁的地面实况边界框训练的神经网络来确定行人存在或不存在。神经网络可以是分类器，该分类器把图像或图像的一部分分类为包含行人或不包含行人。例如，检测部件506可以把由显著性部件504识别的每一部分分类为包括行人或不包括行人。例如，关于图2，显著性部件504可以把第一、第二、第三和第四子区域202-208中的每一个识别为可能包括行人，同时检测部件确认行人存在于第一、第三和第四子区域202、206、208中，但确定第二子区域204不包括行人。

在一实施例中，检测部件506可以按优先级顺序处理由显著性部件识别的区域。例如，具有较高优先级的位置可以首先被处理以确定是否存在行人。按优先级顺序处理可以允许检测行人中增加的速度并且允许更快的响应时间以防止事故、碰撞或路径规划。

通知部件508配置成为车辆的驾驶员或自动驾驶系统提供一个或多个通知。在一实施例中，通知部件508可以使用显示器122或扬声器124为驾驶员提供通知。例如，可以在抬头显示器上指示行人的位置。在一实施例中，通知可以包括执行操纵的指令或可以警告存在行人。在一实施例中，通知部件508可以通知驾驶员或自动驾驶系统100由驾驶操纵部件510选择或建议的驾驶操纵。在一实施例中，通知部件508可以通知驾驶员或自动驾驶系统100行人的位置以便可以相应地执行路径规划或碰撞规避。同样，通知部件508可以为自动驾驶系统100提供检测的每个行人的位置的指示以允许路径规划或碰撞规避。

驾驶操纵部件510配置成基于行人的存在或不存在来选择用于母车辆的驾驶操纵。例如，驾驶操纵部件510可以从通知部件508或检测部件506接收一个或多个行人位置。驾驶操纵部件510可以确定驾驶路径以避免与行人碰撞或假如行人以预期或预料不到的方式移动则允许回旋余地。例如，驾驶操纵部件510可以确定是否以及何时减速、加速和/或转动母车辆的方向盘。在一实施例中，驾驶操纵部件510可以确定关于驾驶操纵的时机。例如，驾驶操纵部件510可以确定母车辆由于行人的存在而应该等待以执行车道变换或继续通过十字路口。

现在参考图6，说明用于行人检测的方法600的示意性流程图的一实施例。方法600可以由自动驾驶/辅助系统或行人部件执行，比如图1的自动驾驶/辅助系统102或者图1或5的行人部件104。

方法600开始并且在602中感知数据部件502接收车辆附近的区域的图像。在604中显著性部件504使用第一神经网络来处理图像以确定在图像内行人可能位于那里的一个或多个位置。在606中检测部件506使用第二神经网络来处理图像的一个或多个位置以确定存在行人。在608中通知部件508为驾驶辅助系统或自动驾驶系统提供存在行人的指示。

虽然在此描述的各种实施例和示例已经指向基于摄像机图像检测行人，某些实施例可以操作从其他类型的传感器收集到的感知数据，比如雷达系统106、LIDAR系统108、超声波系统114或任何其他类型的传感器或传感器系统。

示例

下面的示例与更多实施例有关。

示例1是包括接收车辆附近的区域的图像的用于检测行人的方法。方法也包括使用第一神经网络来处理图像以确定在图像内行人可能位于那里的一个或多个位置。方法还包括使用第二神经网络来处理图像的一个或多个位置以确定存在行人。方法包括通知驾驶辅助系统或自动驾驶系统存在行人。

在示例2中，在示例1中的第一神经网络包括训练用于识别在图像内可能包含行人的大概位置的网络。

在示例3中，在示例1-2中的任一个中的第一神经网络生成指示行人的最可能位置的显著性地图。

在示例4中，示例3的显著性地图包括比图像低的分辨率。

在示例5中，在示例1-4中的任一个中的第二神经网络在全分辨率下处理在图像内的一个或多个位置。

在示例6中，在示例1-5中的任一个中的第二神经网络包括深度神经网络分类器，已经使用剪裁的地面实况边界框来训练该深度神经网络分类器以确定行人存在或不存在。

在示例7中，在示例1-6中的任一个中的确定存在行人包括确定一个或多个位置中的每一个中是否存在行人。

在示例8中，示例1-7中的任一个的方法进一步地包括基于图像确定行人相对于车辆的位置。

在示例9中，示例1-8中的任一个的方法进一步地包括确定关于一个或多个位置的优先级，其中处理一个或多个位置包含基于该优先级使用第二神经网络来处理。

示例10是包括一个或多个摄像机、显著性部件、检测部件和通知部件的系统。一个或多个摄像机定位在车辆上以捕捉车辆附近的区域的图像。显著性部件配置成使用第一神经网络来处理图像以生成指示在图像内行人最可能位于那里的一个或多个区域的低分辨率显著性地图。检测部件配置成使用第二神经网络来处理一个或多个区域以关于一个或多个区域中的每一个确定是否存在行人。通知部件配置成提供指示行人的存在或不存在的通知。

在示例11中，示例10的显著性地图包括比图像低的分辨率。

在示例12中，在示例10-11中的任一个中的检测部件使用第二神经网络以在全分辨率下处理在图像内的一个或多个位置。

在示例13中，在示例10-12中的任一个中的第二神经网络包括深度神经网络分类器，已经使用剪裁的地面实况边界框来训练该深度神经网络分类器以确定行人存在或不存在。

在示例14中，在示例10-13中的任一个中的检测部件配置成确定一个或多个区域中的每一个中是否存在行人。

在示例15中，在示例10-14中的任一个中的通知部件配置成向输出装置中的一个或多个提供通知以通知驾驶员和自动驾驶系统。

在示例16中，示例10-15中的任一个的系统进一步地包括配置成确定供车辆执行的驾驶操纵的驾驶操纵部件。

示例17是存储指令的计算机可读存储介质，该指令当由一个或多个处理器执行时使该一个或多个处理器接收车辆附近的区域的图像。指令进一步地使一个或多个处理器使用第一神经网络来处理图像以确定在图像内行人可能位于那里的一个或多个位置。指令进一步地使一个或多个处理器使用第二神经网络来处理图像的一个或多个位置以确定存在行人。指令进一步地使一个或多个处理器为驾驶辅助系统或自动驾驶系统提供存在行人的指示。

在示例18中，示例17中使用第一神经网络来处理图像包括生成指示一个或多个位置的显著性地图，其中该显著性地图包含比该图像低的分辨率。

在示例19中，在示例17-18中的任一个中的指令进一步地使一个或多个处理器确定一个或多个位置中的每一个中是否存在行人。

在示例20中，在示例17-19中的任一个中的指令使一个或多个处理器确定关于一个或多个位置的优先级并且基于该优先级处理该一个或多个位置。

示例21是包括用于实施方法或实现在示例1-20中的任一个中的系统或装置的手段的系统或装置。

在上述公开中，参考形成其的一部分的附图，并且在附图中例示了本公开可以在其中实行的具体实施方式。应该理解的是，可以利用其它实施方式并且可以在不背离本公开的保护范围的情况下做出结构变化。说明书中提到的“一实施例”、“实施例”、“示例实施例”等指示描述的实施例可以包括特定的特征、结构或特性，但每一实施例可能不一定包括该特定的特征、结构或特性。此外，这样的短语不一定指的是同一实施例。此外，当特定的特征、结构或特性与实施例一起描述时，认为对与无论是否明确地描述的其他实施例结合的这样的特征、结构或特性进行改变是在本领域技术人员的知晓的范围内。

如在此所使用的，“自主车辆”可以是完全独立于人类驾驶员起作用或操作的车辆；或可以是如下车辆，该车辆在某些情况下独立于人类驾驶员起作用或操作同时在其他情况下人类驾驶员可能能够操作该车辆；或可以是主要由人类驾驶员操作——但在自动驾驶/辅助系统的帮助下——的车辆。

在此公开的系统、装置和方法的实施方式可以包含或利用包括比如在此所讨论的一个或多个处理器和系统存储器这样的计算机硬件的专用计算机或通用计算机。在本公开的保护范围内的实施方式也可以包括用于承载或存储计算机可执行指令和/或数据结构的物理介质或其他计算机可读介质。这样的计算机可读介质可以是可以由通用计算机系统或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质(装置)。承载计算机可执行指令的计算机可读介质是传输介质。因此，通过示例，而不是限制，本公开的实施方式可以包含至少两个明显不同种类的计算机可读介质：计算机存储介质(装置)和传输介质。

计算机存储介质(装置)包括RAM(随机存取存储器)、ROM(只读存储器)、EEPROM(电可擦可编程只读存储器)、CD-ROM(紧凑型光盘只读存储器)、固态硬盘(“SSD”)(例如，基于RAM)、闪速存储器、相变存储器(“PCM”)、其他类型的存储器、其他光盘存储器、磁盘存储器或其他磁存储装置或任何其他介质，该其他介质可以用于存储计算机可执行指令或数据结构形式的所需程序代码工具并且该其他介质可以由通用计算机或专用计算机访问。

在此公开的装置、系统和方法的实施方式可以通过计算机网络通信。“网络”被定义为实现计算机系统和/或模块和/或其他电子装置之间的电子数据的传输的一个或多个数据链路。当信息通过网络或另一通信连接(或者硬连线、无线、或者硬连线或无线的组合)传输或提供至计算机时，该计算机正确地把连接看作传输介质。传输介质可以包括网络和/或数据链路，该传输介质可以用于承载计算机可执行指令或数据结构形式的所需程序代码工具并且该传输介质可以由通用计算机或专用计算机访问。上述的组合也应该包括在计算机可读介质的保护范围内。

计算机可执行指令包含例如指令和数据，该指令和数据——当在处理器上执行时——使通用计算机、专用计算机或专用处理装置执行某一功能或一组功能。计算机可执行指令可以是例如二进制、比如汇编语言或甚至源代码这样的中间格式指令。虽然已经针对结构特征和/或方法论行为用语言描述了主题，但应该理解的是，在从属权利要求中定义的主题不一定限于上述描述的特征或行为。相反，描述的特征和行为公开为实施权利要求的示例形式。

本领域技术人员将领会到本公开可以在具有许多类型的计算机系统配置的网络计算环境中实行，包括内置式车辆计算机、个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程消费电子产品、网络计算机(PC)、小型计算机、大型计算机、移动电话、PDA(个人数字助理)、平板电脑、寻呼机、路由器、开关、各种存储装置等。本公开也可以在分布式系统环境中实行，在该分布式系统环境中，通过网络(或者通过硬接线数据链路、无线数据链路或通过硬接线数据链路和无线数据链路的组合)链接的本地计算机系统和远程计算机系统，两者执行任务。在分布式系统环境中，程序模块可以位于本地和远程存储器存储装置两者中。

此外，在适当的情况下，在此描述的功能可以在如下的一个或多个中执行：硬件、软件、固件、数字部件或模拟部件。例如，一个或多个专用集成电路(ASIC)可以被编程为执行在此描述的系统和程序中的一个或多个。某些术语在说明书和权利要求中用于描述特定的系统部件。如本领域技术人员将要领会的是，部件可以由不同的名字描述。本文件不旨在区分在名称而不是功能方面不同的部件。

应该注意的是，在上面讨论的传感器实施例可以包含计算机硬件、软件、固件或其任何组合以执行它们的功能的至少一部分。例如，传感器可以包括配置成在一个或多个处理器中执行的计算机代码，并且可以包括由该计算机代码控制的硬件逻辑/电气电路。这些示例装置在此提供说明的目的，并且不旨在限制。如将要被相关领域中的技术人员所知道的，本公开的实施例可在更多类型的装置中实施。

本公开的至少某些实施例指向包含存储在任何计算机可用介质上的这样的逻辑(例如，以软件的形式)的计算机程序产品。这样的软件——当在一个或多个数据处理装置上执行时——使装置如在此所描述地操作。

虽然已经在上面描述了本公开的各种实施例，但应该理解的是它们仅通过示例呈现但不限制。将对相关领域技术人员显而易见的是，可以在不背离本公开的精神和保护范围的情况下做出形式和细节其中的各种变化。因此，本公开的广度和保护范围应该不应由上述示例性实施例中的任一个限制，而是应该仅根据下面的权利要求和他们的等同物定义。前述说明书已经被呈现用于说明和描述的目的。其并不旨在是详尽的或把本公开限制为公开的精确形式。根据上述教导，许多修改和变化是可能的。此外，应该注意的是，任何或所有前面提到的可选的实施方式可以以所需的任何组合的方式用于形成本公开的附加混合实施方式。

此外，虽然已经描述和说明了本公开的特定实施方式，但本公开不限于像这样描述和说明的部件的特定形式或设置。本公开的保护范围由附于此的权利要求、这里并且在不同申请中提出的任何未来的权利要求以及他们的等同物来定义。

Claims

1.一种用于检测行人的方法，所述方法包含：

接收车辆附近的区域的图像；

使用第一神经网络来处理所述图像以确定在所述图像内行人可能位于那里的一个或多个位置；

使用第二神经网络来处理所述图像的所述一个或多个位置以确定存在行人；以及

通知驾驶辅助系统或自动驾驶系统存在所述行人。

2.如权利要求1所述的方法，其中所述第一神经网络包含训练用于识别在图像内可能包含行人的大概位置的网络。

3.如权利要求1所述的方法，其中所述第一神经网络生成指示行人的最可能位置的显著性地图。

4.如权利要求3所述的方法，其中所述显著性地图包含比所述图像低的分辨率。

5.如权利要求1所述的方法，其中所述第二神经网络在全分辨率下处理在所述图像内的所述一个或多个位置。

6.如权利要求1所述的方法，其中所述第二神经网络包含深度神经网络分类器，已经使用剪裁的地面实况边界框来训练所述深度神经网络分类器以确定行人存在或不存在。

7.如权利要求1所述的方法，其中确定存在行人包含确定所述一个或多个位置中的每一个中是否存在行人。

8.如权利要求1所述的方法，进一步地包含基于所述图像确定所述行人相对于所述车辆的位置。

9.如权利要求1所述的方法，进一步地包含确定关于所述一个或多个位置的优先级，其中处理所述一个或多个位置包含基于所述优先级使用所述第二神经网络来处理。

10.一种系统，所述系统包含：

定位在车辆上以捕捉所述车辆附近的区域的图像的一个或多个摄像机；

显著性部件，所述显著性部件配置成使用第一神经网络来处理所述图像以生成指示在所述图像内行人最可能位于那里的一个或多个区域的低分辨率显著性地图；

检测部件，所述检测部件配置成使用第二神经网络来处理所述一个或多个区域以关于所述一个或多个区域中的每一个确定是否存在行人；以及

配置成提供指示行人的存在或不存在的通知的通知部件。

11.如权利要求10所述的系统，其中所述显著性地图包含比所述图像低的分辨率。

12.如权利要求10所述的系统，其中所述检测部件使用所述第二神经网络以在全分辨率下处理在所述图像内的所述一个或多个位置。

13.如权利要求10所述的系统，其中所述第二神经网络包含深度神经网络分类器，已经使用剪裁的地面实况边界框来训练所述深度神经网络分类器以确定行人存在或不存在。

14.如权利要求10所述的系统，其中所述检测部件配置成确定所述一个或多个区域中的每一个中是否存在行人。

15.如权利要求10所述的系统，其中所述通知部件配置成向输出装置中的一个或多个提供通知以通知驾驶员和自动驾驶系统。

16.如权利要求10所述的系统，进一步地包含配置成确定供车辆执行的驾驶操纵的驾驶操纵部件。

17.一种存储指令的计算机可读存储介质，所述指令当由一个或多个处理器执行时使所述一个或多个处理器：

接收车辆附近的区域的图像；

为驾驶辅助系统或自动驾驶系统提供存在所述行人的指示。

18.如权利要求17所述的计算机可读存储介质，其中使用第一神经网络来处理所述图像包含生成指示所述一个或多个位置的显著性地图，其中所述显著性地图包含比所述图像低的分辨率。

19.如权利要求17所述的计算机可读存储介质，其中所述指令使所述一个或多个处理器确定所述一个或多个位置中的每一个中是否存在行人。

20.如权利要求17所述的计算机可读存储介质，其中所述指令使所述一个或多个处理器确定关于所述一个或多个位置的优先级并且基于所述优先级处理所述一个或多个位置。