CN113428172A

CN113428172A - 使用逆向强化学习的开放空间路径规划

Info

Publication number: CN113428172A
Application number: CN202011030676.7A
Authority: CN
Inventors: 周金运; 罗琦; 姜舒; 陶佳鸣; 王禹; 许稼轩; 许珂诚; 缪景皓; 胡江滔
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2020-03-23
Filing date: 2020-09-27
Publication date: 2021-09-24
Also published as: US20210294340A1; US11656627B2

Abstract

在一个实施方式中，方法确定从开放空间内的自动驾驶车辆(ADV)的第一位置到第二位置的路线，第一位置是ADV的当前位置。方法基于路线确定目标函数，目标函数具有用于操控ADV从第一位置到第二位置的成本集。方法确定开放空间的环境条件，并使用环境条件来确定权重集，每个权重将应用于目标函数的对应成本。方法基于一个或多个约束优化目标函数，使得在满足一个或多个约束时，目标函数的输出达到最小，并用优化的目标函数生成路径轨迹，以根据路径轨迹自动控制ADV。

Description

使用逆向强化学习的开放空间路径规划

技术领域

本公开的实施方式总体涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及使用逆向强化学习的开放空间路径规划。

背景技术

以自动驾驶模式运行(例如，无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时，车辆可使用车载传感器导航到各个位置，从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。

运动规划和控制是自动驾驶中的关键操作。此外，轨迹规划对于操作自动驾驶车辆(ADV)是至关重要的。根据各种约束可以利用开放空间规划器以优化轨迹。根据优化的轨迹，ADV可以生成命令以沿路径控制ADV。然而，在某些情况下，规划器生成的轨迹通常缺乏自动驾驶所需的足够的平滑度。结果，由ADV执行的某些操控可能是突然的，并且是乘客不太期望的。

发明内容

根据本公开的一方面，提供了由自动驾驶车辆执行的计算机实施的方法，所述方法包括：

确定从开放空间内的所述自动驾驶车辆的第一位置到第二位置的路线，所述第一位置是所述自动驾驶车辆的当前位置；

基于所述路线确定目标函数，所述目标函数具有用于操控所述自动驾驶车辆从所述第一位置到所述第二位置的成本集；

基于所述开放空间的一个或多个环境条件确定权重集，每个权重将应用于所述目标函数的对应成本；

根据一个或多个约束优化所述目标函数，使得在满足所述一个或多个约束时，所述目标函数的输出达到最小；以及

用所优化的目标函数生成路径轨迹，以根据所述路径轨迹自动控制所述自动驾驶车辆。

根据本公开的另一方面，提供了具有存储在其中的指令的非暂存性机器可读介质，所述指令在由处理器执行时使所述处理器执行操作，所述操作包括：

确定从开放空间内的自动驾驶车辆的第一位置到第二位置的路线，所述第一位置是所述自动驾驶车辆的当前位置；

根据本公开的又一方面，提供了数据处理系统，包括：

处理器；以及

存储器，联接到所述处理器以存储指令，所述指令在由所述处理器执行时使所述处理器执行操作，所述操作包括：

附图说明

在附图的各图中以举例的方式而非限制的方式示出了各方面，附图中相同附图标记指示相似元件。应注意，对本公开的“一个(an)”或“一个(one)”方面的附图标记不一定是相同的方面，并且它们意指至少一个。而且，为了简洁和减少附图的总数，可以使用给定附图来示出一个以上方面的特征，并且对于给定方面并非图中的所有元件都是必需的。

图1是示出根据一个实施方式的网络化系统的框图。

图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。

图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。

图4示出根据一个实施方式的用于自动驾驶的系统架构的框图。

图5是根据一个实施方式的用于基于环境条件动态地确定一个或多个用于开放空间路径规划的权重的过程的流程图。

图6A和6B是示出根据另一实施方式的静态权重与基于环境条件动态确定的权重之间的差异的阶段。

具体实施方式

现在参照附图阐释本公开的几个实施方式。每当给定方面中所描述的部件的形状、相对位置和其它方面未明确限定时，此处本公开的范围并非仅限于所示出的部分，而仅是为了说明的目的。而且，尽管阐述了许多细节，但是应当理解的是，有些方面没有这些细节也可以实施。在其它情况下，未详细示出公知的电路、结构和技术，以免混淆对本描述的理解。此外，除非含义明显相反，否则本文列出的所有范围均视为包含每个范围的端点。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。

本公开解决了通过基于环境条件来适配路径规划系统，以控制ADV如人工操作员(例如，当在驾驶员座位上时)手动控制那样驾驶，来改善路径规划的质量的问题。如本文所述，路径规划系统可以创建具有一个或多个成本(或成本函数)的目标函数，用于沿路径或路线自动地控制ADV。权重可以关联并应用于每个成本(例如，乘法)，以修改每个成本对总体计算成本的影响。在常规的规划系统中，这些权重是静态的(例如，不改变预定值)。

然而，当前公开中提出的解决方案提供了开放空间路径规划方法，方法基于驾驶条件使用奖励函数来调整(或修改)至少一些权重。具体地，奖励函数是根据逆向强化学习(IRL)框架，通过观察(专业)驾驶员在不同驾驶目标期间的行为而创建的。当创建目标函数时，规划系统确定环境条件(例如，经由ADV的摄像机捕获的图像)，并将条件应用于奖励函数以生成权重(或不同的权重值)。因此，生成的权重(当应用于目标函数时)反映ADV的“类人”控制，从而为乘客提供更愉悦的驾驶体验。

根据一些实施方式，公开了由ADV执行的计算机实施的方法。方法包括确定从开放空间内的ADV的第一位置到第二位置的路线，第一位置是ADV的当前位置。方法基于路线确定目标函数，目标函数具有用于操控ADV从第一位置到第二位置的成本集。方法确定开放(或驾驶)空间的环境条件(或参数)，并使用这些参数确定权重集，每个权重将应用于目标函数的对应成本。方法基于一个或多个约束优化目标函数，使得在满足一个或多个约束的情况下，目标函数的输出达到最小。方法利用优化的目标函数生成路径轨迹，以根据路径轨迹自动地控制ADV。

在一个实施方式中，使用环境条件以确定权重集包括：在环境条件与权重相关联的表中执行表查找，预定义的表是权重的逆向强化学习(IRL)模型，权重表示专业驾驶员针对环境条件的行为。

在另一实施方式中，确定开放空间的环境条件包括：分析由ADV的一个或多个摄像机捕获的图像，以便识别环境条件。在一个实施方式中，环境条件包括在图像内捕获的一个或多个对象相对于ADV的当前位置的位置。在一些实施方式中，环境条件包括在图像内捕获的开放空间的道路特征。

在一个实施方式中，方法还包括：控制ADV以沿所生成的路径轨迹从第一位置操控到第二位置。在一些实施方式中，路线是第一路线，目标函数是第一目标函数，开放空间是第一开放空间，权重集是第一权重集，以及成本集是第一成本集。方法还包括：确定从第二开放空间内的ADV的第二位置到第三位置的第二路线，第二位置是ADV的当前位置；基于第二路线确定第二目标函数，第二目标函数包括用于从第二位置操控到第三位置的第二成本集；确定第二开放空间的环境条件；以及使用第二开放空间的环境条件来确定第二权重集，每个权重将应用于第二目标函数的对应成本。在一些实施方式中，第二权重集中的至少一个权重与第一权重集中的对应权重不同。

在本公开的另一实施方式中，非暂时性机器可读介质和数据处理系统执行如本文所述过程中的至少一些。

图1是示出根据本公开的一个实施方式的自动驾驶车辆网络配置的框图。参考图1，网络配置100包括可通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆(ADV)101。尽管示出一个自动驾驶车辆，但多个自动驾驶车辆可通过网络102联接到彼此和/或联接到服务器103至104。网络102可以是任何类型的网络，例如，有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)、蜂窝网络、卫星网络或其组合。服务器103至104可以是任何类型的服务器或服务器群集，诸如，网络或云服务器、应用服务器、后端服务器或其组合。服务器103至104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或位置服务器等。

自动驾驶车辆是指可配置成处于自动驾驶模式下的车辆，在自动驾驶模式下车辆在极少或没有来自驾驶员的输入的情况下导航通过环境。这种自动驾驶车辆可包括传感器系统，传感器系统具有配置成检测与车辆运行环境有关的信息的一个或多个传感器。车辆和其相关联的控制器使用所检测的信息来导航通过环境。自动驾驶车辆101可在手动模式下、在全自动驾驶模式下或者在部分自动驾驶模式下运行。

在一个实施方式中，自动驾驶车辆101包括，但不限于，感知与规划系统110、车辆控制系统111、无线通信系统112、用户接口系统113和传感器系统115。自动驾驶车辆101还可包括普通车辆中包括的某些常用部件，诸如：发动机、车轮、方向盘、变速器等，部件可由车辆控制系统111和/或感知与规划系统110使用多种通信信号和/或命令进行控制，该多种通信信号和/或命令例如，加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等。

部件110至115可经由互连件、总线、网络或其组合通信地联接到彼此。例如，部件110至115可经由控制器局域网(CAN)总线通信地联接到彼此。CAN总线是设计成允许微控制器和装置在没有主机的应用中与彼此通信的车辆总线标准。它是最初是为汽车内的复用电气布线设计的基于消息的协议，但也用于许多其它环境。

现在参考图2，在一个实施方式中，传感器系统115包括但不限于一个或多个摄像机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光探测和测距(LIDAR)单元215。GPS系统212可包括收发器，收发器可操作以提供关于自动驾驶车辆的位置的信息。IMU单元213可基于惯性加速度来感测自动驾驶车辆的位置和定向变化。雷达单元214可表示利用无线电信号来感测自动驾驶车辆的本地环境内的对象的系统。在一些实施方式中，除感测对象之外，雷达单元214可另外感测对象的速度和/或前进方向。LIDAR单元215可使用激光来感测自动驾驶车辆所处环境中的对象。除其它系统部件之外，LIDAR单元215还可包括一个或多个激光源、激光扫描器以及一个或多个检测器。摄像机211可包括用来采集自动驾驶车辆周围环境的图像的一个或多个装置。摄像机211可以是静物摄像机和/或视频摄像机。摄像机可以是可机械地移动的，例如，通过将摄像机安装在旋转和/或倾斜平台上。

传感器系统115还可包括其它传感器，诸如：声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器以及音频传感器(例如，麦克风)。音频传感器可配置成从自动驾驶车辆周围的环境中采集声音。转向传感器可配置成感测方向盘、车辆的车轮或其组合的转向角度。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情形下，油门传感器和制动传感器可集成为集成式油门/制动传感器。

在一个实施方式中，车辆控制系统111包括但不限于转向单元201、油门单元202(也称为加速单元)和制动单元203。转向单元201用来调整车辆的方向或前进方向。油门单元202用来控制电动机或发动机的速度，电动机或发动机的速度进而控制车辆的速度和加速度。制动单元203通过提供摩擦使车辆的车轮或轮胎减速而使车辆减速。应注意，如图2所示的部件可以以硬件、软件或其组合实施。

返回参考图1，无线通信系统112允许自动驾驶车辆101与诸如装置、传感器、其它车辆等外部系统之间的通信。例如，无线通信系统112可以与一个或多个装置直接无线通信，或者经由通信网络进行无线通信，诸如，通过网络102与服务器103至104通信。无线通信系统112可使用任何蜂窝通信网络或无线局域网(WLAN)，例如，使用WiFi，以与另一部件或系统通信。无线通信系统112可例如使用红外链路、蓝牙等与装置(例如，乘客的移动装置、显示装置、车辆101内的扬声器)直接通信。用户接口系统113可以是在车辆101内实施的外围装置的部分，包括例如关键字、触摸屏显示装置、麦克风和扬声器等。

自动驾驶车辆101的功能中的一些或全部可由感知与规划系统110控制或管理，尤其当在自动驾驶模式下操作时。感知与规划系统110包括必要的硬件(例如，处理器、存储器、存储装置)和软件(例如，操作系统、规划和路线安排程序)，以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息，处理所接收的信息，规划从起始点到目的地点的路线或路径，随后基于规划和控制信息来驾驶车辆101。可替代地，感知与规划系统110可与车辆控制系统111集成在一起。

例如，作为乘客的用户可例如经由用户接口来指定行程的起始位置和目的地。感知与规划系统110获得行程相关数据。例如，感知与规划系统110可从MPOI服务器中获得位置和路线信息，MPOI服务器可以是服务器103至104的一部分。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI。可替代地，此类位置和MPOI信息可本地高速缓存在感知与规划系统110的永久性存储装置中。

当自动驾驶车辆101沿着路线移动时，感知与规划系统110也可从交通信息系统或服务器(TIS)获得实时交通信息。应注意，服务器103至104可由第三方实体进行操作。可替代地，服务器103至104的功能可与感知与规划系统110集成在一起。基于实时交通信息、MPOI信息和位置信息以及由传感器系统115检测或感测的实时本地环境数据(例如，障碍物、对象、附近车辆)，感知与规划系统110可规划最佳路线并且根据所规划的路线例如经由控制系统111来驾驶车辆101，以安全且高效到达指定目的地。

服务器103可以是数据分析系统，从而为各种客户执行数据分析服务。在一个实施方式中，数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从各种车辆(自动驾驶车辆或由人类驾驶员驾驶的常规车辆)收集驾驶统计数据123。驾驶统计数据123包括指示所发出的驾驶指令(例如，油门、制动、转向指令)以及由车辆的传感器在不同的时间点捕捉到的车辆的响应(例如，速度、加速、减速、方向)的信息。驾驶统计数据123还可包括描述不同时间点下的驾驶环境的信息，例如，路线(包括起始位置和目的地位置)、MPOI、道路状况、天气状况等。

基于驾驶统计数据123，出于各种目的，机器学习引擎122生成或训练一组规则、算法和/或预测模型124。在一个实施方式中，模型124可以包括本公开的逆向强化学习(IRL)模型。具体地，IRL模型可以是使用IRL算法推导(或学习)的奖励函数，其中模型表明基于观察到的行为的代理商(或专业驾驶员)的目标或值。特别地，(例如，在实验室设定中)IRL算法可以获得诸如驾驶员的路径轨迹(或动作)和输入状态(例如环境条件，诸如交通状况)的输入，并且算法可以输出(或学习)表示驾驶员观察到的行为的一个或多个权重作为IRL模型。在一个实施方式中，模型可以是包含查找表的数据结构，查找表将IRL算法输出的权重与一个或多个环境条件相关联。本文将描述有关IRL模型的更多信息。

在一个实施方式中，然后能够将算法和/或模型(例如，IRL模型)124上传到ADV上，以在自动驾驶期间实时使用(如由存储在图3A的永久性存储装置352的IRL模型314所示)。在另一实施方式中，可以周期性地(例如，每天一次)上传模型，以便依需要周期性地更新模型。

图3A和图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。系统300可实施为图1的自动驾驶车辆101的一部分，包括但不限于感知与规划系统110、控制系统111和传感器系统115。参考图3A至图3B，感知与规划系统110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、包括开放空间规划模块308的规划模块305、控制模块306和路线安排模块307。

模块301至308中的一些或全部可以以软件、硬件或其组合实施。例如，这些模块可安装在永久性存储装置352中、加载到存储器351中，并且由一个或多个处理器(未示出)执行。应注意，这些模块中的一些或全部可通信地联接到图2的车辆控制系统111的一些或全部模块或者与它们集成在一起。模块301至308中的一些可一起集成为集成模块。

定位模块301确定自动驾驶车辆300的当前位置(例如，利用GPS单元212)以及管理与用户的行程或路线相关的任何数据。定位模块301(又称作为地图与路线模块)管理与用户的行程或路线相关的任何数据。用户可例如经由用户接口登录并且指定行程的起始位置和目的地。定位模块301与自动驾驶车辆300的诸如地图与路线信息311的其它部件通信，以获得行程相关数据。例如，定位模块301可从位置服务器和地图与POI(MPOI)服务器获得位置和路线信息。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI，从而可作为地图与路线信息311的一部分高速缓存。当自动驾驶车辆300沿着路线移动时，定位模块301也可从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息，感知模块302确定对周围环境的感知。感知信息可表示普通驾驶员在驾驶员正驾驶的车辆周围作为环境条件数据313将感知到的东西。环境条件数据313可包括例如采用对象形式的车道配置、交通灯信号、另一车辆的相对位置、行人、建筑物、人行横道或其它交通相关标志(例如，停止标志、让行标志)等。车道配置包括描述一个或多个车道的信息，诸如，例如车道的形状(例如，直线或弯曲)、车道的宽度、道路中的车道数量、单向或双向车道、合并或分开车道、出口车道等。

感知模块302可包括计算机视觉系统或计算机视觉系统的功能，以处理并分析由一个或多个摄像机采集的图像，从而识别自动驾驶车辆环境中作为环境条件数据313的对象和/或特征。对象可包括交通信号、道路边界、其它车辆、行人和/或障碍物等。在一个实施方式中，数据313可以表明对象的空间特征。例如，数据可以表明捕获的图像内的一个或多个对象(例如，其它车辆)的位置(相对于ADV 101的当前位置)。在另一个实施方式中，数据313可以表明对象的特征，诸如识别出的车辆的速度和加速度(的估计)。作为另一个示例，特征可以是ADV所在的开放驾驶空间内的道路特征(例如，车道，道路的曲率等)。计算机视觉系统可使用对象识别算法、视频跟踪以及其它计算机视觉技术。在一些实施方式中，计算机视觉系统可绘制环境地图，跟踪对象，以及估算对象的速度等。感知模块302也可基于由诸如雷达和/或LIDAR的其它传感器提供的其它传感器数据来检测对象。

在一个实施方式中，驾驶/交通规则312可以包括交通信息，诸如ADV附近的建筑交通标志，以便ADV可以避开具有这种建筑标志的车道。在一个实施方式中，规则312可以是环境条件数据313的一部分。

针对每个对象，预测模块303预测对象在这种情况下将如何表现。预测是基于感知数据执行的，该感知数据在考虑一组地图/路线信息311和交通规则312的时间点感知驾驶环境。例如，如果对象为相反方向上的车辆且当前驾驶环境包括十字路口，则预测模块303将预测车辆是否可能会笔直向前移动或转弯。如果感知数据表明十字路口没有交通灯，则预测模块303可能会预测车辆在进入十字路口之前可能需要完全停车。如果感知数据表明车辆目前处于左转唯一车道或右转唯一车道，则预测模块303可能预测车辆将更可能分别左转或右转。

针对每个对象，决策模块304作出关于如何处置对象的决定。例如，针对特定对象(例如，交叉路线中的另一车辆)以及描述对象的元数据(例如，速度、方向、转弯角度)，决策模块304决定如何与对象相遇(例如，超车、让行、停止、超过)。决策模块304可根据诸如交通规则或驾驶规则312的规则集来作出此类决定，规则集可存储在永久性存储装置352中。

路线安排模块307配置成提供从起始点到目的地点的一个或多个路线或路径。对于从起始位置到目的地位置的给定行程，例如从用户接收的给定行程，路线安排模块307获得路线与地图信息311，并确定从起始位置至到达目的地位置的所有可能路线或路径。路线安排模块307可生成地形图形式的参考线，它确定了从起始位置至到达目的地位置的每个路线。参考线是指不受其它诸如其它车辆、障碍物或交通状况的任何干扰的理想路线或路径。即，如果道路上没有其它车辆、行人或障碍物，则ADV应精确地或紧密地跟随参考线。然后，将地形图提供至决策模块304和/或规划模块305。决策模块304和/或规划模块305检查所有可能的路线，以根据由其它模块提供的其它数据选择和更改最佳路线中的一个，其中，其它数据诸如为来自定位模块301的交通状况、由感知模块302感知到的驾驶环境以及由预测模块303预测的交通状况。根据时间点下的特定驾驶环境，用于控制ADV的实际路径或路线可能接近于或不同于由路线安排模块307提供的参考线。

基于针对所感知到的对象中的每个的决定，规划模块305使用由路线安排模块307提供的参考线作为基础，为自动驾驶车辆规划路径或路线以及驾驶参数(例如，距离、速度和/或转弯角度)。换言之，针对给定的对象，决策模块304决定对该对象做什么，而规划模块305确定如何去做。例如，针对给定的对象，决策模块304可决定超过对象，而规划模块305可确定在对象的左侧还是右侧超过。规划模块305的更多信息将在此描述。在一个实施方式中，规划和控制数据由规划模块305生成，包括描述车辆300在下一移动循环(例如，下一路线/路径段)中将如何移动的信息。例如，规划和控制数据可指示车辆300以30英里每小时(mph)的速度移动10米，随后以25mph的速度变到右侧车道。

基于规划和控制数据，控制模块306根据由规划和控制数据限定的路线或路径通过将适当的命令或信号发送到车辆控制系统111来控制并驾驶自动驾驶车辆。规划和控制数据包括足够的信息，以沿着路径或路线在不同的时间点使用适当的车辆设置或驾驶参数(例如，油门、制动、转向命令)将车辆从路线或路径的第一点驾驶到第二点。

在一个实施方式中，规划阶段在多个规划周期(也称作为驾驶周期)中执行，例如，在每个时间间隔为100毫秒(ms)的周期中执行。对于规划周期或驾驶周期中的每一个，将基于规划和控制数据发出一个或多个控制命令。即，对于每100ms，规划模块305规划下一个路线段或路径段，例如，包括目标位置和ADV到达目标位置所需要的时间。可替代地，规划模块305还可规定具体的速度、方向和/或转向角等。在一个实施方式中，规划模块305为下一个预定时段(诸如，5秒)规划路线段或路径段。对于每个规划周期，规划模块305基于在前一周期中规划的目标位置规划用于当前周期(例如，下一个5秒)的目标位置。控制模块306然后基于当前周期的规划和控制数据生成一个或多个控制命令(例如，油门、制动、转向控制命令)。

应注意，决策模块304和规划模块305可集成为集成模块。决策模块304/规划模块305可包括导航系统或导航系统的功能，以确定自动驾驶车辆的驾驶路径。例如，导航系统可确定用于影响自动驾驶车辆沿着以下路径移动的一系列速度和前进方向：路径在使自动驾驶车辆沿着通往最终目的地的基于车行道的路径前进的同时，基本上避免感知到的障碍物。目的地可根据经由用户接口系统113进行的用户输入来设定。导航系统可在自动驾驶车辆正在运行的同时动态地更新驾驶路径。导航系统可将来自GPS系统和一个或多个地图的数据合并，以确定用于自动驾驶车辆的驾驶路径。

在一个实施方式中，开放空间规划模块308可以包含开放空间规划器，其可以配置为在无参考线或行车线要遵循的开放空间中，为ADV 101生成路径轨迹。开放空间的示例包括停车场或车辆执行平行停车、U形转弯或三点转弯的道路。在一个实施方式中，开放空间规划器还可生成具有一条或多条参考线的路径轨迹。

在一个实施方式中，规划器可以确定包含一个或多个成本(或成本函数)的目标函数，例如包含在成本函数315内，目标函数与沿路线导航ADV相关联(如由路线安排模块307确定)。在一个示例中，目标函数可以是

J＝w₁*Cost₁+w₂*Cost₂+w₃*Cost₃+…+w_n*Cost_n

其中，J是计算出的总成本，w_n是对应于Cost_n的权重(例如，可以是值，诸如从0到1的值)。在一个实施方式中，目标函数可以包括一个或多个成本。可以通过最小化目标函数J来优化成本。成本可以包括以下各项中的至少一项：跨轨误差(补偿ADV与目标轨迹的距离)、前进方向误差(补偿在点处ADV前进方向与目标轨迹方向之间的误差)、速度成本(补偿速度变化)、转向成本(补偿转向变化)、加速度成本(补偿加速度变化)、转向变化率(补偿转向变化多快)、制动成本(补偿制动)、加速度变化率(补偿加速度变化的多快)、到目标位置的距离(例如，ADV与识别出的障碍物(诸如如另一辆车)之间的距离，或ADV与目的地之间的距离)、路线(或参考线)的曲率、沿路线的时间效率(例如，从一位置到达目的地位置需要多长时间)、乘客的舒适度(例如，基于由于加速和减速或制动而引起的突然运动)、最小曲率(例如，ADV可能偏离路线或参考线的距离)以及最小曲率变化率。在一个实施方式中，如本文所述，能够生成诸如油门、转向和制动的控制命令(例如，由控制模块306提供的命令)，以最优地跟踪路径轨迹，同时考虑到优化目标函数的成本。

在一个实施方式中，开放空间规划模块308配置为确定至少一些权重w，权重w将应用于目标函数的对应成本。具体地，模块可以获得环境条件数据313，并将数据应用于IRL模型以生成权重。例如，模块可以使用数据313在IRL模型中执行表查找，以识别和选择与数据相关联的权重的至少一些。本文描述了有关确定权重的更多信息。

在一个实施方式中，开放空间规划模块308使用优化模型(例如，二次编程(QP)优化器)来优化目标函数(其中一个或多个确定的权重已应用于一个或多个对应成本)，依据一个或多个约束生成最优路径轨迹。约束可以包括不平等、平等和边界约束。在一个实施方式中，约束可以包括与ADV相关联的特征，诸如ADV的速度(velocity)(例如，速度(speed))范围(例如ADV可以行驶多快)、ADV的加速度范围(例如ADV可以加速和/或减速多快)、ADV前方的距离(例如，ADV与障碍物(诸如位于ADV前方的另一辆车)之间的距离)。在另一实施方式中，约束可以与开放空间有关，诸如开放空间内的速度限制、ADV与道路特征(例如，诸如路缘石)之间的距离、沿路线横穿的道路的阈值曲率等。

如本文所述，控制模块306使用最优路径轨迹以沿路径轨迹控制(或操控)ADV(例如，发出控制命令)。在一个实施方式中，最优路径轨迹可以与由路线安排模块307确定的参考线或路线相同。在另一实施方式中，轨迹可以(略微)与所确定的路线不同。具体地，轨迹可以遵循与路线相同的“常规”路径，意味着轨迹可作出至少一些相同的操控(例如，在0.3英里处左转)。

图4是示出了根据一个实施方式的用于自动驾驶的系统架构的框图。系统架构400可以表示如图3A和3B所示的自动驾驶系统的系统架构。参照图4，系统架构400包括但不限于应用层401、规划与控制(PNC)层402、感知层403、驱动器层404、固件层405和硬件层406。应用层401可以包括与自动驾驶车辆的用户或乘客交互的用户接口或配置应用，例如与用户接口系统113相关联的功能。PNC层402可以至少包括规划模块305和控制模块306的功能。感知层403可以至少包括感知模块302的功能。在一个实施方式中，有包括预测模块303和/或判定模块304的功能的附加层。可替代地，这种功能可以包括在PNC层402和/或感知层403中。系统架构400还包括驱动器层404、固件层405和硬件层406。固件层405可以至少表示传感器系统115的功能，可以以现场可编程门阵列(FPGA)的形式实施。硬件层406可以表示诸如控制系统111的自动驾驶车辆的硬件。层401至403可以经由装置驱动器层404与固件层405和硬件层406通信。

图5是根据一个实施方式的用于基于环境条件动态地确定用于开放空间路径规划的一个或多个权重的过程的流程图。具体地，过程确定(或创建)一个或多个权重(值)以应用于目标函数，以便ADV提供“类人”驾驶体验。该过程可以由ADV(例如，ADV 101)的一个或多个处理器(例如，在硬件层406中)执行。在一个实施方式中，本文描述的操作中的至少一些可由感知和规划系统110的模块301-308中的一个或多个执行，诸如规划模块305(的开放空间规划模块308)。

过程500确定从ADV的第一位置(例如，当前位置)到开放(驾驶)空间内的第二位置的路线(在框501处)。如本文所述，路线安排模块307可以确定(提供)从起始位置到目的地的路线。例如，路线安排模块307可以基于从用户接收的目的地来接收路线和地图数据。在一个实施方式中，所确定的路线可以是集成整个路线的几个路线段中的一个路线段。在一个实施方式中，路线安排模块307可以以包括路线、起始位置和目的地的地形图的形式生成参考线。

过程500基于所确定的路线来确定包括用于操控ADV沿路线从第一位置到第二位置的一个或多个成本的目标函数(在框502处)。例如，开放空间规划模块308可以从与路线相关联的成本函数315中确定一个或多个成本。如本文所述，成本可以包括到目标位置的距离、最小曲率和最小曲率变化率。

过程500确定开放空间的环境条件(在框503处)。如本文所述，一个或多个摄像机211可以捕获包含摄像机视野内的对象的图像。(感知模块302的)计算机视觉系统可以分析图像以识别包含在其中的环境条件。例如，计算机视觉系统可以识别开放空间内的对象(例如，其它车辆)。具体地，条件可以包括相对于ADV(的当前位置)的图像内的对象的位置数据(位置)。例如，位置数据可以是围绕ADV的开放空间的(例如，二维的)地图(ADV在地图的中间)。地图可以包括一个或多个区域，每个区域指定数值，其中一个值(例如，“1”)表示区域内存在对象，而另一个值(例如，“0”)表示空间是无障碍的或没有任何对象。在另一实施方式中，条件可以包括对象的特征(例如，对象相对于ADV移动的速度)。在一些实施方式中，条件可以包括捕获到的图像内包含的道路特征(例如，车道数量、道路曲率、交通信号等)。在一个实施方式中，环境条件可以实时地确定(例如，当ADV在开放空间内导航时)。

过程500使用环境条件以确定权重集，每个权重将应用于目标函数的对应成本(在框504处)。具体地，开放空间规划模块308可以将环境条件应用于一个或多个IRL模型314以确定权重集。例如，如本文所述，模型可以是关联权重的奖励函数的(预定义的)查找表，权重表示专业驾驶员针对环境条件的行为。在该示例中，如本文所述，模块308可以使用所确定的环境条件以识别并选择一个或多个权重，针对目标函数的每个成本，在环境条件与一个或多个成本的权重相关联的查找表中执行表查找。

在一个实施方式中，每个所确定的权重可以应用于(例如，乘以)对应成本。例如，所确定的目标函数可以仅包含成本(例如，不对其施加权重)。规划模块308可以将每个成本乘以对应权重(或权重值)。在另一实施方式中，模块可以通过更新应用于成本的现有权重来施加权重。例如，所确定的目标函数可以包含所施加的权重。在一个实施方式中，权重可以是预定义的权重。当应用所确定的权重时，模块可以将现有权重乘以对应的确定的权重。

过程500依据一个或多个约束优化(例如，使用QP优化器)目标函数(在框505处)，使得在满足一个或多个约束的情况下，目标函数的输出达到最小。例如，优化的目标函数可以是可行的解决方案，使得不会违反任何约束条件。在一个实施方式中，一个或多个约束可以是优化过程期间允许违反的“软”约束。过程500用优化的目标函数生成路径轨迹，以根据路径轨迹自动地控制ADV(在框506)。在一个实施方式中，路径轨迹可以输出(例如，到控制模块306)以控制(或操控)ADV沿所生成的路径轨迹从当前位置到期望的位置。如本文所述，路径轨迹可以与所确定的路线相同或不同。例如，路径轨迹可以比路线“更平滑”。例如，轨迹可以比所确定的路线具有更少的突然运动。

过程500确定ADV是否将行驶到新位置(在决策框507处)。如本文所述，路线可以是路线段。因此，过程可以确定ADV将沿主路线的另一段导航。在另一实施方式中，路线安排模块307可以接收用户希望从当前位置行驶到新位置的数据(例如，地图数据)。如果ADV将行驶到新位置，则过程500返回框501以重复过程500的操作中的至少一些。如本文所述，每次重复过程，一个或多个权重可以不同(例如，来自之前确定的权重)。

一些实施方式执行过程500的变化。例如，过程的特定操作可以不按所示出和描述的确切顺序执行。特定操作可以不在一个连续的操作系列中执行，可以省略一些操作，且不同的特定操作可以在不同的实施方式中执行。

图6A和6B是示出根据另一实施方式的静态权重与基于环境条件动态确定的权重之间的差异的阶段。每个图都示出了ADV 601基于环境条件的变化，动态确定将应用于目标函数的权重。

图6A示出了包括ADV 601和三个障碍物602-604的开放(驾驶)空间600。在一个实施方式中，ADV 601可以与图1的ADV 101相似(或相同)。例如，ADV 601可以包括至少一些系统，诸如感知和规划系统110。在一些实施方式中，开放空间600可以是ADV 601可以行驶的任何空间，诸如停车场。作为另一示例，开放空间可以是道路(例如，有一个或多个车道)。在一个实施方式中，障碍物可以是ADV在通过空间导航时避免接触(例如，保持超过阈值距离，诸如一脚距离)的任何对象。例如，障碍物可能是其它ADV或车辆。在另一个实施方式中，至少一些障碍物可以是静止的障碍物(例如，灯杆)。在一些实施方式中，至少一些障碍物可以与驾驶/交通规则(包含在规则312内)相关联，诸如道路上的涂漆线。

如所示，ADV 601处于开放空间600内的起始(第一)位置705，并且空间还包括目的地位置606。还示出了两个路径轨迹607和608。在一个实施方式中，两个轨迹可以已使用相同的目标函数(例如，具有相同的成本)生成，但有不同的权重。具体地，目标函数可以包括转向成本，如本文所述。使用具静态或预定义的权重的优化的目标函数来生成第一路径轨迹607。例如，应用于转向成本的权重可以较低(例如0.2)，从而允许ADV作出快速转向改变。结果，为了避开障碍物604并到达目的地606，ADV将沿其移动的路径轨迹607使ADV急剧地朝障碍物602转向，然后向目的地直行。然而，由于急剧的转向运动，该轨迹对于乘客可能是不期望的。

另一方面，第二路径轨迹608是使用优化的目标函数生成的，目标函数具有根据环境条件(例如，障碍物的位置)使用IRL模型确定的权重。在这种情况下，来自IRL模型的权重通过增加用于转向成本的权重(例如，至0.8)来提供更“类人”的响应，以便更平稳地围绕障碍物604转向。在一个实施方式中，权重可以是基于开放空间600内至少一个障碍物的位置，诸如障碍物604。

图6B示出了权重可以基于环境条件的变化来动态变化。具体地，该图显示了ADV601将行驶的下一(第二)路线(或路线段)。例如，该图示出了(第二)开放空间700，包括不在开放空间600内的障碍物701和702，还包括在开放空间600内的障碍物603和604。在一个实施方式中，由于障碍物对本文所述的路径轨迹的生成不产生任何影响，因此障碍物602不包括在开放空间700内(图示为虚线)。

在该图中，ADV 601处于起始位置606(图6A中的目的地)，并且空间700具有(新的)目的地位置703。还示出了可以已使用相同的目标函数(可能与图6A中使用的目标函数不同)生成但具有不同权重的两个路径轨迹705和704。具体地，如本文所述，路径轨迹704可以已使用静态权重生成，同时轨迹705可以已使用动态确定的权重生成。同样，用静态权重生成的轨迹704作出急剧的运动(例如，具有应用于转向成本的权重0.2)。然而，轨迹705具有更平滑的转弯。该轨迹以基于环境条件从IRL模型确定的转向权重为权重，使用优化的(第二)目标函数生成。在这种情况下，权重可以小于先前确定的权重(例如0.6)，从而与较高的权重相比，较少地补偿转向成本以便允许ADV作出稍微更陡峭的转弯。

应注意，如上文示出和描述的部件中的一些或全部可在软件、硬件或其组合中实施。例如，此类部件可实施为安装并存储在永久性存储装置中的软件，软件可通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请的过程或操作。可替代地，此类部件可实施为编程或嵌入到专用硬件(诸如，集成电路(例如，专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码，可执行代码可经由来自应用的相应驱动程序和/或操作系统来访问。此外，此类部件可实施为处理器或处理器内核中的特定硬件逻辑，作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式，以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中，算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应当牢记，所有这些和类似的术语均旨在与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出，否则应当了解，在整个说明书中，利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理，计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据，并将数据变换成计算机系统存储器或寄存器或者其它此类信息存储装置、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机构。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可由处理逻辑来执行，处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或两者的组合。尽管过程或方法在上文是依据一些顺序操作来描述的，但是应当了解，操作中的一些可按不同的顺序执行。此外，一些操作可并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到，可使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中，已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是，在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下，可对本发明作出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

在一些实施方式中，本公开可以包括诸如“[元件A]和[元件B]中的至少一个”的语言。该语言可以指一个或多个元件。例如，“A和B中的至少一个”可以指“A”、“B”或“A和B”。具体地，“A和B中的至少一个”可以指“A中的至少一个和B中的至少一个”或“A或B中的至少一个”。在一些实施方式中，本公开可以包括诸如“[元件A]、[元件B]和/或[元件C]”的语言。该语言可以指元件中的任何一个或其任何组合。例如，“A、B和/或C”可以指“A”、“B”、“C”、“A和B”、“A和C”、“B和C”或“A、B和C”。

Claims

1.由自动驾驶车辆执行的计算机实施的方法，所述方法包括：

2.根据权利要求1所述的方法，其中，确定所述权重集包括：在环境条件与权重相关联的表中执行表查找，其中，所述表是权重的逆向强化学习模型，所述权重表示专业驾驶员针对环境条件的行为。

3.根据权利要求1所述的方法，还包括：确定所述开放空间的所述环境条件，包括：

分析由所述自动驾驶车辆的一个或多个摄像机捕获的图像，以识别所述环境条件。

4.根据权利要求3所述的方法，其中，所述环境条件包括在所述图像内捕获的一个或多个对象相对于所述自动驾驶车辆的所述当前位置的位置。

5.根据权利要求3所述的方法，其中，所述环境条件包括在所述图像内捕获的所述开放空间的道路特征。

6.根据权利要求1所述的方法，还包括：控制所述自动驾驶车辆沿所生成的路径轨迹从所述第一位置操控到所述第二位置。

7.根据权利要求6所述的方法，其中，所述路线是第一路线，所述目标函数是第一目标函数，所述开放空间是第一开放空间，所述权重集是第一权重集，并且所述成本集是第一成本集，其中，所述方法还包括：

确定从第二开放空间内的所述自动驾驶车辆的所述第二位置到第三位置的第二路线，所述第二位置是所述自动驾驶车辆的当前位置；

基于所述第二路线确定第二目标函数，所述第二目标函数包括用于从所述第二位置操控到所述第三位置的第二成本集；

确定所述第二开放空间的环境条件；以及

使用所述第二开放空间的所述环境条件以确定第二权重集，每个权重将应用于所述第二目标函数的对应成本。

8.根据权利要求7所述的方法，其中，所述第二权重集中的至少一个所述权重与所述第一权重集中的对应权重不同。

9.具有存储在其中的指令的非暂存性机器可读介质，所述指令在由处理器执行时使所述处理器执行操作，所述操作包括：

10.根据权利要求9所述的机器可读介质，其中，确定所述权重集包括：在环境条件与权重相关联的表中执行表查找，其中，所述表是权重的逆向强化学习模型，所述权重表示专业驾驶员针对环境条件的行为。

11.根据权利要求9所述的机器可读介质，其中，所述操作还包括：确定所述开放空间的所述环境条件，包括：

分析由所述自动驾驶车辆的一个或多个摄像机捕获的图像以便识别所述环境条件。

12.根据权利要求9所述的机器可读介质，其中，所述操作还包括：控制所述自动驾驶车辆沿所生成的路径轨迹从所述第一位置操控到所述第二位置。

13.根据权利要求12所述的机器可读介质，其中，所述路线是第一路线，所述目标函数是第一目标函数，所述开放空间是第一开放空间，所述权重集是第一权重集，并且所述成本集是第一成本集，其中，所述操作还包括：

确定所述第二开放空间的环境条件；以及

14.根据权利要求13所述的机器可读介质，其中，所述第二权重集中的至少一个所述权重与所述第一权重集中的对应权重不同。

15.数据处理系统，包括：

处理器；以及

16.根据权利要求15所述的数据处理系统，其中，确定所述权重集包括：在环境条件与权重相关联的表中执行表查找，其中，所述表是权重的逆向强化学习模型，所述权重表示专业驾驶员针对环境条件的行为。

17.根据权利要求15所述的数据处理系统，其中，所述操作还包括：确定所述开放空间的所述环境条件，包括：

18.根据权利要求15所述的数据处理系统，其中，所述操作还包括：控制所述自动驾驶车辆沿所生成的路径轨迹从所述第一位置操控到所述第二位置。

19.根据权利要求18所述的数据处理系统，其中，所述路线是第一路线，所述目标函数是第一目标函数，所述开放空间是第一开放空间，所述权重集是第一权重集，并且所述成本集是第一成本集，其中，所述操作还包括：

确定所述第二开放空间的环境条件；以及

20.根据权利要求19所述的数据处理系统，其中，所述第二权重集中的至少一个所述权重与所述第一权重集中的对应权重不同。