CN111948938B

CN111948938B - 规划用于自动驾驶车辆的开放空间轨迹的松弛优化模型

Info

Publication number: CN111948938B
Application number: CN201911259979.3A
Authority: CN
Inventors: 何润欣; 周金运; 罗琦; 宋适宇; 缪景皓; 胡江滔; 王禹; 许稼轩; 姜舒
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-05-15
Filing date: 2019-12-10
Publication date: 2023-06-02
Anticipated expiration: 2039-12-10
Also published as: US20200363801A1; CN111948938A; US11409284B2

Abstract

在一个实施方式中，为系统生成开放空间模型以规划ADV在开放空间中的轨迹。系统感知ADV周围的环境，包括一个或多个障碍物。系统基于一个或多个障碍物的约束条件和地图信息，确定开放空间模型的目标函数。系统迭代地：基于第一轨迹对目标函数执行第一二次规划(QP)优化，同时固定目标函数的第一组变量；以及基于第一QP优化的结果对目标函数执行第二QP优化，同时固定目标函数的第二组变量。系统基于第一QP优化和第二QP优化的结果生成第二轨迹，以根据第二轨迹自主地自动地控制ADV。

Description

规划用于自动驾驶车辆的开放空间轨迹的松弛优化模型

技术领域

本公开的实施方式总体涉及操作自动驾驶车辆。更具体地，本公开的实施方式涉及规划用于自动驾驶车辆的开放空间轨迹的松弛优化模型。

背景技术

以自动驾驶模式运行(例如，无人驾驶)的车辆可将乘员、尤其是驾驶员从一些驾驶相关的职责中解放出来。当以自动驾驶模式运行时，车辆可使用车载传感器导航到各个位置，从而允许车辆在最少人机交互的情况下或在没有任何乘客的一些情况下行驶。

运动规划和控制是自动驾驶中的关键操作。然而，传统的运动规划操作主要从其曲率和速度估计完成给定路径的难度，而不考虑不同类型车辆的特征差异。同样的运动规划与控制应用于所有类型的车辆，在某些情况下可能不准确和平滑。

轨迹通常是基于在高清晰度(HD)地图内预先标记的车道/参考线来规划的。这种处理限制了具有完全自动驾驶的自动驾驶车辆的适用场景，例如，在开放空间场景中，其中模型必须在没有参考车道的情况下规划轨迹(例如，停车、U形转弯或三点转弯)，同时避免碰撞。

发明内容

在本公开的一方面，提供了一种用于操作自动驾驶车辆的计算机实施的方法，所述方法包括：

基于自动驾驶车辆(ADV)附近的一个或多个障碍物和地图信息确定开放空间模型的目标函数；

迭代地执行以下操作，直到满足预定的收敛条件，

基于第一轨迹对所述目标函数执行第一二次规划(QP)优化，同时固定所述目标函数的第一组变量，以及

基于所述第一QP优化的结果对所述目标函数执行第二QP优化，同时固定所述目标函数的第二组变量；以及

基于所述第一QP优化和所述第二QP优化的结果生成第二轨迹，以根据所述第二轨迹自动地控制所述ADV。

在本公开的另一方面，提供了一种存储有指令的非暂时性机器可读介质，所述指令在由处理器执行时致使所述处理器执行操作，所述操作包括：

迭代地执行以下操作，直到满足预定的收敛条件，

在本公开的又一方面，提供了一种数据处理系统，包括：

处理器；以及

存储器，所述存储器联接至所述处理器，以存储指令，所述指令在由所述处理器执行时致使所述处理器执行操作，所述操作包括：

迭代地执行以下操作，直到满足预定的收敛条件，

附图说明

本公开的实施方式在附图的各图中以举例而非限制的方式示出，附图中的相同参考标记指示相似元件。

图1是示出根据一个实施方式的网络化系统的框图。

图2是示出根据一个实施方式的自动驾驶车辆的示例的框图。

图3A至图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。

图4是示出根据一个实施方式的开放空间规划模块的示例的框图。

图5是示出根据一个实施方式的开放空间规划模块的工作流程的示例的流程图。

图6是示出根据一个实施方式的示例性方法的流程图。

图7是示出根据另一实施方式的开放空间规划模块的示例的框图。

图8是示出根据一个实施方式使用强化学习代理的系统的示例的框图。

图9是示出根据一个实施方式的示例性方法的流程图。

图10A-10B是示出根据一个实施方式的用于强化学习的机器学习引擎的示例。

图11是示出根据另一实施方式的离线强化学习系统的示例的框图。

图12是示出根据一个实施方式的演员神经网络的示例的框图。

图13是示出根据一个实施方式的示例性环境模型的框图。

图14是示出根据一个实施方式的示例性方法的流程图。

图15是示出根据一个实施方式的数据处理系统的框图。

具体实施方式

将参考以下所讨论的细节来描述本公开的各种实施方式和方面，附图将示出所述各种实施方式。下列描述和附图是本公开的说明，而不应当解释为对本公开进行限制。描述了许多特定细节以提供对本公开的各种实施方式的全面理解。然而，在某些情况下，并未描述众所周知的或常规的细节，以提供对本公开的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合该实施方式所描述的特定特征、结构或特性可包括在本公开的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。

根据第一方面，为系统生成开放空间模型以规划ADV在开放空间中的轨迹。系统感知ADV周围的环境，包括一个或多个障碍物。系统基于一个或多个障碍物的约束条件和地图信息，确定开放空间模型的目标函数。系统迭代地：基于第一轨迹对目标函数执行第一二次规划(QP)优化，同时固定目标函数的第一组变量；以及基于第一QP优化的结果对目标函数执行第二QP优化，同时固定目标函数的第二组变量。系统基于第一QP优化和第二QP优化的结果生成第二轨迹，以根据第二轨迹自主地自动地控制ADV。

根据第二方面，系统使用演员评判家强化学习(RL)模型来生成开放空间中的ADV的轨迹。系统感知ADV周围的环境，包括一个或多个障碍物。系统基于感知的环境将RL算法应用于规划轨迹的初始状态，以基于ADV的地图和车辆控制信息确定ADV达到多个轨迹状态的多个控制。系统根据目标目的地状态通过RL算法为每个控制确定奖励预测。系统通过最大化奖励预测来从轨迹状态生成第一轨迹，以根据第一轨迹来自动地控制ADV。

根据第三方面，系统生成多个驾驶场景来训练RL代理并重放驾驶场景中的每个以通过以下操作训练RL代理：将RL算法应用于驾驶场景的初始状态，以从ADV的多个离散的控制/动作选项中确定多个控制动作，以达到基于多个离散的轨迹状态选项的多个轨迹状态，对于每个控制/动作确定通过RL算法的奖励预测，确定轨迹状态的判断分数，并基于判断分数更新RL代理。

图1是示出根据本公开的一个实施方式的自动驾驶车辆网络配置的框图。参考图1，网络配置100包括可通过网络102通信地联接到一个或多个服务器103至104的自动驾驶车辆101。尽管示出一个自动驾驶车辆，但多个自动驾驶车辆可通过网络102联接到彼此和/或联接到服务器103至104。网络102可以是任何类型的网络，例如，有线或无线的局域网(LAN)、诸如互联网的广域网(WAN)、蜂窝网络、卫星网络或其组合。服务器103至104可以是任何类型的服务器或服务器群集，诸如，网络或云服务器、应用服务器、后端服务器或其组合。服务器103至104可以是数据分析服务器、内容服务器、交通信息服务器、地图和兴趣点(MPOI)服务器或位置服务器等。

自动驾驶车辆是指可配置成处于自动驾驶模式下的车辆，在所述自动驾驶模式下车辆在极少或没有来自驾驶员的输入的情况下导航通过环境。这种自动驾驶车辆可包括传感器系统，所述传感器系统具有配置成检测与车辆运行环境有关的信息的一个或多个传感器。所述车辆和其相关联的控制器使用所检测的信息来导航通过所述环境。自动驾驶车辆101可在手动模式下、在全自动驾驶模式下或者在部分自动驾驶模式下运行。

在一个实施方式中，自动驾驶车辆101包括，但不限于，感知与规划系统110、车辆控制系统111、无线通信系统112、用户接口系统113和传感器系统115。自动驾驶车辆101还可包括普通车辆中包括的某些常用部件，诸如：发动机、车轮、方向盘、变速器等，所述部件可由车辆控制系统111和/或感知与规划系统110使用多种通信信号和/或命令进行控制，该多种通信信号和/或命令例如，加速信号或命令、减速信号或命令、转向信号或命令、制动信号或命令等。

部件110至115可经由互连件、总线、网络或其组合通信地联接到彼此。例如，部件110至115可经由控制器局域网(CAN)总线通信地联接到彼此。CAN总线是设计成允许微控制器和装置在没有主机的应用中与彼此通信的车辆总线标准。它是最初是为汽车内的复用电气布线设计的基于消息的协议，但也用于许多其它环境。

现在参考图2，在一个实施方式中，传感器系统115包括但不限于一个或多个摄像机211、全球定位系统(GPS)单元212、惯性测量单元(IMU)213、雷达单元214以及光探测和测距(LIDAR)单元215。GPS单元212可包括收发器，所述收发器可操作以提供关于自动驾驶车辆的位置的信息。IMU单元213可基于惯性加速度来感测自动驾驶车辆的位置和定向变化。雷达单元214可表示利用无线电信号来感测自动驾驶车辆的本地环境内的对象的系统。在一些实施方式中，除感测对象之外，雷达单元214可另外感测对象的速度和/或前进方向。LIDAR单元215可使用激光来感测自动驾驶车辆所处环境中的对象。除其它系统部件之外，LIDAR单元215还可包括一个或多个激光源、激光扫描器以及一个或多个检测器。摄像机211可包括用来采集自动驾驶车辆周围环境的图像的一个或多个装置。摄像机211可以是静物摄像机和/或视频摄像机。摄像机可以是可机械地移动的，例如，通过将摄像机安装在旋转和/或倾斜平台上。

传感器系统115还可包括其它传感器，诸如：声纳传感器、红外传感器、转向传感器、油门传感器、制动传感器以及音频传感器(例如，麦克风)。音频传感器可配置成从自动驾驶车辆周围的环境中采集声音。转向传感器可配置成感测方向盘、车辆的车轮或其组合的转向角度。油门传感器和制动传感器分别感测车辆的油门位置和制动位置。在一些情形下，油门传感器和制动传感器可集成为集成式油门/制动传感器。

在一个实施方式中，车辆控制系统111包括但不限于转向单元201、油门单元202(也称为加速单元)和制动单元203。转向单元201用来调整车辆的方向或前进方向。油门单元202用来控制电动机或发动机的速度，电动机或发动机的速度进而控制车辆的速度和加速度。制动单元203通过提供摩擦使车辆的车轮或轮胎减速而使车辆减速。应注意，如图2所示的部件可以以硬件、软件或其组合实施。

返回参考图1，无线通信系统112允许自动驾驶车辆101与诸如装置、传感器、其它车辆等外部系统之间的通信。例如，无线通信系统112可以与一个或多个装置直接无线通信，或者经由通信网络进行无线通信，诸如，通过网络102与服务器103至104通信。无线通信系统112可使用任何蜂窝通信网络或无线局域网(WLAN)，例如，使用WiFi，以与另一部件或系统通信。无线通信系统112可例如使用红外链路、蓝牙等与装置(例如，乘客的移动装置、显示装置、车辆101内的扬声器)直接通信。用户接口系统113可以是在车辆101内实施的外围装置的部分，包括例如键盘、触摸屏显示装置、麦克风和扬声器等。

自动驾驶车辆101的功能中的一些或全部可由感知与规划系统110控制或管理，尤其当在自动驾驶模式下操作时。感知与规划系统110包括必要的硬件(例如，处理器、存储器、存储装置)和软件(例如，操作系统、规划和路线安排程序)，以从传感器系统115、控制系统111、无线通信系统112和/或用户接口系统113接收信息，处理所接收的信息，规划从起始点到目的地点的路线或路径，随后基于规划和控制信息来驾驶车辆101。可替代地，感知与规划系统110可与车辆控制系统111集成在一起。

例如，作为乘客的用户可例如经由用户接口来指定行程的起始位置和目的地。感知与规划系统110获得行程相关数据。例如，感知与规划系统110可从MPOI服务器中获得位置和路线信息，所述MPOI服务器可以是服务器103至104的一部分。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI。可替代地，此类位置和MPOI信息可本地高速缓存在感知与规划系统110的永久性存储装置中。

当自动驾驶车辆101沿着路线移动时，感知与规划系统110也可从交通信息系统或服务器(TIS)获得实时交通信息。应注意，服务器103至104可由第三方实体进行操作。可替代地，服务器103至104的功能可与感知与规划系统110集成在一起。基于实时交通信息、MPOI信息和位置信息以及由传感器系统115检测或感测的实时本地环境数据(例如，障碍物、对象、附近车辆)，感知与规划系统110可规划最佳路线并且根据所规划的路线例如经由控制系统111来驾驶车辆101，以安全且高效到达指定目的地。

服务器103可以是数据分析系统，从而为各种客户执行数据分析服务。在一个实施方式中，数据分析系统103包括数据收集器121和机器学习引擎122。数据收集器121从各种车辆(自动驾驶车辆或由人类驾驶员驾驶的常规车辆)收集驾驶统计数据123。驾驶统计数据123包括指示所发出的驾驶指令(例如，油门、制动、转向指令)以及由车辆的传感器在不同的时间点捕捉到的车辆的响应(例如，速度、加速、减速、方向)的信息。驾驶统计数据123还可包括描述不同时间点下的驾驶环境的信息，例如，路线(包括起始位置和目的地位置)、MPOI、道路状况、天气状况等。

基于驾驶统计数据123，出于各种目的，机器学习引擎122生成或训练一组规则、算法和/或预测模型124。在一个实施方式中，算法/模型124可包括用来模拟ADV的车辆动力学的自行车模型、用来规划ADV在开放空间中的轨迹的开放空间优化模型或RL代理/环境模型。然后算法/模型124可上传到ADV(例如，图3A的模型313)上以由ADV实时使用。

图3A和图3B是示出根据一个实施方式的与自动驾驶车辆一起使用的感知与规划系统的示例的框图。系统300可实施为图1的自动驾驶车辆101的一部分，包括但不限于感知与规划系统110、控制系统111和传感器系统115。参考图3A至图3B，感知与规划系统110包括但不限于定位模块301、感知模块302、预测模块303、决策模块304、规划模块305、控制模块306、路线安排模块307和开放空间规划模型308。

模块301至308中的一些或全部可以以软件、硬件或其组合实施。例如，这些模块可安装在永久性存储装置352中、加载到存储器351中，并且由一个或多个处理器(未示出)执行。应注意，这些模块中的一些或全部可通信地联接到图2的车辆控制系统111的一些或全部模块或者与它们集成在一起。模块301至308中的一些可一起集成为集成模块。例如，规划模块305和开放空间规划模型308可以是集成模块。

定位模块301确定自动驾驶车辆300的当前位置(例如，利用GPS单元212)以及管理与用户的行程或路线相关的任何数据。定位模块301(又称作为地图与路线模块)管理与用户的行程或路线相关的任何数据。用户可例如经由用户接口登录并且指定行程的起始位置和目的地。定位模块301与自动驾驶车辆300的诸如地图与路线信息311的其它部件通信，以获得行程相关数据。例如，定位模块301可从位置服务器和地图与POI(MPOI)服务器获得位置和路线信息。位置服务器提供位置服务，并且MPOI服务器提供地图服务和某些位置的POI，从而可作为地图与路线信息311的一部分高速缓存。当自动驾驶车辆300沿着路线移动时，定位模块301也可从交通信息系统或服务器获得实时交通信息。

基于由传感器系统115提供的传感器数据和由定位模块301获得的定位信息，感知模块302确定对周围环境的感知。感知信息可表示普通驾驶员在驾驶员正驾驶的车辆周围将感知到的东西。感知可包括例如采用对象形式的车道配置、交通灯信号、另一车辆的相对位置、行人、建筑物、人行横道或其它交通相关标志(例如，停止标志、让行标志)等。车道配置包括描述一个或多个车道的信息，诸如，例如车道的形状(例如，直线或弯曲)、车道的宽度、道路中的车道数量、单向或双向车道、合并或分开车道、出口车道等。

感知模块302可包括计算机视觉系统或计算机视觉系统的功能，以处理并分析由一个或多个摄像机采集的图像，从而识别自动驾驶车辆环境中的对象和/或特征。所述对象可包括交通信号、道路边界、其它车辆、行人和/或障碍物等。计算机视觉系统可使用对象识别算法、视频跟踪以及其它计算机视觉技术。在一些实施方式中，计算机视觉系统可绘制环境地图，跟踪对象，以及估算对象的速度等。感知模块302也可基于由诸如雷达和/或LIDAR的其它传感器提供的其它传感器数据来检测对象。

针对每个对象，预测模块303预测对象在这种情况下将如何表现。预测是基于感知数据执行的，该感知数据在考虑一组地图/路线信息311和交通规则312的时间点感知驾驶环境。例如，如果对象为相反方向上的车辆且当前驾驶环境包括十字路口，则预测模块303将预测车辆是否可能会笔直向前移动或转弯。如果感知数据表明十字路口没有交通灯，则预测模块303可能会预测车辆在进入十字路口之前可能需要完全停车。如果感知数据表明车辆目前处于左转唯一车道或右转唯一车道，则预测模块303可能预测车辆将更可能分别左转或右转。

针对每个对象，决策模块304作出关于如何处置对象的决定。例如，针对特定对象(例如，交叉路线中的另一车辆)以及描述对象的元数据(例如，速度、方向、转弯角度)，决策模块304决定如何与所述对象相遇(例如，超车、让行、停止、超过)。决策模块304可根据诸如交通规则或驾驶规则312的规则集来作出此类决定，所述规则集可存储在永久性存储装置352中。

路线安排模块307配置成提供从起始点到目的地点的一个或多个路线或路径。对于从起始位置到目的地位置的给定行程，例如从用户接收的给定行程，路线安排模块307获得路线与地图信息311，并确定从起始位置至到达目的地位置的所有可能路线或路径。路线安排模块307可生成地形图形式的参考线，它确定了从起始位置至到达目的地位置的每个路线。参考线是指不受其它诸如其它车辆、障碍物或交通状况的任何干扰的理想路线或路径。即，如果道路上没有其它车辆、行人或障碍物，则ADV应精确地或紧密地跟随参考线。然后，将地形图提供至决策模块304和/或规划模块305。决策模块304和/或规划模块305检查所有可能的路线，以根据由其它模块提供的其它数据选择和更改最佳路线中的一个，其中，其它数据诸如为来自定位模块301的交通状况、由感知模块302感知到的驾驶环境以及由预测模块303预测的交通状况。根据时间点下的特定驾驶环境，用于控制ADV的实际路径或路线可能接近于或不同于由路线安排模块307提供的参考线。

基于针对所感知到的对象中的每个的决定，规划模块305使用由路线安排模块307提供的参考线作为基础，为自动驾驶车辆规划路径或路线以及驾驶参数(例如，距离、速度和/或转弯角度)。换言之，针对给定的对象，决策模块304决定对该对象做什么，而规划模块305确定如何去做。例如，针对给定的对象，决策模块304可决定超过所述对象，而规划模块305可确定在所述对象的左侧还是右侧超过。规划和控制数据由规划模块305生成，包括描述车辆300在下一移动循环(例如，下一路线/路径段)中将如何移动的信息。例如，规划和控制数据可指示车辆300以30英里每小时(mph)的速度移动10米，随后以25mph的速度变到右侧车道。

基于规划和控制数据，控制模块306根据由规划和控制数据限定的路线或路径通过将适当的命令或信号发送到车辆控制系统111来控制并驾驶自动驾驶车辆。所述规划和控制数据包括足够的信息，以沿着路径或路线在不同的时间点使用适当的车辆设置或驾驶参数(例如，油门、制动、转向命令)将车辆从路线或路径的第一点驾驶到第二点。

在一个实施方式中，规划阶段在多个规划周期(也称作为驾驶周期)中执行，例如，在每个时间间隔为100毫秒(ms)的周期中执行。对于规划周期或驾驶周期中的每一个，将基于规划和控制数据发出一个或多个控制命令。即，对于每100ms，规划模块305规划下一路线段或路径段，例如，包括目标位置和ADV到达目标位置所需要的时间。可替代地，规划模块305还可规定具体的速度、方向和/或转向角等。在一个实施方式中，规划模块305为下一预定时段(诸如，5秒)规划路线段或路径段。对于每个规划周期，规划模块305基于在前一周期中规划的目标位置规划用于当前周期(例如，下一5秒)的目标位置。控制模块306然后基于当前周期的规划和控制数据生成一个或多个控制命令(例如，油门、制动、转向控制命令)。

应注意，决策模块304和规划模块305可集成为集成模块。决策模块304/规划模块305可包括导航系统或导航系统的功能，以确定自动驾驶车辆的驾驶路径。例如，导航系统可确定用于影响自动驾驶车辆沿着以下路径移动的一系列速度和前进方向：所述路径在使自动驾驶车辆沿着通往最终目的地的基于车行道的路径前进的同时，基本上避免感知到的障碍物。目的地可根据经由用户接口系统113进行的用户输入来设定。导航系统可在自动驾驶车辆正在运行的同时动态地更新驾驶路径。导航系统可将来自GPS系统和一个或多个地图的数据合并，以确定用于自动驾驶车辆的驾驶路径。

图4是示出根据一个实施方式的开放空间规划模块的示例的框图。开放空间规划模块308可以生成ADV在开放空间中的轨迹，在开放空间中没有要跟随的参考线或车道。开放空间的示例包括停车场，或车辆执行平行停车、U形转弯或三点转弯的道路。参考图4，在一个实施方式中，开放空间规划模块308包括环境感知模块401、目标函数确定器模块403、约束确定器模块405、对偶(dual)变量预热模块407、轨迹生成器模块409和混合A*搜索模块411。环境感知模块401可以感知ADV的环境。目标函数确定器模块403可以确定用于优化模型(例如，开放空间优化模型421(作为图3A的模型313的一部分))的目标函数以进行优化。约束确定器模块405可以确定优化模型的约束。约束可以包括不等式、等式和有界约束。对偶变量预热模块407可以将二次规划求解器应用到目标(对象)函数，以求解受到某些约束的一个或多个变量(例如对偶/两个变量)，其中目标函数是二次函数。轨迹生成器模块409可以基于所求解的变量生成轨迹。混合A*搜索模块411可以使用诸如A*搜索算法或混合A*搜索算法的搜索算法来搜索初始轨迹(Z字形、非光滑轨迹，不考虑观察到的障碍物)。

图5是示出根据一个实施方式的ADV的开放空间规划模块的工作流程的示例的流程图。参考图5，在操作501中，处理逻辑从HD地图提取环境约束，并且从预测模块提取移动障碍物约束以生成开放空间优化问题，并初始化用于优化算法约束的矩阵/向量。在一个实施方式中，优化模型(例如图4的模型421，作为图3A的模型313的一部分)可以预先生成并上载在ADV上。约束可以包括从车辆到开放道路边界的距离、可通行道路的尺寸、路缘以及一个或多个障碍物。障碍物可以包括移动障碍物，如汽车和移动的行人，以及不移动的障碍物，如建筑物、封锁和围栏。移动障碍物可以通过预测模块进行处理，以确定移动障碍物在之后某一时间点的预测位置。这些障碍物和约束可以被建模成用于优化算法的矩阵和向量。

对于控制的对象和障碍物的优化算法的示例可以给出如下：

使得/>

h(x_k+u_k)≤0，λ≥0，以及μ≥0，

其中x_k是离散时间步长k的轨迹，x₀＝x(0)是初始点，并且x_N+1＝x_F是轨迹的终点，且x_k+1＝f(x_k+u_k)。这里，u_k可以是车辆控制输入，例如车辆的前进方向角、速度和加速度，并且f是描述车辆动力学的车辆动力学模型，例如车辆的自行车模型。h(x_k+u_k)包括车辆的限制，例如车辆的最大前进方向比、速度和加速度。矩阵A和向量b与车辆周围的一个或多个障碍物的尺寸和位置有关。在这里，障碍物可以建模为多边形。g^T和G^T分别与ADV的大小和位置有关。λ和μ描述表示障碍物与车辆之间距离的对偶变量，R是旋转矩阵，基于车辆的参考方向测量车辆相对于障碍物的旋转。但是，注意在没有初始轨迹的情况下，某些变量可能不被初始化，例如，在没有初始轨迹的情况下R没有被定义。

对于操作502，处理逻辑可以将混合A*搜索算法应用于简化的车辆模型，以使用初始和目的地状态作为输入参数来搜索初始(粗)轨迹。这里，混合A*搜索可以将状态空间(x，y，θ方向)划分为一个或多个分支，并在状态空间网格分支内执行树搜索。树搜索可以使用简化的车辆模型来遍历所有分支节点，以生成将初始状态连接到目的地状态的粗轨迹。简化的车辆模型可以是简单的自行车模型，其可以在模拟ADV的转向范围内以多个速度行驶，或者粗轨迹可以简单的是连接两点的具有最短距离的步进(step-wise)函数。然而，生成的粗轨迹可能是Z字形的，并且可能未考虑任何周围的障碍物。基于粗轨迹，可以因此确定上述优化问题的一些变量。这样的变量的示例包括R，其中R是旋转矩阵，基于车辆的参考方向来测量车辆相对于障碍物的旋转。

对于操作503，在一个实施方式中，可以将开放空间优化问题或优化算法松弛到具有待求解的二次目标函数的算法中。二次目标函数可以是：

其中

/>

h(x_k+u_k)≤0，λ≥0，以及μ≥0，

然后可以用二次规划算法求解松弛的二次函数，该算法比内点凸数值方法计算效率高，内点凸数值方法将以其他方式需要求解非松弛开放空间优化问题。在一个实施方式中，松弛的二次目标函数是图4的模型421的一部分。

对于操作504，处理逻辑固定(fix)对偶变量(例如，第一组向量变量)，并使用QP求解器来求解松弛的开放空间优化问题，以获得规划轨迹和控制序列。例如，QP算法被应用于求解方程

其中向量λ、μ被设置为一些初始常数值。

对于操作505，处理逻辑固定控制和轨迹值(例如，x、u作为第二组向量变量)，并利用QP求解器来求解松弛的开放空间优化问题，以更新对偶变量，例如，

其中向量x、u被设置为来自操作504的结果的值。接下来，可以重复操作504，将λ、μ设置为操作505的结果。然后，可以迭代地执行操作504和505，直到变量(例如，x、u、λ、μ)收敛为止。如果后续迭代的结果在先前迭代的结果的预定阈值内，则变量可以收敛。一旦输出值收敛，则在操作506，处理逻辑基于操作504-505的结果生成输出轨迹x_{(K＝0…N+1)}。注意x₀是初始轨迹状态，x_N+1＝x_F是最终轨迹状态。

图6是示出根据一个实施方式的示例性方法的流程图。过程600可以由处理逻辑来执行，该处理逻辑可以包括软件、硬件或其组合。例如，过程600可以由图4的开放空间规划模块308执行。参照图6，在框601，处理逻辑感知ADV周围的环境，包括一个或多个障碍物。在框602，处理逻辑基于一个或多个障碍物和地图信息的约束来确定开放空间模型的目标函数。在框603，处理逻辑迭代地基于第一轨迹(例如，粗轨迹)在目标函数上执行第一二次规划(QP)优化，同时固定第一组变量(例如，λ、μ)。在框604，处理逻辑基于第一QP优化的结果在目标函数上执行第二QP优化，同时固定第二组变量(例如，x、u)。在框605，处理逻辑基于第一和第二QP优化的结果生成第二轨迹，以根据第二轨迹自动地控制ADV。

在一个实施方式中，处理逻辑进一步将混合A*搜索算法应用于开放空间模型或可替换的简化车辆模型以生成第一轨迹。在一个实施方式中，第一组变量包括与障碍物和ADV之间距离的计算有关的对偶变量。在一个实施方式中，第二组变量包括用于控制ADV和轨迹的变量。

在一个实施方式中，目标函数包括用于第一和第二QP优化的二次成本函数。在一个实施方式中，开放空间模型将在不跟随参考线或交通线的情况下生成ADV的轨迹。在一个实施方式中，开放空间模型包括ADV的车辆动力学模型。

图7是示出根据另一实施方式的开放空间规划模块的示例的框图。开放空间规划模块308可以在开放空间中使用RL代理生成ADV的轨迹，其中不存在要跟随的参考线或业务通道。参考图7，在一个实施方式中，开放空间规划模块308包括环境感知模块701、RL代理模块703、轨迹生成器模块705和标准确定器模块707。环境感知模块701可以感知ADV的环境。感知的环境包括感知障碍物的位置和大小的信息。环境还可以包括地图和地理信息、停车场的形状和大小以及/或者用于ADV的道路。感知的信息可以进一步包括关于ADV的信息，例如ADV的位置、速度和目标停车点。RL代理模块703可以将RL代理(例如，RL代理/环境模型721，作为图3A的模型313的一部分)应用至ADV的观察的环境，例如ADV的初始轨迹状态。RL代理721可以包括actor-critic(演员评判家)框架，其中演员包括用来确定针对给定状态的ADV的控制或动作的策略决定，评判家包括用来基于给定状态确定动作的值或奖励预测的测量方案。该环境模型可以对ADV的感知环境、车辆动力学、车辆控制限制和奖励等级或评分标准进行建模，使得该环境模型能够基于ADV的动作和当前轨迹状态生成实际奖励和下一轨迹状态。因此，RL代理和环境模型可以迭代地生成多个下一轨迹状态(例如，输出轨迹)和多个控制/动作。计分度量可以包括计分方案，以评估RL代理是否规划具有在目标点的最终轨迹状态的轨迹，轨迹是否平滑，轨迹是否避开所有感知的障碍物。

参照演员评判家框架，在一个实施方式中，演员包括第一神经网络，评判家包括第二神经网络。在另一实施方式中，评判家包括评分等式/公式。第一和第二神经网络可以是深度神经网络。轨迹生成器模块705可以基于ADV的当前轨迹状态来生成ADV的轨迹，以控制ADV到达目的地状态。标准确定器模块707可以包含判断逻辑，以比较RL代理的输出轨迹(作为RL代理721的一部分)。该比较可以基于参考轨迹，其可以是来自优化模型(作为图4的优化模型421的一部分)的输出轨迹。判断逻辑可以确定比较结果是否导致低于阈值的差异。

图8是示出根据一个实施方式使用强化学习代理的系统的示例的框图。系统800可以生成在开放空间环境中ADV的驾驶轨迹，例如停车场，其中开放空间环境可能没有参考轨迹或交通标记来引导ADV。参考图8，在一个实施方式中，系统800包括接收输入801的RL代理803。RL代理803可以与环境模型808交互以通过将强化学习算法应用于输入801来生成离散的轨迹状态(例如，x₀…x_F)和控制(例如，u₀…u_F)。轨迹和控制输出通过标准评估809(例如，由标准确定器模块707执行)。标准评估809可以评估由RL代理803生成的轨迹/控制是否满足阈值标准(或阈值判断分数)的列表，如果是，则将轨迹和控制输出到输出811。如果判断分数不满足，则标准评估809可以触发输出811以输出来自开放空间优化模型421的控制的第二轨迹/第二列表。在一个实施方式中，可以基于来自开放空间优化模型421的反馈来确定阈值标准。例如，开放空间优化模型421可以输出轨迹和控制(作为参考轨迹)到标准评估809，以与RL代理803的输出进行比较。因此，RL代理803可以从它与优化模型421的输出相比的动作和经验中学习。如上所述，开放空间优化模型421可以包括ADV的车辆动力学模型。应注意，强化学习(RL)指的是这样类型的机器学习技术，其使代理(例如，RL代理803)能够在交互环境(例如，环境模型808)中使用其动作和经验的反馈、通过试错法来学习。机器学习(ML)涉及用来执行特定任务(这里，生成驾驶轨迹)、而不使用显式指令的算法和统计模型，而是依赖于模式和推断。

在一个实施方式中，RL代理803包括演员评判家框架。演员可以包括策略函数生成器，用于从当前轨迹状态生成控制(或动作)列表，评判家包括值函数，用于确定由演员生成的控制的值预测。在一个实施方式中，演员评论框架包括联接到评判家神经网络807的演员神经网络805。在一个实施方式中，演员神经网络805和/或评判家神经网络807是彼此隔离的深度神经网络。在另一实施方式中，演员神经网络805和评判家神经网络807并行运行。注意，神经网络(作为机器学习的一部分)是基于在一系列隐藏层或内层中的大量的神经单元或神经元的计算方法。每个隐藏层由一组神经元组成，其中每个神经元连接到前一层的一个或多个神经元，并且其中单层中的神经元可以完全独立地工作，并且可以不与该层的其他神经元共享任何连接。神经网络是自学习和训练的，而不是显式编程的。深度神经网络是具有两个或更多个隐藏层的神经网络。

在一个实施方式中，演员神经网络可以包括多层感知器(MLP)。MLP是前馈神经网络，其至少包括输入层、一个或多个具有第一组权重的隐藏层、以及输出层。演员神经网络805的输入层可以接收输入801。输入801可以包括感知环境的信息和ADV的车辆控制信息。例如，环境信息可以包括感知障碍物的位置和大小，以及地图和地理信息，车辆的控制信息可以包括关于ADV的信息，例如当前位置、速度、方向和目标位置、方向、速度等。在一个实施方式中，评判家神经网络可以包括MLP。评判家神经网络包括一个或多个隐藏层，其包括必须与演员神经网络的第一组权重分开优化的第二组权重。注意，隐藏层和/或输出层可以具有不同的激活功能，例如线性、S形、tanh、RELU、softmax等。

参照图8，在每个离散的时间步长，演员NN 805接收当前轨迹状态并生成控制/动作。环境模型808接收控制动作，生成奖励和下一轨迹状态，并将奖励和下一轨迹状态传递回RL代理803。RL代理803的演员NN 805使用下一轨迹状态来生成后续的控制动作。这些操作可以重复，直到下一轨迹状态处于目标轨迹状态(例如，目的地位置)，或者迭代达到最大阈值计数。在一个实施方式中，评判家NN 807基于当前轨迹状态和控制动作执行奖励预测，以评估特定控制动作有多好。RL代理803的评判家NN 807还可以使用由环境模型808生成的实际奖励来更新其奖励预测。

在一个实施方式中，对于每个时间步长，演员NN 805可以基于评判家NN 807的结果更新其第一组权重，并且评判家NN 807可以基于演员NN 805的结果更新其第二组权重，基于时间差(TD)学习。实际上，可以在车辆运行时在线更新RL代理/环境模型。注意，TD学习指的是强化学习的过程，以学习如何预测取决于给定状态的未来值的值。一旦知道实际的奖励值结果，就会调整奖励/值预测。TD学习调整权重，使得下一迭代的预测更准确。

基于状态(例如，第一轨迹)和控制动作，标准模块809可以确定RL代理803的输出是否满足预定的标准列表。该标准可包括1)ADV轨迹的最终状态是否在目的地点，具有正确的车辆前进方向，2)轨迹是否平滑，以及3)是否避免与所有障碍物碰撞的轨迹的标准。如果满足标准列表，则标准模块809触发输出811以输出第一轨迹和/或控制/动作。如果不满足标准列表，则标准模块809可以触发开放空间优化模型421以产生第二轨迹和/或控制动作，并通过输出811输出第二轨迹和/或控制动作。

图9是示出根据一个实施方式的示例性方法的流程图。过程900可以由处理逻辑来执行，该处理逻辑可以包括软件、硬件或其组合。例如，过程900可以由图7的开放空间规划模块308执行。参照图9，在框901，处理逻辑感知包括一个或多个障碍物的ADV周围的环境。在框902，处理逻辑基于所感知的环境将加强学习(RL)算法应用于规划轨迹的初始状态，以基于ADV的地图和车辆控制信息来确定ADV达到轨迹状态列表(例如，之后状态)的控制列表，在框903，处理逻辑根据目标目的地状态通过RL算法为多个控制中的每个确定奖励预测。在框904，处理逻辑通过最大化奖励预测从轨迹状态生成第一轨迹，以根据第一轨迹自动控制ADV。

在一个实施方式中，处理逻辑将判断逻辑应用到第一轨迹，以确定第一轨迹的判断分数。在另一个实施方式中，判断分数包括第一轨迹是否在目的地状态结束、第一轨迹是否平滑、以及第一轨迹是否避开感知环境的一个或多个障碍的分数。

在一个实施方式中，如果判断分数低于预定阈值，则处理逻辑进一步基于开放空间优化模型生成第二轨迹，以根据第二轨迹自动地控制ADV。在另一个实施方式中，开放空间优化模型用来生成ADV的轨迹，而无需跟随参考线或交通线。

在另一个实施方式中，开放空间优化模型包括ADV的车辆动力学模型。在另一个实施方式中，RL算法由演员神经网络和评判家神经网络来执行，其中演员神经网络和评判家神经网络是深度神经网络。

图10A-10B是示出根据一个实施方式的用于强化学习的机器学习引擎的示例的框图。图1的服务器103的机器学习引擎122可用于离线加速RL代理的训练。参考图10A，在一个实施方式中，机器学习引擎122包括诸如场景生成模块1001、场景重放模块1003和RL训练模块1005的模块。场景生成模块1001可以生成用于RL训练的训练场景。场景是以终端状态结束的状态/动作序列。当场景结束时，演员返回到初始状态。例如，用于RL训练的场景可以是用来生成从初始状态到最终状态(例如，目的地点)、或被认为是最终的高清晰度(HD)地图的感兴趣区域内的状态的驾驶轨迹的状态序列。场景不同于驾驶场景，因为驾驶场景描述特定的驾驶事件。驾驶场景可以包括一个或多个场景。场景重放模块1003可以重放场景。RL训练模块1005可以使用场景的重放来训练RL代理。

图10B示出了用于训练RL代理的示例性框图。参考图10B，在一个实施方式中，在框1011，机器学习引擎122生成一个或多个驾驶场景。示例性场景可以限制为在道路上U形转弯的轨迹生成(具有初始和最终轨迹状态)、或停车场内的自停车操纵。所生成的场景可以包括初始位置(例如，初始状态)、指定的最终目的地(例如，最终状态)和ADV处于场景的初始位置的二维(2D)俯视视图图像。机器学习引擎122然后将训练RL代理以将ADV从场景的初始位置操纵到指定最终目的地。在框1013，机器学习引擎122可以重放场景来训练RL代理。场景重放允许RL代理与环境模型交互，并通过试错法来学习。训练(例如，框1011和框1013)可以重复，直到RL代理已经达到最佳奖励(例如，收敛)或直到训练已经达到最大训练迭代计数为止。在框1015，经训练的RL代理被保存到算法/模型124中，算法/模型124之后可以部署到ADV上。

图11是示出根据另一实施方式的离线强化学习系统的示例的框图。系统1100可以由图1的服务器103的机器学习引擎122执行。参考图11，在一个实施方式中，系统1100包括待训练的RL代理803，其包括演员神经网络805和评判家神经网络807(例如，演员评判家框架)。演员NN 805可以基于当前轨迹状态生成控制动作。评判家NN 807可以基于控制动作和当前轨迹状态生成奖励预测(根据最终轨迹状态预测控制动作有多好)。基于奖励预测，可以训练或更新演员NN 805以提高其控制动作输出。RL代理803联接到环境模型(状态)1109。环境模型(状态)1109可以基于控制动作生成下一轨迹状态。因此，RL代理803可以与环境模型(状态)1109交互，以迭代地输出多个轨迹状态(例如，x₀…x_F、轨迹)和多个控制动作(例如，u₀…u_F、控制和/或动作)，用于RL代理以操纵ADV从初始轨迹状态(例如，x₀)到最终轨迹状态(如x_F)。RL代理803可以联接到环境模型(奖励)1111，其可以为输出轨迹生成实际奖励并向RL代理803提供反馈。奖励可以反馈给RL代理803，以进一步更新评判家神经网络807。奖励可以是根据基于模型的轨迹输出(例如，来自优化模型(诸如图4的优化模型421)的输出)，基于多个标准(例如第一轨迹是否在指定的目的地状态结束，第一个轨迹是否平滑，以及第一个轨迹是否避免与场景中的一个或多个障碍物发生碰撞)来客观地评估轨迹的分数。注意，环境模型(状态)1109和环境模型(奖励)1111可以是图10A的环境模型721的不同实例。

图12是示出根据一个实施方式的演员神经网络(NN)的示例的框图。演员NN 1200可以表示图11的演员NN 805。参考图12，演员NN 1200包括NN 1207和CNN 1205。对于每一个时间步长，NN 1207可以从卷积NN(CNN)1205接收一个或多个特征，并且从环境模型(未示出)接收当前轨迹状态1201，以生成离散的控制动作1209。CNN 1205可以从具有最终轨迹状态(或最终位置)的驾驶场景(例如，2D俯视图像)的感兴趣区域(ROI)1203中提取一个或多个特征。注意，特征指CNN的输入并表示输入数据的属性。

注意，在机器学习中，卷积神经网络(CNN)通常由输入和输出层以及多个隐藏层组成。CNN的隐藏层通常由卷积层，RELU层(即激活函数)，池化层，完全连接层和归一化层组成，即，一层中的每个神经元都连接到下一层的所有神经元。CNN是一类常用于视觉图像的NN。注意，离散的控制动作1209指的是针对特定时间步长的单个车辆控制或动作(来自多个可能的控制和/或动作选项)。ROI包括关于障碍物、其他车辆、可通行道路、路缘等的信息，与感兴趣区域的场景有关的信息。控制输出的示例可以是在前进方向上右转10度，并将油门加到加速器(例如，前进方向、速度、加速度)。

图13是示出根据一个实施方式的示例性环境模型的框图。环境模型1300可以表示图11的环境模型(状态)1109或环境模型(奖励)1111。环境模型1300可以对ADV的模拟环境(例如，环境模型(状态)1109或图11的环境模型(奖励)1111)建模，以与RL代理交互以加快强化学习。环境模型1300可以表示图10A中的环境模型721。参考图13，环境模型1300可以包括ADV的车辆动力学模型1301。车辆动力学模型1301可以建模车辆动力学系统。模型1301可包括自行车车辆模型。模型1301可进一步对轮胎打滑进行建模以对ADV进行建模。基于模型1301，环境模型1300可为离散的车辆动作(如u₀…u_F)得出多个离散的车辆控制选项(如转向、油门或制动)1303。基于允许的控制/动作选项1303，环境模型1300可以得出在车辆动力学模型的限制范围内的最终位置1305。环境模型1300还可以得出奖励策略来对不同的轨迹进行评分。奖励策略可以为轨迹是否到达最终位置(例如，x_F，最终轨迹状态)1305、轨迹的加速度是否平滑、轨迹是否成Z字以及轨迹是否避开所有障碍物而评分。规划的最终位置1305被并入到2D俯视图(例如，具有ROI映射的图像)中的一个或多个驾驶场景感兴趣区域(ROI)1307中。然后，环境模型1300可以离散化ROI以生成多个轨迹状态选项1309。ROI是指神经网络中对图像进行处理和分析的感兴趣区域。在这里，每个驾驶场景均可以包括一个或多个ROI。

图14是示出根据一个实施方式的示例性方法的框图。过程1400可以由处理逻辑来执行，该处理逻辑可以包括软件、硬件或其组合。例如，过程1400可以由图1的机器学习引擎122执行。参考图14，在框1401，处理逻辑生成多个驾驶场景来训练RL代理。在框1402，处理逻辑重放每个驾驶场景，以通过以下操作来训练RL代理，在框1403，将强化学习(RL)算法应用于驾驶场景的初始状态，以从多个离散的控制动作选项中确定多个控制动作，以便使ADV从多个离散的轨迹状态选项达到多个轨迹状态，在框1404，对于每个控制动作，由RL算法确定奖励预测，在框1405，确定轨迹状态(例如，生成的轨迹)的判断分数(例如，奖励)，并且在框1406，基于判断分数(例如，奖励)更新RL代理。

在一个实施方式中，离散的控制动作选项基于ADV的车辆动力学模型生成。在一个实施方式中，离散的轨迹状态选项是通过根据最终目的地轨迹状态对每个驾驶场景的感兴趣区域离散化而生成的。

在一个实施方式中，判断分数包括第一轨迹是否在计划的目的地状态结束，第一轨迹是否平滑，并且第一轨迹是否避免环境模型的一个或多个障碍物的分数。在一个实施方式中，每个驾驶方案包括一个或多个感兴趣区域。

在一个实施方式中，RL代理包括演员神经网络和评判家神经网络，其中演员和评判家神经网络是深度神经网络。在另一个实施方式中，演员神经网络包括卷积神经网络。

应注意，如上文示出和描述的部件中的一些或全部可在软件、硬件或其组合中实施。例如，此类部件可实施为安装并存储在永久性存储装置中的软件，所述软件可通过处理器(未示出)加载在存储器中并在存储器中执行以实施贯穿本申请所述的过程或操作。可替代地，此类部件可实施为编程或嵌入到专用硬件(诸如，集成电路(例如，专用集成电路或ASIC)、数字信号处理器(DSP)或现场可编程门阵列(FPGA))中的可执行代码，所述可执行代码可经由来自应用的相应驱动程序和/或操作系统来访问。此外，此类部件可实施为处理器或处理器内核中的特定硬件逻辑，作为可由软件部件通过一个或多个特定指令访问的指令集的一部分。

图15是示出可与本公开的一个实施方式一起使用的数据处理系统的示例的框图。例如，系统1500可表示以上所述的执行上述过程或方法中的任一个的任何数据处理系统，例如，图1的感知与规划系统110或者服务器103至104中的任一个。系统1500可包括许多不同的部件。这些部件可实施为集成电路(IC)、集成电路的部分、分立电子装置或适用于电路板(诸如，计算机系统的主板或插入卡)的其它模块或者实施为以其它方式并入计算机系统的机架内的部件。

还应注意，系统1500旨在示出计算机系统的许多部件的高阶视图。然而，应当理解的是，某些实施例中可具有附加的部件，此外，其它实施例中可具有所示部件的不同布置。系统1500可表示台式计算机、膝上型计算机、平板计算机、服务器、移动电话、媒体播放器、个人数字助理(PDA)、智能手表、个人通信器、游戏装置、网络路由器或集线器、无线接入点(AP)或中继器、机顶盒或其组合。此外，虽然仅示出了单个机器或系统，但是术语“机器”或“系统”还应当理解为包括单独地或共同地执行一个(或多个)指令集以执行本文所讨论的任何一种或多种方法的机器或系统的任何集合。

在一个实施方式中，系统1500包括通过总线或互连件1510连接的处理器1501、存储器1503以及装置1505至1508。处理器1501可表示其中包括单个处理器内核或多个处理器内核的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器，诸如，微处理器、中央处理单元(CPU)等。更具体地，处理器1501可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、或实施其它指令集的处理器、或实施指令集组合的处理器。处理器1501还可以是一个或多个专用处理器，诸如，专用集成电路(ASIC)、蜂窝或基带处理器、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、网络处理器、图形处理器、通信处理器、加密处理器、协处理器、嵌入式处理器、或者能够处理指令的任何其它类型的逻辑。

处理器1501(其可以是低功率多核处理器套接口，诸如超低电压处理器)可充当用于与所述系统的各种部件通信的主处理单元和中央集线器。这种处理器可实施为片上系统(SoC)。处理器1501配置成执行用于执行本文所讨论的操作和步骤的指令。系统1500还可包括与可选的图形子系统1504通信的图形接口，图形子系统1504可包括显示控制器、图形处理器和/或显示装置。

处理器1501可与存储器1503通信，存储器1503在一个实施方式中可经由多个存储器装置实施以提供给定量的系统存储。存储器1503可包括一个或多个易失性存储(或存储器)装置，诸如，随机存取存储器(RAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、静态RAM(SRAM)或者其它类型的存储装置。存储器1503可存储包括由处理器1501或任何其它装置执行的指令序列的信息。例如，各种操作系统、装置驱动程序、固件(例如，输入输出基本系统或BIOS)和/或应用的可执行代码和/或数据可加载到存储器1503中并由处理器1501执行。操作系统可以是任何类型的操作系统，例如，机器人操作系统(ROS)、来自

公司的

操作系统、来自苹果公司的Mac/>

//>

来自/>

公司的/>

LINUX、UNIX，或者其它实时或嵌入式操作系统。

系统1500还可包括IO装置，诸如装置1505至1508，包括网络接口装置1505、可选的输入装置1506，以及其它可选的IO装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(NIC)。所述无线收发器可以是WiFi收发器、红外收发器、蓝牙收发器、WiMax收发器、无线蜂窝电话收发器、卫星收发器(例如，全球定位系统(GPS)收发器)或其它射频(RF)收发器或者它们的组合。NIC可以是以太网卡。

输入装置1506可包括鼠标、触摸板、触敏屏幕(其可与显示装置1504集成在一起)、指针装置(诸如，手写笔)和/或键盘(例如，物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如，输入装置1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可使用多种触敏技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种，以及其它接近传感器阵列或用于确定与触摸屏接触的一个或多个点的其它元件来检测其接触和移动或间断。

IO装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和/或电话功能。其它IO装置1507还可包括通用串行总线(USB)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如，PCI-PCI桥)、传感器(例如，诸如加速度计运动传感器、陀螺仪、磁强计、光传感器、罗盘、接近传感器等)或者它们的组合。装置1507还可包括成像处理子系统(例如，摄像机)，所述成像处理子系统可包括用于促进摄像机功能(诸如，记录照片和视频片段)的光学传感器，诸如电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510，而诸如键盘或热传感器的其它装置可根据系统1500的具体配置或设计由嵌入式控制器(未示出)控制。

为了提供对诸如数据、应用、一个或多个操作系统等信息的永久性存储，大容量存储装置(未示出)也可联接到处理器1501。在各种实施方式中，为了实现更薄且更轻的系统设计并且改进系统响应性，这种大容量存储装置可经由固态装置(SSD)来实施。然而，在其它实施方式中，大容量存储装置可主要使用硬盘驱动器(HDD)来实施，其中较小量的SSD存储装置充当SSD高速缓存以在断电事件期间实现上下文状态以及其它此类信息的非易失性存储，从而使得在系统活动重新启动时能够实现快速通电。另外，闪存装置可例如经由串行外围接口(SPI)联接到处理器1501。这种闪存装置可提供系统软件的非易失性存储，所述系统软件包括所述系统的BIOS以及其它固件。

存储装置1508可包括计算机可访问的存储介质1509(也称为机器可读存储介质或计算机可读介质)，其上存储有体现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如，模块、单元和/或逻辑1528)。处理模块/单元/逻辑1528可表示上述部件中的任一个，例如图1的机器学习引擎122、规划模块305、控制模块306和图3A的开放空间规划模型308。处理模块/单元/逻辑1528还可在其由数据处理系统1500、存储器1503和处理器1501执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内，数据处理系统1500、存储器1503和处理器1501也构成机器可访问的存储介质。处理模块/单元/逻辑1528还可通过网络经由网络接口装置1505进行传输或接收。

计算机可读存储介质1509也可用来永久性地存储以上描述的一些软件功能。虽然计算机可读存储介质1509在示例性实施方式中被示为单个介质，但是术语“计算机可读存储介质”应当被认为包括存储所述一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的高速缓存和服务器)。术语“计算机可读存储介质”还应当被认为包括能够存储或编码指令集的任何介质，所述指令集用于由机器执行并且使得所述机器执行本公开的任何一种或多种方法。因此，术语“计算机可读存储介质”应当被认为包括但不限于固态存储器以及光学介质和磁性介质，或者任何其它非暂时性机器可读介质。

本文所述的处理模块/单元/逻辑1528、部件以及其它特征可实施为分立硬件部件或集成在硬件部件(诸如，ASICS、FPGA、DSP或类似装置)的功能中。此外，处理模块/单元/逻辑1528可实施为硬件装置内的固件或功能电路。此外，处理模块/单元/逻辑1528可以以硬件装置和软件部件的任何组合来实施。

应注意，虽然系统1500示出为具有数据处理系统的各种部件，但是并不旨在表示使部件互连的任何特定架构或方式；因为此类细节和本公开的实施方式没有密切关系。还应当认识到，具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其它数据处理系统也可与本公开的实施方式一起使用。

前述详细描述中的一些部分已经根据在计算机存储器内对数据位的运算的算法和符号表示而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方式，以将他们的工作实质最有效地传达给本领域中的其他技术人员。本文中，算法通常被认为是导致所期望结果的自洽操作序列。这些操作是指需要对物理量进行物理操控的操作。

然而，应当牢记，所有这些和类似的术语均旨在与适当的物理量关联，并且仅仅是应用于这些量的方便标记。除非在以上讨论中以其它方式明确地指出，否则应当了解，在整个说明书中，利用术语(诸如所附权利要求书中所阐述的术语)进行的讨论是指计算机系统或类似电子计算装置的动作和处理，所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(电子)量的数据，并将所述数据变换成计算机系统存储器或寄存器或者其它此类信息存储装置、传输或显示装置内类似地表示为物理量的其它数据。

本公开的实施方式还涉及用于执行本文中的操作的设备。这种计算机程序存储在非暂时性计算机可读介质中。机器可读介质包括用于以机器(例如，计算机)可读的形式存储信息的任何机构。例如，机器可读(例如，计算机可读)介质包括机器(例如，计算机)可读存储介质(例如，只读存储器(“ROM”)、随机存取存储器(“RAM”)、磁盘存储介质、光存储介质、闪存存储器装置)。

前述附图中所描绘的过程或方法可由处理逻辑来执行，所述处理逻辑包括硬件(例如，电路、专用逻辑等)、软件(例如，体现在非暂时性计算机可读介质上)或两者的组合。尽管所述过程或方法在上文是依据一些顺序操作来描述的，但是应当了解，所述操作中的一些可按不同的顺序执行。此外，一些操作可并行地执行而不是顺序地执行。

本公开的实施方式并未参考任何特定的编程语言进行描述。应认识到，可使用多种编程语言来实施如本文描述的本公开的实施方式的教导。

在以上的说明书中，已经参考本公开的具体示例性实施方式对本公开的实施方式进行了描述。将显而易见的是，在不脱离所附权利要求书中阐述的本公开的更宽泛精神和范围的情况下，可对本发明作出各种修改。因此，应当在说明性意义而不是限制性意义上来理解本说明书和附图。

Claims

1.一种用于操作自动驾驶车辆的计算机实施的方法，所述方法包括：

基于自动驾驶车辆附近的一个或多个障碍物和地图信息确定开放空间模型的目标函数；

迭代地执行以下操作，直到满足预定的收敛条件，

基于第一轨迹对所述目标函数执行第一二次规划优化，同时固定所述目标函数的第一组变量，所述第一组变量包括用于计算所述一个或多个障碍物中的每个障碍物与所述自动驾驶车辆之间的距离的对偶变量；以及

基于所述第一二次规划优化的结果对所述目标函数执行第二二次规划优化，同时固定所述目标函数的第二组变量；以及基于所述第一二次规划优化和所述第二二次规划优化的结果生成第二轨迹，以根据所述第二轨迹自动地控制所述自动驾驶车辆。

2.根据权利要求1所述的方法，还包括将混合A星(A*)搜索算法应用于所述开放空间模型以生成所述第一轨迹。

3.根据权利要求1所述的方法，其中，所述第二组变量包括用于控制所述自动驾驶车辆和轨迹的变量。

4.根据权利要求1所述的方法，其中，所述目标函数包括用于所述第一二次规划优化和所述第二二次规划优化的二次成本函数。

5.根据权利要求1所述的方法，其中，所述开放空间模型用来生成所述自动驾驶车辆的轨迹，而无需跟随参考线或交通线。

6.根据权利要求1所述的方法，其中，所述开放空间模型包括用于所述自动驾驶车辆的车辆动力学模型。

7.一种存储有指令的非暂时性机器可读介质，所述指令在由处理器执行时致使所述处理器执行操作，所述操作包括：

迭代地执行以下操作，直到满足预定的收敛条件，

基于第一轨迹对所述目标函数执行第一二次规划优化，同时固定所述目标函数的第一组变量，所述第一组变量包括用于计算所述障碍物中的每个障碍物与所述自动驾驶车辆之间的距离的对偶变量；以及

8.根据权利要求7所述的非暂时性机器可读介质，其中，所述操作还包括将混合A星(A*)搜索算法应用于所述开放空间模型以生成所述第一轨迹。

9.根据权利要求7所述的非暂时性机器可读介质，其中，所述第二组变量包括用于控制所述自动驾驶车辆和轨迹的变量。

10.根据权利要求7所述的非暂时性机器可读介质，其中，所述目标函数包括用于所述第一二次规划优化和所述第二二次规划优化的二次成本函数。

11.根据权利要求7所述的非暂时性机器可读介质，其中，所述开放空间模型用来生成所述自动驾驶车辆的轨迹，而无需跟随参考线或交通线。

12.根据权利要求7所述的非暂时性机器可读介质，其中，所述开放空间模型包括用于所述自动驾驶车辆的车辆动力学模型。

13.一种数据处理系统，包括：

处理器；以及

迭代地执行以下操作，直到满足预定的收敛条件，

基于第一轨迹对所述目标函数执行第一二次规划优化，同时固定所述目标函数的第一组变量，所述第一组变量包括与障碍物和所述自动驾驶车辆之间的距离计算有关的对偶变量；以及

14.根据权利要求13所述的系统，其中，所述操作还包括将混合A星(A*)搜索算法应用于所述开放空间模型以生成所述第一轨迹。

15.根据权利要求13所述的系统，其中，所述第二组变量包括用于控制所述自动驾驶车辆和轨迹的变量。

16.根据权利要求13所述的系统，其中，所述目标函数包括用于所述第一二次规划优化和所述第二二次规划优化的二次成本函数。

17.根据权利要求13所述的系统，其中，所述开放空间模型用来生成所述自动驾驶车辆的轨迹，而无需跟随参考线或交通线。

18.根据权利要求13所述的系统，其中，所述开放空间模型包括用于所述自动驾驶车辆的车辆动力学模型。