CN109407660A

CN109407660A - 使用策略触发和执行的自主行为控制

Info

Publication number: CN109407660A
Application number: CN201810896703.5A
Authority: CN
Inventors: P·帕拉尼萨梅; U·P·穆达里戈
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2017-08-18
Filing date: 2018-08-08
Publication date: 2019-03-01
Anticipated expiration: 2038-08-08
Also published as: US10474149B2; US20190056737A1; DE102018119867B4; DE102018119867A1; CN109407660B

Abstract

一种车辆、系统和操作车辆的方法。在一个示例性实施例中，公开了一种用于操作自主车辆的方法。环境传感器获得车辆的外部实体的一个或多个参数。车辆的处理器在自主车辆处获得具有目的地的路线；构建路线的马尔可夫状态模型，其包括用于自主车辆的多个状态以及外部实体的一个或多个参数；产生用于导航该路线的多个驾驶策略；使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略；以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。

Description

使用策略触发和执行的自主行为控制

引言

本公开涉及一种用于导航自主车辆的系统和方法，并且更具体地涉及一种用于控制自主车辆的行为以导航通过选定路线的决策过程。

自主驾驶提供了在没有来自驾驶员或乘客的输入的情况下操作车辆的能力而不是提供目的地。通过意外的道路事件进行推理以便做出驾驶决策所需的处理水平超出了脚本规则和预定义知识库的能力。因此，期望提供一种展示社会可接受的驾驶行为的自主驾驶系统和方法。

发明内容

在一个示例性实施例中，公开了一种操作自主车辆的方法。该方法包括在自主车辆处获得具有目的地的路线；构建包括用于自主车辆的多个状态的路线的马尔可夫状态模型；产生用于导航该路线的多个驾驶策略，其中每个驾驶策略包括在多个状态中的进展；使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略；以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。

当车辆导航该路线时更新车辆的状态，并且基于更新的车辆状态来确定更新的策略。确定多个驾驶策略中的每一个的预期奖励值，其中驾驶策略的奖励值指示驾驶策略在安全且平稳地推进自主车辆朝向目的地中的有效性，并且基于具有选定奖励值来选择策略。在一个实施例中，选定策略进一步包括具有最大预期奖励值但没有惩罚的策略。在自主车辆处执行选定策略包括在车辆处执行动作以根据该策略推进车辆朝向该路线的目的地。

车辆的状态包括自主车辆的姿态向量、运动学向量、环境信息向量以及致动器状态中的至少一个。环境信息向量包括环境中的外部实体和交通管制装置的参数。

在另一个示例性实施例中，公开了一种用于操作自主车辆的系统。该系统包括环境传感器和处理器，该环境传感器被配置为获得车辆的外部实体的一个或多个参数。该处理器被配置为在自主车辆处获得具有目的地的路线；构建路线的马尔可夫状态模型，其包括用于自主车辆的多个状态以及外部实体的一个或多个参数；产生用于导航该路线的多个驾驶策略，其中每个驾驶策略包括在多个状态中的进展；使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略；以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。

处理器进一步被配置为在车辆导航该路线时更新车辆的状态，并且基于更新的车辆状态来确定更新的策略。该处理器进一步被配置为确定多个驾驶策略中的每一个的预期奖励值，其中驾驶策略的奖励值指示驾驶策略在推进自主车辆朝向目的地中的有效性；并且选择具有选定奖励值的策略。在一个实施例中，选定策略是具有最大预期奖励值但没有惩罚的策略。在一个实施例中，该处理器通过在车辆处执行动作以推进自主车辆朝向目的地来在自主车辆处执行选定策略。

在又一示例性实施例中，公开了一种自主车辆。该自主车辆包括环境传感器，该环境传感器被配置为获得车辆的外部实体的一个或多个参数。该处理器被配置为在自主车辆处获得具有目的地的路线；构建路线的马尔可夫状态模型，其包括用于自主车辆的多个状态以及外部实体的一个或多个参数；产生用于导航该路线的多个驾驶策略，其中每个驾驶策略包括在多个状态中的进展；使用马尔可夫决策过程从多个驾驶策略中选择用于导航该路线的策略；以及在自主车辆处执行选定策略以将车辆沿着该路线朝向目的地导航。

处理器进一步被配置为在车辆导航该路线时更新车辆的状态，并且基于更新的车辆状态来确定更新的策略。该处理器进一步被配置为确定多个驾驶策略中的每一个的预期奖励值，其中驾驶策略的奖励值指示驾驶策略在推进自主车辆朝向目的地中的有效性；并且选择具有选定奖励值的策略。在一个实施例中，选定策略是具有最大预期奖励值但没有惩罚的策略。

从以下结合附图的具体实施方式中，本公开的以上特征和优点以及其它特征和优点将容易显而易见。

附图说明

其它特征、优点和细节仅借助于示例出现在具体实施方式中，该详细描述参考附图，其中：

图1示出了相对于环境中的各种外部实体导航路线的车辆的平面图。

图2示出了包括用于车辆的说明性路线的区域的平面图；

图3示出了说明性路线的选定部分的第一人称视图；

图4示出了图3中所示的说明性路线的选定部分的第三人称视图；

图5示出了用于在状态之间移动的车辆状态和动作的表示，称为马尔可夫状态模型；

图6示出了包括叠加在图4的第三人称视图上的多个车辆状态的第三人称视图；

图7是说明用于使车辆导航路线的状态的策略或进展的示意图；

图8示出了在一个实施例中用于选择用于导航路线的策略的流程图；并且

图9示出了可以在车辆处采取的动作的说明性数据库。

具体实施方式

具体实施方式仅仅具有示例性本质并且不旨在限制本公开、其应用或用途。应当理解的是，在整个附图中，对应的附图标号指示相同或对应的部分和特征。

根据本公开的示例性实施例，图1示出了相对于环境100中的各种外部实体118导航路线的车辆102的平面图。在一个实施例中，车辆102是自主驾驶或自动驾驶车辆。外部实体118可以包括诸如其它车辆、行人、骑车人、动物、静止物体等物体。车辆102包括用于检测外部实体118的状态或参数(诸如它们的范围、速度、加速度等)的各种环境传感器104。示例性环境传感器104可以包括但不限于雷达、激光雷达、相机等。仅出于说明目的，外部实体118是车辆，并且环境传感器104是雷达系统，其通过从车辆102发射电磁脉冲114并从外部实体118接收电磁脉冲114的反射116来检测外部实体118，由此确定外部实体118的参数，诸如其相对速度、范围方位角位置等。

车辆102进一步包括一个或多个内部状态传感器106，其用于测量与车辆102的内部操作有关的参数。例如，内部状态传感器106可以包括制动传感器、加速度传感器、方向盘传感器或测量车辆102的运动参数(诸如推进、制动、转向等)的其它传感器。内部状态传感器106的测量值可以用于确定车辆102的当前状态。

车辆102进一步包括用于车辆102的操作的各种致动装置108。示例性致动装置108可以包括但不限于制动致动器、推进或节流阀致动器、转向致动器等。这些致动装置108使车辆102加速、减速、转向、停止、换挡、变向等。来自内部状态传感器106的测量值以及致动装置108的操作可以用于实现车辆102的自主驾驶。车辆102进一步包括通信模块110，其向远程位置或远程处理器120提供通信链路115以便发射和接收数据。在一个实施例中，远程处理器120可以通常根据处理器112的请求提供使车辆102进行导航的路线规划。

车辆102进一步包括执行本文公开的车辆导航方法的处理器112。处理器112接收路线并且使用如本文所讨论的马尔可夫决策过程来确定导航路线的方法。处理器112从环境传感器104接收外部实体118的参数，并且从内部状态传感器106接收车辆102的内部参数。处理器112根据这些参数来确定车辆102的状态的策略或进展，其使得自主车辆102能够导航路线。在一个实施例中，处理器112基于路线计划、关于车辆102和其外部实体118的环境的测量值以及关于车辆102的内部状态的测量值来导航车辆102。然后，处理器112控制车辆102的致动装置108以便在车辆102处提供一个或多个动作，以使车辆102在车辆102处的状态进展内移动，由此操作车辆102。在各种实施例中，处理器112周期性地重新计算状态进展。

图2示出了包括用于车辆102的说明性路线202的区域的平面图202。说明性路线202包括起点204和目的地206。路线202通常不是连接起点204和目的地206的直线。相反，路线202可以包括沿着现有道路和区域的路径定义的各种连续轨道。例如，说明性路线202包括中间点208、210和212。第一轨道202a将起点204与第一中间点208连接。第二轨道202b将第一中间点208与第二中间点210连接。第三轨道202c将第二中间点210与第三中间点212连接。第四轨道202d将第三中间点212与目的地206连接。在大多数情况下，轨道202a-d是线性路径。然而，这不是轨道202a-d的必要条件。另外，可以将轨道解析为子轨道直到实现线性路径的可接受的近似。

图3示出了说明性路线202的选定部分的第一人称视图300。第一人称视图300是指车辆102或车辆驾驶员所看到的视图。第一人称视图300示出了第一轨道202a、第一中间点208以及第二轨道202b。

图4示出了图3中所示的说明性路线202的选定部分的第三人称视图400。第三人称视图400示出了第一轨道202a、第一中间点208以及第二轨道202b。可以看出，第二轨道202b包括多个交通车道。

图5示出了用于在状态之间移动的车辆状态和动作的表示500，称为马尔可夫状态模型。圆圈表示车辆的状态。车辆的状态包括例如指示车辆的位置、定向等的车辆的姿态向量、指示车辆的速度、加速度或挡位的车辆的运动学向量、转向致动器的角度、车辆的节流阀水平、车辆的制动水平以及可以指示车辆的当前位置、运动和/或方向的任何其它参数。车辆的状态可以进一步包括为车辆环境所特有的信息，诸如车辆与交通标志的接近度、道路标记、外部实体的位置和速度等。动作由箭头示出并且将车辆从一个状态变为另一个状态。这些动作可包括但不限于加速、制动以及转向。例如，如果车辆处于特定状态，诸如空转，则可以对车辆执行加速动作以便将车辆的状态从空转改变为以选定速度向前移动。

在一个实施例中，车辆102的处理器112确定适合于使车辆102导航通过路线202的状态的进展。一旦接收到路线，处理器112就将路线解析为多个轨道。处理器112创建状态的策略或进展，并且覆盖与关于路线或轨道的策略对应的车辆102的预期进展。马尔可夫决策过程确定策略的预期奖励值，其指示策略在推进车辆102朝向其目的地206中的有效性。在一个实施例中，处理器112创建多个策略并且确定多个策略中的每个策略的预期奖励值。然后，处理器112选择具有最佳奖励值的策略，并且在车辆102处实施策略以将车辆102沿着路线202导航。

图6示出了包括叠加在图4的第三人称视图上的多个车辆状态的第三人称视图600。在每个状态下，车辆102基于更新的车辆状态并考虑环境内的外部实体的活动的更新测量值来重新计算并选择另一个策略。参考图6，第一组状态S1-S11是确定性的，因为车辆沿着直线202a行驶并且在第一中间点208处减速停车。一旦车辆进入交叉路口，由于第二轨道202b的三个车道以及其它车辆的存在，车辆102存在更多可能的状态。

因为第二轨道202b是多车道街道，所以需要关于在转弯时选择哪个车道的决策过程。向前观察第二中间点210，其中车辆102预期左转，关于何时以及如何进行变道以便在车辆102到达第二中间点210之前从右车道(从第一中间点208开始)变到左车道做出许多决策。该决策过程考虑了其它车辆的速度和位置。

参考图6，图5的马尔可夫状态模型的状态覆盖在图4的第三人称视图400上。状态由圆圈表示。每个状态示出在车辆102沿着路线的离散位置处。在每个离散位置处，可以进行车辆状态的可能进展的更新评估。如图6中所示，状态S1-S11控制车辆102的状态以便从起点204横穿第一轨道202a到第一中间点208。沿着第一轨道202a，存在车辆102的单一状态进展。然而，沿着第二轨道202b，存在许多可能的状态。例如，状态S11示出在沿着第二轨道202b的各个位置处。状态S12和状态S45被示出不止一次。马尔可夫决策过程应用于马尔可夫状态模型以便选择允许车辆穿过该路线的特定状态进展。

图7是说明用于使车辆102导航路线202的状态的策略或进展的示意图700。车辆102的状态由S_i、S_i+1、S_i+2、......、S_i+n指示，其中i是索引，而n是处理器希望向前看的步长数。车辆102的当前状态指示为S_i。状态S_i的特征在于各种向量，诸如姿态矩阵P_i、运动学向量K_i、环境信息向量E_i以及致动器状态向量A_i。然而，状态P_i不限于这些向量。姿态矩阵P_i指示车辆102的位置和定向。运动学向量K_i提供关于车辆102的运动学的信息，诸如车辆的速度、加速度、制动或减速、转向等。环境信息向量E_i提供关于车辆102的环境中的外部实体118的信息，诸如其它车辆的范围、定向、角度方向、速度、加速度、交通信号灯的状态、行人、骑车人、动物等的存在。致动器状态向量A_i提供关于车辆102的致动元件的信息。通过各种传感器702进行的测量来通知向量P_i、K_i、E_i、A_i中的每一个。在一个实施例中，姿态向量P_i和运动学向量K_i从内部状态传感器106(图1)接收测量值，并且环境信息向量E_i从环境传感器104接收测量值。另外，致动元件的状态可以由致动传感器提供。

策略π_i(s)规定了在给定状态S_i下要采取何种动作(即，行为控制命令)。从状态S_i开始，向量P_i、K_i、E_i、A_i用于计算车辆102的下一状态S_i+1。类似地，从预测状态S_i+1计算状态S_i+2。该过程继续直到计算出第n个状态S_i+n。该过程可以重复多次以计算多个策略。对于每个策略π_i(s)，可以为策略计算预期奖励值。马尔可夫决策过程用于确定策略的值。该值表示从第一个状态S_i开始并执行策略π_i(s)所实现的长期折现的未来奖励。一般而言，该策略的可取性与该策略在推进车辆102朝向其目的地方面中的有效性有关。由马尔可夫决策过程提供的值函数表示从状态到值的映射，其中值表示通过遵循策略π_i(s)以从当前状态进展到目的状态或者替代地从当前状态向前进展至预选定数量“n”个步长而获得的累积回报(即，折现的未来奖励)。在一个实施例中，处理器可以选择并实施具有最高奖励的策略(即，最佳地推进车辆102朝向其目的地)而不会招致任何处罚(诸如发生碰撞、违反交通规则、鲁莽驾驶、粗暴骑行、颠簸等)。一旦车辆移动到下一状态(例如，状态S_i+1)，就可以重复该过程以在给定车辆的下一状态的情况下确定合适的策略。

图8示出了在一个实施例中用于选择用于导航路线的策略的流程图800。流程图800在框802处开始。在框804处，处理器确定是否已输入有效的驾驶规划或目标。如果为“否”，则流程图800返回到框802。如果为“是”，则流程图800前进到框806。在框806中，处理器收集地图数据。在框808中，处理器确定地图数据是否可用于例如来自远程处理器的驾驶规划。如果远程处理器处没有地图数据可用，则可以查询不同的远程处理器以获取地图数据。如果在指定时间段内没有找到地图数据，则流程图800可能超时并返回到框802。然而，如果可以定位地图数据，则在框810处，将地图数据下载到车辆并下载到处理器之。处理器通过解析地图数据的路线平面来初始化车辆环境。在框812中，处理器构建表示环境的马尔可夫状态模型。在框814中，处理器对马尔可夫状态模型的类似状态进行优先级排序，注意状态和预期威胁的值函数。

在框816中，处理器开始用于导航路线的马尔可夫决策过程。在框818中，处理器执行策略迭代器，该策略迭代器执行步骤以选择用于在自主车辆处执行的策略。策略迭代器(框818)通过确定预期累积的折现未来奖励值来评估各种策略，该奖励值是通过从车辆的当前状态采取策略πi(s)规定的一个或多个动作而获得的。策略迭代器还在具有更高适当奖励值的策略空间内搜索另一个策略。在一个实施例中，策略迭代器818搜索原始子策略的数据库(框820)，该原始子策略由预定致动命令组成，该预定致动命令用于在几个状态之间移动，但不用于在规划路线中的所有状态之间移动。然后，策略迭代器818使用预定致动命令/原始子策略创建更新的策略，并且确定更新的策略的预期奖励值。

图9示出了在说明性实施例中可以在车辆处采取的预定致动命令和/或原始子策略的数据库820的细节。数据库816的预定致动命令和/或原始子策略可以包括但不限于自适应巡航902、变道904、保持车道906、左转908、右转910、弯曲道路912、行人让行914、停止916、交叉路口让行918、汇入车流920、驶出车流922以及环形路进入924。策略迭代器818可以通过以有序进展组合来自数据库的这些预定致动命令/原始子策略中的一个或多个来创建策略，并且执行迭代以找到最优策略。

返回到图8的框818，策略迭代器818在策略空间中搜索可以从车辆的当前状态执行以使车辆到达其目的地的最优策略。替代地，可以选择使车辆移动通过选定数量“n”个步长的策略。策略迭代器818创建第一策略并且确定第一策略的第一预期奖励值。然后，策略迭代器818可以构建第二策略并且确定第二策略的第二预期奖励值，然后从第一策略和第二策略中选择具有更大预期奖励值的策略。可以重复该过程选定的迭代次数，或者直到达到选定的预期奖励值。在一个实施例中，策略迭代器818选择具有不会招致任何惩罚(诸如碰撞、交通违规等)的最佳或最大奖励的策略。

一旦策略迭代器818选择了策略，该过程就会流向框822的策略执行器。策略执行器822确定要在车辆的各种致动装置108处采取的动作，并且在框824中将动作发送到致动装置以便在车辆处执行策略。在框824处执行策略导致在框826处产生车辆的轨迹。而且，在框828中，将选定策略与来自外部环境的观察值(即，来自环境传感器的测量值)融合以便确定在车辆处于其当前状态下实施策略所产生的下一状态。在框830中，处理器确定下一状态是否是有效状态。如果为“否”，则处理器返回到框828以便将策略与当前观察值融合。如果为“是”(即，状态有效)，则在框832中，处理器将车辆的状态更新为下一状态，包括车辆的内部状态参数以及环境和外部实体的参数。从框832的更新状态，流程图返回到策略迭代器框818，其中处理器可以前进到基于更新的状态来确定用于导航车辆的更新的策略集。

虽然已经参考示例性实施例描述了以上公开，但是本领域技术人员将会理解，在不脱离本公开的范围的情况下，可进行各种改变并且可用等同物替换其元件。另外，在不脱离本公开的实质范围的情况下，可进行许多修改以使特定的情况或材料适应本公开的教导。因此，希望本公开不限于所公开的特定实施例，而是将包括落入本申请范围内的所有实施例。

Claims

1.一种用于操作自主车辆的系统，包括：

环境传感器，其被配置为获得所述车辆的外部实体的一个或多个参数；以及

处理器，其被配置为：

在所述自主车辆处获得具有目的地的路线；

构建所述路线的马尔可夫状态模型，其包括用于所述自主车辆的多个状态以及所述外部实体的所述一个或多个参数；

产生用于导航所述路线的多个驾驶策略，其中每个驾驶策略包括所述多个状态内的进展；

使用马尔可夫决策过程从所述多个驾驶策略中选择用于导航所述路线的策略；以及

在所述自主车辆处执行所述选定策略以将所述车辆沿着所述路线朝向所述目的地导航。

2.根据权利要求1所述的系统，其中所述处理器进一步被配置为在所述车辆导航所述路线时更新所述车辆的状态，并且基于所述更新的车辆状态来确定更新的策略。

3.根据权利要求1所述的系统，其中所述处理器进一步被配置为：

确定所述多个驾驶策略中的每一个的预期奖励值，其中驾驶策略的所述奖励值指示所述驾驶策略在推进所述自主车辆朝向所述目的地中的有效性；并且

选择具有选定奖励值的所述策略。

4.根据权利要求3所述的系统，其中所述选定策略进一步包括具有最大预期奖励值但没有惩罚的策略。

5.根据权利要求1所述的系统，其中所述处理器进一步被配置为通过在所述车辆处执行动作以推进所述自主车辆朝向所述目的地来在所述自主车辆处执行所述选定策略。

6.一种自主车辆，包括：

处理器，其被配置为：

在所述自主车辆处获得具有目的地的路线；

7.根据权利要求6所述的自主车辆，其中所述处理器进一步被配置为在所述车辆导航所述路线时更新所述车辆的状态，并且基于所述更新的车辆状态来确定更新的策略。

8.根据权利要求6所述的自主车辆，其中所述处理器进一步被配置为：

确定所述多个驾驶策略中的每一个的预期奖励值，其中驾驶策略的所述奖励值指示所述驾驶策略在推进所述自主车辆朝向所述目的地中的有效性；以及

选择具有选定奖励值的所述策略。

9.根据权利要求8所述的自主车辆，其中所述选定策略进一步包括具有最大预期奖励值但没有惩罚的策略。

10.根据权利要求6所述的自主车辆，其中所述处理器进一步被配置为通过在所述车辆处执行动作以推进所述自主车辆朝向所述目的地来在所述自主车辆处执行所述选定策略。