CN117242315A

CN117242315A - 用于探索新道路以改进地图的路线规划器和决策

Info

Publication number: CN117242315A
Application number: CN202280025725.9A
Authority: CN
Inventors: K·H·雷; D·伊尔斯特鲁普; A·柯巴施
Original assignee: Nissan North America Inc
Current assignee: Nissan North America Inc
Priority date: 2021-03-29
Filing date: 2022-02-23
Publication date: 2023-12-15
Also published as: WO2022211932A1; US20220306156A1; EP4314713A1; JP2024514078A

Abstract

自主运载工具的自动化驾驶中的路线规划包括：获得除了高清晰地图之外还将使用标准清晰地图以获得路线的指示；获得用于使运载工具自动驾驶至目的地的所述路线，其中，所述路线包括所述标准清晰地图中的道路；从安全性决策组件获得策略，其中，所述策略针对所述道路的状态提供动作，以及所述动作约束所述自主运载工具沿着所述道路的轨迹；从所述安全性决策组件接收所述动作；以及根据所述动作自主地穿越所述道路。

Description

用于探索新道路以改进地图的路线规划器和决策

技术领域

本发明大体上涉及路线规划，并且更具体地涉及自主运载工具的车道级路线规划。

背景技术

路线规划应用和系统(统称为路线规划器)可以是车载运载工具系统或可以在手持装置中。用户(例如，驾驶员)提供目的地，并且选路(routing)应用计算从用户的当前位置到该目的地的路线。

路线可以叠加在地图上，并且可以包括(例如，示出等)用户可以遵循以到达目的地的道路和转弯。也就是说，路线可以包括到目的地的建议路线(turn-by-turn)指示。路线通常包括道路和转弯，并且由用户(例如，驾驶员)来决定驾驶员在特定道路的哪个车道上驾驶以及何时变道，诸如从出口离开或在交叉口处转弯等。

传统路线规划器可以向用户警告/通知在一定距离(例如，2英里)内即将出现转弯(例如，出口)，并且由用户来决定如何从当前车道进行操纵以进行转弯。这样的路线规划器不知道主运载工具在哪个车道上，并且仅仅通过在一定距离内向用户通知，用户可能被迫进行不安全的操纵以从当前车道移动到转弯位置。

这种路线规划应用可以在道路级别上确定性地进行规划，并且不考虑车道级信息/规划。这种路线规划应用可以将路线规划建模为试图使路线时间最小化的经典规划问题。

至少出于这些原因，道路级(而不是车道级)的路线规划对于自主驾驶可能不合适(例如，不充分)，这是因为这种路线规划应用中的规划地图可能处于自主驾驶所需的抽象级别以上的抽象级别，在自主驾驶中，驾驶员可以根本不参与，或充其量是最低限度地参与。

发明内容

第一方面是一种用于自主运载工具的自动化驾驶中的路线规划的方法。所述方法包括：获得除了高清晰地图之外还将使用标准清晰地图以获得路线的指示；获得用于使运载工具自动驾驶至目的地的路线，其中，所述路线包括所述标准清晰地图中的道路；从安全性决策组件获得策略，其中，所述策略针对所述道路的状态提供动作，以及所述动作约束所述自主运载工具沿着所述道路的轨迹；从所述安全性决策组件接收所述动作；以及根据所述动作自主地穿越所述道路。

第二方面是一种用于自主运载工具的自动化驾驶中的路线规划的设备。所述设备包括：处理器，其被配置为：获得除了高清晰地图之外还将使用标准清晰地图以获得路线的指示；获得用于使运载工具自动驾驶至目的地的路线，其中，所述路线包括所述标准清晰地图中的道路；从安全性决策组件获得策略，其中，所述策略针对所述道路的状态提供动作，以及所述动作约束所述自主运载工具沿着所述道路的轨迹；从所述安全性决策组件接收所述动作；以及根据所述动作来控制所述自主运载工具以自主地穿越所述道路。

第三方面是一种非暂态计算机可读存储介质，其包括可执行指令，所述可执行指令在由处理器执行时促使进行用于自主运载工具的自动化驾驶中的路线规划的操作。所述操作包括：获得除了高清晰地图之外还将使用标准清晰地图以获得路线的指示；获得用于使运载工具自动驾驶至目的地的路线，其中，所述路线包括所述标准清晰地图中的道路；从安全性决策组件获得策略，其中，所述策略针对所述道路的状态提供动作，以及其中，所述动作约束所述自主运载工具沿着所述道路的轨迹；从所述安全性决策组件接收所述动作；以及根据所述动作自主地穿越所述道路。

这些以及本文公开的方法、设备、过程和算法的其他方面、特征、要素、实现和实施例的变型在下文中进一步详细描述。

附图说明

通过参考以下描述和附图中提供的示例，本文公开的方法和设备的各个方面将变得更明显，在附图中相同的附图标记指代相同的要素。

图1是可以实现本文公开的方面、特征和要素的运载工具的示例的图。

图2是可以实现本文公开的方面、特征和要素的运载工具运输和通信系统的一部分的示例的图。

图3是根据本发明的实施例的用于路线规划的技术的示例的流程图。

图4是根据本发明的实现的地图的示例的例示。

图5例示根据本发明的实现的目标的偏好排序图的示例。

图6例示根据本发明的实现的学习和使用导航地图的概要。

图7是根据本发明的实施例的用于学习用于路线规划的导航地图的技术的示例的流程图。

图8是根据本发明的实现的用于在路线规划中提供解释的技术的示例的流程图。

图9是根据本发明的实现的基于多个目标提供解释的示例的图。

图10是根据本发明的实现的用于车道级路线规划器的多目标设置的用户接口的示例的图。

图11是根据本发明的实现的用于车道级路线规划器的多目标设置的用户接口的另一示例的图。

图12是根据本发明的实现的用于例示在自主驾驶中使用标准清晰(SD)地图以用于路线规划的地图的示例。

图13是根据本发明的实现的用于探索新道路以改进地图的系统的图。

图14是根据本发明的实现的将SD地图的道路绘制成图的示例的图示。

图15是根据本发明的实现的用于在自主运载工具的自动化驾驶中进行路线规划的技术的示例的流程图。

具体实施方式

如上所述，路线规划器通常提供没有任何车道信息的路线。这种路线可以基于全球定位系统(GPS)坐标的连通图来规划，并且不能用于自主驾驶，这是因为这些路线太抽象了。自主驾驶需要车道特定信息，以在无论出于什么原因而发生无法跟随路线时进行变道和决策以及针对应急事件(contingency)进行规划。在传统路线规划器地图中，拓扑、连通性和车道信息通常不可用。除非上下文另有指示，否则如本文所使用的自主驾驶涵盖了进行运载工具行驶控制以用于以与(诸如通过人类驾驶员或远程操作员等的)手动控制相当的方式自动地运行主运载工具。

此外，这种路线规划器通常仅可以解决一个目标：时间。也就是说，这种路线规划器通过使到达目的地所花费的时间最小化来进行经典的路线规划。一些路线规划器可以允许用户指定对道路类型的偏好(例如，高速公路道路而不是乡村道路，免费道路而不是收费道路)。然而，自主驾驶需要使用不同的(例如，更多的)准则、约束和/或目标进行路线规划。

为了使用简单的示例来示出，在传统路线规划器的情况下，当驾驶员没有进行预期的转弯或从出口离开时，路线规划器通常进行“重新选路”操作以识别替代路线，该“重新选路”操作花费至少数秒来完成。在自主驾驶的情况下，并且假设自主运载工具(AV)由于拥堵而无法从出口离开，AV停在原地直到选路应用识别出替代路线(即，新路线(re-route))为止或者在进行重新选路操作期间通过应急路线将是不可接受的。

然而，根据本发明的路线规划器可以针对所有应急事件进行预先规划。如下面进一步描述的，应急事件可以被并入到策略中。在示例中，可以考虑先验概率来规划应急事件。概率可以基于车道段穿越(traversal)的历史数据。概率可以包括成功变道的概率、基于交通进行变道失败的概率、交通历史的概率或其他概率。车道级路线规划器还可以基于不同道路或道路段上自主驾驶的能力水平来规划路线。在下文进一步描述能力。路线规划器还可以确定(例如，规划)自主驾驶、驾驶员和/或远程操作员之间的控制转移。车道级路线规划器使用并入有这些概率的导航地图。

重申，根据本发明的路线规划器确定到目的地的车道级路线，其中该车道级路线包括沿着控制AV进行变道的路线的位置。也就是说，路线规划器可以规划沿着路线的变道并且这有可能失败。附加地，路线规划器可以具有到达目的(例如，目的地)的所有可能路线的应急规划，而不是仅仅获得假设成功和失败的确定性规划并使一些成本(例如，到达目的地的时间)最小化。

自主运载工具的真实部署可能需要同时平衡若干目标。若干目标可以包括到达目的地的时间、期望的用户舒适性(例如，颠簸道路vs光滑道路)、期望的用户道路速度、道路导航能力(例如，运载工具是否有能力穿越道路或车道)、地理围栏区域之间的换乘点和/或其他目标。在电动或混合电动运载工具的情况下，附加目标可以与电池效率和/或再充电用停止点相关。根据本发明的车道级路线规划可以进行这样的多目标规划。

在本发明的方面中，可以学习包括车道级信息的导航地图。然后，导航地图可以用于生成车道级路线。

传统自主运载工具路线规划器可能不针对多个状态特征或目标而学习。相反，如本文进一步描述的，在根据本发明的实现的车道级路线规划中，导航地图可以针对道路中的车道的车道段并经由学习而并入环境信息、运载工具信息、人类信息、更多、更少、其他信息或其组合中的至少一些。

由于本文描述的风险感知的多目标车道级路线规划在自主和互联运载工具的多目标空间中推理，因此需要针对各个车道中的随机性而调整的定制学习、以及特定的标示目标奖励值，并在本文描述这些。

多目标学习可以优于单目标学习，这至少是因为车道级路线规划器可以考虑更多的关注点，该车道级路线规划器与单目标规划器相比可以使自动化驾驶更加可适应。当多个目标是可能的时，车道级路线规划器可以学习(或者可以由用户教导)良好的(例如，期望的、舒适的等)路线、交通模式、用户偏好和能力等等。例如，用户可以直接在精确对应的目标中对偏好进行编码。

一些路线规划器仅能够向用户通知与路线有关的一般信息，诸如出口中的车道的数量以及即将出现出口等。一些其他路线规划器可以指示某个路线比当前路线长或短了某个分钟数或一些其他度量单位。然而，这样的路线规划器通常是不可解释的：这些路线规划器不提供关于为什么选择某个路线而不是其他路线的解释。在自主驾驶的情况下，这样的路线规划器可能无法解释为什么将采取或采取了动作(例如，左转弯、右转弯、直行、移动到相邻车道段等)。

一些路线规划器可以被实现为神经网络(例如，深度学习神经网络等)。这种路线规划器可能无法提供人类可理解的解释。这种路线规划器的推理模型等同于不具有语义含义的权重和激活值(例如，数百万个实数)。这种路线规划器的决策(例如，选择的动作)等同于使用权重值激活了模型的哪些节点。从这种路线规划器中提取解释(即使完全可能也)不是直截了当的，而是可能需要试图解释路线规划器本身(例如，基于输入的激活值的含义)的附加系统。由此，路线规划器等同于不可解释的黑盒。虽然可以输出导致神经网络的特定动作的激活值，但是这种激活值不容易诠释并且不具有语义含义。在另一示例中，为了理解为什么动作被路线规划器推荐，可能需要分析源代码和针对源代码的输入以提供解释。

相反，根据本发明的实现的车道级路线规划器可以是固有地可解释的。车道级路线规划器可以提供人类可理解的关于为什么选择动作(以及等同地，路线、车道或车道段)的解释。解释可以是人类可诠释的，并且在语义上也是有含义的。解释(例如，语句)可以描述为什么在自主驾驶中做出决策。例如，可以回答用户问题，诸如“你为什么不在交叉口处右转？”、“你为什么要我手动控制？”等。在路线规划中提供关于动作、道路或车道段选择的解释提供了对传统路线规划器的改进，尤其是在用于自主驾驶的路线规划中。提供解释可以在自主驾驶选择的决策中向用户提供舒适度。附加地，理解为什么做出某些选择使得用户能够通过例如提供不同的目标和对这些目标的约束来影响和改善路线规划决策准则，以更好地符合用户偏好。

此外，由于如这里描述的车道级路线规划器可以根据(例如，使用、基于等)具有语义含义的多个目标来规划路线，因此车道级路线规划器可以量化或解释某些路线对于某些目标(诸如交通、偏好、以及人类驾驶或自动化驾驶的能力等)如何更好(或更差)。

在本发明的其他方面，可以使用标准清晰地图数据(或简单地，SD地图)来规划路线，并且可以将SD地图的道路绘制成图以获得HD地图信息。

路线规划器通常使用地图数据来获得(例如，计算)路线。在传统路线规划器中，地图数据可以是SD地图数据。SD地图通常包括道路和交叉口等，但不包括自主驾驶(例如，在自主驾驶中进行决策)和自主驾驶的路线规划(例如，车道级路线规划)所需的足够细节或精度。SD地图可以包括用于(例如与自动化驾驶决策相对的)导航的粗略GPS坐标。自主驾驶可能需要高清晰(HD)地图。

HD地图数据可以包括与运载工具运输网络相关的到几厘米内的准确信息。HD地图数据可以包括与路缘、车道边界、人行横道、交通灯、道路分隔、交通信号灯、交通标志、限速或地标等相关的细节。

HD地图可能昂贵，或者可能不包括与某些道路(或道路的车道)相关的信息。道路或区域可以被认为是未绘制成图的。HD地图不包括未绘制成图的道路和区域的信息。

虽然AV包括能够检测用于决策目的或轨迹规划的HD信息的传感器，但是AV可以仅包括用于导航目的的SD地图。SD地图不能被默认地定位并与AV的传感器所观察到的HD信息匹配，使得SD地图也可以用于自主驾驶中的决策。由此，问题是AV(即其中的模块)仍然需要知道用于自主驾驶的HD信息。根据本发明，可以在SD地图的道路上进行自主驾驶，以获得用于后续路线规划的HD信息。

在本发明的方面中，来自一个或多于一个运载工具的传感器数据可以用于利用信息(例如，HD信息)来补充SD地图，使得SD地图可以用于如本文针对自主驾驶所述的车道级路线规划。由此，使用传感器数据来补充HD地图使得车道级路线规划器能够使用SD地图或者HD地图和SD地图的组合来获得路线。可以针对绘制成图的道路和车道使用HD地图，并且可以针对在HD地图中未被绘制成图、但如本文所述已获得HD信息的道路和车道使用SD地图。为了便于参考，如本文所使用的，增强HD地图是指已通过关于SD地图的道路而使用一个或多于一个AV的传感器所获得的数据进行补充的HD地图。附加地或等同地，可以利用HD地图的道路的信息在这些道路被穿越时增强导航地图。

增强HD地图可以具有许多好处，其包括对于路线规划或决策可能不需要HD地图。例如，AV或AV队列可以在穿越SD地图中的道路时生成该AV或AV队列自己的HD地图。如下文进一步描述的，HD地图生成可以通过基于规划信念(belief)的路线规划器来完成。好处还包括HD地图可以是可修正的。例如，如果在SD地图上重新配置了道路车道(诸如，车道由于施工而关闭或添加新车道等)，则HD地图可以适应这些变化。

本文首先参考可以实现车道级路线规划的环境来描述该车道级路线规划的其他细节。

图1是可以实现本文公开的方面、特征和要素的运载工具的示例的图。在所示实施例中，运载工具100包括各种运载工具系统。运载工具系统包括底盘110、动力总成120、控制器130和轮140。可以使用运载工具系统的附加或不同的组合。虽然为了简单起见，运载工具100被示出为包括四个轮140，但是可以使用一个或多于一个任何其他推进装置(诸如推动器或踏步板等)。在图1中，使诸如动力总成120、控制器130和轮140等的元件互连的线指示诸如数据或控制信号等的信息、诸如电力或扭矩等的动力、或者信息和动力这两者可以在各个元件之间通信。例如，控制器130可以从动力总成120接收动力，并且可以与动力总成120、轮140或这两者通信以控制运载工具100，这可以包括使运载工具100进行加速、减速、转向或以其他方式进行控制。

图1中通过示例示出的动力总成120包括动力源121、变速器122、转向单元123和致动器124。还可以包括动力总成的任何其他元件(诸如悬架、驱动轴、轮轴或排气系统等)或元件的组合。尽管单独示出，但是轮140可以被包括在动力总成120中。

动力源121包括引擎、电池或其组合。动力源121可以是可操作以提供能量(诸如电能、热能或动能等)的任何装置或装置的组合。在示例中，动力源121包括引擎(诸如内燃机、电动马达或者内燃机和电动马达的组合等)，并且可操作以向轮140中的一个或多于一个轮提供动能作为原动力。可替代地或附加地，动力源121包括势能单元，诸如一个或多于一个干电池(诸如镍镉(NiCd)电池、镍锌(NiZn)电池、镍氢(NiMH)电池、锂离子(Li-ion)电池等)、太阳能电池、燃料电池、或能够提供能量的任何其他装置等。

变速器122从动力源121接收能量(诸如动能等)，并且将该能量传输到轮140以提供原动力。变速器122可以由控制器130、致动器124或这两者控制。转向单元123可以由控制器130、致动器124或这两者控制，并且转向单元123控制轮140以使运载工具转向。致动器124可以从控制器130接收信号，并且致动或控制动力源121、变速器122、转向单元123或其任何组合以操作运载工具100。

在所示实施例中，控制器130包括定位单元131、电子通信单元132、处理器133、存储器134、用户接口135、传感器136、和电子通信接口137。这些元件中较少的一部分可以作为控制器130的一部分存在。尽管被示出为单个单元，但是控制器130的任意一个或多于一个元件可以集成到任意数量的单独物理单元中。例如，用户接口135和处理器133可以集成在第一物理单元中，并且存储器134可以集成在第二物理单元中。尽管在图1中未示出，但是控制器130可以包括诸如电池等的动力源。尽管被示出为单独的元件，但是定位单元131、电子通信单元132、处理器133、存储器134、用户接口135、传感器136、电子通信接口137或其任何组合可以集成在一个或多于一个电子单元、电路或芯片中。

处理器133可以包括现有的或随后开发的能够操纵或处理信号或其他信息的任何装置或装置的组合，该处理器133包括光学处理器、量子处理器、分子处理器或其组合。例如，处理器133可以包括一个或多于一个专用处理器、一个或多于一个数字信号处理器、一个或多于一个微处理器、一个或多于一个控制器、一个或多于一个微控制器、一个或多于一个集成电路、一个或多于一个专用集成电路、一个或多于一个现场可编程门阵列、一个或多于一个可编程逻辑阵列、一个或多于一个可编程逻辑控制器、一个或多于一个状态机或者其任何组合。处理器133与定位单元131、存储器134、电子通信接口137、电子通信单元132、用户接口135、传感器136、和动力总成120中的一个或多于一个可操作地耦接。例如，处理器可以经由通信总线138与存储器134可操作地耦接。

存储器134包括能够例如包含、存储、通信或运输机器可读指令或与其相关联的任何信息的任何有形的非暂态计算机可用或计算机可读介质，以供诸如处理器133等的任何处理器使用或与该任何处理器相关地使用。存储器134例如可以是一个或多于一个固态驱动器、一个或多于一个存储卡、一个或多于一个可移动介质、一个或多于一个只读存储器、一个或多于一个随机存取存储器、一个或多于一个盘(包括硬盘、软盘、光盘)、磁卡或光卡、或适合于存储电子信息的任何类型的非暂态介质或其任何组合。例如，存储器可以是一个或多于一个只读存储器(ROM)、一个或多于一个随机存取存储器(RAM)、一个或多于一个寄存器、低功率双倍数据率(LPDDR)存储器、一个或多于一个高速缓存存储器、一个或多于一个半导体存储器装置、一个或多于一个磁介质、一个或多于一个光介质、一个或多于一个磁光介质或其任何组合。

通信接口137可以是如图所示的无线天线、有线通信端口、光通信端口或能够与有线或无线电子通信介质150交互的任何其他有线或无线单元。尽管图1示出经由单个通信链路进行通信的通信接口137，但是通信接口可以被配置为经由多个通信链路进行通信。尽管图1示出单个通信接口137，但是运载工具可以包括任意数量的通信接口。

通信单元132被配置为经由有线或无线电子通信介质150(诸如经由通信接口137等)发送或接收信号。尽管在图1中未明确示出，但是通信单元132可以被配置为经由任何有线或无线通信介质(诸如射频(RF)、紫外线(UV)、可见光、光纤、有线线路或其组合等)来进行发送、接收或这两者。尽管图1示出单个通信单元132和单个通信接口137，但是可以使用任意数量的通信单元和任意数量的通信接口。在一些实施例中，通信单元132包括专用短距离通信(DSRC)单元、机载(on-board)单元(OBU)或其组合。

定位单元131可以确定地理位置信息，诸如运载工具100的经度、纬度、高度、行驶方向或速度等。在示例中，定位单元131包括GPS单元，诸如启用广域增强系统(WAAS)的美国国家海洋电子协会(NMEA)单元、无线电三角测量单元或其组合等。定位单元131可以用于获得例如表示运载工具100的当前航向、运载工具100在二维或三维中的当前位置、运载工具100的当前角定向或其组合的信息。

用户接口135包括能够与人交互的任何单元，诸如虚拟或物理键盘、触摸板、显示器、触摸显示器、平视显示器(heads-up display)、虚拟显示器、增强现实显示器、触觉显示器、特征跟踪装置(诸如眼跟踪装置等)、扬声器、麦克风、摄像机、传感器、打印机或其任何组合等。如图所示，用户接口135可以与处理器133可操作地耦接，或者与控制器130的任何其他元件可操作地耦接。尽管被示出为单个单元，但是用户接口135可以包括一个或多于一个物理单元。例如，用户接口135可以包括用于与人进行音频通信的音频接口、以及用于与人进行基于视觉和触摸的通信的触摸显示器这两者。用户接口135可以包括多个显示器，诸如物理上分开的多个单元、单个物理单元内的多个定义部分或其组合等。

传感器136可操作以提供可以用于控制运载工具的信息。传感器136可以是传感器阵列。传感器136可以提供与运载工具100的当前操作特性相关的信息(包括运载工具操作信息)。传感器136例如可以包括速度传感器、加速度传感器、转向角传感器、牵引力相关传感器、制动相关传感器、方向盘位置传感器、眼跟踪传感器、座椅位置传感器或任何传感器或者传感器的组合，这些传感器可操作以报告与运载工具100的当前动态情形的某些方面相关的信息。

传感器136包括可操作以获得与运载工具100周围的物理环境相关的信息(诸如操作环境信息等)的一个或多于一个传感器136。例如，一个或多于一个传感器可以检测道路几何形状(诸如车道线等)以及障碍物(诸如固定障碍物、运载工具和行人等)。传感器136可以是或可以包括现在已知的或随后开发的一个或多于一个摄像机、激光感测系统、红外感测系统、声感测系统、或任何其他合适类型的车载环境感测装置、或装置的组合。在一些实施例中，传感器136和定位单元131被组合。

尽管未单独示出，但是运载工具100可以包括轨迹控制器。例如，控制器130可以包括轨迹控制器。轨迹控制器可操作以获得用于描述运载工具100的当前状态和针对运载工具100规划的路线的信息，并且基于该信息来确定和优化运载工具100的轨迹。在一些实施例中，轨迹控制器可以输出可操作以控制运载工具100使得运载工具100跟随由轨迹控制器确定的轨迹的信号。例如，轨迹控制器的输出可以是优化轨迹，该优化轨迹可以被供给到动力总成120、轮140或这两者。在一些实施例中，优化轨迹可以是诸如转向角集合等的控制输入，其中各个转向角与时间点或位置相对应。在一些实施例中，优化轨迹可以是一个或多于一个路径、线路、曲线或其组合。

轮140中的一个或多于一个轮可以是：在转向单元123的控制下枢转至转向角的转向轮；在变速器122的控制下扭转以推动运载工具100的推动轮；或可以对运载工具100进行转向和推动的转向推动轮。

尽管图1中未示出，但运载工具可以包括未在图1中示出的附加单元或元件，诸如壳体、(蓝牙)模块、调频(FM)无线电单元、近场通信(NFC)模块、液晶显示器(LCD)显示单元、有机发光二极管(OLED)显示单元、扬声器或其任何组合。

运载工具100可以是在没有直接人工干预的情况下自主控制以穿越运载工具运输网络的一部分的自主运载工具。尽管在图1中未单独示出，但是自主运载工具可以包括自主运载工具控制单元，该自主运载工具控制单元进行自主运载工具选路、导航和控制。自主运载工具控制单元可以与运载工具的其他单元集成。例如，控制器130可以包括自主运载工具控制单元。

自主运载工具控制单元(当存在时)可以根据当前运载工具操作参数来控制或操作运载工具100以穿越运载工具运输网络的一部分。自主运载工具控制单元可以控制或操作运载工具100以进行所定义的操作或机动动作，诸如停放运载工具等。自主运载工具控制单元可以基于运载工具信息、环境信息、表示运载工具运输网络的运载工具运输网络信息或其组合来生成从诸如运载工具100的当前位置等的起点到目的地的行驶路线，并且可以根据该路线来控制或操作运载工具100以穿越运载工具运输网络。例如，自主运载工具控制单元可以将行驶路线输出到轨迹控制器，以使用所生成的路线来操作运载工具100以从起点行驶到目的地。

图2是可以实现本文公开的方面、特征和要素的运载工具运输和通信系统的一部分的示例的图。运载工具运输和通信系统200可以包括诸如图1所示的运载工具100等的一个或多于一个运载工具210/211，其经由运载工具运输网络220的一个或多于一个部分行驶，并且经由一个或多于一个电子通信网络230进行通信。尽管在图2中没有明确示出，但是运载工具可以穿越越野区域。

电子通信网络230例如可以是多址系统，该多址系统用于提供运载工具210/211与一个或多于一个通信装置240之间的通信，诸如语音通信、数据通信、视频通信、消息传送通信或其组合等。例如，运载工具210/211可以经由网络230从通信装置240接收诸如表示运载工具运输网络220的信息等的信息。

在一些实施例中，运载工具210/211可以经由有线通信链路(未示出)、无线通信链路231/232/237、或任意数量的有线或无线通信链路的组合进行通信。如图所示，运载工具210/211经由地面无线通信链路231、经由非地面无线通信链路232或经由其组合进行通信。地面无线通信链路231可以包括以太网链路、串行链路、蓝牙链路、红外(IR)链路、紫外线(UV)链路或能够提供电子通信的任何链路。

运载工具210/211可以与另一运载工具210/2110通信。例如，主运载工具或主体运载工具210可以经由直接通信链路237或经由网络230从远程或目标运载工具(RV)211接收一个或多于一个自动化运载工具间消息(诸如基本安全消息(BSM)等)。远程运载工具211可以将该消息广播到在所定义的广播范围(诸如300米等)内的主运载工具。在一些实施例中，主运载工具210可以经由诸如信号中继器(未示出)或其他远程运载工具(未示出)等的第三方接收消息。运载工具210/211可以基于例如所定义的间隔(诸如100毫秒等)定期地发送一个或多于一个自动化运载工具间消息。

自动化运载工具间消息可以包括运载工具识别信息、地理空间状态信息(诸如经度、纬度或高度信息等)、地理空间位置准确度信息、运动学状态信息(诸如运载工具加速度信息、横摆率信息、速度信息、运载工具航向信息、制动系统状况信息、油门信息、方向盘角度信息等)、或运载工具选路信息、或运载工具操作状态信息(诸如运载工具尺寸信息、前照灯状态信息、转向信号灯信息、雨刷状况信息、变速器信息或与使运载工具状态变速相关的任何其他信息或信息的组合等)。例如，变速器状态信息可以指示使运载工具变速的变速器是处于空档状态、驻车状态、前进状态还是倒车状态。

运载工具210可以经由接入点233与通信网络230进行通信。可以包括计算装置的接入点233被配置为经由有线或无线通信链路231/234与运载工具210、与通信网络230、与一个或多于一个通信装置240、或与其组合进行通信。例如，接入点233可以是基站、基站收发器站(BTS)、节点B(Node-B)、增强型节点B(eNode-B)、家庭节点B(Home Node-B，HNode-B)、无线路由器、有线路由器、集线器、中继器、交换机或任何类似的有线或无线装置。尽管这里被示出为单个单元，但是接入点可以包括任意数量的互连元件。

运载工具210可以经由卫星235或其他非地面通信装置与通信网络230进行通信。可以包括计算装置的卫星235被配置为经由一个或多于一个通信链路232/236与运载工具210、与通信网络230、与一个或多于一个通信装置240、或与其组合进行通信。尽管这里被示出为单个单元，但是卫星可以包括任意数量的互连元件。

电子通信网络230是被配置为提供语音通信、数据通信或任何其他类型的电子通信的任何类型的网络。例如，电子通信网络230可以包括局域网(LAN)、广域网(WAN)、虚拟专用网(VPN)、移动或蜂窝电话网络、因特网或任何其他电子通信系统。电子通信网络230使用诸如传输控制协议(TCP)、用户数据报协议(UDP)、因特网协议(IP)、实时传输协议(RTP)、超文本传输协议(HTTP)或其组合等的通信协议。尽管这里被示出为单个单元，但是电子通信网络可以包括任意数量的互连元件。

运载工具210可以识别运载工具运输网络220的一部分或条件。例如，运载工具包括至少一个车载传感器209(如图1中所示的传感器136)，该至少一个车载传感器209可以是或可以包括速度传感器、轮速传感器、照相机、陀螺仪、光学传感器、激光传感器、雷达传感器、声波传感器、或者能够确定或识别运载工具运输网络220的一部分或条件的任何其他传感器或装置或者其组合。

运载工具210可以使用经由网络230通信的信息(诸如表示运载工具运输网络220的信息、由一个或多于一个车载传感器209识别的信息或其组合等)来穿越运载工具运输网络220的一个或多于一个部分。

尽管为了简单起见，图2示出一个运载工具运输网络220、一个电子通信网络230和一个通信装置240，但是可以使用任意数量的网络或通信装置。运载工具运输和通信系统200可以包括未在图2中示出的装置、单元或元件。尽管运载工具210被示出为单个单元，但是运载工具可以包括任意数量的互连元件。

尽管示出了运载工具210经由网络230与通信装置240进行通信，但是运载工具210可以经由任意数量的直接或间接通信链路与通信装置240进行通信。例如，运载工具210可以经由诸如蓝牙通信链路等的直接通信链路与通信装置240进行通信。

图3是根据本发明的实施例的用于路线规划的技术300的示例的流程图。技术300可以部分地或完全地在主运载工具中实现，该主运载工具可以是图1所示的运载工具100、图2所示的运载工具210/211之一、半自主运载工具、可以包括驾驶辅助能力的任何其他运载工具、或者诸如由驾驶员等手动控制的运载工具。技术300可以被实现为存储在诸如图1的存储器134等的存储器中的指令(例如，操作)。这些指令可以由诸如图1的处理器133等的处理器执行。可以使用专门的硬件或固件来实现技术300。可以使用多个处理器、存储器或这两者。

技术300可以由车道级路线规划器部分地或完全地实现。可以使用诸如针对图1等所描述的包括CPU(中央处理单元)、存储器和输入输出单元的处理器来实现车道级规划器。使得处理器用作车道级路线规划器的计算机程序可以被安装到处理器中并由该处理器执行。这使得处理器能够用作车道级路线规划器。注意，尽管这里将描述通过软件实现车道级路线规划器的示例，但是当然，车道级路线规划器可以通过为执行本文将要描述的各个信息处理而准备的专用硬件来实现。

在302处，技术300接收目的地。在示例中，用户(例如，驾驶员)可以经由选路应用的用户接口提供目的地。在示例中，用户可以向选路应用提供目的地，该选路应用可以在用户的便携式装置上执行。在另一示例中，运载工具可以正在进行服务(例如，无人驾驶出租车(robo-taxi)服务)，并且可以经由调度处理将目的地提供给技术300，这使得运载工具行驶到目的地，该目的地可以是顾客或包裹的上车位置或者顾客或包裹的下车位置。向技术300提供目的地的其他方式是可能的。目的地可以是地址、地标、会场或其他目的地类型。技术300可以将接收到的目的地转换成GPS坐标集合。

在304处，技术300使用地图(即，导航地图或车道级导航地图)获得到目的地的车道级路线。车道级路线包括从道路中的第一车道的第一段到道路中的第二车道的第二段的转变(即，转变的动作)。在示例中，目的地可以被(无线地)提供发送到诸如图2的通信装置240等的用于计算车道级路线的服务器(例如，基于云的服务器)。参考图4描述地图和车道级路线的示例。

图4是根据本发明的实现的地图400的示例的图示。地图400例示了目的地在车道段401处。地图400包括道路402，该道路402包括三个车道，即车道404A至404C。地图400的车道被划分成车道段。车道段由地图400中的编号段指示。例如，车道404A包括车道段406A至406C。运载工具403当前处于车道段406A中，并且正在前往车道段401处的目的地的路上。车道段406A可以是运载工具403的开始点(未示出)和目的地之间的中间车道段。

在示例中，所有道路段可以具有相同的长度(例如，100米、200米或一些其他段长度)。在示例中，至少一些车道段长度可以取决于沿着车道段的道路的速度。例如，在高速时，车道段可以具有更长的长度，诸如500米等。在示例中，一些车道段的长度可以是可调整的。也就是说，例如，当生成第一车道级路线时，可以生成包括具有第一长度的一些车道段的第一车道级路线；并且当生成第二车道级路线时，可以生成包括具有第二长度的一些车道段的第二车道级路线。车道段长度可以基于道路上的速度、一天中的时间(例如，高峰时段vs周末)、社会地理区域(例如，学校区、住宅区)、天气(例如，晴天vs下雪)、道路类型(例如，高速公路vs城市道路)、更多、更少、其他准则或其组合而变化。例如，并且如视觉上所示，车道段406E比车道段406C短；但是车道段406D比车道段406C长。

在地图400中，车道段可以具有标识号(ID)。例如，车道段406A至406E分别具有ID1、2、3、7和13。至少一些车道段可以与元数据相关联。在示例中，元数据可以包括一个或多于一个分类(例如，名称)。例如，地图400(使用不同的阴影)例示了具有ID 1、2和3的车道段是高速段；具有ID 4、5、6、7和11的车道段是正常速度(例如，限速)段；具有ID 8、9和10的车道段是舒适(例如，较低速度)段；具有ID 12、13和15的车道段是城市车道段；并且具有ID14、16和17的车道段是手动驾驶车道段。这些分类不一定相互排斥。例如，城市车道段可以是手动驾驶车道段。

舒适车道段可以是交通可按在车道段的道路上的限速的-10英里/小时(或一些其他阈值速度)内的速度移动的车道段。手动驾驶车道段是不能自主地穿越或不能以足够的置信度自主地穿越的车道段。这种车道段必须在诸如通过驾驶员或远程操作员等的手动驾驶控制下穿越。由此，车道级路线规划器还可以包括用于在车道段之前的某个时间向用户(例如，驾驶员)通知该用户应该承担运载工具的手动驾驶控制的动作。

在示例中，获得车道级路线可以包括获得用于从源位置到目的地穿越车道段的策略。该策略包括车道转变。更准确地，并且如下面进一步描述的，该策略提供了考虑到运载工具在当前车道段中的动作。在示例中，策略可以是确定性策略。在另一示例中，策略可以基于随机模型。

虽然在路线规划中，使到达目的地的时间最小化通常是路线规划器的目标，但是如下文进一步描述的，根据本发明的车道级路线规划器可以通过针对若干目标进行优化来获得车道级路线。

可以使用一种马尔可夫决策过程(Markov Decision Process，MDP)模型来获得车道级路线。车道级路线规划可以被建模为拓扑部分可观察马尔可夫决策过程(topologicalpartially observable Markov decision process，TPOMDP)或其完全可观察子类拓扑马尔可夫决策过程(topological Markov decision process，TMDP)。TPOMDP和TMDP使得附加的目标度量(诸如最大化安全性、平滑性和/或其他人类偏好等)能够被结合到典型的部分可观察马尔可夫决策过程(partially observable Markov decision process，POMDP)或马尔可夫决策过程(MDP)目标(诸如使行驶的时间或距离最小化等)中。除了TPOMDP是基于表示各个状态的概率的信念状态(即，概率)并受制于与生成各个状态的观察相对应的观察概率之外，求解TPOMDP模型可以类似于求解TMDP模型。其他模型类型也是可能的。例如，模型可以是标量化的多目标马尔可夫决策过程(MOMDP)、标量化的部分可观察多目标马尔可夫决策过程(MOPOMDP)、约束马尔可夫决策过程(CMDP)或约束部分可观察马尔可夫决策过程(CPOMDP)中的一个。

为了例示且不失一般性，用户可以指示对慢车道的偏好。由此，路线规划器可以将“舒适”目标整合到如何到达目的地的计算中。在另一示例中，用户可以附加地或可替代地指示对最小化能量消耗的车道的偏好。例如，如果一些车道段上的交通走走停停，这往往需要更多的能量消耗，则路线规划器可能相对于这些车道而言优选其他路段。作为另一示例，路线规划器相对于有许多起伏的道路优选平滑的道路，这是因为这样的有许多起伏的道路往往导致更多的能量消耗。在另一示例中，相对于具有稀疏充电站的其他道路，具有许多充电站的道路可以是优选的。

不失一般性，可以用随机最短路径(SSP)结构术语(例如，成本而不是奖励和目标作为在到达时自循环的目标状态)来描述模型(例如，TMDP或TPOMDP)。

连通图(V，E，R)可以被转换成由元组＜S,A,T,C,E,δ,s₀,s_g＞表示的模型。各个顶点v∈V可以是可以做出选路决策的点的GPS坐标。由此，顶点可以是交叉口、变道位置(例如，诸如从具有ID 9的车道段到具有ID 11的车道段等)、以及合并点等的GPS坐标。为了例示，在地图400中，顶点v可以是车道段的某些点的坐标。例如，某些点可以是车道段的中点。连通图的各个边e∈E可以描述顶点有向图的长度或穿越时间R(e)。例如，在基于地图400的连通图中，与具有ID 9的车道段相对应的顶点将连接到具有ID 10和11的车道段。

现在呈现形式模型TMDP的概述。如所述，该模型可以形式上描述为元组＜S,A,T,C,E,δ,s₀,s_g＞。S可以是状态或顶点v∈V的有限集。A是各个顶点处用于选择后继车道段(或等同地，后继顶点)的动作空间。为了例示且不失一般性，动作空间A可以包括动作“向左移动”、“向右移动”、“直行”或“对角移动”。然而，更多、更少、其他动作或其组合是可能的。例如，动作空间A还可以包括向用户通知承担手动控制的动作、切换到手动控制的动作、向用户通知控制将切换到自动化控制的动作、以及切换到自动化控制的动作等。

s₀是初始状态，其可以是在路线规划器计算车道级路线时运载工具的当前位置。s_g可以是目标状态，其可以是目的地。一旦达到目标状态s_g，无论采取哪个动作，都维持目标姿态，并且在目标姿态s_g下采取的每个动作都具有0的成本。

T(即T:S×A×S→[0,1])可以是表示在状态s∈S下进行动作a∈A之后出现后继状态s’∈S的概率的状态转变函数。因此，T是描述各个动作的随机成功/失败的状态转变函数。状态转变函数T(s,a,s′)＝Pr(s′|s,a)可以是在假定在状态s下进行动作a的情况下后继(车道段或顶点)s′的概率。在示例中，状态转变函数可以包括顶点(例如，车道段)的至少一些(例如，各个)相邻顶点(例如，车道段)的相应概率。为了例示，关于具有ID 1的车道段(即，车道段406A)，状态转变函数T可以包括从具有ID 1的车道段到具有ID 4的车道段、从具有ID 1的车道段到具有ID 2的车道段和/或从具有ID 1的车道段到具有ID 5的车道段的一些转变的相应转变概率。在一些示例中，状态转变函数可以包括转变到更远的邻居的概率(例如，从具有ID 1的车道段转变到具有ID 3的车道段)。

由此，使用地图获得到达目的地的车道级路线可以包括获得策略，该策略当AV在地图的第一车道段上时提供了用于控制AV移动到与第一车道段相邻的第二车道段的动作。

可以基于包括限速、边e的车道长度、AV的规格、一天中的时间和位置、交通拥堵信息、更多准则、更少准则、其他准则或其组合的准则来导出概率。在示例中，如下文进一步描述的，可以学习这些概率(和/或用于获得转变概率的准则)。

C(s，a)(即C:)可以表示多成本函数，该多成本函数表示在状态s∈S下进行动作a∈A的预期即时成本(s)。由此，可以使用一个或多于一个目标来计算车道级路线。成本C可以被建模为一个或多于一个预期目标的优化的成本向量。一个或多于一个预期目标可以包括时间目标C_T(即，与使到达目的地的行驶时间最小化的时间相关的第一目标)、舒适性目标C_C(即，与指示对舒适车道段的偏好的舒适性相关的第二目标)、自主性目标C_A(即，与指示对可以相对于手动控制而自主地控制运载工具的车道段的偏好的自主性相关的第三目标)、城市目标C_U(即，与相对于例如农村车道段而偏好城市车道段相关的第四目标)、更少目标、更多目标、其他目标或其组合。在示例中，成本目标可以与电力生成有关。因此，在示例中，成本向量C可以由/>给出，其中各个C_i(s,a)表示处于状态s并进行动作a的成本目标i。在示例中，一个或多于一个目标可以包括与时间相关的第一目标、与舒适性相关的第二目标、与自主性相关的第三目标、以及与城市车道段相关的第四目标中的至少两个。

目标可以遵循有向无环图(DAG)E按偏好排序布置。下面针对图5描述偏好排序图的示例。各个目标可以具有非负的松弛δ:e→R+，其描述了用户愿意在一个目标的值上“花费”多少来改进另一目标的值。由此，一个或多于一个目标在包括松弛变量的偏好排序中相关。

模型的求解方案可以是策略π:S→A。在策略π下，针对状态s选择动作a(即π(s))。也就是说，策略π可以指示在状态s下应采取动作π(s)∈A。策略π可以包括值函数V^π:S→C，该值函数可以表示遵循策略π从状态s到达目的地(即目标姿态s_g)的预期累积成本V^π(s)。也就是说，值函数可以提供从开始状态直到到达目标姿态为止的各个中间状态s_i的预期成本(即，值)。

最佳策略π^*使预期累积成本最小化。形式上，对于初始状态s₀，预期值可以由式(1)给出：

在式(1)中，S_t和A_t分别表示在时间步长t处的状态和动作的随机变量。通常，求解模型需要存在适当的策略。适当的策略π具有以下性质：(1)存在以概率1到达目标的策略、以及(2)未以概率1到达目标的所有状态导致无限成本。

在图3的306处，技术300控制AV穿越车道级路线。返回到图4，图4中的箭头例示在所确定的策略π下的动作。箭头408A例示动作：“当状态等于具有ID 1的车道段时，采取向右的动作，这导致运载工具以状态等于具有ID 4的车道段结束”。在这种情况下的“采取动作”意味着诸如通过改变加速器踏板的操作量、制动踏板的操作量或改变方向盘的转向角度等来“使得运载工具被控制”。

所确定的策略π并入(例如，包括)应急路线。因此，所获得的车道级路线包括应急路线。为了例示，当运载工具处于具有ID 9的车道段中时，策略指示将运载工具控制为移动到具有ID 11的车道段。然而，如果运载工具不能采取具有ID 11的车道段而是最终到达具有ID 10的车道段，则策略指示“采取向左的动作”以将运载工具移动到具有ID 6的车道段并且直到具有ID 7的车道段。由此，控制AV穿越车道级路线可以包括响应于不能从第一段转变到第二段而根据应急路线控制AV。

图5例示根据本发明的实现的目标的偏好排序图的示例500。如上所述，模型的目标可以以拓扑方式排序。以拓扑方式排序的约束可以使前继目标在初始信念处或跨所有信念满足松弛。车道级路线规划器可以对目标进行推理以计算策略，这些目标在拓扑排序的约束图中进行排序。虽然描述了三个不同的偏好排序，但是本发明不限于此，并且其他配置(即，偏好排序)是可能的。

示例500中所示的目标涉及优化速度(即，标记为H的气泡形状，诸如目标512、538和556等)、优化舒适性(即，标记为C的气泡形状，诸如目标514、534和554等)、优化城市驾驶(即，标记为U的气泡形状，诸如目标516、532和552等)和优化手动驾驶(即，标记为M的气泡形状，诸如目标518、536和558等)。所示的目标是示例，并且其他目标也是可能的。此外，所示的偏好排序图是非限制性示例，并且包括相同或不同目标和拓扑的其他偏好排序图也是可能的。这些目标各自与可能对人类有意义的相应语义标签相关联。如本文进一步描述的，用户可以使用语义标签来指示车道级路线规划器的路线偏好。

示例510是链偏好排序图的示例。当使用示例510的偏好排序图时(即，当目标以链相关时)，将第一高速目标最大化(即，目标512)；然后，在假设第一高速目标在高速目标的松弛513(例如，松弛3)内的情况下，将舒适性目标(即，目标514)最大化；然后，在假设舒适性目标在该舒适性目标的松弛515(例如，松弛1)内的情况下，将城市目标(即，目标516)最大化，该舒适性目标已经被约束以保证在第一目标的松弛513内；最后，在假设已经被约束的城市目标在该城市目标的松弛517(例如，松弛7)内的情况下，将手动驾驶目标(即，目标518)最大化。

示例510可以被解释(例如，理解等)为车道级路线规划器优选高速道路(即，目标512)，但是将允许三分钟的额外时间(即，松弛513)，以便路线规划器选择更舒适(即，目标514)的不同替代路线(该替代路线还将最大化舒适性目标)。由此，用户可以提供本质上陈述“给我最快的可能道路，但是允许比最快路线长3分钟的路线以便在更舒适的车道上驾驶”的输入(例如，发出命令等)。并且针对示例510中的其他目标类似。注意，松弛变量的度量单位与其约束的目标的度量单位相同。

如下面将进一步描述的，用户可以经由图形用户接口(例如，拖放界面、列表等)或者供用户提供偏好的一些其他方式利用口头命令指定目标的排序，路线规划器可以将该口头命令转换为偏好排序图。

示例530是扇形偏好排序图的示例。当使用示例530的偏好排序图时(即，当目标具有该扇状关系时)，同时针对城市目标(即，目标532)、舒适性目标(即，目标534)和手动驾驶目标(即，目标536)计算最佳策略。然后，确定使高速目标(即，目标538)最大化的最终策略，该高速目标经历了前三个目标的松弛533、535和537(即，分别为松弛值5、9和2)。这等同于取这前三个目标的策略集合的交集，并且在该空间中搜索最后目标。

示例550是示例510和530的混合的有向图的示例。

对于各个目标(例如，示例500的气泡形状)，车道级路线规划器获得满足该目标的路线集合。例如，关于目标552，车道级路线规划器识别最佳路线(例如，在尽可能多的城市车道上到达目的地的最小路线)。为了达到目标，允许一分钟的松弛(即，松弛553)。由此，路线规划器可以被认为提供了围绕达到目标的各种可能性的包络。也就是说，路线规划器可以识别在最佳时间的一分钟内的所有路线以及这些路线是否在城市道路上。因此，返回在松弛553内满足目标552的第一路线集合。

获得满足目标554(即，在标记为舒适的车道上驾驶)并且在最舒适路线的6分钟(即，松弛555)内的第二路线集合。类似地，还获得在9分钟(即，松弛557)内满足手动驾驶目标的第三路线集合；等等。所获得的全部路线集合被传递到目标556，然后从该汇聚(sink)目标获得的路线必须在所获得的全部路线集合中。在某些情形下，满足所有约束和松弛的路线是不可能的。

注意，示例500中进入气泡形状的箭头可以被认为是将目标约束在给定目标的路线集合(或多个集合，取决于偏好排序图的配置)内。由此，如果没有父箭头(即，没有进入的箭头)，则路线规划器可以选择在任何松弛(如果有)内满足目标的任何路线。另一方面，所选择的(一个或多于一个)路线必须在父目标所提供的(一个或多于一个)路线中。由此，下游目标可以被认为是修剪所提供的(例如，进入的)(一个或多于一个)路线集合。

在示例中，代替偏好排序图，可以使用标量化函数将所有奖励(例如，成本)映射(例如，组合等)到单个值。标量化函数可以用于将模型/问题转换为最短路径优化问题(SSP)MDP或POMDP。可以使用标量化函数获得指示下一即时动作的长期效用的单个值，该标量化函数组合预期成本以获得单个值。形式上，标量化函数f:可以是这样的：对于单个值，f(V(s))＝V_f(s)，以及对于成本函数，f(C(s))＝C_f(s)。在示例中，标量化函数可以是目标的加权和或目标的非线性函数。根据所期望的优化，可以使用不同的权重。在示例中，通过去除任何概率，车道级路线规划可以被建模为经典规划(CP)问题。

无论使用的模型如何，车道级路线规划都可以是分层的。如可以理解的，可能的车道的数量越多，计算策略(如果有的话)可能花费的时间越长。为了限制车道级路线规划器思考的车道段的数量，车道级路线规划可以以分层的方式进行。例如，给定佛罗里达州的迈阿密为起始位置和阿拉斯加州的费尔班克斯为目的地，车道级路线规划器可以将美国的道路分组为簇，在簇之间规划车道级路线，然后在路线的各簇内进行路线级规划。

在示例中，并且如上所述，车道级路线规划可以被建模为拓扑部分可观察MDP(TPOMDP)，以允许针对例如(1)各个状态的交通水平、(2)驾驶员和/或运载工具中至少之一的能力、和/或(3)各种目标成本的信念。

更形式上地，TPOMDP可以被描述为元组<S,A,Ω,T,O,R,E,δ>。

S是状态的有限集。A是动作的有限集。Ω是观察的有限集。T是状态转变函数，使得T(s,a,s′)＝Pr(s′|s,a)是在假定在状态s下进行动作a的情况下的后继状态s′的概率。O是观察函数，使得O(a,s′,ω)＝Pr(w|a,s′)是在假定在进行动作a会得到后继状态s′的情况下的观察ω的概率。

R是奖励函数的向量，该奖励函数可以等同于上述的成本向量C。也如上所述，E是形成有向无环图的k个奖励(例如成本)的边的集合，其中该有向无环图具有一个叶(即，汇聚)奖励顶点，该叶奖励顶点不失一般性地是奖励顶点k。δ是将边e＝＜i,j＞∈E映射到非负松弛约束δ(e)≥0(或等同地，δ(i,j)≥0)的函数。

TPOMDP以世界的信念操作，其中Δ^|S|是对状态S的概率分布并且是标准的|S|-单纯形(|S|-simplex)。信念b是对状态的概率分布。可以针对所有的时间步长且针对所有的向前车道段、向后车道段、后继车道段、前继车道段等存在信念b。给定信念b，在进行动作a并观察ω之后，对状态s′的下一信念b_baω是：

b_baω(s′)∝O(a,s′,ω)∑_s∈ST(s,a,s′)b(s)，其中∝表示比例 (2)

如上所述，TMDP是TPOMDP的子类，其中Ω＝S且O(a,s,s′)＝1，使得针对所有s∈S，可达信念b∈B为b(s)＝1。

无限时域TPOMDP中的目标设法使从初始信念b₀起的预期折扣奖励最大化，其中折扣因子γ∈[0,1)。对于策略π，可以通过或等同地给出预期折扣奖励，其中b^t表示在转变函数T和观察函数O之后生成的在时间t处的信念的随机变量，该观察函数O是在假定进行动作a会得到后继状态s′的情况下的特定观察的概率。

值V^π:是信念b的预期奖励，可以通过下式给出：

V^π(b)＝R(b,π(b))+γ∑_ω∈ΩPr(ω|b,π(b))V^π(b′_bπ(b)ω) (3)

在式(3)中，R(b,a)＝∑_sb(s)R(s,a)并且b′_bπ(b)ω遵循式(2)中的信念更新。

如本文所述，车道级路线规划器使用导航地图获得策略。在示例中，可以学习导航地图。如本文使用的学习涵盖了导航地图可以被演变。导航地图可以包括预先配置的车道信息，并且在从一个或多于一个运载工具获得车道级信息时，该预先配置的车道信息可以演变以反映(例如，并入等)所获得的车道级信息。导航地图最初可以不包括车道级信息，并且可以基于从一个或多于一个运载工具接收到的车道级信息来构建(例如，填充等)车道级信息。

可以连续地接收车道级信息，并且使用新接收到的车道级信息定期地更新导航地图。导航地图可以是特定运载工具(例如，部署在特定运载工具中)的导航地图，并且可以基于来自运载工具本身的车道级信息来更新导航地图。

附加地或可替代地，可以基于从许多运载工具(诸如在服务器处等)接收到的车道级信息来学习导航地图。车道级信息可以与服务器在一起，该服务器可以是基于云的服务器。由此，然后多个运载工具可以接收更准确的对(在道路上实际驾驶之前的)时间的初始估计、与(新区域中的)热门路线有关的偏好、以及与(针对共享相同代码/硬件的运载工具)队列应该规划路线所通过的位置有关的能力信息。

可以从许多运载工具获得车道级信息。特定顾客所拥有的运载工具可以生成车道级信息。(诸如为了提供出租车服务、递送服务或一些其他服务等而)部署的运载工具队列可以生成车道级信息。可以使用从运载工具的传感器接收到的数据来生成来自该运载工具的车道级信息。在示例中，原始传感器数据可以被发送到服务器，并且该服务器可以使用原始传感器数据来生成车道级信息。

由此，导航地图可以包括针对不同道路的不同车道和不同车道段的经学习的历史驾驶模式和特性。历史驾驶模式可以是特定运载工具的驾驶模式、特定运载工具的特定驾驶员的驾驶模式或若干运载工具的聚合的经学习的历史驾驶模式的驾驶模式。

一个或多于一个驾驶员的驾驶模式可以被学习并用于车道级路线规划。导航地图可以包括与道路状况有关的信息。因此，经学习的导航地图是可以利用/并入驾驶员的驾驶行为的历史和/或车道(并且更具体地是车道段)的特性的导航地图，从而实现车道级路线规划。

来自所连接(诸如连接到基于云的服务器等)的多个运载工具的车道级信息可以被组合到共享导航地图中。各个所连接的运载工具可以将车道级信息发送到诸如一个或多于一个通信装置240等的服务器，该服务器可以聚合所获得的全部车道级信息以获得导航地图。多运载工具多目标学习(即，来自多个所连接的运载工具的车道级信息)可以极大加快针对单个运载工具的学习，并使得该运载工具能够在该运载工具本身在道路上驾驶之前学习路线的值(例如，车道级信息)。

随着时间的推移，服务器可以接收与区域内许多驾驶员已驾驶的许多车道段有关的信息，而不仅仅是已驾驶特定运载工具的道路的信息。车道级信息还可以包括运载工具平台(例如，Nissan LEAF、Nissan Sentra、Nissan Rogue等)的标识信息。在一些示例中，车道级信息还可以包括生成车道级信息的特定驾驶员的信息(例如，偏好等)。然后，使用接收到的车道级信息轨迹，服务器可以将该信息分离成取决于运载工具(即，运载工具规格)、驾驶风格、道路(例如，包括车道和车道段状况)和/或其他准则的信息，以创建各自专用于特定运载工具、特定运载工具平台、特定驾驶员或特定驾驶风格等的固有导航地图。

如上所述，针对道路中的车道的车道段并且经由学习，可以学习环境信息、运载工具信息、人类信息、更少、更多、其他信息或其组合中的至少一些。经学习的信息可以被转换成概率。如本文所述，概率可以是状态转变函数、可以合并在状态转变函数中或者可以由状态转变函数使用。概率也可以用于设置要计算的路线(例如，策略)的目标。

环境信息可以包括交通模式、行人模式、运载工具(例如，其他AV)的车道段的穿越困难信息、天气信息、负担信息、更多、更少、其他环境信息或其组合中的一个或多于一个。运载工具信息可以包括每个车道段的平均速度信息、能量使用(例如，电动运载工具的电池使用、混合动力运载工具的汽油和电池使用、或内燃引擎运载工具的汽油使用)、更多、更少、其他运载工具信息或其组合中的一个或多于一个。

人类信息可以包括优选路线、优选车道、控制转变请求(诸如从自动化驾驶到手动驾驶、或者从手动驾驶到自动化驾驶等)、经由驾驶员超控(override)的能力模型更新、更多、更少、其他人类信息或其组合中的一个或多于一个。控制转变请求可以包括请求控制转变的车道段。控制转变请求可以包括规划的后继车道段和人类驾驶员采取的后继车道段。

在运载工具正在穿越路线时(无论是基于导航地图的当前状态还是不经由车道级规划器设置路线)，运载工具的传感器可以被用于收集要转换为车道级信息的信息。也就是说，运载工具可以被认为处于阴影模式并通过其传感器观看其环境。

来自传感器的数据可以用于识别例如但不限于道路(以及因此车道和车道段)是城市还是高速公路，车道段是否难以穿越，交通是否密集、密度的水平等。穿越的难度可以基于驾驶员超控量来识别。即，自动化驾驶决策被人类超控或纠正的次数、或者人类指导自动化控制以不同于自动化控制所建议的方式控制运载工具的次数。

负担信息可以指示用户(例如，运载工具的乘员)在假定所选变道决策的情况下可能经历的压力的水平。为了例示，特定路线可能要求运载工具在拥堵或高速交通区域中在相对短的时间段或短距离内向左移动三个车道段。这种情形可能对用户是有压力的。这种负担信息可以用于选择远早于拥堵区域之前的车道段转变点，或者可以选择完全避开压力情形的路线。

车道级信息可以用于进行计数，使得计数可以被转换成概率。例如且不失一般性，交通密度的计数可以被转换成从一个车道段移动到另一车道段的概率(诸如穿越道路中的一个车道段并移动到下一车道段所花费的时间等)；历史中在车道段上存在轻量交通vs密集交通的次数的计数可以用于确定交通密度的概率；车道段上的速度高的次数的计数可以用于将车道段分类为高速；以及车道段上的速度在限速的-10英里内的次数的计数可以用于确定该车道段是舒适车道段的概率；等等。

可以根据概率来构建导航地图。也就是说，导航地图可以并入概率。导航地图是如针对图4所描述的转变图。在获得策略时，可以基于车道级信息(例如，概率)来确定下一动作(例如，直接移动到下一车道段、移动到左侧相邻的车道段等)。为了例示且不失一般性，可以基于本文描述的相邻车道段的概率来在概率上(或确定性地)确定下一动作，该相邻车道段的概率例如包括基于当前车道段是否拥堵的相邻车道段拥堵的概率。

导航地图的至少一些车道级信息可以用于设置针对车道级路线规划器的目标。为了例示且不受限制，如所述，环境可以包括穿越难度，并且当(诸如用户所设置等的)目标是使自动化驾驶最大化时，路线规划器将避开具有穿越难度的车道(或车道段)。也就是说，将计算路线规划器策略，以避开具有穿越难度的车道段。

考虑了到达目的地的时间(其可以包括或并入限速、道路长度、停车灯、交通密度、以及车道段是否是高速车道等)、偏好(其可以包括用户对舒适性、相对于高速公路道路的城市道路以及能量消耗等的至少一些的偏好)和能力(其可以包括是否可以胜任地自动穿越或是否可以胜任地手动穿越车道段)的目标。

为了例示且不受限制，为了能够使用时间、偏好和能力目标的至少子集来规划路线，每当运载工具在路线上驾驶时，可以记录自动穿越特定车道段的时间，无论是否完全停止。类似地，也可以记录(即，人类在特定车道段上驾驶时)手动穿越特定车道段的时间。由此，可以记录四个平均持续时间。平均时间可以用于定义自循环的TMDP状态转变(停止)。平均时间可以用于定义诸如基于状态：自主驾驶(例如，控制)vs手动驾驶等的穿越时间的奖励/成本。

此外，每当人类在车道段上驾驶时，可以记录后继车道段。后继车道段可以用于定义在[0，1]范围内的偏好的奖励/成本，该[0，1]可以是人类在道路或车道段上驾驶的时间的比率。

此外，每当人类超控自动化控制或运载工具在自动化控制下被堵住(即，在多于第一时间阈值(诸如1分钟或某一其他时间阈值等)内不前进)时，可以记录第一值-1；否则(例如，当没有超控自动化控制以及运载工具没有被堵住时)，可以记录第二值0。所记录的第一值和第二值的平均值可以被用作能力的度量。反过来可以用来学习人类驾驶员的能力。例如，在手动控制下，如果运载工具在多于第二时间阈值(例如，1分钟或某一其他时间阈值)内不移动，则可以记录第三值-1。例如，如果驾驶员没有遵循由车道级路线规划器识别的被禁止的下一动作，则可以记录第四值-1。例如，如果驾驶员无缝地前进到相邻的车道段，则可以记录第五值0。可以记录第三值、第四值和第五值的平均值，作为当运载工具处于当前车道段时人类采取下一动作的能力的度量。

如前已经所述的，语义标签可以用于定义车道级路线规划器所要计算的路线的目标。语义标签的示例包括针对图5描述的这些，诸如“舒适性”(和/或任何相关语义概念)、“城市”(和/或任何相关语义概念，诸如“高速公路”等)、“高速”(和/或任何相关语义概念)、“手动驾驶”(和/或任何相关语义概念，诸如“自主化驾驶”等)等。更少、更多、其他语义标签或其组合是可能的。为了例示，如果用户指示对舒适道路的偏好，则车道级路线规划器将考虑标记为“舒适”的车道段来计算策略。

注意，从目标到语义标签的映射不需要是一对一映射。由此，语义标签可以组合数个目标，或者一个目标可以用于定义一个或多于一个语义标签。

在所公开的实现的一方面中，可以使用多目标深度强化学习(MODRL)。在强化学习或深度强化学习中，深度神经网络(DNN)可以用于学习策略。DNN可以可替代地或附加地用于学习值函数。由此，可以使用强化学习技术来代替规划技术。在强化学习中，可以经由DNN从反馈中学习目标。反馈可以包括穿越车道段的时间、能力的人类超控或其他反馈中的一个或多于一个。在强化学习中，代替学习概率，将概率和成本组合成达到目标(即目的地)的期望值。

在一方面中，并如本文所述，TMDP可以使用导航地图来获得策略。在另一方面中，可以使用TPOMDP来获得策略。使用TPOMDP实现了对例如但不限于如下内容的信念：道路、车道或车道段上的交通水平；新道路、车道或车道段的能力量(amount of competence)；或者本文描述的其他车道级信息。

图6例示根据本发明的实现的学习和使用导航地图的概要600。车道级路线规划器可以包括用于获取车道级信息的学习模块。车道级路线规划器可以在运载工具中执行，并且车道级信息可以并入到运载工具的导航地图中。车道级信息可以被发送到服务器，该服务器可以从多个运载工具接收车道级信息。服务器可以将接收到的车道级信息并入到导航地图中。然后，导航地图可以用于车道级路线规划器以获得策略(例如，路线)。

概要600示出了从起点608到目的地610(由同一或多于一个运载工具，未示出)采取三个不同路线602、604和606。在驾驶期间，针对车道段(诸如车道段612等)收集车道级信息。历史614指示经学习的车道转变，并且历史614中的车道段的阴影指示经学习的车道段的特性。历史614包括如本文所述经学习的其他车道段信息。

如本文所述，沿着至少一些(例如，所有)路线的至少一些(例如，所有)车道段的历史可以被组合(例如，计数等)到导航地图中。如本文所述，如框618所示，多个目标和其他语义标签可以记录在各个车道段历史中。

基于该学习，可以生成由转变图620例示的状态转变图结构(即，上述的状态转变函数T)。如本文所述的，状态转变图可以由SSP MDP或POMDP模型使用。然后，输出(例如生成等)车道级多目标车道级路线规划器的导航地图。导航地图的车道级信息包括运载工具对车道段的所有穿越的平均值。例如，车道级信息包括速度、停止、感知交通的密度、电池使用和变道成功率等的一个或多于一个平均值。

基于学习，还可以生成成本(奖励)函数，以用于SSP MDP或POMDP模型。如上所述，不同目标的平均值可以被记录为奖励，从而观察时间、控制转变点、电池使用和速度等。从奖励函数可以知道目标之间是否可能有松弛。例如，如果路线采取比最佳长的10分钟的预期，则至少10的松弛是可能的。这样的奖励函数和松弛可以用于设置如针对图5所描述并用偏好排序622所示的偏好排序。

图7是根据本发明的实施例的用于学习用于路线规划的导航地图的技术700的示例的流程图。然后，导航地图由车道级路线规划器使用。技术300可以部分地或完全地在可以作为主运载工具的设备中实现，诸如图1所示的运载工具100、图2所示的运载工具210/211之一、半自主运载工具、可以包括驾驶辅助能力的任何其他运载工具、或者诸如由驾驶员等手动控制的运载工具等。该设备可以是服务器，该服务器可以是图2的通信装置240。

技术700可以被实现为存储在存储器中的指令(例如，操作)。存储器可以是图1的存储器134。存储器可以是服务器的存储器。指令可以由诸如图1的处理器133等的处理器执行。可以使用专门的硬件或固件来实现技术700。可以使用多个处理器、存储器或这两者。

在702处，技术700获得道路的车道级信息。车道级信息包括道路中的不同车道的不同段的信息。例如，道路可以包括第一车道和第二车道。车道级信息包括与第一车道相关的第一车道信息以及与第二车道相关的第二车道信息。

车道级信息可以在主运载工具处获得，并且车道级信息可以用于演变主运载工具(例如，在主运载工具中使用、由主运载工具使用、在主运载工具处可用等)的导航地图。可以在服务器处获得(例如，接收等)车道级信息，该服务器从数个运载工具获得车道级信息。服务器可以将演变后的导航地图发送到运载工具供这些运载工具各自的车道级路线规划器使用。服务器可以使用演变后的导航地图来计算路线(例如，策略)。

如上所述，车道级信息可以包括环境信息、运载工具信息和人类信息中的至少一个。环境信息可以包括车道段的交通模式、行人模式或穿越难度信息中的至少一个。运载工具信息可以包括用户的优选路线和用户的控制转变请求。

在示例中，获得道路的车道级信息可以包括：记录在道路上停止的情况下的道路的自动化穿越的第一次数；记录在道路上不停止的情况下的道路的自动化穿越的第二次数；记录在道路上停止的情况下的道路的手动穿越的第三次数；以及记录在道路上不停止的情况下的道路的手动穿越的第四次数。在示例中，获得道路的车道级信息可以包括记录在手动穿越期间的后继车道段。在示例中，获得道路的车道级信息可以包括记录人类对自动化驾驶控制的超控。道路的自动化穿越是指自动控制运载工具以穿越道路。道路的手动穿越是指(诸如由人类等)手动控制运载工具以穿越道路。

在704处，技术700将车道级信息转换成可以用于获得到目的地的路线的状态转变函数。如上所述，状态转变函数可以是TMDP或TPOMDP模型的状态转变函数。如上所述，到目的地的路线可以是策略，或可以封装在策略中。在示例中，策略(因而路线)可以是随机的。

在706处，技术700接收目的地。例如，服务器(更具体地在在服务器处执行的车道级路线规划器)可以(诸如从用户装置或运载工具的绘制成图应用等)接收当前位置和目的地，可以获得路线。例如，在设备处执行的车道级路线规划器可以从用户(诸如驾驶员或乘员等)接收目的地，并且车道级路线规划器可以获得路线。在一些示例中，车道级路线规划器可以诸如基于设备的当前位置等来推断路线的起点位置。

在708处，技术700获得策略作为使用状态转变函数的模型的求解方案。

图8是根据本发明的实现的用于在路线规划中提供解释的技术800的示例的流程图。如本文所述的，技术800可以部分地或全部地由诸如车道级路线规划器等的路线规划器来实现。技术800可以由路线规划器的模块(诸如解释器模块等)来实现。车道级路线规划器可以提供可以用于控制运载工具自动遵循路线的动作。技术800可以用于提供关于为什么某个道路、车道或车道段被路线规划器选择的解释。

技术800可以被实现为存储在存储器中的指令(例如，操作)。存储器可以是图1的存储器134。存储器可以是服务器的存储器。指令可以由诸如图1的处理器133等的处理器执行。可以使用专门的硬件或固件来实现技术800。可以使用多个处理器、存储器或这两者。

参考图9进一步描述技术800。图9是根据本发明的实现的提供基于多个目标的解释的示例900的示意图。

在802处，技术800可以基于从用户接收的至少两个目标来确定(例如，计算、获得等)路线。至少两个目标中的第二目标可以被约束在该至少两个目标中的第一目标的松弛值内。如上所述，松弛值指示允许相对于第一目标的多少偏差来改进第二目标。

在示例中，确定路线可以是指获得用于导航从起点(例如，当前)位置到目的地位置的路线的策略。如本文所述，可以使用马尔可夫决策过程来确定路线。如本文所述，车道级规划器可以确定路线。如本文所述，车道级路线规划器可以使用导航地图来确定路线。路线规划器可以是多目标路线规划器。

至少两个目标可以是任何数量的目标。如本文所述，至少两个目标可以以任何方式相关(例如，约束等)。可以使用有向无环图来使至少两个目标相关。在示例中，至少两个目标可以包括时间目标、舒适性目标、自主性目标和城市目标中的至少两个。

图9的有向图910例示了两个目标：时间目标912和自主性目标914。自主性目标914被约束到时间目标912的3分钟的松弛值916内(例如，自主性目标914是在时间目标912的3分钟的松弛值916内)。在示例中，至少两个目标可以是路线规划器的默认设置。在示例中，技术800可以从用户接收第一目标、第二目标和松弛值。

在示例中，可以从用户以口头命令接收第一目标、第二目标和松弛值。例如，口头命令可以是“给我找最快路线，允许3分钟的松弛以增加自主性”。口头命令可以经由路线规划器的语义处理模块被转换成内部表示，该内部表示是或可以类似于有向图910。语义处理器可以识别口头命令中的目标、目标之间的关系以及任何松弛值。例如，语义处理器可以将词语“最快路线”、“增加自主性”和“允许3分钟的松弛”分别转换为时间目标912、自主性目标914和松弛值916。

在示例中，可以向用户提供图形用户接口，用户可以经由该图形用户接口指定目标和松弛值。针对图10和图11描述图形用户接口的示例。图形用户接口可以被提供在诸如运载工具的显示器或用户的装置的显示器等的显示器上。图形用户接口可以呈现拖放界面，其中用户可以拖动表示可用约束的图标(例如，气泡形状、框、词语等)、将这些图标连接以形成DAG(诸如针对图5描述的DAG等)。通过点击两个约束之间的连接，用户可以提供松弛值。在示例中，路线规划器的语义处理器可以将DAG转换成可以在显示器上显示的语句。在示例中，用户可以被限制为形成作为列表(例如，目标序列)的DAG。

在示例中，用户的口头命令可以以文本方式显示在显示器上。在示例中，可以在显示器上显示表示用户的口头命令的DAG。

在804处，技术800从用户接收对与沿着路线的动作有关的解释的请求。该请求可以是对与尚未采取的动作或已经采取的动作有关的解释。

所确定的路线可以被显示在显示器上。诸如在图9的地图920中所示等，该路线可以叠加在地图上。地图920包括从起点923到目的地924的路线922。起点923可以是运载工具的当前位置，并且可以随着运载工具穿越路线922而更新起点923。

地图920指示要采取的下一段是车道段929。地图还可以包括控件，用户可以使用(例如，按下等)该控件来获得信息或获得解释。例如，地图920包括路线规划器本已选择的替代车道段选择器926。响应于用户按下解释器控件925，技术800提供解释。用户可以使用信息控件927来请求显示在该信息控件927旁边的与车道段、车道或道路有关的信息。如上所述，响应于按下信息控件927，技术800可以提供与导航地图中可用的车道段有关的信息。解释器控件925、替代车道段选择器926和信息控件927的其他放置或可视描述是可能的。

在示例中，技术800可以经由来自用户的口头请求接收对解释的请求。

对解释的请求可以是与当前状态下的特定可能动作有关的请求。例如，用户可以问“你为什么不向右走？”，以接收与路线规划器所选择的下一即时动作有关的解释。对于这样的请求，路线规划器通过将在路线规划器的当前状态下的所选动作与特定可能动作进行比较来提供答案。

对解释的请求可以是涵盖了当前状态下的所有可能动作的请求。例如，用户可以问“你为什么直行？”，以接收与路线规划器所选择的下一即时动作有关的解释。通过这样的请求，路线规划器通过将在路线规划器的当前状态下的所选动作与当前状态下的其他可能动作进行比较来提供答案。在示例中，用户可以选择(例如，点击)地图上的特定点(诸如点928等)，在该特定点处，路线规划器可以从不同的可能动作中进行选择。

用户可以请求与路线规划器已经进行或选择要进行的动作有关的解释。例如，用户可以问“你为什么不向右走？”。在另一示例中，用户可以问“你为什么直行？”

在示例中，用户可以手动地超控动作。用户可以通过选择(例如，按下等)替代车道段选择器926或通过发出口头命令(诸如“接着，向右走”等)来手动地超控动作。用户可以通过手动控制运载工具来手动地超控动作。用户可以在接收到解释之前或之后超控动作。

当用户选择地图920上的点以请求解释时，地图上的位置被转换为状态s。状态s可以如以上关于任何路线规划模型来描述。

在806处，技术800向用户提供解释。该解释可以描述(例如，包括等)违反松弛值的程度。

在计算路线(例如，策略)时，并且针对至少一些目标，如上所述，路线规划器可以针对至少一些状态(例如，车道段)和可能动作而维持(例如，存储等)相应的预期折扣奖励Q_o(s,a)，其中o是目标，s是状态，并且a是动作。Q(s,a)＝[Q₁(s,a),…,Q_k(s,a)]是针对特定状态s和动作a的1、…、k个目标的预期折扣奖励的向量。获得预期折扣奖励取决于策略。Q_o(s,a)可以是在状态s下采取动作a一次但随后遵循策略的目标o的预期折扣奖励。

在示例中，路线规划器可以在状态之间并且针对各个目标，通过发生了多少改变来存储增益值。可以选择具有最大差值的顶部状态(例如，沿着路线的车道或车道段)作为解释。

为了例示，可以针对预期折扣奖励值的动作在状态s下预期折扣奖励值Q进行排序。在示例中，可以分别针对各个目标存储这些值。对于目标i，针对动作的排序可以被计算为Q_i(s,a₂)>Q_i(s,a₄)>Q_i(s,a₃)>Q_i(s,a₁)，其中，a₁、a₂、a₃和a₄是状态s下的可能动作。由此，动作a₂可以被认为是目标i的最佳动作。然而，对于另一目标j，排序可以是Q_j(s,a₄)>Q_j(s,a₁)>Q_j(s,a₂)>Q_j(s,a₃)。由此，动作a₄可以被认为是目标j的最佳动作。进一步假设，动作a₄是针对状态s最终选择的动作。由此，目标i的预期折扣奖励减少了Q_i(s,a₂)–Q_i(s,a₄)。

动作a₁、a₂、a₃和a₄以及状态的语义含义可以用来提供解释。状态s作为地图位置可以是有意义的。例如，状态s可以是地图中的GPS点。例如，状态s可以是地图中在交叉口处的GPS点。动作a也可以具有含义，诸如在交叉口处的左转弯、右转弯、直行、掉头(u-turn)等。由此，然后可以构建具有占位符(或变量)的解释性语句。例如，可以从模板“在<state>处选择<action a>，这是因为预期时间仅长了<Q_i(s,a_optimal)–Q_i(s,a)>分钟，并且分配了松弛<slack>”构建语句。这种语句的示例可以是：在Barrows和Watson的交叉口处选择掉头，这是因为预期时间仅长了1.2分钟，并且分配了松弛3.0。

为了例示，用户可以问“你为什么没有向右走？”也就是说，用户在问为什么路线规划器没有选择地图940中的路线942。技术800确定为状态s是点928处的GPS位置。技术800确定(例如，计算、从存储器或存储装置中检索、获得、查找等)用户正在问的针对各个目标和各个动作的预期折扣奖励值以进行比较(例如，解释)。由此，技术800确定针对时间目标和自主性目标各自的增益值以及针对go_straight(直行)动作和turn_right(右转弯)动作各自的增益值。因此，技术800确定与路线922相对应的Q_time(s,a＝go_straight)以及Q_autonomy(s,a＝go_straight)，并且确定与路线942相对应的Q_time(s,a＝go_right)和Q_autonomy(s,a＝go_right)，其中s＝点928处的GPS位置。

为了例示的目的，假设确定了以下值：

也就是说，路线922被确定为花费2分钟穿越，并且运载工具可以在1分钟内沿着路线922自主地驾驶；并且路线942被确定为花费6分钟，且运载工具沿着路线942在4分钟内自主地驾驶。

即使路线942产生了满足自主性目标914的更多自主驾驶，技术800也确定为路线942不在松弛值916内。路线942和922之间的时间差是Q_time(s,a＝go_right)-Q_time(s,a＝go_straight)＝6-2＝4分钟。该时间差(4分钟)不在松弛值(3分钟)内。

针对沿着替代路线的状态计算预期折扣奖励。由此，用户可以请求与可以沿着路线或沿着替代路线的任何状态有关的解释。从概率上规划路线导致了考虑许多应急规划。由此，可以提供与为什么不选择某些其他路线有关的解释。例如，响应于用户对替代路线的选择，解释器模块可以使用上述排序算法，仅除了所选路线和替代路线之间存在差异的情况下的车道/道路之外。因此，将能够明确指出是什么导致了路线之间目标之间的最高成本差。

然后，技术800可以构建解释。在示例中，路线规划器的解释器模块可以构建解释。解释可以包括第一动作、第二动作、第一目标、第二目标以及第二动作违反松弛值的程度的相应描述符。

在示例中，构建解释可以是指用描述符替换(例如，插入等)模板中的占位符。在示例中，模板可以具有格式“我进行了<采取的动作>，因为<替代动作>使得<被违反目标>在<松弛量>的所分配松弛之外以改进<违反目标>”(“Iwent<action taken>because<alternate action>causes<violated objective>to be outside allotted slack of<slack amount>in favor of improving<violating objective>,”)，其中<采取的动作>、<替代动作>、<被违反目标>、<松弛量>和<违反量>各自是相应语义描述符的占位符。

占位符<采取的动作>可以是路线规划器所选择的动作的占位符；占位符<替代动作>可以是一个或多于一个替代动作的占位符；占位符<被违反目标>可以是根据替代动作之一的值不在最佳值的松弛值内的目标；<松弛值>可以是松弛值；并且<违反目标>可以是值使得被违反目标的值不在松弛值内的目标。因此，使用上面的示例，解释可以是“我直行，因为向右使得时间在3分钟的所分配松弛之外以改进自主性。”

在示例中，多于一个模板可以是可用的，并且解释器模块可以选择这些模板之一。在示例中，模板可以不包括上述占位符中的一个或多于一个。模板可以是“我进行了<采取的动作>，因为<与车道段相关的状况>”或“我没有进行<未采取的动作>，因为<与车道段相关的状况。”为了例示，在用户提供最大化自主性的主要目标并且路线规划器选择地图940中的路线942的情况下，用户可以问“你为什么不直行？”路线规划器选择路线942，这是因为导航地图包括用于指示车道段944通常包括密集交通、并且因此运载工具没有能力自主地穿越车道段的信息。解释可以是“我没有直行，因为我没有能力自主地穿越车道”。在示例中，车道段可以在地图940上同时突出显示，以向用户指示该解释所涉及的车道段。如上所述，在示例中，可以学习导航地图中的能力信息。在示例中，能力信息可以被预加载(例如，预配置)在导航地图中。

在示例中，可以以一个或多于一个模态提供(例如，向用户输出)解释。解释可以以视觉模态、触觉模态和听觉模态中的至少一个来提供。在视觉模态中，解释可以被显示给用户，诸如显示在运载工具的显示器上等。在听觉模态中，可以向用户大声朗读解释。

触觉反馈例如对听力和/或视力受损的用户可以是有用的。可以通过使运载工具的一个或多于一个物理组件(例如，方向盘、座椅、踏板等)振动来提供触觉解释。

不同的振动模式和位置(例如，方向盘的左侧、方向盘的右侧、座垫的左侧、座垫的右侧、方向盘的两侧、座椅的两侧等)可以用于通信解释的不同方面。在示例中，方向盘可以用于方向盘的传感器检测到人正保持该方向盘的这些情形。

不同的振动模式可以用于传达模板占位符的不同值。触觉解释可以是“<采取的动作振动模式>---<替换动作振动模式>---<被违反目标振动模式>---<违反目标振动模式>”的形式。本文使用“R”和“-”来表示振动模式，其中“R”可以表示振动或嗡嗡声，而“-”可以表示停顿；可替代地，“R”可以表示高强度振动或嗡嗡声，而“-”可以表示低强度振动或嗡嗡声。

不同的振动可以可用于采取的各个动作。例如，动作“向右移动”、“向左移动”、“直行”和“对角移动”可以分别由振动模式“RR”、“R-”、“-R”和“--”来表示。类似的模式可以可用于其他占位符的值。解释可以被构建成振动和停顿的序列，其中该振动和停顿的各个子集表示占位符的值。振动和停顿的序列可以由用于宣布(例如，指示等)解释的开始的序列作前缀。

图10是根据本发明的实现的用于车道级路线规划器的多目标设置的用户接口1000的示例的图。用户接口1000包括运载工具的用户接口，诸如用户接口135等。用户接口1000包括表示第一目标的第一对象1010和表示第二目标的第二对象1020。这里，第三目标被包括在多目标策略中，因此该表示包括表示第三目标的第三对象1030。用户接口1000上的表示内的第一对象1010和第二对象1020的布置指示了第一目标相对于第二目标的优先级(例如，关系等)。类似地，由于包含第三目标，因此用户接口1000上的表示内的第三对象1030的布置进一步指示了第三目标相对于第一目标和第二目标中的至少一个的优先级。

更具体地，在图10的布置中，第一对象1010、第二对象1020和第三对象1030排列在列表中，使得第一对象1010位于列表的底部，第二对象1020位于列表内第一对象1010的上方，并且第三对象1030位于列表内第二对象的上方。该布置指示第一目标受第二目标约束，并且第二目标受第三目标约束。对象1010、1020、1030各自可以包括针对相应目标的描述符。在该示例中，第一目标与完成目标的速度或时间相关并具有描述符“TIME(时间)”，第二目标与用户对舒适车道的偏好相关并具有描述符“COMFORT(舒适性)”，以及第三目标与用户对最大化自主驾驶的偏好相关并具有描述符“AUTONOMY(自主性)”。在另一示例中，并且如上文针对图9所述，目标的排序可以使得不受约束的目标在列表的顶部。

优先级还可以包括松弛值。经由控件1022和控件1034，用户可以分别设置松弛值1024和松弛值1032。在该示例中，控件1022和1034被示出为滑块。然而，其他类型的控件也是可能的。

在该示例中，第一对象1010、第二对象1020和第三对象1030各自可以是拖放对象。在图形用户接口内移动任一对象的形式的反馈构成了多目标策略的改变。例如，交换第二对象1020和第三对象1030的位置交换了第二目标和第三目标。还可能的是，对象1010、1020、1030中的一个或多于一个可以包括下拉菜单，该下拉菜单从一组候选目标中与相应对象相关联地选择目标。下拉菜单可以允许对车道级路线规划器的多目标策略的改变包括：通过将第一目标改变为该组中的另一候选目标来改变第一目标、将第二目标改变为该组中的另一候选目标、将第三目标(如果存在)改变为该组中的另一候选目标、从该组中添加新目标(该新目标具有相对于另一目标的优先级)、去除目标或这些改变的某组合。

图11是根据本发明的实现的用于设置车道级路线规划器的多目标的用户接口1100的另一示例的图。用户接口1100的多目标被布置成有向无环图。用户接口1100包括运载工具的用户接口，诸如用户接口135等。该表示包括表示第一目标(即，“TIME”)的第一对象1120、表示第二目标(“COMFORT”)的第二对象1130和表示第三目标(“AUTONOMY”)的第三对象1110。用户接口1100上的表示内的第一对象1110、第二对象1120和第三对象1130的布置指示目标的关系(例如，优先级)。

在用户接口1100中，第二对象1120和第三对象1130彼此相邻地设置成与图形用户接口的顶部平行的一行，并且第一对象1110位于第二对象1120和第三对象1130的下方。这以图形方式表示第一目标相对于第二目标的优先级以及第三目标相对于第一目标的优先级。如图所示，第一对象1110、第二对象1120和第三对象1130各自可以是拖放对象，但是这些对象可以是能够经由反馈来操纵以改变多目标策略的其他对象。例如，对象1110、1120、1130中的一个或多于一个可以包括下拉菜单。对象1110、1120、1130可以表示不同实现中的其他目标。

图11的表示可以使用与图10中的对象类似地形成的用于表示目标的对象，其中图10中的对象即是包括嵌入对象的对象，该嵌入对象可以用于调整多目标优先级的两个目标之间的相对优先级。然而，图11示出了不同的布置，从而各个目标的对象1110、1120、1130不被用于调整相对优先级。代替地，该表示包括第四对象1140，其用于识别松弛值并且响应于接触而改变第一松弛值。第四对象1140位于用户接口1100内的第一对象1110和第二对象1120之间。该表示还包括第五对象1150，其用于识别第二松弛值，并且响应于接触而改变第二松弛值。第五对象1150位于用户接口1100内的第一对象1110和第三对象1130之间。

在该示例中，第四对象1140和第五对象1150各自可以是下拉菜单。也就是说，在接触时，可以显示菜单，该菜单包括可能的新的第一松弛值或第二松弛值(如果适用的话)。对象1140、1150中的一个或多于一个可以是滑块或其他对象，该滑块或其他对象可以在用户接口1100上被操纵以改变与其相关联的值，并将该值提供给处理器以将其包含在更新的多目标策略中。

在多目标策略的表示中可以使用目标之间的关系的其他指示符。例如，图11的表示包括从第二对象1120指向第一对象1110的箭头和从第三对象1130指向第一对象1110的箭头，该箭头示出了各个关联目标之间的约束关系。

图12是根据本发明的实现的用于例示在自主驾驶中使用标准清晰(SD)地图以用于路线规划的地图1200的示例。在地图1200中，由车道级路线规划器使用HD地图来规划路线1202。诸如如本文所描述的车道级路线规划器等的规划器可能选择了路线1202，这是因为例如根据导航地图信息，AV被确定为有能力在路线1202的车道段上自主地驾驶。车道段上的能力可以用概率、阈值或容差等来指示。

部分1204例示了因为规划器可能认为AV没有能力在未绘制成图的道路上自主地驾驶、所以该规划器未考虑的未绘制成图的支路。附加地，这种支路在HD地图中可能是不可用的(例如，不包括在HD地图中等)。然而，可能是，如果AV有能力在部分1204上驾驶，则使用部分1204可以实现更短的路线(例如，短1分钟)。因此，探索未绘制成图的部分1204并将其绘制成图可能是有益的。

因此，在本发明的方面中，规划器可以被配置为探索未绘制成图的道路，以添加针对未绘制成图的道路的HD信息。如在该背景中使用的，“探索”可以是指路线规划器可以使用SD地图中的不在HD地图的道路进行路线规划，并且可以控制运载工具穿越这些未绘制成图的路线。在另一示例中，可以引导AV穿越SD地图中的道路。例如，用户(例如，远程操作员等)可以向运载工具发送指令以穿越SD地图中的道路。当AV正穿越未绘制成图的道路时，传感器数据可以用于收集HD信息。HD信息可以用于构建HD地图或扩充AV的HD地图。经由探索，可以将新的道路和车道段信息添加到导航地图。经由探索可以构建至少部分HD地图。与(在三维空间中的)车道、路缘、减速带、停止线、交通灯位置等有关的信息可以被添加到HD地图中或者可以构成HD地图。在某些情况下，该信息可以与商业上可获得的(例如，购买的)HD地图可能提供的信息相同。所获取的信息的质量可以取决于传感器以及运载工具的检测和识别算法。然而，即使是这些类型的HD特征的噪声信息，也可能在对SD地图中的探索道路的未来穿越进行决策和轨迹规划方面是有用的。SD地图中的道路的一次穿越可能对于自主驾驶和穿越的后续车道级路线规划是足够的。更多的穿越可以改进用于决策和轨迹规划的HD地图的质量。

图13是根据本发明的实现的用于探索新道路以改进地图的系统1300的图。系统1300可以包括规划器1302、绘图器(mapper)1304和安全性决策组件(DC)1306。系统1300的其他实现是可用的。在一些实现中，可以添加系统1300的附加组件(例如，元件、模块等)，可以组合某些元件，和/或可以去除某些元件。

系统1300或其中的组件可以在诸如图1的运载工具100等的运载工具中实现。运载工具可以是自主或半自主运载工具。系统1300或其中的组件可以被实现为可执行指令，该可执行指令可以被存储在诸如图1的存储器134等的存储器中，并且可以由诸如图1的处理器133等的处理器执行。系统1300中的一个或多于一个组件可以由为了执行将在下面描述的各个信息处理而准备的专用硬件来实现。

规划器1302可以是车道级路线规划器，或者可以是车道级路线规划器的一部分。规划器1302可以权衡SD绘制成图的道路的探索成本相对于使用HD绘制成图的道路仅进行规划(例如，与使用HD绘制成图的道路仅进行规划的成本相比)。规划器1302可以是SSP MDP路线规划器，并且该权衡可以被并入或者可以被包括在路线规划器的成本函数中。规划器1302可以是POMDP路线规划器，并且成本可以是明确的信念。POMDP模型的状态空间可以由S＝S_r×S_t给出，其中S_r是道路的集合，并且S_t指示道路的可穿越性如何。动作空间A是用于选择后继道路的动作的集合。后继道路可以是HD地图中的道路(例如，车道段)或SD地图中的道路。

SD地图提供状态空间S_r的至少一些状态(例如，可能的车道或道路)。最初，在SD地图中的任何道路被穿越至少一次之前，这种道路中的任何车道都是未知的。关于可穿越性(例如S_t)，SD道路最初可以是不确定的。例如，任何给定SD道路的可穿越性可以被设置为小值。由于运载工具在SD地图中的道路上被自动地控制，因此规划器可以通过其POMDP规划来平衡探索与利用的折衷。

在可以以特定频率(例如，1Hz或某一其他频率)更新路线的在线车道级路线规划器中，道路的可穿越性S_t可以被连续更新。可穿越性可以以与路线相同的频率来更新。车道级路线规划器可以每隔预定义的秒数(例如，1秒)，基于GPS信息来考虑地图中的当前道路(即，状态)，并且在预定义的规划时间量(其可以正好是预定义的秒数)内进行规划。在预定义的规划时间量之后，车道级路线规划器可以提供该车道级路线规划器(基于所计算出的策略)获得的最佳路线。当运载工具被控制为递增地移动时，车道级路线规划器可以获得新道路(其可以与先前的道路相同)，并且更新其先前的路线规划。

在离线车道级路线规划器的情况下，可以在重新规划路线之间更新可穿越性S_t。离线车道级路线规划器可以是提供路线规划的基于云的服务。

在示例中，规划器可以被配置为基于用户所提供的目标来探索未绘制成图的道路。规划器可以获得如下的目标，该目标指示除了用于获得路线的高清晰地图之外，还将使用标准清晰地图。目标可以是隐含的或明确的。路线规划器可以被配置为选择探索新道路，并且权衡在达到顾客的目标以及尝试路线规划器确定为AV可以被控制驾驶的道路之间的折衷。

例如，用户可以指示对最快路线的2分钟内的路线的偏好。最快路线最初基于HD地图来计算。规划器可以使用2分钟松弛值作为隐含的目标来考虑未绘制成图的道路。在示例中，用户可以提供与未绘制成图的道路相关的明确的目标。例如，用户可以设置的可用目标可以是“探索目标”。用户可以提供如本文所述的探索目标。例如，用户可以提供(例如，构建等)与图9的有向图910类似的目标的有向图，在图9中，自主性目标914可以由探索目标代替。在示例中，用户可以使用诸如针对图10和图11等描述的用户接口来提供目标。如果松弛值被设置为零，则规划器将仅使用HD路线来获得路线。

绘图器1304记录来自运载工具的HD传感器(诸如图1的传感器136等)的数据。在将SD道路中的道路绘制成图并将其添加到导航地图之前，可以在运载工具正穿越该道路时记录HD传感器数据。例如，HD传感器数据可以包括点云、图像、GPS坐标和跟踪对象等。在示例中，还可以诸如在中央服务器处等获得来自穿越SD地图中的道路的其他运载工具的传感器的数据。来自其他运载工具的传感器的数据也可以用于获得HD地图数据。因此，更一般地，无论传感器数据的来源如何，都可以基于传感器数据针对SD地图中的道路获得HD地图信息。在服务器处获得的HD地图信息可以被发送到运载工具。

由此，绘图器1304可以使用在穿越SD车道或SD路线段期间收集的HD传感器的数据。HD传感器数据可以被认为成为针对该SD车道或SD路线段的HD地图。在示例中，可以由(一个或多于一个)人类控制配备有HD传感器的一个或多于一个运载工具穿越SD车道或SD路线段(例如，在SD车道或SD路线段上驾驶)，以获得SD车道或SD路线段的HD地图。所获得的HD地图可以通过重新访问(即，重新穿越)SD车道或SD路线段来改进。

传感器数据可以用于识别道路的特征。例如，可以从传感器数据中检测对象检测、出现或消失。例如，对于SD道路中的道路的每个检测段(例如，1米、2米或一些其他检测段)，数据指示对象是否存在、对象(如果被诸如使用图像处理或数据分析等辨识出)的身份(例如，类型)、障碍物是否存在、对象或障碍物的位置(例如，道路的左、右、中心、一些其他位置)、对象在消失之前存在的持续时间等。

可以聚合从SD地图中的道路的多个穿越(诸如运载工具的穿越或多次穿越等)收集的数据，以获得可以用于获得用于在SD道路上自主驾驶的路线的状态概率。概率的例示示例可以包括：对象以0.823的概率出现在第一位置处，对象以0.1的概率出现在第二位置处，在第三位置处的对象以3.5英里/小时的平均速度移动，以及在第三位置处的对象以0.9的概率被分类为儿童，等等。这种概率可以用于轨迹规划。概率可以在道路的长度或道路的段上进行复合，以计算穿越该道路的轨迹。

概率可以被初始化为指示不确定性(即，缺乏知识)的值。可以基于在SD地图中的道路的穿越期间收集的传感器数据来更新概率。

与在SD地图中的道路上可能遇到的决策组件(DC)的类型有关的信息可以使用传感器数据来识别，也可以被记录。可以需要(例如，实例化等)与决策组件(DC)类型有关的信息以穿越道路。DC组件的示例可以包括用于人行横道的DC组件、用于交叉口的DC组件和用于停车场的DC组件等。在于2019年11月26日提交的美国专利申请16/696,235和于2020年1月31日提交的美国专利申请16/778,890中描述了决策组件，这两个美国专利申请的全部公开内容通过引用合并于本文。

决策组件可以被引导(或者可以)解决自主驾驶中的场景的特定方面(例如，操作场景)。DC可以提供用于控制AV的动作。

决策组件可以是决策问题的实例。决策问题描述了情景中潜在的成对交互问题。决策问题可以是自主驾驶中的先验已知的特定抽象问题，并且该特定抽象问题被离线解决以提供在假定环境的当前状态的情况下自主驾驶的动作(例如，停止、渐渐移动、前进、向右通过、向左通过等)。在遇到决策问题解决的操作场景时，可以在驾驶期间在线创建(即，从已解决的决策问题实例化)决策组件。在示例中，决策问题和相应的决策组件可以如下文针对特定场景操作控制评估模块及其实例所述。操作场景的示例包括与外部对象相对应的行人场景、交叉口场景、变道场景、或任何其他运载工具操作场景或运载工具操作场景的组合。在示例中，决策组件可以是马尔可夫决策过程或部分可观察马尔可夫决策过程。

特定场景操作控制评估模块可以是相应操作场景的模型，诸如部分可观察马尔可夫决策过程(POMDP)模型等。也就是说，各个模型可以被配置为应对特定的场景。自主运载工具操作管理控制器可以响应于检测到相应的操作场景而实例化特定场景操作控制评估模块的相应实例。

重申，可以先验地(例如，离线地)求解特定操作场景的POMDP以生成策略。该策略可以包括用于在假定当前观察到的和/或预测的状态的情况下控制AV的一个或多于一个动作。当在自主驾驶(例如，在线)期间遇到特定操作场景时，POMDP可以被实例化，并且该实例使用其策略来以各个时间步长提供用于基于该时间步长观察和/或预测的状态来控制AV的相应动作。

自主运载工具操作管理控制器可以从各个实例化的特定场景操作控制评估模块(SSOCEM)实例接收候选运载工具控制动作，可以从候选运载工具控制动作中识别运载工具控制动作，并且可以根据所识别的运载工具控制动作来控制自主运载工具穿越运载工具运输网络的一部分。

如上所述，基于HD传感器所确定的DC信息和SD地图中的道路的新生成的HD地图可以用于车道级路线规划器的后续规划，以基于DC来预测运载工具在道路上可能遇到的穿越次数。由此，运载工具可以包括(未示出)DC，诸如在运载工具的存储器中、作为存储在存储器中的可执行指令、或者作为专用硬件等。

安全DC 1306可以做出风险意识决策。安全DC 1306可以通过监视SD绘制成图的道路上朝向HD绘制成图的道路的小心导航来获得风险意识决策。安全DC 1306的总体目的是：通过在障碍物存在、阻塞路径并且可能移动以与运载工具相互影响的情况下考虑基于信念的相互影响，来提供用于约束运载工具在SD地图中的道路上的轨迹以确保安全穿越的动作。由安全性DC 1306提供(例如，选择等)的动作可以被提供给诸如图1的控制器130等的控制器，以用于控制运载工具的致动器以穿越SD地图中的道路。由于SD地图中的道路因缺乏HD地图细节而自主穿越可能是危险的，因此安全性DC 1306可以用于确定自主穿越道路应继续还是停止。如果安全性DC 1306确定为自主穿越道路应停止，则可以发起远程操作员请求，使得远程操作员可以远程控制运载工具穿越道路的其余部分。在示例中，安全性DC1306可以引导运载工具的用户(例如，驾驶员)对运载工具进行手动控制。

当运载工具正在穿越道路时，安全性DC 1306可以以各个时间步长确定继续穿越道路是否安全。安全性DC 1306可以是马尔可夫决策过程，诸如MDP或POMDP等。

安全性DC 1306可以确定下一时间步长的速度，并且可以选择动作(例如，向左走、向右走、直行、停止等)。安全性DC 1306可以基于最近的HD地图车道的方向来选择速度或方向。

在示例中，安全性DC 1306可以确定用于穿越道路的可驾驶区域的动作。道路的可驾驶区域是该道路中的AV可以安全操作的区域。确定可驾驶区域可以如于2018年5月31日提交且题为“Trajectory Planning”的PCT专利申请PCT/US2018/035441(其全部公开内容合并于本文)中所述。因此，获得可驾驶区域可以如下。最初，可驾驶区域可以包括不能预测运载工具安全驾驶的区域(例如，前视窗(look-ahead window)内的整个道路)。可以基于运载工具的传感器数据来检测(例如，感测、观察等)静态和动态(例如，移动)对象。然后，可以从道路上切出(例如，排除、分割出等)不能预测运载工具安全驾驶的这些区域。首先从可驾驶区域中去除道路中的静态对象所在(例如，观察到静态对象、检测到静态对象等)的部分。可以针对动态对象进一步调整可驾驶区域。可以基于各个动态对象的相应预测轨迹来进一步切出可驾驶区域的部分。可以对照动态(即，所识别的移动)对象的未来预期(例如，预测)位置来评估运载工具的未来位置。然后，可以调整运载工具的可驾驶区域，以去除可驾驶区域中的与动态对象的位置相对应(例如重叠)的区域。

可以通过在运载工具周围形成隧道来进一步调整可驾驶区域，运载工具被控制为通过该隧道穿越道路。隧道可以被认为进一步限制了可驾驶区域。左边界和右边界可以沿着运载工具的左侧和右侧横向延伸。左边界和右边界可以是相对于运载工具的左侧和右侧的所定义距离。所定义距离可以基于运载工具相对于可能的外部对象的期望间隙。例如，停放的运载工具的门可以打开。由于车门的最大尺寸约为1米，因此运载工具与左边界和右边界中的各边界之间的所定义距离可以是1米。所定义距离可以基于预定义的间距容差。所定义距离可以变化，诸如考虑到外部对象的存在等。例如，当运载工具没有检测到外部对象时，所定义距离可以是第一值，并且当检测到外部对象时，所定义距离可以是小于该第一值的第二值。左边界和右边界可以与运载工具隔开，并且因此与运载工具隔开不同的距离(例如，在运载工具的一侧存在外部对象而另一侧没有，或者在运载工具的相对侧存在会导致两个不同的所定义距离的两个不同外部对象)。

安全性DC 1306可以用于(在从传感器学习HD地图的同时)导航SD地图中的道路。安全性DC 1306可以针对沿着道路的轨迹提供时间步长到时间步长(例如，秒到秒)的约束。

安全性DC 1306的状态空间可以由S＝S_l×S_m×S_b给出，其中S_l是沿着SD地图中的道路的位置的集合，S_m指示是否在这些位置处检测到运动(诸如动态对象(诸如其他运载工具、行人、自行车等)的运动等)，以及S_b指示是否在这些位置处检测到障碍物(例如，静态对象)。换句话说，状态空间S考虑了沿着SD地图中的道路的位置S_l、在位置处是否存在运动S_m、以及在该位置处是否存在障碍物S_b。注意，道路的车道尚未已知(例如，绘制成图)。

安全性DC 1306的动作空间可以由A＝A_m×A_o给出，该动作空间考虑了动作和方向。A_m描述移动，诸如“停止”、“渐渐移动”和“前进”等。A_o描述方位调整动作，诸如“车道左侧”、“车道中心”和“车道右侧”等。

关于模型的转变函数，S_l状态因子可以以与距离或限速成比例的概率向前转变。例如，如果在地图中穿越和渐渐移动的最大穿越时间是t_max(例如，42.23)秒，则该最大穿越时间可以用作标准化比例尺，使得最大穿越时间转变的概率为1。然后，穿越时间为t的所有其他转变可以以概率t/t_max向前移动。可以使用其他变量(诸如道路的限速或距离等)来进行类似的计算。可替代地，转变概率可以被设置为指示(在规划阶段期间)始终向前行进的常数1.0。

可以从道路用户的到达的历史数据或其他形式的量中导出运动检测状态因子S_m和障碍物检测状态因子S_b。为了例示，如果在正在探索的道路上检测到自行车车道(或者在SD地图中已经知道该自行车车道)，并且从历史驾驶路线中知道具有自行车车道的道路每分钟有自行车到达的概率为0.123，则这样的历史信息可以用于从无自行车向有自行车的转变S_m，(1-0.123＝0.877)可以是保持无自行车的概率。状态因子S_b可以类似于状态因子S_m，但用于一个类型的对象的静态版本。相同的原理可以适用于运载工具、行人和可以被检测到的其他对象。

状态因子S_m和S_b可以分别具有用于移动和/或阻塞对象0和1的二进制值。状态因子值S_m和S_b的二进制值可能足以估计安全性和可穿越性。在另一示例中，可以使用附加的可替代状态变量。例如，也可以使用指示某些类型的预期对象的数量(例如，基数)的状态变量。这种状态变量可以具有整数值(例如，0、1、2、…)并且被建模为遵循泊松/指数或生灭过程(birth-death process)。例如，状态变量S_ve、S_pe和S_bi可以分别指示情景中预期有多少运载工具、自行车和行人。

奖励函数可以基于运载工具在采取动作后的观察。例如，奖励可以基于是否检测到对象、是否在右侧检测到对象、是否在左侧检测到对象、路径是否被阻碍、所检测到的对象是否被分类(例如辨识)、所检测到的对象是否被认为是危险的、更少准则、更多准则或其组合。

重申，状态指示沿着SD地图的位置、是否存在任何感知特征(诸如移动对象、道路上的堵塞、障碍物或任何其他对象等)。例如，在道路的右侧可以存在建筑物，并且在道路的左侧可以存在高围栏。在其他情况下，这些特征可以在HD地图中可用、但在SD地图中不可用。因此，运载工具的传感器数据可以用于辨识这些特征(诸如障碍物等)。安全性DC 1306可以确定动作(例如，在SD地图上的各点处(例如，每10米、20米、100米，因此一些其他距离)停止、渐渐移动或前进)连同该动作的方位(例如，左、右、中心)。

在示例中，安全性DC 1306可以使用目标不确定的随机最短路径(GU-SSP)代替POMDP。GU-SSP可以用于对在目标不确定的情况下的随机环境中的路径规划和决策进行建模。在S.Saisubramanian,K.H.Wray,L.Pineda和S.Zilberstein,"Planning inStochastic Environments with Goal Uncertainty,"2019IEEE/RSJ InternationalConference on Intelligent Robots and Systems(IROS),Macau,China,2019,pp.1649-1654,doi:10.1309/IROS40897.2019.8967718中描述了GU-SSP。

图14是根据本发明的实现的将SD地图中的道路绘制成图的示例1400的图示。示例1400例示AV 1402能够如何使用AV 1402的传感器将SD地图中的道路绘制成图。来自AV的传感器的数据可以用于检测SD地图中的道路的HD信息。

示例1400例示包括不被包括在运载工具的HD地图中的道路1404的地图。也就是说，道路1404没有被绘制成图。然而，道路1404被包括在运载工具的SD地图中。可以从SD地图估计道路1404的初始宽度或车道。可以使用任何车道辨识技术来估计宽度和车道。诸如圆圈1406等的圆圈指示图13的安全性DC 1306的决策向AV 1402的轨迹规划器提供动作的沿着道路的位置。

图13的绘图器1304检测到对象1408。可以识别与对象1408相关联的特定操作场景，并且实例化相应的DC以应对(例如，处置、避开、绕过等)该对象1408。例如，对象1408可以被确定为停放的运载工具，这指示操作场景是“通过运载工具场景”，并且实例化相应的DC以绕过对象1408。区域1410A、1410B可以被辨识为不可驾驶区域，并且根据运载工具1402的HD传感器来计算。

轨迹1412例示运载工具1402在道路1404上遵循的轨迹。轨迹1412可以由运载工具的决策过程来确定，该决策过程可以是或可以包括至少图13的规划器1302和安全性DC1306。决策过程选择用于控制运载工具1402的动作。如上所述，动作可以是诸如向右走、向左走、直行、停止和渐渐移动等。

图15是根据本发明的实现的用于自主运载工具的自动化驾驶中的路线规划的技术1500的示例的流程图。技术1500可以由自主运载工具实现或在自主运载工具中实现。自主运载工具可以是半自主运载工具。技术1500可以被实现为存储在诸如图1的存储器134等的存储器中的指令(例如，操作)。指令可以由诸如图1的处理器133等的处理器执行。可以使用专门的硬件或固件来实现技术300。可以使用多个处理器、存储器或这两者。

在1502处，技术1500获得除了高清晰地图之外还将使用标准清晰地图以获得路线的指示。该指示可以从AV的用户(例如，驾驶员、乘员)获得。在示例中，可以从远程操作员获得指示。在示例中，指示可以作为目标提供给获得路线的路线规划器。路线规划器可以是如本文所述的多目标路线规划器。可以使用用户接口来提供目标，该用户接口可以如本文诸如针对图10和图11等所述。在示例中，指示可以经由口头命令来提供，该口头命令基本上可以通信命令“探索未绘制成图的道路”。

在1504处，技术1500获得用于使运载工具自动驾驶至目的地的路线。该路线包括标准清晰地图中的道路。可以使用马尔可夫决策过程(MDP)获得路线。马尔可夫决策过程可以是POMDP。如上文针对可穿越性S_t所述，马尔可夫决策过程可以包括指示道路的可穿越性的状态空间。

在1506处，技术1500从安全性决策组件获得策略。安全性决策组件可以如上文针对图13的安全性DC 1306所述。由此，策略针对道路的状态提供动作，并且该动作约束自主运载工具沿着道路的轨迹。如上所述，对于道路的位置，安全性决策组件的状态空间包括是否在该位置处检测到运动、以及是否在该位置处检测到障碍物。安全性决策组件包括动作空间。动作空间中的要在道路的位置处采取的动作指示移动和该移动的方向。

在1508处，技术1500从安全性决策组件接收动作。安全性决策组件可以以各个相应的时间步长提供动作。使用策略获得动作。在1510处，技术1500根据动作自主地穿越道路。也就是说，可以将动作提供给运载工具的轨迹规划器，并且可以根据该动作来控制运载工具以穿越道路。根据动作自主穿越道路可以包括：识别沿着路线的操作场景以及针对该操作场景而实例化决策组件。为了例示，在运载工具正在穿越道路期间，可以使用运载工具的传感器数据来识别交叉口。然后，可以实例化用于穿越交叉口的DC，以提供穿越该交叉口的动作。

在示例中，技术1500还可以如上所述包括识别道路中的车道段并将该车道段的车道段信息存储在导航地图中。

如本文所使用的，术语“指令”可以包括用于进行本文公开的任何方法或者其一个或多于一个任意部分的指示或表达，并且可以以硬件、软件或其任意组合来实现。例如，指令可以实现为存储在存储器中的信息(诸如计算机程序等)，该指令可以由处理器执行以进行如本文所述的各个方法、算法、方面或其组合中的任一者。指令或其一部分可被实现为专用处理器或电路，该专用处理器或电路可以包括用于执行如本文所述的方法、算法、方面或其组合中的任一者的专用硬件。在一些实现中，指令的一部分可以跨单个装置上、多个装置上的多个处理器分布，这些装置可以直接通信或跨网络(诸如局域网、广域网、因特网或其组合等)通信。

如本文所使用的，术语“示例”、“实施例”、“实现”、“方面”、“特征”或“要素”指示用作示例、实例或图示。除非明确指示，否则任何示例、实施例、实现、方面、特征或要素与各个其他示例、实施例、实现、方面、特征或要素独立，并且可以与任何其他示例、实施例、实现、方面、特征或要素组合使用。

如本文所使用的，术语“确定”和“识别”或其任何变型包括使用本文所示出和描述的装置中的一个或多于一个装置以任何方式选择、查明、计算、查找、接收、确定、建立、获得或者以其他方式识别或确定。

如本文所使用的，除非另有规定或从上下文中明确，否则术语“或”旨在意味着包含性的“或”而不是排他性的“或”。另外，除非另有规定或从上下文中明确指向单数形式，否则在本申请和所附权利要求书中使用的冠词“a”和“an”通常应被理解为意味着“一个或多于一个”。

此外，为了简化说明，尽管本文的附图和描述可以包括步骤或阶段的序列或系列，但是本文公开的方法的要素可以以各种顺序发生或并行发生。附加地，本文所公开的方法的要素可以与本文未明确呈现和描述的其他要素一起发生。此外，可以并非需要本文描述的方法的所有要素来实现根据本发明的方法。尽管在本文中以特定的组合描述了方面、特征和要素，但是各个方面、特征或要素可以独立地使用，或者可以以与其他方面、特征和要素的各种组合或以不具有其他方面、特征和要素的各种组合来使用。

为了使得能够容易地理解本发明，描述了上述方面、示例和实现，但本发明不是限制性的。与此相对，本发明覆盖了包括在所附权利要求书的范围内的各种修改和等同布置，该范围应给予最宽泛的解释，以涵盖法律许可的所有这样的修改和等同结构。

Claims

1.一种用于自主运载工具的自动化驾驶中的路线规划的方法，包括：

获得除了高清晰地图之外还将使用标准清晰地图以获得路线的指示；

获得用于使运载工具自动驾驶至目的地的路线，其中，所述路线包括所述标准清晰地图中的道路；

从安全性决策组件获得策略，

其中，所述策略针对所述道路的状态提供动作，以及

其中，所述动作约束所述自主运载工具沿着所述道路的轨迹；

从所述安全性决策组件接收所述动作；以及

根据所述动作自主地穿越所述道路。

2.根据权利要求1所述的方法，其中，获得用于使所述运载工具自动驾驶至所述目的地的路线包括：

使用马尔可夫决策过程来获得所述路线，其中所述马尔可夫决策过程包括用于指示所述道路的可穿越性的状态空间。

3.根据权利要求2所述的方法，其中，所述指示是多目标中的目标。

4.根据权利要求1所述的方法，其中，所述安全性决策组件包括状态空间，其中针对所述道路中的位置，所述状态空间包括是否在该位置处检测到运动以及是否在该位置处检测到障碍物。

5.根据权利要求4所述的方法，其中，所述安全性决策组件包括动作空间，其中所述动作空间中的要在所述道路的所述位置处采取的动作指示了移动和所述移动的方向。

6.根据权利要求1所述的方法，其中，根据所述动作自主地穿越所述道路包括：

识别沿着所述路线的操作场景；以及

针对所述操作场景而实例化决策组件。

7.根据权利要求1所述的方法，还包括：

识别所述道路中的车道段；以及

将所述车道段的车道段信息存储在导航地图中。

8.一种用于自主运载工具的自动化驾驶中的路线规划的设备，包括：

处理器，其被配置为：

从安全性决策组件获得策略，

其中，所述策略针对所述道路的状态提供动作，以及

从所述安全性决策组件接收所述动作；以及

根据所述动作来控制所述自主运载工具以自主地穿越所述道路。

9.根据权利要求8所述的设备，其中，获得用于使所述运载工具自动驾驶至所述目的地的路线包括：

10.根据权利要求9所述的设备，其中，所述指示是多目标中的目标。

11.根据权利要求8所述的设备，其中，所述安全性决策组件包括状态空间，其中针对所述道路中的位置，所述状态空间包括是否在该位置处检测到运动以及是否在该位置处检测到障碍物。

12.根据权利要求11所述的设备，其中，所述安全性决策组件包括动作空间，其中所述动作空间中的要在所述道路的所述位置处采取的动作指示了移动和所述移动的方向。

13.根据权利要求8所述的设备，其中，所述处理器还被配置为：

识别沿着所述路线的操作场景；以及

针对所述操作场景而实例化决策组件。

14.根据权利要求8所述的设备，其中，所述处理器还被配置为：

识别所述道路中的车道段；以及

将所述车道段的车道段信息存储在导航地图中。

15.一种非暂态计算机可读存储介质，其包括可执行指令，所述可执行指令在由处理器执行时促使进行用于自主运载工具的自动化驾驶中的路线规划的操作，所述操作包括：

从安全性决策组件获得策略，

其中，所述策略针对所述道路的状态提供动作，以及

从所述安全性决策组件接收所述动作；以及

根据所述动作自主地穿越所述道路。

16.根据权利要求15所述的非暂态计算机可读存储介质，其中，获得用于使所述运载工具自动驾驶至所述目的地的路线包括：

使用马尔可夫决策过程来获得所述路线，所述马尔可夫决策过程包括用于指示所述道路的可穿越性的状态空间。

17.根据权利要求16所述的非暂态计算机可读存储介质，其中，所述指示是多目标中的目标。

18.根据权利要求15所述的非暂态计算机可读存储介质，其中，所述安全性决策组件包括状态空间，其中针对所述道路中的位置，所述状态空间包括是否在该位置处检测到运动以及是否在该位置处检测到障碍物。

19.根据权利要求18所述的非暂态计算机可读存储介质，其中，所述安全性决策组件包括动作空间，其中所述动作空间中的要在所述道路的所述位置处采取的动作指示移动和所述移动的方向。

20.根据权利要求15所述的非暂态计算机可读存储介质，其中，根据所述动作自主地穿越所述道路包括：

识别沿着所述路线的操作场景；以及

针对所述操作场景而实例化决策组件。