CN117242316A

CN117242316A - 车道级路线规划器中的学习

Info

Publication number: CN117242316A
Application number: CN202280030652.2A
Authority: CN
Inventors: S·齐伯尔斯坦; K·H·雷; S·维特维奇
Original assignee: University of Massachusetts UMass; Nissan North America Inc
Current assignee: University of Massachusetts UMass; Nissan North America Inc
Priority date: 2021-02-26
Filing date: 2022-01-31
Publication date: 2023-12-15
Also published as: WO2022182477A1; JP2024511928A; US20220274624A1; EP4298401A1

Abstract

车道级路线规划括：获得道路的车道级信息，其中，所述道路包括第一车道和第二车道，并且所述车道级信息包括与所述第一车道相关的第一车道信息以及与所述第二车道相关的第二车道信息；将所述车道级信息转换成状态转变函数的概率；接收目的地；以及获得策略作为使用所述状态转变函数的模型的求解方案。

Description

车道级路线规划器中的学习

技术领域

本发明大体上涉及路线规划，并且更具体地涉及自主运载工具的车道级路线规划。

背景技术

路线规划应用和系统(统称为路线规划器)可以是车载运载工具系统或可以在手持装置中。用户(例如，驾驶员)提供目的地，并且选路(routing)应用计算从用户的当前位置到该目的地的路线。

路线可以叠加在地图上，并且可以包括(例如，示出等)用户可以遵循以到达目的地的道路和转弯。也就是说，路线可以包括到目的地的建议路线(turn-by-turn)指示。路线通常包括道路和转弯，并且由用户(例如，驾驶员)来决定驾驶员在特定道路的哪个车道上驾驶以及何时变道，诸如从出口离开或在交叉口处转弯等。

传统路线规划器可以向用户警告/通知在一定距离(例如，2英里)内即将出现转弯(例如，出口)，并且由用户来决定如何从当前车道进行操纵以进行转弯。这样的路线规划器不知道主运载工具在哪个车道上，并且仅仅通过在一定距离内向用户通知，用户可能被迫进行不安全的操纵以从当前车道移动到转弯位置。

这种路线规划应用可以在道路级别上确定性地进行规划，并且不考虑车道级信息/规划。这种路线规划应用可以将路线规划建模为试图使路线时间最小化的经典规划问题。

至少出于这些原因，道路级(而不是车道级)的路线规划对于自主驾驶可能不合适(例如，不充分)，这是因为这种路线规划应用中的规划地图可能处于自主驾驶所需的抽象级别以上的抽象级别，在自主驾驶中，驾驶员可以根本不参与，或充其量是最低限度地参与。

发明内容

第一方面是一种用于车道级路线规划的方法。该方法包括：获得道路的车道级信息，其中，所述道路包括第一车道和第二车道，并且所述车道级信息包括与所述第一车道相关的第一车道信息以及与所述第二车道相关的第二车道信息；将所述车道级信息转换成状态转变函数的概率；接收目的地；以及获得策略作为使用所述状态转变函数的模型的求解方案。

第二方面是一种用于车道级路线规划的设备。该设备包括：处理器，其被配置为：获得道路的车道级信息，其中，所述道路包括第一车道和第二车道，并且所述车道级信息包括与所述第一车道相关的第一车道信息以及与所述第二车道相关的第二车道信息；以及将所述车道级信息转换成状态转变函数，所述状态转变函数用于获得到目的地的路线。

第三方面是一种非暂态计算机可读存储介质，其包括可执行指令，所述可执行指令在由处理器执行时促进进行操作。所述操作包括以下操作：从穿越道路的运载工具接收相应的车道级信息；从所述车道级信息获得导航地图，其中所述导航地图包括状态转变图和奖励函数，车道级信息包括环境信息、运载工具信息和人类信息中的至少两个；以及将所述导航地图传输到运载工具，其中所述运载工具使用所述导航地图来获得车道级路线。

这些以及本文公开的方法、设备、过程和算法的其他方面、特征、要素、实现和实施例的变型在下文中进一步详细描述。

附图说明

通过参考以下描述和附图中提供的示例，本文公开的方法和设备的各个方面将变得更明显，在附图中相同的附图标记指代相同的要素。

图1是可以实现本文公开的方面、特征和要素的运载工具的示例的图。

图2是可以实现本文公开的方面、特征和要素的运载工具运输和通信系统的一部分的示例的图。

图3是根据本发明的实施例的用于路线规划的技术的示例的流程图。

图4是根据本发明的实现的地图的示例的例示。

图5例示根据本发明的实现的目标的偏好排序图的示例。

图6例示根据本发明的实现的学习和使用导航地图的概要。

图7是根据本发明的实施例的用于学习用于路线规划的导航地图的技术的示例的流程图。

具体实施方式

如上所述，路线规划器通常提供没有任何车道信息的路线。这种路线可以基于全球定位系统(GPS)坐标的连通图来规划，并且不能用于自主驾驶，这是因为这些路线太抽象了。自主驾驶需要车道特定信息，以在无论出于什么原因而发生无法跟随路线时进行变道和决策以及针对应急事件(contingency)进行规划。在传统路线规划器地图中，拓扑、连通性和车道信息通常不可用。除非上下文另有指示，否则如本文所使用的自主驾驶涵盖了进行运载工具行驶控制以用于以与(诸如通过人类驾驶员或远程操作员等的)手动控制相当的方式自动地运行主运载工具。

此外，这种路线规划器通常仅可以解决一个目标：时间。也就是说，这种路线规划器通过使到达目的地所花费的时间最小化来进行经典的路线规划。一些路线规划器可以允许用户指定对道路类型的偏好(例如，高速公路道路而不是乡村道路，免费道路而不是收费道路)。然而，自主驾驶需要使用不同的(例如，更多的)准则、约束和/或目标进行路线规划。

为了使用简单的示例来示出，在传统路线规划器的情况下，当驾驶员没有进行预期的转弯或从出口离开时，路线规划器通常进行“重新选路”操作以识别替代路线，该“重新选路”操作花费至少数秒来完成。在自主驾驶的情况下，并且假设自主运载工具(AV)由于拥堵而无法从出口离开，AV停在原地直到选路应用识别出替代路线(即，新路线(re-route))为止或者在进行重新选路操作期间通过应急路线将是不可接受的。

然而，根据本发明的路线规划器可以针对所有应急事件进行预先规划。如下面进一步描述的，应急事件可以被并入到策略中。在示例中，可以考虑先验概率来规划应急事件。概率可以基于车道段穿越(traversal)的历史数据。概率可以包括成功变道的概率、基于交通进行变道失败的概率、交通历史的概率或其他概率。车道级路线规划器还可以基于不同道路或道路段上自主驾驶的能力水平来规划路线。在下文进一步描述能力。路线规划器还可以确定(例如，规划)自主驾驶、驾驶员和/或远程操作员之间的控制转移。车道级路线规划器使用并入有这些概率的导航地图。

重申，根据本发明的路线规划器确定到目的地的车道级路线，其中该车道级路线包括沿着控制AV进行变道的路线的位置。也就是说，路线规划器可以规划沿着路线的变道并且这有可能失败。附加地，路线规划器可以具有到达目的(例如，目的地)的所有可能路线的应急规划，而不是仅仅获得假设成功和失败的确定性规划并使一些成本(例如，到达目的地的时间)最小化。

自主运载工具的真实部署可能需要同时平衡若干目标。若干目标可以包括到达目的地的时间、期望的用户舒适性(例如，颠簸道路vs光滑道路)、期望的用户道路速度、道路导航能力(例如，运载工具是否有能力穿越道路或车道)、地理围栏区域之间的换乘点和/或其他目标。在电动或混合电动运载工具的情况下，附加目标可以与电池效率和/或再充电用停止点相关。根据本发明的车道级路线规划可以进行这样的多目标规划。

在本发明的方面中，可以学习包括车道级信息的导航地图。然后，导航地图可以用于生成车道级路线。

传统自主运载工具路线规划器可能不针对多个状态特征或目标而学习。相反，如本文进一步描述的，在根据本发明的实现的车道级路线规划中，导航地图可以针对道路中的车道的车道段并经由学习而并入环境信息、运载工具信息、人类信息、更多、更少、其他信息或其组合中的至少一些。

由于本文描述的风险感知的多目标车道级路线规划在自主和互联运载工具的多目标空间中推理，因此需要针对各个车道中的随机性而调整的定制学习、以及特定的标示目标奖励值，并在本文描述这些。

多目标学习可以优于单目标学习，这至少是因为车道级路线规划器可以考虑更多的关注点，该车道级路线规划器与单目标规划器相比可以使自动化驾驶更加可适应。当多个目标是可能的时，车道级路线规划器可以学习(或者可以由用户教导)良好的(例如，期望的、舒适的等)路线、交通模式、用户偏好和能力等等。例如，用户可以直接在精确对应的目标中对偏好进行编码。

本文首先参考可以实现车道级路线规划的环境来描述该车道级路线规划的其他细节。

图1是可以实现本文公开的方面、特征和要素的运载工具的示例的图。在所示实施例中，运载工具100包括各种运载工具系统。运载工具系统包括底盘110、动力总成120、控制器130和轮140。可以使用运载工具系统的附加或不同的组合。虽然为了简单起见，运载工具100被示出为包括四个轮140，但是可以使用一个或多于一个任何其他推进装置(诸如推动器或踏步板等)。在图1中，使诸如动力总成120、控制器130和轮140等的元件互连的线指示诸如数据或控制信号等的信息、诸如电力或扭矩等的动力、或者信息和动力这两者可以在各个元件之间通信。例如，控制器130可以从动力总成120接收动力，并且可以与动力总成120、轮140或这两者通信以控制运载工具100，这可以包括使运载工具100进行加速、减速、转向或以其他方式进行控制。

图1中通过示例示出的动力总成120包括动力源121、变速器122、转向单元123和致动器124。还可以包括动力总成的任何其他元件(诸如悬架、驱动轴、轮轴或排气系统等)或元件的组合。尽管单独示出，但是轮140可以被包括在动力总成120中。

动力源121包括引擎、电池或其组合。动力源121可以是可操作以提供能量(诸如电能、热能或动能等)的任何装置或装置的组合。在示例中，动力源121包括引擎(诸如内燃机、电动马达或者内燃机和电动马达的组合等)，并且可操作以向轮140中的一个或多于一个轮提供动能作为原动力。可替代地或附加地，动力源121包括势能单元，诸如一个或多于一个干电池(诸如镍镉(NiCd)电池、镍锌(NiZn)电池、镍氢(NiMH)电池、锂离子(Li-ion)电池等)、太阳能电池、燃料电池、或能够提供能量的任何其他装置等。

变速器122从动力源121接收能量(诸如动能等)，并且将该能量传输到轮140以提供原动力。变速器122可以由控制器130、致动器124或这两者控制。转向单元123可以由控制器130、致动器124或这两者控制，并且转向单元123控制轮140以使运载工具转向。致动器124可以从控制器130接收信号，并且致动或控制动力源121、变速器122、转向单元123或其任何组合以操作运载工具100。

在所示实施例中，控制器130包括定位单元131、电子通信单元132、处理器133、存储器134、用户接口135、传感器136、和电子通信接口137。这些元件中较少的一部分可以作为控制器130的一部分存在。尽管被示出为单个单元，但是控制器130的任意一个或多于一个元件可以集成到任意数量的单独物理单元中。例如，用户接口135和处理器133可以集成在第一物理单元中，并且存储器134可以集成在第二物理单元中。尽管在图1中未示出，但是控制器130可以包括诸如电池等的动力源。尽管被示出为单独的元件，但是定位单元131、电子通信单元132、处理器133、存储器134、用户接口135、传感器136、电子通信接口137或其任何组合可以集成在一个或多于一个电子单元、电路或芯片中。

处理器133可以包括现有的或随后开发的能够操纵或处理信号或其他信息的任何装置或装置的组合，该处理器133包括光学处理器、量子处理器、分子处理器或其组合。例如，处理器133可以包括一个或多于一个专用处理器、一个或多于一个数字信号处理器、一个或多于一个微处理器、一个或多于一个控制器、一个或多于一个微控制器、一个或多于一个集成电路、一个或多于一个专用集成电路、一个或多于一个现场可编程门阵列、一个或多于一个可编程逻辑阵列、一个或多于一个可编程逻辑控制器、一个或多于一个状态机或者其任何组合。处理器133与定位单元131、存储器134、电子通信接口137、电子通信单元132、用户接口135、传感器136、和动力总成120中的一个或多于一个可操作地耦接。例如，处理器可以经由通信总线138与存储器134可操作地耦接。

存储器134包括能够例如包含、存储、通信或运输机器可读指令或与其相关联的任何信息的任何有形的非暂态计算机可用或计算机可读介质，以供诸如处理器133等的任何处理器使用或与该任何处理器相关地使用。存储器134例如可以是一个或多于一个固态驱动器、一个或多于一个存储卡、一个或多于一个可移动介质、一个或多于一个只读存储器、一个或多于一个随机存取存储器、一个或多于一个盘(包括硬盘、软盘、光盘)、磁卡或光卡、或适合于存储电子信息的任何类型的非暂态介质或其任何组合。例如，存储器可以是一个或多于一个只读存储器(ROM)、一个或多于一个随机存取存储器(RAM)、一个或多于一个寄存器、低功率双倍数据率(LPDDR)存储器、一个或多于一个高速缓存存储器、一个或多于一个半导体存储器装置、一个或多于一个磁介质、一个或多于一个光介质、一个或多于一个磁光介质或其任何组合。

通信接口137可以是如图所示的无线天线、有线通信端口、光通信端口或能够与有线或无线电子通信介质150交互的任何其他有线或无线单元。尽管图1示出经由单个通信链路进行通信的通信接口137，但是通信接口可以被配置为经由多个通信链路进行通信。尽管图1示出单个通信接口137，但是运载工具可以包括任意数量的通信接口。

通信单元132被配置为经由有线或无线电子通信介质150(诸如经由通信接口137等)发送或接收信号。尽管在图1中未明确示出，但是通信单元132可以被配置为经由任何有线或无线通信介质(诸如射频(RF)、紫外线(UV)、可见光、光纤、有线线路或其组合等)来进行发送、接收或这两者。尽管图1示出单个通信单元132和单个通信接口137，但是可以使用任意数量的通信单元和任意数量的通信接口。在一些实施例中，通信单元132包括专用短距离通信(DSRC)单元、机载(on-board)单元(OBU)或其组合。

定位单元131可以确定地理位置信息，诸如运载工具100的经度、纬度、高度、行驶方向或速度等。在示例中，定位单元131包括GPS单元，诸如启用广域增强系统(WAAS)的美国国家海洋电子协会(NMEA)单元、无线电三角测量单元或其组合等。定位单元131可以用于获得例如表示运载工具100的当前航向、运载工具100在二维或三维中的当前位置、运载工具100的当前角定向或其组合的信息。

用户接口135包括能够与人交互的任何单元，诸如虚拟或物理键盘、触摸板、显示器、触摸显示器、平视显示器(heads-up display)、虚拟显示器、增强现实显示器、触觉显示器、特征跟踪装置(诸如眼跟踪装置等)、扬声器、麦克风、摄像机、传感器、打印机或其任何组合等。如图所示，用户接口135可以与处理器133可操作地耦接，或者与控制器130的任何其他元件可操作地耦接。尽管被示出为单个单元，但是用户接口135可以包括一个或多于一个物理单元。例如，用户接口135可以包括用于与人进行音频通信的音频接口、以及用于与人进行基于视觉和触摸的通信的触摸显示器这两者。用户接口135可以包括多个显示器，诸如物理上分开的多个单元、单个物理单元内的多个定义部分或其组合等。

传感器136可操作以提供可以用于控制运载工具的信息。传感器136可以是传感器阵列。传感器136可以提供与运载工具100的当前操作特性相关的信息(包括运载工具操作信息)。传感器136例如可以包括速度传感器、加速度传感器、转向角传感器、牵引力相关传感器、制动相关传感器、方向盘位置传感器、眼跟踪传感器、座椅位置传感器或任何传感器或者传感器的组合，这些传感器可操作以报告与运载工具100的当前动态情形的某些方面相关的信息。

传感器136包括可操作以获得与运载工具100周围的物理环境相关的信息(诸如操作环境信息等)的一个或多于一个传感器136。例如，一个或多于一个传感器可以检测道路几何形状(诸如车道线等)以及障碍物(诸如固定障碍物、运载工具和行人等)。传感器136可以是或可以包括现在已知的或随后开发的一个或多于一个摄像机、激光感测系统、红外感测系统、声感测系统、或任何其他合适类型的车载环境感测装置、或装置的组合。在一些实施例中，传感器136和定位单元131被组合。

尽管未单独示出，但是运载工具100可以包括轨迹控制器。例如，控制器130可以包括轨迹控制器。轨迹控制器可操作以获得用于描述运载工具100的当前状态和针对运载工具100规划的路线的信息，并且基于该信息来确定和优化运载工具100的轨迹。在一些实施例中，轨迹控制器可以输出可操作以控制运载工具100使得运载工具100跟随由轨迹控制器确定的轨迹的信号。例如，轨迹控制器的输出可以是优化轨迹，该优化轨迹可以被供给到动力总成120、轮140或这两者。在一些实施例中，优化轨迹可以是诸如转向角集合等的控制输入，其中各个转向角与时间点或位置相对应。在一些实施例中，优化轨迹可以是一个或多于一个路径、线路、曲线或其组合。

轮140中的一个或多于一个轮可以是：在转向单元123的控制下枢转至转向角的转向轮；在变速器122的控制下扭转以推动运载工具100的推动轮；或可以对运载工具100进行转向和推动的转向推动轮。

尽管图1中未示出，但运载工具可以包括未在图1中示出的附加单元或元件，诸如壳体、(蓝牙)模块、调频(FM)无线电单元、近场通信(NFC)模块、液晶显示器(LCD)显示单元、有机发光二极管(OLED)显示单元、扬声器或其任何组合。

运载工具100可以是在没有直接人工干预的情况下自主控制以穿越运载工具运输网络的一部分的自主运载工具。尽管在图1中未单独示出，但是自主运载工具可以包括自主运载工具控制单元，该自主运载工具控制单元进行自主运载工具选路、导航和控制。自主运载工具控制单元可以与运载工具的其他单元集成。例如，控制器130可以包括自主运载工具控制单元。

自主运载工具控制单元(当存在时)可以根据当前运载工具操作参数来控制或操作运载工具100以穿越运载工具运输网络的一部分。自主运载工具控制单元可以控制或操作运载工具100以进行所定义的操作或机动动作，诸如停放运载工具等。自主运载工具控制单元可以基于运载工具信息、环境信息、表示运载工具运输网络的运载工具运输网络信息或其组合来生成从诸如运载工具100的当前位置等的起点到目的地的行驶路线，并且可以根据该路线来控制或操作运载工具100以穿越运载工具运输网络。例如，自主运载工具控制单元可以将行驶路线输出到轨迹控制器，以使用所生成的路线来操作运载工具100以从起点行驶到目的地。

图2是可以实现本文公开的方面、特征和要素的运载工具运输和通信系统的一部分的示例的图。运载工具运输和通信系统200可以包括诸如图1所示的运载工具100等的一个或多于一个运载工具210/211，其经由运载工具运输网络220的一个或多于一个部分行驶，并且经由一个或多于一个电子通信网络230进行通信。尽管在图2中没有明确示出，但是运载工具可以穿越越野区域。

电子通信网络230例如可以是多址系统，该多址系统用于提供运载工具210/211与一个或多于一个通信装置240之间的通信，诸如语音通信、数据通信、视频通信、消息传送通信或其组合等。例如，运载工具210/211可以经由网络230从通信装置240接收诸如表示运载工具运输网络220的信息等的信息。

在一些实施例中，运载工具210/211可以经由有线通信链路(未示出)、无线通信链路231/232/237、或任意数量的有线或无线通信链路的组合进行通信。如图所示，运载工具210/211经由地面无线通信链路231、经由非地面无线通信链路232或经由其组合进行通信。地面无线通信链路231可以包括以太网链路、串行链路、蓝牙链路、红外(IR)链路、紫外线(UV)链路或能够提供电子通信的任何链路。

运载工具210/211可以与另一运载工具210/2110通信。例如，主运载工具或主体运载工具210可以经由直接通信链路237或经由网络230从远程或目标运载工具(RV)211接收一个或多于一个自动化运载工具间消息(诸如基本安全消息(BSM)等)。远程运载工具211可以将该消息广播到在所定义的广播范围(诸如300米等)内的主运载工具。在一些实施例中，主运载工具210可以经由诸如信号中继器(未示出)或其他远程运载工具(未示出)等的第三方接收消息。运载工具210/211可以基于例如所定义的间隔(诸如100毫秒等)定期地发送一个或多于一个自动化运载工具间消息。

自动化运载工具间消息可以包括运载工具识别信息、地理空间状态信息(诸如经度、纬度或高度信息等)、地理空间位置准确度信息、运动学状态信息(诸如运载工具加速度信息、横摆率信息、速度信息、运载工具航向信息、制动系统状况信息、油门信息、方向盘角度信息等)、或运载工具选路信息、或运载工具操作状态信息(诸如运载工具尺寸信息、前照灯状态信息、转向信号灯信息、雨刷状况信息、变速器信息或与使运载工具状态变速相关的任何其他信息或信息的组合等)。例如，变速器状态信息可以指示使运载工具变速的变速器是处于空档状态、驻车状态、前进状态还是倒车状态。

运载工具210可以经由接入点233与通信网络230进行通信。可以包括计算装置的接入点233被配置为经由有线或无线通信链路231/234与运载工具210、与通信网络230、与一个或多于一个通信装置240、或与其组合进行通信。例如，接入点233可以是基站、基站收发器站(BTS)、节点B(Node-B)、增强型节点B(eNode-B)、家庭节点B(Home Node-B，HNode-B)、无线路由器、有线路由器、集线器、中继器、交换机或任何类似的有线或无线装置。尽管这里被示出为单个单元，但是接入点可以包括任意数量的互连元件。

运载工具210可以经由卫星235或其他非地面通信装置与通信网络230进行通信。可以包括计算装置的卫星235被配置为经由一个或多于一个通信链路232/236与运载工具210、与通信网络230、与一个或多于一个通信装置240、或与其组合进行通信。尽管这里被示出为单个单元，但是卫星可以包括任意数量的互连元件。

电子通信网络230是被配置为提供语音通信、数据通信或任何其他类型的电子通信的任何类型的网络。例如，电子通信网络230可以包括局域网(LAN)、广域网(WAN)、虚拟专用网(VPN)、移动或蜂窝电话网络、因特网或任何其他电子通信系统。电子通信网络230使用诸如传输控制协议(TCP)、用户数据报协议(UDP)、因特网协议(IP)、实时传输协议(RTP)、超文本传输协议(HTTP)或其组合等的通信协议。尽管这里被示出为单个单元，但是电子通信网络可以包括任意数量的互连元件。

运载工具210可以识别运载工具运输网络220的一部分或条件。例如，运载工具包括至少一个车载传感器209(如图1中所示的传感器136)，该至少一个车载传感器209可以是或可以包括速度传感器、轮速传感器、照相机、陀螺仪、光学传感器、激光传感器、雷达传感器、声波传感器、或者能够确定或识别运载工具运输网络220的一部分或条件的任何其他传感器或装置或者其组合。

运载工具210可以使用经由网络230通信的信息(诸如表示运载工具运输网络220的信息、由一个或多于一个车载传感器209识别的信息或其组合等)来穿越运载工具运输网络220的一个或多于一个部分。

尽管为了简单起见，图2示出一个运载工具运输网络220、一个电子通信网络230和一个通信装置240，但是可以使用任意数量的网络或通信装置。运载工具运输和通信系统200可以包括未在图2中示出的装置、单元或元件。尽管运载工具210被示出为单个单元，但是运载工具可以包括任意数量的互连元件。

尽管示出了运载工具210经由网络230与通信装置240进行通信，但是运载工具210可以经由任意数量的直接或间接通信链路与通信装置240进行通信。例如，运载工具210可以经由诸如蓝牙通信链路等的直接通信链路与通信装置240进行通信。

图3是根据本发明的实施例的用于路线规划的技术300的示例的流程图。技术300可以部分地或完全地在主运载工具中实现，该主运载工具可以是图1所示的运载工具100、图2所示的运载工具210/211之一、半自主运载工具、可以包括驾驶辅助能力的任何其他运载工具、或者诸如由驾驶员等手动控制的运载工具。技术300可以被实现为存储在诸如图1的存储器134等的存储器中的指令(例如，操作)。这些指令可以由诸如图1的处理器133等的处理器执行。可以使用专门的硬件或固件来实现技术300。可以使用多个处理器、存储器或这两者。

技术300可以由车道级路线规划器部分地或完全地实现。可以使用诸如针对图1等所描述的包括CPU(中央处理单元)、存储器和输入输出单元的处理器来实现车道级规划器。使得处理器用作车道级路线规划器的计算机程序可以被安装到处理器中并由该处理器执行。这使得处理器能够用作车道级路线规划器。注意，尽管这里将描述通过软件实现车道级路线规划器的示例，但是当然，车道级路线规划器可以通过为执行本文将要描述的各个信息处理而准备的专用硬件来实现。

在302处，技术300接收目的地。在示例中，用户(例如，驾驶员)可以经由选路应用的用户接口提供目的地。在示例中，用户可以向选路应用提供目的地，该选路应用可以在用户的便携式装置上执行。在另一示例中，运载工具可以正在进行服务(例如，无人驾驶出租车(robo-taxi)服务)，并且可以经由调度处理将目的地提供给技术300，这使得运载工具行驶到目的地，该目的地可以是顾客或包裹的上车位置或者顾客或包裹的下车位置。向技术300提供目的地的其他方式是可能的。目的地可以是地址、地标、会场或其他目的地类型。技术300可以将接收到的目的地转换成GPS坐标集合。

在304处，技术300使用地图(即，导航地图或车道级导航地图)获得到目的地的车道级路线。车道级路线包括从道路中的第一车道的第一段到道路中的第二车道的第二段的转变(即，转变的动作)。在示例中，目的地可以被(无线地)提供发送到诸如图2的通信装置240等的用于计算车道级路线的服务器(例如，基于云的服务器)。参考图4描述地图和车道级路线的示例。

图4是根据本发明的实现的地图400的示例的图示。地图400例示了目的地在道路段401处。地图400包括道路402，该道路402包括三个车道，即车道404A至404C。地图400的车道被划分成车道段。车道段由地图400中的编号段指示。例如，车道404A包括车道段406A至406C。运载工具403当前处于车道段406A中，并且正在前往车道段401处的目的地的路上。车道段406A可以是运载工具403的开始点(未示出)和目的地之间的中间车道段。

在示例中，所有道路段可以具有相同的长度(例如，100米、200米或一些其他段长度)。在示例中，至少一些车道段长度可以取决于沿着车道段的道路的速度。例如，在高速时，车道段可以具有更长的长度，诸如500米等。在示例中，一些车道段的长度可以是可调整的。也就是说，例如，当生成第一车道级路线时，可以生成包括具有第一长度的一些车道段的第一车道级路线；并且当生成第二车道级路线时，可以生成包括具有第二长度的一些车道段的第二车道级路线。车道段长度可以基于道路上的速度、一天中的时间(例如，高峰时段vs周末)、社会地理区域(例如，学校区、住宅区)、天气(例如，晴天vs下雪)、道路类型(例如，高速公路vs城市道路)、更多、更少、其他准则或其组合而变化。例如，并且如视觉上所示，车道段406E比车道段406C短；但是车道段406D比车道段406C长。

在地图400中，车道段可以具有标识号(ID)。例如，车道段406A至406E分别具有ID1、2、3、7和13。至少一些车道段可以与元数据相关联。在示例中，元数据可以包括一个或多于一个分类(例如，名称)。例如，地图400(使用不同的阴影)例示了具有ID 1、2和3的车道段是高速段；具有ID 4、5、6、7和11的车道段是正常速度(例如，限速)段；具有ID 8、9和10的车道段是舒适(例如，较低速度)段；具有ID 12、13和15的车道段是城市车道段；并且具有ID14、16和17的车道段是手动驾驶车道段。这些分类不一定相互排斥。例如，城市车道段可以是手动驾驶车道段。

舒适车道段可以是交通可按在车道段的道路上的限速的-10英里/小时(或一些其他阈值速度)内的速度移动的车道段。手动驾驶车道段是不能自主地穿越或不能以足够的置信度自主地穿越的车道段。这种车道段必须在诸如通过驾驶员或远程操作员等的手动驾驶控制下穿越。由此，车道级路线规划器还可以包括用于在车道段之前的某个时间向用户(例如，驾驶员)通知该用户应该承担运载工具的手动驾驶控制的动作。

在示例中，获得车道级路线可以包括获得用于从源位置到目的地穿越车道段的策略。该策略包括车道转变。更准确地，并且如下面进一步描述的，该策略提供了考虑到运载工具在当前车道段中的动作。在示例中，策略可以是确定性策略。在另一示例中，策略可以基于随机模型。

虽然在路线规划中，使到达目的地的时间最小化通常是路线规划器的目标，但是如下文进一步描述的，根据本发明的车道级路线规划器可以通过针对若干目标进行优化来获得车道级路线。

可以使用一种马尔可夫决策过程(Markov Decision Process，MDP)模型来获得车道级路线。车道级路线规划可以被建模为拓扑部分可观察马尔可夫决策过程(topologicalpartially observable Markov decision process，TPOMDP)或其完全可观察子类拓扑马尔可夫决策过程(topological Markov decision process，TMDP)。TPOMDP和TMDP使得附加的目标度量(诸如最大化安全性、平滑性和/或其他人类偏好等)能够被结合到典型的部分可观察马尔可夫决策过程(partially observable Markov decision process，POMDP)或马尔可夫决策过程(MDP)目标(诸如使行驶的时间或距离最小化等)中。除了TPOMDP是基于表示各个状态的概率的信念状态(即，概率)并受制于与生成各个状态的观察相对应的观察概率之外，求解TPOMDP模型可以类似于求解TMDP模型。其他模型类型也是可能的。例如，模型可以是标量化的多目标马尔可夫决策过程(MOMDP)、标量化的部分可观察多目标马尔可夫决策过程(MOPOMDP)、约束马尔可夫决策过程(CMDP)或约束部分可观察马尔可夫决策过程(CPOMDP)中的一个。

为了例示且不失一般性，用户可以指示对慢车道的偏好。由此，路线规划器可以将“舒适”目标整合到如何到达目的地的计算中。在另一示例中，用户可以附加地或可替代地指示对最小化能量消耗的车道的偏好。例如，如果一些车道段上的交通走走停停，这往往需要更多的能量消耗，则路线规划器可能相对于这些车道而言优选其他路段。作为另一示例，路线规划器相对于有许多起伏的道路优选平滑的道路，这是因为这样的有许多起伏的道路往往导致更多的能量消耗。在另一示例中，相对于具有稀疏充电站的其他道路，具有许多充电站的道路可以是优选的。

不失一般性，可以用随机最短路径(SSP)结构术语(例如，成本而不是奖励和目标作为在到达时自循环的目标状态)来描述模型(例如，TMDP或TPOMDP)。

连通图(V，E，R)可以被转换成由元组<S,A,T,C,E,δ,s₀,s_g>表示的模型。各个顶点v∈V可以是可以做出选路决策的点的GPS坐标。由此，顶点可以是交叉口、变道位置(例如，诸如从具有ID 9的车道段到具有ID 11的车道段等)、以及合并点等的GPS坐标。为了例示，在地图400中，顶点v可以是车道段的某些点的坐标。例如，某些点可以是车道段的中点。连通图的各个边e∈E可以描述顶点有向图的长度或穿越时间R(e)。例如，在基于地图400的连通图中，与具有ID 9的车道段相对应的顶点将连接到具有ID 10和11的车道段。

现在呈现形式模型TMDP的概述。如所述，该模型可以形式上描述为元组<S,A,T,C,E,δ,s₀,sg>。S可以是状态或顶点v∈V的有限集。A是各个顶点处用于选择后继车道段(或等同地，后继顶点)的动作空间。为了例示且不失一般性，动作空间A可以包括动作“向左移动”、“向右移动”、“直行”或“对角移动”。然而，更多、更少、其他动作或其组合是可能的。例如，动作空间A还可以包括向用户通知承担手动控制的动作、切换到手动控制的动作、向用户通知控制将切换到自动化控制的动作、以及切换到自动化控制的动作等。

s₀是初始状态，其可以是在路线规划器计算车道级路线时运载工具的当前位置。s_g可以是目标状态，其可以是目的地。一旦达到目标状态s_g，无论采取哪个动作，都维持目标姿态，并且在目标姿态s_g下采取的每个动作都具有0的成本。

T(即T:S×A×S→[0,1])可以是表示在状态s∈S下进行动作a∈A之后出现后继状态s’∈S的概率的状态转变函数。因此，T是描述各个动作的随机成功/失败的状态转变函数。状态转变函数T(s,a,s′)＝Pr(s′|s,a)可以是在假定在状态s下进行动作a的情况下后继(车道段或顶点)s′的概率。在示例中，状态转变函数可以包括顶点(例如，车道段)的至少一些(例如，各个)相邻顶点(例如，车道段)的相应概率。为了例示，关于具有ID 1的车道段(即，车道段406A)，状态转变函数T可以包括从具有ID 1的车道段到具有ID 4的车道段、从具有ID 1的车道段到具有ID 2的车道段和/或从具有ID 1的车道段到具有ID 5的车道段的一些转变的相应转变概率。在一些示例中，状态转变函数可以包括转变到更远的邻居的概率(例如，从具有ID 1的车道段转变到具有ID 3的车道段)。

由此，使用地图获得到达目的地的车道级路线可以包括获得策略，该策略当AV在地图的第一车道段上时提供了用于控制AV移动到与第一车道段相邻的第二车道段的动作。

可以基于包括限速、边e的车道长度、AV的规格、一天中的时间和位置、交通拥堵信息、更多准则、更少准则、其他准则或其组合的准则来导出概率。在示例中，如下文进一步描述的，可以学习这些概率(和/或用于获得转变概率的准则)。

C(s，a)(即)可以表示多成本函数，该多成本函数表示在状态s∈S下进行动作a∈A的预期即时成本(s)。由此，可以使用一个或多于一个目标来计算车道级路线。成本C可以被建模为一个或多于一个预期目标的优化的成本向量。一个或多于一个预期目标可以包括时间目标C_T(即，与使到达目的地的行驶时间最小化的时间相关的第一目标)、舒适性目标C_C(即，与指示对舒适车道段的偏好的舒适性相关的第二目标)、自主性目标C_A(即，与指示对可以相对于手动控制而自主地控制运载工具的车道段的偏好的自主性相关的第三目标)、城市目标C_U(即，与相对于例如农村车道段而偏好城市车道段相关的第四目标)、更少目标、更多目标、其他目标或其组合。在示例中，成本目标可以与电力生成有关。因此，在示例中，成本向量C可以由/>给出，其中各个C_i(s,a)表示处于状态s并进行动作a的成本目标i。在示例中，一个或多于一个目标可以包括与时间相关的第一目标、与舒适性相关的第二目标、与自主性相关的第三目标、以及与城市车道段相关的第四目标中的至少两个。

目标可以遵循有向无环图(DAG)E按偏好排序布置。下面针对图5描述偏好排序图的示例。各个目标可以具有非负的松弛δ:e→R+，其描述了用户愿意在一个目标的值上“花费”多少来改进另一目标的值。由此，一个或多于一个目标在包括松弛变量的偏好排序中相关。

模型的求解方案可以是策略π:S→A。在策略π下，针对状态s选择动作a(即π(s))。也就是说，策略π可以指示在状态s下应采取动作π(s)∈A。策略π可以包括值函数V^π:S→C，该值函数可以表示遵循策略π从状态s到达目的地(即目标姿态s_g)的预期累积成本V^π(s)。也就是说，值函数可以提供从开始状态直到到达目标姿态为止的各个中间状态s_i的预期成本(即，值)。

最佳策略π^*使预期累积成本最小化。形式上，对于初始状态s₀，预期值可以由式(1)给出：

在式(1)中，S_t和A_t分别表示在时间步长t处的状态和动作的随机变量。通常，求解模型需要存在适当的策略。适当的策略π具有以下性质：(1)存在以概率1到达目标的策略、以及(2)未以概率1到达目标的所有状态导致无限成本。

在图3的306处，技术300控制AV穿越车道级路线。返回到图4，图4中的箭头例示在所确定的策略π下的动作。箭头408A例示动作：“当状态等于具有ID 1的车道段时，采取向右的动作，这导致运载工具以状态等于具有ID 4的车道段结束”。在这种情况下的“采取动作”意味着诸如通过改变加速器踏板的操作量、制动踏板的操作量或改变方向盘的转向角度等来“使得运载工具被控制”。

所确定的策略π并入(例如，包括)应急路线。因此，所获得的车道级路线包括应急路线。为了例示，当运载工具处于具有ID 9的车道段中时，策略指示将运载工具控制为移动到具有ID 11的车道段。然而，如果运载工具不能采取具有ID 11的车道段而是最终到达具有ID 10的车道段，则策略指示“采取向左的动作”以将运载工具移动到具有ID 6的车道段并且直到具有ID 7的车道段。由此，控制AV穿越车道级路线可以包括响应于不能从第一段转变到第二段而根据应急路线控制AV。

图5例示根据本发明的实现的目标的偏好排序图的示例500。如上所述，模型的目标可以以拓扑方式排序。以拓扑方式排序的约束可以使前继目标在初始信念处或跨所有信念满足松弛。车道级路线规划器可以对目标进行推理以计算策略，这些目标在拓扑排序的约束图中进行排序。虽然描述了三个不同的偏好排序，但是本发明不限于此，并且其他配置(即，偏好排序)是可能的。

示例500中所示的目标涉及优化速度(即，标记为H的气泡形状，诸如目标512、538和556等)、优化舒适性(即，标记为C的气泡形状，诸如目标514、534和554等)、优化城市驾驶(即，标记为U的气泡形状，诸如目标516、532和552等)和优化手动驾驶(即，标记为M的气泡形状，诸如目标518、536和558等)。所示的目标是示例，并且其他目标也是可能的。此外，所示的偏好排序图是非限制性示例，并且包括相同或不同目标和拓扑的其他偏好排序图也是可能的。这些目标各自与可能对人类有意义的相应语义标签相关联。如本文进一步描述的，用户可以使用语义标签来指示车道级路线规划器的路线偏好。

示例510是链偏好排序图的示例。当使用示例510的偏好排序图时(即，当目标以链相关时)，将第一高速目标最大化(即，目标512)；然后，在假设第一高速目标在高速目标的松弛513(例如，松弛3)内的情况下，将舒适性目标(即，目标514)最大化；然后，在假设舒适性目标在该舒适性目标的松弛515(例如，松弛1)内的情况下，将城市目标(即，目标516)最大化，该舒适性目标已经被约束以保证在第一目标的松弛513内；最后，在假设已经被约束的城市目标在该城市目标的松弛517(例如，松弛7)内的情况下，将手动驾驶目标(即，目标518)最大化。

示例510可以被解释(例如，理解等)为车道级路线规划器优选高速道路(即，目标512)，但是将允许三分钟的额外时间(即，松弛513)，以便路线规划器选择更舒适(即，目标514)的不同替代路线(该替代路线还将最大化舒适性目标)。由此，用户可以提供本质上陈述“给我最快的可能道路，但是允许比最快路线长3分钟的路线以便在更舒适的车道上驾驶”的输入(例如，发出命令等)。并且针对示例510中的其他目标类似。注意，松弛变量的度量单位与其约束的目标的度量单位相同。

如下面将进一步描述的，用户可以经由图形用户接口(例如，拖放界面、列表等)或者供用户提供偏好的一些其他方式利用口头命令指定目标的排序，路线规划器可以将该口头命令转换为偏好排序图。

示例530是扇形偏好排序图的示例。当使用示例530的偏好排序图时(即，当目标具有该扇状关系时)，同时针对城市目标(即，目标532)、舒适性目标(即，目标534)和手动驾驶目标(即，目标536)计算最佳策略。然后，确定使高速目标(即，目标538)最大化的最终策略，该高速目标经历了前三个目标的松弛533、535和537(即，分别为松弛值5、9和2)。这等同于取这前三个目标的策略集合的交集，并且在该空间中搜索最后目标。

示例550是示例510和530的混合的有向图的示例。

对于各个目标(例如，示例500的气泡形状)，车道级路线规划器获得满足该目标的路线集合。例如，关于目标552，车道级路线规划器识别最佳路线(例如，在尽可能多的城市车道上到达目的地的最小路线)。为了达到目标，允许一分钟的松弛(即，松弛553)。由此，路线规划器可以被认为提供了围绕达到目标的各种可能性的包络。也就是说，路线规划器可以识别在最佳时间的一分钟内的所有路线以及这些路线是否在城市道路上。因此，返回在松弛553内满足目标552的第一路线集合。

获得满足目标554(即，在标记为舒适的车道上驾驶)并且在最舒适路线的6分钟(即，松弛555)内的第二路线集合。类似地，还获得在9分钟(即，松弛557)内满足手动驾驶目标的第三路线集合；等等。所获得的全部路线集合被传递到目标556，然后从该汇聚(sink)目标获得的路线必须在所获得的全部路线集合中。在某些情形下，满足所有约束和松弛的路线是不可能的。

注意，示例500中进入气泡形状的箭头可以被认为是将目标约束在给定目标的路线集合(或多个集合，取决于偏好排序图的配置)内。由此，如果没有父箭头(即，没有进入的箭头)，则路线规划器可以选择在任何松弛(如果有)内满足目标的任何路线。另一方面，所选择的(一个或多于一个)路线必须在父目标所提供的(一个或多于一个)路线中。由此，下游目标可以被认为是修剪所提供的(例如，进入的)(一个或多于一个)路线集合。

在示例中，代替偏好排序图，可以使用标量化函数将所有奖励(例如，成本)映射(例如，组合等)到单个值。标量化函数可以用于将模型/问题转换为最短路径优化问题(SSP)MDP或POMDP。可以使用标量化函数获得指示下一即时动作的长期效用的单个值，该标量化函数组合预期成本以获得单个值。形式上，标量化函数可以是这样的：对于单个值，f(V(s))＝V_f(s)，以及对于成本函数，f(C(s))＝C_f(s)。在示例中，标量化函数可以是目标的加权和或目标的非线性函数。根据所期望的优化，可以使用不同的权重。在示例中，通过去除任何概率，车道级路线规划可以被建模为经典规划(CP)问题。

无论使用的模型如何，车道级路线规划都可以是分层的。如可以理解的，可能的车道的数量越多，计算策略(如果有的话)可能花费的时间越长。为了限制车道级路线规划器思考的车道段的数量，车道级路线规划可以以分层的方式进行。例如，给定佛罗里达州的迈阿密为起始位置和阿拉斯加州的费尔班克斯为目的地，车道级路线规划器可以将美国的道路分组为簇，在簇之间规划车道级路线，然后在路线的各簇内进行路线级规划。

在示例中，并且如上所述，车道级路线规划可以被建模为拓扑部分可观察MDP(TPOMDP)，以允许针对例如(1)各个状态的交通水平、(2)驾驶员和/或运载工具中至少之一的能力、和/或(3)各种目标成本的信念。

更形式上地，TPOMDP可以被描述为元组<S,A,Ω,T,O,R,E,δ>。

S是状态的有限集。A是动作的有限集。Ω是观察的有限集。T是状态转变函数，使得T(s,a,s′)＝Pr(s′|s,a)是在假定在状态s下进行动作a的情况下的后继状态s′的概率。O是观察函数，使得O(a,s′,ω)＝Pr(w|a,s′)是在假定在进行动作a会得到后继状态s′的情况下的观察ω的概率。

R是奖励函数的向量，该奖励函数可以等同于上述的成本向量C。也如上所述，E是形成有向无环图的k个奖励(例如成本)的边的集合，其中该有向无环图具有一个叶(即，汇聚)奖励顶点，该叶奖励顶点不失一般性地是奖励顶点k。δ是将边e＝<i,j>∈E映射到非负松弛约束δ(e)≥0(或等同地，δ(i,j)≥0)的函数。

TPOMDP以世界的信念操作，其中Δ^|S|是对状态S的概率分布并且是标准的|S|-单纯形(|S|-simplex)。信念b是对状态的概率分布。针对所有的时间步长且针对所有的向前车道段、向后车道段、后继车道段、前继车道段等存在信念b。给定信念b，在进行动作a并观察ω之后，对状态s′的下一信念b_baω是：

b_baω(s′)∝O(a,s′,ω)∑_s∈ST(s,a,s′)b(s)，其中∝表示比例 (2)

如上所述，TMDP是TPOMDP的子类，其中Ω＝S且O(a,s,s′)＝1，使得针对所有s∈S，可达信念b∈B为b(s)＝1。

无限时域TPOMDP中的目标设法使从初始信念b₀起的预期折扣奖励最大化，其中折扣因子γ∈[0,1)。对于策略π，可以通过或等同地给出预期折扣奖励，其中b^t表示在转变函数T和观察函数O之后生成的在时间t处的信念的随机变量，该观察函数O是在假定进行动作a会得到后继状态s′的情况下的特定观察的概率。

值是信念b的预期奖励，可以通过下式给出：

V^π(b)＝R(b,π(b))+γ∑_ω∈ΩPr(ω|b,π(b))V^π(b′_bπ(b)ω) (3)

在式(3)中，R(b,a)＝∑_sb(s)R(s,a)并且b′_bπ(b)ω遵循式(2)中的信念更新。

如本文所述，车道级路线规划器使用导航地图获得策略。在示例中，可以学习导航地图。如本文使用的学习涵盖了导航地图可以被演变。导航地图可以包括预先配置的车道信息，并且在从一个或多于一个运载工具获得车道级信息时，该预先配置的车道信息可以演变以反映(例如，并入等)所获得的车道级信息。导航地图最初可以不包括车道级信息，并且可以基于从一个或多于一个运载工具接收到的车道级信息来构建(例如，填充等)车道级信息。

可以连续地接收车道级信息，并且使用新接收到的车道级信息定期地更新导航地图。导航地图可以是特定运载工具(例如，部署在特定运载工具中)的导航地图，并且可以基于来自运载工具本身的车道级信息来更新导航地图。

附加地或可替代地，可以基于从许多运载工具(诸如在服务器处等)接收到的车道级信息来学习导航地图。车道级信息可以与服务器在一起，该服务器可以是基于云的服务器。由此，然后多个运载工具可以接收更准确的对(在道路上实际驾驶之前的)时间的初始估计、与(新区域中的)热门路线有关的偏好、以及与(针对共享相同代码/硬件的运载工具)队列应该规划路线所通过的位置有关的能力信息。

可以从许多运载工具获得车道级信息。特定顾客所拥有的运载工具可以生成车道级信息。(诸如为了提供出租车服务、递送服务或一些其他服务等而)部署的运载工具队列可以生成车道级信息。可以使用从运载工具的传感器接收到的数据来生成来自该运载工具的车道级信息。在示例中，原始传感器数据可以被发送到服务器，并且该服务器可以使用原始传感器数据来生成车道级信息。

由此，导航地图可以包括针对不同道路的不同车道和不同车道段的经学习的历史驾驶模式和特性。历史驾驶模式可以是特定运载工具的驾驶模式、特定运载工具的特定驾驶员的驾驶模式或若干运载工具的聚合的经学习的历史驾驶模式的驾驶模式。

一个或多于一个驾驶员的驾驶模式可以被学习并用于车道级路线规划。导航地图可以包括与道路状况有关的信息。因此，经学习的导航地图是可以利用/并入驾驶员的驾驶行为的历史和/或车道(并且更具体地是车道段)的特性的导航地图，从而实现车道级路线规划。

来自所连接(诸如连接到基于云的服务器等)的多个运载工具的车道级信息可以被组合到共享导航地图中。各个所连接的运载工具可以将车道级信息发送到诸如一个或多于一个通信装置240等的服务器，该服务器可以聚合所获得的全部车道级信息以获得导航地图。多运载工具多目标学习(即，来自多个所连接的运载工具的车道级信息)可以极大加快针对单个运载工具的学习，并使得该运载工具能够在该运载工具本身在道路上驾驶之前学习路线的值(例如，车道级信息)。

随着时间的推移，服务器可以接收与区域内许多驾驶员已驾驶的许多车道段有关的信息，而不仅仅是已驾驶特定运载工具的道路的信息。车道级信息还可以包括运载工具平台(例如，Nissan LEAF、Nissan Sentra、Nissan Rogue等)的标识信息。在一些示例中，车道级信息还可以包括生成车道级信息的特定驾驶员的信息(例如，偏好等)。然后，使用接收到的车道级信息轨迹，服务器可以将该信息分离成取决于运载工具(即，运载工具规格)、驾驶风格、道路(例如，包括车道和车道段状况)和/或其他准则的信息，以创建各自专用于特定运载工具、特定运载工具平台、特定驾驶员或特定驾驶风格等的固有导航地图。

如上所述，针对道路中的车道的车道段并且经由学习，可以学习环境信息、运载工具信息、人类信息、更少、更多、其他信息或其组合中的至少一些。经学习的信息可以被转换成概率。如本文所述，概率可以是状态转变函数、可以合并在状态转变函数中或者可以由状态转变函数使用。概率也可以用于设置要计算的路线(例如，策略)的目标。

环境信息可以包括交通模式、行人模式、运载工具(例如，其他AV)的车道段的穿越难度信息、天气信息、负担信息、更多、更少、其他环境信息或其组合中的一个或多于一个。运载工具信息可以包括每个车道段的平均速度信息、能量使用(例如，电动运载工具的电池使用、混合动力运载工具的汽油和电池使用、或内燃引擎运载工具的汽油使用)、更多、更少、其他运载工具信息或其组合中的一个或多于一个。

人类信息可以包括优选路线、优选车道、控制转移请求(诸如从自动化驾驶到手动驾驶、或者从手动驾驶到自动化驾驶等)、经由驾驶员超控(override)的能力模型更新、更多、更少、其他人类信息或其组合中的一个或多于一个。控制转移请求可以包括请求控制转移的车道段。控制转移请求可以包括规划的后继车道段和人类驾驶员采取的后继车道段。

在运载工具正在穿越路线时(无论是基于导航地图的当前状态还是不经由车道级规划器设置路线)，运载工具的传感器可以被用于收集要转换为车道级信息的信息。也就是说，运载工具可以被认为处于阴影模式并通过其传感器观看其环境。

来自传感器的数据可以用于识别例如但不限于道路(以及因此车道和车道段)是城市还是高速公路，车道段是否难以穿越，交通是否密集、密度的水平等。穿越的难度可以基于驾驶员超控量来识别。即，自动化驾驶决策被人类超控或纠正的次数、或者人类指导自动化控制以不同于自动化控制所建议的方式控制运载工具的次数。

负担信息可以指示用户(例如，运载工具的乘员)在假定所选变道决策的情况下可能经历的压力的水平。为了例示，特定路线可能要求运载工具在拥堵或高速交通区域中在相对短的时间段或短距离内向左移动三个车道段。这种情形可能对用户是有压力的。这种负担信息可以用于选择远早于拥堵区域之前的车道段转变点，或者可以选择完全避开压力情形的路线。

车道级信息可以用于进行计数，使得计数可以被转换成概率。例如且不失一般性，交通密度的计数可以被转换成从一个车道段移动到另一车道段的概率(诸如穿越道路中的一个车道段并移动到下一车道段所花费的时间等)；历史中在车道段上存在轻量交通vs密集交通的次数的计数可以用于确定交通密度的概率；车道段上的速度高的次数的计数可以用于将车道段分类为高速；以及车道段上的速度在限速的-10英里内的次数的计数可以用于确定该车道段是舒适车道段的概率；等等。

可以根据概率来构建导航地图。也就是说，导航地图可以并入概率。导航地图是如针对图4所描述的转变图。在获得策略时，可以基于车道级信息(例如，概率)来确定下一动作(例如，直接移动到下一车道段、移动到左侧相邻的车道段等)。为了例示且不失一般性，可以基于本文描述的相邻车道段的概率来在概率上(或确定性地)确定下一动作，该相邻车道段的概率例如包括基于当前车道段是否拥堵的相邻车道段拥堵的概率。

导航地图的至少一些车道级信息可以用于设置针对车道级路线规划器的目标。为了例示且不受限制，如所述，环境可以包括穿越难度，并且当(诸如用户所设置等的)目标是使自动化驾驶最大化时，路线规划器将避开具有穿越难度的车道(或车道段)。也就是说，将计算路线规划器策略，以避开具有穿越难度的车道段。

考虑了到达目的地的时间(其可以包括或并入限速、道路长度、停车灯、交通密度、以及车道段是否是高速车道等)、偏好(其可以包括用户对舒适性、相对于高速公路道路的城市道路以及能量消耗等的至少一些的偏好)和能力(其可以包括是否可以胜任地自动穿越或是否可以胜任地手动穿越车道段)的目标。

为了例示且不受限制，为了能够使用时间、偏好和能力目标的至少子集来规划路线，每当运载工具在路线上驾驶时，可以记录自动穿越特定车道段的时间，无论是否完全停止。类似地，也可以记录(即，人类在特定车道段上驾驶时)手动穿越特定车道段的时间。由此，可以记录四个平均持续时间。平均时间可以用于定义自循环的TMDP状态转变(停止)。平均时间可以用于定义诸如基于状态：自主驾驶(例如，控制)vs手动驾驶等的穿越时间的奖励/成本。

此外，每当人类在车道段上驾驶时，可以记录后继车道段。后继车道段可以用于定义在[0，1]范围内的偏好的奖励/成本，该[0，1]可以是人类在道路或车道段上驾驶的时间的比率。

此外，每当人类超控自动化控制或运载工具在自动化控制下被堵住(即，在多于第一时间阈值(诸如1分钟或某一其他时间阈值等)内不前进)时，可以记录第一值-1；否则(例如，当没有超控自动化控制以及运载工具没有被堵住时)，可以记录第二值0。所记录的第一值和第二值的平均值可以被用作能力的度量。反过来可以用来学习人类驾驶员的能力。例如，在手动控制下，如果运载工具在多于第二时间阈值(例如，1分钟或某一其他时间阈值)内不移动，则可以记录第三值-1。例如，如果驾驶员没有遵循由车道级路线规划器识别的被禁止的下一动作，则可以记录第四值-1。例如，如果驾驶员无缝地前进到相邻的车道段，则可以记录第五值0。可以记录第三值、第四值和第五值的平均值，作为当运载工具处于当前车道段时人类采取下一动作的能力的度量。

如前已经所述的，语义标签可以用于定义车道级路线规划器所要计算的路线的目标。语义标签的示例包括针对图5描述的这些，诸如“舒适性”(和/或任何相关语义概念)、“城市”(和/或任何相关语义概念，诸如“高速公路”等)、“高速”(和/或任何相关语义概念)、“手动驾驶”(和/或任何相关语义概念，诸如“自主化驾驶”等)等。更少、更多、其他语义标签或其组合是可能的。为了例示，如果用户指示对舒适道路的偏好，则车道级路线规划器将考虑标记为“舒适”的车道段来计算策略。

注意，从目标到语义标签的映射不需要是一对一映射。由此，语义标签可以组合数个目标，或者一个目标可以用于定义一个或多于一个语义标签。

在所公开的实现的一方面中，可以使用多目标深度强化学习(MODRL)。在强化学习或深度强化学习中，深度神经网络(DNN)可以用于学习策略。DNN可以可替代地或附加地用于学习值函数。由此，可以使用强化学习技术来代替规划技术。在强化学习中，可以经由DNN从反馈中学习目标。反馈可以包括穿越车道段的时间、能力的人类超控或其他反馈中的一个或多于一个。在强化学习中，代替学习概率，将概率和成本组合成达到目标(即目的地)的期望值。

在一方面中，并如本文所述，TMDP可以使用导航地图来获得策略。在另一方面中，可以使用TPOMDP来获得策略。使用TPOMDP实现了对例如但不限于如下内容的信念：道路、车道或车道段上的交通水平；新道路、车道或车道段的能力量(amount of competence)；或者本文描述的其他车道级信息。

图6例示根据本发明的实现的学习和使用导航地图的概要600。车道级路线规划器可以包括用于获取车道级信息的学习模块。车道级路线规划器可以在运载工具中执行，并且车道级信息可以并入到运载工具的导航地图中。车道级信息可以被发送到服务器，该服务器可以从多个运载工具接收车道级信息。服务器可以将接收到的车道级信息并入到导航地图中。然后，导航地图可以用于车道级路线规划器以获得策略(例如，路线)。

概要600示出了从起点608到目的地610(由同一或多于一个运载工具，未示出)采取三个不同路线602、604和606。在驾驶期间，针对车道段(诸如车道段612等)收集车道级信息。历史614指示经学习的车道转变，并且历史614中的车道段的阴影指示经学习的车道段的特性。历史614包括如本文所述经学习的其他车道段信息。

如本文所述，沿着至少一些(例如，所有)路线的至少一些(例如，所有)车道段的历史可以被组合(例如，计数等)到导航地图中。如本文所述，如框618所示，多个目标和其他语义标签可以记录在各个车道段历史中。

基于该学习，可以生成由转变图620例示的状态转变图结构(即，上述的状态转变函数T)。如本文所述的，状态转变图可以由SSP MDP或POMDP模型使用。然后，输出(例如生成等)车道级多目标车道级路线规划器的导航地图。导航地图的车道级信息包括运载工具对车道段的所有穿越的平均值。例如，车道级信息包括速度、停止、感知交通的密度、电池使用和变道成功率等的一个或多于一个平均值。

基于学习，还可以生成成本(奖励)函数，以用于SSP MDP或POMDP模型。如上所述，不同目标的平均值可以被记录为奖励，从而观察时间、控制转移点、电池使用和速度等。从奖励函数可以知道目标之间是否可能有松弛。例如，如果路线采取比最佳长的10分钟的预期，则至少10的松弛是可能的。这样的奖励函数和松弛可以用于设置如针对图5所描述并用偏好排序622所示的偏好排序。

图7是根据本发明的实施例的用于学习用于路线规划的导航地图的技术的示例的流程图。然后，导航地图由车道级路线规划器使用。技术300可以部分地或完全地在可以作为主运载工具的设备中实现，诸如图1所示的运载工具100、图2所示的运载工具210/211之一、半自主运载工具、可以包括驾驶辅助能力的任何其他运载工具、或者诸如由驾驶员等手动控制的运载工具等。该设备可以是服务器，该服务器可以是图2的通信装置240。

技术700可以被实现为存储在存储器中的指令(例如，操作)。存储器可以是图1的存储器134。存储器可以是服务器的存储器。指令可以由诸如图1的处理器133等的处理器执行。可以使用专门的硬件或固件来实现技术700。可以使用多个处理器、存储器或这两者。

在702处，技术700获得道路的车道级信息。车道级信息包括道路中的不同车道的不同段的信息。例如，道路可以包括第一车道和第二车道。车道级信息包括与第一车道相关的第一车道信息以及与第二车道相关的第二车道信息。

车道级信息可以在主运载工具处获得，并且车道级信息可以用于演变主运载工具(例如，在主运载工具中使用、由主运载工具使用、在主运载工具处可用等)的导航地图。可以在服务器处获得(例如，接收等)车道级信息，该服务器从数个运载工具获得车道级信息。服务器可以将演变后的导航地图发送到运载工具供这些运载工具各自的车道级路线规划器使用。服务器可以使用演变后的导航地图来计算路线(例如，策略)。

如上所述，车道级信息可以包括环境信息、运载工具信息和人类信息中的至少一个。环境信息可以包括车道段的交通模式、行人模式或穿越难度信息中的至少一个。运载工具信息可以包括用户的优选路线和用户的控制转移请求。

在示例中，获得道路的车道级信息可以包括：记录在道路上停止的情况下的道路的自动化穿越的第一次数；记录在道路上不停止的情况下的道路的自动化穿越的第二次数；记录在道路上停止的情况下的道路的手动穿越的第三次数；以及记录在道路上不停止的情况下的道路的手动穿越的第四次数。在示例中，获得道路的车道级信息可以包括记录在手动穿越期间的后继车道段。在示例中，获得道路的车道级信息可以包括记录人类对自动化行驶控制的超控。道路的自动化穿越是指自动控制运载工具以穿越道路。道路的手动穿越是指(诸如由人类等)手动控制运载工具以穿越道路。

在704处，技术700将车道级信息转换成可以用于获得到目的地的路线的状态转变函数。如上所述，状态转变函数可以是TMDP或TPOMDP模型的状态转变函数。如上所述，到目的地的路线可以是策略，或可以封装在策略中。在示例中，策略(因而路线)可以是随机的。

在706处，技术700接收目的地。例如，服务器(更具体地在在服务器处执行的车道级路线规划器)可以(诸如从用户装置或运载工具的绘制成图应用等)接收当前位置和目的地，可以获得路线。例如，在设备处执行的车道级路线规划器可以从用户(诸如驾驶员或乘员等)接收目的地，并且车道级路线规划器可以获得路线。在一些示例中，车道级路线规划器可以诸如基于设备的当前位置等来推断路线的起点位置。

在708处，技术700获得策略作为使用状态转变函数的模型的求解方案。

如本文所使用的，术语“指令”可以包括用于进行本文公开的任何方法或者其一个或多于一个任意部分的指示或表达，并且可以以硬件、软件或其任意组合来实现。例如，指令可以实现为存储在存储器中的信息(诸如计算机程序等)，该指令可以由处理器执行以进行如本文所述的各个方法、算法、方面或其组合中的任一者。指令或其一部分可被实现为专用处理器或电路，该专用处理器或电路可以包括用于执行如本文所述的方法、算法、方面或其组合中的任一者的专用硬件。在一些实现中，指令的一部分可以跨单个装置上、多个装置上的多个处理器分布，这些装置可以直接通信或跨网络(诸如局域网、广域网、因特网或其组合等)通信。

如本文所使用的，术语“示例”、“实施例”、“实现”、“方面”、“特征”或“要素”指示用作示例、实例或图示。除非明确指示，否则任何示例、实施例、实现、方面、特征或要素与各个其他示例、实施例、实现、方面、特征或要素独立，并且可以与任何其他示例、实施例、实现、方面、特征或要素组合使用。

如本文所使用的，术语“确定”和“识别”或其任何变型包括使用本文所示出和描述的装置中的一个或多于一个装置以任何方式选择、查明、计算、查找、接收、确定、建立、获得或者以其他方式识别或确定。

如本文所使用的，除非另有规定或从上下文中明确，否则术语“或”旨在意味着包含性的“或”而不是排他性的“或”。另外，除非另有规定或从上下文中明确指向单数形式，否则在本申请和所附权利要求书中使用的冠词“a”和“an”通常应被理解为意味着“一个或多于一个”。

此外，为了简化说明，尽管本文的附图和描述可以包括步骤或阶段的序列或系列，但是本文公开的方法的要素可以以各种顺序发生或并行发生。附加地，本文所公开的方法的要素可以与本文未明确呈现和描述的其他要素一起发生。此外，可以并非需要本文描述的方法的所有要素来实现根据本发明的方法。尽管在本文中以特定的组合描述了方面、特征和要素，但是各个方面、特征或要素可以独立地使用，或者可以以与其他方面、特征和要素的各种组合或以不具有其他方面、特征和要素的各种组合来使用。

为了使得能够容易地理解本发明，描述了上述方面、示例和实现，但本发明不是限制性的。与此相对，本发明覆盖了包括在所附权利要求书的范围内的各种修改和等同布置，该范围应给予最宽泛的解释，以涵盖法律许可的所有这样的修改和等同结构。

Claims

1.一种用于车道级路线规划的方法，包括：

获得道路的车道级信息，

其中，所述道路包括第一车道和第二车道，以及

其中，所述车道级信息包括与所述第一车道相关的第一车道信息以及与所述第二车道相关的第二车道信息；

将所述车道级信息转换成状态转变函数的概率；

接收目的地；以及

获得策略作为使用所述状态转变函数的模型的求解方案。

2.根据权利要求1所述的方法，其中，所述车道级信息是在主运载工具处获得的。

3.根据权利要求1所述的方法，其中，所述车道级信息是从数个运载工具获得的。

4.根据权利要求1所述的方法，其中，所述车道级信息包括环境信息、运载工具信息和人类信息中的至少两个。

5.根据权利要求4所述的方法，其中，所述环境信息包括车道段的交通模式、行人模式和穿越难度信息中的至少两个。

6.根据权利要求4所述的方法，其中，所述运载工具信息包括用户的优选路线和用户的控制转移请求。

7.根据权利要求1所述的方法，其中，获得所述道路的所述车道级信息包括：

记录在所述道路上停止的情况下的所述道路的自动化穿越的第一次数；

记录在所述道路上不停止的情况下的所述道路的自动化穿越的第二次数；

记录在所述道路上停止的情况下的所述道路的手动穿越的第三次数；以及

记录在所述道路上不停止的情况下的所述道路的手动穿越的第四次数。

8.根据权利要求1所述的方法，其中，获得所述道路的所述车道级信息包括：

记录在手动穿越期间的后继车道段。

9.根据权利要求1所述的方法，其中，获得所述道路的所述车道级信息包括：

记录人类对自动化行驶控制的超控。

10.一种用于车道级路线规划的设备，包括：

处理器，其被配置为：

获得道路的车道级信息，

其中，所述道路包括第一车道和第二车道，以及

其中，所述车道级信息包括与所述第一车道相关的第一车道信息以及与所述第二车道相关的第二车道信息；以及

将所述车道级信息转换成状态转变函数，所述状态转变函数用于获得到目的地的路线。

11.根据权利要求10所述的设备，其中，所述车道级信息是从主运载工具获得的。

12.根据权利要求10所述的设备，其中，所述车道级信息是从数个运载工具获得的。

13.根据权利要求10所述的设备，其中，所述车道级信息包括环境信息、运载工具信息和人类信息中的至少两个。

14.根据权利要求13所述的设备，其中，所述环境信息包括车道段的交通模式、行人模式和穿越难度信息中的至少两个。

15.根据权利要求13所述的设备，其中，所述运载工具信息包括用户的优选路线、用户的控制转移请求。

16.根据权利要求10所述的设备，其中，获得所述道路的所述车道级信息包括：

17.根据权利要求10所述的设备，其中，获得所述道路的所述车道级信息包括：

记录在手动穿越期间的后继车道段；以及

记录人类对自动化行驶控制的超控。

18.根据权利要求10所述的设备，其中，获得到所述目的地的路线包括：

获得策略作为使用所述状态转变函数的模型的求解方案。

19.一种非暂态计算机可读存储介质，其包括可执行指令，所述可执行指令在由处理器执行时促进进行操作，所述操作包括以下操作：

从穿越道路的运载工具接收相应的车道级信息；

从所述车道级信息获得导航地图，所述导航地图包括状态转变图和奖励函数，其中，车道级信息包括环境信息、运载工具信息和人类信息中的至少两个；

将所述导航地图传输到运载工具，其中，所述运载工具使用所述导航地图来获得车道级路线。

20.根据权利要求19所述的非暂态计算机可读存储介质，所述操作还包括用于以下的操作：

接收目的地和当前位置；

使用所述导航地图获得从所述当前位置到所述目的地的车道级路线。