CN116519005B

CN116519005B - 一种路径规划方法及装置

Info

Publication number: CN116519005B
Application number: CN202310808138.3A
Authority: CN
Inventors: 曹永岩; 胡江滔; 杨凯
Original assignee: Shanghai Yunji Yuedong Intelligent Technology Development Co ltd
Current assignee: Shanghai Yunji Yuedong Intelligent Technology Development Co ltd; Shanghai Yunji Zhixing Intelligent Technology Co ltd
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-10-03
Anticipated expiration: 2043-07-04
Also published as: CN116519005A

Abstract

本申请涉及一种路径规划方法及装置，其中，所述方法包括：获取待规划路径的起点、终点和地图信息；将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联。本申请实施例提供的路径规划方法，可以根据用户的驾驶需求，利用路径规划模型实时模拟，得到符合用户驾驶需求的路径规划结果。

Description

一种路径规划方法及装置

技术领域

本申请涉及自动驾驶技术领域，尤其涉及一种路径规划方法及装置。

背景技术

路径规划是自动驾驶中的重要环节，相关技术中主要是将决策算法模型引入路径规划环节，通过决策算法模型限定路径规划的解空间，将非凸优化问题转化为凸优化问题，确保能够获得可行解。

目前比较常用的决策算法模型主要包括基于采样的算法模型、基于搜索的算法模型、基于插值拟合的算法模型和基于最优控制的算法模型等。但是，目前这些算法模型对于应用场景和驾驶需求变化的适应性不高，每当应用场景产生变化，或是用户对驾驶需求（如舒适度、效率等）产生变更时，需要人工对算法模型的内部参数进行调整，以适应新的应用场景或者驾驶需求。考虑到算法模型人工调参优化中多次进行训练和评估需要消耗的时间等成本，以及自动驾驶领域中应用场景和需求的多样性，相关技术中亟需一种当前算法模型的复用性不够高这个问题是需要采用更高效自动化的方式进行解决的。

发明内容

有鉴于此，提出了一种路径规划方法及装置，可以提高自动驾驶领域中算法模型的训练效率。

第一方面，本申请的实施例提供了一种路径规划方法，包括：

获取待规划路径的起点、终点和地图信息；

将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联。

本申请实施例提供的路径规划方法，可以通过路径规划模型为待规划路径确定一条从起点至终点的路径规划结果。由于所述路径规划模型中所包含的奖赏是可以根据用户的驾驶需求进行调节的，因此确定的路径规划结果可以满足用户的驾驶需求，也能够满足自动驾驶领域中应用场景和需求的多样性。另外，由于所述路径规划模型基于深度强度学习算法训练得到，这样可以不断提升算法寻找最短路径的能力，从而在面对不同的驾驶需求时，路径规划模型具有快速且自动化的适应能力。

可选的，在本申请的一个实施例中，所述路径规划模型包括策略模块、价值模块和蒙特卡洛树搜索模块，所述方法还包括：

响应于对所述权重值的调节操作，将所述蒙特卡洛树搜索模块输出的最优动作作为所述策略模块的监督信息，对所述策略模块进行训练，并将所述最优动作对应的回报作为所述价值模块的监督信息，对所述价值模块进行训练。

可选的，在本申请的一个实施例中，所述策略模块和所述价值模块按照下述方式训练得到：

步骤1，分别构建所述策略模块和所述价值模块的初始模型，并设置初始状态，所述初始状态至少包括车辆的位置及所述位置处周围的环境信息，所述环境信息从所述地图信息中获取；

步骤2，所述策略模块基于所述初始状态，输出可行动作空间以及所述可行动作空间中每个动作以最小代价到达所述终点的概率，所述价值模块预测所述初始状态以最短路径到达所述终点的状态价值；

步骤3，将步骤2中的所述策略模块和所述价值模块的输出结果输入至所述蒙特卡洛树搜索模块中，所述蒙特卡洛树搜索模块根据树内策略多次模拟后，从所述可行动作空间中选择最优动作，并在执行所述最优动作后转移至下一个状态，其中，所述蒙特卡洛树搜索模块根据调整权重后的奖赏评价各个动作的价值；

步骤4，将所述最优动作作为所述策略模块的监督信息，对所述策略模块进行训练，并将所述最优动作对应的回报作为所述价值模块的监督信息，对所述价值模块进行训练；

步骤5，重复步骤2至步骤4，直至满足迭代次数，或者，所述策略模块和/或所述价值模块满足预设条件。

可选的，在本申请的一个实施例中，所述奖赏按照下述方式确定：

所述蒙特卡洛树搜索模块在搜索至目标动作的情况下，根据所述目标动作确定目标规划路径的信息，所述信息包括所述目标规划路径中各个路径点的信息；

根据所述目标规划路径中各个路径点的信息，确定所述目标规划路径所对应的至少一个驾驶参数的参数值；

根据所述至少一个驾驶参数的参数值和所述至少一个驾驶参数调整后的权重，确定所述目标规划路径的奖赏。

可选的，在本申请的一个实施例中，所述方法还包括：

接收用户的驾驶需求；

根据所述驾驶需求调整多个驾驶参数的权重值。

第二方面，本申请的实施例提供了一种路径规划装置，所述装置包括：

数据获取模块，用于获取待规划路径的起点、终点和地图信息；

路径规划结果确定模块，用于将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联。

可选的，在本申请的一个实施例中，所述路径规划模型包括策略模块、价值模块和蒙特卡洛树搜索模块，所述装置还包括：

第三方面，本申请的实施例提供了一种电子设备，包括处理器以及用于存储处理器可执行指令的存储器，其中所述处理器，用于被配置为执行所述指令时实现上述各个实施例所述的方法；

第四方面，本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述各个实施例所述的方法。

第五方面，本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述各个实施例所述的方法。

本申请的这些和其他方面在以下（多个）实施例的描述中会更加简明易懂。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1是本申请实施例提供的应用场景示意图；

图2是本申请实施例提供的路径规划方法的方法流程图；

图3是本申请实施例提供的策略模块和价值模块的训练过程示意图；

图4是本申请实施例提供的路径规划装置的模块结构示意图；

图5是本申请实施例提供的电子设备的模块结构示意图；

图6是本申请实施例提供的计算机程序产品的概念性局部视图。

具体实施方式

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

在本申请实施例中，“/”可以表示前后关联的对象是一种“或”的关系，例如，A/B可以表示A或B；“和/或”可以用于描述关联对象存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A，B可以是单数或者复数。为了便于描述本申请实施例的技术方案，在本申请实施例中，可以采用“第一”、“第二”等字样对功能相同或相似的技术特征进行区分。该“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。在本申请实施例中，“示例性的”或者“例如”等词用于表示例子、例证或说明，被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念，便于理解。

在本申请实施例中，对于一种技术特征，通过“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”等区分该种技术特征中的技术特征，该“第一”、“第二”、“第三”、“A”、“B”、“C”和“D”描述的技术特征间无先后顺序或者大小顺序。

为了便于理解本申请实施例，下面先对本申请实施例所基于的其中一种路径规划系统的结构进行描述。请参见图1，图1是本申请实施例提供的一种路径规划系统的结构示意图，该系统包括采集装置101和路径规划装置103，其中，所述采集装置101和所述路径规划装置103可以通过网络通信，以将待规划路径的起点、终点、高精地图等发送至所述路径规划装置103，由所述路径规划装置103完成从所述起点至所述终点的路径规划结果。

其中，所述采集装置101可以是具有数据采集能力和数据收发能力的电子设备。比如说所述采集装置101可以是装备有激光雷达、摄像头、全球导航卫星系统（GlobalNavigation Satellite System，GNSS）、惯性测量单元（Inertial Measurement Unit，IMU）等一个或多种传感器的采集车辆。采集车辆可以在生成地图信息之前，在各个道路上利用多个传感器收集生成所述地图信息所需的各种信息例如道路级数据（也即待规划路径中所涉及的每个道路的数据）、车道级数据（也即待规划路径中所涉及的每个车道的数据）、障碍物的信息。道路级还可以称为非高精矢量路网数据，用于从道路级精度描述具体的道路。所述道路级数据是按照道路粒度采集的路网数据，也即包含多条车道的一条车道也只会有一条以路段（link）为单位的矢量数据。所述矢量数据包括一系列位置坐标点，通常是道路中心线上的一系列位置坐标点；所述道路级数据还包括道路等级、通行能力、车道数、道路类别、行驶方式、道路宽带等等。所述车道级数据可以称为高精矢量路网络数据，用于从车道线精度描述具体的道路。具体来说，所述车道级数据是按照车道线粒度采集的路网数据，可以包括但不限于任意一条道路的车道边缘线信息（包括车道边缘线所在位置的矢量数据）、车道分界线信息（包括车道分界线所在位置的矢量数据）等。所述障碍物可以为路口内妨碍行驶的物体，所述障碍物的信息可以是障碍物所在位置的矢量数据，所述障碍物包括但不限于以下至少一项：路牙、树木、路灯等等。所述激光雷达主要用于采集点云数据，因为所述激光雷达可以精确地反应出位置信息，所以通过所述激光雷达可以获取路面的宽度、信号灯的高度以及一些其他信息；所述摄像头主要用于采集路面的标识、车道线等信息；所述GNSS主要用于记录当前采集点的坐标；所述IMU主要用于记录采集车辆的角度和加速度信息，用于校正采集车辆的位置和角度。

或者，所述采集装置101还可以是安装于路口处的路侧单元，路侧单元可以获取覆盖区域内的路口信息，以及监控覆盖区域内的多个智能车辆。路侧单元可以采集到自动驾驶中待规划路径的路口信息，也即路侧单元可以随时监控路口内的动态，可以将路口的信息向需要通过路口的智能车辆发送。需要说明的是，可以由一个路侧单元来获取路口信息，也可以由多个路侧单元协作配合来获取路口信息，以达到可以获取到与路口连接的所有道路的信息。其中，路侧单元可以是由高增益定向束控读写天线和射频控制器组成。高增益定向束控读写天线是一个微波收发模块，负责信号和数据的发送/接收、调制/解调、编码/解码、加密/解密；射频控制器是控制发射和接收数据以及处理向上位机收发信息的模块。

所述路径规划装置103可以是具有数据处理能力和数据收发能力的电子设备，可以是实体设备如域控制器、主机、机架式服务器、刀片式服务器等，也可以是虚拟设备如虚拟机、容器等。需要说明的是，所述路径规划装置103还可以集成于所述采集装置101中，例如由所述采集车辆完成采集地图信息和路径规划的工作流程，本申请实施例不做任何限制。

下面结合附图对本申请所述的路径规划方法进行详细的说明。图2是本申请提供的路径规划方法的一种实施例的方法流程示意图。虽然本申请提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑性上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。所述方法在实际中的路径规划过程中或者装置执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。

具体的，本申请提供的路径规划方法的一种实施例如图2所示，所述方法可以包括：

S201：获取待规划路径的起点、终点和地图信息。

本申请实施例中，所述待规划路径可以由用户根据实际的驾驶需求进行设定。例如，所述采集车辆可以提供用于路径规划的交互界面，所述交互界面可以包括起点输入框、终点输入框。用户可以在所述起点输入框中输入待规划路径的起点位置，例如可以输入（经度1, 纬度1），在所述终点输入框中输入待规划路径的终点位置（经度2, 纬度2）。当然，在本申请其他实施例中，用户还可以根据历史路径确定待规划路径的起点和终点，或者在地图上选择对应的起点位置和终点位置，本申请对此不做限制。在本申请的一个实施例中，所述地图信息可以是包含道路形状、道路标记、交通标志和障碍物等地图元素的高精地图，其地图精度至少为厘米级别。例如在高精地图中，所述交通标志的信息可以包括交通标志的形状、方向、地理位置和高度等信息。当然，在本申请的其他实施例中，可以通过所述采集装置101采集道路数据实时生成所述地图信息，也可以从其他客户端或者服务器中下载所述地图信息，本申请在此不做限制。

S203：将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联。

本申请实施例中，所述路径规划模型基于深度强化学习算法（DeepReinforcement Learning，DRL）训练得到，所述深度强化学习算法是一种将深度学习技术和强化学习技术相结合的算法。深度强化学习使用神经网络来建立对环境和奖励的预测模型，并且通过与环境的交互来训练这个模型。这个模型可以用来选择最佳行动，以最大化预期的奖赏（Reward）。深度强化学习系统包括深度强化学习智能体（Agent）和执行环境；深度强化学习智能体通过与执行环境的交互和反馈，不断学习，优化其策略。具体而言，深度强化学习智能体观察并获得执行环境的环境状态state，根据其配置的策略针对当前执行环境的环境状态确定要采用的调度动作action。这样调度动作作用于执行环境，会改进执行环境的环境状态，同时产生对应的奖赏反馈给深度强化学习智能体，使得深度强化学习智能体根据该奖赏判断之前的调度动作是否正常，调度策略是否需要调整进而更新其配置的策略。通过反复不断的观察环境状态、确定调度动作以及受到奖赏，使得深度强化学习智能体可以不断更新策略，最终目标是能够学习到一个策略，使得获取到的奖赏积累最大化。所述深度强化学习算法的原理简单来说可以是智能体如车辆学习到最优策略如最优路径，使其获取到的奖赏最大化。

本申请实施例中，所述奖赏可以包括多种维度的指标，例如可以包括碰撞风险指标、驾驶体感指标、驾驶效率指标等等。所述驾驶效率指标可以包括驾驶速度、驾驶时间等。在实际的应用中，不同的用户对于自动驾驶的需求不同，例如一些小心谨慎的驾驶者更看重于规划得到的最优路径所对应的碰撞风险最低，而一些追求效率的驾驶者更看重于规划得到的最优路径所对应的驾驶效率最高。基于此，在本申请的一个实施例中，可以根据用户的驾驶需求为多种维度的指标设置不同的权重值。这样，所述路径规划模型可以根据不同的权重值输出不同的路径规划结构，以满足用户的实际需求。例如，在一个示例中，所述奖赏R=w₁×M₁+w₂×M₂+w₃×M₃。其中，所述w₁为所述碰撞风险指标M₁的权重值，所述w₂为所述驾驶体感指标M₂的权重值，所述w₃为所述驾驶效率指标M₃的权重值。

本申请实施例提供的路径规划方法，可以通过路径规划模型为待规划路径确定一条从起点至终点的路径规划结果。由于所述路径规划模型中所包含的奖赏是可以根据用户的驾驶需求进行调节的，因此确定的路径规划结果可以满足用户的驾驶需求，也能够满足自动驾驶领域中应用场景和需求的多样性。另外，由于所述路径规划模型基于深度强度学习算法训练得到，这样可以不断提升算法寻找最短路径的能力，从而在面对不同的驾驶需求时，路径规划模型具有快速适应的能力。

具体的，在本申请的一个实施例中，所述路径规划模型包括策略模块、价值模块和蒙特卡洛树搜索模块，所述方法还包括：

S301：响应于对所述权重值的调节操作，将所述蒙特卡洛树搜索模块输出的最优动作作为所述策略模块的监督信息，对所述策略模块进行训练，并将所述最优动作对应的回报作为所述价值模块的监督信息，对所述价值模块进行训练。

本申请实施例中，为了在提高路径规划模型输出结果的准确性的前提下，提高处理效率，可以将所述策略模块和所述价值模块与蒙特卡洛树搜索结合，以减少搜索树的广度和深度；这样，改进的蒙特卡洛树搜索可以通过自我对弈生成最优动作及回报，更新所述策略模块和所述价值模块，同时更新的所述策略模块和所述价值模块可以用来指导蒙特卡洛树搜索，二者相互依靠，经多次对弈得到训练好的所述策略模块和所述价值模块。具体来说，所述策略模块、所述价值模块可以分别与所述蒙特卡洛树搜索模块连接。即所述策略模块的输出以及所述价值模块的输出可以作为所述蒙特卡洛树搜索模块的输入，所述蒙特卡洛树搜索模块的输出可以作为所述策略模块和所述价值模块的监督信息，以用于训练所述策略模块和所述价值模块，使得所述路径规划模块更加符合需求。具体来说，所述策略模块的输入可以为所述智能体如待规划路径车辆的初始状态，所述初始状态可以是所述待规划路径车辆的自身状态以及周围环境状态。所述周围环境状态可以包括所述车辆周围的车道线状态、障碍物状态等等。所述策略模块的输出可以包括可行动作空间以及所述可行动作空间中每个动作以最小代价到达所述终点的概率。其中，所述可行动作空间为所述车辆在某个状态下进行的多种可能的动作，所述动作可以包括左转0.5度、左转3度、直行1度、右转2度等等。所述概率可以用于表示以其中一种动作以最小代价到达终点的可能性或者概率。如左转0.5度到达预设终点的概率p1为30%，左转3度到达预设终点的概率p2为90%。所述价值网络的输出可以输出所述初始状态以最短路径到达所述终点的状态价值。在本申请的一个实施例中，所述蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）模块可以是基于蒙特卡洛树搜索算法建立的模型，所述蒙特卡洛树搜索算法可以根据模拟的输出结果，按照节点构造搜索树。其中所述搜索树的构建过程可以包括：1)搜索：通过上限信心界应用树算法，递归地从博弈树的根结点向下搜索至当前的叶子结点。2)扩展：对博弈树当前的叶子结点进行扩展。3)模拟：从博弈树当前的叶子结点开始进行蒙特卡洛模拟评估。4)更新：将蒙特卡洛模拟评估的结果以回溯的方式更新到博弈树的每一个结点上。也就是说，寻找最优动作的过程实际上是建立一颗树的过程。

通过上述实施例，可以基于所述蒙特卡洛树搜索模块生成的最优动作以及对应的回报，对所述策略模块和所述价值模块进行联合训练，以确定更为符合要求的价值模块和策略模块。所述策略模块以及所述价值模块又可以用来指导蒙特卡洛树搜索过程，简化搜索过程降低搜索维度，二者相互依靠，相辅相成，且不需要人为对算法模型内部的参数进行多次调整操作，实现了算法训练过程和优化过程的解耦合。

进一步的，在本申请的一个实施例中，所述策略模块和所述价值模块按照下述方式训练得到：

本申请实施例中，如图3所示，可以将所述车辆的初始状态输入到所述策略模块，所述策略模块可以基于所述初始状态s₀输出可行动作空间以及所述可行动作空间中每个动作以最小代价到达所述终点的概率p（a|s;q），其中所述q为所述策略模块的网络参数，所述a为所述车辆的可行动作如左转，所述p为所述可行动作a以最小代价到达所述终点的概率。之后，可以将不同的动作a及其对应的概率p扩展到所述蒙特卡洛树搜索模块的树中作为该节点的子节点，代替原蒙特卡洛树搜索的扩展步骤。在本申请的一个实施例中，还可以将所述初始状态s₀输入到所述价值模块中，由所述价值模块输出所述初始状态s₀以最短路径到达所述终点的状态价值Vp(s)。之后可以将所述状态价值Vp(s)输入至树中的各个节点，所述蒙特卡洛树搜索模块可以根据调整权重后的奖赏评价各个动作的价值Vp(s)从而代替原蒙特卡洛树搜索的模拟步骤。对于所述蒙特卡洛树搜索模块而言，所述车辆的初始状态可以作为这棵树的父节点。所述车辆的可行动作空间a_n可以作为根节点的孩子节点被添加在搜索中。每个节点记录了其被访问的次数、平均状态价值和可行概率。通过搜索、扩展、模拟和回溯四个阶段，选择在状态s_n要执行的动作a_n+1以及对应的状态价值即回报p_n+1，转移到状态s_n+1；直至到达终点结束，输出最优动作a_n以及对应的回报z。之后，可以将所述最优动作a_n作为所述策略模块的监督信息，对所述策略模块进行训练。例如可以基于损失函数确定的损失信息对所述策略模块的网络参数进行调整，直至所述损失信息小于预设损失信息阈值，或者迭代次数大于预设迭代次数阈值。所述预设损失信息阈值以及所述预设迭代次数可以由用户根据需要的模型精度或者实际的应用需求进行设定，例如所述预设损失信息阈值可以是a，所述预设迭代次数可以为50次、70次等等。在本申请的另一个实施例中，还可以所述最优动作对应的回报作为所述价值模块的监督信息，对所述价值模块进行训练。具体的训练过程可以参考所述策略模块的训练过程，本申请在此不再赘述。

进一步地，在本申请的一个实施例中，所述奖赏可以按照下述方式确定：

S401：所述蒙特卡洛树搜索模块在搜索至目标动作的情况下，根据所述目标动作确定目标规划路径的信息，所述信息包括所述目标规划路径中各个路径点的信息；

S403：根据所述目标规划路径中各个路径点的信息，确定所述目标规划路径所对应的至少一个驾驶参数的参数值；

S405：根据所述至少一个驾驶参数的参数值和所述至少一个驾驶参数调整后的权重，确定所述目标规划路径的奖赏。

本申请实施例中，所述蒙特卡洛树搜索模块在搜索至目标动作的情况下，可以确定执行所述目标动作后，所述车辆的自身状态如所在的位置以及周围环境状态。根据所述自身状态和所述周围环境状态可以确定所述目标规划路径中所包含的路径点的信息。所述路径点的信息可以包括所述路径点的位置信息如位置坐标、角度信息如航向角、速度信息如速度、加速度等，也可以包括所述路径点处的周围环境如是否存在其他车辆、是否存在障碍物等等。可以理解的是，由于所述目标规划路径可以包括多个路径点，相邻两个路径点可以构成一小段子规划路径。多个连续的子规划路径可以构成所述目标规划路径。因此，在确定各个路径点的信息后即可确定所述目标规划路径以及所述目标规划路径所对应的至少一个驾驶参数的参数值。其中，所述目标规划路径所包含的路径点以及路径点的信息较多，因此可以以矩阵的形式存储所述目标规划路径。在本申请的一个实施例中，所述驾驶参数可以包括碰撞风险参数、驾驶体感参数和驾驶效率参数等等。在一个示例中，可以根据所述路径点的速度信息如速度以及加速度，计算得到所述驾驶效率参数的参数值，例如在所述速度较大的情况下，所述驾驶效率参数的参数值也会较大。在另一个示例中，还可以根据各个路径点处是否存在障碍物或者其他车辆，计算得到所述碰撞风险参数的参数值。例如，若路径点A处存在“正在施工”的标志牌，则所述碰撞风险参数的参数值可以为90%。当然，还可以根据相邻两个路径点所对应的相对角度以及速度的变化幅度，确定所述驾驶体感参数的参数值。例如，在相邻两个路径点所对应的速度变化幅度较大时，所述驾驶体感参数的参数值就会较低。根据在本申请的一个实施例中，可以根据确定的驾驶参数的参数值以及对应的设定好的权重值，确定所述目标规划路径的奖赏。

在实际的应用中，不同的用户对于自动驾驶的需求不同，例如一些小心谨慎的驾驶者更看重于规划得到的最优路径所对应的碰撞风险最低，而一些追求效率的驾驶者更看重于规划得到的最优路径所对应的驾驶效率最高。基于此，在本申请的一个实施例中，所述方法还可以包括：

S501：接收用户的驾驶需求；

S503：根据所述驾驶需求调整多个驾驶参数的权重值。

本申请实施例中，可以根据用户的驾驶需求，对应调节各个驾驶参数的权重值。具体，在本申请的一个实施例中，所述路径规划装置可以提供一种交互界面，所述交互界面可以包括命令界面、菜单界面、图形用户界面等等。所述交互界面可以包括多个输入框、确认按钮等等。在本申请的一个实施例中，用户可以通过语音输入、手写输入、键盘输入等方式设定各个驾驶参数的权值重。在设定完成后，可以触发所述确认按钮。所述确认按钮可以包括文本方框按钮、纯图标按钮等等。

通过上述实施例，可以由用户根据自身需求设定不同的驾驶参数对应的权重值，从而能够满足自动驾驶领域中应用场景和需求的多样性。

上文详细描述了本申请所提供的路径规划方法，下面将结合附图4，描述根据本申请所提供的路径规划装置103，所述装置103包括：

数据获取模块1031，用于获取待规划路径的起点、终点和地图信息；

路径规划结果确定模块1033，用于将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联。

可选的，在本申请的一个实施例中，所述装置还包括权重值调整模块，所述权重值调整模块用于：接收用户的驾驶需求；根据所述驾驶需求调整多个驾驶参数的权重值。

根据本申请实施例的路径规划装置103可对应于执行本申请实施例中描述的方法，并且路径规划装置103中的各个模块的上述和其它操作和/或功能分别为了实现上述各个实施例提供的方法的相应流程，为了简洁，在此不再赘述。

另外需说明的是，以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

如图5所示，本申请的实施例还提供了一种电子设备500，该电子设备500包括：处理器以及用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令时实现上述方法。电子设备500包括存储器501、处理器503、总线505、通信接口507。存储器501、处理器503和通信接口507之间通过总线505通信。总线505可以是外设部件互连标准（peripheral component interconnect，PCI）总线或扩展工业标准结构（extendedindustry standard architecture，EISA）总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口507用于与外部通信。其中，处理器503可以为中央处理器(centralprocessing unit，CPU)。存储器501可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器501还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，HDD或SSD。存储器501中存储有可执行代码，处理器503执行该可执行代码以执行前述晶圆良率数据处理的方法。本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

本申请的实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。

本申请的实施例提供了一种计算机程序产品，包括计算机可读代码，或者承载有计算机可读代码的非易失性计算机可读存储介质，当所述计算机可读代码在电子设备的处理器中运行时，所述电子设备中的处理器执行上述方法。

在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。图6示意性地示出根据这里展示的至少一些实施例而布置的示例计算机程序产品的概念性局部视图，所述示例计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。在一个实施例中，示例计算机程序产品600是使用信号承载介质601来提供的。所述信号承载介质601可以包括一个或多个程序指令602，其当被一个或多个处理器运行时可以提供以上针对图2描述的功能或者部分功能。此外，图6中的程序指令602也描述示例指令。

在一些示例中，信号承载介质601可以包含计算机可读介质603，诸如但不限于，硬盘驱动器、紧密盘(CD)、数字视频光盘(DVD)、数字磁带、存储器、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等等。在一些实施方式中，信号承载介质601可以包含计算机可记录介质604，诸如但不限于，存储器、读/写(R/W)CD、R/W DVD、等等。在一些实施方式中，信号承载介质601可以包含通信介质605,诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等）。因此，例如，信号承载介质601可以由无线形式的通信介质605(例如，遵守IEEE 802.11标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令602可以是，例如，计算机可执行指令或者逻辑实施指令。在一些示例中，诸如针对图4描述的电子设备的计算设备可以被配置为，响应于通过计算机可读介质603、计算机可记录介质604、和/或通信介质605中的一个或多个传达到计算设备的程序指令602，提供各种操作、功能、或者动作。应该理解，这里描述的布置仅仅是用于示例的目的。因而，本领域技术人员将理解，其它布置和其它元素(例如，机器、接口、功能、顺序、和功能组等等)能够被取而代之地使用，并且一些元素可以根据所期望的结果而一并省略。另外，所描述的元素中的许多是可以被实现为离散的或者分布式的组件的、或者以任何适当的组合和位置来结合其它组件实施的功能实体。

附图中的流程图和框图显示了根据本申请的多个实施例的装置、系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。

也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行相应的功能或动作的硬件（例如电路或ASIC（Application SpecificIntegrated Circuit，专用集成电路））来实现，或者可以用硬件和软件的组合，如固件等来实现。

尽管在此结合各实施例对本发明进行了描述，然而，在实施所要求保护的本发明过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其它变化。在权利要求中，“包括”（comprising）一词不排除其他组成部分或步骤，“一”或“一个”不排除多个的情况。单个处理器或其它单元可以实现权利要求中列举的若干项功能。相互不同的从属权利要求中记载了某些措施，但这并不表示这些措施不能组合起来产生良好的效果。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种路径规划方法，其特征在于，包括：

获取待规划路径的起点、终点和地图信息；

将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联，其中，所述奖赏的指标包括：碰撞风险指标、驾驶体感指标、驾驶效率指标；

所述奖赏R=w1×M1+w2×M2+w3×M3；

其中，所述w1为所述碰撞风险指标M1的权重值，所述w2为所述驾驶体感指标M2的权重值，所述w3为所述驾驶效率指标M3的权重值；

所述路径规划模型包括策略模块、价值模块和蒙特卡洛树搜索模块，所述方法还包括：

响应于对所述权重值的调节操作，将所述蒙特卡洛树搜索模块输出的最优动作作为所述策略模块的监督信息，对所述策略模块进行训练，并将所述最优动作对应的回报作为所述价值模块的监督信息，对所述价值模块进行训练；

所述策略模块和所述价值模块按照下述方式训练得到：

2.根据权利要求1所述的路径规划方法，其特征在于，所述奖赏按照下述方式确定：

3.根据权利要求1所述的路径规划方法，其特征在于，所述方法还包括：

接收用户的驾驶需求；

根据所述驾驶需求调整多个驾驶参数的权重值。

4.一种路径规划装置，其特征在于，所述装置包括：

路径规划结果确定模块，用于将所述起点、所述终点和所述地图信息输入至路径规划模型中，经所述路径规划模型输出从所述起点至所述终点的路径规划结果；其中，所述路径规划模型基于深度强化学习算法训练得到，所述深度强化学习算法的奖赏中包括可调节的权重值，所述权重值与用户的驾驶需求相关联，其中，所述奖赏包括多种维度的指标：碰撞风险指标、驾驶体感指标、驾驶效率指标；

所述奖赏R=w1×M1+w2×M2+w3×M3；

所述路径规划模型包括策略模块、价值模块和蒙特卡洛树搜索模块，所述装置还包括：

所述策略模块和所述价值模块按照下述方式训练得到：

5.一种电子设备，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，其中所述处理器，用于被配置为执行所述指令时实现权利要求1-3中任意一项所述的方法。

6.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1-3中任意一项所述的方法。