CN116448135A

CN116448135A - 基于深度强化学习的路径规划方法、装置和车辆

Info

Publication number: CN116448135A
Application number: CN202310341466.7A
Authority: CN
Inventors: 李力; 张嘉玮; 常成; 李深; 张毅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-07-18
Anticipated expiration: 2043-03-31
Also published as: CN116448135B

Abstract

本申请公开了一种基于深度强化学习的路径规划方法、装置和车辆，基于深度强化学习的路径规划方法，通过“看两步，走一步”的动态路径规划原则，有效地填补了相关技术中的研究空缺，提高了车辆的路径规划带来的个体车辆的收益和全局交通的收益，促进了路网内各个道路上车流的均衡性，提高了整个交通系统的效率。

Description

基于深度强化学习的路径规划方法、装置和车辆

技术领域

本申请涉及但不限于车路协同驾驶技术，尤指一种基于深度强化学习的路径规划方法、装置和车辆。

背景技术

智能车路协同系统采用先进的无线通信和快速的边缘计算等技术，全方位实现车辆与车辆、车辆与路侧设备之间的信息共享。车路协同驾驶技术基于采集到的实时交通信息和车辆信息，采用先进的决策与控制方法，不仅可以保证车辆行驶过程中的交通安全，而且可以显著提高交通系统的效率，是一种全新的实现自动驾驶的技术。

网联自动驾驶车辆(CAVs，Connected and Automated Vehicles)是智能车路协同系统的重要组成部分，有望成为下一代智能交通运输系统的关键组成。网联自动驾驶车辆可以同路侧设备、周围车辆共享实时的车辆状态(比如位置、速度、加速度等)和驾驶意图(比如驾驶行为，车辆路线等)，同时还可以接收与执行来自路侧设备的安全且高效的决策与控制指令。

相关技术中有关网联自动驾驶车辆的决策与规划方法局限于局部的小规模场景(比如匝道、路口节点即交叉口等)，缺乏路网范围内的决策与规划方法，特别是针对车辆的路径规划问题存在方法空缺，这样会使得路网内各个道路上车流的不均衡，导致交通拥堵等问题，从而降低整个交通系统的效率。

发明内容

本申请提供一种基于深度强化学习的路径规划方法、装置和车辆，能够促进路网内各个道路上车流的均衡性，提高整个交通系统的效率。

本发明实施例提供一种基于深度强化学习的路径规划方法，当车辆到达一路口节点时，包括：

获取所述车辆所在所述路口节点到第一路口节点和第二路口节点范围内的交通状态信息；其中，所述第一路口节点为所述车辆所在所述路口节点的下一路口节点，所述第二路口节点为所述车辆所在所述路口节点的下一路口节点的下一路口节点；

将获得的所述交通状态信息输入预先训练好的基于深度强化学习的路径规划模型，以选择所述车辆所在所述路口节点到所述第一路口节点范围内的路径并执行。

在一种示例性实例中，还包括：采用柔性动作-评价SAC算法训练所述路径规划模型。

在一种示例性实例中，还包括：

根据所述交通状态信中的备选路径上的车辆累计密度，通过预先设置的奖励函数评价所述选择出的所述路径或所述训练得到路径规划模型输出的路径的优劣程度。

在一种示例性实例中，使用路网内车辆累积量作为性能度量指标设置所述奖励函数，使用反压BP思想构建所述奖励函数。

在一种示例性实例中，所述使用反压BP思想构建所述奖励函数R，包括：

R＝w₁*R^one-step+w₂*R^two-step，其中，R^one-step表示一步奖励，R^two-step表示两步奖励，w₁和w₂是权重参数，用于调节路径规划策略对于一步收益和两步收益的权衡；

其中， BP_j是路径j的反压值，/>是道路j上的车辆累计密度，幂值α决定BP值的相对区分度，其中的候选路线为所述备选路径。

在一种示例性实例中，所述交通状态信息包括一步范围观测信息Ω_O与两步范围观测信息Ω_T；

所述一步范围观测信息Ω_O在空间范围内编码所述车辆所在所述路口节点到所述第一路口节点的距离范围内的交通状态信息；

所述两步范围观测信息Ω_T在空间范围内编码所述第一路口节点到所述第二路口节点的邻接的路口节点的数目以及各车道上的车辆数目。

在一种示例性实例中，所述一步范围观测信息Ω_O的交通状态信息包括：所述车辆所在所述路口节点的备选路径上的车辆数目，所述车辆所在所述路口节点和所述第一路口节点的车辆数目；

所述两步范围观测信息Ω_T的交通状态信息包括：所述第二路口节点邻接的路口节点的数目以及各车道上的车辆数目。

在一种示例性实例中，所述将获得的交通状态信息输入预先训练好的路径规划模型，包括：

对获得的所述交通状态信息进行编码；将所述编码后的交通状态信息输入所述路径规划模型计算后得到所述路径。

本申请实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述任一项所述基于深度强化学习的路径规划方法。

本申请实施例又提供一种实现基于深度强化学习的路径规划的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的实现基于深度强化学习的路径规划的方法的步骤。

本申请实施例再提供一种基于深度强化学习的路径规划装置，包括：获取模块，计算模块，其中，

获取模块，用于在车辆到达一个路口节点时，获取车辆所在路口节点到第一路口节点和第二路口节点范围内的交通状态信息；其中，第一路口节点为车辆所在路口节点的下一路口节点，第二路口节点为车辆所在路口节点的下一路口节点的下一路口节点；

计算模块，用于将获得的交通状态信息输入预先训练好的基于深度强化学习的路径规划模型，以选择车辆所在路口节点到第一路口节点范围内的路径并执行。

在一种示例性实例中，还包括训练模块，用于：

采用SAC算法训练路径规划模型，将多组车辆所在路口节点到第一路口节点和第二路口节点范围内的交通状态信息样本作为路径规划模型的输入，对应的多组车辆所在路口节点到第一路口节点范围内的路线样本作为输出，进行训练得到路径规划模型；或者，

将多组车辆所在路口节点到第一路口节点和第二路口节点范围内的交通状态信息样本、对应的多组车辆所在路口节点到第一路口节点范围内的路线样本作为输入，进行自学习训练得到路径规划模型。

在一种示例性实例中，还包括评价模块用于：

根据所述交通状态信中的备选路径上的车辆累计密度，通过预先设置的奖励函数评价所述选择出的路径或所述训练得到路径规划模型输出的路径的优劣程度。

本申请实施例还提供一种车辆，其特征在于，包括上述任一项所述的基于深度强化学习的路径规划装置。

本申请实施中，通过“看两步，走一步”的动态路径规划原则，有效地填补了相关技术中的研究空缺，提高了车辆的路径规划带来的个体车辆的收益和全局交通的收益，促进了路网内各个道路上车流的均衡性，提高了整个交通系统的效率。而且，由于本申请实施例提出的“看两步，走一步”的动态路径规划原则，可以有效解决网联自动驾驶环境内路网层面车辆群体的协同驾驶问题，因此，其为网联自动驾驶车辆的大规模、综合性应用提供了理论基础和方法。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例中一典型的城市路网交通场景示意图；

图2为本申请实施例中基于深度强化学习的路径规划方法的流程示意图；

图3为本申请实施例中路径规划实施例的示意图；

图4为本申请实施例中基于多智能体深度强化学习的路径规划模型训练示意图；

图5为本申请实施例中用于实验评估的路网环境实施例示意图；

图6为本申请实施例中基于深度强化学习的路径规划装置的组成结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在本申请一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

针对网联自动驾驶车辆的决策与规划问题，相关技术局限于小范围的局部场景(比如路口节点、匝道等)来实现，对于实际的路网交通系统，缺乏相应的路网层面的决策与规划方法，特别是缺乏车辆的路径规划方法，导致交通拥堵。

图1为本申请实施例中一典型的城市路网交通场景示意图，为了减小车辆的旅行时长，同时促进路网各个道路上流量的均衡性，提高交通系统的整体效率，需要根据实时的交通状态为网联自动驾驶车辆动态地规划/调整路线。如图1所示，在一般的路网内，动态路径规划即是对每个到达路口节点的车辆做出路线选择决策。本申请发明人认为，可以将路径选择决策问题考虑为从实时交通状态信息到路径选择的映射。但是，从实时的交通状态信息到路径选择的映射是复杂的、隐式的、不可枚举的，不存在一个显示的公式或者手工设定的规则来实现期望的映射。而且，路网交通系统存在诸多的不可预测的不确定性，因此，对于路径规划问题，系统的模型是未知的。并且，由于系统的模型是未知的，路径规划的优劣只有在车辆执行所选择的路径之后，才能得到相对准确的评估，因此，系统对于路径选择的反馈是延迟的。

本申请发明人发现，如果通过深度强化学习(DRL，Deep ReinforcementLearning)借助深度神经网络拟合从实时交通状态信息到路径选择的映射，可以有效应对映射的非线性；而且，深度强化学习通过与环境的交互开展试错学习，无需系统的模型即可应对系统模型未知的挑战；再者，深度强化学习可以有效应对系统反馈即奖励的延迟性。因此，为了应对上述一般的路网内动态路径规划存在的问题，本申请发明人提出采用深度强化学习来学习期望的路径规划模型，再利用训练好的路径规划模型和实时的交通状态信息来确定车辆在路口节点的路径选择。

驾驶员/自动驾驶车辆引导系统是网联自动驾驶环境下，提高交通效率的关键途径，而路径规划作为最重要的引导环节，亟需一种对个体车辆效率和交通系统效率均有利的路径规划方法，兼顾路径规划对于微观个体车辆的效率和整个宏观路网交通系统的效率的作用和影响。为此，本申请实施例提供一种基于深度强化学习的路径规划方法，当车辆到达一个路口节点时，如图2所示，执行以下步骤：

步骤200：获取车辆所在路口节点到第一路口节点和第二路口节点范围内的交通状态信息；其中，第一路口节点为车辆所在路口节点的下一路口节点，第二路口节点为车辆所在路口节点的下一路口节点的下一路口节点。

在一种示例性实例中，在网联自动驾驶环境下，车辆和路侧设备均装有车与基础设施(V2I，Vehicle to Infrastructure)通讯设备，车辆可以向路侧设备发送实时的状态信息，同时路侧设备也可以向车辆发送收集到的交通状态信息以及集中式的决策与规划指令。也就是说，所有车辆可以向路侧设备发送实时的交通状态，比如位置、速度、车道等信息，同时，相邻的路侧设备之间也可以发送收集到的交通状态信息；路侧设备整合收集到的交通状态信息，并反馈给车辆的车载单元。这样，本申请实施例中的车辆便可以根据收集到的交通状态信息，独立地开展路径规划，动态调整路线并执行，直到到达目的地。

在一种示例性实例中，获取车辆所在路口节点到第一路口节点和第二路口节点范围内的交通状态信息，可以包括：

车辆所在路口节点的备选路径上的车辆数目，车辆所在路口节点和第一路口节点的车辆数目；以及第二路口节点邻接的路口节点的数目以及各车道上的车辆数目。

在一种示例性实例中，以一般性的如图1或图2所示的网格形的城市路网为例，在任意一个路口节点，车辆一般会有一条或者两条由最短路径算法等所提供的备选路径。当备选路径为两条时，需要按照本申请实施例提供的路劲规划方法选择出最终车辆通行的路径。

在一种实施例中，步骤200中获得的交通状态信息可以包括两类观测信息：一步范围观测信息Ω_O与两步范围观测信息Ω_T。其中，

一步范围观测信息Ω_O在空间范围内编码车辆所在路口节点到下一路口节点(即第一路口节点)距离范围内的交通状态信息，如图3所示实施例中，路口节点#0、路口节点#1-1与路口节点#1-2提供“走一步”的关键的交通状态信息。考虑到对自车的路径选择的主要影响，在一种实施例中，编码的交通状态信息可以包括：备选路径上的车辆数目，以及车辆所在路口节点及下一路口节点领域内的车辆数目，如图3所示实施例中，路口节点#0，路口节点#1-1与路口节点#1-2处的车辆数目。在一种实施例中，可以以备选路径为起点，顺时针旋转，编码各个路口节点周围的车道上的车辆数目。

两步范围观测信息Ω_T在空间范围内编码车辆所在路口节点的下一路口节点(即第一路口节点)的下一路口节点(即第二路口节点)邻接的路口节点的数目以及各车道上的交通状态信息，即得到两节点领域内的交通状态信息，反映“看两步”的关键的交通状态信息。

步骤201：将获得的交通状态信息输入预先训练好的基于深度强化学习的路径规划模型，以选择车辆所在路口节点到第一路口节点范围内的路径并执行，返回步骤200直至车辆到达目的地。

在一种示例性实例中，路径规划模型是预先训练好的，其输入包括：车辆所在路口节点到第一路口节点和第二路口节点范围内的交通状态信息，输出为车辆所在路口节点到第一路口节点范围内的路线。

根据本申请实施例提出一个“看两步，走一步”的动态路径规划原则，车辆每到达一个路口节点，根据“两步”(即距车辆所在路口节点的两个路口节点)视野范围内的观测到的交通装置信息，从备选路径中选择“一步”(即距车辆所在路口节点的下一路口节点)视野内的路径，以图3为例，车辆当前所在路口节点为路口节点#0，车辆借助车路协同通讯设备可以观测到阴影区域内的交通状态信息，车辆的路径规划需要考虑距离路口节点#0的下一路口节点即第一路口节点(如图3所示，包括路口节点#1-1和路口节点#1-2)以及路口节点#0的下一路口节点的下一路口节点即第二路口节点(如图3所示，包括路口节点#2-1、路口节点#2-2和路口节点#2-3)两个节点范围内的交通状态信息，即从路口节点#0到路口节点#1(包括路口节点#1-1与路口节点#1-2)，以及路口节点#1(包括路口节点#1-1与路口节点#1-2)到路口节点#2(包括路口节点#2-1、路口节点#2-2和路口节点#2-3)对应的交通状态信息，这称之为“看两步”。根据距车辆所在路口节点的两个路口节点范围内的交通状态信息，车辆选择一个与车辆当前所在路口节点相邻的路口节点即第一路口节点范围内的路线(称之为选择的路线)并执行，这称之为“走一步”。类似地，假设车辆选择从路口节点#0到路口节点#1-1的路径行进，当车辆到达路口节点#1-1，按照本申请实施例“看两步，走一步”的动态路径规划原则，获得选择从路口节点1-1到路口节点2的路径，此时的第一路口节点包括路口节点#2-1、路口节点#2-2，第二路口节点包括路口节点#3-1、路口节点#3-2和路口节点#3-3(图3中未示出，但对于本领域技术人员是容易想到的)，就这样按照本申请实施例“看两步，走一步”的动态路径规划原则进行路径选择直至到达目的地。

如图3所示实施例中，假设节点#1-1对应最短路径如图3中路口节点#1-1至目的地的虚线所示，那么，选择路口节点#2-1为2邻接节点(即距离当前交叉口节点#0有两段路的交叉口)。同一步范围观测类似，对2邻接节点的数目以及车道上的车辆数目进行编码。在一种实施例中，考虑到交通系统的随机性，以及考虑到存在备选路径只有一条的路口节点，如图3所示实施例中，分别以路口节点#1-1和路口节点#1-2为起点，求解后续的最优路径，并依此确定二领域的两个节点和相应的两条路段，称之为选择的路线的后续路线。

在一种示例性实例中，步骤201中的将获得的交通状态信息输入预先训练好的路径规划模型，可以包括：

对获得的交通状态信息进行编码，比如车辆的车载单元可以根据观测空间构成编码获得的交通状态信息；将编码后的交通状态信息输入路径规划模型计算后得到路径信息。

本申请实施例提供的基于深度强化学习的路径规划方法，通过“看两步，走一步”的动态路径规划原则，有效地填补了相关技术中的研究空缺，提高了车辆的路径规划带来的个体车辆的收益和全局交通的收益，促进了路网内各个道路上车流的均衡性，提高了整个交通系统的效率。而且，由于本申请实施例提出的“看两步，走一步”的动态路径规划原则，可以有效解决网联自动驾驶环境内路网层面车辆群体的协同驾驶问题，因此，其为网联自动驾驶车辆的大规模、综合性应用提供了理论基础和方法。

在一种示例性实例中，本申请实施例提供的基于深度强化学习的路径规划方法，还可以包括：

根据备选路径上的车辆累计密度，通过预先设置的奖励函数评价选择出的路径的优劣程度。

在一种示例性实例中，评价选择出的路径的优劣程度可以通过计算奖励函数值来体现。

本申请实施例中，在由车辆路径规划问题构成的多智能体系统内，车辆i在t时刻只能观测到系统状态s_t的部分信息o_i,t。基于观测信息o_i,t，车辆调用共享的路径规划策略π_θ，做出路线选择：α_i,t＝π_θ(α_t|o_i,t)，其中，θ是路径规划策略π_θ的参数。车辆i执行动作α_i,t，并且到达一个新的系统观测o_i,t+1。由于路径规划是个体车辆层面的分布式、独立的决策行为，因此，本申请实施例将路径规划问题描述为一个正式的部分可观测马尔科夫决策过程(POMDP，Partially Observable Markov Decision Process)。本申请实施例中，动作α_i,t是策略π_θ根据观测信息o_i,t做出的实时的路径规划，因此，动作空间由备选路径构成，且在一般的城市路网内，在每一个路口节点，最多有两个备选的路径。这样的动作空间精简了智能体的探索难度，有利于智能体的探索与学习。

奖励r_i,t是车辆执行动作α_i,t后来自系统的反馈，该反馈可以用于引导深度强化学习智能体习得期待的路径规划性能，对于智能体的学习起着至关重要的作用。在本申请实施例中的网联自动驾驶环境内，奖励函数致力于引导智能体学习同时对个体车辆效率以及全局交通效率有益的路径规划策略。

一方面，由于路网内车辆的累积量能够捕获车辆的微观自组织行为导致的宏观路网内的聚合特性；另一方面，车辆累积量不仅直接决定了自我车辆的旅行时间，而且影响其他车辆的旅行时间，因此，在一种示例性实施例中，可以使用路网内车辆累积量作为性能度量指标来设置奖励函数，并使用反压(BP，Back-pressure)思想构建奖励函数，这样，反压函数能够基于局部可感知的交通状态信息，对路径规划的优劣做出相对的评价，即使在拥堵的路网内，如果智能体选择了更好的路径，奖励函数就会做出积极的评价。在一种实施例中，奖励函数可以如下设置：

首先，根据一条路段上的车辆累积量定义BP评价函数，如公式(1)所示：

公式(1)中，BP_j是路径j的反压值，是道路j上的车辆累计密度，幂值α决定BP值的相对区分度；其中的候选路线即备选路径。按照公式(1)，车辆累计密度最大的路段的BP值为0；其余路段的BP值为一个小于1的正值，且车辆累计密度越小，BP值越大。

在一种实施例中，对应本申请实施例中的“看两步”的原则，可以分别设置一步奖励R^one-step与两步奖励R^two-step，分别入公式(2)和公式(3)所示：

因此，奖励函数入公式(4)所示：

R＝w₁*R^one-step+w₂*R^two-step (4)

公式(4)中，w₁和w₂是权重参数，用于调节路径规划策略对于一步收益和两步收益的权衡。需要说明的是，奖励函数的延迟反映在，动作α_t对应的反压BP值，只有在车辆执行动作α_t之后，即当车辆到达对应的路段上，才能获得。虽然这样奖励值存在较大延迟，但是，本申请实施例是能够最准确的反映由于单个车辆自身的路径规划给系统带来的影响。

本申请还提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行任一项所述的基于深度强化学习的路径规划方法。

本申请再提供一种实现基于深度强化学习的路径规划的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行上述任一项所述的实现基于深度强化学习的路径规划的方法的步骤。

本申请实施例还提供一种路径规划模型的训练方法，强化学习智能体以学习到车辆之间就有限的道路资源开展高效协同的路径规划模型。在一种实施例中，可以采用性能优异的强化学习算法如柔性动作-评价(SAC，Soft Actor-Critic)算法。相比于其他强化学习算法，SAC算法通过引入熵正则化，显著提高了算法的学习效率，在很多问题上实现了最优的性能。

原始的SAC算法是面向单智能体且具有连续动作空间的问题。本申请实施例中，建立的路径规划问题是多智能体且具有离散的动作空间，因此，本申请实施例对原始的SAC算法做相应的改进，使得智能体的训练过程在经验收集和策略更新之间交替进行，如图4所示，智能体的训练过程包括：每个车辆独立地获得其观测o_t，基于共享策略π_θ做出路径决策并执行；所有的经验收集到同一个经验池，用于训练路径规划模型。需要说明的是，智能体的训练过程的具体实现并不用于限定本申请的保护范围。

在一种示例性实例中，采用SAC算法训练路径规划模型，可以包括：

在一种示例性实例中，对路径规划模型训练之后，也可以包括对路径规划模型输出的路径结果进行评价，同样可以采用公式(4)所示的奖励函数对路径结果进行评价。具体实现这里不再赘述。

本申请实施例提出了基于多智能体的深度强化学习的动态路径规划方法，有效填补了针对网联自动驾驶车辆路径规划问题的研究空缺。进一步地，本申请实施例还进一步提出了基于Back-pressure的奖励函数，实现了引导智能体学习到显著提高整个交通系统效率与稳定性的路径规划策略；同时，Back-pressure思想控制的局部性以及奖励的相对性显著增强了路径规划策略的泛化性和可扩展性。本申请实施例中提出的奖励函数不仅考虑了微观层面的单个车辆的路径规划所带来的个体收益，同时考虑了单个车辆的路径规划给整个路网交通系统宏观层面带来的全局的影响与收益，显著促进了车辆之间的协同，在微观层面减小了车辆的旅行时长，在宏观层面促进了路网的均衡性，避免了局部路网陷入拥堵。

图5为本申请实施例中用于实验评估的路网环境实施例示意图，表1统计了在一个如图5所示的3*3的路网内，本申请实施例提供的路径规划方法与相关技术中的最短路径规划算法的性能的对比结果。如表1所示，本申请实施例的方法显著减少了车辆出行的平均旅行时长，提高了整个交通系统的效率。也就是说，采用本申请实施例提出的基于多智能体的深度强化学习的路径规划方法，显著降低了车辆的出行耗时，提高了整个交通系统的效率。

表1

图6为本申请实施例中基于深度强化学习的路径规划装置的组成结构示意图，如图6所示，包括：获取模块，计算模块；其中，

在一种示例性实例中，还可以包括训练模块，用于：

在一种示例性实例中，还可以包括评价模块，用于：

根据交通状态信息中的备选路径上的车辆累计密度，通过预先设置的奖励函数评价选择出的路径或训练得到路径规划模型输出的路径的优劣程度。

本申请实施例还提供一种车辆，包括上述任一项所述的基于深度强化学习的路径规划装置。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于深度强化学习的路径规划方法，其特征在于，当车辆到达一路口节点时，包括：

2.根据权利要求1所述的路径规划方法，还包括：采用柔性动作-评价SAC算法训练所述路径规划模型。

3.根据权利要求1或2所述的路径规划方法，还包括：

4.根据权利要求3所述的路径规划方法，其中，使用路网内车辆累积量作为性能度量指标设置所述奖励函数，使用反压BP思想构建所述奖励函数。

5.根据权利要求4所述的路径规划方法，其中，所述使用反压BP思想构建所述奖励函数R，包括：

6.根据权利要求1或2所述的路径规划方法，其中，所述交通状态信息包括一步范围观测信息Ω_O与两步范围观测信息Ω_T；

7.根据权利要求6所述的路径规划方法，其中，所述一步范围观测信息Ω_O的交通状态信息包括：所述车辆所在所述路口节点的备选路径上的车辆数目，所述车辆所在所述路口节点和所述第一路口节点的车辆数目；

8.根据权利要求1或2所述的路径规划方法，其中，所述将获得的交通状态信息输入预先训练好的路径规划模型，包括：

9.一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1～权利要求8任一项所述基于深度强化学习的路径规划方法。

10.一种实现基于深度强化学习的路径规划的设备，包括存储器和处理器，其中，存储器中存储有以下可被处理器执行的指令：用于执行权利要求1～权利要求7任一项所述的实现基于深度强化学习的路径规划的方法的步骤。

11.一种基于深度强化学习的路径规划装置，其特征在于，包括：获取模块，计算模块

12.根据权利要求11所述的路径规划装置，还包括训练模块，用于：

13.根据权利要求11或12所述的路径规划装置，还包括评价模块用于：

14.一种车辆，其特征在于，包括权利要求11～权利要求13任一项所述的基于深度强化学习的路径规划装置。