CN114578834B

CN114578834B - 基于目标分层双感知域的强化学习的无人车路径规划方法

Info

Publication number: CN114578834B
Application number: CN202210495925.2A
Authority: CN
Inventors: 吕晓旭; 张钊; 杨拓; 任耘霄; 段志生
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-07-26
Anticipated expiration: 2042-05-09
Also published as: CN114578834A

Abstract

本发明公布了基于目标分层双感知域的强化学习的无人车路径规划方法，充分考虑无人车的动力学约束；通过设定子目标层级缩小地图区域的维度；通过目标分层方法使得子目标层处在安全区的中间部位；通过设置双感知域包括障碍物感知域和目标发现域减少观测输入，将障碍物感知和目标发现分开解耦；实现基于目标分层双感知域的深度强化学习的无人车路径规划。本发明方法对不同维度的地图都能够适应使用，且在训练中避免了维数灾难，计算效率高，适用性强，能够满足实时路径规划的实际需求。

Description

基于目标分层双感知域的强化学习的无人车路径规划方法

技术领域

本发明涉及机器人路径规划技术领域，特别涉及一种基于目标分层双感知域的深度强化学习的无人车路径规划方法。

背景技术

路径规划是无人车系统架构中运动决策的重要模块，是实现无人运动的重要技术。路径规划结果的好坏直接决定了无人车任务能否完成以及任务完成的质量。设计和开发满足车辆动力学约束，计算快速性，规划实时性和最优性指标的路径规划算法是路径规划面临的主要任务。近些年，路径规划的研究非常的活跃，尤其在人工智能技术取得了巨大成果的今天，如何利用人工智能技术发展和完善路径规划技术成为了重要的研究课题。

基于深度强化学习的路径规划算法已经有了一些初步的成果，但现有的路径规划算法大多是针对特定维度的地图进行强化学习路径规划。这些算法存在着如下问题：首先，当面对不同维度的地图时，由深度强化学习训练出的路径规划器不具有普适性，针对不同维度的地图，需要重新进行训练；其次，随着地图维度的增大，训练的复杂度呈现指数级增长，可能会出现维数灾难的问题；最后，还有很多的深度强化学习路径规划算法没有考虑无人车动力学约束。除此以外，传统的考虑动力学约束的路径规划算法，其算法求解时间长，不能很好的满足实时规划的要求。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于目标分层双感知域的深度强化学习路径规划方法，充分考虑了无人车的动力学约束，计算效率高，适用性强，能够满足实时路径规划的实际需求。

本发明提供的技术方案是：

一种基于目标分层双感知域的深度强化学习的无人车路径规划方法，该方法通过子目标层级的设定，减少了路径规划网络模型需要使用到的地图区域的维度；通过采用目标分层方法使得子目标层处在安全区走廊的中间部位，避免由于搜索算法使路径贴近障碍物的情形出现；通过使用障碍物感知域和目标发现域双感知域减少观测输入，将障碍物感知和目标发现分开解耦；该方法对不同维度的地图都能够适应使用，且在训练中避免了维数灾难，充分考虑了无人车的动力学约束。具体包括如下步骤：

步骤1，读取无人车行驶区域的（0，1）值二维像素地图（栅格地图），进行坐标转换和全局对齐后获得路径规划使用的世界地图，同时从世界地图中提取出障碍物位置，并获取当前无人车的位置状态和目标位置状态；

步骤2，基于步骤1的世界地图，通过使用基于图搜索的算法搜索出一条可通行路径，使用安全区扩张的方法得到沿此可通行路径的安全区走廊，根据安全区走廊使用目标分层的方法获得子目标点序列。获取子目标点序列的方法包括：

步骤2A, 基于步骤1得到的地图和无人车当前位置以及目标位置，通过使用基于图搜索的算法（如采用D*Lite算法）搜索出一条可通行路径；可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径；

步骤2B, 沿着步骤2A得到的可通行路径。围绕可通行路径中的每个路径点，产生包含此路径点的最大范围的长方形无障碍安全区；进一步形成一条由相互重叠安全区组成的安全区走廊；安全区走廊的产生方法为：

1）定义长方形安全区的四个顶点：A,B,C,D，由此得到长方形的四个边：AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置（坐标）；

2）将这四条边依次向四周扩张，检测边与障碍物的接触情况，直到扩张到障碍物边界，最终得到包含该路径点的最大无障碍物长方形安全区；

3）沿着每个路径点扩张其最大无障碍物长方形安全区，如若不同路径点对应的安全区内包含相同的路径点，只保留其中一个安全区，最终形成一条相互重叠安全区组成的安全区走廊。

安全区走廊用于子目标点序列的生成和奖励函数的定义。

步骤2C, 基于步骤2B中生成的安全区走廊，将安全区走廊中相邻安全区相互重叠部分的几何中心点作为一级子目标点，计算出由无人车的动力学约束得到的最大转弯半径

，在两个一级子目标点的连线间均匀分割出多个二级子目标点，两个二级子目标点间的距离要小于最大转弯半径；

步骤2D，将所有一级和二级子目标点顺序排列后得到总的子目标点序列。

步骤3，建立基于无人车车体动力学和动力学约束的交互环境，建立围绕无人车的障碍物感知域和目标发现域；通过障碍物感知域得到感知点阵，获得感知点阵有无障碍物的环境信息；通过目标发现域获取实际子目标点；

其中，障碍物感知域是以车后轮轴中心点P为中心、将车体包含在内的长方形区域；相对于车体前视方向分别向前、后、左、右扩张h、b、l、r长度而得到。在障碍物感知域内均匀采样一系列点。障碍物感知域用来感知无人车周围感知域内的环境信息，均匀的在障碍物感知域内采样得到感知点阵，获得感知点阵的环境信息，即有无障碍物。

目标发现域是由以车后轮轴中心点P为中心、以R为半径的圆区域；其中半径R要大于无人车最大转弯半径的1.5倍以上。基于步骤2得到的子目标点序列，目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点，将其作为无人车的实际子目标点，实际子目标点为无人车暂时行进要到达的点。在无人车不断前进过程中，目标发现域内不断的出现离目标点更近的子目标点，而实时地更新实际子目标点。

将感知点阵有无障碍物的环境信息、实际子目标点，以及无人车当前的位置状态作为建立的神经网络模型的输入

。

步骤4，基于步骤3建立无人车与环境交互的奖惩函数，建立基于目标分层的深度强化学习无人车路径规划网络模型并进行训练，得到训练好的基于目标分层的深度强化学习无人车路径规划网络模型。

通过无人车与环境交互，收集到每一轮的状态信息、动作信息和奖惩信息，利用深度确定性策略梯度DDPG算法对深度神经网络进行训练，直到完成训练。

具体实施时，基于演员评论家网络建立基于目标分层的深度强化学习无人车路径规划网络模型，输入为无人车状态

到网络模型，输出为无人车动作

,包括加速度和角加速度。通过无人车与环境交互，收集到状态信息、动作信息和奖惩信息，利用深度确定性策略梯度算法(deep deterministic policy gradient)对基于目标分层的深度强化学习深度神经网络进行训练，直到完成训练，得到训练好的基于目标分层双感知域的深度强化学习路径规划模型。

步骤5，利用训练好的深度强化学习路径规划模型，输入待规划无人车相应数据，模型输出得到规划好的平滑路径；

具体实施时，基于步骤2采用目标分层算法实现的子目标点生成模块和步骤4得到的训练好的目标分层双感知域的深度强化学习路径规划网络模型，构建目标分层双感知域的深度强化学习路径规划器，在给定栅格地图、无人车初始位置和目标位置后，输出满足动力学约束的从起始点到目标点的平滑路径。

与现有技术相比，本发明实例提供的技术方案带来的有益效果至少包括：

本发明提供的基于目标分层双感知域的深度强化学习路径规划方法具有面对不同维度地图的普适性能力，可以一次性训练后，普适性使用；该方法通过子目标层级的设定，将使用地图区域的维度缩小，这样避免了维度灾难的发生；障碍物感知域和目标发现域双感知域的使用减少了观测输入，将障碍物感知和目标发现分开解耦；目标分层方法使得子目标层处在安全区走廊的中间部位，避免了由于搜索算法使路径贴近障碍物的情形出现；该方法充分考虑了无人车车体的动力学和动力学约束，计算效率高，能够满足实时路径规划的实际需求。

附图说明

图1是本发明基于目标分层双感知域的深度强化学习路径规划方法的流程框图。

图2是本发明实施例中读取使用的（0，1）二值像素图。

图3是本发明方法实施例中采用的目标分层方法具体实施过程的示意图；

图中从起始点到目标点连接的直线为图搜索算法得到的可通行路径，与障碍物相接触的长方形框是由可通行路径扩展得到的安全区，从起始点到目标点且在安全区走廊中部的一系列点是由安全区走廊生成的一系列子目标点，以车为中心的长方形边界是障碍物感知域，以车为中心的圆是目标发现域，目标发现域内较大的正方形点为实际子目标点。

图4是本发明一种基于目标分层双感知域的深度强化学习的无人车动力学示意图；

其中，

是无人车的车后轮轴中心点

在世界坐标系

中的位置坐标，

是无人车相对于世界坐标系原点的方位角，

代表车轮的转向角；

分别代表前后轮之间的轮轴距，车宽，前悬长度，后悬长度。

图5为本发明具体实施采用的深度强化学习方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供的技术方案是一种基于目标分层双感知域的深度强化学习路径规划方法，该方法通过子目标层级的设定，将使用地图区域的维度缩小；通过采用目标分层方法使得子目标层处在安全区走廊的中间部位，避免由于搜索算法使路径贴近障碍物的情形出现；通过使用障碍物感知域和目标发现域双感知域减少观测输入，将障碍物感知和目标发现分开解耦；该方法对不同维度的地图都能够适应使用，且在训练中避免了维数灾难，充分考虑了无人车的动力学约束。图1所示是本发明基于目标分层双感知域的深度强化学习路径规划方法的流程，对于可多种途径获取的无人车行驶区域的二维像素地图，基于目标分层双感知域的深度强化学习无人车路径规划的具体实施包括如下步骤：

步骤1，使用OpenCV读取如图2所示的无人车行驶区域的（0，1）值二维像素地图，进行坐标转换和全局对齐后获得路径规划使用的世界地图，同时从二维像素地图中提取到其中黑色块的位置，即障碍物位置。除了输入作为路径规划使用的地图，还需要给出无人车当前的位置状态和无人车目标的位置状态。将无人车的状态定义为

，控制量定义为动作

，如图3所示，其中，

是无人车的车后轮轴中心点

在世界坐标系中的位置坐标，

是无人车相对于世界坐标系原点的方位角，

是车在后轮轴中心处的速度，

代表相应的角速度，

代表车轮的转向角，

代表车辆的加速度，

代表车辆的角加速度。

步骤2，图3示意了本发明方法采用的目标分层方法具体实施过程，基于步骤1获取的无人车当前位置状态和无人车目标位置状态信息，通过使用基于图搜索的D*Lite算法搜索出一条可通行路径，再使用安全区扩张的方法得到沿此可通行路径的安全区走廊，根据安全区走廊获得子目标点序列，获取子目标点序列的方法详述如下：

步骤A, 基于步骤1得到的世界地图和无人车当前位置以及目标位置，通过使用基于图搜索的D*Lite算法搜索出一条可通行路径，可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径；如图3中连接起始点和目标点间的线；

步骤B,根据可通行路径，生成包含路径点的最大无障碍物长方形安全区，进一步形成一条相互重叠安全区组成的走廊形式的安全区，即安全区走廊；

沿着步骤2A得到的可通行路径。围绕可通行路径中的每个路径点，产生包含此路径点的最大范围的长方形无障碍安全区；进一步形成一条相互重叠安全区组成的安全区走廊；安全区走廊的产生方法为：

3）沿着每个路径点扩张其最大无障碍物长方形安全区，如若不同路径点对应的安全区内包含相同的路径点，只保留其中一个安全区，最终形成一条相互重叠安全区组成的安全区走廊。安全区走廊如图3中与障碍物边界相接的多个长方形区域；

安全区走廊用于子目标点序列的生成和奖励函数的定义。

步骤C, 基于步骤B中生成的安全区走廊，将安全区走廊中相邻安全区相互重叠部分的中心点作为一级子目标点，计算出由无人车的动力学约束得到的最大转弯半径

，在两个一级子目标点连线间均匀分割出多个二级子目标点，两个二级子目标点间的距离要小于最大转弯半径；无人车的最大转弯半径为

，其中，

为前后轮之间的轮轴距；

为车轮的最大转向角；tan为正切函数。

步骤D, 基于步骤C，将所有一级和二级子目标点顺序排列后，得到总的子目标点序列。

步骤3，建立基于无人车车体动力学和动力学约束的交互环境，建立围绕无人车的障碍物感知域和目标发现域。

如图3所示，图中围绕无人车的长方形区域为障碍物感知域，围绕无人车的圆形区域为无人车的目标发现域。如图4所示，图中为无人车的动力学模型的示意图。

步骤31，建立基于无人车车体动力学和动力学约束的交互环境；包括：

步骤311，将如下无人车车体动力学写入无人车交互环境，表示为：

其中，t是离散的时间步, dt是微小的时间改变量，t+1是t时间步的下一个时间步，tan是正切函数，

表示时间步上界；

是无人车的车后轮轴中心点P在世界坐标系中的位置坐标，

是无人车相对于世界坐标系原点的方位角，

是车在后轮轴中心处的速度，

代表相应的角速度，

代表车轮的转向角，

代表无人车相应的加速度，

代表无人车的角加速度。然后使用

分别代表前后轮之间的轮轴距，车宽，前悬长度，后悬长度；cos为余弦函数；sin为正弦函数。

步骤312，进一步将如下的无人车动力学约束加入到环境中：

和

其中，下标

和

代表对应状态量的最小值和最大值限制，下标

和

代表对应状态量的初始值和目标值；（0）表示相应状态量的时间步为0，代表初始时刻；（

）表示相应状态量的时间步为

，代表到达目标时刻。

步骤32，设定障碍物感知域和目标发现域；通过障碍物感知域得到感知点阵，获得感知点阵有无障碍物的环境信息；通过目标发现域获取实际子目标点；

其中，障碍物感知域用来感知无人车周围感知域内的环境信息，均匀的在障碍物感知域内采样得到感知点阵，获得感知点阵的环境信息，即有无障碍物。将这些点阵的信息作为深度神经网络的输入，见步骤4；

目标发现域是：基于步骤2得到的子目标点序列，目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点，将其作为无人车的实际子目标点，实际子目标点为无人车暂时行进要到达的点。在无人车不断前进过程中，目标发现域内不断的出现离目标点更近的子目标点，而实时地更新实际子目标点。目标发现域得到的实际子目标点将作为深度神经网络的输入，见步骤4。

得到障碍物感知域和目标发现域的具体操作如下：

障碍物感知域定义：由以车后轮轴中心点P为中心，将车体包含在内的长方形区域组成，相对于车体前视方向分别向前、后、左、右扩张h、b、l、r长度，具体实施时，扩张长度可以由障碍物感知域包含车体后，由车体向外扩张1米到3米，在障碍物感知域内均匀采样一系列点。

目标发现域定义：由以车后轮轴中心点P为中心，以R为半径的圆区域组成，其中半径R要大于无人车最大转弯半径的1.5倍以上，可以超过此值，但是不宜超出过多。目标发现域用来在无人车不断向前的过程中发现此域内的子目标点，选取最靠近最终目标点的子目标点为实际子目标点。

步骤4，建立无人车与环境交互的奖惩函数和基于目标分层的深度强化学习神经网络模型。

步骤41，建立无人车与环境交互的奖惩函数：

奖惩函数定义为:

其中，

为靠近目标奖惩，

为到达目标奖惩，

为无人车朝向奖惩,

为无人车碰撞奖惩，

为无人车与障碍物距离奖惩，

为加权因子。各个奖惩函数表示如下：

其中，

为无人车的实际子目标点位置，

是无人车到实际子目标点的距离，

是判定无人车是否到达实际子目标点的范围,

是无人车距离最近障碍物的距离，

是判定无人车碰是否撞到障碍物的范围，

是障碍物奖惩的作用阈值范围，

是增益常量，

是取余符号；arctan为反正切函数；

为圆周率。

步骤42，建立基于目标分层的深度神经网络模型：

如图5所示，采用演员评论家（Actor-Critic）网络建立无人车路径规划的深度强化学习框架。输入状态

到演员评论家网络，输出无人车动作

,包含加速度

和角加速度

，通过无人车与环境交互，收集到状态信息、动作信息和奖惩信息（状态、动作和奖惩值），利用深度确定性策略梯度算法(deep deterministic policy gradient)对基于目标分层双感知域的深度强化学习深度神经网络进行训练，直到完成训练，得到训练好的模型。

深度神经网络采用全连接网络，ReLU激活函数，神经网络的层数由感知点阵的多少决定。本发明具体实施时，输入层维数设定为22，输出层维数为2，隐藏层维数为[512,218,218,218]。

具体实施时，将基于步骤4得到的训练好的深度强化学习路径规划网络模型和基于步骤2采用目标分层算法实现的子目标点生成模块，得到训练好的基于目标分层双感知域的深度强化学习路径规划器。针对待规划路径的无人车行驶环境地图、无人车初始位置和目标位置，通过基于目标分层双感知域的深度强化学习路径规划器，输出满足动力学约束的从起始点到目标点的平滑路径。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于目标分层双感知域的强化学习的无人车路径规划方法，其特征是，考虑无人车的动力学约束；通过设定子目标层级缩小用于路径规划的地图区域的维度；通过目标分层方法使得子目标层处在安全区走廊的中间部位；通过设置双感知域包括障碍物感知域和目标发现域，将障碍物感知和目标发现分开解耦；由此建立基于目标分层的深度强化学习无人车路径规划网络模型，实现基于目标分层双感知域的深度强化学习的无人车路径规划；包括如下步骤：

步骤1，读取无人车行驶区域的二维像素地图，进行坐标转换和全局对齐后获得用于路径规划的世界地图；从世界地图中提取出障碍物位置，并获取当前无人车的位置状态和目标位置状态；

步骤2，根据世界地图搜索得到一条可通行路径，进一步得到沿所述可通行路径的安全区走廊，根据安全区走廊，再使用目标分层方法获得子目标点序列；

所述安全区走廊用于子目标点序列的生成和奖励函数的定义；所述子目标点序列包括所有一级子目标点和二级子目标点；安全区走廊内相邻安全区的相互重叠部分的几何中心点为一级子目标点；在两个一级子目标点的连线间均匀分割出多个二级子目标点，两个二级子目标点间的距离要小于无人车的最大转弯半径；

步骤3，建立基于无人车车体动力学和动力学约束的交互环境，建立围绕无人车的障碍物感知域和目标发现域；

建立基于无人车车体动力学和动力学约束的交互环境；包括：

无人车的状态定义为

；无人车的动作定义为

；

步骤311，将无人车车体动力学写入无人车交互环境，表示为：

其中，

是无人车的车后轮轴中心点P在世界坐标系中的位置坐标，

是无人车相对于世界坐标系原点的方位角，

是车在后轮轴中心处的速度，

代表相应的角速度，

代表车轮的转向角，

代表无人车相应的加速度，

代表无人车的角加速度；

分别代表前后轮之间的轮轴距，车宽，前悬长度，后悬长度；t是离散的时间步，dt是时间改变量，t+1是t时间步的下一个时间步，tan是正切函数，

表示时间步上界；cos为余弦函数；sin为正弦函数；

步骤312，进一步将无人车动力学约束加入到环境中，表示为：

和

其中，下标

和

代表对应状态量的最小值和最大值限制，下标

和

）表示相应状态量的时间步为

，代表到达目标时刻；

通过障碍物感知域得到感知点阵，获得感知点阵的环境信息，即有无障碍物；

通过目标发现域获取实际子目标点；目标发现域是由以车后轮轴中心点P为中心、以R为半径的圆区域；其中R要大于无人车最大转弯半径的1.5倍以上；基于步骤2得到的子目标点序列，目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点，将其作为无人车的实际子目标点，实际子目标点为无人车暂时行进要到达的点；在无人车不断前进过程中，根据目标发现域内不断的出现离目标点更近的子目标点，实时地更新实际子目标点；

步骤4，建立无人车与环境交互的奖惩函数，建立基于目标分层的深度强化学习无人车路径规划网络模型并进行训练；

无人车与环境交互的奖惩函数定义为: