CN114578834B - 基于目标分层双感知域的强化学习的无人车路径规划方法 - Google Patents

基于目标分层双感知域的强化学习的无人车路径规划方法 Download PDF

Info

Publication number
CN114578834B
CN114578834B CN202210495925.2A CN202210495925A CN114578834B CN 114578834 B CN114578834 B CN 114578834B CN 202210495925 A CN202210495925 A CN 202210495925A CN 114578834 B CN114578834 B CN 114578834B
Authority
CN
China
Prior art keywords
target
unmanned vehicle
sub
point
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210495925.2A
Other languages
English (en)
Other versions
CN114578834A (zh
Inventor
吕晓旭
张钊
杨拓
任耘霄
段志生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202210495925.2A priority Critical patent/CN114578834B/zh
Publication of CN114578834A publication Critical patent/CN114578834A/zh
Application granted granted Critical
Publication of CN114578834B publication Critical patent/CN114578834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0214Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公布了基于目标分层双感知域的强化学习的无人车路径规划方法,充分考虑无人车的动力学约束;通过设定子目标层级缩小地图区域的维度;通过目标分层方法使得子目标层处在安全区的中间部位;通过设置双感知域包括障碍物感知域和目标发现域减少观测输入,将障碍物感知和目标发现分开解耦;实现基于目标分层双感知域的深度强化学习的无人车路径规划。本发明方法对不同维度的地图都能够适应使用,且在训练中避免了维数灾难,计算效率高,适用性强,能够满足实时路径规划的实际需求。

Description

基于目标分层双感知域的强化学习的无人车路径规划方法
技术领域
本发明涉及机器人路径规划技术领域,特别涉及一种基于目标分层双感知域的深度强化学习的无人车路径规划方法。
背景技术
路径规划是无人车系统架构中运动决策的重要模块,是实现无人运动的重要技术。路径规划结果的好坏直接决定了无人车任务能否完成以及任务完成的质量。设计和开发满足车辆动力学约束,计算快速性,规划实时性和最优性指标的路径规划算法是路径规划面临的主要任务。近些年,路径规划的研究非常的活跃,尤其在人工智能技术取得了巨大成果的今天,如何利用人工智能技术发展和完善路径规划技术成为了重要的研究课题。
基于深度强化学习的路径规划算法已经有了一些初步的成果,但现有的路径规划算法大多是针对特定维度的地图进行强化学习路径规划。这些算法存在着如下问题:首先,当面对不同维度的地图时,由深度强化学习训练出的路径规划器不具有普适性,针对不同维度的地图,需要重新进行训练;其次,随着地图维度的增大,训练的复杂度呈现指数级增长,可能会出现维数灾难的问题;最后,还有很多的深度强化学习路径规划算法没有考虑无人车动力学约束。除此以外,传统的考虑动力学约束的路径规划算法,其算法求解时间长,不能很好的满足实时规划的要求。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于目标分层双感知域的深度强化学习路径规划方法,充分考虑了无人车的动力学约束,计算效率高,适用性强,能够满足实时路径规划的实际需求。
本发明提供的技术方案是:
一种基于目标分层双感知域的深度强化学习的无人车路径规划方法,该方法通过子目标层级的设定,减少了路径规划网络模型需要使用到的地图区域的维度;通过采用目标分层方法使得子目标层处在安全区走廊的中间部位,避免由于搜索算法使路径贴近障碍物的情形出现;通过使用障碍物感知域和目标发现域双感知域减少观测输入,将障碍物感知和目标发现分开解耦;该方法对不同维度的地图都能够适应使用,且在训练中避免了维数灾难,充分考虑了无人车的动力学约束。具体包括如下步骤:
步骤1,读取无人车行驶区域的(0,1)值二维像素地图(栅格地图),进行坐标转换和全局对齐后获得路径规划使用的世界地图,同时从世界地图中提取出障碍物位置,并获取当前无人车的位置状态和目标位置状态;
步骤2,基于步骤1的世界地图,通过使用基于图搜索的算法搜索出一条可通行路径,使用安全区扩张的方法得到沿此可通行路径的安全区走廊,根据安全区走廊使用目标分层的方法获得子目标点序列。获取子目标点序列的方法包括:
步骤2A, 基于步骤1得到的地图和无人车当前位置以及目标位置,通过使用基于图搜索的算法(如采用D*Lite算法)搜索出一条可通行路径;可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径;
步骤2B, 沿着步骤2A得到的可通行路径。围绕可通行路径中的每个路径点,产生包含此路径点的最大范围的长方形无障碍安全区;进一步形成一条由相互重叠安全区组成的安全区走廊;安全区走廊的产生方法为:
1)定义长方形安全区的四个顶点:A,B,C,D,由此得到长方形的四个边:AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置(坐标);
2)将这四条边依次向四周扩张,检测边与障碍物的接触情况,直到扩张到障碍物边界,最终得到包含该路径点的最大无障碍物长方形安全区;
3)沿着每个路径点扩张其最大无障碍物长方形安全区,如若不同路径点对应的安全区内包含相同的路径点,只保留其中一个安全区,最终形成一条相互重叠安全区组成的安全区走廊。
安全区走廊用于子目标点序列的生成和奖励函数的定义。
步骤2C, 基于步骤2B中生成的安全区走廊,将安全区走廊中相邻安全区相互重叠部分的几何中心点作为一级子目标点,计算出由无人车的动力学约束得到的最大转弯半径
Figure 927103DEST_PATH_IMAGE001
,在两个一级子目标点的连线间均匀分割出多个二级子目标点,两个二级子目标点间的距离要小于最大转弯半径;
步骤2D,将所有一级和二级子目标点顺序排列后得到总的子目标点序列。
步骤3,建立基于无人车车体动力学和动力学约束的交互环境,建立围绕无人车的障碍物感知域和目标发现域;通过障碍物感知域得到感知点阵,获得感知点阵有无障碍物的环境信息;通过目标发现域获取实际子目标点;
其中,障碍物感知域是以车后轮轴中心点P为中心、将车体包含在内的长方形区域;相对于车体前视方向分别向前、后、左、右扩张h、b、l、r长度而得到。在障碍物感知域内均匀采样一系列点。障碍物感知域用来感知无人车周围感知域内的环境信息,均匀的在障碍物感知域内采样得到感知点阵,获得感知点阵的环境信息,即有无障碍物。
目标发现域是由以车后轮轴中心点P为中心、以R为半径的圆区域;其中半径R要大于无人车最大转弯半径的1.5倍以上。基于步骤2得到的子目标点序列,目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点,将其作为无人车的实际子目标点,实际子目标点为无人车暂时行进要到达的点。在无人车不断前进过程中,目标发现域内不断的出现离目标点更近的子目标点,而实时地更新实际子目标点。
将感知点阵有无障碍物的环境信息、实际子目标点,以及无人车当前的位置状态作为建立的神经网络模型的输入
Figure 534802DEST_PATH_IMAGE002
步骤4,基于步骤3建立无人车与环境交互的奖惩函数,建立基于目标分层的深度强化学习无人车路径规划网络模型并进行训练,得到训练好的基于目标分层的深度强化学习无人车路径规划网络模型。
通过无人车与环境交互,收集到每一轮的状态信息、动作信息和奖惩信息,利用深度确定性策略梯度DDPG算法对深度神经网络进行训练,直到完成训练。
具体实施时,基于演员评论家网络建立基于目标分层的深度强化学习无人车路径规划网络模型,输入为无人车状态
Figure 446127DEST_PATH_IMAGE003
到网络模型,输出为无人车动作
Figure 695842DEST_PATH_IMAGE004
,包括加速度和角加速度。通过无人车与环境交互,收集到状态信息、动作信息和奖惩信息,利用深度确定性策略梯度算法(deep deterministic policy gradient)对基于目标分层的深度强化学习深度神经网络进行训练,直到完成训练,得到训练好的基于目标分层双感知域的深度强化学习路径规划模型。
步骤5,利用训练好的深度强化学习路径规划模型,输入待规划无人车相应数据,模型输出得到规划好的平滑路径;
具体实施时,基于步骤2采用目标分层算法实现的子目标点生成模块和步骤4得到的训练好的目标分层双感知域的深度强化学习路径规划网络模型,构建目标分层双感知域的深度强化学习路径规划器,在给定栅格地图、无人车初始位置和目标位置后,输出满足动力学约束的从起始点到目标点的平滑路径。
与现有技术相比,本发明实例提供的技术方案带来的有益效果至少包括:
本发明提供的基于目标分层双感知域的深度强化学习路径规划方法具有面对不同维度地图的普适性能力,可以一次性训练后,普适性使用;该方法通过子目标层级的设定,将使用地图区域的维度缩小,这样避免了维度灾难的发生;障碍物感知域和目标发现域双感知域的使用减少了观测输入,将障碍物感知和目标发现分开解耦;目标分层方法使得子目标层处在安全区走廊的中间部位,避免了由于搜索算法使路径贴近障碍物的情形出现;该方法充分考虑了无人车车体的动力学和动力学约束,计算效率高,能够满足实时路径规划的实际需求。
附图说明
图1是本发明基于目标分层双感知域的深度强化学习路径规划方法的流程框图。
图2是本发明实施例中读取使用的(0,1)二值像素图。
图3是本发明方法实施例中采用的目标分层方法具体实施过程的示意图;
图中从起始点到目标点连接的直线为图搜索算法得到的可通行路径,与障碍物相接触的长方形框是由可通行路径扩展得到的安全区,从起始点到目标点且在安全区走廊中部的一系列点是由安全区走廊生成的一系列子目标点,以车为中心的长方形边界是障碍物感知域,以车为中心的圆是目标发现域,目标发现域内较大的正方形点为实际子目标点。
图4是本发明一种基于目标分层双感知域的深度强化学习的无人车动力学示意图;
其中,
Figure 261209DEST_PATH_IMAGE005
是无人车的车后轮轴中心点
Figure 39809DEST_PATH_IMAGE006
在世界坐标系
Figure 110534DEST_PATH_IMAGE007
中的位置坐标,
Figure 491836DEST_PATH_IMAGE008
是无人车相对于世界坐标系原点的方位角,
Figure 331616DEST_PATH_IMAGE009
代表车轮的转向角;
Figure 156484DEST_PATH_IMAGE010
分别代表前后轮之间的轮轴距,车宽,前悬长度,后悬长度。
图5为本发明具体实施采用的深度强化学习方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供的技术方案是一种基于目标分层双感知域的深度强化学习路径规划方法,该方法通过子目标层级的设定,将使用地图区域的维度缩小;通过采用目标分层方法使得子目标层处在安全区走廊的中间部位,避免由于搜索算法使路径贴近障碍物的情形出现;通过使用障碍物感知域和目标发现域双感知域减少观测输入,将障碍物感知和目标发现分开解耦;该方法对不同维度的地图都能够适应使用,且在训练中避免了维数灾难,充分考虑了无人车的动力学约束。图1所示是本发明基于目标分层双感知域的深度强化学习路径规划方法的流程,对于可多种途径获取的无人车行驶区域的二维像素地图,基于目标分层双感知域的深度强化学习无人车路径规划的具体实施包括如下步骤:
步骤1,使用OpenCV读取如图2所示的无人车行驶区域的(0,1)值二维像素地图,进行坐标转换和全局对齐后获得路径规划使用的世界地图,同时从二维像素地图中提取到其中黑色块的位置,即障碍物位置。除了输入作为路径规划使用的地图,还需要给出无人车当前的位置状态和无人车目标的位置状态。将无人车的状态定义为
Figure 448925DEST_PATH_IMAGE011
,控制量定义为动作
Figure 306023DEST_PATH_IMAGE012
,如图3所示,其中,
Figure 203571DEST_PATH_IMAGE013
是无人车的车后轮轴中心点
Figure 855133DEST_PATH_IMAGE014
在世界坐标系中的位置坐标,
Figure 493924DEST_PATH_IMAGE015
是无人车相对于世界坐标系原点的方位角,
Figure 889134DEST_PATH_IMAGE016
是车在后轮轴中心处的速度,
Figure 15090DEST_PATH_IMAGE017
代表相应的角速度,
Figure 103132DEST_PATH_IMAGE018
代表车轮的转向角,
Figure 370165DEST_PATH_IMAGE019
代表车辆的加速度,
Figure 772328DEST_PATH_IMAGE020
代表车辆的角加速度。
步骤2,图3示意了本发明方法采用的目标分层方法具体实施过程,基于步骤1获取的无人车当前位置状态和无人车目标位置状态信息,通过使用基于图搜索的D*Lite算法搜索出一条可通行路径,再使用安全区扩张的方法得到沿此可通行路径的安全区走廊,根据安全区走廊获得子目标点序列,获取子目标点序列的方法详述如下:
步骤A, 基于步骤1得到的世界地图和无人车当前位置以及目标位置,通过使用基于图搜索的D*Lite算法搜索出一条可通行路径,可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径;如图3中连接起始点和目标点间的线;
步骤B,根据可通行路径,生成包含路径点的最大无障碍物长方形安全区,进一步形成一条相互重叠安全区组成的走廊形式的安全区,即安全区走廊;
沿着步骤2A得到的可通行路径。围绕可通行路径中的每个路径点,产生包含此路径点的最大范围的长方形无障碍安全区;进一步形成一条相互重叠安全区组成的安全区走廊;安全区走廊的产生方法为:
1)定义长方形安全区的四个顶点:A,B,C,D,由此得到长方形的四个边:AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置(坐标);
2)将这四条边依次向四周扩张,检测边与障碍物的接触情况,直到扩张到障碍物边界,最终得到包含该路径点的最大无障碍物长方形安全区;
3)沿着每个路径点扩张其最大无障碍物长方形安全区,如若不同路径点对应的安全区内包含相同的路径点,只保留其中一个安全区,最终形成一条相互重叠安全区组成的安全区走廊。安全区走廊如图3中与障碍物边界相接的多个长方形区域;
安全区走廊用于子目标点序列的生成和奖励函数的定义。
步骤C, 基于步骤B中生成的安全区走廊,将安全区走廊中相邻安全区相互重叠部分的中心点作为一级子目标点,计算出由无人车的动力学约束得到的最大转弯半径
Figure 441207DEST_PATH_IMAGE021
,在两个一级子目标点连线间均匀分割出多个二级子目标点,两个二级子目标点间的距离要小于最大转弯半径;无人车的最大转弯半径为
Figure 28046DEST_PATH_IMAGE022
,其中,
Figure 516796DEST_PATH_IMAGE023
为前后轮之间的轮轴距;
Figure 598016DEST_PATH_IMAGE024
为车轮的最大转向角;tan为正切函数。
步骤D, 基于步骤C,将所有一级和二级子目标点顺序排列后,得到总的子目标点序列。
步骤3,建立基于无人车车体动力学和动力学约束的交互环境,建立围绕无人车的障碍物感知域和目标发现域。
如图3所示,图中围绕无人车的长方形区域为障碍物感知域,围绕无人车的圆形区域为无人车的目标发现域。如图4所示,图中为无人车的动力学模型的示意图。
步骤31,建立基于无人车车体动力学和动力学约束的交互环境;包括:
步骤311,将如下无人车车体动力学写入无人车交互环境,表示为:
Figure 121401DEST_PATH_IMAGE025
其中,t是离散的时间步, dt是微小的时间改变量,t+1是t时间步的下一个时间步,tan是正切函数,
Figure 285666DEST_PATH_IMAGE026
表示时间步上界;
Figure 996133DEST_PATH_IMAGE027
是无人车的车后轮轴中心点P在世界坐标系中的位置坐标,
Figure 536836DEST_PATH_IMAGE028
是无人车相对于世界坐标系原点的方位角,
Figure 242624DEST_PATH_IMAGE029
是车在后轮轴中心处的速度,
Figure 843369DEST_PATH_IMAGE030
代表相应的角速度,
Figure 775553DEST_PATH_IMAGE031
代表车轮的转向角,
Figure 119947DEST_PATH_IMAGE032
代表无人车相应的加速度,
Figure 617924DEST_PATH_IMAGE033
代表无人车的角加速度。然后使用
Figure 528304DEST_PATH_IMAGE034
分别代表前后轮之间的轮轴距,车宽,前悬长度,后悬长度;cos为余弦函数;sin为正弦函数。
步骤312,进一步将如下的无人车动力学约束加入到环境中:
Figure 744522DEST_PATH_IMAGE035
Figure 220502DEST_PATH_IMAGE036
其中,下标
Figure 572986DEST_PATH_IMAGE037
Figure 453218DEST_PATH_IMAGE038
代表对应状态量的最小值和最大值限制,下标
Figure 891152DEST_PATH_IMAGE039
Figure 577348DEST_PATH_IMAGE040
代表对应状态量的初始值和目标值;(0)表示相应状态量的时间步为0,代表初始时刻;(
Figure 128547DEST_PATH_IMAGE041
)表示相应状态量的时间步为
Figure 241996DEST_PATH_IMAGE042
,代表到达目标时刻。
步骤32,设定障碍物感知域和目标发现域;通过障碍物感知域得到感知点阵,获得感知点阵有无障碍物的环境信息;通过目标发现域获取实际子目标点;
其中,障碍物感知域用来感知无人车周围感知域内的环境信息,均匀的在障碍物感知域内采样得到感知点阵,获得感知点阵的环境信息,即有无障碍物。将这些点阵的信息作为深度神经网络的输入,见步骤4;
目标发现域是:基于步骤2得到的子目标点序列,目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点,将其作为无人车的实际子目标点,实际子目标点为无人车暂时行进要到达的点。在无人车不断前进过程中,目标发现域内不断的出现离目标点更近的子目标点,而实时地更新实际子目标点。目标发现域得到的实际子目标点将作为深度神经网络的输入,见步骤4。
得到障碍物感知域和目标发现域的具体操作如下:
障碍物感知域定义:由以车后轮轴中心点P为中心,将车体包含在内的长方形区域组成,相对于车体前视方向分别向前、后、左、右扩张h、b、l、r长度,具体实施时,扩张长度可以由障碍物感知域包含车体后,由车体向外扩张1米到3米,在障碍物感知域内均匀采样一系列点。
目标发现域定义:由以车后轮轴中心点P为中心,以R为半径的圆区域组成,其中半径R要大于无人车最大转弯半径的1.5倍以上,可以超过此值,但是不宜超出过多。目标发现域用来在无人车不断向前的过程中发现此域内的子目标点,选取最靠近最终目标点的子目标点为实际子目标点。
步骤4,建立无人车与环境交互的奖惩函数和基于目标分层的深度强化学习神经网络模型。
步骤41,建立无人车与环境交互的奖惩函数:
奖惩函数定义为:
Figure 495123DEST_PATH_IMAGE043
其中,
Figure 719431DEST_PATH_IMAGE044
为靠近目标奖惩,
Figure 249769DEST_PATH_IMAGE045
为到达目标奖惩,
Figure 534120DEST_PATH_IMAGE046
为无人车朝向奖惩,
Figure 681068DEST_PATH_IMAGE047
为无人车碰撞奖惩,
Figure 551810DEST_PATH_IMAGE048
为无人车与障碍物距离奖惩,
Figure 733392DEST_PATH_IMAGE049
为加权因子。各个奖惩函数表示如下:
Figure 516540DEST_PATH_IMAGE050
Figure 416363DEST_PATH_IMAGE051
其中,
Figure 982474DEST_PATH_IMAGE052
为无人车的实际子目标点位置,
Figure 487405DEST_PATH_IMAGE053
是无人车到实际子目标点的距离,
Figure 113558DEST_PATH_IMAGE054
是判定无人车是否到达实际子目标点的范围,
Figure 313726DEST_PATH_IMAGE055
是无人车距离最近障碍物的距离,
Figure 683528DEST_PATH_IMAGE056
是判定无人车碰是否撞到障碍物的范围,
Figure 308544DEST_PATH_IMAGE057
是障碍物奖惩的作用阈值范围,
Figure 105599DEST_PATH_IMAGE058
是增益常量,
Figure 714435DEST_PATH_IMAGE059
是取余符号;arctan为反正切函数;
Figure 950244DEST_PATH_IMAGE060
为圆周率。
步骤42,建立基于目标分层的深度神经网络模型:
如图5所示,采用演员评论家(Actor-Critic)网络建立无人车路径规划的深度强化学习框架。输入状态
Figure 960925DEST_PATH_IMAGE061
到演员评论家网络,输出无人车动作
Figure 508975DEST_PATH_IMAGE062
,包含加速度
Figure 605107DEST_PATH_IMAGE063
和角加速度
Figure 785552DEST_PATH_IMAGE064
,通过无人车与环境交互,收集到状态信息、动作信息和奖惩信息(状态、动作和奖惩值),利用深度确定性策略梯度算法(deep deterministic policy gradient)对基于目标分层双感知域的深度强化学习深度神经网络进行训练,直到完成训练,得到训练好的模型。
深度神经网络采用全连接网络,ReLU激活函数,神经网络的层数由感知点阵的多少决定。本发明具体实施时,输入层维数设定为22,输出层维数为2,隐藏层维数为[512,218,218,218]。
步骤5,利用训练好的深度强化学习路径规划模型,输入待规划无人车相应数据,模型输出得到规划好的平滑路径;
具体实施时,将基于步骤4得到的训练好的深度强化学习路径规划网络模型和基于步骤2采用目标分层算法实现的子目标点生成模块,得到训练好的基于目标分层双感知域的深度强化学习路径规划器。针对待规划路径的无人车行驶环境地图、无人车初始位置和目标位置,通过基于目标分层双感知域的深度强化学习路径规划器,输出满足动力学约束的从起始点到目标点的平滑路径。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (7)

1.一种基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,考虑无人车的动力学约束;通过设定子目标层级缩小用于路径规划的地图区域的维度;通过目标分层方法使得子目标层处在安全区走廊的中间部位;通过设置双感知域包括障碍物感知域和目标发现域,将障碍物感知和目标发现分开解耦;由此建立基于目标分层的深度强化学习无人车路径规划网络模型,实现基于目标分层双感知域的深度强化学习的无人车路径规划;包括如下步骤:
步骤1,读取无人车行驶区域的二维像素地图,进行坐标转换和全局对齐后获得用于路径规划的世界地图;从世界地图中提取出障碍物位置,并获取当前无人车的位置状态和目标位置状态;
步骤2,根据世界地图搜索得到一条可通行路径,进一步得到沿所述可通行路径的安全区走廊,根据安全区走廊,再使用目标分层方法获得子目标点序列;
所述安全区走廊用于子目标点序列的生成和奖励函数的定义;所述子目标点序列包括所有一级子目标点和二级子目标点;安全区走廊内相邻安全区的相互重叠部分的几何中心点为一级子目标点;在两个一级子目标点的连线间均匀分割出多个二级子目标点,两个二级子目标点间的距离要小于无人车的最大转弯半径;
步骤3,建立基于无人车车体动力学和动力学约束的交互环境,建立围绕无人车的障碍物感知域和目标发现域;
建立基于无人车车体动力学和动力学约束的交互环境;包括:
无人车的状态定义为
Figure 930172DEST_PATH_IMAGE001
;无人车的动作定义为
Figure DEST_PATH_IMAGE002
步骤311,将无人车车体动力学写入无人车交互环境,表示为:
Figure 191520DEST_PATH_IMAGE003
其中,
Figure DEST_PATH_IMAGE004
是无人车的车后轮轴中心点P在世界坐标系中的位置坐标,
Figure 767995DEST_PATH_IMAGE005
是无人车相对于世界坐标系原点的方位角,
Figure DEST_PATH_IMAGE006
是车在后轮轴中心处的速度,
Figure 632046DEST_PATH_IMAGE007
代表相应的角速度,
Figure DEST_PATH_IMAGE008
代表车轮的转向角,
Figure 56205DEST_PATH_IMAGE009
代表无人车相应的加速度,
Figure DEST_PATH_IMAGE010
代表无人车的角加速度;
Figure 940985DEST_PATH_IMAGE011
分别代表前后轮之间的轮轴距,车宽,前悬长度,后悬长度;t是离散的时间步,dt是时间改变量,t+1是t时间步的下一个时间步,tan是正切函数,
Figure DEST_PATH_IMAGE012
表示时间步上界;cos为余弦函数;sin为正弦函数;
步骤312,进一步将无人车动力学约束加入到环境中,表示为:
Figure 752558DEST_PATH_IMAGE013
Figure DEST_PATH_IMAGE014
其中,下标
Figure 685879DEST_PATH_IMAGE015
Figure DEST_PATH_IMAGE016
代表对应状态量的最小值和最大值限制,下标
Figure 948233DEST_PATH_IMAGE017
Figure DEST_PATH_IMAGE018
代表对应状态量的初始值和目标值;(0)表示相应状态量的时间步为0,代表初始时刻;(
Figure 410439DEST_PATH_IMAGE019
)表示相应状态量的时间步为
Figure DEST_PATH_IMAGE020
,代表到达目标时刻;
通过障碍物感知域得到感知点阵,获得感知点阵的环境信息,即有无障碍物;
通过目标发现域获取实际子目标点;目标发现域是由以车后轮轴中心点P为中心、以R为半径的圆区域;其中R要大于无人车最大转弯半径的1.5倍以上; 基于步骤2得到的子目标点序列,目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点,将其作为无人车的实际子目标点,实际子目标点为无人车暂时行进要到达的点;在无人车不断前进过程中,根据目标发现域内不断的出现离目标点更近的子目标点,实时地更新实际子目标点;
步骤4,建立无人车与环境交互的奖惩函数,建立基于目标分层的深度强化学习无人车路径规划网络模型并进行训练;
无人车与环境交互的奖惩函数定义为:
Figure 712238DEST_PATH_IMAGE021
其中,
Figure DEST_PATH_IMAGE022
为靠近目标奖惩,
Figure 308305DEST_PATH_IMAGE023
为到达目标奖惩,
Figure DEST_PATH_IMAGE024
为无人车朝向奖惩,
Figure 300531DEST_PATH_IMAGE025
为无人车碰撞奖惩,
Figure DEST_PATH_IMAGE026
为无人车与障碍物距离奖惩,
Figure 277846DEST_PATH_IMAGE027
为加权因子;各个奖惩函数表示如下:
Figure DEST_PATH_IMAGE028
Figure 112947DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE030
为无人车的实际子目标点位置,
Figure 122491DEST_PATH_IMAGE031
是无人车到实际子目标点的距离,
Figure DEST_PATH_IMAGE032
是判定无人车是否到达实际子目标点的范围,
Figure 110170DEST_PATH_IMAGE033
是无人车距离最近障碍物的距离,
Figure DEST_PATH_IMAGE034
是判定无人车碰是否撞到障碍物的范围,
Figure 242074DEST_PATH_IMAGE035
是障碍物奖惩的作用阈值范围,
Figure DEST_PATH_IMAGE036
是增益常量,
Figure 705416DEST_PATH_IMAGE037
是取余符号;arctan为反正切函数;
Figure DEST_PATH_IMAGE038
为圆周率;
通过无人车与环境交互,收集到每一轮的状态信息、动作信息和奖惩信息,将感知点阵有无障碍物的环境信息、实际子目标点以及无人车当前的位置状态,作为建立的神经网络模型的输入,对深度神经网络进行训练,得到训练好的基于目标分层的深度强化学习无人车路径规划网络模型;
步骤5,利用训练好的深度强化学习路径规划网络模型,输入待规划的无人车相应数据,模型输出得到规划好的平滑路径;
通过上述步骤,即实现基于目标分层双感知域的强化学习的无人车路径规划。
2.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤2中,获取子目标点序列的方法包括如下步骤:
步骤2A, 基于步骤1得到的地图和无人车当前位置以及目标位置,通过使用基于图搜索的算法搜索出一条可通行路径;可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径;
步骤2B, 沿着步骤2A得到的可通行路径,围绕可通行路径中的每个路径点,产生包含此路径点的最大范围的长方形无障碍安全区;进一步形成一条相互重叠安全区组成的安全区走廊;安全区走廊的产生方法为:
1)定义长方形安全区的四个顶点:A,B,C,D,由此得到长方形的四个边:AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置坐标;
2)将这四条边依次向四周扩张,检测边与障碍物的接触情况,直到扩张到障碍物边界,最终得到包含该路径点的最大无障碍物长方形安全区;
3)沿着每个路径点扩张其最大无障碍物长方形安全区,如若不同路径点对应的安全区内包含相同的路径点,只保留其中一个安全区,形成一条相互重叠安全区组成的安全区走廊;
安全区走廊用于子目标点序列的生成和奖励函数的定义;
步骤2C,将生成的安全区走廊内相邻安全区的相互重叠部分的几何中心点作为一级子目标点,计算出由无人车的动力学约束得到的最大转弯半径;在两个一级子目标点的连线间均匀分割出多个二级子目标点;两个二级子目标点间的距离要小于最大转弯半径;
步骤2D,将所有一级和二级子目标点顺序排列,即得到总的子目标点序列。
3.如权利要求2所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤2A中,基于图搜索的算法具体是D*Lite算法。
4.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤3中,障碍物感知域是以车后轮轴中心点为中心,相对于车体前视方向向前、后、左、右分别进行扩张而得到;感知点阵是在障碍物感知域内均匀采样一系列点得到。
5.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤4中,具体是基于演员评论家网络建立基于目标分层的深度强化学习无人车路径规划网络模型;采用深度确定性策略梯度DDPG算法进行模型训练;模型输入为无人车状态,输出为无人车动作,包括加速度和角加速度。
6.如权利要求5所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,深度神经网络模型具体是采用全连接网络,ReLU激活函数;神经网络的层数由感知点阵的多少决定。
7.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,无人车的最大转弯半径为
Figure DEST_PATH_IMAGE039
;其中,
Figure 600209DEST_PATH_IMAGE040
为无人车前后轮之间的轮轴距;
Figure DEST_PATH_IMAGE041
为车轮的最大转向角;tan为正切函数。
CN202210495925.2A 2022-05-09 2022-05-09 基于目标分层双感知域的强化学习的无人车路径规划方法 Active CN114578834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210495925.2A CN114578834B (zh) 2022-05-09 2022-05-09 基于目标分层双感知域的强化学习的无人车路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210495925.2A CN114578834B (zh) 2022-05-09 2022-05-09 基于目标分层双感知域的强化学习的无人车路径规划方法

Publications (2)

Publication Number Publication Date
CN114578834A CN114578834A (zh) 2022-06-03
CN114578834B true CN114578834B (zh) 2022-07-26

Family

ID=81768975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210495925.2A Active CN114578834B (zh) 2022-05-09 2022-05-09 基于目标分层双感知域的强化学习的无人车路径规划方法

Country Status (1)

Country Link
CN (1) CN114578834B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114812566B (zh) * 2022-06-27 2022-10-04 青岛慧拓智能机器有限公司 矿区车辆的行驶路径规划方法、装置及计算机设备
CN115033005A (zh) * 2022-08-10 2022-09-09 湖南朗国视觉识别研究院有限公司 一种地面清扫方法、扫地机器人以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109212973A (zh) * 2018-11-05 2019-01-15 北京交通大学 一种基于强化学习的仿人智能控制的避障控制方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107479368B (zh) * 2017-06-30 2021-09-21 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
WO2020113027A2 (en) * 2018-11-28 2020-06-04 Google Llc Robot navigation using a high-level policy model and a trained low-level policy model
CN111338333B (zh) * 2018-12-18 2021-08-31 北京航迹科技有限公司 用于自动驾驶的系统和方法
CN110362074B (zh) * 2019-06-18 2021-11-23 华南理工大学 一种基于航迹重规划的水面无人艇动态避碰方法
CN111609851B (zh) * 2020-05-28 2021-09-24 北京理工大学 一种移动型导盲机器人系统及导盲方法
CN111665853B (zh) * 2020-07-07 2023-03-31 中国人民解放军国防科技大学 一种面向规划控制联合优化的无人车辆运动规划方法
CN111874007B (zh) * 2020-08-06 2021-03-16 中国科学院自动化研究所 基于知识与数据驱动的无人车分层决策方法、系统、装置
CN112666939B (zh) * 2020-12-09 2021-09-10 深圳先进技术研究院 一种基于深度强化学习的机器人路径规划算法
CN113110509B (zh) * 2021-05-17 2023-02-28 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储系统多机器人路径规划方法
CN114442630B (zh) * 2022-01-25 2023-12-05 浙江大学 一种基于强化学习和模型预测的智能车规划控制方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109212973A (zh) * 2018-11-05 2019-01-15 北京交通大学 一种基于强化学习的仿人智能控制的避障控制方法
CN109933086A (zh) * 2019-03-14 2019-06-25 天津大学 基于深度q学习的无人机环境感知与自主避障方法
CN113485380A (zh) * 2021-08-20 2021-10-08 广东工业大学 一种基于强化学习的agv路径规划方法及系统

Also Published As

Publication number Publication date
CN114578834A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
González et al. A review of motion planning techniques for automated vehicles
CN114578834B (zh) 基于目标分层双感知域的强化学习的无人车路径规划方法
Sharma et al. Recent advances in motion and behavior planning techniques for software architecture of autonomous vehicles: A state-of-the-art survey
JP6928722B2 (ja) 車両動作のための位置特定の決定
CN106845716B (zh) 一种基于导航误差约束的水面无人艇局部分层路径规划方法
Zhao et al. Dynamic motion planning for autonomous vehicle in unknown environments
Zheng et al. Bézier curve‐based trajectory planning for autonomous vehicles with collision avoidance
Chen et al. Optimal time-consuming path planning for autonomous underwater vehicles based on a dynamic neural network model in ocean current environments
Song et al. Laser‐based SLAM automatic parallel parking path planning and tracking for passenger vehicle
Lattarulo et al. Urban motion planning framework based on n-bézier curves considering comfort and safety
Ge et al. Simultaneous path planning and topological mapping (SP2ATM) for environment exploration and goal oriented navigation
CN111506058A (zh) 通过信息融合来计划自动驾驶的短期路径的方法及装置
CN110928297A (zh) 基于多目标动态粒子群优化的智能公交车辆路径规划方法
CN112947406A (zh) 一种基于FLOYD和Astar的混合路径规划方法
Yang et al. An algorithm of curved path tracking with prediction model for autonomous vehicle
CN114435396B (zh) 一种智能车辆交叉口行为决策方法
Chen et al. Path planning for autonomous vehicle based on a two‐layered planning model in complex environment
Li et al. Dynamically integrated spatiotemporal‐based trajectory planning and control for autonomous vehicles
Yu et al. RDT-RRT: Real-time double-tree rapidly-exploring random tree path planning for autonomous vehicles
Liu et al. Methodology of hierarchical collision avoidance for high‐speed self‐driving vehicle based on motion‐decoupled extraction of scenarios
CN116610109A (zh) 基于梯度的前向蚁群算法无人车路径规划方法
Gong et al. Intuitive decision-making modeling for self-driving vehicles
Zeng et al. A steerable curvature approach for efficient executable path planning for on-road autonomous vehicle
US11873006B2 (en) Virtual lane estimation using a recursive self-organizing map
Shi et al. Local path planning of unmanned vehicles based on improved RRT algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant