CN114578834A - 基于目标分层双感知域的强化学习的无人车路径规划方法 - Google Patents
基于目标分层双感知域的强化学习的无人车路径规划方法 Download PDFInfo
- Publication number
- CN114578834A CN114578834A CN202210495925.2A CN202210495925A CN114578834A CN 114578834 A CN114578834 A CN 114578834A CN 202210495925 A CN202210495925 A CN 202210495925A CN 114578834 A CN114578834 A CN 114578834A
- Authority
- CN
- China
- Prior art keywords
- target
- unmanned vehicle
- sub
- domain
- perception
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000002787 reinforcement Effects 0.000 title claims abstract description 43
- 230000008447 perception Effects 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 24
- 230000003993 interaction Effects 0.000 claims description 14
- 230000004888 barrier function Effects 0.000 claims description 13
- 230000001133 acceleration Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000008859 change Effects 0.000 claims description 2
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0214—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory in accordance with safety or protection criteria, e.g. avoiding hazardous areas
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/021—Control of position or course in two dimensions specially adapted to land vehicles
- G05D1/0212—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
- G05D1/0221—Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公布了基于目标分层双感知域的强化学习的无人车路径规划方法,充分考虑无人车的动力学约束;通过设定子目标层级缩小地图区域的维度;通过目标分层方法使得子目标层处在安全区的中间部位;通过设置双感知域包括障碍物感知域和目标发现域减少观测输入,将障碍物感知和目标发现分开解耦;实现基于目标分层双感知域的深度强化学习的无人车路径规划。本发明方法对不同维度的地图都能够适应使用,且在训练中避免了维数灾难,计算效率高,适用性强,能够满足实时路径规划的实际需求。
Description
技术领域
本发明涉及机器人路径规划技术领域,特别涉及一种基于目标分层双感知域的深度强化学习的无人车路径规划方法。
背景技术
路径规划是无人车系统架构中运动决策的重要模块,是实现无人运动的重要技术。路径规划结果的好坏直接决定了无人车任务能否完成以及任务完成的质量。设计和开发满足车辆动力学约束,计算快速性,规划实时性和最优性指标的路径规划算法是路径规划面临的主要任务。近些年,路径规划的研究非常的活跃,尤其在人工智能技术取得了巨大成果的今天,如何利用人工智能技术发展和完善路径规划技术成为了重要的研究课题。
基于深度强化学习的路径规划算法已经有了一些初步的成果,但现有的路径规划算法大多是针对特定维度的地图进行强化学习路径规划。这些算法存在着如下问题:首先,当面对不同维度的地图时,由深度强化学习训练出的路径规划器不具有普适性,针对不同维度的地图,需要重新进行训练;其次,随着地图维度的增大,训练的复杂度呈现指数级增长,可能会出现维数灾难的问题;最后,还有很多的深度强化学习路径规划算法没有考虑无人车动力学约束。除此以外,传统的考虑动力学约束的路径规划算法,其算法求解时间长,不能很好的满足实时规划的要求。
发明内容
为了克服上述现有技术的不足,本发明提供一种基于目标分层双感知域的深度强化学习路径规划方法,充分考虑了无人车的动力学约束,计算效率高,适用性强,能够满足实时路径规划的实际需求。
本发明提供的技术方案是:
一种基于目标分层双感知域的深度强化学习的无人车路径规划方法,该方法通过子目标层级的设定,减少了路径规划网络模型需要使用到的地图区域的维度;通过采用目标分层方法使得子目标层处在安全区走廊的中间部位,避免由于搜索算法使路径贴近障碍物的情形出现;通过使用障碍物感知域和目标发现域双感知域减少观测输入,将障碍物感知和目标发现分开解耦;该方法对不同维度的地图都能够适应使用,且在训练中避免了维数灾难,充分考虑了无人车的动力学约束。具体包括如下步骤:
步骤1,读取无人车行驶区域的(0,1)值二维像素地图(栅格地图),进行坐标转换和全局对齐后获得路径规划使用的世界地图,同时从世界地图中提取出障碍物位置,并获取当前无人车的位置状态和目标位置状态;
步骤2,基于步骤1的世界地图,通过使用基于图搜索的算法搜索出一条可通行路径,使用安全区扩张的方法得到沿此可通行路径的安全区走廊,根据安全区走廊使用目标分层的方法获得子目标点序列。获取子目标点序列的方法包括:
步骤2A, 基于步骤1得到的地图和无人车当前位置以及目标位置,通过使用基于图搜索的算法(如采用D*Lite算法)搜索出一条可通行路径;可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径;
步骤2B, 沿着步骤2A得到的可通行路径。围绕可通行路径中的每个路径点,产生包含此路径点的最大范围的长方形无障碍安全区;进一步形成一条由相互重叠安全区组成的安全区走廊;安全区走廊的产生方法为:
1)定义长方形安全区的四个顶点:A,B,C,D,由此得到长方形的四个边:AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置(坐标);
2)将这四条边依次向四周扩张,检测边与障碍物的接触情况,直到扩张到障碍物边界,最终得到包含该路径点的最大无障碍物长方形安全区;
3)沿着每个路径点扩张其最大无障碍物长方形安全区,如若不同路径点对应的安全区内包含相同的路径点,只保留其中一个安全区,最终形成一条相互重叠安全区组成的安全区走廊。
安全区走廊用于子目标点序列的生成和奖励函数的定义。
步骤2C, 基于步骤2B中生成的安全区走廊,将安全区走廊中相邻安全区相互重叠部分的几何中心点作为一级子目标点,计算出由无人车的动力学约束得到的最大转弯半径,在两个一级子目标点的连线间均匀分割出多个二级子目标点,两个二级子目标点间的距离要小于最大转弯半径;
步骤2D,将所有一级和二级子目标点顺序排列后得到总的子目标点序列。
步骤3,建立基于无人车车体动力学和动力学约束的交互环境,建立围绕无人车的障碍物感知域和目标发现域;通过障碍物感知域得到感知点阵,获得感知点阵有无障碍物的环境信息;通过目标发现域获取实际子目标点;
其中,障碍物感知域是以车后轮轴中心点P为中心、将车体包含在内的长方形区域;相对于车体前视方向分别向前、后、左、右扩张h、b、l、r长度而得到。在障碍物感知域内均匀采样一系列点。障碍物感知域用来感知无人车周围感知域内的环境信息,均匀的在障碍物感知域内采样得到感知点阵,获得感知点阵的环境信息,即有无障碍物。
目标发现域是由以车后轮轴中心点P为中心、以R为半径的圆区域;其中半径R要大于无人车最大转弯半径的1.5倍以上。基于步骤2得到的子目标点序列,目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点,将其作为无人车的实际子目标点,实际子目标点为无人车暂时行进要到达的点。在无人车不断前进过程中,目标发现域内不断的出现离目标点更近的子目标点,而实时地更新实际子目标点。
步骤4,基于步骤3建立无人车与环境交互的奖惩函数,建立基于目标分层的深度强化学习无人车路径规划网络模型并进行训练,得到训练好的基于目标分层的深度强化学习无人车路径规划网络模型。
通过无人车与环境交互,收集到每一轮的状态信息、动作信息和奖惩信息,利用深度确定性策略梯度DDPG算法对深度神经网络进行训练,直到完成训练。
具体实施时,基于演员评论家网络建立基于目标分层的深度强化学习无人车路径规划网络模型,输入为无人车状态到网络模型,输出为无人车动作,包括加速度和角加速度。通过无人车与环境交互,收集到状态信息、动作信息和奖惩信息,利用深度确定性策略梯度算法(deep deterministic policy gradient)对基于目标分层的深度强化学习深度神经网络进行训练,直到完成训练,得到训练好的基于目标分层双感知域的深度强化学习路径规划模型。
步骤5,利用训练好的深度强化学习路径规划模型,输入待规划无人车相应数据,模型输出得到规划好的平滑路径;
具体实施时,基于步骤2采用目标分层算法实现的子目标点生成模块和步骤4得到的训练好的目标分层双感知域的深度强化学习路径规划网络模型,构建目标分层双感知域的深度强化学习路径规划器,在给定栅格地图、无人车初始位置和目标位置后,输出满足动力学约束的从起始点到目标点的平滑路径。
与现有技术相比,本发明实例提供的技术方案带来的有益效果至少包括:
本发明提供的基于目标分层双感知域的深度强化学习路径规划方法具有面对不同维度地图的普适性能力,可以一次性训练后,普适性使用;该方法通过子目标层级的设定,将使用地图区域的维度缩小,这样避免了维度灾难的发生;障碍物感知域和目标发现域双感知域的使用减少了观测输入,将障碍物感知和目标发现分开解耦;目标分层方法使得子目标层处在安全区走廊的中间部位,避免了由于搜索算法使路径贴近障碍物的情形出现;该方法充分考虑了无人车车体的动力学和动力学约束,计算效率高,能够满足实时路径规划的实际需求。
附图说明
图1是本发明基于目标分层双感知域的深度强化学习路径规划方法的流程框图。
图2是本发明实施例中读取使用的(0,1)二值像素图。
图3是本发明方法实施例中采用的目标分层方法具体实施过程的示意图;
图中从起始点到目标点连接的直线为图搜索算法得到的可通行路径,与障碍物相接触的长方形框是由可通行路径扩展得到的安全区,从起始点到目标点且在安全区走廊中部的一系列点是由安全区走廊生成的一系列子目标点,以车为中心的长方形边界是障碍物感知域,以车为中心的圆是目标发现域,目标发现域内较大的正方形点为实际子目标点。
图4是本发明一种基于目标分层双感知域的深度强化学习的无人车动力学示意图;
图5为本发明具体实施采用的深度强化学习方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供的技术方案是一种基于目标分层双感知域的深度强化学习路径规划方法,该方法通过子目标层级的设定,将使用地图区域的维度缩小;通过采用目标分层方法使得子目标层处在安全区走廊的中间部位,避免由于搜索算法使路径贴近障碍物的情形出现;通过使用障碍物感知域和目标发现域双感知域减少观测输入,将障碍物感知和目标发现分开解耦;该方法对不同维度的地图都能够适应使用,且在训练中避免了维数灾难,充分考虑了无人车的动力学约束。图1所示是本发明基于目标分层双感知域的深度强化学习路径规划方法的流程,对于可多种途径获取的无人车行驶区域的二维像素地图,基于目标分层双感知域的深度强化学习无人车路径规划的具体实施包括如下步骤:
步骤1,使用OpenCV读取如图2所示的无人车行驶区域的(0,1)值二维像素地图,进行坐标转换和全局对齐后获得路径规划使用的世界地图,同时从二维像素地图中提取到其中黑色块的位置,即障碍物位置。除了输入作为路径规划使用的地图,还需要给出无人车当前的位置状态和无人车目标的位置状态。将无人车的状态定义为,控制量定义为动作,如图3所示,其中, 是无人车的车后轮轴中心点在世界坐标系中的位置坐标,是无人车相对于世界坐标系原点的方位角,是车在后轮轴中心处的速度,代表相应的角速度,代表车轮的转向角,代表车辆的加速度,代表车辆的角加速度。
步骤2,图3示意了本发明方法采用的目标分层方法具体实施过程,基于步骤1获取的无人车当前位置状态和无人车目标位置状态信息,通过使用基于图搜索的D*Lite算法搜索出一条可通行路径,再使用安全区扩张的方法得到沿此可通行路径的安全区走廊,根据安全区走廊获得子目标点序列,获取子目标点序列的方法详述如下:
步骤A, 基于步骤1得到的世界地图和无人车当前位置以及目标位置,通过使用基于图搜索的D*Lite算法搜索出一条可通行路径,可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径;如图3中连接起始点和目标点间的线;
步骤B,根据可通行路径,生成包含路径点的最大无障碍物长方形安全区,进一步形成一条相互重叠安全区组成的走廊形式的安全区,即安全区走廊;
沿着步骤2A得到的可通行路径。围绕可通行路径中的每个路径点,产生包含此路径点的最大范围的长方形无障碍安全区;进一步形成一条相互重叠安全区组成的安全区走廊;安全区走廊的产生方法为:
1)定义长方形安全区的四个顶点:A,B,C,D,由此得到长方形的四个边:AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置(坐标);
2)将这四条边依次向四周扩张,检测边与障碍物的接触情况,直到扩张到障碍物边界,最终得到包含该路径点的最大无障碍物长方形安全区;
3)沿着每个路径点扩张其最大无障碍物长方形安全区,如若不同路径点对应的安全区内包含相同的路径点,只保留其中一个安全区,最终形成一条相互重叠安全区组成的安全区走廊。安全区走廊如图3中与障碍物边界相接的多个长方形区域;
安全区走廊用于子目标点序列的生成和奖励函数的定义。
步骤C, 基于步骤B中生成的安全区走廊,将安全区走廊中相邻安全区相互重叠部分的中心点作为一级子目标点,计算出由无人车的动力学约束得到的最大转弯半径,在两个一级子目标点连线间均匀分割出多个二级子目标点,两个二级子目标点间的距离要小于最大转弯半径;无人车的最大转弯半径为,其中,为前后轮之间的轮轴距;为车轮的最大转向角;tan为正切函数。
步骤D, 基于步骤C,将所有一级和二级子目标点顺序排列后,得到总的子目标点序列。
步骤3,建立基于无人车车体动力学和动力学约束的交互环境,建立围绕无人车的障碍物感知域和目标发现域。
如图3所示,图中围绕无人车的长方形区域为障碍物感知域,围绕无人车的圆形区域为无人车的目标发现域。如图4所示,图中为无人车的动力学模型的示意图。
步骤31,建立基于无人车车体动力学和动力学约束的交互环境;包括:
步骤311,将如下无人车车体动力学写入无人车交互环境,表示为:
其中,t是离散的时间步, dt是微小的时间改变量,t+1是t时间步的下一个时间步,tan是正切函数,表示时间步上界;是无人车的车后轮轴中心点P在世界坐标系中的位置坐标,是无人车相对于世界坐标系原点的方位角,是车在后轮轴中心处的速度,代表相应的角速度,代表车轮的转向角,代表无人车相应的加速度,代表无人车的角加速度。然后使用分别代表前后轮之间的轮轴距,车宽,前悬长度,后悬长度;cos为余弦函数;sin为正弦函数。
步骤312,进一步将如下的无人车动力学约束加入到环境中:
和
步骤32,设定障碍物感知域和目标发现域;通过障碍物感知域得到感知点阵,获得感知点阵有无障碍物的环境信息;通过目标发现域获取实际子目标点;
其中,障碍物感知域用来感知无人车周围感知域内的环境信息,均匀的在障碍物感知域内采样得到感知点阵,获得感知点阵的环境信息,即有无障碍物。将这些点阵的信息作为深度神经网络的输入,见步骤4;
目标发现域是:基于步骤2得到的子目标点序列,目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点,将其作为无人车的实际子目标点,实际子目标点为无人车暂时行进要到达的点。在无人车不断前进过程中,目标发现域内不断的出现离目标点更近的子目标点,而实时地更新实际子目标点。目标发现域得到的实际子目标点将作为深度神经网络的输入,见步骤4。
得到障碍物感知域和目标发现域的具体操作如下:
障碍物感知域定义:由以车后轮轴中心点P为中心,将车体包含在内的长方形区域组成,相对于车体前视方向分别向前、后、左、右扩张h、b、l、r长度,具体实施时,扩张长度可以由障碍物感知域包含车体后,由车体向外扩张1米到3米,在障碍物感知域内均匀采样一系列点。
目标发现域定义:由以车后轮轴中心点P为中心,以R为半径的圆区域组成,其中半径R要大于无人车最大转弯半径的1.5倍以上,可以超过此值,但是不宜超出过多。目标发现域用来在无人车不断向前的过程中发现此域内的子目标点,选取最靠近最终目标点的子目标点为实际子目标点。
步骤4,建立无人车与环境交互的奖惩函数和基于目标分层的深度强化学习神经网络模型。
步骤41,建立无人车与环境交互的奖惩函数:
奖惩函数定义为:
其中,为无人车的实际子目标点位置,是无人车到实际子目标点的距离, 是判定无人车是否到达实际子目标点的范围,是无人车距离最近障碍物的距离,是判定无人车碰是否撞到障碍物的范围,是障碍物奖惩的作用阈值范围,是增益常量,是取余符号;arctan为反正切函数;为圆周率。
步骤42,建立基于目标分层的深度神经网络模型:
如图5所示,采用演员评论家(Actor-Critic)网络建立无人车路径规划的深度强化学习框架。输入状态到演员评论家网络,输出无人车动作,包含加速度和角加速度,通过无人车与环境交互,收集到状态信息、动作信息和奖惩信息(状态、动作和奖惩值),利用深度确定性策略梯度算法(deep deterministic policy gradient)对基于目标分层双感知域的深度强化学习深度神经网络进行训练,直到完成训练,得到训练好的模型。
深度神经网络采用全连接网络,ReLU激活函数,神经网络的层数由感知点阵的多少决定。本发明具体实施时,输入层维数设定为22,输出层维数为2,隐藏层维数为[512,218,218,218]。
步骤5,利用训练好的深度强化学习路径规划模型,输入待规划无人车相应数据,模型输出得到规划好的平滑路径;
具体实施时,将基于步骤4得到的训练好的深度强化学习路径规划网络模型和基于步骤2采用目标分层算法实现的子目标点生成模块,得到训练好的基于目标分层双感知域的深度强化学习路径规划器。针对待规划路径的无人车行驶环境地图、无人车初始位置和目标位置,通过基于目标分层双感知域的深度强化学习路径规划器,输出满足动力学约束的从起始点到目标点的平滑路径。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (10)
1.一种基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,考虑无人车的动力学约束;通过设定子目标层级缩小用于路径规划的地图区域的维度;通过目标分层方法使得子目标层处在安全区走廊的中间部位;通过设置双感知域包括障碍物感知域和目标发现域,将障碍物感知和目标发现分开解耦;由此建立基于目标分层的深度强化学习无人车路径规划网络模型,实现基于目标分层双感知域的深度强化学习的无人车路径规划;包括如下步骤:
步骤1,读取无人车行驶区域的二维像素地图,进行坐标转换和全局对齐后获得用于路径规划的世界地图;从世界地图中提取出障碍物位置,并获取当前无人车的位置状态和目标位置状态;
步骤2,根据世界地图搜索得到一条可通行路径,进一步得到沿所述可通行路径的安全区走廊,根据安全区走廊,再使用目标分层方法获得子目标点序列;
所述安全区走廊用于子目标点序列的生成和奖励函数的定义;所述子目标点序列包括所有一级子目标点和二级子目标点;安全区走廊内相邻安全区的相互重叠部分的几何中心点为一级子目标点;在两个一级子目标点的连线间均匀分割出多个二级子目标点,两个二级子目标点间的距离要小于无人车的最大转弯半径;
步骤3,建立基于无人车车体动力学和动力学约束的交互环境,建立围绕无人车的障碍物感知域和目标发现域;
通过障碍物感知域得到感知点阵,获得感知点阵的环境信息,即有无障碍物;
通过目标发现域获取实际子目标点;目标发现域是由以车后轮轴中心点P为中心、以R为半径的圆区域;其中R要大于无人车最大转弯半径的1.5倍以上; 基于步骤2得到的子目标点序列,目标发现域用来搜索得到无人车周围在此域内距离目标点最近的子目标点,将其作为无人车的实际子目标点,实际子目标点为无人车暂时行进要到达的点;在无人车不断前进过程中,根据目标发现域内不断的出现离目标点更近的子目标点,实时地更新实际子目标点;
步骤4,建立无人车与环境交互的奖惩函数,建立基于目标分层的深度强化学习无人车路径规划网络模型并进行训练;
通过无人车与环境交互,收集到每一轮的状态信息、动作信息和奖惩信息,将感知点阵有无障碍物的环境信息、实际子目标点以及无人车当前的位置状态,作为建立的神经网络模型的输入,对深度神经网络进行训练,得到训练好的基于目标分层的深度强化学习无人车路径规划网络模型;
步骤5,利用训练好的深度强化学习路径规划网络模型,输入待规划的无人车相应数据,模型输出得到规划好的平滑路径;
通过上述步骤,即实现基于目标分层双感知域的强化学习的无人车路径规划。
2.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤2中,获取子目标点序列的方法包括如下步骤:
步骤2A, 基于步骤1得到的地图和无人车当前位置以及目标位置,通过使用基于图搜索的算法搜索出一条可通行路径;可通行路径即是从无人车起始位置点到目标位置点、由一系列避开障碍物位置点的连续相接的点组成的路径;
步骤2B, 沿着步骤2A得到的可通行路径,围绕可通行路径中的每个路径点,产生包含此路径点的最大范围的长方形无障碍安全区;进一步形成一条相互重叠安全区组成的安全区走廊;安全区走廊的产生方法为:
1)定义长方形安全区的四个顶点:A,B,C,D,由此得到长方形的四个边:AB,BC,CD,DA,将这四个顶点的位置都初始化为路径点的位置坐标;
2)将这四条边依次向四周扩张,检测边与障碍物的接触情况,直到扩张到障碍物边界,最终得到包含该路径点的最大无障碍物长方形安全区;
3)沿着每个路径点扩张其最大无障碍物长方形安全区,如若不同路径点对应的安全区内包含相同的路径点,只保留其中一个安全区,形成一条相互重叠安全区组成的安全区走廊;
安全区走廊用于子目标点序列的生成和奖励函数的定义;
步骤2C, 将生成的安全区走廊内相邻安全区的相互重叠部分的几何中心点作为一级子目标点,计算出由无人车的动力学约束得到的最大转弯半径;在两个一级子目标点的连线间均匀分割出多个二级子目标点;两个二级子目标点间的距离要小于最大转弯半径;
步骤2D, 将所有一级和二级子目标点顺序排列,即得到总的子目标点序列。
3.如权利要求2所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤2A中,基于图搜索的算法具体是D*Lite算法。
4.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤3中,障碍物感知域是以车后轮轴中心点为中心,相对于车体前视方向向前、后、左、右分别进行扩张而得到;感知点阵是在障碍物感知域内均匀采样一系列点得到。
5.如权利要求1所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤4中,具体是基于演员评论家网络建立基于目标分层的深度强化学习无人车路径规划网络模型;采用深度确定性策略梯度DDPG算法进行模型训练;模型输入为无人车状态,输出为无人车动作,包括加速度和角加速度。
6.如权利要求5所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,深度神经网络模型具体是采用全连接网络,ReLU激活函数;神经网络的层数由感知点阵的多少决定。
9.如权利要求7所述基于目标分层双感知域的强化学习的无人车路径规划方法,其特征是,步骤3)中,建立基于无人车车体动力学和动力学约束的交互环境;包括:
步骤311,将无人车车体动力学写入无人车交互环境,表示为:
其中,是无人车的车后轮轴中心点P在世界坐标系中的位置坐标,是无人车相对于世界坐标系原点的方位角,是车在后轮轴中心处的速度,代表相应的角速度,代表车轮的转向角,代表无人车相应的加速度,代表无人车的角加速度;分别代表前后轮之间的轮轴距,车宽,前悬长度,后悬长度;t是离散的时间步,dt是时间改变量,t+1是t时间步的下一个时间步,tan是正切函数,表示时间步上界;cos为余弦函数;sin为正弦函数;
步骤312,进一步将无人车动力学约束加入到环境中,表示为:
和
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210495925.2A CN114578834B (zh) | 2022-05-09 | 2022-05-09 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210495925.2A CN114578834B (zh) | 2022-05-09 | 2022-05-09 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114578834A true CN114578834A (zh) | 2022-06-03 |
CN114578834B CN114578834B (zh) | 2022-07-26 |
Family
ID=81768975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210495925.2A Active CN114578834B (zh) | 2022-05-09 | 2022-05-09 | 基于目标分层双感知域的强化学习的无人车路径规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114578834B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114812566A (zh) * | 2022-06-27 | 2022-07-29 | 青岛慧拓智能机器有限公司 | 矿区车辆的行驶路径规划方法、装置及计算机设备 |
CN115033005A (zh) * | 2022-08-10 | 2022-09-09 | 湖南朗国视觉识别研究院有限公司 | 一种地面清扫方法、扫地机器人以及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190004518A1 (en) * | 2017-06-30 | 2019-01-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and system for training unmanned aerial vehicle control model based on artificial intelligence |
CN109212973A (zh) * | 2018-11-05 | 2019-01-15 | 北京交通大学 | 一种基于强化学习的仿人智能控制的避障控制方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
WO2020124437A1 (en) * | 2018-12-18 | 2020-06-25 | Beijing Voyager Technology Co., Ltd. | Systems and methods for autonomous driving |
CN111609851A (zh) * | 2020-05-28 | 2020-09-01 | 北京理工大学 | 一种移动型导盲机器人系统及导盲方法 |
CN111665853A (zh) * | 2020-07-07 | 2020-09-15 | 中国人民解放军国防科技大学 | 一种面向规划控制联合优化的无人车辆运动规划方法 |
CN111874007A (zh) * | 2020-08-06 | 2020-11-03 | 中国科学院自动化研究所 | 基于知识与数据驱动的无人车分层决策方法、系统、装置 |
WO2020253028A1 (zh) * | 2019-06-18 | 2020-12-24 | 华南理工大学 | 一种基于航迹重规划的水面无人艇动态避碰方法 |
CN112666939A (zh) * | 2020-12-09 | 2021-04-16 | 深圳先进技术研究院 | 一种基于深度强化学习的机器人路径规划算法 |
CN113110509A (zh) * | 2021-05-17 | 2021-07-13 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
US20210397195A1 (en) * | 2018-11-28 | 2021-12-23 | Google Llc | Robot navigation using a high-level policy model and a trained low-level policy model |
CN114442630A (zh) * | 2022-01-25 | 2022-05-06 | 浙江大学 | 一种基于强化学习和模型预测的智能车规划控制方法 |
-
2022
- 2022-05-09 CN CN202210495925.2A patent/CN114578834B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190004518A1 (en) * | 2017-06-30 | 2019-01-03 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and system for training unmanned aerial vehicle control model based on artificial intelligence |
CN109212973A (zh) * | 2018-11-05 | 2019-01-15 | 北京交通大学 | 一种基于强化学习的仿人智能控制的避障控制方法 |
US20210397195A1 (en) * | 2018-11-28 | 2021-12-23 | Google Llc | Robot navigation using a high-level policy model and a trained low-level policy model |
WO2020124437A1 (en) * | 2018-12-18 | 2020-06-25 | Beijing Voyager Technology Co., Ltd. | Systems and methods for autonomous driving |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
WO2020253028A1 (zh) * | 2019-06-18 | 2020-12-24 | 华南理工大学 | 一种基于航迹重规划的水面无人艇动态避碰方法 |
CN111609851A (zh) * | 2020-05-28 | 2020-09-01 | 北京理工大学 | 一种移动型导盲机器人系统及导盲方法 |
CN111665853A (zh) * | 2020-07-07 | 2020-09-15 | 中国人民解放军国防科技大学 | 一种面向规划控制联合优化的无人车辆运动规划方法 |
CN111874007A (zh) * | 2020-08-06 | 2020-11-03 | 中国科学院自动化研究所 | 基于知识与数据驱动的无人车分层决策方法、系统、装置 |
CN112666939A (zh) * | 2020-12-09 | 2021-04-16 | 深圳先进技术研究院 | 一种基于深度强化学习的机器人路径规划算法 |
CN113110509A (zh) * | 2021-05-17 | 2021-07-13 | 哈尔滨工业大学(深圳) | 一种基于深度强化学习的仓储系统多机器人路径规划方法 |
CN113485380A (zh) * | 2021-08-20 | 2021-10-08 | 广东工业大学 | 一种基于强化学习的agv路径规划方法及系统 |
CN114442630A (zh) * | 2022-01-25 | 2022-05-06 | 浙江大学 | 一种基于强化学习和模型预测的智能车规划控制方法 |
Non-Patent Citations (2)
Title |
---|
杨黔生: "基于多智能体进化和强化学习的机器人运动控制方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
王远大: "机器人深度强化学习控制方法研究", 《中国 优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114812566A (zh) * | 2022-06-27 | 2022-07-29 | 青岛慧拓智能机器有限公司 | 矿区车辆的行驶路径规划方法、装置及计算机设备 |
CN114812566B (zh) * | 2022-06-27 | 2022-10-04 | 青岛慧拓智能机器有限公司 | 矿区车辆的行驶路径规划方法、装置及计算机设备 |
CN115033005A (zh) * | 2022-08-10 | 2022-09-09 | 湖南朗国视觉识别研究院有限公司 | 一种地面清扫方法、扫地机器人以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114578834B (zh) | 2022-07-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Recent advances in motion and behavior planning techniques for software architecture of autonomous vehicles: A state-of-the-art survey | |
González et al. | A review of motion planning techniques for automated vehicles | |
CN114578834B (zh) | 基于目标分层双感知域的强化学习的无人车路径规划方法 | |
Zhao et al. | Dynamic motion planning for autonomous vehicle in unknown environments | |
Zheng et al. | Bézier curve‐based trajectory planning for autonomous vehicles with collision avoidance | |
WO2019083513A1 (en) | LOCATION DETERMINATION FOR VEHICLE OPERATION | |
Song et al. | Laser‐based SLAM automatic parallel parking path planning and tracking for passenger vehicle | |
Ge et al. | Simultaneous path planning and topological mapping (SP2ATM) for environment exploration and goal oriented navigation | |
CN110928297A (zh) | 基于多目标动态粒子群优化的智能公交车辆路径规划方法 | |
CN112947406A (zh) | 一种基于FLOYD和Astar的混合路径规划方法 | |
Chen et al. | Path Planning for Autonomous Vehicle Based on a Two‐Layered Planning Model in Complex Environment | |
Mouhagir et al. | Integrating safety distances with trajectory planning by modifying the occupancy grid for autonomous vehicle navigation | |
US11873006B2 (en) | Virtual lane estimation using a recursive self-organizing map | |
Yang et al. | An algorithm of curved path tracking with prediction model for autonomous vehicle | |
CN115809609B (zh) | 一种多水下自主航行器目标搜索方法及其系统 | |
Li et al. | Dynamically integrated spatiotemporal‐based trajectory planning and control for autonomous vehicles | |
CN114435396B (zh) | 一种智能车辆交叉口行为决策方法 | |
Bi et al. | CURE: A hierarchical framework for multi-robot autonomous exploration inspired by centroids of unknown regions | |
Yijing et al. | Local path planning of autonomous vehicles based on A* algorithm with equal-step sampling | |
Yu et al. | RDT-RRT: Real-time double-tree rapidly-exploring random tree path planning for autonomous vehicles | |
Zhang et al. | A method for ship route planning fusing the ant colony algorithm and the A* search algorithm | |
Liu et al. | Methodology of hierarchical collision avoidance for high‐speed self‐driving vehicle based on motion‐decoupled extraction of scenarios | |
CN116610109A (zh) | 基于梯度的前向蚁群算法无人车路径规划方法 | |
Gong et al. | Intuitive decision-making modeling for self-driving vehicles | |
Wang et al. | APG-RRT: Sampling-Based Path Planning Method for Small Autonomous Vehicle in Closed Scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |