CN116161056A - 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 - Google Patents
一种基于强化学习的结构化道路车辆轨迹规划方法与系统 Download PDFInfo
- Publication number
- CN116161056A CN116161056A CN202310195520.1A CN202310195520A CN116161056A CN 116161056 A CN116161056 A CN 116161056A CN 202310195520 A CN202310195520 A CN 202310195520A CN 116161056 A CN116161056 A CN 116161056A
- Authority
- CN
- China
- Prior art keywords
- track
- target vehicle
- time
- vehicle
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002787 reinforcement Effects 0.000 title claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 37
- 238000005457 optimization Methods 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 10
- 230000009471 action Effects 0.000 claims description 29
- 230000001133 acceleration Effects 0.000 claims description 20
- 230000003068 static effect Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 16
- 239000003795 chemical substances by application Substances 0.000 claims description 16
- 230000004888 barrier function Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 3
- 239000000725 suspension Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 description 2
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W2050/0001—Details of the control system
- B60W2050/0019—Control system elements or transfer functions
- B60W2050/0028—Mathematical models, e.g. for simulation
- B60W2050/0031—Mathematical model of the vehicle
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2520/00—Input parameters relating to overall vehicle dynamics
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/50—Barriers
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W2552/00—Input parameters relating to infrastructure
- B60W2552/53—Road markings, e.g. lane marker or crosswalk
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Mechanical Engineering (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Transportation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本申请公开了本申请提供了一种基于强化学习的结构化道路车辆轨迹规划方法,基于强化学习的轨迹规划方法,通过构建行车风险场,将风险指标纳入优化函数中,提高了轨迹规划的安全性;通过智能体进行初始轨迹的求解,提高了轨迹规划在时空域下的计算效率;通过轨迹优化模型,基于轨迹初始解,进行轨迹优化,保证了生成轨迹的最优性和可行性。
Description
技术领域
本申请属于车辆轨迹规划技术领域,具体涉及一种基于强化学习的结构化道路车辆轨迹规划方法与系统。
背景技术
自动驾驶汽车具有在复杂环境下自主导航的能力,能够显著降低人为操作引起的交通事故发生概率,提高道路安全以及道路利用率,缓解交通拥堵。自动驾驶汽车的自动驾驶系统包含环境感知、地图与定位、轨迹预测、决策规划、运动控制等五个模块,其中决策规划模块是自动驾驶的核心部分,它结合高精地图以及感知技术获取的环境信息,在未来有限时域内规划出一条无碰撞的可行轨迹。
相关技术中,在结构化道路中的轨迹规划方法主要分为基于采样和基于优化两种。基于采样的方法将轨迹解耦成路径-速度分别进行规划,最后再合成获得轨迹,但该方法难以应用于具有动态障碍物的复杂场景;基于优化的方法通过将轨迹规划问题建模成非线性规划问题,再通过最优化算法进行求解,但该方法依赖于初始解的质量以及容易陷入局部最优解。
因此,实有必要提供一种基于强化学习的结构化道路车辆轨迹规划方法与系统。
发明内容
本申请实施例的目的是提供一种基于强化学习的结构化道路车辆轨迹规划方法与系统,通过构建行车风险场,将风险指标纳入优化函数中,提高了轨迹规划的安全性;通过智能体进行初始轨迹的求解,提高了轨迹规划在时空域下的计算效率;通过轨迹优化模型,基于轨迹初始解,进行轨迹优化,保证了生成轨迹的最优性和可行性。
为了解决上述技术问题,本申请是这样实现的:
一种基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,包括如下步骤:
S1:采集状态信息,所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息;
S2:构建智能体,所述智能体包括状态空间、动作空间及动作网络,所述状态空间将采集的状态信息转换为状态向量,所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量;所述动作网络为多层感知机模型,将所述状态向量作为所述动作网络的输入,以所述动作网络的输出向量为基础构建多个正态分布,在正态分布中采样生成动作向量;所述动作空间以所述动作向量中的元素为基础,根据车辆运动学模型,规划目标车辆在未来te时间内的轨迹序列;
S3:构建轨迹优化模型,所述轨迹优化模型包括目标函数及约束条件,以步骤S2中目标车辆未来te时间内的轨迹序列作为所述轨迹优化模型的初始解,对规划的轨迹进行优化,利用非线性优化器,对轨迹优化问题进行求解,并且利用模型预测控制方法对生成的优化轨迹进行跟踪;其中,所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束;
S4:定义奖励函数,并在仿真环境中,利用强化学习算法训练所述智能体;训练完成后,采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。
优选的,所述状态向量表示为:s=[sego,sV,sbound],其中,sego表示目标车辆的状态向量,sV表示障碍物的状态向量,sbound表示环境边界信息;目标车辆的状态向量其中,x、y、ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度;障碍物的状态向量其中分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度;环境边界信息sbound=[dl,dr],其中,dl、dr分别表示目标车辆与车道左右两侧边界线的距离;所述障碍物的状态向量中的维度均为K,K值为预设的最大可观测障碍物数目,若实际观测到的障碍物数量小于K,则余位用0进行补位。
优选的,所述动作空间用于为目标车辆规划在未来te时间内的轨迹,轨迹规划的过程为:
计算目标车辆在时间节点tj+1时的横、纵向位置,计算过程表示为:
计算目标车辆在时间节点tj+1时的速度和航向角,计算过程表示为:
式中,vj+1和分别表示目标车辆在时间节点tj+1时的速度和航向角,εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数;umax表示目标车辆加速度的最大控制值;ωmax表示目标车辆横摆角速度的最大控制值;
以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点,将所有时间节点下的轨迹点组合形成轨迹序列,表示为:
优选的,所述动作网络为多层感知机模型,包括1层输入层,2层隐藏层及1层输出层,网络权重记为wθ,每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,输出层采用tanh函数激活;所述动作网络的输入向量为所述状态向量s,其维度为4K+8,输出向量的维度2N,将输出向量的值作为均值以为标准差σ,依次构建2N个正态分布最后在正态分布中采样获得动作向量,记为a=[ε1,∈1,ε2,∈2,...,εj,∈j,...,εN,∈N],其中,εj和∈j分别表示在第j个时间节点时,目标车辆加速度和横摆角速度的控制系数。
优选的,所述智能体还包括价值网络,所述价值网络为多层感知机模型,包含1层输入层,2层隐藏层,1层输出层,网络权重记为wv;每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,所述价值网络的输入向量为所述状态向量s,输出向量是维度为1的状态价值V(s),所述状态价值V(s)用于评估当前状态,反应了当前状态对于完成轨迹规划任务的贡献程度。
优选的,所述目标函数表示为:
式中,KO表示静态障碍物数量,KV表示动态障碍物的数量,KO+KV=K;
式中,表示目标车辆在位置(xj,yj)与静态障碍物Oi的碰撞风险;G表示常系数,取值大于0;R表示道路环境状况系数,取值大于0,道路曲率、坡度越大,取值越大;rj表示目标车辆在位置(xj,yj)与静态障碍物位置在的距离;表示目标车辆在位置(xj,yj)时与第i个动态障碍物Vi的碰撞风险;η为大小0至1之间的时间衰减系数;ri,j目标车辆位置(xj,yj)与周围第i个动态障碍物的位置的距离;
舒适度用加速度和横摆角速度进行评价,表示为:
轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量,表示为:
式中,ζ′j和ζj分别表示时间节点tj时优化前、后的轨迹序列。
优选的,所述车辆运动学约束表示为:
所述控制变量范围约束表示为:
umin≤uj≤umax,ωmin≤ωj≤ωmax;
式中,umin、umax为加速度的最小、最大控制值;ωmin、ωmax为横摆角速度的最小、最大控制值;
车辆的纵向位置需要道路左右边界(Pl,Pr)内,且保持安全距离esafe:
Pl≤yj≤Pr;||yj-Pl||2≥esafe;||yj-Pr||2≥esafe;
所述无碰撞约束表示为:
式中,Lb、L、Lw、Lf分别为目标车辆的车辆轴距、车长、车宽以及前悬距。
优选的,所述强化学习算法选自近端策略优化算法、软演员评论家算法及深度确定性策略梯度算法中的一种。
优选的,所述奖励函数根据碰撞惩罚指标rc(s,ζ′)、到达目标点指标rg(s,ζ′)以及行驶速度指标rV(s,ζ′)进行建立,表示为:
r(s,ζ′)=rc(s,ζ′)+rg(s,ζ′)+rv(s,ζ′);
优选的,在所述智能体的训练过程中,需要对动作网络和价值网络的网络权值进行更新,具体步骤为:首先对动作网络权值wθ和价值网络权值wv进行正态初始化,使每个网络中每层间的权值分布为标准正态分布;随后将当前时刻的状态向量s输入动作网络,获得规划轨迹的初始解,然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪,车辆行驶0.1s后进行状态转移,构建下一个状态向量s1,并以此重新进行轨迹规划,直到车辆到达终点,若车辆到达终点,记终点标识d=1,反之记d=0;其中,每完成一次状态转移,则进行奖励函数以及状态价值的计算,同时增加一次交互次数。
本申请提供了一种基于强化学习的结构化道路车辆轨迹规划方法,基于强化学习的轨迹规划方法,通过构建行车风险场,将风险指标纳入优化函数中,提高了轨迹规划的安全性;通过智能体进行初始轨迹的求解,提高了轨迹规划在时空域下的计算效率;通过轨迹优化模型,基于轨迹初始解,进行轨迹优化,保证了生成轨迹的最优性和可行性。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供一种基于强化学习的结构化道路车辆轨迹规划方法,包括如下步骤:
S1:采集状态信息,所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息。
所述目标车辆为自动驾驶汽车,所述状态信息通过所述目标车辆上配置的环境感知传感器进行采集,所述环境感知传感器主要包括视觉类摄像机(包括单目、双目立体视觉、全景视觉及红外相机)和雷达类测距传感器(激光雷达、毫米波雷达、超声波雷达等)。
所述障碍物包括静态障碍物和动态障碍物,所述静态障碍物和所述动态障碍物根据障碍物当前时刻的状态进行区分,例如运行中的周围车辆为动态障碍物,抛锚的车辆为静态障碍物。道路边界信息为车道左右两侧边界线的位置。
S2:构建智能体,所述智能体包括状态空间、动作空间及动作网络,所述状态空间将采集的状态信息转换为状态向量,所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量;所述动作网络为多层感知机模型,将所述状态向量作为所述动作网络的输入,以所述动作网络的输出向量为基础构建多个正态分布,在正态分布中采样生成动作向量;所述动作空间以所述动作向量中的元素为基础,根据车辆运动学模型,规划目标车辆在未来te时间内的轨迹序列。
所述状态向量表示为:s=[sego,sV,sbound],其中,sego表示目标车辆的状态向量,sV表示障碍物的状态向量,sbound表示环境边界信息。以目标车辆当前时刻的位置为笛卡尔坐标系的原点,目标车辆的状态向量其中,x、y、ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度;障碍物的状态向量其中分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度;环境边界信息sbound=[dl,dr],其中,dl、dr分别表示目标车辆与车道左右两侧边界线的距离。
目标车辆在实际的行驶过程中,可观测范围内的障碍物数量存在不确定性,但是为了方便计算,障碍物的状态向量的维度应为定值,因此,需要设定一个最大可观测障碍物数目,记为K,则状态向量sV中的维度均为K,若实际观测到的障碍物数量小于K,则余位用0进行补位。以为例进行说明,若实际观测到的障碍物数量为κ(0≤κ≤K),则中第κ+1个至第K个元素用0进行补位。
所述动作网络为多层感知机模型,包括1层输入层,2层隐藏层及1层输出层,网络权重记为wθ,每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,输出层采用tanh函数激活,保证输出向量的值在-1至1之间。所述动作网络的输入向量为所述状态向量s,其维度为4K+8,输出向量的维度2N。将输出向量的值作为均值以为标准差σ,依次构建2N个正态分布最后在正态分布中采样获得动作向量,记为a=[ε1,∈1,ε2,∈2,...,εj,∈j,...,εN,∈N],其中,εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数。并将所选动作向量对应的概率向量记为
所述动作空间用于为目标车辆规划在未来te时间内的轨迹,轨迹规划的过程为:
根据车辆运动学模型,计算目标车辆在时间节点tj+1时的横、纵向位置,计算过程表示为:
在目标车辆的轨迹规划中,为了保证目标车辆行驶的稳定性,相邻两个时间节点下,速度和航向角变化,而加速度和横摆角速度恒定。计算目标车辆在时间节点tj+1时的速度和航向角,计算过程表示为:
vj+1=vj+εjumaxΔt;式中,vj+1和分别表示目标车辆在时间节点tj+1时的速度和航向角;εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数,其大小在-1至1之间;umax表示目标车辆加速度的最大控制值;ωmax表示目标车辆横摆角速度的最大控制值。
以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点,将所有时间节点下的轨迹点组合形成轨迹序列,表示为:
所述智能体还包括价值网络,所述价值网络为多层感知机模型,包含1层输入层,2层隐藏层,1层输出层,网络权重记为wv。每层的神经元数为64。输入层和隐藏层采用ReLU函数激活。所述价值网络的输入向量为所述状态向量s,输出向量是维度为1的状态价值V(s),所述状态价值V(s)用于评估当前状态,反应了当前状态对于完成轨迹规划任务的贡献程度,状态价值越大,贡献程度越高,智能体在进行轨迹规划时,有更大的概率到达状态价值更大的状态。
S3:构建轨迹优化模型,所述轨迹优化模型包括目标函数及约束条件,以步骤S2中目标车辆未来te时间内的轨迹序列作为所述轨迹优化模型的初始解,对规划的轨迹进行优化,利用非线性优化器,对轨迹优化问题进行求解,并且利用模型预测控制方法对生成的优化轨迹进行跟踪;其中,所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束。
所述目标函数表示为:
式中,KO表示静态障碍物数量,KV表示动态障碍物的数量,KO+KV=K;
式中,表示目标车辆在位置(xj,yj)与静态障碍物Oi的碰撞风险;G表示常系数,取值大于0;R表示道路环境状况系数,取值大于0,道路曲率、坡度越大,取值越大;rj表示目标车辆在位置(xj,yj)与静态障碍物位置在的距离;表示目标车辆在位置(xj,yj)时与第i个动态障碍物Vi的碰撞风险;η为大小0至1之间的时间衰减系数;ri,j目标车辆位置(xj,yj)与周围第i个动态障碍物的位置的距离;
舒适度用加速度和横摆角速度进行评价,表示为:
轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量,表示为:
式中,ζ′j和ζj分别表示时间节点tj时优化前、后的轨迹序列。
在轨迹规划中,还需要满足一定的约束条件,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束。
根据车辆运动学模型构建运动学约束:
目标车辆的加速度和横摆角速度还需要在控制值的区间范围内:
umin≤uj≤umax,ωmin≤ωj≤ωmax。
式中,umin、umax为加速度的最小、最大控制值;ωmin、ωmax为横摆角速度的最小、最大控制值。
为保证所规划轨迹的安全性,需要使车辆行驶在车道范围内,因此车辆的纵向位置需要道路左右边界(Pl,Pr)内,且保持安全距离esafe:
Pl≤yj≤Pr;||yj-Pl||2≥esafe;||yj-Pr||2≥esafe。
式中,Lb、L、Lw、Lf分别为目标车辆的车辆轴距、车长、车宽以及前悬距。
利用大于1的安全系数αsafe,建立如下无碰撞不等式约束:
需要说明的是,对于静态障碍物而言,其保持静止状态,因此静态障碍物在时间节点tj时的位置与当前时刻的位置相同;对于动态障碍物而言,其保持运动状态,在时间节点tj时的位置与当前时刻的位置不同,可以根据本领域常规的预测方式进行预测。
所述非线性优化器为IPOPT求解器。
S4:定义奖励函数,并在仿真环境中,利用强化学习算法训练所述智能体;训练完成后,采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。
所述强化学习算法选自近端策略优化算法(Proximal Policy Optimization,PPO)、软演员评论家算法(Soft Actor Critic,SAC)及深度确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)中的一种。
所述奖励函数根据碰撞惩罚指标rc(s,ζ′)、到达目标点指标rg(s,ζ′)以及行驶速度指标rv(s,ζ′)进行建立,表示为:
r(s,ζ′)=rc(s,ζ′)+rg(s,ζ′)+rv(s,ζ′);
在所述智能体的训练过程中,需要对动作网络和价值网络的网络权值进行更新。具体步骤为:首先对动作网络权值wθ和价值网络权值wv进行正态初始化,使每个网络中每层间的权值分布为标准正态分布;随后将当前时刻的状态向量s输入动作网络,获得规划轨迹的初始解,然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪。由于轨迹规划频率设定为10Hz,因此车辆行驶0.1s后进行状态转移,构建下一个状态向量s1,并以此重新进行轨迹规划,直到车辆到达终点。若车辆到达终点,记终点标识d=1,反之记d=0。
其中,每完成一次状态转移,则进行奖励函数以及状态价值的计算与相关数据的存储,同时增加一次交互次数。将状态向量s,动作网络输出的动作向量a,动作向量对应的概率大小下一个状态向量s′,奖励值r,状态价值V(s)以及终点标识d存放在大小为B的缓冲区D内,记为当缓冲区存满数据后,利用缓冲区内的数据对神经网络权重进行更新,动作网络和价值网络分别更新80次。更新完成后,清空缓冲区内的数据,智能体继续和仿真环境进行交互。
其中,动作网络损失函数计算公式如下:
式中,ρt(wθ)为新旧动作网络生成动作的概率比值同一批数据将进行多次迭代更新,为更新之前的动作网络权重参数。为优势函数,其计算公式 γ和λ分别为折扣因子和优势因子,依次选取为0.99和0.97;μ为更新范围阈值,取0.2;clip函数表示如果概率比值ρt(wθ)大于1.2,则返回1.2,如果小于0.8,则返回0.8,如果在0.8至1.2之间,则不变。
其中,价值网络损失函数计算公式如下:
上面对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。
Claims (10)
1.一种基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,包括如下步骤:
S1:采集状态信息,所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息;
S2:构建智能体,所述智能体包括状态空间、动作空间及动作网络,所述状态空间将采集的状态信息转换为状态向量,所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量;所述动作网络为多层感知机模型,将所述状态向量作为所述动作网络的输入,以所述动作网络的输出向量为基础构建多个正态分布,在正态分布中采样生成动作向量;所述动作空间以所述动作向量中的元素为基础,根据车辆运动学模型,规划目标车辆在未来te时间内的轨迹序列;
S3:构建轨迹优化模型,所述轨迹优化模型包括目标函数及约束条件,以步骤S2中目标车辆未来te时间内的轨迹序列作为所述轨迹优化模型的初始解,对规划的轨迹进行优化,利用非线性优化器,对轨迹优化问题进行求解,并且利用模型预测控制方法对生成的优化轨迹进行跟踪;其中,所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束;
S4:定义奖励函数,并在仿真环境中,利用强化学习算法训练所述智能体;训练完成后,采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。
2.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述状态向量表示为:s=[sego,sV,sbound],其中,sego表示目标车辆的状态向量,sV表示障碍物的状态向量,sbound表示环境边界信息;目标车辆的状态向量其中,x、y、ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度;障碍物的状态向量其中分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度;环境边界信息sbound=[dl,dr],其中,dl、dr分别表示目标车辆与车道左右两侧边界线的距离;所述障碍物的状态向量中的维度均为K,K值为预设的最大可观测障碍物数目,若实际观测到的障碍物数量小于K,则余位用0进行补位。
3.根据权利要求2所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述动作空间用于为目标车辆规划在未来te时间内的轨迹,轨迹规划的过程为:
计算目标车辆在时间节点tj+1时的速度和航向角,计算过程表示为:
式中,vj+1和分别表示目标车辆在时间节点tj+1时的速度和航向角,εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数;umax表示目标车辆加速度的最大控制值;ωmax表示目标车辆横摆角速度的最大控制值;
以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点,将所有时间节点下的轨迹点组合形成轨迹序列,表示为:
5.根据权利要求4所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述智能体还包括价值网络,所述价值网络为多层感知机模型,包含1层输入层,2层隐藏层,1层输出层,网络权重记为wv;每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,所述价值网络的输入向量为所述状态向量s,输出向量是维度为1的状态价值V(s),所述状态价值V(s)用于评估当前状态,反应了当前状态对于完成轨迹规划任务的贡献程度。
6.根据权利要求5所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述目标函数表示为:
式中,表示目标车辆在位置(xj,yj)与静态障碍物Oi的碰撞风险;G表示常系数,取值大于0;R表示道路环境状况系数,取值大于0,道路曲率、坡度越大,取值越大;rj表示目标车辆在位置(xj,yj)与静态障碍物位置在的距离;表示目标车辆在位置(xj,yj)时与第i个动态障碍物Vi的碰撞风险;η为大小0至1之间的时间衰减系数;ri,j目标车辆位置(xj,yj)与周围第i个动态障碍物的位置的距离;
舒适度用加速度和横摆角速度进行评价,表示为:
轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量,表示为:
式中,ζ′j和ζj分别表示时间节点tj时优化前、后的轨迹序列。
7.根据权利要求6所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,
所述车辆运动学约束表示为:
所述控制变量范围约束表示为:
umin≤uj≤umax,ωmin≤ωj≤ωmax;
式中,umin、umax为加速度的最小、最大控制值;ωmin、ωmax为横摆角速度的最小、最大控制值;
车辆的纵向位置需要道路左右边界(Pl,Pr)内,且保持安全距离esafe:
Pl≤yj≤Pr;||yj-Pl||2≥esafe;||yj-Pr||2≥esafe;
所述无碰撞约束表示为:
式中,Lb、L、Lw、Lf分别为目标车辆的车辆轴距、车长、车宽以及前悬距。
8.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述强化学习算法选自近端策略优化算法、软演员评论家算法及深度确定性策略梯度算法中的一种。
10.根据权利要求7所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,在所述智能体的训练过程中,需要对动作网络和价值网络的网络权值进行更新,具体步骤为:首先对动作网络权值wθ和价值网络权值wv进行正态初始化,使每个网络中每层间的权值分布为标准正态分布;随后将当前时刻的状态向量s输入动作网络,获得规划轨迹的初始解,然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪,车辆行驶0.1s后进行状态转移,构建下一个状态向量s1,并以此重新进行轨迹规划,直到车辆到达终点,若车辆到达终点,记终点标识d=1,反之记d=0;其中,每完成一次状态转移,则进行奖励函数以及状态价值的计算,同时增加一次交互次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310195520.1A CN116161056A (zh) | 2023-03-03 | 2023-03-03 | 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310195520.1A CN116161056A (zh) | 2023-03-03 | 2023-03-03 | 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116161056A true CN116161056A (zh) | 2023-05-26 |
Family
ID=86413158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310195520.1A Pending CN116161056A (zh) | 2023-03-03 | 2023-03-03 | 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116161056A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117141520A (zh) * | 2023-10-31 | 2023-12-01 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种实时轨迹规划方法、装置和设备 |
-
2023
- 2023-03-03 CN CN202310195520.1A patent/CN116161056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117141520A (zh) * | 2023-10-31 | 2023-12-01 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种实时轨迹规划方法、装置和设备 |
CN117141520B (zh) * | 2023-10-31 | 2024-01-12 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种实时轨迹规划方法、装置和设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
WO2021135554A1 (zh) | 一种无人车全局路径规划方法和装置 | |
CN111273668B (zh) | 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法 | |
CN113495578B (zh) | 一种基于数字孪生式训练的集群航迹规划强化学习方法 | |
Naveed et al. | Trajectory planning for autonomous vehicles using hierarchical reinforcement learning | |
CN112347567A (zh) | 一种车辆意图和轨迹预测的方法 | |
CN115145281A (zh) | 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法 | |
CN110991972B (zh) | 一种基于多智能体强化学习的货物运输系统 | |
CN112162555A (zh) | 混合车队中基于强化学习控制策略的车辆控制方法 | |
CN114564016A (zh) | 一种结合路径规划和强化学习的导航避障控制方法、系统及模型 | |
CN116540731B (zh) | 融合堆叠lstm与sac算法的路径规划方法及系统 | |
CN111824182B (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN110631596A (zh) | 一种基于迁移学习的装备车辆路径规划方法 | |
CN113701780B (zh) | 基于a星算法的实时避障规划方法 | |
CN116161056A (zh) | 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
CN114399743A (zh) | 一种障碍物未来轨迹的生成方法 | |
CN115542733A (zh) | 基于深度强化学习的自适应动态窗口法 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
CN117636661A (zh) | 一种无信号交叉口完全自主交通流通行控制方法 | |
CN115691167A (zh) | 一种基于交叉口全息数据的单点交通信号控制方法 | |
EP4160478A1 (en) | Driving decision-making method, device, and chip | |
Basile et al. | Ddpg based end-to-end driving enhanced with safe anomaly detection functionality for autonomous vehicles | |
CN114609925B (zh) | 水下探索策略模型的训练方法及仿生机器鱼水下探索方法 | |
CN114153216B (zh) | 基于深度强化学习和块规划的月面路径规划系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |