CN116161056A - 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 - Google Patents

一种基于强化学习的结构化道路车辆轨迹规划方法与系统 Download PDF

Info

Publication number
CN116161056A
CN116161056A CN202310195520.1A CN202310195520A CN116161056A CN 116161056 A CN116161056 A CN 116161056A CN 202310195520 A CN202310195520 A CN 202310195520A CN 116161056 A CN116161056 A CN 116161056A
Authority
CN
China
Prior art keywords
track
target vehicle
time
vehicle
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310195520.1A
Other languages
English (en)
Inventor
徐彪
袁诗杰
李洋
秦晓辉
胡满江
边有钢
谢国涛
秦兆博
王晓伟
秦洪懋
丁荣军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202310195520.1A priority Critical patent/CN116161056A/zh
Publication of CN116161056A publication Critical patent/CN116161056A/zh
Pending legal-status Critical Current

Links

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/50Barriers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2552/00Input parameters relating to infrastructure
    • B60W2552/53Road markings, e.g. lane marker or crosswalk
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Mechanical Engineering (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Transportation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本申请公开了本申请提供了一种基于强化学习的结构化道路车辆轨迹规划方法,基于强化学习的轨迹规划方法,通过构建行车风险场,将风险指标纳入优化函数中,提高了轨迹规划的安全性;通过智能体进行初始轨迹的求解,提高了轨迹规划在时空域下的计算效率;通过轨迹优化模型,基于轨迹初始解,进行轨迹优化,保证了生成轨迹的最优性和可行性。

Description

一种基于强化学习的结构化道路车辆轨迹规划方法与系统
技术领域
本申请属于车辆轨迹规划技术领域,具体涉及一种基于强化学习的结构化道路车辆轨迹规划方法与系统。
背景技术
自动驾驶汽车具有在复杂环境下自主导航的能力,能够显著降低人为操作引起的交通事故发生概率,提高道路安全以及道路利用率,缓解交通拥堵。自动驾驶汽车的自动驾驶系统包含环境感知、地图与定位、轨迹预测、决策规划、运动控制等五个模块,其中决策规划模块是自动驾驶的核心部分,它结合高精地图以及感知技术获取的环境信息,在未来有限时域内规划出一条无碰撞的可行轨迹。
相关技术中,在结构化道路中的轨迹规划方法主要分为基于采样和基于优化两种。基于采样的方法将轨迹解耦成路径-速度分别进行规划,最后再合成获得轨迹,但该方法难以应用于具有动态障碍物的复杂场景;基于优化的方法通过将轨迹规划问题建模成非线性规划问题,再通过最优化算法进行求解,但该方法依赖于初始解的质量以及容易陷入局部最优解。
因此,实有必要提供一种基于强化学习的结构化道路车辆轨迹规划方法与系统。
发明内容
本申请实施例的目的是提供一种基于强化学习的结构化道路车辆轨迹规划方法与系统,通过构建行车风险场,将风险指标纳入优化函数中,提高了轨迹规划的安全性;通过智能体进行初始轨迹的求解,提高了轨迹规划在时空域下的计算效率;通过轨迹优化模型,基于轨迹初始解,进行轨迹优化,保证了生成轨迹的最优性和可行性。
为了解决上述技术问题,本申请是这样实现的:
一种基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,包括如下步骤:
S1:采集状态信息,所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息;
S2:构建智能体,所述智能体包括状态空间、动作空间及动作网络,所述状态空间将采集的状态信息转换为状态向量,所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量;所述动作网络为多层感知机模型,将所述状态向量作为所述动作网络的输入,以所述动作网络的输出向量为基础构建多个正态分布,在正态分布中采样生成动作向量;所述动作空间以所述动作向量中的元素为基础,根据车辆运动学模型,规划目标车辆在未来te时间内的轨迹序列;
S3:构建轨迹优化模型,所述轨迹优化模型包括目标函数及约束条件,以步骤S2中目标车辆未来te时间内的轨迹序列作为所述轨迹优化模型的初始解,对规划的轨迹进行优化,利用非线性优化器,对轨迹优化问题进行求解,并且利用模型预测控制方法对生成的优化轨迹进行跟踪;其中,所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束;
S4:定义奖励函数,并在仿真环境中,利用强化学习算法训练所述智能体;训练完成后,采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。
优选的,所述状态向量表示为:s=[sego,sV,sbound],其中,sego表示目标车辆的状态向量,sV表示障碍物的状态向量,sbound表示环境边界信息;目标车辆的状态向量
Figure BDA0004107016310000021
其中,x、y、
Figure BDA0004107016310000022
ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度;障碍物的状态向量
Figure BDA0004107016310000023
其中
Figure BDA0004107016310000024
分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度;环境边界信息sbound=[dl,dr],其中,dl、dr分别表示目标车辆与车道左右两侧边界线的距离;所述障碍物的状态向量中
Figure BDA0004107016310000025
的维度均为K,K值为预设的最大可观测障碍物数目,若实际观测到的障碍物数量小于K,则余位用0进行补位。
优选的,所述动作空间用于为目标车辆规划在未来te时间内的轨迹,轨迹规划的过程为:
将时间te划分为N个时间节点,得到时间序列
Figure BDA0004107016310000031
式中,tj表示第j个时间节点,tj=jΔt,Δt表示相邻两个时间节点的间隔;T表示向量转置;
计算目标车辆在时间节点tj+1时的横、纵向位置,计算过程表示为:
Figure BDA0004107016310000032
式中,vj
Figure BDA0004107016310000033
分别表示目标车辆在时间节点tj时的速度和航向角;xj+1和yj+1分别表示目标车辆在时间节点tj+1时的横、纵向位置;xj和yj分别表示目标车辆在时间节点tj时的横、纵向位置;
计算目标车辆在时间节点tj+1时的速度和航向角,计算过程表示为:
vj+1=vjjumaxΔt;
Figure BDA0004107016310000034
式中,vj+1
Figure BDA0004107016310000035
分别表示目标车辆在时间节点tj+1时的速度和航向角,εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数;umax表示目标车辆加速度的最大控制值;ωmax表示目标车辆横摆角速度的最大控制值;
以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点,将所有时间节点下的轨迹点组合形成轨迹序列,表示为:
Figure BDA0004107016310000036
式中,x1,y1,v1
Figure BDA0004107016310000037
表示目标车辆在时间节点t1时的轨迹点;xj,yj,vj
Figure BDA0004107016310000038
表示目标车辆在时间节点tj时的轨迹点;xN,yN,vN
Figure BDA0004107016310000039
表示目标车辆在时间节点te时的轨迹点。
优选的,所述动作网络为多层感知机模型,包括1层输入层,2层隐藏层及1层输出层,网络权重记为wθ,每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,输出层采用tanh函数激活;所述动作网络的输入向量为所述状态向量s,其维度为4K+8,输出向量的维度2N,将输出向量的值作为均值
Figure BDA00041070163100000312
Figure BDA00041070163100000310
为标准差σ,依次构建2N个正态分布
Figure BDA00041070163100000311
最后在正态分布中采样获得动作向量,记为a=[ε1,∈1,ε2,∈2,...,εj,∈j,...,εN,∈N],其中,εj和∈j分别表示在第j个时间节点时,目标车辆加速度和横摆角速度的控制系数。
优选的,所述智能体还包括价值网络,所述价值网络为多层感知机模型,包含1层输入层,2层隐藏层,1层输出层,网络权重记为wv;每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,所述价值网络的输入向量为所述状态向量s,输出向量是维度为1的状态价值V(s),所述状态价值V(s)用于评估当前状态,反应了当前状态对于完成轨迹规划任务的贡献程度。
优选的,所述目标函数表示为:
Figure BDA0004107016310000041
式中,Je表示道路风险程度指标,
Figure BDA0004107016310000042
表示道路风险程度指标的权重;Jr表示舒适度,
Figure BDA0004107016310000043
表示舒适度的权重;Jo表示轨迹偏移程度,
Figure BDA0004107016310000044
轨迹偏移程度的权重;
道路风险程度指标Je用静态障碍物风险场
Figure BDA0004107016310000045
和动态障碍物风险场
Figure BDA0004107016310000046
来进行评价,表示为:
Figure BDA0004107016310000047
式中,KO表示静态障碍物数量,KV表示动态障碍物的数量,KO+KV=K;
Figure BDA0004107016310000048
表示静态障碍物风险场的权重,
Figure BDA0004107016310000049
表示动态障碍物风险场的权重;
Figure BDA00041070163100000410
Figure BDA00041070163100000411
式中,
Figure BDA00041070163100000412
表示目标车辆在位置(xj,yj)与静态障碍物Oi的碰撞风险;G表示常系数,取值大于0;R表示道路环境状况系数,取值大于0,道路曲率、坡度越大,取值越大;rj表示目标车辆在位置(xj,yj)与静态障碍物位置
Figure BDA00041070163100000413
在的距离;
Figure BDA00041070163100000414
表示目标车辆在位置(xj,yj)时与第i个动态障碍物Vi的碰撞风险;η为大小0至1之间的时间衰减系数;ri,j目标车辆位置(xj,yj)与周围第i个动态障碍物的位置的距离;
舒适度用加速度和横摆角速度进行评价,表示为:
Figure BDA00041070163100000415
轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量,表示为:
Figure BDA00041070163100000416
式中,ζ′j和ζj分别表示时间节点tj时优化前、后的轨迹序列。
优选的,所述车辆运动学约束表示为:
Figure BDA0004107016310000051
vj+1=vj+ujΔt;
Figure BDA0004107016310000052
所述控制变量范围约束表示为:
umin≤uj≤umax,ωmin≤ωj≤ωmax
式中,umin、umax为加速度的最小、最大控制值;ωmin、ωmax为横摆角速度的最小、最大控制值;
车辆的纵向位置需要道路左右边界(Pl,Pr)内,且保持安全距离esafe
Pl≤yj≤Pr;||yj-Pl||2≥esafe;||yj-Pr||2≥esafe
所述无碰撞约束表示为:
Figure BDA0004107016310000053
式中,
Figure BDA0004107016310000054
分别表示障碍物Vi在时间节点tj时的横、纵位置;αsafe表示大于1的安全系数;利用Nc个单位圆将目标车辆的车身完全覆盖,
Figure BDA0004107016310000055
表示第c个单位圆的圆心坐标,dc表示第c个单位圆的半径;
Figure BDA0004107016310000056
Figure BDA0004107016310000057
Figure BDA0004107016310000058
式中,Lb、L、Lw、Lf分别为目标车辆的车辆轴距、车长、车宽以及前悬距。
优选的,所述强化学习算法选自近端策略优化算法、软演员评论家算法及深度确定性策略梯度算法中的一种。
优选的,所述奖励函数根据碰撞惩罚指标rc(s,ζ′)、到达目标点指标rg(s,ζ′)以及行驶速度指标rV(s,ζ′)进行建立,表示为:
r(s,ζ′)=rc(s,ζ′)+rg(s,ζ′)+rv(s,ζ′);
Figure BDA0004107016310000059
Figure BDA00041070163100000510
Figure BDA0004107016310000061
式中,vmax是目标车辆速度的最大控制值,
Figure BDA0004107016310000062
是目标车辆规划轨迹的平均速度。
优选的,在所述智能体的训练过程中,需要对动作网络和价值网络的网络权值进行更新,具体步骤为:首先对动作网络权值wθ和价值网络权值wv进行正态初始化,使每个网络中每层间的权值分布为标准正态分布;随后将当前时刻的状态向量s输入动作网络,获得规划轨迹的初始解,然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪,车辆行驶0.1s后进行状态转移,构建下一个状态向量s1,并以此重新进行轨迹规划,直到车辆到达终点,若车辆到达终点,记终点标识d=1,反之记d=0;其中,每完成一次状态转移,则进行奖励函数以及状态价值的计算,同时增加一次交互次数。
本申请提供了一种基于强化学习的结构化道路车辆轨迹规划方法,基于强化学习的轨迹规划方法,通过构建行车风险场,将风险指标纳入优化函数中,提高了轨迹规划的安全性;通过智能体进行初始轨迹的求解,提高了轨迹规划在时空域下的计算效率;通过轨迹优化模型,基于轨迹初始解,进行轨迹优化,保证了生成轨迹的最优性和可行性。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供一种基于强化学习的结构化道路车辆轨迹规划方法,包括如下步骤:
S1:采集状态信息,所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息。
所述目标车辆为自动驾驶汽车,所述状态信息通过所述目标车辆上配置的环境感知传感器进行采集,所述环境感知传感器主要包括视觉类摄像机(包括单目、双目立体视觉、全景视觉及红外相机)和雷达类测距传感器(激光雷达、毫米波雷达、超声波雷达等)。
所述障碍物包括静态障碍物和动态障碍物,所述静态障碍物和所述动态障碍物根据障碍物当前时刻的状态进行区分,例如运行中的周围车辆为动态障碍物,抛锚的车辆为静态障碍物。道路边界信息为车道左右两侧边界线的位置。
S2:构建智能体,所述智能体包括状态空间、动作空间及动作网络,所述状态空间将采集的状态信息转换为状态向量,所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量;所述动作网络为多层感知机模型,将所述状态向量作为所述动作网络的输入,以所述动作网络的输出向量为基础构建多个正态分布,在正态分布中采样生成动作向量;所述动作空间以所述动作向量中的元素为基础,根据车辆运动学模型,规划目标车辆在未来te时间内的轨迹序列。
所述状态向量表示为:s=[sego,sV,sbound],其中,sego表示目标车辆的状态向量,sV表示障碍物的状态向量,sbound表示环境边界信息。以目标车辆当前时刻的位置为笛卡尔坐标系的原点,目标车辆的状态向量
Figure BDA0004107016310000071
其中,x、y、
Figure BDA0004107016310000072
ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度;障碍物的状态向量
Figure BDA0004107016310000073
其中
Figure BDA0004107016310000074
分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度;环境边界信息sbound=[dl,dr],其中,dl、dr分别表示目标车辆与车道左右两侧边界线的距离。
目标车辆在实际的行驶过程中,可观测范围内的障碍物数量存在不确定性,但是为了方便计算,障碍物的状态向量的维度应为定值,因此,需要设定一个最大可观测障碍物数目,记为K,则状态向量sV中
Figure BDA0004107016310000075
的维度均为K,若实际观测到的障碍物数量小于K,则余位用0进行补位。以
Figure BDA0004107016310000076
为例进行说明,若实际观测到的障碍物数量为κ(0≤κ≤K),则
Figure BDA0004107016310000078
中第κ+1个至第K个元素用0进行补位。
所述动作网络为多层感知机模型,包括1层输入层,2层隐藏层及1层输出层,网络权重记为wθ,每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,输出层采用tanh函数激活,保证输出向量的值在-1至1之间。所述动作网络的输入向量为所述状态向量s,其维度为4K+8,输出向量的维度2N。将输出向量的值作为均值
Figure BDA0004107016310000079
Figure BDA0004107016310000077
为标准差σ,依次构建2N个正态分布
Figure BDA0004107016310000081
最后在正态分布中采样获得动作向量,记为a=[ε1,∈1,ε2,∈2,...,εj,∈j,...,εN,∈N],其中,εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数。并将所选动作向量对应的概率向量记为
Figure BDA0004107016310000082
所述动作空间用于为目标车辆规划在未来te时间内的轨迹,轨迹规划的过程为:
将时间te划分为N个时间节点,得到时间序列
Figure BDA0004107016310000083
式中,tj表示第j个时间节点,tj=jΔt,Δt表示相邻两个时间节点的间隔;T表示向量转置;
根据车辆运动学模型,计算目标车辆在时间节点tj+1时的横、纵向位置,计算过程表示为:
Figure BDA0004107016310000084
式中,vj
Figure BDA0004107016310000085
分别表示目标车辆在时间节点tj时的速度和航向角;xj+1和yj+1分别表示目标车辆在时间节点tj+1时的横、纵向位置;xj和yj分别表示目标车辆在时间节点tj时的横、纵向位置。
在目标车辆的轨迹规划中,为了保证目标车辆行驶的稳定性,相邻两个时间节点下,速度和航向角变化,而加速度和横摆角速度恒定。计算目标车辆在时间节点tj+1时的速度和航向角,计算过程表示为:
vj+1=vjjumaxΔt;
Figure BDA0004107016310000086
式中,vj+1
Figure BDA0004107016310000087
分别表示目标车辆在时间节点tj+1时的速度和航向角;εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数,其大小在-1至1之间;umax表示目标车辆加速度的最大控制值;ωmax表示目标车辆横摆角速度的最大控制值。
以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点,将所有时间节点下的轨迹点组合形成轨迹序列,表示为:
Figure BDA0004107016310000088
式中,x1,y1,v1
Figure BDA0004107016310000089
表示目标车辆在时间节点t1时的轨迹点;xj,vj,vj
Figure BDA00041070163100000810
表示目标车辆在时间节点tj时的轨迹点;xN,yN,vN
Figure BDA00041070163100000811
表示目标车辆在时间节点te时的轨迹点。
所述智能体还包括价值网络,所述价值网络为多层感知机模型,包含1层输入层,2层隐藏层,1层输出层,网络权重记为wv。每层的神经元数为64。输入层和隐藏层采用ReLU函数激活。所述价值网络的输入向量为所述状态向量s,输出向量是维度为1的状态价值V(s),所述状态价值V(s)用于评估当前状态,反应了当前状态对于完成轨迹规划任务的贡献程度,状态价值越大,贡献程度越高,智能体在进行轨迹规划时,有更大的概率到达状态价值更大的状态。
S3:构建轨迹优化模型,所述轨迹优化模型包括目标函数及约束条件,以步骤S2中目标车辆未来te时间内的轨迹序列作为所述轨迹优化模型的初始解,对规划的轨迹进行优化,利用非线性优化器,对轨迹优化问题进行求解,并且利用模型预测控制方法对生成的优化轨迹进行跟踪;其中,所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束。
所述目标函数表示为:
Figure BDA0004107016310000091
式中,Je表示道路风险程度指标,
Figure BDA0004107016310000092
表示道路风险程度指标的权重;Jr表示舒适度,
Figure BDA0004107016310000093
表示舒适度的权重;Jo表示轨迹偏移程度,
Figure BDA0004107016310000094
轨迹偏移程度的权重。
在目标车辆行驶过程中,距离障碍物越近,则碰撞的风险程度越高,道路风险程度指标Je用静态障碍物风险场
Figure BDA0004107016310000095
和动态障碍物风险场
Figure BDA0004107016310000096
来进行评价,表示为:
Figure BDA0004107016310000097
式中,KO表示静态障碍物数量,KV表示动态障碍物的数量,KO+KV=K;
Figure BDA0004107016310000098
表示静态障碍物风险场的权重,
Figure BDA0004107016310000099
表示动态障碍物风险场的权重;
Figure BDA00041070163100000910
Figure BDA00041070163100000911
式中,
Figure BDA00041070163100000912
表示目标车辆在位置(xj,yj)与静态障碍物Oi的碰撞风险;G表示常系数,取值大于0;R表示道路环境状况系数,取值大于0,道路曲率、坡度越大,取值越大;rj表示目标车辆在位置(xj,yj)与静态障碍物位置
Figure BDA0004107016310000101
在的距离;
Figure BDA0004107016310000102
表示目标车辆在位置(xj,yj)时与第i个动态障碍物Vi的碰撞风险;η为大小0至1之间的时间衰减系数;ri,j目标车辆位置(xj,yj)与周围第i个动态障碍物的位置的距离;
舒适度用加速度和横摆角速度进行评价,表示为:
Figure BDA0004107016310000103
轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量,表示为:
Figure BDA0004107016310000104
式中,ζ′j和ζj分别表示时间节点tj时优化前、后的轨迹序列。
在轨迹规划中,还需要满足一定的约束条件,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束。
根据车辆运动学模型构建运动学约束:
Figure BDA0004107016310000105
vj+1=vj+ujΔt;
Figure BDA0004107016310000106
目标车辆的加速度和横摆角速度还需要在控制值的区间范围内:
umin≤uj≤umax,ωmin≤ωj≤ωmax
式中,umin、umax为加速度的最小、最大控制值;ωmin、ωmax为横摆角速度的最小、最大控制值。
为保证所规划轨迹的安全性,需要使车辆行驶在车道范围内,因此车辆的纵向位置需要道路左右边界(Pl,Pr)内,且保持安全距离esafe
Pl≤yj≤Pr;||yj-Pl||2≥esafe;||yj-Pr||2≥esafe
目标车辆的规划轨迹还需与障碍物满足无碰撞约束。利用Nc个单位圆将目标车辆的车身完全覆盖,第c个单位圆的圆心坐标
Figure BDA0004107016310000107
以及半径dc利用下式获得:
Figure BDA0004107016310000108
Figure BDA0004107016310000109
Figure BDA0004107016310000111
式中,Lb、L、Lw、Lf分别为目标车辆的车辆轴距、车长、车宽以及前悬距。
利用大于1的安全系数αsafe,建立如下无碰撞不等式约束:
Figure BDA0004107016310000112
式中,
Figure BDA0004107016310000113
分别表示障碍物Vi在时间节点tj时的横、纵位置。
需要说明的是,对于静态障碍物而言,其保持静止状态,因此静态障碍物在时间节点tj时的位置与当前时刻的位置相同;对于动态障碍物而言,其保持运动状态,在时间节点tj时的位置与当前时刻的位置不同,可以根据本领域常规的预测方式进行预测。
所述非线性优化器为IPOPT求解器。
S4:定义奖励函数,并在仿真环境中,利用强化学习算法训练所述智能体;训练完成后,采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。
所述强化学习算法选自近端策略优化算法(Proximal Policy Optimization,PPO)、软演员评论家算法(Soft Actor Critic,SAC)及深度确定性策略梯度算法(DeepDeterministic Policy Gradient,DDPG)中的一种。
所述奖励函数根据碰撞惩罚指标rc(s,ζ′)、到达目标点指标rg(s,ζ′)以及行驶速度指标rv(s,ζ′)进行建立,表示为:
r(s,ζ′)=rc(s,ζ′)+rg(s,ζ′)+rv(s,ζ′);
Figure BDA0004107016310000114
Figure BDA0004107016310000115
Figure BDA0004107016310000116
式中,vmax是目标车辆速度的最大控制值,
Figure BDA0004107016310000117
是规划轨迹的平均速度。
在所述智能体的训练过程中,需要对动作网络和价值网络的网络权值进行更新。具体步骤为:首先对动作网络权值wθ和价值网络权值wv进行正态初始化,使每个网络中每层间的权值分布为标准正态分布;随后将当前时刻的状态向量s输入动作网络,获得规划轨迹的初始解,然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪。由于轨迹规划频率设定为10Hz,因此车辆行驶0.1s后进行状态转移,构建下一个状态向量s1,并以此重新进行轨迹规划,直到车辆到达终点。若车辆到达终点,记终点标识d=1,反之记d=0。
其中,每完成一次状态转移,则进行奖励函数以及状态价值的计算与相关数据的存储,同时增加一次交互次数。将状态向量s,动作网络输出的动作向量a,动作向量对应的概率大小
Figure BDA0004107016310000121
下一个状态向量s′,奖励值r,状态价值V(s)以及终点标识d存放在大小为B的缓冲区D内,记为
Figure BDA0004107016310000122
当缓冲区存满数据后,利用缓冲区内的数据对神经网络权重进行更新,动作网络和价值网络分别更新80次。更新完成后,清空缓冲区内的数据,智能体继续和仿真环境进行交互。
其中,动作网络损失函数计算公式如下:
Figure BDA0004107016310000123
式中,ρt(wθ)为新旧动作网络生成动作的概率比值
Figure BDA0004107016310000124
同一批数据将进行多次迭代更新,
Figure BDA0004107016310000125
为更新之前的动作网络权重参数。
Figure BDA0004107016310000126
为优势函数,其计算公式
Figure BDA0004107016310000127
Figure BDA0004107016310000128
γ和λ分别为折扣因子和优势因子,依次选取为0.99和0.97;μ为更新范围阈值,取0.2;clip函数表示如果概率比值ρt(wθ)大于1.2,则返回1.2,如果小于0.8,则返回0.8,如果在0.8至1.2之间,则不变。
其中,价值网络损失函数计算公式如下:
Figure BDA0004107016310000129
上面对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,包括如下步骤:
S1:采集状态信息,所述状态信息包括当前时刻目标车辆的状态信息、障碍物的状态信息及道路边界信息;
S2:构建智能体,所述智能体包括状态空间、动作空间及动作网络,所述状态空间将采集的状态信息转换为状态向量,所述状态向量包括目标车辆状态向量、障碍物状态向量及道路边界向量;所述动作网络为多层感知机模型,将所述状态向量作为所述动作网络的输入,以所述动作网络的输出向量为基础构建多个正态分布,在正态分布中采样生成动作向量;所述动作空间以所述动作向量中的元素为基础,根据车辆运动学模型,规划目标车辆在未来te时间内的轨迹序列;
S3:构建轨迹优化模型,所述轨迹优化模型包括目标函数及约束条件,以步骤S2中目标车辆未来te时间内的轨迹序列作为所述轨迹优化模型的初始解,对规划的轨迹进行优化,利用非线性优化器,对轨迹优化问题进行求解,并且利用模型预测控制方法对生成的优化轨迹进行跟踪;其中,所述目标函数为包含道路风险程度、舒适度以及轨迹点偏移程度三项指标的加权和,所述约束条件包括车辆运动学约束、控制变量范围约束以及无碰撞约束;
S4:定义奖励函数,并在仿真环境中,利用强化学习算法训练所述智能体;训练完成后,采用所述智能体和所述轨迹优化模型一同用于车辆的轨迹规划。
2.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述状态向量表示为:s=[sego,sV,sbound],其中,sego表示目标车辆的状态向量,sV表示障碍物的状态向量,sbound表示环境边界信息;目标车辆的状态向量
Figure FDA0004107016300000011
其中,x、y、
Figure FDA0004107016300000012
ω、v、u分别表示目标车辆的横向位置、纵向位置、航向角、横摆角速度、速度及加速度;障碍物的状态向量
Figure FDA0004107016300000013
其中
Figure FDA0004107016300000014
分别表示目标与障碍物的横向相对距离、纵向相对距离、横向相对速度及纵向相对速度;环境边界信息sbound=[dl,dr],其中,dl、dr分别表示目标车辆与车道左右两侧边界线的距离;所述障碍物的状态向量中
Figure FDA0004107016300000021
的维度均为K,K值为预设的最大可观测障碍物数目,若实际观测到的障碍物数量小于K,则余位用0进行补位。
3.根据权利要求2所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述动作空间用于为目标车辆规划在未来te时间内的轨迹,轨迹规划的过程为:
将时间te划分为N个时间节点,得到时间序列
Figure FDA0004107016300000022
式中,tj表示第j个时间节点,tj=jΔt,Δt表示相邻两个时间节点的间隔;T表示向量转置;
计算目标车辆在时间节点tj+1时的横、纵向位置,计算过程表示为:
Figure FDA0004107016300000023
式中,vj
Figure FDA0004107016300000024
分别表示目标车辆在时间节点tj时的速度和航向角;xj+1和yj+1分别表示目标车辆在时间节点tj+1时的横、纵向位置;xj和yj分别表示目标车辆在时间节点tj时的横、纵向位置;
计算目标车辆在时间节点tj+1时的速度和航向角,计算过程表示为:
vj+1=vjjumaxΔt;
Figure FDA0004107016300000025
式中,vj+1
Figure FDA0004107016300000026
分别表示目标车辆在时间节点tj+1时的速度和航向角,εj和∈j分别表示在第j个时间节点加速度和横摆角速度的控制系数;umax表示目标车辆加速度的最大控制值;ωmax表示目标车辆横摆角速度的最大控制值;
以所述目标车辆在任意时间节点下的横向位置、纵向位置、速度和航向角来表征目标车辆的轨迹点,将所有时间节点下的轨迹点组合形成轨迹序列,表示为:
Figure FDA0004107016300000027
式中,x1,y1,v1,
Figure FDA0004107016300000028
表示目标车辆在时间节点t1时的轨迹点;xj,yj,vj,
Figure FDA0004107016300000029
表示目标车辆在时间节点tj时的轨迹点;xN,yN,vN,
Figure FDA00041070163000000210
表示目标车辆在时间节点te时的轨迹点。
4.根据权利要求3所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述动作网络为多层感知机模型,包括1层输入层,2层隐藏层及1层输出层,网络权重记为wθ,每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,输出层采用tanh函数激活;所述动作网络的输入向量为所述状态向量s,其维度为4K+8,输出向量的维度2N,将输出向量的值作为均值
Figure FDA00041070163000000311
Figure FDA0004107016300000031
为标准差σ,依次构建2N个正态分布
Figure FDA0004107016300000032
最后在正态分布中采样获得动作向量,记为a=[ε1,∈12,∈2,…,εj,∈j,…,εN,∈N],其中,εj和∈j分别表示在第j个时间节点时,目标车辆加速度和横摆角速度的控制系数。
5.根据权利要求4所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述智能体还包括价值网络,所述价值网络为多层感知机模型,包含1层输入层,2层隐藏层,1层输出层,网络权重记为wv;每层的神经元数为64,输入层和隐藏层采用ReLU函数激活,所述价值网络的输入向量为所述状态向量s,输出向量是维度为1的状态价值V(s),所述状态价值V(s)用于评估当前状态,反应了当前状态对于完成轨迹规划任务的贡献程度。
6.根据权利要求5所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述目标函数表示为:
Figure FDA0004107016300000033
式中,Je表示道路风险程度指标,
Figure FDA0004107016300000034
表示道路风险程度指标的权重;Jr表示舒适度,
Figure FDA0004107016300000035
表示舒适度的权重;Jo表示轨迹偏移程度,
Figure FDA0004107016300000036
轨迹偏移程度的权重;
道路风险程度指标Je用静态障碍物风险场
Figure FDA00041070163000000312
和动态障碍物风险场
Figure FDA00041070163000000313
来进行评价,表示为:
Figure FDA0004107016300000037
式中,KO表示静态障碍物数量,KV表示动态障碍物的数量,KO+KV=K;
Figure FDA00041070163000000314
表示静态障碍物风险场的权重,
Figure FDA00041070163000000315
表示动态障碍物风险场的权重;
Figure FDA0004107016300000038
Figure FDA0004107016300000039
式中,
Figure FDA00041070163000000316
表示目标车辆在位置(xj,yj)与静态障碍物Oi的碰撞风险;G表示常系数,取值大于0;R表示道路环境状况系数,取值大于0,道路曲率、坡度越大,取值越大;rj表示目标车辆在位置(xj,yj)与静态障碍物位置
Figure FDA00041070163000000310
在的距离;
Figure FDA0004107016300000041
表示目标车辆在位置(xj,yj)时与第i个动态障碍物Vi的碰撞风险;η为大小0至1之间的时间衰减系数;ri,j目标车辆位置(xj,yj)与周围第i个动态障碍物的位置的距离;
舒适度用加速度和横摆角速度进行评价,表示为:
Figure FDA0004107016300000042
轨迹偏移程度指优化后轨迹ζ′与轨迹初始解ζ之间的偏移量,表示为:
Figure FDA0004107016300000043
式中,ζ′j和ζj分别表示时间节点tj时优化前、后的轨迹序列。
7.根据权利要求6所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,
所述车辆运动学约束表示为:
Figure FDA0004107016300000044
vj+1=vj+ujΔt;
Figure FDA0004107016300000045
所述控制变量范围约束表示为:
umin≤uj≤umax,ωmin≤ωj≤ωmax
式中,umin、umax为加速度的最小、最大控制值;ωmin、ωmax为横摆角速度的最小、最大控制值;
车辆的纵向位置需要道路左右边界(Pl,Pr)内,且保持安全距离esafe
Pl≤yj≤Pr;||yj-Pl||2≥esafe;||yj-Pr||2≥esafe
所述无碰撞约束表示为:
Figure FDA0004107016300000046
式中,
Figure FDA0004107016300000047
分别表示障碍物Vi在时间节点tj时的横、纵位置;αsafe表示大于1的安全系数;利用Nc个单位圆将目标车辆的车身完全覆盖,
Figure FDA0004107016300000048
表示第c个单位圆的圆心坐标,dc表示第c个单位圆的半径;
Figure FDA0004107016300000049
Figure FDA00041070163000000410
Figure FDA00041070163000000411
式中,Lb、L、Lw、Lf分别为目标车辆的车辆轴距、车长、车宽以及前悬距。
8.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述强化学习算法选自近端策略优化算法、软演员评论家算法及深度确定性策略梯度算法中的一种。
9.根据权利要求1所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,所述奖励函数根据碰撞惩罚指标rc(s,ζ′)、到达目标点指标rg(s,ζ′)以及行驶速度指标rv(s,ζ′)进行建立,表示为:
r(s,ζ′)=rc(s,ζ′)+rg(s,ζ′)+rv(s,ζ′);
Figure FDA0004107016300000051
Figure FDA0004107016300000052
Figure FDA0004107016300000053
式中,vmax是目标车辆速度的最大控制值,
Figure FDA0004107016300000054
是目标车辆规划轨迹的平均速度。
10.根据权利要求7所述的基于强化学习的结构化道路车辆轨迹规划方法,其特征在于,在所述智能体的训练过程中,需要对动作网络和价值网络的网络权值进行更新,具体步骤为:首先对动作网络权值wθ和价值网络权值wv进行正态初始化,使每个网络中每层间的权值分布为标准正态分布;随后将当前时刻的状态向量s输入动作网络,获得规划轨迹的初始解,然后进行轨迹优化并以轨迹跟踪频率100Hz进行轨迹跟踪,车辆行驶0.1s后进行状态转移,构建下一个状态向量s1,并以此重新进行轨迹规划,直到车辆到达终点,若车辆到达终点,记终点标识d=1,反之记d=0;其中,每完成一次状态转移,则进行奖励函数以及状态价值的计算,同时增加一次交互次数。
CN202310195520.1A 2023-03-03 2023-03-03 一种基于强化学习的结构化道路车辆轨迹规划方法与系统 Pending CN116161056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310195520.1A CN116161056A (zh) 2023-03-03 2023-03-03 一种基于强化学习的结构化道路车辆轨迹规划方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310195520.1A CN116161056A (zh) 2023-03-03 2023-03-03 一种基于强化学习的结构化道路车辆轨迹规划方法与系统

Publications (1)

Publication Number Publication Date
CN116161056A true CN116161056A (zh) 2023-05-26

Family

ID=86413158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310195520.1A Pending CN116161056A (zh) 2023-03-03 2023-03-03 一种基于强化学习的结构化道路车辆轨迹规划方法与系统

Country Status (1)

Country Link
CN (1) CN116161056A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117141520A (zh) * 2023-10-31 2023-12-01 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种实时轨迹规划方法、装置和设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117141520A (zh) * 2023-10-31 2023-12-01 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种实时轨迹规划方法、装置和设备
CN117141520B (zh) * 2023-10-31 2024-01-12 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种实时轨迹规划方法、装置和设备

Similar Documents

Publication Publication Date Title
CN110136481B (zh) 一种基于深度强化学习的停车策略
WO2021135554A1 (zh) 一种无人车全局路径规划方法和装置
CN111273668B (zh) 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法
CN113495578B (zh) 一种基于数字孪生式训练的集群航迹规划强化学习方法
Naveed et al. Trajectory planning for autonomous vehicles using hierarchical reinforcement learning
CN112347567A (zh) 一种车辆意图和轨迹预测的方法
CN115145281A (zh) 复杂路口下基于多智能体联邦强化学习的车路协同控制系统及方法
CN110991972B (zh) 一种基于多智能体强化学习的货物运输系统
CN112162555A (zh) 混合车队中基于强化学习控制策略的车辆控制方法
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN116540731B (zh) 融合堆叠lstm与sac算法的路径规划方法及系统
CN111824182B (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN110631596A (zh) 一种基于迁移学习的装备车辆路径规划方法
CN113701780B (zh) 基于a星算法的实时避障规划方法
CN116161056A (zh) 一种基于强化学习的结构化道路车辆轨迹规划方法与系统
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN114399743A (zh) 一种障碍物未来轨迹的生成方法
CN115542733A (zh) 基于深度强化学习的自适应动态窗口法
CN116679711A (zh) 一种基于有模型与无模型强化学习的机器人避障方法
CN117636661A (zh) 一种无信号交叉口完全自主交通流通行控制方法
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
EP4160478A1 (en) Driving decision-making method, device, and chip
Basile et al. Ddpg based end-to-end driving enhanced with safe anomaly detection functionality for autonomous vehicles
CN114609925B (zh) 水下探索策略模型的训练方法及仿生机器鱼水下探索方法
CN114153216B (zh) 基于深度强化学习和块规划的月面路径规划系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination