CN114852105A - 一种自动驾驶车辆换道轨迹规划方法及系统 - Google Patents

一种自动驾驶车辆换道轨迹规划方法及系统 Download PDF

Info

Publication number
CN114852105A
CN114852105A CN202210706690.7A CN202210706690A CN114852105A CN 114852105 A CN114852105 A CN 114852105A CN 202210706690 A CN202210706690 A CN 202210706690A CN 114852105 A CN114852105 A CN 114852105A
Authority
CN
China
Prior art keywords
vehicle
lane
changing
change
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210706690.7A
Other languages
English (en)
Inventor
景首才
惠飞
赵祥模
冯耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202210706690.7A priority Critical patent/CN114852105A/zh
Publication of CN114852105A publication Critical patent/CN114852105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/10Longitudinal speed
    • B60W2520/105Longitudinal acceleration
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/12Lateral speed
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2520/00Input parameters relating to overall vehicle dynamics
    • B60W2520/12Lateral speed
    • B60W2520/125Lateral acceleration
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/80Technologies aiming to reduce greenhouse gasses emissions common to all road transportation technologies
    • Y02T10/84Data processing systems or methods, management, administration

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种自动驾驶车辆换道轨迹规划方法及系统,方法过程包括:获取车辆信息;根据所述车辆信息、换道车辆与周围车辆的博弈换道决策模型、考虑安全性和时效性的博弈收益函数并利用博弈收益矩阵求解当前时刻换道车辆的最优换道决策;根据所述最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息;利用车辆横纵向离散化运动学模型,通过所述加速度决策信息计算出换道过程中每个时间点换道车辆的车辆状态,根进一步得出换道车辆的换道轨迹。本发明在考虑安全性、高效性、舒适性和燃油经济性的情况下,完成对自动驾驶车辆的换道轨迹规划。

Description

一种自动驾驶车辆换道轨迹规划方法及系统
技术领域
本发明属于车辆控制决策技术领域,涉及一种自动驾驶车辆换道轨迹规划方法及系统。
背景技术
近年来,自动驾驶车辆在改善交通安全、提高能源效率和减轻交通拥堵方面具有巨大潜力,备受学术界和工业界的关注。换道是车辆驾驶过程中的一项基本任务,对车辆的安全行驶起着非常重要的作用,目前的换道轨迹规划方法存在复杂性高,数据依赖性强等问题,随着车辆智能化水平的提高,兼顾安全与交通效能的车辆换道轨迹规划逐渐成为自动驾驶车辆研究的热点之一。
发明内容
为解决现有技术中存在的问题,本发明的目的在于提供一种自动驾驶车辆换道轨迹规划方法及系统,在考虑安全性、高效性、舒适性和燃油经济性的情况下,完成对自动驾驶车辆的换道轨迹规划。
为了达到上述目的,本发明提供如下技术方案:
一种自动驾驶车辆换道轨迹规划方法,包括如下过程:
获取车辆信息:所述车辆信息包括:换道车辆的速度、加速度和位置信息,以及周围车辆的速度、加速度和位置信息;
根据所述车辆信息、换道车辆与周围车辆的博弈换道决策模型、考虑安全性和时效性的博弈收益函数并利用博弈收益矩阵求解当前时刻换道车辆的最优换道决策;
根据所述最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息;
利用车辆横纵向离散化运动学模型,通过所述最优的序贯加速度决策信息计算出换道过程中每个时间点换道车辆的车辆状态,根据换道车辆的车辆状态得出换道车辆的换道轨迹。
优选的,所述车辆横纵向离散化运动学模型的建立过程包括:
在XOY平面直角坐标系中,以X轴方向为车辆纵向行驶的方向,以Y轴方向为车辆的横向行驶方向,解耦车辆运动学模型,并以Δt为采样时间进行离散化,得到所述纵横向分离的离散化车辆运动学模型及约束条件如下:
vxt=vx(t-1)+axtΔt
vyt=vy(t-1)+aytΔt
Figure BDA0003706369700000021
Figure BDA0003706369700000022
0<vxt<vx,max,0<vyt<vy,max
Figure BDA0003706369700000023
其中,vxt和vyt分别表示t时刻车辆的纵向速度和横向速度;vx(t-1)和vy(t-1)分别表示t-1时刻车辆的纵向速度和横向速度;t-1时刻为t时刻上一时刻;xt和yt分别表示t时刻车辆的纵坐标和横坐标;x(t-1)和y(t-1)分别表示t-1时刻车辆的纵坐标和横坐标;纵向加速度axt和横向加速度ayt由每个时间步Δt中车辆与算法交互得到,vx,max和vy,max分别是纵向速度的最大值和横向速度的最大值,xmax和ymax分别是纵向位置的最大值和横向位置的最大值,tf为换道的完成时间;
通过运动学模型得到下一时刻车辆的位置和速度,直到车辆到达换道目标位置或驶离车道时终止状态结束。
优选的,换道车辆与周围车辆的博弈换道决策模型如下:
博弈的参与者为换道车辆M、目标车道跟随车辆Fd和目标车道前车Ld,换道车辆M的策略集为Φ1={m1,m2},其中m1表示换道,m2表示不换道;目标车道跟随车辆Fd和目标车道前车Ld的策略集为Φ2={di1,di2},i={Fd,Ld},其中di1表示车辆i允许换道,di2表示车辆i拒绝换道。
优选的,考虑安全性和时效性的博弈收益函数如下:
RM,RD=α1*Rsafe2*Rtime.
其中,Rsafe和Rtime分别表示决策车辆考虑安全性和时效性所获得的收益;α1和α2均为权重系数,α12=1,代表不同驾驶因素的重要程度;
Figure BDA0003706369700000031
Figure BDA0003706369700000032
Pmin=vMx-vLdx)tf
Figure BDA0003706369700000033
Figure BDA0003706369700000034
其中,vMx和vMx分别表示换道车辆的纵向速度和目标车道前车的纵向速度,Phead为当前时刻两车的车头间距,aMx和aLdx为换道车辆和目标车道前车的纵向加速度;Pmin为当前状态下所需的最小安全距离;t0表示保持原状态下达到目的地所需的时间,xtarget为换道目标点的纵向坐标;tf表示换道的完成时间,由轨迹规划部分得出。
优选的,所述博弈收益矩阵如表1:
表1
Figure BDA0003706369700000035
其中,RM表示当前策略下换道车辆可得到的博弈收益,RD表示当前策略下目标车道车辆可得到的博弈收益;
换道车辆与目标车道前车和跟随车分别进行博弈,得到四种博弈结果分别为:换道车辆进行换道,目标车道车辆允许换道;换道车辆进行换道,目标车道车辆拒绝换道;换道车辆不换道,目标车道车辆允许换道;换道车辆不换道,目标车道车辆拒绝换道;只有换道车辆选择换道策略,且目标车道前车和跟随车都做出允许换道的策略时,执行换道。
优选的,求解当前时刻换道车辆的最优换道决策的过程包括:
如果博弈矩阵中存在某一纯策略(din,mn),i={Fd,Ld},n=1,2使得下式成立,则称(din,mn)为当前博弈的纯策略纳什均衡,该策略为当前环境下车辆做出的最优换道决策,根据此决策确定所需求解的换道轨迹规划子问题,所述换道轨迹规划子问题包括:左换道、右换道或车道保持;
Figure BDA0003706369700000041
式中,din,i={Fd,Ld},n=1,2,表示目标车道车辆i允许换道或者拒绝换道,mn,n=1,2表示换道车辆M换道或者不换道,Φ1表示换道车辆M的策略集,m表示换道车辆策略集Φ1中的任意策略,Φ2表示目标车道跟随车辆Fd和目标车道前车Ld的策略集,di表示目标车道车辆i的策略集Φ2中的任意策略。
优选的,所述基于深度强化学习的自动驾驶车辆换道轨迹规划模型包括状态空间、动作空间以及奖励函数;
所述状态空间中包含自动驾驶车辆换道所需要的全部信息,每个时刻均获取当前换道车辆的纵坐标xt、横坐标yt、纵向速度vxt和横向速度vyt;每一时刻的状态用一个四元组表示,st=[xt,vxt;yt,vyt];
所述动作空间定义自动驾驶车辆所采取的动作,结合车辆运动学纵横向解耦状态方程,用纵横向加速度作为自动驾驶车辆的动作,纵向加速度axt的取值范围设定为[-2m/s2,2m/s2];横向加速度ayt的取值范围为[-0.2m/s2,0.2m/s2];每一时刻的动作用一个二元组表示,at=[axt;ayt]。
所述奖励函数Rt由沿目标车道中心线奖励Ry、目标速度奖励Rv、油耗奖励Re和结束任务奖励Rd四部分组成,具体如下:
Rt=wyRy+wvRv+weRe+wdRd.
Ry=-|yt-ytarget|
Rv=-axt(vxt-vtarget)
Re=ln(MOE)
Figure BDA0003706369700000051
Figure BDA0003706369700000052
其中,MOE为瞬时燃油消耗,包括线性、二次和三次速度和加速度项的组合,Lk,q和Mk,q表示在速度的k次幂和加速度的q次幂下MOE的模型系数,此项用瞬时燃油消耗作为惩罚项,使车辆学习到节能的换道方式;wy、wv、we和wd分别为不同收益的权重系数,表示其重要程度,C1和C2为常数,ytarget表示目标车道中心线的横向坐标,vtarget表示车辆到达换道终点时的目标速度,e为自然对数的底数。
优选的,所述基于深度强化学习的自动驾驶车辆换道轨迹规划模型的训练过程包括:
将变道车辆初始状态作为双延迟深度确定性策略梯度学习算法的输入,换道目标对应状态作为变道车辆的结束状态,进行双延迟深度确定性策略梯度学习算法训练,训练过程中先收集添加随机噪声的决策行为以及对应收益,并存放到经验回放池中,达到预设数量后进行批量选取进行训练,直到收益逐步稳定,双延迟深度确定性策略梯度学习算法收敛;
训练过程中双延迟深度确定性策略梯度学习算法的评价网络和策略网络的损失计算如下:
Figure BDA0003706369700000061
Figure BDA0003706369700000062
优选的,根据最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息时,根据收敛后双延迟深度确定性策略梯度学习算法,对双延迟深度确定性策略梯度学习算法输入当前车辆的初始状态和换道目标状态,求解基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息。
本发明还提供了一种自动驾驶车辆换道轨迹规划系统,包括:
获取环境信息模块:用于获取车辆信息,所述车辆信息包括:换道车辆的速度、加速度和位置信息,以及周围车辆的速度、加速度和位置信息;
换道决策模块:用于根据所述车辆信息、换道车辆与周围车辆的博弈换道决策模型、考虑安全性和时效性的博弈收益函数并利用博弈收益矩阵求解当前时刻换道车辆的最优换道决策;
换道轨迹规划模块:用于根据所述最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息;
仿真模块:用于利用车辆横纵向离散化运动学模型,通过所述最优的序贯加速度决策信息计算出换道过程中每个时间点换道车辆的车辆状态,根据换道车辆的车辆状态得出换道车辆的换道轨迹。
与现有技术相比,本发明具有如下有益效果:
本发明使用能够处理连续控制量的双延迟深度确定性策略梯度算法(TwinDelayed Deep Deterministic Policy Gradient,TD3),能够实现对车辆速度,加速度的控制,解决了使用DQN算法将动作空间离散化造成的丢失精度控制问题,以及使用DDPG算法会出现的收益函数估值过高的问题,能够较为准确的对车辆控制行为进行评估,同时TD3算法的延迟更新策略,使其平均训练速度与DDPG相比提升了10.5%。通过车辆与环境进行交互,存储得到的历史经验数据对网络进行训练,不需要像机器学习一样通过大量的真实换道数据来训练,节省了对数据进行清洗、筛选等预处理操作,提高了灵活性。在奖励函数中考虑了瞬时燃油消耗量和目标速度控制,减低了换道过程中的燃油消耗量,最终得到安全,舒适,绿色的换道轨迹。
附图说明
图1为本发明自动驾驶车辆换道轨迹规划方法的总体框架图;
图2为本发明的TD3网络结构示意图;
图3(a)为本发明实施例1左换道轨迹示意图,图3(b)为本发明实施例1中训练前后每回合油耗对比图,图3(c)为本发明实施例1中速度控制曲线;
图4(a)为本发明实施例2右换道轨迹示意图,图4(b)为本发明实施例2中训练前后每回合油耗对比图,图4(c)为本发明实施例2中速度控制曲线;
图5(a)为本发明的所用TD3算法与其他(DDPG)算法的左换道训练时间对比实验图,图5(b)为本发明的所用TD3算法与其他(DDPG)算法的右换道训练时间对比实验图。
具体实施方式
下面将结合附图对本发明进行详细的描述。
参照图1,本发明的自动驾驶车辆换道轨迹规划总体框架图,包括获取环境信息模块,换道决策模块,换道轨迹规划模块以及仿真模块。环境感知层中自动驾驶车辆搭载了车载摄像头、激光雷达、毫米波雷达等传感器实现对环境信息的感知,并且能够以LTE-V2X的通信方式在低延时、无丢包的情况下获取周围车辆的速度、加速度、位置信息;行为决策层车辆利用纯策略博弈换道决策模型,在保障安全的条件下,确定车辆行驶行为;轨迹规划层利用基于深度强化学习的换道轨迹优化算法,构建考虑换道油耗和舒适性的自动驾驶车辆纵横向换道轨迹。
主要包括以下步骤:
步骤1,自动驾驶车辆行驶过程中,利用车载感知、通信设备在低延时、无丢包的情况下获取换道车辆和周围车辆的速度、加速度、位置信息。
步骤2,解耦自动驾驶车辆的横纵向运动学约束,建立车辆横纵向离散化运动学模型。
步骤3,根据步骤1获取的车辆信息,建立换道车辆与周围车辆的博弈换道决策模型,构建考虑安全性和时效性的博弈收益函数,并利用博弈收益矩阵求解当前时刻换道车辆的最优换道决策。
步骤4,根据步骤3得到的最优换道决策,以降低燃油消耗和提高驾驶效率为目标,建立了基于深度强化学习的自动驾驶车辆换道轨迹规划模块,得到整个换道过程最优的序贯加速度决策信息。
步骤5,利用步骤2车辆横纵向离散化运动学模型,通过步骤4得到的加速度决策信息计算出换道过程中每个时间点的车辆状态,车辆状态包括车辆速度、横向位置、纵向位置,最终得出车辆的换道轨迹。
实施例1:如图3(c)所示,本实施例中,仿真车道场景设置为:换道车辆的初始位置在右车道中心线起点(1.75,0)处,初始速度在12m/s(43.2km/h)~20m/s(72km/h)中随机初始化,周围车辆的行驶速度为16m/s(57.6km/h),换道车辆与原始车道前车的车头间距为50m,与目标车道前后车的车头间距均为60m,目标位置为左车道中心线(-1.75,100)处,博弈收益中的权重系数α1,α2分别取0.6和0.4。
实施例2:如图4(c)所示,本实施例中,仿真车道场景设置为:换道车辆的初始位置在左车道中心线起点(-1.75m,0m)处,初始速度为15m/s(54km/h)~25m/s(90km/h)中随机初始化,周围车辆的行驶速度为20m/s(72km/h),换道车辆与原始车道前车的车头间距为50m,与目标车道前后车的车头间距均为60m,目标位置为右车道中心线(1.75,120)处,博弈收益中的权重系数α1,α2分别取0.6和0.4。
步骤2具体包括如下步骤:
步骤2.1,X轴方向为车辆纵向行驶的方向,Y轴方向为车辆的横向行驶方向,解耦车辆运动学模型,并以Δt为采样时间进行离散化,得到纵横向分离的离散化车辆运动学模型约束条件如下:
vxt=vx(t-1)+axtΔt (1)
vyt=vy(t-1)+aytΔt (2)
Figure BDA0003706369700000091
Figure BDA0003706369700000092
0<vxt<vx,max,0<vyt<vy,max (5)
Figure BDA0003706369700000093
其中vxt,vyt分别表示t时刻车辆的纵向速度和横向速度,xt和yt分别表示t时刻车辆的纵、横坐标。纵、横向加速度axt,ayt则由每个时间步Δt中车辆与算法交互得到,vx,max和vy,max分别是纵横向速度的最大值,xmax和ymax分别是纵横向位置的最大值,tf为换道的完成时间。从而通过运动学模型得到下一时刻车辆的位置和速度,直到车辆到达换道目标位置或驶离车道时终止状态结束。
步骤3具体包括如下步骤:
步骤3.1,博弈换道决策模型建立,博弈的参与者为换道车辆M和目标车道跟随车辆Fd和目标车道前车Ld,换道车辆M的策略集为Φ1={m1,m2},为两种纯策略,其中m1表示换道,m2表示不换道;目标车道车辆Fd,Ld的策略集为Φ2={di1,di2},i={Fd,Ld},其中di1表示车辆i允许换道,di2表示车辆i拒绝换道。
步骤3.2,博弈换道决策收益函数建立,以确保换道的安全性和提高换道的效率为目的,建立体现安全和驾驶效率的收益函数,换道车辆和目标车道车辆的收益函数定义如下:
RM,RD=α1*Rsafe2*Rtime. (7)
其中,Rsafe,Rtime表示决策车辆考虑安全性和时效性所获得的收益,其计算公式如(8)~(12);α1,α2为权重系数,α12=1,代表不同驾驶因素的重要程度。
Figure BDA0003706369700000101
Figure BDA0003706369700000102
Figure BDA0003706369700000103
Figure BDA0003706369700000104
Figure BDA0003706369700000105
其中vMx和vMx分别表示换道车辆和目标车道前车的纵向速度。Phead为当前时刻两车的车头间距,aMx
Figure BDA0003706369700000106
换道车辆和目标车道前车的纵向加速度。Pmin为当前状态下所需的最小安全距离(以换道车辆M和目标车道前车Ld为例),当两车匀速运动时,可写成公式(10);t0表示保持原状态下达到目的地所需的时间,xtarget为换道目标点的纵向坐标;tf表示换道的完成时间,可由轨迹规划部分得出。
步骤3.3,根据步骤3.2的博弈收益计算公式得到每种换道策略的博弈收益,列出博弈收益矩阵,博弈收益矩阵中收益最大的策略即为当前的博弈换道决策。博弈收益矩阵如下:
表1
Figure BDA0003706369700000107
Figure BDA0003706369700000111
表1中,换道车辆与目标车道前车和跟随车分别进行博弈,得到四种博弈结果为:换道车进行换道,目标车道车辆允许换道;换道车辆进行换道,目标车道车辆拒绝换道;换道车辆不换道,目标车道车辆允许换道;换道车辆不换道,目标车道车辆拒绝换道。只有换道车辆选择“换道”策略,且目标车道前车和跟随车都做出“允许换道”的策略时,才能成功执行换道。
计算出每种策略下换道车和目标车道车辆考虑安全性和时效性的收益值,得到博弈收益矩阵,如果博弈矩阵中存在某一纯策略(din,mn),i={Fd,Ld},n=1,2使得下式(13)成立,则称(din,mn)为当前博弈的纯策略纳什均衡。即为当前环境下车辆做出的最优换道决策,根据此决策确定所需求解的换道轨迹规划子问题,如左换道、右换道、车道保持(不换道)。
Figure BDA0003706369700000112
步骤4具体包括如下步骤:
步骤4.1,根据步骤3得到的换道决策,确定换道车辆的初始状态和结束状态,包括车辆的速度、横纵位置坐标。
步骤4.2,建立基于深度强化学习的智能网联车辆换道轨迹规划模型,包括状态空间,动作空间以及奖励函数的设计。
a.状态空间中包含自动驾驶车辆换道所需要的全部信息,每个时刻都需要获取当前换道车辆的纵坐标xt,横坐标yt,纵向速度vxt,横向速度vyt。每一时刻的状态用一个四元组表示,st=[xt,vxt;yt,vyt]。
b.动作空间主要定义自动驾驶车辆所采取的动作,结合车辆运动学纵横向解耦状态方程(1-4),用纵横向加速度作为自动驾驶车辆的动作,考虑驾驶的舒适性,纵向加速度axt的取值范围设定为[-2m/s2,2m/s2];考虑变道车的横向安全约束和横向舒适性,横向加速度ayt的取值范围为[-0.2m/s2,0.2m/s2]。每一时刻的动作用一个二元组表示,at=[axt;ayt]。
c.奖励函数设计,期望换道车在换道过程中尽量沿车道中心线行驶,最终能够与目标车道前车以相同速度保持安全车距;且考虑换道过程中的瞬时油耗,达到节能驾驶的目的。奖励Rt由沿目标车道中心线奖励Ry,目标速度奖励Rv,油耗奖励Re,和结束任务奖励Rd四部分组成。
Rt=wyRy+wvRv+weRe+wdRd. (14)
Ry=-|yt-ytarget| (15)
Rv=-axt(vxt-vtarget) (16)
Re=ln(MOE) (17)
Figure BDA0003706369700000121
Figure BDA0003706369700000122
其中,MOE为瞬时燃油消耗,包括线性、二次和三次速度和加速度项的组合,Lk,q和Mk,q表示在速度的k次幂和加速度的q次幂下MOE的模型系数,此项用瞬时燃油消耗作为惩罚项,使车辆学习到节能的换道方式;wy、wv、we和wd分别为不同收益的权重系数,表示其重要程度,C1和C2为常数,ytarget表示目标车道中心线的横向坐标,vtarget表示车辆到达换道终点时的目标速度,e为自然对数的底数。
步骤4.3,将变道车辆初始状态作为双延迟深度确定性策略梯度学习算法(TD3算法,如图2所示)的输入,换道目标对应状态作为变道车辆的结束状态,进行TD3算法训练,训练过程中先收集部分添加随机噪声的决策行为以及对应收益,并存放到经验回放池中,达到一定数量后进行批量选取进行训练,直到收益逐步稳定,即车辆能够学到对应的换道序列决策。训练过程中TD3算法的评价网络和策略网络的损失计算如下:
Figure BDA0003706369700000131
Figure BDA0003706369700000132
步骤4.4,根据步骤4.3得到的收敛后TD3算法,对TD3算法输入当前车辆的初始状态和换道目标状态,求解步骤4.2建立的换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息;
步骤5具体包括如下步骤:
利用车辆横纵向离散化运动学模型,通过所述最优的序贯加速度决策信息计算出得到最优的换道轨迹,包括换道过程中车辆的速度轨迹和车辆纵横向位置轨迹。
自动驾驶车辆进行左换道生成的换道轨迹如图3(a)所示,训练前后油耗对比图以及换道过程中的速度变化如图3(b)和图3(c)所示。车辆进行右换道生成的换道轨迹如图4(a)所示,训练前后油耗对比图以及换道过程中的速度变化如图4(b)和图4(c)所示。
从左换道、右换道的实验训练过程可以得出,车辆智能体在前150个回合中处于试错阶段,此时车辆不知道如何进行换道,总是由于异常结束而导致回合提前结束。大概从150回合后,收集到足够的历史数据后,开始逐步学习提升,每回合所得的累积收益开始增大,说明车辆智能体学习到的策略在不断变好,由刚开始的无法完成换道任务到能够逐步完成换道,并不断优化(为了便于看出智能体学习到的策略在优化,使用滑动平均曲线将收益进行平滑,收益曲线波动是由于不同初始速度完成换道所得到的收益不同。)最终逐渐稳定在一个范围内,表明车辆的策略的优化过程,此时车辆智能体能够到达设定的换道终点,且换道车辆的速度与环境车的速度相等,能够安全完成换道任务。
在换道过程中考虑了油耗问题,以油耗的大小作为对智能体的惩罚,油耗越大,惩罚越大,希望车辆智能体能够以节能的方式完成换道任务。车辆在左、右换道任务中训练前后完成换道任务的平均油耗对比如图3(b),图4(b)所示:
由图3(b),图4(b)可得,未经过TD3算法学习前,左换道过程中每步的平均油耗为0.030L/s,右换道过程中每步的平均油耗为0.032L/s,经过算法提升后的左换道过程中的单步平均油耗为0.011L/s,右换道过程中的单步平均油耗为0.018L/s,左、右换道过程中的平均油耗分别减少了63%和44%,达到了节能驾驶的目的。
本发明所用的TD3算法与DDPG算法进行对比,在左换道和右换道实验中每回合所用的训练时间对比情况如图5(a)和图(b)所示:
从图5(a)和图(b)可得,使用TD3算法在左换道实验和右换道实验中所用的训练时间均少于DDPG,在左换道实验中,TD3总的训练速度和每回合的平均训练速度较DDPG提升了12%左右。在右换道实验中,TD3总的训练速度和每回合的平均训练速度较DDPG提升了约9%左右。综上,与DDPG算法相比,本文所用算法的平均训练速度提升了10.5%左右。且采用训练好的模型完成左、右换道场景完整的轨迹规划所需时间均在1.3s内,单步规划所需时间在10ms内,可满足实时要求,且所需时间与处理器性能有关,采用高性能处理器所需时间会更短。
本发明使用能够处理连续控制量的双延迟深度确定性策略梯度算法(TwinDelayed Deep Deterministic Policy Gradient,TD3),能够实现对自动驾驶车辆速度,加速度的控制,解决了使用DQN算法将动作空间离散化造成的丢失精度控制问题,以及使用DDPG算法会出现的收益函数估值过高的问题,能够较为准确的对车辆控制行为进行评估。通过车辆与环境进行交互,存储得到的历史经验数据对网络进行训练,不需要像机器学习一样通过大量的真实换道数据来训练,节省了对数据进行清洗、筛选等预处理操作,提高了灵活性。在奖励函数中考虑了瞬时燃油消耗量和目标速度控制,最终得到安全,舒适,绿色的换道轨迹。

Claims (10)

1.一种自动驾驶车辆换道轨迹规划方法,其特征在于,包括如下过程:
获取车辆信息:所述车辆信息包括:换道车辆的速度、加速度和位置信息,以及周围车辆的速度、加速度和位置信息;
根据所述车辆信息、换道车辆与周围车辆的博弈换道决策模型、考虑安全性和时效性的博弈收益函数并利用博弈收益矩阵求解当前时刻换道车辆的最优换道决策;
根据所述最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息;
利用车辆横纵向离散化运动学模型,通过所述最优的序贯加速度决策信息计算出换道过程中每个时间点换道车辆的车辆状态,根据换道车辆的车辆状态得出换道车辆的换道轨迹。
2.根据权利要求1所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,所述车辆横纵向离散化运动学模型的建立过程包括:
在XOY平面直角坐标系中,以X轴方向为车辆纵向行驶的方向,以Y轴方向为车辆的横向行驶方向,解耦车辆运动学模型,并以Δt为采样时间进行离散化,得到所述纵横向分离的离散化车辆运动学模型及约束条件如下:
vxt=vx(t-1)+axtΔt
vyt=vy(t-1)+aytΔt
Figure FDA0003706369690000011
Figure FDA0003706369690000012
0<vxt<vx,max,0<vyt<vy,max
Figure FDA0003706369690000013
其中,vxt和vyt分别表示t时刻车辆的纵向速度和横向速度;vx(t-1)和vy(t-1)分别表示t-1时刻车辆的纵向速度和横向速度;t-1时刻为t时刻上一时刻;xt和yt分别表示t时刻车辆的纵坐标和横坐标;x(t-1)和y(t-1)分别表示t-1时刻车辆的纵坐标和横坐标;纵向加速度axt和横向加速度ayt由每个时间步Δt中车辆与算法交互得到,vx,max和vy,max分别是纵向速度的最大值和横向速度的最大值,xmax和ymax分别是纵向位置的最大值和横向位置的最大值,tf为换道的完成时间;
通过运动学模型得到下一时刻车辆的位置和速度,直到车辆到达换道目标位置或驶离车道时终止状态结束。
3.根据权利要求1所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,换道车辆与周围车辆的博弈换道决策模型如下:
博弈的参与者为换道车辆M、目标车道跟随车辆Fd和目标车道前车Ld,换道车辆M的策略集为Φ1={m1,m2},其中m1表示换道,m2表示不换道;目标车道跟随车辆Fd和目标车道前车Ld的策略集为Φ2={di1,di2},i={Fd,Ld},其中di1表示车辆i允许换道,di2表示拒绝换道。
4.根据权利要求1所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,考虑安全性和时效性的博弈收益函数如下:
RM,RD=α1*Rsafe2*Rtime.
其中,Rsafe和Rtime分别表示决策车辆考虑安全性和时效性所获得的收益;α1和α2均为权重系数,α12=1,代表不同驾驶因素的重要程度;
Figure FDA0003706369690000021
Figure FDA0003706369690000022
Figure FDA0003706369690000023
Figure FDA0003706369690000024
Figure FDA0003706369690000031
其中,vMx和vMx分别表示换道车辆的纵向速度和目标车道前车的纵向速度,Phead为当前时刻两车的车头间距,aMx
Figure FDA0003706369690000032
为换道车辆和目标车道前车的纵向加速度;Pmin为当前状态下所需的最小安全距离;t0表示保持原状态下达到目的地所需的时间,xtarget为换道目标点的纵向坐标;tf表示换道的完成时间,由轨迹规划部分得出。
5.根据权利要求1所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,所述博弈收益矩阵如表1:
表1
Figure FDA0003706369690000033
其中,RM表示当前策略下换道车辆可得到的博弈收益,RD表示当前策略下目标车道车辆可得到的博弈收益;
换道车辆与目标车道前车和跟随车分别进行博弈,得到四种博弈结果分别为:换道车辆进行换道,目标车道车辆允许换道;换道车辆进行换道,目标车道车辆拒绝换道;换道车辆不换道,目标车道车辆允许换道;换道车辆不换道,目标车道车辆拒绝换道;只有换道车辆选择换道策略,且目标车道前车和跟随车都做出允许换道的策略时,执行换道。
6.根据权利要求5所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,求解当前时刻换道车辆的最优换道决策的过程包括:
如果博弈矩阵中存在某一纯策略(din,mn),i={Fd,Ld},n=1,2使下式成立,则称(din,mn)为当前博弈的纯策略纳什均衡,该策略为当前环境下车辆做出的最优换道决策,根据此决策确定所需求解的换道轨迹规划子问题,所述换道轨迹规划子问题包括:左换道、右换道或车道保持;
Figure FDA0003706369690000041
式中,din,i={Fd,Ld},n=1,2,表示目标车道车辆i允许换道或者拒绝换道,mn,n=1,2表示换道车辆M换道或者不换道,Φ1表示换道车辆M的策略集,m表示换道车辆策略集Φ1中的任意策略,Φ2表示目标车道跟随车辆Fd和目标车道前车Ld的策略集,di表示目标车道车辆i的策略集Φ2中的任意策略。
7.根据权利要求1所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,所述基于深度强化学习的自动驾驶车辆换道轨迹规划模型包括状态空间、动作空间以及奖励函数;
所述状态空间中包含自动驾驶车辆换道所需要的全部信息,每个时刻均获取当前换道车辆的纵坐标xt、横坐标yt、纵向速度vxt和横向速度vyt;每一时刻的状态用一个四元组表示,st=[xt,vxt;yt,vyt];
所述动作空间定义自动驾驶车辆所采取的动作,结合车辆运动学纵横向解耦状态方程,用纵横向加速度作为自动驾驶车辆的动作,纵向加速度axt的取值范围设定为[-2m/s2,2m/s2];横向加速度ayt的取值范围为[-0.2m/s2,0.2m/s2];每一时刻的动作用一个二元组表示,at=[axt;ayt];
所述奖励函数Rt由沿目标车道中心线奖励Ry、目标速度奖励Rv、油耗奖励Re和结束任务奖励Rd四部分组成,具体如下:
Rt=wyRy+wvRv+weRe+wdRd.
Ry=-|yt-ytarget|
Rv=-axt(vxt-vtarget)
Re=ln(MOE)
Figure FDA0003706369690000051
Figure FDA0003706369690000052
其中,MOE为瞬时燃油消耗,包括线性、二次和三次速度和加速度项的组合,Lk,q和Mk,q表示在速度的k次幂和加速度的q次幂下MOE的模型系数,此项用瞬时燃油消耗作为惩罚项,使车辆学习到节能的换道方式;wy、wv、we和wd分别为不同收益的权重系数,表示其重要程度,C1和C2为常数,ytarget表示目标车道中心线的横向坐标,vtarget表示车辆到达换道终点时的目标速度,e为自然对数的底数。
8.根据权利要求7所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,所述基于深度强化学习的自动驾驶车辆换道轨迹规划模型的训练过程包括:
将变道车辆初始状态作为双延迟深度确定性策略梯度学习算法的输入,换道目标对应状态作为变道车辆的结束状态,进行双延迟深度确定性策略梯度学习算法训练,训练过程中先收集添加随机噪声的决策行为以及对应收益,并存放到经验回放池中,达到预设数量后进行批量选取进行训练,直到收益逐步稳定,双延迟深度确定性策略梯度学习算法收敛;
训练过程中双延迟深度确定性策略梯度学习算法的评价网络和策略网络的损失计算如下:
Figure FDA0003706369690000053
Figure FDA0003706369690000054
9.根据权利要求8所述的一种自动驾驶车辆换道轨迹规划方法,其特征在于,根据最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息时,根据收敛后双延迟深度确定性策略梯度学习算法,对双延迟深度确定性策略梯度学习算法输入当前车辆的初始状态和换道目标状态,求解基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息。
10.一种自动驾驶车辆换道轨迹规划系统,其特征在于,包括:
获取环境信息模块:用于获取车辆信息,所述车辆信息包括:换道车辆的速度、加速度和位置信息,以及周围车辆的速度、加速度和位置信息;
换道决策模块:用于根据所述车辆信息、换道车辆与周围车辆的博弈换道决策模型、考虑安全性和时效性的博弈收益函数并利用博弈收益矩阵求解当前时刻换道车辆的最优换道决策;
换道轨迹规划模块:用于根据所述最优换道决策,以降低燃油消耗和提高驾驶效率为目标,并利用基于深度强化学习的自动驾驶车辆换道轨迹规划模型,得到整个换道过程最优的序贯加速度决策信息;
仿真模块:用于利用车辆横纵向离散化运动学模型,通过所述最优的序贯加速度决策信息计算出换道过程中每个时间点换道车辆的车辆状态,根据换道车辆的车辆状态得出换道车辆的换道轨迹。
CN202210706690.7A 2022-06-21 2022-06-21 一种自动驾驶车辆换道轨迹规划方法及系统 Pending CN114852105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210706690.7A CN114852105A (zh) 2022-06-21 2022-06-21 一种自动驾驶车辆换道轨迹规划方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210706690.7A CN114852105A (zh) 2022-06-21 2022-06-21 一种自动驾驶车辆换道轨迹规划方法及系统

Publications (1)

Publication Number Publication Date
CN114852105A true CN114852105A (zh) 2022-08-05

Family

ID=82625684

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210706690.7A Pending CN114852105A (zh) 2022-06-21 2022-06-21 一种自动驾驶车辆换道轨迹规划方法及系统

Country Status (1)

Country Link
CN (1) CN114852105A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909784A (zh) * 2022-12-07 2023-04-04 长安大学 多车道的智能网联车辆合流控制方法和控制装置
CN117227763A (zh) * 2023-11-10 2023-12-15 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117284297A (zh) * 2023-11-27 2023-12-26 福思(杭州)智能科技有限公司 车辆控制方法、装置及域控制器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909784A (zh) * 2022-12-07 2023-04-04 长安大学 多车道的智能网联车辆合流控制方法和控制装置
CN115909784B (zh) * 2022-12-07 2023-10-27 长安大学 多车道的智能网联车辆合流控制方法和控制装置
CN117227763A (zh) * 2023-11-10 2023-12-15 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117227763B (zh) * 2023-11-10 2024-02-20 新石器慧通(北京)科技有限公司 基于博弈论和强化学习的自动驾驶行为决策方法和装置
CN117284297A (zh) * 2023-11-27 2023-12-26 福思(杭州)智能科技有限公司 车辆控制方法、装置及域控制器
CN117284297B (zh) * 2023-11-27 2024-02-27 福思(杭州)智能科技有限公司 车辆控制方法、装置及域控制器

Similar Documents

Publication Publication Date Title
CN114852105A (zh) 一种自动驾驶车辆换道轨迹规划方法及系统
CN110969848B (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN111845701B (zh) 一种跟车环境下基于深度强化学习的hev能量管理方法
CN106740846B (zh) 一种双模式切换的电动汽车自适应巡航控制方法
Zhang et al. Reinforcement learning-based motion planning for automatic parking system
Wang et al. Cooperative lane changing via deep reinforcement learning
CN113581182B (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
CN114013443A (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN113682312A (zh) 一种融合深度强化学习的自主换道方法及系统
CN106708044A (zh) 基于灰色预测混合遗传算法‑pid全垫升气垫船航向控制方法
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN112677982A (zh) 基于驾驶员特性的车辆纵向速度规划方法
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
CN114859905A (zh) 一种基于人工势场法和强化学习的局部路径规划方法
CN114488799B (zh) 汽车自适应巡航系统控制器参数优化方法
CN114355897B (zh) 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法
CN111824182A (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
Liu et al. Autonomous highway merging in mixed traffic using reinforcement learning and motion predictive safety controller
CN113479187B (zh) 一种插电式混合动力汽车分层异步长能量管理方法
Vesel Racing line optimization@ race optimal
CN115563716A (zh) 一种新能源汽车能量管理和自适应巡航协同优化的方法
CN115096305A (zh) 一种基于生成对抗网络和模仿学习的智能驾驶汽车路径规划系统及方法
Gao et al. End-to-end autonomous vehicle navigation control method guided by the dynamic window approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination