CN112046484A - 一种基于q学习的车辆变道超车路径规划方法 - Google Patents

一种基于q学习的车辆变道超车路径规划方法 Download PDF

Info

Publication number
CN112046484A
CN112046484A CN202010992213.2A CN202010992213A CN112046484A CN 112046484 A CN112046484 A CN 112046484A CN 202010992213 A CN202010992213 A CN 202010992213A CN 112046484 A CN112046484 A CN 112046484A
Authority
CN
China
Prior art keywords
vehicle
main
main vehicle
reward
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010992213.2A
Other languages
English (en)
Other versions
CN112046484B (zh
Inventor
郭洪艳
赵伟
张永达
赵小明
刘俊
陈虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202010992213.2A priority Critical patent/CN112046484B/zh
Publication of CN112046484A publication Critical patent/CN112046484A/zh
Application granted granted Critical
Publication of CN112046484B publication Critical patent/CN112046484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units, or advanced driver assistance systems for ensuring comfort, stability and safety or drive control systems for propelling or retarding the vehicle
    • B60W30/08Active safety systems predicting or avoiding probable or impending collision or attempting to minimise its consequences
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W2050/0001Details of the control system
    • B60W2050/0019Control system elements or transfer functions
    • B60W2050/0028Mathematical models, e.g. for simulation
    • B60W2050/0031Mathematical model of the vehicle
    • B60W2050/0034Multiple-track, 2D vehicle model, e.g. four-wheel model

Abstract

本发明公开了一种基于Q学习的车辆变道超车路径规划方法,通过建立车辆‑道路系统模型实现对车辆驾驶状态的描述,考虑车辆行驶状态、行驶安全以及能否完成目标的因素,设计Q学习算法的奖励惩罚函数,引导车辆能在保证安全的条件下尽快完成超车的驾驶目标;本方法具体包括如下步骤:步骤一、建立车辆‑道路系统模型;步骤二、确定主车与周围环境车辆的安全距离;步骤三、定义Q学习的状态、动作并设计主车行驶过程中的奖励惩罚函数;步骤四、根据步骤三确定的状态、动作和奖励惩罚函数进行仿真训练,生成主车超车最优路径;本方法能够避免主车在行驶过程中与周围环境车辆发生碰撞危险,规划出的路径更符合实际驾驶要求。

Description

一种基于Q学习的车辆变道超车路径规划方法
技术领域
本发明属于汽车自动控制技术领域,涉及一种基于Q学习的车辆变道超车路径规划方法。
背景技术
随着驾驶汽车出行的人群增长,交通事故成为了很常见的现象。有研究表明,追尾碰撞是最常见的交通事故,超过90%的追尾碰撞事故是由于驾驶员驾驶汽车未能及时避障导致的。智能车辆作为智能交通系统的重要组成部分可以完成自主避障,提高驾驶安全性。路径规划是其中的关键技术之一,是指根据周围环境信息和车辆自身行驶状态构成一条满足行驶目标的序列点或曲线。目前,利用强化学习进行路径规划是研究的热点问题,但采用强化学习的路径规划大都是通过栅格进行环境建模进行全局路径规划,规划的路径平滑度不足,难以满足车辆运动学和动力学要求。
发明内容
本发明提供了一种基于Q学习的车辆变道超车路径规划方法,改善了基于栅格法建模的全局路径规划方法的平滑度不足的缺陷,使智能车辆能够平滑的完成避障和超车过程。
本发明是采用如下技术方案实现的:
一种基于Q学习的车辆变道超车路径规划方法,通过建立车辆-道路系统模型实现对车辆驾驶状态的描述,考虑车辆行驶状态、行驶安全以及能否完成目标的因素,设计Q学习算法的奖励惩罚函数,引导车辆能在保证安全的条件下尽快完成超车的驾驶目标,其特征在于,具体步骤如下:
步骤一、建立车辆-道路系统模型
(1)建立地面坐标系,原点O为主车初始时刻质心o所处的位置,X轴方向为初始时刻主车的正前方向,X轴沿逆时针方向旋转90度的方向为Y轴正方向;
(2)对道路标线进行描述,本方法中涉及到了变道超车的情况,所以定义了两条车道,宽为W,单位:m;车道边界线分别为f1(x)、f2(x)和f3(x),车道中心线
Figure BDA0002691267180000011
(3)主车运动学建模
本方法的场景是车辆在平坦的道路上行驶,故将车辆运动视为平面运动,根据车辆的运动特性建立车辆运动学模型,并将车辆视为一个刚性体,考虑车辆系统的几何关系,可以得到表征车辆运动学特性的数学模型:
Figure BDA0002691267180000021
式中,xo是主车质心o的纵向位置坐标,单位:m;yo是主车质心o的侧向位置坐标,单位:m;vo是主车质心o的速度,单位:m/s;ao是主车质心o的加速度,单位:m/s2
Figure BDA0002691267180000022
是主车车头方向与X轴方向的夹角,单位:rad;ro是主车的横摆角速度,单位:rad/s;
以Ts做为采样时间,采用欧拉映射法,得到离散化的主车运动学模型:
Figure BDA0002691267180000023
(4)周围车辆运动学建模
为了保证主车能在道路上安全行驶,需要对周围环境车辆进行动态行为预测,建立周围环境车辆的运动学模型;根据实际经验,可以利用车载摄像头、GPS系统和车载雷达得到周围环境车辆的坐标位置和速度信息;设环境为单向行驶的双车道,周围有两台环境车辆;一台环境车辆为前车f,前车在初始时刻与主车行驶在同一个车道,前车在初始时刻的纵向位置在主车的前方并且与主车有一定的距离;另一台环境车辆为旁车n,旁车在初始时刻行驶在主车左侧的车道,旁车在初始时刻的纵向位置在主车的前方、前车的后方,并且旁车与前车之间的距离可以允许主车进行变道超车动作;假设两台环境车辆匀速行驶,并且只进行车道保持操作,因此两台环境车辆没有侧向和横摆运动,只有纵向运动,两台环境车辆运动方程可表示为:
Figure BDA0002691267180000024
式中,t是所有车辆从初始状态到当前状态所经历的时间,单位:s;vf是前车质心的速度,单位:m/s;vn是旁车质心的速度,单位:m/s;
Figure BDA0002691267180000031
是前车质心的初始纵向坐标,单位:m;
Figure BDA0002691267180000032
是旁车质心的初始纵向坐标,单位:m;xf(t)是经过时间t后前车质心的纵向坐标,单位:m;xn(t)是经过时间t后旁车质心的纵向坐标,单位:m;
步骤二、确定主车与周围环境车辆的安全距离
当主车前方有低速障碍车辆行驶,且主车的速度大于前车f的速度,主车与前车f有碰撞的危险,此时最小安全距离可表示为:
Figure BDA0002691267180000033
当主车超车完成后,后方存在障碍车辆旁车n,若旁车n的速度大于主车的速度,主车与旁车n有碰撞危险,此时最小安全距离可表示为:
Figure BDA0002691267180000034
步骤三、基于强化Q学习的超车行为路径规划
(1)状态和动作的定义
主车的状态要反映出主车的位置、行驶状态和与周围环境之间的关系,本方法中,选取
Figure BDA0002691267180000035
Lr是主车相对于旁车n的纵向位置,单位:m; Lf是主车相对于前车f的纵向位置,单位:m;yo是主车的侧向位置坐标,单位: m;
Figure BDA0002691267180000036
是主车的航向角,单位:rad;vo是主车的行驶速度,单位:m/s;
车辆行驶在道路上一般有几种动作选择,在纵向操作上可以加速、减速和匀速,在横向操作上可以直行,左转和右转;本方法为简化对动作的定义,假设在转向情况下不进行加减速操作,只进行车速保持,故在本方法中主车行驶时的动作共有5种:a1为加速直行、a2为减速直行、a3为匀速直行、a4为匀速左转、a5为匀速右转;
(2)奖励惩罚函数设计
综合考虑主车的行驶状态、行驶安全以及能否完成目标的因素,设计了Q 学习算法的奖励惩罚函数:
Figure BDA0002691267180000041
1)车道保持回报函数ry
根据车辆驾驶的一般性操作经验,设计了车道保持回报函数,其表达式如下:
Figure BDA0002691267180000042
该函数是基于超车动作之前和完成超车动作之后来设计的,其目的在于使主车在不进行超车动作时,能够保持在车道中心线行驶,避免出现不必要的转向操作,其中λy,ky是调节因子,λy∈(0,5),ky∈(1,2),可以调节出现转向操作时回报函数的大小;
2)车辆航向奖励函数
Figure BDA0002691267180000043
当主车决定进行超车动作时,主车不再进行巡航操作,那么主车的航向角一定会发生改变,为了使主车能够顺利的换道超车,根据主车的航向角进行奖励设计,其表达式如下:
Figure BDA0002691267180000044
其中
Figure BDA0002691267180000045
是调节因子,
Figure BDA0002691267180000046
该奖励函数设计的目的是为了使主车在转向过程中更符合实际情况,越靠近两车道中间的边界线,主车的航向角越大,越靠近道路中心线,主车的航向角越小,直至回正,保持沿车道中心线行驶;
3)车距奖励函数rd
当主车进行超车动作时,与前车f和旁车n的距离就显得尤为重要,根据距离设计的车距奖励函数为:
rd=-λd|dr-df|,Lr>0&Lf<0&yo≠L2 (9) 其中,λd为调节因子,λd∈(0,5),
Figure BDA0002691267180000051
分别是主车到旁车n的直线距离和主车到前车f的直线距离,该奖励函数的目的在于让主车在转弯的过程中与前后车的距离尽量保持相等,也就是从靠近两车最中间的位置进行换道操作,这样可以提高主车在行驶过程中的安全性;
4)速度、加速度回报函数rva
主车在行驶的过程中,速度和加速度也是重要的评价因素,根据速度和加速度设计的奖励函数为:
rva=λvvoaao (10)
其中λva是调节因数,λv∈(0,1),λa∈(0,1),该奖励函数表明主车在保证安全的情况下以更大的速度行驶会得到更多的奖励;
5)目标完成函数rf
当主车完成超车动作时,表示主车已经完成了既定目标,此时应给予较大的奖励,是训练过程向着目标完成的方向发展,使学习尽快收敛,寻找最优策略,其表达式为:
rf=100,Lf>5&yo=L2 (11)
6)碰撞惩罚函数rc
车辆行驶过程中最重要的就是安全性,所以保持主车与其他周围车辆之间有一定的安全距离是必要的,基于此,设计了碰撞惩罚函数,使主车在驾驶过程中避免选择可能引起碰撞的动作,其表达式为:
rc=-100,(|Lf|<minLf&yo=L1)||(|Lr|<minLr&yo=L2) (12)
步骤四、主车超车路径的生成
当主车的状态、动作和奖励惩罚函数确定了之后,在matlab仿真软件中进行Q学习训练,初始化主车在初始时刻的状态
Figure BDA0002691267180000052
以主车状态s、主车动作a作为两个维度,建立Q表,Q表中的每一个元素Q(s(k),a(k)) 作为在当前状态s(k)下选择动作a(k)的Q值;;
主车在时刻k时,主车的状态
Figure BDA0002691267180000061
从a1~a5当中选择一个作为当前时刻选择的动作a(k),选择的原则是:在当前状态下,如果存在之前训练中没有被选择的动作,则从这些没有被选择的动作中随机选取一个动作;如果在当前状态下的所有动作都选择过了,则选择在当前状态下,使Q值能取得最大值的动作,选择动作过后,根据状态迭代公式
Figure BDA0002691267180000062
计算下一时刻的状态
Figure BDA0002691267180000063
再根据奖励惩罚函数计算reward(s(k),a(k)),然后根据Q表更新公式:
Q(s(k),a(k))=Q(s(k),a(k))+α(reward(s(k),a(k))+γmaxQ(s(k+1),a(k+1))-Q(s(k),a(k)))
(14)
对Q表进行更新,当Q表数据连续500次的变化均小于0.01,说明Q表已经收敛,停止训练;此时最优策略已经生成,主车在每一个状态下,都选择使Q值能取得最大值的动作;动作确定了,主车的下一个时刻的状态也就确定了,根据主车的运动学模型,可以得到主车在每一个时刻的坐标和速度,主车的路径随即生成。
与现有技术相比本发明的有益效果是:
1.本方法确定了主车与周围环境车辆的最小安全距离,避免主车在行驶过程中与周围环境车辆发生碰撞危险;
2.本方法在定义主车状态时,不仅考虑了主车的参数,还考虑了与周围环境车辆之间的关系,因此对主车行驶状态的定义更加准确;
3.本方法将主车的航向角作为描述主车状态的一个因素,在规划的过程中考虑到路径的平滑度,满足车辆的侧向稳定性;
4.本方法在定义奖励函数时,考虑到安全性,稳定性和驾驶舒适性,使规划出的路径更加符合实际的驾驶要求。
附图说明
图1是本发明所述的一种基于Q学习的车辆变道超车路径规划方法的流程简图。
图2是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中道路标线描述的示意图。
图3是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中建立的主车运动学模型的示意图。
图4是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中主车与周围环境车辆在初始时刻的位置关系。
图5是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中的Q 学习训练生成最优策略的流程图。
具体实施方式
下面结合附图对本发明作详细的描述:
一种基于Q学习的车辆变道超车路径规划方法,如图1所示,通过建立车辆-道路系统模型实现对车辆驾驶状态的描述,考虑车辆行驶状态、行驶安全以及能否完成目标的因素,设计Q学习算法的奖励惩罚函数,引导车辆能在保证安全的条件下尽快完成超车的驾驶目标,其特征在于,具体步骤如下:
步骤一、建立车辆-道路系统模型
(1)建立地面坐标系,原点O为主车初始时刻质心o所处的位置,X轴方向为初始时刻主车的正前方向,X轴沿逆时针方向旋转90度的方向为Y轴正方向;
(2)对道路标线进行描述,本方法中涉及到了变道超车的情况,所以定义了两条车道,宽为W,单位:m;如图2所示,车道边界线分别为f1(x)、f2(x)和 f3(x),车道中心线
Figure BDA0002691267180000071
(3)主车运动学建模
本方法的场景是车辆在平坦的道路上行驶,故将车辆运动视为平面运动,根据车辆的运动特性建立车辆运动学模型,并将车辆视为一个刚性体,考虑如图3所示的车辆系统的几何关系,可以得到表征车辆运动学特性的数学模型:
Figure BDA0002691267180000072
式中,xo是主车质心o的纵向位置坐标,单位:m;yo是主车质心o的侧向位置坐标,单位:m;vo是主车质心o的速度,单位:m/s;ao是主车质心o的加速度,单位:m/s2
Figure BDA0002691267180000081
是主车车头方向与X轴方向的夹角,单位:rad;ro是主车的横摆角速度,单位:rad/s;
以Ts做为采样时间,采用欧拉映射法,得到离散化的主车运动学模型:
Figure BDA0002691267180000082
(4)周围车辆运动学建模
为了保证主车能在道路上安全行驶,需要对周围环境车辆进行动态行为预测,建立周围环境车辆的运动学模型;根据实际经验,可以利用车载摄像头、 GPS系统和车载雷达得到周围环境车辆的坐标位置和速度信息;如图4所示,设环境为单向行驶的双车道,周围有两台环境车辆;一台环境车辆为前车f,前车在初始时刻与主车行驶在同一个车道,前车在初始时刻的纵向位置在主车的前方并且与主车有一定的距离;另一台环境车辆为旁车n,旁车在初始时刻行驶在主车左侧的车道,旁车在初始时刻的纵向位置在主车的前方、前车的后方,并且旁车与前车之间的距离可以允许主车进行变道超车动作;假设两台环境车辆匀速行驶,并且只进行车道保持操作,因此两台环境车辆没有侧向和横摆运动,只有纵向运动,两台环境车辆运动方程可表示为:
Figure BDA0002691267180000083
式中,t是所有车辆从初始状态到当前状态所经历的时间,单位:s;vf是前车质心的速度,单位:m/s;vn是旁车质心的速度,单位:m/s;
Figure BDA0002691267180000084
是前车质心的初始纵向坐标,单位:m;
Figure BDA0002691267180000085
是旁车质心的初始纵向坐标,单位:m;xf(t)是经过时间t后前车质心的纵向坐标,单位:m;xn(t)是经过时间t后旁车质心的纵向坐标,单位:m;
步骤二、确定主车与周围环境车辆的安全距离
当主车前方有低速障碍车辆行驶,且主车的速度大于前车f的速度,主车与前车f有碰撞的危险,此时最小安全距离可表示为:
Figure BDA0002691267180000091
当主车超车完成后,后方存在障碍车辆旁车n,若旁车n的速度大于主车的速度,主车与旁车n有碰撞危险,此时最小安全距离可表示为:
Figure BDA0002691267180000092
步骤三、基于强化Q学习的超车行为路径规划
(1)状态和动作的定义
主车的状态要反映出主车的位置、行驶状态和与周围环境之间的关系,本方法中,选取
Figure BDA0002691267180000093
Lr是主车相对于旁车n的纵向位置,单位:m; Lf是主车相对于前车f的纵向位置,单位:m;yo是主车的侧向位置坐标,单位: m;
Figure BDA0002691267180000094
是主车的航向角,单位:rad;vo是主车的行驶速度,单位:m/s;
车辆行驶在道路上一般有几种动作选择,在纵向操作上可以加速、减速和匀速,在横向操作上可以直行,左转和右转;本方法为简化对动作的定义,假设在转向情况下不进行加减速操作,只进行车速保持,故在本方法中主车行驶时的动作共有5种:a1为加速直行、a2为减速直行、a3为匀速直行、a4为匀速左转、a5为匀速右转;
(2)奖励惩罚函数设计
综合考虑主车的行驶状态、行驶安全以及能否完成目标的因素,设计了Q 学习算法的奖励惩罚函数:
Figure BDA0002691267180000095
1)车道保持回报函数ry
根据车辆驾驶的一般性操作经验,设计了车道保持回报函数,其表达式如下:
Figure BDA0002691267180000101
该函数是基于超车动作之前和完成超车动作之后来设计的,其目的在于使主车在不进行超车动作时,能够保持在车道中心线行驶,避免出现不必要的转向操作,其中λy,ky是调节因子,λy∈(0,5),ky∈(1,2),可以调节出现转向操作时回报函数的大小;
2)车辆航向奖励函数
Figure BDA0002691267180000102
当主车决定进行超车动作时,主车不再进行巡航操作,那么主车的航向角一定会发生改变,为了使主车能够顺利的换道超车,根据主车的航向角进行奖励设计,其表达式如下:
Figure BDA0002691267180000103
其中
Figure BDA0002691267180000104
是调节因子,
Figure BDA0002691267180000105
该奖励函数设计的目的是为了使主车在转向过程中更符合实际情况,越靠近两车道中间的边界线,主车的航向角越大,越靠近道路中心线,主车的航向角越小,直至回正,保持沿车道中心线行驶;
3)车距奖励函数rd
当主车进行超车动作时,与前车f和旁车n的距离就显得尤为重要,根据距离设计的车距奖励函数为:
rd=-λd|dr-df|,Lr>0&Lf<0&yo≠L2 (9)
其中,λd为调节因子,λd∈(0,5),
Figure BDA0002691267180000106
分别是主车到旁车n的直线距离和主车到前车f的直线距离,该奖励函数的目的在于让主车在转弯的过程中与前后车的距离尽量保持相等,也就是从靠近两车最中间的位置进行换道操作,这样可以提高主车在行驶过程中的安全性;
4)速度、加速度回报函数rva
主车在行驶的过程中,速度和加速度也是重要的评价因素,根据速度和加速度设计的奖励函数为:
rva=λvvoaao (10)
其中λva是调节因数,λv∈(0,1),λa∈(0,1),该奖励函数表明主车在保证安全的情况下以更大的速度行驶会得到更多的奖励;
5)目标完成函数rf
当主车完成超车动作时,表示主车已经完成了既定目标,此时应给予较大的奖励,是训练过程向着目标完成的方向发展,使学习尽快收敛,寻找最优策略,其表达式为:
rf=100,Lf>5&yo=L2 (11)
6)碰撞惩罚函数rc
车辆行驶过程中最重要的就是安全性,所以保持主车与其他周围车辆之间有一定的安全距离是必要的,基于此,设计了碰撞惩罚函数,使主车在驾驶过程中避免选择可能引起碰撞的动作,其表达式为:
rc=-100,(|Lf|<minLf&yo=L1)||(|Lr|<minLr&yo=L2) (12)
步骤四、主车超车路径的生成
当主车的状态、动作和奖励惩罚函数确定了之后,如图5所示,在matlab 仿真软件中进行Q学习训练,初始化主车在初始时刻的状态
Figure BDA0002691267180000111
以主车状态s、主车动作a作为两个维度,建立Q表, Q表中的每一个元素Q(s(k),a(k))作为在当前状态s(k)下选择动作a(k)的Q值;
主车在时刻k时,主车的状态
Figure BDA0002691267180000112
从a1~a5当中选择一个作为当前时刻选择的动作a(k),选择的原则是:在当前状态下,如果存在之前训练中没有被选择的动作,则从这些没有被选择的动作中随机选取一个动作;如果在当前状态下的所有动作都选择过了,则选择在当前状态下,使Q值能取得最大值的动作,选择动作过后,根据状态迭代公式
Figure BDA0002691267180000121
计算下一时刻的状态
Figure BDA0002691267180000122
再根据奖励惩罚函数计算reward(s(k),a(k)),然后根据Q表更新公式:
Q(s(k),a(k))=Q(s(k),a(k))+α(reward(s(k),a(k))+γmaxQ(s(k+1),a(k+1))-Q(s(k),a(k)))
(14)
对Q表进行更新,当Q表数据连续500次的变化均小于0.01,说明Q表已经收敛,停止训练;此时最优策略已经生成,主车在每一个状态下,都选择使Q值能取得最大值的动作;动作确定了,主车的下一个时刻的状态也就确定了,根据主车的运动学模型,可以得到主车在每一个时刻的坐标和速度,主车的路径随即生成。

Claims (1)

1.一种基于Q学习的车辆变道超车路径规划方法,通过建立车辆-道路系统模型实现对车辆驾驶状态的描述,考虑车辆行驶状态、行驶安全以及能否完成目标的因素,设计Q学习算法的奖励惩罚函数,引导车辆能在保证安全的条件下尽快完成超车的驾驶目标,其特征在于,具体步骤如下:
步骤一、建立车辆-道路系统模型
(1)建立地面坐标系,原点O为主车初始时刻质心o所处的位置,X轴方向为初始时刻主车的正前方向,X轴沿逆时针方向旋转90度的方向为Y轴正方向;
(2)对道路标线进行描述,本方法中涉及到了变道超车的情况,所以定义了两条车道,宽为W,单位:m;车道边界线分别为f1(x)、f2(x)和f3(x),车道中心线
Figure FDA0002691267170000011
(3)主车运动学建模
本方法的场景是车辆在平坦的道路上行驶,故将车辆运动视为平面运动,根据车辆的运动特性建立车辆运动学模型,并将车辆视为一个刚性体,考虑车辆系统的几何关系,可以得到表征车辆运动学特性的数学模型:
Figure FDA0002691267170000012
式中,xo是主车质心o的纵向位置坐标,单位:m;yo是主车质心o的侧向位置坐标,单位:m;vo是主车质心o的速度,单位:m/s;ao是主车质心o的加速度,单位:m/s2
Figure FDA0002691267170000013
是主车车头方向与X轴方向的夹角,单位:rad;ro是主车的横摆角速度,单位:rad/s;
以Ts做为采样时间,采用欧拉映射法,得到离散化的主车运动学模型:
Figure FDA0002691267170000014
(4)周围车辆运动学建模
为了保证主车能在道路上安全行驶,需要对周围环境车辆进行动态行为预测,建立周围环境车辆的运动学模型;利用车载摄像头、GPS系统和车载雷达得到周围环境车辆的坐标位置和速度信息;
设环境为单向行驶的双车道,周围有两台环境车辆;一台环境车辆为前车f,前车在初始时刻与主车行驶在同一个车道,前车在初始时刻的纵向位置在主车的前方并且与主车有一定的距离;另一台环境车辆为旁车n,旁车在初始时刻行驶在主车左侧的车道,旁车在初始时刻的纵向位置在主车的前方、前车的后方,并且旁车与前车之间的距离可以允许主车进行变道超车动作;假设两台环境车辆匀速行驶,并且只进行车道保持操作,因此两台环境车辆没有侧向和横摆运动,只有纵向运动,两台环境车辆运动方程可表示为:
Figure FDA0002691267170000021
式中,t是所有车辆从初始状态到当前状态所经历的时间,单位:s;vf是前车质心的速度,单位:m/s;vn是旁车质心的速度,单位:m/s;
Figure FDA0002691267170000022
是前车质心的初始纵向坐标,单位:m;
Figure FDA0002691267170000023
是旁车质心的初始纵向坐标,单位:m;xf(t)是经过时间t后前车质心的纵向坐标,单位:m;xn(t)是经过时间t后旁车质心的纵向坐标,单位:m;
步骤二、确定主车与周围环境车辆的安全距离
当主车前方有低速障碍车辆行驶,且主车的速度大于前车f的速度,主车与前车f有碰撞的危险,此时最小安全距离可表示为:
Figure FDA0002691267170000024
当主车超车完成后,后方存在障碍车辆旁车n,若旁车n的速度大于主车的速度,主车与旁车n有碰撞危险,此时最小安全距离可表示为:
Figure FDA0002691267170000031
步骤三、基于强化Q学习的超车行为路径规划
(1)状态和动作的定义
主车的状态要反映出主车的位置、行驶状态和与周围环境之间的关系,本方法中,选取
Figure FDA0002691267170000032
Lr是主车相对于旁车n的纵向位置,单位:m;Lf是主车相对于前车f的纵向位置,单位:m;yo是主车的侧向位置坐标,单位:m;
Figure FDA0002691267170000033
是主车的航向角,单位:rad;vo是主车的行驶速度,单位:m/s;
车辆行驶在道路上一般有几种动作选择,在纵向操作上可以加速、减速和匀速,在横向操作上可以直行,左转和右转;本方法为简化对动作的定义,假设在转向情况下不进行加减速操作,只进行车速保持,故在本方法中主车行驶时的动作共有5种:a1为加速直行、a2为减速直行、a3为匀速直行、a4为匀速左转、a5为匀速右转;
(2)奖励惩罚函数设计
综合考虑主车的行驶状态、行驶安全以及能否完成目标的因素,设计了Q学习算法的奖励惩罚函数:
Figure FDA0002691267170000034
1)车道保持回报函数ry
根据车辆驾驶的一般性操作经验,设计了车道保持回报函数,其表达式如下:
Figure FDA0002691267170000035
该函数是基于超车动作之前和完成超车动作之后来设计的,其目的在于使主车在不进行超车动作时,能够保持在车道中心线行驶,避免出现不必要的转向操作,其中λy,ky是调节因子,λy∈(0,5),ky∈(1,2),可以调节出现转向操作时回报函数的大小;
2)车辆航向奖励函数
Figure FDA0002691267170000046
当主车决定进行超车动作时,主车不再进行巡航操作,那么主车的航向角一定会发生改变,为了使主车能够顺利的换道超车,根据主车的航向角进行奖励设计,其表达式如下:
Figure FDA0002691267170000041
其中
Figure FDA0002691267170000042
是调节因子,
Figure FDA0002691267170000045
Figure FDA0002691267170000043
该奖励函数设计的目的是为了使主车在转向过程中更符合实际情况,越靠近两车道中间的边界线,主车的航向角越大,越靠近道路中心线,主车的航向角越小,直至回正,保持沿车道中心线行驶;
3)车距奖励函数rd
当主车进行超车动作时,与前车f和旁车n的距离就显得尤为重要,根据距离设计的车距奖励函数为:
rd=-λd|dr-df|,Lr>0&Lf<0&yo≠L2 (9)
其中,λd为调节因子,λd∈(0,5),
Figure FDA0002691267170000044
dr是主车到旁车n的直线距离,df是主车到前车f的直线距离,该奖励函数的目的在于让主车在转弯的过程中与前后车的距离尽量保持相等,也就是从靠近两车最中间的位置进行换道操作,这样可以提高主车在行驶过程中的安全性;
4)速度、加速度回报函数rva
主车在行驶的过程中,速度和加速度也是重要的评价因素,根据速度和加速度设计的奖励函数为:
rva=λvvoaao (10)
其中λva是调节因数,λv∈(0,1),λa∈(0,1),该奖励函数表明主车在保证安全的情况下以更大的速度行驶会得到更多的奖励;
5)目标完成函数rf
当主车完成超车动作时,表示主车已经完成了既定目标,此时应给予较大的奖励,是训练过程向着目标完成的方向发展,使学习尽快收敛,寻找最优策略,其表达式为:
rf=100,Lf∈5&yo=L2 (11)
6)碰撞惩罚函数rc
车辆行驶过程中最重要的就是安全性,所以保持主车与其他周围车辆之间有一定的安全距离是必要的,基于此,设计了碰撞惩罚函数,使主车在驾驶过程中避免选择可能引起碰撞的动作,其表达式为:
rc=-100,(|Lf|<min Lf&yo=L1)||(|Lr|<min Lr&yo=L2) (12)
步骤四、主车超车路径的生成
当主车的状态、动作和奖励惩罚函数确定了之后,在matlab仿真软件中进行Q学习训练,初始化主车在初始时刻的状态
Figure FDA0002691267170000051
以主车状态s、主车动作a作为两个维度,建立Q表,Q表中的每一个元素Q(s(k),a(k))作为在当前状态s(k)下选择动作a(k)的Q值;;
主车在时刻k时,主车的状态
Figure FDA0002691267170000052
从a1~a5当中选择一个作为当前时刻选择的动作a(k),选择的原则是:在当前状态下,如果存在之前训练中没有被选择的动作,则从这些没有被选择的动作中随机选取一个动作;如果在当前状态下的所有动作都选择过了,则选择在当前状态下,使Q值能取得最大值的动作,选择动作过后,根据状态迭代公式:
Figure FDA0002691267170000053
计算下一时刻的状态
Figure FDA0002691267170000054
再根据奖励惩罚函数计算reward(s(k),a(k)),然后根据Q表更新公式:
Q(s(k),a(k))=Q(s(k),a(k))+α(reward(s(k),a(k))+γmaxQ(s(k+1),a(k+1))-Q(s(k),a(k)))
(14)
对Q表进行更新,当Q表数据连续500次的变化均小于0.01,说明Q表已经收敛,停止训练;此时最优策略已经生成,主车在每一个状态下,都选择使Q值能取得最大值的动作;动作确定了,主车的下一个时刻的状态也就确定了,根据主车的运动学模型,可以得到主车在每一个时刻的坐标和速度,主车的路径随即生成。
CN202010992213.2A 2020-09-21 2020-09-21 一种基于q学习的车辆变道超车路径规划方法 Active CN112046484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010992213.2A CN112046484B (zh) 2020-09-21 2020-09-21 一种基于q学习的车辆变道超车路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010992213.2A CN112046484B (zh) 2020-09-21 2020-09-21 一种基于q学习的车辆变道超车路径规划方法

Publications (2)

Publication Number Publication Date
CN112046484A true CN112046484A (zh) 2020-12-08
CN112046484B CN112046484B (zh) 2021-08-03

Family

ID=73603535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010992213.2A Active CN112046484B (zh) 2020-09-21 2020-09-21 一种基于q学习的车辆变道超车路径规划方法

Country Status (1)

Country Link
CN (1) CN112046484B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925307A (zh) * 2021-01-20 2021-06-08 中国科学院重庆绿色智能技术研究院 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
CN113324556A (zh) * 2021-06-04 2021-08-31 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113327055A (zh) * 2021-06-23 2021-08-31 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质
CN113734170A (zh) * 2021-08-19 2021-12-03 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113753049A (zh) * 2021-11-10 2021-12-07 北京理工大学 基于社会偏好的自动驾驶超车决策确定方法及系统
CN114056328A (zh) * 2021-11-01 2022-02-18 中国电子科技南湖研究院 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
CN116361472A (zh) * 2023-05-02 2023-06-30 周维 社交网络评论热点事件舆情大数据分析系统
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN113327055B (zh) * 2021-06-23 2024-04-23 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100005362A (ko) * 2008-07-07 2010-01-15 현대자동차주식회사 자율주행 제어시스템
CN107609633A (zh) * 2017-05-03 2018-01-19 同济大学 车联网复杂网络中基于深度学习的车辆行驶影响因素的位置预测模型构造方法
CN108897216A (zh) * 2018-07-03 2018-11-27 吉林大学 一种基于区域虚拟力场的智能汽车模型预测决策方法
CN110286681A (zh) * 2019-07-05 2019-09-27 西南交通大学 一种变曲率弯道的动态自动驾驶换道轨迹规划方法
CN110304045A (zh) * 2019-06-25 2019-10-08 中国科学院自动化研究所 智能驾驶横向换道决策方法、系统和装置
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法
EP3629105A1 (en) * 2018-09-27 2020-04-01 Bayerische Motoren Werke Aktiengesellschaft High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100005362A (ko) * 2008-07-07 2010-01-15 현대자동차주식회사 자율주행 제어시스템
CN107609633A (zh) * 2017-05-03 2018-01-19 同济大学 车联网复杂网络中基于深度学习的车辆行驶影响因素的位置预测模型构造方法
CN108897216A (zh) * 2018-07-03 2018-11-27 吉林大学 一种基于区域虚拟力场的智能汽车模型预测决策方法
EP3629105A1 (en) * 2018-09-27 2020-04-01 Bayerische Motoren Werke Aktiengesellschaft High-level decision making for safe and reasonable autonomous lane changing using reinforcement learning
CN110304045A (zh) * 2019-06-25 2019-10-08 中国科学院自动化研究所 智能驾驶横向换道决策方法、系统和装置
CN110286681A (zh) * 2019-07-05 2019-09-27 西南交通大学 一种变曲率弯道的动态自动驾驶换道轨迹规划方法
CN110568760A (zh) * 2019-10-08 2019-12-13 吉林大学 适用于换道及车道保持的参数化学习决策控制系统及方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112925307A (zh) * 2021-01-20 2021-06-08 中国科学院重庆绿色智能技术研究院 一种用于智能仓储机器人系统的分布式多机器人路径规划方法
CN113324556B (zh) * 2021-06-04 2024-03-26 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113324556A (zh) * 2021-06-04 2021-08-31 苏州智加科技有限公司 基于车路协同强化学习的路径规划方法及装置、应用系统
CN113327055A (zh) * 2021-06-23 2021-08-31 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质
CN113327055B (zh) * 2021-06-23 2024-04-23 浙江师范大学 调车作业计划的生成方法、装置、电子装置和存储介质
CN113734170A (zh) * 2021-08-19 2021-12-03 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN113734170B (zh) * 2021-08-19 2023-10-24 崔建勋 一种基于深度q学习的自动驾驶换道决策方法
CN114056328A (zh) * 2021-11-01 2022-02-18 中国电子科技南湖研究院 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
CN114056328B (zh) * 2021-11-01 2024-04-26 中国电子科技南湖研究院 基于dqn实现车辆l3级自动驾驶的行人避让方法及系统
CN113753049A (zh) * 2021-11-10 2021-12-07 北京理工大学 基于社会偏好的自动驾驶超车决策确定方法及系统
CN116361472A (zh) * 2023-05-02 2023-06-30 周维 社交网络评论热点事件舆情大数据分析系统
CN116476825B (zh) * 2023-05-19 2024-02-27 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN116476825A (zh) * 2023-05-19 2023-07-25 同济大学 一种基于安全可信强化学习的自动驾驶车道保持控制方法

Also Published As

Publication number Publication date
CN112046484B (zh) 2021-08-03

Similar Documents

Publication Publication Date Title
CN112046484B (zh) 一种基于q学习的车辆变道超车路径规划方法
CN110298122B (zh) 基于冲突消解的无人驾驶车辆城市交叉口左转决策方法
CN111338340B (zh) 基于模型预测的无人驾驶汽车局部路径规划方法
CN107264531B (zh) 一种半结构化环境中智能车辆自主换道超车运动规划方法
CN109501799B (zh) 一种车联网条件下的动态路径规划方法
CN108256233B (zh) 基于驾驶员风格的智能车轨迹规划及跟踪方法和系统
CN110304074B (zh) 一种基于分层状态机的混合式驾驶方法
CN112193244B (zh) 基于线性约束的自动驾驶车辆运动规划方法
US11462099B2 (en) Control system and control method for interaction-based long-term determination of trajectories for motor vehicles
JP6715899B2 (ja) 衝突回避装置
US20110190972A1 (en) Grid unlock
CN110103969A (zh) 一种车辆控制方法、装置、系统及车辆
CN108919795A (zh) 一种自动驾驶汽车换道决策方法及装置
Cao et al. An optimal hierarchical framework of the trajectory following by convex optimisation for highly automated driving vehicles
CN114074681A (zh) 基于概率的车道变更决策和运动规划系统及其方法
Wan et al. Lane change behavior modeling for autonomous vehicles based on surroundings recognition
CN113247023B (zh) 一种行驶规划方法、装置、计算机设备及存储介质
CN114987461A (zh) 一种多车复杂交通环境下的智能客车动态变道轨迹规划方法
CN114194215A (zh) 一种智能车辆避障换道轨迹规划方法及系统
CN113255998A (zh) 基于多智能体强化学习的高速道路无人驾驶车辆编队方法
Guo et al. Toward human-like behavior generation in urban environment based on Markov decision process with hybrid potential maps
Kim et al. Trajectory planning for autonomous highway driving using the adaptive potential field
Liu et al. A model for safe lane changing of connected vehicles based on quintic polynomial Trajectory planning
CN115447615A (zh) 基于车辆运动学模型预测控制的轨迹优化方法
JP2021028208A (ja) 車両制御装置、車両制御方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant