CN112046484A

CN112046484A - 一种基于q学习的车辆变道超车路径规划方法

Info

Publication number: CN112046484A
Application number: CN202010992213.2A
Authority: CN
Inventors: 郭洪艳; 赵伟; 张永达; 赵小明; 刘俊; 陈虹
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2020-09-21
Filing date: 2020-09-21
Publication date: 2020-12-08
Anticipated expiration: 2040-09-21
Also published as: CN112046484B

Abstract

本发明公开了一种基于Q学习的车辆变道超车路径规划方法，通过建立车辆‑道路系统模型实现对车辆驾驶状态的描述，考虑车辆行驶状态、行驶安全以及能否完成目标的因素，设计Q学习算法的奖励惩罚函数，引导车辆能在保证安全的条件下尽快完成超车的驾驶目标；本方法具体包括如下步骤：步骤一、建立车辆‑道路系统模型；步骤二、确定主车与周围环境车辆的安全距离；步骤三、定义Q学习的状态、动作并设计主车行驶过程中的奖励惩罚函数；步骤四、根据步骤三确定的状态、动作和奖励惩罚函数进行仿真训练，生成主车超车最优路径；本方法能够避免主车在行驶过程中与周围环境车辆发生碰撞危险，规划出的路径更符合实际驾驶要求。

Description

一种基于Q学习的车辆变道超车路径规划方法

技术领域

本发明属于汽车自动控制技术领域，涉及一种基于Q学习的车辆变道超车路径规划方法。

背景技术

随着驾驶汽车出行的人群增长，交通事故成为了很常见的现象。有研究表明，追尾碰撞是最常见的交通事故，超过90％的追尾碰撞事故是由于驾驶员驾驶汽车未能及时避障导致的。智能车辆作为智能交通系统的重要组成部分可以完成自主避障，提高驾驶安全性。路径规划是其中的关键技术之一，是指根据周围环境信息和车辆自身行驶状态构成一条满足行驶目标的序列点或曲线。目前，利用强化学习进行路径规划是研究的热点问题，但采用强化学习的路径规划大都是通过栅格进行环境建模进行全局路径规划，规划的路径平滑度不足，难以满足车辆运动学和动力学要求。

发明内容

本发明提供了一种基于Q学习的车辆变道超车路径规划方法，改善了基于栅格法建模的全局路径规划方法的平滑度不足的缺陷，使智能车辆能够平滑的完成避障和超车过程。

本发明是采用如下技术方案实现的：

一种基于Q学习的车辆变道超车路径规划方法，通过建立车辆-道路系统模型实现对车辆驾驶状态的描述，考虑车辆行驶状态、行驶安全以及能否完成目标的因素，设计Q学习算法的奖励惩罚函数，引导车辆能在保证安全的条件下尽快完成超车的驾驶目标，其特征在于，具体步骤如下：

步骤一、建立车辆-道路系统模型

(1)建立地面坐标系，原点O为主车初始时刻质心o所处的位置，X轴方向为初始时刻主车的正前方向，X轴沿逆时针方向旋转90度的方向为Y轴正方向；

(2)对道路标线进行描述，本方法中涉及到了变道超车的情况，所以定义了两条车道，宽为W，单位：m；车道边界线分别为f₁(x)、f₂(x)和f₃(x)，车道中心线

(3)主车运动学建模

本方法的场景是车辆在平坦的道路上行驶，故将车辆运动视为平面运动，根据车辆的运动特性建立车辆运动学模型，并将车辆视为一个刚性体，考虑车辆系统的几何关系，可以得到表征车辆运动学特性的数学模型：

式中，x_o是主车质心o的纵向位置坐标，单位：m；y_o是主车质心o的侧向位置坐标，单位：m；v_o是主车质心o的速度，单位：m/s；a_o是主车质心o的加速度，单位：m/s²；

是主车车头方向与X轴方向的夹角，单位：rad；r_o是主车的横摆角速度，单位：rad/s；

以T_s做为采样时间，采用欧拉映射法，得到离散化的主车运动学模型：

(4)周围车辆运动学建模

为了保证主车能在道路上安全行驶，需要对周围环境车辆进行动态行为预测，建立周围环境车辆的运动学模型；根据实际经验，可以利用车载摄像头、GPS系统和车载雷达得到周围环境车辆的坐标位置和速度信息；设环境为单向行驶的双车道，周围有两台环境车辆；一台环境车辆为前车f，前车在初始时刻与主车行驶在同一个车道，前车在初始时刻的纵向位置在主车的前方并且与主车有一定的距离；另一台环境车辆为旁车n，旁车在初始时刻行驶在主车左侧的车道，旁车在初始时刻的纵向位置在主车的前方、前车的后方，并且旁车与前车之间的距离可以允许主车进行变道超车动作；假设两台环境车辆匀速行驶，并且只进行车道保持操作，因此两台环境车辆没有侧向和横摆运动，只有纵向运动，两台环境车辆运动方程可表示为：

式中，t是所有车辆从初始状态到当前状态所经历的时间，单位：s；v_f是前车质心的速度，单位：m/s；v_n是旁车质心的速度，单位：m/s；

是前车质心的初始纵向坐标，单位：m；

是旁车质心的初始纵向坐标，单位：m；x_f(t)是经过时间t后前车质心的纵向坐标，单位：m；x_n(t)是经过时间t后旁车质心的纵向坐标，单位：m；

步骤二、确定主车与周围环境车辆的安全距离

当主车前方有低速障碍车辆行驶，且主车的速度大于前车f的速度，主车与前车f有碰撞的危险，此时最小安全距离可表示为：

当主车超车完成后，后方存在障碍车辆旁车n，若旁车n的速度大于主车的速度，主车与旁车n有碰撞危险，此时最小安全距离可表示为：

步骤三、基于强化Q学习的超车行为路径规划

(1)状态和动作的定义

主车的状态要反映出主车的位置、行驶状态和与周围环境之间的关系，本方法中，选取

L_r是主车相对于旁车n的纵向位置，单位：m； L_f是主车相对于前车f的纵向位置，单位：m；y_o是主车的侧向位置坐标，单位： m；

是主车的航向角，单位：rad；v_o是主车的行驶速度，单位：m/s；

车辆行驶在道路上一般有几种动作选择，在纵向操作上可以加速、减速和匀速，在横向操作上可以直行，左转和右转；本方法为简化对动作的定义，假设在转向情况下不进行加减速操作，只进行车速保持，故在本方法中主车行驶时的动作共有5种：a₁为加速直行、a₂为减速直行、a₃为匀速直行、a₄为匀速左转、a₅为匀速右转；

(2)奖励惩罚函数设计

综合考虑主车的行驶状态、行驶安全以及能否完成目标的因素，设计了Q 学习算法的奖励惩罚函数：

1)车道保持回报函数r_y

根据车辆驾驶的一般性操作经验，设计了车道保持回报函数，其表达式如下：

该函数是基于超车动作之前和完成超车动作之后来设计的，其目的在于使主车在不进行超车动作时，能够保持在车道中心线行驶，避免出现不必要的转向操作，其中λ_y,k_y是调节因子，λ_y∈(0,5),k_y∈(1,2)，可以调节出现转向操作时回报函数的大小；

2)车辆航向奖励函数

当主车决定进行超车动作时，主车不再进行巡航操作，那么主车的航向角一定会发生改变，为了使主车能够顺利的换道超车，根据主车的航向角进行奖励设计，其表达式如下：

其中

是调节因子，

该奖励函数设计的目的是为了使主车在转向过程中更符合实际情况，越靠近两车道中间的边界线，主车的航向角越大，越靠近道路中心线，主车的航向角越小，直至回正，保持沿车道中心线行驶；

3)车距奖励函数r_d

当主车进行超车动作时，与前车f和旁车n的距离就显得尤为重要，根据距离设计的车距奖励函数为：

r_d＝-λ_d|d_r-d_f|，L_r＞0&L_f＜0&y_o≠L₂ (9) 其中，λ_d为调节因子，λ_d∈(0,5)，

分别是主车到旁车n的直线距离和主车到前车f的直线距离，该奖励函数的目的在于让主车在转弯的过程中与前后车的距离尽量保持相等，也就是从靠近两车最中间的位置进行换道操作，这样可以提高主车在行驶过程中的安全性；

4)速度、加速度回报函数r_va

主车在行驶的过程中，速度和加速度也是重要的评价因素，根据速度和加速度设计的奖励函数为：

r_va＝λ_vv_o+λ_aa_o (10)

其中λ_v,λ_a是调节因数，λ_v∈(0,1),λ_a∈(0,1),该奖励函数表明主车在保证安全的情况下以更大的速度行驶会得到更多的奖励；

5)目标完成函数r_f

当主车完成超车动作时，表示主车已经完成了既定目标，此时应给予较大的奖励，是训练过程向着目标完成的方向发展，使学习尽快收敛，寻找最优策略，其表达式为：

r_f＝100，L_f＞5&y_o＝L₂ (11)

6)碰撞惩罚函数r_c

车辆行驶过程中最重要的就是安全性，所以保持主车与其他周围车辆之间有一定的安全距离是必要的，基于此，设计了碰撞惩罚函数，使主车在驾驶过程中避免选择可能引起碰撞的动作，其表达式为：

r_c＝-100，(|L_f|＜minL_f&y_o＝L₁)||(|L_r|＜minL_r&y_o＝L₂) (12)

步骤四、主车超车路径的生成

当主车的状态、动作和奖励惩罚函数确定了之后，在matlab仿真软件中进行Q学习训练，初始化主车在初始时刻的状态

以主车状态s、主车动作a作为两个维度，建立Q表，Q表中的每一个元素Q(s(k),a(k)) 作为在当前状态s(k)下选择动作a(k)的Q值；；

主车在时刻k时，主车的状态

从a₁～a₅当中选择一个作为当前时刻选择的动作a(k)，选择的原则是：在当前状态下，如果存在之前训练中没有被选择的动作，则从这些没有被选择的动作中随机选取一个动作；如果在当前状态下的所有动作都选择过了，则选择在当前状态下，使Q值能取得最大值的动作，选择动作过后，根据状态迭代公式

计算下一时刻的状态

再根据奖励惩罚函数计算reward(s(k),a(k))，然后根据Q表更新公式：

Q(s(k),a(k))＝Q(s(k),a(k))+α(reward(s(k),a(k))+γmaxQ(s(k+1),a(k+1))-Q(s(k),a(k)))

(14)

对Q表进行更新，当Q表数据连续500次的变化均小于0.01，说明Q表已经收敛，停止训练；此时最优策略已经生成，主车在每一个状态下，都选择使Q值能取得最大值的动作；动作确定了，主车的下一个时刻的状态也就确定了，根据主车的运动学模型，可以得到主车在每一个时刻的坐标和速度，主车的路径随即生成。

与现有技术相比本发明的有益效果是：

1.本方法确定了主车与周围环境车辆的最小安全距离，避免主车在行驶过程中与周围环境车辆发生碰撞危险；

2.本方法在定义主车状态时，不仅考虑了主车的参数，还考虑了与周围环境车辆之间的关系，因此对主车行驶状态的定义更加准确；

3.本方法将主车的航向角作为描述主车状态的一个因素，在规划的过程中考虑到路径的平滑度，满足车辆的侧向稳定性；

4.本方法在定义奖励函数时，考虑到安全性，稳定性和驾驶舒适性，使规划出的路径更加符合实际的驾驶要求。

附图说明

图1是本发明所述的一种基于Q学习的车辆变道超车路径规划方法的流程简图。

图2是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中道路标线描述的示意图。

图3是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中建立的主车运动学模型的示意图。

图4是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中主车与周围环境车辆在初始时刻的位置关系。

图5是本发明所述的一种基于Q学习的车辆变道超车路径规划方法中的Q 学习训练生成最优策略的流程图。

具体实施方式

下面结合附图对本发明作详细的描述：

一种基于Q学习的车辆变道超车路径规划方法，如图1所示，通过建立车辆-道路系统模型实现对车辆驾驶状态的描述，考虑车辆行驶状态、行驶安全以及能否完成目标的因素，设计Q学习算法的奖励惩罚函数，引导车辆能在保证安全的条件下尽快完成超车的驾驶目标，其特征在于，具体步骤如下：

步骤一、建立车辆-道路系统模型

(2)对道路标线进行描述，本方法中涉及到了变道超车的情况，所以定义了两条车道，宽为W，单位：m；如图2所示，车道边界线分别为f₁(x)、f₂(x)和 f₃(x)，车道中心线

(3)主车运动学建模

本方法的场景是车辆在平坦的道路上行驶，故将车辆运动视为平面运动，根据车辆的运动特性建立车辆运动学模型，并将车辆视为一个刚性体，考虑如图3所示的车辆系统的几何关系，可以得到表征车辆运动学特性的数学模型：

(4)周围车辆运动学建模

为了保证主车能在道路上安全行驶，需要对周围环境车辆进行动态行为预测，建立周围环境车辆的运动学模型；根据实际经验，可以利用车载摄像头、 GPS系统和车载雷达得到周围环境车辆的坐标位置和速度信息；如图4所示，设环境为单向行驶的双车道，周围有两台环境车辆；一台环境车辆为前车f，前车在初始时刻与主车行驶在同一个车道，前车在初始时刻的纵向位置在主车的前方并且与主车有一定的距离；另一台环境车辆为旁车n，旁车在初始时刻行驶在主车左侧的车道，旁车在初始时刻的纵向位置在主车的前方、前车的后方，并且旁车与前车之间的距离可以允许主车进行变道超车动作；假设两台环境车辆匀速行驶，并且只进行车道保持操作，因此两台环境车辆没有侧向和横摆运动，只有纵向运动，两台环境车辆运动方程可表示为：

是前车质心的初始纵向坐标，单位：m；

步骤二、确定主车与周围环境车辆的安全距离

步骤三、基于强化Q学习的超车行为路径规划

(1)状态和动作的定义

(2)奖励惩罚函数设计

1)车道保持回报函数r_y

2)车辆航向奖励函数

其中

是调节因子，

3)车距奖励函数r_d

r_d＝-λ_d|d_r-d_f|，L_r＞0&L_f＜0&y_o≠L₂ (9)

其中，λ_d为调节因子，λ_d∈(0,5)，

4)速度、加速度回报函数r_va

r_va＝λ_vv_o+λ_aa_o (10)

5)目标完成函数r_f

r_f＝100，L_f＞5&y_o＝L₂ (11)

6)碰撞惩罚函数r_c

r_c＝-100，(|L_f|＜minL_f&y_o＝L₁)||(|L_r|＜minL_r&y_o＝L₂) (12)

步骤四、主车超车路径的生成

当主车的状态、动作和奖励惩罚函数确定了之后，如图5所示，在matlab 仿真软件中进行Q学习训练，初始化主车在初始时刻的状态

以主车状态s、主车动作a作为两个维度，建立Q表， Q表中的每一个元素Q(s(k),a(k))作为在当前状态s(k)下选择动作a(k)的Q值；

主车在时刻k时，主车的状态

计算下一时刻的状态

(14)

Claims

1.一种基于Q学习的车辆变道超车路径规划方法，通过建立车辆-道路系统模型实现对车辆驾驶状态的描述，考虑车辆行驶状态、行驶安全以及能否完成目标的因素，设计Q学习算法的奖励惩罚函数，引导车辆能在保证安全的条件下尽快完成超车的驾驶目标，其特征在于，具体步骤如下：

步骤一、建立车辆-道路系统模型

(3)主车运动学建模

(4)周围车辆运动学建模

为了保证主车能在道路上安全行驶，需要对周围环境车辆进行动态行为预测，建立周围环境车辆的运动学模型；利用车载摄像头、GPS系统和车载雷达得到周围环境车辆的坐标位置和速度信息；

设环境为单向行驶的双车道，周围有两台环境车辆；一台环境车辆为前车f，前车在初始时刻与主车行驶在同一个车道，前车在初始时刻的纵向位置在主车的前方并且与主车有一定的距离；另一台环境车辆为旁车n，旁车在初始时刻行驶在主车左侧的车道，旁车在初始时刻的纵向位置在主车的前方、前车的后方，并且旁车与前车之间的距离可以允许主车进行变道超车动作；假设两台环境车辆匀速行驶，并且只进行车道保持操作，因此两台环境车辆没有侧向和横摆运动，只有纵向运动，两台环境车辆运动方程可表示为：