CN113734170B

CN113734170B - 一种基于深度q学习的自动驾驶换道决策方法

Info

Publication number: CN113734170B
Application number: CN202110954994.0A
Authority: CN
Inventors: 崔建勋; 要甲
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2023-10-24
Anticipated expiration: 2041-08-19
Also published as: CN113734170A

Abstract

一种基于深度Q学习的自动驾驶换道决策方法，属于自动驾驶技术领域。解决了现有自动驾驶车辆基于强化学习进行换道决策，由于驾驶环境状态复杂，导致学习的效率很低的问题。本发明采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度；将相对位置及与相对速度作为环境向量，输入至经Q值函数训练的全连接神经网络，获得所有换道动作的Q值估计值；判断所有换道动作是否属于当前时刻安全动作集合，提取属于当前时刻安全动作集合的换道动作；采用Argmax函数，从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作，将Q值估计值最大的换道动作作为下一时刻的换道动作。本发明适用于自动驾驶换道。

Description

一种基于深度Q学习的自动驾驶换道决策方法

技术领域

本发明属于自动驾驶技术领域。

背景技术

换道决策是绝大多数驾驶场景下的基本行为，例如车辆合流、车辆分流、超车、环形交叉口路口通行等等，因此建立自动驾驶车辆换道决策的有效方法是实现各种驾驶场景下的自动驾驶必备、重要且复杂的功能。

传统的自动驾驶换道决策方法通常是基于规则的，即根据专家经验和行业知识，针对特定的换道场景，指定相应的换道动作。这种方法过于“僵硬”，难以应用于未知情况下的换道决策，导致决策方法难以泛化的问题。近年来，研究人员普遍重视基于强化学习，尤其是深度强化学习的自动驾驶换道决策的方法。强化学习能够允许自动驾驶车辆不断的与环境互动，进而收集经验，然后不断提高自身的换道决策水平。这种方式固然有非常好的泛化能力，能够处理各种未知的驾驶场景，但是其根本的问题在于：(1)无法完全保证自动驾驶换道决策行为的安全。这是因为，强化学习中是通过指定奖励函数来促进决策水平的提升，而针对换道通常的奖励函数是发生碰撞时，给以一个很大的负奖励，从而尽量避免自动驾驶车辆换道引发安全问题，但尽管如此，无法从根本上避免事故；(2)强化学习的精髓在于自动驾驶车辆与环境不断的互动，然后收集经验，但是由于驾驶环境状态的复杂性(状态空间复杂)，导致学习的效率很低。

发明内容

本发明目的是为了解决现有自动驾驶车辆基于强化学习进行换道决策，由于驾驶环境状态复杂，导致学习的效率很低，自安全性差的问题，提供了一种基于深度Q学习的自动驾驶换道决策方法。

本发明所述一种基于深度Q学习的自动驾驶换道决策方法，包括：

步骤一、采集目标自动驾驶车辆前后和同向左和/或右车道车辆的相对位置及与相对速度；

步骤二、将步骤一所述的相对位置及与相对速度作为环境向量，输入至经Q值函数训练的全连接神经网络，获得所有换道动作的Q值估计值；

步骤三、判断所有换道动作是否属于当前时刻安全动作集合，提取属于当前时刻安全动作集合的换道动作；

步骤四、采用Argmax函数，从所述属于当前时刻安全动作集合提取Q值估计值最大的换道动作，将所述Q值估计值最大的换道动作作为下一时刻的换道动作。

进一步地，本发明中，步骤二中所述的环境向量包括同向车道的环境车辆与目标自动驾驶车辆的相对位置和相对速度，当环境为同向为三车道时表示为：

s＝[dr_lq，vr_lq，dr_cq，vr_cq，dr_rq，v_RL，dr_qf，vr_qf，dr_cf，vr_cf，dr_rf，vr_rf，]

其中，s为环境向量，dr，vr分别表示环境车辆与目标自动驾驶车辆的相对位置和相对速度，其角标第一个字母l，c，r分别表示左侧车道、当前车道和右侧车道，第二个字母q， f分别表示前方车辆、后方车辆；v_RL表示目标自动驾驶车辆的速度。

进一步地，本发明中，步骤二中所述的换道动包括向左换道、保持当前车道和向右换道。

进一步地，本发明中，骤二中,获得所有换道动作的Q值估计值方法为：

利用奖励函数对驾驶速度进行拟合；

所述奖励函数为：r_t＝-|_vRL，t-v_des，t|

当目标自动驾驶车辆行驶速度越接近期望速度，奖励值越高，其中，v_des，t为t时刻的期望速度；v_RL,t为t时刻目标自动驾驶车辆的实际速度；

利用奖励函数计算当前时刻的Q值估计值y_t：

其中，a′为下一时刻选择的换道动作，s_t+1是下一时刻自动驾驶车辆所处的环境状态向量， θ是当前时刻带有全连接神经网络的参数；Q(s_t+1,a′；θ)为全连接神经网络对下一时刻Q值的估计值。

进一步地，本发明中，当前时刻安全动作集合为：

其中，A_safe(t)为当前时刻的安全动作的集合，为自动驾驶车辆当前车道在时刻t的安全行驶空间，/>为自动驾驶车辆左侧车道在时刻t的安全行驶空间，/>为自动驾驶车辆右侧车道在时刻t的安全行驶空间，p_a(t)为t时刻自动驾驶车辆的执行动作a后的位置，a表示当前时刻的换道动作，A为换道动作集合；

A＝{a₁＝向左换道，a₂＝保持当前车道，a₃＝向右换道}

[t_b,t_h]为动作a执行的时间范围，t_b为开始执行动作a的时间，t_h执行动作a结束的时间。

进一步地，本发明中，自动驾驶车辆当前车道在时刻t的安全行驶空间自动驾驶车辆左侧车道在时刻t的安全行驶空间/>和自动驾驶车辆右侧车道在时刻t的安全行驶空间/>的获取方法相同，自动驾驶车辆当前车道在时刻t的安全行驶空间/>的计算公式为：

F₀ ^t＝{p_f(t)+Δsafe,f＜P(t)＜P_h(t)-Δsafe,h}

计算实现，其中，P(t)表示目标车辆在时刻t的位置，p_f(t)为目标车辆前方车辆在时刻t的位置，P_h(t)为目标车辆的后方车辆在时刻t的位置；Δsafe,f为行车过程中最少需要的前车安全距离，Δsafe,h为行车过程中最少需要的后车安全距离。

进一步地，本发明中，步骤二中全连接神经网络的训练过程为：

步骤二中全连接神经网络的训练过程为：

步骤二一、初始化全连接神经网络参数θ₀，获得初始Q估值网络Q⁰，利用初始Q估值网络Q⁰进行实际驾驶环境的自动驾驶训练，获得样本集合D⁰＝{s₁,a₁,r₁,s₂,a₂,r₂,....}；

步骤二二、计算样本集合D⁰中的所有样本的Q值估计值y_t；

步骤二三、选取一个样本的Q值估计值y_t代入目标函数，并利用梯度下降算法对目标函数最小化，对Q估值网络Q⁰进行一次参数更新，获得Q估值网络Q⁰¹；

步骤二四、在样本集合D⁰中再选取一个样本的Q值估计值y_t代入目标函数，并利用梯度下降算法对目标函数最小化，对Q估值网络Q⁰¹进行再一次参数更新；获得Q估值网络Q⁰²；直至样本集合D⁰中所有样本的未来收益估计均代入目标函数，最终获得Q估值网络Q⁰ⁿ，完成Q估值网络Q⁰的一轮更新，将Q估值网络Q⁰ⁿ作为Q估值网络Q¹；n为样本集合D⁰中样本的个数；

步骤二五、利用Q估值网络Q¹进行实际驾驶环境的自动驾驶训练，获得样本集合 D¹＝{s₁,a₁,r₁,s₂,a₂,r₂,....}，用样本集合D¹替换D⁰；返回执行步骤二二，直至第N次获得Q 估值网络Q¹，完成对全连接神经网络的训练，其中，N大于10。

进一步地，本发明中，步骤二三中所述的目标函数为：

M＝(y_j-Q^m(s_j,a_j；θ_m))²

其中，M为目标函数值，θ_m表示当前Q估值网络的参数集合，s_j表示样本集合中第j个样本中的状态，a_j样本集合中第j个样本中的动作，y_j表示第j个样本的未来收益估计即Q值估计值，Q^m表示当前Q估值网络，其中，0≤m≤N。

进一步地，本发明中，全连接神经网络包括输入层、两个隐藏层和输出层，所述输入层用于输入环境向量，输出层输出换道动作的Q值估计值，每个隐藏层均包含100个神经元。

本发明所述方法采用了深度Q学习来估计任意状态-动作对下的未来累积收益，从而决定当前状态下的最佳决策动作；然后深度Q学习所决定的最佳动作通过安全性检验后才能被真正执行，这个安全性检验步骤确保了决策执行的安全性；最后，将自动驾驶的状态空间抽象为较少维度的向量(对于3车道情况，仅需要13维向量)，即满足自动驾驶换道决策的需要，同时又极大简化了状态空间的表征，从而加速了学习的效率。

附图说明

图1是本发明采用全连接神经网络获取换道动作的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

具体实施方式一：下面结合图1说明本实施方式，本实施方式所述一种基于深度Q学习的自动驾驶换道决策方法，包括：

本发明所发明方法总体架构如图1所示。最左侧为决策所需要的环境状态输入，包括了以目标自动驾驶车辆为参照的：(1)左侧车道前后车辆信息；(2)当前车道前后车辆信息；(3)右侧车道前后车辆信息。这些信息决定了目标自动驾驶车辆是否可以以及如何完成一次换车道行为。这些信息全部采用向量的方式来表征，反映相对位置、相对速度等，这相对于直接输入传感器数据(例如图像、3D点云等)要极大的节省状态表征的空间和开支，因此可以提高后续强化学习的效率。接下来采用带有两个隐藏层的全连接神经网络来拟合Q值函数，每个隐藏层均有100个神经元，如果当前驾驶情景为3个车道，那么输入为13个神经元，输出层代表了三个对应动作的Q值估计；接下来，采用Argmax函数，求取当前状态下Q值最大的换道动作，作为输出动作，最终执行该动作。

本实施方式所述的输入的状态要能够反映目标自动驾驶车辆周边环境车辆的相关信息，一个自动驾驶车辆及其周边环境车辆所构成的特定驾驶场景，以3车道为例，环境状态向量包含了13个维度。

进一步地，本发明中，步骤二中，获得所有换道动作的Q值估计值方法为：

利用奖励函数对驾驶速度进行拟合；

所述奖励函数为：r_t＝-|v_RL，t-v_des，t|

利用奖励函数计算当前时刻的Q值估计值y_t：

其中，a′为下一时刻选择的换道动作，s_t+1是下一时刻自动驾驶车辆所处的环境状态向量，θ是当前时刻带有全连接神经网络的参数；Q(s_t+1,a′；θ)为全连接神经网络对下一时刻Q 值的估计值。

进一步地，本发明中，当前时刻安全动作集合为：

其中，A_safe(t)为当前时刻的安全动作的集合，为自动驾驶车辆当前车道在时刻t的安全行驶空间，/>为自动驾驶车辆左侧车道在时刻t的安全行驶空间，/>为自动驾驶车辆右侧车道在时刻t的安全行驶空间，p_a(t)为t时刻自动驾驶车辆的执行动作a后的位置，a 表示当前时刻的换道动作，A为换道动作集合；

A＝{a₁＝向左换道，a₂＝保持当前车道，a₃＝向右换道}

当换道动作属于所述安全动作集合就保证了动作a的执行过程中，自动驾驶车辆始终出于安全形式区域中，不会发生碰撞事故。

F₀ ^t＝{p_f(t)+Δsafe,f＜P(t)＜P_h(t)-Δsafe,h}

如图1所示，当输入状态通过Q估值网络，进而获得每个动作(3个离散动作)对应的Q值估计时，并不立即采取最大的Q值动作去执行，而是要通过安全性检验步骤进一步筛选出安全的动作，在安全的动作集合(表示为A_safe(t))中选择Q值最大的动作去执行。

步骤二中全连接神经网络的训练过程为：

步骤二二、计算样本集合D⁰中的所有样本的Q值估计值y_t；

本实施方式所述训练的输入为收集一系列的状态-动作对，然后初始化Q网络参数θ。接下来不断的从收集的状态-动作对集合样本中随机抽取一小批出来作为训练样本，对目标函数(y_j-Q(s_j，a_j；θ))²进行最小化，直到满足迭代终止标准。最终获得Q网络参数。

进一步地，本发明中，步骤二三中所述的目标函数为：

M＝(y_j-Q^m(s_j,a_j；θ_m))²

本发明不仅采用了Q估值网络进行学习，同时全神经网络的输入不再是点云或图像数据，而是经过处理的相对位置和相对速度数据，将目标自动驾驶车辆同向车道的(若是三车道就包括左右车道和当前车道，若是单车道或双车道就根据实际情况而定)位置和速度作为输入向量，所述输入向量是从左向右先前车再后车，然后相对位置排列在响度速度的前面，全连接神经网络利用奖励函数计算Q值估计值，在通过安全动作集合对所有动作进行筛选，再从安全动作集合中的动作中选择估值最大的动作作为下一时刻的策略动作，有效的保证了安全的前提下提高了自动驾驶的效率。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims

1.一种基于深度Q学习的自动驾驶换道决策方法，其特征在于，包括：

当前时刻安全动作集合为：

其中，A_safe(t)为当前时刻的安全动作的集合，为自动驾驶车辆当前车道在时刻t的安全行驶空间，F_l ^t为自动驾驶车辆左侧车道在时刻t的安全行驶空间，/>为自动驾驶车辆右侧车道在时刻t的安全行驶空间，p_a(t)为t时刻自动驾驶车辆的执行动作a后的位置，a表示当前时刻的换道动作，A为换道动作集合，

A＝{a₁＝向左换道，a₂＝保持当前车道，a₃＝向右换道}，[t_b,t_h]为动作a执行的时间范围，t_b为开始执行动作a的时间，t_h执行动作a结束的时间；

自动驾驶车辆当前车道在时刻t的安全行驶空间自动驾驶车辆左侧车道在时刻t的安全行驶空间F_l ^t和自动驾驶车辆右侧车道在时刻t的安全行驶空间/>的获取方法相同，自动驾驶车辆当前车道在时刻t的安全行驶空间/>的计算公式为：

F₀ ^t＝{p_f(t)+Δsafe,f＜P(t)＜P_h(t)-Δsafe,h}

计算实现，其中，P(t)表示目标车辆在时刻t的位置，p_f(t)为目标车辆前方车辆在时刻t的位置，P_h(t)为目标车辆的后方车辆在时刻t的位置；Δsafe,f为行车过程中最少需要的前车安全距离，Δsafe,h为行车过程中最少需要的后车安全距离；

步骤二中全连接神经网络的训练过程为：

步骤二二、计算样本集合D⁰中的所有样本的Q值估计值y_t；

步骤二五、利用Q估值网络Q¹进行实际驾驶环境的自动驾驶训练，获得样本集合D¹＝{s₁,a₁,r₁,s₂,a₂,r₂,....}，用样本集合D¹替换D⁰；返回执行步骤二二，直至第N次获得Q估值网络Q¹，完成对全连接神经网络的训练，其中，N大于10；

步骤二三中所述的目标函数为：

M＝(y_j-Q^m(s_j,a_j；θ_m))²

其中，M为目标函数值，θ_m表示当前Q估值网络的参数集合，s_j表示样本集合中第j个样本中的状态，a_j样本集合中第j个样本中的动作，y_j表示第j个样本的未来收益估计即Q值估计值，Q^m表示当前Q估值网络，其中，0≤m≤N；

2.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法，其特征在于，步骤二中所述的换道动包括向左换道、保持当前车道和向右换道。

3.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法，其特征在于，骤二中,获得所有换道动作的Q值估计值方法为：

利用奖励函数对驾驶速度进行拟合；

所述奖励函数为：r_t＝-|v_RL，t-v_des，t|

利用奖励函数计算当前时刻的Q值估计值y_t：

其中，a′为下一时刻选择的换道动作，s_t+1是下一时刻自动驾驶车辆所处的环境状态向量，θ是当前时刻带有全连接神经网络的参数；Q(s_t+1,a′；θ)为全连接神经网络对下一时刻Q值的估计值。

4.根据权利要求1所述的一种基于深度Q学习的自动驾驶换道决策方法，其特征在于，全连接神经网络包括输入层、两个隐藏层和输出层，所述输入层用于输入环境向量，输出层输出换道动作的Q值估计值，每个隐藏层均包含100个神经元。