CN110969848B

CN110969848B - 一种对向双车道下基于强化学习的自动驾驶超车决策方法

Info

Publication number: CN110969848B
Application number: CN201911173951.8A
Authority: CN
Inventors: 裴晓飞; 莫烁杰; 徐杰; 杨波
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2022-06-17
Anticipated expiration: 2039-11-26
Also published as: CN110969848A

Abstract

本发明公开了一种对向双车道下基于强化学习的自动驾驶超车决策方法，包括以下步骤：通过传感器采集自动驾驶车辆的交通状态；将采集到的交通状态输入到经过训练的决策模型中；决策模型依据输入信息从其动作空间中选择相应的驾驶动作指令并输出，经本次驾驶动作后自动驾驶车辆形成新的交通状态；通过奖励函数计算本次驾驶动作的奖励值，并将原交通状态、驾驶动作、奖励值和新的交通状态作为转移样本存入经验回放池中；计算决策模型的损失函数值，并依据转移样本和损失函数值优化决策模型参数；重复以上步骤，直至自动驾驶结束。保证自动驾驶车辆超车决策过程的安全性和舒适性，通过强化学习决策方法，提高了决策的拟人性和鲁棒性。

Description

一种对向双车道下基于强化学习的自动驾驶超车决策方法

技术领域

本发明涉及自动驾驶技术领域，具体涉及一种对向双车道下基于强化学习的自动驾驶超车决策方法。

背景技术

自动驾驶车辆系统一般采取分层结构，由环境感知、决策规划、车辆控制三个模块组成。环境感知模块检测交通环境中的障碍物信息，同时生成环境地图，以确定可行驶区域。决策规划模块相当于车辆的大脑。决策模块负责分解产生自动驾驶车辆各种离散的驾驶任务，例如超车，巡航，避撞，加减速跟车等宏观的动作指令。一旦确定出当前的驾驶任务后，在其基础上规划连续的车辆行驶轨迹。底层的车辆控制输出方向盘转角、节气门开度和制动压力，以跟踪期望的路径和速度。

一种安全有效的决策方法可以大大提高自动驾驶车辆的安全性以及舒适性。目前自动驾驶车辆决策方法多采用基于规则的方法，其中最为典型的算法是有限状态机法。该类方法通过针对可能会出现的场景，建立一一对应的规则，逻辑清晰，结构简单明确，得到了广泛的应用。但是该方法同样存在着显而易见的局限性：无法应对不确定的场景。由于现实环境的高度复杂性以及不确定性，无法对所有可能出现的场景建立相对应的规则。而基于学习的方法，通过大量与不同环境的交互，可以学习到不同场景下最合适的驾驶策略，让智能体自己处理复杂情况。

强化学习是一种正在快速发展的具有巨大潜力的机器学习方法，能够很好地解决序贯决策问题，在众多领域中已有广泛的应用。强化学习方法是一种试错学习，通过一系列与环境的交互，根据奖励来调整动作策略，从而实现学习的目的。并且它不需要建立模型，这一点极大地简化了自动驾驶系统的设计。不需要模型也意味着该方法的适应性比较好。本发明拟将其用于对向双车道环境下的自动驾驶超车决策方法中。对向双车道环境常见于我国省道，乡村公路和西部山路，是我国一种典型的交通路况。特别是当前方为一辆慢速的大货车时，后方车辆往往倾向于超车，若不具备超车条件，常常会使后方积压形成一长串车队列。此外，换道超车行为需要对车辆横纵向进行综合决策，是一种较为复杂的驾驶行为。超车行为相对车道保持需要考虑更多因素，包括交通规则、道路信息等，加大了换道超车决策的难度。因此，该交通环境下的超车决策相比简单的高速公路环境更加复杂，基于传统的状态机方法会无法应对环境中的不确定因素，同时状态机会显得异常臃肿，状态之间也容易出现重叠，出现转移错误。

发明内容

本发明要解决的技术问题是，针对现有技术存在的上述缺陷，提供了一种对向双车道下基于强化学习的自动驾驶超车决策方法，保证自动驾驶车辆超车决策过程的安全性和舒适性，通过强化学习决策方法，提高了决策的拟人性和鲁棒性。

本发明为解决上述技术问题所采用的技术方案是：

一种对向双车道下基于强化学习的自动驾驶超车决策方法，包括以下步骤：

1)通过传感器实时采集自动驾驶车辆的交通状态s；

2)将采集到的交通状态s输入到经过训练的决策模型中；

3)决策模型依据输入信息从其动作空间中选择相应的驾驶动作a指令并输出，经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’；

4)通过奖励函数计算本次驾驶动作的奖励值r，并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s，a，r，s’)存入经验回放池中；

5)计算决策模型的损失函数值，并依据转移样本和损失函数值优化决策模型参数；

6)重复步骤1)～5)，直至自动驾驶结束。

按照上述技术方案，所述的步骤2)，训练决策模型的具体过程包括以下步骤：

S1对决策模型进行离线仿真训练；

S2利用离线训练好的决策模型进行实车推理决策。

按照上述技术方案，基于强化学习的决策方法分为两步：离线仿真训练，在线实车推理。离线训练过程中需要奖励函数与经验回放池，一次次迭代计算中使得深度强化学习决策模型收敛。实车中使用训练好的模型在线推理，根据传感器获得的交通信息直接获得对应的最优动作。

按照上述技术方案，在所述的步骤S1中，对决策模型进行离线仿真训练均在仿真系统中完成，具体过程包括如下步骤：

S1-1将预先采集或模拟的交通状态信息批量存入经验回放池中；

S1-2从经验回放池中采集交通状态s输入至决策模型中；

S1-3决策模型依据输入的交通状态s输出驾驶动作a指令，经本次驾驶动作a后自动驾驶车辆形成新的交通状态s’；

S1-4通过奖励函数计算本次驾驶动作的奖励值r，并将原交通状态s、驾驶动作a、奖励值r和新的交通状态s’作为转移样本(s，a，r，s’)存入经验回放池中；

S1-5计算决策模型的损失函数值；

S1-6重复步骤S1-2～步骤S1-5，设计合适的损失函数，采用批量梯度下降的方法对决策模型神经网络参数进行训练，直至损失函数批量梯度下降至相应值，通过一次次迭代计算中使决策模型收敛并更新决策模型的参数；

S1-7重复步骤S1-2～S1-6，直至在仿真系统中自动驾驶车辆完成超车或撞车；

S1-8重复步骤S1-2～S1-7，直到决策模型的策略稳定，即自动驾驶汽车在训练过程中可以很好的完成超车决策。

进一步地，决策模型的策略稳定的衡量标准包括：1.平均累计折扣奖励不再上升；2.安全超车率达到90％以上。

按照上述技术方案，在所述的S2中利用离线训练好的决策模型进行实车推理决策的具体过程为：是将离线训练好的决策模型当作一个近似决策函数f(s)，输入当前车辆状态s，即可输出当前最优动作a，即a＝f(s)。在该过程中不再对神经网络参数进行调整。

按照上述技术方案，深度强化学习决策模型中包含深度神经网络，在离线模拟器中训练的过程中，主要利用梯度下降的方法对神经网络参数进行调整，直到算法收敛，即安全超车率高于90％。

按照上述技术方案，在所述的步骤1)中，自动驾驶车辆的交通状态包括自动驾驶车辆自身速度和坐标以及周围车辆相对信息。

按照上述技术方案，所述的周围车辆相对信息包括自动驾驶车辆与前车和对向旁车之间的相对车速和相对车距。

按照上述技术方案，在所述的步骤3)中，动作空间中包括多个驾驶动作指令，分别为换道指令、匀速指令、避撞指令、减速指令和加速指令。

按照上述技术方案，在所述的步骤3)中，决策模型本次决策的驾驶动作指令与下一循环决策的驾驶动作指令之间的间隔时间t为0.1s。

按照上述技术方案，决策模型包括两个深度神经网络，分别为主神经网络和目标神经网络，主神经网络用于选择驾驶动作指令，目标神经网络用于评估驾驶动作指令；

所述的步骤5)中，损失函数为

其中，y为主神经网络和目标神经网络的时间差分误差，s为交通状态，a^*为主神经网络选择的驾驶动作指令，主神经网络参数θ，Q函数即为Q(s,a^*)简称为Q函数，是驾驶动作值函数，代表在交通状态s下，采用a^*这个驾驶动作后的期望奖励，这个值越大，说明在该交通状态s下采取该驾驶动作奖励越大；Q(s,a^*,θ)是指参数为θ的神经网络产生的近似Q函数。

按照上述技术方案，Q(s，a^*，θ)中，θ表示神经网络的参数集(不止一个)，由于连续空间下，交通状态-驾驶动作对无穷，所以通过神经网络近似逼近Q函数。

按照上述技术方案，主网络和目标网络的时间差分误差

y＝r+γmaxQ(s′,a^*；θ^-)

其中，r为本次驾驶动作的奖励值r，θ^-＝为目标神经网络参数，γ为折扣因子，一般γ的取值范围为0.9～0.99；s’为下一交通状态；xQ(s′,a^*；θ^-)是利用参数为θ^-的目标神经网络近似逼近的Q函数，用来计算下一状态s’下采用动作a^*的近似Q函数值。

进一步地，s’表示下一状态，由于采用贝尔曼方程来迭代计算Q函数，即使用下一状态的Q函数+奖励r来近似表达d当前Q函数值。

进一步地，在所述的步骤S1-6中具体的迭代计算过程如下，{s1,a1,s2,,a2,s3,……}表示马尔可夫状态动作链，即交通状态s1下采取驾驶动作a1，交通状态会转移至下一交通状态s2，而交通状态s2下采取动作a2，交通状态转移至再下一次交通状态s3。下面是贝尔曼迭代计算公式，计算上述状态动作链中状态的Q函数值：

Q_s1＝r1+γQ_s2 (1)

Q_s2＝r2+γQ_s3 (2)

将(2)中Q_s2带入(1)式，可以得到

依次迭代使用后续Q函数值来计算Q_s1后，可以发现离当前状态越远的Q函数，其前面γ系数次数越高。当γ＜1时，高次项γⁿQ_s(n+1)≈0，即离当前状态越远，其Q函数对当前交通状态的值函数计算影响越小。

按照上述技术方案，在所述的步骤4)中，奖励函数包括四个相关项，分别是目标相关项，安全相关项，速度相关项和碰撞相关项，其中，目标相关项在超车成功时给予较大的奖励；安全相关项在车辆处于对向车道时会给予负的奖励，从而避免出现车辆长时间占据对向车道的情况；速度相关项用于实现更快的超车；碰撞相关项是基于碰撞时间余量(TTC)的分段函数，碰撞时间余量(TTC)越小奖励越小。

按照上述技术方案，奖励函数为四个相关项作为相应的加权系数的线性加权，加权系数在决策模型的训练过程中合理调整，直到强化学习DDQN算法能够产生合理有效的策略；在离线训练中，通过与基于规则的IDM(Intelligent Driver Model)驾驶模型进行对比，以安全性、舒适性、行车效率、超车率作为评价指标。决策切换与风险值与交通规则有关，在每次决策过程中，都会根据环境信息计算TTC，THW等风险值，当高于一定阈值后，采用基于有限状态机的决策方法。或者当采用基于强化学习方法获得的策略违反交通规则，则采用基于有限状态机的决策方法。

按照上述技术方案，经验回放池中收集有大量对向双车道环境下的交通信息数据样本，通过从经验回放池中采集样本对决策模型进行训练，决策模型通过深度强化学习算法进行训练，在训练过程中，通过使用优先回放采样批量交通信息样本进行神经网络训练，利用主网络和目标网络的差值计算时间差分中的决策模型的损失函数，并用批量梯度下降法将损失函数值降低至指定值，从而优化神经网络参数，同时合理调整奖励函数的相关项加权系数，最终获得优化的决策模型。

按照上述技术方案，主网络和目标网络具有相同结构，均包括一层输入层、三层全连接神经网络和一层输出层，三层全连接神经网络的神经元数量分别为100，100和5个。

按照上述技术方案，在所述的步骤S1-6中，损失函数通过mini-batch批量梯度下降进行训练，提高训练效率。

本发明具有以下有益效果：

1.本发明保证自动驾驶车辆超车决策过程的安全性和舒适性，通过强化学习的决策模型形成的强化学习决策方法，提高了决策的拟人性和鲁棒性。

2.通过两个深度神经网络，分别用于选择动作和评估动作，解决过估计问题，避免由于每次都用最大的下一状态的值函数估计当前状态，造成当前状态的值函数相比真值偏大，提高了决策合理性和准确性。

附图说明

图1是本发明实施例中对向双车道超车环境的示意图；

图2是本发明实施例中对向双车道下基于强化学习的自动驾驶超车决策方法的结构框图；

图3是本发明实施例中决策模型的示意图；

图4是本发明实施例中主网络和目标网络的结构示意图；

图中，1-自动驾驶车辆，2-前车，3-旁车。

具体实施方式

下面结合附图和实施例对本发明进行详细说明。

参照图1～图4所示，本发明提供的一个实施例中的一种对向双车道下基于强化学习的自动驾驶超车决策方法，包括以下步骤：

1)通过传感器实时采集自动驾驶车辆的交通状态s；

2)将采集到的交通状态s输入到经过训练的决策模型中；

6)重复步骤1)～5)，直至自动驾驶结束。

进一步地，所述的步骤2)，训练决策模型的具体过程包括以下步骤：

S1对决策模型进行离线仿真训练；

S2利用离线训练好的决策模型进行实车推理决策。

进一步地，基于强化学习的决策方法分为两步：离线仿真训练，在线实车推理。离线训练过程中需要奖励函数与经验回放池，一次次迭代计算中使得深度强化学习决策模型收敛。实车中使用训练好的模型在线推理，根据传感器获得的交通信息直接获得对应的最优动作。

进一步地，在所述的步骤S1中，对决策模型进行离线仿真训练均在仿真系统中完成，具体过程包括如下步骤：

S1-2从经验回放池中采集交通状态s输入至决策模型中；

S1-5计算决策模型的损失函数值；

进一步地，在所述的S2中利用离线训练好的决策模型进行实车推理决策的具体过程为：是将离线训练好的决策模型当作一个近似决策函数f(s)，输入当前车辆状态s，即可输出当前最优动作a，即a＝f(s)。在该过程中不再对神经网络参数进行调整。

进一步地，深度强化学习决策模型中包含深度神经网络，在离线模拟器中训练的过程中，主要利用梯度下降的方法对神经网络参数进行调整，直到算法收敛，即安全超车率高于90％。

进一步地，在所述的步骤1)中，自动驾驶车辆的交通状态包括自动驾驶车辆自身速度和坐标以及周围车辆相对信息。

进一步地，所述的周围车辆相对信息包括自动驾驶车辆与前车和对向旁车之间的相对车速和相对车距。

进一步地，在所述的步骤3)中，动作空间中包括多个驾驶动作指令，分别为换道指令、匀速指令、避撞指令、减速指令和加速指令。

进一步地，在所述的步骤3)中，决策模型本次决策的驾驶动作指令与下一循环决策的驾驶动作指令之间的间隔时间t为0.1s。

进一步地，决策模型包括两个深度神经网络，分别为主神经网络和目标神经网络，主神经网络用于选择驾驶动作指令，目标神经网络用于评估驾驶动作指令；

所述的步骤5)中，损失函数为

其中，y为主神经网络和目标神经网络的时间差分误差，s为交通状态，a^*为主神经网络选择的驾驶动作指令，主神经网络参数θ，

Q函数即为Q(s,a^*)简称为Q函数，是驾驶动作值函数，代表在交通状态s下，采用a^*这个驾驶动作后的期望奖励，这个值越大，说明在该交通状态s下采取该驾驶动作奖励越大；Q(s,a^*,θ)是指参数为θ的神经网络产生的近似Q函数。

进一步地，Q(s，a^*，θ)中，θ表示神经网络的参数集(不止一个)，由于连续空间下，交通状态-驾驶动作对无穷，所以通过神经网络近似逼近Q函数。

进一步地，主网络和目标网络的时间差分误差

y＝r+γmaxQ(s′,a^*；θ^-)

其中，r为本次驾驶动作的奖励值r，θ^-＝为目标神经网络参数，γ为折扣因子，一般γ的取值范围为0.9～0.99；s’为下一交通状态；xQ(s′,a^*；θ^-)是利用参数为θ^-＝的目标神经网络近似逼近的Q函数，用来计算下一状态s’下采用动作a^*的近似Q函数值。

进一步地，在所述的步骤S1-6中具体的迭代计算过程如下，{s0,a0,s1,a1,r1,s2,a2,r2,s3,a3,r3,……}定义马尔可夫决策模型的轨迹，即环境由初始状态s0根据给定策略π(a|s)转移到后续状态过程中所有动作、状态、奖励的集合。下面是贝尔曼迭代计算公式，计算上述状态动作链中状态的Q函数值：

Q(s₁,a₁)＝r₁+γQ(s₂,a₂) (1)

Q(s₂,a₂)＝r₂+γQ(s₃,a₃) (2)

将(2)中Q(s₂,a₂)中带入(1)式，可以得到

依次迭代使用后续Q函数值来计算Q_s1后，可以发现离当前状态越远的Q函数，其前面γ系数次数越高。当γ＜1时，高次项γⁿQ(s_n+1,a_n+1)≈0，即离当前状态越远，其Q函数对当前交通状态的值函数计算影响越小。

进一步地，在所述的步骤4)中，奖励函数包括四个相关项，分别是目标相关项，安全相关项，速度相关项和碰撞相关项，其中，目标相关项在超车成功时给予较大的奖励；安全相关项在车辆处于对向车道时会给予负的奖励，从而避免出现车辆长时间占据对向车道的情况；速度相关项用于实现更快的超车；碰撞相关项是基于碰撞时间余量(TTC)的分段函数，碰撞时间余量(TTC)越小奖励越小。

进一步地，奖励函数为四个相关项作为相应的加权系数的线性加权，加权系数在决策模型的训练过程中合理调整，直到强化学习DDQN算法能够产生合理有效的策略；在离线训练中，通过与基于规则的IDM(Intelligent Driver Model)驾驶模型进行对比，以安全性、舒适性、行车效率、超车率作为评价指标。决策切换与风险值与交通规则有关，在每次决策过程中，都会根据环境信息计算TTC，THW等风险值，当高于一定阈值后，采用基于有限状态机的决策方法。或者当采用基于强化学习方法获得的策略违反交通规则，则采用基于有限状态机的决策方法。

进一步地，经验回放池中收集有大量对向双车道环境下的交通信息数据样本，通过从经验回放池中采集样本对决策模型进行训练，决策模型通过深度强化学习算法进行训练，在训练过程中，通过使用优先回放采样批量交通信息样本进行神经网络训练，利用主网络和目标网络的差值计算时间差分中的决策模型的损失函数，并用批量梯度下降法将损失函数值降低至相应值，从而优化神经网络参数，同时合理调整奖励函数的相关项加权系数，最终获得优化的决策模型。

进一步地，主网络和目标网络具有相同结构，均包括一层输入层、三层全连接神经网络和一层输出层，三层全连接神经网络的神经元数量分别为100，100和5个。

进一步地，在所述的步骤S1-6中，损失函数通过mini-batch批量梯度下降进行训练，提高训练效率。

进一步地，上面所述的决策融合过程包含了基于强化学习的超车决策和传统的基于规则的决策方法。基于规则的决策方法采用有限状态机法，根据实际感知传感器输入的状态量和经验设定好的门限值进行比较，在五种动作指令间(换道、匀速、避撞、减速和加速)展开切换，通过双模式决策融合系统，实现在强化学习部分失效的情况下(例如大数据训练不完备，违反交通规则，感知信息缺失)，利用基于规则的决策作为安全备份和有力补充。

本发明的工作原理：

下面将结合附图对本发明技术方案的实施例进行详细的描述，包含前车，对向来车，及自动驾驶汽车在内的对向双车道环境如图1所示。本发明提供了一种在此环境下基于强化学习的自动驾驶汽车超车决策方法，其总体结构框图如图2所示，具体包括：

1.对向双车道环境包括了自动驾驶汽车，同车道内慢速的前车及旁车道中由对向迎面驶来的旁车。预先通过自车传感器和环境感知传感器采集大量的真实交通信息用于强化学习中的训练过程。这些信息包括自动驾驶汽车的车速及位置坐标，与前车和对向旁车之间的相对车速和相对车距等，将其作为状态空间输入到强化学习的马尔科夫决策模型中。强化学习的动作空间设置为换道命令，匀速行驶，避撞，减速和加速共五种指令。强化学习的奖励函数参考了安全性、舒适性、超车效率等决策因素，由四个函数加权而成。强化学习训练完成后，可用于自动驾驶汽车在对向双车道环境下的超车决策，并与传统基于规则的决策模块经过融合后，从换道、匀速、避撞、减速和加速等五种宏观驾驶行为中确定一种当前最为合理的指令最终输出给规划及控制模块。

2.采用一种基于DDQN算法的强化学习决策方法。DDQN通过将深度学习与强化学习结合，是一种处理高维连续空间问题的算法。使用深度神经网络近似逼近值函数，以状态量作为输入，直接输出各个动作的值函数，然后根据值函数选择最佳的动作。在DDQN中包含两个深度神经网络：主网络和目标网络，分别用于选择动作和评估动作，解决过估计问题，避免由于每次都用最大的下一状态的值函数估计当前状态，造成当前状态的值函数相比真值偏大。用DDQN算法控制的自动驾驶车辆通过与环境的交互，产生一系列转移样本(s,a,r,s′)，其中s为当前状态，a为驾驶动作，采取动作后转移到下一状态s’，r为在状态s时采取动作a后获得的奖励，然后将该转移数据保存至经验回放池D中。经验回放池存储之前已经经历过的状态动作以及奖励，利用回放池可以打破数据之间的关联性，让神经网络训练变得稳定。在强化学习训练过程中，通过优先回放采样批量数据样本，利用主网络和目标网络的差值计算损失函数，并用批量梯度下降法来调整网络参数。普通的梯度下降方法都是对一个数据进行梯度下降，如果一个训练集有1000个数据，那么要梯度下降调整神经网络参数1000次；如果采用mini-batch方法，选择批量样本大小为50个，即一次性选择50个数据进行批量梯度下降，那么训练1000个数据只要20次，因此大大提高训练效率。

3.根据图4主网络与目标网络采用了相同结构：3层全连接神经网络，三层网络的神经元数量分别为100，100和5个。训练过程中输入状态量大小为14，最后一层的神经网络采用线性激活，输出离散的五个动作指令(换道、匀速、避撞、减速和加速)，然后根据贪心策略选择相应的动作。贪心策略每次会直接选择使值函数最大的动作。在贪心算法中，设置初始探索率为1，在五十万步后衰减到0.1，即以0.1的概率采用随机动作，其余则是根据值函数选择使得奖励最大的动作。根据图3，其主要步骤为：

步骤1：随机初始化主网络参数θ，并令目标网络参数θ^-＝θ；

步骤2：根据环境确定初始状态s₀，包括自身速度、坐标以及周围车辆相对信息；

步骤3a：初始驾驶决策根据贪心策略获得a～π(s)，即以ε的概率随机选择一个驾驶动作，以1-ε的概率选择使得值函数最大的动作a＝argmaxQ(s,a；θ)；

步骤3b：根据动作a控制自动驾驶车辆，获得下一状态s′，同时根据奖励函数R(s,a)计算奖励r，并将样本(s,a,r,s′)存入经验回放池；

步骤3c：在经验池D中以优先回放的方法采样mini-batch组样本；

步骤3d：计算时间差分误差y，y＝r+γmaxQ(s′,a^*；θ^-)，其中a^*根据主网络选择，a^*＝argmaxQ(s′,a；θ)；

步骤3e：计算损失函数，

步骤3f：对损失函数进行批量梯度下降，更新主网络参数θ；

步骤3g：根据主网络参数θ对目标网络参数θ^-进行软更新；

步骤4：重复上述步骤3过程，直到自动驾驶车辆在训练中撞车或者完成超车；

步骤5：重复上述步骤2、3、4直到策略稳定，即自动驾驶汽车在训练过程中可以很好的完成超车决策。

4.强化学习中智能体会根据奖励函数的反馈对策略进行调整。所以本次为了实现安全、高效的超车行为，将奖励函数分为了以下4个部分，分别是目标相关项，安全相关项，速度相关项和碰撞相关项。其中，目标相关项在超车成功时给予较大的奖励；安全相关项在车辆处于对向车道时会给予负的奖励，从而避免出现车辆长时间占据对向车道的情况；速度相关项用于实现更快的超车；碰撞相关项是基于碰撞时间余量(TTC)的分段函数，TTC越小奖励越小。最终的奖励函数为上述几个部分加权求和，如公式3所示。加权系数需要在训练过程中合理调整，直到强化学习DDQN算法能够产生合理有效的策略。当α₄相对比较大的时候，通过强化学习得到的策略对相对比较保守，会倾向于保持较大的安全距离。

R＝α₁R_velocity+α₂R_overtake+α₃R_opposite+α₄R_collision (3)

4.最终结合上述的强化学习的超车决策和传统的基于规则的决策方法，形成了双模式决策融合系统。基于规则的决策方法采用有限状态机法，根据实际感知传感器输入的状态量和经验设定好的门限值进行比较，在五种动作指令间(换道、匀速、避撞、减速和加速)展开切换。通过基于规则的决策方法对强化学习DDQN的决策结果进行校验。如果两者相同，则直接将动作指令传给后面的规划控制层。如果两者不同，则在以下三种情况下优先选择基于规则的决策结果，包括：感知信息超出了训练数据的范围以外，实际感知信息缺失，和强化学习作出的结果违反了交通规则。因此双模式的决策融合相比单独的强化学习决策方法，使得决策系统更具有合理性和鲁棒性。

以上的仅为本发明的较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明申请专利范围所作的等效变化，仍属本发明的保护范围。

Claims

1.一种对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，包括以下步骤：

1)通过传感器采集自动驾驶车辆的交通状态s；

2)将采集到的交通状态s输入到经过训练的决策模型中；

6)重复步骤1)～5)，直至自动驾驶结束；

在所述的步骤3)中，动作空间中包括多个驾驶动作指令，分别为换道指令、匀速指令、避撞指令、减速指令和加速指令；

决策模型包括两个深度神经网络，分别为主神经网络和目标神经网络，主神经网络用于选择驾驶动作指令，目标神经网络用于评估驾驶动作指令；

所述的步骤5)中，损失函数为

其中，y为主神经网络和目标神经网络的时间差分误差，s为交通状态，a^*为主神经网络选择的驾驶动作指令，主神经网络参数θ，Q函数即为Q(s,a^*)简称为Q函数，是驾驶动作值函数，代表在交通状态s下，采用a^*这个驾驶动作后的期望奖励，这个值越大，说明在该交通状态s下采取该驾驶动作奖励越大；Q(s,a^*,θ)是指参数为θ的神经网络产生的近似Q函数；

主网络和目标网络的时间差分误差

y＝r+γmaxQ(s′,a^*；θ^-)

其中，r为本次驾驶动作的奖励值r，θ^-＝为目标神经网络参数，γ为折扣因子；s’为下一交通状态；xQ(s′,a^*；θ^-)是利用参数为θ^-的目标神经网络近似逼近的Q函数，用来计算下一状态s’下采用动作a^*的近似Q函数值；

在所述的步骤4)中，奖励函数包括四个相关项，分别是目标相关项，安全相关项，速度相关项和碰撞相关项，其中，目标相关项在超车成功时给予较大的奖励；安全相关项在车辆处于对向车道时会给予负的奖励，从而避免出现车辆长时间占据对向车道的情况；速度相关项用于实现更快的超车；碰撞相关项是基于碰撞时间余量(TTC)的分段函数，碰撞时间余量(TTC)越小奖励越小；

结合上述的强化学习的超车决策和传统的基于规则的决策方法，形成了双模式决策融合系统；基于规则的决策方法采用有限状态机法，根据实际感知传感器输入的状态量和经验设定好的门限值进行比较，在五种动作指令间(换道、匀速、避撞、减速和加速)展开切换；通过基于规则的决策方法对强化学习DDQN的决策结果进行校验；如果两者结果相同，则直接将动作指令传给后面的规划控制层；如果两者结果不同，则在以下三种情况下优先选择基于规则的决策结果，包括：感知信息超出了训练数据的范围以外，实际感知信息缺失，和强化学习作出的结果违反了交通规则。

2.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，所述的步骤2)，训练决策模型的具体过程包括以下步骤：

S1对决策模型进行离线仿真训练；

S2利用离线训练好的决策模型进行实车推理决策。

3.根据权利要求2所述的对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，在所述的步骤S1中，对决策模型进行离线仿真训练均在仿真系统中完成，具体过程包括如下步骤：

S1-2从经验回放池中采集交通状态s输入至决策模型中；

S1-5计算决策模型的损失函数值；

S1-6重复步骤S1-2～步骤S1-5，采用批量梯度下降的方法对决策模型神经网络参数进行训练，通过一次次迭代计算中使决策模型收敛并更新决策模型的参数；

4.根据权利要求3所述的对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，在所述的S2中利用离线训练好的决策模型进行实车推理决策的具体过程为：是将离线训练好的决策模型当作一个近似决策函数f(s)，输入当前车辆状态s，即可输出当前最优动作a，即a＝f(s)，在该过程中不再对神经网络参数进行调整。

5.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，在所述的步骤1)中，自动驾驶车辆的交通状态包括自动驾驶车辆自身速度和坐标以及周围车辆相对信息。

6.根据权利要求1所述的对向双车道下基于强化学习的自动驾驶超车决策方法，其特征在于，在所述的步骤3)中，决策模型本次决策的驾驶动作指令与下一循环决策的驾驶动作指令之间的间隔时间t为0.1s。