CN111845741A

CN111845741A - 一种基于分层强化学习的自动驾驶决策控制方法及系统

Info

Publication number: CN111845741A
Application number: CN202010598169.7A
Authority: CN
Inventors: 蔡英凤; 杨绍卿; 滕成龙; 李祎承; 王海; 孙晓强; 陈小波
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-10-30
Anticipated expiration: 2040-06-28
Also published as: CN111845741B

Abstract

本发明公开了一种基于分层强化学习的自动驾驶决策控制方法及系统,包括动作层Agent和决策层Agent。动作层Agent为处理连续行为的基于策略梯度的强化学习算法，通过和道路环境信息交互训练出正确的动作网络；决策层Agent选择处理离散行为的基于价值的强化学习算法，通过和车流交通状态信息交互训练出正确的决策网络。通过先训练动作层Agent，在基于已经训练完成的动作层Agent的基础上训练决策层Agent，使两次训练任务明确，提高了学习效率。本发明避免了急加速和急减速的情况发生，改善了整车舒适性。

Description

一种基于分层强化学习的自动驾驶决策控制方法及系统

技术领域

本发明属于智能车自动驾驶领域，涉及一种基于分层强化学习的自动驾驶决策控制方法系统。

背景技术

强化学习为一种快速发展的机器学习方法，强调基于当前的环境状态，选择一个动作使得该动作能够取得最大化的预期奖励。它是一种试错的学习方式，学习过程中通过奖励的刺激，逐渐能够做出最大化预期奖励的动作。其中，无模型的强化学习方式，由于其不需要建模，渐进性能好而备受关注。DDPG和DQN算法分别为两种不同的无模型强化学习方法，DDPG为一种基于策略梯度的强化学习算法用来处理连续行为，DQN为一种基于价值的强化学习算法用来处理离散行为。

传统的自动驾驶控制方法很难兼顾复杂的环境而做出正确的决策和动作，已经渐渐不能满足自动驾驶的决策和控制要求。随着人工智能算法的发展以及车载硬件的不断提高，解决该问题的直接方法为通过强化学习的方式，训练一组端到端的神经网络用来映射当前的环境状态和动作决策输出。其中，关于自动驾驶的动作输出包括方向盘、油门和刹车均为连续的动作量，比较适合选择处理连续行为的强化学习算法；自动驾驶的决策输出包括左换道、右换道和车道保持均为离散的、单一的行为，比较适合选择处理离散行为的强化学习算法。

发明内容

基于上述背景，本发明提出了一种基于DDPG动作控制和DQN决策的分层强化学习自动驾驶决策控制方法及系统，通过先训练动作再训练决策的方式，提高了训练效率。将智能车所在的环境分为道路环境信息和车流交通状态信息，通过和道路环境信息交互来训练动作层Agent，通过和车流交通状态信息交互来训练决策层Agent，使得智能车能复杂场景的环境中做出正确的动作和决策。

本发明提出的一种基于分层强化学习的自动驾驶决策控制方法，包括设计两部分：动作层Agent和决策层Agent。动作层Agent选择处理连续行为的基于策略梯度的强化学习算法，通过和道路环境信息交互训练出正确的动作网络；决策层Agent选择处理离散行为的基于价值的强化学习算法，通过和车流交通状态信息交互训练出正确的决策网络。具体包括一下内容：

动作层Agent通过环境交互，获取道路环境信息

动作层Agent获得状态量s_t后得出一个确定动作μ_t，再通过给该确定动作μ_t一个探索噪声n_t，合成一个具有一定探索性的动作a_t。智能车在执行动作a_t后会得到环境的反馈量

和r^l。反馈量

为新的状态量，r^l为执行动作a_t后获得的奖励。通过改变任务，使得动作层Agent学会执行左换道、右换道和车道保持动作。

进一步，所述动作a_t包括方向盘转角a_δ，油门a_c和刹车a_b。其中油门动作a_c和刹车动作a_b用一个动作a_a表示，具体表达式为：

进一步，所述实时奖励r^l包括车道保持时的奖励函数和换道时的奖励函数。车道保持的奖励函数设计为：

换道的奖励函数设计为：

决策层Agent通过和环境交互，获取车流和交通状况信息。决策层Agent获得状态量

后，选择一个和当前状态量

对应的最具价值决策

智能车在执行决策u_t后得到环境的反馈量

和r^v。反馈量

为新的状态量，r^v为执行决策u_t后获得的奖励。通过不断的学习，使得决策层Agent可以做出对应于当前车流和交通状况最优的决策u_t，然后智能车会做出与最优决策u_t相对应的动作a_t。

进一步，所述实时奖励r^v包括针对车流信息的奖励函数和交通信息的奖励函数。车流信息的奖励函数设计为：

交通信息的奖励函数设计为：

进一步，针对分层强化学习的自动驾驶动作层Agent和决策层Agent的训练流程为：在训练初始阶段对动作层Agent和决策层Agent进行初始化，首先在没有复杂交通和较少车流的环境下对动作层Agent进行训练，如果训练失败，再进行重复训练，直至智能车能完成预定的目标后保存训练好的动作层Agent。通过使用前先训练好的动作层Agent，通过和车流-交通状况信息交互进行进一步的决策层Agent的训练，如果训练失败，再进行重复训练，直至智能车能完成预定的目标后保存训练好的决策层Agent。

本发明基于分层强化学习的自动驾驶决策控制系统，包括动作层Agent和决策层Agent；动作层Agent选择处理连续行为的基于策略梯度的强化学习算法，通过和道路环境信息交互训练出正确的动作网络；决策层Agent选择处理离散行为的基于价值的强化学习算法，通过和车流交通状态信息交互训练出正确的决策网络；

动作层Agent通过环境交互，获取道路环境信息

动作层Agent获得状态量

后得出一个确定动作μ_t，再通过给该确定动作μ_t一个探索噪声n_t，合成一个具有探索性的动作a_t，智能车在执行动作a_t后会得到环境的反馈量

r^l，反馈量

为新的状态量，r^l为执行动作a_t后获得的奖励；通过改变任务，使得动作层Agent学会执行左换道、右换道和车道保持动作；

后，选择一个和当前状态量

对应的最具价值决策

智能车在执行决策u_t后得到环境的反馈量

和r^v。反馈量

为新的状态量，r^v为执行决策u_t后获得的奖励。通过不断的学习，使得决策层Agent可以做出对应于当前车流和交通状况最优的决策，然后智能车会做出与最优决策u_t相对应的动作a_t；

其中，动作层Agent的实时奖励r^l包括车道保持时的奖励函数和换道时的奖励函数。车道保持的奖励函数设计为：

换道的奖励函数设计为：

决策层Agent的实时奖励r^v包括针对车流信息的奖励函数和交通信息的奖励函数，车流信息的奖励函数设计为：

交通信息的奖励函数设计为：

其中，系统动作层Agent和决策层Agent的训练方法在具体实施方式部分作了详细描述。

本发明的有益效果为：

(1)本发明通过基于价值的强化学习方法和策略梯度的强化学习方法设计了一种分层强化学习的自动驾驶决策控制方法，通过先对动作层Agent进行训练，再在动作层Agent训练完成的基础上对决策层Agent进行训练，使得两次训练任务明确，训练更容易完成。

(2)本发明在对动作层Agent进行训练时，将刹车动作和油门动作用一个单一的动作a_a，解决了动作训练过程中智能车频繁制动，智能车停滞不前导致奖励函数变化不明显，训练效果差的问题。同时避免了急加速和急减速的情况发生，改善了整车舒适性。

(3)本发明在对动作层Agent进行训练时，针对不同的动作任务，优化设计了不同的奖励函数，使得动作训练更具针对性。同时，在对决策层Agent进行训练时，针对可能发生撞车的危险信号和违反交通规则的危险行为分别设计了奖励函数，使得决策兼顾了交通状况和交通规则。

附图说明

图1为分层强化学习的自动驾驶决策控制方法流程图；

图2为基于DDPG算法的动作层Agent训练流程图；

图3为基于DQN算法的决策层Agent训练流程图；

图4为分层强化学习的自动驾驶决策控制方法的训练流程图；

具体实施方式

下面将结合附图说明对本发明作进一步的说明，但本发明的保护范围并不仅限于此。

图1为基于分层强化学习的自动驾驶决策控制方法流程图，本发明方法包括动作层Agent和决策层Agent，具体如下：

动作层Agent通过环境交互，获取道路环境信息

动作层Agent获得状态量

后得出一个确定动作μ_t，再通过给该确定动作μ_t一个探索噪声n_t，合成一个具有一定探索性的动作a_t。智能车在执行动作a_t后得到环境的反馈量

和r^l。反馈量

后，选择一个和当前状态量

对应的最具价值决策

智能车在执行决策u_t后得到环境的反馈量

和r^v。反馈量

为新的状态量，r^v为执行决策u_t后获得的奖励。通过不断的学习，使得决策层Agent可以做出对应于当前车流和交通状况最优的决策，然后智能车会做出与最优决策u_t相对应的动作a_t。

图2为基于DDPG算法的动作层Agent训练流程图，基于DDPG算法的动作层Agent主要包括演员(Actor)和评论家(Critic)两个模块。每个模块又有Online(主网络)和Target(目标网络)两组网络。在进行动作训练之前对动作层Agent进行初始化。演员模块中的Online策略网络根据从环境中获取道路环境信息

包括航向角误差、当前的位置误差、预瞄点处的横向误差、车速、横摆角速度和加速度。根据状态量

做出动作μ_t，通过给动作μ_t添加一个动作噪声n_t获得一个具有探索性的动作a_t。动作a_t包括方向盘转角a_δ，油门a_c和刹车a_b。在训练初期，会随机执行方向盘转角a_δ，油门a_c和刹车a_b。在随机执行油门动作a_c时大概率会使车辆停滞不前，而造成实时奖励r^l无明显变化，造成训练陷入局部最优。本发明将油门动作a_c和刹车动作a_b用一个动作a_a表示，其中油门动作a_c和刹车动作a_b关于a_a的具体表达式为：

油门动作a_c和刹车动作a_b的取值范围为[0,1]，动作a_a的取值范围为[-1,1]。由上式可以看出，油门动作a_c和刹车动作a_b不能同时为非零值，也就是不能油门和刹车不能同时执行，这是符合一般驾驶员的认知的，同时更会减小动作层Agent在训练初期随机做出油门和刹车动作会对车辆造成严重损伤。油门动作a_c和刹车动作a_b的临界点为a_a＝0，使得动作层Agent根据当前的道路环境信息

做出决策a_a使得制动力和驱动力之间的转变过程尽可能的均匀变化，一定程度上避免了急加速和急减速的情况发生，有助于改善整车舒适性。动作的具体定义如下表1所示：

表1

根据需要训练的三种不同的行为动作，设计不同的具有针对性的奖励函数。

针对车道保持行为设计的奖励函数如下：

其中，

为智能车前进方向和道路之间的航向角误差，error为当前智能车质心与道路中心点之间的横向位置误差，v为智能车的实际车速，v_des为期望车速，d为智能车距离前车的实际车距，d_des为智能车与前车之间的期望车速，d_safe为智能车与前车之间的安全车距。k₁、k₂、k₃和k₄为各项奖励的前置系数，可以根据训练效果做相应的调整。

保证了智能车在执行车道保持动作的时候不会偏离车道行驶，当智能车的航向角误差和质心处的横向误差为0时，

到最大奖励。

证了智能车在行驶过程中尽可能的稳定在期望车速。

保证了智能车在执行车道保持任务时与前车保持适当的距离，当智能车与前车的实际距离大于安全距离d_safe时，

等于-k₄abs(d-d_des)，保证了智能车与前车之间尽可能保持期望距离d_des，当智能车与前车的车距小于安全距离d_safe时，终止训练，并给一个-100的奖励。最终的奖励函数为∑r_i ^l。

针对左换道和右换道行为设计的奖励函数如下：

其中，

为左(右)车道与智能车前进方向的航向角误差，d_change为左(右)车道与智能车质心处的距离。k₅和k₆为奖励的前置系数，可以根据训练效果做相应的调整。在刚开始换道时，由于当前车道和左(右)车道为平行车道，

约为0，但d_change较大，此时

为0，对

的影响较小，但-k₆abs(d_change)对

的影响较大，此时奖励

会促使动作层Agent在不考虑

着重考虑如何减小d_change来做出相应的行为；在换到后期，随着d_change的逐渐减小和

逐渐增大，

会越来越大，对

的影响也越来越大，此时奖励

会促使动作层Agent做出决策时兼顾减小

和d_change。

在执行具体动作的时候，会在动作层Agent给出的动作μ_t上增加一个动作噪声n_t使得实际执行的动作具有一定的探索性。其中动作噪声n_t＝α*N，为一个噪声折扣因子α和正态分布的噪声N的乘积，噪声折扣因子α会随着训练周期越多而越来越小。智能车在做出动作a_t环境会给新的状态量

和奖励r^l。

图3为基于DQN算法的决策层Agent训练流程图，基于DQN算法的决策层Agent训练是在动作层Agent基本训练完成的基础上进行训练的。在完成动作层Agent训练的智能车已经能做出左换道、右换道和车道保持等连续动作，但尚不能在正确的时机下做出正确的动作决策。此时将动作层Agent已经训练完成的智能车放在具有较复杂的车流和交通信息环境中进行决策层Agent进行训练。在训练过程中，决策层Agent从环境中获取车流和交通状况信息，包括正确的交通规则、前后及相应的斜对角车流信息，决策层Agent再做出当前状态下最具有价值的决策

环境再将做出决策后的新的环境状态和奖励反馈给决策层Agent存储在经验池中，每个时步再从经验池随机获取先前的经验对网络进行训练。

针对车流信息，设计的奖励函数如下所示：

其中，d为与最近车车辆的实时距离，d_safe为与最近车辆应当保持的安全距离。为了避免决策层Agent做出频繁换道的决策，每次换道后给智能车一个-1的奖励，避免频繁换道的决策。当做出相应决策后与最近车辆的实时距离d小于d_safe，则认为做出的决策是不正确的，给一个-100的奖励，并终止当前训练周期，避免下次做出该决策。在其他情况下，默认奖励为0。

针对交通信息，设计的奖励函数如下所示：

为了避免决策层Agent做出违反交通规则的决策，每次智能车违反交通规则后给一个-100的奖励并终止当前周期的训练。其他情况下奖励为0。

最终的奖励函数

图4为分层强化学习的自动驾驶决策控制方法的训练流程图，训练初始阶段对动作层Agent和决策层Agent进行初始化，首先在没有复杂交通和较少车流的环境下对动作层Agent进行训练，如果训练失败，再进行重复训练，直至智能车能完成预定的目标后保存训练好的动作层Agent。通过使用先前训练好的动作层Agent，通过和车流-交通状况信息交互进行进一步的决策层Agent的训练，如果训练失败，再进行重复训练，直至智能车能完成预定的目标后保存训练好的决策层Agent。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。

Claims

1.一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，包括设计动作层Agent和决策层Agent；所述动作层Agent选择处理连续行为的基于策略梯度的强化学习算法，通过和道路环境信息交互训练出正确的动作网络；决策层Agent选择处理离散行为的基于价值的强化学习算法，通过和车流交通状态信息交互训练出正确的决策网络。

2.根据权利要求1所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述动作层Agent通过环境交互，获取道路环境信息状态量

动作层Agent获得状态量

后得出确定动作μ_t，再通过给该确定动作μ_t施加一个探索噪声n_t，合成具有一定探索性的动作a_t；智能车在执行动作a_t后得到环境的反馈量

和r^l；其中，反馈量

为新的状态量，r^l为执行动作a_t后获得的实时奖励；通过改变任务，使得动作层Agent学会执行左换道、右换道和车道保持动作。

3.根据权利要求2所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述动作a_t包括方向盘转角a_δ，油门a_c和刹车a_b；其中油门动作a_c和刹车动作a_b合用一个动作a_a表示，具体表达式为：

4.根据权利要求2所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述实时奖励r^l包括车道保持时的奖励函数和换道时的奖励函数；其中车道保持的奖励函数设计为：

换道的奖励函数设计为：

5.根据权利要求1所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述决策层Agent通过和环境交互，获取车流和交通状况信息状态量

决策层Agent获得状态量

后，选择一个和当前状态量

对应的最具价值决策

智能车在执行决策u_t后得到环境的反馈量

和r^v；其中反馈量

为新的状态量，r^v为执行决策u_t后获得的实时奖励；通过不断的学习，使得决策层Agent可以做出对应于当前车流和交通状况最优的决策，然后智能车会做出与最优决策u_t相对应的动作a_t。

6.根据权利要求5所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述实时奖励r^v包括针对车流信息的奖励函数和交通信息的奖励函数；其中车流信息的奖励函数设计为：

交通信息的奖励函数设计为：

7.根据权利要求1-6任一项所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，还包括动作层Agent和决策层Agent的训练方法：

在训练初始阶段对动作层Agent和决策层Agent进行初始化，首先在没有复杂交通和较少车流的环境下对动作层Agent进行训练，如果训练失败，再进行重复训练，直至智能车能完成预定的目标后保存训练好的动作层Agent；通过使用前先训练好的动作层Agent，通过和车流-交通状况信息交互进行进一步的决策层Agent的训练，如果训练失败，再进行重复训练，直至智能车能完成预定的目标后保存训练好的决策层Agent。

8.根据权利要求7所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述动作层Agent的训练方法采用基于DDPG算法实现，具体训练方法如下：

在进行动作训练之前对动作层Agent进行初始化，演员模块中的Online策略网络根据从环境中获取道路环境信息状态量

包括航向角误差、当前的位置误差、预瞄点处的横向误差、车速、横摆角速度和加速度；根据状态量

做出动作μ_t，通过给动作μ_t添加一个动作噪声n_t获得一个具有探索性的动作a_t，该动作a_t包括方向盘转角a_δ、油门a_c和刹车a_b；在训练初期，随机执行方向盘转角a_δ、油门a_c和刹车a_b，在随机执行油门动作a_c时大概率会使车辆停滞不前，造成实时奖励r^l无明显变化，使得训练陷入局部最优；因此，将油门动作a_c和刹车动作a_b用一个动作a_a表示，其中油门动作a_c和刹车动作a_b关于a_a的具体表达式为：

油门动作a_c和刹车动作a_b的取值范围为[0,1]，动作a_a的取值范围为[-1,1]；

由上式得出，油门动作a_c和刹车动作a_b不能同时为非零值，油门动作a_c和刹车动作a_b的临界点为a_a＝0，使得动作层Agent根据当前的道路环境信息

做出决策a_a使得制动力和驱动力之间的转变过程尽可能的均匀变化；各动作的具体定义如说明书表1所示；

根据需要训练的三种不同的行为动作，设计具有针对性的奖励函数：

针对车道保持行为设计的奖励函数如下：

其中，

为智能车前进方向和道路之间的航向角误差，error为当前智能车质心与道路中心点之间的横向位置误差，v为智能车的实际车速，v_des为期望车速，d为智能车距离前车的实际车距，d_des为智能车与前车之间的期望车速，d_safe为智能车与前车之间的安全车距；k₁、k₂、k₃和k₄为各项奖励的前置系数，可以根据训练效果做相应的调整；

针对左换道和右换道行为设计的奖励函数如下：

其中，

为左(右)车道与智能车前进方向的航向角误差，d_change为左(右)车道与智能车质心处的距离，k₅和k₆为奖励的前置系数，可以根据训练效果做相应的调整；在刚开始换道时，由于当前车道和左(右)车道为平行车道，

约为0，但d_change较大，此时

约为0，对

的影响较小，但-k₆abs(d_change)对

的影响较大，此时会促使动作层Agent在不考虑

逐渐增大，

会越来越大，对

的影响也越来越大，此时会促使动作层Agent做出决策时兼顾减小

和d_change；

在上述执行具体动作时，在动作层Agent给出动作μ_t的基础上增加一个动作噪声n_t，其中动作噪声n_t＝α*N，即为一个噪声折扣因子α和正态分布的噪声N的乘积，噪声折扣因子α会随着训练周期越多而越来越小；

其中，智能车在做出动作a_t后环境会给新的状态量

和奖励r^l。

9.根据权利要求7所述的一种基于分层强化学习的自动驾驶决策控制方法，其特征在于，所述决策层Agent训练采用基于DQN算法实现，并且是在动作层Agent训练完成的基础上进行的训练，具体训练方法如下：

决策层Agent从环境中获取车流和交通状况信息，包括正确的交通规则、前后及相应的斜对角车流信息，决策层Agent再做出当前状态下最具有价值的决策

环境再将做出决策后的新的环境状态和奖励反馈给决策层Agent存储在经验池中，每个时步再从经验池随机获取先前的经验对网络进行训练；

其中，针对车流信息，设计的奖励函数如下所示：

其中，d为与最近车车辆的实时距离，d_safe为与最近车辆应当保持的安全距离；

为避免决策层Agent做出频繁换道的决策，每次换道后给智能车一个-1的奖励，避免频繁换道的决策；当做出相应决策后与最近车辆的实时距离d小于d_safe，则认为做出的决策是不正确的，给一个-100的奖励，并终止当前训练周期，避免下次做出该决策；在其他情况下，默认奖励为0。

针对交通信息，设计的奖励函数如下所示：

为了避免决策层Agent做出违反交通规则的决策，每次智能车违反交通规则后给一个-100的奖励并终止当前周期的训练，其他情况下奖励为0。

最终的奖励函数

10.一种基于分层强化学习的自动驾驶决策控制系统，其特征在于，包括动作层Agent和决策层Agent；动作层Agent选择处理连续行为的基于策略梯度的强化学习算法，通过和道路环境信息交互训练出正确的动作网络；决策层Agent选择处理离散行为的基于价值的强化学习算法，通过和车流交通状态信息交互训练出正确的决策网络；

动作层Agent通过环境交互，获取道路环境信息