CN113255998A

CN113255998A - 基于多智能体强化学习的高速道路无人驾驶车辆编队方法

Info

Publication number: CN113255998A
Application number: CN202110568447.9A
Authority: CN
Inventors: 王美玲; 陈思园; 宋文杰; 王凯
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-08-13
Anticipated expiration: 2041-05-25
Also published as: CN113255998B

Abstract

本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，把车辆编队问题看作是一个多智能体协作问题，每辆车都有独立决策的能力，能够实现安全快速行驶的前提下灵活编队，即在车流量大时安全避障，不必保持队形，在车流量小时恢复队形；从图像输入直接映射到车辆控制量的端到端方式由于动作搜索空间大从而训练难度大，因此本发明仅使用多智能体强化学习方法习得换道策略，再结合S‑T图轨迹优化方法，计算出精确控制量，增加了控制约束，尊崇运动学原理，有安全保障，符合人类驾驶习惯。

Description

基于多智能体强化学习的高速道路无人驾驶车辆编队方法

技术领域

本发明属于智能车辆技术领域，尤其涉及一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法。

背景技术

自动驾驶汽车(Autonomous Vehicle)已有数十年的研究历史，能够代替人类完成高密度长周期、大流量等复杂场景下的繁琐作业，具备较高的社会经济价值。高速道路具备拓扑结构清晰、交通规则已知、限制条件明确、相对封闭等特点，是自动驾驶落地的典型场景。其中，智能物流车辆的编队是一个值得研究的重点难题，这对降低油耗、提升车队运行效率、减少交通拥堵等方面有重要作用。然而对于高速结构化道路上的编队任务仍然存在着诸多问题。首先，高速道路动态车辆运动状态复杂，车辆编队协同难度大；其次，车辆感知受限，编队系统稳定性差；第三，固定的编队模式使系统灵活度不够，对周围车辆影响较大。

基于传统控制的编队方法需要进行复杂的控制器设计，系统级的控制方式对单个车辆的稳定性要求高，如果编队行驶过程中有车辆发生故障则需手动更改控制程序，面对复杂多变的高速道路场景，固定的控制模式也会损失系统灵活性和对环境变化的适应性。强化学习是机器学习随着人工智能与机器学习的发展，强化学习也逐渐被应用于自动驾驶任务中，但通常是针对单车智能，没有充分挖掘强化学习在多智能体领域的优势。强化学习不依赖于提前标注的数据集，因此拥有较强的泛化能力，可以更有效地解决环境中存在的特殊情况。多智能体强化学习近年来也取得了长足进步，在虚拟游戏以及多机器人协作领域持续深入发展。

发明内容

为解决上述问题，本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，结合多智能体强化学习Q-MIX网络和传统优化方法，使每辆车都有独立决策的能力，能够实现安全快速行驶的前提下灵活编队。

一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，获取环境信息作为观测输入训练好的Q-MIX网络中，得到各无人车的动作决策，实现编队，其中，Q-MIX网络的训练方法包括以下步骤：

S1：初始化训练环境；

S2：将训练环境的环境信息作为观测输入Q-MIX网络，得到各无人车的动作决策；

S3：根据各无人车的动作决策进行航迹规划，使得各无人车执行所述动作决策中的指定动作，并得到各无人车执行指定动作后对应的奖励值R_i，其中， i＝1,2,...,N，N为无人车的数量，奖励值R_i的计算方法为：判断任意两个无人车之间的距离是否大于设定阈值或者发生碰撞，若为是，则各无人车对应的奖励值 R_i＝-1，并重新执行步骤S1～S3；若为否，则各无人车对应的奖励值 R_i＝R_velo-i+R_lnchan-i+R_cor-i，并进入步骤S4，其中：

其中，R_velo-i为加速因子，R_lnchan-i为平稳行驶因子，R_cor-i为协同因子，v_i为第i 个无人车的速度，

为所有无人车的平均速度，v_max为所有无人车中的最大速度，α、β、γ均为设定比例系数，s_i,i+1和d_i,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人车的横向位移和纵向位移，s_i-1,i和d_i-1,i分别为当前编队中排在第i个无人车前面的无人车相对于第i个无人车的横向位移和纵向位移；

S4：根据各无人车对应的奖励值R_i的和值∑R_i构建均方差损失函数，再根据均方差损失函数更新Q-MIX网络；

S5：采用更新后的Q-MIX网络重新执行步骤S1～S3，直到达到设定的重复次数，得到最终的Q-MIX网络。

进一步地，所述由环境信息作为的观测包括局部观测和全局观测，其中，所述局部观测的获取方式为：

分别将各无人车作为主车执行以下步骤，得到各无人车对应的局部观测：

在Frenet坐标系下，获取主车的位置信息；

将主车设定范围内的区域作为局部地图，并对局部地图进行栅格化；

获取当前时刻主车的局部地图内其他无人车相对于主车的距离和速度；

根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的局部地图中的位置；

根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的局部地图中的位置，获取局部地图各栅格的占据概率，并将局部地图各栅格的占据概率作为主车对应的局部观测；

所述全局观测的获取方式为：

将处于编队中心的任意一个无人车作为主车；

在Frenet坐标系下，获取主车的位置信息；

将主车设定范围内的区域作为全局地图，并对全局地图进行栅格化；其中，全局地图的范围大于局部地图的范围；

获取当前时刻主车的全局地图内其他无人车相对于主车的距离和速度；

根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的全局地图中的位置；

根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的全局地图中的位置，获取全局地图各栅格的占据概率，并将全局地图各栅格的占据概率作为主车对应的全局观测。

进一步地，当栅格被主车占据时，该栅格对应的占据概率为0.8，当栅格被其他无人车占据时，该栅格对应的占据概率为主车与该栅格上的无人车之间的安全碰撞时间，当栅格未被占据时，该栅格对应的占据概率为1。

进一步地，所述Q-MIX网络由Q网络和MIX网络级联而成，同时，各无人车的动作决策的获取方式具体为：

将各无人车对应的局部观测作为Q网络的输入，得到各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值；

将全局观测和各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值作为MIX网络的输入，得到各无人车在当前全局观测下的对应的最优联合动作价值，并将该最优联合动作价值对应的各无人车的联合动作组合作为所述动作决策。

进一步地，局部地图的范围是主车的前60m、后20m以及左右4m所围成的区域，全局地图的范围是主车的前50m、后50m以及左右4m所围成的区域。

进一步地，所述根据各无人车的动作决策进行航迹规划，使得各无人车执行所述动作决策中的指定动作具体为：

通过S-T图优化方法求解各无人车的纵向加速度；

采用比例控制器模型获取各无人车的航向；

通过控制无人车的纵向加速度和航向的使得无人车执行指定动作。

有益效果：

1、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，把车辆编队问题看作是一个多智能体协作问题，每辆车都有独立决策的能力，能够实现安全快速行驶的前提下灵活编队，即在车流量大时安全避障，不必保持队形，在车流量小时恢复队形；从图像输入直接映射到车辆控制量的端到端方式由于动作搜索空间大从而训练难度大，因此本发明仅使用多智能体强化学习方法习得换道策略，再结合S-T图轨迹优化方法，计算出精确控制量，增加了控制约束，尊崇运动学原理，有安全保障，符合人类驾驶习惯。

2、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，将编队需求体现在奖励值reward中，即将奖励值分为评价车辆是否快速平稳行驶的部分和促进车辆协同编队行驶的部分，相比传统方法对于编队车辆相对位置的硬约束，强化学习方法所得到的策略对于车辆相对位置是软约束，能够更加灵活地行驶，增强了编队系统的稳定性与容错性。

3、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，通过利用多智能体强化学习Q-MIX网络和传统优化方法相结合，对高速道路智能编队车辆决策控制方法进行研究，在符合动力学约束的前提下，既保证了决策的智能性，又确保了驾驶的安全性。

4、本发明提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，综合考量在高速行驶中的车辆观测受限的情况，将编队问题建模为部分可观察马尔可夫决策过程(Partially Observable Markov Decision Process，缩写： POMDP)，符合实际情况。

附图说明

图1为本发明编队方法的流程图；

图2为本发明Q-MIX网络输入的车体坐标系局部观测图；

图3为本发明多智能体强化学习决策与控制方法示意图；

图4为本发明的方案框图；

图5为本发明实验环境示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

实施例一

如图1所示，本发明涉及一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，获取环境信息作为观测输入训练好的Q-MIX网络中，得到各无人车的动作决策，实现编队，其中，Q-MIX网络的训练方法包括以下步骤：

S1：初始化训练环境。

S2：将训练环境的环境信息作为观测输入Q-MIX网络，得到各无人车的动作决策，也即得到面对当前场景每辆无人车采取的决策策略，其中分为：向左换道、车道保持、向右换道。

在Frenet坐标系下，获取主车的位置信息；将主车设定范围内的区域作为局部地图，例如将主车的前60m、后20m以及左右4m所围成的区域作为局部地图，并对局部地图进行栅格化，且如图2所示，栅格地图的分辨率为(1m， 4m)，其中横向的分辨率恰好是一个车道的宽度；获取当前时刻主车的局部地图内其他无人车相对于主车的距离和速度；根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的局部地图中的位置；根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的局部地图中的位置，获取局部地图各栅格的占据概率，并将局部地图各栅格的占据概率作为主车对应的局部观测。

需要说明的是，本发明要在Frenet坐标系下获取各无人车的位置信息，首先要根据全局路径给出的参考线和高精度地图，将高速车道所在的笛卡尔坐标系转化为Frenet坐标系，具体为：使用变量s和d描述车辆在道路上的位置。该s坐标表示沿道路的纵向位移。d坐标表示道路上的横向位移。

也就是说，在所建立的Frenet坐标系下，对于执行编队任务中每一辆车，选取前、后方一定距离作为构建局部观测的纵向距离范围，横向观测范围为当前车道与左右相邻车道，将本车位置(s_fego,d_fego)，局部地图范围内其他编队车辆 (s_fi,d_fi)(i＝1,2,...,N,i≠ego)及环境车辆的位置信息(s_ej,d_ej)(j＝1,2,...n,用占据栅格显示。

所述全局观测的获取方式为：

将处于编队中心的任意一个无人车作为主车；在Frenet坐标系下，获取主车的位置信息；将主车设定范围内的区域作为全局地图，并对全局地图进行栅格化；其中，全局地图的范围大于局部地图的范围，例如将主车的前50m、后 50m以及左右4m所围成的区域作为全局地图；获取当前时刻主车的全局地图内其他无人车相对于主车的距离和速度；根据其他无人车相对于主车的距离和速度预测未来1s内其他无人车在主车的全局地图中的位置；根据主车的位置信息、当前时刻其他无人车相对于主车的距离、未来1s内其他无人车在主车的全局地图中的位置，获取全局地图各栅格的占据概率，并将全局地图各栅格的占据概率作为主车对应的全局观测。

需要说明的是，当栅格被主车占据时，该栅格对应的占据概率为0.8，当栅格被其他无人车占据时，该栅格对应的占据概率为主车与该栅格上的无人车之间的安全碰撞时间ttc(time to collision)，当栅格未被占据时，该栅格对应的占据概率为1。同时，主车可以通过本身自带的组合导航及视觉导航系统感知其周围的其他无人车辆。此外，由于各局部地图是以主车前60m、后20m以及左右 4m所围成的区域构建的，因此主车在局部地图中的位置是不变的。

进一步地，所述Q-MIX网络由Q网络和MIX网络级联而成，其中，Q网络可以采用DRQN网络；同时，各无人车的动作决策的获取方式具体为：将各无人车对应的局部观测作为Q网络的输入，得到各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值；将全局观测和各无人车在当前局部观测下的可能产生的各个动作对应的估计动作价值作为MIX网络的输入，得到各无人车在当前全局观测下的对应的最优联合动作价值，并将该最优联合动作价值对应的各无人车的联合动作组合作为所述动作决策。

为所有无人车的平均速度，v_max为所有无人车中的最大速度，α、β、γ均为设定比例系数，s_i,i+1和d_i,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人车的横向位移和纵向位移，s_i-1,i和d_i-1,i分别为当前编队中排在第i个无人车前面的无人车相对于第i个无人车的横向位移和纵向位移。

需要说明的是，让各无人车执行所述动作决策中的指定动作的具体方法为：

通过S-T图优化方法求解各无人车的纵向加速度；采用比例控制器模型获取各无人车的航向；通过控制无人车的纵向加速度和航向的使得无人车执行指定动作。

也就是说，对于纵向控制，利用S-T图优化方法求解加速度，设定约束条件，优化目标为累积加加速度最小：

其中μ∈{S,T}表示曲线分为S、T两个维度，S表示位移，T表示采样时间， f(t)表示曲线拟合模型。

对于横向控制，采用比例控制器模型，将计算出的横向速度转换为航向参考。

S4：根据各无人车对应的奖励值R_i的和值∑R_i构建均方差损失函数，再根据均方差损失函数更新Q-MIX网络。

也就是说，本发明将所有编队的无人车辆对应的局部观测合起来作为Q网络的输入，得到各编队无人车辆在当前局部观测下的可能产生的各个动作(如左换道、右换道、直行)对应的估计动作价值(即执行某个动作的概率)，将全局观测和计算出来的估计动作价值作为MIX网络的输入，得到各编队无人车辆在当前全局观测下的产生的联合动作对应的联合动作价值。然后各编队无人车辆安装所述最优联合动作组合规定的动作进行动作，执行动作后，重新获取各编队无人车辆的局部观测和全局观测，重复上述过程，又完成一次迭代，直到达到设定的迭代上限次数，得到最终的Q-MIX网络。

进一步地，假设Q-MIX网络的网络参数为θ，其代表网络的权值和偏置，则最终损失函数定义为均方误差损失函数：

其中，Q_tot是联合动作价值，

是总和∑R_i代入贝尔曼公式后算出来的值， m为计算均方误差损失函数时所采用的数据片段长度。

计算损失函数的梯度，根据梯度下降法优化Q-MIX网络的参数(网络的权重和偏置)，其中，更新Q-MIX网络参数的方式沿用DQN思想，定义两个相同结构的网络Target-Q和Q(s,a)：

其中，

表示Target-Q目标网络。

由此可见，如图3所示，本发明把车辆编队问题看作是一个多智能体协作问题，每辆车都有独立决策的能力，能够实现安全快速行驶的前提下灵活编队，即在车流量大时安全避障，不必保持队形，在车流量小时恢复队形。从图像输入直接映射到车辆控制量的端到端方式由于动作搜索空间大从而训练难度大，因此本发明仅使用多智能体强化学习方法习得换道策略，再结合S-T图轨迹优化方法，计算出精确控制量。该方法增加了控制约束，尊崇运动学原理，有安全保障，符合人类驾驶习惯。

实施例二

本实施案例提供一种基于多智能体强化学习的高速道路无人驾驶车辆编队决策方法，方法框架如图4所示。该方法将决策控制分为两部分，第一部分将环境信息作为观测输入到QMIX网络，输出每辆编队车辆当前的决策(向左换道、车道保持、向右换道)，第二部分为根据决策信息，进行轨迹规划，并计算出控制量(加速度、方向)。车辆执行该动作得到的奖励即为QMIX的奖励值。经过训练，即可得到在高速场景的智能车辆编队决策模型。也就是说，本发明是在车联网的基础上，通过强化学习训练出一套高速道路智能车辆编队的决策和控制策略。本发明采用高速模拟环境作为仿真环境。

步骤S1、如图5所示，本案例中，智能车辆的驾驶环境为同方向的四车道环境，并且可获得智能车辆周围车辆的运动信息。局部观测选取主车前方60m 后方20m作为限制范围，并在地图中划分为3车道。全局观测选取中间车辆前方50m与后方50m作为限制，并完整保留4车道。

步骤S2、分别将每辆车的局部观测作为输入，输入到DRQN网络中。建立两个结构相同参数不同的网络，即“当前值网络”和“目标值网络”。“当前值网络”参数进行实时更新，“目标值网络”参数在每隔N步进行“当前值网络”参数的拷贝。

设置“记忆回放单元”，随机抽取其中的经历进行训练，这种做法打断了训练样本之间的相关性,符合神经网络样本数据的分布假设。

步骤S3、得到每辆车的决策信息后，横向控制利用比例控制器，计算出角加速度，纵向控制假设优化的位移-时间模型为一个三阶贝塞尔曲线，在S-T图中优化四个控制点：

二次优化的目标函数为：最小化加加速度平方的积分，以确保轨迹的平稳：

设计约束条件如下：

等式约束，包括初始时刻的位置、速度约束，终止时刻的位置约束。在S 维度上对初始时刻的位置和速度约束，终止时刻的位置进行约束，在T维度上，对位置和速度进行约束：

P_S0＝s₀；P_S3＝s₃

P_T0＝0；P_T3＝1

n·(P_Si-P_Si-1)＝v₀,i＝1,n＝3

n·(P_Ti-P_Ti-1)＝1,i＝[1,2,3],n＝3

其中下标0表示起点，3表示终点。

不等式约束，包括控制点的位置约束、速度约束和加速度约束。不等式约束是优化器求解的核心，可以在保证安全的前提下求出最平滑的轨线。

S_traj1(P_Ti)-P_Si＞s_safe

P_Si-S_traj2(P_Ti)＞s_safe

其中s_safe表示前后车安全距离阈值，S_traj1(t)、S_traj2(t)表示前后车轨迹，

分别表示最大减、加速度，

表示最大速度。

步骤S4、执行上述控制量，设计reward函数，计算奖励值，用于网络的训练。

在本案例中定义长时间车间距大于50则为编队失败，发生碰撞或编队失败：

R＝-1

否则，对于每一辆车reward函数设计分为两部分，首先是评价车辆是否快速平稳行驶的部分：

R_velo＝r_velo(v_i-20)i＝[1,2]

其次是促进车辆协同编队行驶的部分:

其中α、β、γ为设定参数，可根据任务需求自行调节,最终 R＝R_velo+R_lnchan+R_cor。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，其特征在于，获取环境信息作为观测输入训练好的Q-MIX网络中，得到各无人车的动作决策，实现编队，其中，Q-MIX网络的训练方法包括以下步骤：

S1：初始化训练环境；

S3：根据各无人车的动作决策进行航迹规划，使得各无人车执行所述动作决策中的指定动作，并得到各无人车执行指定动作后对应的奖励值R_i，其中，i＝1,2,...,N，N为无人车的数量，奖励值R_i的计算方法为：判断任意两个无人车之间的距离是否大于设定阈值或者发生碰撞，若为是，则各无人车对应的奖励值R_i＝-1，并重新执行步骤S1～S3；若为否，则各无人车对应的奖励值R_i＝R_velo-i+R_lnchan-i+R_cor-i，并进入步骤S4，其中：

其中，R_velo-i为加速因子，R_lnchan-i为平稳行驶因子，R_cor-i为协同因子，v_i为第i个无人车的速度，v为所有无人车的平均速度，v_max为所有无人车中的最大速度，α、β、γ均为设定比例系数，s_i,i+1和d_i,i+1分别为当前编队中排在第i个无人车后面的无人车相对于第i个无人车的横向位移和纵向位移，s_i-1,i和d_i-1,i分别为当前编队中排在第i个无人车前面的无人车相对于第i个无人车的横向位移和纵向位移；

2.如权利要求1所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，其特征在于，所述由环境信息作为的观测包括局部观测和全局观测，其中，所述局部观测的获取方式为：

在Frenet坐标系下，获取主车的位置信息；

所述全局观测的获取方式为：

将处于编队中心的任意一个无人车作为主车；

在Frenet坐标系下，获取主车的位置信息；

3.如权利要求2所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，其特征在于，当栅格被主车占据时，该栅格对应的占据概率为0.8，当栅格被其他无人车占据时，该栅格对应的占据概率为主车与该栅格上的无人车之间的安全碰撞时间，当栅格未被占据时，该栅格对应的占据概率为1。

4.如权利要求2所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，其特征在于，所述Q-MIX网络由Q网络和MIX网络级联而成，同时，各无人车的动作决策的获取方式具体为：

5.如权利要求1-4任一权利要求所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，其特征在于，局部地图的范围是主车的前60m、后20m以及左右4m所围成的区域，全局地图的范围是主车的前50m、后50m以及左右4m所围成的区域。

6.如权利要求1-4任一权利要求所述的一种基于多智能体强化学习的高速道路无人驾驶车辆编队方法，其特征在于，所述根据各无人车的动作决策进行航迹规划，使得各无人车执行所述动作决策中的指定动作具体为：

通过S-T图优化方法求解各无人车的纵向加速度；

采用比例控制器模型获取各无人车的航向；