CN115731690A

CN115731690A - 一种基于图神经网络强化学习的无人公交集群决策方法

Info

Publication number: CN115731690A
Application number: CN202211443954.0A
Authority: CN
Inventors: 李雪原; 高鑫; 刘琦; 朱昱铮; 杨帆; 朱嵩峰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-11-18
Filing date: 2022-11-18
Publication date: 2023-03-03
Anticipated expiration: 2042-11-18
Also published as: CN115731690B

Abstract

本发明公开了一种基于图神经网络强化学习的无人公交集群决策方法，本发明属于无人驾驶汽车领域，包括：S1获取无人驾驶公交的当前场景，将场景编码为图结构，获得第一状态；S2基于第一状态得到特征矩阵、邻接矩阵和掩码矩阵；S3将特征矩阵与邻接矩阵输入当前网络，通过掩码矩阵过滤后输出每辆无人驾驶公交的动作，根据内部动态奖励函数和能量消耗模型得到当前网络奖励值，产生第二状态，得到一个四元组；S4基于第二状态，执行S2‑S3，输出第二状态对用动作，得到对应奖励值，再次获得新的状态，循环执行S2‑S3；S5基于四元组，利用反向传播训练网络，更新网络参数。本发明综合考虑多种任务的完成、效率的提升、能量的节约与乘客的舒适性。

Description

一种基于图神经网络强化学习的无人公交集群决策方法

技术领域

本发明属于无人驾驶汽车领域，特别是涉及一种基于图神经网络强化学习的无人公交集群决策方法。

背景技术

强化学习是一种学习如何从状态映射到行为以使得获取的奖励最大的学习机制。这样的一个智能体不断地在环境中进行实验，通过环境给予的反馈来不断优化状态-行为的对应关系。深度强化学习利用深度神经网络拟合Q值函数，极大提高了强化学习算法处理高维度状态空间的决策能力，在机器人控制、无人驾驶等领域得到了广泛的应用。

图神经网络是近年来出现的一种利用深度学习直接对图结构数据进行学习的框架，其优异的性能引起了学者高度的关注和深入的探索。通过在图中的节点和边上制定一定的策略，图神经网络将图结构数据转化为规范而标准的表示，并输入到多种不同的神经网络中进行训练，在节点分类、边信息传播和图聚类等任务上取得优良的效果。

目前的无人驾驶场景多集中于单一的场景片段，对于连续交互的交通任务场景缺乏进一步的研究。在不确定的交互式交通场景中，特别是无人公交车集群，其驾驶环境具有严格的动态特征和高度的不确定性，不同交通参与者的驾驶行为的影响将不断传递。在交通的整体层面上，所有的交通参与者都需要有效地合作。在决策层次，无人公交车集群需要综合考虑多种任务的完成、效率的提升、能量的节约与乘客的舒适性等，因此迫切需要更为高效、准确的多智能体决策技术来处理无人公交集群在连续交互式多任务交通场景的决策问题。

发明内容

本发明的目的是提供一种基于图神经网络强化学习的无人公交集群决策方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于图神经网络强化学习的无人公交集群决策方法，包括以下步骤：

S1、获取无人驾驶公交的当前场景，将所述当前场景编码为图结构，获得第一状态；构建目标网络和当前网络，并对所述目标网络和当前网络分别进行初始化，其中，所述目标网络和所述当前网络均采用深度强化学习网络；

S2、基于所述第一状态获取第一状态矩阵；

S3、将所述第一状态矩阵输入所述当前网络，基于所述当前网络输出无人驾驶公交的动作，基于内部动态奖励函数和能量消耗模型得到当前网络奖励值，产生第二状态，基于所述第一状态、所述动作、所述当前网络奖励值和所述第二状态构成四元组；

S4、基于所述第二状态，执行S2-S3，输出所述第二状态对应动作，得到对应奖励值，再次获得新的状态，循环执行S2-S3，得到若干四元组；

S5、基于所述四元组，基于反向传播训练所述当前网络和所述目标网络，更新网络参数，得到最终网络，所述无人公交群基于所述最终网络进行决策。

可选的，基于所述图结构获得第一状态矩阵,所述第一状态矩阵包括：特征矩阵、邻接矩阵和掩码矩阵。

可选的，所述S3中，基于所述第一状态矩阵实现无人驾驶车辆与环境交互的过程包括：所述深度强化学习网络包括图卷积神经网络；

基于图卷积神经网络提取当前环境场景内车辆的拓扑结构特征，其中，将所述特征矩阵和所述邻接矩阵输入到所述图卷积神经网络，得到特征信息矩阵；

将所述特征信息矩阵输入所述当前网络，经所述掩码矩阵过滤，输出每辆无人价值公交的动作；

基于所述动作，无人驾驶车与当前环境进行交互，得到所述当前网络奖励值，产生第二状态。

可选的，基于无人驾驶车与当前环境进行交互，通过设计内部动态奖励函数，计算得到所述当前网络的奖励值；

所述奖励函数包括激励函数和惩罚函数；

将激励函数乘以激励系数获得激励值，将惩罚函数乘以惩罚系数获得惩罚值，将所述激励值和惩罚值相加得到所述奖励函数的奖励函数值；

其中，所述奖励函数包括：基于车辆能源消耗与驾驶任务的result奖励函数、基于无人驾驶公交车的速度与等待时间的efficiency奖励函数、基于所述当前环境场景中所有车辆的加速度与换道次数的comfort奖励函数和基于安全时间的safe奖励函数。

可选的，基于所述车辆能源消耗模型计算得到所述能源消耗的过程包括：

基于车辆速度构建电机转速函数；基于车辆速度、车辆加速度和爬坡角度构建电机转矩函数；基于所述电机转速函数和所述电机转矩函数构建电机功率损失函数，基于所述电机功率损失函数计算每辆无人驾驶公交的电机损失功率；

基于车辆电池的内部化学模型和所述电机损失功率，得到电池消耗功率；

基于所述电池消耗功率得到无人驾驶公交的能源消耗。

可选的，基于四个所述奖励函数值，进一步优化奖励函数得到所述当前网络的奖励值，获取所述当前网络的奖励值的过程包括：将其中一类奖励函数的所述激励系数和所述惩罚系数设定为其他三类奖励函数的泛函，形成内部动态奖励函数，分别得到result奖励函数、efficiency奖励函数、comfort奖励函数和safe奖励函数的系数；

基于所述奖励函数与所述系数得到所述当前网络的奖励值。

可选的，所述系数为：

所述result奖励函数的系数为0.3；所述efficiency奖励函数的系数为0.2；所述comfort奖励函数的系数为0.2；所述safe奖励函数的系数为0.3。

可选的，所述S5中，基于所述四元组，利用反向传播训练所述当前网络和所述目标网络，更新网络参数的过程包括：

抽取多个四元组，基于所述四元组，计算得到目标网络的奖励值，基于所述目标网络的奖励值与所述四元组中当前网络的奖励值计算得到损失值；

固定所述目标网络，针对所述当前网络，通过反向传播计算梯度，使所述损失值最小，更新当前网络参数；

基于所述当前网络参数多次更新后，利用软更新方式更新目标网络参数。

本发明的技术效果为：

本发明基于图卷积神经网络中的一层卷积神经网络进行特征提取，避免了复杂特征的提取过程，降低了网络模型的复杂度；

本发明从任务的完成、效率的提升、能量的节约与乘客的舒适性四个角度分别设计了奖励函数。将场景建模为图结构，车辆之间的交互、车辆与信号灯之间的交互被建模，通过多层全连接网络与图卷积网络可精确计算出合适的动作。随着模型不断地训练，碰撞数在不断地降低、节能效果在不断地优化、总消耗时间在不断减少，这说明本发明提出的方法可达到在保证无人公交群在节能的同时，有效提升交通效率与交通安全性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的基于图神经网络强化学习的无人公交集群决策方法的流程图；

图2为本发明实施例中的基于图神经网络强化学习的无人公交集群决策方法的具体场景；

图3为本发明实施例中的一层图卷积神经网络结构图；

图4为本发明实施例中的基于图神经网络强化学习的无人公交车集群决策方法的仿真结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1本实施例中提供一种基于图神经网络强化学习的无人公交集群决策方法，图2为一种基于图神经网络强化学习的无人公交集群决策方法的具体场景。在此连续交互场景中，无人公交车需要执行五个任务，分别是直行通过红绿灯控制的路口、在一号车站停靠、左转通过红绿灯B控制的路口、在二号车站停靠与右转通过最后的路口。图2的三个分段场景为一个连续的场景，为了直观表现任务，特此分为三个小场景说明。

场景中的无人公交车设置为每20S出现1辆，每回合出现6辆无人公交车。在与无人公交车执行任务路段有交互的其他人类驾驶车辆交通流密度设置为每小时1700辆。此设置时间既保证了无人公交车之间有交互行为，也保证了无人公交车与人类驾驶车辆的连续交互行为。

步骤S1，场景被建模为一个无向图。此场景中的每个车辆被视为图的节点，车辆之间的交互作用被视为图的边。将场景内车辆信息与交通信息合并表示为节点特征矩阵，将车辆之间、车辆与交通灯之间的交互作用表示为邻接矩阵。状态空间可以由三个矩阵表示：节点特征矩阵X_t、邻接矩阵A_t和一个掩码矩阵M_t，下面分别说明它们。

节点特征矩阵X_t将每辆车的速度、横向位置、纵向位置、无人公交车与当前道路的公交车站位置之差、车辆所在车道、车辆所在当前道路交通信号与车辆种类表示为：[V_i,X_i,Y_i,ΔS_i,R_i,L_i,I_i]。其中V_i＝v_i-actual/v_max代表车辆实际纵向速度与最大允许速度比值；X_i＝(x_i-actual-x₀)/x_rad代表车辆实际横向坐标与出发点横坐标之差除以场景道路横向总距离；Y_i＝(y_i-actual-y₀)/y_{r ad}代表车辆实际纵向坐标与出发点纵坐标之差除以场景道路纵向总距离；ΔS_i＝[ΔX_i,ΔY_i]代表无人公交车与当前道路的公交车站横纵向位置之差；R_i被表示为一个n维向量R_i＝[r₁,r₂,....,r_m]，其中r_m＝1代表车辆此时位于第m个车道，否则对应位置为0；L_i＝1表示车辆所在道路的红绿灯此时处于允许车辆所在车道通行的状态，否则对应位置为0；I_i＝1表示车辆为无人公交车，否则为人类驾驶车辆。最后将所有车辆的感知信息矩阵表示为：

邻接矩阵将车辆之间的相互作用表示为车辆之间的信息共享。邻接矩阵的计算基于五个假设：

所有无人公交车都可以在构造的场景中共享信息；

信息不能在人类驾驶车辆之间共享；

所有无人公交车都可以在其感知范围内与人类驾驶车辆共享信息；

所有无人公交车可以接收到所在车道红绿灯的共享信息；

车辆可以与自己共享信息，并表示为a_ii＝1。

根据以上假设，领接矩阵可以表示为：

其中a_ij表示图中第i辆车与第j辆车连接的边，a_ij＝1表示图中第i辆车与第j辆车在此时刻可以共享信息，a_ij＝0表示图中第i辆车与第j辆车在此时刻无法共享信息。

掩码矩阵M_t被用于过滤掉人类驾驶车辆的动作输出，被表示为：

M_t＝[m₁,m₂,…,m_i,…m_n] (3)

如果第i辆车为无人公交车，则m_i＝1，否则m_i＝0。

步骤S2，感知信息矩阵输入到特征提取神经网络，其中包含：全连接层、图卷积层、聚合层与激活层，具体网络层如图3所示。其中利用一层图卷积神经网络提取场景内车辆的拓扑结构特征。

其中

是添加了自连接的无向图的邻接矩阵；I_N为单位矩阵；

与·W^(l)是每层特定的可训练权重矩阵；σ(·)代表激活函数,例如：ReLU(·)＝max(0,·)；H(l)∈R^N×D是第l层激活的函数,H(0)＝X。

步骤S3，本发明采用集中决策、分布执行的训练方法，中心动作训练计算机根据输入的状态特征矩阵，输出所控制的每辆无人公交车需要执行的动作。空间表示为多个离散的动作，包括变道动作与输出的加速度，第i辆无人公交车可选的动作具体表示为：

a_i＝{a_lane-change,a_acceleration} (5)

式中a_lane-change表示为向左变道、不变道、向右变道；a_acceleration表示为加速度区间[-5m·s^-2,5m·s^-2]以1m·s^-2为间距的13个离散加速度。

将聚合层输出的特征信息矩阵输入到当前Q网络，在经过掩码矩阵的过滤后，根据贪婪算法输出对应动作。

中心训练计算机将每辆无人车所采取的动作传输到对应无人车，对应无人车的控制层根据决策的动作信息输出对应控制量进行行驶并与环境交互。

步骤S4，设计的奖励函数，包括：碰撞惩罚、速度奖励、舒适度奖励、等待时长惩罚等。

将奖励函数分为激励函数和惩罚函数。首先，根据能量的消耗与驾驶任务设计相应的激励函数和惩罚函数。激励函数是基于在无人公交车到达公交车站前和红绿灯等候区域处于对应车道，其目的是更快训练能够完成驾驶任务的决策；惩罚函数是基于能量消耗设计的，目的是减少能量的消耗。

r_result-I＝10 (7)

r_result-P＝-20×Energy (8)

为了准确计算无人公交的能源消耗，我们建立了车辆能源消耗模型。首先，电机功率损失函数可计算出每辆无人公交的电机损失功率P_Motor,loss电机损失功率被建模为一个关于电机转速n_Motor和电机转矩T_Motor的函数。

P_Motor,loss＝f(n_Motor(v_t),T_Motor(v_t,a_t,α_t)) (9)

式中电机转速n_Motor是关于车辆速度v_t的函数,并且电机转矩T_Motor是关于车辆速度v_t、车辆加速度a_t和爬坡角度a的函数。

根据电池模型的内部化学模型，最后的电池消耗功率被计算如下：

式中U₀是电池的开路电压,其值为405V，R_i为电池的内阻,取0.1517Ω，P_Device其他设备的消耗功率,取360W。

因此，无人公交集群的能量消耗计算如下：

Energy＝P_Energy×t (11)

为了训练提高交通效率的决策模型，根据无人公交车的速度区间与等待时间分为四部分。相应的奖惩功能针对这四部分，分别设计了遏制超速、鼓励高速行驶、惩罚低速堵车、减少等待时间的奖励函数。

为了提高该交通路段所有车辆的行驶平顺性，基于所有车辆的加速度和换道次数设计了相应的激励函数和惩罚函数。

r_comfort-I＝5×n_c1 (14)

r_comfort-P＝-50×n_c2-10×m (15)

式中n_c1为加速度区间在[-2m·s^-2,2m·s^-2]内的无人公交车数量。n_c2加速度在(-∞,-4.5m·s^-2]内的场景内车辆总数.m为场景内当前时间前0.5s的变道总数。

本发明将安全时间引入到相应的奖励函数中。安全时间的定义如下：

式中y_AV与x_AV为无人公交车的纵坐标与横坐标；y_leader，x_leader与y_follower，x_follower分别为无人公交车当前车道前后车辆的纵坐标与横坐标。v_leader,v_follower分别为无人公交车当前车道前后车辆的速度。

根据安全时间定义，将安全奖励函数定义如下：

式中R_sP代表碰撞惩罚，此处取500，T代表安全时间界限值，此处取8s。

根据以上奖励设计，将四类奖励函数的激励函数与惩罚函数分别乘以激励系数与惩罚系数，最终表示如下：

式中，取k_rI＝k_eI＝k_cI＝k_sI＝0.6，k_rP＝k_eP＝k_cP＝k_sP＝0.4。

由于权重系数的变化会稀释一些必要的奖励或惩罚，本发明针对这一缺陷改进了奖励函数。进一步将激励系数与惩罚系数设定为其他奖励函数的泛函，形成内部动态奖励函数。具体公式如下：

式中，R_k＝1500，为权重系数幂次数比例值。

最终的奖励由以下公式得出：

r＝[r_result,r_efficiency,r_comfort,r_safe]·[k_r,k_e,k_c,k_s]^T (22)

式中：k_r＝0.3,k_e＝0.2,k_c＝0.2,k_s＝0.3。

计算出交互后的时间步长奖励值，和状态信息一并记入一个四元组：(s_j,a_j,r_j,s_j+1)。并将所有四元组存入经验回放数组。

步骤S5，随机从经验回放数组中取出一个四元组，记作(s_t,a_t,r_t,s_t+1)。设比例DQN的当前价值网络的参数为ω_now，下一次网络更新后的参数为ω_new；当前的目标网络参数为

下一次网络更新后的参数为

接下来对价值网络与目标网络进行前向传播：

使用时间差分算法更新当前网络，计算时间差分目标与时间差分误差如下，其中γ为折扣率。

通过当前网络的反向传播计算梯度

并使用此梯度更新当前网络，并采用软更新方式更新目标网络参数如下，其中τ为软更新率。

ω_new ω_now α δ_t _ωQ(s_t,a_t,ω_now) (27)

一种基于图神经网络强化学习的无人公交车集群决策方法的仿真结果如图4所示，可以得到此方法可在节能的同时，有效提升交通效率与交通安全性。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于图神经网络强化学习的无人公交集群决策方法，其特征在于，包括以下步骤：S1、获取无人驾驶公交的当前场景，将所述当前场景编码为图结构，获得第一状态；构建目标网络和当前网络，并对所述目标网络和当前网络分别进行初始化，其中，所述目标网络和所述当前网络均采用深度强化学习网络；

S2、基于所述第一状态获取第一状态矩阵；

2.根据权利要求1所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，基于所述图结构获得第一状态矩阵,所述第一状态矩阵包括：特征矩阵、邻接矩阵和掩码矩阵。

3.根据权利要求2所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，所述S3中，基于所述第一状态矩阵实现无人驾驶车辆与环境交互的过程包括：所述深度强化学习网络包括图卷积神经网络；

4.根据权利要求3所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，基于无人驾驶车与当前环境进行交互，通过设计内部动态奖励函数，计算得到所述当前网络的奖励值；

所述奖励函数包括激励函数和惩罚函数；

5.根据权利要求4所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，基于所述车辆能源消耗模型计算得到所述能源消耗的过程包括：

基于所述电池消耗功率得到无人驾驶公交的能源消耗。

6.根据权利要求4所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，基于四个所述奖励函数值，进一步优化奖励函数得到所述当前网络的奖励值，获取所述当前网络的奖励值的过程包括：将其中一类奖励函数的所述激励系数和所述惩罚系数设定为其他三类奖励函数的泛函，形成内部动态奖励函数，分别得到result奖励函数、efficiency奖励函数、comfort奖励函数和safe奖励函数的系数；

基于所述奖励函数与所述系数得到所述当前网络的奖励值。

7.根据权利要求6所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，所述系数为：

8.根据权利要求1所述的基于图神经网络强化学习的无人公交集群决策方法，其特征在于，所述S5中，基于所述四元组，利用反向传播训练所述当前网络和所述目标网络，更新网络参数的过程包括：