CN115116240A

CN115116240A - 一种无信号灯交叉路口车辆协同控制方法及系统

Info

Publication number: CN115116240A
Application number: CN202210734289.4A
Authority: CN
Inventors: 吴艳; 郭子涵; 王丽芳; 张俊智; 苟晋芳
Original assignee: Institute of Electrical Engineering of CAS
Current assignee: Institute of Electrical Engineering of CAS
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-27
Also published as: WO2024001301A1

Abstract

本发明公开了一种无信号灯交叉路口车辆协同控制方法及系统。该方法包括：获取各车辆的车辆信息；构建动作值网络模型；将车辆信息输入至动作值网络模型，输出各车辆当前状态下的动作评估值；构建混合网络模型；将动作评估值以及所有车辆的状态信息输入至混合网络模型，得到混合网络模型的输出；基于混合网络模型的输出以及动作评估值，采用基于夏普里值的贡献度分配机制模组对动作值网络模型进行训练，得到训练好的动作值网络模型；基于训练好的动作值网络模型以及ε‑贪婪策略确定各车辆下一时刻的动作。通过上述方法能够解决基于值分解的多智能体深度强化学习中可解释性差，其算法训练过程中收敛速度慢、对最优策略搜索效率低下的问题。

Description

一种无信号灯交叉路口车辆协同控制方法及系统

技术领域

本发明涉及车辆控制技术领域，特别是涉及一种无信号灯交叉路口车辆协同控制方法及系统。

背景技术

城市化的深入大幅增加了城市中的人口数量，城市中的车辆数量，不可避免地引起交通拥堵问题，进而造成社会生产效率的降低，带来环境污染，增加交通事故发生的概率，影响市容市貌，这对目前的交通系统提出了挑战，尤其是如何高效地对城市交叉路口进行车辆管控。一般地，搭建交通信号灯等基础设施是普遍情况下有效缓解交叉路口车辆拥堵甚至事故频发问题的解法之一。基于基础设施，学者们在优化交通信号灯的时间与相位上做了大量的探索(包括基于优化理论的算法和基于深度强化学习的人工智能算法)。1992年，Michael G.H.Bell在其论文中论述仅靠交通信号灯本身是无法解决交通拥堵问题的，而是需要集成一些其他信息，例如未来自动驾驶车辆能够获取当前道路的一些其他信息(路况信息、其他车辆的位置、速度等相关信息)。

尽管交通信号灯一直是交叉路口管控的主流解法，但在该情况下车辆的等待时间无法被消除。因此，这也激发了大量相关专家们对基于无信号灯的交叉路口车辆协同控制的探索。如今智能网联车相关技术正在不断发展，如V2V(Vehicles to Vehicles)，V2I(Vehicles to Infrastructure)等技术促进了无信号灯下车辆协同技术的发展。

目前针对无信号灯交叉路口的车辆协同管控的问题，学术界相关学者大多尝试用集中式协同方法(例如，基于经典控制方法MPC)。但这类方法的局限性在于其计算复杂度高，实时性与鲁棒性较差。而机器学习技术的发展与应用(尤其是基于深度学习的机器学习算法)解决了过往一些较为困难的问题，例如目标识别、图像生成，自然语言处理、癌症检测、机器人控制等领域。目前也有学者创造性地使用了多智能体深度强化学习解决交叉路口协同控制问题，具体而言，采用集中式多智能体深度强化学习算法。但随着经过交叉路口的车辆数增加，这类算法的计算复杂度会指数级上升，从而遇到维数灾难的问题。此外，集中式多智能体深度强化学习算法在解决合作任务时候会遇到智能体之间的信用分配问题，如何在合作的过程中公平有效地分配各智能体的信用是目前的一个难题之一。分布式多智能体强化学习是另一种方法思路，但该类方法严重受环境的非平稳性所影响(该问题指的是每个智能体把其他智能体当作环境的一部分，其他智能体的策略发生变化的同时环境一直在发生变化)。目前在多智能体强化学习领域中一类流行的算法范式是集中式训练，分布式执行，该方法假设每个智能体只能观测到部分环境信息，而在算法的训练阶段可以获取环境完整的状态信息。此类方法能够避免环境非平稳性带来的问题，一般通过参数共享的方式在一定程度上缓解维数灾难问题。但其也存在一些问题，其无法明确解释合作过程中各智能体的贡献度。

发明内容

基于上述问题，本发明提供了一种无信号灯交叉路口车辆协同控制方法及系统。

为实现上述目的，本发明提供了如下方案：

一种无信号灯交叉路口车辆协同控制方法，包括：

根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景，并获取所述仿真场景中各车辆的车辆信息；所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息；

构建动作值网络模型；所述动作值网络模型包括三层神经网络，第一层为全连接前馈神经网络，第二层为门控循环神经网络，第三层为全连接前馈神经网络；

将所述车辆信息输入至所述动作值网络模型，输出各车辆当前状态下的动作评估值；

构建混合网络模型；所述混合网络模型包括多个全连接前馈神经网络；

将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型，得到所述混合网络模型的输出；

基于所述混合网络模型的输出以及所述动作评估值，采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练，得到训练好的动作值网络模型；

基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。

可选地，基于所述混合网络模型的输出以及所述动作评估值，采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练，得到训练好的动作值网络模型，具体包括：

将所述混合网络模型的输出以及所述动作评估值输入至所述基于夏普里值的贡献度分配机制模组中，得到所述基于夏普里值的贡献度分配机制模组的输出；

根据所述基于夏普里值的贡献度分配机制模组的输出确定所述动作值网络模型的损失函数；

根据所述动作值网络模型的损失函数，采用随机梯度下降法更新所述动作值网络模型的参数，得到训练好的动作值网络模型。

可选地，还包括：

基于所述混合网络模型的输出确定所述混合网络模型的损失函数；

根据所述混合网络模型的损失函数，采用随机梯度下降法调整所述混合网络模型的参数。

可选地，所述动作值网络模型的损失函数

如下：

其中，Q_ij表示由动作值网络输出的智能体i的动作估计值，j表示所取数据批量的索引，

表示由基于夏普里值的贡献度分配机制模组输出的智能体i的目标动作估计值，b表示用于训练的数据批量的总维数。

可选地，所述混合网络模型的损失函数

如下：

其中，r表示所有车辆得到的共享奖赏值，γ表示折扣因子，Q_tot(·)表示整个混合网络模型，τ'表示下一时刻的历史信息轨迹，s'表示下一时刻环境的状态信息，u′表示车辆在下一时刻的动作序列，θ、θ′分别表示混合网络模型的参数和目标参数。

可选地，所述∈-贪婪策略如下：

其中，

表示第a个车辆的策略，

表示第a个车辆在t-1时刻的动作，

表示第a个车辆在t-1时刻的状态信息，∈表示从[0,1]区间内按照均匀分布采样得到的概率值，U表示车辆动作集合，

表示第a个车辆的动作评估值。

本发明还提供了一种无信号灯交叉路口车辆协同控制系统，包括：

车辆信息获取模块，用于无信号灯交叉路口中各车辆的车辆信息；所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息；

第一输入模块，用于将所述车辆信息输入至动作值网络模型，输出各车辆当前状态下的动作评估值；所述动作值网络模型包括三层神经网络，第一层为全连接前馈神经网络，第二层为门控循环神经网络，第三层为全连接前馈神经网络；

第二输入模块，用于将所述动作评估值以及所有车辆的状态信息输入至混合网络模型，得到所述混合网络模型的输出；所述混合网络模型包括多个全连接前馈神经网络；

动作确定模块，用于基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作；动作值网络模型是通过混合网络模型的输出以及动作评估值，采用基于夏普里值的贡献度分配机制模组进行训练的。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种无信号灯交叉路口车辆协同控制方法，包括：根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景，并获取所述仿真场景中各车辆的车辆信息；构建动作值网络模型；将所述车辆信息输入至所述动作值网络模型，输出各车辆当前状态下的动作评估值；构建混合网络模型；将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型，得到所述混合网络模型的输出；基于所述混合网络模型的输出以及所述动作评估值，采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练，得到训练好的动作值网络模型；基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。通过上述方法能够解决基于值分解的多智能体深度强化学习中可解释性差，其算法训练过程中收敛速度慢、对最优策略搜索效率低下的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的无信号灯交叉路口车辆协同控制方法的流程图；

图2为本发明提供的无信号灯交叉路口车辆协同控制方法的原理图；

图3为本发明提供的动作值网络模型的具体组成以及动作值网络模型与夏普里值贡献度分配机制的关系图；

图4为本发明提供的基于夏普里值的贡献度分配机制模组的流程图；

图5为本发明提供的混合网络模型的结构图；

图6为本发明提供的训练好的动作值网络模型的评估流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1-2所示，本发明提供的无信号灯交叉路口车辆协同控制方法包括以下步骤：

步骤101：根据给定的真实十字交叉路口场景搭建十字交叉路口仿真场景，并获取所述仿真场景中各车辆的车辆信息；所述车辆信息包括各车辆状态信息、各车辆上一时刻动作信息以及各车辆ID信息。

步骤102：构建动作值网络模型；所述动作值网络模型包括三层神经网络，第一层为全连接前馈神经网络，第二层为门控循环神经网络，第三层为全连接前馈神经网络。

步骤103：将所述车辆信息输入至所述动作值网络模型，输出各车辆当前状态下的动作评估值。

步骤104：构建混合网络模型；所述混合网络模型包括多个全连接前馈神经网络。

步骤105：将所述动作评估值以及所有车辆的状态信息输入至所述混合网络模型，得到所述混合网络模型的输出。

步骤106：基于所述混合网络模型的输出以及所述动作评估值，采用基于夏普里值的贡献度分配机制模组对所述动作值网络模型进行训练，得到训练好的动作值网络模型。

步骤107：基于训练好的动作值网络模型以及∈-贪婪策略确定各车辆下一时刻的动作。

其中，步骤106具体包括：

其中，所述动作值网络模型的损失函数

如下：

Q_ij表示由动作值网络输出的智能体i的动作估计值(其中j表示所取数据批量的索引)，

表示由基于夏普里值的贡献度分配机制模组输出的智能体i的目标动作估计值(其中j表示所取数据批量的索引)，b表示用于训练的数据批量的总维数。

所述混合网络模型的损失函数

如下：

r表示所有车辆得到的共享奖赏值，γ表示折扣因子，Q_tot(·)表示整个混合网络模型，τ'表示下一时刻的历史信息轨迹，s'表示下一时刻环境的状态信息，u′表示车辆在下一时刻的动作序列，θ、θ′分别表示混合网络模型的参数和目标参数。

所述∈-贪婪策略如下：

表示第a个车辆的策略，

表示第a个车辆在t-1时刻的动作，

表示第a个车辆的动作评估值。

下面将详细介绍本发明的原理：

步骤1、通过给定的任一真实十字交叉路口，在Simulation of Urban Mobility(SUMO)仿真器中搭建一个对应的场景，场景具体参数如下：

受管控的车道长度为200m。

每一路包含左转车道和直行车道。

车辆为乘用车；受算法管控的车辆数为8；车身长度为5m

车辆的最大速度为15m/s，最小速度为6m/s，最大加速度为3.5m/s²，最大减速度为-5m/s²

每一步交互的时间为0.5s；每个回合的最大长度为100

成功完成交叉路口管理任务的条件：车辆进入交叉路口并无碰撞地安全驶出路口

步骤2、将无交通信号灯的交叉路口协同控制问题建模成分布式部分可观马尔可夫决策过程(Decentralized Partially Observable Markov Decision Process,Dec-POMDP)，由元组G＝(S,U,P,r,Z,O,n,γ)组成，其中s∈S代表与算法交互的仿真环境中的所有智能体的状态信息，其中包含所有智能体的位置、速度等信息。每一步中每个智能体a∈A≡{1,2,...,N}选择动作u^a∈U，其联合动作为u∈U≡Uⁿ，做出动作选择之后会使环境以概率P(s'|s,u):S×U×S→[0,1]进入下一个状态，所有智能体分享同一个奖赏值函数

γ∈[0,1)。每个智能体只能观测到它局部信息z∈Z，该观测是状态和动作的函数O(s,a):S×U→Z，每个智能体的历史观测信息轨迹记为τ^a∈T≡(Z×U)^*，智能体的策略基于历史观测信息，记作π^a(u^a|τ^a):T×U→[0,1]，由于该方法使用的是基于值分解的方法，所以每个智能体的策略都对应着一个Q值函数，即

式子中

这里γ表示折扣因子，一般设置为0.99。

步骤1所搭建的场景与步骤2中所建模型的关系如下：

1)各智能体(即各车辆)的状态空间为：s＝[z¹,z²,...,z⁸]

2)每个智能体的初始ID为：a∈{0,1,2,...,7}

3)每个智能体a的动作空间为：u^a＝[accel,keep,decel]，分别代表以恒定的加速度加速、保持上一步的速度、以恒定加速度减速；

4)每个智能体只能观测到它局部信息z∈Z，具体包含的信息如下：z^a＝[x_a,y_a,v_a,d_safe,t_wait,f_enter,f_out]，其中[x_a,y_a,v_a]代表该智能体的绝对坐标与速度信息(智能体的最大速度为15m/s，加速度为可调参数，最多不能超过5m/s²)，d_safe表示与距该智能体最近的智能体的相对距离，t_wait表示该智能体在经过交叉路口过程中累计等待的时间，[f_enter,f_out]表示智能体是否进入或驶出交叉路口；

5)每个智能体的历史轨迹为：τ^a＝(z^a×u^a)

6)每个智能体的策略记作π^a(u^a|τ^a)，本方案中的算法对每个智能体的策略计算一个Q值函数，其物理意义代表对当前时刻当前状态下智能体动作的评估

其值反映智能体采取动作的优劣。其中

7)所有智能体在每一步算法与仿真环境交互中获得的共享奖赏值函数定义如下：

式中α₁,α₂,α₃,α₄,α₅均为可调节参数,I(·)为指示函数。奖赏函数的第一项

表示当所有智能体成功完成通过交叉路口任务时其会得到一个较大的奖赏值C＝(#max_episode_steps)-(#real_episode_steps)。该式第一项

表示环境设置中的每个回合的最大步长，第二项

表示实际情况下所有智能体完成任务所需要的总步长数量。第二项的意义是如果智能体当前的速度v_i小于规定的最小速度V_min＝2m/s，给予其惩罚数值α₁。第三项

表示如果智能体之间发生碰撞(碰撞检测的条件是当前智能体距该智能体最近的智能体的相对距离小于4m)，其受到惩罚数值α₂。第四项∑_iα₃*t_waiti的物理意义表示智能体在任务中停留的时间

越长，所受惩罚的积累数值越大，可调参数为α₃。第五项α₄*(#vehicles_pass_through)中#vehicles_pass_through表示在任务中已经安全驶出交叉路口的智能体数量，并与相对应的奖赏系数α₄相乘。最后一项表示每一个时间步长给予所有智能体一个惩罚数值α₅，一般该值较小。

该奖赏函数机制能够让每一个车辆安全无碰撞地通过交叉路口(奖赏函数第三项)，并鼓励车辆快速通过路口，即尽可能以最短的通行时间经过路口。宏观上意义上该奖赏函数可以提高整体交通效率和交通安全。

步骤3、如图2所示，步骤1中搭建的仿真场景在与算法交互的每一步中为该算法提供车辆的状态信息，即步骤1中的z_t,s_t，算法的输出为各车辆下一时刻的动作信息，用于控制仿真器中车辆的行为。具体而言，算法的输入为

经过动作值神经网络模型后的输出为

表示该网络模型对当前状态下各车辆动作值的评估值，并通过以下动作选择机制(∈-greedy策略)选择要输出的动作：

其中∈表示从[0,1]区间内按照均匀分布采样得到的概率值。

动作值网络模型的具体组成，及与夏普里值贡献度分配机制的关系如图3所示。动作值网络模型由三层神经网络构成，第一层为全连接前馈神经网络，输入维度取决于输入向量，输出维度为32；第二层为门控循环神经网络(Gated Recurrent Network,GRU)，其网络输出维度为64，隐藏层维度也为64；第三层为全连接前馈神经网络，输入维度为64，输出维度取决于动作序列维度。最后使用上述∈-greedy策略输出所有智能体已选动作的具体Q值。

动作值网络的输入向量如下：

其中

表示智能体a的观测，

表示智能体a在上一时刻的动作序列，agentID_a表示由one-hot向量组成的智能体a的ID，例如，智能体1的ID为[1,0,0,...,0]。经过最后一层全连接前馈神经网络之后输出[Q₁(τ¹,·),Q₂(τ²,·),…,Q_N(τ^N,·)]，表示每个智能体的每个可选动作的值。经过∈-greedy策略后输出为

基于夏普里值的贡献度分配机制模组的输入是

和Q_tot(τ,u)，输出是

该输出将根据损失函数

及随机梯度下降算法指导动作值网络模型参数的更新。

具体而言，基于夏普里值的贡献度分配机制模组的流程如图3所示。首先，计算群组S的反事实项：

其中Q_tot(·)表示混合网络，

表示将特定群组S对应的动作值网络输出替换为0(例如S＝{1,2,4}，且最初的动作值网络输出是

则将输出替换为0后的动作值网络的输出为：

第二步是计算在群组S的前提下某个智能体i的边缘贡献度Δv(i,S)，其计算公式为：

其中

表示上述反事实项，而

表示将智能体i从群组S中剔除后得到的反事实项，两者相减并带入上述定义式化简后可以得到

最后一步是对夏普里值进行近似计算。近似计算的思路是对设定好的全体智能体群组进行均匀分布抽样，利用每次抽样后计算得到的边缘贡献度对夏普里值进行近似计算，其公式为：

代入上述表达式可以得到如下公式：

对所有智能体分别计算

就可以得到最终的输出向量

并指导动作值网络模型的参数更新。

混合网络模型由全连接前馈神经网络构成，结构图如图4所示。其输入合并了车辆的全局状态信息和动作值网络的输出，具体形式为：

其中s_t输入给全连接神经网络后输出网络参数权重W₁,W₂(包含对输出进行绝对值操作)，网络参数偏置b₁,b₂，与动作值网络的输出做矩阵乘法运算后得到Q_tot(τ,u)，该值的物理意义是对步骤2中的共享奖赏值r的近似。并根据如下损失函数公式，利用随机梯度下降算法更新混合网络中各层的参数：

b代表每次用于算法训练的一批数据的总维数，r代表仿真环境中所有智能体得到的共享奖赏值，γ表示折扣因子，Q_tot(·)代表整个混合网络模型(该模型本质上是一个复杂的非线性函数)，其中τ′表示下一时刻的历史信息轨迹，s'代表下一时刻环境的状态信息，u′表示智能体在下一时刻的动作序列，θ、θ′分别代表混合网络模型的参数和目标参数，每一次算法与仿真环境交互之后两者之间的关系如下，其中β为可调节参数，其物理意义表示目标网络参数更新的快慢：

θ′＝β*θ+(1-β)*θ′

argmax_u′Q_tot(τ',u',s'；θ)表示从参数为θ的混合网络模型的输出向量中，根据所有智能体在下一时刻不同环境状态s'下的不同动作输出中挑选一个能使该模型输出值最大的动作序列。

混合网络的输出值q_tot与Q₁～Q_N之间的关系如下公式所示：

q_tot＝Q_tot(τ,u,s,Q₁,...,Q_N；θ)

其中q_tot表示整个混合网络模型Q_tot(·)的输出值，是一个隐式的非线性函数。

将输出的动作应用与实际场景：

由于本方法的限定条件是所有车辆均为无人驾驶车辆，所以在实际应用当中车辆通过路口的轨迹为固定曲线，例如直行的车辆轨迹固定为直线，左转的车辆轨迹固定为直线与以转弯半径r的四分之一圆弧。在本方案下，车辆只需要考虑其纵向运动学行为，即u^a＝[accel,keep,decel]，加速，保持上一时刻的速度或减速。

Q_tot与奖赏值r的关系：

q_tot＝Q_tot(τ,u,s,Q₁,...,Q_N；θ)是对所有智能体共享的奖赏值r的近似估计值，与r的值越接近，说明算法训练的效果越好。

随机梯度下降算法的公式如下：

θ表示混合网络模型的所有参数，

代表损失函数的梯度，α表示学习率，本方案采用深度学习框架Pytorch中autograd模组(其功能为自动求解自定义损失函数的梯度)对该值进行自动计算并将

通过线性变换传递给动作值网络Q(·)，所使用的是Adam优化器，学习率设置为5×10^-4。动作值网络模型参数的更新过程公式为：

其中θ^Q表示动作值网络的所有参数，f(·)表示利用深度学习框架pytorch中自动求解梯度机制后，将混合网络的损失值映射到动作值网络的函数。

算法训练后的评估过程如图6所示，将车辆的状态信息、动作信息、各智能体的ID信息，即：

输入给训练好的动作值神经网络，基于其输出的

采用∈-greedy策略，

进行动作选择并输出动作序列

将其传输给SUMO仿真环境，以此控制仿真环境中车辆的协同。

步骤4：将步骤3的训练好的模型进行存储并按照该步骤中的算法评估框架将模型部署到SUMO仿真环境中。

本发明采用对夏普里值进行近似计算的方式加速基于值分解的多智能体强化学习算法，其可以对智能体的贡献度进行有效计算和解释，并提升算法训练过程中的收敛速度和对最优策略的搜索效率。

本发明采用的是集中式训练，分布式执行的算法框架，在训练过程中，智能体能够获取全局信息，因此环境非平稳性可以得到有效缓解。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。