CN115631638A

CN115631638A - 管控区域基于多智能体强化学习的交通灯控制方法及系统

Info

Publication number: CN115631638A
Application number: CN202211561155.3A
Authority: CN
Inventors: 刘冰艺; 彭唯; 韩玮祯; 陈葳旸; 熊盛武
Original assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Current assignee: Sanya Science and Education Innovation Park of Wuhan University of Technology
Priority date: 2022-12-07
Filing date: 2022-12-07
Publication date: 2023-01-20
Anticipated expiration: 2042-12-07
Also published as: CN115631638B

Abstract

本发明公开了一种管控区域基于多智能体强化学习的交通灯控制方法及系统，构建了多智能体注意力双重演员评论家强化学习网络，该网络将多个路口的交通灯控制问题建模为一个半马尔科夫博弈，其中每个路口都被视为一个智能体，可以为动态交通环境中的每个路口生成自适应动作。本发明不仅可以协调交叉口周围的交通流量，还可以处理管控区域的长序列决策问题，以给予救护车等特殊车辆更高的优先权，确保特殊车辆快速通过交叉口。本发明将选项框架与图注意网络相结合的多智能体强化学习框架，选项框架使智能体能够学习结果输出更优，图注意网络可以捕获智能体之间的图结构相互影响。

Description

管控区域基于多智能体强化学习的交通灯控制方法及系统

技术领域

本发明涉及智能交通技术领域，具体地指一种管控区域基于多智能体强化学习的交通灯控制方法及系统。

背景技术

管控区域下的交通管控为智能交通管控提出了新的要求，智能交通信号灯控制系统作为智能交通系统的重要组成部分，负责动态协调交叉口周围的交通运动，这对于支持上述活动至关重要。

在管控区域下，交叉口应该能够处理长序列决策问题，以给予特殊车辆更高的通过优先权。而现存的工作大多数都忽略了复杂的交通组成，仅关注单智能体设置，无法有效处理多个交叉口同时管理交通流的多智能体环境中的长序列决策问题。因此，不能简单地将现有的框架的最佳实践应用于管控区复杂场景下的智能交通灯控制系统。

发明内容

为了解决上述技术问题，本发明提供了一个管控区域下基于多智能体强化学习的交通灯控制方法及系统。

为实现上述目的，本发明所设计的一种管控区域基于多智能体强化学习的交通灯控制方法，其特殊之处在于，所述方法包括如下步骤：

S1构建多智能体注意力双重演员评论家强化学习网络并完成训练；

S2采用多智能体注意力双重演员评论家强化学习网络，输出每个智能体i应采取的动作a _i，为下一个时间段t _p选择合理的交通灯相位，进行管控区域下的交通灯控制；

其中，步骤S1中将多个路口交通灯的决策过程制定为一个半马尔可夫博弈，并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：

所述智能体：将每个道路交叉口作为一个智能体，用i∈I表示，其中I={i|i=1,2,3,…,N}，N为大于3的自然数；

所述观测状态：在每个时间点t，每个所述智能体i∈I都会收到一个局部观测o _i，所述局部观测o _i由智能体i的当前相位和交叉口周围的交通状况组成，所有可能的观测值构成观测空间O；

所述选项：在每个时间点t，每个所述智能体i选择一个选项ω _i,t，所述选项ω _i,t是一个(I_ω,π _ω,β _ω)的三元组，其中I_ω是初始集，π _ω是低层模块中的策略，β _ω是终止函数，如果β _ω=1，则终止当前选项，所述智能体i的选项空间表示为Ω_i；

所述动作：在每个时间点t，每个所述智能体i采取一个动作a _i，为下一个t _p时间段选择相位，所述智能体i的动作空间表示为A_i；

所述高层模块中的策略：在每个时间点t，给定先前的选项ω _i,t-1和观测o _i,t，所述智能体i的高层模块中的策略π ^H _i,t指定一个概率π ^H _i,t(ω _i,t|ω _i,t-1, o _i,t)，由此获得当前时间点t的选项ω _i,t∈Ω_i；

所述低层模块中的策略：给定观测o _i,t和选项ω _i,t，所述智能体i的低层模块中的策略π ^L _i,t指定一个概率π ^L _{i,t t}(a _i,t|o _i,t,ω _i,t)，由此获得当前时间点t的动作a _i,t∈A_i；

所述转移概率：在高层模块中，给定状态s _t、前一个联合选项ω _t-1=(ω ₁ , _t-1 , ω ₂ , _t-1 ,ω ₃ , _t-1 ,… ,ω _N , _t-1)和当前联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)，在高层模块中转移概率记为p ^H(ω_t,s _t+1|ω_t-1,s _t,ω_t)；在低层模块中，给定状态s _t，联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,…,ω _N , _t)和联合动作a _t=(a ₁ , _t ,a ₂ , _t , a ₃ , _t ,… , a _N , _t)，低层模块中的转移概率表示为p ^L(s _t+1,ω_t+1| s _t,ω_t, a _t)，其中s _t+1是下一个状态并且ω _t+1=(ω ₁ , _t+1 ,ω ₂ , _t+1 ,ω ₃ , _t+1 ,… ,ω _N , _t+1)是下一个联合选项；

所述奖励：为了让普通车辆和特殊车辆能够快速通过不同优先级的路口，在每个时间点t，将每个所述智能体i的奖励定义为r _i,t=η∑_v λ _v.(w _i,v,t-1-w _i,v,t)，其中w _i,v,t表示在时间点t，车辆v在智能体i的累积等待时间，λ _v表示车辆v的重要性权重，η是常数。

优选地，步骤S1）中，所述多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构，其中Actor网络包括多层感知器MLP、一个高层模块和一个低层模块，Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet。

优选地，所述多智能体注意力双重演员评论家强化学习网络中，在每个时间点t，智能体i的观测o _i,t被输入至多层感知器MLP以获得观测表示 x _i,t；在高层模块中，多层感知器MLP将观测表示x _i,t作为输入，并将输出传递给Softmax层，该层输出智能体i的选项空间上的概率分布p ^H _i,t；同时，观测表示x _i,t通过多层感知器MLP和ReLU激活函数得到终止条件β _ωi,t；由概率分布p ^H _i,t和终止条件β _ωi,t-1共同确定高层模块中的策略π ^H _i,t；之后，所述高层模块根据高层模块中的策略对选项ω _i,t进行采样；在低层模块中，多层感知器MLP将观测表示 x _i,t作为输入，以在所有选项中生成智能体动作空间的概率分布；然后，给定来自高层模块的选项ω _i,t，选择一个概率分布作为智能体最终的低层模块中的策略π ^L _i,t；之后，智能体i从低层模块中的策略π ^L _i,t中采样一个动作a _i,t。

优选地，步骤S1）中采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络，具体包括以下子步骤：

S1.1：初始化每个所述智能体i的参数Φ _i、θ _i 和

，以及为每个卷积层初始化每个注意力头l的编码矩阵W^l _Q、W^l _K和W^l _V；其中Φ _i表示Critic网络的参数，θ _i表示低层模块的 Actor网络的学习参数，

表示高层模块的Actor网络的学习参数，编码矩阵W^l _Q、W^l _K和W^l _V是注意力模块中的编码矩阵；

S1.2：设置训练回合次数为1,2,3,...,K，K为大于3的自然数；

S1.3：设置时间步长1,2,3,...,T，T为大于1的自然数；

S1.4：在每个时间点t，所述智能体i从低层模块中的策略π ^L _i,t采取动作a _i,t，与环境交互并获得奖励r _i,t；所述智能体i将所有GAT层输出的特征向量连接起来输入到状态价值网络VNet获得低层模块的状态值v ^L _i,t；

S1.5：在每个时间点t，将元组b_t=(a _i,t,ω _i,t,π ^L _i,t,π ^H _i,t,r _i,t,v ^L _i,t)存储到经验回放池B中；其中，a _i,t,ω _i,t,π ^L _i,t,π ^H _i,t,r _i,t,v ^L _i,t分别表示动作、选项、低层模块中的策略、高层模块中的策略、奖励以及低层模块的状态值；

S1.6：回转执行步骤S1.4，直到训练步长为T；

S1.7：更新参数Φ _i、θ _i和

；

S1.8：回转执行步骤S1.3，直到训练次数为K；

S1.9：保存所述Actor网络和Critic网络。

优选地，步骤S1.1中，所述GAT模块中的GAT层通过编码矩阵W^l _Q、W^l _K和W^l _V将每个注意力模块的输入特征向量f _i投影到查询、键和值的表示中，然后，为每个注意力头l计算Softmax 函数：

；

其中

是比例因子，d _k是键表示的维度，N_i表示智能体i的感受野内的所有智能体；用a ^l _i,j对彼此的特征向量进行加权，并将所有加权特征向量相加作为注意力头l 的输出；最后，将所有L个注意力头的输出连接起来并输入到非线性ReLU激活函数中，以导出智能体i的特征向量f _i ^’：

f′ _i=ReLU(Concat[Σ_j∈Ni a ^l _i,j W ^l _v f _j, ∀l∈L])。

优选地，在步骤S1.7的参数更新过程中，首先保持高层模块中的策略π ^H _i和终止条件β _ωi固定，然后优化低层模块中的策略π ^L _i；

在低层模块中，智能体i的以最小化损失训练低层模块的状态值函数：

；

其中γ是折扣因子；

所述低层模块中保守策略迭代的目标函数为：

；

其中π ^L,old _i,t是智能体i的低层模块中的旧策略，A ^L _i,t= r _i,t+γV ^L _i,t+1-V ^L _i,t是低层模块中的优势函数， μ ^L _i,t是低层模块中的策略概率比，以最小化以下等式中给出的裁剪目标函数L^CLIP更新智能体i的低层模块中的策略：

；

然后，保持低层模块中的策略π ^L _i固定，隐式优化高层模块中的策略π ^H _i和终止条件β _ωi，在高层模块中，智能体i在最小化以下等式中给出的损失函数：

；

其中，v ^H _i,t是高层模块中的状态值，计算方式为v ^H _i,t=Σπ ^H _i,t V ^L _i,t，保守策略迭代的目标函数在高层模块中用以下公式表示：

；

其中，π ^H,old _i,t是智能体i的高层模块中的旧策略，A^H _i,t= r _i,t+V ^H _i,t+1-V ^H _i,t是高层模块中的优势函数， μ ^H _i,t是高层模块中的策略概率比，此后，通过最小化以下等式中给出的裁剪目标函数来训练智能体i的Actor网络：

；

其中ε是裁剪比例。

优选地，步骤S1）中完成网络训练的评价指标包括加权等待时间、特殊车辆等待时间和等待时间；所述加权等待时间表示所有车辆的平均加权等待时间，这是一个与奖励函数直接相关的指标；所述特殊车辆等待时间表示特殊车辆的平均等待时间；所述等待时间表示所有车辆的平均等待时间。

本发明还提出一种管控区域基于多智能体强化学习的交通灯控制系统，其特殊之处在于，包括多智能体注意力双重演员评论家强化学习网络和控制输出模块；

所述多智能体注意力双重演员评论家强化学习网络，定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：

所述转移概率：在高层模块中，给定状态s _t、前一个联合选项ω _t-1=(ω ₁ , _t-1 , ω ₂ , _t-1 ,ω ₃ , _t-1 ,… ,ω _N , _t-1)和当前联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)，在高层模块中转移概率记为p ^H(ω_t,s _t+1|ω_t-1,s _t,ω_t)；在低层模块中，给定状态s _t，联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)和联合动作a _t=(a ₁ , _t , a ₂ , _t , a ₃ , _t ,… , a _N , _t)，低层模块中的转移概率表示为p ^L(s _t+1,ω_t+1| s _t,ω_t, a _t)，其中s _t+1是下一个状态并且ω _t+1=(ω ₁ , _t+1 ,ω ₂ , _t+1 ,ω ₃ , _t+1 ,… ,ω _N , _t+1)是下一个联合选项；

所述奖励：为了让普通车辆和特殊车辆能够快速通过不同优先级的路口，在每个时间点t，将每个所述智能体i的奖励定义为r _i,t=η∑_v λ _v.(w _i,v,t-1-w _i,v,t)，其中w _i,v,t表示在时间点t，车辆v在智能体i的累积等待时间，λ _v表示车辆v的重要性权重，η是常数；

所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络，向管控区域下的交通灯作为智能体i发出基于动作a _i的控制指令。

进一步地，所述多智能体注意力双重演员评论家强化学习网络的框架结构包括Actor网络和Critic网络，所述Actor网络包括多层感知器MLP、一个高层模块和一个低层模块；所述多层感知器MLP用于获得观测表示 x_i,t；所述高层模块用于由概率分布p ^H _i,t和终止条件β _ωi,t-1确定高层模块中的策略π ^H _i,t，根据高层模块中的策略对选项ω _i,t进行采样；所述低层模块用于在所有选项中生成智能体动作空间的概率分布，根据高层模块的选项ω _i,t，选择一个概率分布作为智能体最终的低层模块中的策略π ^L _i,t，根据低层模块中的策略π ^L _i,t采样一个动作a _i,t；

所述Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet；所述多层感知器MLP用于获得观测表示z _i,t；所述GAT模块用于为不同的智能体分配不同的权重，所述状态价值网络VNet用于获得低层模块的状态值V ^L _i,t。

本发明另外提出一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述一种管控区域基于多智能体强化学习的交通灯控制方法及系统。

本发明与现有技术相比具有如下优点和有益效果：

(1) 与其他基于强化学习的交通信号灯控制方法不同的是，本发明考虑的是管控区域下具有复杂车辆组成的多个路口交通灯控制问题，没有手动设计控制方案，而是提出了一种新的多智能体注意力双重演员评论家强化学习（MAADAC）网络，它使路口能够有效地适应动态交通流，并促进特殊车辆快速通过多个交叉口；

(2) 其他方法大多数都忽略了复杂的交通组成，并且仅关注单智能体设置，因此无法有效处理多个交叉口同时管理交通流的多智能体环境中的长序列决策问题。本发明提出的MAADAC网络将选项框架与图注意力网络相结合的网络，它可以使路口在相位上做出一系列令人满意的选择，还可以捕获路口之间的图结构相互影响；

(3)本发明所提出的交通灯控制框架不一定与特定的交叉口形状和车道数相关，因此，本发明提出的这个框架可以应用于各种交叉口。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施的MAADAC网络结构示意图；

图3为本发明实施的四路交叉口场景示例。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细描述。

如图1所示，本发明提出的管控区域基于多智能体强化学习的交通灯控制方法，包括如下步骤：

S2采用多智能体注意力双重演员评论家强化学习网络，输出每个智能体i应采取的动作a _i，为下一个时间段t _p选择合理的交通灯相位，进行管控区域下的交通灯控制。

步骤S1中将多个路口交通灯的决策过程制定为一个半马尔可夫博弈，并定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：

其中，智能体：将每个道路交叉口作为一个智能体，用i∈I表示，其中I={i|i=1,2,3,…,N}，N为大于3的自然数；

观测状态：在每个时间点t，每个所述智能体i∈I都会收到一个局部观测o _i，所述局部观测o _i由智能体i的当前相位和交叉口周围的交通状况组成，所有可能的观测值构成观测空间O；

选项：在每个时间点t，每个所述智能体i选择一个选项ω _i,t，所述选项ω _i,t是一个(I_ω,π _ω,β _ω)的三元组，其中I_ω是初始集，π _ω是低层模块中的策略，β _ω是终止函数，如果β _ω=1，则终止当前选项，所述智能体i的选项空间表示为Ω_i；

动作：在每个时间点t，每个所述智能体i采取一个动作a _i，为下一个t _p时间段选择相位，所述智能体i的动作空间表示为A_i；

高层模块中的策略：在每个时间点t，给定先前的选项ω _i,t-1和观测o _i,t，所述智能体i的高层模块中的策略π ^H _i,t指定一个概率π ^H _i,t(ω _i,t|ω _i,t-1, o _i,t)，由此获得当前时间点t的选项ω _i,t∈Ω_i；

低层模块中的策略：给定观测o _i,t和选项ω _i,t，所述智能体i的低层模块中的策略π ^L _i,t指定一个概率π ^L _{i,t t}(a _i,t|o _i,t,ω _i,t)，由此获得当前时间点t的动作a _i,t∈A_i；

转移概率：在高层模块中，给定状态s _t、前一个联合选项ω _t-1=(ω ₁ , _t-1 ,ω ₂ , _t-1 , ω ₃ , _t-1 ,… ,ω _N , _t-1)和当前联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)，在高层模块中转移概率记为p ^H(ω_t,s _t+1|ω_t-1,s _t,ω_t)；在低层模块中，给定状态s _t，联合选项ω _t=(ω ₁ , _t , ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)和联合动作a _t=(a ₁ , _t , a ₂ , _t , a ₃ , _t ,… , a _N , _t)，低层模块中的转移概率表示为p ^L(s _t+1,ω_t+1| s _t,ω_t, a _t)，其中s _t+1是下一个状态并且ω _t+1= (ω ₁ , _t+1 , ω ₂ , _t+1 ,ω ₃ , _t+1 ,… ,ω _N , _t+1)是下一个联合选项；

奖励：为了让普通车辆和特殊车辆能够快速通过不同优先级的路口，在每个时间点t，将每个所述智能体i的奖励定义为r _i,t=η∑_v λ _v.(w _i,v,t-1-w _i,v,t)，其中w _i,v,t表示在时间点t，车辆v在智能体i的累积等待时间，λ _v表示车辆v的重要性权重，η是常数。

本实施例的多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构，Actor网络涉及一个高层模块和一个低层模块，具体模型如图2所示。

多智能体注意双重演员评论家 (MAADAC)框架将选项框架与图注意网络 (GAT)相结合。更具体地说，本发明将多个路口交通灯控制问题建模为一个半马尔科夫博弈，其中每个路口都被视为一个智能体。MAADAC框架为动态交通环境中的每个路口生成自适应动作。从技术上讲，本方法采用时间抽象，即选项框架，使智能体能够学习做出一系列决策。本发明提出的MAADAC框架采用Actor-Critic架构，Actor网络涉及一个高层模块和一个低层模块。高层模块侧重于选择选项，这些选项从本质上指导智能体的长序列决策。相比之下，低层模块侧重于学习切换到令人满意的相位。此外，一个路口的决策通过它们之间路段的交通流量影响相邻的路口。

为了将路口之间的相互影响纳入决策过程，本实施例将Critic与GAT模块集成在一起，该模块堆叠GAT层以增加智能体的感受野。更具体地说，本方法将多智能体环境构建为有向图，其中每个顶点代表一个路口，如果两个路口之间通过路段连接，则它们之间存在一条边。当多个路段连接路口时，它们之间的边缘会综合影响多个路段。 GAT模块将来自智能体感受野内的路口的一组观察值作为其输入，并为智能体捕获图形结构的相互影响。

如图2所示，在每个时间点t，智能体i的观测o _i,t被输入至多层感知器MLP以获得观测表示 x _i,t；在高层模块中，多层感知器MLP将观测表示x _i,t作为输入，并将输出传递给Softmax层，该层输出智能体i的选项空间上的概率分布p ^H _i,t；同时，观测表示x _i,t通过多层感知器MLP和ReLU激活函数得到终止条件β _ωi,t；由概率分布p ^H _i,t和终止条件β _ωi,t-1共同确定高层模块中的策略π ^H _i,t；之后，所述高层模块根据高层模块中的策略对选项ω _i,t进行采样；在低层模块中，多层感知器MLP将观测表示 x _i,t作为输入，以在所有选项中生成智能体动作空间的概率分布；然后，给定来自高层模块的选项ω _i,t，选择一个概率分布作为智能体最终的低层模块中的策略π ^L _i,t；之后，智能体i从低层模块中的策略π ^L _i,t中采样一个动作a _i,t。

如图 2 所示，在训练过程中，智能体i首先通过在Critic模块中使用MLP层提取其观察表示z _i,t。为了整合智能体之间的相互影响，本实施例采用带有C个GAT层的GAT模块为不同的智能体分配不同的权重。更具体地说，首先根据有向图为每个智能体i构造一个邻接矩阵M_i,t。从技术上讲，这个邻接矩阵的第一行是智能体索引的one-hot表示，其他行是其相邻智能体索引的one-hot表示。每个GAT层都使用邻接矩阵来提取有关智能体及其邻居的信息。例如，在第C个GAT 层中，智能体i使用邻接矩阵M_i,t从第C-1个GAT 层输出的特征向量z ^c ^-1 _i,t中提取智能体及其邻居的信息，并将提取的信息输入用于获得特征向量z ^c _i,t的注意力模块，然后将其用作第C+1个GAT层的输入。例外的是，第一个GAT层将其自身和其他智能体在其感受野内的观察表示作为输入。最后，将观测表示和所有GAT层输出的特征向量连接起来，表示为(z _i,t , z ¹ _i,t , z ² _i,t ,…,z ^c _i,t)。然后将这种连接输入状态价值网络VNet以获得低层模块的状态值v^L _i,t。当状态值函数作为Critic时，高层模块中的状态值函数可以由低层模块中的状态值函数表示，因此计算高层模块中的状态值v^H _i,t 通过以下等式：

；

因此，在 MAADAC框架中只需要一个Critic来生成高层和低层模块的状态值，这些状态值分别用于更新高层和低层模块中的策略。

本模块在GAT层采用了多头点积注意模块（multi-head dot-product attentionmodule）。在此本实施例使用符号f _i来表示每个注意力模块的输入特征向量。具体来说，GAT模块中的每个 GAT 层都采用多头自注意力模型来推导智能体之间的影响权重。首先，本实施例通过编码矩阵W^l _Q、W^l _K和W^l _V将输入f _i投影到查询、键和值的表示中。然后，为每个注意力头l计算以下 Softmax 函数：

；

其中

f′ _i=ReLU(Concat[Σ_j∈Ni a ^l _i,j W ^l _v f _j, ∀l∈L])。

本实施例采用集中训练和分散执行的训练方式训练多智能体注意力双重演员评论家强化学习网络，每一次训练都会由训练环境生成数据并放入经验回放池B，然后从经验回放池B中联合采样。因此，在训练过程中为每个智能体训练了一个集中的Critic。从技术上讲，这种集中的Critic允许每个智能体在训练过程中使用其他智能体的额外信息。相反，在执行过程中，每个智能体的Actor只能访问其本地信息。

如图3所示，本发明实施例采用四路交叉口场景和相对位置矩阵表示作为示例。本实施例的训练环境，是一个长度为500m的3x3网格网络，每条道路由3条车道组成，右侧车道允许车辆右转，中间车道允许直行车辆，左侧车道允许车辆左转；在这个复杂的管控区域中，交通流由普通车辆和特殊车辆组成，其中特殊车辆从医院开始或结束，普通车辆和特殊车辆的长度分别设置为4m和6m，默认的平均车辆到达率设置为每秒6次；特殊车辆的默认比例设置为 25%。

本实施例采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络，具体包括以下子步骤：

S1.1：初始化每个所述智能体I 的参数Φ _i、θ _i 和

表示高层模块的Actor网络的学习参数，编码矩阵W^l _Q、W^l _K和W^l _V是注意力模块中的编码矩阵；GAT模块中的GAT层通过编码矩阵W^l _Q、W^l _K和W^l _V将每个注意力模块的输入特征向量f _i投影到查询、键和值的表示中，然后，为每个注意力头l计算Softmax 函数；

S1.2：设置训练回合次数为1,2,3,...,K，K为大于3的自然数；

S1.3：设置时间步长1,2,3,...,T，T为大于3的自然数；

S1.6：回转执行步骤S1.4，直到训练步长为T；

S1.7：更新参数Φ _i、θ _i和

；

在参数更新过程中，首先保持高层模块中的策略π ^H _i和终止条件β _ωi固定，然后优化低层模块中的策略π ^L _i；

；

其中γ是折扣因子；

所述低层模块中保守策略迭代的目标函数为：

；

；

；

；

；

其中ε是裁剪比例。

S1.8：回转执行步骤S1.3，直到训练次数为K；

S1.9：保存所述Actor网络和Critic网络。

本实施例中，通过训练这些参数，每个智能体i能够更好地采取的动作a _i(即为下一个t _p时间段选择合理的相位)，能使得每个交叉口为动态的交通环境生成自适应动作。

基于上述方法，本发明提出一种管控区域基于多智能体强化学习的交通灯控制系统，包括多智能体注意力双重演员评论家强化学习网络和控制输出模块；多智能体注意力双重演员评论家强化学习网络，定义其中的智能体、观测状态、选项、动作、高层模块中的策略、低层模块中的策略、转移概率和奖励：所述控制输出模块用于采用多智能体注意力双演员评论家强化学习网络，向管控区域下的交通灯作为智能体i发出基于动作a _i的控制指令。

本发明提出的一种新的多智能体注意力双重演员评论家强化学习（MAADAC）网络，是第一个将选项框架与图形注意力网络（graph attention network，GAT）相结合的多智能体强化学习网络。该网络不仅可以协调交叉口周围的交通流量，还可以处理管控区域的长序列决策问题。在技术上，MAADAC网络将每个交叉口视为一个智能体，根据通信和交通状况为动态交通环境中的每个路口生成自适应动作。

MAADAC网络采用了Actor-Critic架构，其中Actor网络涉及一个高层模块和一个低层模块。高层模块侧重于选择选项，这些选项从本质上指导智能体的长序列决策。相比之下，低层模块侧重于学习切换到令人满意的相位。此外，一个路口的决策通过它们之间路段的交通流量影响相邻的路口。为了将路口之间的相互影响纳入决策过程，本发明将Critic与GAT模块集成在一起，该模块堆叠GAT层以增加智能体的感受野。

更具体地说，本发明将多智能体环境构建为有向图，其中每个顶点代表一个路口，如果两个路口之间通过路段连接，则它们之间存在一条边。当多个路段连接路口时，它们之间的边缘会综合影响多个路段。GAT 模块将来自智能体感受野内的路口的一组观察值作为其输入，并为智能体捕获图形结构的相互影响。

通过这种方式，管控区域的交通灯控制问题可以得到更好地处理，不仅可以协调交叉口周围的交通流量，还可以处理管控区域的长序列决策问题，以给予特殊车辆更高的通过优先权，确保救护车等特殊车辆快速通过交叉口。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

最后需要说明的是，以上具体实施方式仅用以说明本专利技术方案而非限制，尽管参照较佳实施例对本专利进行了详细说明，本领域的普通技术人员应当理解，可以对本专利的技术方案进行修改或者等同替换，而不脱离本专利技术方案的精神和范围，其均应涵盖在本专利的权利要求范围当中。

Claims

1.一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：所述方法包括如下步骤：

所述转移概率：在高层模块中，给定状态s _t、前一个联合选项ω _t-1=(ω ₁ , _t-1 ,ω ₂ , _t-1 , ω ₃ , _t-1 ,… ,ω _N , _t-1)和当前联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)，在高层模块中转移概率记为p ^H(ω_t,s _t+1|ω_t-1,s _t,ω_t)；在低层模块中，给定状态s _t，联合选项ω _t=(ω ₁ , _t , ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)和联合动作a _t=(a ₁ , _t , a ₂ , _{t ,} a ₃ , _{t ,} … ,a _N , _t)，低层模块中的转移概率表示为p ^L(s _t+1,ω_t+1| s _t ,ω _t, a _t)，其中s _t+1是下一个状态并且ω _t+1= (ω ₁ , _t+1 , ω ₂ , _t+1 ,ω ₃ , _t+1 ,… ,ω _N , _t+1)是下一个联合选项；

2.根据权利要求1所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：步骤S1）中，所述多智能体注意力双重演员评论家强化学习网络采用Actor-Critic架构，其中Actor网络包括多层感知器MLP、一个高层模块和一个低层模块，Critic网络包括多层感知器MLP、GAT模块和状态价值网络VNet。

3.根据权利要求2所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：所述多智能体注意力双重演员评论家强化学习网络中，在每个时间点t，智能体i的观测o _i,t被输入至多层感知器MLP以获得观测表示 x _i,t；在高层模块中，多层感知器MLP将观测表示x _i,t作为输入，并将输出传递给Softmax层，该层输出智能体 i的选项空间上的概率分布p ^H _i,t；同时，观测表示x _i,t通过多层感知器MLP和ReLU激活函数得到终止条件β _ωi,t；由概率分布p ^H _i,t和终止条件β _ωi,t-1共同确定高层模块中的策略π ^H _i,t；之后，所述高层模块根据高层模块中的策略对选项ω _i,t进行采样；在低层模块中，多层感知器MLP将观测表示 x _i,t作为输入，以在所有选项中生成智能体动作空间的概率分布；然后，给定来自高层模块的选项ω _i,t，选择一个概率分布作为智能体最终的低层模块中的策略π ^L _i,t；之后，智能体i从低层模块中的策略π ^L _i,t中采样一个动作a _i,t。

4.根据权利要求2所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：步骤S1）中采用集中训练和分散执行的训练方式训练所述多智能体注意力双重演员评论家强化学习网络，具体包括以下子步骤：

S1.1：初始化每个所述智能体i的参数Φ _i、θ _i 和

，以及为每个卷积层初始化每个注意力头l的编码矩阵W^l _Q、W^l _K和W^l _V；其中Φ _i表示Critic网络的参数，θ _i表示低层模块的Actor网络的学习参数，

S1.2：设置训练回合次数为1,2,3,...,K，K为大于3的自然数；

S1.3：设置时间步长1,2,3,...,T，T为大于3的自然数；

S1.5：在每个时间点t，将元组b_t=(a _i,t,ω _i,t,π ^L _i,t,π ^H _i,t ,r _i,t ,v ^L _i,t)存储到经验回放池B中；其中，a _i,t,ω _i,t,π ^L _i,t,π ^H _i,t ,r _i,t ,v ^L _i,t分别表示动作、选项、低层模块中的策略、高层模块中的策略、奖励以及低层模块的状态值；

S1.6：回转执行步骤S1.4，直到训练步长为T；

S1.7：更新参数Φ _i、θ _i和

；

S1.8：回转执行步骤S1.3，直到训练次数为K；

S1.9：保存所述Actor网络和Critic网络。

5.根据权利要求4所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：步骤S1.1中，所述GAT模块中的GAT层通过编码矩阵W^l _Q、W^l _K和W^l _V将每个注意力模块的输入特征向量f _i投影到查询、键和值的表示中，然后，为每个注意力头l计算Softmax函数：

；

其中

是比例因子，d _k是键表示的维度，N_i表示智能体i的感受野内的所有智能体；用a ^l _i,j对彼此的特征向量进行加权，并将所有加权特征向量相加作为注意力头l的输出；最后，将所有L个注意力头的输出连接起来并输入到非线性ReLU激活函数中，以导出智能体i的特征向量f _i ^’：

f′ _i=ReLU(Concat[Σ_j∈Ni a ^l _i,j W ^l _v f _j, ∀l∈L])。

6.根据权利要求5所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：在步骤S1.7的参数更新过程中，首先保持高层模块中的策略π ^H _i和终止条件β _ωi固定，然后优化低层模块中的策略π ^L _i；

；

其中γ是折扣因子；

所述低层模块中保守策略迭代的目标函数为：

；

其中π ^L,old _i,t是智能体i的低层模块中的旧策略，A ^L _i,t= r _i,t+γV ^L _i,t+1-V ^L _i,t是低层模块中的优势函数，μ ^L _i,t是低层模块中的策略概率比，以最小化以下等式中给出的裁剪目标函数L^CLIP更新智能体i的低层模块中的策略：

；

；

；

其中，π ^H,old _i,t是智能体i的高层模块中的旧策略，A^H _i,t= r _i,t+V ^H _i,t+1-V ^H _i,t是高层模块中的优势函数，μ ^H _i,t是高层模块中的策略概率比，此后，通过最小化以下等式中给出的裁剪目标函数来训练智能体i的Actor网络：

；

其中ε是裁剪比例。

7.根据权利要求1所述的一种管控区域基于多智能体强化学习的交通灯控制方法，其特征在于：步骤S1）中完成网络训练的评价指标包括加权等待时间、特殊车辆等待时间和等待时间；所述加权等待时间表示所有车辆的平均加权等待时间，这是一个与奖励函数直接相关的指标；所述特殊车辆等待时间表示特殊车辆的平均等待时间；所述等待时间表示所有车辆的平均等待时间。

8.一种管控区域基于多智能体强化学习的交通灯控制系统，其特征在于：包括多智能体注意力双重演员评论家强化学习网络和控制输出模块；

所述智能体：将每个道路交叉口作为一个智能体，用i∈I表示，其中I={i|i=1,…,N}，N为大于3的自然数；

所述转移概率：在高层模块中，给定状态s _t、前一个联合选项ω _t-1=(ω ₁ , _t-1 ,ω ₂ , _t-1 , ω ₃ , _t-1 ,… ,ω _N , _t-1)和当前联合选项ω _t=(ω ₁ , _t ,ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)，在高层模块中转移概率记为p ^H(ω_t,s _t+1|ω_t-1,s _t,ω_t)；在低层模块中，给定状态s _t，联合选项ω _t=(ω ₁ , _t , ω ₂ , _t ,ω ₃ , _t ,… ,ω _N , _t)和联合动作a _t=(a ₁ , _t ,a ₂ , _t ,a ₃ , _t ,… ,a _N , _t)，低层模块中的转移概率表示为p ^L(s _t+1,ω_t+1| s _t ,ω _t, a _t)，其中s _t+1是下一个状态并且ω _t+1= (ω ₁ , _t+1 ,ω ₂ , _t+1 , ω ₃ , _t+1 ,… ,ω _N , _t+1)是下一个联合选项；

9.根据权利要求8所述的一种管控区域基于多智能体强化学习的交通灯控制系统，其特征在于：所述多智能体注意力双重演员评论家强化学习网络的框架结构包括Actor网络和Critic网络，所述Actor网络包括多层感知器MLP、一个高层模块和一个低层模块；所述多层感知器MLP用于获得观测表示 x_i,t；所述高层模块用于由概率分布p ^H _i,t和终止条件β _ωi,t-1确定高层模块中的策略π ^H _i,t，根据高层模块中的策略对选项ω _i,t进行采样；所述低层模块用于在所有选项中生成智能体动作空间的概率分布，根据高层模块的选项ω _i,t，选择一个概率分布作为智能体最终的低层模块中的策略π ^L _i,t，根据低层模块中的策略π ^L _i,t中采样一个动作a _i,t；

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。