CN115512558A

CN115512558A - 一种基于多智能体强化学习的交通灯信号控制方法

Info

Publication number: CN115512558A
Application number: CN202211103815.3A
Authority: CN
Inventors: 赵生捷; 邓浩; 陈志�
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-12-23

Abstract

本发明涉及一种基于多智能体强化学习的交通灯信号控制方法，包括：获取真实交通数据，构建并初始化交通环境；针对每个交叉路口的交通灯构建多智能体强化学习模型，所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层；训练多智能体强化学习模型；每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值，利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案，并控制交通信号灯的行动。与现有技术相比，本发明考虑了邻居路口的协作关系，能够适应复杂的道路环境，并且能针对每个路口给出适合该交叉路口的最优交通灯信号控制方案。

Description

一种基于多智能体强化学习的交通灯信号控制方法

技术领域

本发明涉及交通信号灯智能控制领域，尤其是涉及一种基于多智能体强化学习的交通灯信号控制方法。

背景技术

近年来，大多数城市都遭遇了城市交通拥堵。可怕的交通拥堵将导致空气污染和经济损失问题。为了缓解交通拥堵，交通领域的研究人员提出了各种交通信号控制方法来协调各路口的车辆运动。如固定时间改变交通信号、按照最大压力改变信号等。这些交通方法都是基于领域知识所构建出来得。然而，交通状况是高度动态的，使得这些交通领域的方法不能给出最佳解决方案来更有效地协调各路口得车辆，缓解交通拥堵问题。

现在，许多研究开始利用强化学习来设计交通信号控制方法。与交通领域的方法相比，基于强化学习的方法可以减少更多的车辆驾驶时间。如图1(a)所示，强化学习的基本框架是智能体和环境之间的迭代，它更加灵活。智能体根据自己的实时观察给出推荐行动，环境接受该行动并返回相应的奖励给予智能体。面对整个城市下大规模路网的交通信号控制问题，现有的主流研究是利用多智能体强化学习框架来给出控制策略。

现在基于强化学习的主流方法是适应分布式框架Ape-XDQN，它将强化学习过程分为两个独立的部分：行动和学习。行动在每个交叉点设置一个统一的智能体，以获取样本并将其存储在经验池中。学习用经验池训练统一的智能体。为了实现跨路口的协作，研究人员允许智能体不仅观察其邻居的交通状况，而且观察其过去的行为，而不是仅仅使用本地交通状况。虽然目前的主流方法已经有效地缓解了交通拥堵，减少了车辆行驶时间，但用共享参数训练统一的代理，导致现有的方法在学习交叉路口的协作模式方面存在不足。如图1(b)所示，路网中存在两个不同协作模式的交叉路口。交叉路口B与四条道路相连，其中B-W和B-N为双向道路，B-S和B-E为单向道路，这表明B-S、B-E对交叉路口B的影响与B-W和B-N不同。交叉路口A与三条双向街道和一条单向街道相连，这与交叉路口B完全不同。显然，当他们观察到的状态相同时，交叉路口A的智能体应该给出与交叉路口B的智能体不同的政策。简单来说，当路口数量增加时，用图注意网络和Ape-XDQN框架很难学习大规模道路网络中存在的所有交通模式，从而给出适合不同交叉路口的最优动作。

发明内容

本发明的目的就是为了提供一种基于多智能体强化学习的交通灯信号控制方法，能够学习大规模道路网络中存在的所有交通模式，从而给出适合不同交叉路口的最优动作。

本发明的目的可以通过以下技术方案来实现：

一种基于多智能体强化学习的交通灯信号控制方法，包括以下步骤：

获取真实交通数据，构建并初始化交通环境，所述交通数据包括路网信息、交通流数据和环境信息；

针对每个交叉路口的交通灯构建多智能体强化学习模型，所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层，其中，所述观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量，所述自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量，得到目标交叉路口包含其邻居信息的潜在表征，所述Q值预测层根据输入的目标交叉路口的潜在表征，输出不同行动的预期奖励，并选择具有最高预期奖励的最佳行动，作为最优的交通灯信号控制方案；

基于真实交通数据训练多智能体强化学习模型；

每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值，利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案，并控制交通信号灯的行动。

所述观测嵌入层基于多层感知器将k维的观测值嵌入到m维的潜伏层：

其中，

是第i个交叉路口在时间t的观测值，

和

分别是权重矩阵和偏置向量，σ是ReLU函数，观测嵌入层的输出

代表第i个交叉路口的当前潜在交通状态观测向量，观测值

包括当前的交通信号

与交叉路口相连的每条接近车道的车辆数量

以及交叉路口的压力

所述多模式图注意力网络包括观测交互模块、邻居关注分布模块、邻居信息聚合模块、多头注意力机制模块。

所述观测交互模块学习邻居路口对目标交叉路口的重要性：

e_ij＝(h_iW_t)·h_jW_s)^T

其中，e_ij为邻居路口j对目标交叉路口i的重要性，W_t,

分别是目标交叉路口和邻居路口的潜在状态观测向量，h_i，h_j分别为目标交叉路口i和邻居路口j的观测值输入到观测嵌入层后的输出。

所述邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性：

其中，

是目标交叉路口i的邻居路口，τ为温度系数，用于调整softmax曲线的平滑程度。

所述邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合：

其中，

是邻域交叉嵌入的权重参数，W_q和b_q是权重矩阵和偏执向量，邻域表示

积累了邻域的信息，代表与相邻交叉路口的协作模式，σ为ReLU函数。

所述多头注意力机制的多头函数被并行训练，以生成多个交叉路口的邻域表示hs_i，并将其平均为hm_i：

其中，H为注意头的数量。

所述多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块，以确定每个头的权重，并基于权重调整交叉路口邻域表示的平均值：

w_i＝σ(W_aih_i+b_ai)

hm_i′＝σ(W_q·w_i·H_i)+b_q)

其中，

是观测嵌入层的输出，

是交叉路口i的多头的权重，hm_i′是基于权重w_i调整的交叉路口邻域表示

的加权和。

所述Q值预测层基于深度Q网络，根据贝尔曼方程预测每个备选行动的预期奖励，其中，所述贝尔曼方程为：

Q(s_t,a_t)＝R(s_t,a_t)+γmaxQ(s_t+1,a_t+1)

其中，s_t为t时刻路网观测值由多模式图注意力网络映射后的路网状态，a_t为t时刻的行动集合，γ为折扣系数，R(*)为s_t状态下选择动作a_t的观测值，Q(*)为行动价值函数。

基于每个智能体i在时间t的行动价值函数

预估预期奖励

并通过最小化损失函数来训练深度Q网络，其中，预期奖励

定义为：

它代表了智能体选择动作后奖励总和的期望，

为时刻t在路口i所观测到的单次动作奖励；

损失函数

定义为：

其中，θ_n表示n次迭代参数，

是

的下一个观测值，

表示t时刻基于观测值

所选动作

动作奖励

和第n-1次迭代模型预估的预期奖励，

表示t时刻利用第n次迭代模型预估的预期奖励。

与现有技术相比，本发明具有以下有益效果：

(1)本发明将分布式强化学习框架作为算法的基础框架，提出一种多模式图注意力网络来聚合目标路口和邻居路口的信息，可以探索每个交叉路口存在的特殊协作模式，使智能体能够给出考虑目标交叉路口和其邻居之间合作的行动，从而得到针对目标交叉路口的最优控制方案。

(2)本发明通过临界节点嵌入来捕捉每个邻居路口对目标路口影响的权重，从而更精确的表示邻居间的协同关系，提高预测精度。

(3)本发明基于真实路网和真实交通流数据作为实验数据，充分模拟现实路况，使得模型的效果更适应现实场景。

附图说明

图1为强化学习框架和两个不同路况的十字路口示意图；

图2为多智能体强化学习模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于多智能体强化学习的交通灯信号控制方法，包括以下步骤：

0)问题建模

首先为整个交通信号灯管控场景建立数学模型，定义交通环境中的状态，智能体的动作，以及相应的奖励。

在交通信号控制系统中，每个交叉路口都由一个代理控制。代理人根据自己的观察给出“最优”的交通信号，其目的是使道路网络中所有车辆的行驶时间最小。特别是，交通信号控制问题被看作是一个马尔可夫博弈，并由以下主要部分组成：

①系统状态空间

假设路网中存在N个交叉路口，那么N个交叉路口的状态集合就是系统状态空间

这些状态是交叉路口的所有信息，包括信号相位、接近车道上的等待车辆数量、接近车道上的行驶车辆速度等。

②观测空间

观测值

指的是系统状态空间

中智能体可以观察和记录的部分。实际上，观测空间

是系统状态空间

的子空间。我们定义了智能体i在时间t的观测值

它包括由向量表示的其当前阶段、与交叉路口相连的每个进路车道上的车辆数量以及交叉路口的压力。

③动作集

在交通信号控制问题中，智能体i会根据观察到的

从行动集

中选择一个行动

该行动将被设定为目标交叉路口的下一阶段，表明该交叉路口从时间t到t+δt将处于阶段

本实施例中，行动集包括"东直西直(ESWS)"、"北直南直(NSSS)"、"东左西左(ELWL)"、"北左南左(NLSL)"四个行动，其中，“直”表示直行，“左”表示左转弯。也就是说，交通灯在进行信号控制切换时，仅包括以上四种行动方式。

④转移概率

过渡概率

定义了当交通系统在t时刻的状态s^t和所有代理人的相应联合行动a^t给定时，系统状态在下一时刻t+1的概率分布。其中

表示状态分布的空间。

⑤奖励r

每个代理人在采取行动后，可以根据环境的反馈获得奖励。最优的奖励时使得所有车辆的旅行时间最小化，而这是很难实时测量的。因此，使用等价的奖励来确定代理的学习方向，定义为

是在时间t上每个接近车道l的排队长度。

⑥策略π和折扣因子γ

智能体遵循政策π，在时间t给出最佳行动，使奖励

其中T是一个情节的总时间步骤，折扣系数γ∈[0,1]中区分历史奖励的重要性。使用每个智能体i在时间t的行动价值函数

来近似计算代理人观察状态o^t并给出交通信号行动为

时的奖励期望

政策π将根据行动-价值函数选择行动a′，其中a′为

1)获取真实交通数据，构建并初始化交通环境，所述交通数据包括路网信息、交通流数据和环境信息；

基于cityflow交通模拟器构建交通环境，并进行交通灯的控制模拟。

本实施例使用多个城市的真实路网结构来构建模拟器中的路网，并使用该地1小时的观测车流来构建模拟器中的模拟车流。设置模拟器模拟时长为3600s；路网中共有16个路口，在每个路口设置智能交通灯，并且信号切换时间设定为10s一次。

2)针对每个交叉路口的交通灯构建多智能体强化学习模型，所述多智能体强化学习模型包括观测嵌入层、自适应邻居协作层和Q值预测层，如图2所示；

2-1)观测嵌入层

观测嵌入层基于多层感知机将交通环境的观测值映射为潜在交通状态观测向量，将k维的观测值嵌入到m维的潜伏层：

其中，

是第i个交叉路口在时间t的观测值，

和

代表第i个交叉路口的当前潜在交通状态观测向量，观测值

包括当前的交通信号

与交叉路口相连的每条接近车道的车辆数量

以及交叉路口的压力

2-2)自适应邻居协作层

自适应邻居协作层基于多模式图注意力网络聚合目标交叉路口与邻居路口的潜在交通状态观测向量，得到目标交叉路口包含其邻居信息的潜在表征；

在多个交叉口的交通信号控制问题中，每个代理不仅需要考虑自己观测到的状态，还需要考虑其邻居的动向。然而，多头机制不能学习大规模道路网络中存在的所有协作模式。因此，本发明提出了多模式的图注意力网络，在图注意力网络中加入了多层感知，以学习每个交叉口的协作模式。特别是，该层的多层感知机不共享参数，而该层的其他部分则共享所有参数。

2-2-1)观测交互模块学习邻居路口对目标交叉路口的重要性：

e_ij＝(h_iW_t)·h_jW_s)^T

其中，e_ij为邻居路口j对目标交叉路口i的重要性，W_t,

2-2-2)邻居关注分布模块基于Softmax函数正常化邻居路口对目标交叉路口的重要性：

其中，

2-2-3)为了汇总邻居的信息，了解他们的动向，邻居信息聚合模块基于正常化后的重要性对邻居路口的信息进行聚合：

其中，

积累了邻域的信息，代表与相邻交叉路口的协作模式，σ为ReLU函数，邻居表示hs_i代表一种与相邻交叉口的协作模式。基于这个表示，代理可以关注邻居的运动和它的观测值，以做出考虑目标和邻居交叉路口之间协作的最佳行动。

2-2-4)为了保证注意力机制能够很好地覆盖不同位置的不同模式的交叉口，传统的做法是将单头注意力机制扩展为多头机制。具体来说，多头注意函数被并行训练，以生成多个交叉口的邻域表示hs_i，并将其平均为hm_i：

其中，H为注意头的数量。

尽管多头关注机制比单头机制能覆盖更多的邻居聚集模式，但它仅限于共享参数的形式，这对于学习大规模路网中存在的所有协作模式仍然是不够的。因此，本发明中，在多头注意机制模块中的每个交叉路口上设有一个临界节点嵌入模块，以确定每个头的权重，并基于权重调整交叉路口邻域表示的平均值：

w_i＝σ(W_aih_i+b_ai)

hm_i′＝σ(W_q·w_i·H_i)+b_q)

其中，

是观测嵌入层的输出，

的加权和。

2-3)Q值预测层根据输入的目标交叉路口的潜在表征，输出不同行动的预期奖励，并选择具有最高预期奖励的最佳行动，作为最优的交通灯信号控制方案；

Q(s_t,a_t)＝R(s_t,a_t)+γmaxQ(s_t+1,a_tt1)

基于每个智能体i在时间t的行动价值函数

预估预期奖励

并通过最小化损失函数来训练深度Q网络，其中，预期奖励

定义为：

它代表了智能体选择动作后奖励总和的期望，

为时刻t在路口i所观测到的单次动作奖励。根据上述定义式是无法实际求解得到预期奖励

的，因此，本发明采用

来近似计算预期奖励的值。

损失函数

定义为：

其中，θ_n表示n次迭代参数，

是

的下一个观测值，

表示t时刻基于观测值

所选动作

动作奖励

和第n-1次迭代模型预估的预期奖励，

表示t时刻利用第n次迭代模型预估的预期奖励。

本实施例中，预期奖励取决于各路口的等待车辆数。

3)基于真实交通数据训练多智能体强化学习模型；

4)每隔预配置的时间间隔实时采样每个交叉路口的交通环境的观测值，利用训练完成的多智能体强化学习模型生成最优交通灯信号控制方案，并控制交通信号灯的行动。

本实施例中，交通信号灯的控制方法是定时切换交通信号，在需要切换交通信号时，获取观测值(包括路口下四个方向停止的车辆数目)，并基于训练好的模型给出最优交通灯信号控制方案，判断是否需要进行切换(即最优控制方案与当前执行方案是否一致)，如果需要切换，则控制交通信号灯按照最优控制方案行动，若不需要切换则保持不变。本实施例中，每隔10s重新执行上述步骤，实现交通信号灯的实时控制，以达到优化交通的目的。

在本实施例中，设定的观测值为交叉口相连的每个进路车道上的车辆数量以及交叉口的压力，其中交叉口的压力为进交叉口的总车数减去出交叉口的总车数。

根据上述方法，得到实验结果如表1所示。实验结果表明，使用基于多智能体强化学习构建的智能交通灯来指挥交通灯的信号变化能大大降低车辆的平均行驶时间。

表1不同方法控制交通信号的车辆平均行驶时间

方法	纽约28*7路网	杭州4*4路网	济南3*4路网
				固定时间切换信号	1950.27s	728.29s	869.85s
本发明所述方法	1107.24s	293.01s	291.41s

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。