CN115083174A

CN115083174A - 一种基于合作式多智能体强化学习的交通信号灯控制方法

Info

Publication number: CN115083174A
Application number: CN202210638529.0A
Authority: CN
Inventors: 任付越; 赵晓东; 张帆; 董伟; 赵晓丹; 孔亚广; 邹洪波
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-06-07
Filing date: 2022-06-07
Publication date: 2022-09-20

Abstract

本发明公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯，没有考虑它们之间的相关性的缺点，提出了一种双层协调控制策略，通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时，该方法将车辆排放因素考虑在内，可以在改善路网交通状态的同时尽可能的减少车辆排放。

Description

一种基于合作式多智能体强化学习的交通信号灯控制方法

技术领域

本发明涉及智能交通信号控制技术领域，尤其涉及一种基于合作式多智能体强化学习的交通信号灯控制方法。

背景技术

我国机动车移动污染源保有量大、增速快，极易造成交通拥堵，并引发严重的空气污染、噪声污染等环境问题。相比于新建、扩建道路等改善交通状况的方法，利用路口交通信号灯对路网交通状况进行调度优化具有更强的经济性、实用性，这也符合我国提出的数字城市和智慧城市的发展理念，强化学习是解决交通信号灯控制问题的代表性方法。

传统交通信号灯，无论交叉路口各个方向车辆数目如何变化，信号时间间隔都是不变的，这就很容易导致交通堵塞，增加车辆排放。为了改善路口的交通状况，人们将强化学习应用到交通信号灯控制任务中，与传统交通信号灯控制方法相比取得了更好的控制效果。然而很多基于强化学习的控制算法都单独的控制各个路口的交通信号灯，没有明确的考虑相邻路口之间的相互作用，即一个路口信号灯变化如何影响附近路口的交通状况。

随着经济的发展和社会的进步，道路运输对环境造成了严重的影响，引起了人们的广泛关注。交通规划师和交通工程师在解决交通问题或优化交通系统时，不再只关注拥堵，如何减少车辆排放问题也得到重视。车辆的运行模式与车辆排放密切相关，如车辆加速、减速、怠速和走走停停等情况都会增加车辆排放。而在交通网络中，路口的交通情况最为复杂，车辆在路口反复分流、合并、交叉。交通情况复杂，使得路口成为制约城市道路交通功能的瓶颈，该区域车辆排放明显高于其他区域。因此，通过合理的交通信号灯调控可以有效减少车辆排放。

综上所述，需要设计一种基于合作式多智能强化学习的交通信号灯方法，从而在改善路网交通状态的同时尽可能的减少车辆排放。

发明内容

本发明针对上述问题及技术需求，提出了一种基于合作式多智能体强化学习的交通信号灯控制方法。本发明通过减少因红灯产生的车辆等待情况，从而最小化路口车辆的等待时间和排放，进而达到在改善交通拥堵的同时尽可能的减少通过交叉口的车辆排放的目的。

本发明的包括以下步骤：

步骤一：构建道路交叉口和交通信号灯的路网模型；

路网模型使用交通仿真软件SUMO附带的软件Netedit搭建；

搭建的道路交叉口中，分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向直行。为了保证安全，防止直接切换相位引发交通事故，在上述四个相位切换之间设计一个黄信号灯进行过渡。

步骤二：基于强化学习的交通信号灯控制模型构建；

(a)状态空间State设计

对于单个交叉口，使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中，表示当前信号灯相位的矩阵P表示信号灯的当前状态；每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况；每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。

(b)动作空间Action设计

交通信号灯的相位选择称为信号灯控制Agent的动作，我们设计了四种动作分别为：(1)南北方向直行(SN-G)；(2)南北方向左转(SNL-G)；(3)东西方向直行(EW-G)；(4)东西方向左转(EWL-G)。

(c)奖励函数Reward设计

每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此，定义的奖励函数分为以下两类：车辆等待时间部分奖励函数和车辆排放部分奖励函数。

定义时间步t时刻的奖励函数：

R＝kR_E+(1-k)R_W

其中，k为权重系数，R_E表示车辆排放部分奖励函数，R_W表示车辆等待时间部分奖励函数。

步骤三：构建合作式多智能体强化学习模型。

在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络，邻近价值网络，全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态，输出信息为四种动作的概率值，并根据动作概率值进行随机抽样选择动作。其中，个体价值网络和邻近价值网络组成局部合作机制，来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制，以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制的配合来确定目标智能体的动作。

步骤四：信号灯控制Agent学习信号灯控制策略；

将单个信号灯控制Agent的局部观测信息输入个体价值网络，所述信号灯控制Agent会在环境中获取奖励和下一时刻的观测信息，更新所述Agent的个体价值网络参数；将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络；为求得所述局部合作因子，将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子，通过对全局目标进行梯度运算来实现这个双层全局协调，将得到的最优局部合作因子输入策略网络，并在动作空间中选择最合适的动作发送给路网环境，路网执行动作并转移到下一个状态；

本发明的有益效果：

本发明使得路网中的交通信号灯相互合作，根据实时交通信息动态的调节交通信号灯的相位，在缓解交通拥堵的同时尽可能的减少通过交叉口的车辆排放。

本发明不依赖历史交通数据，不依赖先前交通信号灯控制模型，无需人工干预的情况下，信号灯控制Agent通过与环境进行实时交互，感知并作用于环境。信号灯控制Agent根据交叉口的实时交通状况指定信号灯控制策略，通过减少因红灯产生的车辆等待情况，从而最小化路口车辆的等待时间和排放，达到缓解交通拥堵和减少车辆排放的目的，实现自适应交通信号灯控制。

附图说明

图1是本发明方法的流程示意图；

图2是本发明信号灯控制Agent的动作示意图；

图3是本发明相邻路口的示意图；

图4是本发明合作式多智能体强化学习模型示意图。

具体实施方式

下面结合附图对本发明的具体实施方式做进一步说明。

如图1所示，本发明包括如下步骤：

步骤一：构建道路交叉口和交通信号灯的路网模型；

路网模型使用交通仿真软件SUMO附带的软件Netedit搭建；

由于交通信号灯只对驶入车道的车辆具有控制作用，因此只关注驶入车道的信息，驶出车道的车辆不对当前路口的信号控制产生影响。驶入车道中，分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向左转。

步骤二：基于强化学习的交通信号灯控制模型构建；

(a)状态空间State设计

对于单个交叉口，使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中，用当前信号灯相位的矩阵P表示信号灯的当前状态；每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况；每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。

在车道等待车辆的队列长度矩阵Q中，

表示时间步t车道i中等待通过交叉口的车辆的排队长度，i∈[1，…，N]表示路网中的N条车道。其中，

表示时间步t车道i中等待的车辆数量，l_v为车辆的长度和车辆间最小间距之和，L_i表示车道i的长度。在车道的车辆密度矩阵D中，

表示时间步t车道i的车辆密度情况。其中，

表示时间步t进入车道i的车辆数量。

为了描述交叉口的实时排放情况，本发明在智能体的观察状态中引入车道污染物浓度矩阵，采用基于车辆加速度的排放估算模型HBEFA。在观测状态中只考虑了车辆的CO₂排放情况。因为，在车辆排放中CO₂的排放占比为97.2％。在车道排放浓度矩阵E中，

表示时间步t车道i的排放浓度情况。其中，

表示车辆j在时间步t的GO₂排放量。

因此单个交叉口在时间步t的状态空间为s_t＝[P，Q，D，E]。

(b)动作空间Action设计

根据交通规则，无论是红灯还是绿灯，车辆都可以右转。同时，为了使智能体像经验丰富的交通警察一样对复杂的交通情况进行灵活的调控。如图2所示，设计了四种动作分别为：(a)南北方向直行(SN-G)、(b)南北方向左转(SNL-G)、(c)东西方向直行(EW-G)、(d)东西方向左转(EWL-G)。智能体在每个时间步的开始会选择一个动作a_t，执行后得到一个新的状态s_t+1。为了确保一个动作到下一个动作的安全转换，在两个动作切换间设置了黄色信号灯保证车辆安全通过交叉口。

(c)奖励函数Reward设计

在本发明中，每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此，定义的奖励函数分为以下两类：车辆等待时间部分奖励函数和车辆排放部分奖励函数。

在车辆等待时间部分奖励函数为因红灯产生的排队等候时间。当司机在排队等候时，随着等候时间的增加，司机的不耐烦程度指数上升。因此，为保证公平性，避免少数车辆等候时间过长。将车辆的等待时间分为三类，即不等待、等待时间少于六个时间步长和等待时间大于六个时间步长。车辆等待时间部分的奖励函数R_W定义如下：

其中，v_min＝0.1m/s当车辆速度小于v_min时认为车辆停止；r_j，t为车辆j在时间步t的奖励；N_t为交叉口的车辆数量；W_j，t表示车辆j在时间步t的累积等待时间。

由于车辆排放中CO₂的排放占比为97.2％，在奖励设计时只考虑了车辆的CO₂排放情况。为了描述信号灯控制Agent采取的动作对车辆排放的改善情况，使用执行动作前后车辆的排放差作为奖励函数的一部分。车辆排放部分奖励函数R_E定义如下：

其中，e_car，t表示时间步t内车辆car的CO₂的排放量；n为该交叉口的车辆数量；e_t表示t阶段所有车辆的综合排放情况。

通过综合考虑上述指标，并根据车辆排放和等待时间这两个指标对模型优化效果的影响，给出相应的权重进行加权求和。同时，为了避免出现“小奖励被大奖励”压倒的现象，对车辆延误和等待时间这两个奖励值归一化处理。整体的奖励函数设置如下：

R＝kR_E+(1-k)R_W (12)

其中，k为权重系数，k∈[0，1]，R_E表示车辆排放部分d奖励函数，R_W表示车辆等待时间部分奖励函数。

步骤三：构建合作式多智能体强化学习模型。

在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络，邻近价值网络，全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态，输出信息为四种动作的概率值，并根据动作概率值进行随机抽样选择动作。路网中的邻近路口关系如图3所示，图中深色圆圈表示目标智能体，浅色圆圈表示其邻近智能体。

本发明提出的合作式多智能体强化学习模型如图4所示。个体价值网络和邻近价值网络组成局部合作机制，来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制，以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。

所述个体价值网络为每个智能体根据自己的局部观测将自己奖励最大化。因此，智能体i的个体的价值函数

和相应的优势函数

分别为：

其中，s_t表示智能体在时间步t时刻的状态，γ^t表示时间步t时刻的折扣率，r_i，t表示智能体i在时间步t时刻的奖励，a_i，t表示智能体i在在时间步t时刻执行的动作，

表示进行求期望运算。

使用策略梯度方法计算单个智能体i目标的梯度

为：

并使用Clip重要性采样因子

来缓解更新后的分布变化，其中π_i，old为生成样本的策略；π_i，new是由θ_i参数化的最新策略，其中，θ_i表示智能体i的个体价值网络的神经网络参数。因此单个智能体的学习目标目标函数

(即单个智能体的学习目标)为：

其中，∈是一个超参数。通过对单个智能体的目标进行关于策略参数的随机梯度上升来提高预期的个体回报。为了通过各信号灯之间的协调合作来改善整个路网的交通状况，加入了邻近价值网络和全局价值网络来。

在基于合作式多智能体强化学习的信号灯控制方法中，使用集中式训练分散式执行框架，每个智能体都可以独立做出决策，都可以相互竞争或合作，最终达到全局最优。集中式训练是指通过全局信息进行决策计算，然后每个智能体根据全局决策信息和自身状态分布式执行。在集中训练期间，首先通过局部合作提出单个智能体的学习目标，这是由于每个智能体主要受其邻近智能体的影响。通过混合奖励来协调智能体的协同目标，通过优化局部合作过程，从而实现全局合作，最终达到全局最优。

在局部合作机制中，为了描述智能体对相邻智能体的关注程度，提出了局部合作因子(LCF)，φ∈[0°，90°]。定义智能体i在时间步t的邻近奖励

和合作奖励

如下：

其中，

为智能体i的邻近智能体集合。

为了将局部合作因子加入训练过程来提高系统性能，使用邻近价值函数

来近似邻近奖励的折扣之和及其相应的优势函数

如下。

因此，合作优势函数

可以表述如下：

因此，可以得到一个考虑邻近智能体的协同目标

如下所示：

在全局合作机制中，引入全局合作来自动寻找最优的局部合作因子使得系统性能最佳。通过对全局目标进行梯度运算来实现这个双层协调。全局目标定义如下：

其中，ε表示所有智能体的集合。

上式在计算单个策略参数的策略梯度时不能直接优化。为此，引入个体全局目标这一概念，使得全局优化变的可行。将系统级别的优化过程转化为智能体级别的优化过程，从而可以轻松访问单个智能体的数据。将全局目标J^G(θ₁，...)分解为个体全局目标

这样最大化每个智能体的目标就等效于最大化全局目标。个体全局目标定义如下：

为了通过优化邻近协调因子来提升全局目标，需要对公式(26)求关于Φ求梯度。其中，

和

分别表示公式(21)优化前后的策略参数，应用链式法则对其求解如下：

公式(27)的第一部分类似于策略梯度其中目标被

所替换。因此第一部分可以转化为：

公式(28)中，使用一个额外的全局价值方程V^G来估计全局奖励值r^G，然后计算全局优势函数A^G，其中样本(s，a)是由策略

产生。

公式(27)的第二部分可以通过泰勒一阶展开进行求解。

结合公式(28)和公式(29)，可得到局部合作因子的目标如下：

步骤四：信号灯控制Agent学习信号灯控制策略；

所述个体价值网络，为单个信号灯控制Agent根据从环境中获取的观察信息，个体价值网络不与其他信号灯控制Agent进行通信，只最大化当前信号灯控制Agent所获取的奖励；

所述邻近价值网络，目的是协调目标信号灯控制Agent和其邻近信号灯控制Agent的关注程度；如果我们简单地最大化每个信号灯的奖励，信号灯控制Agent会变得以自我为中心，可能会做一些对其他路口不利的决策，导致路网交通出现严重拥堵；相反，如果将各信号灯控制Agent的奖励总和作为共同目标，可能会使某些智能体做出牺牲自己来提高整体奖励的不合理行为；

所述全局价值网络，目的是自动寻找最优的局部合作因子使得系统性能最佳；所述全局目标为环境中所有信号灯控制Agent的奖励总和；通过自动寻找局部合作因子使得全局目标最大化。

Claims

1.一种基于合作式多智能体强化学习的交通信号灯控制方法，其特征在于该方法包括以下步骤：

步骤一：构建道路交叉口和交通信号灯的路网模型；

步骤二：基于强化学习的交通信号灯控制模型构建；

(a)状态空间State设计

对于单个交叉口，使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态；

(b)动作空间Action设计

设计四种动作分别为：南北方向直行、南北方向左转、东西方向直行、东西方向左转；

(c)奖励函数Reward设计

时间步t时刻的奖励函数：

R＝kR_E+(1-k)R_W

其中，k为权重系数，R_E表示车辆排放部分奖励函数，R_W表示车辆等待时间部分奖励函数；

步骤三：构建合作式多智能体强化学习模型；

所述合作式多智能体强化学习模型包括个体价值网络，邻近价值网络，全局价值网络和策略网络；该模型的输入为路网中各个路口的交通状态，输出信息为四种动作的概率值，并根据动作概率值进行随机抽样选择动作；

所述合作式多智能体强化学习模型采用了局部合作机制和全局合作机制，其中局部合作机制利用局部合作因子来权衡个体奖励和邻近奖励，全局合作机制通过梯度更新协调因子来最大化全局目标；

步骤四：信号灯控制Agent学习信号灯控制策略；

将单个信号灯控制Agent的局部观测信息输入个体价值网络，所述信号灯控制Agent在环境中获取奖励和下一时刻的观测信息，更新所述Agent的个体价值网络参数；

将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络；为求得局部合作因子，将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子；

通过对全局目标进行梯度运算来实现双层全局协调，将得到的最优局部合作因子输入策略网络，并在动作空间中选择最合适的动作发送给路网环境，路网执行动作并转移到下一个状态。

2.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法，其特征在于：步骤一中所述路网模型使用交通仿真软件SUMO附带的软件Netedit搭建；

其中搭建的道路交叉口中，分为左转、直行和右转车道；

其中交通信号灯的控制分信号分别为：南北方向直行、南北方向左转、东西方向直行、东西方向直行，在上述四个相位切换之间设计一个黄信号灯进行过渡。

3.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法，其特征在于：步骤二中所述车辆排放部分奖励函数使用执行动作前后车辆的排放差。

4.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法，其特征在于：所述的策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。

5.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法，其特征在于：所述的合作式多智能体强化学习模型使用集中式训练分散式执行框架，所述集中式训练是通过全局信息进行决策计算，然后每个智能体根据全局决策信息和自身状态分布式执行；在集中训练期间首先通过局部合作提出单个智能体的学习目标，然后通过混合奖励来协调智能体的邻近目标，通过优化局部合作过程，从而实现全局合作。