CN113435112A

CN113435112A - 基于邻居感知的多智能体强化学习的交通信号控制方法

Info

Publication number: CN113435112A
Application number: CN202110649830.7A
Authority: CN
Inventors: 张程伟; 田宇; 桑晨
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-24
Anticipated expiration: 2041-06-10
Also published as: CN113435112B

Abstract

本发明提供了基于邻居感知的多智能体强化学习的交通信号控制方法，包括：将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈，根据道路网络将交叉口建模为连通的智能体；所述邻居感知的马尔可夫博弈中，智能体的观测被定义为交叉口和它的邻居信息；所有交叉口在时刻采取动作后所观察到的智能体的奖励定义为所有进入的队列中等待车辆的平均数量；运行交通控制交互环境；确定智能体与其连接邻居之间的相关性；根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权，得到更新后的观测和奖励信息；根据更新后的观测和奖励信息训练智能体，进而每个智能体进行交通信号分散控制。本发明能够达到缓解交通拥堵的技术效果。

Description

基于邻居感知的多智能体强化学习的交通信号控制方法

技术领域

本发明涉及交通控制技术领域，更具体地说，涉及一种基于邻居感知的多智能体强化学习的交通信号控制方法。

背景技术

ATSC(自适应交通信号控制)的目标是在实时道路交通测量的基础上自适应地调整信号相位以减少交通拥挤。

为了解决ATSC问题，现有一些工作利用集中训练分布式执行(CTDE)机制学习最优联合策略，解决多智能体协作问题。然而，由于联合动作空间随着智能体数量的增加呈指数增长，集中式学习难以扩展。在真实的城市交通环境中，可能有上千个交叉口共同协调以优化城市交通。将交通信号控制定义为分散的多智能体协同控制(MARL)更为自然，即每个交叉口由一个具有局部观测的单一智能体控制。

迄今为止，大多数现有的ATSC多智能体视角的工作都集中在基于分散优化的方法上，这些方法使用了来自其他协调智能体的局部观测和消息，将ATSC问题看作是一个全局层面或邻居层面的多智能体合作博弈，但是忽略了单个智能体之间的相互关系，通常是在基于图的网络中将交叉口和其他交叉口同等对待或根据它们的距离赋予固定的权值。

然而，在ATSC场景中，来自不同路口在不同时间的信息可能有不同的重要性。交叉口之间的相关性不仅受交叉口网络关系的影响，还受相邻两个交叉口相关性的影响。如果一视同仁地考虑来自其他交叉点的信息，不仅会浪费计算资源，而且会影响学习效果。

发明内容

有鉴于此，本发明提供了基于邻居感知的多智能体强化学习的交通信号控制方法，以节约计算资源，提高多智能体强化学习效果，进而达到缓解交通拥堵的技术效果。

为此，本发明提供了以下技术方案：

本发明提供了一种基于邻居感知的多智能体强化学习的交通信号控制方法，所述方法包括：

将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈，根据道路网络将交叉口建模为连通的智能体；所述邻居感知的马尔可夫博弈中，智能体的观测被定义为交叉口和它的邻居信息；所有交叉口在时刻采取动作后所观察到的智能体的奖励定义为所有进入的队列中等待车辆的平均数量；

运行交通控制交互环境；

确定智能体与其连接邻居之间的相关性；

根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权，得到更新后的观测和奖励信息；

根据更新后的观测和奖励信息训练智能体，进而每个智能体进行交通信号分散控制；

重复多次训练智能体，直至完成交通信号控制。

进一步地，确定智能体与其连接邻居之间的相关性，包括：根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性。

进一步地，根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性，包括：

交叉口i和交叉口j在t时刻的相关系数c_ij ^(t)定义为：

其中n_max是一个常数用来表示车辆的上限，∑_l∈Liwave[l]^(t)在交叉口i的进入线中等待车辆的数量；L_i是交叉口i的进车道集合。

进一步地，确定智能体与其连接邻居之间的相关性，包括：根据当前交叉口和相邻交叉口的奖励序列计算皮尔森相关系数，基于皮尔森相关系数来计算相关性。

进一步地，基于皮尔森相关系数来计算相关性，包括：

对于两个采样的数据数组X＝{x_i,1≤i≤n}和Y＝{y_i,1≤i≤n}，皮尔森相关系数r_p为：

其中，

分别表示X和Y的平均值；

皮尔森相关系数的取值范围为[-1,1]，相关系数为正值，说明X和Y两个变量呈正相关关系，相反，相关系数为负值，说明X和Y两个变量呈负相关关系；将皮尔森相关系数r_p作为交叉口i和交叉口j之间的相关系数c_ij。

进一步地，根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权，得到更新后的观测和奖励信息，包括：

将时刻t智能体i的观测o_i ^(t)更新为两个交叉口之间进入车道中等待车辆的数量加权相关邻居的状态信息：

其中phase_i∈i∪Ni ^(t)是交叉口i在时间步t的相位，L_i和L_Ni分别是交叉口i和它邻居交叉口的进车道集合，wave[l]^(t)表示进车道l上的等待车辆数量；

在时刻t，在所有交叉口执行完它们的动作后，将交叉口i的奖励r_i ^(t)更新为在集合{i}∪N_i中所有交叉口入车道等待车辆的平均值加权相关邻居的状态信息：

本发明的优点和积极效果：

本发明将ATSC问题建模为一种基于邻居感知的马尔可夫博弈模型，考虑了交叉口及其连接邻居的信息。在此基础上，提出了一种自适应计算邻居智能体相关性的方法，将来自邻居的信息进行加权处理。通过合理处理邻居智能体的信息，节约了计算资源，提高了多智能体强化学习效果，进而达到了缓解交通拥堵的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于智能体级自适应协调的MARL框架的结构示意图；

图2为本发明实施例中济南数据集上的奖励图；

图3为本发明实施例中杭州数据集上的奖励图；

图4为本发明实施例中合成数据集上的奖励图。

具体实施方式

在多智能体强化学习(MARL)应用于自适应交通信号控制(ATSC)问题的研究中，这些MARL方法将ASTC问题建模为一个多智能体合作博弈，主要集中在全局层面或邻居层面来确定了智能体之间的协调。然而，交叉口之间的协调问题仍有待解决，这对于ASTC场景下交叉口联合最优合作策略的学习具有重要意义。而且，实验发现在一个车辆较少的真实交通网络中，一些精心设计的MARL算法甚至不如独立RL算法那么好，例如:IDQN(独立学习的DQN)。因此，在学习合作策略时，考虑交叉点之间的相关性是很重要的。

为此，考虑到在交通网络的交叉口之间有明显的拓扑关系，以及相邻交叉口的状态通常被一个交叉口观察到的情况下，本发明将ASTC问题建模为一个邻居感知的马尔可夫博弈，根据道路网络将交叉口建模为连通的智能体。每个智能体根据其局部观察和来自其连接邻居的信息进行分散控制。在这个博弈中，智能体考虑了ASTC及其连接邻居的信息，提出了一种基于智能体级别自适应协调(ALC，agent-level coordination)的MARL算法(具体为HDQN)。具体来说，先确定交叉口与其连接邻居之间的相关性，然后根据交叉口之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权，利用加权的观测和奖励信息训练智能体，也就是利用ALC-HDQN算法训练智能体，进而利用智能体进行交通信号分散控制。其中，确定交叉口与其连接邻居之间的相关性可以根据车道上车辆数量进行粗略划分相关性，还可以基于皮尔森相关系数计算每个交叉口及其相邻邻居的相关性。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

参见图1，其示出了本发明实施例中基于邻居感知的多智能体强化学习的交通信号控制方法的流程图，该方法包括：

S101、构建强化学习要素，建模面向交通的邻居感知马尔科夫博弈，将交叉口建模为智能体；

S102、运行交通控制交互环境；

S103、确定智能体与其连接邻居之间的相关性；

S104、根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权，得到更新后的观测和奖励信息；

S105、根据更新后的观测和奖励信息训练智能体，进而每个智能体进行交通信号分散控制；

根据智能体之间的相关性得到更新后的观测和奖励信息，利用更新后的观测和奖励信息训练智能体，也就是在原有的HDQN算法上增加智能体级别的自适应协调(ALC)，即利用ALC-HDQN算法训练智能体。

S106、重复多次训练智能体，直至完成训练，也就是完成交通信号控制。

更具体地，ALC-HDQN算法的具体步骤如下：

S1：随机初始化当前网络θ_i和目标网络

初始化经验回放池D_i和临时经验池

S2：设置训练次数M，按照下列步骤对智能体重复训练M次；

S3：获取当前交叉口处的车辆数量和信号相位；

S4：限定每回合中交通时间为T，在每个时间步t上，t＝1,...,T，执行以下步骤：

S5：根据贪婪策略，随机数小于贪婪因子ε时随机选择动作a_i,t，随机数大于贪婪因子ε时根据a_i,t＝argmax_aQ(s_t,a；θ)选择动作；

S6：执行S5所述动作a_i,t，得到奖励r_i ^(t)和下一时间步的状态o_i ^(t+1)；

S9：将经验(o_i ^(t),a_i ^(t),r_i ^(t),o_i ^(t+1))存入中D_i′中；

S10：每隔n步通过公式(4)和(5)计算智能体和邻居的相关性得到加权后的状态

下一个状态

和奖励

S11：将新的经验

存入D_i中；

S12：从D_i中随机采样抽取经验更新HDQN网络θ_i；

S13：每隔C步更新目标网络参数

为了便于理解，下面对本发明实施例中的邻居感知马尔可夫博弈进行具体说明。将ATSC问题建模为一个特殊的网络化马尔可夫博弈，命名为邻居感知马尔可夫博弈(NAMG)。在NAMG，假设一个交叉口可以观察到自己及其连接的邻居在每个进入车道上等待车辆的数量。形式化上，一个NAMG可以定义为一个元组g＝<g,S,O,A,P,R＞，其中智能体i的观测o_i＝O_i被定义为交叉口i和它的邻居信息：

其中phase_i∈i∪Ni ^(t)是它在时间步t的相位，L_i和L_Ni分别是交叉口i和它邻居交叉口的进车道集合，wave[l]^(t)表示进车道l上的等待车辆数量总和。智能体i的动作a_i∈A_i是信号相位。

需要注意的是，ATSC问题的目标是优化整体交通状况，所有交叉口在时刻采取动作后所观察到的智能体的奖励可以定义为所有进入的队列中等待车辆的平均数量，定义每个智能体的个体奖励为：

如前所述，在NAMG中智能体所观察到的信息包含了交叉口及其邻居的局部交通信息。显然，这些信息的重要性是不同的。交叉口的拥堵状况更容易受到相邻交叉口的影响，而不是远处交叉口的影响。相邻的两个交叉口之间的相关性直接受其等待车辆数量的影响，不适合平等地考虑来自相连邻居的非必要信息。

下面对本发明实施例中确定相邻的两个交叉口之间的相关性的两种方法进行具体说明：

(1)根据车辆数量粗略划分相关性

首先根据其相邻交叉口的等待车辆数来分析交叉口与其连接邻居之间的相关性，然后根据交叉口之间的相关性预先获取各个分散的加强学习智能体的观察和奖励信息。形式上，相连的交叉口i和j在t时刻的相关性定义为：

其中n_max是一个常数用来表示车辆的上限，∑_l∈Liwave[l]^(t)在交叉口i的进入线中等待车辆的数量，是在o_i ^(t)中部分的表示。c_ij ^(t)根据i和j路口进车道等候车辆总数，将i和j之间的相关性分为三类。

在此基础上，对时刻t智能体i的观测进行了改进：

其中c_ii ^(t)＝1，公式(4)根据两个交叉口之间进入车道中等待车辆的数量，加权相关邻居的状态信息，重新定义了交叉口i的观测。

同样，在时刻t，在所有交叉口执行完它们的动作后，将交叉口i的奖励定义为在集合{i}∪N_i中所有交叉口入车道等待车辆的平均值用公式(3)中的相关性c_ij ^(t)进行加权：

(2)自适应方法计算相关性

仅通过粗略划分车辆数量等推理技术计算相关性的话过于简单，且需要对不同数据集进行多次参数调优，无法准确地识别智能体之间的相关性。为了解决这一问题，本发明实施例中基于Pearson相关系数来计算相关性，然后根据交叉口之间的相关性对各个分散的RL智能体的观察和奖励信息进行加权。

Pearson相关系数是最常用的用于测量变量之间相关性的统计估计量。对于两个采样的数据数组X＝{x_i,1≤i≤n}和Y＝{y_i,1≤i≤n}，皮尔森相关系数r_p为：

其中，

分别表示X和Y的平均值。

Pearson相关系数的取值范围均为[-1,1]，相关系数为正值，说明X和Y两个变量呈正相关关系，相反，相关系数为负值，说明X和Y两个变量呈负相关关系。此外，相关系数的绝对值越高，说明两个变量之间的相关性越强。将Pearson相关系数r_p作为智能体之间的相关系数c_ij。

基于奖励轨迹，每个智能体都有在一定长度范围内的奖励轨迹r_i＝{rⁱ ₁,rⁱ ₂,...,rⁱ _T}。智能体收到奖励的变化在一定程度上反映了智能体之间的相关性。首先以皮尔森相关系数来准确的计算来交叉口与其连接邻居之间的相关性，然后根据交叉口之间的相关性对各个分散的RL智能体的观察和奖励信息进行加权。

在此基础上，对时刻t智能体i的观测和奖励(即公式(4)和(5))中相关系数c_ij进行了改进，得到了新的观测和奖励信息。

这种方法可以自适应的计算智能体之间的相关性，且相关系数计算的更加准确，在三个数据集上都取得了最好的结果，算法的鲁棒性也很强。

实验结果：

在Cityflow模拟器在三种交通信号控制场景：一个4*4合成交通网格和两个真实世界济南(12个交叉口)和杭州(16个交叉口)的交通网络中进行了算法实现。与最先进的方法MA2C(multi-agent advantage actor critic，多智能体优势演员-评论家算法)和HDQN进行了比较。图2、3展示了本发明实施例中的算法(ALC-HDQN)在济南和杭州数据集上和其他算法奖励的对比图。由于真实数据集上的车辆数量少，难度小，因此算法之间相差不大，但本发明实施例中的算法仍略优于其他算法。图4展示了本发明实施例中的算法(ALC-HDQN)在合成数据集上和其他算法奖励的对比图。合成数据集上的车辆数量多，难度大，拥堵程度更严重，本发明实施例中的算法得到的奖励值更高，即交叉口等待的车辆数量更少，能够更显著的缓解拥堵程度，具有明显优势。

本发明实施例中的交通信号控制方法应用于多智能体强化学习中，设计面向交通地多智能体协作马尔可夫博弈模型，并针对性地设计协作式多智能体强化学习算法，然后通过在真实交通环境数据的模拟器上的仿真实验，检验模型和算法地效能。该框架在其他算法上的应用也有明显效果提升，稳健性也很好。实验数据集包括真实交通数据集，在实用性上也得到了保证。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。