CN113436443A

CN113436443A - 一种基于生成对抗网络和强化学习的分布式交通信号控制方法

Info

Publication number: CN113436443A
Application number: CN202110331933.9A
Authority: CN
Inventors: 王昊; 卢云雪; 董长印; 杨朝友
Original assignee: Yangzhou Fama Intelligent Equipment Co ltd; Southeast University
Current assignee: Yangzhou Fama Intelligent Equipment Co ltd; Southeast University
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-09-24
Anticipated expiration: 2041-03-29
Also published as: CN113436443B

Abstract

本发明公开了一种利用改进的生成对抗网络(WGAN‑GP)加速强化学习(RL)算法并用于区域交通信号控制的方法，将生成对抗网络在生成数据方面的优势，以及强化学习算法在学习控制策略方面的优势运用到区域交通信号控制中，能有效的提高信号控制策略学习的速度和效果。本发明方法主要包括，给出多智能体强化学习在区域交通信号控制的控制框架，同时定义强化学习的各要素，即状态、动作、奖励，目标函数；定义生成对抗网络结构；提出生成对抗网络与强化学习的数据交互框架。

Description

一种基于生成对抗网络和强化学习的分布式交通信号控制方法

技术领域

本发明涉及交通管理与控制领域，具体涉及到一种基于生成对抗网络和强化学习的分布式交通信号控制方法。

背景技术

普遍认为，适应性交通信号控制方法是能够应对日益增长的交通需求，缓解道路交通拥堵的有效方法之一。与早期的适应性信号控制方法，例如SCOOT、SCATS以及OPAC 等相比，基于强化学习的交通信号控制方法能够通过与交通系统的交互学习信号控制方案，而不需要复杂的计算公式。

现已有研究尝试将演员评论家算法(A2C)应用于分布式交通信号控制。但仍旧存在几点问题：(1)在分布式信号控制中，智能体之间的交流不够，容易导致交叉口之间各自为营，区域联合控制效果不佳；(2)A2C作为在线策略的强化学习算法，需要通过与环境实时交互积累数据，然后用于模型训练，故存在数据利用效率低，模型训练效率低的缺点；(3)当希望已经训练好的A2C模型在实际应用中继续学习时，也因为数据积累效率低，导致不能及时根据交通状态更新模型参数。

发明内容

发明目的：针对以上现有技术存在的问题，本发明提出一种基于生成对抗网络和强化学习的分布式交通信号控制方法，旨在解决如何在分布式信号控制模式中加强各智能体的数据交流，提高区域信号联合控制效果；以及如何提高A2C的模型学习效率从而应对实时交通状态这两个问题。

技术方案：为实现上述发明目的，本发明提出的一种基于生成对抗网络和强化学习的分布式交通信号控制方法，包括以下步骤：

(1)定义区域交通信号多智能体强化学习控制框架，定义强化学习各要素，即状态(s)、动作(a)、奖励(r)。以单个交叉口作为独立智能体，通过收集本交叉口和相邻交叉口的信息，实行分布式训练-分布式控制的模式。

每个智能体在时刻t的环境状态s_t定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Q_t、进口道首车等候时间矩阵W_t。其中环境状态s_t如图5所示。

其中，m为交叉口数量，n为所有交叉口车道数的最大值；Q_t矩阵中的元素q_i，j表示交叉口i进口道j的排队长度，对于交叉口进口道数量不一致的情况，用0补全矩阵； W_t矩阵中的元素w_i，j表示交叉口i进口道j的首车等候时间，对于交叉口进口道数量不一致的情况，用0补全矩阵。

智能体动作a_t是t时刻从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如，对于一个各流向车流均有独立进口道的典型十字形交叉口，其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。

智能体的奖励r_t+1是对t时刻采取动作的效果的一种短时反馈，也是实现区域信号联动控制的间接参数。本发明考虑对交叉口的排队长度和车辆延误进行优化，定义奖励为目标交叉口和相邻交叉口排队和首车等候时间的带权重和。将相邻交叉口的排队信息和车辆等候信息纳入到目标交叉口的奖励中，能够实现区域交通的整体优化。定义交叉口i在t+1时刻的奖励

其中，I_i表示交叉口i的进口道集合；queue_l、wait_l分别为进口道l的车辆排队长度和首车等候时间；N_i表示交叉口i的相邻交叉口集合；β是权重系数。

(2)模型训练阶段，A2C强化学习模型通过与多个交通仿真器交互，多线程构建经验数据库

用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互，交互过程如下：智能体获取t时刻的环境状态s_t；agent 根据其当前策略(P_t)确定t时刻的信号控制相位a_t；在动作a_t的作用下，交通状态更新到s_t+1，并通过评估s_t+1，得到s_t状态下采取a_t的奖励r_t+1。将t时刻获得的数据以 <s_t，a_t，r_t+1，s_t+1>的形式存储到数据库中。智能体与环境逐步交互，构建各自的经验数据库

(3)训练基于策略的生成对抗模型(P-WGAN-GP)，用于生成交通数据“伪数据库”。P-WGAN-GP包括生成模型G和对抗模型D。

模型G生成伪数据的过程分为两步：首先以随机噪声向量为输入，生成伪状态

并根据当前策略P_t，即根据t时刻的actor模型得到伪动作

然后将

继续作为输入，产生伪数据

并根据

得到

通过输入不同的噪声向量，生成模型将产生批量的基于策略P_t的伪数据集。定义生成模型G的目标函数为：

其中，

表示由生成模型G输出的伪数据；I(X；Y)在信息论表示变量X和Y的互信息，用于衡量两个变量之间关系的强弱，δ是惩罚因子，使目标函数两部分在同一量级。

根据经验数据库中的真实数据库和生成模型产生的伪数据，对抗模型D将通过更新模型参数增强对真实数据和伪数据的评价能力。对抗模型(D)以伪状态对

和经验状态对<s_t，s_t+1>为输入，输出对于各状态对的评价值。定义对抗模型D的目标函数为：

其中，x～P_r表示从经验数据库中取样的数据；

为对抗模型的梯度惩罚，使梯度保持在1附近；

是通过在经验数据和伪数据的均匀插值得到的数据；λ为梯度因子，根据目标函数各部分量级取值。

P-WGAN-GP的训练方法如下：

(a)初始化：给定超参数的值，包括惩罚因子δ、梯度因子λ，学习速率α，Adam 优化器中的参数β₁和β₂；批量样本的大小m；给定n_critic(定义为G每迭代一次，D需要迭代n_critic次)；给模型G_θ和D_w的参数赋初值。

(b)保持生成模型G的参数不变，模型D的参数迭代n_critic次。

(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z，以及一组随机数字∈～U[0，1]

(b.2)利用生成模型产生伪数据

生成经验数据和伪数据的插值数据

(b.3)计算对抗模型的目标函数

(b.4)更新对抗模型的参数

(c)保持对抗模型D的参数不变，更新生成模型G的参数。

(c.1)生成大小为m的随机噪声z

(c.2)利用生成模型G生成伪数据

(c.3)计算生成模型的目标函数

(c.4)更新生成模型的参数

(d)重复步骤(b)、(c)，直至模型G和D收敛。生成一组随机噪声z′，输入P_t，利用生成模型G构建伪数据库

(4)以经验数据库

和伪数据库

中的数据为输入，对强化学习模型的参数进行更新。强化学习控制模型采用A2C算法，包括动作模型Actor和评价模型Critic。Critic模型是智能体对于交通状态的评估模型，以环境状态为输入，评估输入状态的长期价值。Actor模型以环境状态s_t为输入，依据模型参数输出信号控制方案a_t。

Critic模型的目标函数为：

其中B为训练数据集，|B|为数据集的大小；r_t为t时刻的奖励；V_μ(s_t)为Critic模型对状态s_t的评估值；γ为折扣因子。

Actor模型的目标函数为：

其中，P_σ(a_t|s_t)表示状态s_t下采取动作a_t的概率值。

基于数据库

和

A2C模型的训练步骤如下：

(a)初始化：给定超参数的值，包括折扣因子γ；学习速率α；给Actor、Critic模型的参数赋初值。

(b)对于数据集中的所有数据

(b.1)计算A_t＝r_t+γV_μ(s_t+1)-V_μ(s_t)

(b.2)计算Actor模型的累计梯度：

(b.3)计算Critic模型的累计梯度:

(c)更新Actor和Critic的模型参数：

重复步骤(2)-(4)，直至A2C模型参数收敛。

有益效果：与现有技术相比，本发明的优点是：1、首次提出利用生成对抗模型生成伪交叉口排队和首车等候时间数据；2、将生成对抗模型与强化学习模型结合，解决强化学习数据生成效率低的问题；3、设计了改进的生成对抗模型，使生成模型产生的伪数据是与强化学习中的策略相关的，是一种在线策略数据，有助于提升强化学习模型的学习能力。

附图说明

图1是本发明实施例的多智能体控制框架图。

图2是本发明实施例中的强化学习与环境交互示意图。

图3是本发明实施例中的P-WGAN-GP结构示意图。

图4是本发明实施例中的强化学习模型与生成对抗模型交互示意图。

图5为t时刻下的环境状态s_t矩阵，包括Q_t矩阵和W_t矩阵。

图6为以图1为例，构建的环境状态s_t+1矩阵。

具体实施方式

下面结合附图和具体实施例，对本发明做进一步说明。

本发明实施例公开的一种基于生成对抗网络和强化学习的分布式交通信号控制方法，适用于区域道路交通分布式信号控制。主要包括对道路交通环境进行建模从而定义智能体强化学习三要素(状态、动作和奖励)；智能体与仿真环境交互积累经验数据库

然后构建并训练基于策略的生成对抗模型(P-WGAN-GP)，从而生成伪数据库

最后构建强化学习A2C模型，提出生成对抗模型与强化学习的交互模式，并将经验数据库和伪数据库用于模型参数训练。具体地，本发明所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法，包括以下步骤：

(1)定义分布式交通信号控制中的每个交叉口为独立智能体，具体如图1所示，每个控制步智能体读取目标交叉口和邻近交叉口的状态信息，然后生成目标交叉口的信号控制方案。

每个智能体在时刻t获取本交叉口各进口道的排队长度以及首车等候时间，并与邻近交叉口交换排队信息和车辆等候时间，从而构建环境状态s_t，其中环境状态s_t如图5 所示。

其中，m为交叉口数量，n为所有交叉口车道数的最大值；Q_t矩阵中的元素q_i，j表示交叉口i进口道j的排队长度，对于交叉口进口道数量不一致的情况，用0补全矩阵； W_t矩阵中的元素w_i，j表示交叉口i进口道j的首车等候时间，对于交叉口进口道数量不一致的情况，用0补全矩阵。以图1所示交叉口为例，目标交叉口共有14条车道；有四个相邻交叉口，且南北相邻交叉口各16条车道，东西交叉口各12条车道。则 m＝5，n＝max{14，16，12}，故s_t的大小为5×16×2。

动作a_t是t时刻智能体从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如，对于一个各流向车流均有独立进口道的典型十字形交叉口，其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。

其中，I_i表示交叉口i的进口道集合；queue_l、wait_l分别为进口道l的车辆排队长度和首车等候时间；N_i表示交叉口i的相邻交叉口集合，β是权重系数。

以图1为例，构建的环境状态s_t+1如图6所示。

当取α＝0.1，β＝0.2时，有r_t+1＝147.68。

用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互，如图2所示。交互过程如下：智能体获取t时刻的环境状态s_t；智能体根据其当前策略(P_t)确定t时刻的信号控制相位a_t；在动作a_t的作用下，交通状态更新到s_t+1，并通过评估s_t+1，得到s_t状态下采取a_t的奖励r_t+1。将t时刻获得的数据以<s_t，a_t，r_t+1，s_t+1>的形式存储到数据库中。智能体与环境逐步交互，构建各自的经验数据库

并根据当前策略P_t得到伪动作

然后将

继续作为输入，产生伪数据

并根据

得到

模型G的结构如图3(a)所示。通过输入不同的噪声向量，生成模型将产生批量的基于策略P_t的伪数据集。定义生成模型G的目标函数为：

其中，

和经验状态对<s_t，s_t+1>为输入，输出对于各状态对的评价值，模型D的结构如图3(b)所示。定义对抗模型D的目标函数为：

其中，x～P_r表示从经验数据库中取样的数据；

为对抗模型的梯度惩罚，使梯度保持在1附近；

P-WGAN-GP的训练方法如下：

(b)保持生成模型G的参数不变，模型D的参数迭代n_critic次。

(b.2)利用生成模型产生伪数据

生成经验数据和伪数据的插值数据

(b.3)计算对抗模型的目标函数

(b.4)更新对抗模型的参数

(c)保持对抗模型D的参数不变，更新生成模型G的参数。

(c.1)生成大小为m的随机噪声z

(c.2)利用生成模型G生成伪数据

(c.3)计算生成模型的目标函数

(c.4)更新生成模型的参数

(4)以经验数据库

和伪数据库

中的数据为输入，对强化学习模型的参数进行更新。多智能体信号控制系统采用分布式训练-分布式控制方式，每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型，然后进行分布式控制。生成对抗模型与强化学习模型的交互模式如图4所示。强化学习控制模型采用A2C算法，包括动作模型Actor和评价模型Critic。Critic模型是智能体对于交通状态的评估模型，以环境状态为输入，评估输入状态的长期价值。Actor模型以环境状态s_t为输入，依据模型参数输出信号控制方案a_t。

Critic模型的目标函数为：

Actor模型的目标函数为：

其中，P_σ(a_t|s_t)表示状态s_t下采取动作a_t的概率值。

基于数据库

和

A2C模型的训练步骤如下：

(b)对于数据集中的所有数据

(b.1)计算A_t＝r_t+γV_μ(s_t+1)-V_μ(s_t)

(b.2)计算Actor模型的累计梯度：

(b.3)计算Critic模型的累计梯度:

(c)更新Actor和Critic的模型参数：

重复步骤(2)-(4)，直至A2C模型参数收敛。

Claims

1.一种基于生成对抗网络和强化学习的分布式交通信号控制方法，其特征在于，该方法包括以下步骤：

(1)设计多智能体强化学习(MARL)在区域交通信号控制的控制框架，同时定义强化学习的各要素，即状态、动作、奖励；

(2)应用基于强化学习的智能体与环境交互，并积累交互数据，每个时刻t,智能体(agent)与交通仿真环境交互，多线程累积数据，将数据以<s_t,a_t,r_t+1,s_t+1>的形式存储到经验数据库

中，其中，s_t、s_t+1分别为t、t+1时刻的环境状态，a_t为t时刻智能体输出的信号控制方案，r_t+1是t+1时刻智能体从交通环境得到的奖励，所述交通仿真环境为SUMO或VISSIM仿真平台；

(3)在生成对抗模型GAN的基础上，构建基于策略的生成对抗模型P-WGAN-GP，用于生成交通数据的伪数据库，模型训练中，生成模型(G)以策略P_t产生的动作

和随机噪声向量为输入，生成t时刻和t+1时刻的伪造状态

t+1时刻的伪造奖励

根据

计算得到，从而形成一条伪造数据

通过输入不同的噪声向量，生成模型将产生批量的基于策略P_t的伪数据集，将经验数据库中的真实数据和生成模型产生的伪数据输入到对抗模型D中，对抗模型通过更新模型参数增强对真实数据和伪数据的评估能力，而根据模型D对伪数据的评价,生成模型G也进一步更新模型参数以提高生成数据的真实度，当模型G的参数收敛后，重新输入批量噪声向量，生成伪数据存储在伪数据库

(4)以伪数据库

作为经验数据库

中数据的补充，用于强化学习模型的训练，对强化学习模型的参数进行更新，多智能体信号控制系统采用分布式训练-分布式控制方式，即每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型，然后进行分布式控制。

2.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法，其特征在于，所述步骤(1)中控制框架为：每个交叉口作为独立智能体收集数据并进行模型训练；各智能体之间进行状态信息的交互，优化交叉口的信号控制策略，从而间接实现区域交通的联合控制；

智能体之间的信息交互体现在对环境状态的定义上，每个智能体在时刻t的环境状态s_t定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Q_t、进口道首车等候时间矩阵W_t，其中，Q_t矩阵中的元素q_i，j表示交叉口i进口道j的排队长度，对于交叉口进口道数量不一致的情况，用0补全矩阵；W_t矩阵中的元素w_i，j表示交叉口i进口道j的首车等候时间，对于交叉口进口道数量不一致的情况，用0补全矩阵；

智能体动作a_t是t时刻从动作集合中选取的该交叉口的信号相位，动作集合定义为该交叉口所有不冲突的相位组合的集合，每次信号相位执行的时长固定为5s；

智能体的奖励r_t+1是对t时刻采取动作的效果的一种延迟反馈，定义为目标交叉口和相邻交叉口排队和首车等候时间的带权重和，交叉口i在t+1时刻的奖励

其中，I_i表示交叉口i的进口道集合，I_j表示交叉口j的进口道集合；queue_l、wait_l分别为进口道l的车辆排队长度和首车等候时间；N_i表示交叉口i的相邻交叉口集合；α、β为权重系数。

3.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法，其特征在于，所述步骤(2)中单个智能体采用了基于优势演员-评论家算法(A2C)的强化学习模型，模型在训练阶段，通过与多个交通仿真器交互，多线程构建经验数据库

用于后续生成对抗模型的参数训练，单个智能体与交通仿真环境交互的过程如下：

根据步骤(1)中的状态定义，智能体获取t时刻的环境状态s_t，将t时刻的演员模型Actor记为策略P_t，智能体将s_t输入演员模型，得到t时刻的信号控制相位a_t；在动作a_t的作用下，交通状态更新到s_t+1，并通过评估s_t+1得到s_t状态下采取a_t的奖励r_t+1，从而得到一条经验数据<s_t，a_t，r_t+1，s_t+1>，并将其存储到数据库中，每个智能体通过与环境反复进行交互，即可构建各自的经验数据库