CN113436443A - 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 - Google Patents

一种基于生成对抗网络和强化学习的分布式交通信号控制方法 Download PDF

Info

Publication number
CN113436443A
CN113436443A CN202110331933.9A CN202110331933A CN113436443A CN 113436443 A CN113436443 A CN 113436443A CN 202110331933 A CN202110331933 A CN 202110331933A CN 113436443 A CN113436443 A CN 113436443A
Authority
CN
China
Prior art keywords
model
data
intersection
reinforcement learning
agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110331933.9A
Other languages
English (en)
Other versions
CN113436443B (zh
Inventor
王昊
卢云雪
董长印
杨朝友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangzhou Fama Intelligent Equipment Co ltd
Southeast University
Original Assignee
Yangzhou Fama Intelligent Equipment Co ltd
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangzhou Fama Intelligent Equipment Co ltd, Southeast University filed Critical Yangzhou Fama Intelligent Equipment Co ltd
Priority to CN202110331933.9A priority Critical patent/CN113436443B/zh
Publication of CN113436443A publication Critical patent/CN113436443A/zh
Application granted granted Critical
Publication of CN113436443B publication Critical patent/CN113436443B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种利用改进的生成对抗网络(WGAN‑GP)加速强化学习(RL)算法并用于区域交通信号控制的方法,将生成对抗网络在生成数据方面的优势,以及强化学习算法在学习控制策略方面的优势运用到区域交通信号控制中,能有效的提高信号控制策略学习的速度和效果。本发明方法主要包括,给出多智能体强化学习在区域交通信号控制的控制框架,同时定义强化学习的各要素,即状态、动作、奖励,目标函数;定义生成对抗网络结构;提出生成对抗网络与强化学习的数据交互框架。

Description

一种基于生成对抗网络和强化学习的分布式交通信号控制 方法
技术领域
本发明涉及交通管理与控制领域,具体涉及到一种基于生成对抗网络和强化学习的分布式交通信号控制方法。
背景技术
普遍认为,适应性交通信号控制方法是能够应对日益增长的交通需求,缓解道路交通拥堵的有效方法之一。与早期的适应性信号控制方法,例如SCOOT、SCATS以及OPAC 等相比,基于强化学习的交通信号控制方法能够通过与交通系统的交互学习信号控制方案,而不需要复杂的计算公式。
现已有研究尝试将演员评论家算法(A2C)应用于分布式交通信号控制。但仍旧存在几点问题:(1)在分布式信号控制中,智能体之间的交流不够,容易导致交叉口之间各自为营,区域联合控制效果不佳;(2)A2C作为在线策略的强化学习算法,需要通过与环境实时交互积累数据,然后用于模型训练,故存在数据利用效率低,模型训练效率低的缺点;(3)当希望已经训练好的A2C模型在实际应用中继续学习时,也因为数据积累效率低,导致不能及时根据交通状态更新模型参数。
发明内容
发明目的:针对以上现有技术存在的问题,本发明提出一种基于生成对抗网络和强化学习的分布式交通信号控制方法,旨在解决如何在分布式信号控制模式中加强各智能体的数据交流,提高区域信号联合控制效果;以及如何提高A2C的模型学习效率从而应对实时交通状态这两个问题。
技术方案:为实现上述发明目的,本发明提出的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,包括以下步骤:
(1)定义区域交通信号多智能体强化学习控制框架,定义强化学习各要素,即状态(s)、动作(a)、奖励(r)。以单个交叉口作为独立智能体,通过收集本交叉口和相邻交叉口的信息,实行分布式训练-分布式控制的模式。
每个智能体在时刻t的环境状态st定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Qt、进口道首车等候时间矩阵Wt。其中环境状态st如图5所示。
其中,m为交叉口数量,n为所有交叉口车道数的最大值;Qt矩阵中的元素qi,j表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵; Wt矩阵中的元素wi,j表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵。
智能体动作at是t时刻从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如,对于一个各流向车流均有独立进口道的典型十字形交叉口,其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。
智能体的奖励rt+1是对t时刻采取动作的效果的一种短时反馈,也是实现区域信号联动控制的间接参数。本发明考虑对交叉口的排队长度和车辆延误进行优化,定义奖励为目标交叉口和相邻交叉口排队和首车等候时间的带权重和。将相邻交叉口的排队信息和车辆等候信息纳入到目标交叉口的奖励中,能够实现区域交通的整体优化。定义交叉口i在t+1时刻的奖励
Figure RE-GDA0003197633780000021
Figure RE-GDA0003197633780000022
其中,Ii表示交叉口i的进口道集合;queuel、waitl分别为进口道l的车辆排队长度和首车等候时间;Ni表示交叉口i的相邻交叉口集合;β是权重系数。
(2)模型训练阶段,A2C强化学习模型通过与多个交通仿真器交互,多线程构建经验数据库
Figure RE-GDA0003197633780000023
用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互,交互过程如下:智能体获取t时刻的环境状态st;agent 根据其当前策略(Pt)确定t时刻的信号控制相位at;在动作at的作用下,交通状态更新到st+1,并通过评估st+1,得到st状态下采取at的奖励rt+1。将t时刻获得的数据以 <st,at,rt+1,st+1>的形式存储到数据库中。智能体与环境逐步交互,构建各自的经验数据库
Figure RE-GDA0003197633780000024
(3)训练基于策略的生成对抗模型(P-WGAN-GP),用于生成交通数据“伪数据库”。P-WGAN-GP包括生成模型G和对抗模型D。
模型G生成伪数据的过程分为两步:首先以随机噪声向量为输入,生成伪状态
Figure RE-GDA0003197633780000025
并根据当前策略Pt,即根据t时刻的actor模型得到伪动作
Figure RE-GDA0003197633780000026
然后将
Figure RE-GDA0003197633780000027
继续作为输入,产生伪数据
Figure RE-GDA0003197633780000028
并根据
Figure RE-GDA0003197633780000029
得到
Figure RE-GDA00031976337800000210
通过输入不同的噪声向量,生成模型将产生批量的基于策略Pt的伪数据集。定义生成模型G的目标函数为:
Figure RE-GDA0003197633780000031
其中,
Figure RE-GDA0003197633780000032
表示由生成模型G输出的伪数据;I(X;Y)在信息论表示变量X和Y的互信息,用于衡量两个变量之间关系的强弱,δ是惩罚因子,使目标函数两部分在同一量级。
根据经验数据库中的真实数据库和生成模型产生的伪数据,对抗模型D将通过更新模型参数增强对真实数据和伪数据的评价能力。对抗模型(D)以伪状态对
Figure RE-GDA0003197633780000033
和经验状态对<st,st+1>为输入,输出对于各状态对的评价值。定义对抗模型D的目标函数为:
Figure RE-GDA0003197633780000034
其中,x~Pr表示从经验数据库中取样的数据;
Figure RE-GDA0003197633780000035
为对抗模型的梯度惩罚,使梯度保持在1附近;
Figure RE-GDA0003197633780000036
是通过在经验数据和伪数据的均匀插值得到的数据;λ为梯度因子,根据目标函数各部分量级取值。
P-WGAN-GP的训练方法如下:
(a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam 优化器中的参数β1和β2;批量样本的大小m;给定n_critic(定义为G每迭代一次,D需要迭代n_critic次);给模型Gθ和Dw的参数赋初值。
(b)保持生成模型G的参数不变,模型D的参数迭代n_critic次。
(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一组随机数字∈~U[0,1]
(b.2)利用生成模型产生伪数据
Figure RE-GDA0003197633780000037
生成经验数据和伪数据的插值数据
Figure RE-GDA0003197633780000038
(b.3)计算对抗模型的目标函数
Figure RE-GDA0003197633780000039
(b.4)更新对抗模型的参数
Figure RE-GDA00031976337800000310
(c)保持对抗模型D的参数不变,更新生成模型G的参数。
(c.1)生成大小为m的随机噪声z
(c.2)利用生成模型G生成伪数据
Figure RE-GDA00031976337800000311
(c.3)计算生成模型的目标函数
Figure RE-GDA00031976337800000312
(c.4)更新生成模型的参数
Figure RE-GDA0003197633780000041
(d)重复步骤(b)、(c),直至模型G和D收敛。生成一组随机噪声z′,输入Pt,利用生成模型G构建伪数据库
Figure RE-GDA0003197633780000042
(4)以经验数据库
Figure RE-GDA0003197633780000043
和伪数据库
Figure RE-GDA0003197633780000044
中的数据为输入,对强化学习模型的参数进行更新。强化学习控制模型采用A2C算法,包括动作模型Actor和评价模型Critic。Critic模型是智能体对于交通状态的评估模型,以环境状态为输入,评估输入状态的长期价值。Actor模型以环境状态st为输入,依据模型参数输出信号控制方案at
Critic模型的目标函数为:
Figure RE-GDA0003197633780000045
其中B为训练数据集,|B|为数据集的大小;rt为t时刻的奖励;Vμ(st)为Critic模型对状态st的评估值;γ为折扣因子。
Actor模型的目标函数为:
Figure RE-GDA0003197633780000046
其中,Pσ(at|st)表示状态st下采取动作at的概率值。
基于数据库
Figure RE-GDA0003197633780000047
Figure RE-GDA0003197633780000048
A2C模型的训练步骤如下:
(a)初始化:给定超参数的值,包括折扣因子γ;学习速率α;给Actor、Critic模型的参数赋初值。
(b)对于数据集中的所有数据
Figure RE-GDA0003197633780000049
(b.1)计算At=rt+γVμ(st+1)-Vμ(st)
(b.2)计算Actor模型的累计梯度:
Figure RE-GDA00031976337800000410
(b.3)计算Critic模型的累计梯度:
Figure RE-GDA00031976337800000411
(c)更新Actor和Critic的模型参数:
Figure RE-GDA00031976337800000412
重复步骤(2)-(4),直至A2C模型参数收敛。
有益效果:与现有技术相比,本发明的优点是:1、首次提出利用生成对抗模型生成伪交叉口排队和首车等候时间数据;2、将生成对抗模型与强化学习模型结合,解决强化学习数据生成效率低的问题;3、设计了改进的生成对抗模型,使生成模型产生的伪数据是与强化学习中的策略相关的,是一种在线策略数据,有助于提升强化学习模型的学习能力。
附图说明
图1是本发明实施例的多智能体控制框架图。
图2是本发明实施例中的强化学习与环境交互示意图。
图3是本发明实施例中的P-WGAN-GP结构示意图。
图4是本发明实施例中的强化学习模型与生成对抗模型交互示意图。
图5为t时刻下的环境状态st矩阵,包括Qt矩阵和Wt矩阵。
图6为以图1为例,构建的环境状态st+1矩阵。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步说明。
本发明实施例公开的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,适用于区域道路交通分布式信号控制。主要包括对道路交通环境进行建模从而定义智能体强化学习三要素(状态、动作和奖励);智能体与仿真环境交互积累经验数据库
Figure RE-GDA0003197633780000053
然后构建并训练基于策略的生成对抗模型(P-WGAN-GP),从而生成伪数据库
Figure RE-GDA0003197633780000054
最后构建强化学习A2C模型,提出生成对抗模型与强化学习的交互模式,并将经验数据库和伪数据库用于模型参数训练。具体地,本发明所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,包括以下步骤:
(1)定义分布式交通信号控制中的每个交叉口为独立智能体,具体如图1所示,每个控制步智能体读取目标交叉口和邻近交叉口的状态信息,然后生成目标交叉口的信号控制方案。
每个智能体在时刻t获取本交叉口各进口道的排队长度以及首车等候时间,并与邻近交叉口交换排队信息和车辆等候时间,从而构建环境状态st,其中环境状态st如图5 所示。
其中,m为交叉口数量,n为所有交叉口车道数的最大值;Qt矩阵中的元素qi,j表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵; Wt矩阵中的元素wi,j表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵。以图1所示交叉口为例,目标交叉口共有14条车道;有四个相邻交叉口,且南北相邻交叉口各16条车道,东西交叉口各12条车道。则 m=5,n=max{14,16,12},故st的大小为5×16×2。
动作at是t时刻智能体从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如,对于一个各流向车流均有独立进口道的典型十字形交叉口,其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。
智能体的奖励rt+1是对t时刻采取动作的效果的一种短时反馈,也是实现区域信号联动控制的间接参数。本发明考虑对交叉口的排队长度和车辆延误进行优化,定义奖励为目标交叉口和相邻交叉口排队和首车等候时间的带权重和。将相邻交叉口的排队信息和车辆等候信息纳入到目标交叉口的奖励中,能够实现区域交通的整体优化。定义交叉口i在t+1时刻的奖励
Figure RE-GDA0003197633780000061
Figure RE-GDA0003197633780000062
其中,Ii表示交叉口i的进口道集合;queuel、waitl分别为进口道l的车辆排队长度和首车等候时间;Ni表示交叉口i的相邻交叉口集合,β是权重系数。
以图1为例,构建的环境状态st+1如图6所示。
当取α=0.1,β=0.2时,有rt+1=147.68。
(2)模型训练阶段,A2C强化学习模型通过与多个交通仿真器交互,多线程构建经验数据库
Figure RE-GDA0003197633780000063
用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互,如图2所示。交互过程如下:智能体获取t时刻的环境状态st;智能体根据其当前策略(Pt)确定t时刻的信号控制相位at;在动作at的作用下,交通状态更新到st+1,并通过评估st+1,得到st状态下采取at的奖励rt+1。将t时刻获得的数据以<st,at,rt+1,st+1>的形式存储到数据库中。智能体与环境逐步交互,构建各自的经验数据库
Figure RE-GDA0003197633780000064
(3)训练基于策略的生成对抗模型(P-WGAN-GP),用于生成交通数据“伪数据库”。P-WGAN-GP包括生成模型G和对抗模型D。
模型G生成伪数据的过程分为两步:首先以随机噪声向量为输入,生成伪状态
Figure RE-GDA0003197633780000065
并根据当前策略Pt得到伪动作
Figure RE-GDA0003197633780000066
然后将
Figure RE-GDA0003197633780000067
继续作为输入,产生伪数据
Figure RE-GDA0003197633780000068
并根据
Figure RE-GDA0003197633780000069
得到
Figure RE-GDA00031976337800000610
模型G的结构如图3(a)所示。通过输入不同的噪声向量,生成模型将产生批量的基于策略Pt的伪数据集。定义生成模型G的目标函数为:
Figure RE-GDA0003197633780000071
其中,
Figure RE-GDA0003197633780000072
表示由生成模型G输出的伪数据;I(X;Y)在信息论表示变量X和Y的互信息,用于衡量两个变量之间关系的强弱,δ是惩罚因子,使目标函数两部分在同一量级。
根据经验数据库中的真实数据库和生成模型产生的伪数据,对抗模型D将通过更新模型参数增强对真实数据和伪数据的评价能力。对抗模型(D)以伪状态对
Figure RE-GDA0003197633780000073
和经验状态对<st,st+1>为输入,输出对于各状态对的评价值,模型D的结构如图3(b)所示。定义对抗模型D的目标函数为:
Figure RE-GDA0003197633780000074
其中,x~Pr表示从经验数据库中取样的数据;
Figure RE-GDA0003197633780000075
为对抗模型的梯度惩罚,使梯度保持在1附近;
Figure RE-GDA0003197633780000076
是通过在经验数据和伪数据的均匀插值得到的数据;λ为梯度因子,根据目标函数各部分量级取值。
P-WGAN-GP的训练方法如下:
(a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam 优化器中的参数β1和β2;批量样本的大小m;给定n_critic(定义为G每迭代一次,D需要迭代n_critic次);给模型Gθ和Dw的参数赋初值。
(b)保持生成模型G的参数不变,模型D的参数迭代n_critic次。
(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一组随机数字∈~U[0,1]
(b.2)利用生成模型产生伪数据
Figure RE-GDA0003197633780000077
生成经验数据和伪数据的插值数据
Figure RE-GDA0003197633780000078
(b.3)计算对抗模型的目标函数
Figure RE-GDA0003197633780000079
(b.4)更新对抗模型的参数
Figure RE-GDA00031976337800000710
(c)保持对抗模型D的参数不变,更新生成模型G的参数。
(c.1)生成大小为m的随机噪声z
(c.2)利用生成模型G生成伪数据
Figure RE-GDA00031976337800000711
(c.3)计算生成模型的目标函数
Figure RE-GDA00031976337800000712
(c.4)更新生成模型的参数
Figure RE-GDA0003197633780000081
(d)重复步骤(b)、(c),直至模型G和D收敛。生成一组随机噪声z′,输入Pt,利用生成模型G构建伪数据库
Figure RE-GDA0003197633780000082
(4)以经验数据库
Figure RE-GDA0003197633780000083
和伪数据库
Figure RE-GDA0003197633780000084
中的数据为输入,对强化学习模型的参数进行更新。多智能体信号控制系统采用分布式训练-分布式控制方式,每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型,然后进行分布式控制。生成对抗模型与强化学习模型的交互模式如图4所示。强化学习控制模型采用A2C算法,包括动作模型Actor和评价模型Critic。Critic模型是智能体对于交通状态的评估模型,以环境状态为输入,评估输入状态的长期价值。Actor模型以环境状态st为输入,依据模型参数输出信号控制方案at
Critic模型的目标函数为:
Figure RE-GDA0003197633780000085
其中B为训练数据集,|B|为数据集的大小;rt为t时刻的奖励;Vμ(st)为Critic模型对状态st的评估值;γ为折扣因子。
Actor模型的目标函数为:
Figure RE-GDA0003197633780000086
其中,Pσ(at|st)表示状态st下采取动作at的概率值。
基于数据库
Figure RE-GDA0003197633780000087
Figure RE-GDA0003197633780000088
A2C模型的训练步骤如下:
(a)初始化:给定超参数的值,包括折扣因子γ;学习速率α;给Actor、Critic模型的参数赋初值。
(b)对于数据集中的所有数据
Figure RE-GDA0003197633780000089
(b.1)计算At=rt+γVμ(st+1)-Vμ(st)
(b.2)计算Actor模型的累计梯度:
Figure RE-GDA00031976337800000810
(b.3)计算Critic模型的累计梯度:
Figure RE-GDA00031976337800000811
(c)更新Actor和Critic的模型参数:
Figure RE-GDA00031976337800000812
重复步骤(2)-(4),直至A2C模型参数收敛。

Claims (5)

1.一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,该方法包括以下步骤:
(1)设计多智能体强化学习(MARL)在区域交通信号控制的控制框架,同时定义强化学习的各要素,即状态、动作、奖励;
(2)应用基于强化学习的智能体与环境交互,并积累交互数据,每个时刻t,智能体(agent)与交通仿真环境交互,多线程累积数据,将数据以<st,at,rt+1,st+1>的形式存储到经验数据库
Figure FDA0002996144370000019
中,其中,st、st+1分别为t、t+1时刻的环境状态,at为t时刻智能体输出的信号控制方案,rt+1是t+1时刻智能体从交通环境得到的奖励,所述交通仿真环境为SUMO或VISSIM仿真平台;
(3)在生成对抗模型GAN的基础上,构建基于策略的生成对抗模型P-WGAN-GP,用于生成交通数据的伪数据库,模型训练中,生成模型(G)以策略Pt产生的动作
Figure FDA0002996144370000011
和随机噪声向量为输入,生成t时刻和t+1时刻的伪造状态
Figure FDA0002996144370000012
t+1时刻的伪造奖励
Figure FDA0002996144370000013
根据
Figure FDA0002996144370000014
计算得到,从而形成一条伪造数据
Figure FDA0002996144370000015
通过输入不同的噪声向量,生成模型将产生批量的基于策略Pt的伪数据集,将经验数据库中的真实数据和生成模型产生的伪数据输入到对抗模型D中,对抗模型通过更新模型参数增强对真实数据和伪数据的评估能力,而根据模型D对伪数据的评价,生成模型G也进一步更新模型参数以提高生成数据的真实度,当模型G的参数收敛后,重新输入批量噪声向量,生成伪数据存储在伪数据库
Figure FDA0002996144370000016
(4)以伪数据库
Figure FDA0002996144370000017
作为经验数据库
Figure FDA0002996144370000018
中数据的补充,用于强化学习模型的训练,对强化学习模型的参数进行更新,多智能体信号控制系统采用分布式训练-分布式控制方式,即每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型,然后进行分布式控制。
2.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(1)中控制框架为:每个交叉口作为独立智能体收集数据并进行模型训练;各智能体之间进行状态信息的交互,优化交叉口的信号控制策略,从而间接实现区域交通的联合控制;
智能体之间的信息交互体现在对环境状态的定义上,每个智能体在时刻t的环境状态st定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Qt、进口道首车等候时间矩阵Wt,其中,Qt矩阵中的元素qi,j表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵;Wt矩阵中的元素wi,j表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵;
智能体动作at是t时刻从动作集合中选取的该交叉口的信号相位,动作集合定义为该交叉口所有不冲突的相位组合的集合,每次信号相位执行的时长固定为5s;
智能体的奖励rt+1是对t时刻采取动作的效果的一种延迟反馈,定义为目标交叉口和相邻交叉口排队和首车等候时间的带权重和,交叉口i在t+1时刻的奖励
Figure FDA0002996144370000021
Figure FDA0002996144370000022
其中,Ii表示交叉口i的进口道集合,Ij表示交叉口j的进口道集合;queuel、waitl分别为进口道l的车辆排队长度和首车等候时间;Ni表示交叉口i的相邻交叉口集合;α、β为权重系数。
3.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(2)中单个智能体采用了基于优势演员-评论家算法(A2C)的强化学习模型,模型在训练阶段,通过与多个交通仿真器交互,多线程构建经验数据库
Figure FDA00029961443700000210
用于后续生成对抗模型的参数训练,单个智能体与交通仿真环境交互的过程如下:
根据步骤(1)中的状态定义,智能体获取t时刻的环境状态st,将t时刻的演员模型Actor记为策略Pt,智能体将st输入演员模型,得到t时刻的信号控制相位at;在动作at的作用下,交通状态更新到st+1,并通过评估st+1得到st状态下采取at的奖励rt+1,从而得到一条经验数据<st,at,rt+1,st+1>,并将其存储到数据库中,每个智能体通过与环境反复进行交互,即可构建各自的经验数据库
Figure FDA0002996144370000023
4.根据权利要求3中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(3)中在生成对抗模型GAN的基础上所构建基于策略的生成对抗模型P-WGAN-GP,其中生成模型G以t时刻的策略Pt,即t时刻的演员模型Actor产生的动作
Figure FDA0002996144370000024
和随机噪声向量z为输入,生成t时刻和t+1时刻的状态
Figure FDA0002996144370000025
并根据
Figure FDA0002996144370000026
得到
Figure FDA0002996144370000027
从而形成一条伪数据
Figure FDA0002996144370000028
对抗模型(D)以伪状态对
Figure FDA0002996144370000029
和经验状态对<st,st+1>为输入,输出对于各状态对的评价值;
定义生成模型G的目标函数为:
Figure FDA0002996144370000031
其中,
Figure FDA0002996144370000032
表示由生成模型G输出的伪数据,
Figure FDA0002996144370000033
是模型D的输出;I(X;Y)在信息论表示变量X和Y的互信息,用于衡量两个变量之间关系;G(z,Pt)是模型G的输出,δ是惩罚因子,使目标函数中对抗模型的期望值和生成模型输入与输出的互信息在同一量级;
定义对抗模型D的目标函数为:
Figure FDA0002996144370000034
其中,x~Pr表示从经验数据库中取样的数据;
Figure FDA0002996144370000035
为对抗模型的梯度惩罚,从而使梯度值和1的差值在预设范围内;
Figure FDA0002996144370000036
是通过对经验数据和伪数据均匀插值得到的数据;
Figure FDA0002996144370000037
是对抗模型输出
Figure FDA0002996144370000038
对于
Figure FDA00029961443700000315
的梯度,
Figure FDA0002996144370000039
是对该梯度的求模;λ为梯度因子;
P-WGAN-GP的训练方法如下:
(a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam优化器中的参数β1和β2;批量样本的大小m,给定n_critic,其定义为G每迭代一次,D需要迭代n_critic次;以θ和w分别表示生成模型G和对抗模型D的参数,给模型Gθ和Dw的参数赋初值;
(b)保持生成模型G的参数不变,模型D的参数迭代n_critic次;
(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一组随机数字∈~U[0,1];
(b.2)利用生成模型产生伪造数据
Figure FDA00029961443700000316
生成经验数据和伪数据的插值数据
Figure FDA00029961443700000310
(b.3)计算对抗模型的目标函数:
Figure FDA00029961443700000311
(b.4)更新对抗模型的参数
Figure FDA00029961443700000312
其中,
Figure FDA00029961443700000313
是目标函数对模型参数w的梯度;
(c)保持对抗模型D的参数不变,更新生成模型G的参数;
(c.1)生成大小为m的随机噪声z;
(c.2)利用生成模型G生成伪数据
Figure FDA00029961443700000314
(c.3)计算生成模型的目标函数
Figure FDA0002996144370000041
(c.4)计算生成模型目标函数对参数的梯度
Figure FDA0002996144370000042
(c.4)更新生成模型的参数
Figure FDA0002996144370000043
(d)重复步骤(b)、(c),直至模型G和D收敛,然后再生成一组随机噪声z′,同时根据Pt,即t时刻的演员模型,生成对应的伪动作
Figure FDA0002996144370000044
将z′和
Figure FDA00029961443700000418
输入训练好的生成模型G,以模型G的输出作为伪数据库
Figure FDA0002996144370000045
5.根据权利要求4中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(4)中通过步骤(3)训练的生成模型产生伪数据库
Figure FDA0002996144370000046
将伪数据和步骤(2)积累的经验数据
Figure FDA0002996144370000047
混合作为强化学习模型的训练数据;
其中,强化学习控制模型采用A2C算法,包括Actor模型和Critic模型;
Critic模型的目标函数为:
Figure FDA0002996144370000048
其中,B为训练数据集,|B|为数据集的大小;rt为t时刻的奖励;Vμ(st)和Vμ(st+1)为Critic模型对状态st和st+1的评估值,μ代表critic模型的参数;γ为折扣因子;
Actor模型的目标函数为:
Figure FDA0002996144370000049
其中,Pσ(at|st)表示状态st下采取动作at的概率值,σ代表Actor模型的参数;
基于数据库
Figure FDA00029961443700000410
Figure FDA00029961443700000411
A2C模型的训练步骤如下:
(a)初始化:给定超参数的值,包括折扣因子γ;学习速率α;给Actor、Critic模型的参数赋初值;
(b)对于数据集中的所有数据
Figure FDA00029961443700000412
(b.1)计算At=rt+γVμ(st+1)-Vμ(st)
(b.2)计算Actor模型的累计梯度:
Figure FDA00029961443700000413
Figure FDA00029961443700000414
表示模型参数σ的偏函数,
Figure FDA00029961443700000415
表示Pσ(at|st)的对数值对参数σ的梯度;
(b.3)计算Critic模型的累计梯度:
Figure FDA00029961443700000416
Figure FDA00029961443700000417
表示模型参数μ的偏函数,
Figure FDA0002996144370000051
表示(At)2的对参数μ的梯度;
(c)更新Actor和Critic的模型参数:
Figure FDA0002996144370000052
重复步骤(2)-(4),直至A2C模型参数收敛。
CN202110331933.9A 2021-03-29 2021-03-29 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 Active CN113436443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110331933.9A CN113436443B (zh) 2021-03-29 2021-03-29 一种基于生成对抗网络和强化学习的分布式交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110331933.9A CN113436443B (zh) 2021-03-29 2021-03-29 一种基于生成对抗网络和强化学习的分布式交通信号控制方法

Publications (2)

Publication Number Publication Date
CN113436443A true CN113436443A (zh) 2021-09-24
CN113436443B CN113436443B (zh) 2022-08-26

Family

ID=77752922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110331933.9A Active CN113436443B (zh) 2021-03-29 2021-03-29 一种基于生成对抗网络和强化学习的分布式交通信号控制方法

Country Status (1)

Country Link
CN (1) CN113436443B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973698A (zh) * 2022-05-10 2022-08-30 阿波罗智联(北京)科技有限公司 控制信息的生成方法和机器学习模型的训练方法、装置
CN115171390A (zh) * 2022-07-27 2022-10-11 北京英泰智科技股份有限公司 一种交通信号机自适应控制方法、交通信号机及控制系统
CN115762199A (zh) * 2022-09-20 2023-03-07 东南大学 一种基于深度强化学习和逆强化学习的交通灯控制方法
CN116070783A (zh) * 2023-03-07 2023-05-05 北京航空航天大学 一种混动传动系统在通勤路段下的学习型能量管理方法
CN116137103A (zh) * 2023-02-20 2023-05-19 东南大学 基于图元学习和深度强化学习的大规模交通灯信号控制方法
WO2023097661A1 (zh) * 2021-12-03 2023-06-08 中国科学院深圳先进技术研究院 基于生成对抗网络的大数据系统资源配置参数调优方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047278A (zh) * 2019-03-30 2019-07-23 北京交通大学 一种基于深度强化学习的自适应交通信号控制系统及方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN111915894A (zh) * 2020-08-06 2020-11-10 北京航空航天大学 基于深度强化学习的可变车道及交通信号协同控制方法
CN112216129A (zh) * 2020-10-13 2021-01-12 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047278A (zh) * 2019-03-30 2019-07-23 北京交通大学 一种基于深度强化学习的自适应交通信号控制系统及方法
CN111785045A (zh) * 2020-06-17 2020-10-16 南京理工大学 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN111915894A (zh) * 2020-08-06 2020-11-10 北京航空航天大学 基于深度强化学习的可变车道及交通信号协同控制方法
CN112216124A (zh) * 2020-09-17 2021-01-12 浙江工业大学 一种基于深度强化学习的交通信号控制方法
CN112216129A (zh) * 2020-10-13 2021-01-12 大连海事大学 一种基于多智能体强化学习的自适应交通信号控制方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023097661A1 (zh) * 2021-12-03 2023-06-08 中国科学院深圳先进技术研究院 基于生成对抗网络的大数据系统资源配置参数调优方法
CN114973698A (zh) * 2022-05-10 2022-08-30 阿波罗智联(北京)科技有限公司 控制信息的生成方法和机器学习模型的训练方法、装置
CN114973698B (zh) * 2022-05-10 2024-04-16 阿波罗智联(北京)科技有限公司 控制信息的生成方法和机器学习模型的训练方法、装置
CN115171390A (zh) * 2022-07-27 2022-10-11 北京英泰智科技股份有限公司 一种交通信号机自适应控制方法、交通信号机及控制系统
CN115762199A (zh) * 2022-09-20 2023-03-07 东南大学 一种基于深度强化学习和逆强化学习的交通灯控制方法
CN115762199B (zh) * 2022-09-20 2023-09-29 东南大学 一种基于深度强化学习和逆强化学习的交通灯控制方法
CN116137103A (zh) * 2023-02-20 2023-05-19 东南大学 基于图元学习和深度强化学习的大规模交通灯信号控制方法
CN116137103B (zh) * 2023-02-20 2023-12-08 东南大学 基于图元学习和深度强化学习的大规模交通灯信号控制方法
CN116070783A (zh) * 2023-03-07 2023-05-05 北京航空航天大学 一种混动传动系统在通勤路段下的学习型能量管理方法
CN116070783B (zh) * 2023-03-07 2023-05-30 北京航空航天大学 一种混动传动系统在通勤路段下的学习型能量管理方法

Also Published As

Publication number Publication date
CN113436443B (zh) 2022-08-26

Similar Documents

Publication Publication Date Title
CN113436443B (zh) 一种基于生成对抗网络和强化学习的分布式交通信号控制方法
CN109492814B (zh) 一种城市交通流量预测方法、系统及电子设备
CN112216124B (zh) 一种基于深度强化学习的交通信号控制方法
CN110032782B (zh) 一种城市级智能交通信号控制系统及方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN112669629B (zh) 一种基于深度强化学习的实时交通信号控制方法及装置
CN112201069B (zh) 基于深度强化学习的驾驶员纵向跟车行为模型构建方法
Gelenbe et al. Simulation with learning agents
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN109272157A (zh) 一种基于门控神经网络的高速公路交通流参数预测方法及系统
CN112071062B (zh) 一种基于图卷积网络和图注意力网络的行车时间估计方法
CN112216129B (zh) 一种基于多智能体强化学习的自适应交通信号控制方法
CN114170789B (zh) 基于时空图神经网络的智能网联车换道决策建模方法
CN113780624B (zh) 一种基于博弈均衡理论的城市路网信号协调控制方法
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN113487902B (zh) 一种基于车辆规划路径的强化学习区域信号控制方法
CN112907970A (zh) 一种基于车辆排队长度变化率的可变车道转向控制方法
Ha-li et al. An intersection signal control method based on deep reinforcement learning
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN114973650A (zh) 车辆匝道入口合流控制方法、车辆、电子设备及存储介质
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115273502B (zh) 一种交通信号协同控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant