CN113436443A - 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 - Google Patents
一种基于生成对抗网络和强化学习的分布式交通信号控制方法 Download PDFInfo
- Publication number
- CN113436443A CN113436443A CN202110331933.9A CN202110331933A CN113436443A CN 113436443 A CN113436443 A CN 113436443A CN 202110331933 A CN202110331933 A CN 202110331933A CN 113436443 A CN113436443 A CN 113436443A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- intersection
- reinforcement learning
- agent
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种利用改进的生成对抗网络(WGAN‑GP)加速强化学习(RL)算法并用于区域交通信号控制的方法,将生成对抗网络在生成数据方面的优势,以及强化学习算法在学习控制策略方面的优势运用到区域交通信号控制中,能有效的提高信号控制策略学习的速度和效果。本发明方法主要包括,给出多智能体强化学习在区域交通信号控制的控制框架,同时定义强化学习的各要素,即状态、动作、奖励,目标函数;定义生成对抗网络结构;提出生成对抗网络与强化学习的数据交互框架。
Description
技术领域
本发明涉及交通管理与控制领域,具体涉及到一种基于生成对抗网络和强化学习的分布式交通信号控制方法。
背景技术
普遍认为,适应性交通信号控制方法是能够应对日益增长的交通需求,缓解道路交通拥堵的有效方法之一。与早期的适应性信号控制方法,例如SCOOT、SCATS以及OPAC 等相比,基于强化学习的交通信号控制方法能够通过与交通系统的交互学习信号控制方案,而不需要复杂的计算公式。
现已有研究尝试将演员评论家算法(A2C)应用于分布式交通信号控制。但仍旧存在几点问题:(1)在分布式信号控制中,智能体之间的交流不够,容易导致交叉口之间各自为营,区域联合控制效果不佳;(2)A2C作为在线策略的强化学习算法,需要通过与环境实时交互积累数据,然后用于模型训练,故存在数据利用效率低,模型训练效率低的缺点;(3)当希望已经训练好的A2C模型在实际应用中继续学习时,也因为数据积累效率低,导致不能及时根据交通状态更新模型参数。
发明内容
发明目的:针对以上现有技术存在的问题,本发明提出一种基于生成对抗网络和强化学习的分布式交通信号控制方法,旨在解决如何在分布式信号控制模式中加强各智能体的数据交流,提高区域信号联合控制效果;以及如何提高A2C的模型学习效率从而应对实时交通状态这两个问题。
技术方案:为实现上述发明目的,本发明提出的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,包括以下步骤:
(1)定义区域交通信号多智能体强化学习控制框架,定义强化学习各要素,即状态(s)、动作(a)、奖励(r)。以单个交叉口作为独立智能体,通过收集本交叉口和相邻交叉口的信息,实行分布式训练-分布式控制的模式。
每个智能体在时刻t的环境状态st定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Qt、进口道首车等候时间矩阵Wt。其中环境状态st如图5所示。
其中,m为交叉口数量,n为所有交叉口车道数的最大值;Qt矩阵中的元素qi,j表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵; Wt矩阵中的元素wi,j表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵。
智能体动作at是t时刻从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如,对于一个各流向车流均有独立进口道的典型十字形交叉口,其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。
智能体的奖励rt+1是对t时刻采取动作的效果的一种短时反馈,也是实现区域信号联动控制的间接参数。本发明考虑对交叉口的排队长度和车辆延误进行优化,定义奖励为目标交叉口和相邻交叉口排队和首车等候时间的带权重和。将相邻交叉口的排队信息和车辆等候信息纳入到目标交叉口的奖励中,能够实现区域交通的整体优化。定义交叉口i在t+1时刻的奖励 其中,Ii表示交叉口i的进口道集合;queuel、waitl分别为进口道l的车辆排队长度和首车等候时间;Ni表示交叉口i的相邻交叉口集合;β是权重系数。
(2)模型训练阶段,A2C强化学习模型通过与多个交通仿真器交互,多线程构建经验数据库用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互,交互过程如下:智能体获取t时刻的环境状态st;agent 根据其当前策略(Pt)确定t时刻的信号控制相位at;在动作at的作用下,交通状态更新到st+1,并通过评估st+1,得到st状态下采取at的奖励rt+1。将t时刻获得的数据以 <st,at,rt+1,st+1>的形式存储到数据库中。智能体与环境逐步交互,构建各自的经验数据库
(3)训练基于策略的生成对抗模型(P-WGAN-GP),用于生成交通数据“伪数据库”。P-WGAN-GP包括生成模型G和对抗模型D。
模型G生成伪数据的过程分为两步:首先以随机噪声向量为输入,生成伪状态并根据当前策略Pt,即根据t时刻的actor模型得到伪动作然后将继续作为输入,产生伪数据并根据得到通过输入不同的噪声向量,生成模型将产生批量的基于策略Pt的伪数据集。定义生成模型G的目标函数为:
根据经验数据库中的真实数据库和生成模型产生的伪数据,对抗模型D将通过更新模型参数增强对真实数据和伪数据的评价能力。对抗模型(D)以伪状态对和经验状态对<st,st+1>为输入,输出对于各状态对的评价值。定义对抗模型D的目标函数为:
P-WGAN-GP的训练方法如下:
(a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam 优化器中的参数β1和β2;批量样本的大小m;给定n_critic(定义为G每迭代一次,D需要迭代n_critic次);给模型Gθ和Dw的参数赋初值。
(b)保持生成模型G的参数不变,模型D的参数迭代n_critic次。
(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一组随机数字∈~U[0,1]
(b.3)计算对抗模型的目标函数
(c)保持对抗模型D的参数不变,更新生成模型G的参数。
(c.1)生成大小为m的随机噪声z
(4)以经验数据库和伪数据库中的数据为输入,对强化学习模型的参数进行更新。强化学习控制模型采用A2C算法,包括动作模型Actor和评价模型Critic。Critic模型是智能体对于交通状态的评估模型,以环境状态为输入,评估输入状态的长期价值。Actor模型以环境状态st为输入,依据模型参数输出信号控制方案at。
Critic模型的目标函数为:
其中B为训练数据集,|B|为数据集的大小;rt为t时刻的奖励;Vμ(st)为Critic模型对状态st的评估值;γ为折扣因子。
Actor模型的目标函数为:
其中,Pσ(at|st)表示状态st下采取动作at的概率值。
(a)初始化:给定超参数的值,包括折扣因子γ;学习速率α;给Actor、Critic模型的参数赋初值。
(b.1)计算At=rt+γVμ(st+1)-Vμ(st)
重复步骤(2)-(4),直至A2C模型参数收敛。
有益效果:与现有技术相比,本发明的优点是:1、首次提出利用生成对抗模型生成伪交叉口排队和首车等候时间数据;2、将生成对抗模型与强化学习模型结合,解决强化学习数据生成效率低的问题;3、设计了改进的生成对抗模型,使生成模型产生的伪数据是与强化学习中的策略相关的,是一种在线策略数据,有助于提升强化学习模型的学习能力。
附图说明
图1是本发明实施例的多智能体控制框架图。
图2是本发明实施例中的强化学习与环境交互示意图。
图3是本发明实施例中的P-WGAN-GP结构示意图。
图4是本发明实施例中的强化学习模型与生成对抗模型交互示意图。
图5为t时刻下的环境状态st矩阵,包括Qt矩阵和Wt矩阵。
图6为以图1为例,构建的环境状态st+1矩阵。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步说明。
本发明实施例公开的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,适用于区域道路交通分布式信号控制。主要包括对道路交通环境进行建模从而定义智能体强化学习三要素(状态、动作和奖励);智能体与仿真环境交互积累经验数据库然后构建并训练基于策略的生成对抗模型(P-WGAN-GP),从而生成伪数据库最后构建强化学习A2C模型,提出生成对抗模型与强化学习的交互模式,并将经验数据库和伪数据库用于模型参数训练。具体地,本发明所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,包括以下步骤:
(1)定义分布式交通信号控制中的每个交叉口为独立智能体,具体如图1所示,每个控制步智能体读取目标交叉口和邻近交叉口的状态信息,然后生成目标交叉口的信号控制方案。
每个智能体在时刻t获取本交叉口各进口道的排队长度以及首车等候时间,并与邻近交叉口交换排队信息和车辆等候时间,从而构建环境状态st,其中环境状态st如图5 所示。
其中,m为交叉口数量,n为所有交叉口车道数的最大值;Qt矩阵中的元素qi,j表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵; Wt矩阵中的元素wi,j表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵。以图1所示交叉口为例,目标交叉口共有14条车道;有四个相邻交叉口,且南北相邻交叉口各16条车道,东西交叉口各12条车道。则 m=5,n=max{14,16,12},故st的大小为5×16×2。
动作at是t时刻智能体从动作集合中选取的该交叉口的信号相位。动作集合定义为该交叉口所有不冲突的相位组合的集合。例如,对于一个各流向车流均有独立进口道的典型十字形交叉口,其动作集合定义为{南北直行、南北左转、东西直行、东西左转、南直左、北直左、东直左、西直左}。每次信号相位执行的时长固定为5s。
智能体的奖励rt+1是对t时刻采取动作的效果的一种短时反馈,也是实现区域信号联动控制的间接参数。本发明考虑对交叉口的排队长度和车辆延误进行优化,定义奖励为目标交叉口和相邻交叉口排队和首车等候时间的带权重和。将相邻交叉口的排队信息和车辆等候信息纳入到目标交叉口的奖励中,能够实现区域交通的整体优化。定义交叉口i在t+1时刻的奖励 其中,Ii表示交叉口i的进口道集合;queuel、waitl分别为进口道l的车辆排队长度和首车等候时间;Ni表示交叉口i的相邻交叉口集合,β是权重系数。
以图1为例,构建的环境状态st+1如图6所示。
当取α=0.1,β=0.2时,有rt+1=147.68。
(2)模型训练阶段,A2C强化学习模型通过与多个交通仿真器交互,多线程构建经验数据库用于后续生成对抗模型的参数训练。每个智能体都采用改进后A2C 模型与道路交通仿真环境交互,如图2所示。交互过程如下:智能体获取t时刻的环境状态st;智能体根据其当前策略(Pt)确定t时刻的信号控制相位at;在动作at的作用下,交通状态更新到st+1,并通过评估st+1,得到st状态下采取at的奖励rt+1。将t时刻获得的数据以<st,at,rt+1,st+1>的形式存储到数据库中。智能体与环境逐步交互,构建各自的经验数据库
(3)训练基于策略的生成对抗模型(P-WGAN-GP),用于生成交通数据“伪数据库”。P-WGAN-GP包括生成模型G和对抗模型D。
模型G生成伪数据的过程分为两步:首先以随机噪声向量为输入,生成伪状态并根据当前策略Pt得到伪动作然后将继续作为输入,产生伪数据并根据得到模型G的结构如图3(a)所示。通过输入不同的噪声向量,生成模型将产生批量的基于策略Pt的伪数据集。定义生成模型G的目标函数为:
根据经验数据库中的真实数据库和生成模型产生的伪数据,对抗模型D将通过更新模型参数增强对真实数据和伪数据的评价能力。对抗模型(D)以伪状态对和经验状态对<st,st+1>为输入,输出对于各状态对的评价值,模型D的结构如图3(b)所示。定义对抗模型D的目标函数为:
P-WGAN-GP的训练方法如下:
(a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam 优化器中的参数β1和β2;批量样本的大小m;给定n_critic(定义为G每迭代一次,D需要迭代n_critic次);给模型Gθ和Dw的参数赋初值。
(b)保持生成模型G的参数不变,模型D的参数迭代n_critic次。
(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一组随机数字∈~U[0,1]
(b.3)计算对抗模型的目标函数
(c)保持对抗模型D的参数不变,更新生成模型G的参数。
(c.1)生成大小为m的随机噪声z
(4)以经验数据库和伪数据库中的数据为输入,对强化学习模型的参数进行更新。多智能体信号控制系统采用分布式训练-分布式控制方式,每个智能体在信息交互的前提下训练独立的信号控制模型和生成对抗模型,然后进行分布式控制。生成对抗模型与强化学习模型的交互模式如图4所示。强化学习控制模型采用A2C算法,包括动作模型Actor和评价模型Critic。Critic模型是智能体对于交通状态的评估模型,以环境状态为输入,评估输入状态的长期价值。Actor模型以环境状态st为输入,依据模型参数输出信号控制方案at。
Critic模型的目标函数为:
其中B为训练数据集,|B|为数据集的大小;rt为t时刻的奖励;Vμ(st)为Critic模型对状态st的评估值;γ为折扣因子。
Actor模型的目标函数为:
其中,Pσ(at|st)表示状态st下采取动作at的概率值。
(a)初始化:给定超参数的值,包括折扣因子γ;学习速率α;给Actor、Critic模型的参数赋初值。
(b.1)计算At=rt+γVμ(st+1)-Vμ(st)
重复步骤(2)-(4),直至A2C模型参数收敛。
Claims (5)
1.一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,该方法包括以下步骤:
(1)设计多智能体强化学习(MARL)在区域交通信号控制的控制框架,同时定义强化学习的各要素,即状态、动作、奖励;
(2)应用基于强化学习的智能体与环境交互,并积累交互数据,每个时刻t,智能体(agent)与交通仿真环境交互,多线程累积数据,将数据以<st,at,rt+1,st+1>的形式存储到经验数据库中,其中,st、st+1分别为t、t+1时刻的环境状态,at为t时刻智能体输出的信号控制方案,rt+1是t+1时刻智能体从交通环境得到的奖励,所述交通仿真环境为SUMO或VISSIM仿真平台;
(3)在生成对抗模型GAN的基础上,构建基于策略的生成对抗模型P-WGAN-GP,用于生成交通数据的伪数据库,模型训练中,生成模型(G)以策略Pt产生的动作和随机噪声向量为输入,生成t时刻和t+1时刻的伪造状态t+1时刻的伪造奖励根据计算得到,从而形成一条伪造数据通过输入不同的噪声向量,生成模型将产生批量的基于策略Pt的伪数据集,将经验数据库中的真实数据和生成模型产生的伪数据输入到对抗模型D中,对抗模型通过更新模型参数增强对真实数据和伪数据的评估能力,而根据模型D对伪数据的评价,生成模型G也进一步更新模型参数以提高生成数据的真实度,当模型G的参数收敛后,重新输入批量噪声向量,生成伪数据存储在伪数据库
2.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(1)中控制框架为:每个交叉口作为独立智能体收集数据并进行模型训练;各智能体之间进行状态信息的交互,优化交叉口的信号控制策略,从而间接实现区域交通的联合控制;
智能体之间的信息交互体现在对环境状态的定义上,每个智能体在时刻t的环境状态st定义为本交叉口和相邻交叉口各进口道排队长度构成的矩阵Qt、进口道首车等候时间矩阵Wt,其中,Qt矩阵中的元素qi,j表示交叉口i进口道j的排队长度,对于交叉口进口道数量不一致的情况,用0补全矩阵;Wt矩阵中的元素wi,j表示交叉口i进口道j的首车等候时间,对于交叉口进口道数量不一致的情况,用0补全矩阵;
智能体动作at是t时刻从动作集合中选取的该交叉口的信号相位,动作集合定义为该交叉口所有不冲突的相位组合的集合,每次信号相位执行的时长固定为5s;
3.根据权利要求1中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(2)中单个智能体采用了基于优势演员-评论家算法(A2C)的强化学习模型,模型在训练阶段,通过与多个交通仿真器交互,多线程构建经验数据库用于后续生成对抗模型的参数训练,单个智能体与交通仿真环境交互的过程如下:
4.根据权利要求3中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(3)中在生成对抗模型GAN的基础上所构建基于策略的生成对抗模型P-WGAN-GP,其中生成模型G以t时刻的策略Pt,即t时刻的演员模型Actor产生的动作和随机噪声向量z为输入,生成t时刻和t+1时刻的状态并根据得到从而形成一条伪数据对抗模型(D)以伪状态对和经验状态对<st,st+1>为输入,输出对于各状态对的评价值;
定义生成模型G的目标函数为:
其中,表示由生成模型G输出的伪数据,是模型D的输出;I(X;Y)在信息论表示变量X和Y的互信息,用于衡量两个变量之间关系;G(z,Pt)是模型G的输出,δ是惩罚因子,使目标函数中对抗模型的期望值和生成模型输入与输出的互信息在同一量级;
定义对抗模型D的目标函数为:
其中,x~Pr表示从经验数据库中取样的数据;为对抗模型的梯度惩罚,从而使梯度值和1的差值在预设范围内;是通过对经验数据和伪数据均匀插值得到的数据;是对抗模型输出对于的梯度,是对该梯度的求模;λ为梯度因子;
P-WGAN-GP的训练方法如下:
(a)初始化:给定超参数的值,包括惩罚因子δ、梯度因子λ,学习速率α,Adam优化器中的参数β1和β2;批量样本的大小m,给定n_critic,其定义为G每迭代一次,D需要迭代n_critic次;以θ和w分别表示生成模型G和对抗模型D的参数,给模型Gθ和Dw的参数赋初值;
(b)保持生成模型G的参数不变,模型D的参数迭代n_critic次;
(b.1)从经验数据库中取大小为m的经验样本x、生成大小为m的随机噪声z,以及一组随机数字∈~U[0,1];
(b.3)计算对抗模型的目标函数:
(c)保持对抗模型D的参数不变,更新生成模型G的参数;
(c.1)生成大小为m的随机噪声z;
5.根据权利要求4中所述的一种基于生成对抗网络和强化学习的分布式交通信号控制方法,其特征在于,所述步骤(4)中通过步骤(3)训练的生成模型产生伪数据库将伪数据和步骤(2)积累的经验数据混合作为强化学习模型的训练数据;
其中,强化学习控制模型采用A2C算法,包括Actor模型和Critic模型;
Critic模型的目标函数为:
其中,B为训练数据集,|B|为数据集的大小;rt为t时刻的奖励;Vμ(st)和Vμ(st+1)为Critic模型对状态st和st+1的评估值,μ代表critic模型的参数;γ为折扣因子;
Actor模型的目标函数为:
其中,Pσ(at|st)表示状态st下采取动作at的概率值,σ代表Actor模型的参数;
(a)初始化:给定超参数的值,包括折扣因子γ;学习速率α;给Actor、Critic模型的参数赋初值;
(b.1)计算At=rt+γVμ(st+1)-Vμ(st)
重复步骤(2)-(4),直至A2C模型参数收敛。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110331933.9A CN113436443B (zh) | 2021-03-29 | 2021-03-29 | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110331933.9A CN113436443B (zh) | 2021-03-29 | 2021-03-29 | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113436443A true CN113436443A (zh) | 2021-09-24 |
CN113436443B CN113436443B (zh) | 2022-08-26 |
Family
ID=77752922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110331933.9A Active CN113436443B (zh) | 2021-03-29 | 2021-03-29 | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113436443B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114973698A (zh) * | 2022-05-10 | 2022-08-30 | 阿波罗智联(北京)科技有限公司 | 控制信息的生成方法和机器学习模型的训练方法、装置 |
CN115171390A (zh) * | 2022-07-27 | 2022-10-11 | 北京英泰智科技股份有限公司 | 一种交通信号机自适应控制方法、交通信号机及控制系统 |
CN115762199A (zh) * | 2022-09-20 | 2023-03-07 | 东南大学 | 一种基于深度强化学习和逆强化学习的交通灯控制方法 |
CN116070783A (zh) * | 2023-03-07 | 2023-05-05 | 北京航空航天大学 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
CN116137103A (zh) * | 2023-02-20 | 2023-05-19 | 东南大学 | 基于图元学习和深度强化学习的大规模交通灯信号控制方法 |
WO2023097661A1 (zh) * | 2021-12-03 | 2023-06-08 | 中国科学院深圳先进技术研究院 | 基于生成对抗网络的大数据系统资源配置参数调优方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047278A (zh) * | 2019-03-30 | 2019-07-23 | 北京交通大学 | 一种基于深度强化学习的自适应交通信号控制系统及方法 |
CN111785045A (zh) * | 2020-06-17 | 2020-10-16 | 南京理工大学 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
CN111915894A (zh) * | 2020-08-06 | 2020-11-10 | 北京航空航天大学 | 基于深度强化学习的可变车道及交通信号协同控制方法 |
CN112216129A (zh) * | 2020-10-13 | 2021-01-12 | 大连海事大学 | 一种基于多智能体强化学习的自适应交通信号控制方法 |
CN112216124A (zh) * | 2020-09-17 | 2021-01-12 | 浙江工业大学 | 一种基于深度强化学习的交通信号控制方法 |
-
2021
- 2021-03-29 CN CN202110331933.9A patent/CN113436443B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047278A (zh) * | 2019-03-30 | 2019-07-23 | 北京交通大学 | 一种基于深度强化学习的自适应交通信号控制系统及方法 |
CN111785045A (zh) * | 2020-06-17 | 2020-10-16 | 南京理工大学 | 基于演员-评论家算法的分布式交通信号灯联合控制方法 |
CN111915894A (zh) * | 2020-08-06 | 2020-11-10 | 北京航空航天大学 | 基于深度强化学习的可变车道及交通信号协同控制方法 |
CN112216124A (zh) * | 2020-09-17 | 2021-01-12 | 浙江工业大学 | 一种基于深度强化学习的交通信号控制方法 |
CN112216129A (zh) * | 2020-10-13 | 2021-01-12 | 大连海事大学 | 一种基于多智能体强化学习的自适应交通信号控制方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023097661A1 (zh) * | 2021-12-03 | 2023-06-08 | 中国科学院深圳先进技术研究院 | 基于生成对抗网络的大数据系统资源配置参数调优方法 |
CN114973698A (zh) * | 2022-05-10 | 2022-08-30 | 阿波罗智联(北京)科技有限公司 | 控制信息的生成方法和机器学习模型的训练方法、装置 |
CN114973698B (zh) * | 2022-05-10 | 2024-04-16 | 阿波罗智联(北京)科技有限公司 | 控制信息的生成方法和机器学习模型的训练方法、装置 |
CN115171390A (zh) * | 2022-07-27 | 2022-10-11 | 北京英泰智科技股份有限公司 | 一种交通信号机自适应控制方法、交通信号机及控制系统 |
CN115762199A (zh) * | 2022-09-20 | 2023-03-07 | 东南大学 | 一种基于深度强化学习和逆强化学习的交通灯控制方法 |
CN115762199B (zh) * | 2022-09-20 | 2023-09-29 | 东南大学 | 一种基于深度强化学习和逆强化学习的交通灯控制方法 |
CN116137103A (zh) * | 2023-02-20 | 2023-05-19 | 东南大学 | 基于图元学习和深度强化学习的大规模交通灯信号控制方法 |
CN116137103B (zh) * | 2023-02-20 | 2023-12-08 | 东南大学 | 基于图元学习和深度强化学习的大规模交通灯信号控制方法 |
CN116070783A (zh) * | 2023-03-07 | 2023-05-05 | 北京航空航天大学 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
CN116070783B (zh) * | 2023-03-07 | 2023-05-30 | 北京航空航天大学 | 一种混动传动系统在通勤路段下的学习型能量管理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113436443B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113436443B (zh) | 一种基于生成对抗网络和强化学习的分布式交通信号控制方法 | |
CN109492814B (zh) | 一种城市交通流量预测方法、系统及电子设备 | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN110032782B (zh) | 一种城市级智能交通信号控制系统及方法 | |
CN110794842A (zh) | 基于势场的强化学习路径规划算法 | |
CN112669629B (zh) | 一种基于深度强化学习的实时交通信号控制方法及装置 | |
CN112201069B (zh) | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 | |
Gelenbe et al. | Simulation with learning agents | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN109272157A (zh) | 一种基于门控神经网络的高速公路交通流参数预测方法及系统 | |
CN112071062B (zh) | 一种基于图卷积网络和图注意力网络的行车时间估计方法 | |
CN112216129B (zh) | 一种基于多智能体强化学习的自适应交通信号控制方法 | |
CN114170789B (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
CN113780624B (zh) | 一种基于博弈均衡理论的城市路网信号协调控制方法 | |
CN111625989B (zh) | 一种基于a3c-sru的智能车汇入车流方法及系统 | |
CN113487902B (zh) | 一种基于车辆规划路径的强化学习区域信号控制方法 | |
CN112907970A (zh) | 一种基于车辆排队长度变化率的可变车道转向控制方法 | |
Ha-li et al. | An intersection signal control method based on deep reinforcement learning | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN115762128B (zh) | 一种基于自注意力机制的深度强化学习交通信号控制方法 | |
CN115273502B (zh) | 一种交通信号协同控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |