CN115083174A - 一种基于合作式多智能体强化学习的交通信号灯控制方法 - Google Patents

一种基于合作式多智能体强化学习的交通信号灯控制方法 Download PDF

Info

Publication number
CN115083174A
CN115083174A CN202210638529.0A CN202210638529A CN115083174A CN 115083174 A CN115083174 A CN 115083174A CN 202210638529 A CN202210638529 A CN 202210638529A CN 115083174 A CN115083174 A CN 115083174A
Authority
CN
China
Prior art keywords
agent
global
signal lamp
traffic
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210638529.0A
Other languages
English (en)
Inventor
任付越
赵晓东
张帆
董伟
赵晓丹
孔亚广
邹洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210638529.0A priority Critical patent/CN115083174A/zh
Publication of CN115083174A publication Critical patent/CN115083174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles

Abstract

本发明公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。

Description

一种基于合作式多智能体强化学习的交通信号灯控制方法
技术领域
本发明涉及智能交通信号控制技术领域,尤其涉及一种基于合作式多智能体强化学习的交通信号灯控制方法。
背景技术
我国机动车移动污染源保有量大、增速快,极易造成交通拥堵,并引发严重的空气污染、噪声污染等环境问题。相比于新建、扩建道路等改善交通状况的方法,利用路口交通信号灯对路网交通状况进行调度优化具有更强的经济性、实用性,这也符合我国提出的数字城市和智慧城市的发展理念,强化学习是解决交通信号灯控制问题的代表性方法。
传统交通信号灯,无论交叉路口各个方向车辆数目如何变化,信号时间间隔都是不变的,这就很容易导致交通堵塞,增加车辆排放。为了改善路口的交通状况,人们将强化学习应用到交通信号灯控制任务中,与传统交通信号灯控制方法相比取得了更好的控制效果。然而很多基于强化学习的控制算法都单独的控制各个路口的交通信号灯,没有明确的考虑相邻路口之间的相互作用,即一个路口信号灯变化如何影响附近路口的交通状况。
随着经济的发展和社会的进步,道路运输对环境造成了严重的影响,引起了人们的广泛关注。交通规划师和交通工程师在解决交通问题或优化交通系统时,不再只关注拥堵,如何减少车辆排放问题也得到重视。车辆的运行模式与车辆排放密切相关,如车辆加速、减速、怠速和走走停停等情况都会增加车辆排放。而在交通网络中,路口的交通情况最为复杂,车辆在路口反复分流、合并、交叉。交通情况复杂,使得路口成为制约城市道路交通功能的瓶颈,该区域车辆排放明显高于其他区域。因此,通过合理的交通信号灯调控可以有效减少车辆排放。
综上所述,需要设计一种基于合作式多智能强化学习的交通信号灯方法,从而在改善路网交通状态的同时尽可能的减少车辆排放。
发明内容
本发明针对上述问题及技术需求,提出了一种基于合作式多智能体强化学习的交通信号灯控制方法。本发明通过减少因红灯产生的车辆等待情况,从而最小化路口车辆的等待时间和排放,进而达到在改善交通拥堵的同时尽可能的减少通过交叉口的车辆排放的目的。
本发明的包括以下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
搭建的道路交叉口中,分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向直行。为了保证安全,防止直接切换相位引发交通事故,在上述四个相位切换之间设计一个黄信号灯进行过渡。
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中,表示当前信号灯相位的矩阵P表示信号灯的当前状态;每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况;每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。
(b)动作空间Action设计
交通信号灯的相位选择称为信号灯控制Agent的动作,我们设计了四种动作分别为:(1)南北方向直行(SN-G);(2)南北方向左转(SNL-G);(3)东西方向直行(EW-G);(4)东西方向左转(EWL-G)。
(c)奖励函数Reward设计
每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此,定义的奖励函数分为以下两类:车辆等待时间部分奖励函数和车辆排放部分奖励函数。
定义时间步t时刻的奖励函数:
R=kRE+(1-k)RW
其中,k为权重系数,RE表示车辆排放部分奖励函数,RW表示车辆等待时间部分奖励函数。
步骤三:构建合作式多智能体强化学习模型。
在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络,邻近价值网络,全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作。其中,个体价值网络和邻近价值网络组成局部合作机制,来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制,以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制的配合来确定目标智能体的动作。
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent会在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得所述局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子,通过对全局目标进行梯度运算来实现这个双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态;
本发明的有益效果:
本发明使得路网中的交通信号灯相互合作,根据实时交通信息动态的调节交通信号灯的相位,在缓解交通拥堵的同时尽可能的减少通过交叉口的车辆排放。
本发明不依赖历史交通数据,不依赖先前交通信号灯控制模型,无需人工干预的情况下,信号灯控制Agent通过与环境进行实时交互,感知并作用于环境。信号灯控制Agent根据交叉口的实时交通状况指定信号灯控制策略,通过减少因红灯产生的车辆等待情况,从而最小化路口车辆的等待时间和排放,达到缓解交通拥堵和减少车辆排放的目的,实现自适应交通信号灯控制。
附图说明
图1是本发明方法的流程示意图;
图2是本发明信号灯控制Agent的动作示意图;
图3是本发明相邻路口的示意图;
图4是本发明合作式多智能体强化学习模型示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本发明公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。
如图1所示,本发明包括如下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
由于交通信号灯只对驶入车道的车辆具有控制作用,因此只关注驶入车道的信息,驶出车道的车辆不对当前路口的信号控制产生影响。驶入车道中,分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向左转。
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中,用当前信号灯相位的矩阵P表示信号灯的当前状态;每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况;每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。
Figure BDA0003681472930000041
Figure BDA0003681472930000042
Figure BDA0003681472930000043
Figure BDA0003681472930000044
在车道等待车辆的队列长度矩阵Q中,
Figure BDA0003681472930000045
表示时间步t车道i中等待通过交叉口的车辆的排队长度,i∈[1,…,N]表示路网中的N条车道。其中,
Figure BDA0003681472930000046
表示时间步t车道i中等待的车辆数量,lv为车辆的长度和车辆间最小间距之和,Li表示车道i的长度。在车道的车辆密度矩阵D中,
Figure BDA0003681472930000047
表示时间步t车道i的车辆密度情况。其中,
Figure BDA0003681472930000048
表示时间步t进入车道i的车辆数量。
为了描述交叉口的实时排放情况,本发明在智能体的观察状态中引入车道污染物浓度矩阵,采用基于车辆加速度的排放估算模型HBEFA。在观测状态中只考虑了车辆的CO2排放情况。因为,在车辆排放中CO2的排放占比为97.2%。在车道排放浓度矩阵E中,
Figure BDA0003681472930000049
表示时间步t车道i的排放浓度情况。其中,
Figure BDA00036814729300000410
表示车辆j在时间步t的GO2排放量。
Figure BDA00036814729300000411
Figure BDA00036814729300000412
因此单个交叉口在时间步t的状态空间为st=[P,Q,D,E]。
(b)动作空间Action设计
根据交通规则,无论是红灯还是绿灯,车辆都可以右转。同时,为了使智能体像经验丰富的交通警察一样对复杂的交通情况进行灵活的调控。如图2所示,设计了四种动作分别为:(a)南北方向直行(SN-G)、(b)南北方向左转(SNL-G)、(c)东西方向直行(EW-G)、(d)东西方向左转(EWL-G)。智能体在每个时间步的开始会选择一个动作at,执行后得到一个新的状态st+1。为了确保一个动作到下一个动作的安全转换,在两个动作切换间设置了黄色信号灯保证车辆安全通过交叉口。
(c)奖励函数Reward设计
在本发明中,每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此,定义的奖励函数分为以下两类:车辆等待时间部分奖励函数和车辆排放部分奖励函数。
在车辆等待时间部分奖励函数为因红灯产生的排队等候时间。当司机在排队等候时,随着等候时间的增加,司机的不耐烦程度指数上升。因此,为保证公平性,避免少数车辆等候时间过长。将车辆的等待时间分为三类,即不等待、等待时间少于六个时间步长和等待时间大于六个时间步长。车辆等待时间部分的奖励函数RW定义如下:
Figure BDA0003681472930000051
Figure BDA0003681472930000052
Figure BDA0003681472930000053
其中,vmin=0.1m/s当车辆速度小于vmin时认为车辆停止;rj,t为车辆j在时间步t的奖励;Nt为交叉口的车辆数量;Wj,t表示车辆j在时间步t的累积等待时间。
由于车辆排放中CO2的排放占比为97.2%,在奖励设计时只考虑了车辆的CO2排放情况。为了描述信号灯控制Agent采取的动作对车辆排放的改善情况,使用执行动作前后车辆的排放差作为奖励函数的一部分。车辆排放部分奖励函数RE定义如下:
Figure BDA0003681472930000061
Figure BDA0003681472930000062
其中,ecar,t表示时间步t内车辆car的CO2的排放量;n为该交叉口的车辆数量;et表示t阶段所有车辆的综合排放情况。
通过综合考虑上述指标,并根据车辆排放和等待时间这两个指标对模型优化效果的影响,给出相应的权重进行加权求和。同时,为了避免出现“小奖励被大奖励”压倒的现象,对车辆延误和等待时间这两个奖励值归一化处理。整体的奖励函数设置如下:
R=kRE+(1-k)RW (12)
其中,k为权重系数,k∈[0,1],RE表示车辆排放部分d奖励函数,RW表示车辆等待时间部分奖励函数。
步骤三:构建合作式多智能体强化学习模型。
在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络,邻近价值网络,全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作。路网中的邻近路口关系如图3所示,图中深色圆圈表示目标智能体,浅色圆圈表示其邻近智能体。
本发明提出的合作式多智能体强化学习模型如图4所示。个体价值网络和邻近价值网络组成局部合作机制,来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制,以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。
所述个体价值网络为每个智能体根据自己的局部观测将自己奖励最大化。因此,智能体i的个体的价值函数
Figure BDA0003681472930000063
和相应的优势函数
Figure BDA0003681472930000064
分别为:
Figure BDA0003681472930000065
Figure BDA0003681472930000066
其中,st表示智能体在时间步t时刻的状态,γt表示时间步t时刻的折扣率,ri,t表示智能体i在时间步t时刻的奖励,ai,t表示智能体i在在时间步t时刻执行的动作,
Figure BDA0003681472930000067
表示进行求期望运算。
使用策略梯度方法计算单个智能体i目标的梯度
Figure BDA0003681472930000071
为:
Figure BDA0003681472930000072
并使用Clip重要性采样因子
Figure BDA0003681472930000073
来缓解更新后的分布变化,其中πi,old为生成样本的策略;πi,new是由θi参数化的最新策略,其中,θi表示智能体i的个体价值网络的神经网络参数。因此单个智能体的学习目标目标函数
Figure BDA0003681472930000074
(即单个智能体的学习目标)为:
Figure BDA0003681472930000075
其中,∈是一个超参数。通过对单个智能体的目标进行关于策略参数的随机梯度上升来提高预期的个体回报。为了通过各信号灯之间的协调合作来改善整个路网的交通状况,加入了邻近价值网络和全局价值网络来。
在基于合作式多智能体强化学习的信号灯控制方法中,使用集中式训练分散式执行框架,每个智能体都可以独立做出决策,都可以相互竞争或合作,最终达到全局最优。集中式训练是指通过全局信息进行决策计算,然后每个智能体根据全局决策信息和自身状态分布式执行。在集中训练期间,首先通过局部合作提出单个智能体的学习目标,这是由于每个智能体主要受其邻近智能体的影响。通过混合奖励来协调智能体的协同目标,通过优化局部合作过程,从而实现全局合作,最终达到全局最优。
在局部合作机制中,为了描述智能体对相邻智能体的关注程度,提出了局部合作因子(LCF),φ∈[0°,90°]。定义智能体i在时间步t的邻近奖励
Figure BDA0003681472930000076
和合作奖励
Figure BDA0003681472930000077
如下:
Figure BDA0003681472930000078
Figure BDA0003681472930000079
其中,
Figure BDA00036814729300000710
为智能体i的邻近智能体集合。
为了将局部合作因子加入训练过程来提高系统性能,使用邻近价值函数
Figure BDA00036814729300000711
来近似邻近奖励的折扣之和及其相应的优势函数
Figure BDA00036814729300000712
如下。
Figure BDA00036814729300000713
Figure BDA00036814729300000714
因此,合作优势函数
Figure BDA00036814729300000715
可以表述如下:
Figure BDA0003681472930000081
Figure BDA0003681472930000082
Figure BDA0003681472930000083
因此,可以得到一个考虑邻近智能体的协同目标
Figure BDA0003681472930000084
如下所示:
Figure BDA0003681472930000085
在全局合作机制中,引入全局合作来自动寻找最优的局部合作因子使得系统性能最佳。通过对全局目标进行梯度运算来实现这个双层协调。全局目标定义如下:
Figure BDA0003681472930000086
其中,ε表示所有智能体的集合。
上式在计算单个策略参数的策略梯度时不能直接优化。为此,引入个体全局目标这一概念,使得全局优化变的可行。将系统级别的优化过程转化为智能体级别的优化过程,从而可以轻松访问单个智能体的数据。将全局目标JG1,...)分解为个体全局目标
Figure BDA0003681472930000087
这样最大化每个智能体的目标就等效于最大化全局目标。个体全局目标定义如下:
Figure BDA0003681472930000088
为了通过优化邻近协调因子来提升全局目标,需要对公式(26)求关于Φ求梯度。其中,
Figure BDA0003681472930000089
Figure BDA00036814729300000810
分别表示公式(21)优化前后的策略参数,应用链式法则对其求解如下:
Figure BDA00036814729300000811
公式(27)的第一部分类似于策略梯度其中目标被
Figure BDA00036814729300000812
所替换。因此第一部分可以转化为:
Figure BDA00036814729300000813
公式(28)中,使用一个额外的全局价值方程VG来估计全局奖励值rG,然后计算全局优势函数AG,其中样本(s,a)是由策略
Figure BDA00036814729300000814
产生。
公式(27)的第二部分可以通过泰勒一阶展开进行求解。
Figure BDA0003681472930000091
结合公式(28)和公式(29),可得到局部合作因子的目标如下:
Figure BDA0003681472930000092
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent会在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得所述局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子,通过对全局目标进行梯度运算来实现这个双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态;
所述个体价值网络,为单个信号灯控制Agent根据从环境中获取的观察信息,个体价值网络不与其他信号灯控制Agent进行通信,只最大化当前信号灯控制Agent所获取的奖励;
所述邻近价值网络,目的是协调目标信号灯控制Agent和其邻近信号灯控制Agent的关注程度;如果我们简单地最大化每个信号灯的奖励,信号灯控制Agent会变得以自我为中心,可能会做一些对其他路口不利的决策,导致路网交通出现严重拥堵;相反,如果将各信号灯控制Agent的奖励总和作为共同目标,可能会使某些智能体做出牺牲自己来提高整体奖励的不合理行为;
所述全局价值网络,目的是自动寻找最优的局部合作因子使得系统性能最佳;所述全局目标为环境中所有信号灯控制Agent的奖励总和;通过自动寻找局部合作因子使得全局目标最大化。

Claims (5)

1.一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于该方法包括以下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态;
(b)动作空间Action设计
设计四种动作分别为:南北方向直行、南北方向左转、东西方向直行、东西方向左转;
(c)奖励函数Reward设计
时间步t时刻的奖励函数:
R=kRE+(1-k)RW
其中,k为权重系数,RE表示车辆排放部分奖励函数,RW表示车辆等待时间部分奖励函数;
步骤三:构建合作式多智能体强化学习模型;
所述合作式多智能体强化学习模型包括个体价值网络,邻近价值网络,全局价值网络和策略网络;该模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作;
所述合作式多智能体强化学习模型采用了局部合作机制和全局合作机制,其中局部合作机制利用局部合作因子来权衡个体奖励和邻近奖励,全局合作机制通过梯度更新协调因子来最大化全局目标;
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;
将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子;
通过对全局目标进行梯度运算来实现双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态。
2.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:步骤一中所述路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
其中搭建的道路交叉口中,分为左转、直行和右转车道;
其中交通信号灯的控制分信号分别为:南北方向直行、南北方向左转、东西方向直行、东西方向直行,在上述四个相位切换之间设计一个黄信号灯进行过渡。
3.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:步骤二中所述车辆排放部分奖励函数使用执行动作前后车辆的排放差。
4.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:所述的策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。
5.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:所述的合作式多智能体强化学习模型使用集中式训练分散式执行框架,所述集中式训练是通过全局信息进行决策计算,然后每个智能体根据全局决策信息和自身状态分布式执行;在集中训练期间首先通过局部合作提出单个智能体的学习目标,然后通过混合奖励来协调智能体的邻近目标,通过优化局部合作过程,从而实现全局合作。
CN202210638529.0A 2022-06-07 2022-06-07 一种基于合作式多智能体强化学习的交通信号灯控制方法 Pending CN115083174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210638529.0A CN115083174A (zh) 2022-06-07 2022-06-07 一种基于合作式多智能体强化学习的交通信号灯控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210638529.0A CN115083174A (zh) 2022-06-07 2022-06-07 一种基于合作式多智能体强化学习的交通信号灯控制方法

Publications (1)

Publication Number Publication Date
CN115083174A true CN115083174A (zh) 2022-09-20

Family

ID=83252069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210638529.0A Pending CN115083174A (zh) 2022-06-07 2022-06-07 一种基于合作式多智能体强化学习的交通信号灯控制方法

Country Status (1)

Country Link
CN (1) CN115083174A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113643553A (zh) * 2021-07-09 2021-11-12 华东师范大学 基于联邦强化学习的多路口智能交通信号灯控制方法及系统
US20220076571A1 (en) * 2019-10-28 2022-03-10 Laon People Inc. Signal control apparatus and signal control method based on reinforcement learning
CN114360266A (zh) * 2021-12-20 2022-04-15 东南大学 一种网联车探测状态感知的交叉口强化学习信号控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220076571A1 (en) * 2019-10-28 2022-03-10 Laon People Inc. Signal control apparatus and signal control method based on reinforcement learning
CN112700664A (zh) * 2020-12-19 2021-04-23 北京工业大学 一种基于深度强化学习的交通信号配时优化方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113643553A (zh) * 2021-07-09 2021-11-12 华东师范大学 基于联邦强化学习的多路口智能交通信号灯控制方法及系统
CN114360266A (zh) * 2021-12-20 2022-04-15 东南大学 一种网联车探测状态感知的交叉口强化学习信号控制方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN116597672B (zh) * 2023-06-14 2024-02-13 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法

Similar Documents

Publication Publication Date Title
Yao et al. Reducing gasoline consumption in mixed connected automated vehicles environment: A joint optimization framework for traffic signals and vehicle trajectory
CN111445692B (zh) 一种无信号灯路口智能网联汽车的速度协同优化方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN108877256B (zh) 基于无线通信的交叉口附近分散协同自适应巡航控制方法
CN111439260B (zh) 面向个性化需求的网联商用柴油车巡航行驶优化控制系统
CN109927709A (zh) 一种车辆行驶路线工况确定方法、能量管理方法及系统
CN108564234A (zh) 一种智能网联汽车的交叉口无信号自组织通行控制方法
Lin et al. Traffic signal optimization based on fuzzy control and differential evolution algorithm
Ye et al. Development and evaluation of a vehicle platoon guidance strategy at signalized intersections considering fuel savings
Lu et al. A speed control method at successive signalized intersections under connected vehicles environment
Kong et al. Urban arterial traffic two-direction green wave intelligent coordination control technique and its application
Zhou et al. A quantitative analysis of model predictive control as energy management strategy for hybrid electric vehicles: A review
CN114495499B (zh) 一种多目标智能网联车辆协同优化控制方法
Hou et al. Online vehicle velocity prediction using an adaptive radial basis function neural network
CN112767715B (zh) 一种交叉路口交通信号灯与智能网联汽车的协同控制方法
CN115083174A (zh) 一种基于合作式多智能体强化学习的交通信号灯控制方法
Hu et al. Lane-level navigation based eco-approach
CN114973733A (zh) 一种信号交叉口处混合流下网联自动车轨迹优化控制方法
CN113506442B (zh) 一种基于预期收益估计的城市路网交通信号灯控制方法
Zhai et al. Ecological driving for connected and automated vehicles at unsaturated intersections considering queue effects
Zhang et al. Coordinated control of distributed traffic signal based on multiagent cooperative game
CN115571108A (zh) 一种节油控制方法
Du et al. Impacts of vehicle-to-infrastructure communication on traffic flows with mixed connected vehicles and human-driven vehicles
Wang et al. Study of vehicle-road cooperative green wave traffic strategy for traffic signal intersections
Li et al. Eco-driving---current strategies and issues, a preliminary survey

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination