CN115083174A - 一种基于合作式多智能体强化学习的交通信号灯控制方法 - Google Patents
一种基于合作式多智能体强化学习的交通信号灯控制方法 Download PDFInfo
- Publication number
- CN115083174A CN115083174A CN202210638529.0A CN202210638529A CN115083174A CN 115083174 A CN115083174 A CN 115083174A CN 202210638529 A CN202210638529 A CN 202210638529A CN 115083174 A CN115083174 A CN 115083174A
- Authority
- CN
- China
- Prior art keywords
- agent
- global
- signal lamp
- traffic
- reinforcement learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000011217 control strategy Methods 0.000 claims abstract description 6
- 230000009471 action Effects 0.000 claims description 38
- 230000006870 function Effects 0.000 claims description 28
- 238000013461 design Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 75
- 239000011159 matrix material Substances 0.000 description 12
- 238000005457 optimization Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007599 discharging Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 241001622623 Coeliadinae Species 0.000 description 1
- 206010049976 Impatience Diseases 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
Abstract
本发明公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。
Description
技术领域
本发明涉及智能交通信号控制技术领域,尤其涉及一种基于合作式多智能体强化学习的交通信号灯控制方法。
背景技术
我国机动车移动污染源保有量大、增速快,极易造成交通拥堵,并引发严重的空气污染、噪声污染等环境问题。相比于新建、扩建道路等改善交通状况的方法,利用路口交通信号灯对路网交通状况进行调度优化具有更强的经济性、实用性,这也符合我国提出的数字城市和智慧城市的发展理念,强化学习是解决交通信号灯控制问题的代表性方法。
传统交通信号灯,无论交叉路口各个方向车辆数目如何变化,信号时间间隔都是不变的,这就很容易导致交通堵塞,增加车辆排放。为了改善路口的交通状况,人们将强化学习应用到交通信号灯控制任务中,与传统交通信号灯控制方法相比取得了更好的控制效果。然而很多基于强化学习的控制算法都单独的控制各个路口的交通信号灯,没有明确的考虑相邻路口之间的相互作用,即一个路口信号灯变化如何影响附近路口的交通状况。
随着经济的发展和社会的进步,道路运输对环境造成了严重的影响,引起了人们的广泛关注。交通规划师和交通工程师在解决交通问题或优化交通系统时,不再只关注拥堵,如何减少车辆排放问题也得到重视。车辆的运行模式与车辆排放密切相关,如车辆加速、减速、怠速和走走停停等情况都会增加车辆排放。而在交通网络中,路口的交通情况最为复杂,车辆在路口反复分流、合并、交叉。交通情况复杂,使得路口成为制约城市道路交通功能的瓶颈,该区域车辆排放明显高于其他区域。因此,通过合理的交通信号灯调控可以有效减少车辆排放。
综上所述,需要设计一种基于合作式多智能强化学习的交通信号灯方法,从而在改善路网交通状态的同时尽可能的减少车辆排放。
发明内容
本发明针对上述问题及技术需求,提出了一种基于合作式多智能体强化学习的交通信号灯控制方法。本发明通过减少因红灯产生的车辆等待情况,从而最小化路口车辆的等待时间和排放,进而达到在改善交通拥堵的同时尽可能的减少通过交叉口的车辆排放的目的。
本发明的包括以下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
搭建的道路交叉口中,分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向直行。为了保证安全,防止直接切换相位引发交通事故,在上述四个相位切换之间设计一个黄信号灯进行过渡。
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中,表示当前信号灯相位的矩阵P表示信号灯的当前状态;每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况;每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。
(b)动作空间Action设计
交通信号灯的相位选择称为信号灯控制Agent的动作,我们设计了四种动作分别为:(1)南北方向直行(SN-G);(2)南北方向左转(SNL-G);(3)东西方向直行(EW-G);(4)东西方向左转(EWL-G)。
(c)奖励函数Reward设计
每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此,定义的奖励函数分为以下两类:车辆等待时间部分奖励函数和车辆排放部分奖励函数。
定义时间步t时刻的奖励函数:
R=kRE+(1-k)RW
其中,k为权重系数,RE表示车辆排放部分奖励函数,RW表示车辆等待时间部分奖励函数。
步骤三:构建合作式多智能体强化学习模型。
在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络,邻近价值网络,全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作。其中,个体价值网络和邻近价值网络组成局部合作机制,来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制,以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制的配合来确定目标智能体的动作。
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent会在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得所述局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子,通过对全局目标进行梯度运算来实现这个双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态;
本发明的有益效果:
本发明使得路网中的交通信号灯相互合作,根据实时交通信息动态的调节交通信号灯的相位,在缓解交通拥堵的同时尽可能的减少通过交叉口的车辆排放。
本发明不依赖历史交通数据,不依赖先前交通信号灯控制模型,无需人工干预的情况下,信号灯控制Agent通过与环境进行实时交互,感知并作用于环境。信号灯控制Agent根据交叉口的实时交通状况指定信号灯控制策略,通过减少因红灯产生的车辆等待情况,从而最小化路口车辆的等待时间和排放,达到缓解交通拥堵和减少车辆排放的目的,实现自适应交通信号灯控制。
附图说明
图1是本发明方法的流程示意图;
图2是本发明信号灯控制Agent的动作示意图;
图3是本发明相邻路口的示意图;
图4是本发明合作式多智能体强化学习模型示意图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步说明。
本发明公开了一种基于合作式多智能体强化学习的交通信号灯控制方法。该方法克服了传统强化学习单独控制各个路口的信号灯,没有考虑它们之间的相关性的缺点,提出了一种双层协调控制策略,通过局部合作机制和全局合作机制对路网中的交通信号灯进行协调控制。同时,该方法将车辆排放因素考虑在内,可以在改善路网交通状态的同时尽可能的减少车辆排放。
如图1所示,本发明包括如下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
由于交通信号灯只对驶入车道的车辆具有控制作用,因此只关注驶入车道的信息,驶出车道的车辆不对当前路口的信号控制产生影响。驶入车道中,分为左转、直行和右转车道。交通信号灯的控制分信号分别为南北方向直行、南北方向左转、东西方向直行、东西方向左转。
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态。其中,用当前信号灯相位的矩阵P表示信号灯的当前状态;每个车道车辆等待队列的长度矩阵Q和每个车道的车辆密度矩阵D用来描述交叉口的实时交通状况;每个车道的车辆排放浓度矩阵E用来描述交叉口的实时车辆排放。
在车道等待车辆的队列长度矩阵Q中,表示时间步t车道i中等待通过交叉口的车辆的排队长度,i∈[1,…,N]表示路网中的N条车道。其中,表示时间步t车道i中等待的车辆数量,lv为车辆的长度和车辆间最小间距之和,Li表示车道i的长度。在车道的车辆密度矩阵D中,表示时间步t车道i的车辆密度情况。其中,表示时间步t进入车道i的车辆数量。
为了描述交叉口的实时排放情况,本发明在智能体的观察状态中引入车道污染物浓度矩阵,采用基于车辆加速度的排放估算模型HBEFA。在观测状态中只考虑了车辆的CO2排放情况。因为,在车辆排放中CO2的排放占比为97.2%。在车道排放浓度矩阵E中,表示时间步t车道i的排放浓度情况。其中,表示车辆j在时间步t的GO2排放量。
因此单个交叉口在时间步t的状态空间为st=[P,Q,D,E]。
(b)动作空间Action设计
根据交通规则,无论是红灯还是绿灯,车辆都可以右转。同时,为了使智能体像经验丰富的交通警察一样对复杂的交通情况进行灵活的调控。如图2所示,设计了四种动作分别为:(a)南北方向直行(SN-G)、(b)南北方向左转(SNL-G)、(c)东西方向直行(EW-G)、(d)东西方向左转(EWL-G)。智能体在每个时间步的开始会选择一个动作at,执行后得到一个新的状态st+1。为了确保一个动作到下一个动作的安全转换,在两个动作切换间设置了黄色信号灯保证车辆安全通过交叉口。
(c)奖励函数Reward设计
在本发明中,每个智能体的任务是最小化交叉口的拥堵同时尽可能的减少车辆排放。因此,定义的奖励函数分为以下两类:车辆等待时间部分奖励函数和车辆排放部分奖励函数。
在车辆等待时间部分奖励函数为因红灯产生的排队等候时间。当司机在排队等候时,随着等候时间的增加,司机的不耐烦程度指数上升。因此,为保证公平性,避免少数车辆等候时间过长。将车辆的等待时间分为三类,即不等待、等待时间少于六个时间步长和等待时间大于六个时间步长。车辆等待时间部分的奖励函数RW定义如下:
其中,vmin=0.1m/s当车辆速度小于vmin时认为车辆停止;rj,t为车辆j在时间步t的奖励;Nt为交叉口的车辆数量;Wj,t表示车辆j在时间步t的累积等待时间。
由于车辆排放中CO2的排放占比为97.2%,在奖励设计时只考虑了车辆的CO2排放情况。为了描述信号灯控制Agent采取的动作对车辆排放的改善情况,使用执行动作前后车辆的排放差作为奖励函数的一部分。车辆排放部分奖励函数RE定义如下:
其中,ecar,t表示时间步t内车辆car的CO2的排放量;n为该交叉口的车辆数量;et表示t阶段所有车辆的综合排放情况。
通过综合考虑上述指标,并根据车辆排放和等待时间这两个指标对模型优化效果的影响,给出相应的权重进行加权求和。同时,为了避免出现“小奖励被大奖励”压倒的现象,对车辆延误和等待时间这两个奖励值归一化处理。整体的奖励函数设置如下:
R=kRE+(1-k)RW (12)
其中,k为权重系数,k∈[0,1],RE表示车辆排放部分d奖励函数,RW表示车辆等待时间部分奖励函数。
步骤三:构建合作式多智能体强化学习模型。
在合作式多智能体强化学习模型中包括四个神经网络分别为个体价值网络,邻近价值网络,全局价值网络和策略网络。模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作。路网中的邻近路口关系如图3所示,图中深色圆圈表示目标智能体,浅色圆圈表示其邻近智能体。
本发明提出的合作式多智能体强化学习模型如图4所示。个体价值网络和邻近价值网络组成局部合作机制,来权衡个体奖励和邻近奖励。全局价值网络属于全局合作机制,以最大化全局奖励。策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。
并使用Clip重要性采样因子来缓解更新后的分布变化,其中πi,old为生成样本的策略;πi,new是由θi参数化的最新策略,其中,θi表示智能体i的个体价值网络的神经网络参数。因此单个智能体的学习目标目标函数(即单个智能体的学习目标)为:
其中,∈是一个超参数。通过对单个智能体的目标进行关于策略参数的随机梯度上升来提高预期的个体回报。为了通过各信号灯之间的协调合作来改善整个路网的交通状况,加入了邻近价值网络和全局价值网络来。
在基于合作式多智能体强化学习的信号灯控制方法中,使用集中式训练分散式执行框架,每个智能体都可以独立做出决策,都可以相互竞争或合作,最终达到全局最优。集中式训练是指通过全局信息进行决策计算,然后每个智能体根据全局决策信息和自身状态分布式执行。在集中训练期间,首先通过局部合作提出单个智能体的学习目标,这是由于每个智能体主要受其邻近智能体的影响。通过混合奖励来协调智能体的协同目标,通过优化局部合作过程,从而实现全局合作,最终达到全局最优。
在全局合作机制中,引入全局合作来自动寻找最优的局部合作因子使得系统性能最佳。通过对全局目标进行梯度运算来实现这个双层协调。全局目标定义如下:
其中,ε表示所有智能体的集合。
上式在计算单个策略参数的策略梯度时不能直接优化。为此,引入个体全局目标这一概念,使得全局优化变的可行。将系统级别的优化过程转化为智能体级别的优化过程,从而可以轻松访问单个智能体的数据。将全局目标JG(θ1,...)分解为个体全局目标这样最大化每个智能体的目标就等效于最大化全局目标。个体全局目标定义如下:
公式(27)的第二部分可以通过泰勒一阶展开进行求解。
结合公式(28)和公式(29),可得到局部合作因子的目标如下:
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent会在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得所述局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子,通过对全局目标进行梯度运算来实现这个双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态;
所述个体价值网络,为单个信号灯控制Agent根据从环境中获取的观察信息,个体价值网络不与其他信号灯控制Agent进行通信,只最大化当前信号灯控制Agent所获取的奖励;
所述邻近价值网络,目的是协调目标信号灯控制Agent和其邻近信号灯控制Agent的关注程度;如果我们简单地最大化每个信号灯的奖励,信号灯控制Agent会变得以自我为中心,可能会做一些对其他路口不利的决策,导致路网交通出现严重拥堵;相反,如果将各信号灯控制Agent的奖励总和作为共同目标,可能会使某些智能体做出牺牲自己来提高整体奖励的不合理行为;
所述全局价值网络,目的是自动寻找最优的局部合作因子使得系统性能最佳;所述全局目标为环境中所有信号灯控制Agent的奖励总和;通过自动寻找局部合作因子使得全局目标最大化。
Claims (5)
1.一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于该方法包括以下步骤:
步骤一:构建道路交叉口和交通信号灯的路网模型;
步骤二:基于强化学习的交通信号灯控制模型构建;
(a)状态空间State设计
对于单个交叉口,使用当前信号灯的相位、每个车道车辆等待队列的长度、每个车道的车辆密度以及每个车道的车辆排放浓度来表示状态;
(b)动作空间Action设计
设计四种动作分别为:南北方向直行、南北方向左转、东西方向直行、东西方向左转;
(c)奖励函数Reward设计
时间步t时刻的奖励函数:
R=kRE+(1-k)RW
其中,k为权重系数,RE表示车辆排放部分奖励函数,RW表示车辆等待时间部分奖励函数;
步骤三:构建合作式多智能体强化学习模型;
所述合作式多智能体强化学习模型包括个体价值网络,邻近价值网络,全局价值网络和策略网络;该模型的输入为路网中各个路口的交通状态,输出信息为四种动作的概率值,并根据动作概率值进行随机抽样选择动作;
所述合作式多智能体强化学习模型采用了局部合作机制和全局合作机制,其中局部合作机制利用局部合作因子来权衡个体奖励和邻近奖励,全局合作机制通过梯度更新协调因子来最大化全局目标;
步骤四:信号灯控制Agent学习信号灯控制策略;
将单个信号灯控制Agent的局部观测信息输入个体价值网络,所述信号灯控制Agent在环境中获取奖励和下一时刻的观测信息,更新所述Agent的个体价值网络参数;
将所述信号控制Agent的个体奖励信息和邻近信号控制Agent的奖励信息输入邻近价值网络;为求得局部合作因子,将所有信号灯控制Agent的奖励输入全局价值网络来寻找最优的局部合作因子;
通过对全局目标进行梯度运算来实现双层全局协调,将得到的最优局部合作因子输入策略网络,并在动作空间中选择最合适的动作发送给路网环境,路网执行动作并转移到下一个状态。
2.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:步骤一中所述路网模型使用交通仿真软件SUMO附带的软件Netedit搭建;
其中搭建的道路交叉口中,分为左转、直行和右转车道;
其中交通信号灯的控制分信号分别为:南北方向直行、南北方向左转、东西方向直行、东西方向直行,在上述四个相位切换之间设计一个黄信号灯进行过渡。
3.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:步骤二中所述车辆排放部分奖励函数使用执行动作前后车辆的排放差。
4.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:所述的策略价值网络根据局部合作机制和全局合作机制组成的双层协调来确定目标智能体的动作。
5.根据权利要求1所示的一种基于合作式多智能体强化学习的交通信号灯控制方法,其特征在于:所述的合作式多智能体强化学习模型使用集中式训练分散式执行框架,所述集中式训练是通过全局信息进行决策计算,然后每个智能体根据全局决策信息和自身状态分布式执行;在集中训练期间首先通过局部合作提出单个智能体的学习目标,然后通过混合奖励来协调智能体的邻近目标,通过优化局部合作过程,从而实现全局合作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638529.0A CN115083174A (zh) | 2022-06-07 | 2022-06-07 | 一种基于合作式多智能体强化学习的交通信号灯控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638529.0A CN115083174A (zh) | 2022-06-07 | 2022-06-07 | 一种基于合作式多智能体强化学习的交通信号灯控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115083174A true CN115083174A (zh) | 2022-09-20 |
Family
ID=83252069
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210638529.0A Pending CN115083174A (zh) | 2022-06-07 | 2022-06-07 | 一种基于合作式多智能体强化学习的交通信号灯控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115083174A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597672A (zh) * | 2023-06-14 | 2023-08-15 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112700664A (zh) * | 2020-12-19 | 2021-04-23 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
CN113380054A (zh) * | 2021-06-09 | 2021-09-10 | 湖南大学 | 一种基于强化学习的交通信号灯控制方法及系统 |
CN113643553A (zh) * | 2021-07-09 | 2021-11-12 | 华东师范大学 | 基于联邦强化学习的多路口智能交通信号灯控制方法及系统 |
US20220076571A1 (en) * | 2019-10-28 | 2022-03-10 | Laon People Inc. | Signal control apparatus and signal control method based on reinforcement learning |
CN114360266A (zh) * | 2021-12-20 | 2022-04-15 | 东南大学 | 一种网联车探测状态感知的交叉口强化学习信号控制方法 |
-
2022
- 2022-06-07 CN CN202210638529.0A patent/CN115083174A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220076571A1 (en) * | 2019-10-28 | 2022-03-10 | Laon People Inc. | Signal control apparatus and signal control method based on reinforcement learning |
CN112700664A (zh) * | 2020-12-19 | 2021-04-23 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
CN113380054A (zh) * | 2021-06-09 | 2021-09-10 | 湖南大学 | 一种基于强化学习的交通信号灯控制方法及系统 |
CN113643553A (zh) * | 2021-07-09 | 2021-11-12 | 华东师范大学 | 基于联邦强化学习的多路口智能交通信号灯控制方法及系统 |
CN114360266A (zh) * | 2021-12-20 | 2022-04-15 | 东南大学 | 一种网联车探测状态感知的交叉口强化学习信号控制方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597672A (zh) * | 2023-06-14 | 2023-08-15 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
CN116597672B (zh) * | 2023-06-14 | 2024-02-13 | 南京云创大数据科技股份有限公司 | 基于多智能体近端策略优化算法的区域信号灯控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yao et al. | Reducing gasoline consumption in mixed connected automated vehicles environment: A joint optimization framework for traffic signals and vehicle trajectory | |
CN111445692B (zh) | 一种无信号灯路口智能网联汽车的速度协同优化方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN108877256B (zh) | 基于无线通信的交叉口附近分散协同自适应巡航控制方法 | |
CN111439260B (zh) | 面向个性化需求的网联商用柴油车巡航行驶优化控制系统 | |
CN109927709A (zh) | 一种车辆行驶路线工况确定方法、能量管理方法及系统 | |
CN108564234A (zh) | 一种智能网联汽车的交叉口无信号自组织通行控制方法 | |
Lin et al. | Traffic signal optimization based on fuzzy control and differential evolution algorithm | |
Ye et al. | Development and evaluation of a vehicle platoon guidance strategy at signalized intersections considering fuel savings | |
Lu et al. | A speed control method at successive signalized intersections under connected vehicles environment | |
Kong et al. | Urban arterial traffic two-direction green wave intelligent coordination control technique and its application | |
Zhou et al. | A quantitative analysis of model predictive control as energy management strategy for hybrid electric vehicles: A review | |
CN114495499B (zh) | 一种多目标智能网联车辆协同优化控制方法 | |
Hou et al. | Online vehicle velocity prediction using an adaptive radial basis function neural network | |
CN112767715B (zh) | 一种交叉路口交通信号灯与智能网联汽车的协同控制方法 | |
CN115083174A (zh) | 一种基于合作式多智能体强化学习的交通信号灯控制方法 | |
Hu et al. | Lane-level navigation based eco-approach | |
CN114973733A (zh) | 一种信号交叉口处混合流下网联自动车轨迹优化控制方法 | |
CN113506442B (zh) | 一种基于预期收益估计的城市路网交通信号灯控制方法 | |
Zhai et al. | Ecological driving for connected and automated vehicles at unsaturated intersections considering queue effects | |
Zhang et al. | Coordinated control of distributed traffic signal based on multiagent cooperative game | |
CN115571108A (zh) | 一种节油控制方法 | |
Du et al. | Impacts of vehicle-to-infrastructure communication on traffic flows with mixed connected vehicles and human-driven vehicles | |
Wang et al. | Study of vehicle-road cooperative green wave traffic strategy for traffic signal intersections | |
Li et al. | Eco-driving---current strategies and issues, a preliminary survey |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |