CN113963555B - 一种结合状态预测的深度强化学习交通信号控制方法 - Google Patents
一种结合状态预测的深度强化学习交通信号控制方法 Download PDFInfo
- Publication number
- CN113963555B CN113963555B CN202111186563.0A CN202111186563A CN113963555B CN 113963555 B CN113963555 B CN 113963555B CN 202111186563 A CN202111186563 A CN 202111186563A CN 113963555 B CN113963555 B CN 113963555B
- Authority
- CN
- China
- Prior art keywords
- traffic
- state
- network
- green light
- average
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/081—Plural intersections under common control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种结合状态预测的深度强化学习交通信号控制方法,包括如下步骤:(1)路网环境、车流数据建模;(2)深度强化学习算法选择与三要素设计;(3)预测未来的交通状态;(4)训练模型;(5)实验测试。本发明能够缩短车辆的等待时间,提高路网的通行效率。
Description
技术领域
本发明涉及智能交通信号控制技术领域,尤其是一种结合状态预测的深度强化学习交通信号控制方法。
背景技术
随着生活水平的提高,汽车保有量持续增长,城市的交通拥堵问题也日趋严重。交通信号控制是提高道路通行效率、缓解交通拥堵最直接、成本最低的途径,传统的信控方法主要包括固定配时控制、感应控制和自适应控制等。SCATS(Sydney Coordinated AdaptiveTraffic System)和SCOOT(Split Cycle Offset Optimizing Technique)是目前广泛使用的自适应交通信控系统,它们利用简化的交通模型求解最优的信号控制策略;但是简化模型的建立依赖大量的假设和经验方程,在复杂多变的真实交通场景下,这类系统难以达到最佳效果。近年来,随着人工智能技术的发展,深度强化学习(Deep ReinforcementLearning,DRL)在交通信号控制方面展现出卓越的应用前景。
DRL结合了DL的强感知能力与RL的强决策能力,是一种“试错”的学习方法,通过与环境交互来学习最优策略。应用在交通信号控制中,可以把一个或几个交叉口看成一个Agent,Agent观测路网状态后做出决策,通过最大化环境反馈的奖励以学习最优的信号配时方案。Zheng等(ZHENG G,XIONG Y,ZANG X,et al.Learning phase competition fortraffic signal control[C]//Proceedings of the 28th ACM InternationalConference on Information and Knowledge Management.2019:1963-1972.)提出FRAP模型,利用不同信号相位间的竞争关系,实现了在交通流中翻转和旋转等对称情况下的普适性。Tan等(TAN T,BAO F,DENG Y,et al.Cooperative deep reinforcement learning forlarge-scale traffic grid signal control[J].IEEE transactions on cybernetics,2019,50(6):2687-2700.)将大规模路网分为若干个子区域,对每个区域,使用PeractionDQN或Wolpertinger DDPG进行控制,将所有Agent的学习策略传递给全局Agent实现全局学习。这些DRL信控方法本质上依赖于一阶马尔可夫决策过程,仅使用当前的交通状态进行决策。但是,对于实际场景中复杂多变的交通流,只有综合当前、历史和未来状态才可能获得最优控制策略。
现实交通流数据具有突变性、实时性、周期性等特征,是典型的时序数据,目前基于DRL的信号控制方法都只是利用当前的交通状态做决策,控制效果有限。
发明内容
本发明所要解决的技术问题在于,提供一种结合状态预测的深度强化学习交通信号控制方法,能够缩短车辆的等待时间,提高路网的通行效率。
为解决上述技术问题,本发明提供一种结合状态预测的深度强化学习交通信号控制方法,包括如下步骤:
(1)路网环境、车流数据建模;用SUMO对路网进行建模,包括单路口以及多路口,根据现实交通场景的情形模拟车辆的生成;
(2)深度强化学习算法选择与三要素设计;选择DRL智能体控制交通信号,采用DTSE的方式精心设计状态,包含路网中多种交通信息,并根据实际情况设计动作与奖励;
(3)预测未来的交通状态;使用动态分配、卡尔曼滤波或神经网络方法对步骤(2)中设计的状态进行预测,预测状态将与当前状态一起输入DRL智能体进行最优决策;
(4)训练模型;选择合适的优化器以及设置超参数,利用SUMO生成的车流数据对步骤(2)中的DRL智能体以及步骤(3)中的预测模型进行训练,训练完后保存最后的模型;
(5)实验测试;用同一分布生成的车流数据对发明的控制方法进行测试评估,定义评价指标,并与其他控制方法进行比较。
优选的,步骤(1)中,用SUMO仿真软件对路口进行建模,每个路口都是双向六车道,车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。
优选的,步骤(2)中,DRL模型采用D3QN,使用经验回放来更新目标Q值,使用双网络减轻过度估计,缓解模型的过拟合问题,将Q网络分为价值函数与优势函数两部分,对网络结构进行优化;DRL智能体状态设计如下:首先按一定距离比例将车道分为若干元胞,计算每个元胞中车辆的数目、平均速度和平均加速度,作为数目向量、速度向量和加速度向量,这三个向量构成环境的状态向量;动作定义为选择一个可能的绿灯相位,包含4种选择,为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯,每个绿灯相位设置最小持续时间与最大持续时间,绿灯和红灯切换期间会执行一定时长的黄灯;奖励定义为动作执行期间队列长度、等待时间、车辆延误、通过路口的车辆数目以及通过路口车辆的通行时间的加权和。
优选的,步骤(3)中,使用长短期记忆网络预测未来的微观状态,即对步骤(2)中定义的每个元胞中车辆的数目、平均速度和平均加速度进行预测,预测步数由神经网络学习得到。
优选的,步骤(4)中,DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子;深度Q网络为全连接神经网络,均方误差作为损失函数,选用Adam优化器,相关超参数包括深度、宽度、学习率、批处理大小、训练迭代次数;LSTM预测网络采用二值交叉熵作为损失函数,选用Adam优化器,相关超参数包括单元数、层数、神经元个数、批处理大小、训练迭代次数。
优选的,步骤(5)中,评价指标包括平均等待时间、平均队列长度、平均行驶时间、平均CO排放、平均CO2排放,对比算法选用韦伯斯特固定配时控制、车辆驱动控制、不加预测的D3QN控制,可以说明发明的信控方法在提高路网通行效率,降低污染排放方面的有效性与可行性。
本发明的有益效果为:(1)引入显示的交通状态预测,采用LSTM网络预测未来的微观状态,D3QN智能体使用当前和预测状态进行最优决策,可以充分利用交通数据的时序相关性,提高路网的通行效率;(2)精心设计智能体的状态,采用DTSE的方法将车道划分为元胞,计算元胞中的车辆数目、平均速度和平均加速度,在减少数据量的同时保留了重要的交通信息,易于预测;(3)使用MARL实现路网的交通信号控制,采用状态信息交互和空间折扣因子来实现多智能体协作,车流数据模拟了现实中高低峰的情形,具有工程应用价值。
附图说明
图1为本发明的信号控制方法网络结构示意图。
图2为本发明的以十字路口西向车道为例的状态设计示意图。
图3为本发明的经验回放流程示意图。
具体实施方式
如图1所示,一种结合状态预测的深度强化学习交通信号控制方法,包括如下步骤:
步骤1:用SUMO建模产生路口模型,路口为双向6车道,车道长500m,沿着车辆的行驶方向,左边车道为左转车道,中间车道为直行车道,右边车道为直行加右转车道。车流数据包括车辆生成方式、仿真时长、车辆数目和行驶轨迹。本发明中车辆的生成服从韦伯分布,可以模拟现实生活中交通高低峰的情形,具有工程应用价值,其概率密度函数为:
其中λ是比例参数设为1,a是形状参数设为2。仿真一个回合的时长为2小时,车辆数目设为1000、2000、3000,分别对应低、中、高三种流量条件。车辆长度为5m,最大速度为25m/s,最大加速度为2m/s2,最大减速度为5m/s2,车辆之间的最小间距为2.5m,车辆行驶时以70%的概率直行,15%的概率左转,15%的概率右转。
步骤2:本发明中DRL模型采用D3QN,利用两个DQN对信号控制策略进行训练,通过当前网络选择最大Q值对应的动作,再获取此动作在目标网络中的Q值,使每次选择的动作Q值不是最大,减轻对Q值的过度估计,缓解模型的过拟合问题,当前网络的优化目标表示为:
其中r为奖励,γ为折扣因子,w为当前网络的参数,w-为目标值网络的参数。D3QN还对网络结构进行优化,将状态动作对的Q值拆分为两部分进行输出,一部分代表环境状态本身具有的价值函数V(s),另一部分表示通过选择动作带来的额外价值,称为优势函数A(s,a),则Q值可以改写为:
q(s,a)=V(s)+A(s,a) (3)
接下来定义强化学习的三要素状态、动作和奖励。
状态包含路网中车辆的数目、速度和加速度信息,首先按照一定距离比例将车道分为若干元胞,图2所示的是以十字路口西向车道为例的状态设计图,包含了元胞的长度信息。其中,右边的两条车道看作一个整体划分,最左边的左转车道单独划分,靠近红绿灯的部分以7m为单位划分5个元胞,之后依次以10m、25m、40m、160m以及230m划分元胞,这样路口一个方向的车道将划分为20个元胞,一个路口将划分为80个元胞。计算每个元胞中车辆的数目、平均速度和平均加速度,作为数目向量、速度向量和加速度向量,这三个向量构成环境的状态。
动作采用的是切换路口红绿灯的状态,让更多车辆快速地通过路口。动作组A={NSG,NSLG,EWG,EWLG},包括4个动作,每个动作执行的时间都是3秒。其中,NSA表示南北方向直行和右转绿灯,NSLA表示南北方向左转绿灯,EWA表示东西方向直行和右转绿灯,EWLA表示东西方向左转绿灯。对于直行和右转动作,设置绿灯时长最短12s,最长60s,对于左转动作,设置绿灯时长最短12s,最长24s。Agent在绿灯和红灯切换期间,会先执行时长3s的黄灯。
奖励表示的是Agent执行一个动作之后环境反馈的奖励,本发明中定义为执行动作期间队列长度、等待时间、车辆总延误、通过路口的车辆数目以及通过路口车辆的通行时间的加权和,表示为:
rn+1=α1*Ln+α2*Wn+α3*Dn+α4*Nn+α5*Tn (4)
其中rn+1表示执行第n个动作后环境反馈给Agent的奖励,Ln表示执行第n个动作期间的总队列长度,Wn表示所有车辆的等待时间,Dn表示所有车辆的延误,Nn表示通过交叉口的车辆数目,Tn表示通过路口车辆的通行时间之和,α1、α2、α3、α4、α5表示加权系数,本发明中分别设为-0.5、-0.25、-0.5、1、0.5。
对于多路口,用MARL的方法控制交通信号,每个路口的交通信号都由一个Agent控制,采用状态信息交互和空间折扣因子来实现多智能体协作。以2×2的井字形路网为例,每个路口都是等价的。对于左上方的路口,其Agent的输入状态除了当地路口的交通信息,还包括右上方路口以及左下方路口相连车道的交通信息,奖励为所有路口奖励的加权和,表示为:
r=β1rtl+β2rtr+β3rll+β4rlr (5)
其中r表示左上方Agent的奖励,rtl、rtr、rll、rlr表示左上、右上、左下、右下方路口的奖励,β1、β2、β3、β4表示加权系数,本发明中分别定义为0.5、0.2、0.2、0.1。
步骤3:使用LSTM预测未来的微观状态,对k个时间步后的数目向量、速度向量和加速度向量进行预测,预测步数k由网络学习得到,当前状态记为s,预测状态记为sp,结合状态预测的D3QN算法下最优动作价值函数的优化目标表示为:
步骤4:D3QN使用经验回放来更新目标价值,将Agent与环境交互获得的样本(s,a,r,s')存入经验池中,从经验池均匀采样小批量样本,使用随机梯度下降方法训练深度神经网络使其逼近Q值,随机采样能够打破样本间的强相关性,使训练收敛稳定,经验回放的流程图如图3所示。DRL相关超参数设置如下:训练回合数为400、经验池最小尺寸为2000、最大尺寸为100000、折扣因子为0.85。Q网络为全连接神经网络,使用均方误差损失函数,选用Adam优化器,相关超参数设置如下:深度为5、宽度为400、学习率为0.001、批处理大小为128、训练迭代次数为800。LSTM预测网络采用二值交叉熵作为损失函数,选用Adam优化器,相关超参数设置如下:单元数为6、层数为3、神经元个数为160、批处理大小为128、训练迭代次数为1。
步骤5:用SUMO生成的车流数据对步骤4训练好的模型进行测试,并与韦伯斯特配时控制、车辆驱动控制、不加预测的D3QN控制比较,评价指标包括平均等待时间twt、平均队列长度l、平均行驶时间tat、平均CO排放dco、平均CO2排放表示为:/>
其中N表示车辆总数,T表示每回合的时长,wnt表示t时刻路网中停止车辆的总数,lt表示t时刻路网的队列总长度,nt表示t时刻路网中运行车辆的总数,cot表示t时刻路网中排放的CO总量,co2t表示t时刻路网中排放的CO2总量。
本发明利用离散交通状态编码(Discrete Traffic State Encoding,DTSE)设计简洁且高效的状态,使用动态分配、卡尔曼滤波或神经网络等方法预测未来的交通状态,Agent根据当前状态和预测状态进行最优决策,从而缩短车辆的等待时间,提高路网的通行效率。本发明对促进短时交通预测、强化学习技术在智能交通信号控制领域的研究和发展具有积极的理论意义与应用价值。
Claims (5)
1.一种结合状态预测的深度强化学习交通信号控制方法,其特征在于,包括如下步骤:
(1)路网环境、车流数据建模;用SUMO对路网进行建模,包括单路口以及多路口,根据现实交通场景的情形模拟车辆的生成;
(2)深度强化学习算法选择与三要素设计;选择DRL智能体控制交通信号,采用DTSE的方式精心设计状态,包含路网中多种交通信息,并根据实际情况设计动作与奖励;DRL模型采用D3QN,使用经验回放来更新目标Q值,将Q网络分为价值函数与优势函数两部分,对网络结构进行优化;智能体状态设计如下:按一定距离比例将车道分为若干元胞,计算每个元胞中车辆的数目、平均速度和平均加速度,作为数目向量、速度向量和加速度向量,这三个向量构成环境的状态向量;动作定义为选择一个可能的绿灯相位,包含4种选择,为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯,每个绿灯相位设置最小持续时间与最大持续时间,绿灯和红灯切换期间会执行一定时长的黄灯;奖励定义为动作执行期间队列长度、等待时间、车辆延误、通过路口的车辆数目以及通过路口车辆的通行时间的加权和;
(3)预测未来的交通状态;使用动态分配、卡尔曼滤波或神经网络方法对步骤(2)中设计的状态进行预测,预测状态将与当前状态一起输入DRL智能体进行最优决策;
(4)训练模型;选择合适的优化器以及设置超参数,利用SUMO生成的车流数据对步骤(2)中的DRL智能体以及步骤(3)中的预测模型进行训练,训练完后保存最后的模型;
(5)实验测试;用同一分布生成的车流数据对发明的控制方法进行测试评估,定义评价指标,并与其他控制方法进行比较。
2.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(1)中,用SUMO仿真软件对路口进行建模,每个路口都是双向六车道,车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹,车辆的生成服从韦伯分布,设置三种车辆密度,分别对应低、中、高三种流量条件,每辆车以一定的概率直行或是转弯。
3.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(3)中,使用长短期记忆网络预测未来的微观状态,即对步骤(2)中定义的每个元胞中车辆的数目、平均速度和平均加速度进行预测,预测步数由神经网络学习得到。
4.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(4)中,DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子;深度Q网络为全连接神经网络,均方误差作为损失函数,选用Adam优化器,相关超参数包括深度、宽度、学习率、批处理大小、训练迭代次数;LSTM预测网络采用二值交叉熵作为损失函数,选用Adam优化器,相关超参数包括单元数、层数、神经元个数、批处理大小、训练迭代次数。
5.如权利要求1所述的结合状态预测的深度强化学习交通信号控制方法,其特征在于,步骤(5)中,评价指标包括平均等待时间、平均队列长度、平均行驶时间、平均CO排放、平均CO2排放,对比算法选用韦伯斯特固定配时控制、车辆驱动控制、不加预测的D3QN控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111186563.0A CN113963555B (zh) | 2021-10-12 | 2021-10-12 | 一种结合状态预测的深度强化学习交通信号控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111186563.0A CN113963555B (zh) | 2021-10-12 | 2021-10-12 | 一种结合状态预测的深度强化学习交通信号控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113963555A CN113963555A (zh) | 2022-01-21 |
CN113963555B true CN113963555B (zh) | 2023-03-28 |
Family
ID=79463581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111186563.0A Active CN113963555B (zh) | 2021-10-12 | 2021-10-12 | 一种结合状态预测的深度强化学习交通信号控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113963555B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114913685B (zh) * | 2022-05-09 | 2024-03-22 | 宁波崛马信息科技有限公司 | 基于深度强化学习的路口交通信号自适应控制方法 |
CN115171390A (zh) * | 2022-07-27 | 2022-10-11 | 北京英泰智科技股份有限公司 | 一种交通信号机自适应控制方法、交通信号机及控制系统 |
CN115497294B (zh) * | 2022-09-22 | 2023-09-19 | 东南大学 | 融合深度预测网络和卡尔曼滤波算法的交通灯控制方法及系统 |
CN115762128B (zh) * | 2022-09-28 | 2024-03-29 | 南京航空航天大学 | 一种基于自注意力机制的深度强化学习交通信号控制方法 |
CN117079479B (zh) * | 2023-10-17 | 2024-01-16 | 之江实验室 | 一种时空预测的后继强化学习的交通信号控制方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190347933A1 (en) * | 2018-05-11 | 2019-11-14 | Virtual Traffic Lights, LLC | Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby |
CN109559530B (zh) * | 2019-01-07 | 2020-07-14 | 大连理工大学 | 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法 |
CN110047278B (zh) * | 2019-03-30 | 2021-06-08 | 北京交通大学 | 一种基于深度强化学习的自适应交通信号控制系统及方法 |
CN111243299B (zh) * | 2020-01-20 | 2020-12-15 | 浙江工业大学 | 一种基于3dqn_pser算法的单交叉口信号控制方法 |
CN112700664B (zh) * | 2020-12-19 | 2022-10-28 | 北京工业大学 | 一种基于深度强化学习的交通信号配时优化方法 |
-
2021
- 2021-10-12 CN CN202111186563.0A patent/CN113963555B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113963555A (zh) | 2022-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113963555B (zh) | 一种结合状态预测的深度强化学习交通信号控制方法 | |
CN112700664B (zh) | 一种基于深度强化学习的交通信号配时优化方法 | |
CN110060475B (zh) | 一种基于深度强化学习的多交叉口信号灯协同控制方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
CN111260937A (zh) | 一种基于强化学习的十字路口交通信号灯控制方法 | |
CN111931902A (zh) | 一种生成对抗网络模型、及利用该生成对抗网络模型的车辆轨迹预测方法 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
CN104766484A (zh) | 基于进化多目标优化和蚁群算法的交通控制与诱导系统和方法 | |
CN114038212A (zh) | 基于双阶段注意力机制和深度强化学习的信号灯控制方法 | |
CN115019523B (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN113299078A (zh) | 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置 | |
CN113392577B (zh) | 一种基于深度强化学习的区域边界主交叉口信号控制方法 | |
CN113299079B (zh) | 一种基于ppo和图卷积神经网络区域交叉口信号控制方法 | |
CN113276852B (zh) | 一种基于最大熵强化学习框架的无人驾驶车道保持方法 | |
CN115762128B (zh) | 一种基于自注意力机制的深度强化学习交通信号控制方法 | |
Zhang et al. | Coordinated control of distributed traffic signal based on multiagent cooperative game | |
Luo et al. | Researches on intelligent traffic signal control based on deep reinforcement learning | |
CN112927522B (zh) | 一种基于物联网设备的强化学习可变时长信号灯控制方法 | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
Wang et al. | Urban traffic signal control with reinforcement learning from demonstration data | |
Wang et al. | A Reinforcement Learning Approach to CAV and Intersection Control for Energy Efficiency | |
Shahriar et al. | Intersection traffic efficiency enhancement using deep reinforcement learning and V2X communications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |