CN114613168B - 一种基于记忆网络的深度强化学习交通信号控制方法 - Google Patents

一种基于记忆网络的深度强化学习交通信号控制方法 Download PDF

Info

Publication number
CN114613168B
CN114613168B CN202210408279.1A CN202210408279A CN114613168B CN 114613168 B CN114613168 B CN 114613168B CN 202210408279 A CN202210408279 A CN 202210408279A CN 114613168 B CN114613168 B CN 114613168B
Authority
CN
China
Prior art keywords
network
value
time
traffic signal
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210408279.1A
Other languages
English (en)
Other versions
CN114613168A (zh
Inventor
孔燕
卢学亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210408279.1A priority Critical patent/CN114613168B/zh
Publication of CN114613168A publication Critical patent/CN114613168A/zh
Application granted granted Critical
Publication of CN114613168B publication Critical patent/CN114613168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法,包括:1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;主网络将t时刻状态值st输入LSTM中得到t+1时刻预测状态值
Figure DDA0003602985120000011
合并st
Figure DDA0003602985120000012
并输入全连接网络,得到预测Q值的最大值和对应动作
Figure DDA0003602985120000013
2、初始化算法参数,采集路况信息建立状态值st;3、将st输入主网络得到预测Q值取最大值的动作
Figure DDA0003602985120000014
采用1‑ε策略选择动作at;4、执行动作at并计算奖励rt和状态st+1;5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络参数;6、定时更新目标值网络参数,根据当前路况更新st,跳转至步骤3继续执行。该方法根据当前路况以及对当前路况的预测来计算Q值,能够更精确地对交通信号进行控制。

Description

一种基于记忆网络的深度强化学习交通信号控制方法
技术领域
本发明属于交通信息控制领域,具体涉及一种基于记忆网络的深度强化学习进行交通信号控制的方法。
背景技术
传统的交通信号控制是确定最佳交通信号周期和相位的固定配时控制(fixed-time control),其中最佳交通信号周期和相位于是基于历史交通流数据确定的,无法针对不同的路况动态调整交通信号周期和相位,所以很难适应实时交通状态的变化。在当今许多现代城市中,广泛使用的自适应交通信号控制系统,如SCATS和SCOOTS,严重依赖于人工设计的交通信号方案。交通信号方案通常由专家知识生成或由传统的交通信号控制方法计算得到。这种人工设置的交通信号方案是根据环路传感器检测到的交通量来动态选择的。然而,回路传感器只有在车辆通过时才会被激活。因此,它们只能通过它们提供车辆的部分信息。结果,信号无法感知和响应实时交通模式,而工程师需要这样做在一定的交通条件场景下,手动改变信号控制系统中的交通信号配时。
为了更有效的、实时的对当前交叉路口进行控制,近些年来,强化学习(RL)已成为当今世界上交通信号控制的一种重要解决途径。RL方法通过与环境进行交互来学习策略。一个通常的方法是把一个交通路口看做一个agent,把交通流状况看做是环境的输入,agent根据输入的状态(交通流数据)选取相应的action(例如设置的交通信号),最后根据环境收到的反馈来优化其奖励(如平均通行时间),这个方法也已经证实显著提高了交通信号控制的效率。
发明内容
发明目的:本发明提供一种基于记忆网络的深度强化学习交通信号控制方法,该方法根据当前路况以及对当前路况的预测来计算Q值,能够更精确地对交通信号进行控制。
技术方案:本发明采用如下技术方案:
一种基于记忆网络的深度强化学习交通信号控制方法,包括步骤:
S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值
Figure BDA0003602985100000021
将st
Figure BDA0003602985100000022
进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st,a,θ),以及Q(st,a,θ)最大值所对应的动作
Figure BDA0003602985100000023
即:
Figure BDA0003602985100000024
所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t时刻前时长为τ的时间段内驶离交通路口的车辆数量与进入交通路口的车辆数量之差;
S2、对主网络的参数θ进行随机初始化,将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st
S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作
Figure BDA0003602985100000025
以概率1-ε选择
Figure BDA0003602985100000026
以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0-1之间,且随训练逐渐减小,直至达到预设的固定值;
S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;
S5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络的参数θ;所述损失函数为:
Figure BDA0003602985100000027
其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;
S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。
进一步地,所述主网络中将st
Figure BDA0003602985100000028
进行合并的具体操作有如下两种:
第一种:将st
Figure BDA0003602985100000029
进行级联操作,得到
Figure BDA00036029851000000210
作为合并后的结果输入全连接网络。
第二种:将st
Figure BDA0003602985100000031
相加,得到
Figure BDA0003602985100000032
作为合并后的结果输入全连接网络。
进一步地,所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,其中时长τ为10s。
进一步地,当交通路口为十字路口,所述主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4。
进一步地,奖励函数值为:
Figure BDA0003602985100000033
其中mj为t时刻前时长为τ的时间段内十字路口中第j个出车道驶离交通路口的车辆数量,nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量。
进一步地,所述主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变。
进一步地,所述步骤S5中采用梯度下降法最小化损失函数得到主网络的参数。
进一步地,所述经验池采用容量固定的队列存储记录。
有益效果:本发明公开的基于记忆网络的深度强化学习交通信号控制方法具有如下优点:1、根据当前实时路况信息得到的状态值st和对下一时刻的预测状态值
Figure BDA0003602985100000034
来计算预测Q值,由此计算的预测Q值更加精确;2、采用LSTM对下一时刻的状态值进行预测,能够结合历史数据进行预测,得到精确的预测结果;3、采用驶离车辆总数与驶入车辆总数之差作为奖励,得到的交通信号调控策略能够减少交通拥堵;4、从当前交通路口驶入,意味着从上一路口驶离;从当前路口驶离,意味着驶入下一路口;由此,本发明中状态值和奖励函数的设置能够体现相邻交通路口之间的影响,能够更科学地进行交通信号相位的调控。
附图说明
图1为本发明公开的交通信号控制方法的流程图;
图2为本发明中主网络的结构组成图;
图3为本发明网络框架示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法,如图1所示,包括步骤:
S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值
Figure BDA0003602985100000041
将st
Figure BDA0003602985100000042
进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st,a,θ),以及Q(st,a,θ)最大值所对应的动作
Figure BDA0003602985100000043
即:
Figure BDA0003602985100000044
如图2所示,为主网络的结构示意图。
本发明中,主网络中将st
Figure BDA0003602985100000045
进行合并的具体操作可以采用如下两种:
第一种:将st
Figure BDA0003602985100000046
进行级联操作,得到
Figure BDA0003602985100000047
作为合并后的结果输入全连接网络。
第二种:将st
Figure BDA0003602985100000048
相加,得到
Figure BDA0003602985100000049
作为合并后的结果输入全连接网络。
通过信息合并,用于计算预测Q值的输入包括当前实时路况信息得到的状态值st和对下一时刻的预测状态值
Figure BDA00036029851000000410
由此计算的预测Q值更加精确。
所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t-1时刻到t时刻之间驶离交通路口的车辆数量与进入交通路口的车辆数量之差;
本实施例中,时长τ为10s,即统计当前时刻前10s内交通路口各进车道进入和驶离交通路口的车辆数量,以此来计算当前时刻的状态值和奖励函数值。
当交通路口为十字路口,每个路口均有进车道和出车道,则主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4;奖励函数值为:
Figure BDA0003602985100000051
其中mj为t时刻前时长为τ的时间段内十字路口中第j个出车道驶离交通路口的车辆数量,nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量。
本实施例中,主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变,即按照预设的交通信号灯相位变化来改变当前相位的状态。
S2、对主网络的参数θ进行随机初始化;主网络和目标值网络的参数包括LSTM的参数和全连接网络的参数;将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st
S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作
Figure BDA0003602985100000052
以概率1-ε选择
Figure BDA0003602985100000053
以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0-1之间,且随训练逐渐减小,直至达到预设的固定值;
S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;
本发明中经验池采用容量固定的队列存储记录,当队列已满时,将队头的记录删除,新的记录存储至队尾,以此来更新经验池,使经验池中的记录保持最新。
S5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络的参数θ;所述损失函数为:
Figure BDA0003602985100000054
其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;
本发明中中采用梯度下降法最小化损失函数得到主网络的参数,如图3所示,为本发明网络框架示意图。
S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。
本发明采用根据当前路况以及对当前路况的预测来计算Q值,能够得到更精确的Q值,从而对交通信号进行更精确的调控。

Claims (9)

1.一种基于记忆网络的深度强化学习交通信号控制方法,其特征在于,包括步骤:
S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值
Figure FDA0003602985090000011
将st
Figure FDA0003602985090000012
进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st,a,θ),以及Q(st,a,θ)最大值所对应的动作
Figure FDA0003602985090000013
即:
Figure FDA0003602985090000014
所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t时刻前时长为τ的时间段内驶离交通路口的车辆数量与进入交通路口的车辆数量之差;
S2、对主网络的参数θ进行随机初始化,将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st
S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作
Figure FDA0003602985090000015
以概率1-ε选择
Figure FDA0003602985090000016
以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0-1之间,且随训练逐渐减小,直至达到预设的固定值;
S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;
S5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络的参数θ;所述损失函数为:
Figure FDA0003602985090000017
其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;
S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。
2.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络中将st
Figure FDA0003602985090000021
进行合并的具体操作为将st
Figure FDA0003602985090000022
进行级联操作,得到
Figure FDA0003602985090000023
作为合并后的结果输入全连接网络。
3.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络中将st
Figure FDA0003602985090000024
进行合并的具体操作为将st
Figure FDA0003602985090000025
相加,得到
Figure FDA0003602985090000026
作为合并后的结果输入全连接网络。
4.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,其中时长τ为10s。
5.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,当交通路口为十字路口,所述主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4。
6.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,奖励函数值为:
Figure FDA0003602985090000027
其中mj为t时刻前时长为τ的时间段内交通路口中第j个出车道驶离交通路口的车辆数量,nj为t时刻前时长为τ的时间段内交通路口中第j个进车道进入交通路口的车辆数量。
7.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变。
8.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述步骤S5中采用梯度下降法最小化损失函数得到主网络的参数。
9.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述经验池采用容量固定的队列存储记录。
CN202210408279.1A 2022-04-19 2022-04-19 一种基于记忆网络的深度强化学习交通信号控制方法 Active CN114613168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210408279.1A CN114613168B (zh) 2022-04-19 2022-04-19 一种基于记忆网络的深度强化学习交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210408279.1A CN114613168B (zh) 2022-04-19 2022-04-19 一种基于记忆网络的深度强化学习交通信号控制方法

Publications (2)

Publication Number Publication Date
CN114613168A CN114613168A (zh) 2022-06-10
CN114613168B true CN114613168B (zh) 2023-02-24

Family

ID=81869228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210408279.1A Active CN114613168B (zh) 2022-04-19 2022-04-19 一种基于记忆网络的深度强化学习交通信号控制方法

Country Status (1)

Country Link
CN (1) CN114613168B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110047278A (zh) * 2019-03-30 2019-07-23 北京交通大学 一种基于深度强化学习的自适应交通信号控制系统及方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN113947928A (zh) * 2021-10-15 2022-01-18 河南工业大学 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
CN114120670A (zh) * 2021-11-25 2022-03-01 支付宝(杭州)信息技术有限公司 用于交通信号控制的方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3060900A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada System and method for deep reinforcement learning
CN110047278A (zh) * 2019-03-30 2019-07-23 北京交通大学 一种基于深度强化学习的自适应交通信号控制系统及方法
CN110060475A (zh) * 2019-04-17 2019-07-26 清华大学 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法
CN112489464A (zh) * 2020-11-19 2021-03-12 天津大学 一种具有位置感知的路口交通信号灯调控方法
CN113947928A (zh) * 2021-10-15 2022-01-18 河南工业大学 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
CN114120670A (zh) * 2021-11-25 2022-03-01 支付宝(杭州)信息技术有限公司 用于交通信号控制的方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Value-based deep reinforcement learning for adaptive isolated intersection signal control";WAN C H et.al;《IET Intelligent Transport Systems》;20181231;全文 *
"基于元学习的小样本遥感图像分类";甘正胜 等;《计算机工程与设计》;20220115;全文 *
"基于深度强化学习的交通信号自适应控制研究";丁文杰;《全国优秀硕士学位论文全文库 工程科技Ⅱ辑》;20210615;全文 *
"基于深度强化学习的城市交通信号控制综述";徐东伟 等;《交通运输工程与信息学报》;20220315;全文 *

Also Published As

Publication number Publication date
CN114613168A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
WO2021051870A1 (zh) 基于强化学习模型的信息控制方法、装置和计算机设备
EP3782143B1 (en) Method and system for multimodal deep traffic signal control
US11783702B2 (en) Method and system for adaptive cycle-level traffic signal control
CN107067764B (zh) 一种城市交叉口可变导向车道自适应控制方法
CN109993984B (zh) 一种车速引导方法及装置
CN114613169B (zh) 一种基于双经验池dqn的交通信号灯控制方法
WO2022258943A1 (en) Traffic control system
Shingate et al. Adaptive traffic control system using reinforcement learning
Shamsi et al. Reinforcement learning for traffic light control with emphasis on emergency vehicles
CN111047880B (zh) 路网的交通控制方法、装置、存储介质和管理设备
Wu et al. Deep reinforcement learning based traffic signal control: A comparative analysis
CN114613168B (zh) 一种基于记忆网络的深度强化学习交通信号控制方法
US20230249713A1 (en) Computer system and method for determining reliable vehicle control instructions
CN116758768A (zh) 一种全十字路口红绿灯动态调控方法
Kaths Integrating reliable speed advisory information and adaptive urban traffic control for connected vehicles
CN116824848A (zh) 基于贝叶斯深度q网络的交通信号优化控制方法
JPH08171694A (ja) 交通信号制御方法及び制御装置
CN114613170B (zh) 一种基于强化学习的交通信号灯路口协调控制方法
CN114743388B (zh) 一种基于强化学习的多交叉口信号自适应控制方法
CN115713860A (zh) 一种基于强化学习的高速公路交通管控方法
CN114399107A (zh) 一种交通状态感知信息的预测方法及系统
CN115047864A (zh) 模型训练的方法、无人设备的控制方法以及装置
CN109272757B (zh) 一种带闭环反馈的均衡计算相位绿灯时长的方法
Van Katwijk et al. Traffic adaptive control of a single intersection: A taxonomy of approaches
Chen et al. Adaptive traffic light control for competing vehicle and pedestrian flows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant