CN116863729A - 一种基于深度强化学习算法的多智能体道路交通信号控制方法 - Google Patents

一种基于深度强化学习算法的多智能体道路交通信号控制方法 Download PDF

Info

Publication number
CN116863729A
CN116863729A CN202310903088.7A CN202310903088A CN116863729A CN 116863729 A CN116863729 A CN 116863729A CN 202310903088 A CN202310903088 A CN 202310903088A CN 116863729 A CN116863729 A CN 116863729A
Authority
CN
China
Prior art keywords
traffic
action
agent
intersection
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310903088.7A
Other languages
English (en)
Inventor
刘丽娟
司桦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Jiaotong University
Original Assignee
Dalian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Jiaotong University filed Critical Dalian Jiaotong University
Priority to CN202310903088.7A priority Critical patent/CN116863729A/zh
Publication of CN116863729A publication Critical patent/CN116863729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • G08G1/0145Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种基于深度强化学习算法的道路交通信号控制优化方法,包括:根据路网环境信息和当前时刻路口车辆流量信息确认所述交叉口所处的状态信息;在原有MUDQN算法提出了多个动作空间,在不同的条件下,执行不同动作空间里的动作,并且提出了新的状态空间和新的奖励函数。利用经验回放池中存储的数据来训练我们的模型,使多个智能体最终达到NASH均衡状态。其中,该交通信号控制优化方法的输入参数为对应于所述信号灯的交叉口观测信息和相邻路口当前获得的奖励值,该交通信号控制模型的模块的输出参数为当前时刻所述信号灯的相位。

Description

一种基于深度强化学习算法的多智能体道路交通信号控制 方法
技术领域
本发明涉及一种交通信号控制方法,尤其涉及一种基于深度强化学习算法的多智能体道路交通信号控制方法。属于智慧交通车辆人工智能控制技术领域。
背景技术
近年来,交通拥堵浪费通行时间,加剧尾气排放,造成严重的经济损失。对交通信号进行控制能一定程度上缓解交通拥堵。目前,随着强化学习的快速发展,研究人员发现强化学习是解决交通信号控制问题最合适的框架,开始研究强化学习技术实现交通信号的协作。特别的,在大规模的道路网络中,交叉口之间的合作对于缓解交通拥堵至关重要。
发明内容
一种基于深度强化学习算法的多智能体道路交通信号控制方法的提出,目的是解决城市交通信号控制方案的不足,实现了充分利用城市道路资源,减少道路潜在的车堵塞问题,提高了车辆通过路口的效率和乘客的安全舒适度。
本发明的技术解决方案是这样实现的:
一种基于深度强化学习算法的多智能体道路交通信号控制方法,其特征在于,使用仿真软件SUMO创建多个不同岔路口道路环境,根据不同的岔路口设计不同的动作空间、状态空间和奖励函数,基于深度Q学习算法构建多智能体Q网络,然后训练直至收敛并且智能体之间达到Nash均衡,最后通过SUMO中的Traci接口达到和环境交互,该发明方法包括以下步骤:
步骤一、将大规模交通信号系统控制的交通路网构建为一个有向图,有向图的节点表示交通路口,边表示道路,大规模交通信号控制系统模型包括多个智能体,每个智能体与交通路网中的交通路口一一对应,猎取道路交叉口信息和交通车辆流量信息,根据以上数据用仿真软件对交通干线进行仿真,还原真实道路交叉口车辆交汇信息;
步骤二、从仿真环境中获取交叉口环境的信息,根据获取的环境信息设置深度强化学习模型的状态空间,状态空间作为深度强化学习模型的输入,深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成,模型的状态空间O表示为:
其中,表示智能体i当前的动作A,/>表示智能体i的F个车流方向的等待车的车辆数,/>表示智能体i的相邻智能体准备去往智能体i的F*个车流方向的等待车的车辆数,/> 表示智能体i相邻的R个智能体当前的Q值,也称期望奖励值;
步骤三、设置深度强化学习模型的动作空间,模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成,不同的智能体有不同的动作空间,并且每个智能体拥有两个动作空间A和A*,同一个智能体的两个状态空间A和A*的执行动作时长不同,用来应对道路不同时期的变化流量的情况,当路口等待车辆数大于交叉口流量阈值时,使用动作空间A,否则使用动作空间A*,四相位十字路口智能体i的动作空间表示为:
Ai/Ai*=[a1,a2,a3,a4],
其中,[a1,a2,a3,a4]分别为[WET,NST,WEL,NSL],WET代表东西直行通行,NST代表南北直行通行,WEL代表东西左转通行,NSL代表南北左转通行;
二相位闸道合流智能体j的动作空间表示为:
Aj/Aj*=[a1,a2]
其中[a1,a2]分别为[P,S],P表示可以通行,S表示不可以通行;
当智能体执行的动作发生变化时,即绿灯通行车道发生变化时需要插入执行黄灯相位,以减缓绿灯相位突然变化带来的车辆安全问题;
步骤四、设置深度强化学习模型的奖励值函数,当交叉口根据模型的输出做出相应的动作后,根据变化的环境信息给交叉口做出的动作进行打分也就是奖励值,不同智能体所处的环境不同,奖励函数也不同:
(1)R1函数是指十字路口或者丁字路口的奖励函数:
R1=ω1*rpeople2*rvehicle
其中,ω1,ω2分别对应的权重,ω12=1;rpeople=∑kwt(k)-∑kwt-1(k),表示t时刻所有行人等待的总时长和t-1时刻道路上所有行人等待的总时长的差值,k表示该路口所有的人行道;rvehicle=∑lpt(l)-∑lpt-1(l),表示t时刻当前道路上所有车辆速度为0的总时长和t-1时刻道路上所有车辆速度为0的总时长的差值,l表示该路口所有的进车道;
(2)闸道合流的奖励值函数R2
R2=μ1*rsafety2*rcom
其中,rsafety为安全子奖励,rcom舒适子奖励,μ12分别为对应子奖励的权重,μ12=1;
rsafety安全子奖励根据当前智能体动作做出第一次判断,当智能体做出动作S时,安全子奖励rsafety=0;当智能体执行动作为P时,再根据车辆间的间距做出第二次判断,当车辆间距小于最小安全间距时,安全子奖励rsafety=-100,当车辆间距大于最小安全间距时,舒适子奖励其中di,e表示自车纵向位置,di,fdi,h分别表示主车道前后车辆的纵向位置,si,e表示自车纵向速度,si,f,si,h分别表示主车道前后车辆的纵向速度;
rcom舒适子奖励,
其中rwait是指当前车辆的等待时长,rdif表示当前车辆的速度和主车道上海前后车辆的平均速度的差值,分别为对应子奖励的权重,/>
步骤五、初始化经验回放池,获取大规模交通信号系统控制的多个智能体的状态、当前状态下的动作、期望奖励值动作以及完成动作后下一个状态存入经验回放池,当经验回放池中的数据存储量大于最小存储量时,从中抽取一批存储的数据用以神经网络训练;每抽取一批数据训练称作一集,设置目标抽取的训练集数;
步骤六、构建深度神经网络来拟合状态-动作价值函数,神经网络的输入是由从仿真环境中获取的状态信息构成的状态空间,神经网络的输出为输入状态下的每个动作的Q值,即当前状态下每个动作的期望奖励值,其中智能体利用Q学习方程来更新Q值,Q学习方程为:
Q(s,a)=rt+γ*maxaQ(Ot+1,a)a∈A/A*
其中rt为当前动作的奖励,γ是损失因子,maxQ(Ot+1,a)表示将状态Ot+1输入的神经网络,然后输出的最大Q值;从经验回放池中抽取存储的数据来,使用神经网络输出的Q值和更新后的Q值通过均方差损失函数来训练神经网络网络,直至训练集数达到要求的目标训练集数,使各个智能体之间达到NSAH均衡并且目标网络收敛;
步骤七、通过Traci接口获取SUMO仿真软件产生的实时车辆状态信息输入训练完成的多智能体道路交通信号控制模型,每个路口得出对应的决策行为,并返回SUMO执行相应的相位。
与现有技术相比较,本发明的优点是显而易见的,主要表现在:
1、本发明提出了多动作空间的方法,当智能体所处的环境或者某一环境条件达到某一个阈值时,更换当前的动作空间,使当前动作空间更符合的当前环境;
2、本发明定义了新的交叉口状态表示方法,不在局限于传统的单智能体路口的状态表示方法,加入了预计进入该路口的的车辆数和相邻路口的奖励值,可以有效地提高多个路口之间的联系;
3、本发明定义了新的奖励函数,并且对于不同的插口场景使用不同的奖励函数,对于十字路口或丁字口使用的奖励函数包含了车辆等待时间和行人等待时间,在考虑车辆快速通过的情况下,将行人的舒适感也考虑在内;对于闸道合流的情况下,将车辆安全和乘客舒适度考虑在内。这样可以避免传统的强化学习过度考虑解决道路而忽略行人和乘客的舒适度问题。
附图说明
本发明共有附图2幅。
图1是本发明的实施例中的路网示意图;
图2是本发明的控制方法流程图。
具体实施方式
如图1、2所示的一种基于深度强化学习算法的多智能体道路交通信号控制方法,其特征在于,使用仿真软件SUMO创建多个不同岔路口道路环境,根据不同的岔路口设计不同的动作空间、状态空间和奖励函数,基于深度Q学习算法构建多智能体Q网络,然后训练直至收敛并且智能体之间达到Nash均衡,最后通过SUMO中的Traci接口达到和环境交互,该发明方法包括以下步骤:
步骤一、将大规模交通信号系统控制的交通路网构建为一个有向图,有向图的节点表示交通路口,边表示道路,大规模交通信号控制系统模型包括多个智能体,每个智能体与交通路网中的交通路口一一对应,猎取道路交叉口信息和交通车辆流量信息,根据以上数据用仿真软件对交通干线进行仿真,还原真实道路交叉口车辆交汇信息;
步骤二、从仿真环境中获取交叉口环境的信息,根据获取的环境信息设置深度强化学习模型的状态空间,状态空间作为深度强化学习模型的输入,深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成,模型的状态空间O表示为:
其中,表示智能体i当前的动作A,/> 表示智能体i的F个车流方向的等待车的车辆数,/>表示智能体i的相邻智能体准备去往智能体i的F*个车流方向的等待车的车辆数,/>表示智能体i相邻的R个智能体当前的Q值,也称期望奖励值;
步骤三、设置深度强化学习模型的动作空间,模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成,不同的智能体有不同的动作空间,并且每个智能体拥有两个动作空间A和A*,同一个智能体的两个状态空间A和A*的执行动作时长不同,用来应对道路不同时期的变化流量的情况,当路口等待车辆数大于交叉口流量阈值时,使用动作空间A,否则使用动作空间A*,四相位十字路口智能体i的动作空间表示为:
Ai/Ai*=[a1,a2,a3,a4],
其中,[a1,a2,a3,a4]分别为[WET,NST,WEL,NSL],WET代表东西直行通行,NST代表南北直行通行,WEL代表东西左转通行,NSL代表南北左转通行;
二相位闸道合流智能体j的动作空间表示为:
Aj/Aj*=[a1,a2]
其中[a1,a2]分别为[P,S],P表示可以通行,S表示不可以通行;
当智能体执行的动作发生变化时,即绿灯通行车道发生变化时需要插入执行黄灯相位,以减缓绿灯相位突然变化带来的车辆安全问题;
步骤四、设置深度强化学习模型的奖励值函数,当交叉口根据模型的输出做出相应的动作后,根据变化的环境信息给交叉口做出的动作进行打分也就是奖励值,不同智能体所处的环境不同,奖励函数也不同:
(1)R1函数是指十字路口或者丁字路口的奖励函数:
R1=ω1*rpeople2*rvehicle
其中,ω1,ω2分别对应的权重,ω12=1;rpeople=∑kwt(k)-∑kwt-1(k),表示t时刻所有行人等待的总时长和t-1时刻道路上所有行人等待的总时长的差值,k表示该路口所有的人行道;rvehicle=∑lpt(l)-∑lpt-1(l),表示t时刻当前道路上所有车辆速度为0的总时长和t-1时刻道路上所有车辆速度为0的总时长的差值,l表示该路口所有的进车道;
(2)闸道合流的奖励值函数R2
R2=μ1*rsafety2*rcom
其中,rsafety为安全子奖励,rcom舒适子奖励,μ12分别为对应子奖励的权重,μ12=1;
rsafety安全子奖励根据当前智能体动作做出第一次判断,当智能体做出动作S时,安全子奖励rsafety=0;当智能体执行动作为P时,再根据车辆间的间距做出第二次判断,当车辆间距小于最小安全间距时,安全子奖励rsafety=-100,当车辆间距大于最小安全间距时,舒适子奖励其中di,e表示自车纵向位置,di,fdi,h分别表示主车道前后车辆的纵向位置,si,e表示自车纵向速度,si,f,si,h分别表示主车道前后车辆的纵向速度;
rcom舒适子奖励,
其中rwait是指当前车辆的等待时长,rdif表示当前车辆的速度和主车道上海前后车辆的平均速度的差值,分别为对应子奖励的权重,/>
步骤五、初始化经验回放池,获取大规模交通信号系统控制的多个智能体的状态、当前状态下的动作、期望奖励值动作以及完成动作后下一个状态存入经验回放池,当经验回放池中的数据存储量大于最小存储量时,从中抽取一批存储的数据用以神经网络训练;每抽取一批数据训练称作一集,设置目标抽取的训练集数;
步骤六、构建深度神经网络来拟合状态-动作价值函数,神经网络的输入是由从仿真环境中获取的状态信息构成的状态空间,神经网络的输出为输入状态下的每个动作的Q值,即当前状态下每个动作的期望奖励值,其中智能体利用Q学习方程来更新Q值,Q学习方程为:
Q(s,a)=rt+γ*maxaQ(Ot+1,a)a∈A/A*
其中rt为当前动作的奖励,γ是损失因子,maxQ(Ot+1,a)表示将状态Ot+1输入的神经网络,然后输出的最大Q值;从经验回放池中抽取存储的数据来,使用神经网络输出的Q值和更新后的Q值通过均方差损失函数来训练神经网络网络,直至训练集数达到要求的目标训练集数,使各个智能体之间达到NSAH均衡并且目标网络收敛;
步骤七、通过Traci接口获取SUMO仿真软件产生的实时车辆状态信息输入训练完成的多智能体道路交通信号控制模型,每个路口得出对应的决策行为,并返回SUMO执行相应的相位。

Claims (1)

1.一种基于深度强化学习算法的多智能体道路交通信号控制方法,其特征在于,使用仿真软件SUMO创建多个不同岔路口道路环境,根据不同的岔路口设计不同的动作空间、状态空间和奖励函数,基于深度Q学习算法构建多智能体Q网络,然后训练直至收敛并且智能体之间达到Nash均衡,最后通过SUMO中的Traci接口达到和环境交互,该发明方法包括以下步骤:
步骤一、将大规模交通信号系统控制的交通路网构建为一个有向图,有向图的节点表示交通路口,边表示道路,大规模交通信号控制系统模型包括多个智能体,每个智能体与交通路网中的交通路口一一对应,猎取道路交叉口信息和交通车辆流量信息,根据以上数据用仿真软件对交通干线进行仿真,还原真实道路交叉口车辆交汇信息;
步骤二、从仿真环境中获取交叉口环境的信息,根据获取的环境信息设置深度强化学习模型的状态空间,状态空间作为深度强化学习模型的输入,深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成,模型的状态空间O表示为:
其中,表示智能体i当前的动作A,/>表示智能体i的F个车流方向的等待车的车辆数,/>表示智能体i的相邻智能体准备去往智能体i的F*个车流方向的等待车的车辆数,/> 表示智能体i相邻的R个智能体当前的Q值,也称期望奖励值;
步骤三、设置深度强化学习模型的动作空间,模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成,不同的智能体有不同的动作空间,并且每个智能体拥有两个动作空间A和A*,同一个智能体的两个状态空间A和A*的执行动作时长不同,用来应对道路不同时期的变化流量的情况,当路口等待车辆数大于交叉口流量阈值时,使用动作空间A,否则使用动作空间A*,四相位十字路口智能体i的动作空间表示为:
Ai/Ai*=[a1,a2,a3,a4],
其中,[a1,a2,a3,a4]分别为[WET,NST,WEL,NSL],WET代表东西直行通行,NST代表南北直行通行,WEL代表东西左转通行,NSL代表南北左转通行;
二相位闸道合流智能体j的动作空间表示为:
Aj/Aj*=[a1,a2]
其中[a1,a2]分别为[P,S],P表示可以通行,S表示不可以通行;
当智能体执行的动作发生变化时,即绿灯通行车道发生变化时需要插入执行黄灯相位,以减缓绿灯相位突然变化带来的车辆安全问题;
步骤四、设置深度强化学习模型的奖励值函数,当交叉口根据模型的输出做出相应的动作后,根据变化的环境信息给交叉口做出的动作进行打分也就是奖励值,不同智能体所处的环境不同,奖励函数也不同:
(1)R1函数是指十字路口或者丁字路口的奖励函数:
R1=ω1*rpeople2*rvehicle
其中,ω1,ω2分别对应的权重,ω12=1;rpeople=∑kwt(k)-∑kwt-1(k),表示t时刻所有行人等待的总时长和t-1时刻道路上所有行人等待的总时长的差值,k表示该路口所有的人行道;rvehicle=∑lpt(l)-∑lpt-1(l),表示t时刻当前道路上所有车辆速度为0的总时长和t-1时刻道路上所有车辆速度为0的总时长的差值,l表示该路口所有的进车道;
(2)闸道合流的奖励值函数R2
R2=μ1*rsafety2*rcom
其中,rsafety为安全子奖励,rcom舒适子奖励,μ12分别为对应子奖励的权重,μ12=1;
rsafety安全子奖励根据当前智能体动作做出第一次判断,当智能体做出动作S时,安全子奖励rsafety=0;当智能体执行动作为P时,再根据车辆间的间距做出第二次判断,当车辆间距小于最小安全间距时,安全子奖励rsafety=-100,当车辆间距大于最小安全间距时,舒适子奖励其中di,e表示自车纵向位置,di,fdi,h分别表示主车道前后车辆的纵向位置,si,e表示自车纵向速度,si,f,si,h分别表示主车道前后车辆的纵向速度;
rcom舒适子奖励,
其中rwait是指当前车辆的等待时长,rdif表示当前车辆的速度和主车道上海前后车辆的平均速度的差值,分别为对应子奖励的权重,/>
步骤五、初始化经验回放池,获取大规模交通信号系统控制的多个智能体的状态、当前状态下的动作、期望奖励值动作以及完成动作后下一个状态存入经验回放池,当经验回放池中的数据存储量大于最小存储量时,从中抽取一批存储的数据用以神经网络训练;每抽取一批数据训练称作一集,设置目标抽取的训练集数;
步骤六、构建深度神经网络来拟合状态-动作价值函数,神经网络的输入是由从仿真环境中获取的状态信息构成的状态空间,神经网络的输出为输入状态下的每个动作的Q值,即当前状态下每个动作的期望奖励值,其中智能体利用Q学习方程来更新Q值,Q学习方程为:
Q(s,a)=rt+γ*maxaQ(Ot+1,a)a∈A/A*
其中rt为当前动作的奖励,γ是损失因子,maxQ(Ot+1,a)表示将状态Ot+1输入的神经网络,然后输出的最大Q值;从经验回放池中抽取存储的数据来,使用神经网络输出的Q值和更新后的Q值通过均方差损失函数来训练神经网络网络,直至训练集数达到要求的目标训练集数,使各个智能体之间达到NSAH均衡并且目标网络收敛;
步骤七、通过Traci接口获取SUMO仿真软件产生的实时车辆状态信息输入训练完成的多智能体道路交通信号控制模型,每个路口得出对应的决策行为,并返回SUMO执行相应的相位。
CN202310903088.7A 2023-07-21 2023-07-21 一种基于深度强化学习算法的多智能体道路交通信号控制方法 Pending CN116863729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310903088.7A CN116863729A (zh) 2023-07-21 2023-07-21 一种基于深度强化学习算法的多智能体道路交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310903088.7A CN116863729A (zh) 2023-07-21 2023-07-21 一种基于深度强化学习算法的多智能体道路交通信号控制方法

Publications (1)

Publication Number Publication Date
CN116863729A true CN116863729A (zh) 2023-10-10

Family

ID=88221414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310903088.7A Pending CN116863729A (zh) 2023-07-21 2023-07-21 一种基于深度强化学习算法的多智能体道路交通信号控制方法

Country Status (1)

Country Link
CN (1) CN116863729A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118053311A (zh) * 2024-04-16 2024-05-17 联易云科(北京)科技有限公司 基于多智能体强化学习模型的交通信号控制方法和装置
CN118097989A (zh) * 2024-04-28 2024-05-28 湘江实验室 基于数字孪生的多智能体交通区域信控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118053311A (zh) * 2024-04-16 2024-05-17 联易云科(北京)科技有限公司 基于多智能体强化学习模型的交通信号控制方法和装置
CN118097989A (zh) * 2024-04-28 2024-05-28 湘江实验室 基于数字孪生的多智能体交通区域信控方法

Similar Documents

Publication Publication Date Title
CN110060475B (zh) 一种基于深度强化学习的多交叉口信号灯协同控制方法
CN116863729A (zh) 一种基于深度强化学习算法的多智能体道路交通信号控制方法
CN112700664B (zh) 一种基于深度强化学习的交通信号配时优化方法
CN111785045B (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN114038212B (zh) 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN111915894A (zh) 基于深度强化学习的可变车道及交通信号协同控制方法
CN113299078B (zh) 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN111625989B (zh) 一种基于a3c-sru的智能车汇入车流方法及系统
CN114038216B (zh) 一种基于路网划分和边界流量控制的信号灯管控方法
CN112017439B (zh) 一种自动驾驶交叉口行人过街摆渡车控制方法
CN113963555A (zh) 一种结合状态预测的深度强化学习交通信号控制方法
CN112927505A (zh) 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN113392577B (zh) 一种基于深度强化学习的区域边界主交叉口信号控制方法
CN113223324B (zh) 高速匝道入口合流的控制方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN117636661A (zh) 一种无信号交叉口完全自主交通流通行控制方法
CN116524745B (zh) 一种云边协同区域交通信号动态配时系统及方法
CN115762128B (zh) 一种基于自注意力机制的深度强化学习交通信号控制方法
CN115331460B (zh) 一种基于深度强化学习的大规模交通信号控制方法及装置
CN113077642B (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质
CN118155409A (zh) 一种车辆轨迹和交叉口信号协同优化方法及系统
CN118097989A (zh) 基于数字孪生的多智能体交通区域信控方法
Ma et al. Optimization of Signal Timing Coordination at Short-spaced Intersections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination