CN109215355A - 一种基于深度强化学习的单点交叉口信号配时优化方法 - Google Patents

一种基于深度强化学习的单点交叉口信号配时优化方法 Download PDF

Info

Publication number
CN109215355A
CN109215355A CN201810902305.XA CN201810902305A CN109215355A CN 109215355 A CN109215355 A CN 109215355A CN 201810902305 A CN201810902305 A CN 201810902305A CN 109215355 A CN109215355 A CN 109215355A
Authority
CN
China
Prior art keywords
signal timing
carried out
data
input
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810902305.XA
Other languages
English (en)
Inventor
陈鹏
朱泽茂
鲁光泉
王云鹏
余贵珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810902305.XA priority Critical patent/CN109215355A/zh
Publication of CN109215355A publication Critical patent/CN109215355A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习算法对单点交叉口进行自适应信号配时优化的方法,旨在通过实际道路数据,利用深度强化学习对单点交叉口进行仿真配时优化,并最终将仿真方案应用于实际道路,该方法克服了现有自适应信号配时方法的弊端,提供了一种可以进行高维输入,快速收敛的一种新颖算法。在实施本方法的过程中,首先对原始原始数据进行矩阵化处理,通过经验回放策略随机抽取输入数据,并利用ε‑贪婪策略对强化学习的动作进行选择,通过不断地迭代训练,最终得到一个信号配时的最优方案。

Description

一种基于深度强化学习的单点交叉口信号配时优化方法
技术领域
本发明公开了一种对单点信号交叉口进行控制优化的深度强化学习方法,属于智能交通技术领域。
背景技术
随着世界经济的发展和城市化的快速推进,城市的规模以及人口也在不断地扩大、增加。虽然城市的扩张一定程度上促进了经济的发展,但是越来越多的私家车的出现造成了城市交通的拥堵。而为了加强对城市道路的管理,减少交通事故及拥堵的发生,需要在交叉口设置交通信号灯,从而提高道路使用率,改善交通状况。目前的交通信号控制大致分为三类:(1)固定信号配时。这种配时策略根据以往的交通数据信息,设置好固定的绿信比及信号周期,它的优点是成本低,可以对流量较小的道路进行管控,但是不适用于流量较大的道路。(2)感应信号配时。这种配时策略没有固定的绿信比和相位时长,其工作原理是在车道进口设置车辆到达检测器,检测道路的车流量。在这种策略下,信号灯的周期、绿信比及相位变化会根据交通路口的交通流量的需要变化而变化,控制方式比较灵活。但是其缺点也比较明显,因为需要安装检测器,它的安装及维护成本较高。(3)自适应信号配时。这种配时策略和感应信号配时类似,也是通过检测器检测到交通流信息,然后将这些数据实时的通过网络传到上位机,上位机实时的产生最佳的绿灯配时方案,并付诸实施,这种策略可以将一段时间内汽车的放行量达到最大,或者使其它交通控制评价指标如延误、停车次数等最小。这种策略可以对交叉口的信号机进行最优或次最优的信号配时优化,使其运行方案可以根据交通流的变化而自适应的调整,从而提高车辆在交叉口的通行效率。
而目前的自适应信号控制算法主要有以下几种:(1)模糊算法。这种算法可以把信号控制经验用模糊原则表达出来,从而实现决策推理的过程。Pappis等人就将模糊控制应用在交通控制上,通过建立相应的模糊规则从而实现对各种交通状况进行模糊控制。该方法可以应用在单点交叉口甚至区域交通控制中,但是这种方法不能够充分表示实时交通的不确定性。(2)遗传算法。常云涛等人提出的基于遗传算法的交通配时信号优化方法整合了基于延时和宽带模型方法的特点,同时也对信号周期、绿信比、相位差和相序进行了优化。但是遗传算法的计算量太大,很难做到实时信息的反馈与优化,并且其优化参数难以确定。(3)数据驱动控制。其在不能完全获取交通系统状态信息、对交通系统内部机理不理解的情况下可以自主寻找隐藏在系统中的控制信息,它具有无模型、自学习的特点。但是其对复杂交通系统的控制仍然存在许多的不足,例如鲁棒性较差,不够稳定等。
强化学习算法应用在交通领域的时间比较早,可以对简单的交通信号配时进行控制优化,但是对于传统的强化学习算法来说,虽然它可以解决简单的控制问题,由于其本身算法的限制,它不能解决输入维度高的问题,同时计算过程十分复杂繁琐,所以不适用于现今的交通信号控制。
发明内容
1.发明目的
本发明针对当前城市道路在交通流量比较大的时候容易形成交通拥堵的现状,提出一种基于深度强化学习的交通信号优化方法,该方法可在复杂交通环境下对交通信号配时进行优化,可以有效地减少交通拥堵,提高通行效率。
2.本发明所采用的技术方案
本发明是一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,具体实现步骤如下所示:
(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。
(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。
(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。
(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。
在用此方法计算最优策略的过程中,需要考虑强化学习的特殊性,因为由强化学习采集的数据是独立同分布的,它们之间有很强的关联性。而在深度强化学习方法中利用经验回放的办法可以降低数据间的关联性,从而使训练的神经网络更加稳定且更容易收敛。此外由于本事例利用了实际的历史数据作为输入,那么训练学习完成后的算法可对实际道路进行信号配时的优化,从而减少实际道路中的交通拥堵。
3.本发明所产生的技术效果
本发明基于实际道路数据,借助SUMO交通仿真软件并利用深度强化学习的方法进行交通信号的配时优化,其优势之处在于:
1、可以很大程度上减少交通拥堵。这种方法通过利用深度卷积神经网络优秀的感知和表达能力对输入特征进行提取,降低了输入的复杂性,并利用强化学习贪婪策略学习最优或次最优的单点交叉口信号配时优化策略。
2、可以在实际道路中使用。通过输入真实的实际道路交通流量信息,并在仿真中对算法进行有效的训练,从而能将训练学习好的算法应用到实际道路中。
3、具有相对良好的稳定性。因为本方法利用经验重放的办法对目标网络进行学习,能够收敛于良好的交通信号控制策略,从而提高了算法的稳定性。
4.附图说明
图1为本发明的实施流程图
图2为进行信号配时优化的单点交叉口
图3为SUMO仿真时的视频截图
图4为仿真场景转换后的矩阵图
图5为卷积神经网络结构图和输入输出过程
5.具体实施方式
下面结合附图进一步详细叙述本发明的技术方案,但本发明的实施和保护不局限于以下所述内容。
本发明基于深度强化学习,利用交通仿真软件SUMO进行仿真迭代,最终实现对单点交叉口的自适应配时优化。具体实施步骤如下所示:
步骤一:通过SUMO仿真软件建立单点交叉口,这里按照实际道路建立单向三车道路口。如图2所示,其中最内侧车道为左转车道,而中间车道是直行车道,右侧车道为直行与右转车道。建立交叉口之后,为进入交叉口的四条道路输入每个车道的车流量,这里输入的车流量为采集的实际道路交叉口的历史流量数据信息(连续一个月的交通数据信息),在本事例中把每天的数据以24小时单位,每隔一个小时划为一个数据区间,并计算出由此划分的每个时段的平均流量,此外考虑数据是否取自周末,因为在实际道路中,工作日的某一时段的交通流量不同于在周末相同时段的交通流量,区分是否为周末之后,最终将不同时刻的平均流量输入到SUMO仿真软件中,并初始化信号配时策略。
步骤二:强化学习agent的定义。强化学习有三个主要参数,分别是:状态集S、动作集A和回报R,其中本事例中的状态集S包含排队长度和车辆速度等信息,而动作集A包含4个动作,分别是东西直行、东西左转、南北直行和南北左转。同时当有车在停车线前停车时,其等待通过交叉口的时间即定义为延误时长,这里将某一状态时的所有车辆的延误时长累加定义为累积延误时长,此时设定r1是在上一状态时观测到的累积延误时长,而r2是当前状态下观测到的累积延误时长,则定义的回报函数r为
r=r1-r2 (1)
而本事例的最终目的是使每个时间段内车辆的总累积延误时长达到最小,由此定义最大累积Q函数为:
上式是执行完策略π之后的最大累积Q函数期望,γ∈[0,1]是一个折扣系数,可确保函数可以收敛于一个最优策略。
步骤三:对数据进行预处理并对神经网络参数进行设置。在本步骤中,当输入流量和初始信号配时后,仿真的图像如图3所示,然后将仿真时的车辆位置、速度和时间等信息转换为如图4所示的矩阵图,在已知车道长度为d的情况下,从停车线起划分单元网格,网格长度d约为平均车长加上平均车间距。此时若有车占据某一网格,在平面矩阵中将此位置标为1,若某网格中没有车,则标为0。根据这个原则,则可在矩阵左侧将各个车道的车辆数表示出来。此本方法中将车速小于15kph的车定义为正在排队的车辆,此时在矩阵右侧记录相对应的每辆车车速,在矩阵右上侧为输入数据的时段,标有数字1所对应的时刻代表着输入的数据来自于此时段,而矩阵右下角的数字1代表数据来自于周末,其上方的数字则表示交叉口信号状态。
本方法中将矩阵中的信号状态由此定义:[0,0]为东西直行,[0,1]为东西左转,[1,0]为南北直行,[1,1]南北左转。
将以上矩阵输入到卷积神经网络中,而在本方法中,卷积神经网络作为Q函数的网络,存在以下公式:
Q(s,a;θ)≈Qπ(s,a) (3)
在公式(3)中,通过更新参数θ来实现对最大值函数Q的更新。本方法中采用的卷积神经网络结构如图5所示,是由两个卷积层和两个全连接层组成,通过对输入图像矩阵进行局部感知、卷积以及池化,最后映射出所有的动作集。卷积神经网络能够很好地逼近目标函数,从而得到最优策略。而在进行卷积训练前,需对输入的数据进行预处理,由于强化学习采集到的数据一般连续且具有很强的关联性,所以为了保证函数的收敛性需要对数据集进行处理,这里采用经验回放的方法,即已知在某时刻的状态为st,执行完动作at后得到一个即时回报rt和执行完动作at之后的新状态st+1,此时将(st,at,rt,st+1)存放进入一个经验回放池D中,这个过程会每隔几秒进行一次,每次都能存入新数据,而当经验回放池D被存放满之后,后续存入的数据会将最旧的数据替换掉,当进行训练时,会随机从经验回放池D中抽取数据输入,从而减少输入数据间的关联性,保证目标函数能够收敛。而目标函数的定义为:
其中θ-为目标函数中的参数,它由Q函数的参数θ来更新,而神经网络逼近的目标函数采用随机梯度下降法来更新参数θ。其中θ-与θ的更新关系如下式所示:
θ-=βθ+(1-β)θ- (5)
步骤四:通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。在训练迭代的过程中遵循一个目标,即找到一个最优策略使最大累积Q函数最大:
而在寻找最优策略的过程中遵循ε-贪婪策略的原则,其中0<ε<1,即当在执行动作的时候,agent会以1-ε的概率执行之前使最大累积Q函数最大的动作,而为了保证算法有一定的探索性,agent会以ε的概率执行其他的探索性动作,使算法更容易找到最优策略。ε的值会随着训练的进展逐渐趋于0,使算法能够收敛于最优策略。
而整个方法的步骤即为获取系统交通状态s后,根据ε-贪婪策略随机执行一个动作a并得到一个回报r,最终目的是使选取的动作策略可以使最大累积Q函数最大,同时利用卷积神经网络不断逼近目标值函数,此过程一直重复,直到算法收敛,得到最优策略。
而在对实际道路交叉口信号机进行配时优化时,利用已经训练好的算法,对不同时段的交通信号配时进行优化,区分是否为双休日之后,本方法可以应用在全年任意时间段,对相应的交叉口进行最优信号控制。
上述实例为本发明较佳的实施方式,但是本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于SUMO交通仿真软件,通过深度强化学习的方法对单点交叉口信号配时进行优化的方法,其特征在于包括如下步骤:
(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口,并输入实际道路中的流量及信号初始配时方案。
(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息,动作集A包含4种选择,学习时4种动作会进行随机选择,同时定义回报R和Q函数。
(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理,然后设置神经网络的层数及初始权重后进行训练,在训练时利用随机梯度下降的方法来更新神经网络的权重,由此来逼近动作值函数。
(4)通过神经网络与强化学习的不断迭代,得到最大的累积Q函数,并得出最优策略。
2.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:将实际道路数据输入网络,训练学习出一套适合于该交叉口的信号配时优化方案。
3.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:输入深度神经网络的矩阵的新颖性,将仿真时的车辆位置、速度和时间等信息转换为矩阵图,在已知车道长度为d的情况下,从停车线起划分单元网格,网格长度d约为平均车长加上平均车间距。此时若有车占据某一网格,在平面矩阵中将此位置标为1,若某网格中没有车,则标为0。根据这个原则,则可在矩阵左侧将各个车道的车辆数表示。将车速小于15kph的车定义为正在排队的车辆,此时在矩阵右侧记录相对应的每辆车车速,在矩阵右上侧为输入数据的时段,标有数字1所对应的时刻代表着输入的数据来自于此时段,而矩阵右下角的数字1代表数据来自于周末,其上方的数字则表示交叉口信号状态。矩阵中的信号状态定义为:[0,0]为东西直行,[0,1]为东西左转,[1,0]为南北直行,[1,1]南北左转。
4.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:利用深度神经网络逼近值函数的最优解,并对值函数和目标函数的参数进行迭代更新。
5.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法,其特征在于:通过ε-贪婪策略和经验池回放的方法对动作及输入进行随机选择,从而使算法能够收敛于最优策略。
CN201810902305.XA 2018-08-09 2018-08-09 一种基于深度强化学习的单点交叉口信号配时优化方法 Pending CN109215355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810902305.XA CN109215355A (zh) 2018-08-09 2018-08-09 一种基于深度强化学习的单点交叉口信号配时优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810902305.XA CN109215355A (zh) 2018-08-09 2018-08-09 一种基于深度强化学习的单点交叉口信号配时优化方法

Publications (1)

Publication Number Publication Date
CN109215355A true CN109215355A (zh) 2019-01-15

Family

ID=64988226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810902305.XA Pending CN109215355A (zh) 2018-08-09 2018-08-09 一种基于深度强化学习的单点交叉口信号配时优化方法

Country Status (1)

Country Link
CN (1) CN109215355A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109887284A (zh) * 2019-03-13 2019-06-14 银江股份有限公司 一种智慧城市交通信号控制推荐方法、系统及装置
CN110164150A (zh) * 2019-06-10 2019-08-23 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110223513A (zh) * 2019-05-24 2019-09-10 宋爽 基于人工智能双向绿波的交通信号控制方法和系统
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN110516380A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种基于车辆行驶仿真数据的深度强化测试方法和系统
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法
CN111127892A (zh) * 2019-12-27 2020-05-08 北京易华录信息技术股份有限公司 交叉口配时参数优化模型构建、交叉口信号优化方法
CN111243299A (zh) * 2020-01-20 2020-06-05 浙江工业大学 一种基于3dqn_pser算法的单交叉口信号控制方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111489568A (zh) * 2019-01-25 2020-08-04 阿里巴巴集团控股有限公司 交通信号灯的调控方法、装置及计算机可读存储介质
CN111583675A (zh) * 2020-05-14 2020-08-25 吴钢 一种区域路网交通信号灯协调控制系统和方法
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN111696342A (zh) * 2019-03-11 2020-09-22 阿里巴巴集团控股有限公司 交通信号配时优化方法、装置、电子设备及可读存储介质
CN111710167A (zh) * 2020-08-24 2020-09-25 深圳市城市交通规划设计研究中心股份有限公司 一种基于在线交通仿真的单点优化控制方法及装置
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN113299059A (zh) * 2021-04-08 2021-08-24 四川国蓝中天环境科技集团有限公司 一种数据驱动的道路交通管控决策支持方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113506450A (zh) * 2021-07-28 2021-10-15 浙江海康智联科技有限公司 一种基于Qlearning的单点信号配时方案选择方法
CN114120670A (zh) * 2021-11-25 2022-03-01 支付宝(杭州)信息技术有限公司 用于交通信号控制的方法和系统
CN115171390A (zh) * 2022-07-27 2022-10-11 北京英泰智科技股份有限公司 一种交通信号机自适应控制方法、交通信号机及控制系统
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021190A (zh) * 2012-12-20 2013-04-03 长沙理工大学 一种优化信号交叉口排队长度的方法
CN105046987A (zh) * 2015-06-17 2015-11-11 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
EP3425608A1 (en) * 2017-07-03 2019-01-09 Fujitsu Limited Traffic signal control using multiple q-learning categories

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021190A (zh) * 2012-12-20 2013-04-03 长沙理工大学 一种优化信号交叉口排队长度的方法
CN105046987A (zh) * 2015-06-17 2015-11-11 苏州大学 一种基于强化学习的路面交通信号灯协调控制方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
EP3425608A1 (en) * 2017-07-03 2019-01-09 Fujitsu Limited Traffic signal control using multiple q-learning categories

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
常宏顺: "城市单交叉口实时控制方法研究", 《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489568A (zh) * 2019-01-25 2020-08-04 阿里巴巴集团控股有限公司 交通信号灯的调控方法、装置及计算机可读存储介质
CN111696342A (zh) * 2019-03-11 2020-09-22 阿里巴巴集团控股有限公司 交通信号配时优化方法、装置、电子设备及可读存储介质
CN111696342B (zh) * 2019-03-11 2022-05-27 阿里巴巴集团控股有限公司 交通信号配时优化方法、装置、电子设备及可读存储介质
CN109887284B (zh) * 2019-03-13 2020-08-21 银江股份有限公司 一种智慧城市交通信号控制推荐方法、系统及装置
CN109887284A (zh) * 2019-03-13 2019-06-14 银江股份有限公司 一种智慧城市交通信号控制推荐方法、系统及装置
CN110223513A (zh) * 2019-05-24 2019-09-10 宋爽 基于人工智能双向绿波的交通信号控制方法和系统
CN110164150A (zh) * 2019-06-10 2019-08-23 浙江大学 一种基于时间分配和强化学习的交通信号灯控制方法
CN110428615A (zh) * 2019-07-12 2019-11-08 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN110428615B (zh) * 2019-07-12 2021-06-22 中国科学院自动化研究所 基于深度强化学习单路口交通信号控制方法、系统、装置
CN110516380A (zh) * 2019-08-30 2019-11-29 的卢技术有限公司 一种基于车辆行驶仿真数据的深度强化测试方法和系统
CN110930734A (zh) * 2019-11-30 2020-03-27 天津大学 基于强化学习的闲时交通指示灯智能控制方法
CN111127892A (zh) * 2019-12-27 2020-05-08 北京易华录信息技术股份有限公司 交叉口配时参数优化模型构建、交叉口信号优化方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111243299B (zh) * 2020-01-20 2020-12-15 浙江工业大学 一种基于3dqn_pser算法的单交叉口信号控制方法
CN111243299A (zh) * 2020-01-20 2020-06-05 浙江工业大学 一种基于3dqn_pser算法的单交叉口信号控制方法
CN111653106A (zh) * 2020-04-15 2020-09-11 南京理工大学 一种基于深度q学习的交通信号控制方法
CN111583675A (zh) * 2020-05-14 2020-08-25 吴钢 一种区域路网交通信号灯协调控制系统和方法
CN111583675B (zh) * 2020-05-14 2021-05-14 吴钢 一种区域路网交通信号灯协调控制系统和方法
CN111710167A (zh) * 2020-08-24 2020-09-25 深圳市城市交通规划设计研究中心股份有限公司 一种基于在线交通仿真的单点优化控制方法及装置
CN112614343A (zh) * 2020-12-11 2021-04-06 多伦科技股份有限公司 基于随机策略梯度的交通信号控制方法、系统及电子设备
CN113299059A (zh) * 2021-04-08 2021-08-24 四川国蓝中天环境科技集团有限公司 一种数据驱动的道路交通管控决策支持方法
CN113380054A (zh) * 2021-06-09 2021-09-10 湖南大学 一种基于强化学习的交通信号灯控制方法及系统
CN113506450A (zh) * 2021-07-28 2021-10-15 浙江海康智联科技有限公司 一种基于Qlearning的单点信号配时方案选择方法
CN114120670A (zh) * 2021-11-25 2022-03-01 支付宝(杭州)信息技术有限公司 用于交通信号控制的方法和系统
CN114120670B (zh) * 2021-11-25 2024-03-26 支付宝(杭州)信息技术有限公司 用于交通信号控制的方法和系统
CN115171390A (zh) * 2022-07-27 2022-10-11 北京英泰智科技股份有限公司 一种交通信号机自适应控制方法、交通信号机及控制系统
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN116597672B (zh) * 2023-06-14 2024-02-13 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法

Similar Documents

Publication Publication Date Title
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
Wei et al. Recent advances in reinforcement learning for traffic signal control: A survey of models and evaluation
Wang et al. Adaptive Traffic Signal Control for large-scale scenario with Cooperative Group-based Multi-agent reinforcement learning
CN110032782B (zh) 一种城市级智能交通信号控制系统及方法
CN108847037B (zh) 一种面向非全局信息的城市路网路径规划方法
Xu et al. Hierarchically and cooperatively learning traffic signal control
Jin et al. A group-based traffic signal control with adaptive learning ability
CN112700664A (zh) 一种基于深度强化学习的交通信号配时优化方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN109272157A (zh) 一种基于门控神经网络的高速公路交通流参数预测方法及系统
CN110570672B (zh) 一种基于图神经网络的区域交通信号灯控制方法
CN113963555B (zh) 一种结合状态预测的深度强化学习交通信号控制方法
Pang et al. Deep deterministic policy gradient for traffic signal control of single intersection
CN112927505A (zh) 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN114120670B (zh) 用于交通信号控制的方法和系统
CN115019523A (zh) 基于最小化压力差的深度强化学习交通信号协调优化控制方法
CN113392577B (zh) 一种基于深度强化学习的区域边界主交叉口信号控制方法
Chen et al. Traffic signal optimization control method based on adaptive weighted averaged double deep Q network
Chen et al. A collaborative communication-Qmix approach for large-scale networked traffic signal control
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
Wei et al. Study of self-organizing control of traffic signals in an urban network based on cellular automata
Zhao et al. Enhancing traffic signal control with composite deep intelligence
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
Zhang et al. Coordinated control of distributed traffic signal based on multiagent cooperative game

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190115

WD01 Invention patent application deemed withdrawn after publication