CN110930737A - 一种基于记忆宫殿的干线协调交通信号灯控制方法 - Google Patents
一种基于记忆宫殿的干线协调交通信号灯控制方法 Download PDFInfo
- Publication number
- CN110930737A CN110930737A CN201911226544.9A CN201911226544A CN110930737A CN 110930737 A CN110930737 A CN 110930737A CN 201911226544 A CN201911226544 A CN 201911226544A CN 110930737 A CN110930737 A CN 110930737A
- Authority
- CN
- China
- Prior art keywords
- value
- action
- intersection
- state
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Abstract
本发明公开了一种基于记忆宫殿的干线协调交通信号灯控制方法,包括步骤如下:1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数;2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at;3)设计奖励函数和最大密度差控制策略;4)深度Q值网络学习。本发明的方法提高了交通信号控制里强化学习过程的学习效率;以及保证了动作选择的准确性,从而保证了交通信号控制的有效性和高效性。
Description
技术领域
本发明属于智能交通控制领域,具体指代一种在强化学习下基于记忆宫殿的干线协调交通信号灯控制方法。
背景技术
随着城市化进程的推进和居民购车量的提升,全球大都市的交通需求呈稳步上升的态势。庞大的日常交通量给现有的城市交通基础设施带来了压力,导致路网运行时出现频繁的交通拥堵。作为协调交叉口处交通运动的重要手段,智能交通信号控制算法是提高交通运输效率的关键。
早期的自适应交通控制算法通过解决优化问题,寻找有效的协调和控制策略,如成功落地的产品SCOOT和SCATS。到了90年代,跨学科技术开始被引入交通控制中,其中,模糊控制、遗传算法和神经网络是这一时期的几种代表性算法。然而,这种模型驱动的方法依赖于启发式的假设和方程式,难以很好地适应于时变的实际交通场景。而强化学习方法无需依靠启发式假设,不断与复杂交通系统交互获得经验,直接学习如何进行下一步的红绿灯调节操作,很好地契合了交通的动态特性。
然而,当前基于强化学习的信号控制方法中,存在以下几个问题:
1)奖励函数里融合了多种因素,但每种因素的权重设定缺乏依据,容易出现权重的细微调节导致性能大幅变化的情况;而如何设定权重,尚无基于理论依据的准则。
2)现存的趋于更复杂的状态表示;这种复杂的状态定义增加了学习时间,但与交通网络运行时间这一最终目标没有直接相关,所以未必带来显著的性能提升;甚至出现高维度的状态定义延缓交通网络运行时长的情况。
3)现有的基于强化学习的控制方法进行最优动作选择时,通常选择具有最大Q(s,a)值的动作;该策略没有很好地考虑交通知识对于动作选择的影响,导致选出的动作未必代表当前条件下的最优选择。
4)在Q值网络的训练过程中,通常把所有状态-动作-奖励的训练样本放入同一个存储池,agent从该存储池中随机选取样本更新网络参数;但在实际交通下,不同车道的车辆数是不均衡的。这样的存储方式容易使训练过程受到最频繁出现的相位和动作支配,而忽略了出现频率不高的相位动作组合,导致agent对这种不常见的相位-动作组合做出错误的决策。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于记忆宫殿的干线协调交通信号灯控制方法,本发明的方法提高了交通信号控制里强化学习过程的学习效率;以及保证了动作选择的准确性,从而保证了交通信号控制的有效性和高效性。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种基于记忆宫殿的干线协调交通信号灯控制方法,包括步骤如下:
1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数c(lI)n,lI∈I,n=1,2,3;
2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at;
U=[a1:WE-Straight,a2:NS-Straight,a3:WE-Left,a4:NS-Left]
其中,WE-Straight表示东西直行,NS-Straight表示南北直行,WE-Left表示东西左转,NS-Left表示南北左转;
最大密度差控制策略:每个时间t,agent选择具有最大密度差的动作作为当前状态s下的最优动作:
4)深度Q值网络学习。
进一步地,所述步骤4)具体包括:
43)计算交叉口i处的奖励函数值:
c(lI)j(t+1)=c(lI)j(t)+β·c(lI)j+1(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)j(t)}·1(c(lO)≤cmax(lO))
48)取t=t+1,重复上述步骤44)到步骤47)。
进一步地,所述步骤1)具体包括:时间t+1车辆驶进1号断面的车辆移动方程为:
c(lI)1(t+1)=c(lI)1(t)+c(lI)2(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)1(t)}·1(c(lO)≤cmax(lO))。
本发明的有益效果:
本发明使用了基于进出口道车辆密度差的奖励函数,形式简洁,且与最小化路网交通运行时长密切相关。根据该奖励函数,最优动作选择策略也进行了改进。其选择了具有最大密度差和的动作作为当前状态下的最优动作,更符合实际交通运行的情况。与此同时,本发明采用了不同相位-动作对独立存储的模式,该模式有效地抑制了不同的相位-动作组合干扰彼此的训练过程,提高了深度Q值网络的拟合能力,从而提升了所预测奖励值的准确性,缩短了交通网络的整体运行时间。
附图说明
图1为交叉口的四相位图。
图2为记忆宫殿存储模型示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
本发明的一种基于记忆宫殿的干线协调交通信号灯控制方法,包括步骤如下:
1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数c(lI)n,lI∈I,n=1,2,3;示例中设定了4个相位,相位图如图1所示。
2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at;
U=[a1:WE-Straight,a2:NS-Straight,a3:WE-Left,a4:NS-Left]
其中,WE-Straight表示东西直行,NS-Straight表示南北直行,WE-Left表示东西左转,NS-Left表示南北左转;
最大密度差控制策略:每个时间t,agent选择具有最大密度差的动作作为当前状态s下的最优动作:
4)深度Q值网络学习。
所述步骤4)具体包括:
43)计算交叉口i处的奖励函数值:
c(lI)j(t+1)=c(lI)j(t)+β·c(lI)j+1(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)j(t)}·1(c(lO)≤cmax(lO))
48)取t=t+1,重复上述步骤44)到步骤47)。
所述步骤1)具体包括:时间t+1车辆驶进1号断面的车辆移动方程为:
c(lI)1(t+1)=c(lI)1(t)+c(lI)2(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)1(t)}·1(c(lO)≤cmax(lO))。
记忆宫殿式样本存储预保护项:训练过程中,来自不同相位-动作组合的训练样本存储到不同的存储池中。在选择样本更新模型时,记忆宫殿式样本存储方式会分别从每个存储池中随机选取出相同数量的样本,以防止训练出的模型过拟合。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。
Claims (3)
1.一种基于记忆宫殿的干线协调交通信号灯控制方法,其特征在于,包括步骤如下:
1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数c(lI)n,lI∈I,n=1,2,3;
2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at;
U=[a1:WE-Straight,a2:NS-Straight,a3:WE-Left,a4:NS-Left]
其中,WE-Straight表示东西直行,NS-Straight表示南北直行,WE-Left表示东西左转,NS-Left表示南北左转;
最大密度差控制策略:每个时间t,agent选择具有最大密度差的动作作为当前状态s下的最优动作:
4)深度Q值网络学习。
2.根据权利要求1所述的基于记忆宫殿的干线协调交通信号灯控制方法,其特征在于,所述步骤1)具体包括:时间t+1车辆驶进1号断面的车辆移动方程为:
c(lI)1(t+1)=c(lI)1(t)+c(lI)2(t)
-min{c(lI,lO)·a(lI,lO)(t),c(lI)1(t)}·1(c(lO)≤cmax(lO))。
3.根据权利要求1所述的基于记忆宫殿的干线协调交通信号灯控制方法,其特征在于,所述步骤4)具体包括:
43)计算交叉口i处的奖励函数值:
c(lI)j(t+1)=c(lI)j(t)+β·c(lI)j+1(t)
-min{c(lI,lO)·a(lI,lO)(t),c(lI)j(t)}·1(c(lO)≤cmax(lO))
48)取t=t+1,重复上述步骤44)到步骤47)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911226544.9A CN110930737B (zh) | 2019-12-04 | 2019-12-04 | 一种基于记忆宫殿的干线协调交通信号灯控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911226544.9A CN110930737B (zh) | 2019-12-04 | 2019-12-04 | 一种基于记忆宫殿的干线协调交通信号灯控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110930737A true CN110930737A (zh) | 2020-03-27 |
CN110930737B CN110930737B (zh) | 2021-10-08 |
Family
ID=69857879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911226544.9A Active CN110930737B (zh) | 2019-12-04 | 2019-12-04 | 一种基于记忆宫殿的干线协调交通信号灯控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110930737B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654744A (zh) * | 2016-03-10 | 2016-06-08 | 同济大学 | 一种基于q学习的改进交通信号控制方法 |
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
US20180261085A1 (en) * | 2017-03-08 | 2018-09-13 | Fujitsu Limited | Adjustment of a learning rate of q-learning used to control traffic signals |
CN109615885A (zh) * | 2018-12-27 | 2019-04-12 | 银江股份有限公司 | 一种智能交通信号控制方法、装置及系统 |
US20190347933A1 (en) * | 2018-05-11 | 2019-11-14 | Virtual Traffic Lights, LLC | Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby |
-
2019
- 2019-12-04 CN CN201911226544.9A patent/CN110930737B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654744A (zh) * | 2016-03-10 | 2016-06-08 | 同济大学 | 一种基于q学习的改进交通信号控制方法 |
US20180261085A1 (en) * | 2017-03-08 | 2018-09-13 | Fujitsu Limited | Adjustment of a learning rate of q-learning used to control traffic signals |
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
US20190347933A1 (en) * | 2018-05-11 | 2019-11-14 | Virtual Traffic Lights, LLC | Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby |
CN109615885A (zh) * | 2018-12-27 | 2019-04-12 | 银江股份有限公司 | 一种智能交通信号控制方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
刘成健 等: "基于参数融合的Q学习交通信号控制方法", 《计算机技术与发展》 * |
卢守峰 等: "单交叉口多相位在线Q学习交通控制模型", 《交通科学与工程》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110930737B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
CN113223305B (zh) | 基于强化学习的多路口交通灯控制方法、系统及存储介质 | |
CN113963553A (zh) | 一种道路交叉口信号灯绿信比控制方法、装置和设备 | |
CN113299085A (zh) | 一种交通信号灯控制方法、设备及存储介质 | |
CN113963555B (zh) | 一种结合状态预测的深度强化学习交通信号控制方法 | |
CN111126687B (zh) | 一种交通信号的单点离线优化系统及方法 | |
CN112735126A (zh) | 一种基于模型预测控制的混合交通流协同优化控制方法 | |
CN113299078B (zh) | 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置 | |
CN116050672B (zh) | 基于人工智能的城市管理方法及系统 | |
CN109635495A (zh) | 基于神经网络和遗传算法的干道相位差仿真优化方法 | |
CN114613169B (zh) | 一种基于双经验池dqn的交通信号灯控制方法 | |
Liu et al. | A deep reinforcement learning approach for ramp metering based on traffic video data | |
CN113392577B (zh) | 一种基于深度强化学习的区域边界主交叉口信号控制方法 | |
CN115691167A (zh) | 一种基于交叉口全息数据的单点交通信号控制方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
CN115188204A (zh) | 一种异常天气条件下高速公路车道级可变限速控制方法 | |
CN110930737B (zh) | 一种基于记忆宫殿的干线协调交通信号灯控制方法 | |
CN112365713B (zh) | 一种主支路交叉口信号配时优化方法 | |
Xiangdong et al. | Prediction of short-term available parking space using LSTM model | |
Zhang et al. | Intelligent scheduling of public traffic vehicles based on a hybrid genetic algorithm | |
CN111475884A (zh) | 基于粒子群算法与地下水模型的基坑降水优化方法 | |
CN115116240A (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 | |
CN115359672A (zh) | 一种数据驱动与强化学习结合的交通区域边界控制方法 | |
CN113077642A (zh) | 一种交通信号灯控制方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |