CN110930737A - 一种基于记忆宫殿的干线协调交通信号灯控制方法 - Google Patents

一种基于记忆宫殿的干线协调交通信号灯控制方法 Download PDF

Info

Publication number
CN110930737A
CN110930737A CN201911226544.9A CN201911226544A CN110930737A CN 110930737 A CN110930737 A CN 110930737A CN 201911226544 A CN201911226544 A CN 201911226544A CN 110930737 A CN110930737 A CN 110930737A
Authority
CN
China
Prior art keywords
value
action
intersection
state
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911226544.9A
Other languages
English (en)
Other versions
CN110930737B (zh
Inventor
许潇月
程健
郝建根
卢长春
张俊
张继锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing LES Information Technology Co. Ltd
Original Assignee
Nanjing LES Information Technology Co. Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing LES Information Technology Co. Ltd filed Critical Nanjing LES Information Technology Co. Ltd
Priority to CN201911226544.9A priority Critical patent/CN110930737B/zh
Publication of CN110930737A publication Critical patent/CN110930737A/zh
Application granted granted Critical
Publication of CN110930737B publication Critical patent/CN110930737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种基于记忆宫殿的干线协调交通信号灯控制方法,包括步骤如下:1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数;2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at;3)设计奖励函数和最大密度差控制策略;4)深度Q值网络学习。本发明的方法提高了交通信号控制里强化学习过程的学习效率;以及保证了动作选择的准确性,从而保证了交通信号控制的有效性和高效性。

Description

一种基于记忆宫殿的干线协调交通信号灯控制方法
技术领域
本发明属于智能交通控制领域,具体指代一种在强化学习下基于记忆宫殿的干线协调交通信号灯控制方法。
背景技术
随着城市化进程的推进和居民购车量的提升,全球大都市的交通需求呈稳步上升的态势。庞大的日常交通量给现有的城市交通基础设施带来了压力,导致路网运行时出现频繁的交通拥堵。作为协调交叉口处交通运动的重要手段,智能交通信号控制算法是提高交通运输效率的关键。
早期的自适应交通控制算法通过解决优化问题,寻找有效的协调和控制策略,如成功落地的产品SCOOT和SCATS。到了90年代,跨学科技术开始被引入交通控制中,其中,模糊控制、遗传算法和神经网络是这一时期的几种代表性算法。然而,这种模型驱动的方法依赖于启发式的假设和方程式,难以很好地适应于时变的实际交通场景。而强化学习方法无需依靠启发式假设,不断与复杂交通系统交互获得经验,直接学习如何进行下一步的红绿灯调节操作,很好地契合了交通的动态特性。
然而,当前基于强化学习的信号控制方法中,存在以下几个问题:
1)奖励函数里融合了多种因素,但每种因素的权重设定缺乏依据,容易出现权重的细微调节导致性能大幅变化的情况;而如何设定权重,尚无基于理论依据的准则。
2)现存的趋于更复杂的状态表示;这种复杂的状态定义增加了学习时间,但与交通网络运行时间这一最终目标没有直接相关,所以未必带来显著的性能提升;甚至出现高维度的状态定义延缓交通网络运行时长的情况。
3)现有的基于强化学习的控制方法进行最优动作选择时,通常选择具有最大Q(s,a)值的动作;该策略没有很好地考虑交通知识对于动作选择的影响,导致选出的动作未必代表当前条件下的最优选择。
4)在Q值网络的训练过程中,通常把所有状态-动作-奖励的训练样本放入同一个存储池,agent从该存储池中随机选取样本更新网络参数;但在实际交通下,不同车道的车辆数是不均衡的。这样的存储方式容易使训练过程受到最频繁出现的相位和动作支配,而忽略了出现频率不高的相位动作组合,导致agent对这种不常见的相位-动作组合做出错误的决策。
发明内容
针对于上述现有技术的不足,本发明的目的在于提供一种基于记忆宫殿的干线协调交通信号灯控制方法,本发明的方法提高了交通信号控制里强化学习过程的学习效率;以及保证了动作选择的准确性,从而保证了交通信号控制的有效性和高效性。
为达到上述目的,本发明采用的技术方案如下:
本发明的一种基于记忆宫殿的干线协调交通信号灯控制方法,包括步骤如下:
1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数c(lI)n,lI∈I,n=1,2,3;
2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at
U=[a1:WE-Straight,a2:NS-Straight,a3:WE-Left,a4:NS-Left]
其中,WE-Straight表示东西直行,NS-Straight表示南北直行,WE-Left表示东西左转,NS-Left表示南北左转;
3)设计奖励函数:第i个交叉口的奖励为ri=-Di;Di由进出口道车辆密度差的累积和计算得到:
Figure BDA0002302390450000021
其中,cmax(l)为车道l的最大允许过车辆;
最大密度差控制策略:每个时间t,agent选择具有最大密度差的动作作为当前状态s下的最优动作:
Figure BDA0002302390450000022
4)深度Q值网络学习。
进一步地,所述步骤4)具体包括:
41)构建交叉口i处路网的agent模型,初始化记忆宫殿下的每个内存池和深度Q值网络参数wi,每条车道的断面数n=3,交叉口i的状态空间
Figure BDA0002302390450000023
和动作空间
Figure BDA0002302390450000024
42)观测得到t时刻agent的状态值c(lO)和c(lI)n,lI∈I,n=1,2,3,lO∈O,得到其当前状态
Figure BDA0002302390450000025
43)计算交叉口i处的奖励函数值:
Figure BDA0002302390450000026
44)将t时刻交叉口i的状态
Figure BDA0002302390450000027
输入深度Q值网络,学习每个动作下的Q值;
45)根据最大密度差控制策略选择最优动作
Figure BDA0002302390450000028
Figure BDA0002302390450000029
46)t+1进入状态
Figure BDA0002302390450000031
根据移动方程计算断面j的车辆移动量:
c(lI)j(t+1)=c(lI)j(t)+β·c(lI)j+1(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)j(t)}·1(c(lO)≤cmax(lO))
得到t+1时刻agent的状态值
Figure BDA0002302390450000032
47)将每个动作的经验
Figure BDA0002302390450000033
分别存入其对应的内存池中;分别从各个动作的内存池随机采样N个经验,利用梯度下降算法更新wi,获得更新的网络参数w′i
48)取t=t+1,重复上述步骤44)到步骤47)。
进一步地,所述步骤1)具体包括:时间t+1车辆驶进1号断面的车辆移动方程为:
c(lI)1(t+1)=c(lI)1(t)+c(lI)2(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)1(t)}·1(c(lO)≤cmax(lO))。
本发明的有益效果:
本发明使用了基于进出口道车辆密度差的奖励函数,形式简洁,且与最小化路网交通运行时长密切相关。根据该奖励函数,最优动作选择策略也进行了改进。其选择了具有最大密度差和的动作作为当前状态下的最优动作,更符合实际交通运行的情况。与此同时,本发明采用了不同相位-动作对独立存储的模式,该模式有效地抑制了不同的相位-动作组合干扰彼此的训练过程,提高了深度Q值网络的拟合能力,从而提升了所预测奖励值的准确性,缩短了交通网络的整体运行时间。
附图说明
图1为交叉口的四相位图。
图2为记忆宫殿存储模型示意图。
具体实施方式
为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
本发明的一种基于记忆宫殿的干线协调交通信号灯控制方法,包括步骤如下:
1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数c(lI)n,lI∈I,n=1,2,3;示例中设定了4个相位,相位图如图1所示。
2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at
U=[a1:WE-Straight,a2:NS-Straight,a3:WE-Left,a4:NS-Left]
其中,WE-Straight表示东西直行,NS-Straight表示南北直行,WE-Left表示东西左转,NS-Left表示南北左转;
3)设计奖励函数:第i个交叉口的奖励为ri=-Di;Di由进出口道车辆密度差的累积和计算得到:
Figure BDA0002302390450000041
其中,cmax(l)为车道l的最大允许过车辆;
最大密度差控制策略:每个时间t,agent选择具有最大密度差的动作作为当前状态s下的最优动作:
Figure BDA0002302390450000042
4)深度Q值网络学习。
所述步骤4)具体包括:
41)构建交叉口i处路网的agent模型,初始化记忆宫殿下的每个内存池和深度Q值网络参数wi,每条车道的断面数n=3,交叉口i的状态空间
Figure BDA0002302390450000043
和动作空间
Figure BDA0002302390450000044
记忆宫殿如图2所示;
42)观测得到t时刻agent的状态值c(lO)和c(lI)n,lI∈I,n=1,2,3,lO∈O,得到其当前状态
Figure BDA0002302390450000045
43)计算交叉口i处的奖励函数值:
Figure BDA0002302390450000046
44)将t时刻交叉口i的状态
Figure BDA0002302390450000047
输入深度Q值网络,学习每个动作下的Q值;
45)根据最大密度差控制策略选择最优动作
Figure BDA0002302390450000048
Figure BDA0002302390450000049
46)t+1进入状态
Figure BDA00023023904500000410
根据移动方程计算断面j的车辆移动量:
c(lI)j(t+1)=c(lI)j(t)+β·c(lI)j+1(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)j(t)}·1(c(lO)≤cmax(lO))
得到t+1时刻agent的状态值
Figure BDA0002302390450000051
47)将每个动作的经验
Figure BDA0002302390450000052
分别存入其对应的内存池中;分别从各个动作的内存池随机采样N个经验,利用梯度下降算法更新wi,获得更新的网络参数w′i
48)取t=t+1,重复上述步骤44)到步骤47)。
所述步骤1)具体包括:时间t+1车辆驶进1号断面的车辆移动方程为:
c(lI)1(t+1)=c(lI)1(t)+c(lI)2(t)-min{c(lI,lO)·a(lI,lO)(t),c(lI)1(t)}·1(c(lO)≤cmax(lO))。
本发明中,密度差式奖励函数预保护项:奖励函数的设计采用了进出口道车辆密度差的累积和的形式,即
Figure BDA0002302390450000053
与加快交通路网运行时间的最终目标直接相关;
最优动作选择策略欲保护项:计算出当前状态下选择东西直行/右转、东西左转、南北直行/右转和南北左转这四个相位后,产生的密度差和值
Figure BDA0002302390450000054
a∈U里的最大值作为最优动作。
记忆宫殿式样本存储预保护项:训练过程中,来自不同相位-动作组合的训练样本存储到不同的存储池中。在选择样本更新模型时,记忆宫殿式样本存储方式会分别从每个存储池中随机选取出相同数量的样本,以防止训练出的模型过拟合。
本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进,这些改进也应视为本发明的保护范围。

Claims (3)

1.一种基于记忆宫殿的干线协调交通信号灯控制方法,其特征在于,包括步骤如下:
1)定义状态:取干线上的每个交叉口的相位,出口道O每条车道的车辆数c(lO),lO∈O,每个进口道3个断面的车辆数c(lI)n,lI∈I,n=1,2,3;
2)定义动作:取四相位动作集合U,时间t时的相位p为其动作值at
U=[a1:WE-Straight,a2:NS-Straight,a3:WE-Left,a4:NS-Left]
其中,WE-Straight表示东西直行,NS-Straight表示南北直行,WE-Left表示东西左转,NS-Left表示南北左转;
3)设计奖励函数:第i个交叉口的奖励为ri=-Di;Di由进出口道车辆密度差的累积和计算得到:
Figure FDA0002302390440000011
其中,cmax(l)为车道l的最大允许过车辆;
最大密度差控制策略:每个时间t,agent选择具有最大密度差的动作作为当前状态s下的最优动作:
Figure FDA0002302390440000012
4)深度Q值网络学习。
2.根据权利要求1所述的基于记忆宫殿的干线协调交通信号灯控制方法,其特征在于,所述步骤1)具体包括:时间t+1车辆驶进1号断面的车辆移动方程为:
c(lI)1(t+1)=c(lI)1(t)+c(lI)2(t)
-min{c(lI,lO)·a(lI,lO)(t),c(lI)1(t)}·1(c(lO)≤cmax(lO))。
3.根据权利要求1所述的基于记忆宫殿的干线协调交通信号灯控制方法,其特征在于,所述步骤4)具体包括:
41)构建交叉口i处路网的agent模型,初始化记忆宫殿下的每个内存池和深度Q值网络参数wi,每条车道的断面数n=3,交叉口i的状态空间
Figure FDA0002302390440000013
和动作空间
Figure FDA0002302390440000014
42)观测得到t时刻agent的状态值c(lO)和c(lI)n,lI∈I,n=1,2,3,lO∈O,得到其当前状态
Figure FDA0002302390440000015
43)计算交叉口i处的奖励函数值:
Figure FDA0002302390440000021
44)将t时刻交叉口i的状态
Figure FDA0002302390440000022
输入深度Q值网络,学习每个动作下的Q值;
45)根据最大密度差控制策略选择最优动作
Figure FDA0002302390440000023
Figure FDA0002302390440000024
46)t+1进入状态
Figure FDA0002302390440000025
根据移动方程计算断面j的车辆移动量:
c(lI)j(t+1)=c(lI)j(t)+β·c(lI)j+1(t)
-min{c(lI,lO)·a(lI,lO)(t),c(lI)j(t)}·1(c(lO)≤cmax(lO))
得到t+1时刻agent的状态值
Figure FDA0002302390440000026
47)将每个动作的经验
Figure FDA0002302390440000027
分别存入其对应的内存池中;分别从各个动作的内存池随机采样N个经验,利用梯度下降算法更新wi,获得更新的网络参数w′i
48)取t=t+1,重复上述步骤44)到步骤47)。
CN201911226544.9A 2019-12-04 2019-12-04 一种基于记忆宫殿的干线协调交通信号灯控制方法 Active CN110930737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911226544.9A CN110930737B (zh) 2019-12-04 2019-12-04 一种基于记忆宫殿的干线协调交通信号灯控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911226544.9A CN110930737B (zh) 2019-12-04 2019-12-04 一种基于记忆宫殿的干线协调交通信号灯控制方法

Publications (2)

Publication Number Publication Date
CN110930737A true CN110930737A (zh) 2020-03-27
CN110930737B CN110930737B (zh) 2021-10-08

Family

ID=69857879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911226544.9A Active CN110930737B (zh) 2019-12-04 2019-12-04 一种基于记忆宫殿的干线协调交通信号灯控制方法

Country Status (1)

Country Link
CN (1) CN110930737B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
US20180261085A1 (en) * 2017-03-08 2018-09-13 Fujitsu Limited Adjustment of a learning rate of q-learning used to control traffic signals
CN109615885A (zh) * 2018-12-27 2019-04-12 银江股份有限公司 一种智能交通信号控制方法、装置及系统
US20190347933A1 (en) * 2018-05-11 2019-11-14 Virtual Traffic Lights, LLC Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105654744A (zh) * 2016-03-10 2016-06-08 同济大学 一种基于q学习的改进交通信号控制方法
US20180261085A1 (en) * 2017-03-08 2018-09-13 Fujitsu Limited Adjustment of a learning rate of q-learning used to control traffic signals
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
US20190347933A1 (en) * 2018-05-11 2019-11-14 Virtual Traffic Lights, LLC Method of implementing an intelligent traffic control apparatus having a reinforcement learning based partial traffic detection control system, and an intelligent traffic control apparatus implemented thereby
CN109615885A (zh) * 2018-12-27 2019-04-12 银江股份有限公司 一种智能交通信号控制方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘成健 等: "基于参数融合的Q学习交通信号控制方法", 《计算机技术与发展》 *
卢守峰 等: "单交叉口多相位在线Q学习交通控制模型", 《交通科学与工程》 *

Also Published As

Publication number Publication date
CN110930737B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN112365724B (zh) 一种基于深度强化学习的连续交叉口信号协同控制方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN113963553A (zh) 一种道路交叉口信号灯绿信比控制方法、装置和设备
CN113299085A (zh) 一种交通信号灯控制方法、设备及存储介质
CN113963555B (zh) 一种结合状态预测的深度强化学习交通信号控制方法
CN111126687B (zh) 一种交通信号的单点离线优化系统及方法
CN112735126A (zh) 一种基于模型预测控制的混合交通流协同优化控制方法
CN113299078B (zh) 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN116050672B (zh) 基于人工智能的城市管理方法及系统
CN109635495A (zh) 基于神经网络和遗传算法的干道相位差仿真优化方法
CN114613169B (zh) 一种基于双经验池dqn的交通信号灯控制方法
Liu et al. A deep reinforcement learning approach for ramp metering based on traffic video data
CN113392577B (zh) 一种基于深度强化学习的区域边界主交叉口信号控制方法
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN113724507B (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
CN115188204A (zh) 一种异常天气条件下高速公路车道级可变限速控制方法
CN110930737B (zh) 一种基于记忆宫殿的干线协调交通信号灯控制方法
CN112365713B (zh) 一种主支路交叉口信号配时优化方法
Xiangdong et al. Prediction of short-term available parking space using LSTM model
Zhang et al. Intelligent scheduling of public traffic vehicles based on a hybrid genetic algorithm
CN111475884A (zh) 基于粒子群算法与地下水模型的基坑降水优化方法
CN115116240A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
CN115359672A (zh) 一种数据驱动与强化学习结合的交通区域边界控制方法
CN113077642A (zh) 一种交通信号灯控制方法、装置及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant