CN110428615B - 基于深度强化学习单路口交通信号控制方法、系统、装置 - Google Patents
基于深度强化学习单路口交通信号控制方法、系统、装置 Download PDFInfo
- Publication number
- CN110428615B CN110428615B CN201910629489.1A CN201910629489A CN110428615B CN 110428615 B CN110428615 B CN 110428615B CN 201910629489 A CN201910629489 A CN 201910629489A CN 110428615 B CN110428615 B CN 110428615B
- Authority
- CN
- China
- Prior art keywords
- network
- intersection
- traffic
- traffic signal
- signal generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 70
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 84
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims abstract description 71
- 238000004088 simulation Methods 0.000 claims abstract description 22
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 230000000694 effects Effects 0.000 claims abstract description 11
- 230000009471 action Effects 0.000 claims description 78
- 239000000126 substance Substances 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000005465 channeling Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 abstract description 5
- 238000011835 investigation Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000011217 control strategy Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 206010039203 Road traffic accident Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000009418 renovation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Chemical & Material Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明属于城市交通控制领域,具体涉及了一种基于深度强化学习单路口交通信号控制方法、系统、装置,旨在解决复杂交通状况的交通信号控制效果不好的问题。本发明方法包括:建立微观交通仿真环境并定义参数,设定评判网络、交通信号生成网络;基于当前阶段以及前一阶段数据计算评判网络的训练误差并更新网络参数;基于更新后的评判网络、当前阶段以及前一阶段数据,计算更新后的评判网络训练误差,并更新评判网络、交通信号生成网络参数;采用训练好的交通信号生成网络获取交叉口信号灯下一相位时长。本发明减少了事先了解路口车流量信息的调研工作,并能够随路口车流量需求改变而及时做出调整,大大提高了复杂交通状况的交通信号控制的效果。
Description
技术领域
本发明属于城市交通控制领域,具体涉及了一种基于深度强化学习单路口交通信号控制方法、系统、装置。
背景技术
交通信号控制是当前城市交通管理与控制的重要手段。合理的交通信号控制策略不仅可以提高交通系统运行效率,还可有效减少交通事故的发生。道路交叉口的短时交通需求具有时变性、非线性、复杂性等特征,很难建立起精确的数学模型,简单的定时控制、感应控制方法难以适应交通流量的动态、复杂、快速变化,控制效果不好。
深度强化学习方法将深度学习和强化学习技术融合在一起,结合了深度学习的特征表示、预测和强化学习的决策能力,在棋类、机器人控制等领域取得了广泛的应用。如果将深度强化学习应用到路口交通信号控制,使得深度强化学习可以通过与环境自主交互、学习得到最优或次优的交通信号控制策略,适应不同的交通需求,那么将会提高交通信号控制效果,有效应对复杂交通状况所带来的交通信号控制挑战。
总的来说,现有技术难以适应交通流量的动态、复杂、快速变化,控制效果不好,无法有效提高交通系统运行效率。
发明内容
为了解决现有技术中的上述问题,即复杂交通状况的交通信号控制效果不好的问题,本发明提供了一种基于深度强化学习单路口交通信号控制方法,该控制方法包括:
步骤S10,获取当前交叉口交通状态信息;
步骤S20,基于所述当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长;
其中,所述交通信号生成网络基于深度强化学习方法训练,包括:
步骤B10,根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境;针对每个交通相位,定义深度强化学习模型的奖励、动作以及状态,设定评判网络和交通信号生成网络;
步骤B20,将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并获取第一预设数量的交叉口交通状态信息元组作为训练数据;
步骤B30,获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并计算所述评判网络的训练误差值;
步骤B40,更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数,获得第一评判网络;
步骤B50,获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据,采用所述交通信号生成网络获得交叉口信号灯下一相位时长,并计算所述第一评判网络的训练误差值;
步骤B60,更新所述第一评判网络以及交通信号生成网络的参数并重复执行步骤B50直至达到第二预设训练次数,获得训练好的交通信号生成网络。
在一些优选的实施例中,所述交叉口微观交通仿真环境包括:
交叉口车道数、进口道长度、渠化、相位组成、交叉口车流量、车流组成、车流转向。
在一些优选的实施例中,步骤B10中“定义深度强化学习模型的奖励、动作以及状态”,其方法为:
其中,reward为深度强化学习模型的奖励,Nt为在时刻t各进口车道等待车辆的数目;
action为动作连续控制量,取值范围为[-1,1];
在一些优选的实施例中,所述评判网络的训练误差为:
其中,Loss代表训练误差;si代表i时刻状态,ai代表此状态下所采取的动作,ri为此动作对应的奖励,si+1代表下一状态;a=μ(s|θ)为以θ为网络参数、在状态s下使用策略μ计算得到的动作;Q(s,a|θQ)代表评判网络,θQ代表评判网络的参数;N为交叉口交通状态信息元组(si,ai,ri,si+1)的总数;
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
其中,μ′(si+1|θμ′)代表根据交通信号生成网络的目标子网络计算得到的动作,θμ'代表其网络参数;Q'(s,a|θQ')为评判网络的目标子网络,θQ'代表其网络参数。
在一些优选的实施例中,所述交通信号生成网络参数的更新方向为策略梯度方向;所述策略梯度为:
其中,为策略梯度,si代表i时刻状态,ai代表此状态下所采取的动作,ri为此动作对应的奖励,si+1代表下一状态;a=μ(si)代表在状态si下使用策略μ计算得到的动作;Q(s,a|θQ)代表评判网络,μ(s|θμ)代表交通信号生成网络,θQ、θμ分别代表评判网络和交通信号生成网络的参数;N为交叉口交通状态信息元组(si,ai,ri,si+1)的总数。
在一些优选的实施例中,步骤S20中“采用交通信号生成网络计算交叉口信号灯下一相位时长”,其方法为:
将所述交通信号生成网络在当前相位数据下的输出动作action通过线性映射转换为交叉口信号灯下一相位的持续时长:
其中,ΔT为交叉口信号灯下一相位持续时长,Tmax,Tmin分别为事先设定的相位时长的上限与下限。
在一些优选的实施例中,可以使用Episode-break技术提高所述交通信号生成网络的训练效果:
判断所述交通信号生成网络的奖励是否低于设定阈值,是则放弃该周期的训练数据。
本发明的另一方面,提出了一种基于深度强化学习单路口交通信号控制系统,包括交通状态信息获取模块、交通信号生成模块、输出模块;
所述交通状态信息获取模块,配置为获取当前交叉口交通状态信息并输入交通信号生成模块;
所述交通信号生成模块,配置为基于所述交通状态信息获取模块输入的当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长;
所述输出模块,配置为输出所述交通信号生成模块计算的交叉口信号灯下一相位时长。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;所述处理器,适于执行各条程序;所述存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。
本发明的有益效果:
本发明基于深度强化学习单路口交通信号控制方法,利用深度强化学习方法实时计算单路口的交通信号控制,在实际应用中减少了为事先了解路口车流量信息而进行的调研工作,并能够随该路口宏观车流量需求改变而及时做出调整,例如道路整修、交通规则改变和整个城市车辆总数目改变等;可以根据需要方便地调整深度强化学习模型的奖励函数,使路口交通信号控制策略收敛到期望策略,大大提高了复杂交通状况的交通信号控制的效果。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于深度强化学习单路口交通信号控制方法流程示意图;
图2是本发明基于深度强化学习单路口交通信号控制方法一种实施例的数据获取阶段训练数据、评判网络训练阶段训练数据、评判网络及交通信号生成网络训练阶段训练数据示意图;
图3是本发明基于深度强化学习单路口交通信号控制方法一种实施例的交叉口仿真部分情况示意图;
图4是本发明基于深度强化学习单路口交通信号控制方法一种实施例的仿真环境中网络训练过程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的一种基于深度强化学习单路口交通信号控制方法,该信号控制方法包括:
步骤S10,获取当前交叉口交通状态信息;
步骤S20,基于所述当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长;
其中,所述交通信号生成网络基于深度强化学习方法训练,包括:
步骤B10,根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境;针对每个交通相位,定义深度强化学习模型的奖励、动作以及状态,设定评判网络和交通信号生成网络;
步骤B20,将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并获取第一预设数量的交叉口交通状态信息元组作为训练数据;
步骤B30,获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并计算所述评判网络的训练误差值;
步骤B40,更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数,获得第一评判网络;
步骤B50,获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据,采用所述交通信号生成网络获得交叉口信号灯下一相位时长,并计算所述第一评判网络的训练误差值;
步骤B60,更新所述第一评判网络以及交通信号生成网络的参数并重复执行步骤B50直至达到第二预设训练次数,获得训练好的交通信号生成网络。
为了更清晰地对本发明基于深度强化学习单路口交通信号控制方法进行说明,下面结合图1对本发明方法实施例中各步骤展开详述。
本发明一种实施例的基于深度强化学习单路口交通信号控制方法,包括步骤S10-步骤S20,各步骤详细描述如下:
步骤S10,获取当前相位交叉口信号灯时长信息。
步骤S20,基于所述当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长。
“采用交通信号生成网络计算交叉口信号灯下一相位时长”,其方法为:
将所述交通信号生成网络在当前相位数据下的输出动作action通过线性映射转换为交叉口信号灯下一相位的持续时长,如式(1)所示:
其中,ΔT为交叉口信号灯下一相位持续时长,Tmax,Tmin分别为事先设定的相位时长的上限与下限。
其中,所述交通信号生成网络基于深度强化学习网络构建,其训练方法为:
步骤B10,根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境;针对每个交通相位,定义深度强化学习模型的奖励、动作以及状态,设定评判网络和交通信号生成网络。
交叉口微观交通仿真环境包括:
交叉口车道数、进口道长度、渠化、相位组成、交叉口车流量、车流组成、车流转向。
本发明一个实施例中,如图2所示,为本发明基于深度强化学习单路口交通信号控制方法一种实施例的交叉口仿真部分情况示意图,构建的交叉口微观交通仿真环境为:交叉口为十字形交叉口,有东西南北四条岔路,每条岔路均为三车道;该交叉口交通信号共有四个相位,每个相位之间由时长为三秒的警示信号相连;交叉口各方向车流流量随时间随机变化;对于每一条岔路中的三条车道,其车辆左转、右转、直行的概率分别为0.1、0.1、0.8;共仿真了三种类型的车辆,其车长、最高车速、加速度各不相同。
在仿真平台中出于简化的目的,直接应用平台提供的方法获取该交叉口各车道的实时车流信息,该信息包括四条岔路上各车道上50m内即将到达的车辆数目Napproach与等待车辆数目Nwait,此实施例仿真中时间步长设置为1s,则所述实时车流信息是指以1s为周期对上述的车辆数目Napproach与等待车辆数目Nwait进行采样得到的结果。
“定义深度强化学习模型的奖励、动作以及状态”,深度强化学习模型的奖励如式(2)所示:
其中,reward为深度强化学习模型的奖励,Nt为在时刻t各进口车道等待车辆的数目。
action为动作连续控制量,取值范围为[-1,1]。
深度强化学习模型的状态如式(3)所示:
Critic网络作为交通信号生成网络深度强化学习中的Q(s,a)函数,用于评判Actor网络所执行动作的正确性;Actor网络作为交通信号生成网络深度强化学习中的策略函数π(s),用于根据输入的状态信息state输出动作action反馈并作用于环境以获得下一时刻的状态及其对应的奖励reward。
步骤B20,将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并获取第一预设数量的交叉口交通状态信息元组作为训练数据。
交通状态信息元组表示为(si,ai,ri,si+1);
其中,si代表i时刻状态,ai代表此状态下所采取的动作,ri为此动作对应的奖励,si+1代表下一状态。
步骤B30,获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并计算所述评判网络的训练误差值。
评判网络的训练误差如式(4)所示:
其中,Loss代表训练误差;si代表i时刻状态,ai代表此状态下所采取的动作,ri为此动作对应的奖励,si+1代表下一状态;a=μ(s|θ)为以θ为网络参数、在状态s下使用策略μ计算得到的动作;Q(s,a|θQ)代表评判网络,θQ代表评判网络的参数;N为交叉口交通状态信息元组(si,ai,ri,si+1)的总数;yi的定义如式(5)所示
yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)
式(5)
其中,μ′(si+1|θμ′)代表根据交通信号生成网络的目标子网络计算得到的动作,θμ'代表其网络参数;Q'(s,a|θQ')为评判网络的目标子网络,θQ'代表其网络参数。
步骤B40,更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数,获得第一评判网络。
步骤B50,获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据,采用所述交通信号生成网络获得交叉口信号灯下一相位时长,并计算所述第一评判网络的训练误差值。
交通信号生成网络参数的更新方向为策略梯度方向;策略梯度值如式(6)所示:
其中,为策略梯度,si代表i时刻状态,ai代表此状态下所采取的动作,ri为此动作对应的奖励,si+1代表下一状态;a=μ(si)代表在状态si下使用策略μ计算得到的动作;Q(s,a|θQ)代表评判网络,μ(s|θμ)代表交通信号生成网络,θQ、θμ分别代表评判网络和交通信号生成网络的参数;N为交叉口交通状态信息元组(si,ai,ri,si+1)的总数。
步骤B60,更新所述第一评判网络以及交通信号生成网络的参数并重复执行步骤B50直至达到第二预设训练次数,获得训练好的交通信号生成网络。
如图2所示,为本发明基于深度强化学习单路口交通信号控制方法一种实施例的数据获取阶段训练数据、评判网络训练阶段训练数据、评判网络及交通信号生成网络训练阶段训练数据示意图,数据存储区的数据为数据获取阶段获取的训练数据;评判网络更新阶段,获取当前阶段的数据结合数据获取阶段的训练数据作为当前训练数据;评判网络及交通信号生成网络更新阶段,获取当前阶段的数据结合评判网络更新阶段的训练数据作为当前训练数据。
由于交通信号生成网络深度强化学习具有如式(7)所表示的特点,在使用的深度确定性策略梯度方法中选择了较小的折扣因子γ,推荐取值范围为[0.2,0.3]:
交通信号生成网络深度强化学习输出的动作值为取值范围在[-1,1]连续区间上的值,由此对应的相位持续时长也为范围在[Tmin,Tmax]连续空间上的值。通过实现使用强化学习方法输出连续动作可以完成交叉口交通信号倒计时显示的目的,相较于离散决策,强化学习方法可以减少交通事故发生的可能性。
本发明一个实施例中,如图3所示,其对应的奖励、动作和状态分别为:
奖励:93.43;
动作:-0.46;
状态:
[0.125,0.150,0.150,0.050,0,0.025,0.400,0.075,0.475,0.100,
0.875,0.000,0.025,0.150,0.025,0.225,0.000,0.025,0.300,0.050,
0.325,0.075,0.175,0.000]
在网络的训练目标定义中,si代表i时刻状态,ai代表此状态下所采取的动作,ri为此动作对应的奖励,si+1代表下一状态;Q(s,a|θQ)代表Critic网络,μ(s|θμ)代表Actor网络,θμ、θQ分别代表对应网络的参数;a=μ(s|θ)代表以θ为网络参数,在状态s下使用策略μ计算得到的动作;yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′);μ′(si+1|θμ′)为根据Actor网络的target子网络计算得到的动作,θμ'代表其网络参数;Q'(s,a|θQ')为Critic网络的target子网络,θQ'代表其网络参数;N为交叉口交通状态信息元组(si,ai,ri,si+1)的总数。
由上述描述可见,采用深度强化学习方法训练交通信号生成网络的训练过程分为三个阶段:
第一,数据获取阶段。
在此训练阶段内,Agent在规定动作取值范围内输出动作action,此时Critic和Actor网络不进行学习,直至获取足够多的交叉口交通状态信息元组数据将其记忆区填满为止。
第二,评判(Critic)网络学习阶段。
此阶段在数据获取阶段之后,获取当前阶段设定数量的交叉口交通状态信息元组,结合数据获取阶段获取的数据,在规定动作取值范围内输出动作action,此时Critic网络以减小其训练误差Loss为目标进行学习,而Actor网络不进行学习。
第三,动作(Actor)网络学习阶段。
可以使用Episode-break技术提高所述交通信号生成网络的训练效果:
判断所述交通信号生成网络的奖励是否低于设定阈值,是则放弃该周期的训练数据。
由于本发明应用episode学习方法,每一个episode中包含若干时间步并在每个episode中使用收集到的数据训练模型,但该方法面对交通崩溃时的学习数据时将会使模型效率降低,为此应用Episode-break技术提高模型效率。
Episode-break技术包括:首先,将交通崩溃条件定义为强化学习的奖励reward在某一时刻低于设定值;其次,在上述的三个训练阶段内进行训练;若达成交通崩溃条件,则放弃该周期的训练数据。
仿真得到的数据应用先前所述的三段式训练中,如图4所示,为本发明基于深度强化学习单路口交通信号控制方法一种实施例的仿真环境中网络训练过程示意图,图中横坐标表示训练的episode数亦即训练时长,纵坐标表示当前episode内各岔路的平均等待车辆数。
本发明一个实施例中,其中Tmax,Tmin分别为20s与120s,将动作值-0.46代入式(1),计算得到输出的交叉口下一相位最佳持续时长为47s。
本发明第二实施例的基于深度强化学习单路口交通信号控制系统,包括交通状态信息获取模块、交通信号生成模块、输出模块;
所述交通状态信息获取模块,配置为获取当前交叉口交通状态信息并输入交通信号生成模块;
所述交通信号生成模块,配置为基于所述交通状态信息获取模块输入的当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长;
所述输出模块,配置为输出所述交通信号生成模块计算的交叉口信号灯下一相位时长。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于深度强化学习单路口交通信号控制系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于深度强化学习单路口交通信号控制方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (8)
1.一种基于深度强化学习单路口交通信号控制方法,其特征在于,该控制方法包括:
步骤S10,获取当前交叉口交通状态信息;
步骤S20,基于所述当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长;
其中,所述交通信号生成网络基于深度强化学习方法训练,包括:
步骤B10,根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境;针对每个交通相位,定义深度强化学习模型的奖励、动作以及状态,设定评判网络和交通信号生成网络;
步骤B20,将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并获取第一预设数量的交叉口交通状态信息元组作为训练数据;
步骤B30,获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并计算所述评判网络的训练误差值;所述评判网络的训练误差为:
其中,代表训练误差;代表时刻状态,代表此状态下所采取的动作,为此动作对应的奖励,代表下一状态;为以为网络参数、在状态下使用策略计算得到的动作;代表评判网络,代表评判网络的参数;为交叉口交通状态信息元组的总数;
步骤B40,更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数,获得第一评判网络;
步骤B50,获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据,采用所述交通信号生成网络获得交叉口信号灯下一相位时长,并计算所述第一评判网络的训练误差值;
步骤B60,更新所述第一评判网络以及交通信号生成网络的参数并重复执行步骤B50直至达到第二预设训练次数,获得训练好的交通信号生成网络;
判断所述交通信号生成网络的奖励是否低于设定阈值,是则放弃奖励低于设定阈值的一批训练数据。
2.根据权利要求1所述的基于深度强化学习单路口交通信号控制方法,其特征在于,所述交叉口微观交通仿真环境包括:
交叉口车道数、进口道长度、渠化、相位组成、交叉口车流量、车流组成、车流转向。
6.一种基于深度强化学习单路口交通信号控制系统,其特征在于,包括交通状态信息获取模块、交通信号生成模块、输出模块;
所述交通状态信息获取模块,配置为获取当前交叉口交通状态信息并输入交通信号生成模块;
所述交通信号生成模块,配置为基于所述交通状态信息获取模块输入的当前时刻交叉口交通状态信息,采用交通信号生成网络计算交叉口信号灯下一相位时长;
所述输出模块,配置为输出所述交通信号生成模块计算的交叉口信号灯下一相位时长;
其中,所述交通信号生成模块中交通信号生成网络基于深度强化学习方法训练,包括:
步骤B10,根据获取的交叉口交通状态信息建立交叉口微观交通仿真环境;针对每个交通相位,定义深度强化学习模型的奖励、动作以及状态,设定评判网络和交通信号生成网络;
步骤B20,将所述深度强化学习模型应用于所述交叉口微观交通仿真环境的路口,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并获取第一预设数量的交叉口交通状态信息元组作为训练数据;
步骤B30,获取当前阶段第二预设数量的交叉口交通状态信息元组并结合所述训练数据,采用所述交通信号生成网络在设定的动作取值范围内输出动作获得交叉口信号灯下一相位时长,并计算所述评判网络的训练误差值;所述评判网络的训练误差为:
其中,代表训练误差;代表时刻状态,代表此状态下所采取的动作,为此动作对应的奖励,代表下一状态;为以为网络参数、在状态下使用策略计算得到的动作;代表评判网络,代表评判网络的参数;为交叉口交通状态信息元组的总数;
步骤B40,更新所述评判网络的参数并重复执行步骤B30直至达到第一预设训练次数,获得第一评判网络;
步骤B50,获取当前阶段第三预设数量的交叉口交通状态信息元组并结合所述第二预设数量的交叉口交通状态信息元组、所述训练数据,采用所述交通信号生成网络获得交叉口信号灯下一相位时长,并计算所述第一评判网络的训练误差值;
步骤B60,更新所述第一评判网络以及交通信号生成网络的参数并重复执行步骤B50直至达到第二预设训练次数,获得训练好的交通信号生成网络;
判断所述交通信号生成网络的奖励是否低于设定阈值,是则放弃奖励低于设定阈值的一批训练数据。
7.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-5任一项所述的基于深度强化学习单路口交通信号控制方法。
8.一种处理装置,包括
处理器,适于执行各条程序;以及
存储装置,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-5任一项所述的基于深度强化学习单路口交通信号控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629489.1A CN110428615B (zh) | 2019-07-12 | 2019-07-12 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910629489.1A CN110428615B (zh) | 2019-07-12 | 2019-07-12 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110428615A CN110428615A (zh) | 2019-11-08 |
CN110428615B true CN110428615B (zh) | 2021-06-22 |
Family
ID=68410566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910629489.1A Active CN110428615B (zh) | 2019-07-12 | 2019-07-12 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110428615B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110969871B (zh) * | 2019-12-18 | 2020-11-24 | 浙江大学 | 一种智能交通灯控制系统和控制方法 |
CN111091711A (zh) * | 2019-12-18 | 2020-05-01 | 上海天壤智能科技有限公司 | 基于强化学习和交通车道竞争理论的交通控制方法及系统 |
CN111243299B (zh) * | 2020-01-20 | 2020-12-15 | 浙江工业大学 | 一种基于3dqn_pser算法的单交叉口信号控制方法 |
KR102493930B1 (ko) * | 2020-03-30 | 2023-01-31 | 주식회사 라온로드 | 강화학습 기반 신호 제어 장치 및 신호 제어 방법 |
CN112365724B (zh) * | 2020-04-13 | 2022-03-29 | 北方工业大学 | 一种基于深度强化学习的连续交叉口信号协同控制方法 |
CN111653106A (zh) * | 2020-04-15 | 2020-09-11 | 南京理工大学 | 一种基于深度q学习的交通信号控制方法 |
CN112216124B (zh) * | 2020-09-17 | 2021-07-27 | 浙江工业大学 | 一种基于深度强化学习的交通信号控制方法 |
US11783702B2 (en) | 2020-09-18 | 2023-10-10 | Huawei Cloud Computing Technologies Co., Ltd | Method and system for adaptive cycle-level traffic signal control |
CN112201060B (zh) * | 2020-09-27 | 2022-05-20 | 航天科工广信智能技术有限公司 | 一种基于Actor-Critic的单交叉口交通信号控制方法 |
CN112216127B (zh) * | 2020-09-27 | 2022-05-03 | 航天科工广信智能技术有限公司 | 一种基于近端策略优化的小型路网交通信号优化方法 |
CN112309138A (zh) * | 2020-10-19 | 2021-02-02 | 智邮开源通信研究院(北京)有限公司 | 交通信号控制方法、装置、电子设备及可读存储介质 |
CN112614343B (zh) * | 2020-12-11 | 2022-08-19 | 多伦科技股份有限公司 | 基于随机策略梯度的交通信号控制方法、系统及电子设备 |
CN112669629B (zh) * | 2020-12-17 | 2022-09-23 | 北京建筑大学 | 一种基于深度强化学习的实时交通信号控制方法及装置 |
CN112632858A (zh) * | 2020-12-23 | 2021-04-09 | 浙江工业大学 | 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法 |
CN113077642B (zh) * | 2021-04-01 | 2022-06-21 | 武汉理工大学 | 一种交通信号灯控制方法、装置及计算机可读存储介质 |
CN113240118B (zh) * | 2021-05-18 | 2023-05-09 | 中国科学院自动化研究所 | 优势估计方法、装置、电子设备和存储介质 |
CN112989715B (zh) * | 2021-05-20 | 2021-08-03 | 北京理工大学 | 一种燃料电池汽车多信号灯车速规划方法 |
CN113837348A (zh) * | 2021-07-28 | 2021-12-24 | 中国科学院自动化研究所 | 基于强化学习的变化环境多智能体控制方法与装置 |
CN113377030B (zh) * | 2021-08-12 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种路口信号控制模型的确定方法和相关装置 |
CN114613168B (zh) * | 2022-04-19 | 2023-02-24 | 南京信息工程大学 | 一种基于记忆网络的深度强化学习交通信号控制方法 |
CN115359653A (zh) * | 2022-07-25 | 2022-11-18 | 清华大学 | 一种交通信号控制方法和装置 |
CN115457782B (zh) * | 2022-09-19 | 2023-11-03 | 吉林大学 | 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法 |
CN115691110B (zh) * | 2022-09-20 | 2023-08-25 | 东南大学 | 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法 |
CN116311979A (zh) * | 2023-03-13 | 2023-06-23 | 南京信息工程大学 | 一种基于深度强化学习的自适应交通灯控制方法 |
CN117275259B (zh) * | 2023-11-20 | 2024-02-06 | 北京航空航天大学 | 一种基于领域信息回溯的多交叉口协同信号控制方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
CN108335497A (zh) * | 2018-02-08 | 2018-07-27 | 南京邮电大学 | 一种交通信号自适应控制系统及方法 |
CN108510764A (zh) * | 2018-04-24 | 2018-09-07 | 南京邮电大学 | 一种基于q学习的多路口自适应相位差协调控制系统及方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108805348A (zh) * | 2018-06-05 | 2018-11-13 | 北京京东金融科技控股有限公司 | 一种交叉口信号配时控制优化的方法和装置 |
CN109035812A (zh) * | 2018-09-05 | 2018-12-18 | 平安科技(深圳)有限公司 | 交通信号灯的控制方法、装置、计算机设备及存储介质 |
EP3425608A1 (en) * | 2017-07-03 | 2019-01-09 | Fujitsu Limited | Traffic signal control using multiple q-learning categories |
CN109215355A (zh) * | 2018-08-09 | 2019-01-15 | 北京航空航天大学 | 一种基于深度强化学习的单点交叉口信号配时优化方法 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
CN109523029A (zh) * | 2018-09-28 | 2019-03-26 | 清华大学深圳研究生院 | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 |
CN109615885A (zh) * | 2018-12-27 | 2019-04-12 | 银江股份有限公司 | 一种智能交通信号控制方法、装置及系统 |
CN109670233A (zh) * | 2018-12-14 | 2019-04-23 | 南京理工大学 | 基于深度强化学习的多交通信号灯自动控制方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10002530B1 (en) * | 2017-03-08 | 2018-06-19 | Fujitsu Limited | Traffic signal control using multiple Q-learning categories |
-
2019
- 2019-07-12 CN CN201910629489.1A patent/CN110428615B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910351A (zh) * | 2017-04-19 | 2017-06-30 | 大连理工大学 | 一种基于深度强化学习的交通信号自适应控制方法 |
EP3425608A1 (en) * | 2017-07-03 | 2019-01-09 | Fujitsu Limited | Traffic signal control using multiple q-learning categories |
CN108335497A (zh) * | 2018-02-08 | 2018-07-27 | 南京邮电大学 | 一种交通信号自适应控制系统及方法 |
CN108510764A (zh) * | 2018-04-24 | 2018-09-07 | 南京邮电大学 | 一种基于q学习的多路口自适应相位差协调控制系统及方法 |
CN108803321A (zh) * | 2018-05-30 | 2018-11-13 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
CN108805348A (zh) * | 2018-06-05 | 2018-11-13 | 北京京东金融科技控股有限公司 | 一种交叉口信号配时控制优化的方法和装置 |
CN109215355A (zh) * | 2018-08-09 | 2019-01-15 | 北京航空航天大学 | 一种基于深度强化学习的单点交叉口信号配时优化方法 |
CN109035812A (zh) * | 2018-09-05 | 2018-12-18 | 平安科技(深圳)有限公司 | 交通信号灯的控制方法、装置、计算机设备及存储介质 |
CN109523029A (zh) * | 2018-09-28 | 2019-03-26 | 清华大学深圳研究生院 | 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法 |
CN109670233A (zh) * | 2018-12-14 | 2019-04-23 | 南京理工大学 | 基于深度强化学习的多交通信号灯自动控制方法 |
CN109472984A (zh) * | 2018-12-27 | 2019-03-15 | 苏州科技大学 | 基于深度强化学习的信号灯控制方法、系统和存储介质 |
CN109615885A (zh) * | 2018-12-27 | 2019-04-12 | 银江股份有限公司 | 一种智能交通信号控制方法、装置及系统 |
Non-Patent Citations (5)
Title |
---|
An Intersection Signal Control Method Based on Deep Reinforcement Learning;PANG Ha-li 等;《IEEE》;20171102;344-348 * |
Deep Reinforcement Learning for Autonomous Traffic Light Control;Deepeka Garg 等;《IEEE》;20181018;214-218 * |
Traffic Signal Timing via Deep reinforcement learning;Li Li 等;《IEEE》;20160712;第3卷(第3期);247-254 * |
基于深度强化学习的交通信号配时优化研究;文峰 等;《沈阳理工大学学报》;20190228;第38卷(第1期);48-52 * |
文峰 等.基于深度强化学习的交通信号配时优化研究.《沈阳理工大学学报》.2019,第38卷(第1期),48-53. * |
Also Published As
Publication number | Publication date |
---|---|
CN110428615A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428615B (zh) | 基于深度强化学习单路口交通信号控制方法、系统、装置 | |
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
CN113805572B (zh) | 运动规划的方法与装置 | |
US20220363259A1 (en) | Method for generating lane changing decision-making model, method for lane changing decision-making of unmanned vehicle and electronic device | |
CN110646009A (zh) | 一种基于dqn的车辆自动驾驶路径规划的方法及装置 | |
CN109492763B (zh) | 一种基于强化学习网络训练的自动泊车方法 | |
CN110955242A (zh) | 机器人导航方法、系统、机器人及存储介质 | |
DE102019104974A1 (de) | Verfahren sowie System zum Bestimmen eines Fahrmanövers | |
CN108335497A (zh) | 一种交通信号自适应控制系统及方法 | |
CN111626097A (zh) | 一种障碍物未来轨迹的预测方法、装置、电子设备及存储介质 | |
CN110108292A (zh) | 车辆导航路径规划方法、系统、设备及介质 | |
CN113257016B (zh) | 一种交通信号控制方法、装置以及可读存储介质 | |
Li et al. | Adaptive traffic signal control model on intersections based on deep reinforcement learning | |
CN109284527A (zh) | 一种城市路段交通流仿真的方法 | |
DE102019105340A1 (de) | Verfahren für ein Ultraschallmesssystem im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens | |
EP4216098A1 (en) | Methods and apparatuses for constructing vehicle dynamics model and for predicting vehicle state information | |
Zou et al. | Inverse reinforcement learning via neural network in driver behavior modeling | |
CN106454108A (zh) | 基于人工智能的跟踪拍摄方法、装置和电子设备 | |
WO2021213593A1 (de) | Verfahren zum planen eines automatisierten parkvorgangs für ein fahrzeug | |
Yuan et al. | Prioritized experience replay-based deep q learning: Multiple-reward architecture for highway driving decision making | |
CN113104050B (zh) | 一种基于深度强化学习的无人驾驶端到端决策方法 | |
US20220197227A1 (en) | Method and device for activating a technical unit | |
CN109752952A (zh) | 一种获取多维随机分布及强化控制器的方法和装置 | |
Ozturk et al. | Investigating value of curriculum reinforcement learning in autonomous driving under diverse road and weather conditions | |
CN114613159B (zh) | 基于深度强化学习的交通信号灯控制方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |