CN114613168B - 一种基于记忆网络的深度强化学习交通信号控制方法 - Google Patents
一种基于记忆网络的深度强化学习交通信号控制方法 Download PDFInfo
- Publication number
- CN114613168B CN114613168B CN202210408279.1A CN202210408279A CN114613168B CN 114613168 B CN114613168 B CN 114613168B CN 202210408279 A CN202210408279 A CN 202210408279A CN 114613168 B CN114613168 B CN 114613168B
- Authority
- CN
- China
- Prior art keywords
- network
- value
- time
- traffic signal
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法,包括:1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;主网络将t时刻状态值st输入LSTM中得到t+1时刻预测状态值合并st和并输入全连接网络,得到预测Q值的最大值和对应动作2、初始化算法参数,采集路况信息建立状态值st;3、将st输入主网络得到预测Q值取最大值的动作采用1‑ε策略选择动作at;4、执行动作at并计算奖励rt和状态st+1;5、在经验池中随机抽样B个记录,通过最小化损失函数训练主网络参数;6、定时更新目标值网络参数,根据当前路况更新st,跳转至步骤3继续执行。该方法根据当前路况以及对当前路况的预测来计算Q值,能够更精确地对交通信号进行控制。
Description
技术领域
本发明属于交通信息控制领域,具体涉及一种基于记忆网络的深度强化学习进行交通信号控制的方法。
背景技术
传统的交通信号控制是确定最佳交通信号周期和相位的固定配时控制(fixed-time control),其中最佳交通信号周期和相位于是基于历史交通流数据确定的,无法针对不同的路况动态调整交通信号周期和相位,所以很难适应实时交通状态的变化。在当今许多现代城市中,广泛使用的自适应交通信号控制系统,如SCATS和SCOOTS,严重依赖于人工设计的交通信号方案。交通信号方案通常由专家知识生成或由传统的交通信号控制方法计算得到。这种人工设置的交通信号方案是根据环路传感器检测到的交通量来动态选择的。然而,回路传感器只有在车辆通过时才会被激活。因此,它们只能通过它们提供车辆的部分信息。结果,信号无法感知和响应实时交通模式,而工程师需要这样做在一定的交通条件场景下,手动改变信号控制系统中的交通信号配时。
为了更有效的、实时的对当前交叉路口进行控制,近些年来,强化学习(RL)已成为当今世界上交通信号控制的一种重要解决途径。RL方法通过与环境进行交互来学习策略。一个通常的方法是把一个交通路口看做一个agent,把交通流状况看做是环境的输入,agent根据输入的状态(交通流数据)选取相应的action(例如设置的交通信号),最后根据环境收到的反馈来优化其奖励(如平均通行时间),这个方法也已经证实显著提高了交通信号控制的效率。
发明内容
发明目的:本发明提供一种基于记忆网络的深度强化学习交通信号控制方法,该方法根据当前路况以及对当前路况的预测来计算Q值,能够更精确地对交通信号进行控制。
技术方案:本发明采用如下技术方案:
一种基于记忆网络的深度强化学习交通信号控制方法,包括步骤:
S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值将st和进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st,a,θ),以及Q(st,a,θ)最大值所对应的动作即:
所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t时刻前时长为τ的时间段内驶离交通路口的车辆数量与进入交通路口的车辆数量之差;
S2、对主网络的参数θ进行随机初始化,将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st;
S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作以概率1-ε选择以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0-1之间,且随训练逐渐减小,直至达到预设的固定值;
S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;
其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;
S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。
进一步地,所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,其中时长τ为10s。
进一步地,当交通路口为十字路口,所述主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4。
进一步地,所述主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变。
进一步地,所述步骤S5中采用梯度下降法最小化损失函数得到主网络的参数。
进一步地,所述经验池采用容量固定的队列存储记录。
附图说明
图1为本发明公开的交通信号控制方法的流程图;
图2为本发明中主网络的结构组成图;
图3为本发明网络框架示意图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明。
本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法,如图1所示,包括步骤:
S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值将st和进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st,a,θ),以及Q(st,a,θ)最大值所对应的动作即:如图2所示,为主网络的结构示意图。
所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t-1时刻到t时刻之间驶离交通路口的车辆数量与进入交通路口的车辆数量之差;
本实施例中,时长τ为10s,即统计当前时刻前10s内交通路口各进车道进入和驶离交通路口的车辆数量,以此来计算当前时刻的状态值和奖励函数值。
当交通路口为十字路口,每个路口均有进车道和出车道,则主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4;奖励函数值为:其中mj为t时刻前时长为τ的时间段内十字路口中第j个出车道驶离交通路口的车辆数量,nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量。
本实施例中,主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变,即按照预设的交通信号灯相位变化来改变当前相位的状态。
S2、对主网络的参数θ进行随机初始化;主网络和目标值网络的参数包括LSTM的参数和全连接网络的参数;将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st;
S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作以概率1-ε选择以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0-1之间,且随训练逐渐减小,直至达到预设的固定值;
S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;
本发明中经验池采用容量固定的队列存储记录,当队列已满时,将队头的记录删除,新的记录存储至队尾,以此来更新经验池,使经验池中的记录保持最新。
其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;
本发明中中采用梯度下降法最小化损失函数得到主网络的参数,如图3所示,为本发明网络框架示意图。
S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。
本发明采用根据当前路况以及对当前路况的预测来计算Q值,能够得到更精确的Q值,从而对交通信号进行更精确的调控。
Claims (9)
1.一种基于记忆网络的深度强化学习交通信号控制方法,其特征在于,包括步骤:
S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络;所述交通信号灯控制主网络和目标值网络的结构相同;所述主网络将输入的t时刻状态值st输入LSTM网络中得到t+1时刻的预测状态值将st和进行合并并输入全连接网络,得到t时刻的执行各种动作的预测Q值Q(st,a,θ),以及Q(st,a,θ)最大值所对应的动作即:
所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,动作空间为对交通路口当前所有交通信号灯相位的调控操作,奖励函数为t时刻前时长为τ的时间段内驶离交通路口的车辆数量与进入交通路口的车辆数量之差;
S2、对主网络的参数θ进行随机初始化,将目标值网络的参数θ′初始化为θ,初始化时间步t=0,采集交通路口的路况信息,建立初始状态值st;
S3、将st输入主网络中,得到使Q(st,a,θ)取最大值的动作以概率1-ε选择以概率ε在动作空间中随机选择,得到当前时间对交通信号灯的调控操作at;ε的取值范围为0-1之间,且随训练逐渐减小,直至达到预设的固定值;
S4、执行动作at并计算奖励rt和状态st+1;将(st,at,rt,st+1)存储到经验池中;
其中(si,ai,ri,si+1)为在经验池中随机抽样的记录,γ为折扣因子,maxa′Q′(si+1,a′,θ′)表示目标值网络在输入状态si+1时输出的预测Q值的最大值,maxaQ(si,a,θ)表示主网络在输入状态si时输出的预测Q值的最大值;
S6、令t加一,如果mod(t,C)为0,将目标值网络的参数θ′更新为主网络的参数θ;mod为取余运算,C为预设的参数更新时间步;根据当前路况信息更新st,跳转至步骤S3继续执行。
4.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量,其中时长τ为10s。
5.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,当交通路口为十字路口,所述主网络和目标值网络的状态空间中的状态值为[n1,n2,n3,n4],其中nj为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量;j=1,2,3,4。
7.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述主网络和目标值网络的动作空间中的动作值有三种取值,分别为:ac1:当前相位时长加T秒;ac2:当前相位时长减T秒;ac3:当前相位时长不变。
8.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述步骤S5中采用梯度下降法最小化损失函数得到主网络的参数。
9.根据权利要求1所述的基于记忆网络的深度强化学习交通信号控制方法,其特征在于,所述经验池采用容量固定的队列存储记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210408279.1A CN114613168B (zh) | 2022-04-19 | 2022-04-19 | 一种基于记忆网络的深度强化学习交通信号控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210408279.1A CN114613168B (zh) | 2022-04-19 | 2022-04-19 | 一种基于记忆网络的深度强化学习交通信号控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114613168A CN114613168A (zh) | 2022-06-10 |
CN114613168B true CN114613168B (zh) | 2023-02-24 |
Family
ID=81869228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210408279.1A Active CN114613168B (zh) | 2022-04-19 | 2022-04-19 | 一种基于记忆网络的深度强化学习交通信号控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114613168B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110047278A (zh) * | 2019-03-30 | 2019-07-23 | 北京交通大学 | 一种基于深度强化学习的自适应交通信号控制系统及方法 |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN110428615A (zh) * | 2019-07-12 | 2019-11-08 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CA3060900A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | System and method for deep reinforcement learning |
CN111696370A (zh) * | 2020-06-16 | 2020-09-22 | 西安电子科技大学 | 基于启发式深度q网络的交通灯控制方法 |
CN112489464A (zh) * | 2020-11-19 | 2021-03-12 | 天津大学 | 一种具有位置感知的路口交通信号灯调控方法 |
CN113947928A (zh) * | 2021-10-15 | 2022-01-18 | 河南工业大学 | 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法 |
CN114120670A (zh) * | 2021-11-25 | 2022-03-01 | 支付宝(杭州)信息技术有限公司 | 用于交通信号控制的方法和系统 |
-
2022
- 2022-04-19 CN CN202210408279.1A patent/CN114613168B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3060900A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | System and method for deep reinforcement learning |
CN110047278A (zh) * | 2019-03-30 | 2019-07-23 | 北京交通大学 | 一种基于深度强化学习的自适应交通信号控制系统及方法 |
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN110428615A (zh) * | 2019-07-12 | 2019-11-08 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CN111696370A (zh) * | 2020-06-16 | 2020-09-22 | 西安电子科技大学 | 基于启发式深度q网络的交通灯控制方法 |
CN112489464A (zh) * | 2020-11-19 | 2021-03-12 | 天津大学 | 一种具有位置感知的路口交通信号灯调控方法 |
CN113947928A (zh) * | 2021-10-15 | 2022-01-18 | 河南工业大学 | 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法 |
CN114120670A (zh) * | 2021-11-25 | 2022-03-01 | 支付宝(杭州)信息技术有限公司 | 用于交通信号控制的方法和系统 |
Non-Patent Citations (4)
Title |
---|
"Value-based deep reinforcement learning for adaptive isolated intersection signal control";WAN C H et.al;《IET Intelligent Transport Systems》;20181231;全文 * |
"基于元学习的小样本遥感图像分类";甘正胜 等;《计算机工程与设计》;20220115;全文 * |
"基于深度强化学习的交通信号自适应控制研究";丁文杰;《全国优秀硕士学位论文全文库 工程科技Ⅱ辑》;20210615;全文 * |
"基于深度强化学习的城市交通信号控制综述";徐东伟 等;《交通运输工程与信息学报》;20220315;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114613168A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021051870A1 (zh) | 基于强化学习模型的信息控制方法、装置和计算机设备 | |
EP3782143B1 (en) | Method and system for multimodal deep traffic signal control | |
US11783702B2 (en) | Method and system for adaptive cycle-level traffic signal control | |
CN107067764B (zh) | 一种城市交叉口可变导向车道自适应控制方法 | |
CN109993984B (zh) | 一种车速引导方法及装置 | |
CN114613169B (zh) | 一种基于双经验池dqn的交通信号灯控制方法 | |
WO2022258943A1 (en) | Traffic control system | |
Shingate et al. | Adaptive traffic control system using reinforcement learning | |
Shamsi et al. | Reinforcement learning for traffic light control with emphasis on emergency vehicles | |
CN111047880B (zh) | 路网的交通控制方法、装置、存储介质和管理设备 | |
Wu et al. | Deep reinforcement learning based traffic signal control: A comparative analysis | |
CN114613168B (zh) | 一种基于记忆网络的深度强化学习交通信号控制方法 | |
US20230249713A1 (en) | Computer system and method for determining reliable vehicle control instructions | |
CN116758768A (zh) | 一种全十字路口红绿灯动态调控方法 | |
Kaths | Integrating reliable speed advisory information and adaptive urban traffic control for connected vehicles | |
CN116824848A (zh) | 基于贝叶斯深度q网络的交通信号优化控制方法 | |
JPH08171694A (ja) | 交通信号制御方法及び制御装置 | |
CN114613170B (zh) | 一种基于强化学习的交通信号灯路口协调控制方法 | |
CN114743388B (zh) | 一种基于强化学习的多交叉口信号自适应控制方法 | |
CN115713860A (zh) | 一种基于强化学习的高速公路交通管控方法 | |
CN114399107A (zh) | 一种交通状态感知信息的预测方法及系统 | |
CN115047864A (zh) | 模型训练的方法、无人设备的控制方法以及装置 | |
CN109272757B (zh) | 一种带闭环反馈的均衡计算相位绿灯时长的方法 | |
Van Katwijk et al. | Traffic adaptive control of a single intersection: A taxonomy of approaches | |
Chen et al. | Adaptive traffic light control for competing vehicle and pedestrian flows |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |