CN112216127B - 一种基于近端策略优化的小型路网交通信号优化方法 - Google Patents
一种基于近端策略优化的小型路网交通信号优化方法 Download PDFInfo
- Publication number
- CN112216127B CN112216127B CN202011036655.6A CN202011036655A CN112216127B CN 112216127 B CN112216127 B CN 112216127B CN 202011036655 A CN202011036655 A CN 202011036655A CN 112216127 B CN112216127 B CN 112216127B
- Authority
- CN
- China
- Prior art keywords
- road network
- network
- traffic
- now
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
一种基于近端策略优化的小型路网交通信号控制方法,包括如下步骤:1)通过与SUMO的交互,实时获取路网中车辆的位置信息和信号灯的相位信息;2)数据预处理,获取整个路网在当前时刻的排队长度‑相位编号数据集;3)根据上一步整理的数据集,训练PPO网络直到达到最大迭代次数;4)损失函数达到精度要求后,即可得到该路网下基于近端策略优化的交通信号优化配时方案。与现有技术相比,本发明通过近端策略优化的方法,提高了小型路网的交通运行效率,更好地缓解了城市中小型连通区域的交通拥堵问题。
Description
技术领域
本发明涉及智能交通、人工智能应用领域,具体涉及近端策略优化(ProximalPolicy Optimization)算法和小型路网交通信号优化方法。
背景技术
随着大众生活水平的普遍提高,汽车已成为人们出行最常用的交通工具,但由于道路资源的有限,交通管理协调机制的不科学以及交通决策存在的失误性等因素,城市路网,特别是交叉口处会造成严重的交通拥堵问题。对于某一个具体的交叉口,宽敞的道路和智能交通设备的存在使得该路口不会产生严重的拥堵;而对于多个交叉口连接而成的小型路网,拥堵问题仍然存在,并且是影响区域通行效率的最大因素。
发明内容
为了优化小型路网的交通信号配时方案,改善区域路网的交通拥堵现象,基于实时获取的交通数据,本发明提出一种基于近端策略优化的小型路网交通信号控制方法,对于小型路网提出的基于近端策略优化的交通信号优化配时方案可以有效提高交通通行效率,而且可以增加区域内不同交叉口之间的协作,应对交通的动态性变化。
本发明解决其技术问题所采用的技术方案是:
一种基于近端策略优化的小型路网交通信号控制方法,包括以下步骤:
1)利用路网交叉口处的交通数据信号传感器,实时获取小型路网中(井字型四交叉口)的交通数据,为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;
2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,在该发明中,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;
3)利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法PPO更新网络参数,寻找当前交通环境下的最优信号灯配时方案;
4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案,在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:
Pnext=argmax(Q(snow,anow,θ))
其中Pnext表示路网需切换至的相位,snow为当前路网交通状态,anow为当前路网可执行的相位,θ表示神经网络的参数,Q(snow,anow,θ)表示由当前路网状态,当前路网可执行相位,神经网络参数决定的Q值函数,argmax(Q(snow,anow,θ))表示使得Q(snow,anow,θ)最大的受控参数anow。
进一步,所述步骤3)的过程如下:
3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:
3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:
LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];
其中,rt(θ)是t时刻New Policy和Old Policy的比例,以此限制New Policy的更新幅度;
3.3)根据排队长度-相位编号数据集St和平均奖励的偏导数dRt更新Critic神经网络权重w,输出评价θt好坏的指标adv:
adv=dRt-V(St)
3.4)重复更新PPO网络参数直到达到最大迭代次数I=200000或者损失函数达到收敛精度的要求。
本发明的技术构思为:首先实时获取路网内的车辆信息和信号灯相位信息,然后预处理,得到排队长度-相位编号数据集,再基于该数据集和近端策略优化训练策略参数和神经网络。达到最大迭代次数后,可以得到基于近端策略优化和当前路网车辆排队长度的最优信号灯相位切换方案,该发明最终得到的交通信号控制方案可以有效处理小区域路网的交通拥堵问题。
本发明的有益效果为:通过对实时交通数据的获取和处理,挖掘交通数据中隐藏的重要信息,通过训练PPO神经网络,最后将训练结果用于小型路网的交通信号控制,从而可以缓解区域交通的拥堵问题。
附图说明
图1显示了基于近端策略优化的小型路网交通信号控制方法流程图;
图2显示了基于SUMO仿真软件搭建的小型路网示意图,用于下文的实例分析;
图3显示了路网内交叉口的相位示意图,每个交叉口处的相位具有一致性。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于近端策略优化的小型路网交通信号控制方法,包括以下步骤:
1)参照图2,图3的路网信息,利用路网交叉口处的交通数据信号传感器,实时获取小型路网中(井字型四交叉口)的交通数据,主要为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;
2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,在该发明中,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;
3)根据图1,利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法(PPO)更新网络参数,寻找当前交通环境下的最优信号灯配时方案,过程如下:
3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:
3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:
LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];
其中,rt(θ)是t时刻New Policy和Old Policy的比例,以此限制New Policy的更新幅度;
3.3)根据排队长度-相位编号数据集St和平均奖励的偏导数dRt更新Critic神经网络权重w,输出评价θt好坏的指标adv:
adv=dRt-V(St)
3.4)重复更新PPO网络参数直到达到最大迭代次数I=200000或者损失函数达到收敛精度的要求;
4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案。在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:
Pnext=argmax(Q(snow,anow,θ))
其中Pnext表示路网需切换至的相位,snow为当前路网交通状态,anow为当前路网可执行的相位,θ表示神经网络的参数,Q(snow,anow,θ)表示由当前路网状态,当前路网可执行相位,神经网络参数决定的Q值函数,argmax(Q(snow,anow,θ))表示使得Q(snow,anow,θ)最大的受控参数anow。
本实施例以使用微观交通仿真软件SUMO搭建的四交叉口井字型路网的实时交通数据为实施例,一种基于近端策略优化的小型路网交通信号控制方法,包括以下步骤:
1)通过SUMO构建仿真路网,并利用python与SUMO的接口,实时获取小型路网中(井字型四交叉口)的交通数据,主要为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;
2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,在该发明中,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;
3)利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法(PPO)更新网络参数,寻找当前交通环境下的最优信号灯配时方案,过程如下:
3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:
3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:
LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];
其中,rt(θ)是t时刻New Policy和Old Policy的比例,以此限制New Policy的更新幅度;
3.3)根据排队长度-相位编号数据集St和平均奖励的偏导数dRt更新Critic神经网络权重w,输出评价θt好坏的指标adv:
adv=dRt-V(St)
3.4)重复更新PPO网络参数直到达到最大迭代次数I=200000或者损失函数达到收敛精度的要求。
4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案。在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:
Pnext=argmax(Q(snow,anow,θ))。
以微观交通仿真软件SUMO搭建的井字型四交叉口路网为实施例,运用以上方法得到基于近端策略优化的小型路网交通信号优化配时方案,结果显示,相比定时控制方式,该方法的车辆平均旅行时间减少了22.8%。
以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。
Claims (1)
1.一种基于近端策略优化的小型路网交通信号控制方法,其特征在于,所述方法包括以下步骤:
1)利用路网交叉口处的交通数据信号传感器,实时获取小型路网中的交通数据,为车辆的相对坐标信息和信号灯在对应时刻所处的相位信息,确定处于排队状态的车辆,保存在原始数据集中;
2)原始数据预处理,删去离谱的数据并用前一时刻的数据填补缺失的数据,获取具体交叉口处的排队长度-相位编号集合{Qi,j,Pi},其中,Qi,j表示当前时刻第i交叉口第j车道处的车辆排队长度,Pi代表当前时刻第i交叉口处的信号灯灯态,i=1,2,3,4,j=1,2,...,7,8;按照路网中交叉口的排列顺序,将集合{Qi,j,Pi}整合得到整个路网在当前时刻的排队长度-相位编号数据集St,t为当前的时刻;
3)利用路网的排队长度-相位编号集St,初始化神经网络权重,利用近端策略优化方法PPO更新网络参数,寻找当前交通环境下的最优信号灯配时方案;
4)保存最终收敛的神经网络训练参数,得到该路网下基于近端策略优化的交通信号优化配时方案,在不同交通状态st下,该路网需切换至的交通相位由以下状态-动作对所决定:
Pnext=argmax(Q(snow,anow,θ))
其中Pnext表示路网需切换至的相位,snow为当前路网交通状态,anow为当前路网可执行的相位,θ表示神经网络的参数,Q(snow,anow,θ)表示由当前路网状态,当前路网可执行相位,神经网络参数决定的Q值函数,argmax(Q(snow,anow,θ))表示使得Q(snow,anow,θ)最大的受控参数anow;
所述步骤3)的过程如下:
3.1)首先,定义训练超参数,折扣因子γ=0.9,Actor网络学习率A_LR=0.0001,Critic网络学习率C_LR=0.0002,batch=256,AC网络的更新步长Step=10,裁剪因子ε=0.2,当前时刻PPO方法的奖励定义如下:
3.2)根据排队长度-相位编号数据集St,缓冲区buffer中存储的小批量训练数据以及Critic网络的返回值adv更新Actor神经网络Q(st,at,θt),其中θt为策略参数,更新当前时刻选取各个动作的概率,并按照预设的Step将更新参数传入old_policy网络,PPO中Policy的更新公式如下所示:
LCLIP(θ)=Et[min(rt(θ)At,clip(rt(θ),1-ε,1+ε)At)];
其中,rt(θ)是t时刻New Policy和Old Policy的比例,以此限制New Policy的更新幅度;
3.3)根据排队长度-相位编号数据集St和平均奖励的偏导数dRt更新Critic神经网络权重w,输出评价θt好坏的指标adv:
adv=dRt-V(St)
3.4)重复更新PPO网络参数直到达到最大迭代次数I=200000或者损失函数达到收敛精度的要求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036655.6A CN112216127B (zh) | 2020-09-27 | 2020-09-27 | 一种基于近端策略优化的小型路网交通信号优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011036655.6A CN112216127B (zh) | 2020-09-27 | 2020-09-27 | 一种基于近端策略优化的小型路网交通信号优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112216127A CN112216127A (zh) | 2021-01-12 |
CN112216127B true CN112216127B (zh) | 2022-05-03 |
Family
ID=74052011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011036655.6A Active CN112216127B (zh) | 2020-09-27 | 2020-09-27 | 一种基于近端策略优化的小型路网交通信号优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112216127B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113312848B (zh) * | 2021-06-10 | 2022-10-04 | 太原理工大学 | 一种以适配目标信息提取算法为目的光学系统智能设计方法 |
CN113487860A (zh) * | 2021-06-28 | 2021-10-08 | 南京云创大数据科技股份有限公司 | 一种智能交通信号控制方法 |
CN114141028B (zh) * | 2021-11-19 | 2023-05-12 | 哈尔滨工业大学(深圳) | 智能红绿灯车流调控系统 |
CN114333357B (zh) * | 2021-12-31 | 2023-08-15 | 上海商汤智能科技有限公司 | 一种交通信号控制方法、装置、电子设备及存储介质 |
CN115578870B (zh) * | 2022-09-30 | 2023-06-30 | 合肥工业大学 | 一种基于近端策略优化的交通信号控制方法 |
CN116052451B (zh) * | 2023-01-10 | 2024-04-05 | 南京理工大学 | 井字形交叉口信号配时方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN110119844A (zh) * | 2019-05-08 | 2019-08-13 | 中国科学院自动化研究所 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
CN110428615A (zh) * | 2019-07-12 | 2019-11-08 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CN111081035A (zh) * | 2019-12-17 | 2020-04-28 | 扬州市鑫通智能信息技术有限公司 | 一种基于q学习的交通信号控制方法 |
-
2020
- 2020-09-27 CN CN202011036655.6A patent/CN112216127B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060475A (zh) * | 2019-04-17 | 2019-07-26 | 清华大学 | 一种基于深度强化学习的多交叉口信号灯协同控制方法 |
CN110119844A (zh) * | 2019-05-08 | 2019-08-13 | 中国科学院自动化研究所 | 引入情绪调控机制的机器人运动决策方法、系统、装置 |
CN110428615A (zh) * | 2019-07-12 | 2019-11-08 | 中国科学院自动化研究所 | 基于深度强化学习单路口交通信号控制方法、系统、装置 |
CN111081035A (zh) * | 2019-12-17 | 2020-04-28 | 扬州市鑫通智能信息技术有限公司 | 一种基于q学习的交通信号控制方法 |
Non-Patent Citations (2)
Title |
---|
Fast-PPO_最优基线法的近端策略优化算法;肖竹 等;《小型微型计算机系统》;20200731;第41卷(第7期);第1351-1356页 * |
基于深度强化学习的多智能体城市道路交叉口交通流优化控制研究;高思琦;《中国优秀博硕士学位论文全文数据库(硕士)·工程科技Ⅱ辑》;20200115(第01期);第14-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112216127A (zh) | 2021-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112216127B (zh) | 一种基于近端策略优化的小型路网交通信号优化方法 | |
CN112561146B (zh) | 一种基于模糊逻辑和深度lstm的大规模实时交通流预测方法 | |
CN109993082B (zh) | 卷积神经网络道路场景分类与道路分割方法 | |
CN103927873B (zh) | 浮动车与路段匹配方法及并行获取实时路况的方法 | |
WO2021051870A1 (zh) | 基于强化学习模型的信息控制方法、装置和计算机设备 | |
CN109360429B (zh) | 一种基于模拟优化的城市道路交通调度方法及系统 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN111260937A (zh) | 一种基于强化学习的十字路口交通信号灯控制方法 | |
US20230365163A1 (en) | Automatic Driving Decision Making Method, System And Device And Computer Storage Medium | |
CN111243297A (zh) | 交通灯相位控制方法、系统、设备及介质 | |
CN113257016B (zh) | 一种交通信号控制方法、装置以及可读存储介质 | |
CN107122701A (zh) | 一种基于图像显著性和深度学习的交通道路标志识别方法 | |
CN113012449B (zh) | 基于多榜样学习粒子群的智慧城市信号灯配时优化方法 | |
CN112037539B (zh) | 一种用于饱和城市交通网络的信控方案推荐方法及系统 | |
CN109840904B (zh) | 一种高铁接触网大尺度差异零部件检测方法 | |
CN109871789A (zh) | 一种基于轻量化神经网络的复杂环境下车辆检测方法 | |
CN109489679B (zh) | 一种导航路径中的到达时间计算方法 | |
CN111220162B (zh) | 一种获取慢行车辆行驶轨迹的方法及装置 | |
CN113160585A (zh) | 交通灯配时优化方法、系统及存储介质 | |
CN111222534B (zh) | 一种基于双向特征融合和更平衡l1损失的单发多框检测器优化方法 | |
CN110530386A (zh) | 一种基于改进Dijkstra算法的动态最短路径规划方法 | |
CN113724507A (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
CN113392577A (zh) | 一种基于深度强化学习的区域边界主交叉口信号控制方法 | |
CN115472023B (zh) | 一种基于深度强化学习的智能交通灯控制方法及装置 | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |