CN115578870A - 一种基于近端策略优化的交通信号控制方法 - Google Patents

一种基于近端策略优化的交通信号控制方法 Download PDF

Info

Publication number
CN115578870A
CN115578870A CN202211209590.XA CN202211209590A CN115578870A CN 115578870 A CN115578870 A CN 115578870A CN 202211209590 A CN202211209590 A CN 202211209590A CN 115578870 A CN115578870 A CN 115578870A
Authority
CN
China
Prior art keywords
signal
time
nth round
network
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211209590.XA
Other languages
English (en)
Other versions
CN115578870B (zh
Inventor
曹旭东
石琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202211209590.XA priority Critical patent/CN115578870B/zh
Publication of CN115578870A publication Critical patent/CN115578870A/zh
Application granted granted Critical
Publication of CN115578870B publication Critical patent/CN115578870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/08Controlling traffic signals according to detected number or speed of vehicles
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种基于近端策略优化的交通信号控制方法,包括:1建立经验存储集合,包括交叉口信号相位数据和交通流状态数据;2构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic;3以经验存储集合中第n回合下t时刻的样本{Sn,t,an,t,rn,t,Sn,t+1}作为输入训练信号策略网络Actor和信号价值网络Critic;4将当前回合数n+1赋值给n,循环执行上述步骤,直到n=N,保存信号策略网络Actor的模型参数,用于真实场景中输出不同交通状态下的信号相位。本发明能能使得交通信号控制能够根据交通状态变化自动进行调整,从而能提高交叉口的通行效率。

Description

一种基于近端策略优化的交通信号控制方法
技术领域
本发明属于智能交通信号控制技术领域,具体的说是一种基于近端策略优化的交通信号控制方法。
背景技术
在城市机动车水平快速提升的今天,交通拥堵已经成为世界各大城市面临的严重问题。城市道路有限增长与汽车保有量无限增长之间的矛盾导致交通问题日益严重,特别是以小汽车为主导的大中城市正在面临严峻的交通拥堵问题。而交通信号控制,在道路资源有限、不易扩容的情况下,可以通过调动交通系统的时空资源,平衡交通压力,保证交通系统运行的安全和稳定,成为城市交通系统管控的重要手段之一。
然而,居民出行方式以及城市交通网络复杂度的快速变化,经典的信号控制方式逐渐显露出了一些问题,控制效果也渐渐达到了瓶颈阶段。首先,固定信号配时方案是基于交通流的短期时不变假设,根据历史的平均流量数据计算得到的,虽然计算简单便于实际使用,但是由于缺少交通流的实时监测数据,因此该方案并不能根据交通流的实时变化而做出调整。其次,感应控制方案仅对车辆的到达状态进行检测,虽然能一定程度响应交通流的变化,但是并没有对交通流的变化趋势进行判断,因此无法从整体上分析各方向的交通需求,很难保证车均延误的降低,并且当面对稀疏交通流状态时,控制效果往往较差。最后,自适应控制方式需要预设较多系统参数,如车辆启动延误,车辆安全距离等,这些参数不仅需要大量的现场测试和人工调整,耗时费力且普适性低。同时,对于非均质交通流的控制效果并不理想。因为交通信号控制的最优解没有固定的范式,在交通状态不断变化的条件下最优策略也随之改变,所以按照人类的经验很难定义最优控制策略。因此,以深度强化学习的方式完成信号控制自动调整成为研究的热点。然而现有基于强化学习的信号控制方法存在交通流动态时序特征难以有效抽取和利用,样本的差异度难以有效辐射到参数梯度变化因而模型收敛速度慢、实时性差等问题。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于近端策略优化的交通信号控制方法,以期能够根据不同的交叉口交通运行状态,主动抽取交通流时序特征,实现信号控制策略的自适应调整以及系统的自学习、自迭代,从而能解决交叉口信号控制难以动态调整的问题,并提高交叉口运行效率。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于近端策略优化的交通信号控制方法的特点是按如下步骤进行:
步骤1:建立交叉口仿真环境模型;
步骤2:收集真实场景中的交叉口信号相位数据和交通流状态数据作为原始数据,所述信号相位数据为信号控制机输出的信号相位、相序及相位持续时间数据,所述交通流状态数据为交叉口各进口道的交通状态数据;
步骤3:定义当前的回合数为n,定义信号相位集δ={δ01,...,δm},δm表示第m个信号相位,定义第n回合下t时刻的信号相位概率分布集Pn,t={pn,t,0,pn,t,1,...,pn,t,m},pn,t,m表示第n回合下t时刻的第m个信号相位δm的概率输出值,定义第n回合下信号相位策略集an={an,0,an,1,...,an,t,...,an,T},an,0表示第n回合下初始时刻的信号相位,an,t表示第n回合下t时刻的信号相位,an,t∈δ,T表示所设置信号控制的终止时刻,t=0,1,…,T;
定义第n回合交通状态集sn={sn,0,sn,1,...,sn,t,...,sn,T},sn,0表示第n回合下交叉口初始时刻的交通状态,sn,t表示第n回合下交叉口t时刻执行t-1时刻的信号控制相位an,t-1后的交通状态,并有
Figure BDA0003874674820000021
Figure BDA0003874674820000022
表示第n回合下t时刻第k个交通指标值;
定义第n回合下t时刻的状态输入集Sn,t={sn,t,sn,t-1,...,sn,t-l},0≤l≤t;
定义第n回合下奖励集rn={rn,0,rn,1,…,rn,t,…rn,T},rn,t表示第n回合下t时刻的奖励;
步骤4:构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic,其中,所述LSTM神经网络的结构包括:输入层,卷积层,LSTM层,全连接层,输出层;其中,所述卷积层包括:归一化层、卷积操作层、ReLU激活函数层;
所述信号策略网络Actor包含两个结构一致,但参数不同的Actor-New信号策略网络和Actor-Old信号策略网络;定义Actor-New信号策略网络的参数为πθ,Actor-Old信号策略网络的参数为πθ',Critic信号价值网络的参数为πv
步骤5:定义网络参数更新频率为α,最大回合数为N,初始化n=0;
建立经验存储集合D并初始化为空集;
步骤6:定义时刻t并初始化t=0;
步骤7:所述Actor-New信号策略网络基于第n回合下t时刻的状态输入集Sn,t计算得到第n回合下t时刻的信号相位概率分布Pn,t,并采用ε-greedy算法对信号相位概率分布Pn,t进行采样后得到第n回合下t时刻的信号相位an,t
步骤8:所述交叉口仿真环境模型执行第n回合下t时刻的信号相位an,t并得到第n回合下t+1时刻的交通状态sn,t+1以及t时刻的奖励rn,t;从而由第n回合下t+1时刻的交通状态sn,t+1得到第n回合下t+1时刻的状态输入集Sn,t+1
将所述第n回合下t时刻的状态输入集Sn,t、信号相位an,t和奖励rn,t作为第n回合下t时刻的样本{Sn,t,an,t,rn,t,Sn,t+1}放入至经验存储集合D中;
步骤9:判断t=T是否成立,若成立,则执行步骤10;否则,t+1赋值给t,并返回步骤步骤7顺序执行;
步骤10:所述Critic信号价值网络基于第n回合下T时刻输入的状态输入集Sn,T计算得到第n回合下T时刻的奖励估计值
Figure BDA0003874674820000031
然后设置未来折现因子γ,并利用式(1)将奖励值
Figure BDA0003874674820000032
按照时间维度倒序折减后,得到第n回合下t时刻的折扣奖励Rn,t
Figure BDA0003874674820000033
式(1)中,rn,t′为第n回合下t′时刻得到的奖励值,当t′=T时,令
Figure BDA0003874674820000034
0<γ≤1;
步骤11:将经验存储集合D中第n回合下所有时刻的状态输入集合输入到Critic信号价值网络中,得到第n回合下所有状态的奖励估计值,然后利用式(2)计算Actor-New信号策略网络在第n回合下t时刻的优势函数Aθ(Sn,t,an,t),并作为状态输入集Sn,t下选择信号相位an,t的最终的奖励值:
Figure BDA0003874674820000035
步骤12:利用式(3)计算Critic信号价值网络的损失函数c_loss,然后利用误差反向传播法更新Critic信号价值网络的参数πv
Figure BDA0003874674820000036
步骤13:将经验存储集合D中第n回合下所有时刻的状态输入集分别输入Actor-Old信号策略网络和Actor-New信号策略网络,得到第n回合下每个信号相位在两个网络中对应的动作概率,并相应构成第n回合下动作概率集合probn,Old和probn,New,从而利用式(4)得到第n回合下重要性采样权重ration
Figure BDA0003874674820000037
步骤14:利用式(5)计算Actor_New信号策略网络的损失函数a_loss,然后利用误差反向传播法更新Actor_New信号策略网络的参数πθ
Figure BDA0003874674820000041
式(5)中,E表示期望,clip(·)表示裁剪操作,ε表示裁剪系数,Aθ′(Sn,t,an,t)表示Actor-Old信号策略网络在第n回合下t时刻的优势函数,β表示范围控制的动态调整参数,并由式(6)得到,σβ表示控制阈值,且σβ>0;
Figure BDA0003874674820000042
步骤15:判断n=N是否成立,若成立,则将πθ赋值给πθ',并保存模型参数πθ,从而完成Actor信号策略网络和Critic信号价值网络的训练;在实际信号控制中,基于参数πθ的Actor信号策略网络根据交叉口交通状态输入,计算得到输出相应的信号相位;否则,n+1赋值给n,并返回步骤6顺序执行。
本发明一种电子设备,包括存储器以及处理器,其特点在于,所述存储器用于存储支持处理器执行所述交通信号控制方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述交通信号控制方法的步骤。
与现有技术相比,本发明的有益效果在于:
1、本发明通过采用融合长短时记忆神经网络和近端策略优化算法,解决了交通流时序依赖特征的抽取以及信号相位选择空间与交通特征间的非线性映射问题,通过策略梯度动态范围调整,提高了模型的收敛速度,实现了信号控制算法的自适应迭代训练,大量减少了参数标定和人工调整的过程,从而在实际应用中节约了服务器的算力投入,使得交叉口能够根据交通状态自主动态调整信号相位策略而不需要人工干预,提高了交叉口的交通运行效率和维护成本。
2、本发明采用基于特征的值向量表示方法描述交通状态,克服了以往基于图像的离散流量状态编码方式需进行二次编码所带来的转换耗时以及图像的时序特征丢失等问题,从而保留了交通数据原始特征,且本发明基于现有部署的视频监控设备,实际可操作性强。
3、本发明提出一种动态范围调整的自适应近端策略优化算法,通过加入范围控制的动态调整参数,克服了静态范围控制下梯度更新速度较慢的问题,提高了信号策略空间的探索幅度,提升了模型的收敛速度,从而节省了交叉口信号控制系统的分析决策时间,能够对道路交通流变化迅速作出反应,使得交叉口信号控制的实际应变能力增强。
附图说明
图1为本发明基于近端策略优化的交通信号控制方法的流程图。
具体实施方式
本实施例中,一种基于近端策略优化的交通信号控制方法,是结合LSTM神经网络以及近端策略优化的强化学习控制法来完成交叉口交通信号的自动控制,如图1所示,具体按如下步骤进行:
步骤1:建立交叉口仿真环境模型,本实施例中,采用OpenStreetMap工具抽取实际道路电子地图,并将地图导入SUMO仿真软件搭建信号控制交叉口基础环境;
步骤2:收集真实场景中的交叉口信号相位数据和交通流状态数据作为原始数据,信号相位数据为信号控制机输出的信号相位、相序及相位持续时间数据,交通流状态数据为交叉口各进口道的交通状态数据,本实施例中,采用iDS-2VS435-F832/T3-海康威视摄像机并结合YOLOv4算法,采集交叉口各进口道方向各条车道的交通状态数据,包括交通量、车辆平均速度、平均排队长度、平均停车等待时间、车道占有率;
步骤3:定义当前的回合数为n,定义信号相位集δ={δ01,...,δm},δm表示第m个信号相位,定义第n回合下t时刻的信号相位概率分布集Pn,t={pn,t,0,pn,t,1,…,pn,t,m},pn,t,m表示第n回合下t时刻的第m个信号相位δm的概率输出值,定义第n回合下信号相位策略集an={an,0,an,1,...,an,t,...,an,T},an,0表示第n回合下初始时刻的信号相位,an,t表示第n回合下t时刻的信号相位,an,t∈δ,T表示所设置信号控制的终止时刻,t=0,1,…,T,本实施例中,信号相位集设为8个,分别为南北方向直行、东西方向直行、南北方向左转、东西方向左转、东方向直行和左转、西方向直行和左转、南方向直行和左转、北方向直行和左转;
定义第n回合交通状态集sn={sn,0,sn,1,...,sn,t,...,sn,T},sn,0表示第n回合下交叉口初始时刻的交通状态,sn,t表示第n回合下交叉口t时刻执行t-1时刻的信号控制相位an,t-1后的交通状态,并有
Figure BDA0003874674820000051
Figure BDA0003874674820000052
表示第n回合下t时刻第k个交通指标值,本实施例中,采用标准四叉路口,每个进口分为左、直、右三个车道方向,交叉口的交通状态采用交通量、车辆平均速度、平均排队长度、平均停车等待时间、车道占有率5个交通指标作为交通状态的特征表示,即交叉口的交通状态用4×3×5的向量进行表示;
定义第n回合下t时刻的状态输入集Sn,t={sn,t,sn,t-1,...,sn,t-l},0≤l≤t,本实施例中,采用历史5分钟的交通状态组成状态输入集;
定义第n回合下奖励集rn={rn,0,rn,1,…,rn,t,…rn,T},rn,t表示第n回合下t时刻的奖励,本实施例中,奖励设定为平均车速;
步骤4:构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic,其中,LSTM神经网络的结构包括:输入层,卷积层,LSTM层,全连接层,输出层;其中,卷积层包括:归一化层、卷积操作层、ReLU激活函数层,本实施例中的卷积层,包括归一化、卷积、ReLU激活函数,卷积核的个数为64个,LSTM层的LSTM细胞单元个数为64个,全连接层的单元个数为200个,输出层采用sigmoid激活函数,信号策略网络Actor该层的单元个数为8个,信号价值网络Critic该层的单元个数为1个;
信号策略网络Actor包含两个结构一致,但参数不同的Actor-New信号策略网络和Actor-Old信号策略网络,本实施例中的Actor-New信号策略网络用于交叉口信号控制并根据奖励反馈不断更新神经网络参数,Actor-Old信号策略网络用于保存历史信号策略网络参数,并定期更新至最新的Actor-New信号策略网络参数,通过对比两个信号策略网络参数,可以观察并控制参数梯度变化幅度;定义Actor-New信号策略网络的参数为πθ,Actor-Old信号策略网络的参数为πθ',Critic信号价值网络的参数为πv
步骤5:定义网络参数更新频率为α,最大回合数为N,初始化n=0;
建立经验存储集合D并初始化为空集;
步骤6:定义时刻t并初始化t=0;
步骤7:Actor-New信号策略网络基于第n回合下t时刻的状态输入集Sn,t计算得到第n回合下t时刻的信号相位概率分布Pn,t,并采用ε-greedy算法对信号相位概率分布Pn,t进行采样后得到第n回合下t时刻的信号相位an,t,本实施例中,ε-greedy的系数设置为0.1,即90%的概率选择概率分布中最大值对应的信号相位;
步骤8:交叉口仿真环境模型执行第n回合下t时刻的信号相位an,t并得到第n回合下t+1时刻的交通状态sn,t+1以及t时刻的奖励rn,t;从而由第n回合下t+1时刻的交通状态sn,t+1得到第n回合下t+1时刻的状态输入集Sn,t+1
将第n回合下t时刻的状态输入集Sn,t、信号相位an,t和奖励rn,t作为第n回合下t时刻的样本{Sn,t,an,t,rn,t,Sn,t+1}放入至经验存储集合D中;
步骤9:判断t=T是否成立,若成立,则执行步骤10;否则,t+1赋值给t,并返回步骤步骤7顺序执行;
步骤10:Critic信号价值网络基于第n回合下T时刻输入的状态输入集Sn,T计算得到第n回合下T时刻的奖励估计值
Figure BDA0003874674820000071
然后设置未来折现因子γ,并利用式(1)将奖励值
Figure BDA0003874674820000072
按照时间维度倒序折减后,得到第n回合下t时刻的折扣奖励Rn,t
Figure BDA0003874674820000073
式(1)中,rn,t′为第n回合下t′时刻得到的奖励值,当t′=T时,令
Figure BDA0003874674820000074
0<γ≤1,本实施例中,未来折现因子γ取值为0.9;
步骤11:将经验存储集合D中第n回合下所有时刻的状态输入集合输入到Critic信号价值网络中,得到第n回合下所有状态的奖励估计值,然后利用式(2)计算Actor-New信号策略网络在第n回合下t时刻的优势函数Aθ(Sn,t,an,t),并作为状态输入集Sn,t下选择信号相位an,t的最终的奖励值:
Figure BDA0003874674820000075
步骤12:利用式(3)计算Critic信号价值网络的损失函数c_loss,然后利用误差反向传播法更新Critic信号价值网络的参数πv
Figure BDA0003874674820000076
步骤13:将经验存储集合D中第n回合下所有时刻的状态输入集分别输入Actor-Old信号策略网络和Actor-New信号策略网络,得到第n回合下每个信号相位在两个网络中对应的动作概率,并相应构成第n回合下动作概率集合probn,Old和probn,New,从而利用式(4)得到第n回合下重要性采样权重ration
Figure BDA0003874674820000077
本实施例中,通过计算重要性采样权重可以得到Actor-Old信号策略网络和Actor-New信号策略网络输出的概率分布变化,用于判断两个信号策略网络参数梯度的变化幅度;
步骤14:利用式(5)计算Actor_New信号策略网络的损失函数a_loss,然后利用误差反向传播法更新Actor_New信号策略网络的参数πθ
Figure BDA0003874674820000081
式(5)中,E表示期望,clip(·)表示裁剪操作,ε表示裁剪系数,Aθ′(Sn,t,an,t)表示Actor-Old信号策略网络在第n回合下t时刻的优势函数,β表示范围控制的动态调整参数,并由式(6)得到,σβ表示控制阈值,且σβ>0;
Figure BDA0003874674820000082
本实施例中,ε裁剪系数取值为0.2,σβ控制阈值取值为0.1,通过将重要性采样权重与优势函数相乘并进行梯度裁剪作为Actor_New信号策略网络的参数更新函数,使得具有更高平均奖励期望的信号相位选择概率得到增大,并且本实施例中采用动态调整参数β,能够随着奖励期望的值动态调整梯度变化幅度,从而加快信号策略网络参数的收敛;
步骤15:判断n=N是否成立,若成立,则将πθ赋值给πθ',并保存模型参数πθ,从而完成Actor信号策略网络和Critic信号价值网络的训练;在实际信号控制中,基于参数πθ的Actor信号策略网络根据交叉口交通状态输入,计算得到输出相应的信号相位;否则,n+1赋值给n,并返回步骤6顺序执行。
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行该交通信号控制方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该交通信号控制方法的步骤。

Claims (3)

1.一种基于近端策略优化的交通信号控制方法,其特征是按如下步骤进行:
步骤1:建立交叉口仿真环境模型;
步骤2:收集真实场景中的交叉口信号相位数据和交通流状态数据作为原始数据,所述信号相位数据为信号控制机输出的信号相位、相序及相位持续时间数据,所述交通流状态数据为交叉口各进口道的交通状态数据;
步骤3:定义当前的回合数为n,定义信号相位集δ={δ01,...,δm},δm表示第m个信号相位,定义第n回合下t时刻的信号相位概率分布集Pn,t={pn,t,0,pn,t,1,...,pn,t,m},pn,t,m表示第n回合下t时刻的第m个信号相位δm的概率输出值,定义第n回合下信号相位策略集an={an,0,an,1,...,an,t,...,an,T},an,0表示第n回合下初始时刻的信号相位,an,t表示第n回合下t时刻的信号相位,an,t∈δ,T表示所设置信号控制的终止时刻,t=0,1,…,T;
定义第n回合交通状态集sn={sn,0,sn,1,...,sn,t,...,sn,T},sn,0表示第n回合下交叉口初始时刻的交通状态,sn,t表示第n回合下交叉口t时刻执行t-1时刻的信号控制相位an,t-1后的交通状态,并有
Figure FDA0003874674810000011
Figure FDA0003874674810000012
表示第n回合下t时刻第k个交通指标值;
定义第n回合下t时刻的状态输入集Sn,t={sn,t,sn,t-1,...,sn,t-l},0≤l≤t;
定义第n回合下奖励集rn={rn,0,rn,1,…,rn,t,…rn,T},rn,t表示第n回合下t时刻的奖励;
步骤4:构建基于LSTM神经网络的信号策略网络Actor和信号价值网络Critic,其中,所述LSTM神经网络的结构包括:输入层,卷积层,LSTM层,全连接层,输出层;其中,所述卷积层包括:归一化层、卷积操作层、ReLU激活函数层;
所述信号策略网络Actor包含两个结构一致,但参数不同的Actor-New信号策略网络和Actor-Old信号策略网络;定义Actor-New信号策略网络的参数为πθ,Actor-Old信号策略网络的参数为πθ',Critic信号价值网络的参数为πv
步骤5:定义网络参数更新频率为α,最大回合数为N,初始化n=0;
建立经验存储集合D并初始化为空集;
步骤6:定义时刻t并初始化t=0;
步骤7:所述Actor-New信号策略网络基于第n回合下t时刻的状态输入集Sn,t计算得到第n回合下t时刻的信号相位概率分布Pn,t,并采用ε-greedy算法对信号相位概率分布Pn,t进行采样后得到第n回合下t时刻的信号相位an,t
步骤8:所述交叉口仿真环境模型执行第n回合下t时刻的信号相位an,t并得到第n回合下t+1时刻的交通状态sn,t+1以及t时刻的奖励rn,t;从而由第n回合下t+1时刻的交通状态sn,t+1得到第n回合下t+1时刻的状态输入集Sn,t+1
将所述第n回合下t时刻的状态输入集Sn,t、信号相位an,t和奖励rn,t作为第n回合下t时刻的样本{Sn,t,an,t,rn,t,Sn,t+1}放入至经验存储集合D中;
步骤9:判断t=T是否成立,若成立,则执行步骤10;否则,t+1赋值给t,并返回步骤步骤7顺序执行;
步骤10:所述Critic信号价值网络基于第n回合下T时刻输入的状态输入集Sn,T计算得到第n回合下T时刻的奖励估计值
Figure FDA0003874674810000021
然后设置未来折现因子γ,并利用式(1)将奖励值
Figure FDA0003874674810000022
按照时间维度倒序折减后,得到第n回合下t时刻的折扣奖励Rn,t
Figure FDA0003874674810000023
式(1)中,rn,t′为第n回合下t′时刻得到的奖励值,当t′=T时,令
Figure FDA0003874674810000024
步骤11:将经验存储集合D中第n回合下所有时刻的状态输入集合输入到Critic信号价值网络中,得到第n回合下所有状态的奖励估计值,然后利用式(2)计算Actor-New信号策略网络在第n回合下t时刻的优势函数Aθ(Sn,t,an,t),并作为状态输入集Sn,t下选择信号相位an,t的最终的奖励值:
Figure FDA0003874674810000025
步骤12:利用式(3)计算Critic信号价值网络的损失函数c_loss,然后利用误差反向传播法更新Critic信号价值网络的参数πv
Figure FDA0003874674810000026
步骤13:将经验存储集合D中第n回合下所有时刻的状态输入集分别输入Actor-Old信号策略网络和Actor-New信号策略网络,得到第n回合下每个信号相位在两个网络中对应的动作概率,并相应构成第n回合下动作概率集合probn,Old和probn,New,从而利用式(4)得到第n回合下重要性采样权重ration
Figure FDA0003874674810000027
步骤14:利用式(5)计算Actor_New信号策略网络的损失函数a_loss,然后利用误差反向传播法更新Actor_New信号策略网络的参数πθ
Figure FDA0003874674810000031
式(5)中,E表示期望,clip(·)表示裁剪操作,ε表示裁剪系数,Aθ′(Sn,t,an,t)表示Actor-Old信号策略网络在第n回合下t时刻的优势函数,β表示范围控制的动态调整参数,并由式(6)得到,σβ表示控制阈值,且σβ>0;
Figure FDA0003874674810000032
步骤15:判断n=N是否成立,若成立,则将πθ赋值给πθ',并保存模型参数πθ,从而完成Actor信号策略网络和Critic信号价值网络的训练;在实际信号控制中,基于参数πθ的Actor信号策略网络根据交叉口交通状态输入,计算得到输出相应的信号相位;否则,n+1赋值给n,并返回步骤6顺序执行。
2.一种电子设备,包括存储器以及处理器,其特征在于,所述存储器用于存储支持处理器执行权利要求1所述交通信号控制方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
3.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1所述交通信号控制方法的步骤。
CN202211209590.XA 2022-09-30 2022-09-30 一种基于近端策略优化的交通信号控制方法 Active CN115578870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211209590.XA CN115578870B (zh) 2022-09-30 2022-09-30 一种基于近端策略优化的交通信号控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211209590.XA CN115578870B (zh) 2022-09-30 2022-09-30 一种基于近端策略优化的交通信号控制方法

Publications (2)

Publication Number Publication Date
CN115578870A true CN115578870A (zh) 2023-01-06
CN115578870B CN115578870B (zh) 2023-06-30

Family

ID=84582199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211209590.XA Active CN115578870B (zh) 2022-09-30 2022-09-30 一种基于近端策略优化的交通信号控制方法

Country Status (1)

Country Link
CN (1) CN115578870B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN117198071A (zh) * 2023-11-03 2023-12-08 合肥工业大学 基于pso-lstm神经网络的交通信号相位自适应调整方法、系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112216127A (zh) * 2020-09-27 2021-01-12 航天科工广信智能技术有限公司 一种基于近端策略优化的小型路网交通信号优化方法
WO2021057059A1 (zh) * 2019-09-29 2021-04-01 华为技术有限公司 一种神经网络的获取方法以及相关设备
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN113487860A (zh) * 2021-06-28 2021-10-08 南京云创大数据科技股份有限公司 一种智能交通信号控制方法
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN114419884A (zh) * 2022-01-12 2022-04-29 清华大学 基于强化学习和相位竞争的自适应信号控制方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021057059A1 (zh) * 2019-09-29 2021-04-01 华为技术有限公司 一种神经网络的获取方法以及相关设备
CN112216127A (zh) * 2020-09-27 2021-01-12 航天科工广信智能技术有限公司 一种基于近端策略优化的小型路网交通信号优化方法
CN112632858A (zh) * 2020-12-23 2021-04-09 浙江工业大学 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法
CN113487860A (zh) * 2021-06-28 2021-10-08 南京云创大数据科技股份有限公司 一种智能交通信号控制方法
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN114419884A (zh) * 2022-01-12 2022-04-29 清华大学 基于强化学习和相位竞争的自适应信号控制方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YANG GUAN 等: "Centralized Cooperation for Connected and Automated Vehicles at Intersections by Proximal Policy Optimization", 《IEEE TRANSACTIONS ON VEHICULAR TECHNOLOGY》 *
丁恒;张卫华;郑小燕;陈无畏;李阳阳;: "基于交通预测的多态交通流信号控制", 中国公路学报, no. 05 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116597672A (zh) * 2023-06-14 2023-08-15 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN116597672B (zh) * 2023-06-14 2024-02-13 南京云创大数据科技股份有限公司 基于多智能体近端策略优化算法的区域信号灯控制方法
CN117198071A (zh) * 2023-11-03 2023-12-08 合肥工业大学 基于pso-lstm神经网络的交通信号相位自适应调整方法、系统
CN117198071B (zh) * 2023-11-03 2024-01-09 合肥工业大学 一种交通信号相位自适应调整方法、系统、设备

Also Published As

Publication number Publication date
CN115578870B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN115578870B (zh) 一种基于近端策略优化的交通信号控制方法
CN110009095B (zh) 基于深度特征压缩卷积网络的道路行驶区域高效分割方法
CN113963553A (zh) 一种道路交叉口信号灯绿信比控制方法、装置和设备
CN113012449B (zh) 基于多榜样学习粒子群的智慧城市信号灯配时优化方法
CN114330644B (zh) 一种基于结构搜索和通道剪枝的神经网络模型压缩方法
CN113627993A (zh) 一种基于深度强化学习的智能电动汽车充放电决策方法
CN112861362B (zh) 一种基于整车油耗的动力总成性能参数优化方法和装置
CN114419884B (zh) 基于强化学习和相位竞争的自适应信号控制方法及系统
CN113487860A (zh) 一种智能交通信号控制方法
CN113947928A (zh) 基于深度强化学习与扩展卡尔曼滤波相结合的交通信号灯配时方法
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
CN110543978A (zh) 基于小波神经网络的交通流数据预测方法和装置
CN116758767B (zh) 基于多策略强化学习的交通信号灯控制方法
CN110021168B (zh) 一种车联网下实现实时智能交通管理的分级决策方法
CN103578274B (zh) 一种交通流预测方法及装置
CN110816531B (zh) 一种无人驾驶汽车车辆间安全距离的控制系统及控制方法
CN115083149B (zh) 一种实时监测的强化学习可变时长信号灯控制方法
CN113516163B (zh) 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质
CN116824848A (zh) 基于贝叶斯深度q网络的交通信号优化控制方法
CN116631203A (zh) 结合交通流预测与强化学习的自适应交通信号控制方法
CN114401192A (zh) 一种多sdn控制器协同训练方法
KR102346506B1 (ko) 강화학습 기반의 교통 신호 시간 제어 방법 및 장치
CN111461282A (zh) 一种基于改进量子行为粒子群算法的模型辨识方法
CN114299732B (zh) 一种同时考虑行程时间和公平性的交通灯控制方法及系统
CN114708744B (zh) 一种基于融合交通信息的车辆启动优化控制方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant