CN116824848A - 基于贝叶斯深度q网络的交通信号优化控制方法 - Google Patents
基于贝叶斯深度q网络的交通信号优化控制方法 Download PDFInfo
- Publication number
- CN116824848A CN116824848A CN202310676295.3A CN202310676295A CN116824848A CN 116824848 A CN116824848 A CN 116824848A CN 202310676295 A CN202310676295 A CN 202310676295A CN 116824848 A CN116824848 A CN 116824848A
- Authority
- CN
- China
- Prior art keywords
- traffic
- network
- model
- signal
- vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 23
- 230000009471 action Effects 0.000 claims abstract description 46
- 230000006870 function Effects 0.000 claims abstract description 35
- 230000002787 reinforcement Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000011217 control strategy Methods 0.000 claims abstract description 8
- 238000004088 simulation Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 8
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000013461 design Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008713 feedback mechanism Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
- G08G1/0145—Measuring and analyzing of parameters relative to traffic conditions for specific applications for active traffic flow control
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
基于贝叶斯深度Q网络的交通信号优化控制方法,涉及智慧交通技术领域,包括如下步骤:(1)建立基于深度强化学习的交通信号控制模型,具体包括:s11定义模型的状态;s12定义模型的动作;s13定义模型的奖励函数;s14设计优先贝叶斯深度Q网络;(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;(3)生成交通信号配时优化控制策略和持续更新模型。该方法利用贝叶斯深度Q网络的强化学习能力,针对交通信号控制问题进行优化,以提高交通流效率和减少交通拥堵。
Description
技术领域
本发明涉及智慧交通技术领域,具体涉及基于贝叶斯深度Q网络的交通信号优化控制方法。
背景技术
交通信号配时优化控制是引导车辆通过交叉口的主要方法,通过改进交通信号灯的配时方式,可以使交叉口获得更高的车流吞吐量,并有效的减少拥堵、降低汽车尾气排放、优化出行。
传统的交通信号控制大多是通过收集当前交叉口历史车流量设定的定时控制方法,或基于当前车流密度,调整交通信号绿灯时长的感应控制技术。然而,这些传统的信号配时方式仅适用于交通流量相对恒定的情形,难以处理时变的、复杂的、大规模的交通场景,导致交通拥堵、行程时间延长和能源浪费等问题。随着人工智能技术的发展,应用人工智能技术设计自适应交通信号控制系统变得越来越广泛,深度强化学习(DeepReinforcement learning,DRL)是人工智能技术的一个分支,其具有优秀的自学习能力。基于深度强化学习的交通信号优化控制方法可以通过对交通数据的学习和分析来实现更加智能化和个性化的交通信号控制。已有越来越多的学者将深度Q网络及其改进方法应用在交通信号优化控制中,但是它们通常采用贪心搜索策略,导致智能体最终在动作选择上无法很好地平衡探索与利用之间的关系。
发明内容
基于以上不足,本发明涉及一种基于贝叶斯深度Q网络的交通信号优化控制方法,该方法利用贝叶斯深度Q网络的强化学习能力,针对交通信号控制问题进行优化,以提高交通流效率和减少交通拥堵。
本发明提供如下技术方案:包括如下步骤:
(1)建立基于深度强化学习的交通信号控制模型,具体包括:
s11定义模型的状态;
s12定义模型的动作;
s13定义模型的奖励函数;
s14设计优先贝叶斯深度Q网络:在网络结构上PBDQN将当前仿真步获取的交通环境状态s作为神经网络的输入,在神经网络的末层使用BLR拟合神经网络特征qθ(s)∈Rd的输出,根据BLR原理,价值函数被近似为神经网络特征输出的线性变换,即对于已知的状态动作对(s,a),价值函数Qθ(s,a)可表示为:
Qθ(s,a)=qθ(s)Twa
其中,wa∈Rd是动作的后验分布;d是特征参数的输出维度;a代表智能体的动作;
在价值函数的后验分布中部署汤普森采样方法选择最优动作,当给定1组经验数据样本(s,a,r,s′),由价值函数关系,目标网络的价值函数可表示为:
其中,为目标网络的特征表示;/> 为时序不相关的的高斯噪声;
后验更新时,从经验回放池中获取批量的数据M={sj,aj,yj}B,记Ma是当aj=a时的历史数据,求解wa和相应的Qθ(s,a)即获取分布P(wa|Ma)和集合p(Qθ(s,a)|Ma),对于动作a及相应的Ma构造其特征表示qθ(s)的列矩阵和目标网络价值函数集合,由贝叶斯共轭性质,wa服从如下分布:
根据特征表示和上式给出的动作后验分布关系,相应的价值函数后验表示如下:
那么,所有的动作的后验分布服从 输出端部署TS方法获取最优价值函数对应的动作aTS:
aTS=argmaxaWTqθ(s)
神经网络特征参数更新方式遵循梯度下降法:
(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;
(3)生成交通信号配时优化控制策略和持续更新模型。
优选地,步骤(1)中,s11定义模型的状态:采用离散交通编码方式,将四向交叉口的进入车道根据车辆长度和车辆间距设定为离散网格的编码形式,在检测区域范围内的每个离散网格中置入检测器,通过检测器可以检测到每个离散网格中的车辆位置及速度,此外,构造了当前绿色信号相位特征向量L作为状态输入的一部分,因此构造交通环境状态S如下:
其中,P=[PnPsPwPe]T为四向交叉口的车辆位置特征矩阵,V=[VnVsVwVe]T为四向交叉口的车辆速度特征矩阵,位置特征矩阵中,0表示此离散网格没有车辆占用,1表示此位置被占用,速度特征矩阵中各离散网格的值则根据当前获取的实际车速确定,L为当前绿色信号相位特征,绿色信号相位以独热编码的方式设定,1表示该相位为激活状态,0表示其为非激活状态,m为交叉口离散网格的数量代表信号相位的数量;代表信号相位的数量;1代表过渡信号相位。
优选地,步骤(1)中,s12定义模型的动作:将智能体的动作设定为不等固定时间的相位,动作相位表示为南北向直行绿灯,南北向左转绿灯,东西向直行绿灯,东西向左转绿灯:
Ai={NSG,NSLG,WEG,WELG}
为满足交叉口环境中,左转和直行车辆到达流量不同的需求,设定每1个绿色信号相位有3种不同的相位时长10,15,20s可供选择。
优选地,步骤(1)中,s13定义模型的奖励函数:在仿真时间步t,当车辆的i的速度vi(t)小于1.38m/s时,认为车辆处于等待状态并会引起交通拥堵,记wi(t)为该车的等待时间:
其中,wi(t-1)表示其在仿真步t-1的等待时间,1表示仿真时间1s。
当前仿真步所有车辆的累计等待时间总和为W(t):
其中N是总的车辆数量;
相应的,仿真步t-1的车辆累计等待时间为w(t-1):
模型的奖励函数R(t)定义为相邻仿真步所有等待车辆的等待时间差值,具体如下:
R(t)=W(t-1)-W(t)。
优选地,步骤(2)具体实施步骤包括:
s21构建交通仿真环境:根据交叉口的交通环境和车辆流量数据配置交通防真软件,建立与交叉口相似的交通仿真环境,使用SUMO提供的Traci接口来获取交叉口的车辆信息,并通过发送相关信号变化指令来更改交通信号配时,以此来模拟交通环境的运行,生成各个信号周期的交通状态信息;
s22初始化在线网络和目标网络超参数θ,θ-,M,B,γ,N,T,初始化动作的高斯分布参数W,W-,Cov,σ2,将仿真步计数器初值置0;
s23观测并获取当前仿真步交叉口的交通环境状态s,判断是否满足汤普森采样周期,若是,则执行汤普森采样选择最优动作,否则通过前向网络计算奖励rt并获得下一状态s′;
s24判断经验池数据长度是否小于最大数据容量,若是,将步骤(1)中的经验数据直接存入经验数据池,否则将最旧的数据删除后再进行存入操作;
s25以优先经验回放的方式在样本池中进行采样并使用梯度下降法更新网络参数;
s26检测训练回合数,若回合数epsilon小于最大回合数,则当前回合数+1,执行步骤s23,开始下一回合训练,否则,终止仿真并保存模型参数。
优选地,步骤(3)中利用步骤(2)所运行的深度强化学习交通信号配时优化控制模型在实际的路网中持续进行训练和优化,经过重复循环,使该模型可以更好的适应于实际的交通路网当中,实现对多交叉口交通信号的协调控制
与现有技术相比,本发明的有益效果是:
本方法通过分析交通流数据和实时交通状态,学习交通信号控制策略,并根据实时环境和交通需求进行动态调整,与传统的固定时间间隔信号控制方法相比,本方法能够根据实际交通情况实现灵活的信号调整,以最大程度地减少交通延误和能耗,并提升道路通行能力。具体地:
(1)本发明引入贝叶斯深度Q网络,可以准确建模不确定性和环境动态变化,提高交通信号优化控制的鲁棒性和适应性;
(2)本发明基于强化学习的方法,能够通过与环境的交互学习最优的控制策略,逐步优化交通流动效果;
(3)本发明结合历史数据和交通仿真模型的训练,能够提高模型的准确性和预测能力,从而更好地指导实际交通信号控制;
(4)本发明通过实时监测和反馈机制,根据不同路段、不同时间段的交通情况,能够及时调整信号控制策略,适应交通流的变化,提高交通流动的效率和安全性。
附图说明
图1为本发明提供交通信号优化控制方法流程图。
具体实施方式
下面对发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:基于贝叶斯深度Q网络的交通信号优化控制方法,如图1所示,包括如下步骤:
(1)建立基于深度强化学习的交通信号控制模型,具体包括:
s11定义模型的状态:采用离散交通编码方式,将四向交叉口的进入车道根据车辆长度和车辆间距设定为离散网格的编码形式,在检测区域范围内的每个离散网格中置入检测器,通过检测器可以检测到每个离散网格中的车辆位置及速度,此外,构造了当前绿色信号相位特征向量L作为状态输入的一部分,因此构造交通环境状态S如下:
其中,P=[PnPsPwPe]T为四向交叉口的车辆位置特征矩阵,V=[VnVsVwVe]为四向交叉口的车辆速度特征矩阵,位置特征矩阵中,0表示此离散网格没有车辆占用,1表示此位置被占用,速度特征矩阵中各离散网格的值则根据当前获取的实际车速确定,L为当前绿色信号相位特征,绿色信号相位以独热编码的方式设定,1表示该相位为激活状态,0表示其为非激活状态,m为交叉口离散网格的数量代表信号相位的数量;代表信号相位的数量;1代表过渡信号相位
s12定义模型的动作:将智能体的动作设定为不等固定时间的相位,动作相位表示为南北向直行绿灯,南北向左转绿灯,东西向直行绿灯,东西向左转绿灯:
Ai={NSG,NSLG,WEG,WELG}
为满足交叉口环境中,左转和直行车辆到达流量不同的需求,设定每1个绿色信号相位有3种不同的相位时长10,15,20s可供选择。
s13定义模型的奖励函数:在仿真时间步t,当车辆的i的速度vi(t)小于1.38m/s时,认为车辆处于等待状态并会引起交通拥堵,记wi(t)为该车的等待时间:
其中,wi(t-1)表示其在仿真步t-1的等待时间,1表示仿真时间1s。
当前仿真步所有车辆的累计等待时间总和为W(t):
其中N是总的车辆数量;
相应的,仿真步t-1的车辆累计等待时间为w(t-1):
模型的奖励函数R(t)定义为相邻仿真步所有等待车辆的等待时间差值,具体如下:
R(t)=W(t-1)-W(t)。
s14设计优先贝叶斯深度Q网络:在网络结构上PBDQN将当前仿真步获取的交通环境状态s作为神经网络的输入,在神经网络的末层使用BLR拟合神经网络特征qθ(s)∈Rd的输出,根据BLR原理,价值函数被近似为神经网络特征输出的线性变换,即对于已知的状态动作对(s,a),价值函数Qθ(s,a)可表示为:
Qθ(s,a)=qθ(s)Twa
其中,wa∈Rd是动作的后验分布;d是特征参数的输出维度;a代表智能体的动作;
在价值函数的后验分布中部署汤普森采样方法选择最优动作,当给定1组经验数据样本(s,a,r,s′),由价值函数关系,目标网络的价值函数可表示为:
其中,为目标网络的特征表示;/> 为时序不相关的的高斯噪声;
后验更新时,从经验回放池中获取批量的数据M={sj,aj,yj}B,记Ma是当aj=a时的历史数据,求解wa和相应的Qθ(s,a)即获取分布P(wa|Ma)和集合p(Qθ(s,a)|Ma),对于动作a及相应的Ma构造其特征表示qθ(s)的列矩阵和目标网络价值函数集合,由贝叶斯共轭性质,wa服从如下分布:
根据特征表示和上式给出的动作后验分布关系,相应的价值函数后验表示如下:
那么,所有的动作的后验分布服从 输出端部署TS方法获取最优价值函数对应的动作aTS:
aTS=argmaxaWTqθ(s)
神经网络特征参数更新方式遵循梯度下降法:
(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型,具体实施步骤包括:
s21构建交通仿真环境:根据交叉口的交通环境和车辆流量数据配置交通防真软件,建立与交叉口相似的交通仿真环境,使用SUMO提供的Traci接口来获取交叉口的车辆信息,并通过发送相关信号变化指令来更改交通信号配时,以此来模拟交通环境的运行,生成各个信号周期的交通状态信息;
s22初始化在线网络和目标网络超参数θ,θ-,M,B,γ,N,T,初始化动作的高斯分布参数W,W-,Cov,σ2,将仿真步计数器初值置0;
s23观测并获取当前仿真步交叉口的交通环境状态s,判断是否满足汤普森采样周期,若是,则执行汤普森采样选择最优动作,否则通过前向网络计算奖励rt并获得下一状态s′;
s24判断经验池数据长度是否小于最大数据容量,若是,将步骤(1)中的经验数据直接存入经验数据池,否则将最旧的数据删除后再进行存入操作;
s25以优先经验回放的方式在样本池中进行采样并使用梯度下降法更新网络参数;
s26检测训练回合数,若回合数epsilon小于最大回合数,则当前回合数+1,执行步骤s23,开始下一回合训练,否则,终止仿真并保存模型参数。
(3)生成交通信号配时优化控制策略和持续更新模型:利用步骤(2)所运行的深度强化学习交通信号配时优化控制模型在实际的路网中持续进行训练和优化,经过重复循环,使该模型可以更好的适应于实际的交通路网当中,实现对多交叉口交通信号的协调控制。
本发明通过在网络结构的末端加入贝叶斯线性回归层,通过贝叶斯线性回归更新动作参数的后验分布进而更新价值函数的后验分布。在价值函数的分布上执行汤普森采样选择最优输出动作,加大了智能体对输出动作选择的不确定性探索。同时,经验样本采用Sumtree数据结构模式,在参数更新时利用优先经验回放技术可以提高数据采样效率。
本发明采用贝叶斯深度Q网络作为核心模型,结合强化学习算法,实现交通信号控制的智能优化;通过交通传感器和监控系统获取实时的交通流数据和交通状态信息,进行实时监测和分析;利用贝叶斯深度Q网络对历史交通数据进行训练,学习交通信号控制策略,包括信号相位、时长等参数;结合传感器和通信技术,实时感知交通环境和交通需求的变化,包括车流量、交通状况等;根据实时环境和交通需求的变化,通过贝叶斯深度Q网络进行动态信号调整,以优化交通流效率。通过交通数据分析和模拟仿真,评估优化后的交通信号控制方法的性能,并提供反馈用于改进算法和参数调整。
综上所述,本发明通过引入深度学习和强化学习的技术,能够实现更准确、适应性更强的交通信号控制,从而优化交通流动,减少拥堵,节约能源,提高交通效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围。
Claims (6)
1.基于贝叶斯深度Q网络的交通信号优化控制方法,其特征在于,包括如下步骤:
(1)建立基于深度强化学习的交通信号控制模型,具体包括:
s11定义模型的状态;
s12定义模型的动作;
s13定义模型的奖励函数;
s14设计优先贝叶斯深度Q网络:在网络结构上PBDQN将当前仿真步获取的交通环境状态s作为神经网络的输入,在神经网络的末层使用BLR拟合神经网络特征qθ(s)∈Rd的输出,根据BLR原理,价值函数被近似为神经网络特征输出的线性变换,即对于已知的状态动作对(s,a),价值函数Qθ(s,a)可表示为:
其中,wa∈Rd是动作的后验分布;d是特征参数的输出维度;a代表智能体的动作;
在价值函数的后验分布中部署汤普森采样方法选择最优动作,当给定1组经验数据样本(s,a,r,s′),由价值函数关系,目标网络的价值函数可表示为:
其中, 为目标网络的特征表示;/> 为时序不相关的的高斯噪声;
后验更新时,从经验回放池中获取批量的数据M={sj,aj,yj}B,记Ma是当aj=a时的历史数据,求解wa和相应的Qθ(s,a)即获取分布P(wa|Ma)和集合p(Qθ(s,a)|Ma),对于动作a及相应的Ma构造其特征表示qθ(s)的列矩阵和目标网络价值函数集合,由贝叶斯共轭性质,wa服从如下分布:
根据特征表示和上式给出的动作后验分布关系,相应的价值函数后验表示如下:
那么,所有的动作的后验分布服从 输出端部署TS方法获取最优价值函数对应的动作aTS:
神经网络特征参数更新方式遵循梯度下降法:
(2)训练基于深度强化学习的多交叉口协同自适应信号配时优化控制模型;
(3)生成交通信号配时优化控制策略和持续更新模型。
2.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法,其特征在于,步骤(1)中,s11定义模型的状态:采用离散交通编码方式,将四向交叉口的进入车道根据车辆长度和车辆间距设定为离散网格的编码形式,在检测区域范围内的每个离散网格中置入检测器,通过检测器可以检测到每个离散网格中的车辆位置及速度,此外,构造了当前绿色信号相位特征向量L作为状态输入的一部分,因此构造交通环境状态S如下:
其中,为四向交叉口的车辆位置特征矩阵,/>为四向交叉口的车辆速度特征矩阵,位置特征矩阵中,0表示此离散网格没有车辆占用,1表示此位置被占用,速度特征矩阵中各离散网格的值则根据当前获取的实际车速确定,L为当前绿色信号相位特征,绿色信号相位以独热编码的方式设定,1表示该相位为激活状态,0表示其为非激活状态,m为交叉口离散网格的数量代表信号相位的数量;/>代表信号相位的数量;1代表过渡信号相位。
3.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法,其特征在于,步骤(1)中,s12定义模型的动作:将智能体的动作设定为不等固定时间的相位,动作相位表示为南北向直行绿灯,南北向左转绿灯,东西向直行绿灯,东西向左转绿灯:
Ai={NSG,NSLG,WEG,WELG}
为满足交叉口环境中,左转和直行车辆到达流量不同的需求,设定每1个绿色信号相位有3种不同的相位时长10,15,20s可供选择。
4.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法,其特征在于,步骤(1)中,s13定义模型的奖励函数:在仿真时间步t,当车辆的i的速度vi(t)小于1.38m/s时,认为车辆处于等待状态并会引起交通拥堵,记wi(t)为该车的等待时间:
其中,wi(t-1)表示其在仿真步t-1的等待时间,1表示仿真时间1s。
当前仿真步所有车辆的累计等待时间总和为W(t):
其中N是总的车辆数量;
相应的,仿真步t-1的车辆累计等待时间为w(t-1):
模型的奖励函数R(t)定义为相邻仿真步所有等待车辆的等待时间差值,具体如下:
R(t)=W(t-1)-W(t)。
5.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法,其特征在于,步骤(2)具体实施步骤包括:
s21构建交通仿真环境:根据交叉口的交通环境和车辆流量数据配置交通防真软件,建立与交叉口相似的交通仿真环境,使用SUMO提供的Traci接口来获取交叉口的车辆信息,并通过发送相关信号变化指令来更改交通信号配时,以此来模拟交通环境的运行,生成各个信号周期的交通状态信息;
s22初始化在线网络和目标网络超参数θ,θ-,M,B,γ,N,T,初始化动作的高斯分布参数W,W-,Cov,σ2,将仿真步计数器初值置0;
s23观测并获取当前仿真步交叉口的交通环境状态s,判断是否满足汤普森采样周期,若是,则执行汤普森采样选择最优动作,否则通过前向网络计算奖励rt并获得下一状态s′;
s24判断经验池数据长度是否小于最大数据容量,若是,将步骤(1)中的经验数据直接存入经验数据池,否则将最旧的数据删除后再进行存入操作;
s25以优先经验回放的方式在样本池中进行采样并使用梯度下降法更新网络参数;
s26检测训练回合数,若回合数epsilon小于最大回合数,则当前回合数+1,执行步骤s23,开始下一回合训练,否则,终止仿真并保存模型参数。
6.根据权利要求1所述的基于贝叶斯深度Q网络的交通信号优化控制方法,其特征在于,步骤(3)中利用步骤(2)所运行的深度强化学习交通信号配时优化控制模型在实际的路网中持续进行训练和优化,经过重复循环,使该模型可以更好的适应于实际的交通路网当中,实现对多交叉口交通信号的协调控制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310676295.3A CN116824848A (zh) | 2023-06-08 | 2023-06-08 | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310676295.3A CN116824848A (zh) | 2023-06-08 | 2023-06-08 | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116824848A true CN116824848A (zh) | 2023-09-29 |
Family
ID=88113809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310676295.3A Pending CN116824848A (zh) | 2023-06-08 | 2023-06-08 | 基于贝叶斯深度q网络的交通信号优化控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116824848A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117863948A (zh) * | 2024-01-17 | 2024-04-12 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
-
2023
- 2023-06-08 CN CN202310676295.3A patent/CN116824848A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117863948A (zh) * | 2024-01-17 | 2024-04-12 | 广东工业大学 | 一种辅助调频的分散电动汽车充电控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
CN112632858A (zh) | 基于Actor-Critic框架深度强化学习算法的交通灯信号控制方法 | |
CN109215355A (zh) | 一种基于深度强化学习的单点交叉口信号配时优化方法 | |
CN111243271A (zh) | 一种基于深度循环q学习的单点交叉口信号控制方法 | |
CN114038212A (zh) | 基于双阶段注意力机制和深度强化学习的信号灯控制方法 | |
CN113963555B (zh) | 一种结合状态预测的深度强化学习交通信号控制方法 | |
CN114627657A (zh) | 一种基于图深度强化学习的自适应交通信号控制方法 | |
CN116824848A (zh) | 基于贝叶斯深度q网络的交通信号优化控制方法 | |
CN113554875B (zh) | 一种基于边缘计算的高速公路异质交通流可变限速控制方法 | |
CN112991750B (zh) | 基于强化学习与生成式对抗网络的局部交通优化方法 | |
CN111985619A (zh) | 一种基于短时交通流预测的城市单交叉口控制方法 | |
CN115578870B (zh) | 一种基于近端策略优化的交通信号控制方法 | |
CN111951574A (zh) | 衰减记忆去伪控制的交通信号自适应迭代学习控制方法 | |
CN113053120A (zh) | 基于迭代学习模型预测控制的交通信号灯调度方法与系统 | |
CN115376103A (zh) | 一种基于时空图注意力网络的行人轨迹预测方法 | |
CN115691167A (zh) | 一种基于交叉口全息数据的单点交通信号控制方法 | |
CN113724507B (zh) | 基于深度强化学习的交通控制与车辆诱导协同方法和系统 | |
CN113392577B (zh) | 一种基于深度强化学习的区域边界主交叉口信号控制方法 | |
CN115019523A (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN116758767B (zh) | 基于多策略强化学习的交通信号灯控制方法 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN116524745B (zh) | 一种云边协同区域交通信号动态配时系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |