CN115359672B - 一种数据驱动与强化学习结合的交通区域边界控制方法 - Google Patents
一种数据驱动与强化学习结合的交通区域边界控制方法 Download PDFInfo
- Publication number
- CN115359672B CN115359672B CN202210997796.7A CN202210997796A CN115359672B CN 115359672 B CN115359672 B CN 115359672B CN 202210997796 A CN202210997796 A CN 202210997796A CN 115359672 B CN115359672 B CN 115359672B
- Authority
- CN
- China
- Prior art keywords
- traffic
- control
- boundary control
- neural network
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 55
- 238000013528 artificial neural network Methods 0.000 claims description 47
- 238000011217 control strategy Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 15
- 230000001276 controlling effect Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 108010046685 Rho Factor Proteins 0.000 claims description 3
- 238000005312 nonlinear dynamic Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/07—Controlling traffic signals
- G08G1/08—Controlling traffic signals according to detected number or speed of vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Analytical Chemistry (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供一种数据驱动与强化学习结合的交通区域边界控制方法,涉及智能交通控制技术领域。本发明通过城市路网的交通状态和网络结构划分若干个交通区域,采集交通系统的输入和输出数据,来求解无模型数据驱动下的交通系统边界控制比例,并将计算得到的边界控制动作,执行控制动作下的区域车辆数和平均车流量都记录下来,并且存到经验池D中。根据经验池D中的数据对强化学习的参数进行预训练,将预训练后的强化学习算法再与交通环境进行交互,对交通环境进行进一步的探索,得出最优的边界控制动作。本发明对交通区域进行宏观边界控制,均衡各个区域的交通流量,减少交通拥堵的发生,提高交通路网的运行效率,改善人们的出行体验。
Description
技术领域
本发明涉及智能交通控制技术领域,尤其涉及一种数据驱动与强化学习结合的交通区域边界控制方法。
背景技术
随着社会的不断发展以及人们生活水平的提高,城市道路上的车辆数不断增加,居民对于出行的需求日益增长,这给城市交通系统的稳定运行带来了巨大的挑战。交通拥堵在产生的各种交通问题中对交通系统的影响尤为严重,其不仅损耗了旅行者的时间,而且还会造成严重的空气环境污染,甚至交通拥堵还会使交通系统瘫痪,带来严重的经济损失。所以,对交通系统进行合理的控制,调节进入拥堵区域的车流量,保证交通路网的运行效率显得越来越重要。
目前很多技术都是基于城市交通网络系统的建模和控制,这些技术方案都是在对交通系统进行准确建模的基础上来控制的。在实际的交通系统中,交通路网非常的复杂,交通系统可以看作强随机性的非线性系统,不但难以建立其精确的模型,而且交通控制的问题也比较复杂。基于模型的交通控制方法,当交通系统的建模不准确时,对交通控制的效果会产生很大的负面影响。随着道路基础设施的发展,越来越多的传感器应用到交通系统中,其提供了大量有用的交通数据信息,如何利用产生的交通数据信息,对交通系统进行数据驱动控制,避免对交通系统进行准确的建模,得到了越来越多研究人员的关注。
此外,如今很多交通控制方法都需要知道每个交叉口和每个路段车辆的详细信息,但是过于高度详细的交通信息可能难以测量或估计,这对道路传感器的部署以及控制的实施成本提出了巨大的挑战,这使交通控制问题变得更加复杂。
发明内容
针对现有技术的不足,本发明提供一种数据驱动与强化学习结合的交通区域边界控制方法,对城市交通区域的车辆流量进行宏观边界控制,从而减少甚至消除交通路网的车辆拥堵,实现交通网络的高效运行。
一种数据驱动与强化学习结合的交通区域边界控制方法,具体包括
步骤1:根据城市的交通状态和交通网络结构,将城市划分为若干个交通区域;
步骤2:根据各交通区域的车辆守恒方程与交通系统的宏观基本图MFD,建立城市交通路网动态模型并将其离散化,如下公式所示:
ni(t)=nii(t)+nij(t)
nij(t+1)=nij(t)+T(dij(t)-uij(t)Mij(t))
nii(t+1)=nii(t)+T(dii(t)+uji(t)Mji(t)-Mii(t))
其中,Pi(ni(t))表示交通区域i的宏观基本图函数,Mij(t)表示车辆从区域i到区域j的转移流量,nij(t)表示从区域i到区域j的车辆数,ni(t)表示区域i内总共行驶的车辆数,dij(t)表示从区域i至区域j的交通需求流量,T表示采样周期长度;
将交通区域的边界控制放行比例输入到城市交通路网模型中,由建立的交通路网模型输出得到不同交通区域的车辆数,即输入数据为交通区域的边界控制放行比例,输出数据为不同交通区域的车辆数;
步骤3:对城市交通路网动态模型进行紧格式动态线性化,并计算交通区域边界控制系统的伪雅可比矩阵;
步骤3.1:将城市交通路网动态模型描述为MIMO的非线性动态方程,如下公式所示:
n(t+1)=f(n(t),…,n(t-m1),u(t),…,u(t-m2))
其中,n(t)代表第t个采样周期内交通区域内的车辆数向量,u(t)代表第t个采样周期内交通区域的边界控制比例向量,即交通系统的控制输入,f(…)表示非线性函数向量,m1和m2为非负整数;
步骤3.2:将得到的MIMO动态方程进行紧格式动态线性化,如下公式所示:
n(t+1)=n(t)+φ(t)Δu(t)
其中,Δu(t)=u(t)-u(t-1),φ(t)表示系统第t个采样周期的伪雅克比矩阵,其是一个时变的参数矩阵,且在任意时刻t都有界;
步骤3.3:设计伪雅可比矩阵的目标函数,最小化目标函数,并由获得的交通区域车辆信息和上一时刻数据,来估计当前时刻伪雅可比矩阵,目标函数J如下公式所示:
其中μ>0是惩罚因子;
估计伪雅可比矩阵,如下公式所示:
其中,表示第t个采样周期的伪雅可比矩阵的估计值,Δn(t)=n(t)-n(t-1)代表交通区域的车辆数变化,u(t-1)代表上一时刻的边界控制比例,即系统的控制输入,η∈(0,1]为步长因子,μ>0是惩罚因子;
步骤4:计算各个交通区域边界控制比例,以此来控制进入不同交通区域车流量,进行交通区域间车辆数量调节;
步骤4.1:设计交通区域边界控制的控制器,根据目标函数来求解系统的输入,即交通区域的边界控制比例,目标函数如下公式所示:
J(u(t))=||nref-n(t+1)||2+λξ‖u(t)-u(t-1)‖2
其中,nref表示交通区域期望的车辆数向量,ξ为归一化的因子,λ>0为惩罚因子;
步骤4.2:通过最小化上述目标函数,来求解交通区域的边界控制比例向量u(t),如下公式所示:
其中,λ>0为惩罚因子,ρ∈(0,1]为步长因子;
步骤5:重复迭代步骤3至步骤4直到控制结束,将每一步得到的区域边界控制比例、交通区域车辆数和交通区域网络平均车流量记录下来,使用记录的信息,对深度强化学习的参数进行初始化,来减少深度强化学习的学习时间,得到最优边界控制动作;
步骤5.1:定义交通系统的状态st为t时刻不同交通区域的车辆数,交通系统的控制动作at表示t时刻交通区域的边界控制比例向量u(t),系统的奖励rt为交通区域网络的平均车流量,当交通区域发生拥堵时将奖励rt设为负值,在状态st下执行动作at得到奖励rt,并且系统转移到下一个状态st+1,将在数据驱动下计算得到的序列(at,st,rt,st+1),t=0,1,2,…,H-1,记录下来存到经验池D中,其中H代表获得的序列长度;
步骤5.2:利用经验池D中的数据对深度强化学习的参数进行预训练,深度强化学习使用深度确定性策略梯度算法DDPG,利用经验池D对初始的控制策略神经网络和价值函数/>神经网络进行预训练,其目标是分别为控制策略神经网络和价值函数神经网络找到最优权值/>和/>使以下损失函数达到最小:
其中,γ∈[0,1]为折扣因子,D表示经验池,|D|为经验池的大小,θm为控制策略神经网络的初始参数,wm为价值函数神经网络的初始参数,采用随机梯度下降法来求解此问题;
步骤6:采用预训练参数的深度强化学习,在深度强化学习正式训练过程中使用∈-greedy探索策略对交通环境进行探索,获得最高的奖励,∈-greedy探索策略表示有∈概率会随机选择一个未知的边界控制动作执行,剩下有1-∈概率会从已执行过动作中选择价值最大的边界控制动作执行;
步骤7:将此刻观察到的交通系统状态st,即不同交通区域的车辆数输入DDPG的控制策略神经网络中得到边界控制动作at,将边界控制动作输入交通路网模型中得到下一时刻的交通系统状态st+1,并且返回执行该动作的奖励rt,将产生的(at,st,rt,st+1)存储到经验池D1中;
步骤8:根据产生的(at,st,rt,st+1)信息,对深度强化学习算法进行正式训练,得到最优的边界控制动作;
步骤8.1:经验池D1中的信息存满后,从中随机抽取n个样本,进行DDPG算法中控制策略和价值函数神经网络的正式训练;将样本中动作at和状态st输入价值函数Q(s,a;w)神经网络中得到价值qt=Q(st,at;w),将状态st+1输入控制策略u(s;θ)神经网络中得到动作a′t+1=u(st+1;θ),则价值qt的估计如下式所示:
对价值函数神经网络的参数w使用梯度下降法进行参数更新,损失函数如下式所示:
步骤8.2:使用梯度上升法来更新控制策略网络的参数θ,其梯度如下公式所示:
步骤9:重复步骤7至步骤8直到控制策略神经网络和价值函数神经网络达到收敛状态;
步骤10:将最后得到的交通区域边界控制比例u(t)转化为区域边界交叉口的绿信比,对交叉口的红绿灯进行控制,调节不同区域内的车流量。
采用上述技术方案所产生的有益效果在于:
本发明提供一种数据驱动与强化学习结合的交通区域边界控制方法,使用数据驱动无模型控制,以往技术大多数是建立在交通系统可以准确建模的基础上进行研究,本方案只是利用交通路网动态模型进行输入和输出数据的采集,此模型并不参与交通控制器的设计,避免交通模型建立不准确所带来的误差;本技术方案,分为两个阶段,第一个阶段使用数据驱动方法来计算边界控制比例,并用得到的结果来对强化学习的参数进行预训练,第二阶段利用预训练完成的深度强化学习算法,进一步对交通环境进行探索,大大减少强化学习训练时间,提高数据利用率,得到最优的边界控制动作;交通数据信息得到充分的利用,在宏观层面均衡不同区域的交通流量,减少交通拥堵,提高交通系统运行效率,提升城市道路服务质量。
附图说明
图1为本发明实施例提供的城市交通区域边界控制的流程图;
图2为本发明实施例提供的DDPG深度强化学习算法的结构图;
图3为本发明实施例提供的城市交通路网区域划分的示例图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种数据驱动与强化学习结合的交通区域边界控制方法,如图1所示,具体包括
步骤1:根据城市的交通状态和交通网络结构,将城市划分为若干个交通区域;城市道路网络区域的划分依据人们交通出行的特点、拥堵区域的分布等因素,如图3所示。每个区域的划分形状要保证其规则性和完整性,并且划分的区域不能面积太大,才能更好地进行交通区域之间的边界控制;
步骤2:根据各交通区域的车辆守恒方程与交通系统的宏观基本图MFD,建立城市交通路网动态模型并将其离散化,在城市的交通路网系统中存在着很多的传感器,这些传感器可以实时的检测交通的状态,本技术方案在实际应用中利用这些传感器来检测各个区域的车辆数以及上一时刻的边界控制比例,即交通系统的输入和输出数据;如下公式所示:
ni(t)=nii(t)+nij(t)
nij(t+1)=nij(t)+T(dij(t)-uij(t)Mij(t))
nii(t+1)=nii(t)+T(dii(t)+uji(t)Mji(t)-Mii(t))
其中,Pi(ni(t))表示交通区域t的宏观基本图函数,Mij(t)表示车辆从区域i到区域j的转移流量,nij(t)表示从区域i到区域j的车辆数,ni(t)表示区域i内总共行驶的车辆数,dij(t)表示从区域i至区域j的交通需求流量,T表示采样周期长度;
将交通区域的边界控制放行比例输入到城市交通路网模型中,由建立的交通路网模型输出得到不同交通区域的车辆数,即输入数据为交通区域的边界控制放行比例,输出数据为不同交通区域的车辆数;
步骤3:对城市交通路网动态模型进行紧格式动态线性化,并计算交通区域边界控制系统的伪雅可比矩阵;
步骤3.1:上述交通路网模型只是用于产出输入和输出数据,其并不直接用于边界控制器的设计,则将城市交通路网动态模型描述为MIMO的非线性动态方程,如下公式所示:
n(t+1)=f(n(t),…,n(t-m1),u(t),…,u(t-m2))
其中,n(t)代表第t个采样周期内交通区域内的车辆数向量,u(t)代表第t个采样周期内交通区域的边界控制比例向量,即交通系统的控制输入,f(…)表示非线性函数向量,m1和m2为非负整数;
步骤3.2:将得到的MIMO动态方程进行紧格式动态线性化,如下公式所示:
n(t+1)=n(t)+φ(t)Δu(t)
其中,Δu(t)=u(t)-u(t-1),φ(t)表示系统第t个采样周期的伪雅克比矩阵,其是一个时变的参数矩阵,且在任意时刻t都有界;
步骤3.3:设计伪雅可比矩阵的目标函数,最小化目标函数,并由获得的交通区域车辆信息和上一时刻数据,来估计当前时刻伪雅可比矩阵,目标函数J如下公式所示:
其中μ>0是惩罚因子,其作用为了避免伪雅可比矩阵变化过快,在实际应用中导致交叉口红绿灯的绿信比变化过快,从而避免交通危险的发生;
估计伪雅可比矩阵,如下公式所示:
其中,表示第t个采样周期的伪雅可比矩阵的估计值,Δn(t)=n(t)-n(t-1)代表交通区域的车辆数变化,u(t-1)代表上一时刻的边界控制比例,即系统的控制输入,η∈(0,1]为步长因子,μ>0是惩罚因子;
步骤4:计算各个交通区域边界控制比例,以此来控制进入不同交通区域车流量,进行交通区域间车辆数量调节,使交通区域车辆分布达到均衡,减少交通拥堵的发生;
步骤4.1:设计交通区域边界控制的控制器,根据目标函数来求解系统的输入,即交通区域的边界控制比例,目标函数如下公式所示:
J(u(t))=||nref-n(t+1)||2+λξ‖u(t)-u(t-1)‖2
其中,nref表示交通区域期望的车辆数向量,nref的取值由交通系统的宏观基本图MFD来确定。ξ为归一化的因子,其作用是使目标函数的两项具有相同的数量级。λ>0为惩罚因子,用于限制相邻两个时刻边界控制输入u(t)的剧烈变化,防止造成交通危险;
步骤4.2:通过最小化上述目标函数,来求解交通区域的边界控制比例向量u(t),如下公式所示:
其中,λ>0为惩罚因子,ρ∈(0,1]为步长因子,式子中ρ使得边界控制算法更具一般性,并且能保证系统的稳定性和收敛性;
步骤5:重复迭代步骤3至步骤4直到控制结束,将每一步得到的区域边界控制比例、交通区域车辆数和交通区域网络平均车流量记录下来,使用记录的信息,对深度强化学习的参数进行初始化,来减少深度强化学习的学习时间,避免深度强化学习盲目大范围进行探索,提高数据利用率,得到最优边界控制动作,提高系统控制性能;
步骤5.1:定义交通系统的状态st为t时刻不同交通区域的车辆数,交通系统的控制动作at表示t时刻交通区域的边界控制比例向量u(t),系统的奖励rt为交通区域网络的平均车流量,当交通区域发生拥堵时将奖励rt设为负值,以惩罚造成不利影响的控制策略。在状态st下执行动作at得到奖励rt,并且系统转移到下一个状态st+1,将在数据驱动下计算得到的序列(at,st,rt,st+1),t=0,1,2,…,H-1,记录下来存到经验池D中,其中H代表获得的序列长度;
步骤5.2:利用经验池D中的数据对深度强化学习的参数进行预训练,深度强化学习使用深度确定性策略梯度算法DDPG,如图2所示,DDPG算法的输出为连续动作空间,适用于交通区域边界控制类型的控制系统。该算法是典型的Actor-Critic方法,其中Actor是基于策略的神经网络函数,Critic是基于价值的神经网络函数。利用经验池D对初始的控制策略神经网络和价值函数/>神经网络进行预训练,其目标是分别为控制策略神经网络和价值函数神经网络找到最优权值/>和/>使以下损失函数达到最小:
其中,γ∈[0,1]为折扣因子,D表示经验池,|D|为经验池的大小,θm为控制策略神经网络的初始参数,wm为价值函数神经网络的初始参数,采用随机梯度下降法来求解此问题;
步骤6:采用预训练参数的深度强化学习,对交通系统环境进行进一步的探索,在深度强化学习正式训练过程中使用∈-greedy探索策略对交通环境进行探索,获得最高的奖励,避免算法陷入局部的最优。∈-greedy探索策略表示有∈概率会随机选择一个未知的边界控制动作执行,剩下有1-∈概率会从已执行过动作中选择价值最大的边界控制动作执行;
步骤7:将此刻观察到的交通系统状态st,即不同交通区域的车辆数输入DDPG的控制策略神经网络中得到边界控制动作at,将边界控制动作输入交通路网模型中得到下一时刻的交通系统状态st+1,并且返回执行该动作的奖励rt,将产生的(at,st,rt,st+1)存储到经验池D1中;
步骤8:根据产生的(at,st,rt,st+1)信息,对深度强化学习算法进行正式训练,得到最优的边界控制动作;
步骤8.1:经验池D1中的信息存满后,从中随机抽取n个样本,进行DDPG算法中控制策略和价值函数神经网络的正式训练;将样本中动作at和状态st输入价值函数Q(s,a;w)神经网络中得到价值qt=Q(st,at;w),将状态st+1输入控制策略u(s;θ)神经网络中得到动作a′t+1=u(st+1;θ),则价值qt的估计如下式所示:
对价值函数神经网络的参数w使用梯度下降法进行参数更新,损失函数如下式所示:
步骤8.2:使用梯度上升法来更新控制策略网络的参数θ,其梯度如下公式所示:
步骤9:重复步骤7至步骤8直到控制策略神经网络和价值函数神经网络达到收敛状态;
步骤10:将最后得到的交通区域边界控制比例u(t)转化为区域边界交叉口的绿信比,并应用到实践中,对交叉口的红绿灯进行控制,调节不同区域内的车流量,减少交通拥堵。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (3)
1.一种数据驱动与强化学习结合的交通区域边界控制方法,其特征在于,包括以下步骤:
步骤1:根据城市的交通状态和交通网络结构,将城市划分为若干个交通区域;
步骤2:根据各交通区域的车辆守恒方程与交通系统的宏观基本图MFD,建立城市交通路网动态模型并将其离散化,如下公式所示:
ni(t)=nii(t)+nij(t)
nij(t+1)=nij(t)+T(dij(t)-uij(t)Mij(t))
nii(t+1)=nii(t)+T(dii(t)+uji(t)Mji(t)-Mii(t))
其中,Pi(ni(t))表示交通区域i的宏观基本图函数,Mij(t)表示车辆从区域i到区域j的转移流量,nij(t)表示从区域i到区域j的车辆数,ni(t)表示区域i内总共行驶的车辆数,dij(t)表示从区域i至区域j的交通需求流量,T表示采样周期长度;
将交通区域的边界控制放行比例输入到城市交通路网模型中,由建立的交通路网模型输出得到不同交通区域的车辆数,即输入数据为交通区域的边界控制放行比例,输出数据为不同交通区域的车辆数;
步骤3:对城市交通路网动态模型进行紧格式动态线性化,并计算交通区域边界控制系统的伪雅可比矩阵;
步骤3.1:将城市交通路网动态模型描述为MIMO的非线性动态方程,如下公式所示:
n(t+1)=f(n(t),...,n(t-m1),u(t),...,u(t-m2))
其中,n(t)代表第t个采样周期内交通区域内的车辆数向量,u(t)代表第t个采样周期内交通区域的边界控制比例向量,即交通系统的控制输入,f(...)表示非线性函数向量,m1和m2为非负整数;
步骤3.2:将得到的MIMO动态方程进行紧格式动态线性化,如下公式所示:
n(t+1)=n(t)+φ(t)Δu(t)
其中,Δu(t)=u(t)-u(t-1),φ(t)表示系统第t个采样周期的伪雅克比矩阵,其是一个时变的参数矩阵,且在任意时刻t都有界;
步骤3.3:设计伪雅可比矩阵的目标函数,最小化目标函数,并由获得的交通区域车辆信息和上一时刻数据,来估计当前时刻伪雅可比矩阵,目标函数J如下公式所示:
其中μ>0是惩罚因子;
估计伪雅可比矩阵,如下公式所示:
其中,表示第t个采样周期的伪雅可比矩阵的估计值,Δn(t)=n(t)-n(t-1)代表交通区域的车辆数变化,u(t-1)代表上一时刻的边界控制比例,即系统的控制输入,η∈(0,1]为步长因子,μ>0是惩罚因子;
步骤4:计算各个交通区域边界控制比例,以此来控制进入不同交通区域车流量,进行交通区域间车辆数量调节;
步骤4.1:设计交通区域边界控制的控制器,根据目标函数来求解系统的输入,即交通区域的边界控制比例,目标函数如下公式所示:
J(u(t))=||nref-n(t+1)||2+λξ||u(t)-u(t-1)||2
其中,nref表示交通区域期望的车辆数向量,ξ为归一化的因子,λ>0为惩罚因子;
步骤4.2:通过最小化上述目标函数,来求解交通区域的边界控制比例向量u(t),如下公式所示:
其中,λ>0为惩罚因子,ρ∈(0,1]为步长因子;
步骤5:重复迭代步骤3至步骤4直到控制结束,将每一步得到的区域边界控制比例、交通区域车辆数和交通区域网络平均车流量记录下来,使用记录的信息,对深度强化学习的参数进行初始化,来减少深度强化学习的学习时间,得到最优边界控制动作;
步骤6:采用预训练参数的深度强化学习,在深度强化学习正式训练过程中使用∈-greedy探索策略对交通环境进行探索,获得最高的奖励,∈-greedy探索策略表示有∈概率会随机选择一个未知的边界控制动作执行,剩下有1-∈概率会从已执行过动作中选择价值最大的边界控制动作执行;
步骤7:将此刻观察到的交通系统状态st,即不同交通区域的车辆数输入DDPG的控制策略神经网络中得到边界控制动作at,将边界控制动作输入交通路网模型中得到下一时刻的交通系统状态st+1,并且返回执行该动作的奖励rt,将产生的(at,st,rt,st+1)存储到经验池D1中;
步骤8:根据产生的(at,st,rt,st+1)信息,对深度强化学习算法进行正式训练,得到最优的边界控制动作;
步骤9:重复步骤7至步骤8直到控制策略神经网络和价值函数神经网络达到收敛状态;
步骤10:将最后得到的交通区域边界控制比例u(t)转化为区域边界交叉口的绿信比,对交叉口的红绿灯进行控制,调节不同区域内的车流量。
2.根据权利要求1所述的一种数据驱动与强化学习结合的交通区域边界控制方法,其特征在于,所述步骤5具体包括以下步骤:
步骤5.1:定义交通系统的状态st为t时刻不同交通区域的车辆数,交通系统的控制动作at表示t时刻交通区域的边界控制比例向量u(t),系统的奖励rt为交通区域网络的平均车流量,当交通区域发生拥堵时将奖励rt设为负值,在状态st下执行动作at得到奖励rt,并且系统转移到下一个状态st+1,将在数据驱动下计算得到的序列(at,st,rt,st+1),t=0,1,2,...,H-1,记录下来存到经验池D中,其中H代表获得的序列长度;
步骤5.2:利用经验池D中的数据对深度强化学习的参数进行预训练,深度强化学习使用深度确定性策略梯度算法DDPG,利用经验池D对初始的控制策略神经网络和价值函数/>神经网络进行预训练,其目标是分别为控制策略神经网络和价值函数神经网络找到最优权值/>和/>使以下损失函数达到最小:
其中,γ∈[0,1]为折扣因子,D表示经验池,|D|为经验池的大小,θm为控制策略神经网络的初始参数,wm为价值函数神经网络的初始参数,采用随机梯度下降法来进行求解。
3.根据权利要求2所述的一种数据驱动与强化学习结合的交通区域边界控制方法,其特征在于,步骤8具体包括以下步骤:
步骤8.1:经验池D1中的信息存满后,从中随机抽取n个样本,进行DDPG算法中控制策略和价值函数神经网络的正式训练;将样本中动作at和状态st输入价值函数Q(s,a;w)神经网络中得到价值qt=Q(st,at;w),将状态st+1输入控制策略u(s;θ)神经网络中得到动作a′t+1=u(st+1;θ),则价值qt的估计如下式所示:
对价值函数神经网络的参数w使用梯度下降法进行参数更新,损失函数如下式所示:
步骤8.2:使用梯度上升法来更新控制策略网络的参数θ,其梯度如下公式所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210997796.7A CN115359672B (zh) | 2022-08-19 | 2022-08-19 | 一种数据驱动与强化学习结合的交通区域边界控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210997796.7A CN115359672B (zh) | 2022-08-19 | 2022-08-19 | 一种数据驱动与强化学习结合的交通区域边界控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115359672A CN115359672A (zh) | 2022-11-18 |
CN115359672B true CN115359672B (zh) | 2023-07-07 |
Family
ID=84002873
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210997796.7A Active CN115359672B (zh) | 2022-08-19 | 2022-08-19 | 一种数据驱动与强化学习结合的交通区域边界控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115359672B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116863706A (zh) * | 2023-08-10 | 2023-10-10 | 上海理工大学 | 一种城市交通过饱和区域边界控制方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145936A (zh) * | 2017-04-22 | 2017-09-08 | 大连理工大学 | 一种基于强化学习的车辆跟驰模型建立方法 |
CN111429737A (zh) * | 2020-03-30 | 2020-07-17 | 银江股份有限公司 | 一种基于agent的城市区域边界控制方法及系统 |
CN113392577A (zh) * | 2021-05-18 | 2021-09-14 | 广东工业大学 | 一种基于深度强化学习的区域边界主交叉口信号控制方法 |
CN113838296A (zh) * | 2021-09-17 | 2021-12-24 | 中山大学 | 一种交通信号控制方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10673882B2 (en) * | 2018-01-15 | 2020-06-02 | International Business Machines Corporation | Network flow control of internet of things (IoT) devices |
-
2022
- 2022-08-19 CN CN202210997796.7A patent/CN115359672B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145936A (zh) * | 2017-04-22 | 2017-09-08 | 大连理工大学 | 一种基于强化学习的车辆跟驰模型建立方法 |
CN111429737A (zh) * | 2020-03-30 | 2020-07-17 | 银江股份有限公司 | 一种基于agent的城市区域边界控制方法及系统 |
CN113392577A (zh) * | 2021-05-18 | 2021-09-14 | 广东工业大学 | 一种基于深度强化学习的区域边界主交叉口信号控制方法 |
CN113838296A (zh) * | 2021-09-17 | 2021-12-24 | 中山大学 | 一种交通信号控制方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
Bridging hamilton-jacobi safety analysis and reinforcement learning;Jaime F.fisac;《2019 international conference on robotics and automation(ICRA)》;8550-8556 * |
Reinforcement learning versus PDE backstepping and PI control for congested freeway traffic;Yu huan;《IEEE transactions on control systems technology》(第30期);1595-1611 * |
城市交通系统无模型自适应宏观边界控制方法;雷霆;《中国博士学位论文全文数据库工程科技Ⅱ辑》(第3期);C034-5 * |
基于MFD的路网边界控制策略研究综述;李新;《交通运输工程与信息学报》;第15卷(第3期);9-16 * |
基于状态空间平均模型的单相车网系统低频稳定性研究;陈红;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》(第5期);C033-280 * |
工程应用中强化学习方法研究;李伟;《万方数据库》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115359672A (zh) | 2022-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qu et al. | Jointly dampening traffic oscillations and improving energy consumption with electric, connected and automated vehicles: A reinforcement learning based approach | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN112365724B (zh) | 一种基于深度强化学习的连续交叉口信号协同控制方法 | |
Han et al. | A physics-informed reinforcement learning-based strategy for local and coordinated ramp metering | |
CN111260118B (zh) | 一种基于量子粒子群优化策略的车联网交通流量预测方法 | |
CN110570672B (zh) | 一种基于图神经网络的区域交通信号灯控制方法 | |
CN112150808B (zh) | 一种基于深度学习的城市交通系统调度策略生成方法 | |
CN106910337A (zh) | 一种基于萤火虫算法与rbf神经网络的交通流预测方法 | |
CN114170789B (zh) | 基于时空图神经网络的智能网联车换道决策建模方法 | |
CN115359672B (zh) | 一种数据驱动与强化学习结合的交通区域边界控制方法 | |
Han et al. | A new reinforcement learning-based variable speed limit control approach to improve traffic efficiency against freeway jam waves | |
Rezaee et al. | Self-learning adaptive ramp metering: Analysis of design parameters on a test case in Toronto, Canada | |
CN112071062A (zh) | 一种基于图卷积网络和图注意力网络的行车时间估计方法 | |
CN110427690A (zh) | 一种基于全局粒子群算法生成ato速度曲线的方法及装置 | |
CN114074680A (zh) | 基于深度强化学习的车辆换道行为决策方法及系统 | |
CN116476863A (zh) | 基于深度强化学习的自动驾驶横纵向一体化决策方法 | |
Shamsi et al. | Reinforcement learning for traffic light control with emphasis on emergency vehicles | |
CN114937366A (zh) | 一种基于多尺度交通需求与供给转化的交通流推算方法 | |
CN115019523A (zh) | 基于最小化压力差的深度强化学习交通信号协调优化控制方法 | |
CN113392577B (zh) | 一种基于深度强化学习的区域边界主交叉口信号控制方法 | |
CN110021168B (zh) | 一种车联网下实现实时智能交通管理的分级决策方法 | |
CN116968721A (zh) | 一种混合动力汽车预测式能量管理方法、系统和存储介质 | |
CN115331460A (zh) | 一种基于深度强化学习的大规模交通信号控制方法及装置 | |
CN115116240A (zh) | 一种无信号灯交叉路口车辆协同控制方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |