CN115359672B

CN115359672B - 一种数据驱动与强化学习结合的交通区域边界控制方法

Info

Publication number: CN115359672B
Application number: CN202210997796.7A
Authority: CN
Inventors: 郭戈; 李迅; 孙晓铮; 高振宇; 王正松
Original assignee: Northeastern University Qinhuangdao Branch
Current assignee: Northeastern University Qinhuangdao Branch
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2023-07-07
Anticipated expiration: 2042-08-19
Also published as: CN115359672A

Abstract

本发明提供一种数据驱动与强化学习结合的交通区域边界控制方法，涉及智能交通控制技术领域。本发明通过城市路网的交通状态和网络结构划分若干个交通区域，采集交通系统的输入和输出数据，来求解无模型数据驱动下的交通系统边界控制比例，并将计算得到的边界控制动作，执行控制动作下的区域车辆数和平均车流量都记录下来，并且存到经验池D中。根据经验池D中的数据对强化学习的参数进行预训练，将预训练后的强化学习算法再与交通环境进行交互，对交通环境进行进一步的探索，得出最优的边界控制动作。本发明对交通区域进行宏观边界控制，均衡各个区域的交通流量，减少交通拥堵的发生，提高交通路网的运行效率，改善人们的出行体验。

Description

一种数据驱动与强化学习结合的交通区域边界控制方法

技术领域

本发明涉及智能交通控制技术领域，尤其涉及一种数据驱动与强化学习结合的交通区域边界控制方法。

背景技术

随着社会的不断发展以及人们生活水平的提高，城市道路上的车辆数不断增加，居民对于出行的需求日益增长，这给城市交通系统的稳定运行带来了巨大的挑战。交通拥堵在产生的各种交通问题中对交通系统的影响尤为严重，其不仅损耗了旅行者的时间，而且还会造成严重的空气环境污染，甚至交通拥堵还会使交通系统瘫痪，带来严重的经济损失。所以，对交通系统进行合理的控制，调节进入拥堵区域的车流量，保证交通路网的运行效率显得越来越重要。

目前很多技术都是基于城市交通网络系统的建模和控制，这些技术方案都是在对交通系统进行准确建模的基础上来控制的。在实际的交通系统中，交通路网非常的复杂，交通系统可以看作强随机性的非线性系统，不但难以建立其精确的模型，而且交通控制的问题也比较复杂。基于模型的交通控制方法，当交通系统的建模不准确时，对交通控制的效果会产生很大的负面影响。随着道路基础设施的发展，越来越多的传感器应用到交通系统中，其提供了大量有用的交通数据信息，如何利用产生的交通数据信息，对交通系统进行数据驱动控制，避免对交通系统进行准确的建模，得到了越来越多研究人员的关注。

此外，如今很多交通控制方法都需要知道每个交叉口和每个路段车辆的详细信息，但是过于高度详细的交通信息可能难以测量或估计，这对道路传感器的部署以及控制的实施成本提出了巨大的挑战，这使交通控制问题变得更加复杂。

发明内容

针对现有技术的不足，本发明提供一种数据驱动与强化学习结合的交通区域边界控制方法，对城市交通区域的车辆流量进行宏观边界控制，从而减少甚至消除交通路网的车辆拥堵，实现交通网络的高效运行。

一种数据驱动与强化学习结合的交通区域边界控制方法，具体包括

步骤1：根据城市的交通状态和交通网络结构，将城市划分为若干个交通区域；

步骤2：根据各交通区域的车辆守恒方程与交通系统的宏观基本图MFD，建立城市交通路网动态模型并将其离散化，如下公式所示：

n_i(t)＝n_ii(t)+n_ij(t)

n_ij(t+1)＝n_ij(t)+T(d_ij(t)-u_ij(t)M_ij(t))

n_ii(t+1)＝n_ii(t)+T(d_ii(t)+u_ji(t)M_ji(t)-M_ii(t))

其中，P_i(n_i(t))表示交通区域i的宏观基本图函数，M_ij(t)表示车辆从区域i到区域j的转移流量，n_ij(t)表示从区域i到区域j的车辆数，n_i(t)表示区域i内总共行驶的车辆数，d_ij(t)表示从区域i至区域j的交通需求流量，T表示采样周期长度；

将交通区域的边界控制放行比例输入到城市交通路网模型中，由建立的交通路网模型输出得到不同交通区域的车辆数，即输入数据为交通区域的边界控制放行比例，输出数据为不同交通区域的车辆数；

步骤3：对城市交通路网动态模型进行紧格式动态线性化，并计算交通区域边界控制系统的伪雅可比矩阵；

步骤3.1：将城市交通路网动态模型描述为MIMO的非线性动态方程，如下公式所示：

n(t+1)＝f(n(t),…,n(t-m₁),u(t),…,u(t-m₂))

其中，n(t)代表第t个采样周期内交通区域内的车辆数向量，u(t)代表第t个采样周期内交通区域的边界控制比例向量，即交通系统的控制输入，f(…)表示非线性函数向量，m₁和m₂为非负整数；

步骤3.2：将得到的MIMO动态方程进行紧格式动态线性化，如下公式所示：

n(t+1)＝n(t)+φ(t)Δu(t)

其中，Δu(t)＝u(t)-u(t-1)，φ(t)表示系统第t个采样周期的伪雅克比矩阵，其是一个时变的参数矩阵，且在任意时刻t都有界；

步骤3.3：设计伪雅可比矩阵的目标函数，最小化目标函数，并由获得的交通区域车辆信息和上一时刻数据，来估计当前时刻伪雅可比矩阵，目标函数J如下公式所示：

其中μ>0是惩罚因子；

估计伪雅可比矩阵，如下公式所示：

其中，

表示第t个采样周期的伪雅可比矩阵的估计值，Δn(t)＝n(t)-n(t-1)代表交通区域的车辆数变化，u(t-1)代表上一时刻的边界控制比例，即系统的控制输入，η∈(0,1]为步长因子，μ>0是惩罚因子；

步骤4：计算各个交通区域边界控制比例，以此来控制进入不同交通区域车流量，进行交通区域间车辆数量调节；

步骤4.1：设计交通区域边界控制的控制器，根据目标函数来求解系统的输入，即交通区域的边界控制比例，目标函数如下公式所示：

J(u(t))＝||n^ref-n(t+1)||²+λξ‖u(t)-u(t-1)‖²

其中，n^ref表示交通区域期望的车辆数向量，ξ为归一化的因子，λ>0为惩罚因子；

步骤4.2：通过最小化上述目标函数，来求解交通区域的边界控制比例向量u(t)，如下公式所示：

其中，λ>0为惩罚因子，ρ∈(0,1]为步长因子；

步骤5：重复迭代步骤3至步骤4直到控制结束，将每一步得到的区域边界控制比例、交通区域车辆数和交通区域网络平均车流量记录下来，使用记录的信息，对深度强化学习的参数进行初始化，来减少深度强化学习的学习时间，得到最优边界控制动作；

步骤5.1：定义交通系统的状态s_t为t时刻不同交通区域的车辆数，交通系统的控制动作a_t表示t时刻交通区域的边界控制比例向量u(t)，系统的奖励r_t为交通区域网络的平均车流量，当交通区域发生拥堵时将奖励r_t设为负值，在状态s_t下执行动作a_t得到奖励r_t，并且系统转移到下一个状态s_t+1，将在数据驱动下计算得到的序列(a_t,s_t,r_t,s_t+1)，t＝0,1,2,…,H-1，记录下来存到经验池D中，其中H代表获得的序列长度；

步骤5.2：利用经验池D中的数据对深度强化学习的参数进行预训练，深度强化学习使用深度确定性策略梯度算法DDPG，利用经验池D对初始的控制策略

神经网络和价值函数/>

神经网络进行预训练，其目标是分别为控制策略神经网络和价值函数神经网络找到最优权值/>

和/>

使以下损失函数达到最小：

其中，γ∈[0,1]为折扣因子，D表示经验池，|D|为经验池的大小，θ_m为控制策略神经网络的初始参数，w_m为价值函数神经网络的初始参数，采用随机梯度下降法来求解此问题；

步骤6：采用预训练参数的深度强化学习，在深度强化学习正式训练过程中使用∈-greedy探索策略对交通环境进行探索，获得最高的奖励，∈-greedy探索策略表示有∈概率会随机选择一个未知的边界控制动作执行，剩下有1-∈概率会从已执行过动作中选择价值最大的边界控制动作执行；

步骤7：将此刻观察到的交通系统状态s_t，即不同交通区域的车辆数输入DDPG的控制策略神经网络中得到边界控制动作a_t，将边界控制动作输入交通路网模型中得到下一时刻的交通系统状态s_t+1，并且返回执行该动作的奖励r_t，将产生的(a_t,s_t,r_t,s_t+1)存储到经验池D₁中；

步骤8：根据产生的(a_t,s_t,r_t,s_t+1)信息，对深度强化学习算法进行正式训练，得到最优的边界控制动作；

步骤8.1：经验池D₁中的信息存满后，从中随机抽取n个样本，进行DDPG算法中控制策略和价值函数神经网络的正式训练；将样本中动作a_t和状态s_t输入价值函数Q(s,a；w)神经网络中得到价值q_t＝Q(s_t,a_t；w)，将状态s_t+1输入控制策略u(s；θ)神经网络中得到动作a′_t+1＝u(s_t+1；θ)，则价值q_t的估计

如下式所示：

其中，q_t表示当前t时刻的价值，a′_t+1表示t+1时刻估计的控制动作，

表示对当前时刻价值q_t的估计，w表示控制策略神经网络的参数，θ表示价值函数神经网络的参数；

对价值函数神经网络的参数w使用梯度下降法进行参数更新，损失函数如下式所示：

其更新后的参数为：

其中α表示学习率；

步骤8.2：使用梯度上升法来更新控制策略网络的参数θ，其梯度如下公式所示：

其更新后的参数为：

其中β表示学习率，/>

表示对s_t求期望，

表示对a_t求梯度，/>

表示对θ求梯度；

步骤9：重复步骤7至步骤8直到控制策略神经网络和价值函数神经网络达到收敛状态；

步骤10：将最后得到的交通区域边界控制比例u(t)转化为区域边界交叉口的绿信比，对交叉口的红绿灯进行控制，调节不同区域内的车流量。

采用上述技术方案所产生的有益效果在于：

本发明提供一种数据驱动与强化学习结合的交通区域边界控制方法，使用数据驱动无模型控制，以往技术大多数是建立在交通系统可以准确建模的基础上进行研究，本方案只是利用交通路网动态模型进行输入和输出数据的采集，此模型并不参与交通控制器的设计，避免交通模型建立不准确所带来的误差；本技术方案，分为两个阶段，第一个阶段使用数据驱动方法来计算边界控制比例，并用得到的结果来对强化学习的参数进行预训练，第二阶段利用预训练完成的深度强化学习算法，进一步对交通环境进行探索，大大减少强化学习训练时间，提高数据利用率，得到最优的边界控制动作；交通数据信息得到充分的利用，在宏观层面均衡不同区域的交通流量，减少交通拥堵，提高交通系统运行效率，提升城市道路服务质量。

附图说明

图1为本发明实施例提供的城市交通区域边界控制的流程图；

图2为本发明实施例提供的DDPG深度强化学习算法的结构图；

图3为本发明实施例提供的城市交通路网区域划分的示例图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

一种数据驱动与强化学习结合的交通区域边界控制方法，如图1所示，具体包括

步骤1：根据城市的交通状态和交通网络结构，将城市划分为若干个交通区域；城市道路网络区域的划分依据人们交通出行的特点、拥堵区域的分布等因素，如图3所示。每个区域的划分形状要保证其规则性和完整性，并且划分的区域不能面积太大，才能更好地进行交通区域之间的边界控制；

步骤2：根据各交通区域的车辆守恒方程与交通系统的宏观基本图MFD，建立城市交通路网动态模型并将其离散化，在城市的交通路网系统中存在着很多的传感器，这些传感器可以实时的检测交通的状态，本技术方案在实际应用中利用这些传感器来检测各个区域的车辆数以及上一时刻的边界控制比例，即交通系统的输入和输出数据；如下公式所示：

n_i(t)＝n_ii(t)+n_ij(t)

n_ij(t+1)＝n_ij(t)+T(d_ij(t)-u_ij(t)M_ij(t))

n_ii(t+1)＝n_ii(t)+T(d_ii(t)+u_ji(t)M_ji(t)-M_ii(t))

其中，P_i(n_i(t))表示交通区域t的宏观基本图函数，M_ij(t)表示车辆从区域i到区域j的转移流量，n_ij(t)表示从区域i到区域j的车辆数，n_i(t)表示区域i内总共行驶的车辆数，d_ij(t)表示从区域i至区域j的交通需求流量，T表示采样周期长度；

步骤3.1：上述交通路网模型只是用于产出输入和输出数据，其并不直接用于边界控制器的设计，则将城市交通路网动态模型描述为MIMO的非线性动态方程，如下公式所示：

n(t+1)＝f(n(t),…,n(t-m₁),u(t),…,u(t-m₂))

n(t+1)＝n(t)+φ(t)Δu(t)

其中μ>0是惩罚因子，其作用为了避免伪雅可比矩阵变化过快，在实际应用中导致交叉口红绿灯的绿信比变化过快，从而避免交通危险的发生；

估计伪雅可比矩阵，如下公式所示：

其中，

步骤4：计算各个交通区域边界控制比例，以此来控制进入不同交通区域车流量，进行交通区域间车辆数量调节，使交通区域车辆分布达到均衡，减少交通拥堵的发生；

J(u(t))＝||n^ref-n(t+1)||²+λξ‖u(t)-u(t-1)‖²

其中，n^ref表示交通区域期望的车辆数向量，n^ref的取值由交通系统的宏观基本图MFD来确定。ξ为归一化的因子，其作用是使目标函数的两项具有相同的数量级。λ>0为惩罚因子，用于限制相邻两个时刻边界控制输入u(t)的剧烈变化，防止造成交通危险；

其中，λ>0为惩罚因子，ρ∈(0,1]为步长因子，式子中ρ使得边界控制算法更具一般性，并且能保证系统的稳定性和收敛性；

步骤5：重复迭代步骤3至步骤4直到控制结束，将每一步得到的区域边界控制比例、交通区域车辆数和交通区域网络平均车流量记录下来，使用记录的信息，对深度强化学习的参数进行初始化，来减少深度强化学习的学习时间，避免深度强化学习盲目大范围进行探索，提高数据利用率，得到最优边界控制动作，提高系统控制性能；

步骤5.1：定义交通系统的状态s_t为t时刻不同交通区域的车辆数，交通系统的控制动作a_t表示t时刻交通区域的边界控制比例向量u(t)，系统的奖励r_t为交通区域网络的平均车流量，当交通区域发生拥堵时将奖励r_t设为负值，以惩罚造成不利影响的控制策略。在状态s_t下执行动作a_t得到奖励r_t，并且系统转移到下一个状态s_t+1，将在数据驱动下计算得到的序列(a_t,s_t,r_t,s_t+1)，t＝0,1,2,…,H-1，记录下来存到经验池D中，其中H代表获得的序列长度；

步骤5.2：利用经验池D中的数据对深度强化学习的参数进行预训练，深度强化学习使用深度确定性策略梯度算法DDPG，如图2所示，DDPG算法的输出为连续动作空间，适用于交通区域边界控制类型的控制系统。该算法是典型的Actor-Critic方法，其中Actor是基于策略的神经网络函数，Critic是基于价值的神经网络函数。利用经验池D对初始的控制策略

神经网络和价值函数/>

和/>

使以下损失函数达到最小：

步骤6：采用预训练参数的深度强化学习，对交通系统环境进行进一步的探索，在深度强化学习正式训练过程中使用∈-greedy探索策略对交通环境进行探索，获得最高的奖励，避免算法陷入局部的最优。∈-greedy探索策略表示有∈概率会随机选择一个未知的边界控制动作执行，剩下有1-∈概率会从已执行过动作中选择价值最大的边界控制动作执行；

如下式所示：

其更新后的参数为：

其中α表示学习率；

其更新后的参数为：

其中β表示学习率，/>

表示对s_t求期望，/>

表示对a_t求梯度，/>

表示对θ求梯度；

步骤10：将最后得到的交通区域边界控制比例u(t)转化为区域边界交叉口的绿信比，并应用到实践中，对交叉口的红绿灯进行控制，调节不同区域内的车流量，减少交通拥堵。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种数据驱动与强化学习结合的交通区域边界控制方法，其特征在于，包括以下步骤：

n_i(t)＝n_ii(t)+n_ij(t)

n_ij(t+1)＝n_ij(t)+T(d_ij(t)-u_ij(t)M_ij(t))

n_ii(t+1)＝n_ii(t)+T(d_ii(t)+u_ji(t)M_ji(t)-M_ii(t))

n(t+1)＝f(n(t)，...，n(t-m₁)，u(t)，...，u(t-m₂))

其中，n(t)代表第t个采样周期内交通区域内的车辆数向量，u(t)代表第t个采样周期内交通区域的边界控制比例向量，即交通系统的控制输入，f(...)表示非线性函数向量，m₁和m₂为非负整数；

n(t+1)＝n(t)+φ(t)Δu(t)

其中μ>0是惩罚因子；

估计伪雅可比矩阵，如下公式所示：

其中，

表示第t个采样周期的伪雅可比矩阵的估计值，Δn(t)＝n(t)-n(t-1)代表交通区域的车辆数变化，u(t-1)代表上一时刻的边界控制比例，即系统的控制输入，η∈(0，1]为步长因子，μ>0是惩罚因子；

J(u(t))＝||n^ref-n(t+1)||²+λξ||u(t)-u(t-1)||²

其中，λ>0为惩罚因子，ρ∈(0，1]为步长因子；

步骤7：将此刻观察到的交通系统状态s_t，即不同交通区域的车辆数输入DDPG的控制策略神经网络中得到边界控制动作a_t，将边界控制动作输入交通路网模型中得到下一时刻的交通系统状态s_t+1，并且返回执行该动作的奖励r_t，将产生的(a_t，s_t，r_t，s_t+1)存储到经验池D₁中；

步骤8：根据产生的(a_t，s_t，r_t，s_t+1)信息，对深度强化学习算法进行正式训练，得到最优的边界控制动作；

2.根据权利要求1所述的一种数据驱动与强化学习结合的交通区域边界控制方法，其特征在于，所述步骤5具体包括以下步骤：

步骤5.1：定义交通系统的状态s_t为t时刻不同交通区域的车辆数，交通系统的控制动作a_t表示t时刻交通区域的边界控制比例向量u(t)，系统的奖励r_t为交通区域网络的平均车流量，当交通区域发生拥堵时将奖励r_t设为负值，在状态s_t下执行动作a_t得到奖励r_t，并且系统转移到下一个状态s_t+1，将在数据驱动下计算得到的序列(a_t，s_t，r_t，s_t+1)，t＝0，1，2，...，H-1，记录下来存到经验池D中，其中H代表获得的序列长度；

神经网络和价值函数/>

和/>

使以下损失函数达到最小：

其中，γ∈[0，1]为折扣因子，D表示经验池，|D|为经验池的大小，θ_m为控制策略神经网络的初始参数，w_m为价值函数神经网络的初始参数，采用随机梯度下降法来进行求解。

3.根据权利要求2所述的一种数据驱动与强化学习结合的交通区域边界控制方法，其特征在于，步骤8具体包括以下步骤：

步骤8.1：经验池D₁中的信息存满后，从中随机抽取n个样本，进行DDPG算法中控制策略和价值函数神经网络的正式训练；将样本中动作a_t和状态s_t输入价值函数Q(s，a；w)神经网络中得到价值q_t＝Q(s_t，a_t；w)，将状态s_t+1输入控制策略u(s；θ)神经网络中得到动作a′_t+1＝u(s_t+1；θ)，则价值q_t的估计

如下式所示：

其更新后的参数为：

其中α表示学习率；

其更新后的参数为：

其中β表示学习率，/>

表示对s_t求期望，/>

表示对a_t求梯度，/>

表示对θ求梯度。