CN114913684B

CN114913684B - 一种融合多模型与数据驱动的瓶颈路段交通流控制方法

Info

Publication number: CN114913684B
Application number: CN202210458554.0A
Authority: CN
Inventors: 李志斌; 李戈阳; 黎萌; 秦思行
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2023-05-26
Anticipated expiration: 2042-04-24
Also published as: CN114913684A

Abstract

本发明公开了一种融合多模型与数据驱动的瓶颈路段交通流控制方法，在高速公路常发孤立瓶颈路段架设检测设备用于采集实时交通流数据并在瓶颈上游设置信息板发布可变限速信息。设置适应值函数来挖掘控制效果最优的积分参数K_I和微分参数K_D。训练强化学习智能体接收实时交通流数据和优化后的PID参数K_I、K_D，生成最优的比例参数K_P。当发生交通拥堵时，将拥堵信息反馈至PID控制器，基于K_P、K_I和K_D值组成关键控制参数生成路段限速值，通过信息板调整高速公路内各区段车速。本发明有效提高高速公路瓶颈路段可变限速控制系统的鲁棒性，对于快速缓解交通拥堵，改善通行能力以及提高控制系统在突发状况下的有效性具有重要作用。

Description

一种融合多模型与数据驱动的瓶颈路段交通流控制方法

技术领域

本发明属于智能交通技术领域，特别是涉及到一种融合多模型与数据驱动的瓶颈路段交通流控制方法、

背景技术

随着机动车保有量的不断增加，如何使有限的高速公路资源得到充分利用成为了亟需解决的难题。当前，主动交通管控技术的发展为提高高速公路的通行效率做出了重要贡献。可变限速控制作为主动交通管控技术的一种已经被广泛应用到高速公路上，当高速公路上交通流出现拥堵时，可变限速控制技术基于一定控制策略自动调整当前限速值，并通过可变情报板将限速信息实时发布给道路使用者，从而实现对高速公路交通流的主动干预，以达到改善交通流运行效率、缓解交通拥堵、提升行车安全等目的。

近年来有越来越多的针对高速公路瓶颈路段可变限速的研究，现有的大部分可变限速控制方法是通过在瓶颈上游路段处安装可变情报板对限速值进行调整，从而达到减少拥堵和通行能力的下降以及提高通行效率的目的。但是上游控制路段采取的行为对下游瓶颈路段所存在的时间迟滞效应使得可变限速控制效果降低，虽然PID控制能够一定程度上解决迟滞性，但传统的PID控制参数的确定依赖专家经验，控制效果具有主观随意性。因此如何针对波动性大的交通流状况做出精准快速且有效的限速调整从而得到一个适应性广、抗干扰性强的可变限速控制系统是值得关注的重点。

通行能力较小且波动性较大的下游路段是制约高速公路通行能力的一个重要因素，且上游路段的限速行为对下游瓶颈路段的作用的迟滞性也会进一步影响通行能力，严重的甚至会引发交通拥堵。虽然PID算法与可变限速的结合对解决高速公路瓶颈路段的拥堵有一定的帮助，但是由于PID算法的结构与参数比较固定，不能根据实时的交通流状况变化对限速值进行及时的调整，对高速公路瓶颈路段的拥堵排队响应慢

发明内容

为了解决上述背景技术提到的技术问题，本发明提出一种融合多模型与数据驱动的瓶颈路段交通流控制方法，引入改进粒子群算法迅速寻找全局最优的PID参数K_I、K_D达到减少超调和快速收敛的目的，在此基础上，结合强化学习训练智能体学习到一套在高速公路各种交通流状况下能够根据输入与实际输出的偏差对PID参数K_P进行快速精准调优的策略。

为了实现上述技术目的，本发明的技术方案为：

一种融合多模型与数据驱动的瓶颈路段交通流控制方法，包括以下步骤：

步骤一：对高速公路进行路段划分，在具有瓶颈路段的高速公路上布设雷视一体化检测设备实时测量高速公路各路段的交通数据，具体包括交通流占有率、车辆加速度、车辆平均速度和平均车头时距，将这些数据传输至PID控制器，计算高速公路多目标通行指标Y,并在高速公路瓶颈上游控制区域设置可变情报信息板；

步骤二：基于改进粒子群算法，利用粒子对PID控制器中的积分参数K_I和微分参数K_D依次赋值，针对不同拥堵等级调整动态惯性权重从而更新粒子的速度和位置，并根据设置的满足高速公路可变限速系统快速响应特性和超调小需求的适应值函数来找到粒子群中适应度最佳的粒子所对应的K_I和K_D参数；

步骤三：使用深度确定性策略梯度DDPG强化学习算法，根据步骤二所得优化后的PID参数K_I和K_D以及雷视一体化检测设备采集的高速公路各路段的交通流占有率和平均车头时距作为状态空间的输入；根据高速公路各路段车辆执行限速值的滞后时间以及天气条件参数设置动作空间以增加PID比例参数K_P的探索度，通过与高速公路可变限速环境的交互以及奖励函数的引导使得智能体学习到在高速公路各种交通流状况下能够对PID参数K_P进行调优的策略；

步骤四：当发生交通拥堵时，将拥堵信息反馈至PID控制器，基于改进粒子群算法和强化学习融合调参后的PID控制参数K_P、K_I、K_D组合成控制项并通过预期高速公路多目标通行指标与实际高速公路多目标通行指标的误差e_Y(k)来计算路段限速值，通过可变情报信息板调整k时刻高速公路内各区段车速v(k)。

优选地，步骤二所述不同拥堵等级的具体划分如下:

当满足o_a>30％且v_a<80km/h时为一级拥堵；当满足o_a>30％且v_a<70km/h时为二级拥堵；其中，o_a为高速公路各路段实时交通流占有率，v_a为检测到的高速公路各路段实时速度。

优选地，步骤二所述改进粒子群算法中动态惯性权重w_d设置为；

式中，T_now是当前迭代次数，T_max是最大迭代次数，w_start是初始权重，w_end是终止权重；当满足一级拥堵等级时，λ>1；当满足二级拥堵等级时，λ＝1；在拥堵严重时，增加惯性权重扩大粒子的探寻范围以获取全局最优值。

优选地，所述步骤四中v(k)由如下公式确定：

式中，Y是高速公路多目标通行指标；

为k时刻预期要达到的高速公路多目标通行指标，

Y_vsl(k)为k时刻实际的高速公路多目标通行指标，ε是高速公路拥堵等级，t是高速公路控制周期，q是各路段交通流量，d是各路段交通流密度，o是各路段交通流占有率，l是各路段排队长度。

优选地，所述步骤三中利用强化学习对PID参数K_P进行调参优化步骤如下：(1)对强化学习方法所涉及的状态空间进行设置，将高速公路路段划分成3个区域，分别为可变限速控制区域、过渡区域以及下游瓶颈路段区域；基于此，强化学习状态输入为s＝[适应度最佳粒子所对应的K_I参数，适应度最佳粒子所对应的K_D参数，o₁＝可变限速控制区域的交通流占有率，o₂＝过渡区域的交通流占有率，o₃＝下游瓶颈路段区域的交通流占有率,l₁＝可变限速控制区域的平均车头时距，l₂＝过渡区域的平均车头时距，l₃＝下游瓶颈路段区域的平均车头时距]；

(2)对强化学习方法所涉及的动作空间进行设置，设定优化约束如下：

其中，T和V与路况、车况、天气条件有关，并且是随时间不断变化的，V表示控制区域内所有车辆速度的加权平均值，T表示控制区域内车辆执行路段限速值的滞后时间，T和V由如下公式确定：

其中V_i ^a表示控制区域内车辆i的实际速度，V_i ^u表示控制区域内车辆i的所需执行的限速值，n表示控制区域内的所有车辆数，T_i是控制区域内车辆驾驶员的反应时间和制动时间，ε_i是车辆i受到来自外界因素的干扰因素，如果车辆不受干扰地行驶ε_i取0，否则ε_i视情况取0.1-0.3；

(3)对强化学习所涉及的奖励函数进行设置，引导智能体训练出根据不同的交通流状态得到更适合的K_P参数，奖励函数为：

R＝-10*e_Y(k)-l

其中，e_Y(k)是k时刻预期要达到的高速公路通行指标与实际高速公路通行指标的差值，l是各路段排队长度。

采用上述技术方案带来的有益效果：

本发明是针对具有瓶颈路段的高速公路的可变限速控制，一种融合多模型与数据驱动的优化方法用于解决具有迟滞性、非线性的控制系统的PID参数整定繁琐、抗干扰性差等问题，可以实现精准快速整定和优化控制器参数。通过在高速公路上等距离布设雷视一体化检测设备所获得的交通流信息，对高速公路拥堵状况进行研判，基于智能体在各种交通流状况下所学习到的一套在高速公路各种交通流状况下能够根据输入与实际输出的偏差对PID参数K_P进行快速精准调优的策略，同时引入粒子群算法迅速寻找全局最优的PID参数K_I、K_D。这种多技术融合调参的方法能够克服根据专家经验确定PID参数的主观随意性，增强在一些极端条件下控制系统对交通流的限速控制的有效性，既能减少超调快速响应高速公路可变限速的需求又极大增强了整个控制系统的抗干扰性，实现对根据高速公路实际的通行能力和拥堵情况进行有效的实时反馈调节。融合优化后的智能PID控制器通过可变情报板实时发布路段限速值，控制车辆进入高速公路的车流量，这对于快速缓解交通拥堵，改善通行能力以及提高控制系统在突发状况下的有效性具有重要作用。

附图说明

图1是本发明的高速公路瓶颈路段的可变限速控制流程图；

图2是本发明的改进粒子群算法优化PID参数K_I、K_D示意图；

图3是本发明的强化学习优化PID参数K_P示意图；

图4是本发明的结合改进粒子群算法和强化学习融合调参的PID可变限速控制器结构图；

图5是本发明的雷视一体化检测设备和可变情报信息板的设置方法示意图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示的一种融合多模型与数据驱动的瓶颈路段交通流控制方法，包括如下步骤：

步骤一：对高速公路常发孤立瓶颈路段进行划分，设置雷视一体化检测设备实时测量高速公路各路段的交通数据，计算高速公路多目标通行指标Y,并在高速公路瓶颈上游控制区域设置可变情报信息板。

步骤二：基于改进粒子群算法，利用粒子对PID控制器中的积分参数K_I和微分参数K_D依次赋值，针对不同拥堵等级调整惯性权重从而更新粒子的速度和位置，并根据设置的满足高速公路可变限速系统快速响应特性和超调小需求的适应值函数来找到粒子群中适应度最佳的粒子所对应的K_I、K_D参数。动态惯性权重w_d可以设置为：

式中，T_now是当前迭代次数，T_max是最大迭代次数，w_start是初始权重，w_end是终止权重；当满足一级拥堵等级时，λ>1；当满足二级拥堵等级时，λ＝1。在拥堵严重时，增加惯性权重扩大粒子的探寻范围以获取全局最优值。

步骤三：使用深度确定性策略梯度(DDPG)强化学习算法，根据步骤二所得优化后的PID参数K_I、K_D以及雷视一体化检测设备采集的高速公路各路段的交通流占有率、车头时距作为状态空间的输入；根据高速公路各路段车辆执行限速值的滞后时间以及天气条件等参数设置灵活且较大范围的动作空间以增加PID比例参数K_P的探索度。通过与高速公路可变限速环境的交互，在奖励函数的引导下使得智能体学习到一套在高速公路各种交通流状况下能够对PID参数K_P进行快速精准调优的策略。

步骤四：当发生交通拥堵时，将拥堵信息反馈至PID控制器，基于改进粒子群算法和强化学习融合调参后的PID控制参数K_P、K_I、K_D组合成控制项并通过预期高速公路多目标通行指标与实际高速公路多目标通行指标的误差e_Y(k)来计算路段限速值，通过可变情报信息板调整k时刻高速公路内各区段车速v(k)。v(k)由如下公式确定：

/>

式中，Y是高速公路多目标通行指标，ε是高速公路拥堵等级，t是高速公路控制周期，q是各路段交通流量，d是各路段交通流密度，o是各路段交通流占有率，l是各路段排队长度。

实施例:

所述步骤一中确定高速公路瓶颈路段以及可变限速控制范围，布设雷视一体化检测设备获取高速公路交通流数据，具体包括：

a1、如图5所示在具有瓶颈路段的高速公路上布设雷视一体化检测设备，并对高速公路进行路段划分，每个路段的划分间隔为1km，并按照从上游到下游的方向对各路段编号为i＝1,2,3,…,每个路段均需布设雷视一体化检测设备。

a2、将雷视一体化检测设备检测到的各个路段的交通流占有率、车辆加速度、车辆平均速度和平均车头时距等数据通过无线传输设备输入至PID控制器。

如图2所示，步骤二中所述的利用改进粒子群算法对PID参数K_I、K_D进行调参优化具体包括:

a1、设置粒子群位置X_i＝(x_i1,x_i2),i＝1,2,……,N,特别地，每个粒子位置由两个优化变量组成，分别为PID控制器的积分参数K_I和微分参数K_D，N为种群粒子数量。

a2、为了满足高速公路可变限速系统响应快和合理限速的特点，并尽可能降低系统超调，将适应值函数设置为:

其中，v(k)是系统的输出信号，e_Y(k)是系统的误差信号，ε₁～ε₂是权重系数

o是高速公路各路段交通流占有率均值，T_max粒子群算法的最大迭代次数，式中第二项是为了防止超调。

a3、在适应值函数的引导下各粒子在每一维度范围内进行寻优，从而更新个体极值和全局最优值，改进的粒子群算法基于不同拥堵状态下对粒子的位置和速度进行更新。改进的更新公式如下所示：

a4、若计算出的适应值收敛或者达到设定的最大迭代次数，则算法结束并将最终的全局最优值所对应粒子的K_I、K_D作为最佳控制参数输出，否则返回到第二步重新计算直到输出最佳的K_I、K_D参数为止。

可选地，在python中利用粒子群算法对PID参数K_I、K_D依次赋值并求取优化后的PID参数K_I、K_D。

如图3所示，所述步骤三中利用强化学习对PID参数K_P进行调参优化具体包括:

a1、对强化学习方法所涉及的状态空间进行设置，将高速公路路段划分成3个区域，分别为可变限速控制区域、过渡区域以及下游瓶颈路段区域。基于此，强化学习状态输入为s＝[适应度最佳粒子所对应的K_I参数，适应度最佳粒子所对应的K_D参数，o₁＝可变限速控制区域的交通流占有率，o₂＝过渡区域的交通流占有率，o₃＝下游瓶颈路段区域的交通流占有率,l₁＝可变限速控制区域的平均车头时距，l₂＝过渡区域的平均车头时距，l₃＝下游瓶颈路段区域的平均车头时距]。

a2、对强化学习方法所涉及的动作空间进行设置，在智能体学到一个成熟的优化策略前，考虑到整个优化系统性能实际可行性，根据经验人为设定优化约束如下：

特别地，当a_P过大时，在优化过程中需要对动作空间进行修剪，将其限制在15以内。

其中，T和V与路况、车况、天气条件等条件有关，并且是随时间不断变化的，V表示控制区域内所有车辆速度的加权平均值，T表示控制区域内车辆执行路段限速值的滞后时间，T、K由如下公式确定：

其中，其中a_i表示控制区域内车辆i的实际速度，u_i表示控制区域内车辆i的所需执行的限速值，n表示控制区域内的所有车辆数，T_i是控制区域内车辆驾驶员的反应时间和制动时间，驾驶员的反应时间和车辆的制动性能无关，一般为0.4-1s,车辆的制动响应时间为0.3-0.6s,ε_i是车辆i受到来自外界因素的干扰因素，例如恶劣天气和交通事故等,如果车辆不受干扰地行驶ε取0，否则ε视情况取0.1-0.3。

a3、对强化学习所涉及的奖励函数进行设置，引导智能体训练出根据不同的交通流状态迅速得到更适合的K_P参数，奖励函数为：

R＝-10*e_Y(k)-l

步骤三中，可选地，强化学习的交互训练过程在仿真平台sumo上进行。在仿真平台上初始化高速公路可变限速环境，包括车道数，瓶颈设置，车道长度，车流量，车辆速度等，并布设检测设备和可变情报板。开始限速仿真后基当前交通状态选择K_P的值，获取奖励值，并更新神经网络参数。在sumo中多回合重复仿真训练，直到最后收敛到一个比较理想且稳定的情况。

如图4所示，所述步骤四中结合改进粒子群算法和强化学习融合调参的PID控制器的搭建具体包括:

a1、检测设备实时获取各路段的交通流数据，当满足o_a>30％且v_a<80km/h,则该路段发生交通拥堵，并进一步判别拥堵等级；否则继续监视。

其中，o_a为高速公路各路段实时交通流占有率，v_a为检测到的高速公路各路段实时速度。

a2、将出现的拥堵排队信息迅速反馈至PID控制平台，利用改进粒子群算法和强化学习算法融合调参后的PID参数组成控制项，计算出当前路段的限速值以控制进入瓶颈路段的车流量。

a3、通过无线传输设备将v值传输给可变情报板并发布信息:“驾驶员请注意，当前的限速值为v”。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种融合多模型与数据驱动的瓶颈路段交通流控制方法，其特征在于，包括以下步骤：

步骤二：基于改进粒子群算法，利用粒子对PID控制器中的积分参数K_I和微分参数K_D依次赋值，针对不同拥堵等级调整动态惯性权重从而更新粒子的速度和位置，并根据设置的满足高速公路可变限速系统快速响应特性和超调小需求的适应值函数来找到粒子群中适应度最佳的粒子所对应的K_I和K_D参数；步骤二所述不同拥堵等级的具体划分如下:

当满足o_a>30％且v_a<80km/h时为一级拥堵；当满足o_a>30％且v_a<70km/h时为二级拥堵；其中，o_a为高速公路各路段实时交通流占有率，v_a为检测到的高速公路各路段实时速度；

步骤二所述改进粒子群算法中动态惯性权重w_d设置为；

式中，T_now是当前迭代次数，T_max是最大迭代次数，w_start是初始权重，w_end是终止权重；当满足一级拥堵等级时，λ>1；当满足二级拥堵等级时，λ＝1；在拥堵严重时，增加惯性权重扩大粒子的探寻范围以获取全局最优值；

步骤三：使用深度确定性策略梯度DDPG强化学习算法，根据步骤二所得优化后的PID参数K_I和K_D以及雷视一体化检测设备采集的高速公路各路段的交通流占有率和平均车头时距作为状态空间的输入；根据高速公路各路段车辆执行限速值的滞后时间以及天气条件参数设置动作空间以增加PID比例参数K_P的探索度，通过设计的奖励函数的引导使得强化学习智能体学习到在高速公路不同交通流状况下能够对PID参数K_P进行调优的策略；所述步骤三中利用强化学习对PID参数K_P进行调参优化步骤如下：

(1)对强化学习方法所涉及的状态空间进行设置，将高速公路路段划分成3个区域，分别为可变限速控制区域、过渡区域以及下游瓶颈路段区域；基于此，强化学习状态输入为s＝[适应度最佳粒子所对应的K_I参数，适应度最佳粒子所对应的K_D参数，o₁＝可变限速控制区域的交通流占有率，o₂＝过渡区域的交通流占有率，o₃＝下游瓶颈路段区域的交通流占有率,l₁＝可变限速控制区域的平均车头时距，l₂＝过渡区域的平均车头时距，l₃＝下游瓶颈路段区域的平均车头时距]；

/>

其中

表示控制区域内车辆i的实际速度，/>

表示控制区域内车辆i的所需执行的限速值，n表示控制区域内的所有车辆数，T_i是控制区域内车辆驾驶员的反应时间和制动时间，ε_i是车辆i受到来自外界因素的干扰因素，如果车辆不受干扰地行驶ε_i取0，否则ε_i视情况取0.1-0.3；

R＝-10*e_Y(k)-l

其中，e_Y(k)是k时刻预期要达到的高速公路通行指标与实际高速公路通行指标的差值，l是各路段排队长度；

步骤四：当发生交通拥堵时，将拥堵信息反馈至PID控制器，基于改进粒子群算法和强化学习调参后的PID控制参数K_P、K_I、K_D组合成控制项并通过预期高速公路多目标通行指标与实际高速公路多目标通行指标的误差e_Y(k)来计算路段限速值，通过可变情报信息板调整k时刻高速公路内各区段车速v(k)；所述步骤四中v(k)由如下公式确定：

式中，Y是高速公路多目标通行指标；

为k时刻预期要达到的高速公路多目标通行指标，Y_vsl(k)为k时刻实际的高速公路多目标通行指标，ε是高速公路拥堵等级，t是高速公路控制周期，q是各路段交通流量，d是各路段交通流密度，o是各路段交通流占有率，l是各路段排队长度。/>