CN114299714B

CN114299714B - 一种基于异策略强化学习的多匝道协调控制方法

Info

Publication number: CN114299714B
Application number: CN202111484299.9A
Authority: CN
Inventors: 韩雨; 高津达; 李玲慧; 刘攀
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-12-27
Anticipated expiration: 2041-12-07
Also published as: CN114299714A

Abstract

本发明公开了一种基于异策略强化学习的匝道协调控制方法，以迭代方式使用离线交通数据训练强化学习智能体，而不是与交通模拟器交互。在每次训练迭代中，收集历史交通流数据并将其输入学习算法以更新控制策略。在迭代初期，当历史交通流数据量较少时，使用宏观交通流模型METANET来生成合成交通流数据。这使强化学习能够探索到可能导致更好的交通性能的新动作。为了保证训练迭代的可行时间，快速道路被分为若干单点控制区域，每个单点控制区域对应于单点匝道控制系统，以保持低维度的状态和动作空间，从而可以充分探索控制动作。随着探索更多的控制动作和利用更多的训练数据，最终得到匝道协调控制的最优策略。

Description

一种基于异策略强化学习的多匝道协调控制方法

技术领域

本发明公开了一种对快速道路多匝道协调控制策略进行控制优化的异策略强化学习方法，属于智能交通技术领域。

背景技术

匝道控制是快速道路上的一种常见的交通管控措施，不仅在文献中进行了广泛的研究，而且在现实生活中也得到了广泛的应用。匝道控制通过防止通行能力下降和排队溢出，进而减少快速道路交通系统中驾驶员的总行程时间。而且，交通系统可以通过改变出行者的路线选择行为而间接地从匝道控制中受益，从而在整个网络中获得理想的交通流量分布。

由于匝道排队的存储容量有限，因此一旦匝道队列长度超过最大允许值，就必须释放排队的车辆，以避免对相邻地面道路交通的干扰，这可能会造成快速道路拥堵。因此，局部匝道控制方法并不总是有效地改善整个交通网络的总体交通性能。为此，匝道协调控制策略通过利用其他匝道上的存储空间，来达到系统最优，同时这些匝道的交通需求也影响目标瓶颈的交通流动态。Papamichail等提出了一种用于匝道协调控制的启发式反馈控制策略，称为HERO，并将其应用于澳大利亚的多个快速道路站点。另外，最优控制方法，例如模型预测控制方法，已经广泛研究以用于协调匝道控制。Han等提出了一种基于宏观基本图模型的协调匝道控制方法，并将其与基于不同交通流模型的几种MPC方法进行了比较。发现预测模型和过程模型之间的不匹配会显着影响系统性能。

近年来，随着人工智能技术的发展，基于强化学习方法已在道路交通控制领域引起了越来越多的关注。对于文献中大多数基于强化学习的交通控制策略，强化学习智能体都是通过与模拟实际交通过程的交通仿真器进行交互的方式反复试验地进行训练的。此训练过程通常需要大量数据，而这可能需要花费很长的时间才能在现实中。此外，由于交通仿真器与实际交通过程之间存在固有的不匹配，因此那些基于强化学习策略的性能很可能会受限于仿真器的准确性。在强化学习等其他应用中，例如机器人技术和游戏，则包含智能体以从已收集的固定数据批次中学习。但是，对于实际的交通控制系统，交通流量是基于预定的控制策略进行控制的。因此，对于有效的训练过程，从现场获得的交通数据可能不够丰富。在有限的交通数据下开发基于强化学习的交通控制策略是一项具有挑战性的工作。

发明内容

技术问题：本发明针对基于强化学习的匝道协调控制策略在实践中存在交通仿真和实际交通环境不匹配，以及能用于训练强化学习智能体的数据量有限的问题，提出一种基于异策略强化学习的匝道协调控制方法，所提出的策略显着地减少交通拥堵，提高交通效率。

技术方案：本发明一种基于异策略强化学习的匝道协调控制方法，该方法包括以下步骤：

步骤10)根据快速道路几何数据，建立启发式匝道协调控制HERO算法，采集应用HERO算法的快速道路历史交通流数据，以及多个匝道信号灯中的历史信号数据；所述历史交通流数据包括交通流量、时间占有率、平均速度和匝道排队长度，将历史交通流数据整合形成历史强化学习数据；

步骤20)根据历史交通流数据，标定宏观交通流模型METANET的参数；

步骤30)将每组历史交通流数据作为METANET的初始状态，扩大强化学习动作空间，产生合成强化学习数据，进而建立包含历史强化学习数据和合成强化学习数据的综合强化学习数据集；

步骤40)利用Q表格方法和综合强化学习数据集，训练强化学习智能体；

步骤50)重复步骤30)和步骤40)迭代训练智能体，直到智能体访问的状态空间满足精度要求，进而得到最优控制策略。

有益效果：本发明与现有技术相比，具有以下优点：

1、使用历史数据来训练强化学习智能体以避免训练环境与实际交通过程之间的不匹配，这种方法不用通过与交通仿真器交互来获取数据训练强化学习智能体，因此能够避免交通仿真器和真实交通过程之间固有存在的差异问题；

2、使用宏观交通流模型合成综合数据集获得可观的数据量，这种方法无需现实中获取智能体训练所需的大量数据，进而节省了在实际交通环境中收集数据所花费的大量时间；

3、这种方法随着探索更多的控制动作和利用更多的训练数据，所提出的带有表格学习算法的匝道协调控制策略提升了交通性能，可以很大程度上减少交通拥堵。

附图说明

图1是本发明的实施流程图；

图2是局部匝道控制的区域划分图；

图3是协调匝道控制的区域划分图。

具体实施方式

下面结合附图进一步详细叙述本发明的技术方案，但本发明的实施和保护不局限于以下所述内容。

本发明的基于异策略强化学习的多匝道协调控制方法，如图1所示，包括以下步骤：

步骤10)根据快速道路几何数据，建立HERO控制算法(启发式匝道协调控制方法)，并在实际快速道路中应用。采集应用HERO算法的快速道路历史交通流数据，以及多个匝道信号灯中的历史信号数据，所述历史交通流数据包括交通流量、时间占有率、平均速度和匝道排队长度，将历史交通流数据整合形成历史强化学习数据。

本实例模拟了提出方法的实施，该方法持续了数周。总的来说，实验包含三个阶段，具体解释如下：1)实验的第一阶段是执行原匝道协调控制策略HERO五个星期(为开始获得更多数据可增大此时间)。在此阶段，我们应用了HERO匝道协调控制策略。这为建议的基于强化学习的匝道控制策略的训练过程提供了初始数据，该策略应用于第二阶段。2)在第二阶段，使用Q表格学习方法迭代训练来更新控制策略。在这个阶段，新的控制动作从离线和在线探索中得到。当真实训练数据量足够丰富时，使用所有历史(真实)数据训练最优策略，并且不再更新。在此阶段中，应用迭代训练的多个匝道智能体来控制匝道红灯时长，当本周期获取的强化学习状态不在Q表中时，应用原控制算法HERO进行交通流控制。实例中选择的道路网络是位于澳大利亚布里斯班地区的一段布鲁斯快速道路。这是一条城市快速路，其特点是交通模式强烈依赖于往返布里斯班市中心的通勤者的需求。HERO匝道协调控制策略已在布鲁斯快速路上实施并投入使用。

HERO匝道协调控制策略的工作原理阐述如下：

对于每个匝道，分别应用ALINEA和PI-ALINE局部匝道控制算法。对于k+1控制周期，ALINEA根据以下等式计算匝道流量q_r(k+1)：

其中，

为道路断面的关键占有率，K_R为调节器参数，o(k)为周期k道路断面的占有率。

对于存在远处下游瓶颈的单点匝道控制系统，已经提出了ALINEA的扩展版本(称为PI-ALINEA)以确保控制器的稳定性：

其中，K_p和K_I均为调节器参数。

此外，采用排队管理策略，避免匝道队列长度超过最大值：

其中，q_n(k)是由队列管理确定的匝道汇入流量(辆/h)，n_max是匝道的最大排队长度(辆)，d_r(k-1)是k-1个控制周期到达匝道的需求流量(辆/h)。

对于每个控制周期，根据对当前匝道队列长度和主流占用率的估计来决定可能的协调动作。对于每个入口匝道，如果排队比率超过某个阈值而相应瓶颈的占用率接近临界密度，则激活其上游入口匝道(从属匝道)的协调。这种激活的原因是，相应的局部匝道协调控制明显处于激活状态，形成的队列可能很快就会达到其最大允许值。从属入口匝道的队列长度将被重新确定，使得两个匝道的队列比率彼此接近，即两个匝道中的相对可用排队存储空间相等：

其中，q_LC(k)为排队控制的匝道汇入率(辆/h)，T为匝道控制周期(s)，n_min为激活协调的排队长度阈值，n_min/n_max为排队比例。

最终的入口匝道流量通过下式计算：

q(k)＝max{min{q_r(k),q_LC(k)},q_n(k)} (5)

步骤20)根据历史交通流数据，标定METANET的参数，建立宏观交通流模型。在METANET模型中，快速道路网络被划分为路段，每个路段具有统一的几何结构。在实验中，可以假设快速道路网络中的路段是根据线圈检测器的位置形成的，每个检测器位于一个路段的中间。第i段的特征在于交通密度ρ_i(t)(辆/km/lane)、平均速度v_i(t)(km/h)和流量f_i(t)(辆/h)，其中t是交通流模型离散时间步长的索引。以下等式描述了快速道路交通随时间的演变。每个路段的流量等于密度乘以平均速度和该路段的车道数(用λ_i表示)：

f_i(t)＝ρ_i(t)v_i(t)λ_i (6)

其中，t是交通流模型离散时间步长的索引，f_i(t)、ρ_i(t)、v_i(t)分别是t时间步长第i个路段的交通流量、交通密度、平均速度，λ_i是第i个路段的车道数。

每个路段的密度遵循车辆守恒定律，表示为：

其中ρ_i(t+1)是t+1时间步长第i个路段的交通密度，T_s是离散时间步长的持续时间，f_i-1(t)是t-1时间步长第i个路段的交通流量，L_i是第i个路段的长度。

t+1时间步长路段i的平均速度取决于t时间步长第i个路段的平均速度、第i-1个路段的车辆流入速度v_i-1(t)和第i+1个路段的下游密度ρ_i+1(t)，表示为：

其中，τ，θ和κ为METANET模型参数。V(ρ_i(t))表示驾驶员试图达到的期望速度，即：

其中，a_m是METANET模型参数，v_free,i是第i个路段的自由流速度，ρ_cr,i为第i个路段流量最大时的关键密度。

为了解释合流现象引起的速度下降，如果有一个入口匝道，那么此项需加入到式(8)的末尾：

当有车道减少时，由于交织现象引起的速度降低表示如下，需加入到式(8)的末尾：

其中，Δλ＝λ_i-λ_i+1是车道减少的数量，φ是METANET模型参数。

快速道路路段的第一段被视为原点，其交通动态由一个简单的队列模型表示：

ω₁(t+1)＝ω₁(t)+T_s(d_o(t)-f₁(t)) (12)

其中，ω₁(t+1)、ω₁(t)分别表示t+1时间步长、t时间步长第1个路段的交通动态，d_o(t)为起点的交通需求，f₁(t)为第1个路段的交通流量。f₁(t)通过下式确定：

其中，第一项是t时间步长的可用交通流量，第二项是通行能力。

对于上游边界条件，假设起始段的速度与第二段的速度相同，因此v₁(t)＝v₂(t)。对于下游边界条件，快速道路路段下游的密度在整个模拟期间始终设置为20(veh/h/lane)。在模拟实验中，T_s设为5(s)。在式(8)中，τ设为18(s)，κ设为40(veh/km/lane)，θ设为30(km²/h)。式(8)中的参数经过校准，其中a_m＝2.55，v_free＝88.48(km/h)，ρ_cr＝36.09(veh/km/lane)。这些参数的值对于所有路段都是相同的。代表合流和车道减少的参数也被校准。在式(10)中，δ＝1.07，在式中，φ＝2.14。

步骤30)将每组历史交通流数据作为METANET模型的初始状态，扩大强化学习动作空间，产生合成强化学习数据，进而建立包含历史强化学习数据和合成强化学习数据的综合强化学习数据集。

应用于匝道协调控制系统所需要的强化学习状态动作空间较大，其状态和动作变量的增加给强化学习系统带来了挑战，因为系统需要成倍数量的数据来训练强化学习智能体，而实际上可能需要非常长的时间来收集这些数据，并需要更多的计算资源来找到最佳策略。为解决此困难，快速道路被分为几个区域，每个区域对应于单点匝道控制系统，如图2所示。具体来说，每个区域都包含合流区上下游的快速道路路段。如果单点匝道控制系统中出现遥远的下游瓶颈，也包括瓶颈下游的部分。每个单点匝道控制区域又分为上游路段U，合流路段M和下游路段D，如图3所示。

协调控制方法包含上下两层：在上层控制中，状态定义为：

其中，

和

分别是k个控制周期快速道路网络中每个区域的平均流量和平均速度的向量，

是所有入口匝道的队列长度向量。

上层动作a_upper(k)是一个二元变量向量，每个二元变量代表一个入口匝道的有控/无控(1/0)。上层奖励r_upper(k)是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量。

协调控制系统的下层有多个子单点匝道控制系统。每个单点匝道控制系统都会优化入口匝道的信号时序。对于单点匝道控制系统j，状态定义为，

其中，j是单点匝道控制匝道系统的索引；F_U,j(k)和V_U,j(k)分别是为单点匝道控制系统j上游路段的平均流量和平均速度；o_BN,j(k)是单点匝道控制系统j瓶颈区域的占有率；n_j+1(k)是单点匝道控制系统j的状态变量包含其下游入口匝道的队列长度；单点匝道控制系统的总数表示为J，对于属于最下游单点匝道控制系统的入口匝道，即j＝J；γ_j(k-1)是上一周期匝道信号灯的绿灯或红灯时长。

在上层，强化学习智能体优化快速道路网络中所有入口匝道的激活方案，在下层，每个强化学习智能体优化入口匝道的信号时序。在基于强化学习的协调匝道控制系统中，对应于每个学习智能体，有多个训练数据集和强化学习状态数据集。对于每个数据切片，提取所有强化学习智能体的状态并将其添加到强化学习状态数据集。具体来说，直接将上层强化学习智能体的状态加入到对应的强化学习状态数据集中。此状态用作下层强化学习智能体状态的标签。因此，将每个下层智能体的强化学习状态添加到由上层强化学习状态标记的状态数据集中。这样，上层强化学习状态可以对应下层强化学习智能体的多个状态，因为上层RL代理的状态变量是聚合的交通状态(例如，一个区域的平均流量和速度)，而下层代理的状态更具体。对于上层控制和下层控制的动作探索，若上层状态对应的动作均为0(无控)，下层控制动作不再进行探索；若上层状态存在1(有控)，则相应的下层匝道控制动作需遍历最小绿灯时长到最大绿灯时长的整数控制动作，如果存在多个匝道需控制，则不同匝道动作探索需进行组合。对于一个强化学习数据切片，所有可行的控制动作被枚举并输入到交通流模型中，以预测交通流动态。对于某个数据切片，如果上层智能体的合成强化学习状态在强化学习状态数据集中，则合成训练数据切片被添加到训练数据集中。对于这个数据切片，下层强化学习智能体的合成训练数据切片也被添加到相应的训练数据集中。下层智能体的合成强化学习状态，可能不存在于对应的下层强化学习状态数据集中。在这种情况下，对于所有在下层状态中用上层状态标记的强化学习状态，与合成状态偏差最小的状态被选中并添加到合成训练数据切片中。状态之间的偏差由所有归一化状态变量的均方根偏差的总和计算。

步骤40)利用Q表格学习方法和综合数据集训练强化学习智能体。强化学习智能体按照如下设置：强化学习主要有三个参数：状态、动作和奖励。在本实验中，上层控制的状态为：快速道路网络中每个区域的平均流量和平均速度，以及所有入口匝道的队列长度向量。动作是一个二元变量，每个二元变量代表一个入口匝道的激活/不激活(1/0)。奖励是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量。下层控制的状态为：最上游路段U的平均流量和平均速度，瓶颈处下游检测器的时间占有率，入口匝道的排队长度和上一个控制周期中的红灯时间。动作被定义为本次控制周期中红灯时间。假设周期长度是固定的。奖励是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量。在提出的协调匝道计量方法中，上层强化学习智能体的状态空间远大于局部匝道控制强化学习智能体的状态空间，因为前者包含更多状态变量。为了在可行的时间内收集足够的训练数据，为上层智能体的状态变量设置了更大的离散间隔。流量、速度和排队长度变量的离散间隔分别设置为200(veh/h/lane)、20(km/h)和20(veh)。对于下层智能体，这些变量的离散间隔分别设置为100(veh/h/lane)、10(km/h)和10(veh)。

本实例的最终目的是使每个时间段的路网系统总流出量达到最大，由此使用时间差分学习来估计最优价值函数Q。Q值Q(s,a)存储状态-动作对的值，并根据式(16)进行更新：

其中，r是在动作a下从当前状态s转换到新状态s′得到的奖励；a′表示在状态s′选择的动作；κ_(s,a)是控制Q值改变速度的学习率。

步骤50)重复步骤30)和步骤40)迭代训练智能体，直到智能体访问的状态空间满足精度要求，进而得到基于所有历史数据的最优策略。状态空间的精度可设为0.95。

本发明还提供一种基于异策略强化学习的匝道协调控制装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的基于异策略强化学习的匝道协调控制方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于异策略强化学习的匝道协调控制方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于异策略强化学习的匝道协调控制方法，其特征在于，该方法包括以下步骤：

步骤50)重复步骤30)和步骤40)迭代训练智能体，直到智能体访问的状态空间满足精度要求，进而得到最优控制策略；

其中，在强化学习智能体状态空间和动作空间不足的情况下，通过METANET模拟交通状态，扩大强化学习动作区间，对于一个包含[本周期状态，动作，下一周期状态，奖励值]的数据切片，列举所有可能的动作并将其输入到METANET中来预测下一时间步的交通动态；

快速道路被分为若干单点控制区域，每个单点控制区域对应于单点匝道控制系统，每个单点控制区域都包含合流区上下游的快速道路路段；每个单点控制区域又分为上游路段U，合流路段M和下游路段D；如果单点匝道控制系统中出现超出设定距离的下游瓶颈，那么对应单点控制区域还包括瓶颈下游；

所述控制方法分为上、下两层：

上层控制的状态为快速道路网络中每个单点控制区域的平均流量和平均速度，以及所有入口匝道的队列长度向量；动作是一个二元变量向量，每个二元变量代表一个入口匝道的激活或不激活，用1或0表示；奖励是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量；

下层控制的状态为上游路段U的平均流量和平均速度，瓶颈处下游检测器的时间占有率，入口匝道的排队长度和上一个控制周期中的红灯时间；动作为本次控制周期中红灯时间；奖励是快速道路网络的总流出量，包括所有出口匝道的流出量和下游流出量。

2.根据权利要求1所述的基于异策略强化学习的匝道协调控制方法，其特征在于，Q表格根据以下公式进行更新：

式中，Q(s,a)为当前状态s采取动作a对应的Q值；Q(s′,a′)为下一个状态s′采取动作a′对应的Q值；r为当前状态动作下对应的奖励，a′为状态s′对应的可行动作，κ_(s,a)为学习率。

3.一种基于异策略强化学习的匝道协调控制装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1或2所述的基于异策略强化学习的匝道协调控制方法的步骤。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的基于异策略强化学习的匝道协调控制方法的步骤。