CN114141029B

CN114141029B - 基于线下强化学习与宏观模型的匝道控制方法

Info

Publication number: CN114141029B
Application number: CN202111412067.2A
Authority: CN
Inventors: 韩雨; 李玲慧; 高津达; 刘攀
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2022-11-18
Anticipated expiration: 2041-11-25
Also published as: CN114141029A

Abstract

本发明公开了一种基于线下强化学习与宏观模型的匝道控制方法，包括：获取高速公路几何参数，道路交通数据以及控制信息，建立并标定宏观交通流模型；基于宏观交通流模型中生成合成强化学习数据，与历史数据混合获得强化学习数据集；进行线下强化学习：更新策略进行线上控制并采集道路交通数据以及控制信息；重复上述步骤迭代训练。本发明提出的既避免了通过微观仿真平台与实际交通条件的固有不匹配所带来的系统误差，也避免了完全线下学习的收敛问题，同时宏观交通模型提高了强化学习动作探索的效率，解决了实际环境中数据有限的问题，最终方案很大程度避免了交通拥堵，提高了交通运行的效率。

Description

基于线下强化学习与宏观模型的匝道控制方法

技术领域

本发明属于智能交通控制领域，涉及一种基于线下强化学习与宏观模型的匝道控制方法。

背景技术

强化学习技术在交通控制领域尤其是匝道控制中得到了广泛的探索。但目前的研究大多依赖以微观仿真平台以实现线上的探索和学习，对数据量要求极高。这使得强化学习很难应用到实际的交通控制中，而微观仿真与实际交通条件的区别也会使基于强化学习的匝道控制效果大打折扣。而完全的线下强化学习则很难收敛，同时通过固定策略获得的数据很难满足强化学习对状态和动作多样性的要求。

发明内容

技术问题：本发明提供一种能够在线上探索、宏观模型辅助以及线下强化学习的迭代中不断优化，能在有限的数据和学习周期内达到较好的效果的匝道控制方法。

技术方案：本发明的基于线下强化学习与宏观模型的匝道控制方法，包括以下步骤：

步骤10)获取高速公路几何参数，基于原有的控制策略进行匝道控制，获取每个控制周期的道路交通数据以及匝道控制信息，建立并标定宏观交通流模型；所述高速公路几何参数包括车道数和检测器间距，所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度，所述匝道控制信息为在定周期情况下匝道控制的红灯时长；

步骤20)在一个数据采集周期后，根据所采集的交通流量、平均速度、交通密度以及匝道控制信息，在宏观交通流模型中生成若干的合成强化学习数据，与该数据采集周期所采集的数据混合获得强化学习数据集；

步骤30)根据强化学习数据集，基于Q学习进行线下强化学习：

首先，获取相邻的状态，以及对应的动作和奖励，如果任一状态不在Q表中，则在Q表中增加该状态，根据相应的动作、奖励以及下一个状态的Q值，更新状态的Q值；其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定，动作定义为当前控制周期的红灯时长，奖励为当前控制周期路网总的输出流量；

步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息：如果实时交通状态已经在强化学习算法中被访问，则采取步骤30)的强化学习算法对应的最优动作控制，反之采取步骤10)的高速公路原有的控制策略。

步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体，直到智能体访问的状态空间满足精度要求。

进一步的，本发明方法中，步骤10)和40)按照如下方式获取交通数据：

在高速公路以及匝道上，均布设有电磁感应线圈作为检测器，相邻两个电磁感应线圈的距离在500米到1500米之间；电磁感应线圈均布设在道路截面的所有车道上。

进一步的，本发明方法中，步骤10)按照如下方式建立并标定宏观交通流模型：在宏观交通流模型中，高速公路网络被划分为若干段，每一段的特征为每个用于标定的离散时间步长，即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。

进一步的，本发明方法中，步骤20)通过以下流程获取强化学习数据：

首先，以一个数据采集周期所采集的道路交通数据以及匝道控制信息作为真实强化学习状态数据集；随后，根据真实强化学习状态数据集中的交通流量、平均速度、交通密度以及匝道控制信息，在已经标定的宏观交通模型进一步生成合成强化学习数据，加入真实强化学习状态数据集构成强化学习数据集；其中强化学习数据集中的一条训练数据是一组状态转换数据，即[当前状态，动作，奖励，下一状态]。

合成数据的生成流程如下所述：在每个训练周期内，对于每个一组状态转换数据，除了已实施的动作，所有有限的可行的控制动作被列举出来。一组状态转换数据对应的交通状况与新列举的可行的控制动作逐个输入宏观交通流模型，预测下一步的交通状态并记录对应的奖励。如果预测的下一步的交通状态存在于前述的真实强化学习状态数据集中，则将该组状态转换数据的交通状况对应的强化学习状态，该控制动作对应奖励和宏观交通流模型预测的下一步的交通状态对应的强化学习状态作为一条合成强化学习数据。

进一步的，本发明方法中，步骤20)根据如下标准确定合成强化学习数据的数量：

假设强化学习数据集中真实数据的比率的比例随着迭代次数的增加而增加，我们使用以下函数来确定在第w次迭代中真实数据的比例：

η＝θ₁+exp(-θ₂·w)

其中θ₁和θ₂是该函数的参数，根据计算最初与迭代最终的真实数据比率确定。而在每次迭代中，合成数据的数量由η决定，多余的合成训练数据被丢弃。

有益效果：本发明与现有技术相比，具有以下优点：

通过线上线下迭代的方式进行学习，既避免了通过微观仿真平台与实际交通条件的固有不匹配所带来的系统误差，也避免了完全线下学习的收敛问题。宏观交通模型为强化学习提供了新的动作探索的途径，解决了实际环境中数据有限的问题，提高了学习效率，保证了控制效果。最终的控制方案与原有方案相比，更好地控制了交通拥堵，提高了交通运行的效率。

附图说明

图1是本发明的流程框图；

图2是本发明实施例的路网结构与检测器布设图；

图3是本发明实施例迭代过程中的真实数据比率的演变图；

图4是本发明实施例迭代过程中以及最终方案的总行程时间与PI-ALINEA以及无控制方案的总行程时间的对比图。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。

在一个实施例中，如图1所示，提供了一种基于线下强化学习与宏观模型的匝道控制方法，包括以下步骤：

本实例中，基于真实的高速公路路段在SUMO中搭建微观仿真作为测试平台。实验所用路段为位于澳大利亚布里斯班地区的布鲁斯高速公路从北到南方向的一部分。实验路段包括与Anzac大街相连的上下匝道，该匝道目前的控制策略为PI-ALINEA。该路段全长约5千米，主线三车道，交织区直到匝道影响区下游1千米四车道。主线每隔400-700米设有交通流检测器，共设有11个检测器。这些检测器每20秒(一个控制周期)返回当前步长内的交通流量、平均速度以及检测器的时间占有率。图2给出了道路结构以及检测器的具体位置。

该阶段数据采集时长设为五周，且只采集工作日(周一到周五)的早高峰时段(6：00-9：00)的数据。

基于PI-ALINEA策略，第k+1个周期的匝道汇入率q_r(k+1)(辆/h)，按下式计算：

其中q_r(k)为第k个周期的匝道汇入率，K_p和K_I均为调节器参数，

为临界占有率，o(k)、o(k-1)分别为第k、k-1个周期的时间占有率；实验中设置K_p＝70[veh/h],K_I＝4[veh/h],

此外，采用排队管理策略，避免匝道排队溢出问题：

其中，q_n(k+1)是由排队管理策略计算所得的第k+1个周期的匝道汇入率(辆/h)，n(k+1)是第k+1个周期匝道的排队长度，n_max是匝道的最大排队长度(辆)，d_r(k)是上一个控制周期进入匝道的流量(辆/h)，T是控制周期。

而最终应用的匝道汇入率为q_r(k+1)与q_n(k+1)中的更大值。

步骤20)在一个数据采集周期后，根据所采集的交通流量、平均速度、交通密度以及匝道控制信息，在宏观交通流模型中生成若干数量的合成强化学习数据，与该数据采集周期所采集的数据混合获得强化学习数据集。

实验所用的宏观交通模型为METANET模型。以下等式描述了快速道路交通随时间的演变。每个路段在t时刻的驶出流量等于密度乘以平均速度以及该路段的车道数：

f_i(t)＝ρ_i(t)v_i(t)λ_i (3)

其中，f_i(t)为路段i在t时刻的驶出流量，ρ_i(t)为路段i在t时刻的交通密度，v_i(t)为路段i在t时刻的平均速度，λ_i为路段i在t时刻的车道数。

而路段交通密度遵循车辆守恒定律：

其中T_s是离散时间步长的持续时间，ρ_i(t+1)为路段i在t+1时刻的交通密度，L_i为路段i的长度，f_i-1(t)为路段i-1在t时刻的驶出流量。

路段i在t+1时刻的平均速度v_i(t+1)取决于路段i在t时刻的平均速度、车辆流入速度和下游密度：

其中，τ，

和κ为模型参数。V(ρ_i(t))表示驾驶员的期望速度，即：

其中，a_m是模型参数，v_free,i是路段i的自由流速度，ρ_cr,i为流量最大时的对应的密度。

此外，为了解释合流现象引起的速度下降，如果有一个入口匝道，那么此项需加入到式中

当有车道减少时，由于交织现象引起的速度降低表示为：

其中，Δλ＝λ_i-λ_i+1是车道减少的数量，φ是模型参数。

快速道路路段的第一段被视为起点，其交通特性由排队模型表示：

ω₁(t+1)＝ω₁(t)+T_s(d_o(t)-f₁(t)) (9)

其中，ω₁(t+1)与ω₁(t)分别为路段1在t+1时刻与t时刻的车辆数，d_o(t)为起点的交通需求；f₁(t)通过下式确定：

其中，第一项是时间t的可用交通流量，第二项是通行能力。对于上游边界条件，假设起始段的速度与第二段的速度相同，因此v₁(t)＝v₂(t)。对于下游边界条件，快速道路路段下游的密度在整个实验中始终设置为20(veh/h/lane)。其余参数在表1中给出：

表1

此外，在本实施例中，初始真实数据比率为0.4，最终真实数据比率为0.95；真实数据比率随迭代变化趋势见图3。

步骤30)根据强化学习数据集，基于Q学习进行线下强化学习：

在本实施例中，实验路段被划分为交织区上游、交织区和交织区下游三段。强化学习状态由当前控制周期交织区上游平均流量(辆/小时/车道)、交织区上游平均速度(千米/小时)、瓶颈下游检测器的占有率、匝道排队长度(辆)以及上一控制周期的红灯时长(秒)五个状态参数确定。动作定义为当前控制周期的红灯时长(秒)。奖励则为当前控制周期路网总的输出流量(包括主线和匝道)。

在本实施例中，Q表根据如下公式进行更新：

其中，Q(s,a)为当前状态s采取动作a对应的Q值；Q(s^′,a^′)为下一个状态s^′采取动作a^′对应的Q值；r为当前状态动作下对应的奖励，a^′为状态s^′对应的可行动作，κ为学习率。

在本实施例中，当95％的状态空间已被访问时停止迭代，总迭代时长为25周，其中5周为步骤10)初始数据累积过程，并在学习结束后进行了5周的验证，将获取方案与PI-ALINEA和无控制的总行程时间对比，结果发现，该方法获得的控制策略取得了明显且稳定的提升，具体见图4。

在一个实施例中，提供了一种基于线下强化学习与宏观模型的匝道控制装置，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的基于线下强化学习与宏观模型的匝道控制方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于线下强化学习与宏观模型的匝道控制方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于线下强化学习与宏观模型的匝道控制方法，其特征在于，该方法包括以下步骤：

步骤30)根据强化学习数据集，基于Q学习进行线下强化学习：

步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息：如果实时交通状态已经在强化学习算法中被访问，则采取步骤30)中线下强化学习得到的最优动作控制，反之采取步骤10)的高速公路原有的控制策略；

步骤50)重复步骤20)、30)和40)，直到智能体访问的状态空间满足精度要求；

所述的步骤20)中，强化学习数据是通过以下流程获取的：

2.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法，其特征在于，所述的步骤10)和40)中按照如下方式获取交通数据：

3.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法，其特征在于，所述的步骤10)中按照如下方式建立并标定宏观交通流模型：

在宏观交通流模型中，高速公路网络被划分为若干段，每一段的特征为每个用于标定的离散时间步长，即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。

4.根据权利要求3所述的基于线下强化学习与宏观模型的匝道控制方法，其特征在于，合成强化学习数据的生成流程如下所述：在每个训练周期内，对于每个一组状态转换数据，除了已实施的动作，所有有限的可行的控制动作被列举出来，该组状态转换数据对应的道路交通数据与新列举的可行的控制动作逐个输入宏观交通流模型，预测下一步的道路交通数据并记录每个新列举的可行的控制动作对应的奖励；如果预测得到的下一步的交通状态存在于前述的真实强化学习状态数据集中，则将该组状态转换数据的道路交通数据对应的强化学习状态，新列举的可行的控制动作对应的奖励和宏观交通流模型预测得到的下一步的交通状态对应的强化学习状态作为一条合成强化学习数据。

5.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法，其特征在于，所述的步骤30)中，Q表根据如下公式进行更新：

其中Q(s,a)为当前状态s采取动作a对应的Q值；Q(s′,a′)为下一个状态s′采取动作a′对应的Q值；r为当前状态动作下对应的奖励，a′为状态s′对应的可行动作，κ为学习率。

6.基于线下强化学习与宏观模型的匝道控制装置，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一所述的基于线下强化学习与宏观模型的匝道控制方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一所述的基于线下强化学习与宏观模型的匝道控制方法的步骤。