CN106157650A

CN106157650A - 一种基于强化学习可变限速控制的快速道路通行效率改善方法

Info

Publication number: CN106157650A
Application number: CN201610542934.7A
Authority: CN
Inventors: 李志斌; 刘攀; 王炜; 徐铖铖
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2016-07-11
Filing date: 2016-07-11
Publication date: 2016-11-23

Abstract

一种基于强化学习可变限速控制的快速道路通行效率改善方法。基于强化学习方法实时确定可变限速值，智能体依据交通流数据感知快速道路上交通流运行状态，针对当前状态选择一个限速值动作并计算该动作导致的状态转移的回报值，智能体遍历所有状态‑动作组合直到所有状态‑动作的回报值收敛，智能体离线习得不同交通流状态下的最优限速值动作。依据实时交通流数据智能体自主选择当前状态对应的最优限速值并发布，同时将控制后的交通流数据和限速值传回控制中心使智能体持续学习。本发明弥补了之前可变限速控制中交通流状态和限速值之间对应关系确定的主观随意性，提高了控制系统的抗干扰能力，通过智能体持续挖掘可变限速值对通行效率改善的影响规律，实现依据实时交通流数据对可变限速值进行反馈调节，有效提升了瓶颈路段可变限速控制下道路的通行效率。

Description

一种基于强化学习可变限速控制的快速道路通行效率改善方法

技术领域

本发明属于智能交通和交通控制技术领域，具体涉及一种基于强化学习可变限速控制的快速道路通行效率改善方法。

背景技术

可变限速控制作为一种越来越被广泛用于改善快速道路通行效率的交通控制策略，其控制效果与可变限速值确定过程所采用的方法密切相关。强化学习作为一种闭环结构，通过控制效果对控制策略的反馈调节使智能体不断学习不同交通流状态下对应的最优限速值，有效提升了可变限速控制的效果和可变限速控制限速值的合理性。因此，基于强化学习的可变限速控制快速道路通行效率改善方法，可以通过强化学习使智能体掌握不同交通流运行状态下的最优限速值。

现有可变限速控制策略中不同交通流状态下对应的限速值的确定依赖于工程师经验主观确定，同时可变限速控制对交通流运行的影响与期望有差异，可能导致控制策略无法达到最优控制效果。本发明提出基于强化学习可变限速控制的快速道路通行效率改善方法，相比于现有的反馈方法和在线优化方法，本发明提出的方法具有依据新的交通环境与数据持续学习的能力，通过实际道路交通环境下的最优控制策略的持续更新有效提升可变限速控制效果。

发明内容

本发明要解决的问题是：以往针对瓶颈路段的可变限速控制策略中交通流状态和限速值之间的对应关系主要由工程师主观确定，缺乏对不同交通流状态下不同可变限速值控制效果的客观分析，缺乏不同交通流状态下不同限速值与其控制效果之间的数据信息的挖掘，导致可变限速控制中限速值的确定过程缺乏理论性，具有一定主观随意性。现有的在线优化方法下的控制系统抗干扰能力较差。本发明提出一种基于强化学习可变限速控制的快速道路通行效率改善方法，通过计算机智能体学习可变限速控制策略对通行效率改善的规律，确定不同交通流状态下具有最优控制效果的可变限速控制策略。克服之前可变限速控制中限速值确定过程的主观随意性，实现根据实际效果和交通流数据对最优可变限速控制策略进行反馈调节。

本发明技术方案为：

本发明提出一种基于强化学习可变限速控制的快速道路通行效率改善方法，基于实测交通流数据训练智能体掌握不同交通流运行状态下的最优限速值，据此在可变限速控制路段发布当前交通流状态下的最优限速值，采集可变限速控制后的限速值与交通流数据使智能体依据新的交通环境与数据持续学习，本方法对实际中通过可变限速控制策略有效提高快速道路通行效率具有重要意义。实例显示，本发明提出的可变限速控制方法有很好效果，能有效减少快速道路路段内系统通行时间，还能不断依据实际应用后的限速值与交通流数据持续学习最优策略。

附图说明

图1为快速道路瓶颈路段的可变限速控制策略流程图。

图2为主线交通流状态划分示意图。

图3为匝道交通流状态划分示意图。

图4为不同交通流密度对应的回报函数。

图5为算例中瓶颈路段示意图。

图6为算例流量-速度分布图。

具体实施方式

本发明是基于强化学习Q学习方法的基本原理和可变限速控制策略的基本流程提出针对瓶颈路段上游进行可变限速控制的策略，通过交通流检测器检测瓶颈路段及其上下游的交通流运行情况生成训练数据库，智能体通过离线学习掌握不同交通流状态下的最优可变限速值，在实际控制中智能体通过快速道路上实测交通流数据感知实时交通流状态，从知识库中选择当前状态对应的最优限速值对交通流进行动态调节，用控制实施后的交通流数据和限速值对智能体进行持续训练，基于强化学习可变限速控制的快速道路通行效率改善方法的流程图如图1所示。

第一步是确定快速道路瓶颈路段及可变限速控制路段范围，以合理间距设置交通流检测器，获取快速道路瓶颈路段一段时间内的真实交通流数据，在可变限速控制路段上游端设置可变限速指示牌，用于发布可变限速值。

第二步是基于实际交通流数据的变化范围及变化幅度确定强化学习方法中的交通流状态集和动作集。

状态集是将连续的交通流密度划分为若干离散密度区间，由于需要了解瓶颈路段及其上下游交通流信息，所以状态集应包括瓶颈位置上下游及匝道的密度信息。基于真实交通流数据绘制流量-速度分布图寻找瓶颈路段交通流的关键密度，在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分。快速道路主线交通流状态划分的范围为2veh/m/ln～80veh/m/ln，由于交通流运行状态在关键密度附近变化较为敏感，故关键密度附近以2veh/m/ln为步长划分交通流状态，在自由流和拥堵流中以8veh/m/ln为步长划分交通流状态，划分结果如图2所示。快速道路匝道交通流状态划分的范围为5veh/m/ln～45veh/m/ln，关键密度附近以2.5veh/m/ln为步长划分交通流状态，在自由流和拥堵流中以5veh/m/ln为步长划分交通流状态，划分结果如图3所示。综上所述，强化学习方法中的状态集共包含13×13×11＝1859种交通状态。

动作集是可变限速控制中的不同限速值，限速值应在路段允许的最高和最低限速值之间，即V_SL∈{V_min,V_max}，同时考虑到驾驶员对限速值的接受情况，发布的限速值取为5或10的整数倍。大量测试可知动作集中限速值的取值范围为20mph至65mph，选取步长定为5mph，因此动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。

第三步是基于提高快速道路通行效率这一目标设置强化学习中的回报函数。与无控情况相比，研究路段内总通行时间降低得越多表明策略越有效地提高了通行效率，由于瓶颈路段内总通行时间可以由瓶颈位置交通流量计算，且瓶颈位置交通流量可以由交通流密度计算，因此Q学习方法中回报函数依据路段交通流密度设置。假设各交通流密度对应的回报函数服从泊松分布，则回报函数表达式如下：

R (s) = μ g \Pr (X = s) = μ g \frac{λ^{s} e^{- λ}}{s!} - - - (1)

其中，R(s)为状态s对应的回报值，μ为决定回报值幅度的参数，缺省值为1×10⁴，Pr(X＝s)为状态s的概率函数，λ为泊松分布参数，缺省值为26.9辆/英里。

为加快强化学习收敛速度，对关键密度状态附近的交通流状态设置200额外奖励值，对严重拥堵状态设置200额外惩罚值，不同密度状态对应的回报函数如图4所示。

第四步是基于第一步中采集到的交通流和可变限速控制状态数据库训练智能体。

首先，初始化所有“状态-行为”对应的Q值为零，集计可变限速控制前后5分钟的交通流数据用于判断交通流状态转移。在Q学习每一个时间步中，基于集计的交通流数据观察当前环境状态，判断当前状态是否已执行20次动作选择，若不是，则强制智能体对每个状态尝试不同动作；若是，则采用softmax动作选择策略根据Q值确定当前状态下选择各动作的概率，策略为Q值越高动作选择中所占权重越大，该动作被选中的概率越大，具体计算公式如下：

P_{s} (a) = \frac{e^{Q (s, a) / T}}{Σ_{b &Element; A} e^{Q (s, a) / T}} - - - (2)

其中，

P_s(a)为在状态s下选择行动a的概率；

T为退火温度；

Q_t(s,a)为当前时刻“状态-行为”对应的Q值。

其次，做出动作选择后，基于图4中所示的“状态-行为”的回报值，需要对各“状态-行为”组合的回报值Q进行更新，Q学习方法中按照下式调整Q值：

Q_t+1(s_t,a_t)＝Q_t(s_t,a_t)+λ_t(s_t,a_t)×[R_t+1+γmaxQ_t(s_t,a_t)-Q_t(s_t,a_t)] (3)

其中，Q_t+1(s_t,a_t)为t+1时刻对应的Q值，Q_t(s_t,a_t)为t时刻对应的Q值，λ_t(s_t,a_t)(0<λ<1)是学习速率，γ为折扣因子(0<γ<1)，折衷马上获得的与延迟获得的奖励。

本专利中对公式(3)进行简化，不考虑延迟获得的奖励，综合考虑模型运行效率和仿真准确性后，本专利采用下式更新Q值：

Q_t+1(s_t,a_t)＝R_t+1+0.8×max Q_t(s_t+1,a_t+1) (4)

其中，

Q_t+1(s_t,a_t)为t+1时刻对应的Q值；

Q_t(s_t+1,a_t+1)为t时刻对应的Q值；

R_t+1为t+1时刻对应的回报函数值。

更新Q值后进入下一个学习时间步，循环上述过程直到Q值收敛，则每个状态下最大Q值对应的动作即为最优控制策略。

第五步是采用第四步中得到的各状态及其最大Q值对应的动作进行可变限速控制，基于当前交通流检测器采集到的5分钟的平均交通流密度判断当前交通流状态，采用智能体实时选择当前交通流状态下的最优限速值，将最优限速值传递至瓶颈位置上游可变限速控制指示牌发布限速值。

第六步是继续实时采集发布最优限速值后的交通流数据和限速值并传回控制系统，智能体依据新的交通流数据和限速值重复上述第四步到第五步持续学习最优控制策略。

下面结合附图对发明的可变限速控制方法进行了实例演示:

假设某一快速道路与匝道构成的瓶颈如图5所示，图中入口匝道与主线相交处为一瓶颈，在瓶颈位置上下游分别设置了交通流检测器1和2，匝道上设置了检测器3，在可变限速控制路段上游设置了可变限速控制指示牌。假设该路段一周内交通流检测器检测到的历史交通流数据如图6所示，则关键密度为30veh/m/ln左右。状态集中元素为包含检测器1,2,3的密度数据的状态向量，记为S(s1，s2，s3)，动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。

将图6中的历史交通流数据库用于训练智能体，通过强化学习得到检测器1、2、3所得不同交通流状态排列组合得到的所有状态向量S对应的动作集中的最佳限速值。判断检测器1、2、3实时检测到的交通流数据对应的交通流状态s1，s2和s3，找到状态向量S(s1，s2，s3)对应的最优限速值为v，将v值传递至可变限速控制指示牌并发布信息“当前限速值为v，请小心驾驶”。同时，将当前时刻的最优可变限速值v和交通流状态S传回控制系统添加至训练数据库中。

据统计，无控制和可变限速控制下的快速道路内车辆总通行时间如表1所示，由表可知，在稳定需求下，可变限速控制下通行时间比无控情况减少了49.34％；在波动需求下，可变限速控制下通行时间比无控情况减少了21.84％。因此，基于强化学习方法的可变限速控制方法能有效改善瓶颈路段的通行效率。

表1 基于强化学习的可变限速控制效果

评价指标	无控制	可变限速控制
			稳定需求情况下系统总通行时间(辆·小时)	193.20	97.88
稳定需求情况下系统总通行时间减少值(辆·小时)	/	95.32
			稳定需求情况下通行时间减少比例(％)	/	49.34
波动需求情况下系统总通行时间(辆·小时)	118.17	92.36
			波动需求情况下系统总通行时间减少值(辆·小时)	/	25.80
波动需求情况下通行时间减少比例(％)	/	21.84

Claims

1.一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是包括步骤：

1)确定快速道路瓶颈路段及可变限速控制路段范围，以合理间距设置交通流检测器，获取快速道路瓶颈路段一段时间内的真实交通流数据，在可变限速控制路段上游端设置可变限速指示牌，用于发布可变限速值；

2)确定强化学习方法中的交通流状态集和动作集，状态集包括瓶颈位置上下游及匝道的密度信息，因此交通流状态集中的每个元素是一个记录了瓶颈位置上下游及匝道的密度的状态向量S，在自由流、拥堵状态和关键密度附近分别对交通流状态进行划分；动作集为不同限速值，应在路段允许的最高和最低限速值之间，即VSL∈{Vmin,Vmax}，同时考虑到驾驶员对限速值的接受情况，发布的限速值取为5或10的整数倍；

3)基于提高快速道路通行效率这一目标确定强化学习的著名算法Q学习算法中的回报函数，所述Q学习方法中回报函数依据路段交通流密度设置，假设各交通流密度对应的回报函数服从泊松分布，回报函数表达式如下：

R (s) = μ g \Pr (X = s) = μ g \frac{λ^{s} e^{- λ}}{s!}

其中，R(s)为状态s对应的回报值，μ为决定回报值幅度的参数，缺省值为1×104，Pr(X＝s)为状态s的概率函数，λ为泊松分布参数，缺省值为26.9辆/英里；

4)基于步骤1)中采集到的交通流和可变限速控制状态数据库训练智能体，步骤包括：

401)初始化，Q学习中的参数Q值反映不同状态下选择不同动作的长期回报，初始状态下将所有“状态-行为”对应的Q值设置为零，将可变限速控制前后5分钟的数据集计后用于判断交通流状态的转移情况；

402)基于步骤401)中的初始化数据开始Q学习，在Q学习每一个时间步中，首先判断当前交通流状态，再判断当前状态是否已执行20次动作选择，若是，则进入步骤403)；若不是则强制智能体尝试当前状态对应的不同动作实现“状态-行为”集的遍历，再进入步骤404)；

403)采用softmax动作选择策略根据下式计算当前状态下选择各动作的概率：

P_{s} (a) = \frac{e^{Q (s, a) / T}}{Σ_{b &Element; A} e^{Q (s, a) / T}}

其中，P_s(a)为在状态s下选择行动a的概率，T为退火温度，Q_t(s,a)为当前时刻“状态-行为”对应的Q值；

404)将步骤3)中计算得到的“状态-行为”回报值和步骤402)或步骤403)中做出的动作选择带入下式更新Q值：

Q_t+1(s_t,a_t)＝R_t+1+0.8×max Q_t(s_t+1,a_t+1)

其中，

Q_t+1(s_t,a_t)为t+1时刻对应的Q值，Q_t(s_t+1,a_t+1)为t时刻对应的Q值，R_t+1为t+1时刻对应的回报函数值；

405)判断Q值是否收敛，若是则将每个状态下最大Q值对应的动作确定为最优控制策略；若不是，则返回步骤3)转入下一个时间步；

5)基于步骤405)中给出的最优可变限速控制策略，检测当前交通流检测器的数据并依据步骤2)确定的状态划分确定主线及匝道的交通流状态，采用训练后的智能体实时选择当前交通流状态下的最优限速值并传递至可变限速控制指示牌发布限速值；

6)实时采集步骤5)中发布最优限速值后的交通流数据和限速值并传回控制系统，智能体依据新的交通流数据和限速值重复步骤4)持续学习最优控制策略。

2.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是所述步骤2)中，快速道路主线交通流密度划分的范围为2veh/m/ln～80veh/m/ln，关键密度附近以2veh/m/ln为步长划分交通流状态，自由流和拥堵流中以8veh/m/ln为步长划分交通流状态。

3.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是所述步骤2)中，快速道路匝道交通流状态划分的范围为5veh/m/ln～45veh/m/ln，关键密度附近以2.5veh/m/ln为步长划分交通流状态，自由流和拥堵流中以5veh/m/ln为步长划分交通流状态。

4.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是所述步骤2)中，经过大量测试可知限速值的取值范围为20mph至65mph，选取步长定为5mph，因此动作集中元素为{20mph,25mph,30mph,35mph,40mph,45mph,50mph,55mph,60mph,65mph}。

5.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是所述步骤3)中，为加快强化学习收敛速度，确定回报函数时对关键密度状态附近的交通流状态设置200额外奖励值，对严重拥堵状态设置200额外惩罚值。

6.根据权利要求1所述的一种基于强化学习可变限速控制的快速道路通行效率改善方法，其特征是所述步骤404)中，采用的Q值更新的公式是综合考虑简化后的结果，Q学习方法中的Q值更新公式如下：

Q_t+1(s_t,a_t)＝Q_t(s_t,a_t)+λ_t(s_t,a_t)×[R_t+1+γmaxQ_t(s_t,a_t)-Q_t(s_t,a_t)]