CN112700664A

CN112700664A - 一种基于深度强化学习的交通信号配时优化方法

Info

Publication number: CN112700664A
Application number: CN202011510031.3A
Authority: CN
Inventors: 张利国; 崔铜巢; 马子博; 江丰尧; 邓文星
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-12-19
Filing date: 2020-12-19
Publication date: 2021-04-23
Anticipated expiration: 2040-12-19
Also published as: CN112700664B

Abstract

本发明公开了一种基于深度强化学习的交通信号配时优化方法，在该方案中，信号灯可以根据交叉口各方向的交通流状态输出适当的相位，并动态调整相位长度。具体来说，首先采用PPO算法来提高模型的收敛速度。然后，利用DTSE方法定义车辆状态，并且详细阐述了状态、动作和奖励的设计。最后，通过交通仿真平台SUMO对实际交通数据进行了实验。结果表明，与传统的定时控制相比，该方案能有效地减少车辆在各种交通流模式下的等待时间和排队长度。

Description

一种基于深度强化学习的交通信号配时优化方法

技术领域

本发明涉及交通信号控制领域、深度学习领域、强化学习领域，具体发明是一种基于深度强化学习的交通信号配时优化方法。该方法首先通过交通摄像头和信号灯控制器分别得到车辆和信号灯的状态信息作为神经网络的输入，然后通过网络输出一个合适的信号相位，最后由强化学习根据奖励方程的数值来调整神经网络参数。在保证交通安全的情况下，学习控制规则，调节信号灯的输出相位，通过最小化交叉口各方向车辆的排队长度和等待时间，从而提高路网的通行效率。

背景技术

城市道路交叉口的管理主要是通过控制信号灯来实现的。然而，使用信号灯调节交通的同时也会带来许多问题，如车辆延误时间长、能源浪费大，甚至发生交通事故。早期的交通信号控制要么部署一个固定的程序而不考虑实时交通，要么考虑非常有限的交通维度。如定时控制和感应控制。定时控制一般采用Webster配时方法，通过最小化车辆延误来选择最佳的周期时间，并使信号灯时间和每个相位的最大流量成正比例分布。感应控制通过在每个车道入口处预设线圈来测量交通流量，并通过调整信号灯的绿信比来满足交通需求。虽然上述两种方案都能在一定程度上优化交通流，但由于缺乏适应性，实际效果并不理想。

随着深度学习在人工智能领域的蓬勃发展，自适应信号灯控制的研究也越来越深入。Prashanth等人提出以队列长度和当前相位持续时间作为状态，用线性函数逼近Q值。刘等人提出了一种基于强化学习的协同信号控制系统。该方案提出对车辆进行聚类，并利用线性函数逼近Q值，状态输入仅考虑车辆队列信息。李等人以交叉口各方向的排队长度为输入，采用叠加式自动编码器估计深度神经网络的Q函数。以上方案大多以车辆队列的长度作为输入状态。然而，这种单一维度的输入会漏掉一些重要的交通信息，导致信号灯控制器无法充分感知环境信息，从而影响最终的决策效果。

近年来，计算机的数据处理能力得到了显著提高，越来越多的学者提出了新的强化学习方法。Konda等人提出了一种Actor-Critic方法，即引入Actor网络来选择动作，引入Critic网络来判断动作的价值。徐等人采用DRQN算法收集交叉口处的车辆数量、平均速度和信号灯信息作为输入状态。实验结果表明，与传统的定时控制相比，该方案在一定程度上降低了车辆的平均延误和行驶时间。Genders等人提出了一种以车辆排队密度、排队长度和当前信号灯相位为输入的异步Q学习算法。结果表明，在恒定车流条件下，车辆平均延误减少10％。然而，强化学习是一个快速发展的领域，越来越多的新方法被提出。例如：DDPG、A2C、A3C、PPO等，这些新方法具有更好的学习效率和收敛性。

以信号灯控制器为智能体，通过强化学习与环境的互动来探索合理的行为，受到越来越多学者的青睐。Alegre等人应用Q-learning的方法，以动作执行前后车辆累计等待时间的差值作为奖励函数，更新决策参数。Ge等人提出了一种具有Q值传输的协同深Q网络(QT-CDQN)。在QT-CDQN中，该区域的交叉口被建模为一个智能体强化学习系统，以车辆平均排队长度的变化作为奖励。Liang等人采用DQN方法控制信号灯相位，将复杂的交通场景量化为简单的状态，将整个交叉口划分为小网格。该方法的奖励定义为两个循环之间的累计等待时间差。为了实现该模型，引入卷积神经网络对车辆状态进行映射。总的来说，上述控制方案的主要目的是在不考虑安全因素的情况下最大限度地提高交叉口的通行能力。但是根据交通部的报告，超长的红灯时间是影响交叉口安全的关键因素之一。如果单一车道的红灯时间过长，其余车道将承受无法忍受的等待时间，导致驾驶员激烈的驾驶行为。

鉴于以上三个方面的局限性，本发明做出以下三点改进。首先，针对输入维度有限的问题，选择车辆状态和道路状态作为输入，以增加状态空间的维度，提高信号灯控制器的决策性能。车辆状态由交通摄像机采集，通过对交叉口道路进行拍摄，得到车辆分布图像，并利用计算机建立车辆空间信息矩阵。矩阵中的元素反映的车辆状态包括速度、位置和方向。其次，对于强化学习算法，选择了基于策略梯度的PPO算法。与基于值函数的Q-learning和DQN算法相比，PPO可以直接对策略进行迭代计算，搜索参数简单，收敛性更好。第三，针对奖励方程只考虑交叉口交通流的问题，提出了最大允许绿灯时间，并设计了包含绿灯时间的奖励方程，当绿灯时间过长时该方程将输出一个负的奖励值，以减少该动作再次发生的概率，提高交叉口的安全系数。

发明内容

本发明提出了一种基于深度强化学习的交通信号配时优化方法。首先，通过使用交通摄像头获取车辆和信号灯的状态信息，然后将状态信息输入到信号灯决策模型当中，最后由决策模型输出绿灯相位。在保证安全的前提下，决策模型通过学习信号灯相位规则来调节路口各方向的车辆排队长度，力求减少车辆等待时间和提高路网通行效率。具体而言，发明内容可分为五个部分进行说明，第一步：通过交通摄像头获取到交叉口各方向交通流和信号灯的状态信息，作为信号灯决策模型的输入；第二步：信号灯决策模型选择相位作为输出，即适合当前交通流的绿灯相位；第三步：建立奖惩机制，其中主要分为两个部分，分别是相位动作实施前后车辆等待时间的差值奖励项和过长绿灯时间的差值惩罚项；第四步：建立信号灯决策模型，本发明主要通过使用卷积网络和全连接网络来拟合决策模型，通过将交叉口状态信息输入到决策模型中，输出合适的相位；第五步：在定义了状态、动作、奖励、决策模型等信息后，需要使用强化学习算法来完成信号灯决策模型的参数调整，使模型最终能输出一个合适的相位。

基于上述步骤，本发明的具体过程如下：

步骤1：交叉口车辆和信号灯状态信息获取

信号灯决策模型需要获取的信息主要包括两方面：一是交叉口各方向车辆的状态信息，如：速度、位置、转向以及各车道的车辆密度。二是交叉口的相位时间和相位序号信息。以上的状态信息，作为本发明中信号灯决策模型的输入。

步骤2：信号灯输出相位动作空间的制定

信号灯动作空间的灵活性将对决策效果产生很大影响。本发明的动作空间设计主要考虑两个因素：首先，基于交通流信息，信号灯可以跳转到任何一个绿灯相位。其次，绿灯相位的持续时间可以根据排队长度进行动态调整。而由于右转与其他方向不冲突，因此右转方向的信号设置为常绿状态。对于其他方向的交通流，信号相位模式可以分为南北直行、南北左转、东西直行、东西左转等n个相位，因此n个相位的集合构成本次设计的动作空间，如表1所示。同时，动作空间可以表示为集合A：

A＝{a₀，a₁，...，a_n-1，a_n}

表1相位动作空间编码表

步骤3：信号灯决策网络奖励方程的制定

在强化学习的过程中，每个动作的奖励值都能反映当前状态对该动作的偏好。从整个过程来看，奖励值可以为策略的更新提供方向，而缺乏充分考虑的奖励方程往往导致模型收敛缓慢。对于奖励方程的定义，本发明将从两个维度来进行考虑。

首先，考虑交叉口连续动作之间车辆累计等待时间的变化。例如，当信号灯输出一个动作时，它将得到一个奖赏r_t1。在此过程中获得的奖励可定义为公式：

r_t1＝W_t-W_t+1

其中，W_t和W_t+1分别代表作用a_t前后交叉口所有车辆的累计等待时间，W_t的含义见下式：

式中，ε为交叉口排队车辆数，N为排队车辆总数，w_s，e为车辆从停车时刻到发车时刻的累计总等待时间。结合上式可以得出结论，在动作前后的累计等待时间变化越大，奖励值越大。

其次，为了平衡交叉口各方向的交通流，达到安全行车的目的，在定义奖励方程时，为了避免长时间的绿灯时间，制定了惩罚项，如下式所示：

r_t2＝-max{(T_t-αT_maxgreentime)，0}

式中，T_t表示t时刻绿灯的持续时间。预定义的最大绿灯时间为T_maxgreentime，α为系数。当多个绿灯相位连续出现并超过设定值时，将对该动作进行惩罚，以避免交叉口各方向的交通流不平衡。

综合上述，最终的奖励方程如下式：

R_t＝r_t1+r_t2

＝(W_t-W_t+1)-max{(T_t-αT_maxgreentime)，0}

步骤4：信号灯决策模型搭建

本发明所设计的系统输入状态是包含车辆速度、位置、转向信息的矩阵以及信号灯的状态信息。因此，根据输入数据的特征，信号灯决策模型选用卷积网络和全连接网络来搭建。卷积网络的应用可以有效提取车辆信息矩阵的特征，而全连接网络中一层的某个神经元就可以看成是一个多项式，多个神经元可以很好地拟合数据分布。

步骤5：信号灯决策模型的规则学习

本发明的学习算法PPO由Stable-baselines库提供。在学习的过程中，从一个最初的状态s出发，一直到任务结束，被称为一个完整的episode。在这个过程中，会存储大量的状态s和动作a，形成一个序列τ，那么序列τ发生的概率为：

序列τ所获得的奖励可表示为R(τ)，那么一个episode结束，所获得的期望奖励为：

由于强化学习的目标是最大化奖励函数，故可以使用梯度上升的方法来更新网络参数θ，求解过程如下：

PPO采用了off-policy的策略更新方法，相比on-policy每次都要与环境进行互动的策略，off-policy可以提升训练速度，让采样的数据可以重复使用。换言之，就是用一个网络进行数据采样学习，并将该网络的策略参数传递给另一个网络，用另一个网络来进行决策输出。将off-policy对上式进行改进得到形式如下：

将上述式子转换为似然函数的形式，可以得到如下形式：

而由于采用off-policy方法需要在一定程度上控制两个网络策略参数之间的相似程度，所以还要对似然函数进行一定程度的裁剪，最终得到PPO的损失函数如下所示：

信号灯决策模型在进行规则学习的过程中，PPO算法会依据损失函数减小的方向进行参数调整，使模型最终能够输出合适相位。

附图说明

图1为本发明实例提供的交通场景

图2为本发明采集的实际交叉口交通流量

图3为本发明实例提供的状态信息获取流程图

图4为本发明实例提供的信号灯策略模型

图5为本发明实例提供的PPO算法具体实现过程

图6为本发明实例提供的交通场景中采用定时控制方式的仿真结果；a为P1模式下定时控制信号灯的性能指标；b为P2模式下定时控制信号灯的性能指标；c为P3模式下定时控制信号灯的性能指标；

图7为本发明实例提供的交通场景中采用深度强化学习配时优化的仿真结果；a为P1模式下深度强化学习控制的信号灯性能指标；b为P2模式下深度强化学习控制的信号灯性能指标；c为P3模式下深度强化学习控制的信号灯性能指标。

具体实施方式

以下将结合上述图例对本发明的基于深度强化学习的信号配时优化方法作进一步的详细描述。

本发明基于Linux系统，将交通仿真软件SUMO作为测试平台，与Aimsun和Vissim等其他仿真软件相比，SUMO的执行速度更快。它不仅可以进行大规模的交通流管理，还可以与Pycharm等其他应用程序交互。最重要的是，SUMO自带的API接口Traci(交通控制接口)可以在线提取仿真环境数据，并可以将信号灯决策网络的输出动作进行实时仿真，以实现强化学习的交互过程。

步骤1：交通路网的设计

本次以北京市朝阳区弘燕东路与西大望南路交叉口为交通仿真场景，交通场景如图1(a)所示。在SUMO中搭建的实验场景如图1(b)所示。其中各个方向的道路长度为150m，所有车道的最大允许速度为14m/s(50.4km/h)。

步骤2：交通流量的获取和生成

为了尽可能模拟真实的交通状况，实验中的交通流量采用弘燕东路与西大望南路交叉口一天内(4:00～24:00)的交通流数据，如图2所示。通过对实际交通流数据进行分类，在SUMO中制定了三种交通模式。各模式的交通流描述如下：

(1)重度交通模式P1；在该模式下，交叉口各方向的交通流量均处于高峰时段，且直行方向的交通流量大于左转方向的交通流量。

(2)主次交通模式P2；在该模式下，主干道为南北方向，车流较大，次干道为东西方向，车流较少。

(3)潮汐交通模式P3；在该模式下，南边和东边的交通需求均高于各自的相反方向。

步骤3：车辆及信号灯状态信息的获取

在实验的过程中，可以使用Traci从SUMO中实时获取实验场景中车辆的速度、位置、转向以及信号灯状态信息。当获取到车辆的状态信息后，使用DTSE方法将各个车辆的信息再转换成矩阵元素的形式与车辆位置进行一一对应，作为卷积网络的输入，如图3所示。

步骤4：信号灯决策模型搭建

信号灯决策模型使用神经网络来拟合，决策模型如图4所示。本发明中关于网络的搭建使用tensorflow自带的卷积网络库和全连接网络库来完成。

卷积网络一共有3层，全连接网络一共有4层。其中第一卷积层包含4个滤波器。每个过滤器的尺寸为1×1，每次移动步长为1×1。第二个卷积层有8个滤波器。每个过滤器的尺寸为1×1，每次移动步长为1×1。两个卷积层的池化采用最大池化法，卷积核大小为2×2，移动步长为1×1。第三层为全连接层，将卷积层的输出转换为矢量形式。第四层和第五层分别为64和32节点组成的全连接层，网络中的激活函数都使用ReLU函数。输出层的Actor由两个全连接层组成，分别输出μ和σ。Critic由一个全连接层组成，输出的v值是网络决策更新的重要参数之一。

步骤5：信号灯决策模型的规则学习

实验过程中，信号灯决策网络需要利用强化学习算法来不断调整模型参数，使最终的输出相位能够最大程度上调节路口交通流，提高通行效率。由于PPO采用基于策略梯度的方法，相比基于值函数的方法，具有更好的收敛速度。同时PPO利用重要性抽样进行优势估计，解决了抽样方法方差大、数据效率低的问题。因此，本发明的强化学习算法选择PPO来实现。

L_{critic_t}(θ)＝E_t[(A_t)²]

PPO算法的损失函数如上式所示。其中A_t是优势函数，它代表在特定状态下执行当前动作相对于其他动作的优势。π_{θ_new}表示Actor-new网络的新策略，θ_new表示每次都会进行更新的策略参数，π_{θ_old}表示Actor-old网络的旧策略，该网络的参数仅仅进行阶段性更新。off-policy方法是利用Actor-new网络与环境进行交互，得到经验参数θ_new，然后利用Actor-new网络的权值来更新Actor-old网络。与此同时，为了防止两个网络的输出概率分布过大，避免策略突然改变，采用了clip方法权衡π_{θ_old}和π_{θ_new}之间的分布差，其中ε为clip系数，一般取0.2。

A_t＝δ_t+γδ_t+1+…+γ^T-t+1δ_T-1

δ_t＝r_t+γV(s_t+1)-V(s_t)

优势函数A_t的各部分含义如上式所示，其中V(s_t)是Critic网络输出的关于状态s_t的价值描述，γ是折扣系数，r_t是采用动作s_t时获得的奖励值。

PPO算法的实现过程如图5所示。当采用PPO对信号灯决策模型进行训练的过程中，在每一个时刻t，将观测到的信息输入网络，并根据Actor-new网络的μ和σ输出动作a_t。与此同时，得到新的环境状态s_t+1，经过多次迭代之后，直到存储了一定数量的状态s，动作a和奖励值r，将上述阶段的最后一个状态s输入到Critic网络中，得到所有状态的价值评估，并通过折扣价值评估和折扣奖励构造损失函数L_{critic_t}(θ)。关于参数更新，无论是Actor网络还是Critic网络都采用反向传播方法进行参数更新。

步骤6：仿真实验结果

为了测试本发明中基于深度强化学习的信号灯配时优化的学习效果，实验将分为两个部分。在第一部分中，交叉口信号灯采用定时控制方案，交通模式分别为步骤2中P1、P2和P3。通过统计每种模式下所有车辆的等待时间来体现控制效果。由于采用定时控制的信号灯不能对交通流起到很好的调节作用，导致车辆等待时间较长，如图6所示。因此，在实验的第二部分，将尝试使用深度强化学习方案来有效地缓解上述问题。本部分实验从两个方面评价了信号灯的性能，即在P1、P2和P3交通流模式下交叉口车辆总等待时间和平均排队长度的变化。实验结果如图7所示，从图中可以看出无论在哪种交通流模式下，随着迭代次数的增加，最终都能将车辆的等待时间和排队长度有效降低，提高路网通行效率。

Claims

1.一种基于深度强化学习的信号配时优化方法，其特征在于，通过交通摄像头获取交叉口各方向的车辆和信号灯的状态信息作为神经网络的输入，然后通过网络输出一个合适的信号相位，最后由强化学习根据奖励方程的数值来调整神经网络参数。该方法在保证交通安全的情况下，学习控制规则，调节信号灯的输出相位，通过最小化交叉口各方向车辆的排队长度和等待时间，提高路网通行效率。

具体实现过程描述为以下步骤：

步骤1：交叉口车辆和信号灯的状态信息获取

信号灯决策模型需要获取的信息包括两方面：一是交叉口各方向车辆的状态信息。二是交叉口的相位时间和相位序号信息。车辆状态信息通过卷积网络进行特征提取后，与相位时间、相位序号共同组成决策模型的输入。

步骤2：信号灯输出相位动作空间的制定

信号灯动作空间设计考虑两个因素：首先，基于交通流信息，信号灯跳转到任何一个绿灯相位。其次，绿灯相位的持续时间根据排队长度进行动态调整。由于右转与其他方向不冲突，因此右转方向的信号设置为常绿状态。对于其他方向的交通流，信号相位模式分为南北直行、南北左转、东西直行、东西左转等n个相位，因此n个相位的集合构成本次设计的动作空间。

步骤3：信号灯决策网络奖励方程的制定

在强化学习的过程中，每个动作的奖励值都能反映当前状态对该动作的偏好。对于奖励方程的定义，从两个维度来进行考虑。

首先，考虑交叉口连续动作之间车辆累计等待时间的变化。当信号灯输出一个动作时，将得到一个奖赏r_t1。在此过程中获得的奖励定义为公式：

r_t1＝W_t-W_t+1

式中，ε为交叉口排队车辆数，N为排队车辆总数，w_s，e为车辆从停车时刻到发车时刻的累计总等待时间。在行动前后的累计等待时间变化越大，奖励值越大。

其次，为平衡交叉口各方向的交通流，达到安全行车的目的，在定义奖励方程时，为避免长时间的绿灯时间，制定了惩罚项，如下式所示：

r_t2＝-max{(T_t-αT_maxgreentime)，0}

综合上述，最终的奖励方程如下式：

R_t＝r_t1+r_t2

＝(W_t-W_t+1)-max{(T_t-αT_maxgreentime)，0}

步骤4：信号灯决策模型搭建

系统输入状态是包含车辆速度、位置、转向信息的矩阵以及信号灯的状态信息。根据输入数据的特征，信号灯决策模型选用卷积网络和全连接网络来搭建。卷积网络的应用提取车辆信息矩阵的特征，而全连接网络中一层的某个神经元看成是一个多项式，多个神经元拟合数据分布。

步骤5：信号灯决策模型的规则学习

信号灯决策网络需要利用强化学习算法来不断调整模型参数，使最终输出相位能够最大程度上调节路口交通流；强化学习选择PPO算法来实现。PPO算法的损失函数如下式所示。

L_{critic_t}(θ)＝E_t[(A_t)²]

E_t为t时刻的期望。s_t、a_t分别表示t时刻决策模型的输入状态和输出动作。而A_t代表在特定状态下执行当前动作相对于其他动作的优势，简称优势函数。π_{θ_new}表示Actor-new网络的新策略，θ_new表示每次都会进行更新的策略参数，π_{θ_old}表示Actor-old网络的旧策略，该网络的参数仅仅进行阶段性更新。off-policy方法是利用Actor-new网络与环境进行交互，得到经验参数θ_new，然后利用Actor-new网络的权值来更新Actor-old网络。为防止两个网络的输出概率分布过大，采用clip方法权衡π_{θ_old}和π_{θ_new}之间的分布差，其中ε为clip系数；

A_t＝δ_t+γδ_t+1+...+γ^T-t+1δ_T-1

δ_t＝r_t+γV(s_t+1)-V(s_t)

当采用PPO对信号灯决策模型进行训练的过程中，在每一个时刻t，将观测到的信息输入网络，并根据Actor-new网络的μ和σ输出动作a_t。与此同时，得到新的环境状态s_t+1，经过多次迭代之后，直到存储了一定数量的状态s，动作a和奖励值r，将上述阶段的最后一个状态s输入到Critic网络中，得到所有状态的价值评估，并通过折扣价值评估和折扣奖励构造损失函数L_{critic_t}(θ)。关于参数更新，无论是Actor网络还是Critic网络都采用反向传播方法进行参数更新。