CN109215355A

CN109215355A - 一种基于深度强化学习的单点交叉口信号配时优化方法

Info

Publication number: CN109215355A
Application number: CN201810902305.XA
Authority: CN
Inventors: 陈鹏; 朱泽茂; 鲁光泉; 王云鹏; 余贵珍
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-08-09
Filing date: 2018-08-09
Publication date: 2019-01-15

Abstract

本发明公开了一种基于深度强化学习算法对单点交叉口进行自适应信号配时优化的方法，旨在通过实际道路数据，利用深度强化学习对单点交叉口进行仿真配时优化，并最终将仿真方案应用于实际道路，该方法克服了现有自适应信号配时方法的弊端，提供了一种可以进行高维输入，快速收敛的一种新颖算法。在实施本方法的过程中，首先对原始原始数据进行矩阵化处理，通过经验回放策略随机抽取输入数据，并利用ε‑贪婪策略对强化学习的动作进行选择，通过不断地迭代训练，最终得到一个信号配时的最优方案。

Description

一种基于深度强化学习的单点交叉口信号配时优化方法

技术领域

本发明公开了一种对单点信号交叉口进行控制优化的深度强化学习方法，属于智能交通技术领域。

背景技术

随着世界经济的发展和城市化的快速推进，城市的规模以及人口也在不断地扩大、增加。虽然城市的扩张一定程度上促进了经济的发展，但是越来越多的私家车的出现造成了城市交通的拥堵。而为了加强对城市道路的管理，减少交通事故及拥堵的发生，需要在交叉口设置交通信号灯，从而提高道路使用率，改善交通状况。目前的交通信号控制大致分为三类：(1)固定信号配时。这种配时策略根据以往的交通数据信息，设置好固定的绿信比及信号周期，它的优点是成本低，可以对流量较小的道路进行管控，但是不适用于流量较大的道路。(2)感应信号配时。这种配时策略没有固定的绿信比和相位时长，其工作原理是在车道进口设置车辆到达检测器，检测道路的车流量。在这种策略下，信号灯的周期、绿信比及相位变化会根据交通路口的交通流量的需要变化而变化，控制方式比较灵活。但是其缺点也比较明显，因为需要安装检测器，它的安装及维护成本较高。(3)自适应信号配时。这种配时策略和感应信号配时类似，也是通过检测器检测到交通流信息，然后将这些数据实时的通过网络传到上位机，上位机实时的产生最佳的绿灯配时方案，并付诸实施，这种策略可以将一段时间内汽车的放行量达到最大，或者使其它交通控制评价指标如延误、停车次数等最小。这种策略可以对交叉口的信号机进行最优或次最优的信号配时优化，使其运行方案可以根据交通流的变化而自适应的调整，从而提高车辆在交叉口的通行效率。

而目前的自适应信号控制算法主要有以下几种：(1)模糊算法。这种算法可以把信号控制经验用模糊原则表达出来，从而实现决策推理的过程。Pappis等人就将模糊控制应用在交通控制上，通过建立相应的模糊规则从而实现对各种交通状况进行模糊控制。该方法可以应用在单点交叉口甚至区域交通控制中，但是这种方法不能够充分表示实时交通的不确定性。(2)遗传算法。常云涛等人提出的基于遗传算法的交通配时信号优化方法整合了基于延时和宽带模型方法的特点，同时也对信号周期、绿信比、相位差和相序进行了优化。但是遗传算法的计算量太大，很难做到实时信息的反馈与优化，并且其优化参数难以确定。(3)数据驱动控制。其在不能完全获取交通系统状态信息、对交通系统内部机理不理解的情况下可以自主寻找隐藏在系统中的控制信息，它具有无模型、自学习的特点。但是其对复杂交通系统的控制仍然存在许多的不足，例如鲁棒性较差，不够稳定等。

强化学习算法应用在交通领域的时间比较早，可以对简单的交通信号配时进行控制优化，但是对于传统的强化学习算法来说，虽然它可以解决简单的控制问题，由于其本身算法的限制，它不能解决输入维度高的问题，同时计算过程十分复杂繁琐，所以不适用于现今的交通信号控制。

发明内容

1.发明目的

本发明针对当前城市道路在交通流量比较大的时候容易形成交通拥堵的现状，提出一种基于深度强化学习的交通信号优化方法，该方法可在复杂交通环境下对交通信号配时进行优化，可以有效地减少交通拥堵，提高通行效率。

2.本发明所采用的技术方案

本发明是一种基于SUMO交通仿真软件，通过深度强化学习的方法对单点交叉口信号配时进行优化的方法，具体实现步骤如下所示：

(1)SUMO道路生成及流量、配时计划设置。通过SUMO仿真软件生成本事例中所需的一个单点交叉口，并输入实际道路中的流量及信号初始配时方案。

(2)强化学习agent的定义。本事例中状态集S包含排队长度、车速等信息，动作集A包含4种选择，学习时4种动作会进行随机选择，同时定义回报R和Q函数。

(3)数据预处理和设置深度强化学习神经网络及参数。对输入神经网络的数据先进行预处理，然后设置神经网络的层数及初始权重后进行训练，在训练时利用随机梯度下降的方法来更新神经网络的权重，由此来逼近动作值函数。

(4)通过神经网络与强化学习的不断迭代，得到最大的累积Q函数，并得出最优策略。

在用此方法计算最优策略的过程中，需要考虑强化学习的特殊性，因为由强化学习采集的数据是独立同分布的，它们之间有很强的关联性。而在深度强化学习方法中利用经验回放的办法可以降低数据间的关联性，从而使训练的神经网络更加稳定且更容易收敛。此外由于本事例利用了实际的历史数据作为输入，那么训练学习完成后的算法可对实际道路进行信号配时的优化，从而减少实际道路中的交通拥堵。

3.本发明所产生的技术效果

本发明基于实际道路数据，借助SUMO交通仿真软件并利用深度强化学习的方法进行交通信号的配时优化，其优势之处在于：

1、可以很大程度上减少交通拥堵。这种方法通过利用深度卷积神经网络优秀的感知和表达能力对输入特征进行提取，降低了输入的复杂性，并利用强化学习贪婪策略学习最优或次最优的单点交叉口信号配时优化策略。

2、可以在实际道路中使用。通过输入真实的实际道路交通流量信息，并在仿真中对算法进行有效的训练，从而能将训练学习好的算法应用到实际道路中。

3、具有相对良好的稳定性。因为本方法利用经验重放的办法对目标网络进行学习，能够收敛于良好的交通信号控制策略，从而提高了算法的稳定性。

4.附图说明

图1为本发明的实施流程图

图2为进行信号配时优化的单点交叉口

图3为SUMO仿真时的视频截图

图4为仿真场景转换后的矩阵图

图5为卷积神经网络结构图和输入输出过程

5.具体实施方式

下面结合附图进一步详细叙述本发明的技术方案，但本发明的实施和保护不局限于以下所述内容。

本发明基于深度强化学习，利用交通仿真软件SUMO进行仿真迭代，最终实现对单点交叉口的自适应配时优化。具体实施步骤如下所示：

步骤一：通过SUMO仿真软件建立单点交叉口，这里按照实际道路建立单向三车道路口。如图2所示，其中最内侧车道为左转车道，而中间车道是直行车道，右侧车道为直行与右转车道。建立交叉口之后，为进入交叉口的四条道路输入每个车道的车流量，这里输入的车流量为采集的实际道路交叉口的历史流量数据信息(连续一个月的交通数据信息)，在本事例中把每天的数据以24小时单位，每隔一个小时划为一个数据区间，并计算出由此划分的每个时段的平均流量，此外考虑数据是否取自周末，因为在实际道路中，工作日的某一时段的交通流量不同于在周末相同时段的交通流量，区分是否为周末之后，最终将不同时刻的平均流量输入到SUMO仿真软件中，并初始化信号配时策略。

步骤二：强化学习agent的定义。强化学习有三个主要参数，分别是：状态集S、动作集A和回报R，其中本事例中的状态集S包含排队长度和车辆速度等信息，而动作集A包含4个动作，分别是东西直行、东西左转、南北直行和南北左转。同时当有车在停车线前停车时，其等待通过交叉口的时间即定义为延误时长，这里将某一状态时的所有车辆的延误时长累加定义为累积延误时长，此时设定r₁是在上一状态时观测到的累积延误时长，而r₂是当前状态下观测到的累积延误时长，则定义的回报函数r为

r＝r₁-r₂ (1)

而本事例的最终目的是使每个时间段内车辆的总累积延误时长达到最小，由此定义最大累积Q函数为：

上式是执行完策略π之后的最大累积Q函数期望，γ∈[0,1]是一个折扣系数，可确保函数可以收敛于一个最优策略。

步骤三：对数据进行预处理并对神经网络参数进行设置。在本步骤中，当输入流量和初始信号配时后，仿真的图像如图3所示，然后将仿真时的车辆位置、速度和时间等信息转换为如图4所示的矩阵图，在已知车道长度为d的情况下，从停车线起划分单元网格，网格长度d约为平均车长加上平均车间距。此时若有车占据某一网格，在平面矩阵中将此位置标为1，若某网格中没有车，则标为0。根据这个原则，则可在矩阵左侧将各个车道的车辆数表示出来。此本方法中将车速小于15kph的车定义为正在排队的车辆，此时在矩阵右侧记录相对应的每辆车车速，在矩阵右上侧为输入数据的时段，标有数字1所对应的时刻代表着输入的数据来自于此时段，而矩阵右下角的数字1代表数据来自于周末，其上方的数字则表示交叉口信号状态。

本方法中将矩阵中的信号状态由此定义：[0,0]为东西直行，[0，1]为东西左转，[1,0]为南北直行，[1,1]南北左转。

将以上矩阵输入到卷积神经网络中，而在本方法中，卷积神经网络作为Q函数的网络，存在以下公式：

Q(s,a；θ)≈Q^π(s,a) (3)

在公式(3)中，通过更新参数θ来实现对最大值函数Q的更新。本方法中采用的卷积神经网络结构如图5所示，是由两个卷积层和两个全连接层组成，通过对输入图像矩阵进行局部感知、卷积以及池化，最后映射出所有的动作集。卷积神经网络能够很好地逼近目标函数，从而得到最优策略。而在进行卷积训练前，需对输入的数据进行预处理，由于强化学习采集到的数据一般连续且具有很强的关联性，所以为了保证函数的收敛性需要对数据集进行处理，这里采用经验回放的方法，即已知在某时刻的状态为s_t，执行完动作a_t后得到一个即时回报r_t和执行完动作a_t之后的新状态s_t+1，此时将(s_t,a_t,r_t,s_t+1)存放进入一个经验回放池D中，这个过程会每隔几秒进行一次，每次都能存入新数据，而当经验回放池D被存放满之后，后续存入的数据会将最旧的数据替换掉，当进行训练时，会随机从经验回放池D中抽取数据输入，从而减少输入数据间的关联性，保证目标函数能够收敛。而目标函数的定义为：

其中θ^-为目标函数中的参数，它由Q函数的参数θ来更新，而神经网络逼近的目标函数采用随机梯度下降法来更新参数θ。其中θ^-与θ的更新关系如下式所示：

θ^-＝βθ+(1-β)θ^- (5)

步骤四：通过神经网络与强化学习的不断迭代，得到最大的累积Q函数，并得出最优策略。在训练迭代的过程中遵循一个目标，即找到一个最优策略使最大累积Q函数最大：

而在寻找最优策略的过程中遵循ε-贪婪策略的原则，其中0<ε<1,即当在执行动作的时候，agent会以1-ε的概率执行之前使最大累积Q函数最大的动作，而为了保证算法有一定的探索性，agent会以ε的概率执行其他的探索性动作，使算法更容易找到最优策略。ε的值会随着训练的进展逐渐趋于0，使算法能够收敛于最优策略。

而整个方法的步骤即为获取系统交通状态s后，根据ε-贪婪策略随机执行一个动作a并得到一个回报r，最终目的是使选取的动作策略可以使最大累积Q函数最大，同时利用卷积神经网络不断逼近目标值函数，此过程一直重复，直到算法收敛，得到最优策略。

而在对实际道路交叉口信号机进行配时优化时，利用已经训练好的算法，对不同时段的交通信号配时进行优化，区分是否为双休日之后，本方法可以应用在全年任意时间段，对相应的交叉口进行最优信号控制。

上述实例为本发明较佳的实施方式，但是本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于SUMO交通仿真软件，通过深度强化学习的方法对单点交叉口信号配时进行优化的方法，其特征在于包括如下步骤：

2.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法，其特征在于：将实际道路数据输入网络，训练学习出一套适合于该交叉口的信号配时优化方案。

3.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法，其特征在于：输入深度神经网络的矩阵的新颖性，将仿真时的车辆位置、速度和时间等信息转换为矩阵图，在已知车道长度为d的情况下，从停车线起划分单元网格，网格长度d约为平均车长加上平均车间距。此时若有车占据某一网格，在平面矩阵中将此位置标为1，若某网格中没有车，则标为0。根据这个原则，则可在矩阵左侧将各个车道的车辆数表示。将车速小于15kph的车定义为正在排队的车辆，此时在矩阵右侧记录相对应的每辆车车速，在矩阵右上侧为输入数据的时段，标有数字1所对应的时刻代表着输入的数据来自于此时段，而矩阵右下角的数字1代表数据来自于周末，其上方的数字则表示交叉口信号状态。矩阵中的信号状态定义为：[0,0]为东西直行，[0，1]为东西左转，[1,0]为南北直行，[1,1]南北左转。

4.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法，其特征在于：利用深度神经网络逼近值函数的最优解，并对值函数和目标函数的参数进行迭代更新。

5.根据权利1要求的一种基于深度强化学习对单点交叉口进行信号配时优化的方法，其特征在于：通过ε-贪婪策略和经验池回放的方法对动作及输入进行随机选择，从而使算法能够收敛于最优策略。