CN111260937B

CN111260937B - 一种基于强化学习的十字路口交通信号灯控制方法

Info

Publication number: CN111260937B
Application number: CN202010111549.3A
Authority: CN
Inventors: 吴黎兵; 王敏; 张瑞; 曹书琴
Original assignee: Shenzhen Research Institute of Wuhan University
Current assignee: Shenzhen Research Institute of Wuhan University
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2021-09-14
Anticipated expiration: 2040-02-24
Also published as: CN111260937A

Abstract

本发明公开了一种基于强化学习的十字路口交通信号灯控制方法，首先，将当前时刻十字路口的通行状态表示成Position和Speed矩阵；其次，在传统强化学习算法Deep Q‑network的基础上根据State的特征构建基于空间注意力机制的框架，其中主干网络为卷积神经网络；然后，根据贪婪策略随机选取或者从模型预测一个Action执行。如果当前时刻的Action和前一时刻的相同，那么就直接执行绿灯相位时间，并在此过程中不断训练网络；否则，首先执行黄灯相位时间，然后，再执行绿灯相位时间，同样在此过程中同样不断地训练网络；最后，所有训练回合结束后保存模型，然后测试并评估模型效果。本发明改进了现有的交通信号灯控制方法，使得车辆能够更快的通过十字路口，一定程度上缓解了交通拥堵。

Description

一种基于强化学习的十字路口交通信号灯控制方法

技术领域

本发明属于人工智能技术领域，涉及一种基于强化学习的交通信号灯控制方法，特别涉及一种改进的基于Deep Q-network模型的强化学习的交通信号灯控制方法。

背景技术

交通拥挤已经越来越影响人们的日常生活了，如何控制交通灯的切换成了一个亟待解决的问题。但是，传统固定时间(Fixed-time Light)切换的方法和基于交通反馈(Traffic Responsive)的方法已经能从根本上解决现有的交通拥堵，基于此，有人提出了用强化学习的方法来控制交通灯的切换。现有的基于强化学习的交通信号灯控制主要面临两大挑战，一是如何更好地表示环境(Environment)，二是如何从环境表示中抽取更有用的信息供代理(Agent)学习和预测。本发明主要根据这两大挑战同时针对现有的强化学习方法进行改进，具体体现在对转态(State)的表示和对模型的改进。

空间注意力机制(Spatial Attention Mechanism)最开始是用于图像处理领域的技术，主要用来关注图片上某些特定的部分，并给这些区域分配更大的权重，以此来表示这些区域的信息很重要。由于十字路口交通状态在表示的时候会出现车辆分布不均匀的情况，即在靠近路口的时候车辆相对比较密集。因此，在矩阵化的过程中也会出现矩阵稀疏的情况，基于此可以用空间注意力机制来给不同的十字路口区域分配不同的权重。

发明内容

本发明的目的是提供一种交通信号灯控制方法，通过强化学习的方法来控制十字路口红绿灯的切换，从而使得车辆尽快的通过十字路口，减少车辆等待时间。发明内容主要包括对现有State表示方法的改进和基于空间注意力机制的强化学习模型。

本发明所采用的技术方案是：一种基于强化学习的十字路口交通信号灯控制方法，其特征在于，包括以下步骤：

步骤1：对十字路口进行建模，分别定义强化学习三要素State，Reward，Action；

State要素的定义包含车辆位置和速度；首先把路口划分成网格，定义车辆的位置矩阵为P′＝[P′₀,P′₁,P′₂,P′₃]，其中P′₀,P′₁,P′₂,P′₃分别为每条车道车辆位置的表示；定义车辆的速度矩阵为V′＝[V′₀,V′₁,V′₂,V′₃]，速度矩阵表示的是车辆期望以多大的速度尽快离开路口；其中V′₀,V′₁,V′₂,V′₃为每条车道车辆速度表示，速度矩阵的每一个元素表示的是v_mn＝max speed-vehicle speed，vehicle speed表示车辆到达十字路口当前的速度，maxspeed表示车辆允许通行的最大速度；

Action要素的定义表示的是车辆能无碰撞安全的通过路口的红绿灯的状态，即如何在不同的状态之间进行切换能保证车辆安全通过路口；Action＝{NS，NSL，WE，WEL}，其中NS表示南北方向直行和右转绿灯，NSL表示南北方向左转绿灯，WE表示东西方向直行和右转绿灯，WEL表示东西方向左转绿灯；

Reward要素的定义是Environment从Agent中获取到的奖励，表示经过采取一个Action要素之后十字路口车辆减少的数目，即r_t＝β·W_t-W′_t；其中，r_t表示t时刻Agent返回来的奖励，β是折扣系数W_t表示在t时刻所有在路口等待车辆的总数，W_t′表示经过采取一个action要素之后所有在路口等待车辆的总数；

步骤2：依据强化学习算法构建基于空间注意力机制的Deep Q-network；

所述基于空间注意力机制的Deep Q-network主干网络是卷积神经网络CNN，依次为卷积层，Spatial Attention层，卷积层，然后接上两个全连接层，最后是Q-Values的输出；

步骤3：结合十字路口场景图自动生成车辆仿真数据，包括仿真模拟的时长车辆数目等，获得训练数据和测试数据集；本发明中仿真一个回合的时长设置为1小时，车辆数目设置为1000。

步骤4：准备训练数据300回合和测试数据100回合，全部由步骤3生成；

步骤5：根据训练数据，训练基于空间注意力机制的Deep Q-network，训练完之后保存最后的模型；

步骤6：定义评价指标，根据测试集，对基于空间注意力机制的Deep Q-network进行测试并评估；

步骤7：采用基于空间注意力机制的Deep-Q-network对卷积神经网络输出的特征向量进行处理。通过对路口进行建模，来对红绿灯进行切换，切换目的是使车辆在路口等待时间最少，切换所采取的行为Action由神经网络预测。

本发明与现有技术相比具有如下优点和有益效果：

(1)与其他基于强化学习的交通信号灯控制方法不同的是，本说明在定义State的时候改变了以往的不足，具体体现在对车辆位置和速度建模的时候，本说明克服了矩阵中整型0和浮点型0可能会互相混淆的缺点。

(2)在对十字路口建模之后，针对环境Environment的表示可能出现矩阵稀疏的情况，结合空间注意力机制，本发明可以更加有效的提取State中的信息。

(3)本发明使用两种不同车流量密度的仿真场景对所提出的方法进行试验和验证，并从车辆平均时延，车辆平均等待队列，车辆平均到达时间三个不同指标来验证模型的优势。

附图说明

图1为本发明实施例的原理图；

图2为本发明实施例十字路口的建模，包含对State中Position和Speed的定义；

图3为本发明实施例Action的切换示意图；

图4为本发明实施例基于空间注意力机制的Deep Q-network。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，为本发明原理图，主要包含Environment和Agent以及强化学习三要素State，Reward和Action。其执行过程是Agent和Environment相互交互，通过返回的Reward来调整红绿灯的切换，以此来训练模型和优化十字路口车辆的通行。

本发明提供的一种基于强化学习的十字路口交通信号灯控制方法，包括以下步骤：

State要素的定义包含车辆位置和速度；首先把路口划分成网格，定义车辆的位置矩阵为P′＝[P′₀,P′₁,P′₂,P′₃]，其中P′₀,P′₁,P′₂,P′₃分别为每条车道车辆位置的表示；定义车辆的速度矩阵为V′＝[V′₀,V′₁,V′₂,V′₃]，速度矩阵表示的是车辆期望以多大的速度尽快离开路口；其中V′₀,V′₁,V′₂,V′₃为每条车道车辆速度表示，速度矩阵的每一个元素表示的是v_mn＝max speed-vehicle speed，vehicle speed表示车辆到达十字路口当前的速度，maxspeed表示车辆允许通行的最大速度；对State要素的定义具体见图2。

Action要素的定义表示的是车辆能无碰撞安全的通过路口的红绿灯的状态，即如何在不同的状态之间进行切换能保证车辆安全通过路口；Action＝{NS，NSL，WE，WEL}，其中NS表示南北方向直行和右转绿灯，NSL表示南北方向左转绿灯，WE表示东西方向直行和右转绿灯，WEL表示东西方向左转绿灯；Action要素的切换见图3。

Reward要素的定义是Environment从Agent中获取到的奖励，表示经过采取一个Action要素之后十字路口车辆减少的数目，即r_t＝β·W_t-W_t′；其中，r_t表示t时刻Agent返回来的奖励，β是折扣系数W_t表示在t时刻所有在路口等待车辆的总数，W_t′表示经过采取一个action要素之后所有在路口等待车辆的总数；

本说明的强化学习模型主干网络是卷积神经网络(CNN),具体模型见图4，依次为卷积层，Spatial Attention层，卷积层，然后接上两个全连接层，最后是Q-Values的输出。Spatial Attention的作用是在一个二维的卷积特征向量上，假设经过第一层卷积之后的特征为M＝[m₁,m₂,...,m_n]，其中m_i∈R^W·H，n为第一层卷积神经元个数，m_i表示一个宽为W，高为H的高为空间向量，R表示向量空间；那么注意力权重的计算和新的特征向量过程如下：

其中

b_s∈R¹分别表示权重和偏置，C表示神经网络中输出神经元的个数，fm表示最终生成的feature map向量；σ是Sigmoid激活函数，r(·)表示向量的Reshape操作，

表示向量联结，

表示向量相乘；最终生成的fm是经过注意力权重和原来的特征M相乘的结果，表示权重已经分配到了每一个元素。

步骤3：结合十字路口场景图自动生成车辆仿真数据，包括仿真模拟的时长车辆数目等，获得训练数据和测试数据集；本发明中仿真一个回合的时长设置为1小时，车辆数目设置为1000。本实施例中，根据道路特征产生车辆数据直行占75％，包含三条lane；左转弯和右转车辆占25％，包含两条lane，每次按韦布尔分布(Weibull distribution)产生一小时的数据。

本实施例采用mini batch训练的方式，每次准备好一个mini batch的数据，扔到模型中训练，训练所采用的梯度计算算法是Adam，训练的时候梯度传递方式是反向传递。训练过程为回合制，即回合结束此次强化学习过程算结束。训练数据需要训练直到模型达到收敛转态，loss不再改变；测试数据只需要用预训练模型每次预测出Action即可。

具体实现包括以下子步骤：

步骤5.1：初始化统计参数R,T_wt,L,T_d，分别为平均奖励，平均等待时间，平均等待车辆队列长度，平均旅行时间，并初始化网络参数w，即神经网络中所有待更新的参数；

步骤5.2：设置回合数即训练迭代数episode为0,1,...,N；

步骤5.3：设置时间步step为0,1,...,T；

步骤5.4：获取t时刻路口的状态s_t，并根据ε贪婪策略选择一个随机的行为a_t(即t时刻Agent所采取的行动，也就是怎么切换红绿灯)，然后按照当前的行为a_t进行仿真模拟，仿真执行时长为一个绿灯时间的步长，ε_h＝(1-e/N)，e为当前的回合数，N为回合总数；执行a_t之后得到奖励值r_t，Environment达到下一个状态s_t+1；最后存储当前的(s_t,a_t,r_t,s_t+1)四元组到Memory，Memory是一个专门存储四元组的数组；

步骤5.5：具体过程包括以下子步骤；

步骤5.5.1：如果当前的行为a_t的和前一时刻的行为a_t-1相同那么就执行绿灯轮转，并在绿灯时间结束之前执行：从Memory中取出一个批次mini batch大小的数据，并计算当前action从环境返回的Q值Q(s,a)＝r+γmax_a(s′,a′,w)，γ为折扣系数，r为从环境获得的即时奖励，max_a(s′,a′,w)为表示当前时刻采取行动之后所获得的下一个状态的奖励的最大值，s′,a′分别表示下一个状态、下一个行为，w表示神经网络的参数。根据Q(s,a)训练基于空间注意力机制的Deep Q-network，其中待优化的损失函数loss为J＝1/m∑(Q(s,a)-Q(s,a,w))²，Q(s,a)为模型预测的Q值，Q(s,a,w)为存储在Memory中的Q值；然后更新step＝step+1，绿灯时间G＝G-1；

如果当前的行为a_t的和前一时刻的行为a_t-1不相同那么就执行黄灯轮转，并在黄灯时间结束之前执行：从Memory中取出一个批次mini batch大小的数据,并计算当前action从环境返回的Q值Q(s,a)＝r+γmax_a(s′,a′,w)，根据Q(s,a)训练模型，其中待优化的损失函数loss为J＝1/m∑(Q(s,a)-Q(s,a,w))²,Q(s,a)为模型预测的Q值，Q(s,a,w)为存储在Memory中的Q值，然后更新step＝step+1，黄灯时间Y＝Y-1；

步骤5.5.2：更新完黄灯轮转周期之后，接着按步骤5.5.1更新绿灯轮转周期；

步骤5.6：更新统计参数R,T_wt,L,T_d；

步骤5.7：回到步骤5.3,直到总训练步长step为T，表示训练完了一个回合，接下来执行步骤5.8；

步骤5.8：回到步骤5.1，直到训练完所有的回合，表示训练完所有的回合，接下来执行步骤5.9；

步骤5.9：所有训练回合结束后，保存基于空间注意力机制的Deep Q-network。

本实施例中，评价指标包括平均等待时延，平均等待队列长度和平均到达时间；平均等待时延

m为车辆的总数，wt_t为时刻t的等待时间，T为一回合的时长；平均等待队列长度

q_t为时刻t的车辆队列长度；平均到达时间

n_t为时刻t在仿真场景上运行的车辆总数。

本发明提供的一个基于强化学习的十字路口交通信号灯控制方法，除了改进State中位置和速度的表示之外，本发明的模型在传统Deep Q-network的基础上进行了扩充，加入了Spatial attention机制，能够更好地提取State中的信息，对不同位置的车辆分配不同的权重，加强了Agent和Environment之间的紧密联系。

本发明与其他方法相比主要有两大优势，首先是对State表示更加合理有效，避免了速度矩阵和位置矩阵中的0值的混淆，使得卷积神经网络能识别其中的值所代表的含义；另外本发明采用空间注意力机制能够有针对性的对卷积特征进行提取更有用的信息，而不是针对每一个元素分配一样的权重，这样能够使得最终模型效果更好。本发明旨在通过强化学习模型来对交通信号灯的切换顺序进行控制，更加合理的分配信号灯轮转周期，以此来减少车辆在路口等待的时间，提高交通通行效率，环境交通拥堵带来的压力。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的十字路口交通信号灯控制方法，其特征在于，包括以下步骤：

State要素的定义包含车辆位置和速度；首先把路口划分成网格，定义车辆的位置矩阵为P′＝[P′₀,P′₁,P′₂,P′₃]，其中P′₀,P′₁,P′₂,P′₃分别为每条车道车辆位置的表示；定义车辆的速度矩阵为V′＝[V′₀,V′₁,V′₂,V′₃]，速度矩阵表示的是车辆期望以多大的速度尽快离开路口；其中V′₀,V′₁,V′₂,V′₃为每条车道车辆速度表示，速度矩阵的每一个元素表示的是v_mn＝maxspeed-vehicle speed，vehicle speed表示车辆到达十字路口当前的速度，maxspeed表示车辆允许通行的最大速度；

步骤3：结合十字路口场景图自动生成车辆仿真数据，包括仿真模拟的时长车辆数目，获得训练数据和测试数据集；

步骤4：准备训练数据300回合和测试数据100回合；

步骤5的具体实现包括以下子步骤：

步骤5.2：设置回合数即训练迭代数episode为0,1,...,N；

步骤5.3：设置时间步step为0,1,...,T；

步骤5.4：获取t时刻路口的状态s_t，并根据ε贪婪策略选择一个随机的行为a_t，然后按照当前的行为a_t进行仿真模拟，仿真执行时长为一个绿灯时间的步长，ε_h＝(1-e/N)，e为当前的回合数，N为回合总数；执行a_t之后得到奖励值r_t，Environment达到下一个状态s_t+1；最后存储当前的(s_t,a_t,r_t,s_t+1)四元组到Memory，Memory是一个专门存储四元组的数组；其中，a_t即t时刻Agent所采取的行动，也就是怎么切换红绿灯；

步骤5.5：具体过程包括以下子步骤；

步骤5.5.1：如果当前的行为a_t的和前一时刻的行为a_t-1相同那么就执行绿灯轮转，并在绿灯时间结束之前执行：从Memory中取出一个批次mini batch大小的数据，并计算当前action从环境返回的Q值Q(s,a)＝r+γmax_a(s′,a′,w)，γ为折扣系数，r为从环境获得的即时奖励，max_a(s′,a′,w)为表示当前时刻采取行动之后所获得的下一个状态的奖励的最大值，s′,a′分别表示下一个状态、下一个行为，w表示神经网络的参数；根据Q(s,a)训练基于空间注意力机制的Deep Q-network，其中待优化的损失函数loss为J＝1/m∑(Q(s,a)-Q(s,a,w))²，Q(s,a)为模型预测的Q值，Q(s,a,w)为存储在Memory中的Q值；然后更新step＝step+1，绿灯时间G＝G-1；

步骤5.6：更新统计参数R,T_wt,L,T_d；

步骤5.8：回到步骤5.1，直到训练完所有的回合，接下来执行步骤5.9；

步骤5.9：所有训练回合结束后，保存基于空间注意力机制的Deep Q-network；

步骤7：采用基于空间注意力机制的Deep-Q-network对卷积神经网络输出的特征向量进行处理，通过对路口进行建模，来对红绿灯进行切换，切换目的是使车辆在路口等待时间最少，切换所采取的行为Action由神经网络预测。

2.根据权利要求1所述的基于强化学习的十字路口交通信号灯控制方法，其特征在于：步骤2中，Spatial Attention的作用是在一个二维的卷积特征向量上，经过第一层卷积之后的特征为M＝[m₁,m₂,...,m_n]，其中m_i∈R^W·H，n为第一层卷积神经元个数，m_i表示一个宽为W，高为H的空间向量，R表示向量空间；那么注意力权重α和a的计算和新的特征向量过程如下：

fm＝a*m_i；

其中w_s∈R^C*1，b_s∈R¹分别表示权重和偏置，C表示神经网络中输出神经元的个数，fm表示最终生成的feature map向量；σ是Sigmoid激活函数，r(·)表示向量的Reshape操作，

表示向量联结，

3.根据权利要求1所述的基于强化学习的十字路口交通信号灯控制方法，其特征在于：步骤6中，所述评价指标包括平均等待时延，平均等待队列长度和平均到达时间；所述平均等待时延

m为车辆的总数，wt_t为时刻t的等待时间，T为一回合的时长；所述平均等待队列长度

q_t为时刻t的车辆队列长度；所述平均到达时间

n_t为时刻t在仿真场景上运行的车辆总数。