CN114038212A

CN114038212A - 基于双阶段注意力机制和深度强化学习的信号灯控制方法

Info

Publication number: CN114038212A
Application number: CN202111214138.8A
Authority: CN
Inventors: 周大可; 邱存孝; 杨欣; 吴庆宪
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-10-19
Filing date: 2021-10-19
Publication date: 2022-02-11
Anticipated expiration: 2041-10-19
Also published as: CN114038212B

Abstract

本发明公开了一种基于双阶段注意力机制和深度强化学习的信号灯控制方法，首先，根据交叉口路段的实际情况，建立能够反映当前交通网络状态的张量；其次，融合双阶段注意力机制的状态预处理；然后，建立基于深度强化学习算法A2C的交叉口信号控制神经网络模型；最后，利用PPO算法训练交叉口信号控制神经网络模型；将当前交叉口的实际交通状态信息输入训练好的神经网络模型，得到有利于改善当前交通通行指标的信号控制方案。本发明融合了双阶段注意力机制的深度强化学习信号控制模型将具有更强的提取交通状态的细节信息和应对变化的交通状态的能力，在信号控制策略上更具主动性。

Description

基于双阶段注意力机制和深度强化学习的信号灯控制方法

技术领域

本发明属于交通信号控制(Traffic Signal Control,TRC)领域，具体涉及一种基于双阶段注意力机制和深度强化学习的信号灯控制方法。

背景技术

现代社会城市交通车流控制压力越来越大，交通运行状态中出现拥堵甚至阻塞的现象越来越多。交叉口是城市交通网络的枢纽和关键节点，交叉口的信号控制是调节城市交通网络中交通流的中主要方式之一，因此改善和优化交通灯的信号控制方案是解决交通拥堵问题的重要手段。当前主流的交通信号灯控制策略通通常基于简化的交通信号控制模型，如SCATS(Sydney Coordinated Adaptive Traffic System)自适应交通控制系统。但是，由于交通信号控制系统是一个涉及人、车和路网环境等因素的复杂大系统，具有高度的不确定性和非线性；因此，基于简化模型的传统方法在实际应用中效果有限。

人工智能、导航定位等技术的不断发展可帮助获取有关车辆位置和速度等更多实时精确的交通信息，为实现交通信号的智能化控制提供了新的契机。深度强化学习(DeepReinforcement Learning，DRL)算法融合了深度学习(Deep Learning，DL)的强信息感知能力和强化学习(Reinforcement Learning，RL)的决策能力，不需要提前掌握城市道路环境和具体的车流状况，神经网络模型通过与城市道路环境的不断交互，在试错中学习经验和获得智能判别的能力，非常适合处理交通信号控制问题。Prashanth等(选择车道排队长度和信号灯时间作为交通信息状态，并将数据离散化为不同级别，该方法在简化交通状态信息复杂度的同时也丢失了部分细节信息。Choe等提出了单交叉口场景下基于循环神经网络(Recurrent Neural Network，RNN)的DQN模型。RNN网络虽然可以学习利用部分历史状态信息，但强化学习的训练过程依赖于一阶马尔可夫决策过程，面对交通流量的变化，其调控能力仍具有一定的滞后性。基于此，本发明设计了一种融合双阶段注意力机制的深度强化学习交通信号灯控制方法。

发明内容

发明目的：本发明提出一种基于双阶段注意力机制和深度强化学习的信号灯控制方法，能够根据当前路况状态调整路口相位，使得当前交通灯控制策略有利于最小化区域交叉口拥堵。

技术方案：本发明所述的一种基于双阶段注意力机制和深度强化学习的信号灯控制方法，包括以下步骤：

(1)根据交叉口路段的实际情况，建立能够反映当前交通网络状态的张量；

(2)利用双阶段注意力机制网络进行状态预处理；第一层注意力机制循环神经网络f₁自适应地选取每个时间步状态x_t的各特征，掌握交通状态空间分布细节信息；第二层注意力机制循环神经网络f₂以每个时间步的前三个历史状态为输入，利用交通状态时序相关性大的特点增强信控模型的主动控制能力；

(3)基于深度强化学习算法A2C建立交叉口信号控制神经网络模型；

(4)利用PPO算法训练交叉口信号控制神经网络模型：利用SUMO搭建路网和车流的仿真环境，神经网络模型通过SUMO的Traci接口与仿真环境交互，将步骤2中预处理后的状态

作为强化学习的状态

利用PPO算法训练网络得到最优的交叉口信号控制神经网络模型；

(5)将交叉口的当前相位与最优的交叉口信号控制神经网络模型输出进行拼接，Actor动作概率网路根据网络输出按照概率选择交叉口信号灯控制模型的最终相位结果。

进一步地，所述步骤(1)包括以下步骤：

(11)对进入交叉口的各路段车道按照与交叉口的距离进行等距元胞划分，得到每个车道的交通状态信息；

(12)重复步骤(11)，将各个方向的车道信息进行拼接，得到一个包含各个车道信息的状态向量,；

(13)采用四相位进行动作设计，分别对应交叉口4种绿灯相位：南北方向绿灯，东西方向绿灯，南北方向左转绿灯和东西方向左转绿灯；

(14)将瞬时奖励R定义为相邻时间步t之间路口所有车辆的累计平均等待时间之差：

R_t＝α(T_T+1-T_t) (4)

其中，T_t是第t个时间步内路网所有车辆的累计平均等待时间，T_t+1是第t+1个时间步内路网所有车辆的累计平均等待时间，α是常量，避免奖励值范围波动过大。

进一步地，所述步骤(2)包括以下步骤：

(21)第一层注意力机制循环神经网络自适应地选取状态各特征：对于当前时刻的状态输入x_t∈Rⁿ，引入注意力机制自适应地选取各个特征，即对t时刻状态x_t：

神经网络为其每个特征赋予一定的注意力权重

衡量了t时刻输入x_t的第k个特征的重要性，更新后的

表达式如下：

其中，x_t的不同特征包含的是不同车道和距离交叉口不同距离的交通状态元胞信息；

(22)第二层注意力机制循环神经网络用于处理状态序列预测问题；对于当前时刻t，建立当前时刻状态

与前两个时间步的状态

以及当前时刻t的输出

之间的关系；进入注意力机制，利用不同的网络参数，对不同时刻的

采用不同的权重系数，取t时刻状态

以及t时刻前两个时间步状态

和

得到

即为强化学习网络模型真正的输入状态。

进一步地，步骤(3)所述建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU，第三到第六为全连接层；所述第一层循环神经网络GRU为步骤2中第一层注意力机制的循环神经网络f₁；所述第二层循环神经网络GRU为步骤2中的第二层注意力机制循环神经网络f₂；所述第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入，输出分别是Actor动作概率网络和Critic价值网络。

进一步地，所述步骤(4)包括以下步骤：

(41)分别建立基于随机参数θ_a的Actor动作网络和基于随机参数θ_c的Critic评价网络作为新策略网络π'，再分别建立与Actor动作网络和Critic评价网络结构完全一样的旧策略网络π；

(42)初始化神经网络参数、交通仿真的状态和仿真次数、轨迹池等；

(43)在每个决策时间步，将从当前仿真窗口获取的状态S_t输入到旧策略π的Actor网络，状态经过两层循环神经网络预处理后，Actor网络根据输出概率参数随机选择一个动作，SUMO仿真软件根据选择的动作执行对应的相位，并获取环境反馈的奖励R_t和下一个S_t+1；

(44)利用OpenAI提出的PPO2算法，构建目标函数，通过与环境不断交互学习过程中，得到最优的交叉口信号灯控制模型；所述目标函数为：

其中，ε表示clip的阈值，A^θ′(s_t,a_t)表示优势函数，ratio表示新老策略比值：

有益效果：与现有技术相比，本发明的有益效果：本发明基于深度强化学习建立交叉口信号灯控制神经网络模型，其中PPO算法在实现的难易程度、采样复杂度和调试所需时间之间取得较好的平衡；由于交叉口车道数目、长度和相位设计等对神经网络结构的影响并不大，因此广泛适用于各种城市道路交叉口信号灯控制；为了控制模型更好地获取交通状态信息，本发明在设计深度神经网络结构方面创新性地加入了双阶段注意力机制的循环网络，其中空间双注意力网络着重运用学习的方法提取状态不同特征对控制模型做出决策的差异化影响；时间注意力网络则着重学习不同历史时刻状态对控制模型作出决策的差异化影响；基于此，信号控制模型将具有更强的应对变化的交通状态的能力，在信号控制策略上更具主动性。

附图说明

图1为城市道路典型交叉口模型和状态设计图；

图2为路口四相位设计图；

图3为第一层注意力机制循环神经网络结构图；

图4为第二层注意力机制循环神经网络结构图；

图5为融合双阶段注意力机制的A2C网络结构图；

图6为基于A2C的近端策略优化算法的训练过程示意图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明提出一种基于双阶段注意力机制和深度强化学习的信号灯控制方法，在深度神经网络结构上做了优化，融合了双阶段注意力机制网路，第一阶段注意力机制模型使得神经网络可以更准确掌握交通状态空间分布细节信息，第二阶段注意力机制模型利用三个历史状态信息预测未来交通状态，利用交通状态时序相关性大的特点，克服模型调控具有一定滞后性的不足，使得信号控制策略更具主动性和超前性。具体包括以下步骤：

步骤1：根据交叉口路段的实际情况，建立能够反映当前交通网络状态的张量；强化学习三要素包括状态、动作和奖励，参数设计参考路段长度宽度、车道数目、实时路况交通数据、以及各个交叉路口交通信号机的相位方案等数据。建立能够反映交叉口原始交通状态的步骤如下：

(1.1)对进入交叉口的各路段车道按照与交叉口的距离进行等距元胞划分，得到每个车道的交通状态信息。

如图1所示是一个常见的四相位交叉口，东、西、南、北四个侧面连接的都是双向六车道道路，所有车道靠右侧行驶，按图中箭头所指方向行驶。为快速高效提取交通原始状态信息，节省计算资源，将与交叉口相连的各路段的各个车道均分成等距元胞，如图2所示，本发明仿真设置中车辆长度为4.5m，因此元胞长度取5m。所以元胞中如果有车只能是数量为1，本发明中元胞i信息为M_i,M_i的计算公式如下：

其中，d_i表示车辆延迟：

其中，v_i是当元胞内有车辆时车辆速度，若没有则为0，v_f为当前路段允许行驶的极限速度，v_f＝20m/s，w_i为：

其中，D_i为元胞i到交叉口的距离，L为元胞所属车道的总长度，此处设置L＝400m。

(1.2)重复步骤(1.1)，将各个方向的车道信息进行拼接，得到一个包含各个车道信息的状态向量。在得到各个元胞信息后，将各车道的元胞信息组合拼接成(1,n)维度的向量，得到原始交通状态的张量表示。

(1.3)动作定义如图2所示的四相位组合，分别对应交叉口4种绿灯相位，如图3所示，从左向右依次为南北方向绿灯(NSG)，东西方向绿灯(EWG)，南北方向左转绿灯(NSLG)和东西方向左转绿灯(EWLG)。

(1.4)将瞬时奖励R定义为相邻时间步t之间路口所有车辆的累计平均等待时间之差：

R_t＝α(T_T+1-T_t) (4)

步骤2：利用双阶段注意力机制网络进行状态预处理：第一层注意力机制循环神经网络f₁可自适应地选取每个时间步状态x_t的各特征，掌握交通状态空间分布细节信息；第二层注意力机制循环神经网络f₂以每个时间步的前三个历史状态为输入，利用交通状态时序相关性大的特点增强信控模型的主动控制能力。

(2.1)第一层注意力机制循环神经网络自适应地选取状态各特征。为了学习并提取交通信号状态中包含的空间分布细节信息，本发明选取GRU循环神经网络实现第一层非线性激活函数f₁，f₁结构如图3所示，对于当前时刻的状态输入x_t∈Rⁿ，引入注意力机制自适应地选取各个特征，即对t时刻状态x_t，有：

神经网络为其每个特征赋予一定的注意力权重

衡量了t时刻输入x_t的第k个特征的重要性，

由

经过softmax函数进行归一化得到。更新后的

表达式如下：

其中，x_t的不同特征包含的是不同车道和距离交叉口不同距离的交通状态元胞信息。

(2.2)第二层注意力机制循环神经网络用于处理状态序列预测问题，第二层非线性激活函数f₂仍然采用GRU卷神经网络实现，如图4所示。对于当前时刻t，我们需要建立当前时刻状态

与前两个时间步的状态

以及当前时刻t的输出

之间的关系。这里同样进入了注意力机制，利用不同的网络参数，对不同时刻的

采用不同的权重系数，即：取t时刻状态

以及t时刻前两个时间步状态

和

得到

表达式如下：

即为强化学习网络模型真正的输入状态。

图4中神经网络参数

定义如下：

最终：

步骤3：基于深度强化学习算法(Advantage Actor Critic，A2C)设计交叉口信号灯控制神经网络模型，如图5所示。

建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU，第三到第六为全连接层。

第一层循环神经网络GRU，即为步骤2中的第一层注意力机制的循环神经网络f₁，f₁可自适应地选取每个时间步状态x_t的各个特征，学习并提取交通信号状态中包含的空间分布细节信息。

第二层循环神经网络GRU，即为步骤2中的第二层注意力机制循环神经网络f₂，f₂关注不同时刻的历史状态和当前状态对当前决策的影响程度的差异。

第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入，输出分别是Actor动作概率网络和Critic价值网络。

Actor网络和Critic网络除最后一层不同外，结构完全一样。其中步骤2中涉及的两层GRU循环神经网也是深度强化学习网络结构的前端部分，步骤2中状态预处理网络的输出

即为强化学习网络框架的状态输入。

步骤4：利用PPO算法训练交叉口信号灯控制神经网络。利用SUMO搭建路网和车流的仿真环境，神经网络模型通过SUMO的Traci接口与仿真环境交互，将步骤2中预处理后的状态

作为强化学习的状态

利用PPO算法训练网络得到最优的神经网络模型。包括以下步骤：

(4.1)分别建立基于随机参数θ_a的Actor动作网络和基于随机参数θ_c的Critic评价网络作为新策略网络π'，再分别建立与Actor动作网络和Critic评价网络结构完全一样的旧策略网络π。

(4.2)初始化神经网络参数、交通仿真的状态和仿真次数、轨迹池等。

(4.3)在每个决策时间步，将从当前仿真窗口获取的状态S_t输入到旧策略π的Actor网络，状态经过两层循环神经网络预处理后，Actor网络根据输出概率参数随机选择一个动作，SUMO仿真软件根据选择的动作执行对应的相位，并获取环境反馈的奖励R_t和下一个S_t+1。

(4.4)利用OpenAI提出的PPO2算法，构建目标函数，通过与环境不断交互学习过程中，得到最优的交叉口信号灯控制模型。目标函数为：

在监督学习中，设计损失函数、实现梯度下降很容易实现，但是在强化学习中，算法中有许多变化的部分导致训练过程极其不稳定，PPO则在实现的难易程度、采样复杂度和调试所需时间之间取得了较好的平衡。

基于近端策略PPO算法训练神经网络模型，网络参数以及部分指标的获取如图6所示，总体流程具体包括以下步骤：

1)初始化Actor动作网络和Critic评价网络的网络参数、交通仿真的状态和仿真次数、轨迹池等。

2)在每个决策时间步，将环境状态S_t输入到旧策略π的Act)r_)ld网络，网络根据输出概率参数随机选择一个动作a_t，SUMO仿真软件根据选择的动作执行对应的相位，并获取环境反馈的奖励R_t和下一个S_t+1。

3)循环步骤2)，存储[(s_t,a_t,r_t),s_t+1]和动作概率pr)b_)ld。这个过程中Actor_old网络并没有更新。

4)利用存储的所有瞬时奖励r_t计算折扣奖励R_t。

5)把存储的所有状态S_t输入Critic_new网络，得到所有的状态价值state_values，计算优势函数A_t＝R-state_values。

6)利用Critic_loss＝mean(square(A_t))更新Critic网络。

7)将存储的状态集合states动作集合actions输入到Actor_new网络得到动作概率集合prob_new，这样就得到了策略更新比例ratio。

8)利用OpenAI提出的PPO2算法，构建目标函数，并更新Actor_new网络。

9)重复步骤5)～8)循环一定步数之后，利用Actor_new网络参数更新Actor_old网络。智能体通过与环境不断交互学习过程中，得到最优的交叉口信号灯控制模型。

步骤5：将交叉口的当前相位与步骤4中的神经网络输出进行拼接，Actor动作网路根据网络输出按照概率选择交叉口信号灯控制模型的最终相位结果；

交叉口是城市交通网络的枢纽和关键节点，交叉口的信号优化是提高城市交通网络交通运输效率的主要方式。本发明针对DRL应用于交通信号控制中存在的忽略交通状态空间耦合关系、忽略交通状态时序相关性大和面对变化的交通流主动应变能力不够突出的问题；两层注意力机制网络模型可以提高Agent信号控制的主动性，灵活性，帮助控制模型更好地学习交通状态在空间和时间维度上的信息，以更好地适应复杂变化的城市交通信号灯控制问题。

Claims

1.一种基于双阶段注意力机制和深度强化学习的信号灯控制方法，其特征在于，包括以下步骤：

作为强化学习的状态

2.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法，其特征在于，所述步骤(1)包括以下步骤：

R_t＝α(T_T+1-T_t) (4)

3.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法，其特征在于，所述步骤(2)包括以下步骤：

神经网络为其每个特征赋予一定的注意力权重

衡量了t时刻输入x_t的第k个特征的重要性，更新后的

表达式如下：

与前两个时间步的状态

以及当前时刻t的输出

采用不同的权重系数，取t时刻状态

以及t时刻前两个时间步状态

和

得到

即为强化学习网络模型真正的输入状态。

4.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法，其特征在于，步骤(3)所述建立的交叉口信号灯控制神经网络模型包括第一层循环神经网络GRU、第二层循环神经网络GRU，第三到第六为全连接层；所述第一层循环神经网络GRU为步骤2中第一层注意力机制的循环神经网络f₁；所述第二层循环神经网络GRU为步骤2中的第二层注意力机制循环神经网络f₂；所述第六层全连接神经网络将上一层网络的输出与当前相位状态进行拼接作为输入，输出分别是Actor动作概率网络和Critic价值网络。

5.根据权利要求1所述的基于双阶段注意力机制和深度强化学习的信号灯控制方法，其特征在于，所述步骤(4)包括以下步骤：