CN115762128A

CN115762128A - 一种基于自注意力机制的深度强化学习交通信号控制方法

Info

Publication number: CN115762128A
Application number: CN202211189215.3A
Authority: CN
Inventors: 周大可; 任安妮; 杨欣
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-09-28
Filing date: 2022-09-28
Publication date: 2023-03-07
Anticipated expiration: 2042-09-28
Also published as: CN115762128B

Abstract

本发明公开了一种基于自注意力机制的深度强化学习智能交通信号控制方法，包括路网环境及车流数据建模、深度强化学习算法选择与三要素设计、引入自注意力机制、训练模型的步骤，通过引入自注意力机制，使得神经网络自动地关注重要的状态分量以增强网络的感知能力，提升了信号控制效果，并减少了状态向量设计的难度。

Description

一种基于自注意力机制的深度强化学习交通信号控制方法

技术领域

本发明涉及智能交通控制技术领域，尤其涉及结合深度强化学习方法的交通信号控制方法。

背景技术

当前，城市的交通拥堵问题日趋严重，造成了巨大的经济成本和时间浪费。交通拥堵是由多种因素引起的，如交通超载、车道结构设计不良等。有些因素需要复杂的政策或长期规划。而有效的交通信号控制是提高车道通行效率、缓解交通拥堵最直接、成本最低的途径。

随着人工智能技术的发展，基于强化学习(Reinforcement Learning，RL)的信号控制成为一种很有前途的交通信号控制解决方案。强化学习是一种“试错”的学习方法，通过与环境交互来学习最优策略。在交通信号控制中，可以把一个或几个交叉口看成一个智能体(Agent)，智能体观测路网状态后做出决策，通过最大化环境反馈的奖励来学习最优的信号控制方案。受到人脑工作模式的启发，深度学习(Deep Learning，DL)能够把底层特征组合形成更加抽象的高层特征，从而有效地处理高维数据。深度强化学习(DeepReinforcement Learning，DRL)是深度学习和强化学习相结合的产物，它集成了深度学习感知问题上强大的理解能力，以及强化学习的强决策能力，实现了端到端学习，十分适用于交通信号控制领域。

近年来，深度强化学习方法在交通信号灯控制问题上取得了一定的进展。如Zheng等(ZHENG G,XIONG Y,ZANG X,et al.Learning phase competition for traffic signalcontrol[C]//Proceedings of the 28th ACM International Conference onInformation and Knowledge Management.2019:1963-1972.)提出FRAP模型，通过捕捉不同相位信号之间的竞争关系，实现在交通流中翻转、旋转等对称情况的不变性。Jamil等(JAMIL A,GANGULY K K,NOWER N.Adaptive traffic signal control system usingcomposite reward architecture based deep reinforcement learning[J].IETIntelligent Transport Systems,2021:2030-2041)提出了一种复合奖励结构(CRA)来优化多个目标，并提出了一种新的协调方法，以获得整体畅通的交通流。但现有的DRL交通信号控制方法中，仅仅使用传统的深度神经网络，复杂交通场景下其感知能力有限；并且，状态作为强化学习的三要素之一，现有方法中的交通状态的设计难度较大，如何使交通状态的参数设计的更加精准也存在改进空间。

发明内容

发明目的：针对以上缺点，本发明提供一种基于自注意力机制的深度强化学习交通信号控制方法，目的是增强神经网络的感知能力进而提升交通信号控制效果，并且降低了状态向量设计的难度。

为实现上述目的，本发明采用以下技术方案：

一种基于自注意力机制的深度强化学习智能交通信号控制方法，包括如下步骤：

(1)路网环境、车流数据建模；对路网进行建模，建模的路网中包括单交叉口和多交叉口，并在路网建模中模拟车辆的生成；

(2)深度强化学习算法选择与包括状态、动作、奖励的三要素设计；选择基于DQN的DRL模型控制交通信号；

对该DRL模型中的智能体状态的设计为：将车道均匀划分成网格，统计每个网格中车辆的数目作为状态向量，该状态向量作为输入状态，并对应状态设计动作与奖励；其中，智能体的动作为从预定义的动作集中选择动作；

(3)智能体观察环境得到输入状态后，使用自注意力机制层Self Attention-Layer将各条车道的状态向量视为自然语言处理技术中的词分量，显式的捕捉全局状态的关系；将各条车道的若干输入状态经过注意力机制层后形成输出状态；

(4)DQN使用经验回放机制来进行训练学习，将智能体与环境交互获得的样本存入经验池中，从经验池均匀采样批量样本，使用随机梯度下降方法训练深度神经网络得到目标Q网络作为最终控制模型。

进一步的，步骤(1)中，用SUMO仿真软件对交叉口进行建模，每个交叉口都是双向六车道；车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹，本发明中车辆的生成服从韦伯分布，设置三种车辆密度，分别对应低、中、高三种流量条件，每辆车以一定的概率直行或是转弯。

进一步的，步骤(2)中DRL模型采用DQN，使用经验回放来更新目标Q值，智能体状态如下设计，首先将车道均匀划分成网格，统计每个网格中车辆的数目作为状态向量；动作定义为选择一个可能的绿灯相位，包含4种相位，为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯，每个绿灯相位设置最小持续时间与最大持续时间，绿灯和红灯切换期间会执行一定时长的黄灯；奖励定义为相邻时间步的所有车道车辆排队长度之差。

进一步的，步骤(3)中，自注意力机制层将n条车道的d个状态视为n个词的d维分量，输入状态表示为s＝(s₁,s₂,...,s_n),s_i∈R^d，输出状态表示为s^am＝(s₁ ^am,s₂ ^am,...,s_n ^am),s_i ^am∈R^d，其中s_i和s_i ^am分别为经过注意力机制层前、后的第i条车道的d维状态向量；输出状态s^am中的分量

是由输入状态分量s_i经过线性变换后并计算其加权和得到：

进一步的，步骤(4)中DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子；深度Q网络为全连接神经网络，均方误差作为损失函数，选用Adam优化器，相关超参数包括深度、宽度、学习率、批处理大小、训练迭代次数。

有益效果：本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1、本发明提出了一种基于自注意力机制的深度强化学习交通信号控制模型，其中的DQN算法在计算效率、算法可靠性和实现难易程度之间取得较好的平衡，适用于各种情景的交通信号灯控制；为了增强控制模型对于复杂交通场景的感知能力，本发明创新性地在DQN中引入了自注意力机制，使得深度神经网络自动地关注重要的状态分量，提升了模型的信号控制效果，并且降低了状态向量设计的难度。

2、在单交叉口、多交叉口的两种交通流量条件下验证了所提模型的有效性，仅仅使用简单的交通状态，本发明的控制效果也有较为显著的提升。车流数据模拟了现实中高低峰的情况，具有工程应用价值。

附图说明

图1是本发明的基于自注意力机制的DRL交通信号控制方法网络结构图。

图2是本发明的以十字交叉口西向车道为例的状态设计图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，一种基于自注意力机制的DRL智能交通信号控制方法，具体步骤如下：

步骤1：用SUMO建模产生交叉口模型，交叉口为双向6车道，车道长500m，沿着车辆的行驶方向，左边车道为左转车道，中间车道为直行车道，右边车道为直行加右转车道。车流数据包括车辆生成方式、仿真时长、车辆数目和行驶轨迹。本发明中车辆的生成服从韦伯分布，可以模拟现实生活中交通高低峰的情形，具有工程应用价值，其概率密度函数为：

其中λ是比例参数，设定为1，δ是形状参数，设定为2。仿真一个回合数为300回，车辆数目设为1000、2000、3000，分别对应低、中、高三种流量条件。车辆长度为5m，加速度为1m/s²，最大速度为50km/h，进入路网速度为36km/h，车辆之间的最小间距为2.5m，车辆行驶时以75％的概率直行，12.5％的概率左转，12.5％的概率右转。

步骤2：本发明以深度Q网络(Deep Q-Network,DQN)为基准算法，该网络主要结合了值函数近似和神经网络技术，并采用了目标网络和经历回放的方法进行训练。

接下来定义强化学习的三要素：状态、动作和奖励。

本发明中，由于使用自注意力机制，可以使用简单方法来设计状态向量。如图2所示，以双向6车道、长为500米的单交叉口的西进口道为例，该西进口道分成两条车道，左转车道看成一条车道，其余两条车道整体看成另一条车道；将两条车道分割成长度相同的d个(本发明中d＝10)网格，则第i条车道对应的状态向量为s_i＝(s_i1,s_i2,...,s_id),s_i∈R^d，其中标量s_ij代表第i条车道的第j个网格中的车辆数量。该单交叉口共有n(该例中n＝8)条车道，因此，其状态向量为：s＝(s₁,s₂,...,s_n),s∈R^nd

智能体在获得状态s后，根据一定的策略从预定义的动作集中选择动作a。本发明动作集合包含4个动作(相位)，即南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯。每个相位的最短持续时间设为10s，同时为了交通安全，绿灯和红灯切换期间会有时长3s的黄灯。

智能体在t时刻执行动作后，得到环境对该动作的奖励。t时刻奖励定义为相邻时间步的所有车道车辆排队长度之差：

r_t＝αq_t-q_t+1 (2)

其中，q_t表示t时刻路网中所有车道的排队长度之和，α为折扣系数，通过经验和多次实验后设为0.9。

在本实施例中，对于多交叉口情况，采用多智能体强化学习(Multi-AgentReinforcement Learning,MARL)的方法控制交通信号，每个交叉口的交通信号都由一个智能体控制，采用状态信息交互和空间折扣因子来实现多智能体协作。以2×2的井字形路网为例，对于左上方的交叉口，其智能体的输入状态除了当地交叉口的交通信息，还包括右上方交叉口以及左下方交叉口相连车道的交通信息；其t时刻奖励为所有相邻交叉口奖励的加权和，表示为：

r_t＝β₁r_t ^tl+β₂r_t ^tr+β₃r_t ^ll+β₄r_t ^lr (3)

其中r_t表示t时刻左上方交叉口智能体的奖励，r_t ^tl、r_t ^tr、r_t ^ll和r_t ^lr分别表示各交叉口独立情况下左上、右上、左下、右下交叉口的奖励，β₁、β₂、β₃、β₄表示加权系数，本发明中分别定义为0.5、0.2、0.2、0.1。

步骤3：智能体观察环境得到输入状态后，本发明使用自注意力机制层SelfAttention-Layer(SAL)将各条车道的状态视为NLP(自然语言处理技术)中的词分量，显式的捕捉全局状态的关系，从而增加状态表达准确度。

自注意力机制层将n条车道的d个状态视为n个词的d维分量(本发明中n设为8，d设为10)，输入状态(Input state)表示为s＝(s₁,s₂,...,s_n),s_i∈R^d；R^d，代表d维实向量，输出状态(state)表示为s^am＝(s₁ ^am,s₂ ^am,...,s_n ^am),s_i ^am∈R^d，其中s_i和s_i ^am分别为经过注意力机制层前、后的第i条车道的d维状态向量。自注意力机制层中，Q、K、V分别表示query、key、value，它们是用于计算注意力分数的高维向量，d_k为其维度(本发明中d_k设为64)。Q，K，V分别定义如下：

Q_i＝W^qs_i ^T (4)

K_i＝W^ks_i ^T (5)

V_i＝W^vs_i ^T (6)

其中，T代表转置运算，

W^v∈R^d×d是在训练过程中学习得到的权重矩阵。

接下来对每一个Q_i和K_j做Attention计算，如图1所示，其中的α_i,j定义为：

输出状态s^am中的分量

是由输入状态分量s_i经过线性变换后并计算其加权和得到：

上式中，首先计算相似度Q_i ^TK_j，再除以

这样可以使渐变更加稳定，接着用softmax函数归一化，最后乘以权值V_j。图1中，α′_i,j是α_i,j经过softmax函数归一化后的对应值。

步骤4：DQN使用经验回放机制进行训练学习来更新目标价值网络，将智能体与环境交互获得的样本(s^am,a,r,s)存入经验池中，从经验池均匀采样小批量样本，使用随机梯度下降方法训练深度神经网络使其逼近Q值，随机采样能够打破样本间的强相关性，使训练收敛稳定。在本实施例中，DRL训练的相关超参数设置如下：训练回合数为300、经验池最小尺寸为600、最大尺寸为50000、折扣因子为0.75。Q网络为全连接神经网络，使用均方误差损失函数，选用Adam优化器，相关参数设置如下：隐藏层数为400、学习率为0.001、批处理大小为100、训练迭代次数为800。

在DQN模型中，使用神经网络得到最佳Q函数：

其中，γ为衰减系数。智能体在观察状态s^am并采取动作a后，通过行为策略π＝P(a|s^am)，以得到的最大累积奖励。

当前Q网络用Q(s^am,a；θ_i)表示，目标Q网络用Q′(s^am,a'；θ_i ^-)表示，其中θ_i和θ_i ^-表示第i次迭代的网络参数。DQN的误差函数为：

其中，(s^am,a,r,s)表示经验数据，U(D)表示经验数据的回放记忆单元。在训练过程中，DQN从回放记忆单元中随机少量地抽取经验数据进行训练，误差函数对参数θ求偏导得到：

其中，

神经网络的参数采用梯度下降的方式进行更新。

模型训练完成后，用SUMO生成的车流数据对上述训练好的模型进行测试：将上述实施例中形成训练好的模型相比于著名的基于深度强化学习的CRA模型(Jamil等.IETIntelligent Transport Systems,2021:2030-2041)，本发明中的模型在队列长度、等待时间、燃油消耗、CO2排放这四个交通指标上，分别减小了14.71％、14.78％、6.98％、6.97％，能够实现预期的技术效果。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于自注意力机制的深度强化学习智能交通信号控制方法，其特征在于，包括如下步骤：

对该DRL模型中的智能体状态的设计为：将车道均匀划分成网格，统计每个网格中车辆的数目作为状态向量，该状态向量作为输入状态，并设计动作与奖励；其中，智能体的动作为从预定义的动作集中选择动作；

(3)智能体观察环境得到输入状态后，使用自注意力机制层Self Attention-Layer将各条车道的状态向量视为自然语言处理技术中的词分量，显式的捕捉全局状态的关系；将各条车道的输入状态经过注意力机制层处理后形成输出状态；

2.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法，其特征在于：

步骤(1)中，用SUMO仿真软件对交叉口进行建模，每个交叉口都是双向六车道；车流数据包括仿真时长、车辆生成方式、车辆数目以及行驶轨迹，本发明中车辆的生成服从韦伯分布，设置三种车辆密度，分别对应低、中、高三种流量条件，每辆车以一定的概率直行或是转弯。

3.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法，其特征在于：步骤(2)中DRL模型采用DQN，使用经验回放来更新目标Q值，智能体的状态如下设计，首先将车道均匀划分成网格，统计每个网格中车辆的数目作为状态向量；动作定义为选择一个可能的绿灯相位，包含4种相位，为南北方向直行和右转绿灯、南北方向左转绿灯、东西方向直行和右转绿灯、东西方向左转绿灯，每个绿灯相位设置最小持续时间与最大持续时间，绿灯和红灯切换期间会执行一定时长的黄灯；奖励定义为相邻时间步的所有车道车辆排队长度之差。

4.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法，其特征在于：步骤(3)中，自注意力机制层将n条车道的d个状态视为n个词的d维分量，输入状态表示为s＝(s₁,s₂,...,s_n),s_i∈R^d，输出状态表示为s^am＝(s₁ ^am,s₂ ^am,...,s_n ^am),s_i ^am∈R^d，其中s_i和s_i ^am分别为经过注意力机制层前、后的第i条车道的d维状态向量；输出状态s^am中的分量

是由输入状态分量s_i经过线性变换后并计算其加权和得到：

5.根据权利要求1所述的基于自注意力机制的深度强化学习智能交通信号控制方法，其特征在于：步骤(4)中DRL相关超参数包括训练回合数、经验池最小尺寸、最大尺寸、折扣因子；深度Q网络为全连接神经网络，均方误差作为损失函数，选用Adam优化器，相关参数包括网络深度、宽度、学习率、批处理大小、训练迭代次数。