CN115331460A

CN115331460A - 一种基于深度强化学习的大规模交通信号控制方法及装置

Info

Publication number: CN115331460A
Application number: CN202210877292.1A
Authority: CN
Inventors: 陆丽萍; 刘文清
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-07-25
Filing date: 2022-07-25
Publication date: 2022-11-11
Anticipated expiration: 2042-07-25
Also published as: CN115331460B

Abstract

本发明公开了一种基于深度强化学习的大规模交通信号控制方法及装置，通过构建并训练以DGN为框架，以大规模交通信号系统控制的多个路口的车流数据和相位信息作为输入状态，以输入状态对应的信号相位调控动作作为输出的大规模交通信号控制模型。使用图结构定义的状态表示和奖励函数，能够准确地描述交通信息，有效提升模型的训练效率和表现性能并具有良好的可扩展性，从而提高对于交通信号的控制效果。

Description

一种基于深度强化学习的大规模交通信号控制方法及装置

技术领域

本发明涉及交通信号控制技术领域，尤其涉及一种基于深度强化学习的大规模交通信号控制方法及装置。

背景技术

城市交通系统是社会经济发展的重要载体，广泛的日常交通量给现有的城市交通基础设施带来压力，进一步演化成了交通拥堵问题。交通拥堵会带来不必要的环境污染和能源浪费，也会增加交通事故的发生概率。为了缓解交通拥堵带来的危害，对现有的交通设施进行优化管理与控制，其中对交通信号的优化控制极其重要。

目前，我国各大城市采用传统固定配时的交通信号控制方法，这种周期循环的控制方法存在很多问题，如延误大、排队时间长、不能灵活地响应实时交通需求等，无法满足交通出行者期望的通行效率。

作为实现智慧交通和人工智能的关键技术，深度强化学习提高了在复杂任务上的学习能力，能够在动态的交通场景中通过交互完成任务，已适用于交通信号控制。深度强化学习通过与环境进行交互获得交通路口的观测值，对环境状态进行处理后形成奖励，然后做出最佳的相位选择动作作用于信号灯。

城市道路交通系统中的信号灯控制优化问题实际上是一个大规模协同优化问题，引入协调多智能体是对大规模交通进行整体控制的有力方法。然而，智能体的数量增多导致状态维度增大，参数的扩散、非平稳性，以及缺乏可转移性使模型训练具有挑战性。

由此可知，现有技术中的方法存在控制效果不佳的技术问题。

发明内容

本发明提供一种基于深度强化学习的大规模交通信号控制方法，用以解决现有的深度强化学习应用于大规模路网时导致的控制效果不佳的问题(在时间上造成的高延迟和故障率)，以及因环境不稳定而导致的学习效果不佳的问题。

为了解决上述技术问题，本发明第一方面提供了一种基于深度强化学习的大规模交通信号控制方法，包括：

S1：将大规模交通信号系统控制的交通路网构建为一个有向图，有向图的节点表示交通路口，边表示道路，大规模交通信号控制系统模型包括多个智能体，每个智能体与交通路网中的交通路口一一对应，设置深度强化学习模型的状态空间O、动作空间A和奖励值函数r；

S2：构建基于深度强化学习的大规模交通信号控制模型的整体架构，所述交通信号控制模型主体采用图卷积强化学习框架，包括状态编码模块、合作决策模块和Q值预测模块，大规模交通信号控制模型以每个路口的观测值作为输入状态，以输入状态对应的信号灯相位作为输出动作；

S3：获取大规模交通信号系统控制的多个交通路口的历史车流数据以及对应的信号灯相位，将历史车流数据以及对应的信号灯相位动作输入至大规模交通信号控制模型中进行迭代训练，得到训练好的基大规模交通信号控制模型；

S4：获取大规模交通信号系统控制的多个交通路口的实时车流数据，并输入到训练好的大规模交通信号控制模型中，得到大规模交通信号系统控制的交通路口的实时相位选择动作，其中实时相位选择动作用以指示交通路口的灯信号的执行情况。

在一种实施方式中，步骤S1包括：

S1.1：设置深度强化学习模型的状态空间O：

深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成，每个智能体获取与其对应交通路口的数据，模型的状态空间表示为O＝[o₁,o₂,…,o_n]，o_i表示第i个智能体的观测值，i＝1，2，…n，n为智能体的个数，观测值包括交通路口各车道上的车辆状态和当前信号灯状态信息，各个车道上的车辆状态为车辆的排队长度；

S1.2：设置深度强化学习模型的动作空间A：

模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成，表示为A＝[a₁,a₂,…,a_n]，a_i表示第i个智能体选择的信号灯相位，动作为可选的八信号相位，P＝[WET,NST,WEL,NSL,WLT,ELT,SLT,NLT]，其中WET代表东西直行通行，NST代表南北直行通行，WEL代表东西左转通行，NSL代表南北左转通行，WLT代表向东直行左转通行，ELT代表向西直行左转通行，SLT代表向北直行左转通行，NLT代表向南直行左转通行；当智能体选择的动作与当前相位相同时，则执行当前绿灯相位，否则先执行黄灯相位；

S1.3：设置深度强化学习模型的奖励值函数：

根据交通路口的排队长度和系统延迟设置奖励，交通路口i的奖励为：

其中，q_i(l)为对应交通路口的进入车道l的队列长度，C_i为交通路口i的车辆总数，

表示车辆t在第i个交通路口的延迟，v_t是车辆t的行驶速度，v_max是车辆在当前车道被允许行驶的最大速度。

在一种实施方式中，步骤S2的大规模交通信号控制模型中，状态编码模块的处理过程包括：

通过多层感知机将输入的低维观测特征转换为高维特征，其中，输入的低维观测特征由每个路口的观测值组合得到，包括交通状态特征和信号相位，属于同一车道的特征通过串联的方式进行组合，得到每个进站车道的特征表示。

在图卷积强化学习框架架构的基础上引入注意力机制，利用智能体通过利用注意力机制来学习相邻交通路口的表征，并通过一个权重矩阵W将状态编码模块输出的特征向量转化为更高层次的特征，然后确定源交通路口j对目标交通路口i的重要性，对节点进行自我注意机制计算注意系数，并将单头注意力机制扩展为多头注意力机制：

其中，k是第k个注意机制，h_i、h_j分别表示目标交通路口和源交通路口的特征向量，

分别是相应的目标交通路口和源交通路口的权重矩阵，

为目标交通路口和源交通路口之间的系数；

使用sofmax函数对目标交通路口和源交通路口之间的系数进行归一化：

其中

为归一化后的系数，τ是一个天气系数，Bi是目标交通路口邻域范围内的路口集合，邻域范围由与目标交通路口i的距离符合预设条件的路口组成；

建立邻近交通路口对目标交通路口的整体影响，将多个源交通路口的表示与它们各自的重要性相结合，其中，对于每个注意头，将所有输入特征的表现值进行关系加权并相加，再对智能体i的K个注意头的输出采取平均，然后经由ReLU函数，产生卷积层的输出h_im：

其中，

是源交通路口嵌入的权重参数，W_f和b_f是可训练的变量。

在一种实施方式中，步骤S2的大规模交通信号控制模型中，Q值预测模块的处理过程包括：

采用图注意力层来表示层间的合作过程以及输入数据的前向传播表示，并得到预测的Q值：

…

其中，L是图注意力层的数量，

表示经过第一层图注意力层的操作后得到的特征，h_i表示第一层图注意力层的输入特征，

表示经过第L层图注意力层的操作后得到的特征，

表示经过第L-1层图注意力层的操作后得到的特征，GAT¹表示第一层图注意力层的操作GAT^L表示第L层图注意力层的操作，Q(o_i)表示预测的Q值，W_p和b_p是要学习的参数，p是相位数。

在一种实施方式中，步骤S3包括：

S3.1：选定交通仿真软件，获取预设区域内各交通路口的车辆状态和当前信号灯状态信息，根据所述车辆状态和当前信号灯状态信息构建大规模交通信号控制仿真环境；

S3.2：初始化交通信号控制模型：初始化大规模交通信号控制模型的参数和模型训练参数；

S3.3：将获取的车辆状态和当前信号灯状态信息进行融合，作为大规模交通信号控制模型的输入，计算得到对应的Q值，具体包括根据贪心策略选择当前交通状态下交通信号的最佳动作，然后仿真软件执行动作，得到新的状态和奖励值，由此产生一条经验样本D＝(O,A,O′,R)，每条经验记录包括决策前后的状态O和O′、采取的动作A和奖励R；

S3.4：根据经验样本，从经验池中随机抽取样本，利用梯度下降算法优化大规模交通信号控制模型的参数。

在一种实施方式中，步骤S4包括：

S4.1：利用选定的交通仿真软件，获取预设区域内各交通路口的车辆状态信息和当前信号灯状态信息，构建仿真环境；

S4.2：利用训练好的大规模交通信号控制模型，以交通路网车辆状态信息和当前信号灯状态信息作为输入，选取动作对应的交通相位，交通路口执行相位操作。

基于同样的发明构思，本发明第二方面提供了一种基于深度强化学习的大规模交通信号控制装置，包括：

深度强化模型设置模块，将大规模交通信号系统控制的交通路网构建为一个有向图，有向图的节点表示交通路口，边表示道路，大规模交通信号控制系统模型包括多个智能体，每个智能体与交通路网中的交通路口一一对应，设置深度强化学习模型的状态空间O、动作空间A和奖励值函数r；

大规模交通信号控制模型构建模块，用于构建基于深度强化学习的大规模交通信号控制模型的整体架构，所述交通信号控制模型主体采用图卷积强化学习框架，包括状态编码模块、合作决策模块和Q值预测模块，大规模交通信号控制模型以每个路口的观测值作为输入状态，以输入状态对应的信号灯相位作为输出动作；

训练模块，用于获取大规模交通信号系统控制的多个交通路口的历史车流数据以及对应的信号灯相位，将历史车流数据以及对应的信号灯相位动作输入至大规模交通信号控制模型中进行迭代训练，得到训练好的大规模交通信号控制模型；

应用模块，用于获取大规模交通信号系统控制的多个交通路口的实时车流数据，并输入到训练好的大规模交通信号控制模型中，得到大规模交通信号系统控制的交通路口的实时相位选择动作，其中实时相位选择动作用以指示交通路口的灯信号的执行情况。

基于同样的发明构思，本发明第三方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现第一方面所述的方法。

基于同样的发明构思，本发明第四方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第一方面所述的方法。

相对于现有技术，本发明的优点和有益的技术效果如下：

本发明主要针对在复杂动态的城市交通环境下，大规模交通路网所面临的交通信号实时控制问题，现有的大规模交通信号控制方法多集中在利用传统的MARL(多智能体强化学习)，不能很好地获取智能体之间的相互作用表示。本发明采用的车辆排队长度和相位的交通状态信息，能够更好地描述交通路口之间的状态关系，比传统的基于深度强化学习的交通信号控制方法具有更好地性能表现。利用车辆排队长度和系统延迟作为奖励，既考虑了静态信息又考虑了动态因素，更加贴近现实场景。进一步地，本发明将图卷积强化学习应用到交通信号控制方面，合理解决现实世界中交通场景的复杂性问题，提高路网的通行效率。引入多头注意力机制，利用关系核的卷积，从逐渐增加的感受范围中提取潜在特征，可以更灵活地确定邻域范围，具有很好地拓展性，从而改善了整体的控制效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种实施例中基于深度强化学习的大规模交通信号控制方法的流程图。

图2是本发明的一种实施例中相位配时方案示意图。

图3是本发明的一种实施例中基于DGN框架的模型结构图。

具体实施方式

本发明提供了一种基于深度强化学习的大规模交通信号控制方法，用以解决现有的深度强化学习应用于大规模路网时在时间上造成的高延迟和故障率，以及因环境不稳定而导致的学习效果不佳的问题。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明实施例提供了一种基于深度强化学习的大规模交通信号控制方法，包括：

请参见图1，为本发明提供一种基于深度强化学习的大规模交通信号控制方法的流程图。其中，S2中的图卷积强化学习框架即DGN(Graph Convolutional ReinforcementLearning)框架。

如图3所示，大规模交通信号控制模型主体采用了DGN框架，主要由三个模块组成：状态编码、合作决策和Q值预测。

在一种实施方式中，步骤S1包括：

S1.1：设置深度强化学习模型的状态空间O：

深度强化学习模型的状态空间由大规模交通信号系统控制的各个交通路口的状态组成，每个智能体获取与其对应交通路口的数据，模型的状态空间表示为O＝[o₁,o₂,...,o_n]，o_i表示第i个智能体的观测值，i＝1，2，…n，n为智能体的个数，观测值包括交通路口各车道上的车辆状态和当前信号灯状态信息，各个车道上的车辆状态为车辆的排队长度；

S1.2：设置深度强化学习模型的动作空间A：

S1.3：设置深度强化学习模型的奖励值函数：

具体实施过程中，每个交通路口的排队长度为该路口的进站车道的总排队长度，表示为

q(l)表示l车道的车辆排队长度。信号灯的状态定义为信号的相位信息，每个交通路口的信号相位(哪个方向处于绿灯阶段)由一个one-hot(独热)编码表示，当前信号相位p＝[0,1,0,1,0,0,0,0]可知流向2和流向4为绿灯信号。

请参见图2，是本发明的一种实施例中相位配时方案示意图。

系统延迟用车辆的实际行驶时间与车辆以被允许的最大速度行驶时间之间的差值来表示。

具体来说，多层感知机即MLP(Multilayer Perceptron)。属于同一车道的特征包括交通状态特征和信号相位，交通状态特征具体可以用该车道的车辆的排队长度来表征，将属于同一车道的交通状态特征与信号相位通过串联的方式进行组合，从而得到每个进站车道的特征表示。

具体实施过程中，首先将输入的低维观测特征组合成观测特征，观测特征作为模型的输入，具体包括交通状态特征和信号相位，通过MLP(Multilayer Perceptron)将这些低维的观测数据转换为更高的维度。智能体的局部观测值o_i，即每条车道上的车辆排队长度和信号当前所处的相位，被编码成一个特征向量h_i：

h_i＝Embed(o_i)＝ReLU(o_iW_e+b_e)

其中，W_e和b_e是学习的权重矩阵和偏置向量，特征向量h_i作为生成的隐藏状态，代表第i个交通路口(即第i个智能体)的当前交通状况。

需要说明的是，本发明中，每个智能体与交通路口一一对应，因此，一个智能体代表一个交通路口。

分别是相应的目标交通路口和源交通路口的权重矩阵，

为目标交通路口和源交通路口之间的系数；

其中

其中，

是源交通路口嵌入的权重参数，W_f和b_f是可训练的变量。

具体来说，图卷积强化学习框架即DGN架构。通过智能体通过利用注意力机制来学习相邻交通路口的表征，从而可以提高模型的准确性。为了获得足够的表达能力，从不同位置的不同表示子空间共同关注邻域信息，对节点进行多头自我注意机制。

为了获得足够的表达能力，由一个权重矩阵W将特征向量h转化为更高层次的特征，为了从不同位置的不同表示子空间共同关注邻域信息，将单头注意力机制扩展为多头注意力机制。

为了使注意力值在不同的交通路口之间容易比较，使用sofmax函数对目标交通路口和源交通路口之间的系数进行归一化。具体实施过程中，可以通过两个交通路口的地理位置之间的距离构建目标交通路口的邻域范围。

h_im具体为对于每个注意头，将所有输入特征的表现值进行关系加权并相加后，再对智能体i的K个注意头的输出采取平均，然后经由ReLU函数产生卷积层的输出。

…

其中，L是图注意力层的数量，

表示经过第L层图注意力层的操作后得到的特征，

层间的合作过程和输入数据的前向传播，是指将上一层的输出作为下一层的输入，并计算下一层的输出，一直到运算输出层为止。具体实施过程中，模型的每个隐藏层通过状态编码模块、合作决策模块学习邻域表示，并进一步得到相应的输出，Q值预测模块则用GAT来表示层间的合作过程。

在训练过程中，每一次状态转移记作一个时间步，将每个时间步得到的训练样本(经验样本)(O,A,O′,R)存储到经验池中，每条经验记录包括决策前后的状态O和O′、采取的动作A和奖励R。从经验池中随机抽取一个大小为S的小批量，每一个智能体i使用行动值函数Q_i(θ)，通过最小化损失用神经网络拟合总奖励，在时序关系正则化的情况下损失函数为：

N是智能体的数量，y_i＝r_i+γmax_a Q(o′_i,a′_i；θ^*)，y_i为目标值，r_i为奖励值，γ是折扣系数，Q函数的参数θ和θ*分别表示智能体的主网络参数和目标网络参数，更新每个交通路口智能体的目标网络公式为θ^'*＝βθ+(1-β)θ^*，o′_i表示o_i的下一个观测值，θ^'*表示更新后的目标网络参数；

采用KL divergence来权衡当前注意分布与目标注意权重分布：

其中，λ是正则化损失的系数，

表示智能体i在x卷积层k注意头的关系表征的注意权重分布。

表示智能体i在x卷积层k注意头的下一关系表征的注意权重分布(目标关系表征的注意权重分布)，二者的区别是应用于不同状态的关系表征的注意权重分布，o′_i表示下一个状态。

在一种实施方式中，步骤S3包括：

具体实施过程中，重复执行步骤S3.4的直到满足预设更新次数。

在一种实施方式中，步骤S4包括：

具体实施过程中，步骤S4.2的执行过程中，以交通路网当前的交通状态信息作为输入，选取动作对应的交通相位，交通路口执行相位操作，获得下一个交通状态信息，然后以下一个交通状态信息作为输入进行动作的选取，重复执行该过程。

综上所述，本发明中的基于深度强化学习的大规模交通信号控制方法，通过构建并训练以DGN为框架，以大规模交通信号系统控制的多个路口的车流数据和相位信息作为输入状态，以输入状态对应的信号相位调控动作作为输出的大规模交通信号控制模型。使用图结构定义的状态表示和奖励函数，能够准确地描述交通信息，有效提升模型的训练效率和表现性能并具有良好的可扩展性。

实施例二

基于同样的发明构思，本实施例提供了一种基于深度强化学习的大规模交通信号控制装置，包括：

由于本发明实施例二所介绍的装置为实施本发明实施例一中基于深度强化学习的大规模交通信号控制方法所采用的装置，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该装置的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的装置都属于本发明所欲保护的范围。

实施例三

基于同一发明构思，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现如实施例一中所述的方法。

由于本发明实施例三所介绍的计算机可读存储介质为实施本发明实施例一中基于深度强化学习的大规模交通信号控制方法所采用的计算机可读存储介质，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机可读存储介质的具体结构及变形，故而在此不再赘述。凡是本发明实施例一的方法所采用的计算机可读存储介质都属于本发明所欲保护的范围。

实施例四

基于同一发明构思，本申请还提供了一种计算机设备，包括存储、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述程序时实现实施例一中的方法。

由于本发明实施例四所介绍的计算机设备为实施本发明实施例一中基于Transformer的增强了局部语义学习能力的3D点云分析方法所采用的计算机设备，故而基于本发明实施例一所介绍的方法，本领域所属人员能够了解该计算机设备的具体结构及变形，故而在此不再赘述。凡是本发明实施例一中方法所采用的计算机设备都属于本发明所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于深度强化学习的大规模交通信号控制方法，其特征在于，包括：

2.如权利要求1所述的基于深度强化学习的大规模交通信号控制方法，其特征在于，步骤S1包括：

S1.1：设置深度强化学习模型的状态空间O：

S1.2：设置深度强化学习模型的动作空间A：

模型的动作空间由大规模交通信号系统控制的各个交通路口的动作组成，表示为A＝[a₁,a₂,...,a_n]，a_i表示第i个智能体选择的信号灯相位，动作为可选的八信号相位，P＝[WET,NST,WEL,NSL,WLT,ELT,SLT,NLT]，其中WET代表东西直行通行，NST代表南北直行通行，WEL代表东西左转通行，NSL代表南北左转通行，WLT代表向东直行左转通行，ELT代表向西直行左转通行，SLT代表向北直行左转通行，NLT代表向南直行左转通行；当智能体选择的动作与当前相位相同时，则执行当前绿灯相位，否则先执行黄灯相位；

S1.3：设置深度强化学习模型的奖励值函数：