CN110969872A

CN110969872A - 基于强化学习和图注意力网络的交通信号控制方法及系统

Info

Publication number: CN110969872A
Application number: CN201911312842.XA
Authority: CN
Inventors: 薛贵荣; 徐凯
Original assignee: Shanghai Tianran Intelligent Technology Co ltd
Current assignee: Shanghai Tianran Intelligent Technology Co ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-07

Abstract

本发明提供了一种基于强化学习和图注意力网络的交通信号控制方法及系统，包括：初始化步骤：定义交通信号控制问题中各个变量，初始化交通信号算法模型；观测信息向量化步骤：通过多层感知机将观测信息向量降维，得到降维后的数据h_i；图注意力机制构建步骤：利用降维后的数据h_i，从注意力机制出发，构建适用于交通信号算法模型的注意力机制hm_i；损失函数构建步骤：根据注意力机制hm_i，计算损失函数；行为更新步骤：根据构建的交通信号算法模型中奖励函数，对损失函数进行迭代计算，以获得最终交通信号算法模型；预测结果计算步骤：根据构建的最终交通信号算法模型计算交通信号的控制策略π，实现信号控制；本发明适用于大规模复杂的交通道路情况。

Description

基于强化学习和图注意力网络的交通信号控制方法及系统

技术领域

本发明涉及计算机软件和交通领域，具体地，涉及一种基于强化学习和图注意力网络的交通信号控制方法及系统。

背景技术

当前在人们生活中最常见的一个问题是“如何协同控制不同交叉路口的信号灯？”交叉路口间信号灯的协同控制对于城市交通网络的效率至关重要，因为不同交叉路口的信号灯是互相影响的，尤其是当交叉路口间隔不远的时候。交叉路口信号灯间协作效果越好，则越有利于整个交通网络通行效率的提升。

在交通运输领域，一个比较经典的做法是在一定假设条件下，来解决交叉路口间信号灯的调节问题。然而，这种做法往往表现并不好，这主要是因为其所给予的假设并不一定适用于真实的交通场景。

目前，众多研究者们开始基于强化学习方法来解决交通信号灯间的协同工作问题。最普遍的做法是，用一个智能体来控制各个交叉路口信号，而智能体间的协同工作通过共享其信息来获得。在每一个步长内，智能体通过观察目标交叉路口的信号灯状态和其相邻的交叉路口的信号灯状态，来决定一下步所要采取的交通信号灯的亮灯策略。当这一步策略被执行后，将会有其相应的奖励机制来评价这一步策略的好坏程度。这样的学习过程与传统的方法有着很大区别，强化学习方法避免了事先设定假设条件，再以假设条件为基础来尝试获得好的策略。

但是，目前这类应用于交通信号控制领域的强化学习方法，还是没有能够实现交叉路口间信号的高效共享和协同控制。在本发明中，发明了一种基于强化学习与图注意力网络的交通信号控制方法来提高各个智能体之间的信息互通，从而提高整个交通网络信号控制的效果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种一种基于强化学习和图注意力网络的交通信号控制方法及系统。

根据本发明提供的一种基于强化学习和图注意力网络的交通信号控制方法，包括：

初始化步骤：定义交通信号控制问题中各个变量，初始化交通信号算法模型；

观测信息向量化步骤：通过多层感知机将观测信息向量降维，得到降维后的数据h_i；

图注意力机制构建步骤：利用降维后的数据h_i，从注意力机制出发，构建适用于交通信号算法模型的注意力机制hm_i；

损失函数构建步骤：根据注意力机制hm_i，计算损失函数；

行为更新步骤：根据构建的交通信号算法模型中奖励函数，对损失函数进行迭代计算，以获得最终交通信号算法模型；

预测结果计算步骤：根据构建的最终交通信号算法模型计算交通信号的控制策略π，实现信号控制；

所述交通信号算法模型：通过算法来实现交通信号的控制，交通信号的控制策略是算法计算出来的；

所述奖励函数：交通信号算法通过结合强化学习实现的。

优选地，所述初始化步骤包括：

将交通信号控制问题处理成一个马尔可夫决策问题，每个道路交叉路口处理成一个智能体；

交通信号控制问题中各个变量包括：系统状态空间S，观测空间O，行为集合A，转换概率p，奖励函数r和交通信号的控制策略π；

所述观测信息向量化步骤包括：通过多层感知机将k维的数据映射到m维的向量空间中，公式为：

其中，

是i交叉路口在t时刻的观测数据，k是

的特征维度，W_e∈R^k×m,b_e∈R^m,分别为权重向量和偏置，σ为ReLU激励函数；R表示实数，上标m表示向量降维的维度，Embed()代表进行降维计算。

优选地，所述图注意力机制构建步骤包括：观测数据交互步骤、领域注意力分布步骤、索引领域协调步骤和多头注意力步骤；

所述观测数据交互步骤包括：

观测数据交互运算公式如下：

e_ij＝(h_iW_t)·(h_jW_s)^T (2)

其中，W_s,W_t∈R^m×n是向量化运算的参数，上标T表示转置，h_i表示i路口的隐层计算结果，h_j表示j路口的隐层计算结果，e_ij表示第j交叉路口信号灯的信息在决定第i交叉路口信号灯决策时的重要性；

所述领域注意力分布步骤包括：

领域注意力分布公式如下：

其中，τ是系数，N_i是交通交叉路口集合，softmax()表示计算概率；

所述索引领域协调步骤包括：

索引领域协调公式如下：

其中，W_c∈R^m×c是原交叉路口向量化的参数，W_q和b_q是交通信号算法模型在从初始状态到能够输出优化的交通信号控制决策的过程中，所需要迭代更新的参数；

所述多头注意力步骤包括：

多头注意力公式如下：

其中，H是注意力头的数目；

代表第h层第j交叉路口信号灯的信息在决定第i交叉路口信号灯决策时的重要性，W_t ^h代表第h层与h_i计算的权重，W_s ^h代表第h层与h_j计算的权重，

代表第h层计算得到的概率值，hm_i代表第i路口的相邻路口对第i路口其决策重要程度的均值，

代表第h层j路口的权重。

优选地，所述损失函数构造步骤包括：

整个算法的前向传播表达式如下：

…

其中，GAT表示网络结构的一层；W_p∈R^c×p，b_p∈R^p是算法需要学习的参数，L是GAT的层数；

损失函数表达式如下：

其中，T是网格更新迭代的总步数，N是道路交叉路口数目。

优选地，所述行为更新步骤包括：根据构建的交通信号算法模型中的奖励函数的输出，不断迭代计算损失函数，直至损失函数不再下降，实现交通信号算法模型中W_q和b_q训练参数的更新；根据实现交通信号算法模型中W_q和b_q训练参数的更新，得到训练好的交通信号算法模型；

所述预测结果计算步骤包括：根据训练好的交通信号算法模型，计算获取交通信号的控制策略π，并得到通行时间。

本发明提供的一种基于强化学习和图注意力网络的交通信号控制系统，包括：

初始化模块：定义交通信号控制问题中各个变量，初始化交通信号算法模型；

观测信息向量化模块：通过多层感知机将观测信息向量降维，得到降维后的数据h_i；

图注意力机制构建模块：利用降维后的数据h_i，从注意力机制出发，构建适用于交通信号算法模型的注意力机制hm_i；

损失函数构建模块：根据注意力机制hm_i，计算损失函数；

行为更新模块：根据构建的交通信号算法模型中奖励函数，对损失函数进行迭代计算，以获得最终交通信号算法模型；

预测结果计算模块：根据构建的最终交通信号算法模型计算交通信号的控制策略π，实现信号控制；

所述奖励函数：交通信号算法通过结合强化学习实现的。

优选地，所述初始化模块包括：

所述观测信息向量化模块包括：通过多层感知机将k维的数据映射到m维的向量空间中，公式为：

其中，

是i交叉路口在t时刻的观测数据，k是

优选地，所述图注意力机制构建模块包括：观测数据交互模块、领域注意力分布模块、索引领域协调模块和多头注意力模块；

所述观测数据交互模块包括：

观测数据交互运算公式如下：

e_ij＝(h_iW_t)·(h_jW_s)^T (2)

所述领域注意力分布模块包括：

领域注意力分布公式如下：

所述索引领域协调模块包括：

索引领域协调公式如下：

所述多头注意力模块包括：

多头注意力公式如下：

其中，H是注意力头的数目；

代表第h层j路口的权重。

优选地，所述损失函数构造模块包括：

整个算法的前向传播表达式如下：

…

损失函数表达式如下：

其中，T是网格更新迭代的总步数，N是道路交叉路口数目。

优选地，所述行为更新模块包括：根据构建的交通信号算法模型中的奖励函数的输出，不断迭代计算损失函数，直至损失函数不再下降，实现交通信号算法模型中W_q和b_q训练参数的更新；根据实现交通信号算法模型中W_q和b_q训练参数的更新，得到训练好的交通信号算法模型；

所述预测结果计算模块包括：根据训练好的交通信号算法模型，计算获取交通信号的控制策略π，并得到通行时间。

与现有技术相比，本发明具有如下的有益效果：

1、适用于大规模复杂的交通道路情况；

2、可以实现动态调控各个交通信号灯的策略，改善交通信号灯间的协调控制。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为用于实现根据本发明实施例的基于强化学习和图注意力网络的交通信号控制方法和装置的示例电子设备的示意性框图；

图2为根据本发明实施例的基于强化学习和图注意力网络的交通信号控制方法的示意性流程图；

图3为根据本发明实施例的基于强化学习和图注意力网络的交通信号控制装置的示意性结构框图。

图4为根据本发明实施例的基于强化学习和图注意力网络的交通信号控制系统的示意性结构框图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明可以适用于多交通交叉路口情况下的交通信号控制场景；

观测信息向量化步骤：通过多层感知机将观测信息向量降维，得到降维后的数据h_i；观测信息是指输入的信息，即观测到的交通信号灯信息。

图注意力机制构建步骤：利用降维后的数据h_i，从注意力机制出发，构建适用于交通信号算法模型的注意力机制hm_i；以供计算不同交叉路口信息对当前路口信号决策计算的贡献；

损失函数构建步骤：根据注意力机制hm_i，计算损失函数；

所述奖励函数：交通信号算法通过结合强化学习实现的。

具体地，所述初始化步骤包括：

其中，

是i交叉路口在t时刻的观测数据，k是

具体地，所述图注意力机制构建步骤包括：观测数据交互步骤、领域注意力分布步骤、索引领域协调步骤和多头注意力步骤；

所述观测数据交互步骤包括：为了学习第j交叉路口信号灯的信息在决定第i交叉路口信号灯决策时的重要性，需要将其进行交叉运算；

观测数据交互运算公式如下：

e_ij＝(h_iW_t)·(h_jW_s)^T (2)

所述领域注意力分布步骤包括：为了得到前一交叉路口和后一交叉路口之间的注意力值，我们需要进一步对它们进行标准化；

领域注意力分布公式如下：

所述索引领域协调步骤包括：为了考虑周围交叉路口信号对目标交叉路口的影响，所以公式中需要考虑这些交叉路口的作用；

索引领域协调公式如下：

所述多头注意力步骤包括：为了考虑周围不同交叉路口对目标交叉路口影响的权重，在这里引入了多头注意力机制；

多头注意力公式如下：

其中，H是注意力头的数目；

代表第h层j路口的权重。

具体地，所述损失函数构造步骤包括：

将网络结构的一层表示为GAT，整个算法的前向传播表达式如下：

…

损失函数表达式如下：

其中，T是网格更新迭代的总步数，N是道路交叉路口数目。损失函数就是算法的优化目标。

具体地，所述行为更新步骤包括：根据构建的交通信号算法模型中的奖励函数的输出，不断迭代计算损失函数，直至损失函数不再下降，实现交通信号算法模型中W_q和b_q训练参数的更新；根据实现交通信号算法模型中W_q和b_q训练参数的更新，得到训练好的交通信号算法模型；

根据本发明提供的一种基于强化学习和图注意力网络的交通信号控制系统，包括：

观测信息向量化模块：通过多层感知机将观测信息向量降维，得到降维后的数据h_i；观测信息是指输入的信息，即观测到的交通信号灯信息。

图注意力机制构建模块：利用降维后的数据h_i，从注意力机制出发，构建适用于交通信号算法模型的注意力机制hm_i；以供计算不同交叉路口信息对当前路口信号决策计算的贡献；

损失函数构建模块：根据注意力机制hm_i，计算损失函数；

所述奖励函数：交通信号算法通过结合强化学习实现的。

具体地，所述初始化模块包括：

其中，

是i交叉路口在t时刻的观测数据，k是

具体地，所述图注意力机制构建模块包括：观测数据交互模块、领域注意力分布模块、索引领域协调模块和多头注意力模块；

所述观测数据交互模块包括：为了学习第j交叉路口信号灯的信息在决定第i交叉路口信号灯决策时的重要性，需要将其进行交叉运算；

观测数据交互运算公式如下：

e_ij＝(h_iW_t)·(h_jW_s)^T (2)

所述领域注意力分布模块包括：为了得到前一交叉路口和后一交叉路口之间的注意力值，我们需要进一步对它们进行标准化；

领域注意力分布公式如下：

所述索引领域协调模块包括：为了考虑周围交叉路口信号对目标交叉路口的影响，所以公式中需要考虑这些交叉路口的作用；

索引领域协调公式如下：

所述多头注意力模块包括：为了考虑周围不同交叉路口对目标交叉路口影响的权重，在这里引入了多头注意力机制；

多头注意力公式如下：

其中，H是注意力头的数目；

代表第h层j路口的权重。

具体地，所述损失函数构造模块包括：

…

损失函数表达式如下：

具体地，所述行为更新模块包括：根据构建的交通信号算法模型中的奖励函数的输出，不断迭代计算损失函数，直至损失函数不再下降，实现交通信号算法模型中W_q和b_q训练参数的更新；根据实现交通信号算法模型中W_q和b_q训练参数的更新，得到训练好的交通信号算法模型；

以下优选例对本发明作进一步的详细说明：

首先，参照图1来描述用于实现根据本发明实施例的基于专家数据和行为策略评价的交通信号控制方法和装置的示例电子设备100。如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入、输出装置106、通信接口108以及一个或多个图像传感器110，这些组件通过总线系统112和、或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构，也可以不包括前述的部分组件。

所述处理器102一般表示任何类型或形式的能够处理数据或解释和执行指令的处理单元。一般而言，处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制所述电子设备100中的其他组件以执行期望的功能。在特定实施例中，处理器102可以接收来自软件应用或模块的指令。这些指令可以导致处理器102完成本文描述和/或示出的一个或多个示例实施例的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其他期望的功能。所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入/输出装置106可以是用户用来输入指令和向外部输出各种信息的装置，例如输入装置可以包括键盘、鼠标、麦克风和触目屏中的一个或多个。输出装置可以包括显示器、扬声器等中的一个或多个。

通信接口108广泛地表示任何类型或形式的能够促进示例电子设备100和一个或多个附加设备之间的通信的适配器或通信设备。例如，通信结构108可以促进电子设备100和前端或附件电子设备以及后端服务器或云端的通信。通信接口108的示例包括但不限于有限网络接口(诸如网络接口卡)、无线网络接口(诸如无线网络接口卡)、调制解调器和任何其他适合的接口。在一实施例中，通信接口108通过与诸如因特网的网络的直连提供到远程服务器/远程前端设备的直连。在特定实施例中，通信接口108通过与专用网络，例如视频监控网络、天网系统网络等网络的直连提供到远程服务器/远程前端设备的直连。通信接口108还可以间接提供这种通过任何其它合适连接的连接。

示例性地，根据本实施例的基于强化学习和图注意力网络的交通信号控制方法可以在具有存储器和处理器的设备、装置或者系统中实现。

图3为根据本发明实施例的一种基于强化学习和图注意力网络的交通信号控制装置的示意性结构框图，下面结合图3进行说明。

如图3所示，一种基于强化学习和图注意力网络的交通信号控制装置300，包括初始化模块310、观测信息向量化模块320、图注意力机制构建模块330、损失函数构建模块340、行为更新模块350、预测结果计算模块360。

初始化模块310：将交通信号控制问题处理成一个马尔可夫决策问题，每个道路交叉路口处理成一个智能体。整个问题包括系统状态空间S，观测空间O，行为集合A，转换概率p，奖励函数r，决策π。

行为观测信息向量化模块320：通过多层感知机将k维的数据映射到m维的向量空间中：

其中，

是i交叉路口在t时刻的观测数据，k是

的特征维度，W_e∈R^k×m,b_e∈R^m,分别为权重向量和偏置，σ为ReLU激励函数。

图注意力机制构建模块330：观测数据交互；领域注意力分布；索引领域协调；多头注意力。

损失函数构造模块340：将网络结构的一层表示为GAT，那么整个算法的前向传播如下：

…

其中，W_p∈R^c×p，b_p∈R^p是算法需要学习的参数，L是GAT的层数。

损失函数为：

其中，T是网格更新迭代的总步数，N是道路交叉路口数目。

行为更新模块350：有了评价网络的输出后，行为策略网络就可以进行单步训练并实现参数更新。

预测结果计算模块360：根据上述训练好的f_θ，计算预测结果，获取交通信号的预测值，并得到通行时间。

图4为根据本发明实施例的基于强化学习和图注意力网络的交通信号控制系统的示意性结构框图。下面结合图4进行描述，如图所示，根据本发明实施例的基于强化学习和图注意力网络的交通信号控制系统400包括交通状态获取单元410、存储器420和处理器430。

交通状态获取单元410，可以为各种摄像装置。

所述存储器420存储用于实现根据本发明实施例的基于强化学习和图注意力网络的交通信号控制方法中的相应步骤的程序代码。

所述处理器430用于运行所述存储器420中存储的程序代码，以执行根据本发明实施例的基于强化学习和图注意力网络的交通信号控制方法的相应步骤，并且用于实现根据本发明实施例的基于强化学习和图注意力网络的交通信号控制装置中的初始化模块310、观测信息向量化模块320、图注意力机制构建模块330、损失函数构建模块340、行为更新模块350、预测结果计算模块360。

在一个实施例中，在所述程序代码被所述处理器430运行时执行以下步骤：

初始化步骤；

观测信息向量化步骤；

图注意力机制构建步骤；

损失函数构建步骤；

行为更新步骤；

预测结果计算步骤。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于强化学习和图注意力网络的交通信号控制方法，其特征在于，包括：

损失函数构建步骤：根据注意力机制hm_i，计算损失函数；

所述奖励函数：交通信号算法通过结合强化学习实现的。

2.根据权利要求1所述的一种基于强化学习和图注意力网络的交通信号控制方法，其特征在于，所述初始化步骤包括：

其中，

是i交叉路口在t时刻的观测数据，k是

3.根据权利要求1所述的一种基于强化学习和图注意力网络的交通信号控制方法，其特征在于，所述图注意力机制构建步骤包括：观测数据交互步骤、领域注意力分布步骤、索引领域协调步骤和多头注意力步骤；

所述观测数据交互步骤包括：

观测数据交互运算公式如下：

e_ij＝(h_iW_t)·(h_jW_s)^T (2)

所述领域注意力分布步骤包括：

领域注意力分布公式如下：

所述索引领域协调步骤包括：

索引领域协调公式如下：

所述多头注意力步骤包括：

多头注意力公式如下：

其中，H是注意力头的数目；

代表第h层j路口的权重。

4.根据权利要求1所述的一种基于强化学习和图注意力网络的交通信号控制方法，其特征在于，所述损失函数构造步骤包括：

整个算法的前向传播表达式如下：

…

损失函数表达式如下：

其中，T是网格更新迭代的总步数，N是道路交叉路口数目。

5.根据权利要求1所述的一种基于强化学习和图注意力网络的交通信号控制方法，其特征在于，所述行为更新步骤包括：根据构建的交通信号算法模型中的奖励函数的输出，不断迭代计算损失函数，直至损失函数不再下降，实现交通信号算法模型中W_q和b_q训练参数的更新；根据实现交通信号算法模型中W_q和b_q训练参数的更新，得到训练好的交通信号算法模型；

6.一种基于强化学习和图注意力网络的交通信号控制系统，其特征在于，包括：

损失函数构建模块：根据注意力机制hm_i，计算损失函数；

所述奖励函数：交通信号算法通过结合强化学习实现的。

7.根据权利要求6所述的一种基于强化学习和图注意力网络的交通信号控制系统，其特征在于，所述初始化模块包括：

其中，

是i交叉路口在t时刻的观测数据，k是

8.根据权利要求6所述的一种基于强化学习和图注意力网络的交通信号控制系统，其特征在于，所述图注意力机制构建模块包括：观测数据交互模块、领域注意力分布模块、索引领域协调模块和多头注意力模块；

所述观测数据交互模块包括：

观测数据交互运算公式如下：

e_ij＝(h_iW_t)·(h_jW_s)^T (2)

所述领域注意力分布模块包括：

领域注意力分布公式如下：

其中，τ是系数，N_i是交通交叉路口集合，soft max()表示计算概率；

所述索引领域协调模块包括：

索引领域协调公式如下：

所述多头注意力模块包括：

多头注意力公式如下：

其中，H是注意力头的数目；

代表第h层j路口的权重。

9.根据权利要求6所述的一种基于强化学习和图注意力网络的交通信号控制系统，其特征在于，所述损失函数构造模块包括：

整个算法的前向传播表达式如下：

…

损失函数表达式如下：

其中，T是网格更新迭代的总步数，N是道路交叉路口数目。

10.根据权利要求6所述的一种基于强化学习和图注意力网络的交通信号控制系统，其特征在于，所述行为更新模块包括：根据构建的交通信号算法模型中的奖励函数的输出，不断迭代计算损失函数，直至损失函数不再下降，实现交通信号算法模型中W_q和b_q训练参数的更新；根据实现交通信号算法模型中W_q和b_q训练参数的更新，得到训练好的交通信号算法模型；