CN116504060A

CN116504060A - 基于Transformer的扩散图注意力网络交通流预测方法

Info

Publication number: CN116504060A
Application number: CN202310483068.9A
Authority: CN
Inventors: 张红; 王红燕; 巩蕾; 张玺君; 朱思雨; 李扬; 伊敏; 魏骄云; 杨俊译
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-05-01
Filing date: 2023-05-01
Publication date: 2023-07-28
Anticipated expiration: 2043-05-01
Also published as: CN116504060B

Abstract

基于Transformer的扩散图注意力网络交通流预测方法，所述的交通流组合预测方法，T‑DGAN方法采用Transformer编码器‑解码器架构，其中编码器和解码器包含多个时空卷积网络模块(ST‑Conv Block)和扩散图注意力模块(DGA‑Block)，ST‑Conv Block通过时间门控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性，DGA‑Block利用查询键值自注意力机制自适应学习每个扩散步的扩散参数，并动态更新邻接转移矩阵，以捕获交通流的动态空间相关性。此外，解码器增加了信息辅助模块，以聚合编码器和解码器之间的交通流信息。

Description

基于Transformer的扩散图注意力网络交通流预测方法

技术领域

本发明涉及智能交通技术领域，具体是涉及基于Transformer的扩散图注意力网络(T-DGAN)交通流预测技术。

背景技术

交通流预测作为智能交通系统(ITS)的重要组成部分，可以为城市交通系统的管理和规划提供科学依据。根据预测的交通状态，交通部门可以提前部署和引导交通流，从而提高路网的运行效率，缓解交通拥堵。

在过去的几十年里，研究人员对交通流预测方法进行了广泛的研究，包括自回归移动平均(ARIMA)、卡尔曼滤波(KF)和多层感知器(MLP)等方法。但由于时间序列基于平稳性假设，这些方法无法处理复杂的非线性交通流数据。因此，为了处理复杂的交通状况和捕获交通流的非线性关系，已经采用了许多机器学习方法来预测交通流。例如，采用K近邻(KNN)方法进行短时交通流预测，该方法考虑了相邻路段的空间关联特性。贝叶斯网络方法对不确定信息进行处理并进行概率推理，用于短时交通流预测。支持向量机(SVM)方法作为一种基于统计学习理论的机器学习方法，能较好的进行短时交通流预测。长短期记忆网络(LSTM)有效的捕获了交通动态的非线性，该方法可以克服记忆块反向传播误差衰减的问题。然而，由于交通流具有高度非线性和动态时空依赖性，上述方法在长期交通流预测任务中表现不佳。

近年来，随着深度学习在交通领域中的广泛应用，研究人员使用卷积神经网络(CNN)和递归神经网络(RNN)来分别捕获交通流的空间依赖性和时间依赖性，虽然这种方法捕获了交通流的时空依赖性，但CNN适用于具有规则网格的欧几里德数据，并且建模不规则道路网络会丢失交通网络的拓扑信息。为了解决这个问题，使用图卷积网络(GCN)代替CNN来更好地处理交通道路网络中的非欧几里得数据。尽管现有的基于GCN和RNN的混合方法在预测性能上有很大的提高，但这些方法仍然存在一些缺陷。由于GCN使用图的拉普拉斯特征矩阵来计算和更新图中所有节点的特征信息，GCN在捕获交通流的空间相关性时灵活性和扩展性较差。

在上述方法中，道路网络的空间结构是通过预定义的邻接矩阵来表示的，由于交通流的复杂性和动态性，预定义的邻接矩阵限制了学习交通流的动态时空特征的可能性。针对这一问题，研究人员在图注意力机制的基础上，提出使用门控注意力网络从交通流中学习交通流的动态空间相关性，提出图多注意力网络(GMAN)用于交通流预测，并在GMAN中使用时空注意力机制来捕获交通流的动态时空相关性。同时，Transformer作为一种深度学习方法，它利用编码器和解码器结构对序列建模，并使用多头注意力机制来学习数据中的动态特征，该方法有利于解决由于使用预定义相邻矩阵难以捕获交通流的动态时空相关性问题。

发明内容

本发明的目的是更好的捕获交通流的复杂时空相关性，本发明提出基于Transformer的扩散图注意力网络(T-DGAN)交通流预测方法。

本发明是基于Transformer的扩散图注意力网络交通流预测方法，所述的交通流组合预测方法，即T-DGAN采用Transformer编码器-解码器架构，其中编码器和解码器包含多个时空卷积网络模块，即ST-Conv Block，和扩散图注意力模块，即DGA-Block。ST-ConvBlock通过时间门控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性，DGA-Block利用查询键值自注意力机制自适应学习每个扩散步的扩散参数，并动态更新邻接转移矩阵，以捕获交通流的动态空间相关性；解码器增加了信息辅助模块，以聚合编码器和解码器之间的交通流信息。

本发明具有如下优点：

1.本发明提出基于Transformer的扩散图注意力网络交通流预测方法(T-DGAN)。该方法采用编码器-解码器架构，编解码器堆叠多个时空卷积网络模块(ST-Conv Block)和扩散图注意力模块(DGA-Block)，通过动态图来描述路网信息。解码器在编码器的基础上增加信息辅助模块(Auxiliary Block)，以聚合编码器和解码器之间的交通流信息。

2.本发明使用时空卷积网络(ST-Conv Block)来学习交通流的时空相关性。时间门控卷积层用于捕获交通流的时间依赖性，空间卷积层用于捕获交通流的空间相关性。

3.本发明使用扩散图注意力(DGA-Block)方法对交通流的动态空间相关性进行建模，该方法利用查询键值自注意力机制自适应的学习每个扩散步的扩散参数，并动态更新邻接转移矩阵，以反映交通流的空间动态变化特性。

4.本发明在两组交通数据集上分别进行了大量的对比实验，实验结果表明，与基线方法相比，本发明的方法在不同的数据集上均取得了更加准确的预测精度。

附图说明

图1是T-DGAN方法框架图，图2是时间卷积网络图，图3是T-DGAN与PeMS03真实值对比图，node＝11，图4是T-DGAN与PeMS03真实值对比，node＝190，图5是T-DGAN与METR-LA真实值对比，node＝119，图6是T-DGAN与METR-LA真实值对比，node＝176，图7是PeMS03数据集中的邻接矩阵T_e，T_d(step 0)，图8是METR-LA数据集中的邻接矩阵T_e，T_d(step 5)。

实施方式

下面结合实施例对本发明做进一步的详细说明。

1方法

本发明提出了基于Transformer的扩散图注意力网络交通流预测方法(T-DGAN)，其中，编码器层由时空卷积网络模块(ST-Conv Block)和扩散图注意力模块(DGA-Block)组成，而解码器层由时空卷积模块(ST-Conv Block)、扩散图注意力模块(DGA-Block)以及信息辅助模块(Auxiliary Block)组成。编码器和解码器分别有L-1层和L′-1层。给定T-DGAN方法的输入X_{{t-T′+1,...,t}}和邻接矩阵A，首先将它们分别转换为特征矩阵和transition矩阵/>其中，/>D表示A具有自环的度矩阵，即/> 和/>分别表示X{_t-T+1,...,t}的编码器和解码器的加权矩阵，/>和/>分别表示编码器和解码器的偏置。/>和/>分别表示编码器和解码器的邻接transition矩阵。通过/>计算交通流预测的结果，其中/>表示全连接层的transformation矩阵，/>表示相应的偏差。将最后一层编码器的输出/>和/>输入到每一层解码器的Diffusion Attention模块，以聚合编码器和解码器之间的交通流时空特征信息。

2问题定义

在本发明中，将道路网络表示为图G＝(V,E,A)，其中V表示一组N个道路网络节点，E表示一组边的集合，A∈R^N×N表示加权邻接矩阵，若v_i，v_j∈V且(v_i,v_j)∈E，则A_ij为1，否则为0。在每个时间步长t中，给定图G上的交通流X_t∈R^N×C，其中C表示每个节点的特征数。交通流预测问题旨在学习一个函数f，它可以将X_{{t-T+1,...,t}}作为输入，并预测未来T个时间步长的交通流，该映射关系如下所示：

2.1用于提取时空特征的卷积编码器

编码器用于从历史交通流数据中提取时空特征，由时空卷积模块(ST-ConvBlock)和扩散图注意力模块(DGA-Block)组成。具体而言，每个ST-Conv Block包含一个时间门控卷积层和一个空间卷积层，分别用于捕获交通流的时间特征和空间特征。DGA-Block利用查询键值注意力来学习每个扩散步的扩散参数，并动态更邻接转移矩阵，以反映交通流的空间动态变化特性。

(1)时间门控卷积层

时间门控卷积层包含一个一维卷积，使用门控线性单元(GLU)来捕获交通流的时间依赖性。对于交通网络G中的每个节点，时间卷积以零填充来探索输入元素的相邻时间步长，以使时间维度大小保持不变。给定每个节点的时间卷积输入它是一个长度为P的序列，具有D_in特征，使用一个1D卷积核/>核大小为(K_t,1)，输入大小D_in和输出大小2D_out得到输出/>P，Q沿特征维度分成两部分并输入到GLU。因此，时间门控卷积层可以表示为：

其中，P，Q分别是GLU中门的输入，⊙表示基于元素的Hadamard乘积，σ(Q)使用Sigmoid函数作为激活函数，选择性的获取隐藏状态和输入X中的信息。

(2)图卷积网络

图卷积运算基于图结构将邻居节点的特征聚合到中心节点，以更新节点特征，图卷积网络(GCN)，通过一阶近似简化了ChebNet：

其中，表示具有自环的归一化邻接矩阵，/>表示具有D_in特征的N节点的输入图信号，/>表示输出，/>表示可学习的参数矩阵。基本GCN只适用于无向图，不符合交通网络的有向性质。为了便于有向图上的卷积，扩散卷积可以推广为公式(4)的形式：

其中，M^k表示转移矩阵的幂级数，K表示扩散步数。在有向图中，扩散过程分为前向和后向两个方向，其中前向转移矩阵为M_f＝A/rowsum(A)后向转移矩阵为M_b＝A^T/rowsum(A)。

(3)空间卷积层

本发明提出了空间卷积层来捕获交通流的局部和全局空间依赖关系。本发明使用预定义的加权邻接矩阵在正向和反向的两个方向执行K步扩散卷积，以捕获K阶局部空间依赖关系，对应于公式(4)。形式上，给定空间卷积层的输入，对输入张量的每个时隙/>进行空间卷积运算，该计算过程可以表示为：

其中，W表示与邻接矩阵A进行卷积运算的可学习参数矩阵。

2.2扩散图注意力网络编码器

本发明以第l层为例，给定输入和/>输出特征矩阵/>如下所示：

其中，表示残差连接，/>表示多头扩散注意力，/>表示可学习的权重矩阵，表示线性transformation矩阵。给定/>的head数量为H，则有：

其中，表示一个单独的头部扩散注意力，||表示连接运算。

k表示扩散步长，K表示最大扩散阶数，由公式(8)计算：

其中，θ_k表示扩散权重系数，对于相应的扩散步本发明利用Query-Key-Value注意力来获得适当的θ_k，如下所示：

其中，W_V表示Value的transformation矩阵，view表示矩阵的reshape运算，即给定原始矩阵的形状为R^N×N，输出是一个单行向量，其维度为表示Query-Key-Value注意力的输入序列。e_ik表示两个不同的扩散步i和k之间的注意力分数，e_ij表示两个不同的扩散步i和j之间的注意力分数。e_ij通过公式(10)计算：

其中，d_qs表示Query的大小，W_Q和W_K分别表示Query和Key的transformation矩阵。和/>分别表示扩散步i和j的Query-Key-Value注意力的输入。

通过残差连接计算输出邻接转移矩阵如下所示：

其中，表示残差连接，/>表示adjacency transition的动态更新部分，其计算如下：

其中，m∈[1,M]表示replica索引，M表示replica的数量，表示/>的第i行第j列元素，/>表示第m个replica的注意力分数，其计算如下：

其中，laekyReLU表示激活函数，a^m(·)表示第m个replica的可学习权重向量。和/>表示特征矩阵/>的第i行和第j行，分别表示节点i和j的特征向量。

2.3用于交通流量预测的时空解码器

解码器用于接收编码器提取的时空特征，以生成未来的交通流序列。单层解码器由时空卷积模块(ST-Conv Block)、扩散图注意力模块(DGA-Block)以及聚合编码器和解码器之间信息的辅助模块(Auxiliary Block)组成。第l层解码器的输入为和/>则第l层解码器的DGA-Block模块的输出如下所示：

其中，表示多头扩散注意力，其计算过程与公式(7)相同，/>表示可学习的权重矩阵，/>表示线性transformation矩阵。/>和/>的计算过程同公式(11)和(12)。和/>与/>和/>一起输入到辅助模块(Auxiliary Block)中，以聚合编码器和解码器之间的交通流信息。

然后，第l层解码器的输出如下所示：

其中，表示扩散注意力，其计算过程与公式(7)类似，扩散参数的计算公式(9)所示，注意力分数计算如公式(10)所示。将/>和/>分别表示为/>的扩散参数和注意力分数，则/>的计算过程如下：

其中，表示Value的transformation矩阵，/>表示输入序列。/>由公式(19)计算：

其中，d_qs表示Query的大小，和/>分别表示Query和Key的transformation矩阵。/>和/>分别表示扩散步i和j的Query-Key-Value注意力的输入。

3.实验

3.1数据描述

本发明使用了两组交通数据集PeMS03和METR-LA来验证本发明提出的T-DGAN方法的性能。实验的交通数据集包含不同的属性，数据集的详细信息如表1所示：

表1.实验数据集描述

PeMS03由Caltrans性能测量系统(PeMS)每30秒收集一次，并记录交通流数据监测传感器的空间位置信息。PeMS03中的传感器数量为555个。采集时间段为2018年1月1日至2018年1月31日，每5分钟汇总一次交通速度。

METR-LA数据集来源于洛杉矶高速路上的环路检测器，时间跨度为2012年3月1日到2012年3月7日，选择207个传感器收集的历史交通速度，每5分钟汇总一次交通速度。

3.2实验设置

本实验是在Windows服务器上进行编译并执行的(CPU：Intel(R)Core(TM)i7-1065G7CPU@1.30GHz 1.50GHz、16GBRAM，GPU：NVIDIAGeForce RTX 2080TI)，基于Pytorch深度学习框架，在PyCharm软件中进行T-DGAN方法的搭建和训练。

本发明将数据集以60％：10％：30％的比例分成训练集、验证集和测试集。batchsize大小设置为8，DGA-Block中扩散注意力和图注意力的头数量均设置为8，节点嵌入的维度设置为16，最大扩散步长设置为3，PeMS03和METR-LA数据集的训练epochs分别设置为60和80，历史数据长度和预测数据长度分别设置为12和12，使用Adam优化器对方法进行训练，初始学习率为0.001。

3.3评价指标与基线方法

(1)评价指标

为了更好的评估方法的预测性能，本发明使用平均绝对误差(MAE)，均方根误差(RMSE)和平均绝对百分比误差(MAPE)作为T-DGAN方法的评价指标：

1)平均绝对误差(MAE)：

2)均方根误差(RMSE)：

3)平均绝对百分比误差(MAPE)：

式中，y_i和分别表示实际交通速度和预测交通速度。n表示交通路网上的节点数。

(2)基线方法

本发明主要与深度学习方法以及其他的基线方法进行比较，基线方法有：

1)历史平均方法(HA)：使用历史时期的平均交通信息作为预测。

2)向量自回归(VAR)：向量自回归描述在同一样本期间内的n个变量可以作为它们历史值的线性函数。

3)支持向量回归方法(SVR)：支持向量回归使用线性支持向量机来训练方法以获得输入和输出之间的关系来预测交通流。

4)前馈神经网络(FNN)：具有两个隐藏层和L2正则化的前馈神经网络。

5)自回归移动平均方法(ARIMA)：带有卡尔曼滤波器的自回归移动平均方法。

6)长短期记忆网络(FC-LSTM)：具有全连接LSTM隐藏单元的循环神经网络。

7)扩散卷积循环神经网络(DCRNN)：将扩散卷积与循环神经网络相结合，用于交通流预测。

8)Graph WaveNet(G-WN)：G-WN网络结合了图卷积网络和膨胀因果卷积网络。

9)时空图卷积网络(STGCN)：时空图卷积网络，它结合了图卷积和一维卷积。

10)基于注意力的时空图卷积网络(ASTGCN)：进一步将时空注意力机制集成到时空图卷积网络中，用于捕获交通流的动态时空模式。

11)自适应图卷积递归网络(AGCRN)：通过使用节点自适应参数学习和数据自适应图生成模块来改进传统的图卷积网络，分别用于学习节点特定的模式和捕获空间相关性。

12)图多注意力网络(GMAN)：多个时空注意力块集成编码器-解码器架构，在编码器和解码器之间转换注意力。

3.4实验结果与分析

本发明对PeMS03和METR-LA数据集进行预测可视化。将时间范围设置为288个持续时间，在PeMS03数据集中随机选择节点11和190可视化，结果如图3和图4所示。在METR-LA数据集中随机选择节点119和176可视化，如图5和图6所示。可以发现T-DGAN方法的预测结果精确地遵循了交通速度的真实值。

本发明将提出的T-DGAN方法与多种基线方法在PeMS03和METR-LA数据集上进行实验，表2，表3显示了T-DGAN方法与基线方法在15分钟，30分钟和60分钟的预测结果，实验结果表明，本发明提出的T-DGAN方法在两个数据集上均获得了良好的预测结果。

通过表2和表3可以观察到，传统的时间序列分析方法的预测结果并不理想，表明这些方法对交通流的非线性和高度复杂性的建模能力有限。同时，基于深度学习的方法比传统的时间序列分析方法取得了更好的预测结果。例如，DCRNN，STGCN，ASTGCN方法和本发明的T-DGAN方法同时考虑了时空相关性，其性能优于ARIMA和FC-LSTM等传统时间序列方法。此外，GMAN方法的性能优于G-WN，STGCN，ASTGCN等方法，表明GMAN中使用的编码器-解码器架构能有效的捕获交通流的动态时空相关性。

相比之下，本发明提出的T-DGAN方法相比于基线方法取得了更好的预测结果，证明了T-DGAN方法对捕获交通流动态时空相关性的有效性。同时，T-DGAN方法通过编码器-解码器架构来捕获交通流的时空相关性，通过时空卷积网络与扩散图注意力机制相结合，对历史时间步长和未来时间步长之间的直接关系进行建模，有助于缓解预测时间步长之间的误差传播问题。

表2.在PeMS03数据集上的预测性能比较

表3.在METR-LA数据集上的预测性能比较

为了评估本发明提出的T-DGAN方法中不同模块的性能，进行消融实验。

(1)动态图对预测结果的影响

本发明在PeMS03和METR-LA数据集上进行了动态图与静态图的消融实验，研究了动态图和静态图对交通流预测的影响。通过表4的消融实验结果可以看出，动态图的预测性能优于静态图的预测性能，证明了动态图相比于静态图对交通流的预测具有更好的预测性能。

表4.动态图与静态图设置实验结果

(2)时空卷积(ST-Conv Block)对预测结果的影响

为研究T-DGAN方法中不同模块的性能，设计了T-DGAN方法的变体(NST-ConvBlock：没有时空卷积网络模块)，通过验证时空卷积模块对方法预测性能产生的影响，并将NST-Conv Block变体方法与T-DGAN方法在PeMS03和METR-LA数据集上进行15分钟，30分钟和60分钟的交通流预测，如表5所示。

表5.T-DGAN方法与变体方法的预测结果对比

在15分钟下，T-DGAN方法相比NST-Conv Block方法在PeMS03和METR-LA数据集上的MAE分别降低了约6.67％，1.52％，RMSE分别降低了约3.47％，2.02％。在30分钟下，MAE分别降低了约7.16％，2.01％，RMSE分别降低了约3.91％，0.94％。在60分钟下，MAE分别降低了约11.56％，2.04％，RMSE分别降低了约6.93％，1.08％。通过表5可得，在不同的预测时间步下，T-DGAN方法具有更好的预测性能，特别是在长期预测中，T-DGAN方法相比NST-ConvBlock方法的差异更为显著，证明了ST-Conv Block模块有效地缓解了误差传播的影响。

(3)动态邻接矩阵对预测结果的影响

邻接转移矩阵包含了顶点之间的边权重信息，而边权重反映了交通传感器之间的交通流，因此，动态更新的邻接矩阵显示了路段上动态变化的交通流。通过实验证明邻接转移矩阵在学习过程中是动态更新的。在PeMS03和METR-LA数据集上的结果分别如图7、图8所示，最后一个批量T_e，T_d在随机截断的时间节点上是不同的，证明了T_e，T_d是在学习过程中不断变化的。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于Transformer的扩散图注意力网络交通流预测方法，所述的交通流组合预测方法，即T-DGAN方法采用Transformer编码器-解码器架构，其中编码器和解码器包含多个时空卷积网络模块，即ST-Conv Block，和扩散图注意力模块，即DGA-Block；ST-Conv Block通过时间门控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性，DGA-Block利用查询键值自注意力机制自适应学习每个扩散步的扩散参数，并动态更新邻接转移矩阵，以捕获交通流的动态时空相关性；解码器增加了信息辅助模块，以聚合编码器和解码器之间的交通流信息。

2.根据权利要求1所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于所述交通流组合预测方法构建步骤为：编码器和解码器包含多个时空卷积网络模块和扩散图注意力模块，ST-Conv Block通过时间门控卷积网络和空间卷积网络分别捕获交通流的时间依赖性和空间相关性，DGA-Block利用查询键值自注意力机制自适应学习每个扩散步的扩散参数，并动态更新邻接转移矩阵，以捕获交通流的动态空间相关性；解码器增加了信息辅助模块，以聚合编码器和解码器之间的交通流信息，最后，通过解码器输出预测序列进行预测。

3.根据权利要求1所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于编码器和解码器分别有L-1层和L-1层；给定T-DGAN方法的输入X_{{t-T′+1,...,t}}和邻接矩阵A，首先将它们分别转换为特征矩阵和transition矩阵/>其中，D表示A具有自环的度矩阵，即/> 和/>分别表示X_{{t-T+1,...,t}}的编码器和解码器的加权矩阵，/>和/>分别表示编码器和解码器的偏置；T_e ⁽¹⁾和/>分别表示编码器和解码器的邻接transition矩阵；通过/>计算交通流预测的结果，其中/>表示全连接层的transformation矩阵，/>表示相应的偏差；将最后一层编码器的输出/>和/>输入到每一层解码器的Diffusion Attention模块，以聚合编码器和解码器之间的交通流时空特征信息。

4.根据权利要求1所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于将道路网络表示为图G＝(V,E,A)，其中V表示一组N个道路网络节点，E表示一组边的集合，A∈R^N×N表示加权邻接矩阵，若v_i，v_j∈V且(v_i,v_j)∈E，则A_ij为1，否则为0；在每个时间步长t中，给定图G上的交通流X_t∈R^N×C，其中C表示每个节点的特征数；交通流预测问题旨在学习一个函数f，它可以将X_{{t-T′+1,...,t}}作为输入，并预测未来T个时间步长的交通流，该映射关系如下所示：

5.根据权利要求1所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于用于提取时空特征的卷积编码器，用于从历史交通流数据中提取时空特征，由时空卷积模块(ST-Conv Block)和扩散图注意力模块(DGA-Block)组成；具体而言，每个ST-ConvBlock包含一个时间门控卷积层和一个空间卷积层，分别用于捕获交通流的时间特征和空间特征；DGA-Block利用查询键值注意力来学习每个扩散步的扩散参数，并动态更邻接转移矩阵，以反映交通流的空间动态变化特性。

6.根据权利要求5所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于时间门控卷积层包含一个一维卷积，使用门控线性单元(GLU)来捕获交通流的时间依赖性；对于交通网络G中的每个节点，时间卷积以零填充来探索输入元素的相邻时间步长，以使时间维度大小保持不变；给定每个节点的时间卷积输入它是一个长度为P的序列，具有D_in特征，使用一个1D卷积核/>核大小为(K_t,1)，输入大小D_in和输出大小2D_out得到输出/>P，Q沿特征维度分成两部分并输入到GLU；因此，时间门控卷积层可以表示为：

7.根据权利要求5所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于图卷积运算基于图结构将邻居节点的特征聚合到中心节点，以更新节点特征，图卷积网络(GCN)，通过一阶近似简化了ChebNet：

其中，表示具有自环的归一化邻接矩阵，/>表示具有D_in特征的N节点的输入图信号，/>表示输出，/>表示可学习的参数矩阵；基本GCN只适用于无向图，不符合交通网络的有向性质；为了便于有向图上的卷积，扩散卷积可以推广为公式(4)的形式：

其中，M^k表示转移矩阵的幂级数，K表示扩散步数；在有向图中，扩散过程分为前向和后向两个方向，其中前向转移矩阵为M_f＝A/rowsum(A)后向转移矩阵为M_b＝A^T/rowsum(A)。

8.根据权利要求5所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于空间卷积层来捕获交通流的局部和全局空间依赖关系；使用预定义的加权邻接矩阵在正向和反向的两个方向执行K步扩散卷积，以捕获K阶局部空间依赖关系，对应于公式(4)；形式上，给定空间卷积层的输入，对输入张量的每个时隙/>进行空间卷积运算，该计算过程可以表示为：

其中，W表示与邻接矩阵A进行卷积运算的可学习参数矩阵。

9.根据权利要求5所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于扩散图注意力网络编码器，以第l层为例，给定输入和/>输出特征矩阵/>如下所示：

其中，表示残差连接，/>表示多头扩散注意力，/>表示可学习的权重矩阵，/>表示线性transformation矩阵；给定/>的head数量为H，则有：

其中，表示一个单独的头部扩散注意力，||表示连接运算；k表示扩散步长，K表示最大扩散阶数，/>由公式(8)计算：

其中，θ_k表示扩散权重系数，对于相应的扩散步(T_e ^(l))^k，本发明利用Query-Key-Value注意力来获得适当的θ_k，如下所示：

其中，W_V表示Value的transformation矩阵，view表示矩阵的reshape运算，即给定原始矩阵的形状为R^N×N，输出是一个单行向量，其维度为表示Query-Key-Value注意力的输入序列；e_ik表示两个不同的扩散步i和k之间的注意力分数，e_ij表示两个不同的扩散步i和j之间的注意力分数；e_ij通过公式(10)计算：

其中，d_qs表示Query的大小，W_Q和W_K分别表示Query和Key的transformation矩阵；和/>分别表示扩散步i和j的Query-Key-Value注意力的输入；

通过残差连接计算输出邻接转移矩阵T_e ^(l+1)，如下所示：

其中，laekyReLU表示激活函数，a^m(·)表示第m个replica的可学习权重向量；和表示特征矩阵/>的第i行和第j行，分别表示节点i和j的特征向量。

10.根据权利要求5所述的基于Transformer的扩散图注意力网络交通流预测方法，其特征在于用于交通流量预测的时空解码器，用于接收编码器提取的时空特征，以生成未来的交通流序列；单层解码器由时空卷积模块(ST-Conv Block)、扩散图注意力模块(DGA-Block)以及聚合编码器和解码器之间信息的辅助模块(Auxiliary Block)组成；第l层解码器的输入为和/>则第l层解码器的DGA-Block模块的输出如下所示：

其中，表示多头扩散注意力，其计算过程与公式(7)相同，/>表示可学习的权重矩阵，/>表示线性transformation矩阵；/>和/>的计算过程同公式(11)和(12)；/>和/>与/>和T_e ^L一起输入到辅助模块(Auxiliary Block)中，以聚合编码器和解码器之间的交通流信息；然后，第l层解码器的输出如下所示：

其中，表示扩散注意力，其计算过程与公式(7)类似，扩散参数的计算公式(9)所示，注意力分数计算如公式(10)所示；将/>和/>分别表示为/>的扩散参数和注意力分数，则的计算过程如下：

其中，表示Value的transformation矩阵，/> 表示输入序列；/>由公式(19)计算：

其中，d_qs表示Query的大小，和/>分别表示Query和Key的transformation矩阵；和/>分别表示扩散步i和j的Query-Key-Value注意力的输入。