CN116543554A

CN116543554A - 基于动态相关性的时空Transformer交通流预测方法

Info

Publication number: CN116543554A
Application number: CN202310484143.3A
Authority: CN
Inventors: 张红; 王红燕; 巩蕾; 张玺君; 杨俊译; 李扬; 伊敏; 魏骄云; 朱思雨
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-05-01
Filing date: 2023-05-01
Publication date: 2023-08-04
Anticipated expiration: 2043-05-01
Also published as: CN116543554B

Abstract

基于动态相关性的时空Transformer交通流预测方法，所述的交通流组合预测方法，DST‑Trans通过时空门控卷积网络和Transformer对交通流的动态时空相关性进行建模。首先，构造自适应邻接矩阵并通过节点嵌入来学习隐藏的交通路网动态空间关系；其次，通过结合时间门控卷积网络和图卷积网络，以同时捕获交通流的时空相关性。ST‑Block通过在时空门控卷积网络中引入多头注意力机制对长时间序列的动态时空相关性进行建模。此外，为了充分利用路网之间的动态和静态关联，本发明设计基于道路连接图、相似图以及自适应动态图的多图方法。

Description

基于动态相关性的时空Transformer交通流预测方法

技术领域

本发明涉及智能交通技术领域，具体涉及基于动态相关性的时空Transformer交通流预测技术。

背景技术

随着社会的不断发展，日益复杂的交通形势给智能交通系统(ITS)的建设带来了巨大的挑战。ITS系统能够有效地利用现有的交通设施，减少交通负荷与环境污染，保证交通安全，提高运输效率，因此它逐渐成为交通领域研究的重点和热点。

在过去的几年中，针对交通流量预测已经进行了许多研究。例如，自回归移动平均(ARIMA)方法等时间序列预测方法常用于短期预测任务中。然而，这类方法仅在交通流变化比较规律且不受其他外源因素影响时进行预测，无法适应现实中复杂多变的交通状态和环境。此外，一些非线性方法如支持向量回归(SVR)、贝叶斯网络和K-近邻(KNN)方法等可以更加灵活地对交通流的非线性关系进行描述，但由于其未能对交通流的时间依赖性和空间相关性全面考虑，且需要进行大量的特征工程，对交通流预测任务的性能不佳。

近年来，随着深度学习的兴起，许多深度学习方法如RNN和卷积神经网络(CNN)，由于其强大的分层特征学习能力，在交通流的时空特征挖掘任务中取得较好的性能，CNN已被证明能够在图像处理领域充分捕获局部特征，并且在序列数据集上也具有良好的可迁移性。虽然这种方法可以有效捕获交通流的时空相关性。然而，由于梯度消失或爆炸问题，RNN很难高效地捕捉长期依赖关系，相比之下，基于CNN的方法易于并行化，但是CNN只适用于规则网格欧氏数据，对交通网络的复杂空间关系挖掘不充分。针对这一问题，研究人员引入图卷积网络(GCN)，聚合相邻节点的信息，以进一步结合有关交通网络的先验知识并捕获复杂的时空特征。例如，研究人员探索了图卷积网络，对不同时间的空间相关性进行建模，捕捉交通图的稳定空间相关性。通过利用捕捉局部时间与空间特征的模块，从时间维度对模块进行堆叠以捕捉全局时间特征。然而，基于GCN的方法通过局部感受野提取空间特征，缺乏全局上下文来更新节点状态，此外，它使用固定的拉普拉斯矩阵对空间关系进行建模。由于道路网络的空间依赖性随时间变化，固定的拉普拉斯矩阵无法捕获这种动态特征。

发明内容

针对上述问题，本发明的目的是提供基于动态相关性的时空Transformer交通流预测方法。

本发明是基于动态相关性的时空Transformer交通流预测方法，所述的交通流组合预测方法，DST-Trans由堆叠的Gated TCN,ST-Block以及融合层组成。其中Gated TCN由两个平行的时间卷积层(TCN-a和TCN-b)组成，以学习单个节点的全局时间依赖性，ST-Block包括Temporal Transformer和Spatial Transformer，其中，Temporal Transformer通过在时间门控卷积层(TGC)中引入时间多头自注意力机制(TMSA)以提取交通流的短期和长期时间依赖性，Spatial Transformer通过在空间门控图卷积层(SGGC)中引入空间多头自注意力机制(SMSA)以提取交通流的局部-全局动态空间相关性，融合层通过聚合不同粒度的时空特征，以探索不同时间步长之间的时空依赖关系。

本发明具有如下优点：

1.本发明提出一种有效的框架以同时捕获交通流的动态时空相关性，通过建立基于门控时空卷积、图卷积网络、Transformer多头注意力机制的交通流组合预测方法，该方法充分考虑了交通流复杂的非线性时空特征，不仅能够同时捕获交通流的时空关联性，而且能对交通流的动态时空变化特征进行捕捉。

2.本发明提出结合多头空间注意力Transformer和SGGC的交通流空间特征建模方法，提取交通流的局部-全局动态空间特性。通过SGGC设计多图融合方法，充分挖掘交通路网的动静关联关系，解决了图卷积对交通流空间特征建模时高度依赖图邻接矩阵的问题，并通过多头空间注意力Transformer挖掘交通流的动态空间特征。

3.本发明提出基于多头时间注意力Transformer和TGC的交通流时间特征建模方法，同时捕捉交通流的长期时间变化规律和短期时变特征，通过利用多头时间注意力Transformer捕捉交通流的时间特征，TGC捕获交通流的空间特征。

4.本发明在公开的两个交通数据集上做了大量的对比试验，实验结果表明，本发明建立的方法比现有流行的方法具有更好的预测效果，证明了本发明提出的DST-Trans方法的有效性和准确性。

附图说明

图1是DST-Trans方法总体框架图，图2是膨胀因果卷积，图3是空间门控图卷积图，图4是不同方法在PEMS-BAY数据集上的MAE性能对比图，图5是不同方法在PEMS-BAY数据集上的RMSE性能对比图，图6是不同方法在PEMS-BAY数据集上的MAPE性能对比图。

实施方式

下面结合实施例对本发明做进一步的详细说明。

1方法

本发明提出基于动态相关性的时空Transformer交通流预测方法(DST-Trans)，它由堆叠的Gated TCN,ST-Block以及融合层组成。其中Gated TCN由两个平行的时间卷积层(TCN-a和TCN-b)组成，以学习单个节点的全局时间依赖性，ST-Block包括TemporalTransformer和Spatial Transformer，其中，Temporal Transformer通过在时间门控卷积层(TGC)中引入时间多头自注意力机制(TMSA)以提取交通流的短期和长期时间依赖性，Spatial Transformer通过在空间门控图卷积层(SGGC)中引入空间多头自注意力机制(SMSA)以提取交通流的局部-全局动态空间相关性，融合层通过聚合不同粒度的时空特征，以探索不同时间步长之间的时空依赖关系。

2问题定义

在本发明中，交通流预测的目标是根据历史交通流量数据来预测未来时段的交通流量数据。本发明将将道路网络表示为G＝(S,E,D)，其中S是一组道路节点，E是交通路网一组边的集合，D∈R^N×N表示图G的加权邻接矩阵。在每个时间步长t中，给定道路v_n的交通流交通流预测问题旨在学习一个函数F(·),它可以将/>作为输入,并预测未来H个时间步长的交通流，该映射关系如下所示：

2.1Gated TCN

时间卷积网络中的权重共享机制有利于学习单个节点的全局时间依赖性，虽然DST-Trans可以在统一的框架中灵活地捕捉复杂的时空相关性，但对于不同模块的权重未共享机制，它更有利于捕捉不同时间段的不同局部时空依赖关系，而不是每个节点的全局依赖关系。本发明使用膨胀因果卷积网络作为时间卷积网络(TCN)来捕获节点的时间趋势，膨胀因果卷积网络通过增加层的深度来获得更大的感受野。膨胀因果卷积网络运算的表示如等式(2)所示：

其中x∈R^T表示给定的一维输入序列，f∈R^K表示在时间步t处的时间卷积滤波器，d表示膨胀因子。通过将具有膨胀因子的膨胀因果卷积网络按递增顺序堆叠，感受野呈指数增长，它使得膨胀因果卷积网络能够以更少的层捕获更长的序列，从而节省了计算资源。

为了更好地控制信息流并保留有用的信息，本发明采用门控机制对TCN中各层的信息进行控制。一个简单的门控TCN只包含一个输出门，表示为：

TGC(θ^T)＝tanh(η₁*θ^T+b₁)⊙Sigmoid(η₂*θ^T+b₂) (3)

其中θ^T∈R^N×D×T为给定的输入，η₁，η₂，b₁和b₂是方法参数，⊙是元素乘积，tanh(·)是输出的激活函数。在本发明中，采用Gated TCN来学习复杂的时间依赖性。

2.2基于自适应邻接矩阵的图卷积网络

GCN的核心思想是利用图结构中的节点信息及节点之间的连接信息进行特征变换，以对图数据中的空间特征进行提取。由于道路网络的空间结构是通过预定义的邻接矩阵来表示的，预定义的邻接矩阵不能有效学习交通流的动态特征。基于此，在本发明中提出一种自适应邻接矩阵以学习隐藏的空间依赖关系，该矩阵不需要任何先验知识，并且通过随机梯度下降进行端到端学习，使用可学习参数E₁,E₂∈R^N×C随机初始化两个节点嵌入字典来挖掘交通流隐藏的空间特征。本发明提出的自适应邻接矩阵如下所示：

其中，E₁，E₂分别表示源节点和目标节点嵌入，使用ReLU激活函数来缓解梯度消失问题，softmax函数对自适应邻接矩阵进行归一化处理。因此，可以将归一化的自适应邻接矩阵作为隐藏扩散过程的转移矩阵。通过结合预定义的空间依赖关系和自学习隐藏的空间特征，本发明提出了以下式卷积层：

当图网络结构不适用时，本发明提出单独使用自适应邻接矩阵来捕获隐藏的空间依赖关系，如等式(6)所示：

2.3ST-Block

利用ST-Block对历史交通流数据进行时空特征提取，ST-Block由TemporalTransformer和Spatial Transformer组成。具体而言，Temporal Transformer利用时间门控卷积层(TGC)和时间多头自注意力机制(TMSA)以提取交通流的短期和长期时间依赖性，Spatial Transformer通过在空间门控图卷积层(SGGC)中引入空间多头自注意力机制(SMSA)以提取交通流的局部和全局动态空间相关性。此外，SGGC构建多图融合方法，通过融合静态和动态图特征来探索局部空间依赖性。

(1)Temporal Transformer

尽管基于RNN的方法广泛用于时间序列分析，但由于RNN存在迭代耗时、梯度不稳定、对动态变化响应慢等问题。本发明提出一个Temporal Transformer以有效捕捉动态时间依赖性。与RNN及其变体相比，它不仅可以捕获远程依赖关系，还可以进行并行计算，因此可以轻松扩展到长序列。Temporal Transformer由TGC、TMSA和时间融合块组成。TGC采用一维扩张因果卷积和门控机制来提取短期时间依赖性，TMSA采用自注意力机制来提取长期时间依赖性，时间融合块用于聚合短期和长期时间依赖性。

时间门控卷积的表示如公式(2)(3)所示，本发明使用TMSA对复杂的时间相关性进行建模，给定输入时间特征θ^T∈R^T×N×C和空间特征θ^S∈R^T×N×C，将时空特征映射到高维空间，以学习复杂的时空相关性。子空间和/>通过线性变换生成，表示如下：

其中和/>是可学习参数，TMSA的权重由scaled dot product计算，如下所示：

其中h是TMSA的头数，ω^T是可学习参数。

为了同时考虑短期和长期相关性，本发明将TMSA的输出MSA^T(θ^T)∈R^N×T×C和TGC的输出TGC^T(θ^T)∈R^N×T×C进行融合，其形式如下：

其中由可学习的参数组成，/>表示聚合后的时间特征，本发明通过残差连接和线性变换提高了方法的表达能力，并进一步调整了时间步长之间的依赖关系。

(2)Spatial Transformer

现有的大多数基于GNN的空间依赖性捕获方法都缺乏对全局空间特征的提取，并且预定义的图结构信息不能适应动态变化的交通流数据。Spatial Transformer由SGCN、SMSA和空间融合块组成，其中SGCN使用多图图卷积操作来提取局部空间信息，SMSA利用自注意力机制挖掘远距离道路之间的连接以捕获全局空间依赖性，空间融合块旨在融合局部和全局空间依赖性。

一般情况下，路网中相互连接的道路具有相似的属性。然而，在实际情况中，相距较远的两个购物区也可能具有相似的属性，而预定义的图结构无法做到，由于外部环境的变化，预定义的图结构往往不能完全反映真实的道路关系。因此，本发明提出了一种结合道路连接图、相似度图和自适应动态图的多图融合方案，同时考虑道路之间的静态和动态连接。本发明将多图表示为形式如下：

1)道路连接图是基于道路连接关系构建的，D^S∈R^N×N表示空间邻接矩阵，若v_i,v_j∈V且v_i,v_j∈E^S，则/>为1，否则为0。

2)相似度图是基于动态时间规整(DTW)算法构建的，DTW比欧式距离更能反映交通序列的相似性，例如，上游道路的车流量变化与相应的下游道路相比，往往存在一定的滞后性。欧式距离不能有效地衡量两个具有相似形状但时间不同步的时间序列之间的相似性，DTW可以有效地解决这个问题。D^T∈R^N×N表示相似度矩阵，若exp(-DTW(v_i,v_j))＞ρ，则/>为1，否则为0，其中ρ表示临界值。

3)自适应动态图基于D^S和D^T生成，自适应邻接矩阵表示如下：

其中λ_s和λ_t分别表示源节点和目标节点，以捕获两条道路之间的潜在和动态依赖关系。

(3)空间门控图卷积

GCN可以有效利用节点的特征信息，本发明通过它来捕捉道路之间的空间依赖性，其中节点的表示是通过聚合它的一阶邻居信息来计算的。给定输入特征θ^S，本发明可以获得静态图卷积和动态图卷积来分别生成静态和动态空间特征S(θ^S)，D(θ^S)，表示如下：

其中ω_S和ω_D作为可学习参数以减轻GCN过度平滑，本发明通过门控融合机制同时考虑静态和动态图卷积，该机制通过Sigmoid函数获得介于0和1之间的张量，表示如下：

其中ω_g1，ω_g2和b是可学习参数，F(θ^S)∈R^N×T×C表示融合后的特征，z∈R^N×T×C是门控值。

在空间维度上，本发明使用SMSA以捕捉全局空间依赖性，分别给定空间特征和时间特征θ^S∈R^N×T×C和θ^T∈R^N×T×C，由线性变换生成的子空间和计算如公式(8)所示。SMSA权重通过scaled dot product计算，表示如下：

其中h是SMSA的头数，ω^S是可学习参数。

由于GCN聚合了节点周围邻居的信息，它本质上是局部的，而SMSA可以有效地捕获相距较远的两条道路之间的空间依赖关系。本发明采用与Temporal Transformer类似的方法来融合局部和全局空间依赖性，表示如下：

其中由可学习的参数组成，/>表示聚合后的空间特征，本发明通过残差连接与线性变换以提高方法的表达能力，并进一步提高道路之间的空间依赖性。

2.4融合层

从STL中提取时空特征后，通过聚合来自STL的每个时间特征T^(l)∈R^N×T×C和空间特征S^(l)∈R^N×T×C，并使用线性变换和残差串联进一步调整序列之间的依赖关系，以增加该方法的表现力，将时间特征和空间特征相加得到时空融合特征Fus(T^(l),S^(l))∈R^N×T×C，其中L表示STL的层数，表示如下：

此外，本发明使用两层1×1卷积操作来完成多步预测，具体表示如下：

其中Θ₁和Θ₂表示1×1的卷积运算，是多步预测值。

3.实验

3.1数据描述

本发明使用了两组交通数据集，即洛杉矶的环路检测器数据集METR-LA和加利福尼亚的PEMS-BAY数据集来验证本发明提出的DST-Trans方法的性能，传感器数据每5分钟汇总一次。实验数据集的详细信息如表1所示：

表1.实验数据集描述

3.2实验设置

本实验是在具有CPU:Intel(R)Xeon(R)CPU E5-2620 v4@2.10GHz,GPU:NVIDIAGeForce RTX 2080Ti计算机环境下进行的。基于Pytorch深度学习框架，在PyCharm开发环境中完成交通流预测方法的搭建和训练。本发明使用Adam优化器训练方法，将数据集以7：2：1的比例分别作为训练集，测试集和验证集，epoch为500，初始学习率为0.001，有四个时空层和MSA头。使用过去一小时内12个连续时间步长的数据来预测下一小时的12个连续未来时间步长的数据。

3.3评价指标与基线方法

(1)评价指标

为了更好地分析实验结果，评估方法的预测性能，本发明基于以下评价指标评估实际交通流速度和预测结果之间的误差：

平均绝对误差(MAE):

均方根误差(RMSE):

平均绝对百分比误差(MAPE):

式中，y_t和分别为第t个时间步的真实交通信息和方法的预测值。N表示交通路网上的节点数。

(2)基线方法

本发明主要与深度学习方法以及其他的基线方法进行比较，基线方法有：

1)历史平均方法(HA)：使用历史时期的平均交通信息作为预测。

2)向量自回归(VAR)：向量自回归描述在同一样本期间内的n个变量可以作为它们历史值的线性函数。

3)支持向量回归方法(SVR)：支持向量回归使用线性支持向量机来训练方法以获得输入和输出之间的关系来预测交通流。

4)前馈神经网络(FNN)：具有两个隐藏层和L2正则化的前馈神经网络。

5)自回归移动平均方法(ARIMA)：带有卡尔曼滤波器的自回归移动平均方法。

6)长短期记忆网络(FC-LSTM)：具有全连接LSTM隐藏单元的循环神经网络。

7)Graph WaveNet(G-WN)：该方法使用自适应邻接矩阵，并通过节点嵌入进行学习。

8)时空图卷积网络(STGCN)：时空图卷积网络，它结合了图卷积和一维卷积。

9)基于注意力的时空图卷积网络(ASTGCN)：进一步将时空注意力机制集成到时空图卷积网络中，用于捕获交通流的动态时空模式。

10)时空同步图卷积网络(STSGCN)：该方法捕捉时空关系，并对时间和空间使用相同的组件。

3.4实验结果与分析

如表2所示，比较了DST-Trans和基线方法在METR-LA和PEMS-BAY数据集上15分钟、30分钟和60分钟预测的性能，DST-Trans在两个数据集上都获得了优异的结果。

通过表2可以发现，基于深度学习方法(DST-Trans、WaveNet、G-WN、STGCN、STSGCN和ASTGCN)的预测精度高于其他方法，其原因是深度学习方法能够拟合序列数据集的非线性和复杂性。具体而言，同时考虑空间和时间相关性的方法，相比其他仅考虑时间依赖性而忽略交通节点空间相关性的方法取得更好的结果。例如，与SVR和FC-LSTM等传统时间序列方法相比，在60分钟下，DST-Trans在数据集METR-LA的RMSE分别降低约42.15％，8.40％。同时，基于GCN的方法使用图网络结构来表示交通网络的非欧氏距离，有助于方法更有效地捕获交通节点之间的隐藏关系。相反，本发明提出的DST-Trans考虑了动态时空特征，并且其预测结果优于G-WN、STGCN、ASTGCN和STSGCN等时空方法，在60分钟下，DST-Trans在PEMS-BAY数据集下的RMSE分别降低约12.52％，16.52％，12.36％，8.83％，同理，在METR-LA数据集下均取得良好的结果，验证了所提出的DST-Trans有效性。

交通流的长期预测比短期预测具有更多的不确定性，导致预测长期的交通流更加困难，使得大多数现有方法的预测性能不佳。然而，本发明提出的DST-Trans与基线方法相比，在短时交通预测上表现出良好的预测性能，随着预测时间步长的增加，DST-Trans方法的预测性能仍然表现良好，证明了本发明所提出的方法具有更好的有效性，鲁棒性。

表2.DST-Trans方法在数据集METR-LA和PEMS-BAY上的性能比较

为了更好地解释DST-Trans方法，本发明将DST-Trans方法与FNN、FC-LSTM、G-WN和STGCN在PEMS-BAY数据集上的实验结果进行可视化，如图4所示，DST-Trans方法一直优于FNN、FC-LSTM、G-WN和STGCN，随着预测时长的增加，预测误差增长幅度较小，当预测时长大于15分钟时，DST-Trans的预测误差均明显低于其他对比方法，表明该方法在长期预测中的预测性能更加优越。

3.5消融实验

为了验证DST-Trans方法不同模块的性能，本发明在METR-LA和PEMS-BAY数据集上进行了消融实验并分析实验结果，表3分别是进行了15分钟，30分钟和60分钟的交通流预测结果，变体方法表示如下：

N-ST：不含时空块(SMSA、TMSA、TGC和SGGC)

N-STGC：不含时空门控卷积网络(TGC和SGGC)

N-STMSA：不含时空多头自注意力机制(SMSA和TMSA)

表3.DST-Trans方法与两个变体方法在不同时间点的预测性能

由表中结果可知，随着预测时间的增加，DST-Trans的整体性能始终优于变体方法，这表明综合使用所有模块可以达到最佳预测效果。具体而言，在60分钟下，DST-Trans相较于N-ST，N-STGC和N-STMSA在METR-LA数据集下的MAE分别降低了约10.84％，9.40％，1.00％，RMSE分别降低了约11.26％，10.46％，1.19％，同理，在METR-LA数据集下DST-Trans均取得良好的预测效果，说明了DST-Trans方法不同模块的有效性。其中，SMSA和TMSA可以捕获长期时间依赖性和全局空间相关性，但不能有效捕获短期特征和局部依赖性，因此，在此基础上加入TGC和SGGC可以有效的捕获交通流的局部-全局动态时空相关性。

虽然，以上所述已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之做一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于动态相关性的时空Transformer交通流预测方法，其特征在于所述的交通流组合预测方法，DST-Trans通过时空门控卷积网络和Transformer对交通流的动态时空相关性进行建模；首先，构造自适应邻接矩阵并通过节点嵌入来学习隐藏的交通路网动态空间关系；其次，通过结合时间门控卷积网络和图卷积网络，以同时捕获交通流的时空相关性；ST-Block通过在时空门控卷积网络中引入多头注意力机制对长时间序列的动态时空相关性进行建模；为了充分利用路网之间的动态和静态关联，构建道路连接图、相似图以及自适应动态图的多图方法。

2.根据权利要求1所述的基于动态相关性的时空Transformer交通流预测方法，其特征所述交通流组合预测方法构建步骤为：首先，通过结合图卷积与时间门控卷积网络，以同时捕获时空相关性；此外，通过在时间门控卷积网络集成Transformer多头自注意力机制以学习交通流长短期时间特征；其次，通过Transformer多头自注意力机制和空间门控图卷积层(SGGC)的组合方法，以提取局部-全局动态空间相关性，并解决图卷积高度依赖图邻接矩阵的问题；SGGC构建多图融合方法，以充分利用道路之间的静态与动态关联关系；最后，通过卷积层输出预测序列进行预测。

3.根据权利要求1所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于将道路网络表示为G＝(S,E,D)，其中S是一组道路节点，E是交通路网一组边的集合，D∈R^N×N表示图G的加权邻接矩阵；在每个时间步长t中，给定道路v_n的交通流交通流预测问题旨在学习一个函数F(·),它可以将/>作为输入,并预测未来H个时间步长的交通流，该映射关系如下所示：

4.根据权利要求1所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于DST-Trans由堆叠的Gated TCN,ST-Block以及融合层组成；其中Gated TCN由两个平行的时间卷积层(TCN-a和TCN-b)组成，以学习单个节点的全局时间依赖性，ST-Block包括Temporal Transformer和Spatial Transformer，其中，Temporal Transformer通过在时间门控卷积层(TGC)中引入时间多头自注意力机制(TMSA)以提取交通流的短期和长期时间依赖性，Spatial Transformer通过在空间门控图卷积层(SGGC)中引入空间多头自注意力机制(SMSA)以提取交通流的局部-全局动态空间相关性，融合层通过聚合不同粒度的时空特征，以探索不同时间步长之间的时空依赖关系。

5.根据权利要求4所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于时间卷积网络中的权重共享机制有利于学习单个节点的全局时间依赖性，虽然DST-Trans可以在统一的框架中灵活地捕捉复杂的时空相关性，但对于不同模块的权重未共享机制，它更有利于捕捉不同时间段的不同局部时空依赖关系，而不是每个节点的全局依赖关系；本发明使用膨胀因果卷积网络作为时间卷积网络(TCN)来捕获节点的时间趋势，膨胀因果卷积网络通过增加层的深度来获得更大的感受野；膨胀因果卷积网络运算的表示如等式(2)所示：

其中x∈R^T表示给定的一维输入序列，f∈R^K表示在时间步t处的时间卷积滤波器，d表示膨胀因子；通过将具有膨胀因子的膨胀因果卷积网络按递增顺序堆叠，感受野呈指数增长，它使得膨胀因果卷积网络能够以更少的层捕获更长的序列，从而节省了计算资源；

为了更好地控制信息流并保留有用的信息，本发明采用门控机制对TCN中各层的信息进行控制；一个简单的门控TCN只包含一个输出门，表示为：

TGC(θ^T)＝tanh(η₁*θ^T+b₁)⊙Sigmoid(η₂*θ^T+b₂) (3)

其中θ^T∈R^N×D×T为给定的输入，η₁，η₂，b₁和b₂是方法参数，⊙是元素乘积，tanh(·)是输出的激活函数；在本发明的方法中，采用Gated TCN来学习复杂的时间依赖性。

6.根据权利要求4所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于GCN的核心思想是利用图结构中的节点信息及节点之间的连接信息进行特征变换，以对图数据中的空间特征进行提取；由于道路网络的空间结构是通过预定义的邻接矩阵来表示的，预定义的邻接矩阵不能有效学习交通流的动态特征；基于此，在本发明中提出一种自适应邻接矩阵以学习隐藏的空间依赖关系，该矩阵不需要任何先验知识，并且通过随机梯度下降进行端到端学习，使用可学习参数E₁,E₂∈R^N×C随机初始化两个节点嵌入字典来挖掘交通流隐藏的空间特征；本发明提出的自适应邻接矩阵如下所示：

通过结合预定义的空间依赖关系和自学习隐藏的空间特征，本发明提出了以下图卷积层：

7.根据权利要求4所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于Temporal Transformer利用时间门控卷积层(TGC)和时间多头自注意力机制(TMSA)以提取交通流的短期和长期时间依赖性；Temporal Transformer由TGC、TMSA和时间融合块组成；TGC采用一维扩张因果卷积和门控机制来提取短期时间依赖性，TMSA采用自注意力机制来提取长期时间依赖性，时间融合块用于聚合短期和长期时间依赖性；

时间门控卷积的表示如公式(2)(3)所示，本发明使用TMSA对复杂的时间相关性进行建模，给定输入时间特征θ^T∈R^T×N×C和空间特征θ^S∈R^T×N×C，将时空特征映射到高维空间，以学习复杂的时空相关性；子空间和/>通过线性变换生成，表示如下：

其中h是TMSA的头数，ω^T是可学习参数；

其中，由可学习的参数组成，/>表示聚合后的时间特征，本发明通过残差连接和线性变换提高了方法的表达能力，并进一步调整了时间步长之间的依赖关系。

8.根据权利要求4所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于Spatial Transformer由SGCN、SMSA和空间融合块组成，其中SGCN使用多图图卷积操作来提取局部空间信息，SMSA利用自注意力机制挖掘远距离道路之间的连接以捕获全局空间依赖性，空间融合块旨在融合局部和全局空间依赖性；

一般情况下，路网中相互连接的道路具有相似的属性；然而，在实际情况中，相距较远的两个购物区也可能具有相似的属性，而预定义的图结构无法做到，由于外部环境的变化，预定义的图结构往往不能完全反映真实的道路关系；因此，本发明提出了一种结合道路连接图、相似度图和自适应动态图的多图融合方案，同时考虑道路之间的静态和动态连接；本发明将多图表示为形式如下：

1)道路连接图是基于道路连接关系构建的，D^S∈R^N×N表示空间邻接矩阵，若v_i,v_j∈V且v_i,v_j∈E^S，则/>为1，否则为0；

2)相似度图是基于动态时间规整(DTW)算法构建的，DTW比欧式距离更能反映交通序列的相似性，例如，上游道路的车流量变化与相应的下游道路相比，往往存在一定的滞后性；欧式距离不能有效地衡量两个具有相似形状但时间不同步的时间序列之间的相似性，DTW可以有效地解决这个问题；D^T∈R^N×N表示相似度矩阵，若exp(-DTW(v_i,v_j))＞ρ，则/>为1，否则为0，其中ρ表示临界值；

其中λ_s和λ_t分别表示源节点和目标节点，以捕获两条道路之间的潜在和动态依赖关系；

空间门控图卷积(SGCN)：GCN可以有效利用节点的特征信息，本发明通过它来捕捉道路之间的空间依赖性，其中节点的表示是通过聚合它的一阶邻居信息来计算的；给定输入特征θ^S，本发明可以获得静态图卷积和动态图卷积来分别生成静态和动态空间特征S(θ^S)，D(θ^S)，表示如下：

其中ω_g1，ω_g2和b是可学习参数，F(θ^S)∈R^N×T×C表示融合后的特征，z∈R^N×T×C是门控值；

在空间维度上，本发明使用SMSA以捕捉全局空间依赖性，分别给定空间特征和时间特征θ^S∈R^N×T×C和θ^T∈R^N×T×C，由线性变换生成的子空间和/>计算如公式(8)所示；SMSA权重通过scaled dot product计算，表示如下：

其中h是SMSA的头数，ω^S是可学习参数；

由于GCN聚合了节点周围邻居的信息，它本质上是局部的，而SMSA可以有效地捕获相距较远的两条道路之间的空间依赖关系；本发明采用与Temporal Transformer类似的方法来融合局部和全局空间依赖性，表示如下：

9.根据权利要求4所述的基于动态相关性的时空Transformer交通流预测方法，其特征在于从STL中提取时空特征后，通过聚合来自STL的每个时间特征T^(l)∈R^N×T×C和空间特征S^(l)∈R^N×T×C，并使用线性变换和残差串联进一步调整序列之间的依赖关系，以增加该方法的表现力，将时间特征和空间特征相加得到时空融合特征Fus(T^(l),S^(l))∈R^N×T×C，其中L表示STL的层数，表示如下：

其中Θ₁和Θ₂表示1×1的卷积运算，是多步预测值。