CN117290706A

CN117290706A - 一种时空卷积融合概率稀疏注意力机制的交通流预测方法

Info

Publication number: CN117290706A
Application number: CN202311424611.4A
Authority: CN
Inventors: 张红; 陈林彪; 陈林龙; 张玺君; 侯亮; 陈作汉
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2023-12-26

Abstract

一种时空卷积融合概率稀疏注意力机制的交通流预测方法，所述的交通流组合预测方法，包含时空图卷积模块(T‑GCN Block)、时空卷积模块(ST‑Conv Block)和多头概率稀疏注意力模块(ProbSSAtt Block)。其中，T‑GCN Block中的Gated TCN和GCN分别用于捕捉交通流的时间依赖性和空间相关性，堆叠多个T‑GCN Block以处理不同时间级别的空间依赖性；ST‑Conv Block用于捕获同一位置交通流的复杂时间依赖性和同一时间步长上邻近位置交通流的动态空间相关性；ProbSSAtt Block结合动态时空特征并有效地进行长期预测。

Description

一种时空卷积融合概率稀疏注意力机制的交通流预测方法

技术领域

本发明涉及智能交通技术领域，具体是涉及时空卷积融合概率稀疏注意力机制的交通流预测技术。

背景技术

近年来，随着智能交通系统ITS的快速发展，交通流量及速度的检测监控日益重要，交通流预测一直是研究的热点。交通流预测旨在基于历史交通观测数据来预测未来的交通状况，并提供准确的时空交通流预测服务，以缓解交通拥堵。交通流在时间和空间维度上都表现出很强的动态性，解决此类问题的关键是如何同时有效地捕捉交通流的动态时空特性。

目前，在交通流预测领域已提出大量研究方法，主要可分为两类：传统方法和深度学习方法。传统方法包括经典统计方法和传统机器学习方法。由于实际的交通过于复杂，且受到天气、社会事件等外界因素影响，导致传统方法的预测性能较差。K-近邻、向量自回归等基于机器学习的研究方法虽能实现较高的预测精度，但需要一定的经验来设计手动特征。

基于深度学习的交通流预测方法能够自动捕捉表征学习的特征，并通过分析时空序列数据捕获交通流的动态时空特征。其中，长短期记忆LSTM方法仅考虑交通时间数据序列中的时间依赖关系，而未对动态空间特征进行捕获。图卷积网络GCN能够生成自学习的图卷积核，以捕获交通流空间特征。T-GCN利用特征矩阵和邻接矩阵分别捕获时间和空间信息，通过门控递归单元GRU和GCN分别提取时间依赖关系和隐藏空间特征。ASTGCN将时空卷积和时空注意力机制结合，分别学习交通数据在时间和空间上的特征。STSGCN将自身与前一个时刻和后一个时刻的所有节点连接起来组成局部时空图，并在顶点域中通过GCN提取图特征。STGCN将图卷积和门控时间卷积相结合，同时提取交通流的动态时空特征。

虽然上述研究均提出捕获动态时空特征的时空方法，但交通流预测涉及复杂性较高的整个交通网络，交通流预测任务受到建模、数据处理和方法训练等的影响，导致大多数研究方法不能同时有效地提取交通流的动态时空特征并对提取到的时空特征进行有效地处理。

发明内容

本发明的目的是更好的捕获交通流的动态时空特征。

本发明是一种时空卷积融合概率稀疏注意力机制的交通流预测方法，所述的交通流组合预测方法，即STC-ProbSSAtt主要由时间图卷积网络T-GCN Block，时空卷积模块ST-Conv Block和多头概率稀疏注意力模块ProbSSAtt Block组成。T-GCN Block通过门控时间卷积网络Gated TCN和GCN分别捕捉交通流的时间依赖性和空间相关性，ST-Conv Block利用T-GCN Block提取的动态时空特征进一步捕获同一位置交通流的复杂时间依赖性和同一时间步长上邻近位置交通流的动态空间相关性。最后，ProbSSAtt Block结合动态时空特征并降低计算复杂度。此外，本发明提出一个通过端到端进行监督训练的图卷积网络，该网络能够从交通流中学习自适应邻接矩阵，并有效地提取交通流的隐藏空间特征。此外，随着隐藏层的数量增加，堆叠的扩张因果卷积网络的感受野呈指数增长。在堆叠的扩张因果卷积网络的支持下，STC-ProbSSAtt方法能够有效地提取交通流的复杂时间依赖关系，并有效地处理长时间序列的时空图数据。

本发明具有如下优点：

1.提出一种时空卷积融合概率稀疏注意力机制的交通流预测方法STC-ProbSSAtt，该方法由时间图卷积模块T-GCN、时空卷积模块ST-Conv以及多头概率稀疏注意力模块ProbSSAtt组成，以同时有效地捕获交通流的动态时空特征。

2.构建一个时间图卷积网络T-GCN，该网络包含门控时间卷积网络Gated TCN与GCN；Gated TCN通过将不同粒度级别的扩张因果卷积网络以捕获交通流的时间依赖性，GCN利用自适应邻接矩阵来进一步提取动态空间特征；在没有任何先验知识指导的情况下，该自适应邻接矩阵能够从交通流数据中发现隐藏的动态图拓扑结构。

3.构建一个时空卷积模块ST-Conv以捕获同一位置交通流的时间依赖性和同一时间步长上邻近位置交通流的空间相关性；同时，引入一种多头概率稀疏注意力机制来学习交通流的动态时空特征，并降低计算复杂度。

4.在两组交通数据集上分别进行了大量的对比实验，实验表明与现有的基线方法相比，本发明的方法均取得了最好的预测性能。

附图说明

图1是交通流的动态时空相关性图；

图2是时空图卷积网络结构图；

图3是IDG-PSAtt整体框架图；

图4是门控TCN结构图；

图5是时空卷积模块结构图；

图6是两组数据集上的MAE、MAPE和RMSE指标对比图。

下面结合实施例对本发明做进一步的详细说明。

步骤一、方法

本发明提出了一种时空卷积融合概率稀疏注意力机制的交通流预测方法，即STC-ProbSSAtt，该方法包含时间图卷积模块T-GCN Block、时空卷积模块ST-Conv Block和多头概率稀疏注意力模块ProbSSAtt Block。首先，通过T-GCN Block中的Gated TCN和GCN分别捕捉交通流的时间依赖性和空间相关性，然后利用堆叠的T-GCNBlock处理不同时间级别的空间依赖性。其次，本发明将T-GCNBlock提取的动态时空特征馈送到ST-Conv Block捕获同一位置交通流的复杂时间依赖性和同一时间步长上邻近位置交通流的动态空间相关性。最后，通过ProbSSAttBlock结合动态时空特征并降低复杂度。此外，提出了一个自适应邻接矩阵，有效地提取交通流的隐藏空间特征。同时，通过堆叠扩张因果卷积网络，使STC-ProbSSAtt方法能够有效地处理进行长期预测。

步骤二、问题定义

将道路网络用图G＝(V,E)来描述交通网络的拓扑结构，其中，V表示|V|＝N个道路节点的有限集合，E是道路网络中边的有限集合，表示相关联节点间的连通性；表示图G的邻接矩阵，如果v_i,v_j∈V且(v_i,v_j)∈E，则A_ij为1，否则为0；在每个时间步长t内，图G都有一个动态特征矩阵/>交通流预测的问题是如何通过给定的图G及其S步历史图信号/>的学习，得到一个能够预测其下一个T步图信号/>的函数f。该映射关系表示如下：

步骤2.1、用于提取动态时空特征的时间图卷积模块T-GCN Block

时间图卷积层T-GCN Block由门控时间卷积Gated TCN和图卷积层GCN构成；T-GCNBlock中的GatedTCN和GCN分别捕捉交通流的时间依赖性和空间相关性，然后利用堆叠的T-GCN Block处理不同时间级别的空间依赖性图卷积属于基于空间的方法；Gated TCN包含两个并行的时间卷积模块TCN-a和TCN-b，并且每个时间图卷积层都有残差连接。

步骤2.2、时间卷积层TCN使用扩张因果卷积网络来捕获节点的时间依赖性，扩张因果卷积网络通过堆叠卷积层来获得较大的感受野。扩张因果卷积的核大小为2，膨胀因子为k，每k步选取输入，并将标准的1D卷积用于所选输入，d为控制跳跃步长的扩张因子。给定一维序列输入和滤波器/>在步骤t处x与f的扩张因果卷积运算表示如下所示：

通过将具有扩张因子的扩张因果卷积层按递增顺序堆叠，使得时间卷积网络层的感受野呈指数级增长。通过给定输入上述门控时间卷积的形式为：

h＝g(ζ₁*X+b)⊙σ(ζ₂*X+c) (3)

其中ζ₁、ζ₂、b和c是方法参数，⊙是元素乘积，g(·)是输出的激活函数，σ(·)是Sigmoid函数，其确定传递到下一层的信息的比率。

步骤2.3、图卷积网络GCN通过给定节点的结构信息提取节点特征并聚合和转换其邻域信息来平滑节点的信号；设表示输入信号，/>表示输出，/>表示方法参数矩阵，/>表示具有自循环能力的归一化邻接矩阵。图卷积网络定义为：

通过将扩散卷积网络与图卷积网络结合，如下所示：

其中P^k表示转移矩阵的幂级数，在无向图中，P＝A/rowsum(A)；在有向图中，扩散过程分为前向和后向，其中前向转移矩阵P_f＝A/rowsum(A)和后向转移矩阵P_b＝A^T/rowsum(A^T)；结合前向和后向转移矩阵，得到扩散图卷积网络：

同时，GCN中包含了一个不需要任何先验知识，并能通过随机梯度下降实现端到端学习的自适应邻接矩阵通过使用可学习参数/>随机初始化两个节点嵌入字典，使得该自适应邻接矩阵能够在学习的过程中发现隐藏的空间依赖关系；自适应邻接矩阵表示如下：

其中，E₁为源节点嵌入，E₂为目标节点嵌入；通过将E₁和E₂相乘，得出源节点和目标节点之间的空间依赖权重，使用ReLu激活函数来消除弱连接，SoftMax函数对自适应邻接矩阵进行归一化处理；因此，隐藏扩散过程的转移矩阵即为归一化的自适应邻接矩阵，结合预定义的空间依赖关系和自学习隐藏的动态空间特征，提出图卷积层：

当给定的图结构不能获取时，单独使用自适应邻接矩阵来捕获隐藏的动态空间特征：

步骤2.4、时空卷积模块ST-Conv Block通过分别对应时间、空间和时空的三个时空卷积捕捉来自T-GCN Block提取的动态时空特征，捕捉交通流的拓扑图结构中多个节点特征对单一节点特征的影响；其中，时间核捕捉同一位置的不同时间的交通流的依赖性，空间核捕捉同一时间步长上临近位置的交通流的空间相关性；每个时空卷积块将前一个时空注意力块的输出作为输入，即可计算得输出/>

其中，是f×1的时间核，/>是1×f的空间核，/>是f×f的时空核；LeakyReLU(·)表示Leaky修正线性单元函数，*表示卷积运算。最后，将三个卷积核的输出连接起来，并使用1×1卷积/>来压缩特征，同时限制通道数。

步骤2.5、多头概率稀疏注意力模块ProbSSAttBlock能够结合动态时空特征并降低复杂度。典型的自注意力机制输入形式为(Q,K,V)，点积计算如下：

其中，和d分别表示输入的查询、键、值以及维度。第i个查询的注意力系数A(q_i,K,V)如下：

其中，q_i，k_i和v_i分别是Q、K和V中的第i行，和k(q_i,k_l)使用非对称指数核/>自注意力机制计算点积p(k_j|q_i)的空间复杂度为O(L_QL_K)；在概率稀疏自注意力机制的计算中，查询和键的输入长度通常是等效的，即L_Q＝L_K＝L，使得总时间复杂度和空间复杂度为O(LlnL)；概率稀疏自注意力机制将概率稀疏和自注意力机制相结合，它在自注意力机制的基础上，对注意力系数进行了调整，使得对于每个查询，只有部分键对其具有重要性，即少数关键点积提供主要注意力，其余点积忽略不计；这种方法可以间接结合复杂的时间依赖性和动态空间特征，在不影响方法的准确率的情况下节约计算资源；采用M(q_i,K)表示第i个查询的稀疏性，KL散度来衡量查询的稀疏性，如下所示：

其中，第一项是所有键上q_i的对数和指数，第二项是它们的算术平均值；根据上述原理，得到概率稀疏自注意力机制：

其中，表示与q维度相同的稀疏矩阵，它仅由M(q,K)评估的稀疏度下的前u个查询构成，u＝c·lnL_Q由恒定采样因子c控制；概率稀疏自注意力机制每次查询的复杂度仅为O(lnL_Q)。在多头角度下，该机制能为每个头生成不同的稀疏查询密钥对，从而避免了严重的信息损失。

步骤3、实验

步骤3.1、在公共交通数据集METR-LA和PEMS-BAY上验证了STC-ProbSSAtt方法的预测性能；METR-LA是由洛杉矶县高速公路上的207个传感器在四个月内记录的交通速度统计数据构成；PEMS-BAY是由旧金山湾区交通道路上的325个传感器在六个月内记录的交通速度信息组成；METR-LA和PEMS-BAY均记录了检测位置，检测日期，数据类型等；在实验中，将数据集按时间顺序以7：2：1的比例拆分为训练集，测试集和验证集，用于预测15分钟，30分钟和60分钟的交通流速度；实验数据集的详细信息如表1所示：

表1.实验数据集描述

由于METR-LA数据集丢失了一些数据，实验中通过线性插值方法来填充缺失值。在数据输入预测方法之前，对数据进行最小-最大归一化处理，将数据限制在[0，1]；归一化公式为：

其中，x_i表示第i个原始数据，x_min和x_max分别表示原始数据的最小值和最大值，而表示归一化后的输入数据。

步骤3.2、使用8层STC-ProbSSAtt网络，其扩张因子序列为1，2，1，2，1，2，1，2；扩散步长K＝2，使用初始学习率为0.001，丢弃率p＝0.3的Adam优化器进行训练。

步骤3.3、评价指标与基线方法

为了能够更好的分析实验结果及评估方法预测性能，本发明使用平均绝对误差(MAE)、均方根误差(RMSE)、平均绝对百分比误差(MAPE)评估实际交通流速度和预测结果之间的误差：

1)平均绝对误差(MAE)：

2)均方根误差(RMSE)：

3)平均绝对百分比误差(MAPE)：

其中，N是观测次数，y_i和分别表示实际交通速度和预测交通速度；MAE，RMSE和MAPE的预测值越小，则说明STC-ProbSSAtt方法预测效果越好为0.001。

主要与深度学习方法以及其他的基线方法进行比较，基线方法有：

1)历史平均方法HA：预测依据是历史平均交通流量信息；

2)向量自回归VAR：同一样本期间内的n个变量可以作为它们历史值的线性函数；

3)支持向量回归方法SVR：采用支持向量回归的线性向量机训练方法，并通过输入输出关系预测交通流量；

4)前馈神经网络FNN：将两个隐藏层和L2正则化相结合的前馈神经网络；

5)自回归移动平均方法ARIMA：带有卡尔曼滤波器的自回归综合移动平均方法；

6)长短期记忆网络FC-LSTM：具有全连接LSTM隐单元的递归神经网络；

7)WaveNet：预测序列数据的卷积神经网络；

8)Graph WaveNet：图卷积网络和扩张因果卷积网络的结合；

9)时空图卷积网络STGCN：结合图卷积和1D卷积的时空图卷积网络；

10)基于注意力的时空图卷积网络ASTGCN：将时空注意力机制集成到时空图卷积网络中以同时捕获交通流的动态时空特征；

11)时空同步图卷积网络(STSGCN)：通过在时间方向上叠加多个局部GCN图层来捕捉时空特征。

步骤3.4、实验结果与分析

将STC-ProbSSAtt方法与常见的11种基线方法进行了15分钟、30分钟和60分钟预测的性能比较，见表2。在两个数据集上，STC-ProbSSAtt方法除了在METR-LA中15分钟预测时的MAE和MAPE比STGCN稍差，以及在PEMS-Bay中15分钟预测时的MAPE比Graph WaveNet稍差之外，在METR-LA和PEMS-Bay上的30分钟和60分钟的预测效果有显著提升，并在所有评估指标方面均显著优于基线方法。在METR-LA上的30分钟和60分钟的预测中，STC-ProbSSAtt方法在MAE、RMSE和MAPE方面分别比最先进的方法提高了7.5％、9.5％、3.8％以及11.5％、1.9％、5.1％；相应的在数据集PEMS-Bay上，分别提高了7.2％、9.6％、6.8％以及10.6％、5.9％、10.7％。

统计方法HA、VAR、ARIMA、传统机器学习方法SVR和FC-LSTM没有考虑空间相关性导致预测准确性较差。以STGCN、STSGCN为代表的时空GCN方法有效处理非欧氏数据，预测表现较好。ASTGCN利用注意力机制有效捕获序列的时间依赖关系，预测较佳。Graph WaveNet将GCN嵌入到TCN中，使其性能比ASTGCN、STG-NCDE还好，但Graph WaveNet没有结合自注意力机制以进一步捕捉隐藏时空特征。相比之下，STC-ProbSSAtt方法将GCN嵌入到TCN中，并与时空卷积及概率稀疏自注意力结合以同时充分提取交通流的动态时空特征。通过构建自适应邻接矩阵和堆叠具有不同参数的GCN时空层，有效捕获道路网络中隐藏节点随时间变化的动态关联。同时，通过堆叠的扩张因果卷积网络和概率稀疏自注意力机制，促使STC-ProbSSAtt方法有效地进行长期预测。与基线方法相比，STC-ProbSSAtt方法具有最佳的预测性能，并且随着训练时长的增加，STC-ProbSSAtt方法的训练性能越好，预测的准确性越高，长期预测效果越加优异。

表2.不同交通流预测方法在METR-LA和PEMS-BAY数据集上的性能比较

步骤3.5、消融实验

为了进一步研究STC-ProbSSAtt方法不同模块的性能，设计了STC-ProbSSAtt方法的两个变体，研究了时空卷积层以及多头概率稀疏自注意力机制对方法预测性能的影响，并在METR-LA和PEMS-BAY数据集上将这两个变体与STC-ProbSSAtt方法进行比较，进行了15分钟，30分钟和60分钟的交通流预测，如表3所示；这三种变体方法与STAGCN方法的差异为：

NSTC：该方法没有时空卷积网络模块但包含多头概率稀疏自注意力机制模块。

NPAtt：该方法没有多头概率稀疏自注意力机制模块但包含时空卷积网络模块。

NSTC-PAtt：该方法没有时空卷积网络模块及多头概率稀疏自注意力机制模块。

表3.STC-ProbSSAtt方法与三个变体方法在不同时间点的预测性能

在PEMS-BAY数据集上，STC-ProbSSAtt方法相比NSTC、NPAtt和NSTC-Patt方法在15分钟下的MAE分别降低了约2.94％，4.22％，4.90％，RMSE分别降低了约4.20％，4.67％，6.29％。在30分钟下，MAE分别降低了约10.12％，11.58％，11.90％，RMSE分别降低了约13.94％，11.27％，13.49％。在60分钟下，MAE分别降低了约15.84％，12.17％，17.33％，RMSE分别降低了约14.99％，13.52％，16.92％。同理，STC-ProbSSAtt方法在METR-LA数据集上同样取得了较好的预测性能。证明了本发明提出的ProbSSAtt Block和ST-Conv Block能够高效地处理长时间序列数据并进行预测。同时证明本发明将GCN嵌入TCN中能够有效地同步捕获交通流的时间依赖性和空间相关性，处理不同时间级别的空间依赖性，使得STC-ProbSSAtt方法的预测性能远超基线方法。此外，通过表3可知，随着训练时长的增加，STC-ProbSSAtt方法能够更好地预测未来交通流。

为了更好地解释STC-ProbSSAtt方法，本文在PEMS-BAY数据集上将STC-ProbSSAtt方法与FNN、FC-LSTM、Graph WaveNet和STGCN的实验结果进行可视化，如图6所示。从三个图中可以明显得出，STC-ProbSSAtt方法预测性能远超FNN、FC-LSTM、Graph WaveNet和STGCN方法，表明该方法能够更加充分地捕获交通流的动态时空特征。同时，随着预测时长的增加，预测误差增长幅度较小，当预测时长大于15分钟时，STC-ProbSSAtt的预测误差均明显低于其他对比方法，表明该方法在长期预测中的预测性能更加优越。

通过上述研究表明，在不同的预测时间阶段，STC-ProbSSAtt方法都能得到最佳的预测结果。STC-ProbSSAtt方法可以准确地预测交通拥堵，捕获交通流的变化趋势，并识别交通流高峰期的开始时间和结束时间，证明了在交通流预测任务中STC-ProbSSAtt方法的优异预测性能以及在实时交通预测中的有效性。

虽然，以上所述已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于该方法包括时间图卷积网络T-GCN Block，时空卷积模块ST-Conv Block和多头概率稀疏注意力模块ProbSSAtt Block；T-GCN Block通过门控时间卷积网络Gated TCN和图卷积网络GCN分别捕捉交通流的时间依赖性和空间相关性；ST-Conv Block利用T-GCN Block提取的动态时空特征进一步捕获同一位置交通流的复杂时间依赖性和同一时间步长上邻近位置交通流的动态空间相关性；ProbSSAtt Block结合动态时空特征并降低计算复杂度。

2.根据权利要求1所述的时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于所述交通流组合预测方法构建步骤为：通过T-GCN Block中的Gated TCN和GCN分别捕捉交通流的时间依赖性和空间相关性，然后利用堆叠的T-GCN Block处理不同时间级别的空间依赖性；通过将T-GCN Block提取的动态时空特征馈送到ST-Conv Block捕获同一位置交通流的复杂时间依赖性和同一时间步长上邻近位置交通流的动态空间相关性；通过ProbSSAtt Block结合动态时空特征并降低时间复杂度以进行交通流预测。

3.根据权利要求1所述的时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于用图G＝(V,E)来描述交通网络的拓扑结构；其中，V表示|V|＝N个道路节点的有限集合；E是道路网络中边的有限集合，表示相关联节点间的连通性；表示图G的邻接矩阵，如果v_i,v_j∈V且(v_i,v_j)∈E，则A_ij为1，否则为0；在每个时间步长t内，图G都有一个动态特征矩阵/>交通流预测的问题是如何通过给定的图G及其历史S步图信号的学习，得到一个能够预测其下一个T步图信号/>的函数f；该映射关系表示如下：

4.根据权利要求1所述的时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于时间卷积层TCN使用扩张因果卷积网络来捕获节点的时间依赖性，扩张因果卷积网络通过堆叠卷积层来获得较大的感受野；扩张因果卷积的核大小为2，膨胀因子为k，每k步选取输入，并将标准的1D卷积用于所选输入，d为控制跳跃步长的扩张因子；给定一维序列输入和滤波器/>在步骤t处x与f的扩张因果卷积运算表示如等式(2)所示：

通过按递增顺序将扩张因果卷积层堆叠，使得时间卷积网络层的感受野呈指数级增长；通过给定输入上述门控时间卷积的形式为：

h＝g(ζ₁*X+b)⊙σ(ζ₂*X+c) (3)

其中ζ₁、ζ₂、b和c是模型参数，⊙是元素乘积，g(·)是输出的激活函数，σ(·)是确定传递到下一层的信息比率的Sigmoid函数。

5.根据权利要求1所述的时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于图卷积GCN通过给定节点的结构信息提取节点特征并聚合和转换其邻域信息来平滑节点的信号；设表示输入信号，/>表示输出，/>表示模型参数矩阵，表示具有自循环能力的归一化邻接矩阵；图卷积网络定义为：

通过将扩散卷积网络与图卷积网络结合，如下所示：

同时，GCN中包含了一个不需要任何先验知识，并能通过随机梯度下降实现端到端的学习的自适应邻接矩阵通过使用可学习参数/>随机初始化两个节点嵌入字典，使得该自适应邻接矩阵能够在学习的过程中发现隐藏的空间依赖关系；自适应邻接矩阵表示如下：

其中，E₁为源节点嵌入，E₂为目标节点嵌入；通过将E₁和E₂相乘，得出源节点和目标节点之间的空间依赖权重，使用ReLu激活函数来消除弱连接，SoftMax函数对自适应邻接矩阵进行归一化处理；因此，隐藏扩散过程的转移矩阵即为归一化的自适应邻接矩阵；结合预定义的空间依赖关系和自学习隐藏的动态空间特征，提出图卷积层：

当给定图的结构不能获取时，单独使用自适应邻接矩阵来捕获隐藏的动态空间特征：

6.根据权利要求1所述的时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于ST-Conv Block通过分别对应时间、空间和时空的三个时空卷积捕捉来自T-GCNBlock提取的交通流动态时空特征，捕捉交通流的拓扑图结构中多个节点特征对单一节点特征的影响；其中，时间核捕捉同一位置的不同时间的交通流的依赖性，空间核捕捉同一时间步长上临近位置的交通流的空间相关性；每个时空卷积块将前一个时空注意力块的输出作为输入，即由公式、可计算得输出/>

其中，是f×1的时间核，/>是1×f的空间核，/>是f×f的时空核；LeakyReLU(·)表示Leaky修正线性单元函数，*表示卷积运算；最后，将三个卷积核的输出连接起来，并使用1×1卷积/>来压缩特征，同时限制通道数。

7.根据权利要求1所述的时空卷积融合概率稀疏注意力机制的交通流预测方法，其特征在于ProbSSAtt Block结合动态时空特征并降低复杂度；典型的自注意力机制输入形式为(Q,K,V)，点积运算如下：

其中，和d分别表示输入的查询、键、值以及维度；第i个查询的注意力系数A(q_i,K,V)如下：

其中，q_i，k_i和v_i分别是Q、K和V中的第i行；和k(q_i,k_l)使用非对称指数核/>自注意力机制计算点积p(k_j|q_i)的空间复杂度为O(L_QL_K)；在概率稀疏自注意力机制的计算中，查询和键的输入长度通常是等效的，即L_Q＝L_K＝L，使得总时间复杂度和空间复杂度为O(L ln L)；概率稀疏自注意力机制将概率稀疏和自注意力机制相结合，它在自注意力机制的基础上，对注意力系数进行了调整，使得对于每个查询，只有部分键对其具有重要性，即少数关键点积提供主要注意力，其余点积忽略不计；这种方法可以间接结合复杂的时间依赖性和动态空间特征，在不影响模型的准确率的情况下节约计算资源；本发明采用M(q_i,K)表示第i个查询的稀疏性，KL散度来衡量查询的稀疏性，如下所示：

其中，表示与q维度相同的稀疏矩阵，它仅由M(q,K)评估的稀疏度下的前u个查询构成，u＝c·ln L_Q由恒定采样因子c控制；概率稀疏自注意力机制每次查询的复杂度仅为O(ln L_Q)；在多头角度下，该机制能为每个头生成不同的稀疏查询密钥对，从而避免了严重的信息损失。