CN115273464A

CN115273464A - 一种基于改进的时空Transformer的交通流量预测方法

Info

Publication number: CN115273464A
Application number: CN202210782379.0A
Authority: CN
Inventors: 高榕; 万以亮; 邵雄凯
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-11-01

Abstract

本发明公开了一种改进的时空Transformer的交通流量预测方法，是一种基于编解码器的架构。编码器对历史流量特征进行编码，解码器预测未来序列。编码器由时空嵌入层、时空特征提取模块、前馈神经网络三个部分组成，解码器与编码器结构类似，但比编码器多出一个连接编码器和解码器的双重交叉注意力。其中，时空嵌入层是包括LINE图嵌入、位置嵌入、时间嵌入；时空特征提取模块包括空间稀疏自注意力、时间层次扩散卷积以及时间自注意力。首先，编码器将空间稀疏自注意力和时间层次扩散卷积相结合，捕捉交通流量的动态空间相关性和局部空间特征，再利用时间自注意力建模非线性时间相关性；接着，解码器与编码器类似地挖掘出输入序列的时空特征。最后，基于编解码器提取的时空特征，采用双重交叉注意力模拟历史交通观测对未来预测的影响，建模每个历史时间步和每个未来时间步的直接关系以及对整个未来时间段的影响，并输出未来交通流量的最终表示。

Description

一种基于改进的时空Transformer的交通流量预测方法

技术领域

本发明涉及交通预测技术领域，具体涉及一种基于改进的时空Transformer 的交通流量预测方法。

背景技术

随着城市化进程的推进和日益增长的人口数，交通拥堵的压力和交通事故的发生日益增加，智能交通系统(ITS)成为交通便利不可或缺的综合技术。交通流量预测既是智能交通系统中重要组成部分之一，同时也是一项富有挑战性的任务。交通速度数据可以由市区公路系统检测器收集或者导航系统记录车辆行驶速度数据转换而来，被用于交通流量预测模型模拟路段在不同工作日与路网上车辆速度的高度非线性变化。准确的交通预测模型有助于生活中出行路线规划和行程安排，从而减少一些没必要的负担。

早期基于经典统计方法的算法被广泛地用于交通流预测，这些算法需要满足平稳性的假设，其中常见的预测方法有向量自回归法(VAR)、历史平均法(HA)等。然而，这些算法中的参数依赖于相关领域专家的精心设计，并没有挖掘数据中信息，导致预测的效果一般。随着近几年国内深度学习的蓬勃发展，循环神经网络(RNN)、卷积神经网络(CNN)、基于图卷积神经网络(GCNN)在交通流量预测领域的被研究者所采用，提取高阶的时空依赖。然而，这些模型没有考虑到交通路网图的动态变化，仅在固定的空间依赖关系上计算空间依赖关系并保持使用。近年来，机器翻译和自然语言处理任务广泛地使用基于注意力的Transformer模型，来建模序列到序列的预测，能够动态地捕捉给定上下文的各种句法和语义特征。为了解决动态时空依赖的问题，基于规范Transformer及其变体的时空模型被引入交通预测任务中。

本申请发明人在实施本发明的过程中，发现现有基于Transformer的交通预测方法，存在如下技术问题：

(1)基于规范Transformer的交通预测方法在捕捉高阶空间依赖上的能力表现不强，其中多头自注意力只有少数点积对贡献关键的注意力。可能的原因是：1) 节点的自注意力机制仅计算了节点间的语义相似度，而没考虑反映在节点上的图的结构信息和节点对之间的高阶关系；2)来自规范Transformer的注意力分数具有长尾分布，少数点积对贡献了主要的注意力，而其他点积对则产生了微不足道的注意力。

(2)用于交通预测领域的基于编解码器的时空Transformer使用编码器将历史时空数据的空间依赖和时间依赖转换为每个历史时间步的隐藏向量表示，该向量被用于编解码器的注意层，建立输入历史序列与输出未来序列之间的关联，预测每个未来时间步的交通流量，然而这是远远不够的。它们只从单个历史时间步和未来时间步之间的交互这个方面建模输入历史序列对输出未来序列的影响，而忽略了单个历史时刻交通状况对未来整个时间段交通状况的一般影响，阻碍了预测性能进一步的提升。

由此可知，现有交通流量预测技术中的方法存在性能不高的技术问题。

发明内容

本发明提供了一种基于编解码器的改进的时空Transformer模型(I STTM)，引入空间稀疏自注意力，并结合时间层次扩散卷积，捕捉交通流量的动态空间相关性和局部空间特征，基于编解码器提取的时空特征，采用双重交叉注意力模拟历史交通观测对未来预测的影响，用以解决基于时空Transformer模型的交通流量预测模型性能不高的问题；

为了解决上述技术问题，本发明提供了一种基于改进的时空Transformer 的交通流量预测方法，包括如下步骤：

步骤S1：使用编码器架构时空嵌入层来增强输入历史交通流量数据X的特征表示，时空嵌入层由节点的LINE嵌入、绝对位置嵌入、时间嵌入组成；

步骤S2：采用各层编码器中的空间稀疏自注意力与层次扩散卷积的门控融合块对输入序列的动态空间依赖进行建模，利用时间自注意力捕捉非线性的时间关联，前者门控融合块是空间特征提取模块，后者是时间特征提取模块，两者组成了时空特征提取模块；

步骤S3：利用各层编码器中的基于GELU激活函数和全连接组成的前馈神经网络来变换时空特征提取模块捕捉的时空特征，输出历史序列时空特征的最终表示；

步骤S4：与编码器类似地，利用解码器架构中的时空嵌入层来增强输入的填充交通数据的特征表示；

步骤S5：与编码器类似地，利用各层解码器中的时空特征提取模块来捕捉输入交通数据的时空特征；

步骤S6：基于解码器捕捉到的时空特征，利用双重交叉注意力分别处理各层解码器的时空特征和编码器最终的历史时空表示，建立输入历史序列与输出未来序列之间的关联，预测每个未来时间步的交通流量，不仅模拟了编码的每一个历史时间步特征和预测的每一个未来时间步特征的交互，还突出某一个历史时间步对未来时间段整体的一般影响，进一步地减少预测未来流量的误差；

与编码器类似，使用前馈神经网络来变换时空特征，并输出各层解码器的特征表示，循环传递下去，得到预测的未来序列的最终表示；

在一种实施方式中，时空嵌入层包括节点的LINE嵌入、绝对位置嵌入、时间嵌入，步骤S1具体包括：

步骤S1.1：通过LINE图嵌入对有向加权的交通图邻接矩阵进行预训练，得出高阶邻接矩阵的嵌入信息，来用于计算空间注意力；

步骤S1.2：通过绝对位置嵌入补充序列的顺序信息X_pe；

步骤S1.3：通过可学习的时间嵌入来对时间信息进行编码；

步骤S1.4：将三种嵌入信息融入输入的历史时空数据中，可以表示为：

HE⁽⁰⁾＝Add(Concat(X,X_LINE),X_pe,X_te)；

其中

Figure RE-RE-RE-RE-RE-GDA0003868283570000031

在一种实施方式中，步骤S2具体包括：

步骤S2.1：空间稀疏自注意力负责捕捉历史时间序列下关键的动态空间依赖，将时空数据映射至高维的查询、键、值空间，利用最大均值衡量方法来计算节点查询对所有键的注意力分布与关注度很小的均匀分布的差异，取得差异值大的 Top-u个查询向量，并执行这些查询和键之间的缩放点积，更新节点的特征表示，进而捕捉到起主导作用的高阶空间依赖；

步骤S2.2：时间层次扩散卷积挖掘不同时间层次下的局部空间依赖，使用基于通道分解的门控卷积与基于自适应图的扩散卷积来捕获多时间尺度下的局部空间特征；

步骤S2.3：门控融合被用于自适应地分配动态空间依赖和局部空间依赖的权重；

步骤S2.4：时间自注意力关注每个节点的重要时间步，用于捕捉全局的历史时间关联，直接关注跨时间步的特征，而不受访问输入序列中信息的任何限制；

在一种实施方式中，步骤S2.1具体包括：

步骤S2.1.1：首先，在第l层编码器中，将节点的隐藏状态HE^(l-1)分别线性变换为相同维度的查询矩阵Q、键矩阵K、值矩阵V；

步骤S2.1.2：然后，从Q和K矩阵中随机采样N_s＝N*lnN个查询-值点积对，记作Q_K，并执行注意力分数的稀疏性衡量：

Figure RE-RE-RE-RE-RE-GDA0003868283570000041

步骤S2.1.3：其次，根据稀疏衡量矩阵

Figure RE-RE-RE-RE-RE-GDA0003868283570000042

的计算数值，从查询矩阵Q 中选取数值偏大的Top-u个查询向量，组合成新的查询矩阵

Figure RE-RE-RE-RE-RE-GDA0003868283570000043

提取强的空间相关性的节点特征，其中u＝c₁*lnN,c₁是恒定的空间采样因子，相关公式如下：

Figure RE-RE-RE-RE-RE-GDA0003868283570000044

其中R₁是部分节点特征表示；

步骤S2.1.4：最后将V的均值代替未被选中的查询向量的特征表示R₂，并与R₁在节点上拼接，因为未被选取的点积对的关注度得分近似均匀分布，即相应的空间关联性太小：

R₂＝mean(V)；

Figure RE-RE-RE-RE-RE-GDA0003868283570000045

在一种实施方式中，步骤S6具体包括：

步骤S6.1：对于历史时间步和未来时间步之间的个体交互来说，分别将编码器最终的历史时空表示HE^(L)和第l层解码器的未来时空特征

Figure RE-RE-RE-RE-RE-GDA0003868283570000046

对应的每个节点特征嵌入x_n和x_m至另一个相同维度大小的嵌入空间，并生成它们点积对的查询向量q_n和键向量k_m，相关公式如下所示：

q_n＝W_Qx_n；

k_m＝W_Kx_m；

其中W_Q,

Figure RE-RE-RE-RE-RE-GDA0003868283570000047

分别作为查询向量和键向量线性变换的可学习参数矩阵；

步骤S6.2：然后，为了适当地降低HE^(L)和

Figure RE-RE-RE-RE-RE-GDA0003868283570000048

的成对相关性，本文通过以下处理查询向量和键向量：

a_c(x_m,x_n)＝δ((q_n-μ_Q)^T(k_m-μ_K))；

其中δ(·)是softmax函数；

Figure RE-RE-RE-RE-RE-GDA0003868283570000051

和

Figure RE-RE-RE-RE-RE-GDA0003868283570000052

分别代表所有查询向量和键向量的平均值，L₁和L₂分别表示编码器与解码器的输入数据序列长度，x_i和x_j分别是

Figure RE-RE-RE-RE-RE-GDA0003868283570000053

的第i个特征嵌入和HE^(L)的第j个特征嵌入；

步骤S6.3：对于历史时间步对未来时间段整体交互来说，类似地，本文重新转换

Figure RE-RE-RE-RE-RE-GDA0003868283570000054

为Query′，并按时间维度平均Query′，得到解码器未来时间段整体的特征表示Query′_U，μ′_q是内部的嵌入向量，相关公式如下所示：

a_u(x_m,x_n)＝δ((μ′_q)^Tk_m)；

其中

Figure RE-RE-RE-RE-RE-GDA0003868283570000055

用于反映出编码器编码的时空特征对时空特征一般的整体影响；

步骤S6.4：将步骤S6.2中的个体交互和步骤S6.3的整体交互得到的两种关注度平均化，相关公式如下所示：

Figure RE-RE-RE-RE-RE-GDA0003868283570000056

步骤S6.5：根据历史时间步与未来时间步最终的交互结果，将HE^(L)线性变换后的值向量v_m乘以相应的影响程度后相加，得出

Figure RE-RE-RE-RE-RE-GDA0003868283570000057

数据与HE^(L)在时间上的动态交互后输出的隐藏表示，相关公式如下：

v_m＝W_Vx_m；

Figure RE-RE-RE-RE-RE-GDA0003868283570000058

其中h是多头的数目；

在一种实施方式中，步骤S7具体包括：

将双重交叉注意力输出的隐藏表示经过前馈神经网络变换，过程表示如下：

FFN(x)＝GELU(xW₁)W₂；

其中W₁,W₂代表可学习的参数矩阵，GELU是引入随机正则思想的激活函数， x代表输入张量；

循环传递下去，得到解码器最终输出HD^(L)，并线性转换为

Figure RE-RE-RE-RE-RE-GDA0003868283570000059

通过最小化预测值和真实值之间的平均绝对误差(MAE)，利用优化器Adam进行端到端的训练，其损失函数如下：

Figure RE-RE-RE-RE-RE-GDA0003868283570000061

其中Φ是ISTTM中训练的所有参数，Y是下一个时间步长为Q的真实速度， N是节点的数目，d代表节点的特征数(速度、流量、时间戳等等)；

本发明是一种基于编解码器的改进的时空Transformer模型。编码器对历史流量特征进行编码，解码器预测未来序列。首先，编码器将空间稀疏自注意力和时间层次扩散卷积相结合，捕捉交通流量的动态空间相关性和局部空间特征，再利用时间自注意力建模非线性时间相关性；接着，解码器与编码器类似地挖掘出输入序列的时空特征。最后，基于编解码器提取的时空特征，采用双重交叉注意力模拟历史交通观测对未来预测的影响，建模每个历史时间步和每个未来时间步的直接关系以及对整个未来时间段的影响，并输出未来交通流量的最终表示。本发明在真实世界的数据集上执行实验，取得良好的预测结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种基于改进的时空Transformer的交通流量预测方法的流程图；

图2是本发明提出的ISTTM模型(基于改进的时空Transformer的交通流量预测模型)总体框架图；

图3是编解码中的核心模块图，即时空特征提取模块；

图4是解码器的双重交叉注意力模块；

具体实施方式

为了详细地、完整地描述本发明实施例的技术方案，以下结合附图对本发明实施例的具体实施进行了介绍。应当强调地是，此处所描述的具体实施方式仅用于说明和解释本发明实施例，本发明的具体实施方案如下：

基于改进的时空Transformer的交通流量预测方法及系统，具体包含如下步骤：

步骤S1具体包括：

步骤S1.2：通过绝对位置嵌入补充序列的顺序信息X_pe；

步骤S1.3：通过可学习的时间嵌入来对时间信息进行编码；

HE⁽⁰⁾＝Add(Concat(X,X_LINE),X_pe,X_te)；

其中

Figure RE-RE-RE-RE-RE-GDA0003868283570000071

在一种实施方式中，步骤S2具体包括：

在一种实施方式中，步骤S2.1具体包括：

Figure RE-RE-RE-RE-RE-GDA0003868283570000081

步骤S2.1.3：其次，根据稀疏衡量矩阵

Figure RE-RE-RE-RE-RE-GDA0003868283570000082

Figure RE-RE-RE-RE-RE-GDA0003868283570000083

Figure RE-RE-RE-RE-RE-GDA0003868283570000084

其中R₁是部分节点特征表示；

R₂＝_mean(V)；

Figure RE-RE-RE-RE-RE-GDA0003868283570000085

在一种实施方式中，步骤S6具体包括：

Figure RE-RE-RE-RE-RE-GDA0003868283570000086

q_n＝W_Qx_n；

k_m＝W_Kx_m；

其中W_Q,

Figure RE-RE-RE-RE-RE-GDA0003868283570000091

分别作为查询向量和键向量线性变换的可学习参数矩阵；

步骤S6.2：然后，为了适当地降低HE^(L)和

Figure RE-RE-RE-RE-RE-GDA0003868283570000092

的成对相关性，本文通过以下处理查询向量和键向量：

a_c(x_m,x_n)＝δ((q_n-μ_Q)^T(k_m-μ_K))；

其中δ(·)是softmax函数；

Figure RE-RE-RE-RE-RE-GDA0003868283570000093

和

Figure RE-RE-RE-RE-RE-GDA0003868283570000094

Figure RE-RE-RE-RE-RE-GDA0003868283570000095

的第i个特征嵌入和HE^(L)的第j个特征嵌入；

Figure RE-RE-RE-RE-RE-GDA0003868283570000096

为Query′，并按时间维度平均Query′，得到解码器未来时间段整体的特征表示Query′_U，μ_q′是内部的嵌入向量，相关公式如下所示：

a_u(x_m,x_n)＝δ((μ′_q)^Tk_m)；

其中

Figure RE-RE-RE-RE-RE-GDA0003868283570000097

Figure RE-RE-RE-RE-RE-GDA0003868283570000098

Figure RE-RE-RE-RE-RE-GDA0003868283570000099

v_m＝W_Vx_m；

Figure RE-RE-RE-RE-RE-GDA00038682835700000910

其中h是多头的数目；

在一种实施方式中，步骤S7具体包括：

FFN(x)＝GELU(xW₁)W₂；

循环传递下去，得到解码器最终输出HD^(L)，并线性转换为

Figure RE-RE-RE-RE-RE-GDA0003868283570000101

通过最小化预测值和真实值之间的平均绝对误差(MAE)，利用优化器Adam进行端到端的训练：

Figure RE-RE-RE-RE-RE-GDA0003868283570000102

最后，本申请的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

此外，如果本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。本发明实施例的各种不同的实施方式之间也可以进行任意组合，只要不违背本发明实施例的思想，其同样应当视为本发明实施例所公开的内容。

Claims

1.一种基于改进的时空Transformer的交通流量预测方法，其特征在于，包括：

步骤S4：与编码器类似地，利用解码器架构中的时空嵌入层来增强输入的填充交通数据X_de的特征表示；

步骤S7：与编码器类似，使用前馈神经网络来变换时空特征，并输出各层解码器的特征表示，循环传递下去，得到预测的未来序列的最终表示。

2.如权利要求1所述的方法，其特征在于，时空嵌入层包括节点的LINE嵌入、绝对位置嵌入、时间嵌入，步骤S1具体包括：

步骤S1.1：通过LINE图嵌入对有向加权的交通图邻接矩阵进行预训练，得出高阶邻接矩阵的嵌入信息X_LINE，来用于计算空间注意力；

步骤S1.2：通过绝对位置嵌入补充序列的顺序信息X_pe；

步骤S1.3：通过可学习的时间嵌入来对时间信息进行编码X_te；

HE⁽⁰⁾＝Add(Concat(X,X_LINE),X_pe,X_te)

其中

3.如权利要求1所述的方法，其特征在于，步骤S2具体包括：

步骤S2.1：空间稀疏自注意力负责捕捉历史时间序列下关键的动态空间依赖，将时空数据映射至高维的查询、键、值空间，利用最大均值衡量方法来计算节点查询对所有键的注意力分布与关注度很小的均匀分布的差异，取得差异值大的Top-u个查询向量，并执行这些查询和键之间的缩放点积，更新节点的特征表示，进而捕捉到起主导作用的高阶空间依赖；

步骤S2.4：时间自注意力关注每个节点的重要时间步，用于捕捉全局的历史时间关联，直接关注跨时间步的特征，而不受访问输入序列中信息的任何限制。

4.如权利要求1所述的方法，其特征在于，步骤S2.1具体包括：