CN115273464A - 一种基于改进的时空Transformer的交通流量预测方法 - Google Patents

一种基于改进的时空Transformer的交通流量预测方法 Download PDF

Info

Publication number
CN115273464A
CN115273464A CN202210782379.0A CN202210782379A CN115273464A CN 115273464 A CN115273464 A CN 115273464A CN 202210782379 A CN202210782379 A CN 202210782379A CN 115273464 A CN115273464 A CN 115273464A
Authority
CN
China
Prior art keywords
time
space
attention
embedding
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210782379.0A
Other languages
English (en)
Inventor
高榕
万以亮
邵雄凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202210782379.0A priority Critical patent/CN115273464A/zh
Publication of CN115273464A publication Critical patent/CN115273464A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/065Traffic control systems for road vehicles by counting the vehicles in a section of the road or in a parking area, i.e. comparing incoming count with outgoing count

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种改进的时空Transformer的交通流量预测方法,是一种基于编解码器的架构。编码器对历史流量特征进行编码,解码器预测未来序列。编码器由时空嵌入层、时空特征提取模块、前馈神经网络三个部分组成,解码器与编码器结构类似,但比编码器多出一个连接编码器和解码器的双重交叉注意力。其中,时空嵌入层是包括LINE图嵌入、位置嵌入、时间嵌入;时空特征提取模块包括空间稀疏自注意力、时间层次扩散卷积以及时间自注意力。首先,编码器将空间稀疏自注意力和时间层次扩散卷积相结合,捕捉交通流量的动态空间相关性和局部空间特征,再利用时间自注意力建模非线性时间相关性;接着,解码器与编码器类似地挖掘出输入序列的时空特征。最后,基于编解码器提取的时空特征,采用双重交叉注意力模拟历史交通观测对未来预测的影响,建模每个历史时间步和每个未来时间步的直接关系以及对整个未来时间段的影响,并输出未来交通流量的最终表示。

Description

一种基于改进的时空Transformer的交通流量预测方法
技术领域
本发明涉及交通预测技术领域,具体涉及一种基于改进的时空Transformer 的交通流量预测方法。
背景技术
随着城市化进程的推进和日益增长的人口数,交通拥堵的压力和交通事故的发生日益增加,智能交通系统(ITS)成为交通便利不可或缺的综合技术。交通流量预测既是智能交通系统中重要组成部分之一,同时也是一项富有挑战性的任务。交通速度数据可以由市区公路系统检测器收集或者导航系统记录车辆行驶速度数据转换而来,被用于交通流量预测模型模拟路段在不同工作日与路网上车辆速度的高度非线性变化。准确的交通预测模型有助于生活中出行路线规划和行程安排,从而减少一些没必要的负担。
早期基于经典统计方法的算法被广泛地用于交通流预测,这些算法需要满足平稳性的假设,其中常见的预测方法有向量自回归法(VAR)、历史平均法(HA)等。然而,这些算法中的参数依赖于相关领域专家的精心设计,并没有挖掘数据中信息,导致预测的效果一般。随着近几年国内深度学习的蓬勃发展,循环神经网络(RNN)、卷积神经网络(CNN)、基于图卷积神经网络(GCNN)在交通流量预测领域的被研究者所采用,提取高阶的时空依赖。然而,这些模型没有考虑到交通路网图的动态变化,仅在固定的空间依赖关系上计算空间依赖关系并保持使用。近年来,机器翻译和自然语言处理任务广泛地使用基于注意力的Transformer模型,来建模序列到序列的预测,能够动态地捕捉给定上下文的各种句法和语义特征。为了解决动态时空依赖的问题,基于规范Transformer及其变体的时空模型被引入交通预测任务中。
本申请发明人在实施本发明的过程中,发现现有基于Transformer的交通预测方法,存在如下技术问题:
(1)基于规范Transformer的交通预测方法在捕捉高阶空间依赖上的能力表现不强,其中多头自注意力只有少数点积对贡献关键的注意力。可能的原因是:1) 节点的自注意力机制仅计算了节点间的语义相似度,而没考虑反映在节点上的图的结构信息和节点对之间的高阶关系;2)来自规范Transformer的注意力分数具有长尾分布,少数点积对贡献了主要的注意力,而其他点积对则产生了微不足道的注意力。
(2)用于交通预测领域的基于编解码器的时空Transformer使用编码器将历史时空数据的空间依赖和时间依赖转换为每个历史时间步的隐藏向量表示,该向量被用于编解码器的注意层,建立输入历史序列与输出未来序列之间的关联,预测每个未来时间步的交通流量,然而这是远远不够的。它们只从单个历史时间步和未来时间步之间的交互这个方面建模输入历史序列对输出未来序列的影响,而忽略了单个历史时刻交通状况对未来整个时间段交通状况的一般影响,阻碍了预测性能进一步的提升。
由此可知,现有交通流量预测技术中的方法存在性能不高的技术问题。
发明内容
本发明提供了一种基于编解码器的改进的时空Transformer模型(I STTM),引入空间稀疏自注意力,并结合时间层次扩散卷积,捕捉交通流量的动态空间相关性和局部空间特征,基于编解码器提取的时空特征,采用双重交叉注意力模拟历史交通观测对未来预测的影响,用以解决基于时空Transformer模型的交通流量预测模型性能不高的问题;
为了解决上述技术问题,本发明提供了一种基于改进的时空Transformer 的交通流量预测方法,包括如下步骤:
步骤S1:使用编码器架构时空嵌入层来增强输入历史交通流量数据X的特征表示,时空嵌入层由节点的LINE嵌入、绝对位置嵌入、时间嵌入组成;
步骤S2:采用各层编码器中的空间稀疏自注意力与层次扩散卷积的门控融合块对输入序列的动态空间依赖进行建模,利用时间自注意力捕捉非线性的时间关联,前者门控融合块是空间特征提取模块,后者是时间特征提取模块,两者组成了时空特征提取模块;
步骤S3:利用各层编码器中的基于GELU激活函数和全连接组成的前馈神经网络来变换时空特征提取模块捕捉的时空特征,输出历史序列时空特征的最终表示;
步骤S4:与编码器类似地,利用解码器架构中的时空嵌入层来增强输入的填充交通数据的特征表示;
步骤S5:与编码器类似地,利用各层解码器中的时空特征提取模块来捕捉输入交通数据的时空特征;
步骤S6:基于解码器捕捉到的时空特征,利用双重交叉注意力分别处理各层解码器的时空特征和编码器最终的历史时空表示,建立输入历史序列与输出未来序列之间的关联,预测每个未来时间步的交通流量,不仅模拟了编码的每一个历史时间步特征和预测的每一个未来时间步特征的交互,还突出某一个历史时间步对未来时间段整体的一般影响,进一步地减少预测未来流量的误差;
与编码器类似,使用前馈神经网络来变换时空特征,并输出各层解码器的特征表示,循环传递下去,得到预测的未来序列的最终表示;
在一种实施方式中,时空嵌入层包括节点的LINE嵌入、绝对位置嵌入、时间嵌入,步骤S1具体包括:
步骤S1.1:通过LINE图嵌入对有向加权的交通图邻接矩阵进行预训练,得出高阶邻接矩阵的嵌入信息,来用于计算空间注意力;
步骤S1.2:通过绝对位置嵌入补充序列的顺序信息Xpe
步骤S1.3:通过可学习的时间嵌入来对时间信息进行编码;
步骤S1.4:将三种嵌入信息融入输入的历史时空数据中,可以表示为:
HE(0)=Add(Concat(X,XLINE),Xpe,Xte);
其中
Figure RE-RE-RE-RE-RE-GDA0003868283570000031
在一种实施方式中,步骤S2具体包括:
步骤S2.1:空间稀疏自注意力负责捕捉历史时间序列下关键的动态空间依赖,将时空数据映射至高维的查询、键、值空间,利用最大均值衡量方法来计算节点查询对所有键的注意力分布与关注度很小的均匀分布的差异,取得差异值大的 Top-u个查询向量,并执行这些查询和键之间的缩放点积,更新节点的特征表示,进而捕捉到起主导作用的高阶空间依赖;
步骤S2.2:时间层次扩散卷积挖掘不同时间层次下的局部空间依赖,使用基于通道分解的门控卷积与基于自适应图的扩散卷积来捕获多时间尺度下的局部空间特征;
步骤S2.3:门控融合被用于自适应地分配动态空间依赖和局部空间依赖的权重;
步骤S2.4:时间自注意力关注每个节点的重要时间步,用于捕捉全局的历史时间关联,直接关注跨时间步的特征,而不受访问输入序列中信息的任何限制;
在一种实施方式中,步骤S2.1具体包括:
步骤S2.1.1:首先,在第l层编码器中,将节点的隐藏状态HE(l-1)分别线性变换为相同维度的查询矩阵Q、键矩阵K、值矩阵V;
步骤S2.1.2:然后,从Q和K矩阵中随机采样Ns=N*lnN个查询-值点积对,记作Q_K,并执行注意力分数的稀疏性衡量:
Figure RE-RE-RE-RE-RE-GDA0003868283570000041
步骤S2.1.3:其次,根据稀疏衡量矩阵
Figure RE-RE-RE-RE-RE-GDA0003868283570000042
的计算数值,从查询矩阵Q 中选取数值偏大的Top-u个查询向量,组合成新的查询矩阵
Figure RE-RE-RE-RE-RE-GDA0003868283570000043
提取强的空间相关性的节点特征,其中u=c1*lnN,c1是恒定的空间采样因子,相关公式如下:
Figure RE-RE-RE-RE-RE-GDA0003868283570000044
其中R1是部分节点特征表示;
步骤S2.1.4:最后将V的均值代替未被选中的查询向量的特征表示R2,并与R1在节点上拼接,因为未被选取的点积对的关注度得分近似均匀分布,即相应的空间关联性太小:
R2=mean(V);
Figure RE-RE-RE-RE-RE-GDA0003868283570000045
在一种实施方式中,步骤S6具体包括:
步骤S6.1:对于历史时间步和未来时间步之间的个体交互来说,分别将编码器最终的历史时空表示HE(L)和第l层解码器的未来时空特征
Figure RE-RE-RE-RE-RE-GDA0003868283570000046
对应的每个节点特征嵌入xn和xm至另一个相同维度大小的嵌入空间,并生成它们点积对的查询向量qn和键向量km,相关公式如下所示:
qn=WQxn
km=WKxm
其中WQ,
Figure RE-RE-RE-RE-RE-GDA0003868283570000047
分别作为查询向量和键向量线性变换的可学习参数矩阵;
步骤S6.2:然后,为了适当地降低HE(L)
Figure RE-RE-RE-RE-RE-GDA0003868283570000048
的成对相关性,本文通过以下处理查询向量和键向量:
ac(xm,xn)=δ((qnQ)T(kmK));
其中δ(·)是softmax函数;
Figure RE-RE-RE-RE-RE-GDA0003868283570000051
Figure RE-RE-RE-RE-RE-GDA0003868283570000052
分别代表所有查询向量和键向量的平均值,L1和L2分别表示编码器与解码器的输入数据序列长度,xi和xj分别是
Figure RE-RE-RE-RE-RE-GDA0003868283570000053
的第i个特征嵌入和HE(L)的第j个特征嵌入;
步骤S6.3:对于历史时间步对未来时间段整体交互来说,类似地,本文重新转换
Figure RE-RE-RE-RE-RE-GDA0003868283570000054
为Query′,并按时间维度平均Query′,得到解码器未来时间段整体的特征表示Query′U,μ′q是内部的嵌入向量,相关公式如下所示:
au(xm,xn)=δ((μ′q)Tkm);
其中
Figure RE-RE-RE-RE-RE-GDA0003868283570000055
用于反映出编码器编码的时空特征对时空特征一般的整体影响;
步骤S6.4:将步骤S6.2中的个体交互和步骤S6.3的整体交互得到的两种关注度平均化,相关公式如下所示:
Figure RE-RE-RE-RE-RE-GDA0003868283570000056
步骤S6.5:根据历史时间步与未来时间步最终的交互结果,将HE(L)线性变换后的值向量vm乘以相应的影响程度后相加,得出
Figure RE-RE-RE-RE-RE-GDA0003868283570000057
数据与HE(L)在时间上的动态交互后输出的隐藏表示,相关公式如下:
vm=WVxm
Figure RE-RE-RE-RE-RE-GDA0003868283570000058
其中h是多头的数目;
在一种实施方式中,步骤S7具体包括:
将双重交叉注意力输出的隐藏表示经过前馈神经网络变换,过程表示如下:
FFN(x)=GELU(xW1)W2
其中W1,W2代表可学习的参数矩阵,GELU是引入随机正则思想的激活函数, x代表输入张量;
循环传递下去,得到解码器最终输出HD(L),并线性转换为
Figure RE-RE-RE-RE-RE-GDA0003868283570000059
通过最小化预测值和真实值之间的平均绝对误差(MAE),利用优化器Adam进行端到端的训练,其损失函数如下:
Figure RE-RE-RE-RE-RE-GDA0003868283570000061
其中Φ是ISTTM中训练的所有参数,Y是下一个时间步长为Q的真实速度, N是节点的数目,d代表节点的特征数(速度、流量、时间戳等等);
本发明是一种基于编解码器的改进的时空Transformer模型。编码器对历史流量特征进行编码,解码器预测未来序列。首先,编码器将空间稀疏自注意力和时间层次扩散卷积相结合,捕捉交通流量的动态空间相关性和局部空间特征,再利用时间自注意力建模非线性时间相关性;接着,解码器与编码器类似地挖掘出输入序列的时空特征。最后,基于编解码器提取的时空特征,采用双重交叉注意力模拟历史交通观测对未来预测的影响,建模每个历史时间步和每个未来时间步的直接关系以及对整个未来时间段的影响,并输出未来交通流量的最终表示。本发明在真实世界的数据集上执行实验,取得良好的预测结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种基于改进的时空Transformer的交通流量预测方法的流程图;
图2是本发明提出的ISTTM模型(基于改进的时空Transformer的交通流量预测模型)总体框架图;
图3是编解码中的核心模块图,即时空特征提取模块;
图4是解码器的双重交叉注意力模块;
具体实施方式
为了详细地、完整地描述本发明实施例的技术方案,以下结合附图对本发明实施例的具体实施进行了介绍。应当强调地是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,本发明的具体实施方案如下:
基于改进的时空Transformer的交通流量预测方法及系统,具体包含如下步骤:
步骤S1:使用编码器架构时空嵌入层来增强输入历史交通流量数据X的特征表示,时空嵌入层由节点的LINE嵌入、绝对位置嵌入、时间嵌入组成;
步骤S2:采用各层编码器中的空间稀疏自注意力与层次扩散卷积的门控融合块对输入序列的动态空间依赖进行建模,利用时间自注意力捕捉非线性的时间关联,前者门控融合块是空间特征提取模块,后者是时间特征提取模块,两者组成了时空特征提取模块;
步骤S3:利用各层编码器中的基于GELU激活函数和全连接组成的前馈神经网络来变换时空特征提取模块捕捉的时空特征,输出历史序列时空特征的最终表示;
步骤S4:与编码器类似地,利用解码器架构中的时空嵌入层来增强输入的填充交通数据的特征表示;
步骤S5:与编码器类似地,利用各层解码器中的时空特征提取模块来捕捉输入交通数据的时空特征;
步骤S6:基于解码器捕捉到的时空特征,利用双重交叉注意力分别处理各层解码器的时空特征和编码器最终的历史时空表示,建立输入历史序列与输出未来序列之间的关联,预测每个未来时间步的交通流量,不仅模拟了编码的每一个历史时间步特征和预测的每一个未来时间步特征的交互,还突出某一个历史时间步对未来时间段整体的一般影响,进一步地减少预测未来流量的误差;
步骤S1具体包括:
步骤S1.1:通过LINE图嵌入对有向加权的交通图邻接矩阵进行预训练,得出高阶邻接矩阵的嵌入信息,来用于计算空间注意力;
步骤S1.2:通过绝对位置嵌入补充序列的顺序信息Xpe
步骤S1.3:通过可学习的时间嵌入来对时间信息进行编码;
步骤S1.4:将三种嵌入信息融入输入的历史时空数据中,可以表示为:
HE(0)=Add(Concat(X,XLINE),Xpe,Xte);
其中
Figure RE-RE-RE-RE-RE-GDA0003868283570000071
在一种实施方式中,步骤S2具体包括:
步骤S2.1:空间稀疏自注意力负责捕捉历史时间序列下关键的动态空间依赖,将时空数据映射至高维的查询、键、值空间,利用最大均值衡量方法来计算节点查询对所有键的注意力分布与关注度很小的均匀分布的差异,取得差异值大的 Top-u个查询向量,并执行这些查询和键之间的缩放点积,更新节点的特征表示,进而捕捉到起主导作用的高阶空间依赖;
步骤S2.2:时间层次扩散卷积挖掘不同时间层次下的局部空间依赖,使用基于通道分解的门控卷积与基于自适应图的扩散卷积来捕获多时间尺度下的局部空间特征;
步骤S2.3:门控融合被用于自适应地分配动态空间依赖和局部空间依赖的权重;
步骤S2.4:时间自注意力关注每个节点的重要时间步,用于捕捉全局的历史时间关联,直接关注跨时间步的特征,而不受访问输入序列中信息的任何限制;
在一种实施方式中,步骤S2.1具体包括:
步骤S2.1.1:首先,在第l层编码器中,将节点的隐藏状态HE(l-1)分别线性变换为相同维度的查询矩阵Q、键矩阵K、值矩阵V;
步骤S2.1.2:然后,从Q和K矩阵中随机采样Ns=N*lnN个查询-值点积对,记作Q_K,并执行注意力分数的稀疏性衡量:
Figure RE-RE-RE-RE-RE-GDA0003868283570000081
步骤S2.1.3:其次,根据稀疏衡量矩阵
Figure RE-RE-RE-RE-RE-GDA0003868283570000082
的计算数值,从查询矩阵Q 中选取数值偏大的Top-u个查询向量,组合成新的查询矩阵
Figure RE-RE-RE-RE-RE-GDA0003868283570000083
提取强的空间相关性的节点特征,其中u=c1*lnN,c1是恒定的空间采样因子,相关公式如下:
Figure RE-RE-RE-RE-RE-GDA0003868283570000084
其中R1是部分节点特征表示;
步骤S2.1.4:最后将V的均值代替未被选中的查询向量的特征表示R2,并与R1在节点上拼接,因为未被选取的点积对的关注度得分近似均匀分布,即相应的空间关联性太小:
R2mean(V);
Figure RE-RE-RE-RE-RE-GDA0003868283570000085
在一种实施方式中,步骤S6具体包括:
步骤S6.1:对于历史时间步和未来时间步之间的个体交互来说,分别将编码器最终的历史时空表示HE(L)和第l层解码器的未来时空特征
Figure RE-RE-RE-RE-RE-GDA0003868283570000086
对应的每个节点特征嵌入xn和xm至另一个相同维度大小的嵌入空间,并生成它们点积对的查询向量qn和键向量km,相关公式如下所示:
qn=WQxn
km=WKxm
其中WQ,
Figure RE-RE-RE-RE-RE-GDA0003868283570000091
分别作为查询向量和键向量线性变换的可学习参数矩阵;
步骤S6.2:然后,为了适当地降低HE(L)
Figure RE-RE-RE-RE-RE-GDA0003868283570000092
的成对相关性,本文通过以下处理查询向量和键向量:
ac(xm,xn)=δ((qnQ)T(kmK));
其中δ(·)是softmax函数;
Figure RE-RE-RE-RE-RE-GDA0003868283570000093
Figure RE-RE-RE-RE-RE-GDA0003868283570000094
分别代表所有查询向量和键向量的平均值,L1和L2分别表示编码器与解码器的输入数据序列长度,xi和xj分别是
Figure RE-RE-RE-RE-RE-GDA0003868283570000095
的第i个特征嵌入和HE(L)的第j个特征嵌入;
步骤S6.3:对于历史时间步对未来时间段整体交互来说,类似地,本文重新转换
Figure RE-RE-RE-RE-RE-GDA0003868283570000096
为Query′,并按时间维度平均Query′,得到解码器未来时间段整体的特征表示Query′U,μq′是内部的嵌入向量,相关公式如下所示:
au(xm,xn)=δ((μ′q)Tkm);
其中
Figure RE-RE-RE-RE-RE-GDA0003868283570000097
用于反映出编码器编码的时空特征对时空特征一般的整体影响;
步骤S6.4:将步骤S6.2中的个体交互和步骤S6.3的整体交互得到的两种关注度平均化,相关公式如下所示:
Figure RE-RE-RE-RE-RE-GDA0003868283570000098
步骤S6.5:根据历史时间步与未来时间步最终的交互结果,将HE(L)线性变换后的值向量vm乘以相应的影响程度后相加,得出
Figure RE-RE-RE-RE-RE-GDA0003868283570000099
数据与HE(L)在时间上的动态交互后输出的隐藏表示,相关公式如下:
vm=WVxm
Figure RE-RE-RE-RE-RE-GDA00038682835700000910
其中h是多头的数目;
在一种实施方式中,步骤S7具体包括:
将双重交叉注意力输出的隐藏表示经过前馈神经网络变换,过程表示如下:
FFN(x)=GELU(xW1)W2
其中W1,W2代表可学习的参数矩阵,GELU是引入随机正则思想的激活函数, x代表输入张量;
循环传递下去,得到解码器最终输出HD(L),并线性转换为
Figure RE-RE-RE-RE-RE-GDA0003868283570000101
通过最小化预测值和真实值之间的平均绝对误差(MAE),利用优化器Adam进行端到端的训练:
Figure RE-RE-RE-RE-RE-GDA0003868283570000102
其中Φ是ISTTM中训练的所有参数,Y是下一个时间步长为Q的真实速度, N是节点的数目,d代表节点的特征数(速度、流量、时间戳等等);
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
此外,如果本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。

Claims (6)

1.一种基于改进的时空Transformer的交通流量预测方法,其特征在于,包括:
步骤S1:使用编码器架构时空嵌入层来增强输入历史交通流量数据X的特征表示,时空嵌入层由节点的LINE嵌入、绝对位置嵌入、时间嵌入组成;
步骤S2:采用各层编码器中的空间稀疏自注意力与层次扩散卷积的门控融合块对输入序列的动态空间依赖进行建模,利用时间自注意力捕捉非线性的时间关联,前者门控融合块是空间特征提取模块,后者是时间特征提取模块,两者组成了时空特征提取模块;
步骤S3:利用各层编码器中的基于GELU激活函数和全连接组成的前馈神经网络来变换时空特征提取模块捕捉的时空特征,输出历史序列时空特征的最终表示;
步骤S4:与编码器类似地,利用解码器架构中的时空嵌入层来增强输入的填充交通数据Xde的特征表示;
步骤S5:与编码器类似地,利用各层解码器中的时空特征提取模块来捕捉输入交通数据的时空特征;
步骤S6:基于解码器捕捉到的时空特征,利用双重交叉注意力分别处理各层解码器的时空特征和编码器最终的历史时空表示,建立输入历史序列与输出未来序列之间的关联,预测每个未来时间步的交通流量,不仅模拟了编码的每一个历史时间步特征和预测的每一个未来时间步特征的交互,还突出某一个历史时间步对未来时间段整体的一般影响,进一步地减少预测未来流量的误差;
步骤S7:与编码器类似,使用前馈神经网络来变换时空特征,并输出各层解码器的特征表示,循环传递下去,得到预测的未来序列的最终表示。
2.如权利要求1所述的方法,其特征在于,时空嵌入层包括节点的LINE嵌入、绝对位置嵌入、时间嵌入,步骤S1具体包括:
步骤S1.1:通过LINE图嵌入对有向加权的交通图邻接矩阵进行预训练,得出高阶邻接矩阵的嵌入信息XLINE,来用于计算空间注意力;
步骤S1.2:通过绝对位置嵌入补充序列的顺序信息Xpe
步骤S1.3:通过可学习的时间嵌入来对时间信息进行编码Xte
步骤S1.4:将三种嵌入信息融入输入的历史时空数据中,可以表示为:
HE(0)=Add(Concat(X,XLINE),Xpe,Xte)
其中
Figure FDA0003729928910000011
3.如权利要求1所述的方法,其特征在于,步骤S2具体包括:
步骤S2.1:空间稀疏自注意力负责捕捉历史时间序列下关键的动态空间依赖,将时空数据映射至高维的查询、键、值空间,利用最大均值衡量方法来计算节点查询对所有键的注意力分布与关注度很小的均匀分布的差异,取得差异值大的Top-u个查询向量,并执行这些查询和键之间的缩放点积,更新节点的特征表示,进而捕捉到起主导作用的高阶空间依赖;
步骤S2.2:时间层次扩散卷积挖掘不同时间层次下的局部空间依赖,使用基于通道分解的门控卷积与基于自适应图的扩散卷积来捕获多时间尺度下的局部空间特征;
步骤S2.3:门控融合被用于自适应地分配动态空间依赖和局部空间依赖的权重;
步骤S2.4:时间自注意力关注每个节点的重要时间步,用于捕捉全局的历史时间关联,直接关注跨时间步的特征,而不受访问输入序列中信息的任何限制。
4.如权利要求1所述的方法,其特征在于,步骤S2.1具体包括:
步骤S2.1.1:首先,在第l层编码器中,将节点的隐藏状态HE(l-1)分别线性变换为相同维度的查询矩阵Q、键矩阵K、值矩阵V;
步骤S2.1.2:然后,从Q和K矩阵中随机采样Ns=N*lnN个查询-值点积对,记作Q_K,并执行注意力分数的稀疏性衡量:
Figure FDA0003729928910000021
步骤S2.1.3:其次,根据稀疏衡量矩阵
Figure FDA0003729928910000022
的计算数值,从查询矩阵Q中选取数值偏大的Top-u个查询向量,组合成新的查询矩阵
Figure FDA0003729928910000023
提取强的空间相关性的节点特征,其中u=c1*lnN,c1是恒定的空间采样因子,相关公式如下:
Figure FDA0003729928910000024
其中R1是部分节点特征表示;
步骤S2.1.4:最后将V的均值代替未被选中的查询向量的特征表示R2,并与R1在节点上拼接,因为未被选取的点积对的关注度得分近似均匀分布,即相应的空间关联性太小:
R2=mean(V)
Figure FDA0003729928910000025
5.如权利要求1所述的方法,其特征在于,步骤S6具体包括:
步骤S6.1:对于历史时间步和未来时间步之间的个体交互来说,分别将编码器最终的历史时空表示HE(L)和第l层解码器的未来时空特征
Figure FDA0003729928910000026
对应的每个节点特征嵌入xn和xm至另一个相同维度大小的嵌入空间,并生成它们点积对的查询向量qn和键向量km,相关公式如下所示:
qn=WQxn
km=WKxm
其中
Figure FDA0003729928910000031
分别作为查询向量和键向量线性变换的可学习参数矩阵;
步骤S6.2:然后,为了适当地降低HE(L)
Figure FDA0003729928910000032
的成对相关性,本文通过以下处理查询向量和键向量:
ac(xm,xn)=δ((qnQ)T(kmK))
其中δ(·)是softmax函数;
Figure FDA0003729928910000033
Figure FDA0003729928910000034
分别代表所有查询向量和键向量的平均值,L1和L2分别表示编码器与解码器的输入数据序列长度,xi和xj分别是
Figure FDA0003729928910000035
的第i个特征嵌入和HE(L)的第j个特征嵌入;
步骤S6.3:对于历史时间步对未来时间段整体交互来说,类似地,本文重新转换
Figure FDA0003729928910000036
为Query′,并按时间维度平均Query′,得到解码器未来时间段整体的特征表示Query′U,μ′q是内部的嵌入向量,相关公式如下所示:
au(xm,xn)=δ((μ′q)Tkm)
其中
Figure FDA0003729928910000037
用于反映出编码器编码的时空特征对时空特征一般的整体影响。
步骤S6.4:将步骤S6.2中的个体交互和步骤S6.3的整体交互得到的两种关注度平均化,相关公式如下所示:
Figure FDA0003729928910000038
步骤S6.5:根据历史时间步与未来时间步最终的交互结果,将HE(L)线性变换后的值向量vm乘以相应的影响程度后相加,得出
Figure FDA0003729928910000039
数据与HE(L)在时间上的动态交互后输出的隐藏表示,相关公式如下:
vm=WVxm
Figure FDA00037299289100000310
其中h是多头的数目。
6.如权利要求1所述的方法,其特征在于,步骤S7具体包括:
将双重交叉注意力输出的隐藏表示经过前馈神经网络变换,过程表示如下:
FFN(x)=GELU(xW1)W2
其中W1,W2代表可学习的参数矩阵;GELU是引入随机正则思想的激活函数;x代表输入张量。
循环传递下去,得到解码器最终输出HD(L),并线性转换为
Figure FDA0003729928910000041
通过最小化预测值和真实值之间的平均绝对误差(MAE),利用优化器Adam进行端到端的训练,其损失函数如下:
Figure FDA0003729928910000042
其中Φ是ISTTM中训练的所有参数,Y是下一个时间步长为Q的真实速度,
Figure FDA0003729928910000043
N是节点的数目,d代表节点的特征数。
CN202210782379.0A 2022-07-05 2022-07-05 一种基于改进的时空Transformer的交通流量预测方法 Withdrawn CN115273464A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210782379.0A CN115273464A (zh) 2022-07-05 2022-07-05 一种基于改进的时空Transformer的交通流量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210782379.0A CN115273464A (zh) 2022-07-05 2022-07-05 一种基于改进的时空Transformer的交通流量预测方法

Publications (1)

Publication Number Publication Date
CN115273464A true CN115273464A (zh) 2022-11-01

Family

ID=83763802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210782379.0A Withdrawn CN115273464A (zh) 2022-07-05 2022-07-05 一种基于改进的时空Transformer的交通流量预测方法

Country Status (1)

Country Link
CN (1) CN115273464A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050640A (zh) * 2023-02-01 2023-05-02 北京交通大学 基于自适应多图卷积的多模式交通系统短时客流预测方法
CN116129646A (zh) * 2023-02-21 2023-05-16 中国科学技术大学 一种基于特征交叉的图卷积神经网络的交通预测方法
CN116153087A (zh) * 2023-04-23 2023-05-23 华东交通大学 基于时序依赖注意力稀疏卷积的交通流量预测方法及系统
CN116153089A (zh) * 2023-04-24 2023-05-23 云南大学 基于时空卷积与动态图的交通流量预测系统及方法
CN116432868A (zh) * 2023-06-12 2023-07-14 深圳大学 基于节点查询集的地铁客流量预测方法、装置及存储介质
CN116596151A (zh) * 2023-05-25 2023-08-15 湖北工业大学 基于时空图注意力的交通流量预测方法及计算设备
CN117576634A (zh) * 2024-01-16 2024-02-20 浙江大华技术股份有限公司 基于密度检测的异常分析方法、设备以及存储介质
CN117688453A (zh) * 2024-02-02 2024-03-12 山东科技大学 一种基于时空嵌入注意力网络的交通流量预测方法
CN116543554B (zh) * 2023-05-01 2024-05-14 兰州理工大学 基于动态相关性的时空Transformer交通流预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高榕 等: "面向改进的时空 Transformer 的交通流量预测模型" *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116050640A (zh) * 2023-02-01 2023-05-02 北京交通大学 基于自适应多图卷积的多模式交通系统短时客流预测方法
CN116050640B (zh) * 2023-02-01 2023-10-13 北京交通大学 基于自适应多图卷积的多模式交通系统短时客流预测方法
CN116129646A (zh) * 2023-02-21 2023-05-16 中国科学技术大学 一种基于特征交叉的图卷积神经网络的交通预测方法
CN116129646B (zh) * 2023-02-21 2024-05-10 中国科学技术大学 一种基于特征交叉的图卷积神经网络的交通预测方法
CN116153087A (zh) * 2023-04-23 2023-05-23 华东交通大学 基于时序依赖注意力稀疏卷积的交通流量预测方法及系统
CN116153089A (zh) * 2023-04-24 2023-05-23 云南大学 基于时空卷积与动态图的交通流量预测系统及方法
CN116543554B (zh) * 2023-05-01 2024-05-14 兰州理工大学 基于动态相关性的时空Transformer交通流预测方法
CN116596151B (zh) * 2023-05-25 2024-03-15 湖北工业大学 基于时空图注意力的交通流量预测方法及计算设备
CN116596151A (zh) * 2023-05-25 2023-08-15 湖北工业大学 基于时空图注意力的交通流量预测方法及计算设备
CN116432868B (zh) * 2023-06-12 2023-09-19 深圳大学 基于节点查询集的地铁客流量预测方法、装置及存储介质
CN116432868A (zh) * 2023-06-12 2023-07-14 深圳大学 基于节点查询集的地铁客流量预测方法、装置及存储介质
CN117576634A (zh) * 2024-01-16 2024-02-20 浙江大华技术股份有限公司 基于密度检测的异常分析方法、设备以及存储介质
CN117576634B (zh) * 2024-01-16 2024-05-28 浙江大华技术股份有限公司 基于密度检测的异常分析方法、设备以及存储介质
CN117688453A (zh) * 2024-02-02 2024-03-12 山东科技大学 一种基于时空嵌入注意力网络的交通流量预测方法
CN117688453B (zh) * 2024-02-02 2024-04-30 山东科技大学 一种基于时空嵌入注意力网络的交通流量预测方法

Similar Documents

Publication Publication Date Title
CN115273464A (zh) 一种基于改进的时空Transformer的交通流量预测方法
CN111860951B (zh) 一种基于动态超图卷积网络的轨道交通客流预测方法
CN111161535A (zh) 基于注意力机制的图神经网络交通流量预测方法及系统
CN114299723B (zh) 一种交通流量预测方法
CN112863180B (zh) 交通速度预测方法、装置、电子设备及计算机可读介质
He et al. STANN: A spatio–temporal attentive neural network for traffic prediction
CN115240425A (zh) 一种基于多尺度时空融合图网络的交通预测方法
CN109829495B (zh) 基于lstm和dcgan的时序性图像预测方法
CN113905391A (zh) 集成学习网络流量预测方法、系统、设备、终端、介质
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测系统
CN113762338B (zh) 一种基于多重图注意力机制的交通流预测方法、设备及介质
CN113570859B (zh) 一种基于异步时空膨胀图卷积网络的交通流量预测方法
CN114692762A (zh) 一种基于图注意力交互机制的车辆轨迹预测方法
CN115042798A (zh) 一种交通参与者未来轨迹预测方法及系统、存储介质
Yao et al. Wave height forecast method with multi-step training set extension LSTM neural network
CN115862319A (zh) 一种面向时空图自编码器的交通流量预测方法
CN114817773A (zh) 一种基于多级分解和融合的时序预测系统及方法
CN116094761A (zh) 基于卫星通信的船舶网络安全态势预测方法
Xiong et al. DCAST: a spatiotemporal model with DenseNet and GRU based on attention mechanism
Cao et al. UTrans-Net: A Model for Short-Term Precipitation Prediction
Li et al. An Effective Self‐Attention‐Based Hybrid Model for Short‐Term Traffic Flow Prediction
Xu et al. Time series prediction via recurrent neural networks with the information bottleneck principle
CN116777068A (zh) 一种基于因果Transformer的网络化数据预测方法
CN116258253A (zh) 一种基于贝叶斯神经网络的车辆od预测方法
CN113408786B (zh) 一种交通特征预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221101

WW01 Invention patent application withdrawn after publication