CN116311921A - 一种基于多空间尺度时空Transformer的交通速度预测方法 - Google Patents
一种基于多空间尺度时空Transformer的交通速度预测方法 Download PDFInfo
- Publication number
- CN116311921A CN116311921A CN202310182427.7A CN202310182427A CN116311921A CN 116311921 A CN116311921 A CN 116311921A CN 202310182427 A CN202310182427 A CN 202310182427A CN 116311921 A CN116311921 A CN 116311921A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- road
- space
- traffic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000000605 extraction Methods 0.000 claims abstract description 156
- 230000003068 static effect Effects 0.000 claims abstract description 66
- 238000004364 calculation method Methods 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 42
- 238000013528 artificial neural network Methods 0.000 claims description 37
- 230000004927 fusion Effects 0.000 claims description 28
- 230000004913 activation Effects 0.000 claims description 26
- 238000010606 normalization Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 9
- 230000008034 disappearance Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000005259 measurement Methods 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000007499 fusion processing Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000036962 time dependent Effects 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical group OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于多空间尺度时空Transformer的交通速度预测方法,属于交通预测规划技术领域。预测方法包括:将预处理后的路段传感器速度序列数据依次输入多尺度空间特征提取模块、交通时空特征提取模块以及预测模块,逐步实现多尺度动态空间结构和静态路网结构的特征提取、精准建模时空依赖以及预测未来一段时间的交通速度。本发明多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少了大量无用计算。另外,交通时空特征提取模块根据交通特性以及数据的相对位置信息选择更有价值的历史数据以进行充分的时空特征提取,解决了提取时空依赖时存在的丢失相对位置信息的问题。
Description
技术领域
本发明涉及交通预测规划技术领域,尤其涉及一种基于多空间尺度时空Transformer的交通速度预测方法。
背景技术
交通系统是现代城市最重要的基础设施之一,支撑着数百万人的日常通勤和出行。随着城市化和人口增长,交通系统变得更加复杂。基于交通预测的早期干预被视为提高交通系统效率和缓解交通相关问题的关键。
现有交通数据的预测方法都是以整个交通网络为尺度来对空间结构建模的,即将大量的传感器节点放在一个交通图中做特征提取。一些模型基于传感器节点之间的距离构建了空间图,并将图卷积直接作用在空间图上提取空间域中有意义的模式和特征。这种将传感器视为全部相连的做法虽然可以充分提取空间关系,但是会造成过度提取的问题,导致引入了更多的噪声和大量无用信息。有些模型以距离阈值的方式定义传感器之间的连接关系,将传感器网络建模为加权有向图,并提出扩散卷积来捕获空间依赖性。但是这种方法仍然是以一整个交通网络为尺度,这不利于准确且有针对性的提取空间结构特征。随着Transformer的快速发展,一些模型使用空间Transformer来提取全局的空间结构特征,计算每一个传感器之间的依赖关系。虽然取得了不错的效果,但在提取空间结构时仍存在尺度单一、计算大量无用信息的问题。另外,现有模型在对交通速度数据建模时并没有考虑时空数据的先后关系以及相对位置信息,然而对于交通速度预测来说,这是非常重要的,因为交通速度数据是时间序列数据,而每个时间步之间的影响是不同的,比如对于一个时间步来说,其前一个时间步对他的影响会比前两个时间步对他的影响要大,另外,当前时间步是不受后面时间步的影响的。所以如何进行准确的时空建模,也是需要解决的一大问题。
发明内容
技术问题:本发明的目的是要克服现有技术中的不足之处,提供一种基于多空间尺度时空Transformer的交通速度预测方法,以解决因交通系统空间结构复杂、时空依赖关系有严格先后顺序而导致现存的交通数据预测无法精准且快速的预测交通数据的问题。
技术方案:本发明于多空间尺度时空Transformer的交通速度预测方法,利用城市交通速度数据设计预测模型,实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度;所述预测模型包括多尺度空间特征提取模块、交通时空特征提取模块和预测模块;包括如下步骤:
步骤1、对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤4、将步骤3得到的具有精准时空依赖的速度数据XST输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
所述处理传感器节点数据以及生成样本集合;
所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息,处理传感器节点数据的方法为:将传感器数据每5分钟聚合一次,采用线性插值法填充缺失值,最后将填充完缺失值的传感器数据使用z-score方法归一化,得到交通数据集;所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法;所述z-score方法是一个实测值与平均数的差再除以标准差的过程,通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值;
所述生成样本集合的方法为:
将所有数据样本依次进行特征提取与预测,特征提取与预测的过程一致,均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。
所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵,所述交通数据集中的速度数据是时间序列数据,表示为其中,/>是N个传感器节点在时间步t的观测值,将观测值表示为交通图G=(V,E,W),其中,V表示传感器节点的集合,|V|=N;E表示边的集合,/>表示交通图G的带权邻接矩阵;其中,邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的,边的权重矩阵W是根据连通关系构造的邻接矩阵,对于传感器i与传感器j来说,wij=dij;其中,wij表示传感器i与传感器j之间的权重,dij是传感器i与传感器j之间的距离。
步骤2中,所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层;将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征;之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少大量无用信息的计算;
多尺度空间特征提取模块的提取过程为:
其中:Conv表示卷积操作;
将并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层,分别得到节点层面的特征Snode、区域层面的特征Sarea、道路层面的特征Sroad以及静态的路网结构特征Sstatic;之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS:
XS=Fusion(Snode,Sarea,Sroad,Sstatic)
其中:Fusion表示融合层的融合操作。
所述节点特征提取层,对每个传感器节点都有自己独特的交通特征,不需要去聚合其他传感器节点的特征,所以在节点特征提取层仅对原始的输入特征进行特征提取;
其次,再经过一层前馈神经网络用来提取非线性特征,所述前馈神经网络由两层线性层与一个非线性激活函数组成;
最后,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作,得到传感器节点层面的特征值Snode,提取过程表示如下:
其中,LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活,用于学习数据的非线性特征。
所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元;
首先,采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系,并将其融入到原始数据中;
其次,将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征;
最后再经过前馈神经网络单元以提取更深层的特征;
所述区域位置嵌入单元的嵌入过程为:
其中,F为一个1×1的卷积层,用于将动态的位置信息融入到输入数据中去;
所述区域多头自注意力单元的特征提取过程为:
其次,计算节点之间的注意力分数,在计算区域注意力分数时对节点进行了筛选,只计算其区域范围内的注意力分数,筛选过程如下:
其中,表示/>在查询子空间中对应的值,/>表示/>在键子空间中对应的值,/>表示矩阵的转置;dk表示Karea的维度,/>用于防止梯度消失以及出现的输入值过大的问题;Bij表示筛选变量,当节点j在节点i的区域范围内时,Bij的值为0,反之置为负无穷:
其中Ri表示以节点i为中心,根据给定的距离阈值K所确定的区域范围内所有其他节点的集合;
再次,将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内,以确保它们在整个序列中总和为1,之后与对应的值子空间相乘相加,得到提取过区域特征的数据Marea:
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过区域空间特征的数据M′area:
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过区域空间特征的数据Sarea:
Sarea=LN(Linear(ReLU(Linear(M′area)))+M′area)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
其次,计算节点之间的相关性分数,使用稀疏自注意力来提取空间特征;由Qroad与Kroad先经过点积计算得到注意力分数集合Sroad:
其中:(Kroad)T表示矩阵Kroad的转置;在得到的注意力分数集合Sroad中选择最高的几个注意力分数与对应的值子空间相乘,得到提取过道路特征的数据Mroad:
Mroad=Ftop-p(Sroad)V
其中,Ftop-p表示筛选函数,用于从Sroad中按数值大小选取top-p个注意力分数保持原值,其他注意力分数均置为0;
然后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过道路空间特征的数据M′road:
其中:LN表示层标准化操作,用于保证数据稳定性;
最后,再将提取过道路空间特征的数据M′road输入前馈神经网络单元以学习数据的非线性特征;所述前馈神经网络单元由两层线性层与一个非线性激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过道路空间特征的数据Sroad:
Sroad=LN(Linear(ReLU(Linear(M′road)))+M′road)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
所述静态空间特征提取层,利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征Sstatic;
静态空间特征提取层的提取过程如下:
所述融合层的融合过程为:
融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征,先根据要融合的数据计算门g,之后用数据计算门g算出通过加权的方式有选择性的处理输入数据,数据计算门g表示为:
g=sigmoid(fnode(Snode)+farea(Sarea)+froad(Sroad)+fstatic(Sstatic))
其中:fnode、farea、froad和fstatic分别是将Snode、Sarea、Sroad和Sstatic转换为一维向量的线性函数;所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出;融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS表示为:
XS=g(Snode)+g(Sarea)+g(Sroad)+(1-g)(Sstatic)。
步骤3中,所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层;交通时空特征提取模块首先将提取过空间特征的速度数据XS输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系,之后经过多头自注意力层学习数据中的时空特征,最后输入前馈神经网络层学习数据之间非线性的依赖关系;
所述交通时间位置嵌入层的嵌入过程为:
由于绝对位置嵌入的方法会丢失一些位置信息,所以序列注入相对位置信息,并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数;
RPR=[-l+1,…,-2,-1,0,1,2,…,l-1];
其中,与/>之间的相对位置关系为aij=j-i∈RPR;之后为2l-1种相对位置关系分别生成对应的权重矩阵,其中aij对应的权重向量为Wi-j;由于交通数据是有高度时间流动性的数据,未来的时间不会影响到之前时间步的数据走向,所以将RPR中表示未来的值的权重向量置为0,即Wi-j=0,i-j<0;
所述多头自注意力层的特征提取过程为:
再次,与对应的值子空间相乘,得到提取过时间依赖关系的数据MT:
MT=STVT
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过时间依赖特征之后的数据M′T:
M′T=LN(XS+MT)
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非线性激活函数组成,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到具有精准时间依赖的交通速度数据XST:
XST=LN(Linear(ReLU(Linear(M′T)))+M′T)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
步骤4中,所述的预测模块由两个经典卷积层组成,第一个卷积层用来将时间步维度降维,第二个卷积层是对特征维度进行降维;最终得到未来Tτ个时间步的交通数据,Tτ表示预测未来时间步的个数;得到预测数据Y:
其中:Conv表示卷积操作;
预测后,采用Huber损失函数来进行调优:
有益效果,由于采用了上述技术方案,本发明利用多尺度空间特征提取、交通时空特征提取和预测三个模块;在多尺度空间特征提取模块中,分别从节点层面、道路层面和区域层面三个尺度来提取交通动态的空间结构特征。其中,对于道路层面和区域层面的提取,分别设计了相应的筛选器来有针对的建模空间结构。另外,在道路层面和区域层面模块中使用了图卷积神经网络来提取静态的路网特征。最后在本模块中设计了融合层来将各个尺度的空间特征融合。在交通时空特征提取模块中,将速度数据的相对位置信息以及由于交通特有的周期性所带来的相对权重信息考虑在内,以在提取时空依赖时选择利用更有价值的历史数据。预测模块对提取过时空特征的数据进行多步预测,以预测未来指定时间步的交通速度。相比其他交通数据预测模型,本发明具备明显的优势,不仅解决了因交通系统空间结构复杂、时空依赖关系有严格先后顺序而导致现存的交通速度预测方法无法精准且快速的预测交通速度的问题,而且具备以下优点:
多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少了大量无用计算;另外,交通时空特征提取模块根据交通特性以及数据的相对位置信息选择更有价值的历史数据以进行充分的时空特征提取,解决了提取时空依赖时存在的丢失相对位置信息的问题。
附图说明
图1为本发明基于多空间尺度时空Transformer的交通速度预测方法的流程图。
图2为本发明基于多空间尺度时空Transformer的交通速度预测方法的结构图。
具体实施方式
下面结合附图对本发明的实施例作进一步的描述:
本发明的一种基于多空间尺度时空Transformer的交通速度预测方法,利用城市交通速度数据设计预测模型,实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度;所述预测模型包括多尺度空间特征提取模块(Multi-scale spatial feature extraction,MCS)、交通时空特征提取模块(Traffic TimeWise,TTW)和预测模块;包括如下步骤:
步骤1、首先,对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤1中,所述处理传感器节点数据以及生成样本集合;
所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息,处理传感器节点数据的方法为:将传感器数据每5分钟聚合一次,采用线性插值法填充缺失值,最后将填充完缺失值的传感器数据使用z-score方法归一化,得到交通数据集;所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法;所述z-score方法是一个实测值与平均数的差再除以标准差的过程,通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值;
所述生成样本集合的方法为:
将所有数据样本依次进行特征提取与预测,特征提取与预测的过程一致,均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。
所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵,所述交通数据集中的速度数据是时间序列数据,表示为其中,/>是N个传感器节点在时间步t的观测值,将观测值表示为交通图G=(V,E,W),其中,V表示传感器节点的集合,|V|=N;E表示边的集合,/>表示交通图G的带权邻接矩阵;其中,邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的,边的权重矩阵W是根据连通关系构造的邻接矩阵,对于传感器i与传感器j来说,wij=dij;其中,wij表示传感器i与传感器j之间的权重,dij是传感器i与传感器j之间的距离。
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤2中,所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层;将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征;之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少大量无用信息的计算;
多尺度空间特征提取模块的提取过程为:
其中:Conv表示卷积操作;
将并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层,分别得到节点层面的特征Snode、区域层面的特征Sarea、道路层面的特征Sroad以及静态的路网结构特征Sstatic;之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS:
XS=Fusion(Snode,Sarea,Sroad,Sstatic)
其中:Fusion表示融合层的融合操作。
所述节点特征提取层,对每个传感器节点都有自己独特的交通特征,不需要去聚合其他传感器节点的特征,所以在节点特征提取层仅对原始的输入特征进行特征提取;
其次,再经过一层前馈神经网络用来提取非线性特征,所述前馈神经网络由两层线性层与一个非线性激活函数组成;
最后,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作,得到传感器节点层面的特征值Snode,提取过程表示如下:
其中,LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活,用于学习数据的非线性特征。
所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元;
首先,采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系,并将其融入到原始数据中;
其次,将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征;
最后再经过前馈神经网络单元以提取更深层的特征;
所述区域位置嵌入单元的嵌入过程为:
其中,F为一个1×1的卷积层,用于将动态的位置信息融入到输入数据中去;
所述区域多头自注意力单元的特征提取过程为:
其次,计算节点之间的注意力分数,在计算区域注意力分数时对节点进行了筛选,只计算其区域范围内的注意力分数,筛选过程如下:
其中,表示/>在查询子空间中对应的值,/>表示/>在键子空间中对应的值,/>表示矩阵的转置;dk表示Karea的维度,/>用于防止梯度消失以及出现的输入值过大的问题;Bij表示筛选变量,当节点j在节点i的区域范围内时,Bij的值为0,反之置为负无穷:
其中Ri表示以节点i为中心,根据给定的距离阈值K所确定的区域范围内所有其他节点的集合;
再次,将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内,以确保它们在整个序列中总和为1,之后与对应的值子空间相乘相加,得到提取过区域特征的数据Marea:
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过区域空间特征的数据M′area:
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过区域空间特征的数据Sarea:
Sarea=LN(Linear(ReLU(Linear(M′area)))+M′area)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
其次,计算节点之间的相关性分数,使用稀疏自注意力来提取空间特征;由Qroad与Kroad先经过点积计算得到注意力分数集合Sroad:
其中:(Kroad)T表示矩阵Kroad的转置;在得到的注意力分数集合Sroad中选择最高的几个注意力分数与对应的值子空间相乘,得到提取过道路特征的数据Mroad:
Mroad=Ftop-p(Sroad)V
其中,Ftop-p表示筛选函数,用于从Sroad中按数值大小选取top-p个注意力分数保持原值,其他注意力分数均置为0;
然后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过道路空间特征的数据M′road:
其中:LN表示层标准化操作,用于保证数据稳定性;
最后,再将提取过道路空间特征的数据M′road输入前馈神经网络单元以学习数据的非线性特征;所述前馈神经网络单元由两层线性层与一个非线性激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过道路空间特征的数据Sroad:
Sroad=LN(Linear(ReLU(Linear(M′road)))+M′road)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
所述静态空间特征提取层,利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征Sstatic;
静态空间特征提取层的提取过程如下:
所述融合层的融合过程为:
融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征,先根据要融合的数据计算门g,之后用数据计算门g算出通过加权的方式有选择性的处理输入数据,数据计算门g表示为:
g=sigmoid(fnode(Snode)+farea(Sarea)+froad(Sroad)+fstatic(Sstatic))
其中:fnode、farea、froad和fstatic分别是将Snode、Sarea、Sroad和Sstatic转换为一维向量的线性函数;所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出;融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS表示为:
XS=g(Snode)+g(Sarea)+g(Sroad)+(1-g)(Sstatic)。
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤3中,所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层;交通时空特征提取模块首先将提取过空间特征的速度数据XS输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系,之后经过多头自注意力层学习数据中的时空特征,最后输入前馈神经网络层学习数据之间非线性的依赖关系;
所述交通时间位置嵌入层的嵌入过程为:
由于绝对位置嵌入的方法会丢失一些位置信息,所以序列注入相对位置信息,并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数;
RPR=[-l+1,…,-2,-1,0,1,2,…,l-1];
其中,与/>之间的相对位置关系为aij=j-i∈RPR;之后为2l-1种相对位置关系分别生成对应的权重矩阵,其中aij对应的权重向量为Wi-j;由于交通数据是有高度时间流动性的数据,未来的时间不会影响到之前时间步的数据走向,所以将RPR中表示未来的值的权重向量置为0,即Wi-j=0,i-j<0;
所述多头自注意力层的特征提取过程为:
再次,与对应的值子空间相乘,得到提取过时间依赖关系的数据MT:
MT=STVT
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过时间依赖特征之后的数据M′T:
M′T=LN(XS+MT)
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非线性激活函数组成,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到具有精准时间依赖的交通速度数据XST:
XST=LN(Linear(ReLU(Linear(M′T)))+M′T)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
步骤4、将步骤3得到的具有精准时空依赖的速度数据XST输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
步骤4中,所述的预测模块由两个经典卷积层组成,第一个卷积层用来将时间步维度降维,第二个卷积层是对特征维度进行降维;最终得到未来Tτ个时间步的交通数据,Tτ表示预测未来时间步的个数;得到预测数据Y:
其中:Conv表示卷积操作;
预测后,采用Huber损失函数来进行调优:
基于多空间尺度时空Transformer的交通速度预测方法的应用:在某地的一个高速公路交通数据集PeMSD7(M)上进行验证。这些数据集由Caltrans性能测量系统(PeMS)每30秒实时收集一次,时间范围为某年的5月和6月的工作日,交通速度预测步骤如下:
步骤1、对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤4、将步骤3得到的具有精准时空依赖的速度数据输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
步骤5、实验环境及超参数设定:
所依赖的深度学习框架为PyTorch 1.10.0,编程语言为Python 3.6;所有实验均在搭载NVIDIA Tesla P40的计算机上进行,其深度学习加速环境为CUDA 10.2,cuDNN10.2;使用Adam优化器对所提出的模型进行了50个epochs的平均绝对误差损失训练,batchsize为32;初始学习率为0.01,每五个epochs以0.7的速率减少;距离阈值K设置为7000;预测时间步Tτ设置为12。
Claims (10)
1.一种基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:利用城市交通速度数据设计预测模型,实现全面且有针对的提取空间特征、精准建模时空依赖特征和预测未来一段时间的交通速度;所述预测模型包括多尺度空间特征提取模块、交通时空特征提取模块和预测模块;包括如下步骤:
步骤1、对获取到的路段传感器速度序列数据进行预处理:包括处理传感器节点数据以及生成样本集合,得到预处理后的速度样本集和路网的带权邻接矩阵;
步骤2、将步骤1处理后的数据输入多尺度空间特征提取模块,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;
步骤3、将步骤2得到的提取过空间结构特征的速度数据经过交通时空特征提取模块进行时空依赖关系的构建,得到具有精准时空依赖的速度数据;
步骤4、将步骤3得到的具有精准时空依赖的速度数据XST输入预测模块进行多步预测,以预测未来一段时间的交通速度;同时使用损失函数训练所述交通速度预测模型,逐步训练优化参数以实现对城市交通速度的准确预测。
2.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:步骤1中,所述处理传感器节点数据以及生成样本集合;
所述传感器节点数据是指从道路传感器获取到的一段时间内的平均车速信息,处理传感器节点数据的方法为:将传感器数据每5分钟聚合一次,采用线性插值法填充缺失值,最后将填充完缺失值的传感器数据使用z-score方法归一化,得到交通数据集;所述线性插值法是指使用连接两个已知量的直线来确定在这两个已知量之间的一个未知量的值的方法;所述z-score方法是一个实测值与平均数的差再除以标准差的过程,通过z-score方法能够将不同量级的数据转化为统一量度的z-score分值;
所述生成样本集合的方法为:
将所有数据样本依次进行特征提取与预测,特征提取与预测的过程一致,均依次经过多尺度空间特征提取模块、交通时空特征提取模块以及预测模块。
3.根据权利要求2所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:所述交通数据集包括速度数据以及由传感器节点之间的距离确定的带权邻接矩阵,所述交通数据集中的速度数据是时间序列数据,表示为其中,/>是N个传感器节点在时间步t的观测值,将观测值表示为交通图G=(V,E,W),其中,V表示传感器节点的集合,|V|=N;E表示边的集合,/>表示交通图G的带权邻接矩阵;其中,邻接矩阵以及边的权重是根据传感器所在位置之间的距离决定的,边的权重矩阵W是根据连通关系构造的邻接矩阵,对于传感器i与传感器j来说,wij=dij;其中,wij表示传感器i与传感器j之间的权重,dij是传感器i与传感器j之间的距离。
4.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:
步骤2中,所述多尺度空间特征提取模块包括节点特征提取层、区域特征提取层、道路特征提取层、静态路网特征提取层以及融合层;将步骤1得到的速度数据样本分别输入各特征提取层来分别提取节点层面、区域层面和道路层面三个尺度的动态空间结构特征以及静态的路网结构特征;之后将三个尺度的动态特征以及静态的特征数据输入融合层来进行融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据;多尺度空间特征提取模块能够全面且有针对的提取空间特征,在提高预测精度的同时减少大量无用信息的计算;
多尺度空间特征提取模块的提取过程为:
其中:Conv表示卷积操作;
将并行输入传感器节点特征提取层、区域特征提取层、道路特征提取层以及静态特征提取层,分别得到节点层面的特征Snode、区域层面的特征Sarea、道路层面的特征Sroad以及静态的路网结构特征Sstatic;之后将上述特征输入融合层来将三个尺度的动态特征以及静态的特征融合,得到融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS:
XS=Fusion(Snode,Sarea,Sroad,Sstatic)
其中:Fusion表示融合层的融合操作。
5.根据权利要求4所述的一种基于多空间尺度时空Transformer的交通速度预测方法,特征在于:所述节点特征提取层,对每个传感器节点都有自己独特的交通特征,不需要去聚合其他传感器节点的特征,所以在节点特征提取层仅对原始的输入特征进行特征提取;
其次,再经过一层前馈神经网络用来提取非线性特征,所述前馈神经网络由两层线性层与一个非线性激活函数组成;
最后,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作,得到传感器节点层面的特征值Snode,提取过程表示如下:
其中,LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活,用于学习数据的非线性特征。
6.根据权利要求4所述的基于多空间尺度时空Transformer的交通速度预测方法,特征在于:
所述区域特征提取层包括区域位置嵌入单元、区域多头自注意力单元、前馈神经网络单元;
首先,采用可学习的空间位置嵌入矩阵来学习节点之间的动态位置关系,并将其融入到原始数据中;
其次,将经过位置嵌入后的数据输入区域多头自注意力单元来学习不同方面的特征;
最后再经过前馈神经网络单元以提取更深层的特征;
所述区域位置嵌入单元的嵌入过程为:
其中,F为一个1×1的卷积层,用于将动态的位置信息融入到输入数据中去;
所述区域多头自注意力单元的特征提取过程为:
其次,计算节点之间的注意力分数,在计算区域注意力分数时对节点进行了筛选,只计算其区域范围内的注意力分数,筛选过程如下:
其中,表示/>在查询子空间中对应的值,/>表示/>在键子空间中对应的值,/>表示矩阵的转置;dk表示Karea的维度,/>用于防止梯度消失以及出现的输入值过大的问题;Bij表示筛选变量,当节点j在节点i的区域范围内时,Bij的值为0,反之置为负无穷:
其中Ri表示以节点i为中心,根据给定的距离阈值K所确定的区域范围内所有其他节点的集合;
再次,将得到的注意力分数用激活函数softmax将注意力分数映射到[0,1]范围内,以确保它们在整个序列中总和为1,之后与对应的值子空间相乘相加,得到提取过区域特征的数据Marea:
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过区域空间特征的数据M′area:
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过区域空间特征的数据Sarea:
Sarea=LN(Linear(ReLU(Linear(M′area)))+M′area)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
7.根据权利要求4所述的一种基于多空间尺度时空Transformer的交通速度预测方法,特征在于:所述道路特征提取层,先将输入数据经过线性映射层,投影出不同于区域提取层的三个子空间,包括查询子空间Qroad、键子空间Kroad和值子空间Vroad:
其次,计算节点之间的相关性分数,使用稀疏自注意力来提取空间特征;由Qroad与Kroad先经过点积计算得到注意力分数集合Sroad:
其中:(Kroad)T表示矩阵Kroad的转置;在得到的注意力分数集合Sroad中选择最高的几个注意力分数与对应的值子空间相乘,得到提取过道路特征的数据Mroad:
Mroad=Ftop-p(Sroad)V
其中,Ftop-p表示筛选函数,用于从Sroad中按数值大小选取top-p个注意力分数保持原值,其他注意力分数均置为0;
然后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过道路空间特征的数据M′road:
其中:LN表示层标准化操作,用于保证数据稳定性;
最后,再将提取过道路空间特征的数据M′road输入前馈神经网络单元以学习数据的非线性特征;所述前馈神经网络单元由两层线性层与一个非线性激活函数组成;为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到提取过道路空间特征的数据Sroad:
Sroad=LN(Linear(ReLU(Linear(M′road)))+M′road)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
8.根据权利要求4所述的一种基于多空间尺度时空Transformer的交通速度预测方法,特征在于:所述静态空间特征提取层,利用图卷积操作聚集来自相邻节点的信息来提取交通路网的静态特征Sstatic;
静态空间特征提取层的提取过程如下:
所述融合层的融合过程为:
融合层利用门控机制(gating mechanism)来融合多空间尺度的动态特征以及静态的空间特征,先根据要融合的数据计算门g,之后用数据计算门g算出通过加权的方式有选择性的处理输入数据,数据计算门g表示为:
g=sigmoid(fnode(Snode)+farea(Sarea)+froad(Sroad)+fstatic(Sstatic))
其中:fnode、farea、froad和fstatic分别是将Snode、Sarea、Sroad和Sstatic转换为一维向量的线性函数;所述门控机制利用转换门和进位门来分别表示通过转换输入和进位输出产生了多少输出;融合了多尺度动态空间结构以及静态路网结构特征的速度数据XS表示为:
XS=g(Snode)+g(Sarea)+g(Sroad)+(1-g)(Sstatic)。
9.根据权利要求1所述的基于多空间尺度时空Transformer的交通速度预测方法,其特征在于:
步骤3中,所述交通时空特征提取模块包括交通时间位置嵌入层、多头自注意力层以及前馈神经网络层;交通时空特征提取模块首先将提取过空间特征的速度数据XS输入交通时间位置嵌入层来学习数据中对应时间的先后位置关系,之后经过多头自注意力层学习数据中的时空特征,最后输入前馈神经网络层学习数据之间非线性的依赖关系;
所述交通时间位置嵌入层的嵌入过程为:
由于绝对位置嵌入的方法会丢失一些位置信息,所以序列注入相对位置信息,并且在之后计算注意力分数时加入一个可训练的表示相对位置的参数;
RPR=[-l+1,…,-2,-1,0,1,2,…,l-1];
其中,与/>之间的相对位置关系为aij=j-i∈RPR;之后为2l-1种相对位置关系分别生成对应的权重矩阵,其中aij对应的权重向量为Wi-j;由于交通数据是有高度时间流动性的数据,未来的时间不会影响到之前时间步的数据走向,所以将RPR中表示未来的值的权重向量置为0,即Wi-j=0,i-j<0;
所述多头自注意力层的特征提取过程为:
再次,与对应的值子空间相乘,得到提取过时间依赖关系的数据MT:
MT=STVT
最后,使用带有残差连接的层标准化操作来稳定该单元的输出,得到提取过时间依赖特征之后的数据M′T:
M′T=LN(XS+MT)
其中:LN表示层标准化操作,用于保证数据稳定性;
所述前馈神经网络单元的特征提取过程为:
前馈神经网络由两层线性层与一个非线性激活函数组成,为了防止梯度消失,在特征提取后加入了带有残差连接的层标准化操作来稳定输出,得到具有精准时间依赖的交通速度数据XST:
XST=LN(Linear(ReLU(Linear(M′T)))+M′T)
其中:LN表示层标准化操作,用于保证数据稳定性;Linear表示线性层,用于扩张和缩小数据的维度;ReLU是非线性激活函数,用于学习数据的非线性特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310182427.7A CN116311921A (zh) | 2023-03-01 | 2023-03-01 | 一种基于多空间尺度时空Transformer的交通速度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310182427.7A CN116311921A (zh) | 2023-03-01 | 2023-03-01 | 一种基于多空间尺度时空Transformer的交通速度预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116311921A true CN116311921A (zh) | 2023-06-23 |
Family
ID=86831793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310182427.7A Pending CN116311921A (zh) | 2023-03-01 | 2023-03-01 | 一种基于多空间尺度时空Transformer的交通速度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311921A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597657A (zh) * | 2023-07-17 | 2023-08-15 | 四川省商投信息技术有限责任公司 | 基于人工智能的城市交通预测方法、设备及介质 |
CN117456736A (zh) * | 2023-12-22 | 2024-01-26 | 湘江实验室 | 基于多尺度时空动态交互网络的交通流量预测方法 |
-
2023
- 2023-03-01 CN CN202310182427.7A patent/CN116311921A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116597657A (zh) * | 2023-07-17 | 2023-08-15 | 四川省商投信息技术有限责任公司 | 基于人工智能的城市交通预测方法、设备及介质 |
CN117456736A (zh) * | 2023-12-22 | 2024-01-26 | 湘江实验室 | 基于多尺度时空动态交互网络的交通流量预测方法 |
CN117456736B (zh) * | 2023-12-22 | 2024-03-12 | 湘江实验室 | 基于多尺度时空动态交互网络的交通流量预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110070713B (zh) | 一种基于双向嵌套lstm神经网络的交通流预测方法 | |
CN111612243B (zh) | 交通速度预测方法、系统及存储介质 | |
CN116311921A (zh) | 一种基于多空间尺度时空Transformer的交通速度预测方法 | |
CN111292525B (zh) | 基于神经网络的交通流预测方法 | |
CN113487061A (zh) | 一种基于图卷积-Informer模型的长时序交通流量预测方法 | |
CN111126680A (zh) | 一种基于时间卷积神经网络的道路断面交通流量预测方法 | |
Yu et al. | A special event-based K-nearest neighbor model for short-term traffic state prediction | |
CN112289034A (zh) | 基于多模态时空数据的深度神经网络鲁棒交通预测方法 | |
Lin et al. | A spatial-temporal hybrid model for short-term traffic prediction | |
CN110083125B (zh) | 一种基于深度学习的机床热误差建模方法 | |
CN111862592B (zh) | 一种基于rgcn的交通流预测方法 | |
CN109492817A (zh) | 一种封闭区域内未来泊位需求数量短时预测方法 | |
CN107704970A (zh) | 一种基于Spark的需求侧负荷预测方法 | |
CN112634608B (zh) | 一种区域交通流量预测方法及系统 | |
CN114495507B (zh) | 融合时空注意力神经网络和交通模型的交通流预测方法 | |
CN112966871A (zh) | 基于卷积长短期记忆神经网络的交通拥堵预测方法及系统 | |
CN116681176B (zh) | 一种基于聚类和异构图神经网络的交通流预测方法 | |
CN113554466A (zh) | 一种短期用电量预测模型构建方法、预测方法和装置 | |
Kang et al. | Urban traffic travel time short-term prediction model based on spatio-temporal feature extraction | |
CN116307152A (zh) | 时空交互式动态图注意力网络的交通预测方法 | |
CN114596726B (zh) | 基于可解释时空注意力机制的停车泊位预测方法 | |
CN108053646B (zh) | 基于时间敏感特征的交通特征获取方法、预测方法及系统 | |
Yu et al. | A novel discussion on two long-term forecast mechanisms for hydro-meteorological signals using hybrid wavelet-NN model | |
CN115482666B (zh) | 基于数据融合的多图卷积神经网络交通预测方法 | |
CN116797274A (zh) | 一种基于Attention-LSTM-LightGBM的共享单车需求量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |