CN110619430A - 一种用于交通预测的时空注意力机制方法 - Google Patents
一种用于交通预测的时空注意力机制方法 Download PDFInfo
- Publication number
- CN110619430A CN110619430A CN201910826273.4A CN201910826273A CN110619430A CN 110619430 A CN110619430 A CN 110619430A CN 201910826273 A CN201910826273 A CN 201910826273A CN 110619430 A CN110619430 A CN 110619430A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- attention
- time
- lstm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000000737 periodic effect Effects 0.000 claims abstract description 47
- 230000002123 temporal effect Effects 0.000 claims abstract description 27
- 230000007774 longterm Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 238000003062 neural network model Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 230000006872 improvement Effects 0.000 abstract description 2
- 210000004027 cell Anatomy 0.000 description 26
- 230000008859 change Effects 0.000 description 3
- 229940050561 matrix product Drugs 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 210000000653 nervous system Anatomy 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种用于交通预测的时空注意力机制方法,属于交通预测领域。本发明是一种端到端解决方案的交通预测框架,它可以对空间、短期和长期的周期性依赖关系进行建模。APTN首先使用编码器的注意力机制来对空间依赖项和周期依赖项进行建模。我们的模型可以更容易地捕获这些依赖关系,因为每个节点都要处理网络中的所有其他节点。然后,应用时间注意选择相关的编码器隐藏状态跨越所有时间步骤。我们使用真实世界的交通数据集来评估我们提出的模型,并观察在最先进的基线上的一致性改进。
Description
技术领域
本发明属于交通预测领域,具体涉及一种用于交通预测的时空注意力机制方法。
背景技术
交通预测系统数据具有空间性,时空性(周期性,时序性)。现阶段,对交通预测的方法主要是通过深度学习的CNN进行空间的相关提取,RNN或其变体 LSTM/GRU进行时间依赖性建模。
这些通过整合CNN和LSTM来联合建模空间,时间和外部特征依赖性的方法可能无法充分模拟空间相关性,因为卷积操作只聚合本地信息,并且需要很多层来学习远距离空间依赖性。使用多层卷积来缓解这个问题,其在建模空间依赖性时考虑距离,功能相似性和运输连通性。但它需要利用空间结构的性质,例如距离,功能相似性,不同区域的交通连通性。
神经网络最开始是受生物神经系统的启发,为了模拟生物神经系统而出现的,由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化,对权值进行调整,改善系统的行为,自动学习到一个能够解决问题的模型。 LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式,有效地解决多层神经网络训练的梯度消失和梯度爆炸问题,能够处理长时时间依赖序列。LSTM 能够捕获充电量数据的时间序列特性,使用LSTM模型能够有效提高预测精度。
LSTM网络由LSTM单元组成,LSTM单元由单元,输入门,输出门和遗忘门组成。
遗忘门:决定从上一个单元的输出状态中丢弃多少信息,公式如下:
ft=σg(Wfxt+Ufht-1+bf)
其中,ft是遗忘门的输出,xt是输入序列,ht-1是上一个单元的输出,σg表示sigmoid函数,Wf表示输入的权重参数矩阵,Uf表示上一个单元输出的权重参数矩阵,bf表示偏差参数向量。
输入门:决定让多少新的信息加入到Cell状态中,并对单元状态C进行更新,公式如下:
it=σg(Wixt+Uiht-1+bi)
其中,ct表示当前单元的单元状态,σg和σc表示sigmoid函数,表示矩阵乘积,Wi表示输入的权重参数矩阵,Ui表示上一个单元输出的权重参数矩阵,bi表示偏差参数向量,ft是遗忘门的输出,ct-1是上一个单元的单元状态,表示矩阵乘积,Wc表示输入的权重参数矩阵,Uc表示上一个单元输出的权重参数矩阵, bc表示偏差参数向量。
输出门:基于当前的单元状态输出结果。
ot=σg(Woxt+Uoht-1+bo)
其中,ht表示当前单元的输出,σg和σh表示sigmoid函数,表示矩阵乘积, Wo表示输入的权重参数矩阵,Uo表示上一个单元输出的权重参数矩阵,bo表示偏差参数向量。
发明内容
本发明提出了一种基于时空注意力机制的交通预测算法,是基于注意力的周期性时间神经网络(APTN),它模拟空间,短期和长期的周期性依赖性。APTN 采用了一种新颖的基于注意力的编码器-解码器架构。它首先使用循环跳越神经网络处理长期周期性输入,然后对编码器中的空间和周期依赖性进行编码。在解码器中,应用时间注意力机制以跨所有时间步骤从编码器隐藏状态捕获依赖性。通过这种方式,APTN可以自适应地选择最相关的输入特征以及适当地捕获长期时间依赖性。
本发明的技术方案:
一种用于交通预测的时空注意力机制方法,步骤如下:
第一步,将交通数据进行预处理
(1)时间粒度划分:将所有交通数据的整个时间段被分成等长连续时间间隔;
(2)空间粒度划分:将一组路段定义为A={1,2,…,N},其中,N表示路段的数量;
(3)对数据进行标准化:表示在时间t的N个路段的交通量;鉴于历史观测值x=(x1,x2,...,xT)∈RN*T,交通量预测旨在预测其中,T表示数据的时间总长度,h是对不同任务关注的标准;
第二步,将预处理后的交通数据划分为训练集、验证集和测试集;
第三步,构建基于注意力的周期性时间神经网络模型APTN
基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型;各个模型的结构如下:
(1)全连接层:使用完全连接的网络来获得长短周期的交通数据特征的提取功能;全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(2)长周期模型:该模型包括基于长短期记忆网络LSTM;LSTM拥有三个门来控制细胞状态,第一个是遗忘门,用于决定丢弃上一层细胞状态的哪些信息;第二个是输入门,用于确定哪些新的信息能够被存放到细胞中;第三个是输出门,用来控制该层的细胞状态的过滤情况;
(3)具有空间注意力的编码器:是一个基于长短期记忆网络LSTM的编码器,编码器由空间注意力机制和长短期记忆网络组成;使用特征维度的平方根来缩放点积,利用周期向量和注意权重,构造编码器LSTM的输入;
(4)具有时间注意力的解码器:是一个基于LSTM的循环神经网络和时间注意力机制的解码器;
(5)生成预测模型:使用两层完全连接的网络来获得神经网络的最终输出,并且在时间T+i处的预测输出全连接层是一类神经网络层,它的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(6)自回归模型AR:用同一变数x1至xt-1来预测本期xt的表现;
第四步,使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练
(1)输入数据进入全连接层进行特征提取
将长周期数据XL和短周期数据XS输入全连接层,其中,为最近时段的历史观测值,Ts是基于注意力的周期性时间神经网络模型使用的时间宽度,对于长周期的周期性建模,在每个周期内,需要Ts数量的数据,设要考虑n个周期,将作为长周期数据;
全连接层提取所输入的交通数据的特征zt=Wvxt+bv,其中Wv∈Rv*N,v是特征表示维度,zt∈Rv是xt的嵌入,bv是特征公式中的偏置值;然后,由交通量的特征量zt得到ZL和ZS;和表示长周期数据XL和短周期数据XS的嵌入矩阵;
(2)长周期嵌入矩阵ZL输入长周期模型中的长期循环神经网络
将长期嵌入交通信息输入长期循环神经网络,基于LSTM更新过程表示为,其中zt∈Rv是时间t的输入,是先前的Tl LSTM单元的隐藏状态,fLSTM()表示对LSTM学习的映射函数;从该循环跳跃LSTM,获得Ts隐藏状态,表示为将HL称为长期周期性分量,它将被传送到编码器;
在更新过程中,将所有LSTM单元的隐藏表示的维度设置为相同的值m;接着使用ReLU(x)=max(0,x)作为每层的激活函数;最后使用具有时间跳跃连接的循环结构来模拟长期周期性依赖,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接;
(3)短周期嵌入矩阵ZS输入注意力机制部分
1)短周期数据ZS=(zT-Ts+1,...,zT-1,zT)和长期周期性分量输入到基于LSTM的编码器中,计算不同道路之间的相关性:
其中,“;”表示连接,Ue∈Rv*2m,Ul∈Rv*m,Ve∈Rv*3v,We、Ue、Ul和Ve代表可学习参数,ht-1∈Rm和st-1∈Rm是前一编码器LSTM单元的隐藏状态和单元状态;和分别是邻近性数据的特征和周期性数据的特征;表示当前时间数据的特征,αt∈Rv是衡量zt中每个值的重要性的注意力量;
使用特征维度的平方根来缩放点积;利用周期向量和注意权重,构造编码器LSTM的输入:首先,在时间t计算加权输入zt,w,然后将zt,w和 hL t连接为编码的输入,ht=f1([ht-1,[zt,w;hL t]),其中f1是编码器LSTM学习的映射函数,ht是编码器的输出;令为编码器隐藏状态;
2)具有时间注意力的解码器:作为具有时间注意力的解码器的输入,解码器使用另一个基于LSTM的循环神经网络来解码编码信息;具体地,基于先前解码器隐藏状态dt-1和单元状态s′t-1计算时间t处的注意力机制权重:
其中,Wd∈Rm,Wd、Ud和Vd代表可学习参数,m是LSTM 单元的隐藏表示的维度,dt-1∈Rm和s't-1∈Rm是前一个解码器的隐藏状态和单元状态LSTM单位,是衡量每个时间步长重要性的注意力量,分别表示邻近性数据的特征和周期性数据的特征,然后使用这些注意权重和短期输入向量来构造解码器的输入:
ct=Heβt
其中,Wc∈Rm*(m+v),Wc是可学习参数,ct是上下文向量的加权和,bc是偏置参数;新计算的用于在时间t更新解码器隐藏状态:其中f2是解码器LSTM学习的映射函数,解码器的输出是解码器的隐藏状态dt;
3)生成预测模型:将编码器的隐藏状态ht和解码器的隐藏状态dt输入到两层全连接层,获得其中Wi∈Rv*2m和Vi∈Rv*v代表可学习参数,bwi和bvi代表偏置参数;并且在时间T+i处的预测输出 其中Wi m∈RN*v,Vi m∈RN*N代表可学习参数,表示偏置参数;
(4)将注意力机制中产生的预测输出输入到自回归模型与多层全连接层,在时间T+i时来自自回归部分的输出是:
其中Tar是短期输入的输入窗口大小,是的第j个值,代表可学习参数,xT-j代表短周期数据,代表偏置参数;
同时APTN的最终预测是神经网络和AR分量的输出的整合:
采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数:代表APTN的最终预测,xT+i代表短周期数据;其中Ω是训练样本的数量,使用Adam优化器来最小化损失;
第五步,使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练
将输入数据输入到基于注意力的周期性时间神经网络模型中,计算得到模型的结果;计算每次训练后的预测值和真值的损失函数值,最小化损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高预测精度;
所述的输入数据包括:长周期数据XL,短周期数据XS;
第六步,使用测试集数据并利用第五步训练好的模型进行预测
输入数据为:长周期数据XL,短周期数据XS;
外部特征模型所输出的结果就是最终的预测值。
本发明的有益效果:本发明与已有方法的区别在于,由于传统的时间序列预测方法(HA和ARIMA)仅依赖于历史记录而不考虑空间特征,因此它们具有最差的性能。VAR通过考虑成对关系来捕获空间相关性,并实现更好的性能。但是,它无法捕获复杂的非线性时间依赖性和动态空间关系。
APTN也优于基于深度学习的方法。对于LSTM,它只捕获时间信息,但忽略了空间依赖性。STGCN和ASTGCN同时考虑时间和空间相关性,从而获得更好的性能。然而,它们主要侧重于对空间相邻道路之间的相关性建模,而我们的基于注意的机制也可以捕获可能的远距离道路之间的成对相关性,这对于准确预测是至关重要的。
附图说明
图1是本发明设计的解决方案的体系结构。
图2是本发明设计的数据输入序列说明。
图3是本发明设计的循环跳跃连接。
图4是本发明设计的编码器和解码器的体系结构。
具体实施方法
下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。
一种用于交通预测的时空注意力机制方法,步骤如下:
第一步,将交通数据进行预处理
(1)时间粒度划分:将所有交通数据的整个时间段(例如,一个月)被分成等长连续时间间隔。
(2)空间粒度划分:将一组路段定义为A={1,2,...,N},其中,N表示路段的数量。
(3)对数据进行标准化:表示在时间t的N个路段的交通量。鉴于历史观测值x=(x1,x2,...,xT)∈RN*T,交通量预测旨在预测其中,T表示时间的总和,h是对不同任务关注的标准;
第二步,将预处理后的交通数据划分为训练集、验证集和测试集。使用来自加利福尼亚的两个大型公共现实世界数据集PeMSD4和PeMSD8。数据每30秒实时收集一次,并从原始数据汇总到每隔5分钟。
PeMSD4:它指旧金山湾区的交通数据,包含29条道路上的3848个探测器,我们从中选择307个探测器。这个时间跨度数据集是2018年1月到2月。前 50天的数据用作训练集,其余的是测试集。
PeMSD8:2016年7月至8月是圣贝纳迪诺的交通数据,包括8条道路上的 1979个探测器,我们从中选择170个探测器。
前50天的数据用作训练集,过去12天的数据是测试集。
第三步,构建基于注意力的周期性时间神经网络模型APTN
基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型;各个模型的结构如下:
(1)全连接层:使用完全连接的网络来获得长短周期的交通数据特征的提取功能;全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(2)长周期模型:长周期模型基于LSTM。LSTM拥有三个门来控制细胞状态,第一步是决定丢弃细胞哪些信息——遗忘门。下一阶段是输入门,确定哪些新的信息能够被存放到细胞中。最后一阶段即输出门,用来控制该层的细胞状态的过滤情况。本发明将所有LSTM单元的隐藏表示的维度设置为相同的值m。接下来使用ReLU(x)=max(0,x)作为每层的激活函数。最后,使用具有时间跳越连接的循环结构,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接。
(3)具有空间注意力的编码器:本发明提出了一种新颖的基于注意力的编码器,可以捕获空间相关性。本发明构建了一个基于LSTM的编码器,它计算了不同道路之间的相关性。
本发明贡献点为:由于当点积大小时,它将导致softmax函数的极小梯度。为了解决这个问题,使用特征维度的平方根来缩放点积。利用周期向量和注意权重,可以构造编码器LSTM的输入。
(4)具有时间注意力的解码器:使用另一个基于LSTM的循环神经网络来解码编码信息。
本发明贡献点:由于输入序列的长度增加,编码器-解码器架构的性能会迅速下降,一个重要的改进是增加一个时间注意机制,它可以自适应地选择相关的编码器隐藏状态以产生输出序列。通过这种方式,我们可以更好地模拟不同时间间隔之间的动态时间相关性。
(5)生成预测:使用两层完全连接的网络来获得神经网络的最终输出,并且在时间T+i处的预测输出全连接层是一类神经网络层,它的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。
(6)自回归模型(AR):是统计上一种处理时间序列的方法,用同一变数例如x的之前各期,亦即x1至xt-1来预测本期xt的表现。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测x(自己),所以叫做自回归。
本发明贡献点:由于神经网络的非线性输出不能适应输入的突然变化,我们使用经典的自回归模型(AR)来捕获输入信号的突然变化。
第四步,使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练
(1)输入数据进入全连接层进行特征提取
提前优化深度学习模型的参数,避免在整体训练时将参数优化到局部最优点;为了模拟短期时间依赖性,需要最近的时段的输入,即其中Ts是本模型使用的时间宽度。对于长周期的周期性建模,在每个周期内,需要Ts数量的数据,假设要考虑n个周期,然后我们需要的数据如图2所示,用表示。设Tl表示周期参数(通常是交通数据的一天)。然后XS和XL是我们模型的输入,并将被输入全连接层。全连接层提取输入交通量的特征zt=Wvxt+bv,其中Wv∈Rv*N,v是特征表示维度,zt∈Rv是xt的嵌入。然后,和表示长周期数据XL和短周期数据XS的嵌入矩阵,并且输入到注意力机制部分。
(2)长周期嵌入矩阵XL输入长期记忆循环网络:
为了保持一致性,将所有LSTM单元的隐藏表示的维度设置为相同的值m。接着使用ReLU(x)=max(0,x)作为每层的激活函数。由于梯度消失,标准 LSTM或GRU单元很难捕获长期周期性依赖性。因此,如图3所示,为了模拟长期周期性依赖,使用具有时间跳越连接的循环结构,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接。
将长期嵌入交通信息输入长期循环神经网络,基于LSTM更新过程表示为,其中zt∈Rv是时间t的输入,是先前的Tl LSTM单元的隐藏状态,fLSTM()表示对LSTM学习的映射函数;从该循环跳跃LSTM,获得Ts隐藏状态,表示为将HL称为长期周期性分量,它将被传送到编码器;
(3)短周期嵌入矩阵ZS输入注意力机制部分
1)短周期数据和长期周期性分量输入到基于LSTM的编码器中,计算不同道路之间的相关性:
其中,“;”表示连接,Ue∈Rv*2m,Ve∈Rv*3v,We、Ue、Ul和Ve代表可学习参数,ht-1∈Rm和st-1∈Rm是前一编码器LSTM单元的隐藏状态和单元状态;和分别是邻近性数据的特征和周期性数据的特征;表示当前时间数据的特征,αt∈Rv是衡量zt中每个值的重要性的注意力量;
使用特征维度的平方根来缩放点积;利用周期向量和注意权重,构造编码器LSTM的输入:首先,在时间t计算加权输入zt,w,然后将zt,w和 hL t连接为编码的输入,ht=f1([ht-1,[zt,w;hL t]),其中f1是编码器LSTM学习的映射函数,ht是编码器的输出;令为编码器隐藏状态;
2)具有时间注意力的解码器:作为具有时间注意力的解码器的输入,解码器使用另一个基于LSTM的循环神经网络来解码编码信息;具体地,基于先前解码器隐藏状态dt-1和单元状态s′t-1计算时间t处的注意力机制权重:
其中,Wd∈Rm,Wd、Ud和Vd代表可学习参数,m是LSTM 单元的隐藏表示的维度,dt-1∈Rm和s't-1∈Rm是前一个解码器的隐藏状态和单元状态LSTM单位,是衡量每个时间步长重要性的注意力量,分别表示邻近性数据的特征和周期性数据的特征,然后使用这些注意权重和短期输入向量来构造解码器的输入:
ct=Heβt
其中,Wc∈Rm*(m+v),Wc是可学习参数,ct是上下文向量的加权和,bc是偏置参数;新计算的用于在时间t更新解码器隐藏状态:其中f2是解码器LSTM学习的映射函数,解码器的输出是解码器的隐藏状态dt;
3)生成预测模型:将编码器的隐藏状态ht和解码器的隐藏状态dt输入到两层全连接层,获得其中Wi∈Rv*2m和Vi∈Rv*v代表可学习参数,bwi和bvi代表偏置参数;并且在时间T+i处的预测输出 其中Wi m∈RN*v,Vi m∈RN*N代表可学习参数,表示偏置参数;
(4)将注意力机制中产生的预测输出输入到自回归模型与多层全连接层,在时间T+i时来自自回归部分的输出是:
其中Tar是短期输入的输入窗口大小,是的第j个值,代表可学习参数,xT-j代表短周期数据,代表偏置参数;
同时APTN的最终预测是神经网络和AR分量的输出的整合:
采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数:代表APTN的最终预测,xT+i代表短周期数据;其中Ω是训练样本的数量,使用Adam优化器来最小化损失;
超参数设置:对于超参数设置,我们选择在验证数据集上获得最佳结果的参数。对于长期时间信息,我们将周期时间间隔T1设置为一天。所有LSTM单元m的隐藏状态的维度被设置为128,并且特征表示维度v也被设置为128。在我们的实验中,批量大小设置为64,学习率设置为0.001。LSTM的dropout和循环dropout率均设为0.2。
第五步,使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练
将输入数据输入到基于注意力的周期性时间神经网络模型中,计算得到模型的结果;计算每次训练后的预测值和真值的损失函数值,最小化损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高预测精度;
所述的输入数据包括:长周期数据XL,短周期数据XS;
第六步,使用测试集数据并利用第五步训练好的模型进行预测
输入数据为:长周期数据XL,短周期数据XS;
外部特征模型所输出的结果就是最终的预测值。
Claims (1)
1.一种用于交通预测的时空注意力机制方法,其特征在于,步骤如下:
第一步,将交通数据进行预处理
(1)时间粒度划分:将所有交通数据的整个时间段被分成等长连续时间间隔;
(2)空间粒度划分:将一组路段定义为A={1,2,…,N},其中,N表示路段的数量;
(3)对数据进行标准化:表示在时间t的N个路段的交通量;鉴于历史观测值x=(x1,x2,...,xT)∈RN*T,交通量预测旨在预测其中,T表示数据的时间总长度,h是对不同任务关注的标准;
第二步,将预处理后的交通数据划分为训练集、验证集和测试集;
第三步,构建基于注意力的周期性时间神经网络模型APTN
基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型;各个模型的结构如下:
(1)全连接层:使用完全连接的网络来获得长短周期的交通数据特征的提取功能;全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(2)长周期模型:该模型包括基于长短期记忆网络LSTM;LSTM拥有三个门来控制细胞状态,第一个是遗忘门,用于决定丢弃上一层细胞状态的哪些信息;第二个是输入门,用于确定哪些新的信息能够被存放到细胞中;第三个是输出门,用来控制该层的细胞状态的过滤情况;
(3)具有空间注意力的编码器:是一个基于长短期记忆网络LSTM的编码器,编码器由空间注意力机制和长短期记忆网络组成;使用特征维度的平方根来缩放点积,利用周期向量和注意权重,构造编码器LSTM的输入;
(4)具有时间注意力的解码器:是一个基于LSTM的循环神经网络和时间注意力机制的解码器;
(5)生成预测模型:使用两层完全连接的网络来获得神经网络的最终输出,并且在时间T+i处的预测输出全连接层是一类神经网络层,它的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(6)自回归模型AR:用同一变数x1至xt-1来预测本期xt的表现;
第四步,使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练
(1)输入数据进入全连接层进行特征提取
将长周期数据XL和短周期数据XS输入全连接层,其中,为最近时段的历史观测值,Ts是基于注意力的周期性时间神经网络模型使用的时间宽度,对于长周期的周期性建模,在每个周期内,需要Ts数量的数据,设要考虑n个周期,将作为长周期数据;
全连接层提取所输入的交通数据的特征zt=Wvxt+bv,其中Wv∈Rv*N,v是特征表示维度,zt∈Rv是xt的嵌入,bv是特征公式中的偏置值;然后,由交通量的特征量zt得到ZL和ZS;和表示长周期数据XL和短周期数据XS的嵌入矩阵;
(2)长周期嵌入矩阵ZL输入长周期模型中的长期循环神经网络
将长期嵌入交通信息输入长期循环神经网络,基于LSTM更新过程表示为,其中zt∈Rv是时间t的输入,是先前的TlLSTM单元的隐藏状态,fLSTM()表示对LSTM学习的映射函数;从该循环跳跃LSTM,获得Ts隐藏状态,表示为将HL称为长期周期性分量,它将被传送到编码器;
在更新过程中,将所有LSTM单元的隐藏表示的维度设置为相同的值m;接着使用ReLU(x)=max(0,x)作为每层的激活函数;最后使用具有时间跳跃连接的循环结构来模拟长期周期性依赖,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接;
(3)短周期嵌入矩阵ZS输入注意力机制部分
1)短周期数据和长期周期性分量输入到基于LSTM的编码器中,计算不同道路之间的相关性:
其中,“;”表示连接,Ue∈Rv*2m,Ul∈Rv*m,Ve∈Rv*3v,We、Ue、Ul和Ve代表可学习参数,ht-1∈Rm和st-1∈Rm是前一编码器LSTM单元的隐藏状态和单元状态;和分别是邻近性数据的特征和周期性数据的特征;表示当前时间数据的特征,αt∈Rv是衡量zt中每个值的重要性的注意力量;
使用特征维度的平方根来缩放点积;利用周期向量和注意权重,构造编码器LSTM的输入:首先,在时间t计算加权输入zt,w,然后将zt,w和hL t连接为编码的输入,ht=f1([ht-1,[zt,w;hL t]),其中f1是编码器LSTM学习的映射函数,ht是编码器的输出;令为编码器隐藏状态;
2)具有时间注意力的解码器:作为具有时间注意力的解码器的输入,解码器使用另一个基于LSTM的循环神经网络来解码编码信息;具体地,基于先前解码器隐藏状态dt-1和单元状态s’t-1计算时间t处的注意力机制权重:
其中,Wd∈Rm,Wd、Ud和Vd代表可学习参数,m是LSTM单元的隐藏表示的维度,dt-1∈Rm和s't-1∈Rm是前一个解码器的隐藏状态和单元状态LSTM单位,是衡量每个时间步长重要性的注意力量,=分别表示邻近性数据的特征和周期性数据的特征,然后使用这些注意权重和短期输入向量来构造解码器的输入:
ct=Heβt
其中,Wc∈Rm*(m+v),Wc是可学习参数,ct是上下文向量的加权和,bc是偏置参数;新计算的用于在时间t更新解码器隐藏状态:其中f2是解码器LSTM学习的映射函数,解码器的输出是解码器的隐藏状态dt;
3)生成预测模型:将编码器的隐藏状态ht和解码器的隐藏状态dt输入到两层全连接层,获得其中Wi∈Rv*2m和Vi∈Rv*v代表可学习参数,bwi和bvi代表偏置参数;并且在时间T+i处的预测输出 其中Wi m∈RN*v,Vi m∈RN*N代表可学习参数,表示偏置参数;
(4)将注意力机制中产生的预测输出输入到自回归模型与多层全连接层,在时间T+i时来自自回归部分的输出是:
其中Tar是短期输入的输入窗口大小,是的第j个值,代表可学习参数,xT-j代表短周期数据,代表偏置参数;
同时APTN的最终预测是神经网络和AR分量的输出的整合:
采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数: 代表APTN的最终预测,xT+i代表短周期数据;其中Ω是训练样本的数量,使用Adam优化器来最小化损失;
第五步,使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练
将输入数据输入到基于注意力的周期性时间神经网络模型中,计算得到模型的结果;计算每次训练后的预测值和真值的损失函数值,最小化损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高预测精度;
所述的输入数据包括:长周期数据XL,短周期数据XS;
第六步,使用测试集数据并利用第五步训练好的模型进行预测
输入数据为:长周期数据XL,短周期数据XS;
外部特征模型所输出的结果就是最终的预测值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826273.4A CN110619430B (zh) | 2019-09-03 | 2019-09-03 | 一种用于交通预测的时空注意力机制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910826273.4A CN110619430B (zh) | 2019-09-03 | 2019-09-03 | 一种用于交通预测的时空注意力机制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110619430A true CN110619430A (zh) | 2019-12-27 |
CN110619430B CN110619430B (zh) | 2022-09-16 |
Family
ID=68922234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910826273.4A Active CN110619430B (zh) | 2019-09-03 | 2019-09-03 | 一种用于交通预测的时空注意力机制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110619430B (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275971A (zh) * | 2020-02-18 | 2020-06-12 | 山西交通控股集团有限公司 | 一种高速公路交通流量预测方法 |
CN111652437A (zh) * | 2020-06-04 | 2020-09-11 | 上海眼控科技股份有限公司 | 跑道视程预测值获取方法、计算机设备和存储介质 |
CN111915059A (zh) * | 2020-06-29 | 2020-11-10 | 西安理工大学 | 基于注意力机制的Seq2seq泊位占有率预测方法 |
CN112257911A (zh) * | 2020-10-13 | 2021-01-22 | 杭州电子科技大学 | 基于并行时空注意力机制的tcn多元时间序列预测方法 |
CN112532439A (zh) * | 2020-11-24 | 2021-03-19 | 山东科技大学 | 一种基于注意力多组件时空跨域神经网络模型的网络流量预测方法 |
CN112818033A (zh) * | 2021-01-28 | 2021-05-18 | 河北工业大学 | 基于神经网络的袋式除尘器破袋智能检测方法 |
CN112926768A (zh) * | 2021-01-27 | 2021-06-08 | 浙江工业大学 | 基于时空注意力机制的地面道路车道级交通流预测方法 |
CN113052214A (zh) * | 2021-03-14 | 2021-06-29 | 北京工业大学 | 基于长短期时间序列网络的换热站超短期热负荷预测方法 |
CN113094357A (zh) * | 2021-04-23 | 2021-07-09 | 大连理工大学 | 一种基于时空注意力机制的交通缺失数据补全方法 |
CN113112793A (zh) * | 2021-03-29 | 2021-07-13 | 华南理工大学 | 一种基于动态时空相关性的交通流预测方法 |
CN113379164A (zh) * | 2021-07-16 | 2021-09-10 | 国网江苏省电力有限公司苏州供电分公司 | 基于深度自注意力网络的负荷预测方法及系统 |
CN113919587A (zh) * | 2021-11-03 | 2022-01-11 | 中大检测(湖南)股份有限公司 | 基于神经网络的地质灾害的预测方法及系统 |
CN114492978A (zh) * | 2022-01-20 | 2022-05-13 | 哈尔滨工程大学 | 一种基于多层注意力机制的时空序列预测方法及设备 |
WO2022104504A1 (zh) * | 2020-11-17 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种公路交通状态预测方法、系统、终端以及存储介质 |
CN114692941A (zh) * | 2021-12-30 | 2022-07-01 | 江南大学 | 基于多注意力的公司财务预测方法 |
CN117094360A (zh) * | 2023-10-18 | 2023-11-21 | 杭州同花顺数据开发有限公司 | 一种用户表征提取方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109754605A (zh) * | 2019-02-27 | 2019-05-14 | 中南大学 | 一种基于注意力时态图卷积网络的交通预测方法 |
CN109919358A (zh) * | 2019-01-31 | 2019-06-21 | 中国科学院软件研究所 | 一种基于神经网络时空注意力机制的实时站点流量预测方法 |
-
2019
- 2019-09-03 CN CN201910826273.4A patent/CN110619430B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919358A (zh) * | 2019-01-31 | 2019-06-21 | 中国科学院软件研究所 | 一种基于神经网络时空注意力机制的实时站点流量预测方法 |
CN109754605A (zh) * | 2019-02-27 | 2019-05-14 | 中南大学 | 一种基于注意力时态图卷积网络的交通预测方法 |
Non-Patent Citations (1)
Title |
---|
薛佳瑶等: "基于卷积循环神经网络的城市区域车流量预测模型", 《信息工程大学学报》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111275971A (zh) * | 2020-02-18 | 2020-06-12 | 山西交通控股集团有限公司 | 一种高速公路交通流量预测方法 |
CN111652437A (zh) * | 2020-06-04 | 2020-09-11 | 上海眼控科技股份有限公司 | 跑道视程预测值获取方法、计算机设备和存储介质 |
CN111915059A (zh) * | 2020-06-29 | 2020-11-10 | 西安理工大学 | 基于注意力机制的Seq2seq泊位占有率预测方法 |
CN111915059B (zh) * | 2020-06-29 | 2023-06-30 | 西安理工大学 | 基于注意力机制的Seq2seq泊位占有率预测方法 |
CN112257911A (zh) * | 2020-10-13 | 2021-01-22 | 杭州电子科技大学 | 基于并行时空注意力机制的tcn多元时间序列预测方法 |
CN112257911B (zh) * | 2020-10-13 | 2024-03-26 | 杭州电子科技大学 | 基于并行时空注意力机制的tcn多元时间序列预测方法 |
WO2022104504A1 (zh) * | 2020-11-17 | 2022-05-27 | 中国科学院深圳先进技术研究院 | 一种公路交通状态预测方法、系统、终端以及存储介质 |
CN112532439A (zh) * | 2020-11-24 | 2021-03-19 | 山东科技大学 | 一种基于注意力多组件时空跨域神经网络模型的网络流量预测方法 |
CN112532439B (zh) * | 2020-11-24 | 2022-08-23 | 山东科技大学 | 一种基于注意力多组件时空跨域神经网络模型的网络流量预测方法 |
CN112926768A (zh) * | 2021-01-27 | 2021-06-08 | 浙江工业大学 | 基于时空注意力机制的地面道路车道级交通流预测方法 |
CN112818033A (zh) * | 2021-01-28 | 2021-05-18 | 河北工业大学 | 基于神经网络的袋式除尘器破袋智能检测方法 |
CN113052214A (zh) * | 2021-03-14 | 2021-06-29 | 北京工业大学 | 基于长短期时间序列网络的换热站超短期热负荷预测方法 |
CN113052214B (zh) * | 2021-03-14 | 2024-05-28 | 北京工业大学 | 基于长短期时间序列网络的换热站超短期热负荷预测方法 |
CN113112793A (zh) * | 2021-03-29 | 2021-07-13 | 华南理工大学 | 一种基于动态时空相关性的交通流预测方法 |
CN113094357A (zh) * | 2021-04-23 | 2021-07-09 | 大连理工大学 | 一种基于时空注意力机制的交通缺失数据补全方法 |
CN113379164A (zh) * | 2021-07-16 | 2021-09-10 | 国网江苏省电力有限公司苏州供电分公司 | 基于深度自注意力网络的负荷预测方法及系统 |
CN113379164B (zh) * | 2021-07-16 | 2024-03-26 | 国网江苏省电力有限公司苏州供电分公司 | 基于深度自注意力网络的负荷预测方法及系统 |
CN113919587A (zh) * | 2021-11-03 | 2022-01-11 | 中大检测(湖南)股份有限公司 | 基于神经网络的地质灾害的预测方法及系统 |
CN114692941A (zh) * | 2021-12-30 | 2022-07-01 | 江南大学 | 基于多注意力的公司财务预测方法 |
CN114492978A (zh) * | 2022-01-20 | 2022-05-13 | 哈尔滨工程大学 | 一种基于多层注意力机制的时空序列预测方法及设备 |
CN114492978B (zh) * | 2022-01-20 | 2024-10-29 | 哈尔滨工程大学 | 一种基于多层注意力机制的时空序列预测方法及设备 |
CN117094360A (zh) * | 2023-10-18 | 2023-11-21 | 杭州同花顺数据开发有限公司 | 一种用户表征提取方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110619430B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110619430B (zh) | 一种用于交通预测的时空注意力机制方法 | |
CN109816095B (zh) | 基于改进门控循环神经网络的网络流量预测方法 | |
Sehovac et al. | Forecasting building energy consumption with deep learning: A sequence to sequence approach | |
CN111612243B (zh) | 交通速度预测方法、系统及存储介质 | |
Zhang et al. | Robust recurrent neural networks for time series forecasting | |
CN109583565B (zh) | 基于注意力模型长短时记忆网络的洪水预测方法 | |
Tax | Human activity prediction in smart home environments with LSTM neural networks | |
CN109146156B (zh) | 一种用于预测充电桩系统充电量的方法 | |
CN115578852B (zh) | 一种基于dstgcn的交通预测方法 | |
Dong et al. | An integrated deep neural network approach for large-scale water quality time series prediction | |
CN109711617A (zh) | 一种基于blstm深度学习的中长期径流预测方法 | |
Shi et al. | Parallel deep prediction with covariance intersection fusion on non-stationary time series | |
Massaoudi et al. | Performance evaluation of deep recurrent neural networks architectures: Application to PV power forecasting | |
CN110837888A (zh) | 一种基于双向循环神经网络的交通缺失数据补全方法 | |
Suryo et al. | Improved time series prediction using LSTM neural network for smart agriculture application | |
CN111461455B (zh) | 一种基于关联周期注意力机制的行为预测方法 | |
CN114694379B (zh) | 一种基于自适应动态图卷积的交通流预测方法及系统 | |
CN111524349B (zh) | 一种语境特征注入的多尺度交通流预测模型建立方法及使用方法 | |
CN112766603A (zh) | 一种交通流量预测方法、系统、计算机设备及存储介质 | |
CN115755219A (zh) | 基于stgcn的洪水预报误差实时校正方法及系统 | |
Subramaniyan et al. | Hybrid recurrent neural network modeling for traffic delay prediction at signalized intersections along an urban arterial | |
Lei et al. | A novel time-delay neural grey model and its applications | |
Lin et al. | Hybrid water quality prediction with graph attention and spatio-temporal fusion | |
Lin et al. | Dual-stage ensemble approach using online knowledge distillation for forecasting carbon emissions in the electric power industry | |
Liu et al. | A dual-layer attention-based LSTM network for fed-batch fermentation process modelling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |