CN110619430B - 一种用于交通预测的时空注意力机制方法 - Google Patents

一种用于交通预测的时空注意力机制方法 Download PDF

Info

Publication number
CN110619430B
CN110619430B CN201910826273.4A CN201910826273A CN110619430B CN 110619430 B CN110619430 B CN 110619430B CN 201910826273 A CN201910826273 A CN 201910826273A CN 110619430 B CN110619430 B CN 110619430B
Authority
CN
China
Prior art keywords
data
attention
model
lstm
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910826273.4A
Other languages
English (en)
Other versions
CN110619430A (zh
Inventor
申彦明
师晓明
庄壮
齐恒
尹宝才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201910826273.4A priority Critical patent/CN110619430B/zh
Publication of CN110619430A publication Critical patent/CN110619430A/zh
Application granted granted Critical
Publication of CN110619430B publication Critical patent/CN110619430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于交通预测的时空注意力机制方法,属于交通预测领域。本发明是一种端到端解决方案的交通预测框架,它可以对空间、短期和长期的周期性依赖关系进行建模。APTN首先使用编码器的注意力机制来对空间依赖项和周期依赖项进行建模。我们的模型可以更容易地捕获这些依赖关系,因为每个节点都要处理网络中的所有其他节点。然后,应用时间注意选择相关的编码器隐藏状态跨越所有时间步骤。我们使用真实世界的交通数据集来评估我们提出的模型,并观察在最先进的基线上的一致性改进。

Description

一种用于交通预测的时空注意力机制方法
技术领域
本发明属于交通预测领域,具体涉及一种用于交通预测的时空注意力机制方法。
背景技术
交通预测系统数据具有空间性,时空性(周期性,时序性)。现阶段,对交通预测的方法主要是通过深度学习的CNN进行空间的相关提取,RNN或其变体 LSTM/GRU进行时间依赖性建模。
这些通过整合CNN和LSTM来联合建模空间,时间和外部特征依赖性的方法可能无法充分模拟空间相关性,因为卷积操作只聚合本地信息,并且需要很多层来学习远距离空间依赖性。使用多层卷积来缓解这个问题,其在建模空间依赖性时考虑距离,功能相似性和运输连通性。但它需要利用空间结构的性质,例如距离,功能相似性,不同区域的交通连通性。
神经网络最开始是受生物神经系统的启发,为了模拟生物神经系统而出现的,由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化,对权值进行调整,改善系统的行为,自动学习到一个能够解决问题的模型。 LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式,有效地解决多层神经网络训练的梯度消失和梯度爆炸问题,能够处理长时时间依赖序列。LSTM 能够捕获充电量数据的时间序列特性,使用LSTM模型能够有效提高预测精度。
LSTM网络由LSTM单元组成,LSTM单元由单元,输入门,输出门和遗忘门组成。
遗忘门:决定从上一个单元的输出状态中丢弃多少信息,公式如下:
ft=σg(Wfxt+Ufht-1+bf)
其中,ft是遗忘门的输出,xt是输入序列,ht-1是上一个单元的输出,σg表示sigmoid函数,Wf表示输入的权重参数矩阵,Uf表示上一个单元输出的权重参数矩阵,bf表示偏差参数向量。
输入门:决定让多少新的信息加入到Cell状态中,并对单元状态C进行更新,公式如下:
it=σg(Wixt+Uiht-1+bi)
Figure BDA0002189184950000021
其中,ct表示当前单元的单元状态,σg和σc表示sigmoid函数,
Figure BDA0002189184950000022
表示矩阵乘积,Wi表示输入的权重参数矩阵,Ui表示上一个单元输出的权重参数矩阵,bi表示偏差参数向量,ft是遗忘门的输出,ct-1是上一个单元的单元状态,
Figure BDA0002189184950000023
表示矩阵乘积,Wc表示输入的权重参数矩阵,Uc表示上一个单元输出的权重参数矩阵, bc表示偏差参数向量。
输出门:基于当前的单元状态输出结果。
ot=σg(Woxt+Uoht-1+bo)
Figure BDA0002189184950000024
其中,ht表示当前单元的输出,σg和σh表示sigmoid函数,
Figure BDA0002189184950000025
表示矩阵乘积, Wo表示输入的权重参数矩阵,Uo表示上一个单元输出的权重参数矩阵,bo表示偏差参数向量。
发明内容
本发明提出了一种基于时空注意力机制的交通预测算法,是基于注意力的周期性时间神经网络(APTN),它模拟空间,短期和长期的周期性依赖性。APTN 采用了一种新颖的基于注意力的编码器-解码器架构。它首先使用循环跳越神经网络处理长期周期性输入,然后对编码器中的空间和周期依赖性进行编码。在解码器中,应用时间注意力机制以跨所有时间步骤从编码器隐藏状态捕获依赖性。通过这种方式,APTN可以自适应地选择最相关的输入特征以及适当地捕获长期时间依赖性。
本发明的技术方案:
一种用于交通预测的时空注意力机制方法,步骤如下:
第一步,将交通数据进行预处理
(1)时间粒度划分:将所有交通数据的整个时间段被分成等长连续时间间隔;
(2)空间粒度划分:将一组路段定义为A={1,2,…,N},其中,N表示路段的数量;
(3)对数据进行标准化:
Figure BDA0002189184950000031
表示在时间t的N个路段的交通量;鉴于历史观测值x=(x1,x2,...,xT)∈RN*T,交通量预测旨在预测
Figure BDA0002189184950000032
其中,T表示数据的时间总长度,h是对不同任务关注的标准;
第二步,将预处理后的交通数据划分为训练集、验证集和测试集;
第三步,构建基于注意力的周期性时间神经网络模型APTN
基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型;各个模型的结构如下:
(1)全连接层:使用完全连接的网络来获得长短周期的交通数据特征的提取功能;全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(2)长周期模型:该模型包括基于长短期记忆网络LSTM;LSTM拥有三个门来控制细胞状态,第一个是遗忘门,用于决定丢弃上一层细胞状态的哪些信息;第二个是输入门,用于确定哪些新的信息能够被存放到细胞中;第三个是输出门,用来控制该层的细胞状态的过滤情况;
(3)具有空间注意力的编码器:是一个基于长短期记忆网络LSTM的编码器,编码器由空间注意力机制和长短期记忆网络组成;使用特征维度的平方根来缩放点积,利用周期向量和注意权重,构造编码器LSTM的输入;
(4)具有时间注意力的解码器:是一个基于LSTM的循环神经网络和时间注意力机制的解码器;
(5)生成预测模型:使用两层完全连接的网络来获得神经网络的最终输出,并且在时间T+i处的预测输出
Figure BDA0002189184950000041
全连接层是一类神经网络层,它的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(6)自回归模型AR:用同一变数x1至xt-1来预测本期xt的表现;
第四步,使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练
(1)输入数据进入全连接层进行特征提取
将长周期数据XL和短周期数据XS输入全连接层,其中,
Figure BDA0002189184950000042
为最近时段的历史观测值,Ts是基于注意力的周期性时间神经网络模型使用的时间宽度,对于长周期的周期性建模,在每个周期内,需要Ts数量的数据,设要考虑n个周期,将
Figure BDA0002189184950000043
作为长周期数据;
全连接层提取所输入的交通数据的特征zt=Wvxt+bv,其中Wv∈Rv*N,v是特征表示维度,zt∈Rv是xt的嵌入,bv是特征公式中的偏置值;然后,由交通量的特征量zt得到ZL和ZS
Figure BDA0002189184950000044
Figure BDA0002189184950000045
表示长周期数据XL和短周期数据XS的嵌入矩阵;
(2)长周期嵌入矩阵ZL输入长周期模型中的长期循环神经网络
将长期嵌入交通信息
Figure BDA0002189184950000051
输入长期循环神经网络,基于LSTM更新过程表示为,
Figure BDA0002189184950000052
其中zt∈Rv是时间t的输入,
Figure BDA0002189184950000053
是先前的Tl LSTM单元的隐藏状态,fLSTM()表示对LSTM学习的映射函数;从该循环跳跃LSTM,获得Ts隐藏状态,表示为
Figure BDA00021891849500000514
将HL称为长期周期性分量,它将被传送到编码器;
在更新过程中,将所有LSTM单元的隐藏表示的维度设置为相同的值m;接着使用ReLU(x)=max(0,x)作为每层的激活函数;最后使用具有时间跳跃连接的循环结构来模拟长期周期性依赖,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接;
(3)短周期嵌入矩阵ZS输入注意力机制部分
1)短周期数据ZS=(zT-Ts+1,...,zT-1,zT)和长期周期性分量
Figure BDA0002189184950000055
输入到基于LSTM的编码器中,计算不同道路之间的相关性:
Figure BDA0002189184950000056
Figure BDA0002189184950000057
Figure BDA0002189184950000058
Figure BDA0002189184950000059
其中,“;”表示连接,
Figure BDA00021891849500000510
Ue∈Rv*2m,Ul∈Rv*m,Ve∈Rv*3v,We、Ue、Ul和Ve代表可学习参数,ht-1∈Rm和st-1∈Rm是前一编码器LSTM单元的隐藏状态和单元状态;
Figure BDA00021891849500000511
Figure BDA00021891849500000512
分别是邻近性数据的特征和周期性数据的特征;
Figure BDA00021891849500000513
表示当前时间数据的特征,αt∈Rv是衡量zt中每个值的重要性的注意力量;
使用特征维度的平方根来缩放点积;利用周期向量和注意权重,构造编码器LSTM的输入:首先,在时间t计算加权输入zt,w
Figure BDA00021891849500000613
然后将zt,w和 hL t连接为编码的输入,ht=f1([ht-1,[zt,w;hL t]),其中f1是编码器LSTM学习的映射函数,ht是编码器的输出;令
Figure BDA0002189184950000061
为编码器隐藏状态;
2)具有时间注意力的解码器:
Figure BDA0002189184950000062
作为具有时间注意力的解码器的输入,解码器使用另一个基于LSTM的循环神经网络来解码编码信息;具体地,基于先前解码器隐藏状态dt-1和单元状态s′t-1计算时间t处的注意力机制权重:
Figure BDA0002189184950000063
Figure BDA0002189184950000064
Figure BDA0002189184950000065
其中,Wd∈Rm,
Figure BDA0002189184950000066
Wd、Ud和Vd代表可学习参数,m是LSTM 单元的隐藏表示的维度,dt-1∈Rm和s't-1∈Rm是前一个解码器的隐藏状态和单元状态LSTM单位,
Figure BDA0002189184950000067
是衡量每个时间步长重要性的注意力量,
Figure BDA0002189184950000068
分别表示邻近性数据的特征和周期性数据的特征,然后使用这些注意权重和短期输入向量来构造解码器的输入:
ct=Heβt
Figure BDA0002189184950000069
其中,Wc∈Rm*(m+v),Wc是可学习参数,ct是上下文向量的加权和,bc是偏置参数;新计算的
Figure BDA00021891849500000610
用于在时间t更新解码器隐藏状态:
Figure BDA00021891849500000611
其中f2是解码器LSTM学习的映射函数,解码器的输出是解码器的隐藏状态dt
3)生成预测模型:将编码器的隐藏状态ht和解码器的隐藏状态dt输入到两层全连接层,获得
Figure BDA00021891849500000612
其中Wi∈Rv*2m和Vi∈Rv*v代表可学习参数,bwi和bvi代表偏置参数;并且在时间T+i处的预测输出
Figure BDA0002189184950000071
Figure BDA0002189184950000072
其中Wi m∈RN*v,Vi m∈RN*N代表可学习参数,
Figure BDA0002189184950000073
表示偏置参数;
(4)将注意力机制中产生的预测输出
Figure BDA0002189184950000074
输入到自回归模型与多层全连接层,在时间T+i时来自自回归部分的输出是:
Figure 100002_1
其中Tar是短期输入的输入窗口大小,
Figure BDA0002189184950000076
Figure BDA0002189184950000077
的第j个值,
Figure BDA0002189184950000078
代表可学习参数,xT-j代表短周期数据,
Figure BDA0002189184950000079
代表偏置参数;
同时APTN的最终预测是神经网络和AR分量的输出的整合:
Figure 100002_2
采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数:
Figure BDA00021891849500000711
代表APTN的最终预测,xT+i代表短周期数据;其中Ω是训练样本的数量,使用Adam优化器来最小化损失;
第五步,使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练
将输入数据输入到基于注意力的周期性时间神经网络模型中,计算得到模型的结果;计算每次训练后的预测值和真值的损失函数值,最小化损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高预测精度;
所述的输入数据包括:长周期数据XL,短周期数据XS
第六步,使用测试集数据并利用第五步训练好的模型进行预测
输入数据为:长周期数据XL,短周期数据XS
外部特征模型所输出的结果就是最终的预测值。
本发明的有益效果:本发明与已有方法的区别在于,由于传统的时间序列预测方法(HA和ARIMA)仅依赖于历史记录而不考虑空间特征,因此它们具有最差的性能。VAR通过考虑成对关系来捕获空间相关性,并实现更好的性能。但是,它无法捕获复杂的非线性时间依赖性和动态空间关系。
APTN也优于基于深度学习的方法。对于LSTM,它只捕获时间信息,但忽略了空间依赖性。STGCN和ASTGCN同时考虑时间和空间相关性,从而获得更好的性能。然而,它们主要侧重于对空间相邻道路之间的相关性建模,而我们的基于注意的机制也可以捕获可能的远距离道路之间的成对相关性,这对于准确预测是至关重要的。
附图说明
图1是本发明设计的解决方案的体系结构。
图2是本发明设计的数据输入序列说明。
图3是本发明设计的循环跳跃连接。
图4是本发明设计的编码器和解码器的体系结构。
具体实施方法
下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。
一种用于交通预测的时空注意力机制方法,步骤如下:
第一步,将交通数据进行预处理
(1)时间粒度划分:将所有交通数据的整个时间段(例如,一个月)被分成等长连续时间间隔。
(2)空间粒度划分:将一组路段定义为A={1,2,...,N},其中,N表示路段的数量。
(3)对数据进行标准化:
Figure BDA0002189184950000081
表示在时间t的N个路段的交通量。鉴于历史观测值x=(x1,x2,...,xT)∈RN*T,交通量预测旨在预测
Figure BDA0002189184950000091
其中,T表示时间的总和,h是对不同任务关注的标准;
第二步,将预处理后的交通数据划分为训练集、验证集和测试集。使用来自加利福尼亚的两个大型公共现实世界数据集PeMSD4和PeMSD8。数据每30秒实时收集一次,并从原始数据汇总到每隔5分钟。
PeMSD4:它指旧金山湾区的交通数据,包含29条道路上的3848个探测器,我们从中选择307个探测器。这个时间跨度数据集是2018年1月到2月。前 50天的数据用作训练集,其余的是测试集。
PeMSD8:2016年7月至8月是圣贝纳迪诺的交通数据,包括8条道路上的 1979个探测器,我们从中选择170个探测器。
前50天的数据用作训练集,过去12天的数据是测试集。
第三步,构建基于注意力的周期性时间神经网络模型APTN
基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型;各个模型的结构如下:
(1)全连接层:使用完全连接的网络来获得长短周期的交通数据特征的提取功能;全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(2)长周期模型:长周期模型基于LSTM。LSTM拥有三个门来控制细胞状态,第一步是决定丢弃细胞哪些信息——遗忘门。下一阶段是输入门,确定哪些新的信息能够被存放到细胞中。最后一阶段即输出门,用来控制该层的细胞状态的过滤情况。本发明将所有LSTM单元的隐藏表示的维度设置为相同的值m。接下来使用ReLU(x)=max(0,x)作为每层的激活函数。最后,使用具有时间跳越连接的循环结构,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接。
(3)具有空间注意力的编码器:本发明提出了一种新颖的基于注意力的编码器,可以捕获空间相关性。本发明构建了一个基于LSTM的编码器,它计算了不同道路之间的相关性。
本发明贡献点为:由于当点积大小时,它将导致softmax函数的极小梯度。为了解决这个问题,使用特征维度的平方根来缩放点积。利用周期向量和注意权重,可以构造编码器LSTM的输入。
(4)具有时间注意力的解码器:使用另一个基于LSTM的循环神经网络来解码编码信息。
本发明贡献点:由于输入序列的长度增加,编码器-解码器架构的性能会迅速下降,一个重要的改进是增加一个时间注意机制,它可以自适应地选择相关的编码器隐藏状态以产生输出序列。通过这种方式,我们可以更好地模拟不同时间间隔之间的动态时间相关性。
(5)生成预测:使用两层完全连接的网络来获得神经网络的最终输出,并且在时间T+i处的预测输出
Figure BDA0002189184950000101
全连接层是一类神经网络层,它的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。
(6)自回归模型(AR):是统计上一种处理时间序列的方法,用同一变数例如x的之前各期,亦即x1至xt-1来预测本期xt的表现。因为这是从回归分析中的线性回归发展而来,只是不用x预测y,而是用x预测x(自己),所以叫做自回归。
本发明贡献点:由于神经网络的非线性输出不能适应输入的突然变化,我们使用经典的自回归模型(AR)来捕获输入信号的突然变化。
第四步,使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练
(1)输入数据进入全连接层进行特征提取
提前优化深度学习模型的参数,避免在整体训练时将参数优化到局部最优点;为了模拟短期时间依赖性,需要最近的时段的输入,即
Figure BDA0002189184950000111
其中Ts是本模型使用的时间宽度。对于长周期的周期性建模,在每个周期内,需要Ts数量的数据,假设要考虑n个周期,然后我们需要的数据如图2所示,用
Figure BDA0002189184950000112
表示。设Tl表示周期参数(通常是交通数据的一天)。然后XS和XL是我们模型的输入,并将被输入全连接层。全连接层提取输入交通量的特征zt=Wvxt+bv,其中Wv∈Rv*N,v是特征表示维度,zt∈Rv是xt的嵌入。然后,
Figure BDA0002189184950000113
Figure BDA0002189184950000114
表示长周期数据XL和短周期数据XS的嵌入矩阵,并且输入到注意力机制部分。
(2)长周期嵌入矩阵XL输入长期记忆循环网络:
为了保持一致性,将所有LSTM单元的隐藏表示的维度设置为相同的值m。接着使用ReLU(x)=max(0,x)作为每层的激活函数。由于梯度消失,标准 LSTM或GRU单元很难捕获长期周期性依赖性。因此,如图3所示,为了模拟长期周期性依赖,使用具有时间跳越连接的循环结构,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接。
将长期嵌入交通信息
Figure BDA0002189184950000115
输入长期循环神经网络,基于LSTM更新过程表示为,
Figure BDA0002189184950000116
其中zt∈Rv是时间t的输入,
Figure BDA0002189184950000117
是先前的Tl LSTM单元的隐藏状态,fLSTM()表示对LSTM学习的映射函数;从该循环跳跃LSTM,获得Ts隐藏状态,表示为
Figure BDA0002189184950000119
将HL称为长期周期性分量,它将被传送到编码器;
(3)短周期嵌入矩阵ZS输入注意力机制部分
1)短周期数据
Figure BDA0002189184950000121
和长期周期性分量
Figure BDA0002189184950000122
输入到基于LSTM的编码器中,计算不同道路之间的相关性:
Figure BDA0002189184950000123
Figure BDA0002189184950000124
Figure BDA0002189184950000125
Figure BDA0002189184950000126
其中,“;”表示连接,
Figure BDA0002189184950000127
Ue∈Rv*2m,
Figure BDA0002189184950000128
Ve∈Rv*3v,We、Ue、Ul和Ve代表可学习参数,ht-1∈Rm和st-1∈Rm是前一编码器LSTM单元的隐藏状态和单元状态;
Figure BDA0002189184950000129
Figure BDA00021891849500001210
分别是邻近性数据的特征和周期性数据的特征;
Figure BDA00021891849500001211
表示当前时间数据的特征,αt∈Rv是衡量zt中每个值的重要性的注意力量;
使用特征维度的平方根来缩放点积;利用周期向量和注意权重,构造编码器LSTM的输入:首先,在时间t计算加权输入zt,w
Figure BDA00021891849500001217
然后将zt,w和 hL t连接为编码的输入,ht=f1([ht-1,[zt,w;hL t]),其中f1是编码器LSTM学习的映射函数,ht是编码器的输出;令
Figure BDA00021891849500001212
为编码器隐藏状态;
2)具有时间注意力的解码器:
Figure BDA00021891849500001213
作为具有时间注意力的解码器的输入,解码器使用另一个基于LSTM的循环神经网络来解码编码信息;具体地,基于先前解码器隐藏状态dt-1和单元状态s′t-1计算时间t处的注意力机制权重:
Figure BDA00021891849500001214
Figure BDA00021891849500001215
Figure BDA00021891849500001216
其中,Wd∈Rm,
Figure BDA0002189184950000131
Wd、Ud和Vd代表可学习参数,m是LSTM 单元的隐藏表示的维度,dt-1∈Rm和s't-1∈Rm是前一个解码器的隐藏状态和单元状态LSTM单位,
Figure BDA0002189184950000132
是衡量每个时间步长重要性的注意力量,
Figure BDA0002189184950000133
分别表示邻近性数据的特征和周期性数据的特征,然后使用这些注意权重和短期输入向量来构造解码器的输入:
ct=Heβt
Figure BDA0002189184950000134
其中,Wc∈Rm*(m+v),Wc是可学习参数,ct是上下文向量的加权和,bc是偏置参数;新计算的
Figure BDA0002189184950000135
用于在时间t更新解码器隐藏状态:
Figure BDA0002189184950000136
其中f2是解码器LSTM学习的映射函数,解码器的输出是解码器的隐藏状态dt
3)生成预测模型:将编码器的隐藏状态ht和解码器的隐藏状态dt输入到两层全连接层,获得
Figure BDA0002189184950000137
其中Wi∈Rv*2m和Vi∈Rv*v代表可学习参数,bwi和bvi代表偏置参数;并且在时间T+i处的预测输出
Figure BDA0002189184950000138
Figure BDA0002189184950000139
其中Wi m∈RN*v,Vi m∈RN*N代表可学习参数,
Figure BDA00021891849500001310
表示偏置参数;
(4)将注意力机制中产生的预测输出
Figure BDA00021891849500001311
输入到自回归模型与多层全连接层,在时间T+i时来自自回归部分的输出是:
Figure 3
其中Tar是短期输入的输入窗口大小,
Figure BDA00021891849500001313
Figure BDA00021891849500001314
的第j个值,
Figure BDA00021891849500001315
代表可学习参数,xT-j代表短周期数据,
Figure BDA00021891849500001316
代表偏置参数;
同时APTN的最终预测是神经网络和AR分量的输出的整合:
Figure 4
采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数:
Figure BDA00021891849500001318
代表APTN的最终预测,xT+i代表短周期数据;其中Ω是训练样本的数量,使用Adam优化器来最小化损失;
超参数设置:对于超参数设置,我们选择在验证数据集上获得最佳结果的参数。对于长期时间信息,我们将周期时间间隔T1设置为一天。所有LSTM单元m的隐藏状态的维度被设置为128,并且特征表示维度v也被设置为128。在我们的实验中,批量大小设置为64,学习率设置为0.001。LSTM的dropout和循环dropout率均设为0.2。
第五步,使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练
将输入数据输入到基于注意力的周期性时间神经网络模型中,计算得到模型的结果;计算每次训练后的预测值和真值的损失函数值,最小化损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高预测精度;
所述的输入数据包括:长周期数据XL,短周期数据XS
第六步,使用测试集数据并利用第五步训练好的模型进行预测
输入数据为:长周期数据XL,短周期数据XS
外部特征模型所输出的结果就是最终的预测值。

Claims (1)

1.一种用于交通预测的时空注意力机制方法,其特征在于,步骤如下:
第一步,将交通数据进行预处理
(1)时间粒度划分:将所有交通数据的整个时间段被分成等长连续时间间隔;
(2)空间粒度划分:将一组路段定义为A={1,2,…,N},其中,N表示路段的数量;
(3)对数据进行标准化:
Figure FDA0002189184940000011
表示在时间t的N个路段的交通量;鉴于历史观测值x=(x1,x2,...,xT)∈RN*T,交通量预测旨在预测
Figure FDA0002189184940000012
其中,T表示数据的时间总长度,h是对不同任务关注的标准;
第二步,将预处理后的交通数据划分为训练集、验证集和测试集;
第三步,构建基于注意力的周期性时间神经网络模型APTN
基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型;各个模型的结构如下:
(1)全连接层:使用完全连接的网络来获得长短周期的交通数据特征的提取功能;全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(2)长周期模型:该模型包括基于长短期记忆网络LSTM;LSTM拥有三个门来控制细胞状态,第一个是遗忘门,用于决定丢弃上一层细胞状态的哪些信息;第二个是输入门,用于确定哪些新的信息能够被存放到细胞中;第三个是输出门,用来控制该层的细胞状态的过滤情况;
(3)具有空间注意力的编码器:是一个基于长短期记忆网络LSTM的编码器,编码器由空间注意力机制和长短期记忆网络组成;使用特征维度的平方根来缩放点积,利用周期向量和注意权重,构造编码器LSTM的输入;
(4)具有时间注意力的解码器:是一个基于LSTM的循环神经网络和时间注意力机制的解码器;
(5)生成预测模型:使用两层完全连接的网络来获得神经网络的最终输出,并且在时间T+i处的预测输出
Figure FDA0002189184940000021
全连接层是一类神经网络层,它的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来;
(6)自回归模型AR:用同一变数x1至xt-1来预测本期xt的表现;
第四步,使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练
(1)输入数据进入全连接层进行特征提取
将长周期数据XL和短周期数据XS输入全连接层,其中,
Figure FDA0002189184940000022
为最近时段的历史观测值,Ts是基于注意力的周期性时间神经网络模型使用的时间宽度,对于长周期的周期性建模,在每个周期内,需要Ts数量的数据,设要考虑n个周期,将
Figure FDA0002189184940000023
作为长周期数据;
全连接层提取所输入的交通数据的特征zt=Wvxt+bv,其中Wv∈Rv*N,v是特征表示维度,zt∈Rv是xt的嵌入,bv是特征公式中的偏置值;然后,由交通量的特征量zt得到ZL和ZS
Figure FDA0002189184940000024
Figure FDA0002189184940000025
表示长周期数据XL和短周期数据XS的嵌入矩阵;
(2)长周期嵌入矩阵ZL输入长周期模型中的长期循环神经网络
将长期嵌入交通信息
Figure FDA0002189184940000026
输入长期循环神经网络,基于LSTM更新过程表示为,
Figure FDA0002189184940000027
其中zt∈Rv是时间t的输入,
Figure FDA0002189184940000028
是先前的TlLSTM单元的隐藏状态,fLSTM()表示对LSTM学习的映射函数;从该循环跳跃LSTM,获得Ts隐藏状态,表示为
Figure FDA0002189184940000031
将HL称为长期周期性分量,它将被传送到编码器;
在更新过程中,将所有LSTM单元的隐藏表示的维度设置为相同的值m;接着使用ReLU(x)=max(0,x)作为每层的激活函数;最后使用具有时间跳跃连接的循环结构来模拟长期周期性依赖,其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接;
(3)短周期嵌入矩阵ZS输入注意力机制部分
1)短周期数据
Figure FDA0002189184940000032
和长期周期性分量
Figure FDA0002189184940000033
输入到基于LSTM的编码器中,计算不同道路之间的相关性:
Figure FDA0002189184940000034
Figure FDA0002189184940000035
Figure FDA0002189184940000036
Figure FDA0002189184940000037
其中,“;”表示连接,
Figure FDA0002189184940000038
Ue∈Rv*2m,Ul∈Rv*m,Ve∈Rv*3v,We、Ue、Ul和Ve代表可学习参数,ht-1∈Rm和st-1∈Rm是前一编码器LSTM单元的隐藏状态和单元状态;
Figure FDA0002189184940000039
Figure FDA00021891849400000310
分别是邻近性数据的特征和周期性数据的特征;
Figure FDA00021891849400000311
表示当前时间数据的特征,αt∈Rv是衡量zt中每个值的重要性的注意力量;
使用特征维度的平方根来缩放点积;利用周期向量和注意权重,构造编码器LSTM的输入:首先,在时间t计算加权输入zt,w
Figure FDA00021891849400000312
然后将zt,w和hL t连接为编码的输入,ht=f1([ht-1,[zt,w;hL t]),其中f1是编码器LSTM学习的映射函数,ht是编码器的输出;令
Figure FDA00021891849400000313
为编码器隐藏状态;
2)具有时间注意力的解码器:
Figure FDA00021891849400000314
作为具有时间注意力的解码器的输入,解码器使用另一个基于LSTM的循环神经网络来解码编码信息;具体地,基于先前解码器隐藏状态dt-1和单元状态s’t-1计算时间t处的注意力机制权重:
Figure FDA0002189184940000041
Figure FDA0002189184940000042
Figure FDA0002189184940000043
其中,Wd∈Rm,
Figure FDA0002189184940000044
Wd、Ud和Vd代表可学习参数,m是LSTM单元的隐藏表示的维度,dt-1∈Rm和s't-1∈Rm是前一个解码器的隐藏状态和单元状态LSTM单位,
Figure FDA0002189184940000045
是衡量每个时间步长重要性的注意力量,
Figure FDA0002189184940000046
=分别表示邻近性数据的特征和周期性数据的特征,然后使用这些注意权重和短期输入向量来构造解码器的输入:
ct=Heβt
Figure FDA0002189184940000047
其中,Wc∈Rm*(m+v),Wc是可学习参数,ct是上下文向量的加权和,bc是偏置参数;新计算的
Figure FDA0002189184940000048
用于在时间t更新解码器隐藏状态:
Figure FDA0002189184940000049
其中f2是解码器LSTM学习的映射函数,解码器的输出是解码器的隐藏状态dt
3)生成预测模型:将编码器的隐藏状态ht和解码器的隐藏状态dt输入到两层全连接层,获得
Figure FDA00021891849400000410
其中Wi∈Rv*2m和Vi∈Rv*v代表可学习参数,bwi和bvi代表偏置参数;并且在时间T+i处的预测输出
Figure FDA00021891849400000411
Figure FDA00021891849400000412
其中Wi m∈RN*v,Vi m∈RN*N代表可学习参数,
Figure FDA00021891849400000413
表示偏置参数;
(4)将注意力机制中产生的预测输出
Figure FDA00021891849400000414
输入到自回归模型与多层全连接层,在时间T+i时来自自回归部分的输出是:
Figure 1
其中Tar是短期输入的输入窗口大小,
Figure FDA0002189184940000052
Figure FDA0002189184940000053
的第j个值,
Figure FDA0002189184940000054
代表可学习参数,xT-j代表短周期数据,
Figure FDA0002189184940000055
代表偏置参数;
同时APTN的最终预测是神经网络和AR分量的输出的整合:
Figure 2
采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数:
Figure FDA0002189184940000057
Figure FDA0002189184940000058
代表APTN的最终预测,xT+i代表短周期数据;其中Ω是训练样本的数量,使用Adam优化器来最小化损失;
第五步,使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练
将输入数据输入到基于注意力的周期性时间神经网络模型中,计算得到模型的结果;计算每次训练后的预测值和真值的损失函数值,最小化损失函数值,将模型的参数训练到目标值;根据模型在训练集、验证集上的效果,不断调试模型的超参数,在减小过拟合的条件下提高预测精度;
所述的输入数据包括:长周期数据XL,短周期数据XS
第六步,使用测试集数据并利用第五步训练好的模型进行预测
输入数据为:长周期数据XL,短周期数据XS
外部特征模型所输出的结果就是最终的预测值。
CN201910826273.4A 2019-09-03 2019-09-03 一种用于交通预测的时空注意力机制方法 Active CN110619430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910826273.4A CN110619430B (zh) 2019-09-03 2019-09-03 一种用于交通预测的时空注意力机制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910826273.4A CN110619430B (zh) 2019-09-03 2019-09-03 一种用于交通预测的时空注意力机制方法

Publications (2)

Publication Number Publication Date
CN110619430A CN110619430A (zh) 2019-12-27
CN110619430B true CN110619430B (zh) 2022-09-16

Family

ID=68922234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910826273.4A Active CN110619430B (zh) 2019-09-03 2019-09-03 一种用于交通预测的时空注意力机制方法

Country Status (1)

Country Link
CN (1) CN110619430B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275971A (zh) * 2020-02-18 2020-06-12 山西交通控股集团有限公司 一种高速公路交通流量预测方法
CN111652437A (zh) * 2020-06-04 2020-09-11 上海眼控科技股份有限公司 跑道视程预测值获取方法、计算机设备和存储介质
CN111915059B (zh) * 2020-06-29 2023-06-30 西安理工大学 基于注意力机制的Seq2seq泊位占有率预测方法
CN112257911B (zh) * 2020-10-13 2024-03-26 杭州电子科技大学 基于并行时空注意力机制的tcn多元时间序列预测方法
WO2022104504A1 (zh) * 2020-11-17 2022-05-27 中国科学院深圳先进技术研究院 一种公路交通状态预测方法、系统、终端以及存储介质
CN112532439B (zh) * 2020-11-24 2022-08-23 山东科技大学 一种基于注意力多组件时空跨域神经网络模型的网络流量预测方法
CN112926768A (zh) * 2021-01-27 2021-06-08 浙江工业大学 基于时空注意力机制的地面道路车道级交通流预测方法
CN112818033A (zh) * 2021-01-28 2021-05-18 河北工业大学 基于神经网络的袋式除尘器破袋智能检测方法
CN113112793A (zh) * 2021-03-29 2021-07-13 华南理工大学 一种基于动态时空相关性的交通流预测方法
CN113094357B (zh) * 2021-04-23 2022-05-10 大连理工大学 一种基于时空注意力机制的交通缺失数据补全方法
CN113379164B (zh) * 2021-07-16 2024-03-26 国网江苏省电力有限公司苏州供电分公司 基于深度自注意力网络的负荷预测方法及系统
CN113919587A (zh) * 2021-11-03 2022-01-11 中大检测(湖南)股份有限公司 基于神经网络的地质灾害的预测方法及系统
CN114692941A (zh) * 2021-12-30 2022-07-01 江南大学 基于多注意力的公司财务预测方法
CN117094360A (zh) * 2023-10-18 2023-11-21 杭州同花顺数据开发有限公司 一种用户表征提取方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754605A (zh) * 2019-02-27 2019-05-14 中南大学 一种基于注意力时态图卷积网络的交通预测方法
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919358A (zh) * 2019-01-31 2019-06-21 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109754605A (zh) * 2019-02-27 2019-05-14 中南大学 一种基于注意力时态图卷积网络的交通预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于卷积循环神经网络的城市区域车流量预测模型;薛佳瑶等;《信息工程大学学报》;20190415(第02期);全文 *

Also Published As

Publication number Publication date
CN110619430A (zh) 2019-12-27

Similar Documents

Publication Publication Date Title
CN110619430B (zh) 一种用于交通预测的时空注意力机制方法
Sehovac et al. Forecasting building energy consumption with deep learning: A sequence to sequence approach
CN109816095B (zh) 基于改进门控循环神经网络的网络流量预测方法
Guo et al. Robust online time series prediction with recurrent neural networks
CN111612243B (zh) 交通速度预测方法、系统及存储介质
Hu et al. Development and application of an evolutionary deep learning framework of LSTM based on improved grasshopper optimization algorithm for short-term load forecasting
Tax Human activity prediction in smart home environments with LSTM neural networks
CN109146156B (zh) 一种用于预测充电桩系统充电量的方法
CN109583565A (zh) 基于注意力模型长短时记忆网络的洪水预测方法
Dong et al. An integrated deep neural network approach for large-scale water quality time series prediction
CN109711617A (zh) 一种基于blstm深度学习的中长期径流预测方法
Zhang et al. Robust recurrent neural networks for time series forecasting
Massaoudi et al. Performance evaluation of deep recurrent neural networks architectures: Application to PV power forecasting
CN111461455B (zh) 一种基于关联周期注意力机制的行为预测方法
CN114694379B (zh) 一种基于自适应动态图卷积的交通流预测方法及系统
Suryo et al. Improved time series prediction using LSTM neural network for smart agriculture application
Chen et al. A short-term traffic flow prediction model based on AutoEncoder and GRU
CN113360848A (zh) 一种时序数据预测方法及装置
CN115755219A (zh) 基于stgcn的洪水预报误差实时校正方法及系统
CN115766125A (zh) 一种基于lstm和生成对抗网络的网络流量预测方法
Liu et al. A dual-layer attention-based LSTM network for fed-batch fermentation process modelling
Lin et al. Hybrid water quality prediction with graph attention and spatio-temporal fusion
CN112767692A (zh) 基于SARIMA-GA-Elman组合模型的短时交通流量预测系统
Lei et al. A novel time-delay neural grey model and its applications
Wang et al. Hybrid time-aligned and context attention for time series prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant