CN110619430A

CN110619430A - 一种用于交通预测的时空注意力机制方法

Info

Publication number: CN110619430A
Application number: CN201910826273.4A
Authority: CN
Inventors: 申彦明; 师晓明; 庄壮; 齐恒; 尹宝才
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2019-12-27
Anticipated expiration: 2039-09-03
Also published as: CN110619430B

Abstract

本发明提供了一种用于交通预测的时空注意力机制方法，属于交通预测领域。本发明是一种端到端解决方案的交通预测框架，它可以对空间、短期和长期的周期性依赖关系进行建模。APTN首先使用编码器的注意力机制来对空间依赖项和周期依赖项进行建模。我们的模型可以更容易地捕获这些依赖关系，因为每个节点都要处理网络中的所有其他节点。然后，应用时间注意选择相关的编码器隐藏状态跨越所有时间步骤。我们使用真实世界的交通数据集来评估我们提出的模型，并观察在最先进的基线上的一致性改进。

Description

一种用于交通预测的时空注意力机制方法

技术领域

本发明属于交通预测领域，具体涉及一种用于交通预测的时空注意力机制方法。

背景技术

交通预测系统数据具有空间性，时空性(周期性，时序性)。现阶段，对交通预测的方法主要是通过深度学习的CNN进行空间的相关提取，RNN或其变体 LSTM/GRU进行时间依赖性建模。

这些通过整合CNN和LSTM来联合建模空间，时间和外部特征依赖性的方法可能无法充分模拟空间相关性，因为卷积操作只聚合本地信息，并且需要很多层来学习远距离空间依赖性。使用多层卷积来缓解这个问题，其在建模空间依赖性时考虑距离，功能相似性和运输连通性。但它需要利用空间结构的性质，例如距离，功能相似性，不同区域的交通连通性。

神经网络最开始是受生物神经系统的启发，为了模拟生物神经系统而出现的，由大量的节点(或称神经元)之间相互联接构成。神经网络根据输入的变化，对权值进行调整，改善系统的行为，自动学习到一个能够解决问题的模型。 LSTM(长短记忆网络)是RNN(循环神经网络)的一种特殊形式，有效地解决多层神经网络训练的梯度消失和梯度爆炸问题，能够处理长时时间依赖序列。LSTM 能够捕获充电量数据的时间序列特性，使用LSTM模型能够有效提高预测精度。

LSTM网络由LSTM单元组成，LSTM单元由单元，输入门，输出门和遗忘门组成。

遗忘门：决定从上一个单元的输出状态中丢弃多少信息，公式如下：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)

其中，f_t是遗忘门的输出，x_t是输入序列，h_t-1是上一个单元的输出，σ_g表示sigmoid函数，W_f表示输入的权重参数矩阵，U_f表示上一个单元输出的权重参数矩阵，b_f表示偏差参数向量。

输入门：决定让多少新的信息加入到Cell状态中，并对单元状态C进行更新，公式如下：

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)

其中，c_t表示当前单元的单元状态，σ_g和σ_c表示sigmoid函数，表示矩阵乘积，W_i表示输入的权重参数矩阵，U_i表示上一个单元输出的权重参数矩阵，b_i表示偏差参数向量，f_t是遗忘门的输出，c_t-1是上一个单元的单元状态，表示矩阵乘积，W_c表示输入的权重参数矩阵，U_c表示上一个单元输出的权重参数矩阵， b_c表示偏差参数向量。

输出门：基于当前的单元状态输出结果。

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)

其中，h_t表示当前单元的输出，σ_g和σ_h表示sigmoid函数，表示矩阵乘积， W_o表示输入的权重参数矩阵，U_o表示上一个单元输出的权重参数矩阵，b_o表示偏差参数向量。

发明内容

本发明提出了一种基于时空注意力机制的交通预测算法，是基于注意力的周期性时间神经网络(APTN)，它模拟空间，短期和长期的周期性依赖性。APTN 采用了一种新颖的基于注意力的编码器-解码器架构。它首先使用循环跳越神经网络处理长期周期性输入，然后对编码器中的空间和周期依赖性进行编码。在解码器中，应用时间注意力机制以跨所有时间步骤从编码器隐藏状态捕获依赖性。通过这种方式，APTN可以自适应地选择最相关的输入特征以及适当地捕获长期时间依赖性。

本发明的技术方案：

一种用于交通预测的时空注意力机制方法，步骤如下：

第一步，将交通数据进行预处理

(1)时间粒度划分：将所有交通数据的整个时间段被分成等长连续时间间隔；

(2)空间粒度划分：将一组路段定义为A＝{1,2,…,N},其中，N表示路段的数量；

(3)对数据进行标准化：表示在时间t的N个路段的交通量；鉴于历史观测值x＝(x₁,x₂,...,x_T)∈R^N*T，交通量预测旨在预测其中，T表示数据的时间总长度，h是对不同任务关注的标准；

第二步，将预处理后的交通数据划分为训练集、验证集和测试集；

第三步，构建基于注意力的周期性时间神经网络模型APTN

基于注意力的周期性时间神经网络模型包括全连接层、长周期模型、具有空间注意力的编码器、具有时间注意力的解码器、生成预测模型和自回归模型；各个模型的结构如下：

(1)全连接层：使用完全连接的网络来获得长短周期的交通数据特征的提取功能；全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来；

(2)长周期模型：该模型包括基于长短期记忆网络LSTM；LSTM拥有三个门来控制细胞状态，第一个是遗忘门，用于决定丢弃上一层细胞状态的哪些信息；第二个是输入门，用于确定哪些新的信息能够被存放到细胞中；第三个是输出门，用来控制该层的细胞状态的过滤情况；

(3)具有空间注意力的编码器：是一个基于长短期记忆网络LSTM的编码器，编码器由空间注意力机制和长短期记忆网络组成；使用特征维度的平方根来缩放点积，利用周期向量和注意权重，构造编码器LSTM的输入；

(4)具有时间注意力的解码器：是一个基于LSTM的循环神经网络和时间注意力机制的解码器；

(5)生成预测模型：使用两层完全连接的网络来获得神经网络的最终输出，并且在时间T+i处的预测输出全连接层是一类神经网络层，它的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来；

(6)自回归模型AR：用同一变数x₁至x_t-1来预测本期x_t的表现；

第四步，使用训练集数据对基于注意力的周期性时间神经网络模型的进行预训练

(1)输入数据进入全连接层进行特征提取

将长周期数据X^L和短周期数据X^S输入全连接层，其中，为最近时段的历史观测值，T_s是基于注意力的周期性时间神经网络模型使用的时间宽度，对于长周期的周期性建模，在每个周期内，需要T_s数量的数据，设要考虑n个周期，将作为长周期数据；

全连接层提取所输入的交通数据的特征z_t＝W_vx_t+b_v,其中W_v∈R^v*N，v是特征表示维度，z_t∈R^v是x_t的嵌入，b_v是特征公式中的偏置值；然后，由交通量的特征量z_t得到Z^L和Z^S；和表示长周期数据X^L和短周期数据X^S的嵌入矩阵；

(2)长周期嵌入矩阵Z^L输入长周期模型中的长期循环神经网络

将长期嵌入交通信息输入长期循环神经网络，基于LSTM更新过程表示为，其中z_t∈R^v是时间t的输入，是先前的T_l LSTM单元的隐藏状态，f_LSTM()表示对LSTM学习的映射函数；从该循环跳跃LSTM，获得T_s隐藏状态，表示为将H^L称为长期周期性分量，它将被传送到编码器；

在更新过程中，将所有LSTM单元的隐藏表示的维度设置为相同的值m；接着使用ReLU(x)＝max(0，x)作为每层的激活函数；最后使用具有时间跳跃连接的循环结构来模拟长期周期性依赖，其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接；

(3)短周期嵌入矩阵Z^S输入注意力机制部分

1)短周期数据Z^S＝(z_T-Ts+1,...,z_T-1,z_T)和长期周期性分量输入到基于LSTM的编码器中，计算不同道路之间的相关性：

其中，“；”表示连接，U_e∈R^v*2m,U_l∈R^v*m,V_e∈R^v*3v,W_e、U_e、U_l和V_e代表可学习参数，h_t-1∈R^m和s_t-1∈R^m是前一编码器LSTM单元的隐藏状态和单元状态；和分别是邻近性数据的特征和周期性数据的特征；表示当前时间数据的特征，α_t∈R^v是衡量z_t中每个值的重要性的注意力量；

使用特征维度的平方根来缩放点积；利用周期向量和注意权重，构造编码器LSTM的输入：首先，在时间t计算加权输入z_t,w，然后将z_t,w和 h^L _t连接为编码的输入，h_t＝f₁([h_t-1,[z_t,w；h^L _t]),其中f₁是编码器LSTM学习的映射函数，h_t是编码器的输出；令为编码器隐藏状态；

2)具有时间注意力的解码器：作为具有时间注意力的解码器的输入，解码器使用另一个基于LSTM的循环神经网络来解码编码信息；具体地，基于先前解码器隐藏状态d_t-1和单元状态s′_t-1计算时间t处的注意力机制权重：

其中，W_d∈R^m,W_d、U_d和V_d代表可学习参数，m是LSTM 单元的隐藏表示的维度，d_t-1∈R^m和s'_t-1∈R^m是前一个解码器的隐藏状态和单元状态LSTM单位，是衡量每个时间步长重要性的注意力量，分别表示邻近性数据的特征和周期性数据的特征，然后使用这些注意权重和短期输入向量来构造解码器的输入：

c_t＝H_eβ_t

其中，W_c∈R^m*(m+v)，W_c是可学习参数，c_t是上下文向量的加权和，b_c是偏置参数；新计算的用于在时间t更新解码器隐藏状态：其中f₂是解码器LSTM学习的映射函数，解码器的输出是解码器的隐藏状态d_t；

3)生成预测模型：将编码器的隐藏状态h_t和解码器的隐藏状态d_t输入到两层全连接层，获得其中W_i∈R^v*2m和V_i∈R^v*v代表可学习参数，b_wi和b_vi代表偏置参数；并且在时间T+i处的预测输出其中Wⁱ _m∈R^N*v,Vⁱ _m∈R^N*N代表可学习参数，表示偏置参数；

(4)将注意力机制中产生的预测输出输入到自回归模型与多层全连接层，在时间T+i时来自自回归部分的输出是：

其中T_ar是短期输入的输入窗口大小，是的第j个值，代表可学习参数，x_T-j代表短周期数据，代表偏置参数；

同时APTN的最终预测是神经网络和AR分量的输出的整合：

采用平方误差作为基于注意力的周期性时间神经网络模型在训练中的损失函数：代表APTN的最终预测，x_T+i代表短周期数据；其中Ω是训练样本的数量，使用Adam优化器来最小化损失；

第五步，使用训练集数据对第三步建立的基于注意力的周期性时间神经网络模型进行整体训练

将输入数据输入到基于注意力的周期性时间神经网络模型中，计算得到模型的结果；计算每次训练后的预测值和真值的损失函数值，最小化损失函数值，将模型的参数训练到目标值；根据模型在训练集、验证集上的效果，不断调试模型的超参数，在减小过拟合的条件下提高预测精度；

所述的输入数据包括：长周期数据X^L，短周期数据X^S；

第六步，使用测试集数据并利用第五步训练好的模型进行预测

输入数据为：长周期数据X^L，短周期数据X^S；

外部特征模型所输出的结果就是最终的预测值。

本发明的有益效果：本发明与已有方法的区别在于，由于传统的时间序列预测方法(HA和ARIMA)仅依赖于历史记录而不考虑空间特征，因此它们具有最差的性能。VAR通过考虑成对关系来捕获空间相关性，并实现更好的性能。但是，它无法捕获复杂的非线性时间依赖性和动态空间关系。

APTN也优于基于深度学习的方法。对于LSTM，它只捕获时间信息，但忽略了空间依赖性。STGCN和ASTGCN同时考虑时间和空间相关性，从而获得更好的性能。然而，它们主要侧重于对空间相邻道路之间的相关性建模，而我们的基于注意的机制也可以捕获可能的远距离道路之间的成对相关性，这对于准确预测是至关重要的。

附图说明

图1是本发明设计的解决方案的体系结构。

图2是本发明设计的数据输入序列说明。

图3是本发明设计的循环跳跃连接。

图4是本发明设计的编码器和解码器的体系结构。

具体实施方法

下面将结合具体实施例和附图对本发明的技术方案进行进一步的说明。

一种用于交通预测的时空注意力机制方法，步骤如下：

第一步，将交通数据进行预处理

(1)时间粒度划分：将所有交通数据的整个时间段(例如，一个月)被分成等长连续时间间隔。

(2)空间粒度划分：将一组路段定义为A＝{1,2，...，N},其中，N表示路段的数量。

(3)对数据进行标准化：表示在时间t的N个路段的交通量。鉴于历史观测值x＝(x₁,x₂,...,x_T)∈R^N*T，交通量预测旨在预测其中，T表示时间的总和，h是对不同任务关注的标准；

第二步，将预处理后的交通数据划分为训练集、验证集和测试集。使用来自加利福尼亚的两个大型公共现实世界数据集PeMSD4和PeMSD8。数据每30秒实时收集一次，并从原始数据汇总到每隔5分钟。

PeMSD4：它指旧金山湾区的交通数据，包含29条道路上的3848个探测器，我们从中选择307个探测器。这个时间跨度数据集是2018年1月到2月。前 50天的数据用作训练集，其余的是测试集。

PeMSD8：2016年7月至8月是圣贝纳迪诺的交通数据，包括8条道路上的 1979个探测器，我们从中选择170个探测器。

前50天的数据用作训练集，过去12天的数据是测试集。

第三步，构建基于注意力的周期性时间神经网络模型APTN

(2)长周期模型：长周期模型基于LSTM。LSTM拥有三个门来控制细胞状态，第一步是决定丢弃细胞哪些信息——遗忘门。下一阶段是输入门，确定哪些新的信息能够被存放到细胞中。最后一阶段即输出门，用来控制该层的细胞状态的过滤情况。本发明将所有LSTM单元的隐藏表示的维度设置为相同的值m。接下来使用ReLU(x)＝max(0，x)作为每层的激活函数。最后，使用具有时间跳越连接的循环结构，其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接。

(3)具有空间注意力的编码器：本发明提出了一种新颖的基于注意力的编码器，可以捕获空间相关性。本发明构建了一个基于LSTM的编码器，它计算了不同道路之间的相关性。

本发明贡献点为：由于当点积大小时，它将导致softmax函数的极小梯度。为了解决这个问题，使用特征维度的平方根来缩放点积。利用周期向量和注意权重，可以构造编码器LSTM的输入。

(4)具有时间注意力的解码器：使用另一个基于LSTM的循环神经网络来解码编码信息。

本发明贡献点：由于输入序列的长度增加，编码器-解码器架构的性能会迅速下降，一个重要的改进是增加一个时间注意机制，它可以自适应地选择相关的编码器隐藏状态以产生输出序列。通过这种方式，我们可以更好地模拟不同时间间隔之间的动态时间相关性。

(5)生成预测：使用两层完全连接的网络来获得神经网络的最终输出，并且在时间T+i处的预测输出全连接层是一类神经网络层，它的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

(6)自回归模型(AR)：是统计上一种处理时间序列的方法，用同一变数例如x的之前各期，亦即x₁至x_t-1来预测本期x_t的表现。因为这是从回归分析中的线性回归发展而来，只是不用x预测y，而是用x预测x(自己)，所以叫做自回归。

本发明贡献点：由于神经网络的非线性输出不能适应输入的突然变化，我们使用经典的自回归模型(AR)来捕获输入信号的突然变化。

(1)输入数据进入全连接层进行特征提取

提前优化深度学习模型的参数，避免在整体训练时将参数优化到局部最优点；为了模拟短期时间依赖性，需要最近的时段的输入，即其中T_s是本模型使用的时间宽度。对于长周期的周期性建模，在每个周期内，需要T_s数量的数据，假设要考虑n个周期，然后我们需要的数据如图2所示，用表示。设T_l表示周期参数(通常是交通数据的一天)。然后X^S和X^L是我们模型的输入，并将被输入全连接层。全连接层提取输入交通量的特征z_t＝W_vx_t+b_v,其中W_v∈R^v*N，v是特征表示维度，z_t∈R^v是x_t的嵌入。然后，和表示长周期数据X^L和短周期数据X^S的嵌入矩阵，并且输入到注意力机制部分。

(2)长周期嵌入矩阵X^L输入长期记忆循环网络：

为了保持一致性，将所有LSTM单元的隐藏表示的维度设置为相同的值m。接着使用ReLU(x)＝max(0，x)作为每层的激活函数。由于梯度消失，标准 LSTM或GRU单元很难捕获长期周期性依赖性。因此，如图3所示，为了模拟长期周期性依赖，使用具有时间跳越连接的循环结构，其中在当前隐藏单元和相邻时段中相同相位中的隐藏单元之间添加跳越连接。

(3)短周期嵌入矩阵Z^S输入注意力机制部分

1)短周期数据和长期周期性分量输入到基于LSTM的编码器中，计算不同道路之间的相关性：

其中，“；”表示连接，U_e∈R^v*^2m,V_e∈R^v*^3v,W_e、U_e、U_l和V_e代表可学习参数，h_t-1∈R^m和s_t-1∈R^m是前一编码器LSTM单元的隐藏状态和单元状态；和分别是邻近性数据的特征和周期性数据的特征；表示当前时间数据的特征，α_t∈R^v是衡量z_t中每个值的重要性的注意力量；

c_t＝H_eβ_t

同时APTN的最终预测是神经网络和AR分量的输出的整合：

超参数设置：对于超参数设置，我们选择在验证数据集上获得最佳结果的参数。对于长期时间信息，我们将周期时间间隔T1设置为一天。所有LSTM单元m的隐藏状态的维度被设置为128，并且特征表示维度v也被设置为128。在我们的实验中，批量大小设置为64，学习率设置为0.001。LSTM的dropout和循环dropout率均设为0.2。

所述的输入数据包括：长周期数据X^L，短周期数据X^S；

输入数据为：长周期数据X^L，短周期数据X^S；

外部特征模型所输出的结果就是最终的预测值。

Claims

1.一种用于交通预测的时空注意力机制方法，其特征在于，步骤如下：

第一步，将交通数据进行预处理

第三步，构建基于注意力的周期性时间神经网络模型APTN

(1)输入数据进入全连接层进行特征提取

(2)长周期嵌入矩阵Z^L输入长周期模型中的长期循环神经网络

将长期嵌入交通信息输入长期循环神经网络，基于LSTM更新过程表示为，其中z_t∈R^v是时间t的输入，是先前的T_lLSTM单元的隐藏状态，f_LSTM()表示对LSTM学习的映射函数；从该循环跳跃LSTM，获得T_s隐藏状态，表示为将H^L称为长期周期性分量，它将被传送到编码器；

(3)短周期嵌入矩阵Z^S输入注意力机制部分

使用特征维度的平方根来缩放点积；利用周期向量和注意权重，构造编码器LSTM的输入：首先，在时间t计算加权输入z_t,w，然后将z_t,w和h^L _t连接为编码的输入，h_t＝f₁([h_t-1,[z_t,w；h^L _t]),其中f₁是编码器LSTM学习的映射函数，h_t是编码器的输出；令为编码器隐藏状态；

2)具有时间注意力的解码器：作为具有时间注意力的解码器的输入，解码器使用另一个基于LSTM的循环神经网络来解码编码信息；具体地，基于先前解码器隐藏状态d_t-1和单元状态s’_t-1计算时间t处的注意力机制权重：

其中，W_d∈R^m,W_d、U_d和V_d代表可学习参数，m是LSTM单元的隐藏表示的维度，d_t-1∈R^m和s'_t-1∈R^m是前一个解码器的隐藏状态和单元状态LSTM单位，是衡量每个时间步长重要性的注意力量，＝分别表示邻近性数据的特征和周期性数据的特征，然后使用这些注意权重和短期输入向量来构造解码器的输入：

c_t＝H_eβ_t

同时APTN的最终预测是神经网络和AR分量的输出的整合：

所述的输入数据包括：长周期数据X^L，短周期数据X^S；

输入数据为：长周期数据X^L，短周期数据X^S；

外部特征模型所输出的结果就是最终的预测值。