CN114973678B

CN114973678B - 一种基于图注意力神经网络和时空大数据的交通预测方法

Info

Publication number: CN114973678B
Application number: CN202210638919.8A
Authority: CN
Inventors: 杨国燕
Original assignee: Guangzhou Maritime University
Current assignee: Guangzhou Maritime University
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2024-04-09
Anticipated expiration: 2042-06-08
Also published as: CN114973678A

Abstract

本发明涉及一种基于图注意力神经网络和时空大数据的交通预测方法，该交通预测方法包括：根据实际道路建立路网拓扑，得到路网拓扑信息；根据所述路网拓扑信息，通过图注意力网络对历史交通信息的嵌入特征信息进行处理，得到空间特征信息；通过长短期记忆网络对所述空间特征信息进行处理，得到时序特征信息；通过注意力机制对所述时序特征信息进行处理，得到预测交通信息。本发明具有能够增强对交通路网中的空间相关性特征分析，减小预测模型与实际道路状态值之间的差距，提高了预测的准确性和稳定性。

Description

一种基于图注意力神经网络和时空大数据的交通预测方法

技术领域

本发明涉及公共交通信息处理技术领域，特别涉及一种基于图注意力神经网络和时空大数据的交通预测方法及其预测模型的训练方法。

背景技术

随着大数据时代的到来，城市规模不断扩张，大量遍布在交通道路上的传感器时刻产生着交通流数据，对交通管理系统提出巨大的挑战，此外，智能交通系统(IntelligentTransportation System,ITS)的出现也对交通流预测问题提出了更高的要求。交通流数据是一种经典的时空数据，不仅具有时间特性，还具有空间相关性，仅考虑单方面特性会造成预测精度低等问题。其次，交通路网的拓扑结构是动态变化的，传统对于图结构数据特征进行提取的卷积神经网络无法捕捉这种动态特征。再者，交通数据具有长期依赖关系，对于时间特征捕获的不足，容易导致数据预测实效性差等问题。

发明内容

本发明的目的是为了解决上述现有技术的缺点和不足，提供一种基于图注意力神经网络和时空大数据的交通预测方法及该交通预测模型的训练方法，能够增强对交通路网中的空间相关性特征分析，减小预测模型与实际道路状态值之间的差距，提高了预测的准确性和稳定性。

首先，本发明为解决上述问题提供了一种基于图注意力神经网络和时空大数据的交通预测方法，其包括：

S110：根据交通流数据建立路网拓扑，得到路网拓扑信息；

S120：根据步骤S110所得路网拓扑信息，通过图注意力网络对过去的某一时段历史交通信息的嵌入特征信息进行处理，得到空间特征信息；

S130：采用长短期记忆网络对所述空间特征信息进行处理，得到时序特征信息；

S140：采用注意力机制对所述时序特征信息进行处理，得到预测交通信息。

相对于现有技术，本发明通过图注意力网络对历史交通信息中的空间特征信息进行提取，并通过结合长短期记忆网络以获得时序特征信息，最后引入注意力机制对时序特征信息进行处理并输出，得到既考虑空间相关性又考虑时间特性的交通预测信息，通过该方法能够有效地提高了预测的交通预测信息的准确性以及稳定性。

作为本发明的进一步改进，所述步骤S120中根据所述路网拓扑信息，通过图注意力网络对历史交通信息的嵌入特征信息进行处理包括以下步骤：

S121：采用如下公式对所述嵌入特征信息进行特征维度转换处理，得到转维特征信息：

其中，W^(l)表示可训练的参数，表示嵌入特征信息，/>表示转维特征信息；

S122：采用如下公式通过LeakyReLU函数以及Softmax函数对所述转维特征信息进行处理，得到第一权重：

其中，表示可学习的权重向量；/>表示对于节点i，其邻居节点j对于节点i的注意力分数；(·||·)为拼接两个顶点的变换特征，/>表示第一权重，/>表示对于任意节点i的邻居节点集合；

S123：采用如下公式根据所述第一权重，对所述嵌入特征信息进行加权求和，得到所述空间特征信息：

其中，是节点i更新后的特征；σ为Sigmoid函数。

作为本发明的进一步改进，所述步骤S130中通过长短期记忆网络对所述空间特征信息进行处理包括以下步骤：

S131：对空间特征信息进行遗忘信息提取处理，得到遗忘信息；

S132：对空间特征信息进行保留信息提取处理，得到保留信息；

S133：根据所述遗忘信息以及所述保留信息进行更新运算处理，得到更新信息；

S134：根据所述更新信息以及所述空间特征信息，得到时序特征信息。

作为本发明的进一步改进，所述步骤S140中通过注意力机制对所述时序特征信息进行处理包括以下步骤：

S141：对时序特征信息进行分割处理，得到多个子时序特征信息；

S142：对多个所述子时序特征信息进行权重计算处理，得到多个第二权重；

S143：根据子时序特征信息以及其对应的第二权重，对所有子时序特征信息进行加权求和处理，得到多个第一结果；

S144：拼接所有所述第一结果，得到预测交通信息。

作为本发明的进一步改进，所述S110：根据实际道路建立路网拓扑，得到路网拓扑信息包括：

使用未加权图G＝(V,E)描述路网拓扑；

通过邻接矩阵A表示道路节点之间的连接关系；

其中，V＝{v₁,v₂,...,v_N}表示道路节点，N是节点的数量，E代表交通路网中边的集合，用于表示路网节点之间的关联程度。

作为本发明的进一步改进，采用如下公式计算所述邻接矩阵A中各元素的值：

其中，d_ij代表节点i与节点j之间的距离；σ²表示方差；ε用于控制邻接矩阵稀疏性。

为达到本发明另一目的，本发明还提供了用于实现上述方法的交通预测模型的训练方法，所述交通预测模型包括空间子模型和时序子模型，其训练方法包括：

S210：根据交通流数据建立路网拓扑，得到路网拓扑信息；

S220：根据步骤S210所得路网拓扑信息，通过图注意力网络对过去的某一时段历史交通信息的嵌入特征信息进行处理，得到空间特征信息；

S230：采用长短期记忆网络对所述空间特征信息进行处理，得到时序特征信息；

S240：采用注意力机制对所述时序特征信息进行处理，得到预测交通信息；

S250：根据所述输出交通信息与所述样本交通信息的标签之间的差异，训练所述交通预测模型。

作为本发明的进一步改进，所述步骤S220中的样本交通信息获取自过去的某一时段历史交通信息。

作为本发明的进一步改进，所述步骤S250中根据所述输出交通信息与所述样本交通信息的标签之间的差异，训练所述交通预测模型包括以下步骤：

S251：采用如下公式根据输出交通信息、所述标签以及正则化项，得到损失值：

L(x)＝||Y_ac-Y_pred||+λL₂；

S252：根据输出交通信息和所述标签，得到误差值；

S253：根据所述损失值以及所述误差值，训练所述交通预测模型；

其中，L(x)表示损失函数，Y_pred表示输出交通信息；Y_ac表示实际交通信息；λ是超参数；L₂是正则化项。

作为本发明的进一步改进，所述误差值包括：均方根误差值(RMSE)、平均绝对误差值(MAE)以及平均绝对百分比误差值(MAPE)。

相对于现有技术，本发明通过将正则化项引入损失函数中，能够有效地避免交通预测模型过拟合，同时根据输出交通信息以及标签分别计算均方根误差值、平均绝对误差值以及平均绝对百分比误差值，能够有效地反映该交通预测模型的预测精度。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

附图用于更好地理解本方案，不构成对本发明的限定。其中：

图1是根据本发明实施例1的交通预测方法的流程图；

图2是根据本发明实施例2的交通预测模型的训练方法的流程图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

实施例1

图1根据本发明的一个实施例的交通预测方法的流程图。

如图1所示，该交通预测方法包括步骤S110至步骤S140。

在步骤S110，根据交通流数据建立路网拓扑，得到路网拓扑信息

在本发明实施例中，使用未加权图G＝(V,E)描述道路交通网的拓扑结构，将道路交通网中的每条道路视作一个独立的节点，V＝{v₁,v₂,...,v_N}表示道路节点，其中N是节点的数量。E代表道路交通网中边的集合，表示道路交通网节点之间的关联程度。使用邻接矩阵A表示道路节点之间的连接关系，其中A＝R^N×N，A中的元素表示在当前时刻的注意力系数，R代表实数，N代表节点的数量。特征矩阵X代表的是网络中节点的属性特征，其中X＝R^N×P，P代表每个节点的输入特征数，R代表实数，N代表节点的数量。以领接矩阵定义节点的连通关系，通过以下公式计算领接矩阵A中各元素的值：

其中，d_ij代表节点i与节点j之间的距离；σ²表示方差；ε用于控制邻接矩阵稀疏性，将ε设置为0.2。

如图1所示，步骤S120包括步骤S121至步骤S123，其中步骤S120是通过图注意力网络(GAT)实现的，使用图注意力网络(GAT)将节点影响程度转化为权重值，通过矩阵表示节点间影响程度，计算节点的特征，更新隐藏特征。针对每个中心节点提取所有邻居节点的特征，并进行汇总，并对空间层的所有特性进行整合，具体如下：

在步骤S121，对所述嵌入特征信息进行特征维度转换处理，得到转维特征信息。

在本发明实施例中，对长度为L的过去的某一时段历史交通序列特征信息(X_t-(L-1),X_t-(L-2),...,X_t)做线性变换，在本实施例中示例性地采用，通过点积步骤进行特征维度转换，得到公式如下：

在步骤S122，通过LeakyReLU函数以及Softmax函数对所述转维特征信息进行处理，得到第一权重。

在本发明实施例中，拼接z嵌入，输入到自注意力网络中，应用LeakyReLU计算节点的注意力分数，公式如下：

其中，表示可学习的权重向量；/>表示对于节点i，其邻居节点j对于节点i的注意力分数；(·||·)为拼接两个顶点的变换特征；

应用Softmax归一化注意力权重，公式如下：

在步骤S123，根据所述第一权重，对所述嵌入特征信息进行加权求和，得到所述空间特征信息。

在本发明实施例中，对所有邻居节点的特征做基于注意力的加权求和步骤，聚合特征，公式如下：

其中，是节点i更新后的特征；σ为Sigmoid函数：/>

如图1所示，步骤S130包括步骤S131至步骤S134，其中步骤S130是通过长短期记忆网络(LSTM)实现的，使用长短期记忆网络(LSTM)的单元状态传递信息，输出时序数据，具体如下：

在步骤S131，对空间特征信息进行遗忘信息提取处理，得到遗忘信息。

在本发明实施例中，将GAT输出的更新后的节点特征h_i ^(l+1)组成的矩阵H^(l+1)作为LSTM的输入，计算前一时刻的状态C_t-1遗忘的信息，输出一个[0,1]之间的值，公式如下：

其中，f_t表示遗忘门，为当前时间的输入；h_t-1为上一时间的神经元状态；σ为Sigmoid函数；

在步骤S132，对空间特征信息进行保留信息提取处理，得到保留信息。

在本发明实施例中，计算确定当前候选状态保留信息，通过Sigmoid决定更新值的范围，通过tanh创建候选值向量，加入单元状态，将两个部分结合对状态进行更新，公式如下：

其中，i_t表示输入门，为当前时间的输入；h_t-1为上一时间的神经元状态；/>表示保留信息；

在步骤S133，根据所述遗忘信息以及所述保留信息进行更新运算处理，得到更新信息。

在本发明实施例中，更新细胞状态，公式如下：

在步骤S134，根据所述更新信息以及所述空间特征信息，得到时序特征信息。

在本发明实施例中，计算当前内部状态C_t需要输出的信息，通过tanh函数将值转换到[-1,1]，与Sigmoid门的输出相乘，决定了最终的输出h_t，公式如下：

h_t＝o_t*tanh(C_t)(公式11)

其中，o_t表示输出门；W_f,W_i,W_c,W_o分别为对应门控的权重矩阵；b_f,b_i,b_c,b_o分别为对应门控机制的偏置；为当前时间的输入；h_t-1为上一时间的神经元状态；*代表矩阵内对应元素相乘。

如图1所示，步骤S140包括步骤S141至步骤S145，其中步骤S140是通过引入注意力机制强化节点影响程度，进一步加强时间距离提取程度，捕获更长期的时间特征，具体如下：

在步骤S141，对时序特征信息进行分割处理，得到多个子时序特征信息。

在本发明实施例中，将通过LSTM作用后输出的时序特征信息分割成多个子时序特征信息(head)。

在步骤S142，对多个所述子时序特征信息进行权重计算处理，得到多个第二权重。

在本发明实施例中，通过线性变换得到矩阵Q、K与V，公式如下：

其中，S代表经过LSTM作用后输入注意力机制的数据，W^Q、W^K与W^V分别为三个值所对应的线性变换矩阵，该矩阵为根据节点影响程度预设的矩阵，相当于对输入S进行3次不同的线性变换表示3种不同的状态；用于将两个矩阵相乘；；

并通过计算自注意力(self-attention)得到第二权重，公式如下：

attention_output＝Attention(Q,K,V) (公式15)

其中，Q表示查询(query)向量；K用来表示键(key)向量；而V表示的是值(value)向量；

在步骤S143，根据子时序特征信息以及其对应的第二权重，对所有子时序特征信息进行加权求和处理，得到多个第一结果。

在本发明实施例中，注意力函数将query和key-value映射到输出，最终的输出对应的加权和，公式如下：

其中，Q表示查询(query)向量；K用来表示键(key)向量；而V表示的是值(value)向量；d_k代表向量维度，是矩阵Q与矩阵K的列数；

在步骤S144，拼接所有所述第一结果，得到预测交通信息。

在本发明实施例中，使用多头注意力(Multi-heads Attention)，通过h个不同的线性变换对Q，K，V进行投影，最后将不同的注意力结果拼接起来，得到预测交通信息，公式如下：

MultiHead(Q,K,V)＝Concat(head₁,head₂,...,head_h)W^o (公式17)

head_i＝Attention(QW_i ^Q,KW_i ^K,VW_i ^V) (公式18)

其中，矩阵S、Q、K、V中的每一行分别代表一个单词，该单词表示一个数据的某个局部特征，例如矩阵Q与K^T相乘时，Q的第一行表示数据特征，K^T的第一列也表示数据特征的另一种状态，二者相乘代表该特征的注意力值，其值的大小表示在对序列中该特征进行编码时，应当将多少的注意力放在该特征上；Q表示查询(query)向量；K用来表示键(key)向量；而V表示的是值(value)向量；d_k代表向量维度，是矩阵Q与矩阵K的列数；

通过本发明实施例，能够即考虑时间关联性的同时，又考虑空间相关性来对交通预测，实现对交通数据特点的全方位捕捉，减小损失值，提高模型的预测精度。本发明运用图注意力网络强调对于中心节点影响程度较大的节点，分配给邻居节点不同的权值比重，体现每个邻居节点对中心节点的影响程度，摆脱交通路网的整体拓扑结构，仅聚焦于中心节点的邻居节点特征，可以大幅降低模型的计算成本，提高运行效率。

实施例2

图2是根据本发明的另一个实施例的交通预测模型的训练方法的流程图。

如图2所示，该交通预测模型的训练方法包括步骤S210至步骤S250。

可以理解，该交通预测模型的训练方法中的步骤S210至步骤S240，与上述的交通预测方法中的步骤S110至步骤S140相同或类似，区别在于在交通预测模型的训练方法的步骤S220中将交通预测方法的步骤S120中的“历史交通信息的嵌入特征信息”替换为“样本交通信息的嵌入特征信息”，其余步骤均相同或类似，为了简明，本发明在此不再赘述。

如图2所示，步骤S250包括步骤S251至步骤S253。

在步骤S251，根据输出交通信息、所述标签以及正则化项，得到损失值。

在本发明实施例，通过全连接层输出，实现预测未来P个时段的输出交通信息，并使用实际交通信息与输出交通信息之间的误差值表现交通预测模型性能的好坏，计算模型的损失函数L(x)，公式如下：

V＝W×H^l+1+B (公式19)

L(x)＝||Y_ac-Y_pred||+λL₂ (公式20)

其中，W将时序特征信息映射为P个输出；B代表偏置；V是输出矩阵，Y_pred，表示输出交通信息；Y_ac表示实际交通速度；λ是超参数；L₂是正则化项，引入损失函数中可以有效避免模型过拟合。

在步骤S252，根据输出交通信息和所述标签，得到误差值。

在本发明实施例，分别计算均方根误差值(RMSE)、平均绝对误差值(MAE)以及平均绝对百分比误差值(MAPE)，表示模型的预测精度，当RMSE、MAE与MAPE的值越接近于0，表明模型预测精度越高、特征表达能力越强，计算公式如下：

其中，代表路网中真实的交通信息；/>代表预测第i个检测器的第j个数据；Y代表/>的集合；/>代表/>的集合；M是时间样本；N是道路数目。

本发明并不局限于上述实施方式，如果对本发明的各种改动或变形不脱离本发明的精神和范围，倘若这些改动和变形属于本发明的权利要求和等同技术范围之内，则本发明也意图包含这些改动和变形。

Claims

1.一种基于图注意力神经网络和时空大数据的交通预测方法，其特征在于，包括以下步骤：

S110：根据交通流数据建立路网拓扑，得到路网拓扑信息；

S140：采用注意力机制对所述时序特征信息进行处理，得到预测交通信息；

所述步骤S120中根据所述路网拓扑信息，通过图注意力网络对历史交通信息的嵌入特征信息进行处理包括以下步骤：

其中，是节点i更新后的特征；σ为Sigmoid函数；

所述步骤S140中通过注意力机制对所述时序特征信息进行处理包括以下步骤：

S144：拼接所有所述第一结果，得到预测交通信息。

2.如权利要求1所述的基于图注意力神经网络和时空大数据的交通预测方法，其特征在于，所述步骤S130中通过长短期记忆网络对所述空间特征信息进行处理包括以下步骤：

3.如权利要求1所述的基于图注意力神经网络和时空大数据的交通预测方法，其特征在于，所述S110：根据实际道路建立路网拓扑，得到路网拓扑信息包括：

使用未加权图G＝(V,E)描述路网拓扑；

通过邻接矩阵A表示道路节点之间的连接关系；

4.如权利要求3所述的基于图注意力神经网络和时空大数据的交通预测方法，其特征在于：采用如下公式计算所述邻接矩阵A中各元素的值：

5.一种用于实现权利要求1-4任一项的交通预测方法的交通预测模型的训练方法，其特征在于，所述交通预测模型包括空间子模型和时序子模型，所述方法包括：

S210：根据交通流数据建立路网拓扑，得到路网拓扑信息；

S220：根据步骤S210所得路网拓扑信息，通过图注意力网络对样本交通信息的嵌入特征信息进行处理，得到空间特征信息；

6.如权利要求5所述的交通预测模型的训练方法，其特征在于：所述步骤S220中的样本交通信息获取自过去的某一时段历史交通信息。

7.如权利要求5所述的交通预测模型的训练方法，其特征在于，所述步骤S250中根据所述输出交通信息与所述样本交通信息的标签之间的差异，训练所述交通预测模型包括以下步骤：

L(x)＝||Y_ac-Y_pred||+λL₂；

S252：根据输出交通信息和所述标签，得到误差值；

其中，L(x)表示损失函数，Y_pred表示输出交通信息；Y_ac表示实际交通信息；λ是超参数；L₂是正则化项，引入损失函数中可以有效避免模型过拟合。

8.如权利要求7所述的交通预测模型的训练方法，其特征在于，所述误差值包括：均方根误差值(RMSE)、平均绝对误差值(MAE)以及平均绝对百分比误差值(MAPE)。