CN114021811B

CN114021811B - 基于注意力改进的交通预测方法及计算机介质

Info

Publication number: CN114021811B
Application number: CN202111293933.0A
Authority: CN
Inventors: 曾博; 葛亮; 周庆; 黎森文; 林永全
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-11-03
Filing date: 2021-11-03
Publication date: 2024-06-25
Anticipated expiration: 2041-11-03
Also published as: CN114021811A

Abstract

本发明属于智能交通技术领域，具体公开了一种基于注意力改进的交通预测方法及计算机介质，该方法利用全连接层计算注意力参数，随机采样注意力参数，计算每组采样的注意力参数中的分布与平均分布的KL散度值，根据每组注意力参数中的KL散度值，获取注意力参数的概率分布与均匀分布之间的差值Top‑u，根据差值Top‑u，获取差值最大的多个注意力参数，使用一个4维的张量Φ∈R^B×T×N×N对获取的注意力参数同时进行空间和时间上的卷积，将卷积后的注意力参数输入全连接层，输出预测交通流量。采用本技术方案，在使用注意力获取动态的拉普拉斯矩阵，降低计算时间复杂度和空间复杂度，增加模型的感受野。

Description

基于注意力改进的交通预测方法及计算机介质

技术领域

本发明属于智能交通技术领域，涉及一种基于注意力改进的交通预测方法及计算机介质。

背景技术

建立智能交通系统(ITS)正成为现代交通研究的关键，其中交通预测发挥着至关重要的作用，具有广泛的应用前景，如优化交通道路使用分配、提前规划客户路线、引导道路建设等。

随着交通检测器和传感器在城市道路网络上的大量使用，现代交通系统累计了大量历史数据，动态变化的交通系统中产生的大量数据中隐藏着丰富的信息和规律性。人们提出并研究了许多基于历史路网信息的模型，其中主要研究的是如何通过新的方法建立时间序列模型，并利用路段节点的空间关系。传统方法主要有卡尔曼滤波器和统计学模型，最新的方法主要是采用人工智能。

现实世界的交通系统，受到许多因素的影响，例如非线性和非平稳的交通数据、天气和事件等。从而难以挖掘空间和时间特征，现有的挖掘方法有，例如，空间状态神经网络SSNN，其目的是为了寻找基于一阶上下文记忆的时空关系；深度时空卷积DSTCN，利用卷积神经网络CNN探索空间关系，并利用递归神经网络RNN挖掘时间信息。这些模型建立了时空关系，但是忽略了道路网络在空间上的自然拓扑结构，甚至破坏了自然拓扑结构，导致模型性能不足。而采用最新研究的DGCN(Dual Graph Convolutional Networks，对偶图卷积网络)模型，为了获取到不同时间步之间的距离，采用了大量的注意力机制，需要进行大量的高维向量矩阵运算，并且在特征采样层内为了捕捉时间关系，引入了LSTM层，从而导致运算的时间复杂度和空间复杂度非常高。另由于时间复杂度和空间复杂度较高的情况，DGCN模型在特征输入模型之前便将特征由原定的60个点经过卷积变成16个点，该项缺点限制了DGCN输入时序的长度(特征采样层存在的意义)，也限制了DGCN预测较远的时间节点的能力(一方面模型感受到的数据被卷积层把维度降低了，另一方面很难输入更长的时间序列数据)。

发明内容

本发明的目的在于提供一种基于注意力改进的交通预测方法及计算机介质，降低计算时间复杂度和空间复杂度。

为了达到上述目的，本发明的基础方案为：一种基于注意力改进的交通预测方法，包括如下步骤：

输入观测的交通数据，依次经过全连接层和注意力层，计算注意力参数；

随机采样注意力参数，计算每组采样的注意力参数中的分布与平均分布的KL散度值；

根据每组注意力参数中的KL散度值，获取注意力参数的概率分布与均匀分布之间的差值Top-u；

根据差值Top-u，获取差值最大的多个注意力参数；

使用一个4维的张量Φ∈R^B×T×N×N对获取的注意力参数同时进行空间和时间上的卷积，将卷积后的注意力参数输入全连接层，输出预测交通流量，其中，R表示实数张量矩阵，B为mini-batch维度，T为时间维度，N×N为空间上的邻接矩阵维度。

本基础方案的工作原理和有益效果在于：使用了基于信息感知的注意力层，注意力层自动获取更高的注意力，并简化注意力计算的时间和空间复杂度，从而能够输入更长的时间序列的数据，使得模型的感受野增加，长时间交通预测的预测效果被提升了。在简化DGCN模型的计算时间空间复杂度的前提下，扩大了模型的感受野，提高了模型预测交通的准确性。通过全连接层提高全局拉普拉斯参数矩阵和注意力的结合度，同时对空间维度和时间维度做卷积，从而获得更加复杂的时空结合的关系。

进一步，计算注意力的值的方法：

定义一种基于(Q,K,V)三矩阵输入的规范自注意力：

其中，Q,K,V表示张量矩阵；Softmax()为分类函数，表示使用Q矩阵乘以K矩阵的转置；对应的维度为L_Q，L_K，L_V分别表示Q，K，V的中间维度，R表示实数张量矩阵，L表示维度，d为输入的维度；

使用q_i，k_i，v_i分别代表矩阵Q，K，V中的第i行，第i个注意力参数表示为：

其中，概率概率p(k_j∣∣q_i)表示第i个query中在key中的注意力，V_j为矩阵V中的向量。

获取注意力参数和概率，便于后续计算。

进一步，计算KL散度值的方法如下：

对注意力参数进行归一化处理，基于均匀分布的注意力参数理论值为当概率时，注意力参数变为对矩阵V的平均求和；

对概率p和注意力参数理论值q进行比较得出差值，设置阈值h，当该差值大于阈值h，筛选出重要的概率p，使得Q矩阵变为稀疏矩阵：

是一个和Q相同大小的矩阵，其中只包含由计算得到差值超过阈值h的注意力参数，其余注意力参数设为0，概率p与注意力参数q之间的KL散度值：

利用注意力所具有的稀疏性，减少时间复杂度和内存消耗，即大部分的注意力系数最后的结果是趋近于0，只有少数注意力系数的值具有意义。

进一步，所述获取注意力参数的概率分布与均匀分布之间的差值Top-u的方法如下：

对原始矩阵Q中的值进行采样，利用KL散度值计算概率p与注意力参数q间概率分布的差值，令采样系数u＝c·lnL_Q，c为人为根据经验设置的超参数，计算注意力涉及到的矩阵内积计算的时间复杂度为空间复杂度为

利用注意力参数的长尾分布，随机选取U＝L_QlnL_K个概率分布对，计算U个概率分布与均匀分布之间的差值Top-u，并将差值Top-u填充入矩阵内，将矩阵内未填充的部分设置为0，矩阵变成一个稀疏矩阵。

利用注意力系数的长尾分布，不需要将全部点对计算完毕，进一步简化时间复杂度和空间复杂度，通过这种方式，可以将矩阵变成一个稀疏矩阵，计算时间复杂度相对正常的矩阵大大减少。

进一步，对获取的注意力参数同时进行空间和时间上的卷积的方法如下：

根据用于计算的部分注意力参数，得到在不同时间维度两两节点之间的注意力参数将注意力参数与归一化邻接矩阵做一个加权和，得到卷积的邻接矩阵，

Fast-GCN的实现方式如下：

其中，W₁和W₂表示两个可训练的参数，为注意力参数得到的邻接矩阵，Adj为现时交通路网结构得到的邻接矩阵，I_N∈R^N×N为单位矩阵，其中λ_max为矩阵L的最大的特征值，M为切比雪夫多项式的阶，C_m＝2LC_m-1-C_m-2，C₀＝I_N，g_θ表示卷积函数核，G(x)表示被卷积的图结构和图数据，x表示图中顶点和特征,g_θ(L)表示将图上的卷积操作转为基于拉普拉斯矩阵(L)实现的卷积操作,θ_m为第m阶多项式的可学习的系数,为切比雪夫多项式近似拉普拉斯矩阵的第m项的矩阵值,L为拉普拉斯矩阵,C_m-1为切比雪夫多项式近似拉普拉斯矩阵的第m-1项的矩阵值；

使用2阶切比雪夫多项式，对输入的邻接矩阵Φ在T维度上分别进行卷积，同时实现在不同时间上的不同空间卷积，实现动态的图卷积。

同时对空间维度和时间维度做卷积，从而获得更加复杂的时空结合的关系，利于后续使用。

进一步，卷积后的注意力参数输入全连接层，全连接层输出预测的时间序列：

在这里是预测的交通流量，其中表示预测的t个时刻的交通流量，表示y是一个1维的d_y长度的向量。

获取预测的交通流量，计算简单，利于使用。

本发明还提供一种计算机介质，所述计算机介质内存储有可执行本发明所述的方法的程序。

利用该计算机介质，执行交通预测，便于使用。

附图说明

图1是本发明基于注意力改进的交通预测方法的流程示意图；

图2是本发明基于注意力改进的交通预测方法的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

最新的DGCN模型，将观测的交通数据值结合路网结构输入模型，观测值根据小时周期，天周期，周周期进行采样，然后根据路网结构模型计算拉普拉斯矩阵。拉普拉斯矩阵经过一个全局拉普拉斯矩阵学习层，在模型的最顶层使用一个R^N×N的全局参数学习全局情况下各个路网节点之间空间关系(蓝色Global Laplace matrix Learning Layer)，得到全局拉普拉斯参数化矩阵。

其中采样得到的交通时序数据经过时间卷积层后，在进行特征采样(FeatureSampling)之后，经过了时空注意力层(Spatial Attention和LSTM un北)学习到不同时间步之间的关系，与上段的全局拉普拉斯参数化矩阵做哈达玛乘积最后得到图时空卷积层(Graph Temporal Convulution Layer)使用的矩阵。

如图1和2所示，本发明公开了一种基于注意力改进的交通预测方法，针对现有技术的缺陷，能够在使用注意力获取动态的拉普拉斯矩阵的同时，降低计算时间复杂度和空间复杂度，从而在有限的计算资源中，能够输入更长的时间序列数据，增加模型的感受野，在不降低模型短期预测效果(15分钟)提高模型中长期预测效果(30分钟到1个小时)。

模型的注意力参数是具有稀疏性的，并且注意力在若干epoch的训练之后，应该适当的缩小其变化的趋势(变化数值较小，作用不大甚至可能导致过拟合)。注意力的机制，保证了模型在对于不同维度的数据来源，采用了不同权重的数据聚合，而如果不采用注意力机制，则意味着模型对不同数据来源使用了相同的权重，即所有注意力的平均值。通过计算这个注意力值在不同数据维度的分布与平均值的分布之间差距(通过KL散度计算)，若差距大于人为设定的一个阈值，则认为这个注意力参数是有用的。该交通预测方法包括如下步骤：

输入观测的交通数据，依次经过全连接层和注意力层，计算注意力参数；模型是先经过全连接层，将不同时间周期的数据聚合在一起，再经过注意力层，注意力层实现使用基于Transformer架构，在注意层计算注意力参数的时候，使用基于KL散度的方法做度量值来剔除部分注意力参数的计算；

随机采样注意力参数，计算每组采样的注意力参数中的分布与平局分布的KL(KL表示相对熵、信息增益或信息散度)散度值；

根据差值Top-u，获取差值最大的多个注意力参数；获取差值最高的u个注意力，u是人为设定的一个值，这个值取的是logN，未被选中的注意力系数设为0；

使用一个4维(分别是空间上传感器节点两两之间的维度)的张量Φ∈R^B×T×N×N对获取的注意力参数同时进行空间和时间上的卷积，将卷积后的注意力参数输入全连接层，输出预测交通流量，其中，R表示实数集合，在这里是表示为一个实数张量矩阵，右上角的标表示矩阵的各个维度大小，这里是四个维度，维度大小分别是B、T、N、N，B为mini-batch(是小批梯度下降的一种方式，将数据划分为相同大小的多批数据，按照每批数据进行梯度更新)维度，T为一维时间维度，N×N为空间上的邻接矩阵维度。每层输入数据经过注意力层和时空卷积层之后，输入输出维度是一样的，便于叠加多层，输出的时间序列是将最后一个卷积层的输出输入进一个全连接层然后输出时间序列，也就是结构图中Output Layer。

本发明的一种优选方案中，计算注意力的值的方法：

定义一种基于(Q,K,V)三矩阵输入的规范自注意力：

其中，Q,K,V表示张量矩阵；Softmax()为分类函数，将多个输入的实数归一化为0至1的范围中，常用来表示概率，这里是用这个函数来表示注意力，从0到1表示不接受输入的注意力到全部接受输入的注意力；表示使用Q矩阵乘以K矩阵的转置，用矩阵来控制注意力得分，为了避免部分注意力为0，导致得到的注意力分布太大，在这里除以来做归一化；

对应的维度为L_Q，L_K，L_V分别表示Q，K，V的中间维度(输入到注意力层之前会经过一个单层全连接层，把输入变换成这个中间维度便于计算，这个维度一般是人为定义的)，R表示实数集合，这里是表示Q，K，V维张量矩阵，R后面的角标表示矩阵的维度数量和维度大小；L表示维度，由于Q，K，V在输入之后经过了单层全连接层，使用Linear线性层实现，所以简写为L；d为输入的维度；Query，Key，Value，这个是提出transformer的论文定义的，分别表示Query查询向量，Key关键特征，Value数据特征值，在实际应用中一般Q,K,V都是采用的相同的输入值，然后经过一层全连接层。

其中，概率概率p(k_j∣∣q_i)表示第i个query中在key中的注意力，V_j为矩阵V中的向量。计算概率是通过对矩阵Q和K做矩阵乘法来实现的，需要的时间复杂度为即二次的时间复杂度和内存消耗，这也是限制了提高长时间时序预测的主要原因。

由于观测到注意力系数所具有的稀疏性，即提出了STProbAttention实现，利用了注意力所具有的稀疏性，减少时间复杂度和内存消耗。在对注意力系数的观测中，发现注意力系数呈长尾分布，即大部分的注意力系数最后的结果是趋近于0，只有少数注意力系数的值具有意义，概率p(k_j∣∣q_i)指代了第i个query中在所以key中的注意力，若不使用注意力机制，则对于key中的每一行都具有相同的系数，即最后得到的注意力系数是key中所有行的平均值。而具有更重要作用的注意力系数，会使得自身的注意力系数尽可能大，使得最后得到的注意力系数的分布离均匀分布更可能的远。

计算KL散度值的方法如下：

为了得到更具有意义的值，对概率p和注意力参数理论值q进行比较得出差值，设置阈值h，当该差值大于阈值h，筛选出重要的概率p，即对Q中的元素做筛选，随机对Q中的每一行进行采样，再使用采样的值与平均分布做差值计算，然后得到Q中每行更有意义的元素值，从而筛选出Q中更有意义的注意力参数，使得Q矩阵变为稀疏矩阵：

当q和p的KL散度值越大，则意味着p越偏离平均分布，对最后得到的注意力系数越具有显著的作用。

获取注意力参数的概率分布与均匀分布之间的差值Top-u的方法如下：

但是在求时，需要对矩阵中的所有概率分布对产生计算，然后再求Top-u的值。为了进一步简化时间复杂度和空间复杂度，利用注意力参数的长尾分布，不需要将全部点对计算完毕(大部分都是0或是接近0的，不计算对最后的结果影响不大)。随机选取U＝L_QlnL_K(U是人为设定的一个值，在模型中设为Ln LQ)个概率分布对，计算U个概率分布与均匀分布之间的差值Top-u，并将差值Top-u填充入矩阵内，将矩阵内未填充的部分设置为0，矩阵变成一个稀疏矩阵，计算时间复杂度相对正常的矩阵大大减少。

通常情况下，对输入的(query，key,value)三个矩阵使用相同的维度L，则STProbAttention的时间和空间复杂度为比原来的复杂度降低了，从而能够接受更长的输入数据，并保留了Transfomer在的复杂度内访问到所有的时序节点，从而变相地提高了模型的感受野。

本发明的一种优选方案中，对获取的注意力参数同时进行空间和时间上的卷积的方法如下：

根据用于计算的部分注意力参数，得到在不同时间维度两两节点之间的注意力参数(包括自注意力)将注意力参数与归一化邻接矩阵做一个加权和，得到卷积的邻接矩阵，

Fast-GCN的实现方式如下：

其中，W₁和W₂表示两个可训练的参数，为注意力参数得到的邻接矩阵，Adj为现时交通路网结构得到的邻接矩阵，这两个矩阵通过可训练的参数聚合在一起；I_N∈R^N×N为单位矩阵，其中λ_max为矩阵L的最大的特征值，M为切比雪夫多项式的阶，C_m＝2LC_m-1-C_m-2，C₀＝I_N，g_θ表示卷积函数核，G(x)表示被卷积的图结构和图数据，x表示图中顶点和特征,g_θ(L)表示将图上的卷积操作转为基于拉普拉斯矩阵(L)实现的卷积操作,θ_m为第m阶多项式的可学习的系数,为切比雪夫多项式近似拉普拉斯矩阵的第m项的矩阵值,L为拉普拉斯矩阵,C_m-1为切比雪夫多项式近似拉普拉斯矩阵的第m-1项的矩阵值；

使用2阶切比雪夫多项式来实现GCN(图卷积网络)，对输入的邻接矩阵Φ在T维度上分别进行卷积，同时实现在不同时间上的不同空间卷积，实现动态的图卷积。

卷积后的注意力参数输入全连接层，全连接层输出预测的时间序列：

本发明还提供一种计算机介质，所述计算机介质内存储有可执行本发明所述的方法的程序。本方案使用了基于信息感知的注意力层，模型计算注意力的代价被降低了，并且时间复杂度也被降低了，从而能够输入更长的时间序列的数据，使得模型的感受野增加，长时间交通预测的预测效果被提升了。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于注意力改进的交通预测方法，其特征在于，包括如下步骤：

根据差值Top-u，获取差值最大的多个注意力参数；

使用一个4维的张量Φ∈R^B×T×N×N对获取的注意力参数同时进行空间和时间上的卷积，将卷积后的注意力参数输入全连接层，输出预测交通流量，其中，R表示实数张量矩阵，B为mini-batch维度，T为时间维度，N×N为空间上的邻接矩阵维度；

计算注意力的值的方法：

定义一种基于(Q,K,V)三矩阵输入的规范自注意力：

其中，Q,K,V表示张量矩阵；Softmax()为分类函数，表示使用Q矩阵乘以K矩阵的转置；

对应的维度为L_Q，L_K，L_V分别表示Q，K，V的中间维度，R表示实数张量矩阵，L表示维度，d为输入的维度；

其中，概率概率p(k_j∣∣q_i)表示第i个query中在key中的注意力，V_j为矩阵V中的向量；

计算KL散度值的方法如下：

所述获取注意力参数的概率分布与均匀分布之间的差值Top-u的方法如下：

利用注意力参数的长尾分布，随机选取U＝L_QlnL_K个概率分布对，计算U个概率分布与均匀分布之间的差值Top-u，并将差值Top-u填充入矩阵内，将矩阵内未填充的部分设置为0，矩阵变成一个稀疏矩阵；

对获取的注意力参数同时进行空间和时间上的卷积的方法如下：

Fast-GCN的实现方式如下：

2.如权利要求1所述的基于注意力改进的交通预测方法，其特征在于，卷积后的注意力参数输入全连接层，全连接层输出预测的时间序列：

3.一种计算机介质，其特征在于，所述计算机介质内存储有可执行权利要求1或2所述的方法的程序。