CN114519469A

CN114519469A - 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

Info

Publication number: CN114519469A
Application number: CN202210162689.2A
Authority: CN
Inventors: 郑林江; 龙颢
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-05-20
Anticipated expiration: 2042-02-22
Also published as: CN114519469B

Abstract

本发明公开了一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及提供一种基于Transformer框架的多变量长序列时间序列预测方法，以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。

Description

一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

技术领域

本发明涉及计算机数据处理技术及性能改进技术领域，特别涉及时间序列预测技术，具体为一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及预测方法。

背景技术

多变量时间序列预测已广泛应用于交通规划、能源消耗、金融管理、天气预报和疾病传播分析等场景中，不断重塑着现代社会。例如对交通流量进行预测以规划最佳行驶路线，对股票市场进行预测以设计最佳投资策略。在这些实际应用中，一个迫切的需求就是将预测时间延长到遥远的未来，这对于长期规划和预防警示有着重要的意义。进行准确的多变量长序列时间序列预测是一项具有挑战性的任务，不仅需要高效地处理长时间输入序列，而且需要同时考虑变量内相关性(即一个时间序列内的时间相关性)和变量间相关性(即单个变量的预测值受其他变量值的影响)。

然而，现有的研究大多着眼于短期场景下的预测。基于统计学习的时间序列预测方法，例如差分整合移动平均自回归ARIMA，风险价值模型VAR和高斯过程GP等模型通过分析序列的统计特征来推断未来的状态。尽管统计学习方法因其简单性和可解释性在以往的研究上应用广泛，但这类方法对时间序列的平稳性有着严格的要求，而且方法中的参数较少，大部分参数需要由研究人员设置而不是从数据中挖掘。因此，这类方法往往无法捕获到复杂的非线性模式。

基于机器学习的时间序列预测方法，例如支持向量回归SVR和K近邻算法KNN等模型可以较为灵活地捕获非线性的时间相关性。然而，这类方法大多依赖于手工特征，导致泛化能力较弱。

基于深度学习的时间序列预测方法，例如递归神经网络RNN，时间卷积网络TCN和基于注意力机制的RNN变体侧重于通过循环连接、因果卷积和时间注意力对时间相关性进行建模，具有更加强大的信息表示能力。但也有局限性，例如梯度消失问题，而且这些模型随着输入和预测长度的增加，性能将会受到干扰。

最近的研究表明，基于自注意力机制的Transformer模型在序列型数据上展现出了强悍的性能，在自然语言处理，音频处理，计算机视觉等领域都取得了巨大的成功。得益于自注意力机制的帮助，神经网络信号传播路径的最大长度理论上可以缩短至O(1)，使Transformer模型具有捕获序列全局时间相关性的能力，在序列数据的长期相关性建模上显示出了优于RNN类模型的性能。然而由于Transformer模型的计算复杂度和空间消耗高达O(L²)，与之带来的漫长的训练时间和昂贵的部署成本成为了将它们应用于长序列时间序列预测任务的瓶颈。针对这个问题，现有的工作侧重于降低注意力的计算成本。例如LogTrans将局部卷积引入到Transformer中，并提出了LogSparse注意力来选择指数级增长间隔后的时间步长，将模型的复杂度降低到了O(L log L)。Reformer提出了局部敏感哈希注意力，实现了O(L log L)的复杂度。Informer使用KL散度和ProbSparse注意力扩展了Transformer，并结合高效的编码器-解码器结构来处理输入和输出，从而将模型的复杂度降低到了O(L log L)，达到了最先进的性能。这些方法都基于Vanilla Transformer，并尝试将自注意力机制改进为稀疏版本。

但是仍然存在着一些问题限制了基于Transformer的多变量长序列时间序列预测模型的性能。任何多变量时间序列的实例都是由一个混合动态系统生成的，动态系统的混合性源于各种复杂的因素影响，这些影响同时决定了多变量时间序列未来的状态。例如每个变量不仅取决于其历史值，还取决于其他变量。然而，现有的长序列时间序列预测方法并不能有效利用变量之间潜在的空间相关性。

与此同时，图神经网络由于其排列不变性、局部连接性和图像合成性，在处理图类型数据方面表现出了良好的性能。为了捕获时间序列间动态的相关性，图神经网络通过在结构中传播信息，允许图中的每个节点知道其邻域上下文，也逐渐被用于时间序列预测中。由于相互关联的不同变量可以被视为图的不同节点，利用图神经网络对多变量时间序列进行建模是一种很有前途的方法。在大多数情况下，多变量时间序列并不存在显示的图结构，此时变量之间的关系需要从数据中挖掘，而不能作为事先已知的输入提供。即使对于这类时间序列预测任务，当提取隐式图结构时，也会产生显著的改进。然而现有的图神经网络模型在很大程度上依赖于预定义的图结构来进行时间序列预测，这意味着它们不能直接应用于纯多变量时间序列数据。

另一方面，近年来研究人员热衷于构建更加复杂的深度学习模型来提高预测的性能和效率，但却忽视了长序列时间序列相对稳定的时间模式。较长的时间序列蕴含着相对于短期序列来说更加明显的周期模式，尤其是在预测长度为时间序列周期整数倍的情况

发明内容

有鉴于此，本发明的第一方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法；本发明的第二方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测模型；本发明的第三方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测方法，以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。

本发明的第一发明的目的是通过以下技术方案实现的：

一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，所述方法包括如下步骤：

步骤1：处理数据集：对多变量时间序列数据进行数据处理操作，构建多变量时间序列数据集X；

步骤2：位置编码：将历史序列x^t输入Conv1d层转换为高维空间向量以增强表示能力，并与保持局部上下文信息的位置编码相加构成编码器的输入

步骤3：引入概率稀疏自注意力机制：利用KL散度度量自注意力机制原始查询Q的稀疏度M(q_i，K)，提取稀疏度最高的前u个查询形成稀疏查询矩阵

通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q，K，V)；

步骤4：构建基于自适应图学习和扩散图卷积的稀疏自注意力模块：学习一个查询嵌入字典

以自适应生成

的图结构G，经过扩散图卷积得到

利用稀疏注意力机制在

上寻找最主要的序列,提取序列之间的空间相关性；

步骤5：设计编码器：叠加多头注意力机制，基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层，采用传递机制拼接生成的不同尺度的特征图，以获得编码器的隐含表达；

步骤6：设计解码器：使用包含有2层基于图的稀疏自注意力模块的生成式解码器结构，最后使用全连接层获取预测序列

步骤7：训练模型：引入梯度中心化技术改进Adam优化器，设置所需的参数并训练模型。

进一步，所述步骤S1包括如下子步骤：

步骤1.1：对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法，构建多变量时间序列数据集X；

步骤1.2：对数据集X进行Z-score标准化；

步骤1.3：根据按照时间顺序，将数据集划分训练集、验证集和测试集，其中训练集占数据集的总量最多。

进一步，所述步骤2包括如下子步骤：

步骤2.1：使用位置编码技术处理输入序列x^t：

其中

d＝d_model为模型的维度，L_x为输入序列的长度；

步骤2.2：通过Conv1d操作，

投影为特征维数为d的向量

步骤2.3：编码器的输入

由

和位置编码构成：

其中i∈{1，...，L_x}。

进一步，所述步骤3包括如下子步骤：

步骤3.1：将输入

投影为查询向量Q,键向量K和值向量V以计算注意力分数A(X)，使用多头注意力机制从不同的线性子空间中挖掘信息：

MultiHead(X)＝Concat(W^k,A(X)_k)

其中

为投影操作的可学习参数，k为头数；

步骤3.2：从原始Q中随机选择U＝L_klnL_Q个点积对计算稀疏度M(q_i，K)，其中M(q_i，K)由KL散度进行度量，其计算公式为：

其中q_i，k_i，v_i分别代表Q,K和V的第i行；qK^T表示Active query与每个key进行点积，d代表输入维度，为超参数；

步骤3.3：提取稀疏度最高的前u＝clnL_Q个查询形成稀疏矩阵

其中c为固定的采样因子。通过将

中剩余对使用0进行填充，替换原始Q为相同尺寸的稀疏

步骤3.4：让所有的键都只和这u个主要的查询计算点积，再除以

并使用Softmax函数获取其权重,得到优化后的注意力分数A(Q，K，V)：

进一步，其中步骤4包括如下子步骤：

步骤4.1：在稀疏矩阵

上随机初始化一个可学习的查询嵌入字典

并分配给所有的查询；

步骤4.2：将

与

相乘，自适应地学习出图的邻接矩阵。同时使用非线性激活函数ELU，其计算公式为：

其中α是用于负部分饱和的可调节参数。然后通过Softmax函数对自适应矩阵进行标准化处理，总的计算过程为：

其中

为直接生成的图结构；

步骤4.3：利用一阶切比雪夫多项式拟合卷积核，建立输入为X，输出为Z的图卷积层，其计算公式为：

其中g_θ为卷积操作，

为图的自环归一化邻接矩阵，W为参数矩阵；

步骤4.4：将扩散卷积引入图卷积的形式，其计算公式为：

其中图G为反映自学习的稀疏空间矩阵

的图结构，G^m为图G上的第m步随机游动。

对原始稀疏矩阵

进行扩散图卷积操作，最终获得包含空间相关性的稀疏查询矩阵

总的计算过程为：

其中Θ为全部可学习的参数；

步骤4.5：度量

的稀疏度M_g(q_gi，K)：

其中q_gi为

中的第i个查询，对应的注意力分数A(Q，K，V)为：

进一步，所述步骤5的具体子步骤为：

步骤5.1：将

输入进步骤4所设计的基于图的稀疏自注意力模块，获得输出

步骤5.2：对

进行降采样操作，筛选出具有主导特征的特征图并输出至下一层，对于第i层输入为

的基于图的稀疏自注意力模块，进行的降采样操作可以描述为：

其中GS为步骤4所设计的基于图的稀疏自注意力模块，ConvDC为扩展因果卷积层，

为模块第i+1层的输入。通过降采样操作减半输入长度后，执行LayerNorm操作以规范化通道或维度间的输入；

步骤5.3：依次叠加基于图的稀疏自注意力模块和降采样层，最后一个基于图的稀疏自注意力模块后不需要添加降采样层。利用传递机制将所有模块生成的长度为_Lx/2^i-1、维度为d的特征图均等分割为长度为L_x/2^n-1的2^n-i个特征图(i∈{1，2，...，n})，以合并不同尺度的特征图，保持输出尺寸的一致性。

步骤5.4：通过一层过渡层，将拼接后特征图的维度从(2ⁿ-1)×d降低到d，获得编码器的隐含表达，传入解码器。

进一步，所述步骤6的具体子步骤为：

步骤6.1：拼接

和

为生成式解码器的输入

其中

为输入序列X^t中采样的长度为L_token的生成式起始标注，

为用0填充的预测序列；

步骤6.2：将

输入进一个2层的基于图的稀疏自注意力模块，第一层模块在使用

Softmax函数获取权重前，需要将当前时刻之后的点积设置为-∞，以避免自回归现象；

步骤6.3：添加一个全连接层，将解码器的输出转换为预测值

进一步，所述步骤7的具体子步骤为：

步骤7.1：设置损失函数为MSE；

步骤7.2：设置优化器为Adam，并使用梯度中心化技术对其进行改进，对于一个反向传播得到的梯度

为w_i的梯度向量，梯度中心化操作φ_GC的计算公式为：

其中

为梯度矩阵

第i列的梯度均值，L为损失函数，通过计算梯度矩阵列向量的均值，并从各个列向量减去其各自的均值，得到中心化后的梯度矩阵，获得中心化的梯度

后，直接用其更新权值矩阵，嵌入到Adam优化器中；

步骤7.3：设置模型参数，训练模型得到预测序列

本发明第二方面的目的是通过前述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法获得。

本发明第三方面的目的是通过以下技术方案获得：利用前述的一种基于Transformer框架的多变量长序列时间序列预测模型，组合模型输出与周期性序列为最终的预测值

评估预测性能。

本发明的有益效果是：

(1)提出模块化的基于自适应图学习和扩散图卷积的稀疏自注意力机制。根据自注意力机制的长尾分布特性，基于多变量时间序列数据自适应地学习稀疏图的邻接矩阵。改进的自适应图学习层将主导查询映射为低维图结构后，使用扩散图卷积层提取主导查询之间的相关性。通过将基于自适应图学习和扩散图卷积的稀疏查询替代传统自注意力机制中的完整查询，实现了图卷积操作和稀疏自注意力机制的紧密耦合，有效捕获了变量之间潜在的空间相关性，增强了模型的学习能力，同时降低了计算成本和内存消耗。

(2)设计嵌入基于图的稀疏自注意力模块的编码器结构。使用扩展因果卷积替代Conv1d连接基于自适应图学习和扩散图卷积的稀疏自注意力模块，以几乎可以忽略不计的计算成本带来指数级的感受野增长，增强了模型的学习能力；同时缩短了模块的输入长度，有利于筛选出具有主导特征的特征图，保持长序列时间序列中主导查询的权重，也避免了内存瓶颈。将传递机制应用于合并不同尺度的稀疏自注意力模块的特征图，从而获得粒度更加精细的信息，在无需额外计算成本的基础上提高了模型的预测性能。

(3)采用集成生成式接口的解码器结构。通过一次前向过程获取整个输出序列，提升了模型的推理速度，减少了长期预测的误差积累。

(4)使用梯度中心化改进的Adam优化器。通过中心化操作直接对梯度进行计算后用其直接更新权值矩阵，嵌入到Adam优化器中，从而平滑并加速了训练过程，提高了模型泛化能力。

(5)考虑长序列时间序列的时间模式。当给定一个特定的数据集时，通过分析其时间模式，当预测值和真实值的相位相似度较高时组合模型和周期性预测，提高了长期预测的精确度。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为本发明基于Transformer框架的多变量长序列时间序列预测方法的流程图。

具体实施方式

以下将参照附图，对本发明的优选实施例进行详细的描述。应当理解，优选实施例仅为了说明本发明，而不是为了限制本发明的保护范围。

如图1所示，本发明一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，包括如下步骤：

步骤1：处理数据集：具体包括以下子步骤：

步骤1.1：对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法，构建多变量时间序列数据集：

其中

为时间步t处特征维数为d_x(d_x＞1)的多变量值，

为时间步t处第i维变量的值，L_x为输入的历史时间序列的长度，L_y为预测的未来时间序列的范围，长序列时间序列预测鼓励较长的L_x和L_y；

步骤1.2：对数据集X进行Z-score标准化，其转化函数为：

其中μ为所有样本数据的均值，σ为所有样本数据的标准差；

步骤1.3：根据按照时间顺序，划分数据集为训练集、验证集和测试集，本实施例中，划分数据集X^*的前60％为训练集，20％为验证集，最后20％为测试集。

步骤2：进行位置编码，将历史序列x^t输入Conv1d层转换为高维空间向量以增强表示能力，并与保持局部上下文信息的位置编码相加构成编码器的输入

具体包括以下子步骤：

步骤2.1：对时间步t处输入维度为d_model的输入序列x^t使用Position Embedding保持其局部上下文信息，其计算公式为：

其中

d_model设置为512以增强模型的表示能力。

步骤2.2：对标量上下文

进行Conv1d处理以便于维度对齐，设置kernel size为3,stride为1。Conv1d是对一个N批长度为L，通道或维度数量为C的1D数组进行卷积操作的运算，其计算公式为：

经过Conv1d处理后，

投影到了特征维数为d的向量

中。

步骤2.3：最终馈入编码器的向量

由向量

和Position Embedding构成：

其中i∈{1，...，L_x}。

具体包括以下子步骤：

步骤3.1：使用多头注意力机制从

不同的线性子空间中挖掘信息：通过

k个不同的线性变换投影，将输入投影为查询向量

键向量

值向量

以计算注意力分数A(X)，最后对每个头的A(X)进行拼接操作，其计算公式为：

MultiHead(X)＝Concat(W^h,A(X)_h)

其中

为投影操作的可学习参数，k为头数，设置为8。将点积计算得到的第i个查询的注意力分数A(q_i，K，V)转换为概率形式，其计算公式为：

其中q_i，k_i，v_i分别代表Q,K和V的第i行，p(k_j|q_i)＝k(q_i，k_j)/∑_lk(q_i，k_l)。

步骤3.2：根据自注意力机制的长尾分布特性，即少数的点积对吸引了主要的注意，其余点积对只吸引次要的注意，从原始Q中随机选择U＝L_klnL_Q个点积对计算稀疏度M(q_i，K)，其中M(q_i，K)由KL散度进行度量，其计算公式为：

步骤3.3：提取稀疏度最高的前u＝clnL_Q个查询形成稀疏矩阵

其中c为固定的采样因子,d_s为稀疏处理后的隐藏维度。通过将

中剩余对使用0进行填充，替换原始Q为相同尺寸的稀疏

以存储全局信息，使时间复杂度和空间使用量降低至O(LlnL)。

以自适应生成

的图结构G，经过扩散图卷积得到

利用稀疏注意力机制在

上寻找最主要的序列,提取序列之间的空间相关性。具体包括以下子步骤：

步骤4.1：在稀疏矩阵

上随机初始化一个可学习的查询嵌入字典

并分配给所有的查询，其中

的每行都代表一个表示为查询的节点嵌入。在训练过程中

将自动更新，便于学习序列间复杂的相关性。

步骤4.2：将

与

相乘，元素(i，j)为节点i和节点j嵌入向量的内积，它表示节点间的相似度，据此挖掘出每对节点间潜在的相关性，自适应地学习出图的邻接矩阵。同时使用非线性激活函数ELU消除弱连接，加快收敛速度，其计算公式为：

其中α是用于负部分饱和的可调节参数，x＞0时的线性特征使ELU避免梯度消失问题，x≤0时的函数特征使ELU更具鲁棒性。

然后通过Softmax函数对自适应矩阵进行标准化处理，其转化函数为：

它表示X中第i个元素的指数与所有元素指数和的比值。输出为直接生成的

总的计算过程为：

步骤4.3：利用一阶切比雪夫多项式拟合卷积核，建立输入为

输出为

的图卷积层，旨在融合节点的邻域信息，处理图结构中的空间相关性，其计算公式为：

其中g_θ为卷积操作，

为图的自环归一化邻接矩阵，即

为参数矩阵。

步骤4.4：通过使用m个有限步模拟图信号的扩散过程，将扩散卷积引入图卷积的形式，扩散图卷积的计算公式为：

其中图

为反映自学习的稀疏空间矩阵

的图结构，G^m为图上的第m步随机游动，

m设置为2。

根据步骤4.2的计算结果，对原始稀疏矩阵

总的计算过程为：

其中Θ为全部可学习的参数。

步骤4.5：根据步骤3.2的KL散度方法，度量

的稀疏度M_g(q_gi，K)，其计算公式为：

其中q_gi为

中的第i个查询。随后根据步骤3.4的稀疏自注意力机制，在序列的图结构中寻找最活跃的序列，计算注意力分数A(Q，K，V)：

步骤4所设计的基于自适应图学习和扩散图卷积的稀疏自注意力模块相较于图自注意力机制降低了复杂度，同时能够有效提取出时间序列之间潜在的空间相关性。

步骤5：设计编码器，叠加多头注意力机制，基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层，采用传递机制拼接生成的不同尺度的特征图，以获得编码器的隐含表达；具体包括以下子步骤：

步骤5.1：将历史向量

输入进步骤4所设计的基于图的稀疏自注意力模块：首先经过多头注意力机制和稀疏自注意力机制处理后生成稀疏查询并自适应地学习其图结构，随后利用扩散图卷积提取模块内部的空间信息，最终转换为

形式的输出。

步骤5.2：对

进行降采样操作，筛选出具有主导特征的特征图并输出至下一层。首先使用扩展的因果卷积处理输入，有利于特征对局部上下文信息的学习，同时获得指数级的感受野增长。对于核大小为k的第i层卷积层，进行的扩展因果卷积操作ConvDC可以描述为：

其中

n∈L_x，d^*为输出维度，i为膨胀因子。第i层扩展因果卷积层为每两个相邻的filter间都跳过2^i-1-1个元素，时刻t处的元素

仅与t处或之前的元素卷积。

随后执行MaxPool操作以降低当前模块的隐藏维度，同时标记局部主导特征，设置stride为2。MaxPool是对一个N批长度为L，通道或维度数量为C的1D数组的运算，其计算公式为：

对于第i层输入为

其中GS为步骤4所设计的基于图的稀疏自注意力模块，

为模块第

i+1层的输入。通过降采样操作减半输入长度后，执行LayerNorm操作以规范化通道或维度间的输入，其计算公式为：

步骤5.3：依次叠加第i个基于图的稀疏自注意力模块和降采样层，最后一个基于图的稀疏自注意力模块后不需要添加降采样层。实验设置中编码器包含有一个3层的基于图的稀疏自注意力模块，输入长度分别为L_x、L_x/2和L_x/4。

使用传递机制优化不同尺度的基于图的稀疏自注意力模块的特征图的连接，将所有模块生成的长度为L_x/2^i-1、维度为d的特征图均等分割为长度为L_x/2^n-1的2^n-i个特征图(i∈{1，2，...，n})，以合并不同尺度的特征图，保持输出尺寸的一致性，无需额外计算成本便能获得粒度更为精细的信息。

步骤5.4：通过一层过渡层，将拼接后特征图的维度从(2^n-1)×d降低到d，获得编码器的隐含表达，传入解码器。

本实施例中，实验设置中编码器包含有一个3层的基于图的稀疏自注意力堆栈(输入长度为L_x)，一个2层的基于图的稀疏自注意力堆栈(输入长度为L_x/2)和一个1层的基于图的稀疏自注意力堆栈(输入长度为L_x/4)。

步骤5.4：拼接全部堆栈最终输出的特征图，获得编码器的隐含表达，传入解码器。

步骤6：设计解码器：具体包括以下子步骤：

步骤6.1：在输入序列X^t中采样一个长度为L_token的序列

表示生成式的起始标注；采样另一个包含预测序列上下文的序列

表示用0填充的预测序列。拼接

和

为生成式解码器的输入

其计算公式为：

步骤6.2：将

输入进一个2层的基于图的稀疏自注意力模块，其中第一层模块在使用Softmax函数获取权重前，需要将当前时刻之后的点积设置为-∞，以避免自回归现象；第二层模块除了接收第一层的输出以外，还需要接收编码器的隐含表达。

步骤6.3：由于生成式推理避免了动态解码过程，仅通过一次前向过程获取整个输出序列，提升了模型的推理速度，减少了长期预测的误差积累。最后添加一个全连接层，将解码器的输出转换为预测值

步骤7：训练模型：具体包括以下子步骤：

步骤7.1：设置损失函数为MSE，其计算公式为：

其中n为样本数，

为预测值，y为真实值。

步骤7.2：设置优化器为Adam，并使用梯度中心化技术对其进行改进。首先对于一个反向传播得到的梯度

为w_i的梯度向量，梯度中心化操作φ_GC的计算公式为：

其中

为梯度矩阵

第i列的梯度均值，L为损失函数。通过计算梯度矩阵列向量的均值，并从各个列向量减去其各自的均值，得到中心化后的梯度矩阵，当表示为矩阵运算的形式：

其中P＝I-ee^T为与W相同大小的超平面上的投影矩阵，I为大小为M×M的单位矩阵，E为一个大小为M×1的单位向量。获得中心化的梯度

后，直接用其更新权值矩阵，嵌入到Adam优化器中，达到平滑并加速训练过程、提高模型泛化能力的目的。

步骤7.3：设置批尺寸、初始学习率、学习率每代衰减(本实施例中，采用的是批尺寸为32，初始学习率为0.0001，学习率每代衰减1/2，1111·，)，添加早停机制，使用网格搜索策略寻找其他最优超参数。训练模型得到预测序列

通过上述方法得到预测模型后，通过该模型进行序列预测的预测方法是组合模型输出与周期性序列为最终的预测值

评估预测性能。具体表现为以下子步骤：

步骤7.4：若数据集中的长序列时间序列具有相对稳定的时间模式，则划分输入序列X^t中最近的长度为L_y的序列为

可以表示为：

蕴含着长序列时间序列的周期模式和“惯性”特征，将其与模型输出

进行加权求和获得最终的预测值

求和的权重设置为0.2/0.8。

步骤7.5：设置评价指标为MSE及MAE，用于评估本方法的预测性能，MSE的计算公式已在步骤7.1介绍，MAE的计算公式为：

本发明中，其中n单独出现时均表示样本总数，作为上下标出现均表示样本总数的代号；

应当认识到，本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现，其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而，若需要，该程序可以以汇编或机器语言实现。在任何情况下，该语言可以是编译或解释的语言。此外，为此目的该程序能够在编程的专用集成电路上运行。

此外，可按任何合适的顺序来执行本文描述的过程的操作，除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行，并且可作为共同地在一个或多个处理器上执行的代码(例如，可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。

进一步，所述方法可以在可操作地连接至合适的任何类型的计算平台中实现，包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现，无论是可移动的还是集成至计算平台，如硬盘、光学读取和/或写入存储介质、RAM、ROM等，使得其可由可编程计算机读取，当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外，机器可读代码，或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时，本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的的方法和技术编程时，本发明还包括计算机本身。

计算机程序能够应用于输入数据以执行本文所述的功能，从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中，转换的数据表示物理和有形的对象，包括显示器上产生的物理和有形对象的特定视觉描绘。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述方法包括如下步骤：

步骤2：位置编码：将历史序列x^t输入Convld层转换为高维空间向量以增强表示能力，并与保持局部上下文信息的位置编码相加构成编码器的输入

以自适应生成

的图结构G，经过扩散图卷积得到

利用稀疏注意力机制在

上寻找最主要的序列，提取序列之间的空间相关性；

步骤6：设计解码器：使用包含有不少于2层的基于图的稀疏自注意力模块的生成式解码器结构，最后使用全连接层获取预测序列

2.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤S1包括如下子步骤：

步骤1.2：对数据集X进行Z-score标准化；

3.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤2包括如下子步骤：

步骤2.1：使用位置编码技术处理输入序列x^t：

其中

d_model为模型的维度，L_x为输入序列的长度，pos为当前数据在输入序列x^t中的位置；

步骤2.2：通过Convld操作，

投影为特征维数为d的向量

步骤2.3：编码器的输入

由

和位置编码构成：

其中i∈{1，...，L_x}。

4.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤3包括如下子步骤：

步骤3.1：将输入

投影为查询向量Q，键向量K和值向量V以计算注意力分数A(X)，使用多头注意力机制从不同的线性子空间中挖掘信息：

MultiHead(X)＝Concat(W^k，A(X)_k)

其中

为投影操作的可学习参数，k为头数；

其中q_i，k_i，v_i分别表示Q，K和V的第i行，d为输入维度；

步骤3.3：提取稀疏度最高的前u＝clnL_Q个查询形成稀疏矩阵

其中c为固定的采样因子；通过将

中剩余对使用0进行填充，替换原始Q为相同尺寸的稀疏

并使用Softmax函数获取其权重，得到优化后的注意力分数A(Q，K，V)：

5.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：其中步骤4包括如下子步骤：

步骤4.1：在稀疏矩阵

上随机初始化一个可学习的查询嵌入字典

并分配给所有的查询；

步骤4.2：将

与

相乘，自适应地学习出图的邻接矩阵，同时使用非线性激活函数ELU，其计算公式为：

其中α是用于负部分饱和的可调节参数，然后通过Softmax函数对自适应矩阵进行标准化处理，总的计算过程为：

其中

为直接生成的图结构；

其中g_θ为卷积操作，

为图的自环归一化邻接矩阵，W为参数矩阵；

步骤4.4：将扩散卷积引入图卷积的形式，其计算公式为：

其中图G为反映自学习的稀疏空间矩阵

的图结构，G^m为图G上的第m步随机游动；

对原始稀疏矩阵

总的计算过程为：

其中Θ为全部可学习的参数；

步骤4.5：度量

的稀疏度M_g(q_gi，K)：

其中q_gi为

中的第i个查询，对应的注意力分数A(Q，K，V)为：

6.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤5的具体子步骤为：

步骤5.1：将

输入进步骤4所设计的基于图的稀疏自注意力模块，获得输出

步骤5.2：对

为模块第i+1层的输入，通过降采样操作减半输入长度后，执行LayerNorm操作以规范化通道或维度间的输入；

步骤5.3：依次叠加基于图的稀疏自注意力模块和降采样层，最后一个基于图的稀疏自注意力模块后不需要添加降采样层，利用传递机制将所有模块生成的长度为L_x/2^i-1、维度为d的特征图均等分割为长度为L_x/2^n-1的2^n-i个特征图(i∈{1，2，...，n})，以合并不同尺度的特征图，保持输出尺寸的一致性；

7.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法，其特征在于：所述步骤6的具体子步骤为：

步骤6.1：拼接