CN114519469A - 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 - Google Patents

一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 Download PDF

Info

Publication number
CN114519469A
CN114519469A CN202210162689.2A CN202210162689A CN114519469A CN 114519469 A CN114519469 A CN 114519469A CN 202210162689 A CN202210162689 A CN 202210162689A CN 114519469 A CN114519469 A CN 114519469A
Authority
CN
China
Prior art keywords
sequence
multivariate
graph
long
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210162689.2A
Other languages
English (en)
Other versions
CN114519469B (zh
Inventor
郑林江
龙颢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210162689.2A priority Critical patent/CN114519469B/zh
Publication of CN114519469A publication Critical patent/CN114519469A/zh
Application granted granted Critical
Publication of CN114519469B publication Critical patent/CN114519469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及提供一种基于Transformer框架的多变量长序列时间序列预测方法,以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。

Description

一种基于Transformer框架的多变量长序列时间序列预测模 型的构建方法
技术领域
本发明涉及计算机数据处理技术及性能改进技术领域,特别涉及时间序列预测技术,具体为一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及预测方法。
背景技术
多变量时间序列预测已广泛应用于交通规划、能源消耗、金融管理、天气预报和疾病传播分析等场景中,不断重塑着现代社会。例如对交通流量进行预测以规划最佳行驶路线,对股票市场进行预测以设计最佳投资策略。在这些实际应用中,一个迫切的需求就是将预测时间延长到遥远的未来,这对于长期规划和预防警示有着重要的意义。进行准确的多变量长序列时间序列预测是一项具有挑战性的任务,不仅需要高效地处理长时间输入序列,而且需要同时考虑变量内相关性(即一个时间序列内的时间相关性)和变量间相关性(即单个变量的预测值受其他变量值的影响)。
然而,现有的研究大多着眼于短期场景下的预测。基于统计学习的时间序列预测方法,例如差分整合移动平均自回归ARIMA,风险价值模型VAR和高斯过程GP等模型通过分析序列的统计特征来推断未来的状态。尽管统计学习方法因其简单性和可解释性在以往的研究上应用广泛,但这类方法对时间序列的平稳性有着严格的要求,而且方法中的参数较少,大部分参数需要由研究人员设置而不是从数据中挖掘。因此,这类方法往往无法捕获到复杂的非线性模式。
基于机器学习的时间序列预测方法,例如支持向量回归SVR和K近邻算法KNN等模型可以较为灵活地捕获非线性的时间相关性。然而,这类方法大多依赖于手工特征,导致泛化能力较弱。
基于深度学习的时间序列预测方法,例如递归神经网络RNN,时间卷积网络TCN和基于注意力机制的RNN变体侧重于通过循环连接、因果卷积和时间注意力对时间相关性进行建模,具有更加强大的信息表示能力。但也有局限性,例如梯度消失问题,而且这些模型随着输入和预测长度的增加,性能将会受到干扰。
最近的研究表明,基于自注意力机制的Transformer模型在序列型数据上展现出了强悍的性能,在自然语言处理,音频处理,计算机视觉等领域都取得了巨大的成功。得益于自注意力机制的帮助,神经网络信号传播路径的最大长度理论上可以缩短至O(1),使Transformer模型具有捕获序列全局时间相关性的能力,在序列数据的长期相关性建模上显示出了优于RNN类模型的性能。然而由于Transformer模型的计算复杂度和空间消耗高达O(L2),与之带来的漫长的训练时间和昂贵的部署成本成为了将它们应用于长序列时间序列预测任务的瓶颈。针对这个问题,现有的工作侧重于降低注意力的计算成本。例如LogTrans将局部卷积引入到Transformer中,并提出了LogSparse注意力来选择指数级增长间隔后的时间步长,将模型的复杂度降低到了O(L log L)。Reformer提出了局部敏感哈希注意力,实现了O(L log L)的复杂度。Informer使用KL散度和ProbSparse注意力扩展了Transformer,并结合高效的编码器-解码器结构来处理输入和输出,从而将模型的复杂度降低到了O(L log L),达到了最先进的性能。这些方法都基于Vanilla Transformer,并尝试将自注意力机制改进为稀疏版本。
但是仍然存在着一些问题限制了基于Transformer的多变量长序列时间序列预测模型的性能。任何多变量时间序列的实例都是由一个混合动态系统生成的,动态系统的混合性源于各种复杂的因素影响,这些影响同时决定了多变量时间序列未来的状态。例如每个变量不仅取决于其历史值,还取决于其他变量。然而,现有的长序列时间序列预测方法并不能有效利用变量之间潜在的空间相关性。
与此同时,图神经网络由于其排列不变性、局部连接性和图像合成性,在处理图类型数据方面表现出了良好的性能。为了捕获时间序列间动态的相关性,图神经网络通过在结构中传播信息,允许图中的每个节点知道其邻域上下文,也逐渐被用于时间序列预测中。由于相互关联的不同变量可以被视为图的不同节点,利用图神经网络对多变量时间序列进行建模是一种很有前途的方法。在大多数情况下,多变量时间序列并不存在显示的图结构,此时变量之间的关系需要从数据中挖掘,而不能作为事先已知的输入提供。即使对于这类时间序列预测任务,当提取隐式图结构时,也会产生显著的改进。然而现有的图神经网络模型在很大程度上依赖于预定义的图结构来进行时间序列预测,这意味着它们不能直接应用于纯多变量时间序列数据。
另一方面,近年来研究人员热衷于构建更加复杂的深度学习模型来提高预测的性能和效率,但却忽视了长序列时间序列相对稳定的时间模式。较长的时间序列蕴含着相对于短期序列来说更加明显的周期模式,尤其是在预测长度为时间序列周期整数倍的情况
发明内容
有鉴于此,本发明的第一方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法;本发明的第二方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测模型;本发明的第三方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测方法,以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。
本发明的第一发明的目的是通过以下技术方案实现的:
一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,所述方法包括如下步骤:
步骤1:处理数据集:对多变量时间序列数据进行数据处理操作,构建多变量时间序列数据集X;
步骤2:位置编码:将历史序列xt输入Conv1d层转换为高维空间向量以增强表示能力,并与保持局部上下文信息的位置编码相加构成编码器的输入
Figure BDA0003515455340000031
步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(qi,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵
Figure BDA0003515455340000032
通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);
步骤4:构建基于自适应图学习和扩散图卷积的稀疏自注意力模块:学习一个查询嵌入字典
Figure BDA0003515455340000033
以自适应生成
Figure BDA0003515455340000034
的图结构G,经过扩散图卷积得到
Figure BDA0003515455340000035
利用稀疏注意力机制在
Figure BDA0003515455340000036
上寻找最主要的序列,提取序列之间的空间相关性;
步骤5:设计编码器:叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;
步骤6:设计解码器:使用包含有2层基于图的稀疏自注意力模块的生成式解码器结构,最后使用全连接层获取预测序列
Figure BDA0003515455340000037
步骤7:训练模型:引入梯度中心化技术改进Adam优化器,设置所需的参数并训练模型。
进一步,所述步骤S1包括如下子步骤:
步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集X;
步骤1.2:对数据集X进行Z-score标准化;
步骤1.3:根据按照时间顺序,将数据集划分训练集、验证集和测试集,其中训练集占数据集的总量最多。
进一步,所述步骤2包括如下子步骤:
步骤2.1:使用位置编码技术处理输入序列xt
Figure BDA0003515455340000041
Figure BDA0003515455340000042
其中
Figure BDA0003515455340000043
d=dmodel为模型的维度,Lx为输入序列的长度;
步骤2.2:通过Conv1d操作,
Figure BDA0003515455340000044
投影为特征维数为d的向量
Figure BDA0003515455340000045
步骤2.3:编码器的输入
Figure BDA0003515455340000046
Figure BDA0003515455340000047
和位置编码构成:
Figure BDA0003515455340000048
其中i∈{1,...,Lx}。
进一步,所述步骤3包括如下子步骤:
步骤3.1:将输入
Figure BDA0003515455340000049
投影为查询向量Q,键向量K和值向量V以计算注意力分数A(X),使用多头注意力机制从不同的线性子空间中挖掘信息:
MultiHead(X)=Concat(Wk,A(X)k)
其中
Figure BDA00035154553400000410
为投影操作的可学习参数,k为头数;
步骤3.2:从原始Q中随机选择U=LklnLQ个点积对计算稀疏度M(qi,K),其中M(qi,K)由KL散度进行度量,其计算公式为:
Figure BDA00035154553400000411
其中qi,ki,vi分别代表Q,K和V的第i行;qKT表示Active query与每个key进行点积,d代表输入维度,为超参数;
步骤3.3:提取稀疏度最高的前u=clnLQ个查询形成稀疏矩阵
Figure BDA00035154553400000412
其中c为固定的采样因子。通过将
Figure BDA00035154553400000413
中剩余对使用0进行填充,替换原始Q为相同尺寸的稀疏
Figure BDA00035154553400000414
步骤3.4:让所有的键都只和这u个主要的查询计算点积,再除以
Figure BDA00035154553400000415
并使用Softmax函数获取其权重,得到优化后的注意力分数A(Q,K,V):
Figure BDA0003515455340000051
进一步,其中步骤4包括如下子步骤:
步骤4.1:在稀疏矩阵
Figure BDA0003515455340000052
上随机初始化一个可学习的查询嵌入字典
Figure BDA0003515455340000053
并分配给所有的查询;
步骤4.2:将
Figure BDA0003515455340000054
Figure BDA0003515455340000055
相乘,自适应地学习出图的邻接矩阵。同时使用非线性激活函数ELU,其计算公式为:
Figure BDA0003515455340000056
其中α是用于负部分饱和的可调节参数。然后通过Softmax函数对自适应矩阵进行标准化处理,总的计算过程为:
Figure BDA0003515455340000057
其中
Figure BDA0003515455340000058
为直接生成的图结构;
步骤4.3:利用一阶切比雪夫多项式拟合卷积核,建立输入为X,输出为Z的图卷积层,其计算公式为:
Figure BDA0003515455340000059
其中gθ为卷积操作,
Figure BDA00035154553400000510
为图的自环归一化邻接矩阵,W为参数矩阵;
步骤4.4:将扩散卷积引入图卷积的形式,其计算公式为:
Figure BDA00035154553400000511
其中图G为反映自学习的稀疏空间矩阵
Figure BDA00035154553400000512
的图结构,Gm为图G上的第m步随机游动。
对原始稀疏矩阵
Figure BDA00035154553400000513
进行扩散图卷积操作,最终获得包含空间相关性的稀疏查询矩阵
Figure BDA00035154553400000514
总的计算过程为:
Figure BDA00035154553400000515
其中Θ为全部可学习的参数;
步骤4.5:度量
Figure BDA00035154553400000516
的稀疏度Mg(qgi,K):
Figure BDA00035154553400000517
其中qgi
Figure BDA00035154553400000518
中的第i个查询,对应的注意力分数A(Q,K,V)为:
Figure BDA0003515455340000061
进一步,所述步骤5的具体子步骤为:
步骤5.1:将
Figure BDA0003515455340000062
输入进步骤4所设计的基于图的稀疏自注意力模块,获得输出
Figure BDA0003515455340000063
步骤5.2:对
Figure BDA0003515455340000064
进行降采样操作,筛选出具有主导特征的特征图并输出至下一层,对于第i层输入为
Figure BDA0003515455340000065
的基于图的稀疏自注意力模块,进行的降采样操作可以描述为:
Figure BDA0003515455340000066
其中GS为步骤4所设计的基于图的稀疏自注意力模块,ConvDC为扩展因果卷积层,
Figure BDA0003515455340000067
为模块第i+1层的输入。通过降采样操作减半输入长度后,执行LayerNorm操作以规范化通道或维度间的输入;
步骤5.3:依次叠加基于图的稀疏自注意力模块和降采样层,最后一个基于图的稀疏自注意力模块后不需要添加降采样层。利用传递机制将所有模块生成的长度为Lx/2i-1、维度为d的特征图均等分割为长度为Lx/2n-1的2n-i个特征图(i∈{1,2,...,n}),以合并不同尺度的特征图,保持输出尺寸的一致性。
步骤5.4:通过一层过渡层,将拼接后特征图的维度从(2n-1)×d降低到d,获得编码器的隐含表达,传入解码器。
进一步,所述步骤6的具体子步骤为:
步骤6.1:拼接
Figure BDA00035154553400000615
Figure BDA0003515455340000068
为生成式解码器的输入
Figure BDA0003515455340000069
Figure BDA00035154553400000610
其中
Figure BDA00035154553400000611
为输入序列Xt中采样的长度为Ltoken的生成式起始标注,
Figure BDA00035154553400000612
为用0填充的预测序列;
步骤6.2:将
Figure BDA00035154553400000613
输入进一个2层的基于图的稀疏自注意力模块,第一层模块在使用
Softmax函数获取权重前,需要将当前时刻之后的点积设置为-∞,以避免自回归现象;
步骤6.3:添加一个全连接层,将解码器的输出转换为预测值
Figure BDA00035154553400000614
进一步,所述步骤7的具体子步骤为:
步骤7.1:设置损失函数为MSE;
步骤7.2:设置优化器为Adam,并使用梯度中心化技术对其进行改进,对于一个反向传播得到的梯度
Figure BDA0003515455340000071
为wi的梯度向量,梯度中心化操作φGC的计算公式为:
Figure BDA0003515455340000072
其中
Figure BDA0003515455340000073
为梯度矩阵
Figure BDA0003515455340000074
第i列的梯度均值,L为损失函数,通过计算梯度矩阵列向量的均值,并从各个列向量减去其各自的均值,得到中心化后的梯度矩阵,获得中心化的梯度
Figure BDA0003515455340000075
后,直接用其更新权值矩阵,嵌入到Adam优化器中;
步骤7.3:设置模型参数,训练模型得到预测序列
Figure BDA0003515455340000076
本发明第二方面的目的是通过前述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法获得。
本发明第三方面的目的是通过以下技术方案获得:利用前述的一种基于Transformer框架的多变量长序列时间序列预测模型,组合模型输出与周期性序列为最终的预测值
Figure BDA0003515455340000077
评估预测性能。
本发明的有益效果是:
(1)提出模块化的基于自适应图学习和扩散图卷积的稀疏自注意力机制。根据自注意力机制的长尾分布特性,基于多变量时间序列数据自适应地学习稀疏图的邻接矩阵。改进的自适应图学习层将主导查询映射为低维图结构后,使用扩散图卷积层提取主导查询之间的相关性。通过将基于自适应图学习和扩散图卷积的稀疏查询替代传统自注意力机制中的完整查询,实现了图卷积操作和稀疏自注意力机制的紧密耦合,有效捕获了变量之间潜在的空间相关性,增强了模型的学习能力,同时降低了计算成本和内存消耗。
(2)设计嵌入基于图的稀疏自注意力模块的编码器结构。使用扩展因果卷积替代Conv1d连接基于自适应图学习和扩散图卷积的稀疏自注意力模块,以几乎可以忽略不计的计算成本带来指数级的感受野增长,增强了模型的学习能力;同时缩短了模块的输入长度,有利于筛选出具有主导特征的特征图,保持长序列时间序列中主导查询的权重,也避免了内存瓶颈。将传递机制应用于合并不同尺度的稀疏自注意力模块的特征图,从而获得粒度更加精细的信息,在无需额外计算成本的基础上提高了模型的预测性能。
(3)采用集成生成式接口的解码器结构。通过一次前向过程获取整个输出序列,提升了模型的推理速度,减少了长期预测的误差积累。
(4)使用梯度中心化改进的Adam优化器。通过中心化操作直接对梯度进行计算后用其直接更新权值矩阵,嵌入到Adam优化器中,从而平滑并加速了训练过程,提高了模型泛化能力。
(5)考虑长序列时间序列的时间模式。当给定一个特定的数据集时,通过分析其时间模式,当预测值和真实值的相位相似度较高时组合模型和周期性预测,提高了长期预测的精确度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明基于Transformer框架的多变量长序列时间序列预测方法的流程图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,本发明一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,包括如下步骤:
步骤1:处理数据集:具体包括以下子步骤:
步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集:
Figure BDA0003515455340000081
其中
Figure BDA0003515455340000082
为时间步t处特征维数为dx(dx>1)的多变量值,
Figure BDA0003515455340000083
为时间步t处第i维变量的值,Lx为输入的历史时间序列的长度,Ly为预测的未来时间序列的范围,长序列时间序列预测鼓励较长的Lx和Ly
步骤1.2:对数据集X进行Z-score标准化,其转化函数为:
Figure BDA0003515455340000084
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
步骤1.3:根据按照时间顺序,划分数据集为训练集、验证集和测试集,本实施例中,划分数据集X*的前60%为训练集,20%为验证集,最后20%为测试集。
步骤2:进行位置编码,将历史序列xt输入Conv1d层转换为高维空间向量以增强表示能力,并与保持局部上下文信息的位置编码相加构成编码器的输入
Figure BDA0003515455340000091
具体包括以下子步骤:
步骤2.1:对时间步t处输入维度为dmodel的输入序列xt使用Position Embedding保持其局部上下文信息,其计算公式为:
Figure BDA0003515455340000092
Figure BDA0003515455340000093
其中
Figure BDA0003515455340000094
dmodel设置为512以增强模型的表示能力。
步骤2.2:对标量上下文
Figure BDA0003515455340000095
进行Conv1d处理以便于维度对齐,设置kernel size为3,stride为1。Conv1d是对一个N批长度为L,通道或维度数量为C的1D数组进行卷积操作的运算,其计算公式为:
Figure BDA0003515455340000096
经过Conv1d处理后,
Figure BDA0003515455340000097
投影到了特征维数为d的向量
Figure BDA00035154553400000916
中。
步骤2.3:最终馈入编码器的向量
Figure BDA0003515455340000098
由向量
Figure BDA0003515455340000099
和Position Embedding构成:
Figure BDA00035154553400000910
其中i∈{1,...,Lx}。
步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(qi,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵
Figure BDA00035154553400000911
通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);
具体包括以下子步骤:
步骤3.1:使用多头注意力机制从
Figure BDA00035154553400000912
不同的线性子空间中挖掘信息:通过
k个不同的线性变换投影,将输入投影为查询向量
Figure BDA00035154553400000913
键向量
Figure BDA00035154553400000914
值向量
Figure BDA00035154553400000915
以计算注意力分数A(X),最后对每个头的A(X)进行拼接操作,其计算公式为:
MultiHead(X)=Concat(Wh,A(X)h)
其中
Figure BDA0003515455340000101
为投影操作的可学习参数,k为头数,设置为8。将点积计算得到的第i个查询的注意力分数A(qi,K,V)转换为概率形式,其计算公式为:
Figure BDA0003515455340000102
其中qi,ki,vi分别代表Q,K和V的第i行,p(kj|qi)=k(qi,kj)/∑lk(qi,kl)。
步骤3.2:根据自注意力机制的长尾分布特性,即少数的点积对吸引了主要的注意,其余点积对只吸引次要的注意,从原始Q中随机选择U=LklnLQ个点积对计算稀疏度M(qi,K),其中M(qi,K)由KL散度进行度量,其计算公式为:
Figure BDA0003515455340000103
步骤3.3:提取稀疏度最高的前u=clnLQ个查询形成稀疏矩阵
Figure BDA0003515455340000104
其中c为固定的采样因子,ds为稀疏处理后的隐藏维度。通过将
Figure BDA0003515455340000105
中剩余对使用0进行填充,替换原始Q为相同尺寸的稀疏
Figure BDA0003515455340000106
以存储全局信息,使时间复杂度和空间使用量降低至O(LlnL)。
步骤3.4:让所有的键都只和这u个主要的查询计算点积,再除以
Figure BDA0003515455340000107
并使用Softmax函数获取其权重,得到优化后的注意力分数A(Q,K,V):
Figure BDA0003515455340000108
步骤4:构建基于自适应图学习和扩散图卷积的稀疏自注意力模块:学习一个查询嵌入字典
Figure BDA0003515455340000109
以自适应生成
Figure BDA00035154553400001010
的图结构G,经过扩散图卷积得到
Figure BDA00035154553400001011
利用稀疏注意力机制在
Figure BDA00035154553400001012
上寻找最主要的序列,提取序列之间的空间相关性。具体包括以下子步骤:
步骤4.1:在稀疏矩阵
Figure BDA00035154553400001013
上随机初始化一个可学习的查询嵌入字典
Figure BDA00035154553400001014
并分配给所有的查询,其中
Figure BDA00035154553400001015
的每行都代表一个表示为查询的节点嵌入。在训练过程中
Figure BDA00035154553400001016
将自动更新,便于学习序列间复杂的相关性。
步骤4.2:将
Figure BDA00035154553400001017
Figure BDA00035154553400001018
相乘,元素(i,j)为节点i和节点j嵌入向量的内积,它表示节点间的相似度,据此挖掘出每对节点间潜在的相关性,自适应地学习出图的邻接矩阵。同时使用非线性激活函数ELU消除弱连接,加快收敛速度,其计算公式为:
Figure BDA0003515455340000111
其中α是用于负部分饱和的可调节参数,x>0时的线性特征使ELU避免梯度消失问题,x≤0时的函数特征使ELU更具鲁棒性。
然后通过Softmax函数对自适应矩阵进行标准化处理,其转化函数为:
Figure BDA0003515455340000112
它表示X中第i个元素的指数与所有元素指数和的比值。输出为直接生成的
Figure BDA0003515455340000113
总的计算过程为:
Figure BDA0003515455340000114
步骤4.3:利用一阶切比雪夫多项式拟合卷积核,建立输入为
Figure BDA0003515455340000115
输出为
Figure BDA0003515455340000116
的图卷积层,旨在融合节点的邻域信息,处理图结构中的空间相关性,其计算公式为:
Figure BDA0003515455340000117
其中gθ为卷积操作,
Figure BDA0003515455340000118
为图的自环归一化邻接矩阵,即
Figure BDA0003515455340000119
为参数矩阵。
步骤4.4:通过使用m个有限步模拟图信号的扩散过程,将扩散卷积引入图卷积的形式,扩散图卷积的计算公式为:
Figure BDA00035154553400001110
其中图
Figure BDA00035154553400001111
为反映自学习的稀疏空间矩阵
Figure BDA00035154553400001112
的图结构,Gm为图上的第m步随机游动,
Figure BDA00035154553400001113
m设置为2。
根据步骤4.2的计算结果,对原始稀疏矩阵
Figure BDA00035154553400001114
进行扩散图卷积操作,最终获得包含空间相关性的稀疏查询矩阵
Figure BDA00035154553400001115
总的计算过程为:
Figure BDA00035154553400001116
其中Θ为全部可学习的参数。
步骤4.5:根据步骤3.2的KL散度方法,度量
Figure BDA0003515455340000121
的稀疏度Mg(qgi,K),其计算公式为:
Figure BDA0003515455340000122
其中qgi
Figure BDA0003515455340000123
中的第i个查询。随后根据步骤3.4的稀疏自注意力机制,在序列的图结构中寻找最活跃的序列,计算注意力分数A(Q,K,V):
Figure BDA0003515455340000124
步骤4所设计的基于自适应图学习和扩散图卷积的稀疏自注意力模块相较于图自注意力机制降低了复杂度,同时能够有效提取出时间序列之间潜在的空间相关性。
步骤5:设计编码器,叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;具体包括以下子步骤:
步骤5.1:将历史向量
Figure BDA0003515455340000125
输入进步骤4所设计的基于图的稀疏自注意力模块:首先经过多头注意力机制和稀疏自注意力机制处理后生成稀疏查询并自适应地学习其图结构,随后利用扩散图卷积提取模块内部的空间信息,最终转换为
Figure BDA0003515455340000126
形式的输出。
步骤5.2:对
Figure BDA0003515455340000127
进行降采样操作,筛选出具有主导特征的特征图并输出至下一层。首先使用扩展的因果卷积处理输入,有利于特征对局部上下文信息的学习,同时获得指数级的感受野增长。对于核大小为k的第i层卷积层,进行的扩展因果卷积操作ConvDC可以描述为:
Figure BDA0003515455340000128
其中
Figure BDA0003515455340000129
n∈Lx,d*为输出维度,i为膨胀因子。第i层扩展因果卷积层为每两个相邻的filter间都跳过2i-1-1个元素,时刻t处的元素
仅与t处或之前的元素卷积。
随后执行MaxPool操作以降低当前模块的隐藏维度,同时标记局部主导特征,设置stride为2。MaxPool是对一个N批长度为L,通道或维度数量为C的1D数组的运算,其计算公式为:
Figure BDA0003515455340000131
对于第i层输入为
Figure BDA0003515455340000132
的基于图的稀疏自注意力模块,进行的降采样操作可以描述为:
Figure BDA0003515455340000133
其中GS为步骤4所设计的基于图的稀疏自注意力模块,
Figure BDA0003515455340000134
为模块第
i+1层的输入。通过降采样操作减半输入长度后,执行LayerNorm操作以规范化通道或维度间的输入,其计算公式为:
Figure BDA0003515455340000135
步骤5.3:依次叠加第i个基于图的稀疏自注意力模块和降采样层,最后一个基于图的稀疏自注意力模块后不需要添加降采样层。实验设置中编码器包含有一个3层的基于图的稀疏自注意力模块,输入长度分别为Lx、Lx/2和Lx/4。
使用传递机制优化不同尺度的基于图的稀疏自注意力模块的特征图的连接,将所有模块生成的长度为Lx/2i-1、维度为d的特征图均等分割为长度为Lx/2n-1的2n-i个特征图(i∈{1,2,...,n}),以合并不同尺度的特征图,保持输出尺寸的一致性,无需额外计算成本便能获得粒度更为精细的信息。
步骤5.4:通过一层过渡层,将拼接后特征图的维度从(2n-1)×d降低到d,获得编码器的隐含表达,传入解码器。
本实施例中,实验设置中编码器包含有一个3层的基于图的稀疏自注意力堆栈(输入长度为Lx),一个2层的基于图的稀疏自注意力堆栈(输入长度为Lx/2)和一个1层的基于图的稀疏自注意力堆栈(输入长度为Lx/4)。
步骤5.4:拼接全部堆栈最终输出的特征图,获得编码器的隐含表达,传入解码器。
步骤6:设计解码器:具体包括以下子步骤:
步骤6.1:在输入序列Xt中采样一个长度为Ltoken的序列
Figure BDA0003515455340000136
表示生成式的起始标注;采样另一个包含预测序列上下文的序列
Figure BDA0003515455340000137
表示用0填充的预测序列。拼接
Figure BDA0003515455340000138
Figure BDA0003515455340000139
为生成式解码器的输入
Figure BDA00035154553400001310
其计算公式为:
Figure BDA00035154553400001311
步骤6.2:将
Figure BDA0003515455340000141
输入进一个2层的基于图的稀疏自注意力模块,其中第一层模块在使用Softmax函数获取权重前,需要将当前时刻之后的点积设置为-∞,以避免自回归现象;第二层模块除了接收第一层的输出以外,还需要接收编码器的隐含表达。
步骤6.3:由于生成式推理避免了动态解码过程,仅通过一次前向过程获取整个输出序列,提升了模型的推理速度,减少了长期预测的误差积累。最后添加一个全连接层,将解码器的输出转换为预测值
Figure BDA0003515455340000142
步骤7:训练模型:具体包括以下子步骤:
步骤7.1:设置损失函数为MSE,其计算公式为:
Figure BDA0003515455340000143
其中n为样本数,
Figure BDA0003515455340000144
为预测值,y为真实值。
步骤7.2:设置优化器为Adam,并使用梯度中心化技术对其进行改进。首先对于一个反向传播得到的梯度
Figure BDA0003515455340000145
为wi的梯度向量,梯度中心化操作φGC的计算公式为:
Figure BDA0003515455340000146
其中
Figure BDA0003515455340000147
为梯度矩阵
Figure BDA0003515455340000148
第i列的梯度均值,L为损失函数。通过计算梯度矩阵列向量的均值,并从各个列向量减去其各自的均值,得到中心化后的梯度矩阵,当表示为矩阵运算的形式:
Figure BDA0003515455340000149
其中P=I-eeT为与W相同大小的超平面上的投影矩阵,I为大小为M×M的单位矩阵,E为一个大小为M×1的单位向量。获得中心化的梯度
Figure BDA00035154553400001410
后,直接用其更新权值矩阵,嵌入到Adam优化器中,达到平滑并加速训练过程、提高模型泛化能力的目的。
步骤7.3:设置批尺寸、初始学习率、学习率每代衰减(本实施例中,采用的是批尺寸为32,初始学习率为0.0001,学习率每代衰减1/2,1111·,),添加早停机制,使用网格搜索策略寻找其他最优超参数。训练模型得到预测序列
Figure BDA00035154553400001411
通过上述方法得到预测模型后,通过该模型进行序列预测的预测方法是组合模型输出与周期性序列为最终的预测值
Figure BDA0003515455340000151
评估预测性能。具体表现为以下子步骤:
步骤7.4:若数据集中的长序列时间序列具有相对稳定的时间模式,则划分输入序列Xt中最近的长度为Ly的序列为
Figure BDA0003515455340000152
可以表示为:
Figure BDA0003515455340000153
Figure BDA0003515455340000154
蕴含着长序列时间序列的周期模式和“惯性”特征,将其与模型输出
Figure BDA0003515455340000155
进行加权求和获得最终的预测值
Figure BDA0003515455340000156
求和的权重设置为0.2/0.8。
步骤7.5:设置评价指标为MSE及MAE,用于评估本方法的预测性能,MSE的计算公式已在步骤7.1介绍,MAE的计算公式为:
Figure BDA0003515455340000157
本发明中,其中n单独出现时均表示样本总数,作为上下标出现均表示样本总数的代号;
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述方法包括如下步骤:
步骤1:处理数据集:对多变量时间序列数据进行数据处理操作,构建多变量时间序列数据集X;
步骤2:位置编码:将历史序列xt输入Convld层转换为高维空间向量以增强表示能力,并与保持局部上下文信息的位置编码相加构成编码器的输入
Figure FDA0003515455330000011
步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(qi,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵
Figure FDA0003515455330000012
通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);
步骤4:构建基于自适应图学习和扩散图卷积的稀疏自注意力模块:学习一个查询嵌入字典
Figure FDA0003515455330000013
以自适应生成
Figure FDA0003515455330000014
的图结构G,经过扩散图卷积得到
Figure FDA0003515455330000015
利用稀疏注意力机制在
Figure FDA0003515455330000016
上寻找最主要的序列,提取序列之间的空间相关性;
步骤5:设计编码器:叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;
步骤6:设计解码器:使用包含有不少于2层的基于图的稀疏自注意力模块的生成式解码器结构,最后使用全连接层获取预测序列
Figure FDA0003515455330000017
步骤7:训练模型:引入梯度中心化技术改进Adam优化器,设置所需的参数并训练模型。
2.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤S1包括如下子步骤:
步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集X;
步骤1.2:对数据集X进行Z-score标准化;
步骤1.3:根据按照时间顺序,将数据集划分训练集、验证集和测试集,其中训练集占数据集的总量最多。
3.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤2包括如下子步骤:
步骤2.1:使用位置编码技术处理输入序列xt
Figure FDA0003515455330000021
Figure FDA0003515455330000022
其中
Figure FDA0003515455330000023
dmodel为模型的维度,Lx为输入序列的长度,pos为当前数据在输入序列xt中的位置;
步骤2.2:通过Convld操作,
Figure FDA0003515455330000024
投影为特征维数为d的向量
Figure FDA0003515455330000025
步骤2.3:编码器的输入
Figure FDA0003515455330000026
Figure FDA0003515455330000027
和位置编码构成:
Figure FDA0003515455330000028
其中i∈{1,...,Lx}。
4.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤3包括如下子步骤:
步骤3.1:将输入
Figure FDA0003515455330000029
投影为查询向量Q,键向量K和值向量V以计算注意力分数A(X),使用多头注意力机制从不同的线性子空间中挖掘信息:
MultiHead(X)=Concat(Wk,A(X)k)
其中
Figure FDA00035154553300000210
为投影操作的可学习参数,k为头数;
步骤3.2:从原始Q中随机选择U=LklnLQ个点积对计算稀疏度M(qi,K),其中M(qi,K)由KL散度进行度量,其计算公式为:
Figure FDA00035154553300000211
其中qi,ki,vi分别表示Q,K和V的第i行,d为输入维度;
步骤3.3:提取稀疏度最高的前u=clnLQ个查询形成稀疏矩阵
Figure FDA00035154553300000212
其中c为固定的采样因子;通过将
Figure FDA00035154553300000213
中剩余对使用0进行填充,替换原始Q为相同尺寸的稀疏
Figure FDA00035154553300000214
步骤3.4:让所有的键都只和这u个主要的查询计算点积,再除以
Figure FDA00035154553300000215
并使用Softmax函数获取其权重,得到优化后的注意力分数A(Q,K,V):
Figure FDA00035154553300000216
5.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:其中步骤4包括如下子步骤:
步骤4.1:在稀疏矩阵
Figure FDA00035154553300000217
上随机初始化一个可学习的查询嵌入字典
Figure FDA00035154553300000218
并分配给所有的查询;
步骤4.2:将
Figure FDA0003515455330000031
Figure FDA0003515455330000032
相乘,自适应地学习出图的邻接矩阵,同时使用非线性激活函数ELU,其计算公式为:
Figure FDA0003515455330000033
其中α是用于负部分饱和的可调节参数,然后通过Softmax函数对自适应矩阵进行标准化处理,总的计算过程为:
Figure FDA0003515455330000034
其中
Figure FDA0003515455330000035
为直接生成的图结构;
步骤4.3:利用一阶切比雪夫多项式拟合卷积核,建立输入为X,输出为Z的图卷积层,其计算公式为:
Figure FDA0003515455330000036
其中gθ为卷积操作,
Figure FDA0003515455330000037
为图的自环归一化邻接矩阵,W为参数矩阵;
步骤4.4:将扩散卷积引入图卷积的形式,其计算公式为:
Figure FDA0003515455330000038
其中图G为反映自学习的稀疏空间矩阵
Figure FDA0003515455330000039
的图结构,Gm为图G上的第m步随机游动;
对原始稀疏矩阵
Figure FDA00035154553300000310
进行扩散图卷积操作,最终获得包含空间相关性的稀疏查询矩阵
Figure FDA00035154553300000311
总的计算过程为:
Figure FDA00035154553300000312
其中Θ为全部可学习的参数;
步骤4.5:度量
Figure FDA00035154553300000313
的稀疏度Mg(qgi,K):
Figure FDA00035154553300000314
其中qgi
Figure FDA00035154553300000315
中的第i个查询,对应的注意力分数A(Q,K,V)为:
Figure FDA00035154553300000316
6.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤5的具体子步骤为:
步骤5.1:将
Figure FDA0003515455330000041
输入进步骤4所设计的基于图的稀疏自注意力模块,获得输出
Figure FDA0003515455330000042
步骤5.2:对
Figure FDA0003515455330000043
进行降采样操作,筛选出具有主导特征的特征图并输出至下一层,对于第i层输入为
Figure FDA0003515455330000044
的基于图的稀疏自注意力模块,进行的降采样操作可以描述为:
Figure FDA0003515455330000045
其中GS为步骤4所设计的基于图的稀疏自注意力模块,ConvDC为扩展因果卷积层,
Figure FDA0003515455330000046
为模块第i+1层的输入,通过降采样操作减半输入长度后,执行LayerNorm操作以规范化通道或维度间的输入;
步骤5.3:依次叠加基于图的稀疏自注意力模块和降采样层,最后一个基于图的稀疏自注意力模块后不需要添加降采样层,利用传递机制将所有模块生成的长度为Lx/2i-1、维度为d的特征图均等分割为长度为Lx/2n-1的2n-i个特征图(i∈{1,2,...,n}),以合并不同尺度的特征图,保持输出尺寸的一致性;
步骤5.4:通过一层过渡层,将拼接后特征图的维度从(2n-1)×d降低到d,获得编码器的隐含表达,传入解码器。
7.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤6的具体子步骤为:
步骤6.1:拼接
Figure FDA0003515455330000047
Figure FDA0003515455330000048
为生成式解码器的输入
Figure FDA0003515455330000049
Figure FDA00035154553300000410
其中
Figure FDA00035154553300000411
为输入序列Xt中采样的长度为Ltoken的生成式起始标注,
Figure FDA00035154553300000412
为用0填充的预测序列;
步骤6.2:将
Figure FDA00035154553300000413
输入进一个2层的基于图的稀疏自注意力模块,第一层模块在使用Softmax函数获取权重前,需要将当前时刻之后的点积设置为-∞,以避免自回归现象;
步骤6.3:添加一个全连接层,将解码器的输出转换为预测值
Figure FDA00035154553300000414
8.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤7的具体子步骤为:
步骤7.1:设置损失函数为MSE;
步骤7.2:设置优化器为Adam,并使用梯度中心化技术对其进行改进,对于一个反向传播得到的梯度
Figure FDA0003515455330000051
为wi的梯度向量,梯度中心化操作φGC的计算公式为:
Figure FDA0003515455330000052
其中
Figure FDA0003515455330000053
为梯度矩阵
Figure FDA0003515455330000054
第i列的梯度均值,L为损失函数,通过计算梯度矩阵列向量的均值,并从各个列向量减去其各自的均值,得到中心化后的梯度矩阵,获得中心化的梯度
Figure FDA0003515455330000058
后,直接用其更新权值矩阵,嵌入到Adam优化器中;
步骤7.3:设置模型参数,训练模型得到预测序列
Figure FDA0003515455330000056
9.一种基于Transformer框架的多变量长序列时间序列预测模型,其特征在于:所述预测模型通过权利要求1-8任一所述的权利要求获得。
10.一种基于Transformer框架的多变量长序列时间序列预测方法,其特征在于:通过权利要求9所述的一种基于Transformer框架的多变量长序列时间序列预测模型,组合模型输出与周期性序列为最终的预测值
Figure FDA0003515455330000057
评估预测性能。
CN202210162689.2A 2022-02-22 2022-02-22 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 Active CN114519469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210162689.2A CN114519469B (zh) 2022-02-22 2022-02-22 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210162689.2A CN114519469B (zh) 2022-02-22 2022-02-22 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

Publications (2)

Publication Number Publication Date
CN114519469A true CN114519469A (zh) 2022-05-20
CN114519469B CN114519469B (zh) 2024-05-31

Family

ID=81598990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210162689.2A Active CN114519469B (zh) 2022-02-22 2022-02-22 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法

Country Status (1)

Country Link
CN (1) CN114519469B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115619052A (zh) * 2022-12-20 2023-01-17 安徽农业大学 一种城市交通流量预测方法
CN116306234A (zh) * 2023-02-08 2023-06-23 淮阴工学院 一种燃气轮机的氮氧化物预测排放检测方法及系统
CN116662811A (zh) * 2023-06-13 2023-08-29 无锡物联网创新中心有限公司 一种工业设备的时序状态数据重构方法及相关装置
CN117494906A (zh) * 2023-12-28 2024-02-02 浙江省白马湖实验室有限公司 一种基于多元时间序列的天然气日负荷预测方法
CN117495070A (zh) * 2023-12-27 2024-02-02 中控技术股份有限公司 一种工业流水线的工艺参数推荐方法及系统
CN117520779A (zh) * 2023-11-17 2024-02-06 河海大学 基于多指标图注意力网络的水电机转轮状态关联分析方法
CN117725543A (zh) * 2024-02-18 2024-03-19 中国民航大学 一种多元时间序列异常预测方法、电子设备及存储介质
WO2024087185A1 (en) * 2022-10-28 2024-05-02 Intel Corporation Memory access adaptive self-attention mechanism for transformer model
CN118350418A (zh) * 2024-06-18 2024-07-16 四川轻化工大学 一种基于Informer的长序列知识追踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210240453A1 (en) * 2020-02-04 2021-08-05 X Development Llc Generating and using joint representations of source code
CN113298314A (zh) * 2021-06-10 2021-08-24 重庆大学 一种考虑动态时空相关性的轨道交通客流预测方法
CN113487061A (zh) * 2021-05-28 2021-10-08 山西云时代智慧城市技术发展有限公司 一种基于图卷积-Informer模型的长时序交通流量预测方法
CN113487088A (zh) * 2021-07-06 2021-10-08 哈尔滨工业大学(深圳) 基于动态时空图卷积注意力模型的交通预测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210240453A1 (en) * 2020-02-04 2021-08-05 X Development Llc Generating and using joint representations of source code
CN113487061A (zh) * 2021-05-28 2021-10-08 山西云时代智慧城市技术发展有限公司 一种基于图卷积-Informer模型的长时序交通流量预测方法
CN113298314A (zh) * 2021-06-10 2021-08-24 重庆大学 一种考虑动态时空相关性的轨道交通客流预测方法
CN113487088A (zh) * 2021-07-06 2021-10-08 哈尔滨工业大学(深圳) 基于动态时空图卷积注意力模型的交通预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEI HUANG: "Spatial-Temporal Convolutional Transformer Network for Multivariate Time Series Forecasting", 《SENSORS》, vol. 22, no. 3, 22 January 2022 (2022-01-22), pages 1 - 18, XP093053291, DOI: 10.3390/s22030841 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024087185A1 (en) * 2022-10-28 2024-05-02 Intel Corporation Memory access adaptive self-attention mechanism for transformer model
CN115619052A (zh) * 2022-12-20 2023-01-17 安徽农业大学 一种城市交通流量预测方法
CN116306234A (zh) * 2023-02-08 2023-06-23 淮阴工学院 一种燃气轮机的氮氧化物预测排放检测方法及系统
CN116306234B (zh) * 2023-02-08 2023-10-20 淮阴工学院 一种燃气轮机的氮氧化物预测排放检测方法及系统
CN116662811B (zh) * 2023-06-13 2024-02-06 无锡物联网创新中心有限公司 一种工业设备的时序状态数据重构方法及相关装置
CN116662811A (zh) * 2023-06-13 2023-08-29 无锡物联网创新中心有限公司 一种工业设备的时序状态数据重构方法及相关装置
CN117520779A (zh) * 2023-11-17 2024-02-06 河海大学 基于多指标图注意力网络的水电机转轮状态关联分析方法
CN117495070A (zh) * 2023-12-27 2024-02-02 中控技术股份有限公司 一种工业流水线的工艺参数推荐方法及系统
CN117494906A (zh) * 2023-12-28 2024-02-02 浙江省白马湖实验室有限公司 一种基于多元时间序列的天然气日负荷预测方法
CN117494906B (zh) * 2023-12-28 2024-03-29 浙江省白马湖实验室有限公司 一种基于多元时间序列的天然气日负荷预测方法
CN117725543A (zh) * 2024-02-18 2024-03-19 中国民航大学 一种多元时间序列异常预测方法、电子设备及存储介质
CN117725543B (zh) * 2024-02-18 2024-05-03 中国民航大学 一种多元时间序列异常预测方法、电子设备及存储介质
CN118350418A (zh) * 2024-06-18 2024-07-16 四川轻化工大学 一种基于Informer的长序列知识追踪方法
CN118350418B (zh) * 2024-06-18 2024-08-13 四川轻化工大学 一种基于Informer的长序列知识追踪方法

Also Published As

Publication number Publication date
CN114519469B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN114519469B (zh) 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法
Zhou et al. One fits all: Power general time series analysis by pretrained lm
US20210365826A1 (en) Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers
US11494644B2 (en) System, method, and computer program for recommending items using a direct neural network structure
Oh et al. STING: Self-attention based Time-series Imputation Networks using GAN
Wang et al. M2TNet: Multi-modal multi-task Transformer network for ultra-short-term wind power multi-step forecasting
Dai et al. Hybrid deep model for human behavior understanding on industrial internet of video things
CN114530258A (zh) 一种深度学习药物相互作用预测方法、装置、介质和设备
CN117094451B (zh) 一种耗电量的预测方法、装置及终端
CN113780584A (zh) 标签预测方法、设备、存储介质及程序产品
CN117935849A (zh) 一种基于多目标对比学习的水声目标识别方法
Tao et al. An efficient and robust cloud-based deep learning with knowledge distillation
Jiang et al. An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing
Zhan et al. Meta-adaptive stock movement prediction with two-stage representation learning
Li et al. Dual-track spatio-temporal learning for urban flow prediction with adaptive normalization
Alghamdi et al. A novel hybrid deep learning model for stock price forecasting
Liu et al. Object detection via inner-inter relational reasoning network
Li et al. Self-supervised generative adversarial learning with conditional cyclical constraints towards missing traffic data imputation
Zha et al. Recognizing plans by learning embeddings from observed action distributions
Koloski et al. Latent Graph Powered Semi-Supervised Learning on Biomedical Tabular Data
CN114332469A (zh) 模型训练方法、装置、设备及存储介质
Li et al. Rehearsal-based class-incremental learning approaches for plant disease classification
Zhang Training deep neural networks via multi-task optimisation
Ling et al. Carbon trading price forecasting based on parameter optimization VMD and deep network CNN–LSTM model
Owusu et al. Rethinking Temporal Dependencies in Multiple Time Series: A Use Case in Financial Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant