CN114519469A - 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 - Google Patents
一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 Download PDFInfo
- Publication number
- CN114519469A CN114519469A CN202210162689.2A CN202210162689A CN114519469A CN 114519469 A CN114519469 A CN 114519469A CN 202210162689 A CN202210162689 A CN 202210162689A CN 114519469 A CN114519469 A CN 114519469A
- Authority
- CN
- China
- Prior art keywords
- sequence
- multivariate
- graph
- long
- sparse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010276 construction Methods 0.000 title claims abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 77
- 230000008569 process Effects 0.000 claims abstract description 18
- 230000000737 periodic effect Effects 0.000 claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 53
- 238000004364 calculation method Methods 0.000 claims description 31
- 230000007246 mechanism Effects 0.000 claims description 31
- 239000013598 vector Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 21
- 238000009792 diffusion process Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 230000003044 adaptive effect Effects 0.000 claims description 11
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 230000001364 causal effect Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000002759 z-score normalization Methods 0.000 claims description 2
- 230000009182 swimming Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 244000290333 Vanilla fragrans Species 0.000 description 1
- 235000009499 Vanilla fragrans Nutrition 0.000 description 1
- 235000012036 Vanilla tahitensis Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及提供一种基于Transformer框架的多变量长序列时间序列预测方法,以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。
Description
技术领域
本发明涉及计算机数据处理技术及性能改进技术领域,特别涉及时间序列预测技术,具体为一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法、预测模型以及预测方法。
背景技术
多变量时间序列预测已广泛应用于交通规划、能源消耗、金融管理、天气预报和疾病传播分析等场景中,不断重塑着现代社会。例如对交通流量进行预测以规划最佳行驶路线,对股票市场进行预测以设计最佳投资策略。在这些实际应用中,一个迫切的需求就是将预测时间延长到遥远的未来,这对于长期规划和预防警示有着重要的意义。进行准确的多变量长序列时间序列预测是一项具有挑战性的任务,不仅需要高效地处理长时间输入序列,而且需要同时考虑变量内相关性(即一个时间序列内的时间相关性)和变量间相关性(即单个变量的预测值受其他变量值的影响)。
然而,现有的研究大多着眼于短期场景下的预测。基于统计学习的时间序列预测方法,例如差分整合移动平均自回归ARIMA,风险价值模型VAR和高斯过程GP等模型通过分析序列的统计特征来推断未来的状态。尽管统计学习方法因其简单性和可解释性在以往的研究上应用广泛,但这类方法对时间序列的平稳性有着严格的要求,而且方法中的参数较少,大部分参数需要由研究人员设置而不是从数据中挖掘。因此,这类方法往往无法捕获到复杂的非线性模式。
基于机器学习的时间序列预测方法,例如支持向量回归SVR和K近邻算法KNN等模型可以较为灵活地捕获非线性的时间相关性。然而,这类方法大多依赖于手工特征,导致泛化能力较弱。
基于深度学习的时间序列预测方法,例如递归神经网络RNN,时间卷积网络TCN和基于注意力机制的RNN变体侧重于通过循环连接、因果卷积和时间注意力对时间相关性进行建模,具有更加强大的信息表示能力。但也有局限性,例如梯度消失问题,而且这些模型随着输入和预测长度的增加,性能将会受到干扰。
最近的研究表明,基于自注意力机制的Transformer模型在序列型数据上展现出了强悍的性能,在自然语言处理,音频处理,计算机视觉等领域都取得了巨大的成功。得益于自注意力机制的帮助,神经网络信号传播路径的最大长度理论上可以缩短至O(1),使Transformer模型具有捕获序列全局时间相关性的能力,在序列数据的长期相关性建模上显示出了优于RNN类模型的性能。然而由于Transformer模型的计算复杂度和空间消耗高达O(L2),与之带来的漫长的训练时间和昂贵的部署成本成为了将它们应用于长序列时间序列预测任务的瓶颈。针对这个问题,现有的工作侧重于降低注意力的计算成本。例如LogTrans将局部卷积引入到Transformer中,并提出了LogSparse注意力来选择指数级增长间隔后的时间步长,将模型的复杂度降低到了O(L log L)。Reformer提出了局部敏感哈希注意力,实现了O(L log L)的复杂度。Informer使用KL散度和ProbSparse注意力扩展了Transformer,并结合高效的编码器-解码器结构来处理输入和输出,从而将模型的复杂度降低到了O(L log L),达到了最先进的性能。这些方法都基于Vanilla Transformer,并尝试将自注意力机制改进为稀疏版本。
但是仍然存在着一些问题限制了基于Transformer的多变量长序列时间序列预测模型的性能。任何多变量时间序列的实例都是由一个混合动态系统生成的,动态系统的混合性源于各种复杂的因素影响,这些影响同时决定了多变量时间序列未来的状态。例如每个变量不仅取决于其历史值,还取决于其他变量。然而,现有的长序列时间序列预测方法并不能有效利用变量之间潜在的空间相关性。
与此同时,图神经网络由于其排列不变性、局部连接性和图像合成性,在处理图类型数据方面表现出了良好的性能。为了捕获时间序列间动态的相关性,图神经网络通过在结构中传播信息,允许图中的每个节点知道其邻域上下文,也逐渐被用于时间序列预测中。由于相互关联的不同变量可以被视为图的不同节点,利用图神经网络对多变量时间序列进行建模是一种很有前途的方法。在大多数情况下,多变量时间序列并不存在显示的图结构,此时变量之间的关系需要从数据中挖掘,而不能作为事先已知的输入提供。即使对于这类时间序列预测任务,当提取隐式图结构时,也会产生显著的改进。然而现有的图神经网络模型在很大程度上依赖于预定义的图结构来进行时间序列预测,这意味着它们不能直接应用于纯多变量时间序列数据。
另一方面,近年来研究人员热衷于构建更加复杂的深度学习模型来提高预测的性能和效率,但却忽视了长序列时间序列相对稳定的时间模式。较长的时间序列蕴含着相对于短期序列来说更加明显的周期模式,尤其是在预测长度为时间序列周期整数倍的情况
发明内容
有鉴于此,本发明的第一方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法;本发明的第二方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测模型;本发明的第三方面的目的是提供一种基于Transformer框架的多变量长序列时间序列预测方法,以解决现有多变量长序列时间序列预测方法存在的无法高效处理长时间输入序列、计算复杂度和空间消耗较高、未充分利用变量之间潜在的空间相关性及忽视长序列时间序列稳定的周期模式等技术问题。
本发明的第一发明的目的是通过以下技术方案实现的:
一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,所述方法包括如下步骤:
步骤1:处理数据集:对多变量时间序列数据进行数据处理操作,构建多变量时间序列数据集X;
步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(qi,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);
步骤5:设计编码器:叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;
步骤7:训练模型:引入梯度中心化技术改进Adam优化器,设置所需的参数并训练模型。
进一步,所述步骤S1包括如下子步骤:
步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集X;
步骤1.2:对数据集X进行Z-score标准化;
步骤1.3:根据按照时间顺序,将数据集划分训练集、验证集和测试集,其中训练集占数据集的总量最多。
进一步,所述步骤2包括如下子步骤:
步骤2.1:使用位置编码技术处理输入序列xt:
进一步,所述步骤3包括如下子步骤:
MultiHead(X)=Concat(Wk,A(X)k)
步骤3.2:从原始Q中随机选择U=LklnLQ个点积对计算稀疏度M(qi,K),其中M(qi,K)由KL散度进行度量,其计算公式为:
其中qi,ki,vi分别代表Q,K和V的第i行;qKT表示Active query与每个key进行点积,d代表输入维度,为超参数;
进一步,其中步骤4包括如下子步骤:
其中α是用于负部分饱和的可调节参数。然后通过Softmax函数对自适应矩阵进行标准化处理,总的计算过程为:
步骤4.3:利用一阶切比雪夫多项式拟合卷积核,建立输入为X,输出为Z的图卷积层,其计算公式为:
步骤4.4:将扩散卷积引入图卷积的形式,其计算公式为:
其中Θ为全部可学习的参数;
进一步,所述步骤5的具体子步骤为:
步骤5.3:依次叠加基于图的稀疏自注意力模块和降采样层,最后一个基于图的稀疏自注意力模块后不需要添加降采样层。利用传递机制将所有模块生成的长度为Lx/2i-1、维度为d的特征图均等分割为长度为Lx/2n-1的2n-i个特征图(i∈{1,2,...,n}),以合并不同尺度的特征图,保持输出尺寸的一致性。
步骤5.4:通过一层过渡层,将拼接后特征图的维度从(2n-1)×d降低到d,获得编码器的隐含表达,传入解码器。
进一步,所述步骤6的具体子步骤为:
为用0填充的预测序列;
Softmax函数获取权重前,需要将当前时刻之后的点积设置为-∞,以避免自回归现象;
进一步,所述步骤7的具体子步骤为:
步骤7.1:设置损失函数为MSE;
本发明第二方面的目的是通过前述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法获得。
本发明的有益效果是:
(1)提出模块化的基于自适应图学习和扩散图卷积的稀疏自注意力机制。根据自注意力机制的长尾分布特性,基于多变量时间序列数据自适应地学习稀疏图的邻接矩阵。改进的自适应图学习层将主导查询映射为低维图结构后,使用扩散图卷积层提取主导查询之间的相关性。通过将基于自适应图学习和扩散图卷积的稀疏查询替代传统自注意力机制中的完整查询,实现了图卷积操作和稀疏自注意力机制的紧密耦合,有效捕获了变量之间潜在的空间相关性,增强了模型的学习能力,同时降低了计算成本和内存消耗。
(2)设计嵌入基于图的稀疏自注意力模块的编码器结构。使用扩展因果卷积替代Conv1d连接基于自适应图学习和扩散图卷积的稀疏自注意力模块,以几乎可以忽略不计的计算成本带来指数级的感受野增长,增强了模型的学习能力;同时缩短了模块的输入长度,有利于筛选出具有主导特征的特征图,保持长序列时间序列中主导查询的权重,也避免了内存瓶颈。将传递机制应用于合并不同尺度的稀疏自注意力模块的特征图,从而获得粒度更加精细的信息,在无需额外计算成本的基础上提高了模型的预测性能。
(3)采用集成生成式接口的解码器结构。通过一次前向过程获取整个输出序列,提升了模型的推理速度,减少了长期预测的误差积累。
(4)使用梯度中心化改进的Adam优化器。通过中心化操作直接对梯度进行计算后用其直接更新权值矩阵,嵌入到Adam优化器中,从而平滑并加速了训练过程,提高了模型泛化能力。
(5)考虑长序列时间序列的时间模式。当给定一个特定的数据集时,通过分析其时间模式,当预测值和真实值的相位相似度较高时组合模型和周期性预测,提高了长期预测的精确度。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和前述的权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明基于Transformer框架的多变量长序列时间序列预测方法的流程图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,本发明一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,包括如下步骤:
步骤1:处理数据集:具体包括以下子步骤:
步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集:其中为时间步t处特征维数为dx(dx>1)的多变量值,为时间步t处第i维变量的值,Lx为输入的历史时间序列的长度,Ly为预测的未来时间序列的范围,长序列时间序列预测鼓励较长的Lx和Ly;
步骤1.2:对数据集X进行Z-score标准化,其转化函数为:
其中μ为所有样本数据的均值,σ为所有样本数据的标准差;
步骤1.3:根据按照时间顺序,划分数据集为训练集、验证集和测试集,本实施例中,划分数据集X*的前60%为训练集,20%为验证集,最后20%为测试集。
具体包括以下子步骤:
步骤2.1:对时间步t处输入维度为dmodel的输入序列xt使用Position Embedding保持其局部上下文信息,其计算公式为:
步骤2.2:对标量上下文进行Conv1d处理以便于维度对齐,设置kernel size为3,stride为1。Conv1d是对一个N批长度为L,通道或维度数量为C的1D数组进行卷积操作的运算,其计算公式为:
其中i∈{1,...,Lx}。
步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(qi,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);
具体包括以下子步骤:
MultiHead(X)=Concat(Wh,A(X)h)
其中qi,ki,vi分别代表Q,K和V的第i行,p(kj|qi)=k(qi,kj)/∑lk(qi,kl)。
步骤3.2:根据自注意力机制的长尾分布特性,即少数的点积对吸引了主要的注意,其余点积对只吸引次要的注意,从原始Q中随机选择U=LklnLQ个点积对计算稀疏度M(qi,K),其中M(qi,K)由KL散度进行度量,其计算公式为:
步骤3.3:提取稀疏度最高的前u=clnLQ个查询形成稀疏矩阵其中c为固定的采样因子,ds为稀疏处理后的隐藏维度。通过将中剩余对使用0进行填充,替换原始Q为相同尺寸的稀疏以存储全局信息,使时间复杂度和空间使用量降低至O(LlnL)。
步骤4:构建基于自适应图学习和扩散图卷积的稀疏自注意力模块:学习一个查询嵌入字典以自适应生成的图结构G,经过扩散图卷积得到利用稀疏注意力机制在上寻找最主要的序列,提取序列之间的空间相关性。具体包括以下子步骤:
步骤4.2:将与相乘,元素(i,j)为节点i和节点j嵌入向量的内积,它表示节点间的相似度,据此挖掘出每对节点间潜在的相关性,自适应地学习出图的邻接矩阵。同时使用非线性激活函数ELU消除弱连接,加快收敛速度,其计算公式为:
其中α是用于负部分饱和的可调节参数,x>0时的线性特征使ELU避免梯度消失问题,x≤0时的函数特征使ELU更具鲁棒性。
然后通过Softmax函数对自适应矩阵进行标准化处理,其转化函数为:
它表示X中第i个元素的指数与所有元素指数和的比值。输出为直接生成的
步骤4.4:通过使用m个有限步模拟图信号的扩散过程,将扩散卷积引入图卷积的形式,扩散图卷积的计算公式为:
其中Θ为全部可学习的参数。
步骤4所设计的基于自适应图学习和扩散图卷积的稀疏自注意力模块相较于图自注意力机制降低了复杂度,同时能够有效提取出时间序列之间潜在的空间相关性。
步骤5:设计编码器,叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;具体包括以下子步骤:
步骤5.1:将历史向量输入进步骤4所设计的基于图的稀疏自注意力模块:首先经过多头注意力机制和稀疏自注意力机制处理后生成稀疏查询并自适应地学习其图结构,随后利用扩散图卷积提取模块内部的空间信息,最终转换为形式的输出。
步骤5.2:对进行降采样操作,筛选出具有主导特征的特征图并输出至下一层。首先使用扩展的因果卷积处理输入,有利于特征对局部上下文信息的学习,同时获得指数级的感受野增长。对于核大小为k的第i层卷积层,进行的扩展因果卷积操作ConvDC可以描述为:
仅与t处或之前的元素卷积。
随后执行MaxPool操作以降低当前模块的隐藏维度,同时标记局部主导特征,设置stride为2。MaxPool是对一个N批长度为L,通道或维度数量为C的1D数组的运算,其计算公式为:
i+1层的输入。通过降采样操作减半输入长度后,执行LayerNorm操作以规范化通道或维度间的输入,其计算公式为:
步骤5.3:依次叠加第i个基于图的稀疏自注意力模块和降采样层,最后一个基于图的稀疏自注意力模块后不需要添加降采样层。实验设置中编码器包含有一个3层的基于图的稀疏自注意力模块,输入长度分别为Lx、Lx/2和Lx/4。
使用传递机制优化不同尺度的基于图的稀疏自注意力模块的特征图的连接,将所有模块生成的长度为Lx/2i-1、维度为d的特征图均等分割为长度为Lx/2n-1的2n-i个特征图(i∈{1,2,...,n}),以合并不同尺度的特征图,保持输出尺寸的一致性,无需额外计算成本便能获得粒度更为精细的信息。
步骤5.4:通过一层过渡层,将拼接后特征图的维度从(2n-1)×d降低到d,获得编码器的隐含表达,传入解码器。
本实施例中,实验设置中编码器包含有一个3层的基于图的稀疏自注意力堆栈(输入长度为Lx),一个2层的基于图的稀疏自注意力堆栈(输入长度为Lx/2)和一个1层的基于图的稀疏自注意力堆栈(输入长度为Lx/4)。
步骤5.4:拼接全部堆栈最终输出的特征图,获得编码器的隐含表达,传入解码器。
步骤6:设计解码器:具体包括以下子步骤:
步骤6.2:将输入进一个2层的基于图的稀疏自注意力模块,其中第一层模块在使用Softmax函数获取权重前,需要将当前时刻之后的点积设置为-∞,以避免自回归现象;第二层模块除了接收第一层的输出以外,还需要接收编码器的隐含表达。
步骤7:训练模型:具体包括以下子步骤:
步骤7.1:设置损失函数为MSE,其计算公式为:
其中P=I-eeT为与W相同大小的超平面上的投影矩阵,I为大小为M×M的单位矩阵,E为一个大小为M×1的单位向量。获得中心化的梯度后,直接用其更新权值矩阵,嵌入到Adam优化器中,达到平滑并加速训练过程、提高模型泛化能力的目的。
步骤7.3:设置批尺寸、初始学习率、学习率每代衰减(本实施例中,采用的是批尺寸为32,初始学习率为0.0001,学习率每代衰减1/2,1111·,),添加早停机制,使用网格搜索策略寻找其他最优超参数。训练模型得到预测序列
步骤7.5:设置评价指标为MSE及MAE,用于评估本方法的预测性能,MSE的计算公式已在步骤7.1介绍,MAE的计算公式为:
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述方法包括如下步骤:
步骤1:处理数据集:对多变量时间序列数据进行数据处理操作,构建多变量时间序列数据集X;
步骤3:引入概率稀疏自注意力机制:利用KL散度度量自注意力机制原始查询Q的稀疏度M(qi,K),提取稀疏度最高的前u个查询形成稀疏查询矩阵通过这种让每个键都只关注主要查询的方式计算注意力分数A(Q,K,V);
步骤5:设计编码器:叠加多头注意力机制,基于图的稀疏自注意力模块及扩展因果卷积-MaxPool层,采用传递机制拼接生成的不同尺度的特征图,以获得编码器的隐含表达;
步骤7:训练模型:引入梯度中心化技术改进Adam优化器,设置所需的参数并训练模型。
2.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤S1包括如下子步骤:
步骤1.1:对多变量时间序列数据使用异常值处理及缺失值填补等数据预处理方法,构建多变量时间序列数据集X;
步骤1.2:对数据集X进行Z-score标准化;
步骤1.3:根据按照时间顺序,将数据集划分训练集、验证集和测试集,其中训练集占数据集的总量最多。
4.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤3包括如下子步骤:
MultiHead(X)=Concat(Wk,A(X)k)
步骤3.2:从原始Q中随机选择U=LklnLQ个点积对计算稀疏度M(qi,K),其中M(qi,K)由KL散度进行度量,其计算公式为:
其中qi,ki,vi分别表示Q,K和V的第i行,d为输入维度;
5.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:其中步骤4包括如下子步骤:
其中α是用于负部分饱和的可调节参数,然后通过Softmax函数对自适应矩阵进行标准化处理,总的计算过程为:
步骤4.3:利用一阶切比雪夫多项式拟合卷积核,建立输入为X,输出为Z的图卷积层,其计算公式为:
步骤4.4:将扩散卷积引入图卷积的形式,其计算公式为:
其中Θ为全部可学习的参数;
6.根据权利要求1所述的一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法,其特征在于:所述步骤5的具体子步骤为:
步骤5.3:依次叠加基于图的稀疏自注意力模块和降采样层,最后一个基于图的稀疏自注意力模块后不需要添加降采样层,利用传递机制将所有模块生成的长度为Lx/2i-1、维度为d的特征图均等分割为长度为Lx/2n-1的2n-i个特征图(i∈{1,2,...,n}),以合并不同尺度的特征图,保持输出尺寸的一致性;
步骤5.4:通过一层过渡层,将拼接后特征图的维度从(2n-1)×d降低到d,获得编码器的隐含表达,传入解码器。
9.一种基于Transformer框架的多变量长序列时间序列预测模型,其特征在于:所述预测模型通过权利要求1-8任一所述的权利要求获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210162689.2A CN114519469B (zh) | 2022-02-22 | 2022-02-22 | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210162689.2A CN114519469B (zh) | 2022-02-22 | 2022-02-22 | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114519469A true CN114519469A (zh) | 2022-05-20 |
CN114519469B CN114519469B (zh) | 2024-05-31 |
Family
ID=81598990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210162689.2A Active CN114519469B (zh) | 2022-02-22 | 2022-02-22 | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114519469B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115619052A (zh) * | 2022-12-20 | 2023-01-17 | 安徽农业大学 | 一种城市交通流量预测方法 |
CN116306234A (zh) * | 2023-02-08 | 2023-06-23 | 淮阴工学院 | 一种燃气轮机的氮氧化物预测排放检测方法及系统 |
CN116662811A (zh) * | 2023-06-13 | 2023-08-29 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
CN117494906A (zh) * | 2023-12-28 | 2024-02-02 | 浙江省白马湖实验室有限公司 | 一种基于多元时间序列的天然气日负荷预测方法 |
CN117495070A (zh) * | 2023-12-27 | 2024-02-02 | 中控技术股份有限公司 | 一种工业流水线的工艺参数推荐方法及系统 |
CN117520779A (zh) * | 2023-11-17 | 2024-02-06 | 河海大学 | 基于多指标图注意力网络的水电机转轮状态关联分析方法 |
CN117725543A (zh) * | 2024-02-18 | 2024-03-19 | 中国民航大学 | 一种多元时间序列异常预测方法、电子设备及存储介质 |
WO2024087185A1 (en) * | 2022-10-28 | 2024-05-02 | Intel Corporation | Memory access adaptive self-attention mechanism for transformer model |
CN118350418A (zh) * | 2024-06-18 | 2024-07-16 | 四川轻化工大学 | 一种基于Informer的长序列知识追踪方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210240453A1 (en) * | 2020-02-04 | 2021-08-05 | X Development Llc | Generating and using joint representations of source code |
CN113298314A (zh) * | 2021-06-10 | 2021-08-24 | 重庆大学 | 一种考虑动态时空相关性的轨道交通客流预测方法 |
CN113487061A (zh) * | 2021-05-28 | 2021-10-08 | 山西云时代智慧城市技术发展有限公司 | 一种基于图卷积-Informer模型的长时序交通流量预测方法 |
CN113487088A (zh) * | 2021-07-06 | 2021-10-08 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
-
2022
- 2022-02-22 CN CN202210162689.2A patent/CN114519469B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210240453A1 (en) * | 2020-02-04 | 2021-08-05 | X Development Llc | Generating and using joint representations of source code |
CN113487061A (zh) * | 2021-05-28 | 2021-10-08 | 山西云时代智慧城市技术发展有限公司 | 一种基于图卷积-Informer模型的长时序交通流量预测方法 |
CN113298314A (zh) * | 2021-06-10 | 2021-08-24 | 重庆大学 | 一种考虑动态时空相关性的轨道交通客流预测方法 |
CN113487088A (zh) * | 2021-07-06 | 2021-10-08 | 哈尔滨工业大学(深圳) | 基于动态时空图卷积注意力模型的交通预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
LEI HUANG: "Spatial-Temporal Convolutional Transformer Network for Multivariate Time Series Forecasting", 《SENSORS》, vol. 22, no. 3, 22 January 2022 (2022-01-22), pages 1 - 18, XP093053291, DOI: 10.3390/s22030841 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024087185A1 (en) * | 2022-10-28 | 2024-05-02 | Intel Corporation | Memory access adaptive self-attention mechanism for transformer model |
CN115619052A (zh) * | 2022-12-20 | 2023-01-17 | 安徽农业大学 | 一种城市交通流量预测方法 |
CN116306234A (zh) * | 2023-02-08 | 2023-06-23 | 淮阴工学院 | 一种燃气轮机的氮氧化物预测排放检测方法及系统 |
CN116306234B (zh) * | 2023-02-08 | 2023-10-20 | 淮阴工学院 | 一种燃气轮机的氮氧化物预测排放检测方法及系统 |
CN116662811B (zh) * | 2023-06-13 | 2024-02-06 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
CN116662811A (zh) * | 2023-06-13 | 2023-08-29 | 无锡物联网创新中心有限公司 | 一种工业设备的时序状态数据重构方法及相关装置 |
CN117520779A (zh) * | 2023-11-17 | 2024-02-06 | 河海大学 | 基于多指标图注意力网络的水电机转轮状态关联分析方法 |
CN117495070A (zh) * | 2023-12-27 | 2024-02-02 | 中控技术股份有限公司 | 一种工业流水线的工艺参数推荐方法及系统 |
CN117494906A (zh) * | 2023-12-28 | 2024-02-02 | 浙江省白马湖实验室有限公司 | 一种基于多元时间序列的天然气日负荷预测方法 |
CN117494906B (zh) * | 2023-12-28 | 2024-03-29 | 浙江省白马湖实验室有限公司 | 一种基于多元时间序列的天然气日负荷预测方法 |
CN117725543A (zh) * | 2024-02-18 | 2024-03-19 | 中国民航大学 | 一种多元时间序列异常预测方法、电子设备及存储介质 |
CN117725543B (zh) * | 2024-02-18 | 2024-05-03 | 中国民航大学 | 一种多元时间序列异常预测方法、电子设备及存储介质 |
CN118350418A (zh) * | 2024-06-18 | 2024-07-16 | 四川轻化工大学 | 一种基于Informer的长序列知识追踪方法 |
CN118350418B (zh) * | 2024-06-18 | 2024-08-13 | 四川轻化工大学 | 一种基于Informer的长序列知识追踪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114519469B (zh) | 2024-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114519469B (zh) | 一种基于Transformer框架的多变量长序列时间序列预测模型的构建方法 | |
Zhou et al. | One fits all: Power general time series analysis by pretrained lm | |
US20210365826A1 (en) | Discrete variational auto-encoder systems and methods for machine learning using adiabatic quantum computers | |
US11494644B2 (en) | System, method, and computer program for recommending items using a direct neural network structure | |
Oh et al. | STING: Self-attention based Time-series Imputation Networks using GAN | |
Wang et al. | M2TNet: Multi-modal multi-task Transformer network for ultra-short-term wind power multi-step forecasting | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
CN114530258A (zh) | 一种深度学习药物相互作用预测方法、装置、介质和设备 | |
CN117094451B (zh) | 一种耗电量的预测方法、装置及终端 | |
CN113780584A (zh) | 标签预测方法、设备、存储介质及程序产品 | |
CN117935849A (zh) | 一种基于多目标对比学习的水声目标识别方法 | |
Tao et al. | An efficient and robust cloud-based deep learning with knowledge distillation | |
Jiang et al. | An intelligent recommendation approach for online advertising based on hybrid deep neural network and parallel computing | |
Zhan et al. | Meta-adaptive stock movement prediction with two-stage representation learning | |
Li et al. | Dual-track spatio-temporal learning for urban flow prediction with adaptive normalization | |
Alghamdi et al. | A novel hybrid deep learning model for stock price forecasting | |
Liu et al. | Object detection via inner-inter relational reasoning network | |
Li et al. | Self-supervised generative adversarial learning with conditional cyclical constraints towards missing traffic data imputation | |
Zha et al. | Recognizing plans by learning embeddings from observed action distributions | |
Koloski et al. | Latent Graph Powered Semi-Supervised Learning on Biomedical Tabular Data | |
CN114332469A (zh) | 模型训练方法、装置、设备及存储介质 | |
Li et al. | Rehearsal-based class-incremental learning approaches for plant disease classification | |
Zhang | Training deep neural networks via multi-task optimisation | |
Ling et al. | Carbon trading price forecasting based on parameter optimization VMD and deep network CNN–LSTM model | |
Owusu et al. | Rethinking Temporal Dependencies in Multiple Time Series: A Use Case in Financial Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |