CN116911419A

CN116911419A - 一种基于趋势相关性特征学习的长时序预测方法

Info

Publication number: CN116911419A
Application number: CN202310042160.1A
Authority: CN
Inventors: 樊谨; 王则昊; 陈琪凯; 邬惠峰; 孙丹枫
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-01-28
Filing date: 2023-01-28
Publication date: 2023-10-20

Abstract

本发明公开了一种基于趋势相关性特征学习的长时序预测方法，设计了一种名为相关性分布特征提取网络即ACDN模型，ACDN模型采用分布处理模块，用于预测未来时间序列中的分布，以便在面对分布偏移时提高模型准确性；采用自/互相关系数计算模块，以更好地捕捉动态改变时间序列的全局属性，比如趋势成分，其中自相关系数反映局部段内的波动，而互相关系数反映了各个局部子序列中的变化；采用细微特征保留模块，以增强模型对细微特征的感知。本发明对来自不同领域的六个数据集的一系列实验表明，对比FEDformer方法，相关性分布特征提取网络(ACDN)在五个数据集上均方误差(MSE)平均降低了21.99％。

Description

一种基于趋势相关性特征学习的长时序预测方法

技术领域

本发明涉及时间序列预测领域，尤其是涉及一种基于趋势相关性特征学习的长时序预测方法。

背景技术

随着时间序列预测领域的发展，长时间序列预测(Long Sequence Time-seriesForecasting，LSTF)任务逐渐受到研究人员的关注。与普通时间序列预测任务相比，LSTF任务要求模型能够预测更远未来的时间序列，便于长期规划和分析。近年来，出现了许多性能良好的新模型服务于LSTF任务——尤其是深度学习模型。两种主流的深度学习架构涉及递归神经网络(Recurrent Neural Network，RNN)或Transformer系列模型。

LSTF任务处理的都是长序列，导致模型规模大幅度上升、训练速度慢。RNN系列模型拥有着低计算复杂度和高训练速度，可以适用于解决LSTF任务。但是RNN系列模型提取的特征通常不足以支持模型预测未来长期的数值，同时由于RNN系列模型均是通过迭代生成未来序列中每一个时间点上的数值，从而导致再进行预测任务时产生累计误差(Accumulating Errors)。

Transformer系列模型的提出，一定程度上解决了RNN在LSTF任务中面临的问题。Transformer系列模型基于多头自注意力机制(Multi-head self-attention mechanism)，采用问题-键值-打分(query-key-value)提取输入序列中的特征。对比RNN系列模型，Transformer系列模型具有更强的理论优势与特征提取能力，使得Transformer系列模型具有更好的效果。然而，Transformer系列模型又带来了高计算复杂度这一问题，因此由于计算复杂度的限制，使得Transformer系列模型不适用于预测过远未来的数值。另外，Transformer系列模型还存在一些别的问题，例如，目前，没有很好的解决方案来解决分布偏移问题：实际数据中的分布随时间而变化，但现有模型无法处理具有动态变化分布的时间序列，这会导致预测值和真实值之间存在显著偏差；Transformer系列模型也没有有效地对长期序列中的全局和局部视图进行建模，例如趋势和季节性分量；在模型结构方面，由于基于Transformer的模型遵循编码器-解码器架构，该结构通常需要在隐藏层中进行降维操作，因此，像低通滤波器一样，该结构将过滤掉大多数细微的特征，这意味着大量有用的信息将被忽略。模型中的这些结构缺陷通常会导致次优性。

为了解决上述问题，需要利用一种新型的学习架构以进行长时间序列预测任务。

发明内容

本发明的目的是提供一种基于趋势相关性特征学习的长时序预测方法，用以解决现有技术中已有模型对趋势预测能力不足、预测精度欠缺、计算复杂度过高和不能有效地对长期序列中的全局和局部视图进行建模的问题。

为实现上述目的，本发明提供了如下技术方案：

一种基于趋势相关性特征学习的长时序预测方法，包括以下步骤：

步骤1：建立ACDN模型即相关性分布特征提取网络模型，ACDN模型包括编码器、解码器和一个双层线性层，编码器Encoder和解码器Decoder的核心模块均由分布处理模块、l层自/互相关系数计算模块和l层细微特征保留模块构成；

步骤2：数据预处理，获得训练数据集和验证数据集；

步骤3：借助步骤2中得到的训练数据集，每次随机选取64组训练数据作为原始输入序列，原始输入序列首先通过波形分解模块分解为代表波形趋势的趋势分量(trendcomponent)和代表波形周期性的季节分量(seasonal component)，其中，趋势分量输入ACDN的编码器中，季节分量输入双层线性层中，原始输入序列的后半段作为ACDN中解码器的输入；

步骤4：步骤3中将趋势分量输入到ACDN的编码器中后，随即在分布处理模块中进行分布归一化和未来分布预测，原始输入序列的后半段输入ACDN的解码器中后，随即在分布处理模块中进行分布归一化和未来分布预测；

步骤5：将步骤4得到的归一化后的趋势分量和归一化后的原始输入序列的后半段分别在编码器和解码器中先采用分段函数进行分段，然后分别计算各段内的自相关系数和各段间的互相关系数，最终在编码器中提取自相关系数和互相关系数的特征并进行组合，使归一化后的趋势分量在编码器中生成编码器特征(Encoder Feature)，在解码器中提取自相关系数和互相关系数的特征并进行组合，使归一化后的原始输入序列的后半段在解码器中生成解码器特征(Decoder Feature)，同时，编码器和解码器通过各自的细微特征保留模块保留各个段内的细微特征；

步骤6：将步骤5中获得的编码器中的编码器特征和细微特征输入到解码器中，由编码器特征和解码器特征组合成全局特征，由编码器中提取的细微特征和和解码器中提取的细微特征组合成局部特征，通过l层卷积操作对全局特征和局部特征进行组合，再通过一层卷积层和一层线性层进行进一步特征提取，得到初步趋势预测序列；

步骤7：借助于步骤4中预测得到的未来分布和步骤6中得到的初步趋势预测序列，对初步趋势预测序列进行分布上调整，生成趋势预测分量和损失/>实现波形重组；

步骤8：将步骤3中的季节分量输入到双层线性层中后直接生成季节预测分量季节预测分量/>与步骤7中获得的趋势预测分量/>相结合，得到基于训练数据集的预测序列/>将基于训练数据集的预测序列/>与真实预测序列进行比较得到/>将步骤7中得到的损失/>与/>相结合得到最终的损失/>利用Adam优化器最小化最终的损失/>对模型进行训练，更新整体模型参数；

步骤9：将步骤8中训练好的数据模型应用到验证数据集中生成基于验证数据集的预测序列与真实预测序列，计算每一组数据中的预测序列与真实预测序列之间的均方误差，随后对所有组数据的均方误差求取平均值，得到基于验证数据集的最终的均方误差MSE；

步骤10：重复步骤3至步骤9，直至步骤9得到的MSE误差不再减小，说明模型表现无法再变好，此时网络参数更新完毕，模型结束训练；

步骤11：将预测任务所给的输入序列输入到步骤10最终得到的训练好的模型中，进行序列预测，输出最终得到的预测序列，完成预测。

优选的，步骤1中编码器和解码器的核心模块具体如下：

1)分布处理模块由分布归一化部分和分布预测部分两部分构成，使用分布归一化部分来规范化输入序列的分布，然后通过分布预测部分来预测未来的分布，分布归一化部分的公式如下所示：

其中输入序列其中d表示向量的维度；表示分段函数，/>表示分段后的第j段序列，其中j＝1,2,...,n，μ_bj表示的均值，σ_bj表示/>的方差，/>表示归一化后/>的第i维度的隐藏层变量；

然后对所有归一化后的分段进行拼接，得到最终的归一化的隐藏层变量公式如下：

其中表示拼接操作，/>表示对应归一后的第j段，其中j＝1,2,...,n；

分布预测部分是基于各分段的均值和方差来预测未来预测序列的均值和方差，采用注意力机制进行特征提取，公式如下：

其中μ_bj为第j段的均值，σ_bj为第j段的方差，Att()表示注意力机制函数，该函数具体过程如下所示：

其中表示注意力模块的输入，T是矩阵转置操作符，d是向量的维度，/> 是输入/>被映射到不同特征空间的向量表示，/> 是可学习的参数矩阵；

2)自/互相关系数计算模块主要基于注意力机制设计，分别计算各分段内的自相关系数和各分段间的互相关系数，自相关系数计算方法如下：

其中是归一化后的/>中对应的第i个分段，其中i＝1,2,...,n，Non-Linear()为非线性函数，/>为第i个分段的隐藏层变量，/>表示最终得到的自相关特征；

互相关系数计算方法如下：

其中和/>表示中间变量，/>是归一化后的/>中对应的第i个分段，其中i＝1,2,...,n，Linear()表示线性变化函数，Padding()表示填充函数，Cross()表示互相关系数计算函数，/>表示第i个分段的隐藏层变量，/>表示最终得到的互相关特征；

3)细微特征保留模块利用时序分解和卷积操作保留下序列中的高频分量，提取细微特征，具体公式如下所示：

其中和/>表示第i个分段的细微特征和全局特征，Decomp()表示时序分解函数，Conv()表示卷积函数，/>表示最终得到的细微特征。

优选的，步骤2的具体实现方法为：选取不同领域的公共时间序列数据集对其进行分组与分割以适应模型对数据格式的要求，首先统一设定每组数据的长度为96，然后对整个公共时间序列数据集分组，将70％组数据作为训练数据集，30％组数据作为验证数据集。

优选的，步骤7中所述的对初步趋势预测序列进行分布上调整，具体调整方法为通过分布反规范化过程对初步趋势预测序列进行反规范化处理，输出得到趋势预测分量在分布反规范化过程中，将步骤4中预测得到的未来分布与真实分布进行比较，得到损失/>

优选的，步骤8中，基于训练数据集的预测序列和最终的损失/>的公式表述为：

其中λ_p和λ_l是权衡参数。

优选的，步骤9中最终的均方误差MSE的计算公式如下所示：

其中，Y_i为基于验证数据集的预测序列Y的第i个元素；为基于验证数据集的真实预测序列/>的第i个元素；其中i＝1,2,...,n，n表示基于验证数据集的预测序列的长度。

优选的，步骤11中，预测序列的长度设定为96、192、336和720四种长度。

本发明采用上述结构的基于趋势相关性特征学习的长时序预测方法，具有如下有益效果：

本发明采用在分布处理模块，用来预测未来时间序列中的分布，以便在面对分布偏移时提高模型准确性；采用自/互相关系数计算模块，以更好地捕捉动态改变时间序列的全局属性，比如趋势成分，其中自相关值反映局部段内的波动，而互相关值反映了各个局部子序列中的变化；采用细微特征保留模块，以增强模型对细微特征的感知。本发明结合解码器提取的全局特征以及从编码器和解码器中提取的细微特征，并生成最终的预测序列，以产生更精确的预测，对来自不同领域的六个数据集的一系列实验表明，对比FEDformer方法本发明在多变量LSTF任务上平均降低了均方误差(MSE)21.99％。

附图说明

图1为本发明实施例的整体流程图；

图2为本发明实施例的整体结构示意图；

图3为本发明实施例的分布处理模块结构示意图；

图4为本发明实施例的自/互相关系数计算模块中的自相关模块的结构图；

图5为本发明实施例的自/互相关系数计算模块中的互相关模块的结构图。

具体实施方式

以下结合附图和实施例对本发明的技术方案作进一步说明。

如图所示的一种基于趋势相关性特征学习的长时序预测方法，包括以下步骤：

步骤1：建立ACDN模型即相关性分布特征提取网络模型，ACDN模型包括编码器、解码器和一个双层线性层，编码器Encoder和解码器Decoder的核心模块均由分布处理模块、l层自/互相关系数计算模块和l层细微特征保留模块构成。

编码器和解码器的核心模块具体如下：

互相关系数计算方法如下：

步骤2：数据预处理，获得训练数据集和验证数据集。选取不同领域的公共时间序列数据集对其进行分组与分割以适应模型对数据格式的要求：首先统一设定每组数据的长度为96，然后对整个公共时间序列数据集分组，将70％组数据作为训练数据集，30％组数据作为验证数据集。

步骤7：借助于步骤4中预测得到的未来分布和步骤6中得到的初步趋势预测序列，对初步趋势预测序列进行分布上调整，生成趋势预测分量和损失/>实现波形重组。

对初步趋势预测序列进行分布上调整，具体调整方法为通过分布反规范化过程对初步趋势预测序列进行反规范化处理，输出得到趋势预测分量在分布反规范化过程中，将步骤4中预测得到的未来分布与真实分布进行比较，得到损失/>

基于训练数据集的预测序列和最终的损失/>的公式表述为：

其中λ_p和λ_l是权衡参数。

步骤9：将步骤8中训练好的数据模型应用到验证数据集中生成基于验证数据集的预测序列与真实预测序列，计算每一组数据中的预测序列与真实预测序列之间的均方误差，随后对所有组数据的均方误差求取平均值，得到基于验证数据集的最终的均方误差MSE。最终的均方误差MSE的计算公式如下所示：

步骤11：将预测任务所给的输入序列输入到步骤10最终得到的训练好的模型中，进行序列预测，输出最终得到的预测序列，完成预测。预测序列的长度设定为96、192、336和720四种长度。

为了验证本发明的准确性，在相同的实验条件下，利用ACDN、FEDformer、Autoformer、Informer、LogTrans和Reformer六种方法在ETTh2、Exchange、Weather、ECL、Illness和Traffic六种数据集上进行实验，利用均方误差(MSE)和平方绝对值(MAE)作为实验结果的衡量标准。在每种实验条件下，表现最好的模型的实验结果在表格中加粗表示，如下表：

从表格中可以看到相关性分布特征提取网络(ACDN)对比其余五种方法有着较大的提升，对比FEDformer方法，相关性分布特征提取网络(ACDN)在五个数据集上平均降低了均方误差(MSE)21.99％。

因此，本发明采用上述基于趋势相关性特征学习的长时序预测方法，解决了现有技术中已有模型对趋势预测能力不足、预测精度欠缺、计算复杂度过高和不能有效地对长期序列中的全局和局部视图进行建模的问题。

以上是本发明的具体实施方式，但本发明的保护范围不应局限于此。任何熟悉本领域的技术人员在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内，因此本发明的保护范围应以权利要求书所限定的保护范围为准。

Claims

1.一种基于趋势相关性特征学习的长时序预测方法，其特征在于：包括以下步骤：

步骤2：数据预处理，获得训练数据集和验证数据集；

2.根据权利要求1所述的一种基于趋势相关性特征学习的长时序预测方法，其特征在于：步骤1中编码器和解码器的核心模块具体如下：

其中输入序列其中d表示向量的维度；/>表示分段函数，/>表示分段后的第j段序列，其中j＝1,2,...,n，μ_bj表示/>的均值，σ_bj表示/>的方差，/>表示归一化后/>的第i维度的隐藏层变量；

互相关系数计算方法如下：

3.根据权利要求2所述的一种基于趋势相关性特征学习的长时序预测方法，其特征在于：步骤2的具体实现方法为：选取不同领域的公共时间序列数据集对其进行分组与分割以适应模型对数据格式的要求，首先统一设定每组数据的长度为96，然后对整个公共时间序列数据集分组，将70％组数据作为训练数据集，30％组数据作为验证数据集。

4.根据权利要求3所述的一种基于趋势相关性特征学习的长时序预测方法，其特征在于：步骤7中所述的对初步趋势预测序列进行分布上调整，具体调整方法为通过分布反规范化过程对初步趋势预测序列进行反规范化处理，输出得到趋势预测分量在分布反规范化过程中，将步骤4中预测得到的未来分布与真实分布进行比较，得到损失/>

5.根据权利要求4所述的一种基于趋势相关性特征学习的长时序预测方法，其特征在于：步骤8中，基于训练数据集的预测序列和最终的损失/>的公式表述为：

其中λ_p和λ_l是权衡参数。

6.根据权利要求5所述的一种基于趋势相关性特征学习的长时序预测方法，其特征在于：步骤9中最终的均方误差MSE的计算公式如下所示：

7.根据权利要求6所述的一种基于趋势相关性特征学习的长时序预测方法，其特征在于：步骤11中，预测序列的长度设定为96、192、336和720四种长度。