CN114004338A

CN114004338A - 基于神经网络的混合时间周期模式多变量时序预测方法

Info

Publication number: CN114004338A
Application number: CN202111320985.2A
Authority: CN
Inventors: 王晟; 陈曦; 郑来文; 李治洪; 刘敏; 李庆利; 齐洪钢; 刘小平; 周共健
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-01

Abstract

一种基于神经网络的混合时间周期模式多变量时序预测方法，属于基于深度学习的数据预测技术领域。本发明针对现有基于深度学习的预测方法仅限于单变量时间序列预测，不能很好地解决多变量预测任务的问题。包括：采用编码器对混合周期原始输入数据进行特征提取，经编码器包括的多个卷积长短期记忆网络单元、编码全连接层和向量合并单元的特征提取后，获得长度为短周期长度+3的未来时序数据特征；再由解码器对混合周期原始输入数据和未来时序数据特征进行处理，经解码器的多个双向长短期记忆网络单元、融合注意力机制、解码全连接层、自回归模型和综合预测单元数据处理后，获得最终时间序列预测值。本发明用于混合周期数据时间序列的预测。

Description

基于神经网络的混合时间周期模式多变量时序预测方法

技术领域

本发明涉及基于神经网络的混合时间周期模式多变量时序预测方法，属于基于深度学习的数据预测技术领域。

背景技术

在现实世界中，人类活动和自然规律可以产生大量的多变量时间序列数据集，这些数据集在一定程度上反映并影响着人类的行为模式和社会运行机制。因此，人们通常希望使用这些历史观察数据来预测未来的趋势和变化，以便更好地对事物发展进行规划和决策。例如，如果交警能够提前知道未来几个小时城市道路的占用率，那么他们就可以基于这些预测数据做出正确、合适的交通决策，以避免交通堵塞问题。因此。多变量时间序列预测一直以来都是机器学习关注的焦点之一。

在相当长的时间内，传统的时间序列预测方法，如自回归(AR)模型，差分整合移动平均自回归模型(ARIMA)，支持向量回归机(SVR)模型等，在预测领域发挥着关键的作用；但是，这些方法大多仅限于单变量时间序列预测，不能很好地解决多变量预测任务。为了解决这个问题，研究人员先后提出了向量自回归(VAR)模型及其变体。但是，无论是基于AR的模型，还是基于VAR的模型都不具备非线性建模功能，这意味着这些方法无法应对复杂的时间模式。研究人员还试图通过核方法，高斯过程等方法实现对于复杂时间序列的非线性建模。但是，这些方法又需要对所处理的数据集有一定的先验知识，并且可能无法处理不同的MTSF任务。简而言之，多变量预测任务仍然面临着许多传统方法难以解决的挑战。

最近，深度学习(DL)模型由于能够捕捉复杂的非线性特征而受到越来越多的关注。许多基于循环神经网络(RNN)，卷积神经网络(CNN)，注意力机制的深度学习模型在时间序列建模、自然语言处理、计算机视觉以及自动驾驶等其他复杂的非线性任务方法中取得了巨大的成功。但是，需要注意到的一点是，目前大部分已有的基于深度学习的时序预测技术，更多地是对于基础神经网络组件的组合，而没有充分利用和挖掘时间序列的数据特点。下面是对近年来取得一些成功的四种深度学习预测方法的简单介绍：

1)长短期时间网络(LSTNet)是第一个特别针对多变量预测任务而设计的深度学习算法，它提出了一套较为成熟的预测策略和评测指标。该模型将卷积神经网络和门控循环单元(GRU)进行组合来捕获时序信息，并提出了一种新型的“循环跳级”结构来自适应学习周期模式；

2)基于卷积神经网络和神经网络，内存时序网络(MTNet)提出了一种内存网络用于捕获和解释时间点之间的关系。除此之外，该网络还可以通过注意力机制，来决定那一部分历史信息对于预测更为有用；

3)基于解释水平理论(CLT)，多层级的解释神经网络(MLCNN)提出了一个多任务学习框架。该网络由多层的卷积神经网络组成，用于提取不同层次的抽象特征，最终通过共享的循环神经网络层实现对于不同层级特征的融合；

4)上述三种方法主要侧重于处理时间点之间的相关性，时序注意长短期记忆网络(TPA-LSTM)将关注点转移到了不同序列之间的相关性。该网络利用卷积神经网络将原始的时间序列转为“频率域”，再通过注意力机制来选择其中较为突出，重要的时间序列。

综上所述，目前大部分的深度学习预测技术尽管已经取得了一定的成功，但是更多地是从模型结构的创新入手，对于数据本身的特征关注不足。现实世界中的多变量时间序列包含复杂的混合时间模式，这是传统方法难以预测的。

发明内容

针对现有基于深度学习的预测方法仅限于单变量时间序列预测，不能很好地解决多变量预测任务的问题，本发明提供一种基于神经网络的混合时间周期模式多变量时序预测方法。

本发明的一种基于神经网络的混合时间周期模式多变量时序预测方法，包括，

采用编码器对混合周期原始输入数据进行特征提取，经编码器包括的多个卷积长短期记忆网络单元、编码全连接层和向量合并单元的特征提取后，获得长度为短周期长度+3的未来时序数据特征；

再由解码器对混合周期原始输入数据和未来时序数据特征进行处理，经解码器的多个双向长短期记忆网络单元、融合注意力机制、解码全连接层、自回归模型和综合预测单元数据处理后，获得最终时间序列预测值。

根据本发明的基于神经网络的混合时间周期模式多变量时序预测方法，所述多个卷积长短期记忆网络单元包括P个一号卷积长短期记忆网络单元和P+1个二号卷积长短期记忆网络单元；P为混合周期原始输入数据中长周期的数据长度；

所述编码器对混合周期原始输入数据进行特征提取的具体方法包括：

对每个一号卷积长短期记忆网络单元输入一组混合周期原始输入数据，一号卷积长短期记忆网络单元通过卷积算子捕获对应组混合周期原始输入数据中的时间特征，并通过循环算子依次捕获相邻组混合周期原始输入数据之间的变化特征，最后得到一组与混合周期原始输入数据等长的未来第一周期时序数据；

由每组混合周期原始输入数据中提取前三个时间点数据，传送至前P个二号卷积长短期记忆网络单元；以及由未来第一周期时序数据中提取前三个时间点数据经全连接层匹配特征维度后传送至第P+1个二号卷积长短期记忆网络单元；P+1个二号卷积长短期记忆网络单元通过循环算子依次捕获相邻输入数据的变化特征，得到未来第二周期前三个时间点时序数据；

采用向量合并单元对未来第一周期时序数据和未来第二周期前三个时间点时序数据进行向量合并，得到长度为短周期长度+3的未来时序数据特征。

根据本发明的基于神经网络的混合时间周期模式多变量时序预测方法，解码器对混合周期原始输入数据和未来时序数据特征进行处理的具体方法包括：

将长度为短周期长度+3的未来时序数据特征对应输入到多个双向长短期记忆网络单元中，对长度为短周期长度+3的未来时序数据特征作前后双向信息融合，获得长度为短周期长度+3的融合数据；

由长度为短周期长度+3的融合数据中提取目标时间点数据以及目标时间点相邻下一时间点数据，与长度为短周期长度+3的融合数据一并输入到融合注意力机制中处理预测延迟，获得融合后目标时间点预测值；将融合后目标时间点预测值经解码全连接层进行维度处理后，获得目标时间点基础预测值；

提取混合周期原始输入数据中对应目标时间点的数据，输入到自回归模型中，进行自适应加权相加，得到目标时间点自回归预测值；

将目标时间点基础预测值和和目标时间点自回归预测值经综合预测单元进行相加操作，得到最终时间序列预测值。

根据本发明的基于神经网络的混合时间周期模式多变量时序预测方法，每组混合周期原始输入数据由周期内部的多个连续时间点数据组成。

根据本发明的基于神经网络的混合时间周期模式多变量时序预测方法，所述混合周期原始输入数据为连接七天的七组交通数据，每组交通数据中包括24小时的观察数据。

本发明的有益效果：本发明用于短期多变量时间序列预测，可以同步捕捉时间序列中复杂的混合周期模式，从而对未来趋势变化进行更好的预测。

本发明基于双阶段长短期记忆网络的神经网络模型进行预测，与现有的预测模型相比，具有三个鲜明特点：

1、能够从容地提取长短周期模式，并且以更加紧凑高效的方式对全局时间模式和局部时间模式进行同步捕捉；

2、基于过去和未来时刻预测值的双向交换可以提高信息利用率的假设，本发明的解码器结构，可以促进双向时序信息在更大时间范围内的融合。此外，该解码器可以自适应地捕获相邻时间点之间的关系，从而缓解常见的预测滞后问题；

3、采用自回归函数组件来处理预测场景中常见的突变现象。

经实验验证，与八种常规预测方法相比，本发明方法在五个公开数据集上取得了最佳预测结果。

附图说明

图1是本发明所述基于神经网络的混合时间周期模式多变量时序预测方法的流程示意图；

图2是本发明的网络架构示意图；

图3是一号一维ConvLSTM的运行机制示意图；

图4是双周期内道路占用率数据集图；

图5是单周期内太阳能发电数据集图；

图6是关于DSLSTM的CORR指标消融实验结果图；

图7是关于DSLSTM的RRSE指标消融实验结果图；

图8是关于DSLSTM的RAE指标消融实验结果图；

图9是VAR-MLP模型方法在交通数据集连续两周的预测结果可视化结果图；

图10是DSLSTMw/oFUSION模型方法在交通数据集连续两周的预测结果可视化结果图；

图11是DSLSTM模型方法在交通数据集连续两周的预测结果可视化结果图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一、结合图1和图2所示，本发明提供了一种基于神经网络的混合时间周期模式多变量时序预测方法，包括，

进一步，结合图1和图2所示，所述多个卷积长短期记忆网络单元包括P个一号卷积长短期记忆网络单元和P+1个二号卷积长短期记忆网络单元；其中P为混合周期原始输入数据中长周期的数据长度；本申请中混合周期原始输入数据为双周期模式数据，其中包括的长周期的数据长度为P，P也是其中包括的短周期的数据个数。例如，七天的七组交通数据，七天作为长周期，每天的24小时为短周期，长周期的数据长度为7，为短周期的数据个数。

本实施方式中，包含了若干组混合周期原始输入数据。

作为示例，所述混合周期原始输入数据为连接七天的七组交通数据(即7组短周期数据)，每组交通数据中又包括24小时的观察数据，即每组数据的时间长度为24。

结合图1和图2所示，混合周期原始输入数据输入到一组一号卷积长短期记忆网络单元ConvLSTMCell中，ConvLSTMCell的功能在于加强“全局-局部”的特征提取操作：它可以通过卷积算子捕获短期(局部信息)中的时间特征，并通过循环算子处理短期之间(即全局信息)的关系和总体变化趋势。经过ConvLSTMCell后，得到一组与短周期数据等长的未来第一周期时序数据。接着以交通数据为例，经过ConvLSTMCell后，得到的未来第一周期时序数据是未来一天24小时的交通数据；

由未来第一周期时序数据中提取出前三个时间点的数据，然后传送至编码全连接层；同时从混合周期原始输入数据中同样提取每组短周期内的前三个时间点的数据；编码全连接层的作用是匹配特征维度，确保由未来第一周期时序数据中提取的前三个时间点数据和每组短周期内的前三个时间点的数据特征维度是相同的。接着以交通数据为例，未来第一周期时序数据中提取出的前三个时间点的数据是未来一天内前3个小时的交通数据特征；从混合周期原始输入数据中提取的则是过去七天内每一天的前三个小时的历史数据。

二号卷积长短期记忆网络单元代表了一组新的ConvLSTMCell，其作用是进一步产生未来第二周期前三个时间点时序数据；以确保后续融合注意力机制的正常运行。接着以交通数据为例，未来第二周期前三个时间点时序数据代表的是未来第二天内前三个小时的数据特征，即第25，26，27小时的数据向量。

将未来第一周期时序数据与未来第二周期前三个时间点时序数据进行向量合并，得到长度为短周期长度+3的未来时序数据特征，至此，编码器部分的流程结束。长度为短周期长度+3的未来时序数据特征代表的是未来24+3＝27小时的数据特征。

再进一步，结合图1和图2所示，解码器对混合周期原始输入数据和未来时序数据特征进行处理的具体方法包括：

本实施方式中，双向长短期记忆网络单元BiLSTMCell的作用在于促进“前-后”双向的信息融合，从更大的时间范围尺度来提取时间特征，加强模型的鲁棒性。长度为短周期长度+3的融合数据与长度为短周期长度+3的未来时序数据特征相比，经过了前后双向信息融合，特征更为丰富。

从长度为短周期长度+3的融合数据中提取出目标时间点数据，以及相邻的下一个时间点的数据，输入到融合注意力机制中。融合注意力机制的作用是为了缓解预测问题中常见的“预测延迟现象”：即h时刻的真实值与h+1时刻的值更为接近。因此提出了使用注意力机制来自适应地调整和捕捉h和h+1之间的时间关系，从而得到融合之后的h点的预测值。然后再通过解码全连接层，令维度等于预测数据的变量数。接着以交通数据为例，长度为短周期长度+3的融合数据代表的是未来24+3＝27小时的数据特征；如果要预测未来一天内第12个小时的数据，那么将融合数据中第12个小时的数据与第13个小时的数据输入到融合注意力机制和解码全连接层中，可得到关于神经网络部分的关于第12个小时的预测值。

再由混合周期原始输入数据中提取目标时间点数据，输入到自回归模型中，进行自适应加权相加。自回归模型的作用是为了应对神经网络常见的尺度不敏感问题。尺幅不敏感问题是指神经网络由于泛化能力过强而导致无法对突变值或者峰值做出正确的反应和预测。DSLSTM提出的自回归模型可以以更少的数据量和计算代价，获得更长的时间信息来应对突变峰值。还是接着以交通数据为例，如果要预测未来一天内第12个小时的数据，那么将历史输入数据中，每天12点的数据提取出来进行自回归相加，得到关于自回归模型的关于未来第12个小时的预测值。

最后将自回归模型得到的预测值和神经网络得到的预测值进行相加操作得到最终的预测值。

再进一步，每组混合周期原始输入数据由周期内部的多个连续时间点数据组成。

下面对本发明方法进行详细的说明：

目标任务简化：

为了便于理解任务目标以及阐述模型，首先对预测问题进行一个简单介绍和简化。给定一组时间序列X＝{x₁,x₂,x₃,…,x_t}，其中

n是预测的变量数(即用户数)，本发明的任务是预测未来某个时间点的值

其中h代表未来的某一个时间点。需要注意的是，不同的任务和数据集，h的选择也有可能是不同的。进一步公式化，本发明的任务是用{x_t-w+1,x_t-w+2,x_t-w+3,…,x_t}来预测

其中w为输入的时间窗口大小。相似的，如果想要预测

则假设{x_t-w+2,x_t-w+3,x_t-w+4,…,x_t+1}为输入数据。为了便于表达，符号注释在表1中说明。

表1.符号注释表

为了更好地诠释符号含义，举一个关于道路占用率的例子：

假设目标是根据上一周的交通道路数据(周一到周日，168小时)来对下周一中午12点的道路拥堵率进行预测，那么：

L＝168；P＝7；p＝24；Z_t＝{z₁,z₂,z₃,…,z₇}，,即一周的数据；

z₁表示上周一的数据；

表示上周一12点的数据；

表示下周一中午12点的真实值；

表示下周一12点对应的模型预测值。

数据集特点分析：

A、双周期数据集。人类的规律性活动通常会产生一些特殊的时间序列，这些序列通常是具有短周期(即局部信息，如每天的时间模式)和长周期(即全局信息，如每周的时间信息)重复模式的混合物。对于不同短周期的相同时间点，数据的大小和趋势通常是相似的。例如，如图4所示，大多数人平常会在工作日(周一到周五)上班，因此在这个时间段，道路的占有率同会有明显的早晚高峰；而到了周末，这种高峰现象就不会那么明显。具有类似时间特征的数据集还包括家庭用电量，道路客流量以及城市噪音指数等；

B、单周期数据集。还有一些事件序列的形成与自然规律相关。例如，太阳能发电站只能自白天收集太阳能进行发电，晚上则会停止工作。虽然发电将收到季节、天气等因素的影响，但是每天发电量先升后降的总体规律不会发生改变。显然，此类数据集仅仅包含一种重复的周期模式，如图5所示。类似的数据集还包括环境温度数据等。

模型数据结构：为了方便表述，将算法框架简写为：双阶长短期记忆网络DSLSTM。图2对DSLSTM的架构进行了概述，整个模型可以看作是一个编码器-解码器的变体。

编码器结构：

卷积长短期记忆网络(ConvLSTM)是长短期记忆网络(LSTM)的一种变体，设计用于处理二维的时空数据。卷积长短期记忆网络的关键在于，其内部有关隐藏状态与输入状态之间的关系是由卷积算子操作完成的。其关键方程如下：

i_t＝sigmoid(W_xi*z_t+W_hi*h_t-1b_i)

ft＝sigmoid(W_xf*z_t+W_hf_ht-1b_f)

ot＝sigmoid(W_xo*z_t+W_ho*h_t-1+b_o)

ct＝f_t⊙c_t-1+i_t⊙tanh(W_xc*z_t+W_hc*h_t-1+b_c)

h_t＝o_t⊙tanh(c_t)

其中，*代表卷积操作，⊙代表矩阵点积。W_xi，W_hi,W_xf,W_hf,W_xo,W_ho,W_xc,W_hc表示权重系数矩阵；b_i，b_f，b_o,b_c代表偏置项矩阵。z_t表示t时刻的输入数据；h_t-1表示t-1时刻(即上一时刻)的隐藏层状态变量；i_t表示t时刻输入门得到的结果向量；f_t表示t时刻遗忘门得到的结果向量；o_t表示输出门得到的结果向量；c_t-1表示t-1时刻(即上一时刻)的过渡层状态变量；c_t表示t时刻的过渡层状态变量；h_t表示t时刻的隐藏层状态变量。

从本质上讲，一维数据是二维数据的特殊情况。即，可以将一维时间系列视为特殊的二维图像。采用ConvLSTM作为编码器的特征提取器的好处如下：

首先，ConvLSTM适用于双周期数据集。ConvLSTM可以同时进行全局和局部信息提取：它可以通过卷积算子捕获短期(局部信息)中的时间特征；并通过循环算子处理短期之间(即全局信息)的关系和总体变化趋势。简言之，ConvLSTM提供了更为紧凑的全局-局部操作；

ConvLSTM可以极大地缓解LSTM常见的梯度消失问题。与LSTM相比，ConvLSTM在保留了三个非线性门控机制的同时，还进一步压缩循环中的时间步长：如图3所示，C₀，C₁，C₂，…C₇分别表示0-7时刻的过渡层状态变量；H₀，H₁，H₂，…H₇分别表示0-7时刻的隐藏层状态变量；z₁，z₂，…z₇分别表示1-7时刻的输入的短周期数据。ConvLSTM可以将具有窗口大小＝12到窗口大小的数据压缩到窗口大小＝7(L÷p＝P)L表示模型输入的原始数据的长度，p表示输入数据中，单个短周期的数据长度。P表示输入数据中，长周期的数据长度，也即短周期的个数。这种时间步长的压缩可以有效地减轻消失的梯度，并有助于捕获长期依赖。这种压缩可以有效缓解梯度消失，并有助于捕捉长期依赖。

整个编码器包含了两组结构：

Encoder_w＝[Encoder_l；Encoder_s])，

其中

代表一维ConvLSTM，图2编码器中的部分ConvLSTM代表

对应图2中Encoder_l，部分ConvLSTM代表

对应图2中Encoder_s。为了增强模型的非线性建模能力,采用Relu(x)＝max(0,x)作为卷积算子的激活函数。

Encoder_l和Encoder_s代表了两组ConvLSTM的最后一步的输出；

[Z_t[1:q]；Encoder_l[1:q]]是将输入Z_t的前q步骤和Encoder_l的前q个步骤进行合并得到的矩阵,也即Z‘_t。

Encoder_w是Encoder_l和Encoder_s进行合并得到的，他将会被作为上下文编码向量输入到解码器中。

解码器结构：

1、双向长短期记忆网络(BiLSTM)

BiLSTM层是解码器的主体结构。BiLSTM的核心设计思想是，当前时刻的输出值不仅与过去的状态有关，而且可能与未来的状态也有关。代表了未来一段时间内的连续预测。当预测一个未来时刻的价值时，不仅应该关注那一刻本身，而且应该关注它周围时刻的未来愿景。信息在未来时刻的双向相互作用，可以促进前向后信息的融合，增强模型的稳健性，提高预测性能。详细计算过程如下：

Decoder＝func([Decoder_f；Decoder_b])，

其中：

代表循环神经网络层，BILSTM本质上是由两层LSTM组成的；

代表前向LSTM层，其输入为Encoder_w，

代表后向LSTM层，其输入为Encoder_w的反向备份；func是用于合并两个LSTM层状态的函数，本发明中，采用的是相加操作。

选择BiLSTM的t＝h和t＝h+1步的输出，将其输入到融合注意模块。

1、融合注意力机制：自相关性，即序列相关性，是时间序列的重要系数之一。它可以反映一段时间序列中不同时间步骤之间的关系。由于时间序列的自相关性，许多预测方法都存在一定的预测延迟现象：即h时刻的真实值与h+1时刻的值更为接近。传统的解决方法进行差分操作，将一阶差分值作为一个单独的回归目标，这将增加模型计算的负担。因此，本发明提出使用注意力机制来自适应地捕捉h和h+1之间的关系，如图2所示，将其称为融合注意力机制。

是BiLSTM的输出结果，来源于Decoder。H是BiLSTM最后一个时刻的隐藏状态。r代表了加权求和的结果：

α＝softmax(W_αHM^T)，

W_α是一个要进行学习的权重矩阵。

最后使用全连接层来得到神经网络的预测输出：

W^N,b^N代表要进行学习的权重和偏置。

自回归组件：

许多研究表明，对于神经网络而言，尺度不敏感是一个常见的问题，这会导致网络无法较好地预测未来可能出现的突变值或者峰值。对此，本发明为电力负荷数据集提出了新的自回归组件策略。由于双周期具有两种重复模式，例如日循环和周循环。即对于每天相同的时间点，数据之间的大小通常是相似的。因此，本发明中的策略是将每一个短周期的同一时间点提取出来，进行自回归相加。这种方法可以以更少的数据量和计算代价，获取更长的时间信息：

b^ar分别表示AR模型需要学习的权重和偏置矩阵。例如：如果模型的输入数据是过去一周的数据(7*24小时)并且想要预测接下来一天3点的精确预测值，则将输入数据中每天3点的数据进行自回归式地相加。最终将神经网络yN和自回归组件yL的输出进行相加，得到最终的预测值：

为了合理评估本发明算法的预测性能，将本发明算法模型在五个公开基准数据集上进行了大量的实验，并和八个主流预测模型进行了预测效果对比。

下面对于五个公开数据集的简要介绍，表2总结了五个数据集的数学统计信息。

表2.数据集基本统计信息

Electricity：该电力数据集记录了321位用户从2012到2014年的电力消耗数据。数据的采样频率为1小时1次；

Traffic：该交通数据集描绘了2015到2016年，旧金山湾区高速公路的道路占用率，共包含了862个不同传感器的记录。数据的记录频率为1小时1次；

Ausgrid-GC：数据来源于澳大利亚电力公司。数据集记录了299位用户的电力总消耗量。时间跨度为三年(2010-2013年)，采样频率为1小时1次；

Ausgrid-GG：数据来源于澳大利亚电力公司。数据集记录了298位太阳能用户的发电量。时间跨度为三年(2010-2013年)，采样频率为1小时1次；

Solar-AL：数据记录了2005年到2006年，美国阿拉巴马州的137家光伏发电站的发电量。原始记录频率为10分钟1次。

结果展示：表3从CORR、RRSE和RMSE三个指标的角度，总结了在5个数据集上，9种预测方法获得的评测结果。实验结果表明，本发明模型(即DSLSTM)在多边量预测任务中具有很大的优势，在60个指标中，DSLSTM在其中的45个指标中获得了最佳性能。在其余15个指标中，DSLSTM占据了10个第二好的排名。特别是随着预测时间点的变大，本发明的模型表现出比其他方法更坚固的稳定性，这主要归功于新提出的AR组件。此外，DSLSTM的结构旨在解决混合周期模式(双周期)。然而，对于单一时期，DSLSTM也显示了巨大的优势。这表明DSLSTM具有广泛的普遍性，很可能是由于ConvLSTM能够缓解消失的梯度问题并捕获长期依赖。此外，为了从统计学角度证明DSLSTM的有效性，使用RRSE作为示例指标，并在DSLSTM和其他8种方法之间执行双样本t检验，显著性水平设置为p＝0.05。检验结果表明，与其它模型方法相比，DSLSTM有着明显的改进。综上所述，DSLSTM模型在四个基准数据集上实现了最佳的预测结果。

表3在CORR、RRSE和RAE上获得5个典型数据集的预测评价

此外，为了更好地解释DSLSTM的工作原理并检查其组件的重要性，设计了以下模型变体：

DSLSTMw/oFUSION：删除了DSLSTM中的融合注意机制。

DSLSTMw/oBiLSTM：用LSTM替换解码器中的BILSTM。

ConvLSTM：删除了解码器结构，模型直接从ConvLSTM输出预测。

调整了三个模型的隐藏层数量，使其具有与完整的DSLSTM模型类似的模型参数总数量。图6至图8展示了在RRSE上对比的结果。若干重要观察值得强调：

DSLSTM在几乎所有数据集中都实现了最佳结果。缺少重要部件对模型的预测有不同程度的影响。从图6至图8也可以直观地看出，预测的时间点越远，预测就越困难；

删除解码器部分对预测结果产生强烈负面影响，并显著降低大多数数据集的性能下降。这些效果说明了融合向前向后的未来信息的重要性；

BILSTM的作用比融合注意力的作用更为明显。这很容易解释：BILSTM相比融合注意力机制要涉及更广的时间范围和更多的时间信息。模型获得的时间信息越多，预测效果就越好。

在实验过程中，还特别可视化了VAR-MLP、DSLSTMw/oFUSION和DSLSTM的两周预测结果，以突出强调融合注意力机制在缓解预测滞后方面的作用。

如图9至图11所示,虚线表示真实值，实线表示预测值，具有显著预测延迟的间隔用虚线框标记。总体而言，预测性能按：DSLSTM>DSLSTMw/oFUSION>VAR-MLP。关注图9和10中的延迟间隔，可以看到实际值和预测值之间的误差实际上很小，但不利于做出更准确的预测。DSLSTM可以通过融合注意自适应地捕获相邻时间点之间的关系，并减轻预测滞后。此外，通过图10和图11发现DSLSTM可以成功捕获每日和每周重复模式。这表明，ConvLSTM确实可以提取混合的长周期和短周期模式。总之，完整的DSLSTM架构是所有模型变体中最先进，最鲁棒的多变量预测模型。

最后，为了验证新的自回归策略的适用性，实验设计比较了两种自回归策略在四种模型(DSLSTM、LSTNet、MTNet、MLCNN)上的表现性能：

New-AR：新提出的AR组件策略，该策略会将每个短周期内的相同时间点的数据值线性相加起来；

Previous-AR：LSTNet提出的AR策略，该策略则是选择将输入数据中的最后一个短周期中所有时间点的值相加。MLCNN和MTNet在其原始模型中采用相同的策略。

表4至表7显示了这两种策略的比较结果。本发明提出的自回归策略不仅对于DSLSTM有效，也改进了其他三种深度学习模型的预测结果。这表明本发明新AR组件是要优于以前的AR组件的；此外，预测的时间点越远，本发明提出的自回归策略优势就越明显：据统计，在四个时间点上(3，6，12，24)，本发明的策略占有的比重依次为：0.75，0.83，0.92，1.0。同样，还对两种策略的结果进行两个样本t测试，p值远远低于0.05意义级别。总体而言，这些结果在统计学上证明了本发明的AR战略的有效性。基于上述分析，本发明提出的新的AR策略可作为处理预测突变问题的双周期数据集的更好选择。

表4在CORR、RRSE和RAE指标上测量的DSLSTM模型上两种策略的比较

表5在CORR、RRSE和RAE指标上测量的LSTNet模型上两种策略的比较

表6在CORR、RRSE和RAE指标上测量的MTNet模型上两种策略的比较

表7在CORR、RRSE和RAE指标上测量的MLCNN模型上两种策略的比较

具体实施例：

通常面临的数据集是多变量(多用户)数据集，因此需要考虑不同变量的尺度大小可能会影响评估的质量。使用以下指标来避免该问题：

经验相关系数(Empirical Correlation Coefficient，CORR)：

ΔY_it＝Y_it-mean(Y_i)，

均方根相对误差(Root Relative Squared Error，RRSE)：

相关性绝对值误差(Relative Absolute Error，RAE)：

Ω_Test代表划分出来的测试集。RRSE和RAE分别是均方根误差(RMSE)和平均绝对误差(MAE)的归一化版本，避免了多变量评测时尺度大小会造成的干扰。对于RRSE和RAE，值越低代表预测结果越好；CORR来说，情况正好相反。

按照预测细节及策略示意如下：

按照0.6:0.2:0.2的比例将原始数据集划分为训练集，验证集，测试集。训练集用于训练DSLSTM模型，通过计算损失函数，反向传播调整模型参数；验证集用于挑选、保存训练过程中表现最好的模型；测试集用于独立评估模型的预测性能；

对于Traffic，Electricity，Ausgrid-GC，Ausgrid-GG数据集，预测思路是用过去一周的电力负荷数据(7*24)来预测未来一天中第3，6，9，24小时的电力负荷数据；对于Solar-AL数据集，预测思路是用过去一天的太阳能发电数据(24*6)来预测未来两个小时内第30，60，90，120分钟的发电数据；

对于模型中的超参数，通过网格搜索的方法查找最佳的参数配置组合。隐藏层数量的范围为[30,40,45]；dropout的大小范围为[0.2，0.25，0.3，0.35]；初始学习率为0.001；批处理大小为128；训练采用的优化器为自适应矩估计(Adam)优化算法；训练周期epoch大小默认为200，并且设置了早停机制：当验证集指标在50个周期内没有变得更好便会自动停止退出训练；归一化方法为常见的min-max归一化方法：

所有实验均在一台拥有8张Nvidia 2080ti 11GB GPU的机器上完成。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其它所述实施例中。

Claims

1.一种基于神经网络的混合时间周期模式多变量时序预测方法，其特征在于包括，

2.根据权利要求1所述的基于神经网络的混合时间周期模式多变量时序预测方法，其特征在于，所述多个卷积长短期记忆网络单元包括P个一号卷积长短期记忆网络单元和P+1个二号卷积长短期记忆网络单元；P为混合周期原始输入数据中长周期的数据长度；

3.根据权利要求2所述的基于神经网络的混合时间周期模式多变量时序预测方法，其特征在于，解码器对混合周期原始输入数据和未来时序数据特征进行处理的具体方法包括：

4.根据权利要求1所述的基于神经网络的混合时间周期模式多变量时序预测方法，其特征在于，每组混合周期原始输入数据由周期内部的多个连续时间点数据组成。

5.根据权利要求3所述的基于神经网络的混合时间周期模式多变量时序预测方法，其特征在于，

所述混合周期原始输入数据为连接七天的七组交通数据，每组交通数据中包括24小时的观察数据。