CN114548592A

CN114548592A - 一种基于cemd和lstm的非平稳时间序列数据预测方法

Info

Publication number: CN114548592A
Application number: CN202210199667.3A
Authority: CN
Inventors: 雷建军; 秦振宇; 程旭
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-27

Abstract

本发明属于时间序列预测领域，尤其涉及一种基于CEMD和LSTM的非平稳时间序列数据预测方法，包括通过历史数据构建训练集，通过实时数据构建测试集；使用经验模态分解将测试集和训练集中的目标序列分解为n个本征模态函数和1个残差序列；通过聚类算法对n个本征模态函数聚类为m组，形成m个子序列；利用训练集中子序列的特征向量对深度LSTM神经网络进行训练，获取完成训练的深度LSTM神经网络；将测试集中子序列输入完成训练的深度LSTM神经网络进行预测，得到非平稳时间序列预测结果；本发明结合了EMD和聚类算法对非平稳时间序列进行重构，使得预测模型的误差更小、训练时间更短。

Description

一种基于CEMD和LSTM的非平稳时间序列数据预测方法

技术领域

本发明属于时间序列预测领域，尤其涉及一种基于聚类经验模态分解(Clustering Empirical Mode Decomposition，CEMD)和长短期记忆网络(Long Short-Term Memory，LSTM)的非平稳时间序列数据预测方法。

背景技术

时间序列数据是指同一种统计指标的数值按其发生时间先后排序而成的序列，用于描述现象随时间变化的情况，常见的时序数据包括股票价格、气温变化、工业传感器数据、服务器系统监控数据、车联网数据等。随着云计算技术和IoT的发展，时间序列数据的数据量急剧膨胀，高效地分析时间序列数据使、其产生业务价值成为一个热门的研究领域。然而由于时间序列数据可能受到某些客观因素的影响表现出非平稳性，比如光伏发电数据受气象因素的影响比较大，导致白天发电量非常大，而夜晚发电量几乎为0；网络流量数据可能因为大量用户同时访问导致某一时段的流量陡然增加。对于不平稳的时间序列数据单纯使用传统预测方法进行预测得到的结果非常不理想，目前使用比较多的非平稳数据预测方法主要就是对时间序列进行分解。下面将针对目前已有的非平稳时间序列数据预测方法进行描述。

申请号为202011605395.X的一种基于ARIMA-LSTM-DBN的光伏发电预测方法提出的ARIMA-LSTM-DBN光伏发电模型，没有针对时间序列数据的非平稳性进行处理，所以可能存在预测精度不足的问题；申请号为201910533501.9的一种短期光伏发电预测方法及系统以及《电力工程技术》第39卷，第2期论文基于EMD-LSTM的光伏发电预测模型都使用了信号分解的方法对非平稳的数据进行处理，但是都存在分解出来的子序列数量较多导致训练深度神经网络的时间较长的问题。同时EMD自身的特性会导致因为训练集和测试集数据的规模不同分解出来IMFs数量不同的问题(比如训练集分解出11个IMFs和一个res，然后训练了12个预测模型，但是测试集数据分解出来8个IMFs和一个res，就会造成预测模型和测试集序列数量不等的问题)。

发明内容

针对上述问题，本发明提出一种基于CEMD和LSTM的非平稳时间序列数据预测方法，包括获取目标数据的历史数据，对历史目标数据进行异常值处理，得到处理后的目标数据；目标数据为光伏发电量数据；根据处理后的历史目标数据预测得到用于光伏发电系统电力调配的目标光伏发电量数据的时序预测具体包括以下步骤：

S1、通过历史数据构建训练集，通过实时数据构建测试集；

S2、使用经验模态分解将测试集和训练集中的目标序列分解为n个本征模态函数和1个残差序列；

S3、通过聚类算法对n个本征模态函数聚类为m组，形成m个子序列；

S4、利用训练集中子序列的特征向量分别对深度LSTM神经网络和AR模型进行训练，获取完成训练的深度LSTM神经网络和AR模型；

S5、将测试集中子序列输入完成训练的深度LSTM神经网络和AR模型进行预测，得到非平稳时间序列预测结果；

S6、深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正，得到最终预测结果。

进一步的，将训练集和测试集的m个子序列分别与目标序列具有高度相关性的特征向量进行拼接组合，将拼接后的子序列作为深度LSTM神经网络的输入。

进一步的，通过历史数据构建训练集或者通过实时数据构建测试集的过程包括对数据集进行预处理保证数据格式的一致性；预处理后进行标准化处理，即将数据按比例缩放，将数据转化为无量纲的纯数值。

进一步的，使用经验模态分解将目标序列分解为n个本征模态函数和1个残差序列的过程包括：

S21、从训练集或者测试集中分离出目标序列x(t)，本发明中一个训练集或者一个待检测的数据集包含一个目标序列向量和若干个相关特征向量，可以采用pandas自带的iloc函数分离得到目标序列；

S22、初始化r₀＝x(t)，i＝1；

S23、计算第i个IMF，初始化h₀＝r_i-1(t)，j＝1；

S24、找到h_j-1(t)的局部极大值点和局部极小值点；

S25、对h_j-1(t)的局部极大值点和局部极小值点分别进行三次样条函数插值，形成上、下包络线；

S26、计算上、下包络线的平均值m_j-1(t)；

S27、判断h_j(t)＝h_j-1(t)–m_j-1(t)是否为本征模态函数，如果是则imf_i(t)＝h_j(t)且转到步骤S28；否则转到步骤S24；

S28、计算序列的剩余量r_i(t)＝r_i-1(t)–imf_i(t)；

S29、如果r_i(t)极值点数仍多于2，则i＝i+1并转到步骤S23；否则，分解结束，r_i(t)作为残差序列；目标序列

进一步的，通过k-Shape聚类算法对n个本征模态函数聚类为m组，形成m个子序列的过程包括：

S31、计算各个本征模态函数的动态时间归整值，将该值作为各个本征模态函数之间的相似度；

S32、将n个本征模态函数作为聚类样本，并从中随机选择m个样本作为初始簇心；

S33、将其他样本根据动态时间归整值分别分类到与其最相似的簇心所在的簇，将计算每个样本与其簇内其他样本的距离之和，将该距离之和最小的样本作为新的簇心，重复本步骤直到簇心不再发生变化；

S34、当簇心不再变化，判断是否每个样本的轮廓值是否超过设定的阈值，若超过则输出聚类结果，否则返回步骤S32。

进一步的，样本i的轮廓值表示为：

其中，s(i)为样本i的轮廓值；a(i)为样本i的簇内不相似度，其值为样本i到当前簇中其他样本的平均距离，本发明采用DTW距离；b(i)样本i的簇外不相似度，其值为样本i到当前簇外样本的平均距离。

进一步的，深度LSTM神经网络包括：

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f)；

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i)；

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o)；

其中，f_t,i_t和o_t分别表示遗忘门、输入门、输出门；W_f,U_f,W_i,U_i,W_o,U_o,W_c和U_c是计算过程中的权值矩阵；b_f,b_i,b_o和b_c是偏执向量；x_t是在t时刻的输入；h_t-1是前一时刻LSTM的隐藏状态；σ()是sigmoid激活函数；

表示矩阵乘法

进一步的，通过elbow方法确定m的值。

进一步的，深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正，即计算深度LSTM神经网络的预测结果

和AR模型的预测结果

的预测偏差，根据该预测偏差获取卡尔曼增益，根据卡尔曼增益计算得到最终的预测结果，表示为：

其中，

表示最终的预测结果，H_k为卡尔曼增益。

进一步的，卡尔曼增益H_k表示为：

其中，

表示第k时刻的深度LSTM神经网络的预测偏差；

表示第k时刻的AR模型的预测偏差；H为调节因子，其值通过用户自行调节，其取值范围为[0,1]。

相较于已有的非平稳时间序列预测方法，本发明在数据处理阶段结合了EMD和聚类算法对非平稳时间序列进行重构，使得预测模型的误差更小、训练时间更短。就误差而言，采用了EMD的信号分解方法，把原本波动较大的、不平稳的光伏发电功率数据分解为瞬时频率较小的分量之后分别预测，然后再把预测结果线性相加，使得预测结果与真实值的误差降低。在模型的训练时间方面，本发明使用基于DTW的k-Shape聚类算法把EMD分解得到的分量数据根据波形相似度进一步分类，对于每一个子序列数据训练一个深度LSTM神经网络，大大减少了模型的个数，从而减少了大量模型训练的时间。

附图说明

图1为本发明一种基于CEMD和LSTM的非平稳时间序列数据预测方法流程图；

图2为本发明中CEMD-LSTM预测模型流程图；

图3为本发明中EMD算法流程图；

图4为本发明实施例中采用的k-Shape聚类算法流程图；

图5为本发明实施例中采用的LSTM神经网络模型。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于CEMD和LSTM的非平稳时间序列数据预测方法，包括获取目标数据的历史数据，对历史目标数据进行异常值处理，得到处理后的目标数据；目标数据为光伏发电量数据；将处理后的历史目标数据输入到训练好的CEMD-LSTM模型中，预测得到用于光伏发电系统电力调配的目标光伏发电量数据的时序预测，如图1，具体包括以下步骤：

S1、通过历史数据构建训练集，通过实时数据构建测试集；

S6、深度LSTM神经网络和AR模型得到预测结果输入卡尔曼滤波器进行矫正，得到最终预测结果；

其中，本发明中所述的测试集指对系统性能进行分析的测试数据，也指实际应用过程中的实时数据。

如图2，本实施例中将原始光伏发电量数据经过EMD分解得到17个IMF分量分别为IMF1～IMF17，将17个IMF分量通过基于DTW的聚类算法是指使用动态时间规整作为两个节点之间的距离对节点进行聚类，聚类算法可以选择现有技术中心的任意一种算法，本实施例中选择K-Shape聚类算法，本实施例中选择将17个IMF分量聚类为3个簇，得到3个子序列，每个子序列分别与其他气象特征进行拼接后形成子数据集，将子数据集分别输入深度LSTM神经网络进行预测，所有子数据集的预测结果之和作为深度LSTM神经网络的预测结果；同理，将子数据集输入AR模型进行预测，得到入AR模型的预测结果；深度LSTM神经网络和AR模型的结构可以采用现有技术中已有的结构，此处不再赘述深度LSTM神经网络和AR模型的预测过程；作为一种优选的实施方式，本发明处理光伏发电量数据时，将与其相关的特征进行拼接，如图2，在本实施例中将光伏发电量数据与其对应的其他气象特征进行拼接，其他气象特征包括温度、湿度、天气状况等因素，其他天气特征可以通过从当地气象局爬取。

首先，介绍该发明的大致流程，然后针对流程中比较重要的步骤进行详细介绍说明。图4是该发明的流程图，主要由以下几个步骤：

步骤S1：构建训练集和测试集；为了降低数据的采集频率，在采集训练数据和测试数据的过程中对数据进行降采样处理；

步骤S2：使用EMD将测试集和训练集中的目标序列分解为n个本征模态函数(IMFs)和1个残差(res)序列；

步骤S3：使用基于DTW的k-Shape聚类算法把步骤S2中得到的IMFs聚类为m组，并形成m个子序列(m通过elbow方法确定，为定值)；

步骤S4：将m个子序列和与目标序列具有高度相关性的特征向量进行拼接组合，形成m个子训练集(或测试集)，如果没有其他特征向量可以忽略此步；

步骤S5：分别利用训练集和测试集的特征向量对深度LSTM神经网络进行训练和测试，得到训练完成的深度LSTM神经网络；

步骤S6：将需要预测的目标序列重构为m组，并利用训练完成的深度LSTM神经网络对非平稳时间序列进行预测得到预测结果。

下面将针对上述总体流程中的各个步骤进行详细说明。步骤S1构建训练集和测试集，主要包括以下几个步骤：

步骤P1：数据预处理，主要针对数据集中的异常值和空缺值进行处理，保证数据格式的一致性；

步骤P2：标准化处理，按照公式(1)将数据按比例缩放，落入一个较小的特定区间，把数据转化为无量纲的纯数值。

步骤P3：数据划分，将数据按照训练集占70％、测试集占30％的比例进行划分得到训练集和测试集。

步骤S2使用EMD算法将测试集和训练集中的目标序列分解为n个本征模态函数(IMFs)和1个残差(res)序列，如图3，主要包括以下几个步骤：

步骤E1：从训练集(或者测试集)中分离出目标序列x(t)；

步骤E2：初始化r₀＝x(t),i＝1；

步骤E3：计算第i个IMF，初始化h₀＝r_i-1(t),j＝1；

步骤E4：找到h_j-1(t)的局部极大值点和局部极小值点；

步骤E5：对h_j-1(t)的局部极大值点和局部极小值点分别进行三次样条函数插值，形成上下包络线；

步骤E6：计算上下包络线线的平均值m_j-1(t)；

步骤E7：判断h_j(t)＝h_j-1(t)–m_j-1(t)是否为IMF，如果是则imf_i(t)＝h_j(t)且转到步骤E8；否则转到步骤U4；

步骤E8：计算序列的剩余量r_i(t)＝r_i-1(t)–imf_i(t)

步骤E9：如果r_i(t)极值点数仍多于2，则i＝i+1并转到步骤2；否则，分解结束，r_i(t)作为冗余序列res。目标序列

步骤S3使用基于DTW的k-Shape聚类算法把步骤S2中得到的IMFs聚类为m组，并形成m个子序列(m是定值，通过elbow方法确定)，如图4，其中k-Shape算法的大致流程如下：

步骤K1：计算各个分量之间的DTW值来评估形状的相似度

步骤K2：计算样本i的簇内不相似度a(i)和样本i的簇间不相似度b(i)。其中a(i)是样本i到当前簇中其他样本的平均距离，a(i)越小则说明样本i更应该被聚类到该簇；b(i)是样本i到所有样本的平均距离，b(i)越大说明样本i和其他样本更远，即更应该被聚类到当前簇中。然后根据样本i的簇内不相似度a(i)和簇间不相似度b(i)，定义计算样本i的轮廓系数公式如下：

步骤K3：随机选取m个初始簇心；

步骤K4：根据各个分量和簇心之间的距离，将各个分量分到每个簇中；

步骤K5：判断每个样本所属簇的情况是否发生变化，如果发生变化则重新计算每个簇的中心样本并回到步骤K4，否则继续步骤K6；

步骤K6：判断所有样本的轮廓值是否满足条件，如果满足则输出分组情况并结束，否则回到步骤K3循环执行直到轮廓值满足条件。

步骤S5中分别利用训练集和测试集对深度LSTM神经网络进行训练和测试，模型的训练参数设置可以根据实际情况自行调整，得到训练完成的深度LSTM神经网络。深度LSTM神经网络模型如图5所示。在某一时刻t，深度LSTM神经网络模型通过三个门：输入门i_t、输出门o_t和遗忘门f_t。接收当前时间序列数据以及其他特征的状态x_t和上一时刻LSTM的隐藏状态h_t-1这两个外部信息输入。此外，每一个门还接受一个内部信息输入，即记忆单元状态C_t-1。接收了外部以及内部输入信息后，每一个门通过对不同来源输入进行运算，并且由逻辑函数决定是否激活。输入门经过非线性函数σ的变化与遗忘门处理过的记忆单元状态进行叠加，形成新的记忆单元状态C_t。最终，记忆单元状态C_t经过非线性函数σ变化和遗忘门的动态控制形成LSTM神经网络模型的输出h_t。

模型中的计算如公式(2)-(6)所示

f_t＝σ_g(W_fx_t+U_fh_t-1+b_f) (2)

i_t＝σ_g(W_ix_t+U_ih_t-1+b_i) (3)

o_t＝σ_g(W_ox_t+U_oh_t-1+b_o) (4)

其中，f_t、i_t和o_t分别表示遗忘门、输入门、输出门；W_f、U_f、W_i、U_i、W_o、U_o、W_c和U_c是计算过程中的权值矩阵；b_f、b_i、b_o和b_c是偏执向量；x_t是在t时刻的输入；h_t-1是前一时刻LSTM的隐藏状态；σ()是sigmoid激活函数；

是Hadamard production(一种矩阵乘法)。

以上是采用基于CEMD和LSTM的非平稳时间序列数据预测，预测结果往往还存在误差，本发明在此基础上，利用得到的训练数据对AR模型进行有训练，完成训练的深度LSTM神经网络和AR模型分别对待检测的数据进行预测，将两个模型的预测结果输入卡尔曼滤波器进行优化，得到最终的预测结果，即分解后的IMFs通过LSTM预测得到的结果

和通过AR模型预测得到的结果

预测偏差

和

通过一下公式计算：

计算Kalman增益，表示为：

则卡尔曼滤波器得到的最终预测结果表示为：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。