CN113962431A

CN113962431A - 一种两阶段特征处理的母线负荷预测方法

Info

Publication number: CN113962431A
Application number: CN202111053654.7A
Authority: CN
Inventors: 刘宏达; 张爽; 赵勇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-09-09
Filing date: 2021-09-09
Publication date: 2022-01-21
Anticipated expiration: 2041-09-09

Abstract

本发明提供一种两阶段特征处理的母线负荷预测方法，该方法主要包括两阶段特征处理部分和母线负荷预测部分。两阶段特征处理部分是指，第一阶段特征处理：历史负荷相关性分析和其他变量特征选择；第二阶段特征处理：基于自动编码器的负荷特征提取，母线负荷预测部分通过LSTM网络来实现。本发明通过皮尔森相关系数法分析历史负荷相关性，使历史负荷的选择更加具有科学性，并且通过自动编码器对历史负荷数据的特征提取，可以更好的挖掘到数据内部的联系和规律。

Description

一种两阶段特征处理的母线负荷预测方法

技术领域

本发明属于负荷预测领域，具体涉及的是一种两阶段特征处理的母线负荷预测方法。

背景技术

不同于系统负荷，母线负荷是指由变电站中主变压器供给某个供电区域终端负荷的总和，它是系统负荷的一个组成部分。母线负荷预测的预测对象对应电力线路图中的母线。精准的母线负荷预测可以有效提升电网调度水平，有利于电网安全稳定运行。相较于系统负荷，母线负荷具有量级低、随机性强的特点，因而母线负荷的规律性更差。同时，母线负荷是供给较小范围的区域负荷的总和，由于供电区域内用户性质的差异，造成了各母线负荷的负荷成分和负荷特性的不同。即影响母线负荷的因素各不相同。

深度学习是目前负荷预测领域新兴的技术。基于深度网络的母线负荷预测法是通过挖掘历史负荷数据、气象数据(如温度、湿度和辐照度等)和时间特征等众多数据来找到母线负荷复杂的规律，从而实现对母线负荷的预测。但是若将所有特征作为网络的输入，导致系统计算速度变慢，而且如果输入中存在相关性小或无关特征，还会造成预测精度降低，因此特征选择显得尤为重要。

随机森林算法能够计算单个特征的重要程度，使用随机森林方法对母线负荷预测的历史负荷特征、气象特征和时间特征的重要度进行排序分析，选择重要度较高的特征作为母线负荷预测的输入特征。长短期记忆(LSTM)网络擅长处理时间序列问题，因此母线负荷预测网络使用长短期记忆(LSTM)网络，将经过特征选择的特征作为LSTM网络的输入，待预测母线负荷作为预测网络的输出，对LSTM网络进行训练，来找到输入特征和输出待预测母线负荷之间的关系，从而实现母线负荷预测。

在母线负荷预测中，对历史负荷数据强关联时刻的选择一般采用经验法确定，常采用待预测时刻前一时刻、前一天同一时刻和前七天同一时刻历史负荷作为输入，但经验法往往缺乏充分的科学依据。同时，对于规律性较为复杂的母线负荷，只通过深度学习网络进行预测可能对数据规律挖掘不充分，从而影响母线负荷预测精度。

发明内容

本发明的目的是通过第一阶段对历史负荷数据、气象和时间等特征的选择，来找到影响母线负荷的关键因素，利用第二阶段自动编码器对母线负荷数据的重新编码，来挖掘母线负荷更深层次的规律的一种两阶段特征处理的母线负荷预测方法。

本发明的目的是这样实现的：

一种两阶段特征处理的母线负荷预测方法,其特征是:包括以下步骤:

步骤1:原始数据的预处理，对历史负荷数据进行缺失值填补并将所有数据归一化；

采用线性插值法填补缺失数据，计算公式如下所示。

式中:x_t为填补的数据值；l为最近可用数据与待填补数据之间的距离。

采用min-max归一化方法，归一化方法如下式：

式中，x^*为归一化后的结果，x为原数据集数值，x_min为原数据集的最小值，x_max为原数据集的最大值，x^*为归一化后的结果。

步骤2:通过皮尔森相关系数法对历史负荷进行相关性分析，计算待预测时刻负荷与历史负荷的相关系数，找到与待预测时刻相关性较高的时刻，使其作为自动编码器的输入，用于第二段特征提取；

皮尔逊相关系数，用于度量两个变量之间的相关程度，相关系数越大，两变量的相关性越强，反之相关性越弱。假设两个变量X和Y为n维向量，其中X＝[X₁,X₁,…,X_n]， Y＝[Y₁,Y₁,…,Y_n]，则两变量间的皮尔逊相关系数为：

式中，

和

分别为变量X、Y的均值。

以母线历史负荷序列为样本进行皮尔逊相关性分析，设当前待预测负荷序列i为L_i＝{l(t),l(t-1),…,l(t-n)}，则待预测负荷序列的x个时刻前的历史负荷序列可表示为L_i-x＝{l(t-x),l(t-x-1),…,l(t-x-n)}，分析待预测负荷序列L_i与历史负荷序列L_i-1，L_i-2，… ，L_i-x之间的相关性，得到的相关系数是-1～1之间的有理数，其绝对值越大表示相关程度越大，其正负表示相关性的正负。

步骤3:根据XGboost算法对气象特征的重要性评分，进行特征选择；

XGboost算法会计算当前特征输入时的预测误差并对特征重要性进行评分，特征的重要性是依据该特征对预测结果的影响程度来确定，将全部气象和时间特征作为Xgboost算法的输入特征，通过算法计算对特征重要性进行排序，按照特征重要性由高到低进行组合；

XGBoost算法是由多个弱学习器组成的一个加法模型，XGBoost由t个模型组成的一个加法运算式，如下式所示。

式中，x_i表示数据集第i个数据点的特性向量，f_t为每一棵树的结构与节点的权重，

为最终的输出结果。

每个特征变量的重要程度要根据该特征给要预测的负荷带来的信息增益来决定。根据决策树的构建原则可知如果节点分裂的信息增益变大则节点进行分裂，根据信息增量我们可以得到特征的重要程度打分。Xgboost模型中每棵决策树的构建与训练如下式所示。

式中，

部分为训练误差，

为树的复杂度的总和。每棵树的训练采用增量训练，即每一次都是在保留原有模型的基础上，添加一棵新的树到模型中去。

最终整个Xgboost模型的计算结果：

式中，

是第i个样本在第t轮的模型预测值，其保留了t-1轮模型预测值，并加入第n 棵树的预测值。

步骤4:使用历史负荷数据对自动编码器进行训练，将训练完成的自动编码器解码部分删除，利用编码部分进行特征提取；

自动编码器是一种自监督神经网络，该网络由编码器和解码器两部分组成，通过对数据的编码和解码来重构输入数据，使其隐藏层部分学习到该输入的良好特征；利用自动编码器提取数据特征的能力，首先通过使用历史负荷数据对自动编码器进行训练，使其重构数据的均方误差最小化，从而学习到历史负荷的深层规律；随后，将训练完成自动编码器解码部分删除，只使用剩下的编码器网络部分作为预测网络的输入，即将自动编码器的隐藏层部分作为下面母线负荷预测网络的输入；

步骤5:对提取的历史负荷特征和选择后特征进行拼接；

步骤6:将拼接特征作为LSTM网络的输入，待预测负荷作为网络的输出，利用样本对其进行训练和预测；

步骤7:反归一化预测结果，得到真实的预测负荷。

与现有技术相比，本发明的有益效果是：

本发明通过皮尔森相关系数法分析历史负荷相关性，使历史负荷的选择更加具有科学性，并且通过自动编码器对历史负荷数据的特征提取，可以更好的挖掘到数据内部的联系和规律。

附图说明

图1为本发明融合自动编码器与LSTM网络模型图；

图2为本发明两阶段特征提取的母线负荷预测流程图；

图3为本发明历史负荷相关性分析图；

图4为本发明特征重要性排序图；

图5为本发明不同特征选择误差图；

图6为本发明随机抽取的连续3日的预测结果图；

图7为本发明自动编码器处理图；

图8为本发明LSTM单元结构图。

具体实施方式

下面结合附图对本发明具体实施方式做进一步说明。

一种两阶段特征处理的母线负荷预测方法,包括以下步骤:

采用线性插值法填补缺失数据，计算公式如下所示。

采用min-max归一化方法，归一化方法如下式：

式中，

和

分别为变量X、Y的均值。

为最终的输出结果。

式中，

部分为训练误差，

最终整个Xgboost模型的计算结果：

式中，

自编码器通常由一个三层或者三层以上的神经网络来构成，图给出了一个三层结构的自动编码器的例子。

其中

为原始特征的输入层，

为隐藏层，

为输出层，其中输入层和输出层的神经元数量必须相同。编码器将输入层向量映射到向量空间

中，解码器从向量空间

重构输入向量。

由图7可知自动编码器的工作原理如下式所示。

通常f(·)为s型函数，其中W¹、b¹和W²、b²分别代表编码器和解码器参数。

步骤5:对提取的历史负荷特征和选择后特征进行拼接；

相对于传统的神经网络，LSTM把隐藏层设计成更复杂的结构，主要通过遗忘门、输入门、输出门来增加或删除记忆单元的信息。LSTM神经网络就是为了解决梯度消失的问题而产生的，结构是基于RNN的改进。其计算节点由输入门、输出门、遗忘门组成。输入门用来控制信息输入；遗忘门用来控制细胞历史状态信息的保留；输出门用来控制信息输出。门使用一个激活函数，使得遗忘门的输出值在0到1之间。当遗忘门输出为0时，表示将上一状态的信息全部丢弃；当遗忘门输出为1时，表示上一状态的信息全部保留。

LSTM单元结构具有特殊的门结构，分别为遗忘门、更新门和输出门。通过门控状态来控制传输状态，记住需要长时间记忆的信息，忘记不重要的信息。这些门结构接收前一时刻t-1 的输出值a^＜t-1＞与当前时刻的输入数据x^＜t＞，此外，每个单元结构还接收一个内部信息作为输入，即记忆单元的状态c^＜t-1＞。在接收到这些信息后，通过遗忘门对记忆单元c^＜t-1＞进行处理，决定从单元状态中丢弃什么信息，新状态的候选值c^＜t＞与更新门的输出相乘并与经过遗忘门处理后的c^＜t-1＞叠加，得到了新的记忆单元状态c^＜t＞。c^＜t＞经过非线性函数运算与输出门的输出结果结合形成了单元结构的输出a^＜t＞。其中具体计算公式如下：

式中，

分别表示遗忘门，更新门，输出门的输出值。W_f，W_u，W_o为各门的权重矩阵，b_f，b_u，b_o为偏置向量，σ为sigmoid或tanh激活函数。

步骤7:反归一化预测结果，得到真实的预测负荷。

本发明通过第一阶段对历史负荷数据、气象和时间等特征的选择，来找到影响母线负荷的关键因素，利用第二阶段自动编码器对母线负荷数据的重新编码，来挖掘母线负荷更深层次的规律。经过两阶段的特征处理,充分适应不同母线的不同特性和规律。

本发明揭示了一种两阶段特征处理的母线负荷预测方法，该方法主要包括两阶段特征处理部分和母线负荷预测部分。两阶段特征处理部分是指，第一阶段特征处理：历史负荷相关性分析和其他变量特征选择；第二阶段特征处理：基于自动编码器的负荷特征提取，母线负荷预测部分通过LSTM网络来实现。第二阶段特征提取和母线负荷预测部分由自动编码器和 LSTM融合模型完成，模型如图1所示。

所述第一阶段特征处理，对历史负荷时刻的相关性分析和对气象和时间特征的选择。利用皮尔森相关系数对历史负荷数据进行相关性分析，计算待预测时刻负荷与历史负荷(一般为待预测时刻前七天所有时刻负荷)的相关系数，找到相关系数较高的几个时刻并通过实验测试来确定最优的历史负荷时刻组。通过Xgboost算法来实现气象和时间特征的选择，该算法会计算当前特征输入时的预测误差并对特征重要性进行评分，特征的重要性是依据该特征对预测结果的影响程度来确定。将全部气象和时间特征作为Xgboost算法的输入特征，通过算法计算对特征重要性进行排序，按照特征重要性由高到低进行组合，并测试不同组合下的预测精度，将其误差作为参考，以确定最佳的特征组合。

所述第二阶段特征处理：基于自动编码器的母线负荷特征提取。自动编码器是一种自监督神经网络，该网络由编码器和解码器两部分组成，通过对数据的编码和解码来重构输入数据，使其隐藏层部分学习到该输入的良好特征。我们利用自动编码器提取数据特征的能力，首先通过使用历史负荷数据对自动编码器进行训练，使其重构数据的均方误差最小化，从而学习到历史负荷的深层规律。随后，将训练完成自动编码器解码部分删除，只使用剩下的编码器网络部分作为预测网络的输入，即将自动编码器的隐藏层部分作为下面母线负荷预测网络的输入。

母线负荷预测部分由LSTM网络完成，LSTM网络的输入为经自动编码器重新编码的历史负荷和特征选择后的气象和时间特征进行拼接后的数据，待预测时刻母线负荷作为LSTM网络的输出，通过对LSTM网络的训练找网络输入量和输出量之间的联系。这样实现了输入历史负荷、气象和时间等数据到网络中，来预测未来时刻的母线负荷，完成对母线负荷的预测。

为了更容易理解本发明的实施和利用过程，下面给出示范案例。数据来源于我国某地区 220KV母线变电站主变高压侧有功负荷，采样时间范围为某年7月29日到次年7月28日，采样分辨率为5min，每天采集288个样本点。该数据缺失率只有0.43％，且较为离散，故采用线性插值法对其填补。

将待预测时刻负荷与前七天所有历史时刻负荷利用皮尔森相关系数进行分析，结果如图3 所示。选择与待预测时刻相关性较高的前n个不同时刻按相关性由高到低进行组合，测试不同组合下的LSTM网络负荷预测结果，如下表所示。

由测试结果可知，选择待预测时刻的前两个时刻的历史负荷作为预测网络的输入，得到的预测精度较高且消耗的计算资源较小。

通过XGboost算法对气象和时间特征的重要性进行排序，结果图4所示。采用Xgboost算法的预测误差结果作为参考，测试输入不同特征数量下的预测误差，如图5所示。

由图5可以看出输入特征数量保持在15个的时候取得了最佳效果，在15个特征的基础上继续减少特征数量，误差呈现上升趋势，故选取15个重要性较高的特征作为预测模型输入。

本发明所提的自动编码器和LSTM融合模型的自动编码器部分由LSTM单元组成，编码器和解码器分别用两层LSTM构成，分别具有128个和32个LSTM单元，损失函数为MAE，优化器基于Adam算法。该模型负荷预测部分的LSTM设置为两层，LSTM单元分别设置为128和64，为防止过拟合，Dropout设置为0.2，损失函数为MSE，Adam梯度下降方式优化损失函数，批大小均设置为288，迭代次数为100。

将选定历史负荷数据输入到自动编码器中重新编码，并将其与选择的特征进行拼接送入 LSTM预测网络。将数据按80％和20％的比例划分为训练集和验证集，选取验证集中7月连续三天的预测结果展示，如图5所示。选用预测问题中常用的平均绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)指标来评价预测结果，如下表所示。

MAE	MSE	RMSE	MAPE
				0.5669	1.9021	1.3791	0.6944

从图6中可以看出，该母线负荷预测方法在负荷变化较为平稳时和在负荷变化较为剧烈、波动较大时，预测值与真实值均极为接近，预测精度高。

Claims

1.一种两阶段特征处理的母线负荷预测方法,其特征是:包括以下步骤:

采用线性插值法填补缺失数据，计算公式如下所示。

采用min-max归一化方法，归一化方法如下式：

皮尔逊相关系数，用于度量两个变量之间的相关程度，相关系数越大，两变量的相关性越强，反之相关性越弱。假设两个变量X和Y为n维向量，其中X＝[X₁,X₁,…,X_n]，Y＝[Y₁,Y₁,…,Y_n]，则两变量间的皮尔逊相关系数为：

式中，

和

分别为变量X、Y的均值。

以母线历史负荷序列为样本进行皮尔逊相关性分析，设当前待预测负荷序列i为L_i＝{l(t),l(t-1),…,l(t-n)}，则待预测负荷序列的x个时刻前的历史负荷序列可表示为L_i-x＝{l(t-x),l(t-x-1),…,l(t-x-n)}，分析待预测负荷序列L_i与历史负荷序列L_i-1，L_i-2，…，L_i-x之间的相关性，得到的相关系数是-1～1之间的有理数，其绝对值越大表示相关程度越大，其正负表示相关性的正负。