CN112348168B

CN112348168B - 考虑数据缺失和特征冗余的超短期负荷预测方法及系统

Info

Publication number: CN112348168B
Application number: CN202011162966.7A
Authority: CN
Inventors: 任志超; 叶强; 马瑞光; 程超; 王海燕; 胥威汀; 汪伟; 徐浩
Original assignee: State Grid Sichuan Economic Research Institute
Current assignee: State Grid Sichuan Economic Research Institute
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2023-04-07
Anticipated expiration: 2040-10-27
Also published as: CN112348168A

Abstract

本发明公开了一种考虑数据缺失和特征冗余的超短期负荷预测方法及系统，通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理；通过基于最大信息系数MIC的包裹式特征选择方法,得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；采用S2S‑GRU超短期负荷预测模型，通过序列到序列进行负荷预测，提高对时序信息的处理能力，从而提升超短期负荷预测的精度。本发明考虑到了负荷数据的形态相似性，可以有效筛选出优选特征集合，提高超短期负荷预测的精度。采用S2S‑GRU超短期负荷预测模型通过序列到序列进行负荷预测，进一步提高算法对长时间序列模型的预测能力，避免传统负荷预测任务中输入序列和输出序列长度的限制。

Description

考虑数据缺失和特征冗余的超短期负荷预测方法及系统

技术领域

本发明涉及电力数据处理领域，具体涉及考虑数据缺失和特征冗余的超短期负荷预测方法及系统。

背景技术

精准的超短期负荷预测是实时电力市场运行和辅助服务精细化发展的重要依据。随着电力信息化的推进和智能电表、高级量测技术体系的发展，用电信息呈现出海量化、多元化的特点。目前，用电信息除电力负荷数据外，还包括电压、电流、各用电器能耗等多元异构数据。在更加复杂的电力大数据背景下，有效地利用多元异构的用电信息进行精确的超短期负荷预测具有重要意义。

传统的超短期负荷预测方法主要分为统计模型和机器学习模型两类。统计模型主要包括线性回归模型、卡尔曼滤波器模型、以及时间序列模型，这些模型能够较好地学习数据序列相关性，但是无法准确地拟合其非线性性质。机器学习预测方法则以人工神经网络、支持向量机以及决策树模型等为代表，这些方法可以较好地把握负荷与特征变量之间的非线性关系，但在处理大数据量负荷预测方面，存在收敛速度慢、对时序数据相关性学习能力较差等缺点。近年来，以深度学习为代表的人工智能方法在学习数据深层特征方面表现出优异的性能，其中循环神经网络相较其他神经网络能更好地对动态时序数据进行建模，GRU神经网络和LSTM神经网络通过引入特殊的门结构，可以进一步解决原始循环神经网络中存在的梯度消失问题，被广泛用于时序数据模型中。

但是，现有的超短期负荷预测研究较少考虑到多变量时序数据的数据缺失和特征冗余问题，缺失数据能否有效补全，会很大程度上影响超短期负荷预测的精度；且多变量时序数据的特征冗余问题不仅会造成巨大的计算开销，不相关或部分相关的特征变量还会对模型的预测精度产生负面作用。另一方面，尽管深度学习中的深度LSTM网络、GRU网络等模型具有较好的时序数据学习能力，但其在负荷预测任务中由于输入序列和输出序列长度的限制，一次只能预测一个时间步长，并在下次预测时更新网络状态，这种模式会极大程度上受到先前时间步长预测结果的影响。

发明内容

本发明所要解决的技术问题是现有的超短期负荷预测研究较少考虑到多变量时序数据的数据缺失和特征冗余,直接影响超短期负荷预测的精度，目的在于提供一种考虑数据缺失和特征冗余的超短期负荷预测方法及系统，解决了如何提高超短期负荷预测精度的问题。

本发明通过下述技术方案实现：

一种考虑数据缺失和特征冗余的超短期负荷预测方法，通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理；通过基于最大信息系数MIC的包裹式特征选择方法,得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；采用S2S-GRU超短期负荷预测模型，通过序列到序列进行负荷预测，提高对时序信息的处理能力，从而提升超短期负荷预测的精度。

本发明采用基于改进KNN的缺失数据补全算法可以有效补全数据集中的缺失数据，且相对传统KNN缺失数据补全算法，该算法考虑到了负荷数据的形态相似性，而传统算法仅考虑到了负荷数据之间欧氏距离的差异。基于MIC的包裹式特征选择方法可以有效筛选出优选特征集合，且经过筛选后的优选特征集合可以有效提高超短期负荷预测的精度，MIC在互信息的基础上发展而来，具有公平性和广泛性，且相较皮尔逊相关系数等传统相关性度量指标，MIC可以有效地衡量变量之间的非线性相关性，更适用于负荷数据和影响因素之间的相关性分析。采用S2S-GRU超短期负荷预测模型可以通过序列到序列进行负荷预测，GRU是在LSTM的基础上进行改进优化的神经网络，它具有更快的收敛速度，并保持了和LSTM接近的准确率，序列到序列模型可以进一步提高算法对长时间序列模型的预测能力，相较传统序列到点预测模型，该模型可以避免传统负荷预测任务中输入序列和输出序列长度的限制，通过序列到序列进行负荷预测，提高负荷预测精度。

进一步的，通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理，具体包括以下步骤：步骤S11：设X^C为样本数据x的集合，x表示为n维空间的特征向量(a₁(x),a₂(x),...,a_n(x))，其中x^*为集合X^C中数据有缺失的样本；步骤S12：计算x^*与集合X^C中其他所有样本x之间的弗雷歇距离，计算弗雷歇距离时只考虑x^*中没有缺失数值的坐标，最终确定x^*的K个最近邻；步骤S13：根据所述K个最近邻相应坐标位置上数据的均值，插补x^*的缺失坐标值。

进一步的，通过MIC算法对输入特征变量和负荷数据做相关性分析，结合负荷预测模型，通过后向搜索策略得到最优的特征集合，基于MIC的嵌入式特征选择算法流程包括以下步骤：步骤S21：对每一个特征变量和待预测变量计算MIC；步骤S22：将全部特征自变量集合作为第一轮的特征候选集，从完整的特征候选集合开始，将其作为输入数据输入负荷预测模型进行训练，每轮舍弃一个相关性最低的特征变量，直至负荷预测模型满足终止阈值；步骤S23：将步骤S22中负荷预测准确率最高的特征集合作为最终优选特征集合，准确率评价指标采用平均绝对误差MAE和平均绝对百分比误差MAPE评价函数。

进一步的，使用超短期负荷预测模型S2S-GRU，通过序列到序列对多变量多步长用电信息集合，进行有监督学习，包括以下步骤：步骤S31：GRU采用门控循环神经网络结构，包括更新门和重置门，所述更新门用于控制前一时刻的状态信息保留到当前状态中的程度，所述重置门用于确定是否要结合当前状态与先前的信息；步骤S32：所述S2S-GRU模型将原始序列通过编码和解码转换到另一个序列，更好地学习到数据之间的时序关系。

本发明的另一种实现方式，考虑数据缺失和特征冗余的超短期负荷预测系统，包括时序数据缺失处理单元、特征冗余处理单元和S2S-GRU模型处理单元；所述时序数据缺失处理单元：用于通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理；所述特征冗余处理单元：用于通过基于最大信息系数MIC的包裹式特征选择方法,得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；所述S2S-GRU模型处理单元：用于通过序列到序列的时序数据处理模型，提高对时序信息的处理能力，从而提升超短期负荷预测的精度。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明采用基于改进KNN的缺失数据补全算法可以有效补全数据集中的缺失数据，且相对传统KNN缺失数据补全算法，该算法考虑到了负荷数据的形态相似性，而传统算法仅考虑到了负荷数据之间欧氏距离的差异；同时，基于改进KNN的缺失数据补全算法可以应用于多种存在数据缺失问题的序列数据当中，具有普适性。基于MIC的包裹式特征选择方法可以有效筛选出优选特征集合，且经过筛选后的优选特征集合可以有效提高超短期负荷预测的精度，MIC在互信息的基础上发展而来，具有公平性和广泛性，且相较皮尔逊相关系数等传统相关性度量指标，MIC可以有效地衡量变量之间的非线性相关性，更适用于负荷数据和影响因素之间的相关性分析。采用S2S-GRU超短期负荷预测模型可以通过序列到序列进行负荷预测，GRU是在LSTM的基础上进行改进优化的神经网络，它具有更快的收敛速度，并保持了和LSTM接近的准确率，序列到序列模型可以进一步提高算法对长时间序列模型的预测能力，相较传统序列到点预测模型，该模型可以避免传统负荷预测任务中输入序列和输出序列长度的限制，通过序列到序列进行负荷预测，提高负荷预测精度。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明总体方法流程图；

图2为本发明特征优选策略示意图；

图3为本发明GRU单元示意图；

图4为本发明S2S-GRU模型示意图；

图5为未经特征选择的数据集；

图6为特征选择后的数据集；

图7为S2S-GRU超短期负荷预测模型与传统GRU超短期负荷预测模型在MAE指标和MAPE指标上的对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

本实施例1是针对多变量时序数据的数据缺失和特征冗余，以及现有深度学习负荷预测模型精度较低的问题，提供一种考虑时序数据缺失和特征冗余问题的超短期负荷预测方法，首先通过改进K最近邻(K-NearestNighbor,KNN)缺失数据补全算法对存在数据缺失问题的数据集进行处理；其次通过基于最大信息系数(maximal informationcoefficient,MIC)的包裹式特征选择方法得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；最后通过序列到序列时序数据处理模型提高模型对时序信息的处理能力，从而提升超短期负荷预测的精度。

如图1所示，首先通过改进K最近邻缺失数据补全算法对存在数据缺失问题的数据集进行处理；其次通过基于MIC的包裹式特征选择方法得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；最后通过S2S-GRU超短期负荷预测模型对输入数据进行学习得到超短期负荷预测离线模型，对实时更新的负荷数据进行预测。

(S1)基于改进KNN的缺失数据补全算法。KNN算法的核心思想是确认待分类样本的K个最近邻，统计K个最近邻大多数属于哪一个类别，则将待分类样本也视为该类别。基于改进KNN的缺失数据补全算法在KNN分类算法的基础上，引入Fréchet Distance作为负荷曲线之间相似程度的判断标准，并通过缺失样本的K个最近邻的属性值来替代缺失样本的缺失属性值。其具体实施步骤如下：

(S11)设X^C为样本数据x的集合，x表示为n维空间的特征向量(a₁(x),a₂(x),...,a_n(x))，其中x^*为集合X^C中数据有缺失的样本。

(S12)计算x^*与集合X^C中其他所有样本x之间的Fréchet Distance，计算FréchetDistance时只考虑x^*中没有缺失数值的坐标，最终确定x^*的K个最近邻。假设有两条曲线f:[a,b]→V与g:[a′,b′]→V，两者之间的Fréchet Distance定义如下：

式中，α，β为将[0,1]映射到[a,b]和[a′,b′]的任意连续非减函数。本研究使用离散Fréchet Distance计算方法计算负荷曲线之间的间隔距离，并以此作为曲线相似程度判断依据。离散Fréchet Distance的递归计算公式如下所示。

D_p,q＝max(d_p,q,min(D_p-1,q,D_p,q-1,D_p-1,q-1)) (2)

式中，D_p,q表示两条曲线P＝(P₁,P₂,...,P_p)和Q＝(Q₁,Q₂,...,Q_q)中之间的FréchetDistance，d_p,q表示两条曲线上点P_p与Q_q之间的欧式距离。该算法输入两条负荷曲线，计算得到两条负荷曲线的离散Fréchet Distance，并以此作为负荷曲线相似性判断标准。

(S13)通过(S12)中根据Fréchet Distance求得x^*的K个最近邻，并根据其相应坐标位置上数据的均值插补x^*的缺失坐标值，NN表示K个最近邻的编号。

(S2)基于MIC的包裹式特征选择方法。首先通过MIC算法对输入特征变量和负荷数据做相关性分析，然后结合负荷预测模型，通过后向搜索策略得到最优的特征集合，如图2所示。MIC在互信息(mutual information,MI)的基础上发展而来，可以体现变量之间的强关联性，且通过模型负荷预测的误差作为选择特征集合的评价指标，具有较高的特征选择精度。基于MIC的嵌入式特征选择算法流程如下：

(S21)对每一个特征变量和待预测变量计算MIC，其具体定义如下：对于一个二元数据集D∈R²，将D划分为x列y行的网格。对于划分的网格G，计算G中的每个单元的概率，得到二元数据集D在网格G上的概率分布D|_G。求得其最大互信息maxI(D|_G)，将其保存为I^*[D(x,y)]，如下所示：

I^*[D(x,y)]＝maxI(D|_G) (4)

将其得到的互信息标准化，并求出最大互信息系数如下：

式中：n为采样样本大小；B(n)是关于采样样本大小的函数，表示网格G划分方格总数xy的约束，需小于B(n)，一般B(n)＝n^0.6。从本质上来讲，MIC是一种归一化的最大互信息，取值区间为[0,1]。两个变量之间的MIC值越大，则其相关性越强；MIC值越小，相关性越弱。(S22)将全部特征自变量集合作为第一轮的特征候选集，从完整的特征候选集合开始，将其作为输入数据输入负荷预测模型进行训练，每轮舍弃一个相关性最低的特征变量，直至负荷预测模型满足终止阈值。

(S23)将上述轮次中负荷预测准确率最高的特征集合作为最终优选特征集合，准确率评价指标采用平均绝对误差(mean absolute error,MAE)和平均绝对百分比误差(mean absolute percentage error,MAPE)评价函数，公式如下：

式中，n为预测点个数；l_i表示第i点的实际负荷值；l_i'表示第i点的预测负荷值，其值越小表示模型预测精度越高。

(S3)S2S-GRU超短期负荷预测模型。门控循环单元(gated recurrent unit,GRU)神经网络是一种基于循环神经网络(Recurrent Neural Network,RNN)的改进深度学习模型，解决了原始RNN中具有的梯度消失问题，且具有良好的动态时序数据建模能力。使用S2S-GRU模型可以通过序列到序列对多变量多步长用电信息集合进行有监督学习，解决了原始序列到点模型负荷预测结果容易受先前预测步长结果影响的问题。具体理论如下：

(S31)GRU采用门控循环神经网络结构，有两个门结构，分别为更新门和重置门。更新门用于控制前一时刻的状态信息保留到当前状态中的程度，重置门用于确定是否要结合当前状态与先前的信息。更新门和重置门状态分别为z_t和r_t，x_t为输入，h_t为隐藏层的输出。其计算公式如下:

z_t＝σ(W^(z)x_t+U^(z)h_t-1) (9)

r_t＝σ(W^(r)x_t+U^(r)h_t-1) 10)

h’_t＝tanh(r_tοUh_t-1+Wx_t) (11)

h_t＝(1-z_t)οh’_t+z_tοh_t-1 (12)

式中：h’_t为输入x_t和上一隐藏层输出结果h_t-1的汇总；σ为Sigmoid函数；tanh为双曲正切函数；U^(z),W^(z),U^(r),W^(r),U,W为训练参数矩阵；z_tοh_t-1表示z_t和h_t-1的复合关系。(S32)S2S模型是一种通用的编码-解码框架，在本发明中编码器和解码器由GRU神经元构成,如图3所示。S2S模型可以将一个原始序列通过编码和解码两个步骤转换到另一个序列，可以更好地学习到数据之间的时序关系，其结构如图4所示。

在编码过程中，每一时刻的隐含层状态都是由当前时刻的输入与上一时间的状态共同决定的，即：

h_t＝f(h_t-1,x_t) (13)

其中f代表GRU细胞单元的运算函数，当所有时刻数据均输入给编码层之后，将最后时刻隐藏层输出传递给中间向量C，C是前面所有时刻输入的抽象表示：

C＝f(h₁,h₂,h₃,...,h_T) (14)

在解码过程中，每一步都将向量C作为输入的一部分参与运算，先求得每一步的隐藏状态H_n：

H_n＝f(C,H_n-1) (15)

f仍代表GRU细胞单元的运算函数，最终输出y_n为

y_n＝g(y_n-1,H_n) (16)

其中g代表解码层隐含状态到最后输出的映射函数。

实施例2

本实施例2在实施例1的基础上，在UCI数据库中的“Individual householdelectric power consumption Data Set”数据集进行了相关实验。该数据集是一个多特征时间序列数据集，描述了一个用户从2006年12月至2010年11月期间收集到的用电信息，采样频率为1min/次，数据缺失比例为1.25％，本发明实验选取其中每天48个采集点的用电信息，数据共包含八个特征变量，分别是：

global_active_power:家庭总有功能耗(千瓦时)；

global_reactive_power:家庭总无功能耗(千瓦时)；

voltage:电压强度(伏特)；

global_intensity:电流强度(安培)；

sub_metering_1:厨房的有功能耗(瓦时)；

sub_metering_2:洗衣房的有功能耗(瓦时)；

sub_metering_3:气候控制系统的有功能耗(瓦时)；

sub_metering_4:其他有功能耗(瓦时)。

首先通过基于改进KNN的缺失数据补全算法对存在数据缺失问题的数据集进行处理，实验表明该方法可以有效补全数据集中的缺失数据，且与传统KNN缺失数据补全算法和三次样条差值补全算法相比，补全后的负荷曲线更为平滑。

其次通过基于MIC的包裹式特征选择方法对输入数据进行特征选择，并将筛选后的优选特征集合输入负荷预测模型进行负荷预测，并与未经筛选的数据集进行负荷预测结果对比，模型训练样本为2006年12月至2010年10月的数据信息，固定输入步长为48，预测步长为1，采用负荷预测模型对连续7日(2010年11月7日至2010年11月14日)负荷数据进行超短期负荷预测，未经特征选择的数据集如图5所示，特征选择后的数据集如图6所示。可以明显看出，基于MIC的包裹式特征选择算法可以筛选出最适用于负荷预测模型的优选特征集合，提升模型负荷预测的准确率。

最后，对比发明提出的S2S-GRU超短期负荷预测模型和传统GRU超短期负荷预测模型，固定输入变量为经过基于MIC的包裹式特征选择算法选择后的集合，模型训练样本为2006年12月至2010年10月的数据信息，输入步长和预测步长分别为48和1，采用负荷预测模型对连续7日(2010年11月7日至2010年11月14日)负荷数据进行超短期预测，结果如图7所示。可以明显看出，S2S-GRU超短期负荷预测模型在MAE指标和MAPE指标上均优于传统GRU超短期负荷预测模型，说明本发明所提S2S-GRU超短期负荷预测模型具有更好的负荷预测效果。其中，预测评价指标：MAE指标，平均绝对误差(Mean Absolute Error)，范围[0,+∞),当预测值与真实值完全吻合时等于0,即完美模型；误差越大,该值越大。预测评价指标：MAE指标，MAPE指标，平均绝对百分比误差(Mean Absolute Percentage Error)，范围[0,+∞),MAPE为0％表示完美模型，MAPE大于100％则表示劣质模型。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.考虑数据缺失和特征冗余的超短期负荷预测方法，其特征在于，通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理；通过基于最大信息系数MIC的包裹式特征选择方法,得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；采用S2S-GRU超短期负荷预测模型，通过序列到序列进行负荷预测；

其中，通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理，具体包括以下步骤：

步骤S11：设X^C为样本数据x的集合，x表示为n维空间的特征向量(a₁(x),a₂(x),...,a_n(x))，其中x^*为集合X^C中数据有缺失的样本；

步骤S12：计算x^*与集合X^C中其他所有样本x之间的弗雷歇距离，计算弗雷歇距离时只考虑x^*中没有缺失数值的坐标，最终确定x^*的K个最近邻；

步骤S13：根据所述K个最近邻相应坐标位置上数据的均值，插补x^*的缺失坐标值；

其中，通过MIC算法对输入特征变量和负荷数据做相关性分析，结合负荷预测模型，通过后向搜索策略得到最优的特征集合，基于MIC的包裹式特征选择算法流程包括以下步骤：

步骤S21：对每一个特征变量和待预测变量计算MIC；

步骤S22：将全部特征自变量集合作为第一轮的特征候选集，从完整的特征候选集合开始，将其作为输入数据输入负荷预测模型进行训练，每轮舍弃一个相关性最低的特征变量，直至负荷预测模型满足终止阈值；

步骤S23：将步骤S22中负荷预测准确率最高的特征集合作为最终优选特征集合，准确率评价指标采用平均绝对误差MAE和平均绝对百分比误差MAPE评价函数；

其中，采用S2S-GRU模型通过序列到序列对多变量多步长用电信息集合进行有监督学习，所述用电信息集合的特征变量包括：家庭总有功能耗、家庭总无功能耗、电压强度、电流强度、厨房的有功能耗、洗衣房的有功能耗、气候控制系统的有功能耗和其他有功能耗。

2.根据权利要求1所述考虑数据缺失和特征冗余的超短期负荷预测方法，其特征在于，使用超短期负荷预测模型S2S-GRU，通过序列到序列对多变量多步长用电信息集合，进行有监督学习，包括以下步骤：

步骤S31：GRU采用门控循环神经网络结构，包括更新门和重置门，所述更新门用于控制前一时刻的状态信息保留到当前状态中的程度，所述重置门用于确定是否要结合当前状态与先前的信息；

步骤S32：所述S2S-GRU模型将原始序列通过编码和解码转换到另一个序列，更好地学习到数据之间的时序关系。

3.一种考虑数据缺失和特征冗余的超短期负荷预测系统，其特征在于，包括时序数据缺失处理单元、特征冗余处理单元和S2S-GRU模型处理单元；

所述时序数据缺失处理单元：用于通过基于改进KNN的缺失数据补全算法,对存在数据缺失问题的数据集进行处理；具体包括以下步骤：

所述特征冗余处理单元：用于通过基于最大信息系数MIC的包裹式特征选择方法,得到超短期负荷预测的优选特征集合，降低多变量时序数据的特征冗余度；

步骤S21：对每一个特征变量和待预测变量计算MIC；

所述S2S-GRU模型处理单元：用于采用S2S-GRU超短期负荷预测模型，通过序列到序列进行负荷预测，提高对时序信息的处理能力，从而提升超短期负荷预测的精度；