CN114626606A

CN114626606A - 一种考虑特征重要性值波动的mi-bilstm预测方法

Info

Publication number: CN114626606A
Application number: CN202210256619.3A
Authority: CN
Inventors: 孙辉; 杨帆; 胡姝博; 高正男; 卢雪力; 金田; 窦亚楠; 朱宝航; 戈阳阳; 张强; 张潇桐; 李家珏; 李胜辉; 袁鹏; 谢赐戬; 刘劲松; 郝建成
Original assignee: Dalian University of Technology; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Current assignee: Dalian University of Technology; Electric Power Research Institute of State Grid Liaoning Electric Power Co Ltd
Priority date: 2022-03-16
Filing date: 2022-03-16
Publication date: 2022-06-14

Abstract

本发明提供一种考虑特征重要性值波动的MI‑BILSTM预测方法，属于电力系统中短期电力负荷预测领域。首先，该方法事先提取不同时刻下输入特征的重要性值，形成重要性值波动矩阵。其次，通过矩阵对原始输入特征进行动态修正，使之内部包含波动信息，即采用互信息法提取特征的重要性值波动，并动态修正原输入特征，使得修正后的输入特征中融合了重要性值波动的信息。最后，将修正后的输入特征带入BILSTM网络中进行短期负荷预测。本发明不仅保留权值共享结构在精简参数方面的优势，并且能够弥补其无法提取重要性值波动的缺陷，提高预测精度。

Description

一种考虑特征重要性值波动的MI-BILSTM预测方法

技术领域

本发明属于电力系统中短期电力负荷预测领域。涉及到互信息法及深度学习相关理论，特别涉及到一种基于互信息提取特征重要性值波动的MI-BILSTM预测方法。

背景技术

短期负荷预测通过对数学、统计学等各种分析工具的运用，探究历史负荷之间的关系与规律，并对未来几个小时或几天的负荷大小进行推测，以保障电力系统的安全运行。近年来，随着储能、新能源、电动汽车接入电网的规模不断增大，以及基于激励、价格的需求侧响应模式的持续发展，短期负荷预测的复杂度明显增加。同时，在电力市场化改革不断推进的背景下，高效、实时的电力交易成为必需，这对短期负荷预测的精确性和可靠性提出了更高的要求。目前，基于深度学习的短期负荷预测已经成为相关领域研究和应用的热点之一。

在深度学习中，LSTM凭借其特有的循环单元，能够同时处理时序性和非线性问题，使得其在短期电力负荷预测中广泛使用。但是，LSTM模型中的权值共享结构具有时不变性，会对负荷预测的精度产生影响。在使用LSTM模型进行短期负荷预测前，需要选取影响负荷变化的因素作为输入特征，包括气象、日期和历史负荷值等。输入特征在不同时刻下对负荷变化的影响力不同，即其重要性值随时间发生了波动。例如，温度在一天中的不同时刻对负荷变化的影响大小具有明显差异。而权值共享结构的时不变性，使之不能动态追踪输入特征的重要性值随时间而产生的波动，进而影响预测精度。因此，需要采用互信息(mutualinformation,MI)度量不同时刻下输入特征的重要性，并进行动态修正，以提高预测精度。

发明内容

本发明的目的是为了追踪输入特征的重要性值随时间出现的波动，进一步提高预测精度，提出一种考虑特征重要性值波动的MI-BILSTM短期负荷预测方法。该方法事先提取不同时刻下输入特征的重要性值，形成重要性值波动矩阵，接着通过矩阵对原始输入特征进行动态修正，使之内部包含波动信息。最后，将修正后的输入特征带入BILSTM网络中进行短期负荷预测，不仅保留权值共享结构在精简参数方面的优势，并且弥补其无法提取重要性值波动的缺陷，提高预测精度。

本发明的技术方案是：

一种考虑特征重要性值波动的MI-BILSTM短期负荷预测方法，包括以下步骤：

步骤1.确定预测日期。

步骤2.将预测日的日期特征、气象特征输入数据库。

步骤3.数据库数据预处理，包括缺失数据补充、数据归一化。

步骤4.采用高斯混合模型聚类(gaussian mixture model,GMM)进行日负荷场景划分。首先将日期特征作为初次GMM聚类的输入，完成日负荷场景的初次划分工作。

所述GMM聚类的求解步骤如下：

(1)初始化k个多元高斯分布的参数α、μ和Σ，三组参数如式(1)所示：

式中，α_j、μ_j和∑_j分别为第j个高斯分布的权重、均值和协方差；k为高斯分布的总个数。

(2)遍历所有样本点，计算样本点x_i由第j类别所生成的概率γ_j(x_i)，计算公式如式(2)所示：

式中，x_i为表征日负荷场景划分的输入数据；n为x_i的维度；D为日负荷数据库中的总天数。

(3)按照式(3)得到α_j、μ_j和∑_j的更新值α_j′、μ_j′和∑_j′。

式中，α_j′、μ_j′和Σ_j′分别为第j个高斯分布更新后的权重、均值和协方差。

日期特征是影响日负荷场景划分的显著因素。因此，初次GMM聚类以日期特征为输入完成聚类。日期特征分为工作日、周末、法定节假日三种不同的情况，按照one-hot编码形式对日期特征进行编码。即工作日为[1,0,0]，周末为[0,1,0]，法定节假日为[0,0,1]。当周末与法定节假日重合时，统一按照节假日处理，后续在节假日场景下进行预测时，加入“是否为周末”这一特征作为区分，具体处理见步骤5。将上述经过编码后的三维日期特征作为初次GMM聚类的输入，完成初次聚类，得到以日期特征为划分的日负荷场景。

步骤5.将气象特征作为二次GMM聚类的输入，完成日负荷场景的二次划分工作。

二次GMM聚类以气象特征作为输入，对日负荷场景进一步细分。气象特征包括温度、湿度、降水量等不同类型的数据，由于温度是影响日负荷变化的显著因素，所以选用一天中的最高温度、最低温度、平均温度作为二次GMM聚类的输入，得到最终的日负荷场景划分结果。

步骤6.按照日负荷场景划分结果，确定各个场景下的输入特征，包括日期特征、气象特征和历史负荷特征三部分组成。

步骤7.使用互信息法MI提取预测日所对应的日负荷场景下的重要性值波动矩阵。通过重要性值矩阵对原始输入特征进行动态修正，使之内部包含波动信息。修正后不仅可以保留权值共享结构在精简参数方面的优势，并且弥补其无法提取重要性值波动的缺陷，提高预测精度。用互信息值量化不同时刻下输入特征数据与输出数据之间的相关性，相关性越强说明输入特征越重要。

互信息值的计算公式如式(4)所示。

式中，M(P,Q)为随机变量P和Q之间的互信息值；p_PQ(p,q)为随机变量P和Q的联合概率密度函数；p_p(p)为随机变量P的边缘概率密度函数；p_Q(q)为随机变量Q的边缘概率密度函数。两个变量间的相关性越强，互信息值越大，当两个变量相互独立时，互信息值为0。

基于MI提取重要性值波动矩阵的求解步骤如下：

(1)确定输出负荷数据集。根据上述日负荷场景划分结果，将电力负荷数据集按照一天中的负荷采样点个数n划分成n组，并将其作为输出数据集O[O₁,O₂,…,O_t,…,O_n]，t时刻的输出负荷向量为O_t；

(2)确定输入特征数据集。取与上述输出负荷数据集相对应的输入特征集I，即

式中，z为输入特征的种类数。与t时刻输出向量O_t对应的输入特征I_t为

(3)t时刻输入特征的重要性值计算。计算t时刻输入特征与输出负荷的互信息值，进行归一化处理，得到

用上述序列中值大小作为t时刻不同输入特征的重要性值，如第一类输入特征在t时刻的重要性值为

(4)重复计算(3)。t从1到n循环求解不同时刻下输入特征的重要性值，当t＝n时，求解完毕。得到随时间变化的输入特征的重要性值波动矩阵M，即

步骤8.采用重要性值波动矩阵动态修正输入特征。

动态修正输入特征如式(7)所示。

式中，

表示两个矩阵的哈达马积，即两个矩阵对应位置的元素分别相乘；I为原输入特征矩阵；I′为更新后的输入特征矩阵。

步骤9.将原始数据库划分为训练集和预测集，进行日前预测工作。

步骤10.建立基于BILSTM的负荷预测模型，完成预测工作。

将修正后的输入特征I′代入BILSTM中进行负荷预测，LSTM的计算流程如下：

遗忘门：

f_t＝σ(W_f[h_t-1,i_t]+b_f) (8)

式中，W_f为遗忘门权值矩阵；σ为sigmoid函数；h_t-1为t-1时刻输出；i_t为t时刻输入特征；b_f为遗忘门偏置矩阵。

输入门：

d_t＝σ(W_i[h_t-1,i_t]+b_i) (9)

式中，W_i为输入门权值矩阵；b_i为输入门偏置矩阵。

记忆单元：

式中，W_c为记忆单元权值矩阵；b_c为记忆单元偏置矩阵；

为当前输入记忆单元状态；c_t为新的记忆单元状态；c_t-1为t-1刻的状态，又称为长期记忆状态；⊙表示向量中元素按位相乘。

输出门：

u_t＝σ(W_o[h_t-1,i_t]+b_o) (12)

式中，W_o为输出门权值矩阵；b_o为输出门偏置矩阵；u_t为t时刻的输出门状态。

h_t＝u_t⊙tanh(c_t) (13)

式中，h_t为LSTM单元t时刻的最终输出。

BILSTM由前向LSTM和后向LSTM两部分组成，同时考虑双向时刻的信息流。计算公式如式(14)-式(16)所示。

式中，h_t-1为t-1时刻的负荷预测值；h_t+1为t+1时刻的负荷预测值；

分别为前向和后向LSTM单元t时刻的负荷预测值；

分别为LSTM的前向和后向的计算过程；a_t、b_t分别为前向输出权值和后向输出权值；c_t为当前时刻的偏置优化参数；B_t为t时刻BILSTM单元最终输出的负荷预测值。

步骤11.判断所有预测日是否均完成预测，如果均完成，则结束预测工作；如果未完全预测，则循环进行步骤1到步骤10。

本发明的效果和益处是：提出了一种考虑特征重要性值波动的MI-BILSTM短期负荷预测方法。采用互信息法提取特征的重要性值波动，并动态修正原输入特征，使得修正后的输入特征中融合了重要性值波动的信息。通过上述做法，不仅保留了现有流行模型中权值共享结构在精简参数方面的优势，并且弥补其无法提取重要性值波动的缺陷，进一步提高预测精度。

附图说明

图1是初次GMM聚类的BIC值。

图2是工作日二次GMM聚类的BIC值。

图3是周末二次GMM聚类的BIC值。

图4是法定节假日二次GMM聚类的BIC值。

图5是步骤6提取重要性值波动矩阵的流程图。

图6是BILSTM模型的结构图。

图7是2014年5月30日的预测结果。

具体实施方式

以下以某地区2012年1月1日-2014年6月30日的真实负荷数据和气象数据为例，结合技术方案和附图详细叙述本发明的具体实施方式。

步骤1：确定预测日期，以下以预测日期为2014年5月30日为例。

步骤2：预测日的日期特征、气象特征进入原始数据库。

步骤3：数据库数据预处理，包括缺失数据补充、数据归一化。

采用线性插值法对电力负荷中的缺失数据进行补全，例如：假设n+j时刻的负荷数据缺失，则其缺失数据可以采用下式(17)计算得出。

式中，l_n+j为n+j时刻缺失数据；l_n为n时刻的负荷数据；l_n+i为n+i时刻缺失数据。

为了消除不同量纲之间的影响，并使得数据更适用于神经网络的训练，需要对原始数据进行归一化处理，归一化公式如式(18)所示。

式中，x'表示归一化后的数据；x_min、x_max分别为数据中的最小值、最大值。

步骤4：采用GMM聚类进行日负荷场景划分。采用贝叶斯信息准则确定GMM聚类的最优分类个数，选取最低贝叶斯信息准则值所对应的聚类数量作为最佳。贝叶斯信息准则值的计算公式和原理见式(19)所示。

B＝gln(m)-2ln(L) (19)

式中，B为贝叶斯信息准则值；g为超参数的值(分类个数)；m为样本个数；L为似然函数。

超参数k越小模型越简洁，似然函数L越大说明模型拟合程度越好，即贝叶斯信息准则值BIC越小说明模型在保证简单的情况下，拟合程度越好。所以选取B最小时的g值作为高斯混合模型聚类的最优超参数(最优分类个数)。

按照日期特征进行初次GMM聚类，初次GMM聚类的BIC值随g(g＝2,3,...,10)逐次增大时发生的变化如图1所示。按照BIC准则，其BIC值在g＝3时达到最小值划分完后，原始数据库被划分为3类，分别为556天的普通工作日场景、220天的周末场景和105天的法定节假日场景。

气象特征中，温度是影响负荷变化的显著特征，因此，二次GMM聚类的气象输入特征为三维温度特征：最高温度、最低温度、平均温度。由图2、图3、图4所示，工作日场景划分为三类，分别为工作日1(高温)、工作日2(中温)、工作日3(低温)；周末划分为两类，分别为周末1(高温)、周末2(低温)；法定节假日同样划分为两类，分别为节假日1(高温)、节假日2(低温)。划分出的日负荷场景及其天数如表1所示。

表1日负荷场景的聚类结果

2014年5月30日，属于工作日1场景。

步骤5.按照日负荷场景划分结果，确定各个场景下的输入特征，包括日期特征、气象特征和历史负荷特征三部分组成。

模型的输入特征数据分为气象特征、日期特征和历史负荷特征。

在所有的日负荷场景下，气象特征保持一致，包括最高温度、最低温度、平均温度、相对湿度和降水量。

对日期特征而言，GMM聚类已经将不同日期特征下的日负荷场景划分，所以日期特征中不需要包括区分工作日、周末、法定节假日的特征。但是当两种日期类型重叠或相邻时，负荷曲线会出现相互影响的情况。对于工作日而言，临近休息日(周末、法定节假日)时，负荷曲线会发生变化，如后一天是休息日时，当天的负荷曲线在后半段会出现跌落，反之前一天是休息日时，当天负荷曲线在前半段会明显较低，所以在工作日场景中加入“是否为休息日前一天”、“是否为休息日后一天”两个特征，如果休息日为周末，该特征取1，如果休息日为法定节假日，该特征取2，如果休息日是周末和法定节假日重叠，该特征取3，不是上述情况取0。对周末而言，主要是受法定节假日导致的调休影响，所以在周末场景下加入“是否为调休日”这一特征，如果该天调休，该特征取1，不调休，该特征取0。由于初次聚类时，将法定节假日和周末的重叠情况统一按照法定节假日处理，为了表示区分，在法定节假日场景下加入“是否为周末”这一特征，如果是周末取1，不是周末取0。

历史负荷特征的选取受短期负荷预测的类型影响，由于本文进行的短期负荷预测类型为日前预测，预测日当天的负荷值默认为未知状态，所以选取的历史负荷特征只能从预测日之前的数据库中选取。对工作日而言，选取同一场景下前一工作日对应时刻的负荷值作为历史负荷特征。在周末场景下，选取同一场景下前一相同周日期对应时刻的负荷值作为历史负荷特征。不同的法定节假日下负荷曲线性质不同，所以选取前一相同节假日对应时刻的负荷值作为历史负荷特征。最终各日负荷场景下的输入特征种类见表2所示。

表2各日负荷场景下的输入特征种类

按照表2，选取工作日场景下的输入特征作为BILSTM模型的输入。步骤6.使用MI提取预测日所对应的日负荷场景下的重要性值波动矩阵。表3为MI提取到的工作日1场景下的重要性值波动矩阵。

表3工作日1场景下的重要性值波动矩阵

从时间维度上看，由于温度往往通过影响人的行为来影响负荷的变化，所以温度在中高温度的场景下(工作日1、工作日2、周末1、节假日1)所表现出的重要性值往往随着人一天中的生产活动规律发生波动，在一天中凌晨至上午，重要性值逐渐下降，随着生产活动的开启，重要性值逐渐增大至高峰，等到一天的下班时间，重要性值陡然下降，接着晚上用电负荷迎来高峰，温度的重要性值也随之升高。值得注意的是，由于负荷曲线具有在时序上连续的特点，“是否为休息日后一天”在一天中的前几个时刻重要性值较大，而“是否为休息日前一天”在一天中的后几个时刻重要性值较大。历史负荷特征的重要性值在一天中的所有时刻下几乎都保持最大。除了上述有明显规律的特征外，其他特征的重要性值在时序上也同样表现出波动特性。

步骤7.按照式(7)使用提取到的重要性值波动矩阵动态修正输入特征。

步骤8.以2014年5月30日的数据为预测集，剩余所有工作日1场景下的数据为训练集，进滚动日前预测。

步骤9.代入BILSTM模型中完成预测，BILSTM模型的结构图如图6所示。2014年5月30日的预测结果如图7所示。

LSTM的预测精度在四种模型中最低；BILSTM由于可以考虑双向信息，预测精度高于LSTM；MI-LSTM将输入特征的重要性值波动考虑在内，预测精度相较于LSTM有了明显的提高；MI-BILSTM模型不仅考虑了双向信息流，还实现了输入特征重要性值波动的动态追踪，预测精度优于其他模型，针对真实负荷曲线具有更好的拟合效果。综上，验证了本文所提MI-BILSTM模型在短期负荷预测中具有更高的预测精度。

以上所述实施例仅表达了本发明的实施方式，但并不能因此而理解为对本发明专利的范围的限制，应当指出，对于本领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些均属于本发明的保护范围。

Claims

1.一种考虑特征重要性值波动的MI-BILSTM预测方法，其特征在于，包括以下步骤：

步骤1.确定预测日期；

步骤2.将预测日的日期特征、气象特征输入数据库；

步骤3.数据库数据预处理，包括缺失数据补充、数据归一化；

步骤4.采用高斯混合模型聚类GMM进行日负荷场景划分；首先将日期特征作为初次GMM聚类的输入，完成日负荷场景的初次划分工作；

日期特征是影响日负荷场景划分的显著因素；因此，初次GMM聚类以日期特征为输入完成聚类；日期特征分为工作日、周末、法定节假日三种不同的情况，按照one-hot编码形式对日期特征进行编码，即工作日为[1,0,0]，周末为[0,1,0]，法定节假日为[0,0,1]；当周末与法定节假日重合时，统一按照节假日处理，后续在节假日场景下进行预测时，加入“是否为周末”这一特征作为区分；将上述经过编码后的三维日期特征作为初次GMM聚类的输入，完成初次聚类，得到以日期特征为划分的日负荷场景；

步骤5.将气象特征作为二次GMM聚类的输入，完成日负荷场景的二次划分工作；

二次GMM聚类以气象特征作为输入，对日负荷场景进一步细分；由于温度是影响日负荷变化的显著因素，所以选用一天中的最高温度、最低温度、平均温度作为二次GMM聚类的输入，得到最终的日负荷场景划分结果；

步骤6.按照日负荷场景划分结果，确定各个场景下的输入特征，包括日期特征、气象特征和历史负荷特征三部分组成；

步骤7.采用MI提取预测日所对应的日负荷场景下的重要性值波动矩阵；通过重要性值矩阵对原始输入特征进行动态修正，使之内部包含波动信息；采用互信息值量化不同时刻下输入特征数据与输出数据之间的相关性，相关性越强说明输入特征越重要；

所述的互信息值的计算公式如式(4)所示；