CN114462670A

CN114462670A - 一种基于lstm模型的用电量预测方法

Info

Publication number: CN114462670A
Application number: CN202111600079.8A
Authority: CN
Inventors: 吴海杰; 王联智; 王康桑
Original assignee: Hainan Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Current assignee: Hainan Digital Power Grid Research Institute of China Southern Power Grid Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-05-10

Abstract

本发明提供一种基于LSTM模型的用电量预测方法，包括下列步骤：采集在T时间段内且包含多个用户的日用电量相关历史数据，并对所述日用电量相关历史数据进行异常值处理以及缺失值填补；建立第一特征指标，根据新的用电量相关数据获得对应用户的第一特征指标的特征值，对所述用户样本集进行K‑means聚类，基于聚类结果划分多个用户群体；建立第二特征指标以及包含LSTM网络的用电量预测模型，将每类用户群体的第二特征指标的特征值以及第一特征指标的特征值作为所述用电量预测模型的输入，对所述用电量预测模型进行训练，得到特定日的电量预测值，将待预测月已实际产生的日电量与该月内特定日的电量预测值相加即得到相应的月电量预测值。

Description

一种基于LSTM模型的用电量预测方法

技术领域

本发明涉及电量预测技术领域，尤其涉及一种基于LSTM模型的用电量预测方法。

背景技术

电量预测是指在满足一定精度要求下，充分考虑一些重要的自然条件与社会影响、系统运行特性与增容决策等方面，研究或利用一种能够处理过去与未来电量的关系的数学方法，确定未来某特定时刻的电量数值；对电量进行准确预测，可以保证人民生活和社会正常生产，有效地降低电力企业的运行成本，保证电网经济运行，提高社会和经济效益；而电量的影响因素较多，例如地区经济、政策、气候等，这些因素中又确定性的，也有随机性的，这一方面说明了电量预测所需的数据较多，另一方面说明了电量预测结果由于影响因素的随机性在一定程度上具有不确定性，很大程度上增加了电量预测的难度。目前，对于中长期电量的预测技术已经日趋承受，而日电量的预测技术研究相对较少，且日电量信息数据隐藏的用电行为更具体。

发明内容

本发明的目的在于提供一种基于LSTM模型的用电量预测方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的：本发明公开了一种基于LSTM模型的用电量预测方法，包括下列步骤：

采集在T时间段内且包含多个用户的日用电量相关历史数据，并对所述日用电量相关历史数据进行异常值处理以及缺失值填补，获得新的用电量相关数据，所述用电量相关历史数据包括日用电量数据以及日气温数据，；

建立包括用户在7天内日电量的平均电量、最小电量、最大电量、电量方差、电量中位数、日平均气温在内的第一特征指标，根据新的用电量相关数据获得对应用户的第一特征指标的特征值，多个用户的特征值构成用户样本集D＝{x₁,x₂,x₃,…,x_n}，x_n表示第n个用户，对所述用户样本集进行K-means聚类，基于聚类结果划分多个用户群体；

建立第二特征指标以及包含LSTM网络的用电量预测模型，将每类用户群体的第二特征指标的特征值以及第一特征指标的特征值作为所述用电量预测模型的输入，对所述用电量预测模型进行训练，得到特定日的电量预测值，将待预测月已实际产生的日电量与该月内特定日的电量预测值相加即得到相应的月电量预测值。

可选的，对用户在T时段内的日用电量数据进行异常值处理，具体包括：计算每个用户在T时间段内的日用电量数据的中位数以及均值，对所述中位数和均值进行比较，若所述中位数和均值相差在30倍以上，则对上述T时段内的日用电量数据进行逐个筛选，找出异常数据。

可选的，对上述T时段内的日用电量数据进行逐个筛选，找出异常数据的过程包括：将每个用户在T时段内的日用电量数据按照时间维度从大到小进行排序，计算其均值以及方差，同时设定最大门限值

以及最小门限值

若该用户在T时段内的每个日用电量数据大于

则用

替换相应的日用电量数据；

若该用户在T时段内的每个日用电量数据小于

则用

替换相应的日用电量数据，其中

为均值，std为方差。

可选的，对所述日用电量数据进行缺失值填补，包括：

在用户T时段内的日用电量数据中选取连续31天的日用电量数据，在所述连续31天的日用电量数据中至少包括一个存在缺失值的数据；

将该用户连续31天的日用电量数据采用K近邻法计算缺失值与其他正常值的欧式距离，并对所述欧式距离按照从小到大的顺序进行排序，选取欧式距离最小的三个数据，通过计算三个数据的均值来对缺失值进行替换。

可选的，所述第二特征指标包括特定用户在31天内的日用电量数据以及31天内的日用电量数据的平均值、最大值、最小值、方差、电量中位数、待预测当天温度平均值、待预测当天星期类型、节假日情况。

可选的，将待预测当天星期类型、节假日情况进行数值话处理，数字0或1表示是否为节假日情况，采用数字1至7表征待预测当天星期类型。

可选的，采用线性插值法对日气温数据中的异常值以及缺失值进行处理。

与现有技术相比，本发明达到的有益效果如下：本发明提供的一种基于LSTM模型的用电量预测方法，在日电量和气温数据基础上，对异常的电量和气温数据进行识别处理，使用K近邻模型对其缺失值进行填补，并从天气、节假日类型、星期类型等维度构建衡量用户电量波动的特征，由于各个用户之间的用电模式存在一定差异性，将利用上述部分特征进行聚类，得到5类用户群体，使用深度学习中的LSTM模型对每一类用户群体进行训练和日电量预测，并将待预测月已实际产生的日电量与该月内预测的日电量相加即得到相应的月电量预测值，其中随着预测月的时间推移，每天都将进行一次日电量预测进而得到滚动的月电量预测结果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于LSTM模型的用电量预测方法的流程图；

图2是本发明实施例中的LSTM的结构示意图；

图3是本发明实施例中的全连接神经网络示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的结构，以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

参见图1，本发明公开了一种基于LSTM模型的用电量预测方法，包括下列步骤：

S1、采集在T时间段内且包含多个用户的日用电量相关历史数据，并对所述日用电量相关历史数据进行异常值处理以及缺失值填补，获得新的用电量相关数据，所述用电量相关历史数据包括日用电量数据以及日气温数据。

在本步骤中，其T时间段优选为50天内，即采集50天内的多个用户的日用电量数据以及日气温数据,上述数据都是存在或多或少的缺失以及异常情况，因此需要对上述数据进行预处理。

在本发明的一个实施方式中，采用线性插值法对日气温数据中的异常值以及缺失值进行处理。

在本发明的另一个实施方式中，给出了对用户在T时段内的日用电量数据进行异常值处理的具体方式，其具体步骤为：计算每个用户在T时间段内的日用电量数据的中位数以及均值，对所述中位数和均值进行比较，若所述中位数和均值相差在30倍以上，则说明该用户在T时间段内的日用电量数据存在较多的异常情况，因此需要对上述用户在T时段内的日用电量数据进行逐个筛选，找出异常数据。

进一步的，对上述T时段内的日用电量数据进行逐个筛选，找出异常数据的过程包括：将每个用户在T时段内的日用电量数据按照时间维度从大到小进行排序，计算其均值以及方差，同时设定最大门限值

以及最小门限值

然后剔除每个用户在T时段内的日用电量数据存在值为0的情况，将剩余数据的值与最大门限值与最小门限值进行比较，若该用户在T时段内的每个日用电量数据大于

则用

替换相应的日用电量数据；

若该用户在T时段内的每个日用电量数据小于

则用

替换相应的日用电量数据，其中

为均值，std为方差。

若该用户在T时段内的每个日用电量数据的值在

与

之间，则说明该数据的值为正常情况。

在本发明的另一个实施方式中，给出了对所述日用电量数据进行缺失值填补的具体过程，需要说明的是，用户在T时段内的日用电量数据存在值为0的情况即为该数据的缺失值，其具体过程包括：

S2、建立包括用户在7天内日电量的平均电量、最小电量、最大电量、电量方差、电量中位数、日平均气温在内的第一特征指标，根据新的用电量相关数据获得对应用户的第一特征指标的特征值。

以用户A为例，在本发明的实施方式中，首先获取用户A在50天当中的每日用电量数据以及日气温数据，选取其中的七天，依次获取七天中的平均电量、最小电量、最大电量、电量方差、电量中位数、日平均气温的数值，上述数值即为用户A的第一特征指标的特征值，多个用户的特征值构成用户样本集D＝{x₁,x₂,x₃,…,x_n}，x_n表示第n个用户，对所述用户样本集进行K-means聚类，基于聚类结果划分多个用户群体，在本实施例中，优选为5类用户群体。

建立第二特征指标，其第二指标特征包括特定用户在31天内的日用电量数据以及31天内的日用电量数据的平均值、最大值、最小值、方差、电量中位数、待预测当天星期类型、节假日情况。同时建立包含LSTM网络的用电量预测模型，将每类用户群体的第二特征指标的特征值以及第一特征指标的特征值作为所述用电量预测模型的输入，对所述用电量预测模型进行训练，得到特定日的电量预测值。

继续以用户A为例，选取用户A的31天内的日用电量数据，同时获取相应的平均值、最大值、最小值、方差、电量中位数，将七天中的平均电量、最小电量、最大电量、电量方差、电量中位数、日平均气温以及31天内的日用电量、平均值、最大值、最小值、方差、电量中位数、待预测当天温度平均值、待预测当天星期类型、节假日情况作为用电量预测模型的输入。

在本发明中，用电量预测模型采用LSTM网络作为主体架构，LSTM网络是RNN变种，相比较传统RNN,LSTM解决了RNN所存在的梯度爆炸问题。他采用了门控机制来对之前的信息进行过滤，能控制有用信息的保留和无用信息的过滤，在长时间序列问题上有较好表现。

图2为LSTM的结构图和公式，它由输入门，输出门，遗忘门组成，通过控制遗忘门对上一个神经元的内容进行选择，捕捉之前的用电量和今天用电量之间的关系。一个LSTM的单元的输入是上个单元的输出h_t-1，上一个状态的单元信息C_t-1和这一状态的输入X_t，然后通过如图2所示的门控制输出这一个状态的h_t(在本次项目中是代表每一天日电量特征经LSTM层变换后的日电量表示)，这一个状态的单元信息C_t。

遗忘门：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

对应于图2中从左到右第一个门，具体的如图3所示，为一个全连接神经网络。输入为每一天的向量{f₁,f₂,f₃,...f₅₅}与上次个神经元的输出相结合成的新输入{x₁,x₂,x₃,...x₅₅}，对应于图3左边f1到fn。每个输入都会和中间层神经元有连接，并且每一次连接都会有相应的权重w_ij(代表第i个特征与第j个神经元之间的权重)和偏秩w_ij(代表第i个特征与第j个神经元之间的偏秩)。对每一个特征和对应神经元的权重做矩阵运算：

再通过SOFTMAX函数将门输出设置为0或者1，若是0即是忘记前一个状态的单元信息C_t-1，若是1，则是让其输入。简单来说，在日电量预测中，如果前一天的日电量数据对今天的日电量数据影响不大，那遗忘门可以将其输出权重置为0，将这一天的信息遗忘。

其中SOFTMAX公式为：

其中的z_j为第j个日电量特征向量，SOFTMAX函数就是对每一个向量的输出进行对数归一化，使得每个日电量向量都能得到自己输出的概率值)

输入门：

i_t＝σ(Wi·[ht-1,xt]+bi)

对应图2中从左至右第二个门，和遗忘门相同，他通过h_t-1和X_t的乘积加上一个bias值，再通过SOFTMAX函数将门输出设置为0或者1，若是0即是忘记住着一个时刻的单元信息输入，若是1，则是让其输入。简单来说，在日电量预测中，是对输入天的特征进行筛选，有比例的输入对应的信息。

输出门：

O_t＝σ(Wo·[ht-1,xt]+bo)

，对应图2中从左至右最后一个门，和遗忘门相同，他通过h_t-1和X_t的乘积加上一个bias值(同样是一个全连接神经网络)，再通过SOFTMAX函数将门输出设置为0或者1，若是0即是忘记住着一个时刻的输出h_t，若是1，则是让其输出。

和

是对上一状态的单元信息进行处理，同样和门操作一样，首先经过h_t-1和X_t的乘积加上一个bias值(同样是一个全连接神经网络)，之后再经过TANH函数的变换，再与上一个状态的单元信息进行融合得到这个状态的信息C_t。在日电量预测中，这一操作是将前几天神经元捕获到的特征与当前天的特征进行融合，提取新的有用的信息。

h_t＝o_t*tanh(C_t)，这个公式就是通过输出门控制最后输出此状态的h_t。

对于LSTM进行反向传播求导时候，会涉及到激活函数的求导，即SOFTMAX、TANH函数的求导，他们的求导公式如下所示：

在某一时间下，对于LSTM网络，最末层l的误差信号为(对于SOFTMAX输出函数)：

所以则有：

我们已知的条件是

和

所以根据链式法则：

(1)输出门梯度

(2)新生成信息

梯度

(3)输出门梯度

(4)遗忘门梯度

有了上面三个误差信号，就可以求得参数梯度了，具体公式如下：

输出门相关：

新生成信息

Claims

1.一种基于LSTM模型的用电量预测方法，其特征在于，包括下列步骤：

采集在T时间段内且包含多个用户的日用电量相关历史数据，并对所述日用电量相关历史数据进行异常值处理以及缺失值填补，获得新的用电量相关数据，所述用电量相关历史数据包括日用电量数据以及日气温数据；

2.根据权利要求1所述的一种基于LSTM模型的用电量预测方法，其特征在于，对用户在T时段内的日用电量数据进行异常值处理，具体包括：计算每个用户在T时间段内的日用电量数据的中位数以及均值，对所述中位数和均值进行比较，若所述中位数和均值相差在30倍以上，则对上述T时段内的日用电量数据进行逐个筛选，找出异常数据。

3.根据权利要求2所述的一种基于LSTM模型的用电量预测方法，其特征在于，对上述T时段内的日用电量数据进行逐个筛选，找出异常数据的过程包括：将每个用户在T时段内的日用电量数据按照时间维度从大到小进行排序，计算其均值以及方差，同时设定最大门限值