CN113592185A

CN113592185A - 一种基于Transformer的电力负荷预测方法

Info

Publication number: CN113592185A
Application number: CN202110898689.4A
Authority: CN
Inventors: 黄飞虎; 彭舰; 弋沛玉; 李沛东; 李梦诗
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113592185B

Abstract

本发明公开了一种基于Transformer的电力负荷预测方法，包括获取历史负荷数据和天气数据；分别从历史负荷数据中提取序列特征和趋势特征、及天气数据中提取天气特征，将序列特征、趋势特征及天气特征融合得到融合特征向量序列；利用Transformer模型从融合特征向量序列中提取时序特征信息；根据时序特征信息对电力负荷进行预测。本发明通过将负荷数据的趋势性、周期性、时间信息融入预测模型，使预测模型有很多的特征信息，从而提升预测精度。

Description

一种基于Transformer的电力负荷预测方法

技术领域

本发明涉及电力负荷预测技术领域，具体涉及一种基于Transformer的电力负荷预测方法。

背景技术

荷预测是电网系统中很多应用场景的重要环节。一方面，用户侧的电力需求是动态变化的，由于电能的特点是即发即用，因此负荷供需的动态平衡需要负荷预测的支持，才能保障整个电力系统稳定、高效地运行；另一方面，国家提出了构建以新能源为主体的新型电力系统的目标，未来新能源(风、光等)将成为电网系统的重要部分，然而新能源的出力具有不确定性[1]，如何保障电网的稳定运行需要准确预测用电负荷，合理制定发电计划；负荷预测任务的难点在于其受诸多外部因素的影响。比如，天气因素和市场因素会给短期、超短期的负荷带来波动，政府政策因素、居民收入因素会给长期、中长期负荷带来影响。

现有负荷预测方法可以分为：基于数学模型的预测方法、基于机器学习的预测方法和基于深度学习的预测方法。(1)基于数学模型的预测方法，常见的有自回归移动平均(Auto Regression Moving Average,ARMA)、自回归(Auto Regression,AR)等时间序列模型,这类方法简单，运行速度快，能够解决负荷的时变性。但是不能很好地解决非线性和不确定性问题。(2)基于机器学习的预测方法。机器学习算法可以有效处理非线性问题。这类方法常用的有支持向量机(Support Vector Machines,SVM)、决策树、多层感知机(Multilayer Perceptron，MLP)等,但是面对复杂的电力系统，其对数据特征的挖掘还是略显不足。(3)基于深度学习的预测方法,比如，以长短期记忆网络LSTM(Long Short-TermMemory,LSTM)和门控循环单元(Gate Recurrent Unit,GRU)为主的循环神经网络(Recurrent Neural Network,RNN)在负荷预测中有广泛应用。然而，现有基于LSTM和GRU的负荷预测模型，只会将最后一个单元特征向量用于预测，因此丢失了很多重要特征，使得模型并不能充分地挖掘时序数据之间的非线性关系。

发明内容

针对现有技术中的上述不足，本发明提供了一种基于Transformer的电力负荷预测方法。

为了达到上述发明目的，本发明采用的技术方案为：

一种基于Transformer的电力负荷预测方法，包括以下步骤：

S1、获取历史负荷数据和天气数据；

S2、分别从历史负荷数据中提取序列特征和趋势特征、及天气数据中提取天气特征，将序列特征、趋势特征及天气特征融合得到融合特征向量序列；

S3、利用Transformer模型从融合特征向量序列中提取时序特征信息；

S4、根据时序特征信息对电力负荷进行预测。

进一步地，所述步骤S1具体包括：

从获取的历史负荷数据提取第一数据长度的负荷数据和第二数据长度的负荷数据；及

从天气数据中提取分别与第一数据长度的负荷数据和第二数据长度的负荷数据对应的天气数据。

进一步地，所述步骤S2中，从历史负荷数据中提取序列特征的方法包括以下分步骤：

A1、根据第一数据长度的负荷数据和第二数据长度的负荷数据分别构建负荷序列；

A2、采用值编码器对各个负荷序列中的值进行特征映射，提取得到值信息；

A3、采用位置编码器对各个负荷序列中的每一项负荷数据进行位置编码，提取得到位置信息；

A4、采用时间编码器对各个负荷序列中的每一项负荷数据进行时间编码，提取得到时间信息；

A5、将提取得到的值信息、位置信息和时间信息，组合得到第一数据长度的负荷数据和第二数据长度的负荷数据的序列特征。

进一步地，所述步骤S2中，从历史负荷数据中提取趋势特征的方法包括以下分步骤：

B1、从获取的历史负荷数据提取第一数据长度对应的第一周期的第三数据长度的负荷数据、第一数据长度对应的第二周期的第三数据长度的负荷数据、及第一数据长度对应的第三周期的第三数据长度的负荷数据；

B2、根据各个负荷数据分别构建负荷序列；

B3、将各个负荷序列进行叠加，构建趋势矩阵；

B4、采用趋势编码器对趋势矩阵提取趋势特征。

进一步地，所述步骤S2中，从天气数据中提取天气特征的方法包括以下分步骤：

C1、根据与第一数据长度的负荷数据和第二数据长度的负荷数据对应的天气数据分别构建天气矩阵；

C2、采用天气编码器对各个天气矩阵提取天气特征。

进一步地，所述步骤S3具体包括以下分步骤：

S31、构建包括编码块和解码块的Transformer模型；

S32、将第一数据长度的负荷数据对应的融合特征向量序列输入编码块进行特征编码，输出得到编码块的隐藏状态特征；

S33、将第二数据长度的负荷数据对应的融合特征向量序列和编码块的隐藏状态特征输入解码块进行特征解码，输出得到时序特征信息。

进一步地，所述步骤S32具体包括以下分步骤：

S321、对第一数据长度的负荷数据对应的融合特征向量序列进行位置编码，得到位置编码；

S322、将位置编码输入多头注意力层，对位置编码进行编码后再作线性映射，得到多头注意力层输出特征；

S323、将多头注意力层输出特征输入第一正则化层，得到第一正则化层输出特征；

S324、将第一正则化层输出特征输入全连接层，得到全连接层输出特征；

S325、将全连接层输出特征输入第二正则化层，得到第二正则化层输出特征；

S326、根据编码块的网络层数量重复步骤S322至S325，将得到的正则化输出特征输入编码层进行特征编码，输出得到编码块的隐藏状态特征。

进一步地，所述步骤S33具体包括以下分步骤：

S331、将第二数据长度的负荷数据对应的融合特征向量序列输入第一个解码层进行位置编码，得到位置编码；

S332、将位置编码和编码块的隐藏状态特征输入第一多头注意力层，对位置编码特征进行编码后再作线性映射，得到第一多头注意力层输出特征；

S333、将第一多头注意力层输出特征输入第一正则化层，得到第一正则化层输出特征；

S334、将第一正则化层输出特征输入全连接层，得到全连接层输出特征；

S335、将全连接层输出特征输入第二正则化层，得到第二正则化层输出特征；

S336、根据解码块的网络层数量重复步骤S332至S335，将得到的正则化输出特征输入解码层进行特征解码，输出得到时序特征信息。

进一步地，所述步骤S4具体包括以下分步骤：

S41、将时序特征信息输入全连接层，得到全连接层输出特征；

S42、将全连接层输出特征输入激活层，输出得到电力负荷预测结果。

本发明具有以下有益效果：

本发明将负荷数据的位置信息、趋势性、周期性和时间特征进行编码，以及对应的天气信息进行融合，使得在外部数据有限的情况下可以充分利用天气、日期等信息；并且利用Transformer模型更加充分地挖掘时序数据之间的非线性关系；本发明通过将负荷数据的趋势性、周期性、时间信息融入预测模型，使预测模型有很多的特征信息，从而提升预测精度。

附图说明

图1为本发明实施例中一种基于Transformer的电力负荷预测方法流程示意图；

图2为本发明实施例中预测模型框架示意图；

图3为本发明实施例中特征嵌入层框架示意图；

图4为本发明实施例中预测层框架示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，本发明实施例提供了一种基于Transformer的电力负荷预测方法，包括以下步骤S1至S4：

S1、获取历史负荷数据和天气数据；

在本实施例中，步骤S1具体包括：

具体而言，本发明从从历史负荷数据中提取长度为h时刻的负荷数据和长度为h`时刻的负荷数据，h>h`；同时从天气数据中提取分别与第一数据长度的负荷数据和第二数据长度的负荷数据对应的天气数据；使得本发明能够基于历史数据和额外的天气数据进行特征挖掘为模型提供输入特征。由于负荷数据的影响因素很多，因此尽可能地挖掘丰富的特征信息能够提高模型预测的准确性。

在本实施例中，本发明从历史负荷数据中提取序列特征的方法包括以下分步骤：

具体而言，本发明在特征嵌入层从三个方面进行特征提取和融合，分别为序列特征、趋势特征和天气特征，对第一数据长度的负荷数据和第二数据长度的负荷数据提取序列特征的方法相同，这里以第一数据长度的负荷数据为例，构建负荷序列X＝[X^t-h+1,…,X^t]。

本发明采用不同的编码器对序列特征、趋势特征和天气特征进行嵌入，如图2和图3所示。

其中对于负荷序列中的每个值，采用值编码器E_v对负荷序列的值进行特征映射，提取得到值信息。

对于负荷序列中的每一项负荷数据X^t的位置信息，即该负荷数据X^t在负荷序列中的顺序i，采用位置编码器E_p对各个负荷序列中的每一项负荷数据进行位置编码，提取得到位置信息，从而使得Transformer模型中编码块的注意力机制能够对负荷序列输入的数据进行定位。

对于负荷序列的时间信息，本发明采用时间编码器E_t对各个负荷序列中的每一项负荷数据进行时间编码，提取得到时间信息，从而有助于在数据中引入时间信息。因为用户的用电需求与时间具有很强的相关性。对于每一项Xⁱ，首先提取其时间信息(月份、日、周、时、分信息)，假定其当前时间为2021-03-0315:30:30，则提取的信息包含：3月份、3号、星期三、下午15点、30分。用数值向量表示为[3,3,3,15,30]。对于分钟信息，在实际处理时，以15分为一个时间段，即把1小时分成4段。因此，在输入时间编码器时，该时间信息应该表示为[3,3,3,15,2]。

上述值编码器E_v和时间编码器E_t采用全连接网络，位置编码器E_p采用位置编码函数直接计算，位置编码函数e_t表示为

其中，d_m表示位置编码特征的维度。

将提取得到的值信息、位置信息和时间信息，组合得到负荷数据的序列特征，表示为

X_seq＝E_v(X)+E_p(X)+E_t(X)

本发明从历史负荷数据中提取趋势特征的方法包括以下分步骤：

B2、根据各个负荷数据分别构建负荷序列；

B3、将各个负荷序列进行叠加，构建趋势矩阵；

B4、采用趋势编码器对趋势矩阵提取趋势特征。

具体而言，本发明除了从历史负荷数据中提取长度为h时刻负荷序列[X^t-h+1,…,X^t]，还需要提取过去h天在t时刻的负荷数据构建负荷序列D，过去h周在t时刻的负荷数据构建负荷序列W，以及过去h月在t时刻的负荷数据构建负荷序列M。利用负荷序列D、负荷序列W和负荷序列M构建负荷数据的趋势信息。这些信息包含了过去相对来说较长一段时间的负荷变化趋势，能够反映一定的周期性和趋势性。

本发明将负荷序列D、负荷序列W和负荷序列M进行叠加构成趋势矩阵T∈R^3×h，然后利用卷积操对趋势矩阵T进行特征提取，得到趋势特征，表示为

X_tre＝Conv1d(T)

其中，Conv1d为一维卷积操作。

本发明从天气数据中提取天气特征的方法包括以下分步骤：

C2、采用天气编码器对各个天气矩阵提取天气特征。

具体而言，由于天气与用户用电也有很大相关性，因此本发明还引入了天气数据进行特征融合。由于天气数据都是数值类型，因此将天气数据构成数值向量Q，作为全连接网络的输入，表示为

X_wea＝E_w(Q)

最后，将序列特征X_seq、趋势特征X_tre及天气特征X_wea融合得到融合特征向量序列，表示为

X_input＝concat(X_seq，X_tre，X_wea)

其中，concat表示特征向量融合操作。

在本实施例中，步骤S3具体包括以下分步骤：

S31、构建包括编码块和解码块的Transformer模型；

具体而言，针对负荷数据的非线性和时变性特征，本发明采用Transformer模型进行挖掘。相比常用的LSTM和GRU网络，Transformer模型更适合挖掘序列中的时序依赖关系。LSTM和GRU的缺点在于，其编码阶段只有最多一个单元的隐藏特征可以传递到解码层，这就导致部分信息丢失。对于负荷数据这类波动性较大的任务来说，应该充分利用前面提取的隐藏特征。

因此本发明将特征嵌入层得到融合特征向量序列X_input输入Transformer模型，从而得到具有时序依赖的时序特征信息X_dep，表示为

X_dep＝Transformer(X_input)

如图2所示，本发明构建的Transformer模型包括编码块和解码块，其中编码块包括多个由多头注意力层、相加归一化层、前馈神经网络层及相加归一化层组成的翻译块和一编码层，解码块包括多个由两层多头注意力层和相加归一化层、及一层前馈神经网络层和相加归一化层组成的翻译块和一编码层；编码块的编码层的输出与解码块的翻译块中第二层多头注意力层连接。

上述步骤S32具体包括以下分步骤：

具体而言，本发明对长度为h时刻的负荷数据对应的融合特征向量序列X_input进行位置编码，得到位置编码特征

表示为

其中，e_t为位置编码函数；

S322、将位置编码特征

输入多头注意力层，对位置编码特征进行编码后再作线性映射，得到多头注意力层输出特征，表示为

Multihead(H)＝concat(head₁，...，head_u)W^O

其中，Multihead表示多头注意力层输出特征，H表示注意力头数量，W^O表示权重向量，即给融合得到的多头注意力特征进行权重赋值；head₁，...，head_u表示多头注意力层中u个自注意力层的输出，

Q、K、V是由输入数据进行编码之后再次作线性映射得到，

W^Q，W^K，W^V均为可学习的参数。

S323、将多头注意力层输出特征输入第一正则化层，得到第一正则化层输出特征，表示为

norm_cur＝Normalization(z，norm_pre)

其中，norm_cur表示第一正则化层输出特征，Normalization表示相加归一化操作，z表示多头注意力层输出特征，norm_pre表示前一个正则化层的输出；

上述步骤S33具体包括以下分步骤：

S331、将第二数据长度的负荷数据对应的融合特征向量序列输入第一个解码层进行位置编码，得到位置编码特征；

具体而言，本发明将长度为h`时刻的负荷数据对应的融合特征向量序列输入第一个解码层进行位置编码，得到位置编码特征。

S332、将位置编码和编码块的隐藏状态特征输入第一多头注意力层，对位置编码进行编码后再作线性映射，得到第一多头注意力层输出特征；

S336、根据解码块的网络层数量重复步骤S332至S335，将得到的正则化输出特征输入解码层进行特征解码，输出得到时序特征信息X_dep。

由于Transformer架构是一个序列到序列的模式，在解码时需要有输入数据。在传统的Transformer模型中，解码块的输入数据是t-1时刻的预测值。采用这种方式的缺点在于，预测误差会进行累积。本发明在设计Transformer解码块时采取直接预测的方式，防止误差累积。解码块的输出特征则直接输入预测层实现负荷预测。解码块的输入为过去h’时刻的特征。

S4、根据时序特征信息对电力负荷进行预测。

在本实施例中，步骤S4具体包括以下分步骤：

具体而言，本发明通过Transformer层获取到特征信息X_dep后，便可利用预测层实现负荷预测。本文采用的预测层网络框架如图4所示，该网络由1个全连接层构成。

本发明首先利用特征嵌入层对输入的历史负荷进行特征嵌入。该特征嵌入层的主要作用是将数据的位置信息、趋势性、周期性和时间特征进行编码，以及对应的天气信息进行融合，使模型在外部数据有限的情况下可以充分利用天气、日期等信息。得到的特征向量序列，则作为Transformer编码块的输入，该编码块是一个深层网络，每一层由多头注意力层和全连接层组成。通过编码层，可以挖掘输入数据的抽象特征表示。然后将编码块的输出传入Transformer的解码块实现预测。解码块也是一个深层网络，每一层由两个多头注意力层和全连接层组成。相比普通的LSTM和GRU，Transformer模型能够更加充分地挖掘时序数据之间的非线性关系。同时，本发明也将数据的趋势性、周期性、时间信息融入模型，使模型有很多的信息，从而提升预测精度。

如图2所示，本发明利用特征嵌入层、Transformer层和预测层构建预测模型；在特征嵌入层，E_v、E_t和E_w三个编码器是全连接网络，则参数为全连接网络的输出，本发明将这三个全连接网络的输出均设为d_e。在Transformer层的参数分别有为Q和K的输出维度d_k,V的输出维度d_v,注意力头数head,编码块层的层数L_enc,解码层的层数L_dec，编码块输入历史数据长度h，解码块输入历史数据的长度h’。本文将d_k的维度与d_e保持一致。在预测层，全连接网络的输出为预测值，维度为1。在预测层，模型是将解码层的输出按行展开，则其维度与编码层h’以及d_v、head相关。因此，在预测层，需要设置的参数为h’。在模型参数选择时，对参数组合不同的值，并采取网格搜索的方式确定模型参数。d_e、d_k和d_v的取值集合可以设为[8，16，32，64]。Head、L_enc和L_dec的取值集合为[1，2，3]。h和h’的集合为[4，8，16，20]。

本发明采用平均绝对误差(Mean Absolute Error，MAE)和均方根误差差(RootMean Squared Error，RMSE)作为算法的评价指标，计算公式如下：

表1模型预测效果对比

Tab.1 Comparison of model prediction performance

表1为各模型的负荷预测结果。实验中，模型根据历史负荷数据，预测下一时刻的负荷，因时间间隔为15min，因此这里是未来15min的负荷预测。从实验结果来看，本发明的预测效果均优于其他算法。对比模型中，ARIMA和GBRT均是时间序列预测的经典模型，ARIMA通过自相关和移动平均建模负荷序列在时间维度的依赖关系。GBRT则是采用集成学习思路实现预测。LSTM、BP和EMD-LSTM三个模型则是基于神经网络的预测模型，其中EMD-LSTM首先通过经验模式分解挖掘序列特征，然后结合LSTM进行预测。从实验结果来看，EMD-LSTM通过序列分解挖掘序列特征也有不错的预测效果。GBRT基于集成学习思路，通过对误差的预测建模，其效果比其他算法要好。由于对误差的建模预测获取的信息有限，因此其效果比本文模型差一些。HA是通过对历史负荷取均值实现预测，其只能挖掘序列的趋势信息，实验结果也体现了其特征。

从实验结果来看，本发明提出的预测方法具有可行性。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于Transformer的电力负荷预测方法，其特征在于，包括以下步骤：

S1、获取历史负荷数据和天气数据；

S4、根据时序特征信息对电力负荷进行预测。

2.根据权利要求1所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S1具体包括：

3.根据权利要求2所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S2中，从历史负荷数据中提取序列特征的方法包括以下分步骤：

4.根据权利要求3所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S2中，从历史负荷数据中提取趋势特征的方法包括以下分步骤：

B2、根据各个负荷数据分别构建负荷序列；

B3、将各个负荷序列进行叠加，构建趋势矩阵；

B4、采用趋势编码器对趋势矩阵提取趋势特征。

5.根据权利要求4所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S2中，从天气数据中提取天气特征的方法包括以下分步骤：

C2、采用天气编码器对各个天气矩阵提取天气特征。

6.根据权利要求5所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S3具体包括以下分步骤：

S31、构建包括编码块和解码块的Transformer模型；

7.根据权利要求6所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S32具体包括以下分步骤：

S321、对第一数据长度的负荷数据对应的融合特征向量序列进行位置编码，得到位置编码特征；

S322、将位置编码特征输入多头注意力层，对位置编码特征进行编码后再作线性映射，得到多头注意力层输出特征；

8.根据权利要求7所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S33具体包括以下分步骤：

9.根据权利要求8所述的基于Transformer的电力负荷预测方法，其特征在于，所述步骤S4具体包括以下分步骤：