CN114004408A

CN114004408A - 一种基于数据分析的用户电力负荷预测方法

Info

Publication number: CN114004408A
Application number: CN202111301447.9A
Authority: CN
Inventors: 郁丹; 郭雨涵; 唐人; 翁华; 杨鹏; 何勇玲; 何轩章; 高志刚
Original assignee: Hangzhou Dianzi University; Zhejiang Huayun Electric Power Engineering Design Consulting Co
Current assignee: Hangzhou Dianzi University; Zhejiang Huayun Electric Power Engineering Design Consulting Co
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-01

Abstract

本发明涉及一种基于数据分析的用户电力负荷预测方法。该方法首先根据用户电力负荷的历史数据，使用聚类算法划分出历史数据的日期类型。接着根据历史数据的日期类型变化，使用MEPA算法预测出将来某天的电力负荷数据的日期类型。然后将用户电力负荷历史数据根据其日期类型划分为工作日或节假日两类，分别构建训练集并训练LSTM模型，即可使用训练好的LSTM模型对将来某天的电力负荷进行预测。本发明提出的方法对于准确预测用户的电力负荷，从而合理供能，降低用能成本，提高经济效益，具有重要的意义。

Description

一种基于数据分析的用户电力负荷预测方法

技术领域

本发明属电力负荷预测领域，具体涉及一种利用数据分析技术对用户的电力负荷进行分析，预测未来某天用户电力负荷的方法。

背景技术

能源是经济和社会发展的重要支柱。随着我国的经济发展模式由“两高两低”(高投入、高耗能、低效益、低产出)向一高两低(高附加值、低消耗、低污染)转变，能源互联网成为推动低碳环保和能源有效利用的重要设施和技术手段。能源互联网以电能为核心，集成热、冷、燃气等能源，综合利用互联网等技术，深度融合能源系统与信息通信系统，协调多能源的生产、传输、分配、存储、转换、消费及交易，具备高效、清洁、低碳、安全特征的开放式能源互联网络。

据预测，到2050年，清洁能源在发电装机中将占70％，电力消费占终端能源消费的比例将达到50％左右。清洁能源具有出力不稳定的特点，大比例的清洁能源消纳对于能源互联网的智能化提出了越来越高的要求。准确地进行用户电力负荷的预测，对于科学设计能源互联网的架构和进行资源的优化配置，增强电网弹性，降低用能成本，提高经济效益，具有重要的意义。

目前，已有的通用时间序列预测方法(如差分整合移动平均自回归模型或者指数平滑预测法等)大多没有考虑到日期类型因素的影响，而用户电力负荷通常与日期类型紧密相关，并且这些方法通常只适合数据量较小的短期预测；而另一些时间序列预测方法尽管考虑了日期类型，但是它们只是依据标注的日期类型(工作日或节假日)来考虑其对用户电力负荷预测的影响，如果实际的日期类型与标注日期类型不一致，将导致模型预测值与实际值之间存在较大误差。例如，某企业工作模式为“工作三天，休息一天”，那么根据法定节假日上标注的节假日(如周日)在该企业很可能是工作日，从而导致较大的预测误差。

发明内容

本发明针对现有技术的不足，提出了一种根据用户电力负荷的历史数据预测未来用户电力负荷的方法。该方法能够自动识别日期类型，并考虑了日期类型的变化对用户电力负荷的影响，提高了预测精度。

本发明的关键点是：根据用户电力负荷的历史数据，使用聚类算法划分出历史数据的日期类型(属于工作日或节假日)。根据历史数据的日期类型变化，使用MPEA算法(Mode-based Period Extension Algorithm，基于模式的周期延拓算法)预测出将来某天的电力负荷数据的日期类型。将用户电力负荷历史数据根据其日期类型划分为工作日或节假日两类，分别构建训练集并训练LSTM(Long Short-Term Memory，长短期记忆网络)模型，然后即可使用训练好的LSTM模型对将来某天的电力负荷进行预测。

本发明首先收集N天的用户电力负荷的历史数据集，无需人工指定数据的日期类型标签，即可准确地预测出未来第N+1天的用户电力负荷。本发明提出的方法对于用户实际日期类型与法定节假日不一致的情况具有较强的适应性，因此适合多种电力用户类型(如居民用户、商业用户、工业用户等)。并且本发明提出的方法具有较强的自动化程度和较高的精度，以及扩展到多种用户日期类型的能力。

步骤1：获取用户电力负荷的历史数据集

采集用户电力负荷数据，该数据集用DS表示；每一条采样记录包括采样日期、采样时间、有功功率；

假设本发明中需要的用户电力负荷数据已经通过某种采集方法得到，该数据集用DS表示。DS是以1分钟为采样间隔的用户电力负荷数据，每一条采样记录包括采样日期、采样时间、有功功率等。

用户电力负荷数据结构如表1所示：

表1用户电力负荷序列数据示例

步骤2：数据预处理

步骤2.1：归一化

采用的归一化方法为最大值最小值归一化，如式1所示。

其中，表示P^＊执行最大值最小值归一化后的电力负荷序列；P表示DS中原始的电力负荷序列；P_min表示DS中电力负荷最小值；P_max表示DS中电力负荷最大值。

步骤2.2：构建字典结构

将经过步骤2.1处理得到的数据按字典结构进行整理。日期作为字典的键，日期对应的电力负荷数据构成的序列作为值。键的类型为字符串，格式为“year-mouth-day”；

步骤3：日期类型分析。

研究发现，一天内用户电力负荷的变化与日期类型有较大的相关性。不同日期类型的用户电力负荷序列之间相关性较弱，而相同日期类型的用户电力负荷序列之间的相关性较强。因此，如果直接使用原始数据集DS对模型进行训练而不考虑日期类型对一天内用户电力负荷序列的影响，将导致模型训练精度降低，甚至出现不收敛的情况。本发明通过分析用户电力负荷的历史数据的日期类型，以提升模型的训练精度。

日期类型分析的目的是通过分析近N天用户电力负荷序列，判断每天的电力负荷数据所属的日期类型。日期类型分析的思路是：通过k-means聚类算法将N天的电力负荷序列划分为工作日和节假日两类。

设符号D表示从某日期开始N天内的用户电力负荷序列构成的列表。D＝[P^{＊[year-mouth-day]}，P^{＊[year-mouth-day]+1}，P^{＊[year-mouth-day]+2}，…，P^{＊[year-mouth-day]+N-1}]；在该聚类算法中，每个样本都是一个序列，样本间距为序列的动态时间扭曲函数DTW；日期键为A，B的两个电力负荷序列P^＊[A]与P^＊[B]之间的样本距离定义为DTW(P^*[A],P^*[B])；

聚类后，为D中每个序列样本D_i打上类型标签，并将标签以数组的形式输出用符号L表示；L＝[L₀，L₁，…，L_N-1]，L_i∈{0，1}。

步骤4：未来日期类型预测

从标签数组L提取出日期类型变化的周期性，并利用这种周期性预测未来日期的日期类型。

由于L中的每个元素值仅代表该元素的索引对应日期所属的日期类型，并没有数值大小上的区别。如果单纯使用通用的序列预测算法(例如：差分整合移动平均自回归模型或指数平滑预测)，效果并不理想(它们都是针对数值型的时间序列进行设计的)。本发明针对这种元素值为整数且无数值大小含义的周期性序列提出了一种新的序列预测算法——基于模式的周期延拓算法，简称为MPEA算法。该算法以一个整数序列L(L长度为N，在本发明中用来表示从0到N天的日期类型)，和预测步长n作为输入，输出一个长度为n的序列L′,L′表示索引从N到N+n的预测值。

步骤4.1：周期提取

提取出输入序列L的周期，该周期记为T；将原序列按照从1到N/2为周期，对L进行分割，比较不同周期下分割得到的各个子序列之间的差异，选取差异最小的分割方式对应的周期作为原序列的周期。对于每个t为间隔的分割都有一个评分score，它表示该分割方式得到的各个子序列之间的相似性大小。score越小相似性越小，score越大表示相似性越大。score值最大的分割方式对应的周期就被选定为原序列L的最佳周期T。设函数score(L，t)表示将的输入序列L以周期长度t进行分割得到的子序列之间的相似度评分。其形式化描述为：

其中，L_i表示输入序列L中索引i的样本值，N为L的长度，equal函数的形式化描述为：

设EXTRACT_CYCEL(L)，表示从序列L中提取周期的算法，其伪代码如算法1所示：

步骤4.2：模式提取

在步骤4.1中，获取到了输入序列L的周期T。以T为间隔，将L分割为N/T个子序列，每个子序列长度为T，如果N/T不为整数，则向下取整，并丢弃多余部分的样本值。之后，对这些子序列进行模式提取。模式提取是在每个子序列的相同索引对应的样本值之间取众数，得到一个新的子序列，即模式子序列。

设EXTRACT_MODE(L，T)表示从序列L以T为周期，提取模式子序列W的算法。其伪代码如算法2所示：

其中，GET_MODE(P)表示获取整数序列P的众数。

步骤4.3：预测日期类型

预测未来n个步长内的序列，实际上就是在原序列L的基础上，以T为周期，W为的模式子序列进行延拓。设预测得到的未来n个步长内的序列为L′，L′_i表示时间索引为i时刻的预测值，0≤i＜n；则有：

L′_i＝W_{(N+i)mod T} (4)

式4中mod表示求模。设函数FORECAST(W，n，N)用来表示预测算法，其中W为步骤4.2获得的模式子序列，n为指定的步长，N为步骤4.1和步骤4.2中输入序列L的长度。其伪代码如算法3所示：

综合步骤4.1到步骤4.3。MPEA算法的总流程的伪代码如算法4所示。它的参数为一个序列L和步长n，通过分析L的周期性，预测未来n步的样本值，输出一个长度为n序列L′，L′表示未来n天日期类型；

步骤5：构建训练集并训练LSTM模型。

假设预测目标为P^{＊[year-mouth-day]+N}。设通过日期类型分析得到的标签序列为L。设使用未来日期类型预测算法对P^{＊[year-mouth-day]+N}所属的日期类型进行预测的结果为G，G∈{0，1}。

构建训练集的具体步骤如下：

步骤5.1：提取同类数据

从D中提取所有日期类型为G的序列样本，构成样本子列表D^(G)。D^(G)的长度为H。D_i ^(G)表示D_i ^(G)中第i个序列，从0开始编号，0≤i＜H。

步骤5.2：构建训练集

设LSTM模型的输入训练集为X，输出训练集为y；X与y的定义如式5、式6所示；

X的每一行是一个输入样本，y的每一行是一个输出样本，K是X每一行的长度，称K为分割参数；其代表的含义是“使用前K天的序列预测后1天的数据”。

步骤5.3：训练LSTM模型

使用X与y构成的训练集训练LSTM模型，用符号MD表示。

步骤6：使用LSTM模型预测未来用户电力负荷序列

在训练好LSTM模型MD之后，使用MD预测未来用户电力负荷序列的具体步骤如下：

步骤6.1：预测

设LSTM模型MD预测输入为Z，Z为D^(G)中最后K个序列组成的列表，

将Z作为输入调用MD得到预测目标，即归一化后的用户电力负荷序列P^{＊[year-mouth-day]+N}。

步骤6.2：反归一化

对P^{＊[year-mouth-day]+N}进行反归一化，得到未来1天的用户电力负荷序列P^{＊[year-mouth-day]+N}。如式7所示。

P^{[year-mouth-day]+N}＝(P_max-P_min)P^{*[year-mouth-day]+N}+P_min (7)

通过上述步骤1至步骤6，以N天用户电力负荷序列数据构成的列表D作为输入，预测得到了未来1天(即第N+1天)的用户电力负荷序列P^{[year-mouth-day]+N}。

作为优选，所述的样本间距为序列的动态时间扭曲函数DTW；日期键为A，B的两个电力负荷序列P^＊[A]与P^＊[B]之间的样本距离的DTW(P^*[A],P^*[B])，定义如

式8所示：

在式8中，π＝[π₀，π₁，…，π_K]是一系列索引对组构成的列表，其中的每一个元素π_K是一个索引对，P_i ^＊[A]和P_j ^＊[B]分别表示有功功率序列P^＊[A]在索引i处的样本值和有功功率序列P^＊[B]在索引j处的样本值；设两个序列的长度分别为n和m，在本发明中n和m的值均为1440。π满足以下条件：

●π_k＝(i_k，j_k)，0≤i_k＜n，0≤j_k＜m

●π₀＝(0，0)，π_K＝(n－1，m－1)

●对于所有k＞0，π_k＝(i_k，j_k)与π_k－1＝(i_k－1，j_k－1)的关系如下：

■i_k-1≤i_k＜i_k-1+1

■j_k-1≤j_k＜j_k-1+1。

本发明具有如下优点：

1.在数据收集和预处理方面：本发明仅通过历史用户电力负荷数据来预测未来用户电力负荷数据，不涉及其他数据特征。因此，数据处理方便，省去人工标定数据日期类型的繁琐工作。

2.在预测精度方面：本发明在进行预测时考虑了日期类型对每日用户电力负荷变化的影响。并且通过对用户电力负荷序列的聚类分析，自动识别日期类型(工作日或休息日)，适合于多种电力用户的用电模式，并具有较高的预测精度。

附图说明：

图1：数据字典结构示例；

图2：周期提取示例；

图3：模式提取示意图；

图4：预测2020年8月31日的用户电力负荷序列。

具体实施方式：

本发明中所有代码使用python语言实现。

步骤1：获取用户电力负荷的历史数据集。

在本发明中，用户电力负荷数据使用智能电表进行收集。智能电表以1分钟为采样间隔实时采集用户的电力数据，并将数据实时上传到数据采集服务器。服务器会将采集到的数据，附加时间戳，以csv(Comma-Separated Values，字符分隔值文件格式)格式进行保存。同时，在数据采集服务器上配置ftp服务，为外部网络访问数据提供接口。

工作员通过网络以ftp协议访问数据采集服务器获取该csv格式文件，并保存至本地电脑。

步骤2：数据预处理：

步骤2.1：归一化。

首先，使用pandas库中的read_csv函数将步骤1中的csv文件以pands库的DataFrame类对象的形式读入内存，记作df。之后，使用scikit-learn库的preprocessing模块中的MinMaxScaler类创建一个对象实例，记作min_max_scaler。以df的为参数，调用min_max_scaler的fit_transform函数，从而完成电力负荷数据的归一化。

步骤2.2：构建字典结构。

如图1所示，本发明通过将DataFrame类对象中的日期列设置为DataFrame类对象索引列，从而完成构建字典结构。之后，根据指定的预测目标日期，从df以日期键索引的方式提取该目标日期之前1个月用户电力负荷序列作为训练数据，并以序列列表对象的形式保存，记作D。D为一个30×1440的二维numpy数组(30天，每天1440个电力负荷数据)。

步骤3：日期类型分析。

在本发明中，日期类型分析步骤中使用的动态扭曲函数由tslearn库的metrics模块的dtw函数实现。k-means聚类算法使用tslearn库的clustering模块的TimeSeriesKMeans类实现。首先，创建一个TimeSeriesKMeans类对象，记作tskmeans_model。tskmeans_model对象的初始化参数为：聚类个数n_clusters设置为2，样本距离函数metric设置为动态扭曲函数dtw。之后，以步骤2.2中近一个月用户电力负荷序列D作为函数参数，调用tskmeans_model对象的fit_predict函数。得到标签序列L。L为长度30的一维numpy数组(30天对应的日期类型标签)。

步骤4：未来日期类型预测。

步骤4.1：周期提取。如图2所示，本发明中，使用python语言实现了周期提取函数，函数名为extract_cycel。extract_cycel的参数为一个一维numpy数组(标签序列)。以步骤3中得到标签序列L为参数，调用extract_cycel方法得到周期T。T是一个整数。

步骤4.2：模式提取。如图3所示，本发明中，使用python语言实现了模式提取函数，函数名为extract_mode。extract_mode的参数为一个一维numpy数组(标签序列)和一个整数(分割周期)。以步骤3中得到的标签序列L和步骤4.1中得到的周期T为参数，调用extract_mode方法得到模式子序列W。W是一个长度为T的一维numpy数组。

步骤4.3：预测。本发明中，使用python语言实现了预测函数，函数名为forecast。forecast函数的参数为一个一维numpy数组(模式子序列)、整数n(预测步长)和整数N(标签序列长度)。以步骤4.2中得到的模式子序列W、步长n＝1、步骤3中得到的标签序列L的长度N作为参数调用forecast函数，预测的日期类型序列L′，L′为一个长度为1的一维numpy数组。设G表示指定预测日期的日期类型，G＝L′[0]。

步骤5：构建训练集并训练LSTM模型。

步骤5.1：提取同类数据。以python表达式“L＝＝G”作为参数，调用numpy库的where函数得到所有日期类型为G的电力负荷序列在D中的索引构成的数组index，index是一个一维numpy数组。之后，使用python表达式“D[index]”从列表D中提取所有日期类型为G的电力负荷序列构成的列表D^(G)，D^(G)是一个二维numpy数组。

步骤5.2：构建训练集。对序列列表D^(G)，K＝2为分割参数，分别构建输入训练集与输出训练集X，y。X是一个三维numpy数组，y是一个二维numpy数组。

步骤5.3：训练LSTM模型。本发明中的LSTM模型使用Tensorflow库实现，以Tensorflow模型对象的形式保存，记作MD。该模型使用的所有LSTM层的激活函数为relu函数，使用的优化器为adam，损失函数为mean_squared_error(均方误差函数)。其结构如表2所示：

表2本发明使用的LSTM模型结构

以X，y，epochs＝400(训练轮数)为作为参数，调用MD对象fit函数，完成MD模型的训练。

步骤6：使用LSTM模型预测未来用户电力负荷序列。

步骤6.1：预测。从同类序列列表D^(G)中提取最后K个(本发明中K取2)序列样本作为参数，调用MD对象的predict函数得到预测结果，即未来1天的归一化后的电力负荷序列P^{＊[year-mouth-day]+N}，P^{＊[year-mouth-day]+N}是一个长度为1440的一维numpy数组。

步骤6.2：反归一化。以P^{＊[year-mouth-day]+N}作为参数，调用步骤2.1中得到的min_max_scaler对象的inverse_transform函数，得到未来1天的电力负荷序列P^{[year-mouth-day]+N}。

图4是本发明以2020年8月1日到2020年8月30日的用户电力负荷序列作为输入，预测2020年8月31日的用户电力负荷时间序列的效果图。经计算，图4中的预测序列predict与真实序列real的均方根误差RMSE为0.0123，平均绝对误差MAE为0.0643，具有较好的预测精度。

Claims

1.一种基于数据分析的用户电力负荷预测方法，其特征在于，该方法具体包括以下步骤：

步骤1：获取用户电力负荷的历史数据集

步骤2：数据预处理

步骤2.1：归一化

采用的归一化方法为最大值最小值归一化，如式1所示；

其中，表示P^*执行最大值最小值归一化后的电力负荷序列；P表示DS中原始的电力负荷序列；P_min表示DS中电力负荷最小值；P_max表示DS中电力负荷最大值；

步骤2.2：构建字典结构

将经过步骤2.1处理得到的数据按字典结构进行整理；日期作为字典的键，日期对应的电力负荷数据构成的序列作为值；键的类型为字符串，格式为“year-mouth-day”；

步骤3：日期类型分析；

通过k-means聚类算法将N天的电力负荷序列划分为工作日和节假日两类；

设符号D表示从某日期开始N天内的用户电力负荷序列构成的列表；D＝[P^{*[year-mouth-day]}，P^{*[year-mouth-day]+1}，P^{*[year-mouth-day]+2}，…，P^{*[year-mouth-day]+N-1}]；在该聚类算法中，每个样本都是一个序列，样本间距为序列的动态时间扭曲函数DTW；日期键为A，B的两个电力负荷序列P^*[A]与P^*[B]之间的样本距离定义为DTW(P^*[A],P^*[B])；

聚类后，为D中每个序列样本D_i打上类型标签，并将标签以数组的形式输出用符号L表示；L＝[L₀，L₁，…，L_N-1]，L_i∈{0，1}；

步骤4：未来日期类型预测

从标签数组L提取出日期类型变化的周期性，并利用这种周期性预测未来日期的日期类型；

步骤4.1：周期提取

提取出输入序列L的周期，该周期记为T；对于每个t为间隔的分割都有一个评分score，它表示该分割方式得到的各个子序列之间的相似性大小；score越小相似性越小，score越大表示相似性越大；score值最大的分割方式对应的周期就被选定为原序列L的最佳周期T；设函数score(L，t)表示将的输入序列L以周期长度t进行分割得到的子序列之间的相似度评分；其形式化描述为：

步骤4.2：模式提取

在步骤4.1中，获取到了输入序列L的周期T；以T为间隔，将L分割为N/T个子序列，每个子序列长度为T，如果N/T不为整数，则向下取整，并丢弃多余部分的样本值；之后，对这些子序列进行模式提取；模式提取是在每个子序列的相同索引对应的样本值之间取众数，得到一个新的子序列，即模式子序列；

设EXTRACT_MODE(L，T)表示从序列L以T为周期，提取模式子序列W的算法；其伪代码如算法2所示：

其中，GET_MODE(P)表示获取整数序列P的众数；

步骤4.3：预测日期类型

预测未来n个步长内的序列，实际上就是在原序列L的基础上，以T为周期，W为的模式子序列进行延拓；设预测得到的未来n个步长内的序列为L′，L′_i表示时间索引为i时刻的预测值，0≤i＜n；则有：

L′_i＝W_(N+i)modT (4)

式4中mod表示求模；设函数FORECAST(W，n，N)用来表示预测算法，其中W为步骤4.2获得的模式子序列，n为指定的步长，N为步骤4.1和步骤4.2中输入序列L的长度；其伪代码如算法3所示：

综合步骤4.1到步骤4.3；MPEA算法的总流程的伪代码如算法4所示；它的参数为一个序列L和步长n，通过分析L的周期性，预测未来n步的样本值，输出一个长度为n序列L′，L′表示未来n天日期类型；

步骤5：构建训练集并训练LSTM模型；

假设预测目标为P^{*[year-mouth-day]+N}；设通过日期类型分析得到的标签序列为L；设使用未来日期类型预测算法对P^{*[year-mouth-day]+N}所属的日期类型进行预测的结果为G，G∈{0，1}；

构建训练集的具体步骤如下：

步骤5.1：提取同类数据

从D中提取所有日期类型为G的序列样本，构成样本子列表D^(G)；D^(G)的长度为H；D_i ^(G)表示D_i ^(G)中第i个序列，从0开始编号，0≤i＜H；

步骤5.2：构建训练集

X的每一行是一个输入样本，y的每一行是一个输出样本，K是X每一行的长度，称K为分割参数；

步骤5.3：训练LSTM模型

使用X与y构成的训练集训练LSTM模型，用符号MD表示；

步骤6：使用LSTM模型预测未来用户电力负荷序列

步骤6.1：预测

将Z作为输入调用MD得到预测目标，即归一化后的用户电力负荷序列P^{*[year-mouth-day]+N}；

步骤(6.2)：反归一化

对P^{*[year-mouth-day]+N}进行反归一化，得到未来1天的用户电力负荷序列P^{*[year-mouth-day]+N}；如式7所示；

P^{[year-mouth-day]+N}＝(P_max-P_min)P^{*[year-mouth-day]+N}+P_min (7)

通过上述步骤1至步骤6，对于N天用户电力负荷序列数据构成的列表D，预测得到了未来1天用户电力负荷序列的P^{[year-mouth-day]+N}。

2.根据权利要求1所述的一种基于数据分析的用户电力负荷预测方法，其特征在于：所述的样本间距为序列的动态时间扭曲函数DTW；日期键为A，B的两个电力负荷序列P^*[A]与P^*[B]之间的样本距离的DTW(P^*[A],P^*[B])，定义如式8所示：

在式8中，π＝[π₀，π₁，…，π_K]是一系列索引对组构成的列表，其中的每一个元素π_K是一个索引对，P_i ^*[A]和P_j ^*[B]分别表示有功功率序列P^*[A]在索引i处的样本值和有功功率序列P^*[B]在索引j处的样本值；设两个序列的长度分别为n和m，在本发明中n和m的值均为1440；π满足以下条件：

●π_k＝(i_k，j_k)，0≤i_k＜n，0≤j_k＜m

●π₀＝(0，0)，π_K＝(n-1，m-1)

●对于所有k＞0，π_k＝(i_k，j_k)与π_k－1＝(i_k-1，j_k-1)的关系如下：

■i_k-1≤i_k＜i_k-1+1

■j_k-1≤j_k＜j_k-1+1。