CN115293400A

CN115293400A - 一种电力系统负荷预测方法及系统

Info

Publication number: CN115293400A
Application number: CN202210718685.8A
Authority: CN
Inventors: 赵洲; 沈然; 童佳亮; 胡若云; 孙钢; 李伊玲; 姜伟昊; 黄俊杰; 苏华骏; 谢汉天; 叶景; 王宁; 佘清顺
Original assignee: Zhejiang University ZJU; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang University ZJU; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-11-04

Abstract

本发明公开了一种电力系统负荷预测方法和系统。本发明预测方法包括：以用电企业为单位，对企业用电数据集以给定的采样时间窗口进行滑动采样；将滑动采样后的数据集划分为训练集和测试集，构成GA‑CNN‑LSTM模型的输入；构建GA‑CNN‑LSTM模型；构建基于GA遗传算法的调参策略；将训练集输入GA‑CNN‑LSTM模型，在GPU上进行模型调参，获得最优参数；将训练集输入GA‑CNN‑LSTM模型，使用最优参数，在GPU上进行模型训练；将训练集输入GA‑CNN‑LSTM模型，在测试集上进行预测，获得最终预测结果；使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。本发明能得到更可靠的数据集划分方式及能稳定、精确地挖掘电力负荷序列长期依赖关系，有效解决电力负荷预测技术难题。

Description

一种电力系统负荷预测方法及系统

技术领域

本发明涉及电力系统负荷预测技术领域，尤其是一种基于多因素聚类算法和GA-CNN-LSTM混合模型的电力系统负荷预测方法及系统。

背景技术

电力系统负荷预测是一项基础性的研究工作，它具有以下几点意义：

1.电力系统负荷预测研究可协助政府和供电公司发挥电能源的基础性调节作用，提升电力安全保供能力，完善储销体系。

2.电力系统负荷预测研究可指导电力公司优化电网调度、优化电网格局、引导用户侧参与市场化需求侧响应，推动源网荷储协同发展。

3.电力系统负荷预测研究是响应国家“能源技术革命”号召，推动能源技术与现代信息技术深度融合的一种体现。

电力系统负荷预测是利用变压器台区电力负荷数据、负荷特性数据并结合多种相关影响因子，通过一系列模型和算法，输出负荷预测数据。电力负荷预测又分为实时负荷预测、短期负荷预测、长期负荷预测，其中实时负荷预测对电网公司的生产计划和能源调度起到重要的指导作用。

国内外许多专家、学者在电力系统负荷预测领域做了大量的研究，提出了许多负荷预测的算法和模型。

(1)基于时间序列预测的自回归模型AR、自回归移动平均模型ARMA、差分整合移动平均自回归模型ARIMA等；这类模型算法简单、运行效率高，适用于平稳的时间序列，而无法精确拟合呈现出明显周期性、季节性、记忆性、惯性、非线性特征、非平稳的电力负荷数据。

(2)基于统计学习方法的模型，如支持向量机SVM等，SVM算法能将非线性数据集在高维空间中转化为线性约束条件下的凸二次规划问题，很好地解决了学习非线性数据的难题，但随着电力数据的快速增长，SVR算法在使用高斯核函数时拟合速度过慢，不适合工业应用。

(3)基于树模型，如决策树、随机森林、Adaboost模型、XGboost模型、Lightgbm模型等。这些树模型支持在分布式环境上运行，能根据信息增益寻找合适的特征分割点时、运算速度较快且可解释性强。但仍然无法捕捉到时间序列数据中一些非线性的规律。

(4)基于循环神经网络，如长短时记忆模型LSTM和GRU模型能有效捕获时间序列的记忆性、惯性、周期性规律，与电力负荷序列“近大远小”的序列特性相吻合，但是如果不对原始特征进行优化和增强，LSTM网络容易产生梯度爆炸和梯度消失的问题，其对时间序列预测的精度仍然一定具有局限性。

(5)CNN卷积神经网络能从多维度多层次捕获数据的特征和细节，但由于CNN原生适配于图像处理任务，单纯使用CNN网络训练时间序列，往往不能发挥出CNN模型强大的特征提取能力，反而会因为把时序数据完全当做图像来处理，形成了额外的噪声，增加了训练的误差。

经检索，部分研究者在处理负荷序列前，会对原始数据集进行按地域或按行业的分类。虽然，较没有分类以前，预测的精度得到了一定的提高；但是，这种分类方式没有考虑到了时序数据本身的数字特征，如最高负荷、最低负荷、峰谷差、负荷率、平均增长速率、均值、标准差、变异系数等；因而，通过对原始数据集划分方式的改进来提高预测精度仍然很值得研究。

发明内容

本发明所要解决的技术问题是克服上述现有技术存在的缺陷，提供一种基于多因素聚类算法和GA-CNN-LSTM混合模型的电力系统负荷预测方法及系统，以得到更可靠的数据集划分方式及能稳定、精确地挖掘电力负荷序列长期依赖关系，有效解决电力负荷预测技术难题。

为此，本发明采用的一种技术方案为：一种电力系统负荷预测方法，其包括：

步骤S1、采集构成用电企业用电负荷数据集的负荷数据和相关特征；

步骤S2、对企业用电数据集进行数据预处理及特征工程处理；

步骤S3、提取各用电企业负荷曲线的数字特征，构成用电企业负荷曲线数字特征集合；

步骤S4、使用Kmeans算法对数字特征集合以用电企业为单位进行聚类；

步骤S5、将聚类后的数据集以聚类类别为单位进行归一化；

步骤S6、以用电企业为单位，对企业用电数据集以给定的采样时间窗口进行滑动采样；

步骤S7、将滑动采样后的数据集划分为训练集和测试集，构成GA-CNN-LSTM模型的输入；

步骤S8、构建GA-CNN-LSTM模型的编码层；

步骤S9、构建GA-CNN-LSTM模型的解码层；

步骤S10、构建GA-CNN-LSTM模型的训练层；

步骤S11、构建基于GA遗传算法的调参策略；

步骤S12、将训练集输入GA-CNN-LSTM模型，在GPU上进行模型调参，获得最优参数；

步骤S13、将训练集输入GA-CNN-LSTM模型，使用步骤S12获得的最优参数，在GPU上进行模型训练；

步骤S14、将训练集输入GA-CNN-LSTM模型，在测试集上进行预测，获得最终预测结果；

步骤S15、使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。

进一步地，步骤S1包括：

步骤S1-1：以用电企业为单位采集变压器台区电力负荷数据；

步骤S1-2：以用电企业为单位采集天气相关特征；

步骤S1-3：以用电企业为单位采集时间相关特征；

步骤S1-4：拼接步骤S1-1、S1-2和S1-3的特征，构成企业用电负荷数据集。

更进一步地，所述企业用电负荷数据集的负荷数据和相关特征表示为：

D＝{D₁,D₂,…,D_i,…D_m}，

其中，D_i为第i家用电企业的负荷矩阵，m为用电企业总数；

其中，

表示第i家用电企业第d天t时刻的负荷信息；

为第i家用电企业第d天的负荷值，单位为千瓦；

为第i家用电企业第d天的天气映射值；

为第i家用电企业第d天的时间相关特征，

进一步地，步骤S2包括：

步骤S-2-1：缺省值填补，其方法为：

对于第i家用电企业第d天t时刻的缺损值，使用如下方法做填补：如果上一天同时刻的负荷值

存在，那么使用

代替缺损值；如果同一天上一时刻的负荷值

存在，那么使用

代替缺损值；如果下一天同时刻的负荷值

存在，那么使用

代替缺损值；如果同一天下一时刻的负荷值

存在，那么使用

代替缺损值；否则，使用该用电企业当日的负荷均值

代替缺损值；

步骤S-2-2：处理异常数据，其方法为：

S-2-2-1，对于数据文件错误的企业数据集，直接删除，同时输出异常数据报告；

S-2-2-2，对于每个时刻的负荷值均为0的异常数据集，直接删除，同时输出异常数据报告；

S-2-2-3，对于电力负荷值为特殊字符的数据集，直接删除，同时输出异常数据报告；

S-2-2-4，对于数据文件中企业名称和行业不匹配的企业数据集，核对数据文件后重新下载；

S-2-2-5，对于重复的用电企业数据集，只保留一家用电企业数据集，同时输出异常数据报告。

进一步地，步骤S3包括：

步骤S3-1、以用电企业为单位提取电力负荷分布特性相关的数字特征：最高负荷、最低负荷、峰谷差、负荷率，其计算公式如下：

最高负荷

最低负荷

谷峰差y_L＝y_max-y_min，

负荷率

式中，y_t表示t时刻的负荷，n表示负荷序列的长度；

步骤S3-2、以用电企业为单位提取序列增长速率相关的数字特征：平均增长速率，其计算公式如下：

平均增长率

式中，y₁、y_n分别表示t为1和n时的负荷；

步骤S3-3、以用电企业为单位提取序列特征参数相关的数字特征：均值、标准差和变异系数，其计算公式为：

均值

标准差

变异系数

步骤S3-4、以用电企业为单位，拼接步骤S3-1、S3-2和S3-3的结果，构成用电企业负荷曲线数字特征集合，其计算公式如下：

根据实际情况，

允许为空。

进一步地，所述步骤S4-1、S4-2和S4-3中所述的Kmeans算法，包含以下步骤：

给定聚类中心个数为K；

输入m个企业的用电企业负荷曲线数字特征集合

步骤S-Kmeans-1：从数据集中随机选取K个聚类中心：

{C₁,C₂,…,C_K}和K个对应的聚类中心向量{Γ₁,Γ₂,…,Γ_K}，

步骤S-Kmeans-2：计算

与聚类中心向量Γ_j的欧氏距离：

步骤S-Kmeans-3：把

划入与

距离最近的聚类中心向量Γ_j所对应的聚类中心C_j中，j＝1,2,…K；i＝1,2,…m；

步骤S-Kmeans-4：针对每个类别C_j，更新它的聚类中心向量

步骤S-Kmeans-5：重复步骤S-Kmeans-2至S-Kmeans-4，直至聚类中心的位置不再变换，或重复迭代次数满1000次；

相应地，把用电企业数据集划分为K个类别：

最终得到K个聚类类别C＝{C₁,C₂,…,C_i,…C_k}和K个对应的聚类中心向量{Γ₁,Γ₂,…,Γ_K}。

更进一步地，所述步骤S4-1、固定聚类中心向量初始化参数，以轮廓系数与1的欧氏距离为优化目标，执行100次Kmeans算法选取最优聚类类别个数；所述轮廓系数计算步骤为：

步骤S-silhouette-1：

计算样本i到所属簇内其他样本点的平均欧氏距离a(i)，

A表示样本点i、j所属的聚类簇；

步骤S-silhouette-2：

找到一个不含样本i的聚类簇，使得样本i到该聚类簇中各样本点的平均欧氏距离最小，取该平均欧氏距离，记为b(i)，

C表示样本点j所属的聚类簇；

步骤S-silhouette-3：计算样本i的轮廓系数s(i)，

步骤S-silhouette-4：计算总体的轮廓系数S：

所述的Kmeans算法，其优化目标表达式为：

其中，i＝1，2，…，m；m为用电企业总数；

C＝{C₁,C₂,…,C_j,…,C_K}为聚类簇的划分；

j＝1，2，…，K；

Γ_j为簇C_j对应的聚类中心向量；

为序列

与序列Γ_j的欧氏距离，其计算公式如下：

进一步地，所述步骤S4-1、固定聚类中心向量初始化参数，以轮廓系数与1的欧氏距离为优化目标，执行100次Kmeans算法选取最优聚类类别个数；其表达式为：

其中，

K_n为执行第n次Kmeans算法时设定的聚类个数；Θ₁表示执行第1次Kmeans算法时构成初始聚类中心向量的参数；B_feature表示用电企业的负荷曲线数字特征向量；

表示执行第n次Kmeans算法时，所得到的聚类类别为j的用电企业的负荷信息矩阵；S_n表示执行第n次Kmeans算法时，得到的轮廓系数值；K′为输出的最优的聚类类别个数。

所述步骤S4-2、根据S4-1得到的最优聚类类别个数，以轮廓系数与1的欧氏距离为优化目标，执行100次Kmeans算法选取最优的聚类中心向量初始化参数；其表达式为：

所述步骤S4-3、根据S4-1、S4-2得到的最优聚类类别个数和最优的聚类中心向量初始化参数，执行1次Kmeans算法，得到最优的按聚类类别划分的用电企业负荷矩阵；其表达式为：

进一步地，所述步骤S5、将聚类后的数据集以聚类类别为单位进行归一化；所述归一化算法计算公式为：

其中，i＝1,2,3…,K；

为聚类类别为C_i的用电数据集的负荷均值；

为聚类类别为C_i的用电数据集的负荷方差；

函数f的作用是筛选出所有需要归一化的特征。

进一步地，所述步骤S6、以用电企业为单位，对企业用电数据集以给定的采样时间窗口进行滑动采样；所述时间序列滑动采样包含如下步骤：

步骤S-6-1：将输入集合展平为一维时序向量集；

步骤S-6-2：采样完成的数据集表示为：

Load_i＝(Data_i,Lable_i)

|Load_i|＝|E_i|-Day_x-Day_y+1；

其中，

|E_i|表示采样前的数据集的大小；Load_i表示聚类类别C_i对应的采样后的负荷数据集；|Load_i|表示聚类类别C_i对应的采样后的负荷数据集的大小；Data_i为输入变量集，Lable_i为输出变量集；Day_x为输入变量所含电力负荷数据的时点数；Day_y为输出变量所含电力负荷数据的时点数。

进一步地，所述步骤S7、将滑动采样后的数据集划分为训练集和测试集，构成GA-CNN-LSTM模型的输入；所述数据集划分包含如下步骤：

步骤S-7-1：对每个聚类的数据集，随机重排样本的顺序；

其中每个样本排列在每个位置的概率均相同；

步骤S-7-2：对随机重排后的序列，取前90％的样本构成训练集，取后10％的样本构成测试集。

进一步地，所述步骤S8、构建GA-CNN-LSTM模型的编码层，其数据维度为：

输入：encode_input∈R^{(batchsize,FeatureSize,1)}，

输出：encode_output∈R^{(batchsize,FeatureSize,n_featuremap)}，

其中，encode_input表示编码层输入，

n_featuremap为特征图的个数。

进一步地，所述步骤S8-1、封装GA-CNN-LSTM模型的输入数据；包括以下步骤：

步骤S8-1-1：按批次，以聚类类型为单位，从步骤S-6-2的采样输出结果中取样本数据，所述批大小为32；即，每一次从聚类类型为i的数据集

Load_i＝(Data_i,Lable_i)中顺序取出32组样本数据；

所取出的每组样本数据由输入和标签构成，表示为：

Group_d＝(GroupX,GroupY)_d；

d＝1,2,…,batchsize；

FeatureSize为特征个数，由1个电力负荷值和若干其余特征组成；

d表示批次；batchsize表示批大小；

步骤S8-1-2：对步骤S8-1-1所述的每组样本数据，构建GA-CNN-LSTM网络的输入样本X，其构建方法为：

从GroupX中取Day_x条用电负荷值，构成样本的前Day_x个特征；

从GroupY中取出第1个数据点时的其他特征(除用电负荷值以外)，构成样本X的其余特征；

步骤S8-1-3：对步骤S8-1-1所述的每组样本数据，构建GA-CNN-LSTM网络的一组标签Y，其构建方法为：

从GroupY中取Day_y条用电负荷值，构成Y标签；

最终，封装成GA-CNN-LSTM模型的一个输入数据为：

encode_input∈R^{(batchsize,FeatureSize,1)}，R表示实数空间。

所述步骤S8-2、设置CNN卷积神经网络的超参数：特征图宽度；其初始参数设置为：128；

所述步骤S8-3、设置CNN卷积神经网络的超参数：卷积步长；其初始参数设置为：1；

所述步骤S8-4、设置CNN卷积神经网络的超参数：卷积核大小；其初始参数设置为：5；

所述步骤S8-5、设置CNN卷积神经网络的超参数：边界填充大小；其初始参数设置为：2个数据单位；

进一步地，所述步骤S9、构建GA-CNN-LSTM模型的解码层；其数据维度为：

输入：encode_output∈R^{(batchsize,FeatureSize,n_featuremap)}；

encode_output表示编码层输出；

LSTM单元输出：decode_LSTM∈R^{(batchsize,1,LSTM_layer)}；

FC单元输出：decode_FC∈R^{(batchsize,1)}；

LSTM_layer表示超参数：LSTM网络的层数。

进一步地，所述步骤S9-1、设置长短期记忆网络LSTM的超参数：方向；其初始参数设置为：单向；

所述步骤S9-2、设置长短期记忆网络LSTM的超参数：层数；其初始参数设置为：2；

所述步骤S9-3、设置长短期记忆网络LSTM的超参数：随机失活神经元个数；其初始参数设置为：0.1；

所述步骤S9-4、设置长短期记忆网络LSTM的超参数：隐层神经元个数；其初始参数设置为：64；

所述步骤S9-5、构建全连接神经网络层；所述全连接神经网络输入包含16个神经元，输出包含1个神经元。

所述步骤S9-6、构建循环预测机制；其计算公式为：

式中，函数Ψ＝Ψ(X,OtherFeature,Θ)表示单点输出结果；函数Y＝Φ(X,OtherFeature,Θ)表示循环预测结果；

表示预测当日的其余特征，通常包括天气特征、日期特征等。

进一步地，所述步骤S10-1、构建基于Adam算法的优化器，其公式为：

其中，η表示学习率，g_t表示t时刻的梯度，β₁和β₂分别表示第一、第二加权衰减系数，θ表示模型参数，ε表示稳定性参数，m_t表示计算过程t时刻的中间变量，v_t表示计算过程t时刻的中间变量，m₀表示计算过程0时刻的中间变量，v₀表示计算过程0时刻的中间变量，

表示m_t经加权衰减后的结果，

表示v_t经加权衰减后的结果，

表示t时刻的第一加权衰减系数，

表示t时刻的第二加权衰减系数。

所述步骤S10-2、设置训练终止条件；其模型训练的终止条件为：若连续8个epoch训练集的均方误差值MSE没有降低，则训练终止；否则，执行60个epoch后，训练终止。

所述长短期记忆网络LSTM，其对输入数据的计算包含以下步骤：

S-LSTM-1：计算t时刻的输入门衰减系数和输入值，其公式为：

k_t为t时刻输入门衰减系数，input_t为t时刻的输入值，h_t-1为t-1时刻的网络输出值，x_t为t时刻的网络输入值，W_k、W_input为权重参数，b_k、b_input为偏置参数。

S-LSTM-2：计算t时刻的遗忘门衰减系数和记忆值，其公式为：

其中，f_t为t时刻遗忘门衰减系数，k_t为t时刻输入门衰减系数，input_t为t时刻输入值，h_t-1为t-1时刻的网络输出值，x_t为t时刻的网络输入值，Cell_t为t时刻记忆单元存储的记忆值，W_f为权重参数，b_f为偏置参数。

S-LSTM-3：计算t时刻的输出门衰减系数和输出值，其公式为：

其中，O_t为t时刻输入门衰减系数，Output_t为t时刻输出值，h_t-1为t-1时刻的网络输出值，x_t为t时刻的网络输入值，Cell_t为t时刻记忆单元存储的记忆值，W_o为权重参数，b_o为偏置参数。

所述步骤S11-1、设置待调的超参数：编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数；其中，调参范围可表示为：

解码层中LSTM网络的隐层神经元个数：θ₁∈Z⁺；

解码层中LSTM网络的层数：θ₂∈Z⁺；

编码层中CNN卷积神经网络的特征图个数：θ₃∈Z⁺；

其中，Z⁺表示正整数。

所述步骤S11-2、对个体编码并设置初始种群；初始种群为：

Θ＝{θ₁，θ₂，θ₃}＝{16,2,128}，

所述步骤S11-3、设置个体的适应度函数；其表达式为：

F(Θ)为适应度函数，

Y_real为真实的负荷值，

N为样本的总数，

函数Y＝Φ(X,OtherFeature,Θ)表示GA-CNN-LSTM网络的循环预测结果；

所述步骤S11-4、设置复制率、杂交率、变异率；所述杂交率、变异率、复制率为：

P(基因杂交)＝6％，P(基因变异)＝88％，P(基因复制)＝6％；

所述步骤S11-5、定义遗传算法规则；所述遗传算法包含如下步骤：

步骤S11-5-1、开始本轮迭代：产生一个0-99之间的随机数n作为遗传算法随机数。根据以下公式确定突变类型：

步骤S11-5-2、构建子代基因：

(1)若本轮迭代采取杂交的方式：

从Θ＝{θ₁，θ₂，θ₃}中随机选取两个参数，进行值交换，构成一组新的参数，

Θ_next＝{θ₁，θ₂，θ₃}；

(2)若本轮迭代采取复制的方式：

从Θ＝{θ₁，θ₂，θ₃}中随机选取两个参数，将第二个参数的值复制给第一个参数，构成一组新的参数，

Θ_next＝{θ₁，θ₂，θ₃}；

(3)若本轮迭代采取变异的方式，使用以下步骤更新参数：

3-1、获取探索值ξ，获取探索值的方法如下：

如果选中的参数是lstm_neurons，探索值为-2到2之间的整数随机数；

如果选中的参数是lstm_layer，探索值为-2到2之间的整数随机数；

如果选中的参数是cnn_feature_map，探索值为-5到5之间的整数随机数；

3-2、从Θ＝{θ₁，θ₂，θ₃}中随机选取1个参数θ作为变异参数；

3-3、更新子代基因值：θ←θ+ξ；

构成一组新的参数：Θ_next＝{θ₁，θ₂，θ₃}。

步骤S11-5-3、使用步骤S11-3的公式计算当前参数的适应度。若适应度值降低，

则用Θ_next代替Θ，本轮迭代结束；否则，本轮迭代结束。

所述步骤S11-6、设置遗传算法终止条件；所述遗传算法终止条件为：遗传代数＝1000次。

所述步骤S12将训练集输入GA-CNN-LSTM模型，在GPU上进行模型调参；获得最优的参数集合：

Θ＝{θ₁,θ₂,θ₃}。

所述步骤S15、使用均方误差MSE、均方根误差RMSE、决定系数R2、平均绝对误差MAE指标评估模型的效果；其公式为：

表示平均值，

表示预测值，m表示样本个数，y_i表示真实值。

本发明的另一方面，提供一种电力系统负荷预测系统，其包括：

电力负荷数据采集单元：采集构成用电企业用电负荷数据集的负荷数据和相关特征；

数据预处理及特征工程单元：对企业用电数据集进行数据预处理及特征工程处理；

电力负荷曲线数字特征提取单元：提取各用电企业负荷曲线的数字特征，构成用电企业负荷曲线数字特征集合；

数据集聚类处理单元：使用Kmeans算法对数字特征集合以用电企业为单位进行聚类；

数据集采样处理单元：将聚类后的数据集以聚类类别为单位进行归一化；以用电企业为单位，对企业用电数据集以给定的采样时间窗口进行滑动采样；将滑动采样后的数据集划分为训练集和测试集，构成GA-CNN-LSTM模型的输入；

GA-CNN-LSTM模型编码层构建单元：封装GA-CNN-LSTM模型的输入数据；设置CNN卷积神经网络的超参数：特征图宽度、卷积步长、卷积核大小和边界填充大小；

GA-CNN-LSTM模型解码层构建单元：设置长短期记忆网络LSTM的超参数：方向、层数、随机失活神经元个数和隐层神经元个数；构建全连接神经网络层；构建循环预测机制；

GA-CNN-LSTM模型训练层构建单元：构建基于Adam算法的优化器；设置学习率衰减机制；设置训练终止条件；

GA遗传算法调参单元，设置待调的超参数：编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数；对个体编码并设置初始种群；设置个体的适应度函数；设置复制率、杂交率、变异率；定义遗传算法规则；设置遗传算法终止条件；依据GA遗传算法的结果固定模型的参数；

GA-CNN-LSTM模型训练单元：将训练集输入GA-CNN-LSTM模型，使用GA遗传算法调参单元进行调参，获得最优参数；将训练集输入GA-CNN-LSTM模型，GA遗传算法调参单元获得的最优参数，在GPU上进行模型训练；将训练集输入GA-CNN-LSTM模型，在测试集上进行预测，获得最终预测结果；

电力负荷模型评估单元：使用均方误差MSE、平均绝对误差RMSE、决定系数R2_Score和均方根误差MAE指标评估模型的效果。

本发明具有的有益效果如下：

1.模型评估效果优于逻辑回归、支持向量机、随机森林、KNN、XGBoost、LightGBM等机器学习模型；

2.模型评估效果优于卷积神经网络、简单循环神经网络等深度学习模型；

3.模型可以适应小的数据集，其复杂度可自适应伸缩，更适合工业应用；

4.模型使用基于Kmeans的聚类算法对企业进行分类，使得负荷序列分布、增长速率、特征参数等数字特征近似的企业数据聚合在一起；使得聚类之内的用电企业，其负荷曲线的数字特征是类似的，聚类之外的用电企业，其负荷曲线的数字特征是强差异性的。而对于这些负荷曲线数字特征类似的用电企业，他们之间往往包含着一些共同的信息，比如类似的作息、类似的订单周期、类似的负荷强度等等，而这些信息通过聚类算法很容易被铺捉到。

5.模型无需添加额外的信息采集设备或系统，仅使用国家电网内部的“电力用户用电采集系统”即可完成基础数据的采集，其低耦合的特性使其更易于系统间的集成，更为经济可靠；

6.基于长短时记忆网络LSTM和全连接神经网络构成的解码层，其长短时记忆网络LSTM部分是一种链式循环的网络结构，这种链式循环结构解决了时间序列长时依赖的问题。其模型结构更符合电力负荷序列的实质，即一种中长期的时间序列。因而建模过程具有较强的可解释性和适用性；

7.在模型预测过程中，采用连续多日预测多天的方式，相较一次性并行地输出多天预测值更符合实际应用场景，具有更低的均方误差，因而更适合于工业应用；

8.基于Adam算法的优化器在传统随机梯度下降优化算法的基础上增加了动量特性、自适应学习率，使得模型在学习过程中既能快速接近最优值又不易陷入局部最低点；

9.引入训练的提前终止条件后，既能提高模型训练的效率，又能降低过拟合的风险；

10.GA-CNN-LSTM模型在基于长短时记忆网络LSTM的解码层中设置了合适的随机失活比例，使得神经元以一定概率停止工作，这样的机制有效改善了过拟合现象，提高了模型的泛化能力。

11.GA-CNN-LSTM模型的编码层使用基于CNN卷积神经网络的特征提取器，能以滑动卷积的方式提取数据集中的信息，这种信息的提取方式是多角度的，长距离的，符合时序数据潜在的特点。

12.GA-CNN-LSTM模型使用GA遗传算法调参，这种调参方式是基于达尔文“适者生存”的思想而发展起来的，它从一组初始群体出发，通过选择、杂交、变异等操作，使群体进化到搜索空间中尽可能佳的区域。理论上，当迭代次数趋于无穷大的时候总能找到全局最优的参数。

13.GA-CNN-LSTM模型使用GA遗传算法调参，这种调参方式，其目标函数的函数值是随着迭代次数的增加单调递减的，因而它对参数的优化程度取决于用户在何时主动停止运算。

14.GA-CNN-LSTM模型使用GA遗传算法调参，这种调参方式，在参数逼近最优值的过程中，由于杂交算子的作用，参数不易落入局部最小值点；同时，由于变异算子的作用，模型会在当前最优值点的附近进一步探索更优的参数；而复制算子能在保留源基因特点的基础上尝试对目标基因做改进；在这三种算子的共同作用下，GA遗传算法不断地向最优值点逼近。

15.在企业用电负荷数据集的负荷数据和相关特征的选取上，兼顾了国家统计局发布的宏观数据，也考虑了时间因素、天气因素，因而较单纯的时序趋势外推数据能更全面地表达企业用电负荷的特征。

16.基于GA遗传算法的调参性能较网格搜索、贝叶斯搜索等常规调参方法好。

附图说明

图1为本发明算法流程图；

图2为本发明系统架构图；

图3为本发明实施例提供的对负荷曲线数字特征进行聚类所输出的决策边界示意图；

图4为本发明实施例提供的GA-CNN-LSTM模型编码层结构示意图；

图5为本发明实施例提供的GA-CNN-LSTM模型解码层结构示意图；

图6为本发明实施例提供的基于GA遗传算法的调参单元流程示意图；

图7为本发明实施例提供的某用电公司负荷曲线真实值与预测值的对比图。

具体实施方式

下面将结合实施例和附图，对本发明作进一步描述。通过附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施例1

本实施例为一种电力系统负荷预测方法，如图1所示，其步骤如下：

本实施例数据集采集自国家电网公司电力用户信息采集系统。采集杭州供电公司和嘉兴供电公司下属的10061家企业近6年的电力负荷数据和负荷特性数据。

步骤S1、采集构成企业用电负荷数据集的负荷数据和相关特征；所述企业用电负荷数据集的负荷数据和相关特征可表示为：

D＝{D₁,D₂,…,D_i,…D_m}，

其中，D_i为第i家用电企业的负荷矩阵，m为用电企业总数；

其中，

表示第i家用电企业第d天t时刻的负荷信息；

为第i家用电企业第d天的负荷值，单位为千瓦；

为第i家用电企业第d天的天气映射值；

为第i家用电企业第d天的时间相关特征，

步骤S2、对企业用电数据集进行数据预处理及特征工程处理；包括以下步骤：

步骤S-2-1：缺省值填补，其方法为：

对于第i家用电企业第d天t时刻的缺损值使用如下方法做填补：如果上一天同时刻的负荷值

存在，那么使用

代替缺损值；如果同一天上一时刻的负荷值

存在，那么使用

代替缺损值；如果下一天同时刻的负荷值

存在，那么使用

代替缺损值；如果同一天下一时刻的负荷值

存在，那么使用

代替缺损值；否则，使用该用电企业当日的负荷均值

代替缺损值。

步骤S-2-2：处理异常数据，其方法为：

S-2-2-1对于数据文件错误的企业数据集，直接删除，同时输出异常数据报告；

S-2-2-2对于每个时刻的负荷值均为0的异常数据集，直接删除，同时输出异常数据报告；

S-2-2-3对于电力负荷值为特殊字符的数据集，直接删除，同时输出异常数据报告；

S-2-2-4对于数据文件中企业名称和行业不匹配的企业数据集，核对数据文件后重新下载；

S-2-2-5对于重复的用电企业数据集，只保留一家用电企业数据集，同时输出异常数据报告。

步骤S3、提取各用电企业负荷曲线的数字特征，构成各用电企业数字特征集合。

其中，步骤S3-1、以用电企业为单位提取电力负荷分布特性相关的数字特征：最高负荷、最低负荷、峰谷差、负荷率的计算公式为：

最高负荷

最低负荷

谷峰差y_L＝y_max-y_min，负荷率

式中，y_t表示t时刻的负荷，n表示负荷序列的长度；

步骤S3-2、以用电企业为单位提取序列增长速率相关的数字特征：平均增长速率；其计算公式为：

平均增长率

式中，y₁、y_n分别表示t为1和n时的负荷；

步骤S3-3、以用电企业为单位提取序列特征参数相关的数字特征：均值、标准差、变异系数，其计算公式为：

均值

标准差

变异系数

步骤S3-4、以用电企业为单位，拼接S3-1、S3-2、S3-3的结果，构成用电企业负荷曲线数字特征集合；其计算公式为：

根据实际情况，

允许为空。

图3为本发明实施例提供的对负荷曲线数字特征进行聚类所输出的决策边界示意图。

步骤S4、使用Kmeans算法对数字特征集合以用电企业为单位进行聚类。

步骤S4-1、固定聚类中心向量初始化参数，以轮廓系数与1的欧氏距离为优化目标，执行100次Kmeans算法选取最优聚类类别个数；所述轮廓系数计算步骤为：

步骤S-silhouette-1：

计算样本i到所属簇内其他样本点的平均欧氏距离a(i)，

步骤S-silhouette-2：

步骤S-silhouette-3：计算样本i的轮廓系数s(i)

步骤S-silhouette-4：计算总体的轮廓系数S：

所述的Kmeans算法，其优化目标表达式为：

其中，i＝1，2，…，m；m为用电企业总数；

C＝{C₁,C₂,…,C_j,…,C_K}为聚类簇的划分；

j＝1，2，…，K；

Γ_j为簇C_j对应的聚类中心向量；

为序列

与序列Γ_j的欧氏距离，其计算公式如下：

步骤S4-1、固定聚类中心向量初始化参数，以轮廓系数与1的欧氏距离为优化目标，执行100次Kmeans算法选取最优聚类类别个数；其表达式为：

其中，

步骤S4-2、根据S4-1得到的最优聚类类别个数，以轮廓系数与1的欧氏距离为优化目标，执行100次Kmeans算法选取最优的聚类中心向量初始化参数；其表达式为：

步骤S4-3、根据S4-1、S4-2得到的最优聚类类别个数和最优的聚类中心向量初始化参数，执行1次Kmeans算法，得到最优的按聚类类别划分的用电企业负荷矩阵；其表达式为：

步骤S5、将聚类后的数据集以聚类类别为单位进行归一化；所述归一化算法计算公式为：

其中，i＝1,2,3…,K；

为聚类类别为C_i的用电数据集的负荷均值；

为聚类类别为C_i的用电数据集的负荷方差；

函数f的作用是筛选出所有需要归一化的特征。

所述步骤S4-1、S4-2、S4-3、S4-4中所述的Kmeans算法，包含以下步骤：

给定聚类中心个数为K；

输入m个企业的用电企业负荷曲线数字特征集合

步骤S-Kmeans-1：从数据集中随机选取K个聚类中心：

{C₁,C₂,…,C_K}和K个对应的聚类中心向量{Γ₁,Γ₂,…,Γ_K}，

步骤S-Kmeans-2：计算

与聚类中心向量Γ_j的欧氏距离：

步骤S-Kmeans-3：把

划入与

步骤S-Kmeans-4：针对每个类别C_j，更新它的聚类中心向量

相应地，把用电企业数据集划分为K个类别：

步骤S6、以用电企业为单位，对企业用电数据集以给定的采样时间窗口进行滑动采样；所述时间序列滑动采样包含如下步骤：

步骤S-6-1：将输入集合展平为一维时序向量集；

步骤S-6-2：采样完成的数据集表示为：

Load_i＝(Data_i,Lable_i)

|Load_i|＝|E_i|-Day_x-Day_y+1；

其中，

步骤S7、将滑动采样后的数据集划分为训练集和测试集，构成GA-CNN-LSTM模型的输入；所述数据集划分包含如下步骤：

步骤S-7-1：对每个聚类的数据集，随机重排样本的顺序；

其中每个样本排列在每个位置的概率均相同；

步骤S8、构建GA-CNN-LSTM模型的编码层。其数据维度为：

输入：encode_input∈R^{(batchsize,FeatureSize,1)}，

输出：encode_output∈R^{(batchsize,FeatureSize,n_featuremap)}，

其中，encode_input表示编码层输入，

n_featuremap为特征图的个数。

步骤S8-1、封装GA-CNN-LSTM模型的输入数据；包括以下步骤：

步骤S8-1-1：按批次，以聚类类型为单位，从步骤S-6-2的采样输出结果中取样本数据，所述批大小为32；即，每一次从聚类类型为i的数据集。

Load_i＝(Data_i,Lable_i)中顺序取出32组样本数据，i＝1,2,…K；

所取出的每组样本数据由输入和标签构成，表示为：

Group_d＝(GroupX,GroupY)_d；

d＝1,2,…,batchsize；

d表示批次；batchsize表示批大小；

从GroupX中取Day_x条用电负荷值，构成样本的前Day_x个特征；

从GroupY中取Day_y条用电负荷值，构成Y标签；

最终，封装成GA-CNN-LSTM模型的一个输入数据为：

encode_input∈R^{(batchsize,FeatureSize,1)}，R表示实数空间。

图4为本发明实施例提供的GA-CNN-LSTM模型编码层结构示意图。

步骤S8-2、设置CNN卷积神经网络的超参数：特征图宽度；其初始参数设置为：128；

步骤S8-3、设置CNN卷积神经网络的超参数：卷积步长；其初始参数设置为：1；

步骤S8-4、设置CNN卷积神经网络的超参数：卷积核大小；其初始参数设置为：5；

步骤S8-5、设置CNN卷积神经网络的超参数：边界填充大小；其初始参数设置为：2个数据单位；

图5为本发明实施例提供的GA-CNN-LSTM模型解码层结构示意图；

所述步骤S9、构建GA-CNN-LSTM模型的解码层；其数据维度为：

输入：encode_output∈R^{(batchsize,FeatureSize,n_featuremap)}；

encode_output表示编码层输出；

LSTM单元输出：decode_LSTM∈R^{(batchsize,1,LSTM_layer)}；

FC单元输出：decode_FC∈R^{(batchsize,1)}；

LSTM_layer表示超参数：LSTM网络的层数。

步骤S9-1、设置长短期记忆网络LSTM的超参数：方向；其初始参数设置为：单向；

步骤S9-2、设置长短期记忆网络LSTM的超参数：层数；其初始参数设置为：2；

步骤S9-3、设置长短期记忆网络LSTM的超参数：随机失活神经元个数；其初始参数设置为：0.1；

步骤S9-4、设置长短期记忆网络LSTM的超参数：隐层神经元个数；其初始参数设置为：64；

步骤S9-5、构建全连接神经网络层；所述全连接神经网络输入包含16个神经元，输出包含1个神经元。

步骤S9-6、构建循环预测机制；其计算公式为：

步骤S10、构建GA-CNN-LSTM模型的训练层。

步骤S10-1、构建基于Adam算法的优化器；其公式为：

表示m_t经加权衰减后的结果，

表示v_t经加权衰减后的结果，

表示t时刻的第一加权衰减系数，

表示t时刻的第二加权衰减系数。

步骤S10-2、设置训练终止条件；其模型训练的终止条件为：若连续8个epoch训练集的均方误差值MSE没有降低，则训练终止；否则，执行60个epoch后，训练终止。

S-LSTM-1：计算t时刻的输入门衰减系数和输入值，其公式为：

S-LSTM-2：计算t时刻的遗忘门衰减系数和记忆值，其公式为：

S-LSTM-3：计算t时刻的输出门衰减系数和输出值，其公式为：

步骤S11、构建基于GA遗传算法的调参策略。

步骤S11-1、设置待调的超参数：编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数；其中，调参范围可表示为：

解码层中LSTM网络的隐层神经元个数：θ₁∈Z⁺；

解码层中LSTM网络的层数：θ₂∈Z⁺；

编码层中CNN卷积神经网络的特征图个数：θ₃∈Z⁺；

其中，Z⁺表示正整数。

步骤S11-2、对个体编码并设置初始种群；初始种群为：

Θ＝{θ₁，θ₂，θ₃}＝{16,2,128}

步骤S11-3、设置个体的适应度函数；其表达式为：

F(Θ)为适应度函数，

Y_real为真实的负荷值，

N为样本的总数，

函数Y＝Φ(X,OtherFeature,Θ)表示GA-CNN-LSTM网络的循环预测结果；

步骤S11-4、设置复制率、杂交率、变异率；所述杂交率、变异率、复制率为：

P(基因杂交)＝6％，P(基因变异)＝88％，P(基因复制)＝6％；

表1为本发明实施例提供的基于GA遗传算法的调参日志

从调参日志中可以发现，随着遗传算法迭代次数的增加，参数会逐渐逼近最优解。

步骤S11-5、定义遗传算法规则；所述遗传算法包含如下步骤：

步骤S11-5-2、构建子代基因：

(1)若本轮迭代采取杂交的方式：

Θ_next＝{θ₁，θ₂，θ₃}；

(2)若本轮迭代采取复制的方式：

Θ_next＝{θ₁，θ₂，θ₃}；

(3)若本轮迭代采取变异的方式，使用以下步骤更新参数：

3-1、获取探索值ξ，获取探索值的方法如下：

3-3、更新子代基因值：θ←θ+ξ；

构成一组新的参数：Θ_next＝{θ₁，θ₂，θ₃}。

步骤S11-5-3、使用步骤S11-3的公式计算当前参数的适应度。

若适应度值降低，则用Θ_next代替Θ，本轮迭代结束；否则，本轮迭代结束。

步骤S11-6、设置遗传算法终止条件；所述遗传算法终止条件为：遗传代数＝1000次。

步骤S12将训练集输入GA-CNN-LSTM模型，在GPU上进行模型调参；获得最优的参数集合：

Θ＝{θ₁，θ₂，θ₃}。

步骤S13、将训练集输入GA-CNN-LSTM模型，使用步骤S12获得的最优参数，在GPU上进行模型训练。

步骤S14、将训练集输入GA-CNN-LSTM模型，在测试集上进行预测，获得最终预测结果。

步骤S15、使用均方误差MSE、均方根误差RMSE、决定系数R2、平均绝对误差MAE指标评估模型的效果；其公式为：

表示平均值，

表示预测值，m表示样本个数，y_i表示真实值。

图7为本发明实施例提供的某用电公司负荷曲线真实值与预测值的对比图，从对比图中可见，实施本发明的预测曲线与真实曲线拟合度较高。

表2为本发明实施例提供的模型效果评估表

使用的模型	数据集	MSE_score	RMSE_score	MAE	R2_score	优化器	total_epochs
								GC-CNN_LSTM(本发明)	聚类类型1	0.010750476	0.103684504	0.073953174	0.978487907	Addam	12
GC-CNN_LSTM(本发明)	聚类类型2	0.02227906	0.149261715	0.103833534	0.976370665	Adam	30
								GC-CNN_LSTM(本发明)	聚类类型3	0.037624598	0.19397061	0.115313992	0.961429384	Adam	43
GC-CNN_LSTM(本发明)	聚类类型4	0.468061596	0.684150273	0.495754331	0.523131076	Adam	38
								GC-CNN_LSTM(本发明)	聚类类型5	0.253139585	0.50312979	0.333364069	0.752165574	Addam	51
GC-CNN_LSTM(本发明)	聚类类型6	0.186490968	0.431846	0.228755504	0.798947377	Adam	72
								GC-CNN_LSTM(本发明)	聚类类型7	0.063068941	0.251135305	0.168441653	0.933711256	Adam	23
GC-CNN_LSTM(本发明)	聚类类型8	0.027789002	0.166700337	0.127910167	0.974056188	Adam	25
								GC-CNN_LSTM(本发明)	聚类类型9	0.086432077	0.293993328	0.208487317	0.838074805	Adam	34
GC-CNN_LSTM(本发明)	不做聚类的数据集	0.266316772	0.516058884	0.329572707	0.70159652	Adam	30
								DecisionTreeRegressor	总体	0.120610715	0.344949704	0.168230208	0.879314271
KNN.csv	总体	0.117931951	0.340997312	0.157477265	0.882040226
								LightGBM.csv	总体	0.108730648	0.327962556	0.157405286	0.891435078
RandomForestRegressor	总体	0.107861637	0.326575584	0.156782926	0.892040587
								Ridge.csv	总体	0.097405421	0.303769182	0.152770383	-11.3704453
SVR.csv	总体	0.120446819	0.344718295	0.15782647	0.879450045
								Xgboost.csv	总体	0.1024889	0.318497154	0.153918627	0.897517968

从评估表可见：1.实施本发明，聚类后的数据集拟合效果明显优于聚类前数据集的拟合效果；2.实施本发明，GA-CNN-LSTM模型的效果在大多数数据集上优于线性回归模型、最近邻回归模型、决策树回归模型、随机森林回归模型、XGboost模型、LightGBM模型、支持向量机回归模型等对比算法。

实施例2

本实施例提供一种电力系统负荷预测系统，如图2所示，其包括：

实施例2未详细说明的部分参见实施例1。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种电力系统负荷预测方法，其特征在于，包括：

步骤S5、将聚类后的数据集以聚类类别为单位进行归一化；

步骤S8、构建GA-CNN-LSTM模型的编码层；

步骤S9、构建GA-CNN-LSTM模型的解码层；

步骤S10、构建GA-CNN-LSTM模型的训练层；

步骤S11、构建基于GA遗传算法的调参策略；

2.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S1的具体内容如下：

步骤S1-1：以用电企业为单位采集变压器台区电力负荷数据；

步骤S1-2：以用电企业为单位采集天气相关特征；

步骤S1-3：以用电企业为单位采集时间相关特征；

3.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S3的具体内容如下：

步骤S3-1、以用电企业为单位提取电力负荷分布特性相关的数字特征：最高负荷、最低负荷、峰谷差、负荷率；

步骤S3-2、以用电企业为单位提取序列增长速率相关的数字特征：平均增长速率；

步骤S3-3、以用电企业为单位提取序列特征参数相关的数字特征：均值、标准差和变异系数；

步骤S3-4、以用电企业为单位，拼接S3-1、S3-2、S3-3的结果，构成用电企业负荷曲线数字特征集合。

4.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S4的具体内容如下：

步骤S4-1、固定聚类中心向量初始化参数，以轮廓系数与1的欧氏距离为优化目标，执行多次Kmeans算法选取最优聚类类别个数；

步骤S4-2、根据S4-1得到的最优聚类类别个数，以轮廓系数与1的欧氏距离为优化目标，执行多次Kmeans算法选取最优的聚类中心向量初始化参数；

步骤S4-3、根据S4-1、S4-2得到的最优聚类类别个数和最优的聚类中心向量初始化参数，执行1次Kmeans算法，得到最优的按聚类类别划分的用电企业负荷矩阵。

5.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S8的具体内容如下：

步骤S8-1、封装GA-CNN-LSTM模型的输入数据；

步骤S8-2、设置CNN卷积神经网络的超参数：特征图宽度；

步骤S8-3、设置CNN卷积神经网络的超参数：卷积步长；

步骤S8-4、设置CNN卷积神经网络的超参数：卷积核大小；

步骤S8-5、设置CNN卷积神经网络的超参数：边界填充大小。

6.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S9的具体内容如下：

步骤S9-1、设置长短期记忆网络LSTM的超参数：方向；

步骤S9-2、设置长短期记忆网络LSTM的超参数：层数；

步骤S9-3、设置长短期记忆网络LSTM的超参数：随机失活神经元个数；

步骤S9-4、设置长短期记忆网络LSTM的超参数：隐层神经元个数；

步骤S9-5、构建全连接神经网络层；

步骤S9-6、构建循环预测机制。

7.根据权利要求6所述的一种电力系统负荷预测方法，其特征在于，步骤S9-6中，循环预测的计算公式为：

表示预测当日的其余特征。

8.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S10的具体内容如下：

步骤S10-1、构建基于Adam算法的优化器；

步骤S10-2、设置训练终止条件。

9.根据权利要求1所述的一种电力系统负荷预测方法，其特征在于，所述步骤S11的具体内容如下：

步骤S11-1、设置待调的超参数：编码层中CNN卷积神经网络的特征图个数、解码层中LSTM网络的层数、解码层中LSTM网络的隐层神经元个数；

步骤S11-2、对个体编码并设置初始种群；

步骤S11-3、设置个体的适应度函数；

步骤S11-4、设置复制率、杂交率、变异率；

步骤S11-5、定义遗传算法规则；

步骤S11-6、设置遗传算法终止条件；

步骤S11-7、依据GA遗传算法的结果固定模型的参数。

10.一种电力系统负荷预测系统，其特征在于，包括：