CN112163714B

CN112163714B - 一种基于XGBoost的园区客户群体负荷释放算法

Info

Publication number: CN112163714B
Application number: CN202011100816.3A
Authority: CN
Inventors: 仝翠芝; 王冲; 高寅; 崔阳阳; 赵洪山; 郭磊; 燕凯; 武文鹏; 田伟; 王之昕
Original assignee: State Grid Jibei Power Co ltd Smart Distribution Network Center; State Grid Corp of China SGCC; North China Electric Power University
Current assignee: State Grid Jibei Power Co ltd Smart Distribution Network Center; State Grid Corp of China SGCC; North China Electric Power University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-11-25
Anticipated expiration: 2040-10-15
Also published as: CN112163714A

Abstract

本发明公开了一种基于XGBoost的园区客户群体负荷释放算法，包括：获取园区客户群体一定时间内的负荷数据和相关特征数据，进行数据预处理；基于预处理后的负荷数据及特征，进行特征工程处理：进行初选，剔除相关性极强的特征，进行复选，选出其中比较重要的特征；基于复选出的特征变量，采用XGBoost算法预测本计量周期园区客户群体负荷，将上一个计量周期园区客户群体负荷作为输入，然后与本计量周期园区客户群体负荷作差，得到本计量周期园区客户群体负荷释放量。本发明提供的基于XGBoost的园区客户群体负荷释放算法，将XGBoost算法引入负荷释放模型，引入多维特征并去除冗余或无关特征，提高了模型预测精度。

Description

一种基于XGBoost的园区客户群体负荷释放算法

技术领域

本发明涉及负荷释放模型技术领域，特别是涉及一种基于XGBoost的园区客户群体负荷释放算法。

背景技术

负荷释放即本计量周期对比相邻的上一计量周期所增加或减少的负荷值。电力系统中负荷释放模型的建立可辅助决定新的发电机组的安装及电网的增容、改建等，对电力系统的安全性有着不可低估的作用，是制定电力发展规划的基础和重要工作之一。

目前，电力改革“有序向社会资本放开配售电市场”进入攻坚期，增量配电业务改革试点项目中，园区项目占了多数份额。园区集中了大批工业用电客户，具有需求集中、市场竞争激烈、用电规模庞大、负荷特性较稳定、负荷饱和度快等特点，对电网公司的价值重大。建立园区客户群体负荷释放模型，以此指导园区的电网规划建设，可以在保证园区电力供应的同时，减少改扩建的成本损失。对园区进行个性化的负荷释放曲线的预测，把握园区的负荷特性及其影响因素之间的关系，对电网建设和运行具有巨大的经济效益和社会效益。由于负荷释放模型的建立基于负荷预测，在已经主要应用的中长期负荷预测模型中。主要分为传统方法和人工智能方法，传统方法有时间序列、灰色预测等，人工智能方法包括预测方法包括神经网络、支持向量机(Support Vector Machine，SVM)等。这些方法主要对规律性比较强的负荷数据比较适用，而负荷释放是一个非线性问题，且受到众多特征属性以及未知因素的影响，缺乏周期性规律，波动性大，存在较大的模型预测误差，而基于XGBoost的园区客户群体负荷释放模型，能够提高预测准确率。

发明内容

本发明的目的是提供一种基于XGBoost的园区客户群体负荷释放算法，将XGBoost算法引入负荷释放模型，引入多维特征并去除冗余或无关特征，提高了模型预测精度。

为实现上述目的，本发明提供了如下方案：

一种基于XGBoost的园区客户群体负荷释放算法，包括以下步骤：

S1，获取园区客户群体一定时间内的负荷数据及相关特征数据，对负荷数据及其相关的特征进行异常识别填补、独热编码，并将非数据型特征转换为数据型特征，得到预处理后的负荷数据及特征；

S2，基于预处理后的负荷数据及特征，进行特征工程处理：

对负荷释放的特征进行初选，计算各连续特征变量之间的相关系数，剔除相关性极强的特征，保留之一，以避免特征冗余；

通过主成分分析法对负荷释放的特征变量进行复选，选出其中比较重要的特征，比较重要的特征包括年份、月份、前一个月的负荷、前两个月的负荷，将所选出的比较重要的特征作为影响负荷释放模型的关键特征变量；

S3，建立负荷释放模型：基于复选出的特征变量，采用XGBoost算法预测本计量周期园区客户群体负荷，将上一个计量周期园区客户群体负荷作为输入，然后与本计量周期园区客户群体负荷作差，得到本计量周期园区客户群体负荷释放量，即作为园区客户群体负荷释放模型输出。

可选的，所述步骤S3还包括：

通过对XGBoost各参数进行交叉验证测试，调整优化模型参数，确定模型精度最高的参数组合。

可选的，所述步骤S1，获取园区客户群体一定时间内的负荷数据及相关特征数据，对负荷数据及其相关的特征进行异常识别填补、独热编码，并将非数据型特征转换为数据型特征，得到预处理后的负荷数据及特征，具体包括：

选取园区用户连续6年的负荷数据以及相关特征作为样本进行训练建模；

负荷数据异常识别、替换：按用户采用3σ法则，该用户历史5年月度最大负荷用m表示，对于超出该用户历史5年月度最大负荷±3σ取值的用m±3σ替代；

负荷数据、特征缺失填补：按用户采用历史同期值进行填补；

特征受偶然环境因素作用走势明显异常填补：分别按用户采用历史同期值替换；

将非数据性特征转换为数据，对类别性特征，如果是无序特征使用独热编码处理，如果是有序特征使用Label encoding。

可选的，所述步骤S2中，负荷释放的特征具体包括：

相关负荷衍生特征：包括本计量周期前的多期负荷数据；

相关天气：包括本计量周期内的温度、湿度、风力的多个特征；

用户基本信息：包括本计量周期内用户当前的户龄、行业、合同容量、用电类别的多个特征；

企业生产情况：包括本计量周期内用户生产计划、产值；

节假日：包括本计量周期内所含节假日天数。

可选的，所述步骤S3中，基于复选出的特征变量，采用XGBoost算法预测本计量周期园区客户群体负荷，将上一个计量周期园区客户群体负荷作为输入，然后与本计量周期园区客户群体负荷作差，得到本计量周期园区客户群体负荷释放量，即作为园区客户群体负荷释放模型输出，具体包括：

所述计量周期为月；

采用XGBoost算法预测本月园区客户群体负荷设为

上个月园区客户群体负荷设为y_i-1；

园区客户群体负荷释放模型输出为

如果

为正值则代表园区客户群体负荷增加，如果

为负值则代表园区客户群体负荷减少。

可选的，所述步骤S3还包括，对园区客户群体负荷释放模型进行性能评估：

采用MSE和R²指标综合评估模型的性能，MSE反映模型的平均误差情况，其值越小，表示误差越小；R²反映模型拟合效果，其值越大，表示模型对数据拟合越好，其中：

式中：z_i为负荷释放实际值；

为模型预测值；n为验证集合数据样本个数。

根据本发明提供的具体实施例，本发明提供的基于XGBoost的园区客户群体负荷释放算法，公开了以下技术效果：

第一，园区客户群体负荷释放的定义，负荷释放即本计量周期对比相邻的上一计量周期所增加或减少的负荷值，通过建立负荷释放模型来预测园区未来一年每个月的负荷增加量或减少量，有利于指导园区专项规划和电网投资建设时序；

第二，数据预处理中，由于XGBoost算法只能接受数据类型的输入，所以还需将非数据型特征转换为数据型特征，对于类别型特征的处理，如果是无序特征使用独热编码处理，如果是有序特征，使用Label encoding；

第三，对负荷释放的特征进行初选，避免特征冗余，并进行复选，选出其中比较重要的特征，作为影响负荷释放模型的关键特征变量；

第四，将XGBoost算法引入园区客户群体负荷释放模型，相比于其他Boosting集成学习算法，XGBoost的优势在于：(1)对损失函数引入正则化项，控制了模型复杂度，防止过拟合；(2)对损失函数进行二阶泰勒展开，提高了收敛速度与收敛精度；(3)引入列抽样，进一步提高计算速度并防止过拟合；

第五，模型训练中将经过特征工程选出的特征作为输入，将月负荷作为输出，通过对XGBoost各参数进行交叉验证测试，调整优化模型参数，确定模型精度最高的参数组合，向园区提供更为精确的预测值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于XGBoost的园区客户群体负荷释放算法的流程图；

图2为本发明实施例2014-2019年的负荷释放图；

图3为本发明实施例2016年的负荷释放图；

图4为本发明实施例影响负荷释放的特征重要性排名

图5为本发明实施例使用特征工程后得到的2014-2019年的负荷释放的真实值与预测值曲线；

图6为本发明实施例只考虑时序特征得到的2014-2019年的负荷释放的真实值与预测值曲线；

图7为本发明实施例2020年负荷释放预测图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的基于XGBoost的园区客户群体负荷释放算法，包括以下步骤：

S2，基于预处理后的负荷数据及特征，进行特征工程处理：

其中，所述步骤S3还包括：

其中，由于负荷数据的获取受设备和人为因素影响可能存在坏数据，所以在建模前需识别和替换负荷异常数据，填补缺失数据。其相关特征由于受到偶然环境因素的影响，也同样会存在坏数据，也需进行识别、替换、填补操作。由于XGBoost算法只能接受数据类型的输入，所以还需将非数据型特征转换为数据型特征。因此，所述步骤S1，获取园区客户群体一定时间内的负荷数据及相关特征数据，对负荷数据及其相关的特征进行异常识别填补、独热编码，并将非数据型特征转换为数据型特征，得到预处理后的负荷数据及特征，具体包括：

其中，所述步骤S2中，负荷释放的特征具体包括：

相关负荷衍生特征：包括本计量周期前的m期负荷数据A＝{a₁,a₂,…,a_m}；

相关天气：包括本计量周期内的温度、湿度、风力等n个特征B＝{b₁,b₂,…,b_n}；

用户基本信息：包括本计量周期内用户当前的户龄、行业、合同容量、用电类别等p个特征C＝{c₁,c₂,…,c_p}；

企业生产情况：包括本计量周期内用户生产计划、产值等q个特征D＝{d₁,d₂,…,d_q}；

节假日：包括本计量周期内所含节假日天数、是否春节等s个特征F＝{f₁,f₂,…,f_s}。

所述步骤S3中，基于复选出的特征变量，采用XGBoost算法预测本计量周期园区客户群体负荷，将上一个计量周期园区客户群体负荷作为输入，然后与本计量周期园区客户群体负荷作差，得到本计量周期园区客户群体负荷释放量，即作为园区客户群体负荷释放模型输出，具体包括：

所述计量周期为月；

采用XGBoost算法预测本月园区客户群体负荷设为

上个月园区客户群体负荷设为y_i-1；

园区客户群体负荷释放模型输出为

如果

为正值则代表园区客户群体负荷增加，如果

为负值则代表园区客户群体负荷减少。

其中，园区客户群体负荷释放即本计量周期对比相邻的上一计量周期所增加或减少的负荷值。本发明所选的计量周期为月份。园区客户群体负荷释放模型是在负荷预测的基础上建立的，通过XGBoost算法预测出未来一年每个月的负荷值，然后在此基础上得到未来一年每个月的负荷释放量。

XGBoost是在梯度提升树(GBDT)基础上的改进算法，以线性分类器或者分类回归树(CART)作为基学习器的梯度提升(Gradientboosting)算法。

在XGBoost算法中，假设样本集合为D＝{(x_i,y_i)}(|D|＝n,x_i∈R^m,y_i∈R)，其中样本数目为n，样本维度为m。以K个加性函数构成的树融合模型的预测值为

式中：F＝{f(X)＝ω_q(X)}(q:R^m→T,ω∈R^T)是回归树所在空间，其中q为样本到叶节点索引的映射；T为回归树的叶节点数目，每个f_k都对应于独立的树结构q与叶节点权重ω。回归树的叶节点分数是连续的，用ω_i表示每个叶节点的分数。对于给定的一个样本i，其预测值为

即为其在每个树结构中相应叶节点的分数求和。

为了学习式(1)中的函数，XGBoost中构造正则目标函数(损失函数)为

式中：L为连续凸函数，度量预测值与实际值y_i之间的差距；

为惩罚项，用于控制模型复杂度，防止模型过拟合。式(2)模型中的参数无法通过传统欧式空间中的方法进行估计，因此采用加法方式，通过式(1)将预测值进行递推展开。具体而言，设

为第t次迭代是第i个样本点的预测值，此时损失函数为

XGBoost对目标函数进行了二阶泰勒展开，提高了收敛速度。对式(3)二阶泰勒展开并去掉常数项，即

式中：

和

分别为一阶、二阶梯度估计量。去掉常数项后简化的目标函数为

定义I_j＝{i|q(x_i)＝j}为叶子节点j上的样本点集合，带入正则化项，式(5)可改写为

考虑一个树结构为q(x)，式(6)对ω_j求导可得极值为

对应的损失函数值，即用于度量q(x)好坏的得分函数为

得分函数值越小代表当前树的结构越好，为寻求最优的树结构q，采用贪婪算法从一个叶节点开始迭代地向树结构添加分支。在回归树中，一般都采用二分裂的方式，对将当前某叶节点向下进一步分为左右两个叶节点。设分裂后左右节点所包含的样本点分别为I_L和I_R，I＝I_L∪I_R，则根据式(7)可得分裂后的损失减少为

由此便可判断当前树结构是否需要进一步分裂。

XGBoost区别于其他boosting算法的特点是，在行抽样的基础上(即随机抽取一定比例的样本点进行当次学习)，XGBoost进一步添加了列抽样，即在每次迭代学习中，考虑了对样本的特征进行抽样。这种方式能够进一步防止过拟合，且提高了计算速度。

此外，所述步骤S3还包括，对园区客户群体负荷释放模型进行性能评估：

式中：

为负荷释放实际值；

为模型预测值；n为验证集合数据样本个数。

本发明实施例以某园区5个工业用户2014～2019年的月度负荷数据为例进行负荷释放模型的训练，将经过特征工程选出的特征作为XGBoost算法的输入，因为特征初选时本计量周期内所含节假日天数、客户生产计划、产值与前一个月的负荷相关性达到0.91，保留前一个月的负荷，在特征复选时选出的比较重要的特征为年份、月份、前一个月的负荷、前两个月的负荷，所以输入为年份、月份、前一个月的负荷以及前两个月的负荷数据，将本月负荷作为XGBoost算法的输出，然后在此基础上得到负荷释放量。将数据划分为训练集和测试集，训练集为90％，测试集为10％，定义模型学习目标函数、回归树生成参数等构造基于XGBoost的负荷释放模型。选择线性模型作为目标函数，XGBoost回归树的树的数目、学习率、最大深度等参数均会影响负荷释放精度，通过对XGBoost各参数进行交叉验证测试，调整优化模型参数，确定模型精度最高的参数组合。经过训练后得到树的棵数为85，最大深度为2，学习率为0.4，在测试集上MSE＝13.47,R²＝0.75。预测效果实验软件为基于python3.7开发环境的XGBoost以及sklearn扩展包。

如图2至图6所示，为园区5个工业用户2014～2019年的月度负荷数据通过数据预处理、特征工程、选择模型参数、模型评估，得到园区负荷的释放曲线，以下是对负荷释放曲线的分析。

图2为2014-2019年的负荷释放图，由图2可知前3年负荷变化比较稳定，有增有减，变化幅度比较小，主要是在-10KMW～10KMW之间，说明这三年里园区工业用户发展比较稳定，有增容也有减容。后3年负荷每个月的变化幅度比较大，整体负荷呈逐年上升趋势，这说明园区工业用户增容和减容的幅度比较大，但整体来说增容大于减容，呈好的发展态势。其中在第四年的7月和8月负荷变化幅度最大，说明这两个月可能有特殊情况的影响。

图3为2016年的负荷释放图，7月和9月负荷释放量的绝对值比较大，其他月份负荷释放量的绝对值相差不大。其中2月、6月、9月、10月负荷释放值为负说明这几个月用电量减少，9月份减少的最多，可能受天气或其他重大事项的影响。4月、8月、11月负荷释放量为正，说明这几个月用电量增加，可能跟企业效益有关系。7月～11月之间负荷释放正负变化频繁说明企业效益不稳定。

图4为影响负荷释放的特征重要性排名，由排名可知，前一个月的负荷、前两个月的负荷相对得分高，说明这两个特征相对来说比较重要，对负荷释放的预测比较重要。

图5为使用特征工程后得到的2014-2019年的负荷释放的真实值与预测值曲线，在测试集上MSE＝13.47，R²＝0.75。通过负荷释放模型得到的负荷释放曲线的整体效果良好。但是存在某月份过拟合的情况，但并不影响负荷释放的整体效果。图6为只考虑时序特征得到的2014-2019年的负荷释放的真实值与预测值曲线，在测试集上MSE＝30.89，R²＝0.42，所以使用特征工程后精度更高。

如图7所示，基于2014-2019年的负荷数据，利用上述算法进行2020年负荷释放预测，该预测负荷释放曲线符合变化趋势，通过对未来负荷释放曲线的预测可以指导园区的规划和建设。

本发明提供的基于XGBoost的园区客户群体负荷释放算法，首先，在数据预处理中，由于XGBoost算法只能接受数据类型的输入，所以还需将非数据型特征转换为数据型特征，对于类别型特征的处理，如果是无序特征使用独热编码处理，如果是有序特征，使用Label encoding；之后，对负荷释放的特征进行初选，避免特征冗余，并进行复选，选出其中比较重要的特征，作为影响负荷释放模型的关键特征变量；最后，将XGBoost算法引入园区客户群体负荷释放模型，相比于其他Boosting集成学习算法，XGBoost的优势在于：(1)对损失函数引入正则化项，控制了模型复杂度，防止过拟合；(2)对损失函数进行二阶泰勒展开，提高了收敛速度与收敛精度；(3)引入列抽样，进一步提高计算速度并防止过拟合，其中，模型训练中将经过特征工程选出的特征作为输入，将月负荷作为输出，通过对XGBoost各参数进行交叉验证测试，调整优化模型参数，确定模型精度最高的参数组合，向园区提供更为精确的预测值。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于XGBoost的园区客户群体负荷释放算法，其特征在于，包括以下步骤：

S1，获取园区客户群体一定时间内的负荷数据和相关特征数据，对负荷数据及其相关的特征进行异常识别填补、独热编码，并将非数据型特征转换为数据型特征，得到预处理后的负荷数据及特征；

S2，基于预处理后的负荷数据及特征，进行特征工程处理：

S3，建立负荷释放模型，基于复选出的特征变量，采用XGBoost算法预测本计量周期园区客户群体负荷，将上一个计量周期园区客户群体负荷作为输入，然后与本计量周期园区客户群体负荷作差，得到本计量周期园区客户群体负荷释放量，即作为园区客户群体负荷释放模型输出。

2.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法，其特征在于，所述步骤S3还包括：

3.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法，其特征在于，所述步骤S1，获取园区客户群体一定时间内的负荷数据及相关特征数据，对负荷数据及其相关的特征进行异常识别填补、独热编码，并将非数据型特征转换为数据型特征，得到预处理后的负荷数据及特征，具体包括：

4.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法，其特征在于，所述步骤S2中，负荷释放的特征具体包括：

相关负荷衍生特征：包括本计量周期前的多期负荷数据；

企业生产情况：包括本计量周期内用户生产计划、产值；

节假日：包括本计量周期内所含节假日天数。

5.根据权利要求1所述的基于XGBoost的园区客户群体负荷释放算法，其特征在于，所述步骤S3中，基于复选出的特征变量，采用XGBoost算法预测本计量周期园区客户群体负荷，将上一个计量周期园区客户群体负荷作为输入，然后与本计量周期园区客户群体负荷作差，得到本计量周期园区客户群体负荷释放量，即作为园区客户群体负荷释放模型输出，具体包括：

所述计量周期为月；

采用XGBoost算法预测本月园区客户群体负荷设为

上个月园区客户群体负荷设为y_i-1；

园区客户群体负荷释放模型输出为

如果

为正值则代表园区客户群体负荷增加，如果

为负值则代表园区客户群体负荷减少。

6.根据权利要求5所述的基于XGBoost的园区客户群体负荷释放算法，其特征在于，所述步骤S3还包括，对园区客户群体负荷释放模型进行性能评估：

式中：z_i为负荷释放实际值；

为模型预测值；n为验证集合数据样本个数。