CN113723844A

CN113723844A - 一种基于集成学习的低压台区理论线损计算方法

Info

Publication number: CN113723844A
Application number: CN202111037192.XA
Authority: CN
Inventors: 华济民; 储娜娜; 郑逸凡; 周明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-09-06
Filing date: 2021-09-06
Publication date: 2021-11-30
Anticipated expiration: 2041-09-06
Also published as: CN113723844B

Abstract

本发明公开了一种基于集成学习的低压台区理论线损计算方法，包括如下步骤：从多源生数据中计算线损相关因子，并基于XGBoost进行因子贡献度评价，形成理论线损多维度影响因子集；利用网格搜索法对多机器学习模型进行超参数寻优，得到基学习器集与元学习器集；以基学习器集中的全部模型和元学习器集中的各模型分别作为第一、二层训练模型进行循环优选，构建集成学习框架下的低压台区理论线损计算的最优模型；基于测试集的计算结果进行模型的性能评估。本发明基于XGBoost进行理论线损影响因子贡献度评价，提高了理论线损与相关影响因子之间关联的可解释性；其次通过模型融合的方式有效提升了理论线损的计算精度，弥补了传统单一模型的不足。

Description

一种基于集成学习的低压台区理论线损计算方法

技术领域

本发明涉及机器学习算法在低压台区线损分析中的应用，尤其涉及一种低压台区理论线损计算方法。

背景技术

线损是衡量供电企业综合管理水平的重要标志，是供电企业的一项重要的经济技术指标，根据其成因的不同可分为理论线损和管理线损。受限于用电信息采集系统的采集通信能力，传统的低压台区理论线损计算依赖于人工登记的配电网拓扑结构和粗颗粒度的历史运行量测数据，例如基于变压器关口监测数据的等值电阻法一直是工程中的主流计算方法，但该模型比较粗犷仅用于台区理论线损的粗略估计，且也无法衡量用户侧负荷的深层特征对线损的影响。随着HPLC推广应用，台区用电监测的数据类型和采集频度不断提升，已从日采集提升到分钟级；当前电网公司已在布局5G通信在智能电网中的应用，将进一步大幅提升末端配网的的采样类型、采样频次，实现s级及ms级数据采样的突破，支持面向更多非计量业务的应用价值挖掘。

末端电网采集数据的不断提升使得以数据驱动的方式进行理论线损计算逐渐成为国内外学者的研究热点。然而，虽然既往方法能够对海量用户侧数据加以高效的利用，但是基于单一模型进行训练往往会使得数据观测角度单一，缺乏全面性，因而理论线损计算结果的精度也大大受限。同时，现有的基于机器学习算法的理论线损计算研究更加关注模型的优化以及算法的提升，而忽略了特征变量的选取。以往的模型研究中输入的电气特征种类较为单一，多为反映网架结构的供电半径和低压线路总长度以及与负荷相关的负载率以及用电性质，这在一定程度上也限制了所选模型或算法更进一步的性能提升。综上所述，从多源数据中提取多维度影响因子并基于此进行因子优选以及进一步提高理论线损计算精度成为了亟待解决的问题。

发明内容

发明目的：本发明的目的是提供一种基于集成学习的低压台区理论线损计算方法，以解决现阶段理论线损计算精度不高、因子选择单一、缺乏可解释性的问题。

技术方案：为实现以上目的，本发明公开了一种基于集成学习的低压台区理论线损计算方法，包括如下步骤：

S1、对包括电力用户拓扑参数、高频采样的功率参数、日电量的多源数据进行清洗，提取理论线损影响因子集f；

S2、基于XGBoost模型进行线损影响因子的选取，根据模型输出的特征贡献度，选取贡献度最大的N个特征作为最终输入因子，取5≤N≤10；

S3、选取基学习器集T和元学习器集S，利用网格搜索法进行超参数寻优，得到最佳的超参数组合；

S4、以T集中的所有模型作为第一层训练模型，S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型，循环迭代得到不同的模型组合；

S5、以相对均方误差、平均绝对误差以及平均相对误差为结果评价指标，对不同模型组合进行指标对比，基于性能最佳的模型组合进行回归预测，最后输出理论线损计算值。

进一步地，所述S1中数据清洗及理论线损影响因子提取的具体步骤包括如下：

S1.1、从系统中获取包括台区高频采样的功率数据、日电量数据、拓扑参数的多源数据，选取信息采集率为100％的台区数据源，通过线性插值方法进行功率数据补全，删除不合理数值；

S1.2、提取理论线损影响因子集f＝{f₀,f₁,f₂,…,f₁₁,f₁₂}，其中f₀为供电半径，f₁为线路总长度，f₂为电缆线总长，f₃为架空线路总长，f₄为三相用户总数，f₅为台区用户总数，f₆为负载率，f₇为功率因数，f₈为负荷率，f₉为负荷形状系数，f₁₀为三相不平衡度，f₁₁为末端负荷占比，f₁₂为负荷分布系数。

进一步地，所述S2中基于XGBoost模型进行影响因子选取的具体步骤包括如下：

S2.1、将S1.2中提取到的线损影响因子集作为训练样本的输入特征，线损实际值作为样本标签，进行数据集的随机划分，其中80％作为训练集，其余的20％作为测试集；

S2.2、选取XGBoost作为特征提取器进行理论线损影响因子贡献度评价，其中XGBoost模型的超参数选取如下：最大深度为9，最小叶子节点样本权重为1，学习率为0.15；

S2.3、将样本数据集输入到模型中进行训练，输出影响因子贡献度，按照从大到小排序，筛选出贡献度最大的前N个因子，5≤N≤10。

进一步地，所述S3中基学习器集和元学习器集的选取具体步骤包括如下：

S3.1、选取SVM、MLP、RF、LightGBM和XGBoost作为基学习器，构建基学习器集T＝{T_SVM,T_MLP,T_RF,T_LightGBM,T_XGBoost}；SVM、MLP、RF、LightGBM、XGBoost、线性回归模型以及岭回归模型，构建元学习器集S＝{S_SVM,S_MLP,S_RF,S_LightGBM,S_XGBoost,S_LR,S_Ridge}；

S3.2、再次利用理论线损影响因子集数据及其对应的线损实际值进行数据集的随机划分，其中80％作为训练集，其余的20％作为测试集，为消除量纲的影响，分别对训练集和测试集进行标准化，公式如下：

其中，

为标准化后的输入，X＝{x₁,x₂,…,x_n}为输入向量，mean(.)为求均值操作，std(.)为求标准差操作；

S3.3、制定各模型的超参数选择范围，利用网格搜索法进行各模型的超参数寻优，得到性能最优的模型超参数组合。

进一步地，所述S4中集成学习框架下的理论线损计算模型构建具体步骤包括如下：

S4.1、将T集中的全部模型作为集成学习框架下的第一层基学习器，将S集中的各模型分别作为第二层元学习器，构建多模型组合方式下的理论线损计算待选模型；

S4.2、保存不同模型组合方式下的理论线损计算结果，等待最终的模型性能评估。

进一步地，所述S4.1的具体步骤如下：

S4.1.1、设置迭代次数k＝1，每一次迭代的模型组合为{T+S_k}；

S4.1.2、采用五折交叉验证的方式训练第一层中的所有基学习器；对于n个台区样本的输入数据集C，随机将其均分成5个子数据集{C₁,C₂,C₃,C₄,C₅}；将每个子数据集分别作为一次验证集，其余的4个子数据集作为训练集，交叉验证后得到预测结果；对T集中其他的学习器执行同样的操作；

S4.1.3、组合m个基学习器的结果作为新数据集P＝{P₁,P₂,…,P_m}；新数据集P构成第二层元学习器S_k的输入数据，使得第二层算法能够纠正第一层学习器中的预测误差，达到提升理论线损计算结果精度的目的；

S4.1.4、k＝k+1，返回S4.1.2，直到遍历完S集中的所有模型。

进一步地，所述S5中最终的模型性能评估具体步骤包括如下：

S5.1、选取相对均方误差e_RMSE、平均绝对误差e_MAE以及平均相对误差e_MAPE作为模型性能评估指标，其公式分别如下：

其中，n为待求台区样本总数，

为理论线损计算值，y_i为理论线损实际值；

S5.2、比较各模型组合方式下的性能指标结果，选出理论线损计算最优模型组合；

S5.3、分别对各基模型进行五折交叉验证后的模型性能评估，检验模型融合的可行性与性能提升度；

S5.4、输出最优组合模型预测下的理论线损计算值。

有益效果：

与现有技术相比，本发明具有以下显著优点：本发明首先从多源数据中提取多维度理论线损影响因子，基于XGBoost实现因子的贡献度评价，大大提高了模型输入的可解释性；然后基于集成学习框架进行各模型组合的循环优选，得到理论线损计算最佳模型，与传统基于单一模型的低压台区理论线损计算模型相比，其计算精度得到了显著提升。

附图说明

图1是本发明的总体流程图；

图2是本发明所使用的继承学习框架；

图3是本发明实施例中基于XGBoost的影响因子优选贡献度排名。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

如图1所示，本发明提出一种基于集成学习的低压台区理论线损计算方法，包括如下步骤：

(1)、对电力用户拓扑参数、高频采样的功率参数、日电量等多源数据进行清洗，提取理论线损影响因子集f；数据清洗及理论线损影响因子提取的具体步骤包括如下：

(1.1)、从系统中获取台区高频采样的功率数据、日电量数据、拓扑参数等多源数据，选取信息采集率为100％的台区数据源，通过线性插值方法进行功率数据补全，删除不合理数值；

(1.2)、提取理论线损影响因子集f＝{f₀,f₁,f₂,…,f₁₁,f₁₂}，其中f₀为供电半径，f₁为线路总长度，f₂为电缆线总长，f₃为架空线路总长，f₄为三相用户总数，f₅为台区用户总数，f₆为负载率，f₇为功率因数，f₈为负荷率，f₉为负荷形状系数，f₁₀为三相不平衡度，f₁₁为末端负荷占比，f₁₂为负荷分布系数。

(2)、基于XGBoost模型进行线损影响因子的优选，根据模型输出的特征贡献度直方图，选取贡献度较大的特征作为最终输入因子，一般的，取5≤N≤10；其中基于XGBoost模型进行影响因子优选的具体步骤包括如下：

(2.1)、将(1.2)中提取到的线损影响因子集作为训练样本的输入特征，线损实际值作为样本标签，进行数据集的随机划分，其中80％作为训练集，其余的20％作为测试集；

(2.2)、选取XGBoost作为特征提取器进行理论线损影响因子贡献度评价，其中XGBoost模型的超参数选取如下：最大深度为9，最小叶子节点样本权重为1，学习率为0.15；

(2.3)、将样本数据集输入到模型中进行训练，输出影响因子贡献度直方图，按照从大到小排序，筛选出贡献度较大且数值较为合理的前N个因子。

(3)、选取基学习器集T和元学习器集S，分别利用网格搜索法进行超参数寻优，得到最佳的超参数组合；其中基学习器集和元学习器集的选取具体步骤包括如下：

(3.1)、选取支持向量机(SVM)、多层感知机(MLP)、随机森林(RF)、LightGBM和XGBoost作为基学习器，构建基学习器集T＝{T_SVM,T_MLP,T_RF,T_LightGBM,T_XGBoost}；SVM、MLP、RF、LightGBM、XGBoost、线性回归模型(LR)以及岭回归(Ridge)模型，构建元学习器集S＝{S_SVM,S_MLP,S_RF,S_LightGBM,S_XGBoost,S_LR,S_Ridge}；

(3.2)、再次利用理论线损影响因子集数据及其对应的线损实际值进行数据集的随机划分，其中80％作为训练集，其余的20％作为测试集，为消除量纲的影响，分别对训练集和测试集进行标准化，公式如下：

其中，

为标准化后的输入，X＝{x₁,x₂,…,x_n}为输入向量，mean(.)为求均值操作，std(.)为求标准差操作。

(3.3)、制定各模型的超参数选择范围，如表1-表6所示，利用网格搜索法进行各模型的超参数寻优，得到性能最优的模型超参数组合。

表1 SVM网格寻优参数

表2 RF网格寻优参数

表3 XGBoost网格寻优参数

表4 light GBM网格寻优参数

表5 LR网格寻优参数

表6 Ridge网格寻优参数

(4)、以T集中的所有模型作为第一层训练模型，S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型，循环迭代得到不同的模型组合；其中集成学习框架下的理论线损计算模型构建具体步骤包括如下：

(4.1)、将T集中的全部模型作为集成学习框架下的第一层基学习器，分别将S集中的各模型作为第二层元学习器，构建多模型组合方式下的理论线损计算待选模型，具体步骤如下：

(4.1.1)、设置迭代次数k＝1，每一次迭代的模型组合为{T+S_k}；

(4.1.2)、采用五折交叉验证的方式训练第一层中的所有基学习器。对于n个台区样本的输入数据集C，随机将其均分成5个子数据集{C₁,C₂,C₃,C₄,C₅}。以基学习器T₁为例，将每个子数据集分别作为一次验证集，其余的4个子数据集作为训练集，交叉验证后得到T₁学习器的预测结果P₁。对T集中其他的m-1个学习器执行同样的操作，得到预测结果P₂,P₃,…,P_m。

(4.1.3)、组合m个基学习器的结果作为新数据集P＝{P₁,P₂,…,P_m}。新数据集P构成第二层元学习器S_k的输入数据，使得第二层算法能够纠正第一层学习器中的预测误差，达到提升理论线损计算结果精度的目的；

(4.1.4)、k＝k+1，返回(4.1.2)步骤，直到遍历完S集中的所有模型。

(4.2)、保存不同模型组合方式下的理论线损计算结果，等待最终的模型性能评估。

(5)、以相对均方误差、平均绝对误差以及平均相对误差为结果评价指标，对不同模型组合进行指标对比，基于性能最佳的模型组合进行回归预测，最后输出理论线损计算值。其中最终的模型性能评估具体步骤包括如下：

(5.1)、选取相对均方误差e_RMSE、平均绝对误差e_MAE以及平均相对误差e_MAPE作为模型性能评估指标，其公式分别如下：

其中，n为待求台区样本总数，

为理论线损计算值，y_i为理论线损实际值。

(5.2)、比较各模型组合方式下的性能指标结果，选出理论线损计算最优模型组合；

(5.3)、分别对各基模型进行五折交叉验证后的模型性能评估，检验模型融合的可行性与性能提升度；

(5.4)、输出最优组合模型预测下的理论线损计算值。

实施例1

本实施例是基于某地区14061个台区拓扑参数、用户侧电量、功率等数据，基于上述数据进行基于XGBoost因子优选与集成学习框架的低压台区理论线损计算，包括如下步骤：

(2)、基于XGBoost模型进行线损影响因子的优选，输出特征贡献度直方图，选取贡献度大的特征作为最终输入因子；其中基于XGBoost模型进行影响因子优选的具体步骤包括如下：

(2.1)、将(1.2)中提取到的线损影响因子集作为训练样本的输入特征，线损实际值作为样本标签，并进行数据集的随机划分，其中80％作为训练集，其余的20％作为测试集；

(2.3)、将样本数据集输入到模型中进行训练，输出影响因子贡献度直方图，按照从大到小排序，如图3所示，筛选出贡献度最大且数值较为合理的前10个因子，分别为供电半径(f₀)、线路总长度(f₁)、台区用户总数(f₅)、负载率(f₆)、功率因数(f₇)、负荷率(f₈)、负荷形状系数(f₉)、三相不平衡度(f₁₀)，末端负荷占比(f₁₁)，负荷分布系数(f₁₂)。

其中，

(3.3)、制定各模型的超参数选择范围，利用网格搜索法进行各模型的超参数寻优，得到性能最优的模型超参数组合。

(4)、如图2所示，以T集中的所有模型作为第一层训练模型，S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型，循环迭代得到不同的模型组合；其中集成学习框架下的理论线损计算模型构建具体步骤包括如下：

(4.1.1)、设置迭代次数k＝1，每一次迭代的模型组合为{T+S_k}；

其中，n为待求台区样本总数，

为理论线损计算值，y_i为理论线损实际值。

(5.2)、比较各模型组合方式下的性能指标结果，选出理论线损计算最优模型组合，及第一层训练模型为SVM、MLP、LightGBM、RF和XGBoost，第二层训练模型为LR。

(5.3)、分别对各基模型进行五折交叉验证后的模型性能评估，检验模型融合的可行性与性能提升度。模型对比结果如表7所示，从表中可知，集成学习框架下的理论线损计算模型能够使得各基模型取长补短，有效提升了理论线损计算精度。

表7各基模型和集成学习框架下的线损计算模型性能对比

(5.4)、输出最优组合模型预测下的理论线损计算值。