CN113723844A - 一种基于集成学习的低压台区理论线损计算方法 - Google Patents
一种基于集成学习的低压台区理论线损计算方法 Download PDFInfo
- Publication number
- CN113723844A CN113723844A CN202111037192.XA CN202111037192A CN113723844A CN 113723844 A CN113723844 A CN 113723844A CN 202111037192 A CN202111037192 A CN 202111037192A CN 113723844 A CN113723844 A CN 113723844A
- Authority
- CN
- China
- Prior art keywords
- model
- line loss
- theoretical line
- data
- selecting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000011156 evaluation Methods 0.000 claims abstract description 22
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000002790 cross-validation Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000012417 linear regression Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 abstract description 3
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 230000007547 defect Effects 0.000 abstract 1
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000012706 support-vector machine Methods 0.000 description 11
- 238000007637 random forest analysis Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004128 high performance liquid chromatography Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于集成学习的低压台区理论线损计算方法,包括如下步骤:从多源生数据中计算线损相关因子,并基于XGBoost进行因子贡献度评价,形成理论线损多维度影响因子集;利用网格搜索法对多机器学习模型进行超参数寻优,得到基学习器集与元学习器集;以基学习器集中的全部模型和元学习器集中的各模型分别作为第一、二层训练模型进行循环优选,构建集成学习框架下的低压台区理论线损计算的最优模型;基于测试集的计算结果进行模型的性能评估。本发明基于XGBoost进行理论线损影响因子贡献度评价,提高了理论线损与相关影响因子之间关联的可解释性;其次通过模型融合的方式有效提升了理论线损的计算精度,弥补了传统单一模型的不足。
Description
技术领域
本发明涉及机器学习算法在低压台区线损分析中的应用,尤其涉及一种低压台区理论线损计算方法。
背景技术
线损是衡量供电企业综合管理水平的重要标志,是供电企业的一项重要的经济技术指标,根据其成因的不同可分为理论线损和管理线损。受限于用电信息采集系统的采集通信能力,传统的低压台区理论线损计算依赖于人工登记的配电网拓扑结构和粗颗粒度的历史运行量测数据,例如基于变压器关口监测数据的等值电阻法一直是工程中的主流计算方法,但该模型比较粗犷仅用于台区理论线损的粗略估计,且也无法衡量用户侧负荷的深层特征对线损的影响。随着HPLC推广应用,台区用电监测的数据类型和采集频度不断提升,已从日采集提升到分钟级;当前电网公司已在布局5G通信在智能电网中的应用,将进一步大幅提升末端配网的的采样类型、采样频次,实现s级及ms级数据采样的突破,支持面向更多非计量业务的应用价值挖掘。
末端电网采集数据的不断提升使得以数据驱动的方式进行理论线损计算逐渐成为国内外学者的研究热点。然而,虽然既往方法能够对海量用户侧数据加以高效的利用,但是基于单一模型进行训练往往会使得数据观测角度单一,缺乏全面性,因而理论线损计算结果的精度也大大受限。同时,现有的基于机器学习算法的理论线损计算研究更加关注模型的优化以及算法的提升,而忽略了特征变量的选取。以往的模型研究中输入的电气特征种类较为单一,多为反映网架结构的供电半径和低压线路总长度以及与负荷相关的负载率以及用电性质,这在一定程度上也限制了所选模型或算法更进一步的性能提升。综上所述,从多源数据中提取多维度影响因子并基于此进行因子优选以及进一步提高理论线损计算精度成为了亟待解决的问题。
发明内容
发明目的:本发明的目的是提供一种基于集成学习的低压台区理论线损计算方法,以解决现阶段理论线损计算精度不高、因子选择单一、缺乏可解释性的问题。
技术方案:为实现以上目的,本发明公开了一种基于集成学习的低压台区理论线损计算方法,包括如下步骤:
S1、对包括电力用户拓扑参数、高频采样的功率参数、日电量的多源数据进行清洗,提取理论线损影响因子集f;
S2、基于XGBoost模型进行线损影响因子的选取,根据模型输出的特征贡献度,选取贡献度最大的N个特征作为最终输入因子,取5≤N≤10;
S3、选取基学习器集T和元学习器集S,利用网格搜索法进行超参数寻优,得到最佳的超参数组合;
S4、以T集中的所有模型作为第一层训练模型,S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型,循环迭代得到不同的模型组合;
S5、以相对均方误差、平均绝对误差以及平均相对误差为结果评价指标,对不同模型组合进行指标对比,基于性能最佳的模型组合进行回归预测,最后输出理论线损计算值。
进一步地,所述S1中数据清洗及理论线损影响因子提取的具体步骤包括如下:
S1.1、从系统中获取包括台区高频采样的功率数据、日电量数据、拓扑参数的多源数据,选取信息采集率为100%的台区数据源,通过线性插值方法进行功率数据补全,删除不合理数值;
S1.2、提取理论线损影响因子集f={f0,f1,f2,…,f11,f12},其中f0为供电半径,f1为线路总长度,f2为电缆线总长,f3为架空线路总长,f4为三相用户总数,f5为台区用户总数,f6为负载率,f7为功率因数,f8为负荷率,f9为负荷形状系数,f10为三相不平衡度,f11为末端负荷占比,f12为负荷分布系数。
进一步地,所述S2中基于XGBoost模型进行影响因子选取的具体步骤包括如下:
S2.1、将S1.2中提取到的线损影响因子集作为训练样本的输入特征,线损实际值作为样本标签,进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集;
S2.2、选取XGBoost作为特征提取器进行理论线损影响因子贡献度评价,其中XGBoost模型的超参数选取如下:最大深度为9,最小叶子节点样本权重为1,学习率为0.15;
S2.3、将样本数据集输入到模型中进行训练,输出影响因子贡献度,按照从大到小排序,筛选出贡献度最大的前N个因子,5≤N≤10。
进一步地,所述S3中基学习器集和元学习器集的选取具体步骤包括如下:
S3.1、选取SVM、MLP、RF、LightGBM和XGBoost作为基学习器,构建基学习器集T={TSVM,TMLP,TRF,TLightGBM,TXGBoost};SVM、MLP、RF、LightGBM、XGBoost、线性回归模型以及岭回归模型,构建元学习器集S={SSVM,SMLP,SRF,SLightGBM,SXGBoost,SLR,SRidge};
S3.2、再次利用理论线损影响因子集数据及其对应的线损实际值进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集,为消除量纲的影响,分别对训练集和测试集进行标准化,公式如下:
S3.3、制定各模型的超参数选择范围,利用网格搜索法进行各模型的超参数寻优,得到性能最优的模型超参数组合。
进一步地,所述S4中集成学习框架下的理论线损计算模型构建具体步骤包括如下:
S4.1、将T集中的全部模型作为集成学习框架下的第一层基学习器,将S集中的各模型分别作为第二层元学习器,构建多模型组合方式下的理论线损计算待选模型;
S4.2、保存不同模型组合方式下的理论线损计算结果,等待最终的模型性能评估。
进一步地,所述S4.1的具体步骤如下:
S4.1.1、设置迭代次数k=1,每一次迭代的模型组合为{T+Sk};
S4.1.2、采用五折交叉验证的方式训练第一层中的所有基学习器;对于n个台区样本的输入数据集C,随机将其均分成5个子数据集{C1,C2,C3,C4,C5};将每个子数据集分别作为一次验证集,其余的4个子数据集作为训练集,交叉验证后得到预测结果;对T集中其他的学习器执行同样的操作;
S4.1.3、组合m个基学习器的结果作为新数据集P={P1,P2,…,Pm};新数据集P构成第二层元学习器Sk的输入数据,使得第二层算法能够纠正第一层学习器中的预测误差,达到提升理论线损计算结果精度的目的;
S4.1.4、k=k+1,返回S4.1.2,直到遍历完S集中的所有模型。
进一步地,所述S5中最终的模型性能评估具体步骤包括如下:
S5.1、选取相对均方误差eRMSE、平均绝对误差eMAE以及平均相对误差eMAPE作为模型性能评估指标,其公式分别如下:
S5.2、比较各模型组合方式下的性能指标结果,选出理论线损计算最优模型组合;
S5.3、分别对各基模型进行五折交叉验证后的模型性能评估,检验模型融合的可行性与性能提升度;
S5.4、输出最优组合模型预测下的理论线损计算值。
有益效果:
与现有技术相比,本发明具有以下显著优点:本发明首先从多源数据中提取多维度理论线损影响因子,基于XGBoost实现因子的贡献度评价,大大提高了模型输入的可解释性;然后基于集成学习框架进行各模型组合的循环优选,得到理论线损计算最佳模型,与传统基于单一模型的低压台区理论线损计算模型相比,其计算精度得到了显著提升。
附图说明
图1是本发明的总体流程图;
图2是本发明所使用的继承学习框架;
图3是本发明实施例中基于XGBoost的影响因子优选贡献度排名。
具体实施方式
下面结合附图对本发明的技术方案作进一步说明。
如图1所示,本发明提出一种基于集成学习的低压台区理论线损计算方法,包括如下步骤:
(1)、对电力用户拓扑参数、高频采样的功率参数、日电量等多源数据进行清洗,提取理论线损影响因子集f;数据清洗及理论线损影响因子提取的具体步骤包括如下:
(1.1)、从系统中获取台区高频采样的功率数据、日电量数据、拓扑参数等多源数据,选取信息采集率为100%的台区数据源,通过线性插值方法进行功率数据补全,删除不合理数值;
(1.2)、提取理论线损影响因子集f={f0,f1,f2,…,f11,f12},其中f0为供电半径,f1为线路总长度,f2为电缆线总长,f3为架空线路总长,f4为三相用户总数,f5为台区用户总数,f6为负载率,f7为功率因数,f8为负荷率,f9为负荷形状系数,f10为三相不平衡度,f11为末端负荷占比,f12为负荷分布系数。
(2)、基于XGBoost模型进行线损影响因子的优选,根据模型输出的特征贡献度直方图,选取贡献度较大的特征作为最终输入因子,一般的,取5≤N≤10;其中基于XGBoost模型进行影响因子优选的具体步骤包括如下:
(2.1)、将(1.2)中提取到的线损影响因子集作为训练样本的输入特征,线损实际值作为样本标签,进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集;
(2.2)、选取XGBoost作为特征提取器进行理论线损影响因子贡献度评价,其中XGBoost模型的超参数选取如下:最大深度为9,最小叶子节点样本权重为1,学习率为0.15;
(2.3)、将样本数据集输入到模型中进行训练,输出影响因子贡献度直方图,按照从大到小排序,筛选出贡献度较大且数值较为合理的前N个因子。
(3)、选取基学习器集T和元学习器集S,分别利用网格搜索法进行超参数寻优,得到最佳的超参数组合;其中基学习器集和元学习器集的选取具体步骤包括如下:
(3.1)、选取支持向量机(SVM)、多层感知机(MLP)、随机森林(RF)、LightGBM和XGBoost作为基学习器,构建基学习器集T={TSVM,TMLP,TRF,TLightGBM,TXGBoost};SVM、MLP、RF、LightGBM、XGBoost、线性回归模型(LR)以及岭回归(Ridge)模型,构建元学习器集S={SSVM,SMLP,SRF,SLightGBM,SXGBoost,SLR,SRidge};
(3.2)、再次利用理论线损影响因子集数据及其对应的线损实际值进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集,为消除量纲的影响,分别对训练集和测试集进行标准化,公式如下:
(3.3)、制定各模型的超参数选择范围,如表1-表6所示,利用网格搜索法进行各模型的超参数寻优,得到性能最优的模型超参数组合。
表1 SVM网格寻优参数
表2 RF网格寻优参数
表3 XGBoost网格寻优参数
表4 light GBM网格寻优参数
表5 LR网格寻优参数
表6 Ridge网格寻优参数
(4)、以T集中的所有模型作为第一层训练模型,S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型,循环迭代得到不同的模型组合;其中集成学习框架下的理论线损计算模型构建具体步骤包括如下:
(4.1)、将T集中的全部模型作为集成学习框架下的第一层基学习器,分别将S集中的各模型作为第二层元学习器,构建多模型组合方式下的理论线损计算待选模型,具体步骤如下:
(4.1.1)、设置迭代次数k=1,每一次迭代的模型组合为{T+Sk};
(4.1.2)、采用五折交叉验证的方式训练第一层中的所有基学习器。对于n个台区样本的输入数据集C,随机将其均分成5个子数据集{C1,C2,C3,C4,C5}。以基学习器T1为例,将每个子数据集分别作为一次验证集,其余的4个子数据集作为训练集,交叉验证后得到T1学习器的预测结果P1。对T集中其他的m-1个学习器执行同样的操作,得到预测结果P2,P3,…,Pm。
(4.1.3)、组合m个基学习器的结果作为新数据集P={P1,P2,…,Pm}。新数据集P构成第二层元学习器Sk的输入数据,使得第二层算法能够纠正第一层学习器中的预测误差,达到提升理论线损计算结果精度的目的;
(4.1.4)、k=k+1,返回(4.1.2)步骤,直到遍历完S集中的所有模型。
(4.2)、保存不同模型组合方式下的理论线损计算结果,等待最终的模型性能评估。
(5)、以相对均方误差、平均绝对误差以及平均相对误差为结果评价指标,对不同模型组合进行指标对比,基于性能最佳的模型组合进行回归预测,最后输出理论线损计算值。其中最终的模型性能评估具体步骤包括如下:
(5.1)、选取相对均方误差eRMSE、平均绝对误差eMAE以及平均相对误差eMAPE作为模型性能评估指标,其公式分别如下:
(5.2)、比较各模型组合方式下的性能指标结果,选出理论线损计算最优模型组合;
(5.3)、分别对各基模型进行五折交叉验证后的模型性能评估,检验模型融合的可行性与性能提升度;
(5.4)、输出最优组合模型预测下的理论线损计算值。
实施例1
本实施例是基于某地区14061个台区拓扑参数、用户侧电量、功率等数据,基于上述数据进行基于XGBoost因子优选与集成学习框架的低压台区理论线损计算,包括如下步骤:
(1)、对电力用户拓扑参数、高频采样的功率参数、日电量等多源数据进行清洗,提取理论线损影响因子集f;数据清洗及理论线损影响因子提取的具体步骤包括如下:
(1.1)、从系统中获取台区高频采样的功率数据、日电量数据、拓扑参数等多源数据,选取信息采集率为100%的台区数据源,通过线性插值方法进行功率数据补全,删除不合理数值;
(1.2)、提取理论线损影响因子集f={f0,f1,f2,…,f11,f12},其中f0为供电半径,f1为线路总长度,f2为电缆线总长,f3为架空线路总长,f4为三相用户总数,f5为台区用户总数,f6为负载率,f7为功率因数,f8为负荷率,f9为负荷形状系数,f10为三相不平衡度,f11为末端负荷占比,f12为负荷分布系数。
(2)、基于XGBoost模型进行线损影响因子的优选,输出特征贡献度直方图,选取贡献度大的特征作为最终输入因子;其中基于XGBoost模型进行影响因子优选的具体步骤包括如下:
(2.1)、将(1.2)中提取到的线损影响因子集作为训练样本的输入特征,线损实际值作为样本标签,并进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集;
(2.2)、选取XGBoost作为特征提取器进行理论线损影响因子贡献度评价,其中XGBoost模型的超参数选取如下:最大深度为9,最小叶子节点样本权重为1,学习率为0.15;
(2.3)、将样本数据集输入到模型中进行训练,输出影响因子贡献度直方图,按照从大到小排序,如图3所示,筛选出贡献度最大且数值较为合理的前10个因子,分别为供电半径(f0)、线路总长度(f1)、台区用户总数(f5)、负载率(f6)、功率因数(f7)、负荷率(f8)、负荷形状系数(f9)、三相不平衡度(f10),末端负荷占比(f11),负荷分布系数(f12)。
(3)、选取基学习器集T和元学习器集S,分别利用网格搜索法进行超参数寻优,得到最佳的超参数组合;其中基学习器集和元学习器集的选取具体步骤包括如下:
(3.1)、选取支持向量机(SVM)、多层感知机(MLP)、随机森林(RF)、LightGBM和XGBoost作为基学习器,构建基学习器集T={TSVM,TMLP,TRF,TLightGBM,TXGBoost};SVM、MLP、RF、LightGBM、XGBoost、线性回归模型(LR)以及岭回归(Ridge)模型,构建元学习器集S={SSVM,SMLP,SRF,SLightGBM,SXGBoost,SLR,SRidge};
(3.2)、再次利用理论线损影响因子集数据及其对应的线损实际值进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集,为消除量纲的影响,分别对训练集和测试集进行标准化,公式如下:
(3.3)、制定各模型的超参数选择范围,利用网格搜索法进行各模型的超参数寻优,得到性能最优的模型超参数组合。
(4)、如图2所示,以T集中的所有模型作为第一层训练模型,S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型,循环迭代得到不同的模型组合;其中集成学习框架下的理论线损计算模型构建具体步骤包括如下:
(4.1)、将T集中的全部模型作为集成学习框架下的第一层基学习器,分别将S集中的各模型作为第二层元学习器,构建多模型组合方式下的理论线损计算待选模型,具体步骤如下:
(4.1.1)、设置迭代次数k=1,每一次迭代的模型组合为{T+Sk};
(4.1.2)、采用五折交叉验证的方式训练第一层中的所有基学习器。对于n个台区样本的输入数据集C,随机将其均分成5个子数据集{C1,C2,C3,C4,C5}。以基学习器T1为例,将每个子数据集分别作为一次验证集,其余的4个子数据集作为训练集,交叉验证后得到T1学习器的预测结果P1。对T集中其他的m-1个学习器执行同样的操作,得到预测结果P2,P3,…,Pm。
(4.1.3)、组合m个基学习器的结果作为新数据集P={P1,P2,…,Pm}。新数据集P构成第二层元学习器Sk的输入数据,使得第二层算法能够纠正第一层学习器中的预测误差,达到提升理论线损计算结果精度的目的;
(4.1.4)、k=k+1,返回(4.1.2)步骤,直到遍历完S集中的所有模型。
(4.2)、保存不同模型组合方式下的理论线损计算结果,等待最终的模型性能评估。
(5)、以相对均方误差、平均绝对误差以及平均相对误差为结果评价指标,对不同模型组合进行指标对比,基于性能最佳的模型组合进行回归预测,最后输出理论线损计算值。其中最终的模型性能评估具体步骤包括如下:
(5.1)、选取相对均方误差eRMSE、平均绝对误差eMAE以及平均相对误差eMAPE作为模型性能评估指标,其公式分别如下:
(5.2)、比较各模型组合方式下的性能指标结果,选出理论线损计算最优模型组合,及第一层训练模型为SVM、MLP、LightGBM、RF和XGBoost,第二层训练模型为LR。
(5.3)、分别对各基模型进行五折交叉验证后的模型性能评估,检验模型融合的可行性与性能提升度。模型对比结果如表7所示,从表中可知,集成学习框架下的理论线损计算模型能够使得各基模型取长补短,有效提升了理论线损计算精度。
表7各基模型和集成学习框架下的线损计算模型性能对比
(5.4)、输出最优组合模型预测下的理论线损计算值。
Claims (7)
1.一种基于集成学习的低压台区理论线损计算方法,其特征在于,包括如下步骤:
S1、对包括电力用户拓扑参数、高频采样的功率参数、日电量的多源数据进行清洗,提取理论线损影响因子集f;
S2、基于XGBoost模型进行线损影响因子的选取,根据模型输出的特征贡献度,选取贡献度最大的N个特征作为最终输入因子,取5≤N≤10;
S3、选取基学习器集T和元学习器集S,利用网格搜索法进行超参数寻优,得到最佳的超参数组合;
S4、以T集中的所有模型作为第一层训练模型,S集中各模型分别作为第二层训练模型构建集成学习框架下的理论线损计算模型,循环迭代得到不同的模型组合;
S5、以相对均方误差、平均绝对误差以及平均相对误差为结果评价指标,对不同模型组合进行指标对比,基于性能最佳的模型组合进行回归预测,最后输出理论线损计算值。
2.根据权利要求1所述的一种基于集成学习的低压台区理论线损计算方法,其特征在于:所述S1中数据清洗及理论线损影响因子提取的具体步骤包括如下:
S1.1、从系统中获取包括台区高频采样的功率数据、日电量数据、拓扑参数的多源数据,选取信息采集率为100%的台区数据源,通过线性插值方法进行功率数据补全,删除不合理数值;
S1.2、提取理论线损影响因子集f={f0,f1,f2,…,f11,f12},其中f0为供电半径,f1为线路总长度,f2为电缆线总长,f3为架空线路总长,f4为三相用户总数,f5为台区用户总数,f6为负载率,f7为功率因数,f8为负荷率,f9为负荷形状系数,f10为三相不平衡度,f11为末端负荷占比,f12为负荷分布系数。
3.根据权利要求2所述的一种基于集成学习的低压台区理论线损计算方法,其特征在于:所述S2中基于XGBoost模型进行影响因子选取的具体步骤包括如下:
S2.1、将S1.2中提取到的线损影响因子集作为训练样本的输入特征,线损实际值作为样本标签,进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集;
S2.2、选取XGBoost作为特征提取器进行理论线损影响因子贡献度评价,其中XGBoost模型的超参数选取如下:最大深度为9,最小叶子节点样本权重为1,学习率为0.15;
S2.3、将样本数据集输入到模型中进行训练,输出影响因子贡献度,按照从大到小排序,筛选出贡献度最大的前N个因子,5≤N≤10。
4.根据权利要求1所述的一种基于集成学习的低压台区理论线损计算方法,其特征在于:所述S3中基学习器集和元学习器集的选取具体步骤包括如下:
S3.1、选取SVM、MLP、RF、LightGBM和XGBoost作为基学习器,构建基学习器集T={TSVM,TMLP,TRF,TLightGBM,TXGBoost};SVM、MLP、RF、LightGBM、XGBoost、线性回归模型以及岭回归模型,构建元学习器集S={SSVM,SMLP,SRF,SLightGBM,SXGBoost,SLR,SRidge};
S3.2、再次利用理论线损影响因子集数据及其对应的线损实际值进行数据集的随机划分,其中80%作为训练集,其余的20%作为测试集,为消除量纲的影响,分别对训练集和测试集进行标准化,公式如下:
S3.3、制定各模型的超参数选择范围,利用网格搜索法进行各模型的超参数寻优,得到性能最优的模型超参数组合。
5.根据权利要求1所述的一种基于集成学习的低压台区理论线损计算方法,其特征在于:所述S4中集成学习框架下的理论线损计算模型构建具体步骤包括如下:
S4.1、将T集中的全部模型作为集成学习框架下的第一层基学习器,将S集中的各模型分别作为第二层元学习器,构建多模型组合方式下的理论线损计算待选模型;
S4.2、保存不同模型组合方式下的理论线损计算结果,等待最终的模型性能评估。
6.根据权利要求5所述的一种基于集成学习的低压台区理论线损计算方法,其特征在于:所述S4.1的具体步骤如下:
S4.1.1、设置迭代次数k=1,每一次迭代的模型组合为{T+Sk};
S4.1.2、采用五折交叉验证的方式训练第一层中的所有基学习器;对于n个台区样本的输入数据集C,随机将其均分成5个子数据集{C1,C2,C3,C4,C5};将每个子数据集分别作为一次验证集,其余的4个子数据集作为训练集,交叉验证后得到预测结果;对T集中其他的学习器执行同样的操作;
S4.1.3、组合m个基学习器的结果作为新数据集P={P1,P2,…,Pm};新数据集P构成第二层元学习器Sk的输入数据,使得第二层算法能够纠正第一层学习器中的预测误差,达到提升理论线损计算结果精度的目的;
S4.1.4、k=k+1,返回S4.1.2,直到遍历完S集中的所有模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111037192.XA CN113723844B (zh) | 2021-09-06 | 2021-09-06 | 一种基于集成学习的低压台区理论线损计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111037192.XA CN113723844B (zh) | 2021-09-06 | 2021-09-06 | 一种基于集成学习的低压台区理论线损计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723844A true CN113723844A (zh) | 2021-11-30 |
CN113723844B CN113723844B (zh) | 2024-04-19 |
Family
ID=78681811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111037192.XA Active CN113723844B (zh) | 2021-09-06 | 2021-09-06 | 一种基于集成学习的低压台区理论线损计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723844B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757305A (zh) * | 2022-06-13 | 2022-07-15 | 华中科技大学 | 一种基于集成学习的电压互感器绝缘故障辨识方法及系统 |
CN116011657A (zh) * | 2023-01-29 | 2023-04-25 | 上海交通大学 | 基于微型pmu的配电网负荷预测模型优选方法、装置及系统 |
CN116090348A (zh) * | 2023-02-09 | 2023-05-09 | 国网江苏省电力有限公司电力科学研究院 | 一种馈线线损集成学习估计方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598854A (zh) * | 2019-09-20 | 2019-12-20 | 国网福建省电力有限公司 | 一种基于gru模型的台区线损率预测方法 |
CN110763660A (zh) * | 2019-10-22 | 2020-02-07 | 华南理工大学 | 基于集成学习的libs定量分析方法 |
CN112149873A (zh) * | 2020-08-25 | 2020-12-29 | 北京合众伟奇科技有限公司 | 一种基于深度学习的低压台区线损合理区间预测方法 |
-
2021
- 2021-09-06 CN CN202111037192.XA patent/CN113723844B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598854A (zh) * | 2019-09-20 | 2019-12-20 | 国网福建省电力有限公司 | 一种基于gru模型的台区线损率预测方法 |
CN110763660A (zh) * | 2019-10-22 | 2020-02-07 | 华南理工大学 | 基于集成学习的libs定量分析方法 |
CN112149873A (zh) * | 2020-08-25 | 2020-12-29 | 北京合众伟奇科技有限公司 | 一种基于深度学习的低压台区线损合理区间预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757305A (zh) * | 2022-06-13 | 2022-07-15 | 华中科技大学 | 一种基于集成学习的电压互感器绝缘故障辨识方法及系统 |
CN114757305B (zh) * | 2022-06-13 | 2022-09-20 | 华中科技大学 | 一种基于集成学习的电压互感器绝缘故障辨识方法及系统 |
CN116011657A (zh) * | 2023-01-29 | 2023-04-25 | 上海交通大学 | 基于微型pmu的配电网负荷预测模型优选方法、装置及系统 |
CN116011657B (zh) * | 2023-01-29 | 2023-06-27 | 上海交通大学 | 基于微型pmu的配电网负荷预测模型优选方法、装置及系统 |
CN116090348A (zh) * | 2023-02-09 | 2023-05-09 | 国网江苏省电力有限公司电力科学研究院 | 一种馈线线损集成学习估计方法、设备及存储介质 |
CN116090348B (zh) * | 2023-02-09 | 2023-11-24 | 国网江苏省电力有限公司电力科学研究院 | 一种馈线线损集成学习估计方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113723844B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113723844A (zh) | 一种基于集成学习的低压台区理论线损计算方法 | |
CN111505433B (zh) | 一种低压台区户变关系纠错及相位识别方法 | |
CN110705873B (zh) | 一种配电网运行状态画像分析方法 | |
CN109829497B (zh) | 一种基于监督学习的台区用户识别及判别方法 | |
CN109286188B (zh) | 一种基于多源数据集的10kV配电网理论线损计算方法 | |
CN104504508B (zh) | 基于层次分析与小波回归的台区闭环数据分析方法 | |
CN107340492A (zh) | 基于大数据挖掘和场景预判的电能计量装置故障分析方法 | |
CN111628494B (zh) | 一种基于逻辑回归法的低压配电网拓扑识别方法及系统 | |
CN113159488B (zh) | 一种低压台区拓扑辨识方法 | |
CN114519514B (zh) | 一种低压台区合理线损值测算方法、系统及计算机设备 | |
CN112149873A (zh) | 一种基于深度学习的低压台区线损合理区间预测方法 | |
CN110910026B (zh) | 一种跨省输电线路线损智能管理与决策方法及系统 | |
CN104882884A (zh) | 基于马尔可夫链-蒙特卡罗法的系统谐波概率评估方法 | |
CN112994017A (zh) | 基于配电网概率潮流计算的分布式光伏电源选址优化方法 | |
CN116796403A (zh) | 一种基于商业建筑综合能耗预测的建筑节能方法 | |
CN113469488B (zh) | 配电网设备拓扑结构在线诊断分析系统 | |
CN111027841A (zh) | 一种基于梯度提升决策树的低压台区线损计算方法 | |
CN112446175B (zh) | 基于配电网概率潮流计算的分布式电源选址优化方法 | |
CN112508254A (zh) | 变电站工程项目投资预测数据的确定方法 | |
CN112182499A (zh) | 一种基于时序电量数据的低压配电网拓扑结构辨识方法 | |
CN116522111A (zh) | 远程停复电故障自动诊断方法 | |
CN115455802A (zh) | 一种基于数据驱动的低压配电网网络建模及其可视化方法 | |
AU2021105453A4 (en) | Method for forecasting line loss rate in low-voltage station area based on extreme gradient lifting decision tree | |
CN112000917B (zh) | 融合已知相别和地址信息的低压用户计量表箱识别方法 | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |