CN116911634A - 基于随机森林的d类电压越下限影响因素分析方法及装置 - Google Patents
基于随机森林的d类电压越下限影响因素分析方法及装置 Download PDFInfo
- Publication number
- CN116911634A CN116911634A CN202310892717.0A CN202310892717A CN116911634A CN 116911634 A CN116911634 A CN 116911634A CN 202310892717 A CN202310892717 A CN 202310892717A CN 116911634 A CN116911634 A CN 116911634A
- Authority
- CN
- China
- Prior art keywords
- class
- voltage
- lower limit
- influence
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000004458 analytical method Methods 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims abstract description 60
- 239000010752 BS 2869 Class D Substances 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000005070 sampling Methods 0.000 claims description 27
- 238000003066 decision tree Methods 0.000 claims description 25
- 238000000556 factor analysis Methods 0.000 claims description 14
- 238000007689 inspection Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009471 action Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 10
- 238000013139 quantization Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 description 7
- 238000012417 linear regression Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012797 qualification Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明涉及配电网技术领域,公开了基于随机森林的D类电压越下限影响因素分析方法及装置。本发明的方法包括:确定D类电压越下限的各影响因素;以D类电压越下限率作为结果性指标,采集影响因素和结果性指标的历史统计数据;根据历史统计数据,采用随机森林算法训练得到分析影响因素和结果性指标间的关系的D类电压越下限分析模型;利用D类电压越下限分析模型预测各影响因素对所述结果性指标的影响权重;相应的装置包括确定模块、采集模块、训练模块和预测模块。本发明能自动地对电压越下限影响因素进行权重值计算,实现贡献度量化计算,且不受数据之间的线性关系或非线性关系的影响,得到的分析结果更全面准确。
Description
技术领域
本发明涉及配电网技术领域,尤其涉及基于随机森林的D类电压越下限影响因素分析方法及装置。
背景技术
在公变台区首端及末端的380/220V低压用户处通常设置有D类电压监测点。随着经济的不断发展,低压用户用电负荷呈现峰谷差加大的趋势,容易导致D类电压监测点出现电压越下限问题,使得用户用电满意度较低。因此,分析D类电压监测点出现电压越下限问题的原因,准确判断出D类电压监测点电压越下限的关键影响因素,才能有效采取针对性的治理措施,从而提升D类电压监测点的电压水平。
目前分析配电网电压越下限影响因素的研究和方法已存在不少技术,但针对影响D类用户电压越下限的关键因素筛选方法却较为缺乏。现有技术中,专利公开号为CN106327029A的专利申请公开了一种配电网低电压治理方案的分析方法及系统,但存在缺点是:(1)仅仅分析了配变档位、三相不平衡和供电半径三个影响因素,影响因素分析不全面;(2)未分析电压越下限问题是由配电档位不对、三相不平衡和供电半径过大中的哪个或哪几个因素主要造成,对各影响用户电压合格率的因素的贡献度大小未做量化计算分析,不利于制定针对电压越限问题的治理措施,从而影响电压水平。专利公开号为CN115693692A的专利申请虽利用多元线性回归技术对D电压监测点电压越下限的影响因素进行建模分析,并利用主成分分析法找出影响电压越下限的主要原因及二级原因,但该发明技术的缺点是:线性回归分析方法前提条件要求因变量(即D类电压合格率)和自变量(各影响因素)之间是线性关系,然而实际电网运行中电压合格率和其各影响因素间并不一定存在线性关系,这将导致采用多元线性回归分析得到的影响因素去提升电压水平的方法、策略失效。专利公开号为CN110611316B的专利申请根据D类用户电压情况辨识影响用户电压水平的因素并确定治理措施,其采取的技术是依据设定的阈值作为判断标准。专利公开号为CN109842122B的专利申请及专利公开号为CN109842109B的专利申请在判断低电压成因分析中,仅仅分析了配变档位不当和三相负荷不平衡两个因素,这将造成关键影响因素丢失和分析结果不可靠的问题。
因此,现有技术存在的问题是:(1)用于分析D类电压越下限的影响因素不全面,仅仅分析了单一方面或少数几个方面的影响因素;(2)对于影响D类电压监测点电压越下限的主要影响因素缺乏贡献度量化计算;(3)多元线性回归分析视自变量和因变量之间为线性关系,与实际情况可能存在不符情况,造成分析结果可靠性差。
针对现有技术存在的问题,有必要提供一种分析较为全面、能够实现贡献度量化计算和分析结果可靠性较高的D类电压越下限影响因素分析方案。
发明内容
本发明提供了基于随机森林的D类电压越下限影响因素分析方法及装置,解决了现有电压越下限影响因素分析方案存在影响因素分析不全面、缺乏贡献度量化计算及分析结果可靠性较差的缺陷的技术问题。
本发明第一方面提供一种基于随机森林的D类电压越下限影响因素分析方法,包括:
确定D类电压越下限的各影响因素;
以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据;
根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型;
利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果。
根据本发明第一方面的一种能够实现的方式,所述确定D类电压越下限的各影响因素,包括:
确定A类电压越下限率、主干线供电长度偏长占比、主干线径偏小线路占比、负荷集中后段线路占比、线路平均负载率、线路平均功率因数、转供电线路比例、配变平均负载率、配变重载比例、配变过载比例、配变重载时间占比、配变过载时间占比、配变平均三相不平衡度、配变三相不平衡比例、配变三相不平衡时间占比、配变功率因数达标率和配变平均功率因数为D类电压越下限的影响因素。
根据本发明第一方面的一种能够实现的方式,所述根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型,包括:
以所述历史统计数据构建原始数据集为S={(xi,yi),i=1,2,...,n},xi为第i个影响因素样本,yi为xi对应的D类电压越下限率,n为样本数量,对原始数据集S进行独立随机重抽样,获得采样训练集di;
使用采样训练集di对决策树进行训练;训练过程中,对于待测样本xt,满足xt∈Rj,每个新样本集生长为单棵决策树,每棵树的节点处均为从全部j个特征中随机抽取的m(m<j)个特征作为当前节点的分裂特征子空间;m的值等于决策树棵树;
按照预置特征分裂原则,在每个节点处对应的m个特征中选取一个特征进行分裂,重复这个动作,直到决策树无法再分裂为止,在整个过程中m保持恒定;所述预置特征分裂原则为:选取方差增益Gain_σ作为评价回归树中分裂特征的指标,选择具有最小Gain_σ的特征及其特征值作为最优分裂特征及其最优分裂特征值,对于待分裂的节点,计算所有待选择特征的Gain_σ指标,并选取最小Gain_σ指标所对应的特征和特征值作为对应待分裂的节点处的最优二分方案;
对于待测样本xt,以所有子树的预测结果的平均值作为随机森林的结果。
根据本发明第一方面的一种能够实现的方式,所述计算所有待选择特征的Gain_σ指标,包括:
按照下列公式计算待分裂的节点对应分裂特征子空间中的待选择特征f的Gain_σ指标:
式中,Gain_σf,s为待选择特征f在以任意特征值s为分裂点时的Gain_σ指标,dl(f,s)为任意特征值s将当前采样训练集按照左右划分得到的左边部分的数据集,dr(f,s)为任意特征值s将当前采样训练集按照左右划分得到的右边部分的数据集,c1为dl(f,s)的均值,c2为dr(f,s)的均值。
根据本发明第一方面的一种能够实现的方式,所述利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,包括:
利用所述D类电压越下限分析模型对D类电压越下限率进行拟合预测,并评估检验模型精度,得到优化后拟合结果;
基于所述优化后拟合结果获得各所述影响因素对所述结果性指标的影响权重。
根据本发明第一方面的一种能够实现的方式,所述评估检验模型精度,包括:
以决定系数、平均绝对误差和均方差作为评估指标来评估检验模型精度。
根据本发明第一方面的一种能够实现的方式,所述方法还包括:
对各所述影响因素对所述结果性指标的影响权重进行排序,得到相应的影响权重排序结果。
本发明第二方面提供一种基于随机森林的D类电压越下限影响因素分析装置,包括:
确定模块,用于确定D类电压越下限的各影响因素;
采集模块,用于以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据;
训练模块,用于根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型;
预测模块,用于利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果。
根据本发明第二方面的一种能够实现的方式,所述确定模块包括:
确定单元,用于确定A类电压越下限率、主干线供电长度偏长占比、主干线径偏小线路占比、负荷集中后段线路占比、线路平均负载率、线路平均功率因数、转供电线路比例、配变平均负载率、配变重载比例、配变过载比例、配变重载时间占比、配变过载时间占比、配变平均三相不平衡度、配变三相不平衡比例、配变三相不平衡时间占比、配变功率因数达标率和配变平均功率因数为D类电压越下限的影响因素。
根据本发明第二方面的一种能够实现的方式,所述训练模块包括:
抽样单元,用于以所述历史统计数据构建原始数据集为S={(xi,yi),i=1,2,...,n},xi为第i个影响因素样本,yi为xi对应的D类电压越下限率,n为样本数量,对原始数据集S进行独立随机重抽样,获得采样训练集di;
训练单元,用于使用采样训练集di对决策树进行训练;训练过程中,对于待测样本xt,满足xt∈Rj,每个新样本集生长为单棵决策树,每棵树的节点处均为从全部j个特征中随机抽取的m(m<j)个特征作为当前节点的分裂特征子空间;m的值等于决策树棵树;
分裂单元,用于按照预置特征分裂原则,在每个节点处对应的m个特征中选取一个特征进行分裂,重复这个动作,直到决策树无法再分裂为止,在整个过程中m保持恒定;所述预置特征分裂原则为:选取方差增益Gain_σ作为评价回归树中分裂特征的指标,选择具有最小Gain_σ的特征及其特征值作为最优分裂特征及其最优分裂特征值,对于待分裂的节点,计算所有待选择特征的Gain_σ指标,并选取最小Gain_σ指标所对应的特征和特征值作为对应待分裂的节点处的最优二分方案;
结果输出单元,用于对于待测样本xt,以所有子树的预测结果的平均值作为随机森林的结果。
根据本发明第二方面的一种能够实现的方式,所述分裂单元计算所有待选择特征的Gain_σ指标时,具体用于:
按照下列公式计算待分裂的节点对应分裂特征子空间中的待选择特征f的Gain_σ指标:
式中,Gain_σf,s为待选择特征f在以任意特征值s为分裂点时的Gain_σ指标,dl(f,s)为任意特征值s将当前采样训练集按照左右划分得到的左边部分的数据集,dr(f,s)为任意特征值s将当前采样训练集按照左右划分得到的右边部分的数据集,c1为dl(f,s)的均值,c2为dr(f,s)的均值。
根据本发明第二方面的一种能够实现的方式,所述预测模块包括:
预测及检验单元,用于利用所述D类电压越下限分析模型对D类电压越下限率进行拟合预测,并评估检验模型精度,得到优化后拟合结果;
获得单元,用于基于所述优化后拟合结果获得各所述影响因素对所述结果性指标的影响权重。
根据本发明第二方面的一种能够实现的方式,所述预测及检验单元评估检验模型精度时,具体用于:
以决定系数、平均绝对误差和均方差作为评估指标来评估检验模型精度。
根据本发明第二方面的一种能够实现的方式,所述装置还包括:
排序模块,用于对各所述影响因素对所述结果性指标的影响权重进行排序,得到相应的影响权重排序结果。
本发明第三方面提供了一种基于随机森林的D类电压越下限影响因素分析装置,包括:
存储器,用于存储指令;其中,所述指令用于实现如上任意一项能够实现的方式所述的基于随机森林的D类电压越下限影响因素分析方法;
处理器,用于执行所述存储器中的指令。
本发明第四方面一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项能够实现的方式所述的基于随机森林的D类电压越下限影响因素分析方法。
从以上技术方案可以看出,本发明具有以下优点:
本发明的方法包括:确定D类电压越下限的各影响因素;以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据;根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型;利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果;相应的装置包括确定模块、采集模块、训练模块和预测模块;本发明能自动地对电压越下限影响因素进行权重值计算,实现贡献度量化计算,且不受数据之间的线性关系或非线性关系的影响,得到的分析结果更全面准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明一个可选实施例提供的一种基于随机森林的D类电压越下限影响因素分析方法的流程图;
图2为本发明另一个可选实施例提供的一种基于随机森林的D类电压越下限影响因素分析方法的流程图;
图3为本发明一个可选实施例提供的一种基于随机森林的D类电压越下限影响因素分析装置的结构连接框图;
图4为本发明另一个可选实施例提供的一种基于随机森林的D类电压越下限影响因素分析装置的结构连接框图。
附图标记:
1-确定模块;2-采集模块;3-训练模块;4-预测模块;5-排序模块。
具体实施方式
本发明实施例提供了基于随机森林的D类电压越下限影响因素分析方法及装置,用于解决现有电压越下限影响因素分析方案存在影响因素分析不全面、缺乏贡献度量化计算及分析结果可靠性较差的缺陷的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供了一种基于随机森林的D类电压越下限影响因素分析方法。
请参阅图1,图1示出了本发明实施例提供的一种基于随机森林的D类电压越下限影响因素分析方法的流程图。
本发明实施例提供的一种基于随机森林的D类电压越下限影响因素分析方法,包括:
步骤S1,确定D类电压越下限的各影响因素。
可以依据D类电压越下限机理分析D类电压越下限的各影响因素。
在一种能够实现的方式中,所述确定D类电压越下限的各影响因素,包括:
确定A类电压越下限率、主干线供电长度偏长占比、主干线径偏小线路占比、负荷集中后段线路占比、线路平均负载率、线路平均功率因数、转供电线路比例、配变平均负载率、配变重载比例、配变过载比例、配变重载时间占比、配变过载时间占比、配变平均三相不平衡度、配变三相不平衡比例、配变三相不平衡时间占比、配变功率因数达标率和配变平均功率因数为D类电压越下限的影响因素。
步骤S2,以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据。
作为具体的实施方式,采集结果性指标数据并作为因变量数列,记为y={y(k),k=1,2,...,n},y(h)为C类电压合格率统计数据集y中的第h个样本数据,N为样本长度;
采集影响因素指标的样本数据并作为自变量数列,记为xi={xi(h),h=1,2,...,n},i=1,2,…,H,xi为第i个影响因素样本,xi(h)为xi中第h个样本数据,H为影响因素的数量。
步骤S3,根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型。
在进行训练时,可以将得到的历史统计数据按照预置比例随机划分为训练数据和测试数据。所述预置比例可以根据实际情况进行设置。在一种能够实现的方式中,所述预置比例为7:3,即按照7:3的比例将得到的历史统计数据按照预置比例随机划分为训练数据和测试数据。
在一种能够实现的方式中,所述根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型,包括:
以所述历史统计数据构建原始数据集为S={(xi,yi),i=1,2,...,n},xi为第i个影响因素样本,yi为xi对应的D类电压越下限率,n为样本数量,对原始数据集S进行独立随机重抽样,获得采样训练集di;
使用采样训练集di对决策树进行训练;训练过程中,对于待测样本xt,满足xt∈Rj,每个新样本集生长为单棵决策树,每棵树的节点处均为从全部j个特征中随机抽取的m(m<j)个特征作为当前节点的分裂特征子空间;m的值等于决策树棵树;
按照预置特征分裂原则,在每个节点处对应的m个特征中选取一个特征进行分裂,重复这个动作,直到决策树无法再分裂为止,在整个过程中m保持恒定;所述预置特征分裂原则为:选取方差增益Gain_σ作为评价回归树中分裂特征的指标,选择具有最小Gain_σ的特征及其特征值作为最优分裂特征及其最优分裂特征值,对于待分裂的节点,计算所有待选择特征的Gain_σ指标,并选取最小Gain_σ指标所对应的特征和特征值作为对应待分裂的节点处的最优二分方案;
对于待测样本xt,以所有子树的预测结果的平均值作为随机森林的结果。
其中,基于划分得到的训练数据构建原始数据集S。
对原始数据集S进行独立随机重抽样,获得采样训练集di,具体为:
假设随机森林模型中有M棵决策树T={t1,t2,...,tM}(M≥1),则对应进行M次采样共获得M组采样训练集D={d1,d2,...,dM}。
本发明实施例中,回归树选取Gain_σ为评价分裂特征的指标。Gain_σ值越小,说明二分之后的子样本的差异性越小,也说明选择该特征(值)作为分裂特征(值)的效果越好。回归树根据叶子节点取均值作为整体预测结果,因此,对于待测样本xt,本发明实施例中以所有子树的预测结果的平均值作为随机森林的结果,如下式:
式中,g(xt)为待测样本xt对应的随机森林的结果,ti(xt)为决策树ti的输出,M为决策树棵树。
在一种能够实现的方式中,所述计算所有待选择特征的Gain_σ指标,包括:
按照下列公式计算待分裂的节点对应分裂特征子空间中的待选择特征f的Gain_σ指标:
式中,Gain_σf,s为待选择特征f在以任意特征值s为分裂点时的Gain_σ指标,dl(f,s)为任意特征值s将当前采样训练集按照左右划分得到的左边部分的数据集,dr(f,s)为任意特征值s将当前采样训练集按照左右划分得到的右边部分的数据集,c1为dl(f,s)的均值,c2为dr(f,s)的均值。
该式中,对于特征子空间中的待选择特征f,其对应的任意特征值s将当前采样训练集按左右划分为dl(f,s)和dr(f,s),同时使dl(f,s)和dr(f,s)各自集合的残差平方和最小的特征值即为待选择特征f的最佳分裂点。
步骤S4,利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果。
在一种能够实现的方式中,所述利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,包括:
利用所述D类电压越下限分析模型对D类电压越下限率进行拟合预测,并评估检验模型精度,得到优化后拟合结果;
基于所述优化后拟合结果获得各所述影响因素对所述结果性指标的影响权重。
在一种能够实现的方式中,所述评估检验模型精度,包括:
以决定系数、平均绝对误差和均方差作为评估指标来评估检验模型精度。
作为具体的实施方式,决定系数的计算公式为:
式中,R2为决定系数,n样本数量,yi *为第i个样本值,yi γ为第i个预测值,为样本值均值。
作为具体的实施方式,平均绝对误差的计算公式为:
式中,MAE为平均绝对误差,n样本数量,yi *为第i个样本值,yi γ为第i个预测值。
作为具体的实施方式,均方差的计算公式为:
式中,MSE为均方差,n样本数量,yi *为第i个样本值,yi γ为第i个预测值。
作为具体的实施方式,如果特征f在决策树M中出现的节点为集合S,则f在第M棵树的重要性为对于M棵树的森林,需要将每棵树的权重求均值,并作归一化:
式中,ωj为第j棵树对各个特征权重评分,表示对/>进行归一化处理。
在一种能够实现的方式中,在图1所示方法的基础上,如图2所示,所述方法还包括:
步骤S5,对各所述影响因素对所述结果性指标的影响权重进行排序,得到相应的影响权重排序结果。
本发明上述实施例中,依据D类电压越下限机理分析,选择了A类电压越下限率、主干线供电长度偏长占比、主干线径偏小线路占比、负荷集中后段线路占比、线路平均负载率、线路平均功率因数、转供电线路比例、配变平均负载率、配变重载比例、配变过载比例、配变重载时间占比、配变过载时间占比、配变平均三相不平衡度、配变三相不平衡比例、配变三相不平衡时间占比、配变功率因数达标率和配变平均功率因数作为D类电压越下限影响因素的指标组合,同时选择D类电压越下限率作为D类电压越下限的结果性指标,然后使用随机森林算法构建了D类电压越下限的结果性指标与影响因素的关系模型,基于该模型获得影响因素的权重值与排序,具有以下意想不到的技术效果:
1)随机森林存在随机抽样,训练出来的模型方差小,泛化能力强;
2)与传统基于线性回归模型影响因素的贡献度求解相比,本发明是通过多个决策树集成而形成的强学习器,能充分考虑结果性指标与影响因素之间的线性和非线性关系,保证权重值计算结果的可靠性与稳定性;
3)使用随机森林算法进行回归,能同时分析多个电压越下限的影响因素,结果更全面准确;
4)随机森林实现简单,对于部分特征的缺失不敏感;
5)训练可以高度并行化,对于电网大数据时代的海量样本训练速度有优势。
本发明还提供了一种基于随机森林的D类电压越下限影响因素分析装置,该装置可用于执行本发明上述任一项实施例所述的基于随机森林的D类电压越下限影响因素分析方法。
请参阅图3,图3示出了本发明实施例提供的一种基于随机森林的D类电压越下限影响因素分析装置的结构连接框图。
本发明实施例提供的一种基于随机森林的D类电压越下限影响因素分析装置,包括:
确定模块1,用于确定D类电压越下限的各影响因素;
采集模块2,用于以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据;
训练模块3,用于根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型;
预测模块4,用于利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果。
在一种能够实现的方式中,所述确定模块1包括:
确定单元,用于确定A类电压越下限率、主干线供电长度偏长占比、主干线径偏小线路占比、负荷集中后段线路占比、线路平均负载率、线路平均功率因数、转供电线路比例、配变平均负载率、配变重载比例、配变过载比例、配变重载时间占比、配变过载时间占比、配变平均三相不平衡度、配变三相不平衡比例、配变三相不平衡时间占比、配变功率因数达标率和配变平均功率因数为D类电压越下限的影响因素。
在一种能够实现的方式中,所述训练模块3包括:
抽样单元,用于以所述历史统计数据构建原始数据集为S={(xi,yi),i=1,2,...,n},xi为第i个影响因素样本,yi为xi对应的D类电压越下限率,n为样本数量,对原始数据集S进行独立随机重抽样,获得采样训练集di;
训练单元,用于使用采样训练集di对决策树进行训练;训练过程中,对于待测样本xt,满足xt∈Rj,每个新样本集生长为单棵决策树,每棵树的节点处均为从全部j个特征中随机抽取的m(m<j)个特征作为当前节点的分裂特征子空间;m的值等于决策树棵树;
分裂单元,用于按照预置特征分裂原则,在每个节点处对应的m个特征中选取一个特征进行分裂,重复这个动作,直到决策树无法再分裂为止,在整个过程中m保持恒定;所述预置特征分裂原则为:选取方差增益Gain_σ作为评价回归树中分裂特征的指标,选择具有最小Gain_σ的特征及其特征值作为最优分裂特征及其最优分裂特征值,对于待分裂的节点,计算所有待选择特征的Gain_σ指标,并选取最小Gain_σ指标所对应的特征和特征值作为对应待分裂的节点处的最优二分方案;
结果输出单元,用于对于待测样本xt,以所有子树的预测结果的平均值作为随机森林的结果。
在一种能够实现的方式中,所述分裂单元计算所有待选择特征的Gain_σ指标时,具体用于:
按照下列公式计算待分裂的节点对应分裂特征子空间中的待选择特征f的Gain_σ指标:
式中,Gain_σf,s为待选择特征f在以任意特征值s为分裂点时的Gain_σ指标,dl(f,s)为任意特征值s将当前采样训练集按照左右划分得到的左边部分的数据集,dr(f,s)为任意特征值s将当前采样训练集按照左右划分得到的右边部分的数据集,c1为dl(f,s)的均值,c2为dr(f,s)的均值。
在一种能够实现的方式中,所述预测模块4包括:
预测及检验单元,用于利用所述D类电压越下限分析模型对D类电压越下限率进行拟合预测,并评估检验模型精度,得到优化后拟合结果;
获得单元,用于基于所述优化后拟合结果获得各所述影响因素对所述结果性指标的影响权重。
在一种能够实现的方式中,所述预测及检验单元评估检验模型精度时,具体用于:
以决定系数、平均绝对误差和均方差作为评估指标来评估检验模型精度。
在一种能够实现的方式中,在图3所示装置的基础上,如图4所示,所述装置还包括:
排序模块5,用于对各所述影响因素对所述结果性指标的影响权重进行排序,得到相应的影响权重排序结果。
本发明还提供了一种基于随机森林的D类电压越下限影响因素分析装置,包括:
存储器,用于存储指令;其中,所述指令用于实现如上任意一项实施例所述的基于随机森林的D类电压越下限影响因素分析方法;
处理器,用于执行所述存储器中的指令。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项实施例所述的基于随机森林的D类电压越下限影响因素分析方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,上述描述的装置、模块和单元的具体有益效果,可以参考前述方法实施例中的对应有益效果,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于随机森林的D类电压越下限影响因素分析方法,其特征在于,包括:
确定D类电压越下限的各影响因素;
以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据;
根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型;
利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果。
2.根据权利要求1所述的基于随机森林的D类电压越下限影响因素分析方法,其特征在于,所述确定D类电压越下限的各影响因素,包括:
确定A类电压越下限率、主干线供电长度偏长占比、主干线径偏小线路占比、负荷集中后段线路占比、线路平均负载率、线路平均功率因数、转供电线路比例、配变平均负载率、配变重载比例、配变过载比例、配变重载时间占比、配变过载时间占比、配变平均三相不平衡度、配变三相不平衡比例、配变三相不平衡时间占比、配变功率因数达标率和配变平均功率因数为D类电压越下限的影响因素。
3.根据权利要求1所述的基于随机森林的D类电压越下限影响因素分析方法,其特征在于,所述根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型,包括:
以所述历史统计数据构建原始数据集为S={(xi,yi),i=1,2,...,n},xi为第i个影响因素样本,yi为xi对应的D类电压越下限率,n为样本数量,对原始数据集S进行独立随机重抽样,获得采样训练集di;
使用采样训练集di对决策树进行训练;训练过程中,对于待测样本xt,满足xt∈Rj,每个新样本集生长为单棵决策树,每棵树的节点处均为从全部j个特征中随机抽取的m(m<j)个特征作为当前节点的分裂特征子空间;m的值等于决策树棵树;
按照预置特征分裂原则,在每个节点处对应的m个特征中选取一个特征进行分裂,重复这个动作,直到决策树无法再分裂为止,在整个过程中m保持恒定;所述预置特征分裂原则为:选取方差增益Gain_σ作为评价回归树中分裂特征的指标,选择具有最小Gain_σ的特征及其特征值作为最优分裂特征及其最优分裂特征值,对于待分裂的节点,计算所有待选择特征的Gain_σ指标,并选取最小Gain_σ指标所对应的特征和特征值作为对应待分裂的节点处的最优二分方案;
对于待测样本xt,以所有子树的预测结果的平均值作为随机森林的结果。
4.根据权利要求3所述的基于随机森林的D类电压越下限影响因素分析方法,其特征在于,所述计算所有待选择特征的Gain_σ指标,包括:
按照下列公式计算待分裂的节点对应分裂特征子空间中的待选择特征f的Gain_σ指标:
式中,Gain_σf,s为待选择特征f在以任意特征值s为分裂点时的Gain_σ指标,dl(f,s)为任意特征值s将当前采样训练集按照左右划分得到的左边部分的数据集,dr(f,s)为任意特征值s将当前采样训练集按照左右划分得到的右边部分的数据集,c1为dl(f,s)的均值,c2为dr(f,s)的均值。
5.根据权利要求1所述的基于随机森林的D类电压越下限影响因素分析方法,其特征在于,所述利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,包括:
利用所述D类电压越下限分析模型对D类电压越下限率进行拟合预测,并评估检验模型精度,得到优化后拟合结果;
基于所述优化后拟合结果获得各所述影响因素对所述结果性指标的影响权重。
6.根据权利要求5所述的基于随机森林的D类电压越下限影响因素分析方法,其特征在于,所述评估检验模型精度,包括:
以决定系数、平均绝对误差和均方差作为评估指标来评估检验模型精度。
7.根据权利要求1所述的基于随机森林的D类电压越下限影响因素分析方法,其特征在于,所述方法还包括:
对各所述影响因素对所述结果性指标的影响权重进行排序,得到相应的影响权重排序结果。
8.一种基于随机森林的D类电压越下限影响因素分析装置,其特征在于,包括:
确定模块,用于确定D类电压越下限的各影响因素;
采集模块,用于以D类电压越下限率作为结果性指标,采集所述影响因素和所述结果性指标的历史统计数据;
训练模块,用于根据所述历史统计数据,采用随机森林算法训练得到D类电压越下限分析模型;所述D类电压越下限分析模型为分析所述影响因素和所述结果性指标间的关系的随机森林关联模型;
预测模块,用于利用所述D类电压越下限分析模型预测各所述影响因素对所述结果性指标的影响权重,得到相应的D类电压越下限影响因素权重分析结果。
9.一种基于随机森林的D类电压越下限影响因素分析装置,其特征在于,包括:
存储器,用于存储指令;其中,所述指令用于实现如权利要求1-7任意一项所述的基于随机森林的D类电压越下限影响因素分析方法;
处理器,用于执行所述存储器中的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任意一项所述的基于随机森林的D类电压越下限影响因素分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310892717.0A CN116911634A (zh) | 2023-07-19 | 2023-07-19 | 基于随机森林的d类电压越下限影响因素分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310892717.0A CN116911634A (zh) | 2023-07-19 | 2023-07-19 | 基于随机森林的d类电压越下限影响因素分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116911634A true CN116911634A (zh) | 2023-10-20 |
Family
ID=88350713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310892717.0A Pending CN116911634A (zh) | 2023-07-19 | 2023-07-19 | 基于随机森林的d类电压越下限影响因素分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116911634A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118017522A (zh) * | 2024-04-08 | 2024-05-10 | 广东电网有限责任公司广州供电局 | 台区电压协同调控方法、装置、系统和存储介质 |
-
2023
- 2023-07-19 CN CN202310892717.0A patent/CN116911634A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118017522A (zh) * | 2024-04-08 | 2024-05-10 | 广东电网有限责任公司广州供电局 | 台区电压协同调控方法、装置、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950918B (zh) | 一种基于电力交易数据的市场风险评估方法 | |
CN108694023B (zh) | 一种马歇尔试件稳定度和流值的测试方法 | |
CN116911634A (zh) | 基于随机森林的d类电压越下限影响因素分析方法及装置 | |
CN116010884A (zh) | 基于主成分分析的SSA-LightGBM油浸式变压器的故障诊断方法 | |
CN111507504A (zh) | 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法 | |
CN112990330A (zh) | 用户用能异常数据检测方法及设备 | |
CN117591843A (zh) | 一种基于交叉验证机器学习的预测方法 | |
CN110927478B (zh) | 一种确定电力系统变压器设备的状态的方法和系统 | |
CN117473424A (zh) | 基于随机森林的变压器故障诊断方法、系统、设备及介质 | |
CN111091194B (zh) | 一种基于cavwnb_kl算法的操作系统识别方法 | |
CN112599194A (zh) | 甲基化测序数据的处理方法和装置 | |
CN110825583A (zh) | 一种针对云数据中心多指标融合的能效定性评估技术 | |
CN113035363B (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
CN115293609A (zh) | 人员安全责任制履职评价指标权重体系构建方法及系统 | |
CN111220565B (zh) | 一种基于cpls的红外光谱测量仪器标定迁移方法 | |
CN109871655B (zh) | 一种基于模糊等级评价的器件级产品试验应力确定方法 | |
Sestelo et al. | A method for determining groups in cumulative incidence curves in competing risk data | |
CN112434839B (zh) | 一种配电变压器重过载风险的预测方法及电子设备 | |
CN117012274B (zh) | 基于高通量测序识别基因缺失的装置 | |
Wang et al. | Feature Impact Assessment: A New Score to Identify Relevant Metabolomics Features in Artificial Neural Networks | |
CN117057621B (zh) | 投资成本和发电系统可靠性提升水平间的量化分析方法 | |
CN102457515A (zh) | 多维网络安全指标体系正确性评估方法 | |
CN117034206A (zh) | 配电网c类电压合格率影响因素的权重计算方法及装置 | |
Dimayacyac | Evaluating the adequacy of widely used phylogenetic models for gene expression evolution | |
CN117114468A (zh) | 一种配电系统的供电可靠性评估方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |