CN112700121A - 一种基于随机森林的配网故障风险等级预测方法 - Google Patents
一种基于随机森林的配网故障风险等级预测方法 Download PDFInfo
- Publication number
- CN112700121A CN112700121A CN202011600580.XA CN202011600580A CN112700121A CN 112700121 A CN112700121 A CN 112700121A CN 202011600580 A CN202011600580 A CN 202011600580A CN 112700121 A CN112700121 A CN 112700121A
- Authority
- CN
- China
- Prior art keywords
- distribution network
- weather
- risk level
- random forest
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000009826 distribution Methods 0.000 title claims abstract description 121
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012423 maintenance Methods 0.000 claims abstract description 19
- 238000007405 data analysis Methods 0.000 claims abstract description 5
- 238000012163 sequencing technique Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 239000000126 substance Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000013058 risk prediction model Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000001364 causal effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于随机森林的配网故障风险等级预测方法,包括:获取天气数据及配网与天气相关故障记录,并进行数据分析,得到预测周期、预测数据来源以及模型的输入、输出;基于随机森林建立配网故障风险等级预测模型,根据数据分析结果,预测与天气相关的配网故障风险等级;根据模型的预测结果和基于内部袋外估计值策略得到的天气特征的重要程度排序结果指导配网的运行和维护工作,完成配网故障风险等级预测。本发明可以实现恶劣天气下的配电网故障风险等级预测,可帮助电力公司在恶劣天气发生前主动调整配电网运行维护策略,有效预防因恶劣天气而导致的配网故障,同时提升配电网的运行维护效率,进一步保证配电网的供电可靠性。
Description
技术领域
本发明涉及配电网故障检测的技术领域,尤其涉及一种基于随机森林的配网故障风险等级预测方法。
背景技术
配电网的供电可靠性是保证电力用户体验的重要前提,配网设备故障对配电网供电可靠性的影响较大。配网设备的故障原因中,与恶劣天气有关的占大约70%,配网设备的环境大多复杂,且极易因天气变化而导致故障,比如大风容易吹起异物造成线路短路,降雨容易导致配电设备处于潮湿环境,雷电容易使配电设备击穿等,因此,恶劣天气是影响配电网供电可靠性的一大因素。
随着天气预报的精确度不断提高,通过天气预测参数对配网故障风险进行预测成为可能。相对于被动地应对配电网故障,实现恶劣天气下的配电网故障风险等级预测可在电力公司制定配电网的运维方案时提供参考,在恶劣天气发生前,针对性地调整配网设备的运维策略,能有效预防因恶劣天气而导致的配网大规模故障,为快速恢复供电奠定良好的基础,具有重大的经济和社会意义。
同时,由于配电网仍处于快速发展的阶段,其基层运维的管理工作还不够系统和完善,一线运维工作人员存在工作量大、理论知识不足的问题,导致有不能及时排查配网设备缺陷而造成配网设备故障的情况。如果能在维持现有配电网供电可靠性的前提下,针对一线运维工作人员的工作量和工作内容,优化基层运维管理工作,可在故障发生前完成对配网设备的运行维护,进一步保证配电网的供电可靠性。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:恶劣天气是影响配电网供电可靠性的一大因素,易造成配电网的大规模故障;同时,由于配电网一线运维工作人员工作量大、理论知识不足,导致不能及时排查设备缺陷而造成配网设备故障的情况,其配电网供电可靠性不能得到保证。
为解决上述技术问题,本发明提供如下技术方案:获取天气数据与天气相关故障记录,并进行数据分析,得到预测周期、预测数据来源以及模型的输入、输出;基于随机森林建立配网故障风险等级预测模型,根据所述天气数据及所述故障记录的分析结果,预测与天气相关的配网故障风险等级;根据所述模型的预测结果和基于内部袋外估计值策略得到的天气特征的重要程度排序结果指导配网的运行和维护工作,完成配网故障风险等级预测。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述天气数据与天气相关故障记录包括故障发生的日期和具体时间信息,故障发生的变电站和线路,故障的类型以及简单记录的天气现象。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述预测周期以及预测数据来源包括,所述配网故障预测的周期定义为一周;所述预测数据来源即天气参数的来源为中心气象站的观测数据。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述配网故障风险等级预测模型的输入变量包括五个天气特征,具体包括,特征0:平均风速;特征1:最大风速;特征2:平均降雨量;特征3:最大降雨量;特征4:一周内的雷电天数。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述配网故障风险等级预测模型的输出变量包括三个级别的故障风险水平,具体包括,定义故障风险等级为0,天气相关的故障数量为0;定义故障风险等级为1,天气相关的故障数量为1,2,3;定义故障风险等级为2,天气相关的故障数量为[4,14]。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述随机森林的分类/预测决策函数包括,
其中,N表示树的数目,hi(θi,x)表示一个学习器,θi是与x同分布的独立随机变量。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述随机森林收敛的裕度函数包括,
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述随机森林每个分支的分割标准包括,
其中,xi表示样本X的一个变量,xexpect表示分支节点的期望值。
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述泛化误差包括,
PE*=PX,Y(mg(X,Y)<0)
作为本发明所述的基于随机森林的配网故障风险等级预测方法的一种优选方案,其中:所述天气特征的重要程度排序包括,定义有M个特征值,袋外样本中的mth特征将随机移动,并且在一定的噪声下将袋外数据运行到相应的树中,保存袋外样本的分类结果;对于m=1,2,…,M,将袋外数据的分类结果与真实标签进行比较,给出错误分类率;计算各特征错误分类率与全部特征完好情况下错误分类率的增加值,其增加值的排序,决定了特征重要性的排序,若特征受噪声影响下对最终结果影响最大,则重要性最高。
本发明的有益效果:实现恶劣天气下的配电网故障风险等级预测,可帮助电力公司在恶劣天气发生前主动调整配电网运行维护策略,有效预防因恶劣天气而导致的配网故障,同时提升配电网的运行维护效率,进一步保证配电网的供电可靠性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种基于随机森林的配网故障风险等级预测方法的基本流程示意图;
图2为本发明一个实施例提供的一种基于随机森林的配网故障风险等级预测方法的2011年至2017年月均故障数量分布图;
图3为本发明一个实施例提供的一种基于随机森林的配网故障风险等级预测方法的周故障数量频率分布图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1~3,为本发明的一个实施例,提供了一种基于随机森林的配网故障风险等级预测方法,包括:
S1:获取天气数据与天气相关故障记录,并进行数据分析,得到预测周期、预测数据来源以及模型的输入、输出;
需要说明的是,天气数据与天气相关故障记录包括故障发生的日期和具体时间信息,故障发生的变电站和线路,故障的类型以及简单记录的天气现象;
其中,预测周期以及预测数据来源包括:
配网故障预测的周期定义为一周;预测数据来源即天气参数的来源为中心气象站的观测数据。
进一步的,配网故障风险等级预测模型的输入变量包括五个天气特征,具体包括:
特征0:平均风速;
特征1:最大风速;
特征2:平均降雨量;
特征3:最大降雨量;
特征4:一周内的雷电天数。
配网故障风险等级预测模型的输出变量包括三个级别的故障风险水平,具体包括,
定义故障风险等级为0,天气相关的故障数量为0;
定义故障风险等级为1,天气相关的故障数量为1,2,3;
定义故障风险等级为2,天气相关的故障数量为[4,14]。
具体的,为了进行恶劣天气下的配网故障数据分析,建立配网故障预测模型,从某市电力公司获取了其2011年至2017年的历史故障数据,包括了故障发生的日期和具体时间信息,故障的变电站和线路,故障的类型以及简单记录的天气现象;由于电力公司所记录的天气现象仅为定性描述,为建立准确的量化预测模型,从该市气象局获取了2011年至2017年的对应天气量化参数。
图2为2011年至2017年恶劣天气导致的月均故障数量分布图,从图中可以发现某市故障主要分布在8月份,其次为4月、5月和6月,与恶劣天气常出现的季节相一致。由图2可以看出,某市配网发生故障的频率较低,考虑到天气预报在一周内比较准确,因此将配网故障预测的周期选为一周。一般来说,在该市不同位置的气象站测得的天气参数会具有差异性,差异性的大小与城市的地理环境有关,考虑到该市的地理环境较为单一,各气象站的差异性较小,因此选择中心气象站的观测数据作为天气参数的来源。
根据对该市的历史故障数据调研,发现由恶劣天气引起的配网故障原因中,大风天气、降雨天气和雷电天气为主要的恶劣天气类别。最终挑选了五个天气特征作为恶劣天气下配网故障风险等级预测模型的输入变量,分别为:
特征0:平均风速;
特征1:最大风速;
特征2:平均降雨量;
特征3:最大降雨量;
特征4:一周内的雷电天数。
如图3所示,展示了2011年至2017年的以周为单位的恶劣天气引起的故障次数数据的频率分布,共364周,该图横轴为每周的故障数量,纵轴为该故障数量发生的频率。由图3可发现,在某市高风险故障少发,明显低于中低风险水平的故障,这种不平衡现象对预测算法的鲁棒性提出了挑战;为了使故障次数更加平滑,将故障次数划分为三个风险水平,这样有利于建立一个更加鲁棒的预测模型。从为电力公司提供有益的运维建议的角度,不同的故障风险水平代表着电力公司差异化的运维准备工作,综合考虑之后,对故障等级的分类如表1所示,模型输出也为预设的三个级别的故障风险水平。
表1:故障数量等级分类表.
故障风险等级 | 天气相关的故障数量 |
0 | 0 |
1 | 1,2,3 |
2 | [4,14] |
S2:基于随机森林建立配网故障风险等级预测模型,根据天气数据及故障记录的分析结果,预测与天气相关的配网故障风险等级;
需要说明的是,随机森林的分类/预测决策函数包括:
其中,N表示树的数目,hi(θi,x)表示一个学习器,θi是与x同分布的独立随机变量。
其中,随机森林收敛的裕度函数包括:
进一步的,随机森林每个分支的分割标准包括:
其中,xi表示样本X的一个变量,xexpect表示分支节点的期望值。
其中,泛化误差包括,
PE*=PX,Y(mg(X,Y)<0)
具体的,随机森林是由Breiman引入的机器学习技术。给定一个训练集,D=(X1,Y1),...,(Xp,Yp),其中X是一组输入向量数据,Y是一组预期响应变量。一对数据的独立联合分布P(X,Y)是未知的,X与Y之间的空间使用欧几里得距离度量。
随机森林的目标是去寻找一个决策函数,即r(x)=E[Y|X=x],其中d>2。决策函数根据给定的输入X,给出Y的分类/回归值;在随机森林中,使用多个基本学习器hi(θi,x)来计算决策函数,其中θi是与x同分布的独立随机变量,每一个学习器hi(θi,x)是一个分类/回归树,并且固定数目的树被集成进一个分类器/预测器,即构成了森林,最终随机森林的分类/预测决策函数通过汇总每个树的响应而获得,定义为:
其中,N表示树的数目。可以总结出随机森林是树结构分类器的集成,该集成的集合可以表示为{h(x,Θk),k=1,...},其中{Θk}为独立同分布的随机变量,同时,每棵树会为在输入为x时,给出一个它所确信的投票结果。给定一个分类器h1(x),h2(x),…,hk(x)的集合,随机森林收敛的裕度函数可以定义为:
PE*=PX,Y(mg(X,Y)<0)
在随机森林中,对于大量的树,它遵循着大数定律,并且随着树木的数目增加,几乎可以肯定所有的序列Θ1...PE*收敛为:
对于随机森林,可以从两个参数的角度得出泛化误差的上限,这两个参数可以衡量每个分类器的准确性和它们之间的相关性。
将随机森林的裕度函数定义为:
则分类器集合的强度可以表示为:
s=EX,Ymr(X,Y)
根据s≥0,由切比雪夫不等式可得:
PE*≤var(mr)/s2
当更清晰地表达mr的方差,使:
所以有:
其中,森林中树的数目的急剧增加将会带来如下的错误率:
ε(Y-r(x))2→ε(Y-ε0h(θ,x))2
其中,ε表示泛化误差,是一个相对于随机参数θ的期望。mg(X,Y)反映了当森林中有大量的树木时,随机森林可以防止过拟合,并且树木数目的增加可以提高性能,相反,数量少的树很危险,会带来更高的误差。
通过样本Xi在树枝中的传播,可以对数据集D中每一个独立的Xi进行分析。在此操作期间,在每个分支处进行顺序拆分,每个分支的分割标准可以定义为实际变量与预期变量之间的距离,表示为:
其中,Xi表示样本X的一个变量,xexpect表示该节点的期望值。如果满足分割标准,则实际变量将会传递到叶子上,在叶子上可以观察到针对于Xi的每一棵树的响应,在另一种情况下,该变量将会传递到另一个分支,然后另一种分割发生,自举样本的子部分未在树的所有分支上均满足分割条件,因此称为“袋外”,并且在分类/回归决策中未提供任何输入,在这种情况下,随机森林会选择Xi中变量的重要组合,PE*式中的期望系数通过训练过程中的迭代进行优化,优化的目标是最小化森林中所有树的平均误差:εr1/n∑i=1,...,Nεtree,其中εtree是单个树的误差,被定义为:
εtree=εθE(Y-h(θ,X))
进一步的,分析显示森林的平均误差满足:
εr<ρεtree
其中,ρ是Y-h(θi,X)和Y-h(θj,X)之间的加权相关性;根据序列收敛函数、裕度函数中的优化问题通过在输入数据中具有低相关性来解决,这是通过向随机森林注入两种相关性来提供的,一种是θi的随机选择,另一种是从训练集取出的Xi自举样本的随机选择。
随机森林训练的目的在于提高每一棵树的能力,通过调整树的深度和树的数目,可以达到更好的表现,本实施例所使用的随机森林基于python 3.6,随机森林的分类/回归的误差达到了稳定值。
S3:根据模型的预测结果和基于内部袋外估计值策略得到的天气特征的重要程度排序结果指导配网的运行和维护工作,完成配网故障风险等级预测;
需要说明的是,天气特征的重要程度排序包括:
定义有M个特征值,袋外样本中的mth特征将随机移动,并且在一定的噪声下将袋外数据运行到相应的树中,保存袋外样本的分类结果;
对于m=1,2,…,M,将袋外数据的分类结果与真实标签进行比较,给出错误分类率;
计算各特征错误分类率与全部特征完好情况下错误分类率的增加值,其增加值的排序,决定了特征重要性的排序,若特征受噪声影响下对最终结果影响最大,则重要性最高。
具体的,随机森林作为一种集成算法,最终的输出结果为综合所有决策树的结果而得。因此,其很难具备详细的解释性,但其仍具备在特征重要性分析上的简单解释机制。本文尝试探究发挥随机森林的解释性,在配电网故障风险等级预测中,了解提供预测精度的变量各自的作用。
此问题的解决是使用内部袋外估计值,并通过仅使用选定的变量重新运行进行验证。假设有M个特征值,袋外样本中的mth特征将随机移动,并且在一定的噪声下将袋外数据运行到相应的树中,保存袋外样本的分类结果。对于m=1,2,…,M,将袋外数据的分类结果与真实标签进行比较,给出错误分类率。然后,计算各特征错误分类率与全部特征完好情况下错误分类率的增加值,其增加值的排序,决定了特征重要性的排序。若特征受噪声影响下对最终结果影响最大,则重要性最高。
本发明对于恶劣天气下的配网故障风险预测,由于配网历史故障数据的质量有限,对算法的鲁棒性要求很高,随机森林方法是机器学习中的集成方法,具有高鲁棒性,还具有实现简单以及可以平衡误差等优点,本发明利用随机森林实现恶劣天气下的配电网故障风险等级预测,可有效预防因恶劣天气而导致的配网故障,同时提升配电网的运行维护效率,进一步保证配电网的供电可靠性,除此以外,随机森林方法还具备对各特征进行重要性排序的功能,可以通过对配网故障风险预测的研究,得到各天气特征对配网故障的风险程度重要性的排序。
实施例2
为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
本实施例采用某市2011年1月至2017年12月(共364周)的配网故障数据以及天气数据进行实验,为了验证基于随机森林的配网风险预测模型的优越性,将其与贝叶斯网络模型以及神经网络模型进行了对比,贝叶斯网络模型以及神经网络模型是风险预测研究中常用的模型。
贝叶斯网络(Bayesian Network,BN):BN广泛应用在预测问题中,其具有强大的因果推理能力,并且具备清晰的因果解释性,BN属于概率图模型,其根据概率图的拓扑模型代表随机变量的特征以及条件概率分布,在确定了BN模型的结构以及参数之后,可以通过使用BN完成配网风险等级预测的任务,在实验中,BN的结构为五个父节点指向一个子节点,其中,父节点代表天气特征,子节点代表故障风险等级。
神经网络(Neural Network,NN):神经网络是常用的对比模型,其具有强大的非线性表征能力,但容易因陷入过拟合而影响网络的表达效果,在本实施例中,在NN中使用了dropout技术来防止过拟合,NN的结构为输入层,十个隐藏层,输出层,激活函数选择了RELU函数。
训练集为2011年1月至2016年12月共312周的数据,测试集为2017年1月至12月共52周的数据,其中,随机森林模型的输入为特征0,特征1,特征2,特征3以及特征4五个天气特征,输出为三类故障风险等级。
在本实施例中,采用了四种指标来衡量预测结果的好坏。衡量指标包括准确度(Accuracy),精确度(Precision),召回率(Recall),F1分数;在二分类问题中,两类样本一般被命名为正样本与负样本,准确度代表正确预测的样本占总样本的比例,精确度表示预测为正的样本中正样本所占的比例,召回率代表着预测正确的正样本的比例,F1分数是精确度和召回率的调和平均值。所使用的四个衡量指标的公式如下:
其中,TP表示预测样本和实际样本均为正样本;FP表示预测样本为正,但实际样本为负;TN表示预测样本为负,但实际样本为正;FN表示预测样本和实际样本分别为负。
在多分类问题中,四个衡量指标的计算过程为首先计算每个类别的衡量指标值,再将每个类别的衡量指标值进行集成,集成方式本实施例中选择“macro”模式,即:计算每个类别指标,并找到其未加权平均值。
基于随机森林的配网风险等级预测模型与基于贝叶斯网络、神经网络的模型结果对比如表2所示,表2中对三个模型进行了多方位的比较,依次展示了三个模型在四个衡量指标下的指标值。
表2:天气相关故障预测对比实验结果表。
Precision | Recall | F1 score | Accuracy | |
NN | 0.735 | 0.714 | 0.724 | 0.714 |
BN | 0.622 | 0.788 | 0.695 | 0.788 |
RF | 0.955 | 0.796 | 0.868 | 0.962 |
由表2可知,RF在四个指标中均具有领先的表现,F1分数可以综合地衡量预测模型在每一风险等级中的预测表现,基于RF的预测模型具有最好的表现,相比BN模型高出17.3%,相比NN模型高出了14.4%,展示出了基于RF的预测模型强大的鲁棒性。
本发明提供了在恶劣天气下配电网故障风险等级的预测方法,根据某市配电网的历史故障数据,建立了基于随机森林的配网故障风险预测模型,并通过真实故障数据验证了预测模型的有效性和鲁棒性。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (10)
1.一种基于随机森林的配网故障风险等级预测方法,其特性在于,包括:
获取天气数据及配网与天气相关故障记录,并进行数据分析,得到预测周期、预测数据来源以及模型的输入、输出;
基于随机森林建立配网故障风险等级预测模型,根据所述天气数据及所述故障记录的分析结果,预测与天气相关的配网故障风险等级;
根据所述模型的预测结果和基于内部袋外估计值策略得到的天气特征的重要程度排序结果指导配网的运行和维护工作,完成配网故障风险等级预测。
2.如权利要求1所述的基于随机森林的配网故障风险等级预测方法,其特征在于:所述天气数据与天气相关故障记录包括故障发生的日期和具体时间信息,故障发生的变电站和线路,故障的类型以及简单记录的天气现象。
3.如权利要求2所述的基于随机森林的配网故障风险等级预测方法,其特征在于:所述预测周期以及预测数据来源包括,
所述配网故障预测的周期定义为一周;
所述预测数据来源即天气参数的来源为中心气象站的观测数据。
4.如权利要求1~3任一项所述的基于随机森林的配网故障风险等级预测方法,其特征在于:所述配网故障风险等级预测模型的输入变量包括五个天气特征,具体包括,
特征0:平均风速;
特征1:最大风速;
特征2:平均降雨量;
特征3:最大降雨量;
特征4:一周内的雷电天数。
5.如权利要求4所述的基于随机森林的配网故障风险等级预测方法,其特征在于:所述配网故障风险等级预测模型的输出变量包括三个级别的故障风险水平,具体包括,
定义故障风险等级为0,天气相关的故障数量为0;
定义故障风险等级为1,天气相关的故障数量为1,2,3;
定义故障风险等级为2,天气相关的故障数量为[4,14]。
9.如权利要求8所述的基于随机森林的配网故障风险等级预测方法,其特征在于:所述泛化误差包括,
PE*=PX,Y(mg(X,Y)<0)
10.如权利要求9所述的基于随机森林的配网故障风险等级预测方法,其特征在于:所述天气特征的重要程度排序包括,
定义有M个特征值,袋外样本中的mth特征将随机移动,并且在一定的噪声下将袋外数据运行到相应的树中,保存袋外样本的分类结果;
对于m=1,2,…,M,将袋外数据的分类结果与真实标签进行比较,给出错误分类率;
计算各特征错误分类率与全部特征完好情况下错误分类率的增加值,其增加值的排序,决定了特征重要性的排序,若特征受噪声影响下对最终结果影响最大,则重要性最高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011600580.XA CN112700121A (zh) | 2020-12-29 | 2020-12-29 | 一种基于随机森林的配网故障风险等级预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011600580.XA CN112700121A (zh) | 2020-12-29 | 2020-12-29 | 一种基于随机森林的配网故障风险等级预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112700121A true CN112700121A (zh) | 2021-04-23 |
Family
ID=75512073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011600580.XA Withdrawn CN112700121A (zh) | 2020-12-29 | 2020-12-29 | 一种基于随机森林的配网故障风险等级预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112700121A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113408656A (zh) * | 2021-07-14 | 2021-09-17 | 广东电网有限责任公司广州供电局 | 一种适用于由气象变化引起电力故障级别分类方法 |
CN113466627A (zh) * | 2021-07-09 | 2021-10-01 | 广东电网有限责任公司广州供电局 | 一种适用于恶劣天气引起的电网故障预测方法 |
CN116187583A (zh) * | 2023-04-17 | 2023-05-30 | 国网黑龙江省电力有限公司齐齐哈尔供电公司 | 配电网大数据故障预测方法 |
CN117849907A (zh) * | 2024-03-07 | 2024-04-09 | 江苏省气象台 | 基于多源数据的气象灾害靶向预警方法及系统 |
-
2020
- 2020-12-29 CN CN202011600580.XA patent/CN112700121A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113466627A (zh) * | 2021-07-09 | 2021-10-01 | 广东电网有限责任公司广州供电局 | 一种适用于恶劣天气引起的电网故障预测方法 |
CN113408656A (zh) * | 2021-07-14 | 2021-09-17 | 广东电网有限责任公司广州供电局 | 一种适用于由气象变化引起电力故障级别分类方法 |
CN113408656B (zh) * | 2021-07-14 | 2022-12-27 | 广东电网有限责任公司广州供电局 | 一种适用于由气象变化引起电力故障级别分类方法 |
CN116187583A (zh) * | 2023-04-17 | 2023-05-30 | 国网黑龙江省电力有限公司齐齐哈尔供电公司 | 配电网大数据故障预测方法 |
CN116187583B (zh) * | 2023-04-17 | 2023-11-03 | 国网黑龙江省电力有限公司齐齐哈尔供电公司 | 配电网大数据故障预测方法 |
CN117849907A (zh) * | 2024-03-07 | 2024-04-09 | 江苏省气象台 | 基于多源数据的气象灾害靶向预警方法及系统 |
CN117849907B (zh) * | 2024-03-07 | 2024-05-24 | 江苏省气象台 | 基于多源数据的气象灾害靶向预警方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112700121A (zh) | 一种基于随机森林的配网故障风险等级预测方法 | |
CN110542819B (zh) | 一种基于半监督dbnc的变压器故障类型诊断方法 | |
CN106650767B (zh) | 基于聚类分析和实时校正的洪水预报方法 | |
CN109214604A (zh) | 基于Adaboost的输变电设备的雾霾灾害风险预测方法及系统 | |
CN110910026B (zh) | 一种跨省输电线路线损智能管理与决策方法及系统 | |
CN105956722A (zh) | 一种短期风电功率的预测方法及装置 | |
CN112116160A (zh) | 一种基于优化神经网络改进元胞自动机的重要输电通道灾害监测方法 | |
Ueno et al. | Computerized adaptive testing based on decision tree | |
CN110866366A (zh) | 一种基于XGBoost算法的含PHEV光伏微网孤岛检测法 | |
CN110689068A (zh) | 一种基于半监督svm的变压器故障类型诊断方法 | |
CN113095648A (zh) | 基于数据驱动的配电网故障停电风险指标评估方法及系统 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN112365155A (zh) | 一种员工技能水平多维度测评方法 | |
CN116842337A (zh) | 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法 | |
CN113466627A (zh) | 一种适用于恶劣天气引起的电网故障预测方法 | |
CN115881238A (zh) | 模型训练方法、变压器故障诊断方法及相关装置 | |
Gensler et al. | An analog ensemble-based similarity search technique for solar power forecasting | |
CN114330486A (zh) | 基于改进Wasserstein GAN的电力系统不良数据辨识方法 | |
CN116663393A (zh) | 一种基于随机森林的配电网持续高温下故障风险等级预测方法 | |
CN107977727B (zh) | 一种基于社会发展和气候因素预测光缆网阻断概率的方法 | |
CN116151799A (zh) | 一种基于bp神经网络的配电线路多工况故障率快速评估方法 | |
CN115345343A (zh) | 一种供水管网浊度的预测方法及预测装置 | |
CN113408656B (zh) | 一种适用于由气象变化引起电力故障级别分类方法 | |
CN115409317A (zh) | 基于特征选择和机器学习的台区线损检测方法及装置 | |
CN113466630A (zh) | 一种基于rsspn模型的配电网故障原因分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210423 |
|
WW01 | Invention patent application withdrawn after publication |