CN109934489B - 一种电力设备状态评价方法 - Google Patents

一种电力设备状态评价方法 Download PDF

Info

Publication number
CN109934489B
CN109934489B CN201910185935.4A CN201910185935A CN109934489B CN 109934489 B CN109934489 B CN 109934489B CN 201910185935 A CN201910185935 A CN 201910185935A CN 109934489 B CN109934489 B CN 109934489B
Authority
CN
China
Prior art keywords
sample
node
forest
random
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910185935.4A
Other languages
English (en)
Other versions
CN109934489A (zh
Inventor
路军
黄达文
孙仝
史守圆
余涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Guangdong Power Grid Co Ltd
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
South China University of Technology SCUT
Guangdong Power Grid Co Ltd
Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Guangdong Power Grid Co Ltd, Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical South China University of Technology SCUT
Priority to CN201910185935.4A priority Critical patent/CN109934489B/zh
Publication of CN109934489A publication Critical patent/CN109934489A/zh
Application granted granted Critical
Publication of CN109934489B publication Critical patent/CN109934489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及电力系统中电力设备的状态评价方法,更具体地,涉及基于深度深林的电力设备状态评价方法。本发明提供基于概率权重深度森林的电力设备状态评价方法可以较好地处理训练样本及预测样本中的缺失项,概率权重的缺失项处理方法相比于均值填充可以实现更高的准确率,本发明方法在处理高比例含缺失项的数据方面表现出了优势。

Description

一种电力设备状态评价方法
技术领域
本发明涉及电力系统中电力设备的状态评价方法,更具体地,涉及基于深度深林的电力设备状态评价方法。
背景技术
电力设备及时有效的检修维护是保障电力系统安全稳定运行的重要手段。为追求经济性和可靠性的平衡,电力设备检修策略从原始的事故检修、定期检修,发展到依据各设备健康情况按需要安排检修计划的状态检修,较大提高了设备维护效率。状态检修依赖于频繁的状态评价信息,特别是配网设备由于数量多、分布广,对其进行状态评价需要消耗大量的人力物力,故有些单位每年只对配电设备进行1次状态评价,难以及时根据设备健康状况调整检修安排,使得状态检修策略难以应用。但随着传感技术和无线通信技术的发展与成本的下降,各类监测手段也逐渐应用到配电设备上,丰富的监测数据给配电设备的在线状态评价提供了可能。
由于电力设备的状态评价需要综合多方面的信息数据,其间联系非常复杂,目前主要方法是基于层次分析法和D-S证据理论确定设备各项指标权重并对各项指标进行综合,如文献“梁永亮,李可军,牛林,等.变压器状态评估多层次不确定模型[J].电力系统自动化,2013,37(22):73-78.”和“翟章良,周力行.基于状态量权重的变压器状态评价系统研制[J].智慧电力,2018,46(9):88-94.”。然而,层次分析法依赖大量的专家经验,随着电力设备监测信息种类的不断增加其应用难度也不断提高。利用机器学习方法发掘设备状态与各监测量之间的关系可以解决这个问题。
目前,kNN、SVM和神经网络等机器学习已经在电力系统相关研究中得到了广泛的应用。然而,电力设备监测渐进式的发展过程使得新的监测量在某一时刻增加进来,而在此前的数据记录中这个监测量是缺失的,这给机器学习方法带来了问题。由于这种情况下含缺失项的样本占比较大,将这些样本直接剔除显然是不合适的,而常用的均值填充的数据预处理方法效果也不理想。
发明内容
本发明为解决电力设备在线监测技术渐进式发展过程中传统的状态评价方法应用困难,以及渐进式发展自然形成的大量历史样本数据缺失的问题,提高基于机器学习的配电设备状态评价方法处理缺失数据的效果,以采用概率权重处理含缺失项样本的决策树作为基本分类器,构成深度森林对包含电力设备监测信息和状态评价结果的训练样本进行学习并用训练好的深度森林模型基于新样本的电力设备监测信息给出相应的状态评价结果。本发明允许训练样本和新样本中的电力设备监测信息部分项目缺失,适应电力设备监测技术的不断发展。
本发明的技术方案是:
一种电力设备状态评价方法,用于实现基于数据驱动的电力设备状态评价,并提高样本中存在缺失值时的算法效果,该方法包括以下步骤:
步骤1:获取训练样本,每条训练样本由电力设备监测数据和电力设备状态评价结果组成;
步骤2:采用深度森林算法对包含电力设备监测信息和状态评价结果的训练样本进行学习;
步骤3:用训练好的深度森林模型对要进行状态评价的电力设备的电力设备监测信息给出相应的状态评价结果。
进一步,本发明提出的基于深度森林的电力设备状态评价方法以含概率权重的决策树为基本分类器,将若干决策树并联组成随机森林作为深度森林每一层的分类器,并将随机森林逐级串联组成深度森林。
进一步,本发明以采用概率权重处理含缺失项样本的决策树作为基本分类器,其原理如下:
设样本集D如下;
Figure BDA0001992846240000021
其中,元素xm,n代表第m个样本的第n个属性,ym为样本数据的分类标签,
ym∈{c1,c2,...,cK};
对于一个节点包含的样本集,要选择一个最佳的划分方法将其划分成两个
样本类别一致性更高的子集形成两个子节点,由于样本属性为连续值,要
同时确定最佳的划分属性和划分值,所以采用信息熵作为描述样本集合纯
度的指标,如下所示;
Figure BDA0001992846240000031
Figure BDA0001992846240000032
其中,式中Pk为第k类样本所占的比重,Wm为样本m的权重。
进一步,决策树训练过程如下:
步骤A:初始化
设置树的最大深度为DPmax,创建树根节点root并使其包含所有的学习样本,初始化各样本的权重均为1,如下所示:
[w1,w2,K,wM]=[1,1,K,1]
设置当前待划分节点node=root;
步骤B:确定划分属性和划分点
设当前待划分节点中包含的样本集为D,对属性n进行遍历,寻找最大信息增益的划分属性ns和划分点vs,其中Dn为D中属性n不为空的样本集,
Figure BDA0001992846240000036
为D中属性n缺失的样本集,ρ为属性n未缺失的样本在D中占的比重,α=1或2,分别代表左分枝和右分枝,Dn,1代表左分枝样本集合,Dn,2代表右分枝样本集合,r1和r2分别代表左分枝样本和右分枝样本在Dn中占的比重,则:
Figure BDA0001992846240000033
Figure BDA0001992846240000034
Figure BDA0001992846240000035
Dn,1={dm|xm,n≤vn},Dn,2={dm|xm,n>vn}
Figure BDA0001992846240000041
连续属性划分点的选取:设样本集中待划分属性共有K个不同取值,从小到大排序为{X1,X2,…,Xk},则划分点候选集合为:
Figure BDA0001992846240000042
Figure BDA0001992846240000043
步骤C:创建分支节点
设当前待划分节点为node,记录其划分属性和划分点:
node.ns=ns,node.vs=vs
创建左右分枝节点node1和node2,设置两个节点的样本集D如下式;
Figure BDA0001992846240000044
Figure BDA0001992846240000045
设置新节点中的样本权重和深度,其中α=1,2;
Figure BDA0001992846240000046
nodeα.depth=node.depth+1
检查树的深度,若nodeα.depth=DPmax,设置nodeα为叶子节点,不再进行划分;若nodeα.depth<DPmax,检查新节点的纯度,若节点样本全部为同一类则设为叶子节点;
对于nodeα,若为叶子节点,计算各分类概率向量prob;
nodeα.prob=[p1,p2,...,pk]
Figure BDA0001992846240000047
若非叶子节点,对该节点应用上述方法进行划分。
进一步,含概率权重决策树对新样本的预测方法为:
在训练完成后,对于输入的新样本则从树的根节点开始,通过对比样本在节点划分属性的值与节点划分点之间的关系,将样本划分到子节点中,直到样本被划分到叶子节点中为止;以node.prob作为决策树的预测输出prob,若预测样本在节点划分属性上缺失,则将其同时划分到两个分枝节点中,并将两个节点的prob取均值作为输出,如此递归直至叶子节点。
进一步,本发明以各决策树给出的分类概率向量的平均值作为随机深林的最终输出,随机森林的随机性体现在两个方面,设随机深林中包含NT棵决策树:
第一方面:随机深林采用Bootstrap重采样法从原始样本集D中有放回地进行随机采样,生成每棵树的输入样本集D1,D2,…,DNT
第二方面:在树的生成过程中,划分属性并不从所有属性中选取,而是先随机选出NP个候选属性,然后再从中选取信息增益最大的属性对样本进行划分;
对于预测样本,随机深林的输出如下:
Figure BDA0001992846240000051
其中probi为随机深林中第i棵决策权输出的概率向量;
当设置随机候选属性个数NP=1时,树的划分就是完全随机的,此时随机深林变成完全随机树森林或极端随机森林。
本发明以深度森林为最终的模型实现电力设备状态评价的学习和分类。
进一步,深度森林是一种基于决策树的深度学习算法,原始的深度森林包含多粒度扫描和级联森林两个阶段,本方法的深度深林只采用级联森林部分:
级联森林的每一层都是由若干决策树森林组合而成的,采用1个随机森林和1个极度随机森林作为级联森林的一层,设样本标签类别共有k个,每个样本包含n个属性,对任一样本,将其所有属性构成的n维向量输入到第1层级联森林中,层中的随机森林和极度随机森林分别输出样本属于所有标签类别的k维概率向量,将随机森林和极度随机森林输出的2个k维向量及样本原有n维属性向量拼接成n+2k的属性向量作为下一层级联森林的输入,如此递进直至最深的第NF层,对第NF层中随机森林和极度随机森林的输出取平均值,取其中概论最大的标签类别作为最终的分类结果。
进一步,深度森林的训练过程采用逐层训练的方法,完成一层的训练后,与预测过程相似,将每个训练样本的n个属性与本层对该样本的2k维分类概率拼接后作为下一层的训练样本,深度森林的层数可以自适应而不需要预先设定,这减少了人为调参的困难,级联森林层数的确定方法是:留出一部分训练样本作为测试集,每训练一层就利用测试集计算模型的预测精度,若连续NTM次新增层预测精度都不能提高则停止训练,取预测精度最高的层数为NF。
本发明的有益效果是:基于概率权重深度森林的方法可以较好地处理训练样本及预测样本中的缺失项,概率权重的缺失项处理方法相比于均值填充可以实现更高的准确率,本发明方法在处理高比例含缺失项的数据方面表现出了优势。随着配电设备在线技术的不断应用发展,数据样本中属性值缺失问题会自然形成,本发明提出的方法可在一定程度上提高对这些数据的利用效率。
附图说明
图1是决策树含概率权重的划分过程示意图。
图2是随机森林决策过程示意图。
图3是级联森林结构示意图。
图4是实施例2中算例测试结果示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明,不能理解为对本专利的限制。
实施例1:
为解决电力设备在线监测技术渐进式发展过程中传统的状态评价方法应用困难,以及渐进式发展自然形成的大量历史样本数据缺失的问题,本发明提出基于深度森林的电力设备状态评价方法,用于实现基于数据驱动的电力设备状态评价,并提高样本中存在缺失值时的算法效果。
本发明提出一种基于深度森林的电力设备状态评价方法,该方法包括以下步骤:
步骤1:获取训练样本,每条训练样本由电力设备监测数据和电力设备状态评价结果组成;
步骤2:采用深度森林算法对包含电力设备监测信息和状态评价结果的训练样本进行学习;
步骤3:用训练好的深度森林模型对要进行状态评价的电力设备的电力设备监测信息给出相应的状态评价结果。
本发明提出的基于深度森林的电力设备状态评价方法以含概率权重的决策树为基本分类器,将若干决策树并联组成随机森林作为深度森林每一层的分类器,并将随机森林逐级串联组成深度森林。
本发明以采用概率权重处理含缺失项样本的决策树作为基本分类器,其原理如下:
设样本集D如下;
Figure BDA0001992846240000071
其中,元素xm,n代表第m个样本的第n个属性,ym为样本数据的分类标签,ym∈{c1,c2,...,cK};
对于一个节点包含的样本集,要选择一个最佳的划分方法将其划分成两个样本类别一致性更高的子集形成两个子节点,由于样本属性为连续值,要同时确定最佳的划分属性和划分值,所以采用信息熵作为描述样本集合纯度的指标,如下所示;
Figure BDA0001992846240000072
Figure BDA0001992846240000073
其中,式中Pk为第k类样本所占的比重,Wm为样本m的权重。
决策树训练过程如下:
步骤A:初始化
设置树的最大深度为DPmax,创建树根节点root并使其包含所有的学习样本,初始化各样本的权重均为1,如下所示:
[w1,w2,K,wM]=[1,1,K,1]
设置当前待划分节点node=root;
步骤B:确定划分属性和划分点
设当前待划分节点中包含的样本集为D,对属性n进行遍历,寻找最大信息增益的划分属性ns和划分点vs,其中Dn为D中属性n不为空的样本集,
Figure BDA0001992846240000087
为D中属性n缺失的样本集,ρ为属性n未缺失的样本在D中占的比重,α=1或2,分别代表左分枝和右分枝,Dn,1代表左分枝样本集合,Dn,2代表右分枝样本集合,r1和r2分别代表左分枝样本和右分枝样本在Dn中占的比重,则:
Figure BDA0001992846240000081
Figure BDA0001992846240000082
Figure BDA0001992846240000083
Dn,1={dm|xm,n≤vn},Dn,2={dm|xm,n>vn}
Figure BDA0001992846240000084
连续属性划分点的选取:设样本集中待划分属性共有K个不同取值,从小到大排序为{X1,X2,…,Xk},则划分点候选集合为:
Figure BDA0001992846240000085
Figure BDA0001992846240000086
步骤C:创建分支节点
含概率权重的样本划分过程如图1所示。设当前待划分节点为node,记录其划分属性和划分点:
node.ns=ns,node.vs=vs
创建左右分枝节点node1和node2,设置两个节点的样本集D如下式;
Figure BDA0001992846240000091
Figure BDA0001992846240000092
设置新节点中的样本权重和深度,其中α=1,2;
Figure BDA0001992846240000093
nodeα.depth=node.depth+1
检查树的深度,若nodeα.depth=DPmax,设置nodeα为叶子节点,不再进行划分;若nodeα.depth<DPmax,检查新节点的纯度,若节点样本全部为同一类则设为叶子节点;
对于nodeα,若为叶子节点,计算各分类概率向量prob;
nodeα.prob=[p1,p2,...,pk]
Figure BDA0001992846240000094
若非叶子节点,对该节点应用上述方法进行划分。
含概率权重决策树对新样本的预测方法为:
在训练完成后,对于输入的新样本则从树的根节点开始,通过对比样本在节点划分属性的值与节点划分点之间的关系,将样本划分到子节点中,直到样本被划分到叶子节点中为止;以node.prob作为决策树的预测输出prob,若预测样本在节点划分属性上缺失,则将其同时划分到两个分枝节点中,并将两个节点的prob取均值作为输出,如此递归直至叶子节点。
本发明以随机森林(Random Forest,RF)作为深度森林每一层的分类器。
本发明以各决策树给出的分类概率向量的平均值作为随机深林的最终输出,如图2所示,随机森林的随机性体现在两个方面,设随机深林中包含NT棵决策树:
第一方面:随机深林采用Bootstrap重采样法从原始样本集D中有放回地进行随机采样,生成每棵树的输入样本集D1,D2,…,DNT
第二方面:在树的生成过程中,划分属性并不从所有属性中选取,而是先随机选出NP个候选属性,然后再从中选取信息增益最大的属性对样本进行划分;
对于预测样本,随机深林的输出如下:
Figure BDA0001992846240000101
其中probi为随机深林中第i棵决策权输出的概率向量;
当设置随机候选属性个数NP=1时,树的划分就是完全随机的,此时随机深林变成完全随机树森林(Completely Random Tree Forest)或极端随机森林(Extremely RandomForest,ERF)。
本发明以深度森林为最终的模型实现电力设备状态评价的学习和分类。
深度森林(Deep Forest,DF)是一种基于决策树的深度学习算法,原始的深度森林包含多粒度扫描和级联森林两个阶段,本方法的深度深林只采用级联森林部分:
级联森林的每一层都是由若干决策树森林组合而成的,采用1个随机森林和1个极度随机森林作为级联森林的一层,级联森林的主要思想如图3所示,设样本标签类别共有k个,每个样本包含n个属性,对任一样本,将其所有属性构成的n维向量输入到第1层级联森林中,层中的随机森林(RF)和极度随机森林(ERF)分别输出样本属于所有标签类别的k维概率向量,将随机森林(RF)和极度随机森林(ERF)输出的2个k维向量及样本原有n维属性向量拼接成n+2k的属性向量作为下一层级联森林的输入,如此递进直至最深的第NF层,对第NF层中随机森林(RF)和极度随机森林(ERF)的输出取平均值,取其中概论最大的标签类别作为最终的分类结果。
深度森林的训练过程采用逐层训练的方法,完成一层的训练后,与预测过程相似,将每个训练样本的n个属性与本层对该样本的2k维分类概率拼接后作为下一层的训练样本,深度森林的层数可以自适应而不需要预先设定,这减少了人为调参的困难,级联森林层数的确定方法是:留出一部分训练样本作为测试集,每训练一层就利用测试集计算模型的预测精度,若连续NTM次新增层预测精度都不能提高则停止训练,取预测精度最高的层数为NF。
实施例2:
下面的实施例进一步说明了本发明的具体应用方法。
在本实施例中,对于变压器可获取监测信息种类如下表所示。
表1算例中包含的数据种类
Figure BDA0001992846240000111
利用本发明的方法基于上述数据对变压器进行状态评价的步骤为:
步骤1:首先获取学习样本,学习样本中包括上表中的监测信息数据以及状态评价结果,其中状态评价结果为“正常状态、注意状态、紧急状态”之一;
步骤2:利用本发明提出的深度森林模型对学习样本进行学习;
步骤3:利用步骤2中训练好的模型对要进行状态评价的样本数据进行分类,得到状态评价结果。
下面的算例体现了本发明的效果。利用文献“SUN Lingjie,MA Zhao,SHANGYuwei,et al.Research on multi-attribute decision-making in conditionevaluation for power transformer using fuzzy AHP and modified weightedaveraging combination[J].IET Generation,Transmission&Distribution.2016,10(15):3855-3864.”给出的现场实测的20条变压器多源监测数据及状态评价结果。原文中状态评价等级分为“Excellent、Good、Moderate、Poor、Worst”5个等级,由于样本量有限,本算例对分类等级合并成三类,即“正常状态、注意状态、紧急状态”,其中正常状态对应前3个等级,注意状态和紧急状态对应后2个等级。首先对所有样本进行随机排序,按照表2对样本的属性值进行保留和删除(“+”表示保留,“*”表示删除),以其中前15个样本为训练集,后5个样本为测试集构成一次测试算例输入深度森林中进行测试。如此进行50次,所得结果如图4所示。从图4中可以看出,本发明采用的概率权重处理缺失值的方法相对于用平均值填充缺失值来说最终的准确率得到了提高,证明了本发明算法在处理含缺失项数据方面的优越性。
表2算例数据缺失情况
Figure BDA0001992846240000121
同时,结合表2可以看出,本算例中训练集和测试集中都包含了缺失项,其中实验数据在装备了温度监测和DGA监测时大量缺失,表明随着设备监测手段的丰富,本文方法可以减少对一些获取不便的数据的依赖,更好地适应配电设备监测的发展。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (1)

1.一种电力设备状态评价方法,其特征在于,用于实现基于数据驱动的电力设备状态评价,并提高样本中存在缺失值时的算法效果,该方法包括以下步骤:
步骤1:获取训练样本,每条训练样本由电力设备监测数据和电力设备状态评价结果组成;
步骤2:采用深度森林算法对包含电力设备监测信息和状态评价结果的训练样本进行学习;
步骤3:用训练好的深度森林模型对要进行状态评价的电力设备的电力设备监测信息给出相应的状态评价结果;
其中,电力设备状态评价方法以含概率权重的决策树为基本分类器,将若干决策树并联组成随机森林作为深度森林每一层的分类器,并将随机森林逐级串联组成深度森林;
以采用概率权重处理含缺失项样本的决策树作为基本分类器,其原理如下:设样本集D如下;
Figure FDA0002817042840000011
其中,元素xm,n代表第m个样本的第n个属性,ym为样本数据的分类标签,ym∈{c1,c2,...,cK};
对于一个节点包含的样本集,要选择一个最佳的划分方法将其划分成两个样本类别一致性更高的子集形成两个子节点,由于样本属性为连续值,要同时确定最佳的划分属性和划分值,所以采用信息熵作为描述样本集合纯度的指标,如下所示;
Figure FDA0002817042840000012
Figure FDA0002817042840000013
其中,式中Pk为第k类样本所占的比重,Wm为样本m的权重;
决策树训练过程如下:
步骤A:初始化
设置树的最大深度为DPmax,创建树根节点root并使其包含所有的学习样本,初始化各样本的权重均为1,如下所示:
[w1,w2,K,wM]=[1,1,K,1]
设置当前待划分节点node=root;
步骤B:确定划分属性和划分点
设当前待划分节点中包含的样本集为D,对属性n进行遍历,寻找最大信息增益的划分属性ns和划分点vs,其中Dn为D中属性n不为空的样本集,
Figure FDA0002817042840000021
为D中属性n缺失的样本集,ρ为属性n未缺失的样本在D中占的比重,α=1或2,分别代表左分枝和右分枝,Dn,1代表左分枝样本集合,Dn,2代表右分枝样本集合,r1和r2分别代表左分枝样本和右分枝样本在Dn中占的比重,则:
Figure FDA0002817042840000022
Figure FDA0002817042840000023
Figure FDA0002817042840000024
Dn,1={dm|xm,n≤vn},Dn,2={dm|xm,n>vn}
Figure FDA0002817042840000025
连续属性划分点的选取:设样本集中待划分属性共有K个不同取值,从小到大排序为{X1,X2,…,Xk},则划分点候选集合为:
Figure FDA0002817042840000026
Figure FDA0002817042840000027
步骤C:创建分支节点
设当前待划分节点为node,记录其划分属性和划分点:
node.ns=ns,node.vs=vs
创建左右分枝节点node1和node2,设置两个节点的样本集D如下式;
Figure FDA0002817042840000031
Figure FDA0002817042840000032
设置新节点中的样本权重和深度,其中α=1,2;
Figure FDA0002817042840000033
nodeα.depth=node.depth+1
检查树的深度,若nodeα.depth=DPmax,设置nodeα为叶子节点,不再进行划分;若nodeα.depth<DPmax,检查新节点的纯度,若节点样本全部为同一类则设为叶子节点;
对于nodeα,若为叶子节点,计算各分类概率向量prob;
nodeα.prob=[p1,p2,...,pk]
Figure FDA0002817042840000034
若非叶子节点,对该节点应用上述方法进行划分;
含概率权重决策树对新样本的预测方法为:
在训练完成后,对于输入的新样本则从树的根节点开始,通过对比样本在节点划分属性的值与节点划分点之间的关系,将样本划分到子节点中,直到样本被划分到叶子节点中为止;以node.prob作为决策树的预测输出prob,若预测样本在节点划分属性上缺失,则将其同时划分到两个分枝节点中,并将两个节点的prob取均值作为输出,如此递归直至叶子节点;
以各决策树给出的分类概率向量的平均值作为随机深林的最终输出,随机森林的随机性体现在两个方面,设随机深林中包含NT棵决策树:
第一方面:随机深林采用Bootstrap重采样法从原始样本集D中有放回地进行随机采样,生成每棵树的输入样本集D1,D2,…,DNT
第二方面:在树的生成过程中,划分属性并不从所有属性中选取,而是先随机选出NP个候选属性,然后再从中选取信息增益最大的属性对样本进行划分;
对于预测样本,随机深林的输出如下:
Figure FDA0002817042840000041
其中probi为随机深林中第i棵决策权输出的概率向量;
当设置随机候选属性个数NP=1时,树的划分就是完全随机的,此时随机深林变成完全随机树森林或极端随机森林;
深度森林是一种基于决策树的深度学习算法,原始的深度森林包含多粒度扫描和级联森林两个阶段,本方法的深度深林只采用级联森林部分:
级联森林的每一层都是由若干决策树森林组合而成的,采用1个随机森林和1个极度随机森林作为级联森林的一层,设样本标签类别共有k个,每个样本包含n个属性,对任一样本,将其所有属性构成的n维向量输入到第1层级联森林中,层中的随机森林和极度随机森林分别输出样本属于所有标签类别的k维概率向量,将随机森林和极度随机森林输出的2个k维向量及样本原有n维属性向量拼接成n+2k的属性向量作为下一层级联森林的输入,如此递进直至最深的第NF层,对第NF层中随机森林和极度随机森林的输出取平均值,取其中概论最大的标签类别作为最终的分类结果;
深度森林的训练过程采用逐层训练的方法,完成一层的训练后,与预测过程相似,将每个训练样本的n个属性与本层对该样本的2k维分类概率拼接后作为下一层的训练样本,深度森林的层数自适应而不需要预先设定,这减少了人为调参的困难,级联森林层数的确定方法是:留出一部分训练样本作为测试集,每训练一层就利用测试集计算模型的预测精度,若连续NTM次新增层预测精度都不能提高则停止训练,取预测精度最高的层数为NF。
CN201910185935.4A 2019-03-12 2019-03-12 一种电力设备状态评价方法 Active CN109934489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910185935.4A CN109934489B (zh) 2019-03-12 2019-03-12 一种电力设备状态评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910185935.4A CN109934489B (zh) 2019-03-12 2019-03-12 一种电力设备状态评价方法

Publications (2)

Publication Number Publication Date
CN109934489A CN109934489A (zh) 2019-06-25
CN109934489B true CN109934489B (zh) 2021-03-02

Family

ID=66987046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910185935.4A Active CN109934489B (zh) 2019-03-12 2019-03-12 一种电力设备状态评价方法

Country Status (1)

Country Link
CN (1) CN109934489B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160439A (zh) * 2019-12-24 2020-05-15 西北工业大学 一种无人机系统自主能力评价方法、系统及可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956798A (zh) * 2016-06-20 2016-09-21 华北电力大学 一种基于稀疏随机森林的配网设备运行状态评估方法
US10063582B1 (en) * 2017-05-31 2018-08-28 Symantec Corporation Securing compromised network devices in a network
CN109102032A (zh) * 2018-09-03 2018-12-28 中国水利水电科学研究院 一种基于深度森林和自编码的泵站机组诊断方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868773A (zh) * 2016-03-23 2016-08-17 华南理工大学 一种基于层次随机森林的多标签分类方法
CN108776683B (zh) * 2018-06-01 2022-01-21 广东电网有限责任公司 一种基于孤立森林算法和神经网络的电力运维数据清洗方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956798A (zh) * 2016-06-20 2016-09-21 华北电力大学 一种基于稀疏随机森林的配网设备运行状态评估方法
US10063582B1 (en) * 2017-05-31 2018-08-28 Symantec Corporation Securing compromised network devices in a network
CN109102032A (zh) * 2018-09-03 2018-12-28 中国水利水电科学研究院 一种基于深度森林和自编码的泵站机组诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
粒子群优化加权随机森林算法研究;程学新;《中国优秀硕士学位论文全文数据库信息科技辑》;20180215(第2期);第I140-335页 *

Also Published As

Publication number Publication date
CN109934489A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN108829763B (zh) 一种基于深度神经网络的影评网站用户的属性预测方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN105335752A (zh) 一种基于主成分分析多变量决策树的接线方式识别方法
CN104702465B (zh) 一种并行网络流量分类方法
CN112791997B (zh) 一种退役电池梯次利用筛选的方法
CN106127229A (zh) 一种基于时间序列类别的计算机数据分类方法
CN112734154B (zh) 一种基于模糊数相似度的多因素舆情风险评估方法
CN105471647B (zh) 一种电力通信网故障定位方法
CN110659367B (zh) 文本分类号的确定方法、装置以及电子设备
CN111967675A (zh) 光伏发电量的预测方法以及预测装置
CN117556369B (zh) 一种动态生成的残差图卷积神经网络的窃电检测方法及系统
CN115374106B (zh) 一种基于知识图谱技术的数据智能分级方法
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN109934489B (zh) 一种电力设备状态评价方法
CN106611016A (zh) 一种基于可分解词包模型的图像检索方法
Ullah et al. Adaptive data balancing method using stacking ensemble model and its application to non-technical loss detection in smart grids
CN109376966A (zh) 一种指标体系优化方法及装置
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
CN112990776A (zh) 一种配网设备健康度评价方法
Nguyen et al. Rough set approach to sunspot classification problem
CN110135511A (zh) 电力系统时间断面的确定方法、装置以及电子设备
Sharma et al. Clustering in data mining: A brief review
CN113610350B (zh) 复杂工况故障诊断方法、设备、存储介质及装置
CN115660221A (zh) 基于混合神经网络的油气藏经济可采储量评估方法及系统
CN115879046A (zh) 基于改进特征选择和分层模型的物联网异常数据检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant