CN117473424A - 基于随机森林的变压器故障诊断方法、系统、设备及介质 - Google Patents
基于随机森林的变压器故障诊断方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117473424A CN117473424A CN202311458518.5A CN202311458518A CN117473424A CN 117473424 A CN117473424 A CN 117473424A CN 202311458518 A CN202311458518 A CN 202311458518A CN 117473424 A CN117473424 A CN 117473424A
- Authority
- CN
- China
- Prior art keywords
- initial
- random forest
- final
- forest model
- characteristic indexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 150
- 238000003745 diagnosis Methods 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 72
- 238000011156 evaluation Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 10
- 238000003066 decision tree Methods 0.000 claims description 74
- 238000012360 testing method Methods 0.000 claims description 14
- 238000013100 final test Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010220 Pearson correlation analysis Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 230000009191 jumping Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 5
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/50—Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
- G01R31/62—Testing of transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Power Engineering (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及变压器故障诊断技术领域,公开了一种基于随机森林的变压器故障诊断方法、系统、设备及介质,包括:S1、获取在变压器故障诊断时影响诊断结果的若干初始特征指标;S2、对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;S3、建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,得到最终第二随机森林模型;S4、将若干初始特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。本发明也减轻了随机森林模型输入的数量,提高了诊断效率。
Description
技术领域
本发明涉及变压器故障诊断技术领域,具体涉及一种基于随机森林的变压器故障诊断方法、系统、设备及介质。
背景技术
近年来,我国不断加大基础设施建设力度,尤其是电力领域,投资规模逐年增加。输变电工程的不断建设带来了变电站和线路工程的运维检修工作也越来越繁重,其中变压器的检修和维护工作在运维检修工作中占据重要地位,全国变压器数量达到数万台,由于生产工艺、制造技术、使用年限等因素的影响,运行中的故障不可避免。如何更加高效和准确地对变压器故障进行诊断成为相关学者和运维检修人员重点分析和研究的问题。
变压器故障诊断使用的传统方法包括特征气提法、产气速率分析法、特征气体比值法等,这些传统方法主要存在的问题是对于故障的诊断准确率不足,因此近年来,相关专家学者开始使用人工智能的方法来提高变压器故障诊断的准确率。比如人工神经网络、随机森林等算法的应用,但是单一算法由于其自身固有的缺点,人工神经网络训练时间较长、容易陷入局部最优,难于获得最优解,随机森林的参数设置较多,参数设置不合理影响分类结果,因此仍然在准确率方面存在不足,同时需要输入的特征参数较多,工作相对复杂。
发明内容
本发明提供一种基于随机森林的变压器故障诊断方法、系统、设备及介质,对决策树数量参数采用网格搜索法进行寻优,得出的随机森林模型的最优参数,最终按照最优的决策树数量参数进行随机森林分类预测,有效提高了诊断的准确率。
本发明通过下述技术方案实现:
一种基于随机森林的变压器故障诊断方法,包括:
S1、获取在变压器故障诊断时影响诊断结果的若干初始特征指标;
S2、对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;
S3、建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试,测试通过得到最终第二随机森林模型,A为正整数;
S4、将若干最终特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。
作为优化,S1中,若干所述初始特征指标包括:H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6。
作为优化,S2的具体步骤为:
S2.1、建立初始第一随机森林模型,所述第一随机森林模型包括I棵决策树;
S2.2、将若干所述初始特征指标组成的初始训练样本集输入至所述第一随机森林模型中,通过基尼指数对若干所述初始特征指标的重要程度进行评估,分别计算得到每类初始特征指标的第一权重;
S2.3、对若干所述初始特征指标的第一权重进行pearson相关分析,选取重要性评估排序第一的初始特征指标,计算该重要度第一的初始特征指标与除该重要度第一的初始特征指标以外的所有初始特征指标之间的相关系数;
S2.4、根据相关系数,判断相关程度,删除指标相关程度最高的前B项的初始特征指标,保留的A项初始特征指标即为最终特征指标,B为正整数,A+B=P,P为初始特征指标的类型总数。
作为优化,所述第一随机森林模型的建立过程如下:
S2.1.1、从若干所述初始特征指标组成的初始训练样本集中通过有放回抽样的方式抽取M1个初始样本,得到初始训练样本集,其中,所述初始训练样本集中的初始样本总数量为M,M1<M;
S2.1.2、从若干所述初始特征指标中随机选择D1个第一中间特征指标,组成第一中间特征指标集,以便在每一棵决策树的每个节点处从第一中间特征指标集中选取分类能力最优的中间特征指标进行分裂,其中,所述初始特征指标的数量为D,D1<D;
S2.1.3、采用初始训练样本集和第一中间特征指标生成一棵决策树;
S2.1.4、重复步骤S2.1.1-S2.1.3I次,得到由I棵决策树组成的第一随机森林模型。
作为优化,S2.2的具体步骤为:
S2.2.1、设所述初始训练样本集中的初始特征指标种类的数量为n,所述第一随机森林模型的决策树的数量为I,所述第一随机森林模型中的I棵决策树的评价结果的类别的数量为C;
S2.2.2、计算第i棵决策树的节点q的基尼指数
其中,表示节点q中评价结果的类别c所占的比例;
S2.2.3、计算初始特征指标Xj在第i棵决策树的节点q的重要性
其中,分别为节点q分枝后的两个新节点的基尼指数,节点l、r表示节点q的子节点;
S2.2.4、计算所述初始特征指标Xj在第i棵决策树的总重要性
其中,Q为初始特征指标Xj在第i棵决策树中出现的节点的集合;
S2.2.5、计算所述初始特征指标Xj在所述第一随机森林模型中的最终重要性VIMj:
其中,I为所述第一随机森林模型中的决策树的总数量;
S2.2.6、对所述初始特征指标Xj的所述最终重要性VIMj进行归一化处理,输出所述初始特征指标Xj的第一权重VIMj,1,其中,n为所述第一随机森林模型中初始特征指标的数量;
S2.2.7、重复S2.2.2-S2.2.6,找到所有种类的所述初始特征指标的第一权重。
作为优化,S3中,建立初始第二随机森林模型的具体步骤为:
A1、从若干所述最终特征指标组成的最终训练样本集中通过有放回抽样的方式抽取K1个最终样本,得到最终训练样本集,其中,所述初始训练样本集中的初始样本总数量为K,K1<K;
A2、从若干所述最终特征指标中随机选择F1个第二中间特征指标,组成第二中间特征指标集,以便在每一棵决策树的每个节点处从第二中间特征指标集中选取分类能力最优的中间特征指标进行分裂,其中,所述最终特征指标的数量为F,F1<F;
A3、采用最终训练样本集和第二中间特征指标生成一棵决策树;
A4、重复步骤SA1-A3 N次,得到由N棵决策树组成的初始第二随机森林模型。
作为优化,利用A项所述最终特征指标组成的最终训练样本集对所述初始第二随机森林模型进行训练的具体步骤为:
B1、设置所述初始第二随机森林模型中的决策树数量N的最小值和最大值,表示为emin和emax;
B2、设置搜索的步距为1;
B3、设置最小值为所述初始第二随机森林模型的决策树数量e现,即e现=emin;
B4、利用所述最终训练样本集对所述初始第二随机森林模型进行训练,然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测,计算出准确率c前,同时令e前=e现;
B5、判断e现是否等于emax,若是,则所述初始第二随机森林模型的最优的决策树数量为emax,否则,跳转至B6;
B6、基于步距再设置所述初始第二随机森林模型的决策树数量:e现=e前+1,利用所述最终训练样本集对所述初始第二随机森林模型进行训练,然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测,计算出准确率c后,当c前>c后时则停止继续设置下一步距的参数,确定此时的决策树数量即为最优的决策树数量参数,当c后>c前时,令e前=e现,c前=c后,返回B5。
本发明还公开了一种基于随机森林的变压器故障诊断系统,用于实施前述的一种基于随机森林的变压器故障诊断方法,包括:
采集模块,用于获取在变压器故障诊断时影响诊断结果的若干初始特征指标;
筛选模块,用于对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;
训练模块,用于建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试,测试通过得到最终第二随机森林模型,A为正整数;
计算模块,用于将若干初始特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。
本发明还公开了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述的一种基于随机森林的变压器故障诊断方法。
本发明还公开了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如前述的一种基于随机森林的变压器故障诊断方法。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明利用第一个随机森林模型对特征指标的重要性进行评估,得出每个初始特征指标的权重,然后根据pearson相关系数,再删除相关程度较高的初始特征指标,得到简化和优化的评价指标,减少了特征指标收集的工作量,也减轻了随机森林模型输入的数量,提高了诊断效率。对决策树数量参数采用网格搜索法进行寻优,得出的随机森林模型的最优参数,最终按照最优的决策树数量参数进行随机森林分类预测,有效提高了诊断的准确率。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为本发明所述的一种基于随机森林的变压器故障诊断方法的流程图;
图2为运用本发明的方法进行变压器故障诊断的诊断结果图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1的一种基于随机森林的变压器故障诊断方法,如图1-2所示,包括:
S1、获取在变压器故障诊断时影响诊断结果的若干初始特征指标;
若干所述初始特征指标包括:H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6,共14项,本发明最终的输出的指标(第二随机森林模型输出的指标)有1项,代表各类故障,分别用“0”,“1”,“2”分别代表“正常”,“放电”,“过热”三类故障状态。
S2、对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;
具体步骤为:
S2.1、建立初始第一随机森林模型,所述第一随机森林模型包括I棵决策树;
所述第一随机森林模型的建立过程如下:
S2.1.1、从若干所述初始特征指标组成的初始训练样本集中通过有放回抽样(bootstrap aggregating)的方式抽取M1个初始样本,得到初始训练样本集,其中,所述初始训练样本集中的初始样本总数量为M,M1<M;一个初始样本包含14个初始特征指标。
S2.1.2、从若干所述初始特征指标中随机选择D1个第一中间特征指标,组成第一中间特征指标集,以便在每一棵决策树的每个节点处从第一中间特征指标集中选取分类能力最优的中间特征指标进行分裂,其中,所述初始特征指标的数量为D,D1<D;
这些中间特征指标中,可以只包含部分种类的特征指标,也就说,中间特征指标的种类可以小于14。分类能力最优可以利用基尼指数法来判定,一种常用的分类特征集最优方式分裂方法,它通过计算每个特征的基尼指数,选择基尼指数最小的特征进行分裂。基尼指数表示样本被随机分类时被分错的概率,基尼指数越小表示特征的纯度越高。
S2.1.3、采用初始训练样本集和第一中间特征指标生成一棵决策树;
S2.1.4、重复步骤S2.1.1-S2.1.3I次,得到由I棵决策树组成的第一随机森林模型。
S2.2、将若干所述初始特征指标组成的初始训练样本集输入至所述第一随机森林模型中,通过基尼指数对若干所述初始特征指标的重要程度进行评估,分别计算得到每类初始特征指标的第一权重;
具体步骤为:
S2.2.1、设所述初始训练样本集中的初始特征指标种类的数量为n,所述第一随机森林模型的决策树的数量为I,所述第一随机森林模型中的I棵决策树的评价结果(训练样本集中有已有的评价结果)的类别的数量为C;
S2.2.2、计算第i棵决策树的节点q的基尼指数
其中,表示节点q中评价结果的类别c所占的比例;
S2.2.3、计算初始特征指标Xj在第i棵决策树的节点q的重要性
其中,分别为节点q分枝后的两个新节点的基尼指数,节点l、r表示节点q的子节点;
S2.2.4、计算所述初始特征指标Xj在第i棵决策树的总重要性
其中,Q为初始特征指标Xj在第i棵决策树中出现的节点的集合;
S2.2.5、计算所述初始特征指标Xj在所述第一随机森林模型中的最终重要性VIMj:
其中,I为所述第一随机森林模型中的决策树的总数量;
S2.2.6、对所述初始特征指标Xj的所述最终重要性VIMj进行归一化处理,输出所述初始特征指标Xj的第一权重VIMj,1,其中,n为所述第一随机森林模型中初始特征指标的数量;
S2.2.7、重复S2.2.2-S2.2.6,找到所有种类的所述初始特征指标的第一权重。
S2.3、对若干所述初始特征指标的第一权重进行pearson相关分析,选取重要性评估排序第一的初始特征指标,计算该重要度第一的初始特征指标与除该重要度第一的初始特征指标以外的所有初始特征指标之间的相关系数;
重要性评估得出的结果,可以看做是各个指标的权重,因此,重要性评估排序第一即为第一权重最高。
S2.4、根据相关系数,判断相关程度,删除指标相关程度最高的前B项的初始特征指标,保留的A项初始特征指标即为最终特征指标,B为正整数,A+B=P,P为初始特征指标的类型总数。据相关系数,判断相关程度,删除指标相关程度较高的指标,本实施例中,仅保留10项指标。
S3、建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试,测试通过得到最终第二随机森林模型,A为正整数;
利用优化的评价指标的训练样本集进行第二随机森林模型的训练。第二随机森林模型和第一随机森林模型的生成过程相同。将优化的评价指标的测试样本集输入第二随机森林模型。此过程中要优化随机森林模型的参数,由于森林中决策树数量e这一参数对于模型的效果影响最大,因此对决策树的数量采用网格搜索法得出最优的决策树数量
建立初始第二随机森林模型的具体步骤为:
A1、从若干所述最终特征指标组成的最终训练样本集中通过有放回抽样的方式抽取K1个最终样本,得到最终训练样本集,其中,所述初始训练样本集中的初始样本总数量为K,K1<K;
A2、从若干所述最终特征指标中随机选择F1个第二中间特征指标,组成第二中间特征指标集,以便在每一棵决策树的每个节点处从第二中间特征指标集中选取分类能力最优的中间特征指标进行分裂,其中,所述最终特征指标的数量为F,F1<F;
A3、采用最终训练样本集和第二中间特征指标生成一棵决策树;
A4、重复步骤SA1-A3 N次,得到由N棵决策树组成的初始第二随机森林模型。
利用A项所述最终特征指标组成的最终训练样本集对所述初始第二随机森林模型进行训练的具体步骤为:
B1、设置所述初始第二随机森林模型中的决策树数量N的最小值和最大值,表示为emin和emax;
B2、设置搜索的步距为1;
B3、设置最小值为所述初始第二随机森林模型的决策树数量e现,即e现=emin;
B4、利用所述最终训练样本集对所述初始第二随机森林模型进行训练,然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测,计算出准确率c前,同时令e前=e现;
B5、判断e现是否等于emax,若是,则所述初始第二随机森林模型的最优的决策树数量为emax,否则,跳转至B6;
B6、基于步距再设置所述初始第二随机森林模型的决策树数量:e现=e前+1,利用所述最终训练样本集对所述初始第二随机森林模型进行训练,然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测,计算出准确率c后,当c前>c后时则停止继续设置下一步距的参数,确定此时的决策树数量即为最优的决策树数量参数,当c后>c前时,令e前=e现,c前=c后,返回B5。
本实施例中,先设置决策树数量e的最小值和最大值,分别为20和200,然后设置搜索的步距为1,即第一次决策树数量e,第二次决策树数量e,直至第200次是200;接着设置随机森林的决策树数量e参数为20,先利用训练样本集进行训练,然后用测试样本进行分类预测,计算出准确率c1,之后,再设置随机森林的决策树数量e参数为21,也是先利用训练样本集进行训练,然后用测试样本进行分类预测,计算出准确率c2,当c1>c2时则停止继续设置下一步距的参数,c2>c1时,继续再设置随机森林的决策树数量e参数为3,训练完成后用测试样本进行分类预测,计算出准确率c3,再比较c2和c3,如此往复,依次计算准确率,比较后确定最优的参数。
S4、将若干最终特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。
接下来,用实际数据对本发明的方法进行说明。
第一步:利用第一随机森林模型对初始特征指标的重要性进行评估,得出每个初始特征指标的权重。
利用340项样本数据进行验证,其中训练样本272项,测试样本68项。
初始特征指标主要包括H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6等14项。
输出的指标1项,代表各类故障,分别用“0”,“1”,“2”分别代表“正常”,“放电”,“过热”三类故障状态。
将特征指标的所有样本集输入第一随机森林模型,通过基尼指数对14个初始特征指标的重要程度进行评估,计算得到每类初始特征指标的第一权重,权重如下表所示。
序号 | 特征值 | 重要性评估 |
0 | H2 | 0.0389 |
1 | CH4 | 0.0595 |
2 | C2H6 | 0.0520 |
3 | C2H4 | 0.0589 |
4 | C2H2 | 0.0704 |
5 | THC | 0.0538 |
6 | H2/THC | 0.0803 |
7 | CH4/THC | 0.0572 |
8 | C2H6/THC | 0.0596 |
9 | C2H4/THC | 0.0728 |
10 | C2H2/THC | 0.1762 |
11 | CH4/H2 | 0.1601 |
12 | C2H6/C2H4 | 0.0321 |
13 | C2H4/C2H6 | 0.0283 |
第二步:进行pearson相关分析,选取重要性评估排序第一的初始特征指标,即第一权重第一的初始特征指标,计算该初始特征指标与其他初始特征指标之间的相关系数,如下表所示。
序号 | 特征值 | 相关系数 |
0 | H2 | -0.05 |
1 | CH4 | 0.081 |
2 | C2H6 | 0.021 |
3 | C2H4 | 0.085 |
4 | C2H2 | -0.026 |
5 | THC | 0.036 |
6 | H2/THC | -.392(**) |
7 | CH4/THC | .307(**) |
8 | C2H6/THC | .211(**) |
9 | C2H4/THC | .281(**) |
10 | C2H2/THC | -.194(**) |
11 | CH4/H2 | 1 |
12 | C2H6/C2H4 | -0.053 |
13 | C2H4/C2H6 | -0.044 |
第三步:根据相关系数,判断相关程度,删除4项指标相关程度较高的指标,仅保留10项指标。得到优化的评价指标,主要包括H2、CH4、C2H6、C2H4、THC、H2/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4。
第四步:利用优化的评价指标的样本集进行第二随机森林模型的训练和预测。此过程中对森林中决策树数量n_estimators参数采用网格搜索法进行寻优,得出的最优数量是77。
第五步:最终按照最优的决策树数量进行随机森林分类预测,得出变压器故障诊断结果,如下表所示。同时利用SVM模型进行了分类预测,对比常规随机森林和SVM模型,本发明的诊断率较高,并且需要输入的特征值较少,工作更为简单,缩短了运行时间。
运用本发明的方法进行变压器故障诊断的诊断结果如图2所示。
实施例2还公开了一种基于随机森林的变压器故障诊断系统,用于实施实施例1的一种基于随机森林的变压器故障诊断方法,包括:
采集模块,用于获取在变压器故障诊断时影响诊断结果的若干初始特征指标;
筛选模块,用于对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;
训练模块,用于建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试,测试通过得到最终第二随机森林模型,A为正整数;
计算模块,用于将若干初始特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。
实施例3还公开了一种电子设备,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如实施例1的一种基于随机森林的变压器故障诊断方法。
实施例4还公开了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如实施例1的一种基于随机森林的变压器故障诊断方法。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于随机森林的变压器故障诊断方法,其特征在于,包括:
S1、获取在变压器故障诊断时影响诊断结果的若干初始特征指标;
S2、对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;
S3、建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试,测试通过得到最终第二随机森林模型,A为正整数;
S4、将若干最终特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。
2.根据权利要求1所述的一种基于随机森林的变压器故障诊断方法,其特征在于,S1中,若干所述初始特征指标包括:H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6。
3.根据权利要求1所述的一种基于随机森林的变压器故障诊断方法,其特征在于,S2的具体步骤为:
S2.1、建立初始第一随机森林模型,所述第一随机森林模型包括I棵决策树;
S2.2、将若干所述初始特征指标组成的初始训练样本集输入至所述第一随机森林模型中,通过基尼指数对若干所述初始特征指标的重要程度进行评估,分别计算得到每类初始特征指标的第一权重;
S2.3、对若干所述初始特征指标的第一权重进行pearson相关分析,选取重要性评估排序第一的初始特征指标,计算该重要度第一的初始特征指标与除该重要度第一的初始特征指标以外的所有初始特征指标之间的相关系数;
S2.4、根据相关系数,判断相关程度,删除指标相关程度最高的前B项的初始特征指标,保留的A项初始特征指标即为最终特征指标,B为正整数,A+B=P,P为初始特征指标的类型总数。
4.根据权利要求3所述的一种基于随机森林的变压器故障诊断方法,其特征在于,所述第一随机森林模型的建立过程如下:
S2.1.1、从若干所述初始特征指标组成的初始训练样本集中通过有放回抽样的方式抽取M1个初始样本,得到初始训练样本集,其中,所述初始训练样本集中的初始样本总数量为M,M1<M;
S2.1.2、从若干所述初始特征指标中随机选择D1个第一中间特征指标,组成第一中间特征指标集,以便在每一棵决策树的每个节点处从第一中间特征指标集中选取分类能力最优的中间特征指标进行分裂,其中,所述初始特征指标的数量为D,D1<D;
S2.1.3、采用初始训练样本集和第一中间特征指标生成一棵决策树;
S2.1.4、重复步骤S2.1.1-S2.1.3I次,得到由I棵决策树组成的第一随机森林模型。
5.根据权利要求4所述的一种基于随机森林的变压器故障诊断方法,其特征在于,S2.2的具体步骤为:
S2.2.1、设所述初始训练样本集中的初始特征指标种类的数量为n,所述第一随机森林模型的决策树的数量为I,所述第一随机森林模型中的I棵决策树的评价结果的类别的数量为C;
S2.2.2、计算第i棵决策树的节点q的基尼指数
其中,表示节点q中评价结果的类别c所占的比例;
S2.2.3、计算初始特征指标Xj在第i棵决策树的节点q的重要性
其中,分别为节点q分枝后的两个新节点的基尼指数,节点l、r表示节点q的子节点;
S2.2.4、计算所述初始特征指标Xj在第i棵决策树的总重要性
其中,Q为初始特征指标Xj在第i棵决策树中出现的节点的集合;
S2.2.5、计算所述初始特征指标Xj在所述第一随机森林模型中的最终重要性VIMj:
其中,I为所述第一随机森林模型中的决策树的总数量;
S2.2.6、对所述初始特征指标Xj的所述最终重要性VIMj进行归一化处理,输出所述初始特征指标Xj的第一权重VIMj,1,其中,n为所述第一随机森林模型中初始特征指标的数量;
S2.2.7、重复S2.2.2-S2.2.6,找到所有种类的所述初始特征指标的第一权重。
6.根据权利要求1所述的一种基于随机森林的变压器故障诊断方法,其特征在于,S3中,建立初始第二随机森林模型的具体步骤为:
A1、从若干所述最终特征指标组成的最终训练样本集中通过有放回抽样的方式抽取K1个最终样本,得到最终训练样本集,其中,所述初始训练样本集中的初始样本总数量为K,K1<K;
A2、从若干所述最终特征指标中随机选择F1个第二中间特征指标,组成第二中间特征指标集,以便在每一棵决策树的每个节点处从第二中间特征指标集中选取分类能力最优的中间特征指标进行分裂,其中,所述最终特征指标的数量为F,F1<F;
A3、采用最终训练样本集和第二中间特征指标生成一棵决策树;
A4、重复步骤SA1-A3 N次,得到由N棵决策树组成的初始第二随机森林模型。
7.根据权利要求6所述的一种基于随机森林的变压器故障诊断方法,其特征在于,利用A项所述最终特征指标组成的最终训练样本集对所述初始第二随机森林模型进行训练的具体步骤为:
B1、设置所述初始第二随机森林模型中的决策树数量N的最小值和最大值,表示为emin和emax;
B2、设置搜索的步距为1;
B3、设置最小值为所述初始第二随机森林模型的决策树数量e现,即e现=emin;
B4、利用所述最终训练样本集对所述初始第二随机森林模型进行训练,然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测,计算出准确率c前,同时令e前=e现;
B5、判断e现是否等于emax,若是,则所述初始第二随机森林模型的最优的决策树数量为emax,否则,跳转至B6;
B6、基于步距再设置所述初始第二随机森林模型的决策树数量:e现=e前+1,利用所述最终训练样本集对所述初始第二随机森林模型进行训练,然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测,计算出准确率c后,当c前>c后时则停止继续设置下一步距的参数,确定此时的决策树数量即为最优的决策树数量参数,当c后>c前时,令e前=e现,c前=c后,返回B5。
8.一种基于随机森林的变压器故障诊断系统,用于实施权利要求1-7任一所述的一种基于随机森林的变压器故障诊断方法,其特征在于,包括:
采集模块,用于获取在变压器故障诊断时影响诊断结果的若干初始特征指标;
筛选模块,用于对若干所述初始特征指标进行筛选,选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标;
训练模块,用于建立初始第二随机森林模型,利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练,利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试,测试通过得到最终第二随机森林模型,A为正整数;
计算模块,用于将若干初始特征指标输入至所述最终第二随机森林模型中进行分类预测,得到变压器故障诊断结果。
9.一种电子设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的一种基于随机森林的变压器故障诊断方法。
10.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的一种基于随机森林的变压器故障诊断方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311458518.5A CN117473424A (zh) | 2023-11-03 | 2023-11-03 | 基于随机森林的变压器故障诊断方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311458518.5A CN117473424A (zh) | 2023-11-03 | 2023-11-03 | 基于随机森林的变压器故障诊断方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117473424A true CN117473424A (zh) | 2024-01-30 |
Family
ID=89632572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311458518.5A Withdrawn CN117473424A (zh) | 2023-11-03 | 2023-11-03 | 基于随机森林的变压器故障诊断方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473424A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118154936A (zh) * | 2024-02-01 | 2024-06-07 | 北京格致博雅生物科技有限公司 | 一种基于机器学习的品种鉴定分类方法及系统 |
CN118520789A (zh) * | 2024-07-25 | 2024-08-20 | 山东科技大学 | 基于加权随机森林的高速列车牵引逆变器故障诊断方法 |
-
2023
- 2023-11-03 CN CN202311458518.5A patent/CN117473424A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118154936A (zh) * | 2024-02-01 | 2024-06-07 | 北京格致博雅生物科技有限公司 | 一种基于机器学习的品种鉴定分类方法及系统 |
CN118520789A (zh) * | 2024-07-25 | 2024-08-20 | 山东科技大学 | 基于加权随机森林的高速列车牵引逆变器故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543737B (zh) | 一种基于fahp_fca组合赋权的信息系统健康度评估方法 | |
CN111722046B (zh) | 一种基于深度森林模型的变压器故障诊断方法 | |
CN109308571B (zh) | 配电线路线变关系检测方法 | |
CN110929847A (zh) | 一种基于深度卷积神经网络的换流变压器故障诊断方法 | |
CN117473424A (zh) | 基于随机森林的变压器故障诊断方法、系统、设备及介质 | |
CN111738462B (zh) | 电力计量装置故障抢修主动服务预警方法 | |
CN109740859A (zh) | 基于主成分分析法和支持向量机的变压器状态评估方法及系统 | |
CN112557034B (zh) | 一种基于pca_cnns的轴承故障诊断方法 | |
CN111340248A (zh) | 一种基于智能集成算法的变压器故障诊断方法及系统 | |
CN112147432A (zh) | 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统 | |
CN111507504A (zh) | 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法 | |
CN116010884A (zh) | 基于主成分分析的SSA-LightGBM油浸式变压器的故障诊断方法 | |
CN116842337A (zh) | 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法 | |
CN114169374A (zh) | 一种斜拉桥斜拉索损伤识别方法及电子设备 | |
CN111626559A (zh) | 一种基于主因子分析法的中压配电网线损关键特征指标提取方法及系统 | |
CN111695288B (zh) | 一种基于Apriori-BP算法的变压器故障诊断方法 | |
CN110287269A (zh) | 一种基于复合层次分析的数据处理分类方法和装置 | |
CN113379116A (zh) | 基于聚类和卷积神经网络的台区线损预测方法 | |
CN106651199A (zh) | 基于决策树方法的蒸汽管网调度规则系统 | |
CN115409317A (zh) | 基于特征选择和机器学习的台区线损检测方法及装置 | |
CN116306226A (zh) | 一种燃料电池性能退化预测方法 | |
CN113327047B (zh) | 基于模糊综合模型的电力营销服务渠道决策方法及系统 | |
CN113448840A (zh) | 基于预测缺陷率和模糊综合评价模型的软件质量评价方法 | |
CN113469252A (zh) | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 | |
CN107808245A (zh) | 基于改进决策树方法的管网调度系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240130 |