CN117473424A

CN117473424A - 基于随机森林的变压器故障诊断方法、系统、设备及介质

Info

Publication number: CN117473424A
Application number: CN202311458518.5A
Authority: CN
Inventors: 何璞玉; 张玉鸿; 周英; 苟全峰; 焦杰; 任文诗; 杨杰; 王倩
Original assignee: State Grid Sichuan Economic Research Institute
Current assignee: State Grid Sichuan Economic Research Institute
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-01-30

Abstract

本发明涉及变压器故障诊断技术领域，公开了一种基于随机森林的变压器故障诊断方法、系统、设备及介质，包括：S1、获取在变压器故障诊断时影响诊断结果的若干初始特征指标；S2、对若干所述初始特征指标进行筛选，选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标；S3、建立初始第二随机森林模型，利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练，得到最终第二随机森林模型；S4、将若干初始特征指标输入至所述最终第二随机森林模型中进行分类预测，得到变压器故障诊断结果。本发明也减轻了随机森林模型输入的数量，提高了诊断效率。

Description

基于随机森林的变压器故障诊断方法、系统、设备及介质

技术领域

本发明涉及变压器故障诊断技术领域，具体涉及一种基于随机森林的变压器故障诊断方法、系统、设备及介质。

背景技术

近年来，我国不断加大基础设施建设力度，尤其是电力领域，投资规模逐年增加。输变电工程的不断建设带来了变电站和线路工程的运维检修工作也越来越繁重，其中变压器的检修和维护工作在运维检修工作中占据重要地位，全国变压器数量达到数万台，由于生产工艺、制造技术、使用年限等因素的影响，运行中的故障不可避免。如何更加高效和准确地对变压器故障进行诊断成为相关学者和运维检修人员重点分析和研究的问题。

变压器故障诊断使用的传统方法包括特征气提法、产气速率分析法、特征气体比值法等，这些传统方法主要存在的问题是对于故障的诊断准确率不足，因此近年来，相关专家学者开始使用人工智能的方法来提高变压器故障诊断的准确率。比如人工神经网络、随机森林等算法的应用，但是单一算法由于其自身固有的缺点，人工神经网络训练时间较长、容易陷入局部最优，难于获得最优解，随机森林的参数设置较多，参数设置不合理影响分类结果，因此仍然在准确率方面存在不足，同时需要输入的特征参数较多，工作相对复杂。

发明内容

本发明提供一种基于随机森林的变压器故障诊断方法、系统、设备及介质，对决策树数量参数采用网格搜索法进行寻优，得出的随机森林模型的最优参数，最终按照最优的决策树数量参数进行随机森林分类预测，有效提高了诊断的准确率。

本发明通过下述技术方案实现：

一种基于随机森林的变压器故障诊断方法，包括：

S1、获取在变压器故障诊断时影响诊断结果的若干初始特征指标；

S2、对若干所述初始特征指标进行筛选，选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标；

S3、建立初始第二随机森林模型，利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练，利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试，测试通过得到最终第二随机森林模型，A为正整数；

S4、将若干最终特征指标输入至所述最终第二随机森林模型中进行分类预测，得到变压器故障诊断结果。

作为优化，S1中，若干所述初始特征指标包括：H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6。

作为优化，S2的具体步骤为：

S2.1、建立初始第一随机森林模型，所述第一随机森林模型包括I棵决策树；

S2.2、将若干所述初始特征指标组成的初始训练样本集输入至所述第一随机森林模型中，通过基尼指数对若干所述初始特征指标的重要程度进行评估，分别计算得到每类初始特征指标的第一权重；

S2.3、对若干所述初始特征指标的第一权重进行pearson相关分析，选取重要性评估排序第一的初始特征指标，计算该重要度第一的初始特征指标与除该重要度第一的初始特征指标以外的所有初始特征指标之间的相关系数；

S2.4、根据相关系数，判断相关程度，删除指标相关程度最高的前B项的初始特征指标，保留的A项初始特征指标即为最终特征指标，B为正整数，A+B＝P，P为初始特征指标的类型总数。

作为优化，所述第一随机森林模型的建立过程如下：

S2.1.1、从若干所述初始特征指标组成的初始训练样本集中通过有放回抽样的方式抽取M1个初始样本，得到初始训练样本集，其中，所述初始训练样本集中的初始样本总数量为M，M1<M；

S2.1.2、从若干所述初始特征指标中随机选择D1个第一中间特征指标，组成第一中间特征指标集，以便在每一棵决策树的每个节点处从第一中间特征指标集中选取分类能力最优的中间特征指标进行分裂，其中，所述初始特征指标的数量为D，D1<D；

S2.1.3、采用初始训练样本集和第一中间特征指标生成一棵决策树；

S2.1.4、重复步骤S2.1.1-S2.1.3I次，得到由I棵决策树组成的第一随机森林模型。

作为优化，S2.2的具体步骤为：

S2.2.1、设所述初始训练样本集中的初始特征指标种类的数量为n，所述第一随机森林模型的决策树的数量为I，所述第一随机森林模型中的I棵决策树的评价结果的类别的数量为C；

S2.2.2、计算第i棵决策树的节点q的基尼指数

其中，表示节点q中评价结果的类别c所占的比例；

S2.2.3、计算初始特征指标X_j在第i棵决策树的节点q的重要性

其中，分别为节点q分枝后的两个新节点的基尼指数，节点l、r表示节点q的子节点；

S2.2.4、计算所述初始特征指标X_j在第i棵决策树的总重要性

其中，Q为初始特征指标X_j在第i棵决策树中出现的节点的集合；

S2.2.5、计算所述初始特征指标X_j在所述第一随机森林模型中的最终重要性VIM_j：

其中，I为所述第一随机森林模型中的决策树的总数量；

S2.2.6、对所述初始特征指标X_j的所述最终重要性VIM_j进行归一化处理，输出所述初始特征指标X_j的第一权重VIM_j,1，其中，n为所述第一随机森林模型中初始特征指标的数量；

S2.2.7、重复S2.2.2-S2.2.6，找到所有种类的所述初始特征指标的第一权重。

作为优化，S3中，建立初始第二随机森林模型的具体步骤为：

A1、从若干所述最终特征指标组成的最终训练样本集中通过有放回抽样的方式抽取K1个最终样本，得到最终训练样本集，其中，所述初始训练样本集中的初始样本总数量为K，K1<K；

A2、从若干所述最终特征指标中随机选择F1个第二中间特征指标，组成第二中间特征指标集，以便在每一棵决策树的每个节点处从第二中间特征指标集中选取分类能力最优的中间特征指标进行分裂，其中，所述最终特征指标的数量为F，F1<F；

A3、采用最终训练样本集和第二中间特征指标生成一棵决策树；

A4、重复步骤SA1-A3 N次，得到由N棵决策树组成的初始第二随机森林模型。

作为优化，利用A项所述最终特征指标组成的最终训练样本集对所述初始第二随机森林模型进行训练的具体步骤为：

B1、设置所述初始第二随机森林模型中的决策树数量N的最小值和最大值，表示为e_min和e_max；

B2、设置搜索的步距为1；

B3、设置最小值为所述初始第二随机森林模型的决策树数量e_现，即e_现＝e_min；

B4、利用所述最终训练样本集对所述初始第二随机森林模型进行训练，然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测，计算出准确率c_前，同时令e_前＝e_现；

B5、判断e_现是否等于e_max，若是，则所述初始第二随机森林模型的最优的决策树数量为e_max，否则，跳转至B6；

B6、基于步距再设置所述初始第二随机森林模型的决策树数量：e_现＝e_前+1，利用所述最终训练样本集对所述初始第二随机森林模型进行训练，然后将所述最终测试样本输入至所述初始第二随机森林模型中进行分类预测，计算出准确率c_后，当c_前>c_后时则停止继续设置下一步距的参数，确定此时的决策树数量即为最优的决策树数量参数，当c_后>c_前时，令e_前＝e_现，c_前＝c_后，返回B5。

本发明还公开了一种基于随机森林的变压器故障诊断系统，用于实施前述的一种基于随机森林的变压器故障诊断方法，包括：

采集模块，用于获取在变压器故障诊断时影响诊断结果的若干初始特征指标；

筛选模块，用于对若干所述初始特征指标进行筛选，选取若干所述初始特征指标中与重要性评估排序第一的初始特征指标的相关系数最低的A项特征指标作为最终特征指标；

训练模块，用于建立初始第二随机森林模型，利用A项所述最终特征指标的一部分组成的最终训练样本集对所述初始第二随机森林模型进行训练，利用A项所述最终特征指标的另一部分组成的最终测试样本集对训练好的第二随机森林模型进行测试，测试通过得到最终第二随机森林模型，A为正整数；

计算模块，用于将若干初始特征指标输入至所述最终第二随机森林模型中进行分类预测，得到变压器故障诊断结果。

本发明还公开了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前述的一种基于随机森林的变压器故障诊断方法。

本发明还公开了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如前述的一种基于随机森林的变压器故障诊断方法。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明利用第一个随机森林模型对特征指标的重要性进行评估，得出每个初始特征指标的权重，然后根据pearson相关系数，再删除相关程度较高的初始特征指标，得到简化和优化的评价指标，减少了特征指标收集的工作量，也减轻了随机森林模型输入的数量，提高了诊断效率。对决策树数量参数采用网格搜索法进行寻优，得出的随机森林模型的最优参数，最终按照最优的决策树数量参数进行随机森林分类预测，有效提高了诊断的准确率。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为本发明所述的一种基于随机森林的变压器故障诊断方法的流程图；

图2为运用本发明的方法进行变压器故障诊断的诊断结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1的一种基于随机森林的变压器故障诊断方法，如图1-2所示，包括：

若干所述初始特征指标包括：H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6，共14项，本发明最终的输出的指标(第二随机森林模型输出的指标)有1项，代表各类故障，分别用“0”，“1”，“2”分别代表“正常”，“放电”，“过热”三类故障状态。

具体步骤为：

所述第一随机森林模型的建立过程如下：

S2.1.1、从若干所述初始特征指标组成的初始训练样本集中通过有放回抽样(bootstrap aggregating)的方式抽取M1个初始样本，得到初始训练样本集，其中，所述初始训练样本集中的初始样本总数量为M，M1<M；一个初始样本包含14个初始特征指标。

这些中间特征指标中，可以只包含部分种类的特征指标，也就说，中间特征指标的种类可以小于14。分类能力最优可以利用基尼指数法来判定，一种常用的分类特征集最优方式分裂方法，它通过计算每个特征的基尼指数，选择基尼指数最小的特征进行分裂。基尼指数表示样本被随机分类时被分错的概率，基尼指数越小表示特征的纯度越高。

具体步骤为：

S2.2.1、设所述初始训练样本集中的初始特征指标种类的数量为n，所述第一随机森林模型的决策树的数量为I，所述第一随机森林模型中的I棵决策树的评价结果(训练样本集中有已有的评价结果)的类别的数量为C；

S2.2.2、计算第i棵决策树的节点q的基尼指数

其中，表示节点q中评价结果的类别c所占的比例；

S2.2.3、计算初始特征指标X_j在第i棵决策树的节点q的重要性

S2.2.4、计算所述初始特征指标X_j在第i棵决策树的总重要性

其中，I为所述第一随机森林模型中的决策树的总数量；

重要性评估得出的结果，可以看做是各个指标的权重，因此，重要性评估排序第一即为第一权重最高。

S2.4、根据相关系数，判断相关程度，删除指标相关程度最高的前B项的初始特征指标，保留的A项初始特征指标即为最终特征指标，B为正整数，A+B＝P，P为初始特征指标的类型总数。据相关系数，判断相关程度，删除指标相关程度较高的指标，本实施例中，仅保留10项指标。

利用优化的评价指标的训练样本集进行第二随机森林模型的训练。第二随机森林模型和第一随机森林模型的生成过程相同。将优化的评价指标的测试样本集输入第二随机森林模型。此过程中要优化随机森林模型的参数，由于森林中决策树数量e这一参数对于模型的效果影响最大，因此对决策树的数量采用网格搜索法得出最优的决策树数量

建立初始第二随机森林模型的具体步骤为：

利用A项所述最终特征指标组成的最终训练样本集对所述初始第二随机森林模型进行训练的具体步骤为：

B2、设置搜索的步距为1；

本实施例中，先设置决策树数量e的最小值和最大值，分别为20和200，然后设置搜索的步距为1，即第一次决策树数量e，第二次决策树数量e，直至第200次是200；接着设置随机森林的决策树数量e参数为20，先利用训练样本集进行训练，然后用测试样本进行分类预测，计算出准确率c1，之后，再设置随机森林的决策树数量e参数为21，也是先利用训练样本集进行训练，然后用测试样本进行分类预测，计算出准确率c2，当c1>c2时则停止继续设置下一步距的参数，c2>c1时，继续再设置随机森林的决策树数量e参数为3，训练完成后用测试样本进行分类预测，计算出准确率c3，再比较c2和c3，如此往复，依次计算准确率，比较后确定最优的参数。

接下来，用实际数据对本发明的方法进行说明。

第一步：利用第一随机森林模型对初始特征指标的重要性进行评估，得出每个初始特征指标的权重。

利用340项样本数据进行验证，其中训练样本272项，测试样本68项。

初始特征指标主要包括H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6等14项。

输出的指标1项，代表各类故障，分别用“0”，“1”，“2”分别代表“正常”，“放电”，“过热”三类故障状态。

将特征指标的所有样本集输入第一随机森林模型，通过基尼指数对14个初始特征指标的重要程度进行评估，计算得到每类初始特征指标的第一权重，权重如下表所示。

序号	特征值	重要性评估
			0	H2	0.0389
1	CH4	0.0595
			2	C2H6	0.0520
3	C2H4	0.0589
			4	C2H2	0.0704
5	THC	0.0538
			6	H2/THC	0.0803
7	CH4/THC	0.0572
			8	C2H6/THC	0.0596
9	C2H4/THC	0.0728
			10	C2H2/THC	0.1762
11	CH4/H2	0.1601
			12	C2H6/C2H4	0.0321
13	C2H4/C2H6	0.0283

第二步：进行pearson相关分析，选取重要性评估排序第一的初始特征指标，即第一权重第一的初始特征指标，计算该初始特征指标与其他初始特征指标之间的相关系数，如下表所示。

序号	特征值	相关系数
			0	H2	-0.05
1	CH4	0.081
			2	C2H6	0.021
3	C2H4	0.085
			4	C2H2	-0.026
5	THC	0.036
			6	H2/THC	-.392(**)
7	CH4/THC	.307(**)
			8	C2H6/THC	.211(**)
9	C2H4/THC	.281(**)
			10	C2H2/THC	-.194(**)
11	CH4/H2	1
			12	C2H6/C2H4	-0.053
13	C2H4/C2H6	-0.044

第三步：根据相关系数，判断相关程度，删除4项指标相关程度较高的指标，仅保留10项指标。得到优化的评价指标，主要包括H2、CH4、C2H6、C2H4、THC、H2/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4。

第四步：利用优化的评价指标的样本集进行第二随机森林模型的训练和预测。此过程中对森林中决策树数量n_estimators参数采用网格搜索法进行寻优，得出的最优数量是77。

第五步：最终按照最优的决策树数量进行随机森林分类预测，得出变压器故障诊断结果，如下表所示。同时利用SVM模型进行了分类预测，对比常规随机森林和SVM模型，本发明的诊断率较高，并且需要输入的特征值较少，工作更为简单，缩短了运行时间。

运用本发明的方法进行变压器故障诊断的诊断结果如图2所示。

实施例2还公开了一种基于随机森林的变压器故障诊断系统，用于实施实施例1的一种基于随机森林的变压器故障诊断方法，包括：

实施例3还公开了一种电子设备，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如实施例1的一种基于随机森林的变压器故障诊断方法。

实施例4还公开了一种存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如实施例1的一种基于随机森林的变压器故障诊断方法。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于随机森林的变压器故障诊断方法，其特征在于，包括：

2.根据权利要求1所述的一种基于随机森林的变压器故障诊断方法，其特征在于，S1中，若干所述初始特征指标包括：H2、CH4、C2H6、C2H4、C2H2、THC、H2/THC、CH4/THC、C2H6/THC、C2H4/THC、C2H2/THC、CH4/H2、C2H6/C2H4、C2H4/C2H6。

3.根据权利要求1所述的一种基于随机森林的变压器故障诊断方法，其特征在于，S2的具体步骤为：

4.根据权利要求3所述的一种基于随机森林的变压器故障诊断方法，其特征在于，所述第一随机森林模型的建立过程如下：

5.根据权利要求4所述的一种基于随机森林的变压器故障诊断方法，其特征在于，S2.2的具体步骤为：

S2.2.2、计算第i棵决策树的节点q的基尼指数

其中，表示节点q中评价结果的类别c所占的比例；

S2.2.3、计算初始特征指标X_j在第i棵决策树的节点q的重要性

S2.2.4、计算所述初始特征指标X_j在第i棵决策树的总重要性

其中，I为所述第一随机森林模型中的决策树的总数量；

6.根据权利要求1所述的一种基于随机森林的变压器故障诊断方法，其特征在于，S3中，建立初始第二随机森林模型的具体步骤为：

7.根据权利要求6所述的一种基于随机森林的变压器故障诊断方法，其特征在于，利用A项所述最终特征指标组成的最终训练样本集对所述初始第二随机森林模型进行训练的具体步骤为：

B2、设置搜索的步距为1；

8.一种基于随机森林的变压器故障诊断系统，用于实施权利要求1-7任一所述的一种基于随机森林的变压器故障诊断方法，其特征在于，包括：

9.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的一种基于随机森林的变压器故障诊断方法。

10.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的一种基于随机森林的变压器故障诊断方法。