CN115881238A

CN115881238A - 模型训练方法、变压器故障诊断方法及相关装置

Info

Publication number: CN115881238A
Application number: CN202211224772.4A
Authority: CN
Inventors: 谭学敏; 郭超; 张江林
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-03-31

Abstract

本发明涉及模型训练技术领域，公开了模型训练方法、变压器故障诊断方法及相关装置，采用多滤波器半监督特征选择的变压器故障诊断方法，由于其模型训练采用置信度准则选择无标记DGA数据中置信度高的样本来扩展训练数据集，降低噪声的引入，使得可以利用有限的标记DGA数据和更多无标记的DGA数据建立故障诊断模型，以解决现有技术中单一过滤器特征选择过度依赖标记DGA数据的技术问题。

Description

模型训练方法、变压器故障诊断方法及相关装置

技术领域

本发明涉及模型训练技术领域，尤其涉及模型训练方法、变压器故障诊断方法及相关装置。

背景技术

电力变压器是电网中重要的输变电设备，承担着转换电压、传送电流的任务。若变压器在运行过程中出现严重故障，将危及电网的安全可靠运行。

油中溶解气体分析(DGA,Dissolved Gas Analysis)是电力变压器故障诊断最常用的方法，可以在不停电的状态下对油中多种气体数据实现监测，而且获得的数据连续性较好，油中溶解特征气体组成成分的占比和含量能反映故障类别及严重情况。现有技术中利用单一过滤器方法对变压器DGA数据进行特征选择，并对故障类型进行诊断。

但是，本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术方案至少存在如下技术问题：

由于单一过滤器特征选择需要大量标记故障类型的DGA数据用于建立模型，过少的标记数据建立的模型往往导致学习器泛化性能低下和故障诊断率的降低。而现场由于解体确定故障状态的变压器较少和变压器故障数据处于不透明状态等因素，需要耗费大量的人力物力才能获得可靠标记的DGA故障样本。

发明内容

本发明旨在采用置信度准则选择无标记DGA数据中置信度高的样本来扩展模型训练数据集，降低噪声的引入，以解决现有技术中单一过滤器特征选择过度依赖标记DGA数据的技术问题。

主要通过以下技术方案实现上述发明目的：

第一方面，模型训练方法，用于对变压器故障诊断模型进行训练，训练方法包括：

步骤1：获取训练样本集；

步骤2：将所述样本集划分为无标记训练集、第一标记训练集和验证集；

步骤3：根据所述样本集的候选特征和所述第一标记训练集对应的标签构建第一FLDA多分类器的变压器故障诊断模型；

步骤4：根据所述第一FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签；

步骤5：选取所述无标记训练集中置信度超过预设值的样本加入到所述第一标记训练集中，构成第二标记训练集；

步骤6：根据所述第二标记训练集及其对应的标签构建第二FLDA多分类器的变压器故障诊断模型；

步骤7：根据所述第二FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签；

步骤8：判断是否满足训练终止条件，若是，则训练终止；否则返回执行步骤5。

第二方面，模型训练装置，用于对变压器故障诊断模型进行训练，所述装置包括：

样本获取模块：用于获取训练样本集；

样本划分模块：用于将所述样本集划分为无标记训练集、第一标记训练集和验证集；

第一模型构建模块：根据所述样本集的候选特征和所述第一标记训练集对应的标签构建第一FLDA多分类器的变压器故障诊断模型；

第一计算模块：根据所述第一FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签；

训练集扩展模块：选取所述无标记训练集中置信度超过预设值的样本加入到所述第一标记训练集中，构成第二标记训练集；

第二模型构建模块：根据所述第二标记训练集及其对应的标签构建第二FLDA多分类器的变压器故障诊断模型；

第二计算模块：根据所述第二FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签；

判断模块：判断是否满足训练终止条件，若是，则训练终止；否则转到所述训练集扩展模块。

第三方面，变压器故障诊断方法，包括：

获取待诊断的DGA数据；

将所述待诊断的DGA数据输入变压器故障诊断模型，得到所述待诊断的DGA数据对应的最优特征子集；

其中所述变压器故障诊断模型是利用上述模型训练方法训练得到的。

第四方面，变压器故障诊断装置，包括：

DGA数据模块，用于获取待诊断的DGA数据；

故障诊断模块，用于将所述待诊断的DGA数据输入变压器故障诊断模型，得到所述待诊断的DGA数据对应的最优特征子集；

相较于现有技术的有益效果：本发明采用多滤波器半监督特征选择的变压器故障诊断方法，由于其模型训练采用置信度准则选择无标记DGA数据中置信度高的样本来扩展训练数据集，降低噪声的引入，使得可以利用有限的标记DGA数据和更多无标记的DGA数据建立故障诊断模型，以解决现有技术中单一过滤器特征选择过度依赖标记DGA数据的技术问题。

附图说明

图1为本发明实施例一提供的模型训练方法的流程示意图；

图2为本发明实施例二提供的模型训练方法的流程示意图；

图3为本发明实施例三提供的模型训练装置的结构示意图；

图4为本发明实施例四提供的变压器故障诊断方法的流程示意图；

图5为本发明实施例五提供的变压器故障诊断装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例一

模型训练方法，用于对变压器故障诊断模型进行训练，如图1所示，包括以下步骤：

步骤1：选取DGA数据构成用于模型训练的样本集。

需要说明的是，基于DGA的变压器故障被分为五类:低能放电(LED)、高能放电(HED)、中低温过热(LMT，低于700℃)、高温过热(HT,高于700℃)、和正常运行(N)。

本发明实施例中选取样本特征维数为64维(如下表1所示)，采用自适应合成抽样算法(ADASYN,Adaptive Synthetic Sampling Algorithm)将样本数量从158增加到242，平衡样本分布。其中ADASYN算法的主要思想是使用密度分布作为标准来自主决定需要为每个少数类样本生成的合成样本的数量。

然后对平衡后样本的候选特征进行反正切变换(AT,ArctangentTransformation)：

以及归一化处理：

其中x_ij和x'_ij分别表示第i个样本归一化前后的第j个特征值，x_j ^max和x_j ^min分别表示所有样本第j个特征的最大值和最小值。

表1 DGA数据候选特征集

步骤2：将所述样本集划分为无标记训练集、第一标记训练集和验证集。

将上述预处理后的DGA样本集按照20*5折交叉验证分为训练集D(194个样本)和验证集D_V(48个样本)，训练集分为标记训练集D_I(75个样本)和无标记扩展训练集D_F(119个样本)。

20*5折交叉验证是指将样本集平均分成5份，轮流将其中4份作为训练集，剩余1份作为独立测试集，将分类集随机排序20次，将构成100种不同的训练集和验证集的组合。

步骤3：根据所述样本集的候选特征和所述第一标记训练集对应的标签构建第一FLDA多分类器的变压器故障诊断模型。

步骤4：根据所述第一FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签。

利用表1所示的候选特征和标记训练集D_I(第一标记训练集)对应的标签，基于一对一(OAO,One-against-one)，建立Fisher线性判别分析(FLDA,Fisher LinearDiscrimination Analysis)多分类器的变压器故障诊断模型(第一FLDA多分类器的变压器故障诊断模型)，计算无标记训练集D_F中样本基于多分类器的判别分数，并预测无标记训练集D_F和验证集D_V中样本的标签，迭代次数m＝0。

FLDA的目标是找到一个变换矩阵W，使两类类间距离最大化和类内距离最小化。利用变换矩阵W和参数b计算判别分数f(x)如下所示：

f(x)＝Wx+b；

FLDA是用来解决二分类问题的，而变压器故障分类是多分类问题。因此，需要将FLDA扩展为多分类FLDA。本发明实施例中利用OAO实现多分类。OAO用于训练n*(n-1)/2个二分类器，其中n表示类别数。训练结束后，基于二分类器对所有无标记样本分别计算判别分数f_j(x)，其中j＝1,2,…,n*(n-1)/2。对无标记样本进行分类时，得票最多的类别为该无标记样本的分类结果。

步骤5：选取所述无标记训练集中置信度超过预设值的样本加入到所述第一标记训练集中，构成第二标记训练集。

在第m(m＝1,2,....)次迭代中，利用置信度评估准则，将无标记训练集D_F中置信度高的样本加入到标记训练集D_I中，构成新的标记训练集Q(m)，Q(m)的标签记为y_m(.)。

置信度评估准则：

在半监督学习过程中，有两个原因阻碍了分类器的性能：一是使用少量标记训练集无法获得可靠的初始模型，二是用于更新初始模型的无标记样本信息量不足。因此，从无标记的数据中找到一些高置信度的数据至关重要。本发明实施例提出了多类平均近距离(MNAD,Multi-class Nearest Average Distance)准则，从无标记训练集D_F中选取高置信度样本的来扩展标记训练集。该准则通过分析FLDA多分类器对无标记样本的判别分数实现。在提出的MNAD准则中，基于标记训练集使用OAO策略训练FLDA二分类器，根据每个无标记样本的多个判别分数(j＝1,2,…,n*(n-1)/2)进行投票，只考虑获得全部选票的样本(每个类别最多获得n-1票)，然后选择满足以下公式的样本用于在每次迭代中扩展标记训练集。

S＝Vote(X)_full(X∈D_F)；

value＝mean(scores(S))(S∈D_S)；

selectsamples＝{value＞h*mean(value)}；

其中S表示从无标记样本集中获得全部投票的样本，value和h分别表示平均决策得分和权重参数。

步骤6：根据所述第二标记训练集及其对应的标签构建第二FLDA多分类器的变压器故障诊断模型。

步骤7：根据所述第二FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签。

利用新的标记训练集Q(m)及其对应的标签，建立FLDA多分类器的变压器故障诊断模型，重新计算无标记训练集D_F中样本的基于多分类器的判别分数，并重新预测无标记训练集D_F和验证集D_V中样本的标签。

当迭代次数m大于1时，计算前后两次迭代(第m次和第(m-1)次)的无标记训练集D_F中不同预测标签的样本个数t(m)，当迭代满足预设的最大迭代次数或t(m)＝0时，训练终止，否则，转到步骤5继续执次第m+1次的迭代训练。本发明实施例中设置最大迭代次数设为10，因为10次迭代后正确率趋于稳定。

t(m)＝number(find(y_m(.)≠y_m-1(.)))(m＞1)；

其中number(.)表示满足括号中条件的样本个数。

相较于现有技术取得的技术效果：本发明采用多滤波器半监督特征选择的变压器故障诊断方法，由于其模型训练采用置信度准则选择无标记DGA数据中置信度高的样本来扩展训练数据集，降低噪声的引入，使得可以利用有限的标记DGA数据和更多无标记的DGA数据建立故障诊断模型，以解决现有技术中单一过滤器特征选择过度依赖标记DGA数据而现场又容易获得无标记DGA数据却无法使用的技术问题。

实施例二

模型训练方法，用于对变压器故障诊断模型进行训练，如图2所示，包括以下步骤：

步骤1：选取DGA数据构成用于模型训练的样本集。

在实施例一中步骤1～8已作详细说明，此处不再赘述。

步骤9：计算所述验证集中的最终迭代正确率，基于所述正确率利用多种不同过滤器对所述第二标记训练集的候选特征进行排序。

训练终止后，计算验证集D_V中样本的最终迭代正确率。

根据新的训练集Q(m)的候选特征和对应的最终标签，利用多个不同的过滤器：ReliefF、互信息(Mutual Information,MI)、无限潜在特征选择(Infinite LatentFeature Selection,ILFS)、最大相关性最小冗余性(Max-Relevance and Min-Redundancy,MRMR)和最小绝对值收敛和选择算子(Least absolute shrinkage andselection operator,Lasso)对候选特征进行排序。

步骤10：经过r*k折交叉验证，计算所述验证集中样本的平均正确率；针对每种过滤器获得r*k次所述第二标记训练集的候选特征排序结果，组成Rank矩阵，所述矩阵大小为(r*k)*c，c表示所述第二标记训练集的候选特征个数，(r*k)和c分别表示所述矩阵的行数和列数；

步骤11：根据所述矩阵，采用基于比例包裹式策略特征组合法选择最优特征子集。

经过20*5折交叉验证，计算验证集中样本的平均正确率。对于每种滤波器方法方法，获得100次排序结果的Rank矩阵(矩阵大小为100*64)。根据结果矩阵，采用基于比例包裹式策略特征组合法选择最优特征组合。

具体的，对各种滤波器方法，计算结果矩阵的每一列的总和，并对所有特征进行从小到大的排序。使用不同比例的特征执行20*5折交叉验证的半监督学习后，选择在验证集D_V上获得最好平均正确率的特征子集作为最优特征子集。5个不同的滤波器方法获得了5个最优特征子集。对不同滤波器方法的最优特征子集进行投票，这些被选择的频率大于两次的特征被保留下来，形成新的最优特征子集，否则丢弃。

基于相同的初始标记训练集，本发明实施例将多滤波器标准特征选择、单滤波器标准特征选择、标准无特征选择、多滤波器半监督特征选择、单滤波器半监督特征选择、半监督无特征选择算法经过20*5折交叉验证后在验证集上的变压器故障诊断的平均正确率进行对比。单滤波器选择MI作为滤波器。如表2所示。

算法	平均正确率(％)	选择的最优特征子集编号
			多滤波器标准特征选择	85.85	57,58,59,60,61,62,63,64
单滤波器标准特征选择	84.12	10,28,35,38,45,48,59,62
			标准无特征选择	62	1-64
多滤波器半监督特征选择	88.49	55,56,57,58,59,50,61,62,63,64
			单滤波器半监督特征选择	86.23	27,30,35,39,48,49,50,59,61,63
半监督无特征选择	55	1-64

表2不同算法获得的变压器故障诊断平均正确率和最优特征子集编号

由表2所示，除了无特征选择的算法，不管基于多滤波器还是单滤波器，半监督方法比标准方法能够获得更高的平均正确率，说明了通过使用无标记的样本扩展标记样本集的半监督算法能够优化标准算法的模型，提升故障诊断率。不管对标准算法还是半监督算法，利用多滤波器特征选择的算法比单滤波器特征选择能够更好的评估特征和类别的相关性，获得更好的最优特征子集，进一步提升故障诊断率。尽管如此，对无特征选择的算法，半监督学习比标准算法获得了更低的平均正确率，这是因为特征的冗余导致半监督初始模型的薄弱，随着迭代增加，引入的噪音会积累，导致正确率的降低，这也说明了半监督学习中特征选择的重要性。

通过当地电力公司提供的DGA数据集用于测试所提出方法选择的最优特征子集的鲁棒性，如表3所示：

表3不同方法选择的特征和对应的半监督平均正确率

表3展示了不同传统方法和本发明提出方法选择的特征子集，和在电力公司提供的DGA数据集上经过半监督20*5折交叉验证后所获得的平均故障诊断率。明显地，多滤波器半监督特征选择的故障诊断方法获得的平均正确率远远高于其他传统方法，说明了提出算法选择的最优特征子集的强鲁棒性。

由上可知，本发明实施例通过对IEC T10公共数据集对该方法进行了测试，并与传统的监督诊断模型进行了比较。结果表明，该方法能较好地优化DGA特征，显著提高变压器故障诊断正确率。此外，通过对当地供电公司的DGA样本集进行测试，验证了最优特征子集的强鲁棒性。

由于现有技术中单一过滤器特征选择方法不能全面、公正地利用所有信息来评估特征和类别的相关性，甚至可能导致次优特征子集的问题。因此，本发明实施例基于多滤波器半监督特征选择的变压器故障诊断方法，在半监督学习的框架下采用5种滤波技术对候选DGA特征进行排序，然后采用基于比例包裹式策略特征组合法对多个滤波器的特征进行融合，形成最优特征子集；解决了单一过滤器特征选择无法利用所有信息来评估特征和类别的相关性的问题，即，现有技术中单一过滤器特征选择方法不能全面、公正地利用所有信息来评估特征和类别的相关性，甚至可能导致次优特征子集的问题，并改善了数据的不平衡问题。

实施例三

模型训练装置，用于对变压器故障诊断模型进行训练，如图3所示，所述装置包括：

样本获取模块，用于获取训练样本集；

样本划分模块，用于将所述样本集划分为无标记训练集、第一标记训练集和验证集；

第一模型构建模块，根据所述样本集的候选特征和所述第一标记训练集对应的标签构建第一FLDA多分类器的变压器故障诊断模型；

第一计算模块，根据所述第一FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签；

训练集扩展模块，选取所述无标记训练集中置信度超过预设值的样本加入到所述第一标记训练集中，构成第二标记训练集；

第二模型构建模块，根据所述第二标记训练集及其对应的标签构建第二FLDA多分类器的变压器故障诊断模型；

第二计算模块，根据所述第二FLDA多分类器的变压器故障诊断模型计算所述无标记训练集中样本基于多分类器的判别分数，以及预测所述无标记训练集和所述验证集中样本的标签；

判断模块，判断是否满足训练终止条件，若是，则训练终止；否则转到所述训练集扩展模块。

在一个优选地实施例中，所述判断模块具体判断规则为：当满足以下两个条件中的任意一个时，则判定满足训练终止条件，否则判定不满足训练终止条件：迭代达到预设的最大迭代次数或者t(m)＝0；其中t(m)为任意相邻连续两次迭代的所述无标记训练集中的预测标签的样本个数。

在一个优选地实施例中，所述装置还包括第三计算模块：计算所述验证集中的最终迭代正确率，基于所述正确率利用多种不同过滤器对所述第二标记训练集的候选特征进行排序。

在一个优选地实施例中，所述装置还包括第四计算模块和最优特征子集选择模块，其中所述第四计算模块用于：经过r*k折交叉验证，计算所述验证集中样本的平均正确率；针对每种过滤器获得r*k次所述第二标记训练集的候选特征排序结果，组成Rank矩阵，所述矩阵大小为(r*k)*c，c表示所述第二标记训练集的候选特征个数，(r*k)和c分别表示所述矩阵的行数和列数；所述最优特征子集选择模块用于：根据所述矩阵，采用基于比例包裹式策略特征组合法选择最优特征子集。

本发明实施例模型训练装置是对应上述实施例模型训练方法，实现相应的功能。由于上述实施例中已经对模型训练方法的步骤进行了详细的说明，故在此装置中不再赘述。

实施例四

变压器故障诊断方法，如图4所示，包括以下步骤：

获取待诊断的DGA数据；

所述变压器故障诊断模型的具体训练方法可以参考实施例一、二。

实施例五

变压器故障诊断装置，如图5所示，包括：

DGA数据模块，用于获取待诊断的DGA数据；

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.模型训练方法，其特征在于，用于对变压器故障诊断模型进行训练，训练方法包括：

步骤1：获取训练样本集；

2.如权利要求1所述的模型训练方法，其特征在于，所述判断是否满足训练终止条件，具体包括：

当满足以下两个条件中的任意一个时，则判定满足训练终止条件，否则判定不满足训练终止条件：迭代达到预设的最大迭代次数或者t(m)＝0；其中t(m)为任意相邻连续两次迭代的所述无标记训练集中的预测标签的样本个数。

3.如权利要求2所述的模型训练方法，其特征在于，所述训练终止之后，所述方法还包括：

4.如权利要求3所述的模型训练方法，其特征在于，所述步骤9之后还包括：

5.模型训练装置，其特征在于，用于对变压器故障诊断模型进行训练，所述装置包括：

样本获取模块：用于获取训练样本集；

6.如权利要求5所述的模型训练装置，其特征在于，所述判断模块具体判断规则为：当满足以下两个条件中的任意一个时，则判定满足训练终止条件，否则判定不满足训练终止条件：迭代达到预设的最大迭代次数或者t(m)＝0；其中t(m)为任意相邻连续两次迭代的所述无标记训练集中的预测标签的样本个数。

7.如权利要求6所述的模型训练装置，其特征在于，所述装置还包括第三计算模块：计算所述验证集中的最终迭代正确率，基于所述正确率利用多种不同过滤器对所述第二标记训练集的候选特征进行排序。

8.如权利要求7所述的模型训练装置，其特征在于，所述装置还包括第四计算模块和最优特征子集选择模块，其中所述第四计算模块用于：经过r*k折交叉验证，计算所述验证集中样本的平均正确率；针对每种过滤器获得r*k次所述第二标记训练集的候选特征排序结果，组成Rank矩阵，所述矩阵大小为(r*k)*c，c表示所述第二标记训练集的候选特征个数，(r*k)和c分别表示所述矩阵的行数和列数；所述最优特征子集选择模块用于：根据所述矩阵，采用基于比例包裹式策略特征组合法选择最优特征子集。

9.变压器故障诊断方法，其特征在于，包括：

获取待诊断的DGA数据；

其中所述变压器故障诊断模型是利用如权利要求1～4任一项所述的模型训练方法训练得到的。

10.变压器故障诊断装置，其特征在于，包括：

DGA数据模块，用于获取待诊断的DGA数据；