CN117235565A

CN117235565A - 一种变压器故障诊断模型构建方法和装置

Info

Publication number: CN117235565A
Application number: CN202310903784.8A
Authority: CN
Inventors: 戴小伟; 陈琴芳; 张钰; 王建兵
Original assignee: State Grid Zhejiang Electric Power Co Ltd Hangzhou Linping District Power Supply Co
Current assignee: State Grid Zhejiang Electric Power Co Ltd Hangzhou Linping District Power Supply Co
Priority date: 2023-07-20
Filing date: 2023-07-20
Publication date: 2023-12-15

Abstract

本发明公开了一种变压器故障诊断模型构建方法和装置，该方法包括：获取变压器故障样本数据；采用无编码比值法构造绝缘油中溶解气体特征，得到特征数据集；使用最近邻三角区域过采样方法对特征数据集进行平衡处理，得到平衡数据集；对特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集；将待诊断的变压器绝缘油中溶解气体的含量，输入变压器故障诊断模型，得到变压器的故障状况。本方案采用最近邻三角区域过采样方法提高了样本数据的均衡性，采用多维尺度变换算法进行降维处理，进一步提高了故障诊断模型的精度，并且采用遗传算法对预设的梯度提升模型进行训练，提高了故障诊断的准确性。

Description

一种变压器故障诊断模型构建方法和装置

技术领域

本发明涉及电力技术领域，尤其涉及一种变压器故障诊断模型构建方法和装置。

背景技术

油浸式变压器在输变电系统中具有至关重要的作用，其健康状态直接决定着电力系统的安全与稳定。然而，由于不能及时了解变压器的健康状态，有较大部分变压器运行年限较长，存在绝缘老化等故障隐患。

当油浸式变压器出现绝缘老化问题，会产生气体溶解在绝缘油中，通过油中溶解气体含量可以反映出变压器不同的故障类型。溶解气体的含量变化目前广泛采用的三比值法、CUSU法以及罗杰斯比值法等，上述方法都存在一定的局限性，例如编码不足、阈值不够精确以及无法进行现场检测等。

随着机器学习技术的发展，研究人员逐渐将机器学习引入到变压器故障诊断中。然而机器学习需要大量训练样本支撑，但在实际工作中变压器发生故障的概率很低，且不同故障发生的概率差异性较大，这导致采集的样本数量较少且分布不均衡，这种不平衡小样本难以满足人式智能诊断方法参数寻优及训练的需求，在识别过程中易造成对少数类样本误判问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，为此，本发明第一方面提出一种变压器故障诊断模型构建方法，所述方法包括：

获取变压器故障样本数据；所述故障样本数据包括多种故障类型的变压器的绝缘油中的溶解气体的含量；

采用无编码比值法构造所述绝缘油中溶解气体特征，得到特征数据集；所述无编码比值法指所述绝缘油中各种主要气体成分的相互占比；

使用最近邻三角区域过采样方法对所述特征数据集进行平衡处理，得到平衡数据集；

对所述特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集；

利用所述目标数据集和遗传算法对预设的梯度提升模型进行训练，得到变压器故障诊断模型；

将待诊断的变压器绝缘油中溶解气体的含量，输入所述变压器故障诊断模型，得到所述变压器的故障状况。

可选地，所述使用最近邻三角区域过采样方法对采集到的变压器故障样本数据进行平衡处理，包括：

对所述变压器故障样本数据进行聚类，得到少数类样本区域和多数类样本区域；

在所述少数类样本区域内按照预设规则生成多个人工样例；

检测所述人工样例最近邻样例的类别；

若所述最近邻样例与所述人工样例为同类，则将所述人工样例保留；

若所述最近邻样例与所述人工样例不同类，则将所述人工样例删除，得到平衡数据集。

可选地，所述在所述少数类样本区域内按照预设规则生成多个人工样例，包括：

在所述少数类样本区域内随机选取多个少数类样例；

对于每个所述少数类样例，获取与所述少数类样例距离最近的两个近邻少数类样例，得到第一近邻样例和第二近邻样例；

利用随机函数生成一个0与1之间的随机数；

基于所述少数类样例、所述第一近邻样例、所述第二近邻样例和所述随机数，生成人工样例。

可选地，所述对所述特征数据集采用多维尺度变换算法进行降维处理，包括：

计算所述特征数据集中的任意两个样本之间的欧氏距离，基于所述欧氏距离生成距离矩阵；

计算所述距离矩阵的双重中心化矩阵；

对所述双重中心化矩阵进行特征值分解，得到特征值矩阵和所述特征值矩阵对应的特征向量矩阵；

将所述特征值矩阵中的多个特征值由高至低依次排序，获取排序在前N个的所述特征值组成第一矩阵；将所述特征向量矩阵中的多个特征向量由高至低依次排序，获取排序在前N个的所述特征向量组成第二矩阵；N＞1，N为自然数；

将所述第一矩阵的1/2次方与所述第二矩阵进行内积计算，并将计算得到的矩阵作为所述特征数据集的降维矩阵。

可选地，所述利用所述目标数据集对预设的梯度提升模型进行训练，包括：

将所述目标数据集中的样本数据按照预设比例分为训练集、验证集和测试集；

利用所述训练集中的样本数据构建梯度提升模型，并设置所述梯度提升模型的初始参数；

利用所述训练集对所述梯度提升模型进行多次训练，并利用遗传算法对所述初始参数进行调整，直至所处训练次数达到预设的最大迭代次数或所述训练结果满足终止条件，训练结束，得到变压器故障诊断模型。

可选地，在得到特征数据集之后，还包括：

根据所述特征数据集中的特征数据的均值和标准差，对所述特征数据集中的特征数据进行标准化处理。

可选地，所述采用无编码比值法构造所述绝缘油中溶解气体特征，包括：

获取所述绝缘油中的各种溶解气体的含量，所述溶解气体包括H₂、CH₄、C₂H₄、C₂H₂、C₂H₆；

根据所述溶解气体构成的18组特征气体比例关系，构造所述溶解气体的18维特征数据，所述特征数据包括特征编码和特征量。

本发明第二方面提出一种变压器故障诊断模型构建装置，所述装置包括：

样本数据获取模块，用于获取变压器故障样本数据；所述故障样本数据包括多种故障类型的变压器的绝缘油中的溶解气体的含量；

特征构建模块，用于采用无编码比值法构造所述绝缘油中溶解气体特征，得到特征数据集；所述无编码比值法指所述绝缘油中各种主要气体成分的相互占比；

平衡处理模块，用于使用最近邻三角区域过采样方法对所述特征数据集进行平衡处理，得到平衡数据集；

降维处理模块，用于对所述特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集；

训练模块，用于利用所述目标数据集和遗传算法对预设的梯度提升模型进行训练，得到变压器故障诊断模型；

诊断模块，用于将待诊断的变压器绝缘油中溶解气体的含量，输入所述变压器故障诊断模型，得到所述变压器的故障状况。

本发明第三方面提出一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的变压器故障诊断模型构建方法。

本发明第四方面提出一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的变压器故障诊断模型构建方法。

本发明实施例具有以下有益效果：

本发明实施例提供的变压器故障诊断模型构建方法，获取变压器故障样本数据；所述故障样本数据包括多种故障类型的变压器的绝缘油中的溶解气体的含量；采用无编码比值法构造所述绝缘油中溶解气体特征，得到特征数据集；所述无编码比值法指所述绝缘油中各种主要气体成分的相互占比；使用最近邻三角区域过采样方法对所述特征数据集进行平衡处理，得到平衡数据集；对所述特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集；利用所述目标数据集和遗传算法对预设的梯度提升模型进行训练，得到变压器故障诊断模型；将待诊断的变压器绝缘油中溶解气体的含量，输入所述变压器故障诊断模型，得到所述变压器的故障状况。本方案采用最近邻三角区域过采样方法提高了样本数据的均衡性，采用多维尺度变换算法进行降维处理，有效地避免了冗余信息出现，同时减少了计算量，进一步提高了故障诊断模型的精度，并且采用遗传算法对预设的梯度提升模型进行训练，提高了模型对变压器故障诊断的准确性。

附图说明

图1为本发明实施例提供的一种变压器故障诊断模型构建方法的步骤流程图；

图2为本发明实施例提供的采用两种方法生成人工样例的示意图；

图3为本发明实施例提供的一种变压器故障诊断模型构建方法的逻辑流程图；

图4为本发明实施例提供的一种变压器故障诊断模型构建装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

图1为本发明实施例提供的一种变压器故障诊断模型构建方法的步骤流程图。如图1所示，该方法包括如下步骤。

步骤101、获取变压器故障样本数据；所述故障样本数据包括多种故障类型的变压器样本中的绝缘油的溶解气体的含量。

当油浸式变压器出现绝缘老化问题，会产生H₂、CH₄、C₂H₄、C₂H₂、C₂H₆、CO₂以及CO等气体溶解在绝缘油中，通过溶解气体的含量可以反映出变压器不同的故障类型。

因此，故障样本数据为变压器的绝缘油中的溶解气体的含量。该故障样本数据可以来源于电力变压器DGA数据集，也可以来源于供电公司自己采集的变压器故障样本。

变压器的故障类型包括中温过热、中低温过热、高温过热、放电兼过热、局部放电、低能放电、高能放电等。

示例性地，本方案共收集某供电公司的变压器故障样本425例，样本的类别、对应标签、样本数量以及占比如表1所示。

其中，局部放电类、中低温过热类和放电兼过热类样本数量占据总样本数的6.82％、4％和7.77％，体现了样本的不均衡性。

表1类别标签及样本分布

步骤102、用无编码比值法构造所述绝缘油中溶解气体特征，得到特征数据集；所述无编码比值法指所述绝缘油中各种气体成分的相互占比。

无编码比值法指绝缘油中各种主要气体成分的相互占比。

相比于传统的三比值法只有三种气体成分的比值，无编码比值法包括各种主要气体成分的相互占比，具有更丰富的特征，可以有效地弥补传统比值法编码的缺陷，从而提高诊断精确度。

在一种可能的实施方式中，所述采用无编码比值法构造所述绝缘油中溶解气体特征，包括：

步骤1021、获取所述绝缘油中的各种溶解气体的含量，所述溶解气体包括H₂、CH₄、C₂H₄、C₂H₂、C₂H₆；

步骤1022、根据所述溶解气体构成的18组特征气体比例关系，构造所述溶解气体的18维特征数据，所述特征数据包括特征编码和特征量。

在步骤1021-步骤1022中，能够反映变压器故障类型的气体主要成份包括H₂、CH₄、C₂H₄、C₂H₂和C₂H₆，因此，获取绝缘油中上述多种溶解气体的含量。

本方案对故障样本数据采用无编码比值法构造绝缘油中溶解气体18维特征，具体的绝缘油中溶解气体特征与各特征量对应的特征编码如表2所示。其中，THC＝CH₄+C₂H₂+C₂H₄+C₂H₆，ALL＝H₂+CH₄+C₂H₂+C₂H₄+C₂H₆。

表2绝缘油中溶解气体特征编码及特征量

步骤103、使用最近邻三角区域过采样方法对所述特征数据集进行平衡处理，得到平衡数据集。

传统方法中解决不平衡数据集的训练问题主要采用欠采样方法或过采样方法。然而欠采样方法易造成有效信息的丢失，较少应用于变压器故障诊断中。过采样算法则是生成少数类样本以平衡各故障类别的样本数目。

目前应用最为广泛的是合成少数过采样技术(Synthetic Minority Over-sampling Technique,SMOTE)，但SMOTE方法生成样例存在一定的缺陷。

图2为本发明实施例提供的采用两种方法生成人工样例的示意图。

图2(a)为采用SMOTE方法生成人工样例的示意图。

如图2(a)所示，生成的人工样例有一定概率位于类别界线上，甚至跨过类别界线侵入到多数类样例的领域。为了避免这种状况，本方案提出了一种最近邻三角区域过采样方法(the nearest neighbor triangle regions synthetic minority oversamplingtechnique,NNTR-SMOTE)。该方法通过在最近的少数类样本形成的三角区域内构建少量的样本，以达到避免出现跨界样本的目的。

图2(b)为采用NNTR-SMOTE方法生成人工样例的示意图。

可以发现，图2(b)中生成的人工样例均位于少数类样例区域，没有位于类别界线上和位于多数类样例区域的。

在一种可能的实施方式中，步骤103包括：

步骤1031、对所述变压器故障样本数据进行聚类，得到少数类样本区域和多数类样本区域；

步骤1032、在所述少数类样本区域内按照预设规则生成多个人工样例；

步骤1033、检测所述人工样例最近邻样例的类别；

步骤1034、若所述最近邻样例与所述人工样例为同类，则将所述人工样例保留；

步骤1035、若所述最近邻样例与所述人工样例不同类，则将所述人工样例删除，得到平衡数据集。

在步骤1031-步骤1035中，通过聚类得到多数类样本区域和少数类样本区域，通过最近邻三角区域过采样方法在少数类样本区域生成人工样例。

在全部新的样例都生成后，再检测其最近邻样例的类别，如果最近邻样例与人工样例为同类，则将人工样例保留；如果最近邻样例与人工样例不同类，则将人工样例删除。这样，少数类样本区域内生成了多个人工样例，使得少数类样本区域的样本数增多，得到相对平衡的样本数据。

处理前后的样本数量对比如表3所示。

表3样本数量处理前后对比

为直观展现出最近邻三角区域过采样方法可以在保留少数类样本数据特征前提下扩充样本数量，按类别采用t-分布随机嵌入法(t-distributed Stochastic NeighborEmbedding,t-SNE)将采样前后数据映射到二维空间进行可视化处理，可视化处理后可以发现，采用最近邻三角区域过采样方法前后不同类型故障的数据分布趋势基本相同，表明本方案采用的方法能较好地保留原始数据的特征。

本文将采集到的原始样本数据与分别采用NNTR-SMOTE、SMOTE-ENN、ADASYN、SMOTE和随机过采样处理后的数据，应用于故障诊断中，最终的诊断对比结果如表4所示。结果表明：未经平衡处理的原始数据集诊断准确率为86.32％，Kappa系数为0.8542，在采用过采样后，诊断精度均有不同程度提升。其中，本文所提方法准确率达到95.97％，Kappa系数达到0.9542，与其他方法相比，诊断准确率分别提升了2.71％、4.22％、5.41％、6.65％，Kappa系数分别提升了0.0147、0.0409、0.0581、0.0693。证明本文所提方法有效解决了数据分布不均衡的情况。避免了非均衡数据集导致诊断结果更偏向于多数类，导致故障诊断准确率降低的情况发生。

表4不同采样方法下的诊断结果

在一种可能的实施方式中，步骤1032包括：

步骤10321、在所述少数类样本区域内随机选取多个少数类样例；

步骤10322、对于每个所述少数类样例，获取与所述少数类样例距离最近的两个近邻少数类样例，得到第一近邻样例和第二近邻样例；

步骤10323、利用随机函数生成一个O与1之间的随机数；

步骤10324、基于所述少数类样例、所述第一近邻样例、所述第二近邻样例和所述随机数，生成人工样例。

在步骤10321-步骤10324中，在少数类样本区域内随机选取多个少数类样例，针对每个少数类样例，获取与其距离最近的两个近邻少数类样例，并利用公式(1)生成一个新的人工样例y_new。

y_new＝y₂+rand(0，1)[y₀+rand(0，1)(y₁-y₀)-y₂] (1)

其中，y₀为随机选取的少数类样例，y₁、y₂为y₀的两个近邻少数类样例，y_new表示新的人工样例。rand(0，1)表示利用随机函数生成一个0与1之间的随机数。

步骤104、对所述特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集。

为避免故障特征中存在冗余信息，同时减少计算量，需采用多维尺度变换算法(Multidimensional Scaling，MDS)对构建的18维联合特征进行降维处理。

MDS算法的原理是利用成对的样本之间的相似度来提取低维空间的特征，使得该低维空间中，各样本之间的距离与其在高维空间中的距离保持高度的相似性。

MDS算法对数据进行降维时要设定降维后维数，因此对经设定降维后维数为1-6维的MDS处理后的数据进行对比，结果如表5所示。

表5不同维数降维指标

由于对数据进行降维时要求降维质量高的同时又要求降维损失小，因此以降维损失S_stress＜0.02，降维质量QLG＞0.65作为选择标准，最终设定MDS降维后维数为二维。

评价降维能力时，通常使用降维时间、降维损失以及降维质量作为评价指标。其中，降维损失可通过压力函数来表示，具体数学表达式见式(2)；降维质量可通过局部连续性元标准(The Local Continuity Meta-Criterion，LCMC)来评价，具体数学表达式见式(3)。

式中：d_ij是降维后的第i、j个对象间的空间距离。M表示邻域的大小，N表示样本数，q_i，j表示重叠数。

LCMC通过检查相邻的数据样本集合与其相应重叠镶嵌程度来评估降维算法的性能。输出参数包括QL、QG和QLG，分别表示具有最高LCMC值的数据坐标左侧的平均值、具有最高LCMC值的数据坐标右侧的平均值和QL及QG的平均值。QL和QG值越接近1表示降维质量越好。S_stress值越接近O表示拟合高维效果越好，即降维损失越小。

在一种可能的实施方式中，所述对所述特征数据集采用多维尺度变换算法进行降维处理，包括：

步骤1041、计算所述特征数据集中的任意两个样本之间的欧氏距离，基于所述欧氏距离生成距离矩阵。

计算m个d维样本之间的欧氏距离σ，生成距离矩阵Δ。假设有m个d维样本，样本间的欧式距离定义为：

步骤1042、计算所述距离矩阵的双重中心化矩阵。

矩阵Δ的双重中心化矩阵为：

步骤1043、对所述双重中心化矩阵进行特征值分解，得到特征值矩阵和所述特征值矩阵对应的特征向量矩阵。

由于矩阵具有对称性和半正定性，可以通过奇异值分解对其进行处理，从而得到结果。奇异值分解公式如下：

其中，∧是由的特征值组成的矩阵，即特征值矩阵，而U则是由/>的特征向量组成的矩阵，即特征向量矩阵。

步骤1044、将所述特征值矩阵中的多个特征值由高至低依次排序，获取排序在前N个的所述特征值组成第一矩阵；将所述特征向量矩阵中的多个特征向量由高至低依次排序，获取排序在前N个的所述特征向量组成第二矩阵；N＞1，N为自然数。

为了更好地表达特征值和特征向量组成的矩阵，需要分别将特征值和特征向量由高至低依次排列，并分别取前N个较大的值组成第一矩阵和第二矩阵。

步骤1046、将所述第一矩阵的1/2次方与所述第二矩阵进行内积计算，并将计算得到的矩阵作为所述特征数据集的降维矩阵。

通过式(9)可推算出降维后的矩阵X：

其中，U为特征向量组成的第二矩阵，∧为特征值组成的第一矩阵。

步骤105、利用所述目标数据集和遗传算法对预设的梯度提升模型进行训练，得到变压器故障诊断模型；

梯度提升模型(eXtreme Gradient Boosting，XGBoost)，使用多棵CART作为基分类器，并将它们通过梯度提升的方式进行集成。

具体XGBoost模型构建如下：

对于一个有n个样本、m个特征的数据集D＝{(x_i，y_i)}(x_i∈R^m，y_i∈R)，K棵CART最终预测输出为：

F＝{f(x)＝ω_q(x)}q：R^m→T，ω∈R^T (10)

其中，每个函数f_k都代表一棵独立的树；它的结构向量q表示样本指向的叶子标签；F表示CART组成的集合；ω_i表示第i个节点的分数，即每棵CART的每个叶子节点都会有一个连续的分数值，也就是权重；ω_q(x)表示模型的预测值，即对样本x的评分；T表示叶子节点个数；每一个样本都会被CART根据特定的分类标准分配到一系列的叶子节点，并且通过计算每一个叶子的分数ω来确定最终的预测结果。

为对模型中的函数集合进行学习，最小化以下正态分布标准化目标：

上述公式中，φ为模型中的函数集合；γ和λ是调节模型复杂性的正态分布标准化参数，它们的数值越高，模型就会更难过拟合。式(12)为凸损失函数并具有可微的性质。其中，为损失函数，能够表示实际情况与CART预测情况间的差异性；∑_kΩ(f_k)为正则项，通过其限制模型的复杂程度。通过引入该正则项，可以有效地调整每个叶片的权重，从而防止出现过分拟合的情形。

由于传统方法具有局限性，无法优化上述以函数作为参数的目标函数，因此选择了一种更有效的方式一一加法学习。一般情况下，由一个常数开始训练预测能力，在每轮迭代中添加新的函数对当前模型进行学习。记为第i个样本在第t次训练中的预测值，寻找一个最优的新函数f_t，以最大限度地降低目标函数。第t次训练中的预测值等于第t-1次训练中的预测值与f_t之和。

为快速优化目标函数，对损失函数L^(t)二阶泰勒展开，可得：

其中，gi为损失函数的一阶梯度、h_i为二阶梯度。将常数项移除，可以得到第t次训练的简化目标函数为：

定义叶子节点j中的样本编号集合，以便更好地理解和分析数据：

I_j＝{i|q(x_i)＝j} (19)

其中，q(x_i)为x_i对应的叶子标签值。

则根据式(19)，可以将式(18)写为：

对于固定结构q，其叶子节点j的最优权重如式(21)所示。

根据式(21)，可以得出一个最佳的目标函数，其可用于评价CART结构q的质量。

在一种可能的实施方式中，所述利用所述目标数据集对预设的梯度提升模型进行训练，包括：

步骤1051、将所述目标数据集中的样本数据按照预设比例分为训练集、验证集和测试集。

步骤1052、利用所述训练集中的样本数据构建梯度提升模型，并设置所述梯度提升模型的初始参数；

步骤1053、利用所述训练集对所述梯度提升模型进行多次训练，并利用遗传算法对所述初始参数进行调整，直至所处训练次数达到预设的最大迭代次数或所述训练结果满足终止条件，训练结束，得到变压器故障诊断模型。

在步骤1051-步骤1053中，将遗传算法(Genetic Algorithm，GA)引入梯度提升模型中，有效地解决了传统优化方法，如交叉验证和网格搜索参数寻优的缺陷，并能够同时优化多个超参数，从而大大提升变压器故障诊断的准确性。

在模型训练过程中，迭代次数、学习率η、决策树的最大深度d_max、随机样本的抽取比例r_subsample、特征的抽取比例r_colsample、决策树节点分裂标准γ_split都会对模型学习能力和分类性能产生影响。因此本文选取以上6个超参数，采用遗传算法进行优化，以提高梯度提升模型的性能。

综上所述，目标梯度提升模型的训练步骤如下：

示例性地，将经过MDS算法降维处理后的数据中60％划分为训练集，20％划分为测试集，20％划分为验证集，具体分配情况如表6所示。

表6降维后数据分配情况

XGBoost的初始参数预设为：特征的抽取比例r_colsample＝1；决策树的最大深度d_max＝6；学习率η＝0.3；、决策树节点分裂标准γ_split＝0；、随机样本的抽取比例r_subsample＝1；当得到最大迭代次数时，得到最优GA-XGBoost(基于遗传算法的梯度提升模型)分类器，最后将测试集输入至最优分类器中，得到混淆矩阵。

基于混淆矩阵中数据，计算出各状态的查全率precision、查准率recall、误报率FNR、漏报率FPR与诊断模型的Kappa系数如表7所示。

表7 GA-XGBoost模型评价指标

由表7可知，在测试集149个样本中被正确诊断的数目为143个，总正确率为95.97％。其中，中低温过热、局部放电、高能放电故障诊断准确率为100％。另外，诊断模型的Kappa系数为0.9542，进一步验证了本方案中所提供的模型故障识别准确率高。

步骤106、将待诊断的变压器绝缘油中溶解气体的含量，输入所述变压器故障诊断模型，得到所述变压器的故障状况。

在变压器故障诊断模型构建成功后，即可进行变压器的故障诊断。具体地，将待诊断的变压器绝缘油中溶解气体的含量，输入变压器故障诊断模型，得到变压器的故障状况。

结果表明：在输入特征相同的情况下，本方案中的变压器故障诊断模型相比其他及其他诊断模型准确率均有提升。另外，从查全率和查准率等评价指标方面来看，本方案所提方法相较于其他诊断模型表现较为稳定；从Kappa系数角度上看，本文所提方法达到0.9542，即几乎完全一致。进一步说明了本文所提特征提取方法和故障诊断模型的有效性。

在一种可能的实施方式中，在得到特征数据集之后，还包括：

步骤201、根据所述特征数据集中的特征数据的均值和标准差，对所述特征数据集中的特征数据进行标准化处理。

能够反映变压器故障类型的气体主要成份包括H₂、CH₄、C₂H₄、C₂H₂和C₂H₆。由于这些气体的含量差异很大，如果直接将它们作为样本进行检测，可能会对诊断精度造成不利影响。因此，本方案采用式(23)对采集到的样本数据进行标准化处理。

其中，x表示特征数据集中的任意一个特征数据，μ为特征数据集的均值，σ为特征数据集的标准差，x′为x标准化之后的结果。

图3为本发明实施例提供的一种变压器故障诊断模型构建方法的逻辑流程图。

如图3所示，在得到DGA数据集后，对数据集进行标准化处理、采用NNTR-SMOTE方法进行平衡化处理，采用无编码比值法构造绝缘油中溶解气体特征，得到特征数据集。

将特征数据集采用MDS特征融合算法进行降维处理，最终得到降维后的样本X。将样本X分为训练集、验证集和测试集，训练集用于建立XGBoost模型并设置参数，验证集用于进行模型训练过程中的参数优化，在模型训练达到终止条件时，模型中的参数为最优参数。测试集用于对诊断模型的诊断结果进行验证，最终得到变压器故障诊断模型。

综上，在本发明实施例中，获取变压器故障样本数据；所述故障样本数据包括多种故障类型的变压器的绝缘油中的溶解气体的含量；采用无编码比值法构造所述绝缘油中溶解气体特征，得到特征数据集；所述无编码比值法指所述绝缘油中各种主要气体成分的相互占比；使用最近邻三角区域过采样方法对所述特征数据集进行平衡处理，得到平衡数据集；对所述特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集；利用所述目标数据集和遗传算法对预设的梯度提升模型进行训练，得到变压器故障诊断模型；将待诊断的变压器绝缘油中溶解气体的含量，输入所述变压器故障诊断模型，得到所述变压器的故障状况。本方案所采用的最近邻三角区域过采样方法能够有效解决变压器故障诊断中样本不均衡导致诊断准确率低的问题。并且，利用多维尺度变换算法进行特征融合，有效的避免了冗余信息出现，同时减少了计算量，进一步提高了故障诊断模型的精度。相比于其它诊断模型，本方案所提的变压器故障诊断模型准确率达到95.97％，Kappa系数达到0.9542，表明变压器故障诊断模型具有更好的准确性。

图4是本发明实施例提供的一种变压器故障诊断模型构建装置的结构框图。如图4所示，该变压器故障诊断模型构建装置300包括：

样本数据获取模块301，用于获取变压器故障样本数据；所述故障样本数据包括多种故障类型的变压器的绝缘油中的溶解气体的含量；

特征构建模块302，用于采用无编码比值法构造所述绝缘油中溶解气体特征，得到特征数据集；所述无编码比值法指所述绝缘油中各种主要气体成分的相互占比；

平衡处理模块303，用于使用最近邻三角区域过采样方法对所述特征数据集进行平衡处理，得到平衡数据集；

降维处理模块304，用于对所述特征数据集采用多维尺度变换算法进行降维处理，将得到的降维矩阵作为目标数据集；

训练模块305，用于利用所述目标数据集和遗传算法对预设的梯度提升模型进行训练，得到变压器故障诊断模型；

诊断模块306，用于将待诊断的变压器绝缘油中溶解气体的含量，输入所述变压器故障诊断模型，得到所述变压器的故障状况。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种变压器故障诊断模型构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述使用最近邻三角区域过采样方法对采集到的变压器故障样本数据进行平衡处理，包括：

在所述少数类样本区域内按照预设规则生成多个人工样例；

检测所述人工样例最近邻样例的类别；

3.根据权利要求2所述的方法，其特征在于，所述在所述少数类样本区域内按照预设规则生成多个人工样例，包括：

在所述少数类样本区域内随机选取多个少数类样例；

利用随机函数生成一个0与1之间的随机数；

4.根据权利要求1所述的方法，其特征在于，所述对所述特征数据集采用多维尺度变换算法进行降维处理，包括：

计算所述距离矩阵的双重中心化矩阵；

5.根据权利要求1所述的方法，其特征在于，所述利用所述目标数据集对预设的梯度提升模型进行训练，包括：

6.根据权利要求1所述的方法，其特征在于，在得到特征数据集之后，还包括：

7.根据权利要求1所述的方法，其特征在于，所述采用无编码比值法构造所述绝缘油中溶解气体特征，包括：

8.一种变压器故障诊断模型构建装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的变压器故障诊断模型构建方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一项所述的变压器故障诊断模型构建方法。