CN115952456A

CN115952456A - 故障诊断模型的确定方法、系统、程序产品及存储介质

Info

Publication number: CN115952456A
Application number: CN202211592002.5A
Authority: CN
Inventors: 刘森; 叶育林; 张平; 赵禹; 柳强; 许玮; 景蕊春; 谭芝; 杨光
Original assignee: China General Nuclear Power Corp; China Nuclear Power Engineering Co Ltd; CGN Power Co Ltd; Shenzhen China Guangdong Nuclear Engineering Design Co Ltd
Current assignee: China General Nuclear Power Corp; China Nuclear Power Engineering Co Ltd; CGN Power Co Ltd; Shenzhen China Guangdong Nuclear Engineering Design Co Ltd
Priority date: 2022-12-12
Filing date: 2022-12-12
Publication date: 2023-04-11

Abstract

本发明涉及了一种故障诊断模型的确定方法、系统、程序产品及存储介质，该故障诊断模型的确定方法包括：获取不同运行状态的多个变压器的气体数据，并通过对气体数据进行预处理来获取每个变压器的N1个气体特征，且根据每个变压器的运行状态及N1个气体特征，生成样本数据集；将样本数据集划分为训练集及测试集，并根据训练集构建初始的随机森林模型；使用训练集，对初始的随机森林模型的输入特征及模型参数进行优化，以获取更新后的随机森林模型；使用测试集，对更新后的随机森林模型进行验证，并在满足第一预设条件时，将更新后的随机森林模型作为变压器故障诊断模型。通过该技术方案，可提高变压器故障的诊断精度及缩短变压器故障的诊断时间。

Description

故障诊断模型的确定方法、系统、程序产品及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种故障诊断模型的确定方法、系统、程序产品及存储介质。

背景技术

变压器是电力系统正常工作的重要组成部分，故对变压器的故障进行及时准确的诊断极为重要。变压器故障诊断常用DGA(Dissolved Gas-in-oil Analysis，基于变压器油中溶解气体的分析)诊断方法，例如，基于H2、CH4、C2H4、C2H6以及C2H2等溶解气体的浓度而提出的改良三比值法、无编码比值法、Rogers比值法等，但这些方法存在判定边界过于绝对、编码不全和适应性差等问题。

随着机器学习、人工智能等技术领域发展成熟，各种新兴的诊断方式逐渐被应用到变压器故障诊断领域，例如，支持向量机、极限学习机、人工神经网络等。运用上述智能诊断方式进行变压器故障诊断虽然有效的提高了故障诊断的正确率，但仍然存在着一些不足，例如，采用支持向量机的诊断效果易受不平衡数据集的影响，对少样本数据类别分类效果差；采用极限学习机的诊断未能考虑结构化风险，易出现过度拟合导致泛化能力差的问题；采用人工神经网络需要大量数据样本训练模型，学习成本高，对于变压器故障诊断存在训练不充分的问题。

另外，机器学习所选用的故障特征大部分从传统的DGA诊断方式中获取，即，所用的输入特征量是基于溶解气体的浓度以及相应的比值关系所构建的特征集合，但是，由于传统的IEC三比值法、无编码比值法以及Rogers比值法等诊断方法中所用气体特征均存在差异，且单一的诊断方式下气体特征都存在不足：三比值法和Rogers比值法分别将五种气体含量构成三组比值以及四组比值进行编码，对数据信息利用不足，影响变压器故障的诊断精度；而无编码比值法所构成的九组数据虽然扩大了特征空间，但一些奇特特征对对变压器的故障诊断影响较小，也会影响变压器故障的诊断时间。

发明内容

本发明要解决的技术问题在于，针对现有技术存在的变压器故障的诊断精度差、诊断时间长的缺陷，提供一种故障诊断模型的确定方法、系统、程序产品及存储介质。

本发明解决其技术问题所采用的技术方案是：构造一种故障诊断模型的确定方法，包括：

预处理步骤：获取不同运行状态的多个变压器的气体数据，并通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征，且根据每个变压器的运行状态及N1个气体特征，生成样本数据集，其中，N1为大于5的自然数；

模型构建步骤：将所述样本数据集划分为训练集及测试集，并根据所述训练集构建初始的随机森林模型；

模型优化步骤：使用所述训练集，对初始的随机森林模型的输入特征及模型参数进行优化，以获取更新后的随机森林模型，其中，所述输入特征的数量为N2，且N2<N1，所述模型参数包括决策树数量和最大特征数，且所述最大特征数小于N2；

模型验证步骤：使用所述测试集，对更新后的随机森林模型进行验证，并在满足第一预设条件时，将所述更新后的随机森林模型作为变压器故障诊断模型。

优选地，所述通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征的步骤，包括：

获取每个变压器的变压器油中的五种气体的含量，其中，所述五种气体包括：H₂、CH₄、C₂H₄、C₂H₆、C₂H₂；

使用三比值法，根据所述五种气体的含量构建三个比值；

使用Rogers比值法，根据所述五种气体的含量构建四个比值；

使用无编码比值法，根据所述五种气体的含量构建九个比值；

分别对所述五种气体的含量、所述三个比值、所述四个比值、所述九个比值进行归一化处理，以获取每个变压器的21个气体特征。

优选地，根据以下步骤对初始的随机森林模型的输入特征进行优化：

对GJO算法的初始参数进行设置，其中，所述GJO算法中初始种群数量设置为N3，所述GJO算法中的适应度函数设置为所述随机森林模型的分类正确率/错误率，其中，N3≥N1；

使用所述GJO算法，确定出在所述随机森林模型的分类正确率/错误率满足第二预设条件时所对应的N2个气体特征，并将所述N2个气体特征作为所述输入特征。

优选地，根据以下步骤对初始的随机森林模型的模型参数进行优化：

对AO算法的初始参数进行设置，其中，所述AO算法中初始种群数量设置为N4，所述AO算法中的适应度函数设置为所述随机森林模型的分类正确率/错误率，其中，N4≥N1；

使用AO算法，确定出在所述随机森林模型的分类正确率/错误率满足第三预设条件时所对应的决策树数量及最大特征数，并将所确定的决策树数量作为最优决策树数量，将所确定的最大特征数作为最优最大特征数。

优选地，所述模型验证步骤包括：

针对所述测试集中的每个变压器，将所述测试集中每个变压器的N2个气体特征输入至更新后的随机森林模型，并获取更新后的随机森林模型所输出的运行状态，且根据所输出的运行状态及所述测试集中的运行状态，判断该变压器的诊断结果是否正确；

根据所述测试集中各个变压器所对应的诊断结果，计算所述更新后的随机森林模型的诊断正确率或kappa系数，并判断所述诊断正确率或kappa系数是否满足第四预设条件；

若满足，则将所述更新后的随机森林模型作为变压器故障诊断模型；

若不满足，重新执行所述模型构建步骤，直至所述诊断正确率或kappa系数满足第四预设条件。

本发明还构造一种变压器的故障诊断方法，包括：

获取变压器故障诊断模型，其中，所述变压器故障诊断模型是根据以上所述故障诊断模型的确定方法确定的；

获取当前待诊断的第一变压器的第一气体数据，并根据所述变压器故障诊断模型的输入特征，通过对所述第一气体数据进行预处理来获取N2个第一气体特征；

将所述N2个第一气体特征输入至所述变压器故障诊断模型，并根据所述变压器故障诊断模型的输出确定所述第一变压器的运行状态。

本发明还构造一种存储介质，存储有计算机程序，所述计算机程序在被处理器执行时，实现以上所述的故障诊断模型的确定方法的步骤，或者，实现以上所述的变压器的故障诊断方法的步骤。

本发明还构造一种程序产品，包括处理器及存储有计算机程序的存储器，所述处理器在执行所述计算机程序时，实现以上所述的故障诊断模型的确定方法的步骤，或者，实现以上所述的变压器的故障诊断方法的步骤。

本发明还构造一种变压器故障诊断模型的确定系统，包括：

第一预处理模块，用于获取不同运行状态的多个变压器的气体数据，并通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征，且根据每个变压器的运行状态及N1个气体特征，生成样本数据集，其中，N1为大于5的自然数；

模型构建模块，用于将所述样本数据集划分为训练集及测试集，并根据所述训练集构建初始的随机森林模型；

模型优化模块，用于使用所述训练集，对初始的随机森林模型的输入特征及模型参数进行优化，以获取更新后的随机森林模型，其中，所述输入特征的数量为N2，且N2<N1，所述模型参数包括决策树数量和最大特征数，且所述最大特征数小于N2；

模型验证模块，用于使用所述测试集，对更新后的随机森林模型进行验证，并在满足第一预设条件时，将所述更新后的随机森林模型作为变压器故障诊断模型。

本发明还构造一种变压器的故障诊断系统，包括：

模型获取模块，用于获取变压器故障诊断模型，其中，所述变压器故障诊断模型是根据权利要求9所述变压器故障诊断模型的确定系统确定的；

第二预处理模块，用于获取当前待诊断的第一变压器的第一气体数据，并根据所述变压器故障诊断模型的输入特征，通过对所述第一气体数据进行预处理来获取N2个第一气体特征；

诊断模块，用于将所述N2个第一气体特征输入至所述变压器故障诊断模型，并根据所述变压器故障诊断模型的输出确定所述第一变压器的运行状态。

在本发明所提供的技术方案中，在确定变压器的故障诊断模型时，当根据训练集构建初始的随机森林模型后，还对该随机森林模型的输入特征及模型参数进行优化，这样，可去除一些相关性较小的特征或冗余特征，有效降低特征向量维度，以达到提高数据准确率和计算速度，减少计算机资源占用的目，而且，选取合适的决策树数量可平衡随机森林模型性能与复杂度，以及，选取合适的最大特征数可平衡分类器分类效果与决策树的差异性。因此，提高了变压器故障的诊断精度及缩短了变压器故障的诊断时间。

附图说明

为了更清楚地说明本发明实施例，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图中：

图1是本发明故障诊断模型的确定方法实施例一的流程图；

图2是在使用GJO算法时随迭代次数变化的适应度曲线的示意图；

图3是在使用AO算法时随迭代次数变化的适应度曲线的示意图；

图4是优化后的随机森林模型的诊断结果示意图；

图5是本发明变压器的故障诊断方法实施例二的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明故障诊断模型的确定方法实施例一的流程图，该实施例的确定方法包括以下步骤：

预处理步骤S10：获取不同运行状态的多个变压器的气体数据，并通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征，且根据每个变压器的运行状态及N1个气体特征，生成样本数据集，其中，N1为大于5的自然数；

模型构建步骤S20：将所述样本数据集划分为训练集及测试集，并根据所述训练集构建初始的随机森林模型；

模型优化步骤S30：使用所述训练集，对初始的随机森林模型的输入特征及模型参数进行优化，以获取更新后的随机森林模型，其中，所述输入特征的数量为N2，且N2<N1，所述模型参数包括决策树数量和最大特征数，且所述最大特征数小于N2；

模型验证步骤S40：使用更新后的测试集，对更新后的随机森林模型进行验证，并在满足第一预设条件时，将所述更新后的随机森林模型作为变压器故障诊断模型。

在上述实施例中，有以下几点需要说明：

1.在步骤S10中，变压器的不同运行状态可包括以下六种：正常状态(N)、中低温过热(T1)、高温过热(T2)、低能放电(D1)、高能放电(D2)、局部放电(PD)，而且，后面五种故障状态是参照IEC 60599标准划分的变压器故障类型来确定的。

2.在步骤S10中，气体数据可为变压器的变压器油中的H₂、CH₄、C₂H₄、C₂H₆、C₂H₂等溶解气体的浓度数据，而且，还可基于现有的三比值法、Rogers比值法、无编码比值法，根据上述五种气体的含量构建多个比值，例如，CH₄含量与C₂H₆含量的比值、C₂H₂含量与C2H4含量的比值等。另外，由于不同类型的数据之间的差异较大，如果不对数据进行预处理而直接应用，将会导致训练出的模型不准确，因此，在获取到气体含量及气体比值数据之后，先对这些数据做归一化处理，例如，根据以下公式计算归一化计算：

式中，x_imin、x_imax为归一化处理前的原始数据的最小值和最大值，x_i为归一化处理前的数据值，x_si为归一化处理后的数据值。

3.在步骤S20中，在划分训练集及测试集时，可按照一定的比例进行划分，例如，假设针对每种运行状态，均随机选取50个变压器，这样可得到300组样本数据，然后可按照7：3的比例，将300组样本数据分为：包含210组样本数据的训练集(每种运行状态的变压器的数据均为35组)、包含90组样本数据的测试集(每种运行状态的变压器的数据均为15组)。

4.在步骤S20中，当获取到训练集后，通过模型训练可得到初始的随机森林模型，随机森林(Random Forest，RF)模型是由k棵决策树分类模型构成的组合分类模型，每棵决策树分类模型均有且只有独立的一票投票权来给出自身的分类结果，该组合分类模型采用简单多数投票方式选出最终分类结果，这样可避免因使用单一分类器而导致的泛化能力差的问题。

5.在步骤S30中，由于在预处理步骤之后，所获得的变压器所对应的气体特征的数量较多(N1>5)，而这N1个气体特征中，有一些是与变压器的运行状态相关性较小的特征，或者是一些冗余特征，不但对变压器的故障诊断结果的影响较小，而且影响变压器故障的诊断时间，因此，有必要对N1个气体特征进行优化，去除一些相关性较小的特征或冗余特征，通过对待选取的气体特征进行优选，在特征向量空间寻找最优特征子集，可以有效降低特征向量维度，以达到提高数据准确率和计算速度，减少计算机资源占用的目的。

6.在步骤S30中，首先说明的是，由于随机森林模型的性能和效率主要受两个参数影响：决策树数量；最大特征数(允许单个决策树使用特征的最大数量)，其中，对于决策树数量，当决策树数量较少时，模型分类误差大、效果差，且RF模型具有不易过拟合的性质，所以决策数数量应尽量多，用多棵决策树之间的差异性保证分类器的多样性，从而提升整体分类模型的性能。但是，决策树数量的增加将导致RF模型复杂度的增加，降低RF模型的运行速度。因此，选取合适的决策树数量对于平衡RF模型性能与复杂度具有重大意义。对于最大特征数，在搭建RF模型时，为保证分类器之间的随机性，在单棵决策树分裂节点处需从原始特征处随机选取特征子集。若选择较小的最大特征数，将导致决策树过随机化，使分类器分类效果变差；若选择较大的最大特征数，将会导致不同决策树之间差异性降低，影响整体分类器诊断效果。因此，选取合适的最大特征数可平衡分类器分类效果与决策树的差异性。

7.在步骤S50中，当获取到更新后的随机森林模型后，可使用训练集对该随机森林模型进行验证，而且，在验证通过时，可将随机森林模型作为变压器故障诊断模型，以进行变压器的故障诊断；在验证不通过时，可重新执行进行步骤S20、S30、S40，直至验证通过。

进一步地，在一个可选实施例中，在步骤S10中，通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征的步骤，可具体包括：

使用三比值法，根据所述五种气体的含量构建三个比值；

使用Rogers比值法，根据所述五种气体的含量构建四个比值；

在该实施例中，通过对五种气体的含量以及使用现有的三比值法、Rogers比值法、无编码比值法所构建的多个比值取并集，可得到21个特征，即，N1＝21，并对该21个特征进行编码，具体如表1所示：

注：ALL＝H₂+CH₄+C₂H₆+C₂H₄+C₂H₂，THC＝CH₄+C₂H₆+C₂H₄+C₂H₂。

表1

进一步地，在一个可选实施例中，在步骤S30中，根据以下步骤对初始的随机森林模型的输入特征进行优化：

步骤S31：对GJO(Golden Jackal Optimization，金豺优化)算法的初始参数进行设置，其中，所述GJO算法中初始种群数量设置为N3，所述GJO算法中的适应度函数设置为所述随机森林模型的分类正确率/错误率，其中，N3≥N1；

步骤S32：使用所述GJO算法，确定出在所述随机森林模型的分类正确率/错误率满足第二预设条件时所对应的N2个气体特征，并将所述N2个气体特征作为输入特征。

在该实施例中，由于GJO算法是一种依据成对金豺捕食猎物过程而提出的元启发式算法，具有寻优速度快，收敛性好的特点，所以，该实施例使用GJO算法来优化随机森林模型的输入输入特征。

在一个具体实施例中，随机森林模型的输入特征的优化过程如下：

首先，进行初始参数的设置，具体包括：将GJO算法中初始种群数量设置为N3(N3≥N1)，例如，在N1为21时，N3可选择30；将GJO算法中的适应度函数(优化目标函数)设置为随机森林模型的分类正确率/错误率，即，是以分类结果为目标，去除冗余特征，并使所选取出的特征更加合理。另外，还可设置最大迭代次数，例如最大迭代次数为60，即，在使用GJO算法时，最多进行60次迭代计算，而且，随着迭代次数的增加，适应度逐渐升高。

然后，使用GJO算法，以适应度函数为优化方向，计算种群适应度值，保留最佳适应度值的个体(公豺与母豺)，然后，再判断是否达到迭代次数，若达到迭代次数，若达到，则输出输出最优特征子集，否则，重新执行本步骤。

而且，在每一次迭代运算时，先根据适应度函数出计算种群适应度值，然后更新当前的公豺、母豺的位置，即，将种群中适应度值最优的作为雄豺，将种群中适应度值次优的作为雌豺；然后，更新猎物的能量；再判断该能量的绝对值是否小于1，如果小于1，则利用捕猎阶段(包围与捕捉猎物阶段)的公式更新猎物的位置；如果不小于1，则利用探索阶段(搜索猎物阶段)的公式更新猎物的位置。

具体地，可根据以下方式更新猎物的能量：假设E为猎物躲避金豺抓捕时的能量变化，则E由公式1-1决定：

其中，E₀为猎物初始能量，t为当前迭代次数，T为最大迭代次数，c₁是值恒为1.5的常数，E₁在迭代过程中由1.5逐渐降低至0，表示猎物在抓捕过程中能量逐渐降低。rl.Prey(t)为模拟猎物运动轨迹的函数，其中，rl由公式1-2决定：

rl＝0.05*LF(y) 公式1-2

其中，LF(y)为levy飞行分布函数。

而且，金豺由探索阶段转为捕猎阶段的条件由E决定，当|E|＞1时，金豺在不同区域执行探索，当|E|＜1时，金豺对猎物进行包围并攻击，捕捉猎物。

在探索阶段，金豺根据天性和本能搜索和等待猎物，公豺负责带领，母豺紧跟公豺。金豺夫妇依据公式2-1跟随猎物并更新自身的位置。

其中，Prey(t)为猎物所在位置，Y_M(t)、Y_FM(t)分别为当前公豺与母豺位置，Y₁(t)、Y₂(t)分别为公豺、母豺随猎物变化后的位置，

最后，由公式2-2更新猎物位置：

Y(t+1)＝(Y₁(t)+Y₂(t))/2 公式2-2

在捕猎阶段，当猎物被金豺发现后开始躲避金豺，躲避过程中能量逐渐降低，公豺与母豺开始包围猎物，捕捉猎物，这一过程用数学模型表示如下：

其中，该公式2-3中所有变量含义同公式2-1的变量含义相同，最后也根据公式2-2更新猎物位置。

进一步地，在一个可选实施例中，在步骤S30中，根据以下步骤对初始的随机森林模型的模型参数进行优化：：

步骤S33：对AO(Aquila Optimizer，天鹰优化算法)算法的初始参数进行设置，其中，所述AO算法中初始种群数量设置为N4，所述AO算法中的适应度函数设置为所述随机森林模型的分类正确率/错误率，其中，N4≥N1；

步骤S34：使用AO算法，确定出在所述随机森林模型的分类正确率/错误率满足第三预设条件时所对应的决策树数量及最大特征数，并将所确定的决策树数量作为最优决策树数量，将所确定的最大特征数作为最优最大特征数。

在该实施例中，由于AO算法是依据天鹰的捕食行为而提出的一种元启发式算法，所以，该实施例使用AO算法来优化随机森林模型的参数：最优决策树数量、最优最大特征数。

在一个具体实施例中，随机森林模型的参数优化过程如下：

首先，进行初始参数的设置，具体包括：将AO算法中的种群数量设置为N4(N3≥N1)30，例如，在N1为21时，N4可选择30；将AO算法中适应度函数选择随机森林分类正确率。另外，还可设置最大迭代次数，例如最大迭代次数为60。

然后，结合所确定随机森林模型的输入特征，将训练集引入AO算法对随机森林模型中决策树数量和最大特征数进行优化，以随机森林模型的分类正确率作为AO算法的适应度函数，使用AO算法对随机森林模型的参数进行优化，以得出最优决策树数量和最优最大特征数。

在每一次迭代运算时，首先，根据当前迭代次数与最大迭代次数的关系，以及所产生的随机数(0～1范围内的随机值)，判断当前按以下四种狩猎方式中的哪种进行捕食猎物：垂直俯冲、短滑翔攻击、低空慢降攻击和行走攻击，具体地：若当前迭代次数与最大迭代次数的比值小于2/3，且随机数小于0.5，则进入垂直俯冲方式；若比值小于2/3，且随机数不小于0.5，则进入短滑翔攻击方式；若比值不小于2/3，且随机数小于0.5，则进入低空慢降攻击方式；若比值不小于2/3，且随机数不小于0.5，则进入行走攻击方式。

关于垂直俯冲方式，当天鹰确定猎物所在大致区域时，将采取高空盘旋方式选定最佳狩猎区域，即确定最优解所在空间，该行为数学表达式为3-1：

其中，X₁(t+1)为第t+1代天鹰种群位置，X_best(t)为当前种群最佳位置，t、T分别为当前迭代次数、最大迭代次数，X_M(t)为当前种群平均位置，rand为0～1范围内的随机值。

关于短滑翔攻击方式，当天鹰在高空盘旋时发现目标猎物后，将在猎物上方不断盘旋，准备着陆进行捕食，即不断缩小最优解所在空间，该行为数学表达式为3-2：

X₂(t+1)＝X_best(t)×Levy(D)+X_R(t)+(y-x)*rand 3-2

其中，X_R(t)为1～N代之间的随机解，D为维度数，Levy为飞行分布函数。

关于低空慢降攻击方式，当天鹰准备捕捉猎物时，将以低空飞行慢速靠近目标猎物，以此试探猎物反应，该行为数学表达式为3-3：

X₃(t+1)＝(X_best(t)-X_M(t))×α-rand+((UB-LB)×rand+LB)×δ3-3

其中，α、δ为恒为0.1的调整参数。

关于行走攻击方式，当天鹰接进猎物时，将采取行走攻击的方式跟随猎物的随机运动对猎物进行捕捉，该行为数学表达式为3-4：

其中，QF为均衡搜索策略的质量函数，G₁为天鹰在追捕逃跑猎物期间的各种运动，G₂为天鹰飞行过程中的飞行斜率。

当计算出第t+1代天鹰种群位置后，重新计算出每颗决策树的分类结果，再投票选出随机森林模型的最终分类结果，然后，更新随机森林模型的参数，如果当前迭代次数还没达到最大迭代次数，则继续计算出随机森林模型的正确率，并作为适应度值，开始新一轮的迭代运算；如果当前迭代次数达到最大迭代次数，则输出优化后的参数。

进一步地，在一个可选实施例中，模型验证步骤S40包括：

步骤S41：针对所述测试集中的每个变压器，将所述测试集中每个变压器的N2个气体特征输入至更新后的随机森林模型，并获取更新后的随机森林模型所输出的运行状态，且根据所输出的运行状态及所述测试集中的运行状态，判断该变压器的诊断结果是否正确；

步骤S42：根据所述测试集中各个变压器所对应的诊断结果，计算所述更新后的随机森林模型的诊断正确率或kappa系数，并判断所述诊断正确率或kappa系数是否满足第四预设条件，若是，则执行步骤S43；若否，则执行步骤S44；

步骤S43：将所述更新后的随机森林模型作为变压器故障诊断模型；

步骤S44：重新执行模型构建步骤，直至所述诊断正确率或kappa系数满足第四预设条件。

在该实施例中，可使用诊断正确率和kappa系数两个指标对随机森林模型进行评价，其中，kappa系数计算公式如式4-1所示：

其中，P_o为每一类正确分类的样本数量之和除以总样本数，即，为总体分类精度；P_e为所有类别分别对应的实际与预测数量的乘积之和，再除以样本总数的平方，而且，kappa系数值k一般为0～1之间，被分为五组来表示不同级别的一致性，每0.2的区间长度为一种级别，即：极低的一致性、一般的一致性、中等的一致性、高度的一致性和几乎完全一致。

在一个具体实施例中，变压器的不同运行状态可包括以下六种：正常状态(N)、中低温过热(T1)、高温过热(T2)、低能放电(D1)、高能放电(D2)、局部放电(PD)。假设针对变压器的每种运行状态，均随机选取50个变压器，这样可得到300组样本数据，然后可按照7：3的比例，将300组样本数据分为：包含210组样本数据的训练集(每种运行状态的变压器的数据均为35组)、包含90组样本数据的测试集(每种运行状态的变压器的数据均为15组)。

在使用GJO算法时，初始参数设置如下：种群数量为30，迭代次数为60，适应度函数选择随机森林模型的分类正确率，随着迭代次数的增加，适应度逐渐升高。当运行GJO算法后，平均和最优适应度分别为在每一代种群中的平均适应度值和最优适应度值。图2示出了随迭代次数变化的适应度曲线，由图2可以得知，平均适应度在第42次后开始趋于稳定，最优适应度值在第39次时达到最大值，因此，选择第39次迭代所对应的特征选取的结果，此时特征类型及特征编码如表2所示，可以看到特征选取后气体特征仅有7维，相比于21维的特征向量，大大降低了特征数量，消除了冗余特征的影响。

特征编码	特征量	特征编码	特征量
				1	H<sub>2</sub>	7	CH<sub>4</sub>/C<sub>2</sub>H<sub>4</sub>
2	CH<sub>4</sub>	8	C<sub>2</sub>H<sub>6</sub>/C<sub>2</sub>H<sub>4</sub>
				5	C<sub>2</sub>H<sub>2</sub>	15	CH<sub>4</sub>/THC
6	CH<sub>4</sub>/C<sub>2</sub>H<sub>6</sub>

表2

然后，将训练集中相应7维气体特征作为输入特征输入到随机森林模型，并使用AO算法对随机森林模型中两个核心参数(决策树数量和最大特征数)进行优化，而且，可将决策树数量搜索范围设置为1～200，最大特征数范围设置为1～7，将天鹰种群数量设置为30，迭代次数设置为60。随机森林模型随机运行一次后适应度随迭代次数变化曲线如图3所示，而且，由图3可知，随机森林模型的适应度随着迭代次数逐渐收敛，适应度在第11次时达到稳定，因此，选择第11次迭代所对应的决策树数量为100作为最优决策树数量，以及，选择最大特征数为5作为最优最大特征数。

基于优化后的随机森林模型，输入测试集中的90个样本数据，并测试随机森林模型的性能，可得到如图4所示的变压器故障的诊断结果，图中横坐标为实际运行状态，纵坐标为模型诊断的运行状态，其中，1-6分别为正常、中低温过热、高温过热、低能放电、高能防电、局部放电。通过图4可知，优化后的随机森林模型有着较好的区分度，在测试集中的90个样本中，正确诊断的数目为79个，总正确率为87.78％，其中低中温过热、高温过热与高能放电故障诊断正确率为100％。因此，优化后的随机森林模型有良好的性能，可作为变压器故障诊断模型，且对不同故障类型具有鲁棒性。另外，依据式4-1所计算的kappa系数值为0.85，所以，该模型具有好的稳定性。

通过该实施例的技术方案，采用GJO算法可从21维气体特征组合中优选出7维最优特征量，而且，通过与21维全特征、三比值法、无编码比值法等进行对比，发现GJO优选特征量较以上几种方法的平均诊断准确率提高了1.12％～25.78％，kappa系数提高了0.02～0.24。同时，采用AO算法优化了RF模型的参数，而且，通过将AO-RF与RF、SVM、ELM、SSA-RF、WOA-RF、GJO-RF进行对比，发现AO-RF法相比以上几种方法的平均诊断准确率提高了1.84％～15.86％，kappa系数提高了0.02～0.16。

图5是本发明变压器的故障诊断方法实施例二的流程图，该实施例的故障诊断方法包括：

步骤A10：获取变压器故障诊断模型，其中，所述变压器故障诊断模型是根据权利要求1-5任一项所述故障诊断模型的确定方法确定的；

步骤A20：获取当前待诊断的第一变压器的第一气体数据，并根据所述变压器故障诊断模型的输入特征，通过对所述第一气体数据进行预处理来获取N2个第一气体特征；

步骤A30：将所述N2个第一气体特征输入至所述变压器故障诊断模型，并根据所述变压器故障诊断模型的输出确定所述第一变压器的运行状态。

在该实施例中，由于变压器故障诊断模型是根据前述方法获取的，该变压器故障诊断模型的输入特征及模型参数是进行优化过的，所以，该模型对不同的运行状态具有鲁棒性，当使用该模型对待诊断的第一变压器进行诊断时，诊断结果更准确，且诊断时间更短。

本发明还构造一种存储介质，存储有计算机程序，该计算机程序在被处理器执行时，实现以上所述的故障诊断模型的确定方法的步骤，或者，实现以上所述的变压器的故障诊断方法的步骤。

本发明的可读存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本发明还构造一种程序产品，该程序产品包括处理器及存储有计算机程序的存储器，该处理器在执行所述计算机程序时，实现以上所述的故障诊断模型的确定方法的步骤，或者，实现以上所述的变压器的故障诊断方法的步骤。

本发明的处理器用于提供计算和控制能力，以支撑整个系统的运行。应当理解，在本申请实施例中，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明还构造一种变压器故障诊断模型的确定系统，该确定系统包括：第一预处理模块、模型构建模块、模型优化模块、模型验证模块，其中，第一预处理模块用于获取不同运行状态的多个变压器的气体数据，并通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征，且根据每个变压器的运行状态及N1个气体特征，生成样本数据集，其中，N1为大于5的自然数；模型构建模块用于将所述样本数据集划分为训练集及测试集，并根据所述训练集构建初始的随机森林模型；模型优化模块用于使用所述训练集，对初始的随机森林模型的输入特征及模型参数进行优化，以获取更新后的随机森林模型，其中，所述输入特征的数量为N2，且N2<N1，所述模型参数包括决策树数量和最大特征数，且所述最大特征数小于N2；模型验证模块用于使用所述测试集，对更新后的随机森林模型进行验证，并在满足第一预设条件时，将所述更新后的随机森林模型作为变压器故障诊断模型。

本发明还构造一种变压器的故障诊断系统，该故障诊断系统包括：模型获取模块、第二预处理模块、诊断模块，其中，模型获取模块用于获取变压器故障诊断模型，其中，所述变压器故障诊断模型是根据以上所述变压器故障诊断模型的确定系统确定的；第二预处理模块用于获取当前待诊断的第一变压器的第一气体数据，并根据所述变压器故障诊断模型的输入特征，通过对所述第一气体数据进行预处理来获取N2个第一气体特征；诊断模块用于将所述N2个第一气体特征输入至所述变压器故障诊断模型，并根据所述变压器故障诊断模型的输出确定所述第一变压器的运行状态。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何纂改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种故障诊断模型的确定方法，其特征在于，包括：

2.根据权利要求1所述的故障诊断模型的确定方法，其特征在于，所述通过对所述气体数据进行预处理来获取每个变压器的N1个气体特征的步骤，包括：

使用三比值法，根据所述五种气体的含量构建三个比值；

使用Rogers比值法，根据所述五种气体的含量构建四个比值；

3.根据权利要求2所述的故障诊断模型的确定方法，其特征在于，根据以下步骤对初始的随机森林模型的输入特征进行优化：

4.根据权利要求2所述的故障诊断模型的确定方法，其特征在于，根据以下步骤对初始的随机森林模型的模型参数进行优化：

5.根据权利要求1所述的故障诊断模型的确定方法，其特征在于，所述模型验证步骤包括：

6.一种变压器的故障诊断方法，其特征在于，包括：

获取变压器故障诊断模型，其中，所述变压器故障诊断模型是根据权利要求1-5任一项所述故障诊断模型的确定方法确定的；

7.一种存储介质，存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现权利要求1-5任一项所述的故障诊断模型的确定方法的步骤，或者，实现权利要求6所述的变压器的故障诊断方法的步骤。

8.一种程序产品，包括处理器及存储有计算机程序的存储器，其特征在于，所述处理器在执行所述计算机程序时，实现权利要求1-5任一项所述的故障诊断模型的确定方法的步骤，或者，实现权利要求6所述的变压器的故障诊断方法的步骤。

9.一种变压器故障诊断模型的确定系统，其特征在于，包括：

10.一种变压器的故障诊断系统，其特征在于，包括：