CN112116058A

CN112116058A - 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法

Info

Publication number: CN112116058A
Application number: CN202010972596.7A
Authority: CN
Inventors: 刘可真; 吴世浙; 苟家萁; 和婧; 王骞; 刘通; 陈镭丹; 陈雪鸥; 阮俊枭
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2020-12-22
Anticipated expiration: 2040-09-16
Also published as: CN112116058B

Abstract

本发明公开了一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法，首先以变压器油中溶解特征气体的无编码比值作为模型的特征参量，再对特征参量进行归一化，划分训练集和测试集；然后构建多粒度级联森林模型，并通过粒子群算法优化多粒度级联森林的两个关键参数，并获得两个最优参数；最后建立基于粒子群算法优化的多粒度级联森林模型用于识别变压器故障类别，该方法有效提升了变压器的故障诊断准确率，为运维人员正确判断变压器的运行状况提供可靠依据。

Description

一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法

技术领域

本发明涉及电力设备监控技术领域，尤其涉及一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法。

背景技术

变压器发生故障将危及整个电力系统安全稳定运行，变压器故障诊断方法可以对设备状态信息进行分析，是保证设备可靠、高效运行的关键。因此，快速准确地识别变压器的故障类型，进行及时检修工作，可为电力系统的正常运行提供重要保障。

油中溶解气体分析(Dissolved Gas Analysis,DGA)主要应用在油浸式变压器的在线监测。基于DGA的特征气体进行数据关联分析，国内外研究者提出了IEC比值法，Rogers比值法，Dornenburg比值法，电协研法等，但传统的DGA方法只给出了故障诊断的阈值判别边界，不能表现特征气体与故障类型之间的联系，无法满足变压器实际运行的要求。随着人工智能技术的进步和发展，机器学习方法应用在变压器故障诊断领域取得了显著成就。目前常用的有专家系统，深度置信网络(DBN)，随机森林(RF)、模糊理论等，虽然这些机器学习方法在变压器故障诊断方面应用较广泛，但也存在一定的弊端。比如专家系统不能自主学习，工作效率低，难以得到准确的诊断结果；DBN具有较强的自主学习能力，但需大量样本数据进行训练，超参数调整复杂、学习周期长并容易过拟合；SVM处理变压器故障诊断多分类问题精度低；模糊理论的模糊处理过程较为复杂，而且模糊诊断的编码对应故障类型多是基于传统的气体比值或特征浓度诊断方法。鉴于此，提出一种基于粒子群算法优化多粒度级联森林模型(PSO-gcForest)的变压器故障诊断方法。

发明内容

本发明要解决的技术问题是提供一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法，使用该故障诊断方法能够快速搜索确定多粒度级联森林模型的最优参数，训练效率高、且能可靠识别变压器的故障状态，提高故障诊断准确率，从而实现对变压器运行状况的评估。

为解决上述技术问题，本发明提供了一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法，包括如下步骤：

S01、数据处理

S011、特征参量选取

变压器油中溶解的气体包括氢气(H₂)、甲烷(CH₄)、乙烷(C₂H₆)、乙烯(C₂H₄)、乙炔(C₂H₂)，以CH₄/H₂、C₂H₂/C₂H₄、C₂H₄/C₂H₆、C₂H₂/(C₁+C₂)、H₂/(H₂+C₁+C₂)、C₂H₄/(C₁+C₂)、CH₄/(C₁+C₂)、C₂H₆/(C₁+C₂)、(CH₄+C₂H₄)/(C₁+C₂)等无编码比值作为特征参量，其中C₁表示CH₄，C₂表示C₂H₂、C₂H₄、C₂H₆之和；

S012、特征参量归一化

对步骤S011中选取的无编码比值特征参量进行归一化处理，将数据映射到[0,1]之间，归一化公式如式(1)，再按比例8:2将归一化后的数据划分为训练集数据和测试集数据；

其中，x^*为归一化后的数据，x_min、x_max分别为某一维特征量的最小值与最大值，x为原始数据；

S02、构建基于粒子群算法优化的多粒度级联森林模型

S021、随机初始化粒子种群

设置粒子最大迭代次数T_max、种群数量pop、多粒度扫描窗口大小w和级联森林允许的最大级联数l的初值、多粒度扫描窗口大小w和级联森林允许的最大级联数l的取值范围、多粒度扫描窗口大小w和级联森林允许的最大级联数l的搜索速度范围、惯性权重初始值ω_ini、惯性权重最终值ω_fin、加速因子c₁初始值c_1,ini、加速因子c₁最终值c_1,fin、加速因子c₂初始值c_2,ini、加速因子c₂最终值c_2,fin；

S022、构建多粒度级联森林模型

以步骤S021中的初始化粒子种群建立多粒度级联森林模型，多粒度级联森林模型由级联森林和多粒度扫描构成，具体构建步骤如下：

A、级联森林包括多层级联层，每层级联层由包含多棵子树的随机森林和极限梯度提升树构成，其中随机森林和极限梯度提升树采用CART算法生成决策树构成，所述决策树的生成步骤如下：

使用CART算法的成本函数和基尼系数如式(2)、(3)所示，对步骤S012中划分的的训练集数据和测试集数据进行处理，生成二叉树结构的决策树；

式中，P_t，k表示节点t属于类别k的训练实例百分比，y_left/right是左右两边子样本集的实例数，G_left/right是衡量左右两边子样本集的不纯度；

B、多粒度扫描分为特征扫描和特征转换两个步骤，输入一个m×m维的原始特征向量，滑动窗口大小为q×q维，滑动步长为k，扫描窗口通过扫描原始特征向量提取特征信息，生成N个q维特征实例，如式(4)所示：

N＝[(m-q)/k+1]² (4)

C、每层级联森林输出j维类概率向量，所述类概率向量和原始特征向量拼接一起作为下一层级联森林的输入，经过随机森林和梯度提升树训练后，所有类概率向量连接为L维转换特征向量，如式(5)所示：

L＝2×[(m-q)/k+1]²×j

(5)

D、级联森林逐层训练，对最后级联层的所有类向量通过逻辑回归产生最终类向量，从中取最大值得到原始特征向量的最终分类；

S023：构建粒子群算法优化的多粒度级联森林模型

以步骤S022构建的多粒度级联森林模型的多粒度扫描窗口大小w和级联森林允许的最大级联数l两个参数作为粒子，以多粒度级联森林模型的诊断准确率为粒子适应度，采用粒子群优化算法迭代搜索更新两个粒子的速度和位置，获得多粒度级联森林模型两个参数的最优值，以此为基础重新建立优化的多粒度级联森林模型，迭代搜索公式如式(6)～(7)所示：

式中，

表示第i个粒子t次迭代的d维坐标分量；

表示第i个粒子t次迭代的d维速度分量；ω^t表示第t次迭代时的惯性权重；

和

表示第t次迭代时的两个加速因子；r₁和r₂表示[0,1]之间的随机值；P_i,d表示第i个粒子d维分量的局部最优值；G_d表示d维分量的整体最优值；

其中，根据迭代过程以及粒子的跟新位置对惯性权重采用非线性微分变化方式，平衡粒子搜索的全局性和收敛速度，如式(8)～(9)所示：

同时，对加速因子采用余弦函数动态调整方式，促进粒子的整体寻优与局部寻优能力互相协调，提高算法寻优能力，如式(10)～(11)所示；

式中，ω_ini和ω_fin分别表示迭代惯性权重初始值和最终值；t表示当前迭代次数；T_max表示最大迭代数；s_1,ini、s_1,fin与s_2,ini、s_2,fin分别表示加速因子s₁与s₂的初始值及最终值；

S03、得出变压器故障诊断结果

使用步骤S012中的测试集数据来测试步骤S023构建的粒子群算法优化的多粒度级联森林模型的性能，采用诊断正确率、诊断精度、召回率对变压器故障识别结果进行评估，得出变压器故障诊断结果；

后续只要将未知状态的变压器油中溶解气体按步骤S01处理，然后输入步骤S02构建好的基于粒子群算法优化的多粒度级联森林模型，就能诊断出该变压器的状态。

所述步骤S022中，为避免级联森林产生过拟合现象，对每个随机森林和梯度提升树的训练都采用5折交叉验证后产生类向量。

本发明提供的故障诊断方法与现有技术相比具备如下优点：本发明首先以变压器油中溶解特征气体的无编码比值作为模型的特征参量，再对特征参量进行归一化，划分训练集和测试集；然后构建多粒度级联森林模型，并通过粒子群算法优化多粒度级联森林的两个关键参数，并获得两个最优参数；最后建立基于粒子群算法优化多粒度级联森林模型(PSO-gcForest)来诊断识别变压器故障类别；上述模型相对于传统的机器学习模型训练效率高且能可靠识别变压器的故障状态，提高故障诊断正确率，为电力变压器的运行状况判断提供依据，为运维人员检修提供借鉴。

附图说明

图1为本发明所述的基于粒子群优化多粒度级联森林模型的变压器故障诊断方法工作流程框图；

图2为本发明实施例中粒子群优化多粒度级联森林模型的故障诊断结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法，包括如下步骤：

S01、数据处理

S011、特征参量选取

S012、特征参量归一化

由于变压器油中溶解气体含量受到监测装置、环境温度、人员操作等方面的干扰和影响，需要对原始数据进行归一化处理，特征参量归一化处理可以减少数据对模型性能的影响，提升模型的训练速度和诊断准确率。

依据DL/T 722-2014导则将输出变压器故障状态分为N-正常、D1-高能放电、D2-低能放电、D3-局部放电、T1-高温过热、T2-中温过热、T3-低温过热等7种状态；

S02、构建基于粒子群算法优化的多粒度级联森林模型

S021、随机初始化粒子种群

S022、构建多粒度级联森林模型

N＝[(m-q)/k+1]² (4)

L＝2×[(m-q)/k+1]²×j

(5)

级联森林的输入特征向量是多粒度扫描最终产生的特征向量，然后在级联森林层间进行监督学习，级联森林层间输出的类向量在逻辑回归之前都没有合并，产生的类向量和原始特征向量拼接一起作为下一层级联森林的输入；为了避免级联森林训练产生过拟合现象，对每个随机森林和梯度提升树的训练都采用5折交叉验证后产生类向量。

S023：构建粒子群算法优化的多粒度级联森林模型

式中，

表示第i个粒子t次迭代的d维坐标分量；

和

S03、得出变压器故障诊断结果

其中，诊断准确率表示判别正确故障样本数与总样本数的比例，可以直接评估模型的泛化能力。诊断精度是指正确识别A类故障样本与所有识别为A类故障样本的比例，表征是否查准A类故障样本。召回率是指正确识别为A类故障样本与实际A类故障样本的百分比，表征是否查全A类故障样本。

实施例

收集已知故障变压器的油中溶解气体样本数据，采用收集到的所有数据样本构成变压器故障数据集共1601组，其中以8:2比例划分训练集数据和测试集数据，其中1280例训练集数据进行监督训练，对模型进行调参，提高模型的拟合程度；321例测试集数据对模型的性能和泛化能力进行评估，从而实现变压器故障诊断；各故障类型的样本数据分布如表1所示。

表1故障样本数据分布

故障类型	训练集数据	测试集数据
			正常(N)	133	33
高能放电(D1)	336	84
			低能放电(D2)	119	30
局部放电(D3)	74	19
			高温过热(T1)	224	56
中温过热(T2)	303	76
			低温过热(T3)	91	23
总计	1280	321

根据表1的数据划分将变压器油中溶解气体的无编码比值作为特征参量输入基于粒子群算法优化的多粒度级联森林模型(PSO-gcForest)，用以优化两个关键参数多粒度扫描窗口大小w和级联森林允许的最大级联数l，粒子适应度取自测试集数据的诊断正确率，在优化过程中设置参数如表2所示。

表2粒子群优化随机森林模型的参数

参数	取值	参数	取值
				迭代次数T<sub>max</sub>	100	惯性权重最大值ω<sub>max</sub>	0.9
种群数量pop	20	惯性权重最小值ω<sub>min</sub>	0.4
				w取值范围	[100,1000]	加速因子初始值c<sub>1,ini</sub>	2
w搜索范围	[-100,100]	加速因子最终值c<sub>1,fin</sub>	0.5
				l取值范围	[3,9]	加速因子初始值c<sub>2,ini</sub>	0.5
l搜索范围	[-2,2]	加速因子最终值c<sub>2,fin</sub>	2

图2为本发明提供的一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法优化过程中故障诊断正确率示意图。多粒度级联森林模型(gcForest)的多粒度扫描窗口大小w和级联森林允许的最大级联数l经历5轮各100次的迭代，变压器故障诊断准确率分别在第68、49、54、65、52次迭代达到最优。与此同时，粒子群算法优化过程都是经过3至4步提升至最优适应度值93.62％，表明多粒度级联森林模型(gcForest)具有比较稳定的分类性能。最终多粒度扫描窗口大小w为4和级联森林允许的最大级联数l为5时，粒子适应度最优，达到了93.62％。

在故障诊断领域中，常用的机器学习模型有SVM、DBN等。因此，根据表1的样本集划分，以无编码比值作为特征参量输入SVM、DBN、多粒度级联森林模型(gcForest)和基于粒子群算法优化的多粒度级联森林模型(PSO-gcForest)，进行不同诊断模型的对比分析，SVM、DBN及优化前的多粒度级联森林模型(gcForest)参数设置如表3所示，不同模型的诊断结果如表4所示。

表3 SVM、BPNN及gcForest模型参数

表4不同模型的诊断结果对比

从表4中看出，对比SVM、DBN和优化前的多粒度级联森林模型(gcForest)，基于粒子群算法优化的多粒度级联森林模型(PSO-gcForest)的诊断正确率分别提升了10.72％、6.66％和1.45％，诊断性能最优。基于粒子群算法优化的多粒度级联森林模型(PSO-gcForest)的诊断精度和召回率均优于其他模型。

上述结果表明，针对油浸式电力变压器故障诊断问题，基于粒子群优化随机森林模型的诊断模型具有优异且稳定的性能，可为诊断变压器的运行状态提供依据，为运维人员检修提供借鉴。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。