CN117349786A

CN117349786A - 基于数据均衡的证据融合变压器故障诊断方法

Info

Publication number: CN117349786A
Application number: CN202311166171.7A
Authority: CN
Inventors: 熊威; 刘庆国; 高诚; 龚康; 周新启; 朱长东; 潘郁; 付萍; 陈泽华; 官习炳; 倪呈祥
Original assignee: China Three Gorges University CTGU; Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Current assignee: China Three Gorges University CTGU; Yichang Power Supply Co of State Grid Hubei Electric Power Co Ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-01-05

Abstract

本发明提供一种基于数据均衡的证据融合变压器故障诊断方法，包括如下步骤：步骤一、收集在线监测的油浸式变压器油中溶解气体含量数据，将带有状态标签的特征气体含量数据集划分训练集和测试集；步骤二、确定原始数据集中的小样本集，通过RO‑BSMOTE均衡规则对小样本数据集扩充；步骤三、分别构建多分类模型，均衡后的数据集及故障标签作为模型训练集；训练完成后，测试集输入分类模型，经PCR5规则的融合模型融合输出，得出诊断结果；步骤四、选择分类任务评价指标，实现对模型性能的综合评价。该方法对DGA数据均衡化处理，增强少数类数据携带的特征关系，考虑单结构分类模型的不足，引入证据融合理论，实现多分类器融合判别，以提高故障诊断精度。

Description

基于数据均衡的证据融合变压器故障诊断方法

技术领域

本发明涉及电力设备故障诊断技术领域，特别涉及一种基于数据均衡的证据融合变压器故障诊断方法。

背景技术

电力变压器是由油、纸、铜、钢、铁等材料组成的复杂系统，故障形式及其表现特征多样，各部件之间存在较强耦合度，使得故障诊断的难度增加。目前，以油中溶解气体分析(Dissolved Gas Analysis，DGA)为基础的变压器故障诊断技术被广泛应用。变压器运行在不同状态或发生不同的故障时，绝缘材料裂解出多种气体并溶解在绝缘油中，油中溶解气体的组分和含量可以很大程度上反映出变压器的运行状态和发生故障的类型，在变压器运行在不良状态的早期即可予以诊断。

实际上，变压器异常状态下的数据较少，也就导致变压器DGA数据不均衡分布的特性。引入智能分类算法提取特征关系已经成为电力设备状态监测的发展趋势，而这类模型训练目标通常是以损失值最小或类别间隔最大，处理不平衡数据时在小样本数据集学习上产生过拟合的问题、诊断结果受多数类样本数据集的影响等都直接或间接导致故障状态下的小样本数据的漏判率远高于正常样本，从而无法保证故障样本的分类精度。

目前，基于机器学习等智能算法挖掘油中溶解气体数据与故障之间非线性关系，构建变压器故障诊断模型被大量研究。与传统特征气体判别法、三比值法、改良三比值法等经验知识判别法相比，智能算法的故障诊断模型可以脱离人工快速实现变压器状态监测，且诊断精度大大提高。虽然此类模型优点较为突出，但同时也有一些不足需要改进。首先，变压器故障率较低，导致故障类别数据较少，难以携带有效的特征关系供智能算法挖掘；其次，依靠单一分类模型挖掘出的特征关系难以保证诊断精度，从而可能误导检修人员的运维决策。

CN115828185A公开的一种油浸变压器故障诊断方法，构建三种故障诊断模型包括：相关向量机、支持向量机和反向传播神经网络，作为DS证据融合的证据体，提高了诊断精度。CN115841152A公开的基于遗传算法特征优选和支持向量机的变压器诊断方法，采用遗传算法对五种特征气体的排列组合进行特征优选，提取与故障关联性较强的最佳特征值组合，然后支持向量机做出诊断结果，有效挖掘DGA数据中潜在的故障特征信息。CN115980212A公开的一种电力变压器设备状态评估方法，基于油中溶解气体构建变压器运行状态模型，并生成故障标准数列，与特征气体分析法得出的故障比较数列计算关联度，可以快速得到最终的变压器运行状态决策结果。

上述专利考虑到分类模型提取特征能力不足，如何提高挖掘油中溶解气体数据与故障之间潜在的特征关系，但并未考虑特征气体分析法阈值设置不合理造成诊断不准确的问题；未考虑油浸式变压器实际运行过程中故障数据较少的数据不平衡问题；同时未考虑DS证据融合理论在证据体冲突环境下决策偏移问题。上述专利在提高诊断精度方面做出一定贡献，但并未结合变压器实际油中溶解数据特性进行研究。根据上述分析，现有专利的不足具体如下：

(1)针对智能算法模型提取油中溶解气体特征研究不足，或传统诊断方式未考虑判断阈值的合理设定。

(2)未考虑油浸式变压器油中溶解气体数据运行状态类别间的不平衡特性。

(3)未考虑DS证据融合理论证据体间置信函数存在冲突性的情况。

发明内容

本发明所要解决的技术问题是提供一种基于数据均衡的证据融合变压器故障诊断方法，对DGA数据均衡化处理，增强少数类数据携带的特征关系，考虑单结构分类模型的不足，引入证据融合理论，实现多分类器融合判别，以提高故障诊断精度。

为解决上述技术问题，本发明所采用的技术方案是：一种基于数据均衡的证据融合变压器故障诊断方法，包括如下步骤：

步骤一、数据收集处理：收集在线监测的油浸式变压器油中溶解气体含量数据，并与几种变压器内部实际运行状态建立联系，标记标签，将带有状态标签的特征气体含量数据集划分训练集和测试集；

步骤二、数据均衡化处理：确定原始数据集中的小样本集，通过RO-BSMOTE均衡规则对小样本数据集扩充，实现数据集整体均衡；

步骤三、多决策融合模型：分别构建多分类模型，均衡后的数据集及故障标签作为模型训练集，挖掘特征关系；训练完成后，测试集的特征气体序列输入分类模型，经PCR5规则的融合模型融合输出，得出诊断结果；

步骤四、选择分类任务评价指标，通过对测试集数据状态类型诊断结果与真实状态类型作对比，实现对模型性能的综合评价。

优选的方案中，所述步骤二中，首先采用K-means算法对原始小样本数据聚类处理，寻找小样本簇心位置，记x_km；然后，采用BSMOTE算法合成新数据，对小样本数据均衡处理；其次，通过对比合成新数据与簇心的相对位置，选择合理的离群边界，剔除离群点，保留离群边界以内的新数据；最后，将原始小样本与保留的合成新样本构成新数据集，作为模型训练与测试数据。

优选的方案中，采用BSMOTE算法合成新数据，包括如下步骤：

S2.1、设小样本数据集为X＝{x₁,x₂,…,x_n}，其中x_i是小样本数据集中的第i个样本特征向量，利用K近邻算法求取x_i的t个近邻样本，记录近邻样本中属于多数类样本的点数为t'；

S2.2、若t'＝t，即样本点x_i的t个近邻样本全部属于多数类，则x_i被划分为超越边界的噪声点；若0<t'<t/2，x_i被视作少数样本的内点；如果t/2<t'<t，x_i将被视作边界点；经上述点集划分过程，得到边界点集e；

S2.3、对边界点集e中的每个样本点做做SMOTE算法数据均衡处理，由式(1)进行线性插值，合成新样本点，均衡数据生成的新样本集为E，记E＝{x₁,x₂,…,x_v}：

x_合成＝x_i+λ(x_近邻-x_i) (1)

其中x_i是小样本数据集中的第i个样本特征向量；x_近邻为靠近x_i的近邻样本；λ为区间(0,1)内的随机数；x_合成为合成的新样本。

优选的方案中，根据数据点集与簇心平均欧氏距离定位偏离簇心位置较远的离群点，欧式距离如式(2)所示：

式中：d为均衡后数据集样本与簇心的平均欧氏距离，并记录最大偏离距离d_max，x_i为原始小样本数据集X的样本点(i＝0,1,2,…,n)，x_j为新合成数据集E的样本点(j＝0,1,2,…,v)；n为原始小样本数据集X的样本点数量；v为新合成数据集E的样本点数量；

新合成数据集E的每例样本与簇心距离为d_j，若某例样本的d_t满足d_t>(d_max+d)/2，则称样本d_t为离群点，剔除离群点，保留离群边界以内的新数据。

优选的方案中，所述步骤三中，分类模型包括支持向量机、梯度提升决策树、随机森林三种分类模型，首先训练集数据依次输入支持向量机、梯度提升决策树、随机森林三种分类模型，提取数据特征完成训练，并输出测试集数据关于各个状态类型的诊断概率序列以及诊断结果，将三条诊断概率序列转化为DS证据融合理论模型的证据体，通过PCR5融合规则对证据体的置信判断，决策最终诊断结果。

本发明提供的一种基于数据均衡的证据融合变压器故障诊断方法，具有以下有益效果：

1、通过收集在线监测、离线监测的特征气体含量序列和实际运行状态的DGA数据，可以真实有效的反映运行数据和运行状态之间的特征关系。与传统特征气体分析和三比值的人工诊断方法相比，智能算法提取故障特征的诊断方法可以有效避免阈值设置不当的问题。通过在线监测系统可以对变压器运行状态进行实时评估和诊断，解决传统人工诊断方法效率慢的问题。

2、油浸式变压器油中溶解气体数据运行状态类别间的不平衡特性造成故障特征缺失，导致智能算法在故障诊断过程中出现精度偏低的现象。所以，需要对油中溶解气体进行均衡化处理，对少数类样本采用BSMOTE算法扩充样本，以增强少数类样本的故障特征。传统BSMOTE算法合成的新样本聚集在少数类样本与多数类样本的边界处，易出现混淆样本边界的情况，故本发明在传统BSMOTE算法的基础上采用对合成的新样本进行离群点分析并剔除离群点的方式处理合成的边界样本，增强类别边界区域性，提高数据类别特征。

3、单一结构的分类模型在处理多维不平衡非线性数据时，会因训练方式、模型结构的限制出现学习效果不佳、特征提取不全面的弊端。本发明搭建支持向量机、梯度提升决策树、随机森林三种分类模型分别提取故障特征，通过PCR5-DS证据融合模型对三种分类模型提取的故障特征进行综合决策输出诊断结果，增强了数据特征提取能力，提高了故障诊断精度。

4、为了综合有效的验证基于数据均衡的证据融合变压器故障诊断方法的有效性，采用平均精确率F_a作为评价模型诊断结果的指标，反映诊断模型的效果。并将RO-BSMOTE算法与其他欠采样、过采样数据均衡方法进行数据均衡效果对比，验证RO-BSMOTE算法具有增强样本类别边界区域性、提高故障特征的能力。

附图说明

下面结合附图和实施例对本发明作进一步说明：

图1为基于数据均衡的诊断模型结构图；

图2为RO-BSMOTE流程图；

图3为GBDT分类流程图；

图4为各种数据均衡方法的诊断结果F_a指标的对比图；

图5为原始数据集诊断结果图；

图6为均衡后数据集诊断结果图；

具体实施方式

结合图1～图5对本发明具体实施方式进一步详细说明。

如图1所示，一种基于数据均衡的证据融合变压器故障诊断方法，包括如下步骤：

步骤一、数据收集处理：收集在线监测的油浸式变压器油中溶解气体含量数据，油浸式变压器DGA数据包括：在线监测、离线监测、运维手册等，记录五种特征气体含量序列和带有实际状态类型标签的DGA数据。根据获取数据的实际状态情况生成状态类型标签编码，编码后的数据集按照标签类型分类。

DGA数据包含H₂、CH₄、C₂H₆、C₂H₄、C₂H₂共计五种特征气体含量序列以及对应的状态类型标签，共计六类状态类型。收集到的DGA数据和编码后的状态类型标签如表1所示。

表1 DGA数据分布及状态编码

步骤二、如图2所示，数据均衡化处理：确定原始数据集中的小样本集，通过RO-BSMOTE均衡规则对小样本数据集扩充，实现数据集整体均衡。

首先采用K-means算法对原始小样本数据聚类处理，寻找小样本簇心位置，记x_km；然后，采用BSMOTE算法合成新数据，对小样本数据均衡处理；

采用BSMOTE算法合成新数据，包括如下步骤：

S2.1、设小样本数据集为X＝{x₁,x₂,…,x_n}，其中x_i是小样本数据集中的第i个样本特征向量，利用K近邻算法求取x_i的t个近邻样本，记录近邻样本中属于多数类样本的点数为t'。

S2.2、若t'＝t，即样本点x_i的t个近邻样本全部属于多数类，则x_i被划分为超越边界的噪声点；若0<t'<t/2，x_i被视作少数样本的内点；如果t/2<t'<t，x_i将被视作边界点；经上述点集划分过程，得到边界点集e。

x_合成＝x_i+λ(x_近邻-x_i) (1)

其次，通过对比合成新数据与簇心的相对位置，选择合理的离群边界，剔除离群点，保留离群边界以内的新数据。

根据数据点集与簇心平均欧氏距离定位偏离簇心位置较远的离群点，欧式距离如式(2)所示：

式中：d为均衡后数据集样本与簇心的平均欧氏距离，并记录最大偏离距离d_max，x_i为原始小样本数据集X的样本点(i＝0,1,2,…,n)，x_j为新合成数据集E的样本点(j＝0,1,2,…,v)；n为原始小样本数据集X的样本点数量；v为新合成数据集E的样本点数量。

最后，将原始样本与保留的新合成样本构成实验数据集，作为模型训练与测试数据。实验数据集划分训练集和测试集，其中训练集占数据集的80％、测试集占20％。

步骤三、多决策融合模型：构建多种结构的分类模型，挖掘数据集中训练集的故障特征；训练完成后，将测试集的特征气体序列输入分类模型，分别得到各分类模型输出的诊断概率序列，经PCR5规则的证据融合模型对诊断概率序列融合决策，得出诊断结果。

在本实施例中，分类模型包括支持向量机、梯度提升决策树、随机森林三种分类模型。其中支持向量机分类模型适用于非线性数据分类问题；梯度提升决策树分类模型有较强的多维数据特征提取能力，较好地适用于多维数据故障诊断问题；随机森林分类模型具有较强的抗噪点数据干扰能力，因此对于不平衡数据及多类别特征数据有较好的分类效果。上述三种不同结构的分类模型，在各自适用的问题场景下均具备较好地分类能力。因此，引入PCR5-DS证据融合理论搭建多决策融合模型，融合上述三类模型的优点，解决多维非线性不平衡数据多分类的变压器故障诊断问题。

支持向量机(support vector machine,SVM)是一种线性机器学习分类算法，其在处理分类任务时，需要通过非线性函数g(x)将原始线性不可分数据映射到高维特征空间，映射后数据在高维空间中变为线性可分。经映射后的非线性分类问题也变为线性分类问题，采用非线性函数将样本集从原始空间映射到高维特征空间，其寻找线性可分平面的方程及满足的不等式约束可表示为：

w^Tx_i+b＝0 (3)

式中：w为超平面法向量，c为惩罚因子，ξ为松弛变量，b为偏置量，x_i为输入样本，y_i为状态类别。

通过构建拉格朗日函数，并引入高斯径向基函数对非线性数据求解，通过获得的最优解可计算出决策函数值，实现故障分类。求解过程方程可表示为：

k(x_i,x_j)＝exp(-r||x_i-x_j||²) (6)

式中：L为拉格朗日函数，α_i、β_i为拉格朗日乘子，k(x_i,x_j)为高斯径向基核函数，f(x)为决策函数。

梯度提升决策树(gradient boosting decision tree，GBDT)，通过多棵决策树构成基分类器，训练方式为迭代测量上一轮基分类器的性能，并通过损失函数校正前一轮训练出现的误差。这种将基分类器迭代提升增强分类器性能的学习算法，其分类过程如图3所示，模型如下：

F₀(x)＝argmin∑L(x_i,ρ) (8)

γ_j＝argmin∑L(y_i,F_m-1(x_i)+γ_i) (10)

F_m(x)＝F_m-1(x)+η∑γ_jI (11)

式中：L(·)为损失函数，x_i为输入样本值，ρ为常数。γ_i为迭代负梯度，γ_j为最佳拟合值，是对γ_i的修正，F(x_i)为基分类器的预测值，η为学习率。点x在m次迭代的节点分类树中时I为1，否则为0。F_m-1(x)和F_m(x)分别表示在第m-1次和第m次迭代时基分类器的预测值，F(x)为最终的学习器。

式中下标及取值范围说明：m表示迭代次数，m＝1,2,…,M；x_i表示第i个样本数据，i＝1,2,…,N；j表示决策树节点数，j＝1,2,…,J。

随机森林(random forest,RF)是一种典型的集成学习分类算法，由多个基分类器按照并行方式构成，基分类器较多以决策树模型搭建。一个大小为K的随机森林处理多类别分类任务过程：1)从训练集随机有放回的抽取k个容量大小与训练集一样的样本，建立一个新的训练样本集D，2)随机选取m个特征，其中m小于原始样本集特征数M。3)使用训练集D和m个特征，训练出一颗CART决策树，循环K次得到随机森林。构建CART决策树模型通过基尼系数处确定分类节点，基尼系数与学习特征强度相关，基尼系数越小，特征越好。计算基尼系数如下：

式中：P(p_i)为分类至p_i类别的概率，D为决策树在某一轮迭代中随机抽取的数据集。有放回随机抽样的抽样方式，使得随机森林有抗噪点数据干扰能力强、泛化能力较强等优点，因此对于不平衡数据及多类别特征数据有较好的分类效果。

首先训练集数据依次输入支持向量机、梯度提升决策树、随机森林三种分类模型，提取数据特征完成训练。然后将测试集数据依次输入三种分类模型，分别输出三种分类模型关于测试集数据的状态诊断概率序列。将诊断概率序列转化为DS证据融合模型的证据体，通过PCR5融合规则对证据体进行置信判断，决策最终诊断结果。该诊断方法能融合上述三种分类模型的优点，解决多维的、非线性的、数据不平衡的变压器故障诊断问题。

DS证据融合理论把命题转化为数学集合的方式分析，不需要先验概率的支撑，具有处理不确定性数据特征分类的优势。当证据集合中包含多个元素时，可以运算出内部所有元素发生的概率。其优异的处理模糊性数据能力，恰能更好地表达命题存在的不确定性情况。但是，在分类任务中，多个分类器对某个数据特征所属类别的判断，可能给出不同的结果，甚至判断出互相冲突的类别。在面对证据体之间存在冲突性的融合环境下时，采用PCR5规则的DS融合模型，则可以较好避免因置信函数冲突导致决策有失偏颇的问题，下面给出PCR5规则融合模型的相关定义：

定义1：概率识别空间Φ。

φ＝{p₁,p₂,p₃,...,p_k} (14)

其中，p_i为识别空间集合中的一个元素，这里表示变压器故障类型。

定义2：基本置信函数分配。

DS证据融合理论判别决策输出是其描述对命题的基本信任度，记为mass函数。DS决策过程通过基本信任分配函数确定对某一命题的信任度。

定义3：PCR5融合规则

设概率识别空间的两个基本置信mass函数为m₁、m₂，对命题R的置信度为m(R)。根据PCR5融合规则有：

式中：R、A为概率识别空间的互不包含的子集。

验证分类模型准确度时需要检验分类结果标签是否与原始标签相同，而验证分类模型对数据集的诊断结果时可以选择平均精确率F_a作为分类模型评价指标。对于不平衡数据分类问题，采用平均精确率F_a作为评价指标可以准确反映实际诊断准确率的情况，能有效验证数据均衡算法RO-BSMOTE合成的新样本对诊断精度的提升。

评价指标：平均精确率F_a。

平均精确率F_a表示全数据集下所有类别中预测正确结果所占的比例。在分类混淆矩阵中可以表示为：

分类混淆矩阵如表2所示。

表2分类混淆矩阵

对图4可知，当采用RO-SMOTE对DGA数据集进行均衡时，各诊断模型的平均精确率结果表现最好。当采用欠采样算法NearMiss和随机欠采样(random undersampling,RUS)对数据均衡时，平均精确率明显小于原始数据集的平均精确率。当使用过采样算法SMOTE、BSMOTE、RO-SMOTE均衡数据集时，诊断结果平均精确率明显高于原始数据集的诊断结果。并且在每个数据集上DS证据融合的决策结果均比单一模型诊断结果要好。

在PCR5-DS融合诊断结果中，经分析可知，在对原始数据集诊断结果中，测试集100例，出现误判个数为18个，误判率为18％，平均精确率为82％，如图5所示。在对均衡后的数据集诊断结果中，测试集120例，出现误判个数减少到9个，误判率为7.5％，平均精确率为92.5％，如图6所示。数据集均衡前后诊断平均精确率提高10.5％。

通过上述实例验证及分析，得出本发明设计的一种基于RO-BSMOTE的不平衡多类别数据均衡模型及PCR5规则融合模型变压器故障诊断方法的有效性。通过对少数类样本采用BSMOTE合成新数据及剔除离群点的方式均衡数据集，实现增强类别区域性，提高数据类别特征。并利用支持向量机、梯度提升决策树、随机森林提取数据特征，通过PCR5-DS融合模型综合决策输出诊断结果，增强了数据特征提取能力，提高了故障诊断精度。

Claims

1.一种基于数据均衡的证据融合变压器故障诊断方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于数据均衡的证据融合变压器故障诊断方法，其特征在于，所述步骤二中，首先采用K-means算法对原始小样本数据聚类处理，寻找小样本簇心位置，记x_km；然后，采用BSMOTE算法合成新数据，对小样本数据均衡处理；其次，通过对比合成新数据与簇心的相对位置，选择合理的离群边界，剔除离群点，保留离群边界以内的新数据；最后，将原始小样本与保留的合成新样本构成新数据集，作为模型训练与测试数据。

3.根据权利要求2所述的一种基于数据均衡的证据融合变压器故障诊断方法，其特征在于，采用BSMOTE算法合成新数据，包括如下步骤：

x_合成＝x_i+λ(x_近邻-x_i) (1)

4.根据权利要求2所述的一种基于数据均衡的证据融合变压器故障诊断方法，其特征在于，根据数据点集与簇心平均欧氏距离定位偏离簇心位置较远的离群点，欧式距离如式(2)所示：

5.根据权利要求1所述的一种基于数据均衡的证据融合变压器故障诊断方法，其特征在于，所述步骤三中，分类模型包括支持向量机、梯度提升决策树、随机森林三种分类模型，首先训练集数据依次输入支持向量机、梯度提升决策树、随机森林三种分类模型，提取数据特征完成训练，并输出测试集数据关于各个状态类型的诊断概率序列以及诊断结果，将三条诊断概率序列转化为DS证据融合理论模型的证据体，通过PCR5融合规则对证据体的置信判断，决策最终诊断结果。