CN117349786A - 基于数据均衡的证据融合变压器故障诊断方法 - Google Patents
基于数据均衡的证据融合变压器故障诊断方法 Download PDFInfo
- Publication number
- CN117349786A CN117349786A CN202311166171.7A CN202311166171A CN117349786A CN 117349786 A CN117349786 A CN 117349786A CN 202311166171 A CN202311166171 A CN 202311166171A CN 117349786 A CN117349786 A CN 117349786A
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- equalization
- model
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 74
- 230000004927 fusion Effects 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013145 classification model Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 20
- 101100519161 Arabidopsis thaliana PCR5 gene Proteins 0.000 claims abstract description 12
- 238000011156 evaluation Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 32
- 238000003066 decision tree Methods 0.000 claims description 17
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 15
- 238000007637 random forest analysis Methods 0.000 claims description 15
- 238000012706 support-vector machine Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 238000013480 data collection Methods 0.000 claims description 3
- 238000005065 mining Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 4
- 239000007789 gas Substances 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 238000004458 analytical method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004868 gas analysis Methods 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012850 discrimination method Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011810 insulating material Substances 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000003921 oil Substances 0.000 description 1
- 239000000123 paper Substances 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/257—Belief theory, e.g. Dempster-Shafer
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/50—Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
- G01R31/62—Testing of transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Power Engineering (AREA)
- Complex Calculations (AREA)
Abstract
本发明提供一种基于数据均衡的证据融合变压器故障诊断方法,包括如下步骤:步骤一、收集在线监测的油浸式变压器油中溶解气体含量数据,将带有状态标签的特征气体含量数据集划分训练集和测试集;步骤二、确定原始数据集中的小样本集,通过RO‑BSMOTE均衡规则对小样本数据集扩充;步骤三、分别构建多分类模型,均衡后的数据集及故障标签作为模型训练集;训练完成后,测试集输入分类模型,经PCR5规则的融合模型融合输出,得出诊断结果;步骤四、选择分类任务评价指标,实现对模型性能的综合评价。该方法对DGA数据均衡化处理,增强少数类数据携带的特征关系,考虑单结构分类模型的不足,引入证据融合理论,实现多分类器融合判别,以提高故障诊断精度。
Description
技术领域
本发明涉及电力设备故障诊断技术领域,特别涉及一种基于数据均衡的证据融合变压器故障诊断方法。
背景技术
电力变压器是由油、纸、铜、钢、铁等材料组成的复杂系统,故障形式及其表现特征多样,各部件之间存在较强耦合度,使得故障诊断的难度增加。目前,以油中溶解气体分析(Dissolved Gas Analysis,DGA)为基础的变压器故障诊断技术被广泛应用。变压器运行在不同状态或发生不同的故障时,绝缘材料裂解出多种气体并溶解在绝缘油中,油中溶解气体的组分和含量可以很大程度上反映出变压器的运行状态和发生故障的类型,在变压器运行在不良状态的早期即可予以诊断。
实际上,变压器异常状态下的数据较少,也就导致变压器DGA数据不均衡分布的特性。引入智能分类算法提取特征关系已经成为电力设备状态监测的发展趋势,而这类模型训练目标通常是以损失值最小或类别间隔最大,处理不平衡数据时在小样本数据集学习上产生过拟合的问题、诊断结果受多数类样本数据集的影响等都直接或间接导致故障状态下的小样本数据的漏判率远高于正常样本,从而无法保证故障样本的分类精度。
目前,基于机器学习等智能算法挖掘油中溶解气体数据与故障之间非线性关系,构建变压器故障诊断模型被大量研究。与传统特征气体判别法、三比值法、改良三比值法等经验知识判别法相比,智能算法的故障诊断模型可以脱离人工快速实现变压器状态监测,且诊断精度大大提高。虽然此类模型优点较为突出,但同时也有一些不足需要改进。首先,变压器故障率较低,导致故障类别数据较少,难以携带有效的特征关系供智能算法挖掘;其次,依靠单一分类模型挖掘出的特征关系难以保证诊断精度,从而可能误导检修人员的运维决策。
CN115828185A公开的一种油浸变压器故障诊断方法,构建三种故障诊断模型包括:相关向量机、支持向量机和反向传播神经网络,作为DS证据融合的证据体,提高了诊断精度。CN115841152A公开的基于遗传算法特征优选和支持向量机的变压器诊断方法,采用遗传算法对五种特征气体的排列组合进行特征优选,提取与故障关联性较强的最佳特征值组合,然后支持向量机做出诊断结果,有效挖掘DGA数据中潜在的故障特征信息。CN115980212A公开的一种电力变压器设备状态评估方法,基于油中溶解气体构建变压器运行状态模型,并生成故障标准数列,与特征气体分析法得出的故障比较数列计算关联度,可以快速得到最终的变压器运行状态决策结果。
上述专利考虑到分类模型提取特征能力不足,如何提高挖掘油中溶解气体数据与故障之间潜在的特征关系,但并未考虑特征气体分析法阈值设置不合理造成诊断不准确的问题;未考虑油浸式变压器实际运行过程中故障数据较少的数据不平衡问题;同时未考虑DS证据融合理论在证据体冲突环境下决策偏移问题。上述专利在提高诊断精度方面做出一定贡献,但并未结合变压器实际油中溶解数据特性进行研究。根据上述分析,现有专利的不足具体如下:
(1)针对智能算法模型提取油中溶解气体特征研究不足,或传统诊断方式未考虑判断阈值的合理设定。
(2)未考虑油浸式变压器油中溶解气体数据运行状态类别间的不平衡特性。
(3)未考虑DS证据融合理论证据体间置信函数存在冲突性的情况。
发明内容
本发明所要解决的技术问题是提供一种基于数据均衡的证据融合变压器故障诊断方法,对DGA数据均衡化处理,增强少数类数据携带的特征关系,考虑单结构分类模型的不足,引入证据融合理论,实现多分类器融合判别,以提高故障诊断精度。
为解决上述技术问题,本发明所采用的技术方案是:一种基于数据均衡的证据融合变压器故障诊断方法,包括如下步骤:
步骤一、数据收集处理:收集在线监测的油浸式变压器油中溶解气体含量数据,并与几种变压器内部实际运行状态建立联系,标记标签,将带有状态标签的特征气体含量数据集划分训练集和测试集;
步骤二、数据均衡化处理:确定原始数据集中的小样本集,通过RO-BSMOTE均衡规则对小样本数据集扩充,实现数据集整体均衡;
步骤三、多决策融合模型:分别构建多分类模型,均衡后的数据集及故障标签作为模型训练集,挖掘特征关系;训练完成后,测试集的特征气体序列输入分类模型,经PCR5规则的融合模型融合输出,得出诊断结果;
步骤四、选择分类任务评价指标,通过对测试集数据状态类型诊断结果与真实状态类型作对比,实现对模型性能的综合评价。
优选的方案中,所述步骤二中,首先采用K-means算法对原始小样本数据聚类处理,寻找小样本簇心位置,记xkm;然后,采用BSMOTE算法合成新数据,对小样本数据均衡处理;其次,通过对比合成新数据与簇心的相对位置,选择合理的离群边界,剔除离群点,保留离群边界以内的新数据;最后,将原始小样本与保留的合成新样本构成新数据集,作为模型训练与测试数据。
优选的方案中,采用BSMOTE算法合成新数据,包括如下步骤:
S2.1、设小样本数据集为X={x1,x2,…,xn},其中xi是小样本数据集中的第i个样本特征向量,利用K近邻算法求取xi的t个近邻样本,记录近邻样本中属于多数类样本的点数为t';
S2.2、若t'=t,即样本点xi的t个近邻样本全部属于多数类,则xi被划分为超越边界的噪声点;若0<t'<t/2,xi被视作少数样本的内点;如果t/2<t'<t,xi将被视作边界点;经上述点集划分过程,得到边界点集e;
S2.3、对边界点集e中的每个样本点做做SMOTE算法数据均衡处理,由式(1)进行线性插值,合成新样本点,均衡数据生成的新样本集为E,记E={x1,x2,…,xv}:
x合成=xi+λ(x近邻-xi) (1)
其中xi是小样本数据集中的第i个样本特征向量;x近邻为靠近xi的近邻样本;λ为区间(0,1)内的随机数;x合成为合成的新样本。
优选的方案中,根据数据点集与簇心平均欧氏距离定位偏离簇心位置较远的离群点,欧式距离如式(2)所示:
式中:d为均衡后数据集样本与簇心的平均欧氏距离,并记录最大偏离距离dmax,xi为原始小样本数据集X的样本点(i=0,1,2,…,n),xj为新合成数据集E的样本点(j=0,1,2,…,v);n为原始小样本数据集X的样本点数量;v为新合成数据集E的样本点数量;
新合成数据集E的每例样本与簇心距离为dj,若某例样本的dt满足dt>(dmax+d)/2,则称样本dt为离群点,剔除离群点,保留离群边界以内的新数据。
优选的方案中,所述步骤三中,分类模型包括支持向量机、梯度提升决策树、随机森林三种分类模型,首先训练集数据依次输入支持向量机、梯度提升决策树、随机森林三种分类模型,提取数据特征完成训练,并输出测试集数据关于各个状态类型的诊断概率序列以及诊断结果,将三条诊断概率序列转化为DS证据融合理论模型的证据体,通过PCR5融合规则对证据体的置信判断,决策最终诊断结果。
本发明提供的一种基于数据均衡的证据融合变压器故障诊断方法,具有以下有益效果:
1、通过收集在线监测、离线监测的特征气体含量序列和实际运行状态的DGA数据,可以真实有效的反映运行数据和运行状态之间的特征关系。与传统特征气体分析和三比值的人工诊断方法相比,智能算法提取故障特征的诊断方法可以有效避免阈值设置不当的问题。通过在线监测系统可以对变压器运行状态进行实时评估和诊断,解决传统人工诊断方法效率慢的问题。
2、油浸式变压器油中溶解气体数据运行状态类别间的不平衡特性造成故障特征缺失,导致智能算法在故障诊断过程中出现精度偏低的现象。所以,需要对油中溶解气体进行均衡化处理,对少数类样本采用BSMOTE算法扩充样本,以增强少数类样本的故障特征。传统BSMOTE算法合成的新样本聚集在少数类样本与多数类样本的边界处,易出现混淆样本边界的情况,故本发明在传统BSMOTE算法的基础上采用对合成的新样本进行离群点分析并剔除离群点的方式处理合成的边界样本,增强类别边界区域性,提高数据类别特征。
3、单一结构的分类模型在处理多维不平衡非线性数据时,会因训练方式、模型结构的限制出现学习效果不佳、特征提取不全面的弊端。本发明搭建支持向量机、梯度提升决策树、随机森林三种分类模型分别提取故障特征,通过PCR5-DS证据融合模型对三种分类模型提取的故障特征进行综合决策输出诊断结果,增强了数据特征提取能力,提高了故障诊断精度。
4、为了综合有效的验证基于数据均衡的证据融合变压器故障诊断方法的有效性,采用平均精确率Fa作为评价模型诊断结果的指标,反映诊断模型的效果。并将RO-BSMOTE算法与其他欠采样、过采样数据均衡方法进行数据均衡效果对比,验证RO-BSMOTE算法具有增强样本类别边界区域性、提高故障特征的能力。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为基于数据均衡的诊断模型结构图;
图2为RO-BSMOTE流程图;
图3为GBDT分类流程图;
图4为各种数据均衡方法的诊断结果Fa指标的对比图;
图5为原始数据集诊断结果图;
图6为均衡后数据集诊断结果图;
具体实施方式
结合图1~图5对本发明具体实施方式进一步详细说明。
如图1所示,一种基于数据均衡的证据融合变压器故障诊断方法,包括如下步骤:
步骤一、数据收集处理:收集在线监测的油浸式变压器油中溶解气体含量数据,油浸式变压器DGA数据包括:在线监测、离线监测、运维手册等,记录五种特征气体含量序列和带有实际状态类型标签的DGA数据。根据获取数据的实际状态情况生成状态类型标签编码,编码后的数据集按照标签类型分类。
DGA数据包含H2、CH4、C2H6、C2H4、C2H2共计五种特征气体含量序列以及对应的状态类型标签,共计六类状态类型。收集到的DGA数据和编码后的状态类型标签如表1所示。
表1 DGA数据分布及状态编码
步骤二、如图2所示,数据均衡化处理:确定原始数据集中的小样本集,通过RO-BSMOTE均衡规则对小样本数据集扩充,实现数据集整体均衡。
首先采用K-means算法对原始小样本数据聚类处理,寻找小样本簇心位置,记xkm;然后,采用BSMOTE算法合成新数据,对小样本数据均衡处理;
采用BSMOTE算法合成新数据,包括如下步骤:
S2.1、设小样本数据集为X={x1,x2,…,xn},其中xi是小样本数据集中的第i个样本特征向量,利用K近邻算法求取xi的t个近邻样本,记录近邻样本中属于多数类样本的点数为t'。
S2.2、若t'=t,即样本点xi的t个近邻样本全部属于多数类,则xi被划分为超越边界的噪声点;若0<t'<t/2,xi被视作少数样本的内点;如果t/2<t'<t,xi将被视作边界点;经上述点集划分过程,得到边界点集e。
S2.3、对边界点集e中的每个样本点做做SMOTE算法数据均衡处理,由式(1)进行线性插值,合成新样本点,均衡数据生成的新样本集为E,记E={x1,x2,…,xv}:
x合成=xi+λ(x近邻-xi) (1)
其中xi是小样本数据集中的第i个样本特征向量;x近邻为靠近xi的近邻样本;λ为区间(0,1)内的随机数;x合成为合成的新样本。
其次,通过对比合成新数据与簇心的相对位置,选择合理的离群边界,剔除离群点,保留离群边界以内的新数据。
根据数据点集与簇心平均欧氏距离定位偏离簇心位置较远的离群点,欧式距离如式(2)所示:
式中:d为均衡后数据集样本与簇心的平均欧氏距离,并记录最大偏离距离dmax,xi为原始小样本数据集X的样本点(i=0,1,2,…,n),xj为新合成数据集E的样本点(j=0,1,2,…,v);n为原始小样本数据集X的样本点数量;v为新合成数据集E的样本点数量。
新合成数据集E的每例样本与簇心距离为dj,若某例样本的dt满足dt>(dmax+d)/2,则称样本dt为离群点,剔除离群点,保留离群边界以内的新数据。
最后,将原始样本与保留的新合成样本构成实验数据集,作为模型训练与测试数据。实验数据集划分训练集和测试集,其中训练集占数据集的80%、测试集占20%。
步骤三、多决策融合模型:构建多种结构的分类模型,挖掘数据集中训练集的故障特征;训练完成后,将测试集的特征气体序列输入分类模型,分别得到各分类模型输出的诊断概率序列,经PCR5规则的证据融合模型对诊断概率序列融合决策,得出诊断结果。
在本实施例中,分类模型包括支持向量机、梯度提升决策树、随机森林三种分类模型。其中支持向量机分类模型适用于非线性数据分类问题;梯度提升决策树分类模型有较强的多维数据特征提取能力,较好地适用于多维数据故障诊断问题;随机森林分类模型具有较强的抗噪点数据干扰能力,因此对于不平衡数据及多类别特征数据有较好的分类效果。上述三种不同结构的分类模型,在各自适用的问题场景下均具备较好地分类能力。因此,引入PCR5-DS证据融合理论搭建多决策融合模型,融合上述三类模型的优点,解决多维非线性不平衡数据多分类的变压器故障诊断问题。
支持向量机(support vector machine,SVM)是一种线性机器学习分类算法,其在处理分类任务时,需要通过非线性函数g(x)将原始线性不可分数据映射到高维特征空间,映射后数据在高维空间中变为线性可分。经映射后的非线性分类问题也变为线性分类问题,采用非线性函数将样本集从原始空间映射到高维特征空间,其寻找线性可分平面的方程及满足的不等式约束可表示为:
wTxi+b=0 (3)
式中:w为超平面法向量,c为惩罚因子,ξ为松弛变量,b为偏置量,xi为输入样本,yi为状态类别。
通过构建拉格朗日函数,并引入高斯径向基函数对非线性数据求解,通过获得的最优解可计算出决策函数值,实现故障分类。求解过程方程可表示为:
k(xi,xj)=exp(-r||xi-xj||2) (6)
式中:L为拉格朗日函数,αi、βi为拉格朗日乘子,k(xi,xj)为高斯径向基核函数,f(x)为决策函数。
梯度提升决策树(gradient boosting decision tree,GBDT),通过多棵决策树构成基分类器,训练方式为迭代测量上一轮基分类器的性能,并通过损失函数校正前一轮训练出现的误差。这种将基分类器迭代提升增强分类器性能的学习算法,其分类过程如图3所示,模型如下:
F0(x)=argmin∑L(xi,ρ) (8)
γj=argmin∑L(yi,Fm-1(xi)+γi) (10)
Fm(x)=Fm-1(x)+η∑γjI (11)
式中:L(·)为损失函数,xi为输入样本值,ρ为常数。γi为迭代负梯度,γj为最佳拟合值,是对γi的修正,F(xi)为基分类器的预测值,η为学习率。点x在m次迭代的节点分类树中时I为1,否则为0。Fm-1(x)和Fm(x)分别表示在第m-1次和第m次迭代时基分类器的预测值,F(x)为最终的学习器。
式中下标及取值范围说明:m表示迭代次数,m=1,2,…,M;xi表示第i个样本数据,i=1,2,…,N;j表示决策树节点数,j=1,2,…,J。
随机森林(random forest,RF)是一种典型的集成学习分类算法,由多个基分类器按照并行方式构成,基分类器较多以决策树模型搭建。一个大小为K的随机森林处理多类别分类任务过程:1)从训练集随机有放回的抽取k个容量大小与训练集一样的样本,建立一个新的训练样本集D,2)随机选取m个特征,其中m小于原始样本集特征数M。3)使用训练集D和m个特征,训练出一颗CART决策树,循环K次得到随机森林。构建CART决策树模型通过基尼系数处确定分类节点,基尼系数与学习特征强度相关,基尼系数越小,特征越好。计算基尼系数如下:
式中:P(pi)为分类至pi类别的概率,D为决策树在某一轮迭代中随机抽取的数据集。有放回随机抽样的抽样方式,使得随机森林有抗噪点数据干扰能力强、泛化能力较强等优点,因此对于不平衡数据及多类别特征数据有较好的分类效果。
首先训练集数据依次输入支持向量机、梯度提升决策树、随机森林三种分类模型,提取数据特征完成训练。然后将测试集数据依次输入三种分类模型,分别输出三种分类模型关于测试集数据的状态诊断概率序列。将诊断概率序列转化为DS证据融合模型的证据体,通过PCR5融合规则对证据体进行置信判断,决策最终诊断结果。该诊断方法能融合上述三种分类模型的优点,解决多维的、非线性的、数据不平衡的变压器故障诊断问题。
DS证据融合理论把命题转化为数学集合的方式分析,不需要先验概率的支撑,具有处理不确定性数据特征分类的优势。当证据集合中包含多个元素时,可以运算出内部所有元素发生的概率。其优异的处理模糊性数据能力,恰能更好地表达命题存在的不确定性情况。但是,在分类任务中,多个分类器对某个数据特征所属类别的判断,可能给出不同的结果,甚至判断出互相冲突的类别。在面对证据体之间存在冲突性的融合环境下时,采用PCR5规则的DS融合模型,则可以较好避免因置信函数冲突导致决策有失偏颇的问题,下面给出PCR5规则融合模型的相关定义:
定义1:概率识别空间Φ。
φ={p1,p2,p3,...,pk} (14)
其中,pi为识别空间集合中的一个元素,这里表示变压器故障类型。
定义2:基本置信函数分配。
DS证据融合理论判别决策输出是其描述对命题的基本信任度,记为mass函数。DS决策过程通过基本信任分配函数确定对某一命题的信任度。
定义3:PCR5融合规则
设概率识别空间的两个基本置信mass函数为m1、m2,对命题R的置信度为m(R)。根据PCR5融合规则有:
式中:R、A为概率识别空间的互不包含的子集。
步骤四、选择分类任务评价指标,通过对测试集数据状态类型诊断结果与真实状态类型作对比,实现对模型性能的综合评价。
验证分类模型准确度时需要检验分类结果标签是否与原始标签相同,而验证分类模型对数据集的诊断结果时可以选择平均精确率Fa作为分类模型评价指标。对于不平衡数据分类问题,采用平均精确率Fa作为评价指标可以准确反映实际诊断准确率的情况,能有效验证数据均衡算法RO-BSMOTE合成的新样本对诊断精度的提升。
评价指标:平均精确率Fa。
平均精确率Fa表示全数据集下所有类别中预测正确结果所占的比例。在分类混淆矩阵中可以表示为:
分类混淆矩阵如表2所示。
表2分类混淆矩阵
对图4可知,当采用RO-SMOTE对DGA数据集进行均衡时,各诊断模型的平均精确率结果表现最好。当采用欠采样算法NearMiss和随机欠采样(random undersampling,RUS)对数据均衡时,平均精确率明显小于原始数据集的平均精确率。当使用过采样算法SMOTE、BSMOTE、RO-SMOTE均衡数据集时,诊断结果平均精确率明显高于原始数据集的诊断结果。并且在每个数据集上DS证据融合的决策结果均比单一模型诊断结果要好。
在PCR5-DS融合诊断结果中,经分析可知,在对原始数据集诊断结果中,测试集100例,出现误判个数为18个,误判率为18%,平均精确率为82%,如图5所示。在对均衡后的数据集诊断结果中,测试集120例,出现误判个数减少到9个,误判率为7.5%,平均精确率为92.5%,如图6所示。数据集均衡前后诊断平均精确率提高10.5%。
通过上述实例验证及分析,得出本发明设计的一种基于RO-BSMOTE的不平衡多类别数据均衡模型及PCR5规则融合模型变压器故障诊断方法的有效性。通过对少数类样本采用BSMOTE合成新数据及剔除离群点的方式均衡数据集,实现增强类别区域性,提高数据类别特征。并利用支持向量机、梯度提升决策树、随机森林提取数据特征,通过PCR5-DS融合模型综合决策输出诊断结果,增强了数据特征提取能力,提高了故障诊断精度。
Claims (5)
1.一种基于数据均衡的证据融合变压器故障诊断方法,其特征在于,包括如下步骤:
步骤一、数据收集处理:收集在线监测的油浸式变压器油中溶解气体含量数据,并与几种变压器内部实际运行状态建立联系,标记标签,将带有状态标签的特征气体含量数据集划分训练集和测试集;
步骤二、数据均衡化处理:确定原始数据集中的小样本集,通过RO-BSMOTE均衡规则对小样本数据集扩充,实现数据集整体均衡;
步骤三、多决策融合模型:分别构建多分类模型,均衡后的数据集及故障标签作为模型训练集,挖掘特征关系;训练完成后,测试集的特征气体序列输入分类模型,经PCR5规则的融合模型融合输出,得出诊断结果;
步骤四、选择分类任务评价指标,通过对测试集数据状态类型诊断结果与真实状态类型作对比,实现对模型性能的综合评价。
2.根据权利要求1所述的一种基于数据均衡的证据融合变压器故障诊断方法,其特征在于,所述步骤二中,首先采用K-means算法对原始小样本数据聚类处理,寻找小样本簇心位置,记xkm;然后,采用BSMOTE算法合成新数据,对小样本数据均衡处理;其次,通过对比合成新数据与簇心的相对位置,选择合理的离群边界,剔除离群点,保留离群边界以内的新数据;最后,将原始小样本与保留的合成新样本构成新数据集,作为模型训练与测试数据。
3.根据权利要求2所述的一种基于数据均衡的证据融合变压器故障诊断方法,其特征在于,采用BSMOTE算法合成新数据,包括如下步骤:
S2.1、设小样本数据集为X={x1,x2,…,xn},其中xi是小样本数据集中的第i个样本特征向量,利用K近邻算法求取xi的t个近邻样本,记录近邻样本中属于多数类样本的点数为t';
S2.2、若t'=t,即样本点xi的t个近邻样本全部属于多数类,则xi被划分为超越边界的噪声点;若0<t'<t/2,xi被视作少数样本的内点;如果t/2<t'<t,xi将被视作边界点;经上述点集划分过程,得到边界点集e;
S2.3、对边界点集e中的每个样本点做做SMOTE算法数据均衡处理,由式(1)进行线性插值,合成新样本点,均衡数据生成的新样本集为E,记E={x1,x2,…,xv}:
x合成=xi+λ(x近邻-xi) (1)
其中xi是小样本数据集中的第i个样本特征向量;x近邻为靠近xi的近邻样本;λ为区间(0,1)内的随机数;x合成为合成的新样本。
4.根据权利要求2所述的一种基于数据均衡的证据融合变压器故障诊断方法,其特征在于,根据数据点集与簇心平均欧氏距离定位偏离簇心位置较远的离群点,欧式距离如式(2)所示:
式中:d为均衡后数据集样本与簇心的平均欧氏距离,并记录最大偏离距离dmax,xi为原始小样本数据集X的样本点(i=0,1,2,…,n),xj为新合成数据集E的样本点(j=0,1,2,…,v);n为原始小样本数据集X的样本点数量;v为新合成数据集E的样本点数量;
新合成数据集E的每例样本与簇心距离为dj,若某例样本的dt满足dt>(dmax+d)/2,则称样本dt为离群点,剔除离群点,保留离群边界以内的新数据。
5.根据权利要求1所述的一种基于数据均衡的证据融合变压器故障诊断方法,其特征在于,所述步骤三中,分类模型包括支持向量机、梯度提升决策树、随机森林三种分类模型,首先训练集数据依次输入支持向量机、梯度提升决策树、随机森林三种分类模型,提取数据特征完成训练,并输出测试集数据关于各个状态类型的诊断概率序列以及诊断结果,将三条诊断概率序列转化为DS证据融合理论模型的证据体,通过PCR5融合规则对证据体的置信判断,决策最终诊断结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311166171.7A CN117349786A (zh) | 2023-09-11 | 2023-09-11 | 基于数据均衡的证据融合变压器故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311166171.7A CN117349786A (zh) | 2023-09-11 | 2023-09-11 | 基于数据均衡的证据融合变压器故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117349786A true CN117349786A (zh) | 2024-01-05 |
Family
ID=89365761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311166171.7A Pending CN117349786A (zh) | 2023-09-11 | 2023-09-11 | 基于数据均衡的证据融合变压器故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117349786A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633538A (zh) * | 2024-01-25 | 2024-03-01 | 中国传媒大学 | 类不平衡数据的处理方法、系统、电子装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA885619A (en) * | 1971-11-09 | E. Charlwood Reginald | Current regulated speed control system for wound rotor a.c. motors | |
CN102254177A (zh) * | 2011-04-22 | 2011-11-23 | 哈尔滨工程大学 | 一种不均衡数据svm轴承故障检测方法 |
CN106770939A (zh) * | 2016-12-08 | 2017-05-31 | 贵州电网有限责任公司电力科学研究院 | 一种基于支持向量描述和k近质心近邻的变压器故障诊断方法 |
US20210278478A1 (en) * | 2020-03-02 | 2021-09-09 | Wuhan University | Deep parallel fault diagnosis method and system for dissolved gas in transformer oil |
US20220198254A1 (en) * | 2020-12-17 | 2022-06-23 | UMNAI Limited | Explainable transducer transformers |
CN115146702A (zh) * | 2022-05-26 | 2022-10-04 | 国网宁夏电力有限公司电力科学研究院 | 一种变压器故障诊断方法、介质及系统 |
CN115881238A (zh) * | 2022-10-09 | 2023-03-31 | 成都信息工程大学 | 模型训练方法、变压器故障诊断方法及相关装置 |
CN116522121A (zh) * | 2023-04-28 | 2023-08-01 | 东北电力大学 | 一种不平衡小样本条件下的变压器在线故障诊断方法 |
CN116595445A (zh) * | 2023-04-17 | 2023-08-15 | 三峡大学 | 基于随机森林特征优选和改进支持向量机的变压器故障诊断方法 |
-
2023
- 2023-09-11 CN CN202311166171.7A patent/CN117349786A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA885619A (en) * | 1971-11-09 | E. Charlwood Reginald | Current regulated speed control system for wound rotor a.c. motors | |
CN102254177A (zh) * | 2011-04-22 | 2011-11-23 | 哈尔滨工程大学 | 一种不均衡数据svm轴承故障检测方法 |
CN106770939A (zh) * | 2016-12-08 | 2017-05-31 | 贵州电网有限责任公司电力科学研究院 | 一种基于支持向量描述和k近质心近邻的变压器故障诊断方法 |
US20210278478A1 (en) * | 2020-03-02 | 2021-09-09 | Wuhan University | Deep parallel fault diagnosis method and system for dissolved gas in transformer oil |
US20220198254A1 (en) * | 2020-12-17 | 2022-06-23 | UMNAI Limited | Explainable transducer transformers |
CN115146702A (zh) * | 2022-05-26 | 2022-10-04 | 国网宁夏电力有限公司电力科学研究院 | 一种变压器故障诊断方法、介质及系统 |
CN115881238A (zh) * | 2022-10-09 | 2023-03-31 | 成都信息工程大学 | 模型训练方法、变压器故障诊断方法及相关装置 |
CN116595445A (zh) * | 2023-04-17 | 2023-08-15 | 三峡大学 | 基于随机森林特征优选和改进支持向量机的变压器故障诊断方法 |
CN116522121A (zh) * | 2023-04-28 | 2023-08-01 | 东北电力大学 | 一种不平衡小样本条件下的变压器在线故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
刘云鹏等: "基于SVM SMOTE的电力变压器故障样本均衡化方法", 《高电压技术》, no. 07, 31 December 2020 (2020-12-31), pages 304 - 311 * |
孙慧君等: "不同运检策略对变压器年停运时间的影响", 《中国电力》, 31 August 2020 (2020-08-31), pages 91 - 99 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633538A (zh) * | 2024-01-25 | 2024-03-01 | 中国传媒大学 | 类不平衡数据的处理方法、系统、电子装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shim et al. | Active learning of convolutional neural network for cost-effective wafer map pattern classification | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN110213222B (zh) | 基于机器学习的网络入侵检测方法 | |
CN110659207B (zh) | 基于核谱映射迁移集成的异构跨项目软件缺陷预测方法 | |
CN111221920B (zh) | 变电设备运维装置的案例库构建方法、装置及计算机存储介质 | |
CN109165604A (zh) | 基于协同训练的非侵入式负荷识别方法及其测试系统 | |
CN111581116B (zh) | 一种基于分层数据筛选的跨项目软件缺陷预测方法 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN105930792A (zh) | 一种基于视频局部特征字典的人体动作分类方法 | |
CN112115265A (zh) | 文本分类中的小样本学习方法 | |
CN117349786A (zh) | 基于数据均衡的证据融合变压器故障诊断方法 | |
KR102362872B1 (ko) | 인공지능 학습을 위한 클린 라벨 데이터 정제 방법 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN112580693A (zh) | 基于自助法重采样邻域保持嵌入的石化过程故障诊断方法 | |
CN112817954A (zh) | 一种基于多种方法集成学习的缺失值插补方法 | |
CN116151319A (zh) | 搜索神经网络集成模型的方法、装置和电子设备 | |
JP7214822B1 (ja) | Cam基盤の弱教師あり学習物体探知装置及び方法 | |
CN116467634A (zh) | 一种基于半监督对比学习的制冷机组故障诊断方法 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
Lee et al. | Open-set recognition with gradient-based representations | |
CN111191033A (zh) | 一种基于分类效用的开集分类方法 | |
CN113726558A (zh) | 基于随机森林算法的网络设备流量预测系统 | |
CN104468276A (zh) | 基于随机抽样多分类器的网络流量识别方法 | |
Bianchi et al. | An interpretable graph-based image classifier | |
CN111950652A (zh) | 一种基于相似度的半监督学习数据分类算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |