CN113702728A - 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 - Google Patents
一种基于组合采样和LightGBM的变压器故障诊断方法及系统 Download PDFInfo
- Publication number
- CN113702728A CN113702728A CN202110786062.XA CN202110786062A CN113702728A CN 113702728 A CN113702728 A CN 113702728A CN 202110786062 A CN202110786062 A CN 202110786062A CN 113702728 A CN113702728 A CN 113702728A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- fault diagnosis
- lightgbm
- majority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000005070 sampling Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 31
- 238000003066 decision tree Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 2
- 239000007789 gas Substances 0.000 description 15
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 15
- UGFAIRIUMAVXCW-UHFFFAOYSA-N Carbon monoxide Chemical compound [O+]#[C-] UGFAIRIUMAVXCW-UHFFFAOYSA-N 0.000 description 6
- 229910002091 carbon monoxide Inorganic materials 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- OTMSDBZUPAUEDD-UHFFFAOYSA-N Ethane Chemical compound CC OTMSDBZUPAUEDD-UHFFFAOYSA-N 0.000 description 5
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 5
- 239000005977 Ethylene Substances 0.000 description 5
- HSFWRNGVRCDJHI-UHFFFAOYSA-N alpha-acetylene Natural products C#C HSFWRNGVRCDJHI-UHFFFAOYSA-N 0.000 description 5
- 125000002534 ethynyl group Chemical group [H]C#C* 0.000 description 5
- 229910052739 hydrogen Inorganic materials 0.000 description 5
- 239000001257 hydrogen Substances 0.000 description 5
- 125000004435 hydrogen atom Chemical class [H]* 0.000 description 5
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000007635 classification algorithm Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 229910002092 carbon dioxide Inorganic materials 0.000 description 2
- 239000001569 carbon dioxide Substances 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013021 overheating Methods 0.000 description 2
- 208000000044 Amnesia Diseases 0.000 description 1
- 208000026139 Memory disease Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000006984 memory degeneration Effects 0.000 description 1
- 208000023060 memory loss Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/12—Testing dielectric strength or breakdown voltage ; Testing or monitoring effectiveness or level of insulation, e.g. of a cable or of an apparatus, for example using partial discharge measurements; Electrostatic testing
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Investigating, Analyzing Materials By Fluorescence Or Luminescence (AREA)
Abstract
本发明为解决在样本不平衡情况下变压器故障诊断准确率低的问题,提出一种基于组合采样和LightGBM的变压器故障诊断方法及系统,包括以下步骤:采集历史样本数据,并获取对应的变压器故障类型;对历史样本数据进行预处理,然后将历史样本数据划分为少数类样本集和多数类样本集;对所述少数类样本集进行过采样得到多数类样本,并加入所述多数类样本集中;再对所述多数类样本集进行欠采样,得到平衡数据集,并划分为训练样本和测试样本;构建LightGBM分类器模型,将训练样本输入所述LightGBM分类器模型进行训练;将测试样本输入完成训练的LightGBM分类器模型中进行故障诊断,输出得到故障诊断结果。
Description
技术领域
本发明涉及变压器故障诊断技术领域,更具体地,涉及一种基于组合采样和LightGBM的变压器故障诊断方法及系统。
背景技术
油浸式变压器在投入运行后,发生绝缘老化时会产生一些微量气体溶解在绝缘油中,油中溶解气体的主要成分为氢气(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)、一氧化碳(CO)和二氧化碳(CO2)。变压器故障类型和气体成分的变化呈现较强的相关性,这些微量气体能够准确反映变压器的运行状况。基于油中溶解气体分析(dissolved gasanalysis,DGA)技术已成为油浸式变压器故障诊断中最方便有效的手段之一。采用DGA气体作为特征参量,国内外学者提出了很多变压器故障诊断方法,如传统的Rogers比值法、Duval三角形法和IEC比值法等,这些方法原理简单、容易实现,但由于其比值边界过于绝对,编码不全等缺陷会导致故障诊断的误判。为解决传统方法的不足,研究者们提出了支持向量机、贝叶斯网络、深度信念网络等多种智能化方法进行故障诊断。但是,这些智能算法在最大化全体分类准确率的目标过程中,易偏向多数类样本的参数更新而忽略少数类样本的正确分类。
在样本不平衡情况下,变压器故障诊断准确率很低,亟需提出新方法改善样本分布不平衡对故障诊断的不利影响。目前,欠采样、过采样方法和集成学习方法分别在数据采样层面和算法优化层面被广泛用于缓解不平衡数据集的训练问题。有研究者分别使用合成少数类样本的SMOTE过采样技术和NSMOTE过采样方法,通过补充少数类故障样本来平衡整体的样本数目,但复制样本可能会导致过拟合,且容易生成重叠样本。
发明内容
本发明为克服在样本不平衡情况下变压器故障诊断准确率低的缺陷,提供一种基于组合采样和LightGBM的变压器故障诊断方法,以及一种基于组合采样和LightGBM的变压器故障诊断系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于组合采样和LightGBM的变压器故障诊断方法,包括以下步骤:
S1:采集历史样本数据,并获取对应的变压器故障类型;
S2:对历史样本数据进行预处理,然后将历史样本数据划分为少数类样本集和多数类样本集;
S3:对所述少数类样本集进行过采样得到多数类样本,并加入所述多数类样本集中;再对所述多数类样本集进行欠采样,得到平衡数据集,并划分为训练样本和测试样本;
S4:构建LightGBM分类器模型,将训练样本输入所述LightGBM分类器模型进行训练;
S5:将测试样本输入完成训练的LightGBM分类器模型中进行故障诊断,输出得到故障诊断结果。
本技术方案中,对少数类样本集进行过采样用于生成新的样本来扩充少数类样本集,对多数类样本集进行欠采样用于删减多数类样本中的噪声样本,从而通过组合采样后的样本集在数量上保持相对平衡。此外,本技术方案中采用的LightGBM(Light GradientBoosting Machine,轻梯度提升机)分类器模型是一种基于使用弱学习器(如决策树)组合成强学习器的模型,用于实现不平衡故障样品下的变压器故障诊断。
作为优选方案,对历史样本数据进行预处理的步骤包括归一化处理。
作为优选方案,所述S3步骤中,对完成预处理的历史样本数采用SMOTE算法进行过采样;其步骤包括:
对所述少数类样本集中每一个样本x,以欧氏距离为标准计算样本x到所述少数类样本集中所有样本的距离,得到k个同类最近邻样本;其中k为正整数;
式中,rand(0,1)表示随机线性插值。
作为优选方案,所述S3步骤中,对所述多数类样本集采用ENN算法进行欠采样;其步骤包括:对所述多数类样本集中每一个样本x,当其k个近邻样本中有大于一半数量的样本类别与样本x的类别不相同,则删除样本x。
作为优选方案,将所述训练样本输入所述LightGBM分类器模型进行训练的步骤包括:
S401:计算输入样本的初始梯度值;
S402:构建输入样本的直方图;
S403:根据所述直方图选择其最佳分裂特征、分裂阈值;
S404:建立决策树根节点;
S405:根据所述最佳分裂特征及分裂阈值对输入样本进行切分;
S406:重复S402~S404步骤至达到预设的决策树叶子数目阈值,或所有叶子不能分割;更新样本的输出值,更新样本的梯度值,直至所有决策树完成建立。
作为优选方案,所述LightGBM分类器模型采用按叶生长策略,在对决策树每个节点进行增益计算后,仅对增益最大的一个叶子进行分裂,同层的其他节点不再分裂。
作为优选方案,所述LightGBM分类器模型中设置有树最大深度max_depth。
作为优选方案,构建输入样本的直方图的步骤包括:将输入样本的连续浮点特征值离散化为K个整数,构建一个宽度为K的直方图;则根据所述直方图选择其最佳分裂特征、分裂阈值的步骤包括:将所述直方图代替原有的样本数据,遍历所述直方图的数据,统计每个离散值在直方图中的累积统计量,然后根据所述累积统计量寻找直方图中的最优分割点,所述最优分割点即为当前直方图的最佳分裂特征、分裂阈值。
作为优选方案,所述LightGBM分类器模型采用损失函数进行迭代训练,当每轮训练中计算的损失函数值在连续m次迭代中不再减小,则退出迭代,完成LightGBM分类器模型的训练;其中m为正整数。
本发明还提出一种基于组合采样和LightGBM的变压器故障诊断系统,包括:
采集模块,用于采集变压器特征气体样本数据;
数据处理模块,用于对采集的样本数据进行预处理,并划分为少数类样本集和多数类样本集;
组合采样模块,用于对少数类样本集进行过采样,以及对多数类样本集进行欠采样;
LightGBM分类模块,用于对输入的样本数据进行故障诊断,输出变压器故障诊断结果。
与现有技术相比,本发明技术方案的有益效果是:本发明采用组合采样,对少数类样本集进行过采样以补充少数类样本,再对多数类样本集进行欠采样,使得样本在数量上尽可能的保持一定的平衡的同时,剔除噪声样本,提升样本分类效果;本发明还采用LightGBM模型进行变压器故障诊断,有效提高模型的训练速度。
附图说明
图1为实施例1的基于组合采样和LightGBM的变压器故障诊断方法的流程图。
图2为实施例1的直方图算法的示意图。
图3为实施例1的故障原始样本分布图。
图4为实施例2的基于组合采样和LightGBM的变压器故障诊断系统的原理图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于组合采样和LightGBM的变压器故障诊断方法,如图1所示,为本实施例的基于组合采样和LightGBM的变压器故障诊断方法的流程图。
本实施例提出的基于组合采样和LightGBM的变压器故障诊断方法中,包括以下步骤:
S1:采集历史样本数据,并获取对应的变压器故障类型。
本实施例中,采用DGA在线监测技术采集历史样本数据。
油浸式变压器在发生故障初期会产生特征气体,如氢气(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)、一氧化碳(CO)和二氧化碳(CO2),这些特征气体成分的变化与变压器的故障类型有着密切的联系。
本实施例选取氢气(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)五种特征气体组分作为特征量,构成变压器故障诊断模型的输入量,记为X={x1,x2,x3,x4,x5},依次代表氢气(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)五种特征气体的体积浓度。
本实施例中的变压器故障类型分为以下7种类型,故障类型与编号分别为正常(N)、高温过热(T3)、中温过热(T2)、低温过热(T1)、高能放电(D2)、局部放电(PD)、低能放电(D1)。
S2:对历史样本数据进行预处理,然后将历史样本数据划分为少数类样本集和多数类样本集。
本实施例中,考虑到上述5种气体由于体积浓度存在差异,无法直接应用原始数据进行诊断,在本步骤中对历史样本数据进行预处理,具体的,对历史样本数据进行归一化处理。其表达公式如下:
式中,X为原始数据的体积浓度值,Xmin为原始数据的最小值,Xmax为原始数据的最大值,X1为归一化后的数据,其范围为[0,1]。
S3:对所述少数类样本集进行过采样得到多数类样本,并加入所述多数类样本集中;再对所述多数类样本集进行欠采样,得到平衡数据集,并划分为训练样本和测试样本。
本步骤旨在组合过采样与欠采样解决变压器故障样本数据分布不平衡的问题。
本步骤中,对完成预处理的历史样本数采用SMOTE算法进行过采样,其中SMOTE算法是结合k近邻和插值法生成新的少数类样本的过采样技术。其具体步骤包括:
对所述少数类样本集中每一个样本x,以欧氏距离为标准计算样本x到所述少数类样本集中所有样本的距离,得到k个同类最近邻样本;本实施例中k取值为5;
式中,rand(0,1)表示随机线性插值。
本步骤中,对所述多数类样本集采用ENN算法进行欠采样,其步骤包括:对所述多数类样本集中每一个样本x,当其k个近邻样本中有大于一半数量的样本类别与样本x的类别不相同,则删除样本x。该算法的目的在于删减多数类样本,使得多数类样本和少数类样本在数量上尽可能的保持一定的平衡。
进一步的,本实施例中将训练样本和测试样本划分比例为8:2。
S4:构建LightGBM分类器模型,将训练样本输入所述LightGBM分类器模型进行训练。
本实施例中采用LightGBM分类器模型对变压器故障进行诊断。其中,将所述训练样本输入所述LightGBM分类器模型进行训练的步骤包括:
S401:计算输入样本的初始梯度值;
S402:构建输入样本的直方图;
S403:根据所述直方图选择其最佳分裂特征、分裂阈值;
S404:建立决策树根节点;
S405:根据所述最佳分裂特征及分裂阈值对输入样本进行切分;
S406:重复S402~S404步骤至达到预设的决策树叶子数目阈值,或所有叶子不能分割;更新样本的输出值,更新样本的梯度值,直至所有决策树完成建立。
其中,LightGBM分类器模型通过使用直方图来寻找最佳分裂点,其算法示意图如图2所示。直方图算法是一种数据离散化处理方法,S402步骤中构建输入样本的直方图的步骤为将输入样本的连续浮点特征值离散化为K个整数,构建一个宽度为K的直方图。S403步骤中,根据所述直方图选择其最佳分裂特征、分裂阈值的步骤为将所述直方图代替原有的样本数据,遍历所述直方图的数据,统计每个离散值在直方图中的累积统计量,然后根据所述累积统计量寻找直方图中的最优分割点,所述最优分割点即为当前直方图的最佳分裂特征、分裂阈值。
本实施例中使用直方图算法有效提升了运算的速度,并且降低了内存的损耗,且由于决策树本身是一个弱学习器,采用直方图算法还能有效防止过拟合。
进一步的,本实施例中的LightGBM分类器模型采用按叶生长(leaf-wise)策略,在对决策树每个节点进行增益计算后,仅对增益最大的一个叶子进行分裂,同层的其他节点不再分裂。
同Level-wise策略相比,在分裂次数相同的情况下,按叶生长策略的误差相对更低,且具有更好的精度。但由于可能会长出比较深的决策树,产生过拟合,因此本实施例中的LightGBM分类器模型在按叶生长策略上设置了一个最大深度限制参数,即树最大深度max_depth,从而在保证高效分析的同时防止过拟合。
进一步的,LightGBM分类器模型采用损失函数进行迭代训练,当每轮训练中计算的损失函数值在连续m次迭代中不再减小,则退出迭代,完成LightGBM分类器模型的训练;本实施例中m取值为60,能够大大减小训练时间。
S5:将测试样本输入完成训练的LightGBM分类器模型中进行故障诊断,输出得到故障诊断结果。
在具体实施过程中,在样本不均衡的情况下,采用混淆矩阵、查准率(precision)、查全率也叫召回率(recall)、F1分数(F1-score)、ROC曲线和AUC(即ROC曲线下与坐标轴围成的面积)等评价指标对模型的变压器故障诊断正确率进行评价。
本实施例使用通过DGA在线监测技术获得的675条变压器故障数据样本,其中正常状态(N)样本50条,高温过热(T3)样本207条,中温过热(T2)样本64条,低温过热(T1)样本20条,高能放电(D2)样本190条,局部放电(PD)样本40条,低能放电(D1)样本104条。
由此可以看出,此变压器故障数据样本为不平衡样本,数据集中于高温过热(T3)和高能放电(D2)故障样本,且其样本量大约为低温过热(T1)故障样本的10倍。与正常状态(N)、局部放电(PD)、中温过热(T2)样本数量也相差很大,为更直观体现故障原始样本分布,给出分布图如图3所示。
样本经过SMOTE算法和ENN算法采样后样本总数为921条,SMOTEENN算法处理后的样本集构成情况:正常状态(N)样本168条,高温过热(T3)样本100条,中温过热(T2)样本156条,低温过热(T1)样本152条,高能放电(D2)样本81条,局部放电(PD)样本176条,低能放电(D1)样本88条。
进一步的,本实施例中构建的LightGBM分类器模型的参数包括控制参数、核心参数和IO参数三大类,每一轮又包含了若干参数。本实施例选择以下参数进行设置:树最大深度max_depth为5;参数中叶子节点的数量num_leaves设置取值规定为num_leaves≤2max_depth,超过这个值会导致过拟合,而本实施例设置为31;学习速率learning_rate设置为0.05;叶节点的最少样本数设置为较大的值时可以避免生长太深的树,但也可能大致过拟合,本文设置为30;迭代次数设置为1000;且在进行迭代训练时,当每轮损失值在60次迭代中不在减小时,将退出迭代,这样可大大减小训练时间。
本实施例采用精准率(precision)、召回率(recall)及F1-score值作为评判标准,结合如下表1所示的混淆矩阵,对模型总的正确率进行分析。
表1混淆矩阵
评价指标的定义如下:
式中,TP表示真阳性,FP表示假阳性,TN表示真阴性,FN表示假阴性。
以SMOTE+ENN算法处理后的样本为数据基础,划分训练样本和测试样本,使用LightGBM算法构建变压器故障诊断分类器。本实施例中对实验结果进行分析,并将其与传统机器学习算法下的变压器故障诊断结果进行对比。不同分类算法模型下的结果对比如下表2所示。
表2不同模型下结果对比
在本实施例中,对实验结果进行了分析后,得到对本发明的各评判指标分数都比较理想,模型泛化能力较高,其召回率、精准率和F1-score值都在90%以上。从表1中的数据对比可以看出,数据不均衡问题未处理时使用LightGBM算法在测试集上的故障诊断准确率偏低,只有70.4%,其查准率、召回率以及F1-score值也较低,处于60%左右,样本不平衡下LightGBM分类效果不理想。而本发明提出的方法先对不平衡样本采用SMOTE算法进行过采样处理,使样本达到平衡,然后使用ENN算法对样本进行欠采样,使得样本在数量上尽可能的保持一定的平衡的同时,剔除一些噪声样本,提升样本分类效果。使用本文采用的SMOTE+ENN采样算法处理不平衡故障样本后,分类算法的故障诊断准确率达到了95.1%,准确率提高了24.7%,而与本文例举的其他几种分类算法相比,本文方法的诊断准确率最高。
进一步的比较各类模型在训练样本上的训练时间,如下表3所示。
表3
比较各类模型在训练样本上的训练时间,从表2中可知,LightGBM分类器模型与XGBoost、GBDT模型相比,LightGBM分类器模型训练时间要更短,原因在于传统boosting算法(XGBoost、GBDT)其决策树生长为按层生长(level-wise)策略,在决策树生长过程中其每层叶子都进行分裂,计算代价较大。而LightGBM算法是按叶生长(leaf-wise)策略,仅对增益最大的一个叶子进行分裂,同层的其他叶子不再分裂,并且采用直方图算法处理特征值,能够有效提高本实施例算法的训练速度。
实施例2
本实施例提出一种基于组合采样和LightGBM的变压器故障诊断系统,应用实施例1提出的一种基于组合采样和LightGBM的变压器故障诊断方法。如图4所示,为本实施例的基于组合采样和LightGBM的变压器故障诊断系统的原理图。
本实施例提出的基于组合采样和LightGBM的变压器故障诊断系统中,包括:
采集模块1,用于采集变压器特征气体样本数据;
数据处理模块2,用于对采集的样本数据进行预处理,并划分为少数类样本集和多数类样本集;
组合采样模块3,用于对少数类样本集进行过采样,以及对多数类样本集进行欠采样;
LightGBM分类模块4,用于对输入的样本数据进行故障诊断,输出变压器故障诊断结果。
其中,采集模块1、数据处理模块2、组合采样模块3、LightGBM分类模块4依次连接。
在具体实施过程中,采集模块1采基于DGA在线监测技术进行特征气体的体积浓度采集,本实施例选取氢气(H2)、甲烷(CH4)、乙烷(C2H6)、乙烯(C2H4)、乙炔(C2H2)五种特征气体组分的体积浓度作为样本数据。且样本数据对应的变压器故障类型包括正常(N)、高温过热(T3)、中温过热(T2)、低温过热(T1)、高能放电(D2)、局部放电(PD)、低能放电(D1)。
采集模块1将采集的样本数据输入数据处理模块2中进行预处理,并划分为少数类样本集和多数类样本集,具体的,对样本数据进行归一化处理,并根据样本数据量的大小划分为少数类样本集和多数类样本集。然后将少数类样本集和多数类样本集输入组合采样模块3中。
组合采样模块3对输入的少数类样本集采用SMOTE算法进行过采样,得到多数类样本,并加入多数类样本集中;再对多数类样本集采用ENN算法进行欠采样,得到数量相对平衡的平衡数据集,然后将平衡数据集输入LightGBM分类模块4。
本实施例中的LightGBM分类模块4根据实施例1提出的方法完成训练,LightGBM分类模块4对输入的平衡数据集进行变压器故障诊断,输出得到变压器故障诊断结果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种基于组合采样和LightGBM的变压器故障诊断方法,其特征在于,包括以下步骤:
S1:采集历史样本数据,并获取对应的变压器故障类型;
S2:对历史样本数据进行预处理,然后将历史样本数据划分为少数类样本集和多数类样本集;
S3:对所述少数类样本集进行过采样得到多数类样本,并加入所述多数类样本集中;再对所述多数类样本集进行欠采样,得到平衡数据集,并划分为训练样本和测试样本;
S4:构建LightGBM分类器模型,将训练样本输入所述LightGBM分类器模型进行训练;
S5:将测试样本输入完成训练的LightGBM分类器模型中进行故障诊断,输出得到故障诊断结果。
2.根据权利要求1所述的变压器故障诊断方法,其特征在于,对历史样本数据进行预处理的步骤包括归一化处理。
4.根据权利要求3所述的变压器故障诊断方法,其特征在于,所述S3步骤中,对所述多数类样本集采用ENN算法进行欠采样;其步骤包括:对所述多数类样本集中每一个样本x,当其k个近邻样本中有大于一半数量的样本类别与样本x的类别不相同,则删除样本x。
5.根据权利要求1所述的变压器故障诊断方法,其特征在于,将所述训练样本输入所述LightGBM分类器模型进行训练的步骤包括:
S401:计算输入样本的初始梯度值;
S402:构建输入样本的直方图;
S403:根据所述直方图选择其最佳分裂特征、分裂阈值;
S404:建立决策树根节点;
S405:根据所述最佳分裂特征及分裂阈值对输入样本进行切分;
S406:重复S402~S404步骤至达到预设的决策树叶子数目阈值,或所有叶子不能分割;更新样本的输出值,更新样本的梯度值,直至所有决策树完成建立。
6.根据权利要求5所述的变压器故障诊断方法,其特征在于,所述LightGBM分类器模型采用按叶生长策略,在对决策树每个节点进行增益计算后,仅对增益最大的一个叶子进行分裂,同层的其他节点不再分裂。
7.根据权利要求6所述的变压器故障诊断方法,其特征在于,所述LightGBM分类器模型中设置有树最大深度max_depth。
8.根据权利要求5所述的变压器故障诊断方法,其特征在于,构建输入样本的直方图的步骤包括:将输入样本的连续浮点特征值离散化为K个整数,构建一个宽度为K的直方图;则根据所述直方图选择其最佳分裂特征、分裂阈值的步骤包括:将所述直方图代替原有的样本数据,遍历所述直方图的数据,统计每个离散值在直方图中的累积统计量,然后根据所述累积统计量寻找直方图中的最优分割点,所述最优分割点即为当前直方图的最佳分裂特征、分裂阈值。
9.根据权利要求5所述的变压器故障诊断方法,其特征在于,所述LightGBM分类器模型采用损失函数进行迭代训练,当每轮训练中计算的损失函数值在连续m次迭代中不再减小,则退出迭代,完成LightGBM分类器模型的训练。
10.一种基于组合采样和LightGBM的变压器故障诊断系统,其特征在于,包括:
采集模块,用于采集变压器特征气体样本数据;
数据处理模块,用于对采集的样本数据进行预处理,并划分为少数类样本集和多数类样本集;
组合采样模块,用于对少数类样本集进行过采样,以及对多数类样本集进行欠采样;
LightGBM分类模块,用于对输入的样本数据进行故障诊断,输出变压器故障诊断结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786062.XA CN113702728A (zh) | 2021-07-12 | 2021-07-12 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786062.XA CN113702728A (zh) | 2021-07-12 | 2021-07-12 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113702728A true CN113702728A (zh) | 2021-11-26 |
Family
ID=78648481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786062.XA Pending CN113702728A (zh) | 2021-07-12 | 2021-07-12 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113702728A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445700A (zh) * | 2021-12-14 | 2022-05-06 | 西北工业大学 | 一种面向不平衡sar图像数据的证据融合目标识别方法 |
CN114528921A (zh) * | 2022-01-20 | 2022-05-24 | 江苏大学 | 一种基于lof算法与混合采样的变压器故障诊断方法 |
CN114707706A (zh) * | 2022-03-17 | 2022-07-05 | 广西科学院 | 一种基于不均衡数据的柴油发动机故障诊断方法 |
WO2023173543A1 (zh) * | 2022-03-14 | 2023-09-21 | 平安科技(深圳)有限公司 | 数据分类模型的训练方法、分类方法、装置、设备和介质 |
CN114528921B (zh) * | 2022-01-20 | 2024-06-11 | 江苏大学 | 一种基于lof算法与混合采样的变压器故障诊断方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840541A (zh) * | 2018-12-05 | 2019-06-04 | 国网辽宁省电力有限公司信息通信分公司 | 一种基于XGBoost的电网变压器故障分类方法 |
CN109871901A (zh) * | 2019-03-07 | 2019-06-11 | 中南大学 | 一种基于混合采样和机器学习的不平衡数据分类方法 |
CN110133146A (zh) * | 2019-05-28 | 2019-08-16 | 国网上海市电力公司 | 一种考虑不平衡数据样本的变压器故障诊断方法及系统 |
CN110782658A (zh) * | 2019-08-16 | 2020-02-11 | 华南理工大学 | 一种基于LightGBM算法的交通量预测方法 |
CN111340248A (zh) * | 2020-02-27 | 2020-06-26 | 中国电力科学研究院有限公司 | 一种基于智能集成算法的变压器故障诊断方法及系统 |
CN111626153A (zh) * | 2020-05-13 | 2020-09-04 | 电子科技大学 | 一种基于集成学习的局放故障状态识别方法 |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111832664A (zh) * | 2020-07-31 | 2020-10-27 | 华北电力大学(保定) | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 |
CN111860658A (zh) * | 2020-07-24 | 2020-10-30 | 华北电力大学(保定) | 一种基于代价敏感和集成学习的变压器故障诊断方法 |
CN112116058A (zh) * | 2020-09-16 | 2020-12-22 | 昆明理工大学 | 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法 |
CN112527670A (zh) * | 2020-12-18 | 2021-03-19 | 武汉理工大学 | 一种基于Active Learning的项目内软件老化缺陷预测方法 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN113066540A (zh) * | 2021-03-19 | 2021-07-02 | 新疆大学 | 一种油浸式变压器非平衡故障样本预处理方法 |
-
2021
- 2021-07-12 CN CN202110786062.XA patent/CN113702728A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840541A (zh) * | 2018-12-05 | 2019-06-04 | 国网辽宁省电力有限公司信息通信分公司 | 一种基于XGBoost的电网变压器故障分类方法 |
CN109871901A (zh) * | 2019-03-07 | 2019-06-11 | 中南大学 | 一种基于混合采样和机器学习的不平衡数据分类方法 |
CN110133146A (zh) * | 2019-05-28 | 2019-08-16 | 国网上海市电力公司 | 一种考虑不平衡数据样本的变压器故障诊断方法及系统 |
CN110782658A (zh) * | 2019-08-16 | 2020-02-11 | 华南理工大学 | 一种基于LightGBM算法的交通量预测方法 |
CN111340248A (zh) * | 2020-02-27 | 2020-06-26 | 中国电力科学研究院有限公司 | 一种基于智能集成算法的变压器故障诊断方法及系统 |
CN111626153A (zh) * | 2020-05-13 | 2020-09-04 | 电子科技大学 | 一种基于集成学习的局放故障状态识别方法 |
US10970650B1 (en) * | 2020-05-18 | 2021-04-06 | King Abdulaziz University | AUC-maximized high-accuracy classifier for imbalanced datasets |
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111860658A (zh) * | 2020-07-24 | 2020-10-30 | 华北电力大学(保定) | 一种基于代价敏感和集成学习的变压器故障诊断方法 |
CN111832664A (zh) * | 2020-07-31 | 2020-10-27 | 华北电力大学(保定) | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 |
CN112116058A (zh) * | 2020-09-16 | 2020-12-22 | 昆明理工大学 | 一种基于粒子群算法优化多粒度级联森林模型的变压器故障诊断方法 |
CN112527670A (zh) * | 2020-12-18 | 2021-03-19 | 武汉理工大学 | 一种基于Active Learning的项目内软件老化缺陷预测方法 |
CN113066540A (zh) * | 2021-03-19 | 2021-07-02 | 新疆大学 | 一种油浸式变压器非平衡故障样本预处理方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114445700A (zh) * | 2021-12-14 | 2022-05-06 | 西北工业大学 | 一种面向不平衡sar图像数据的证据融合目标识别方法 |
CN114445700B (zh) * | 2021-12-14 | 2024-03-05 | 西北工业大学 | 一种面向不平衡sar图像数据的证据融合目标识别方法 |
CN114528921A (zh) * | 2022-01-20 | 2022-05-24 | 江苏大学 | 一种基于lof算法与混合采样的变压器故障诊断方法 |
CN114528921B (zh) * | 2022-01-20 | 2024-06-11 | 江苏大学 | 一种基于lof算法与混合采样的变压器故障诊断方法 |
WO2023173543A1 (zh) * | 2022-03-14 | 2023-09-21 | 平安科技(深圳)有限公司 | 数据分类模型的训练方法、分类方法、装置、设备和介质 |
CN114707706A (zh) * | 2022-03-17 | 2022-07-05 | 广西科学院 | 一种基于不均衡数据的柴油发动机故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113702728A (zh) | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 | |
CN107784325B (zh) | 基于数据驱动增量融合的螺旋式故障诊断方法 | |
CN109946389B (zh) | 基于总体经验模态分解与卷积神经网络的结构损伤识别法 | |
CN111444168B (zh) | 一种配电室变压器日最大负荷异常数据检测处理方法 | |
CN106897821B (zh) | 一种暂态评估特征选择方法及装置 | |
CN111722046A (zh) | 一种基于深度森林模型的变压器故障诊断方法 | |
CN111680788A (zh) | 基于深度学习的设备故障诊断方法 | |
CN111340248A (zh) | 一种基于智能集成算法的变压器故障诊断方法及系统 | |
CN112749763B (zh) | 用于玻璃质量影响因素的时间序列分类分析方法及系统 | |
CN115563563A (zh) | 基于变压器油色谱分析的故障诊断方法及装置 | |
CN111832664A (zh) | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 | |
CN111275204B (zh) | 一种基于混合采样和集成学习的变压器状态识别方法 | |
CN114416707A (zh) | 工业时序数据的自动化特征工程方法和装置 | |
CN116595445A (zh) | 基于随机森林特征优选和改进支持向量机的变压器故障诊断方法 | |
CN116452542A (zh) | 一种基于神经监督决策树的gis局部放电缺陷诊断方法 | |
CN115824519A (zh) | 基于多传感器信息融合的阀门泄露故障综合诊断方法 | |
CN111737907A (zh) | 一种基于深度学习和dga的变压器故障诊断方法及装置 | |
CN114595762A (zh) | 一种光伏电站异常数据序列提取方法 | |
CN114266396A (zh) | 一种基于电网特征智能筛选的暂态稳定判别方法 | |
CN107742000B (zh) | 锅炉燃烧含氧量建模方法 | |
CN113205125A (zh) | 一种基于XGBoost的特高压换流阀运行状态评估方法 | |
CN111861256A (zh) | 一种主动配电网重构决策方法及系统 | |
CN113496255B (zh) | 基于深度学习与决策树驱动的配电网混合观测布点方法 | |
CN116070158A (zh) | 一种基于改进深度森林的智能bit设计方法 | |
CN115309948A (zh) | 一种基于运动轨迹自动识别的渔船作业方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211126 |
|
RJ01 | Rejection of invention patent application after publication |