CN111832664A - 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 - Google Patents
基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 Download PDFInfo
- Publication number
- CN111832664A CN111832664A CN202010755926.7A CN202010755926A CN111832664A CN 111832664 A CN111832664 A CN 111832664A CN 202010755926 A CN202010755926 A CN 202010755926A CN 111832664 A CN111832664 A CN 111832664A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- fault
- power transformer
- smote
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000003745 diagnosis Methods 0.000 title claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000007635 classification algorithm Methods 0.000 abstract description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000009826 distribution Methods 0.000 description 9
- 238000013021 overheating Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Housings And Mounting Of Transformers (AREA)
Abstract
本发明公开了一种基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法,均衡化方法包括搜索少数类样本、分类少数样本、生成新样本步骤,故障诊断方法还包括故障诊断步骤。本发明增加了边界样本附近的少数样本,降低了边界样本的误判率,从而提高了分类准确性;适用于多种人工智能算法对非均衡数据集的处理,可直接移植和扩展到分类算法中,具有较强的普适性和泛化性。
Description
技术领域
本发明涉及一种电力变压器故障样本均衡化和故障诊断方法,尤其涉及一种基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法,属于变压器故障诊断技术领域。
背景技术
利用机器学习等人工智能技术对电力设备大数据深度挖掘和分析是智能运维领域的大势所趋。电力变压器作为电力系统中重要电气设备之一,掌握其运行状态对提高电力变压器运行维护水平,确保电网安全运行均具有重要意义。由于电力变压器非正常状态样本极少,同时故障案例与异常样本信息存在缺失、不完善等问题,导致变压器样本数据集的类别数量分布不均衡。非均衡数据集的类别数量分布极端不均衡,在机器学习模型进行分类任务的分析预测,会出现过拟合、欠拟合等问题,极大降低了机器学习模型的准确性和鲁棒性,给电力系统,乃至社会经济和生活带来重大的损失。
合成少数类过采样(synthetic minority over-sampling technique,SMOTE) 过线性插值的方法来生成新的少数类样本,添加到原始数据集中,增加少数类样本数量,在一定程度上避免了欠采样中出现的过拟合问题。但是它在进行线性插值时对所有的少数类样本点一视同仁,因而使处于边界位置的少数类样本点更容易被错分。因此,提出了强调边界信息和特征的Borderline SMOTE算法。将Borderline SMOTE算法用于电力变压器故障样本均衡化处理,将提高电力变压器故障分析的准确性和鲁棒性。
发明内容
本发明要解决的技术问题是提供一种基于Borderline SMOTE的电力变压器故障样本均衡化方法。
为解决上述技术问题,本发明采用的技术方案是:
技术方案一:一种基于Borderline SMOTE的电力变压器故障样本均衡化方法,包括以下步骤:
步骤1:搜索少数类样本:N为整个数据集,S为少数类样本集,L为多数类样本集;对S中的每一个样本Si,在整个数据集N中搜索得到Si的近邻样本数为m,其中属于少数类样本的数量为mi;
步骤2:分类少数类样本:若mi=0,则Si为噪声样本;若mi>k,k为分类阈值,则Si为安全样本;若0<mi≤k,则Si为危险样本;将危险样本Si置入危险集D中;
步骤3:生成新样本:对危险集D中的每个样本,通过SMOTE算法线性插值生成新样本。
进一步,分类少数类样本的方法为:若mi=0,则Si为噪声样本;若mi> m/2,则Si为安全样本;若0<mi≤m/2,则Si为危险样本。
技术方案二:一种根据技术方案一所述的基于Borderline SMOTE的电力变压器故障样本均衡化方法的故障诊断方法,包括故障诊断步骤:
用DNN训练经过Borderline SMOTE的电力变压器故障样本均衡化方法处理过的数据进行故障诊断。
采用上述技术方案所取得的技术效果在于:
1、本发明增加了边界样本附近的少数样本,降低了边界样本的误判率,从而提高了分类准确性;
2、本发明在保持原始数据集的样本分布的前提下,尽可能模拟出与边界样本点分布规律和变化趋势一致的样本,并只针对分类边界上容易错分的故障样本的采样,保证了合成数据后依然满足原始数据的分布规律,保留了原始数据的信息和特征,包括故障演化的信息;
3、本发明不是通过单纯的复制少数类样本来平衡数据集,避免了分类器过拟合等问题,提升了样本数量,丰富了模型从训练数据中提取的特征信息,使得分类器对故障样本关注度增加,对其具有更大的泛化空间;
4、本发明适用于多种人工智能算法对非均衡数据集的处理,可直接移植和扩展到分类算法中,具有较强的普适性和泛化性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明的流程图;
图2是放电兼过热的数据采样图。
具体实施方式
实施例1:
一种基于Borderline SMOTE的电力变压器故障样本均衡化方法,包括以下步骤:
步骤1:搜索少数类样本:N为整个数据集,S为少数类样本集,L为多数类样本集;对S中的每一个样本Si,在整个数据集N中搜索得到Si的近邻样本数为m,其中属于少数类样本的数量为mi;
步骤2:分类少数类样本:若mi=0,则Si为噪声样本;若mi>k,k为分类阈值,则Si为安全样本;若0<mi≤k,则Si为危险样本;将危险样本Si置入危险集D中;
步骤3:生成新样本:对危险集D中的每个样本,通过SMOTE算法线性插值生成新样本。
进一步,分类少数类样本的方法为:若mi=0,则Si为噪声样本;若mi>m/2,则Si为安全样本;若0<mi≤m/2,则Si为危险样本。
本实施例的样本集为电力变压器的油中溶解气体数据,对其故障数据集进行处理,针对7种不同故障类型:低温过热、中温过热、高温过热、局部放电、低能量放电、高能量放电和放电兼过热,分别得出Borderline SMOTE采样前后的7种数据分布。
放电兼过热的数据分布结合了过热和放电故障的特征信息,具有代表性,图2展示了放电兼过热的采样结果。图2为3维数据可视化图,采样数据通过PCA 对数据进行了降维,其中x,y,z轴分别代表的是主成分1、主成分2、主成分3。
可以看出,Borderline SMOTE采样前后油色谱数据的分布特征相似、变化趋势一致。其中,原始数据分布密集的地方采样后仍较为密集;原始数据为离散点时,BorderlineSMOTE首先判断是否为边界点,然后在其附近进行过采样。 Borderline SMOTE通过边界样本判断法则,提高了数据可识性。因此,我们认为Borderline SMOTE采样结果是较为准确、真实、全面的,其很好的保留了原始数据的信息和特征。
实施例2:一种根据技术方案一所述的基于Borderline SMOTE的电力变压器故障样本均衡化方法的故障诊断方法,包括故障诊断步骤:
用DNN训练经过Borderline SMOTE的电力变压器故障样本均衡化方法处理过的数据进行故障诊断。
选用适用于不平衡数据分类的评价指标,取几何平均值、宏F1、微F1、平均精度作为分类器的评价指标,记为αG-mean、αF1、αmacro-F1、αmicro-F1、αb-score。对比未均衡化和采用Borderline SMOTE均衡化后的变压器故障诊断效果,变压器故障诊断的效果对比表1所示。
由表1可知,采用Borderline SMOTE算法之后,其各项指标均有较大的提升,相较于采用非均衡数据集的变压器故障分类,整体分类准确率αmacro-F1提升了17.5%,平均精度αb-score提高了近24%,这表明该方法能够很好的处理变压器故障数据集的不平衡性问题,提高了分类算法对故障样本的识别能力和整体的分类准确率。同时该算法适用于多种人工智能算法对非均衡数据集的处理,可直接移植和扩展到分类算法中,具有较强的普适性和泛化性。
实际使用中,将不平衡数据集进行标准化处理后输入Borderline SMOTE算法,Borderline SMOTE可以自行识别多数类样本和少数类样本,并对少数类边界样本进行过采样,从而实现不平衡数据集的均衡化。
表1
Claims (3)
1.一种基于Borderline SMOTE的电力变压器故障样本均衡化方法,包括以下步骤:
步骤1:搜索少数类样本:N为整个数据集,S为少数类样本集,L为多数类样本集;对S中的每一个样本Si,在整个数据集N中搜索得到Si的近邻样本数为m,其中属于少数类样本的数量为mi;
步骤2:分类少数类样本:若mi=0,则Si为噪声样本;若mi>k,k为分类阈值,则Si为安全样本;若0<mi≤k,则Si为危险样本;将危险样本Si置入危险集D中;
步骤3:生成新样本:对危险集D中的每个样本,通过SMOTE算法线性插值生成新样本。
2.根据权利要求1所述的基于Borderline SMOTE的电力变压器故障样本均衡化方法,其特征在于:
分类少数类样本的方法为:若mi=0,则Si为噪声样本;若mi>m/2,则Si为安全样本;若0<mi≤m/2,则Si为危险样本。
3.一种根据权利要求1所述的基于Borderline SMOTE的电力变压器故障样本均衡化方法的故障诊断方法,其特征在于:包括故障诊断步骤:
用DNN训练经过Borderline SMOTE的电力变压器故障样本均衡化方法处理过的数据进行故障诊断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010755926.7A CN111832664A (zh) | 2020-07-31 | 2020-07-31 | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010755926.7A CN111832664A (zh) | 2020-07-31 | 2020-07-31 | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111832664A true CN111832664A (zh) | 2020-10-27 |
Family
ID=72920093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010755926.7A Pending CN111832664A (zh) | 2020-07-31 | 2020-07-31 | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832664A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113066540A (zh) * | 2021-03-19 | 2021-07-02 | 新疆大学 | 一种油浸式变压器非平衡故障样本预处理方法 |
CN113702728A (zh) * | 2021-07-12 | 2021-11-26 | 广东工业大学 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
US11429070B2 (en) | 2020-03-13 | 2022-08-30 | Guangdong University Of Technology | Inhomogeneous sample equalization method and system for product assembly process |
CN116451084A (zh) * | 2023-06-13 | 2023-07-18 | 北京航空航天大学 | 一种用于驾驶风格识别模型的训练样本预处理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144352A1 (en) * | 2016-03-08 | 2018-05-24 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Predicting student retention using smartcard transactions |
CN110033140A (zh) * | 2019-04-22 | 2019-07-19 | 广东工业大学 | 一种配变台区跳闸预测方法、系统及装置 |
CN110398650A (zh) * | 2019-08-05 | 2019-11-01 | 国网河北省电力有限公司电力科学研究院 | 基于k-邻近SMOTE和深度学习的变压器故障诊断方法 |
-
2020
- 2020-07-31 CN CN202010755926.7A patent/CN111832664A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180144352A1 (en) * | 2016-03-08 | 2018-05-24 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Predicting student retention using smartcard transactions |
CN110033140A (zh) * | 2019-04-22 | 2019-07-19 | 广东工业大学 | 一种配变台区跳闸预测方法、系统及装置 |
CN110398650A (zh) * | 2019-08-05 | 2019-11-01 | 国网河北省电力有限公司电力科学研究院 | 基于k-邻近SMOTE和深度学习的变压器故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
HUI HAN 等: "Borderline-SMOTE: A New Over-Sampling Method in Imbalanced Data Sets Learning", 《INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING》, pages 878 - 887 * |
裴蕴艺: "中文旅游评论的情感分析研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 43 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11429070B2 (en) | 2020-03-13 | 2022-08-30 | Guangdong University Of Technology | Inhomogeneous sample equalization method and system for product assembly process |
CN113066540A (zh) * | 2021-03-19 | 2021-07-02 | 新疆大学 | 一种油浸式变压器非平衡故障样本预处理方法 |
CN113066540B (zh) * | 2021-03-19 | 2023-04-11 | 新疆大学 | 一种油浸式变压器非平衡故障样本预处理方法 |
CN113702728A (zh) * | 2021-07-12 | 2021-11-26 | 广东工业大学 | 一种基于组合采样和LightGBM的变压器故障诊断方法及系统 |
CN116451084A (zh) * | 2023-06-13 | 2023-07-18 | 北京航空航天大学 | 一种用于驾驶风格识别模型的训练样本预处理方法 |
CN116451084B (zh) * | 2023-06-13 | 2023-08-11 | 北京航空航天大学 | 一种用于驾驶风格识别模型的训练样本预处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832664A (zh) | 基于Borderline SMOTE的电力变压器故障样本均衡化和故障诊断方法 | |
CN107784325B (zh) | 基于数据驱动增量融合的螺旋式故障诊断方法 | |
CN109186973B (zh) | 一种无监督深度学习网络的机械故障诊断方法 | |
Ma et al. | Degradation state partition and compound fault diagnosis of rolling bearing based on personalized multilabel learning | |
CN109063734B (zh) | 结合多级局部密度聚类的油浸式变压器故障状态评估方法 | |
CN110596492A (zh) | 一种基于粒子群算法优化随机森林模型的变压器故障诊断方法 | |
CN110942153A (zh) | 基于重复编辑最近邻与聚类过采样的数据重采样方法 | |
CN114528921B (zh) | 一种基于lof算法与混合采样的变压器故障诊断方法 | |
CN112860183B (zh) | 基于高阶矩匹配的多源蒸馏-迁移机械故障智能诊断方法 | |
CN115187832A (zh) | 一种基于深度学习与格拉姆角场图像的能源系统故障诊断方法 | |
CN112990286A (zh) | 一种数据不平衡场景下的恶意流量检测方法 | |
CN113205125A (zh) | 一种基于XGBoost的特高压换流阀运行状态评估方法 | |
CN111737907A (zh) | 一种基于深度学习和dga的变压器故障诊断方法及装置 | |
CN111275204B (zh) | 一种基于混合采样和集成学习的变压器状态识别方法 | |
CN110569888A (zh) | 基于有向无环图支持向量机的变压器故障诊断方法及装置 | |
CN117076871B (zh) | 一种基于不平衡半监督对抗训练框架的电池故障分类方法 | |
Sun et al. | An open set diagnosis method for rolling bearing faults based on prototype and reconstructed integrated network | |
CN111651932A (zh) | 一种基于集成分类模型的电力系统在线动态安全评估方法 | |
Zhang et al. | Few-shot bearing fault diagnosis based on meta-learning with discriminant space optimization | |
Wang et al. | Application of an oversampling method based on GMM and boundary optimization in imbalance-bearing fault diagnosis | |
CN108508319B (zh) | 基于故障特征气体间关联特征的变压器故障类型识别方法 | |
Yu et al. | Early fault diagnosis model design of reciprocating compressor valve based on multiclass support vector machine and decision tree | |
Yang et al. | A Fault Identification Method for Electric Submersible Pumps Based on DAE‐SVM | |
Guo et al. | An equipment multiple failure causes intelligent identification method based on integrated strategy for subway sliding plug door system under variable working condition | |
CN113469252A (zh) | 一种考虑不平衡样本的特高压换流阀运行状态评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201027 |
|
WD01 | Invention patent application deemed withdrawn after publication |