CN111680726A - 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 - Google Patents
基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 Download PDFInfo
- Publication number
- CN111680726A CN111680726A CN202010469134.3A CN202010469134A CN111680726A CN 111680726 A CN111680726 A CN 111680726A CN 202010469134 A CN202010469134 A CN 202010469134A CN 111680726 A CN111680726 A CN 111680726A
- Authority
- CN
- China
- Prior art keywords
- component analysis
- neighbor
- analysis model
- transformer
- sample data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000003745 diagnosis Methods 0.000 title claims abstract description 48
- 230000004927 fusion Effects 0.000 title claims abstract description 26
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000005259 measurement Methods 0.000 claims abstract description 38
- 238000005457 optimization Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000001228 spectrum Methods 0.000 claims abstract description 9
- 230000008569 process Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 29
- 238000013021 overheating Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 11
- 238000012937 correction Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000007789 gas Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004587 chromatography analysis Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 229930195733 hydrocarbon Natural products 0.000 description 3
- 150000002430 hydrocarbons Chemical class 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004215 Carbon black (E152) Substances 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000002939 conjugate gradient method Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009413 insulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/50—Testing of electric apparatus, lines, cables or components for short-circuits, continuity, leakage current or incorrect line connections
- G01R31/62—Testing of transformers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24143—Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Power Engineering (AREA)
- Game Theory and Decision Science (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Housings And Mounting Of Transformers (AREA)
Abstract
本发明公开了一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法:(a)构建近邻成分分析模型并对其进行训练,包括步骤:(1)采集不同故障类型变压器油色谱样本数据(2)对变压器油色谱样本数据进行预处理(3)分别计算各故障类型变压器油色谱样本数据的关联规则支持度,得到初始度量矩阵M0(4)将初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,进行训练,近邻成分分析模型输出度量矩阵M(5)采用度量矩阵M对各故障类型变压器油色谱样本数据进行映射,得到经过训练的近邻成分分析模型(b)将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型,进而输出变压器故障类型。
Description
技术领域
本发明涉及一种故障诊断方法和系统,尤其涉及一种变压器故障诊断方法和系统。
背景技术
变压器是电力系统中最为重要的设备之一,其是保证电力系统安全、可靠、经济、优质运行的关键。但是,需要说明的是,绝缘自然老化、环境条件恶劣和运行负荷过高等多种因素都可诱发电力变压器的故障,进而造成严重的社会经济损失。
基于已有的变压器故障案例的特征参量进行故障诊断的研究,有利于利用不同故障类型在指标属性上的差异化表现,准确识别故障类型,进而对于投运中的变压器的维护、制定合适的检修策略等具有重要的指导意义。
在实践过程中,基于油色谱的变压器状态分析方法,具有支持带电检测,不受电、磁信号场影响以及操作方式简单等优点,其在生产实践中得到了广泛应用,是油浸式变压器健康状态评估和故障诊断的最有效、最可靠手段之一,至今仍是研究热点。研究者在初期建立了IEC三比值(International Electro technical Commission,IEC)、Rogers比值、大卫三角形等流程简单的基础方法体系,但受到编码缺失、阈值绝对等限制,这些方法现只用于变压器故障诊断的辅助手段。随着机器学习理论和深度学习框架硬件的发展,基于人工智能的变压器故障诊断方法以其较高的分类准确率,成为了学界热门的研究课题,如支持向量机(Support Vector Ma-chine,SVM)、神经网络、贝叶斯网络、决策树、深度信念网络等。不过,上述方法也有其自身固有的缺点:第一,每一轮有监督地训练模型都需消耗较多的时间;第二,需要花费大量的时间调节超参数以训练出一个优秀的模型;第三,在最大化全体分类准确率的目标过程中,易偏向多数类样本的参数更新而忽略少数类样本的正确分类。
需要说明的是,由Cover和Hart于1968年提出的k近邻(k-Nearest Neighbors,kNN)模型是一个懒惰学习模型,没有训练过程,它根据临近点类型判断样本点的类别,无需花费大量时间进行模型的训练。kNN模型原理简单,易于理解和实现,分类性能稳定,但该算法在样本不平衡和样本维数过多时分类效果和运行效率表现不佳。对此,不少研究者对其算法或者数据进行了改进。如将K-means与遗传算法相结合,提出了基于GAK-kNN的新权重分配系统模型,在一定程度上克服了数据分布不均衡的缺陷,但存在聚类数目难以确定,且数据预处理时间大大增加的问题;利用Bagging算法从训练集中抽取多个子分类集,再对各个子分类集用kNN算法进行分类,用投票方式获得最后分类结果,这在一定程度提高了kNN的运行效率,但没有考虑不平衡数据的分布情况,分类精度提升较低;提出基于密度的kNN分类器训练样本裁剪方法,将待测样本附近的多数类训练样本进行裁剪,保留少数类训练样本,这种方法加快了kNN的计算速度并减小了样本的不平衡性,但对分类精度产生了影响。
综上所述,现有技术中这些方法对kNN算法的优化主要侧重于单个方面,缺少对算法的运行效率、性能优化、不平衡数据集训练问题的综合分析,评价方式比较单一。
发明内容
本发明的目的之一是提供一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法,该方法可以准确有效的诊断变压器故障,其算法运行效率高,在保证整体分类性能及运行效率的同时,对少数类故障样本亦具有良好的识别诊断能力。
根据上述发明目的,本发明提出一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法,其包括:
(a)构建近邻成分分析模型并对其进行训练,其包括步骤:
(1)采集不同故障类型的变压器油色谱样本数据;
(2)对采集的变压器油色谱样本数据进行预处理;
(3)分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度,以得到初始度量矩阵M0;
(4)将所述初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,以对其进行训练,所述近邻成分分析模型输出迭代后的度量矩阵M;
(5)采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,以得到经过训练的近邻成分分析模型;
(b)将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型,则所述近邻成分分析模型输出变压器故障类型。
进一步地,在本发明所述的变压器故障诊断方法中,在步骤(2)中,所述预处理包括归一化处理。
进一步地,在本发明所述的变压器故障诊断方法中,在步骤(4)中,对近邻成分分析模型的超参数进行调优时,对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。
进一步地,在本发明所述的变压器故障诊断方法中,在步骤(4)中,采用贝叶斯优化算法进行超参数调优。
相应地,本发明的另一目的在于提供一种基于近邻成分分析和k近邻学习融合的变压器故障诊断系统,该变压器故障诊断系统可以准确有效的诊断变压器故障,其算法运行效率高,在保证整体分类性能及运行效率的同时,对少数类故障样本亦具有良好的识别诊断能力。
根据上述的发明目的,本发明提出了一种基于近邻成分分析和k近邻学习融合的变压器故障诊断系统,其包括:
数据采集装置,其采集不同故障类型的变压器油色谱样本数据以及实测变压器油色谱样本数据;
预处理单元,其对采集的变压器油色谱样本数据和实测变压器油色谱样本数据进行预处理;
控制模块,其进行下述步骤:分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度,以得到初始度量矩阵M0;将所述初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,以对其进行训练,所述近邻成分分析模型输出迭代后的度量矩阵M;采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,以得到经过训练的近邻成分分析模型;
其中,当将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型时,则所述近邻成分分析模型输出变压器故障类型。
进一步地,在本发明所述的变压器故障诊断系统中,所述预处理包括归一化处理。
进一步地,在本发明所述的变压器故障诊断系统中,在对近邻成分分析模型的超参数进行调优时,对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。
进一步地,在本发明所述的变压器故障诊断系统中,采用贝叶斯优化算法进行超参数调优。
本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法及系统相较于现有技术具有如下所述的优点以及有益效果:
本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法可以准确有效的诊断变压器故障,其算法运行效率高,在保证整体分类性能及运行效率的同时,对少数类故障样本亦具有良好的识别诊断能力。
此外,本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断系统也同样具有上述的优点以及有益效果。
附图说明
图1为本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法的步骤流程示意图。
图2为本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的流程示意图。
图3示意性地显示了传统近邻成分分析模型训练过程中,高能放电样本和高能放电过热样本的类间影响因数随训练次数的变化情况。
图4示意性地显示了利用本发明所改进的近邻成分分析模型对故障样本进行训练,其高能放电样本和高能放电兼过热样本的类间影响因数随训练次数的变化情况。
图5示意性地显示了本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的超参数调优的目标函数拟合分布模型。
图6示意性地显示了本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的超参数调优的目标函数最小值变化曲线。
具体实施方式
下面将结合说明书附图和具体的实施例对本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法及系统做进一步的解释和说明,然而该解释和说明并不对本发明的技术方案构成不当限定。
图1为本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法的步骤流程示意图。
如图1所示,在本实施方式中,本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法,步骤包括:
(a)构建近邻成分分析模型并对其进行训练;
(b)将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型,则所述近邻成分分析模型输出变压器故障类型。
需要说明的是,在步骤(a)中,其具体包括步骤:
(1)采集不同故障类型的变压器油色谱样本数据;
(2)对采集的变压器油色谱样本数据进行预处理;
(3)分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度,以得到初始度量矩阵M0;
(4)将所述初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,以对其进行训练,所述近邻成分分析模型输出迭代后的度量矩阵M;
(5)采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,以得到经过训练的近邻成分分析模型。
其中,在步骤(2)中,由于在实际的变压器油色谱样本数据中,部分特征气体的数值呈指数形增长,使同类故障样本距离较大,会对基于度量距离进行分类的kNN算法有较大的影响。为了减小各特征气体浓度在不同案例中绝对数值波动的影响,需要对严格本数据进行预处理步骤,在本发明中,可以进行归一化处理。
在步骤(3)中,需要说明的是,在近邻成分分析模型(NCA)算法中,度量矩阵的初始化通常通过随机赋值,为了减少近邻成分分析模型训练次数,提高近邻成分分析模型训练效率,在本发明中,可以通过关联规则支持度计算方法将变压器故障样本的各参量相关性量化为一个多维数组,从而在整体上构成近邻成分分析模型的初始度量矩阵M0。
关联规则的支持度S定义为项P和项Q同时出现在一次事务中的可能性,由P项和Q项同时出现的事务数占总事务数的比例估计。关联规则的支持度S如下述公式所示:
其中,|T(P∨Q)|表示同时包含P和Q的事务数;|T|表示总事务数。
当给定事务数据库T={T1,T2,T3,…,TD},若对于I的子集P,存在事务T和P,则称该事务包含P。衡量关联规则有两个基本度量:支持度和置信度,由于度量矩阵具有对称性,本发明选择利用支持度来衡量参量间的相关性。在本实施方式中,总事务数T为所有的油色谱样本数据库,项集ib={第b个气体参量值大于数据库中该参量均值}。以此,可以分别计算出各种故障类型的变压器油色谱样本数据的关联规则支持度,最终得到初始度量矩阵M0。
在步骤(4)中,需要提前建立经过超参数调优的近邻成分分析模型。一般,两个样本xi和xj的马氏距离平方的表达式可以为:
其中,M称为“度量矩阵”,T表示矩阵转置。为了保持距离非负且对称,M是(半)正定对称矩阵,可分解为M=AAT,不同的距离度量方式对应不同的度量矩阵。近邻成分分析算法则是对变换矩阵A进行学习,是一种度量学习算法。
近邻成分分析算法搜索变换矩阵A,以留一法正确率最大化为目标,也等同于最小化类间距离,其可以表示为f(A):
其中,pi表示xi的留一法正确率,即它被自身之外的所有样本正确分类的概率;m表示样本数量;Ωi表示与xi属于相同类别的样本的下标集合;pij则表示为对于任意样本xj,它对xi分类结果影响的概率。
然而,近邻分类器判别时通常采用多数投票法,领域中的每个样本投一票,领域外的样本投0票,在本发明中将其替换为概率投票法,得到pij,即:
其中,l表示除样本xi以外的样本下标集合;xl表示下标属于集合l的样本。
由上式可见,xj对xi的影响随着他们之间距离的增大而减小。这个无约束优化问题可以通过共轭梯度法或随机梯度法来对变换矩阵A进行更新。对变换矩阵A求微分:
其中,式中xij=xi-xj,xik=xi-xk;m表示样本数量;Ωi表示与xi属于相同类别的样本的下标集合;k表示全体样本下标集合;pik表示下标属于集合k里的样本xk对xi分类结果影响的概率。
当度量矩阵M是一个低秩矩阵,则通过对度量矩阵M进行特征值分解,总能找到一组正交基,其正交基数目为矩阵的秩rank(M),小于原属性数d,于是可衍生出一个变换矩阵其中R指实数域,能用于将样本降到rank(M)维空间。
近邻成分分析模型的目标函数可以由公式(3)改写转换为:
其中,式中Yn表示第n类样本集合;N表示样本种类数量;Pn表示第n类样本留一法正确率的和,为方便后续讨论,本发明将其定义为类间影响因数,一般来说该值越大,类间距离就越小,该类测试样本在kNN被正确分类的可能性就越大。通常情况下,在NCA训练过程中每类样本的类间影响因数均会随着目标函数f(A)逐渐增大而增大,但若待分类样本为不平衡数据,比如多数类样本是少数类的十几倍甚至上百倍,则NCA在训练过程中就可能会忽略少数类,即存在目标函数优化偏向大类别数据的问题,导致小样本数据的分类精度较差。
因此,为了减少样本不均衡对近邻成分分析模型训练的影响,本发明引入修正因子c,对样本数较多的故障类别赋予一个较低的权值来对其重要性进行抑制,对于样本数较少的类别则赋予一个较高的权重。基于这样的思路,本发明对NCA算法的目标函数进行了修正。
将ψ定义为计算各类样本数量的函数,则修正因子可以归纳为:
相应地,近邻成分分析模型的目标函数可以被修正为:
其中,m表示样本数量;Ωi表示与xi属于相同类别的样本的下标集合;CΩi表示集合Ωi中样本所属类别的修正因子值。这样的修正可减轻样本数不均衡时NCA在训练过程中目标函数优化偏向大类别数据的问题。
此外,需要注意的是,在本发明中,分别从以上两方面着手对kNN分类模型进行优化,以提高其准确性和预测能力,主要是采用引入修正后的近邻成分分析算法和超参数调优的手段。修正后的近邻成分分析模型还需要经过超参数调优,识别能提供包括近邻参数k在内的最佳模型参数集的过程称为超参数调优,本发明利用贝叶斯优化算法(BOA)对其进行优化,以增强模型的诊断性能。
由于贝叶斯优化算法(BOA)的目标是找到复杂非凸函数的最小值,本发明将其目标函数设为测试集故障分类准确率的负值。不同故障类型的类间影响因数变化趋势不同,且变化趋势和类样本数有一定的相关关系。含有最大样本数的高能放电故障的类间影响因数增长的最快,样本数偏小的局部放电、低温过热以及高能放电兼过热故障的类间影响因数则逐渐减小,目标函数的优化偏向了大类别的数据。采用本发明所提贝叶斯超参数调优方法,各类故障的类间影响因数随着训练均逐渐增加,从而在一定程度上控制样本不均衡导致小样本被忽略的问题。
需要说明的是,本发明所述方法中的超参数调优包括如下步骤:
(1)利用概率模型代理原始待评估模型的未知目标函数,通过迭代不断增加信息量、修正先验;
在本发明中,概率模型将采用高斯过程,其具有高度灵活、高可扩展性的特点。若X表示训练集{x1,x2,…,xt},f表示未知函数的函数值集合{f(x1),f(x2),…,f(xt)},θ表示超参数,当存在观测噪声且假设噪声ε满足独立同分布的高斯分布p(ε)=(0,σ2),可以得到边际似然分布为:
p(y|X,θ)=∫p(y|f)p(y|X,θ)df (9)
采用上述公式(9),可以通过极大似然估计对边际似然分布最大化得到θbest,即目前为止基于观测值的最优解。
(2)选择一个采集函数,从后验模型构造一个效用函数,确定下一个采样点。
在本发明中,使用常用的期望提升函数,通过寻找在当前最好情况下期望增量最大值来完成:
α(θ|μ,σ)=E[max(0,f(θ)-f(θbest))] (10)
其中,μ为先验模型的预测均值函数,σ为先验模型的预测方差函数。
由此可见,贝叶斯超参数调优算法在每一次迭代中,首先根据最大化采集函数选择下一个最有潜力的评估点xt,然后根据选择的评估点,评估目标函数值f(xt),最后将新得到的观测值添加到历史观测集,并更新概率代理模型,为下一次迭代做准备。
图2为本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的流程示意图。
如图2所示,为了更好地说明本发明所述基于近邻成分分析和k近邻学习融合的变压器故障诊断方法的应用情况,以某电网公司的故障案例库以及相关领域已发表文献中的油色谱数据组成总样本数为662组的数据集为例进行进一步说明。
在该实施方式中,采用了本发明的基于近邻成分分析和k近邻学习融合的变压器故障诊断系统来实施本发明的方法,该系统包括:数据采集装置、预处理单元和控制模块。其中,数据采集装置用于采集不同故障类型的变压器油色谱样本数据以及实测变压器油色谱样本数据;预处理单元用于对采集的变压器油色谱样本数据和实测变压器油色谱样本数据进行归一化处理的预处理;控制模块进行下述步骤:分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度,以得到初始度量矩阵M0;将所述初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,以对其进行训练,所述近邻成分分析模型输出迭代后的度量矩阵M;采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,以得到经过训练的近邻成分分析模型。
在本实施方式中,该电网公司的故障案例库每个样本含H2,CH4,C2H2,C2H4,C2H6,CO,CO2和总烃含量八个特征参量。故障类型分为低能放电LD、高能放电HD、低能放电兼过热LDT、局部放电PD、中温过热MT(300℃<T<700℃)、低温过热LT(T<300℃)、高能放电兼过热HDT和高温过热HT(T小于700℃)等八种。取其中的468组数据为训练集,194组数据为测试集,用于模型的参数训练和泛化性测试,数据集样本的数量分布见表1。
表1
状态类型 | 总样本数 | 训练样本数 | 测试样本数 |
LD | 80 | 56 | 24 |
HD | 279 | 196 | 83 |
LDT | 90 | 63 | 27 |
MT | 48 | 34 | 14 |
PD | 31 | 22 | 9 |
HT | 96 | 68 | 28 |
LT | 24 | 18 | 6 |
HDT | 14 | 10 | 4 |
总计 | 662 | 467 | 195 |
由表1可见,训练样本中样本数最多的高能放电HD和样本数最少的高能放电兼过热HDT的样本比例为19.6:1,不均衡程度十分严重。
随后根据该电网公司历年的1104例故障样本的油色谱数据,采用本发明所述的方法,分别计算油色谱各气体参量的支持度而得到度量矩阵初值M0。以H2,CH4为例,两参量的值同时大于对应均值的样本有37例,根据关联规则支持度S的计算公式(1),可以计算得到:S(CH4→H2)=S(CH4←H2)=37/1104=0.0335145。同理,可以对其余各参量进行计算,对称初始度量矩阵M0,如表2所示。
表2列出了油色谱样本参量相关性量化初始矩阵。
表2.
H<sub>2</sub> | CH<sub>4</sub> | C<sub>2</sub>H<sub>2</sub> | C<sub>2</sub>H<sub>4</sub> | C<sub>2</sub>H<sub>6</sub> | CO | CO<sub>2</sub> | 总烃 | |
H<sub>2</sub> | 3.351 | 4.076 | 5.616 | 3.623 | 2.627 | 2.899 | 2.264 | 4.62 |
CH<sub>4</sub> | 2.808 | 5.435 | 3.623 | 6.069 | 1.812 | 2.264 | 2.536 | 5.163 |
C<sub>2</sub>H<sub>2</sub> | 1.721 | 2.083 | 2.627 | 1.812 | 3.351 | 1.359 | 1.268 | 2.355 |
C<sub>2</sub>H<sub>4</sub> | 3.351 | 6.341 | 4.076 | 5.435 | 2.083 | 2.808 | 2.174 | 5.344 |
C<sub>2</sub>H<sub>6</sub> | 3.533 | 3.351 | 3.351 | 2.808 | 1.721 | 2.627 | 1.449 | 3.08 |
CO | 2.627 | 2.808 | 2.899 | 2.264 | 1.359 | 5.254 | 2.627 | 2.627 |
CO<sub>2</sub> | 1.449 | 2.174 | 2.264 | 2.536 | 1.268 | 2.627 | 32.428 | 2.355 |
总烃 | 3.08 | 5.344 | 4.62 | 5.163 | 2.355 | 2.627 | 2.355 | 6.703 |
得到样本参量相关性量化矩阵初值M0后,可以配合相应的油色谱气体训练样本训练经过超参数调优的近邻成分分析模型,而后近邻成分分析模型可以输出迭代后的度量矩阵M,再将输出的度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,可以得到经过训练的近邻成分分析模型,最后将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型,近邻成分分析模型便可以输出变压器故障类型。
图3示意性地显示了传统近邻成分分析模型训练过程中,其高能放电样本和高能放电过热样本的类间影响因数随训练次数的变化情况。
图4示意性地显示了利用本发明所改进的近邻成分分析模型对故障样本进行训练,其高能放电样本和高能放电兼过热样本的类间影响因数随训练次数的变化情况。
需要说明的是,为了方便比较,将类间影响因数根据最大和最小值在目标区间[0,1]范围内进行了缩放,实际两者的比例约为400:1。
结合图3和图4可以看出,在传统近邻成分分析模型训练过程中,随着近邻成分分析模型的训练,高能放电样本的类间影响因数逐渐增加,高能放电兼过热则相反,目标函数的优化偏向了大类别的数据。
而利用本发明所改进的NCA模型对故障样本进行训练,其高能放电样本和高能放电过热样本的类间影响因数随着训练均逐渐增加,图2中存在的样本不均衡导致小样本被忽略的问题在一定程度上得到了控制。
图5示意性地显示了本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的超参数调优的目标函数拟合分布模型。
图6示意性地显示了本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的超参数调优的目标函数最小值变化曲线。
如图5和图6所示,图5为根据历史观测集得到的目标函数分布模型,其中的稍小圆点表明已采样的观测点,稍大圆点为最佳估计可行点,即根据最新模型估计函数值最低的采集点;图6为训练过程中目标函数历史观测集最小值随迭代次数变化的曲线图,可以看出使用优化后超参数训练的模型,其测试集故障分类准确率增加,模型诊断性能增强。
将采用本发明所述的贝叶斯优化超参数调优方法与彻底遍历参数值组合的有限集评估目标函数值的传统网格搜索方法,进行性能比较,比较结果如表3所示。
表3.
超参数优化方法 | 网格搜索 | 贝叶斯优化 | 未优化(默认值) |
准确率 | 0.91795 | 0.91282 | 0.80513 |
计算时间/s | 33.24 | 13.92 | 0 |
由表3可以看出,经过贝叶斯优化算法优化的超参数训练的模型,其测试集故障分类准确率略低于网格搜索的结果,但明显高于未经优化前的准确率,说明贝叶斯优化算法(BOA)可以有效优化本发明近邻成分分析模型的超参数,且效果达到预期。同时,贝叶斯优化算法的计算时间成本相较网格搜索约降低了19.32s,效果明显。
利用本发明的方法对变压器的故障进行诊断,为了进行比较,还同时采用其他传统方法对故障进行诊断,分别是基于三层BP神经网络、选用径向基核函数(RBF)的支持向量机(SVM)、kNN和无修正的NCA-kNN的四种方法。对诊断准确率和运行时间进行了对比,依据故障样本数量,将局部放电PD,低温过热LT以及高能放电兼过热HDT归类为少数类样本,比较结果如表4所示。
表4列出了各模型测试集诊断准确率对比。
表4.
需要说明的是,为了保证公平对比,相同的贝叶斯优化算法被用于各模型超参数的优化,学习率均设为0.001,精度为1e-5,同时SVM在训练时使用类间不平衡权值调整。
如表4所示,传统的未引入修正因子的NCA-kNN具有五种方法中最好的表现,其整体样本总准确率达到了92.8%,本发明改进的引入修正因子的NCA-kNN模型次之,整体样本总准确率为91.3%。但从少数类样本的分类准确率,即从召回率上看,本发明提出的引入修正因子的NCA-kNN模型具有最好的表现,其准确率达到了78.9%,同时在各故障类型上均不低于60%,相比其他几种模型有较为稳定的表现。而BPNN模型由于没有采用任何针对不平衡数据训练的方法,其少数类样本准确率仅为47.4%,在全体模型中表现最差。SVM虽然采取了类间不平衡的权值调整,稍稍缩小了少数类样本和多数类样本间的表现差异性,但其效果仍不够理想。
本发明提出的引入修正因子的改进NCA-kNN模型,即引入修正因子的改进近邻成分分析模型,在总准确率仅低于全体模型最佳值1.5%的情况下,其少数类样本的准确率相比于其它模型提升了15%至31%。该模型在保证整体分类性能及运行效率的同时,对少数类样本亦具有良好的识别诊断能力。
综上所述可以看出,本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法可以准确有效的诊断变压器故障,其算法运行效率高,在保证整体分类性能及运行效率的同时,对少数类故障样本亦具有良好的识别诊断能力。
此外,本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断系统也同样具有上述的优点以及有益效果。
需要说明的是,本发明的保护范围中现有技术部分并不局限于本申请文件所给出的实施例,所有不与本发明的方案相矛盾的现有技术,包括但不局限于在先专利文献、在先公开出版物,在先公开使用等等,都可纳入本发明的保护范围。
此外,本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式,本案记载的所有技术特征可以以任何方式进行自由组合或结合,除非相互之间产生矛盾。
还需要注意的是,以上所列举的实施例仅为本发明的具体实施例。显然本发明不局限于以上实施例,随之做出的类似变化或变形是本领域技术人员能从本发明公开的内容直接得出或者很容易便联想到的,均应属于本发明的保护范围。
Claims (8)
1.一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法,其特征在于,包括步骤:
(a)构建近邻成分分析模型并对其进行训练,其包括步骤:
(1)采集不同故障类型的变压器油色谱样本数据;
(2)对采集的变压器油色谱样本数据进行预处理;
(3)分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度,以得到初始度量矩阵M0;
(4)将所述初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,以对其进行训练,所述近邻成分分析模型输出迭代后的度量矩阵M;
(5)采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,以得到经过训练的近邻成分分析模型;
(b)将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型,则所述近邻成分分析模型输出变压器故障类型。
2.如权利要求1所述的变压器故障诊断方法,其特征在于,在步骤(2)中,所述预处理包括归一化处理。
3.如权利要求1所述的变压器故障诊断方法,其特征在于,在步骤(4)中,对近邻成分分析模型的超参数进行调优时,对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。
4.如权利要求4所述的变压器故障诊断方法,其特征在于,在步骤(4)中,采用贝叶斯优化算法进行超参数调优。
5.一种基于近邻成分分析和k近邻学习融合的变压器故障诊断系统,其特征在于,包括:
数据采集装置,其采集不同故障类型的变压器油色谱样本数据以及实测变压器油色谱样本数据;
预处理单元,其对采集的变压器油色谱样本数据和实测变压器油色谱样本数据进行预处理;
控制模块,其进行下述步骤:分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度,以得到初始度量矩阵M0;将所述初始度量矩阵M0和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型,以对其进行训练,所述近邻成分分析模型输出迭代后的度量矩阵M;采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射,以得到经过训练的近邻成分分析模型;
其中,当将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型时,则所述近邻成分分析模型输出变压器故障类型。
6.如权利要求5所述的变压器故障诊断系统,其特征在于,所述预处理包括归一化处理。
7.如权利要求5所述的变压器故障诊断系统,其特征在于,在对近邻成分分析模型的超参数进行调优时,对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。
8.如权利要求7所述的变压器故障诊断系统,其特征在于,采用贝叶斯优化算法进行超参数调优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469134.3A CN111680726B (zh) | 2020-05-28 | 2020-05-28 | 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469134.3A CN111680726B (zh) | 2020-05-28 | 2020-05-28 | 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680726A true CN111680726A (zh) | 2020-09-18 |
CN111680726B CN111680726B (zh) | 2023-06-20 |
Family
ID=72453445
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010469134.3A Active CN111680726B (zh) | 2020-05-28 | 2020-05-28 | 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680726B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508243A (zh) * | 2020-11-25 | 2021-03-16 | 国网浙江省电力有限公司信息通信分公司 | 电力信息系统多故障预测网络模型的训练方法及装置 |
CN113159517A (zh) * | 2021-03-24 | 2021-07-23 | 国网浙江省电力有限公司宁波供电公司 | 一种三维可视化电网运行数据分析系统 |
CN113689502A (zh) * | 2021-09-01 | 2021-11-23 | 南京信息工程大学 | 一种多信息融合的障碍物测量方法 |
CN117250942A (zh) * | 2023-11-15 | 2023-12-19 | 成都态坦测试科技有限公司 | 故障预测方法、模型的确定方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106596900A (zh) * | 2016-12-13 | 2017-04-26 | 贵州电网有限责任公司电力科学研究院 | 一种基于改进图的半监督分类的变压器故障诊断方法 |
CN106770939A (zh) * | 2016-12-08 | 2017-05-31 | 贵州电网有限责任公司电力科学研究院 | 一种基于支持向量描述和k近质心近邻的变压器故障诊断方法 |
WO2017128455A1 (zh) * | 2016-01-25 | 2017-08-03 | 合肥工业大学 | 一种基于广义多核支持向量机的模拟电路故障诊断方法 |
-
2020
- 2020-05-28 CN CN202010469134.3A patent/CN111680726B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017128455A1 (zh) * | 2016-01-25 | 2017-08-03 | 合肥工业大学 | 一种基于广义多核支持向量机的模拟电路故障诊断方法 |
CN106770939A (zh) * | 2016-12-08 | 2017-05-31 | 贵州电网有限责任公司电力科学研究院 | 一种基于支持向量描述和k近质心近邻的变压器故障诊断方法 |
CN106596900A (zh) * | 2016-12-13 | 2017-04-26 | 贵州电网有限责任公司电力科学研究院 | 一种基于改进图的半监督分类的变压器故障诊断方法 |
Non-Patent Citations (2)
Title |
---|
张莹梅;杨耿煌;李明林;路光达;: "低压台区变压器用电数据聚类模型研究" * |
彭刚;唐松平;张作刚;彭杰;张彦斌;: "基于改进多分类概率SVM模型的变压器故障诊断" * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508243A (zh) * | 2020-11-25 | 2021-03-16 | 国网浙江省电力有限公司信息通信分公司 | 电力信息系统多故障预测网络模型的训练方法及装置 |
CN112508243B (zh) * | 2020-11-25 | 2022-09-09 | 国网浙江省电力有限公司信息通信分公司 | 电力信息系统多故障预测网络模型的训练方法及装置 |
CN113159517A (zh) * | 2021-03-24 | 2021-07-23 | 国网浙江省电力有限公司宁波供电公司 | 一种三维可视化电网运行数据分析系统 |
CN113159517B (zh) * | 2021-03-24 | 2023-07-14 | 国网浙江省电力有限公司宁波供电公司 | 一种三维可视化电网运行数据分析系统 |
CN113689502A (zh) * | 2021-09-01 | 2021-11-23 | 南京信息工程大学 | 一种多信息融合的障碍物测量方法 |
CN113689502B (zh) * | 2021-09-01 | 2023-06-30 | 南京信息工程大学 | 一种多信息融合的障碍物测量方法 |
CN117250942A (zh) * | 2023-11-15 | 2023-12-19 | 成都态坦测试科技有限公司 | 故障预测方法、模型的确定方法、装置、设备及存储介质 |
CN117250942B (zh) * | 2023-11-15 | 2024-02-27 | 成都态坦测试科技有限公司 | 故障预测方法、模型的确定方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111680726B (zh) | 2023-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111680726A (zh) | 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统 | |
Dai et al. | Using random forest algorithm for breast cancer diagnosis | |
Ma et al. | Power transformer fault diagnosis under measurement originated uncertainties | |
CN112147432A (zh) | 基于注意力机制的BiLSTM模块、变压器状态诊断方法和系统 | |
Yang et al. | Combined wireless network intrusion detection model based on deep learning | |
Taha et al. | Novel power transformer fault diagnosis using optimized machine learning methods | |
CN112084237A (zh) | 一种基于机器学习和大数据分析的电力系统异常预测方法 | |
CN115221930B (zh) | 一种滚动轴承的故障诊断方法 | |
CN112288191A (zh) | 一种基于多类机器学习方法的海洋浮标寿命预测方法 | |
CN110363230B (zh) | 基于加权基分类器的stacking集成污水处理故障诊断方法 | |
Shi et al. | Multi-label ensemble learning | |
CN108520310B (zh) | G-L混合噪声特性v-支持向量回归机的风速预报方法 | |
Zhang et al. | A class-aware supervised contrastive learning framework for imbalanced fault diagnosis | |
CN111044287A (zh) | 一种基于概率输出弹性凸包的滚动轴承故障诊断方法 | |
CN111340069A (zh) | 基于交替学习的不完整数据精细建模及缺失值填补方法 | |
Wang et al. | Time-weighted kernel-sparse-representation-based real-time nonlinear multimode process monitoring | |
CN115329908A (zh) | 一种基于深度学习的电力变压器故障诊断方法 | |
CN110177112B (zh) | 基于双重子空间采样和置信偏移的网络入侵检测方法 | |
Liu et al. | A rotor fault diagnosis method based on BP-Adaboost weighted by non-fuzzy solution coefficients | |
CN116010884A (zh) | 基于主成分分析的SSA-LightGBM油浸式变压器的故障诊断方法 | |
Cao et al. | No-delay multimodal process monitoring using Kullback-Leibler divergence-based statistics in probabilistic mixture models | |
Sun et al. | Knowledge-guided bayesian support vector machine for high-dimensional data with application to analysis of genomics data | |
CN117272116B (zh) | 一种基于loras平衡数据集的变压器故障诊断方法 | |
CN116522121A (zh) | 一种不平衡小样本条件下的变压器在线故障诊断方法 | |
Fang et al. | Power distribution transformer fault diagnosis with unbalanced samples based on neighborhood component analysis and k-nearest neighbors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |