CN111680726A

CN111680726A - 基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统

Info

Publication number: CN111680726A
Application number: CN202010469134.3A
Authority: CN
Inventors: 陈洪岗; 王劭菁; 任茂鑫; 任辰; 徐鹏; 李雅欣; 侯慧娟; 盛戈皞; 江秀臣
Original assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Current assignee: Shanghai Jiaotong University; State Grid Shanghai Electric Power Co Ltd; East China Power Test and Research Institute Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-09-18
Anticipated expiration: 2040-05-28
Also published as: CN111680726B

Abstract

本发明公开了一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法：(a)构建近邻成分分析模型并对其进行训练，包括步骤：(1)采集不同故障类型变压器油色谱样本数据(2)对变压器油色谱样本数据进行预处理(3)分别计算各故障类型变压器油色谱样本数据的关联规则支持度，得到初始度量矩阵M₀(4)将初始度量矩阵M₀和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型，进行训练，近邻成分分析模型输出度量矩阵M(5)采用度量矩阵M对各故障类型变压器油色谱样本数据进行映射，得到经过训练的近邻成分分析模型(b)将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型，进而输出变压器故障类型。

Description

基于近邻成分分析和k近邻学习融合的变压器故障诊断方法和系统

技术领域

本发明涉及一种故障诊断方法和系统，尤其涉及一种变压器故障诊断方法和系统。

背景技术

变压器是电力系统中最为重要的设备之一，其是保证电力系统安全、可靠、经济、优质运行的关键。但是，需要说明的是，绝缘自然老化、环境条件恶劣和运行负荷过高等多种因素都可诱发电力变压器的故障，进而造成严重的社会经济损失。

基于已有的变压器故障案例的特征参量进行故障诊断的研究，有利于利用不同故障类型在指标属性上的差异化表现，准确识别故障类型，进而对于投运中的变压器的维护、制定合适的检修策略等具有重要的指导意义。

在实践过程中，基于油色谱的变压器状态分析方法，具有支持带电检测，不受电、磁信号场影响以及操作方式简单等优点，其在生产实践中得到了广泛应用，是油浸式变压器健康状态评估和故障诊断的最有效、最可靠手段之一，至今仍是研究热点。研究者在初期建立了IEC三比值(International Electro technical Commission,IEC)、Rogers比值、大卫三角形等流程简单的基础方法体系，但受到编码缺失、阈值绝对等限制，这些方法现只用于变压器故障诊断的辅助手段。随着机器学习理论和深度学习框架硬件的发展，基于人工智能的变压器故障诊断方法以其较高的分类准确率，成为了学界热门的研究课题，如支持向量机(Support Vector Ma-chine,SVM)、神经网络、贝叶斯网络、决策树、深度信念网络等。不过，上述方法也有其自身固有的缺点：第一，每一轮有监督地训练模型都需消耗较多的时间；第二，需要花费大量的时间调节超参数以训练出一个优秀的模型；第三，在最大化全体分类准确率的目标过程中，易偏向多数类样本的参数更新而忽略少数类样本的正确分类。

需要说明的是，由Cover和Hart于1968年提出的k近邻(k-Nearest Neighbors,kNN)模型是一个懒惰学习模型，没有训练过程，它根据临近点类型判断样本点的类别，无需花费大量时间进行模型的训练。kNN模型原理简单，易于理解和实现，分类性能稳定，但该算法在样本不平衡和样本维数过多时分类效果和运行效率表现不佳。对此，不少研究者对其算法或者数据进行了改进。如将K-means与遗传算法相结合，提出了基于GAK-kNN的新权重分配系统模型，在一定程度上克服了数据分布不均衡的缺陷，但存在聚类数目难以确定，且数据预处理时间大大增加的问题；利用Bagging算法从训练集中抽取多个子分类集，再对各个子分类集用kNN算法进行分类，用投票方式获得最后分类结果，这在一定程度提高了kNN的运行效率，但没有考虑不平衡数据的分布情况，分类精度提升较低；提出基于密度的kNN分类器训练样本裁剪方法，将待测样本附近的多数类训练样本进行裁剪，保留少数类训练样本，这种方法加快了kNN的计算速度并减小了样本的不平衡性，但对分类精度产生了影响。

综上所述，现有技术中这些方法对kNN算法的优化主要侧重于单个方面，缺少对算法的运行效率、性能优化、不平衡数据集训练问题的综合分析，评价方式比较单一。

发明内容

本发明的目的之一是提供一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法，该方法可以准确有效的诊断变压器故障，其算法运行效率高，在保证整体分类性能及运行效率的同时，对少数类故障样本亦具有良好的识别诊断能力。

根据上述发明目的，本发明提出一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法，其包括：

(a)构建近邻成分分析模型并对其进行训练，其包括步骤：

(1)采集不同故障类型的变压器油色谱样本数据；

(2)对采集的变压器油色谱样本数据进行预处理；

(3)分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度，以得到初始度量矩阵M₀；

(4)将所述初始度量矩阵M₀和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型，以对其进行训练，所述近邻成分分析模型输出迭代后的度量矩阵M；

(5)采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射，以得到经过训练的近邻成分分析模型；

(b)将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型，则所述近邻成分分析模型输出变压器故障类型。

进一步地，在本发明所述的变压器故障诊断方法中，在步骤(2)中，所述预处理包括归一化处理。

进一步地，在本发明所述的变压器故障诊断方法中，在步骤(4)中，对近邻成分分析模型的超参数进行调优时，对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。

进一步地，在本发明所述的变压器故障诊断方法中，在步骤(4)中，采用贝叶斯优化算法进行超参数调优。

相应地，本发明的另一目的在于提供一种基于近邻成分分析和k近邻学习融合的变压器故障诊断系统，该变压器故障诊断系统可以准确有效的诊断变压器故障，其算法运行效率高，在保证整体分类性能及运行效率的同时，对少数类故障样本亦具有良好的识别诊断能力。

根据上述的发明目的，本发明提出了一种基于近邻成分分析和k近邻学习融合的变压器故障诊断系统，其包括：

数据采集装置，其采集不同故障类型的变压器油色谱样本数据以及实测变压器油色谱样本数据；

预处理单元，其对采集的变压器油色谱样本数据和实测变压器油色谱样本数据进行预处理；

控制模块，其进行下述步骤：分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度，以得到初始度量矩阵M₀；将所述初始度量矩阵M₀和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型，以对其进行训练，所述近邻成分分析模型输出迭代后的度量矩阵M；采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射，以得到经过训练的近邻成分分析模型；

其中，当将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型时，则所述近邻成分分析模型输出变压器故障类型。

进一步地，在本发明所述的变压器故障诊断系统中，所述预处理包括归一化处理。

进一步地，在本发明所述的变压器故障诊断系统中，在对近邻成分分析模型的超参数进行调优时，对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。

进一步地，在本发明所述的变压器故障诊断系统中，采用贝叶斯优化算法进行超参数调优。

本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法及系统相较于现有技术具有如下所述的优点以及有益效果：

本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法可以准确有效的诊断变压器故障，其算法运行效率高，在保证整体分类性能及运行效率的同时，对少数类故障样本亦具有良好的识别诊断能力。

此外，本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断系统也同样具有上述的优点以及有益效果。

附图说明

图1为本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法的步骤流程示意图。

图2为本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的流程示意图。

图3示意性地显示了传统近邻成分分析模型训练过程中，高能放电样本和高能放电过热样本的类间影响因数随训练次数的变化情况。

图4示意性地显示了利用本发明所改进的近邻成分分析模型对故障样本进行训练，其高能放电样本和高能放电兼过热样本的类间影响因数随训练次数的变化情况。

图5示意性地显示了本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的超参数调优的目标函数拟合分布模型。

图6示意性地显示了本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法在一种实施方式下的超参数调优的目标函数最小值变化曲线。

具体实施方式

下面将结合说明书附图和具体的实施例对本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法及系统做进一步的解释和说明，然而该解释和说明并不对本发明的技术方案构成不当限定。

如图1所示，在本实施方式中，本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法，步骤包括：

(a)构建近邻成分分析模型并对其进行训练；

需要说明的是，在步骤(a)中，其具体包括步骤：

(1)采集不同故障类型的变压器油色谱样本数据；

(2)对采集的变压器油色谱样本数据进行预处理；

(5)采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射，以得到经过训练的近邻成分分析模型。

其中，在步骤(2)中，由于在实际的变压器油色谱样本数据中，部分特征气体的数值呈指数形增长，使同类故障样本距离较大，会对基于度量距离进行分类的kNN算法有较大的影响。为了减小各特征气体浓度在不同案例中绝对数值波动的影响，需要对严格本数据进行预处理步骤，在本发明中，可以进行归一化处理。

在步骤(3)中，需要说明的是，在近邻成分分析模型(NCA)算法中，度量矩阵的初始化通常通过随机赋值，为了减少近邻成分分析模型训练次数，提高近邻成分分析模型训练效率，在本发明中，可以通过关联规则支持度计算方法将变压器故障样本的各参量相关性量化为一个多维数组，从而在整体上构成近邻成分分析模型的初始度量矩阵M₀。

关联规则的支持度S定义为项P和项Q同时出现在一次事务中的可能性，由P项和Q项同时出现的事务数占总事务数的比例估计。关联规则的支持度S如下述公式所示：

其中，|T(P∨Q)|表示同时包含P和Q的事务数；|T|表示总事务数。

当给定事务数据库T＝{T1,T2,T3,…,TD}，若对于I的子集P，存在事务T和P，则称该事务包含P。衡量关联规则有两个基本度量：支持度和置信度，由于度量矩阵具有对称性，本发明选择利用支持度来衡量参量间的相关性。在本实施方式中，总事务数T为所有的油色谱样本数据库，项集i_b＝{第b个气体参量值大于数据库中该参量均值}。以此，可以分别计算出各种故障类型的变压器油色谱样本数据的关联规则支持度，最终得到初始度量矩阵M₀。

在步骤(4)中，需要提前建立经过超参数调优的近邻成分分析模型。一般，两个样本x_i和x_j的马氏距离平方的表达式可以为：

其中，M称为“度量矩阵”，T表示矩阵转置。为了保持距离非负且对称，M是(半)正定对称矩阵，可分解为M＝AA^T，不同的距离度量方式对应不同的度量矩阵。近邻成分分析算法则是对变换矩阵A进行学习，是一种度量学习算法。

近邻成分分析算法搜索变换矩阵A，以留一法正确率最大化为目标，也等同于最小化类间距离，其可以表示为f(A)：

其中，p_i表示x_i的留一法正确率，即它被自身之外的所有样本正确分类的概率；m表示样本数量；Ω_i表示与x_i属于相同类别的样本的下标集合；p_ij则表示为对于任意样本x_j，它对x_i分类结果影响的概率。

然而，近邻分类器判别时通常采用多数投票法，领域中的每个样本投一票，领域外的样本投0票，在本发明中将其替换为概率投票法，得到p_ij，即：

其中，l表示除样本xi以外的样本下标集合；x_l表示下标属于集合l的样本。

由上式可见，x_j对x_i的影响随着他们之间距离的增大而减小。这个无约束优化问题可以通过共轭梯度法或随机梯度法来对变换矩阵A进行更新。对变换矩阵A求微分：

其中，式中x_ij＝x_i-x_j，x_ik＝x_i-x_k；m表示样本数量；Ω_i表示与x_i属于相同类别的样本的下标集合；k表示全体样本下标集合；p_ik表示下标属于集合k里的样本x_k对x_i分类结果影响的概率。

当度量矩阵M是一个低秩矩阵，则通过对度量矩阵M进行特征值分解，总能找到一组正交基，其正交基数目为矩阵的秩rank(M)，小于原属性数d，于是可衍生出一个变换矩阵

其中R指实数域，能用于将样本降到rank(M)维空间。

近邻成分分析模型的目标函数可以由公式(3)改写转换为：

其中，式中Y_n表示第n类样本集合；N表示样本种类数量；P_n表示第n类样本留一法正确率的和，为方便后续讨论，本发明将其定义为类间影响因数，一般来说该值越大，类间距离就越小，该类测试样本在kNN被正确分类的可能性就越大。通常情况下，在NCA训练过程中每类样本的类间影响因数均会随着目标函数f(A)逐渐增大而增大，但若待分类样本为不平衡数据，比如多数类样本是少数类的十几倍甚至上百倍，则NCA在训练过程中就可能会忽略少数类，即存在目标函数优化偏向大类别数据的问题，导致小样本数据的分类精度较差。

因此，为了减少样本不均衡对近邻成分分析模型训练的影响，本发明引入修正因子c，对样本数较多的故障类别赋予一个较低的权值来对其重要性进行抑制，对于样本数较少的类别则赋予一个较高的权重。基于这样的思路，本发明对NCA算法的目标函数进行了修正。

将ψ定义为计算各类样本数量的函数，则修正因子可以归纳为：

相应地，近邻成分分析模型的目标函数可以被修正为：

其中，m表示样本数量；Ω_i表示与x_i属于相同类别的样本的下标集合；C_Ωi表示集合Ω_i中样本所属类别的修正因子值。这样的修正可减轻样本数不均衡时NCA在训练过程中目标函数优化偏向大类别数据的问题。

此外，需要注意的是，在本发明中，分别从以上两方面着手对kNN分类模型进行优化，以提高其准确性和预测能力，主要是采用引入修正后的近邻成分分析算法和超参数调优的手段。修正后的近邻成分分析模型还需要经过超参数调优，识别能提供包括近邻参数k在内的最佳模型参数集的过程称为超参数调优，本发明利用贝叶斯优化算法(BOA)对其进行优化，以增强模型的诊断性能。

由于贝叶斯优化算法(BOA)的目标是找到复杂非凸函数的最小值，本发明将其目标函数设为测试集故障分类准确率的负值。不同故障类型的类间影响因数变化趋势不同，且变化趋势和类样本数有一定的相关关系。含有最大样本数的高能放电故障的类间影响因数增长的最快，样本数偏小的局部放电、低温过热以及高能放电兼过热故障的类间影响因数则逐渐减小，目标函数的优化偏向了大类别的数据。采用本发明所提贝叶斯超参数调优方法，各类故障的类间影响因数随着训练均逐渐增加，从而在一定程度上控制样本不均衡导致小样本被忽略的问题。

需要说明的是，本发明所述方法中的超参数调优包括如下步骤：

(1)利用概率模型代理原始待评估模型的未知目标函数，通过迭代不断增加信息量、修正先验；

在本发明中，概率模型将采用高斯过程，其具有高度灵活、高可扩展性的特点。若X表示训练集{x1,x2,…,xt}，f表示未知函数的函数值集合{f(x1),f(x2),…,f(xt)}，θ表示超参数，当存在观测噪声且假设噪声ε满足独立同分布的高斯分布p(ε)＝(0,σ₂)，可以得到边际似然分布为：

p(y|X,θ)＝∫p(y|f)p(y|X,θ)df (9)

采用上述公式(9)，可以通过极大似然估计对边际似然分布最大化得到θ_best，即目前为止基于观测值的最优解。

(2)选择一个采集函数，从后验模型构造一个效用函数，确定下一个采样点。

在本发明中，使用常用的期望提升函数，通过寻找在当前最好情况下期望增量最大值来完成：

α(θ|μ,σ)＝E[max(0,f(θ)-f(θ_best))] (10)

其中，μ为先验模型的预测均值函数，σ为先验模型的预测方差函数。

由此可见，贝叶斯超参数调优算法在每一次迭代中，首先根据最大化采集函数选择下一个最有潜力的评估点x_t，然后根据选择的评估点，评估目标函数值f(x_t)，最后将新得到的观测值添加到历史观测集，并更新概率代理模型，为下一次迭代做准备。

如图2所示，为了更好地说明本发明所述基于近邻成分分析和k近邻学习融合的变压器故障诊断方法的应用情况，以某电网公司的故障案例库以及相关领域已发表文献中的油色谱数据组成总样本数为662组的数据集为例进行进一步说明。

在该实施方式中，采用了本发明的基于近邻成分分析和k近邻学习融合的变压器故障诊断系统来实施本发明的方法，该系统包括：数据采集装置、预处理单元和控制模块。其中，数据采集装置用于采集不同故障类型的变压器油色谱样本数据以及实测变压器油色谱样本数据；预处理单元用于对采集的变压器油色谱样本数据和实测变压器油色谱样本数据进行归一化处理的预处理；控制模块进行下述步骤：分别计算各种故障类型的变压器油色谱样本数据的关联规则支持度，以得到初始度量矩阵M₀；将所述初始度量矩阵M₀和经过预处理的变压器油色谱样本数据输入经过超参数调优的近邻成分分析模型，以对其进行训练，所述近邻成分分析模型输出迭代后的度量矩阵M；采用输出的所述度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射，以得到经过训练的近邻成分分析模型。

在本实施方式中，该电网公司的故障案例库每个样本含H₂，CH₄，C₂H₂，C₂H₄，C₂H₆，CO，CO₂和总烃含量八个特征参量。故障类型分为低能放电LD、高能放电HD、低能放电兼过热LDT、局部放电PD、中温过热MT(300℃＜T＜700℃)、低温过热LT(T＜300℃)、高能放电兼过热HDT和高温过热HT(T小于700℃)等八种。取其中的468组数据为训练集，194组数据为测试集，用于模型的参数训练和泛化性测试，数据集样本的数量分布见表1。

表1

状态类型	总样本数	训练样本数	测试样本数
				LD	80	56	24
HD	279	196	83
				LDT	90	63	27
MT	48	34	14
				PD	31	22	9
HT	96	68	28
				LT	24	18	6
HDT	14	10	4
				总计	662	467	195

由表1可见，训练样本中样本数最多的高能放电HD和样本数最少的高能放电兼过热HDT的样本比例为19.6：1，不均衡程度十分严重。

随后根据该电网公司历年的1104例故障样本的油色谱数据，采用本发明所述的方法，分别计算油色谱各气体参量的支持度而得到度量矩阵初值M₀。以H₂，CH₄为例，两参量的值同时大于对应均值的样本有37例，根据关联规则支持度S的计算公式(1)，可以计算得到：S(CH₄→H₂)＝S(CH₄←H₂)＝37/1104＝0.0335145。同理，可以对其余各参量进行计算，对称初始度量矩阵M₀，如表2所示。

表2列出了油色谱样本参量相关性量化初始矩阵。

表2.

	H<sub>2</sub>	CH<sub>4</sub>	C<sub>2</sub>H<sub>2</sub>	C<sub>2</sub>H<sub>4</sub>	C<sub>2</sub>H<sub>6</sub>	CO	CO<sub>2</sub>	总烃
									H<sub>2</sub>	3.351	4.076	5.616	3.623	2.627	2.899	2.264	4.62
CH<sub>4</sub>	2.808	5.435	3.623	6.069	1.812	2.264	2.536	5.163
									C<sub>2</sub>H<sub>2</sub>	1.721	2.083	2.627	1.812	3.351	1.359	1.268	2.355
C<sub>2</sub>H<sub>4</sub>	3.351	6.341	4.076	5.435	2.083	2.808	2.174	5.344
									C<sub>2</sub>H<sub>6</sub>	3.533	3.351	3.351	2.808	1.721	2.627	1.449	3.08
CO	2.627	2.808	2.899	2.264	1.359	5.254	2.627	2.627
									CO<sub>2</sub>	1.449	2.174	2.264	2.536	1.268	2.627	32.428	2.355
总烃	3.08	5.344	4.62	5.163	2.355	2.627	2.355	6.703

得到样本参量相关性量化矩阵初值M₀后，可以配合相应的油色谱气体训练样本训练经过超参数调优的近邻成分分析模型，而后近邻成分分析模型可以输出迭代后的度量矩阵M，再将输出的度量矩阵M对各种故障类型的变压器油色谱样本数据进行映射，可以得到经过训练的近邻成分分析模型，最后将实测变压器油色谱样本数据输入经过训练的近邻成分分析模型，近邻成分分析模型便可以输出变压器故障类型。

图3示意性地显示了传统近邻成分分析模型训练过程中，其高能放电样本和高能放电过热样本的类间影响因数随训练次数的变化情况。

需要说明的是，为了方便比较，将类间影响因数根据最大和最小值在目标区间[0,1]范围内进行了缩放，实际两者的比例约为400:1。

结合图3和图4可以看出，在传统近邻成分分析模型训练过程中，随着近邻成分分析模型的训练，高能放电样本的类间影响因数逐渐增加，高能放电兼过热则相反，目标函数的优化偏向了大类别的数据。

而利用本发明所改进的NCA模型对故障样本进行训练，其高能放电样本和高能放电过热样本的类间影响因数随着训练均逐渐增加，图2中存在的样本不均衡导致小样本被忽略的问题在一定程度上得到了控制。

如图5和图6所示，图5为根据历史观测集得到的目标函数分布模型，其中的稍小圆点表明已采样的观测点，稍大圆点为最佳估计可行点，即根据最新模型估计函数值最低的采集点；图6为训练过程中目标函数历史观测集最小值随迭代次数变化的曲线图，可以看出使用优化后超参数训练的模型，其测试集故障分类准确率增加，模型诊断性能增强。

将采用本发明所述的贝叶斯优化超参数调优方法与彻底遍历参数值组合的有限集评估目标函数值的传统网格搜索方法，进行性能比较，比较结果如表3所示。

表3.

超参数优化方法	网格搜索	贝叶斯优化	未优化(默认值)
				准确率	0.91795	0.91282	0.80513
计算时间/s	33.24	13.92	0

由表3可以看出，经过贝叶斯优化算法优化的超参数训练的模型，其测试集故障分类准确率略低于网格搜索的结果，但明显高于未经优化前的准确率，说明贝叶斯优化算法(BOA)可以有效优化本发明近邻成分分析模型的超参数，且效果达到预期。同时，贝叶斯优化算法的计算时间成本相较网格搜索约降低了19.32s，效果明显。

利用本发明的方法对变压器的故障进行诊断，为了进行比较，还同时采用其他传统方法对故障进行诊断，分别是基于三层BP神经网络、选用径向基核函数(RBF)的支持向量机(SVM)、kNN和无修正的NCA-kNN的四种方法。对诊断准确率和运行时间进行了对比，依据故障样本数量，将局部放电PD，低温过热LT以及高能放电兼过热HDT归类为少数类样本，比较结果如表4所示。

表4列出了各模型测试集诊断准确率对比。

表4.

需要说明的是，为了保证公平对比，相同的贝叶斯优化算法被用于各模型超参数的优化，学习率均设为0.001，精度为1e-5，同时SVM在训练时使用类间不平衡权值调整。

如表4所示，传统的未引入修正因子的NCA-kNN具有五种方法中最好的表现，其整体样本总准确率达到了92.8％，本发明改进的引入修正因子的NCA-kNN模型次之，整体样本总准确率为91.3％。但从少数类样本的分类准确率，即从召回率上看，本发明提出的引入修正因子的NCA-kNN模型具有最好的表现，其准确率达到了78.9％，同时在各故障类型上均不低于60％，相比其他几种模型有较为稳定的表现。而BPNN模型由于没有采用任何针对不平衡数据训练的方法，其少数类样本准确率仅为47.4％，在全体模型中表现最差。SVM虽然采取了类间不平衡的权值调整，稍稍缩小了少数类样本和多数类样本间的表现差异性，但其效果仍不够理想。

本发明提出的引入修正因子的改进NCA-kNN模型，即引入修正因子的改进近邻成分分析模型，在总准确率仅低于全体模型最佳值1.5％的情况下，其少数类样本的准确率相比于其它模型提升了15％至31％。该模型在保证整体分类性能及运行效率的同时，对少数类样本亦具有良好的识别诊断能力。

综上所述可以看出，本发明所述的基于近邻成分分析和k近邻学习融合的变压器故障诊断方法可以准确有效的诊断变压器故障，其算法运行效率高，在保证整体分类性能及运行效率的同时，对少数类故障样本亦具有良好的识别诊断能力。

需要说明的是，本发明的保护范围中现有技术部分并不局限于本申请文件所给出的实施例，所有不与本发明的方案相矛盾的现有技术，包括但不局限于在先专利文献、在先公开出版物，在先公开使用等等，都可纳入本发明的保护范围。

此外，本案中各技术特征的组合方式并不限本案权利要求中所记载的组合方式或是具体实施例所记载的组合方式，本案记载的所有技术特征可以以任何方式进行自由组合或结合，除非相互之间产生矛盾。

还需要注意的是，以上所列举的实施例仅为本发明的具体实施例。显然本发明不局限于以上实施例，随之做出的类似变化或变形是本领域技术人员能从本发明公开的内容直接得出或者很容易便联想到的，均应属于本发明的保护范围。

Claims

1.一种基于近邻成分分析和k近邻学习融合的变压器故障诊断方法，其特征在于，包括步骤：

(a)构建近邻成分分析模型并对其进行训练，其包括步骤：

(1)采集不同故障类型的变压器油色谱样本数据；

(2)对采集的变压器油色谱样本数据进行预处理；

2.如权利要求1所述的变压器故障诊断方法，其特征在于，在步骤(2)中，所述预处理包括归一化处理。

3.如权利要求1所述的变压器故障诊断方法，其特征在于，在步骤(4)中，对近邻成分分析模型的超参数进行调优时，对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。

4.如权利要求4所述的变压器故障诊断方法，其特征在于，在步骤(4)中，采用贝叶斯优化算法进行超参数调优。

5.一种基于近邻成分分析和k近邻学习融合的变压器故障诊断系统，其特征在于，包括：

6.如权利要求5所述的变压器故障诊断系统，其特征在于，所述预处理包括归一化处理。

7.如权利要求5所述的变压器故障诊断系统，其特征在于，在对近邻成分分析模型的超参数进行调优时，对近邻成分分析模型的训练次数和KNN近邻参数k进行优化。

8.如权利要求7所述的变压器故障诊断系统，其特征在于，采用贝叶斯优化算法进行超参数调优。