CN110426612A - 一种两级式变压器油纸绝缘时域介电响应特征量优选方法 - Google Patents
一种两级式变压器油纸绝缘时域介电响应特征量优选方法 Download PDFInfo
- Publication number
- CN110426612A CN110426612A CN201910761081.XA CN201910761081A CN110426612A CN 110426612 A CN110426612 A CN 110426612A CN 201910761081 A CN201910761081 A CN 201910761081A CN 110426612 A CN110426612 A CN 110426612A
- Authority
- CN
- China
- Prior art keywords
- feature
- space
- time domain
- characteristic quantity
- feature space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009413 insulation Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004044 response Effects 0.000 title claims abstract description 18
- 238000003745 diagnosis Methods 0.000 claims abstract description 33
- 230000002123 temporal effect Effects 0.000 claims abstract description 18
- 238000002474 experimental method Methods 0.000 claims description 15
- 239000000284 extract Substances 0.000 claims description 15
- 238000012512 characterization method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 abstract description 27
- 238000001914 filtration Methods 0.000 abstract description 8
- 238000002405 diagnostic procedure Methods 0.000 abstract description 7
- 238000013459 approach Methods 0.000 abstract description 6
- 239000012212 insulator Substances 0.000 abstract description 6
- 238000001566 impedance spectroscopy Methods 0.000 abstract description 4
- 238000004422 calculation algorithm Methods 0.000 description 21
- 238000011160 research Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- HYBBIBNJHNGZAN-UHFFFAOYSA-N furfural Chemical compound O=CC1=CC=CO1 HYBBIBNJHNGZAN-UHFFFAOYSA-N 0.000 description 6
- 230000032683 aging Effects 0.000 description 5
- 230000033228 biological regulation Effects 0.000 description 5
- 238000002790 cross-validation Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003449 preventive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010287 polarization Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000028161 membrane depolarization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01R—MEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
- G01R31/00—Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
- G01R31/12—Testing dielectric strength or breakdown voltage ; Testing or monitoring effectiveness or level of insulation, e.g. of a cable or of an apparatus, for example using partial discharge measurements; Electrostatic testing
Landscapes
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Testing Relating To Insulation (AREA)
Abstract
本发明涉及一种两级式变压器油纸绝缘时域介电响应特征量优选方法,结合过滤式特征选择统计学指标和随机森林袋外数据特征量重要性估计的优点,可以通过两级特征选择最终确定冗余度最小,类区分度最高,分类重要性最强的最优特征空间。用以对时域介电谱特征量评估选择,在与传统绝缘诊断方法采用相近维度特征空间的条件下,能够携带更多有效信息,大幅改善绝缘诊断的准确率,为后续利用多元时域特征量进行变压器绝缘评估提供特征空间选取的新思路,在实际工程中具有重要的应用价值。
Description
技术领域
本发明涉及油纸绝缘变压器老化评估技术领域,特别是一种两级式变压器油纸绝缘时域介电响应特征量优选方法。
背景技术
油浸式变压器长期的运行会使其绝缘系统逐渐老化失效,而影响其运行状态和使用寿命。因此,有必要周期性地对变压器绝缘系统进行有效诊断。变压器油纸绝缘诊断研究领域中,时域介质响应法作为一种无损检测方法,能够准确反映变压器绝缘的弛豫特性,科学可靠地对油纸绝缘老化状态做出诊断。回复电压法(RVM)和极化/去极化电流法(PDC)是广泛使用的两种时域介电响应技术。利用RVM或PDC进行油纸绝缘诊断主要分为3个步骤:首先,进行实地测试采集变压器数据,并研究拓展debey等效电路实现弛豫仿真建模;其次,建立时域介电谱,从中提取时域特征量,探索特征量与绝缘劣化程度间的内在联系;最后,将时域特征量作为评估判踞,通过智能算法实现油纸绝缘老化状态综合诊断。
提取合适的特征量是关键内容之一,近几年相关的研究积累了很多成果。但这些研究的共同局限是:利用个别变压器不同理想状态下所提取的特征量作简单的数值比较实验,其结论推广到大量变压器且更复杂绝缘状态时,还能否表现出良好的规律性仍待考究。同时,随着该研究领域中特征数量的不断积累,并针对单一特征量进行诊断可能导致误判的问题,学者们开始融入多元特征量进行油纸绝缘综合诊断研究。但这些研究在特征空间选择时都忽略了冗余特征和无关特征会带来不良影响,导致特征提取过程繁琐,以及诊断过程偏向依赖这些特征而造成算法过拟合,且在利用多特征进行绝缘诊断的研究方面也存在着特征空间选取缺乏合理依据的问题。
变压器油纸绝缘状态相当复杂,特征量的性能是绝缘诊断方法的关键,改善特征空间的分类性能够大幅提高绝缘诊断的准确性,然而时域介电特征选择依然是目前该领域研究中的空缺。
发明内容
有鉴于此,本发明的目的是提出一种两级式变压器油纸绝缘时域介电响应特征量优选方法,用以解决时域介电特征空间选取没有合理依据的问题,结合过滤式特征选择统计学指标和随机森林袋外数据特征量重要性估计的优点,可以通过两级特征选择最终确定冗余度最小,类区分度最高,分类重要性最强的最优特征空间。
本发明采用以下方案实现:一种两级式变压器油纸绝缘时域介电响应特征量优选方法,具体包括以下步骤:
步骤S1:收集变压器时域介电响应法的现场实测数据作为样本,(按照《电力设备预防性试验规程》中糠醛含量试验的指标规定)将收集到样本根据变压器油纸绝缘状态划分为绝缘状态良好、绝缘状态一般、绝缘状态恶劣3个大类;提取时域介电特征量,根据仿真及相关理论进行计算提取时域介电特征量,构成初始特征空间Ω1;
步骤S2:基于特征间冗余度最小的方法,进行特征选择,先计算每一时域介电特征与其他特征间的皮尔森相关系数,从特征空间Ω1提出高度相关特征矩阵,然后利用平均皮尔森相关系数度量高度相关特征矩阵中每个特征量的全局相关性,剔除冗余特征,形成冗余性最低特征空间Ω2;
步骤S3:综合距离、信息、相关性三种统计学指标对每个特征进行评价,设Si为特征Xi的综合得分,以特征Xi在类可分性特征选择过程的综合得分Si(即累加距离、信息、相关性三种指标得分)作为依据剔除类别可区分度低于预设阈值的特征量,使特征空间维数降至第一级特征选择预先设定的阈值m1,并将当前的特征空间记为Ω3;
步骤S4:根据当前特征空间训练RF模型,并利用袋外数据分析特征重要性,每次实验剔除重要性最低的特征后生成新的特征空间,进行多次循环实验后,提取出预设目标维度的多个待选特征空间,基于OOB样本预测错误率及特征空间中每一特征的重要性显著水平,对多个待选特征空间进行综合考虑,择优选出最优特征空间。
进一步地,步骤S2具体包括以下步骤:
步骤S21:由式(1)计算初始特征空间Ω1的m个特征中某两个时域特征向量Xi与Xs间的皮尔森相关系数ρis,同时规定其绝对值大于0.8时,将两个特征视为高度相关,其中i,s∈[1,m],
步骤S22:根据步骤S11提取多个高度相关矩阵,并根据(2)式计算高度相关矩阵中,每一特征量的平均皮尔森相关系数并升序排列,剔除冗余特征,选择全局相关性最小的特征返回,形成冗余性最低特征空间Ω2,
进一步地,步骤S3具体包括以下步骤:
步骤S31:基于类内类间距离指标采用改进F-Score,在变压器样本类别Y(y∈[1,n])已知情况下,特征量Xi的改进F-Score根据式(3)计算:
式中,my表示类别为y的样本个数,分别表示特征Xi属于类别y的某一元素和样本均值,n表示样本类别Y的个数;
步骤S32:采用互信息作为度量手段进行信息测度,特征向量Xi与类别Y的互信息采用用式(4)计算:
式中,,px、py分别为Xi与Y的边缘分布概率,pxy为联合分布概率,计算互信息时采用核密度估计的方法对特征进行离散化;
步骤S33:利用式(5)于计算特征与类别的皮尔森相关系数ρXY,用于度量该特征对于类别的相关度:
步骤S34:如式(6)进行无量纲处理后累加步骤S31~S33的3个指标得分,得到综合得分Si:
Si=Fi+I(Xi;Y)+ρXiY (6);
按Si得分进行降序排列,剔除得分垫底的特征,使特征空间维数降至第一级特征选择预先设定的阈值m1,并将当前的特征空间记为Ω3。
进一步地,步骤S4具体包括以下步骤:
步骤S41:在第一级选择后维度为m1的特征空间Ω3条件下,训练具有t棵树组成的RF模型,同时统计每棵树T的OOB数据,将第j棵树的OOB数据记为Rj=[r1…ri…rm1],其中ri表示时域特征Xi在第j棵树对应的样本列向量,j∈[1,t];
步骤S42:利用RF中每棵树,对其相应的OOB数据Rj诊断,并计算分类正确率,记为Aj1;
步骤S43:随机置换OOB样本Rj中特征Xi对应列ri的每一个值,保持其他特征量值不变,生成新的样本矩阵并记为Rj (i)=[r1…ri (i)…rm1];定义ek为仅有一个随机位置为1元素的单位行向量,则置换过程如式(7)表示:
ri (i)=[e1...ek...em1]ri (7);
步骤S44:利用每棵决策树对Rj (i)中相应的OOB数据做出预测并计算OOB正确率,记为Aj2;
步骤S45:定义Vi为特征Xi在当前特征空间下的重要度,其值等于因为样本置换导致随机森林分类正确率下降的平均值:
步骤S46:计算当前特征空间下的每个特征的重要度Vi,每次循环实验时淘汰重要度最低的特征后,形成新的特征空间;
步骤S47:重复步骤S41至步骤S46,直至特征空间维度达到预设目标阈值m2,提取出多个待选特征空间;
步骤S48:基于OOB样本预测错误率及特征空间中每一特征的重要性显著水平对多个待选特征空间进行综合考虑,择优选出最优特征空间ΩZ。
进一步地,还包括步骤S5:将最优特征空间数据集作为实验组,同时,除初始数据集外,另外提取多个不同特征空间的数据集作为对照组进行对比验证,能够验证本发明所提出的变压器时域特征优选策略的可行性和有效性。
具体的,步骤S5具体包括以下步骤:
步骤S51:提取最优特征空间数据集作为实验组,多个不同特征空间数据集作为对照组;
步骤S52:利用分类算法和聚类算法分别对实验组和对照组数据集进行绝缘诊断试验;其中分类算法采用支持向量机(SVM)、k近邻法(kNN)、随机森林(RF),为确保分类算法的稳定性,采用多次4折交叉验证,计算平均正确率作为分类精度的结果;另外,采用FCM、PCA+K-means两种方法对数据集分别聚类,将聚类准确性作为度量标准;
步骤S53:为直观证明本发明方法选取的最优特征空间的有效性,本发明将数据集分为多组,并根据绝缘诊断结果准确性进行绘制雷达图,通过雷达图实现直观对比分析。
本发明提出的一种时域特征量优选策略,能够用以对时域介电谱特征量评估选择,在与传统绝缘诊断方法采用相近维度特征空间的条件下,能够携带更多有效信息,大幅改善绝缘诊断的准确率,为后续利用多元时域特征量进行变压器绝缘评估提供特征空间选取的新思路,在实际工程中具有重要的应用价值。
与现有技术相比,本发明有以下有益效果:
1、采用本发明所提时域介电优选策略提取出的数据集使几种诊断方法的准确性均接近90%,有较强的泛化能力,对原始特征实现降维后并不会牺牲诊断算法的准确性,可作为后续利用多时域特征量绝缘状态评估研究的参考特征空间。
2、使用经过本发明特征选择后的数据集比较传统过滤式特征选择方法提取数据集能够提升多数诊断分类方法的泛化能力;对比传统过滤式特征选择方法对于变压器时域介电特征量具有更好的适用性。
3、本发明所提时域介电优选策略提取出的最优特征空间在与传统绝缘诊断方法采用相近维度特征空间的条件下,能够携带更多有效信息,大幅改善绝缘诊断的准确率。
4、本发明所提时域介电优选策略提取出的最优特征空间对原始特征实现降维后并不会牺牲诊断算法的准确性,能够高效地从相关性、距离、信息三个测度实现类区分度低、冗余度高的特征剔除,并结合第二级随机森林袋外数据分析剔除重要性较低的特征。
附图说明
图1为本发明实施例的方法流程示意图。
图2为本发明实施例的实施例中综合得分Si特征选择情况。
图3为本发明实施例的随机森林特征选择过程。其中,(a)为第一轮RF实验(11维),(b)为第二轮RF实验(10维),(c)为第三轮RF实验(9维),(d)为第四轮RF实验(8维),(e)为第五轮RF实验(7维),(f)为第六轮RF实验(6维)。
图4为本发明实施例的第一组数据集各诊断算法表现对比。
图5为本发明实施例的第二组数据集各诊断算法表现对比。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例提供了一种两级式变压器油纸绝缘时域介电响应特征量优选方法,具体包括以下步骤:
步骤S1:收集变压器时域介电响应法的现场实测数据作为样本,(按照《电力设备预防性试验规程》中糠醛含量试验的指标规定)将收集到样本根据变压器油纸绝缘状态划分为绝缘状态良好、绝缘状态一般、绝缘状态恶劣3个大类;提取时域介电特征量,根据仿真及相关理论进行计算提取时域介电特征量,构成初始特征空间Ω1;
步骤S2:基于特征间冗余度最小的方法,进行特征选择,先计算每一时域介电特征与其他特征间的皮尔森相关系数,从特征空间Ω1提出高度相关特征矩阵,然后利用平均皮尔森相关系数度量高度相关特征矩阵中每个特征量的全局相关性,剔除冗余特征,形成冗余性最低特征空间Ω2;
步骤S3:综合距离、信息、相关性三种统计学指标对每个特征进行评价,设Si为特征Xi的综合得分,以特征Xi在类可分性特征选择过程的综合得分Si(即累加距离、信息、相关性三种指标得分)作为依据剔除类别可区分度低于预设阈值的特征量,使特征空间维数降至第一级特征选择预先设定的阈值m1,并将当前的特征空间记为Ω3;
步骤S4:根据当前特征空间训练RF模型,并利用袋外数据分析特征重要性,每次实验剔除重要性最低的特征后生成新的特征空间,进行多次循环实验后,提取出预设目标维度的多个待选特征空间,基于OOB样本预测错误率及特征空间中每一特征的重要性显著水平,对多个待选特征空间进行综合考虑,择优选出最优特征空间。
较佳的,在本实施例中,步骤S1具体为:收集80余台变压器时域介电响应法的现场实测数据,并按照《电力设备预防性试验规程》中糠醛含量试验的指标规定,将收集到的80余个样本根据变压器油纸绝缘状态划分为绝缘状态良好、绝缘状态一般、绝缘状态恶劣3个大类,结合23种时域特征量构成初始特征空间,根据仿真及相关理论进行计算提取初始数据集D1,如表1给出D1部分数据。
表1初始数据集D1部分数据
由于本发明具体实施例属于低维小样本数据,参考传统特征选择方法中一般保留30%~40%特征的作法,以及结合现有油纸绝缘诊断大多采用7~10个时域介电特征量进行研究,因此本发明具体实施例将最优特征空间阈值范围设置为6~8维,并计划通过第一级过滤式选择综合得分排名提取前50%特征,在第二级随机森林特征选择中完成最终目标维度的特征选择。
在本实施例中,步骤S2具体包括以下步骤:
步骤S21:由式(1)计算初始特征空间Ω1的m个特征中某两个时域特征向量Xi与Xs间的皮尔森相关系数ρis,同时规定其绝对值大于0.8时,将两个特征视为高度相关,其中i,s∈[1,m],
本实施例利用数据集D1计算特征空间Ω1中各时域介电特征间的皮尔森相关系数,从中并提取4个高度相关特征矩阵如下式所示:
步骤S22:根据步骤S11提取多个高度相关矩阵,并根据(2)式计算高度相关矩阵中,每一特征量的平均皮尔森相关系数并升序排列,剔除冗余特征,选择全局相关性最小的特征返回,形成冗余性最低特征空间Ω2,
其中,本实施例计算高度相关矩阵中每一特征平均皮尔森相关系数具体如下式:
在本实施例中,步骤S3具体包括以下步骤:
步骤S31:基于类内类间距离指标采用改进F-Score,在变压器样本类别Y(y∈[1,n])已知情况下,特征量Xi的改进F-Score根据式(3)计算:
式中,my表示类别为y的样本个数,分别表示特征Xi属于类别y的某一元素和样本均值,n表示样本类别Y的个数;
步骤S32:采用互信息作为度量手段进行信息测度,特征向量Xi与类别Y的互信息采用用式(4)计算:
式中,,px、py分别为Xi与Y的边缘分布概率,pxy为联合分布概率,计算互信息时采用核密度估计的方法对特征进行离散化;
步骤S33:利用式(5)于计算特征与类别的皮尔森相关系数ρXY,用于度量该特征对于类别的相关度:
步骤S34:如式(6)进行无量纲处理后累加步骤S31~S33的3个指标得分,得到综合得分Si:
按Si得分进行降序排列,剔除得分垫底的特征,使特征空间维数降至第一级特征选择预先设定的阈值m1,并将当前的特征空间记为Ω3。
其中,本实施例根据式(3)至式(6)分别计算当前特征空间Ω2中每一特征的F-Score、互信息、皮尔森相关系数,进行叠加并无量纲归一化后最终得到各特征综合得分Si见图2所示。
对各特征的得分大小按序排列后,如表2所示,容易得:到吸收比K、回复电压最大值Urmax、极化指数PI、时间常数比Kτ和老化因子KL这5个特征量综合得分S均不超过0.3,可视为低区分度特征而被剔除,因此选择前面11维特征,形成特征空间Ω3,第一级特征选择过程完成。
表2各特征综合得分Si
在本实施例中,步骤S4具体包括以下步骤:
步骤S41:在第一级选择后维度为m1的特征空间Ω3条件下,训练具有t棵树组成的RF模型,同时统计每棵树T的OOB数据,将第j棵树的OOB数据记为Rj=[r1…ri…rm1],其中ri表示时域特征Xi在第j棵树对应的样本列向量,j∈[1,t];
步骤S42:利用RF中每棵树,对其相应的OOB数据Rj诊断,并计算分类正确率,记为Aj1;
步骤S43:随机置换OOB样本Rj中特征Xi对应列ri的每一个值,保持其他特征量值不变,生成新的样本矩阵并记为Rj (i)=[r1…ri (i)…rm1];定义ek为仅有一个随机位置为1元素的单位行向量,则置换过程如式(7)表示:
ri (i)=[e1...ek...em1]ri (7);
步骤S44:利用每棵决策树对Rj (i)中相应的OOB数据做出预测并计算OOB正确率,记为Aj2;
步骤S45:定义Vi为特征Xi在当前特征空间下的重要度,其值等于因为样本置换导致随机森林分类正确率下降的平均值:
步骤S46:计算当前特征空间下的每个特征的重要度Vi,每次循环实验时淘汰重要度最低的特征后,形成新的特征空间;
步骤S47:重复步骤S41至步骤S46,直至特征空间维度达到预设目标阈值m2,提取出多个待选特征空间;
步骤S48:基于OOB样本预测错误率及特征空间中每一特征的重要性显著水平对多个待选特征空间进行综合考虑,择优选出最优特征空间ΩZ。
其中,本实施例根据当前特征空间训练RF模型,并利用袋外数据分析特征重要性,实验结果见图3所示,每次实验剔除重要性最低的特征(见图3中浅灰色标识)后生成新的特征空间,进行6次循环实验后,根据图3(d)、(e)、(f)可提取出目标维度为8、7、6维的3个待选特征空间。
对3个待选特征空间分析:3者均包含3种类型介电特征,比较全面,对比OOB数据错误率关系为:0.0833(8维)>0.0556(6维)>0.0417(7维),同时结合图(e)容易得到7维特征空间中所有特征重要性均超过5%,均为显著特征。因此最优特征空间最终确定为7维,并作为依据从初始数据集D1提取数据集D2,如表3所示。
表3数据集D2包含特征情况
在本实施例中,还包括步骤S5:将最优特征空间数据集作为实验组,同时,除初始数据集外,另外提取多个不同特征空间的数据集作为对照组进行对比验证,能够验证本发明所提出的变压器时域特征优选策略的可行性和有效性。
具体的,步骤S5具体包括以下步骤:
步骤S51:提取最优特征空间数据集作为实验组,多个不同特征空间数据集作为对照组;
步骤S52:利用分类算法和聚类算法分别对实验组和对照组数据集进行绝缘诊断试验;其中分类算法采用支持向量机(SVM)、k近邻法(kNN)、随机森林(RF),为确保分类算法的稳定性,采用多次4折交叉验证,计算平均正确率作为分类精度的结果;另外,采用FCM、PCA+K-means两种方法对数据集分别聚类,将聚类准确性作为度量标准;
步骤S53:为直观证明本发明方法选取的最优特征空间的有效性,本发明将数据集分为多组,并根据绝缘诊断结果准确性进行绘制雷达图,通过雷达图实现直观对比分析。
其中,本实施例在前述所收集实例数据的条件下,将最优特征空间数据集D2作为实验组,同时,除初始数据集D1外,并另外提取了3个不同特征空间的数据集作为对照组进行对比验证:搜集近年来多时域特征量绝缘诊断的新成果,如表4中D3使用维度为7的特征空间;如表4中D4所示维度为8的特征空间;如表4中D5通过传统过滤式特征选择最大化F-Score指标的方法直接选取7维特征空间。
表4对照组数据集包含特征情况
利用分类算法和聚类算法分别对数据集D1~D5进行绝缘诊断试验;其中分类算法采用支持向量机(SVM)、k近邻法(kNN)、随机森林(RF),为确保分类算法的稳定性,采用多次4折交叉验证,计算平均正确率作为分类精度的结果;另外,采用FCM、PCA+K-means两种方法对数据集分别聚类,将聚类准确性作为度量标准。诊断结果如表5所示。
表5各数据集分类/聚类表现结果对比
为直观证明本实施例方法选取的最优特征空间的有效性,现将D1~D5分为两组,根据绝缘诊断结果准确性绘制雷达图进行讨论,见图4、图5所示。
第一组为本发明优选策略与传统过滤式方法的结果对比,分析图4可知:
1)在SVM、PCA+K-Means、FCM中,D2表现均大幅领先D1和D5,另外D5虽然在其他两种诊断算法上相对D1有所提升,但在PCA+K-Means种表现甚至不如D1。
2)在kNN与RF算法中,3个数据集诊断效果相当,差距较小,可以排序为:D2>D1>D5。
总体来说,使用经过特征选择后的数据集D2比较原始数据集D1能够提升多数诊断分类方法的泛化能力;且D2对比D5同样更有优势,本发明所提特征优选策略对比传统过滤式特征选择方法对于变压器时域介电特征量具有更好的适用性。
见图5所示,第二组为本发明最优特征空间与其他变压器油纸绝缘诊断研究中的特征空间的对比,数据集D1、D2在诊断分类准确性上均对D3、D4形成完全包裹,是由于:
1)传统绝缘评估方法中特征空间的选取没有合理依据,例如D3、D4虽然在维度上相比D1大幅减少,但特征空间中包含冗余和无关特征,造成后续诊断算法泛化能力较差,相对于高维数据集效果反而明显下降;
2)本发明所提时域介电最优特征空间在与传统绝缘诊断方法采用相近维度特征空间的条件下,能够携带更多有效信息,大幅改善绝缘诊断的准确率。
综上,本实施例提出的一种时域特征量优选策略,能够用以对时域介电谱特征量评估选择,在与传统绝缘诊断方法采用相近维度特征空间的条件下,能够携带更多有效信息,大幅改善绝缘诊断的准确率,为后续利用多元时域特征量进行变压器绝缘评估提供特征空间选取的新思路,在实际工程中具有重要的应用价值。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
Claims (5)
1.一种两级式变压器油纸绝缘时域介电响应特征量优选方法,其特征在于,包括以下步骤:
步骤S1:收集变压器时域介电响应法的现场实测数据作为样本,将收集到样本根据变压器油纸绝缘状态划分为绝缘状态良好、绝缘状态一般、绝缘状态恶劣3个大类;提取时域介电特征量,构成初始特征空间Ω1;
步骤S2:基于特征间冗余度最小的方法,进行特征选择,形成冗余性最低特征空间Ω2;
步骤S3:综合距离、信息、相关性三种统计学指标对每个特征进行评价,设Si为特征Xi的综合得分,以特征Xi在类可分性特征选择过程的综合得分Si作为依据剔除类别可区分度低于预设阈值的特征量,使特征空间维数降至第一级特征选择预先设定的阈值m1,并将当前的特征空间记为Ω3;
步骤S4:根据当前特征空间训练RF模型,并利用袋外数据分析特征重要性,每次实验剔除重要性最低的特征后生成新的特征空间,进行多次循环实验后,提取出预设目标维度的多个待选特征空间,基于OOB样本预测错误率及特征空间中每一特征的重要性显著水平,对多个待选特征空间进行综合考虑,择优选出最优特征空间。
2.根据权利要求1所述的一种两级式变压器油纸绝缘时域介电响应特征量优选方法,其特征在于,步骤S2具体包括以下步骤:
步骤S21:由式(1)计算初始特征空间Ω1的m个特征中某两个时域特征向量Xi与Xs间的皮尔森相关系数ρis,同时规定其绝对值大于0.8时,将两个特征视为高度相关,其中i,s∈[1,m],
步骤S22:根据步骤S11提取多个高度相关矩阵,并根据(2)式计算高度相关矩阵中,每一特征量的平均皮尔森相关系数并升序排列,剔除冗余特征,选择全局相关性最小的特征返回,形成冗余性最低特征空间Ω2,
3.根据权利要求1所述的一种两级式变压器油纸绝缘时域介电响应特征量优选方法,其特征在于,步骤S3具体包括以下步骤:
步骤S31:基于类内类间距离指标采用改进F-Score,在变压器样本类别Y(y∈[1,n])已知情况下,特征量Xi的改进F-Score根据式(3)计算:
式中,my表示类别为y的样本个数,分别表示特征Xi属于类别y的某一元素和样本均值,n表示样本类别Y的个数;
步骤S32:采用互信息作为度量手段进行信息测度,特征向量Xi与类别Y的互信息采用用式(4)计算:
式中,,px、py分别为Xi与Y的边缘分布概率,pxy为联合分布概率,计算互信息时采用核密度估计的方法对特征进行离散化;
步骤S33:利用式(5)于计算特征与类别的皮尔森相关系数ρXY,用于度量该特征对于类别的相关度:
步骤S34:如式(6)进行无量纲处理后累加步骤S31~S33的3个指标得分,得到综合得分Si:
按Si得分进行降序排列,剔除得分垫底的特征,使特征空间维数降至第一级特征选择预先设定的阈值m1,并将当前的特征空间记为Ω3。
4.根据权利要求1所述的一种两级式变压器油纸绝缘时域介电响应特征量优选方法,其特征在于,步骤S4具体包括以下步骤:
步骤S41:在第一级选择后维度为m1的特征空间Ω3条件下,训练具有t棵树组成的RF模型,同时统计每棵树T的OOB数据,将第j棵树的OOB数据记为Rj=[r1…ri…rm1],其中ri表示时域特征Xi在第j棵树对应的样本列向量,j∈[1,t];
步骤S42:利用RF中每棵树,对其相应的OOB数据Rj诊断,并计算分类正确率,记为Aj1;
步骤S43:随机置换OOB样本Rj中特征Xi对应列ri的每一个值,保持其他特征量值不变,生成新的样本矩阵并记为Rj (i)=[r1…ri (i)…rm1];定义ek为仅有一个随机位置为1元素的单位行向量,则置换过程如式(7)表示:
ri (i)=[e1...ek...em1]ri (7);
步骤S44:利用每棵决策树对Rj (i)中相应的OOB数据做出预测并计算OOB正确率,记为Aj2;
步骤S45:定义Vi为特征Xi在当前特征空间下的重要度,其值等于因为样本置换导致随机森林分类正确率下降的平均值:
步骤S46:计算当前特征空间下的每个特征的重要度Vi,每次循环实验时淘汰重要度最低的特征后,形成新的特征空间;
步骤S47:重复步骤S41至步骤S46,直至特征空间维度达到预设目标阈值m2,提取出多个待选特征空间;
步骤S48:基于OOB样本预测错误率及特征空间中每一特征的重要性显著水平对多个待选特征空间进行综合考虑,择优选出最优特征空间ΩZ。
5.根据权利要求1所述的一种两级式变压器油纸绝缘时域介电响应特征量优选方法,其特征在于,还包括步骤S5:将最优特征空间数据集作为实验组,同时,除初始数据集外,另外提取多个不同特征空间的数据集作为对照组进行对比验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910761081.XA CN110426612B (zh) | 2019-08-17 | 2019-08-17 | 一种两级式变压器油纸绝缘时域介电响应特征量优选方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910761081.XA CN110426612B (zh) | 2019-08-17 | 2019-08-17 | 一种两级式变压器油纸绝缘时域介电响应特征量优选方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110426612A true CN110426612A (zh) | 2019-11-08 |
CN110426612B CN110426612B (zh) | 2020-09-01 |
Family
ID=68415147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910761081.XA Expired - Fee Related CN110426612B (zh) | 2019-08-17 | 2019-08-17 | 一种两级式变压器油纸绝缘时域介电响应特征量优选方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110426612B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113067522A (zh) * | 2021-03-29 | 2021-07-02 | 杭州吉易物联科技有限公司 | 基于rf-ga-svm算法的升降机输出电压控制方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120663A1 (en) * | 2001-12-21 | 2003-06-26 | International Business Machines Corporation | System and method for removing rules from a data administration system |
CN103020643A (zh) * | 2012-11-30 | 2013-04-03 | 武汉大学 | 基于提取核特征早期预测多变量时间序列类别的分类方法 |
CN104050242A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 基于最大信息系数的特征选择、分类方法及其装置 |
CN106127259A (zh) * | 2016-07-04 | 2016-11-16 | 西南大学 | 基于可分离度和相异度的电子鼻信号特征融合方法 |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
CN106503731A (zh) * | 2016-10-11 | 2017-03-15 | 南京信息工程大学 | 一种基于条件互信息和K‑means的无监督特征选择方法 |
CN106529124A (zh) * | 2016-10-14 | 2017-03-22 | 云南电网有限责任公司昆明供电局 | 基于主成分分析与支持向量机的变压器绝缘状态评估方法 |
CN109325511A (zh) * | 2018-08-01 | 2019-02-12 | 昆明理工大学 | 一种改进特征选择的算法 |
-
2019
- 2019-08-17 CN CN201910761081.XA patent/CN110426612B/zh not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030120663A1 (en) * | 2001-12-21 | 2003-06-26 | International Business Machines Corporation | System and method for removing rules from a data administration system |
CN103020643A (zh) * | 2012-11-30 | 2013-04-03 | 武汉大学 | 基于提取核特征早期预测多变量时间序列类别的分类方法 |
CN104050242A (zh) * | 2014-05-27 | 2014-09-17 | 哈尔滨理工大学 | 基于最大信息系数的特征选择、分类方法及其装置 |
CN106127259A (zh) * | 2016-07-04 | 2016-11-16 | 西南大学 | 基于可分离度和相异度的电子鼻信号特征融合方法 |
CN106446566A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 基于随机森林的老年人认知功能分类方法 |
CN106503731A (zh) * | 2016-10-11 | 2017-03-15 | 南京信息工程大学 | 一种基于条件互信息和K‑means的无监督特征选择方法 |
CN106529124A (zh) * | 2016-10-14 | 2017-03-22 | 云南电网有限责任公司昆明供电局 | 基于主成分分析与支持向量机的变压器绝缘状态评估方法 |
CN109325511A (zh) * | 2018-08-01 | 2019-02-12 | 昆明理工大学 | 一种改进特征选择的算法 |
Non-Patent Citations (4)
Title |
---|
刘庆珍 等: "基于降维技术与K-means聚类的油纸绝缘状态综合灰评估", 《电力系统保护与控制》 * |
周城 等: "基于相关性和冗余度的联合特征选择方法", 《计算机科学》 * |
王世强: "基于特征参量优选与多算法联合的局部放电模式识别方法", 《高压电器》 * |
陈建华 等: "基于类别区分度和关联性分析的综合特征选择", 《计算机工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113067522A (zh) * | 2021-03-29 | 2021-07-02 | 杭州吉易物联科技有限公司 | 基于rf-ga-svm算法的升降机输出电压控制方法 |
CN113067522B (zh) * | 2021-03-29 | 2023-08-01 | 杭州吉易物联科技有限公司 | 基于rf-ga-svm算法的升降机输出电压控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110426612B (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103632168B (zh) | 一种机器学习中的分类器集成方法 | |
CN109460574A (zh) | 一种航空发动机剩余寿命的预测方法 | |
CN108051660A (zh) | 一种变压器故障组合诊断模型建立方法及诊断方法 | |
CN109002859B (zh) | 基于主成分分析的传感器阵列特征选择和阵列优化方法 | |
CN106600455A (zh) | 一种基于逻辑回归的电费敏感度评估方法 | |
CN104020401B (zh) | 基于云模型理论的变压器绝缘热老化状态的评估方法 | |
CN103675610B (zh) | 局部放电在线检测中的特征因子提取方法 | |
CN109816031A (zh) | 一种基于数据不均衡度量的变压器状态评估聚类分析方法 | |
CN109389325B (zh) | 基于小波神经网络的变电站电子式互感器状态评估方法 | |
CN104077493B (zh) | 一种电力继电保护系统状态评估指标体系的构建方法 | |
CN109684673A (zh) | 一种电力系统暂态稳定结果的特征提取和聚类分析方法 | |
CN110059714A (zh) | 基于多分类支持向量机的变压器故障诊断方法 | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN105512454A (zh) | 基于功能核磁共振的抑郁症患者自杀风险客观评估模型 | |
CN109829627A (zh) | 一种基于集成学习方案的电力系统动态安全置信评估方法 | |
CN110288196A (zh) | 输电线路舞动分级预警方法及系统 | |
CN109406898A (zh) | 一种融合多特征量综合评估油纸绝缘老化程度的方法 | |
CN108877947A (zh) | 基于迭代均值聚类的深度样本学习方法 | |
CN110610212A (zh) | 一种配电网的变压器的故障分类方法和故障分类装置 | |
CN110426612A (zh) | 一种两级式变压器油纸绝缘时域介电响应特征量优选方法 | |
CN110334773A (zh) | 基于机器学习的模型入模特征的筛选方法 | |
CN116894165B (zh) | 一种基于数据分析的电缆老化状态评估方法 | |
CN109784777B (zh) | 基于时序信息片段云相似度度量的电网设备状态评估方法 | |
CN113112067A (zh) | 一种tfri权重计算模型的建立方法 | |
CN107067024B (zh) | 高压断路器机械状态识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200901 |