CN110399685A

CN110399685A - 电容型设备缺陷等级预测方法及装置

Info

Publication number: CN110399685A
Application number: CN201910690094.2A
Authority: CN
Inventors: 彭晶; 马仪; 李江; 江邵斌; 王科; 谭向宇; 郑泽忠; 邓云坤; 李�昊; 陈宇民; 段雨廷
Original assignee: Electric Power Research Institute of Yunnan Power System Ltd
Current assignee: Electric Power Research Institute of Yunnan Power System Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-11-01

Abstract

本申请公开了电容型设备缺陷等级预测方法及装置，获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包；采用WOE编码对新数据包的所有数据进行编码，获得编码后数据；采用SMOTE算法对编码后数据进行拓展处理，获得拓展后数据；采用随机森林算法建立预测模型，利用拓展后数据和设备是否发生过故障，训练预测模型，得到最优预测模型；将电容型设备的实际数据输入到最优预测模型中进行预测，得到预测结果。对数据进行预处理，采用WOE编码对预处理后数据进行编码，采用随机森林算法建立预测模型，并训练预测模型，训练模型接近现实，使得电容型设备的数据输入到预测模型中得到的预测结果准确，实时性好。

Description

电容型设备缺陷等级预测方法及装置

技术领域

本申请涉及电力设备管理技术领域，尤其涉及电容型设备缺陷等级预测方法及装置。

背景技术

在电力系统中，电容型设备属输变电设备，约占变电站设备总量的40％～50％，在电力系统设备中占有极其重要的地位。如果发生故障将会对整个变电站造成很大的影响，一些事故甚至还会危及到人员的人身安全和周边其他设备安全，造成很大的损失。因此，迫切需要一种能够准确识别电容型设备缺陷等级预测方法。

现有电容型设备缺陷等级预测方法是基于大量的历史缺陷数据，运用数理统计方法分析和预测电容型设备未来发生缺陷的概率，并根据预测结果做出相应的安全措施排除安全隐患。

但是，现有的缺陷预测方法只能通过回归分析或方差分析等数理统计方法针对雷电活动强度或者其他因素中的某单一因素对电容型设备进行分析。由于当前电网数据的爆发式增长，及各种传感器的层出不穷，造成电容型设备数据量庞大，数据特征复杂，数据质量参差不齐，直接应用传统的统计学方法很难获得理想的结果。为了提高电容型设备缺陷等级预测的准确率，提出了电容型设备缺陷等级预测方法及装置。

发明内容

本申请提出了电容型设备缺陷等级预测方法及装置，以解决现有的缺陷预测方法预测结果准确性低的技术问题。

为了解决上述技术问题，本申请公开了以下技术方案：

电容型设备缺陷等级预测方法，方法包括：获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包；采用评分卡模型的WOE编码对新数据包的所有数据进行编码，获得编码后数据；采用SMOTE算法对编码后数据进行拓展处理，获得拓展后数据；采用随机森林算法建立预测模型，并利用拓展后数据和设备是否发生过故障，训练预测模型，得到最优预测模型；将电容型设备的实际数据输入到最优预测模型中进行预测，得到预测结果。

可选地，获取所有电容型设备的数据,对数据进行预处理，获得新数据包，包括：获取的大型电容型设备的数据包括至少9种数据；对缺失一类或几类数据的电容型设备的数据包进行人工填补，获得完整数据包；将数据包和完整数据包中的同一类数据进行格式统一，获得统一数据包，其中，统一数据包的同一类数据具有统一格式；计算统一数据包中同一类数据的聚类中心，计算同一类数据中各个数据与聚类中心的距离长度；当距离长度小于等于设定阈值时，数据为正确数据，无需人工修改；当距离长度大于设定阈值时，数据为错误数据，并将错误数据进行人工修改，获得新数据包。

可选地，采用评分卡模型的WOE编码对新数据包的所有数据进行编码，获得编码后数据，包括：将所有大型电容型设备分为三组，分别为第一组、第二组和第三组；将第一组数据和第二组数据组合为新一组，并将新一组中所有电容型设备的同一类数据中的相同数据归为一个基团，采用公式(1)计算所述基团针对所有缺陷等级的编码，形成第一编码字典；

其中，W_il表示第i个基团针对缺陷等级为l的编码，B_il表示数据的第i个基团中各数据对应的设备曾经发生过缺陷等级为l的数量，G_il表示数据的第i个基团中各数据对应的设备未发生过缺陷等级为l的数量，B_Tl表示数据中各数据对应的设备发生过缺陷等级为l的数量，G_Tl表示数据中各数据对应的设备未发生过缺陷等级为l的数量，s为非零常数；根据第一编码字典找到第三组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第三编码数据；将第一组和第三组数据组合为新二组，新二组采用公式(1)形成第二编码字典，并根据第二编码字典找到第二组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第二编码数据；将第二组和第三组数据组合为新三组，新三组采用公式(1)形成第三编码字典，并根据第三编码字典找到第三组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第一编码数据；将第一编码数据、第二编码数据和第三编码数据重新组合为一组数据。

可选地，采用SMOTE算法对编码后数据进行处理，获得拓展后数据，包括：寻找编码后数据中样本xi的k个近邻，N个近邻表示为x_i(near),i∈{1,...,K},near∈{1,...,N}；在x_i(near),i∈{1,...,K},near∈{1,...,N}中任意选择一个x_i(mm)，通过随机数ζ₁，进而合成一个新的样本表示为x_i1＝x_i+ζ1·(x_i(mm)-x_i)，随机数范围0到1；在x_i(near),i∈{1,...,K},near∈{1,...,N}中重复N次任意选择一个x_i(mm)，得到针对xi(mm)生成的N的个新样本；上述步骤重复K次，获得拓展后数据。

可选地，数据包包括：设备ID，设备名称，供电局，设备类型，全路径，设备类型备注，投运日期，设备型号，生产厂家，生产日期，地形地貌，设备经度，设备纬度，设备海拔，变电站名称，运行状态，变电站经度，变电站纬度，电压等级，电压类型，生产日期的年、月、日，生产日期所属该年度的周，投运日期的年、月、日，投运日期所属该年度的周，投运年限，是否发生过故障，缺陷等级。

电容型设备缺陷等级预测装置，装置包括：预处理模块，用于获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包；编码模块，用于采用评分卡模型的WOE编码对新数据包的所有数据进行编码，获得编码后数据；拓展模块，用于采用SMOTE算法对编码后数据进行拓展处理，获得拓展后数据；构建模型模块，用于采用随机森林算法建立预测模型，并利用拓展后数据和设备是否发生过故障，训练预测模型，得到最优预测模型；预测模块，用于将电容型设备的实际数据输入到最优预测模型中进行预测，得到预测结果。

有益效果：本申请提供了电容型设备缺陷等级预测方法，首先，获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包；其次，采用评分卡模型的WOE编码对所述新数据包的所有数据进行编码，获得编码后数据；再次，采用SMOTE算法对所述编码后数据进行拓展处理，获得拓展后数据；然后，采用随机森林算法建立预测模型，并利用拓展后数据和所述设备是否发生过故障，训练所述预测模型，得到最优预测模型；最后，将电容型设备的实际数据输入到所述最优预测模型中进行预测，得到预测结果。由于数据量极为庞大，需要首先对数据进行清洗，将多余数据，重复数据进行删除，对数据格式进行统一，缺失数据进行填补，错误数据进行修改；然后对数据进行编码，采用编码输入预测模型，对预测模型进行训练，采用训练好的预测模型进行实时的预测目标设备。本申请中，对数据进行预处理，采用评分卡模型的WOE编码对预处理后数据进行编码，且采用随机森林算法建立预测模型，并训练预测模型，训练模型接近现实，使得电容型设备的数据输入到预测模型中得到的预测结果准确，实时性好。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为申请提供的电容型设备缺陷等级预测方法的流程图；

图2为申请提供的电容型设备缺陷等级预测装置的结构示意图；

图3为申请提供的基于随机森林的故障发生特征重要性分析示意图；

图4为申请提供的基于评分卡模型信息量的故障发生特征重要性分析示意图；

图5为申请提供的设备型号故障比例示意图；

图6为申请提供的全路径故障比例示意图；

图7为申请提供的变电站名称故障比例示意图

图8为申请提供的地形地貌故障比例示意图。

具体实施方式

参见图1，为本申请提供的电容型设备缺陷等级预测方法的流程图，可知，本申请提供了电容型设备缺陷等级预测方法，方法包括：

S01：获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包。

S011：获取的大型电容型设备的数据包括至少9种数据。

数据包包括：设备ID，设备名称，供电局，设备类型，全路径，设备类型备注，投运日期，设备型号，生产厂家，生产日期，地形地貌，设备经度，设备纬度，设备海拔，变电站名称，运行状态，变电站经度，变电站纬度，电压等级，电压类型，生产日期的年、月、日，生产日期所属该年度的周，投运日期的年、月、日，投运日期所属该年度的周，投运年限，是否发生过故障，缺陷等级。

全路径表示该大型电容设备的所属设备类别由大范围到小范围的依次描述。缺陷等级包括L个等级，并对各级故障进行编号。

S012：对缺失一类或几类数据的电容型设备的数据包进行人工填补，获得完整数据包。

缺失的数据根据重要性和缺失程度大致划分为四种：特征重要性高，缺失率低；特征重要性高，缺失率高；特征重要性低，缺失率低；特征重要性低，缺失率高。缺失率高的做删除处理，缺失率低且重要度高的使用特殊值进行补全(设定“无”或者“NULL”全局填充)。特征重要性高，不论缺失率如何，尽量保留特征，在这里采用补全法，关联补全法一般采用在正常数据集中(无任何缺失数据)匹配出一个和缺失值样本重合度高的样本，然后用正常数据集中的值补充缺失样本中的对应缺失值。

S013：将数据包和完整数据包中的同一类数据进行格式统一，获得统一数据包，其中，统一数据包的同一类数据具有统一格式。

统一格式包括统一时间、整数型和浮点数型变量以及字符编码的格式。

S014：计算统一数据包中同一类数据的聚类中心，计算同一类数据中各个数据与聚类中心的距离长度。

S015：当距离长度小于等于设定阈值时，数据为正确数据，无需人工修改；当距离长度大于设定阈值时，数据为错误数据，并将错误数据进行人工修改，获得新数据包。

S02：采用评分卡模型的WOE编码对新数据包的所有数据进行编码，获得编码后数据。

图3，为本申请提供的基于随机森林的故障发生特征重要性分析示意图；图4，为本申请提供的基于评分卡模型信息量的故障发生特征重要性分析示意图，参见图3和图4，可知，采用评分卡模型的WOE编码对新数据包的所有数据进行编码，获得编码后数据，包括如下步骤：

S021：将所有大型电容型设备分为三组，分别为第一组、第二组和第三组。

需要针对故障发生预测模型和缺陷等级预测模型分类讨论。WOE值的计算是针对二分类的，反映出每个特征的每个类别中“正样本对负样本占比”和“所有正样本对所有负样本占比”之间的差异，表明了特征的某个类别对计算目标的影响。

缺陷等级预测模型，是四分类模型，有四类缺陷等级(一般、紧急、重大和其他)，无法直接进行WOE值计算，若使用二分类中计算的WOE值训练四分类模型，结果不好，甚至低于普通编码的效果。所以，在缺陷等级预测模型计算WOE值时，采用的是将四分类转化为二分类的思想，对输出变量“缺陷等级”构造四个计算目标，分别为“level_1”，“level_2”，“level_3”，“level_4”。如下：level_1：缺陷等级“紧急”所对应的值记为1，另外三种等级所对应的值为0；level_2：缺陷等级“重大”所对应的值记为1，另外三种等级所对应的值为0；level_3：缺陷等级“一般”所对应的值记为1，另外三种等级所对应的值为0；level_4：缺陷等级“其他”所对应的值记为1，另外三种等级所对应的值为0。

数据分箱就是将特征按照类型分类归纳，并以设定统一的值。每个输入变量都需要进行数据分箱，在数据分箱过程中，首先对数据进行匹配，然后将相同的类型设定为一个箱，其中箱的值为类型名，最后，用箱的值替代该箱中特征的值。本申请按照数据的类型直接分箱，故障发生预测模型和缺陷等级预测模型的分箱过程相同。

S022：将第一组数据和第二组数据组合为新一组，并将新一组中所有电容型设备的同一类数据中的相同数据归为一个基团，采用公式(1)计算所述基团针对所有缺陷等级的编码，形成第一编码字典；

其中，W_il表示第i个基团针对缺陷等级为l的编码，B_il表示数据的第i个基团中各数据对应的设备曾经发生过缺陷等级为l的数量，G_il表示数据的第i个基团中各数据对应的设备未发生过缺陷等级为l的数量，B_Tl表示数据中各数据对应的设备发生过缺陷等级为l的数量，G_Tl表示数据中各数据对应的设备未发生过缺陷等级为l的数量，s为非零常数。

S023：根据第一编码字典找到第三组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第三编码数据。

S024：将第一组和第三组数据组合为新二组，新二组采用公式(1)形成第二编码字典，并根据第二编码字典找到第二组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第二编码数据。

S025：将第二组和第三组数据组合为新三组，新三组采用公式(1)形成第三编码字典，并根据第三编码字典找到第三组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第一编码数据。

S026：将第一编码数据、第二编码数据和第三编码数据重新组合为一组数据。

S03：采用SMOTE算法对编码后数据进行拓展处理，获得拓展后数据。

S031：寻找编码后数据中样本x_i的k个近邻，N个近邻表示为x_i(near),i∈{1,...,K},near∈{1,...,N}。

S032：在x_i(near),i∈{1,...,K},near∈{1,...,N}中任意选择一个x_i(mm)，通过随机数ζ₁，进而合成一个新的样本表示为x_i1＝x_i+ζ1·(x_i(mm)-x_i)，随机数范围0到1。

S033：在x_i(near),i∈{1,...,K},near∈{1,...,N}中重复N次任意选择一个x_i(mm)，得到针对xi(mm)生成的N的个新样本；上述步骤重复K次，获得拓展后数据。

S04：采用随机森林算法建立预测模型，并利用拓展后数据和设备是否发生过故障，训练预测模型，得到最优预测模型。

S05：将电容型设备的实际数据输入到最优预测模型中进行预测，得到预测结果。

随机森林：随机森林是指利用多棵决策树对样本数据进行训练、分类并预测的一种方法，它在对数据进行分类的同时，还可以给出各个变量(基因)的重要性评分，评估各个变量在分类中所起的作用。表1为缺陷等级预测模型分类评价。表1中，查准率是针对我们预测结果而言的，它表示的是预测为正的样例中有多少是真正的正样例。召回率是针对真实值而言的，它表示的是样本中的正例有多少被预测正确。F1值为F1度量公式得来，为加权调和平均。

表1 WOE-RF缺陷等级预测模型分类评价

(1)基于随机森林算法的故障发生特征重要性分析

随机森林算法在输出特征重要性的时候，利用袋外数据，对于每一棵决策树计算袋外数据误差err1；然后随机对袋外数据样本的特征i加入噪声干扰，再次计算袋外数据误差err2；得到特征i的重要性为∑(err2-err1)/N，其中N为决策树的棵数。它的原理是，判断加入噪声是否大幅度影响预测结果，若影响很大，则该特征重要。基于随机森林算法的故障发生特征重要性结果如图3，排名前十的特征如表2。

表2基于随机森林的故障发生特征重要性前十

由表2可知，排名前五的特征里，设备类型相关特征有三个，分别是设备类型、设备类型备注和全路径。设备类型重要性排名第一，设备类型备注和全路径分别排名第三和第四，因此，通过随机森林算法，可认为影响设备发生故障最重要的特征为设备类型的相关特征，另外，运行状态和电压类型也是其中较为重要的特征。

基于评分卡模型信息量的故障发生特征重要性分析

评分卡模型信息量即IV，每个箱的IV值计算是由WOE乘以该箱正常设备占比和故障设备占比的差，每个特征IV等于各箱IV的总和，即特征的重要性。通过计算可得到每个特征的IV值。基于评分卡模型信息量的故障发生特征重要性分析结果如图4，排名前十的特征分别如表3。

表3基于评分卡模型信息量的故障发生特征重要性前十

如表3可知，排名前五的特征中，全路径和设备型号两个特征与上述两种方法判断的结果重合。另外单独判断出的特征有：设备名称、生产厂家和投运日期年份。全路径和设备名称是与设备类型相关的特征，排名第一和第二，且数值上远高于其他特征。因此，通过评分卡模型信息量，可认为影响设备发生故障最重要的特征和随机森林方法判断的结果一致，为设备类型的相关特征(包括设备类型和全路径)，和集成树特征重要性判断一致的有设备型号特征，另外，生产厂家和投运时间年份也被认为是较为重要的特征。

如下结合符合对几类数据进行验证

1)设备型号特征验证

对每种设备型号计算故障比例，，即每个不同设备型号的故障设备数与所有该型号设备数的比值。将前200名设备型号的故障比例排序输出，参见图5，为本申请提供的设备型号故障比例示意图。

从图5中可以看出，排名第1与排名第200的设备型号故障比例相差60％以上，差距较大，证明不同型号的设备发生故障的可能性也相差较大。因此，设备型号可以认为是影响设备发生故障的重要特征之一。

2)全路径特征验证

计算全路径故障比例，即每个不同全路径的故障设备数与所有该全路径设备数的比值。全路径故障比例前45，参见图6，为本申请提供的全路径故障比例示意图。

从图6中可以看出，排名第1与排名45的全路径故障比例相差40％以上，差距较大，证明不同全路径的设备发生故障的可能性也相差较大。因此，全路径可以认为是影响设备发生故障的重要特征。

3)变电站名称特征验证

计算变电站名称故障比例，变电站名称故障比例前200，参见图7，为本申请提供的变电站名称故障比例示意图。

从图7中可以看出，排名第1与排名200的变电站故障比例相差10％左右，有一定差距，证明不同变电站的设备发生故障的可能性也有差距，与设备型号和全路径相比，变电站的故障比例差距较小。但与其他非重要性特征相比，仍具有优势。因此，变电站名称也可以认为是影响设备故障的重要特征。

这里选择非重要特征地形地貌进行对比，地形地貌故障比例，参见图8，为本申请提供的地形地貌故障比例示意图。

从图8可知，排名第1与排名最后的地形地貌故障比例相差不到2％，说明地形地貌特征对设备发生故障的影响力较小。相较于地形地貌等非重要性特征，设备类型，全路径和变电站名称特征对设备发生故障的影响较大。

本申请提供了电容型设备缺陷等级预测方法，首先，获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包；其次，采用评分卡模型的WOE编码对所述新数据包的所有数据进行编码，获得编码后数据；再次，采用SMOTE算法对所述编码后数据进行拓展处理，获得拓展后数据；然后，采用随机森林算法建立预测模型，并利用拓展后数据和所述设备是否发生过故障，训练所述预测模型，得到最优预测模型；最后，将电容型设备的实际数据输入到所述最优预测模型中进行预测，得到预测结果。由于数据量极为庞大，需要首先对数据进行清洗，将多余数据，重复数据进行删除，对数据格式进行统一，缺失数据进行填补，错误数据进行修改；然后对数据进行编码，采用编码输入预测模型，对预测模型进行训练，采用训练好的预测模型进行实时的预测目标设备。本申请中，对数据进行预处理，采用评分卡模型的WOE编码对预处理后数据进行编码，且采用随机森林算法建立预测模型，并训练预测模型，训练模型接近现实，使得电容型设备的数据输入到预测模型中得到的预测结果准确，实时性好。

本申请除了提供了电容型设备缺陷等级预测方法外，还提供了电容型设备缺陷等级预测装置，参见图2，为本申请提供了电容型设备缺陷等级预测装置的结构示意图，可知，该装置包括：预处理模块，用于获取所有电容型设备的数据包,对数据包内的所有数据进行预处理，获得新数据包；编码模块，用于采用评分卡模型的WOE编码对新数据包的所有数据进行编码，获得编码后数据；拓展模块，用于采用SMOTE算法对编码后数据进行拓展处理，获得拓展后数据；构建模型模块，用于采用随机森林算法建立预测模型，并利用拓展后数据和设备是否发生过故障，训练预测模型，得到最优预测模型；预测模块，用于将电容型设备的实际数据输入到最优预测模型中进行预测，得到预测结果。

本领域技术人员在考虑说明书及实践这里的申请后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未实用的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.电容型设备缺陷等级预测方法，其特征在于，所述方法包括：

S01：获取所有电容型设备的数据包,对所述数据包内的所有数据进行预处理，获得新数据包；

S02：采用评分卡模型的WOE编码对所述新数据包的所有数据进行编码，获得编码后数据；

S03：采用SMOTE算法对所述编码后数据进行拓展处理，获得拓展后数据；

S04：采用随机森林算法建立预测模型，并利用所述拓展后数据和所述设备是否发生过故障，训练所述预测模型，得到最优预测模型；

S05：将电容型设备的实际数据输入到所述最优预测模型中进行预测，得到预测结果。

2.根据权利要求1所述的方法，其特征在于，所述获取所有电容型设备的数据,对所述数据进行预处理，获得新数据包，包括：

S011：获取的大型电容型设备的数据包括至少9种数据；

S012：对缺失一类或几类数据的电容型设备的数据包进行人工填补，获得完整数据包；

S013：将所述数据包和所述完整数据包中的同一类数据进行格式统一，获得统一数据包，其中，所述统一数据包的同一类数据具有统一格式；

S014：计算所述统一数据包中同一类数据的聚类中心，计算同一类数据中各个数据与聚类中心的距离长度；

S015：当距离长度小于等于设定阈值时，所述数据为正确数据，无需人工修改；当距离长度大于设定阈值时，所述数据为错误数据，并将错误数据进行人工修改，获得新数据包。

3.根据权利要求1所述的方法，其特征在于，所述采用评分卡模型的WOE编码对所述新数据包的所有数据进行编码，获得编码后数据，包括：

S021：将所有大型电容型设备分为三组，分别为第一组、第二组和第三组；

S022：将第一组数据和第二组数据组合为新一组，并将所述新一组中所有电容型设备的同一类数据中的相同数据归为一个基团，采用公式(1)计算所述基团针对所有缺陷等级的编码，形成第一编码字典；

其中，W_il表示第i个基团针对缺陷等级为l的编码，B_il表示数据的第i个基团中各数据对应的设备曾经发生过缺陷等级为l的数量，G_il表示数据的第i个基团中各数据对应的设备未发生过缺陷等级为l的数量，B_Tl表示数据中各数据对应的设备发生过缺陷等级为l的数量，G_Tl表示数据中各数据对应的设备未发生过缺陷等级为l的数量，s为非零常数；

S023：根据所述第一编码字典找到第三组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第三编码数据；

S024：将第一组和第三组数据组合为新二组，所述新二组采用公式(1)形成第二编码字典，并根据所述第二编码字典找到第二组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第二编码数据；

S025：将第二组和第三组数据组合为新三组，所述新三组采用公式(1)形成第三编码字典，并根据所述第三编码字典找到第三组中的电容型设备各类数据对应的基团，采用对应的基团编码替换电容型设备中对应数据，获得第一编码数据；

S026：将所述第一编码数据、所述第二编码数据和所述第三编码数据重新组合为一组数据。

4.根据权利要求1所述的方法，其特征在于，所述采用SMOTE算法对所述编码后数据进行处理，获得拓展后数据，包括：

SO31：寻找编码后数据中样本xi的k个近邻，N个近邻表示为x_i(near),i∈{1,...,K},near∈{1,...,N}；

SO32：在x_i(near),i∈{1,...,K},near∈{1,...,N}中任意选择一个x_i(mm)，通过随机数ζ₁，进而合成一个新的样本表示为x_i1＝x_i+ζ1·(x_i(mm)-x_i)，随机数范围0到1；

SO33：在x_i(near),i∈{1,...,K},near∈{1,...,N}中重复N次任意选择一个x_i(mm)，得到针对xi(mm)生成的N的个新样本；

SO34：上述步骤重复K次，获得拓展后数据。

5.根据权利要求2所述的方法，其特征在于，所述数据包包括：设备ID，设备名称，供电局，设备类型，全路径，设备类型备注，投运日期，设备型号，生产厂家，生产日期，地形地貌，设备经度，设备纬度，设备海拔，变电站名称，运行状态，变电站经度，变电站纬度，电压等级，电压类型，生产日期的年、月、日，生产日期所属该年度的周，投运日期的年、月、日，投运日期所属该年度的周，投运年限，是否发生过故障，缺陷等级。

6.电容型设备缺陷等级预测装置，其特征在于，所述装置包括：

预处理模块，用于获取所有电容型设备的数据包,对所述数据包内的所有数据进行预处理，获得新数据包；

编码模块，用于采用评分卡模型的WOE编码对所述新数据包的所有数据进行编码，获得编码后数据；

拓展模块，用于采用SMOTE算法对所述编码后数据进行拓展处理，获得拓展后数据；

构建模型模块，用于采用随机森林算法建立预测模型，并利用所述拓展后数据和所述设备是否发生过故障，训练所述预测模型，得到最优预测模型；

预测模块，用于将电容型设备的实际数据输入到所述最优预测模型中进行预测，得到预测结果。