CN110348633A

CN110348633A - 一种线性分类模型缺陷发生预测方法

Info

Publication number: CN110348633A
Application number: CN201910626126.2A
Authority: CN
Inventors: 郑泽忠; 谢乐; 牟范; 侯安锴; 江邵斌; 马鹏程
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-10-18

Abstract

本发明公开了一种线性分类模型缺陷发生预测方法，包括如下步骤:步骤一：缺陷数据集加载；步骤二：训练样本数据选取；步骤三：构建线性分类缺陷发生预测模型；步骤四：基于线性判别分析算法，将训练样本数据输入线性分类缺陷发生预测模型监督训练；步骤五：输入测试样本集到缺陷发生预测模型，输出预测结果。通过本发明，可以实现一种线性分类模型缺陷发生预测方法。

Description

一种线性分类模型缺陷发生预测方法

技术领域

本发明涉及机器学习领域，具体是一种线性分类模型缺陷发生预测方法。

背景技术

在电力系统中，电容型设备属输变电设备，其数量多，约占变电站设备总量的40%~50%，包括电流互感器、套管、耦合电容器、电容式电压互感器等，在电力系统设备中占有极其重要的地位。电容型设备的健康运行和电气设备安全对于变电站至关重要，如果发生缺陷将会对整个变电站造成很大的影响，一些事故甚至还会危及到人员的人身安全和周边其他设备安全，造成很大的损失。所以，一种好的，能够准确识别电容型设备缺陷等级的预测方法就是当前所迫切需要的，也具有很高的应用价值。

从电容型设备缺陷预测方面来看，国内外主流研究方向是设备运行出现缺陷后，汇聚这类缺陷的数据并进行分析整合，为后期设备维护提供依据。但是没有关于缺陷等级预测方面的相关成果较少。

而今一些比较成熟的机器学习算法已经广泛地应用于各个领域的数据分析中，而且也可能是未来很长一段时间里的热门研究方向。由于当前电网数据的爆发式增长，及各种传感器的层出不穷，造成电容型设备数据量庞大，数据特征复杂，数据质量参差不齐，直接应用传统的统计学方法很难获得理想的结果。所以使用何种合适的机器学习算法对大规模数据进行分析，怎样改进已有机器学习算法提高模型效果都是需要进一步研究的问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种线性分类模型缺陷发生预测方法，其特征在于，包括如下步骤:

步骤一：缺陷数据集加载；

步骤二：训练样本数据选取；

步骤三：构建线性分类缺陷发生预测模型；

步骤四：基于线性判别分析算法，将训练样本数据输入线性分类缺陷发生预测模型监督训练；

步骤五：输入测试样本集到缺陷发生预测模型，输出预测结果。

进一步的，所述的缺陷数据集加载包括缺陷数据缺失值处理和缺陷数据重复值处理；所述的缺陷数据缺失值处理包括如下过程：缺失值的重要性和缺失程度划分为四种：特征重要性高，缺失率低；特征重要性高，缺失率高；特征重要性低，缺失率低；特征重要性低，缺失率高；特征重要性低，缺失率高的做删除处理；缺失率低且重要度高的使用特殊值进行补全，所述的特殊值为无或者NULL；特征重要性高，采用关联补全法在无任何缺失数据的正常数据集中匹配出一个和缺失值样本重合度高的样本，用正常数据集中的值补充缺失样本中的对应缺失值。

进一步的，所述的缺陷数据重复值处理包括如下过程：所述的重复值包括列重复和行重复；所述的列重复为特征重复，行重复为数据相同；具体的，1）列重复，选择其中一个特征保留，其余特征删除；2）数据行重复，首先考虑唯一性，对于同一特征的每个值都不同于该特征的其它值，若有重复，则删除；对于缺失值造成的重复，则保留；对于录入重复的数据，则删除；得到原始数据集。

进一步的，所述的预测目标构建包括缺陷发生预测目标构建和缺陷等级预测目标构建；所述的缺陷等级预测目标构建包括如下过程：在缺陷等级预测模型计算WOE值时，将四分类转化为二分类，对输出变量缺陷等级构造四个计算目标，分别为level_1，level_2，level_3，level_4，所述的缺陷等级包括一般、紧急、重大和其它四个等级；具体如下：level_1，缺陷等级紧急所对应的值记为1，另外三种等级所对应的值为0；level_2：缺陷等级重大所对应的值记为1，另外三种等级所对应的值为0；level_3：缺陷等级一般所对应的值记为1，另外三种等级所对应的值为0；level_4：缺陷等级其它所对应的值记为1，另外三种等级所对应的值为0。

进一步的，所述的缺陷数据集包括台账数据、铭牌数据、地理数据、变电站数据、电压数据；将所有数据整合为二维矩阵形式，每一行数据代表一个数据样本，每列代表一个变量。

进一步的，所述的缺陷数据集加载还包括数据切分，所述的数据集切分将原始数据集平均切分为3份，采用WOE编码规则对数据做3折交叉赋值编码，最后得到WOE特征编码数据集。

进一步的，所述的训练样本数据在WOE特征编码数据集中随机选取。

本发明的有益效果是：本发明所提出的一种将线性分类算法运用于电容型设备缺陷等级预测的方法，是针对一般的编码方法在缺陷等级预测模型中的效果较差的问题，在对电容型设备数据进行清洗和数据均衡化基础上，结合电容型数据的特点，加入基于评分卡模型的证据权重特征编码，改进了模型的性能。

附图说明

图1为一种线性分类模型缺陷发生预测方法的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，首先，在原始数据的基础上对缺失值、重复值、错误值和格式错误脏数据进行数据清洗。其次，将金融领域的评分卡模型方法应用到本论文的电容型数据中，用来改进特征编码，构造基于评分卡模型WOE特征编码数据集。然后数据均衡方法解决样本数据不均衡问题。最后将线性分类机器学习算法应用在缺陷等级预测中，采用监督学习的方法训练模型并优化参数。得到最优缺陷等级预测模型。具体的本方法包括如下步骤:步骤一：缺陷数据集加载；步骤二：训练样本数据选取；步骤三：构建线性分类缺陷发生预测模型；步骤四：基于线性判别分析算法，将训练样本数据输入线性分类缺陷发生预测模型监督训练；步骤五：输入测试样本集到缺陷发生预测模型，输出预测结果。

其中所述的缺陷数据集加载包括缺陷数据缺失值处理和缺陷数据重复值处理；所述的缺陷数据缺失值处理包括如下过程：缺失值的重要性和缺失程度划分为四种：特征重要性高，缺失率低；特征重要性高，缺失率高；特征重要性低，缺失率低；特征重要性低，缺失率高；特征重要性低，缺失率高的做删除处理；缺失率低且重要度高的使用特殊值进行补全，所述的特殊值为无或者NULL；特征重要性高，采用关联补全法在无任何缺失数据的正常数据集中匹配出一个和缺失值样本重合度高的样本，用正常数据集中的值补充缺失样本中的对应缺失值。

其中所述的缺陷数据重复值处理包括如下过程：所述的重复值包括列重复和行重复；所述的列重复为特征重复，行重复为数据相同，1）列重复，选择其中一个特征保留，其余特征删除；2）数据行重复，首先考虑唯一性，对于同一特征的每个值都不同于该特征的其它值，若有重复，则删除；对于缺失值造成的重复，则保留；对于录入重复的数据，则删除；得到原始数据集。

其中所述的预测目标构建包括缺陷发生预测目标构建和缺陷等级预测目标构建；所述的缺陷等级预测目标构建包括如下过程：在缺陷等级预测模型计算WOE值时，将四分类转化为二分类，对输出变量缺陷等级构造四个计算目标，分别为level_1，level_2，level_3，level_4，所述的缺陷等级包括一般、紧急、重大和其它四个等级；具体如下：level_1，缺陷等级紧急所对应的值记为1，另外三种等级所对应的值为0；level_2：缺陷等级重大所对应的值记为1，另外三种等级所对应的值为0；level_3：缺陷等级一般所对应的值记为1，另外三种等级所对应的值为0；level_4：缺陷等级其它所对应的值记为1，另外三种等级所对应的值为0。

其中所述的缺陷数据集包括台账数据、铭牌数据、地理数据、变电站数据、电压数据；将所有数据整合为二维矩阵形式，每一行数据代表一个数据样本，每列代表一个变量。

其中所述的缺陷数据集加载还包括数据切分，所述的数据集切分将原始数据集平均切分为3份，采用WOE编码规则对数据做3折交叉赋值编码，最后得到WOE特征编码数据集。

其中所述的训练样本数据在WOE特征编码数据集中随机选取。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种线性分类模型缺陷发生预测方法，其特征在于，包括如下步骤:

步骤一：缺陷数据集加载；

步骤二：训练样本数据选取；

步骤三：构建线性分类缺陷发生预测模型；

2.根据权利要求1所述的一种线性分类模型缺陷发生预测方法，其特征在于，所述的缺陷数据集加载包括缺陷数据缺失值处理和缺陷数据重复值处理；所述的缺陷数据缺失值处理包括如下过程：缺失值的重要性和缺失程度划分为四种：特征重要性高，缺失率低；特征重要性高，缺失率高；特征重要性低，缺失率低；特征重要性低，缺失率高；特征重要性低，缺失率高的做删除处理；缺失率低且重要度高的使用特殊值进行补全，所述的特殊值为无或者NULL；特征重要性高，采用关联补全法在无任何缺失数据的正常数据集中匹配出一个和缺失值样本重合度高的样本，用正常数据集中的值补充缺失样本中的对应缺失值。

3.根据权利要求要求2所述的一种线性分类模型缺陷发生预测方法，其特征在于，所述的缺陷数据重复值处理包括如下过程：所述的重复值包括列重复和行重复；所述的列重复为特征重复，行重复为数据相同，1）列重复，选择其中一个特征保留，其余特征删除；2）数据行重复，首先考虑唯一性，对于同一特征的每个值都不同于该特征的其它值，若有重复，则删除；对于缺失值造成的重复，则保留；对于录入重复的数据，则删除；得到原始数据集。

4.根据权利要求1所述的一种线性分类模型缺陷发生预测方法，其特征在于，所述的预测目标构建包括缺陷发生预测目标构建和缺陷等级预测目标构建；所述的缺陷等级预测目标构建包括如下过程：在缺陷等级预测模型计算WOE值时，将四分类转化为二分类，对输出变量缺陷等级构造四个计算目标，分别为level_1，level_2，level_3，level_4，所述的缺陷等级包括一般、紧急、重大和其它四个等级；具体如下：level_1，缺陷等级紧急所对应的值记为1，另外三种等级所对应的值为0；level_2：缺陷等级重大所对应的值记为1，另外三种等级所对应的值为0；level_3：缺陷等级一般所对应的值记为1，另外三种等级所对应的值为0；level_4：缺陷等级其它所对应的值记为1，另外三种等级所对应的值为0。

5.根据权利要求1所述的一种线性分类模型缺陷发生预测方法，其特征在于，所述的缺陷数据集包括台账数据、铭牌数据、地理数据、变电站数据、电压数据；将所有数据整合为二维矩阵形式，每一行数据代表一个数据样本，每列代表一个变量。

6.根据权利要求3所述的一种线性分类模型缺陷发生预测方法，其特征在于，所述的缺陷数据集加载还包括数据切分，所述的数据集切分将原始数据集平均切分为3份，采用WOE编码规则对数据做3折交叉赋值编码，最后得到WOE特征编码数据集。

7.根据权利要求1所述的一种线性分类模型缺陷发生预测方法，其特征在于，所述的训练样本数据在WOE特征编码数据集中随机选取。