CN110348633A - 一种线性分类模型缺陷发生预测方法 - Google Patents

一种线性分类模型缺陷发生预测方法 Download PDF

Info

Publication number
CN110348633A
CN110348633A CN201910626126.2A CN201910626126A CN110348633A CN 110348633 A CN110348633 A CN 110348633A CN 201910626126 A CN201910626126 A CN 201910626126A CN 110348633 A CN110348633 A CN 110348633A
Authority
CN
China
Prior art keywords
data
defect
occurrence forecast
defect occurrence
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910626126.2A
Other languages
English (en)
Inventor
郑泽忠
谢乐
牟范
侯安锴
江邵斌
马鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910626126.2A priority Critical patent/CN110348633A/zh
Publication of CN110348633A publication Critical patent/CN110348633A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种线性分类模型缺陷发生预测方法,包括如下步骤:步骤一:缺陷数据集加载;步骤二:训练样本数据选取;步骤三:构建线性分类缺陷发生预测模型;步骤四:基于线性判别分析算法,将训练样本数据输入线性分类缺陷发生预测模型监督训练;步骤五:输入测试样本集到缺陷发生预测模型,输出预测结果。通过本发明,可以实现一种线性分类模型缺陷发生预测方法。

Description

一种线性分类模型缺陷发生预测方法
技术领域
本发明涉及机器学习领域,具体是一种线性分类模型缺陷发生预测方法。
背景技术
在电力系统中,电容型设备属输变电设备,其数量多,约占变电站设备总量的40%~50%,包括电流互感器、套管、耦合电容器、电容式电压互感器等,在电力系统设备中占有极其重要的地位。电容型设备的健康运行和电气设备安全对于变电站至关重要,如果发生缺陷将会对整个变电站造成很大的影响,一些事故甚至还会危及到人员的人身安全和周边其他设备安全,造成很大的损失。所以,一种好的,能够准确识别电容型设备缺陷等级的预测方法就是当前所迫切需要的,也具有很高的应用价值。
从电容型设备缺陷预测方面来看,国内外主流研究方向是设备运行出现缺陷后,汇聚这类缺陷的数据并进行分析整合,为后期设备维护提供依据。但是没有关于缺陷等级预测方面的相关成果较少。
而今一些比较成熟的机器学习算法已经广泛地应用于各个领域的数据分析中,而且也可能是未来很长一段时间里的热门研究方向。由于当前电网数据的爆发式增长,及各种传感器的层出不穷,造成电容型设备数据量庞大,数据特征复杂,数据质量参差不齐,直接应用传统的统计学方法很难获得理想的结果。所以使用何种合适的机器学习算法对大规模数据进行分析,怎样改进已有机器学习算法提高模型效果都是需要进一步研究的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种线性分类模型缺陷发生预测方法,其特征在于,包括如下步骤:
步骤一:缺陷数据集加载;
步骤二:训练样本数据选取;
步骤三:构建线性分类缺陷发生预测模型;
步骤四:基于线性判别分析算法,将训练样本数据输入线性分类缺陷发生预测模型监督训练;
步骤五:输入测试样本集到缺陷发生预测模型,输出预测结果。
进一步的,所述的缺陷数据集加载包括缺陷数据缺失值处理和缺陷数据重复值处理;所述的缺陷数据缺失值处理包括如下过程:缺失值的重要性和缺失程度划分为四种:特征重要性高,缺失率低;特征重要性高,缺失率高;特征重要性低,缺失率低;特征重要性低,缺失率高;特征重要性低,缺失率高的做删除处理;缺失率低且重要度高的使用特殊值进行补全,所述的特殊值为无或者NULL;特征重要性高,采用关联补全法在无任何缺失数据的正常数据集中匹配出一个和缺失值样本重合度高的样本,用正常数据集中的值补充缺失样本中的对应缺失值。
进一步的,所述的缺陷数据重复值处理包括如下过程:所述的重复值包括列重复和行重复;所述的列重复为特征重复,行重复为数据相同;具体的,1)列重复,选择其中一个特征保留,其余特征删除;2)数据行重复,首先考虑唯一性,对于同一特征的每个值都不同于该特征的其它值,若有重复,则删除;对于缺失值造成的重复,则保留;对于录入重复的数据,则删除;得到原始数据集。
进一步的,所述的预测目标构建包括缺陷发生预测目标构建和缺陷等级预测目标构建;所述的缺陷等级预测目标构建包括如下过程:在缺陷等级预测模型计算WOE值时,将四分类转化为二分类,对输出变量缺陷等级构造四个计算目标,分别为level_1,level_2,level_3,level_4,所述的缺陷等级包括一般、紧急、重大和其它四个等级;具体如下:level_1,缺陷等级紧急所对应的值记为1,另外三种等级所对应的值为0;level_2:缺陷等级重大所对应的值记为1,另外三种等级所对应的值为0;level_3:缺陷等级一般所对应的值记为1,另外三种等级所对应的值为0;level_4:缺陷等级其它所对应的值记为1,另外三种等级所对应的值为0。
进一步的,所述的缺陷数据集包括台账数据、铭牌数据、地理数据、变电站数据、电压数据;将所有数据整合为二维矩阵形式,每一行数据代表一个数据样本,每列代表一个变量。
进一步的,所述的缺陷数据集加载还包括数据切分,所述的数据集切分将原始数据集平均切分为3份,采用WOE编码规则对数据做3折交叉赋值编码,最后得到WOE特征编码数据集。
进一步的,所述的训练样本数据在WOE特征编码数据集中随机选取。
本发明的有益效果是:本发明所提出的一种将线性分类算法运用于电容型设备缺陷等级预测的方法,是针对一般的编码方法在缺陷等级预测模型中的效果较差的问题,在对电容型设备数据进行清洗和数据均衡化基础上,结合电容型数据的特点,加入基于评分卡模型的证据权重特征编码,改进了模型的性能。
附图说明
图1为一种线性分类模型缺陷发生预测方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,首先,在原始数据的基础上对缺失值、重复值、错误值和格式错误脏数据进行数据清洗。其次,将金融领域的评分卡模型方法应用到本论文的电容型数据中,用来改进特征编码,构造基于评分卡模型WOE特征编码数据集。然后数据均衡方法解决样本数据不均衡问题。最后将线性分类机器学习算法应用在缺陷等级预测中,采用监督学习的方法训练模型并优化参数。得到最优缺陷等级预测模型。具体的本方法包括如下步骤:步骤一:缺陷数据集加载;步骤二:训练样本数据选取;步骤三:构建线性分类缺陷发生预测模型;步骤四:基于线性判别分析算法,将训练样本数据输入线性分类缺陷发生预测模型监督训练;步骤五:输入测试样本集到缺陷发生预测模型,输出预测结果。
其中所述的缺陷数据集加载包括缺陷数据缺失值处理和缺陷数据重复值处理;所述的缺陷数据缺失值处理包括如下过程:缺失值的重要性和缺失程度划分为四种:特征重要性高,缺失率低;特征重要性高,缺失率高;特征重要性低,缺失率低;特征重要性低,缺失率高;特征重要性低,缺失率高的做删除处理;缺失率低且重要度高的使用特殊值进行补全,所述的特殊值为无或者NULL;特征重要性高,采用关联补全法在无任何缺失数据的正常数据集中匹配出一个和缺失值样本重合度高的样本,用正常数据集中的值补充缺失样本中的对应缺失值。
其中所述的缺陷数据重复值处理包括如下过程:所述的重复值包括列重复和行重复;所述的列重复为特征重复,行重复为数据相同,1)列重复,选择其中一个特征保留,其余特征删除;2)数据行重复,首先考虑唯一性,对于同一特征的每个值都不同于该特征的其它值,若有重复,则删除;对于缺失值造成的重复,则保留;对于录入重复的数据,则删除;得到原始数据集。
其中所述的预测目标构建包括缺陷发生预测目标构建和缺陷等级预测目标构建;所述的缺陷等级预测目标构建包括如下过程:在缺陷等级预测模型计算WOE值时,将四分类转化为二分类,对输出变量缺陷等级构造四个计算目标,分别为level_1,level_2,level_3,level_4,所述的缺陷等级包括一般、紧急、重大和其它四个等级;具体如下:level_1,缺陷等级紧急所对应的值记为1,另外三种等级所对应的值为0;level_2:缺陷等级重大所对应的值记为1,另外三种等级所对应的值为0;level_3:缺陷等级一般所对应的值记为1,另外三种等级所对应的值为0;level_4:缺陷等级其它所对应的值记为1,另外三种等级所对应的值为0。
其中所述的缺陷数据集包括台账数据、铭牌数据、地理数据、变电站数据、电压数据;将所有数据整合为二维矩阵形式,每一行数据代表一个数据样本,每列代表一个变量。
其中所述的缺陷数据集加载还包括数据切分,所述的数据集切分将原始数据集平均切分为3份,采用WOE编码规则对数据做3折交叉赋值编码,最后得到WOE特征编码数据集。
其中所述的训练样本数据在WOE特征编码数据集中随机选取。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (7)

1.一种线性分类模型缺陷发生预测方法,其特征在于,包括如下步骤:
步骤一:缺陷数据集加载;
步骤二:训练样本数据选取;
步骤三:构建线性分类缺陷发生预测模型;
步骤四:基于线性判别分析算法,将训练样本数据输入线性分类缺陷发生预测模型监督训练;
步骤五:输入测试样本集到缺陷发生预测模型,输出预测结果。
2.根据权利要求1所述的一种线性分类模型缺陷发生预测方法,其特征在于,所述的缺陷数据集加载包括缺陷数据缺失值处理和缺陷数据重复值处理;所述的缺陷数据缺失值处理包括如下过程:缺失值的重要性和缺失程度划分为四种:特征重要性高,缺失率低;特征重要性高,缺失率高;特征重要性低,缺失率低;特征重要性低,缺失率高;特征重要性低,缺失率高的做删除处理;缺失率低且重要度高的使用特殊值进行补全,所述的特殊值为无或者NULL;特征重要性高,采用关联补全法在无任何缺失数据的正常数据集中匹配出一个和缺失值样本重合度高的样本,用正常数据集中的值补充缺失样本中的对应缺失值。
3.根据权利要求要求2所述的一种线性分类模型缺陷发生预测方法,其特征在于,所述的缺陷数据重复值处理包括如下过程:所述的重复值包括列重复和行重复;所述的列重复为特征重复,行重复为数据相同,1)列重复,选择其中一个特征保留,其余特征删除;2)数据行重复,首先考虑唯一性,对于同一特征的每个值都不同于该特征的其它值,若有重复,则删除;对于缺失值造成的重复,则保留;对于录入重复的数据,则删除;得到原始数据集。
4.根据权利要求1所述的一种线性分类模型缺陷发生预测方法,其特征在于,所述的预测目标构建包括缺陷发生预测目标构建和缺陷等级预测目标构建;所述的缺陷等级预测目标构建包括如下过程:在缺陷等级预测模型计算WOE值时,将四分类转化为二分类,对输出变量缺陷等级构造四个计算目标,分别为level_1,level_2,level_3,level_4,所述的缺陷等级包括一般、紧急、重大和其它四个等级;具体如下:level_1,缺陷等级紧急所对应的值记为1,另外三种等级所对应的值为0;level_2:缺陷等级重大所对应的值记为1,另外三种等级所对应的值为0;level_3:缺陷等级一般所对应的值记为1,另外三种等级所对应的值为0;level_4:缺陷等级其它所对应的值记为1,另外三种等级所对应的值为0。
5.根据权利要求1所述的一种线性分类模型缺陷发生预测方法,其特征在于,所述的缺陷数据集包括台账数据、铭牌数据、地理数据、变电站数据、电压数据;将所有数据整合为二维矩阵形式,每一行数据代表一个数据样本,每列代表一个变量。
6.根据权利要求3所述的一种线性分类模型缺陷发生预测方法,其特征在于,所述的缺陷数据集加载还包括数据切分,所述的数据集切分将原始数据集平均切分为3份,采用WOE编码规则对数据做3折交叉赋值编码,最后得到WOE特征编码数据集。
7.根据权利要求1所述的一种线性分类模型缺陷发生预测方法,其特征在于,所述的训练样本数据在WOE特征编码数据集中随机选取。
CN201910626126.2A 2019-07-11 2019-07-11 一种线性分类模型缺陷发生预测方法 Pending CN110348633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910626126.2A CN110348633A (zh) 2019-07-11 2019-07-11 一种线性分类模型缺陷发生预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910626126.2A CN110348633A (zh) 2019-07-11 2019-07-11 一种线性分类模型缺陷发生预测方法

Publications (1)

Publication Number Publication Date
CN110348633A true CN110348633A (zh) 2019-10-18

Family

ID=68175130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910626126.2A Pending CN110348633A (zh) 2019-07-11 2019-07-11 一种线性分类模型缺陷发生预测方法

Country Status (1)

Country Link
CN (1) CN110348633A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259953A (zh) * 2020-01-15 2020-06-09 云南电网有限责任公司电力科学研究院 一种基于电容型设备缺陷数据的设备缺陷时间预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259953A (zh) * 2020-01-15 2020-06-09 云南电网有限责任公司电力科学研究院 一种基于电容型设备缺陷数据的设备缺陷时间预测方法
CN111259953B (zh) * 2020-01-15 2023-10-20 云南电网有限责任公司电力科学研究院 一种基于电容型设备缺陷数据的设备缺陷时间预测方法

Similar Documents

Publication Publication Date Title
CN107169628B (zh) 一种基于大数据互信息属性约简的配电网可靠性评估方法
CN109922038A (zh) 一种用于电力终端的异常数据的检测方法及装置
CN108985632A (zh) 一种基于孤立森林算法的用电数据异常检测模型
CN108761377A (zh) 一种基于长短时记忆模型的电能计量装置异常检测方法
CN103995237A (zh) 一种卫星电源系统在线故障诊断方法
CN107423839A (zh) 一种基于深度学习的智能楼宇微网负荷预测的方法
CN104077493B (zh) 一种电力继电保护系统状态评估指标体系的构建方法
CN110515931A (zh) 一种基于随机森林算法的电容型设备缺陷预测方法
CN114723285B (zh) 一种电网设备安全性评估预测方法
CN107609774B (zh) 一种基于思维进化算法优化小波神经网络的光伏功率预测方法
CN107817404A (zh) 一种便携式计量自动化终端故障诊断装置及其诊断方法
CN106127242A (zh) 基于集成学习的年极端降水预测系统及其预测方法
CN102179722A (zh) 基于比例故障率模型的数控机床运行可靠性评估方法
CN105574589A (zh) 基于小生境遗传算法的变压器油色谱故障诊断方法
CN107292061A (zh) 一种数据驱动的流程工业复杂机电系统信息建模方法
CN109597396A (zh) 一种基于大数据流及迁移学习的配变故障在线诊断方法
CN106874676A (zh) 一种电能计量装置状态评估方法
CN110348633A (zh) 一种线性分类模型缺陷发生预测方法
CN114236332A (zh) 一种电力电缆绝缘状态判断方法及系统
CN104618133B (zh) 一种电网电压质量监测数据采集方法及系统
CN112508254B (zh) 变电站工程项目投资预测数据的确定方法
CN115586402B (zh) 配电网故障诊断与处理方法
CN106202805B (zh) 一种开关设备可靠性评价方法
CN107703913B (zh) 一种upfc故障诊断方法
CN114662394B (zh) 一种基于yolo v3的高压交流线路保护行为评价方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191018

RJ01 Rejection of invention patent application after publication