CN111178604A - 一种95598故障工单数预测方法 - Google Patents

一种95598故障工单数预测方法 Download PDF

Info

Publication number
CN111178604A
CN111178604A CN201911318221.2A CN201911318221A CN111178604A CN 111178604 A CN111178604 A CN 111178604A CN 201911318221 A CN201911318221 A CN 201911318221A CN 111178604 A CN111178604 A CN 111178604A
Authority
CN
China
Prior art keywords
samples
prediction
data sets
sampling
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911318221.2A
Other languages
English (en)
Inventor
王晓辉
李松琛
夏通
黎自若
周艳梅
付健艺
石哲方
朱好
吴雨涛
葛梦亮
孙研缤
杨嘹嘹
屈天天
叶吉超
程翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Lishui Power Supply Co of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201911318221.2A priority Critical patent/CN111178604A/zh
Publication of CN111178604A publication Critical patent/CN111178604A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种95598故障工单数预测方法,包括使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集;然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本;再利用新生成的这n个数据集对应训练n个预测模型;对预测模型进行筛选,剔除带有错误倾向性的预测模型;通过余下的预测模型共同集成投票决定最终待定的故障工单数。该技术方案利用混合采样技术,对采样倍率的选取方式进行改进,并将预测模型的集成学习与数据集的重构技术相结合,利用多个较优的采样倍率进行组合提升来达到更好的采样效果,对95598故障工单数据进行处理,构造故障工单预测模型,从而提高预测模型的预测性能。

Description

一种95598故障工单数预测方法
技术领域
本发明涉及一种电力话务工单分析方法,尤其涉及一种95598故障工单数预测方法。
背景技术
对于95598故障工单数预测是95598日常分析工作重点,亦是工作难点,历来都是依靠人工检阅数据、手工清理数据进行指标预测等方式,但是在现代信息化的社会,这种人工预测的方式已严重跟不上发展需求,分析模式单一、效率低下、及时性差且浪费人力资源。
中国专利文献CN109784471A公开了一种“基于多预测模型的95598话务工单预测与异动预警方法”。采用了LSTM神经网络深度学习技术,通过建立科学的指标异动预测模型,研究各项指标的数理关系,实现短期话务工单置信异动预测与智能预警应用。本技术方案更高效、更精益、更智能地从大量指标中取得指标分析预警,提高客服指标分析与质量管控的工作效率。弥补传统曲线拟合建模需要定期模型修正的不足,支持在线实时动态学习预测与预警分析,提升日常指标的监控预警、问题定位、趋势预测能力。
上述预测方法是建立在原始数据充足且平衡的前提下,但很多时候获得的原始数据是不平衡的,数据集的不平衡造成多数标准学习算法性能降低。因此,当处理复杂的不平衡数据集时,这些标准的预测算法得不到令人满意的分类效果。目前较多地利用采样法来重构不平衡数据集,采样法主要包括过采样法和欠采样法,两种方法各有优劣,当数据过度偏斜或者只有很少的少数类样本时,采用过采样和欠采样相结合的方法比较有效。在采样方法中所使用的采样倍率都是多数类样本数量与少数类样本数量的比值,目的在于通过采样使得各个类之间达到样本数量上的平衡,但由于每个不平衡数据集都有样本分布的独特性,因此没有一个固定的最佳采样倍率总能达到最好的采样效果。
发明内容
本发明主要解决原有的分析模式单一、效率低下且预测准确度对原始数据要求高的技术问题,提供一种95598故障工单数预测方法,利用混合采样技术,对采样倍率的选取方式进行改进,并将预测模型的集成学习与数据集的重构技术相结合,利用多个较优的采样倍率进行组合提升来达到更好的采样效果,对95598故障工单数据进行处理,构造故障工单预测模型,从而提高预测模型的预测性能。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步骤:
(1)使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集;
(2)然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本;
(3)再利用新生成的这n个数据集对应训练n个预测模型;
(4)对预测模型进行筛选,剔除带有错误倾向性的预测模型;
(5)通过余下的预测模型共同集成投票决定最终待定的故障工单数。
作为优选,所述的步骤(1)中的过采样法选用SMOTE法,所述SMOTE法为:采样最邻近算法,计算出每个少数类样本的K个近邻,从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,将新样本与原数据合成,产生新的训练集。
作为优选,所述的步骤(2)中的欠采样法选用单边选择法,所述单边选择法为:将多数类样本区分为噪声样本、边界样本和安全样本,把噪声样本和边界样本去掉,即分别剔除这若干个数据集中的部分冗余多数类样本。
作为优选,所述的步骤(1)中对过采样法(例如SMOTE法)选取若干种可能的采样倍率:
Figure BDA0002326433810000031
生成n+1个不同的数据集,其中n为选定参数。例如,n取10,则选取11种不同的倍率,分别是1:1.5,1:1.4,:1:1.3,…,1:0.9,1:0.8,1:0.5,每个采样倍率生成1个数据集,共产生11个数据集。
作为优选,所述的步骤(3)中的给定N个训练样本(xi,ti),训练样本x的隐层输出表示为一个行向量h(x)=[h1(x),h2(x),…,hL(x)]。设H为隐层输出矩阵,β为输出权,T为目标故障工单数矩阵,其中
Figure BDA0002326433810000032
计算βi=Hi T(HiHi T)-1Ti,
Figure BDA0002326433810000033
工单数oi=h(x)βi
Figure BDA0002326433810000034
作为优选,所述的步骤(4)中的筛选方式为:统计步骤(3)中n+1个模型预测的故障工单数,将故障工单数从小到大排列,剔除最高的10%和最低的10%对应的预测模型。避免带有错误倾向性的预测模型预测的故障工单数与真实故障工单数相差过大,影响最终的故障工单计算,导致最终预测结果不准确。
作为优选,所述的步骤(4)中的最终待定的故障工单数为余下的预测模型预测的故障工单数的平均值。
本发明的有益效果是:利用混合采样技术,对采样倍率的选取方式进行改进,并将预测模型的集成学习与数据集的重构技术相结合,利用多个较优的采样倍率进行组合提升来达到更好的采样效果,对95598故障工单数据进行处理,构造故障工单预测模型,从而提高预测模型的预测性能。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种95598故障工单数预测方法,包括以下步骤:
(1)使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集。过采样法选用SMOTE法:采样最邻近算法,计算出每个少数类样本的K个近邻,从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,将新样本与原数据合成,产生新的训练集。对过采样法(SMOTE法)选取若干种可能的采样倍率:
Figure BDA0002326433810000041
生成n+1个不同的数据集,其中n为选定参数。
(2)然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本。欠采样法选用单边选择法:将多数类样本区分为噪声样本、边界样本和安全样本,把噪声样本和边界样本去掉,即分别剔除这若干个数据集中的部分冗余多数类样本。
(3)再利用新生成的这n个数据集对应训练n个预测模型。给定N个训练样本(xi,ti),训练样本x的隐层输出表示为一个行向量h(x)=[h1(x),h2(x),…,hL(x)]。
设H为隐层输出矩阵,β为输出权,T为目标故障工单数矩阵,其中
Figure BDA0002326433810000051
计算βi=Hi T(HiHi T)-1Ti,
Figure BDA0002326433810000052
工单数oi=h(x)βi
Figure BDA0002326433810000053
(4)对预测模型进行筛选,剔除带有错误倾向性的预测模型。统计步骤(3)中n+1个模型预测的故障工单数,将故障工单数从小到大排列,剔除最高的10%和最低的10%对应的预测模型。
(5)通过余下的预测模型共同集成投票决定最终待定的故障工单数。求余下的预测模型预测的故障工单数的平均值,该平均值为最终待定的故障工单数。

Claims (7)

1.一种95598故障工单数预测方法,其特征在于,包括以下步骤:
(1)使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集;
(2)然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本;
(3)再利用新生成的这n个数据集对应训练n个预测模型;
(4)对预测模型进行筛选,剔除带有错误倾向性的预测模型;
(5)通过余下的预测模型共同集成投票决定最终待定的故障工单数。
2.根据权利要求1所述的一种95598故障工单数预测方法,其特征在于,所述步骤(1)中的过采样法选用SMOTE法,所述SMOTE法为:采样最邻近算法,计算出每个少数类样本的K个近邻,从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,将新样本与原数据合成,产生新的训练集。
3.根据权利要求1所述的一种95598故障工单数预测方法,其特征在于,所述步骤(2)中的欠采样法选用单边选择法,所述单边选择法为:将多数类样本区分为噪声样本、边界样本和安全样本,把噪声样本和边界样本去掉,即分别剔除这若干个数据集中的部分冗余多数类样本。
4.根据权利要求2所述的一种95598故障工单数预测方法,其特征在于,所述步骤(1)中对过采样法(例如SMOTE法)选取若干种可能的采样倍率:
Figure FDA0002326433800000011
生成n+1个不同的数据集,其中n为选定参数。
5.根据权利要求2所述的一种95598故障工单数预测方法,其特征在于,所述步骤(3)中的给定N个训练样本(xi,ti),训练样本x的隐层输出表示为一个行向量h(x)=[h1(x),h2(x),…,hL(x)]。设H为隐层输出矩阵,β为输出权,T为目标故障工单数矩阵,其中
Figure FDA0002326433800000021
计算
Figure FDA0002326433800000022
工单数
Figure FDA0002326433800000023
6.根据权利要求2所述的一种95598故障工单数预测方法,其特征在于,所述步骤(4)中的筛选方式为:统计步骤(3)中n+1个模型预测的故障工单数,将故障工单数从小到大排列,剔除最高的10%和最低的10%对应的预测模型。
7.根据权利要求2所述的一种95598故障工单数预测方法,其特征在于,所述步骤(5)中的最终待定的故障工单数为余下的预测模型预测的故障工单数的平均值。
CN201911318221.2A 2019-12-19 2019-12-19 一种95598故障工单数预测方法 Pending CN111178604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911318221.2A CN111178604A (zh) 2019-12-19 2019-12-19 一种95598故障工单数预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911318221.2A CN111178604A (zh) 2019-12-19 2019-12-19 一种95598故障工单数预测方法

Publications (1)

Publication Number Publication Date
CN111178604A true CN111178604A (zh) 2020-05-19

Family

ID=70653988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911318221.2A Pending CN111178604A (zh) 2019-12-19 2019-12-19 一种95598故障工单数预测方法

Country Status (1)

Country Link
CN (1) CN111178604A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258235A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种电力营销稽核新业务发现方法及系统
CN113935524A (zh) * 2021-10-09 2022-01-14 广西电网有限责任公司北海供电局 基于长短时记忆网络的工单数量预测方法
CN114118614A (zh) * 2021-12-06 2022-03-01 广西师范大学 基于混合采样的客户流失预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN107784325A (zh) * 2017-10-20 2018-03-09 河北工业大学 基于数据驱动增量融合的螺旋式故障诊断模型
CN108596199A (zh) * 2017-12-29 2018-09-28 北京交通大学 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN109784471A (zh) * 2018-10-24 2019-05-21 浙江华云信息科技有限公司 一种基于多预测模型的95598话务工单预测与异动预警方法
CN110334580A (zh) * 2019-05-04 2019-10-15 天津开发区精诺瀚海数据科技有限公司 基于集成增量的动态权重组合的设备故障分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503874A (zh) * 2014-12-29 2015-04-08 南京大学 一种云计算平台的硬盘故障预测方法
CN107784325A (zh) * 2017-10-20 2018-03-09 河北工业大学 基于数据驱动增量融合的螺旋式故障诊断模型
CN108596199A (zh) * 2017-12-29 2018-09-28 北京交通大学 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法
CN109784471A (zh) * 2018-10-24 2019-05-21 浙江华云信息科技有限公司 一种基于多预测模型的95598话务工单预测与异动预警方法
CN110334580A (zh) * 2019-05-04 2019-10-15 天津开发区精诺瀚海数据科技有限公司 基于集成增量的动态权重组合的设备故障分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石洪波等: "SMOTE过采样及其改进算法研究综述", 《智能系统学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112258235A (zh) * 2020-10-28 2021-01-22 国家电网有限公司客户服务中心 一种电力营销稽核新业务发现方法及系统
CN113935524A (zh) * 2021-10-09 2022-01-14 广西电网有限责任公司北海供电局 基于长短时记忆网络的工单数量预测方法
CN114118614A (zh) * 2021-12-06 2022-03-01 广西师范大学 基于混合采样的客户流失预测方法

Similar Documents

Publication Publication Date Title
CN108876054B (zh) 基于改进遗传算法优化极限学习机的短期电力负荷预测方法
CN111178604A (zh) 一种95598故障工单数预测方法
CN109492774B (zh) 一种基于深度学习的云资源调度方法
CN109389314B (zh) 一种基于最优近邻成分分析的质量软测量与监测方法
CN106980910B (zh) 中长期电力负荷测算系统及方法
CN107633337A (zh) 基于序关系分析和灰色关联理论节能技术综合评价方法
CN105024645B (zh) 一种基于矩阵进化的光伏阵列故障定位方法
CN111861023A (zh) 基于统计学的混合风电功率预测方法、装置
CN110210684A (zh) 粮食加工方案优化方法、装置、设备及存储介质
CN116127695A (zh) 一种基于综合性能评价的生产线构建方法及系统
CN111932081A (zh) 一种电力信息系统运行状态评估方法及系统
CN116883065A (zh) 商户风险预测方法及装置
CN112308298A (zh) 一种面向半导体生产线的多场景性能指标预测方法及系统
CN112215410A (zh) 基于改进深度学习的电力负荷预测方法
CN113327047B (zh) 基于模糊综合模型的电力营销服务渠道决策方法及系统
CN107664690A (zh) 一种预测变压器油中溶解气体浓度的方法
CN109829115B (zh) 搜索引擎关键词优化方法
CN116882776A (zh) 钢铁生产节能策略设置方法、装置、电子设备及存储介质
CN111798152A (zh) 一种门店智能管理方法和装置
CN111965442A (zh) 一种数字孪生环境下的能源互联网故障诊断方法及装置
CN114781685B (zh) 基于大数据挖掘技术的大用户用电负荷预测方法及系统
EP4033421A1 (en) Method and system for predicting a failure of a monitored entity
CN108960332A (zh) 一种基于多向主元素分析法的在线监测方法
CN111027017B (zh) 一种配电网管理状态综合评价系统
CN113821419A (zh) 一种基于svr和高斯函数的云服务器老化预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519