CN111178604A - 一种95598故障工单数预测方法 - Google Patents
一种95598故障工单数预测方法 Download PDFInfo
- Publication number
- CN111178604A CN111178604A CN201911318221.2A CN201911318221A CN111178604A CN 111178604 A CN111178604 A CN 111178604A CN 201911318221 A CN201911318221 A CN 201911318221A CN 111178604 A CN111178604 A CN 111178604A
- Authority
- CN
- China
- Prior art keywords
- samples
- prediction
- data sets
- sampling
- fault
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000005070 sampling Methods 0.000 claims abstract description 30
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000012216 screening Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000010187 selection method Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004458 analytical method Methods 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种95598故障工单数预测方法,包括使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集;然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本;再利用新生成的这n个数据集对应训练n个预测模型;对预测模型进行筛选,剔除带有错误倾向性的预测模型;通过余下的预测模型共同集成投票决定最终待定的故障工单数。该技术方案利用混合采样技术,对采样倍率的选取方式进行改进,并将预测模型的集成学习与数据集的重构技术相结合,利用多个较优的采样倍率进行组合提升来达到更好的采样效果,对95598故障工单数据进行处理,构造故障工单预测模型,从而提高预测模型的预测性能。
Description
技术领域
本发明涉及一种电力话务工单分析方法,尤其涉及一种95598故障工单数预测方法。
背景技术
对于95598故障工单数预测是95598日常分析工作重点,亦是工作难点,历来都是依靠人工检阅数据、手工清理数据进行指标预测等方式,但是在现代信息化的社会,这种人工预测的方式已严重跟不上发展需求,分析模式单一、效率低下、及时性差且浪费人力资源。
中国专利文献CN109784471A公开了一种“基于多预测模型的95598话务工单预测与异动预警方法”。采用了LSTM神经网络深度学习技术,通过建立科学的指标异动预测模型,研究各项指标的数理关系,实现短期话务工单置信异动预测与智能预警应用。本技术方案更高效、更精益、更智能地从大量指标中取得指标分析预警,提高客服指标分析与质量管控的工作效率。弥补传统曲线拟合建模需要定期模型修正的不足,支持在线实时动态学习预测与预警分析,提升日常指标的监控预警、问题定位、趋势预测能力。
上述预测方法是建立在原始数据充足且平衡的前提下,但很多时候获得的原始数据是不平衡的,数据集的不平衡造成多数标准学习算法性能降低。因此,当处理复杂的不平衡数据集时,这些标准的预测算法得不到令人满意的分类效果。目前较多地利用采样法来重构不平衡数据集,采样法主要包括过采样法和欠采样法,两种方法各有优劣,当数据过度偏斜或者只有很少的少数类样本时,采用过采样和欠采样相结合的方法比较有效。在采样方法中所使用的采样倍率都是多数类样本数量与少数类样本数量的比值,目的在于通过采样使得各个类之间达到样本数量上的平衡,但由于每个不平衡数据集都有样本分布的独特性,因此没有一个固定的最佳采样倍率总能达到最好的采样效果。
发明内容
本发明主要解决原有的分析模式单一、效率低下且预测准确度对原始数据要求高的技术问题,提供一种95598故障工单数预测方法,利用混合采样技术,对采样倍率的选取方式进行改进,并将预测模型的集成学习与数据集的重构技术相结合,利用多个较优的采样倍率进行组合提升来达到更好的采样效果,对95598故障工单数据进行处理,构造故障工单预测模型,从而提高预测模型的预测性能。
本发明的上述技术问题主要是通过下述技术方案得以解决的:本发明包括以下步骤:
(1)使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集;
(2)然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本;
(3)再利用新生成的这n个数据集对应训练n个预测模型;
(4)对预测模型进行筛选,剔除带有错误倾向性的预测模型;
(5)通过余下的预测模型共同集成投票决定最终待定的故障工单数。
作为优选,所述的步骤(1)中的过采样法选用SMOTE法,所述SMOTE法为:采样最邻近算法,计算出每个少数类样本的K个近邻,从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,将新样本与原数据合成,产生新的训练集。
作为优选,所述的步骤(2)中的欠采样法选用单边选择法,所述单边选择法为:将多数类样本区分为噪声样本、边界样本和安全样本,把噪声样本和边界样本去掉,即分别剔除这若干个数据集中的部分冗余多数类样本。
作为优选,所述的步骤(1)中对过采样法(例如SMOTE法)选取若干种可能的采样倍率:
生成n+1个不同的数据集,其中n为选定参数。例如,n取10,则选取11种不同的倍率,分别是1:1.5,1:1.4,:1:1.3,…,1:0.9,1:0.8,1:0.5,每个采样倍率生成1个数据集,共产生11个数据集。
作为优选,所述的步骤(3)中的给定N个训练样本(xi,ti),训练样本x的隐层输出表示为一个行向量h(x)=[h1(x),h2(x),…,hL(x)]。设H为隐层输出矩阵,β为输出权,T为目标故障工单数矩阵,其中
作为优选,所述的步骤(4)中的筛选方式为:统计步骤(3)中n+1个模型预测的故障工单数,将故障工单数从小到大排列,剔除最高的10%和最低的10%对应的预测模型。避免带有错误倾向性的预测模型预测的故障工单数与真实故障工单数相差过大,影响最终的故障工单计算,导致最终预测结果不准确。
作为优选,所述的步骤(4)中的最终待定的故障工单数为余下的预测模型预测的故障工单数的平均值。
本发明的有益效果是:利用混合采样技术,对采样倍率的选取方式进行改进,并将预测模型的集成学习与数据集的重构技术相结合,利用多个较优的采样倍率进行组合提升来达到更好的采样效果,对95598故障工单数据进行处理,构造故障工单预测模型,从而提高预测模型的预测性能。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
实施例:本实施例的一种95598故障工单数预测方法,包括以下步骤:
(1)使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集。过采样法选用SMOTE法:采样最邻近算法,计算出每个少数类样本的K个近邻,从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,将新样本与原数据合成,产生新的训练集。对过采样法(SMOTE法)选取若干种可能的采样倍率:
生成n+1个不同的数据集,其中n为选定参数。
(2)然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本。欠采样法选用单边选择法:将多数类样本区分为噪声样本、边界样本和安全样本,把噪声样本和边界样本去掉,即分别剔除这若干个数据集中的部分冗余多数类样本。
(3)再利用新生成的这n个数据集对应训练n个预测模型。给定N个训练样本(xi,ti),训练样本x的隐层输出表示为一个行向量h(x)=[h1(x),h2(x),…,hL(x)]。
设H为隐层输出矩阵,β为输出权,T为目标故障工单数矩阵,其中
(4)对预测模型进行筛选,剔除带有错误倾向性的预测模型。统计步骤(3)中n+1个模型预测的故障工单数,将故障工单数从小到大排列,剔除最高的10%和最低的10%对应的预测模型。
(5)通过余下的预测模型共同集成投票决定最终待定的故障工单数。求余下的预测模型预测的故障工单数的平均值,该平均值为最终待定的故障工单数。
Claims (7)
1.一种95598故障工单数预测方法,其特征在于,包括以下步骤:
(1)使用过采样法选取若干种可能的采样倍率以生成n个不同的数据集;
(2)然后利用欠采样法分别剔除这n个数据集中的部分冗余多数类样本;
(3)再利用新生成的这n个数据集对应训练n个预测模型;
(4)对预测模型进行筛选,剔除带有错误倾向性的预测模型;
(5)通过余下的预测模型共同集成投票决定最终待定的故障工单数。
2.根据权利要求1所述的一种95598故障工单数预测方法,其特征在于,所述步骤(1)中的过采样法选用SMOTE法,所述SMOTE法为:采样最邻近算法,计算出每个少数类样本的K个近邻,从K个近邻中随机挑选N个样本进行随机线性插值,构造新的少数类样本,将新样本与原数据合成,产生新的训练集。
3.根据权利要求1所述的一种95598故障工单数预测方法,其特征在于,所述步骤(2)中的欠采样法选用单边选择法,所述单边选择法为:将多数类样本区分为噪声样本、边界样本和安全样本,把噪声样本和边界样本去掉,即分别剔除这若干个数据集中的部分冗余多数类样本。
6.根据权利要求2所述的一种95598故障工单数预测方法,其特征在于,所述步骤(4)中的筛选方式为:统计步骤(3)中n+1个模型预测的故障工单数,将故障工单数从小到大排列,剔除最高的10%和最低的10%对应的预测模型。
7.根据权利要求2所述的一种95598故障工单数预测方法,其特征在于,所述步骤(5)中的最终待定的故障工单数为余下的预测模型预测的故障工单数的平均值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318221.2A CN111178604A (zh) | 2019-12-19 | 2019-12-19 | 一种95598故障工单数预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318221.2A CN111178604A (zh) | 2019-12-19 | 2019-12-19 | 一种95598故障工单数预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111178604A true CN111178604A (zh) | 2020-05-19 |
Family
ID=70653988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911318221.2A Pending CN111178604A (zh) | 2019-12-19 | 2019-12-19 | 一种95598故障工单数预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178604A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN113935524A (zh) * | 2021-10-09 | 2022-01-14 | 广西电网有限责任公司北海供电局 | 基于长短时记忆网络的工单数量预测方法 |
CN114118614A (zh) * | 2021-12-06 | 2022-03-01 | 广西师范大学 | 基于混合采样的客户流失预测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
CN107784325A (zh) * | 2017-10-20 | 2018-03-09 | 河北工业大学 | 基于数据驱动增量融合的螺旋式故障诊断模型 |
CN108596199A (zh) * | 2017-12-29 | 2018-09-28 | 北京交通大学 | 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法 |
CN109784471A (zh) * | 2018-10-24 | 2019-05-21 | 浙江华云信息科技有限公司 | 一种基于多预测模型的95598话务工单预测与异动预警方法 |
CN110334580A (zh) * | 2019-05-04 | 2019-10-15 | 天津开发区精诺瀚海数据科技有限公司 | 基于集成增量的动态权重组合的设备故障分类方法 |
-
2019
- 2019-12-19 CN CN201911318221.2A patent/CN111178604A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104503874A (zh) * | 2014-12-29 | 2015-04-08 | 南京大学 | 一种云计算平台的硬盘故障预测方法 |
CN107784325A (zh) * | 2017-10-20 | 2018-03-09 | 河北工业大学 | 基于数据驱动增量融合的螺旋式故障诊断模型 |
CN108596199A (zh) * | 2017-12-29 | 2018-09-28 | 北京交通大学 | 基于EasyEnsemble算法和SMOTE算法的不均衡数据分类方法 |
CN109784471A (zh) * | 2018-10-24 | 2019-05-21 | 浙江华云信息科技有限公司 | 一种基于多预测模型的95598话务工单预测与异动预警方法 |
CN110334580A (zh) * | 2019-05-04 | 2019-10-15 | 天津开发区精诺瀚海数据科技有限公司 | 基于集成增量的动态权重组合的设备故障分类方法 |
Non-Patent Citations (1)
Title |
---|
石洪波等: "SMOTE过采样及其改进算法研究综述", 《智能系统学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN113935524A (zh) * | 2021-10-09 | 2022-01-14 | 广西电网有限责任公司北海供电局 | 基于长短时记忆网络的工单数量预测方法 |
CN114118614A (zh) * | 2021-12-06 | 2022-03-01 | 广西师范大学 | 基于混合采样的客户流失预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876054B (zh) | 基于改进遗传算法优化极限学习机的短期电力负荷预测方法 | |
CN111178604A (zh) | 一种95598故障工单数预测方法 | |
CN109492774B (zh) | 一种基于深度学习的云资源调度方法 | |
CN109389314B (zh) | 一种基于最优近邻成分分析的质量软测量与监测方法 | |
CN106980910B (zh) | 中长期电力负荷测算系统及方法 | |
CN107633337A (zh) | 基于序关系分析和灰色关联理论节能技术综合评价方法 | |
CN105024645B (zh) | 一种基于矩阵进化的光伏阵列故障定位方法 | |
CN111861023A (zh) | 基于统计学的混合风电功率预测方法、装置 | |
CN110210684A (zh) | 粮食加工方案优化方法、装置、设备及存储介质 | |
CN116127695A (zh) | 一种基于综合性能评价的生产线构建方法及系统 | |
CN111932081A (zh) | 一种电力信息系统运行状态评估方法及系统 | |
CN116883065A (zh) | 商户风险预测方法及装置 | |
CN112308298A (zh) | 一种面向半导体生产线的多场景性能指标预测方法及系统 | |
CN112215410A (zh) | 基于改进深度学习的电力负荷预测方法 | |
CN113327047B (zh) | 基于模糊综合模型的电力营销服务渠道决策方法及系统 | |
CN107664690A (zh) | 一种预测变压器油中溶解气体浓度的方法 | |
CN109829115B (zh) | 搜索引擎关键词优化方法 | |
CN116882776A (zh) | 钢铁生产节能策略设置方法、装置、电子设备及存储介质 | |
CN111798152A (zh) | 一种门店智能管理方法和装置 | |
CN111965442A (zh) | 一种数字孪生环境下的能源互联网故障诊断方法及装置 | |
CN114781685B (zh) | 基于大数据挖掘技术的大用户用电负荷预测方法及系统 | |
EP4033421A1 (en) | Method and system for predicting a failure of a monitored entity | |
CN108960332A (zh) | 一种基于多向主元素分析法的在线监测方法 | |
CN111027017B (zh) | 一种配电网管理状态综合评价系统 | |
CN113821419A (zh) | 一种基于svr和高斯函数的云服务器老化预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |