CN109871975B - 基于数据挖掘的故障抢修处理时长预测方法 - Google Patents
基于数据挖掘的故障抢修处理时长预测方法 Download PDFInfo
- Publication number
- CN109871975B CN109871975B CN201811429905.5A CN201811429905A CN109871975B CN 109871975 B CN109871975 B CN 109871975B CN 201811429905 A CN201811429905 A CN 201811429905A CN 109871975 B CN109871975 B CN 109871975B
- Authority
- CN
- China
- Prior art keywords
- fault
- aid repair
- data
- prediction model
- repair processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明涉及大数据领域,尤其涉及基于数据挖掘的故障抢修处理时长预测方法,包括以下步骤:获取故障抢修作业数据;利用聚类方法对故障抢修作业数据进行聚类;剔除不合理数据;对剔除不合理数据的故障抢修作业数据进行特征工程,并制成样本数据;将样本数据加载至Xgboost预测模型,对多元回归预测模型进行训练与测试处理;通过多元回归预测模型,根据故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气获得故障抢修处理时长预测结果。本发明以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,通过Xgboost预测模型以及多元回归预测模型对故障抢修处理时长进行预测。
Description
技术领域
本发明涉及大数据领域,尤其涉及基于数据挖掘的故障抢修处理时长预测方法。
背景技术
故障停电受地理环境、气象条件、故障类型、设备类型等因素影响,因此在不同因素的影响下,故障抢修处理时长也存在较大差异。
现阶段,大多是抢修人员凭个人的经验根据地理环境、气象条件、故障类型、设备类型等因素对故障抢修处理时长进行大致的估计,该估计结果与实际故障抢修处理时长相比经常会有较大的出入,不能对故障抢修处理时长进行准确的预测。
发明内容
为解决上述问题,本发明提出基于数据挖掘的故障抢修处理时长预测方法,通过Xgboost预测模型以及多元回归预测模型对故障抢修时长进行预测。
基于数据挖掘的故障抢修处理时长预测方法,包括以下步骤:
获取故障抢修作业数据;
以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据进行聚类;
对每个类别下故障抢修作业数据中的故障抢修处理时长进行统计分析,剔除不合理数据;
对剔除不合理数据的故障抢修作业数据进行特征工程,并制成样本数据;
基于处理后的建立多元回归预测模型,将样本数据加载至Xgboost预测模型,对多元回归预测模型进行训练与测试处理;
通过多元回归预测模型,根据故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气获得故障抢修处理时长预测结果。
优选的,在所述以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据进行聚类之后,还包括:
使用误差平方和准则函数计算E值对聚类性能进行评价,若E值大于设定阈值,则以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据再次进行聚类,直到E值小于等于设定阈值。
优选的,所述使用误差平方和准则函数计算E值来评价聚类性能包括:
设定故障抢修作业数据集X,假设X包含k个聚类子集X1,X2,…Xk;各个聚类子集中的样本数量分别为n1,n2,…,nk;各个聚类子集的聚类中心分别为m1,m2,…,mk,误差平方和准则函数公式为:
其中,E表示所有样本数据的平方误差的总和;p表示空间中的样本数据;mi表示聚类中心。
优选的,所述对每个类别下故障抢修作业数据中的故障抢修处理时长进行统计分析,剔除不合理数据包括:
利用莱茵达准则对每个类别下故障抢修作业数据中的故障抢修处理时长进行判断和识别,将超过置信概率的故障抢修作业数据作为不合理数据剔除。
优选的,所述多元回归预测模型为:
T=a*故障类型+b*故障原因+c*故障地点地理位置+d*设备类型+e*发生故障时天气+k;
其中,T表示故障抢修处理时长预测值;a表示故障类型的回归系数;b表示故障原因的回归系数;c表示故障地点地理位置的回归系数;d表示设备类型的回归系数;e表示发生故障时天气的回归系数;k表示常量。
优选的,所述建立多元回归预测模型,将样本数据加载至Xgboost预测模型,对多元回归预测模型训练与测试之后还包括:
通过均方根误差RMSE和判定系数R2对多元回归预测模型的性能进行评价,并根据评价结果对多元回归预测模型进一步调整。
优选的,所述均方根误差RMSE的计算公式为:
其中,p表示故障抢修处理时长的个数;dp表示故障抢修处理时长实际值;yp表示故障抢修处理时长预测值。
优选的,所述判定系数R2的计算公式为:
通过使用本发明,可以实现以下效果:以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,通过Xgboost预测模型以及多元回归预测模型对故障抢修处理时长进行预测。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例的流程示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
本发明的基本思想是以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,通过Xgboost预测模型以及多元回归预测模型对故障抢修处理时长进行预测。
结合附图1,本发明实施例提出基于数据挖掘的故障抢修处理时长预测方法,包括以下步骤:
步骤1,获取故障抢修作业数据;
选取电能质量在线监测系统历史四年(2014年-2017年)的故障抢修数据。电能质量在线监测系统存储有历史故障抢修数据,在本实施例中选取2014年-2017年的故障抢修数据作为总的样本。同时,故障抢修数据包括故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气。
步骤2,以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据进行聚类;
聚类分析又称群分析,它是研究样本分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
在本实施例中采用k-means算法对故障抢修作业数据进行分类。k-means算法的工作过程说明如下:
首先从X个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;
然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。
步骤3,使用误差平方和准则函数计算E值对聚类性能进行评价,若E值大于设定阈值,则以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据再次进行聚类,直到E值小于等于设定阈值。
设定故障抢修作业数据集X,假设X包含k个聚类子集X1,X2,…Xk;各个聚类子集中的样本数量分别为n1,n2,…,nk;各个聚类子集的聚类中心分别为m1,m2,…,mk,误差平方和准则函数公式为:
其中,E表示所有样本数据的平方误差的总和;p表示空间中的样本数据;mi表示聚类中心。
这个准则函数使生成的结果簇尽可能地紧凑和独立。显然,若E值越大,说明误差越大,聚类结果越不好。因此,我们应该寻求使E最小的聚类结果,即在误差平方和准则下的最优结果。
步骤4,对每个类别下故障抢修作业数据中的故障抢修处理时长进行统计分析,剔除不合理数据;
利用莱茵达准则(3σ准则)对每个类别下故障抢修作业数据中故障抢修处理时长进行判断和识别,将超过置信概率的故障抢修作业数据作为不合理数据剔除。
每个类别下的故障抢修处理时长近似正态分布,且故障抢修作业数据样本大,因此负荷莱茵达准则(3σ准则)的要求。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴。3σ原则为:故障抢修处理时长分布在(μ-σ,μ+σ)中的概率为0.6827;故障抢修处理时长分布在(μ-2σ,μ+2σ)中的概率为0.9545;故障抢修处理时长分布在(μ-3σ,μ+3σ)中的概率为0.9973。将超出(μ-3σ,μ+3σ)区间范围的故障抢修作业数据作为不合理数据。
步骤5,对剔除不合理数据的故障抢修作业数据进行特征工程,并制成样本数据;
特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。
特征工程包括:特征构建、特征提取、特征选择三个部分。特征构建是指从剔除不合理数据的故障抢修作业数据中人工的找出一些具有物理意义的特征。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。
步骤6,基于处理后的建立多元回归预测模型,将样本数据加载至Xgboost预测模型,对多元回归预测模型进行训练与测试处理;
多元回归预测模型为:
T=a*故障类型+b*故障原因+c*故障地点地理位置+d*设备类型+e*发生故障时天气+k;
其中,T表示故障抢修处理时长预测值;a表示故障类型的回归系数;b表示故障原因的回归系数;c表示故障地点地理位置的回归系数;d表示设备类型的回归系数;e表示发生故障时天气的回归系数;k表示常量。
Xgboost预测模型是Extreme Gradient Boosting的简称,该预测模型兼具线性模型求解器和树学习算法。在本实施例中,利用XGBoost预测模型迭代训练得到回归系数a、b、c、d、e。
步骤7,通过均方根误差RMSE和判定系数R2对多元回归预测模型的性能进行评价,并根据评价结果对多元回归预测模型进一步调整;
均方根误差RMSE的计算公式为:
其中,p表示故障抢修处理时长的个数;dp表示故障抢修处理时长实际值;yp表示故障抢修处理时长预测值。
均方根误差RMSE用来衡量预测值同实质值之间的偏差,均方根误差RMSE越接近于0表示模型的预测精度越高。当均方根误差RMSE大于设定阈值时,则需要对多元回归预测模型中的回归系数a、b、c、d、e进一步调整。
判定系数R2的计算公式为:
决定系数的大小决定了相关的密切程度,因此通过计算决定系数即可判断故障抢修处理时长实际值与故障抢修处理时长预测值的相关性。判定系数R2越趋近于1表示Xgboost预测模型的拟合程度越好,准确度越高。若判定系数R2小于设定阈值,则需要对多元回归预测模型中的回归系数a、b、c、d、e进一步调整。
步骤8,通过多元回归预测模型,根据故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气获得故障抢修时长预测结果。
将回归系数a、b、c、d、e代入训练好的多元回归预测模型即可得到故障抢修处理时长预测值T。根据故障抢修处理时长预测值T,并通过短信平台、电话等方式及时向停电用户告知预计恢复供电时间,可以有效提升用户服务满意度,降低用户投诉风险。同时,可对故障抢修作业过程进行监控,从而可对超时长的故障抢修作业进行及时干预。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (8)
1.基于数据挖掘的故障抢修处理时长预测方法,其特征在于,包括以下步骤:
获取故障抢修作业数据;
以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据进行聚类;
对每个类别下故障抢修作业数据中的故障抢修处理时长进行统计分析,剔除不合理数据;
对剔除不合理数据的故障抢修作业数据进行特征工程,并制成样本数据;
基于处理后的建立多元回归预测模型,将样本数据加载至Xgboost预测模型,利用XGBoost预测模型迭代训练得到多元回归预测模型的回归系数,对多元回归预测模型进行训练与测试处理;
通过多元回归预测模型,根据故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气获得故障抢修处理时长预测结果。
2.根据权利要求1所述的基于数据挖掘的故障抢修处理时长预测方法,其特征在于,在所述以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据进行聚类之后,还包括:
使用误差平方和准则函数计算E值对聚类性能进行评价,若E值大于设定阈值,则以故障抢修作业数据中的故障类型、故障原因、故障地理位置特征、设备类型、发生故障时天气为依据,利用聚类方法对故障抢修作业数据再次进行聚类,直到E值小于等于设定阈值,E表示所有样本数据的平方误差的总和。
4.根据权利要求1所述的基于数据挖掘的故障抢修处理时长预测方法,其特征在于,所述对每个类别下故障抢修作业数据中的故障抢修处理时长进行统计分析,剔除不合理数据包括:
利用莱茵达准则对每个类别下故障抢修作业数据中的故障抢修处理时长进行判断和识别,将超过置信概率的故障抢修作业数据作为不合理数据剔除。
5.根据权利要求1所述的基于数据挖掘的故障抢修处理时长预测方法,其特征在于,所述多元回归预测模型为:
T=a*故障类型+b*故障原因+c*故障地点地理位置+d*设备类型+e*发生故障时天气+k;
其中,T表示故障抢修处理时长预测值;a表示故障类型的回归系数;b表示故障原因的回归系数;c表示故障地点地理位置的回归系数;d表示设备类型的回归系数;e表示发生故障时天气的回归系数;k表示常量。
6.根据权利要求1所述的基于数据挖掘的故障抢修处理时长预测方法,其特征在于,所述建立多元回归预测模型,将样本数据加载至Xgboost预测模型,对多元回归预测模型训练与测试之后还包括:
通过均方根误差RMSE和判定系数R2对多元回归预测模型的性能进行评价,并根据评价结果对多元回归预测模型进一步调整。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811429905.5A CN109871975B (zh) | 2018-11-28 | 2018-11-28 | 基于数据挖掘的故障抢修处理时长预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811429905.5A CN109871975B (zh) | 2018-11-28 | 2018-11-28 | 基于数据挖掘的故障抢修处理时长预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109871975A CN109871975A (zh) | 2019-06-11 |
CN109871975B true CN109871975B (zh) | 2021-04-09 |
Family
ID=66917016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811429905.5A Active CN109871975B (zh) | 2018-11-28 | 2018-11-28 | 基于数据挖掘的故障抢修处理时长预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109871975B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110648009A (zh) * | 2019-07-24 | 2020-01-03 | 国网浙江省电力有限公司湖州供电公司 | 一种基于数据挖掘的抢修服务预测分析方法 |
CN112418474A (zh) * | 2019-08-20 | 2021-02-26 | 北京国双科技有限公司 | 一种故障处理期限的预测方法及装置 |
CN110738349B (zh) * | 2019-09-05 | 2023-07-11 | 国网浙江省电力有限公司杭州供电公司 | 基于多模型融合的电网故障抢修时长预测方法 |
CN111144617B (zh) * | 2019-12-02 | 2023-10-31 | 秒针信息技术有限公司 | 一种确定模型的方法及装置 |
CN111667108A (zh) * | 2020-05-29 | 2020-09-15 | 国网河北省电力有限公司电力科学研究院 | 一种配网抢修时长预测方法 |
CN112561129B (zh) * | 2020-11-27 | 2022-09-02 | 广东电网有限责任公司肇庆供电局 | 一种基于配电线路故障信息的抢修物资调配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701596A (zh) * | 2015-12-24 | 2016-06-22 | 国家电网公司 | 一种基于大数据技术的配网抢修精益化方法以及管理系统 |
CN107016571A (zh) * | 2017-03-31 | 2017-08-04 | 北京百分点信息科技有限公司 | 数据预测方法及其系统 |
CN107331132A (zh) * | 2017-08-04 | 2017-11-07 | 深圳航天智慧城市系统技术研究院有限公司 | 一种城市火灾隐患动态预测监控的方法及系统 |
CN107730006A (zh) * | 2017-09-13 | 2018-02-23 | 重庆电子工程职业学院 | 一种基于可再生能源大数据深度学习的建筑近零能耗控制器 |
CN107862375A (zh) * | 2017-10-30 | 2018-03-30 | 北京计算机技术及应用研究所 | 一种两阶段的设备故障诊断方法 |
-
2018
- 2018-11-28 CN CN201811429905.5A patent/CN109871975B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701596A (zh) * | 2015-12-24 | 2016-06-22 | 国家电网公司 | 一种基于大数据技术的配网抢修精益化方法以及管理系统 |
CN107016571A (zh) * | 2017-03-31 | 2017-08-04 | 北京百分点信息科技有限公司 | 数据预测方法及其系统 |
CN107331132A (zh) * | 2017-08-04 | 2017-11-07 | 深圳航天智慧城市系统技术研究院有限公司 | 一种城市火灾隐患动态预测监控的方法及系统 |
CN107730006A (zh) * | 2017-09-13 | 2018-02-23 | 重庆电子工程职业学院 | 一种基于可再生能源大数据深度学习的建筑近零能耗控制器 |
CN107862375A (zh) * | 2017-10-30 | 2018-03-30 | 北京计算机技术及应用研究所 | 一种两阶段的设备故障诊断方法 |
Non-Patent Citations (1)
Title |
---|
《Xgboost在滚动轴承故障诊断中的应用》;张钰;《噪声与振动控制》;20170831;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109871975A (zh) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871975B (zh) | 基于数据挖掘的故障抢修处理时长预测方法 | |
WO2021109578A1 (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
CN106980905B (zh) | 配电网供电可靠性预测方法和系统 | |
US20190138926A1 (en) | Degradation modeling and lifetime prediction method considering effective shocks | |
CN107067100B (zh) | 风电功率异常数据辨识方法及辨识装置 | |
CN112529234A (zh) | 基于深度学习的地表水质预测方法 | |
CN111709931B (zh) | 一种耐张线夹缺陷检测识别报告自动获取方法及系统 | |
CN110276385B (zh) | 基于相似性的机械部件剩余使用寿命预测方法 | |
CN109299208B (zh) | 一种台风灾害下输电杆塔智能可视化风险评估方法 | |
CN116797404A (zh) | 基于大数据和数据处理的智能建筑运维监管系统 | |
CN116737510B (zh) | 一种基于数据分析的键盘智能监测方法及系统 | |
Dong | Combining unsupervised and supervised learning for asset class failure prediction in power systems | |
CN115130578A (zh) | 一种基于增量式粗糙聚类的配电设备状态在线评估方法 | |
CN115204536A (zh) | 楼宇设备故障预测方法、装置、设备及存储介质 | |
CN111598457A (zh) | 一种电力无线网络质量的确定方法及装置 | |
CN108090635B (zh) | 一种基于聚类分类的路用性能预测方法 | |
CN114548493A (zh) | 一种电能表电流过载预测方法与系统 | |
CN116862081B (zh) | 一种污染治理设备运维方法及系统 | |
CN113112067A (zh) | 一种tfri权重计算模型的建立方法 | |
CN113177857A (zh) | 一种基于台风灾害预估的资源弹性调配方法 | |
CN117131437A (zh) | 发动机振动故障隔离方法 | |
CN115345343A (zh) | 一种供水管网浊度的预测方法及预测装置 | |
CN113821419A (zh) | 一种基于svr和高斯函数的云服务器老化预测方法 | |
CN110532512B (zh) | 基于大数据分析的设备失效模式诊断特征参量分析方法 | |
CN112613191A (zh) | 电缆健康状态评估方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |