CN105608496B - 一种基于k - means聚类算法的配抢工单激增原因分析方法 - Google Patents

一种基于k - means聚类算法的配抢工单激增原因分析方法 Download PDF

Info

Publication number
CN105608496B
CN105608496B CN201510756163.7A CN201510756163A CN105608496B CN 105608496 B CN105608496 B CN 105608496B CN 201510756163 A CN201510756163 A CN 201510756163A CN 105608496 B CN105608496 B CN 105608496B
Authority
CN
China
Prior art keywords
preemption
allocation
work order
work
clustering algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510756163.7A
Other languages
English (en)
Other versions
CN105608496A (zh
Inventor
曹宇
崔慧军
张仪
耿艳
于永超
王国鹏
杨笑宇
林洋
徐家慧
庄博
徐忱
陈建华
张晓�
穆永铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Beijing Kedong Electric Power Control System Co Ltd
State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Beijing Kedong Electric Power Control System Co Ltd, State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201510756163.7A priority Critical patent/CN105608496B/zh
Publication of CN105608496A publication Critical patent/CN105608496A/zh
Application granted granted Critical
Publication of CN105608496B publication Critical patent/CN105608496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种k‑means聚类算法的配抢工单激增原因分析方法。所述方法步骤如下:(1)建立一个配抢工单与停电信息关键词矩阵;(2)通过k‑means聚类算法对上述矩阵进行聚类分组;(3)利用聚类后的配抢工单,研究每一组配抢工单所包含的关键词;(4)利用每一组的关键词列表,制作语义网络;(5)经上述步骤,得到一副基于关键词节点的结构图,在该图中,节点越靠上,对工单激增的影响越大,从而分析出工单激增的原因。有益效果如下:通过聚类算法,将工单按停电信息关键字分组,从而解决了以往工单分组单纯依赖人工经验的情况。利用语义网络,将工单出现原因分层,具有较普遍原因的关键字会被发现,从而确定工单激增的真正原因。

Description

一种基于k - means聚类算法的配抢工单激增原因分析方法
技术领域
本发明涉及一种k - means聚类算法的配抢工单激增原因分析方法。
背景技术
配网抢修作为配电生产常规性重要工作,提高抢修质量和效率对提升供电可靠性和优质服务水平具有重要的意义。
目前,配网故障抢修工作中,出现工单激增情况,主要依靠抢修人员工作经验判断激增原因。国内尚没有一套自动可靠地分析方法智能分析。随着电网规模的日趋扩大和复杂程度的不断增加,配网抢修工作亟需一套自动分析方法来满足对工单激增原因分析的要求。
为了改善目前配网抢修方面遇到的一些问题,本发明以配网抢修工单和停电上报信息为数据基础。通过k - means聚类算法,对激增的配抢工单进行分类分析,整个过程减少了工单激增分析对人工经验的依赖,提高了分析效率,节约了人力成本。
发明内容
本发明要解决的技术问题是:
1.抢修工单分组确定的问题。
如何从一批工单中将相同停电原因的工单查询出来。配抢工单中故障原因填写笼统,只确定了自身工单造成停电的原因,如短路,倒杆,击穿等。如何确定一批工单是否由一种原因造成的停电成为问题。
如一个小区变压器损坏,造成该小区全体停电,那么工单中检修地址包含本小区地址的工单将被分为一组,该小区的地址成为该批工单分组依据。
又如,某条线路电能质量出现故障,造成多个村电压低,电器设备不能正常运行,则工单中故障类型里包含电能质量低的工单,将被分组,作为分组依据。
分组依据的不同,将导致最终结果出现差异性。
2.不同组的抢修工单是否由一种原因造成。
在上述问题中,虽然最终将工单按不同类型分组,但同样不能最终确定工单激增的真正原因。
如,冀北多地同时下雨,唐山因雨势较大出现工单激增,廊坊等地虽然也有工单抢修,却是其他原因造成的激增,如果仅按大雨作为分组依据,则不能完全看出工单激增的真正原因。
本发明的技术方案如下:
一种基于k - means聚类算法的配抢工单激增原因分析方法,其特征在于,所述方法步骤如下:
(1)建立一个配抢工单与停电信息关键词矩阵,即:停电信息关键词作为矩阵的横轴,配抢工单作为坐标轴的纵轴,并对配抢工单中各列是否含有横轴中出现的关键字进行标示,形成一矩阵;
(2)通过k - means聚类算法对上述矩阵进行聚类分组;
(3)利用聚类后的配抢工单,研究每一组配抢工单所包含的关键词;
(4)利用每一组的关键词列表,制作语义网络;
(5)经上述步骤,得到一副基于关键词节点的结构图,在该图中,节点越靠上,对工单激增的影响越大,从而分析出工单激增的原因。
进一步的,所述步骤(1)中,停电信息关键词的列举精确到最小尺度。
进一步的,所述步骤(1)中,对配抢工单中各列是否含有横轴中出现的关键字进行标示,有则标示为1,无则标示为0,形成矩阵。
进一步的,所述步骤(2)聚类分组方法如下:每一个关键词的“0”或者“1”之间的值,就充当配抢工单的一个特征值,然后通过k - means聚类算法对配抢工单进行聚类,关键词的值就被用来把配抢工单分成“k”组。
本发明利用配网抢修工单信息和停电上报信息,通过 k - means聚类算法,形成激增原因网络,并最终完成工单激增原因分析,有益效果如下:
1.通过聚类算法,将工单按停电信息关键字分组,从而解决了
以往工单分组单纯依赖人工经验的情况。
2.利用语义网络,将工单出现原因分层,具有较普遍原因的关
键字会被发现,从而确定工单激增的真正原因。
3.增强用户体验。分析结果最终以图形的形式展现,方便用户
直观查看结果。
附图说明
图1 根据工单的文本范围内是否包含有关键词而用“0”或者“1”来表示的矩阵。
图2 利用已有的矩阵并通过k - means聚类算法对专利文献进行聚类。
图3 研究聚类后的配抢工单的每一组关键词。
图4 利用每一组关键词列表而形成语义网络。
具体实施方式
下面结合附图,对本发明的技术方案作进一步的阐述。
本发明的具体方法如下:
建立一个配抢工单与停电信息关键词矩阵,在这个矩阵中,停电信息关键词作为矩阵的横轴,列举要精确到最小尺度,目的是为最终的分析结果提供更合理的参考条件。配抢工单作为坐标轴的纵轴,要遍历工单中各列是否含有横轴中出现的关键字,如果有,则标示出来。当所有工单都被标示完成后,得到一张工单与停电关键字的对照图(见图1)。
通过k - means聚类算法对矩阵进行聚类分组。在上述所形成的矩阵中,每一个关键词的“0”或者“1”之间的值,就充当配抢工单的一个特征值。然后通过k - means聚类算法对配抢工单进行聚类,关键词的值就被用来把配抢工单分成“k”组(见图2)。
研究每一组配抢工单所包含的关键词利用聚类后的配抢工单,可以研究每一组配抢工单有什么关键词。例如,假设配抢工单“A”和“B”属于组1。而根据图1的矩阵,配抢工单“A”有关键词“a”和“c”,而配抢工单“B”有关键词“b”和“c”。然后,组1包含“a”、“b”和“c”三个关键词。如此类推,可以研究每一组的关键词(见图3)。
利用关键词形成语义网络利用每一组的关键词列表,可以制作一个语义网络。在图3 中,组1 有关键词“a”、“b”和“c”,而组2有关键词“c”和“d”,从而可以看出两组共有关键“c”。因此,两组之间的关系可以用三个节点来表示: ( a, b) , ( c)和( d) 。本文认为,共同节点的级别高于其他的节点,因此可以划出从( c)指向( a, b)和( d)的箭头。通过这样的方法,可以制作一个包含一个或者更多关键词的语义网络(如图4所示) 。
实际上,语义网络是基于前面所述的“通过K -means聚类算法对配抢工单进行聚类”以及“分析聚类后的配抢工单的关键词”等步骤的基础上而形成。因此,语义网络就是由k - means聚类算法所设定的组的数量来决定,因此会有很多个语义网络。有很多可执行程序可以完成k - means聚类算法。利用其中任何一个程序,都可以很容易地对逐渐增加的组的数量进行反复的聚类。而对于每一次聚类结果,都会重复“研究每一组关键词”和“形成一个语义网络”这两个步骤。最后,在“n”次循环后,得到“n”个语义网络。然而,因为本研究并不考虑当组的数量只有一个的情况,所以只有选择包含很多语义网络的一组。通常会选择最能说明关键词关系的一组。实际上,这是一个手工操作的过程。但是通常的情况是,随着选择语义网络中的组的数量的增加,就可以更好地解释语义网络关键词之间的关系。但是,组的数量太多,也会导致很难形成一个语义网络,因此必须要找到合适的组的构成。
经历过上述步骤,我们就能得到一副基于关键词节点的结构图。在该图中,节点越靠上,对工单激增的影响越大,从而分析出工单激增的原因。

Claims (4)

1. 一种基于k - means聚类算法的配抢工单激增原因分析方法,其特征在于,所述方法步骤如下:
(1)建立一个配抢工单与停电信息关键词矩阵,即:停电信息关键词作为矩阵的横轴,配抢工单作为坐标轴的纵轴,并对配抢工单中各列是否含有横轴中出现的关键字进行标示,形成一矩阵;
(2)通过k - means聚类算法对上述矩阵进行聚类分组;
(3)利用聚类后的配抢工单,研究每一组配抢工单所包含的关键词;
(4)利用每一组的关键词列表,制作语义网络;具体步骤包括:(41)提炼各组关键词作为节点;
(42)确定各组的共有关键词,将其作为共同节点;
(43)对各个节点进行分层操作,共同节点的层次级别高于其他节点;共有频率越高,层次级别越高;
(5)经上述步骤,得到一副基于关键词节点的结构图,在该图中,节点越靠上,对工单激增的影响越大,从而分析出工单激增的原因。
2.根据权利要求1所述的一种基于k - means聚类算法的配抢工单激增原因分析方法,其特征在于:
所述步骤(1)中,停电信息关键词的列举精确到最小尺度。
3. 根据权利要求1所述的一种基于k - means聚类算法的配抢工单激增原因分析方法,其特征在于,所述步骤(1)中,对配抢工单中各列是否含有横轴中出现的关键字进行标示,有则标示为1,无则标示为0,形成矩阵。
4. 根据权利要求3所述的一种基于k - means聚类算法的配抢工单激增原因分析方法,其特征在于,所述步骤(2)聚类分组方法如下:每一个关键词的“0”或者“1”之间的值,就充当配抢工单的一个特征值,然后通过k - means聚类算法对配抢工单进行聚类,关键词的值就被用来把配抢工单分成“k”组。
CN201510756163.7A 2015-11-09 2015-11-09 一种基于k - means聚类算法的配抢工单激增原因分析方法 Active CN105608496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510756163.7A CN105608496B (zh) 2015-11-09 2015-11-09 一种基于k - means聚类算法的配抢工单激增原因分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510756163.7A CN105608496B (zh) 2015-11-09 2015-11-09 一种基于k - means聚类算法的配抢工单激增原因分析方法

Publications (2)

Publication Number Publication Date
CN105608496A CN105608496A (zh) 2016-05-25
CN105608496B true CN105608496B (zh) 2021-07-27

Family

ID=55988420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510756163.7A Active CN105608496B (zh) 2015-11-09 2015-11-09 一种基于k - means聚类算法的配抢工单激增原因分析方法

Country Status (1)

Country Link
CN (1) CN105608496B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420313A (zh) * 2007-10-22 2009-04-29 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
CN101986297A (zh) * 2010-10-28 2011-03-16 浙江大学 基于链接聚类的无障碍网页浏览方法
CN102750277A (zh) * 2011-04-18 2012-10-24 腾讯科技(深圳)有限公司 获取信息的方法和装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207879B (zh) * 2012-01-17 2016-03-30 阿里巴巴集团控股有限公司 图像索引的生成方法及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101420313A (zh) * 2007-10-22 2009-04-29 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
CN101986297A (zh) * 2010-10-28 2011-03-16 浙江大学 基于链接聚类的无障碍网页浏览方法
CN102750277A (zh) * 2011-04-18 2012-10-24 腾讯科技(深圳)有限公司 获取信息的方法和装置
CN103136337A (zh) * 2013-02-01 2013-06-05 北京邮电大学 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于K-means-Laplacian 的技术演化;赵龙 等;《情 报 杂 志》;20150930;第34卷(第9期);第1-5页 *

Also Published As

Publication number Publication date
CN105608496A (zh) 2016-05-25

Similar Documents

Publication Publication Date Title
CN107918830B (zh) 一种基于大数据技术的配电网运行状态评估方法
CN106779171B (zh) 一种输电线路故障强送电智能决策方法
CN108446396B (zh) 一种基于改进型cim模型的电力数据处理方法
CN108595523B (zh) 设备数据检索模型构建方法、装置及计算机设备
CN103871004A (zh) 基于专家系统和d-s证据理论的配电网故障原因分析法
CN104636084A (zh) 一种对电力大数据进行合理高效分布存储的装置和方法
CN102426525A (zh) 一种多应用系统的全景建模方法
CN109710647A (zh) 一种基于关键字搜索的电网台账数据融合方法及装置
Kiran et al. Resource allocation optimization in LTE-A/5G networks using big data analytics
CN104954181A (zh) 一种分布式集群设备故障预警方法
CN107784393A (zh) 一种输电线路的缺陷预测方法及装置
CN112685393A (zh) 一种用于电力通信网的智能化告警归并方法及系统
CN113723810A (zh) 基于图数据库的电网建模方法
CN108667511A (zh) 基于深度探测的光传输网络运行风险预警方法及系统
CN107548087A (zh) 一种告警关联分析的方法及装置
CN106201835A (zh) 一种预警自动管理的实现方法置的方法
CN105654392A (zh) 一种基于聚类算法的设备家族性缺陷的分析方法
CN104240142A (zh) 一种智能变电站二次系统配置的版本差异的高可视化展示方法
CN105608496B (zh) 一种基于k - means聚类算法的配抢工单激增原因分析方法
CN109523422A (zh) 一种配电网故障影响因素的挖掘方法
CN103903195A (zh) 输变电设备在线监测数据告警监测方法
CN108052587B (zh) 基于决策树的大数据分析方法
Aguas et al. EDPD’S experience with data analytics and stochastic simulation methods for risk-controlled network planning
CN106934538B (zh) 一种基于数据血缘和基因比对的电网数据融合方法
Mattas et al. Agglomerative hierarchical clustering technique for partitioning patent dataset

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant