CN105608496B

CN105608496B - 一种基于k - means聚类算法的配抢工单激增原因分析方法

Info

Publication number: CN105608496B
Application number: CN201510756163.7A
Authority: CN
Inventors: 曹宇; 崔慧军; 张仪; 耿艳; 于永超; 王国鹏; 杨笑宇; 林洋; 徐家慧; 庄博; 徐忱; 陈建华; 张晓�; 穆永铮
Original assignee: State Grid Corp of China SGCC; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing Kedong Electric Power Control System Co Ltd; State Grid Jibei Electric Power Co Ltd
Priority date: 2015-11-09
Filing date: 2015-11-09
Publication date: 2021-07-27
Anticipated expiration: 2035-11-09
Also published as: CN105608496A

Abstract

本发明涉及一种k‑means聚类算法的配抢工单激增原因分析方法。所述方法步骤如下：（1）建立一个配抢工单与停电信息关键词矩阵；（2）通过k‑means聚类算法对上述矩阵进行聚类分组；（3）利用聚类后的配抢工单，研究每一组配抢工单所包含的关键词；（4）利用每一组的关键词列表，制作语义网络；（5）经上述步骤，得到一副基于关键词节点的结构图，在该图中，节点越靠上，对工单激增的影响越大，从而分析出工单激增的原因。有益效果如下：通过聚类算法，将工单按停电信息关键字分组，从而解决了以往工单分组单纯依赖人工经验的情况。利用语义网络，将工单出现原因分层，具有较普遍原因的关键字会被发现，从而确定工单激增的真正原因。

Description

一种基于k - means聚类算法的配抢工单激增原因分析方法

技术领域

本发明涉及一种k - means聚类算法的配抢工单激增原因分析方法。

背景技术

配网抢修作为配电生产常规性重要工作，提高抢修质量和效率对提升供电可靠性和优质服务水平具有重要的意义。

目前，配网故障抢修工作中，出现工单激增情况，主要依靠抢修人员工作经验判断激增原因。国内尚没有一套自动可靠地分析方法智能分析。随着电网规模的日趋扩大和复杂程度的不断增加，配网抢修工作亟需一套自动分析方法来满足对工单激增原因分析的要求。

为了改善目前配网抢修方面遇到的一些问题，本发明以配网抢修工单和停电上报信息为数据基础。通过k - means聚类算法，对激增的配抢工单进行分类分析，整个过程减少了工单激增分析对人工经验的依赖，提高了分析效率，节约了人力成本。

发明内容

本发明要解决的技术问题是：

1.抢修工单分组确定的问题。

如何从一批工单中将相同停电原因的工单查询出来。配抢工单中故障原因填写笼统，只确定了自身工单造成停电的原因，如短路，倒杆，击穿等。如何确定一批工单是否由一种原因造成的停电成为问题。

如一个小区变压器损坏，造成该小区全体停电，那么工单中检修地址包含本小区地址的工单将被分为一组，该小区的地址成为该批工单分组依据。

又如，某条线路电能质量出现故障，造成多个村电压低，电器设备不能正常运行，则工单中故障类型里包含电能质量低的工单，将被分组，作为分组依据。

分组依据的不同，将导致最终结果出现差异性。

2.不同组的抢修工单是否由一种原因造成。

在上述问题中，虽然最终将工单按不同类型分组，但同样不能最终确定工单激增的真正原因。

如，冀北多地同时下雨，唐山因雨势较大出现工单激增，廊坊等地虽然也有工单抢修，却是其他原因造成的激增，如果仅按大雨作为分组依据，则不能完全看出工单激增的真正原因。

本发明的技术方案如下：

一种基于k - means聚类算法的配抢工单激增原因分析方法，其特征在于，所述方法步骤如下：

（1）建立一个配抢工单与停电信息关键词矩阵，即：停电信息关键词作为矩阵的横轴，配抢工单作为坐标轴的纵轴，并对配抢工单中各列是否含有横轴中出现的关键字进行标示，形成一矩阵；

（2）通过k - means聚类算法对上述矩阵进行聚类分组；

（3）利用聚类后的配抢工单，研究每一组配抢工单所包含的关键词；

（4）利用每一组的关键词列表，制作语义网络；

（5）经上述步骤，得到一副基于关键词节点的结构图，在该图中，节点越靠上，对工单激增的影响越大，从而分析出工单激增的原因。

进一步的，所述步骤（1）中，停电信息关键词的列举精确到最小尺度。

进一步的，所述步骤（1）中，对配抢工单中各列是否含有横轴中出现的关键字进行标示，有则标示为1，无则标示为0，形成矩阵。

进一步的，所述步骤（2）聚类分组方法如下：每一个关键词的“0”或者“1”之间的值，就充当配抢工单的一个特征值，然后通过k - means聚类算法对配抢工单进行聚类，关键词的值就被用来把配抢工单分成“k”组。

本发明利用配网抢修工单信息和停电上报信息，通过 k - means聚类算法，形成激增原因网络，并最终完成工单激增原因分析，有益效果如下：

1.通过聚类算法，将工单按停电信息关键字分组，从而解决了

以往工单分组单纯依赖人工经验的情况。

2.利用语义网络，将工单出现原因分层，具有较普遍原因的关

键字会被发现，从而确定工单激增的真正原因。

3.增强用户体验。分析结果最终以图形的形式展现，方便用户

直观查看结果。

附图说明

图1 根据工单的文本范围内是否包含有关键词而用“0”或者“1”来表示的矩阵。

图2 利用已有的矩阵并通过k - means聚类算法对专利文献进行聚类。

图3 研究聚类后的配抢工单的每一组关键词。

图4 利用每一组关键词列表而形成语义网络。

具体实施方式

下面结合附图，对本发明的技术方案作进一步的阐述。

本发明的具体方法如下：

建立一个配抢工单与停电信息关键词矩阵，在这个矩阵中，停电信息关键词作为矩阵的横轴，列举要精确到最小尺度，目的是为最终的分析结果提供更合理的参考条件。配抢工单作为坐标轴的纵轴，要遍历工单中各列是否含有横轴中出现的关键字，如果有，则标示出来。当所有工单都被标示完成后，得到一张工单与停电关键字的对照图（见图1）。

通过k - means聚类算法对矩阵进行聚类分组。在上述所形成的矩阵中,每一个关键词的“0”或者“1”之间的值,就充当配抢工单的一个特征值。然后通过k - means聚类算法对配抢工单进行聚类,关键词的值就被用来把配抢工单分成“k”组（见图2）。

研究每一组配抢工单所包含的关键词利用聚类后的配抢工单,可以研究每一组配抢工单有什么关键词。例如,假设配抢工单“A”和“B”属于组1。而根据图1的矩阵,配抢工单“A”有关键词“a”和“c”,而配抢工单“B”有关键词“b”和“c”。然后,组1包含“a”、“b”和“c”三个关键词。如此类推,可以研究每一组的关键词(见图3)。

利用关键词形成语义网络利用每一组的关键词列表,可以制作一个语义网络。在图3 中,组1 有关键词“a”、“b”和“c”,而组2有关键词“c”和“d”,从而可以看出两组共有关键“c”。因此,两组之间的关系可以用三个节点来表示: ( a, b) , ( c)和( d) 。本文认为,共同节点的级别高于其他的节点,因此可以划出从( c)指向( a, b)和( d)的箭头。通过这样的方法,可以制作一个包含一个或者更多关键词的语义网络(如图4所示) 。

实际上,语义网络是基于前面所述的“通过K -means聚类算法对配抢工单进行聚类”以及“分析聚类后的配抢工单的关键词”等步骤的基础上而形成。因此,语义网络就是由k - means聚类算法所设定的组的数量来决定,因此会有很多个语义网络。有很多可执行程序可以完成k - means聚类算法。利用其中任何一个程序,都可以很容易地对逐渐增加的组的数量进行反复的聚类。而对于每一次聚类结果,都会重复“研究每一组关键词”和“形成一个语义网络”这两个步骤。最后,在“n”次循环后,得到“n”个语义网络。然而,因为本研究并不考虑当组的数量只有一个的情况,所以只有选择包含很多语义网络的一组。通常会选择最能说明关键词关系的一组。实际上,这是一个手工操作的过程。但是通常的情况是,随着选择语义网络中的组的数量的增加,就可以更好地解释语义网络关键词之间的关系。但是,组的数量太多,也会导致很难形成一个语义网络,因此必须要找到合适的组的构成。

经历过上述步骤，我们就能得到一副基于关键词节点的结构图。在该图中，节点越靠上，对工单激增的影响越大，从而分析出工单激增的原因。

Claims

1. 一种基于k - means聚类算法的配抢工单激增原因分析方法，其特征在于，所述方法步骤如下：

（2）通过k - means聚类算法对上述矩阵进行聚类分组；

（4）利用每一组的关键词列表，制作语义网络；具体步骤包括：（41）提炼各组关键词作为节点；

（42）确定各组的共有关键词，将其作为共同节点；

（43）对各个节点进行分层操作，共同节点的层次级别高于其他节点；共有频率越高，层次级别越高；

2.根据权利要求1所述的一种基于k - means聚类算法的配抢工单激增原因分析方法，其特征在于：

所述步骤（1）中，停电信息关键词的列举精确到最小尺度。

3. 根据权利要求1所述的一种基于k - means聚类算法的配抢工单激增原因分析方法，其特征在于，所述步骤（1）中，对配抢工单中各列是否含有横轴中出现的关键字进行标示，有则标示为1，无则标示为0，形成矩阵。

4. 根据权利要求3所述的一种基于k - means聚类算法的配抢工单激增原因分析方法，其特征在于，所述步骤（2）聚类分组方法如下：每一个关键词的“0”或者“1”之间的值，就充当配抢工单的一个特征值，然后通过k - means聚类算法对配抢工单进行聚类，关键词的值就被用来把配抢工单分成“k”组。