CN111475601A

CN111475601A - 一种电力工单热点主题获取方法及装置

Info

Publication number: CN111475601A
Application number: CN202010274867.1A
Authority: CN
Inventors: 尹春林; 朱华; 潘侃; 杨政; 刘柱揆
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2020-07-31

Abstract

本申请公开的一种电力工单热点主题获取方法及装置，其中所述方法包括：获取电力工单数据，所述电力工单数据包括多个电力工单；对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单；利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量；使用K‑means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合；分别提取所述类别集合中每个类别下TF‑IDF值靠前的8个关键词，作为该类别的热点主题。采用前述的方法可以提高电力工单热点主题的获取效率，提升客户满意度。

Description

一种电力工单热点主题获取方法及装置

技术领域

本申请涉及电力信息系统技术领域，尤其涉及一种电力工单热点主题获取方法及装置。

背景技术

在电力信息系统中，用户可以通过电力客服热线95598提出业务咨询、故障报修、建议、举报、投诉、意见等业务诉求或者意见建议。在用户提出业务诉求或者意见建议时，电力信息系统中会产生相应的95598电力工单，这种情况下，电力客服部门首先要将大量的电力工单进行聚类，获取工单类型，然后将不同类型的工单派发给相应的电力部门进行处理，以便及时处理用户的业务诉求或者意见建议。在上述聚类的工单中，数量最多的工单类型反映了用户诉求的热点，从用户诉求的热点可提取出热点主题，通过获取电力工单的热点主题，分析热点主题，进而对其做针对性的预防处理，能够有效提升电力服务质量。

目前电力工单的热点主题主要依靠人工获取，电力客服部门的客服人员根据工单的关键词进行分类，然后将各类型中出现次数最多关键词的电力工单的热点主题。由于目前主要依赖人工获取电力工单的热点主题，效率较低，尤其在工单数量较多的情况下，无法第一时间获取准确获取电力工单的热点主题，因此亟需开发一种效率高的电力工单的热点主题获取方法。

发明内容

本申请提供了一种电力工单热点主题获取方法及装置，以解决目前主要依赖人工获取电力工单的热点主题，效率较低，尤其在工单数量较多的情况下，无法第一时间获取准确获取电力工单的热点主题的问题。

第一方面，本申请实施例提供一种电力工单热点主题获取方法，所述方法包括：

获取电力工单数据，所述电力工单数据包括多个电力工单；

对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单；

利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量；

使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合；

分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题。

结合第一方面，在一种实现方式中，对所述电力工单数据进行预处理，获得电力工单文本集，包括：

根据电力专用词典分别对每个所述电力工单进行分词，并根据电力停用词表对分词之后的电力工单去除停用词，得到关键词集合；

计算每个关键词集合中各个关键词的TF-IDF值，并根据TF-IDF值将该关键词集合中的关键词从大到小排序，选择前6个关键词，作为电力工单文本集。

结合第一方面，在一种实现方式中，所述利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量，包括：

使用Python语言的Gensim库训练已知电力工单，构建word2vec模型；

利用word2vec模型训练所述电力工单文本集，获得所述电力工单文本集中各关键词的词向量；

将所述电力工单文本集中各关键词的词向量求和，得到所述电力工单文本集对应的句向量。

结合第一方面，在一种实现方式中，使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合，包括：

在Python语言sklearn库的支持下，使用肘方法确定K-Means聚类的最佳K值；

指定所述最佳K值为聚类数量，根据所述聚类数量，在Python语言sklearn库的支持下，使用K-means聚类算法，对所述电力工单数据中各电力工单文本集对应的句向量进行聚类，得到类别集合。

结合第一方面，在一种实现方式中，分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题，包括：

统计所述类别集合中每个类别下电力工单文本集的数量；

根据所述数量分别计算每个类别中各关键词的TF-IDF值，并根据TF-IDF值将该类别中的关键词从大到小排序，选择前8个关键词，作为该类别下发现的热点主题。

第二方面，本申请实施例部分提供了一种电力工单热点主题获取装置，所述装置包括：

获取模块，用于获取电力工单数据，所述电力工单数据包括多个电力工单；

预处理模块，用于对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单；

句向量获取模块，用于利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量；

类别集合获取模块，用于使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合；

热点主题获取模块，用于分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题。

结合第二方面，在一种实现方式中，所述预处理模块包括：

关键词集合获取单元，用于根据电力专用词典分别对每个所述电力工单进行分词，并根据电力停用词表对分词之后的电力工单去除停用词，得到关键词集合；

电力工单文本集获取单元，用于计算每个关键词集合中各个关键词的TF-IDF值，并根据TF-IDF值将该关键词集合中的关键词从大到小排序，选择前6个关键词，作为电力工单文本集。

结合第二方面，在一种实现方式中，所述句向量获取模块包括：

模型构建单元，使用Python语言的Gensim库训练已知电力工单，构建word2vec模型；

词向量获得单元，用于利用word2vec模型训练所述电力工单文本集，获得所述电力工单文本集中各关键词的词向量；

句向量获取单元，用于将所述电力工单文本集中各关键词的词向量求和，得到所述电力工单文本集对应的句向量。

结合第二方面，在一种实现方式中，所述类别集合获取模块包括：

最佳K值获取单元，用于在Python语言sklearn库的支持下，使用肘方法确定K-Means聚类的最佳K值；

类别集合获取单元，用于指定所述最佳K值为聚类数量，根据所述聚类数量，在Python语言sklearn库的支持下，使用K-means聚类算法，对所述电力工单数据中各电力工单文本集对应的句向量进行聚类，得到类别集合。

结合第二方面，在一种实现方式中，所述热点主题获取模块包括：

数量统计单元，用于统计所述类别集合中每个类别下电力工单文本集的数量；

热点主题获取单元，用于根据所述数量分别计算每个类别中各关键词的TF-IDF值，并根据TF-IDF值将该类别中的关键词从大到小排序，选择前8个关键词，作为该类别下发现的热点主题。

本申请公开的一种电力工单热点主题获取方法及装置，其中所述方法包括：获取电力工单数据，所述电力工单数据包括多个电力工单；对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单；利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量；使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合；分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题。

采用前述的方法可以提高电力工单热点主题的获取效率，提升客户满意度。尤其是在大量电力工单中，可以准确、快速且不遗漏客户诉求的找出热点主题，进而第一时间反馈解决问题，提高用户体验。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种电力工单热点主题获取方法的流程示意图；

图2是本申请一个实施例中肘方法确定K-Means聚类的最佳K值的示意图；

图3是本申请实施例提供的一种电力工单热点主题获取装置的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请实施例提供了一种电力工单热点主题获取方法及装置，以解决目前主要依赖人工获取电力工单的热点主题，效率较低，尤其在工单数量较多的情况下，无法第一时间获取准确获取电力工单的热点主题的问题。

参照图1，示出了一种电力工单热点主题获取方法，包括：

步骤S1，获取电力工单数据，所述电力工单数据包括多个电力工单。

该步骤中，所述电力工单数据是电力信息系统中产生的电力工单的总和，单个电力工单对应一条客户诉求。所述电力工单为CSV格式描述的电力工单，本实施例共选取了1000条电力工单作为研究对象，表1是电力工单数据的部分片段。

表1

ID	电力工单的内容
		1	客户反映空开合上无电，请查处。
2	客户查询电量及电费，已告知客户电量及电费。
		3	客户反映电表计量不准，要求校表。
4	客户咨询阶梯电价标准，已告知客户。
		5	客户查询户号，已告知客户。
6	客户告知收到错误短信，已帮客户取消。
		7	客户已交清欠费及违约金，请帮助复电。

步骤S2，对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单。

在本实施例或本发明其他某些实施例中，步骤S2，可以包括如下子步骤：

本步骤中，首先，删除上述电力工单数据中的无效电力工单，然后，使用Python语言的jieba库，在电力专用词典和电力停用词表的支持下，对CSV格式描述的电力工单数据进行分词，去停用词，得到电力工单的关键词集合W＝{w₁,w₂,…,w_m}，其中，m为关键词集合W的大小，w_m为单个电力工单中的关键词；最后，依次扫描所述关键词集合W，在Python语言sklearn库的支持下，使用TF-IDF算法计算获得每个电力工单文本中各关键词的TF-IDF值，得到关键词及对应的TF-IDF值，标记为(w_i,TF-IDF_i)。例如，电力工单文本集中部分关键词的TF-IDF值为：{('停电'，0.21311645739869065)，('不准'，0)，('告知'，0.21311645739869065)，('咨询',0.17860822392713974),….}。根据所述TF-IDF值的大小，从每个电力工单中选取TF-IDF值靠前的6个关键词表示电力工单，得到关键词表示的电力工单文本集。如果低于6个，则取全部的关键词。

本步骤是对步骤S1中获取电力工单数据进行预处理，上述1000条电力工单文本，经预处理后，得到有效的电力工单为979条。表2是针对表1选取的电力工单片段预处理之后的电力工单文本集，每一条电力工单对应一个电力工单文本集。采用本步骤中的预处理方法，可以快速筛选有效电力工单，并且不会对电力工单遗漏。

表2

ID	电力工单文本集的内容
		1	空开合上无电查处
2	查询电量电费告知电量电费
		3	电表计量不准校表
4	咨询阶梯电价标准告知
		5	查询户号告知
6	告知收到错误短信取消
		7	交清欠费违约金复电

步骤S3，利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量。

在本实施例或本发明其他某些实施例中，步骤S3，可以包括如下子步骤：

本步骤中，首先，将步骤S2得到的使用关键词表示的电力工单文本集作为原始语料集，使用Python语言的Gensim库训练已知电力工单，得到word2vec模型，通过此模型得到电力工单文本集中每个关键词的m维词向量；然后，分别将每个电力工单文本集中包含的关键词对应的m维词向量求和，得到每个电力工单文本集的m维句向量。也就是说本步骤是将文本句向量的方法结合了TF-IDF算法和word2vec模型，既考虑了单词在文本中的重要性，又考虑单词的上下文。

本步骤是将步骤S2得到的电力工单文本集训练得到句向量的过程。此过程首先从词向量到句向量，以整句为一个向量单位，更能准确表达客户诉求。相对于现有技术中将所有工单混合处理，本申请采用单独处理每一条工单，更能准确的反应客户诉求。

步骤S4，使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合。

在本实施例或本发明其他某些实施例中，步骤S4，可以包括如下子步骤：

本步骤中，在Python语言sklearn库的支持下，首先肘方法确定K-Means聚类的最佳K值，如图2所示，然后指定所述最佳K值为聚类数量，在Python语言sklearn库的支持下，使用K-means聚类算法，对电力工单数据中各电力工单文本集的句向量进行聚类，得到类别集合C＝{c₁,c₂,...,c_n}，其中，n为类别总数，c_n为其中的一个类别。

采用K-means聚类算法具体过程如下：1)：设置k的值，从电力工单文本集中随机选择k个句向量作为聚类算法的初始质心；2)：计算每个句向量di到k个质心的文本相似度，选择最短聚类的质心作为该文本的簇集合，其中，计算文本相似度采用欧式距离计算：3)：重新计算类簇Cp中所有短文本的距离平均值得到新的质心，取到质心最近的文本作为新的质心；4)：循环执行2)、3)步，直到质心不再发生任何变化，即可完成聚类。采用K-means聚类算法的原因是简单高效，与其他聚类算法相比，对于电力工单的热点主题关键词发现效果较为理性。

本步骤是利用K-means聚类算法将步骤S3中获得的所有的电力工单文本集进行聚类，也就是将电力工单文本集分成几个大类，如表3所示，表3是将有效的979条电力工单分为8个大类，以及每个大类下的电力工单文本集的数量。电力工单聚类的目的是将相似度较高的电力工单集中在一起，提高处理效率，尤其是在大量电力工单的情况下，能够明显提升效率。

表3

类别	电力工单文本集的数量(个)
		c<sub>1</sub>	188
c<sub>2</sub>	82
		c<sub>3</sub>	46
c<sub>4</sub>	15
		c<sub>5</sub>	159
c<sub>6</sub>	108
		c<sub>7</sub>	129
c<sub>8</sub>	252

步骤S5，分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题。

在本实施例或本发明其他某些实施例中，即步骤S5，可以包括如下子步骤：

统计所述类别集合中每个类别下电力工单文本集的数量；

本步骤中，首先，统计所述类别集合中每个类别下电力工单文本集的个数，也就是每个类别下有效工单文本的数量；然后计算TF-IDF值，最后选择每个类别下TF-IDF值靠前的8个关键词，作为每个类别下发现的热点主题关键词。

本步骤是选取步骤S4中各类别中TF-IDF值最大的前8个关键词作为最终的该类别下发现的热点主题。如表4所示，表4是类别c₈下发现的热点主题的关键词。

表4

TF-IDF值	关键词
		1	查询
2	电量
		3	电费
4	空开
		5	合上
6	无电
		7	咨询
8	缴费

本实施例公开了一种方法，包括：获取电力工单数据，所述电力工单数据包括多个电力工单；对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单；利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量；使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合；分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题。

采用前述的方法可以提高电力工单热点主题的获取效率，提升客户满意度。尤其是在大量电力工单中，可以准确、快速且不遗漏客户诉求的找出热点主题。进而第一时间反馈解决问题。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图3是根据本发明一示例性实施例示出的一种电力工单热点主题获取装置，所述装置包括：

获取模块10，用于获取电力工单数据，所述电力工单数据包括多个电力工单；

预处理模块20，用于对所述电力工单数据进行预处理，获得电力工单文本集，其中，单个电力工单文本集对应单个单个电力工单；

句向量获取模块30，用于利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量；

类别集合获取模块40，用于使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合；

热点主题获取模块50，用于分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题。

可选地，所述预处理模块20包括：

可选地，所述句向量获取模块30包括：

可选地，所述类别集合获取模块40包括：

可选地，所述热点主题获取模块50包括：

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于装置实施例而言，由于其是方法对应的装置实施例，基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

以上结合具体实施方式和范例性实例对本申请进行了详细说明，不过这些说明并不能理解为对本申请的限制。本领域技术人员理解，在不偏离本申请精神和范围的情况下，可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进，这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。

Claims

1.一种电力工单热点主题获取方法，其特征在于，包括：

获取电力工单数据，所述电力工单数据包括多个电力工单；

2.根据权利要求1所述的方法，其特征在于，对所述电力工单数据进行预处理，获得电力工单文本集，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述利用预先构建的训练模型训练电力工单文本集，获得电力工单文本集对应的句向量，包括：

4.根据权利要求1所述的方法，其特征在于，使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类，得到类别集合，包括：

5.根据权利要求1所述的方法，其特征在于，分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词，作为该类别的热点主题，包括：

统计所述类别集合中每个类别下电力工单文本集的数量；

6.一种电力工单热点主题获取装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述预处理模块包括：

8.根据权利要求6或7所述的装置，其特征在于，所述句向量获取模块包括：

9.根据权利要求6所述的装置，其特征在于，所述类别集合获取模块包括：

10.根据权利要求6所述的装置，其特征在于，所述热点主题获取模块包括：