CN111475601A - 一种电力工单热点主题获取方法及装置 - Google Patents
一种电力工单热点主题获取方法及装置 Download PDFInfo
- Publication number
- CN111475601A CN111475601A CN202010274867.1A CN202010274867A CN111475601A CN 111475601 A CN111475601 A CN 111475601A CN 202010274867 A CN202010274867 A CN 202010274867A CN 111475601 A CN111475601 A CN 111475601A
- Authority
- CN
- China
- Prior art keywords
- work order
- power work
- category
- electric power
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 69
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000003064 k means clustering Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 3
- 230000005611 electricity Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开的一种电力工单热点主题获取方法及装置,其中所述方法包括:获取电力工单数据,所述电力工单数据包括多个电力工单;对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;使用K‑means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;分别提取所述类别集合中每个类别下TF‑IDF值靠前的8个关键词,作为该类别的热点主题。采用前述的方法可以提高电力工单热点主题的获取效率,提升客户满意度。
Description
技术领域
本申请涉及电力信息系统技术领域,尤其涉及一种电力工单热点主题获取方法及装置。
背景技术
在电力信息系统中,用户可以通过电力客服热线95598提出业务咨询、故障报修、建议、举报、投诉、意见等业务诉求或者意见建议。在用户提出业务诉求或者意见建议时,电力信息系统中会产生相应的95598电力工单,这种情况下,电力客服部门首先要将大量的电力工单进行聚类,获取工单类型,然后将不同类型的工单派发给相应的电力部门进行处理,以便及时处理用户的业务诉求或者意见建议。在上述聚类的工单中,数量最多的工单类型反映了用户诉求的热点,从用户诉求的热点可提取出热点主题,通过获取电力工单的热点主题,分析热点主题,进而对其做针对性的预防处理,能够有效提升电力服务质量。
目前电力工单的热点主题主要依靠人工获取,电力客服部门的客服人员根据工单的关键词进行分类,然后将各类型中出现次数最多关键词的电力工单的热点主题。由于目前主要依赖人工获取电力工单的热点主题,效率较低,尤其在工单数量较多的情况下,无法第一时间获取准确获取电力工单的热点主题,因此亟需开发一种效率高的电力工单的热点主题获取方法。
发明内容
本申请提供了一种电力工单热点主题获取方法及装置,以解决目前主要依赖人工获取电力工单的热点主题,效率较低,尤其在工单数量较多的情况下,无法第一时间获取准确获取电力工单的热点主题的问题。
第一方面,本申请实施例提供一种电力工单热点主题获取方法,所述方法包括:
获取电力工单数据,所述电力工单数据包括多个电力工单;
对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;
利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;
使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;
分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
结合第一方面,在一种实现方式中,对所述电力工单数据进行预处理,获得电力工单文本集,包括:
根据电力专用词典分别对每个所述电力工单进行分词,并根据电力停用词表对分词之后的电力工单去除停用词,得到关键词集合;
计算每个关键词集合中各个关键词的TF-IDF值,并根据TF-IDF值将该关键词集合中的关键词从大到小排序,选择前6个关键词,作为电力工单文本集。
结合第一方面,在一种实现方式中,所述利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量,包括:
使用Python语言的Gensim库训练已知电力工单,构建word2vec模型;
利用word2vec模型训练所述电力工单文本集,获得所述电力工单文本集中各关键词的词向量;
将所述电力工单文本集中各关键词的词向量求和,得到所述电力工单文本集对应的句向量。
结合第一方面,在一种实现方式中,使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合,包括:
在Python语言sklearn库的支持下,使用肘方法确定K-Means聚类的最佳K值;
指定所述最佳K值为聚类数量,根据所述聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对所述电力工单数据中各电力工单文本集对应的句向量进行聚类,得到类别集合。
结合第一方面,在一种实现方式中,分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题,包括:
统计所述类别集合中每个类别下电力工单文本集的数量;
根据所述数量分别计算每个类别中各关键词的TF-IDF值,并根据TF-IDF值将该类别中的关键词从大到小排序,选择前8个关键词,作为该类别下发现的热点主题。
第二方面,本申请实施例部分提供了一种电力工单热点主题获取装置,所述装置包括:
获取模块,用于获取电力工单数据,所述电力工单数据包括多个电力工单;
预处理模块,用于对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;
句向量获取模块,用于利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;
类别集合获取模块,用于使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;
热点主题获取模块,用于分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
结合第二方面,在一种实现方式中,所述预处理模块包括:
关键词集合获取单元,用于根据电力专用词典分别对每个所述电力工单进行分词,并根据电力停用词表对分词之后的电力工单去除停用词,得到关键词集合;
电力工单文本集获取单元,用于计算每个关键词集合中各个关键词的TF-IDF值,并根据TF-IDF值将该关键词集合中的关键词从大到小排序,选择前6个关键词,作为电力工单文本集。
结合第二方面,在一种实现方式中,所述句向量获取模块包括:
模型构建单元,使用Python语言的Gensim库训练已知电力工单,构建word2vec模型;
词向量获得单元,用于利用word2vec模型训练所述电力工单文本集,获得所述电力工单文本集中各关键词的词向量;
句向量获取单元,用于将所述电力工单文本集中各关键词的词向量求和,得到所述电力工单文本集对应的句向量。
结合第二方面,在一种实现方式中,所述类别集合获取模块包括:
最佳K值获取单元,用于在Python语言sklearn库的支持下,使用肘方法确定K-Means聚类的最佳K值;
类别集合获取单元,用于指定所述最佳K值为聚类数量,根据所述聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对所述电力工单数据中各电力工单文本集对应的句向量进行聚类,得到类别集合。
结合第二方面,在一种实现方式中,所述热点主题获取模块包括:
数量统计单元,用于统计所述类别集合中每个类别下电力工单文本集的数量;
热点主题获取单元,用于根据所述数量分别计算每个类别中各关键词的TF-IDF值,并根据TF-IDF值将该类别中的关键词从大到小排序,选择前8个关键词,作为该类别下发现的热点主题。
本申请公开的一种电力工单热点主题获取方法及装置,其中所述方法包括:获取电力工单数据,所述电力工单数据包括多个电力工单;对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
采用前述的方法可以提高电力工单热点主题的获取效率,提升客户满意度。尤其是在大量电力工单中,可以准确、快速且不遗漏客户诉求的找出热点主题,进而第一时间反馈解决问题,提高用户体验。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种电力工单热点主题获取方法的流程示意图;
图2是本申请一个实施例中肘方法确定K-Means聚类的最佳K值的示意图;
图3是本申请实施例提供的一种电力工单热点主题获取装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例提供了一种电力工单热点主题获取方法及装置,以解决目前主要依赖人工获取电力工单的热点主题,效率较低,尤其在工单数量较多的情况下,无法第一时间获取准确获取电力工单的热点主题的问题。
参照图1,示出了一种电力工单热点主题获取方法,包括:
步骤S1,获取电力工单数据,所述电力工单数据包括多个电力工单。
该步骤中,所述电力工单数据是电力信息系统中产生的电力工单的总和,单个电力工单对应一条客户诉求。所述电力工单为CSV格式描述的电力工单,本实施例共选取了1000条电力工单作为研究对象,表1是电力工单数据的部分片段。
表1
ID | 电力工单的内容 |
1 | 客户反映空开合上无电,请查处。 |
2 | 客户查询电量及电费,已告知客户电量及电费。 |
3 | 客户反映电表计量不准,要求校表。 |
4 | 客户咨询阶梯电价标准,已告知客户。 |
5 | 客户查询户号,已告知客户。 |
6 | 客户告知收到错误短信,已帮客户取消。 |
7 | 客户已交清欠费及违约金,请帮助复电。 |
步骤S2,对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单。
在本实施例或本发明其他某些实施例中,步骤S2,可以包括如下子步骤:
根据电力专用词典分别对每个所述电力工单进行分词,并根据电力停用词表对分词之后的电力工单去除停用词,得到关键词集合;
计算每个关键词集合中各个关键词的TF-IDF值,并根据TF-IDF值将该关键词集合中的关键词从大到小排序,选择前6个关键词,作为电力工单文本集。
本步骤中,首先,删除上述电力工单数据中的无效电力工单,然后,使用Python语言的jieba库,在电力专用词典和电力停用词表的支持下,对CSV格式描述的电力工单数据进行分词,去停用词,得到电力工单的关键词集合W={w1,w2,…,wm},其中,m为关键词集合W的大小,wm为单个电力工单中的关键词;最后,依次扫描所述关键词集合W,在Python语言sklearn库的支持下,使用TF-IDF算法计算获得每个电力工单文本中各关键词的TF-IDF值,得到关键词及对应的TF-IDF值,标记为(wi,TF-IDFi)。例如,电力工单文本集中部分关键词的TF-IDF值为:{('停电',0.21311645739869065),('不准',0),('告知',0.21311645739869065),('咨询',0.17860822392713974),….}。根据所述TF-IDF值的大小,从每个电力工单中选取TF-IDF值靠前的6个关键词表示电力工单,得到关键词表示的电力工单文本集。如果低于6个,则取全部的关键词。
本步骤是对步骤S1中获取电力工单数据进行预处理,上述1000条电力工单文本,经预处理后,得到有效的电力工单为979条。表2是针对表1选取的电力工单片段预处理之后的电力工单文本集,每一条电力工单对应一个电力工单文本集。采用本步骤中的预处理方法,可以快速筛选有效电力工单,并且不会对电力工单遗漏。
表2
ID | 电力工单文本集的内容 |
1 | 空开合上无电查处 |
2 | 查询电量电费告知电量电费 |
3 | 电表计量不准校表 |
4 | 咨询阶梯电价标准告知 |
5 | 查询户号告知 |
6 | 告知收到错误短信取消 |
7 | 交清欠费违约金复电 |
步骤S3,利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量。
在本实施例或本发明其他某些实施例中,步骤S3,可以包括如下子步骤:
使用Python语言的Gensim库训练已知电力工单,构建word2vec模型;
利用word2vec模型训练所述电力工单文本集,获得所述电力工单文本集中各关键词的词向量;
将所述电力工单文本集中各关键词的词向量求和,得到所述电力工单文本集对应的句向量。
本步骤中,首先,将步骤S2得到的使用关键词表示的电力工单文本集作为原始语料集,使用Python语言的Gensim库训练已知电力工单,得到word2vec模型,通过此模型得到电力工单文本集中每个关键词的m维词向量;然后,分别将每个电力工单文本集中包含的关键词对应的m维词向量求和,得到每个电力工单文本集的m维句向量。也就是说本步骤是将文本句向量的方法结合了TF-IDF算法和word2vec模型,既考虑了单词在文本中的重要性,又考虑单词的上下文。
本步骤是将步骤S2得到的电力工单文本集训练得到句向量的过程。此过程首先从词向量到句向量,以整句为一个向量单位,更能准确表达客户诉求。相对于现有技术中将所有工单混合处理,本申请采用单独处理每一条工单,更能准确的反应客户诉求。
步骤S4,使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合。
在本实施例或本发明其他某些实施例中,步骤S4,可以包括如下子步骤:
在Python语言sklearn库的支持下,使用肘方法确定K-Means聚类的最佳K值;
指定所述最佳K值为聚类数量,根据所述聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对所述电力工单数据中各电力工单文本集对应的句向量进行聚类,得到类别集合。
本步骤中,在Python语言sklearn库的支持下,首先肘方法确定K-Means聚类的最佳K值,如图2所示,然后指定所述最佳K值为聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对电力工单数据中各电力工单文本集的句向量进行聚类,得到类别集合C={c1,c2,...,cn},其中,n为类别总数,cn为其中的一个类别。
采用K-means聚类算法具体过程如下:1):设置k的值,从电力工单文本集中随机选择k个句向量作为聚类算法的初始质心;2):计算每个句向量di到k个质心的文本相似度,选择最短聚类的质心作为该文本的簇集合,其中,计算文本相似度采用欧式距离计算:3):重新计算类簇Cp中所有短文本的距离平均值得到新的质心,取到质心最近的文本作为新的质心;4):循环执行2)、3)步,直到质心不再发生任何变化,即可完成聚类。采用K-means聚类算法的原因是简单高效,与其他聚类算法相比,对于电力工单的热点主题关键词发现效果较为理性。
本步骤是利用K-means聚类算法将步骤S3中获得的所有的电力工单文本集进行聚类,也就是将电力工单文本集分成几个大类,如表3所示,表3是将有效的979条电力工单分为8个大类,以及每个大类下的电力工单文本集的数量。电力工单聚类的目的是将相似度较高的电力工单集中在一起,提高处理效率,尤其是在大量电力工单的情况下,能够明显提升效率。
表3
类别 | 电力工单文本集的数量(个) |
c<sub>1</sub> | 188 |
c<sub>2</sub> | 82 |
c<sub>3</sub> | 46 |
c<sub>4</sub> | 15 |
c<sub>5</sub> | 159 |
c<sub>6</sub> | 108 |
c<sub>7</sub> | 129 |
c<sub>8</sub> | 252 |
步骤S5,分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
在本实施例或本发明其他某些实施例中,即步骤S5,可以包括如下子步骤:
统计所述类别集合中每个类别下电力工单文本集的数量;
根据所述数量分别计算每个类别中各关键词的TF-IDF值,并根据TF-IDF值将该类别中的关键词从大到小排序,选择前8个关键词,作为该类别下发现的热点主题。
本步骤中,首先,统计所述类别集合中每个类别下电力工单文本集的个数,也就是每个类别下有效工单文本的数量;然后计算TF-IDF值,最后选择每个类别下TF-IDF值靠前的8个关键词,作为每个类别下发现的热点主题关键词。
本步骤是选取步骤S4中各类别中TF-IDF值最大的前8个关键词作为最终的该类别下发现的热点主题。如表4所示,表4是类别c8下发现的热点主题的关键词。
表4
TF-IDF值 | 关键词 |
1 | 查询 |
2 | 电量 |
3 | 电费 |
4 | 空开 |
5 | 合上 |
6 | 无电 |
7 | 咨询 |
8 | 缴费 |
本实施例公开了一种方法,包括:获取电力工单数据,所述电力工单数据包括多个电力工单;对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
采用前述的方法可以提高电力工单热点主题的获取效率,提升客户满意度。尤其是在大量电力工单中,可以准确、快速且不遗漏客户诉求的找出热点主题。进而第一时间反馈解决问题。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图3是根据本发明一示例性实施例示出的一种电力工单热点主题获取装置,所述装置包括:
获取模块10,用于获取电力工单数据,所述电力工单数据包括多个电力工单;
预处理模块20,用于对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;
句向量获取模块30,用于利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;
类别集合获取模块40,用于使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;
热点主题获取模块50,用于分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
可选地,所述预处理模块20包括:
关键词集合获取单元,用于根据电力专用词典分别对每个所述电力工单进行分词,并根据电力停用词表对分词之后的电力工单去除停用词,得到关键词集合;
电力工单文本集获取单元,用于计算每个关键词集合中各个关键词的TF-IDF值,并根据TF-IDF值将该关键词集合中的关键词从大到小排序,选择前6个关键词,作为电力工单文本集。
可选地,所述句向量获取模块30包括:
模型构建单元,使用Python语言的Gensim库训练已知电力工单,构建word2vec模型;
词向量获得单元,用于利用word2vec模型训练所述电力工单文本集,获得所述电力工单文本集中各关键词的词向量;
句向量获取单元,用于将所述电力工单文本集中各关键词的词向量求和,得到所述电力工单文本集对应的句向量。
可选地,所述类别集合获取模块40包括:
最佳K值获取单元,用于在Python语言sklearn库的支持下,使用肘方法确定K-Means聚类的最佳K值;
类别集合获取单元,用于指定所述最佳K值为聚类数量,根据所述聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对所述电力工单数据中各电力工单文本集对应的句向量进行聚类,得到类别集合。
可选地,所述热点主题获取模块50包括:
数量统计单元,用于统计所述类别集合中每个类别下电力工单文本集的数量;
热点主题获取单元,用于根据所述数量分别计算每个类别中各关键词的TF-IDF值,并根据TF-IDF值将该类别中的关键词从大到小排序,选择前8个关键词,作为该类别下发现的热点主题。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于装置实施例而言,由于其是方法对应的装置实施例,基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上结合具体实施方式和范例性实例对本申请进行了详细说明,不过这些说明并不能理解为对本申请的限制。本领域技术人员理解,在不偏离本申请精神和范围的情况下,可以对本申请技术方案及其实施方式进行多种等价替换、修饰或改进,这些均落入本申请的范围内。本申请的保护范围以所附权利要求为准。
Claims (10)
1.一种电力工单热点主题获取方法,其特征在于,包括:
获取电力工单数据,所述电力工单数据包括多个电力工单;
对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;
利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;
使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;
分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
2.根据权利要求1所述的方法,其特征在于,对所述电力工单数据进行预处理,获得电力工单文本集,包括:
根据电力专用词典分别对每个所述电力工单进行分词,并根据电力停用词表对分词之后的电力工单去除停用词,得到关键词集合;
计算每个关键词集合中各个关键词的TF-IDF值,并根据TF-IDF值将该关键词集合中的关键词从大到小排序,选择前6个关键词,作为电力工单文本集。
3.根据权利要求1或2所述的方法,其特征在于,所述利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量,包括:
使用Python语言的Gensim库训练已知电力工单,构建word2vec模型;
利用word2vec模型训练所述电力工单文本集,获得所述电力工单文本集中各关键词的词向量;
将所述电力工单文本集中各关键词的词向量求和,得到所述电力工单文本集对应的句向量。
4.根据权利要求1所述的方法,其特征在于,使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合,包括:
在Python语言sklearn库的支持下,使用肘方法确定K-Means聚类的最佳K值;
指定所述最佳K值为聚类数量,根据所述聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对所述电力工单数据中各电力工单文本集对应的句向量进行聚类,得到类别集合。
5.根据权利要求1所述的方法,其特征在于,分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题,包括:
统计所述类别集合中每个类别下电力工单文本集的数量;
根据所述数量分别计算每个类别中各关键词的TF-IDF值,并根据TF-IDF值将该类别中的关键词从大到小排序,选择前8个关键词,作为该类别下发现的热点主题。
6.一种电力工单热点主题获取装置,其特征在于,所述装置包括:
获取模块,用于获取电力工单数据,所述电力工单数据包括多个电力工单;
预处理模块,用于对所述电力工单数据进行预处理,获得电力工单文本集,其中,单个电力工单文本集对应单个单个电力工单;
句向量获取模块,用于利用预先构建的训练模型训练电力工单文本集,获得电力工单文本集对应的句向量;
类别集合获取模块,用于使用K-means聚类算法将所有电力工单文本集对应的句向量进行聚类,得到类别集合;
热点主题获取模块,用于分别提取所述类别集合中每个类别下TF-IDF值靠前的8个关键词,作为该类别的热点主题。
7.根据权利要求6所述的装置,其特征在于,所述预处理模块包括:
关键词集合获取单元,用于根据电力专用词典分别对每个所述电力工单进行分词,并根据电力停用词表对分词之后的电力工单去除停用词,得到关键词集合;
电力工单文本集获取单元,用于计算每个关键词集合中各个关键词的TF-IDF值,并根据TF-IDF值将该关键词集合中的关键词从大到小排序,选择前6个关键词,作为电力工单文本集。
8.根据权利要求6或7所述的装置,其特征在于,所述句向量获取模块包括:
模型构建单元,使用Python语言的Gensim库训练已知电力工单,构建word2vec模型;
词向量获得单元,用于利用word2vec模型训练所述电力工单文本集,获得所述电力工单文本集中各关键词的词向量;
句向量获取单元,用于将所述电力工单文本集中各关键词的词向量求和,得到所述电力工单文本集对应的句向量。
9.根据权利要求6所述的装置,其特征在于,所述类别集合获取模块包括:
最佳K值获取单元,用于在Python语言sklearn库的支持下,使用肘方法确定K-Means聚类的最佳K值;
类别集合获取单元,用于指定所述最佳K值为聚类数量,根据所述聚类数量,在Python语言sklearn库的支持下,使用K-means聚类算法,对所述电力工单数据中各电力工单文本集对应的句向量进行聚类,得到类别集合。
10.根据权利要求6所述的装置,其特征在于,所述热点主题获取模块包括:
数量统计单元,用于统计所述类别集合中每个类别下电力工单文本集的数量;
热点主题获取单元,用于根据所述数量分别计算每个类别中各关键词的TF-IDF值,并根据TF-IDF值将该类别中的关键词从大到小排序,选择前8个关键词,作为该类别下发现的热点主题。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274867.1A CN111475601A (zh) | 2020-04-09 | 2020-04-09 | 一种电力工单热点主题获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010274867.1A CN111475601A (zh) | 2020-04-09 | 2020-04-09 | 一种电力工单热点主题获取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111475601A true CN111475601A (zh) | 2020-07-31 |
Family
ID=71751733
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010274867.1A Pending CN111475601A (zh) | 2020-04-09 | 2020-04-09 | 一种电力工单热点主题获取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111475601A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112860883A (zh) * | 2021-02-08 | 2021-05-28 | 国网河北省电力有限公司营销服务中心 | 电力工单短文本热点话题识别方法、装置及终端 |
CN113407679A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113836888A (zh) * | 2021-11-25 | 2021-12-24 | 中关村科学城城市大脑股份有限公司 | 一种确定工单主题的方法、装置、介质及计算机设备 |
CN114510566A (zh) * | 2021-11-29 | 2022-05-17 | 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) | 基于工单的热词挖掘、分类和分析的方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN104679787A (zh) * | 2013-11-27 | 2015-06-03 | 华为技术有限公司 | 兴趣信息的统计方法及装置 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN110442873A (zh) * | 2019-08-07 | 2019-11-12 | 云南电网有限责任公司信息中心 | 一种基于cbow模型的热点工单获取方法及装置 |
-
2020
- 2020-04-09 CN CN202010274867.1A patent/CN111475601A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679787A (zh) * | 2013-11-27 | 2015-06-03 | 华为技术有限公司 | 兴趣信息的统计方法及装置 |
CN104142918A (zh) * | 2014-07-31 | 2014-11-12 | 天津大学 | 基于tf-idf特征的短文本聚类以及热点主题提取方法 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN109446329A (zh) * | 2018-11-08 | 2019-03-08 | 大连瀚闻资讯有限公司 | 一种舆情分析的热点识别方法 |
CN110442873A (zh) * | 2019-08-07 | 2019-11-12 | 云南电网有限责任公司信息中心 | 一种基于cbow模型的热点工单获取方法及装置 |
Non-Patent Citations (1)
Title |
---|
SHENGHAISHXT: "利用TF-IDF的机器学习方法对搜狗新闻数据进行文本分类", 《简书》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN112632965A (zh) * | 2020-12-25 | 2021-04-09 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112632965B (zh) * | 2020-12-25 | 2024-05-03 | 上海德拓信息技术股份有限公司 | 一种针对政府服务热线领域的工单自动分类方法 |
CN112860883A (zh) * | 2021-02-08 | 2021-05-28 | 国网河北省电力有限公司营销服务中心 | 电力工单短文本热点话题识别方法、装置及终端 |
CN113407679A (zh) * | 2021-06-30 | 2021-09-17 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113407679B (zh) * | 2021-06-30 | 2023-10-03 | 竹间智能科技(上海)有限公司 | 文本主题挖掘方法、装置、电子设备及存储介质 |
CN113836888A (zh) * | 2021-11-25 | 2021-12-24 | 中关村科学城城市大脑股份有限公司 | 一种确定工单主题的方法、装置、介质及计算机设备 |
CN114510566A (zh) * | 2021-11-29 | 2022-05-17 | 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) | 基于工单的热词挖掘、分类和分析的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111475601A (zh) | 一种电力工单热点主题获取方法及装置 | |
CN106471490B (zh) | 基于分类的集群通信 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
US9036806B1 (en) | Predicting the class of future customer calls in a call center | |
CN112667805B (zh) | 一种工单类别确定方法、装置、设备及介质 | |
CN112541077B (zh) | 一种用于电网用户服务评价的处理方法及系统 | |
CN107729337B (zh) | 事件的监测方法和装置 | |
JP5254738B2 (ja) | 電力品質データ収集システム、電力品質データ収集装置、電力品質データ収集方法 | |
CN107016561B (zh) | 一种信息处理方法和装置 | |
CN111831286B (zh) | 一种用户投诉处理方法和设备 | |
CN111859101A (zh) | 一种异常事件检测方法、装置、电子设备及存储介质 | |
KR102430418B1 (ko) | 반려동물을 위한 빅데이터 기반의 서비스 제공 방법 및 장치 | |
CN112860893B (zh) | 短文本分类方法及终端设备 | |
CN111640025B (zh) | 基于标签体系实现资讯标签化处理的方法 | |
CN114298845A (zh) | 一种理赔票据处理方法和装置 | |
JP2013134543A (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN115203382A (zh) | 业务问题场景识别方法、装置、电子设备及存储介质 | |
CN111539834A (zh) | 一种预核保方法及装置 | |
CN112668895A (zh) | 一种数字资源质量监管系统 | |
CN111046163A (zh) | 未读消息的处理方法、装置、存储介质及设备 | |
CN113779251B (zh) | 线索信息获取方法、装置、介质及电子设备 | |
CN117520994B (zh) | 基于用户画像和聚类技术识别机票异常搜索用户方法及系统 | |
CN113987293A (zh) | 数据资产补全方法、装置、设备及介质 | |
CN117763181A (zh) | 影像分类方法、装置、电子设备及存储介质 | |
CN117891862A (zh) | 业财数据转换方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200731 |