CN112270191A

CN112270191A - 提取工单文本主题的方法及装置

Info

Publication number: CN112270191A
Application number: CN202011296432.3A
Authority: CN
Inventors: 徐蕙; 严嘉慧; 及洪泉; 张禄; 马龙飞; 张宝群; 李香龙; 陆斯悦; 王培祎
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-01-26

Abstract

本申请公开了一种提取工单文本主题的方法及装置。其中，该方法包括：获取工单的文本数据；根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词。本申请解决了相关技术中采用LDA、PLSA等算法不能较准确的提取电采暖投诉与咨询文本数据所要表达的主题造成的对客户所要表达主题理解存在较大偏差，不能准确地识别客户的实际需求的技术问题。

Description

提取工单文本主题的方法及装置

技术领域

本申请涉及文本识别领域，具体而言，涉及一种提取工单文本主题的方法及装置。

背景技术

目前文本信息主题提取可以采用的方法主要有LDA和PLSA主题提取等。LDA、PLSA等算法均是无监督主题提取机器学习技术，通过基于主题的文档生成算法来提取主题，只有当目标类别存在明显差异的文本信息，自动化提取文档的主题才会效果显著。但对电采暖投诉与咨询文本数据而言，每条文本存在较大的相似性，主题信息差异与类别划分不明显。因此，使用LDA等文档主题生成模型来提取电采暖投诉与咨询文本数据主题，效果甚微，不能较好的提取电采暖投诉与咨询文本数据所要表达的主题，即在理解客户表达的主题时存在一定的偏差，不能准确地识别客户的需求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种提取工单文本主题的方法及装置，以至少解决相关技术中采用LDA、PLSA等算法不能较准确的提取电采暖投诉与咨询文本数据所要表达的主题造成的对客户所要表达主题理解存在较大偏差，不能准确地识别客户的实际需求的技术问题。

根据本申请实施例的一个方面，提供了一种提取工单文本主题的方法，包括：获取工单的文本数据；根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词。

可选地，第一预定聚类算法包括：K均值K-Means聚类算法；第二预定聚类算法包括：具有噪声的基于密度DBSCAN的聚类算法。

可选地，根据第一预定聚类算法对文本数据对应的各个文本进行聚类之前，包括：对文本数据进行分词处理，得到词组序列；对词组序列中各个词组进行词性标注，得到各个词性对应的目标词组，词性包括：名词、动词以及副词；确定目标词组出现的频率，根据频率确定关键词组；基于关键词组构建关键词库。

可选地，根据频率确定关键词组，包括：根据频率确定目标词组的信息熵，其中，信息熵用于衡量信息量的大小；将信息熵大于第一阈值的目标词组作为关键词组。

可选地，在根据第一预定聚类算法对文本数据对应的各个文本进行聚类之前，方法还包括：对文本数据进行去噪处理，去噪处理的方式，至少包括：去除标点符号、数字；将英文字母转化为小写、提取英文单词的词根。

可选地，当主题词有多个时，在得到文本集合的主题词之后，方法还包括：确定文本集合的多个主题词对应的多个隶属度；确定多个隶属度中大于第二阈值的目标隶属度；将目标隶属度对应的主题词作为目标主题词，将目标主题词组成的语句作为文本集合对应的工单主题。

可选地，工单的文本数据，包括以下至少之一：电采暖业务投诉数据、电采暖业务咨询数据。

可选地，在根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词之后，方法还包括：根据文本集合对应的主题词生成风险主题库；基于该风险主题库确定主题词的频率，将主题词中频率大于第三阈值的主题词作为用户的投诉热点和/或咨询热点。

根据本申请实施例的另一方面，还提供了一种提取工单文本主题的装置，包括：获取模块，用于获取工单的文本数据；聚类模块，用于根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；提取模块，用于对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词。

根据本申请实施例的另一方面，还提供了一种处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行任意一种提取工单文本主题的方法。

在本申请实施例中，采用先得到各个文本集合对应的类型，再识别每个文本集合的主题词的方式，通过获取工单的文本数据；根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词，达到了先采用第一预定算法对文本数据对应的各个文本进行聚类，得到多个文本集合，再基于第二预定算法识别文本集合各个文本集合对应的主题的技术效果，进而解决了相关技术中采用LDA、PLSA等算法不能较准确的提取电采暖投诉与咨询文本数据所要表达的主题造成的对客户所要表达主题理解存在较大偏差，不能准确地识别客户的实际需求的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种可选的提取工单文本主题的方法的流程示意图；

图2是根据本申请实施例的一种可选的提取工单文本主题的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种提取工单文本主题的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的提取工单文本主题的方法，如图1所示，该方法包括如下步骤：

步骤S102，获取工单的文本数据；

步骤S104，根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；

步骤S106，对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词。

该提取工单文本主题的方法中，首先，获取工单的文本数据；然后，根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；最后，对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词，达到了先采用第一预定算法对文本数据对应的各个文本进行聚类，得到多个文本集合，再基于第二预定算法识别文本集合各个文本集合对应的主题的技术效果，进而解决了相关技术中采用LDA、PLSA等算法不能较准确的提取电采暖投诉与咨询文本数据所要表达的主题造成的对客户所要表达主题理解存在较大偏差，不能准确地识别客户的实际需求的技术问题。

需要说明的是，第一预定聚类算法可以为K均值K-Means聚类算法；第二预定聚类算法可以为具有噪声的基于密度DBSCAN的聚类算法，还需要说明的是，K-Means聚类以欧式距离为衡量标准，指定聚类中最终形成的类的个数,其可首先初始化指定类别数量的类别中心，并在不断的迭代后最终形成指定类别数量个簇，可选的，K-means聚类可以以电采暖业务投诉与咨询文本数据中每个词语的tf-idf权值为样本特征，对电采暖业务投诉与咨询文本数据做文本聚类，得到待提取主题词的K类文本。

本申请一些可选的实施例中，嵌入式的特征选择，可以通过有监督学习算法，例如随机森林算法，在学习句子属于哪一类时，自动发现文本中的哪个词对分类的影响程度高。随机森林特征重要性，就是嵌入式特征选择的一种。通过随机森林特征重要性，可以得到受理内容的主题词，但提取的主题词，可能长度较短、可解释性较差。因此，需要把原文中对应的主题词的上下文片段提取出来，具体地，利用随机森林特征重要性得到受理内容的主题词后，可以得到的主题片段存在语义相似度高的片段，但会造成信息冗余，因此，可以利用基于cos相似度的DBSCAN聚类，提取片段主题，使用基于cos相似度的DBSCAN聚类，将相似度高的主题片段，聚为一类，自动提取出可解释性强、语义清晰、简洁度高的投诉风险主题。

本申请一些可选的实施例中，在根据第一预定聚类算法对文本数据对应的各个文本进行聚类之前，可对对文本数据进行分词处理，得到词组序列；对词组序列中各个词组进行词性标注，得到各个词性对应的目标词组，词性包括：名词、动词以及副词；确定目标词组出现的频率，根据频率确定关键词组；基于关键词组构建关键词库。具体地，可以利用中文分词算法，例如，结巴jieba分词算法，将连续的字序列按照一定的规范重新组合成词序列，分词处理已经成型的可识别的文本内容。

具体地，根据频率确定关键词组，可以通过如下步骤实现：根据频率确定目标词组的信息熵，其中，信息熵用于衡量信息量的大小；将信息熵大于第一阈值的目标词组作为关键词组。通过基于信息熵的专业词库构建方法，可以自动发现无法继续分割的词。需要说明的是，信息熵可以衡量候选词的左右邻接字符的不确定性，其不确定性越大，说明其邻接字符包含的信息越多，其成词的概率就越高，可以理解的，可以直接基于已构建好的关键词库进行主题提取，具体的，可根据第一预定聚类算法对关键词库中对应的各个文本进行聚类，得到多个文本集合，需要说明的是，不同的集合对应不同的类型，然后对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词，容易注意到的，第一预定聚类算法可以为K均值K-Means聚类算法；第二预定聚类算法可以为具有噪声的基于密度DBSCAN的聚类算法，直接基于构建好的关键词库进行主题提取，可以大大减少数据的运算量，节省大量的时间，且可以提高主题识别的准确度。

本申请一些实施例中，在根据第一预定聚类算法对文本数据对应的各个文本进行聚类之前，可以对文本数据进行去噪处理，去噪处理的方式，包括但不限于：去除标点符号、数字；将英文字母转化为小写、提取英文单词的词根。

本申请一些可选的实施例中，当主题词有多个时，在得到文本集合的主题词之后，可以通过如下方式确定工单主题，具体地：确定文本集合的多个主题词对应的多个隶属度；确定多个隶属度中大于第二阈值的目标隶属度；将目标隶属度对应的主题词作为目标主题词，将目标主题词组成的语句作为文本集合对应的工单主题。

需要说明的是，工单的文本数据，包括但不限于：电采暖业务投诉数据、电采暖业务咨询数据，容易注意到的，上述电采暖业务投诉数据、电采暖业务咨询数据可以来自于95598系统。

本申请一些实施例中，在根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词之后，可以根据文本集合对应的主题词生成风险主题库；基于该风险主题库确定主题词的频率，将主题词中频率大于第三阈值的主题词作为用户的投诉热点和/或咨询热点。例如，主题词中有投诉工作人员“吸烟、回复消息不及时、态度差”，其中，投诉—工作人员—回复消息不及时频率大于第三阈值，则将“回复消息不及时”作为投诉热点，可以立即的，上述第一阈值、第二阈值、第三阈值可以根据具体的应用场景，自动设置或者人为设置。

图2是根据本申请实施例的一种提取工单文本主题的装置，如图2所示，该提取工单文本主题的装置，包括：

获取模块40，用于获取工单的文本数据；

聚类模块42，用于根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；

提取模块44，用于对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词。

该提取工单文本主题的装置中，获取模块40，用于获取工单的文本数据；聚类模块42，用于根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；提取模块44，用于对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词，达到了先采用第一预定算法对文本数据对应的各个文本进行聚类，得到多个文本集合，再基于第二预定算法识别文本集合各个文本集合对应的主题的技术效果，进而解决了相关技术中采用LDA、PLSA等算法不能较准确的提取电采暖投诉与咨询文本数据所要表达的主题造成的对客户所要表达主题理解存在较大偏差，不能准确地识别客户的实际需求的技术问题。

可以理解的，可以直接基于已构建好的关键词库进行主题提取，具体的，可根据第一预定聚类算法对关键词库中对应的各个文本进行聚类，得到多个文本集合，需要说明的是，不同的集合对应不同的类型，然后对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词，容易注意到的，第一预定聚类算法可以为K均值K-Means聚类算法；第二预定聚类算法可以为具有噪声的基于密度DBSCAN的聚类算法。

具体地，根据频率确定关键词组，可以通过如下步骤实现：根据频率确定目标词组的信息熵，其中，信息熵用于衡量信息量的大小；将信息熵大于第一阈值的目标词组作为关键词组。通过基于信息熵的专业词库构建方法，可以自动发现无法继续分割的词。需要说明的是，信息熵可以衡量候选词的左右邻接字符的不确定性，其不确定性越大，说明其邻接字符包含的信息越多，其成词的概率就越高。

根据本申请实施例的另一方面，还一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行任意一种提取工单文本主题的方法。

具体地，上述存储介质用于存储执行以下功能的程序指令，实现以下功能:

获取工单的文本数据；根据第一预定聚类算法对文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；对于每个文本集合，根据第二预定聚类算法对文本集合中所有文本进行主题信息提取，得到文本集合的主题词。

具体地，上述处理器用于调用存储器中的程序指令，实现以下功能：

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种提取工单文本主题的方法，其特征在于，包括：

获取工单的文本数据；

根据第一预定聚类算法对所述文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；

对于每个文本集合，根据第二预定聚类算法对所述文本集合中所有文本进行主题信息提取，得到所述文本集合的主题词。

2.根据权利要求1所述的方法，其特征在于，

所述第一预定聚类算法包括：K均值K-Means聚类算法；

所述第二预定聚类算法包括：具有噪声的基于密度DBSCAN的聚类算法。

3.根据权利要求1所述的方法，其特征在于，根据第一预定聚类算法对所述文本数据对应的各个文本进行聚类之前，包括：

对所述文本数据进行分词处理，得到词组序列；

对所述词组序列中各个词组进行词性标注，得到各个词性对应的目标词组，所述词性包括：名词、动词以及副词；

确定所述目标词组出现的频率，根据所述频率确定关键词组；

基于所述关键词组构建关键词库。

4.根据权利要求3所述的方法，其特征在于，根据所述频率确定关键词组，包括：

根据所述频率确定所述目标词组的信息熵，其中，所述信息熵用于衡量信息量的大小；将所述信息熵大于第一阈值的目标词组作为关键词组。

5.根据权利要求1所述的方法，其特征在于，在根据第一预定聚类算法对所述文本数据对应的各个文本进行聚类之前，所述方法还包括：

对所述文本数据进行去噪处理，所述去噪处理的方式，至少包括：去除标点符号、数字；将英文字母转化为小写、提取英文单词的词根。

6.根据权利要求1所述的方法，其特征在于，当所述主题词有多个时，在得到所述文本集合的主题词之后，所述方法还包括：

确定所述文本集合的多个主题词对应的多个隶属度；

确定所述多个隶属度中大于第二阈值的目标隶属度；

将所述目标隶属度对应的主题词作为目标主题词，将所述目标主题词组成的语句作为所述文本集合对应的工单主题。

7.根据权利要求1所述的方法，其特征在于，所述工单的文本数据，包括以下至少之一：电采暖业务投诉数据、电采暖业务咨询数据。

8.根据权利要求7所述的方法，其特征在于，在根据第二预定聚类算法对所述文本集合中所有文本进行主题信息提取，得到所述文本集合的主题词之后，所述方法还包括：

根据所述文本集合对应的主题词生成风险主题库；

基于该风险主题库确定所述主题词的频率，将所述主题词中频率大于第三阈值的主题词作为用户的投诉热点和/或咨询热点。

9.一种提取工单文本主题的装置，其特征在于，包括：

获取模块，用于获取工单的文本数据；

聚类模块，用于根据第一预定聚类算法对所述文本数据对应的各个文本进行聚类，得到多个文本集合，其中，不同的集合对应不同的类型；

提取模块，用于对于每个文本集合，根据第二预定聚类算法对所述文本集合中所有文本进行主题信息提取，得到所述文本集合的主题词。

10.一种处理器，其特征在于，所述处理器用于运行存储在存储器中的程序，其中，所述程序运行时执行权利要求1至8中任意一项所述提取工单文本主题的方法。