CN110705275B

CN110705275B - 主题词提取方法、装置、存储介质及电子设备

Info

Publication number: CN110705275B
Application number: CN201910882514.7A
Authority: CN
Inventors: 贾弼然; 崔朝辉; 赵立军; 张霞
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2023-04-25
Anticipated expiration: 2039-09-18
Also published as: CN110705275A

Abstract

本公开涉及一种主题词提取方法、装置、存储介质及电子设备，以避免提取出的主题词之间毫不相关的情况。该方法包括：接收客户端发送的用于确定目标文本的主题词的请求；响应于接收到所述请求，将所述目标文本输入到主题词模型中进行处理，得到所述目标文本的主题词；其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述主题词模型用于通过如下方式对所述目标文本进行处理：在所述已标注主题词的多个文本中，确定所述目标文本的相似文本；确定所述相似文本中各主题词的目标权重值；将所述目标权重值最大的主题词确定为所述目标文本的主题词。

Description

主题词提取方法、装置、存储介质及电子设备

技术领域

本公开涉及文本处理技术领域，具体地，涉及一种主题词提取方法、装置、存储介质及电子设备。

背景技术

主题词是指可以表征文本主要内容的分词，例如，在基于内容的文本分类中，可以提取能够反映文本内容的主题词，然后根据提取到的主题词进行文本分类。

相关技术中，对于主题词的提取大多是使用LDA算法(Latent DirichletAllocation，文档主题生成模型)对文本进行处理。其中，LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，将每一篇文档视为一个词频向量，并认为每一篇文档代表了一些主题所构成的Dirichlet分布，而每一个主题又代表了很多单词所构成的Dirichlet分布。但是，由于Dirichlet分布中各分量间的弱相关性，可能使得提取出的主题词之间毫不相关，从而无法根据该主题词较好地确定文本的主要内容。

发明内容

本公开的目的是提供一种主题词提取方法、装置、存储介质及电子设备，以避免提取出的主题词之间毫不相关的情况。

为了实现上述目的，第一方面，本公开提供一种主题词提取方法，应用于服务器，包括：

接收客户端发送的用于确定目标文本的主题词的请求；

响应于接收到所述请求，将所述目标文本输入到主题词模型中进行处理，得到所述目标文本的主题词；

其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述主题词模型用于通过如下方式对所述目标文本进行处理：

在所述已标注主题词的多个文本中，确定所述目标文本的相似文本；

确定所述相似文本中各主题词的目标权重值；

将所述目标权重值最大的主题词确定为所述目标文本的主题词。

可选地，所述目标文本为投诉文本，所述方法还包括：

根据所述主题词，确定所述目标文本所属的投诉类型；

将所述目标文本发送给所述投诉类型对应的投诉处理终端，以使所述投诉处理终端对所述目标文本进行处理。

可选地，所述请求包括语音投诉信息，所述方法还包括：

对所述语音投诉信息进行识别，得到所述语音投诉信息对应的文本；

将所述语音投诉信息对应的文本作为所述目标文本。

可选地，所述确定所述相似文本中各主题词的权重值，包括：

根据所述相似文本中各主题词的出现频率，确定所述相似文本中各主题词的初始权重值，并根据所述相似文本中主题词之间的共现次数，确定所述相似文本中主题词之间的转移概率；

根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的目标权重值。

可选地，所述根据所述相似文本中主题词之间的共现次数，确定所述相似文本中主题词之间的转移概率，包括：

针对所述相似文本中的每个主题词，确定所述主题词与所述相似文本中目标主题词的第一共现次数、以及所述主题词与所述相似文本中其他所有主题词的第二共现次数；

按照以下公式，确定所述主题词相对于所述目标主题词的转移概率：

其中，P(t_j|t_i)表示所述主题词t_i相对于所述目标主题词t_j的转移概率，a表示所述第二共现次数，b表示所述第一共现次数。

可选地，所述根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的目标权重值，包括：

根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的中间权重值；

若所述相似文本中主题词的权重值处于收敛状态，或者执行确定所述相似文本中主题的中间权重值的步骤达到预设次数，则将所述中间权重值确定为所述目标权重值；

所述方法还包括：

若所述相似文本中主题词的权重值未处于收敛状态，且执行确定所述相似文本中主题词的中间权重值的步骤未达到预设次数，则将所述中间权重值作为所述初始权重值，再次执行根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的中间权重值的步骤。

可选地，所述根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的中间权重值，包括：

按照以下公式，根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的中间权重值：

其中，P'表示所述中间权重值，P₀表示所述初始权重值，M表示所述转移概率，k表示所述相似文本中主题词的个数，d表示预设系数。

可选地，所述在所述已标注主题词的多个文本中，确定所述目标文本的相似文本，包括：

对所述已标注主题词的多个文本进行聚类；

在聚类得到的多个文本类簇中，确定聚类中心对应的文本与所述目标文本相似度最高的目标类簇；

分别确定所述目标类簇中的每个文本与所述目标文本之间的相似度；

将所述目标类簇中相似度达到预设阈值的文本确定为所述目标文本的相似文本。

第二方面，本公开还提供一种主题词提取装置，应用于服务器，包括：

接收模块，用于接收客户端发送的用于确定目标文本的主题词的请求；

处理模块，用于响应于接收到所述请求，将所述目标文本输入到主题词模型中进行处理，得到所述目标文本的主题词；

其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述处理模块包括：

第一确定子模块，用于在所述已标注主题词的多个文本中，确定所述目标文本的相似文本；

第二确定子模块，用于确定所述相似文本中各主题词的目标权重值；

第三确定子模块，用于将所述目标权重值最大的主题词确定为所述目标文本的主题词。

第三方面，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面中任一项所述方法的步骤。

第四方面，本公开还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面中任一项所述方法的步骤。

通过上述技术方案，服务器在接收到客户端发送的用于确定目标文本的主题词的请求后，可以在已标注主题词的多个文本中，确定目标文本的相似文本，然后确定该相似文本中各主题词的目标权重值，最后将目标权重值最大的主题词作为目标文本的主题词。其中，由于相似文本中已标注的主题词之间具有相关性，从而按照本公开的方式提取主题词，可以避免提取出的主题词之间毫不相关的情况，保证提取出的主题词之间的相关性，以根据提取出的主题词更好地确定文本的主要内容。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据本公开一示例性实施例示出的一种主题词提取方法的实施场景示意图；

图2是根据本公开一示例性实施例示出的一种主题词提取方法的流程图；

图3是根据本公开另一示例性实施例示出的一种主题词提取方法的实施场景示意图；

图4是根据本公开另一示例性实施例示出的一种主题词提取方法的流程图；

图5是根据本公开一示例性实施例示出的一种主题词提取装置的框图；

图6是根据本公开一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

主题词是指可以表征文本主要内容的分词，例如，在基于内容的文本分类中，可以提取能够反映文本内容的主题词，然后根据提取到的主题词进行文本分类。相关技术中，对于主题词的提取大多是使用LDA算法(Latent Dirichlet Allocation，文档主题生成模型)对文本进行处理。其中，LDA是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了词袋的方法，将每一篇文档视为一个词频向量，并认为每一篇文档代表了一些主题所构成的Dirichlet分布，而每一个主题又代表了很多单词所构成的Dirichlet分布。但是，由于Dirichlet分布中各分量间的弱相关性，可能使得提取出的主题词之间毫不相关，从而无法根据该主题词确定文本的主要内容。

比如，在对投诉数据进行关键词提取的场景下，投诉数据是人为进行描述的，会产生一系列明确的主题词，这些主题词是投诉数据最明显的语义总结，主题词之间的相关性特别强，并不是不相关的，如果仍通过LDA算法进行主题词提取，可能使得提取出的主题之间毫不相关，得到与实际情况不相符的主题词提取结果。

另外，LDA算法对短文本进行主题词提取时，得到的文档与主题之间，主题与词之间的概率矩阵过于稀疏，所以单纯依靠LDA算法中的Dirichlet分布矩阵进行主题词提取，可能导致主题词提取的准确率较低。

有鉴于此，本公开实施例提供一种主题词提取方法、装置、存储介质及电子设备，以解决相关技术中提取出的主题词毫不相关的情况，保证提取出的主题词之间的相关性，提高主题词提取的准确率。

首先说明本公开实施例可能的实施场景。参照图1，该实施场景可以包括客户端101(图1中以电脑示意)和服务器102。比如，在投诉数据的场景下，将投诉文本作为目标文本，用户可以通过客户端101的信息输入框输入投诉文本，客户端101可以响应于接收到用户输入的投诉文本，向服务器102发送包括该投诉文本的主题词提取请求。服务器102接收到该主题词提取请求后，可以对该主题词提取请求包括的投诉文本进行主题词提取。进一步，服务器102还可以根据该主题词对投诉文本进行相关操作，比如根据主题词对投诉文本进行分类归档，等等。

下面对本公开实施例中的主题词提取方法进行详细举例说明。图2是根据本公开一示例性实施例示出的一种主题词提取方法的流程图。该方法可以应用于服务器，可以包括以下步骤：

步骤S201，接收客户端发送的用于确定目标文本的主题词的请求。

步骤S202，响应于接收到该请求，将目标文本输入到主题词模型中进行处理，得到目标文本的主题词。

其中，主题词模型中包括已标注主题词的多个文本，多个文本中的每个文本对应至少一个主题词，主题词模型用于通过如下方式，对目标文本进行处理：在已标注主题词的多个文本中，确定目标文本的相似文本；确定相似文本中各主题词的目标权重值；将目标权重值最大的主题词确定为目标文本的主题词。

通过上述技术方案，服务器在接收到客户端发送的用于确定目标文本的主题词的请求后，可以在已标注主题词的多个文本中，确定目标文本的相似文本，然后确定该相似文本中各主题词的目标权重值，最后将目标权重值最大的主题词作为目标文本的主题词。其中，由于相似文本中已标注的主题词之间具有相关性，从而可以避免提取出的主题词之间毫不相关的情况，保证提取出的主题词之间的相关性。

另外，本公开的主题词提取方法，由于不是单纯依靠目标文本的分布矩阵进行主题词提取，而是通过目标文本的相似文本进行主题词提取，从而可以避免相关技术中存在的短文本主题词提取准确率较低的问题，进而提高文本主题词提取的准确率。

在步骤S201之前，用户可以在客户端输入目标文本。比如，在投诉数据的场景下，客户端可以为投诉终端，目标文本可以为投诉文本。相应地，用户可以通过投诉终端的信息输入框输入目标文本，或者用户可以通过拨打投诉终端的电话通过语音输入目标文本，等等，本公开实施例对此不作限定。

在用户输入目标文本之后，客户端可以响应于目标文本的输入完成信息，向服务器发送用于确定目标文本的主题词的请求，从而在步骤S201中，服务器可以接收到客户端发送的用于确定目标文本的主题词的请求。比如，在上述举例中，用户通过投诉终端的信息输入框输入目标文本，该投诉终端可以响应于接收到用户点击“提交”按钮的信息，向服务器发送用于确定投诉文本的主题词的请求，从而服务器可以接收到该投诉终端发送的用于确定投诉文本的主题词的请求。

在可能的方式中，服务器接收到的请求可以包括语音投诉信息，相应地，服务器还可以对该语音投诉信息进行识别，得到该语音投诉信息对应的文本，然后将该语音投诉信息对应的文本作为目标文本。

例如，在投诉数据的场景下，客户端可以为投诉终端，用户可以拨打该投诉终端的电话进行投诉，该投诉终端可以获取到用户输入的语音投诉信息，然后将该语音投诉信息发送给服务器，即服务器接收到的请求可以包括语音投诉信息。在此种情况下，服务器可以对该语音投诉信息进行识别，得到该语音投诉信息对应的投诉文本，然后将该语音投诉信息对应的投诉文本作为目标文本进行主题词提取，从而服务器可以根据提取出的主题词对投诉文本进行分类归档等操作。

在可能的方式中，若目标文本为投诉文本，在得到目标文本的主题词之后，还可以根据该主题词，确定目标文本所属的投诉类型，然后将目标文本发送给该投诉类型对应的投诉处理终端，以使该投诉处理终端对目标文本进行处理。例如，投诉类型包括噪声投诉、水污染投诉和大气污染投诉，各投诉处理终端包括处理噪声投诉的投诉处理终端A、处理水污染投诉的投诉处理终端B以及处理大气污染投诉的投诉处理终端C。在此种情况下，将某一投诉文本作为目标文本进行主题词提取，提取出的主题词包括“建设”“施工”“噪声”。然后，根据提取出的上述主题词，可以确定该投诉文本所属的投诉类型为噪声投诉类型，从而可以将该目标文本发送给处理噪声投诉的投诉处理终端A进行处理。

为了使本领域技术人员更加理解本公开实施例中的主题词提取方法，下面对将目标文本输入到主题词模型中进行处理，得到目标文本的主题词的过程进行详细举例说明。

示例地，主题词模型可以包括多个文本，且该多个文本可以分别对应人为标注的具有相关性的至少一个主题词，从而可以保证根据该主题词模型提取出的主题词之间的相关性。比如，在投诉数据的场景下，可以对主题词模型中的多个投诉文本预先进行人为标注，使得该多个投诉文本分别对应至少一个具有相关性的主题词。

例如，主题词模型中的一个投诉文本内容为“近一个月以来，后面工地经常性晚上超过12点还在作业，早晨有时甚至四五点就开始作业，噪音非常大，严重影响休息，家里有小孩上学，请上级领导重视这个问题！非常感谢！”，可以预先人为标注该投诉文本的主题词为“建设”、“施工”和“噪声”，使得该投诉文本的多个主题词之间具有相关性。应当理解的是，对于主题词模型中的每个文本均可以按照进行人为标注主题词，以保证根据该主题词模型中多个文本已标注主题词之间的相关性，从而保证提取出的主题词之间的相关性。

进一步，为了对目标文本进行主题词提取，可以在主题词模型包括的已标注主题词的多个文本中，确定目标文本的相似文本。

在可能的方式中，可以对已标注主题词的多个文本进行聚类，然后在聚类得到的多个文本类簇中，确定聚类中心对应的文本与目标文本相似度最高的目标类簇，再分别确定目标类簇中的每个文本与目标文本之间的相似度，最后将目标类簇中相似度达到预设阈值的文本确定为目标文本的相似文本。

示例地，在进行聚类之前，可以将已标注主题词的多个文本进行向量化处理。具体地，可以先对已标注主题词的多个文本进行分词处理。例如，在上述对投诉文本标注的主题词为“建设”、“施工”和“噪声”的举例中，对该投诉文本进行分词处理后，可以得到如下分词结果：近、一个、月、以来、后面、工地、经常性、晚上、超过……。

应当理解的是，为了主题词提取结果的准确性，得到多个分词之后，还可以将多个分词中无意义的去除掉，比如，可以去除“的”、“是”这一类没有意义的助词或者副词，等等。

在对已标注主题词的多个文本中进行分词处理之后，针对分词后的每个文本，可以在Word2vec模型中确定该文本的各分词分别对应的词向量，然后将各分词对应的词向量均值作为目标文本的特征向量，以实现对目标文本的向量化处理。

其中，Word2vec模型是用来产生词向量的相关模型，可以将文本中的每个分词映射到一个词向量。因此，本公开实施例中，将已标注主题词的多个文本中进行分词处理后，可以在由Word2vec模型训练得到的词向量文件中找到每个分词所映射的词向量。应当理解的是，如果在词向量文件中没有找到分词对应的词向量，则可以将该分词的词向量记为零向量。

进一步，针对已标注主题词的多个文本中的每个文本，在Word2vec模型中确定该文本的各分词分别对应的词向量后，可以按照以下公式确定该文本中所有词向量的均值，从而将该词向量均值作为目标文本的特征向量：

其中，v表示文本的特征向量，n表示文本词中所有分词的数量，e_k表示文本中第k个分词的词向量，Num(e)表示文本中可以在Word2vec模型中查找到词向量的分词数量。

在将已标注主题词的多个文本进行向量化处理之后，可以对该多个文本进行聚类。比如，可以使用K-means聚类的方法进行聚类，以更好控制聚类中心的数量和每个聚类的大致范围。当然，在本公开具体实施时，也可以按照其他聚类方式对已标注主题词的多个文本进行聚类，本公开实施例对此不作限定。

进一步，可以在聚类得到的多个文本类簇中，确定聚类中心对应的文本与目标文本相似度最高的目标类簇。示例地，可以按照上述方式对目标文本进行向量化处理，然后按照以下公式，确定目标文本的特征向量与各聚类的中心向量之间的相似度，进而将该相似度作为目标文本与聚类中心对应的文本之间的相似度：

其中，sim(e₁,e₂)表示目标文本的特征向量e₁与任一聚类的中心向量e₂之间的相似度。

在得到目标文本与各聚类中心对应的文本之间的相似度之后，可以将该相似度进行大小排序，以确定相似度最高的目标类簇。然后，可以将该目标类簇中的所有文本确定为目标文本的相似文本。也即是说，在本公开实施例中，目标文本的相似文本可以有多个。

进一步，为了提高确定相似文本的准确率，从而提高根据该相似文本对目标文本进行主题词提取的准确性，还可以分别确定目标类簇中的每个文本与目标文本之间的相似度，然后将目标类簇中相似度达到预设阈值的文本确定为目标文本的相似文本。其中，可以按照公式(2)，确定目标类簇中每个文本的特征向量与目标文本的特征向量之间的相似度，从而确定目标类簇中的每个文本与目标文本之间的相似度。

示例地，预设阈值可以是根据实际应用情况确定的，本公开实施例对此不作限定。应当理解的是，预设阈值设定得越高，最终确定的相似文本的个数可能越少。反之，预设阈值设定得越低，最终确定的相似文本的个数可能越多。因此，如果想要得到更多的相似文本，则可以将预设阈值设定得较高，反之则可以将预设阈值设定得较低。

在分别确定目标类簇中的每个文本与目标文本之间的相似度之后，可以根据该相似度与预设阈值之间的比对结果，将相似度达到预设阈值的文本确定为目标文本的相似文本，而不是将目标类簇中的所有文本确定为目标文本的相似文本，从而可以提高确定相似文本的准确性，进而提高根据该相似文本对目标文本进行主题词提取的准确性。

在已标注主题词的多个文本中，确定目标文本的相似文本之后，可以确定相似文本中各主题词的目标权重值。

在可能的方式中，确定相似文本中各主题词的权重值可以是：先根据相似文本中各主题词的出现频率，确定相似文本中各主题词的初始权重值，并根据相似文本中主题词之间的共现次数，确定相似文本中主题词之间的转移概率，然后根据初始权重值和转移概率的乘积，确定相似文本中主题词的目标权重值。

例如，在投诉数据的场景下，目标文本为包括以下内容的投诉文本：“XX市XX镇XX路33号XX工地24小时施工作业…所产生的噪音已严重扰民，特别是晩上…噪音已经严重影响周边居民群众生活作息…特别是少年、儿童的睡眠质量！已多次投诉无果。该工地施工噪音已经超出多时…但不见有任何噪音降低…希望有关部门能够尽快处理。感谢！”，通过上述方式确定该目标文本的相似文本包括相似文本1和相似文本2。其中，相似文本1的内容为：“位于XX省XX市XX市市辖区XX路126-128楼下有一家名为XX工程部的公司，每晚十点以后还在作业，大声喧哗，机器切割的声音，持续到十一点左右不等，实在是无法正常作息，还请有关部门给予协调，谢谢！以下是晚上十一点二十左右拍的照片！”，相似文本2的内容为：“这个时间凌晨2点多在施工建设的工地还在作业，也打了110报警没法处理，房间门窗紧关噪音还达到八十分贝以上，希望你们重视一下，这一个月以来真是折磨够了！”。并且，相似文本1已标注的主题词包括“噪声”、“施工”和“生活”，相似文本2已标注的主题词包括“噪声”、“工业”、“建设”和“施工”。

在此种场景下，相似文本1和相似文本2共包括5个主题词，分别是“噪声”、“施工”、“生活”、“工业”和“建设”。其中，每个主题词的出现频率分别为：“噪声”出现2次，“施工”出现2次，“生活”出现1次，“工业”出现1次，“建设”出现1次。因此相似文本中主题词“噪声”的初始权重值为2，“施工”的初始权重值为2，“生活”的初始权重值为1，“工业”的初始权重值为1，“建设”的初始权重值为1。

另外，相似文本中主题词之间的共现次数可以是通过统计相似文本中各主题词共同出现的次数而确定的。比如，主题词“噪声”和“施工”分别在相似文本1和相似文本2中共同出现1次，因此可以确定主题词“噪声”和“施工”的共现次数为2，以此类推，可以确定出相似文本中各主题词之间的共现次数，从而可以根据该共现次数，确定相似文本中各主题词之间的转移概率。

通过上述方式，可以根据相似文本中各主题词之间的共现次数，确定转移概率，然后根据该转移概率与初始权重值的乘积，确定相似文本中主题词的目标权重值。其中，由于转移概率可以表征主题词之间的相关性，因此按照上述方式可以进一步保证提取出的主题词之间的相关性，避免提取出毫不相关的主题词。

在可能的方式中，确定转移概率的过程可以是：针对相似文本中的每个主题词，可以确定主题词与相似文本中目标主题词的第一共现次数、以及主题词与相似文本中其他所有主题词的第二共现次数，然后按照以下公式，确定主题词相对于目标主题词的转移概率：

其中，P(t_j|t_i)表示主题词t_i相对于目标主题词t_j的转移概率，a表示第二共现次数，b表示第一共现次数。

应当理解的是，目标主题词可以为相似文本的所有主题词中的任一主题词，其他所有主题词为相似文本中除所述主题词以外的所有主题词，包括目标主题词。并且，在本公开实施例中，转移概率应当是小于1的数值，且对于任一主题词，该主题词对于自身的转移概率应当是0。具体的，可以通过如下公式，对公式(3)的转移概率进行限制：

且P(t_i|t_i)＝0 (4)

其中，k表示相似文本中所有主题词的数量。

例如，在上述举例的场景下，确定主题词“施工”相对于目标主题词“噪声”的转移概率的过程可以是：先确定主题词“施工”与目标主题词“噪声”的第一共现次数。按照上述举例，主题词“噪声”和“施工”分别在相似文本1和相似文本2中共同出现1次，因此可以确定第一共现次数为2。然后可以确定主题词“施工”与其他所有主题词之间的第二共现次数。按照上述举例，主题词“施工”和“噪声”分别在相似文本1和相似文本2中共同出现1次，并且，主题词“施工”在相似文本1中与主题词“生活”共同出现1次，主题词“施工”在相似文本2中与主题词“工业”共同出现1次，主题词“施工”在相似文本2中与主题词“建设”共同出现1次，因此可以确定第二共现次数为5。因此，按照公式(3)，可以确定主题词“施工”相对于目标主题词“噪声”的转移概率为2/5。

应当理解的是，针对相似文本中的每个主题词，可以按照上述方式确定出每个主题词之间的转移概率。示例地，如果相似文本中包括k个主题词，那么可以得到如下转移概率矩阵M：

其中，t_k表示相似文本中第k个主题词。

在得到相似文本中各主题词的初始权重值以及各主题词之间的转移概率之后，可以根据该初始权重值和转移概率的乘积，确定相似文本中主题词的目标权重值。

示例地，如果相似文本有k个主题词，各主题词之间的转移概率如公式(5)所示，各主题词的初始权重值如以下公式所示：

因此，可以按照如下公式，确定相似文本中主题词的目标权重值P₁：

进一步，为了提高目标权重值的结果准确性，还可以迭代计算相似文本中各主题词的目标权重值。在可能的方式中，可以先根据初始权重值和转移概率的乘积，确定相似文本中主题词的中间权重值。若相似文本中主题词的权重值处于收敛状态，或者执行确定相似文本中主题的中间权重值的步骤达到预设次数，则将该中间权重值确定为目标权重值。或者，若相似文本中主题词的权重值未处于收敛状态，且执行确定相似文本中主题词的中间权重值的步骤未达到预设次数，则将该中间权重值作为初始权重值，再次执行根据初始权重值和所述转移概率的乘积，确定相似文本中主题词的中间权重值的步骤。

其中，收敛状态是指相似文本中各主题词的权重值基本保持不变的状态，即对主题词的权重值进行多次计算，得到的结果差异很小，在此种情况下，可以认为各主题词的权重值处于收敛状态。另外，预设次数可以是根据实际情况确定的，本公开实施例对此不作限定。

示例地，中间权重值可以是在迭代计算权重值的过程中得到初始权重值以后且得到目标权重值以前而确定的权重值。在可能的方式中，可以按照公式(7)确定相似文本中主题词的中间权重值。或者，在其他可能的方式中，为了加快主题词权重值的收敛速度，提高主题词提取的效率，还可以按照以下公式，根据初始权重值和转移概率的乘积，确定相似文本中主题词的中间权重值：

其中，P'表示中间权重值，P₀表示初始权重值，M表示转移概率，k表示相似文本中主题词的个数，d表示预设系数。

示例地，预设系数可以是大于0且小于1的数，具体的取值可以根据实际情况确定，本公开实施例对此不作限定。应当理解的是，该预设系数设定得越大，主题词权重值的收敛速度可能越快，从而可以更快速的得到主题词提取结果。反之该预设系数设定得越小，主题词权重值的收敛速度可能越慢，从而主题词提取效率较低。在可能的方式中，该预设系数可以设定为0.85。

在确定相似文本中主题词的中间权重值后，可以判断相似文本中主题词的权重值是否处于收敛状态，并判断执行确定相似文本中主题的中间权重值的步骤是否达到预设次数。如果相似文本中主题词的权重值处于收敛状态，或者执行确定相似文本中主题的中间权重值的步骤达到预设次数，则可以将该中间权重值确定为目标权重值，结束迭代计算权重值的过程。

否则，可以将该中间权重值作为初始权重值，继续迭代计算权重值的过程，即再次执行根据初始权重值和所述转移概率的乘积，确定相似文本中主题词的中间权重值的步骤，直到相似文本中主题词的权重值处于收敛状态，或者执行确定相似文本中主题的中间权重值的步骤达到预设次数，从而将迭代结束时各主题词的中间权重值确定目标权重值。

在确定目标权重值之后，可以将目标权重值最大的主题词确定为目标文本的主题词。示例地，可以将目标权重值最大的一个主题词确定为目标文本的主题词，或者可以将目标权重值最大的多个主题词确定为目标文本的主题词，本公开实施例对此不作限定，可以根据实际情况进行相应设定。

例如，在上述相似文本包括相似文本1和相似文本2的举例中，最终确定的主题词“噪声”的目标权重值为0.28312，“施工”的目标权重值为0.21037，“建设”的目标权重值为0.1297，“生活”的目标权重值为0.08712，“工业”的目标权重值为0.06325。在此种情况下，可以将目标权重值最大的一个主题词“噪声”确定为目标文本的主题词，或者可以将目标权重值最大的两个主题词“噪声”和“施工”确定为目标文本的主题词，等等。通过这样的方式，由于相似文本中已标注的主题词之间具有相关性，从而可以避免提取出的主题词之间毫不相关的情况，保证了提取出的主题词之间的相关性。

下面结合图3和图4通过另一个示例性实施例对应用本公开的主题词提取方法对投诉文本进行处理的过程进行说明。首先说明该过程的实施场景。该实施场景可以包括投诉终端301(图3中以具有网络功能的电话示意)、服务器302和投诉处理终端303(图3中以电脑示意)。其中，投诉处理终端可以包括多个，图3中以一个投诉处理终端进行示意。

参照图3，用户可以拨打投诉终端301的电话进行投诉，从而投诉终端301可以获取到语音投诉信息，并向服务器302发送包括该语音投诉信息的请求。进一步，服务器302可以接收到该语音投诉信息，从而对该语音投诉信息对应的投诉文本进行主题词提取，然后根据提取出的主题词，将该投诉文本发送给相应的投诉处理终端303进行处理。

具体的，参照图4，应用本公开的主题词提取方法对投诉文本进行处理的过程可以包括以下步骤：

步骤S401，接收投诉终端发送的用于确定目标文本的主题词的请求，该请求包括语音投诉信息。

步骤S402，对语音投诉信息进行识别，得到语音投诉信息对应的文本。

步骤S403，将该语音投诉信息对应的文本作为目标文本，在主题词模型已标注主题词的多个文本中，确定目标文本的相似文本。

步骤S404，根据相似文本中各主题词的出现频率，确定相似文本中各主题词的初始权重值。

步骤S405，针对相似文本中的每个主题词，确定第一共现次数和第二共现次数。其中，第一共现次数为主题词与相似文本中目标主题词的共现次数，第二共现次数为主题词与相似文本中其他所有主题词的共现次数。

步骤S406，将第一共现次数除以第二共现次数的结果确定为主题词相对于目标主题词的转移概率。

步骤S407，根据初始权重值和转移概率的乘积，确定相似文本中主题词的中间权重值。

步骤S408，判断相似文本中主题词的权重值是否处于收敛状态，或者执行确定所述相似文本中主题的中间权重值的步骤是否达到预设次数，如果是，则进入步骤S409，否则进入步骤S410。

步骤S409，将中间权重值确定为目标权重值。

步骤S410，将中间权重值作为初始权重值，进入步骤S407。

步骤S411，将目标权重值最大的主题词确定为目标文本的主题词。

步骤S412，根据该主题词，确定目标文本所属的投诉类型。

步骤S413，将目标文本发送给投诉类型对应的投诉处理终端，以使该投诉处理终端对目标文本进行处理。

上述各步骤的具体实施方式已在上文进行详细举例说明，这里不再赘述。另外应当理解的是，对于上述方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本公开并不受上文所描述的动作顺序的限制。其次，本领域技术人员也应该知悉，上文所描述的实施例属于优选实施例，所涉及的步骤并不一定是本公开所必须的。

通过上述方式，由于相似文本中已标注的主题词之间具有相关性，从而按照上述方式提取主题词，可以避免提取出的主题词之间毫不相关的情况，保证提取出的主题词之间的相关性，并且可以提高主题词提取的准确性，从而更加准确的将投诉文本发送给对应投诉处理终端进行处理。

例如，分别通过相关技术的LDA算法和本公开的主题词提取方法对同一投诉文本进行主题词提取。LDA算法提取出“水污染”和“鞭炮”这两个几乎不相关的主题词，而本公开的主题词提取方法可以提取出“水污染”和“异味”这两个具有较强的相关性主题词，避免了提取出的主题词之间毫不相关的情况。

又例如，对6万个投诉文本，分别使用本公开的主题词提取方法与相关技术中的LDA算法进行主题词提取，其结果如表1所示：

表1

其中，针对6万个投诉文本中的每一个投诉文本，top1表示该投诉文本中目标权重值最大的主题词在该投诉文本提取出的主题词中的准确率，top2表示该投诉文本中目标权重值第二大的主题词在该投诉文本提取出的主题词中的准确率，top3表示该投诉文本中目标权重值第三大的主题词在该投诉文本提取出的主题词中的准确率，top4表示该投诉文本中目标权重值第四大的主题词在该投诉文本提取出的主题词中的准确率。

由表1所示的结果可知，本公开相较于LDA算法提高了主题词提取的准确率，尤其在后续的top3和top4上有了很大的提高。

基于同一发明构思，参照图5，本公开实施例还提供一种主题词提取装置500，应用于服务器，可以通过软件、硬件或两者结合的方式成为服务器的部分或全部，包括：

接收模块501，用于接收客户端发送的用于确定目标文本的主题词的请求；

处理模块502，用于响应于接收到所述请求，将所述目标文本输入到主题词模型中进行处理，得到所述目标文本的主题词；

其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述处理模块502包括：

第一确定子模块5021，用于在所述已标注主题词的多个文本中，确定所述目标文本的相似文本；

第二确定子模块5022，用于确定所述相似文本中各主题词的目标权重值；

第三确定子模块5023，用于将所述目标权重值最大的主题词确定为所述目标文本的主题词。

可选地，所述目标文本为投诉文本，所述装置还包括：

第一确定模块，用于根据所述主题词，确定所述目标文本所属的投诉类型；

发送模块，用于将所述目标文本发送给所述投诉类型对应的投诉处理终端，以使所述投诉处理终端对所述目标文本进行处理。

可选地，所述请求包括语音投诉信息，所述装置还包括：

识别模块，用于对所述语音投诉信息进行识别，得到所述语音投诉信息对应的文本；

第二确定模块，用于将所述语音投诉信息对应的文本作为所述目标文本。

可选地，所述第二确定子模块5022用于：

可选地，所述第二确定子模块5022用于：

当所述相似文本中主题词的权重值处于收敛状态时，或者当执行确定所述相似文本中主题的中间权重值的步骤达到预设次数时，则所述中间权重值确定为所述目标权重值；

所述装置还包括：

通知模块，用于当所述相似文本中主题词的权重值未处于收敛状态，且执行确定所述相似文本中主题词的中间权重值的步骤未达到预设次数时，将所述中间权重值作为所述初始权重值，并通知所述第二确定子模块5022再次执行根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的中间权重值的步骤。

可选地，所述第二确定子模块5022用于：

可选地，所述第一确定子模块5021用于：

对所述已标注主题词的多个文本进行聚类；

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过上述任一装置，由于相似文本中已标注的主题词之间具有相关性，从而可以避免提取出的主题词之间毫不相关的情况，保证提取出的主题词之间的相关性。另外，由于不是单纯依靠目标文本的分布矩阵进行主题词提取，而是通过目标文本的相似文本进行主题词提取，从而可以避免相关技术中存在的短文本主题词提取准确率较低的问题，进而提高文本主题词提取的准确率。

基于同一发明构思，本公开实施例还提供一种电子设备，包括：

存储器，其上存储有计算机程序；

在可能的方式中，该电子设备的框图可以如图6所示。参照图6，电子设备600可以被提供为一服务器，可以包括处理器622，其数量可以为一个或多个，以及存储器632，用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器622可以被配置为执行该计算机程序，以执行上述的主题词提取方法。

另外，电子设备600还可以包括电源组件626和通信组件650，该电源组件626可以被配置为执行电子设备600的电源管理，该通信组件650可以被配置为实现电子设备600的通信，例如，有线或无线通信。此外，该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM，LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的主题词提取方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器632，上述程序指令可由电子设备600的处理器622执行以完成上述的主题词提取方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的主题词提取方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种主题词提取方法，其特征在于，应用于服务器，包括：

接收客户端发送的用于确定目标文本的主题词的请求；

其中，所述主题词模型中包括已标注主题词的多个文本，所述多个文本中的每个文本对应至少一个主题词，所述主题词模型用于通过如下方式，对所述目标文本进行处理：

根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的目标权重值；

2.根据权利要求1所述的方法，其特征在于，所述目标文本为投诉文本，所述方法还包括：

根据所述主题词，确定所述目标文本所属的投诉类型；

3.根据权利要求1所述的方法，其特征在于，所述请求包括语音投诉信息，所述方法还包括：

将所述语音投诉信息对应的文本作为所述目标文本。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述相似文本中主题词之间的共现次数，确定所述相似文本中主题词之间的转移概率，包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的目标权重值，包括：

所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的中间权重值，包括：

7.根据权利要求1-3任一所述的方法，其特征在于，所述在所述已标注主题词的多个文本中，确定所述目标文本的相似文本，包括：

对所述已标注主题词的多个文本进行聚类；

8.一种主题词提取装置，其特征在于，应用于服务器，包括：

第二确定子模块，用于根据所述相似文本中各主题词的出现频率，确定所述相似文本中各主题词的初始权重值，并根据所述相似文本中主题词之间的共现次数，确定所述相似文本中主题词之间的转移概率；以及根据所述初始权重值和所述转移概率的乘积，确定所述相似文本中主题词的目标权重值；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。