CN112597300A

CN112597300A - 文本聚类方法、装置、终端设备及存储介质

Info

Publication number: CN112597300A
Application number: CN202011473162.9A
Authority: CN
Inventors: 郑勇升
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-04-02

Abstract

本申请适用于人工智能技术领域，提供了一种文本聚类方法、装置、终端设备及存储介质，其中，所述方法通过从待聚类文本中提取N个关键词；所述N为大于1的整数；将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签；将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别；所述标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。以解决线上应用场景的文本聚类效率低的问题。另外，本申请还涉及区块链技术。

Description

文本聚类方法、装置、终端设备及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种文本聚类方法、装置、终端设备及计算机可读存储介质。

背景技术

文本聚类是自然语言处理领域十分常见的算法模型，目前业界也有了许多成熟的算法，比如生成文本向量之后使用Kmeans、KNN等传统聚类算法，基于文本主题模型LDA算法的聚类，或者基于关键词抽取叠加社区发现算法的聚类。文本聚类算法可以将杂乱的内容聚合到不同的类别中，有利于对文本的使用和理解，广泛应用于内容服务的多种场景。

传统的文本聚类方法大多数仅适用于离线挖掘场景，对于线上应用场景，每天都有大量的新文本进来，传统聚类算法往往需要对全量数据进行计算，如果每次都对全量文本进行聚类操作，效率将十分低下。同时传统的文本聚类算法的效果往往很难达到线上应用的要求，一些聚类出来的错误样本也很难控制。

发明内容

有鉴于此，本申请实施例提供了一种文本聚类方法、装置、终端设备及计算机可读存储介质，以解决现有技术中线上应用场景的文本聚类效率低的问题。

本申请实施例的第一方面提供了一种文本聚类方法，包括：

从待聚类文本中提取N个关键词；所述N为大于1的整数；

将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签；

将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别；所述标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。

在一个实施示例中，所述从待聚类文本中提取N个关键词，包括：

提取所述待聚类文本的标题以及正文中包含的词组，得到词组合集；

对所述词组合集进行关键词提取，得到所述关键词。

在一个实施示例中，所述对所述词组合集进行关键词提取，得到所述关键词，包括：

计算所述词组合集中每个所述词组在整个所述词组合集中的权重值；

将所述权重值满足预设条件的词组作为所述关键词。

在一个实施示例中，所述将所述待聚类文本以及所述待聚类文本对应的N 个关键词输入文本分类模型，得到分类标签包括：

将所述待聚类文本输入神经网络进行特征提取，得到特征向量；

查询预设的向量表，分别确定所述待聚类文本对应的各个所述关键词的词向量；

将所述N个关键词的所述词向量与所述特征向量进行合并，得到总特征向量；

将所述总特征向量输入文本分类器，得到分类标签。

在一个实施示例中，在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之前，还包括：

获取若干历史文本对应的历史关键词构建标签库；

采用文本聚类算法将所述标签库中的标签聚类为若干文本类别；

根据所有所述文本类别关联的标签生成标签分布词典。

在一个实施示例中，所述将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别，包括：

采用多模匹配算法构建所述标签分布词典对应的字典树；

遍历所述字典树查找所述分类标签，得到所述分类标签在所述标签分布词典中所属的文本类别；

将所述分类标签在所述标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。

在一个实施示例中，在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之后，包括：

将所述待聚类文本的聚类类别上传至区块链。

本申请实施例的第二方面提供了一种文本聚类装置，包括：

关键词提取模块，用于从待聚类文本中提取N个关键词；所述N为大于1 的整数；

分类模块，用于将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签；

聚类模块，用于将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别；所述标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。

本申请实施例的第四方面提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在终端设备上运行的计算机程序，所述处理器执行所述计算机程序时实现第一方案提供的文本聚类方法的各步骤。

本申请实施例的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现第一方案提供的文本聚类方法的各步骤。

实施本申请实施例提供的一种文本聚类方法、文本聚类装置、终端设备及计算机可读存储介质具有以下有益效果：

本申请实施例提供的一种文本聚类方法，从待聚类文本中提取N个关键词；所述N为大于1的整数；通过从待聚类文本中提取N个关键词得到该待聚类文本的特征信息；将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签；结合待聚类文本的N个关键词以及待聚类文本的全文内容进行文本分类，提高文本分类准确率；将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。预设的标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签，通过将分类标签在预设的标签分布词典中所属的文本类别作为待聚类文本的聚类类别，实现快速完成待聚类文本的聚类。对于线上应用场景中的新文档，只需经过标签匹配将可以将待聚类文本聚合到标签分布词典具有的类别中，聚类效率显著提升。且通过自定义预设的标签分布词典包含的文本类别以及文本类别对应的标签，能够实现对聚类效果的精确控制。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种文本聚类方法的实现流程图；

图2是本申请实施例二提供的一种文本聚类装置的结构框图；

图3是本申请实施例三提供的一种终端设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例所涉及的文本聚类方法，本实施例可适用于对文本进行聚类的应用场景。请参阅图1，图1示出了本申请实施例提供的一种文本聚类方法的实现流程图。该方法可以由文本聚类装置执行，该装置可为控制设备或终端平板、PC或服务器等；在本申请实施例中以文本聚类装置作为执行主体进行说明，本实施例提供的文本聚类方法具体包括如下步骤：

S110、从待聚类文本中提取N个关键词；所述N为大于1的整数。

随着数据信息电子化的推进，业务办理以及信息推广等环节均会产生大量的数据内容，而这些数据内容往往以文本的形式存在。在线上应用场景中，为实现目标内容的获取，有时还需要定时进行数据挖掘并将挖掘到的文本上传服务器。对于服务器中原本储存有的海量文本和每个时间节点不断接收到新上传的大量文本，为便于对服务器中的文本进行查找，可以通过对服务器中存在的所有文本进行聚类，得到各个文本所属的类别，从而能够根据文本类别对目标文本进行查找。传统的文本聚类方法通常需要对服务器中存储的全量文本进行聚类计算，而服务器中存储的文本有可能在每个时间节点又不断接收到新上传的大量文本，每接收到一次新上传文本就进行一次文本聚类，导致文本聚类效率十分低下。为解决这一问题，可通过单独对各个待聚类文本进行标签匹配以实现文本聚类。具体的，可通过从待聚类文本中提取具有该待聚类文本的特征信息的N个关键词，然后根据待聚类文本提取到的N个关键词以及待聚类文本的文本内容实现待聚类文本的标签匹配；N为大于1的整数。

在一个实施示例中，从待聚类文本中提取N个关键词的具体过程包括：提取所述待聚类文本的标题以及正文中包含的词组，得到词组合集；对所述词组合集进行关键词提取，得到所述关键词。

由于待聚类文本中的包含长度不同的语句，语句中包含定语以及状语等无意义词语，不便于进行关键词的提取。因此需对待聚类文本的文本内容进行分词处理。具体的，由于文本格式中通常包含文本标题以及文本正文，在进行待聚类文本的文本内容分词处理的过程中，需结合待聚类文本的标题以及正文中的语句一起进行分词处理，提取待聚类文本的标题以及正文中包含的词组，从而得到待聚类文本对应的词组合集。然后对得到的词组合集进行关键词提取，得到待聚类文本对应的N个关键词。

可选的，可采用分词算法对待聚类文本的文本内容进行分词，且分词后得到的各个词组均具有词性标注。若待聚类文本为中文文本，则分词算法可以为中文分词组件(例如jieba分词)。详细举例说明，若待聚类文本的文本内容为：育儿主要指的是对0～6岁年龄阶段的幼儿所实施的教育。一个孩子还是胎儿的时候，他就能感受…等文字内容。提取待聚类文本的标题以及正文中包含的词组，得到词组合集包括：育儿；0～6岁；年龄阶段；幼儿；实施；教育；孩子；胎儿；感受…等词组。

在一个实施示例中，为准确提取出待聚类文本的关键词，对所述词组合集进行关键词提取，得到所述关键词的具体过程包括：计算所述词组合集中每个所述词组在整个所述词组合集中的权重值；将所述权重值满足预设条件的词组作为所述关键词。

具体的，可以采用TextRank算法对所述词组合集进行关键词提取，得到所述关键词。由于分词后得到的词组合集中每个词组具有词性标注，TextRank算法根据预设词性限定规则对词组合集中的词组进行筛选，将不符合预设词性限定规则的词组从词组合集中剔除并同时将停用词过滤掉，从而使得词组合集中保留下符合预设词性限定规则的词组。可选的，预设词性限定规则可为保留词性为名词、动词或动名词的词组。

然后计算词组合集中保留下来的符合预设词性限定规则的各个词组在整个词组合集中的权重值。详细的，通过TextRank算法构建词组合集中保留下来的符合预设词性限定规则的各个词组G＝(V,E)，其中V为节点集，由词组合集中保留下来的符合预设词性限定规则的各个词组组成各个节点，然后采用共现关系(co-occurrence)构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，根据网页排序算法PageRank的计算公式对各个节点(词组)的权重进行计算，得到词组合集中保留下来的符合预设词性限定规则的各个词组在整个词组合集中的权重值。可选的，得到词组合集中保留下来的符合预设词性限定规则的各个词组在整个词组合集中的权重值后，还可进行专家评估，若任一词组属于待聚类文本的标题内容，则将预设参数与该词组对应的权重值叠加，并将更新后的权重值作为该词组的权重值；实现对待聚类文本的标题内容中出现的词组进行加权。

得到词组合集中保留下来的符合预设词性限定规则的各个词组在整个词组合集中的权重值后，将所述权重值满足预设条件的词组作为所述关键词。具体的，预设条件可以为选取权重值最大的N个词组作为关键词，则将所述权重值满足预设条件的词组作为所述关键词的过程可为：根据各个词组对应的权重值大小以从大至小的顺序排序，确定按顺序排列的N个词组为关键词。可选的， N可设为3。

S120、将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签。

为实现待聚类文本的标签匹配，可以将待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签。结合待聚类文本的N个关键词以及待聚类文本的全文内容进行文本分类，提高文本分类准确率。

在一个实施示例中，将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签的具体过程包括步骤11至步骤14：

步骤11、将所述待聚类文本输入神经网络进行特征提取，得到特征向量；

为提取待聚类文本的全文特征信息，可通过将待聚类文本输入神经网络进行卷积计算提取特征信息，输出待聚类文本的特征向量。具体的，该神经网络可为预先训练好的TextCNN深度学习模型；以具有类别标签的若干历史文本作为训练数据，根据上述训练数据对神经网络进行训练得到TextCNN深度学习模型。

步骤12、查询预设的向量表，分别确定所述待聚类文本对应的各个所述关键词的词向量；

为提高待聚类文本的分类准确率，还可将提取到的特征向量与待聚类文本对应的N个关键词对应的特征信息结合，增强待聚类文本的特征信息。具体的，由于提取待聚类文本的全文特征信息得到的特征向量为向量不能直接与待聚类文本对应的N个关键词进行信息融合，需将待聚类文本对应的N个关键词转换为对应的向量。详细的，可通过查询预设的向量表，分别确定所述待聚类文本对应的各个所述关键词的词向量；其中，该预设的向量表(embeding_table)对各个词组进行编码得到各个词组对应的向量(embbeding)。通过 embbeding_lookup的方式能够从预设的向量表里查找出待聚类文本对应的各个关键词的词向量。

步骤13、将所述N个关键词的所述词向量与所述特征向量进行合并，得到总特征向量；

由于待聚类文本对应具有N个关键词，为实现将N个关键词的词向量与特征向量进行合并，还需在合并之前对待聚类文本对应具有N个关键词的词向量进行求和，然后再将待聚类文本对应具有N个关键词的词向量的和值与提取待聚类文本的全文特征信息得到的特征向量拼接起来，得到总特征向量，实现增强待聚类文本的特征信息。

步骤14、将所述总特征向量输入文本分类器，得到分类标签。

得到待聚类文本的总特征向量后，将该总特征向量输入文本分类器，得到分类标签，实现待聚类文本的标签匹配。具体的，该文本分类器可为全连接分类器，由具有若干预设标签类别的若干历史文本训练生成。可根据聚类需求自定义预设标签类别，例如预设标签类别可为健康、育儿和情感等类别。将该总特征向量输入文本分类模型中的训练好的文本分类器，文本分类器通过对总特征向量进行各个预设标签类别的概率计算，得到分类标签。

S130、将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别；所述标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。

由于预设的标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签，标签分布词典中具有的聚类文本类别对应为历史文本聚类后得到的文本类别。通过将待聚类文本的分类标签在预设的标签分布词典中所属的文本类别作为待聚类文本的聚类类别，实现单独对各个待聚类文本进行标签匹配以实现文本聚类，实现快速完成待聚类文本的聚类。对于线上应用场景中的新文档，只需经过标签匹配将可以将待聚类文本聚合到标签分布词典具有的类别中，无需再结合原有的历史文本再次进行总聚类，聚类效率显著提升。且通过自定义预设的标签分布词典包含的文本类别以及文本类别对应的标签，能够实现对聚类效果的精确控制。

在一个实施示例中，可根据若干历史文本的关键词标签进行聚类生成预设的标签分布词典。在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之前，还包括步骤21至步骤23：

步骤21、获取若干历史文本对应的历史关键词构建标签库；

具体的，可获取若干历史文本对应的历史关键词构建标签库。当步骤110 执行后得到待聚类文本对应的N个关键词，可将提取到的N个关键词收录在标签库中，完成获取历史文本对应的历史关键词构建标签库。详细的，收录在标签库中的关键词还需经过审核和筛选，将重复和无效标签剔除，并限定后续新增的标签在这个标签库范围内。

步骤22、采用文本聚类算法将所述标签库中的标签聚类为若干文本类别；

构建标签库后，可采用文本聚类算法(例如tf-idf+kmeans)将所述标签库中的标签聚类为若干文本类别，完成对关键词标签的聚类。

步骤23、根据所有所述文本类别关联的标签生成标签分布词典。

具体的，若采用文本聚类算法将标签库中的标签聚类出“孕妈”、“新生儿”、“饮食”、“教育”、“健康”……等等多个类别；接下来我们选取每个类别下的关键词标签，要求出现在5篇及以上文章，同时随机挑选出5篇文章，如果标签能代表这5篇文章的内容则保留这个标签，如“孕妈”类别下有 “产检”、“胎动”、“孕吐”……等等标签。根据所有文本类别关联的标签生成标签分布词典，如

“育儿孕妈分娩

育儿孕妈胎动

育儿孕妈胎盘”

……。

在一个实施示例中，将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别的具体过程包括步骤31至步骤33：

步骤31、采用多模匹配算法构建所述标签分布词典对应的字典树；

为实现查找待聚类文本对应的分类标签在预设的标签分布词典中所属的文本类别，可采用多模匹配算法进行查找。具体的，由于预设的标签分布词典具有各个文本类别对应的标签，多模匹配算法根据预设的标签分布词典包含的所有标签构建该标签分布词典对应的字典树，该字典树通过标签分布词典包含的各个标签的公共前缀进行串联构建，从而根据字典树中各个标签的公共前缀节约了字符串的查询时间。

步骤32、遍历所述字典树查找所述分类标签，得到所述分类标签在所述标签分布词典中所属的文本类别；

构建好标签分布词典对应的字典树后，为实现待聚类文本对应的分类标签在预设的标签分布词典中所属的文本类别的查找，需遍历字典树查找待聚类文本对应的分类标签，当在字典树中查找到待聚类文本对应的分类标签，就能够确定该分类标签在标签分布词典中所属的文本类别。

步骤33、将所述分类标签在所述标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。

通过将待聚类文本的分类标签在预设的标签分布词典中所属的文本类别作为待聚类文本的聚类类别，实现单独对各个待聚类文本进行标签匹配以实现文本聚类，实现快速完成待聚类文本的聚类。对于线上应用场景中的新文档，只需经过标签匹配将可以将待聚类文本聚合到标签分布词典具有的类别中，聚类效率显著提升。

以上可以看出，本实施例提供的一种文本聚类方法，从待聚类文本中提取N个关键词；所述N为大于1的整数；通过从待聚类文本中提取N个关键词得到该待聚类文本的特征信息；将所述待聚类文本以及所述待聚类文本对应的N 个关键词输入文本分类模型，得到分类标签；结合待聚类文本的N个关键词以及待聚类文本的全文内容进行文本分类，提高文本分类准确率；将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。预设的标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签，通过将分类标签在预设的标签分布词典中所属的文本类别作为待聚类文本的聚类类别，实现快速完成待聚类文本的聚类。对于线上应用场景中的新文档，只需经过标签匹配将可以将待聚类文本聚合到标签分布词典具有的类别中，聚类效率显著提升。且通过自定义预设的标签分布词典包含的文本类别以及文本类别对应的标签，能够实现对聚类效果的精确控制。

在本申请的所有实施例中，基于文本聚类方法得到对应的控制方案，具体来说，将聚类类别上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该聚类类别，以便查证聚类类别是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

实施例二

请参阅图2，图2是本申请实施例提供的一种文本聚类装置的结构框图。本实施例中该移动终端包括的各单元用于执行图1对应的实施例中的各步骤。具体请参阅图1以及图1所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图2，文本聚类装置20包括：

关键词提取模块201，用于从待聚类文本中提取N个关键词；所述N为大于1的整数；

分类模块202，用于将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签；

聚类模块203，用于将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别；所述标签分布词典根据历史文本的聚类结果生成，包含若干聚类文本类别以及各个所述聚类文本类别关联的标签。

在一个实施示例中，关键词提取模块包括：

词组合集提取单元，用于提取所述待聚类文本的标题以及正文中包含的词组，得到词组合集；

关键词提取单元，用于对所述词组合集进行关键词提取，得到所述关键词。

在一个实施示例中，关键词提取单元包括：

权重计算子单元，用于计算所述词组合集中每个所述词组在整个所述词组合集中的权重值；

关键词确定子单元，用于将所述权重值满足预设条件的词组作为所述关键词。

在一个实施示例中，分类模块包括：

特征提取提取单元，用于将所述待聚类文本输入神经网络进行特征提取，得到特征向量；

词向量确定单元，用于查询预设的向量表，分别确定所述待聚类文本对应的各个所述关键词的词向量；

总特征向量计算单元，用于将所述N个关键词的所述词向量与所述特征向量进行合并，得到总特征向量；

分类单元，用于将所述总特征向量输入文本分类器，得到分类标签。

在一个实施示例中，文本聚类装置还包括：

标签库构建模块，用于获取若干历史文本对应的历史关键词构建标签库；

标签聚类模块，用于采用文本聚类算法将所述标签库中的标签聚类为若干文本类别；

标签分布词典生成模块，用于根据所有所述文本类别关联的标签生成标签分布词典。

在一个实施示例中，聚类模块包括：

字典树构建单元，用于采用多模匹配算法构建所述标签分布词典对应的字典树；

遍历单元，用于遍历所述字典树查找所述分类标签，得到所述分类标签在所述标签分布词典中所属的文本类别；

聚类单元，用于将所述分类标签在所述标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。

本实施例提供的一种文本聚类装置，从待聚类文本中提取N个关键词；所述N为大于1的整数；通过从待聚类文本中提取N个关键词得到该待聚类文本的特征信息；将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签；结合待聚类文本的N个关键词以及待聚类文本的全文内容进行文本分类，提高文本分类准确率；将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别。预设的标签分布词典具有各个文本类别对应的标签，通过将分类标签在预设的标签分布词典中所属的文本类别作为待聚类文本的聚类类别，实现快速完成待聚类文本的聚类。对于线上应用场景中的新文档，只需经过标签匹配将可以将待聚类文本聚合到标签分布词典具有的类别中，聚类效率显著提升。且通过自定义预设的标签分布词典包含的文本类别以及文本类别对应的标签，能够实现对聚类效果的精确控制。

实施例三

图3是本申请实施例三提供的一种终端设备的结构框图。如图3所示，该实施例的终端设备30包括：处理器31、存储器32以及存储在所述存储器32 中并可在所述处理器31上运行的计算机程序33，例如文本聚类方法的程序。处理器31执行所述计算机程序33时实现上述各个文本聚类方法各实施例中的步骤，例如图1所示的S110至S130。或者，所述处理器31执行所述计算机程序33时实现上述图3对应的实施例中各单元的功能，例如，图2所示的模块 201至203的功能，具体请参阅图2对应的实施例中的相关描述，此处不赘述。

示例性的，所述计算机程序33可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器32中，并由所述处理器31执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序33在所述终端30中的执行过程。例如，所述计算机程序33可以被分割成关键词提取模块、分类模块以及聚类模块，各单元具体功能如上所述。

所述转台设备可包括，但不仅限于，处理器31、存储器32。本领域技术人员可以理解，图3仅仅是终端设备30的示例，并不构成对终端设备30的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器31可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器32可以是所述终端设备30的内部存储单元，例如终端设备30 的硬盘或内存。所述存储器32也可以是所述终端设备30的外部存储设备，例如所述终端设备30上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器32还可以既包括所述终端设备30的内部存储单元也包括外部存储设备。所述存储器32用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器32还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种文本聚类方法，其特征在于，包括：

从待聚类文本中提取N个关键词；所述N为大于1的整数；

2.如权利要求1所述的文本聚类方法，其特征在于，所述从待聚类文本中提取N个关键词，包括：

对所述词组合集进行关键词提取，得到所述关键词。

3.如权利要求2所述的文本聚类方法，其特征在于，所述对所述词组合集进行关键词提取，得到所述关键词，包括：

将所述权重值满足预设条件的词组作为所述关键词。

4.如权利要求1所述的文本聚类方法，其特征在于，所述将所述待聚类文本以及所述待聚类文本对应的N个关键词输入文本分类模型，得到分类标签包括：

将所述总特征向量输入文本分类器，得到分类标签。

5.如权利要求1所述的文本聚类方法，其特征在于，在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之前，还包括：

获取若干历史文本对应的历史关键词构建标签库；

根据所有所述文本类别关联的标签生成标签分布词典。

6.如权利要求1所述的文本聚类方法，其特征在于，所述将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别，包括：

采用多模匹配算法构建所述标签分布词典对应的字典树；

7.根据权利要求1所述的文本聚类方法，其特征在于，在将所述分类标签在预设的标签分布词典中所属的文本类别作为所述待聚类文本的聚类类别之后，包括：

将所述待聚类文本的聚类类别上传至区块链。

8.一种文本聚类装置，其特征在于，包括：

关键词提取模块，用于从待聚类文本中提取N个关键词；所述N为大于1的整数；

9.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。