CN115329754A

CN115329754A - 一种文本主题提取方法、装置、设备及存储介质

Info

Publication number: CN115329754A
Application number: CN202211019492.XA
Authority: CN
Inventors: 桑永龙; 洪源; 郑伟伟; 倪修峰; 范磊; 张友国; 刘江; 吕军; 胡少云
Original assignee: Iflytek Information Technology Co Ltd
Current assignee: Iflytek Information Technology Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-11-11

Abstract

本申请提出一种文本主题提取方法、装置、设备及存储介质，该方法包括：获取目标文本集合中的各条文本的文本特征；对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果；对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题。采用上述的文本主题提取方法，能够提高文本主题提取的准确度。

Description

一种文本主题提取方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种文本主题提取方法、装置、设备及存储介质。

背景技术

当前对于文本数据的主题提取主要分为文本聚类和主题提取两步骤进行。其中，现有的文本聚类方法往往需要定义文本数据聚类的类别数，例如k-means算法，因此对于海量文本数据的分类，用户通常会因为无法提前获得数据的分类个数情况，而为聚类带来极大的挑战。

目前，业内也有将不指定聚类类别数的文本聚类算法应用于海量文本主题提取的方案。在这些方案中，通常存在文本聚类长尾问题，从而导致文本聚类不合理，进而导致文本主题提取不准确。

因此，当前的文本数据主题提取方案，均难以取得准确的主题提取结果。

发明内容

基于上述技术现状，本申请提出一种文本主题提取方法、装置、设备及存储介质，能够提高文本主题提取的准确度。

本申请第一方面提出一种文本主题提取方法，包括：

获取目标文本集合中的各条文本的文本特征；

对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果；

对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题。

在一种实现方式中，所述对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果，包括：

通过对所述目标文本集合中的各条文本的文本特征进行聚类，将所述目标文本集合中的文本划分为至少一个文本簇；

通过对所述至少一个文本簇的语义特征进行聚类，得到对所述目标文本集合的文本聚类结果。

在一种实现方式中，所述通过对所述目标文本集合中的各条文本的文本特征进行聚类，将所述目标文本集合中的文本划分为至少一个文本簇，包括：

根据所述目标文本集合中的各条文本的文本特征之间的相似度，将平均相似度小于设定的相似度阈值的文本特征聚类至同一文本特征簇，得到至少一个文本特征簇；其中，所述平均相似度表示每两个文本特征的相似度的均值；

根据文本特征与文本的对应关系，确定与所述至少一个文本特征簇对应的至少一个文本簇。

在一种实现方式中，根据所述目标文本集合中的各条文本的文本特征之间的相似度，将平均相似度小于设定的相似度阈值的文本特征聚类至同一文本特征簇，得到至少一个文本特征簇，包括：

从所述目标文本集合中的各条文本的文本特征中，依次遍历未聚类的每一文本特征，每遍历到一个未聚类的文本特征时，执行如下处理：

依次计算该文本特征与各个已聚类文本特征簇中的每一文本特征之间的相似度均值；

若该文本特征与任一已聚类文本特征簇中的每一文本特征之间的相似度均值小于设定的相似度阈值，则将该文本特征聚类至该已聚类文本特征簇；

若该文本特征与所有已聚类文本特征簇中的每一文本特征之间的相似度均值均不小于设定的相似度阈值，则新建文本特征簇，并将该文本特征聚类至新建的文本特征簇中。

在一种实现方式中，所述通过对所述至少一个文本簇的语义特征进行聚类，得到对所述目标文本集合的文本聚类结果，包括：

对所述至少一个文本簇分别进行语义特征提取，得到各个文本簇的语义特征；

根据各个文本簇的语义特征之间的相似度，将平均相似度小于设定的相似度阈值的语义特征聚类至同一语义特征簇，得到至少一个语义特征簇；其中，所述平均相似度表示每两个语义特征的相似度的均值；

根据语义特征与文本簇的对应关系，确定与所述至少一个语义特征簇对应的至少一个文本簇，作为对所述目标文本集合的文本聚类结果。

在一种实现方式中，对所述至少一个文本簇分别进行语义特征提取，得到各个文本簇的语义特征，包括：

对应所述至少一个文本簇中的每个文本簇，分别进行如下处理：

提取该文本簇中的所有文本的高频词；

分别提取每个高频词的词特征，并对各个高频词的词特征进行加权求和处理，得到该文本簇的语义特征。

在一种实现方式中，所述对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题，包括：

对应所述文本聚类结果中的各个文本簇，分别进行如下处理：

将该文本簇中的文本输入预先训练的LDA模型，得到所述LDA模型输出的主题提取结果，并将该主题提取结果确定为该文本簇的主题。

在一种实现方式中，所述获取目标文本集合中的各条文本的文本特征，包括：

利用milvus向量数据库的搜索引擎，从所述milvus向量数据库中检索得到预先存储的目标文本集合中的各条文本的文本特征。

在一种实现方式中，所述目标文本集合中的各条文本的文本特征，通过如下处理获取得到：

对所述目标文本集合中的文本进行关键句提取，并基于提取得到的关键句构建更新的目标文本集合；

对所述更新的目标文本集合中的各条文本分别进行特征提取，得到所述目标文本集合中的各条文本的文本特征。

在一种实现方式中，对所述目标文本集合中的文本进行关键句提取，并基于提取得到的关键句构建更新的目标文本集合，包括：

从所述目标文本集合中，筛选出长度大于设定的长度阈值的文本；

利用TextRank算法，分别对筛选出的长度大于设定的长度阈值的文本进行关键句提取处理，得到每一长度大于设定的长度阈值的文本的关键句；

利用提取得到的关键句替换对应的长度大于设定的长度阈值的文本，得到更新的目标文本集合。

本申请第二方面提出一种文本主题提取装置，包括：

特征提取单元，用于获取目标文本集合中的各条文本的文本特征；

文本聚类单元，用于对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果；

主题提取单元，用于对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题。

本申请第三方面提出一种文本主题提取设备，包括：

存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序和数据；

所述处理器，用于通过运行所述存储器中的程序，实现上述的文本主题提取方法。

本申请第四方面提出一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的文本主题提取方法。

本申请提出的文本主题提取方法在对目标文本集合进行主题提取时，先对目标文本集合中的文本进行基于文本特征的聚类处理，然后再针对基于文本特征的文本聚类结果，进行基于语义特征的聚类处理，得到对目标文本集合的文本聚类结果，最后对聚类结果中的各个文本簇分别进行主题提取，得到目标文本集合的文本主题。

本申请实施例提出的文本主题提取方法在对文本进行聚类时，采用了基于文本特征和基于语义特征的两次聚类处理，即通过不同维度的特征依次进行了文本和文本簇的聚类，因此能够有效改善文本聚类的长尾问题，使得文本聚类结果更准确，进而可以使得文本主题提取更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的一种文本主题提取方法的流程示意图；

图2为本申请实施例提供的另一种文本主题提取方法的流程示意图；

图3为本申请实施例提供的提取目标文本集合中的各条文本的文本特征的处理流程示意图；

图4为本申请实施例提供的一种文本主题提取装置的结构示意图；

图5为本申请实施例提供的一种文本主题提取设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于对海量文本进行文本主题提取的应用场景，采用本申请实施例技术方案，能够更加准确地提取海量文本的文本主题。

当前对于文本数据的主题提取主要分为文本聚类和主题提取两个方面，其中，文本聚类指的是对文档进行的聚类分析，被广泛用于文本挖掘和信息检索领域。当前，文本聚类过程主要分为以下三个步骤：第一，分词处理，即将文本中的句子分解成正确的词组，同时去除意义不大的停顿词；第二，将分词转换为词向量，该部分常用的算法主要有one-hot、BOW词袋模型、CBOW词袋模型、Skip-Gram模型等；第三，选择聚类算法，此处常用的聚类算法主要是k-means、DBSCAN和STING等聚类算法。

在聚类完成后，即可对聚类得到的各个文本簇分别进行主题提取。现阶段，对于文本中的主题提取主要采用人工整理和textrank关键词提取的方式。其中人工整理的方法是通过阅读大量的文档，并对不同文档确定不同主题；对于textrank关键词提取的方法，主要方法是统计文档中频率出现最高的词，并将该词作为文档主题。

现有的文本聚类方法往往需要定义文本数据聚类的类别数，例如k-means算法，因此对于海量文本数据的分类，用户通常会因为无法提前获得数据的分类个数情况，而为聚类带来极大的挑战。

所以，当前的文本数据主题提取方案，均难以取得准确的主题提取结果。

基于上述技术现状，本申请实施例提出一种文本主题提取方法，该方法通过采用一种新的文本聚类方法，使得用户可以不用指定聚类类别数，即可将文本自动聚类，并且可以解决文本聚类的长尾问题，即不会出现少量类别占据绝大多数样本，而大量的类别仅有少量样本的情况。进而，可以基于该更加合理的文本聚类结果提取海量文本的更加准确的文本主题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

本申请实施例提出一种文本主题提取方法，参见图1所示，该方法包括：

S101、获取目标文本集合中的各条文本的文本特征。

具体的，上述的目标文本集合，是指由海量文本所构成的文本集合。该目标文本集合中的文本，可以是任意内容、任意语种、任意长度的文本。

作为一种可选的实施方式，本实施例预先训练文本特征提取模型，用于对上述的目标文本集合中的各条文本分别进行特征提取，得到各条文本的文本特征。

示例性的，上述的文本特征提取模型，可以通过对BERT模型进行深度学习训练得到。

S102、对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果。

具体的，基于目标文本集合中的各条文本的文本特征，对目标文本集合中的文本进行文本聚类，即，将文本特征相似度大于设定的相似度阈值的文本聚为同一类，从而得到聚类结果。该聚类结果，即为聚类得到的各个文本簇。

需要说明的是，本实施例在对目标文本集合进行基于文本特征的聚类处理时，采用基于文本特征的自动聚类算法，即不用预先指定聚类的类别数，完全借助文本特征的相似度来判断是否将文本聚为一类。例如，若任意两个文本的文本特征的相似度大于设定的相似度阈值，则将这两个文本划分至同一文本簇；若任意两个文本的文本特征的相似度不大于设定的相似度阈值，则将这两个文本划分至不同的文本簇。

上述的文本特征的相似度，可以通过文本特征的余弦相似度度量得到。

在上述的基于文本特征的聚类处理的基础上，对聚类结果所包含的各个文本簇，再进行基于语义特征的聚类处理。

即，分别提取基于文本特征的聚类处理得到的各个文本簇的语义特征，然后根据各个文本簇的语义特征，对各个文本簇再进行文本簇聚类。具体的文本簇聚类方式是，将语义特征的相似度大于设定的相似度阈值的文本簇合并，而语义特征的相似度不大于设定的相似度阈值的文本簇则保持相互独立。

同理，本实施例在对各个文本簇进行基于语义特征的聚类处理时，采用基于语义特征的自动聚类算法，即不用预先指定聚类的类别数，安全借助文本簇的语义特征的相似度来判断是否将文本簇合并。例如，若任意两个文本簇的语义特征的相似度大于设定的相似度阈值，则将这两个文本簇合并为一个文本簇；若任意两个文本簇的语义特征的相似度不大于设定的相似度阈值，则这两个文本划分至不同的文本簇。

示例性的，上述的文本簇的语义特征，可以通过提取文本簇中的每一文本的特征向量，并对每一文本的特征向量进行加权求和，作为文本簇的语义特征。

上述的文本簇的语义特征的相似度，可以通过语义特征的余弦相似度度量得到。

其中，在基于文本特征进行文本聚类处理时所采用的相似度阈值，与基于语义特征进行文本簇聚类处理时所采用的相似度阈值，可以相同也可以不同。

作为一种优选的实施方式，在基于文本特征进行文本聚类处理时，可以采用较小的相似度阈值，这样降低聚类得到的各个文本簇的差异，这样可以一定程度上避免少量类别占据绝大多数样本，而大量的类别仅有少量样本的情况，即一定程度上避免聚类长尾问题。

在此基础上，再对各个文本簇进行基于语义特征的聚类处理，将语义相同的文本簇进行合并，从而可以达到合并相似文本簇的目的。

上述的文本聚类方法，在能够有效改善文本聚类过程中的长尾问题。

S103、对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题。

具体的，对经过上述两次聚类得到的聚类结果中的各个文本簇，分别进行主题提取，提取得到的各个文本主题，即为上述的目标文本集合的文本主题。

示例性的，本实施例采用概率模型LDA来提取各个文本簇的文本主题。LDA是一种非监督机器学习的文档主题生成模型，也称为三层贝叶斯概率模型，包含词、主题和文档三层结构。LDA可以用来识别大规模文档集或语料库中潜藏的主题信息。

本申请实施例预先训练LDA模型用于进行文本主题提取。即，将经过步骤S102处理得到的各个文本簇中的文本，分别输入该LDA模型，即可得到LDA模型输出的主题提取结果。

具体的，对于每一个文本簇，将文本簇中的全部文本数据看做一个文本文档，将全部文本数据一次性输入LDA模型，即可得到模型输出的该文本簇的文本主题。

上述的LDA模型在使用时，首先明确产生的主题数目，由于聚类后的文本只有一个主题，因此将主题数目k设置成1，然后设置LDA模型参数α为50，以及参数β设置成0.01，这两个参数是德里克雷的控制参数，可以根据情况自由设置，从而控制主题生成的好坏。

通过上述介绍可见，本申请实施例提出的文本主题提取方法在对目标文本集合进行主题提取时，先对目标文本集合中的文本进行基于文本特征的聚类处理，然后再针对基于文本特征的文本聚类结果，进行基于语义特征的聚类处理，得到对目标文本集合的文本聚类结果，最后对聚类结果中的各个文本簇分别进行主题提取，得到目标文本集合的文本主题。

作为一种优选的实施方式，参见图2所示，本申请实施例通过如下步骤S202～S206所示的处理，实现对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果：

S202、根据所述目标文本集合中的各条文本的文本特征之间的相似度，将平均相似度小于设定的相似度阈值的文本特征聚类至同一文本特征簇，得到至少一个文本特征簇。

其中，所述平均相似度表示每两个文本特征的相似度的均值。

具体的，本申请实施例采用遍历的方式实现文本特征的聚类。即，从目标文本集合的各条文本的文本特征中，依次遍历未聚类的每一文本特征。每当遍历到一个未聚类的文本特征

时，执行如下处理：

依次计算该文本特征

与各个已聚类文本特征簇中的每一文本特征

之间的相似度均值。

其中，已聚类的文本特征簇中的特征向量表示为

则文本特征簇中包含的向量个数表示为Card(TopicCluster)＝n。

未聚类的文本特征

会与已聚类文本特征簇中的每个文本特征

计算余弦相似度

对于未聚类的文本特征

与已聚类文本特征簇中每个文本特征的余弦相似度，需要对余弦相似度做平均后作为衡量标准，即计算未聚类文本特征

与各个已聚类文本特征簇中的每一文本特征

之间的相似度均值

该文本特征相似度计算方法不仅可以降低文本特征簇中部分噪声带来的无法很准确度量待聚类文本特征与已聚类文本特征簇的相似度的问题，而且能够更加方便直观的显示出该待聚类文本特征与当前已聚类文本特征簇的相似程度。

若该文本特征

与任一已聚类文本特征簇中的每一文本特征

之间的相似度均值小于设定的相似度阈值，则将该文本特征聚类至该已聚类文本特征簇，即将该文本特征

存入该文本特征簇中。

若该文本特征

与所有已聚类文本特征簇中的每一文本特征之间的相似度均值均不小于设定的相似度阈值，则新建文本特征簇，并将该文本特征

聚类至新建的文本特征簇中，也就是将该文本特征

存入该新建的文本特征簇中。

按照上述处理，依次遍历目标文本集合中的各条文本的文本特征，并进行上述的文本特征聚类处理，即可将目标文本集合中的各条文本的文本特征聚类为至少一个文本特征簇。

S203、根据文本特征与文本的对应关系，确定与所述至少一个文本特征簇对应的至少一个文本簇。

具体的，由于目标文本集合中的文本和文本特征之间具有一一对应关系。因此，根据文本特征与文本的对应关系，基于上述的至少一个文本特征簇，可以确定与该至少一个文本特征簇对应的至少一个文本簇。即，按照各个文本特征簇中的文本特征，将文本特征对应的文本进行与文本特征簇相同形式的文本簇划分，得到至少一个文本簇。

经过上述步骤S203和S203的处理，即通过将目标文本集合中的各条文本的文本特征进行聚类，将目标文本集合中的文本划分为至少一个文本簇。

在此基础上，继续执行后续步骤S204～S206，即可通过对上述的至少一个文本簇的语义特征进行聚类，得到对目标文本集合的文本聚类结果：

S204、对所述至少一个文本簇分别进行语义特征提取，得到各个文本簇的语义特征。

具体的，对于上述的至少一个文本簇中的每个文本簇，分别通过如下处理提取其语义特征：

首先提取该文本簇中的所有文本的高频词，然后分别提取每个高频词的词特征，并对各个高频词的词特征进行加权求和处理，得到该文本簇的语义特征。

其中，文本簇中的所有文本的高频词，是指在文本簇的所有文本中出现的频次超过设定频次的词。在提取高频词的词特征时，采用语义特征提取的方式，得到每个高频词的语义特征，作为其词特征。

S205、根据各个文本簇的语义特征之间的相似度，将平均相似度小于设定的相似度阈值的语义特征聚类至同一语义特征簇，得到至少一个语义特征簇。

其中，所述平均相似度表示每两个语义特征的相似度的均值。

对各个文本簇的语义特征的聚类处理的具体处理过程，与上述步骤S202中所介绍的对各个文本的文本特征的聚类处理过程，是相同的特征聚类处理过程。因此，步骤S205的实施，可以参照上述步骤S202的介绍，此处不再详述。

S206、根据语义特征与文本簇的对应关系，确定与所述至少一个语义特征簇对应的至少一个文本簇，作为对所述目标文本集合的文本聚类结果。

具体的，上述步骤S205的处理实现了相同语义的文本簇的合并处理。

由于文本簇和语义特征之间具有一一对应关系。因此，根据语义特征与文本簇的对应关系，基于上述的至少一个语义特征簇，可以确定与该至少一个语音特征簇对应的至少一个文本簇。即，按照各个语义特征簇中的语义特征，将语义特征对应的文本簇进行与语义特征簇相同形式的文本簇划分，得到至少一个文本簇，即得到对目标文本集合的文本聚类结果。

图2所示的实施例中的步骤S201和S207分别与图1所示实施例中的步骤S101和S103相对应，其具体处理内容可参见图1所示实施例中的相应介绍，此处不再重复。

作为另一种优选的实施方式，本申请实施例在对海量的目标文本集合进行文本特征提取时，对文本长度进行了约束，从而使得文本特征提取的性能更好。

具体的，参见图3所示，本申请实施例通过执行步骤S301～S305，得到目标文本集合中的各条文本的文本特征：

S301、从目标文本集合中，筛选出长度大于设定的长度阈值的文本。

具体的，在海量文本数据中，文本的长度难以统一，对于短文本来说，特征提取较为方便，但是对于长文本来说，复杂的语义特征和过长的文本长度称为制约特征提取性能的重要因素。

为了使文本特征提取更加高效、准确，本申请实施例对海量文本的目标文本集合中的长文本进行关键句提取处理，从而缩短文本长度，以便提升文本特征提取性能。

因此，在对目标文本集合中的文本进行文本特征提取时，先从目标文本集合中筛选出长度大于设定的长度阈值的文本，即从目标文本集合中筛选出长文本。

上述的设定的长度阈值，可以根据情况任意设定，例如设定为字符数N，N为正整数。则当目标文本集合中的某一文本的字符数大于N时，将该文本视为长文本，并将其筛选出来；若目标文本集合中的某一文本的字符数不大于N时，将该文本视为短文本，可直接对其执行后续的文本特征提取处理。

S302、利用TextRank算法，分别对筛选出的长度大于设定的长度阈值的文本进行关键句提取处理，得到每一长度大于设定的长度阈值的文本的关键句。

具体的，通过步骤S301的处理，即可将目标文本集合中的所有长文本筛选出来。

然后，对于筛选出的长度大于设定长度阈值的文本，分别利用TextRank算法进行关键句提取处理，得到每一长度大于设定的长度阈值的文本的关键词。

TextRank算法是一种用于文本的基于图的排序算法，该算法通过把文本分割成若干组成单元(单词或句子)并建立图模型，然后利用投票机制对文本中的重要成分进行排序，该算法仅利用单篇文档本身的信息即可实现关键词提取、文摘。TextRank算法和传统的关键句提取方式不同，TextRank算法不需要事先对多篇文档进行学习训练，可直对输入文本进行处理获得文本关键句。

基于TextRank算法的上述性能，本申请实施例在对目标文本集合中的文本进行文本特征提取时，先判断文本的长度，若文本长度大于设定的长度阈值，则利用TextRank算法对该文本进行关键句提取处理，得到该文本中的关键句。

S303、利用提取得到的关键句替换对应的长度大于设定的长度阈值的文本，得到更新的目标文本集合。

具体的，对于目标文本集合中的各条长度大于设定长度阈值的文本，利用步骤S302得到的对应的关键句进行替换，即可将目标文本集合中的长文本替换为短文本，从而使目标文本集合中的文本均为长度不大于设定长度阈值的文本，也就是将目标文本集合中的文本均调整为短文本。

S304、对所述更新的目标文本集合中的各条文本分别进行特征提取，得到所述目标文本集合中的各条文本的文本特征。

具体的，利用基于BERT模型训练得到的特征提取模型，对文本长度更新后的目标文本集合中的各条文本分别进行特征提取，得到目标文本集合中的各条文本的文本特征。

上述步骤S301～S304的处理，通过对目标文本集合中的文本进行长度调整，使目标文本集合中的文本均为短文本，从而使得对目标文本集合中的文本进行文本特征提取的效率更高、提取的文本特征更准确。

S305、将所述目标文本集合中的各条文本的文本特征，存储至milvus向量数据库。

具体的，当提取到目标文本集合中的各条文本的文本特征后，将文本特征分别存储至milvus向量数据库。

Milvus向量数据库专为向量查询与检索设计，能够为万亿级向量数据建立索引，并且具有超高的向量检索性能。

本申请实施例将海量文本组成的目标文本集合中的各条文本的文本特征，分别存储至milvus向量数据库，以便于后续可以更加便利地从milvus向量数据库中读取目标文本集合中的各条文本的文本特征。

基于上述的将目标文本集合中的各条文本的文本特征存储至milvus向量数据库的处理，当对目标文本集合进行文本主题提取而需要获取目标文本集合中的各条文本的文本特征时，利用milvus向量数据库的搜索引擎，从所述milvus向量数据库中检索得到预先存储的目标文本集合中的各条文本的文本特征。

需要说明的是，常规的文本存储及特征提取方式是，将文本保存在磁盘中，在提取文本特征时，将磁盘中的文本一次性读入内存中进行特征提取处理，同时还需要将其转换成向量。众所周知，海量数据的向量存储需要庞大的内存开销，对于动辄上百万，甚至上亿的文本向量数据。此处以一百万条文本数据来说，若输出特征向量维度为512，则占用内存大小为512×4×1000000/1024/1024/1024≈2G，因此，当达到上亿级的数据后会占用近200G的内存，若将这些数据读入内存中进行计算，并完成向量检索，显然是不可能实现的。

而本申请实施例将目标文本集合中的各条文本的文本特征存储至milvus向量数据库中，借助该milvus向量数据库的搜索引擎，可以完成百万级向量数据的毫秒级搜索，因此能够降低文本特征提取和读取的内存开销，能够更加快速、高效地获取到目标文本集合中的各条文本的文本特征。

综合上述的长文本关键句提取处理以及milvus向量数据库的应用，本申请实施例提出的文本特征提取方案，能够针对海量文本，以更小的内存开销，更加高效、更加准确地获取其文本特征，从而有利于提升文本主题提取的性能。

示例性装置

相应的，本申请实施例还提供了一种文本主题提取装置，参见图4所示，该装置包括：

特征提取单元100，用于获取目标文本集合中的各条文本的文本特征；

文本聚类单元110，用于对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果；

主题提取单元120，用于对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题。

作为一种可选的实施方式，所述对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果，包括：

作为一种可选的实施方式，所述通过对所述目标文本集合中的各条文本的文本特征进行聚类，将所述目标文本集合中的文本划分为至少一个文本簇，包括：

作为一种可选的实施方式，根据所述目标文本集合中的各条文本的文本特征之间的相似度，将平均相似度小于设定的相似度阈值的文本特征聚类至同一文本特征簇，得到至少一个文本特征簇，包括：

作为一种可选的实施方式，所述通过对所述至少一个文本簇的语义特征进行聚类，得到对所述目标文本集合的文本聚类结果，包括：

作为一种可选的实施方式，对所述至少一个文本簇分别进行语义特征提取，得到各个文本簇的语义特征，包括：

提取该文本簇中的所有文本的高频词；

作为一种可选的实施方式，所述对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题，包括：

作为一种可选的实施方式，所述获取目标文本集合中的各条文本的文本特征，包括：

作为一种可选的实施方式，所述目标文本集合中的各条文本的文本特征，通过如下处理获取得到：

作为一种可选的实施方式，对所述目标文本集合中的文本进行关键句提取，并基于提取得到的关键句构建更新的目标文本集合，包括：

本实施例提供的文本主题提取装置，与本申请上述实施例所提供的文本主题提取方法属于同一申请构思，可执行本申请上述任意实施例所提供的文本主题提取方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的文本主题提取方法的具体处理内容，此处不再加以赘述。

示例性电子设备

本申请另一实施例还提出一种文本主题提取设备，参见图5所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的文本主题提取方法。

具体的，上述文本主题提取设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的任意一种文本主题提取方法的各个步骤。

示例性计算机程序产品和存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的文本主题提取方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的文本主题提取方法中的步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本主题提取方法，其特征在于，包括：

获取目标文本集合中的各条文本的文本特征；

2.根据权利要求1所述的方法，其特征在于，所述对所述目标文本集合进行基于文本特征的聚类处理，以及对基于文本特征的聚类结果进行基于语义特征的聚类处理，得到对所述目标文本集合的文本聚类结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述通过对所述目标文本集合中的各条文本的文本特征进行聚类，将所述目标文本集合中的文本划分为至少一个文本簇，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述目标文本集合中的各条文本的文本特征之间的相似度，将平均相似度小于设定的相似度阈值的文本特征聚类至同一文本特征簇，得到至少一个文本特征簇，包括：

5.根据权利要求2至4中任意一项所述的方法，其特征在于，所述通过对所述至少一个文本簇的语义特征进行聚类，得到对所述目标文本集合的文本聚类结果，包括：

6.根据权利要求5所述的方法，其特征在于，对所述至少一个文本簇分别进行语义特征提取，得到各个文本簇的语义特征，包括：

提取该文本簇中的所有文本的高频词；

7.根据权利要求1所述的方法，其特征在于，所述对所述文本聚类结果中的各个文本簇分别进行主题提取，得到所述目标文本集合的文本主题，包括：

8.根据权利要求1所述的方法，其特征在于，所述获取目标文本集合中的各条文本的文本特征，包括：

9.根据权利要求1或8所述的方法，其特征在于，所述目标文本集合中的各条文本的文本特征，通过如下处理获取得到：

10.根据权利要求9所述的方法，其特征在于，对所述目标文本集合中的文本进行关键句提取，并基于提取得到的关键句构建更新的目标文本集合，包括：

11.一种文本主题提取装置，其特征在于，包括：

12.一种文本主题提取设备，其特征在于，包括：

存储器和处理器；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任意一项所述的文本主题提取方法。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至10中任意一项所述的文本主题提取方法。