CN114492429A

CN114492429A - 文本主题的生成方法、装置、设备及存储介质

Info

Publication number: CN114492429A
Application number: CN202210033712.8A
Authority: CN
Inventors: 陈浩
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-13
Anticipated expiration: 2042-01-12
Also published as: CN114492429B; WO2023134074A1

Abstract

本申请涉及人工智能技术领域，揭示了一种文本主题的生成方法、装置、设备及存储介质，其中方法包括：对各个目标文本分别进行分词及词语去重处理得到词表；对每个目标文本进行编码得到文本编码向量；对词表中的每个词语进行编码得到词语编码向量；对各个文本编码向量进行聚类得到多个编码向量聚类集；对每个编码向量聚类集进行平均值计算得到聚类集主题向量；计算每个词语编码向量与每个聚类集主题向量之间的相似度得到目标相似度；根据词表和各个目标相似度对每个编码向量聚类集进行目标文本主题生成。捕获到了文本的语义信息，保留了词语之间的顺序信息，提高了文本主题的准确性，不需要在建模前设置自定义停用词列表、繁体转简体等复杂操作。

Description

文本主题的生成方法、装置、设备及存储介质

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种文本主题的生成方法、装置、设备及存储介质。

背景技术

在自然语言处理(NatureLanguageProcess，NLP)领域中，搜索、总结大量文本一直以来是普遍存在问题。当人工无法合理地阅读和排序海量文本时，经常使用主题建模。给定一个由许多文本组成的语料库，主题模型将发现文本中存在的潜在语义结构和主题，然后可以使用主题查找大型文本集合的高级摘要，搜索感兴趣的文档，并将相似的文档分组等。

当前，使用最广泛的主题方法是LDA(Latent Dirichlet Allocation)模型和PLSA(Probabilistic Latent Semantic Analysis)模型，尽管它们在NLP领域很受欢迎，使用也最为广泛，但是为了达到最佳结果，它们通常在建模前设置主题数量、自定义停用词列表、繁体转简体等操作，此外这些方法忽略了词语的顺序和语义，导致确定的主题的准确性不高。

发明内容

本申请的主要目的为提供一种文本主题的生成方法、装置、设备及存储介质，旨在解决现有技术的LDA模型和PLSA模型，通常在建模前设置自定义停用词列表、繁体转简体等复杂操作，忽略了词语的顺序和语义，导致确定的主题的准确性不高的技术问题。

为了实现上述发明目的，本申请提出一种文本主题的生成方法，所述方法包括：

获取多个目标文本；

对各个所述目标文本分别进行分词及词语去重处理，得到词表；

对每个所述目标文本进行编码，得到文本编码向量；

对所述词表中的每个词语进行编码，得到词语编码向量；

对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；

对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；

计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；

根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

进一步的，所述获取多个目标文本的步骤，包括：

获取多个新闻文本；

对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本。

进一步的，所述对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本的步骤，包括：

对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到待处理文本；

从各个所述待处理文本中找出字数大于预设字数的每个所述待处理文本作为所述目标文本。

进一步的，所述对各个所述文本编码向量进行聚类，得到多个编码向量聚类集的步骤，包括：

设置数量与预设的聚类数量相同的聚类中心，并对每个所述聚类中心进行初始化；

计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离；

根据各个所述待分析距离，将各个所述文本编码向量按照最小距离原则分配到最邻近的所述聚类中心对应的待判断聚类集；

对每个所述待判断聚类集进行向量平均值计算；

将目标向量平均值作为与所述目标向量平均值对应的所述待判断聚类集的所述聚类中心，其中，所述目标向量平均值是任一个所述向量平均值；

重复执行所述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，直至每个所述待判断聚类集对应的所述聚类中心均不再变化；

将每个所述待判断聚类集作为一个所述编码向量聚类集。

进一步的，所述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，包括：

采用余弦相似度算法，计算每个所述文本编码向量与每个所述聚类中心之间的余弦相似度，得到所述待分析距离。

进一步的，所述计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度的步骤，包括：

采用余弦相似度算法，计算每个所述词语编码向量与每个所述聚类集主题向量之间的余弦相似度，得到所述目标相似度。

进一步的，所述根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成的步骤，包括：

将任一个所述编码向量聚类集作为目标编码向量聚类集；

对所述目标编码向量聚类集对应的各个所述目标相似度进行正序排序，得到相似度集；

采用从开头开始获取的方法，从所述相似度集中找出预设数量的所述目标相似度，得到命中相似度集；

将所述词表中的与所述命中相似度集对应的各个词语，作为所述目标编码向量聚类集对应的所述目标文本主题。

本申请还提出了一种文本主题的生成装置，所述装置包括：

目标文本获取模块，用于获取多个目标文本；

词表生成模块，用于对各个所述目标文本分别进行分词及词语去重处理，得到词表；

文本编码向量确定模块，用于对每个所述目标文本进行编码，得到文本编码向量；

词语编码向量确定模块，用于对所述词表中的每个词语进行编码，得到词语编码向量；

聚类模块，用于对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；

聚类集主题向量确定模块，用于对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；

目标相似度确定模块，用于计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；

目标文本主题生成模块，用于根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

本申请还提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提出了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的文本主题的生成方法、装置、设备及存储介质，其中方法通过获取多个目标文本；对各个所述目标文本分别进行分词及词语去重处理，得到词表；对每个所述目标文本进行编码，得到文本编码向量；对所述词表中的每个词语进行编码，得到词语编码向量；对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。通过将文本编码成向量表示，从而捕获到了文本的语义信息，保留了词语之间的顺序信息；基于文本编码向量进行聚类后确定每个聚类集的聚类集主题向量，以及将词语编码成向量表示，实现将文本编码向量、词语编码向量和聚类集主题向量映射到同一向量空间，基于同一向量空间确定文本主题，提高了文本主题的准确性；而且不需要在建模前设置自定义停用词列表、繁体转简体等复杂操作。

附图说明

图1为本申请一实施例的文本主题的生成方法的流程示意图；

图2为本申请一实施例的文本主题的生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例中提供一种文本主题的生成方法，所述方法包括：

S1：获取多个目标文本；

S2：对各个所述目标文本分别进行分词及词语去重处理，得到词表；

S3：对每个所述目标文本进行编码，得到文本编码向量；

S4：对所述词表中的每个词语进行编码，得到词语编码向量；

S5：对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；

S6：对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；

S7：计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；

S8：根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

本实施例通过将文本编码成向量表示，从而捕获到了文本的语义信息，保留了词语之间的顺序信息；基于文本编码向量进行聚类后确定每个聚类集的聚类集主题向量，以及将词语编码成向量表示，实现将文本编码向量、词语编码向量和聚类集主题向量映射到同一向量空间，基于同一向量空间确定文本主题，提高了文本主题的准确性；而且不需要在建模前设置自定义停用词列表、繁体转简体等复杂操作。

对于S1，可以获取用户输入的多个目标文本，也可以从数据库中获取多个目标文本，还可以从第三方应用系统中获取多个目标文本。

目标文本，是包含一句或多句话的文本。

对于S2，将各个所述目标文本合并到一个文档，得到待处理文档；对所述待处理文档进行分词，得到词语集；对所述词语集中的词语进行去重处理，将去重处理后的所述词语集作为所述词表。

对于S3，对每个所述目标文本进行编码，将编码得到的数据作为文本编码向量，也就是说，文本编码向量与目标文本一一对应。

可选的，将每个所述目标文本输入预设的编码模型进行编码，将编码得到的数据作为文本编码向量。

编码模型，是基于神经网络训练得到的模型。

可选的，编码模型是基于Bert模型训练得到的模型。

对于S4，对所述词表中的每个词语进行编码，将编码得到的数据作为词语编码向量，也就是说，词语编码向量与所述词表中的词语一一对应。

可选的，所述词表中的每个词语输入所述编码模型进行编码，将编码得到的数据作为词语编码向量。

也就是说，步骤S3和步骤S4采用相同的编码模型。

对于S5，对各个所述文本编码向量进行聚类，将聚类得到的每个集合作为一个编码向量聚类集。

可选的，采用K-Means聚类算法和预设的聚类数量，对各个所述文本编码向量进行聚类，将聚类得到的每个集合作为一个编码向量聚类集。

K-Means聚类算法，也就是K均值聚类算法。

对于S6，对每个所述编码向量聚类集中的各个所述文本编码向量进行平均值计算，将计算得到的向量作为一个聚类集主题向量。也就是说，聚类集主题向量与所述编码向量聚类集一一对应。

对于S7，计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，将计算得到的相似度作为目标相似度。也就是说，目标相似度用于衡量一个词语的编码向量与一个所述聚类集主题向量之间的相似度。

对于S8，从各个所述目标相似度中，找出每个所述编码向量聚类集最相似的一个或多个所述目标相似度，将针对同一个所述编码向量聚类集找出的各个所述目标相似度在所述词表中对应的各个词语作为该所述编码向量聚类集的目标文本主题。

可以理解的是，目标文本主题，是所述编码向量聚类集对应的各个所述目标文本的文本主题。

在一个实施例中，上述获取多个目标文本的步骤，包括：

S11：获取多个新闻文本；

S12：对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本。

本实施例实现了对新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理后作为目标文本，从而使本申请确定的目标文本主题可以用于新闻分类；通过数据清洗减少了噪音干扰，提高了确定的目标文本主题的准确性。

对于S11，可以获取用户输入的多个新闻文本，也可以从数据库中获取多个新闻文本，还可以从第三方应用系统中获取多个新闻文本。

新闻文本，是一篇新闻的文本。新闻文本包括：新闻标题、新闻简介和新闻正文。

对于S12，采用预设的正则表达式，对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，将完成处理的每个所述新闻文本作为一个所述目标文本。

在一个实施例中，上述对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本的步骤，包括：

S121：对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到待处理文本；

S122：从各个所述待处理文本中找出字数大于预设字数的每个所述待处理文本作为所述目标文本。

本实施例通过先进行空白符删除处理、重复标点删除处理和特殊符号删除处理，然后剔除小于或等于预设字数的待处理文本，减少了噪音干扰，减少了字数太少的文本影响确定的文本主题准确性。

对于S121，采用预设的正则表达式，对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，将完成处理的每个所述新闻文本作为一个所述待处理文本。

对于S122，从各个所述待处理文本中找出字数大于预设字数的每个所述待处理文本作为所述目标文本，从而将小于或等于预设字数的待处理文本进行剔除处理。

可选的，预设字数设为1000。

在一个实施例中，上述对各个所述文本编码向量进行聚类，得到多个编码向量聚类集的步骤，包括：

S51：设置数量与预设的聚类数量相同的聚类中心，并对每个所述聚类中心进行初始化；

S52：计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离；

S53：根据各个所述待分析距离，将各个所述文本编码向量按照最小距离原则分配到最邻近的所述聚类中心对应的待判断聚类集；

S54：对每个所述待判断聚类集进行向量平均值计算；

S55：将目标向量平均值作为与所述目标向量平均值对应的所述待判断聚类集的所述聚类中心，其中，所述目标向量平均值是任一个所述向量平均值；

S56：重复执行所述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，直至每个所述待判断聚类集对应的所述聚类中心均不再变化；

S57：将每个所述待判断聚类集作为一个所述编码向量聚类集。

本实施例采用K-Means聚类算法和预设的聚类数量，对具有文本的语义信息和词语之间的顺序信息的各个所述文本编码向量进行聚类，提高了聚类得到的编码向量聚类集的准确性。

对于S51，设置数量与预设的聚类数量相同的聚类中心，也就是聚类中心的数量与聚类数量相同。

对每个所述聚类中心进行初始化的方法在此不做赘述。

对于S52，计算每个所述文本编码向量与每个所述聚类中心之间的距离，也就是说，所述文本编码向量的数量与所述聚类中心的数量的乘积等于待分析距离的数量。

对于S53，将任一个所述文本编码向量作为待处理编码向量；从所述待处理编码向量对应的各个所述待分析距离中找出值为最小的所述待分析距离作为目标距离；将所述待处理编码向量分配到与所述目标距离对应的所述聚类中心对应的待判断聚类集。

对于S54，对每个所述待判断聚类集中的各个所述文本编码向量进行向量平均值计算。

对于S55，将目标向量平均值作为与所述目标向量平均值对应的所述待判断聚类集的所述聚类中心，从而实现了对聚类中心的更新。

对于S56，重复执行所述计算每个所述文本编码向量与每个所述聚类中心之间的距离的步骤，也就是重复执行步骤S52至步骤S56，直至每个所述待判断聚类集对应的所述聚类中心均不再变化。当每个所述待判断聚类集对应的所述聚类中心均不再变化时，意味着已经实现了最优的聚类。

对于S57，将每个所述待判断聚类集作为一个所述编码向量聚类集，从而实现了对具有文本的语义信息和词语之间的顺序信息的各个所述文本编码向量进行聚类。

在一个实施例中，上述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，包括：

S521：采用余弦相似度算法，计算每个所述文本编码向量与每个所述聚类中心之间的余弦相似度，得到所述待分析距离。

本实施例采用余弦相似度算法作为聚类算法的向量度量指标，从而较好的度量了向量之间的距离，提高了聚类的准确性。

对于S521，采用余弦相似度算法，计算每个所述文本编码向量与每个所述聚类中心之间的余弦相似度，将计算得到的余弦相似度作为所述待分析距离。

在一个实施例中，上述计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度的步骤，包括：

S71：采用余弦相似度算法，计算每个所述词语编码向量与每个所述聚类集主题向量之间的余弦相似度，得到所述目标相似度。

本实施例采用余弦相似度算法作为词语编码向量和聚类集主题向量之间之间的距离的度量指标，从而较好的度量了向量之间的距离，提高了目标相似度的准确性。

对于S71，采用余弦相似度算法，计算每个所述词语编码向量与每个所述聚类集主题向量之间的余弦相似度，将计算得到的相似度作为目标相似度。

在一个实施例中，上述根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成的步骤，包括：

S81：将任一个所述编码向量聚类集作为目标编码向量聚类集；

S82：对所述目标编码向量聚类集对应的各个所述目标相似度进行正序排序，得到相似度集；

S83：采用从开头开始获取的方法，从所述相似度集中找出预设数量的所述目标相似度，得到命中相似度集；

S84：将所述词表中的与所述命中相似度集对应的各个词语，作为所述目标编码向量聚类集对应的所述目标文本主题。

本实施例获取预设数量的最小的目标相似度对应的词语作为目标文本主题，实现了基于同一向量空间确定文本主题，提高了文本主题的准确性。

对于S82，对所述目标编码向量聚类集对应的各个所述目标相似度进行正序排序，将排序后的各个所述目标相似度作为相似度集，从而使相似度集中的各个所述目标相似度从小到大排列。

对于S83，采用从开头开始获取的方法，也就是先获取最小的所述目标相似度，为找最相似的词语提供了基础。

其中，采用从开头开始获取的方法，从所述相似度集中找出预设数量的所述目标相似度，将找到的各个所述目标相似度作为命中相似度集。

可以理解的是，当所述相似度集中的所述目标相似度的数量小于预设数量时，命中相似度集中的所述目标相似度的数量小于预设数量。

可选的，所述采用从开头开始获取的方法，从所述相似度集中找出预设数量的所述目标相似度，得到命中相似度集的步骤，包括：将所述相似度集按预设相似度阈值进行划分，得到第一集合和第二集合；采用从开头开始获取的方法，从所述第一集合中找出预设数量的所述目标相似度，得到命中相似度集。从而使命中相似度集中的所述目标相似度均小于所述预设相似度阈值，进一步提高了文本主题的准确性。

也就是说，第一集合中的所述目标相似度均小于预设相似度阈值，第二集合中的所述目标相似度均大于或等于预设相似度阈值。

对于S84，将所述词表中的与所述命中相似度集对应的各个词语，作为所述目标编码向量聚类集对应的所述目标文本主题，从而实现了基于同一向量空间确定文本主题，提高了文本主题的准确性。

参照图2，本申请还提出了一种文本主题的生成装置，所述装置包括：

目标文本获取模块100，用于获取多个目标文本；

词表生成模块200，用于对各个所述目标文本分别进行分词及词语去重处理，得到词表；

文本编码向量确定模块300，用于对每个所述目标文本进行编码，得到文本编码向量；

词语编码向量确定模块400，用于对所述词表中的每个词语进行编码，得到词语编码向量；

聚类模块500，用于对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；

聚类集主题向量确定模块600，用于对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；

目标相似度确定模块700，用于计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；

目标文本主题生成模块800，用于根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

在一个实施例中，上述目标文本获取模块100包括：新闻文本获取子模块和目标文本确定子模块；

所述新闻文本获取子模块，用于获取多个新闻文本；

所述目标文本确定子模块，用于对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本。

在一个实施例中，上述目标文本确定子模块包括：待处理文本确定单元和筛选单元；

所述待处理文本确定单元，用于对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到待处理文本；

所述筛选单元，用于从各个所述待处理文本中找出字数大于预设字数的每个所述待处理文本作为所述目标文本。

在一个实施例中，上述聚类模块500包括：聚类中心设置子模块、待分析距离计算子模块、待判断聚类集确定子模块、向量平均值计算子模块、聚类中心更新子模块、循环控制子模块和编码向量聚类集确定子模块；

所述聚类中心设置子模块，用于设置数量与预设的聚类数量相同的聚类中心，并对每个所述聚类中心进行初始化；

所述待分析距离计算子模块，用于计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离；

所述待判断聚类集确定子模块，用于根据各个所述待分析距离，将各个所述文本编码向量按照最小距离原则分配到最邻近的所述聚类中心对应的待判断聚类集；

所述向量平均值计算子模块，用于对每个所述待判断聚类集进行向量平均值计算；

所述聚类中心更新子模块，用于将目标向量平均值作为与所述目标向量平均值对应的所述待判断聚类集的所述聚类中心，其中，所述目标向量平均值是任一个所述向量平均值；

所述循环控制子模块，用于重复执行所述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，直至每个所述待判断聚类集对应的所述聚类中心均不再变化；

所述编码向量聚类集确定子模块，用于将每个所述待判断聚类集作为一个所述编码向量聚类集。

在一个实施例中，上述待分析距离计算子模块包括：余弦相似度计算单元；

所述余弦相似度计算单元，用于采用余弦相似度算法，计算每个所述文本编码向量与每个所述聚类中心之间的余弦相似度，得到所述待分析距离。

在一个实施例中，上述目标相似度确定模块700包括：相似度计算单元；

所述相似度计算单元，用于采用余弦相似度算法，计算每个所述词语编码向量与每个所述聚类集主题向量之间的余弦相似度，得到所述目标相似度。

在一个实施例中，上述目标文本主题生成模块800包括：目标编码向量聚类集确定子模块、相似度集确定子模块、命中相似度集确定子模块和目标文本主题确定子模块；

所述目标编码向量聚类集确定子模块，用于将任一个所述编码向量聚类集作为目标编码向量聚类集；

所述相似度集确定子模块，用于对所述目标编码向量聚类集对应的各个所述目标相似度进行正序排序，得到相似度集；

所述命中相似度集确定子模块，用于采用从开头开始获取的方法，从所述相似度集中找出预设数量的所述目标相似度，得到命中相似度集；

所述目标文本主题确定子模块，用于将所述词表中的与所述命中相似度集对应的各个词语，作为所述目标编码向量聚类集对应的所述目标文本主题。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于储存文本主题的生成方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本主题的生成方法。所述文本主题的生成方法，包括：获取多个目标文本；对各个所述目标文本分别进行分词及词语去重处理，得到词表；对每个所述目标文本进行编码，得到文本编码向量；对所述词表中的每个词语进行编码，得到词语编码向量；对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

在一个实施例中，上述获取多个目标文本的步骤，包括：获取多个新闻文本；对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本。

在一个实施例中，上述对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本的步骤，包括：对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到待处理文本；从各个所述待处理文本中找出字数大于预设字数的每个所述待处理文本作为所述目标文本。

在一个实施例中，上述对各个所述文本编码向量进行聚类，得到多个编码向量聚类集的步骤，包括：设置数量与预设的聚类数量相同的聚类中心，并对每个所述聚类中心进行初始化；计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离；根据各个所述待分析距离，将各个所述文本编码向量按照最小距离原则分配到最邻近的所述聚类中心对应的待判断聚类集；对每个所述待判断聚类集进行向量平均值计算；将目标向量平均值作为与所述目标向量平均值对应的所述待判断聚类集的所述聚类中心，其中，所述目标向量平均值是任一个所述向量平均值；重复执行所述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，直至每个所述待判断聚类集对应的所述聚类中心均不再变化；将每个所述待判断聚类集作为一个所述编码向量聚类集。

在一个实施例中，上述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，包括：采用余弦相似度算法，计算每个所述文本编码向量与每个所述聚类中心之间的余弦相似度，得到所述待分析距离。

在一个实施例中，上述计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度的步骤，包括：采用余弦相似度算法，计算每个所述词语编码向量与每个所述聚类集主题向量之间的余弦相似度，得到所述目标相似度。

在一个实施例中，上述根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成的步骤，包括：将任一个所述编码向量聚类集作为目标编码向量聚类集；对所述目标编码向量聚类集对应的各个所述目标相似度进行正序排序，得到相似度集；采用从开头开始获取的方法，从所述相似度集中找出预设数量的所述目标相似度，得到命中相似度集；将所述词表中的与所述命中相似度集对应的各个词语，作为所述目标编码向量聚类集对应的所述目标文本主题。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种文本主题的生成方法，包括步骤：获取多个目标文本；对各个所述目标文本分别进行分词及词语去重处理，得到词表；对每个所述目标文本进行编码，得到文本编码向量；对所述词表中的每个词语进行编码，得到词语编码向量；对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

上述执行的文本主题的生成方法，通过将文本编码成向量表示，从而捕获到了文本的语义信息，保留了词语之间的顺序信息；基于文本编码向量进行聚类后确定每个聚类集的聚类集主题向量，以及将词语编码成向量表示，实现将文本编码向量、词语编码向量和聚类集主题向量映射到同一向量空间，基于同一向量空间确定文本主题，提高了文本主题的准确性；而且不需要在建模前设置自定义停用词列表、繁体转简体等复杂操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种文本主题的生成方法，其特征在于，所述方法包括：

获取多个目标文本；

对每个所述目标文本进行编码，得到文本编码向量；

对所述词表中的每个词语进行编码，得到词语编码向量；

2.根据权利要求1所述的文本主题的生成方法，其特征在于，所述获取多个目标文本的步骤，包括：

获取多个新闻文本；

3.根据权利要求2所述的文本主题的生成方法，其特征在于，所述对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理，得到所述目标文本的步骤，包括：

4.根据权利要求1所述的文本主题的生成方法，其特征在于，所述对各个所述文本编码向量进行聚类，得到多个编码向量聚类集的步骤，包括：

对每个所述待判断聚类集进行向量平均值计算；

将每个所述待判断聚类集作为一个所述编码向量聚类集。

5.根据权利要求4所述的文本主题的生成方法，其特征在于，所述计算每个所述文本编码向量与每个所述聚类中心之间的距离，得到待分析距离的步骤，包括：

6.根据权利要求1所述的文本主题的生成方法，其特征在于，所述计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度的步骤，包括：

7.根据权利要求1所述的文本主题的生成方法，其特征在于，所述根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成的步骤，包括：

将任一个所述编码向量聚类集作为目标编码向量聚类集；

8.一种文本主题的生成装置，其特征在于，所述装置包括：

目标文本获取模块，用于获取多个目标文本；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。