CN113868424A

CN113868424A - 文本主题的确定方法、装置、计算机设备及存储介质

Info

Publication number: CN113868424A
Application number: CN202111197318.XA
Authority: CN
Inventors: 于连涛
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2021-12-31

Abstract

本发明涉及人工智能，提供一种文本主题的确定方法、装置、计算机设备及存储介质。方法包括：根据预设的分句规则将目标文本分成多个文本句子；将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；根据句子向量集合确定各摘要句子分别与各文本句子的余弦相似度，得到包含每个摘要句子与各文本句子的余弦相似度的摘要句子相似度集合；根据摘要句子相似度集合确定各摘要句子的句子重要值；根据句子重要值从多个摘要句子中确定目标文本的文本主题。本发明实施例使用Bert模型得到的句子向量结合了句子上下文的语义，所以通过使用Bert模型得到的句子向量确定文本主题，可以提高主题抽取的精度。

Description

文本主题的确定方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本主题的确定方法、装置、计算机设备及存储介质。

背景技术

一般文章，特别是研究类报告，文章中都会包括摘要文本以及正本文本两部分，为了让读者快速地看到文章的关注点，文章除了总结性的摘要文本，还会有主题，主题一般为摘要的一部分，例如为摘要中的一个或多个句子，但是，很多文章的作者没有标明主题，此时，为了自动识别文章的主题，一般地，会通过寻找文章关键词，然后根据句子中关键词的数量给句子打分，最后选出分数最高的一个或多个句子作为文章的主题。

但是，该方法忽略了关键句在上下文的含义，主题的抽取特别生硬，导致主题抽取的精度不高。

发明内容

本发明实施例提供了一种文本主题的确定方法、装置、计算机设备及存储介质，可以提高文本主题抽取的精度。

第一方面，本发明实施例提供了一种文本主题的确定方法，其包括：

根据预设的分句规则将目标文本分成多个文本句子；

将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；

根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合；

根据所述摘要句子相似度集合确定各摘要句子的句子重要值；

根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。

第二方面，本发明实施例还提供了一种文本主题的确定装置，其包括：

分句单元，用于根据预设的分句规则将目标文本分成多个文本句子；

输入单元，用于将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；

第一确定单元，用于根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合；

第二确定单元，用于根据所述摘要句子相似度集合确定各摘要句子的句子重要值；

第三确定单元，用于根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现上述方法。

本发明实施例提供了一种文本主题的确定方法、装置、计算机设备及存储介质。其中，所述方法包括：根据预设的分句规则将目标文本分成多个文本句子；将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合；根据所述摘要句子相似度集合确定各摘要句子的句子重要值；根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。本发明实施例使用Bert模型得到的句子向量结合了句子上下文的语义，所以通过使用Bert模型得到的句子向量确定文本主题，可以提高主题抽取的精度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的文本主题的确定方法的应用场景示意图；

图2为本发明实施例提供的文本主题的确定方法的流程示意图；

图3为本发明实施例提供的文本主题的确定方法的一子流程示意图；

图4为本发明实施例提供的文本主题的确定方法的另一子流程示意图；

图5为本发明实施例提供的文本主题的确定方法的另一子流程示意图；

图6为本发明实施例提供的文本主题的确定装置的示意性框图；

图7为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本发明实施例提供了一种文本主题的确定方法、装置、计算机设备及存储介质。

该文本主题的确定方法的执行主体可以是本发明实施例提供的文本主题的确定装置，或者集成了该文本主题的确定装置的计算机设备，其中，该文本主题的确定装置可以采用硬件或者软件的方式实现，该计算机设备可以为终端或服务器，该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。

请参阅图1，图1为本发明实施例提供的文本主题的确定方法的应用场景示意图。该文本主题的确定方法应用于图1中的计算机设备10中，该计算机设备10根据预设的分句规则将目标文本分成多个文本句子；将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合；根据所述摘要句子相似度集合确定各摘要句子的句子重要值；根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。

图2是本发明实施例提供的文本主题的确定方法的流程示意图。如图2所示，该方法包括以下步骤S110-150。

S110、根据预设的分句规则将目标文本分成多个文本句子。

其中，所述目标文本包括摘要文本以及正文文本，目标文本为需要进行主题抽取的文本，例如，是从金融机构官方微信公众号上爬取的研究报告。该分句规则为根据分句符号对文本进行分割，其中分句符号包括：“。”、“？”、“！”以及“\n”等。分割后的文本句子按照在目标文本中的顺序排序。

在一些实施例中，由于获取到的目标文本中可能存在很多对主题提取没有意义的信息，为了降低这些信息对主题提取的影响，提高主题提取的精度，在一些实施例中，步骤S110包括：获取目标文本，对所述目标文本进行数据清洗处理，得到清洗后文本，然后根据所述分句规则将所述清洗后文本分成多个文本句子。例如，根据预设的待清理文本模板从目标文本中确定待清理文本，然后删除目标文本中的待清理文本，其中，待清理文本模板包括引用信息模板、风险提示模板、免责条款模板、法律声明模板、对行情的客观描述模板等，用于清洗掉原始文本中的引用信息、风险提示、免责条款、法律声明以及对行情的客观描述等信息。

S120、将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合。

本实施例中，为了使得输出的各文本句子可以结合上下文的含义，得到更准确的句子向量表达，所以本实施例将各文本句子输入预设的双向编码器(BidirectionalEncoder Representations from Transformer，Bert)模型。

其中，Bert模型是Google发布的一种自然语言模型，它是一种带有注意力(Attention)机制的神经网络模型，它能根据句子以及词所在的上下文不同，对语句进行个性化编码，所以根据Bert模型可以得到结合上下文的语义的句子向量，使得向量表达更加准确。

具体地，将文本句子输入预设的Bert模型及其下游的句子相关性任务，得到各句子的向量表达式，然后将各句子的向量按顺序集合起来，得到句子向量集合。

在一些实施例中，为了计算两个句子相关性，使用784维的向量来表示句子信息。依此即可获得两个句子相关性。

S130、根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合。

具体地，计算句子向量集合中每个摘要句子分别与目标文本中各个文本句子之间的余弦相似度，得到包含每个摘要句子与各文本句子的余弦相似度的摘要句子集合。

在一些实施例中，该摘要句子相似度集合用矩阵B_m*n表示，其中，n表示目标文本中所有文本句子的数量，m表示摘要文本中所有句子的数量。

S140、根据所述摘要句子相似度集合确定各摘要句子的句子重要值。

请参阅图3，在一些实施例中，具体地，步骤S140包括：

S141、根据所述摘要句子相似度集合以及预设相似度阈值确定各摘要句子的第一摘要相似度。

即，将所述摘要句子相似度集合中大于或等于预设相似度阈值的余弦相似度化为1，将根据所述摘要句子相似度集合中小于所述预设相似度阈值的余弦相似度化为0，得到第一摘要相似度集合。

此时，当摘要句子相似度集合中某余弦相似度大于预设相似度阈值时，则将该余弦相似度对应的两个句子看作是同一句话，此时，为了提高计算效率，将摘要句子相似度集合中大于预设相似度阈值的余弦相似度的值化为1，否则化为0，此时，得到各摘要句子对应的第一摘要相似度的集合C_m*n，C_m*n中的每一行对应一个摘要句子。

其中，该预设相似度阈值可以为0.9，具体数值可以根据具体应用场景进行调整，所以该预设相似度阈值此时不做限定。

S142、根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值。

在一些实施例中，步骤S142可以直接将C_m*n中每行的值进行相加，并将对应的和作为对应摘要句子的句子重要值。

请参阅图4，在另一些实施例中，还需要结合第二摘要相似度确定摘要句子的句子重要值，此时，具体地，步骤S142包括：

S1421、根据各摘要句子分别对应的所述第一摘要相似度以及各摘要句子分别对应的句子长度，确定各摘要句子的第二摘要相似度，得到第二摘要相似度集合。

即，根据各摘要句子的第一摘要相似度以及各摘要句子分别对应的句子长度，确定各摘要句子与全文所有句子的映射关系，得到由各摘要句子的第二摘要相似度组成的第二摘要相似度集合C′_m*n。

此时，需要获取各摘要句子的句子长度，以及获取各摘要句子的第一摘要相似度中元素值为1的元素个数；然后针对各摘要句子的第一摘要相似度中的每个第一元素，将所述第一元素乘以对应的句子长度并除以对应的元素个数，得到由各摘要句子的第二摘要相似度组成的第二摘要相似度集合，其中，第一元素为第一摘要相似度中的元素，包括0或1；具体如下：

本实施例中，将C_m*n各行相加之后，每行的值(各摘要句子对应的第一摘要相似度集合中1的个数)即为对应摘要句子与全文某些句子相似的个数(元素个数)，将该元素个数设为h_m，h_m为整数。此时，具体地，步骤S1421为：

设摘要句子m的长度为s_m，此时，该摘要句子与目标文本中文本句子的映射关系为

根据该映射关系得到映射矩阵C′_m*n，c_ij为C_m*n中第i行第j列的值。

S1422、根据所述第二摘要相似度集合确定各摘要句子的句子重要值。

请参阅图5，在一些实施例中，若目标文本可能存在多个论点时，具体地，步骤S1422包括：

S14221、根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合。

具体地，确定句子向量集合中句子向量的两两之间的相似度，得到目标文本中的每个句子分别与目标文本中的所有文本句子的相似度，进而得到包含目标文本中所有句子之间两两相似度的文本句子相似度集合。

在一些实施例中，文本句子相似度集合用矩阵B_n*n表示，其中，n表示目标文本中所有句子的数量。

S14222、根据聚类算法对所述文本句子相似度集合进行聚类处理，得到多个簇的文本句子相似度子集合。

在一些实施例中，由于不确定目标文本中存在多少个论点，而每个论点都应该提取对应的主题，所以本实施例需要对目标文本进行聚类处理，得到一个或多个包含多个句子的簇，一个簇对应一个论点，此时需要根据聚类算法对所述文本句子相似度集合进行聚类处理，得到多个簇的文本句子相似度子集合。

具体地，可以视B_n*n为一个图网络，B_n*n中每个元素代表网络的权边，通过聚类算法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)将B_n*n聚类成若干个簇。在一些实施例中，聚类后的每个簇的文本句子相似度子集合为B′_m′*n′，m′是对应簇中摘要的个数，n′是对应簇中所有句子的个数。在另一些实施例中，聚类后的每个簇的文本句子相似度子集合为B′_n′*n′。

在一些实施例中，聚类算法中簇的分类条件为句子间余弦相似度大于或等于0.7，并且一个簇至少要有三个数据点。

S14223、针对各簇，根据所述文本句子相似度子集合中各子文本句子对应的余弦相似度之和，确定各子文本句子的文本重要值，得到各簇分别对应的子文本句子重要值集合。

其中，所述子文本句子为对应簇的文本句子，所述子文本句子重要值集合D_n′*1包含对应簇中各子文本句子的文本重要值。

具体地，在一些实施例中，当聚类后的每个簇的文本句子相似度子集合为B′_m′*n′时，此时，需要对B′_m′*n′中各列的值进行相加，然后转置得到D_n′*1。

在另一些实施例中，当聚类后的每个簇的文本句子相似度子集合为B′_n′*n′，此时需要将B′_n′*n′中各行的值进行相加，得到D_n′*1。

S14224、根据各簇的子文本句子从所述第二摘要相似度集合中查找各簇的子文本句子的第二摘要相似度，得到第二摘要相似度子集合。

具体地，需要将C′_m*n中不属于该簇内的句子删除，保留该簇的子文本句子对应的第二摘要相似度，得到对应簇的第二摘要相似度子集合，本实施例用C′_m*n′代表簇的第二摘要相似度子集合，其中n′表示该簇中句子的总数。

S14225、根据各簇对应的子文本句子重要值集合以及各簇对应的第二摘要相似度子集合，确定各簇分别对应的各摘要句子的句子重要值。

具体地，针对各簇，获取各摘要句子的第二摘要相似度中的每个第二元素，将所述第二元素乘以所述文本重要值集合中与所述第二元素对应的文本重要值，得到多个元素重要值；然后针对各摘要句子，将对应的元素重要值进行累加处理，得到各簇分别对应的各摘要句子的句子重要值，其中，第二元素为第二摘要相似度中的元素。

即，针对每个簇分别计算其各摘要句子的重要值，具体计算公式为：E_m*1＝C′_m*n′*D_n′*1，其中，E_m*1为某个簇中各摘要句子的重要值集合，代表在这个簇中各个摘要语句的重要性。

在另一些实施例中，若目标文本默认只有1个论点时，此时，步骤S1422包括：

a、根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合。

此步骤与步骤S14221类似，具体此处不做赘述。

b、将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值，得到包含所述各文本句子的文本重要值的文本重要值集合；

即，将文本句子相似度集合中与某文本句子相关的余弦相似度相加，得到的和即为该文本句子的文本重要值，对目标文本中的各文本句子都进行上述处理，得到包含各文本句子的文本重要值的文本重要值集合；此时，文本重要值集合用矩阵D_n*1标识。

c、根据所述第二摘要相似度集合以及所述文本重要值集合确定各摘要句子的句子重要值。

本实施例中，针对各摘要句子的第二摘要相似度中的每个第二元素，将所述第二元素乘以所述文本重要值集合中与所述第二元素对应的文本重要值，得到多个元素重要值；然后针对各摘要句子，将对应的元素重要值进行累加处理，得到各摘要句子的句子重要值。

具体地，可以利用句子重要值的计算公式确定各摘要句子的句子重要值，句子重要值的计算公式为：E_m*1＝C'_m*n*D_n*1，此时，E_m*1为目标文本中各摘要句子的重要值集合，包含各摘要句子的句子重要值。

S150、根据所述句子重要值从所述摘要句子中确定所述目标文本的主题。

在一些实施例中，当将目标文本聚类得到多个簇时，此时步骤S150包括：获取所述簇的簇个数；根据预设的主题个数确定规则以及所述簇个数确定主题个数；然后针对各簇分别对应的各摘要句子的句子重要值，从多个所述摘要句子中选取句子重要值最大的所述主题个数的摘要句子作为对应簇的文本主题。

例如，如果簇个数为z，则主题个数为：g＝max(1，4-z)。

针对每个簇分别进行主题提取，此时，根据各个簇分别对应的E_m*1确定各个簇中值最高的g个摘要句子作为对应簇的主题。

在另一些实施例中，若没有将目标文本进行聚类处理时，此时，可以根据预设的主题个数g，从多个摘要句子中获取句子重要值最大的g个摘要句子作为目标文本的主题。

为了便于理解，下面提供一个具体的实施例：

文章的摘要信息为a1，正文部分的信息为a2，则计算得到余弦相似度矩阵C_m*n，m代表摘要a1中句子的数量，n代表文章中所有句子的数量，即a1中句子数量与a2中句子数量之和。

对C_m*n中元素c_ij大于0.9的数值变为1，其余值为0。设C_m*n中每行等于1的元素个数为h_m；考虑到更长的句子可能隐含更多的信息，所以设置C中m个句子的权值，长度越长句子的权值越大。设C_m*n中行所对应的句子长度为s_m，每个句子的加权权值即为

从而得到矩阵C′_m*n。

计算文章中所有句子两两间的相似度，得到B，因为B包含文章全部语句，其中可能包含多个论点，所以需要通过聚类算法将单一句子聚成簇，然后将B分成多个B′。

针对每个B′将其各行元素相加，即可得到D_n′，代表每个句子在文章中的重要程度，n’代表聚类后子簇内的句子数量。而这个簇中重要信息映射到摘要中每个句子的权重即为E_m*1＝C’_m*n′*D_n′，其中m代表摘要中句子数量，n′代表子簇中句子的个数。

确定E_m*1中前g个句子为关键句，g＝max(1，4-z)，其中z为聚类所得到的簇个数。

在现有技术中，还可以利用一种名叫隐含迪利克雷分布(Latent DirichletAllocation，LDA)的概率方法，该方法能够找到文章关键词以及句子，但是需要指定文章主题数量，若主题个数与预先设置的个数不一致，那么抽取的文章主题会出现歧义。

本实施例不需要提前指定主题的个数，而是根据谱聚类的方法自动确定目标文本的个数，然后根据目标文本的文本个数确定主题个数，不会出现抽取主题是出现歧义的风险。

在一些实施例中，确定目标文本的主题个数g之后，从摘要文本中获取目标句子重要值最后的前g各摘要句子作为对应目标文本的本文主题。

在另一些实施例中，如果之前不需要确定目标文本的主题个数，则可以使用默认(预设)的主题个数根据目标句子重要值从摘要文本中提取默认个数的文本主题。

在现有技术中，若要通过Bert模型获取文本的主题，首先需要对模型进行训练，其中，训练的方法为：1、通过Bert模型，将文章每句话转为向量形式，形成矩阵X；2、对每个句子人工标注0或1，若该句子是文章的主题句，则标注为1，否则是0，如此形成列表Y。这之后，首先，将X和Y输入递归神经网络LSTM，这是因为LSTM具有前向记忆，算法不仅会聚焦当前句子，还会考虑之前的句子，真正做到从整篇文章来考虑标注结果。然后，设置激活函数为Sigmod函数。最后，经过参数寻优即可得出模型。但是使用该方法对模型进行训练，数据标注需要花费大量时间，模型准确度依赖于原始数据量和标注的质量。

本实施例不需要对模型进行训练，也可以从文本中提取主题，减少了大量的标注时间，并且解决了因为人工标注会受到个人意识的局限，导致很多重要信息不会被标注，导致模型的输出结果覆盖率不高的问题。

综上所述，本实施例根据预设的分句规则将目标文本分成多个文本句子；将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合；根据所述摘要句子相似度集合确定各摘要句子的句子重要值；根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。本发明实施例使用Bert模型得到的句子向量结合了句子上下文的语义，所以通过使用Bert模型得到的句子向量确定文本主题，可以提高主题抽取的精度。

需要说明的是，本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

图6是本发明实施例提供的一种文本主题的确定装置的示意性框图。如图6所示，对应于以上文本主题的确定方法，本发明还提供一种文本主题的确定装置。该文本主题的确定装置包括用于执行上述文本主题的确定方法的单元，该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图6，该文本主题的确定装置包括分句单元601、输入单元602、第一确定单元603、第二确定单元604以及第三确定单元605。

分句单元601，根据预设的分句规则将目标文本分成多个文本句子；

输入单元602，将各所述文本句子输入预设的Bert模型，得到由各所述文本句子的向量组成的句子向量集合；

第一确定单元603，用于根据所述句子向量集合确定所述文本句子中的摘要句子与各所述文本句子的余弦相似度，得到摘要句子相似度集合；

第二确定单元604，用于根据所述摘要句子相似度集合确定各摘要句子的句子重要值；

第三确定单元605，用于根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题。

在一些实施例中，所述第二确定单元604具体用于：

将所述摘要句子相似度集合中大于或等于预设相似度阈值的余弦相似度化为1，将根据所述摘要句子相似度集合中小于所述预设相似度阈值的余弦相似度化为0，得到第一摘要相似度集合；

根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值。

在一些实施例中，所述第二确定单元604执行所述根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值步骤时，进一步具体用于：

获取各摘要句子的句子长度，以及获取各摘要句子的第一摘要相似度中元素值为1的元素个数；

针对各摘要句子的第一摘要相似度中的每个第一元素，将所述第一元素乘以对应的句子长度并除以对应的元素个数，得到由各摘要句子的第二摘要相似度组成的第二摘要相似度集合；

根据所述第二摘要相似度集合确定各摘要句子的句子重要值。

在一些实施例中，所述第二确定单元604执行所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值步骤时，进一步具体用于：

根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合；

将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值，得到包含所述各文本句子的文本重要值的文本重要值集合；

针对各摘要句子的第二摘要相似度中的每个第二元素，将所述第二元素乘以所述文本重要值集合中与所述第二元素对应的文本重要值，得到多个元素重要值；

针对各摘要句子，将对应的元素重要值进行累加处理，得到各摘要句子的句子重要值。

在一些实施例中，所述第二确定单元604在执行所述根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合之后，还执行：

根据聚类算法对所述文本句子相似度集合进行聚类处理，得到多个簇的文本句子相似度子集合；

此时，所述第二确定单元604在执行所述将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值，得到包含所述各文本句子的文本重要值的文本重要值集合步骤时，进一步具体用于：

针对各簇，根据所述文本句子相似度子集合中各子文本句子对应的余弦相似度之和，确定各子文本句子的文本重要值，得到各簇分别对应的子文本句子重要值集合，所述子文本句子为对应簇的文本句子，所述子文本句子重要值集合包含对应簇中各子文本句子的文本重要值。

此时，在一些实施例中，所述第二确定单元604在执行所述根据所述第二摘要相似度集合以及所述各文本句子的文本重要值确定各摘要句子的句子重要值步骤时，进一步具体用于：

根据各簇的子文本句子从所述第二摘要相似度集合中查找各簇的子文本句子的第二摘要相似度，得到第二摘要相似度子集合；

根据各簇对应的子文本句子重要值集合以及各簇对应的第二摘要相似度子集合，确定各簇分别对应的各摘要句子的句子重要值。

在一些实施例中，所述第三确定单元605具体用于：

获取所述簇的簇个数；

根据预设的主题个数确定规则以及所述簇个数确定主题个数；

针对各簇分别对应的各摘要句子的句子重要值，从多个所述摘要句子中选取句子重要值最大的所述主题个数的摘要句子作为对应簇的文本主题。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述文本主题的确定装置和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述文本主题的确定装置可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本发明实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是终端，也可以是服务器，其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

参阅图7，该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705，其中，存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032包括程序指令，该程序指令被执行时，可使得处理器702执行一种文本主题的确定方法。

该处理器702用于提供计算和控制能力，以支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境，该计算机程序7032被处理器702执行时，可使得处理器702执行一种文本主题的确定方法。

该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解，图7中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备700的限定，具体的计算机设备700可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器702用于运行存储在存储器中的计算机程序7032，以实现如下步骤：

根据预设的分句规则将目标文本分成多个文本句子；

在一实施例中，处理器702在实现所述根据所述摘要句子相似度集合确定各摘要句子的句子重要值步骤时，具体实现如下步骤：

在一实施例中，处理器702在实现所述根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值步骤时，具体实现如下步骤：

在一实施例中，处理器702在实现所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值步骤时，具体实现如下步骤：

在一实施例中，处理器702在实现所述根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合步骤之后，还实现如下步骤：

所述将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值，得到包含所述各文本句子的文本重要值的文本重要值集合，包括：

在一实施例中，处理器702在实现所述根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题步骤时，具体实现如下步骤：

获取所述簇的簇个数；

应当理解，在本发明实施例中，处理器702可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤：

根据预设的分句规则将目标文本分成多个文本句子；

在一实施例中，所述处理器在执行所述程序指令而实现所述根据所述摘要句子相似度集合确定各摘要句子的句子重要值步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合步骤之后，还实现如下步骤：

此时，在一实施例中，所述处理器在执行所述将所述文本句子相似度集合中各文本句子对应的余弦相似度之和确定为各文本句子的文本重要值，得到包含所述各文本句子的文本重要值的文本重要值集合步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题步骤时，具体实现如下步骤：

获取所述簇的簇个数；

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本主题的确定方法，其特征在于，包括：

根据预设的分句规则将目标文本分成多个文本句子；

2.根据权利要求1所述的方法，其特征在于，所述根据所述摘要句子相似度集合确定各摘要句子的句子重要值，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一摘要相似度集合中各摘要句子的第一摘要相似度确定各摘要句子的句子重要值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述句子向量集合确定各文本句子间的余弦相似度，得到文本句子相似度集合之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二摘要相似度集合确定各摘要句子的句子重要值，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述句子重要值从多个所述摘要句子中确定所述目标文本的文本主题，包括：

获取所述簇的簇个数；

8.一种文本主题的确定装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-7中任一项所述的方法。