CN109241272B

CN109241272B - 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

Info

Publication number: CN109241272B
Application number: CN201810825778.4A
Authority: CN
Inventors: 曾碧卿; 周才东
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-07-25
Filing date: 2018-07-25
Publication date: 2021-07-06
Anticipated expiration: 2038-07-25
Also published as: CN109241272A

Abstract

本发明涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备，包括：分别获得文本的词集合和摘要的词集合；分别计算文本的词集合和摘要的词集合中各词的词频‑逆文档频率，获得文本词表和摘要词表，获得文本词表中各词的融合向量和摘要词表中各词的融合向量；获得待处理文本的词集合；获得待处理文本的词集合中各词的融合向量；生成摘要词向量；根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，获得摘要词向量对应的词，并将该词输出作为摘要。根据词频‑逆文档频率获得词表，从而使一些频次出现较低但是能反映文本主题的词汇得以保留，减少了超出词表的问题，从而使生成的摘要能更准确地表达文本含义的词汇。

Description

一种中文文本摘要生成方法、计算机可读储存介质及计算机设备

技术领域

本发明涉及文本数据处理领域，特别是涉及一种文本摘要的生成方法、计算机可读储存介质及计算机设备。

背景技术

随着数据的爆炸性发展，尤其是文本数据的剧增，人们已经无法及时浏览和理解所有感兴趣的文本，但遗漏某些重要的文本数据又会造成很多组织和应用的损失，因此，文本摘要作为总结文本重要数据的信息，成为了人们关注的重点，而如何根据文本数据自动生成摘要也成为了热门研究的课题。

目前，现有的文本摘要自动生成方法，主要是使用机器学习中的编码-解码模型，具体的，该模型先使用循环神经网络(Recurrent Neural Networks，RNN)作为编码器，将原文本进行信息编码压缩和提取，然后使用带有注意力机制的解码器将编码器压缩的信息进行解码，进而生成原文本的摘要；其中，解码器的结构与编码器一致，也是由循环神经网络构成。

但是，通过编码-解码模型生成文本摘要时，解码器每一个时间步都会产生一个词汇，再将这些词汇组合成为句子摘要。而这些词汇的来源则是一个大小为n的词表，从计算时间成本的角度考虑，这个词表通常不会包含训练集中所有的词汇，训练集中的大量低频词汇只能统一用“UNK”字符代替；另一方面，测试集中的词不一定完全在训练集中出现过，当然也未必会在可预测的词表的范围内，这就出现了超出词表(out of vocabulary，简称OOV)的问题。当新的文本中包含一些重要的超出词表的词汇时，由于编码-解码模型仅仅利用在训练集中学到的参数，在生成的时候，逐个预测某一个位置应当选择词表中的哪一个词，因此，在生成摘要时，只能使用“UNK”来代替这些重要的超出词表的词语，进而使得提取出来的摘要不准确的问题。

发明内容

基于此，本发明的目的在于，提供一种文本摘要的生成方法，其具有可使一些频次出现较低但是能反映文本主题的词汇得以保留，减少超出词表的问题，使生成的摘要能更准确地表达文本含义的优点。

一种文本摘要的生成方法，包括如下步骤：

分别对训练集中的文本和摘要进行词切分处理，获得文本的词集合和摘要的词集合；

分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率，获得文本词表和摘要词表，并分别对文本词表和摘要词表中的各词进行向量化处理，获得文本词表中各词的融合向量和摘要词表中各词的融合向量；

将待处理文本进行词切分处理，获得待处理文本的词集合；

根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系，将待处理文本的词集合中的各词进行词嵌入处理，获得待处理文本的词集合中各词的融合向量；

将待处理文本的词集合中各词的融合向量输入到编码-解码模型中，生成摘要词向量；

根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，获得摘要词向量对应的词，并将该词输出作为摘要。

相比于现有技术，本发明通过计算各词的词频-逆文档频率，进而根据词频-逆文档频率获得词表，从而使一些频次出现较低但是能反映文本主题的词汇得以保留，减少了超出词表的问题，从而使生成的摘要能更准确地表达文本含义的词汇。

进一步地，所述计算文本的词集合中各词的词频-逆文档频率，获得文本词表时，包括如下步骤：

获取文本的词集合中各词在训练集中的每个文本文档的词频；

获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率；

获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率；

获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率；

将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序；

获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。

进一步地，所述计算摘要的词集合中各词的词频-逆文档频率，获得摘要词表时，包括如下步骤：

获取摘要的词集合中各词在训练集中的每个摘要文档的词频；

获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率；

获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率；

获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率；

将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序；

获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。

进一步地，所述第一设定阈值和第二设定阈值的大小相同，且所述第一设定阈值和第二设定阈值为排序位置在所有词排序位置的前70％-90％，即获取排序在前70％-90％内的词频-逆文档频率对应的词作为文本词表或摘要词表，通过获取排序在前70％内的词频-逆文档频率对应的词作为文本词表或摘要词表，可减少后续词语的向量处理等工作，提高效率；通过获取排序在前90％内的词频-逆文档频率对应的词作为文本词表或摘要词表，可囊括尽可多的词语作为文本词表或摘要词表，尽可能出现降低超词表的问题。

进一步地，所述对文本词表中的各词进行向量化处理，获得文本词表中各词的融合向量时，包括如下步骤：

将文本词表中的各词分别进行词向量化；

将文本词表中的各词分别进行词性标注，获得文本词表中各词的词性向量；

将文本词表中的各词的词向量和词性向量进行拼接，获得文本词表中各词的融合向量。

通过增加词性特征来表征词特征，进而提高后续摘要生成的准确性。

进一步地，所述对摘要词表中的各词进行向量化处理，获得摘要词表中各词的融合向量时，包括如下步骤：

将摘要词表中的各词分别进行词向量化；

将摘要词表中的各词分别进行词性标注，获得摘要词表中各词的词性向量；

将摘要词表中的各词的词向量和词性向量进行拼接，获得摘要词表中各词的融合向量。

进一步地，在获得待处理文本的词集合中各词的融合向量之后，还将待处理文本的词集合中各词的融合向量进行局部注意机制处理，获得加权后的融合向量，再将加权后的融合向量输入到编码-解码模型中，生成摘要词向量，通过增加局部注意机制，可增强文本的重点信息，衰减非重点信息，进而使生成的摘要更加准确。

进一步地，在根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，获得摘要词向量对应的词时，包括如下步骤：

根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，判断摘要词向量对应的词是否存在于摘要词表中；

在摘要词向量对应的词存在于摘要词表中时，获得摘要词向量对应的词，并输出作为摘要；

在摘要词向量对应的词不存在于摘要词表中时，计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离，且将欧几里得距离最小时对应的摘要词表中的词输出作为摘要。

在超出词表时，通过计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离，寻找相似的词汇，并根据词性特征使词性相同的词更接近成为超出词表的替换词，进而使生成的摘要在超出词表的前提下，仍然能保留原语义。

本发明还提供一种计算机可读储存介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述所述的文本摘要的生成方法的步骤。

本发明还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的文本摘要的生成方法的步骤。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本发明文本摘要的生成方法的流程图。

具体实施方式

请参阅图1，其为本发明文本摘要的生成方法的流程图。所述文本摘要的生成方法，包括如下步骤：

步骤S1：分别对训练集中的文本和摘要进行词切分处理，获得文本的词集合和摘要的词集合。

步骤S2：分别计算文本的词集合和摘要的词集合中各词的词频-逆文档频率，获得文本词表和摘要词表，并分别对文本词表和摘要词表中的各词进行向量化处理，获得文本词表中各词的融合向量和摘要词表中各词的融合向量。

根据词频-逆文档频率来获得文本词表和摘要词表，从而使一些频次出现较低但是能反映文本主题的词汇得以保留，减少了超出词表的问题，从而使生成的摘要能更准确地表达文本含义的词汇。

在一个实施例中，所述计算文本的词集合中各词的词频-逆文档频率，获得文本词表时，包括如下步骤：

步骤S211：获取文本的词集合中各词在训练集中的每个文本文档的词频。

具体的计算方式为：

其中，TF_w,d代表词w在文本文档d中的词频，n_w,d代表词w在文本文档d中出现的次数，{w_d}代表文本文档d中出现的所有词的集合。

步骤S212：获取文本的词集合中各词在训练集中的每个文本文档的逆文档频率。

具体的计算方式为：

其中，IDF_w,d代表逆文档频率，n代表所有的文本文档数，n_w代表词w出现过的文本文档数。

步骤S213：获取文本的词集合中各词在训练集中的每个文本文档的词频-逆文档频率。

具体的计算方式为：

其中，TF-IDF_w代表词w在所有文本文档中的词频-逆文档频率，{W}代表所有文本文档，n代表所有的文本文档数目。

步骤S214：获取文本的词集合中各词在训练集中所有文本文档的词频-逆文档频率。

具体的计算方式为：TF-IDF_w,d＝TF_w,d*IDF_w,d，其中，TF-IDF_w,d代表词w针对文本文档d的词频-逆文档频率。

步骤S215：将文本的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序。

步骤S216：获取排序在第一个设定阈值内的词频-逆文档频率对应的词作为文本词表。

在一个实施例中，所述计算摘要的词集合中各词的词频-逆文档频率，获得摘要词表时，包括如下步骤：

步骤S221：获取摘要的词集合中各词在训练集中的每个摘要文档的词频；

步骤S222：获取摘要的词集合中各词在训练集中的每个摘要文档的逆文档频率；

步骤S223：获取摘要的词集合中各词在训练集中的每个摘要文档的词频-逆文档频率；

步骤S224：获取摘要的词集合中各词在训练集中所有摘要文档的词频-逆文档频率；

步骤S225：将摘要的词集合中各词的词频-逆文档频率按照由大到小的方式进行排序；

步骤S226：获取排序在第二个设定阈值内的词频-逆文档频率对应的词作为摘要词表。

其中，摘要文档的词集合中各词分别在每个摘要文档的词频、逆文档频率、词频-逆文档频率以及各词在所有摘要文档的词频-逆文档频率，与中文文档的词集合中各词分别在每个中文文档的词频、逆文档频率、词频-逆文档频率以及各词在所有中文文档的词频-逆文档频率的计算方式相同，这里不加以赘述。

下面列举一个具体的例子，以说明文本的词集合和摘要的词集合中各词的词频-逆文档频率的计算方式：

本发明的训练集包括多条数据，每条数据包含文本文档、以及与文本文档对应的摘要文档。在计算词的词频-逆文档频率时，将文本文档的词和摘要文档的词中分开进行计算，比如，训练集共有n条数据，每条数据格式为(doc1，abs1)，(doc2，abs2)……，其中，doc1、doc2……表示文本文文档，abs1、abs2……表示摘要文档；假设doc1和doc2中含有词W1，abs1中含有词W2，其他doc文档中不包含词W1，其他abs文档中不包含词W2。则词W1对于文档doc1的词频-逆文档频率为p1，词W1对于文档doc2的词频-逆文档频率为p2，那么最终词W1的词频-逆文档频率final-p(W1)＝(p1+p2)/n。词W2对于文档abs1的词频-逆文档频率为p3，文档abs2中不包含词W2，则其词频-逆文档频率为0，那么最终词W2的词频-逆文档频率final-p(W2)＝(p3+0)/n。

在一个实施例中，所述第一设定阈值和第二设定阈值的大小相同，且所述第一设定阈值和第二设定阈值为排序位置在所有词排序位置的前70％-90％，即获取排序在前70％-90％内的词频-逆文档频率对应的词作为文本词表或摘要词表，通过获取排序在前70％内的词频-逆文档频率对应的词作为文本词表或摘要词表，可减少后续词语的向量处理等工作，提高效率；通过获取排序在前90％内的词频-逆文档频率对应的词作为文本词表或摘要词表，可囊括尽可多的词语作为文本词表或摘要词表，尽可能出现降低超词表的问题。优选的，获取排序在前80％内的词频-逆文档频率对应的词作为文本词表或摘要词表，以减少向量处理工作而提高效率，同时也可尽可能的降低出现超词表的问题。

在一个实施例中，所述对文本词表中的各词进行向量化处理，获得文本词表中各词的融合向量时，包括如下步骤：

步骤S231：将文本词表中的各词分别进行词向量化。

步骤S232：将文本词表中的各词分别进行词性标注，获得文本词表中各词的词性向量。

步骤S233：将文本词表中的各词的词向量和词性向量进行拼接，获得文本词表中各词的融合向量。

在一个实施例中，所述对摘要词表中的各词进行向量化处理，获得摘要词表中各词的融合向量时，包括如下步骤：

步骤S241：将摘要词表中的各词分别进行词向量化。

在一个实施例中，每个词的词向量大小设置为200维度，可表示为：

{x_w,1,x_w,2,...,x_w,199,x_w,200}。

步骤S242：将摘要词表中的各词分别进行词性标注，获得摘要词表中各词的词性向量。

在一个实施例中，每个词的词性向量大小设置为50维度，可表示为：

{pos_w,1,pos_w,2,...,pos_w,49,pos_w,50}。

步骤S243：将摘要词表中的各词的词向量和词性向量进行拼接，获得摘要词表中各词的融合向量。

在一个实施例中，每个词拼接后获得的融合词向量大小为250维度，可表示为：

X_w＝{x_w,1,x_w,2,...,x_w,199,x_w,200，pos_w,1,pos_w,2,...,pos_w,49,pos_w,50}。

步骤S3：将待处理文本进行词切分处理，获得待处理文本的词集合。

步骤S4：根据文本词表中的各词与文本词表中各词的融合向量之间的映射关系，将待处理文本的词集合中的各词进行词嵌入处理，获得待处理文本的词集合中各词的融合向量。

步骤S5：将待处理文本的词集合中各词的融合向量输入到编码-解码模型中，生成摘要词向量。

为了增强文本的重点信息，衰减非重点信息，进而使生成的摘要更加准确，在一个更优实施例中，在获得待处理文本的词集合中各词的融合向量之后，还将待处理文本的词集合中各词的融合向量进行局部注意机制处理，获得加权后的融合向量，再将加权后的融合向量输入到编码-解码模型中，生成摘要词向量。

步骤S6：根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，获得摘要词向量对应的词，并将该词输出作为摘要。

为了使摘要的输出更为准确，更能保留原语义，在一个更优实施例中，在根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，获得摘要词向量对应的词时，包括如下步骤：

步骤S61：根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，判断摘要词向量对应的词是否存在于摘要词表中；

步骤S62：在摘要词向量对应的词存在于摘要词表中时，获得摘要词向量对应的词，并输出作为摘要。

步骤S63：在摘要词向量对应的词不存在于摘要词表中时，计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离，且将欧几里得距离最小时对应的摘要词表中的词输出作为摘要。

其中，所述欧几里得距离的计算公式如下：

其中，{x_p,1,x_p,2,...,x_p,249,x_p,250}表示摘要词向量；

X_w＝{x_w,1,x_w,2,...,x_w,199,x_w,200，pos_w,1,pos_w,2,...,pos_w,49,pos_w,50}表示摘要词表中的词w的融合向量。

相比于现有技术，本发明通过计算各词的词频-逆文档频率，进而根据词频-逆文档频率获得词表，从而使一些频次出现较低但是能反映文本主题的词汇得以保留，减少了超出词表的问题，从而使生成的摘要能更准确地表达文本含义的词汇。进一步地，在生成词向量时，通过增加词性特征来表征词特征，提高了摘要生成的准确性；在超出词表时，通过计算并比较摘要词向量与摘要词表各词的融合向量的欧几里得距离，寻找相似的词汇，并根据词性特征使词性相同的词更接近成为超出词表的替换词，进而使生成的摘要在超出词表的前提下，仍然能保留原语义。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种文本摘要的生成方法，其特征在于，包括如下步骤：

将待处理文本进行词切分处理，获得待处理文本的词集合；

2.根据权利要求1所述的文本摘要的生成方法，其特征在于，所述计算文本的词集合中各词的词频-逆文档频率，获得文本词表时，包括如下步骤：

3.根据权利要求2所述的文本摘要的生成方法，其特征在于，所述计算摘要的词集合中各词的词频-逆文档频率，获得摘要词表时，包括如下步骤：

4.根据权利要求3所述的文本摘要的生成方法，其特征在于，所述第一个设定阈值和第二个设定阈值的大小相同，且所述第一个设定阈值和第二个设定阈值为排序位置在所有词排序位置的前70％-90％。

5.根据权利要求1所述的文本摘要的生成方法，其特征在于，所述对文本词表中的各词进行向量化处理，获得文本词表中各词的融合向量时，包括如下步骤：

将文本词表中的各词分别进行词向量化；

6.根据权利要求5所述的文本摘要的生成方法，其特征在于，所述对摘要词表中的各词进行向量化处理，获得摘要词表中各词的融合向量时，包括如下步骤：

将摘要词表中的各词分别进行词向量化；

7.根据权利要求1所述的文本摘要的生成方法，其特征在于，在获得待处理文本的词集合中各词的融合向量之后，还将待处理文本的词集合中各词的融合向量进行局部注意机制处理，获得加权后的融合向量，再将加权后的融合向量输入到编码-解码模型中，生成摘要词向量。

8.根据权利要求1所述的文本摘要的生成方法，其特征在于，所述根据摘要词表中的各词与摘要词表中各词的融合向量之间的映射关系，获得摘要词向量对应的词时，包括如下步骤：

9.一种计算机可读储存介质，其上储存有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的文本摘要的生成方法的步骤。

10.一种计算机设备，其特征在于，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的文本摘要的生成方法的步骤。