CN109977220B

CN109977220B - 一种基于关键句和关键字的反向生成摘要的方法

Info

Publication number: CN109977220B
Application number: CN201910281699.6A
Authority: CN
Inventors: 舒泓新; 蔡晓东; 蒋鹏; 马新成
Original assignee: Chinaccs Information Industry Co ltd
Current assignee: Chinaccs Information Industry Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2024-01-30
Anticipated expiration: 2039-04-09
Also published as: CN109977220A

Abstract

本发明涉及一种基于关键字和关键句的反向生成摘要的方法。方法包括：构建关键字和关键句的训练和测试数据集，搭建序列到序列的框架网络，通过对关键字和关键句进行编码，再有选择注意力模型对需要提取的地方进行定位和选择，若提取的摘要信息在原文中就选择原文，反之就从字典中选取摘要信息，将定位和选择好的内容放入反向解码器中，再经查重模块，最终得到文本摘要。发明的有益效果是：基于关键字和关键句的摘要提取方法使得文档中的冗余信息降低、对原文中重要信息的辨识能力提高、产生的摘要具有对原文的高度概括且符合中文语法，语句更加流畅，语义也更加符合文意。

Description

一种基于关键句和关键字的反向生成摘要的方法

技术领域

本发明涉及自然语言处理技术领域，特别涉及一种基于关键句和关键字的反向生成摘要的方法。

背景技术

在自然语言处理领域，文本摘要生成占据着重要的地位，它主要应用于新闻信息服务、文献自动索引、信息检索、搜索引擎等方面。文本摘要生成主要分为提取式和生成式。但随着注意力模型的出现，文本摘要的到了快速的发展。但目前主流的方法是基于序列到序列模型的文本摘要算法。这种算法利用了深度学习技术，使得训练生成的摘要与标准摘要相接近。这种模型的缺点是易出现重复字、对文本冗余信息的识别和处理能力差、对文本的重要信息的辨别能力差且倾向于从文本中直接提取关键信息，当遇到原文中一些需要高度概括的地方时，其创造新词的能力较差，不能形成高度概括的文本摘要。

传统的序列到序列的模型都依靠注意力机制来挑选标准答案的出处。当一些段落没有标准答案的出处时，它就不能准确的找到答案的出处，而是随机的在原文中找一句，最终形成的摘要也就不准确。这就需要去提升注意力模型的定位与选择能力能力。这样该模型才能有高度概括的能力。

生成的摘要也会出现词语之间搭配不准确或不合理，最终导致摘要语句语义、流畅性等受到影响。句子中某些结构是修饰词加中性词的形式。若将其翻转变为中性词在前修饰词在后，从概率论的角度，修饰词更加容易确定。

发明内容

针对语料数据稀疏、注意力模型不能准确定位摘要出处和摘要不能对原文进行高度概括、生成的摘要中词语搭配不合理、摘要中有重复字的技术问题，提供一种基于关键句和关键字的反向生成摘要的方法。

其技术方案为，

1、针对数据稀疏问题，分别用tf-idf算法和用textrank算法提取原文的30个关键字和2个关键句。将这些关键字与答案的关键字用正则表达式进行匹配将不同的关键字加入到30个关键字中。

2、针对注意力模型不能准确定位问题，使用上述这些关键字指引注意力模型在原文中准确定位。

3、针对不能形成高度概括的摘要，在注意力模型上加入选择门，先通过注意力去寻找标准答案出处，若存在则使用该出处生成摘要。若不从在，注意力模型就不用去原文中寻找，直接使用词典中的词造出与标准答案相接近的摘要。

4、针对摘要最后生成阶段有些词与另一些词搭配不合理，采用将标准答案翻转，经训练后形成的摘要也会被翻转，这样一些修饰词更容易被确定，且不破坏句子其他结构。

5、针对重复字问题，在摘要生成过程中查重模块会控制注意力机制。

本方法的具体步骤为：

S1、将获取的语料生成文档；

S2、分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句；

S3、用正则表达式比较标准答案与所述S2提取的关键字，将标题中不同的关键字增加到S2提取的关键字中；

S4、将获取的所述关键字和关键句分别输入两个编码器中；

S5、选择注意力模型在编码器或在字典中寻找形成摘要的关键信息；语料在进入网络时，会自动统计关键字和关键句以及标题里的字，将这些字作为字典。

S6、S5挑选好的关键信息进入反向解码器；

S7、用查重模块对注意力模型控制，防止重复定位原文，产生重复字；

S8、最终生成文本摘要。

优选为，所述步骤S2中，用tf-idf算法的具体步骤为：

先计算每个词在文档中出现的频率，再计算每个词的逆向文件频率；将每个字的词频与每个字的逆向文件频率相乘，最终得到每个词的权重，依次取出权重较高的30个词作为关键词；表达式为：

式中n_i,j是该词t_i在文件d_j中的出现次数，而分母则是在文件d_j中所有词的出现次数之和；其中|D|是语料库中的文件总数|{j:t_i∈d_j}|表示包含词语t_i的文件数目；tfidf_i,j＝tf_i,j×idf_i，其中tfidf_i,j表示每个词的权重。

优选为，所述S2中用textrank算法的具体步骤为：

将文档中的每个句子看做一个节点，并将每个句子的句向量的cos值作为边用k-means算法将句子聚类，在每类中用textrank以相同的节点和边的方式对每个句子排序，找出前两个句子作为关键句。

优选为，所述S3中，用正则表达式算法比较关键字的具体步骤为：

正则表达式将所述S2提取的30个关键词与人工摘要的字进行一一对比，发现不同的字输出，将每个文档不同的关键字添加到它对应的提取的30个关键字中。

优选为，所述S4将获取的所述关键字和关键句分别输入两个编码器中的具体步骤为：

利用两个双向循环神经网络的编码器分别对关键句和关键字进行数字化，得到编码向量；具体的方式为使用双向神经网络中的两个反向的循环神经网络，将文章中的每个字依次输入该网络，在最后一个字输入完成时得到字的编码向量，分别作为输入关键字和关键句的编码向量和/>数学表达式如下：

式中表示双向循环神经网络中的前向隐藏层状；/>表示双向循环神经网络中的反向隐藏层状；x_t表示关键句中的词；/>表示双向循环神经网络中的前向隐藏层前一状态；/>表示双向循环神经网络中的反向隐藏层前一隐藏层；/>表示双向循环神经网络中的最终隐藏层；GRU表示神经网络；

式中表示关键字双向循环神经网络中的前向隐藏层状；/>表示关键字双向循环神经网络中的反向隐藏层状；x_kt表示关键词；/>表示关键字双向循环神经网络中的前向隐藏层前一状态；/>表示关键字双向循环神经网络中的反向隐藏层前一隐藏层；/>表示关键字双向循环神经网络中的最终隐藏层；GRU表示神经网络。

优选为，所述S5注意力模型在编码器或在字典中寻找形成摘要的关键信息；具体步骤为：

利用双向循环神经网络在每一时刻输入关键句和关键字的向量，注意力模型给予关键句的每个字不通的权重，并结合已生成的摘要的字的向量，利用关键字向量去增加被注意力模型捕获到的关键句中字向量的权重，选择需要关注的关键句中的字向量，当原文中没有答案的出处时，注意力模型就从由关键字和关键句组成的字典中选择需要关注的字向量，最终注意力模型将输出的向量C_t给解码器；

式中表示解码器循环神经网络的隐藏层；/>表示解码器循环神经网络的隐层的权重；/>表示关键字和关键句权重；/>表示关键句隐藏层；/>表示关键句隐藏层；b_a表示偏置；a_i,j表示权重；/>表示关键句的隐藏层；h表示被选定的隐藏层；h_dic表示由关键句和关键字组成的字典的隐藏层；k_t表示注意力的选择开关，当k_t＝1时选择关键句，当k_t＝0时选择字典；T^e表示输入序列长度。

优选为，所述S6中，将所述S5挑选好的关键信息进入反向解码器具体步骤为：

利用经关键字辅助注意力模型在关键句中或在字典中选择的每一时刻输入得到的字，经过编码器输出的当前时刻预测到的字，经过一定时刻得到一个完整的摘要；具体的方式为先使用双向循环神经网络模型输入经注意力模型选定的字向量(来自关键句或字典)作为输入，在同一时刻已生成的摘要字向量结合原文本通过结构控制层，结构控制层再结合注意力模型挑选的输入内容，计算条件概率生成摘要的最后一个字，把最后第一个字输入到循环神经网络模型中，得到倒数第二个字，以此类推直到生成一个代表句子结束的标识符，这样就能得到完整的逆序摘要文本；此时循环神经网络还得到了该摘要的逆序解码字向量；其数学公式为：

表示解码器循环神经网络的第一隐藏层；GRU₁表示神经网络；y_t-1表示解码器已经产生的词向量；/>表示上一时刻解码器循环神经网络的第一隐藏层；/>表示解码器循环神经网络的第二隐藏层；/>表示上一时刻解码器循环神经网络的第二隐藏层；g表示表示t时刻解码器联合隐藏层；/>表示结构控制层的权重；z_t表示结构控制层；/>表示第二隐藏层权重；/>表示前一确定隐藏层；/>表示偏置；y_t＝[y_t-1,...,y₂,y₁]表示产生的反向摘要序列；/>表示联合隐藏层权重；/>表示softmax函数；/>表示偏置。

优选为，所述S7具体步骤为：

将注意力给每个输入的字的权重相加得到向量d，d再与每个注意力权重求最小值，将每一个最小值相加，得到的值加入最后的损失函数中。

优选为，所述S8具体步骤为：

计算得到目标函数的梯度，然后用KL散度算法依照梯度对参数θ进行更新，就可得到目标函数的最大值，最终得到最好的那组摘要即为本方法所需生成的摘要。

优选为，所述S2中分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句为，提取N*10个关键字和M个关键句，其中N大于等于3，M大于等于2。

本发明实施例提供的技术方案带来的有益效果是：应用关键句、原文关键字和标题关键字、选择注意力模型处、翻转控制器、查重控制器，使得文档中的冗余信息降低、对原文中重要信息的辨识能力提高、产生的摘要具有对原文的高度概括且符合中文语法，语句更加流畅，语义也更加符合文意，词语搭配也更加合理。

附图说明

图1为本发明实施例的方法流程图。

图2为本发明实施例的框架结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。当然，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，在不冲突的情况下，本发明创造中的实施例及实施例中的特征可以相互组合。

实施例1

参见图1与图2，本发明提供一种基于关键句和关键字的反向生成摘要的方法，包括步骤

S1、将获取的语料生成文档。

S2、分别用tf-idf算法和用textrank算法提取原文的30个关键字和2个关键句。

用tf-idf算法的具体步骤为：

用textrank算法的具体步骤为：

S3、用正则表达式比较标准答案与S2提取的关键字，将标题中不同的关键字增加到S2提取的关键字中。

正则表达式将S2提取的30个关键词与人工摘要的字进行一一对比，发现不同的字输出，将每个文档不同的关键字添加到它对应的提取的30个关键字中。

S4、将获取的关键字和关键句分别输入两个编码器中。

S6、S5挑选好的关键信息进入反向解码器。

S7、用查重模块对注意力模型控制，防止重复定位原文，产生重复字。

S8、最终生成文本摘要。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于关键句和关键字的反向生成摘要的方法，其特征在于，包括步骤：

S1、将获取的语料生成文档；

S4、将获取的所述关键字和关键句分别输入两个编码器中；

S5、选择注意力模型在编码器或在字典中寻找形成摘要的关键信息；

S6、S5挑选好的关键信息进入反向解码器；

S8、最终生成文本摘要；

其中，所述步骤S2中，用tf-idf算法的具体步骤为：

先计算每个词在文档中出现的频率，再计算每个词的逆向文件频率；将每个字的词频与每个字的逆向文件频率相乘，最终得到每个词的权重，依次取出权重较高的词作为关键词；表达式为：

；

式中是词t _i在文件d _j中的出现次数，而分母则是在文件d _j中所有词的出现次数之和；其中/>是语料库中的文件总数/>表示包含词语t _i的文件数目；，其中/>表示每个词的权重；

所述S2中用textrank算法的具体步骤为：

将文档中的每个句子看做一个节点，并将每个句子的句向量的cos值作为边用k-means算法将句子聚类，在每类中用textrank以相同的节点和边的方式对每个句子排序，找出前两个句子作为关键句；

所述S3中，用正则表达式算法比较关键字的具体步骤为：

正则表达式将所述S2提取的关键词与人工摘要的字进行一一对比，发现不同的字输出，将每个文档不同的关键字添加到它对应的提取的关键字中；

所述S4将获取的所述关键字和关键句分别输入两个编码器中的具体步骤为：

利用两个双向循环神经网络的编码器分别对关键句和关键字进行数字化，得到编码向量；具体的方式为使用双向神经网络中的两个反向的循环神经网络，将文章中的每个字依次输入该网络，在最后一个字输入完成时得到字的编码向量，分别作为输入关键字和关键句的编码向量和/>；数学表达式如下：

；

式中表示双向循环神经网络中的前向隐藏层状；/>表示双向循环神经网络中的反向隐藏层状；/>表示关键句中的词；/>表示双向循环神经网络中的前向隐藏层前一状态；表示双向循环神经网络中的反向隐藏层前一隐藏层；/> 表示双向循环神经网络中的最终隐藏层；/>表示神经网络；

；

式中表示关键字双向循环神经网络中的前向隐藏层状； />表示关键字双向循环神经网络中的反向隐藏层状； />表示关键词；/>表示关键字双向循环神经网络中的前向隐藏层前一状态；/>表示关键字双向循环神经网络中的反向隐藏层前一隐藏层；/>表示关键字双向循环神经网络中的最终隐藏层；/>表示神经网络。

2.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法，其特征在于，所述S5注意力模型在编码器或在字典中寻找形成摘要的关键信息；具体步骤为：

利用双向循环神经网络在每一时刻输入关键句和关键字的向量，注意力模型给予关键句的每个字不同的权重，并结合已生成的摘要的字的向量，利用关键字向量去增加被注意力模型捕获到的关键句中字向量的权重，选择需要关注的关键句中的字向量，当原文中没有答案的出处时，注意力模型就从由关键字和关键句组成的字典中选择需要关注的字向量，最终注意力模型将输出的向量给解码器；

；

式中表示解码器循环神经网络的隐藏层；/>表示解码器循环神经网络的隐隐藏层的权重；/>表示关键字和关键句权重；/>表示关键字隐藏层；/>表示关键句隐藏层；表示偏置；/>表示权重；/>表示被选定的隐藏层；/>表示由关键句和关键字组成的字典的隐藏层；/>表示注意力的选择开关，当/>=1时选择关键句，当/>=0时选择字典；/>表示输入序列长度。

3.基于权利要求2所述的基于关键句和关键字的反向生成摘要的方法，其特征在于，所述S6中，将所述S5挑选好的关键信息进入反向解码器具体步骤为：

利用经关键字辅助注意力模型在关键句中或在字典中选择的每一时刻输入得到的字，经过编码器输出的当前时刻预测到的字，经过一定时刻得到一个完整的摘要；具体的方式为先使用双向循环神经网络模型输入经注意力模型选定的字向量作为输入，在同一时刻已生成的摘要字向量结合原文本通过结构控制层，结构控制层再结合注意力模型挑选的输入内容，计算条件概率生成摘要的最后一个字，把最后第一个字输入到循环神经网络模型中，得到倒数第二个字，以此类推直到生成一个代表句子结束的标识符，这样就能得到完整的逆序摘要文本；此时循环神经网络还得到了该摘要的逆序解码字向量；其数学公式为：

；

表示解码器循环神经网络的第一隐藏层；/>表示神经网络；/>表示解码器已经产生的词向量；/>表示上一时刻解码器循环神经网络的第一隐藏层； />表示解码器循环神经网络的第二隐藏层；/>表示上一时刻解码器循环神经网络的第二隐藏层；g表示；/>表示t时刻解码器联合隐藏层；/>表示结构控制层的权重；/>表示结构控制层；/>表示第二隐藏层权重；/>表示前一确定隐藏层；/>表示偏置；表示产生的反向摘要序列；/>表示联合隐藏层权重；/>表示softmax函数；/>表示偏置。

4.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法，其特征在于，所述S7具体步骤为：

5.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法，其特征在于，所述S8具体步骤为：

计算得到目标函数的梯度，然后用KL散度算法依照梯度对参数进行更新，就可得到目标函数的最大值，最终得到的那组摘要即为本方法所需生成的摘要。

6.基于权利要求1所述的基于关键句和关键字的反向生成摘要的方法，其特征在于，所述S2中分别用tf-idf算法和用textrank算法提取原文的若干个关键字和关键句为，提取N*10个关键字和M个关键句，其中N大于等于3，M大于等于2。