CN113673241B

CN113673241B - 一种基于范例学习的文本摘要生成框架系统及方法

Info

Publication number: CN113673241B
Application number: CN202110885791.0A
Authority: CN
Inventors: 邱锡鹏; 安晨鑫; 钟鸣; 耿志超; 杨非; 俞再亮
Original assignee: Fudan University; Zhejiang Lab
Current assignee: Fudan University; Zhejiang Lab
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2024-04-09
Anticipated expiration: 2041-08-03
Also published as: CN113673241A

Abstract

本发明公开了一种基于范例学习的文本摘要生成框架及方法，允许在摘要生成的过程中参考一些写作范例，框架包括检索和生成两个阶段，检索阶段，给定一个文本，使用对比学习去数据库中检索一些范例，假定越好的摘要在语义空间应该和原文离得更近，检索器的模型使用了孪生网络的结构；生成阶段，提出了一种结合范例进行摘要生成的方法，可以方便的加在目前所有主流的条件生成模型上，为了更好的学习范例，将待生成的摘要和范例摘要按照句子对齐；通过训练好的模型进行预测，即解码阶段，使用集束搜索算法并鼓励那些和范例更相似的束。

Description

一种基于范例学习的文本摘要生成框架系统及方法

技术领域

本发明涉及深度学习和自然语言处理，尤其是涉及一种基于范例学习的文本摘要生成框架及方法。

背景技术

自动文本摘要(Automatic Text Summarization)任务是自然语言处理(NLP)中的一类基础任务，自动文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。按照输出类型可分为抽取式摘要(Extractive Summarization)和生成式摘要(Abstractive)。抽取式摘要从源文档中抽取关键句和关键词组成摘要，摘要全部来源于原文。生成式摘要根据原文，允许生成新的词语、短语来组成摘要。

主流的抽取式摘要模型主要以句子为单位进行抽取，该方法的优点是事实一致性，缺点是输出离散的句子，不具备通顺和流畅性，与人工写的摘要相差甚远。生成式摘要的主流框架是序列到序列模型由一个编码器和解码器组成，编码器用于编码输入的文档，解码器用于生成摘要。生成方法最明显的优点是语句连贯，缺点是可能会生成出一些无关或原文不相符的信息。

目前自动摘要系统都是仅仅依赖于文档本身，受人类写摘要的影响，我们往往需要一些写好的范例，给予我们写作风格和样式上的指导。尤其对于一些正式的使用场景，如学术论文、法案条文等，摘要的生成除了要提取文章的关键部分外，写作风格也尤其重要。

发明内容

为解决现有技术的不足，实现提取文章关键部分作为摘要的同时，也能获取文章写作风格的目的，本发明采用如下的技术方案：

一种基于范例学习的文本摘要生成方法，包括如下步骤：

S1，为待生成摘要的源文档，检索出一组用于参考的范例摘要；

S2，基于序列到序列框架，使用最大似然损失进行训练，包括如下步骤：

S21，将源文档和范例摘要合并成一个序列；源文档和每个范例摘要的前后，分别设有[CLS] 和[SEP]标识符，用于标识源文档、范例的开始与结束；

S22，通过极大似然估计，使用前t-1个标准摘要的真值词来预测第t个词，极大似然估计训练的损失函数：

其中P()表示第t步解码在词表上的概率分布，表示第t步解码输出的隐向量，W表示词表大小*隐向量维度的可学习矩阵，X表示源文档，E表示范例摘要，y_t表示摘要中的第 t个词，y_＜t表示第t步解码之前已经生成的词，n表示句子长度；

S3，基于训练好的序列到序列框架，预测摘要，包括如下步骤：

S31，将源文档和范例摘要合并成一个序列；

S32，通过极大似然估计，使用前t-1个预测词来预测第t个词，得到对数似然得分：

对数似然得分越大越好，在训练阶段是要优化损失函数，这个值越小越好，因此有一个负号；

S33，在解码阶段，每次解码器预测一个词的概率分布，但是仅仅保留top1的那个词是不够的，因此生成文本时采用集束搜索算法(Beam Search)，每次预测保留一组词(topk)，接着往下预测，形成的不同路径作为候选范例摘要，即束，将第k个束的对数似然得分MLE_k，加入文本摘要评价指标ROUGE奖励分(ROUGE Credit)，鼓励在集束搜索的过程中，模型尽量选择那些和范例比较相似的束(摘要)，在集束搜索中，每生成n个词后，根据解码端对编码端所有范例摘要的注意力得分，选取被关注最多的范例摘要，并增大与所述关注最多的范例摘要相似的束的束得分；所述注意力得分，在深度学习模型中，会把所有的词转成一个向量，解码器输出的隐向量和编码器端的向量点乘，根据点乘的结果，便可知道目前解码器在关注源文档中的哪个词，在生成过程中，希望去关注那些和当前词关系较大的词，如果不使用注意力机制，效果会非常差，因此，所有的序列生成模型都会带有对编码器的注意力，对源文档的注意力是一个分布，根据分布可以得到注意力得分；

S34，选择得分最高的候选摘要作为最终的摘要。

进一步地，所述S33中，被关注最多的范例摘要exemplar₁，计算第k个束和exemplar₁的文本摘要评价指标ROUGE的得分rouge_k，文本摘要评价指标ROUGE奖励分：

Credit_k＝rouge_k*g(t)

其中为一个与解码步数t有关的函数，l_s为超参数，当解码步数t大于l_s，开始使用奖励分，最终的束得分为ROUGE Credit加上该束平均的对数似然得分MLE_k：

score_k＝MLE_k+Credit_k

其中n表示句子长度，y_i表示摘要中的第i个词，y_＜i表示第i步之前已经生成的词，X表示源文档，E表示范例摘要。

进一步地，所述S1中，首先经过了粗粒度的过滤，将源文档中抽取的抽取式摘要，与训练集摘要计算文本摘要评价指标ROUGE，根据文本摘要评价指标的得分高低，选取一组训练集摘要，与源文档进行相似度比较，训练检索相似范例摘要的能力，在预测阶段，选取相似度最高的一组范例摘要。

进一步地，从保留的前100个训练集摘要中，划分前8％作为正样本和其余的负样本，所述相似度比较，采用基于多头的余弦相似度计算，使用多个头减轻过拟合现象，每一个头都计算一次相似度，第k个头的相似度计算为：

其中分别为正、负样本的得分，X表示源文档，Y表示候选的训练集摘要， i表示第i个负样本，j表示第j个正样本，/>表示源文档X的隐向量，/>表示正/负样本的隐向量，对比学习损失函数将所有头相加：

其中H表示头的数量，|C⁺|、|C^-|分别表示正、负样本集的大小，τ表示一个温度参数， exp()表示期望函数，在预测阶段根据所有头的投票，选择相似度高的范例摘要。

进一步地，根据文本摘要评价指标的高低，选取一组候选训练集摘要，再将候选训练集摘要，根据文本摘要评价指标的高低，划分正、负样本。

进一步地，所述S2中，为了更好的模仿范例的写法，我们引入对齐机制，通过标签嵌入，使范例摘要的第i句话和目标摘要的第i句话具有相同的标签G_i，在解码端自动学习的过程中，注意编码端带有相同标签的词，从而将范例摘要中的句子和目标摘要中的句子对齐。

进一步地，所述S2中，通过标签嵌入，为源文档的句子添加标签G₀，在解码器的每一步输入也加入标签G₀，以防解码器过度关注范例而忽略了对源文档的学习。

一种基于范例学习的文本摘要生成框架，包括：摘要检索器和摘要生成器，所述摘要检索器，为待生成摘要的源文档，检索出一组用于参考的范例摘要，所述摘要生成器，包括编码器和解码器；

所述编码器，将源文档与范例摘要合并成一个序列；

所述解码器，通过极大似然估计，生成摘要，在训练阶段，使用前t-1个标准摘要的真值词来预测第t个词，极大似然估计训练的损失函数：

预测阶段，使用前t-1个预测词来预测第t个词，得到对数似然得分：

对数似然得分越大越好，在训练阶段是要优化损失函数，这个值越小越好，因此有一个负号；每次解码器预测一个词的概率分布，但是仅仅保留top1的那个词是不够的，因此生成文本时采用集束搜索算法，每次预测保留一组词(topk)，接着往下预测，形成的不同路径作为候选范例摘要，即束，将第k个束的对数似然得分MLE_k，加入文本摘要评价指标ROUGE 奖励分，鼓励在集束搜索的过程中，模型尽量选择那些和范例比较相似的束(摘要)，解码器对编码器有一个注意力机制，在集束搜索中，每生成n个词后，根据根据解码器对所有范例摘要的注意力得分，选取被关注最多的范例摘要，并增大与所述关注最多的范例摘要相似的束的束得分；选择得分最高的候选摘要作为最终的摘要。

进一步地，所述摘要检索器包括预训练模型、多层感知机和相似度计算单元；

所述预训练模型，采用RoBERTa，是很深的模型，训练很慢，获取源文档及范例摘要，将其分成多个头，并输出源文档和范例摘要的隐向量；

所述多层感知机，是轻量的，获取预训练模型的输出，输出源文档和范例摘要基于多个头的隐向量；

所述相似度计算单元，在训练阶段，计算源文档与训练集范例摘要的隐向量的余弦相似度，训练检索相似范例摘要的能力，在预测阶段，取相似度最高的一组范例摘要。

进一步地，所述摘要生成器，在训练阶段，为了更好的模仿范例的写法，我们引入了对齐机制，将通过标签嵌入模型，使范例摘要中的句子和目标摘要中的句子对齐。

本发明的优势和有益效果在于：

本发明在提取文章关键部分作为摘要的同时，也能获取文章写作风格；采用集束搜索算法，每次预测保留一组词，接着往下预测，形成的不同路径作为候选范例摘要，即束，将第 k个束的对数似然得分加入文本摘要评价指标ROUGE奖励分，鼓励在集束搜索的过程中，模型尽量选择那些和范例比较相似的束(摘要)；采用基于多头的余弦相似度计算，使用多个头减轻过拟合现象；为了更好的模仿范例的写法，引入对齐机制，通过标签嵌入，将范例摘要中的句子和目标摘要中的句子对齐；通过标签嵌入，为源文档的句子添加标签，在解码器的每一步输入也加入标签，以防解码器过度关注范例而忽略了对源文档的学习。

附图说明

图1是本发明中检索器的示意图。

图2是本发明中基于范例学习的摘要模型。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

本发明提出了一个新的基于范例学习的生成式框架，摘要生成分为两阶段，首先使用一个检索模型，为待生成摘要的文章检索出一些可供参考的范例摘要，与之前的工作不同，检索器并不使用信息抽取的平台和技术，而是使用对比进行训练的。此外本发明提出了一个新的利用这些范例的自动摘要模型，具体如下：

一种基于范例学习的文本摘要生成框架，包括自动检索器和摘要生成模型。

自动检索器，采用对比学习中的InfoNCE误差函数进行训练。检索的数据库为训练集。在进行对比学习之前，首先经过了粗粒度的过滤：使用一个简单的抽取式摘要模型，先对源文档抽取一个抽取式摘要，然后用这个摘要和数据库中的摘要，计算文本摘要的评价指标 ROUGE并保留前100个(数据库中的训练集摘要)。这100个样本中和源文档的标准摘要最相似的前8％作为正样本，其余为负样本。受多头注意力的启发，在计算相似度使用余弦相似度，在计算得分的时候，我们采用了多头相似度计算。具体来说，每一个头都计算一次相似度，第k个头的相似度计算为：

其中分别为正、负样本的得分，X表示源文档输入，Y表示候选摘要输入， i表示第i个负样本，j表示第j个正样本，/>表示源文档输入X的隐向量，/>表示正/ 负候选摘要样本的隐向量，如图1所示，隐向量由模型根据输入的文本产生，最终的对比学习损失函数将所有头相加：

其中H表示头的数量，|C⁺|、|C^-|分别表示正、负样本候选集的大小，τ表示一个温度参数，exp()表示期望函数。在预测阶段根据所有头的投票选择范例。

摘要生成模型，基于主流的序列到序列框架使用最大似然损失进行训练。生成模型包括一个编码器和一个解码器。编码器负责编码输入的文本，解码器负责生成摘要。

在生成之前，使用上文中训练好的检索器为每篇文章抽取k个范例，基于抽取出来这些范例构建摘要生成模型。将源文档以及它的参考范例一并输入到模型中，具体地将源文档和范例合并成一个序列，源文档和每个范例的前后依次有一个[CLS]和[SEP]的标识符，用于标识源文档、范例的开始与结束。为了更好的模仿范例的写法，我们引入了对齐机制，我们认为范例摘要中的句子和目标摘要中的句子是一一对齐的，生成第i句话的时候，我们希望模型关注那些范例中的第i句话。对齐方式是加入标签嵌入(Tag Embedding)，第i句话具有标签G_i，目标摘要和范例摘要中第i句话具有相同的标签嵌入，源文档被加上特殊的标签嵌入G₀，在解码器的每一步输入也加入这个标签。

在训练阶段，我们是一个单词一个单词的来生成，比如生成“Someone waselected”，我们首先生成“Someone”这个字再把“Someone”作为输入去预测“was”，然后以“Someone was”作为输入去预测“elected”，因此在生成第t个字符时需要之前已经生成好的t-1个字符作为解码器的输入。我们的摘要模型使用极大似然估计(MLE)为损失函数，以teacher-forcing 的方式得到训练，在训练时，使用前t-1个step的Ground Truth来输出第t个step的值。例如想生成一句话：“<S>Someone was elected president</S>”，在训练时：

当前步数	解码器输入	解码器输出
			Step 0	<S>	Someone
Step 1	<S>Someone	was
			Step 2	<S>Someone was	elected
Step 3	<S>Someone was elected	president
			…	…	…

令表示解码器第t步输出的隐向量，我们在该步得到在词表上的概率分布为：

训练误差函数使用极大似然估计(MLE)，

其中W是词表大小*隐向量维度的可学习矩阵，n表示句子长度，y_t表示摘要中的第t个词，y_＜t表示第t步之前已经生成的词，X表示源文档，E表示范例。

在预测阶段，文档的标准摘要ground truth是未知的，因此在生成阶段每个模型第T个 step的输入并不是之前T-1个step的Ground Truth，而是模型所预测的词。对于MLE算法训练的模型，在解码阶段，每次解码器预测一个词的概率分布，但是仅仅保留top1的那个词是不够的，因此生成文本时采用集束搜索算法(Beam Search)，允许每次保留top k个词接着往下去生成，每个束可以看成是一个路径，即候选摘要，除原本的对数似然打分外，加入了 ROUGE奖励分(ROUGE Credit)，鼓励在集束搜索(Beam Search)的过程中，模型尽量选择那些和范例比较相似的束(摘要)。在集束搜索中每生成n个词后，我们选取被解码器关注最多的范例，并增大和这个范例相似的束的得分。假定目前被关注最多的范例是exemplar₁，我们计算每个束和这个范例的ROUGE得分，记第k个束的得分为rouge_k,那么这个束的 ROUGE Credit：

Credit_k＝rouge_k*g(t)

其中g(t)为一个和解码步数t有关的函数，我们设计l_s为超参数，当解码步数大于l_s我们开始使用这个奖励分，最终的束得分为ROUGE Credit加上该束平均的对数似然得分：

score_k＝MLE_k+Credit_k

其中n表示句子长度，y_t表示摘要中的第t个词，y_＜t表示第t步之前已经生成的词，X表示源文档，E表示范例。最终选择得分最高的候选摘要作为最终的摘要。

对于任意一篇文档，我们从训练集中首先找一些正样本(和它的摘要相似度高的为正样本)和负样本(和它的摘要相似度低的为负样本)，进行对比学习训练。如图1所示，我们为每个输入的最前面都插入一个特殊标记<s>，我们的检索器由共享的预训练模型RoBERTa和多层感知机构成。预训练RoBERTa的输入为文本，输出为文本的隐向量。我们取特殊标记<s>的对应的隐向量作为文档表示。多层感知机层接受RoBERTa的输出并作为输入，输出最终的隐向量。相似度的计算使用两个隐向量的余弦相似度，类似于多头注意力，我们使用多个头减轻过拟合现象，训练误差函数使用InfoNCE。在预测阶段，直接根据相似度，取相似度最高的top N作为范例摘要。

由检索器取得范例后，我们基于范例学习的摘要模型，如图2所示，编码器-解码器可替换为任意主流的序列到序列模型，我们将源文档和范例合并成一个序列，源文档和每个范例的前后依次有一个[CLS]和[SEP]的标识符。范例摘要中的第i句话和目标摘要的第i句话拥有相同的标签嵌入G_i，解码器端以[BOS]、[EOS]标识生成的开始和结束，[SEP]表示一个句子生成完毕。另外，为了区分源文档和范例，我们给源文档加上特殊的标签嵌入G₀，在解码器的每一步输入也加入这个标签，以防解码器过度关注范例而忽略了对源文档的学习。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于范例学习的文本摘要生成方法，其特征在于包括如下步骤：

S21，将源文档和范例摘要合并成一个序列；

其中P()表示第t步解码在词表上的概率分布，表示第t步解码输出的隐向量，W表示词表大小*隐向量维度的可学习矩阵，X表示源文档，E表示范例摘要，y_t表示摘要中的第t个词，y_<t表示第t步解码之前已经生成的词，n表示句子长度；

S31，将源文档和范例摘要合并成一个序列；

S33，采用集束搜索算法，每次预测保留一组词，接着往下预测，形成的不同路径作为候选范例摘要，即束，将第k个束的对数似然得分MLE_k，加入文本摘要评价指标奖励分，在集束搜索中，每生成n个词后，根据解码端对编码端范例摘要的注意力得分，选取被关注最多的范例摘要，并增大与所述关注最多的范例摘要相似的束的束得分；

S34，选择得分最高的候选摘要作为最终的摘要。

2.根据权利要求1所述的一种基于范例学习的文本摘要生成方法，其特征在于所述S33中，被关注最多的范例摘要exemplar₁，计算第k个束和exemplar₁的文本摘要评价指标的得分rouge_k，文本摘要评价指标奖励分：

Credit_k＝rouge_k*g(t)

其中为一个与解码步数t有关的函数，l_s为超参数，当解码步数t大于l_s，开始使用奖励分，最终的束得分：

score_k＝MLE_k+Credit_k

其中n表示句子长度，y_i表示摘要中的第i个词，y_<i表示第i步之前已经生成的词，X表示源文档，E表示范例摘要。

3.根据权利要求1所述的一种基于范例学习的文本摘要生成方法，其特征在于所述S1中，将源文档中抽取的抽取式摘要，与训练集摘要计算文本摘要评价指标，根据文本摘要评价指标的得分高低，选取一组训练集摘要，与源文档进行相似度比较，训练检索相似范例摘要的能力，在预测阶段，选取相似度最高的一组范例摘要。

4.根据权利要求1所述的一种基于范例学习的文本摘要生成方法，其特征在于从训练集摘要中，划分出正样本和负样本，所述相似度比较，采用基于多头的余弦相似度计算：

其中分别为正、负样本的得分，X表示源文档，Y表示训练集摘要，i表示第i个负样本，j表示第j个正样本，/>表示源文档X的隐向量，/>表示正/负样本的隐向量，对比学习损失函数将所有头相加：

其中H表示头的数量，|C⁺|、|C^-|分别表示正、负样本集的大小，τ表示一个温度参数，exp()表示期望函数，在预测阶段根据所有头的投票，选择相似度高的范例摘要。

5.根据权利要求2所述的一种基于范例学习的文本摘要生成方法，其特征在于根据文本摘要评价指标的高低，选取一组候选训练集摘要，再将候选训练集摘要，根据文本摘要评价指标的高低，划分正、负样本。

6.根据权利要求1所述的一种基于范例学习的文本摘要生成方法，其特征在于所述S2中，引入对齐机制，通过标签嵌入，使范例摘要的第i句话和目标摘要的第i句话具有相同的标签G_i，在解码端训练过程中，注意编码端带有相同标签的词。

7.根据权利要求6所述的一种基于范例学习的文本摘要生成方法，其特征在于所述S2中，通过标签嵌入，为源文档的句子添加标签G₀，在解码的每一步输入也加入标签G₀。

8.一种基于范例学习的文本摘要生成框架系统，包括：摘要检索器和摘要生成器，其特征在于所述摘要检索器，为待生成摘要的源文档，检索出一组用于参考的范例摘要，所述摘要生成器，包括编码器和解码器；

所述编码器，将源文档与范例摘要合并成一个序列；

采用集束搜索算法，每次预测保留一组词，接着往下预测，形成的不同路径作为候选范例摘要，即束，将第k个束的对数似然得分MLE_k，加入文本摘要评价指标奖励分，解码器对编码器有一个注意力机制，在集束搜索中，每生成n个词后，根据根据解码器对所有范例摘要的注意力得分，选取被关注最多的范例摘要，并增大与所述关注最多的范例摘要相似的束的束得分；选择得分最高的候选摘要作为最终的摘要。

9.根据权利要求8所述的一种基于范例学习的文本摘要生成框架系统，其特征在于所述摘要检索器包括预训练模型、多层感知机和相似度计算单元；

所述预训练模型，获取源文档及范例摘要，将其分成多个头，并输出；

所述多层感知机，获取预训练模型的输出，输出源文档和范例摘要基于多个头的隐向量；

所述相似度计算单元，在训练阶段，计算源文档与训练集范例摘要的隐向量的相似度，训练检索相似范例摘要的能力，在预测阶段，取相似度最高的一组范例摘要。

10.根据权利要求8所述的一种基于范例学习的文本摘要生成框架系统，其特征在于所述摘要生成器，在训练阶段，通过标签嵌入模型，使范例摘要中的句子和目标摘要中的句子对齐。