CN115934933A

CN115934933A - 基于双端对比学习的文本摘要生成方法和系统

Info

Publication number: CN115934933A
Application number: CN202310223422.4A
Authority: CN
Inventors: 孙晓; 檀才东; 汪萌
Original assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Hefei University of Technology; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-04-07
Anticipated expiration: 2043-03-09
Also published as: CN115934933B

Abstract

本发明提供一种基于双端对比学习的文本摘要生成方法和系统，涉及文本摘要生成技术领域。本发明从整体（编码器端和解码器端）提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力；包括：在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并构建第一损失函数，即利用对比学习增强编码器的编码能力；在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并构建第二损失函数，即利用对比学习缓解模型的曝光偏差；根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛，并且以单阶段完成，增加模型训练和推理效率。

Description

基于双端对比学习的文本摘要生成方法和系统

技术领域

本发明涉及文本摘要生成技术领域，具体涉及一种基于双端对比学习的文本摘要生成方法、系统、存储介质和电子设备。

背景技术

文本摘要生成，顾名思义是将一大段句子生成一句简短的总结。在信息爆炸及快速阅读文化盛行的今天，生成准确的文本摘要十分有意义。

目前基于对比学习的文本摘要生成方案主要有两类:在编码器端，利用对比学习构建用于抽象文本摘要的去噪序列到序列（Seq2Seq）自动编码器，增强编码器编码能力，降低输入文档中的噪声影响，提高模型鲁棒性。或者在解码器端，利用对比学习构建摘要生成模型，减少模型出现解码的错误，提高模型生成高质量摘要的能力，这类问题也称为曝光偏差。

然而，上述方案在训练过程中正负样例区分度小，使得利用对比学习损失训练模型效率有待提高。利用对比学习方式进行训练模型很大程度上依赖正负样例对，因此有必要提供一种新方案用于更加准确地区分正负样例。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于双端对比学习的文本摘要生成方法和、系统、存储介质和电子设备，解决了训练过程中正负样例区分度小的技术问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

1、一种基于双端对比学习的文本摘要生成方法，其特征在于，基于Seq2Seq模型，所述Seq2Seq模型包括编码器和解码器，该方法包括：

获取输入文本和对应的参考摘要，并划分为训练集和测试集；

在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并采用对比学习方法构建第一损失函数；

在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并采用对比学习方法构建第二损失函数；

根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛；

将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入，获取文本摘要生成结果。

优选的，在编码器端，采用两种不同的数据增强方式获取所述第一正负样例对，包括：

根据编码器f_encoder(*)，获取输入文本D_i的向量表示h_i=f_encoder(D_i)；

根据相同的编码器f_encoder(*)，设置不同的Dropout层对输入文本D_i进行编码，获取增强后的第一向量

=f_encoder(A₁(D_i))，并作为正样例；将同一个批次中的其他向量就作为负样例

；

采用翻译接口对输入文本进行回译D_i，将回译后的文本Trans_m(D_i)输入相同的编码器f_encoder(*)，获取增强后的第二向量

=f_encoder(A₂(Trans_m(D_i)))，并作为正样例；将同一个批次中的其他向量就作为负样例

；

按照预设比例将两种不同增强方式进行组合，获取第一正样例对为

，第一负样例对

；

其中，A₁(D_i)表示方式一的数据增强；A₂(Trans_m(D_i))表示方式二的数据增强，m表示回译次数；

。

优选的，所述第一损失函数的构建过程包括：

计算一个批次内所有第一正负样例对的相似度，获取对应的权重，

其中，

表示对第一负样例的惩罚系数；σ表示第一阈值；

表示h_i和

的相似度；

根据所述对应的权重，获取第一损失函数，

其中，L_encoder表示编码器端的第一损失函数；log表示求对数；τ是温度系数，b表示一个批次的输入文本数量；j表示一个批次中的第j个。

优选的，在解码器端，所述第二正负样例对的获取过程包括：

将参考摘要S作为第二正样例；

对当前阶段的模型进行采样输出摘要，定义为生成摘要S*，并作为第二负样例；

根据所述第二正样例和第二负样例，构建第二正负样例对。

优选的，所述第二损失函数的构建过程包括：

基于ROUGE分数计算所有第二正负样例对的相应权重，

其中，η_S*表示对第二负样例的惩罚系数；ROUGE(S,S^*)表示S和S*的ROUGE-L分数；χ表示第二阈值；

根据所述对应的权重，获取所述第二损失函数，

其中，L_decoder表示解码器端的第二损失函数；max表示求最大值函数；F(S^*)、F(S)分别表示基于生成摘要、参考摘要计算出的分数；γ表示边界值；D表示与参考摘要S对应的输入文档；S_<t表示在t时刻之前的参考摘要；θ表示模型参数；n表示摘要长度；π_θ()表示Seq2seq模型使用带参数θ的采样策略；y_t表示解码器在t时刻的输出。

优选的，所述总损失函数的构建过程包括：

其中，α、β均表示系数，0<α<1、0<β<1，用于控制相应损失函数参与优化的比例；L_encoder表示第一损失函数；L_decoder表示第二损失函数；L_XENT表示交叉熵损失函数；log表示求对数；n表示摘要长度；y_t、y_(t-1)分别表示解码器在t、t-1时刻的输出；D表示输入文本；θ表示模型参数；π_θ()表示Seq2Seq模型使用带参数θ的采样策略。

优选的，所述Seq2Seq模型具体选用PAGASUS模型。

一种基于双端对比学习的文本摘要生成系统，基于Seq2Seq模型，所述Seq2Seq模型包括编码器和解码器，该系统包括：

获取模块，用于获取输入文本和对应的参考摘要，并划分为训练集和测试集；

第一构建模块，用于在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并采用对比学习方法构建第一损失函数；

第二构建模块，用于在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并采用对比学习方法构建第二损失函数；

训练模块，用于根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛；

测试模块，用于将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入，获取文本摘要生成结果。

一种存储介质，其存储有用于基于双端对比学习的文本摘要生成的计算机程序，其中，所述计算机程序使得计算机执行如上所述的基于双端对比学习的文本摘要生成方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的基于双端对比学习的文本摘要生成方法。

（三）有益效果

本发明提供了一种基于双端对比学习的文本摘要生成方法和、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明从整体（编码器端和解码器端）提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力；包括：在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并构建第一损失函数，即利用对比学习增强编码器的编码能力；在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并构建第二损失函数，即利用对比学习缓解模型的曝光偏差；根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于双端对比学习的文本摘要生成方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于双端对比学习的文本摘要生成方法和、系统、存储介质和电子设备，解决了训练过程中正负样例区分度小的技术问题，实现在利用对比学习损失训练模型时更加高效。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例从整体（编码器端和解码器端）提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力；包括：在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并构建第一损失函数，即利用对比学习增强编码器的编码能力；在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并构建第二损失函数，即利用对比学习缓解模型的曝光偏差；根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例

如图1所示，本发明实施例提供了一种基于双端对比学习的文本摘要生成方法，基于Seq2Seq模型，所述Seq2Seq模型包括编码器和解码器，该方法包括：

S1、获取输入文本和对应的参考摘要，并划分为训练集和测试集；

S2、在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并采用对比学习方法构建第一损失函数；

S3、在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并采用对比学习方法构建第二损失函数；

S4、根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛；

S5、将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入，获取文本摘要生成结果。

本发明实施例从整体(编码器端和解码器端)提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力，分别通过在编码器端利用对比学习增强编码器的编码能力，在解码器端利用对比学习缓解模型的曝光偏差，然后联合编码器端和解码器端的对比学习损失函数进行训练模型，并且以单阶段完成，增加模型训练和推理效率。

接下来将详细介绍上述技术方案的各个步骤：

在步骤S1中，获取输入文本和对应的参考摘要，并划分为训练集和测试集。

定义所述训练集中的输入文本为D，参考摘要为S，模型的第i个训练文档--摘要对为{D_i,S_i}，每个文档和摘要对都是包含一些字符（字或者符号）的集合，D_i={x1,x2,...,xN}，Si={y1,y2,...,yn}。其中N表示输入文档D的字符（字或者符号）长度，n表示参考摘要的字符（字或者符号）长度。

在步骤S2中，在编码器端，根据所述训练集中的输入文本，获取第一正负样例对，并采用对比学习方法构建第一损失函数。

具体的:

在编码器端，采用两种不同的数据增强方式获取所述第一正负样例对，包括：

；

；

，第一负样例对

；

。

特别的，为了能够达到更好的效果，可以选择最新预训练模型的encoder，例如谷歌的天马模型（Pre-training with Extracted Gap-sentences for AbstractiveSummarization简称PEGASUS，翻译为天马），天马模型是一个最新的文本摘要预训练模型，基于Encoder-Decoder的Seq2Seq结构，它在多个公开数据集上获得最好的性能（包括文本摘要Xsum、CNN/DM、Multi-News等常用数据集）。

在现有技术中，构建编码器端的损失函数，通常采用如下做法：将一个批次内相对应的向量作为正例

，批次内的其他向量作为负例，然后基于对比学习损失函数进行训练，损失函数如下所示：

但是申请人在实践中发现，随机选择的阴性样本可能包含与阳性样本语义相似的示例(即假阴性)。

据此，本发明实施例采用用一种实例加权的方法来惩罚假阴性（假负例），此时所述第一损失函数的构建过程包括：

其中，

表示对第一负样例的惩罚系数；σ表示第一阈值；

表示h_i和

的相似度；

这样，与原句表示语义相似度较高的否定将被视为假负例，并将权重赋为0进行惩罚，达到在训练过程中动态区分正负样例的效果。当计算出这个权重时，我们将权重加入到对比学习损失中，最终编码器端的损失函数：

不难理解的是，在编码器端进行数据增强时，使用dropout或者回译的方法不改变原始语义；实现正确区分正负样例，采用对比学习损失训练模型时更加高效；通过在编码器端使用高效的数据增强以及高效的对比学习方法优化模型，能够最大限度的提高模型去噪的能力，提高编码能力以及模型的鲁棒性。

在步骤S3中，在解码器端，根据所述训练集中的输入文本和参考摘要，获取第二正负样例对，并采用对比学习方法构建第二损失函数。

具体的：

在解码器端，所述第二正负样例对的获取过程包括：

将参考摘要S作为第二正样例；

根据所述第二正样例和第二负样例，构建第二正负样例对。

在解码器端，基于ROUGE分数加权惩罚假负例，在训练过程中，不会完全将生成摘要作为负例，而是基于设定的ROUGE分数阈值进行惩罚假负例。即在模型训练过程中，通过ROUGE分数加权方法来惩罚假负例，为ROUGE分数高的生成摘要分配较低的权重，以至于能够很好的区别正负样例，通过这样方式能够检测摘要的假阴性（假负性），并进一步减少它们的影响，避免损害空间的一致性，从而达到缓解曝光偏差的目的。其中，ROUGE分数用于评估模型生成摘要的质量，表征生成摘要和参考摘要之间的重叠程度。

此时，所述第二损失函数的构建过程包括：

基于ROUGE分数计算所有第二正负样例对的相应权重，

根据所述对应的权重，获取所述第二损失函数，

不难理解的是，在解码器端：

首先直接用原始输入文本和参考摘要作为训练样本训练模型，然后在训练过程中，利用当前时刻训练的模型生成摘要，然后将生成摘要作为负样例，参考摘要作为正样例，构建正负样例对，利用对比学习进行训练，这样就只有一个阶段了,节省了更多的时间；

其次，生成摘要可能和参考摘要很接近（指标分数非常高），那么这个时候就不能将生成的摘要作为负样例（基本与正样例一样了），这表明它是假负例，因此需要以一定的方式进行惩罚，避免出现对模型训练产生影响（对比学习对正负样例很要求很高），因此上文提出了惩罚假负例的方法，在训练过程中，动态区分当前时刻生成的摘要是否为假负例，如果为假负例，那就基于一定的权重进行惩罚。解码器端能够正确区分正负样例，更利于解码器端的对比学习损失进行优化模型。

最后，构建正负样例的方式，并不是使用一个固定参数的模型去生成，而是根据训练过程中，不断优化后的模型去生成摘要（负样例），这样不断逼近最优情况。

在步骤S4中，根据第一、二损失函数，并在所述解码器端引入交叉熵损失函数，构建总损失函数；根据所述总损失函数，对模型进行联合训练直至收敛。

本步骤中，将编码器端的对比学习损失和解码器端的对比学习损失联合起来进行训练。然而申请人在实践中发现，如果完全基所构建的对比学习损失进行训练模型，很难收敛，是因为在训练过程中会进行假负例惩罚，在模型训练后期，这种惩罚程度会加大（模型训练到一个比较好的水平，生成的摘要质量较高），梯度大部分情况都为0，模型不能进行优化。

因此为了保证模型更快的收敛，在解码器端还引入带有权重的交叉熵损失，最终的总损失函数的构建过程包括：

模型训练好后，利用测试集进行测试生成摘要，并用ROUGE评价指标进行评估。基于公式：

进行验证与测试模型的生成，

表示模型在t时刻采取的动作(输出)，s_t表示解码器在t时刻的输出隐藏状态，θ表示模型参数，π_θ()表示Seq2seq模型使用带参数θ的采样策略，argmax(π_θ())是使得π_θ()取得最大值所对应的变量点的集合（也就是取解码的最优解）。

本发明实施例提供的文本摘要生成方法，可以与现有的基于Seq2Seq结构的摘要模型（例如性能极佳的预训练模型—天马模型，PEGASUS），构成一个通用的文本摘要系统，用于生成摘要。

本发明实施例提供了一种基于双端对比学习的文本摘要生成系统，基于Seq2Seq模型，所述Seq2Seq模型包括编码器和解码器，该系统包括：

本发明实施例提供了一种存储介质，其存储有用于基于双端对比学习的文本摘要生成的计算机程序，其中，所述计算机程序使得计算机执行如上所述的基于双端对比学习的文本摘要生成方法。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

可理解的是，本发明实施例提供的基于双端对比学习的文本摘要生成系统、存储介质和电子设备与本发明实施例提供的基于双端对比学习的文本摘要生成方法相对应，其有关内容的解释、举例和有益效果等部分可以参考基于双端对比学习的文本摘要生成方法中的相应部分，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

1、本发明实施例能够同时优化编码器的编码能力，增强了编码器的去噪能力，提高了模型的鲁棒性，在解码器端能够很好的缓解曝光偏差问题，使得生成的摘要质量更高，推理出错的可能性也大大降低。例如在最新的SOTA预训练模型--PAGASUS上使用多个文本摘要数据集（Xsum、CNN/DM、Multi-News）进行实验，能够进一步提高预训练模型的性能，各个指标都有提高，很好的缓解了在生成过程中出现曝光偏差问题，生成的摘要流畅性和可读性更好，质量更高。

2、本发明实施例可以结合基于的Seq2Seq结构的文本摘要模型进行训练，作为一个普适性的解决方案；

3、本发明实施例可以结合Seq2Seq模型作为一个对比学习文本摘要系统使用。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。