CN115934933A - 基于双端对比学习的文本摘要生成方法和系统 - Google Patents

基于双端对比学习的文本摘要生成方法和系统 Download PDF

Info

Publication number
CN115934933A
CN115934933A CN202310223422.4A CN202310223422A CN115934933A CN 115934933 A CN115934933 A CN 115934933A CN 202310223422 A CN202310223422 A CN 202310223422A CN 115934933 A CN115934933 A CN 115934933A
Authority
CN
China
Prior art keywords
loss function
abstract
text
encoder
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310223422.4A
Other languages
English (en)
Other versions
CN115934933B (zh
Inventor
孙晓
檀才东
汪萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Hefei University of Technology
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Hefei University of Technology
Priority to CN202310223422.4A priority Critical patent/CN115934933B/zh
Publication of CN115934933A publication Critical patent/CN115934933A/zh
Application granted granted Critical
Publication of CN115934933B publication Critical patent/CN115934933B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于双端对比学习的文本摘要生成方法和系统,涉及文本摘要生成技术领域。本发明从整体(编码器端和解码器端)提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力;包括:在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并构建第一损失函数,即利用对比学习增强编码器的编码能力;在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并构建第二损失函数,即利用对比学习缓解模型的曝光偏差;根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛,并且以单阶段完成,增加模型训练和推理效率。

Description

基于双端对比学习的文本摘要生成方法和系统
技术领域
本发明涉及文本摘要生成技术领域,具体涉及一种基于双端对比学习的文本摘要生成方法、系统、存储介质和电子设备。
背景技术
文本摘要生成,顾名思义是将一大段句子生成一句简短的总结。在信息爆炸及快速阅读文化盛行的今天,生成准确的文本摘要十分有意义。
目前基于对比学习的文本摘要生成方案主要有两类:在编码器端,利用对比学习构建用于抽象文本摘要的去噪序列到序列(Seq2Seq)自动编码器,增强编码器编码能力,降低输入文档中的噪声影响,提高模型鲁棒性。或者在解码器端,利用对比学习构建摘要生成模型,减少模型出现解码的错误,提高模型生成高质量摘要的能力,这类问题也称为曝光偏差。
然而,上述方案在训练过程中正负样例区分度小,使得利用对比学习损失训练模型效率有待提高。利用对比学习方式进行训练模型很大程度上依赖正负样例对,因此有必要提供一种新方案用于更加准确地区分正负样例。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于双端对比学习的文本摘要生成方法和、系统、存储介质和电子设备,解决了训练过程中正负样例区分度小的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
1、一种基于双端对比学习的文本摘要生成方法,其特征在于,基于Seq2Seq模型,所述Seq2Seq模型包括编码器和解码器,该方法包括:
获取输入文本和对应的参考摘要,并划分为训练集和测试集;
在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数;
在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数;
根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛;
将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
优选的,在编码器端,采用两种不同的数据增强方式获取所述第一正负样例对,包括:
根据编码器fencoder(*),获取输入文本Di的向量表示hi=fencoder(Di);
根据相同的编码器fencoder(*),设置不同的Dropout层对输入文本Di进行编码,获取增强后的第一向量
Figure SMS_1
=fencoder(A1(Di)),并作为正样例;将同一个批次中的其他向量就作为负样例
Figure SMS_2
采用翻译接口对输入文本进行回译Di,将回译后的文本Transm(Di)输入相同的编码器fencoder(*),获取增强后的第二向量
Figure SMS_3
=fencoder(A2(Transm(Di))),并作为正样例;将同一个批次中的其他向量就作为负样例
Figure SMS_4
按照预设比例将两种不同增强方式进行组合,获取第一正样例对为
Figure SMS_5
,第一负样例对
Figure SMS_6
其中,A1(Di)表示方式一的数据增强;A2(Transm(Di))表示方式二的数据增强,m表示回译次数;
Figure SMS_7
优选的,所述第一损失函数的构建过程包括:
计算一个批次内所有第一正负样例对的相似度,获取对应的权重,
Figure SMS_8
其中,
Figure SMS_9
表示对第一负样例的惩罚系数;σ表示第一阈值;
Figure SMS_10
表示hi
Figure SMS_11
的相似度;
根据所述对应的权重,获取第一损失函数,
Figure SMS_12
其中,Lencoder表示编码器端的第一损失函数;log表示求对数;τ是温度系数,b表示一个批次的输入文本数量;j表示一个批次中的第j个。
优选的,在解码器端,所述第二正负样例对的获取过程包括:
将参考摘要S作为第二正样例;
对当前阶段的模型进行采样输出摘要,定义为生成摘要S*,并作为第二负样例;
根据所述第二正样例和第二负样例,构建第二正负样例对。
优选的,所述第二损失函数的构建过程包括:
基于ROUGE分数计算所有第二正负样例对的相应权重,
Figure SMS_13
其中,ηS*表示对第二负样例的惩罚系数;ROUGE(S,S*)表示S和S*的ROUGE-L分数;χ表示第二阈值;
根据所述对应的权重,获取所述第二损失函数,
Figure SMS_14
其中,Ldecoder表示解码器端的第二损失函数;max表示求最大值函数;F(S*)、F(S)分别表示基于生成摘要、参考摘要计算出的分数;γ表示边界值;D表示与参考摘要S对应的输入文档;S<t表示在t时刻之前的参考摘要;θ表示模型参数;n表示摘要长度;πθ()表示Seq2seq模型使用带参数θ的采样策略;yt表示解码器在t时刻的输出。
优选的,所述总损失函数的构建过程包括:
Figure SMS_15
其中,α、β均表示系数,0<α<1、0<β<1,用于控制相应损失函数参与优化的比例;Lencoder表示第一损失函数;Ldecoder表示第二损失函数;LXENT表示交叉熵损失函数;log表示求对数;n表示摘要长度;yt、y(t-1)分别表示解码器在t、t-1时刻的输出;D表示输入文本;θ表示模型参数;πθ()表示Seq2Seq模型使用带参数θ的采样策略。
优选的,所述Seq2Seq模型具体选用PAGASUS模型。
一种基于双端对比学习的文本摘要生成系统,基于Seq2Seq模型,所述Seq2Seq模型包括编码器和解码器,该系统包括:
获取模块,用于获取输入文本和对应的参考摘要,并划分为训练集和测试集;
第一构建模块,用于在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数;
第二构建模块,用于在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数;
训练模块,用于根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛;
测试模块,用于将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
一种存储介质,其存储有用于基于双端对比学习的文本摘要生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的基于双端对比学习的文本摘要生成方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于双端对比学习的文本摘要生成方法。
(三)有益效果
本发明提供了一种基于双端对比学习的文本摘要生成方法和、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明从整体(编码器端和解码器端)提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力;包括:在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并构建第一损失函数,即利用对比学习增强编码器的编码能力;在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并构建第二损失函数,即利用对比学习缓解模型的曝光偏差;根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于双端对比学习的文本摘要生成方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于双端对比学习的文本摘要生成方法和、系统、存储介质和电子设备,解决了训练过程中正负样例区分度小的技术问题,实现在利用对比学习损失训练模型时更加高效。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例从整体(编码器端和解码器端)提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力;包括:在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并构建第一损失函数,即利用对比学习增强编码器的编码能力;在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并构建第二损失函数,即利用对比学习缓解模型的曝光偏差;根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例
如图1所示,本发明实施例提供了一种基于双端对比学习的文本摘要生成方法,基于Seq2Seq模型,所述Seq2Seq模型包括编码器和解码器,该方法包括:
S1、获取输入文本和对应的参考摘要,并划分为训练集和测试集;
S2、在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数;
S3、在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数;
S4、根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛;
S5、将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
本发明实施例从整体(编码器端和解码器端)提高基于Seq2Seq的文本摘要模型生成高质量摘要的能力,分别通过在编码器端利用对比学习增强编码器的编码能力,在解码器端利用对比学习缓解模型的曝光偏差,然后联合编码器端和解码器端的对比学习损失函数进行训练模型,并且以单阶段完成,增加模型训练和推理效率。
接下来将详细介绍上述技术方案的各个步骤:
在步骤S1中,获取输入文本和对应的参考摘要,并划分为训练集和测试集。
定义所述训练集中的输入文本为D,参考摘要为S,模型的第i个训练文档--摘要对为{Di,Si},每个文档和摘要对都是包含一些字符(字或者符号)的集合,Di={x1,x2,...,xN},Si={y1,y2,...,yn}。其中N表示输入文档D的字符(字或者符号)长度,n表示参考摘要的字符(字或者符号)长度。
在步骤S2中,在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数。
具体的:
在编码器端,采用两种不同的数据增强方式获取所述第一正负样例对,包括:
根据编码器fencoder(*),获取输入文本Di的向量表示hi=fencoder(Di);
根据相同的编码器fencoder(*),设置不同的Dropout层对输入文本Di进行编码,获取增强后的第一向量
Figure SMS_16
=fencoder(A1(Di)),并作为正样例;将同一个批次中的其他向量就作为负样例
Figure SMS_17
采用翻译接口对输入文本进行回译Di,将回译后的文本Transm(Di)输入相同的编码器fencoder(*),获取增强后的第二向量
Figure SMS_18
=fencoder(A2(Transm(Di))),并作为正样例;将同一个批次中的其他向量就作为负样例
Figure SMS_19
按照预设比例将两种不同增强方式进行组合,获取第一正样例对为
Figure SMS_20
,第一负样例对
Figure SMS_21
其中,A1(Di)表示方式一的数据增强;A2(Transm(Di))表示方式二的数据增强,m表示回译次数;
Figure SMS_22
特别的,为了能够达到更好的效果,可以选择最新预训练模型的encoder,例如谷歌的天马模型(Pre-training with Extracted Gap-sentences for AbstractiveSummarization简称PEGASUS,翻译为天马),天马模型是一个最新的文本摘要预训练模型,基于Encoder-Decoder的Seq2Seq结构,它在多个公开数据集上获得最好的性能(包括文本摘要Xsum、CNN/DM、Multi-News等常用数据集)。
在现有技术中,构建编码器端的损失函数,通常采用如下做法:将一个批次内相对应的向量作为正例
Figure SMS_23
,批次内的其他向量作为负例,然后基于对比学习损失函数进行训练,损失函数如下所示:
Figure SMS_24
但是申请人在实践中发现,随机选择的阴性样本可能包含与阳性样本语义相似的示例(即假阴性)。
据此,本发明实施例采用用一种实例加权的方法来惩罚假阴性(假负例),此时所述第一损失函数的构建过程包括:
计算一个批次内所有第一正负样例对的相似度,获取对应的权重,
Figure SMS_25
其中,
Figure SMS_26
表示对第一负样例的惩罚系数;σ表示第一阈值;
Figure SMS_27
表示hi
Figure SMS_28
的相似度;
这样,与原句表示语义相似度较高的否定将被视为假负例,并将权重赋为0进行惩罚,达到在训练过程中动态区分正负样例的效果。当计算出这个权重时,我们将权重加入到对比学习损失中,最终编码器端的损失函数:
Figure SMS_29
其中,Lencoder表示编码器端的第一损失函数;log表示求对数;τ是温度系数,b表示一个批次的输入文本数量;j表示一个批次中的第j个。
不难理解的是,在编码器端进行数据增强时,使用dropout或者回译的方法不改变原始语义;实现正确区分正负样例,采用对比学习损失训练模型时更加高效;通过在编码器端使用高效的数据增强以及高效的对比学习方法优化模型,能够最大限度的提高模型去噪的能力,提高编码能力以及模型的鲁棒性。
在步骤S3中,在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数。
具体的:
在解码器端,所述第二正负样例对的获取过程包括:
将参考摘要S作为第二正样例;
对当前阶段的模型进行采样输出摘要,定义为生成摘要S*,并作为第二负样例;
根据所述第二正样例和第二负样例,构建第二正负样例对。
在解码器端,基于ROUGE分数加权惩罚假负例,在训练过程中,不会完全将生成摘要作为负例,而是基于设定的ROUGE分数阈值进行惩罚假负例。即在模型训练过程中,通过ROUGE分数加权方法来惩罚假负例,为ROUGE分数高的生成摘要分配较低的权重,以至于能够很好的区别正负样例,通过这样方式能够检测摘要的假阴性(假负性),并进一步减少它们的影响,避免损害空间的一致性,从而达到缓解曝光偏差的目的。其中,ROUGE分数用于评估模型生成摘要的质量,表征生成摘要和参考摘要之间的重叠程度。
此时,所述第二损失函数的构建过程包括:
基于ROUGE分数计算所有第二正负样例对的相应权重,
Figure SMS_30
其中,ηS*表示对第二负样例的惩罚系数;ROUGE(S,S*)表示S和S*的ROUGE-L分数;χ表示第二阈值;
根据所述对应的权重,获取所述第二损失函数,
Figure SMS_31
其中,Ldecoder表示解码器端的第二损失函数;max表示求最大值函数;F(S*)、F(S)分别表示基于生成摘要、参考摘要计算出的分数;γ表示边界值;D表示与参考摘要S对应的输入文档;S<t表示在t时刻之前的参考摘要;θ表示模型参数;n表示摘要长度;πθ()表示Seq2seq模型使用带参数θ的采样策略;yt表示解码器在t时刻的输出。
不难理解的是,在解码器端:
首先直接用原始输入文本和参考摘要作为训练样本训练模型,然后在训练过程中,利用当前时刻训练的模型生成摘要,然后将生成摘要作为负样例,参考摘要作为正样例,构建正负样例对,利用对比学习进行训练,这样就只有一个阶段了,节省了更多的时间;
其次,生成摘要可能和参考摘要很接近(指标分数非常高),那么这个时候就不能将生成的摘要作为负样例(基本与正样例一样了),这表明它是假负例,因此需要以一定的方式进行惩罚,避免出现对模型训练产生影响(对比学习对正负样例很要求很高),因此上文提出了惩罚假负例的方法,在训练过程中,动态区分当前时刻生成的摘要是否为假负例,如果为假负例,那就基于一定的权重进行惩罚。解码器端能够正确区分正负样例,更利于解码器端的对比学习损失进行优化模型。
最后,构建正负样例的方式,并不是使用一个固定参数的模型去生成,而是根据训练过程中,不断优化后的模型去生成摘要(负样例),这样不断逼近最优情况。
在步骤S4中,根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛。
本步骤中,将编码器端的对比学习损失和解码器端的对比学习损失联合起来进行训练。然而申请人在实践中发现,如果完全基所构建的对比学习损失进行训练模型,很难收敛,是因为在训练过程中会进行假负例惩罚,在模型训练后期,这种惩罚程度会加大(模型训练到一个比较好的水平,生成的摘要质量较高),梯度大部分情况都为0,模型不能进行优化。
因此为了保证模型更快的收敛,在解码器端还引入带有权重的交叉熵损失,最终的总损失函数的构建过程包括:
Figure SMS_32
其中,α、β均表示系数,0<α<1、0<β<1,用于控制相应损失函数参与优化的比例;Lencoder表示第一损失函数;Ldecoder表示第二损失函数;LXENT表示交叉熵损失函数;log表示求对数;n表示摘要长度;yt、y(t-1)分别表示解码器在t、t-1时刻的输出;D表示输入文本;θ表示模型参数;πθ()表示Seq2Seq模型使用带参数θ的采样策略。
S5、将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
模型训练好后,利用测试集进行测试生成摘要,并用ROUGE评价指标进行评估。基于公式:
Figure SMS_33
进行验证与测试模型的生成,
Figure SMS_34
表示模型在t时刻采取的动作(输出),st表示解码器在t时刻的输出隐藏状态,θ表示模型参数,πθ()表示Seq2seq模型使用带参数θ的采样策略,argmax(πθ())是使得πθ()取得最大值所对应的变量点的集合(也就是取解码的最优解)。
本发明实施例提供的文本摘要生成方法,可以与现有的基于Seq2Seq结构的摘要模型(例如性能极佳的预训练模型—天马模型,PEGASUS),构成一个通用的文本摘要系统,用于生成摘要。
本发明实施例提供了一种基于双端对比学习的文本摘要生成系统,基于Seq2Seq模型,所述Seq2Seq模型包括编码器和解码器,该系统包括:
获取模块,用于获取输入文本和对应的参考摘要,并划分为训练集和测试集;
第一构建模块,用于在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数;
第二构建模块,用于在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数;
训练模块,用于根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛;
测试模块,用于将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
本发明实施例提供了一种存储介质,其存储有用于基于双端对比学习的文本摘要生成的计算机程序,其中,所述计算机程序使得计算机执行如上所述的基于双端对比学习的文本摘要生成方法。
本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于双端对比学习的文本摘要生成方法。
可理解的是,本发明实施例提供的基于双端对比学习的文本摘要生成系统、存储介质和电子设备与本发明实施例提供的基于双端对比学习的文本摘要生成方法相对应,其有关内容的解释、举例和有益效果等部分可以参考基于双端对比学习的文本摘要生成方法中的相应部分,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例能够同时优化编码器的编码能力,增强了编码器的去噪能力,提高了模型的鲁棒性,在解码器端能够很好的缓解曝光偏差问题,使得生成的摘要质量更高,推理出错的可能性也大大降低。例如在最新的SOTA预训练模型--PAGASUS上使用多个文本摘要数据集(Xsum、CNN/DM、Multi-News)进行实验,能够进一步提高预训练模型的性能,各个指标都有提高,很好的缓解了在生成过程中出现曝光偏差问题,生成的摘要流畅性和可读性更好,质量更高。
2、本发明实施例可以结合基于的Seq2Seq结构的文本摘要模型进行训练,作为一个普适性的解决方案;
3、本发明实施例可以结合Seq2Seq模型作为一个对比学习文本摘要系统使用。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于双端对比学习的文本摘要生成方法,其特征在于,基于Seq2Seq模型,所述Seq2Seq模型包括编码器和解码器,该方法包括:
获取输入文本和对应的参考摘要,并划分为训练集和测试集;
在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数;
在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数;
根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛;
将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
2.如权利要求1所述的基于双端对比学习的文本摘要生成方法,其特征在于,在编码器端,采用两种不同的数据增强方式获取所述第一正负样例对,包括:
根据编码器fencoder(*),获取输入文本Di的向量表示hi=fencoder(Di);
根据相同的编码器fencoder(*),设置不同的Dropout层对输入文本Di进行编码,获取增强后的第一向量
Figure QLYQS_1
=fencoder(A1(Di)),并作为正样例;将同一个批次中的其他向量就作为负样例
Figure QLYQS_2
采用翻译接口对输入文本进行回译Di,将回译后的文本Transm(Di)输入相同的编码器fencoder(*),获取增强后的第二向量
Figure QLYQS_3
=fencoder(A2(Transm(Di))),并作为正样例;将同一个批次中的其他向量就作为负样例
Figure QLYQS_4
按照预设比例将两种不同增强方式进行组合,获取第一正样例对为
Figure QLYQS_5
,第一负样例对
Figure QLYQS_6
其中,A1(Di)表示方式一的数据增强;A2(Transm(Di))表示方式二的数据增强,m表示回译次数;
Figure QLYQS_7
3.如权利要求2所述的基于双端对比学习的文本摘要生成方法,其特征在于,所述第一损失函数的构建过程包括:
计算一个批次内所有第一正负样例对的相似度,获取对应的权重,
Figure QLYQS_8
其中,
Figure QLYQS_9
表示对第一负样例的惩罚系数;σ表示第一阈值;
Figure QLYQS_10
表示hi
Figure QLYQS_11
的相似度;
根据所述对应的权重,获取第一损失函数,
Figure QLYQS_12
其中,Lencoder表示编码器端的第一损失函数;log表示求对数;τ是温度系数,b表示一个批次的输入文本数量;j表示一个批次中的第j个。
4.如权利要求1所述的基于双端对比学习的文本摘要生成方法,其特征在于,在解码器端,所述第二正负样例对的获取过程包括:
将参考摘要S作为第二正样例;
对当前阶段的模型进行采样输出摘要,定义为生成摘要S*,并作为第二负样例;
根据所述第二正样例和第二负样例,构建第二正负样例对。
5.如权利要求4所述的基于双端对比学习的文本摘要生成方法,其特征在于,所述第二损失函数的构建过程包括:
基于ROUGE分数计算所有第二正负样例对的相应权重,
Figure QLYQS_13
其中,ηS*表示对第二负样例的惩罚系数;ROUGE(S,S*)表示S和S*的ROUGE-L分数;χ表示第二阈值;
根据所述对应的权重,获取所述第二损失函数,
Figure QLYQS_14
其中,Ldecoder表示解码器端的第二损失函数;max表示求最大值函数;F(S*)、F(S)分别表示基于生成摘要、参考摘要计算出的分数;γ表示边界值;D表示与参考摘要S对应的输入文档;S<t表示在t时刻之前的参考摘要;θ表示模型参数;n表示摘要长度;πθ()表示Seq2seq模型使用带参数θ的采样策略;yt表示解码器在t时刻的输出。
6.如权利要求1所述的基于双端对比学习的文本摘要生成方法,其特征在于,所述总损失函数的构建过程包括:
Figure QLYQS_15
其中,α、β均表示系数,0<α<1、0<β<1,用于控制相应损失函数参与优化的比例;Lencoder表示第一损失函数;Ldecoder表示第二损失函数;LXENT表示交叉熵损失函数;log表示求对数;
n表示摘要长度;yt、y(t-1)分别表示解码器在t、t-1时刻的输出;D表示输入文本;θ表示模型参数;πθ()表示Seq2Seq模型使用带参数θ的采样策略。
7.如权利要求1~6任一项所述的基于双端对比学习的文本摘要生成方法,其特征在于,所述Seq2Seq模型具体选用PAGASUS模型。
8.一种基于双端对比学习的文本摘要生成系统,其特征在于,基于Seq2Seq模型,所述Seq2Seq模型包括编码器和解码器,该系统包括:
获取模块,用于获取输入文本和对应的参考摘要,并划分为训练集和测试集;
第一构建模块,用于在编码器端,根据所述训练集中的输入文本,获取第一正负样例对,并采用对比学习方法构建第一损失函数;
第二构建模块,用于在解码器端,根据所述训练集中的输入文本和参考摘要,获取第二正负样例对,并采用对比学习方法构建第二损失函数;
训练模块,用于根据第一、二损失函数,并在所述解码器端引入交叉熵损失函数,构建总损失函数;根据所述总损失函数,对模型进行联合训练直至收敛;
测试模块,用于将所述测试集中的输入文本作为训练完毕的Seq2Seq模型的输入,获取文本摘要生成结果。
9.一种存储介质,其特征在于,其存储有用于基于双端对比学习的文本摘要生成的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一项所述的基于双端对比学习的文本摘要生成方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的基于双端对比学习的文本摘要生成方法。
CN202310223422.4A 2023-03-09 2023-03-09 基于双端对比学习的文本摘要生成方法和系统 Active CN115934933B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310223422.4A CN115934933B (zh) 2023-03-09 2023-03-09 基于双端对比学习的文本摘要生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310223422.4A CN115934933B (zh) 2023-03-09 2023-03-09 基于双端对比学习的文本摘要生成方法和系统

Publications (2)

Publication Number Publication Date
CN115934933A true CN115934933A (zh) 2023-04-07
CN115934933B CN115934933B (zh) 2023-07-04

Family

ID=86651000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310223422.4A Active CN115934933B (zh) 2023-03-09 2023-03-09 基于双端对比学习的文本摘要生成方法和系统

Country Status (1)

Country Link
CN (1) CN115934933B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150152A1 (en) * 2019-11-20 2021-05-20 Oracle International Corporation Employing abstract meaning representation to lay the last mile towards reading comprehension
JP2021106017A (ja) * 2020-09-21 2021-07-26 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストの創作方法、装置、機器及び記憶媒体
US20210390418A1 (en) * 2020-06-10 2021-12-16 International Business Machines Corporation Frequently asked questions and document retrival using bidirectional encoder representations from transformers (bert) model trained on generated paraphrases
CN113806520A (zh) * 2021-07-30 2021-12-17 合肥工业大学 基于强化学习的文本摘要生成方法和系统
CN114328814A (zh) * 2021-11-19 2022-04-12 腾讯科技(深圳)有限公司 文本摘要模型的训练方法、装置、电子设备及存储介质
CN114519395A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 模型的训练方法和装置、文本摘要生成方法和装置、设备
CN114880461A (zh) * 2022-06-02 2022-08-09 大连理工大学 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN115017299A (zh) * 2022-04-15 2022-09-06 天津大学 一种基于去噪图自编码器的无监督社交媒体摘要方法
CN115629800A (zh) * 2022-09-23 2023-01-20 南京航空航天大学 一种基于多模态的代码摘要生成方法与系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210150152A1 (en) * 2019-11-20 2021-05-20 Oracle International Corporation Employing abstract meaning representation to lay the last mile towards reading comprehension
US20210390418A1 (en) * 2020-06-10 2021-12-16 International Business Machines Corporation Frequently asked questions and document retrival using bidirectional encoder representations from transformers (bert) model trained on generated paraphrases
JP2021106017A (ja) * 2020-09-21 2021-07-26 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストの創作方法、装置、機器及び記憶媒体
CN113806520A (zh) * 2021-07-30 2021-12-17 合肥工业大学 基于强化学习的文本摘要生成方法和系统
CN114328814A (zh) * 2021-11-19 2022-04-12 腾讯科技(深圳)有限公司 文本摘要模型的训练方法、装置、电子设备及存储介质
CN114519395A (zh) * 2022-02-22 2022-05-20 平安科技(深圳)有限公司 模型的训练方法和装置、文本摘要生成方法和装置、设备
CN115017299A (zh) * 2022-04-15 2022-09-06 天津大学 一种基于去噪图自编码器的无监督社交媒体摘要方法
CN114880461A (zh) * 2022-06-02 2022-08-09 大连理工大学 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN115629800A (zh) * 2022-09-23 2023-01-20 南京航空航天大学 一种基于多模态的代码摘要生成方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周洪涛: "基于深度学习的文本自动摘要事实校正技术研究与应用", 《中国优秀硕士学位论文全文数据库 (信息科技辑) 》, pages 1 - 68 *

Also Published As

Publication number Publication date
CN115934933B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN109359294B (zh) 一种基于神经机器翻译的古汉语翻译方法
CN110427629A (zh) 半监督文本简化模型训练方法和系统
CN110866113A (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN113408430B (zh) 基于多级策略和深度强化学习框架的图像中文描述系统及方法
CN115659954A (zh) 一种基于多阶段学习的作文自动评分方法
CN114429143A (zh) 一种基于强化蒸馏的跨语言属性级情感分类方法
CN115545041B (zh) 一种增强医疗语句语义向量表示的模型构造方法及系统
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN116910272B (zh) 基于预训练模型t5的学术知识图谱补全方法
CN112309528A (zh) 一种基于视觉问答方法的医疗影像报告生成方法
CN112214989A (zh) 一种基于bert的汉语句子简化方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN111538838B (zh) 基于文章的问题生成方法
CN113204675A (zh) 一种基于跨模态物体推理网络的跨模态视频时刻检索方法
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN114626529B (zh) 一种自然语言推理微调方法、系统、装置及存储介质
CN114781651A (zh) 基于对比学习的小样本学习鲁棒性提升方法
CN113743095B (zh) 基于词格和相对位置嵌入的中文问题生成统一预训练方法
CN111428518B (zh) 一种低频词翻译方法及装置
CN115294627A (zh) 基于文本主驱动的学习者多模态情感分析方法及装置
CN116521886A (zh) 基于深度学习的教育领域学科知识图谱的构建方法和装置
CN110826341A (zh) 一种基于seq2seq模型的语义相似度计算方法
CN114020871B (zh) 基于特征融合的多模态社交媒体情感分析方法
CN115934933A (zh) 基于双端对比学习的文本摘要生成方法和系统
CN113343648B (zh) 基于潜在空间编辑的文本风格转换方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant