CN115965033B - 基于序列级前缀提示的生成式文本摘要方法和装置 - Google Patents
基于序列级前缀提示的生成式文本摘要方法和装置 Download PDFInfo
- Publication number
- CN115965033B CN115965033B CN202310253057.1A CN202310253057A CN115965033B CN 115965033 B CN115965033 B CN 115965033B CN 202310253057 A CN202310253057 A CN 202310253057A CN 115965033 B CN115965033 B CN 115965033B
- Authority
- CN
- China
- Prior art keywords
- abstract
- sequence
- text
- model
- prefix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请提出一种基于序列级前缀提示的生成式文本摘要方法和装置,该方法包括:获取文本和文本的参考摘要进行预处理;将经过预处理的文本输入第一预训练模型生成多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估得到Rouge分值,并对多条候选摘要进行排序;对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型;获取待处理文本进行预处理,并输入具有序列级前缀提示的摘要生成模型,通过序列级前缀提示以自回归方式生成待处理文本的摘要。本申请能够加快摘要生成模型训练过程并大大降低计算量,同时更准确生成摘要。
Description
技术领域
本申请涉及文本摘要生成技术领域,尤其涉及一种基于序列级前缀提示的生成式文本摘要方法和装置。
背景技术
当今人工智能已开始迈入数据与知识双轮驱动的认知智能时代,预训练语言模型( Pre-trained Language Model,PLM )作为AI界的代表性技术受到了广泛关注,其利用基于深度学习的数据驱动方法提升了自然语言处理等任务的算法效果和应用范式。近年来,PLM在广泛的自然语言生成(Natural Language Generation,NLG ) 任务中取得了巨大的成功,构建大规模的预训练语言模型已经成为处理日益复杂和多样化的语言任务的流行方法。文本摘要任务是NLG领域的代表性任务,该任务的目标是将长文本进行压缩、归纳和总结,从而形成具有概括性含义的短文本。近些年,随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,网络中充斥着大量长而复杂的文本,对各类文本进行一个“降维”处理显得非常必要。文本摘要便是其中一个重要的手段,其可以让用户在当今世界海量的互联网数据中找到有效的信息,因此具备重大的研究与应用价值。
根据摘要方法的不同,文本摘要任务可以分为抽取式方法和生成式方法。其中,抽取式摘要直接从原文中选择若干条重要的句子,并对它们进行排序和重组而形成摘要,但抽取式摘要方法存在的缺陷是抽取出的句子之间衔接生硬,不够自然。由此近些年来该任务的研究重心已经偏移到了生成式摘要上。相较于抽取式摘要,生成式摘要在语法、句法上有一定的保证,并允许生成的摘要中包含新的词语或短语,灵活性高,但是也面临了一定的问题,例如:内容选择错误、生成内容不可控等问题。
近些年,预训练语言模型被广泛地用于自然语言生成任务,也涌现出一系列在有条件生成任务上具备优异性能的模型,在生成式文本摘要任务上取得优异表现。基于这类语言模型的方法将摘要表述为一个序列到序列问题,利用自回归方式生成摘要,采取最大似然估计来训练深层网络,使参考输出的预测概率最大化。然而,在推理过程中,模型可能会预测出一个错误的token(字符),并在往后的自回归预测中,模型会关注到已生成的错误信息从而造成预测偏差,这种偏差在生成过程中会不断放大,极大地损害模型的生成性能,这种现象通常被称为曝光偏差。在训练深层网络时使用极大似然估计来优化网络模型权重,这个策略会带来曝光偏差问题并无法优化序列的整体质量,使得生成的摘要逐渐偏离参考摘要。此外,在深层网络训练过程中会消耗大量的算力资源,这极大地增加了模型训练的时间成本与金钱成本。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于序列级前缀提示的生成式文本摘要方法,解决了现有方法存在曝光偏差以及算力成本高昂的技术问题,通过添加前缀网络并在训练过程中冻结深度神经网络的权重优化前缀网络,加快了训练过程并大大降低了计算量,此外,通过设计对比学习模块并引入候选摘要指导前缀网络学习多种潜在生成序列的语义信息,使前缀网络具备序列级语义提示信息,以此提高了生成摘要的准确性。
本申请的第二个目的在于提出一种基于序列级前缀提示的生成式文本摘要装置。
本申请的第三个目的在于提出一种计算机设备。
本申请的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本申请第一方面实施例提出了一种基于序列级前缀提示的生成式文本摘要方法,包括:获取文本和文本的参考摘要,并对文本和参考摘要进行预处理;将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序;对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;获取待处理文本,并对待处理文本进行预处理,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要。
可选地,在本申请的一个实施例中,对文本和参考摘要进行预处理,包括:
分别对文本和参考摘要进行分词,并过滤特殊字符,得到文本的字符序列和参考摘要的字符序列。
可选地,在本申请的一个实施例中,将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,包括:
将预处理得到的文本的字符序列输入第一预训练模型,利用BeamSearch策略进行采样生成,得到文本的多条候选摘要。
可选地,在本申请的一个实施例中,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
通过引入对比学习范式,计算多条候选摘要与参考摘要之间的相似度分值作为对比损失;
计算摘要生成模型生成的摘要和参考摘要的负对数似然之和作为交叉熵损失;
将对比损失与交叉熵损失进行加权,得到摘要生成模型的联合损失函数;
根据联合损失函数对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型。
可选地,在本申请的一个实施例中,根据联合损失函数对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
冻结摘要生成模型的第二预训练模型的权重,通过联合损失函数对摘要生成模型的前缀网络进行训练,以将前缀网络分解为序列级前缀提示,得到具有序列级前缀提示的摘要生成模型,并将第二预训练模型的词表作为具有序列级前缀提示的摘要生成模型的词表,其中,通过引入对比损失函数对前缀网络进行训练,使前缀网络拥有序列级信息。
可选地,在本申请的一个实施例中,对比损失的公式表示为:
其中,表示对比损失,/>表示第i个候选摘要,/>表示第j个候选摘要,/>表示长度归一化后的对数概率之和,/>表示第i个候选摘要和第j个候选摘要的Rouge分值差额乘以第i个候选摘要和第j个候选摘要的等级差;
交叉熵损失的公式表示为:
其中,表示交叉熵损失,/>表示交叉熵框架下的One-hot编码,s表示生成的下一位置的摘要字符,D表示预处理得到的字符序列,/>表示第1到j-1个参考摘要的字符序列,/>表示摘要生成模型g映射下的概率表示,/>表示摘要生成模型g的参数;
联合损失函数表示为:
可选地,在本申请的一个实施例中,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要,包括:
将经过预处理得到的待处理文本的字符序列输入具有序列级前缀提示的摘要生成模型,根据序列级前缀提示通过自回归方式逐个预测所有位置的摘要字符,以生成待处理文本的摘要,其中,根据序列级前缀提示、当前位置之前的摘要字符和待处理文本的字符序列,计算当前位置的词表中字符的概率分布,并选取概率最大的字符作为当前位置的摘要字符。
为达上述目的,本申请第二方面实施例提出了一种基于序列级前缀提示的生成式文本摘要装置,包括:
获取模块,用于获取文本和文本的参考摘要,并对文本和参考摘要进行预处理;
第一生成模块,用于将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序;
训练模块,用于对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;
第二生成模块,用于获取待处理文本,并对待处理文本进行预处理,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要。
为达上述目的,本申请第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于序列级前缀提示的生成式文本摘要方法。
为了实现上述目的,本申请第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,能够执行一种基于序列级前缀提示的生成式文本摘要方法。
本申请实施例的基于序列级前缀提示的生成式文本摘要方法、装置、计算机设备和非临时性计算机可读存储介质,解决了现有方法存在曝光偏差以及算力成本高昂的技术问题,通过添加前缀网络并在训练过程中冻结深度神经网络的权重优化前缀网络,加快了训练过程并大大降低了计算量,此外,通过设计对比学习模块并引入候选摘要指导前缀网络学习多种潜在生成序列的语义信息,使前缀网络具备序列级语义提示信息,以此提高了生成摘要的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于序列级前缀提示的生成式文本摘要方法的流程示意图;
图2为本申请实施例的基于序列级前缀提示的生成式文本摘要方法的另一个流程图;
图3为本申请实施例的基于序列级前缀提示的生成式文本摘要方法的候选摘要生成流程图;
图4为本申请实施例的基于序列级前缀提示的生成式文本摘要方法的多损失前缀调优流程图;
图5为本申请实施例二所提供的一种基于序列级前缀提示的生成式文本摘要装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
利用大规模预训练模型实现生成式摘要任务是当前人工智能领域普遍采用的方式。在训练深层网络时往往使用极大似然估计来优化网络模型权重,这个策略会带来曝光偏差问题并无法优化序列的整体质量,使得生成的摘要逐渐偏离参考摘要。此外,在深层网络训练过程中会消耗大量的算力资源,这极大地增加了模型训练的时间成本与金钱成本。
其中,现有方法在推理过程中,使用抽象模型G以自回归方式生成候选摘要。因此,在实际应用中,通常采用Beam Search(集束搜索)等方法来缩小搜索空间,搜索中的一个重要步骤是给定已生成的序列以预测下一个单词/>的概率分布:
本申请设计了一种序列级前缀提示调优的生成式摘要训练方法,通过添加一个小规模的前缀网络,并在训练过程中冻结深度神经网络的权重,反而去优化前缀网络以加快训练并大大降低计算量。此外,设计一个对比学习模块,引入候选摘要指导前缀网络学习多种潜在生成序列的语义信息,鼓励语言模型更准确生成摘要。
下面参考附图描述本申请实施例的基于序列级前缀提示的生成式文本摘要方法和装置。
图1为本申请实施例一所提供的一种基于序列级前缀提示的生成式文本摘要方法的流程示意图。
如图1所示,该基于序列级前缀提示的生成式文本摘要方法包括以下步骤:
步骤101,获取文本和文本的参考摘要,并对文本和参考摘要进行预处理;
步骤102,将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序;
步骤103,对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;
步骤104,获取待处理文本,并对待处理文本进行预处理,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要。
本申请实施例的基于序列级前缀提示的生成式文本摘要方法,通过获取文本和文本的参考摘要,并对文本和参考摘要进行预处理;将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序;对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;获取待处理文本,并对待处理文本进行预处理,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要。由此,能够解决现有方法存在曝光偏差以及算力成本高昂的技术问题,通过添加前缀网络并在训练过程中冻结深度神经网络的权重优化前缀网络,加快了训练过程并大大降低了计算量,此外,通过设计对比学习模块并引入候选摘要指导前缀网络学习多种潜在生成序列的语义信息,使前缀网络具备序列级语义提示信息,以此提高了生成摘要的准确性。
本申请提供一种基于前缀调优的多损失联合优化方法,将这种方法运用在生成式文本摘要任务中以解决当前存在的曝光偏差以及算力成本高昂的问题。该方法如图2所示,对文本进行预处理,使用Standford CoreNLP提供的PTB(Penn Treebank)分词器对文本进行分词;将分词后的文本输入到第一预训练模型,经过训练生成文本对应的多条候选摘要,并为候选摘要赋予Rouge(Recall-OrientedUnderstudy for Gisting Evaluation)分值;将预处理后的文本输入到预训练模型中,在训练过程中引入对比学习范式,计算多个候选摘要与参考摘要之间的相似度分值作为其对比损失,与交叉熵损失进行加权以此优化摘要生成模型的权重;增添一个小规模的前缀网络,在训练过程中冻结摘要生成模型的深度神经网络的权重,反而去优化摘要生成模型的前缀网络以加快训练;以自回归方式自左向右逐个生成预测摘要。
本申请中生成式文本摘要的目标是构建一个函数g,使得输入的源文档D可以在该函数的映射下生成摘要S,即:
进一步地,在本申请实施例中,对文本和参考摘要进行预处理,包括:
分别对文本和参考摘要进行分词,并过滤特殊字符,得到文本的字符序列和参考摘要的字符序列。
本申请实施例中,对文本预处理具体为将输入文本序列切割成一系列的字和符号,并过滤掉特殊的字符,称其为分词、去停用词。对当前文本进行预处理,使用StandfordCoreNLP提供的PTB分词器对文本进行分词,其中,Standford CoreNLP是一个自然语言处理工具包,它集成了很多非常实用的功能,包括分词、词性标注、句法分析等等,其不是一个深度学习框架,而是一个已经训练好的模型。
示例性的,分词效果如下所示:
输入:['This is anexample of tokenziation.']
结果:['This','is', 'an', 'example', 'of', 'tokenziation', '.']
进一步地,在本申请实施例中,将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,包括:
将预处理得到的文本的字符序列输入第一预训练模型,利用BeamSearch策略进行采样生成,得到文本的多条候选摘要。
本申请实施例中,第一预训练模型可以为Seq2Seq模型,运用预训练的Seq2Seq模型采样时的Beam Search策略,使用预处理后的文本作为输入,通过模型生成多条候选摘要。
其中,将输入的文本通过分词模型转化为对应的序号标记input ids,获取到输入序列所在文本的位置编码positionalids,以及表示文本能否被关注到的注意力编码attention mask ids,其中,输入文本的注意力编码用“1”来表示(“1”为关注,“0”为未关注),将这三种编码作为Seq2Seq模型的输入。Seq2Seq模型选用了两种具备很好零样本生成能力的深层网络模型BART、PEGASUS。在零样本设置下,利用Beam Search策略进行采样生成,具体实验中可以将BeamSearch的大小n设为16,得到16条候选摘要。
本申请实施例中,候选摘要生成过程如图3所示,将预处理后的文本输入BART/PEGASUS模型,利用BeamSearch策略进行采样生成,得到n条候选摘要。
本申请实施例中,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序。
进一步地,在本申请实施例中,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
通过引入对比学习范式,计算多条候选摘要与参考摘要之间的相似度分值作为对比损失;
计算摘要生成模型生成的摘要和参考摘要的负对数似然之和作为交叉熵损失;
将对比损失与交叉熵损失进行加权,得到摘要生成模型的联合损失函数;
根据联合损失函数对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型。
本申请通过引入对比损失使前缀网络在训练中考虑到序列级信息。
本申请利用对比学习策略,通过对比参考摘要与候选摘要之间、候选摘要之间的相似性,让网络模型学习到多种潜在序列的信息,减少曝光偏差对模型生成带来的影响。因此本申请利用对比损失为模型提供序列级生成指导,由于对比损失仅考虑序列级间的差异,因此在模型训练与推理中,融合了交叉熵损失,用于字符级质量优化。
本申请在模型训练中加入对比损失,使用对比损失微调模型来将更高的估计概率分配给更好的候选摘要序列,对比损失的公式表示为:
其中,表示对比损失,/>表示第i个候选摘要,/>表示第j个候选摘要,/>表示长度归一化后的对数概率之和,/>表示第i个候选摘要和第j个候选摘要的Rouge分值差额乘以第i个候选摘要和第j个候选摘要的等级差;
其中,表示候选摘要长度归一化后的对数概率之和,S表示候选摘要,/>表示候选摘要的序列长度,/>表示摘要生成模型g映射下的概率表示,/>表示第t个位置上的摘要字符,D表示预处理得到的字符序列,/>表示1至t-1位置上的摘要字符序列,/>表示摘要生成模型g的参数,α为长度惩罚系数。
最大似然估计(MLE)是普遍采用的训练方式,它旨在最大限度地提高生成参考摘要S*的可能性,即,
其中,θ表示摘要生成模型g的参数,表示在摘要生成模型g映射下所得到的token概率分布。{D(i),S*(i)}是第i个训练样本,对于一个特定的样本{D(i),S*(i)},MLE训练方式会使长度为m的参考摘要/>中的token{/>, ... ,/>,... ,/>}的负对数似然之和最小化,即交叉熵损失为:
其中,表示交叉熵损失,/>表示交叉熵框架下的One-hot编码,s表示生成的下一位置的摘要字符,D表示预处理得到的字符序列,/>表示第1到j-1个参考摘要的字符序列{/>, ... ,/>},/>表示摘要生成模型g映射下的概率表示,/>表示摘要生成模型g的参数,并且/>是预定义的开始标志符。
对比损失用于对模型生成的候选摘要进行评分,并从中选择最终的输出。然而,由于自回归生成依赖于token(字符)级预测精度和序列级协调,仅用对比损失微调的模型不能再作为生成模型。为此,本申请结合对比损失和交叉熵损失来保持摘要模型的生成能力:
进一步地,在本申请实施例中,根据联合损失函数对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
冻结摘要生成模型的第二预训练模型的权重,通过联合损失函数对摘要生成模型的前缀网络进行训练,以将前缀网络分解为序列级前缀提示,得到具有序列级前缀提示的摘要生成模型,并将第二预训练模型的词表作为具有序列级前缀提示的摘要生成模型的词表,其中,通过引入对比损失函数对前缀网络进行训练,使前缀网络拥有序列级信息。
本申请通过引入对比损失使得前缀网络拥有序列级信息。
本申请实施例中,第二预训练模型可以为Seq2Seq模型,通过在Seq2Seq模型前增添一个小规模的前缀网络,得到摘要生成模型,并将Seq2Seq模型的词表作为摘要生成模型的词表,其中,前缀网络可以为Prefix网络部分。同时在训练过程中冻结深度神经网络的权重,将梯度损失用于优化前缀网络以加快训练,同时将前缀网络分解为序列级前缀提示,得到具有序列级前缀提示的摘要生成模型。
本申请使用联合损失优化前缀网络,其中前缀网络为一个多层网络,层数与第二预训练模型解码器层数相同,在训练过程中使用联合损失对多层网络进行逐层优化,取优化后的最后一层网络作为训练后摘要生成模型的前缀网络。在模型自回归生成时,前缀网络会通过线性变换转化为序列级前缀提示,其中序列级前缀提示为一组连续向量表示,向量大小为前缀长度*隐藏层大小。
本申请使用了Prefix-tuning的前缀策略并进行了一定优化,参照以下公式:
其中,表示第i时间步上的输入字符的向量化表示,/>表示存储前缀参数/>的可训练矩阵,/>表示前缀提示的下标序列,/>表示参数为/>下的自回归解码矩阵,/>表示第i时间步上的摘要生成模型的输入,/>表示第i时间步前的字符向量化表示,LM表示摘要生成模型自回归解码时的可训练矩阵。
由于考虑到了潜在生成的序列信息,本申请将前缀网络分解为前缀提示置于生成序列的最前端,以自回归方式引导后续文本摘要序列的生成。
进一步地,在本申请实施例中,对比损失的公式表示为:
其中,表示对比损失,/>表示第i个候选摘要,/>表示第j个候选摘要,/>表示长度归一化后的对数概率之和,/>表示第i个候选摘要和第j个候选摘要的Rouge分值差额乘以第i个候选摘要和第j个候选摘要的等级差;
交叉熵损失的公式表示为:
其中,表示交叉熵损失,/>表示交叉熵框架下的One-hot编码,s表示生成的下一位置的摘要字符,D表示预处理得到的字符序列,/>表示第1到j-1个参考摘要的字符序列,/>表示摘要生成模型g映射下的概率表示,/>表示摘要生成模型g的参数;
联合损失函数表示为:
进一步地,在本申请实施例中,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要,包括:
将经过预处理得到的待处理文本的字符序列输入具有序列级前缀提示的摘要生成模型,根据序列级前缀提示通过自回归方式逐个预测所有位置的摘要字符,以生成待处理文本的摘要,其中,根据序列级前缀提示、当前位置之前的摘要字符和待处理文本的字符序列,计算当前位置的词表中字符的概率分布,并选取概率最大的字符作为当前位置的摘要字符。
本申请实施例中,根据序列级前缀提示通过自回归方式逐个预测所有位置的摘要字符,具体包括根据序列级前缀提示和待处理文本的字符序列,得到第一位置的词表字符的概率分布,并选取概率最大的字符作为第一位置的摘要字符,并根据序列级前缀提示、第一位置的摘要字符和待处理文本的字符序列,得到第二位置的词表字符的概率分布,并选取概率最大的字符作为第二位置的摘要字符,然后根据序列级前缀提示、第一和第二位置的摘要字符和待处理文本的字符序列,得到第三位置的摘要字符,重复上述步骤逐个预测所有位置的摘要字符,以生成待处理文本的摘要。
自回归生成是指语言模型只关注上文信息,自左向右的逐个预测下一位置的字符。这是由于自回归方法的思想来源于马尔可夫假设:目前的事实,只和之前的和历史上的事实相关,和未来的无关。自回归方式能够考虑到被预测单词之间的相关性,适合处理自然语言生成任务。
自回归进行概率预测时,会把一个序列的概率按照各个词的概率进行拆解,给定文本序列,x1:T=[x1,x2,…,xT],其联合概率p(x1:T)可以被分解为:
本申请提出基于对比学习策略的多损失优化前缀网络方法,在对比学习指导下引入对比损失比较参考摘要与候选摘要间的相似性,指导前缀网络学习多种潜在生成序列的语义信息,结合字符级MLE损失优化添加的前缀网络参数。同时还提出基于序列级前缀提示生成文本摘要方法,考虑到了潜在生成的序列信息,将前缀网络分解为序列级前缀提示置于生成序列的最前端,以自回归方式引导后续文本摘要序列的生成,相比于微调全量数据,本申请模型计算量仅占其20%左右,大大减少了算力开销。
以新闻数据集CNN /Daily Mail数据集开展实验,全量数据集下实验结果如表一所示。训练集分别随机抽取100、1000、10000条数据作为小样本的训练集进行实验,实验结果如表二所示。在全量数据和少样本数据下,其结果好于基线模型,并且训练时的计算量仅占20%。
表一
表二
图4为本申请实施例的基于序列级前缀提示的生成式文本摘要方法的多损失前缀调优流程图。
如图4所示,初始输入文本进行预处理后送入到摘要生成模型得到生成摘要并计算训练过程中的模型损失,其中,摘要生成模型包括前缀网络和第二预训练模型,模型损失分别为生成摘要与对应的参考摘要计算得到的交叉熵损失和多条候选摘要之间引入对比学习范式计算得到的序列对比损失,对这两种损失进行加权得到联合损失,并使用联合损失优化可训练的前缀网络。
图5为本申请实施例二所提供的一种基于序列级前缀提示的生成式文本摘要装置的结构示意图。
如图5所示,该基于序列级前缀提示的生成式文本摘要装置,包括:
获取模块10,用于获取文本和文本的参考摘要,并对文本和参考摘要进行预处理;
第一生成模块20,用于将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序;
训练模块30,用于对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;
第二生成模块40,用于获取待处理文本,并对待处理文本进行预处理,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要。
本申请实施例的基于序列级前缀提示的生成式文本摘要装置,包括获取模块,用于获取文本和文本的参考摘要,并对文本和参考摘要进行预处理;第一生成模块,用于将经过预处理的文本输入第一预训练模型,生成文本的多条候选摘要,根据参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据候选摘要的Rouge分值对多条候选摘要进行排序;训练模块,用于对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;第二生成模块,用于获取待处理文本,并对待处理文本进行预处理,将经过预处理的待处理文本输入具有序列级前缀提示的摘要生成模型,并将序列级前缀提示置于生成序列的最前端,通过自回归方式生成待处理文本的摘要。由此,能够解决现有方法存在曝光偏差以及算力成本高昂的技术问题,通过添加前缀网络并在训练过程中冻结深度神经网络的权重优化前缀网络,加快了训练过程并大大降低了计算量,此外,通过设计对比学习模块并引入候选摘要指导前缀网络学习多种潜在生成序列的语义信息,使前缀网络具备序列级语义提示信息,以此提高了生成摘要的准确性。
为了实现上述实施例,本申请还提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现上述施例所述的基于序列级前缀提示的生成式文本摘要方法。
为了实现上述实施例,本申请还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例的基于序列级前缀提示的生成式文本摘要方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于序列级前缀提示的生成式文本摘要方法,其特征在于,包括以下步骤:
获取文本和文本的参考摘要,并对所述文本和所述参考摘要进行预处理;
将经过预处理的文本输入第一预训练模型,生成所述文本的多条候选摘要,根据所述参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据所述候选摘要的Rouge分值对所述多条候选摘要进行排序;
对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;
获取待处理文本,并对所述待处理文本进行预处理,将经过预处理的待处理文本输入所述具有序列级前缀提示的摘要生成模型,并将所述序列级前缀提示置于生成序列的最前端,通过自回归方式生成所述待处理文本的摘要;
其中,所述根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
通过引入对比学习范式,计算多条候选摘要与参考摘要之间的相似度分值作为对比损失;
计算摘要生成模型生成的摘要和参考摘要的负对数似然之和作为交叉熵损失;
将所述对比损失与所述交叉熵损失进行加权,得到摘要生成模型的联合损失函数;
根据所述联合损失函数对所述摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型;
所述根据所述联合损失函数对所述摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
冻结摘要生成模型的第二预训练模型的权重,通过所述联合损失函数对所述摘要生成模型的前缀网络进行训练,以将所述前缀网络分解为序列级前缀提示,得到具有序列级前缀提示的摘要生成模型,并将所述第二预训练模型的词表作为具有序列级前缀提示的摘要生成模型的词表,其中,通过引入对比损失函数对所述前缀网络进行训练,使所述前缀网络拥有序列级信息。
2.如权利要求1所述的方法,其特征在于,所述对所述文本和所述参考摘要进行预处理,包括:
分别对文本和参考摘要进行分词,并过滤特殊字符,得到文本的字符序列和参考摘要的字符序列。
3.如权利要求1所述的方法,其特征在于,所述将经过预处理的文本输入第一预训练模型,生成所述文本的多条候选摘要,包括:
将预处理得到的文本的字符序列输入第一预训练模型,利用Beam Search策略进行采样生成,得到所述文本的多条候选摘要。
4.如权利要求1所述的方法,其特征在于,所述对比损失的公式表示为:
其中,表示对比损失,/>表示第i个候选摘要,/>表示第j个候选摘要,/>表示长度归一化后的对数概率之和,/>表示第i个候选摘要和第j个候选摘要的Rouge分值差额乘以第i个候选摘要和第j个候选摘要的等级差;
所述交叉熵损失的公式表示为:
其中,表示交叉熵损失,/>表示交叉熵框架下的One-hot编码,s表示生成的下一位置的摘要字符,D表示预处理得到的字符序列,/>表示第1到j-1个参考摘要的字符序列,/>表示摘要生成模型g映射下的概率表示,/>表示摘要生成模型g的参数;
所述联合损失函数表示为:
5.如权利要求1所述的方法,其特征在于,所述将经过预处理的待处理文本输入所述具有序列级前缀提示的摘要生成模型,并将所述序列级前缀提示置于生成序列的最前端,通过自回归方式生成所述待处理文本的摘要,包括:
将经过预处理得到的待处理文本的字符序列输入具有序列级前缀提示的摘要生成模型,根据所述序列级前缀提示通过自回归方式逐个预测所有位置的摘要字符,以生成所述待处理文本的摘要,其中,根据所述序列级前缀提示、当前位置之前的摘要字符和待处理文本的字符序列,计算当前位置的词表中字符的概率分布,并选取概率最大的字符作为当前位置的摘要字符。
6.一种基于序列级前缀提示的生成式文本摘要装置,其特征在于,包括:
获取模块,用于获取文本和文本的参考摘要,并对所述文本和所述参考摘要进行预处理;
第一生成模块,用于将经过预处理的文本输入第一预训练模型,生成所述文本的多条候选摘要,根据所述参考摘要使用Rouge指标对生成的候选摘要进行评估,得到候选摘要的Rouge分值,并根据所述候选摘要的Rouge分值对所述多条候选摘要进行排序;
训练模块,用于对排序后的多条候选摘要进行预处理,根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,其中,通过在第二预训练模型前增添一个前缀网络得到摘要生成模型;
第二生成模块,用于获取待处理文本,并对所述待处理文本进行预处理,将经过预处理的待处理文本输入所述具有序列级前缀提示的摘要生成模型,并将所述序列级前缀提示置于生成序列的最前端,通过自回归方式生成所述待处理文本的摘要;
其中,所述根据经过预处理的文本、参考摘要和多条候选摘要利用多损失联合调优方式对摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
通过引入对比学习范式,计算多条候选摘要与参考摘要之间的相似度分值作为对比损失;
计算摘要生成模型生成的摘要和参考摘要的负对数似然之和作为交叉熵损失;
将所述对比损失与所述交叉熵损失进行加权,得到摘要生成模型的联合损失函数;
根据所述联合损失函数对所述摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型;
所述根据所述联合损失函数对所述摘要生成模型进行训练,得到具有序列级前缀提示的摘要生成模型,包括:
冻结摘要生成模型的第二预训练模型的权重,通过所述联合损失函数对所述摘要生成模型的前缀网络进行训练,以将所述前缀网络分解为序列级前缀提示,得到具有序列级前缀提示的摘要生成模型,并将所述第二预训练模型的词表作为具有序列级前缀提示的摘要生成模型的词表,其中,通过引入对比损失函数对所述前缀网络进行训练,使所述前缀网络拥有序列级信息。
7.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。
8.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310253057.1A CN115965033B (zh) | 2023-03-16 | 2023-03-16 | 基于序列级前缀提示的生成式文本摘要方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310253057.1A CN115965033B (zh) | 2023-03-16 | 2023-03-16 | 基于序列级前缀提示的生成式文本摘要方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115965033A CN115965033A (zh) | 2023-04-14 |
CN115965033B true CN115965033B (zh) | 2023-07-11 |
Family
ID=85889855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310253057.1A Active CN115965033B (zh) | 2023-03-16 | 2023-03-16 | 基于序列级前缀提示的生成式文本摘要方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115965033B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821436B (zh) * | 2023-08-24 | 2024-01-02 | 北京遥感设备研究所 | 一种面向模糊查询的字符串谓词准确选择估计方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021217987A1 (zh) * | 2020-04-30 | 2021-11-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN114781356A (zh) * | 2022-03-14 | 2022-07-22 | 华南理工大学 | 一种基于输入共享的文本摘要生成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113190675A (zh) * | 2021-05-12 | 2021-07-30 | 平安国际智慧城市科技股份有限公司 | 文本摘要生成方法、装置、计算机设备和存储介质 |
US20230020886A1 (en) * | 2021-07-08 | 2023-01-19 | Adobe Inc. | Auto-creation of custom models for text summarization |
CN114647723A (zh) * | 2022-04-18 | 2022-06-21 | 北京理工大学 | 一种基于预训练软提示的少样本摘要生成方法 |
CN115589446A (zh) * | 2022-09-26 | 2023-01-10 | 黑盒科技(广州)有限公司 | 一种基于预训练与提示的会议摘要生成方法及系统 |
CN115795026A (zh) * | 2022-12-09 | 2023-03-14 | 桂林电子科技大学 | 基于对比学习的中文文本摘要生成方法 |
CN115687576B (zh) * | 2022-12-29 | 2023-04-07 | 安徽大学 | 一种主题约束表示的关键词抽取方法及装置 |
-
2023
- 2023-03-16 CN CN202310253057.1A patent/CN115965033B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021217987A1 (zh) * | 2020-04-30 | 2021-11-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及可读存储介质 |
CN114781356A (zh) * | 2022-03-14 | 2022-07-22 | 华南理工大学 | 一种基于输入共享的文本摘要生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115965033A (zh) | 2023-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992782B (zh) | 法律文书命名实体识别方法、装置及计算机设备 | |
Che et al. | Punctuation prediction for unsegmented transcript based on word vector | |
Badjatiya et al. | Attention-based neural text segmentation | |
EP3862889A1 (en) | Responding to user queries by context-based intelligent agents | |
Chen et al. | Multi-task learning for abstractive and extractive summarization | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN107423440B (zh) | 一种基于情感分析的问答上下文切换与强化选择方法 | |
CN111966810B (zh) | 一种用于问答系统的问答对排序方法 | |
CN113239666B (zh) | 一种文本相似度计算方法及系统 | |
CN111930929A (zh) | 一种文章标题生成方法、装置及计算设备 | |
CN112541356A (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN115965033B (zh) | 基于序列级前缀提示的生成式文本摘要方法和装置 | |
Carreras et al. | Filtering-ranking perceptron learning for partial parsing | |
CN114428850A (zh) | 一种文本检索匹配方法和系统 | |
Bai et al. | Sentiment extraction from unstructured text using tabu search-enhanced markov blanket | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN109190112B (zh) | 基于双通道特征融合的专利分类方法、系统及存储介质 | |
CN116595979A (zh) | 一种基于标签提示的命名实体识别方法、装置及介质 | |
CN115982629A (zh) | 一种基于语义引导的特征选择的图像描述方法 | |
Higashiyama et al. | Character-to-word attention for word segmentation | |
Shayegh et al. | Ensemble distillation for unsupervised constituency parsing | |
CN113157932A (zh) | 基于知识图谱表示学习的隐喻计算和装置 | |
Honda et al. | Incremental Teacher Model with Mixed Augmentations and Scheduled Pseudo-label Loss for Handwritten Text Recognition | |
Kurisinkel et al. | Graph to coherent text: Passage generation from knowledge graphs by exploiting edge representations in sentential contexts | |
Xu et al. | Adversarial reinforcement learning for chinese text summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |