CN114328814A - 文本摘要模型的训练方法、装置、电子设备及存储介质 - Google Patents

文本摘要模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114328814A
CN114328814A CN202111375730.6A CN202111375730A CN114328814A CN 114328814 A CN114328814 A CN 114328814A CN 202111375730 A CN202111375730 A CN 202111375730A CN 114328814 A CN114328814 A CN 114328814A
Authority
CN
China
Prior art keywords
sample
text
abstract
vector
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111375730.6A
Other languages
English (en)
Inventor
吴焕钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111375730.6A priority Critical patent/CN114328814A/zh
Publication of CN114328814A publication Critical patent/CN114328814A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本摘要模型的训练方法、装置、电子设备及存储介质;包括:获取包括多个训练样本的样本集合;通过文本摘要模型的第一编码器,分别对训练样本中样本文本、正样本摘要及负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量及负样本摘要向量;通过文本摘要模型的解码器,对第一样本文本向量进行解码,得到目标摘要;基于目标摘要及正样本摘要,确定文本摘要模型的第一损失,并基于第一样本文本向量、正样本摘要向量及负样本摘要向量,确定文本摘要模型的第二损失;结合第一损失和第二损失更新文本摘要模型的模型参数。如此,能够增强模型对不同摘要间的差异性的理解能力,进而提升模型的性能。

Description

文本摘要模型的训练方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术,尤其涉及一种文本摘要模型的训练方法、装置、电子设备及存储介质。
背景技术
自动摘要文本在许多NLP(Natural Language Processing,自然语言处理)领域中有着非常重要的应用。如新闻标题生成、会议纪要、社交短文本的话题生成、智能客服任务等等。而生成文本摘要的方法一般分为抽取式和生成式。抽取式摘要的实现方法一般为从原文中选取关键词、关键句组成摘要。生成式摘要允许摘要中包含新的词语或短话,具有更高的灵活性,其实现方法一般基于序列到序列(Seq2Seq)模型。
生成式文本摘要模型在训练时,通常是在源文档及其对应的目标摘要下通过最大似然估计的训练目标(即最大化目标摘要生成的概率)优化模型的参数。然而,在这样的训练过程下,文本摘要模型只学习到怎么生成正确的摘要,但未能学到不同摘要之间的优劣。
发明内容
本申请实施例提供一种文本摘要模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够增强模型对不同摘要间的差异性的理解能力,进而提升模型的性能。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本摘要模型的训练方法,所述文本摘要模型包括第一编码器及解码器,所述方法包括:
获取包括多个训练样本的样本集合,其中,所述训练样本包括样本文本、所述样本文本对应的正样本摘要以及所述样本文本对应的负样本摘要;
通过所述第一编码器,分别对所述训练样本中样本文本、所述正样本摘要及所述负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量;
通过所述解码器,对所述第一样本文本向量进行解码,得到目标摘要;
基于所述目标摘要以及所述正样本摘要,确定所述文本摘要模型的第一损失,并基于所述第一样本文本向量、所述正样本摘要向量以及所述负样本摘要向量,确定所述文本摘要模型的第二损失;
结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数。
本申请实施例提供一种文本摘要模型的训练装置,所述文本摘要模型包括第一编码器及解码器,所述装置包括:
获取模块,用于获取包括多个训练样本的样本集合,其中,所述训练样本包括样本文本、所述样本文本对应的正样本摘要以及所述样本文本对应的负样本摘要;
编码模块,用于通过所述第一编码器,分别对所述训练样本中样本文本、所述正样本摘要及所述负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量;
解码模块,用于通过所述解码器,对所述第一样本文本向量进行解码,得到目标摘要;
确定模块,用于基于所述目标摘要以及所述正样本摘要,确定所述文本摘要模型的第一损失,并基于所述第一样本文本向量、所述正样本摘要向量以及所述负样本摘要向量,确定所述文本摘要模型的第二损失;
更新模块,用于结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数。
在上述方案中,所述更新模块,还用于基于所述第一损失确定相应的第一误差信号,将所述第一误差信号在所述文本摘要模型中反向传播,并在传播过程中更新所述解码器及所述第一编码器的模型参数;基于所述第二损失确定相应的第二误差信号,将所述第二误差信号在所述文本摘要模型中反向传播,在传播过程中固定所述解码器的模型参数,并更新所述第一编码器的模型参数。
在上述方案中,所述更新模块,还用于分别获取所述第一损失及所述第二损失对应的权重;基于所述第一损失及所述第二损失对应的权重,对所述第一损失及所述第二损失进行加权求和,得到目标损失;基于所述目标损失更新所述文本摘要模型的模型参数。
在上述方案中,所述文本摘要模型还包括第二编码器,所述编码模块,还用于通过所述第二编码器,对所述样本文本进行编码,得到第二样本文本向量;分别获取所述第一编码器及所述第二编码器的权重;基于所述第一编码器及所述第二编码器的权重,对所述第一样本文本向量及所述第二样本文本向量进行加权求和,得到目标样本文本向量;所述解码模块,还用于通过所述解码器,对所述目标样本文本向量进行解码,得到目标摘要。
在上述方案中,所述确定模块,还用于确定所述第一样本文本向量与所述正样本摘要向量的第一余弦相似度,并确定所述第一样本文本向量与所述负样本摘要向量的第二余弦相似度;获取所述正样本摘要与所述负样本摘要的相似度系数;其中,所述相似度系数用于所述正样本摘要与所述负样本摘要之前的相似度;基于所述第一余弦相似度、所述第二余弦相似度及获取的所述相似度系数,确定所述文本摘要模型的第二损失。
在上述方案中,所述确定模块,还用于确定所述目标摘要以及所述正样本摘要之间的差异;基于所述差异,确定基于所述样本文本生成所述正样本摘要的概率;基于所述概率,确定所述文本摘要模型的第一损失。
在上述方案中,所述装置还包括预训练模块,所述预训练模块用于获取包括多个预训练样本的预训练样本集合,其中,所述预训练样本包括预训练样本文本及相应的预训练样本摘要;通过所述第一编码器,对所述预训练样本文本进行编码,得到相应的预训练样本文本向量;通过所述解码器,对所述预训练样本文本向量进行解码,得到预测摘要;获取所述预测摘要与所述预训练样本摘要的差异,并基于所述差异,更新所述文本摘要模型的模型参数。
在上述方案中,所述获取模块,还用于构建多个正例样本,所述正例样本包括:所述样本文本、所述样本文本对应的正样本摘要;针对每个所述正例样本,选取一个其他正例样本,将选取的其他正例样本的正样本摘要作为所述负样本摘要,与所述正例样本构成所述训练样本;获取多个所述正例样本对应的训练样本,得到所述样本集合。
在上述方案中,所述装置还包括应用模块,所述应用模块用于通过所述第一编码器,对目标文本进行编码,得到相应的文本向量;通过所述解码器,对所述文本向量进行解码,得到所述目标文本对应的文本摘要。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的文本摘要模型的训练方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的文本摘要模型的训练方法。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行本申请实施例提供的文本摘要模型的训练方法。
本申请实施例具有以下有益效果:
在对文本摘要模型进行训练的过程中,将训练样本划分为样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要,通过对包含样本文本、正样本摘要以及负样本摘要的训练样本进行训练,从而得到第一损失以及第二损失,进而基于第一损失以及第二损失进行模型参数的更新,如此,增强文本摘要模型对不同摘要间的差异性的理解能力,使得文本摘要生成模型可以从训练样本中学习得到更好的文本表示,从而使得文本摘要模型具有更好的性能,提高了文本摘要提取的准确性。
附图说明
图1是本申请实施例提供的文本摘要模型的训练系统100的一个可选的架构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的文本摘要模型的训练方法的流程示意图;
图4是本申请实施例提供的文本摘要模型的训练方法的一个可选的流程示意图;
图5是本申请实施例提供的文本摘要模型确定第一损失的流程示意图;
图6是本申请实施例提供的文本摘要模型确定第二损失的流程示意图;
图7是本申请实施例提供的结合第一损失以及第二损失更新文本摘要模型的模型参数的一个可选的示意图;
图8是本申请实施例提供的结合第一损失以及第二损失更新文本摘要模型的模型参数的一个可选的示意图;
图9是本申请实施例提供的文本摘要模型的预训练的一个可选的流程示意图;
图10是本申请实施例提供的文本摘要的提取过程的一个可选的流程示意图;
图11是本申请实施例提供的文本摘要模型的训练方法的一个可选的流程示意图;
图12是本申请实施例提供的传统文本摘要模型与本申请提供的文本摘要模型的效果对比图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)对比学习:通过将数据分别与正例样本和负例样本在特征空间进行对比,来学习样本的特征表示的一种训练方法。
2)文本摘要:将文本转换为包含关键信息的简短摘要的文本处理技术。
在本申请实施例的实施过程中,发明人发现相关技术存在以下问题:
现有的文本摘要技术主要可分为抽取式与生成式两类技术方案。抽取式文本摘要技术从原文中选取关键词、关键句组成摘要。抽取式文本摘要技术在语法、句法上有一定的保证,但是也面临了一定的问题,例如:内容选择错误、连贯性差、灵活性差等问题。随着深度神经网络技术的发展,生成式文本摘要技术也在该任务上取得了较好的效果。生成式文本摘要技术允许摘要中包含新的词语或短语,灵活性高。在生成式文本摘要技术中,序列到序列(Seq2Seq)模型被广泛的用于生成式摘要任务,并取得一定的成果。
具体来说,现有的生成式文本摘要技术大都是在有监督的训练数据下训练得到。这样的训练数据通常由大量的源文档与目标摘要文本对组成。在这样的数据集下通过MLE(最大似然估计)的训练目标训练得到序列到序列(Seq2Seq)模型。在预测时,仅需要输入待抽取摘要的文档,即可以生成得到相应的目标摘要。
现有的文本摘要模型在训练时,通常是在源文档及其对应的目标摘要下通过最大似然估计的训练目标(即最大化目标摘要生成的概率)优化模型的参数。在这样的训练过程下,只能看到源文档对应的目标摘要的结果,即对于模型而言,其在训练过程中只学过怎么生成正确的摘要,但未能学到摘要之间的优劣。
基于此,本实施例提供一种文本摘要模型的训练方法、装置、电子设备、计算机可读存储介质及计算机程序产品,在训练过程中加入不同摘要间优劣的差异性,能使得模型更好的理解输入的文本,得到更好的文本表示,从而使得文本摘要模型具有更好的性能。
下面说明本申请实施例提供的文本摘要模型的训练设备的示例性应用,本申请实施例提供的文本摘要模型的训练设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)、语音交互设备、智能家电、车载终端等各种类型的用户终端,也可以实施为服务器。
参见图1,图1是本申请实施例提供的文本摘要模型的训练系统100的一个可选的架构示意图,终端(示例性示出了终端400)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。终端400和服务器200通过有线或者无线网络相互连接。
其中,终端400,用于获取发送包括多个训练样本的样本集合至服务器200,其中,训练样本包括样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要;
服务器200,用于接收终端400发送的样本集合;通过文本摘要模型包括的第一编码器,分别对训练样本中样本文本、正样本摘要及负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量;通过文本摘要模型包括的解码器,对第一样本文本向量进行解码,得到目标摘要;基于目标摘要以及正样本摘要,确定文本摘要模型的第一损失,并基于第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失;结合第一损失以及第二损失更新文本摘要模型的模型参数。
在一些实施例中,终端400还可以设置文本摘要客户端400-1,客户端400-1发送目标文本摘要的获取请求给服务器200,然后服务器200获取目标文本并通过文本摘要模型的第一编码器,对目标文本进行编码,得到相应的文本向量;然后通过文本摘要模型的解码器,对文本向量进行解码,得到目标文本对应的文本摘要;最后将提取得到的目标文本摘要发送至客户端400-1。
在一些实施例中,服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、机顶盒,以及移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备,智能音箱及智能手表)等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
参见图2,图2是本申请实施例提供的电子设备的结构示意图,在实际应用中,电子设备可以为图1示出的服务器200或终端400,参见图2,图2所示的电子设备包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的文本摘要模型的训练装置可以采用软件方式实现,图2示出了存储在存储器450中的文本摘要模型的训练装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、编码模块4552、解码模块4553、确定模块4554以及更新模块4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
在另一些实施例中,本申请实施例提供的文本摘要模型的训练装置可以采用硬件方式实现,作为示例,本申请实施例提供的文本摘要模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本摘要模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DS P、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPG A,Field-Programmable Gate Array)或其他电子元件。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的文本摘要模型的训练方法。举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序,如即时通信APP、网页浏览器APP;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
基于上述对本申请实施例提供的文本摘要模型的训练系统及电子设备的说明,下面说明本申请实施例提供的文本摘要模型的训练方法。在实际实施时,本申请实施例提供的文本摘要模型的训练方法可以由终端或服务器单独实现,或者由终端及服务器协同实现,以由图1中的服务器200单独执行本申请实施例提供的文本摘要模型的训练方法为例进行说明。参见图3,图3是本申请实施例提供的文本摘要模型的训练方法的流程示意图,将结合图3示出的步骤进行说明。
步骤101,服务器获取包括多个训练样本的样本集合,其中,训练样本包括样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要。
在实际实施时,可以首先从互联网获取多个网页数据,然后对多个网页数据进行数据清洗,得到清洗后的数据文本,得到清洗后的文本数据,再基于清洗后的文本数据构建用于训练模型的训练样本集合。
需要说明的是,对网页数据进行数据清洗是将网页数据中无效信息去除的过程。网页数据比如可以是网页中的百科页面数据;也可以是小说网站上的小说页面数据;也可以是新闻网站上的新闻页面数据。这里,对网页数据进行数据清洗,得到清洗后文本数据包括:去除所述网页数据中的网址和标签,得到清洗后文本数据。比如,网页数据中的网址可以包括URL和超链接,网页数据中的标签可以为HTML标签,这些是训练文本摘要生成模型不需要的符号,这些数据均为无法用于训练模型的数据,因而需要将其去除,以实现数据清洗。在一些实施例中,还可以将网页数据其他不相关的符号内容去除。这里,对网页数据进行数据清洗,得到清洗后文本数据,包括:获取网页数据的主题内容;根据网页数据的主题内容,清洗掉网页数据中与主题内容无关的符号内容,得到清洗后文本数据。比如,一个网页数据的主题内容为社会新闻,但是该网页数据中还包括广告信息,这些广告信息与主题内容无关,也需要去除。
在实际实施时,在获取了清洗后的文本数据后,再基于清洗后的文本数据构建用于训练模型的训练样本集合。这里,基于清洗后的文本数据构建用于训练模型的训练样本集合的过程具体为,构建多个正例样本,正例样本包括:样本文本、样本文本对应的正样本摘要;针对每个正例样本,选取一个其他正例样本,将选取的其他正例样本的正样本摘要作为负样本摘要,与正例样本构成训练样本;获取多个正例样本对应的训练样本,得到样本集合。
作为示例,清洗后文本数据可以为一个网页数据包括的多篇新闻,每篇新闻都包括新闻标题和新闻正文,新闻正文将作为样本文本,新闻标题将作为对应新闻正文的正样本摘要,而其他新闻标题则为该新闻正文对应的负样本摘要。
在一些实施例中,基于清洗后的文本数据构建用于训练模型的训练样本集合的过程还可以为,构建多个正例样本,正例样本包括:样本文本、样本文本对应的正样本摘要;针对每个正例样本,从样本文本中随机选取一个句子作为负样本摘要,与正例样本构成训练样本;获取多个正例样本对应的训练样本,得到样本集合。
接上述示例,新闻正文将作为样本文本,新闻标题将作为对应新闻正文的正样本摘要,然后从该新闻正文里随机选取的句子可以是该新闻正文对应的负样本摘要。
如此,是通过数据清洗而自动生成包括多个训练样本的样本集合,因而大大提升了样本集合的生成效率,也降低了由人工设置而产生的人工成本。
步骤102,通过第一编码器,分别对训练样本中样本文本、正样本摘要及负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量。
在实际实施时,通过第一编码器对分别对训练样本中样本文本、正样本摘要及负样本摘要进行编码包括:首先通过第一编码器分别对训练样本中样本文本、正样本摘要及负样本摘要进行分词得到词序列,这里得到的词序列包括各个词的词向量、词性向量和事件关键词向量,其中,词向量可以包括单独表示的向量或分布表示的向量,词性向量表征词的词性,词性向量可以是将当前词的词性标记映射为一个多维向量,相同的词性使用相同的向量进行初始化,引入词性向量是由于一些动词、名词可能包含更丰富的事件信息;而事件关键词向量可以表征词是否为事件关键词。事件关键词可以包括样本文本的关键词,以及更能反映事件信息的表征实体的词和一些动词。在样本文本包括事件内容的情况下,例如样本文本为新闻,通过事件关键词向量可以标记其中的事件关键词。例如,样本文本中某个词如果是事件关键词,则其事件关键词向量可以用向量[1]表示,否则可以用向量[0]表示。
需要说明的是,事件关键词包括经由以下步骤确定的词:确定当前词是否为动词或表征实体;响应于确定出当前词是否为动词或表征实体,确定当前词是否为样本文本中的关键词,其中,样本文本中的关键词包括对样本文本进行关键词抽取得到的词;响应于确定出当前词为样本文本中的关键词,确定当前词为事件关键词。
在实际实施时,在确定词序列中各个词的词向量、词性向量和事件关键词向量后,即得到第一样本文本向量、正样本摘要向量以及负样本摘要向量。示例性地,可以将各个词的词向量、词性向量和事件关键词向量级联或通过其他合并操作合并,分别得到相应的第一样本文本向量、正样本摘要向量以及负样本摘要向量。
步骤103,通过解码器,对第一样本文本向量进行解码,得到目标摘要。
在实际实施时,通过解码器包括的解码函数得到第一样本文本向量中为词典中词的概率分布,根据概率对词进行选择,即可得到目标文本的摘要。这里,解码函数可以包括softmax(归一化指数函数)等。
在一些实施例中,文本摘要模型还包括第二编码器,这里,参见图4,图4是本申请实施例提供的文本摘要模型的训练方法的一个可选的流程示意图,基于图3,在步骤103之后,还可以执行:
步骤1031,通过第二编码器,对样本文本进行编码,得到第二样本文本向量。
在实际实施时,通过第二编码器对训练样本中样本文本进行分词得到词序列,这里得到的词序列包括各个词的词向量、词性向量和事件关键词向量;在确定词序列中各个词的词向量、词性向量和事件关键词向量后,即得到第二样本文本向量。示例性地,可以将各个词的词向量、词性向量和事件关键词向量级联或通过其他合并操作合并,即可得到相应的第二样本文本向量。
步骤1032,分别获取第一编码器及第二编码器的权重。
在实际实施时,由于每个编码器的编码能力不同,因此基于不同编码能力的编码器,可以设置不同的权重,比如,编码能力较好的编码器可以设置较高权重,编码能力较差的编码器可以设置较低的权重。
步骤1033,基于第一编码器及第二编码器的权重,对第一样本文本向量及第二样本文本向量进行加权求和,得到目标样本文本向量。
在实际实施时,在获取第一编码器以及第二编码器的相应权重之后,可以基于相应权重,对由第一编码器编码得到的第一样本文本向量以及由第二编码器编码得到的第二样本文本向量进行加权求和,得到目标样本文本向量。
需要说明的是,除了对第一样本文本向量及第二样本文本向量进行加权求和,得到目标样本文本向量,还可以对由第一编码器编码得到的第一正样本摘要向量以及由第二编码器编码得到的第二正样本摘要向量进行加权求和,得到目标正样本摘要向量,以及对由第一编码器编码得到的第一负样本摘要向量以及由第二编码器编码得到的第二负样本摘要向量进行加权求和,得到目标负样本摘要向量。
在实际实施时,在得到目标样本文本向量之后,即可通过解码器,对目标样本文本向量进行解码,得到目标摘要。具体地,通过解码器包括的解码函数得到目标样本文本向量中为词典中词的概率分布,根据概率对词进行选择,即可得到样本文本的摘要。这里,解码函数可以包括softmax(归一化指数函数)等。
需要说明的是,在一些实施例中,还可以使用注意力机制加权后的文本摘要模型,注意力机制(Attention Mechanism)源于对人类视觉的研究,其核心目标是从众多信息中选择出对当前任务目标更关键的信息。经过注意力机制加权后的文本摘要模型不要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反,此时编码器需要将输入文本编码成一个向量的序列,而在解码的时候,每一步都会选择性的从向量中挑选一个子集进行进一步处理。这样,在产生每一个输出的时候,都能够做到充分利用第一样本文本向量、正样本摘要向量以及负样本摘要向量携带的信息。
步骤104,基于目标摘要以及正样本摘要,确定文本摘要模型的第一损失,并基于第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失。
在实际实施时,在确定目标摘要、正样本摘要后,会基于目标摘要以及正样本摘要,确定文本摘要模型的第一损失,参见图5,图5是本申请实施例提供的文本摘要模型确定第一损失的流程示意图,基于图3,基于目标摘要以及正样本摘要,确定文本摘要模型的第一损失的过程包括:
步骤1041a,确定目标摘要以及正样本摘要之间的差异。
在实际实施时,在获取目标摘要之后,对比目标摘要与正样本摘要之间的差异,具体地,由于目标摘要是对训练样本中的样本文本进行摘要提取的预测结果,因此,每一个目标摘要由对应的样本文本,将每一个目标摘要与样本文本对应的正样本摘要进行比对,确定目标摘要以及相应的正样本摘要之间的差异,这里,确定目标摘要以及相应的正样本摘要之间的差异即是组成目标摘要以及正样本摘要的词之间的差异。
步骤1042a,基于差异,确定基于样本文本生成正样本摘要的概率。
在实际实施时,基于目标摘要以及正样本摘要之间的差异,确定基于样本文本生成正样本摘要的概率,具体地,基于组成目标摘要以及正样本摘要的词之间的差异,确定正样本摘要中每一个词的生成概率,再将正样本摘要中每一个词的生成概率进行相乘,确定基于样本文本生成正样本摘要的概率,示例性地,对于一个样本文本,假如有m个词,则生成该正样本摘要的概率表示为公式(1),即
Figure BDA0003363695300000151
其中,公式(1)中y为正样本摘要,x为样本文本,h(x)表示针对输入的样本文本,生成某一个词的概率,y(i)表示解码某一个词的概率,θ为文本摘要模型的所有相关参数的集合。需要说明的是,对于一个样本文本来说,其基于样本文本生成正样本摘要的概率P(y|x)具体为P(y1|x)P(y2|x)……P(yi|x)。
步骤1043a,基于概率,确定文本摘要模型的第一损失。
在实际实施时,在确定基于样本文本生成正样本摘要的概率后,基于概率,确定文本摘要模型的第一损失,即
Figure BDA0003363695300000152
其中,公式(2)中的P(y|x)为在针对不同θ,基于给定的样本文本生成正样本摘要的概率,即公式(1)。
在实际实施时,在确定第一样本文本向量、正样本摘要向量以及负样本摘要向量之后,会基于第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失,参见图6,图6是本申请实施例提供的文本摘要模型确定第二损失的流程示意图,基于图3,于第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失包括:
步骤1041b,确定第一样本文本向量与正样本摘要向量的第一余弦相似度,并确定第一样本文本向量与负样本摘要向量的第二余弦相似度。
在实际实施时,首先确定第一样本文本向量与正样本摘要向量的第一余弦相似度sim(R(x),R(y)),再确定第一样本文本向量与负样本摘要向量的第二余弦相似度sim(R(x),R(y')),这里,需要说明的是,sim函数代表向量间cos相似度计算,R(x)代表x的文本向量表示即第一样本文本向量,R(y)代表y的文本向量表示即正样本摘要向量,R(y’)代表y’的文本向量表示即负样本摘要向量。
步骤1042b,获取正样本摘要与负样本摘要的相似度系数;其中,相似度系数用于调整正样本摘要与负样本摘要之间的相似度。
在实际实施时,正样本摘要与负样本摘要的相似度系数也即温度系数,该温度系数用来调整正样本摘要与负样本摘要之间的相似度。需要说明的是,用来调整正样本摘要与负样本摘要之间的相似度,也即调整对负样本摘要对应的样本文本(即负样本)的关注程度,越小的温度系数越关注于将正样本摘要对应的样本文本(即正样本)和最相似的负样本分开。然而负样本往往是与正样本相似程度较高的,很多负样本其实是潜在的正样本,过分强迫负样本分开会破坏学到的潜在语义结构,因此温度系数不能过小。
步骤1043b,基于第一余弦相似度、第二余弦相似度及获取的相似度系数,确定文本摘要模型的第二损失。
在实际实施时,在确定了第一样本文本向量与正样本摘要向量的第一余弦相似度、第一样本文本向量与负样本摘要向量的第二余弦相似度以及正样本摘要与负样本摘要的相似度系数后,会基于第一余弦相似度、第二余弦相似度及获取的相似度系数,确定文本摘要模型的第二损失,即
Figure BDA0003363695300000171
其中,公式(3)中的r即为正样本摘要与负样本摘要的相似度系数。
步骤105,结合第一损失以及第二损失更新文本摘要模型的模型参数。
在实际实施时,在确定了第一损失以及第二损失后,可以基于第一损失以及第二损失对文本摘要模型的模型参数进行更新。这里,存在两种对文本摘要模型的模型参数进行更新的方式。
接下来,将对文本摘要模型的模型参数进行更新的两种方式进行说明。
在一些实施例中,结合第一损失以及第二损失更新文本摘要模型的模型参数具体为,基于第一损失确定相应的第一误差信号,将第一误差信号在文本摘要模型中反向传播,并在传播过程中更新解码器及第一编码器的模型参数;基于第二损失确定相应的第二误差信号,将第二误差信号在文本摘要模型中反向传播,在传播过程中固定解码器的模型参数,并更新第一编码器的模型参数。
作为示例,参见图7,图7是本申请实施例提供的结合第一损失以及第二损失更新文本摘要模型的模型参数的一个可选的示意图,参见图7,在基于编码器对x(即样本文本),y(正样本摘要)以及y’(负样本摘要)进行编码后,再基于解码器对编码对得到的相应向量进行解码,最终得到Y(即样本文本对应的目标摘要),首先基于Y与y,通过公式(2),确定文本摘要模型的第一损失LMLE,并基于第一损失确定相应的第一误差信号,将第一误差信号在文本摘要模型中反向传播,并在传播过程中更新解码器及第一编码器的模型参数。同时,基于对x(即样本文本),y(正样本摘要)以及y’(负样本摘要)进行编码后得到的第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失LCL,再基于第二损失LCL确定相应的第二误差信号,将第二误差信号在文本摘要模型中反向传播,在传播过程中固定解码器的模型参数,并更新第一编码器的模型参数。
在一些实施例中,结合第一损失以及第二损失更新文本摘要模型的模型参数具体为,分别获取第一损失及第二损失对应的权重;基于第一损失及第二损失对应的权重,对第一损失及第二损失进行加权求和,得到目标损失;基于目标损失更新文本摘要模型的模型参数。
作为示例,参见图8,图8是本申请实施例提供的结合第一损失以及第二损失更新文本摘要模型的模型参数的一个可选的示意图,参见图8,在基于编码器对x(即样本文本),y(正样本摘要)以及y’(负样本摘要)进行编码后,再基于解码器对编码对得到的相应向量进行解码,最终得到Y(即样本文本对应的目标摘要),首先基于Y与y,通过公式(2),确定文本摘要模型的第一损失LMLE,同时基于对x(即样本文本),y(正样本摘要)以及y’(负样本摘要)进行编码后得到的第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失LCL,在得到第一损失LMLE以及第二损失LCL后,分别获取第一损失及第二损失对应的权重,基于第一损失及第二损失对应的权重,对第一损失及第二损失进行加权求和,得到目标损失,即
L=λ1*LMLE2*LCL……公式(4);
在实际实施时,在得到目标损失后,即可基于目标损失更新文本摘要模型的模型参数。
需要说明的是,公式(4)中的λ1以及λ2为通过训练得到的对应第一损失及第二损失的权重系数,λ1和λ2的取值范围为0到1之间,其中λ1∈(0,1],λ2∈[0,1]。
在一些实施例中,在对文本摘要模型进行训练之前,还会对文本摘要模型的进行预训练的过程,参见图9,图9是本申请实施例提供的文本摘要模型的预训练的一个可选的流程示意图,基于图3,在步骤101之前,还可以执行:
步骤201,获取包括多个预训练样本的预训练样本集合,其中,预训练样本包括预训练样本文本及相应的预训练样本摘要。
在实际实施时,在获取包括多个预训练样本的预训练样本集合之后,可以首先对获取的预训练样本文本进行预处理,具体地,预处理可以包括分词、删除停用词、词性标注、词向量转换、实体词识别和关键词识别等。其中,实体是指能够独立存在的并能够作为一切属性的基础和万物本原的真实存在的物质或概念,通常可以指代具体的事物、主体和现象的支持者等,例如人名、物名、地名、机构名以及概念等。
步骤202,通过第一编码器,对预训练样本文本进行编码,得到相应的预训练样本文本向量。
在实际实施时,在获取包括多个预训练样本的预训练样本集合后,通过第一编码器,对预训练样本集合包含的预训练样本文本进行编码,得到相应的预训练样本文本向量。
步骤203,通过解码器,对预训练样本文本向量进行解码,得到预测摘要。
在实际实施时,在得到预训练样本文本向量后,通过解码器,对预训练样本文本向量进行解码,得到预测摘要。
步骤204,获取预测摘要与预训练样本摘要的差异,并基于差异,更新文本摘要模型的模型参数。
在实际实施时,在得到预测摘要后,通过比对预测摘要与预训练样本摘要之间,获取预测摘要与预训练样本摘要的差异,基于差异,更新文本摘要模型的模型参数。
需要说明的是,在更新完文本摘要模型的模型参数后,可以获取包括样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要的训练样本,再通过第一编码器,分别对训练样本中样本文本、正样本摘要及负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量,然后基于第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的差异,并基于差异,完成预训练的文本摘要模型的模型参数进行更新,从而得到最终的文本摘要模型。
在一些实施例中,在完成对文本摘要模型的训练之后,还会基于得到训练完成的文本摘要模型对目标文本进行相应文本摘要的提取,参见图10,图10是本申请实施例提供的文本摘要的提取过程的一个可选的流程示意图,基于图3,在步骤105之后,还可以执行:
步骤301,通过第一编码器,对目标文本进行编码,得到相应的文本向量。
在实际实施时,在通过第一编码器,对目标文本进行编码,得到相应的文本向量之前,首先会基于设置于终端上的客户端来获取目标文本,需要说明的是,客户端可以是设置于终端的文本摘要客户端,目标文本可以由用户基于该客户端的人机交互界面,触发人机交互界面中的上传功能项使客户端在人机交互界面呈现目标文本选择界面,用户则基于该目标文本选择界面,从终端本地上传目标文本,从而使得客户端获得上传的目标文本。
在实际实施时,目标文本还可以通过由与终端通信连接的摄像头拍摄得到,摄像头在拍摄得到目标文本后,将该目标文本传输给终端并由终端自动上传至客户端。又或者,目标文本可以是用户在终端上进行撰写后,通过截图包含目标文本的图片或者保存包含目标文本的文档,以将图片或文档上传至客户端,即将该目标文本上传至客户端。
在实际实施时,在获取目标文本之后,即通过第一编码器,对目标文本进行编码,得到目标文本对应的文本向量。
步骤302,通过解码器,对文本向量进行解码,得到目标文本对应的文本摘要。
在实际实施时,在得到目标文本对应的文本向量之后,即通过解码器,对文本向量进行解码,得到目标文本对应的文本摘要。
在实际实施时,在得到目标文本对应的文本摘要后,服务器可将目标文本对应的文本摘要发送至客户端,客户端在接收到相应的文本摘要后,可以在该客户端的人机交互界面中呈现相应的文本摘要,还可以该文本摘要保存至终端本地,还可以将该检测结果发送至与终端通信连接的其他设备等。
应用本申请上述实施例,在对文本摘要模型进行训练的过程中,将训练样本划分为样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要,通过对包含样本文本、正样本摘要以及负样本摘要的训练样本进行训练,从而得到第一损失以及第二损失,进而基于第一损失以及第二损失进行模型参数的更新,如此,通过学习正样本(即样本文本与正样本摘要)以及负样本(即样本文本与负样本摘要)之间的差异,增强文本摘要模型对不同摘要间的差异性的理解能力,使得文本摘要生成模型可以从训练样本中学习得到更好的文本表示,从而使得文本摘要模型具有更好的性能,提高了文本摘要提取的准确性。
下面,继续对本申请实施例提供的文本摘要模型的训练方法进行介绍,图11是本申请实施例提供的文本摘要模型的训练方法的一个可选的流程示意图,参见图11,本申请实施例提供的文本摘要模型的训练方法由客户端、服务器协同实施。
步骤401,客户端响应于针对训练样本的上传操作,获取包括多个训练样本的样本集合,其中,训练样本包括样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要。
在实际实施时,客户端可以是设置于终端的文本摘要客户端,训练样本可以由用户基于该客户端的人机交互界面,触发人机交互界面中的上传功能项使客户端在人机交互界面呈现训练样本选择界面,用户则基于该训练样本选择界面,从终端本地上传训练样本,从而使得客户端获得上传的训练样本。
步骤402,客户端发送训练样本至服务器。
步骤403,服务器将接收到的训练样本输入至文本摘要模型。
步骤404,通过第一编码器,分别对训练样本中样本文本、正样本摘要及负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量。
步骤405,通过解码器,对第一样本文本向量进行解码,得到目标摘要。
步骤406,基于目标摘要以及正样本摘要,确定文本摘要模型的第一损失,并基于第一样本文本向量、正样本摘要向量以及负样本摘要向量,确定文本摘要模型的第二损失。
步骤407,结合第一损失以及第二损失更新文本摘要模型的模型参数。
在实际实施时,服务器通过迭代上述训练过程,直至损失函数达到收敛,完成对文本摘要模型的训练。
步骤408,服务器生成文本摘要模型训练完成的提示消息。
步骤409,服务器发送提示消息至客户端。
步骤410,客户端响应于针对目标文本的上传操作,获取目标文本。
在实际实施时,目标文本可以通过由与终端通信连接的摄像头拍摄得到,摄像头在拍摄得到目标文本后,将该目标文本传输给终端并由终端自动上传至客户端。又或者,目标文本可以是用户在终端上进行撰写后,通过截图包含目标文本的图片或者保存包含目标文本的文档,以将图片或文档上传至客户端,即将该目标文本上传至客户端。
步骤411,客户端响应于针对目标文本的文本摘要提取指令,发送目标文本至服务器。
在实际实施时,文本摘要提取指令可以是由一定的触发条件由客户端自动生成,例如客户端获取到目标文本后则自动生成针对目标文本的文本摘要提取指令,还可以是由与终端通信连接的其他设备发送给客户端,还可以是由用户基于客户端的人机交互界面,触发相应的文本摘要提取项后生成。
步骤412,服务器通过第一编码器,对目标文本进行编码,得到相应的文本向量。
步骤413,通过解码器,对文本向量进行解码,得到目标文本对应的文本摘要。
步骤414,服务器发送目标文本对应的文本摘要至客户端
步骤415,客户端输出目标文本对应的文本摘要。
在实际实施时,在得到目标文本对应的文本摘要后,服务器可将目标文本对应的文本摘要发送至客户端,客户端在接收到相应的文本摘要后,可以在该客户端的人机交互界面中呈现相应的文本摘要,还可以该文本摘要保存至终端本地,还可以将该检测结果发送至与终端通信连接的其他设备等。
应用本申请上述实施例,在对文本摘要模型进行训练的过程中,将训练样本划分为样本文本、样本文本对应的正样本摘要以及样本文本对应的负样本摘要,通过对包含样本文本、正样本摘要以及负样本摘要的训练样本进行训练,从而得到第一损失以及第二损失,进而基于第一损失以及第二损失进行模型参数的更新,如此,通过学习正样本(即样本文本与正样本摘要)以及负样本(即样本文本与负样本摘要)之间的差异,增强文本摘要模型对不同摘要间的差异性的理解能力,使得文本摘要生成模型可以从训练样本中学习得到更好的文本表示,从而使得文本摘要模型具有更好的性能,提高了文本摘要提取的准确性。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
现有技术中,文本摘要技术是对信息的高度概括,它能够帮助用户在海量数据中快速获取自己想要的信息。在信息爆炸的时代,我们需要利用文本摘要技术来帮助用户快速获取想要的信息。具体而言,文本摘要技术可用于搜索、推荐等多种应用场景。现有的文本摘要模型通常包括编码器与解码器两部分组成,对于编码器而言,其任务是将自然文本编码表示成文本向量,而解码器部分的任务是将文本向量解码成需要生成的自然文本。在文本摘要任务中,生成式方法通常是将源文档通过编码器进行编码,之后用解码器解码生成需要生成的摘要结果。而对现有的文本摘要模型的训练过程而言,其训练样本由源文档x与其对应的目标摘要y组成。生成式的文本摘要模型将在大量的由<x,y>文本对组成的训练数据集下通过MLE(最大似然估计)的训练目标训练得到,其具体的损失函数参照公式(2)。
在本申请实施例中,为使得文本摘要模型能学习到不同摘要间的差异性,我们在生成文本摘要模型的训练过程中引入对比学习的方法进行训练。具体的,对于源文档x,我们将其对应的目标摘要y作为x的正例。在此基础上,我们在数据集中随机选取非源文档x目标摘要的摘要文本y'(即其他文档的目标摘要)作为负例。在模型学习过程中,我们希望模型能区分出y与y',因此引入公式(3)作为文本摘要模型的损失函数,在公式(3)中sim函数代表向量间cos相似度计算;R(x)代表x的文本向量表示,这里我们采用文本摘要模型中的编码器部分对x,y,y'进行编码,得到相应的向量表示;r代表温度系数,用于控制正例与负例的权重。最终,采用公式(4)的损失函数进行文本摘要模型的训练。
本申请实施例提供的文本摘要模型的训练方法,通过在文本摘要模型的训练中加入对比学习的训练目标,让文本摘要模型能理解不同摘要间的差异性,从而增强文本摘要模型的文本表示能力。具体的,在引入对比学习的文本摘要模型训练过程中,给定文本摘要的训练样本{xi,yi},首先将随机从训练集中随机选取除yi以外的摘要yj(即yi不等于yj)用于构造对比学习的样本{xi,yi,yj}。因此模型的训练主要包含两部分数据:用于MLE训练的数据{xi,yi}与用于对比学习训练的数据{xi,yi,yj}。这里,对于MLE的训练,模型将以xi作为输入,通过编码器网络得到向量表示,并将该向量表示用于解码器网络进行解码,最终得到目标摘要,模型的训练目标为使得生成yi的概率最大,具体的损失函数计算方法如公式(2)所示;而对于对比学习的训练,模型将xi,yi,yj均作为输入,通过编码器网络分别得到三者的向量表示,记为R(xi),R(yi),R(yj)。在此基础上通过公式(3)的计算得到对比学习的损失值。
作为示例,源文档xi为A集团发布2014年第四季度财报,并推出了免税方式剥离其持有的B集团15%股权的计划,打算将这一价值约400亿美元的宝贵投资分配给股东。截止发稿前,A集团股价上涨了大约7%,至51.45美元。目标摘要yi为A集团宣布剥离B集团股份,而随机选取的摘要yj为C集团预计2015年放贷额度远超30亿。这里,MLE的训练过程为输入源文档xi,分别通过编码器与解码器得到生成的摘要,根据公式(2)最大化yi的生成概率;对比学习的训练过程为输入xi,yi,yj,模型通过编码器得到xi,yi,yj的向量表示后,根据公式(3)得到对比学习损失函数。最终将将两部分损失相加作为最终模型训练的损失值。如此,将训练样本划分为正例样本(由源文档及其对应的目标摘要组成)与负例样本(由源文档及其非对应的目标摘要组成),通过学习正例与负例之间的差异,增强模型对不同摘要间的差异性的理解能力,进而提升模型的性能。
本申请实施例提供的文本摘要模型的训练方法通过提出的基于对比学习的文本摘要生成方法,相较于传统方法,具有更好的文本摘要提取效果。具体地,采用中文文本摘要公开数据集LCSTS对提出的方法进行效果验证,这里分别设计了传统序列到序列的文本摘要生成模型与引入对比学习的文本摘要生成模型进行实验,然后采用摘要领域通用的评价指标Rouge-1,Rouge-2,Rouge-L对结果进行评价。在相同的实验设置下,两种方法的实验结果如图12所示,图12是本申请实施例提供的传统文本摘要模型与本申请提供的文本摘要模型的效果对比图,基于图12,可以确定,本申请提出的基于对比学习的文本摘要生成方法与传统方法相比具有更好的效果。
下面继续说明本申请实施例提供的文本摘要模型的训练装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器440的文本摘要模型的训练装置455中的软件模块可以包括:
获取模块4551,用于获取包括多个训练样本的样本集合,其中,所述训练样本包括样本文本、所述样本文本对应的正样本摘要以及所述样本文本对应的负样本摘要;
编码模块4552,用于通过所述第一编码器,分别对所述训练样本中样本文本、所述正样本摘要及所述负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量;
解码模块4553,用于通过所述解码器,对所述第一样本文本向量进行解码,得到目标摘要;
确定模块4554,用于基于所述目标摘要以及所述正样本摘要,确定所述文本摘要模型的第一损失,并基于所述第一样本文本向量、所述正样本摘要向量以及所述负样本摘要向量,确定所述文本摘要模型的第二损失;
更新模块4555,用于结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数。
在一些实施例中,所述更新模块4555,还用于基于所述第一损失确定相应的第一误差信号,将所述第一误差信号在所述文本摘要模型中反向传播,并在传播过程中更新所述解码器及所述第一编码器的模型参数;基于所述第二损失确定相应的第二误差信号,将所述第二误差信号在所述文本摘要模型中反向传播,在传播过程中固定所述解码器的模型参数,并更新所述第一编码器的模型参数。
在一些实施例中,所述更新模块4555,还用于分别获取所述第一损失及所述第二损失对应的权重;基于所述第一损失及所述第二损失对应的权重,对所述第一损失及所述第二损失进行加权求和,得到目标损失;基于所述目标损失更新所述文本摘要模型的模型参数。
在一些实施例中,所述文本摘要模型还包括第二编码器,所述编码模块4552,还用于通过所述第二编码器,对所述样本文本进行编码,得到第二样本文本向量;分别获取所述第一编码器及所述第二编码器的权重;基于所述第一编码器及所述第二编码器的权重,对所述第一样本文本向量及所述第二样本文本向量进行加权求和,得到目标样本文本向量;所述解码模块,还用于通过所述解码器,对所述目标样本文本向量进行解码,得到目标摘要。
在一些实施例中,所述确定模块4554,还用于确定所述第一样本文本向量与所述正样本摘要向量的第一余弦相似度,并确定所述第一样本文本向量与所述负样本摘要向量的第二余弦相似度;获取所述正样本摘要与所述负样本摘要的相似度系数;其中,所述相似度系数用于所述正样本摘要与所述负样本摘要之前的相似度;基于所述第一余弦相似度、所述第二余弦相似度及获取的所述相似度系数,确定所述文本摘要模型的第二损失。
在一些实施例中,所述确定模块4554,还用于确定所述目标摘要以及所述正样本摘要之间的差异;基于所述差异,确定基于所述样本文本生成所述正样本摘要的概率;基于所述概率,确定所述文本摘要模型的第一损失。
在一些实施例中,所述装置还包括预训练模块,所述预训练模块用于获取包括多个预训练样本的预训练样本集合,其中,所述预训练样本包括预训练样本文本及相应的预训练样本摘要;通过所述第一编码器,对所述预训练样本文本进行编码,得到相应的预训练样本文本向量;通过所述解码器,对所述预训练样本文本向量进行解码,得到预测摘要;获取所述预测摘要与所述预训练样本摘要的差异,并基于所述差异,更新所述文本摘要模型的模型参数。
在一些实施例中,所述获取模块4551,还用于构建多个正例样本,所述正例样本包括:所述样本文本、所述样本文本对应的正样本摘要;针对每个所述正例样本,选取一个其他正例样本,将选取的其他正例样本的正样本摘要作为所述负样本摘要,与所述正例样本构成所述训练样本;获取多个所述正例样本对应的训练样本,得到所述样本集合。
在一些实施例中,所述装置还包括应用模块,所述应用模块用于通过所述第一编码器,对目标文本进行编码,得到相应的文本向量;通过所述解码器,对所述文本向量进行解码,得到所述目标文本对应的文本摘要。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的文本摘要模型的训练方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的文本摘要模型的训练方法,例如,如图3示出的文本摘要模型的训练方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例具有以下有益效果:
(1)通过学习正样本(即样本文本与正样本摘要)以及负样本(即样本文本与负样本摘要)之间的差异,增强文本摘要模型对不同摘要间的差异性的理解能力,使得文本摘要生成模型可以从训练样本中学习得到更好的文本表示,从而使得文本摘要模型具有更好的性能。
(2)通过使用注意力机制加权后的文本摘要模型,能充分利用第一样本文本向量、正样本摘要向量以及负样本摘要向量携带的信息,从而能够众多信息中选择出对当前任务目标更关键的信息,提高了文本摘要提取的准确性
(3)通过对网页数据进行数据清洗而自动生成包括多个训练样本的样本集合,因而大大提升了样本集合的生成效率,也降低了由人工设置而产生的人工成本。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (12)

1.一种文本摘要模型的训练方法,其特征在于,所述文本摘要模型包括第一编码器及解码器,所述方法包括:
获取包括多个训练样本的样本集合,其中,所述训练样本包括样本文本、所述样本文本对应的正样本摘要以及所述样本文本对应的负样本摘要;
通过所述第一编码器,分别对所述训练样本中样本文本、所述正样本摘要及所述负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量;
通过所述解码器,对所述第一样本文本向量进行解码,得到目标摘要;
基于所述目标摘要以及所述正样本摘要,确定所述文本摘要模型的第一损失,并基于所述第一样本文本向量、所述正样本摘要向量以及所述负样本摘要向量,确定所述文本摘要模型的第二损失;
结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数。
2.如权利要求1所述的方法,其特征在于,所述结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数,包括:
基于所述第一损失确定相应的第一误差信号,将所述第一误差信号在所述文本摘要模型中反向传播,并在传播过程中更新所述解码器及所述第一编码器的模型参数;
基于所述第二损失确定相应的第二误差信号,将所述第二误差信号在所述文本摘要模型中反向传播,在传播过程中固定所述解码器的模型参数,并更新所述第一编码器的模型参数。
3.如权利要求1所述的方法,其特征在于,所述结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数,包括:
分别获取所述第一损失及所述第二损失对应的权重;
基于所述第一损失及所述第二损失对应的权重,对所述第一损失及所述第二损失进行加权求和,得到目标损失;
基于所述目标损失更新所述文本摘要模型的模型参数。
4.如权利要求1所述的方法,其特征在于,所述文本摘要模型还包括第二编码器,所述方法还包括:
通过所述第二编码器,对所述样本文本进行编码,得到第二样本文本向量;
分别获取所述第一编码器及所述第二编码器的权重;
基于所述第一编码器及所述第二编码器的权重,对所述第一样本文本向量及所述第二样本文本向量进行加权求和,得到目标样本文本向量;
所述通过所述解码器,对所述第一样本文本向量进行解码,得到目标摘要,包括:
通过所述解码器,对所述目标样本文本向量进行解码,得到目标摘要。
5.如权利要求1所述的方法,其特征在于,所述基于所述第一样本文本向量、所述正样本摘要向量以及所述负样本摘要向量,确定所述文本摘要模型的第二损失,包括:
确定所述第一样本文本向量与所述正样本摘要向量的第一余弦相似度,并确定所述第一样本文本向量与所述负样本摘要向量的第二余弦相似度;
获取所述正样本摘要与所述负样本摘要的相似度系数;其中,所述相似度系数用于调整所述正样本摘要与所述负样本摘要之间的相似度;
基于所述第一余弦相似度、所述第二余弦相似度及获取的所述相似度系数,确定所述文本摘要模型的第二损失。
6.如权利要求1所述的方法,其特征在于,所述基于所述目标摘要以及所述正样本摘要,确定所述文本摘要模型的第一损失,包括:
确定所述目标摘要以及所述正样本摘要之间的差异;
基于所述差异,确定基于所述样本文本生成所述正样本摘要的概率;
基于所述概率,确定所述文本摘要模型的第一损失。
7.如权利要求1所述的方法,其特征在于,所述获取所述训练样本之前,所述方法还包括:
获取包括多个预训练样本的预训练样本集合,其中,所述预训练样本包括预训练样本文本及相应的预训练样本摘要;
通过所述第一编码器,对所述预训练样本文本进行编码,得到相应的预训练样本文本向量;
通过所述解码器,对所述预训练样本文本向量进行解码,得到预测摘要;
获取所述预测摘要与所述预训练样本摘要的差异,并基于所述差异,更新所述文本摘要模型的模型参数。
8.如权利要求1所述的方法,其特征在于,所述获取包括多个训练样本的样本集合,包括:
构建多个正例样本,所述正例样本包括:所述样本文本、所述样本文本对应的正样本摘要;
针对每个所述正例样本,选取一个其他正例样本,将选取的其他正例样本的正样本摘要作为所述负样本摘要,与所述正例样本构成所述训练样本;
获取多个所述正例样本对应的训练样本,得到所述样本集合。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述第一编码器,对目标文本进行编码,得到相应的文本向量;
通过所述解码器,对所述文本向量进行解码,得到所述目标文本对应的文本摘要。
10.一种文本摘要模型的训练装置,其特征在于,所述文本摘要模型包括第一编码器及解码器,所述装置包括:
获取模块,用于获取包括多个训练样本的样本集合,其中,所述训练样本包括样本文本、所述样本文本对应的正样本摘要以及所述样本文本对应的负样本摘要;
编码模块,用于通过所述第一编码器,分别对所述训练样本中样本文本、所述正样本摘要及所述负样本摘要进行编码,得到第一样本文本向量、正样本摘要向量以及负样本摘要向量;
解码模块,用于通过所述解码器,对所述第一样本文本向量进行解码,得到目标摘要;
确定模块,用于基于所述目标摘要以及所述正样本摘要,确定所述文本摘要模型的第一损失,并基于所述第一样本文本向量、所述正样本摘要向量以及所述负样本摘要向量,确定所述文本摘要模型的第二损失;
更新模块,用于结合所述第一损失以及所述第二损失更新所述文本摘要模型的模型参数。
11.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至9任一项所述的文本摘要模型的训练方法。
12.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1-9任一项所述的文本摘要模型的训练方法。
CN202111375730.6A 2021-11-19 2021-11-19 文本摘要模型的训练方法、装置、电子设备及存储介质 Pending CN114328814A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111375730.6A CN114328814A (zh) 2021-11-19 2021-11-19 文本摘要模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111375730.6A CN114328814A (zh) 2021-11-19 2021-11-19 文本摘要模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114328814A true CN114328814A (zh) 2022-04-12

Family

ID=81047316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111375730.6A Pending CN114328814A (zh) 2021-11-19 2021-11-19 文本摘要模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114328814A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647723A (zh) * 2022-04-18 2022-06-21 北京理工大学 一种基于预训练软提示的少样本摘要生成方法
CN115374884A (zh) * 2022-10-26 2022-11-22 北京智源人工智能研究院 基于对比学习的摘要生成模型的训练方法和摘要生成方法
CN115934933A (zh) * 2023-03-09 2023-04-07 合肥工业大学 基于双端对比学习的文本摘要生成方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114647723A (zh) * 2022-04-18 2022-06-21 北京理工大学 一种基于预训练软提示的少样本摘要生成方法
CN115374884A (zh) * 2022-10-26 2022-11-22 北京智源人工智能研究院 基于对比学习的摘要生成模型的训练方法和摘要生成方法
CN115934933A (zh) * 2023-03-09 2023-04-07 合肥工业大学 基于双端对比学习的文本摘要生成方法和系统

Similar Documents

Publication Publication Date Title
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
WO2021217935A1 (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
US11544474B2 (en) Generation of text from structured data
CN114328814A (zh) 文本摘要模型的训练方法、装置、电子设备及存储介质
CN114556328B (zh) 数据处理方法、装置、电子设备和存储介质
WO2023045605A9 (zh) 数据处理方法、装置、计算机设备及存储介质
WO2022052744A1 (zh) 会话信息处理方法、装置、计算机可读存储介质及设备
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
US20230230571A1 (en) Audio processing method and apparatus based on artificial intelligence, device, storage medium, and computer program product
US20240078385A1 (en) Method and apparatus for generating text
CN113704460A (zh) 一种文本分类方法、装置、电子设备和存储介质
CN112487151B (zh) 文案生成方法及装置、存储介质与电子设备
CN114625866A (zh) 训练摘要生成模型的方法、装置、设备及介质
CN112287069A (zh) 基于语音语义的信息检索方法、装置及计算机设备
JP2022145623A (ja) ヒント情報を提示する方法及び装置並びにコンピュータプログラム
CN111723207B (zh) 意图识别方法及系统
CN115221294A (zh) 对话处理方法、装置、电子设备及存储介质
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN117891930B (zh) 基于知识图谱增强大语言模型的图书知识问答方法
CN111382563A (zh) 文本相关性的确定方法及装置
CN112307738B (zh) 用于处理文本的方法和装置
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN111459959A (zh) 用于更新事件集合的方法和装置
CN114691836B (zh) 文本的情感倾向性分析方法、装置、设备及介质
CN112749553B (zh) 视频文件的文本信息处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination