CN115374884B - 基于对比学习的摘要生成模型的训练方法和摘要生成方法 - Google Patents

基于对比学习的摘要生成模型的训练方法和摘要生成方法 Download PDF

Info

Publication number
CN115374884B
CN115374884B CN202211319273.3A CN202211319273A CN115374884B CN 115374884 B CN115374884 B CN 115374884B CN 202211319273 A CN202211319273 A CN 202211319273A CN 115374884 B CN115374884 B CN 115374884B
Authority
CN
China
Prior art keywords
abstract
training
model
generation
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211319273.3A
Other languages
English (en)
Other versions
CN115374884A (zh
Inventor
岂凡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenyan Technology Co ltd
Original Assignee
Beijing Zhiyuan Artificial Intelligence Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhiyuan Artificial Intelligence Research Institute filed Critical Beijing Zhiyuan Artificial Intelligence Research Institute
Priority to CN202211319273.3A priority Critical patent/CN115374884B/zh
Publication of CN115374884A publication Critical patent/CN115374884A/zh
Application granted granted Critical
Publication of CN115374884B publication Critical patent/CN115374884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于对比学习的摘要生成模型的训练方法和摘要生成方法,属于自然语言处理技术领域。模型训练方法包括:获取训练样本集合;利用训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;利用初步优化的摘要生成模型和训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建正负例数据;利用正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型。通过从模型生成摘要和参考摘要中构建正负样例,并且综合考虑忠实性和概括性分数,使得构建的正负样例区分难度大,正样例同时具备忠实性和概括性。解决了现有技术中生成的摘要存在事实性错误、概括性不强的问题。

Description

基于对比学习的摘要生成模型的训练方法和摘要生成方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于对比学习的摘要生成模型的训练方法和摘要生成方法。
背景技术
大数据时代的到来使得信息数量增长持续加快,人类日常生产转换的数据量急剧增加,依赖人工的文本数据阅读、整理和写作使人们的工作负担越来越重,人们对于自动文本生成的需求与日俱增。随着人工智能技术的快速发展,特别是自然语言处理领域的相关技术日益成熟,利用计算机自动生成文本成为一种可能。摘要生成作为文本生成的一个子领域,应用极为广泛。
但因其生成的抽象式摘要容易出现事实性错误(即,生成的摘要中出现原文档中不存在的内容),目前仍是一个尚未解决的难题。
目前,一般利用深度神经网络,借助于当前自然语言处理领域通用的大规模预训练语言模型生成抽象式摘要。由于生成的抽象式摘要容易出现事实性错误(即,生成的摘要中出现原文档中不存在的内容),因此,越来越多的研究致力于生成高概括性且无事实性错误的摘要。
对于事实性错误,已有的研究多从两个方面着手解决。一是数据方面,通过数据增广的方式增强模型的能力。二是训练方法方面,通过引入对比学习的方法,在训练过程中构造正负训练样例的方式增加额外训练目标,从而减少模型生成摘要中的事实性错误。然而,因为一般构造负例的方式都是简单的对正例添加特定的噪声,例如删除、替换掉摘要中的一些实体部分等,这样虽然能减少模型出现事实性错误的概率,但也同时使得模型偏向于生成抽象式摘要,降低了模型的概括能力。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。
本发明第一方面提供了一种基于对比学习的摘要生成模型的训练方法,包括:
获取训练样本集合,所述训练样本包括文档及其对应参考摘要;
利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;
利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据;
利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型。
优选地,所述获取训练样本集合之后还包括:采用底层预训练模型的词符解析器对所述训练样本进行统一的词符化处理。
优选地,所述利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型包括:
所述训练样本集合为:
Figure 694348DEST_PATH_IMAGE001
其中,
Figure 345909DEST_PATH_IMAGE002
表示文档,包含
Figure 345220DEST_PATH_IMAGE003
个词符;
Figure 412533DEST_PATH_IMAGE004
表示参考摘要,包含
Figure 695747DEST_PATH_IMAGE005
个词符;
Figure 501898DEST_PATH_IMAGE006
表示训练样本的数量;
所述摘要生成模型
Figure 237773DEST_PATH_IMAGE007
为:
Figure 905514DEST_PATH_IMAGE008
其中,
Figure 43235DEST_PATH_IMAGE009
表示参考摘要
Figure 256172DEST_PATH_IMAGE010
的前
Figure 479343DEST_PATH_IMAGE011
个词符,即生成参考摘要
Figure 154038DEST_PATH_IMAGE010
的第
Figure 395533DEST_PATH_IMAGE012
个词符同时依赖文档
Figure 497481DEST_PATH_IMAGE013
和已经生成的前
Figure 473527DEST_PATH_IMAGE011
个词符,
Figure 968225DEST_PATH_IMAGE014
表示该摘要生成模型的初始参数集合;
使用MLE作为学习目标训练该摘要生成模型:
Figure 80537DEST_PATH_IMAGE015
其中,
Figure 353387DEST_PATH_IMAGE016
为摘要生成模型的初步优化的参数集合。
优选地,所述利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据包括:
利用所述初步优化的摘要生成模型将所述训练样本中的各个文档生成对应的摘要,并将各个摘要进行解码得到对应的多个生成摘要;
利用打分器对各个生成摘要和对应的训练样本中的参考摘要进行忠实性和抽取性的打分;
根据忠实性分数和抽取性分数生成用于对比学习的正负例数据。
优选地,所述将各个摘要进行解码得到对应的多个生成摘要包括:利用束搜索算法进行解码得到对应的多个生成摘要。
优选地,所述根据忠实性分数和抽取性分数生成用于对比学习的正负例数据包括:
Figure 269259DEST_PATH_IMAGE017
Figure 20177DEST_PATH_IMAGE018
Figure 940991DEST_PATH_IMAGE019
其中,
Figure 181479DEST_PATH_IMAGE020
表示正例,
Figure 522331DEST_PATH_IMAGE021
表示负例,
Figure 81533DEST_PATH_IMAGE022
表示生成摘要,
Figure 902858DEST_PATH_IMAGE023
表示参考摘要,
Figure 579827DEST_PATH_IMAGE024
表示生成摘要
Figure 939133DEST_PATH_IMAGE022
的忠实性分数,
Figure 828592DEST_PATH_IMAGE025
表示参考摘要
Figure 723998DEST_PATH_IMAGE023
的忠实性分数,
Figure 306289DEST_PATH_IMAGE012
表示生成摘要的序号,
Figure 700361DEST_PATH_IMAGE026
表示使用束搜索算法生成的摘要总数量,
Figure 393511DEST_PATH_IMAGE027
表示参考摘要
Figure 173117DEST_PATH_IMAGE023
的抽取性分数,
Figure 926309DEST_PATH_IMAGE028
表示生成摘要
Figure 542098DEST_PATH_IMAGE029
的抽取性分数,
Figure 38939DEST_PATH_IMAGE030
表示评价生成摘要
Figure 440095DEST_PATH_IMAGE029
和参考摘要
Figure 98610DEST_PATH_IMAGE023
的相似度函数,
Figure 264012DEST_PATH_IMAGE031
为预设的相似度分数阈值。
优选地,所述利用所述正负例数据和对应的文档,采用比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型,其中,训练目标
Figure 298964DEST_PATH_IMAGE032
为:
Figure 69474DEST_PATH_IMAGE033
Figure 148157DEST_PATH_IMAGE034
Figure 4118DEST_PATH_IMAGE035
Figure 842761DEST_PATH_IMAGE036
其中,
Figure 202198DEST_PATH_IMAGE013
表示文档;
Figure 218827DEST_PATH_IMAGE014
表示摘要生成模型的初始参数集合,
Figure 30925DEST_PATH_IMAGE016
表示摘要生成模型的初步优化的参数集合,训练开始前利用
Figure 125789DEST_PATH_IMAGE016
Figure 605312DEST_PATH_IMAGE014
进行初始化;
Figure 42109DEST_PATH_IMAGE037
表示MLE训练目标;
Figure 341503DEST_PATH_IMAGE039
表示控制MLE训练目标和对比学习目标比例的超参数;
Figure 272681DEST_PATH_IMAGE040
表示对比学习目标;
Figure 606711DEST_PATH_IMAGE041
Figure 214410DEST_PATH_IMAGE042
均表示长度归一估计的对数概率:
Figure 266679DEST_PATH_IMAGE043
表示长度归一化超参数。
本发明第二方面提供了一种基于对比学习的摘要生成方法,包括:
利用训练好的摘要生成模型将当前文档生成摘要;
所述训练好的摘要生成模型是采用如第一方面所述的摘要生成模型的训练方法训练得到的。
本发明第三方面提供了一种基于对比学习的摘要生成模型的训练装置,包括:
训练样本集合获取模块,用于获取训练样本集合,所述训练样本包括文档及其对应参考摘要;
初步训练模块,用于利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;
正负例数据生成模块,用于利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据;
对比学习训练模块,用于利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型。
本发明第四方面提供了一种存储器,存储有多条指令,所述指令用于实现如第一方面所述的摘要生成模型的训练方法和第二方面所述的摘要生成方法。
本发明第五方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如第一方面所述的摘要生成模型的训练方法和第二方面所述的摘要生成方法。
本发明的有益效果是:本发明提供的基于对比学习的摘要生成模型的训练方法和摘要生成方法,在利用对比学习方法减少摘要生成中事实性错误的同时,从模型生成摘要和参考摘要中构建正负样例,并且综合考虑忠实性和概括性分别对生成摘要和参考摘要进行评分,从而使得构建的正负样例区分难度大,正样例同时具备忠实性和概括性,进而提升模型的性能。本发明提供的方法能够高效地完成摘要生成任务,同时能够解决现有技术中生成的摘要存在事实性错误、概括性不强的问题。
附图说明
图1为本发明所述基于对比学习的摘要生成模型的训练方法流程示意图;
图2为本发明所述基于对比学习的摘要生成模型的训练装置功能模块示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
本发明提供的方法可以在如下的终端环境中实施,该终端可以包括一个或多个如下部件:处理器、存储器和显示屏。其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现下述实施例所述的方法。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个终端内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据。
存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory,ROM)。存储器可用于存储指令、程序、代码、代码集或指令。
显示屏用于显示各个应用程序的用户界面。
除此之外,本领域技术人员可以理解,上述终端的结构并不构成对终端的限定,终端可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,终端中还包括射频电路、输入单元、传感器、音频电路、电源等部件,在此不再赘述。
实施例一
如图1所示,本发明实施例提供了一种基于对比学习的摘要生成模型的训练方法,包括:
S101,获取训练样本集合,所述训练样本包括文档及其对应参考摘要;
S102,利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;
S103,利用所述初步优化的摘要生成模型和所述训练样本中的文档生成用于对比学习的正负例数据;
S104,利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型。
上述方法中,首先对摘要生成模型进行初步优化,得到初步优化的摘要生成模型,在该训练优化过程中,可以采用通常的训练方法,本实施例中,比如可以采用MLE(极大似然估计)作为学习目标对摘要生成模型进行初步优化;然后,引入对比学习目标对初步优化的摘要生成模型再次进行优化,而且,在对比学习过程中所利用的正负例数据,是利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建的。与现有对比学习方法相比,本发明提供的方法具有以下优势:
(1)不同于现有方法使用简单的对训练数据添加噪声从而构造负样本,本发明构造的负样本更加贴近模型输出,关注模型本身在生成过程中出现的事实性错误,增加了对比学习过程中模型区分正负样本的难度,从而提升模型性能;
(2)本发明因构造的负样本与正样本区分难度大,解决了一般对比学习方法中需要大量负样本的问题,仅需要少量负样本与正样本进行对比即可很好地提升模型性能,从而提升了训练效率。
本发明还可以扩展到其他形式的文本生成任务,具有很好的实用性和扩展性。
在步骤S101中,所述训练样本集合可以包括用于训练的训练集,以及验证集和测试集,样本数据由<文档,参考摘要>对组成。
在本发明的一个优选实施例中,获取训练样本集合之后还可以包括:采用底层预训练模型的词符解析器对所述训练样本进行统一的词符化处理。
执行步骤S102,利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型,其中,所述训练样本集合为:
Figure 781974DEST_PATH_IMAGE001
Figure 485357DEST_PATH_IMAGE002
表示文档,包含
Figure 263957DEST_PATH_IMAGE003
个词符;
Figure 803523DEST_PATH_IMAGE004
表示参考摘要,包含
Figure 325771DEST_PATH_IMAGE005
个词符;
Figure 588387DEST_PATH_IMAGE006
表示训练样本的数量;
所述摘要生成模型
Figure 537889DEST_PATH_IMAGE007
为:
Figure 299172DEST_PATH_IMAGE008
其中,
Figure 874378DEST_PATH_IMAGE009
表示参考摘要
Figure 834244DEST_PATH_IMAGE010
的前
Figure 954647DEST_PATH_IMAGE011
个词符,即生成参考摘要
Figure 468805DEST_PATH_IMAGE010
的第
Figure 332855DEST_PATH_IMAGE012
个词符同时依赖文档
Figure 304485DEST_PATH_IMAGE013
和已经生成的前
Figure 313898DEST_PATH_IMAGE011
个词符,
Figure 721877DEST_PATH_IMAGE014
表示该摘要生成模型的初始参数集合;
使用MLE作为学习目标训练该摘要生成模型:
Figure 140351DEST_PATH_IMAGE015
其中,
Figure 12492DEST_PATH_IMAGE016
为摘要生成模型的初步优化的参数集合。
执行步骤S103,所述利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据包括:
利用所述初步优化的摘要生成模型将所述训练样本中的各个文档生成对应的摘要:
Figure 740276DEST_PATH_IMAGE044
,并将各个摘要利用束搜索算法进行解码得到对应的多个生成摘要;即对于每一个文档
Figure 963447DEST_PATH_IMAGE013
可以得到
Figure 418568DEST_PATH_IMAGE026
个不同的生成摘要,可以使用
Figure 207533DEST_PATH_IMAGE045
表示;
利用打分器对各个生成摘要和对应的训练样本中的参考摘要进行忠实性和抽取性的打分;本发明的目的是生成高概括性且无事实性错误的摘要,因此,采用两个打分器分别进行忠实性和抽取性两个方面的打分,从而得到各个生成摘要的忠实性得分和抽取性得分,以及对应参考摘要的忠实性得分和抽取性得分;
最后,根据忠实性分数和抽取性分数生成用于对比学习的正负例数据,具体可以包括:
Figure 106219DEST_PATH_IMAGE017
Figure 551107DEST_PATH_IMAGE018
Figure 295072DEST_PATH_IMAGE019
其中,
Figure 435414DEST_PATH_IMAGE020
表示正例,
Figure 239422DEST_PATH_IMAGE021
表示负例,
Figure 171606DEST_PATH_IMAGE022
表示生成摘要,
Figure 719262DEST_PATH_IMAGE023
表示参考摘要,
Figure 200928DEST_PATH_IMAGE024
表示生成摘要
Figure 910258DEST_PATH_IMAGE022
的忠实性分数,
Figure 595317DEST_PATH_IMAGE025
表示参考摘要
Figure 946664DEST_PATH_IMAGE023
的忠实性分数,
Figure 518722DEST_PATH_IMAGE012
表示生成摘要的序号,
Figure 726850DEST_PATH_IMAGE026
表示使用束搜索算法生成的摘要总数量,
Figure 633626DEST_PATH_IMAGE027
表示参考摘要
Figure 523084DEST_PATH_IMAGE023
的抽取性分数,
Figure 464496DEST_PATH_IMAGE028
表示生成摘要
Figure 657840DEST_PATH_IMAGE029
的抽取性分数,
Figure 51912DEST_PATH_IMAGE030
表示评价生成摘要
Figure 745062DEST_PATH_IMAGE029
和参考摘要
Figure 540980DEST_PATH_IMAGE023
的相似度函数,
Figure 543440DEST_PATH_IMAGE031
为预设的相似度分数阈值。
本发明在构造正例样本时没有武断地认为参考摘要绝对优于模型生成摘要,而是采用多种打分标准综合衡量的方式,从生成摘要和参考摘要中挑选既具忠实性又具概括性的最优摘要,一定程度上缓解了原始训练数据中存在事实性错误的问题。
执行步骤S104,利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型,其中,训练目标
Figure 424808DEST_PATH_IMAGE032
为:
Figure 452807DEST_PATH_IMAGE033
Figure 103231DEST_PATH_IMAGE034
Figure 981319DEST_PATH_IMAGE035
Figure 349984DEST_PATH_IMAGE036
其中,
Figure 384936DEST_PATH_IMAGE013
表示文档;
Figure 889867DEST_PATH_IMAGE014
表示摘要生成模型的初始参数集合,
Figure 499708DEST_PATH_IMAGE016
表示摘要生成模型的初步优化的参数集合,训练开始前利用
Figure 558931DEST_PATH_IMAGE016
Figure 928733DEST_PATH_IMAGE014
进行初始化;
Figure 553749DEST_PATH_IMAGE037
表示MLE训练目标;
Figure 39219DEST_PATH_IMAGE039
表示控制MLE训练目标和对比学习目标比例的超参数;
Figure 116897DEST_PATH_IMAGE040
表示对比学习目标;
Figure 493651DEST_PATH_IMAGE041
Figure 317382DEST_PATH_IMAGE042
均表示长度归一估计的对数概率:
Figure 488600DEST_PATH_IMAGE043
表示长度归一化超参数。
实施例二
本发明实施例提供了一种基于对比学习的摘要生成方法,包括:
利用训练好的摘要生成模型将当前文档生成摘要;
所述训练好的摘要生成模型是采用如实施例一所述的摘要生成模型的训练方法训练得到的。
使用训练好的摘要生成模型根据输入的当前文档生成对应摘要,具体可以为:
Figure 771683DEST_PATH_IMAGE046
其中,
Figure 889812DEST_PATH_IMAGE047
表示训练好的摘要生成模型的参数集合。
在本发明的一个优选实施例中,生成摘要之后还可以包括:将生成的摘要进行后处理,比如反词符化、恢复大小写、去除冗余词语或片段等。
实施例三
如图2所示本发明实施例还提供了一种基于对比学习的摘要生成模型的训练装置,包括:
训练样本集合获取模块201,用于获取训练样本集合,所述训练样本包括文档及其对应参考摘要;
初步训练模块202,用于利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;
正负例数据生成模块203,用于利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据;
对比学习训练模块204,用于利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型。
其中,在训练样本集合获取模块中,所述获取训练样本集合之后还可以包括:采用底层预训练模型的词符解析器对所述训练样本进行统一的词符化处理。
进一步地,在所述初步训练模块中,所述训练样本集合为:
Figure 505732DEST_PATH_IMAGE001
其中,
Figure 113431DEST_PATH_IMAGE002
表示文档,包含
Figure 165700DEST_PATH_IMAGE003
个词符;
Figure 884258DEST_PATH_IMAGE004
表示参考摘要,包含
Figure 587640DEST_PATH_IMAGE005
个词符;
Figure 366241DEST_PATH_IMAGE006
表示训练样本的数量;
所述摘要生成模型
Figure 905806DEST_PATH_IMAGE007
为:
Figure 428055DEST_PATH_IMAGE008
其中,
Figure 487409DEST_PATH_IMAGE009
表示参考摘要
Figure 171331DEST_PATH_IMAGE010
的前
Figure 932613DEST_PATH_IMAGE011
个词符,即生成参考摘要
Figure 258553DEST_PATH_IMAGE010
的第
Figure 218418DEST_PATH_IMAGE012
个词符同时依赖文档
Figure 588089DEST_PATH_IMAGE013
和已经生成的前
Figure 102247DEST_PATH_IMAGE011
个词符,
Figure 966297DEST_PATH_IMAGE014
表示该摘要生成模型的初始参数集合;
使用MLE作为学习目标训练该摘要生成模型:
Figure 718353DEST_PATH_IMAGE015
其中,
Figure 291548DEST_PATH_IMAGE016
为摘要生成模型的初步优化的参数集合。
进一步地,所述正负例数据生成模块具体用于:
利用所述初步优化的摘要生成模型将所述训练样本中的各个文档生成对应的摘要,并将各个摘要进行解码得到对应的多个生成摘要;
利用打分器对各个生成摘要和对应的训练样本中的参考摘要进行忠实性和抽取性的打分;
根据忠实性分数和抽取性分数生成用于对比学习的正负例数据。
其中,所述将各个摘要进行解码得到对应的多个生成摘要包括:利用束搜索算法进行解码得到对应的多个生成摘要。
所述根据忠实性分数和抽取性分数生成用于对比学习的正负例数据包括:
Figure 27422DEST_PATH_IMAGE017
Figure 429585DEST_PATH_IMAGE018
Figure 567305DEST_PATH_IMAGE019
其中,
Figure 278778DEST_PATH_IMAGE020
表示正例,
Figure 236370DEST_PATH_IMAGE021
表示负例,
Figure 707803DEST_PATH_IMAGE022
表示生成摘要,
Figure 700029DEST_PATH_IMAGE023
表示参考摘要,
Figure 129874DEST_PATH_IMAGE024
表示生成摘要
Figure 415292DEST_PATH_IMAGE022
的忠实性分数,
Figure 424836DEST_PATH_IMAGE025
表示参考摘要
Figure 271569DEST_PATH_IMAGE023
的忠实性分数,
Figure 75577DEST_PATH_IMAGE012
表示生成摘要的序号,
Figure 257029DEST_PATH_IMAGE026
表示使用束搜索算法生成的摘要总数量,
Figure 70264DEST_PATH_IMAGE027
表示参考摘要
Figure 37083DEST_PATH_IMAGE023
的抽取性分数,
Figure 808730DEST_PATH_IMAGE028
表示生成摘要
Figure 493789DEST_PATH_IMAGE029
的抽取性分数,
Figure 595869DEST_PATH_IMAGE030
表示评价生成摘要
Figure 151615DEST_PATH_IMAGE029
和参考摘要
Figure 297425DEST_PATH_IMAGE023
的相似度函数,
Figure 204202DEST_PATH_IMAGE031
为预设的相似度分数阈值。
进一步地,在对比学习训练模块中,训练目标
Figure 608507DEST_PATH_IMAGE032
为:
Figure 81077DEST_PATH_IMAGE033
Figure 663368DEST_PATH_IMAGE034
Figure 57440DEST_PATH_IMAGE035
Figure 750589DEST_PATH_IMAGE036
其中,
Figure 31660DEST_PATH_IMAGE013
表示文档;
Figure 784853DEST_PATH_IMAGE014
表示摘要生成模型的初始参数集合,
Figure 400642DEST_PATH_IMAGE016
表示摘要生成模型的初步优化的参数集合,训练开始前利用
Figure 694220DEST_PATH_IMAGE016
Figure 344644DEST_PATH_IMAGE014
进行初始化;
Figure 518005DEST_PATH_IMAGE037
表示MLE训练目标;
Figure 886670DEST_PATH_IMAGE039
表示控制MLE训练目标和对比学习目标比例的超参数;
Figure 921622DEST_PATH_IMAGE040
表示对比学习目标;
Figure 160973DEST_PATH_IMAGE041
Figure 6701DEST_PATH_IMAGE042
均表示长度归一估计的对数概率:
Figure 597082DEST_PATH_IMAGE043
表示长度归一化超参数。
该装置可通过上述实施例一提供的基于对比学习的摘要生成模型的训练方法实现,具体的实现方法可参见实施例一中的描述,在此不再赘述。
本发明还提供了一种存储器,存储有多条指令,所述指令用于实现如实施例一所述的摘要生成模型的训练方法和实施例二所述的摘要生成方法。
本发明还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如实施例一所述的摘要生成模型的训练方法和实施例二所述的摘要生成方法。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于对比学习的摘要生成模型的训练方法,其特征在于,包括:
获取训练样本集合,所述训练样本包括文档及其对应参考摘要;
利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;
利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据;
利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型;
其中,所述利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据包括:
利用所述初步优化的摘要生成模型将所述训练样本中的各个文档生成对应的摘要,并将各个摘要进行解码得到对应的多个生成摘要;
利用打分器对各个生成摘要和对应的训练样本中的参考摘要进行忠实性和抽取性的打分;
根据忠实性分数和抽取性分数生成用于对比学习的正负例数据,包括:
Figure 109691DEST_PATH_IMAGE001
Figure 160823DEST_PATH_IMAGE002
Figure 86054DEST_PATH_IMAGE003
其中,
Figure 248045DEST_PATH_IMAGE004
表示正例,
Figure 512804DEST_PATH_IMAGE005
表示负例,
Figure 469259DEST_PATH_IMAGE006
表示生成摘要,
Figure 881786DEST_PATH_IMAGE007
表示参考摘要,
Figure 847468DEST_PATH_IMAGE008
表示生成摘要
Figure 966733DEST_PATH_IMAGE006
的忠实性分数,
Figure 359669DEST_PATH_IMAGE009
表示参考摘要
Figure 993912DEST_PATH_IMAGE007
的忠实性分数,
Figure 497706DEST_PATH_IMAGE010
表示生成摘要的序号,
Figure 737057DEST_PATH_IMAGE011
表示使用束搜索算法生成的摘要总数量,
Figure 363211DEST_PATH_IMAGE012
表示参考摘要
Figure 422434DEST_PATH_IMAGE007
的抽取性分数,
Figure 729918DEST_PATH_IMAGE013
表示生成摘要
Figure 823776DEST_PATH_IMAGE014
的抽取性分数,
Figure 620831DEST_PATH_IMAGE015
表示评价生成摘要
Figure 167350DEST_PATH_IMAGE014
和参考摘要
Figure 12946DEST_PATH_IMAGE007
的相似度函数,
Figure 961311DEST_PATH_IMAGE016
为预设的相似度分数阈值。
2.如权利要求1所述的基于对比学习的摘要生成模型的训练方法,其特征在于,所述获取训练样本集合之后还包括:采用底层预训练模型的词符解析器对所述训练样本进行统一的词符化处理。
3.如权利要求1所述的基于对比学习的摘要生成模型的训练方法,其特征在于,所述利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型包括:
所述训练样本集合为:
Figure 929267DEST_PATH_IMAGE017
其中,
Figure 963082DEST_PATH_IMAGE018
表示文档,包含
Figure 612369DEST_PATH_IMAGE019
个词符;
Figure 477557DEST_PATH_IMAGE020
表示参考摘要,包含
Figure 554097DEST_PATH_IMAGE021
个词符;
Figure 75208DEST_PATH_IMAGE022
表示训练样本的数量;
所述摘要生成模型
Figure 528186DEST_PATH_IMAGE023
为:
Figure 247881DEST_PATH_IMAGE024
其中,
Figure 483604DEST_PATH_IMAGE025
表示参考摘要
Figure 492011DEST_PATH_IMAGE026
的前
Figure 545418DEST_PATH_IMAGE027
个词符,即生成参考摘要
Figure 322881DEST_PATH_IMAGE026
的第
Figure 741224DEST_PATH_IMAGE028
个词符同时依赖文档
Figure 236927DEST_PATH_IMAGE029
和已经生成的前
Figure 828445DEST_PATH_IMAGE030
个词符,
Figure 460415DEST_PATH_IMAGE031
表示该摘要生成模型的初始参数集合;
使用MLE作为学习目标训练该摘要生成模型:
Figure 315239DEST_PATH_IMAGE032
其中,
Figure 94976DEST_PATH_IMAGE033
为摘要生成模型的初步优化的参数集合。
4.如权利要求1所述的基于对比学习的摘要生成模型的训练方法,其特征在于,所述将各个摘要进行解码得到对应的多个生成摘要包括:利用束搜索算法进行解码得到对应的多个生成摘要。
5.如权利要求1所述的基于对比学习的摘要生成模型的训练方法,其特征在于,所述利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型,其中,训练目标
Figure 427868DEST_PATH_IMAGE034
为:
Figure 179923DEST_PATH_IMAGE035
Figure 2386DEST_PATH_IMAGE036
Figure 207102DEST_PATH_IMAGE037
Figure 343686DEST_PATH_IMAGE038
其中,
Figure 950247DEST_PATH_IMAGE029
表示文档;
Figure 943611DEST_PATH_IMAGE039
表示摘要生成模型的初始参数集合,
Figure 635624DEST_PATH_IMAGE033
表示摘要生成模型的初步优化的参数集合,训练开始前利用
Figure 310319DEST_PATH_IMAGE033
Figure 771387DEST_PATH_IMAGE039
进行初始化;
Figure 201231DEST_PATH_IMAGE040
表示MLE训练目标;
Figure 380540DEST_PATH_IMAGE041
表示控制MLE训练目标和对比学习目标比例的超参数;
Figure 593347DEST_PATH_IMAGE042
表示对比学习目标;
Figure 236818DEST_PATH_IMAGE043
Figure 509667DEST_PATH_IMAGE044
均表示长度归一估计的对数概率:
Figure 176272DEST_PATH_IMAGE045
表示长度归一化超参数。
6.一种基于对比学习的摘要生成方法,其特征在于,包括:
利用训练好的摘要生成模型将当前文档生成摘要;
所述训练好的摘要生成模型是采用如权利要求1-5任一项所述的基于对比学习的摘要生成模型的训练方法训练得到的。
7.一种用于实现如权利要求1所述的基于对比学习的摘要生成模型的训练方法的基于对比学习的摘要生成模型的训练装置,其特征在于,包括:
训练样本集合获取模块,用于获取训练样本集合,所述训练样本包括文档及其对应参考摘要;
初步训练模块,用于利用所述训练样本集合训练摘要生成模型,得到初步优化的摘要生成模型;
正负例数据生成模块,用于利用所述初步优化的摘要生成模型和所述训练样本中的文档得到生成摘要,并利用生成摘要和参考摘要构建用于对比学习的正负例数据;
对比学习训练模块,用于利用所述正负例数据和对应的文档,采用对比学习方法对初步优化的摘要生成模型进行训练,得到训练好的摘要生成模型。
8.一种存储器,其特征在于,存储有多条指令,所述指令用于实现如权利要求1-5任一项所述的基于对比学习的摘要生成模型的训练方法和权利要求6所述的基于对比学习的摘要生成方法。
9.一种电子设备,其特征在于,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行如权利要求1-5任一项所述的基于对比学习的摘要生成模型的训练方法和权利要求6所述的基于对比学习的摘要生成方法。
CN202211319273.3A 2022-10-26 2022-10-26 基于对比学习的摘要生成模型的训练方法和摘要生成方法 Active CN115374884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211319273.3A CN115374884B (zh) 2022-10-26 2022-10-26 基于对比学习的摘要生成模型的训练方法和摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211319273.3A CN115374884B (zh) 2022-10-26 2022-10-26 基于对比学习的摘要生成模型的训练方法和摘要生成方法

Publications (2)

Publication Number Publication Date
CN115374884A CN115374884A (zh) 2022-11-22
CN115374884B true CN115374884B (zh) 2023-01-31

Family

ID=84072786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211319273.3A Active CN115374884B (zh) 2022-10-26 2022-10-26 基于对比学习的摘要生成模型的训练方法和摘要生成方法

Country Status (1)

Country Link
CN (1) CN115374884B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885683B (zh) * 2019-01-29 2022-12-02 桂林远望智能通信科技有限公司 一种基于K-means模型和神经网络模型的生成文本摘要的方法
CN112287096A (zh) * 2019-07-24 2021-01-29 阿里巴巴集团控股有限公司 一种文档摘要的生成方法、装置及电子设备
CN111666402B (zh) * 2020-04-30 2024-05-28 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN111831814B (zh) * 2020-06-04 2023-06-23 北京百度网讯科技有限公司 摘要生成模型的预训练方法、装置、电子设备和存储介质
US11455146B2 (en) * 2020-06-22 2022-09-27 Bank Of America Corporation Generating a pseudo-code from a text summarization based on a convolutional neural network
CN111859911B (zh) * 2020-07-28 2023-07-25 中国平安人寿保险股份有限公司 图像描述文本生成方法、装置、计算机设备及存储介质
CN113158665B (zh) * 2021-04-02 2022-12-09 西安交通大学 一种基于文本摘要生成与双向语料改善对话文本生成的方法
CN113408272B (zh) * 2021-06-30 2023-08-18 北京百度网讯科技有限公司 摘要生成模型的训练方法、装置、设备和存储介质
CN114328814A (zh) * 2021-11-19 2022-04-12 腾讯科技(深圳)有限公司 文本摘要模型的训练方法、装置、电子设备及存储介质
CN114595684A (zh) * 2022-02-11 2022-06-07 北京三快在线科技有限公司 一种摘要生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115374884A (zh) 2022-11-22

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
Logeswaran et al. Sentence ordering and coherence modeling using recurrent neural networks
US10504010B2 (en) Systems and methods for fast novel visual concept learning from sentence descriptions of images
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112036184A (zh) 基于BiLSTM网络模型及CRF模型的实体识别方法、装置、计算机装置及存储介质
CN112364125B (zh) 一种联合阅读课程学习机制的文本信息抽取系统及方法
CN117290694B (zh) 问答系统评估方法、装置、计算设备及存储介质
CN115048944A (zh) 一种基于主题增强的开放域对话回复方法及系统
CN111753535A (zh) 一种专利申请文本的生成方法和装置
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN112989803B (zh) 一种基于主题向量学习的实体链接预测方法
CN112395858B (zh) 融合试题数据和解答数据的多知识点标注方法和系统
CN111143515B (zh) 文本匹配方法及装置
CN113705207A (zh) 语法错误识别方法及装置
CN117077679A (zh) 命名实体识别方法和装置
CN115374884B (zh) 基于对比学习的摘要生成模型的训练方法和摘要生成方法
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
CN113177406B (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN115455949A (zh) 中文语法纠错方法及系统、存储介质及终端
CN115713082A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN112560431A (zh) 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品
CN112487184A (zh) 用户性格判定方法、装置、存储器和电子设备
CN112784015A (zh) 信息识别方法和装置、设备、介质和程序
CN111737440B (zh) 一种问题生成方法及装置
CN113657097B (zh) 一种摘要事实一致性的评估验证方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230720

Address after: No. 210, 2nd Floor, No. 150, Chengfu Road, Haidian District, Beijing 100084

Patentee after: Beijing Shenyan Technology Co.,Ltd.

Address before: 100084 b201d-1, 3rd floor, building 8, yard 1, Zhongguancun East Road, Haidian District, Beijing

Patentee before: Beijing Zhiyuan Artificial Intelligence Research Institute