CN115600586A - 摘要文本生成方法、计算设备及存储介质 - Google Patents

摘要文本生成方法、计算设备及存储介质 Download PDF

Info

Publication number
CN115600586A
CN115600586A CN202211611181.2A CN202211611181A CN115600586A CN 115600586 A CN115600586 A CN 115600586A CN 202211611181 A CN202211611181 A CN 202211611181A CN 115600586 A CN115600586 A CN 115600586A
Authority
CN
China
Prior art keywords
text
abstract
prediction
target
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211611181.2A
Other languages
English (en)
Other versions
CN115600586B (zh
Inventor
谢悦湘
董晨鹤
李雅亮
丁博麟
沈颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202211611181.2A priority Critical patent/CN115600586B/zh
Publication of CN115600586A publication Critical patent/CN115600586A/zh
Application granted granted Critical
Publication of CN115600586B publication Critical patent/CN115600586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本说明书实施例提供摘要文本生成方法、计算设备及存储介质,该方法包括:获取目标文本;对目标文本执行摘要词预测任务,确定目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;对目标文本执行影响词预测任务,确定目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,影响词为经过因果分析确定的对摘要文本生成结果具有影响的词类型;针对目标文本对应的待生成摘要文本中的任一位置,根据任一位置的第一预测概率与第二预测概率,确定任一位置对应的目标摘要词;基于目标摘要词,生成目标文本对应的待生成摘要文本。基于第一预测概率与第二预测概率进行摘要预测,可提高摘要词的预测概率,从而使生成的摘要文本更准确。

Description

摘要文本生成方法、计算设备及存储介质
技术领域
本说明书实施例涉及计算机技术领域,特别涉及摘要文本生成方法。
背景技术
近年来,生成式的文本摘要方法在生成流畅和多样化摘要方面取得了很大进展。然而,生成的摘要中通常包含与源文档不一致的内容,即存在事实不一致的问题。这种事实不一致的问题可能会误导公众,甚至产生不必要的法律和道德风险,大大限制了生成式文本摘要的实际应用。亟需一种更好的方案。
发明内容
有鉴于此,本说明书实施例提供了两种摘要文本生成方法。本说明书一个或者多个实施例同时涉及一种模型训练方法,一种摘要文本生成装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种摘要文本生成方法,包括:
获取目标文本;
对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
基于所述目标摘要词,生成所述目标文本对应的摘要文本。
根据本说明书实施例的第二方面,提供了一种摘要文本生成方法,包括:
接收前端上传的目标文本;
对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
基于所述目标摘要词,生成所述目标文本对应的摘要文本,将所述摘要文本发送至所述前端。
根据本说明书实施例的第三方面,提供了一种模型训练方法,包括:
获取目标文本;
对所述目标文本的摘要相关词添加摘要标记,以及对所述目标文本的影响相关词添加影响标记,得到文本标签样本,其中,所述影响相关词为所述目标文本中除所述摘要相关词以外的词;
基于所述文本标签样本对所述第二摘要文本预测模型进行训练,并将训练后的第二摘要文本预测模型的模型参数发送至端侧设备。
根据本说明书实施例的第四方面,提供了一种摘要文本生成装置,包括:
文本获取模块,被配置为获取目标文本;
第一任务模块,被配置为对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
第二任务模块,被配置为对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
摘要确定模块,被配置为针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
摘要生成模块,被配置为基于所述目标摘要词,生成所述目标文本对应的摘要文本。
根据本说明书实施例的第五方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述摘要文本生成方法的步骤。
根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述摘要文本生成方法的步骤。
根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述摘要文本生成方法的步骤。
本说明书实施例提供摘要文本生成方法、计算设备及存储介质,其中所述摘要文本生成方法包括:获取目标文本;对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;基于所述目标摘要词,生成所述目标文本对应的摘要文本。通过对目标文本执行分别执行摘要词预测任务和影响词预测任务,从而得到目标文本对应的待生成摘要文本中,各位置上关注摘要词的第一预测概率和关注影响词第二预测概率,并基于第一预测概率与第二预测概率的差值确定摘要词,可以提高摘要词的预测概率,从而使得生成的摘要文本更加准确。
附图说明
图1是本说明书一个实施例提供的一种摘要文本生成方法的应用示意图;
图2是本说明书一个实施例提供的一种摘要文本生成方法的流程图;
图3是本说明书一个实施例提供的一种摘要文本生成方法的因果图的示意图;
图4是本说明书一个实施例提供的一种摘要文本生成方法的因果图的另一示意图;
图5是本说明书一个实施例提供的一种摘要文本生成方法的处理过程流程图;
图6是本说明书一个实施例提供的一种模型训练方法的处理过程流程图;
图7是本说明书一个实施例提供的一种摘要文本生成装置的结构示意图;
图8是本说明书一个实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
摘要:指从一大段文档(即源文档)中生成能概括文章核心内容的总结语句。文本摘要应做到简洁,同时应准确地包含源文档的核心内容。
因果推理:是在一个较大系统内部确定指定现象(因)的实际、独立效果(果)的过程。
对于生成式文本摘要方法,其生成的内容主要受到两个因素的影响:(1)机器学习模型预训练阶段所引入的语言知识;(2)输入的源文档中包含的内容信息,这两个因素都有助于生成流畅、完整、有信息量的摘要。然而,这两个因素也会带来语言知识上的偏差(Language Bias)和冗余信息上的偏差(Redundancy Bias),从而导致事实不一致的问题。语言先验知识是在预训练过程中从大量语料库中学习的,一方面,它有助于文本摘要模型生成流畅的文本;另一方面,由于不可避免地引入虚假的语言关联,它会导致模型产生错误的理解。例如,生成摘要中会包括很多当前源文档中不存在但在其他预训练语料中存在的人物或事件的关系信息,这些关系信息的时效性可能是与当前源文档相冲突的。此外,由于源文档通常非常长,冗余信息(例如,不匹配的实体和不相关的词语)也是产生事实不一致现象不可忽视的原因,会导致生成混乱的摘要。例如,生成摘要中出现主语指代错误的问题,将某一人物与不相关的事件联系起来。
基于上述对于事实不一致问题形成原因的分析,可以采用因果推理的技术,通过去除偏差的方式确保生成摘要的事实一致性。
基于此,在本说明书中,提供了摘要文本生成方法,本说明书同时涉及摘要文本生成装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了根据本说明书一个实施例提供的一种摘要文本生成方法的应用示意图。
某公司在线上举行会议,在进行会议的过程中,会议的语音会被录制下来,那么可以针对被录制下来的语音进行文字转换,并将转换后的文字内容进行摘要生成。
将文字内容输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的文字内容对应的待生成摘要文本中,各位置的摘要词的第一预测概率。并将文字内容输入预先训练好的第二摘要文本预测模型,得到第二摘要文本预测模型输出的文字内容对应的待生成摘要文本中,各位置的摘要词的第二预测概率。针对目标文本对应的待生成摘要文本中的任一位置,根据任一位置的第一预测概率与第二预测概率的差值,确定任一位置对应的目标摘要词。在确定目标摘要词之后,即可根据目标摘要词生成摘要文本。
本说明书实施例通过对目标文本执行分别执行摘要词预测任务和影响词预测任务,从而得到目标文本对应的待生成摘要文本中,各位置上关注摘要词的第一预测概率和关注影响词第二预测概率,并基于第一预测概率与第二预测概率的差值确定摘要词,可以提高摘要词的预测概率,从而使得生成的摘要文本更加准确。
参见图2,图2示出了根据本说明书一个实施例提供的一种摘要文本生成方法的流程图,具体包括以下步骤。
步骤202:获取目标文本。
其中,所述目标文本可以为新闻、论文和一段话等类型的文本,目标文本的形式可以为可识别的电子文本格式,且本说明书实施例对目标文本的语种不进行限定,可以为中文,英语和法语等语言。例如,目标文本可以为中文的新闻稿,且是计算机可以识别文本格式。
在实际应用中,在新闻和学术等场景下,面对冗长的文章,很难使阅读者快速地抓住文章的重点,那么就需要阅读摘要以更快速地抓住文章的重点,所以对一片文章自动生成摘要成为了需求,如果要对对一片文章自动生成摘要,那么需要先将该文章输入对应的模型,即获取目标文本。
例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。
本说明书实施例通过获取目标文本,从而可以进行后续的摘要生成,实现自动生成摘要,提高了效率。
步骤204:对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率。
其中,摘要词预测任务可以为基于目标文本,对文本中摘要词进行预测的任务。例如,使用预先训练好的摘要提取模型,对目标文本中的摘要词进行提取。
在实际应用中,可以使用训练好的模型进行摘要词的预测,在这个过程中,模型中的语言先验知识、源文档的重要信息和冗余信息会对预测结果造成不同的影响,为了展示语言先验知识、源文档的重要信息和冗余信息在生成式文本摘要中的因果关系,可以建立连接的语言先验知识、源文档的重要信息和冗余信息、以及生成的摘要之间因果图。参见图3,图3示出了一种因果图的示意图,因果图由五个变量组成:源文档X、重要信息U、冗余信息R、语言先验P和生成的摘要Y,基于因果图,可以利用去除偏差框架,以评估并降低语言知识上的偏差和冗余信息上的偏差对生成摘要的影响。具体地,参见图4,图4示出了一种因果图的另一示意图,可以先进行一次正常的摘要概率预测得到第一预测概率,然后通过去除冗余信息和语言先验知识对摘要概率预测的影响,从而提高重要信息的影响程度。
例如,目标文本为新闻文档,基于新闻文档执行摘要词预测任务,确定新闻文档对应的待生成摘要中各个位置对应的候选单词表中的概率。
本说明书实施例通过基于目标文本,对文本中摘要词进行预测的任务,得到第一预测概率,从而可以使在后续的步骤中,去除冗余信息和语言先验知识对摘要概率预测的影响,从而提高预测的准确性。
具体的,可以利用预先训练好的模型执行摘要词预测的任务,具体实现方式如下所述。
在一种可实现的方式中,所述对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率,包括:
将所述目标文本输入第一摘要文本预测模型,执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率。
其中,第一摘要文本预测模型可以为可以进行摘要词预测的模型,例如,训练好的transformer模型。摘要词预测任务可以理解为基于模型对目标文档进行摘要词预测的任务。
在实际应用中,可以使用预先训练好的模型,对目标文档进行一次摘要词的概率预测,从而确定第一预测概率。
例如,目标文本为新闻文档,将新闻文档输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第一预测概率。
本说明书实施例将因果推理的思想引入文本摘要,通过进行初始的摘要预测,以使后续步骤实现通过消除语言知识上的偏差和冗余信息的偏差,确保生成的摘要的事实一致性。
步骤206:对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型。
其中,影响词预测任务可以为关注目标文本中,语言先验知识和源文档的冗余信息进行预测的任务。相应地,影响词可以为上述实施例中的语言先验知识和源文档的冗余信息。
在实际应用中,可以通过在预测的过程中提高对语言先验知识和源文档的冗余信息的关注程度,从而提高语言先验知识和源文档的冗余信息的对摘要预测的影响,以得到目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率。
例如,目标文本为新闻文档,基于新闻文档执行影响词预测任务,确定新闻文档对应的待生成摘要中各个位置对应的候选单词表中的概率。
本说明书实施例通过对目标文本执行影响词预测任务,确定目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,以使后续基于因果推断的方式增强生成摘要的事实一致性,该方式能够根据各个因素之间的因果关系发现问题的内在原因并更有效地消除其负面影响。
上述实施例中的去除偏差框架可以由两种反事实评估方法组成,包括具有动态掩蔽机制的显式反事实掩蔽策略,和具有辨别交叉注意机制的隐式反事实训练策略。其中,显式反事实掩蔽策略可以为使用同一个模型,通过不同的输入来达到关注影响词的效果,隐式反事实训练策略可以为,基于初始的模型,再训练一个更加关注影响词的模型。从而可以得到第二预测概率。具体的,显式反事实掩蔽策略可以为,基于同一模型执行摘要词预测任务和影响词预测任务,具体实现方式如下所述。
在一种可实现的方式中,所述对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,包括:
对所述目标文本中的摘要相关词添加掩码标记,得到掩码文本,其中,所述摘要相关词为所述目标文本中与所述摘要词相关的词;
将所述掩码文本输入第一摘要文本预测模型,执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率。
其中,掩码标记可以为使模型不关注的标记,相应地,掩码文本可以为已添加掩码标记的目标文本。
在实际应用中,使用交叉注意力得分作为指标,采用Top-K策略来挑选得分最高的K个位置的单词作为重要单词。考虑到从源文档中直接删除这些单词可能会导致训练和推理之间的差异,使用一个特殊标记“[MASK]”来显式地替换重要单词。还采用一个去偏系数
Figure 168662DEST_PATH_IMAGE001
来调整去偏程度,以保持生成的摘要的可读性。
例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加标记“[MASK]”,得到掩码文本,将掩码文本输入第一摘要文本预测模型,确定新闻文档对应的待生成摘要中各个位置对应的候选单词表中的概率。
本说明书实施例通过对源文档中的重要单词进行掩盖,从而消除重要单词对预测概率的影响,以使后续可以基于第二预测概率确定最终的目标概率。
具体的,除了用于在推理过程中消除因果效应的显式反事实掩盖策略外,还可以使用一种包含辨别交叉注意力机制的反事实训练策略,隐式地将各个偏差对生成摘要的因果效应最小化。隐式反事实训练策略可以为,基于初始的模型,再训练一个更加关注影响词的模型。那么,基于该模型得到第二预测概率的具体实现方式如下所述。
在一种可实现的方式中,所述对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,包括:
将所述目标文本输入第二摘要文本预测模型,执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述第二摘要文本预测模型对所述影响词的预测概率高于所述第一摘要文本预测模型。
其中,第二摘要文本预测模型可以为基于第一摘要文本预测模型进行训练的,更加关注影响词的模型。
在实际应用中,在得到第一预测概率之后,可以将目标文本再输入至训练好的第二摘要文本预测模型,以得到第二预测概率。
例如,目标文本为新闻文档,将新闻文档输入预先训练好的第二摘要文本预测模型,得到第二摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第二预测概率。
本说明书实施例通过使用更加关注冗余单词的第二摘要文本预测模型,对目标文本进行摘要词预测,得到第二预测概率,从而可以使后续步骤实现去除冗余单词影响的目的,以提高预测准确率。
在隐式反事实训练策略中,还需要对第一摘要文本预测模型进行训练,以使输出第二预测概率。具体实现方式如下所述。
在一种可实现的方式中,还包括对所述第二摘要文本预测模型进行训练的步骤;
相应地,对所述第二摘要文本预测模型进行训练,包括:
对所述目标文本的摘要相关词添加摘要标记,以及对所述目标文本的影响相关词添加影响标记,得到文本标签样本,其中,所述影响相关词为所述目标文本中除所述摘要相关词以外的词;
基于所述文本标签样本对所述第二摘要文本预测模型进行训练。
其中,摘要相关词可以理解为是对摘要词的概率有影响的词语,例如,上述实施例中的源文档的重要信息,摘要标记可以为对中重要单词进行标记。相应地,影响标记可以为对影响词进行标记。
在实际应用中,在每个解码时刻,首先根据交叉注意得分将源文档动态地分割为两个不相交的分区,这两个不相交的分区可以为,重要单词集和冗余单词集,然后由解码器模型分别关注这两个分区以进行反事实训练。
例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加摘要标记。对A事件的背景和A事件的扩展资料添加影响标记。从而得到了文本标签样本,基于该文本标签样本,对第二摘要文本预测模型进行训练。
本说明书实施例通过区分重要单词和冗余单词,以使后续可以基于重要单词和冗余单词进行模型训练。
对第二摘要文本预测模型进行训练,可以是使模型对摘要词的预测概率降低,从而相对地提高了对冗余词和语言先验词的关注度。具体实现方式如下所述。
在一种可实现的方式中,所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
将所述文本标签样本输入所述第二摘要文本预测模型,得到训练预测概率;
根据第一损失函数和所述训练预测概率,计算第一损失值,其中,所述第一损失函数用于减少所述第二摘要文本预测模型对所述摘要词的预测概率;
根据第一损失值对所述第二摘要文本预测模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
其中,训练预测概率可以理解为在对第二摘要文本预测模型进行训练的过程中,
在实际应用中,为了引导反事实文本摘要模型依赖于源文档中的冗余单词,使用非似然损失
Figure 162026DEST_PATH_IMAGE002
来惩罚关注重要单词时的序列对数似然估计,即,第一损失函数。
Figure 181934DEST_PATH_IMAGE003
其中,
Figure 918946DEST_PATH_IMAGE004
表示反事实摘要模型的参数,
Figure 707910DEST_PATH_IMAGE006
表示重要单词集,t表示每个解码时刻,
Figure 137755DEST_PATH_IMAGE007
表示在解码时刻t处生成的每个单词。
例如,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加摘要标记。对A事件的背景和A事件的扩展资料添加影响标记。从而得到了文本标签样本,将文本标签样本输入所述第二摘要文本预测模型,得到训练过程中的预测概率。根据训练过程中的预测概率和第一损失函数可以计算得到第一损失值,通过第一损失值可以调整第二摘要文本预测模型的参数。可以得到训练后的第二摘要文本预测模型。
需要说明的是,初始的第二摘要文本预测模型可以为第一摘要文本预测模型,也可以为其他的模型,本说明书实施例不进行限定。
本说明书实施例通过第一损失函数训练模型,以降低模型对重要单词的关注,从而提高模型对冗余单词的关注。以使后续实现计算第二预测概率的目的。
进一步的,还可以通过在训练过程中,使得模型更加关注冗余单词,从而拉开重要单词与冗余单词的对摘要词的预测概率。具体实现方式如下所述。
在一种可实现的方式中,在所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
根据第二损失函数和所述训练预测概率,计算第二损失值,其中,所述第二损失函数用于增加所述第一训练模型对所述影响词的预测概率;
根据第二损失值对所述第一训练模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
在实际应用中,采用交叉熵损失
Figure 644960DEST_PATH_IMAGE008
来增加关注冗余单词时的生成单词概率,即,第二损失函数。
Figure 920083DEST_PATH_IMAGE009
其中,
Figure 829133DEST_PATH_IMAGE011
表示冗余单词集。
例如,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加摘要标记。对A事件的背景和A事件的扩展资料添加影响标记。从而得到了文本标签样本,将文本标签样本输入所述第二摘要文本预测模型,得到训练过程中的预测概率。根据训练过程中的预测概率和第一损失函数可以计算得到第一损失值,通过第一损失值可以调整第二摘要文本预测模型的参数。并且同时基于第二损失函数,计算得到第二值,通过第二损失值可以调整第二摘要文本预测模型的参数。可以得到训练后的第二摘要文本预测模型。
本说明书实施例通过第二损失函数训练模型,以提高模型对冗余单词的关注。以使后续实现计算第二预测概率的目的。
在一种可实现的方式中,所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
根据第三损失函数和所述训练预测概率,计算第三损失值,其中,所述第三损失函数用于减少所述第第二训练模型对所述摘要词的预测概率,以及增加所述第二训练模型对所述影响词的预测概率;
根据第三损失值对所述第二训练模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
在实际应用中,采用KL散度损失
Figure 164300DEST_PATH_IMAGE012
,在分别关注重要单词和冗余单词时,进一步地将二者的单词预测分布进行拉远,其形式可表示为:
Figure 158800DEST_PATH_IMAGE013
例如,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加摘要标记。对A事件的背景和A事件的扩展资料添加影响标记。从而得到了文本标签样本,将文本标签样本输入所述第二摘要文本预测模型,得到训练过程中的预测概率。根据训练过程中的预测概率和第一损失函数可以计算得到第一损失值,通过第一损失值可以调整第二摘要文本预测模型的参数。并且同时基于第二损失函数,计算得到第二值,通过第二损失值可以调整第二摘要文本预测模型的参数。进一步可以同时基于第三损失函数,计算得到第三值,通过第三损失值可以调整第二摘要文本预测模型的参数。得到训练后的第二摘要文本预测模型。
需要说明的是,以上第一损失函数、第二损失函数和第三损失函数,可以综合表示为:
Figure 237615DEST_PATH_IMAGE014
即,同时使用第一损失函数、第二损失函数和第三损失函数对模型进行训练。
本说明书实施例通过第一损失函数、第二损失函数和第三损失函数训练模型,进一步拉开重要单词和冗余单词的预测概率。以使后续实现计算第二预测概率的目的。
步骤208:针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词。
其中,目标摘要词可以为对目标文本对应的待生成摘要文本中的任一位置,确定的摘要词。
在实际应用中,对于显式反事实掩盖策略,每个生成单词
Figure 1172DEST_PATH_IMAGE015
去偏后的预测概率分布可以表示为:
Figure 772818DEST_PATH_IMAGE016
其中,x'表示被掩盖的文档。
对于,隐式反事实训练策略,去偏后每个单词
Figure 989036DEST_PATH_IMAGE015
的预测概率分布可表示为:
Figure 871542DEST_PATH_IMAGE017
例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。将新闻文档输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第一预测概率。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加标记“[MASK]”,得到掩码文本,将掩码文本输入第一摘要文本预测模型,确定新闻文档对应的待生成摘要中各个位置对应的候选单词表中的第二预测概率。通过第一预测概率减去第二预测概率,可以确定每个位置对应的候选单词表的目标概率,依据目标概率从每个位置对应的候选单词表中选择每个位置对应目标摘要词。
又例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。将新闻文档输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第一预测概率。将新闻文档输入预先训练好的第二摘要文本预测模型,得到第二摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第二预测概率。通过第一预测概率减去第二预测概率,可以确定每个位置对应的候选单词表的目标概率,依据目标概率从每个位置对应的候选单词表中选择每个位置对应目标摘要词。
本说明书实施例通过预测概率相减,以实现消除冗余单词对预测结果的影响,提高了预测的准确度。
因为在不同解码时刻生成的中间语句实际上具有不同的事实不一致程度。因此,当生成的中间语句与源文档不太一致时,进行强度更高的去偏为更优的方案。
进一步地,所述根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词之前,还包括:
获取所述执行摘要词预测任务输出的第一特征向量,以及获取所述执行影响词预测任务输出的第二特征向量;
将所述第一特征向量与所述第二特征向量输入全连接层,得到特征拼接向量;
将所述特征拼接向量进行归一化处理,确定预测系数值。
其中,第一特征向量可以为第一摘要文本预测模型,针对源文档进行预测的情况下,在未得到预测概率之前的特征向量,第二特征向量可以为第一摘要文本预测模型,针对掩码文档进行预测的情况下,在未得到预测概率之前的特征向量。预测系数值可以为对上述的α或β的增益的系数值。
在实际应用中,可以通过一个去偏程度调整方法,来动态地调整每个解码时刻的去偏程度,使去偏框架对生成摘要中事实不一致的位置更加敏感。为此,可以使用一种针对不同解码时刻去偏程度的动态调整策略。首先基于大量手动构建的事实不一致摘要样本预训练一个事实一致性预测器,然后根据预测的事实不一致分数动态地调整每个解码时刻的去偏系数。具体来说,将预测过程重新定义为序列标记任务。事实不一致摘要样本中每个单词的标签是通过将每个样本与其对应的真实摘要进行比较获得的,其中不匹配的单词被标记为“不一致”,其余被标记为“一致”。
在第t个解码时刻的训练阶段,预测器接收到以下四种特征:原始解码隐层状态
Figure 489605DEST_PATH_IMAGE018
,由被掩盖源文档生成的反事实隐层状态
Figure 432153DEST_PATH_IMAGE019
,以及上述两种隐层状态的逐元素乘积与差值。之后这些特征被拼接在一起送入全连接层和softmax函数,以获得预测分数,公式如下:
Figure 135667DEST_PATH_IMAGE020
其中,d表示隐层状态的维数,
Figure 556284DEST_PATH_IMAGE021
,
Figure 28853DEST_PATH_IMAGE022
是线性层中的可学习参数,[;]表示拼接,
Figure 407882DEST_PATH_IMAGE023
是元素相乘,
Figure 333113DEST_PATH_IMAGE024
包含事实一致分数
Figure 823000DEST_PATH_IMAGE025
和事实不一致分数
Figure 884497DEST_PATH_IMAGE026
,其中
Figure 434427DEST_PATH_IMAGE027
。使用交叉熵损失来训练预测器,并冻结原始文本摘要模型的所有参数。
进一步地,通过被减项
Figure 846954DEST_PATH_IMAGE028
Figure 140532DEST_PATH_IMAGE029
与预测的事实不一致分数相乘,以动态控制去偏程度。此外,事实不一致分数在不同的解码时刻往往会发生剧烈变化,因此可以通过一个平滑函数来限制其变化范围并稳定推理过程。
Figure 322114DEST_PATH_IMAGE030
其中,
Figure 511787DEST_PATH_IMAGE031
是平滑后的事实不一致分数。
例如,获取待生成摘要预测过程中的第三个位置,输出的第一特征向量,以及输出的第二特征向量,将第一特征向量和第二特征向量通过全连接层后,进行归一化处理,以得到预测系数值。
本说明书实施例通过在不同解码时刻,根据预测的事实不一致分数动态地调整每个解码时刻的去偏系数,提高了每个位置的预测准确度。
在确定预测系数值之后,即可进行最后目标摘要词的确定,具体实现方式如下所述。
在一种可实现的方式中,所述根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词,包括:
根据所述预测系数值和所述任一位置的第二预测概率,确定所述任一位置的第二预测增强概率;
使用所述任一位置的第一预测概率减去所述任一位置的第二预测增强概率,确定所述任一位置的目标概率;
根据所述目标概率,从预设单词表中确定所述任一位置对应的目标摘要词,其中,所述预设单词表包括所述摘要词和所述影响词。
其中,第二预测增强概率可以为通过预测系数值对概率进行增强之后的概率。预设单词表可以为提前设定的单词表,目标摘要单词从该单词表中确定。
例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。将新闻文档输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第一预测概率。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加标记“[MASK]”,得到掩码文本,将掩码文本输入第一摘要文本预测模型,确定新闻文档对应的待生成摘要中各个位置对应的候选单词表中的第二预测概率。将第二预测概率乘以预测系数值,得到第二预测增强概率,通过第一预测概率减去第二预测增强概率,可以确定每个位置对应的候选单词表的目标概率,依据目标概率从每个位置对应的候选单词表中选择每个位置对应目标摘要词。
需要说明的是,在摘要预测的过程中,可以给定一个起始单词和末尾单词,由起始单词开始,进行相邻位置的摘要单词的预测,并根据起始单词和相邻位置的摘要单词,预测相邻位置的摘要单词的下一个摘要单词,直至预测到给定的末尾单词结束。由此对整个摘要预测完成。如果在摘要词预测任务中和影响词预测任务中预测到的摘要词的位置数量不相同,则以摘要词预测任务中的摘要词位置为主,举例来说,摘要词预测任务和影响词预测任务同时开始,在第十个时刻,即在第十个位置中,摘要词预测任务中预测到末尾单词,但是影响词预测任务中未预测到末尾单词,那么影响词预测任务结束。相应地,在第十个位置中,摘要词预测任务中未预测到末尾单词,但是影响词预测任务中预测到末尾单词,那么影响词预测任务继续进行。具体地,基于影响词预测任务的末尾词同一时刻,对应的摘要词预测任务中的预测词继续执行影响词预测任务,直至摘要词预测任务结束。
本说明书实施例根据每个解码时刻的去偏系数,计算每个时刻的预测概率,提高了每个位置的预测准确度。
步骤210:基于所述目标摘要词,生成所述目标文本对应的摘要文本。
在实际应用中,在确定目标摘要词之后,即可根据目标摘要词生成摘要文本。
例如,在得到目标摘要词之后,会将目标摘要词进行拼接,并且对词与词中间的连接词进行预测生成,从而形成完整的一段摘要。
本说明书实施例引入了以上两种反事实评估策略进行去偏后,模型对生成摘要的语言和冗余偏差效应被很大程度地消除了,生成的摘要在保证一定的可读性的同时,会更加地与源文档中存在的事实相一致。
需要说明的是,可以单独使用上述显式反事实掩盖策略或反事实训练策略,还可以同时使用显式反事实掩盖策略和反事实训练策略。在同时使用显式反事实掩盖策略和反事实训练策略的情况下,总体去偏预测概率分布可以表示为:
Figure 677189DEST_PATH_IMAGE032
例如,一篇新闻文档作为目标文本,新闻文档的内容包括了A事件,以及A事件的背景,A事件的发生的时间,A事件的起因、经过和结果。还包括了A事件的扩展资料。将新闻文档输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第一预测概率。确定新闻文档中的A事件的起因、经过和结果为重要单词,则对A事件的起因、经过和结果相关的单词添加标记“[MASK]”,得到掩码文本,将掩码文本输入第一摘要文本预测模型,确定新闻文档对应的待生成摘要中各个位置对应的候选单词表中的第二预测概率。再将新闻文档输入预先训练好的第二摘要文本预测模型,得到第二摘要文本预测模型输出的新闻文档对应的待生成摘要文本中,各位置的摘要词的第三预测概率。通过第一预测概率减去第二预测概率以及第三预测概率,可以确定每个位置对应的候选单词表的目标概率,依据目标概率从每个位置对应的候选单词表中选择每个位置对应目标摘要词。
本说明书实施例提供摘要文本生成方法、计算设备及存储介质,其中所述摘要文本生成方法包括:获取目标文本;对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;基于所述目标摘要词,生成所述目标文本对应的摘要文本。通过对目标文本执行分别执行摘要词预测任务和影响词预测任务,从而得到目标文本对应的待生成摘要文本中,各位置上关注摘要词的第一预测概率和关注影响词第二预测概率,并基于第一预测概率与第二预测概率的差值确定摘要词,可以提高摘要词的预测概率,从而使得生成的摘要文本更加准确。
下述结合附图5,以本说明书提供的摘要文本生成方法在云侧设备的应用为例,对所述摘要文本生成方法进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种摘要文本生成方法的处理过程流程图,具体包括以下步骤。
步骤502:接收前端上传的获取会议文本;
步骤504:对所述会议文本执行摘要词预测任务,确定所述会议文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
步骤506:对所述会议文本执行影响词预测任务,确定所述会议文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
步骤508:针对所述会议文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
步骤510:基于所述目标摘要词,生成所述会议文本对应的摘要文本,将所述摘要文本发送至前端。
在一种可能的实现方式中,可以利用云侧设备实现摘要文本生成方法,举例来说,某公司在线上举行语音会议,在进行会议的过程中,会议的语音会被录制下来,那么可以针对被录制下来的语音进行文字转换,并将转换后的文字内容由前端上传至云侧设备。
云侧设备获取到文字内容,将文字内容输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的文字内容对应的待生成摘要文本中,各位置的摘要词的第一预测概率。并将文字内容输入预先训练好的第二摘要文本预测模型,得到第二摘要文本预测模型输出的文字内容对应的待生成摘要文本中,各位置的摘要词的第二预测概率。针对目标文本对应的待生成摘要文本中的任一位置,根据任一位置的第一预测概率与第二预测概率的差值,确定任一位置对应的目标摘要词。在确定目标摘要词之后,即可根据目标摘要词生成摘要文本。并将摘要文本发送至前端。
另外,在摘要文本生成的过程中,可以得到摘要文本中的每个单词重要程度得分,基于重要程度得分,可以设置得分阈值,将在得分阈值以上的重要程度得分对应的单词进行记录,并可以向用户推荐这些单词。
进一步的,还可以基于摘要文本的语义描述,解析当前文本中须重点关注的词,在最终结果中标记出来,以此向用户推荐可能的重点摘要词,从而可以使用户基于重点摘要词进行其他的工作任务。
在一些实施例中,在所述基于所述目标摘要词,生成所述会议文本对应的摘要文本之后,还包括:
对所述摘要文本进行语义解析,得到与所述会议文本匹配的目标单词;
对所述摘要文本中的目标单词添加目标标记,并存储所述目标标记对应的目标单词;
响应于所述前端发送的单词推荐请求,将所述目标标记对应的目标单词发送至所述前端。
例如,在得到会议文本的摘要文本之后,可以对摘要文本以及会议文本进行语义解析,将摘要文本以及会议文本的语义解析结果进行匹配,匹配到语义相近的单词或句子,并对这些单词添加目标标记并存储,向用户推荐重要单词。或者,在用户需要重要单词推荐的情况下,向用户推荐重要单词。
进一步的,在将摘要文本反馈给用户之后,用户可基于当前结果进行编辑或修改,也可以进行重点单词的标注,并且将修改后的文本,或者主动标记的重点单词进行保存。
在一些实施例中,在所述将所述摘要文本发送至所述前端之后,还包括:
响应于前端发送的文本修改指令,根据所述文本修改指令修改所述摘要文本,确定修改文本;
接收所述前端发送的文本保存请求,存储所述修改文本。
例如,在得到会议文本的摘要文本之后,用户可以通过前端对文本进行修改,以及对其中的某些单词添加重要单词的标记。并且可以在前端点击保存按钮,从而保存修改之后的摘要文本,以及主动标记的重要单词。
需要说明的是,本说明实施例的摘要文本生成方法也可以在端侧执行,即,利用端侧的处理资源,进行摘要文本的预测。例如,某公司在线上举行语音会议,在进行会议的过程中,会议的语音会被员工A的电脑录制下来,可以直接使用员工A的电脑针对被录制下来的语音进行文字转换,并进行摘要文本的预测。
具体的,员工A的电脑获取到文字内容,将文字内容输入预先训练好的第一摘要文本预测模型,得到第一摘要文本预测模型输出的文字内容对应的待生成摘要文本中,各位置的摘要词的第一预测概率。并将文字内容输入预先训练好的第二摘要文本预测模型,得到第二摘要文本预测模型输出的文字内容对应的待生成摘要文本中,各位置的摘要词的第二预测概率。针对目标文本对应的待生成摘要文本中的任一位置,根据任一位置的第一预测概率与第二预测概率的差值,确定任一位置对应的目标摘要词。在确定目标摘要词之后,即可根据目标摘要词生成摘要文本。并通过员工A的电脑的显示屏展示生成的摘要文本。
本说明书实施例通过对目标文本执行分别执行摘要词预测任务和影响词预测任务,从而得到目标文本对应的待生成摘要文本中,各位置上关注摘要词的第一预测概率和关注影响词第二预测概率,并基于第一预测概率与第二预测概率的差值确定摘要词,可以提高摘要词的预测概率,从而使得生成的摘要文本更加准确。并且由于预测过程在云侧完成,减少了本地资源的占用,并可以利用云侧设备的计算能力,提高计算速度。
本说明书还提供了一种模型训练方法,应用于云侧设备,图6示出了本说明书一个实施例提供的一种模型训练方法的处理过程流程图,具体包括以下步骤。
步骤602:获取目标文本;
步骤604:对所述目标文本的摘要相关词添加摘要标记,以及对所述目标文本的影响相关词添加影响标记,得到文本标签样本,其中,所述影响相关词为所述目标文本中除所述摘要相关词以外的词;
步骤606:基于所述文本标签样本对所述第二摘要文本预测模型进行训练,并将训练后的第二摘要文本预测模型的模型参数发送至端侧设备前端。
在一种可能的实现方式中,可以将模型训练的过程转移至云侧设备执行,具体的训练过程如前述实施例中的训练过程一致,本说明书实施例不再进行赘述,通过将模型训练转移至云侧设备,可以利用云侧设备的计算能力,从而加速训练过程,提高了效率。
与上述方法实施例相对应,本说明书还提供了摘要文本生成装置实施例,图7示出了本说明书一个实施例提供的一种摘要文本生成装置的结构示意图。如图7所示,该装置包括:
文本获取模块702,被配置为获取目标文本;
第一任务模块704,被配置为对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
第二任务模块706,被配置为对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
摘要确定模块708,被配置为针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
摘要生成模块710,被配置为基于所述目标摘要词,生成所述目标文本对应的摘要文本。
在一种可实现的方式中,第一任务模块704,还被配置为:
将所述目标文本输入第一摘要文本预测模型,执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率。
在一种可实现的方式中,第二任务模块704,还被配置为:
对所述目标文本中的摘要相关词添加掩码标记,得到掩码文本,其中,所述摘要相关词为所述目标文本中与所述摘要词相关的词;
将所述掩码文本输入第一摘要文本预测模型,执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率。
在一种可实现的方式中,第二任务模块704,还被配置为:
将所述目标文本输入第二摘要文本预测模型,执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述第二摘要文本预测模型对所述影响词的预测概率高于所述第一摘要文本预测模型。
在一种可实现的方式中,第二任务模块704,还被配置为:
还包括对所述第二摘要文本预测模型进行训练的步骤;
相应地,对所述第二摘要文本预测模型进行训练,包括:
对所述目标文本的摘要相关词添加摘要标记,以及对所述目标文本的影响相关词添加影响标记,得到文本标签样本,其中,所述影响相关词为所述目标文本中除所述摘要相关词以外的词;
基于所述文本标签样本对所述第二摘要文本预测模型进行训练。
在一种可实现的方式中,第二任务模块704,还被配置为:
将所述文本标签样本输入所述第二摘要文本预测模型,得到训练预测概率;
根据第一损失函数和所述训练预测概率,计算第一损失值,其中,所述第一损失函数用于减少所述第二摘要文本预测模型对所述摘要词的预测概率;
根据第一损失值对所述第二摘要文本预测模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
在一种可实现的方式中,第二任务模块704,还被配置为:
根据第二损失函数和所述训练预测概率,计算第二损失值,其中,所述第二损失函数用于增加所述第一训练模型对所述影响词的预测概率;
根据第二损失值对所述第一训练模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
在一种可实现的方式中,第二任务模块704,还被配置为:
所述的方法,所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
根据第三损失函数和所述训练预测概率,计算第三损失值,其中,所述第三损失函数用于减少所述第第二训练模型对所述摘要词的预测概率,以及增加所述第二训练模型对所述影响词的预测概率;
根据第三损失值对所述第二训练模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
在一种可实现的方式中,摘要确定模块708,还被配置为:
获取所述执行摘要词预测任务输出的第一特征向量,以及获取所述执行影响词预测任务输出的第二特征向量;
将所述第一特征向量与所述第二特征向量输入全连接层,得到特征拼接向量;
将所述特征拼接向量进行归一化处理,确定预测系数值。
在一种可实现的方式中,摘要确定模块708,还被配置为:
根据所述预测系数值和所述任一位置的第二预测概率,确定所述任一位置的第二预测增强概率;
使用所述任一位置的第一预测概率减去所述任一位置的第二预测增强概率,确定所述任一位置的目标概率;
根据所述目标概率,从预设单词表中确定所述任一位置对应的目标摘要词,其中,所述预设单词表包括所述摘要词和所述影响词。
本说明书实施例提供摘要文本生成装置,其中所述摘要文本生成装置包括:获取目标文本;对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;基于所述目标摘要词,生成所述目标文本对应的摘要文本。通过对目标文本执行分别执行摘要词预测任务和影响词预测任务,从而得到目标文本对应的待生成摘要文本中,各位置上关注摘要词的第一预测概率和关注影响词第二预测概率,并基于第一预测概率与第二预测概率的差值确定摘要词,可以提高摘要词的预测概率,从而使得生成的摘要文本更加准确。
上述为本实施例的一种摘要文本生成装置的示意性方案。需要说明的是,该摘要文本生成装置的技术方案与上述的摘要文本生成方法的技术方案属于同一构思,摘要文本生成装置的技术方案未详细描述的细节内容,均可以参见上述摘要文本生成方法的技术方案的描述。
图8示出了根据本说明书一个实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接,数据库850用于保存数据。
计算设备800还包括接入设备840,接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN,Public SwitchedTelephone Network)、局域网(LAN,Local Area Network)、广域网(WAN,Wide AreaNetwork)、个域网(PAN,Personal Area Network)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC,networkinterface controller))中的一个或多个,诸如IEEE802.11无线局域网(WLAN,WirelessLocal Area Network)无线接口、全球微波互联接入(Wi-MAX,WorldwideInteroperability for Microwave Access)接口、以太网接口、通用串行总线(USB,Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC,Near FieldCommunication)。
在本说明书的一个实施例中,计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图8所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备800可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或个人计算机(PC,Personal Computer)的静止计算设备。计算设备800还可以是移动式或静止式的服务器。
其中,处理器820用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述数据处理方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的摘要文本生成方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述摘要文本生成方法的技术方案的描述。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述摘要文本生成方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的摘要文本生成方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述摘要文本生成方法的技术方案的描述。
本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述摘要文本生成方法的步骤。
上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的摘要文本生成方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述摘要文本生成方法的技术方案的描述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (15)

1.一种摘要文本生成方法,包括:
获取目标文本;
对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
针对所述目标文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
基于所述目标摘要词,生成所述目标文本对应的待生成摘要文本。
2.根据权利要求1所述的方法,所述对所述目标文本执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率,包括:
将所述目标文本输入第一摘要文本预测模型,执行摘要词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率。
3.根据权利要求2所述的方法,所述对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,包括:
对所述目标文本中的摘要相关词添加掩码标记,得到掩码文本,其中,所述摘要相关词为所述目标文本中与所述摘要词相关的词;
将所述掩码文本输入第一摘要文本预测模型,执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率。
4.根据权利要求2所述的方法,所述对所述目标文本执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,包括:
将所述目标文本输入第二摘要文本预测模型,执行影响词预测任务,确定所述目标文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述第二摘要文本预测模型对所述影响词的预测概率高于所述第一摘要文本预测模型。
5.根据权利要求4所述的方法,还包括对所述第二摘要文本预测模型进行训练的步骤;
相应地,对所述第二摘要文本预测模型进行训练,包括:
对所述目标文本的摘要相关词添加摘要标记,以及对所述目标文本的影响相关词添加影响标记,得到文本标签样本,其中,所述影响相关词为所述目标文本中除所述摘要相关词以外的词;
基于所述文本标签样本对所述第二摘要文本预测模型进行训练。
6.根据权利要求5所述的方法,所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
将所述文本标签样本输入所述第二摘要文本预测模型,得到训练预测概率;
根据第一损失函数和所述训练预测概率,计算第一损失值,其中,所述第一损失函数用于减少所述第二摘要文本预测模型对所述摘要词的预测概率;
根据第一损失值对所述第二摘要文本预测模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
7.根据权利要求6所述的方法,在所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
根据第二损失函数和所述训练预测概率,计算第二损失值,其中,所述第二损失函数用于增加所述第一训练模型对所述影响词的预测概率;
根据第二损失值对所述第一训练模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
8.根据权利要求7所述的方法,所述基于所述文本标签样本对所述第二摘要文本预测模型进行训练,包括:
根据第三损失函数和所述训练预测概率,计算第三损失值,其中,所述第三损失函数用于减少所述第二训练模型对所述摘要词的预测概率,以及增加所述第二训练模型对所述影响词的预测概率;
根据第三损失值对所述第二训练模型的模型参数进行调整,获得训练后的第二摘要文本预测模型。
9.根据权利要求1所述的方法,所述根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词之前,还包括:
获取所述执行摘要词预测任务输出的第一特征向量,以及获取所述执行影响词预测任务输出的第二特征向量;
将所述第一特征向量与所述第二特征向量输入全连接层,得到特征拼接向量;
将所述特征拼接向量进行归一化处理,确定预测系数值。
10.根据权利要求9所述的方法,所述根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词,包括:
根据所述预测系数值和所述任一位置的第二预测概率,确定所述任一位置的第二预测增强概率;
使用所述任一位置的第一预测概率减去所述任一位置的第二预测增强概率,确定所述任一位置的目标概率;
根据所述目标概率,从预设单词表中确定所述任一位置对应的目标摘要词,其中,所述预设单词表包括所述摘要词和所述影响词。
11.一种摘要文本生成方法,包括:
接收前端上传的会议文本;
对所述会议文本执行摘要词预测任务,确定所述会议文本对应的待生成摘要文本中,各位置的摘要词的第一预测概率;
对所述会议文本执行影响词预测任务,确定所述会议文本对应的待生成摘要文本中,各位置的影响词的第二预测概率,其中,所述影响词为经过因果分析确定的对所述摘要文本生成结果具有影响的词类型;
针对所述会议文本对应的待生成摘要文本中的任一位置,根据所述任一位置的第一预测概率与第二预测概率,确定所述任一位置对应的目标摘要词;
基于所述目标摘要词,生成所述会议文本对应的摘要文本,将所述摘要文本发送至所述前端显示。
12.根据权利要求11的方法,在所述基于所述目标摘要词,生成所述会议文本对应的摘要文本之后,还包括:
对所述摘要文本进行语义解析,得到与所述会议文本匹配的目标单词;
对所述摘要文本中的目标单词添加目标标记,并存储所述目标标记对应的目标单词;
响应于所述前端发送的单词推荐请求,将所述目标标记对应的目标单词发送至所述前端显示。
13.根据权利要求11的方法,在所述将所述摘要文本发送至所述前端显示之后,还包括:
响应于前端发送的文本修改指令,根据所述文本修改指令修改所述摘要文本,确定修改文本;
接收所述前端发送的文本保存请求,存储所述修改文本。
14.一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10或11至13任意一项所述摘要文本生成方法的步骤。
15.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至10或11至13任意一项所述摘要文本生成方法的步骤。
CN202211611181.2A 2022-12-15 2022-12-15 摘要文本生成方法、计算设备及存储介质 Active CN115600586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211611181.2A CN115600586B (zh) 2022-12-15 2022-12-15 摘要文本生成方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211611181.2A CN115600586B (zh) 2022-12-15 2022-12-15 摘要文本生成方法、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN115600586A true CN115600586A (zh) 2023-01-13
CN115600586B CN115600586B (zh) 2023-04-11

Family

ID=84854193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211611181.2A Active CN115600586B (zh) 2022-12-15 2022-12-15 摘要文本生成方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN115600586B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110347799A (zh) * 2019-07-12 2019-10-18 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
WO2021217987A1 (zh) * 2020-04-30 2021-11-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
CN113642324A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
US20210374338A1 (en) * 2020-05-26 2021-12-02 Mastercard International Incorporated Methods and systems for generating domain-specific text summarizations
CN113761895A (zh) * 2021-02-04 2021-12-07 北京沃东天骏信息技术有限公司 文本摘要的生成方法、装置、电子设备及存储介质
CN113779186A (zh) * 2020-11-17 2021-12-10 北京沃东天骏信息技术有限公司 一种文本生成方法和装置
CN114861640A (zh) * 2022-04-11 2022-08-05 阿里巴巴(中国)有限公司 文本摘要模型的训练方法及装置
CN115034194A (zh) * 2022-07-06 2022-09-09 深圳证券信息有限公司 一种摘要生成方法及相关装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110347799A (zh) * 2019-07-12 2019-10-18 腾讯科技(深圳)有限公司 语言模型训练方法、装置和计算机设备
WO2021217987A1 (zh) * 2020-04-30 2021-11-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及可读存储介质
US20210374338A1 (en) * 2020-05-26 2021-12-02 Mastercard International Incorporated Methods and systems for generating domain-specific text summarizations
CN113779186A (zh) * 2020-11-17 2021-12-10 北京沃东天骏信息技术有限公司 一种文本生成方法和装置
CN113761895A (zh) * 2021-02-04 2021-12-07 北京沃东天骏信息技术有限公司 文本摘要的生成方法、装置、电子设备及存储介质
CN113642324A (zh) * 2021-08-20 2021-11-12 北京百度网讯科技有限公司 文本摘要生成方法、装置、电子设备及存储介质
CN114861640A (zh) * 2022-04-11 2022-08-05 阿里巴巴(中国)有限公司 文本摘要模型的训练方法及装置
CN115034194A (zh) * 2022-07-06 2022-09-09 深圳证券信息有限公司 一种摘要生成方法及相关装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
薛峰;胡越;夏帅;许剑东;: "基于论文标题和摘要的短文本分类研究" *

Also Published As

Publication number Publication date
CN115600586B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
US20220351487A1 (en) Image Description Method and Apparatus, Computing Device, and Storage Medium
CN111738016B (zh) 多意图识别方法及相关设备
Lin et al. Automatic translation of spoken English based on improved machine learning algorithm
CN114580382A (zh) 文本纠错方法以及装置
CN113051368B (zh) 双塔模型训练方法、检索方法、装置及电子设备
CN112347241A (zh) 一种摘要提取方法、装置、设备及存储介质
CN113239666B (zh) 一种文本相似度计算方法及系统
CN111079418A (zh) 命名体识别方法、装置、电子设备和存储介质
CN110968725A (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN111859950A (zh) 一种自动化生成讲稿的方法
CN114281948A (zh) 一种纪要确定方法及其相关设备
CN117556005A (zh) 质量评估模型的训练方法、多轮对话质量评估方法和装置
CN117216226A (zh) 一种知识定位方法、装置、存储介质及设备
WO2023087935A1 (zh) 指代消解方法、指代消解模型的训练方法及装置
CN115600586B (zh) 摘要文本生成方法、计算设备及存储介质
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN111090720B (zh) 一种热词的添加方法和装置
CN116186529A (zh) 语义理解模型的训练方法及装置
CN111737422B (zh) 实体链接方法、装置、电子设备和存储介质
Xu et al. LayoutLM-Critic: Multimodal Language Model for Text Error Correction of Optical Character Recognition
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
CN113919340B (zh) 一种基于无监督未登录词识别的自媒体语言情感分析方法
CN114118022B (zh) 文本表示方法、装置、电子设备与存储介质
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant