CN113779199A - 用于文档和摘要的一致性检测的方法、设备、装置和介质 - Google Patents

用于文档和摘要的一致性检测的方法、设备、装置和介质 Download PDF

Info

Publication number
CN113779199A
CN113779199A CN202111070769.7A CN202111070769A CN113779199A CN 113779199 A CN113779199 A CN 113779199A CN 202111070769 A CN202111070769 A CN 202111070769A CN 113779199 A CN113779199 A CN 113779199A
Authority
CN
China
Prior art keywords
sample
document
abstract
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111070769.7A
Other languages
English (en)
Other versions
CN113779199B (zh
Inventor
陈家泽
曾致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youzhuju Network Technology Co Ltd
Original Assignee
Beijing Youzhuju Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youzhuju Network Technology Co Ltd filed Critical Beijing Youzhuju Network Technology Co Ltd
Priority to CN202111070769.7A priority Critical patent/CN113779199B/zh
Publication of CN113779199A publication Critical patent/CN113779199A/zh
Priority to PCT/CN2022/112869 priority patent/WO2023035883A1/zh
Application granted granted Critical
Publication of CN113779199B publication Critical patent/CN113779199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

根据本公开的实施例,提供了用于文档与摘要的一致性检测的方法、设备、装置和介质。该方法包括确定第一样本和第一标注信息,第一标注信息指示第一样本包括的第一摘要与第一文档不一致,第一摘要中的至少一个文本单元被标记为与第一文档不一致。该方法还包括通过向第一样本施加干扰信息来生成第一对抗样本,干扰信息被施加到第一样本以及第一摘要中除至少一个文本单元之外的其他文本单元。该方法还包括至少基于第一样本、第一对抗样本和第一标注信息,根据训练目标来训练一致性检测模型。以此方式,所得到的训练后的模型能够更好地检测和追踪摘要中与文档不一致的部分。

Description

用于文档和摘要的一致性检测的方法、设备、装置和介质
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及用于文档和摘要的一致性检测的方法、设备、装置和计算机可读存储介质。
背景技术
文本摘要提取是生成源文档的简化版本,同时保留源文档中的重要信息。文档摘要提取是文本生成技术的一个分支,不受到源文档中出现的文本的约束。因此,摘要在生成时具有较大的灵活度和较强的生成能力。当前已有很多研究开发出各种摘要生成模型,来实现自动摘要生成。
然而,摘要生成工作面临的挑战在于摘要的简洁性与源文档中事实的一致性之间的权衡。摘要越简洁,摘要中出现事实性错误的概率可能越高。具有事实性错误的摘要是不可取的。因此,期望能够准确、有效地检测摘要与文档的一致性,进而还可以验证摘要生成模型的可靠性和可用性。
发明内容
根据本公开的示例实施例,提供了一种用于文档和摘要的一致性检测的方案。
在本公开的第一方面,提供了一种用户引导的方法。该方法包括确定第一样本和第一标注信息,第一标注信息指示第一样本包括的第一摘要与第一文档不一致,第一摘要的多个文本单元中的至少一个文本单元被标记为与第一文档不一致。该方法还包括通过向第一样本施加干扰信息来生成第一对抗样本,干扰信息被施加到第一样本以及第一摘要中除至少一个文本单元之外的其他文本单元。该方法还包括至少基于第一样本、第一对抗样本和第一标注信息,根据训练目标来训练一致性检测模型,一致性检测模型被配置为检测摘要与文档是否一致,训练目标被配置为使一致性检测模型对第一样本和第一对抗样本的检测结果与第一标注信息之间的差异均在预定阈值内。
在本公开的第二方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行以下动作:确定第一样本和第一标注信息,第一标注信息指示第一样本包括的第一摘要与第一文档不一致,第一摘要的多个文本单元中的至少一个文本单元被标记为与第一文档不一致;通过向第一样本施加干扰信息来生成第一对抗样本,干扰信息被施加到第一样本以及第一摘要中除至少一个文本单元之外的其他文本单元;以及至少基于第一样本、第一对抗样本和第一标注信息,根据训练目标来训练一致性检测模型,一致性检测模型被配置为检测摘要与文档是否一致,训练目标被配置为使一致性检测模型对第一样本和第一对抗样本的检测结果与第一标注信息之间的差异均在预定阈值内。
在本公开的第三方面,提供了一种用于文档和摘要的一致性检测的装置。该装置包括:确定模块,被配置为确定第一样本和第一标注信息,第一标注信息指示第一样本包括的第一摘要与第一文档不一致,第一摘要的多个文本单元中的至少一个文本单元被标记为与第一文档不一致;对抗生成模块,被配置为通过向第一样本施加干扰信息来生成第一对抗样本,干扰信息被施加到第一样本以及第一摘要中除至少一个文本单元之外的其他文本单元;以及训练模块,被配置为至少基于第一样本、第一对抗样本和第一标注信息,根据训练目标来训练一致性检测模型,一致性检测模型被配置为检测摘要与文档是否一致,训练目标被配置为使一致性检测模型对第一样本和第一对抗样本的检测结果与第一标注信息之间的差异均在预定阈值内。
在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第一方面的方法。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的一些实施例的用于训练一致性检测模型的架构;
图3示出了根据本公开的一些实施例的源文档和摘要的示例;
图4示出了根据本公开的一些实施例的用于应用一致性检测模型的架构;
图5示出了根据本公开的一些实施例的对摘要的错误追踪的示例;
图6示出了根据本公开的一些实施例的用于文档与摘要的一致性检测的过程的流程图;
图7示出了根据本公开的一些实施例的用于文档与摘要的一致性检测的装置的框图;以及
图8示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。
通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代更新参数值,直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在应用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。
如前文提及的,期望检测摘要与文档是否一致。当前存在一些方案用于检测或提升摘要与文档的一致性。一些方案专注于利用信息提取工具,从文档和摘要分别提取事实,并通过比较所提取的事实来判断文档与摘要是否一致。然而,这样的方案依赖于对信息提取工具的准确性。还有一些方案提出利用自然语言推理或问答模型来进行事实检查,通过设计与文档相关的问题,并验证是否能够从摘要中找到正确答案,由此来检测摘要的一致性。然而,问答机制的准确性依赖于对关键句子的标识,但文档和摘要的文本长度不同,导致难以保证问答的可靠性。
此外,还提出了通过训练一致性检测模型,来学习文档与摘要之间的一致性相关的特性。这样的方案更可靠、稳定。然而,当前的训练方案所训练的模型仍然具有很多改进的需要。
示例环境
图1示出了能够实施本公开的多个实现的环境100的框图。在图1的环境100中,期望训练和使用这样的模型,即一致性检测模型105,该模型被配置用于检测摘要与文档是否一致。
在本文中,摘要与文档的一致指的是摘要中不存在与文档表述的事实的错误或偏差,即摘要不具有事实性错误。通常,人在阅读文档时能够全面了解其中呈现的事实,而由于简化的关系,摘要可能会存在事实性错误。特别地,在一些应用中,可能存在通过模型自动生成的文档摘要。这样的摘要与文档的一致性检测更需要关注。摘要与文档的一致性也能够用于衡量摘要生成模型的可靠性和可用性。
在本文中,摘要与文档的一致指的是摘要中不存在与文档表述的事实的错误或偏差,即摘要不具有事实性错误。通常,人在阅读文档时能够全面了解其中呈现的事实,而由于简化的关系,摘要可能会存在事实性错误。特别地,在一些应用中,可能存在通过模型自动生成的文档摘要。这样的摘要与文档的一致性检测更需要关注。摘要与文档的一致性也能够用于衡量摘要生成模型的可靠性和可用性。
如图1所示,环境100包括模型训练系统110和模型应用系统120。在图1的示例实施例以及下文将会描述的一些示例实施例中,模型训练系统110被配置利用多个训练样本112-1、112-2、……、112-N和标注信息集114来训练一致性检测模型105,其中N为大于等于1的整数。为便于讨论,这些样本通常为样本112。每个样本112包括文档113和摘要115。标注信息集114包括针对样本112的标注信息,其指示样本112中的摘要与文档是否一致。用于训练模型的样本112可以包括一个或多个正(positive)样本和一个或多个负(negative)样本。正样本中的摘要与文档一致,而负样本中的摘要与文档不一致。一致性检测模型105可以从正样本中学习到具有何种特性的摘要与文档是彼此相一致的,并可以从负样本中学习到具有何种特性的摘要与文档是彼此不一致的。
在本文中,“文档”指的是部分或全部呈现自然语言形式的文本的对象。文档可以具有任何电子格式,只要可以提取其中的文本信息即可。在后续处理中,以文档中的文本作为处理对象。每个文档可以包括多个文本单元。
在本文中,“摘要”指的是文档的简化版本,其以更简洁、更少的文本来表述文档中的重要信息。每个摘要可以包括多个文本单元。
在本文中,“文本单元”指的是在自然语言处理任务中处理的单元,并且其粒度可以根据应用而改变和设置。例如,文本单元可以包括词、短语、符号、前述的组合,或者任何其他在自然语言表达中会出现的单元。在一些示例中,文本单元也被称为令牌(token)。
在训练前,一致性检测模型105的参数值可以是被初始化的,或者是可以通过预训练过程而获得经预训练的参数值。经过训练过程,一致性检测模型105的参数值被更新和调整。在训练完成后,一致性检测模型105具有训练后的参数值。基于这样的参数值,一致性检测模型105能够被用于实现摘要与文档的一致性检测任务。
在图1中,模型应用系统120接收输入的源文档132和目标摘要134。模型应用系统120可以被配置为利用训练后的一致性检测模型105来执行针对源文档132和目标摘要134的一致性检测。
在图1中,模型训练系统110和模型应用系统120可以是任何具有计算能力的系统,例如各种计算设备/系统、终端设备、服务器等。终端设备可以是任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。服务器包括但不限于大型机、边缘计算节点、云环境中的计算设备,等等。
应当理解,图1示出的环境中的部件和布置仅是示例,适于用于实现本公开所描述的示例实施例的计算系统可以包括一个或多个不同的部件、其他部件和/或不同的布置方式。例如,虽然被示出为是分离的,但模型训练系统110和模型应用系统120可以集成在相同系统或设备。本公开的实施例在此方面不受限制。
以下将继续参考附图,分别描述模型训练和模型应用的示例实施例。
模型训练架构
根据本公开的实施例,提出了一种改进的文档和摘要的一致性检测方案。根据该方案,在训练一致性检测模型时,针对用于训练的负样本,即摘要与文档不匹配的样本,利用对抗数据增强的训练方式,构建对抗负样本。对抗负样本通常是通过向负样本施加扰动信息来生成的。在本公开的实施例中,提出了一种更有效的对抗数据增强方式来构建对抗负样本。然而,利用负样本和对抗负样本来训练一致性检测模型,使该模型能够更好地检测和追踪摘要中与文档不一致的部分。
图2示出了根据本公开的一些实施例的用于训练一致性检测模型105的架构200的示例。图2的架构200可以被实现在图1的模型训练系统110中。架构200中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
如图2所示,示出了用于训练一致性检测模型105的样本202和204。样本202和204要被用于训练一致性检测模型105,例如可以被包括图1所示的样本112。样本202和204可以被表示为文本序列的形式,该文本序列包括文档的多个文本单元和摘要的多个文本单元级联而成。此外,为了区别,在一些实施例中,样本202和204的文本序列还包括位于起始位置的符号[CLS],用于指示文本序列的起始,以及插入在文档和摘要之间的符号[SEP],用于分隔文档和摘要。
在图2中,所示出的样本202包括文档211和摘要213,其中摘要213与文档211不一致,即样本202是用于训练一致性检测模型105的负样本,也称为不一致样本。所示出的样本204包括文档215和摘要217,其中摘要217与文档215不一致,即样本204是用于训练一致性检测模型105的正样本,也称为一致样本。每个样本的文档与摘要的一致性由标注信息集116指示。
为讨论的目的,样本202(被表示为xp)中的文档211可以被表示为s={s1,s2,...sLs1},其中sn表示文档211中的第n个文本单元(或令牌),n=1,2,……Ls1,Ls1表示文档211中的文本单元的数目。样本202中的摘要213可以被表示为t’={t’1,t’2,...t’Lt1},其中t’n表示摘要213中的第n个文本单元(或令牌),n=1,2,……Lt1,Lt1表示摘要213中的文本单元的数目。
样本204(被表示为xn)中的文档215可以被表示为s={s1,s2,...sLs2},其中sn表示文档215中的第n个文本单元(或令牌),n=1,2,……Ls2,Ls2表示文档215中的文本单元的数目。样本204中的摘要217可以被表示为t={t1,t2,...tLt2},其中tn表示摘要217中的第n个文本单元(或令牌),n=1,2,……Lt2,Lt2表示摘要217中的文本单元的数目。
不同样本中的文档与摘要的文本单元的可以相同或不相同。在一些实施例中,为了后续处理方便,可以通过填充方式,使不同样本中的文档和摘要级联得到的文本序列所包括的文本单元等于预定数目。
注意,虽然图2中仅示出了两个样本202和204,在训练一致性检测模型105时,可能需要更多的样本。这些样本不再一一示出。
如图2所示,每个样本的文本序列可以被提供到嵌入层210,以由嵌入层210输出每个样本对应的嵌入表示。在本文中,“嵌入表示”指的是文本序列的向量化表示,其中文本序列中的每个文本单元和其他特殊符号(例如,[CLS]和[SEP])可以被转换到对应的向量。文本序列的总体的向量化表示可以是多维向量形式。这样,后续处理可以在向量化表示的基础上进行。在嵌入表示的生成中,不同文本单元或符号可以被转换到不同的向量。
假设样本的文本序列被表示为x={x1,x2,...xLx},其中xi表示第i个文本单元,i=1,2,……Lx,Lx表示样本中文档和摘要的文本单元以及特殊符号的总数目。嵌入层210生成的嵌入表示为e,其包括ei=E(xi),其中ei指示文本序列中第i个文本单元或符号转换后的向量。在图2中,嵌入层210对样本202确定嵌入表示212,针对样本204确定嵌入表示214。
在一些实施例中,嵌入层210可以利用预定的文本单元和符号与向量的映射表来执行确定嵌入表示,或者可以利用机器学习模型,例如语言模型等,来提取文本序列的特征作为嵌入表示。本公开的实施例在此方面不受限制。
在一些实施例中,用于训练一致性检测模型105的正样本和负样本(例如,样本204和202)可以从数据库获得,或者从其他数据源获得。在实际应用中,已有数据源中可能存在较多的正样本,即彼此一致的文档与摘要。为了扩充用于训练一致性检测模型105的样本,在一些实施例中,还可以基于已有的正样本来构建负样本,从而获得人造训练数据。这样可以避免人工生成或标记负样本所导致的巨大成本,并且可以实现在仅有正样本的监督信息的基础上,也能够快速有效且低成本地获得负样本及其监督信息用于模型训练。
在生成人造训练数据的实施例中,假设图2中具有不一致的文档211和摘要213的样本202是从正样本(例如,样本204)生成的。假设正样本204被表示为xn={s,t},其中s表示文档215,t表示摘要217。在生成样本202时,可以通过修改摘要217中的一个或多个文本单元,来破坏摘要217与文档215的一致性,以获得不一致的样本202。在这样的实施例中,样本204可以被表示为xp={s,t’},,文档211与样本205中的文档215相同,即s,摘要213(即,t’)是摘要217(即,t)的修改后的版本。在生成人造训练数据的实施例中,标注信息集116不仅记录已有的样本204的标注信息,还补充新生成的样本202的标注信息,该标注信息指示文档211与摘要213不一致。
可以通过多种方式来破坏摘要217与文档215的一致性。下文将描述一些示例方式。
在一些实施例中,可以通过实体替换的方式来修改摘要217中的一个或多个文本单元。具体地,可以将摘要217中的实体替换为文档215中具有相同类型的实体,以得到摘要213。在一些示例中,可以替换摘要217中的一个或多个实体。在文本中,“实体”指的是事物或概念。每个实体可以由一个或多个文本单元(例如,单词、词组)等表示。实体可以按类型划分为人、角色、对象、事件等。在修改摘要217时,可以将摘要217中存在的实体(例如,人名)替换为文档215中出现的相同类型的另一实体(例如,另一人名)。在一些实施例中,可以从文档215中随机选择相同类型的另一实体。在一些实施例中,为了降低由于近义词、同义词等导致的误差,还可以计算摘要217中要替换的实体与从文档215中随机选择的相同类型的多个实体之间的相似度,并且利用文档215中具有相似度大于阈值相似度的实体来替换摘要217中的实体。实体之间的相似度例如可以基于文本的距离算法来衡量。阈值相似度可以根据需要配置。
在一些实施例中,附加地或备选地,可以通过代词替换的方式来修改摘要217中的一个或多个文本单元。具体地,可以将摘要217中的代词替换为另一代词,以得到摘要213。每个代词可以由一个或多个文本单元(例如,单词、词组)等表示。另一代词可以是与摘要217中的代词所在的句子语法匹配的代词,以避免修改后的摘要存在语法错误。例如,可以将代词“他”和“他的”分别与代词“她”和“她的”相互替换,将代词“他们”、“我们”、“你们”等相互替换,等等。在一些实施例中,可以替换摘要217中的一个或多个代词。在一些实施例中,可以随机选择摘要217中要被替换的代词。
在一些实施例中,附加地或备选地,可以通过肯定-否定修改方式来修改摘要217中的一个或多个文本单元。具体地,可以将摘要217中肯定形式的动词修改为否定形式的动词,和/或将否定形式的动词修改为肯定形式的代词,以得到摘要213。每个动词可以由一个或多个文本单元(例如,单词、词组)等表示。通过将动词在肯定形式与否定形式之间更改,会更改摘要217所描述的事实,从而使修改后得到的摘要与原始的文档215不一致。在一些实施例中,在诸如英语等拉丁语系的语言中,还可以具体修改助动词,例如be动词、情态动词(例如,should、could、would等)的肯定形式和否定形式。在一些实施例中,可以替换摘要217中的一个或多个动词。在一些实施例中,可以随机选择摘要217中要被替换的动词。
图3示出了根据本公开的一些实施例的源文档和摘要的示例。在该示例中,给出了文档310以及,与文档310在事实上一致的摘要320。摘要320正确概述文档310中的关键信息,例如文档310中加粗带下划线的句子。因此,文档310和摘要320可以组成一致性的正样本。为了破坏文档310与摘要320的一致性,通过实体替换的方式,将摘要320中的人名实体“Davis”替换为文档320中出现的另一个人名实体“Harry”,从而得到修改后的摘要330。摘要330所描述的事实与文档310不再一致,因此文档310和摘要330可以组成不一致的负样本。
以上描述了修改正样本的摘要中的一些示例方式,以构造负样本中的摘要。在其他实施例中,还可以应用其他方式来修改摘要217,以构建与原始文档不一致的摘要。在一些实施例中,对于同一摘要217,可以利用一种或多种方式来修改摘要217中的一个或多个文本单元。
在摘要213中,通过修改摘要217中的文本单元所得到的修改后的文本单元是导致摘要213与原始文档不一致的原因,因此那个或那些文本单元可以被标记为与原始文档不一致。这样的标记在后续模型训练中将被使用。
在一些实施例中,除从已有的正样本构建负样本之外或者作为备选的方案,还可以从已有的数据库或者通过人工的方式获得一个或多个负样本用于训练一致性检测模型105。在一些实施例中,对于某些正样本,还可以不构建对应的负样本。本公开的实施例在此方面不受限制。
在一些实施例中,除了基于正样本和负样本来训练一致性检测模型105之外,还可以利用对抗增强的方式,来提高一致性检测模型105的鲁棒性。通常,在一般的正样本和负样本基础上,特别是在人工构造的样本上训练出来的模型,往往对简单的输入能够给出正确的结果,但对于实际应用中可能出现的复杂情况的鲁棒性不高。因此,对抗增强的方式能够提高所训练的模型对复杂样本鲁棒性。
笼统来说,对抗增强的方式是向已有样本(正样本和负样本)施加干扰信息,以获得对抗样本。由于干扰信息的加入,对抗样本区别于简单的已有样本。在模型训练时,要求模型针对对抗样本进行学习,以针对对抗样本也能够输出与已有样本相同的检测结果。例如,对于从已有的正样本构建的对抗正样本,要求模型能够判断对抗正样本中的摘要与文档相一致,而对于从已有的负样本构建的对抗负样本,要求模型能够判断对抗负样本中的摘要与文档不一致。通过这种方式训练出的模型,在面对实际应用中变化的复杂输入时,也能够给出正确的检测结果。
对抗增强在机器学习应用中常被使用。然而,在常规方案中,对于正样本和负样本,均以相同方式将扰动信息完全施加到样本中。本申请的发明人发现,在涉及文档与摘要的一致性检测的任务中,在提高检测的准确性以及对于摘要中错误部分的追踪方面,这样的扰动施加方式是不利的。因此,根据本公开的实施例,提出了改进的对抗增强方式。下文将首先讨论如何确定用于生成对抗样本的扰动信息,然后讨论改进的对抗增强方式。
在一些实施例中,可以针对正样本和负样本均确定扰动信息。仍参考图2,以样本202和样本204为例说明。可以将样本202和样本204分别应用到一致性检测模型105,具体地将样本202对应的嵌入表示212和样本204对应的嵌入表示214输入到一致性检测模型105。一致性检测模型105利用当前的参数值来处理嵌入表示212和214,以给出相应的检测结果。针对样本202的检测结果指示样本202中的摘要213与文档211是否一致,针对样本204的检测结果指示样本204中的摘要215与文档217是否一致。当前的检测结果反映一致性检测模型105初始的或者中间学习到的检测能力。注意,模型的训练过程是一个迭代过程,在迭代过程中模型的检测能力会不断提高。
在一些实施例中,一致性检测模型105可以包括特征提取部分和结果预测部分。特征提取部分用于从嵌入表示提取与文档和摘要相关的特征表示。特征提取部分可以被认为是对文本序列的编码过程,特征表示可以被表示为ri=f(E(xi)),其中f(·)表示特征提取处理,ri表示针对输入的文本序列中第i个文本单元或特殊符号xi提取的特征表示。在一些实施例中,特征提取部分可以利用各种适合用于对文本进行特征提取的机器学习模型、神经网络等来实现,例如Roberta模型,各种编码器模型等。
结果预测部分用于基于特征提取部分提取的特征来确定预测结果,即输入的摘要与文档是否一致。在一些实施例中,结果预测部分可以被实现为线性层,例如softmax层等。一致性检测模型105的输出是二分类输入,即一致与不一致两种预测结果。
由一致性检测模型105针对各个样本生成的检测结果被提供给损失函数计算模块220。损失函数计算模块220被配置为基于标注信息集116,确定一致性检测模型105针对每个样本生成的检测结果与标注信息集116中针对该样本的标注信息之间的差异。在一些实施例中,这样的差异可以被表示为损失函数的形式,例如交叉熵损失,可以被表示为
Figure BDA0003260335280000141
其中e表示一个样本(具体是样本的嵌入表示),θ表示一致性检测模型105的当前参数值,Y表示样本的标注信息,Y∈{一致、不一致}。损失函数
Figure BDA0003260335280000142
用于衡量一致性检测模型105基于当前的参数值,对样本e给出的预测结果与标注信息Y给出的真实结果之间的差异。
在模型训练过程中,训练目标被配置为使一致性检测模型105对样本的检测结果与标注信息之间的差异降低或最小化,例如降低到某个预定阈值(根据需要设置)内。这样的训练目标可以通过更新一致性检测模型105的参数值,从而使损失函数
Figure BDA0003260335280000143
降低或最小化来实现。具体地,架构200中包括参数更新模块230,其被配置为根据该训练目标来更新一致性检测模型105的参数值。因此,损失函数
Figure BDA0003260335280000144
可以被提供给参数更新模块230以用于模型的参数值更新。
在训练的初始阶段时,由于参数值不理想,一致性检测模型105可能还不能够准确预测输入的样本中文档与摘要的一致性,随着参数值不断更新,模型的检测能力得到提高,从而损失函数的值会被不断降低。
基于损失函数来执行模型训练时,可以利用各种训练方法,例如随机梯度下降法等来更新模型参数,从而确定如何更新模型的参数值。
在一些实施例中,在确定某个样本的对抗样本时,可以基于原始的样本的检测结果与标注信息之间的差异,即基于损失函数
Figure BDA0003260335280000145
来确定要施加到样本的总干扰信息。基于总干扰信息和原始的样本,来生成对抗样本。
在图2中,可以由扰动确定模块240来确定各个样本的总干扰信息。总干扰信息可以被表示为扰动向量(perturbation vector),其包括被施加到样本的文本序列(例如,样本202或204)的每个文本单元或特殊符号上的向量。在一些实施例,总干扰信息可以被确定为能够最大化损失函数
Figure BDA0003260335280000146
的最差干扰向量,也就是说,期望总干扰信息能够干扰或阻碍一致性检测模型105对对抗样本的正确检测,以便增强一致性检测模型105对对抗样本的检测能力。
在一些示例中,针对样本的总干扰信息的确定可以被表示为如下:
Figure BDA0003260335280000151
其中
Figure BDA0003260335280000156
表示针对样本e确定的总干扰信息,∈表示总干扰信息的范数界,其可以是预定值,e+v表示向样本e施加干扰信息v后得到的对抗样本,arg max()表示在损失函数
Figure BDA0003260335280000157
最大化的情况下所得到的干扰信息v,其被确定为针对样本e确定的总干扰信息
Figure BDA00032603352800001517
考虑到一致性检测模型105的复杂性,可能难以准确计算总干扰信息
Figure BDA00032603352800001518
在一些实施例中,可以通过各种近似的方式,从式(1)确定总干扰信息
Figure BDA00032603352800001519
在一些实现中,可以利用快速梯度值(Fast Gradient Value,FGV)算法来计算总干扰信息
Figure BDA00032603352800001520
这可以被表示为如下:
Figure BDA0003260335280000152
其中
Figure BDA0003260335280000153
在式(2)中,梯度g是损失函数
Figure BDA00032603352800001512
的一阶微分,其表示损失函数关于样本e的快速变化,即快速增长的方向;
Figure BDA0003260335280000154
表示对梯度g的归一化,其中||g||表示梯度g的范数。这样的归一化可以确保总干扰信息的近似值
Figure BDA00032603352800001513
更合理。
如图2所示,扰动确定模块240基于损失函数
Figure BDA0003260335280000155
例如利用式(2),确定针对样本202的干扰信息242并通过归一化,获得针对样本202的总干扰信息252
Figure BDA00032603352800001521
扰动确定模块240可以类似地确定针对样本204的干扰信息244,并通过归一化确定针对样本204的总干扰信息254
Figure BDA00032603352800001522
针对一个样本确定的总干扰信息
Figure BDA00032603352800001516
包括被施加到样本中的各个文本单元的干扰向量。根据本公开的实施例,在确定针对负样本的对抗样本时,过滤出要被施加到负样本的摘要中被标记为不一致的文本单元的干扰信息部分,并对负样本中的其他文本单元施加干扰信息。也就是说,对于负样本,摘要中被标记为与文档不一致的那个/那些文本单元将不会被施加干扰。
在图2的示例中,样本202是负样本,因此,总干扰信息252将由过滤向量262过滤,以得到过滤后的干扰信息272
Figure BDA0003260335280000166
过滤向量262可以由0和1组成,其中0的值被施加到总干扰信息252中与摘要213中被标记为不一致的文本单元对应的干扰向量,1的值被施加到总干扰信息252中与文档211以及摘要213中的其他文本单元对应的干扰向量。因此,干扰信息272中不再包括与摘要213中被标记为不一致的文本单元对应的干扰向量。
在一些实施例中,在从正样本构造负样本202时,可以标记摘要213中哪个/哪些文本单元是从摘要217修改得到的,这样在过滤时可以直接利用这样的标记信息。在一些实施例中,如果从已有数据源直接获得负样本202,可以通过其他方式,人工或自动地标记处摘要213中与文档211不一致的文本单元。
干扰信息272
Figure BDA0003260335280000162
被施加到样本202,例如被施加到样本202对应的嵌入表示e,得到样本202的对抗样本对应的嵌入表示216,其被表示为
Figure BDA0003260335280000167
在一些实施例中,对于正样本,例如样本204,归一化后得到的总干扰信息254
Figure BDA0003260335280000164
可以被直接施加到样本204对应的嵌入表示e,得到样本204的对抗样本对应的嵌入表示218,其被表示为
Figure BDA0003260335280000168
也就是说,对于正样本,文档和摘要的各个文本单元均可能被干扰。
正样本和负样本的对抗样本也可以被应用一致性检测模型105,以用于构建另外的损失函数。例如,如图2所示,样本202和204对应的对抗样本的嵌入表示216和218可以分别被输入到一致性检测模型105,以由一致性检测模型105利用当前的参数值来分别处理嵌入表示216和218,以给出相应的检测结果。针对嵌入表示216的检测结果指示样本202对应的对抗样本中的摘要与文档是否一致,即,被干扰后的摘要213与被干扰后的文档211是否一致。针对嵌入表示218的检测结果指示样本204对应的对抗样本中的摘要与文档是否一致,即,被干扰后的摘要217与被干扰后的文档215是否一致。
对抗样本的标注信息与原样本的标注信息一致。换言之,期望一致性检测模型105具有更高的鲁棒性,对于被干扰信息改动后的摘要和文档,仍然能够给出与未被干扰之前的摘要和样本相同的检测结果。
由一致性检测模型105针对各个样本生成的检测结果被提供给损失函数计算模块220。损失函数计算模块220被配置为基于标注信息集116,确定一致性检测模型105针对每个对抗样本生成的检测结果与标注信息集116中针对对抗样本对应的原始样本的标注信息之间的差异。在一些实施例中,这样的差异可以被表示为损失函数的形式,例如交叉熵损失,这可以被表示为对抗损失函数
Figure BDA0003260335280000177
其中e’表示一个对抗样本(具体是对抗样本的嵌入表示),θ表示一致性检测模型105的当前参数值,Y表示对抗样本对应的原始样本e的标注信息,Y∈{一致、不一致}。
在模型训练过程中,训练目标被配置为使一致性检测模型105对对抗样本的检测结果与标注信息之间的差异降低或最小化,例如降低到某个预定阈值(根据需要设置)内。这样的训练目标可以通过更新一致性检测模型105的参数值,从而使损失函数
Figure BDA0003260335280000175
降低或最小化来实现。因此,损失函数
Figure BDA0003260335280000176
可以被提供给参数更新模块230以用于模型的参数值更新。
因此,参数更新模块230可以基于两种损失函数来更新模型的参数值,以达到总的训练目标,即使一致性检测模型105对原始样本的检测结果与标注信息之间的差异降低或最小化,并且对抗样本的检测结果与标注信息之间的差异也降低或最小化。参数更新模块230用于模型参数值更新的总损失函数可以被表示为:
Figure BDA0003260335280000171
其中α是在0和1之间的预定值,用于权衡两个损失函数。
基于损失函数来执行模型训练时,参数更新模块230可以利用各种训练方法,例如随机梯度下降法等来更新模型参数,以使总损失函数
Figure BDA0003260335280000181
降低到预定阈值以内或者最小化。
通常,干扰信息的施加和对抗样本的使用是为了让模型对于输入的鲁棒性提高,但这也会降低模型对于输入的敏感性。根据本公开的实施例,通过掩盖掉针对负样本的摘要中不一致的文本单元的干扰信息,使一致性检测模型对于摘要找不一致的文本单元仍然保持敏感性。这不仅能够提高一致性检测模型对于一致性的准确检测能力,而且还可以使一致性检测模型能够更好地追踪摘要中的错误部分,从而获得自动的错误追踪能力。
这样的错误追踪能力是通过使用后向传播的梯度g来实现的。下面来分析如何能够实现这样的错误追踪。
对式(3),假设
Figure BDA0003260335280000189
由于损失函数
Figure BDA0003260335280000183
是利用对抗样本来确定的,其中的对抗样本与标注信息之间的差异程度可能会高于原始的样本与标注信息之间的差异程度,因此
Figure BDA0003260335280000187
式(3)可以被简化为
Figure BDA0003260335280000188
在训练过程中,针对负样本,由于不一致的文本单元的扰动被掩蔽(即未被施加到对抗样本),这些文本单元的变化会导致总损失函数的更大变化,也就是说,一致性检测模型105会保持对这些文本单元的敏感度。因此,这些文本单元的变化会导致检测结果的更大变化,相应地,在利用损失函数计算梯度时,可以观察到损失函数相对于不一致的文本单元的梯度g较高,因为损失函数
Figure BDA0003260335280000186
相对这些不一致的文本单元的变化率更大。这个现象能够在模型应用阶段被利用,从而帮助在模型应用阶段实现对不一致的摘要中的错误进行标记或提醒。这在下文中将详细描述。
模型应用架构
以上讨论的对一致性检测模型105的训练。训练后的一致性检测模型105可以被提供到模型应用系统120中使用,以用于对输入的源文档132和目标摘要134进行一致性的判断。
图4示出了根据本公开的一些实施例的用于应用一致性检测模型105的架构400。图4的架构400可以被实现在图1的模型应用系统120中。架构400中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
如图4所示,源文档132和目标摘要134可以形成文本序列402,其包括源文档132和目标摘要134的文本单元,并且还包括指示文本序列起始的特殊符号[CLS]和用于分隔文档和摘要的特殊符号[SEP]。源文档132可以被表示为s={s1,s2,...sLs},其中sn表示源文档132中的第n个文本单元(或令牌),n=1,2,……Ls,Ls表示源文档132中的文本单元的数目。目标摘要134可以被表示为t={t1,t2,...tLt},其中tn表示目标摘要134中的第n个文本单元(或令牌),n=1,2,……Lt,Lt表示目标摘要134中的文本单元的数目。
文本序列402被提供给嵌入层210,其将文本序列402转换为对应的嵌入表示412。对应的嵌入表示412可以被输入到一致性检测模型105。一致性检测模型105利用训练后的参数值,处理嵌入表示412,以获得目标检测结果415,其指示目标摘要134与源文档132是否一致。
如以上提及的,所训练的一致性检测模型105还能够提供错误追踪能力。具体地,架构400包括错误追踪模块420,其提供错误追踪的功能。如果目标检测结果415指示目标摘要134与源文档132不一致,那么错误追踪模块420被激活。错误追踪模块420确定目标检测结果415相对目标摘要134中的多个目标文本单元的多个变化率。在一些示例中,变化率的计算可以包括计算目标检测结果415相对目标摘要134中的多个目标文本单元的梯度。错误追踪模块420可以基于文本序列402对应的嵌入表示412、模型的当前参数值(即训练后的参数值)以及目标检测结果415,计算交叉熵损失,类似于损失函数
Figure BDA0003260335280000191
然后,计算该交叉熵损失相对目标摘要134中的各个目标文本单元的各个梯度。这些文本单元的梯度分布(即变化率的分布)可以指示每个文本单元对于目标摘要134与源文档132的不一致性的贡献程度。
在一些实施例中,错误追踪模块420基于所确定的变化率,例如各个文本单元的提取,从目标摘要134中选择具有较高变化率的文本单元,并将所选择的文本单元确定为是目标摘要134中的错误文本单元。在一些实施例中,错误追踪模块420可以选择变化率最高的前k个文本单元(k是大于等于1的整数),并将这些文本单元标记为是错误的。在一些实施例中,错误追踪模块420可以提供错误提示信息422,以指示目标摘要134中被确定为错误的一个或多个文本单元。
错误提示信息422可以被提供给用户,从而使用户能够快速了解目标摘要134中哪些文本单元是错误的,从而导致目标摘要134与源文档132不一致。在一些实施例中,还可以通过对目标摘要520中的文本单元的各种标注(高亮、加下划线、虚框等)方式,向用户指示存在不一致的部分。
图5示出了根据本公开的一些实施例的对摘要的错误追踪的示例。在图5的示例中,给出了源文档510和目标摘要520。在该示例中,预定提取变化率在前5的文本单元,将其标记为不一致的文本单元。通过对目标文摘要520中各个文本单元的变化率的确定,可以确定其中的词“day for June 2010”和“holiday”是错误的概括提取,从而导致与源文档510描述的事实存在不一致。
示例过程
图6示出了根据本公开的一些实施例的用于文档与摘要的一致性检测的过程600的流程图。过程600可以被实现在模型训练系统110和/或模型应用系统120处。
在框610,确定第一样本和第一标注信息,第一标注信息指示第一样本包括的第一摘要与第一文档不一致。第一摘要的多个文本单元中的至少一个文本单元被标记为与第一文档不一致。
在一些实施例中,在确定第一样本时,可以基于文档与摘要一致的样本来生成第一样本。具体地,可以获取包括第一文档和第二摘要的第二样本和第二标注信息,第二标注信息指示第二摘要与第一文档一致。通过修改第二摘要中的至少一个文本单元来生成第一摘要,并将第一文档和第一摘要组成第一样本。还可以生成第一标注信息,以指示第一文档与第一摘要不一致。在一些实施例中,第一摘要中包括的被修改后的至少一个文本单元被标记为与第一文档不一致。
在一些实施例中,在生成第一摘要时,可以将第二摘要中的实体替换为第一文档中具有相同类型的另一实体。在一些实施例中,备选地或附加地,在生成第一摘要时,将第二摘要中的代词替换为另一代词。在一些实施例中,备选地或附加地,在生成第一摘要时,将第二摘要中的肯定形式的动词修改为否定形式的动词,和/或将第二摘要中的否定形式的动词修改为肯定形式的动词。
在框620,通过向第一样本施加干扰信息来生成第一对抗样本。干扰信息被施加到第一样本以及第一摘要中除至少一个文本单元之外的其他文本单元。
在一些实施例中,可以通过以下来确定要施加的干扰信息:将第一样本应用于一致性检测模型,以获得一致性检测模型输出的第一检测结果,第一检测结果指示第一样本中的第一文档与第一摘要是否一致。基于第一检测结果与第一标注信息之间的第一差异,确定针对第一样本的总干扰信息。从总干扰信息中过滤出要施加到第一摘要中被标记为不一致的至少一个文本单元的信息部分,以获得干扰信息。这样,对于包含不一致的文档和摘要的第一样本,干扰信息不会被施加到不一致的文本单元。
在框630,至少基于第一样本、第一对抗样本和第一标注信息,根据训练目标来训练一致性检测模型,一致性检测模型被配置为检测摘要与文档是否一致,训练目标被配置为使一致性检测模型对第一样本和第一对抗样本的检测结果与第一标注信息之间的差异均在预定阈值内。
在一些实施例中,在训练一致性检测模型上,可以将第一样本和第一对抗样本分别应用于一致性检测模型,以分别获得一致性检测模型输出的第一检测结果和第二检测结果。第一检测结果指示第一样本中的第一文档与第一摘要是否一致,第二检测结果指示第一文档与第一干扰摘要是否一致。至少基于第一检测结果与第一标注信息之间的第一差异和第二检测结果与第一标注信息之间的第二差异来更新一致性检测模型的参数值。
在一些实施例中,还利用具有一致的文本和摘要的样本来训练一致性检测模型。具体地,可以确定第三样本和第三标注信息,第三标注信息指示第三样本包括的第三文档与第三摘要一致。通过向第三文档和第三摘要施加干扰信息来生成第三对抗样本。还可以基于第三样本、第三对抗样本和第三标注信息,根据训练目标来训练一致性检测模型,训练目标还被配置为使一致性检测模型对第三样本和第三对抗样本的检测结果与第三标注信息之间的差异均在预定阈值内。
训练后的一致性检测模型可以被应用于检测文档与摘要的一致性。具体地,在一些实施例中,获得源文档和目标摘要,并且将源文档和目标摘要应用于训练后的一致性检测模型,以获得一致性检测模型输出的目标检测结果,目标检测结果指示目标摘要与源文档是否一致。
在一些实施例中,训练后的一致性检测模型还可以提供错误追踪能力。具体地,如果目标检测结果指示目标摘要与源文档不一致,确定目标检测结果相对目标摘要中的多个目标文本单元的多个变化率。基于多个变化率,从多个目标文本单元中选择至少一个目标文本单元,至少一个目标文本单元的变化率比目标摘要中的其他文本单元的变化率更大。在一些实施例中,可以提供错误提示信息,以指示目标摘要中的至少一个目标文本单元是错误的。
示例装置和设备
图7示出了根据本公开的一些实施例的用于文档与摘要的一致性检测的装置700的框图。装置700可以被实现为或者被包括在模型训练系统110和/或模型应用系统120中。装置700中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
如图所示,装置700包括确定模块710,被配置为确定第一样本和第一标注信息,第一标注信息指示第一样本包括的第一摘要与第一文档不一致,第一摘要的多个文本单元中的至少一个文本单元被标记为与第一文档不一致。装置700还包括对抗生成模块720,被配置为通过向第一样本施加干扰信息来生成第一对抗样本,干扰信息被施加到第一样本以及第一摘要中除至少一个文本单元之外的其他文本单元。装置700还包括训练模块730,被配置为至少基于第一样本、第一对抗样本和第一标注信息,根据训练目标来训练一致性检测模型,一致性检测模型被配置为检测摘要与文档是否一致,训练目标被配置为使一致性检测模型对第一样本和第一对抗样本的检测结果与第一标注信息之间的差异均在预定阈值内。
在一些实施例中,确定模块710包括:获取模块,被配置为获取包括第一文档和第二摘要的第二样本和第二标注信息,第二标注信息指示第二摘要与第一文档一致;摘要生成模块,被配置为通过修改第二摘要中的至少一个文本单元来生成第一摘要;样本组成模块,被配置为将第一文档和第一摘要组成第一样本;以及标注生成模块,被配置为生成第一标注信息,以指示第一文档与第一摘要不一致。
在一些实施例中,第一摘要中包括的被修改后的至少一个文本单元被标记为与第一文档不一致。
在一些实施例中,摘要生成模块被配置为通过以下至少一项来修改第二摘要中的至少一个文本单元:将第二摘要中的实体替换为第一文档中具有相同类型的另一实体,将第二摘要中的代词替换为另一代词,将第二摘要中的肯定形式的动词修改为否定形式的动词,以及将第二摘要中的否定形式的动词修改为肯定形式的动词。
在一些实施例中,装置700还包括干扰确定模块,被配置为通过以下来确定要施加的干扰信息:将第一样本应用于一致性检测模型,以获得一致性检测模型输出的第一检测结果,第一检测结果指示第一样本中的第一文档与第一摘要是否一致;基于第一检测结果与第一标注信息之间的第一差异,确定针对第一样本的总干扰信息;以及从总干扰信息中过滤出要施加到第一摘要中被标记为不一致的至少一个文本单元的信息部分,以获得干扰信息。
在一些实施例中,模型训练模块720包括:样本应用模块,被配置为将第一样本和第一对抗样本分别应用于一致性检测模型,以分别获得一致性检测模型输出的第一检测结果和第二检测结果,第一检测结果指示第一样本中的第一文档与第一摘要是否一致,第二检测结果指示第一文档与第一干扰摘要是否一致;以及参数更新模块,被配置为至少基于第一检测结果与第一标注信息之间的第一差异和第二检测结果与第一标注信息之间的第二差异来更新一致性检测模型的参数值。
在一些实施例中,模型训练模块720还包括:样本确定模块,被配置为确定第三样本和第三标注信息,第三标注信息指示第三样本包括的第三文档与第三摘要一致;另一对抗样本生成模块,被配置为通过向第三文档和第三摘要施加干扰信息来生成第三对抗样本;以及另外的模型训练模块,被配置为还基于第三样本、第三对抗样本和第三标注信息,根据训练目标来训练一致性检测模型,训练目标还被配置为使一致性检测模型对第三样本和第三对抗样本的检测结果与第三标注信息之间的差异均在预定阈值内。
在一些实施例中,装置700还包括文档和摘要获得模块,被配置为获得源文档和目标摘要;以及模型应用模块,被配置为将源文档和目标摘要应用于训练后的一致性检测模型,以获得一致性检测模型输出的目标检测结果,目标检测结果指示目标摘要与源文档是否一致。
在一些实施例中,装置700还包括:变化率确定模块,被配置为如果目标检测结果指示目标摘要与源文档不一致,确定目标检测结果相对目标摘要中的多个目标文本单元的多个变化率;文本单元选择模块,被配置为基于多个变化率,从多个目标文本单元中选择至少一个目标文本单元,至少一个目标文本单元的变化率比目标摘要中的其他文本单元的变化率更大;以及错误提示模块,被配置为提供错误提示信息,以指示目标摘要中的至少一个目标文本单元是错误的。
图8示出了示出了其中可以实施本公开的一个或多个实施例的计算设备800的框图。应当理解,图8所示出的计算设备800仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图8所示出的计算设备800可以用于实现图1的模型训练系统110和/或模型应用系统120。
如图8所示,计算设备800是通用计算设备的形式。计算设备800的组件可以包括但不限于一个或多个处理器或处理单元810、存储器820、存储设备830、一个或多个通信单元840、一个或多个输入设备850以及一个或多个输出设备860。处理单元810可以是实际或虚拟处理器并且能够根据存储器820中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备800的并行处理能力。
计算设备800通常包括多个计算机存储介质。这样的介质可以是计算设备800可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器820可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备830可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备800内被访问。
计算设备800可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图8中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器820可以包括计算机程序产品825,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元840实现通过通信介质与其他计算设备进行通信。附加地,计算设备800的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备800可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备850可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备860可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备800还可以根据需要通过通信单元840与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备800交互的设备进行通信,或者与使得计算设备800与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (20)

1.一种用于文档与摘要的一致性检测的方法,包括:
确定第一样本和第一标注信息,所述第一标注信息指示所述第一样本包括的第一摘要与第一文档不一致,所述第一摘要的多个文本单元中的至少一个文本单元被标记为与所述第一文档不一致;
通过向所述第一样本施加干扰信息来生成第一对抗样本,所述干扰信息被施加到所述第一样本以及所述第一摘要中除所述至少一个文本单元之外的其他文本单元;以及
至少基于所述第一样本、所述第一对抗样本和所述第一标注信息,根据训练目标来训练一致性检测模型,所述一致性检测模型被配置为检测摘要与文档是否一致,所述训练目标被配置为使所述一致性检测模型对所述第一样本和所述第一对抗样本的检测结果与所述第一标注信息之间的差异均在预定阈值内。
2.根据权利要求1所述的方法,其中确定所述第一样本和所述第一标注信息包括:
获取包括所述第一文档和第二摘要的第二样本和第二标注信息,所述第二标注信息指示所述第二摘要与所述第一文档一致;
通过修改所述第二摘要中的至少一个文本单元来生成所述第一摘要;
将所述第一文档和所述第一摘要组成所述第一样本;以及
生成所述第一标注信息,以指示所述第一文档与所述第一摘要不一致。
3.根据权利要求2所述的方法,其中所述第一摘要中包括的被修改后的所述至少一个文本单元被标记为与所述第一文档不一致。
4.根据权利要求2所述的方法,其中生成所述第一摘要包括:通过以下至少一项来修改所述第二摘要中的至少一个文本单元:
将所述第二摘要中的实体替换为所述第一文档中具有相同类型的另一实体,
将所述第二摘要中的代词替换为另一代词,
将所述第二摘要中的肯定形式的动词修改为否定形式的动词,以及
将所述第二摘要中的否定形式的动词修改为肯定形式的动词。
5.根据权利要求1所述的方法,还包括通过以下来确定要施加的所述干扰信息:
将所述第一样本应用于所述一致性检测模型,以获得所述一致性检测模型输出的第一检测结果,所述第一检测结果指示所述第一样本中的所述第一文档与所述第一摘要是否一致;
基于所述第一检测结果与所述第一标注信息之间的第一差异,确定针对所述第一样本的总干扰信息;以及
从所述总干扰信息中过滤出要施加到所述第一摘要中被标记为不一致的所述至少一个文本单元的信息部分,以获得所述干扰信息。
6.根据权利要求1所述的方法,其中训练所述一致性检测模型包括:
将所述第一样本和所述第一对抗样本分别应用于所述一致性检测模型,以分别获得所述一致性检测模型输出的第一检测结果和第二检测结果,所述第一检测结果指示所述第一样本中的所述第一文档与所述第一摘要是否一致,所述第二检测结果指示所述第一文档与所述第一干扰摘要是否一致;以及
至少基于所述第一检测结果与所述第一标注信息之间的第一差异和所述第二检测结果与所述第一标注信息之间的第二差异来更新所述一致性检测模型的参数值。
7.根据权利要求1所述的方法,其中训练所述一致性检测模型还包括:
确定第三样本和第三标注信息,所述第三标注信息指示所述第三样本包括的第三文档与第三摘要一致;
通过向所述第三文档和所述第三摘要施加干扰信息来生成第三对抗样本;以及
还基于所述第三样本、所述第三对抗样本和所述第三标注信息,根据所述训练目标来训练所述一致性检测模型,所述训练目标还被配置为使所述一致性检测模型对所述第三样本和所述第三对抗样本的检测结果与所述第三标注信息之间的差异均在所述预定阈值内。
8.根据权利要求1至7中任一项所述的方法,还包括:
获得源文档和目标摘要;以及
将所述源文档和所述目标摘要应用于训练后的所述一致性检测模型,以获得所述一致性检测模型输出的目标检测结果,所述目标检测结果指示所述目标摘要与所述源文档是否一致。
9.根据权利要求8所述的方法,还包括:
如果所述目标检测结果指示所述目标摘要与所述源文档不一致,确定所述目标检测结果相对所述目标摘要中的多个目标文本单元的多个变化率;
基于所述多个变化率,从所述多个目标文本单元中选择至少一个目标文本单元,所述至少一个目标文本单元的变化率比所述目标摘要中的其他文本单元的变化率更大;以及
提供错误提示信息,以指示所述目标摘要中的所述至少一个目标文本单元是错误的。
10.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行以下动作:
确定第一样本和第一标注信息,所述第一标注信息指示所述第一样本包括的第一摘要与第一文档不一致,所述第一摘要的多个文本单元中的至少一个文本单元被标记为与所述第一文档不一致;
通过向所述第一样本施加干扰信息来生成第一对抗样本,所述干扰信息被施加到所述第一样本以及所述第一摘要中除所述至少一个文本单元之外的其他文本单元;以及
至少基于所述第一样本、所述第一对抗样本和所述第一标注信息,根据训练目标来训练一致性检测模型,所述一致性检测模型被配置为检测摘要与文档是否一致,所述训练目标被配置为使所述一致性检测模型对所述第一样本和所述第一对抗样本的检测结果与所述第一标注信息之间的差异均在预定阈值内。
11.根据权利要求10所述的设备,其中确定所述第一样本和所述第一标注信息包括:
获取包括所述第一文档和第二摘要的第二样本和第二标注信息,所述第二标注信息指示所述第二摘要与所述第一文档一致;
通过修改所述第二摘要中的至少一个文本单元来生成所述第一摘要;
将所述第一文档和所述第一摘要组成所述第一样本;以及
生成所述第一标注信息,以指示所述第一文档与所述第一摘要不一致。
12.根据权利要求11所述的设备,其中所述第一摘要中包括的被修改后的所述至少一个文本单元被标记为与所述第一文档不一致。
13.根据权利要求11所述的设备,其中生成所述第一摘要包括:通过以下至少一项来修改所述第二摘要中的至少一个文本单元:
将所述第二摘要中的实体替换为所述第一文档中具有相同类型的另一实体,
将所述第二摘要中的代词替换为另一代词,
将所述第二摘要中的肯定形式的动词修改为否定形式的动词,以及
将所述第二摘要中的否定形式的动词修改为肯定形式的动词。
14.根据权利要求10所述的设备,还包括通过以下来确定要施加的所述干扰信息:
将所述第一样本应用于所述一致性检测模型,以获得所述一致性检测模型输出的第一检测结果,所述第一检测结果指示所述第一样本中的所述第一文档与所述第一摘要是否一致;
基于所述第一检测结果与所述第一标注信息之间的第一差异,确定针对所述第一样本的总干扰信息;以及
从所述总干扰信息中过滤出要施加到所述第一摘要中被标记为不一致的所述至少一个文本单元的信息部分,以获得所述干扰信息。
15.根据权利要求10所述的设备,其中训练所述一致性检测模型包括:
将所述第一样本和所述第一对抗样本分别应用于所述一致性检测模型,以分别获得所述一致性检测模型输出的第一检测结果和第二检测结果,所述第一检测结果指示所述第一样本中的所述第一文档与所述第一摘要是否一致,所述第二检测结果指示所述第一文档与所述第一干扰摘要是否一致;以及
至少基于所述第一检测结果与所述第一标注信息之间的第一差异和所述第二检测结果与所述第一标注信息之间的第二差异来更新所述一致性检测模型的参数值。
16.根据权利要求10所述的设备,其中训练所述一致性检测模型还包括:
确定第三样本和第三标注信息,所述第三标注信息指示所述第三样本包括的第三文档与第三摘要一致;
通过向所述第三文档和所述第三摘要施加干扰信息来生成第三对抗样本;以及
还基于所述第三样本、所述第三对抗样本和所述第三标注信息,根据所述训练目标来训练所述一致性检测模型,所述训练目标还被配置为使所述一致性检测模型对所述第三样本和所述第三对抗样本的检测结果与所述第三标注信息之间的差异均在所述预定阈值内。
17.根据权利要求10至16中任一项所述的设备,其中所述动作还包括:
获得源文档和目标摘要;以及
将所述源文档和所述目标摘要应用于训练后的所述一致性检测模型,以获得所述一致性检测模型输出的目标检测结果,所述目标检测结果指示所述目标摘要与所述源文档是否一致。
18.根据权利要求17所述的设备,其中所述动作还包括:
如果所述目标检测结果指示所述目标摘要与所述源文档不一致,确定所述目标检测结果相对所述目标摘要中的多个目标文本单元的多个变化率;
基于所述多个变化率,从所述多个目标文本单元中选择至少一个目标文本单元,所述至少一个目标文本单元的变化率比所述目标摘要中的其他文本单元的变化率更大;以及
提供错误提示信息,以指示所述目标摘要中的所述至少一个目标文本单元是错误的。
19.一种用于文档和摘要的一致性检测的装置,包括
确定模块,被配置为确定第一样本和第一标注信息,所述第一标注信息指示所述第一样本包括的第一摘要与第一文档不一致,所述第一摘要的多个文本单元中的至少一个文本单元被标记为与所述第一文档不一致;
对抗生成模块,被配置为通过向所述第一样本施加干扰信息来生成第一对抗样本,所述干扰信息被施加到所述第一样本以及所述第一摘要中除所述至少一个文本单元之外的其他文本单元;以及
训练模块,被配置为至少基于所述第一样本、所述第一对抗样本和所述第一标注信息,根据训练目标来训练一致性检测模型,所述一致性检测模型被配置为检测摘要与文档是否一致,所述训练目标被配置为使所述一致性检测模型对所述第一样本和所述第一对抗样本的检测结果与所述第一标注信息之间的差异均在预定阈值内。
20.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1至9中任一项所述的方法。
CN202111070769.7A 2021-09-13 2021-09-13 用于文档和摘要的一致性检测的方法、设备、装置和介质 Active CN113779199B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111070769.7A CN113779199B (zh) 2021-09-13 2021-09-13 用于文档和摘要的一致性检测的方法、设备、装置和介质
PCT/CN2022/112869 WO2023035883A1 (zh) 2021-09-13 2022-08-16 用于文档和摘要的一致性检测的方法、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070769.7A CN113779199B (zh) 2021-09-13 2021-09-13 用于文档和摘要的一致性检测的方法、设备、装置和介质

Publications (2)

Publication Number Publication Date
CN113779199A true CN113779199A (zh) 2021-12-10
CN113779199B CN113779199B (zh) 2022-12-27

Family

ID=78843370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070769.7A Active CN113779199B (zh) 2021-09-13 2021-09-13 用于文档和摘要的一致性检测的方法、设备、装置和介质

Country Status (2)

Country Link
CN (1) CN113779199B (zh)
WO (1) WO2023035883A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023035883A1 (zh) * 2021-09-13 2023-03-16 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595629A (zh) * 2018-04-24 2018-09-28 北京慧闻科技发展有限公司 用于答案选择系统的数据处理方法及应用
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
CN110347819A (zh) * 2019-06-21 2019-10-18 同济大学 一种基于正负样本对抗训练的文本摘要生成方法
CN110991181A (zh) * 2019-11-29 2020-04-10 腾讯科技(深圳)有限公司 用于增强已标注样本的方法和设备
CN111078892A (zh) * 2019-11-25 2020-04-28 百度在线网络技术(北京)有限公司 对抗样本生成方法、装置、电子设备及存储介质
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置
CN113204958A (zh) * 2021-05-26 2021-08-03 天九共享网络科技集团有限公司 文档摘要生成方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113779199B (zh) * 2021-09-13 2022-12-27 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备、装置和介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190130221A1 (en) * 2017-11-02 2019-05-02 Royal Bank Of Canada Method and device for generative adversarial network training
CN108595629A (zh) * 2018-04-24 2018-09-28 北京慧闻科技发展有限公司 用于答案选择系统的数据处理方法及应用
CN110347819A (zh) * 2019-06-21 2019-10-18 同济大学 一种基于正负样本对抗训练的文本摘要生成方法
CN111078892A (zh) * 2019-11-25 2020-04-28 百度在线网络技术(北京)有限公司 对抗样本生成方法、装置、电子设备及存储介质
CN110991181A (zh) * 2019-11-29 2020-04-10 腾讯科技(深圳)有限公司 用于增强已标注样本的方法和设备
CN111783451A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 用于增强文本样本的方法和装置
CN113204958A (zh) * 2021-05-26 2021-08-03 天九共享网络科技集团有限公司 文档摘要生成方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023035883A1 (zh) * 2021-09-13 2023-03-16 北京有竹居网络技术有限公司 用于文档和摘要的一致性检测的方法、设备和介质

Also Published As

Publication number Publication date
CN113779199B (zh) 2022-12-27
WO2023035883A1 (zh) 2023-03-16

Similar Documents

Publication Publication Date Title
CN112214995B (zh) 用于同义词预测的分层多任务术语嵌入学习
Sun et al. Fast online training with frequency-adaptive learning rates for chinese word segmentation and new word detection
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
Downey et al. Sparse information extraction: Unsupervised language models to the rescue
Yuan et al. Distant supervision for relation extraction with linear attenuation simulation and non-iid relevance embedding
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
WO2023071581A1 (zh) 用于确定响应语句的方法、设备、装置和介质
Namysl et al. NAT: Noise-aware training for robust neural sequence labeling
CN113779199B (zh) 用于文档和摘要的一致性检测的方法、设备、装置和介质
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN112183060B (zh) 多轮对话系统的指代消解方法
CN111723583B (zh) 基于意图角色的语句处理方法、装置、设备及存储介质
WO2023088278A1 (zh) 用于验证表述的真实性的方法、设备、装置和介质
CN113705207A (zh) 语法错误识别方法及装置
JP5635025B2 (ja) 助詞誤り訂正装置、方法、及びプログラム
CN116151258A (zh) 文本消岐方法、电子设备、存储介质
Song Word embeddings, sense embeddings and their application to word sense induction
Hu et al. Corpus of Carbonate Platforms with Lexical Annotations for Named Entity Recognition.
Zuanovic et al. Experiments with neural word embeddings for croatian
CN111832312B (zh) 文本处理方法、装置、设备和存储介质
Kovacevic et al. Application of a Structural Support Vector Machine method to N-gram based text classification in Serbian

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant