CN116097248A

CN116097248A - 用于可控文本概述的系统和方法

Info

Publication number: CN116097248A
Application number: CN202180051981.0A
Authority: CN
Inventors: J·何; W·克里辛斯基; B·麦卡恩
Original assignee: Shuo Power Co
Current assignee: Shuo Power Co
Priority date: 2020-08-28
Filing date: 2021-08-10
Publication date: 2023-05-09
Also published as: US20220067284A1; EP4204991A1; US11934781B2; JP2023536103A; WO2022046403A1

Abstract

本文描述的实施方案提供了一种灵活可控的概述系统，其允许用户控制概述的生成而无需手动编辑或编写概述，例如无需用户在各种程度下实际添加或删除某些信息。具体地，概述系统通过关键字操纵来执行可控概述。神经网络模型进行学习以生成以关键字和源文档为条件的概述，使得在测试时用户可以通过关键字接口与神经网络模型交互，潜在地实现多因素控制。

Description

用于可控文本概述的系统和方法

发明人：J·何、W·克里辛斯基和B·麦卡恩

相关参考

本申请要求2020年12月17日提交的美国专利申请第17/125,468号和2020年8月28日提交的美国临时申请第63/071,571号的优先权，其全部内容通过引用明确地并入本文。

技术领域

本申请总体涉及机器学习模型和神经网络，并且更具体地涉及一种可控文本概述框架。

背景技术

文本概述将文档压缩成短段落或句子作为文档的“概述”，同时预期概述保存来自文档的核心信息。一些现有的概述系统从文档中提取重要的句子以形成概述，而一些其他现有的概述系统通过制定他们自己选择的句子从头开始产生概述。这些概述系统产生的概述仅依赖于输入文档，因此经常导致输入文档的概述的一个版本。概述的通用版本有时可能无法捕获请求概述的用户的不同兴趣。

附图说明

图1A示出了说明根据本文描述的实施方案的概述系统的示例神经网络模型图的框图。

图1B示出了说明根据本文描述的实施方案的在测试时概述系统的控制工作流程的框图。

图2示出了根据本文描述的实施方案的示出可控制的基于概述关键字的模型的推断阶段的示例图。

图3是根据一些实施方案的用于实现概述系统的计算装置的简化图。

图4是示出根据本文所述的一些实施方案的用于训练图2所示的基于关键字的概述模型的方法的简化逻辑流程图。

图5是示出根据本文所述的一些实施方案的用于在推断阶段期间使用图2所示的基于关键字的模型来生成受控概述的方法的简化逻辑流程图。

图6提供了示出根据本文所述的一个实施方案的基于不同的用户控制的配置参数生成的结果概述的定性示例。

图7-14提供了示出根据本文所述的一些实施方案的与现有模型相比本文所述的基于关键字的模型的示例测试性能的示例数据图。

在附图和附录中，具有相同标号的元件具有相同或相似的功能。

具体实施方式

现有的概述系统经常产生只依赖于输入文档的概述，因此经常导致输入文档的概述的一个版本。概述的通用版本有时可能无法捕获请求概述的用户的不同兴趣。例如如果文档包括关于体育新闻的新闻文章，则用户可能希望概述集中在特定的运动员上，或者在给定用户兴趣或可用时间的情况下集中在不同长度的概述上。对概述的不同版本的用户偏好也可以扩展到其他控制因素，例如主题或某些部分(当概述科学论文或书籍时)。

考虑到生成反映用户偏好的文档的定制概述的需要，本文描述的实施方案提供了一种灵活可控的概述系统，其允许用户控制概述的生成而无需手动编辑或编写概述，例如无需用户在各种程度下实际添加或删除某些信息。具体地，概述系统通过关键字操纵来执行可控概述。学习神经网络模型以生成以关键字和源文档为条件的概述，使得在测试时用户可以通过关键字接口与神经网络模型交互，潜在地实现多因素控制。

例如可控概述系统允许用户控制和操纵来自模型的概述。用户可经由用户界面以关键字集合或描述性提示的形式输入控制令牌，其可用于生成反映源文章的用户偏好的定制概述。在训练时，模型学习以源文档和用作外部指导的关键字为条件来预测概述。在推断期间，作为约束解码的目标前缀的关键字和可选提示(例如由用户输入)被组合为控制令牌，以在概述生成中传达用户偏好。

在一个实施方案中，关键字和提示的用户可以是互补的。例如用户可以输入或选择实体名称作为关键字，或者改变关键字的数量以分别控制实体和长度。可以仅使用关键字作为可以从训练概述中识别的附加输入来训练模型。过程既不需要额外的人为注释，也不需要预先定义用于训练的控制方面，但是对于实现广泛范围的文本操纵是相当灵活的。相反，大多数现有的概述系统或者不允许用户输入来控制概述过程，或者需要预先定义的“控制代码”(参见Fan等人2018年发表于Proceedings of the 2nd Workshop on Neuralmachine Translation and Generation的Controllable abstractive summarization；Liu等人2018年发表于Proceedings of EMNLP的Controlling length in abstractivesummarization using a convolutional neural network；Keskar等人2019年发表于arXiv preprint arXiv:1909.05858的Ctrl:A conditional transformer languagemodel for controllable generation)，在此通过引用将其全部明确地并入本文)，这进而要求系统收集用于训练的注释并且不能推广到未见的控制方面，例如在测试时的不同类型的文章或不同类型的控制命令。

如本文所使用的，术语“提示”用来指用作约束概述系统的解码的目标前缀的预定义文本序列。例如提示“本文的主要贡献是：(1)”可以用于约束解码，以概述科学论文的贡献列表。

如本文所使用的，术语“网络”可以包括任何基于硬件或软件的框架，其包括任何人工智能网络或系统、神经网络或系统和/或在其上或随其实现的任何训练或学习模型。

如本文所使用的，术语“模块”可以包括执行一个或多个功能的基于硬件或软件的框架。在一些实施方案中，模块可以在一个或多个神经网络上实现。

可控概述概览

图1A示出了说明根据本文描述的实施方案的概述系统的示例神经网络模型图100a的框图。传统上，训练无约束神经概述方法来学习条件分布p(y/x)，其中x和y分别表示诸如文章和概述的源文档。所生成的概述仅依赖于文档x而不涉及人为。为了控制输出概述，可以使用诸如关键字z的附加控制令牌来表示用户偏好。因此，图100a示出了在训练阶段，用于可控概述的神经网络模型被学习以对概率p(y/x，z)建模，其中x表示源文档文章110，y表示生成的概述130，而z表示从文章110中提取的关键字120。因此，概率p(y/x，z)表示以源文档110和关键字120为条件的概述分布。

图1B示出了根据本文描述的实施方案的框图100b，其示出了在测试时概述系统的控制工作流程。图100b示出了在推断阶段，关键字操纵机构用于桥接用户和关键字接口，称为“控制中心”140。具体地，从例如文章110的源文档中自动提取关键字120a，其可以(可选地)在控制中心140的用户界面处呈现给用户150。然后，用户150可以通过控制中心140与自动关键字120a交互以插入控制令牌z。

在一个实施方案中，控制令牌z可以包括关键字作为训练和推断期间的额外输入。控制令牌还可以可选地包括在测试时间的提示以进一步约束解码过程。控制令牌z——以关键字、提示或两者的组合的形式——可以充当用户与另外的黑盒神经模型之间的接口，从而为用户提供明确控制自动概述的灵活方式。

例如用户150可以配置概述的目标长度(词限制)，提示控制中心140删除多个自动关键字以生成更短的概述。或者，如果用户150指示对特定实体名称感兴趣，则控制中心140可以选择仅保留某些实体相关关键字。此外，用户150还可以编辑定制关键字，这允许更灵活的定制概述，而无需用户直接手动编辑概述。

图2示出了示出根据本文所述的实施方案的可控制的基于概述关键字的模型230的推断阶段的示例图。图2示出了NBA篮球新闻文章210，并且参考概述215描述了几个比赛结果。然而，在这些球队中的某些篮球明星例如(勒布朗·詹姆斯或斯蒂芬·库里)的爱好者，可能只对他们所玩的比赛感兴趣，并且也希望知道运动员的得分。因此，用户150可以通过控制令牌232来提供这样的用户偏好，控制令牌232可以控制基于关键字的模型230处的概述生成。

具体地，在训练时，基于关键字的模型可以学习以源文档和用作外部指导的关键字为条件来预测概述。例如地面真值概述可用于标识源文档中的关键字。在这个例子中，参考概述215可以用于训练。在另一示例中，可以使用针对用户感兴趣的运动员姓名(诸如“德怀恩·韦德”，“詹姆斯”或“斯蒂芬·库里”)上的用户偏好定制的地面真值概述来训练源文档210。

在推断期间，作为约束解码的目标前缀的关键字和可选提示被组合为控制令牌232以传达用户偏好。具体地，关键字提供通用接口来控制概述的多个方面，这允许用户可选地依赖于自动提取的关键字，用户提供的关键字或两者的组合。方法提供了测试时间用户控制和训练过程(包括预训练)的完全分离。因此，基于关键字的模型230可以适用于新的使用情况而不改变模型参数。例如即使在训练期间可能没有训练基于关键字的模型20来特别关注控制实体或长度。

例如可以在训练和测试期间将关键字225输入到基于关键字的模型230，而在测试时可选地使用提示227。虚线表示控制令牌232可以来自源文章210、用户150或两者的可选路径。然后，基于关键字的模型230可以根据推断时间期间的不同关键字225或提示227来生成不同版本的概述235a-c。

计算机环境

图3是根据一些实施方案的用于实现概述系统的计算装置的简化图。如图3所示，计算装置300包括联接到存储器320的处理器310。计算装置300的操作由处理器310控制。并且尽管计算装置300被示为仅具有一个处理器310，但是应当理解，处理器310可以代表计算装置300中的一个或多个中央处理单元、多核处理器、微处理器、微控制器、数字信号处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、图形处理单元(GPU)等。计算装置300可以实现为独立子系统，添加到计算装置的板和/或虚拟机。

存储器320可用于存储由计算装置300执行的软件和/或在计算装置300的操作期间使用的一个或多个数据结构。存储器320可以包括一种或多种类型的机器可读介质。一些常见形式的机器可读介质可以包括软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒，和/或处理器或计算机适于从中读取的任何其他介质。

处理器310和/或存储器320可以布置在任何适当的物理布置中。在一些实施方案中，处理器310和/或存储器320可以在相同的板上、在相同的封装(例如系统级封装)中、在相同的芯片(例如系统级芯片)上，和/或类似物上实现。在一些实施方案中，处理器310和/或存储器310可以包括分布式、虚拟化和/或容器化的计算资源。根据这些实施方案，处理器310和/或存储器310可以位于一个或多个数据中心和/或云计算设施中。

在一些示例中，存储器320可以包括非瞬态的有形的机器可读介质，介质包括可执行代码，可执行代码在由一个或多个处理器(例如处理器310)运行时可以进一步详细描述的方法的可执行代码。例如如图所示，存储器320包括用于控制概述模块330的指令，控制概述模块330可用于实现和/或仿真系统和模型，和/或实现本文进一步描述的任何方法。在一些示例中，可控概述模块330可以接收输入340，例如源文档。数据接口315可以是接收用户键入的输入的任何用户接口，或者可以从数据库接收或检索文档的通信接口。可控概述模块330可以生成输出350，例如概述。

在一些实施方案中，可控概述模块330包括基于关键字的模块331和控制中心332。例如基于关键字的模型331可以类似于图2中的模型230，其可以在训练和测试时采用不同的关键字提取机制。在一个实现中，控制中心332可与数据接口315通信并用作过滤器，以基于从数据接口315获得的用户偏好从自动关键字中选择定制关键字。

在一些例子中，可以使用硬件、软件和/或硬件和软件的组合来实现可控概述模块330和子模块331-232。

可控概述工作流程

图4是示出根据本文所述的一些实施方案的用于训练图2所示的基于关键字的概述模型的方法的简化逻辑流程图。方法400的过程402-412中的一个或多个可以至少部分地以存储在非瞬态、有形、机器可读介质上的可执行代码的形式来实现，当由一个或多个处理器运行时，可使一个或多个处理器执行过程402-412中的一个或多个。在一些实施方案中，方法400可以对应于模块330所使用的方法。

在步骤402，可以例如经由数据接口315接收来自训练数据集的输入文档(例如210)和地面真值概述(例如215)。

在步骤404，可以从文档210中大量地选择句子，其利用引用概述215最大化ROUGE分数。ROUGE分数可以在(Lin，2004)中定义，在此通过引用将其全部内容明确地并入本文。步骤将关键字限制为在重要句子中找到的关键字。

在步骤406，在所提取的句子中识别所有最长的子序列，这些句子与地面真值概述中的子序列相匹配。匹配步骤可以类似于Gehrmann等人2018年在Proceedings of EMNLP中的Bottom-up abstractive summarization中描述的复制字识别方法，在此通过引用将其全部内容明确地并入本文。

在步骤408，从句子中去除重复单词和停止单词，并将剩余记号保持为关键字。因此，与仅输出少数显著词的其他现有关键字提取方法相比，关键字提取保留了在概述中找到的大部分内容词。这通过建立给定关键字在输入(例如源文章210)和目标(例如地面真值概述)中的存在之间的可靠相关性来鼓励对给定关键字的依赖性。它又确保用户提供的关键字在测试时不被模型忽略。

在步骤410，所生成的关键字序列被前置于源文档，通过特殊令牌分开，并被馈送到概述模型。在一个实施方案中，关键字序列保持关键字在源文档中的顺序。在另一个实施方案中，关键字序列可以采用关键字的不同顺序，因为这种顺序在源文档和目标概述之间可能经常不同。关键字也可以通过特殊记号(“|”)与不同的源句子分开。在句子边界未知的应用中，例如当用户提出他们自己的关键字时，可以忽略“|”令牌。

在步骤412，基于关键字的模型生成以输入文档x和关键字z为条件的概述p(y/x,z)的概率分布。然后训练概述模型以端对端方式最大化p(y/x,z)。例如将从概述模型生成的概述的条件概率分布p(y/x,z)与地面真值概述进行比较，以计算交叉熵损失，其可用于通过反向传播来更新概述模型。

在一个实施方案中，在步骤404-408中描述的关键字提取策略可以保留来自在源文档中找到的概述的大多数单词。在没有规则化的情况下，对这样的关键字的依赖性足够强，使得基于关键字的概述模型230可以很少生成概述中的新词。为了对此进行补救，可以在训练时间随机地丢弃关键字，使得基于关键字的概述模型230可以学习依赖于存在于作为模型的输入的一部分的关键字序列中的关键字，同时还学习仍然携带来自不存在于关键字序列中的源文档的关键字信息。注意，可以仅在训练时应用关键字退出。

图5是示出根据本文所述的一些实施方案的用于在推断阶段期间使用图2所示的基于关键字的模型来生成受控概述的方法的简化逻辑流程图。方法500的进程502-514中的一个或多个可以至少部分地以存储在非瞬态有形机器可读介质上的可执行代码的形式来实现，当由一个或多个处理器运行时，可使一个或多个处理器执行进程502-514中的一个或多个。在一些实施方案中，方法500可以对应于模块330所使用的方法。

在步骤502，可以接收输入文档(例如文档210)。例如可以在图3中的数据接口315处接收输入概述。

在步骤504，例如通过序列标记关键字，可以从输入文档中提取关键字集合。例如在推理时间的关键字提取可以被公式化为序列标记任务。具体地，基于BERT的序列标记器(例如220)可以可选地对来自训练数据集的关键字和文档进行训练。基于BERT的序列标记器220可以类似于Devlin等人2018年在arXiv preprint arXiv:1810.04805上发表的BERT:Pre-training of deep bidirectional transformers for language understanding中描述的BERT模型，其在此明确地以引用的方式整体并入本文。然后，标记器可以为测试文档中的每个令牌计算选择概率q_j。类似于训练时间关键字提取(如图4中的步骤404-408所述)，从输入源文档中选择具有最高平均令牌选择概率的一组n_s句子。在这些句子中，具有q_j>ε的句词被选择为最大数量为m_max的关键字。可以基于验证数据集上的不受控制的概述性能来选择三个超参数n_s、ε、m_max。结果对于不同的设置是相当稳健的。

在步骤506，例如经由图2中的控制中心232，可以接收控制令牌序列的用户输入和/或与待生成的概述的特征相关的一个或多个控制参数的用户输入，以将关键字集合修改为定制的关键字集合。在推断时间期间，用户150可以提供反映对概述的实体和长度的关键字控制的控制令牌232的不同配置。

在步骤508，基于接收到的控制令牌序列来修改关键字集合。

在步骤510，可以根据一个或多个控制参数基于该组定制的关键字组为输入文档生成概述。例如实体控制可以产生集中于感兴趣的实体的概述。示例概述235a-c提供了当这些运动员姓名被包括作为直接影响相应概述的关键字时集中于不同运动员的不同版本的概述。

对于另一个例子，用户可以具有关于概述长度的不同偏好，其可以由用户指定的长度参数来控制。具体地，训练数据可以被分成5个由不同概述长度表示的存储空间，使得每个存储空间具有相同数量的实例。然后可以为训练数据上的每个存储空间计算关键字K_l的平均数。在测试时，用户150可以指定长度参数l∈{0，1，2，3，4}以包括由序列标记器220计算的具有最高选择概率的关键字的K_l数目。

在一个实施方案中，利用提示(例如图2中的227)来执行具有单个统一模型的多用途文本生成。具体地，提示可以采取控制令牌序列的形式，并且这样的令牌可以用作目标前缀和关键字。例如提示可用于总结科学文章的贡献。关于科学论文(例如arXiv)的现有数据集收集论文摘要作为概述，其通常包括额外的背景上下文且缺乏对相关联论文的详细贡献描述。在许多情况下，读者将从明确的贡献列表中获益，以便理解论文的新颖性和价值。对于这些情况，控制令牌的提示如“本文的主要贡献是：(1)”可以触发集中于贡献的概述的生成。对于另一个例子，提示可以用于概述专利文档的发明目的。在诸如BIG-PATENT的现有数据集中的专利文档概述常常可能过于复杂，常常覆盖核心方法细节。然而，对于非技术读者，优选的是提供陈述本发明的目的同时忽略技术细节的单语句概述。“本发明的目的是”的提示可用于触发集中于专利目的的输入专利文档的简明概述。对于另一示例，可以使用问题引导的概述来增强用户的阅读理解。人为概述可以受到要求在概述中找到答案的问题的限制。这指出了概述和阅读理解之间的重要联系。如果适当引导，概述模型可以直接回答关于文章的一些问题。这表明将阅读理解视为一种概述形式的可能性。为了验证该假设，控制令牌的提示“Q：问题[文本]？A：”在生成概述时触发阅读理解行为。

示例性能

图6提供了示出根据本文所述的一个实施方案的基于不同的用户控制的配置参数生成的结果概述的定性示例。示例601示出了基于诸如实体名称(例如作为关键字的“ISIS”，“Hasd Al-Shaabi”)、长度、问题和答案格式和/或类似项等不同控制方面被概述成不同版本的概述的源文档。示例602示出了由具有贡献格式(例如“本文的主要贡献是……”)的提示概述的参考概述。实施方案603显示了通过用于本发明目的的提示重新概述的参考概述。

示出基于关键字的模型的性能的附加示例可在不同域的概述数据集上执行：CNN/Dailymail(CNNDM)新闻文章、arXiv科学论文(其描述于Cohan等人2018年在Proceedingsof NAACL(Short Papers)上发表的A discourse-aware attention model forabstractive summarization of long documents)和BIGPATENT专利文档。对于所有数据集，源文档被截短为1024个令牌，目标概述随后被截短为256个令牌。基于关键字的模型中的条件分布p(y/x,z)是预训练的BARTLARGE模型的微调版本，其在几个概述基准上实现了可比较的性能。测试时的自动关键字标记器基于如关于图2所描述的微调的预训练BERTLARGE模型。概述模型的实现基于fairseq工具包，自动关键字提取模型基于HuggingFace变换器库。

对于评价，当可以获得地面真值时，使用ROUGE评分和最近提出的BERTScore(参见Zhang等人2020年在Proceedings of ICLR上发表的BERTScore:Evaluating textgeneration with BERT)。对于参考概述不可用的对照相关评价，(1)在可能时收集地面真值概述，(2)检查概述以遵照对照信号，或(3)采取人为评价。

为了测试实体控制的性能，首先通过向模型提供从地面真值目标提取的甲骨文实体来模拟用户偏好，然后与使用不受控设置中的自动关键字的模型进行比较，以显示甲骨文(Oracle)实体的效果。为了检查解码概述是否涉及实体改变，对文档中的每个实体采样并重复获取100个文档以生成概述。然后计算成功率，所请求实体的分数实际出现在输出概述中。结果以实体是来自前导3个句子还是来自完整文章的分离来报告。为了测试来自不同实体输入的概述是否实际上与文档一致，采样另外100个文档，并且对于出现在引用中的每个“重要”实体随机采样，以及既不出现在引用中也不出现在产生概述的前导三个源句子中的一个“不重要”实体。对于每个(文章、概述)对，采用来自Amazon Mechanical Turk的3个注释器来进行关于是否可以从文章中提取概述的二元判定。然后将多数投票作为结果，并报告实际正确概述的分数。仅对CNNDM进行评价，因为arXiv和BIGPATENT中的许多实例没有可识别的实体。

图7示出了与BART分开的基于关键字的模型(称为CTRLsum)的示例性能。观察到与使用自动关键字相比，使用甲骨文实体有助于将ROUGE-2评分提高3.6分，这意味着CTRLsum能够利用给定实体。图8示出了成功率和实际正确性评估。值得注意的是，本文所述的基于关键字的模型(CTRLsum)实现了达到约95％的前三句实体和全文章实体的高成功率。另一些系统努力包括给定的实体，尤其是不在文章开头出现的实体。来自人为注释器的事实正确性分数表明CTRLsum能够生成与无约束BART基线相当的事实一致的概述，无论感兴趣的实体是否重要。

类似于实体控制，我们首先检查来自参考的甲骨文长度信号的效果以模拟用户偏好。除了ROUGE和BERTScore之外，我们还测量解码的概述和下面的参考之间的长度距离(Liu等人，2018)。具体地，解码概述的实际长度存储空间码l_sys的绝对偏差平均值(MAD)是根据地面真值控码l_ref计算的，作为

处理。为了评估长度信号变化时的概述变化，对1000个文档进一步采样并解码每个文档的5个不同长度的概述。然后在输入存储空间码和实际存储空间码之间报告梨形相关系数(PCC)。在CNNDM和arXiv上进行实验。

在图7中，具有甲骨文长度信号的CTRLsum仅在自动CTRLsum基线上呈现相对小的增益。这意味着甲骨文长度仅传递有限的附加信息以帮助生成参考概述。基于BART运行长度代码基线，其中在测试时的两个训练中将地面真值长度存储空间代码前置于文章。然而，与具有甲骨文长度信号的BART相比，长度编码不能一致地改进。此外，用长度编码方法微调的BART模型几乎忽略PCC接近0的长度信号，如图9所示。这不是非常令人惊讶的，因为当概述器变得更强时，长度代码将不太有用，概述器已经隐含地学习了好的长度预测器。相反，具有长度引导关键字的CTRLsum实现了控制信号和实际输出长度之间的高正PCC，并且与自动基线相比能够减小长度偏差MAD。

没有现有数据集来评价科学论文的贡献概述，给我们的评价带来了挑战。然而，研究者经常在引言部分总结其论文的前沿贡献，这启发我们提取这样的贡献主张作为参考总结。因此，整个arXiv数据库，2和下载其首次提交时间在20193年前六个月内的67K论文的所有论文。用正则表达式提取介绍部分和前沿贡献，并滤出失败的部分。这些贡献被用作参考，并且在去除贡献声明之后的引言部分被用作源文章，以预测引言部分的其余部分的贡献。程序产生1018个测试实例。在arXiv上训练和测试模型。

为了实现概述设置的目的，为了收集以单句发明目的概述为特征的测试数据集，从BIGPATENT中采样1000个测试实例，并将其参考概述提供给来自Amazon MechanicalTurk的人为注释器。对于每个例子，要求一个注释器选择传达本发明目的的句子。选项还被提供给不能识别本发明目的的注释器。在过滤掉无效实例之后，收集763个实例作为测试数据。

图11示出了关于科学论文的贡献概述和关于专利文档的发明目的概述的结果。通过使用提示文本作为解码器前缀和关键字，CTRLsum在大多数情况下优于BART基线。除F1外，我们还在BERTScore中报告了精密度(P)和召回(R)评分。观察到BART基线倾向于过度生成具有低精度分数的完整概述，而CTRLsum能够集中于关键字相关的内容。

在零点设置中，在阅读理解基准上测试问题引导的概述。具体地，分别对域内NewsQA和域外SQuAD1.1评估CNNDM概述模型。CNNDM概述训练数据集中存在一些NewsQA供试品，因为由于基于关键字的模型在训练过程中从未发现问题或答案，因此其仍是合理的无监督设置。除了与香草BART模型比较之外，还包括来自GPT2语言模型(没有微调)的零射性能作为参考点。最大的GPT2模型用1.5B参数省略，因为它由于存储器限制而不能在单个GPU设备中评估。在两个基准上报告F1评分。

BART被预先训练去噪任务以预测源的去噪版本，并且在框外的零拍阅读理解上表现不佳，如图10所示。然而，有趣的是，毫无疑问，在概述任务上精调的BART——训练数据中的回答对——能够分别在NewsQA和SQuAD上将F1得分提高24.4和25.9分。此外，配备有问题关键字的CTRLsum能够进一步将性能提高15.6和17.9分，接近NewsQA上的监督的MatchLSTM得分。这些结果表明，概述可能是一个适合抽象阅读理解的转移任务。

图12示出了没有任何用户输入的不受控制的概述性能，其使用如关于图2所述的自动提取的关键字。在CNNDM和arXiv数据集上，CTRLsum在很大程度上胜过强BART和PEGASUS基线，导致CNNDM的新的最新性能。在BERTScore方面，其性能与BIGPATENT上的BART基线相当，尽管ROUGE-2评分较差。然而，基于BART的模型与基于BIGPATENT的PEGASUS之间存在较大的性能差距。原因可能是不同的数据集处理，次优学习进度或BART和PEGASUS之间的固有差异。

对于受控概述，通过通知注释器预期控制信号，进一步的人工评价结果直接评价“控制”。在实体和目的控制上进行实验。具体地，注释者被告知意图(以获得集中于专利的特定实体或目的的概述)，然后注释者在两个维度上以标度1-5提供分数：(1)控制精度(CA)：概述是否包含关于意图的准确主要信息，以及(2)控制相关性(CR)：概述如何与总体控制意图相关——将对包含与意图无关的冗余内容的概述进行处罚。包括显著性检验的结果如图13所示。重要实体控制和目的控制的控制准确度在BART和CTRLsum之间是相当的，没有显著差异(p值>0.05)，而CTRLsum通过关注所需信息显示出总体上显著更好的控制相关性。而且，无约束BART不能产生不重要的实体相关的概述，因此在两个维度上的得分都很差。

对于不受控制的概述，来自Amazon Mechanical Turk评分概述(量表1-5)的人为注释器涵盖四个维度：(1)实际一致性(FAC)：概述应仅包含源文档可能包含的声明，(2)相关性(REL)：概述应仅包含源文档的重要信息，(3)流畅性(FLU)：概述中的每个句子都应该是流利的，并且(4)相干性(COH)：概述应具有良好的结构和组织。包括显著性检验的结果如图14所示。在所有维度上来自所有系统的概述的质量通常都是良好的，分数大部分高于4.0。然而，大多数评分与具有大p值的CTRLsum(自动关键字)没有显示出显著差异，尽管它们在ROUGE/BERTScore(例如具有甲骨文关键字的CTRLsum)方面与参考概述具有非常不同的相似性。这意味着非专家MTurkers难以清楚地区分来自由强预训练模型如BART提供动力的不同系统的概述质量。还要注意的是，用于概述的非专家人为判断可能是不可靠的，并且与专家判断的相关性很差。

诸如计算装置200等计算装置的一些示例可包括非瞬态有形机器可读介质，介质包括当由一个或多个处理器(例如处理器210)运行时可使一个或多个处理器执行方法400的过程的可执行代码。可以包括方法400的过程的机器可读介质的一些常见形式例如是软盘、柔性盘、硬盘、磁带、任何其他磁性介质、CD-ROM、任何其他光学介质、穿孔卡片、纸带、具有孔图案的任何其他物理介质、RAM、PROM、EPROM、FLASH-EPROM、任何其他存储器芯片或盒，和/或处理器或计算机适于从中读取的任何其他介质。

说明发明性方面、实施方案、实现或应用的本说明书和附图不应被视为限制。在不脱离本说明书和权利要求书的精神和范围的情况下，可以进行各种机械的、组成的、结构的、操作上的改变。在一些情况下，为了不模糊本申请的实施方案，没有详细示出或描述公知的电路、结构或技术。在两个或更多附图中相同的标号表示相同或相似的元件。

在本说明书中，阐述了描述与本申请一致的一些实施方案的具体细节。为了提供对实施方案的透彻理解，阐述了许多具体细节。然而，对于本领域技术人员清楚的是，可以在没有这些具体细节中的一些或全部的情况下实践一些实施方案。本文公开的具体实施方案是说明性的而非限制性的。本领域技术人员可以认识到，虽然本文没有具体描述，但是其他元件在本申请的范围和精神内。此外，为了避免不必要的重复，与一个实施方案相关联示出和描述的一个或多个特征可以结合到其他实施方案中，除非另外具体描述，或者如果一个或多个特征使实施方案不起作用。

虽然已经示出和描述了示例性实施方案，但是在前述公开内容中设想了宽范围的修改、改变和替换，并且在一些情况下，可以采用实施方案的一些特征而不相应地使用其他特征。本领域普通技术人员将认识到许多变化、替换和修改。因此，本发明的范围应仅由所附权利要求书限制，且权利要求书应以与本文所揭示的实施方案的范围一致的方式广泛地解释。

Claims

1.一种对文档进行可控文本概述的方法，所述方法包括：

在通信接口处接收输入文本文档；

通过由多个文档和多个相应关键字的训练数据集训练的语言模型，通过序列标记一个或多个关键字，从所述输入文本文档提取所述一个或多个关键字；

经由用户接口接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数；

基于接收到的控制令牌序列，修改所述一个或多个关键字；和

根据所述一个或多个控制参数，基于经修改的一个或多个关键字，通过所述语言模型生成所述输入文本文档的概述。

2.根据权利要求1所述的方法，其中所述概述的特征包括如下任意一项：

所述输入文本文档中提及的实体；

所述概述的目标长度；和

所述输入文本文档的类型。

3.根据权利要求2所述的方法，其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。

4.根据权利要求3所述的方法，其中所述提示选自如下的组：

概述研究论文的贡献的第一概述前缀；

概述专利文档的发明目的的第二概述前缀；和

以引导式问答格式概述所述输入文本文档的第三概述前缀。

5.根据权利要求1所述的方法，还包括：

从所述接收到的控制令牌序列生成经修改的关键字的第一集合和第一控制参数；

根据所述第一控制参数，基于所述经修改的关键字的第一集合，通过所述语言模型生成所述输入文本文档的概述的第一版本；

从所述接收到的控制令牌序列生成经修改的关键字的第二集合和第二控制参数；和

根据所述第二控制参数，基于所述经修改的关键字的第二集合，通过所述语言模型生成所述输入文本文档的概述的第二版本。

6.根据权利要求1所述的方法，其中所述语言模型是通过如下训练的：

将关键字序列前置于训练源文档，通过特殊令牌分开；

向所述语言模型输入具有所述关键字序列的所述训练源文档；

通过所述语言模型生成输出概述；和

通过最大化以所述训练源文档和所述关键字序列为条件的输出概述的条件概率，更新所述语言模型。

7.根据权利要求6所述的方法，还包括：

在训练期间，从所述关键字序列随机地丢弃关键字的子集。

8.一种对文档进行可控文本概述的系统，所述系统包括：

通信接口，其接收输入文本文档；

存储器，其存储由多个文档和多个相应关键字的训练数据集训练的语言模型；和

一个或多个硬件处理器，所述硬件处理器：

经由所述语言模型，通过序列标记一个或多个关键字，从所述输入文本文档提取所述一个或多个关键字；

经由所述通信接口，接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数；

9.根据权利要求8所述的系统，其中所述概述的特征包括如下任意一项：

所述输入文本文档中提及的实体；

所述概述的目标长度；和

所述输入文本文档的类型。

10.根据权利要求9所述的系统，其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。

11.根据权利要求10所述的系统，其中所述提示选自如下的组：

概述研究论文贡献的第一概述前缀；

概述专利文档的发明目的的第二概述前缀；和

以引导式问答格式概述所述输入文本文档的第三概述前缀。

12.根据权利要求8所述的系统，其中所述一个或多个硬件处理器还：

13.根据权利要求8所述的系统，其中所述语言模型是通过如下训练的：

将关键字序列前置于训练源文档，通过特殊令牌分开；

通过所述语言模型生成输出概述；和

14.根据权利要求13所述的系统，其中所述一个或多个硬件处理器还：

在训练期间，从所述关键字序列随机地丢弃关键字的子集。

15.一种非瞬态处理器可读介质，其存储用于文档的可控文本概述的多个处理器可执行指令，所述指令由一个或多个处理器运行以执行包括如下的操作：

在通信接口处接收输入文本文档；

经由用户接口，接收控制令牌序列和与待生成的概述的特征有关的一个或多个控制参数；

16.根据权利要求15的非瞬态处理器可读介质，其中所述概述的特征包括如下任意一项：

所述输入文本文档中提及的实体；

所述概述的目标长度；和

所述输入文本文档的类型。

17.根据权利要求16所述的非瞬态处理器可读介质，其中所述一个或多个控制参数包括对应于所述输入文本文档的类型的提示。

18.根据权利要求17所述的非瞬态处理器可读介质，其中所述提示选自如下的组：

概述研究论文贡献的第一概述前缀；

概述专利文档的发明目的的第二概述前缀；和

以引导式问答格式概述所述输入文本文档的第三概述前缀。

19.根据权利要求16所述的非瞬态处理器可读介质，其中所述操作还包括：

20.根据权利要求15所述的非瞬态处理器可读介质，其中所述语言模型是通过如下训练的：

将关键字序列前置于训练源文档，通过特殊令牌分开；

在训练期间，从所述关键字序列随机地丢弃关键字的子集；

通过所述语言模型生成输出概述；和