CN115034201A

CN115034201A - 使用弱监督多奖励强化学习扩充用于句子分类的文本数据

Info

Publication number: CN115034201A
Application number: CN202210156138.5A
Authority: CN
Inventors: 荒木淳
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-02-22
Filing date: 2022-02-21
Publication date: 2022-09-09
Also published as: US20220269863A1; US11875120B2; JP2022128441A

Abstract

使用弱监督多奖励强化学习扩充用于句子分类的文本数据。公开了一种系统和方法，其使得能够实现针对深度学习模型的领域特定文本训练数据的快速且成本有效的人在回路合成。数据扩充过程包括句子生成器、句子分类器和“回路中”的领域专家的弱监督。通常，句子生成器和句子分类器两者都被实现为机器学习模型。句子生成器基于人工标记的句子生成新的句子，并且句子分类器针对新生成的句子生成标签。新句子由领域专家校正或验证，并且然后用于重新训练句子生成器和句子分类器中的一个或两者。

Description

使用弱监督多奖励强化学习扩充用于句子分类的文本数据

技术领域

该文档中公开的系统和方法涉及句子分类，并且更特别地，涉及扩充用于句子分类的文本训练数据。

背景技术

除非本文中另外指示，否则该部分中描述的材料并不因为包含在该部分中而被认为是现有技术。

信息提取（IE）是通过从非结构化文本中提取和组织结构化信息来获取知识的过程或任务。信息提取使得能够由下游应用（诸如问答应用）高效且有效地利用来自先前非结构化文本的信息。在一些信息提取任务中，单个句子是用于传达特定类型的知识的最合适的信息的单元。例如，句子“该汽车的引擎噪音很大。”描述关于汽车的某个问题。在该示例中，整个句子是用于描述关于汽车的问题的理想单元，因为子句短语（例如，“引擎”或“噪音很大”）只能部分传达问题。因此，整个句子的意义的分类可以被视为信息提取任务，该任务可以被用于形成具有目标含义或分类（例如，汽车问题）的句子的结构化知识库。

句子分类在自然语言处理（NLP）的领域中被广泛研究。如与其他自然语言处理任务一样，句子分类的现有技术通常采用深度学习模型。如与诸如基于规则的算法或传统的特征丰富的机器学习模型的现有模型相比，深度学习模型在一些基准数据集上已经示出了实现较高的性能。基准数据集通常包括用句子级标签注释的句子的集合，并且一些领域特定的基准数据集已经用领域特定的特定领域的标签创建。然而，因为这些现有的领域特定的基准数据集不一定对应于感兴趣的领域，所以在这些数据集上训练的深度学习模型不直接适用于其他特定的感兴趣的领域特定任务。因此，对于许多领域特定的任务，必须生成新的领域特定的数据集，以便针对任务训练基于深度学习的句子分类模型。

因此，需要句子分类的领域特定任务的挑战与任何有监督的深度学习模型相同。它依赖于大量的人工标记的训练数据以进行监督。少量的训练数据是不够的，因为模型可能过度拟合（over-fit）少量的训练数据，并且不能良好地泛化（generalize）。然而，创建足够大量的人工辅助（human-curated）训练数据是困难的，因为在实践中，由领域专家对句子的人工注释通常是相当昂贵的。因此，提供一种用于更容易和更成本有效地针对句子分类模型创建足够大的领域特定的数据集的技术将是有利的。

发明内容

公开了一种用于生成标记的文本训练数据的方法。该方法包括：借助处理器接收第一文本数据的单元。该方法进一步包括借助处理器使用第一机器学习模型，基于第一文本数据的单元，生成第二文本数据的单元。该方法进一步包括借助处理器使用第二机器学习模型确定描述第二文本数据的单元的特征的标签。该方法进一步包括借助输出设备向用户输出第二文本数据的单元和标签。该方法进一步包括经由用户接口接收（i）对第二文本数据的单元的校正和对第二文本数据的单元的验证之一，以及（ii）标签的校正和标签的验证之一。该方法进一步包括借助处理器使用（i）校正的第二文本数据的单元和验证的第二文本数据的单元之一，以及（ii）校正的标签和验证的标签之一，来重新训练第二机器学习模型。

公开了一种用于生成标记的文本训练数据的系统。该系统包括输出设备。该系统进一步包括用户接口。该系统进一步包括存储器，其被配置成存储多个文本数据的单元，所述多个文本数据的单元中的每个相应的文本数据的单元具有描述相应的文本数据的单元的特征的相应标签。该系统进一步包括处理器，其可操作地连接到输出设备、用户接口和存储器。该处理器被配置成从存储在存储器上的多个文本数据的单元中读取第一文本数据的单元。该处理器被进一步配置成使用第一机器学习模型基于第一文本数据的单元生成第二文本数据的单元。该处理器被进一步配置成使用第二机器学习模型确定描述第二文本数据的单元的特征的标签。该处理器被进一步配置成操作输出设备以向用户输出第二文本数据的单元和标签。该处理器被进一步配置成操作用户接口以接收（i）对第二文本数据的单元的校正和对第二文本数据的单元的验证之一，以及（ii）标签的校正和标签的验证之一。该处理器被进一步配置成使用（i）校正的第二文本数据的单元和验证的第二文本数据的单元之一，以及（ii）校正的标签和验证的标签之一，重新训练第二机器学习模型。

公开了一种用于生成标记的文本训练数据的非暂时性计算机可读介质。该计算机可读介质存储程序指令，当由处理器执行时，所述程序指令使处理器接收第一文本数据的单元。该计算机可读介质存储程序指令，当由处理器执行时，所述程序指令进一步使处理器使用第一机器学习模型基于第一文本数据的单元生成第二文本数据的单元。该计算机可读介质存储程序指令，当由处理器执行时，所述程序指令进一步使处理器使用第二机器学习模型确定描述第二文本数据的单元的特征的标签。该计算机可读介质存储程序指令，当由处理器执行时，所述程序指令进一步使处理器操作输出设备以向用户输出第二文本数据的单元和标签。该计算机可读介质存储程序指令，当由处理器执行时，所述程序指令进一步使处理器操作用户接口以接收（i）对第二文本数据的单元的校正和对第二文本数据的单元的验证之一，以及（ii）对标签的校正和对标签的验证之一。该计算机可读介质存储程序指令，当由处理器执行时，所述程序指令进一步使处理器使用（i）校正的第二文本数据的单元和验证的第二文本数据的单元之一，以及（ii）校正的标签和验证的标签之一，重新训练第二机器学习模型。

附图说明

结合附图，在以下描述中解释了系统和方法的前述方面和其他特征。

图1图示了用于深度学习模型的领域特定训练数据的合成的系统和方法。

图2示出了用于生成不确定的、多样的和有代表性的高质量新句子的句子生成器的示例性实施例。

图3示出了用于合成新的标记文本数据的数据扩充系统的示例性实施例的框图。

图4示出了用于操作数据扩充系统来合成新的标记文本数据的方法的流程图。

具体实施方式

为了促进对本公开的原理的理解的目的，现在将参考附图中图示并在以下书面说明书中描述的实施例。要理解，这不打算由此限制本公开的范围。要进一步理解，本公开包括对所图示实施例的任何变更和修改，并且包括本公开的原理的进一步应用，如本公开所属领域中的技术人员通常将想到的。

用于数据扩充的系统和方法的概述

图1图示了使得能够实现针对深度学习模型的领域特定训练数据的快速且成本有效的人在回路（human-in-the-loop）合成的系统和方法。本文中关于针对领域特定的句子分类模型生成领域特定的训练数据来描述该系统和方法。特别地，本文中描述的示例性领域特定的句子分类模型是被配置成将整个句子分类为（1）描述汽车问题或者（2）不描述汽车问题的模型。例如，该句子分类模型可能是智能汽车售后辅助服务的关键组件，该服务帮助用户有效和高效地标识描述汽车修理的具体问题和解决方案的句子。

然而，应当理解，本文中描述的用于数据扩充的系统和方法适用于合成任何领域中的标记文本数据，也适用于合成非领域特定的标记文本数据。同样，还应该理解，本文中描述的用于数据扩充的系统和方法可以被应用于针对任何深度学习模型而不仅仅是句子分类模型的合成标记文本数据。最后，应当理解，尽管系统和方法被图示为用于扩充英语语言文本数据的系统，但是其原则上是语言无关的，并且适用于任何自然语言。

参考图1，数据扩充过程以已经由领域专家20人工标记的训练数据的小集合10开始。然后，使用人在回路学习扩充框架，使用训练数据的小集合10来合成大量的附加训练数据30。在示例中，训练数据的小集合10包括与汽车相关的自然语言句子，所述句子已经由领域专家20用相应的分类标签人工标记，该分类标签指示句子是描述1）问题还是（2）非问题（例如，具有标签“问题”的“该引擎噪音很大”）。然而，训练数据的小集合10可以被提供有超出整个句子的简单二进制分类的附加语义标签。

数据扩充过程具有三个核心特征：句子生成器40、句子分类器50和由“回路中”的领域专家20的弱监督。通常，句子生成器40和句子分类器50两者都被实现为机器学习模型。如本文中所使用的，术语“机器学习模型”指的是被配置成实现算法、过程或数学模型（例如，神经网络）的系统或程序指令和/或数据的集合，其基于给定的输入来预测或以其他方式提供期望的输出。将理解，通常，机器学习模型的许多或大多数参数没有被明确地编程，并且在传统意义上，机器学习模型没有被明确地设计成遵循特定的规则，以便针对给定的输入提供期望的输出。代之以，机器学习模型被提供有训练数据的语料库，它从该语料库标识或“学习”数据中的模式和统计关系，所述模式和统计关系被泛化以做出预测或以其他方式提供关于新数据输入的输出。训练过程的结果在多个学习参数、核权重和/或过滤器值中实现，所述参数、核权重和/或过滤器值在机器学习模型的各种组件中使用以执行各种操作或功能。

句子生成器40基于人工标记的句子10生成新的句子30（例如，“该引擎声音很大。”，“该引擎的噪音水平很高。”，“该制动器噪音很大。”，以及“该喇叭噪音很大。”）。句子生成器40最初利用多种奖励函数使用强化学习使用句子的小集合10来训练，其弱监督新句子30的生成，使得它们将对句子分类器50的进一步训练提供有用的监督，而不是冗余监督。以该方式，奖励函数将人在回路（即，（一个或多个）领域专家20）的效用最大化，并且将浪费的人标记努力最小化。

句子分类器50针对新生成的句子30生成标签。特别地，生成的新句子30中的每个通过句子分类器50，以生成提议的分类标签或其他提议的语义标签。句子分类器50最初还使用监督学习过程使用人工标记的句子的小集合10来训练。由于句子分类器50是在示例的小集合上训练的，因此句子分类器50通常表现不佳，并且在数据扩充过程的早期迭代中不能良好地泛化。

具有提议的标签的新句子30被显示给与系统交互的领域专家20或以其他方式提供以用于由与系统交互的领域专家20审阅，以验证新句子30并校正任何错误。特别地，领域专家20可以校正新句子30的提议标签，或者校正新句子30的文本中的语法或类似问题。使用验证的新句子30，句子生成器40和句子分类器50中的一个或两者被重新训练。以该方式，数据扩充的性能不断提高，并且领域专家20验证每个新生成的句子30所需的时间越来越少。

数据扩充过程的目标是使句子分类器50的学习过程在领域专家的最少量的监督的情况下是高效的。特别地，数据扩充过程在迭代的人在回路训练过程中学习数据扩充的不同规律，这比传统的训练数据的收集和人工标记成本有效得多。下面，通过阐明来自四个相关研究的领域的主要差异来讨论数据扩充过程的多个优点：（1）数据扩充，（2）释义生成，（3）文本对抗性攻击，以及（4）主动学习。

数据扩充（DA）是用于将现有的标记数据扩展到更大量的合成标记数据的一系列技术。本文中描述的数据扩充过程可以被视为先进的数据扩充方法。对于图像数据，诸如旋转和翻转之类的简单技术已经被证明是有效的，因为这样的操作可以确保变更的数据的类标签（语义概念）。然而，这样的简单的技术不适用于文本，因为它是离散的数据，并且即使是小的改变（例如，修改一个词）也可能完全变更句子的含义，如由图1中第四个生成的句子所图示的（即，“该喇叭噪音很大。”）。许多现有的用于文本的数据扩充技术依赖于试探法，例如同义词替换和反向翻译。这些方法需要外部资源的可用性，诸如同义词词典和高性能的机器翻译模型。然而，这样的资源在具体领域中通常是不可用的。因此，基于资源的传统数据扩充技术不可扩展到感兴趣的领域。相比之下，本文中描述的数据扩充过程从领域专家的监督中直接学习如何扩充数据。因此，如与传统的数据扩充技术相比，本文中描述的数据扩充过程具有两个主要优点。首先，它消除了对外部资源的需求。第二，它能够经过通过学习过程探索不同的语言和知识水平的规律来提高数据扩充的性能以及感兴趣的领域。

释义生成是生成输出文本（例如，句子）的任务，该输出文本在语义上与输入文本（例如，句子）相同，但包含词汇、语法或两者中的变化。本文中描述的数据扩充过程在句子修改中的变化方面中类似于释义生成。特别地，本文中描述的数据扩充过程还能够不仅以词级而且还以短语或句子级改变输入句子，如由图1中的第二生成句子所图示（即，“该引擎的噪声级别非常高。”）。然而，从任务的角度来看，本文中描述的数据扩充过程具有与释义生成的目标不同的目标。释义生成旨在以不同的方式对给定的文本进行重新措辞（rephrase），使得生成的文本的语义保持不变，很像图1中的第一个生成的句子（即，“该引擎声音很大。”）。相比之下，本文中描述的数据扩充过程可以显著地改变输入句子的含义，以探索不同且有意义的监督，如由图1中的第三和第四个生成句子所图示（即，“该制动器噪音很大。”以及“该喇叭噪音很大。”）。此外，从方法论的角度来看，存在进一步的差异。关于释义生成的最近工作也利用了神经模型，特别是神经编码器-解码器架构。相比之下，本文中描述的数据扩充过程以显著的方式扩展了传统的编码器-解码器架构，因为它还将来自句子分类模型的反馈作为附加输入。该反馈用作附加信号以优化理想数据扩充的生成器组件，由此提高句子分类模型的可泛化性。

文本对抗性攻击被用于通过对输入示例进行小扰动来欺骗（fool）深度学习模型来评估深度学习模型的鲁棒性。在其主要重点是通过保留输入示例的原始标签的最小化修改示例来欺骗模型以便揭示模型的脆弱性的意义上，这具有不同的精神。相比之下，本文中描述的数据扩充过程没有这样的对抗性意图。代之以，它生成示例以便增强模型的可泛化性。为了增强可泛化性的目标，本文中描述的数据扩充过程并不将其本身局限于生成保留输入示例的原始标签的示例。而是，框架可以故意生成完全变更标签的示例，以具有不同种类的监督，如由图1中第四个生成的句子所图示（即，“该喇叭声音很大。”这被标记为没有问题）。从方法论的角度来看，本文中描述的数据扩充过程可能看起来类似于用于文本对抗性攻击的黑盒模型，因为它对目标句子分类模型的细节是不可知的，并且仅使用模型的输入和输出。然而，本文中描述的数据扩充过程与用于文本对抗性攻击的传统黑盒模型的不同之处在于，生成器组件被优化以不仅生成不确定的句子，而且还生成多样且有代表性的句子，这对于提高模型泛化是有用的。

最后，主动学习（AL）指的是一种学习过程，其中使用人在回路训练来支持高效学习。然而，本文中描述的数据扩充过程与传统的主动学习不同之处在于如何在数据标记中利用人类的监督。在句子分类的情况下，传统的主动学习过程将首先在初始的标记句子的集合（种子示例）上训练句子分类模型，从大的未标记数据池中采样未标记的句子的小集合，并获得由领域专家（人类）标记的句子。新标记的句子被添加到初始训练数据，并且模型在新扩展的训练数据上被重新训练。将重复该过程，以逐渐增加训练数据的量。相比之下，本文中描述的数据扩充过程与传统的主动学习至少有一个明显的差异。特别地，它生成新的句子，并使用在现有（标记的）句子上训练的模型自动提议它们的标签，而不是从未标记的数据中采样。该合成数据可能包含错误（例如，不合语法的词序或不正确的标签），并且需要领域专家的校正，尤其是在初始阶段中，但是在学习的过程中提高了合成数据的质量。由于新的数据生成和标签提议，本文中描述的数据扩充过程使整个学习过程高效。与主动学习不同，本文中描述的数据扩充过程原则上可以从种子示例迭代地扩展训练数据，而无需求助于任何附加数据（例如，大的未标记数据池）。然而，本文中描述的数据扩充过程是灵活的，因为它也可以在学习过程期间接受附加的标记句子。在该意义上，本文中描述的数据扩充过程与主动学习互不相关（orthogonal），并且可以被用于增强主动学习性能。

句子生成模型

本文中描述的数据扩充过程的最终目标是提高句子分类器50的泛化能力，而无需人工标记领域特定训练句子的非常大的集合的花费。因此，该过程的核心是句子生成器40，其具有仅使用弱监督从原始句子合成新的高质量句子的能力。应当理解，尽管句子生成器40主要被描述为生成句子，但是句子生成器40可以被配置成生成文本数据的任何其他单元，诸如短语或段落。因此，本文中对“句子”的引用应该被理解为也包括文本数据的替代单元，严格来说，所述替代单元可以包括句子或者可以不包括句子。

在该上下文中，“高质量”新句子（或其他文本数据）是合成句子，其将为进一步训练句子分类器50提供有用的监督，并且将提高句子分类器50的泛化能力。句子生成器40特别被配置成生成不确定的、多样的和有代表性的新句子。不确定性、多样性和代表性中的质量中的每个都有利于提供有用的监督和句子分类器50的改进的泛化性。

如本文中关于用句子生成器40生成新句子所使用的，“不确定性”指的是当输出新句子的提议的分类标签时句子分类器50的置信度。“不确定”的新句子是接近句子分类器50的决策边界并且最初提议的分类标签对于其将具有低置信度值的句子。由领域专家20对具有更高不确定性的新句子的校正或验证将为句子分类器50的进一步训练提供更有用的监督。相反，如果句子分类器50已经对新句子的正确分类标签具有高置信度，则领域专家20的验证不提供有用的监督。

如本文中关于用句子生成器40生成新句子所使用的，“多样性”指的是新句子在形式或意义上与原始输入句子（例如，人工标记的句子）相比有多不同。“多样的”新句子是与原始输入句子非常不同的句子。领域专家20对具有更高多样性的新句子的校正或验证将为句子分类器50的进一步训练提供更有用的监督。相反，如果新句子与原始输入句子非常相似，则领域专家20的验证不提供有用的监督。

如本文中关于用句子生成器40生成新句子所使用的，“代表性”指的是新句子描述句子分类器50的频繁或常见输入到其的程度（例如，常见和现实的汽车问题），或者相反，新句子描述异常或罕见输入到其的程度（例如，不现实或无意义的汽车问题）。领域专家20对描述现实现象的新句子的校正或验证（例如，“引擎需要换油。”）将为句子分类器50的进一步训练提供更有用的监督。相反，如果新句子描述不现实的现象（例如，“前灯需要换油。”），则领域专家20的验证或校正不提供有用的监督。

这些受欢迎的（sought-after）质量不确定性、多样性和代表性中的每个都有利于产生有用的监督，但每个质量也有其自己的弱点，所述弱点由其他质量中的一个或两者来补充。例如，不确定性通常将优选异常（即描述罕见现象的句子），但这通常因代表性而减轻。类似地，代表性通常将优选类似的句子，并最终减少覆盖，但这通常因多样性而减轻。因此，一起奖励这些质量对于合成平衡且高质量的新句子的集合以进一步训练句子分类器50是至关重要的。

图2示出了句子生成器40的示例性实施例，句子生成器40被配置成生成不确定的、多样的和代表性的高质量新句子。在所图示的实施例中，句子生成器40采用具有编码器44和解码器46的编码器-解码器模型42的形式。编码器-解码器模型42将句子生成形式化（formalize）为序列到序列的问题。特别地，编码器-解码器模型42被配置成将输入句子x映射到输出句子y，其中x是具有可变长度m的记号（token）或类似符号表示（即，单独的词、字符、标点符号等）的序列

，同样，其中y是具有可变长度n的记号或类似符号表示的序列

。如本文中所使用的，“记号”指的是来自文本数据的单独的词、子词、字符或标点符号的表示。因此，文本数据的“记号化（tokenization）”指的是将文本数据转换成相应的记号的序列。

编码器44接收输入句子x，并被配置成将输入句子x编码为隐藏状态的序列

。给定隐藏状态的序列h，解码器46被配置成输出可能的输出句子y的条件概率分布。换句话说，解码器46生成可能的输出句子y，其中概率为：

。

在至少一些实施例中，句子生成器40是基于Transformer的神经网络编码器-解码器模型42，其中编码器44和解码器46两者都是剩余注意层（residual attention layers）的堆叠。在一个实施例中，编码器-解码器模型42采用可预训练的基于Transformer的编码器-解码器，诸如BART（Lewis等人，“BART: Denoising Sequence-to-Sequence Pre- training for Natural Language Generation, Translation, and Comprehension”，2020），编码器-解码器模型42在域内数据上被预训练，使得其捕获领域特定的规律。然而，将理解，在一些实施例中，可以类似地使用基于递归神经网络（RNN）的编码器-解码器模型或任何其他序列到序列模型。

如上所述，在给定特定输入序列x的情况下，解码器46输出可能输出句子y的条件概率分布。基于可能输出句子y的条件概率分布，使用推理算法（诸如搜索算法）来选择解码器46的最终输出。例如，在至少一个实施例中，波束搜索被用于标识针对特定序列x的预定数量k个最可能输出的句子y（例如，k=4个可能输出的句子，如图1的示例中所示）。在至少一个实施例中，解码器46在逐个记号（例如，逐个词）的基础上输出概率分布。让我们将波束搜索中的波束宽度表示为B ≥ k。在该情况下，对于输出序列y中的第一个记号，搜索算法选择针对第一个记号的B个最可能的输出。接下来，对于第二个记号，搜索算法然后选择针对第二个记号的B个最可能的输出，条件是针对第一个记号的所选择的可能输出。针对输出序列y中的所有n个记号重复该过程，直到标识k个最可能的完整输出序列y（例如，完整的句子）。一旦标识了k个输出序列的集合，它们就可以被馈送到句子分类器50以确定提议的标签，并且然后被提供给领域专家20以用于验证或校正，如上面讨论的那样。

如上所述，在至少一些实施例中，至少最初仅基于训练数据的小集合D（例如，人工标记的句子的小集合10），使用强化学习来训练句子生成器40。训练数据D由人工创建的句子-标签对

组成，其中

是输入句子，并且

是来自预定义标签Z（例如，“汽车问题”或“不是汽车问题”）的集合的相应分类标签。然而，应当理解，尽管输入句子

与分类标签

配对，但是它们没有与用于训练句子生成器40的示例性输出句子y配对。因此，用于训练句子生成器40的该强化学习过程不提供完整的词级监督。代之以，强化学习过程对生成的输出句子提供弱的序列级反馈。

在至少一些实施例中，使用基于策略的强化学习算法来训练句子生成器40，其中学习用模型参数θ参数化的策略p _θ。在一个实施例中，使用REINFORCE算法（Williams，“Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement Learning”，1992）来训练句子生成器40。以诸如为了强化满足不确定性、多样性和代表性的序列级度量的输出序列的生成的方式来学习策略p _θ。

强化学习过程将每个度量形式化为基于生成的句子y与其原始句子x计算的相应奖励函数r（）。强化学习过程将负预期奖励最小化为损失函数：

，

其中y ^s是在策略p _θ下基于x采样的词的序列。

强化学习过程根据以下等式用单个样本y ^s~p _θ近似预期梯度：

其中b是基线估计器函数。在至少一个实施例中，基线估计器函数被定义为

，其中

是在测试时间使用根据推理算法的当前模型从给定x的最佳输出y ^a（例如，根据波束搜索，y ^a是最可能的输出）获得的奖励。

在一些实施例中，强化学习过程利用多奖励优化方法，或者换句话说，多个相异的奖励函数

。如上所述，重要的是输出句子𝑦同时表现出所有的不确定性、多样性和代表性。为此，在至少一些实施例中，强化学习过程针对不确定性、多样性和代表性分别利用三个奖励函数

、

和

。特别地，生成不确定的、多样的或有代表性的句子可以各自被认为是不同的和相异的任务，并且共享相同参数θ的单个模型用不同的奖励函数来优化：

，

，

。

不确定性奖励函数

被设计成在针对新生成的句子y输出提议的分类标签时评估句子分类器50的置信度。特别地，让S表示句子分类器50的概率句子分类模型。概率句子分类模型S在由人工创建的句子标签对

组成的训练数据的（最初小的）集合D上训练。在训练后，概率句子分类模型S以概率

预测分类标签z∈Z。

不确定性奖励函数r _U可以根据如下等式来评估：

，

其中H（y）是众所周知的用作在关于主动学习的先前研究中广泛使用的不确定性测量的熵。应当理解，不确定性奖励函数r _U奖励由句子生成器40生成的相应输出句子y，对于相应输出句子y，句子分类器50的熵在分配相应分类标签z时是相对较高的。

多样性奖励函数

被设计成评估新生成的句子y和相应的输入句子x之间的差异。在至少一个实施例中，多样性奖励函数根据如下等式来确定：

其中StrDiff（）是距离算法，诸如Hamming距离或Levenshtein编辑距离。在至少一个实施例中，距离算法确定以记号级（词级）的差异，但是也可以利用字符级距离算法或任何其他距离算法。因此，多样性奖励函数r _D奖励由句子生成器40生成的与相应输入句子x相对更不同的相应输出句子y。

最后，代表性奖励函数

被设计成评估新句子描述频繁或常见含义到其的程度，或者相反，新句子描述异常或罕见含义到其的程度。在一个实施例中，代表性奖励函数利用神经语言模型LM。本领域中的普通技术人员将理解，语言模型是为词和句子分配概率的统计模型。通常，语言模型为包括真实词且语法正确的句子分配更高的概率。在至少一个实施例中，使用领域内文本数据的大语料库来训练语言模型LM。在本文中出于说明性目的讨论的“汽车问题”领域的情况下，领域内文本数据可能包括例如车辆维护、修理或故障排除手册以及其他车辆相关文本文档。以该方式，语言模型LM将为相应的感兴趣的领域中的现实或常见句子分配更高的概率。

在至少一个实施例中，代表性奖励函数根据如下等式基于语言模型LM相对于新生成的句子y的困惑度（perplexity）来计算：

。

因此，多样性奖励函数r _D奖励由句子生成器40生成的当被提供给语言模型LM时具有相对较低困惑度的相应输出句子y。本领域中的普通技术人员将理解，困惑度是通常用于评估语言模型LM的内在性能的度量，并且当语言模型LM向输入分配高概率时具有低值，并且相反地，当语言模型LM向输入分配低概率时具有高值。因此，如果负困惑度高（即原始困惑度低），那么新生成的句子y是有代表性的，因为语言模型LM擅长预测句子。困惑度函数Perplexity _LM（y）的具体公式可以采取通常与LM分配给新生成的句子y的概率P _LM（y）相关的多种形式。在一个示例性实施例中，困惑度函数被定义为

或类似。在另一个示例性实施例中，困惑度函数被定义为

或类似。

句子分类模型

如上所述，本文中描述的数据扩充过程的最终目标是合成新的高质量领域特定训练句子的大集合，其可以被用于进一步训练句子分类器50。通过使用合成训练句子的较大集合来训练句子分类器50，句子分类器50的泛化能力可以被大大提高。然而，句子分类器50的特定实现对于数据扩充过程本身在很大程度上是不重要的，并且因此，句子分类器50可以使用各种各样的概率模型架构来实现，特别是使用各种各样的机器学习模型来实现。在许多实施例中，句子分类器50使用深度学习模型（例如，卷积神经网络、递归神经网络、基于Transformer的神经网络或诸如此类）来实现。

如上面所讨论的，句子分类器50实现概率句子分类模型S。概率句子分类模型S在由人工创建的句子标签对

组成的训练数据的（最初小的）集合D上训练。在训练之后，概率句子分类模型S根据如下等式针对新生成的句子y预测最可能的分类标签

：

其中

表示新生成的句子y被S分类为z∈Z的概率。换句话说，句子分类器50的推理模型简单地选择最可能的分类标签

作为输出。

数据扩充系统

图3示出了数据扩充系统100的示例性实施例的框图。数据扩充系统100有利地利用上述方法来使得能够实现针对深度学习模型的领域特定训练数据的快速且成本有效的人在回路合成。特别地，在至少一个实施例中，系统100被配置成基于少量的人工标记的句子来合成具有领域特定分类标签的大量的领域特定的句子。该合成数据被用于训练鲁棒的句子分类模型，该模型例如可以针对一些应用使得能够实现句子的进一步下游处理。下游应用可以例如包括智能汽车售后辅助服务，该服务帮助用户有效且高效地标识描述汽车修理的具体问题和解决方案的句子。

在所图示的示例性实施例中，数据扩充系统100包括至少一个处理器102、至少一个存储器104、通信模块106、显示屏108和用户接口110。然而，将理解，所示出和描述的数据扩充系统100的组件仅仅是示例性的，并且数据扩充系统100可以包括任何替代配置。特别地，数据扩充系统100可以包括任何计算设备，诸如台式计算机、膝上型计算机、智能电话、平板计算机或其他个人电子设备。因此，数据扩充系统100可以包括传统上包括在这样的计算设备中的任何硬件组件。

存储器104被配置成存储数据和程序指令，当由至少一个处理器102执行时，所述数据和程序指令使得数据扩充系统100能够执行本文中描述的各种操作。存储器104可以是能够存储可由至少一个处理器102访问的信息的任何类型的设备，诸如存储卡、ROM、RAM、硬盘驱动器、磁盘、闪存或用作数据存储设备的各种其他计算机可读介质中的任何介质，如本领域中的普通技术人员将认识到的那样。此外，本领域中的普通技术人员将认识到，“处理器”包括处理数据、信号或其他信息的任何硬件系统、硬件机构或硬件组件。因此，至少一个处理器102可以包括中央处理单元、图形处理单元、多个处理单元、用于实现功能的专用电路、可编程逻辑或其他处理系统。此外，将理解，尽管数据扩充系统100被图示为单个系统，但是数据扩充系统100可以包括协同工作以实现本文中描述的功能的几个相异的系统。

通信模块106可以包括一个或多个收发器、调制解调器、处理器、存储器、振荡器、天线或传统上包括在通信模块中的其他硬件，以使得能够实现与各种其他设备的通信。在至少一些实施例中，通信模块106包括被配置成使得能够实现与Wi-Fi网络和/或Wi-Fi路由器（未示出）通信的Wi-Fi模块。在进一步的实施例中，通信模块46可以进一步包括Bluetooth®模块、以太网适配器和被配置成与无线电话网络通信的通信设备。

显示屏108可以包括各种已知类型的显示器中的任何显示器，诸如LCD或OLED屏幕。在一些实施例中，显示屏108可以包括被配置成从用户接收触摸输入的触摸屏。用户接口110可以适当地包括被配置成使得能够由用户本地操作数据扩充系统100的多种设备，诸如鼠标、轨迹板或其他指向设备、键盘或其他小键盘、扬声器和麦克风，如本领域中的普通技术人员将认识到的那样。替代地，在一些实施例中，用户可以从另一计算设备远程操作数据扩充系统100，该另一计算设备经由通信模块106与其通信并且具有类似的用户接口。

存储在存储器104上的程序指令包括数据扩充程序112，数据扩充程序112包括文本数据生成模型114和文本数据标记模型116。特别地，处理器102执行数据扩充程序112的文本数据生成模型114，以基于人工标记的文本数据的小集合生成新的文本数据。同样，处理器102执行数据扩充程序112的文本数据标记模型116，以针对新生成的文本数据生成提议的标签。在句子分类上下文中，文本数据生成模型114和文本数据标记模型116分别实现例如句子生成器40和句子分类器50。

操作数据扩充系统的方法

图4示出了针对用于操作数据扩充系统的方法200的流程图。在这些方法的描述中，执行一些任务、计算或功能的陈述指的是处理器（例如，数据扩充系统100的处理器102）执行存储在可操作地连接到处理器的非暂时性计算机可读存储介质（例如，数据扩充系统100的存储器104）中的编程指令（例如，数据扩充程序112、文本数据生成模型114或文本数据标记模型116），以操纵数据或操作数据扩充系统100的一个或多个组件，以执行任务或功能。此外，方法的步骤可以以任何可行的时间次序来执行，而不管图中所示的次序或以其来描述步骤的次序。

方法200以接收文本数据的单元开始（块210）。特别地，处理器102接收文本数据，该文本数据可以与描述文本数据的特征的相应标签相关联。特别地，文本数据是单独的文本数据的单元x，并且可以例如包括句子，但是可以类似地包括任何其他文本数据的单元，诸如短语或段落。在至少一个实施例中，处理器102从存储器104读取文本数据的单元x，存储器104存储由人工创建的句子-标签对

组成的训练数据D，其中

是输入句子，并且

是来自预定义标签Z的集合（例如，“汽车问题”或“不是汽车问题”）的相应分类标签。

在至少一个实施例中，多个文本数据的单元

与特定的信息或知识的领域（例如，汽车问题）有关，如上面所讨论的那样。在至少一个实施例中，针对每个文本数据的单元

的对应标签

是标识文本数据的单元

的分类的分类标签（例如，句子是描述汽车问题还是不描述汽车问题），但是也可以标识对应的文本数据的单元的各种各样的语义概念和属性。在一些实施例中，每个文本数据的单元

可以具有多于一个标签

。

方法200继续使用文本生成模型基于接收到的文本数据的单元生成新的文本数据的单元（块230）。特别地，处理器102被配置成执行文本数据生成模型114的程序指令，以基于接收到的文本数据的单元x生成新的文本数据的单元y。在一些实施例中，处理器102基于每个接收到的文本数据的单元x生成多个新的文本数据的单元y。如上所述，在句子分类上下文中，文本数据生成模型114例如实现句子生成器40，或者更具体地，实现编码器-解码器模型42。然而，应当理解，文本数据生成模型114可以实现机器学习模型的不同变化和类型。

在一些实施例中，处理器102将接收到的文本数据的单元x转换（或“记号化”）为对应于文本的记号的输入序列x，并且然后使用文本数据生成模型114的编码器（例如，编码器-解码器模型42的编码器44）对记号的输入序列x进行编码。接下来，处理器102使用文本数据生成模型114的解码器（例如，编码器-解码器模型42的解码器46）来确定记号的输出序列y的概率分布。最后，处理器102使用文本数据生成模型114的推理模型来确定新的文本数据的单元y。

在至少一些实施例中，文本数据生成模型114的推理模型是搜索算法，诸如波束搜索，其基于记号的输出序列y的概率分布来确定“最佳”或最可能的输出序列。因此，在要确定一个新的文本数据的单元y的情况下，处理器102使用波束搜索基于记号的输出序列的概率分布来确定新的文本数据的单元y作为最可能的记号的输出序列。在要确定多个新的文本数据的单元y的情况下，处理器102使用波束搜索，基于记号的输出序列的概率分布，将多个新的文本数据的单元y确定为k个最可能的记号的输出序列。

如以上关于图2的编码器-解码器模型42更详细地讨论的那样，文本数据生成模型114最初使用基于存储在存储器104上的训练数据D的多个文本数据的单元

的强化学习过程来训练。特别地，处理器102使用强化多个奖励函数

、

和

的多奖励优化来优化文本数据生成模型114的参数。

方法200继续使用文本标记模型针对新的文本数据的单元确定提议的标签（块250）。特别地，处理器102被配置成执行文本数据标记模型116的程序指令，以基于新的文本数据的单元y从预定义的标签的集合Z中确定提议的标签

。在生成了多个新的文本数据的单元y的情况下，处理器102针对多个新的文本数据的单元y中的每个新的文本数据的单元y确定相应的提议的标签

。如上所述，在句子分类上下文中，文本数据标记模型116实现例如句子分类器50，句子分类器50可以包括各种各样的深度学习模型。同样，在句子分类上下文中，标签

是分类标签（例如，“汽车问题”或“不是汽车问题”）。

如上面关于句子分类器50更详细讨论的那样，文本数据标记模型116最初使用存储在存储器104上的由人工创建的句子标签对

组成的（最初小的）训练数据的集合D来训练。

方法200继续从用户接收新的文本数据的单元或提议的标签的验证或校正（块270）。特别地，一旦生成了由新的文本数据的单元y和提议的标签

组成的每个对，处理器102就操作输出设备以向用户、特别是领域专家20输出新的文本数据的单元y和提议的标签

。在至少一个实施例中，处理器102操作显示屏108以显示图形用户接口，该图形用户接口包括新的文本数据的单元y和提议的标签

。

处理器102经由用户接口110接收输入，该输入定义了以下各项中的至少一个：（i）包括对新的文本数据的单元y的校正的校正的新的文本数据的单元y'，和（ii）作为提议的标签

的校正的校正的标签

。替代地，处理器102接收指示新的文本数据的单元y和提议的标签

的验证的输入，而没有任何校正。为此，领域专家20经由显示屏108和用户接口110与数据扩充系统100交互，以验证新的文本数据的单元y和提议的标签

的准确性，并且如果必要的话，提供对新的文本数据的单元y或提议的标签

的校正。这样的校正可以包括对文本数据的编辑，以校正新的文本数据的单元y中的语法、拼写或其他句法错误。同样，校正可以包括提议的标签

到与预定义标签的集合Z不同的标签的改变。

方法200继续基于新的文本数据的单元或提议的标签的验证或校正来重新训练文本生成和文本标记模型（块290）。特别地，一旦新的文本数据的单元y和提议的标签

已经被领域专家20校正或验证，处理器102就将校正/验证的新的文本数据的单元y'和校正/验证的标签

与原始训练数据D存储在存储器104中。换句话说，新生成的和验证/校正的句子标签对被添加到训练数据的集合D。

借助向训练数据D添加新的训练示例，文本数据生成模型114和文本数据标记模型116可以被重新训练以提供增量性能改进。特别地，处理器102使用上面讨论的强化学习过程，使用更新的训练数据的集合D，重新训练文本数据生成模型114，该训练数据的集合D包括校正/验证的新的文本数据的单元y'。同样，如上面讨论的那样，处理器102使用更新的训练数据的集合D重新训练文本数据标记模型116，该训练数据的集合D包括作为一对的校正/验证的新的文本数据的单元y'和校正/验证的标签

。

在一些实施例中，除了弱监督强化学习之外，文本数据生成模型114可以使用文本数据的输入单元x和已经由领域专家20验证或校正的新的文本数据的单元y的对来进一步训练。以该方式，随着越来越多的新的文本数据的单元y被生成和验证，文本数据生成模型114可以在更传统的监督训练过程中使用成对训练示例来进一步训练。

本公开的范围内的实施例还可以包括用于承载或具有存储在其上的计算机可执行指令（也称为程序指令）或数据结构的非暂时性计算机可读存储介质或机器可读介质。这样的非暂时性计算机可读存储介质或机器可读介质可以是可以由通用或专用计算机访问的任何可用介质。作为示例而非限制，这样的非暂时性计算机可读存储介质或机器可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储装置、磁盘存储装置或其他磁存储设备，或者可以被用于以计算机可执行指令或数据结构的形式承载或存储期望的程序代码装置的任何其他介质。以上的组合也应该被包括在非暂时性计算机可读存储介质或机器可读介质的范围内。

计算机可执行指令包括例如使通用计算机、专用计算机或专用处理设备执行某个功能或功能的组的指令和数据。计算机可执行指令还包括由独立或网络环境中的计算机执行的程序模块。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件和数据结构等。计算机可执行指令、相关联的数据结构和程序模块表示用于执行本文中公开的方法的步骤的程序代码装置的示例。这样的可执行指令或相关联的数据结构的特定序列表示用于实现这样的步骤中描述的功能的相应动作的示例。

虽然本公开已经在附图和前面的描述中详细图示和描述，但是其在性质上（incharacter）应当被认为是说明性的而不是限制性的。要理解，仅已经呈现优选实施例，并且期望保护进入本公开的精神内的所有变化、修改和进一步的应用。

Claims

1.一种用于生成标记的文本训练数据的方法，所述方法包括：

借助处理器接收第一文本数据的单元；

借助处理器使用第一机器学习模型，基于第一文本数据的单元，生成第二文本数据的单元；

借助处理器使用第二机器学习模型来确定描述第二文本数据的单元的特征的标签；

借助输出设备向用户输出第二文本数据的单元和标签；

经由用户接口接收（i）对第二文本数据的单元的校正和对第二文本数据的单元的验证之一，以及（ii）标签的校正和标签的验证之一；以及

借助处理器使用（i）校正的第二文本数据的单元和验证的第二文本数据的单元之一，以及（ii）校正的标签和验证的标签之一，来重新训练第二机器学习模型。

2.根据权利要求1所述的方法，进一步包括：

借助处理器使用校正的第二文本数据的单元和验证的第二文本数据的单元之一来重新训练第一机器学习模型。

3.根据权利要求1所述的方法，其中第一机器学习模型是序列到序列模型。

4.根据权利要求3所述的方法，生成第二文本数据的单元进一步包括：

借助处理器使用第一机器学习模型的编码器来对记号的输入序列进行编码，所述记号的输入序列是第一文本数据的单元的记号化；

借助处理器使用第一机器学习模型的解码器来确定记号的输出序列的概率分布；以及

借助处理器基于记号的输出序列的概率分布来确定第二文本数据的单元。

5.根据权利要求4所述的方法，生成第二文本数据的单元进一步包括：

借助处理器基于记号的输出序列的概率分布，将第二文本数据的单元确定为最可能的记号的输出序列。

6.根据权利要求5所述的方法，生成第二文本数据的单元进一步包括：

借助处理器使用波束搜索基于记号的输出序列的概率分布，确定最可能的记号的输出序列。

7.根据权利要求4所述的方法，生成第二文本数据的单元进一步包括：

借助处理器生成多个第二文本数据的单元，基于记号的输出序列的概率分布，所述多个第二文本数据的单元被确定为预定数量的最可能的记号的输出序列。

8.根据权利要求4所述的方法，其中第一机器学习模型的编码器和解码器中的至少一个具有基于Transformer的神经网络架构。

9.根据权利要求1所述的方法，进一步包括：

在生成第二文本数据的单元之前，借助处理器使用强化学习过程基于多个文本数据的单元来训练第一机器学习模型。

10.根据权利要求9所述的方法，训练第一机器学习模型进一步包括：

借助处理器使用强化多个奖励函数的多奖励优化来优化第一机器学习模型的参数。

11.根据权利要求10所述的方法，其中所述多个奖励函数包括第一奖励函数，在给定针对第一机器学习模型的相应的记号的输入序列的情况下，第一奖励函数奖励由第一机器学习模型生成的相应的记号的输出序列，对于所述相应的记号的输出序列，（i）不确定性和（ii）第二机器学习模型的熵中的至少一个在确定描述相应的记号的输出序列的特征的相应标签时是相对较高的。

12.根据权利要求10所述的方法，其中所述多个奖励函数包括第二奖励函数，在给定针对第一机器学习模型的相应的记号的输入序列的情况下，第二奖励函数奖励由第一机器学习模型生成的相应的记号的输出序列，所述相应的记号的输出序列与相应的记号的输入序列相对更不同。

13.根据权利要求10所述的方法，其中，所述多个奖励函数包括第三奖励函数，在给定针对第一机器学习模型的相应的记号的输入序列的情况下，第三奖励函数奖励由第一机器学习模型生成的相应的记号的输出序列，所述相应的记号的输出序列在被提供给语言模型时具有相对较低的困惑度。

14.根据权利要求1所述的方法，其中第二机器学习模型是深度神经网络模型。

15.根据权利要求1所述的方法，进一步包括：

在确定标签之前，借助处理器基于多个文本数据的单元来训练第二机器学习模型，所述多个文本数据的单元中的每个相应的文本数据的单元具有描述相应的文本数据的单元的特征的相应标签。

16.根据权利要求1所述的方法，输出第二文本数据的单元和标签进一步包括：

借助显示屏向用户显示包括第二文本数据的单元和标签的图形用户接口。

17.根据权利要求1所述的方法，其中标签是第二文本数据的单元的分类。

18.根据权利要求1所述的方法，其中第一文本数据的单元包括至少一个自然语言句子，并且第二文本数据的单元包括至少一个自然语言句子。

19.一种用于生成标记的文本训练数据的系统，所述系统包括：

输出设备；

用户接口；

存储器，其被配置成存储多个文本数据的单元，所述多个文本数据的单元中的每个相应的文本数据的单元具有描述相应的文本数据的单元的特征的相应标签；

处理器，其可操作地连接到输出设备、用户接口和存储器，所述处理器被配置成

从存储在存储器上的多个文本数据的单元中读取第一文本数据的单元；

使用第一机器学习模型基于第一文本数据的单元来生成第二文本数据的单元；

使用第二机器学习模型来确定描述第二文本数据的单元的特征的标签；

操作输出设备以向用户输出第二文本数据的单元和标签；

操作用户接口以接收（i）对第二文本数据的单元的校正和对第二文本数据的单元的验证之一，以及（ii）标签的校正和标签的验证之一；以及

使用（i）校正的第二文本数据的单元和验证的第二文本数据的单元之一，以及（ii）校正的标签和验证的标签之一，重新训练第二机器学习模型。

20.一种用于生成标记的文本训练数据的非暂时性计算机可读介质，所述计算机可读介质存储程序指令，当由处理器执行时，所述程序指令使处理器：

接收第一文本数据的单元；

操作输出设备以向用户输出第二文本数据的单元和标签；

操作用户接口以接收（i）对第二文本数据的单元的校正和对第二文本数据的单元的验证之一，以及（ii）对标签的校正和对标签的验证之一；以及