CN115146654A

CN115146654A - 多模型联合去噪训练

Info

Publication number: CN115146654A
Application number: CN202110338761.8A
Authority: CN
Inventors: 寿林钧; 公明; 白轩宇; 王旭光; 姜大昕
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-10-04
Also published as: WO2022211984A1; US20240184997A1

Abstract

本公开提出了用于多模型联合去噪训练的方法和装置。可以获得多个模型。可以通过所述多个模型来对一组训练样本进行去噪。可以利用经去噪的一组训练样本来训练所述多个模型。

Description

多模型联合去噪训练

背景技术

自然语言理解(Natural Language Understanding，NLU)是使用自然语言与计算机进行通信的技术，其旨在使计算机能够理解和运用自然语言来实现人机之间的通信，从而代替人来执行与自然语言有关的各种任务，例如口语理解(Spoken LanguageUnderstanding，SLU)任务、机器阅读理解(Machine Reading Comprehension，MRC)任务、问答(Question Answering，QA)任务等。可以通过经训练的机器学习模型来执行NLU任务。机器学习模型执行NLU任务的表现依赖于大量且可靠的训练数据。对于诸如英语之类的资源丰富语言而言，存在针对一些NLU任务的大规模的人类标注的训练数据。因此，这些NLU任务在资源丰富语言上具有出色表现。

发明内容

提供本发明内容以便介绍一组构思，这组构思将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于多模型联合去噪训练的方法和装置。可以获得多个模型。可以通过所述多个模型来对一组训练样本进行去噪。可以利用经去噪的一组训练样本来训练所述多个模型。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了根据本公开实施例的用于合成翻译训练样本和生成训练样本的示例性过程。

图2示出了根据本公开实施例的用于获得多个训练语料的示例性过程。

图3示出了根据本公开实施例的用于多模型联合去噪训练的示例性过程。

图4示出了根据本公开实施例的用于多模型联合去噪训练的另一示例性过程。

图5示出了根据本公开实施例的用于执行去噪和训练的示例性过程。

图6是根据本公开实施例的用于多模型联合去噪训练的示例性方法的流程图。

图7示出了根据本公开实施例的用于多模型联合去噪训练的示例性装置。

图8示出了根据本公开实施例的用于多模型联合去噪训练的示例性装置。

具体实施方式

现在将参考若干示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

将诸如SLU任务、MRC任务、QA任务等的NLU任务扩展到资源稀缺语言，例如德语、西班牙语、法语等，是期望的。然而，对于资源稀缺语言而言，只有较少甚至没有可靠的训练数据，这制约了机器学习模型在针对资源稀缺语言执行NLU任务时的表现。针对特定NLU任务，可以利用资源丰富语言的训练数据来扩增(augment)资源稀缺语言的训练数据。在本文中，可以将资源丰富语言称为源语言，并且可以将资源稀缺语言称为目标语言。训练数据在本文中也可以被称为训练数据集合，它可以是由多个训练样本组成的。训练样本可以指训练数据集合中所包含的单个训练实例。可以通过多种方式来合成(synthesize)针对特定NLU任务的目标语言的训练样本，从而扩增针对该NLU任务的目标语言的训练数据集合。例如，可以通过机器翻译技术将源语言的训练样本中的文本翻译成目标语言的文本，并通过对齐技术将源语言的训练样本中的标注映射为目标语言侧的标注，从而可以获得该目标语言的训练样本。这种用于合成训练样本的方式可以被称为翻译方式。替代地，可以通过大规模的神经网络，例如生成式对抗网络、变分自编码器(variational autoencoder)、经预训练的语言模型等，来生成目标语言的训练样本。这种用于合成训练样本的方式可以被称为生成方式。然而，无论是通过翻译方式还是通过生成方式合成的训练样本往往包含一些错误的或者不准确的标注，这导致所合成的训练样本的质量不佳。训练样本中的错误的或者不准确的标注可以被认为是训练样本中的噪声(noise)。包含错误标注或者不准确的标注的训练样本可以被认为是有噪声(noisy)的训练样本。

可以通过一些方法来改善合成的训练样本的质量。对训练样本的质量进行改善也可以被认为是对训练样本进行去噪(denoising)。然而，这些方法仅考虑了通过单一方式合成的训练样本，即，要么只考虑了通过翻译方式合成的训练样本，要么只考虑了通过生成方式合成的训练样本。例如，可以使用注意力机制来实现目标语言与源语言之间的标注对齐和识别，从而改善所翻译的目标语言的训练样本的质量。这种方法仅考虑了通过翻译方式合成的训练样本。另外，在通过语言模型来生成目标语言的训练样本之前，可以先利用通过机器翻译技术获得的目标语言的训练数据集合对语言模型进行优化，以改进语言模型生成训练样本的能力，从而改善所生成的目标语言的训练样本的质量。这种方法仅考虑了通过生成方式合成的训练样本。

本公开的实施例提出了通过多个模型来对一组训练样本进行去噪，并且经去噪的一组训练样本可以用于训练这多个模型，经训练的多个模型可以被进而用于执行与该组训练样本相对应的NLU任务。由于本公开实施例的去噪和训练过程是通过多个模型来联合执行的，因此该方法也可以被称为多模型联合去噪训练方法。

在一个方面，本公开的实施例提出了用于对一组训练样本进行去噪的一系列机制，这些机制可以在对模型进行训练的期间执行。根据本公开实施例的去噪机制可以包括例如通过多个模型中的其他模型来从一组训练样本中选择针对当前模型的训练样本的协同训练机制，通过多个模型来确定训练样本的用于计算训练损失的权重的权重确定机制，通过多个模型来更新训练样本的标注的标注更新机制等等。上述机制可以有效地改善训练样本的质量，并进而提高利用这样的训练样本所训练出的多个模型的性能。

在另一个方面，本公开实施例提出的各种去噪机制可以适用于通过多种方式合成的训练样本，例如通过翻译方式合成的训练样本、通过生成方式合成的训练样本等。在本文中，可以将语言为源语言且包含可靠标注的训练样本称为源训练样本。另外，可以将通过翻译方式合成的训练样本称为翻译训练样本，并且可以将通过生成方式合成的训练样本称为生成训练样本。本公开实施例提出的各种去噪机制可以适用于对包括源训练样本、翻译训练样本、生成训练样本等的一组训练样本进行去噪。经去噪的一组训练样本可以用于联合训练多个模型。利用包括多种训练样本的训练数据集合来训练模型可以有助于训练出更健壮(robust)的模型。

在又一个方面，本公开实施例提出的各种去噪机制不仅可以适用于一组跨语言的训练样本，还可以适用于一组单语言的训练样本。可以将由不同语言的训练样本组合而成的一组训练样本称为一组跨语言的训练样本，并且可以将由相同语言的训练样本组合而成的一组训练样本称为一组单语言的训练样本。例如，对于某个NLU任务而言，源语言的训练样本也可能数量不足。在这种情况下，也可以通过翻译或生成的方式来合成针对该NLU任务的源语言的训练样本，例如源语言的翻译训练样本、源语言的生成训练样本等。根据本公开实施例的各种去噪机制可以适用于对包括源训练样本、源语言的翻译训练样本、源语言的生成训练样本等的一组单语言的训练样本进行去噪。应当理解，尽管前述讨论和以下讨论可能涉及对一组跨语言的训练样本进行去噪的示例，但本公开的实施例并不局限于此，而是可以以类似的方式对一组单语言的训练样本进行去噪。

图1示出了根据本公开实施例的用于合成翻译训练样本和生成训练样本的示例性过程100。在过程100中，可以通过源训练样本来合成目标语言的翻译训练样本和生成训练样本。下面以源语言是英语，并且目标语言是西班牙语为例来说明过程100。

源训练样本102可以例如是针对SLU任务的训练样本。SLU是面向任务的对话系统中的关键部分，其旨在将用户话语解析为预定义的语义表示形式，例如意图(intent)、槽值对(slot-value pair)等。因此，针对SLU任务的训练样本可以包括话语以及相应的意图标注和槽值对标注。例如，源训练样本102可以包括话语“When will my next alarm start”和意图标注“get_alarm”。另外，话语中的词条“next”被标记为“B-ordinal”，这可以指示词条“next”所在的文本片段的槽类型是“ordinal”，其中“B-”所指示的是词条“next”位于该文本片段的开头。相应地，与源训练样本102中的话语相对应的槽值对标注可以是“ordinal＝next”，其中槽类型是“ordinal”，并且与槽类型“ordinal”相对应的值是词条“next”。

在110处，可以通过翻译、对齐等操作将源训练样本102翻译成翻译训练样本112。在一种实施方式中，可以通过已知的机器翻译技术将源训练样本中的文本翻译成目标语言的文本，并且可以通过例如注意力权重、fastalign、GIZA++等的已知的对齐技术，将源训练样本中的标注映射为目标语言侧的标注，从而可以获得目标语言的翻译训练样本。可以通过以下公式来定义与话语x相对应的翻译训练样本X：

X＝[I；(s₁,v₁),…,(s_p,v_p)；(x₁,…x_L)] (1)

其中，I是意图标注，

是槽值对标注，并且(x₁,…x_L)是话语x的词条(token)序列，其中s_i是槽类型，v_i是与槽类型s_i相对应的值，并且v_i是目标语言的话语中的词条，其可以是通过在源语言的话语和目标语言的话语之间进行词条对齐来获得的。

例如，可以通过已知的机器翻译技术将源训练样本102中的话语“When will mynext alarm start”翻译成西班牙语的话语“Cuando va a empezar mi siguientealarma”，并且可以通过已知的对齐技术将源训练样本102中的标注，即意图标注“get_alarm”和槽值对标注“ordinal＝next”映射为西班牙语侧的标注，例如意图标注“get_alarm”和槽值对标注“ordinal＝empezar”。话语“Cuando va a empezar mi siguientealarma”、意图标注“get_alarm”和槽值对标注“ordinal＝empezar”可以形成翻译训练样本112。

为了进一步增强目标语言的训练样本的多样性，可以通过生成方式来合成额外的目标语言的训练样本。例如，可以基于目标语言的翻译训练样本来生成目标语言的生成训练样本。在一种实施方式中，可以通过经预训练的生成模型来生成目标语言的生成训练样本。优选地，在利用生成模型生成训练样本之前，可以对生成模型进行优化，例如微调(fine-tune)。例如，可以利用一组翻译训练样本，例如通过上述过程获得的一组翻译训练样本，来优化生成模型。用于优化生成模型的翻译训练样本可以如以上公式(1)所定义。优选地，在利用翻译训练样本对生成模型进行优化时，还可以通过向翻译训练样本应用文本填充(text infilling)来向翻译训练样本中注入噪声。例如，对于每个翻译训练样本，可以根据泊松分布，通过随机地采样一片段长度来屏蔽该翻译训练样本中的例如35％的词。

经优化的生成模型可以基于目标语言的翻译训练样本来生成目标语言的生成训练样本。与优化生成模型相类似，在通过生成模型生成训练样本时，可以通过向翻译训练样本应用文本填充来向翻译训练样本中注入噪声。可以将注入了噪声的翻译训练样本作为输入数据提供给生成模型以生成目标语言的生成训练样本。例如，在120处，可以通过应用文本填充来向翻译训练样本112中注入噪声，以获得输入数据122。输入数据122可以包括意图标注“get_alarm”、槽值对标注“ordinal＝empezar”以及词条序列“<MASK>empezar misiguiente<MASK></S><ES>”，其中“<MASK>”替代被屏蔽的词条，“</S>”是句子结束词条，并且“<ES>”是相应的语言标识符符号。

输入数据122可以被提供给生成模型130。生成模型130可以是例如通过对经预训练的语言模型，例如多语言双向自回归转换器(multilingual Bidirectional and Auto-Regressive Transformers，mBART)，执行上述优化过程获得的模型。生成模型130可以基于输入数据122来生成多个候选的西班牙语的生成训练样本。例如，生成训练样本132可以包括意图标注“get_alarm”、槽值对标注“ordinal＝empezar”以及话语“Cuando va aempezar mi siguiente</S><ES>”。可以从所生成的这多个候选生成训练样本中滤除不包含准确标注的训练样本。例如，可以从多个候选生成训练样本中滤除不包含输入数据122所包括的意图标注“get_alarm”和/或槽值对标注“ordinal＝empezar”的训练样本。

应当理解，图1中的过程100仅仅是用于合成翻译训练样本和生成训练样本的过程的示例。根据实际应用需求，用于合成翻译训练样本和生成训练样本的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。另外，尽管在过程100中通过翻译方式和生成方式合成了目标语言的训练样本，但在源语言的训练样本不足的情况下，可以通过类似的过程来合成源语言的训练样本。例如，可以通过将源语言的训练样本翻译成其他语言的训练样本，然后将其他语言的训练样本反向翻译回源语言的训练样本。由于在翻译过程中会产生不同的表达方式，从而可以构造出不一样的源语言的训练样本。另外，可以将少量的源语言的训练样本提供给生成模型。生成模型可以生成额外的源语言的训练样本。

通过过程100，合成了翻译训练样本和生成训练样本。所合成的翻译训练样本和生成训练样本可以被分别用于构建翻译训练语料(corpus)和生成训练语料。在本文中，可以将通过一组翻译训练样本构建的训练语料称为翻译训练语料，并且将通过一组生成训练样本构建的训练语料称为生成训练语料。图2示出了根据本公开实施例的用于获得多个训练语料的示例性过程200。在过程200中，可以通过源训练语料来获得至少一个翻译训练语料和至少一个生成训练语料。本文中，可以将包括一组源训练样本的语料称为源训练语料。

源训练语料210可以包括一组源训练样本210-1至210-F(F≥1)。可以将每个源训练样本210-f(1≤f≤F)翻译成相应的目标语言的翻译训练样本。例如，可以通过图1中的翻译及对齐操作110来将源训练样本翻译成翻译训练样本。

针对每个源训练样本，可以采用多种机器翻译技术或者多种对齐技术，相应地，可以获得与该源训练样本相对应的多个翻译训练样本。可以将采用相同机器翻译技术和相同对齐技术获得的、针对源训练语料210的一组翻译训练样本组合在一个翻译训练语料中。作为示例，可以获得M个翻译训练语料220-1至220-M(M≥1)，每个翻译训练语料220-m(1≤m≤M)可以例如对应于特定的机器翻译技术和对齐技术。另外，翻译训练语料220-m中包括的一组翻译训练样本220-m-1至220-m-F可以分别对应于一组源训练样本210-1至210-F。

另外，对于该组翻译训练语料220-1至220-M中的每个翻译训练语料220-m，可以基于该翻译训练语料来生成一组生成训练语料。例如，可以基于翻译训练语料220-1来生成一组生成训练语料230-1至230-N(N≥1)。对于每个翻译训练样本，可以通过生成模型来生成与该翻译训练样本相对应的生成训练样本。例如，可以通过图1中的注入噪声操作120并采用生成模型130来生成与翻译训练样本相对应的生成训练样本。

针对每个翻译训练样本，可以采用多种生成模型，相应地，可以获得与该翻译训练样本相对应的多个生成训练样本。可以将采用一个生成模型获得的、针对相同翻译训练语料的一组翻译训练样本组合在一个生成训练语料中。作为示例，对于翻译训练语料220-1，可以获得N个生成训练语料230-1至230-N(N≥1)，每个生成训练语料230-n(1≤n≤N)可以例如对应于特定生成模型。另外，生成训练语料230-n中包括的一组生成训练样本230-n-1至230-n-F可以分别对应于一组翻译训练样本220-1-1至220-1-F。

应当理解，图2中的过程200仅仅是用于获得多个训练语料的过程的示例。根据实际应用需求，用于获得多个训练语料的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。另外，尽管在过程200中，为了简洁起见，翻译训练语料中的翻译训练样本和生成训练语料中的生成训练样本与源训练语料中的源训练样本是一一对应的，即，利用特定翻译技术和特定对齐技术，一个源训练样本可以被翻译成一个翻译训练样本，并且特定生成模型可以基于一个翻译训练样本来生成一个生成训练样本，但本公开的实施例并不限于此。根据实际应用需求，利用特定翻译技术和特定对齐技术，一个源训练样本也可以被翻译成多个翻译训练样本。此外，特定生成模型可以基于一个翻译训练样本来生成多个生成训练样本。例如，如上面结合图1所描述的，一个生成模型可以生成多个候选的生成训练样本。在从这多个候选的生成训练样本中滤除不包含准确的标注的训练样本之后，可以从剩余的生成训练样本中随机采样若干个训练样本来构建针对该生成模型的生成训练语料。此外，应当理解，生成模型还可以基于源训练样本来生成一个或多个生成训练样本。相应地，生成训练语料可以是直接通过源训练语料来构建的。

后面将以SLU任务为例来说明用于多模型联合去噪训练的过程。针对SLU任务的训练样本可以包括话语以及相应的意图标注和槽值对标注。例如，话语

其中L是词条序列的长度，可以具有相应的意图标注y^I和槽类型标注序列

其中

是针对第i个词条x_i的槽类型标注。可以将话语x提供给编码器

以获得话语x的上下文隐藏表示H。上述处理可以通过以下公式来表示：

其中，Θ是编码器

的参数，h₀是针对话语x的意图分类的句子级别表示，并且h_i(1≤i≤L)是针对话语x的槽填充的词条级别表示。可以通过应用线性变换和softmax操作来获得话语x的意图概率分布p^I(x；Θ)和槽类型概率分布

上述处理可以通过以下公式来表示：

p^I(x；Θ)＝softmax(W^I·h₀+b^I) (3)

其中，

C^I是意图标注集合，C^S是基于BIO标记模式的槽类型标注集合，

和

是输出矩阵，并且b^I和b^S是偏差(biase)。

图3示出了根据本公开实施例的用于多模型联合去噪训练的示例性过程300。在过程300中，可以对多个模型进行初始化，通过经初始化的多个模型来对一组训练样本进行联合去噪，并且可以利用经去噪的一组训练样本来对这多个模型进行联合训练。

在302处，可以获得多个训练语料。例如，可以获得源训练语料、至少一个翻译训练语料、至少一个生成训练语料中的两个或更多个。这多个训练语料中的训练样本可以基于相同语言或者不同语言。可以例如通过图2中的过程200来获得多个训练语料。

在304处，可以获得多个模型。例如，可以获得K(K≥1)个模型

这多个模型可以是用于执行特定NLU任务的、具有相同结构的多个模型。

优选地，在通过这多个模型来对一组训练样本进行去噪之前，可以对这多个模型进行初步训练。在本文中，该初步训练过程也可以被称为初始化过程。在306处，可以基于多个训练语料形成多个初始化数据组。在本文中，可以将用于对模型进行初始化的训练数据称为初始化数据组。例如，可以基于在302处获得的源训练语料、至少一个翻译训练语料、至少一个生成训练语料来形成多个初始化数据组。初始化数据组的数量可以与模型的数量相一致。例如，在具有2个模型，即模型

和模型

的情况下，可以基于多个训练语料形成2个初始化数据组。此外，优选地，由于源训练语料是包含可靠标注的训练语料，因此可以将源训练语料包括在每个初始化数据组中。也就是说，每个初始化数据组可以至少包括源训练语料。作为示例，可以形成初始化数据组

初始化数据组

等，其中

可以是源训练语料，

可以是至少一个翻译训练语料中的一个，并且

可以是至少一个生成训练语料中的一个。在具有多个翻译训练语料或者多个生成训练语料的情况下，不同的翻译训练语料或者不同的生成训练语料可以被用于形成多个不同的初始化数据组。

在308处，可以利用多个初始化数据组来分别初始化多个模型。例如，可以利用初始化数据组

来初始化模型

作为示例，可以利用初始化数据组

来初始化模型

并利用初始化数据组

来初始化模型

假设各个训练语料是针对SLU任务的训练语料。在一种实施方式中，可以通过使如下式所示的交叉熵损失最小化来初始化模型

其中，x是训练样本中的话语，y^I是话语x的意图标注，

是话语x中的第i个词条的槽类型标注，并且p^I(x；Θ_k)和

分别是由模型

获得的意图的预测概率分布和槽类型的预测概率分布。

可选地，可以通过多次执行步骤306和308来对多个模型分别执行多轮初始化。在310处，可以判断是否已经达到预定的初始化轮数。如果在310处判断出未达到预定的初始化轮数，则过程300可以返回至步骤306，在306处，可以基于多个训练语料重新形成多个初始化数据组，并在308处，利用重新形成的多个初始化数据组来分别初始化在上一轮中得到的多个模型。所重新形成的多个初始化数据组可以与上一轮形成的多个初始化数据组相同或不同。

如果在310处判断出已经达到预定的初始化轮数，则过程300可以进行至步骤312，在312处，可以将在302处获得多个训练语料组合成训练数据集合。例如，可以将源训练语料

翻译训练语料

生成训练语料

组合成训练数据集合

可以利用训练数据集合来对多个模型进行联合去噪训练。例如，可以通过多个模型来对一组训练样本进行去噪，利用经去噪的一组训练样本来训练多个模型。可以通过经训练的多个模型对一组训练样本进行进一步去噪。在一种实施方式中，可以将训练数据集合整体提供给多个模型。在这种情况下，一组训练样本可以对应于训练数据集合。过程300中的步骤314至318说明了采用这种实施方式的示例性过程。

在过程300中的步骤314处，可以通过多个模型来对训练数据集合进行去噪。例如，对于多个模型中的每个模型，可以通过多个模型中的其他模型来从训练数据集合中选择针对该模型的训练样本。替代地或另外地，对于训练数据集合中的每个训练样本，可以通过多个模型来确定该训练样本的用于计算训练损失的权重。后面将结合图5来说明用于选择训练样本和确定权重的示例性过程。

在316处，可以利用经去噪的训练数据集合来训练多个模型。例如，对于多个模型中的每个模型，可以利用在314处选择的训练样本来训练该模型。例如，对于所选择的训练样本中的每个训练样本，可以将在314处确定的该训练样本的用于计算训练损失的权重应用于模型训练。后面将结合图5来说明用于训练多个模型的示例性过程。

在318处，可以通过经训练的多个模型来对训练数据集合进行进一步去噪。例如，可以通过经训练的多个模型来更新训练数据集合中的一个或多个训练样本的标注。经更新的标注可以用于下一轮的去噪和训练过程。后面将结合图5来说明用于对训练数据集合进行进一步去噪的示例性过程。

根据本公开的实施例，可选地，可以通过多次执行步骤314至318来对多个模型执行多轮联合去噪训练。在320处，可以判断是否已经达到预定的训练轮数。如果在320处判断出未达到预定的训练轮数，则过程300可以返回至步骤314，并再次执行步骤314至318。如果在320处判断出已经达到预定的训练轮数，则过程300可以进行至步骤322，在322处，过程300可以结束。

图4示出了根据本公开实施例的用于多模型联合去噪训练的另一示例性过程400。过程400中的步骤402至412可以分别对应于图3中的过程300中的步骤302至312。通过步骤402至412，可以对多个模型进行初始化，并且获得基于多个训练语料组合而成的训练数据集合。可以利用训练数据集合来对多个模型进行联合去噪训练。例如，可以通过多个模型来对一组训练样本进行去噪，利用经去噪的一组训练样本来训练多个模型。在一种实施方式中，可以将训练数据集合划分成多个训练数据子集。在这种情况下，一组训练样本可以对应于训练数据集合中的多个训练数据子集中的一个训练数据子集，所述多个训练数据子集可以用于迭代地执行去噪和训练过程。

在414处，可以将训练数据集合划分成多个训练数据子集。

可以针对训练数据集合中的多个训练数据子集迭代地执行去噪和训练过程。在每一次迭代中，可以通过多个模型来对一个训练数据子集进行去噪，并且可以利用经去噪的训练数据子集来训练多个模型。

在416处，可以通过多个模型来对一个训练数据子集进行去噪。例如，对于多个模型中的每个模型，可以通过多个模型中的其他模型来从该训练数据子集中选择针对该模型的训练样本。替代地或另外地，对于该训练数据子集中的每个训练样本，可以通过多个模型来确定该训练样本的用于计算训练损失的权重。后面将结合图5来说明用于选择训练样本和确定权重的示例性过程。

在418处，可以利用经去噪的训练数据子集来训练多个模型。例如，对于多个模型中的每个模型，可以利用在416处选择的训练样本来训练该模型。例如，对于所选择的训练样本中的每个训练样本，可以将在416处确定的该训练样本的用于计算训练损失的权重应用于模型训练。后面将结合图5来说明用于训练多个模型的示例性过程。

在420处，可以通过经训练的多个模型来对该训练数据子集进行进一步去噪。例如，可以通过经训练的多个模型来更新该训练数据子集中的一个或多个训练样本的标注。经更新的标注可以用于下一轮的去噪和训练过程。后面将结合图5来说明用于对训练数据子集进行进一步去噪的示例性过程。

可选地，可以针对训练数据集合中的多个训练数据子集迭代地执行步骤416至420。在422处，可以判断是否已遍历训练数据集合中的所有训练数据子集。如果在422处判断出尚未遍历训练数据集合中的所有训练数据子集，则过程400返回至步骤416，并针对下一训练数据子集执行步骤416至420。如果在422处判断出已遍历训练数据集合中的所有训练数据子集，则过程400可以进行至步骤424。

根据本公开的实施例，可选地，可以通过多次执行步骤414至422来对多个模型执行多轮联合去噪训练。在424处，可以判断是否已经达到预定的训练轮数。如果在424处判断出未达到预定的训练轮数，则过程400可以返回至步骤414，并再次执行步骤414至422。在这种情况下，在414处，可以将训练数据集合重新划分成多个训练数据子集，并基于重新划分的多个训练数据子集来重新地迭代执行步骤416至420处的去噪和训练过程。

如果在424处判断出已经达到预定的训练轮数，则过程400可以进行至步骤426，在426处，过程400可以结束。

通过图3中的过程300或者图4中的过程400可以对多个模型进行去噪训练。经过去噪训练的多个模型可以用于执行与训练数据集合所针对的NLU任务相同的NLU任务。在一种实施方式中，可以从这多个模型中选择一个模型来执行NLU任务。在另一种实施方式中，可以将这多个模型组成模型集合来执行NLU任务。例如，可以获取由这多个模型基于输入数据所获得的多个预测结果，并从中选取出现次数最多的预测结果作为针对该输入数据的最终预测结果。

应当理解，图3中的过程300和图4中的过程400仅仅是用于多模型联合去噪训练的过程的示例。根据实际应用需求，用于多模型联合去噪训练的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，可以从过程300或400中省略对多个模型的初始化的过程，从而直接通过多个模型来对一组训练样本进行去噪。此外，应当理解，尽管前述讨论和以下讨论可能涉及对针对SLU任务的训练样本进行去噪，并且相应地，利用这样的训练样本所训练的多个模型可以用于执行SLU任务，但本公开的实施例并不局限于此，而是可以以类似的方式对针对其他NLU任务，例如MRC任务、QA任务等，的训练样本进行去噪，并且所训练的多个模型可以用于相应的其他NLU任务。

图5示出了根据本公开实施例的用于执行去噪和训练的示例性过程500。在过程500中，可以通过多个模型来对一组训练样本进行去噪，并且利用经去噪的一组训练样本来训练多个模型。过程500可以对应于图3中的步骤314至318，或者图4中的步骤416至420。在过程500对应于图3中的步骤314至318的情况下，可以利用训练数据集合来执行过程500，即过程500中的一组训练样本可以对应于训练数据集合。在过程500对应于图4中的步骤416至420的情况下，可以利用训练数据集合中的多个训练数据子集中的一个训练数据子集来执行过程500，即过程500中的一组训练样本可以对应于一个训练数据子集。

首先，对于多个模型中的每个模型，优选地，可以通过多个模型中的其他模型来从一组训练样本中选择针对该模型的训练样本。通过一种方式获得的训练语料中的噪声通常与通过另一种方式获得的训练语料中的噪声是彼此独立的。例如，通过翻译方式获得的训练语料中的噪声通常与通过生成方式获得的训练语料中的噪声是彼此独立的。另外，如上面结合图3或图4所描述的，可以基于多个训练语料形成多个初始化数据组，并利用多个初始化数据组来分别初始化多个模型。通过初始化过程，每个模型可以从相应的训练语料中习得相应的知识，从而在基于相应的训练样本进行预测时可以获得较准确的预测结果。用于初始化多个模型的多个初始化训练数据组所包含的训练语料彼此之间是不同的，因此经初始化的多个模型可以在不同的训练语料方面具有较好表现。例如，假设模型

是利用初始化训练数据组

来初始化的，则模型

可以在基于源训练语料

或翻译训练语料

中的训练样本进行预测时获得较准确的预测结果；而模型

是利用初始化训练数据组

来初始化的，则模型

可以在基于源训练语料

翻译训练语料

或生成训练语料

中的训练样本进行预测时获得较准确的预测结果。每个模型可以基于一组训练样本中的每个训练样本进行预测。具有较准确预测结果的训练样本可以被提供给其他模型。

例如，在510处，对于多个模型中的一个模型，可以通过其他模型来从一组训练样本中滤除预定比例的训练样本，并且在520处，可以将一组训练样本中的剩余训练样本确定为针对该模型的训练样本。通常而言，具有较小预测损失的训练样本可能具有较准确的标注。因此，对于该模型而言，可以从一组训练样本中滤除预定比例的具有较大预测损失的训练样本，所述较大预测损失是在其他模型处获得的。针对模型

所进行的训练样本选择过程可以例如通过如下公式来表示：

其中，

表示一组训练样本，

表示从一组训练样本

中选择的针对模型

的训练样本，δ表示预定的滤除比例，并且

表示其他模型

处的与一组训练样本

相对应的预测损失。

通过步骤510和520可以选择出针对各个模型的训练样本。由于针对每个模型的训练样本是通过其他模型来选择的，因此这种机制也可以被称为协同训练机制。

在从一组训练样本中选择了针对每个模型的训练样本之后，优选地，对于一组训练样本中的每个训练样本，可以通过多个模型来确定该训练样本的用于计算训练损失的权重。本公开实施例提出了权重确定机制。在一种实施方式中，可以根据由多个模型基于该训练样本所获得的多个预测结果的一致性来确定该训练样本的权重。如果由多个模型基于训练样本所获得的多个预测结果是不一致的，则该训练样本很可能是有噪声的。例如，在530处，可以获取由多个模型基于该训练样本所获得的多个预测结果，并且在540处，可以根据多个预测结果的一致性来确定该训练样本的用于计算训练损失的权重。多个预测结果的一致性可以与多个预测结果的不确定性相关联。针对特定训练样本的多个预测结果的一致性越低，这多个预测结果之间的分歧就越大，不确定性就越高，该训练样本就越有可能是有噪声的，因此其权重应当越低。

预测结果的不确定性可以被表示为u，其可以例如通过以下公式来定义：

其中：

在550处，可以利用相应的训练样本来训练多个模型。例如，对于多个模型中的每个模型，可以利用在510和520处选择的训练样本来训练该模型。例如，对于所选择的训练样本中的每个训练样本，可以将在530和540处确定的该训练样本的用于计算训练损失的权重应用于模型训练。针对模型

的与包括话语x的训练样本相对应的训练损失可以通过如下公式来计算：

其中，w＝e^-u，

是话语x的当前意图标注，

是话语x中的第i个词条的当前槽类型标注，并且p^I(x；Θ_k)和

分别是由模型

基于话语x所获得的意图的预测概率分布和槽类型的预测概率分布。

对于每个模型，可以通过使针对该模型的与一组训练样本相对应的总训练损失最小化来训练该模型。

在训练了多个模型之后，优选地，还可以通过多个模型对一组训练样本进行进一步去噪。例如，在560处，可以通过经训练的多个模型来更新一组训练样本中的一个或多个训练样本的标注。优选地，由于源训练语料

是包含可靠标注的训练语料，因此来自源训练语料

的训练样本的标注可以保持不变，而仅更新来自翻译训练语料

和/或生成训练语料

的训练样本。在一种实施方式中，对于待更新标注的一个或多个训练样本中的每个训练样本，可以获取由经训练的多个模型基于该训练样本所获得的多个预测结果，并且基于这多个预测结果来更新该训练样本的标注。以上处理可以通过以下公式来表示：

经更新的标注可以用于下一轮的去噪和训练过程。另外，可以通过多种方式来更新标注，例如修改话语的意图标注、修改文本片段的槽类型标注、修改槽的BIO边界、修改槽类型标注和BIO边界二者等。

通过上述协同训练机制、权重确定机制和标注更新机制可以有效地改善训练样本的质量，并进而提高利用这样的训练样本所训练出的多个模型的性能。应当理解，图5中的过程500仅仅是用于执行去噪和训练的过程的示例。根据实际应用需求，用于执行去噪和训练的过程可以包括任意其他步骤，并且可以包括更多或更少的步骤。例如，尽管以上描述中采用了协同训练机制、权重确定机制和标注更新机制三者，但是在一些实施例中，可以从过程500中省略这三种机制中的任意一种或两种。例如，在不执行协同训练机制的情况下，可以利用一组训练样本中的所有训练样本来训练各个模型。替代地，在不执行权重确定机制的情况下，在计算训练损失时，所有训练样本可以具有同等的权重。此外，在不采用标注更新机制的情况下，可以基于相同的标注来执行每一轮去噪和训练过程。

图6是根据本公开实施例的用于多模型联合去噪训练的示例性方法600的流程图。

在610处，可以获得多个模型。

在620处，可以通过所述多个模型来对一组训练样本进行去噪。

在630处，可以利用经去噪的一组训练样本来训练所述多个模型。

在一种实施方式中，所述一组训练样本可以来自训练数据集合。所述训练数据集合可以包括源训练语料、至少一个翻译训练语料和至少一个生成训练语料中的两个或更多个。

在一种实施方式中，所述一组训练样本可以基于相同语言或者不同语言。

在一种实施方式中，方法600还可以包括：利用多个初始化数据组来初始化所述多个模型。所述多个初始化数据组可以是由包括所述一组训练样本的训练数据集合中的至少一个训练语料形成的。

在一种实施方式中，所述一组训练样本可以对应于训练数据集合。

在一种实施方式中，所述一组训练样本可以对应于训练数据集合中的多个训练数据子集中的一个训练数据子集。所述多个训练数据子集可以用于迭代地执行所述去噪和所述训练。

在每一次迭代中，所述去噪可以包括通过所述多个模型来对一个训练数据子集进行去噪，并且所述训练可以包括利用经去噪的训练数据子集来训练所述多个模型。

在一种实施方式中，所述对一组训练样本进行去噪可以包括：对于所述多个模型中的每个模型，通过所述多个模型中的其他模型来从所述一组训练样本中选择针对所述模型的训练样本。

所述选择针对所述模型的训练样本可以包括：通过所述其他模型来从所述一组训练样本中滤除预定比例的训练样本；以及将所述一组训练样本中的剩余训练数样本确定为针对所述模型的训练样本。

在一种实施方式中，所述对一组训练样本进行去噪可以包括：对于所述一组训练样本中的每个训练样本，通过所述多个模型来确定所述训练样本的用于计算训练损失的权重。

所述确定所述训练样本的权重可以包括：根据由所述多个模型基于所述训练样本所获得的多个预测结果的一致性来确定所述权重。

在一种实施方式中，方法600还可以包括：通过经训练的多个模型来对所述一组训练样本进行进一步去噪。

所述对所述一组训练样本进行进一步去噪可以包括：通过经训练的多个模型来更新所述一组训练样本中的一个或多个训练样本的标注。

所述更新标注可以包括，对于所述一个或多个训练样本中的每个训练样本：获取由经训练的多个模型基于所述训练样本所获得的多个预测结果；以及基于所述多个预测结果来更新所述训练样本的标注。

所述一个或多个训练样本可以来自翻译训练语料和/或生成训练语料。

在一种实施方式中，所述一组训练样本可以对应于训练数据集合。所述训练数据集合可以用于多轮地执行所述去噪和所述训练。

在一种实施方式中，所述一组训练样本可以来自训练数据集合。所述训练数据集合可以用于多轮地执行所述去噪和所述训练。在每一轮中，所述一组训练样本可以对应于所述训练数据集合中的多个训练数据子集中的一个训练数据子集，并且所述多个训练数据子集可以用于迭代地执行所述去噪和所述训练。

应当理解，方法600还可以包括根据上述本公开的实施例的用于多模型联合去噪训练的任何步骤/过程。

图7示出了根据本公开实施例的用于多模型联合去噪训练的示例性装置700。

装置700可以包括：模型获得模块710，用于获得多个模型；训练样本去噪模块720，用于通过所述多个模型来对一组训练样本进行去噪；以及模型训练模块730，用于利用经去噪的一组训练样本来训练所述多个模型。此外，装置700还可以包括根据上述本公开的实施例的被配置用于多模型联合去噪训练的任何其他模块。

图8示出了根据本公开实施例的用于多模型联合去噪训练的示例性装置800。装置800可以包括：至少一个处理器810；以及存储计算机可执行指令的存储器820。所述计算机可执行指令在被执行时可以使得所述至少一个处理器810：获得多个模型，通过所述多个模型来对一组训练样本进行去噪，以及利用经去噪的一组训练样本来训练所述多个模型。

在一种实施方式中，所述计算机可执行指令在被执行时还可以使得所述至少一个处理器810：利用多个初始化数据组来初始化所述多个模型，所述多个初始化数据组是由包括所述一组训练样本的训练数据集合中的至少一个训练语料形成的。

应当理解，处理器810还可以执行根据上述本公开实施例的用于多模型联合去噪训练的方法的任何其他步骤/过程。

本公开的实施例提出了用于多模型联合去噪训练的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器执行用于：获得多个模型；通过所述多个模型来对一组训练样本进行去噪；以及利用经去噪的一组训练样本来训练所述多个模型。此外，所述计算机程序还可以被执行用于实现根据上述本公开实施例的用于多模型联合去噪训练的方法的任何其他步骤/过程。

本公开的实施例可以体现在非暂时性计算机可读介质中。所述非暂时性计算机可读介质可以包括指令，所述指令当被执行时，使得一个或多个处理器执行根据如上所述的本公开的实施例的用于多模型联合去噪训练的方法的任何操作。

应当领会，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其他等同变换。另外，除非另有规定或者从上下文能清楚得知针对单数形式，否则如本说明书和所附权利要求书中所使用的冠词“一(a)”和“一个(an)”通常应当被解释为意指“一个”或者“一个或多个”。

还应当领会，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以利用微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑单元、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其他适合的处理组件来实现。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以利用由微处理器、微控制器、DSP或其他适合的平台所执行的软件来实现。

软件应当被广泛地视为意指指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(例如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部，例如高速缓存器或寄存器。

以上描述被提供用于使得本领域任何技术人员能够实践本文所描述的各个方面。对这些方面的各种修改对于本领域技术人员将是显而易见的，并且本文限定的一般性原理可以应用于其他方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域普通技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换都被明确并入本文并且由权利要求所覆盖。

Claims

1.一种用于多模型联合去噪训练的方法，包括：

获得多个模型；

通过所述多个模型来对一组训练样本进行去噪；以及

利用经去噪的一组训练样本来训练所述多个模型。

2.根据权利要求1所述的方法，其中，所述一组训练样本来自训练数据集合，所述训练数据集合包括源训练语料、至少一个翻译训练语料和至少一个生成训练语料中的两个或更多个。

3.根据权利要求1所述的方法，其中，所述一组训练样本基于相同语言或者不同语言。

4.根据权利要求1所述的方法，还包括：

利用多个初始化数据组来初始化所述多个模型，所述多个初始化数据组是由包括所述一组训练样本的训练数据集合中的至少一个训练语料形成的。

5.根据权利要求1所述的方法，其中，所述一组训练样本对应于训练数据集合。

6.根据权利要求1所述的方法，其中，所述一组训练样本对应于训练数据集合中的多个训练数据子集中的一个训练数据子集，所述多个训练数据子集用于迭代地执行所述去噪和所述训练。

7.根据权利要求6所述的方法，其中，在每一次迭代中：

所述去噪包括：通过所述多个模型来对一个训练数据子集进行去噪，并且

所述训练包括：利用经去噪的训练数据子集来训练所述多个模型。

8.根据权利要求1、5和6中任一项所述的方法，其中，所述对一组训练样本进行去噪包括：

对于所述多个模型中的每个模型，通过所述多个模型中的其他模型来从所述一组训练样本中选择针对所述模型的训练样本。

9.根据权利要求8所述的方法，其中，所述选择针对所述模型的训练样本包括：

通过所述其他模型来从所述一组训练样本中滤除预定比例的训练样本；以及

将所述一组训练样本中的剩余训练样本确定为针对所述模型的训练样本。

10.根据权利要求1、5和6中任一项所述的方法，其中，所述对一组训练样本进行去噪包括：

对于所述一组训练样本中的每个训练样本，通过所述多个模型来确定所述训练样本的用于计算训练损失的权重。

11.根据权利要求10所述的方法，其中，所述确定所述训练样本的权重包括：

根据由所述多个模型基于所述训练样本所获得的多个预测结果的一致性来确定所述权重。

12.根据权利要求1、5和6中任一项所述的方法，还包括：

通过经训练的多个模型来对所述一组训练样本进行进一步去噪。

13.根据权利要求12所述的方法，其中，所述对所述一组训练样本进行进一步去噪包括：

通过经训练的多个模型来更新所述一组训练样本中的一个或多个训练样本的标注。

14.根据权利要求13所述的方法，其中，所述更新标注包括，对于所述一个或多个训练样本中的每个训练样本：

获取由经训练的多个模型基于所述训练样本所获得的多个预测结果；以及

基于所述多个预测结果来更新所述训练样本的标注。

15.根据权利要求13所述的方法，其中，所述一个或多个训练样本来自翻译训练语料和/或生成训练语料。

16.根据权利要求1所述的方法，其中，所述一组训练样本对应于训练数据集合，所述训练数据集合用于多轮地执行所述去噪和所述训练。

17.根据权利要求1所述的方法，其中，

所述一组训练样本来自训练数据集合，所述训练数据集合用于多轮地执行所述去噪和所述训练，并且

在每一轮中，所述一组训练样本对应于所述训练数据集合中的多个训练数据子集中的一个训练数据子集，所述多个训练数据子集用于迭代地执行所述去噪和所述训练。

18.一种用于多模型联合去噪训练的装置，包括：

至少一个处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使得所述至少一个处理器：

获得多个模型，

通过所述多个模型来对一组训练样本进行去噪，以及

利用经去噪的一组训练样本来训练所述多个模型。

19.根据权利要求18所述的装置，其中，所述计算机可执行指令在被执行时还使得所述至少一个处理器：

20.一种用于多模型联合去噪训练的计算机程序产品，包括计算机程序，所述计算机程序被至少一个处理器执行用于：

获得多个模型；

通过所述多个模型来对一组训练样本进行去噪；以及

利用经去噪的一组训练样本来训练所述多个模型。