CN110140133A

CN110140133A - 机器学习任务的隐式桥接

Info

Publication number: CN110140133A
Application number: CN201780068195.5A
Authority: CN
Inventors: 陈智峰; 迈克尔·舒斯特; 梅尔文·乔斯·约翰逊普雷姆库马尔; 吴永辉; 国·V·勒; 马克西姆·克里昆; 托尔斯滕·布兰奇
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-04
Filing date: 2017-11-02
Publication date: 2019-08-16
Also published as: KR20190073525A; US10713593B2; JP2020501228A; KR102368519B1; US20190258961A1; JP6776448B2; EP3520035A1; US20200410396A1; US10679148B2; WO2018085577A1; US20180129972A1

Abstract

用于执行机器学习任务的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。一种方法包括：接收(i)模型输入以及(ii)识别要对所述模型输入执行以针对所述模型输入生成第一类型的模型输出的第一机器学习任务的数据；用所述第一机器学习任务的标识符扩增所述模型输入以生成扩增模型输入；以及使用机器学习模型来处理所述扩增模型输入。如本说明书中所描述的对于机器学习任务应用隐式桥接的示例性系统训练机器学习模型以执行某些类型的机器学习任务，而不要求在训练期间使用针对所述某些类型的机器学习任务的显式训练数据。

Description

机器学习任务的隐式桥接

背景技术

机器翻译系统要求大量并行训练数据来实现高水平的准确性。一般地，与许多人所说的语言相比，难以针对少数人所说的语言获得大量并行数据。例如，在互联网上找到的大多数文本是英语，然而在诸如日语或韩语的语言中找到的文本量较少。这使对于较小语言获得并行数据变得有挑战性。

传统的机器翻译系统通过经由第三语言桥接较小语言之间的翻译即将第一语言的文本的一部分翻译成第三语言然后从第三语言翻译成第二语言来克服此问题。这种桥接过程遭受许多问题，包括误差的传播、增加的等待时间和增加的系统复杂性。

发明内容

可在特定实施例中实现本说明书中描述的主题以便实现以下优点中的一个或多个：

如本说明书中所描述的对于机器学习任务应用隐式桥接的系统训练机器学习模型以执行某些类型的机器学习任务，而不要求在训练期间使用针对某些类型的机器学习任务的显式训练数据。例如，即使在训练期间未使用针对这种类型的任务的训练数据，系统也可以执行零样本(zero-shot)翻译以训练机器学习模型来将日语文本分段翻译成对应的韩语文本分段。因此，避免了针对翻译的显式桥接，从而避免误差的传播，减小机器学习任务的等待时间并且降低系统复杂性。例如，解码速度可以快两倍，因为当从日语翻译为韩语时通过第三语言的显式桥接是不必要的。

此外，一旦机器学习模型已被训练，如本说明书中所描述的执行零样本翻译的系统就可以实现高水平的准确性，其可比得上(若不好于)对于翻译应用显式桥接的系统。

如本说明书中所描述的执行零样本翻译的系统可以使用单个机器学习模型来执行N种语言之间的机器翻译，而不是具有N^2个单独的模型，从而减少模型参数调谐的所需时间和复杂性，以及减少由机器学习模型所消耗的计算资源。此外，模型的数量的减少可以使得能够在单个设备内使用更多的语言对，因为服务机器通常具有有限的存储器。此外，模型的数量的减少可以极大地简化系统架构，从而改进与系统相关联的生产/设置时间。

如本说明书中所描述的执行零样本翻译的系统可以允许缩放到附加语言。例如，可以将新的数据添加到现有模型，可能具有过采样或欠采样，使得所有语言都被适当地表示，并且在目标语言改变的情况下与新的前置令牌一起使用。不需要改变现有模型的架构。

如本说明书中所描述的执行零样本翻译的系统可以允许低资源语言改进。系统的所有参数都被建模的所有语言对隐式地共享。这迫使系统在训练期间跨越语言边界推广。当具有很少的可用数据的语言对和具有丰富的数据的语言对被混合到单个系统中时，可以改进低资源语言对上的翻译准确性。

本文中描述的各种示例实施方式涉及神经网络。神经网络是采用非线性单元的一个或多个层来针对接收到的输入预测输出的机器学习模型。一些神经网络除了包括输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一个层即下一个隐藏层或输出层的输入。网络的每个层依照一组相应的参数的当前值来从接收到的输入生成输出。可以使用训练数据来在机器学习任务上训练神经网络以确定层参数的训练值，并且可以使用神经网络来对神经网络输入执行机器学习任务。

一般而言，可在用于在训练数据上训练机器学习模型的方法中具体实现本说明书中描述的主题的一个创新方面，其中，机器学习模型被配置成：接收扩增模型输入，所述扩增模型输入包括具有要对模型输入执行的机器学习任务的标识符的模型输入；并且对所接收到的扩增模型输入执行机器学习任务以针对模型输入生成相应类型的模型输出，并且其中，所述方法包括：获得包括多个配对数据集的训练数据，其中，配对数据集中的每一个包括(i)输入数据集和(ii)输出数据集；以及在训练数据上训练机器学习模型以执行多个机器学习任务，其中，多个机器学习任务包括要对模型输入执行的机器学习任务。

此方面的其它实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，各自被配置成执行方法的动作。一个或多个计算机的系统可被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作，所述软件、固件、硬件或其任何组合在操作中可以使系统执行动作。一个或多个计算机程序可被配置成借助于包括指令来执行特定操作或动作，所述指令当由数据处理装置执行时，使装置执行动作。

前述和其它实施例可单独或相结合地各自可选地包括以下特征中的一个或多个。在一些实施方式中，扩增模型输入包括具有机器学习任务的前置令牌标识符的模型输入。

在一些实施方式中，模型输入包括第一输入类型的模型输入并且模型输出包括第一输出类型的模型输出，并且多个配对数据集不包括与第一输出类型的输出数据集配对的第一输入类型的输入数据集。

在一些实施方式中，多个配对数据集中的数据集包括不同语言的文本分段。

在一些实施方式中，方法还包括生成训练数据，包括：以不同语言的每一种生成固定大小V的词汇表；以及通过在每个生成的词汇表中顺序选择出现最高的词来合并所生成的词汇表以生成新的词汇表，直到新的词汇表的大小达到V为止。

在一些实施方式中，每个配对数据集包括输入语言的输入文本分段，所述输入语言的输入文本分段与不同于输入语言的目标语言的文本分段配对。

在一些实施方式中，多个机器学习任务包括对于每个配对数据集，将输入文本分段翻译成目标语言的文本分段。

在一些实施方式中，扩增模型输入包括具有指示至少目标语言的前置令牌的模型输入。

一般而言，可在用于如下步骤的方法中具体实现本说明书中描述的主题的一个创新方面：接收(i)模型输入以及(ii)识别要对模型输入执行以针对模型输入生成第一类型的模型输出的第一机器学习任务的数据；用第一机器学习任务的标识符扩增模型输入以生成扩增模型输入；以及使用机器学习模型来处理扩增模型输入，其中，机器学习模型已在训练数据上被训练成执行包括第一机器学习任务的多个机器学习任务，并且其中，机器学习模型已通过训练被配置成：处理扩增模型输入以针对模型输入生成第一类型的第一机器学习模型输出。

此方面的其它实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序，各自被配置成执行所述方法的动作。一个或多个计算机的系统可被配置成借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作，所述软件、固件、硬件或其任何组合在操作中可以使系统执行所述动作。一个或多个计算机程序可被配置成借助于包括指令来执行特定操作或动作，所述指令当由数据处理装置执行时，使装置执行所述动作。

前述和其它实施例可单独或相结合地各自可选地包括以下特征中的一个或多个。在一些实施方式中，用标识符扩增模型输入包括将第一机器学习任务的令牌标识符前置到模型输入。

在一些实施方式中，训练数据包括多个配对数据集，其中，配对数据集中的每一个包括与输出数据集配对的输入数据集，并且模型输入具有第一类型的模型输入，并且多个配对数据集不包括含有与第一类型的模型输出的输出数据集配对的第一类型的模型输入的输入数据集的数据集的配对。

在一些实施方式中，多个配对数据集中的数据集包括不同语言的文本分段，并且每个配对数据集包括输入语言的输入文本分段，所述输入语言的输入文本分段与不同于输入语言的目标语言的文本分段配对。

在一些实施方式中，用机器学习任务的标识符扩增模型输入以生成扩增模型输入包括将指示至少目标语言的令牌追到模型输入。

在下面的附图和描述中阐述本说明书的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将根据说明书、附图和权利要求书变得显而易见。

附图说明

图1示出用于执行机器学习任务的示例隐式桥接系统。

图2是用于执行机器学习任务的隐式桥接的示例过程的流程图。

图3是用于训练机器学习系统以执行机器学习任务的隐式桥接的示例过程的流程图。

在各个附图中相似的附图标记和名称指示相似的元件。

具体实施方式

本说明书描述用于使用隐式桥接来执行机器学习任务的方法和系统。例如，零样本翻译系统使用来自一组语言对例如英语-日语、日语-英语、英语-韩语、韩语-英语的训练数据来训练机器翻译模型以将源语言的文本翻译为目标语言的文本。通过训练，即使尚未在训练中使用这种类型的显式数据，零样本翻译系统也学习翻译看不见的语言对例如韩语-日语和日语-韩语。作为另一示例，系统学习构建文本的解析树表示并且使用来自一组(句子,解析树)和(解析树,情感)对的训练数据来训练机器学习模型以预测给定解析树的情感。通过训练，即使尚未在训练中使用这种类型的显式数据，系统也学习直接地预测给定句子的情感。

图1示出用于执行机器学习任务的示例隐式桥接系统100。例如，系统100可以是如在下面更详细地描述的用于执行零样本翻译的系统。其它机器学习任务包括情感分析或其它自然语言处理任务。系统100是作为计算机程序实现在一个或多个位置中的一个或多个计算机上的系统的示例，其中可实现在下面描述的系统、组件和技术。

隐式桥接系统100接收模型输入102a和识别要对该模型输入执行的机器学习任务的数据102b。隐式桥接系统100使用扩增模块104和机器学习模型106来处理所接收到的模型输入102a和识别要对该模型输入执行的机器学习任务的数据102b以生成模型输出108。所生成的模型输出108是特定类型的模型输出。例如，在一些情况下模型输入可以是源语言中的文本分段，例如“Hello,how are you？”，并且要该对文本分段执行的机器学习任务可以是从该文本分段从源语言翻译成目标语言，例如，将“Hello,how are you？”从英语翻译成西班牙语。在此示例中，目标语言可以表示所生成的模型输出的类型。

扩增模块104接收模型输入102a和识别要对该模型输入执行的机器学习任务的数据102b，并且用第一机器学习任务的标识符扩增模型输入102a以生成扩增模型输入108。在一些实施方式中，扩增模块104通过将第一机器学习任务的令牌标识符前置到模型输入来扩增模型输入102a。例如，如上所述，在一些情况下模型输入102a可以是源语言的文本分段并且要对该文本分段执行的机器学习任务可以是将该文本分段从源语言翻译成目标语言。在此示例中，扩增模块104可以将指示至少目标语言的令牌前置到模型输入。例如，扩增模块104可以前置令牌<2xx>，其中“xx”表示目标语言代码，例如，对于英语来说为EN或者对于日语来说为JP。继续以上示例，扩增模型输入108可以是<2ES>Hello,how are you？

在一些实施方式中，扩增模块104还可以通过将令牌<2xx>前置到输出文本分段例如代替标准令牌<s>来扩增目标语言的输出文本分段。例如，在一些情况下以目标语言前置文本分段可以是有益的，因为以源语言对输入文本分段进行编码然后独立于目标语言。这可以允许用仅一种编码将源语言的一个文本分段翻译成许多语言。

在一些实施方式中，扩增模块可以给源语言的文本分段前置“<xx>”符号并且给目标语言的对应文本分段前置“<xx>”令牌。例如，在一些情况下这种类型的前置可以使得系统能够将单语数据添加到机器学习模型，例如，以得到低资源语言。在这些情况下，扩增模块104可以被配置成接收模型输入102a和识别要对该模型输入执行的机器学习任务的数据102b以及来自机器学习模型106的输出。

机器学习模型104接收所生成的扩增模型输入108。机器学习模型104已通过训练被配置成处理扩增模型输入108以针对模型输入102a生成机器学习模型输出110。由机器学习模型生成的机器学习模型输出的类型取决于所接收到的扩增模型输即机器学习任务标识符，以及机器学习模型已被训练来执行的任务的类型。例如，继续以上示例，机器学习模型输出110可以是“Hola,como estas？”。在下面参考图3更详细地描述训练机器学习模型以执行机器学习任务的隐式桥接。

机器学习模型104包括编码器组件112和解码器组件114。在一些实施方式中，编码器组件112和解码器组件114都是递归神经网络。在一些实施方式中，解码器神经网络可以包括注意机制，并且可以包括softmax输出层。示例神经机器翻译模型在“Google's NeuralMachine Translation System:Bridging the Gap between Human and MachineTranslation,”Wu,Yonghui等人,arXiv:1609.08144(2016)中进行了更详细的描述。

如上所述，在一些情况下模型输入102a可以是源语言的文本分段，并且要对该文本分段执行的机器学习任务可以是将该文本分段从源语言翻译成目标语言。源语言可以是许多可能的源语言中的一种，并且目标语言可以是许多可能的目标语言中的一种。在这些情况下机器学习模型106可以包括通过不同的源语言共享的编码器、通过不同的目标语言共享的解码器以及跨越不同语言的大小V的共享词汇表。在一些实施方式中，词汇表可以是共享词块词汇表，即包含可以被汇编成词的子词单元的词汇表。

在一些实施方式中，隐式桥接系统100可以被配置成生成共享词汇表。例如，系统100可以以多种语言中的每一种生成固定大小V的多个词汇表并且合并所生成的词汇表以生成大小为V的新的单个词汇表。例如，系统100可以顺序地选择每个生成的词汇表中的出现最高的词，直到新的词汇表的大小达到V为止。可选地，系统可以从所生成的词汇表中去除重复的词，直到新的词汇表的大小达到V为止。例如，当生成将英语词与德语词合并的词汇表时，系统可以用德语冠词“die”对英语词“die”去重。

在一些情况下，词汇表可以包括跨越不同语言的词的概率分布，例如，对于n种不同语言所生成的词汇表包括每种语言的V/n个词的均匀分布。在其它情况下，词汇表可以包括跨越不同语言的词的数据驱动分布，例如，所生成的词汇表可以包括每种语言的不同数量的词。

在一些情况下，隐式桥接系统100可以被配置成生成模型输出，所述模型输出是所接收到的模型输入变成单一目标语言的翻译。在这些情况下，机器学习模型106可以包括跨越不同的源语言共享的编码器112、用于单一目标语言的解码器和跨越不同的源语言共享的词汇表。在其它情况下，隐式桥接系统100可以被配置成生成模型输出，所述模型输出是接收到的单一源语言的模型输入变成多种目标语言的翻译。

图2是用于执行机器学习任务的隐式桥接的示例过程的流程图。为了方便，过程200将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，依照本说明书适当地编程的包括机器学习模型的系统例如图1的隐式桥接系统100可执行过程200。

系统接收(i)模型输入以及(ii)识别要对该模型输入执行以针对该模型输入生成第一类型的模型输出的第一机器学习任务的数据(步骤202)。例如，在一些实施方式中所接收到的模型输入可以包括源语言例如日语的文本分段。所接收到的识别要对该模型输入执行以针对该模型输入生成第一类型的模型输出的第一机器学习任务的数据可以包括识别翻译源语言的文本分段以生成目标语言例如韩语的对应文本分段的任务的数据。在其它实施方式中，所接收到的模型输入可以包括文本分段，并且所接收到的识别要对该模型输入执行以针对该模型输入生成第一类型的模型输出的第一机器学习任务的数据可以包括识别预测文本分段的情感的任务的数据。

系统用第一机器学习任务的标识符扩增模型输入以生成扩增模型输入(步骤204)。在一些实施方式中，系统可以通过将第一机器学习任务的令牌标识符前置到模型输入来用第一机器学习任务的标识符扩增模型输入。例如，在模型输入是源语言的文本分段并且机器学习任务包括将该文本分段翻译成目标语言的文本分段的情况下，系统可以给源语言的文本分段前置“<2xx>”令牌，其中xx表示目标语言代码，例如，对于英语来说为EN或者对于德语来说为DE。作为另一示例，在模型输入是文本分段并且机器学习任务包括预测该文本分段的情感的情况下，系统可以给该文本分段前置“<2sentiment”令牌。

作为另一示例，系统可以给源语言的文本分段前置还指示源语言的附加令牌，例如，<s><EN><DE>How are you></s><s>Wie geht esIhnen？</s>。在一些情况下此方法可以是有益的，例如当翻译来自两种不同语言的具有不同的含义的同音异义词诸如英语中的“die”和德语中的“die”时。当给文本分段前置指示源语言和目标语言的令牌时，必须在每个示例中维护令牌的顺序。系统然后可以学习到第一令牌指示源语言并且第二令牌指示目标语言，或者反之亦然。

可替选地，在一些情况下系统可以通过将令牌<2xx>前置到输出文本分段(例如，代替标准令牌<s>)来扩增目标语言的输出文本分段。在一些情况下，以目标语言前置文本分段可以是有益的，因为以源语言对输入文本分段进行编码然后独立于目标语言。这可以允许用仅一种编码将源语言的一个文本分段翻译成许多语言。

作为另一个替代方案，例如，为了使得能实现多语言和单语训练，在一些情况下系统可以给源语言的文本分段前置“<xx>”符号并且给目标语言的对应文本分段前置“<xx>”令牌。在一些情况下，这种前置方法可以使得系统能够将单语数据添加到机器学习模型，例如，以得到低资源语言。例如，当用作为低资源语言的旁遮普语(Punjabi)来训练英语、印地语、旁遮普语机器学习模型时，系统可以经由下列的将单语旁遮普语数据包括到模型：

<pa>旁遮普语句子</s><pa>旁遮普语句子</s>。

在这些示例中，即使系统未直接地从旁遮普语翻译文本分段或者将文本分段翻译成旁遮普语，系统也可以被暴露于增加量的旁遮普语文本并且可了解旁遮普语词汇表和稀有词。以这种方式，可以增加机器学习模型将文本分段翻译成旁遮普语或者从旁遮普语翻译文本分段的能力。

系统使用机器学习模型来处理扩增模型输入(步骤206)。机器学习模型是已在训练数据上被训练成执行包括第一机器学习任务的一组机器学习任务并且已通过训练被配置成处理扩增模型输入以针对该模型输入生成第一类型的第一机器学习模型输出的机器学习模型。

例如，第一机器学习任务可以是将模型输入翻译成特定语言例如韩语的任务，并且机器学习模型可能已在训练数据上被训练成执行将给定模型输入翻译成包括特定语言的一种或多种语言的任务，例如，机器学习模型可能已被训练成将给定模型输入翻译成英语、韩语和日语。作为另一示例，第一机器学习任务可以是预测文本分段的情感的任务，并且机器学习模型可能已在训练数据上被训练成执行两个子任务——生成给定模型输入的解析树表示并且预测解析树表示的情感。

在一些情况下，用于训练机器学习模型的训练数据可以包括一组配对数据集，其中配对数据集中的每一个包括与输出数据集配对的输入数据集。在这种情况下，模型输入可以是第一类型的模型输入并且该组配对数据集可以不包括与第一类型的模型输出的输出数据集配对的第一类型的模型输入的输入数据集。

例如，模型输入可以是源语言例如日语的文本分段，其将被翻译成目标语言例如韩语的文本分段。在这种情况下，用于训练机器学习模型的训练数据可以包括不同语言的文本分段的对集，例如(日语,英语)、(英语,日语)、(韩语,英语)、(英语,韩语)，其中不同语言的文本分段的对集不包括源语言的文本与目标语言的文本的配对，例如(日语,韩语)。然而，因为机器学习模型已被训练成接收包含日语的文本分段的模型输入，例如，当将日语的文本分段翻译成英语的文本分段时，并且已被训练成将给定文本分段翻译成韩语，例如，通过处理训练数据对(英语,韩语)，所以机器学习模型已被训练成例如通过英语的文本分段来执行零样本翻译，并且能够将日语的文本分段直接地翻译成韩语的对应文本分段。

作为另一示例，模型输入可以是将预测其情感的文本分段。在这种情况下，用于训练机器学习模型的训练数据可以包括句子和相应的解析树表示的对，以及解析树表示和相应的情感的对。使用此训练数据，可以训练系统以直接地预测给定文本分段的情感。在下面参考图3更详细地描述训练机器学习模型以执行机器学习任务的隐式桥接。

图3是用于训练机器学习模型以执行机器学习任务的隐式桥接的示例过程300的流程图。例如，过程300可以用于训练图1的机器学习模型104。为了方便，过程300将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的用于执行隐式桥接的系统例如图1的系统100可执行过程300。

系统获得用于训练机器学习模型的训练数据(步骤302)。用于训练机器学习模型的训练数据包括一组配对数据集，其中配对数据集中的每一个包括与输出数据集配对的输入数据集。在一些实施方式中，由机器学习模型在运行时接收的模型输入可以是第一输入类型的模型输入，例如，input₁，并且由机器学习模型生成的模型输出可以是第一输出类型的模型输出，例如，output₁。在一些情况下，用于训练机器学习模型的该组配对数据集可以不包括与第一输出类型的输出数据集配对的第一输入类型的输入数据集，例如，该组配对数据集可以不包括对(input₁,output₁)。例如，该组配对数据集可以包括对(input₁,output₂)、(input₂,output₂)、(input₂,output₃)、(input₃,output₁)或(input₃,output₃)中的一个或多个，其中索引指示输入或输出的类型。

在一些实施方式中，该组配对数据集中的数据集可以是不同语言的文本分段。在这种情况下，每个配对数据集然后可以包括输入语言的输入文本分段，所述输入语言的输入文本分段与不同于输入语言的输出语言的输出文本分段配对。在这些实施方式中，由机器学习模型在运行时接收的模型输入可以是第一语言的输入文本分段，例如，日语的文本分段，并且由机器学习模型生成的模型输出可以是第二语言例如韩语的文本分段。该组配对数据集可以不包括与第二语言的文本分段配对的第一语言的文本分段，例如，(日语,韩语)对。例如，该组配对数据集可以包括诸如(英语,韩语)、(韩语,英语)、(英语,日语)、(日语,英语)的对。

配对数据集中的每一个还包括指定与配对数据集相关联的机器学习任务的语言标识符，例如，配对数据集(英语,韩语)可以包括指定英语数据集被翻译成韩语数据集的标识符。

在一些实施方式中，该组配对数据集中的数据集可以是一种或多种语言的文本分段、解析树表示和情感。在这种情况下，配对数据集可以包括与相应的解析树表示配对的文本分段以及与相应的情感配对的解析树表示。由机器学习模型在运行时接收的模型输入可以是输入文本分段，例如，“I hate flowers”，并且由机器学习模型生成的模型输出可以是情感，例如，“消极的”。配对数据集中的每一个还包括指定与配对数据集相关联的任务的标识符，例如，指定“生成解析树表示”或“预测情感”的标识符。

系统在训练数据上训练机器学习模型以执行一组机器学习任务(步骤304)。系统使用标准机器学习技术来训练机器学习模型。例如，在机器学习模型是神经网络的情况下，系统可以通过处理训练输入例如源语言的文本分段来在训练数据上训练神经网络，以根据给定机器学习任务例如将给定输入翻译成目标语言的文本分段，来生成训练输出，例如，目标语言的文本分段。系统然后可以通过计算损失函数并且相对于当前神经网络权重反向传播损失函数梯度来将训练输出与已知输出相比较，以确定使损失函数最小化的一组更新的神经网络权重，如上面参考图1所描述的。

该组机器学习任务包括要在运行时对模型输入执行的机器学习任务，如上面参考步骤304所描述的。换句话说，机器学习模型被训练成执行可以在运行时被提供给系统的机器学习任务。例如，继续上面在步骤302中给出的示例，在一些情况下该组配对数据集中的数据集包括不同语言例如日语、英语或韩语的文本分段。在此示例中，每个配对数据集包括与不同于输入语言的目标语言的文本分段配对的输入语言的输入文本分段，例如(日语,英语)、(英语,日语)、(英语,韩语)、(韩语,英语)。该组机器学习任务然后可以包括，对于每个配对数据集，将输入文本分段翻译成目标语言的文本分段，例如，将输入文本分段翻译成英语文本分段、将输入文本分段翻译成日语的文本分段以及将输入文本分段翻译成韩语的文本分段。

通过训练过程300，即使模型尚未被显式地训练成对特定类型的模型输入执行机器学习任务，机器学习模型也学习根据给定机器学习任务来处理给定模型输入。例如，如上所述，即使机器学习模型被仅训练成将日语文本翻译成第三“桥接”语言并且将第三语言翻译成韩语，机器学习模型也可以学习将日语的文本分段直接地翻译成韩语的对应文本分段。

在一些实施方式中，系统可以扩增训练过程300以利用可用的并行数据来改进过程300的有效性。如上所述，在此上下文中，并行数据描述用于要在运行时对模型输入执行的机器学习任务的训练数据。换句话说，并行数据可以描述用于机器学习任务的未被包括在步骤302处获得的训练数据中的训练数据。继续以上示例，并行数据可以包括可以用于训练机器学习模型以将日语的文本分段翻译成韩语的对应文本分段的训练数据，例如，配对数据集(日语,韩语)。

系统可以执行上述的步骤302和304来训练机器学习模型以执行机器学习任务的隐式桥接。例如，如上所述，即使在步骤302中获得的训练数据包括用于训练机器学习模型以将日语文本翻译成“桥接”语言并且将第三语言翻译成韩语的训练数据，机器学习模型也可学习将日语的文本分段直接地翻译成韩语的对应文本分段。

系统获得附加并行训练数据来训练机器学习模型以执行不是通过在步骤302处获得的训练数据所表示的机器学习任务。类似于上面参考步骤302所描述的训练数据，所获得的并行训练数据可以包括一组配对数据集，其中配对数据集中的每一个包括与输出数据集配对的输入数据集。继续以上示例，并行训练数据可以包括与韩语的对应文本分段配对的日语的一组文本分段。在一些实施方式中，所获得的并行训练数据可以是少量的训练数据。例如，并行训练数据的大小可以小于上面参考步骤302所描述的训练数据集，并且/或者并行训练数据可以包括比在步骤302处获得的训练数据集少的训练示例。

系统使用所获得的并行训练数据来训练机器学习模型以执行不是通过在步骤302处获得的训练数据所表示的机器学习任务。如上所述，这可以包括应用标准机器学习技术。例如，在机器学习模型是神经网络的情况下，系统可以通过处理并行数据训练输入例如源语言日语的文本分段来在并行训练数据上训练神经网络，以生成并行数据训练输出，例如，目标语言韩语的文本分段。如上面参考图1所描述的，系统然后可以通过计算损失函数并且相对于当前神经网络权重反向传播损失函数梯度来将并行数据训练输出与已知的并行数据输出相比较，以确定使损失函数最小化的一组更新的神经网络权重。

随着且当附加并行数据变得可被系统利用时，系统可以针对附加并行数据重复此附加训练过程。

通过针对零样本方向即针对不是通过原先获得的训练数据所表示的机器学习任务在附加并行数据上增量地训练多任务机器学习模型，系统可以进一步细化多任务机器学习模型并且改进从在运行时使用机器学习模型所获得的结果的准确性。在一些实施方式中，与使用单个训练过程来利用可用的训练数据的混合即包括并行数据的训练数据所训练的模型相比较，如上所述执行扩增训练过程可以使得机器学习模型能够以较高的准确性执行一些机器学习任务。

出于说明性目的，本说明书中描述的系统和方法已使用机器翻译作为主要示例用例。然而，所描述的系统和方法可以被应用于各种其它设定，包括诸如解析或情感分析的其它自然语言任务。例如，系统和方法可以用于预测来自给定句子的情感，例如，以预测短语“I hate flowers”的情感。在此示例中，可训练系统以执行两个机器学习子任务，即(1)将给定文本分段翻译成解析树，以及(2)预测解析树的情感。例如：

<2parsetree>I love flowers</s>(ROOT(S(NP(PRP I))(VP(VBP love)(NP(NNSflowers)))(..)))</s>

…

<2sentiment>(ROOT(S(NP(PRP I))(VP(VBP love)(NP(NNS flowers)))(..)))</s>positive</s>。

系统然后可以直接地学习从句子桥接到情感：

<2sentiment>I hate flowers</s>“negative”。

本说明书中描述的主题和功能操作的实施例可用数字电子电路、用有形地具体实现的计算机软件或固件、用计算机硬件包括本说明书中公开的结构及其结构等同物或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例可作为一个或多个计算机程序即在有形非暂时性存储介质上编码以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块被实现。可替选地或此外，可将程序指令编码在人工生成的传播信号上，所述传播信号例如为机器生成的电、光学或电磁信号，该信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备，或它们中的一个或多个的组合。计算机存储介质然而不是传播信号。

术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。装置可包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其还可以被称为或者描述为程序、软件、软件应用、模块、软件模块、脚本或代码)可用任何形式的编程语言编写，所述编程语言包括编译或解释语言，或声明性或过程语言，并且它可被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序或适合于在计算环境中使用的其它单元。计算机程序可以但不必对应于文件系统中的文件。可在保持其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中存储程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布的多个计算机上执行。

如本说明书中所使用的，“引擎”或“任何引擎”指代提供与输入不同的输出的软件实现的输入/输出系统。引擎可以是功能性的编码块，诸如库、平台、软件开发套件(“SDK”)或对象。可将每个引擎实现在包括一个或多个处理器和计算机可读介质的任何适当类型的计算设备上，所述计算设备例如为服务器、智能电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其它固定或便携式设备。附加地，可以将这些引擎中的两个或更多个实现在相同的计算设备上或者在不同的计算设备上。

本说明书中描述的过程和逻辑流程可通过一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能而被执行。过程和逻辑流程也可由专用逻辑电路执行，并且装置还可作为专用逻辑电路被实现，所述专用逻辑电路例如为FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

适合于执行计算机程序的计算机作为示例包括可基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。一般地，计算机还将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)接收数据，或者将数据转移到用于存储数据的一个或多个大容量存储设备，或者兼而有之。然而，计算机不必具有此类设备。此外，计算机可被嵌入在另一设备中，所述另一设备例如为移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如，通用串行总线(USB)闪存驱动器等等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括半导体存储器设备，例如，EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动磁盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充，或者并入在专用逻辑电路中。

为了提供与用户的交互，可在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备例如CRT(阴极射线管)或LCD(液晶显示器)监视器以及用户可用来向该计算机提供输入的键盘和指点设备，例如鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声学、语音或触觉输入。此外，计算机可通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求而向用户的客户端设备上的web浏览器发送web页面。

可在计算系统中实现本说明书中描述的主题的实施例，所述计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面或Web浏览器的客户端计算机)，或者包括一个或多个此类后端、中间件或前端组件的任何组合。系统的组件可通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备发送数据(例如，HTML页面)，例如，用于向与作为客户端的用户设备交互的用户显示数据并且从与作为客户端的用户设备交互的用户接收用户输入的目的。可在服务器处从用户设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实施方式细节，但是这些不应该被解释为对任何发明的或可能要求保护的东西的范围构成限制，而是相反被解释为可以特定于特定发明的特定实施例的特征的描述。还可在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，还可单独地或者按照任何适合的子组合在多个实施例中实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可以在上面被描述为按照某些组合起作用并且甚至最初如此要求保护，然而来自要求保护的组合的一个或多个特征可在一些情况下被从该组合中除去。

类似地，虽然按照特定次序在附图中描绘操作，但是这不应该被理解为要求按照所示的特定次序或者按照顺序次序执行此类操作，或者执行所有图示的操作以实现所希望的效果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离，并且应该理解的是，所描述的程序组件和系统一般地可被一起集成在单个软件产品中或者包装到多个软件产品中。

已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中叙述的动作可被以不同的次序执行并仍然实现所希望的结果。作为一个示例，附图中描绘的过程不一定要求所示的特定次序或顺序次序以实现所希望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

Claims

1.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，所述指令可操作为在由所述一个或多个计算机执行时使所述一个或多个计算机执行操作，包括：

接收(i)模型输入以及(ii)识别要对所述模型输入执行以针对所述模型输入生成第一类型的模型输出的第一机器学习任务的数据；

用所述第一机器学习任务的标识符扩增所述模型输入以生成扩增模型输入；以及

使用机器学习模型来处理所述扩增模型输入，其中，所述机器学习模型已在训练数据上被训练以执行包括所述第一机器学习任务的多个机器学习任务，并且其中，所述机器学习模型已通过训练被配置成处理所述扩增模型输入以针对所述模型输入生成所述第一类型的机器学习模型输出。

2.根据权利要求1所述的系统，其中，所述机器学习模型包括(i)被配置成接收扩增模型输入的编码器子系统以及(ii)被配置成生成模型输出的解码器子系统。

3.根据权利要求2所述的系统，其中，所述编码器子系统和解码器子系统包括相应的递归神经网络。

4.根据权利要求2或权利要求3所述的系统，其中，所述解码器子系统包括注意机制。

5.根据前述权利要求中的任一项所述的系统，其中，所述扩增模型输入包括具有针对所述机器学习任务的前置令牌标识符的模型输入。

6.根据前述权利要求中的任一项所述的系统，其中，所述多个机器学习任务包括将输入文本分段翻译成目标语言的文本分段。

7.一种用于在训练数据上训练机器学习模型的方法，

其中，所述机器学习模型被配置成

接收扩增模型输入，所述扩增模型输入包括具有针对要对模型输入执行的机器学习任务的标识符的所述模型输入，并且

对所接收到的扩增模型输入执行所述机器学习任务以针对所述模型输入生成相应类型的模型输出，以及

其中，所述方法包括：

获得包括多个配对数据集的训练数据，其中，所述配对数据集中的每一个包括(i)输入数据集和(ii)输出数据集；以及

在所述训练数据上训练所述机器学习模型以执行多个机器学习任务，其中，所述多个机器学习任务包括要对所述模型输入执行的所述机器学习任务。

8.根据权利要求7所述的方法，其中，所述扩增模型输入包括具有针对所述机器学习任务的前置令牌标识符的模型输入。

9.根据权利要求7或权利要求8所述的方法，其中，所述模型输入包括第一输入类型的模型输入，并且所述模型输出包括第一输出类型的模型输出，以及

其中，所述多个配对数据集不包括与所述第一输出类型的输出数据集配对的所述第一输入类型的输入数据集。

10.根据权利要求7至9中的任一项所述的方法，其中，所述多个配对数据集中的数据集包括不同语言的文本分段。

11.根据权利要求10所述的方法，进一步包括生成所述训练数据，包括：

以所述不同语言中的每一种生成固定大小V的词汇表；以及

通过在每个生成的词汇表中顺序地选择出现最高的词来合并所生成的词汇表以生成新的词汇表，直到所述新的词汇表的大小达到V为止。

12.根据权利要求10或11所述的方法，其中，每个配对数据集包括输入语言的输入文本分段，所述输入语言的输入文本分段与不同于所述输入语言的目标语言的文本分段配对。

13.根据权利要求12所述的方法，其中，所述多个机器学习任务包括：对于每个配对数据集，将输入文本分段翻译成所述目标语言的文本分段。

14.根据权利要求12或权利要求13所述的方法，其中，所述扩增模型输入包括具有指示至少所述目标语言的前置令牌的模型输入。

15.一种计算机实现的方法，包括：

使用机器学习模型来处理所述扩增模型输入，其中，所述机器学习模型已在训练数据上被训练以执行包括所述第一机器学习任务的多个机器学习任务，并且其中，所述机器学习模型已通过训练被配置成：

处理所述扩增模型输入以针对所述模型输入生成所述第一类型的第一机器学习模型输出。

16.根据权利要求15所述的方法，其中，用标识符扩增所述模型输入包括将用于所述第一机器学习任务的令牌标识符前置到所述模型输入。

17.根据权利要求15或16所述的方法，其中，所述训练数据包括多个配对数据集，其中，所述配对数据集中的每一个包括与输出数据集配对的输入数据集，以及

其中，所述模型输入是第一类型的模型输入并且所述多个配对数据集不包括含有与所述第一类型的模型输出的输出数据集配对的所述第一类型的模型输入的输入数据集的数据集的配对。

18.根据权利要求17所述的方法，其中，所述多个配对数据集中的数据集包括不同语言的文本分段，并且每个配对数据集包括输入语言的输入文本分段，所述输入语言的输入文本分段与不同于所述输入语言的目标语言的文本分段配对。

19.根据权利要求18所述的方法，其中，所述多个机器学习任务包括：对于每个配对数据集，将输入文本分段翻译成所述目标语言的文本分段。

20.根据权利要求18或19所述的方法，其中，用所述机器学习任务的标识符扩增所述模型输入以生成扩增模型输入包括将指示至少所述目标语言的令牌前置到所述模型输入。