CN116635874A

CN116635874A - 用于预测数据的数据模型的生成

Info

Publication number: CN116635874A
Application number: CN202080107781.8A
Authority: CN
Inventors: 焦健; 宫叶云; 段楠; 陈伟柱; 唐可文; 娄强; 张若非; 晏宇; 陈久生
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-08-22
Also published as: US20240046037A1; WO2022134021A1; EP4268116A1

Abstract

提供了用于基于训练数据训练数据模型的系统和方法。该训练包括基于自回归(AR)模型和非自回归(NAR)模型的组合预训练和微调数据模型。训练数据可以被并被编码为词元流。解码期间的预训练器生成AR和NAR组合的模型的连续数据结构的连续统一体，AR和NAR组合的模型包括主流和一系列预测流。预测流中的掩码词元参考或注意主流或先前预测流中的一个或多个先前词元。微调器根据目标数据模型选择流来生成经训练的模型。目标数据模型基于平衡用于预测词元的准确性约束和效率约束被确定。解码器在生成经训练的数据模型中充当AR和NAR模型之间的桥梁。

Description

用于预测数据的数据模型的生成

背景技术

传统系统使用基于序列到序列模型的方法来预测和生成数据，例如来自查询的关键字。这些系统生成或预测每个词元，例如，查询句子中词语的编码形式、以自回归(AR)模型中先前生成的词元为条件。AR生成模型基于先前生成的输出生成输出，并且该过程取决于所生成的句子的长度重复多次。虽然AR模型可以提供预测词语中的准确性，但这些模型是处理密集型的并且可能引起高时延，当处理大量数据时(例如，在由搜索引擎进行web搜索期间)，这可能变得不可接受地长。与之相对照，非自回归(NAR)模型并行生成所有词元，引起较高的词元生成效率。然而，NAR模型在预测词元方面不如AR模型准确。实际上，取决于系统要求或能力、部署成本、时延要求、准确性要求等，在部署AR模型或NAR模型之间存在权衡。因此，开发一种更好地满足这些要求同时最小化权衡的技术将是受期望的。

本文所公开的方面是针对这些和其他一般考虑而做出的。此外，尽管可以讨论相对具体的问题，但是应当理解，示例不应限于解决在背景技术或本公开的其他地方标识的具体问题。

发明内容

根据本公开，上述和其他问题通过提供组合用于序列到序列生成的AR模型和NAR模型的预训练流来解决。

本公开涉及基于预训练和微调过程生成语言生成模型。特别地，预训练过程针对目标句子的每个词元生成主流和一个或多个预测流。针对目标句子的预测流的结果集表示用于微调的数据的超集，以生成一系列AR和NAR模型的各种组合以用于在不同场景中的部署。然后，微调过程通过从主流和预测流选择流来生成经训练的模型，以构建组合AR和NAR模型的特征的结构。被选择用于构建经训练的模型的流基于平衡针对特定语言处理场景的效率和准确性需求。特定的经训练的模型可以基于要使用AR模型被处理的预定数目的词元和由NAR模型处理的其余词元来定义。AR和NAR模型的特定组合可以基于平衡实时效率和准确性要求来选择。所公开的技术使得能够使用AR模型部分地生成目标序列(例如，基于AR模型预测的句子的前两个词语)并且使用NAR模型生成目标序列的剩余词元或词语。这样，预测需要较高准确性的词元或词语(例如，初始词元)比处理目标句子的剩余词语(例如，后续词语)使用更多的资源。预测整个句子的准确性通过正确生成前几个词元来改进，同时效率通过基于NAR模型并行生成其余词元来改进。

所公开的技术包括用于生成经训练的模型的编码过程和解码过程。解码过程将是本公开的主要焦点。解码过程包括预训练子过程和微调过程。预训练子过程包括基于n-流结构的自注意力机制，以对AR和NAR模型的不同迭代组合进行建模。在微调子过程中，本技术能够生成基于AR和NAR模型的最佳组合的经训练的模型，例如，通过从AR和NAR模型的组合的连续统一体选择以在词元准确性与处理效率之间取得平衡。

一些示例包括用于生成数据模型(例如语言生成模型)的方法。该方法可以包括接收训练数据，基于训练数据生成主流，其中主流表示词元流，并且其中每个词元表示与训练数据相关联的值，基于主流生成一系列预测流，其中每个预测流包括与词元流中的一个或多个词元位置对应的一个或多个经掩码的词元，基于目标数据模型，根据第一处理模型选择用于预测词元的第一流集合，其中第一流集合从主流和一系列预测流被选择，基于目标数据模型，根据第二处理模型选择用于预测词元的第二流集合，其中第二流集合从一系列预测流被选择，以及使用所选择的第一流集合和第二流集合生成对应于目标数据模型的经训练的数据模型，以用于在部署期间根据准确性约束和效率约束来预测词元。通过生成与用于预测词元的目标数据模型对应的经训练的数据模型，可以在所部署的系统环境中生成满足与效率约束和准确性约束相关联的要求的经训练的数据模型。第一处理模型可以与自回归(AR)模型相关联，并且其中第二处理模型与非自回归(NAR)模型相关联。目标数据模型可以指定要基于第一处理模型被处理的一定数目的词元以及要基于第二处理模型被处理的剩余词元。第二流集合中的第二流可以参考第二流集合中的第一流中的词元的预测值。第二流集合可以根据第二处理模型被并行处理。第一流集合中的第二流可以参考第一流集合中的第一流中的词元的值。第一流可以是主流。该方法还可以包括基于平衡用于预测词元的准确性约束和效率约束来确定目标数据模型。该方法还可以包括接收查询，基于所接收的查询，使用经训练的数据模型生成查询集合，基于该查询集合检索一个或多个关键字，通过匹配所检索的一个或多个关键字与关键字语料库中的至少一个已知关键字来生成关键字集合，以及提供所生成的关键字集合。

一些示例包括用于训练数据模型的系统。该系统包括处理器和存储器，该存储器存储计算机可执行指令，该计算机可执行指令在由处理器执行时使系统：接收训练数据，基于训练数据生成主流，其中主流表示词元流，并且其中每个词元表示与训练数据相关联的值，基于主流生成一系列预测流，其中每个预测流包括与词元流中的一个或多个词元位置对应的一个或多个经掩码的词元，基于目标数据模型，根据第一处理模型选择用于预测词元的第一流集合，其中第一流集合从主流和一系列预测流被选择，基于目标数据模型，根据第二处理模型选择用于预测词元的第二流集合，其中第二流集合从一系列预测流中选择，以及使用所选择的第一流集合和第二流集合生成对应于目标数据模型的经训练的数据模型，以用于在部署期间根据准确性约束和效率约束来预测词元。通过生成与用于预测词元的目标数据模型对应的经训练的数据模型，可以在部署的系统环境中生成满足与效率约束和准确性约束相关联的要求的经训练的数据模型。第一处理模型可以与自回归(AR)模型相关联，并且其中第二处理模型与非自回归(NAR)模型相关联。目标数据模型可以指定要基于第一处理模型被处理的数目的词元以及要基于第二处理模型被处理的剩余词元。第二流集合中的第二流可以参考第二流集合中的第一流中的词元的预测值。第二流集合可以根据第二处理模型被并行处理。第一流集合中的第二流可以参考第一流集合中的第一流中的词元的值。第一流可以是主流。计算机可执行指令在执行时还使该系统基于平衡用于预测词元的准确性约束和效率约束来确定目标数据模型。

一些示例包括一种计算机可读非暂态记录介质，存储计算机可执行指令，该计算机可执行指令在由处理器执行时使计算机系统：接收训练数据，基于训练数据生成主流，其中主流表示词元流，并且其中每个词元表示与训练数据相关联的值，基于主流生成一系列预测流，其中每个预测流包括与词元流中的一个或多个词元位置对应的一个或多个经掩码的词元，基于目标数据模型，根据第一处理模型选择用于预测词元的第一流集合，其中第一流集合从主流和一系列预测流被选择，基于目标数据模型，根据第二处理模型选择用于预测词元的第二流集合，其中第二流集合从一系列预测流被选择，以及使用所选择的第一流集合和第二流集合生成与用于预测词元的目标数据模型的经训练的数据模型，以用于在部署期间根据准确性约束和效率约束来预测词元。

本发明内容被提供以简化形式介绍概念的选择，这在下面的具体实施方式中进一步描述。本发明内容不旨在标识要求保护的主题的关键特征或基本特征，也不旨在用于限制要求保护的主题的范围。示例的附加方面、特征和/或优点将部分地在以下描述中阐述，并且部分地将从描述中明显，或者可以通过本公开的实践获知。

附图说明

参考以下附图描述了非限制性和非穷举性示例。

图1示出了根据本公开的各方面的用于生成经训练的模型并部署到应用服务中的示例系统的概览。

图2示出了根据本公开的方面的系统架构的示例。

图3示出了根据本公开的方面的经预训练的流的示例。

图4示出了根据本公开的方面的在预训练期间预测流的数据结构的示例。

图5A示出了根据本公开的方面的通过使用经训练的模型基于所接收的查询生成查询来确定匹配的关键字的示例。

图5B示出了根据本公开的方面的使用经训练的模型基于生成式检索来确定匹配的关键字的示例。

图6示出了根据本公开的方面的用于生成和使用经训练的模型的方法的示例。

图7示出了本公开的方面可以利用其被实践的计算设备的示例物理组件的框图。

图8A是本公开的方面可以利用其被实践的移动计算设备的简化图。

图8B是可以本公开的各方面可以利用其被实践的移动计算设备的另一简化框图。

具体实施方式

下面参考附图更全面地描述本公开的各个方面，附图是本公开的一部分，并且示出了具体示例方面。然而，本公开的不同方面可以以许多不同的方式来实现并且不应被解释为限于本文阐述的方面；相反，这些方面被提供以使得本公开将是透彻和完整的，并将这些方面的范围充分传达给本领域技术人员。方面可以作为方法、系统或设备来实践。因此，方面可以采用硬件实现、完全软件实现或组合软件和硬件方面的实现的形式。因此，以下详细描述不具有限制意义。

自然语言处理依赖于针对各种目的预测给定数据集中的缺失数据，包括语言翻译、总结文本、信息检索、图像识别等。当前，有两种不同的模型用于自动生成自然语言数据。自回归(AR)生成模型基于先前生成的输出(例如，先验词元)预测输出(例如，词元)，并取决于被预测或生成的目标句子的长度重复该过程多次。AR生成模型产生高质量(例如，高度准确)的预测结果。然而，由于AR生成模型处理密集且遭受高时延，因此在高效预测目标句子中出现问题。在实时处理环境中处理大型训练语料库时，时延可能会变得长得无法接受。与之相对照，非自回归(NAR)模型并行处理所有词元。NAR生成模型使用目标句子中的一个或多个掩码和掩码之间的连接来预测目标句子的相应的词元或词语。由于NAR模型并行处理所有词元，因此它无法从先前预测的数据中获益。因此，基于NAR生成模型预测目标句子可能比基于AR生成模型的预测更高效但更不准确。本申请通过提供一种系统来解决此权衡问题，该系统高效地可调谐以基于AR生成模型和NAR生成模型两者的组合方面来训练语言模型。本申请使得能够平衡准确性和效率的竞争需求，以生成针对特定处理场景定制的经训练的模型。

如以下更详细地讨论的，本公开涉及一种语言生成模型，用于产生改进效率而基本不影响准确性的经训练的模型。具体地，语言生成模型基于特定的系统资源、准确性需求、时延要求等选择性地使用AR和NAR生成模型的组合来平衡自然语言处理的效率和准确性。所公开的技术通过以下来解决该问题：通过预训练过程生成预测数据流集合，该预测数据流集合可以用于生成AR和NAR生成模型的组合的连续统一体，以用于基于实时要求微调经训练的模型。

图1示出了根据本公开的方面的用于生成并使用语言模型的示例系统100的概览。系统100表示用于使用语言生成模型(或模型)以使用训练器和生产服务器生成经训练的模型的系统。系统100包括客户端设备102、应用服务器110、数据服务器120、模型生成器140和网络130。客户端设备102与应用服务器110通信，应用服务器110包括一个或多个指令集合以作为在客户端设备102上的应用执行。应用服务器110包括数据检索器112和数据查看器114。应用服务器110中的一个或多个指令集合可以通过交互式浏览器104提供交互式用户接口。搜索服务器120包括查询接收器122、生成式关键字检索器124、经训练的模型126和答案提供器128。网络130提供客户端设备102、应用服务器110和搜索服务器120之间的网络连接性。模型生成器140包括编码器142、解码器143、训练数据148和部署器150。解码器143包括预训练器144和微调器146。数据服务器160存储数据以及通过网络130向搜索服务器120和应用服务器110提供数据。

客户端设备102经由网络130与应用服务器110连接以执行包括通过交互式浏览器104的用户交互的应用。应用服务器110经由网络130与客户端设备102和搜索服务器120交互以执行信息搜索和检索。根据本公开，模型生成器140生成经训练的语言模型(或用于预测其他类型的缺失数据(例如像素数据)的其他经训练的模型)。在各方面，模型生成器140可以生成基于AR和NAR模型的组合的经训练的语言模型。

客户端设备102是提供用户输入能力(例如，经由交互式浏览器104用于在网络130上搜索信息)的通用计算机设备。在一些方面，客户端设备102可选地从系统开发者接收用户输入以基于在得到的经训练的语言模型中要由AR模型和NAR模型处理的词元的数目，在效率和准确性之间取得期望的平衡。例如，交互式浏览器104可以呈现与web浏览器相关联的图形用户接口。在各方面，客户端设备102可以通过网络130与应用服务器110通信。

应用服务器110是使用户(可以基于部署的训练模型搜索信息)和开发者(可以使用模型生成器140生成经训练的模型用于部署)能够在客户端设备102上交互地使用系统100的服务器。应用服务器110可以包括应用，这些应用包括数据检索器112和数据查看器114。数据查看器112可以提供数据的呈现以用于由用户查看。例如，数据检索器114可以用于通过与搜索服务器120通信来查询和接收数据。

在各方面，数据检索器112可以与搜索服务器120的查询接收器122连接以查询信息。生成式关键字检索器124可以通过扩展查询并从数据服务器160检索数据来基于所接收的查询执行关键字的生成式检索。经训练的模型126(例如，经训练的语言生成模型)可以通过基于接收查询预测查询的词语来执行接收的查询到查询集合的扩展。答案提供者128可以在客户端设备102中的交互式浏览器104上向数据检索器112提供对查询的答案(例如，结果)。数据查看器114可以接收对查询的结果以用于由用户使用客户端设备102上的交互式浏览器104查看。

模型生成器140表示用于生成语言生成模型和训练语言生成模型以作为搜索服务器120中的经训练的模型126部署的应用/系统。在实施例中，模型生成器140包括编码器142，解码器143、训练数据148和部署器150。解码器143可以进一步包括预训练器144和微调器146。编码器142对训练数据148进行编码。预训练器144使用经编码的训练数据来预训练并生成主流和预测流集合作为用于微调的数据的超集。微调器146选择该主流和一个或多个预测流以生成经训练的模型，该经训练的模型是如由开发者指定的AR和NAR模型的组合。当混合AR-NAR被选择来处理所有词元时(下面进一步描述)，微调器146不选择主流而是选择预测流中的所有预测流来生成经训练的模型。训练数据148包括用于训练模型的句子语料库。在各方面，训练数据148包括至少一个文本句子，其包括词语(或词元)的集合。在一些其他方面，训练数据148包括用于训练模型的图像语料库。用于图像的训练数据语料库可以包括用于图像的像素数据。部署器150将经微调的(即，经训练的)模型作为经训练的模型126部署到搜索服务器120。

在实施例中，模型生成器140生成用于部署的经训练的模型(其中经训练的模型可以包括经训练的语言模型、经训练的图像模型等)。生成过程包括编码过程和解码过程。编码器142接收训练数据(例如，至少一个文本句子)并将文本句子编码成经编码的词元。多维向量可以表示每个经编码的词元。用于训练的目标语句的经编码的词元集合可以是主流的形式。预训练器144基于自注意力模型使用主流生成预测流集合。在各方面，根据本公开的自注意力模型不仅允许“注意”当前词元本身而且允许“注意”目标句子中在当前词元之前的其他词元。也就是说，针对先前词元的预测的结果用于通过分析当前词元如何与目标句子中的先前词元中的每个词元相关来预测当前词元。

解码器包括相应地用于预训练过程的预训练器和用于微调过程的微调器。预训练过程(例如，由预训练器144执行)接收训练句子的经编码的词元，并生成主流和预测流集合，用于预测目标句子的词元。预测流集合表示数据的超集，用于生成针对不同准确性和效率要求定制的AR和NAR模型的不同组合。在用于AR语言生成模型的传统解码器中，“teacher-forcing(教师强制)”是一个常用术语，用以描述先前预测的词元作为上下文输入来预测当前词元的使用。在各方面，teacher-forcing可以包括将预测答案与正确答案相比较，如果预测答案不正确，则用正确答案校正预测答案，并且使用正确答案来预测句子中的后续词元或词语。主流包括词元流。在一些方面，预训练器144基于“teacher-forcing”生成主流。在用于NAR语言生成模型的传统解码器中，几种不同的初始化方法很流行，诸如编码器复制、[MASK](M)([掩码](M))初始化和后验分布近似。对于NAR语言生成模型，长度预测可以确定用以馈送的多个经掩码的词元。

微调过程(例如，由微调器146执行)使用主流和完整的预测流集合来生成针对特定处理场景定制的经训练的模型。这是通过选择组合AR和NAR模型的方面的流子集以满足特定场景的效率/准确性要求来完成的。为了平衡准确性和效率需求，该组合可能涉及选择要基于AR模型被预测的目标句子中的词元的数目以及要基于NAR模型被预测的剩余的词元。然后，流子集从超集被选择以用于基于AR处理该多个初始词元和基于NAR处理剩余词元。基于AR模型的预测比基于NAR模型的预测提供更高的准确性。然而，基于AR模型的预测处理效率低于基于NAR模型的预测。然而，这种组合使初始词元能够使用AR更准确地被预测，并且基于使用初始预测作为上下文，后续词元可以使用NAR模型更准确并且更高效地被预测。预训练器基于主流生成一系列预测流。每个预测流包括与预测流中的词元流中的一个或多个词元位置对应的一个或多个经掩码的词元。在一些示例中，预测流的超集中的每个预测流参考先前流的一个或多个词元预测。在这种情况下，与传统的NAR模型不同，所公开的模型可以称为“混合AR-NAR模型”，因为它在并行处理期间使用的预测流中合并了回顾的上下文(例如，先前词元的预测)以预测目标句子的剩余词元。

在各方面，经训练的模型包含两个组件：编码器部分和解码器部分。预训练和微调过程更新编码器部分和解码器部分两者中的参数。编码器部分的结构在预训练和微调过程期间不被改变，但参数被更新。在预训练和微调过程期间生成的解码器部分的结构取决于指定处理模型的组合的目标数据模型，范围从AR到混合AR-NAR到NAR模型。

在一个示例中，对于三个词语(即，三个词元)的目标句子，生成用于基于AR模型预测第一词元和基于混合AR-NAR模型预测剩余两个词元的经训练的语言模型，微调器146选择主流、第一预测流和第二预测流。在这种情况下，第一词元基于主流中的第一词元。第一预测流中的第二词元参考主流中的第一词元。第二预测流中的第三词元参考主流中的第一词元和第一预测流中的第二词元。

在另一示例中，对于四个词语(即，四个词元)的目标句子，生成用于基于AR模型预测前两个词元和基于混合AR-NAR模型预测剩余两个词元的经训练的语言模型，微调器146选择主流、第一预测流和第二预测流。第一词元基于主流中的第一词元。第一预测流中的第二词元参考主流中的第一词元。第一预测流中的第三词元参考主流中的第一词元和第二词元。第二预测流中的第四词元参考主流中的第一词元和第二词元以及第一预测流中的第三词元。

在又一示例中，目标句子的所有词元可以基于上述混合AR-NAR模型被处理。也就是说，微调器146可以选择预测流中的所有预测流而不是主流来预测目标句子中给定数目的词元。然而，由于生成的预测流参考了先验词元预测，即使流并行地被处理，准确性也会基于先前的上下文(即先验词元预测)被提高，但效率基于并行处理被保持。

在各方面，根据本实施例的解码器143将先前预测的词元和掩码(M)的不同组合中的一个或多个(包括所有)组合视为解码器输入。如上所述，预训练器144生成预测流，该预测流参考(或注意)对当前词元之前的词元的预测。通过考虑所有不同的组合，解码器143组合AR语言生成模型和NAR语言生成模型进行统一的大规模预训练。在各方面，解码器143以高效的n-流方式(例如，处理多个预测流)提供预训练，以及利用自注意力机制(例如主流)对AR和NAR组合的预测模型的所有结构的连续统一体进行建模。解码器143然后提供微调以生成经训练的语言模型，该经训练的语言模型针对效率与准确性之间的平衡被优化，如由特定部署环境所要求的那样。因此，解码器143可以支持部分基于AR语言生成模型的预测处理和基于混合AR-NAR语言生成模型的剩余部分的预测处理以平衡效率与准确性。

因此，如上所述，预训练器144使用主流来生成预测流集合。主流和预测流集合是流的超集，用于微调以基于用于预测词元的目标数据模型的类型生成各种经训练的模型，从更多地基于AR模型(更准确)的模型到更多地基于混合AR-NAR模型(更高效)的模型。微调器146通过从由预训练器144生成的预训练流的超集中选择流子集来执行微调。流的子集基于评估特定处理场景的准确性/效率的需求被选择以生成经训练的模型，该经训练模型是为满足那些需求而定制的。也就是说，对于给定长度的目标句子，可以确定一定数目的词元应该由AR处理，并且剩余词元由混合AR-NAR处理。基于该确定，微调器146可以选择对应地执行词元处理所需的流的子集。

如将理解的，关于图1描述的各种方法、设备、应用、特征等并不旨在将系统100限制为由所描述的特定应用和特征来执行。因此，附加的控制器配置可以被使用用于实践本文的方法和系统和/或在不脱离本文公开的方法和系统的情况下，所描述的特征和应用可以被排除。

图2示出了根据本公开的各方面的语言生成模型的三种不同类型的系统架构的示例。首先，系统200A示出了基于AR模型的经训练的模型。系统200A接收包括词元集合的输入202A。示例中有五个词元，第一词元是特殊的“句子的开始”符号、第二词元是y0、第三词元是y1、第四词元是y2、第五词元是y3。解码器204A解码输入词元以生成输出词元作为输出206A。在AR语言生成模型中，每个词元通过将输出词元作为输入馈送到下一个词元来注意其前一个词元。在系统200A中，第一输出y0馈送到第二输入词元中以预测y1作为第二输出。然后第二输出y1馈送到第三输入词元中以预测第三输出y2。

在根据系统200B的基于组合的AR/NAR语言生成模型的经训练的模型中，经训练的模型基于AR模型预测多个前导词元，例如前两个词元。组合的模型使用NAR模型来预测其余词元。在各方面，准确预测前几个(例如，前两个)词元可以改进预测句子中的其余词元的准确性。对前几个词语使用AR模型可以提高预测词元(词语)的准确性，同时通过使用NAR模型处理其余词元仍然可以提高效率。在系统200B中，第一预测的词元“y0”馈送到第二输入词元中以预测第二词元“y1”。其余词元的预测使用NAR语言生成模型，通过在最后三个输入上放置掩码来使用并行处理。

系统200C示出了非自回归(NAR)语言生成模型。所有五个输入词元都被掩码以将每个词元预测为用于第一输出词元的y0、用于第二输出词元的y1、用于第三输出词元的y2、用于第四输出词元的y3以及用于第五输出词元的y4。解码器204C独立并并行地处理所有五个输入词元以生成预测的词元。虽然根据基于NAR语言生成模型的系统200C所训练的语言模型在并行预测词元中提供了高效率，但是基于NAR语言生成模型所训练的模型可能遭受较差的准确性，因为处理相应的词元是独立的并且在预测当前词元时不注意其他词元的预测。

图3示出了根据本公开的方面的经预训练的流和基于经预训练的流的经训练模型的示例。示例300示出了三种不同的经训练的语言模型，用于预测词元“y3”。在各方面，预训练器基于目标句子的长度生成主流310A和预测流集合312至318。如图所示，目标句子包括至少五个词元或词语。例如，预训练过程生成主流310A、第一预测流312A至C、第二预测流314B至C、第三预测流316C和第四预测流318C。

如图所示，解码器302A表示基于用于利用至少五个词语训练的输入训练句子解码输入词元(y0、y1、y2和掩码符号“M”)以预测词元y3作为输出词元。掩码(“M”)表示作为掩码来指示要预测的词元的特殊词元。在这种情况下，第一预测流312A参考主流310A中前三个词元(例如，y0、y1和y2)的输出，以预测第四词元y3。

在各方面，预训练过程可以包括将解码器层复制到一个主流和具有共享参数的预测流集合中。在生成主流时，词元通过利用针对相应的词元的正确答案校正预测的词元被馈送到解码器中。因此，如果预测不正确，主流中的每个词元都被纠正。在预测流中，经掩码的词元(即带有“M”的掩码)注意主流和前几代预测流中的一个或多个词元，以预测经掩码的词元的值。第一预测流312A至C中的经掩码的词元构成基于AR语言生成模型的经训练的模型。

例如，预训练器可以基于混合AR-NAR模型生成预测流，其中经掩码的词元以AR方式参考在前的词元。与使用目标句子中所有可能的组合和与其他词元的连接但不参考先验词元的预测值的典型的NAR模型不同，根据本公开的技术可以包括如下结构：在该结构中处理词元注意(或参考)针对句子中在前词元的词元预测而在不注意后续词元。

在第一示例中，第一预测流312A示出了预测词元y3(例如，第四个词语)。所有五个词元都被掩码了，指示用于所有词元的预测操作都以NAR的方式被并行执行。然而，每个词元注意主流310A中该词元之前的词元，这类似于AR方式。例如，第一预测流312A中从左边起的第四词元对应于y3，如由从经掩码的第四词元发起到y3输出词元的箭头336所示。为了预测y3，第四词元注意主流310A中的第一词元(y0)，如由第一参考或参与链路330所示。第四词元还注意主流310A中的第二词元(y1)，如由第二参考或参与链路332所示，以及主流310A中的第三词元(y2)，如由第三参考或参与链路334所示。在这种情况下，第四词元(y3)是通过注意(例如，参考)用于三个在前的词元y0至y2(或训练句子的词语)的词元输出。如上所述，参考或注意先前的词元以预测当前位置中的词元类似于AR语言生成模型。即便如此，在预训练期间，预训练器根据NAR语言生成模型并行地生成每一代预测流中的所有词元。

在各方面，每个预测流与预测流序列中的位置(即，代或顺序)相关联。在第三示例中，例如，第一预测流312C在第二预测流314C之前，第二预测流314C在第三预测流316C之前，第三预测流316C在第四预测流318C之前。四代预测流可以利用单个处理路径被生成，而无需重复操作。因此，具有相应经掩码词元的序列中相同位置的预测流(例如，第一预测流312A至C)可以利用并发处理来生成。因此，预训练过程包括生成所有预测流的一个并发过程。

在第一预测流312A中，掩码词元y3注意来自主流310A的先前预测的词元(即，黄金词元)y0、y1和y2，以预测针对词元的值。对于词元y3，对这些词元的参考或参与提供了最低的预测难度，并通过包括所有先前的词元作为预测基础来提高与AR模型相关联的准确性。第一预测流312中的其他经掩码的词元中的每个经掩码的词元都与针对词元y3的情况类似地被处理，并以AR方式(通过回顾先前的词元输出)并且还以NAR方式(通过并行处理)被预训练。在此，第一预测流312A至C通过参考或注意主流中的先前词元输出(例如，预测值)类似于根据AR模型的结构，但是第一预测流312A至C与根据NAR模型掩码的所有词元被并行处理。

在第二示例中，第二预测流314B中的经掩码的词元y3参考或注意来自主流310A的先前预测的词元y0和y1以及来自第一预测流312B的词元y2。第一预测流312B中的词元y2和第二预测流312B中的词元y3使用条件概率P(y2，y3|y0，y1)。由解码器302B生成的词元y2和y3作为图3中的输出指示基于NAR方式使用的组合条件概率。由于从使用AR方式用于词元y0和y1后跟NAR方式预测词元y2和y3的转换，因此增加了准确预测第二预测流314B中的词元的难度。

在第三示例中，第一预测流312C中的词元y0以NAR方式在不注意主流中的词元的情况下被预测。在此，经掩码的词元y0通过自注意力被预测。因此，第二预测流314C中的词元y1在不注意主流中的词元的情况下被预测，而是基于以NAR方式与词元y0相关联的条件概率。第三预测流316C中的词元y2在不注意主流中的词元的情况下被预测而是以NAR方式，而是基于与词元y0和y1相关联的条件概率。

与之相对照，在第三示例中，词元y3使用第四预测流318C参考第一预测流312C中的词元y0、第二预测流314C中的词元yl和第三预测流316C中的词元y2来预测。预测的结果可能不如以纯AR方式处理的情况下准确，但是提供了一些先验上下文(先验预测输出)和基于NAR方式的处理中的较高效率。为了基于第四预测流318C预测词元y3，只有被掩码并且先前从先前预测流以NAR方式预测的词元是可见的。也就是说，每个预测流中的第一词元在使用第四预测流318C预测词元y3时组成NAR预测。预测流中的每个掩码词元被同时预测以用于高效处理。目标词元序列中的每个词元都是基于AR方式通过参考(或注意)句子中在前的词元被预测的。

在各方面，预训练的输出利用统一的AR-NAR组合的预训练。通过注意在前的词元，统一的AR-NAR组合的预训练与基于AR模型的更准确的训练一致。此外，在不注意后续词元的情况下词元之间的注意力的设计阻止了双向注意力。适应双向注意力(通常包括注意在前的词元以及后续的词元)在解码能够发生之前需要句子中的词元数目或长度预测器。长度信息的要求会使解码过程不必要地处理密集。在各方面，只有在前的经掩码的词元对词元是可见的。在又一些方面，通过消除对长度信息的估计的需要，本公开中的解码使得能够将首先生成的“[eos]”词元处理为句尾词元的信号，这与“[eos]”词元的AR模型处理一致。

在各方面，图3的示例示出微调的示例。也就是说，预训练器生成包括主流和预测流的流集合，作为对适应微调以生成基于语言生成模型的各种组合的经训练的模型的共同基础。处理模型范围从用于准确性的AR语言生成模型(例如第一示例)、用于效率的NAR语言生成模型(例如第三示例)以及部分使用AR语言生成模型和NAR语言生成模型的其组合(例如，第二示例)。实际上，基于本公开的解码器充当AR模型和NAR模型之间的桥梁。

一旦预训练器在预训练中生成主流和预测流集合，则微调器选择所生成的流的子集以在微调过程中生成经训练的语言生成模型。在各方面，微调可以接收指定一种或多种经训练的语言模型(例如，目标模型和目标数据模型)的(例如，来自开发者)输入以生成经训练的模型，例如，在部署期间根据准确性约束和效率约束使用AR模型用于处理一定数目的词元并使用NAR模型用于处理目标句子的剩余词元。确定目标数据模型可以基于平衡用于预测词元的准确性约束和/或效率约束。

如上所述，微调器生成经训练的模型以解决特定的处理场景。例如，可用资源(例如，存储器和处理可用性)、准确性要求、效率要求等可以被评估，以标识针对特定情况的最佳经训练的模型。例如，如果处理可用性低，则最佳的经训练的模型可以较少依赖AR模型，而较多地依赖NAR模型。备选地，如果准确性很重要，则最佳的经训练的模型可以较多地依赖AR模型而较少地依赖NAR模型。例如，用于在没有大量时延的情况下生成准确预测的最佳的经训练的模型可以涉及AR和NAR模型的组合，诸如使用AR模型预测第一词元并使用NAR预测剩余词元。在确定用于最佳模型的结构后(例如，用于第一词元的AR、用于剩余词元的NAR)，用于生成经训练的模型的流的子集可以从预处理期间生成的流的超集被选择。

在图3的第二示例中，微调基于AR/NAR模型之间的组合生成经训练的模型包括选择主流和两个或更多个预测流。在以AR方式基于前两个词元和以NAR方式基于其余词元预测词元y3的情况下，微调器选择主流310A、第一预测流312B和第二预测流314B。第二预测流314B中的词元y3注意主流310A中的第一词元y0和第二词元y1，同时注意第一预测流312B中的第三词元y2。因此，组合的语言生成模型对前两个词元(词语)使用AR语言生成模型以实现高准确性，同时对“y2”和“y3”使用NAR语言生成模型以实现高效率。

在图3的第三示例中，微调被用于基于NAR语言生成模型352生成经训练的模型。在此，微调器选择第一预测流312A至C、第二预测流314B至C、第三预测流316C和第四预测流318C。也就是说，微调器选择所有预测流而不是主流来生成基于NAR模型的经训练的模型的结构。例如，为了预测词元“y3”，用于“y3”的词元注意每个先前预测流的第一词元：第一预测流312C中的“y0”、第二预测流314C中的“y1”、第三预测流316C中的“y2”。在各方面，用于NAR语言生成模型的微调器以并发方式执行预测流中所有经掩码词元的预测。并发处理使用于生成NAR语言生成模型的微调非常高效。

图4示出了根据本公开的方面的在预训练过程期间生成预测流的示意性示例。图4示出了四个预测流：第一预测流312、第二预测流314、第三预测流316和第四预测流318。预测流的相应的标签上方的单元格的图示描述了词元的哪些位置被注意(参考)用于预测相应的词元。水平数字指示要训练(预测)的词元位置。垂直数字指示在预测当前位置的词元时要注意(参考)的先验词元位置。

在相应单元格中，“SA”指示自注意力。“MS”指示注意(参考)主流中该位置处的词元。“1st”指示注意(参考)第一预测流中该位置处的词元。“2nd”指示注意(参考)第二预测流中该位置处的词元。“第三”指示注意(参考)第三个预测流中该位置处的词元。空单元格指示没有从词元到主流或预测流中对应词元的注意。

如图3所示，使用第一预测流312，词元位置(0)处的第一词元，在不参考任何其他词元的情况下基于自注意力被预测以输出词元值“y0”，如由图3中的第一预测流过程312C所示。词元位置(1)处的第二词元基于自注意力并且注意(即参考)主流中的第一词元(0)而被预测以输出词元值“y1”。词元位置(2)处的第三词元基于自注意力并且注意主流中的第一词元(0)和第二词元(1)而被预测，如由图3中的第一预测流过程312B所示。词元位置(3)处的第四词元基于自注意力并且注意主流中的第一、第二和第三词元而被预测，如由图3中的第一预测流过程312A所示。

使用第二预测流314，词元位置(0)处的第一词元基于自注意力被预测。词元位置(1)处的第二词元基于自注意力并且注意第一预测流中的第一词元(0)而被预测，如由图3中的第二预测流过程314C所示。词元位置(2)处的第三词元基于自注意力并且注意主流中的第一词元(0)和第一预测流中的第二词元(1)而被预测。词元位置(3)处的第四词元基于自注意力、并且注意主流中的第一词元(0)和第二词元(1)、并且注意第一预测流中的第三词元(2)而被预测，如由图3中的第二预测流过程314B所示。

使用第三预测流316，词元位置(0)处的第一词元基于自注意力被预测。词元位置(1)处的第二词元基于自注意力并且注意第一预测流中的第一词元(0)而被预测。词元位置(2)处的第三词元基于自注意力并且注意第一预测流中的第一词元(0)和第二预测流中的第二词元(1)而被预测，如图3中的第三预测流过程316C所示。词元位置(3)处的第四词元基于自注意力并且注意主流中的第一词元(0)、第一预测流中的第二词元(1)和第二预测流中的第三词元(2)而被预测。

在第四预测流318中，词元位置(0)处的第一词元基于自注意力被预测。词元位置(1)处的第二词元基于自注意力并且注意第一预测流中的第一词元(0)而被预测。词元位置(2)处的第三词元基于自注意力并且注意第一预测流中的第一词元(0)和第二预测流中的第二词元(1)而被预测。词元位置(3)处的第四词元基于自注意力并且注意第一预测流中的第一词元(0)、第二预测流中的第二词元(1)、以及第三预测流中的第三词元(2)而被预测，如图3中的第四预测流过程318C所示。

在各方面，预训练包括生成一个主流和预测流集合。在第i个预测流中，词元作为来自先前预测的词元的第i个后续词元被预测。第一预测流312A至C中的每个词元都以自回归(AR)模式被预测。也就是说，第一预测流312A至C中的每个词元的经掩码的词元注意其先前从主流预测的词元。

图5A示出了通过在内容搜索引擎中部署经训练的语言生成模型的示例关键字匹配过程。该过程接收查询502，查询502用于针对具有关键字的信息的搜索。生成步骤504通过使用经训练的语言生成模型基于所接收的查询生成查询集合。该查询集合由查询重写-1506A、查询重写-2 506B、查询重写-3 506C等指示。检索操作510基于查询集合检索结果。然后将结果与已知关键字508的集合相匹配。在各方面，经训练的语言生成模型基于混合AR-NAR模型，类似于图3中的第三示例。经训练的语言生成模型使用所接收的查询502来生成新查询，这在使用经微调来以NAR方式预测的预测流集合的上下文中是相似的。经训练的语言模型以高效的方式生成在准确性的可接受范围内的查询，用于由内容搜索引擎进行的实时处理。

图5B示出了根据本公开的方面的用于生成匹配的关键字的组件系统的示例。矩形框表示数据。椭圆框表示操作。查询502被接收并且生成式关键字检索操作526步骤使用关键字Trie 524(即，用于检索关键字的搜索树图)来生成匹配的关键字集合。Trie，也称为前缀树，是一种树状数据结构，具有将每个关键字存储在库中的节点。关键字Trie524可以由Trie构造步骤522生成，其使用关键字语料库520。

图6是根据本公开的方面的用于生成和使用经训练的语言生成模型的方法的示例。图6中示出了用于方法600的操作的一般顺序。通常，方法600以开始操作602开始并以结束操作624结束。方法600可以包括更多或更少的步骤或者可以与图6中所示的那些不同地布置步骤的顺序。方法600可以作为一组计算机可执行指令被执行，该组计算机可执行指令由计算机系统执行并被编码或被存储在计算机可读介质上。此外，方法600可以由与处理器、ASIC、FPGA、SOC或其他硬件设备相关联的门或电路来执行。在下文中，方法600将参考结合图1、2、3、4、5A、5B、7和8A至B描述的系统、组件、设备、模块、软件、数据结构、数据特性表示、信令图、方法等来解释。

在开始操作602之后，方法600开始于接收操作604，其接收训练数据。开发者可以指定训练数据的类型，其可以包括用于训练语言生成模型的句子集合。编码操作608将训练数据编码成向量集合。例如，在自然语言处理中，句子中的每个词语可以对应于由一个或多个向量表示的词元。

生成操作610生成主流。主流可以是一系列词元，每个词元以编码形式表示句子中的一个词语。生成主流可以利用以下步骤被训练：将预测答案与正确答案相比较，如果预测答案不正确，则利用正确答案纠正预测答案，并使用正确答案来预测句子中的后续词元或词语(例如，teacher-forcing)。在各方面，生成操作610是预训练过程的一部分。

生成操作612生成预测流集合。在各方面，生成操作612可以基于并发处理生成预测流集合，如图4所示。生成操作612可以是预训练过程的一部分。对于每个预测流，预测一个或多个词元可以注意(或参考)在前预测流或主流中的一个或多个在前的词元值(或输出)。在各方面，与基于传统NAR语言模型的生成模型不同，生成操作612可以排除注意与后续词元的连接但可以注意当前词元之前的词元。也就是说，虽然生成的具有用于并行处理的经掩码词元的预测流在效率上可以与NAR模型相似，但通过注意在前的词元来处理词元反映了改进准确性的AR模型的特性。

接收操作614接收目标语言生成模型的模型类型。目标或经训练的语言生成模型的类型可以基于平衡资源可用性、效率要求、准确性要求等来选择。经训练的模型的类型可以为准确性而更多地依赖于AR模型或为效率而更多地依赖NAR模型。例如，经训练的模型可以基于更准确的AR模型指定要被预测的不同数目的词元(例如，第一词元、前两个词元)，而剩余的词元要基于更高效的NAR模型被预测。在一些方面，用于预测的数据的类型可以确定模型类型。例如，数据的类型可以包括文本句子和图像像素数据。在一些其他方面，模型类型也可以基于效率要求，诸如允许预测数据的最大时间。

生成操作616通过基于在接收操作614所接收的经训练的语言模型的类型微调经预训练的模型(例如，在生成操作612生成的预测流)来生成经训练的语言模型。微调步骤根据所接收的类型选择特定的流集合以生成经训练的语言生成模式。以这种方式，例如，经训练的模型或经训练的数据模型可以基于平衡效率和准确性而针对特定处理环境被定制。在完成生成操作616后，微调模型是用于部署以供使用的经训练的模型。

部署操作618将经训练的(经微调的)语言模型部署到商业或生产系统环境以供使用。例如，在各方面，经训练的模型可以被部署用于数据搜索和关键字搜索服务器。经训练的模型可以自动生成类似于给定查询的查询。在各方面，不同的微调器可以用来对相同的经预训练的模型进行微调以生成经训练的模型集合，其中每个经训练的模型针对不同类型的目标数据模型被微调，使用AR模型、NAR模型、以及AR模型和NAR模型的一个或多个组合作为处理模型。经训练的模型集合中的每个经训练的模型可以在数据处理中的效率约束和准确性约束之间提供不同的平衡或权衡。在一些其他方面，每个经训练的模型可以被部署到与效率和准确性的这些权衡要求相匹配的部署环境。基于AR模型微调的经训练的数据模型可以被部署到预测数据的准确性优先于预测数据的效率的环境中。另一个基于NAR模型微调的经训练的数据模型可以被部署到另一个对预测数据的效率或处理时间有严格要求的环境，诸如大型web搜索引擎。这样，本公开提供了生成数据的超集(例如，生成的预测流)的预训练，其可以是微调以生成被定制为满足特定部署环境中的要求的数据模型。

检索操作620检索用于处理的数据。在各方面，在生成操作616生成的经训练的模型用于信息检索，例如，生成式关键字检索。例如，基于组合的AR/NAR模型的经训练的模型可以基于给定查询生成查询集合，以通过附加于给定查询还基于该查询集合检索信息来增强搜索结果。在需要高效率而不是准确性的系统环境中，经微调以在混合AR-NAR模型中预测更多词元的经训练语言生成模型可能是合适的。可以对检索的数据执行关键字匹配，并且匹配的关键字可以作为结果提供。

生成操作622可以基于生成式检索生成对给定查询的答案(或结果)。在各方面，经训练的语言生成模型可以用于补充使用序列到序列模型的现有查询-关键字匹配算法。在各方面，方法600可以以结束操作624结束。

应当理解，操作602至624是为了说明本方法和系统的目的而描述的，并不旨在将本公开内容限制为特定的步骤顺序，例如，在不脱离本公开的情况下，步骤可以以不同的顺序被执行，附加的步骤可以被执行，并且公开的步骤可以被排除。

图7是示出计算设备700的物理组件(例如，硬件)的框图，本公开的方面通过其可以被实践。下面描述的计算设备组件可能适用于上面描述的计算设备。在基本配置中，计算设备700可以包括至少一个处理单元702和系统存储器704。取决于计算设备的配置和类型，系统存储器704可以包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪存或这样的存储器的任何组合。系统存储器704可以包括操作系统705和一个或多个程序工具706，这一个或多个程序工具706适合于执行本文中公开的各个方面。操作系统705例如可以适合于控制计算设备700的操作。此外，本公开的方面可以结合图形库、其他操作系统或任何其他应用程序来实践并且不限于任何特定的应用或系统。该基本配置在图7中由虚线708内的那些组件示出。计算设备700可以具有附加的特征或功能。例如，计算设备700还可以包括附加数据存储设备(可移除和/或不可移除)，诸如例如磁盘、光盘或磁带。这样的附加存储在图7中由可移除存储设备709和不可移除存储设备710示出。

如上所述，多个程序工具和数据文件可以被存储在系统存储器704中。当在至少一个处理单元702上执行的同时，程序工具706(例如，应用720)可以执行包括但不限于如本文所述的方面的过程。应用720包括编码器722、预训练器724、微调器726、查询接收器728和生成式关键字检索器730，如关于图1更详细地描述的。根据本公开的方面可以使用的其他程序工具可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。

此外，本公开的方面可以在包括分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路或包含电子元件或微处理器的单个芯片上的电路中实践。例如，本公开的方面可以经由片上系统(SOC)来实践，其中图7中所示的每个或许多组件可以集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，所有这些都被集成(或“烧”)到芯片衬底上作为单个集成电路。当经由SOC操作时，本文描述的关于客户端切换协议的能力的功能可以经由与计算设备700的其他组件集成在单个集成电路(芯片)上的专用逻辑来操作。本公开的各方面也可以使用能够执行，诸如与、或和非的逻辑运算的其他技术来实践，包括但不限于机械、光学、流体和量子技术。另外，本公开的方面可以在通用计算机或任何其他电路或系统中实践。

计算设备700还可以具有一个或多个输入设备712，诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。(多个)输出设备714(诸如显示器、扬声器、打印机等)也可以包括在内。上述设备是示例并且可以使用其他设备。计算设备700可包括允许与其他计算设备750通信的一个或多个通信连接716。合适的通信连接716的示例包括但不限于射频(RF)发送器、接收器和/或收发器电路系统；通用串行总线(USB)、并行和/或串行端口。

本文使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于信息(诸如计算机可读指令、数据结构或程序工具)的存储的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器704、可移除存储设备709和不可移除存储设备710都是计算机存储介质示例(例如，存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术，CD-ROM、数字多功能盘(DVD)或其他光学存储装置，盒式磁带、磁带、磁盘存储或其他磁性存储设备，或者可以用于存储信息并且可以由计算设备700访问的任何其他制品。任何这样的计算机存储介质都可以是计算设备700的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。

通信介质可以由调制数据信号中的计算机可读指令、数据结构、程序工具或其他数据体现，诸如载波或其他传送机制，并且包括任何信息传递介质。术语“调制数据信号”可以描述一种信号，该信号具有一个或多个特性以对信号中的信息进行编码的方式被设置或被修改。作为示例而非限制，通信介质可以包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、射频(RF)、红外线、以及其他无线介质的无线介质。

图8A和8B示出了计算设备或移动计算设备800，例如，移动电话、智能电话、可穿戴计算机(诸如智能手表)、平板计算机、膝上型计算机等，利用其本公开的方面可以被实践。在一些方面，由用户(例如，图1中的客户端设备A 102A的用户和客户端设备B 102B的用户)使用的客户端可以是移动计算设备。参考图8A，示出了用于实现这些方面的移动计算设备800的一个方面。在基本配置中，移动计算设备800是具有输入元件和输出元件两者的手持式计算机。移动计算设备800通常包括显示器805和允许用户将信息输入移动计算设备800的一个或多个输入按钮810。移动计算设备800的显示器805也可以用作输入设备(例如，触摸屏显示器)。如果被包括作为可选输入元件，则侧输入元件815允许另外的用户输入。侧输入元件815可以是旋转开关、按钮或任何其他类型的手动输入元件。在备选方面，移动计算设备800可以并入更多或更少的输入元件。例如，显示器805在一些方面可以不是触摸屏。在又一个备选方面，移动计算设备800是便携式电话系统，诸如蜂窝电话。移动计算设备800还可以包括可选的小键盘835。可选的小键盘835可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘。在各个方面，输出元件包括用于显示图形用户接口(GUI)的显示器805、视觉指示器820(例如发光二极管)和/或音频换能器825(例如扬声器)。在一些方面，移动计算设备800合并了用于向用户提供触觉反馈的振动换能器。在又一方面，移动计算设备800并入了输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)，用于向外部设备发送信号或从外部设备接收信号。

图8B是示出计算设备、服务器(例如，图1中的应用服务器110和数据模型生成器140)、移动计算设备等的一个方面的架构的框图。即，移动计算设备800可以并入系统802(例如，系统架构)来实现一些方面。系统802可以实现为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息传递客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面，系统802被集成为计算设备，诸如集成数字助理(PDA)和无线电话。

一个或多个应用866可以被加载到存储器862中并且在操作系统864上运行或与操作系统864相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传递程序等。系统802还包括存储器862内的非易失性存储区域868。非易失性存储区域868可以用于存储在系统802断电时不应丢失的持久信息。应用程序866可以在非易失性存储区域868中使用和存储信息，诸如电子邮件或由电子邮件应用使用的其他消息等。同步应用(未示出)也驻留在系统802上，并被编程为与驻留在主机计算机上的对应同步应用交互，以保持存储在非易失性存储区域868中的信息与存储在主机计算机上的对应信息同步。应当理解，其他应用可以被加载到存储器862中并在本文描述的移动计算设备800上运行。

系统802具有电源870，其可以被实现为一个或多个电池。电源870还可以包括外部电源，诸如AC适配器或为电池补充或再充电的动力对接支架。

系统802还可以包括无线电接口层872，其执行发送和接收射频通信的功能。无线电接口层872促进系统802和“外部世界”之间经由通信运营方或服务提供方的无线连接性。进出无线电接口层872的传输在操作系统864的控制下进行。换言之，由无线电接口层872接收的通信可以经由操作系统864被传播到应用程序866，反之亦然。

视觉指示器820(例如LED)可用于提供视觉通知，和/或音频接口874可用于经由音频换能器825产生可听通知。在所示配置中，视觉指示器820是发光二极管(LED)并且音频换能器825是扬声器。这些设备可以直接耦合到电源870，使得当被激活时，即使处理器860和其他组件可能关闭以节省电池电量，它们也会在由通知机制规定的持续时间内保持开启。LED可以被编程为无限期地保持开启，直到用户采取动作来指示设备的通电状态为止。音频接口874用于向用户提供可听信号并从用户接收可听信号。例如，除了耦合到音频换能器825之外，音频接口874还可以耦合到麦克风以接收可听输入，诸如以促进电话交谈。根据本公开的各方面，麦克风还可以用作音频传感器以促进通知的控制，如下面将描述的。系统802还可以包括视频接口876，其支持机载相机830记录静止图像、视频流等的操作。

实现系统802的移动计算设备800可以具有附加的特征或功能。例如，移动计算设备800还可以包括附加数据存储设备(可移除和/或不可移除)，诸如磁盘、光盘或磁带。这样的附加的存储在图8B中由非易失性存储区域868示出。

由移动计算设备800生成或捕获并经由系统802存储的数据/信息可以本地存储在移动计算设备800上，如上所述，或者数据可以存储在任何数目的存储介质上，这些存储介质可以由设备经由无线电接口层872或经由移动计算设备800和与移动计算设备800相关联的单独计算设备(例如，分布式计算网络(诸如因特网)中的服务器计算机)之间的有线连接访问。应当理解，这样的数据/信息可以经由无线电接口层872或经由分布式计算网络经由移动计算设备800来访问。类似地，根据众所周知的数据/信息传送和存储方式，包括电子邮件和协作数据/信息共享系统，这样的数据/信息可以容易地在计算设备之间传送以供存储和使用。

在本申请中提供的一个或多个方面的描述和说明不旨在以任何方式限制或限定所要求保护的本公开的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使其他人能够制作和使用要求保护的公开的最佳模式。要求保护的公开内容不应被解释为限于任何方面，例如，或本申请中提供的细节。不管是组合地还是分开地显示和描述，各种特征(结构的和方法两者的)旨在被选择性地包括或省略以产生具有特定特征集合的实施例。已经提供了本申请的描述和说明，本领域的技术人员可以设想落入本申请中体现的总体发明构思的更广泛方面的精神内的变化、修改和备选方面，这些方面不脱离要求保护的公开的更广泛范围。

本公开涉及用于至少根据以下部分中提供的示例从输入查询生成关键字序列的系统和方法：

(Al)一方面，一些实施例包括一种从接收训练数据(例如，148)生成语言生成模型的方法(例如，600)；接收训练数据(例如，148)；基于训练数据(例如，148)生成主流(例如，310A)，其中主流表示词元流，并且其中每个词元表示与训练数据(例如，148)相关联的值；基于主流(例如，310A)生成一系列预测流(例如，312A-C、314B-C、316C和318C)，其中每个预测流包括与词元流中的一个或多个词元位置对应的一个或多个经掩码的词元；基于目标数据模型(例如350和352)，选择第一流集合(例如，310A)以用于根据第一处理模型(例如，350)预测词元，其中第一流集合从主流(例如，310A)和一系列预测流(例如，312A-C、314B-C、316C和318C)选择；基于目标数据模型(例如，350和352)，选择第二流集合(例如，312、314、316和318)以用于根据第二处理模型(例如352)预测词元，其中第二流集合从一系列预测流选择；以及使用所选择的第一流集合和第二流集合生成与目标数据模型对应的经训练的数据模型(例如，310A、312B和314B的组合)，以用于在部署期间根据准确性约束和效率约束来预测词元。

(A2)在A1的一些实施例中，第一处理模型(例如，350)与自回归(AR)模型(例如，200A)相关联，并且其中第二处理模型(例如，352)与非自回归(NAR)模型(例如，200C)相关联。

(A3)在A1的一些实施例中，目标数据模型(例如，350和352)要基于第一处理模型(例如，350)指定被处理的一定数目的词元以及基于第二处理模型(例如，352)要被处理的剩余词元。

(A4)在A1的一些实施例中，第二流集合中的第二流参考第二流集合中的第一流中的词元的预测值。

(A5)在A4的一些实施例中，第二流集合根据第二处理模型被并行处理。

(A6)在A1的一些实施例中，第一流集合的第二流参考第一流集合中的第一流中的词元的值。

(A7)A1的一些实施例还包括：基于平衡用于预测词元的准确性约束和效率约束来确定目标数据模型。

(A8)A1的一些实施例中，第一流是主流。

(A9)A1的一些实施例还包括：接收查询，基于所接收的查询，使用经训练的数据模型生成查询集合，基于该查询集合检索一个或多个关键字，通过匹配一个或多个关键字与关键字语料库中的至少一个已知关键字来生成关键字集合，以及发送所生成的关键字集合。

上述一个或多个方面中的任何一方面个与该一个或多个方面中的任何其他方面组合。如本文所述的一个或多个方面中的任一方面。

Claims

1.一种训练数据模型的计算机实现的方法，所述方法包括：

接收训练数据；

基于所述训练数据生成主流，其中所述主流表示词元流，并且其中每个词元表示与所述训练数据相关联的值；

基于所述主流生成一系列预测流，其中每个预测流包括一个或多个经掩码的词元，所述一个或多个经掩码的词元与所述词元流中的一个或多个词元位置对应；

基于目标数据模型，根据第一处理模型选择用于预测词元的第一流集合，其中所述第一流集合从所述主流和所述一系列预测流被选择；

基于所述目标数据模型，根据第二处理模型选择用于预测词元的第二流集合，其中所述第二流集合从所述一系列预测流被选择；以及

使用所选择的所述第一流集合和第二流集合生成对应于所述目标数据模型的经训练的数据模型，以用于在部署期间根据准确性约束和效率约束来预测词元。

2.根据权利要求1所述的方法，其中所述第一处理模型与自回归(AR)模型相关联，并且其中所述第二处理模型与非自回归(NAR)模型相关联。

3.根据权利要求1所述的方法，其中所述目标数据模型指定要基于所述第一处理模型被处理的一定数目的词元和要基于所述第二处理模型被处理的剩余数目的词元。

4.根据权利要求1所述的方法，其中所述第二流集合中的第二流参考所述第二流集合中的第一流中的词元的预测值。

5.根据权利要求4所述的方法，其中所述第二流集合根据所述第二处理模型被并行处理。

6.根据权利要求1所述的方法，其中所述第一流集合中的第二流参考所述第一流集合中的第一流中的词元的值，并且其中所述第一流是所述主流。

7.根据权利要求1所述的方法，所述方法还包括：

接收查询；

基于所接收的所述查询，使用所述训练数据模型生成查询集合；

基于所述查询集合检索一个或多个关键字；

通过匹配所述一个或多个关键字与关键字语料库中的至少一个已知关键字，生成关键字集合；以及

发送所生成的所述关键字集合。

8.根据权利要求1所述的方法，所述方法还包括：

基于平衡用于预测词元的准确性约束和效率约束来确定所述目标数据模型。

9.一种用于训练数据模型的系统，所述系统包括：

处理器；以及

存储器，存储计算机可执行指令，所述计算机可执行指令在由所述处理器执行时使所述系统：

接收训练数据；

基于所述训练数据生成主流，其中所述主流表示词元流，并且

其中每个词元表示与所述训练数据相关联的值；

10.根据权利要求9所述的系统，其中所述第一处理模型与自回归(AR)模型相关联，并且其中所述第二处理模型与非自回归(NAR)模型相关联。

11.根据权利要求9所述的系统，其中所述目标数据模型指定要基于所述第一处理模型被处理的一定数目的词元和要基于所述第二处理模型被处理的剩余词元。

12.根据权利要求9所述的系统，其中所述第二流集合中的第二流参考所述第二流集合中的第一流中的词元的预测值，并且其中所述第二流集合根据所述第二处理模型被并行处理。

13.根据权利要求9所述的系统，其中所述第一流集合中的第二流参考所述第一流集合中的第一流中的词元的值，并且其中所述第一流是所述主流。

14.根据权利要求9所述的系统，所述计算机可执行指令在被执行时还使所述系统：

15.一种存储计算机可执行指令的计算机可读非暂态记录介质，所述计算机可读非暂态记录介在由处理器执行时使计算机系统：

接收训练数据；