CN109885842B

CN109885842B - 处理文本神经网络

Info

Publication number: CN109885842B
Application number: CN201910134308.8A
Authority: CN
Inventors: 杰米·瑞安·基罗斯; 威廉·常; 杰弗里·E·欣顿
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-02-22
Filing date: 2019-02-22
Publication date: 2023-06-20
Anticipated expiration: 2039-02-22
Also published as: US20190258713A1; US11003856B2; CN109885842A

Abstract

本公开涉及处理文本神经网络。方法、系统和装置包括在计算机存储介质上编码的计算机程序，用于生成使文本分段的词汇表中的每个文本分段与相应的数字嵌入相关联的数据集。在一个方面中，一种方法包括：向图像搜索引擎提供包括所述文本分段的搜索查询；获得已被分类为由所述图像搜索引擎响应于所述搜索查询的图像搜索结果，其中，每个图像搜索结果识别相应的图像；针对每个图像搜索结果，使用卷积神经网络来处理通过所述图像搜索结果所识别的所述图像，其中，所述卷积神经网络已被训练来处理所述图像以生成用于所述图像的图像数字嵌入；以及从用于通过所述图像搜索结果所识别的所述图像的所述图像数字嵌入生成用于所述文本分段的数字嵌入。

Description

处理文本神经网络

技术领域

本说明书涉及使用神经网络处理文本。

背景技术

神经网络是机器学习模型，其使用一个或多个非线性单元层来预测所接收输入的输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作网络中下一层，即下一个隐藏层或输出层的输入。网络的每一层都根据相应参数集的当前值从所接收输入生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地，递归神经网络能够使用来自先前时间步的网络的一些或全部内部状态来计算当前时间步的输出。递归神经网络的示例是包括一个或多个LSTM存储器块的长短期(LSTM)神经网络。每个LSTM存储器块都能够包括一个或多个单元，每个单元都包括输入门、忘记门和输出门，其允许该单元存储该单元的先前状态，例如，用于生成当前激活或被提供给LSTM神经网络的其它组件。

发明内容

本说明书描述了一种生成或使用文本分段的数字嵌入的系统，该系统在一个或多个位置中的一个或多个计算机上被实现为计算机程序。文本分段能够为包含多个单词的单词或短语。文本分段的数值嵌入是具有预定维度的嵌入空间中的数值数字的有序集合，例如，浮点值或量子化浮点值的矢量。特别地，系统生成和/或使用数字嵌入，所述数字嵌入是使用图像搜索来定基的(grounded)，即通过利用图像搜索而并入了与文本分段相关联的视觉特征。

本说明书中所述的主旨能够以特定实施例实现，以便实现以下优点中的一个或多个。

各种机器学习系统作为输入接收并操作文本分段的嵌入。例如，执行机器翻译的机器学习系统接收将被翻译的源语言的文本的嵌入作为输入，并在这些嵌入上操作以将文本翻译成一种源语言。作为另一示例，执行诸如文本摘要、词性标注、实体标记等的自然语言处理任务的机器学习系统接收文本的嵌入作为输入，并且在这些嵌入上操作以对文本执行自然语言处理任务。一旦生成，所述的嵌入能够用于改进任何这些机器学习系统的性能。也就是说，因为这些嵌入是使用如本说明书中所述的图像搜索来定基的，所以当这些嵌入或源自这些嵌入的嵌入通过机器学习系统被用来表示对应的文本分段时，相对于使用传统嵌入，系统的性能能够提高。

另外，该系统能够有效地为包括大量文本分段的词汇表生成嵌入，而不会消耗过多的计算资源。特别地，因为系统利用预先训练的卷积神经网络和现有的图像搜索引擎，所以系统能够高效地生成大量基于视觉(visually grounded)的嵌入。

本说明书还描述了用于将所述嵌入与使用利用门控神经网络的其它源生成的嵌入组合的技术。通过以这种方式生成组合嵌入，能够在训练门控神经网络期间以任务特定方式确定指配基于图像搜索的嵌入的权重。这允许采用门控神经网络的机器学习系统的性能进一步提高。也就是说，并入了门系统而不是使用传统方法来嵌入网络输入的系统的性能将提高。

另外，如本说明书中所述，通过以搜索由神经网络生成的内部表示即否则将是到传统输出层的输入的数据与文本分段的数字嵌入之间的相似性的层替换神经网络系统的传统输出层，所述嵌入能够用于改进由神经网络系统生成的输出的质量。通过以这种方式选择输出，即通过根据相似性度量选择输出文本分段，系统能够生成更高质量的输出序列，而不会过度增加运行神经网络所需的计算资源。

在附图和以下说明中阐述了本说明书的主题的一个或多个实施例的细节。通过说明、附图和权利要求，主题的其它特征、方面和优点将变得显而易见。

附图说明

图1示出示例文本嵌入系统。

图2是用于生成文本分段的基于视觉的嵌入的示例过程的流程图。

图3是用于生成文本分段的最终嵌入的示例过程的流程图。

图4是用于选择输出步长的文本分段的示例过程的流程图。

各附图中相同的附图标记和名称表示相同的元件。

具体实施方式

图1示出示例文本嵌入系统100。文本嵌入系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，其中能够实施下文所述的系统、组件和技术。

文本嵌入系统100生成文本分段的数字嵌入。特别地，文本嵌入系统100接收文本分段106的词汇表并生成数据集110，数据集110包括词汇表106中的每个文本分段的相应数字嵌入。

词汇表106中的文本分段能够包括单词、多单词短语或两者。也就是说，在一些实施方式中，词汇表是单词的词汇表。在一些其它实施方式中，词汇表是多单词短语的词汇表。在其它实施方式中，词汇表包括单词和多单词短语两者。

文本分段的数字嵌入是具有预定维度的嵌入空间中的数值例如浮点矢量或量化浮点值的有序集合。

特别地，系统100生成基于使用图像搜索的即通过利用图像搜索引擎114合并与文本分段相关联的视觉特征的数字嵌入。因为嵌入是使用图像搜索生成的，所以由系统100生成的嵌入在本说明书中将被称为“基于视觉”的嵌入。

系统100能够通过数据通信网络112例如局域网(LAN)或广域网(WAN)例如因特网，或多种网络的组合与图像搜索引擎114交互。

图像搜索引擎114被配置为搜索图像集合。通常，集合中的图像是在因特网上的网页上找到的图像。特别地，图像搜索引擎114能够为因特网上的任何图像搜索引擎，其接收搜索查询，并且作为响应，提供图像搜索引擎已经响应于搜索查询而分类，并且每个都识别相应图像的图像搜索结果。通常，图像搜索引擎基于响应性即从最具响应性到最不具响应性来排序图像搜索结果。

因而，系统100能够通过网络112向图像搜索引擎114提交包括文本分段108的搜索查询，并且响应于搜索查询，接收图像搜索引擎114已经响应于搜索查询而分类的图像搜索结果128。。

系统100还包括卷积神经网络120。卷积神经网络120是一种神经网络，其包括多个卷积神经网络层并且已被训练成生成图像的嵌入(在本说明书中称为“图像嵌入”)。特别地，卷积神经网络120已经在特定目标上训练以生成反映被输入卷积神经网络120的图像的某些属性的图像嵌入。作为特定示例，卷积神经网络120能够已经在语义排序目标上训练，以生成保持输入图像之间的语义相似性的图像数字嵌入。语义排序目标可以是铰链损失的形式，其在训练图像的三元组上操作并且基于三元组中的图像之间的语义相似性。在JiangWang、Yang Song、Thomas Leung、Chuck Rosenberg、Jingbin Wang、James Philbin、BoChen和Ying Wu，2014年在CVPR中发表的“Learning Fine-grained Image Similaritywith Deep Ranking”中描述了一种用于卷积神经网络的示例架构，以及用于训练卷积神经网络以保持图像之间的语义相似性的示例技术。

下面参考图2更详细地描述使用图像搜索引擎114和卷积神经网络120生成数据集110。

一旦系统100已经生成数据集110，系统100就能够将所生成的数据集110用于各种目的中的任何目的，以改进各种机器学习系统中的任何一个的操作。

例如，系统能够将作为输入的嵌入作为相应文本分段的表示提供给机器学习系统。由于已经生成基于视觉的嵌入的方式，所以使用基于视觉的嵌入代替使用其它技术生成的嵌入能够改善机器学习系统在各种机器学习任务中的性能。

作为另一示例，系统能够将数据集110中的嵌入与来自已经使用不同技术生成的不同数据集(替选数据集118)的嵌入组合，以便响应于所接收的请求提供任务特定嵌入。可能已经使用用于生成文本嵌入的任何传统技术生成替选数据集118。替选数据集118的示例为按Jeffrey Pennington、Richard Socher和Christopher Manning，2014年在EMNLP中发表的“GloVe:Global Vectors for Word Representation”中所描述的生成的Glove嵌入。替选数据集118的另一示例为按Tomas Mikolov等人的“Distributed Representations ofWords and Phrases and their Compositionality”中所描述的生成的word2vec嵌入。

换句话说，系统能够接收在词汇表中嵌入文本分段的请求，以用于某些机器学习任务，即，作为输入提供给被配置为执行机器学习任务的任务特定机器学习模型。系统能够组合文本分段的基于视觉的嵌入和以任务特定方式使用其它技术生成的文本分段的嵌入，以生成最终嵌入，然后响应于请求提供最终嵌入。

下面参考图3更详细地描述以任务特定方式组合嵌入。

作为另一示例，系统能够使用所生成的基于视觉的嵌入来改进生成包括词汇表中的文本分段的输出的任务特定神经网络的操作。特别地，该系统能够通过使用基于视觉的嵌入以选择由任务特定神经网络生成的输出的操作，替换任务特定神经网络的传统输出层。

下面参考图4更详细地描述使用基于视觉的嵌入来选择输出。

图2是用于生成文本分段的嵌入的示例过程的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的嵌入系统例如图1的嵌入系统100能够执行过程200。

系统能够对文本分段的词汇表中的每个文本分段执行过程200，以生成将词汇表中的每个文本分段与相应的基于视觉的数字嵌入相关联的数据集。

系统向图像搜索引擎提供包括文本分段的搜索查询(步骤202)。

系统从图像搜索引擎获得搜索查询的图像搜索结果(步骤204)。图像搜索结果每个都识别相应图像并且已经被图像搜索引擎响应于搜索查询而分类。图像搜索结果也由图像搜索引擎从最具响应性到最不具响应性排序，即，次序中的第一搜索结果是最具响应性的，次序中的第五搜索结果是第五最具响应性的，等等。

在一些情况下，系统从图像搜索引擎接收由图像搜索引擎从最具响应性到最不具响应性排序的初始图像搜索结果集，并根据生成文本分段嵌入时使用的次序选择对搜索查询最具响应性的初始图像搜索结果集的子集。例如，系统能够选择前五个、十个或二十个最具响应性搜索结果，以用于生成文本分段的嵌入。

对于每个图像搜索结果，系统都使用卷积神经网络处理由图像搜索结果识别的图像(步骤206)。

如上所述，已经训练卷积神经网络来处理输入图像以生成图像的图像数字嵌入。

系统从用于由图像搜索结果识别的图像的图像数字嵌入生成用于文本分段的数字嵌入(步骤208)。特别地，系统组合用于由搜索结果识别的图像的图像数字嵌入，以生成用于文本分段的数字嵌入。

作为特定示例，系统能够根据相应图像搜索结果的排序来级联图像数字嵌入，即，使得文本分段的嵌入是搜索结果的图像数字嵌入的级联。换句话说，系统将图像数字嵌入与次序中为第一的第一搜索结果的图像嵌入、次序中为第五的第五搜索结果的图像数字嵌入等等级联。

通过对词汇表中的所有文本分段执行过程200，系统生成基于视觉的文本分段的嵌入。特别地，由于给定文本分段的嵌入是从与文本分段相关的图像的嵌入中导出的，所以嵌入有效地表示文本分段的语义。

如上所述，在一些情况下，系统还为词汇表中的文本分段保持不同的嵌入集，即，使用不同技术生成的嵌入。在这些情况下，系统能够接收对词汇表中的文本分段的组合(或“最终”)数字嵌入的请求，以用于执行特定的机器学习任务，并且能够使用门控神经网络来组合文本分段的两种不同类型的嵌入。

更具体地，因为门控神经网络已经以任务特定方式进行训练，即，对特定于特殊机器学习任务的数据进行训练，所以系统能够以针对特殊机器学习任务优化的方式组合嵌入，因此这使得相对于仅对任务使用一种嵌入或使用两种嵌入的固定、非任务相关的组合，对特殊机器学习任务的性能提高。由系统保持但使用其它技术生成的嵌入将在本说明书中称为“第二嵌入”。

图3是用于生成文本分段的最终嵌入的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，根据本说明书适当编程的嵌入系统例如图1的文本嵌入系统100能够执行过程300。

系统接收在文本分段词汇表中第一文本分段的最终嵌入的请求(步骤302)。

系统使用门控神经网络处理第一文本分段的基于视觉的嵌入和第二嵌入以生成权重值(步骤304)。

已经训练门控神经网络以生成权重值，这产生在特定机器学习任务上具有高性能的嵌入。特别地，门网络已经与针对特定任务的训练数据的任务特定神经网络联合训练，以调整参数的值以使门网络生成对于特定任务更有用的权重值。

作为具体示例，门控神经网络能够为具有一个或多个隐藏层的神经网络，即，一个或多个完全连接的层，接着是生成权重值的S形输出层。

系统使用基于视觉的嵌入、第二嵌入和权重值生成第一文本分段的最终嵌入(步骤306)。

特别地，系统使用第一编码器神经网络处理第一文本分段的基于视觉的嵌入以生成基于视觉的嵌入的第一编码数字嵌入，使用第二编码器神经网络处理第二文本分段的第二数字嵌入以生成第二数字嵌入的第二编码数字嵌入，并根据权重值组合第一和第二编码数字嵌入，以生成第一文本分段的最终数字嵌入。

与门控神经网络一样，第一和第二编码器神经网络也能够被训练以生成用于特定任务的高性能嵌入，即，也能够与任务特定神经网络联合训练。

作为具体示例，每个编码器神经网络都能够是具有一个或多个隐藏层的神经网络即一个或多个完全连接的层，接着是生成编码的数字嵌入的反正切输出层。第一编码器神经网络仅用于基于视觉的嵌入，而第二编码器神经网络仅用于第二数字嵌入。

这种方法独立于单词出现的场境(即上下文，context)生成最终嵌入，即，不出于请求目的而考虑出现第一文本分段的场境。然而，在某些情况下，使用能够了解单词出现的句子的场境门来决定如何对基于视觉的和第二嵌入进行加权可能是有益的。

为了实现场境门控，门控神经网络被修改为考虑第一文本分段的场境。特别地，门控神经网络包括一个或多个递归神经网络层，例如双向LSTM层，接着是一个或多个前馈神经网络层。

为了利用场境，请求为第一个文本分段指定一个或多个场境文本分段，并且系统使用递归神经网络层处理第一个文本分段和场境文本分段的基于视觉的嵌入以生成场境化(contextualized)的基于视觉的嵌入，并且使用递归神经网络层处理第一文本分段和场境文本分段的第二数字嵌入，从而生成场境化的第二数字嵌入。然后，系统使用前馈神经网络层处理场境化的基于视觉的嵌入和场境化的第二数字嵌入，以生成上述权重值。

系统响应于请求提供第一文本分段的最终嵌入(步骤308)。例如，系统能够将文本分段的最终嵌入作为输入提供给任务特定神经网络，该神经网络在嵌入上操作以执行特殊的机器学习任务。

在一些情况下，系统能够使用基于视觉的嵌入来提高神经网络的准确性，该神经网络在一个或多个输出步长中的每一个处都将网络输入映射到包括目标自然语言的文本分段的目标序列。特别地，系统能够使用基于视觉的嵌入来代替神经网络的传统输出层，以在每个输出步长处选择文本分段。

例如，网络输入可以是与目标语言不同的源自然语言的文本分段的序列并且目标序列可以是输入序列变成目标自然语言的翻译。

作为另一示例，网络输入可以是图像并且目标序列可以是目标自然语言的图像用的插图说明。

作为另一示例，网络输入可以是目标自然语言的文本分段的序列并且目标序列可以是输入序列的摘要或通过输入序列提出的问题的答案。

图4是用于为输出时间步选择文本分段的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置中的一个或多个计算机的系统执行。例如，根据本说明书适当地编程的嵌入系统例如图1的文本嵌入系统100可执行过程400。

系统使用任务特定神经网络来从至少网络输入生成在输出时间步的文本分段的初始表示(步骤402)。特别地，初始表示可以是会被提供给任务特定神经网络的常规输出层例如softmax输出层的输入。例如，任务特定神经网络可以是包括编码器神经网络和解码器神经网络的序列到序列神经网络。初始表示可以是在输出时间步的解码器神经网络的隐藏状态，例如，会被神经网络的softmax输出层使用来生成遍及词汇表中的文本分段的概率分布的隐藏状态。在此示例中，系统通过使用解码器神经网络来处理最近生成的文本分段即在紧接在先时间步的文本分段的嵌入来生成初始表示。在一些情况下，解码器神经网络包括关注由编码器生成的网络输入的编码表示的注意机制。

系统针对目标自然语言的文本分段的词汇表中的每个文本分段来确定在输出时间步的文本分段的初始表示与文本分段的数字嵌入之间的相似性量度(步骤404)。例如，相似性量度可以是初始表示与数字嵌入之间的余弦相似性。作为另一示例，相似性量度可以是(i)初始表示与(ii)数字嵌入和用于文本分段的学习权重向量的和之间的余弦相似性。作为又一个示例，相似性量度可以是用于文本分段的学习偏差加上(i)初始表示与(ii)数字嵌入和用于文本分段的学习权重向量的和之间的余弦相似性。

系统选择具有根据相似性量度与初始表示最相似的嵌入的文本分段作为在输出时间步的文本分段(步骤406)。通过基于与基于视觉的嵌入的相似性选择输出文本分段，系统可更准确地生成输出序列，并且因此，提高机器学习任务的性能。

本说明书连同系统和计算机程序组件一起使用术语“被配置”。对于一个或多个计算机的系统来说，要被配置成执行特定操作或动作意味着该系统已在它上安装了在操作中使该系统执行操作或动作的软件、固件、硬件或其组合。对于一个或多个计算机程序来说要被配置为执行特定操作或动作意味着一个或多个程序包括当由数据处理装置执行时使该装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例可用数字电子电路、用有形地具体实现的计算机软件或固件、用计算机硬件包括本说明书中公开的结构及其结构等同物或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题的实施例可作为一个或多个计算机程序即在有形非暂时性存储介质上编码以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个模块被实现。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备，或它们中的一个或多个的组合。替选地或此外，程序指令可被编码在人工生成的传播信号例如机器生成的电、光学或电磁信号上，该信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。

术语“数据处理装置”指代数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器，作为示例包括可编程处理器、计算机或多个处理器或计算机。装置还可以是或者进一步包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可包括为计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序、其也可以被称为或者描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码可用任何形式的编程语言编写，所述编程语言包括编译或解释性语言或声明或过程语言；并且它可被以任何形式部署，包括作为独立程序或者作为模块、组件、子例行程序，或适合于在计算环境中使用的其它单元。程序可以但不必对应于文件系统中的文件。可在保持其它程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如，存储一个或多个模块、子程序或代码的部分的文件)中存储程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并且通过数据通信网络互连的多个计算机上执行。

在本说明书中，术语“数据库”广泛地用于指代数据的任何合集：数据不需要被以任何特定方式构造，或者根本不构造，并且它可被存储在一个或多个位置中的存储设备上。因此，例如，索引数据库可包括数据的多个合集，其中的每一个可以被不同地组织和访问。

类似地，在本说明书中术语“引擎”广泛地用于指代被编程来执行一个或多个具体功能的基于软件的系统、子系统或过程。一般地，引擎将作为安装在一个或多个位置中的一个或多个计算机上的一个或多个软件模块或组件被实现。在一些情况下，一个或多个计算机将专用于特定引擎；在其它情况下，可在相同的一个或多个计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可通过一个或多个可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能而被执行。过程和逻辑流程也可由专用逻辑电路例如FPGA或ASIC或者通过专用逻辑电路和一个或多个编程计算机的组合来执行。

适合于执行计算机程序的计算机可基于通用微处理器或专用微处理器或两者，或任何其它种类的中央处理单元。一般地，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或者实行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可由专用逻辑电路补充，或者并入专用逻辑电路中。一般地，计算机还将包括或者在操作上耦合以从用于存储数据的一个或多个大容量存储设备例如磁盘、磁光盘或光盘接收数据，或者将数据转移到用于存储数据的一个或多个大容量存储设备，或者兼而有之。然而，计算机不必具有此类设备。此外，计算机可被嵌入在另一设备中，所述另一设备例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，例如通用串行总线(USB)闪存驱动器等等。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例包括半导体存储器设备，例如EPROM、EEPROM和闪速存储器设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。

为了提供与用户的交互，可在计算机上实现本说明书中描述的主题的实施例，所述计算机具有用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可用来向该计算机提供输入的键盘和指点设备，例如鼠标或轨迹球。其它种类的设备也可用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以任何形式接收来自用户的输入，包括声、语音或触觉输入。此外，计算机可通过向由用户使用的设备发送文档并且从由用户使用的设备接收文档来与用户交互；例如，通过响应于从web浏览器接收到的请求而向用户的设备上的web浏览器发送web页面。另外，计算机可通过向个人设备例如正在运行消息传送应用的智能电话发送文本消息或其它形式的消息并且从用户接收响应消息作为回报来与用户交互。

用于实现机器学习模型的数据处理装置还可包括例如用于处理机器学习训练或生产(即，推理)工作负荷的公共和计算密集部分的专用硬件加速器单元。

可使用机器学习框架例如TensorFlow框架、Microsoft认知工具包框架、ApacheSinga框架或Apache MXNet框架来实现和部署机器学习模型。

可在计算系统中实现本说明书中描述的主题的实施例，所述计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面、web浏览器或app的客户端计算机)，或者包括一个或多个此类后端、中间件或前端组件的任何组合。系统的组件可通过任何形式或介质的数字数据通信(例如，通信网络)来互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如因特网。

计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备发送数据例如HTML页面，例如，用于向与作为客户端的设备交互的用户显示数据并且从与作为客户端的设备交互的用户接收用户输入的目的。可在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

虽然本说明书包含许多具体实施方式细节，但是这些不应该被解释为对任何发明的范围或者对可以要求保护的范围构成限制，而是相反被解释为可能特定于特定发明的特定实施例的特征的描述。还可在单个实施例中相结合地实现在本说明书中在单独的实施例的上下文中描述的某些特征。相反地，还可单独地在多个实施例中或者按照任何适合的子组合实现在单个实施例的上下文中描述的各种特征。此外，尽管特征可以在上面被描述为按照某些组合起作用并且甚至最初被如此要求保护，然而来自要求保护的组合的一个或多个特征可在一些情况下被从该组合中除去，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中描绘并在权利要求中按照特定次序叙述操作，但是这不应该被理解为要求按照所示特定次序或者按照顺序次序执行此类操作，或者要求执行所有图示的操作以实现所希望的结果。在某些情况下，多任务处理和并行处理可以是有利的。此外，上述的实施例中的各种系统模块和组件的分离不应该被理解为在所有实施例中要求这种分离，并且应该理解的是，所描述的程序组件和系统一般地可被集成在单个软件产品中或者包装到多个软件产品中。

已经描述了主题的特定实施例。其它实施例在以下权利要求的范围内。例如，权利要求中叙述的动作可被以不同的次序执行并仍然实现所希望的结果。作为一个示例，附图中描绘的过程不一定要求所示特定次序或顺序次序以实现所希望的结果。在一些情况下，多任务处理和并行处理可以是有利的。

Claims

1.一种生成数据集的方法，所述数据集使文本分段的词汇表中的每个文本分段与相应的数字嵌入相关联，所述方法包括，针对文本分段的词汇表中的每个文本分段：

向图像搜索引擎提供包括所述文本分段的搜索查询；

获得已由所述图像搜索引擎分类为是响应于所述搜索查询的多个图像搜索结果，其中，每个图像搜索结果识别相应的图像；

针对每个图像搜索结果，使用卷积神经网络来处理该图像搜索结果所识别的图像，其中，所述卷积神经网络已被训练来处理所述图像以生成用于所述图像的图像数字嵌入；以及

从用于由所述多个图像搜索结果所识别的各个图像的相应的图像数字嵌入生成用于所述文本分段的数字嵌入。

2.根据权利要求1所述的方法，其中，所述多个图像搜索结果由所述图像搜索引擎从最具响应性到最不具响应性进行排序，并且其中，所述方法进一步包括：

根据对所述多个图像搜索结果的所述排序来级联用于所述多个图像搜索结果所识别的各个图像的相应的图像数字嵌入。

3.根据权利要求1所述的方法，其中，所述卷积神经网络已经在语义排名目标上被训练以生成保存输入图像之间的语义相似性的图像数字嵌入。

4.根据权利要求1所述的方法，其中，获得所述多个图像搜索结果包括：

从所述图像搜索引擎获得由所述图像搜索引擎从最具响应性到最不具响应性进行排序的图像搜索结果的初始集；以及

根据所述排序来选择对于所述搜索查询最具响应性的图像搜索结果的所述初始集的子集。

5.根据权利要求1至4中的任一项所述的方法，其中，所述词汇表中的所述文本分段包括单词。

6.根据权利要求1至4中任一项所述的方法，其中，所述词汇表中的所述文本分段包括一个或多个多单词短语。

7.一种用于生成文本分段的数字嵌入的方法，包括：

维护为文本分段的词汇表中的每个文本分段指定相应的第一数字嵌入和相应的不同的第二数字嵌入的数据；

接收对所述词汇表中的第一文本分段的最终数字嵌入的请求；

使用门控神经网络来处理所述第一文本分段的所述第一数字嵌入和所述第二数字嵌入，其中，所述门控神经网络被配置成处理所述第一数字嵌入和所述第二数字嵌入以生成权重值；

使用第一编码器神经网络来处理所述第一文本分段的所述第一数字嵌入以生成所述第一数字嵌入的第一编码数字嵌入；

使用第二编码器神经网络来处理所述第一文本分段的所述第二数字嵌入以生成所述第二数字嵌入的第二编码数字嵌入；以及

根据所述权重值来组合所述第一编码数字嵌入和第二编码数字嵌入以生成所述第一文本分段的所述最终数字嵌入。

8.根据权利要求7所述的方法，其中，用于所述词汇表中的每个文本分段的所述第一数字嵌入已被使用权利要求1至6中的任一项所述的方法来生成。

9.根据权利要求7所述的方法，其中，根据所述权重值来组合所述第一编码数字嵌入和第二编码数字嵌入以生成所述第一文本分段的所述最终数字嵌入包括：

针对所述第一编码数字嵌入和第二编码数字嵌入的每个维度，根据所述权重值来确定所述第一编码数字嵌入在所述维度上的值和所述第二编码数字嵌入在所述维度上的值的加权和。

10.根据权利要求7至9中的任一项所述的方法，其中，所述门控神经网络是深度前馈神经网络。

11.根据权利要求7至9中的任一项所述的方法，

其中，所述请求为所述第一文本分段指定一个或多个场境文本分段，

其中，所述门控神经网络包括一个或多个递归神经网络层，后面跟随一个或多个前馈神经网络层，并且

其中，使用所述门控神经网络来处理所述第一文本分段的所述第一数字嵌入和所述第二数字嵌入包括：

使用所述一个或多个递归神经网络层来处理所述第一文本分段的第一数字嵌入和所述一个或多个场境文本分段以生成场境化的第一数字嵌入；

使用所述一个或多个递归神经网络层来处理所述第一文本分段的第二数字嵌入和所述一个或多个场境文本分段以生成场境化的第二数字嵌入；以及

使用所述一个或多个前馈神经网络层来处理所述场境化的第一数字嵌入和所述场境化的第二数字嵌入以生成所述权重值。

12.根据权利要求11所述的方法，其中，所述一个或多个递归神经网络层是双向LSTM层。

13.根据权利要求7至9中的任一项所述的方法，还包括：

将所述最终数字嵌入作为输入提供给任务特定神经网络。

14.一种将网络输入映射到目标序列的方法，所述目标序列在一个或多个输出时间步中的每一个输出时间步处都包括目标自然语言的目标文本分段，所述方法包括，针对每个输出时间步：

使用任务特定神经网络来至少从所述网络输入生成在所述输出时间步处的所述目标文本分段的初始表示；

针对所述目标自然语言的候选文本分段的词汇表中的每个候选文本分段，确定在所述输出时间步处的所述目标文本分段的所述初始表示与所述候选文本分段的数字嵌入之间的相似性量度；以及

选择根据所述相似性量度与所述初始表示最相似的候选文本分段作为在所述输出时间步处的所述目标文本分段，其中，候选文本分段的所述词汇表中的候选文本分段的所述数字嵌入已通过以下来生成，针对候选文本分段的所述词汇表中的每个候选文本分段：

向图像搜索引擎提供包括该候选文本分段的搜索查询；

获得已经被所述图像搜索引擎分类为响应于所述搜索查询的图像搜索结果，其中，每个图像搜索结果识别相应的图像；

针对每个图像搜索结果，使用卷积神经网络处理由所述图像搜索结果识别的所述图像，其中，所述卷积神经网络已被训练为处理所述图像以生成所述图像的图像数字嵌入；以及

根据由所述图像搜索结果识别的图像的所述图像数字嵌入来生成该候选文本分段的数字嵌入。

15.根据权利要求14所述的方法，

其中，所述网络输入是包括在多个输入时间步中的每一个输入时间步处的输入的输入序列，

其中，所述任务特定神经网络是包括编码器神经网络和解码器神经网络的序列到序列神经网络，并且

其中，在所述输出时间步处的所述目标文本分段的所述初始表示是在所述输出时间步处的所述解码器神经网络的隐藏状态。

16.根据权利要求15所述的方法，其中，所述序列到序列神经网络包括注意机制。

17.根据权利要求15至16中的任一项所述的方法，其中，所述网络输入是源自然语言的文本分段的序列。

18.根据权利要求17所述的方法，其中，所述源自然语言与所述目标自然语言不同，并且其中，所述目标序列是所述输入序列到所述目标自然语言的翻译。

19.根据权利要求17所述的方法，其中，所述任务特定神经网络使用根据权利要求7至13中的任一项所述的方法来处理所述源自然语言的文本分段的所述序列以生成用于每个文本分段的相应的最终数字嵌入。

20.一种用于处理文本分段的系统，所述系统包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令当由所述一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至19中的任一项所述的相应的方法的操作。

21.一种编码有指令的非暂时性计算机可读存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求1至19中的任一项所述的相应的方法的操作。