CN105159890A

CN105159890A - 使用神经网络产生输入序列的表示

Info

Publication number: CN105159890A
Application number: CN201510426401.8A
Authority: CN
Inventors: 奥里奥尔·温亚尔斯; 国·V·勒; 伊利亚·苏特思科韦尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-06-06
Filing date: 2015-06-08
Publication date: 2015-12-16
Anticipated expiration: 2035-06-08
Also published as: US20220101082A1; EP2953065A2; EP3792835B1; US20150356401A1; US20190180165A1; US10181098B2; CN113326705A; EP2953065A3; US11222252B2; CN105159890B; EP3792835A1; EP2953065B1

Abstract

本发明涉及使用神经网络产生输入序列的表示的方法、系统、装置及计算机程序。方法之一包括获得输入序列，所述输入序列包括根据输入顺序排列的多个输入；使用第一长短期记忆(LSTM)神经网络处理所述输入序列，以将所述输入序列转换为输入序列的可替换表示；以及使用第二LSTM神经网络处理输入序列的可替换表示，以产生输入序列的目标序列，所述目标序列包括根据输出顺序排列的多个输出。

Description

使用神经网络产生输入序列的表示

技术领域

本说明书涉及使用神经网络产生输入序列的表示。

许多数据处理任务包含将输入的有序序列转换为输出的有序序列。例如，机器翻译系统将一种语言的词语的输入序列翻译为另一种语言的词语的序列。作为另一个示例，发音系统将字形的输入序列转换为音素的目标序列。

发明内容

本说明书说明了在一个或多个地点的一个或多个计算机上实施为计算机程序的系统如何将输入序列转换为是输入序列的表示的目标序列，例如不同形式的输入序列的表示。

可以实施本说明书中所述主题的具体实施例以便实现一个或多个以下优点。可以准确预测是不同形式的输入序列的表示的目标序列。例如，机器翻译系统可以准确预测对所接收的词语的序列的翻译。作为另一个示例，字形-音素系统可以准确预测表示所接收的字形的序列的音素的序列。作为另一个示例，自动编码器系统可以准确自动编码所接收的序列。

在以下附图和说明中阐述了本说明书中所述主题的一个或多个实施例的细节。依据说明、附图和权利要求书，主题的其他特征、方面和优点会是显而易见的。

附图说明

图1示出了示例序列表示系统。

图2是产生输入序列的目标表示的流程图。

图3是用于使用解码器LSTM神经网络产生目标序列的示例过程的流程图。

图4是用于使用解码器LSTM神经网络执行集束搜索(beamsearch)解码的示例过程的流程图。

不同附图中相似的附图标记和命名指示相似的要素。

具体实施方式

图1示出了示例序列表示系统100。序列表示系统100是在一个或多个地点的一个或多个计算机上实施为计算机程序的系统的示例，在其中可以实施下述的系统、组件和技术。

序列表示系统100接收输入序列，并且将输入序列转换为目标序列。每一个目标序列都是输入序列的表示，例如输入序列不同形式的表示。例如，序列表示系统100可以接收输入序列102，和产生输入序列102的目标序列122。输入序列102的目标序列122是序列表示系统100分类为表示输入序列的输出的有序序列。例如，如果输入序列102是源语言的词语的序列，例如句子或段落，由序列表示系统100产生的目标序列122可以是输入序列到目标语言的翻译，即目标语言的词语的序列，其表示源语言的词语的序列。作为另一个示例，如果输入序列102是字形的序列，例如序列{g，o，o，g，l，e}，由序列表示系统100产生的目标序列122可以是输入序列的音素表示，例如序列{g，uh，g，ax，l}。

通常，由序列表示系统100接收的输入序列和由序列表示系统100产生的目标序列是可变长度的序列，即分别为可以包含变化数量的输入和输出的序列。另外，由序列表示系统100产生的目标序列中的输出的数量可以与从中产生目标序列的输入序列中的输入的数量相同或不同。

序列表示系统100包括编码器长短期记忆(LSTM)神经网络110和解码器LSTM神经网络120。

作为从输入序列产生目标序列的部分，序列表示系统100使用编码器LSTM神经网络110处理输入序列，以产生输入序列的可替换表示，例如输入序列102的可替换表示112。

编码器LSTM神经网络110是递归神经网络，其接收输入序列，并且从输入序列产生可替换的表示。具体而言，编码器LSTM神经网络110是LSTM神经网络，其包括一个或多个LSTM神经网络层，每一个LSTM层都包括一个或多个LSTM记忆块。每一个LSTM记忆块都可以包括一个或多个单元，每一个单元都包括输入门、忘记门和输出门，它们允许单元存储由单元产生的在前激活，例如作为用于在产生当前激活中使用的隐藏状态，或者提供给LSTM神经网络110的其他组件。在可以在http：//arxiv.org/abs/1308.0850v5获得的AlexGraves的“Generatingsequenceswithrecurrentneuralnetworks(产生具有递归神经网络的序列)”中更详细地说明了示例的LSTM神经网络。

例如通过训练配置编码器LSTM神经网络110以根据一组参数处理给定输入序列中的每一个输入，以产生输入序列的可替换表示。具体而言，编码器LSTM神经网络110被配置为按照输入顺序接收输入序列的每一个输入，并且对于给定的所接收的输入，通过处理所接收的输入更新编码器LSTM神经网络110的当前隐藏状态，即通过处理当前所接收的输入，修改通过处理来自输入序列的在前输入而产生的编码器LSTM神经网络110的当前隐藏状态。

以下参考图2更详细地说明使用编码器LSTM神经网络产生可替换表示。

序列表示系统100使用解码器LSTM神经网络120处理产生的输入序列的可替换表示，以产生输入序列的目标序列。例如，序列表示系统100可以使用解码器LSTM神经网络120处理可替换表示112，以产生输入序列102的目标序列122。

解码器LSTM神经网络120是LSTM神经网络，其包括一个或多个LSTM层，并且被配置为接收目标序列中的当前输出，并根据解码器LSTM神经网络120的当前隐藏状态和一组参数的当前值，为来自当前输出的一组可能的输出的每一个产生相应的输出得分。给定输出的输出得分表示该输出是目标序列的下一个输出的可能性，即，该输出在目标序列中紧跟在当前输出之后。作为产生输出得分的部分，解码器LSTM神经网络120还更新网络的隐藏状态以产生经更新的隐藏状态。

该组可能的输出包括可能的输出的词汇和指定句尾标志。输出的词汇中的输出是作为由系统接收的输入的可能表示而提供给系统的输出，例如如果到系统的输入是源语言的词语，且系统将输入序列从源语言翻译为目标语言，就是目标语言的词语，如果到系统的输入是字形，且系统产生字形序列的音素表示，就是音素，或者如果系统是自动编码器，就包括到系统的每一个可能的输入。句尾标志是指定输出，它不在可能的输出的词汇中。

以下参考图2和3更详细地说明使用解码器LSTM神经网络处理可替换表示以产生目标序列。

图2是从输入序列产生目标序列的示例过程200的流程图。为了方便，将过程200说明为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当地编程的序列表示系统，例如图1的序列表示系统100，可以执行过程200。

系统获得输入序列(步骤202)。输入序列包括根据输入顺序排列的一组输入。例如，输入序列可以是要转换为音素的对应的序列的字形的序列，或者要翻译为不同语言的词语的序列的一种语言的词语的序列。

系统使用编码器LSTM神经网络，例如图1的编码器LSTM神经网络110，来处理输入序列以将输入序列转换为输入序列的可替换表示(步骤204)。

作为处理输入序列的部分，系统修改输入序列，在输入序列的末尾(即在输入顺序的最后位置的输入之后)插入句尾令牌标志或不同的指定令牌标志，以产生经修改的输入序列。指定令牌标志是指定输入，它不在可以包括在由系统处理的输入序列中的可能输入的词汇中，并且如果指定令牌标志是句尾令牌标志，那么它也不在可能输出的词汇中。

系统随后使用编码器LSTM神经网络处理经修改的输入序列中的每一个输入，以产生输入序列的可替换表示。具体而言，系统从编码器LSTM神经网络的隐藏状态产生可替换表示。例如，可替换表示可以是处理了在输入序列的末尾的指定标志之后的编码器LSTM的隐藏状态，即，编码器LSTM的最后隐藏状态。因而，由于系统从编码器LSTM神经网络的隐藏状态产生可替换表示，输入序列的可替换表示就是定长表示，即可替换表示中的元素的数量是固定的，且与输入序列中输入的数量无关。例如，LSTM隐藏状态，及相应的可替换表示可以是数值的向量，其具有固定维度，例如浮点值的向量或者浮点值的量化表示。

系统使用解码器LSTM神经网络，例如图1的解码器LSTM神经网络120，来处理可替换表示以产生输入序列的目标序列(步骤206)。目标序列是根据输出顺序排列的输出的序列。

通常，系统通过将解码器LSTM的初始隐藏状态初始化为输入序列的可替换表示来使用解码器LSTM神经网络处理可替换表示，即设定等于可替换表示的初始状态隐藏状态。

例如，在将系统配置为接收源语言的词语的输入序列，并产生是输入序列中的词语到目标语言的翻译的目标语言的词语的目标序列的背景下，系统可以接收源语言的词语的输入序列，并在输入序列的末尾增加指定标志。系统随后可以使用编码器LSTM神经网络处理经修改的输入序列，以产生输入序列的可替换表示，并使用解码器LSTM神经网络处理可替换表示，以产生是输入序列到目标语言的翻译的目标语言的词语的目标序列。

图3是用于使用解码器LSTM神经网络产生目标序列的示例过程300的流程图。为了方便，将过程300说明为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当地编程的序列表示系统，例如图1的序列表示系统100，可以执行过程300。

系统将解码器LSTM神经网络的初始隐藏状态初始化为输入序列的可替换表示(步骤302)。

系统根据初始隐藏状态，使用解码器LSTM神经网络产生一组初始输出得分(步骤304)。即，系统根据初始隐藏状态，使用解码器LSTM神经网络处理初始占位符输出，例如全部为零的输出，以产生初始输出得分，并使用初始隐藏状态产生经更新的隐藏状态。

系统根据初始输出得分，将最高得分的输出选择为目标序列中的第一个输出(步骤306)。

系统使用解码器LSTM神经网络处理所选择的输出，以产生一组下一输出得分(步骤308)。即，系统根据网络的经更新的隐藏状态处理所选择的输出，以产生一组下一输出得分，并再次更新网络的隐藏状态。

系统根据下一输出得分，将最高得分输出选择为目标序列中的下一输出(步骤310)。

系统可以重复步骤308和310，以将输出增加到目标序列，并更新网络的隐藏状态，直至最高得分输出是句尾标志，而非来自输出的词汇的输出中的一个。系统随后可以将在句尾标志成为最高得分输出之前选择的所选择的输出的序列认为是目标序列。

在一些实现方式中，系统产生多个可能的目标序列，并为每一个可能的目标序列确定相应的序列得分。系统随后可以将具有最高序列得分的可能的目标序列选择为目标序列。具体而言，系统可以通过使用解码器LSTM神经网络执行集束搜索解码而产生可能的目标序列。

图4是用于使用解码器LSTM神经网络执行集束搜索解码的示例过程400的流程图。为了方便，将过程400说明为由位于一个或多个地点的一个或多个计算机的系统来执行。例如，适当地编程的序列表示系统，例如图1的序列表示系统100，可以执行过程400。

系统将解码器LSTM神经网络的初始隐藏状态初始化为输入序列的可替换表示(步骤402)。

系统根据初始隐藏状态，使用解码器LSTM神经网络产生一组初始输出得分(步骤404)。

系统根据初始得分，选择预定数量的最高得分的可能输出(步骤406)。系统为每一个所选择的可能输出产生相应的可能目标序列，每一个可能目标序列都包括按照输出顺序在第一位置的对应的所选择的可能输出。系统将可能目标序列与对应的可能输出的初始得分相关联，作为可能目标序列的序列得分。

系统为按照输出顺序的当前位置的每一个保留的可能目标序列产生相应一组输出得分(步骤408)。即，对于每一个保留的可能目标序列，系统根据用于可能输出序列的解码器LSTM神经网络的当前隐藏状态，使用解码器LSTM神经网络处理可能目标序列中的当前输出，以产生一组输出得分。该组输出得分包括用于该组可能输出中的每一个的相应的输出得分。系统在保留的可能目标序列彼此无关的情况下处理每一个保留的可能目标序列，以使得用于为给定可能目标序列中的当前输出产生一组输出得分的解码器LSTM的隐藏状态仅基于可能目标序列的处理，而不基于用于任何其他可能目标序列的所选择的输出。

例如，一旦系统选择了用于按照输出顺序的第一位置的可能输出，系统就可以使用解码器LSTM神经网络处理每一个所选择的第一位置输出，以为每一个所选择的第一位置输出产生相应一组输出得分。

系统为每一个保留的可能目标序列产生用于每一个可能候选目标序列的相应的序列得分，该可能候选目标序列可以从可能目标序列产生(步骤410)。用于给定可能目标序列的候选目标序列是将一个可能输出附加到可能目标序列的末尾的序列。用于候选目标序列的序列得分是用于可能目标序列的序列得分乘以用于附加的可能输出的输出得分。

系统选择具有最高序列得分的预定数量的候选目标序列(步骤412)。

系统将保留的可能目标序列更新为所选择的候选目标序列(步骤414)。

当所选择的候选目标序列以句尾标志结尾时，系统从集束中去除所选择的候选目标序列，即，停止将额外输出增加到所选择的候选目标序列，并将在增加句尾标志之前的所选择的候选目标序列认为是最终的可能目标序列。系统还将要保留的序列的预定数量减小一。

系统可以重复过程400的步骤408-414，直至每一个保留的可能目标序列结束。系统随后可以将具有最高序列得分的最终的可能目标序列选择为用于输入序列的目标序列，或者可以提供多个最终的可能目标序列，作为用于输入序列的可能目标序列。

为了配置编码器LSTM神经网络和解码器LSTM神经网络，系统可以使用传统机器学习训练技术训练网络，例如使用随机梯度下降。具体而言，系统可以通过将为解码器LSTM神经网络计算的梯度反向传播回到编码器LSTM神经网络，以便在训练技术期间调整编码器LSTM神经网络的参数值，来联合地训练网络。

本说明书中所述的主题和功能操作的实施例可以在数字电子电路、有形体现的计算机软件或固件、计算机硬件中实施，包括在本说明书中公开的结构及其结构等效替代，或者在其一个或多个的组合中实施。本说明书中所述的主题的实施例可以实施为一个或多个计算机程序，即，在有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块，以便由数据处理装置执行或控制数据处理装置的操作。可替换地或者另外地，程序指令可以编码在人为产生的传播信号上，例如机器产生的电、光或电磁信号，产生其以编码信息，以便传输到适合的接收器装置，用于由数据处理装置执行。计算机储存介质可以是机器可读储存设备、机器可读储存基底、随机或串行存取存储器设备，或者其一个或多个的组合。

术语“数据处理装置”包含用于处理数据的全部种类的装置、设备和机器，示例性地包括可编程处理器、计算机或多个处理器或计算机。装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件以外，装置还可以包括代码，其生成用于所述的计算机程序的执行环境，例如构成处理器固件、协议栈、数据库管理系统、操作系统或其一个或多个的组合的代码。

计算机程序(其也称为或说明为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释语言，或者说明性语言或过程语言，并且它可以以任何形式部署，包括作为独立的程序或模块、组件、子例程或适合于在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的部分中，例如存储在标记语言文档中的一个或多个脚本，存储在专用于所述程序的单一文件中，或者存储在多个协作的文件中，例如，存储一个或多个模块、子程序或部分代码的文件。计算机程序可以部署为在一个计算机上或位于一个地点的或分布在多个地点并由通信网络互连的多个计算机上执行。

本说明书中所述的过程和逻辑流程可以由一个或多个可编程计算机执行，其执行一个或多个计算机程序，通过对输入数据操作并产生输出来执行功能。过程或逻辑流程可以由专用逻辑电路执行，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)，并且装置可以实施为该专用逻辑电路。

适合于计算机程序的执行的计算机包括，示例性地可以基于通用或专用微处理器或二者，或者任何其他种类的中央处理单元。通常，中央处理单元会从只读存储器或随机存取存储器或二者接收指令和数据。计算机的必不可少的元件是中央处理单元，用于完成或执行指令，以及一个或多个存储器设备，用于存储指令和数据。通常，计算机还会包括或可操作地耦接以便从用于存储数据的一个或多个大容量储存设备接收数据或向其传送数据或者二者，所述大容量存储设备例如磁盘或磁光盘或光盘。但计算机不必具有这种设备。此外，计算机可以嵌入在另一个设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收机、或便携式储存设备，例如通用串行总线(USB)闪存驱动器，仅列举几个。

适合于储存计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，示例性地包括半导体存储器设备，例如EPROM、EEPROM和闪存设备；磁盘，例如内部硬盘或可移动盘；磁光盘；以及CDROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或包含于其中。

为了提供与用户的交互，本说明书中所述的主题的实施例可以在具有用于向用户显示信息的例如CRT(阴极射线管)或LCD(液晶显示器)监视器的显示设备，和用户借助其可以向计算机提供输入的键盘及例如鼠标或跟踪球的指示设备的计算机上实施。其他种类的设备也可以用于提供与用户的交互；例如提供给用户的反馈可以是任何形式的感觉反馈，例如视觉反馈、听觉反馈或触觉反馈；来自用户的输入可以以任何形式接收，包括声音、语音或触觉输入。另外，计算机可以通过往来于由用户使用的设备发送文档并接收文档来与用户交互；例如通过响应于从用户客户机设备上的web浏览器接收的请求，向该web浏览器发送网页。

本说明书中所述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件，例如作为数据服务器，或者包括中间件组件，例如应用服务器，或者包括前端组件，例如客户计算机，具有图形用户界面或Web浏览器，用户通过它可以与本说明书中所述主题的实现方式交互，或者一个或多个这种后端、中间件或前端组件的任意组合。系统的组件可以由任意形式或媒介的数字数据通信互连，例如通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，例如互联网。

计算系统可以包括客户机和服务器。客户机和服务器通常彼此远离，并且典型地通过通信网络交互。客户机与服务器的关系借助在相应的计算机上运行并相互具有客户机-服务器关系的计算机程序而产生。

尽管本说明书包含许多特定实现方式细节，但这些不应视为对任何发明的或者所要求的范围的限制，而是作为可以专用于特定发明的特定实施例的特征的说明。本说明书在单独实施例的语境中所述的某些特征可以在单一实施例中相结合地实施。相反，在单一实施例的语境中所述的多个特征也可以分别在多个实施例中实施，或者在任何适合的子组合中实施。此外，尽管以上可以将特征说明为在某些组合中操作，甚至最初如此要求了，但来自所要求的组合的一个或多个特征在一些情况下可以脱离该组合，并且所要求的组合可以针对子组合或者子组合的变形。

类似地，尽管按照特定顺序在附图中示出了操作，但这不应理解为要求按照所示的特定顺序或者以顺序的次序执行这种操作，或者执行全部所示的操作，以实现期望的结果。在某些环境下，多任务与并行处理会是有利的。此外，上述实施例中的多个系统模块和组件的分离不应理解为在所有实施例都要求这种分离，并且应将其理解为所述的程序组件和系统通常可以在单一软件产品中集成在一起或者封装到多个软件产品中。

说明了主题的特定实施例。其他实施例也在以下权利要求书的范围内。例如，在权利要求书中表述的操作可以按照不同顺序执行，但仍可以实现希望的结果。作为一个示例，在附图中所示的过程不必要求所示的特定顺序或者顺序的次序以便实现希望的结果。在某些实现方式中，多任务与并行处理会是有利的。

Claims

1.一种由一个或多个计算机执行的方法，所述方法包括：

获得输入序列，所述输入序列包括根据输入顺序排列的多个输入；

使用第一长短期记忆(LSTM)神经网络处理所述输入序列，以将所述输入序列转换为所述输入序列的可替换表示；以及

使用第二LSTM神经网络处理所述输入序列的所述可替换表示，以产生所述输入序列的目标序列，所述目标序列包括根据输出顺序排列的多个输出。

2.根据权利要求1所述的方法，其中，所述输入序列是可变长度输入序列。

3.根据权利要求1或2所述的方法，其中，所述可替换表示是固定维度的向量。

4.根据权利要求1至3任意一项所述的方法，其中，处理所述输入序列包括：

将句尾标志增加到所述输入序列的末尾以产生经修改的输入序列；以及

使用所述第一LSTM神经网络处理所述经修改的输入序列。

5.根据权利要求1至4任意一项所述的方法，其中，使用所述第二LSTM神经网络处理所述输入序列的所述可替换表示包括将所述第二LSTM神经网络的隐藏状态初始化为所述输入序列的所述可替换表示。

6.根据权利要求5所述的方法，其中，使用所述第二LSTM神经网络处理所述输入序列的所述可替换表示包括：

使用所述第二LSTM神经网络处理所述输入序列的所述可替换表示以为一组可能目标序列的每一个产生相应的序列得分；以及

将具有最高序列得分的可能目标序列选择为所述输入序列的所述目标序列。

7.根据权利要求6所述的方法，其中，所述一组可能目标序列包括长度变化的可能目标序列。

8.根据权利要求6或7所述的方法，其中，使用所述第二LSTM神经网络处理所述输入序列的所述可替换表示包括：

使用应用左到右集束搜索解码的所述第二LSTM神经网络处理所述可替换表示。

9.根据权利要求1至8任意一项所述的方法，进一步包括：

使用随机梯度下降训练所述第一LSTM神经网络和所述第二LSTM神经网络。

10.根据权利要求1至9任意一项所述的方法，其中，所述输入序列是第一语言的词语的序列，并且所述目标序列是所述词语的序列到第二语言的翻译。

11.根据权利要求1至9任意一项所述的方法，其中，所述输入序列是词语的序列，并且所述目标序列是所述输入序列的自动编码。

12.根据权利要求1至9任意一项所述的方法，其中，所述输入序列是字形的序列，并且所述目标序列是所述字形的序列的音素表示。

13.一种系统，包括一个或多个计算机和存储可操作的指令的一个或多个储存设备，所述指令当由所述一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1至12任意一项所述的相应的方法的操作。

14.一种编码有指令的计算机储存介质，所述指令当由一个或多个计算机执行时，使得所述一个或多个计算机执行根据权利要求1至12任意一项所述的相应的方法的操作。