CN110443351A

CN110443351A - 生成映像的自然语言描述

Info

Publication number: CN110443351A
Application number: CN201910624318.XA
Authority: CN
Inventors: 萨米·本希奥; 奥里奥尔·温亚尔斯; 亚历山大·托什科夫·托舍夫; 杜米特鲁·埃尔汉
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2014-11-14
Filing date: 2015-11-13
Publication date: 2019-11-12
Anticipated expiration: 2035-11-13
Also published as: WO2016077797A1; EP3218854A1; US20210125038A1; CN106462802B; US10832124B2; EP3218854B1; US20200042866A1; US9858524B2; CN106462802A; CN110443351B; US10417557B2; US20180204112A1; US20240296313A1; US12014259B2; US20160140435A1

Abstract

公开了生成映像的自然语言描述。用于生成输入映像的描述的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。方法之一包括获取输入映像；使用第一神经网络处理输入映像以生成输入映像的替代表示；以及使用第二神经网络处理输入映像的替代表示以生成描述输入映像的目标自然语言中的多个词的序列。

Description

生成映像的自然语言描述

本申请是分案申请，原案的申请号是201580032854.0，申请日是2015-11-13，发明名称是“生成映像的自然语言描述”。

技术领域

本申请涉及生成映像的自然语言描述。

背景技术

本说明书涉及使用神经网络生成输入映像的自然语言描述。

神经网络(Neural networks)是采用一个或多个非线性单元层来预测对于接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用做网络中下一层——即下一隐藏层或输出层——的输入。网络的每层根据相应的参数集合的当前值从接收的输入生成输出。

一些神经网络是回归神经网络。回归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地，回归神经网络可以使用来自先前时间步骤的网络的内部状态的一些或全部计算当前时间步骤处的输出。回归神经网络的示例是包括一个或多个长短期存储器(LSTM)存储器块的LSTM神经网络。每个LSTM存储器块可以包括一个或多个单体，每个单体包括输入门，遗忘门和输出门，其允许该单体存储该单体的先前状态，举例来说，用于生成当前激活或将被提供到LSTM神经网络的其他组件。

发明内容

本说明书描述了被实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统如何可以生成映像的自然语言描述。

可以实施本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。通过生成适当形成的自然语言词序列，可以训练系统自动描述输入映像的内容。有利地，与先前方法不同，系统可以是使用随机梯度下降完全可训练的端到端系统，并且能够比先前方法在映像描述任务上产生更好的性能。系统生成的词序列不仅可以捕获包含在映像中的对象，而且还可以表现对象如何相互关联以及它们的属性和它们涉及的活动。为了生成描述，神经网络有效地将用于视觉理解的模型与语言模型结合。

在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据描述、附图和权利要求，主题的其他特征，方面和优点将变得显而易见。

附图说明

图1示出了示例映像描述系统。

图2是生成输入映像的自然语言描述的流程图。

图3是使用解码器LSTM神经网络生成自然语言序列的示例过程的流程图。

图4是使用解码器LSTM神经网络进行束搜索解码的示例过程的流程图。

各个附图中相同的附图标记和指定指示相同的元件。

具体实施方式

图1示出了示例映像描述系统100。映像描述系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例，其中可以实施下面描述的系统，组件和技术。

映像描述系统100接收输入映像102并且生成用于输入映像102的自然语言序列122。自然语言序列122是描述输入映像102的目标自然语言中的词序列。由映像描述系统100生成的自然语言序列通常是可变长度序列，即可以包含目标自然语言中的不同数量的词的序列。

映像描述系统100包括编码器卷积神经网络110和解码器LSTM神经网络120。

作为生成输入映像102的自然语言序列122的一部分，映像描述系统100使用编码器卷积神经网络110处理输入映像102，以生成输入映像102的替代表示112。

编码器卷积神经网络110是接收输入映像并根据参数集合从输入映像生成替代表示的卷积神经网络。

具体地，编码器卷积神经网络可以是另一个深度卷积神经网络的一部分，其已经被配置为对映像中的对象进行分类，即接收输入映像，并且对于每个输入映像，为对象类别的预定集合的每个对象类别生成相应的得分。给定类别的得分表示输入映像包括类别中的对象的映像的似然性。

更具体地，另一映像分类神经网络包括多个核心层和输出层。核心层共同地处理输入映像以生成输入映像的替代表示，并且输出层从核心层接收替代表示，并且从替代表示生成输入映像的类别得分。例如，输出层可以是softmax层。用于对映像中的对象进行分类的这种深度卷积神经网络的示例在C.Szegedy，W.Liu，Y.Ja，P.Sermanet，S.Reed，D.Unguelov，D.Erhan，V.Vanhoucke和A.Rabinovich的“Going deeper with convolutions(深入卷积)”，参见http://arxiv.org/pdf/1409.4842，有详细的描述。

编码器卷积神经网络110可以是除去输出层的另一个深度卷积神经网络，使得编码器卷积神经网络110仅包括来自另一个深度卷积神经网络的核心层，并且由用于输入映像102的编码器卷积神经网络110生成的输出是替代表示122。

下面参照图2更详细地描述使用编码器卷积神经网络110生成替代表示。

映像描述系统100使用解码器LSTM神经网络120处理输入映像102的所生成的替代表示122，以生成用于输入映像102的自然语言序列122。

解码器LSTM神经网络120是包括一个或多个LSTM神经网络层的LSTM神经网络，其中每个LSTM层包括一个或多个LSTM存储器块。每个LSTM存储器块可以包括一个或多个单体，每个单体包括输入门、遗忘门和输出门，其允许单体存储由单体生成的先前激活，举例来说，作为用于生成当前激活或提供给LSTM神经网络110的其他组件的隐藏状态。在“Generating sequences with recurrent neural networks(利用回归神经网络生成序列)”，Alex Graves，参见http://arxiv.org/abs/1308.0850v5，更详细地描述示例LSTM神经网络。

特别地，解码器LSTM神经网络120被配置为接收自然语言序列中的当前词，并且针对来自当前词的可能词集合中的每一个以及根据解码器LSTM神经网络120的当前隐藏状态和参数集合的当前值生成相应的得分。给定词的词得分表示词是自然语言序列中的下一个词的似然性，即，输出紧接着自然语言序列中的当前词的似然性。作为生成词得分的一部分，解码器LSTM神经网络120还更新网络的隐藏状态以生成更新的隐藏状态。

可能词集合包括目标自然语言中的词的词汇表和指定的停止词。停止词是不在自然语言中的词的词汇表中的指定词。

使用解码器LSTM神经网络处理替代表示以生成自然语言序列在下文中参照图2和图3更详细地描述。

图2是用于从输入映像生成自然语言序列的示例过程200的流程图。为了方便，过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如，映像描述系统，举例来说，图1的映像描述系统100，经适当编程，可进行过程200。

系统获取输入映像(步骤202)。

系统使用编码器卷积神经网络，举例来说，图1的编码器卷积神经网络110，来处理输入映像以将输入映像生成为输入映像的替代表示(步骤204)。也就是说，系统通过编码器卷积神经网络中的每个核心层处理输入映像，以生成替代表示，即替代表示是编码器卷积神经网络中最后核心层的输出。

因此，因为替代表示是最后核心层的输出，所以输入映像的替代表示是固定长度表示，即替代表示中的元素的数目是固定的，并且不依赖于输入映像。比如，替代表示可以是具有固定维度的数值的向量，举例来说，浮点值的向量或浮点值的量化表示的向量。

系统使用解码器LSTM神经网络，举例来说，图1的解码器LSTM神经网络120，处理替代表示以生成用于输入映像的自然语言序列(步骤206)。自然语言序列是根据输出次序排列的目标自然语言中的词的序列。解码器LSTM神经网络和编码器卷积神经网络已经通过进行训练以生成对应输入映像的描述的自然语言序列被配置。

一般来说，系统使用解码器LSTM神经网络通过使用输入映像的替代表示初始化解码器LSTM的初始隐藏状态来处理替代表示。比如，系统可以提供替代表示作为到解码器LSTM神经网络的初始输入，并且解码器LSTM神经网络可以处理替代表示，以便初始化用于生成自然语言序列中的词的初始隐藏状态。

一旦使用替代表示初始化解码器LSTM神经网络的隐藏状态，解码器LSTM神经网络接收自然语言序列中的当前词，将当前词映射到数字表示，然后处理数字表示以针对来自当前输出的可能词集中的每一个并根据解码器LSTM神经网络的当前隐藏状态和参数集合的当前值生成相应的词得分。解码器LSTM神经网络还更新当前隐藏状态作为处理数字表示的一部分。

一般来说，数字表示是具有与输入映像的替代表示相同维度的固定长度表示。下面将参照图3更详细地描述使用解码器LSTM神经网络生成自然语言序列。

图3是使用解码器LSTM神经网络来生成自然语言序列的示例过程300的流程图。为了方便，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如，映像描述系统，举例来说，图1的映像描述系统100，经适当编程，可进行过程300。

系统使用输入映像的替代表示来初始化解码器LSTM神经网络的初始隐藏状态(步骤302)。也就是说，系统提供替代表示作为到解码器LSTM神经网络的初始输入，并且解码器LSTM神经网络处理替代表示，以初始化用于生成自然语言序列中的词的初始隐藏状态。

系统根据初始隐藏状态使用解码器LSTM神经网络生成初始词得分集合(步骤304)。也就是说，系统根据初始隐藏状态使用解码器LSTM神经网络处理特殊开始词，以生成初始词得分，并使用初始隐藏状态生成更新的隐藏状态。如上所述，解码器LSTM神经网络被配置为根据解码器LSTM神经网络的当前隐藏状态和解码器LSTM神经网络的参数的当前值，将给定输入词映射到数字表示，然后处理数字表示以生成词得分集合并生成更新的隐藏状态。

系统使用初始词得分从词的词汇表中选择词作为自然语言序列中的第一词(步骤306)。在一些实施方式中，系统根据初始词得分选择最高得分的词。在一些其他实施方式中，系统根据初始词得分从词的词汇表中进行采样以选择词。

系统使用解码器LSTM神经网络处理所选择的词以生成下一词得分集合(步骤308)。也就是说，系统根据网络的更新的隐藏状态处理所选择的词以生成下一个词得分集合，并且再次更新网络的隐藏状态。

系统使用下一个词得分从词的词汇表中选择词作为自然语言序列中的下一个词(步骤310)，举例来说，如上面参考步骤306所描述的。

系统可以重复步骤308和310以将词添加到自然语言序列并且更新网络的隐藏状态，直到所选择的词是停止词而不是来自词的词汇表中的一个词。系统然后可以考虑在停止词之前选择的词的序列作为自然语言序列。

在一些实施方式中，系统生成多个可能的自然语言序列，并确定用于每个可能的自然语言序列的相应序列分值。然后，系统可以选择具有最高序列得分的可能的自然语言序列作为自然语言序列。特别地，系统可以通过使用解码器LSTM神经网络进行束搜索解码来生成可能的自然语言序列。

图4是用于使用解码器LSTM神经网络进行束搜索解码的示例过程400的流程图。为了方便，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如，映像描述系统，举例来说，图1的映像描述系统100，经适当编程，可进行过程400。

系统将解码器LSTM神经网络的初始隐藏状态初始化为输入映像的替代表示(步骤402)。

系统根据初始隐藏状态使用解码器LSTM神经网络生成初始词得分集合(步骤404)。

系统根据初始得分选择预定数目的最高得分可能的词(步骤406)。系统为每个被选择的可能词生成相应的可能的自然语言序列，每个可能的自然语言序列包括在输出次序中的第一位置处的对应被选择的可能词。系统将可能的自然语言序列与对应的可能词的初始得分相关联，作为可能的自然语言序列的序列得分。

系统为输出次序中的当前位置的每个维护的可能自然语言序列生成相应的词得分集合(步骤408)。也就是说，对于每个维护的可能自然语言序列，系统使用解码器LSTM神经网络处理可能的自然语言序列中的当前词，以根据解码器LSTM神经网络的当前隐藏状态为可能的词序列生成词得分集合。词得分集合包括用于可能词集合中的每一个的相应词得分。系统与其他维持的可能自然语言序列彼此独立地处理每个维持的可能自然语言序列，使得用于生成给定可能自然语言序列中的当前词的词得分集合的解码器LSTM的隐藏状态仅基于对可能的自然语言序列的处理，而不是针对任何其它可能的自然语言序列的所选择的词。

例如，一旦系统已经选择了用于输出次序中第一位置的可能词，则系统可以使用解码器LSTM神经网络来处理所选择的第一位置词中的每一个，以对于每个选择的第一位置词生成词得分的相应的集合。

对于每个维护的可能自然语言序列，系统为可以从可能的自然语言序列生成的每个可能的候选自然语言序列生成相应的序列得分(步骤410)。对于给定可能的自然语言序列的候选自然语言序列是将可能的词之一附加到可能的自然语言序列的结尾的序列。用于候选自然语言序列的序列得分是可能的自然语言序列的序列得分乘以附加可能词的词得分。

系统选择具有最高序列得分的预定数目的候选自然语言序列(步骤412)。

系统将维护的可能自然语言序列更新为所选择的候选自然语言序列(步骤414)。

当所选择的候选自然语言序列以停止词结束时，系统从束中移除所选择的候选自然语言序列，即，停止向所选择的候选自然语言序列添加额外的词，并且考虑在停止词被添加为最终可能的自然语言序列之前所选择的候选自然语言的序列。系统还将要维持的序列的预定数目减少一。

系统可以重复过程400的步骤408-414，直到每个维护的可能自然语言序列已经完成。然后，系统可以选择具有最高序列得分的最终可能自然语言序列作为用于输入映像的自然语言序列，或者可以提供最终可能自然语言序列中的多个作为用于输入映像的可能自然语言序列。

为了配置解码器LSTM神经网络，系统使用常规机器学习训练技术，举例来说，使用随机梯度下降，来训练网络。为了配置编码器卷积网络，系统训练具有核心层和输出层的映像分类卷积神经网络，举例来说，上面参考图1描述的映像分类神经网络，以分类映像，然后使用核心层的参数的训练值作为编码器卷积神经网络的参数的值。在一些实施方式中，系统然后可以通过将针对解码器LSTM神经网络计算的梯度反向传播回编码器卷积神经网络来联合训练网络，以在训练技术期间调整编码器卷积神经网络的参数的值。在这些实施中的一些中，系统仅调整编码器卷积神经网络的顶层的参数，同时保持在该训练期间固定的剩余层的参数的值。

在本说明书中描述的主题和功能操作的实施例可以在数字电子电路中，在有形体现的计算机软件或固件中，在计算机硬件中实施，包括在本说明书中公开的结构以及其结构等同物，或者它们中的一种或多种的组合。在本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即编码在有形非暂时性程序载体上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制操作。可选地或另外地，程序指令可以被编码在人工生成的传播信号上，举例来说，机器生成的电、光或电磁信号，其被生成以对信息进行编码以传输到合适的接收器装置，以便由数据处理装置执行。计算机存储介质可以是机器可读存储设备，机器可读存储基板，随机或串行存取存储器设备，或它们中的一个或多个的组合。

术语“数据处理装置”囊括用于处理数据的所有种类的装置，设备和机器，包括作为示例的可编程处理器，计算机或多个处理器或计算机。该装置可以包括专用逻辑电路，举例来说，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为考虑中计算机程序创建执行环境的代码问题，举例来说，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其还可被称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，包括编译或解释性的语言，或声明性或过程性的语言，并且其可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中，举例来说，存储在标记语言文档中的一个或多个脚本，在专用于所考虑的程序的单个文件中的一个或多个脚本，或者存储在多个协同文件(举例来说，存储一个或多个模块，子程序或代码的一部分的文件)中的一个或多个脚本。计算机程序可以被部署为在一个计算机上或在位于一个站点或通过通信网络互连并分布在多个站点上的多个计算机上执行。

本说明书中描述的过程和逻辑流程可以由进行一个或多个可编程计算机执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来进行功能。过程和逻辑流程也可以由专用逻辑电路，举例来说，FPGA(现场可编程门阵列)或ASIC(专用集成电路)来进行，并且装置也可以最为专用逻辑电路，举例来说，FPGA(现场可编程门阵列)或ASIC(专用集成电路)来实施。

适合于执行计算机程序的计算机包括，作为示例，可以基于通用或专用微处理器或两者，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于进行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括或者可操作地耦合以从其接收数据或向其传送数据的用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，举例来说，移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备，举例来说，通用串行总线(USB)闪存驱动器，仅举几个例子。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器，介质和存储器设备，包括作为示例的半导体存储器设备，举例来说，EPROM，EEPROM和闪存设备；磁盘，举例来说，内部硬盘或可移动盘；磁光盘；以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在具有用于对用户显示信息的显示设备，举例来说，CRT(阴极射线管)或LCD(液晶显示器)监视器，以及用户可以通过其向计算机提供输入键盘和指示设备，举例来说，鼠标或轨迹球，的计算机上实施。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈，举例来说，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音、语音或触觉输入。另外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从网络浏览器接收的请求，将网页发送到用户的客户端设备上的网络浏览器。

在本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件，举例来说，作为数据服务器，或包括中间件组件，举例来说，应用服务器，或包括前端组件，举例来说，具有图形用户界面或网络浏览器的客户端计算机，用户可以通过其与本说明书中描述的主题的实施交互，或者一个或多个这样的后端，中间件或前端组件的组合。系统的组件可以通过任何形式或数字数据通信介质互连，举例来说，通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)，举例来说，因特网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

尽管本说明书包含许多具体实施细节，但是这些不应被解释为对任何发明或要求保护的范围的限制，而是作为对特定发明的特定实施例具体的特征的描述。在本说明书中在分离实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离地或以任何合适的子组合来实施。此外，虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中去除，并且所要求保护的组合可以针对子组合或子组合的变体。

类似地，虽然在附图中以特定次序描绘操作，但是这不应被理解为要求这些操作以所示的特定次序或以顺序次序进行，或者所有所示的操作被进行以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的次序进行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定次序或顺序次序，以实现期望的结果。在某些实施中，多任务和并行处理可能是有利的。

Claims

1.具有在其上编码的指令的一种或多种非暂时性计算机存储介质，所述指令当由一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述操作包括：

获得输入映像；

使用第一神经网络处理所述输入映像，以生成所述输入映像的替代表示；以及

利用回归神经网络处理所述输入映像的所述替代表示，以生成描述所述输入映像的目标自然语言的词的输出序列，其中：

所述输出序列中的词根据输出次序排列，以及

处理所述输入映像的所述替代表示包括，对于所述输出次序中在初始位置之后的每个位置：

(i)识别为所述输出序列所选择的、在所述输出次序中位于当前位置之前的在前位置处的词；

(ii)利用所述回归神经网络来处理表示为所述输出序列所选择的、在所述输出次序中位于所述在前位置处的所述词的数据，以生成可能词的预定义集合中的词的相应词得分，以及

(iii)从所述可能词的预定义集合中并基于所述相应词得分，选择在所述输出次序中的所述当前位置的所述输出序列的特定词。

2.根据权利要求1所述的一种或多种计算机存储介质，其中所述回归神经网络是长短期存储器LSTM神经网络，并且其中处理所述输入映像的替代表示还包括，对于所述输出次序中的所述初始位置：

利用所述LSTM神经网络来处理特殊开始词，以生成所述可能词的预定义集合中的词的相应词得分；

从所述可能词的预定义集合中并根据所述相应词得分，选择所述词的所述输出序列的输出次序中的初始位置的特定词。

3.根据权利要求1所述的一种或多种计算机存储介质，其中处理所述输入的替代表示还包括：

使用左到右束搜索解码来生成每个所述可能序列的多个可能序列和相应序列得分；以及

选择一个或多个得分最高的可能序列作为所述输入映像的描述。

4.根据权利要求1所述的一种或多种计算机存储介质，其中所述第一神经网络和所述回归神经网络是联合训练的。

5.根据权利要求1所述的一种或多种计算机存储介质，其中，所述第一神经网络是深度卷积神经网络。

6.根据权利要求5所述的一种或多种计算机存储介质，其中：

所述深度卷积神经网络包括多个核心神经网络层，每个核心神经网络层具有相应参数集合；

使用所述第一神经网络处理所述输入映像包括：通过所述深度卷积神经网络的每个所述核心神经网络层来处理所述输入映像；以及

所述输入映像的所述替代表示是由所述多个核心神经网络层中的最后核心神经网络层所生成的输出。

7.根据权利要求6所述的一种或多种计算机存储介质，其中：

通过在多个训练映像上训练第三神经网络来确定所述相应参数集合的当前值；以及

所述第三神经网络包括多个核心神经网络层和输出层，所述输出层被配置为：对于每个训练映像，接收由所述最后核心神经网络层针对所述训练映像所生成的输出，并针对多个对象类别中的每一个对象类别生成相应得分，所述多个对象类别中的每一个对象类别的所述相应得分表示所述训练映像包含来自所述对象类别中的对象的映像的预测似然性。

8.根据权利要求1所述的一种或多种计算机存储介质，其中，所述可能词的预定义集合包括所述目标自然语言中的词的词汇表和特殊停止词。

9.一种计算机实现的方法，包括：

获得输入映像；

所述输出序列中的词根据输出次序排列，以及

处理所述输入映像的所述替代表示包括，对于所述输出次序中的初始位置之后的每个位置：

10.根据权利要求9所述的计算机实现的方法，其中所述回归神经网络是长短期存储器LSTM神经网络，并且其中处理所述输入映像的替代表示还包括，对于所述输出次序中的所述初始位置：

从所述可能词的预定义集合中并根据所述相应词得分，选择所述词的所述输出序列的输出次序中的所述初始位置的特定词。

11.根据权利要求9所述的计算机实现的方法，其中处理所述输入的替代表示还包括：

12.根据权利要求9所述的计算机实现的方法，其中所述第一神经网络和所述回归神经网络是联合训练的。

13.根据权利要求9所述的计算机实现的方法，其中，所述第一神经网络是深度卷积神经网络。

14.根据权利要求13所述的计算机实现的方法，其中：

15.根据权利要求14所述的计算机实现的方法，其中：

16.根据权利要求9所述的计算机实现的方法，其中，所述可能词的预定义集合包括所述目标自然语言中的词的词汇表和特殊停止词。

17.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统，所述指令在由所述一个或多个计算机执行时能够使所述一个或多个计算机执行操作，所述操作包括：

获得输入映像；

所述输出序列中的词根据输出次序排列，以及

18.根据权利要求17所述的系统，其中所述回归神经网络是长短期存储器LSTM神经网络，并且其中处理所述输入映像的替代表示还包括，对于所述输出次序中的所述初始位置：

19.根据权利要求17所述的系统，其中处理所述输入的替代表示还包括：

20.根据权利要求17所述的系统，其中，所述第一神经网络是深度卷积神经网络。