CN110168573A

CN110168573A - 用于图像标注的空间注意力模型

Info

Publication number: CN110168573A
Application number: CN201780071579.2A
Authority: CN
Inventors: 卢家森; 熊蔡明; R·佐赫尔
Original assignee: Salesforce com Inc
Current assignee: Salesforce Inc
Priority date: 2016-11-18
Filing date: 2017-11-18
Publication date: 2019-08-23
Anticipated expiration: 2037-11-18
Also published as: US20200057805A1; CA3128692A1; CA3040165C; US20180144208A1; US10565306B2; EP3869416A1; US10565305B2; US20200117854A1; JP2019537147A; US10558750B2; JP2020123372A; US10846478B2; JP6946508B2; EP3542314A1; US20180143966A1; JP6689461B2; CN110168573B; EP3542314B1; CA3040165A1; US20180144248A1

Abstract

所公开的技术提出了一种新颖的空间注意力模型，其使用解码器长短期记忆(LSTM)的当前隐藏状态信息来引导注意力并提取空间图像特征用于图像标注(image captioning)。所公开的技术还提出了一种用于图像标注的新颖的自适应注意力模型，其混合来自卷积神经网络(CNN)的视觉信息和来自LSTM的语言信息。在每个时间步长处，与语言模型相比，自适应注意力模型自动决定依赖图像的程度，以发出下一个字幕单词。所公开的技术进一步将新的辅助哨兵门添加到LSTM架构并产生哨兵LSTM(Sn‑LSTM)。哨兵门在每个时间步长处产生视觉哨兵，这是从LSTM的内存得到的长期和短期视觉和语言信息的附加表示。

Description

用于图像标注的空间注意力模型

其他申请的交叉引用

本申请要求于2016年11月18日提交的、题为“知道什么时候看：经由可视化的哨兵进行图像标注的自适应注意力(KNOWING WHEN TO LOOK:ADAPTIVE ATTENTION VIA AVISUAL SENTINEL FOR IMAGE CAPTIONING)”、申请号为62/424,353的美国临时专利申请(代理人案卷号为SALE 1184-1/1950PROV)的权益。该优先权临时申请出于所有目的通过引用合并于此；

本申请要求于2017年11月17日提交的、题为“用于图像标注的空间注意力模型(SPATIAL ATTENTION MODEL FOR IMAGE CAPTIONING)”、申请号为15/817,153的美国非临时专利申请(代理人案卷号为SALE1184-2/1950US1)的权益。该优先权非临时申请出于所有目的通过引用合并于此；

本申请要求于2017年11月17日提交的、题为“用于图像标注的自适应注意力模型(ADAPTIVE ATTENTION MODEL FOR IMAGE CAPTIONING)”、申请号为15/817,161的美国非临时专利申请(代理人案卷号为SALE 1184-3/1950US2)的权益。该优先权非临时申请出于所有目的通过引用合并于此；

本申请要求于2017年11月18日提交的、题为“哨兵长短期记忆(SENTINEL LONGSHORT-TERM MEMORY)(Sn-LSTM)”、申请号为15/817,165的美国非临时专利申请(代理人案卷号为SALE 1184-4/1950US3)的权益。该优先权非临时申请出于所有目的通过引用合并于此；

本申请出于所有目的通过引用合并于2017年1月31日提交的、题为“指针哨兵混合模型(POINTER SENTINEL MIXTURE MODELS)”、申请号为15/421,016的美国非临时专利申请(代理人案卷号为SALE 1174-4/1863US)；

本申请出于所有目的通过引用合并于2016年11月4日提交的、题为“准循环神经网络(QUASI-RECURRENT NEURAL NETWORK)”、申请号为62/417,334的美国临时专利申请(代理人案卷号为SALE 1174-3/1863PROV3)；

本申请出于所有目的通过引用合并于2017年1月31日提交的、题为“准循环神经网络(QUASI-RECURRENT NEURAL NETWORK)”、申请号为15/420,710的美国非临时专利申请(代理人案卷号为SALE 1180-3/1946US)；

本申请出于所有目的通过引用合并于2016年11月4日提交的、题为“准循环神经网络(QUASI-RECURRENT NEURAL NETWORK)”、申请号为62/418,075的美国临时专利申请(代理人案卷号为SALE 1180-2/1946PROV2)。

所公开技术的领域

所公开的技术涉及人工智能型计算机和数字数据处理系统以及用于仿真智能的相应数据处理方法和产品(即，基于知识的系统，推理系统和知识获取系统)；并包括用于推理的具有不确定性的系统(例如，模糊逻辑系统)、自适应系统、机器学习系统和人工神经网络。所公开的技术总地涉及一种新颖的基于视觉注意力的编码器-解码器图像标注(imagecaptioning)模型。所公开的技术的一个方面涉及一种用于在图像标注期间提取空间图像特征的新颖的空间注意力模型。空间注意力模型使用解码器长短期记忆(LSTM)的当前隐藏状态信息来引导注意力，而不是使用先前隐藏状态或先前发出的单词。所公开的技术的另一方面涉及用于图像标注的新颖的自适应注意力模型，其混合来自卷积神经网络(CNN)的视觉信息和来自LSTM的语言信息。在每个时间步长下，与语言模型相比，自适应注意力模型自动决定依赖图像的程度，以发出下一个字幕(caption)单词。所公开的技术的又一方面涉及将新的辅助哨兵门添加到LSTM架构并产生哨兵LSTM(Sn-LSTM)。哨兵门在每个时间步长产生视觉哨兵，这是从LSTM的内存得到的长期和短期视觉和语言信息的附加表示。

背景技术

作为在本节中提及的结果，不应将本节中讨论的主题假设为现有技术。类似地，不应将本节中提到的或与作为背景提供的主题相关的问题假定为先前已在现有技术中已认识到的问题。本节中的主题仅表示不同的方法，这些方法本身也可以对应于所要求保护的技术的实现。

图像标注正在引起对计算机视觉和机器学习的日益关注。基本上，它要求机器使用自然语言语句自动描述图像的内容。虽然这项任务对于人类来说显而易见，但它对于机器来说很复杂，因为它需要语言模型来捕获图像中的各种语义特征，例如目标的运动和动作。图像标注的另一个挑战，特别是对于生成模型，是生成的输出应该是类似人类的自然语句。

最近在机器翻译中成功的深度神经网络催化了神经网络在解决图像标注问题中的采用。该想法源于神经机器翻译中的编码器-解码器架构，其中采用卷积神经网络(CNN)将输入图像编码成特征向量，以及序列建模方法(例如，长短期记忆(LSTM))将特征向量解码为单词序列。

图像标注中的最近工作依赖于该结构，并且利用图像引导、属性、区域注意力或文本注意力作为注意力引导。图2A示出了注意力主导的解码器，其使用先前的隐藏状态信息来引导注意力并生成图像字幕(image caption)(现有技术)。

因此，出现了改善基于注意力的图像标注模型的性能的机会。

自动生成图像的字幕已经成为学术界和工业界中突出的跨学科研究问题。它可以帮助视障用户，并使用户可以轻松地通过大量的通常非结构化的视觉数据进行组织和导航。为了生成高质量的字幕，图像标注模型需要包含来自图像的细粒度视觉线索。最近，已经探索了基于视觉注意力的神经编码器-解码器模型，其中注意力机制通常产生突出显示与每个生成的单词相关的图像区域的空间地图(spatial map)。

用于图像标注和视觉问答的大多数注意力模型在每个时间步长都注意(attendto)图像，而不管接下来将发出哪个单词。然而，并非字幕中的所有单词都具有相应的视觉信号。考虑图16中的示例，其显示了图像及其生成的字幕“一只白色的鸟停在红色停车标的顶部(a white bird perched on top of a red stop sign)”。单词“a”和“of”没有相应的规范视觉信号。此外，语言相关性使得在“perched”之后生成像“on”和“top”以及在“a redstop”之后生成像“sign”之类的单词时不需要视觉信号。此外，采用非视觉单词进行训练可能导致生成字幕时的性能更差，因为来自非视觉单词的梯度可能误导并降低视觉信号在引导字幕生成过程中的整体有效性。

因此，出现了通过基于注意力的视觉神经编码器-解码器模型确定在字幕生成期间应当给予目标图像的重要性的机会。

深度神经网络(DNN)已成功应用于许多领域，包括语音和视觉。在自然语言处理任务中，循环神经网络(RNN)因其能够记忆长期依赖性而被广泛使用。训练深度网络(包括RNN)的问题是梯度减小和爆炸。在训练RNN时，这个问题很明显。长短期记忆(LSTM)神经网络是RNN的扩展，其解决了这个问题。在LSTM中，存储器单元具有其当前活动与其过去活动的线性依赖性。遗忘门用于调制过去活动和当前活动之间的信息流。LSTM还具有输入门和输出门以调制其输入和输出。

LSTM中的输出单词的生成取决于当前时间步长处的输入和先前的隐藏状态。但是，除当前输入和先前的隐藏状态之外，LSTM已配置为使其输出以辅助输入为条件。例如，在图像标注模型中，LSTM合并了图像特征提供的外部视觉信息，以影响不同阶段的语言选择。作为图像字幕生成器，LSTM不仅将最近发出的字幕单词和先前的隐藏状态作为输入，而且将所标注的图像的区域特征(通常从卷积神经网络(CNN)中的隐藏层的激活值导出))作为输入。然后训练LSTM，从而以该向量可用于预测下一个字幕单词的方式使得图像字幕混合物向量化。

其他图像标注模型使用从图像提取的外部语义信息作为每个LSTM门的辅助输入。还存在其他文本概括和问答模型，其中提供由第一LSTM产生的文档或问题的文本编码作为第二LSTM的辅助输入。

辅助输入携带辅助信息，辅助信息可以是视觉的或文本的。它可以由另一个LSTM在外部生成，或者从另一个LSTM的隐藏状态外部导出。它还可以由外部源(例如CNN，多层感知器，注意力网络或另一LSTM)提供。可以将辅助信息在初始时间步长馈送到LSTM仅一次，或者在每个时间步长连续馈送。

然而，将不受控制的辅助信息馈送到LSTM可能产生较差的结果，因为LSTM可以利用来自辅助信息的噪声并且更容易过度拟合。为了解决这个问题，我们在LSTM中引入了一个额外的控制门，其对用于下一输出生成的辅助信息的使用进行门控和引导。

因此，出现了扩展LSTM架构以包括辅助哨兵门的机会，该辅助哨兵门确定了应当给予存储在LSTM中用于下一输出生成的辅助信息的重要性。

附图的简要说明

在附图中，相同的参考字符在不同视图中通常指代相同的部分。而且，附图不一定按比例绘制，而是通常将重点放在说明所公开的技术的原理上。在以下描述中，参考以下附图描述所公开的技术的各种实现方式，其中：

图1示出了通过卷积神经网络(缩写为CNN)处理图像并为图像区域产生图像特征的编码器。

图2A示出了注意力主导的解码器，其使用先前的隐藏状态信息来引导注意力并生成图像字幕(现有技术)。

图2B示出了所公开的注意力滞后解码器，其使用当前隐藏状态信息来引导注意力并生成图像字幕。

图3A描绘了全局图像特征生成器，其通过组合由图1的CNN编码器产生的图像特征来生成图像的全局图像特征。

图3B是在高维嵌入空间中将单词向量化的单词嵌入器。

图3C是准备并向解码器提供输入的输入准备器。

图4描绘了作为图6中公开的空间注意力模型的一部分的注意力器的模块的一种实现。

图5示出了在所公开的技术的各个方面中使用的发射器的模块的一种实现。发射器包括前馈神经网络(在此也称为多层感知器(MLP))，词汇表softmax(在此也称为词汇表概率质量产生器)和单词嵌入器(在此也称为嵌入器)。

图6示出了所公开的用于跨多个时间步长展开的(rolled)图像标注的空间注意力模型。图2B的注意力滞后解码器由空间注意力模型体现并实现。

图7描绘了使用由图6的空间注意力模型应用的空间注意力的图像标注的一种实现。

图8示出了所公开的哨兵LSTM(Sn-LSTM)的一种实现，Sn-LSTM包括产生哨兵状态的辅助哨兵门。

图9示出了实现图8的Sn-LSTM的循环神经网络(缩写为RNN)的模块的一种实现。

图10描绘了所公开的用于图像标注的自适应注意力模型，其自动地决定与语言信息相比依赖于视觉信息的程度，以发出下一个字幕单词。图8的哨兵LSTM(Sn-LSTM)由作为解码器的自适应注意力模型体现并实现。

图11描绘了自适应注意力器的模块的一种实现，自适应注意力器是图12中公开的自适应注意力模型的一部分。自适应注意力器包括空间注意力器、提取器、哨兵门质量确定器、哨兵门质量softmax和混合器(在此也称为自适应上下文向量产生器或自适应上下文产生器)。空间注意力器又包括自适应比较器，自适应注意力器softmax和自适应凸组合累加器。

图12示出了所公开的用于跨多个时间步长展开的图像标注的自适应注意力模型。图8的哨兵LSTM(Sn-LSTM)由作为解码器的自适应注意力模型体现并实现。

图13示出了使用由图12的自适应注意力模型应用的自适应注意力的图像标注的一种实现。

图14是所公开的处理纯语言信息并产生图像的字幕的视觉密封解码器的一种实现。

图15示出了使用用于图像标注的图14的视觉密封解码器的空间注意力模型。在图15中，空间注意力模型跨多个时间步长展开。

图16示出了使用所公开的技术的图像标注的一个示例。

图17示出了使用所公开的技术生成的一些示例图像字幕和图像/空间注意力地图的可视化。

图18描绘了使用所公开的技术生成的一些示例图像字幕、逐单词地视觉落地概率和相应图像/空间注意力地图的可视化。

图19示出了使用所公开的技术生成的一些其他示例图像字幕、逐单词地视觉落地概率和相应图像/空间注意力地图的可视化。

图20是示出在COCO(上下文中的共同目标)数据集上公开的技术的性能的示例等级概率图。

图21是示出在Flicker30k数据集上公开的技术的性能的另一示例等级概率图。

图22是示出在COCO数据集上公开的技术的定位准确度的示例图。蓝色条显示空间注意力模型的定位准确度，而红色条显示自适应注意力模型的定位准确度。

图23是示出基于各种自然语言处理度量在Flicker30k和COCO数据集上公开的技术的性能的表，自然语言处理度量包括BLEU(bilingual evaluation understudy，双语评估替换)，METEOR(metric for evaluation of translation with explicit ordering，采用显式排序的翻译评估的度量)，CIDEr(consensus-based image descriptionevaluation，基于共识的图像描述评估)，ROUGE-L(recall-oriented understudy forgisting evaluation-longest common subsequence，面向召回率的要点评估-最长公共子序列)和SPICE(semantic propositional image caption evaluation，语义命题的图像字幕评估)。

图24是公开的最先进技术的排行榜，其显示所公开的技术以显著的余量设定新的最先进技术。

图25是可用于实现所公开技术的计算机系统的简化框图。

详细描述

呈现以下讨论以使得本领域技术人员能够制造和使用所公开的技术，并且在特定应用及其要求的背景下提供以下讨论。对于本领域技术人员来说，对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，这里定义的一般原理可以应用于其他实施例和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。

以下是用于图像标注的神经编码器-解码器框架的讨论，接着是所公开的基于注意力的图像标注模型。

用于图像标注的编码器-解码器模型

基于注意力的视觉神经编码器-解码器模型使用卷积神经网络(CNN)将输入图像编码成特征向量，以及长短期记忆网络(LSTM)将特征向量解码成单词序列。LSTM依赖于一种注意力机制，其产生一个空间地图，该空间地图突出显示与生成单词相关的图像区域。基于注意力的模型利用LSTM的先前隐藏状态信息或先前发出的一个或更多个字幕单词作为注意力机制的输入。

给定图像和相应的字幕，编码器-解码器模型直接最大化以下目标：

在上面的方程(1)中，θ是模型的参数，I是图像，并且y＝{y₁,...y_t}是相应的字幕。使用链式法则，联合概率分布的对数似然可以分解为以下有序条件：

如上面的方程(2)所示，为方便起见，丢弃了对模型参数的依赖性。

在使用循环神经网络(RNN)作为解码器的编码器-解码器框架中，将每个条件概率被建模为：

log p(y_t|y₁，...，y_t-1，I)＝f(h_t，c_t)

在上面的方程(3)中，f是输出概率y_t的非线性函数。c_t是从图像I中提取的时间t时的视觉上下文向量。h_t是RNN在时间t时的当前隐藏状态。

在一个实现中，所公开的技术使用长短期记忆网络(LSTM)作为RNN。LSTM是vanilla(维尼拉)RNN的门控变体，并且已经在各种序列建模任务中展示了最先进的性能。LSTM的当前隐藏状态h_t被建模为：

h_t＝LSTM(x_t,h_t-1,m_t-1)

在上述方程(4)中，x_t是在时间t时的当前输入，以及m_t-1是在时间t-1时的之前存储器单元状态。

上下文向量c_t是神经编码器-解码器框架中的重要因素，因为它提供了字幕生成的视觉证据。对上下文向量建模的不同方式分为两类：vanilla编码器-解码器和基于注意力的编码器-解码器框架。首先，在vanilla框架中，上下文向量c_t仅取决于用作编码器的卷积神经网络(CNN)。将输入图像I馈送到CNN，CNN提取最后一个完全连接层作为全局图像特征。在生成的单词上，上下文向量c_t保持不变，并且不依赖于解码器的隐藏状态。

第二，在基于注意力的框架中，上下文向量c_t取决于编码器和解码器两者。在时间t，基于隐藏状态，解码器注意图像的特定区域，并使用来自CNN的卷积层的空间图像特征来确定上下文向量c_t。注意力模型可以显著提高图像标注的性能。

空间注意力模型

我们公开了一种用于图像标注的新颖的空间注意力模型，其与至少两个方面的先前工作不同。首先，我们的模型使用解码器LSTM的当前隐藏状态信息来引导注意力，而不是使用先前隐藏状态或先前发出的单词。其次，我们的模型为LSTM提供了时间不变的全局图像表示，而不是提供由注意力可变的图像表示的时间戳标记的进展。

我们的模型的注意力机制使用当前的而不是先前的隐藏状态信息来引导注意力，这需要不同的结构和不同的处理步骤。当前隐藏状态信息用于引导对图像区域的注意力并且在时间步长中生成注意力可变的图像表示。使用当前输入和先前隐藏状态信息，由解码器LSTM在每个时间步长计算当前隐藏状态信息。将来自LSTM的信息(当前隐藏状态)馈送到注意力机制，而不是将注意力机制的输出馈送到LSTM。

当前输入组合先前发出的一个或更多个单词与时间不变的全局图像表示(其由编码器CNN的图像特征确定)。馈送到解码器LSTM的第一当前输入单词是特殊的开始(<start>)标记。可以在第一时间步长中将全局图像表示馈送到LSTM一次，或者在接下来的时间步长处将其重复地馈送到LSTM。

空间注意力模型确定上下文向量c_t，其定义为：

c_t＝g(V,h_t)

在上面的方程(5)中，g是由图4的注意力器体现并实现的注意力函数，V＝[v₁,....v_k],v_i∈^d包括由图1的CNN编码器产生的图像特征v₁,...v_k。每个图像特征是对应于由CNN编码器产生的图像的一部分或区域的d维表示。h_t是在时间t处的LSTM解码器的当前隐藏状态，如图2B所示。

给定由CNN编码器产生的图像特征V∈^d×k和LSTM解码器的当前隐藏状态h_t∈^d，所公开的空间注意力模型通过注意力器softmax(图4)后面的比较器(图4)馈送它们，以在图像的k区域上产生注意力分布：

α_t＝softmax(z_t)

在上面的方程(6)和(7)中，1∈^k是一个单位向量，其中所有元素都设置为1。W_v、W_g∈^k×d以及W_h∈^k是被学习的参数。α∈^k是V中的图像特征v₁,...v_k上的注意力权重以及α_t表示包括注意力权重(在此也称为注意力概率质量)的注意力地图。如图4所示，比较器包括单层神经网络和非线性层来确定z_t。

基于注意力分布，通过凸组合累加器获得上下文向量c_t：

在上面的方程(8)中，如方程(3)中那样使用发射器组合c_t和h_t以预测下一个单词y_t。

如图4所示，注意力器包括比较器、注意力器softmax(在此也称为注意力概率质量产生器)和凸组合累加器(在此也称为上下文向量产生器或上下文产生器)。

编码器-CNN

图1示出了通过卷积神经网络(缩写为CNN)处理图像并且为图像的区域产生图像特征V＝[v₁,….v_k],v_i∈^d的编码器。在一个实现中，编码器CNN是预训练的ResNet。在这样的实现中，图像特征V＝[v₁,….v_k],v_i∈^d是ResNet的最后卷积层的空间特征输出。在一个实现中，图像特征V＝[v₁,….v_k],v_i∈^d具有2048×7×7的维度。在一个实现中，所公开的技术使用A＝{a₁,...a_k],a_i∈²⁰⁴⁸表示k个网格位置中的每个网格位置处的空间CNN特征。在此之后，在一些实现中，全局图像特征生成器产生全局图像特征，如下所述。

注意力滞后解码器-LSTM

与图2A不同，图2B示出了所公开的注意力滞后解码器，其使用当前隐藏状态信息h_t来引导注意力并生成图像字幕。注意力滞后解码器使用当前隐藏状态信息h_t来分析看向图像中的哪个位置，即，用于生成上下文向量c_t。然后，解码器组合h_t和c_t两个信息源以预测下一个单词。生成的上下文向量c_t体现了当前隐藏状态h_t的残差视觉信息，这减少了不确定性或补充了当前隐藏状态对下一个单词预测的信息性。由于解码器是循环的、基于LSTM的并且顺序操作，因此当前隐藏状态h_t体现了先前隐藏状态h_t-1和当前输入x_t，其形成当前视觉和语言上下文。注意力滞后解码器使用该当前视觉和语言上下文而不是陈旧的先前上下文(图2A)来注意图像。换句话说，在解码器确定当前视觉和语言上下文之后注意图像，即注意力滞后于解码器。这样可以产生更准确的图像字幕。

全局图像特征生成器

图3A描绘了全局图像特征生成器，其通过组合由图1的CNN编码器产生的图像特征来生成图像的全局图像特征。全局图像特征生成器首先产生初步全局图像特征，如下所示：

在上面的方程(9)中，a^g是对CNN编码器产生的图像特征求平均而确定的初步全局图像特征。为了便于建模，全局图像特征生成器使用具有整流器激活函数的单层感知器将图像特征向量转换为具有维度z d的新向量：

v_i＝ReLU(W_aa_i)

v^g＝ReLU(W_ba^g)

在上面的方程(10)和(11)中，W_a和W_b是权重参数。v^g是全局图像特征。全局图像特征v^g是不随时间变化的，因为它不是顺序或循环产生的，而是由非循环的卷积图像特征确定的。经变换的空间图像特征v_i形成图像特征V＝[v₁,….v_k],v_i∈^d。根据一个实现方式，图像特征的变换体现在全局图像特征生成器的图像特征整流器中并由其实现。根据一个实现方式，初步全局图像特征的变换体现在全局图像特征生成器的全局图像特征整流器中并由其实现。

单词嵌入器

图3B是在高维嵌入空间中对单词进行向量化的单词嵌入器。所公开的技术使用单词嵌入器来生成由解码器预测的词汇表单词的单词嵌入。w_t表示由解码器在时间t处预测的词汇表单词的单词嵌入。w_t-1表示由解码器在时间t-1处预测的词汇表单词的单词嵌入。在一个实现方式中，单词嵌入器使用嵌入矩阵E∈^d×|v|生成维度为d的单词嵌入w_t-1，其中ν表示词汇表的大小。在另一实现中，单词嵌入器首先将单词变换为独热(one-hot)编码，然后使用嵌入矩阵E∈^d×|v|将其转换为连续表示。在又一实现中，单词嵌入器使用诸如GloVe和word2vec之类的预训练的单词嵌入模型初始化单词嵌入，并获得词汇表中每个单词的固定单词嵌入。在其他实现中，单词嵌入器生成字符嵌入和/或短语嵌入。

输入准备器

图3C是准备输入并向解码器提供输入的输入准备器。在每个时间步长，输入准备器将单词嵌入向量w_t-1(由紧接在前一个时间步长的解码器预测)与全局图像特征向量v^g连接(concatenate)。连接w_t；v^g形成在当前时间步长t处馈送到解码器的输入x_t。w_t-1表示最近发出的字幕单词。输入准备器在此也称为连接器(concatenator)。

哨兵LSTM(Sn-LSTM)

长短期记忆(LSTM)是神经网络中的一个单元，其在时间步长中重复训练以从顺序输入中产生顺序输出。通常将输出称为隐藏状态，其不应与单元的内存混淆。输入是来自先前时间步长的隐藏状态和内存以及当前输入。该单元具有输入激活函数、内存和门。输入激活函数将输入映射到例如-1到1的范围，用于tanh激活函数。门确定应用于更新内存并从内存生成隐藏状态输出结果的权重。门是遗忘门、输入门和输出门。遗忘门会衰减(attenuate)内存。输入门将激活的输入与衰减的内存相混合。输出门控制来自内存的隐藏状态输出。隐藏状态输出可以直接标记输入，或者其可以由另一个组件处理以发出单词或其他标签或在标签上生成概率分布。

在与当前输入正交的意义上，可以将辅助输入添加到LSTM，辅助输入引入与当前输入不同类型的信息。添加这种不同类型的辅助输入可导致过度拟合和其他训练伪像。所公开的技术向LSTM单元架构添加新的门，除了隐藏状态输出之外，其还从内存产生第二哨兵状态输出。该哨兵状态输出用于控制后LSTM组件中的不同神经网络处理模型之间的混合。例如，视觉哨兵控制来自CNN的视觉特征的分析和来自预测语言模型的单词序列的分析之间的混合。产生哨兵状态输出的新的门称为“辅助哨兵门”。

辅助输入有助于LSTM内存中累积的辅助信息和哨兵输出。哨兵状态输出对累积的辅助信息的各部分进行编码，这些信息对下一个输出预测最有用。哨兵门调节当前输入，包括先前的隐藏状态和辅助信息，并将调节后的输入与更新的内存组合，以产生哨兵状态输出。包括辅助哨兵门的LSTM在本文中称为“哨兵LSTM(Sn-LSTM)”。

此外，在被积累在Sn-LSTM中之前，辅助信息经常受到“tanh”(双曲正切)函数，该函数产生-1和1范围内的输出(例如，跟随CNN的全连接层的tanh函数)。为了与辅助信息的输出范围一致，辅助哨兵门对Sn-LSTM的内存单元的逐点tanh进行门控。因此，选择tanh作为应用于Sn-LSTM的内存单元的非线性函数，因为它匹配存储的辅助信息的形式。

图8示出了所公开的哨兵LSTM(Sn-LSTM)的一种实现方式，其包括产生哨兵状态或视觉哨兵的辅助哨兵门。Sn-LSTM在多个时间步长中的每一个处接收输入。输入至少包括用于当前时间步长的输入x_t，来自先前时间步长的隐藏状态h_t-1，以及用于当前时间步长的辅助输入a_t。Sn-LSTM可以在众多并行处理器中的至少一个上运行。

在一些实现中，不单独提供辅助输入a_t，而是在先前隐藏状态h_t-1和/或输入x_t(诸如全局图像特征v^g)中编码为辅助信息。

辅助输入a_t可以是包括图像数据的视觉输入，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入a_t可以是来自输入文档的另一个长短期记忆网络(缩写为LSTM)的文本编码，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入a_t可以是来自另一个LSTM的隐藏状态向量，该LSTM对顺序数据进行编码，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入a_t可以是从来自另一个LSTM的隐藏状态向量导出的预测，该LSTM对顺序数据进行编码，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入a_t可以是卷积神经网络(缩写为CNN)的输出。辅助输入a_t可以是注意力网络的输出。

通过经由多个门处理输入，Sn-LSTM在多个时间步长的每一个处生成输出。多个门至少包括输入门、遗忘门、输出门和辅助哨兵门。每个门可以在众多并行处理器中的至少一个上运行。

输入门控制多少当前输入x_t和先前隐藏状态h_t-1将进入当前内存单元状态m_t并且表示为：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

＝σ(linear_xi(x_t)+linear_hi(h_t-1))

遗忘门对当前内存单元状态m_t和先前内存单元状态m_t-1进行操作，并决定是否擦除(设置为零)或保持内存单元的各个组件，并表示为：

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

输出门缩放来自内存单元的输出，并表示为：

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

Sn-LSTM还可以包括激活门(也称为单元更新门或输入变换门)，其将当前输入x_t和先前隐藏状态h_t-1转换为要考虑到当前内存单元状态m_t并且表示为：

g_t＝tanh(W_xgx_t+W_hgh_t-1+b_g)。

Sn-LSTM还可以包括当前隐藏状态产生器，其输出由当前内存单元状态m_t的tanh(压缩的)变换而缩放的当前隐藏状态h_t，并且表示为：

h_t＝o_t tanh(m_t)

在上面的方程中，表示逐元素的乘积。

内存单元更新器(图9)将Sn-LSTM的内存单元从先前内存单元状态m_t-1更新到当前内存单元状态m_t，如下：

m_t＝f_t m_t-1+i_t g_t

如上所述，辅助哨兵门产生哨兵状态或视觉哨兵，其是Sn-LSTM解码器已经知道的内容的潜在表示。Sn-LSTM解码器的内存存储长期和短期的视觉和语言信息。自适应注意力模型学习从Sn-LSTM中提取新组件，当模型选择不注意图像时，该模型可以回退。这个新组件称为视觉哨兵。决定是否注意图像或视觉哨兵的门是辅助哨兵门。

视觉和语言上下文信息存储在Sn-LSTM解码器的内存单元中。我们使用视觉哨兵向量s_t通过以下方式调制此信息：

aux_t＝σ(W_xauxx_t+W_hauxh_t-1+b_aux)

s_t＝aux_ttanh(m_t)

在上面的方程中，W_x和W_h是所学习的权重参数，x_t是在时间步长t处对Sn-LSTM的输入，并且aux_t是应用于当前内存单元状态m_t的辅助哨兵门。代表逐元素的乘积，σ是逻辑sigmoid激活。

在基于注意力的编码器-解码器文本摘要模型中，Sn-LSTM可以用作从另一个编码器LSTM接收辅助信息的解码器。编码器LSTM可以处理输入文档以产生文档编码。文档编码或文档编码的替代表示可以作为辅助信息馈送到Sn-LSTM。考虑到先前生成的摘要单词和先前隐藏状态，Sn-LSTM可以使用其辅助哨兵门来确定文档编码(或其替代表示)的哪些部分在当前时间步长中最重要。然后可以将文档编码(或其替代表示)的重要部分编码到哨兵状态中。哨兵状态可用于生成下一个摘要单词。

在基于注意力的编码器-解码器问答模型中，Sn-LSTM可以用作从另一个编码器LSTM接收辅助信息的解码器。编码器LSTM可以处理输入问题以产生问题编码。问题编码或问题编码的替代表示可以作为辅助信息馈送到Sn-LSTM。考虑到先前生成的回答单词和先前隐藏状态，Sn-LSTM可以使用其辅助哨兵门来确定问题编码(或其替代表示)的哪些部分在当前时间步长中最重要。然后可以将问题编码(或其替代表示)的重要部分编码到哨兵状态中。哨兵状态可用于生成下一个回答单词。

在基于注意力的编码器-解码器机器翻译模型中，Sn-LSTM可以用作从另一编码器LSTM接收辅助信息的解码器。编码器LSTM可以处理源语言序列以产生源编码。源编码或源编码的替代表示可以作为辅助信息馈送到Sn-LSTM。考虑到先前生成的翻译单词和先前隐藏状态，Sn-LSTM可以使用其辅助哨兵门来确定源编码(或其替代表示)的哪些部分在当前时间步长中最重要。然后可以将源编码(或其替代表示)的重要部分编码为哨兵状态中。哨兵状态可用于生成下一个翻译单词。

在基于注意力的编码器-解码器视频标注模型中，Sn-LSTM可以用作从包括CNN和LSTM的编码器接收辅助信息的解码器。编码器可以处理视频的视频帧以产生视频编码。视频编码或视频编码的替代表示可以作为辅助信息馈送到Sn-LSTM。考虑到先前生成的字幕单词和先前隐藏状态，Sn-LSTM可以使用其辅助哨兵门来确定视频编码(或其替代表示)的哪些部分在当前时间步长中最重要。然后可以将视频编码(或其替代表示)的重要部分编码到哨兵状态中。哨兵状态可用于生成下一个字幕单词。

在基于注意力的编码器-解码器图像标注模型中，Sn-LSTM可以用作从编码器CNN接收辅助信息的解码器。编码器可以处理输入图像以产生图像编码。可以将图像编码或图像编码的替代表示作为辅助信息馈送到Sn-LSTM。考虑到先前生成的字幕单词和先前隐藏状态，Sn-LSTM可以使用其辅助哨兵门来确定图像编码(或其替代表示)的哪些部分在当前时间步长中最重要。然后可以将图像编码(或其替代表示)的重要部分编码到哨兵状态中。哨兵状态可用于生成下一个字幕单词。

自适应注意力模型

如上所述，可以扩展长短期记忆(LSTM)解码器以通过注意目标图像的区域或特征以及调节所注意的图像特征上的单词预测来生成图像字幕。然而，注意图像只是故事的一半；知道什么时候看是另一半。也就是说，并非所有字幕单词都对应于视觉信号；从文本上下文中可以更好地推断出某些词，例如停止词和语言相关词。

现有的基于注意力的视觉神经编码器-解码器模型迫使视觉注意力对于每个生成的单词是活跃的。然而，解码器可能几乎不需要来自图像的视觉信息来预测诸如“the”和“of”的非视觉单词。通常可以通过语言模型可靠地预测看似视觉的其他词语，例如，在“behind a red stop”之后的“sign”或“talking on a cell”之后的“phone”。如果解码器需要生成复合词“stop sign”作为字幕，则只有“stop”需要访问图像，并且可以在语言上推断出“sign”。我们的技术指导视觉和语言信息的使用。

为了克服上述限制，我们公开了一种用于图像标注的新颖的自适应注意力模型，其混合来自卷积神经网络(CNN)的视觉信息和来自LSTM的语言信息。在每个时间步长中，与语言模型相比，我们的自适应注意力编码器-解码器框架可以自动决定依赖图像的程度，以发出下一个字幕单词。

图10描绘了所公开的用于图像标注的自适应注意力模型，与语言模型相比，自适应注意力模型自动地决定依赖于视觉信息的程度，以发出下一个字幕单词。图8的哨兵LSTM(Sn-LSTM)体现在作为解码器的自适应注意力模型中并由其实现。

如上所述，我们的模型将新的辅助哨兵门添加到LSTM架构。哨兵门在每个时间步长产生所谓的视觉哨兵/哨兵状态s_t，其是从Sn-LSTM的内存中导出的长期和短期视觉和语言信息的附加表示。视觉哨兵s_t编码可以语言模型依赖的信息，而不参考来自CNN的视觉信息。视觉哨兵s_t与来自Sn-LSTM的当前隐藏状态结合使用，以生成控制图像和语言上下文混合的哨兵门质量/门概率质量β_t。

例如，如图16所示，我们的模型在生成单词“white”，“bird”，“red”和“stop”时学会更多地注意图像，并且在生成单词“top”，“of”和“sign”时更依赖于视觉哨兵。

视觉密封解码器

图14是所公开的视觉密封解码器的一种实现方式，其处理纯语言信息并产生图像的字幕。图15示出了使用图14的视觉密封解码器的空间注意力模型以用于图像标注。在图15中，空间注意力模型跨越多个时间步长展开。或者，可以使用视觉密封解码器来处理纯语言信息w，其在图像标注期间不与图像数据混合。该替代的视觉密封解码器不接收全局图像表示作为输入。也就是说，对视觉密封解码器的当前输入仅是其最近发出的字幕单词w_t-1，并且初始输入仅是<start>标记。视觉密封解码器可以实现为LSTM、门控循环单元(GRU)或准循环神经网络(QRNN)。在应用注意力机制之后仍然发出具有该替代解码器的单词。

弱监督定位

所公开的技术还提供了评估图像标注模型的性能的系统和方法。所公开的技术使用卷积神经网络(缩写为CNN)编码器和长短期记忆(LSTM)解码器生成用于混合图像的图像区域向量的注意力值的空间注意力地图，并且基于空间注意力地图产生字幕单词输出。然后，所公开的技术将高于阈值注意力值的图像区域分割成分割地图。然后，所公开的技术在图像上投射边界框，该边界框覆盖分割地图中的最大连接的图像分量。然后，所公开的技术确定投射的边界框和地面实况(ground truth)边界框的交并比(缩写为IOU)。然后，所公开的技术基于所计算的IOU确定空间注意力地图的定位准确度。

所公开的技术在COCO数据集和Flickr30k数据集上的标准基准上实现了最新的性能。

特别实现

我们描述了基于视觉注意力的编码器-解码器图像标注模型的系统和各种实现。实现的一个或更多个特征可以与基础实现组合。可以教导组合不相互排斥的实现。实现的一个或更多个特征可以与其他实现组合。本公开定期提醒用户这些选项。不应将重复这些选项的一些实现的省略视为限制前面部分中教导的组合-这些记载通过引用结合到以下每个实现中。

在一个实现中，所公开的技术提出了一种系统。该系统包括耦合到存储器的许多并行处理器。存储器加载有计算机指令以生成图像的自然语言字幕。当在并行处理器上执行指令时，实现以下动作。

通过编码器处理图像以产生图像区域的图像特征向量并从图像特征向量确定全局图像特征向量。编码器可以是卷积神经网络(缩写为CNN)。

通过在初始时间步长处以字幕开始标记<start>和全局图像特征向量开始，并且在接下来的时间步长中使用最近发出的字幕单词w_t-1和全局图像特征向量作为解码器的输入而继续，而由解码器处理单词。解码器可以是长短期记忆网络(缩写为LSTM)。

在每个时间步长处，至少使用解码器的当前隐藏状态来确定图像特征向量的非归一化注意力值并且对注意力值进行指数归一化以产生注意力概率质量。

将注意力概率质量应用于图像特征向量以在图像上下文向量中累加图像特征向量的加权和。

将图像上下文向量和解码器的当前隐藏状态提交给前馈神经网络，并使前馈神经网络发出下一个字幕单词。前馈神经网络可以是多层感知器(缩写为MLP)。

重复通过解码器对单词的处理、所述使用、所述应用和所述提交，直到发出的字幕单词是字幕结尾标记<end>。迭代由控制器执行，如图25所示。

所公开的该系统实现和其他系统可选地包括以下特征中的一个或更多个。系统还可以包括结合所公开的方法描述的特征。为了简明起见，系统特征的替代组合不是单独列举的。对于每个法定类别的基本特征组，不重复适用于系统、方法和制品的特征。读者将理解本节中标识的特征如何能够与其他法定类别中的基本特征相结合。

该系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

可以基于解码器的当前输入和解码器的先前隐藏状态来确定解码器的当前隐藏状态。

图像上下文向量可以是动态向量，其以解码器的当前隐藏状态为条件在每个时间步长确定分配给每个图像区域的空间注意力的量。

系统可以使用弱监督定位来评估所分配的空间注意力。

可以通过经由单层神经网络处理图像特征向量和解码器的当前隐藏状态来确定图像特征向量的注意力值。

该系统可以使前馈神经网络在每个时间步长发出下一个字幕单词。在这样的实现中，前馈神经网络可以基于图像上下文向量和解码器的当前隐藏状态产生输出，并使用输出来确定词汇表中单词的词汇表概率质量的归一化分布，其表示词汇表单词是下一个字幕单词的相应可能性。

其他实现可以包括非暂时性计算机可读存储介质，其存储可由处理器执行以执行上述系统的动作的指令。

在另一实现中，所公开的技术提出了一种系统。该系统包括耦合到存储器的许多并行处理器。存储器加载有计算机指令以生成图像的自然语言字幕。当在并行处理器上执行指令时，实现以下动作。

使用注意力滞后解码器的当前隐藏状态信息来生成由编码器从图像中产生的图像特征向量的注意力地图，并基于图像特征向量的加权和生成输出字幕单词，其具有从注意力地图确定的权重。

在该特定实现部分中讨论的用于其他系统和方法实现的每个特征同样适用于该系统实现。如上所述，这里不重复所有其他特征，并且应该通过引用重复考虑。

系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

可以基于解码器的当前输入和先前隐藏状态信息来确定当前隐藏状态信息。

系统可以使用弱监督定位来评估注意力地图。

编码器可以是卷积神经网络(缩写为CNN)，并且图像特征向量可以由CNN的最后卷积层产生。

注意力滞后解码器可以是长短期记忆网络(缩写为LSTM)。

在又一实现中，所公开的技术提出了一种系统。该系统包括耦合到存储器的许多并行处理器。存储器加载有计算机指令以生成图像的自然语言字幕。当在并行处理器上执行时指令，实现以下动作。

通过编码器处理图像以产生图像区域的图像特征向量。编码器可以是卷积神经网络(缩写为CNN)。

通过在初始时间步长处以字幕开始标记<start>开始并且在接下来的时间步长中使用最近发出的字幕单词w_t-1作为解码器的输入而继续，而由解码器处理单词。解码器可以是长短期记忆网络(缩写为LSTM)。

在每个时间步长处，至少使用解码器的当前隐藏状态来从图像特征向量确定图像上下文向量，该图像上下文向量以解码器的当前隐藏状态为条件确定分配给图像区域的注意力的量。

不将图像上下文向量提供给解码器。

将图像上下文向量和解码器的当前隐藏状态提交给前馈神经网络并使前馈神经网络发出字幕单词。

重复通过解码器处理单词、所述使用、所述不提供和所述提交，直到发出的字幕单词是字幕结尾标记<end>。迭代由控制器执行，如图25所示。

在特定实现部分中讨论的用于其他系统和方法实现的每个特征同样适用于该系统实现。如上所述，这里不重复所有其他特征，并且应该通过引用重复考虑。

系统可以是计算机实现的系统。系统可以是基于神经网络的系统。

系统不向解码器提供全局图像特征向量，并通过在初始时间步长以字幕开始标记<start>开始并在接下来的时间步长中使用最近发出的字幕单词作为解码器的输入而继续，而由解码器处理单词。

在一些实现中，系统不将图像特征向量提供给解码器。

在又一实现中，所公开的技术提出了一种用于机器生成图像的自然语言字幕的系统。该系统在许多并行处理器上运行。该系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

该系统包括注意力滞后解码器。注意力滞后解码器可以在众多并行处理器中的至少一个上运行。

注意力滞后解码器至少使用当前隐藏状态信息来生成用于由编码器从图像产生的图像特征向量的注意力地图。编码器可以是卷积神经网络(缩写为CNN)，并且图像特征向量可以由CNN的最后卷积层产生。注意力滞后解码器可以是长短期记忆网络(缩写为LSTM)。

注意力滞后解码器基于图像特征向量的加权和来生成输出字幕单词，其中权重是从注意力地图确定的。

图6示出了所公开的用于跨多个时间步长展开的图像标注的空间注意力模型。图2B的注意力滞后解码器体现在空间注意力模型中并由其实现。所公开的技术呈现了图像到语言标注系统，其实现了图6的空间注意力模型，用于机器生成图像的自然语言字幕。该系统在许多并行处理器上运行。

该系统包括编码器(图1)，用于通过卷积神经网络(缩写为CNN)处理图像并产生图像区域的图像特征。编码器可以在众多并行处理器中的至少一个上运行。

该系统包括全局图像特征生成器(图3A)，用于通过组合图像特征来生成图像的全局图像特征。全局图像特征生成器可以在众多并行处理器中的至少一个上运行。

该系统包括输入准备器(图3C)，用于向解码器提供输入，该输入在初始解码器时间步长处为字幕开始标记<start>和全局图像特征的组合，以及在接下来的解码器时间步长处为最近邻发出的字幕单词w_t-1和全局图像特征的组合。输入准备器可以在众多并行处理器中的至少一个上运行。

该系统包括解码器(图2B)，用于通过长短期记忆网络(缩写为LSTM)处理输入，以在每个解码器时间步长处生成当前解码器隐藏状态。解码器可以在众多并行处理器中的至少一个上运行。

该系统包括注意力器(图4)，用于在每个解码器时间步长处累加图像上下文，作为由使用当前解码器隐藏状态确定的注意力概率质量缩放的图像特征的凸组合。注意力器可以在众多并行处理器中的至少一个上运行。图4描绘了作为图6中公开的空间注意力模型的一部分的注意力器的模块的一种实现。注意力器包括比较器、注意力器softmax(在此也称为注意力概率质量产生器)和凸组合累加器(在此也称为上下文向量产生器或上下文产生器)。

该系统包括前馈神经网络(这里也称为多层感知器(MLP))(图5)，用于处理图像上下文和当前解码器隐藏状态，以在每个解码器时间步长处发出下一个字幕单词。前馈神经网络可以在众多并行处理器中的至少一个上运行。

该系统包括控制器(图25)，用于迭代该输入准备器、解码器、注意力器和前馈神经网络，以生成图像的自然语言字幕，直到发出的下一个字幕单词为字幕结尾标记<end>为止。控制器可以在众多并行处理器中的至少一个上运行。

所述注意力器还可以包括注意力器softmax(图4)，用于指数地归一化注意力值z_t＝[λ₁,...λ_k]以在每个解码器时间步长处产生注意力概率质量α_t＝[α₁,...α_k]。注意力softmax可以在众多并行处理器中的至少一个上运行。

注意力器可以进一步包括比较器(图4)，用于在每个解码器时间步长处产生由于当前解码器隐藏状态h_t和图像特征V＝[v₁,….v_k],v_i∈^d之间的相互作用而引起的注意力值z_t＝[λ₁,...λ_k]。比较器可以在众多并行处理器中的至少一个上运行。在一些实现中，通过应用权重矩阵的单层神经网络和应用双曲正切(tanh)压缩函数(以产生-1和1之间的输出)的非线性层(图4)处理当前解码器隐藏状态h_t和图像特征V＝[v₁,….v_k],v_i∈^d来确定注意力值z_t＝[λ₁,...λ_k]。在一些实现中，通过点积器或内积器处理当前解码器隐藏状态h_t和图像特征V＝[v₁,….v_k],v_i∈^d来确定注意力值z_t＝[λ₁,...λ_k]。在其他实现中，通过双线性形式产生器处理当前解码器隐藏状态h_t和图像特征V＝[v₁,….v_k],v_i∈^d来确定注意力值z_t＝[λ₁,...λ_k]。

解码器还可以至少包括输入门、遗忘门和输出门，用于基于当前解码器输入和先前解码器隐藏状态在每个解码器时间步长处确定当前解码器隐藏状态。输入门、遗忘门和输出门均可以在众多并行处理器中的至少一个上运行。

注意力器还可以包括凸组合累加器(图4)，用于以当前解码器隐藏状态为条件产生图像上下文，以识别在每个解码器时间步长处分配给每个图像区域的空间注意力的量。凸组合累加器可以在众多并行处理器中的至少一个上运行。

该系统还可以包括定位器(图25)，用于基于弱监督定位来评估所分配的空间注意力。定位器可以在众多并行处理器中的至少一个上运行。

该系统可以进一步包括前馈神经网络(图5)，用于在每个解码器时间步长处基于图像上下文和当前解码器隐藏状态产生输出。

该系统还可以包括词汇表softmax(图5)，用于确定在每个解码器时间步长处使用输出的词汇中单词的词汇表概率质量的归一化分布。词汇表softmax可以在众多并行处理器中的至少一个上运行。词汇表概率质量可以识别词汇表单词是下一个字幕单词的相应可能性。

其他实现可以包括非暂时性计算机可读存储介质，存储可由处理器执行以执行上述系统的动作的指令。

图7描绘了使用由图6的空间注意力模型应用的空间注意力的图像标注的一种实现。在一个实现中，所公开的技术提出了一种执行图7的图像标注的方法，以进行机器生成图像的自然语言字幕。该方法可以是计算机实现的方法。该方法可以是基于神经网络的方法。

该方法包括通过编码器(图1)处理图像I以产生图像I的区域的图像特征向量V＝[v₁,….v_k],v_i∈^d，并从图像特征向量V＝[v₁,….v_k],v_i∈^d确定全局图像特征向量v^g。编码器可以是卷积神经网络(缩写为CNN)，如图1所示。

该方法包括通过在初始时间步长处以字幕开始标记<start>和全局图像特征向量开始，并且在接下来的时间步长处使用最近发出的字幕单词w_t-1和全局图像特征向量v^g作为解码器的输入而继续，由解码器(图2B和图6)处理单词。解码器可以是长短期记忆网络(缩写为LSTM)，如图2B和图6所示。

该方法包括，在每个时间步长处，至少使用所述解码器的当前隐藏状态h_t，来确定图像特征向量V＝[v₁,….v_k],v_i∈^d的非归一化的注意力值z_t＝[λ₁,...λ_k]以及指数地归一化所述注意力值以产生注意力概率质量α_t＝[α₁,...α_k]，其总和为一(1)(这里也称为注意力权重)。α_t表示包括注意力概率质量[α₁,...α_k]的注意力地图。

该方法包括将注意力概率质量[α₁,...α_k]应用于图像特征向量V＝[v₁,….v_k],v_i∈^d，以在图像上下文向量c_t中累加图像特征向量V＝[v₁,….v_k],v_i∈^d的加权和∑。

该方法包括将图像上下文向量c_t和解码器的当前隐藏状态h_t提交给前馈神经网络并使前馈神经网络发出下一个字幕单词w_t。前馈神经网络可以是多层感知器(缩写为MLP)。

该方法包括重复通过解码器处理单词、所述使用、所述应用和所述提交，直到发出的字幕单词是字幕结尾标记<end>。迭代由控制器执行，如图25所示。

在该特定实现部分中讨论的用于其他系统和方法实现的每个特征同样适用于该方法实现。如上所述，这里不重复所有其他特征，并且应该通过引用重复考虑。

其他实现可以包括非暂时性计算机可读存储介质(CRM)，其存储可由处理器执行以执行上述方法的指令。又一实现可以包括一种系统，该系统包括存储器和一个或更多个处理器，其可操作以执行存储在存储器中的指令，从而执行上述方法。

在另一实现中，所公开的技术提出了一种机器生成图像的自然语言字幕的方法。该方法可以是计算机实现的方法。该方法可以是基于神经网络的方法。

如图7所示，该方法包括使用注意力滞后解码器(图2B和图6)的当前隐藏状态信息h_t来从图像I生成用于由编码器(图1)产生的图像特征向量V＝[v₁,….v_k],v_i∈^d的注意力地图α_t＝[α₁,...α_k]，以及基于图像特征向量V＝[v₁,….v_k],v_i∈^d的加权和∑生成输出字幕单词w_t，其中从注意力地图α_t＝[α₁,...α_k]确定权重。

其他实现可以包括存储可由处理器执行以执行上述方法的指令的非暂时性计算机可读存储介质(CRM)。又一实现可以包括一种系统，该系统包括存储器和一个或更多个处理器，其可操作以执行存储在存储器中的指令，以执行上述方法。

在又一实现中，所公开的技术提出了一种机器生成图像的自然语言字幕的方法。该方法使用视觉密封LSTM。该方法可以是计算机实现的方法。该方法可以是基于神经网络的方法。

该方法包括通过编码器(图1)处理图像以产生图像I的k个区域的图像特征向量V＝[v₁,….v_k],v_i∈^d。编码器可以是卷积神经网络(缩写为CNN)。

该方法包括通过在初始时间步长处以字幕开始标记<start>开始，并在接下来的时间步长中使用最近发出的字幕单词w_t-1作为解码器的输入而继续，而由解码器处理单词。解码器可以是视觉密封的长短期记忆网络(缩写为LSTM)，如图14和图15所示。

该方法包括，在每个时间步长处，至少使用解码器的当前隐藏状态h_t，以从图像特征向量V＝[v₁,….v_k],v_i∈^d中确定图像上下文向量c_t，图像上下文向量c_t以解码器的当前隐藏状态h_t为条件确定分配给图像区域的注意力的量。

该方法包括不将图像上下文向量c_t提供给解码器。

该方法包括将图像上下文向量c_t和解码器的当前隐藏状态h_t提交给前馈神经网络并使前馈神经网络发出字幕单词。

该方法包括重复通过解码器处理单词所述使用、所述不提供和所述提交，直到发出的字幕单词是字幕结尾。

图12示出了所公开的用于跨多个时间步长展开的图像标注的自适应注意力模型。图8的哨兵LSTM(Sn-LSTM)体现在作为解码器的自适应注意力模型中并由其实现。图13示出了使用由图12的自适应注意力模型应用的自适应注意力的图像标注的一种实现方式。

在一个实现中，所公开的技术呈现了执行图12和图13的图像标注的系统。该系统包括耦合到存储器的许多并行处理器。存储器装载有计算机指令以自动为图像添加字幕。当在并行处理器上执行指令时，实现以下动作。

混合∑图像编码器(图1)和语言解码器(图8)的结果，以发射输入图像I的字幕单词序列。混合由从语言解码器的视觉哨兵向量s_t和语言解码器的当前隐藏状态向量h_t确定的门概率质量/哨兵门质量β_t控制。图像编码器可以是卷积神经网络(缩写为CNN)。语言解码器可以是哨兵长短期记忆网络(缩写为Sn-LSTM)，如图8和图9所示。语言解码器可以是哨兵双向长短期记忆网络(缩写为Sn-Bi-LSTM)。语言解码器可以是哨兵门控循环单元网络(缩写为Sn-GRU)。语言解码器可以是哨兵准循环神经网络(缩写为Sn-QRNN)。

通过图像编码器处理图像I以产生图像I的k个区域的图像特征向量V＝[v₁,….v_k],v_i∈^d来确定图像编码器的结果，并从图像特征向量V＝[v₁,….v_k],v_i∈d计算全局图像特征向量v^g。

通过语言解码器处理单词来确定语言解码器的结果。这包括-(1)在初始时间步长处以字幕开始标记<start>和全局图像特征向量v^g开始，(2)在接下来的时间步长处使用最近发出的字幕单词w_t-1和全局图像特征向量v^g作为到语言解码器的输入而继续，以及(3)在每个时间步长处，生成视觉哨兵向量s_t，其组合最近发出的字幕单词w_t-1，全局图像特征向量v^g，语言解码器的先前隐藏状态向量h_t-1和语言解码器的内存内容m_t。

在每个时间步长处，至少使用语言解码器的当前隐藏状态向量h_t来确定图像特征向量V＝[v₁,….v_k],v_i∈^d的非归一化的注意力值[λ₁,...λ_k]和视觉哨兵向量s_t的非归一化的门值[η_t]。

连接非归一化的注意力值[λ₁,...λ_k]和非归一化的门值[η_t]，并对连接的注意力值和门值进行指数归一化，以产生注意力概率质量[α₁,...α_k]和门概率质量/哨兵门质量β_t的向量。

将注意力概率质量[α₁,...α_k]应用于图像特征向量V＝[v₁,….v_k],v_i∈^d以在图像上下文向量c_t中累加图像特征向量V＝[v₁,….v_k],v_i∈^d的加权和∑。上下文向量c_t的生成体现在自适应注意力器的空间注意力器中并由其实现，如图11和图13所示。

根据门概率质量/哨兵门质量β_t确定自适应上下文向量作为图像上下文向量c_t和视觉哨兵向量s_t的混合。自适应上下文向量的生成体现在自适应注意力器的混合器中并由其实现，如图11和图13所示。

将自适应上下文向量和语言解码器的当前隐藏状态提交给前馈神经网络，并使前馈神经网络发出下一个字幕单词。前馈神经网络体现在发射器中并由发射器实现，如图5所示。

重复通过语言解码器处理单词、所述使用、所述连接、所述应用、所述确定和所述提交，直到发出的下一个字幕单词是字幕结尾标记<end>。迭代由控制器执行，如图25所示。

可以将时间步长t处的自适应上下文向量确定为其中表示自适应上下文向量，c_t表示图像上下文向量，s_t表示视觉哨兵向量，β_t表示门概率质量/哨兵门质量，以及(1-β_t)表示下一个字幕单词的视觉落地概率。

视觉哨兵向量s_t可以编码视觉哨兵信息，其包括从全局图像特征向量v^g确定的视觉上下文和从先前发出的字幕单词确定的文本上下文。

门概率质量/哨兵门质量/哨兵门质量β_t是1(unity)可导致自适应上下文向量c_t等于视觉哨兵向量s_t。在这样的实现中，仅根据视觉哨兵信息发出下一个字幕单词w_t。

图像上下文向量c_t可以编码以语言解码器的当前隐藏状态向量h_t为条件的空间图像信息。

门概率质量/哨兵门质量β_t为零可导致自适应上下文向量等于图像上下文向量c_t。在这样的实现中，仅根据空间图像信息发出下一个字幕单词w_t。

门概率质量/哨兵门质量β_t可以是1和0之间的标量值，其在下一个字幕单词w_t是视觉单词时增强，并且当下一个字幕单词w_t是非视觉单词或在语言上与先前发出的字幕单词w_t-1相关时减少。

该系统可以进一步包括训练器(图25)，该训练器又包括防止器(图25)。在下一个字幕单词是非视觉单词或与先前发出的字幕单词语言上相关时，防止器在训练期间防止梯度从语言解码器反向传播到图像编码器。训练器和防止器都可以在众多并行处理器中的至少一个上运行。

在一个实现中，所公开的技术提出了一种自动图像标注的方法。该方法可以是计算机实现的方法。该方法可以是基于神经网络的方法。

该方法包括混合∑图像编码器(图1)和语言解码器(图8和9)的结果以发出输入图像I的字幕单词序列。混合在图11的自适应注意力器的混合器中体现并由其实现。混合由从语言解码器的视觉哨兵向量和语言解码器的当前隐藏状态向量确定的门概率质量(在此也称为哨兵门质量)控制。图像编码器可以是卷积神经网络(缩写为CNN)。语言解码器可以是哨兵长短期记忆网络(缩写为Sn-LSTM)。语言解码器可以是哨兵双向长短期记忆网络(缩写为Sn-Bi-LSTM)。语言解码器可以是哨兵门控循环单元网络(缩写为Sn-GRU)。语言解码器可以是哨兵准循环神经网络(缩写为Sn-QRNN)。

该方法包括通过图像编码器处理图像以产生图像区域的图像特征向量来确定图像编码器的结果，并从图像特征向量计算全局图像特征向量。

该方法包括通过语言解码器处理单词来确定语言解码器的结果。这包括-(1)在初始时间步长处以字幕开始标记<start>和全局图像特征向量开始，(2)在接下来的时间步长中使用最近发出的字幕单词w_t-1和全局图像特征向量作为语言解码器的输入而继续，以及(3)在每个时间步长处，生成视觉哨兵向量，其组合最近发出的字幕单词w_t-1，全局图像特征向量，语言解码器的先前隐藏状态向量和语言解码器的内存内容。

该方法包括在每个时间步长处至少使用语言解码器的当前隐藏状态向量来确定图像特征向量的非归一化注意力值和视觉哨兵向量的非归一化门值。

该方法包括连接非归一化的注意力值和非归一化的门值，并且对连接的注意力值和门值进行指数归一化，以产生注意力概率质量和门概率质量/哨兵门质量的向量。

该方法包括将注意力概率质量应用于图像特征向量，以在图像上下文向量c_t中累加图像特征向量的加权和。

该方法包括根据门概率质量/哨兵门质量β_t将自适应上下文向量确定为图像上下文向量和视觉哨兵向量s_t的混合。

该方法包括将自适应上下文向量和语言解码器的当前隐藏状态h_t提交给前馈神经网络(MLP)并使前馈神经网络发出下一个字幕单词w_t。

该方法包括重复通过语言解码器对单词的处理所述使用、所述连接、所述应用、所述确定和所述提交，直到发出的下一个字幕单词是字幕结束标记<end>。迭代由控制器执行，如图25所示。

在另一实现中，所公开的技术提出了一种自动图像标注系统。该系统在许多并行处理器上运行。

该系统包括卷积神经网络(缩写为CNN)编码器(图11)。CNN编码器可以在众多并行处理器中的至少一个上运行。CNN编码器通过一个或更多个卷积层处理输入图像，以生成表示图像的图像区域的图像特征。

该系统包括哨兵长短期记忆网络(缩写为Sn-LSTM)解码器(图8)。Sn-LSTM解码器可以在众多并行处理器中的至少一个上运行。Sn-LSTM解码器处理先前发出的字幕单词以及图像特征，以在接下来的时间步长上发出字幕单词序列。

该系统包括自适应注意力器(图11)。自适应注意力器可以在众多并行处理器中的至少一个上运行。在每个时间步长中，自适应注意力器在空间上注意图像特征并产生以Sn-LSTM解码器的当前隐藏状态为条件的图像上下文。然后，在每个时间步长中，自适应注意力器从Sn-LSTM解码器中提取视觉哨兵，该视觉哨兵包括从先前处理的图像特征确定的视觉上下文和从先前发出的字幕单词确定的文本上下文。然后，在每个时间步长中，自适应注意力器将图像上下文c_t和视觉哨兵s_t混合用于发出下一个字幕词w_t。混合由从视觉哨兵s_t和Sn-LSTM解码器的当前隐藏状态h_t确定的哨兵门质量β_t控制。

当下一个字幕单词是视觉单词时，自适应注意力器(图11)增强了针对图像上下文的注意力，如图16、图18和图19所示。当下一个字幕单词是非视觉单词或与先前发出的字幕词语言上相关时，自适应注意力器(图11)增强了针对视觉哨兵的注意力，如图16、图18和图19所示。

该系统还可包括训练器，该训练器又包括防止器。在下一个字幕单词是非视觉单词或与先前发出的字幕单词语言上相关时，防止器在训练期间防止梯度从Sn-LSTM解码器反向传播到CNN编码器。训练器和防止器都可以在众多并行处理器中的至少一个上运行。

其他实现可以包括存储可由处理器执行以执行上述系统的动作的指令的非暂时性计算机可读存储介质。

在又一实现中，所公开的技术呈现了自动图像标注系统。该系统在许多并行处理器上运行。该系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

该系统包括图像编码器(图1)。图像编码器可以在众多并行处理器中的至少一个上运行。图像编码器通过卷积神经网络(缩写为CNN)处理输入图像以生成图像表示。

该系统包括语言解码器(图8)。语言解码器可以在众多并行处理器中的至少一个上运行。语言解码器通过循环神经网络(缩写为RNN)处理先前发出的字幕单词以及图像表示，以发出字幕单词序列。

该系统包括自适应注意力器(图11)。自适应注意力器可以在众多并行处理器中的至少一个上运行。当下一个字幕单词是视觉单词时，自适应注意力器增强了针对图像表示的注意力。当下一个字幕词是非视觉单词或与先前发出的字幕单词语言上相关时，自适应注意力器增强了针对语言解码器的内存内容的注意力。

在又一实现方式中，所公开的技术提出了一种自动图像标注系统。该系统在许多并行处理器上运行。该系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

该系统包括哨兵门质量/门概率质量β_t。哨兵门质量可以在众多并行处理器中的至少一个上运行。哨兵门质量控制图像表示和语言解码器的内存内容的累积以用于下一字幕单词的发出。从语言解码器的视觉哨兵和语言解码器的当前隐藏状态确定哨兵门质量。

在一个进一步的实现中，所公开的技术提出了一种使任务自动进行的系统。该系统在许多并行处理器上运行。该系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

该系统包括编码器。编码器可以在众多并行处理器中的至少一个上运行。编码器通过至少一个神经网络处理输入以生成经编码的表示。

该系统包括解码器。解码器可以在众多并行处理器中的至少一个上运行。解码器通过至少一个神经网络处理与编码表示相结合的先前发出的输出，以发出输出序列。

该系统包括自适应注意力器。自适应注意力器可以在众多并行处理器中的至少一个上运行。自适应注意力器使用哨兵门质量来混合经编码的表示和解码器的内存内容以发出下一输出。从解码器的内存内容和解码器的当前隐藏状态确定哨兵门质量。哨兵门质量可以在众多并行处理器中的至少一个上运行。

在一个实现中，当任务是文本摘要时，系统包括作为编码器的第一循环神经网络(缩写为RNN)，其处理输入文档以生成文档编码，和作为解码器的第二RNN，其使用该文档编码以发出摘要单词序列。

在一个其他实现中，当任务是问答时，系统包括作为编码器的第一RNN，其处理输入问题以生成问题编码，和作为解码器的第二RNN，其使用问题编码来发出回答单词序列。

在另一实现中，当任务是机器翻译时，系统包括作为编码器的第一RNN，其处理源语言序列以生成源编码，以及作为解码器的第二RNN，其使用源编码来发出翻译单词的目标语言序列。

在又一实现中，当任务是视频标注时，该系统包括卷积神经网络(缩写为CNN)和作为编码器的第一RNN的组合(其处理视频帧以生成视频编码)和作为解码器的第二RNN(其使用视频编码发出字幕单词序列)。

在又一实现方式中，当任务是图像标注时，系统包括作为编码器的CNN，其处理输入图像以生成图像编码，和作为解码器的RNN，其使用图像编码来发出字幕单词序列。

系统可以从经编码的表示确定输入的替代表示。然后，系统可以使用替代表示而不是经编码的表示，由解码器处理并由自适应注意力器进行混合。

替代表示可以是以解码器的当前隐藏状态为条件的经编码的表示的加权摘要。

替代表示可以是经编码的表示的平均摘要。

在另一个实现中，所公开的技术提出了一种用于机器生成输入图像I的自然语言字幕的系统。该系统在许多并行处理器上运行。该系统可以是计算机实现的系统。该系统可以是基于神经网络的系统。

图10描绘了所公开的用于图像标注的自适应注意力模型，其自动地决定与语言信息相比依赖于视觉信息的程度，以发出下一个字幕单词。图8的哨兵LSTM(Sn-LSTM)体现在作为解码器的自适应注意力模型中并由其实现。图11描绘了自适应注意力器的模块的一种实现方式，其是图12中公开的自适应注意力模型的一部分。自适应注意力器包括空间注意力器、提取器、哨兵门质量确定器、哨兵门质量softmax和混合器(在此也称为自适应上下文向量产生器或自适应上下文产生器)。空间注意力器又包括自适应比较器、自适应注意力器softmax和自适应凸组合累加器。

该系统包括卷积神经网络(缩写为CNN)编码器(图1)，用于通过一个或更多个卷积层处理输入图像以生成表示图像I的k个图像区域的图像特征V＝[v₁,….v_k],v_i∈^d。CNN编码器可以在众多并行处理器中的至少一个上运行。

该系统包括哨兵长短期记忆网络(缩写为Sn-LSTM)解码器(图8)，用于处理与图像特征组合的先前发出的字幕单词，以在每个解码器时间步长处产生Sn-LSTM解码器的当前隐藏状态h_t。Sn-LSTM解码器可以在众多并行处理器中的至少一个上运行。

该系统包括自适应注意力器，如图11所示。自适应注意力器可以在众多并行处理器中的至少一个上运行。自适应注意力器还包括空间注意力器(图11和图13)，用于在每个解码器时间步长处空间地注意图像特征V＝[v₁,….v_k],v_i∈^d，以产生以Sn-LSTM解码器的当前隐藏状态h_t为条件的图像上下文c_t。自适应注意力器还包括提取器(图11和图13)，用于从Sn-LSTM解码器在每个解码器时间步长处提取视觉哨兵s_t。视觉哨兵s_t包括从先前处理的图像特征确定的视觉上下文和从先前发出的字幕单词确定的文本上下文。自适应注意力器还包括混合器(图11和图13)，用于混合∑图像上下文c_t和视觉哨兵s_t以在每个解码器时间步长处产生自适应上下文混合由从视觉哨兵s_t和Sn-LSTM解码器的当前隐藏状态h_t确定的哨兵门质量β_t控制。空间注意力器、提取器和混合器都可以在众多并行处理器中的至少一个上运行。

该系统包括发射器(图5和图13)，用于基于混合器在连续的解码器时间步长处产生的自适应上下文为输入图像I生成自然语言字幕。发射器可以在众多并行处理器中的至少一个上运行。

Sn-LSTM解码器还可以包括辅助哨兵门(图8)，用于在每个解码器时间步长处产生视觉哨兵s_t。辅助哨兵门可以在众多并行处理器中的至少一个上运行。

自适应注意力器还可以包括哨兵门质量softmax(图11和图13)，用于指数地归一化图像特征的注意力值[λ₁,...λ_k]和视觉哨兵的门值[η_t]，以在每个解码器的时间步长处产生注意力概率质量[α₁,...α_k]的自适应序列φ和哨兵门质量β_t。哨兵门质量softmax可以在众多并行处理器中的至少一个上运行。

自适应序列可以确定为：

在上面的方程中，[；]表示连接，W_s和W_g是权重参数。W_g可以是方程(6)中相同的权重参数。是空间图像特征V＝[v₁,….v_k],v_i∈^d以及视觉哨兵向量s_t上的注意力分布。在一个实现中，自适应序列的最后一个元素是哨兵门质量β_t＝α_t[k+1]。

可以通过发射器的词汇分类器(图5)确定在时间t处可能的单词的词汇的概率，如下：

在上面的方程中，W_p是所学习的权重参数。

自适应注意力器还可以包括哨兵门质量确定器(图11和图13)，用于由于当前解码器隐藏状态h_t和视觉哨兵s_t之间的相互作用而在每个解码器时间步长处产生哨兵门质量β_t。哨兵门质量β_t确定器可以在众多并行处理器中的至少一个上运行。

空间注意力器还可以包括自适应比较器(图11和图13)，用于由于当前解码器隐藏状态h_t和图像特征V＝[v₁,….v_k],v_i∈^d之间的相互作用的结果而在每个解码器的时间步长处产生注意力值[λ₁,...λ_k]。自适应比较器可以在众多并行处理器中的至少一个上运行。在一些实现中，通过由应用权重矩阵的单层神经网络和应用双曲正切(tanh)压缩函数(以产生-1和1之间的输出)的非线性层处理当前解码器隐藏状态h_t、图像特征＝[v₁,….v_k],v_i∈^d和哨兵状态向量s_t，来确定注意力值和门值[λ₁,...λ_k,η_t]。在其他实现中，在一些实现中，通过由点积器或内积器处理当前解码器隐藏状态h_t、图像特征V＝[v₁,….v_k],v_i∈^d和哨兵状态向量s_t，来确定注意力值和门值[λ₁,...λ_k,η_t]。在其他实现中，通过由双线性形式产生器处理当前解码器隐藏状态h_t、图像特征V＝[v₁,….v_k],v_i∈^d以及哨兵状态向量s_t，来确定注意力值和门值[λ₁,...λ_k,η_t]。

空间注意力器还可以包括自适应注意力器softmax(图11和图13)，用于指数地归一化图像特征的注意力值，以在每个解码器时间步长处产生注意力概率质量。自适应注意力器softmax可以在众多并行处理器中的至少一个上运行。

空间注意力器还可以包括自适应凸组合累加器(这里也称为混合器或自适应上下文产生器或自适应上下文向量产生器)(图11和图13)，用于在每个解码器时间步长处将图像上下文累加为图像特征的凸组合，其由使用当前解码器隐藏状态确定的注意力概率质量来缩放。哨兵门质量可以在众多并行处理器中的至少一个上运行。

该系统可以进一步包括训练器(图25)。训练器还包括防止器，用于当下一个字幕单词是非视觉单词或与先前发出的字幕单词语言上相关时，防止梯度从Sn-LSTM解码器反向传播到CNN编码器。训练器和防止器都可以在众多并行处理器中的至少一个上运行。

自适应注意力器还包括哨兵门质量/门概率质量β_t，用于当下一个字幕单词是视觉单词时增强针对图像上下文的注意力。自适应注意力器还包括哨兵门质量/门概率质量β_t，用于当下一个字幕单词是非视觉单词或与先前发出的字幕单词语言上相关时增强针对视觉哨兵的注意力。哨兵门质量可以在众多并行处理器中的至少一个上运行。

在一个实现中，所公开的技术提出了一种循环神经网络系统(缩写为RNN)。RNN在许多并行处理器上运行。RNN可以是计算机实现的系统。

RNN包括哨兵长短期记忆网络(缩写为Sn-LSTM)，其在多个时间步长中的每一个处接收输入。输入至少包括用于当前时间步长的输入，来自先前时间步长的隐藏状态，以及用于当前时间步长的辅助输入。Sn-LSTM可以在众多并行处理器中的至少一个上运行。

RNN通过经由Sn-LSTM的门处理输入来在多个时间步长中的每一个处生成输出。门至少包括输入门、遗忘门、输出门和辅助哨兵门。每个门可以在众多并行处理器中的至少一个上运行。

RNN将来自以下的随时间累加的辅助信息存储在Sn-LSTM的内存单元中：(1)由输入门、遗忘门和输出门处理输入和(2)更新具有由输入门、遗忘门和输出门产生的门输出的内存单元。可以维持内存单元并将其保存在数据库中(图9)。

辅助哨兵门调制来自内存单元的存储的辅助信息以用于下一预测。调制以当前时间步长的输入、前一时间步长的隐藏状态和当前时间步长的辅助输入为条件。

辅助输入可以是包括图像数据的视觉输入，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入可以是来自输入文档的另一个长短期记忆网络(缩写为LSTM)的文本编码，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入可以是来自另一个LSTM的隐藏状态向量，该LSTM对哨兵数据进行编码，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入可以是从来自另一个LSTM的隐藏状态向量导出的预测，该LSTM对哨兵数据进行编码，并且输入可以是最近发出的单词和/或字符的文本嵌入。辅助输入可以是卷积神经网络(缩写为CNN)的输出。辅助输入可以是注意力网络的输出。

预测可以是分类标签嵌入。

Sn-LSTM还可以配置成在时间步长处接收多个辅助输入，其中至少一个辅助输入包括连接的向量。

只能在初始时间步长处接收辅助输入。

辅助哨兵门可以在每个时间步长处产生哨兵状态，作为经调制的辅助信息的指示符。

输出可以至少包括用于当前时间步长的隐藏状态和用于当前时间步长的哨兵状态。

RNN还可以配置成至少使用当前时间步长的隐藏状态和当前时间步长的哨兵状态来进行下一次预测。

输入还可以包括偏置输入和内存单元的先前状态。

Sn-LSTM还可以包括输入激活函数。

辅助哨兵门可以门控内存单元的逐点双曲正切(缩写为tanh)。

当前时间步长t处的辅助哨兵门可以定义为aux_t＝σ(W_xx_t+W_hh_t-1)，其中W_x和W_h是要学习的权重参数，x_t是当前时间步长的输入，aux_t是应用于内存单元m_t的辅助哨兵门，表示逐元素的乘积，以及σ表示符号逻辑sigmoid激活。

将当前时间步长t处的哨兵状态/视觉哨兵定义为S_t＝aux_ttanh(m_t)，其中s_t是哨兵状态，aux_t是应用于内存单元m_t的辅助哨兵门，代表逐元素的乘积，且tanh表示双曲正切激活。

在另一实现中，所公开的技术呈现了一种哨兵长短期记忆网络(缩写为Sn-LSTM)，其处理与输入和先前隐藏状态组合的辅助输入。Sn-LSTM可在众多并行处理器上运行。Sn-LSTM可以是计算机实现的系统。

Sn-LSTM包括辅助哨兵门，其应用在Sn-LSTM的内存单元上并在下一预测期间调制辅助信息的使用。辅助信息至少根据处理与输入和先前隐藏状态组合的辅助输入在内存单元中随时间累加。辅助哨兵门可以在众多并行处理器中的至少一个上运行。可以将内存单元维持并保存在数据库中(图9)。

辅助哨兵门可以在每个时间步长处产生哨兵状态，作为经调制的辅助信息的指示符，其以当前时间步长的输入、来自先前时间步长的隐藏状态，以及当前时间步长的辅助输入为条件。

辅助哨兵门可以对内存单元的逐点双曲正切(缩写为tanh)进行门控。

在又一实现中，所公开的技术提出了一种扩展长短期记忆网络(缩写为LSTM)的方法。该方法可以是计算机实现的方法。该方法可以是基于神经网络的方法。

该方法包括扩展长短期记忆网络(缩写为LSTM)以包括辅助哨兵门。辅助哨兵门应用于LSTM的内存单元，并在下一次预测期间调制辅助信息的使用。辅助信息至少根据处理与当前输入和先前隐藏状态组合的辅助输入在内存单元中随时间累积。

辅助哨兵门可以在每个时间步长处产生哨兵状态，作为经调制的辅助信息的指示符，其以当前时间步长的输入、来自先前时间步长的隐藏状态以及当前时间步长的辅助输入为条件。

在一个进一步的实现中，所公开的技术提出了用于机器生成图像的自然语言字幕的循环神经网络系统(缩写为RNN)。RNN在许多并行处理器上运行。RNN可以是计算机实现的系统。

RNN包括输入提供器(图9)，用于在接下来的时间步长上向哨兵长短期记忆网络(缩写为Sn-LSTM)提供多个输入。输入至少包括用于当前时间步长的输入、来自先前时间步长的隐藏状态，以及用于当前时间步长的辅助输入。输入提供器可以在众多并行处理器中的至少一个上运行。

RNN包括门处理器(图9)，用于处理通过Sn-LSTM的多个门中的每个门的输入。门至少包括输入门(图8和图9)、遗忘门(图8和图9)，输出门(图8和图9)以及辅助哨兵门(图8和图9)。门处理器可以在众多并行处理器中的至少一个上运行。每个门可以在众多并行处理器中的至少一个上运行。

RNN包括Sn-LSTM的内存单元(图9)，用于存储通过由门处理器处理输入而随时间累积的辅助信息。可以将内存单元维持并保存在数据库中(图9)。

RNN包括内存单元更新器(图9)，用于用由输入门(图8和图9)、遗忘门(图8和图9)以及输出门(图8和图9)产生的门输出来更新内存单元。内存单元更新器可以在众多并行处理器中的至少一个上运行。

RNN包括辅助哨兵门(图8和图9)，用于调制来自内存单元的存储的辅助信息，以在每个时间步长处产生哨兵状态。调制以当前时间步长的输入、前一时间步长的隐藏状态和当前时间步长的辅助输入为条件。

RNN包括发射器(图5)，用于基于辅助哨兵门在接下来的时间步长处产生的哨兵状态来生成图像的自然语言字幕。发射器可以在众多并行处理器中的至少一个上运行。

辅助哨兵门可以进一步包括辅助非线性层(图9)，用于在预定范围内压缩处理输入的结果。辅助非线性层可以在众多并行处理器中的至少一个上运行。

Sn-LSTM还可以包括内存非线性层，用于将非线性应用于内存单元的内容(图9)。存储器非线性层可以在众多并行处理器中的至少一个上运行。

Sn-LSTM还可以包括哨兵状态产生器(图9)，用于将来自辅助哨兵门的压缩结果与内存单元的非线性化内容组合以产生哨兵状态。哨兵状态产生器可以在众多并行处理器中的至少一个上运行。

输入提供器(图9)可以提供辅助输入，该辅助输入是包括图像数据的视觉输入，并且输入是最近发出的单词和/或字符的文本嵌入。输入提供器(图9)可以提供辅助输入，该辅助输入是来自输入文档的另一长短期记忆网络(缩写为LSTM)的文本编码，并且输入是最近发出的单词和/或字符的文本嵌入。输入提供器(图9)可以提供辅助输入，该辅助输入是来自对序列数据进行编码的另一LSTM的隐藏状态，并且输入是最近发出的单词和/或字符的文本嵌入。输入提供器(图9)可以提供辅助输入，该辅助输入是从来自对序列数据进行编码的另一LSTM的隐藏状态导出的预测，并且输入是最近发出的单词和/或字符的文本嵌入。输入提供器(图9)可以提供辅助输入，该辅助输入是卷积神经网络(缩写为CNN)的输出。输入提供器(图9)可以提供作为注意力网络的输出的辅助输入。

输入提供器(图9)还可以在时间步长处向Sn-LSTM提供多个辅助输入，其中至少一个辅助输入还包括连接的特征。

Sn-LSTM还可包括激活门(图9)。

本申请使用可互换的短语“视觉哨兵”，“哨兵状态”，“视觉哨兵向量”和“哨兵状态向量”。视觉哨兵向量可以表示、识别和/或体现视觉哨兵。哨兵状态向量可以表示、识别和/或体现哨兵状态。本申请使用可互换的短语“哨兵门”和“辅助哨兵门”。

本申请使用可互换的短语“隐藏状态”，“隐藏状态向量”和“隐藏状态信息”。隐藏状态向量可以表示、识别和/或体现隐藏状态。隐藏状态向量可以表示、识别和/或体现隐藏状态信息。

本申请使用可互换的单词“输入”，短语“当前输入”和短语“输入向量”。输入向量可以表示、识别和/或体现输入。输入向量可以表示、识别和/或体现当前输入。

本申请可互换地使用单词“时间”和“时间步长”。

本申请可互换地使用短语“内存单元状态”，“内存单元向量”和“内存单元状态向量”。内存单元向量可以表示、识别和/或体现内存单元状态。内存单元状态向量可以表示、识别和/或体现内存单元状态。

本申请可互换地使用短语“图像特征”、“空间图像特征”和“图像特征向量”。图像特征向量可以表示、识别和/或体现图像特征。图像特征向量可以表示、识别和/或体现空间图像特征。

本申请可互换地使用短语“空间注意力地图”，“图像注意力地图”和“注意力地图”。

本申请可互换地使用短语“全局图像特征”和“全局图像特征向量”。全局图像特征向量可以表示、识别和/或体现全局图像特征。

本申请可互换地使用短语“单词嵌入”和“单词嵌入向量”。单词嵌入向量可以表示、识别和/或体现单词嵌入。

本申请可互换地使用短语“图像上下文”，“图像上下文向量”和“上下文向量”。图像上下文向量可以表示、识别和/或体现图像上下文。上下文向量可以表示、识别和/或体现图像上下文。

本申请可互换地使用短语“自适应图像上下文”，“自适应图像上下文向量”和“自适应上下文向量”。自适应图像上下文向量可以表示、识别和/或体现自适应图像上下文。自适应上下文向量可以表示、识别和/或体现自适应图像上下文。

本申请可互换地使用短语“门概率质量”和“哨兵门质量”。

结果

图17示出了字幕中的特定单词的一些示例字幕和空间注意力地图。可以看出，我们学习了与人类直觉相符的对齐方式。即使在生成错误字幕的示例中，模型也会查看图像中的合理区域。

图18示出了由我们的模型生成的一些示例图像字幕、逐单词的视觉落地概率和对应的图像/空间注意力地图的可视化。该模型成功地学习了注意图像的程度并相应地调整了注意力。例如，对于诸如“of”和“a”的非视觉单词，模型较少注意图像。对于像“red(红色)”，“rose(玫瑰)”，“doughnuts(甜甜圈)”，“woman(女人)”和“snowboard(滑雪板)”这样的视觉词语，我们的模型分配了高视觉落地概率(超过0.9)。注意，当在不同的上下文中生成时，可以为相同的单词分配不同的视觉落地概率。例如，单词“a”通常在句子的开头具有高的视觉落地概率，因为没有任何语言上下文，模型需要视觉信息来确定多个(或没有)。另一方面，短语“on a table(在一桌子上)”的“a”的视觉落地概率要低得多。因为不太可能在多于一个桌子上放置某东西。

图19示出了如图18中所示的在使用所公开的技术生成的另一组示例图像字幕、逐单词的视觉落地概率以及相应图像/空间注意力地图上相似的结果。

图20和图21是示例性等级概率图，其分别示出了我们的模型在COCO(上下文中的共同对象)和Flickr30k数据集上的性能。可以看出，当生成如“dishes(菜肴)”、“people(人们)”、“cat(猫)”、“boat(船)”之类的客体单词，如“giant(巨大)”、“metal(金属)”、“yellow(黄色)”之类的属性单词和如“three(三)”之类的数字单词时，我们的模型更多地注意图像。当单词是非视觉的时，我们的模型学习不注意针对诸如“the”，“of”，“to”等的图像。对于更多的抽象单词，诸如“crossing(穿越)”，“during(在...期间)”等，我们的模型比视觉单词更少地注意并且比非视觉单词更多地注意。该模型不依赖于任何语法特征或外部知识。它通过学习自动发现这些趋势。

图22是示出针对前45个最频繁COCO对象类别生成的字幕的定位准确度的示例图。蓝色条显示空间注意力模型的定位准确度，红色条显示自适应注意力模型的定位准确度。图22示出两个模型在诸如“cat(猫)”，“bed(床)”，“bus(公共汽车)”和“truck(卡车)”之类的类别上表现良好。在较小的物体上，例如“sink(水槽)”，“surfboard(冲浪板)”，“clock(时钟)”和“frisbee(飞盘)”，两种模型都表现不佳。这是因为空间注意力地图直接从7x7特征图重新缩放，这会丢失相当大的空间信息和细节。

图23是示出基于各种自然语言处理矩阵所公开的技术在Flicker30k和COCO数据集上的性能的表，包括BLEU(双语评估替换)，METEOR(采用显式排序的翻译评估的度量)，CIDEr(基于共识的图像描述评估)，ROUGE-L(面向召回率的要点评估-最长公共子序列)和SPICE(语义命题图像字幕评估)。图23中的表格显示我们的自适应注意力模型明显优于我们的空间注意力模型。对于Flickr30k数据库，我们的自适应注意力模型相比于空间注意力模型的CIDEr得分表现为0.531对0.493。同样，对于COCO数据库，自适应注意力模型和空间注意力模型的CIDEr得分分别为1.085和1.029。

我们将我们的模型与COCO评估服务器上的最先进系统进行比较，如图24中公布的最先进技术的排行榜中所示。从排行榜可以看出，我们的方法在已发布系统中的所有指标上实现了最佳性能，因此在很大范围内创造了一个新的最新技术水平。

计算机系统

图25是可用于实现所公开技术的计算机系统的简化框图。计算机系统包括至少一个中央处理单元(CPU)，其经由总线子系统与多个外围设备通信。这些外围设备可以包括存储子系统(其包括例如存储器设备和文件存储子系统)、用户接口输入设备、用户接口输出设备和网络接口子系统。输入设备和输出设备允许用户与计算机系统交互。网络接口子系统提供到外部网络的接口，包括到其他计算机系统中的相应接口设备的接口。

在一个实现方式中，至少空间注意力模型，控制器，定位器(图25)，训练器(包括防止器)，自适应注意力模型和哨兵LSTM(Sn-LSTM)是可通信的链接到存储子系统和用户接口输入设备的。

用户接口输入设备可包括键盘；定点设备，如鼠标，轨迹球，触摸板或图形输入板；扫描仪；合并到显示器中的触摸屏；音频输入设备，如语音识别系统和麦克风；和其他类型的输入设备。通常，术语“输入设备”的使用旨在包括所有可能类型的设备和将信息输入计算机系统的方式。

用户接口输出设备可以包括显示子系统，打印机，传真机或诸如音频输出设备的非可视显示器。显示子系统可包括阴极射线管(CRT)，诸如液晶显示器(LCD)的平板装置，投影装置或用于产生可见图像的一些其他机构。显示子系统还可以提供非可视显示，例如音频输出设备。通常，术语“输出设备”的使用旨在包括所有可能类型的设备以及将信息从计算机系统输出到用户或另一个机器或计算机系统的方式。

存储子系统存储编程和数据结构，其提供本文描述的一些或所有模块和方法的功能。这些软件模块通常由深度学习处理器执行。

深度学习处理器可以是图形处理单元(GPU)或现场可编程门阵列(FPGA)。深度学习处理器可以由深度学习云平台托管，例如Google Cloud Platform^TM，Xilinx^TM和Cirrascale^TM。深度学习处理器的示例包括Google的张量处理单元(TPU)^TM，如GX4Rackmount Series^TM的机架式解决方案，GX8Rackmount Series^TM，NVIDIA DGX-1^TM，Microsoft'Stratix V FPGA^TM，Graphcore的智能处理器单元(IPU)^TM，采用Snapdragonprocessors^TM的Qualcomm的Zeroth Platform^TM，NVIDIA的Volta^TM，NVIDIA的DRIVE PX^TM，NVIDIA的JETSON TX1/TX2MODULE^TM，Intel的Nirvana^TM，Movidius VPU^TM，Fujitsu DPI^TM，ARM的Dynamic IQ^TM，IBM TrueNorth^TM等，以及其他。

存储子系统中使用的存储器子系统可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)和存储固定指令的只读存储器(ROM)。文件存储子系统可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质，CD-ROM驱动器，光盘驱动器或可移除介质盒。实现某些实现的功能的模块可以由文件存储子系统存储在存储子系统中，或者存储在处理器可访问的其他机器中。

总线子系统提供用于使计算机系统的各种组件和子系统按预期彼此通信的机制。尽管总线子系统示意性地示为单个总线，但总线子系统的替代实现可以使用多个总线。

计算机系统本身可以是各种类型，包括个人计算机，便携式计算机，工作站，计算机终端，网络计算机，电视，大型机，服务器群，广泛分布的一组松散联网的计算机或任何其他数据处理系统或用户设备。由于计算机和网络的不断变化的性质，图13中描述的计算机系统的描述仅用作说明本发明优选实施例的具体例子。图13中描述的计算机系统的许多其他配置可能具有比图13中描述的计算机系统更多或更少的组件。

提供前述描述以使得能够制造和使用所公开的技术。对所公开的实现的各种修改将是显而易见的，并且在不脱离所公开的技术的精神和范围的情况下，本文定义的一般原理可以应用于其他实现和应用。因此，所公开的技术不旨在限于所示的实现方式，而是与符合本文公开的原理和特征的最宽范围相一致。所公开的技术的范围由所附权利要求限定。

附录

知道何时看：经由用于图像标注的视觉哨兵的自适应注意力

摘要

基于注意力的神经编码器-解码器框架已广泛用于图像标注。大多数方法强制视觉注意力对每个生成的单词都有效。然而，解码器可能几乎不需要来自图像的视觉信息来预测诸如“the”和“of”的非视觉单词。其他可能看似视觉的单词通常可以仅从语言模型中得到可靠地预测，例如，在“behind a redstop”之后的“sign”或在“talking on a cell”之后的“phone”。在本文中，我们提出了一种具有视觉哨兵的新型自适应注意力模型。在每个时间步长处，我们的模型决定是否注意图像(如果是，对哪些区域)或视觉哨兵。模型决定是否注意图像以及注意何处，以便为顺序单词的生成提取有意义的信息。我们在COCO图像标注2015挑战数据集和Flickr30K上测试我们的方法。我们的方法以最大的优势创造了新的最先进技术。

1.介绍

自动生成图像的字幕已成为学术界和工业界的一个突出的跨学科研究问题，[8，11，18，23，27，30]。它可以帮助视障用户，并使用户可以轻松地组织和导航大量通常非结构化的可视数据。为了生成高质量的字幕，模型需要结合图像中的细粒度视觉线索。最近，已经开发了基于视觉注意力的神经编码器-解码器模型[30,11,32]，其中注意力机制通常产生空间地图，其突出显示与每个生成的单词相关的图像区域。

大多数用于图像标注和视觉问答的注意力模型都会在每个时间步长处注意图像，而不管接下来会发出哪个单词[32,29,17]。然而，并非字幕中的所有单词都具有相应的视觉信号。考虑图1中的示例，其示出了图像及其生成的字幕“A white bird perched on topof a red stop sign(一只白色的鸟停在红色停车标的顶部)”。单词“a”和“of”没有相应的规范视觉信号。此外，语言相关性使得在生成诸如“perched”之后的“on”和“top”以及“ared stop”之后的“sign”之类的单词时视觉信号不是必须的。事实上，来自非视觉单词的梯度可能会误导和降低视觉信号在指导字幕生成过程中的整体有效性。

图1：我们的模型学习了一种自适应注意力模型，该模型自动确定何时看(哨兵门)以及看哪里(空间注意力)以用于生成单词，这将在第2.2、2.3和5.4节中进行解释。

在本文中，我们介绍了一种自适应注意力编码器-解码器框架，它可以自动决定何时依赖于视觉信号以及何时仅依赖于语言模型。当然，当依赖于视觉信号时，模型还决定应该注意何处-哪个图像区域。我们首先提出一种新的空间注意力模型来提取空间图像特征。然后，作为我们提出的自适应注意力机制，我们引入了一个新的长短期记忆(LSTM)扩展，它产生了一个额外的“视觉哨兵”向量而不是单个隐藏状态。“视觉哨兵”是解码器存储器的附加潜在表示，为解码器提供后备选项。我们进一步设计了一个新的哨兵门，它决定了在生成下一个单词时解码器想要从图像中获取多少新信息，而不是依赖于视觉哨兵。例如，如图1所示，我们的模型在生成单词“white”，“bird”，“red”和“stop”时学习更多地注意图像，并且在生成单词“top”，“of”和“sign”时更多地依赖于视觉哨兵。

总的来说，本文的主要贡献是：

·我们引入了自适应编码器-解码器框架，该框架自动决定何时看图像以及何时依赖语言模型来生成下一个单词。

·我们首先提出一种新的空间注意力模型，然后在此基础上设计出具有“视觉哨兵”的新型自适应注意力模型。

·我们的模型显著优于COCO和Flickr30k上其他最先进的方法。

·我们对自适应注意力模型进行了广泛的分析，包括单词的视觉落地概率和生成的注意力地图的弱监督定位。

2.方法

我们首先在2.1节中描述用于图像标注的通用神经编码器-解码器框架，然后在2.2和2.3节中介绍我们提出的基于注意力的图像标注模型。

2.1.用于图像标注的编码器-解码器

我们首先简要描述编码器-解码器图像标注框架[27，30]。给定图像和相应的字幕，编码器-解码器模型直接最大化以下目标：

其中θ是模型的参数，I是图像，y＝{y₁，...，y_t}是相应的字幕。使用链式法则，联合概率分布的对数似然可以分解为有序条件语句：

其中为了方便起见，我们放弃对模型参数的依赖性。

在编码器-解码器框架中，使用循环神经网络(RNN)，将每个条件概率建模为：

log p(y_t|y₁，...，y_t-1，I)＝f(h_t，c_t)

(3)

其中f是非线性函数，其输出y_t的概率。c_t是从图像I中提取的在时间t处的视觉上下文向量。h_t是在时间t处的RNN的隐藏状态。在本文中，我们采用长短期记忆(LSTM)而不是维尼拉(vanilla)RNN。前者已经在各种序列建模任务中展示了最先进的性能。将h_t建模为：

h_t＝LSTM(x_t，h_t-1，m_t-1) (4)

其中x_t是输入向量。m_t-1是在时间t-1处的内存单元向量。

通常，上下文向量c_t是神经编码器-解码器框架中的一个重要因素，它为字幕生成提供了可视证据[18，27，30，34]。建模上下文向量的这些不同方法分为两类：vanilla编码器-解码器框架和基于注意力的编码器-解码器框架：

·首先，在vanilla框架中，c_t仅依赖于编码器，即卷积神经网络(CNN)。将输入图像I馈送到CNN，CNN提取最后一个全连接层作为全局图像特征[18，27]。在生成的单词上，上下文向量c_t保持不变，并且不依赖于解码器的隐藏状态。

·其次，在基于注意力的框架中，c_t依赖于编码器和解码器两者。在时间t处，基于隐藏状态，解码器将注意图像的特定区域并使用来自CNN的卷积层的空间图像特征来计算c_t。在[30,34]中，它们表明注意力模型可以显著提高图像标注的性能。

为了计算上下文向量c_t，我们首先在2.2节中提出我们的空间注意力模型，然后在2.3节中将模型扩展到自适应注意力模型。

2.2.空间注意力模型

图2：(a)来自[30]的软注意力模型和(b)我们提出的空间注意力模型的图示。

首先，我们提出了一种用于计算上下文向量c_t的空间注意力模型，上下文向量c_t定义为：

c_t＝g(V，h_t)

(5)

其中g是注意力函数，是空间图像特征，每个空间图像特征是对应于图像的一部分的d维表示。h_t是在时间t处的RNN的隐藏状态。

给定LSTM的空间图像特征和隐藏状态我们将其通过单层神经网络馈送，然后使用softmax函数以在图像的k个区域上生成注意力分布：

α_t＝softmax(z_t) (7)

其中是所有元素设置为1的向量。和是将要学习的参数。是在V中的特征之上的注意力权重。基于注意力分布，上下文向量c_t可以通过以下获得：

其中如方程3中所示，c_t和h_t结合以预测下一单词y_t+1。

与[30]不同，如图2所示，我们使用当前隐藏状态h_t来分析看哪里(即，生成上下文向量c_t)，然后组合两个信息源以预测下一个单词。我们的动机源于残差网络的优越性能[10]。可以将生成的上下文向量c_t视为当前隐藏状态h_t的残差视觉信息，其减少了不确定性或补充了当前隐藏状态的信息性以用于下一个词预测。我们还凭经验发现我们的空间注意力模型表现更好，如表1所示。

图3：给定图像的情况下所提出的模型生成第t个目标单词y_t的图示。

2.3自适应注意力模型

虽然已证明基于空间注意力的解码器对图像标注有效，但它们无法确定何时依赖视觉信号以及何时依赖语言模型。在本节中，来自Merity等人[19]的启示，我们引入了一个新概念-“视觉哨兵”，它是解码器已经知道的潜在表示。采用“视觉哨兵”，我们扩展了我们的空间注意力模型，并提出了能够确定是否需要注意图像以预测下一个单词的自适应模型。

什么是视觉哨兵？解码器的内存存储长期和短期的视觉信息和语言信息。我们的模型学会从中提取一个新的组件，当模型选择不注意图像时，模型可以回退。这个新组件称为视觉哨兵。决定是注意图像还是视觉哨兵的门是哨兵门。当解码器RNN是LSTM时，我们认为那些信息保留在其内存单元中。因此，我们通过以下扩展LSTM以获得“视觉哨兵”向量s_t：

g_t＝σ(W_xx_t+W_hh_t-1) (9)

s_t＝g_t⊙tanh(mt) (10)

其中W_x和W_h是要学习的权重参数，x_t是在时间步长t处的LSTM的输入，并且g_t是应用在内存单元m_t上的门。⊙代表逐元素的乘积，σ逻辑的sigmoid激活。

基于视觉哨兵，我们提出了一种自适应注意力模型来计算上下文向量。在我们提出的架构中(参见图3)，我们的新的自适应上下文向量定义为其建模为空间注意的图像特征(即空间注意力模型的上下文向量)和视觉哨兵向量的混合。这消除了网络正在考虑的来自解码器内存中已知的内容(即，视觉哨兵)中的许多新信息。混合模型定义如下：

其中β_t是时间t处的新哨兵门。在我们的混合模型中，β_t产生范围[0,1]中的标量。值1表示仅使用视觉哨兵信息，0表示在生成下一个单词时仅使用空间图像信息。

为了计算新的哨兵门β_t，我们修改了空间注意力组件。特别是，我们在z中添加了一个附加元素，该向量包含方程6中定义的注意力得分。该元素表示网络对哨兵施加了多少“注意力”(与图像特征相比)。通过将方程7转换为以下来总结这个额外元素的添加：

其中[·；·]表示连接。W_s和W_g是权重参数。值得注意的是，W_g与方程6中的权重参数相同。是空间图像特征以及视觉哨兵向量的注意力分布。我们将该向量的最后一个元素解释为门值：β_t＝α_t[k+1]。

在时间t处可能的单词的词汇表的概率可以计算为：

其中W_p是将要学习的权重参数。

该公式鼓励模型在生成下一个单词时自适应地注意图像与视觉哨兵。在每个时间步长处更新哨兵向量。利用这种自适应注意力模型，我们将我们的框架称为自适应编码器-解码器图像标注框架。

3.实现细节

在本节中，我们将描述我们模型的实现细节以及我们如何训练我们的网络。

编码器-CNN。编码器使用CNN来获得图像的表示。具体来说，使用ResNet[10]的最后一个卷积层的空间特征输出，其具有维度为2048×7×7。我们使用来表示在k网格位置中的每个网格位置处的空间CNN特征。在[10]之后，可以通过以下方式获得全局图像特征：

其中a^g是全局图像特征。为了便于建模，我们使用具有整流器激活函数的单层感知来将图像特征向量转换为具有维度d的新向量：

v_i＝ReLU(W_aa_i) (15)

v^g＝ReLU(W_ba^g) (16)

其中W_a和W_g是权重参数。所转换的空间图像特征形成V＝[v₁，...，v_k]。

解码器-RNN。我们连接单词嵌入向量w_t和全局图像特征向量v^g得到输入向量x_t＝[w_t；v^g]。我们使用单层神经网络来转换视觉哨兵向量S_t和将LSTM输出向量h_t转换为具有维度d的新向量。

训练细节。在我们的实验中，我们使用具有隐藏大小512的单一层LSTM。我们使用Adam优化器，其中用于语言模型的基本学习率为5e-4，用于CNN的基本学习率为le-5。动量和权重衰退分别为0.8和0.999。我们在20个时期之后对CNN网络进行了精细调整。如果验证CIDEr[26]得分在过去的6个时期内没有得到改善，我们将批大小设置为80并且训练最多50个时期并提前停止。我们的模型可在30小时内在单个Titan X GPU上进行训练。在为COCO和Flickr30k数据集采样时，我们使用的束大小为3。

4.相关工作

图像标注有许多重要的应用，从帮助视障用户到人机交互。结果，已经开发了许多用于图像标注的不同模型。通常，这些方法可以分为两类：基于模板[9,33,14,20]和基于神经[12,18,6,3,27,7,11,30,8,34,32,38]的方法。

基于模板的方法生成字幕模板，基于对象检测、属性分类和场景识别的输出填充其插槽(slot)。Farhadi等人[9]推断使用模板转换为文本的场景元素的三元组。Kulkarni等人[13]采用条件随机场(CRF)在填充插槽之前联合推理对象、属性和介词。[14,20]使用更强大的语言模板，例如语法格式良好的树，并中添加来自属性检测的输出的描述性信息。

基于神经的方法受到机器翻译中序列到序列编码器-解码器框架成功的启发[4，24，2]，其中图像标注类似于将图像翻译成文本。Kiros等人[12]提出了一个带有多模型对数双线性模型的前馈神经网络，以在给定图像和前一个单词的情况下预测下一个单词。然后其他方法用循环神经网络替换前馈神经网络[18,3]。Vinyals等人[27]使用LSTM而不是vanilla RNN作为解码器。然而，所有这些方法都代表具有CNN的最后全连接层的图像。Karpathy等人[11]采用来自R-CNN的对象检测的结果和双向RNN的输出来学习用于字幕排序和生成的联合嵌入空间。

最近，已经在图像标注中将注意力机制引入了编码器-解码器神经框架。Xu等人[30]结合了注意力机制，以在生成相应的单词时从头开始学习潜在的对齐。[28,34]利用高级概念或属性，并将它们注入基于神经的方法作为语义注意力，以增强图像标注。Yang等人[32]使用审查网络扩展当前注意力编码器-解码器框架，该审查网络以紧凑的向量表示捕获全局属性，并且可由注意力机制在解码器中使用。Yao等人[33]呈现了用于增加图像的高级属性以补充用于句子生成的图像表示的构架的变体。

据我们所知，我们是第一个进行在生成单词序列时推理何时模型应该注意图像的工作的。

5.结果

5.1.实验设置

我们采用两个数据集进行实验：Flickr30k[35]和COCO[16]。

Fiickr30k包含从Flickr收集的31783张图像。这些图像中的大多数描绘了人类进行各种活动。每张图像都配有5个众包字幕。我们使用包含1000张图像的公开可用分割¹进行验证并测试每个图像。

COCO是最大的图像标注数据集，包含分别用于训练、验证和测试的82783、40504和40775个图像。此数据集更具挑战性，因为大多数图像在复杂场景的上下文中包含多个对象。每个图像都有5个带注释字幕的人物。对于离线评估，我们使用与包含5000个图像的[11，30，34]中相同的数据分割进行验证并对每个图像进行测试。对于COCO评估服务器的在线评估，我们保留来自验证的2000个图像用于开发，其余的用于训练。

预处理。对于COCO，我们截断的字幕长度超过18个字，对于Flickr30k，截断的字幕长度超过22个字。然后，我们构建一个在训练集中至少出现5次和3次的单词词汇，分别为COCO和Flickr30k生成9567和7649个单词。

比较方法：对于在Flickr30k和COCO上进行的线下评估，我们首先将我们的完整模型(我们的自适应)和只能进行空间注意力的消融版本(Ours-Spatial)进行比较。此比较的目的是验证我们的改进不是正交贡献的结果(例如，更好的CNN特征或更好的优化)。我们进一步将我们的方法与DeepVS[11]，硬注意力[30]和最近提出的ATT[34]，ERD[32]和MSM[33]的最佳执行方法(LSTM-A₅)进行比较。对于在线评估，我们将我们的方法与Google NIC[27]，MS Captivator[8]，m-RNN[18]，LRCN[7]，硬注意力[30]，ATT-FCN[34]，ERD[32]和MSM[33]进行比较。

5.2定量分析

我们使用COCO标注评估工具[16]报告结果，该工具报告以下度量：BLEU[21]，Meteor[5]，Rouge-L[15]和CIDEr[26]。我们还使用新的度量SPICE[1]报告结果，发现该结果可以更好地与人类判断相关联。

表1显示了Flickr30k和COCO数据集的结果。对完整模型w.r.t没有视觉哨兵的消融版本进行的比较验证了所提出框架的有效性。我们的自适应注意力模型明显优于空间注意力模型，其分别将在Flickr30k和COCO上的CIDEr得分从0.493/1.029提高到0.531/1.085。与以前的方法相比，我们可以看到我们的单个模型明显优于所有度量中的先前方法。在COCO上，我们的方法将BLEU-4的最新技术水平从0.325(MSM⁺)提高到0.332，METEOR从0.251(MSM⁺)提高到0.266，将CIDEr从0.986(MSM⁺)提高到1.085。类似地，在Flickr30k上，我们的模型大大提高了最先进技术水平。我们还报告了ROUGE-L和SPICE的得分，以便进行未来的比较。

我们将我们的模型与表2中COCO评估服务器上的最新系统进行比较。我们可以看到，我们的方法在已公开的系统中的所有度量上实现了最佳性能。

值得注意的是，Google NIC，ERD和MSM使用Inception-v3[25]作为编码器，与ResNei[10](我们的模型使用的)相比，它具有相似或更好的分类性能。

表1：Flickr30k和COCO测试分割的性能。+指示融合模型。B-n是使用多达n-gram的BLEU得分。所有列中更高即为更好。对于未来的比较，我们的ROUGE-L/SPICE在Flickr30k得分是0.467/0.145，在COCO得分是0.549/0.194。

表2：在线COCO测试服务器上所公布的最先进图像标注模型排行榜。我们的报告是采用不同的实例化训练的5个模型的融合。

5.3.定性分析

为了更好地理解我们的模型，我们首先将生成的字幕中的不同单词的空间注意力权重α可视化。我们只需使用双线性插值将注意力权重上采样到图像大小(224×224)。图4显示了生成的字幕和字幕中特定单词的空间注意力地图。前两列是成功示例，最后一列是失败示例。我们看到我们的模型学会了与人类直觉强烈对应的对齐。请注意，即使在模型产生不准确的字幕的情况下，我们也会看到我们的模型确实在看图像中合理的区域-它似乎无法计数或识别纹理和细粒度的类别。我们在补充材料中提供了更广泛的可视化列表。

图4：COCO数据集上生成的字幕和图像注意力地图的可视化。不同的颜色示出了所注意区域和带下划线的单词之间的对应关系。前2列是成功案例，最后一列是失败示例。用颜色可以更好地观察

图5：生成的字幕、每个生成的单词的视觉落地概率、以及由我们的模型产生的相应的空间注意力地图的可视化

当生成字幕时，我们进一步可视化哨兵门。对于每个单词，我们使用1-β作为其视觉落地概率。在图5中，我们可视化所生成的字幕、视觉落地概率和我们的模型为每个单词生成的空间注意力地图。我们的模型成功学习生成诸如“of”和“a”之类的非视觉单词时注意图像较少。对于像“red”，“rose”，“doughnuts”，“woman”和“snowboard”这样的视觉单词，我们的模型分配了很高的视觉落地概率(超过0.9)。注意，当在不同的上下文中生成时，可以为相同的单词分配不同的视觉落地概率。例如，单词“a”通常在句子的开头具有高的视觉落地概率，因为没有任何语言上下文，模型需要视觉信息来确定多个(或不是多个)。另一方面，短语“on a table”中的“a”的视觉落地概率要低得多。因为不太可能在多个桌子上放置某一东西。

5.4.自适应注意力分析

在本节中，我们分析了我们的方法产生的自适应注意力。我们可视化哨兵门以了解在生成字幕时“何时”我们的模型注意图像。我们还使用生成的注意力地图对COCO类别执行弱监督定位。这可以帮助我们直观地了解我们的模型注意“何处”，以及它是否注意正确的区域。

5.4.1学习“何时”注意

为了评估我们的模型是否学会将字幕中的视觉词与非视觉词分开，我们将视觉落地概率可视化。对于词汇中的每个单词，我们对包含该单词的所有生成的字幕的视觉落地概率进行平均。图6示出了COCO和F3ickr3Qk上的等级概率图。

图6：COCO(左)和Flickr30k(右)上的等级概率图，表示单词(其在字幕中生成时)视觉接地的可能性

我们发现，当生成如“dishes”，“people”，“cat”，“boat”等对象单词；如“giant”，“metal”，“yellow”等属性单词和如“三”等数字单词时，我们的模型更多地注意图像。当这个单词是非视觉的时，我们的模型学习不去注意诸如针对“the”，“of”，“to”等的图像。对于更多抽象的概念，如“crossing”，“during”等，我们的模型学习注意更少的视觉单词和注意更多的非视觉单词。请注意，我们的模型不依赖于任何语法特征或外部知识。它会自动发现这些趋势。

我们的模型无法区分真正非视觉的单词与在技术上是可视的但与其他单词具有高度相关性因此选择不依赖于视觉信号的单词。例如，诸如“phone”之类的单词在我们的模型中获得相对较低的视觉落地概率。这是因为它与单词“cell”具有较大的语言相关性。我们还观察了一些有趣的趋势，其中模型在不同的数据集上学习。例如，当生成“UNK”单词时，我们的模型学习较少注意COCO上的图像，但更多的是注意Flickr30k上的图像。具有不同形式的相同单词也可导致不同的视觉落地概率。例如，“crossing”，“cross”和“crossed”是具有相似含义的同源词。但是，就视觉而言通过我们的模型学习的落地概率，存在很大的差异。我们的模型学会在生成“crossing”时更多地注意图像，然后是“cross”，以及在生成“crossed”时注意最少的图像。

5.4.2学习注意“何处”

我们现在评估我们的模型是否注意正确的空间图像区域。我们使用生成的注意力地图执行弱监督定位[22，36]。据我们所知，以前的工作都没有使用弱监督定位来评估图像标注的空间注意力。给定单词w_t和注意图α_t，我们首先使用大于th的注意力值来分割地图像的区域(在将地图归一化以使最大值为1之后)，其中th是使用COCO验证分裂估计的每类阈值。然后我们采用覆盖分割地图中最大连接分量的边界框。我们使用生成的和真实的边界框的交并比(IOU)作为定位准确度。

对于每个COCO对象类别，我们进行逐单词匹配以将生成的单词与真实边界框对齐²。对于具有多个单词的对象类别，例如“teddy bear”，我们采用在多个单词上的最大IOU得分作为其定位准确度。我们能够将空间和自适应注意力模型分别生成的字幕对齐5981和5924个区域。我们的空间注意力模型的平均定位准确度为0.362，我们的自适应注意力模型的平均定位准确度为0.373。这表明作为副产品，知道何时注意也有助于注意何处。

图7：针对前45个最常见的COCO对象类别的生成字幕的定位准确度，“空间注意力”和“自适应注意力”分别是我们提出的空间注意力模型和自适应注意力模型。COCO类别基于我们的自适应注意力的对齐结果进行排列，其分别覆盖空间注意力和适应性注意力的总匹配区域的93.8％和94.0％。

图7示出了前45个最常见COCO对象类别的生成字幕的定位准确性。我们可以看到，我们的空间注意力模型和自适应注意力模型具有相似的趋势。我们观察到两种模型在“cat”，“bed”，“bus”和“truck”等类别上表现良好。在较小的物体上，例如“sink”，“surfboard”，“clock”和“frisbee”，两种模型的性能相对较差。这是因为我们的空间注意力地图直接从粗糙的7×7特征图重新缩放，这会丢失大量的空间分辨率和细节。使用更大的特征图可以提高性能。

6.结论

在本文中，我们提出了一种新的自适应注意力编码器-解码器框架，它为解码器提供回退选项。为了实现自适应注意力机制，我们引入了一个新的

LSTM扩展，它产生了一个额外的“视觉哨兵”向量而不是单个隐藏状态。我们的模型在图像标注上的跨标准基准上实现了最先进的性能。我们还进行了广泛的注意力评估，以分析我们的自适应注意力。通过可视化，我们可以看到我们的模型在生成字幕时自适应地注意可解释区域。尽管我们的模型是在图像标注上进行评估的，但它可能会应用于更一般的注意力编码器-解码器框架。

参考文献

[1]P.Anderson,B.Fernando,M.Johnson和S.Gould.趣味：语义介词图像字幕评估(Spice:Semantic propositional image caption evaluation).参见ECCV.,2016.5

[2]D.Bahdanau,K.Cho和Y.Bengio.通过联合学习对齐和翻译的神经机器翻译(Neural machine translation by jointly learning to align and translate).arXiv预印本arXiv(arXiv preprint arXiv):1409.0473.2014.4

[3]X.Chen和C.Lawrence Zitnick.理智之眼：图像字幕生成的循环视觉表示(Mind's eye:A recurrent visual representation for image caption generation).参见CVPR,2015.4

[4]K.Cho,B.Van Merrienboer,C.Guicehre,D.Bahdanau,F.Bougares.H.Sehwenk和Y.Bengio.使用用于统计机器翻译的rnn编码器-解码器学习短语表示(Learning phraserepresentations using rnn encoder-decoder for statisticalmachinetranslation).arXiv预印本arXiv(arXiv preprint arXiv):1406.1078,2014.4

[5]M.Denkowski和A.Lavie.METEOR通用性：针对任何目标语言的语言特定翻译评估(Meteor universal:Language specific translation evaluation for anytargetlanguage).参见关于统计机器翻译的EACL 2014研讨会(EACL 2014Workshop onStatistical Machine Translation),2014.5

[6]J.Devlin,S.Gupta,R.Girshick,M.Mitchell和C.L.Zitnick.探索图像标注的最近邻方法(Exploring nearest neighbor approaches for image captioning).arXiv预印本arXiv(arXiv preprint arXiv):1505.04467,2015.4

[7]J.Donahue,L.Anne Hendricks,S.Guadarrama,M.Rohrbach,S.Venugopalan,K.Saenko和T.Darrell.用于视觉识别和描述的长期循环卷积网络(Long-termrecurrentconvolutionai networks for visual recognition and description).参见CVPR,2015.4,3,6

[8]H.Fang,S.Gupta,F.Iandola,R.K.Srivastava,L.Deng,P.Dollár,J.Gao,X.He,M.Mitchell,J.C.Platt等.从字幕到视觉概念和背部(From captions tovisualconcepts and back).参见IEEE计算机视觉和模式识别会议的会议记录(In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition),第1473-1482页,2015.1,4,5,6

[9]A.Farhadi,M.Hejrati,M.A.Sadeghi,P.Young,C.Rashtchian,J.Hockenmaier和D.Forsyth.每张图片讲述一个故事：从图像生成句子(Every picture tells a story:Generating sentences from images).参见ECCV,2010.4

[10]K.He,X.Zhang.S.Ren和J.Sun.用于图像识别的深度残余学习(Deepresidual learning for image recognition).2016.3,4,5

[11]A.Karpathy和L.Fei-Fei.用于生成图像描述的深度视觉语义对齐(Deepvisual-semantic alignments for generating image descriptions).In CVPR,2015.

[12]R.Kiros.R.Salakhutdinov和R.S.Zemel.多模态神经语言模型(Multimodalneural language models),参见ICML,2014,4

[13]G.Kulkarni,V.Premraj,V.Ordonez,S.Dhar,S.Li,Y.Choi,A.C.Berg和T.L.Berg.牙牙学语：理解并生成简单的图像描述(Babytalk:Understanding andgenerating simple image descriptions).参见CVPR,2011.4

[14]P.Kuznetsova,V.Ordonez,A.C.Berg,T.L.Berg和Y.Choi.集体生成自然图像描述(Collective generation of natural image descriptions).参见ACL,2012.4

[15]C.-Y.Lin.Rouge：用于摘要的自动评估的程序包(Rouge:A package forautomatic evaluation of summaries).参见ACL 2004研讨会(In ACL 2004Workshop),2004.5

[16]T.-Y.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollár和C.L.Zitnick.微软coco：上下文中的公共对象(Microsoft coco:Common objects incontext).参见欧洲计算机视觉会议(In European Conference on Computer Vision),2014.5

[17]J.Lu.J.Yang,D.Batra和D.Parikh.视觉问题回答的分层问题-图像共同注意力(Hierarchical question-image co-attention for visual question answering).2016.1

[18]J.Mao,W.Xu,Y.Yang,J.Wang,Z.Huang和A.Yuille.采用多模态循环神经网络(m-rnn)进行的深度标注(Deep captioning with multimodal recurrent neuralnetworks(m-rnn)).参见ICLR,2015.1,2,4,5,6

[19]S.Merity,C.Xiong,J.Bradbury和R.Socher.指针哨兵混合模型(Pointersentinel mixture models).arXiv预印本arXiv(arXiv preprint arXiv):1609.07843,2016,3

[20]M.Mitchell,X.Han,J.Dodge,A.Mensch,A.Goyal,A.Berg,K.Yamaguchi,T.Berg.K.Stratos和H.DauméIII.Midge：从计算机视觉检测中生成图像描述(Midge:Generating image descriptions from computer vision detections).参见EACL,2012.4

[21]K.Papineni,S.Roukos,T.Ward和W.-J.Zhu.Bleu：一种自动评估机器翻译的方法(Bleu:a method for automatic evaluation of machine translation).参见ACL.2002.5

[22]R.R.Selvaraju,A.Das,R.Vedantam,M.Cogswell,D,Parikh和D.Batra.Grad-cam:你为什么这么说？通过基于梯度的定位从深度网络中进行视觉解释(Grad-cam:Whydid you say that？visual explanations from deep networks via gradient-basedlocalization).arXiv:1611.01646,2016.7

[23]R.Socher,A.Karpathy.Q.V.Le,C.D.Manning和A.Y.Ng.用于查找和描述带有语句的图像的基础组合语义(Grounded compositional semantics for finding anddescribing images with sentences).2:207-218,2014.1

[24]L Sutskever,O.Vinyals和Q.V.Le.用神经网络进行序列到序列的学习(Sequence to sequence learning with neural networks).参见神经信息处理系统的进展(In Advances in neural information processing systems),第3104-3112页,2014.4

[25]C.Szegedy,V.Vanhoucke,S.Ioffe,J.Shlens和Z.Wojna.重新思考计算机视觉的初始架构(Rethinking the inception architecture for computer vision).arXiv预印本arXiv(arXiv preprint arXiv):1512.00567,2015.5

[26]R.Vedantam,C.Lawrence Zitnick和D.Parikh.Cider：基于共识的图像描述评估(Cider:Consensus-based image description evaluation).参见CVPR,2015.A 5

[27]O.Vinyals,A.Toshev,S.Bengio和D.Erhan.显示和告诉：神经图像字幕生成器(Show and tell:A neural image caption generator).参见IEEE计算机视觉和模式识别会议的会议记录(In Proceedings of the IEEE Conference on Computer Vision andPattern Recognition),第3156-3164页,2015.1,2.4,5,6

[28]Q.Wu,C.Shen,L.Liu,A.Dick和A.v.d.Hengel.明确的高级概念在视觉上对语言问题有什么价值(What value do explicit high level concepts have in vision tolanguage problems)？arXiv预印本arXiv(arXiv preprint arXiv):1506.01144.2015.A

[29]C.Xiong,S.Merity和R.Socher.用于视觉和文本问答的动态存储器网络(Dynamic memory networks for visual and textual question answering).2016.1[30]K.Xu,J.Ba,R.Kiros,K.Cho,A.Courville,R.Salakhutdinov,R.Zemel和Y Bengio.显示、注意和讲述：采用视觉注意力生成神经图像字幕(Show,attend and tell：Neuralimage caption generation with visual attention).In ICML,2015.1,2,3,4,5,6

[31]Z.Yang,X.He,J.Gao,L.Deng和A.Smola.用于图像问答的堆叠注意力网络(Stacked attention networks for image question answering).2016.1

[32]Z.Yang,Y Yuan,Y.Wu,R.Salakhutdinov和W.W.Cohen.编码、审查和解码：用于字幕生成的审阅者模块(Encode,review,and decode:Reviewer module for captiongeneration).参见NIPS,2016.1,4,5,6

[33]T.Yao,Y.Pan,Y.Li,Z.Qiu和T.Mei.使用属性提升图像标注(Boosting imagecaptioning with attributes).arXiv预印本arXiv(arXiv preprint arXiv):1611.01646,2015.4,5,6

[34]Q.You,H.Jin,Z.Wang,C.Fang和J.Luo.采用语义注意力的图像标注(Imagecaptioning with semantic attention),参见CVPR,2016.2,4,5,6

[35]P.Young,A.Lai,M.Hodosh和J.Hockenmaier.从图像描述到视觉指示：用于事件描述的语义推断的新相似性度量(From image descriptions to visual denotations:New similarity metrics for semantic inference over event descriptions).参见ACL,2014.5

[36]B.Zhou,A.Khosla,A.Lapedriza,A.Oliva和A.Torralba.学习用于辨别定位的深度特征(Learning deep features for discriminative localization).arXiv预印本arXiv(arXiv preprint arXiv):1512.04150，2015.7。

Claims

1.一种在许多并行处理器上运行的图像到语言标注系统，用于机器生成图像的自然语言字幕，该系统包括：

编码器，用于通过卷积神经网络(缩写为CNN)处理所述图像并为所述图像的区域产生图像特征；

全局图像特征生成器，用于通过组合所述图像特征来生成所述图像的全局图像特征；

输入准备器，用于提供输入到解码器，作为初始解码器时间步长处字幕开始标记和所述全局图像特征的组合，和接下来的解码器时间步长处最近发出的字幕单词和所述全局图像特征的组合；

所述解码器，用于通过长短期记忆网络(缩写为LSTM)处理所述输入，以在每个解码器时间步长处产生当前解码器隐藏状态；

注意力器，用于在每个解码器时间步长处累积图像上下文，作为由使用所述当前解码器隐藏状态确定的注意力概率质量缩放的所述图像特征的凸组合；

前馈神经网络，用于处理所述图像上下文和所述当前解码器隐藏状态，以在每个解码器时间步长处发出下一个字幕单词；和

控制器，用于迭代所述输入准备器、所述解码器、所述注意力器和所述前馈神经网络，以生成所述图像的所述自然语言字幕，直到发出的下一个字幕单词是字幕结尾标记。

2.如权利要求1所述的系统，其中所述注意力器还包括注意力器softmax，用于指数归一化注意力值，以在每个解码器时间步长处产生所述注意力概率质量。

3.如权利要求1-2中任一项所述的系统，其中所述注意力器还包括比较器，用于在每个解码器时间步长处产生所述注意力值，作为所述当前解码器隐藏状态和所述图像特征之间的交互的结果。

4.如权利要求1-3中任一项所述的系统，其中所述解码器还包括至少一输入门、一遗忘门和一输出门，用于基于当前解码器输入和先前解码器隐藏状态在每个解码器时间步长处确定所述当前解码器隐藏状态。

5.如权利要求1-4中任一项所述的系统，其中所述注意力器还包括凸组合累加器，用于产生所述图像上下文，从而以所述当前解码器隐藏状态为条件，识别在每个解码器时间步长处分配给每个图像区域的空间注意力的量。

6.如权利要求1-5中任一项所述的系统，还包括定位器，用于基于弱监督定位来评估所分配的空间注意力。

7.如权利要求1-6中任一项所述的系统，还包括所述前馈神经网络，用于基于所述图像上下文和所述当前解码器隐藏状态在每个解码器时间步长处产生输出。

8.如权利要求1-7中任一项所述的系统，还包括词汇表softmax，用于在每个解码器时间步长处使用所述输出确定词汇表中的单词的词汇表概率质量的归一化分布。

9.如权利要求1-8中任一项所述的系统，其中所述词汇表概率质量识别词汇表单词是下一个字幕单词的相应可能性。

10.一种在许多并行处理器上运行的图像到语言标注系统，用于机器生成图像的自然语言字幕，该系统包括：

注意力滞后解码器，用于至少使用当前隐藏状态信息来生成由编码器从图像产生的图像特征向量的注意力地图，并使得基于所述图像特征向量的加权和生成输出字幕单词，其中权重从所述注意力地图确定。

11.如权利要求10所述的系统，其中基于所述解码器的当前输入和先前隐藏状态信息来确定所述当前隐藏状态信息。

12.如权利要求10-11中任一项所述的系统，其中所述编码器是卷积神经网络(缩写为CNN)，并且所述图像特征向量是由所述CNN的最后卷积层产生的。

13.如权利要求10-12中任一项所述的系统，其中所述注意力滞后解码器是长短期记忆网络(缩写为LSTM)。

14.一种机器生成图像的自然语言字幕的方法，所述方法包括：

通过编码器处理图像以产生所述图像的区域的图像特征向量，并从所述图像特征向量确定全局图像特征向量；

采用以下步骤通过解码器处理单词：

在初始时间步长处以字幕开始标记和所述全局图像特征向量开始，和

在接下来的时间步长中使用最近发出的字幕单词和所述全局图像特征向量作为所述解码器的输入而继续；

在每个时间步长处，至少使用所述解码器的当前隐藏状态来确定所述图像特征向量的非归一化的注意力值，并且对所述注意力值进行指数归一化以产生注意力概率质量；

将所述注意力概率质量应用于所述图像特征向量，以在图像上下文向量中累积所述图像特征向量的加权和；

将所述图像上下文向量和所述解码器的所述当前隐藏状态提交给前馈神经网络，并使所述前馈神经网络发出下一个字幕单词；和

重复通过所述解码器对单词的所述处理、所述使用、所述应用和所述提交，直到发出的字幕单词是字幕结尾标记。

15.如权利要求14所述的方法，其中基于所述解码器的当前输入和所述解码器的先前隐藏状态来确定所述解码器的所述当前隐藏状态。

16.一种机器生成图像的自然语言字幕的方法，该方法包括：

通过编码器处理图像以产生所述图像的区域的图像特征向量；

采用以下步骤通过解码器处理单词：

在初始时间步长处以字幕开始标记开始，以及

在接下来的时间步长中使用最近发出的字幕单词作为所述解码器的输入而继续；

在每个时间步长处，至少使用所述解码器的当前隐藏状态来从所述图像特征向量确定图像上下文向量，所述图像上下文向量确定以所述解码器的所述当前隐藏状态为条件分配给所述图像的区域的注意力的量；

不向所述解码器提供所述图像上下文向量；

将所述图像上下文向量和所述解码器的所述当前隐藏状态提交给前馈神经网络，并使所述前馈神经网络发出字幕单词；和

重复通过所述解码器对单词的所述处理、所述使用、所述不提供和所述提交，直到发出的字幕单词是字幕结尾标记。

17.一种系统，包括耦合到存储器的许多并行处理器，所述存储器加载有确定器指令以生成图像的自然语言字幕，所述指令在所述并行处理器上执行时实现动作，所述动作包括：

采用以下步骤通过解码器处理单词：

18.一种非暂时性确定器可读存储介质，具有确定器程序指令以生成图像的自然语言字幕，所述指令在许多并行处理器上执行时实现一种方法，所述方法包括：

采用以下步骤通过解码器处理单词：

19.一种系统，包括耦合到存储器的许多并行处理器，所述存储器加载有确定器指令以生成图像的自然语言字幕，所述指令在所述并行处理器上执行时实现动作，所述动作包括：

使用注意力滞后解码器的当前隐藏状态信息来生成由编码器从图像产生的图像特征向量的注意力地图，并基于所述图像特征向量的加权和生成输出字幕单词，其中权重由所述注意力地图确定。

20.一种非暂时性确定器可读存储介质，具有确定器程序指令以生成图像的自然语言字幕，所述指令在许多并行处理器上执行时实现一种方法，所述方法包括：

21.一种系统，包括耦合到存储器的许多并行处理器，所述存储器加载有确定器指令以生成图像的自然语言字幕，所述指令在所述并行处理器上执行时实现动作，所述动作包括：

采用以下步骤通过解码器处理单词：

在每个时间步长处，至少使用所述解码器的当前隐藏状态来从所述图像特征向量确定图像上下文向量，所述图像上下文向量以所述解码器的所述当前隐藏状态为条件确定分配给所述图像的区域的注意力的量；

不向所述解码器提供所述图像上下文向量；

22.一种非暂时性确定器可读存储介质，具有确定器程序指令以生成图像的自然语言字幕，所述指令在许多并行处理器上执行时实现一种方法，所述方法包括：

采用以下步骤通过解码器处理单词：

在连续的时间步长中使用最近发出的字幕单词和所述全局图像特征向量作为所述解码器的输入而继续；

不向所述解码器提供所述图像上下文向量；