CN106462802B - 生成映像的自然语言描述 - Google Patents

生成映像的自然语言描述 Download PDF

Info

Publication number
CN106462802B
CN106462802B CN201580032854.0A CN201580032854A CN106462802B CN 106462802 B CN106462802 B CN 106462802B CN 201580032854 A CN201580032854 A CN 201580032854A CN 106462802 B CN106462802 B CN 106462802B
Authority
CN
China
Prior art keywords
word
input image
sequence
image
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580032854.0A
Other languages
English (en)
Other versions
CN106462802A (zh
Inventor
萨米·本希奥
奥里奥尔·温亚尔斯
亚历山大·托什科夫·托舍夫
杜米特鲁·埃尔汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN201910624318.XA priority Critical patent/CN110443351B/zh
Publication of CN106462802A publication Critical patent/CN106462802A/zh
Application granted granted Critical
Publication of CN106462802B publication Critical patent/CN106462802B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

用于生成输入映像的描述的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括获取输入映像;使用第一神经网络处理输入映像以生成输入映像的替代表示;以及使用第二神经网络处理输入映像的替代表示以生成描述输入映像的目标自然语言中的多个词的序列。

Description

生成映像的自然语言描述
背景技术
本说明书涉及使用神经网络生成输入映像的自然语言描述。
神经网络(Neural networks)是采用一个或多个非线性单元层来预测对于接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用做网络中下一层——即下一隐藏层或输出层——的输入。网络的每层根据相应的参数集合的当前值从接收的输入生成输出。
一些神经网络是回归神经网络。回归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地,回归神经网络可以使用来自先前时间步骤的网络的内部状态的一些或全部计算当前时间步骤处的输出。回归神经网络的示例是包括一个或多个长短期存储器(LSTM)存储器块的LSTM神经网络。每个LSTM存储器块可以包括一个或多个单体,每个单体包括输入门,遗忘门和输出门,其允许该单体存储该单体的先前状态,举例来说,用于生成当前激活或将被提供到LSTM神经网络的其他组件。
发明内容
本说明书描述了被实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统如何可以生成映像的自然语言描述。
可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。通过生成适当形成的自然语言词序列,可以训练系统自动描述输入映像的内容。有利地,与先前方法不同,系统可以是使用随机梯度下降完全可训练的端到端系统,并且能够比先前方法在映像描述任务上产生更好的性能。系统生成的词序列不仅可以捕获包含在映像中的对象,而且还可以表现对象如何相互关联以及它们的属性和它们涉及的活动。为了生成描述,神经网络有效地将用于视觉理解的模型与语言模型结合。
在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据描述、附图和权利要求,主题的其他特征,方面和优点将变得显而易见。
附图说明
图1示出了示例映像描述系统。
图2是生成输入映像的自然语言描述的流程图。
图3是使用解码器LSTM神经网络生成自然语言序列的示例过程的流程图。
图4是使用解码器LSTM神经网络进行束搜索解码的示例过程的流程图。
各个附图中相同的附图标记和指定指示相同的元件。
具体实施方式
图1示出了示例映像描述系统100。映像描述系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例,其中可以实施下面描述的系统,组件和技术。
映像描述系统100接收输入映像102并且生成用于输入映像102的自然语言序列122。自然语言序列122是描述输入映像102的目标自然语言中的词序列。由映像描述系统100生成的自然语言序列通常是可变长度序列,即可以包含目标自然语言中的不同数量的词的序列。
映像描述系统100包括编码器卷积神经网络110和解码器LSTM神经网络120。
作为生成输入映像102的自然语言序列122的一部分,映像描述系统100使用编码器卷积神经网络110处理输入映像102,以生成输入映像102的替代表示112。
编码器卷积神经网络110是接收输入映像并根据参数集合从输入映像生成替代表示的卷积神经网络。
具体地,编码器卷积神经网络可以是另一个深度卷积神经网络的一部分,其已经被配置为对映像中的对象进行分类,即接收输入映像,并且对于每个输入映像,为对象类别的预定集合的每个对象类别生成相应的得分。给定类别的得分表示输入映像包括类别中的对象的映像的似然性。
更具体地,另一映像分类神经网络包括多个核心层和输出层。核心层共同地处理输入映像以生成输入映像的替代表示,并且输出层从核心层接收替代表示,并且从替代表示生成输入映像的类别得分。例如,输出层可以是softmax层。用于对映像中的对象进行分类的这种深度卷积神经网络的示例在C.Szegedy,W.Liu,Y.Ja,P.Sermanet,S.Reed,D.Unguelov,D.Erhan,V.Vanhoucke和A.Rabinovich的“Going deeper with convolutions(深入卷积)”,参见http://arxiv.org/pdf/1409.4842,有详细的描述。
编码器卷积神经网络110可以是除去输出层的另一个深度卷积神经网络,使得编码器卷积神经网络110仅包括来自另一个深度卷积神经网络的核心层,并且由用于输入映像102的编码器卷积神经网络110生成的输出是替代表示122。
下面参照图2更详细地描述使用编码器卷积神经网络110生成替代表示。
映像描述系统100使用解码器LSTM神经网络120处理输入映像102的所生成的替代表示122,以生成用于输入映像102的自然语言序列122。
解码器LSTM神经网络120是包括一个或多个LSTM神经网络层的LSTM神经网络,其中每个LSTM层包括一个或多个LSTM存储器块。每个LSTM存储器块可以包括一个或多个单体,每个单体包括输入门、遗忘门和输出门,其允许单体存储由单体生成的先前激活,举例来说,作为用于生成当前激活或提供给LSTM神经网络110的其他组件的隐藏状态。在“Generating sequences with recurrent neural networks(利用回归神经网络生成序列)”,Alex Graves,参见http://arxiv.org/abs/1308.0850v5,更详细地描述示例LSTM神经网络。
特别地,解码器LSTM神经网络120被配置为接收自然语言序列中的当前词,并且针对来自当前词的可能词集合中的每一个以及根据解码器LSTM神经网络120的当前隐藏状态和参数集合的当前值生成相应的得分。给定词的词得分表示词是自然语言序列中的下一个词的似然性,即,输出紧接着自然语言序列中的当前词的似然性。作为生成词得分的一部分,解码器LSTM神经网络120还更新网络的隐藏状态以生成更新的隐藏状态。
可能词集合包括目标自然语言中的词的词汇表和指定的停止词。停止词是不在自然语言中的词的词汇表中的指定词。
使用解码器LSTM神经网络处理替代表示以生成自然语言序列在下文中参照图2和图3更详细地描述。
图2是用于从输入映像生成自然语言序列的示例过程200的流程图。为了方便,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如,映像描述系统,举例来说,图1的映像描述系统100,经适当编程,可进行过程200。
系统获取输入映像(步骤202)。
系统使用编码器卷积神经网络,举例来说,图1的编码器卷积神经网络110,来处理输入映像以将输入映像生成为输入映像的替代表示(步骤204)。也就是说,系统通过编码器卷积神经网络中的每个核心层处理输入映像,以生成替代表示,即替代表示是编码器卷积神经网络中最后核心层的输出。
因此,因为替代表示是最后核心层的输出,所以输入映像的替代表示是固定长度表示,即替代表示中的元素的数目是固定的,并且不依赖于输入映像。比如,替代表示可以是具有固定维度的数值的向量,举例来说,浮点值的向量或浮点值的量化表示的向量。
系统使用解码器LSTM神经网络,举例来说,图1的解码器LSTM神经网络120,处理替代表示以生成用于输入映像的自然语言序列(步骤206)。自然语言序列是根据输出次序排列的目标自然语言中的词的序列。解码器LSTM神经网络和编码器卷积神经网络已经通过进行训练以生成对应输入映像的描述的自然语言序列被配置。
一般来说,系统使用解码器LSTM神经网络通过使用输入映像的替代表示初始化解码器LSTM的初始隐藏状态来处理替代表示。比如,系统可以提供替代表示作为到解码器LSTM神经网络的初始输入,并且解码器LSTM神经网络可以处理替代表示,以便初始化用于生成自然语言序列中的词的初始隐藏状态。
一旦使用替代表示初始化解码器LSTM神经网络的隐藏状态,解码器LSTM神经网络接收自然语言序列中的当前词,将当前词映射到数字表示,然后处理数字表示以针对来自当前输出的可能词集中的每一个并根据解码器LSTM神经网络的当前隐藏状态和参数集合的当前值生成相应的词得分。解码器LSTM神经网络还更新当前隐藏状态作为处理数字表示的一部分。
一般来说,数字表示是具有与输入映像的替代表示相同维度的固定长度表示。下面将参照图3更详细地描述使用解码器LSTM神经网络生成自然语言序列。
图3是使用解码器LSTM神经网络来生成自然语言序列的示例过程300的流程图。为了方便,过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如,映像描述系统,举例来说,图1的映像描述系统100,经适当编程,可进行过程300。
系统使用输入映像的替代表示来初始化解码器LSTM神经网络的初始隐藏状态(步骤302)。也就是说,系统提供替代表示作为到解码器LSTM神经网络的初始输入,并且解码器LSTM神经网络处理替代表示,以初始化用于生成自然语言序列中的词的初始隐藏状态。
系统根据初始隐藏状态使用解码器LSTM神经网络生成初始词得分集合(步骤304)。也就是说,系统根据初始隐藏状态使用解码器LSTM神经网络处理特殊开始词,以生成初始词得分,并使用初始隐藏状态生成更新的隐藏状态。如上所述,解码器LSTM神经网络被配置为根据解码器LSTM神经网络的当前隐藏状态和解码器LSTM神经网络的参数的当前值,将给定输入词映射到数字表示,然后处理数字表示以生成词得分集合并生成更新的隐藏状态。
系统使用初始词得分从词的词汇表中选择词作为自然语言序列中的第一词(步骤306)。在一些实施方式中,系统根据初始词得分选择最高得分的词。在一些其他实施方式中,系统根据初始词得分从词的词汇表中进行采样以选择词。
系统使用解码器LSTM神经网络处理所选择的词以生成下一词得分集合(步骤308)。也就是说,系统根据网络的更新的隐藏状态处理所选择的词以生成下一个词得分集合,并且再次更新网络的隐藏状态。
系统使用下一个词得分从词的词汇表中选择词作为自然语言序列中的下一个词(步骤310),举例来说,如上面参考步骤306所描述的。
系统可以重复步骤308和310以将词添加到自然语言序列并且更新网络的隐藏状态,直到所选择的词是停止词而不是来自词的词汇表中的一个词。系统然后可以考虑在停止词之前选择的词的序列作为自然语言序列。
在一些实施方式中,系统生成多个可能的自然语言序列,并确定用于每个可能的自然语言序列的相应序列分值。然后,系统可以选择具有最高序列得分的可能的自然语言序列作为自然语言序列。特别地,系统可以通过使用解码器LSTM神经网络进行束搜索解码来生成可能的自然语言序列。
图4是用于使用解码器LSTM神经网络进行束搜索解码的示例过程400的流程图。为了方便,过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如,映像描述系统,举例来说,图1的映像描述系统100,经适当编程,可进行过程400。
系统将解码器LSTM神经网络的初始隐藏状态初始化为输入映像的替代表示(步骤402)。
系统根据初始隐藏状态使用解码器LSTM神经网络生成初始词得分集合(步骤404)。
系统根据初始得分选择预定数目的最高得分可能的词(步骤406)。系统为每个被选择的可能词生成相应的可能的自然语言序列,每个可能的自然语言序列包括在输出次序中的第一位置处的对应被选择的可能词。系统将可能的自然语言序列与对应的可能词的初始得分相关联,作为可能的自然语言序列的序列得分。
系统为输出次序中的当前位置的每个维护的可能自然语言序列生成相应的词得分集合(步骤408)。也就是说,对于每个维护的可能自然语言序列,系统使用解码器LSTM神经网络处理可能的自然语言序列中的当前词,以根据解码器LSTM神经网络的当前隐藏状态为可能的词序列生成词得分集合。词得分集合包括用于可能词集合中的每一个的相应词得分。系统与其他维持的可能自然语言序列彼此独立地处理每个维持的可能自然语言序列,使得用于生成给定可能自然语言序列中的当前词的词得分集合的解码器LSTM的隐藏状态仅基于对可能的自然语言序列的处理,而不是针对任何其它可能的自然语言序列的所选择的词。
例如,一旦系统已经选择了用于输出次序中第一位置的可能词,则系统可以使用解码器LSTM神经网络来处理所选择的第一位置词中的每一个,以对于每个选择的第一位置词生成词得分的相应的集合。
对于每个维护的可能自然语言序列,系统为可以从可能的自然语言序列生成的每个可能的候选自然语言序列生成相应的序列得分(步骤410)。对于给定可能的自然语言序列的候选自然语言序列是将可能的词之一附加到可能的自然语言序列的结尾的序列。用于候选自然语言序列的序列得分是可能的自然语言序列的序列得分乘以附加可能词的词得分。
系统选择具有最高序列得分的预定数目的候选自然语言序列(步骤412)。
系统将维护的可能自然语言序列更新为所选择的候选自然语言序列(步骤414)。
当所选择的候选自然语言序列以停止词结束时,系统从束中移除所选择的候选自然语言序列,即,停止向所选择的候选自然语言序列添加额外的词,并且考虑在停止词被添加为最终可能的自然语言序列之前所选择的候选自然语言的序列。系统还将要维持的序列的预定数目减少一。
系统可以重复过程400的步骤408-414,直到每个维护的可能自然语言序列已经完成。然后,系统可以选择具有最高序列得分的最终可能自然语言序列作为用于输入映像的自然语言序列,或者可以提供最终可能自然语言序列中的多个作为用于输入映像的可能自然语言序列。
为了配置解码器LSTM神经网络,系统使用常规机器学习训练技术,举例来说,使用随机梯度下降,来训练网络。为了配置编码器卷积网络,系统训练具有核心层和输出层的映像分类卷积神经网络,举例来说,上面参考图1描述的映像分类神经网络,以分类映像,然后使用核心层的参数的训练值作为编码器卷积神经网络的参数的值。在一些实施方式中,系统然后可以通过将针对解码器LSTM神经网络计算的梯度反向传播回编码器卷积神经网络来联合训练网络,以在训练技术期间调整编码器卷积神经网络的参数的值。在这些实施中的一些中,系统仅调整编码器卷积神经网络的顶层的参数,同时保持在该训练期间固定的剩余层的参数的值。
在本说明书中描述的主题和功能操作的实施例可以在数字电子电路中,在有形体现的计算机软件或固件中,在计算机硬件中实施,包括在本说明书中公开的结构以及其结构等同物,或者它们中的一种或多种的组合。在本说明书中描述的主题的实施例可以实施为一个或多个计算机程序,即编码在有形非暂时性程序载体上的计算机程序指令的一个或多个模块,用于由数据处理装置执行或控制操作。可选地或另外地,程序指令可以被编码在人工生成的传播信号上,举例来说,机器生成的电、光或电磁信号,其被生成以对信息进行编码以传输到合适的接收器装置,以便由数据处理装置执行。计算机存储介质可以是机器可读存储设备,机器可读存储基板,随机或串行存取存储器设备,或它们中的一个或多个的组合。
术语“数据处理装置”囊括用于处理数据的所有种类的装置,设备和机器,包括作为示例的可编程处理器,计算机或多个处理器或计算机。该装置可以包括专用逻辑电路,举例来说,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为考虑中计算机程序创建执行环境的代码问题,举例来说,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(其还可被称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释性的语言,或声明性或过程性的语言,并且其可以以任何形式部署,包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中,举例来说,存储在标记语言文档中的一个或多个脚本,在专用于所考虑的程序的单个文件中的一个或多个脚本,或者存储在多个协同文件(举例来说,存储一个或多个模块,子程序或代码的一部分的文件)中的一个或多个脚本。计算机程序可以被部署为在一个计算机上或在位于一个站点或通过通信网络互连并分布在多个站点上的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以由进行一个或多个可编程计算机执行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来进行功能。过程和逻辑流程也可以由专用逻辑电路,举例来说,FPGA(现场可编程门阵列)或ASIC(专用集成电路)来进行,并且装置也可以最为专用逻辑电路,举例来说,FPGA(现场可编程门阵列)或ASIC(专用集成电路)来实施。
适合于执行计算机程序的计算机包括,作为示例,可以基于通用或专用微处理器或两者,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于进行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或者可操作地耦合以从其接收数据或向其传送数据的用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,举例来说,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备,举例来说,通用串行总线(USB)闪存驱动器,仅举几个例子。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器,介质和存储器设备,包括作为示例的半导体存储器设备,举例来说,EPROM,EEPROM和闪存设备;磁盘,举例来说,内部硬盘或可移动盘;磁光盘;和CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于对用户显示信息的显示设备,举例来说,CRT(阴极射线管)或LCD(液晶显示器)监视器,以及用户可以通过其向计算机提供输入键盘和指示设备,举例来说,鼠标或轨迹球,的计算机上实施。其他类型的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,举例来说,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,将网页发送到用户的客户端设备上的网络浏览器。
在本说明书中描述的主题的实施例可以在计算系统中实施,该计算系统包括后端组件,举例来说,作为数据服务器,或包括中间件组件,举例来说,应用服务器,或包括前端组件,举例来说,具有图形用户界面或网络浏览器的客户端计算机,用户可以通过其与本说明书中描述的主题的实施交互,或者一个或多个这样的后端,中间件或前端组件的组合。系统的组件可以通过任何形式或数字数据通信介质互连,举例来说,通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),举例来说,因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包含许多具体实施细节,但是这些不应被解释为对任何发明或要求保护的范围的限制,而是作为对特定发明的特定实施例具体的特征的描述。在本说明书中在分离实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离地或以任何合适的子组合来实施。此外,虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中去除,并且所要求保护的组合可以针对子组合或子组合的变体。
类似地,虽然在附图中以特定次序描绘操作,但是这不应被理解为要求这些操作以所示的特定次序或以顺序次序进行,或者所有所示的操作被进行以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中记载的动作可以以不同的次序进行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定需要所示的特定次序或顺序次序,以实现期望的结果。在某些实施中,多任务和并行处理可能是有利的。

Claims (13)

1.一种由一个或多个计算机执行的方法,所述方法包括:
获取输入映像;
使用深度卷积神经网络处理所述输入映像,以生成所述输入映像的替代表示,其中:
(i)所述深度卷积神经网络包括多个核心神经网络层,每个核心神经网络层由具有当前值的相应参数集合来定义,所述当前值是通过在多个训练映像上训练具有所述多个核心神经网络层的第二神经网络而确定的,以及
(ii)通过下述方式来部分地训练所述第二神经网络:利用所述第二神经网络的输出层并且针对每个训练映像来处理所述多个核心神经网络层中的最后核心神经网络层的输出,以针对多个对象类别中的每一个生成相应得分,所述相应得分表示所述训练映像包含来自所述对象类别的对象的映像的预测似然性;以及
使用第三神经网络处理所述输入映像的所述替代表示,以生成描述所述输入映像的目标自然语言中的多个词的序列。
2.根据权利要求1所述的方法,
其中,使用所述深度卷积神经网络处理所述输入映像包括:通过所述核心神经网络层的每一个处理所述输入映像,以及
其中,所述输入映像的所述替代表示是由所述深度卷积神经网络的所述多个核心神经网络层中的最后核心神经网络层生成的输出。
3.根据权利要求1所述的方法,其中,所述第三神经网络是长短期存储器LSTM神经网络。
4.根据权利要求3所述的方法,其中,所述LSTM神经网络被配置为:
接收所述序列中的当前词作为输入,
将所述当前词映射到所述当前词的数字表示,以及
处理所述数字表示,以根据所述LSTM神经网络的当前隐藏状态和所述LSTM神经网络的参数集合的当前值来生成词集合中的每个词的相应词得分,所述相应词得分表示所述词是所述序列中的下一个词的相应似然性。
5.根据权利要求4所述的方法,其中,所述输入映像的所述替代表示具有与所述数字表示相同的维度。
6.根据权利要求4所述的方法,其中,所述词集合包括所述目标自然语言中的词的词汇表和特殊停止词。
7.根据权利要求6所述的方法,其中,使用所述LSTM神经网络处理所述输入映像的所述替代表示包括:使用所述输入映像的所述替代表示来初始化所述LSTM神经网络的所述隐藏状态。
8.根据权利要求7所述的方法,其中,所述序列中的词根据输出次序排列,并且其中,处理所述输入映像的所述替代表示还包括,对于所述输出次序中的初始位置:
使用所述LSTM神经网络来处理特定开始词,以生成所述词集合中每个词的相应初始词得分;以及
使用所述初始词得分,从所述词集合中选择词作为在所述输出次序中所述初始位置处的词。
9.根据权利要求8所述的方法,其中,处理所述输入映像的所述替代表示还包括,对于所述输出次序中所述初始位置之后的每个位置:
使用所述LSTM神经网络来处理所述输出次序中先前位置处的词,以生成所述词集合中每个词的相应下一个词得分;以及
使用所述下一个词得分,从所述词集合中选择词作为所述输出次序中所述位置处的词。
10.根据权利要求9所述的方法,其中,处理所述输入映像的所述替代表示包括:
确定在所述输出次序中的特定位置处针对所述特定位置所选择的词是所述特殊停止词;以及
作为响应,输出在所述输出次序中在所述特定位置之前的位置处所选择的词作为描述所述输入映像的词序列。
11.根据权利要求3所述的方法,其中,使用所述第三神经网络处理所述输入映像的所述替代表示包括:
使用所述LSTM神经网络、使用左到右束搜索解码来处理所述替代表示,以生成多个可能序列和所述可能序列中每一个的相应序列得分;以及
选择一个或多个最高得分可能序列作为所述输入映像的描述。
12.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统,所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机进行权利要求1-11中任一项所述的相应方法的操作。
13.一种编码有指令的计算机存储介质,当所述指令由一个或多个计算机执行时,使得所述一个或多个计算机进行根据权利要求1-11中任一项所述的相应的方法的操作。
CN201580032854.0A 2014-11-14 2015-11-13 生成映像的自然语言描述 Active CN106462802B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910624318.XA CN110443351B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462080081P 2014-11-14 2014-11-14
US62/080,081 2014-11-14
PCT/US2015/060743 WO2016077797A1 (en) 2014-11-14 2015-11-13 Generating natural language descriptions of images

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201910624318.XA Division CN110443351B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Publications (2)

Publication Number Publication Date
CN106462802A CN106462802A (zh) 2017-02-22
CN106462802B true CN106462802B (zh) 2019-08-06

Family

ID=54834905

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201580032854.0A Active CN106462802B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述
CN201910624318.XA Active CN110443351B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201910624318.XA Active CN110443351B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Country Status (4)

Country Link
US (4) US9858524B2 (zh)
EP (1) EP3218854B1 (zh)
CN (2) CN106462802B (zh)
WO (1) WO2016077797A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853861B2 (en) 2017-05-19 2023-12-26 Deepmind Technologies Limited Generating output examples using bit blocks

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858524B2 (en) * 2014-11-14 2018-01-02 Google Inc. Generating natural language descriptions of images
US10289912B1 (en) * 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
US10997472B2 (en) 2016-05-20 2021-05-04 Deepmind Technologies Limited Classifying input examples using a comparison set
US10395356B2 (en) * 2016-05-25 2019-08-27 Kla-Tencor Corp. Generating simulated images from input images for semiconductor applications
WO2017210613A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Natural language generation in a spoken dialogue system
KR20180003123A (ko) 2016-06-30 2018-01-09 삼성전자주식회사 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망
US10387769B2 (en) 2016-06-30 2019-08-20 Samsung Electronics Co., Ltd. Hybrid memory cell unit and recurrent neural network including hybrid memory cell units
KR101886373B1 (ko) * 2016-07-14 2018-08-09 주식회사 언더핀 딥러닝 인공신경망 기반의 타스크 제공 플랫폼
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
WO2018094294A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
MX2019005955A (es) 2016-11-22 2019-07-10 Hyperfine Res Inc Sistemas y metodos para deteccion automatizada en imagenes de resonancia magnetica.
US10627464B2 (en) 2016-11-22 2020-04-21 Hyperfine Research, Inc. Low-field magnetic resonance imaging methods and apparatus
US10241684B2 (en) * 2017-01-12 2019-03-26 Samsung Electronics Co., Ltd System and method for higher order long short-term memory (LSTM) network
JP6791780B2 (ja) * 2017-02-16 2020-11-25 株式会社日立製作所 文章作成装置
CN117648971A (zh) 2017-03-24 2024-03-05 谷歌有限责任公司 利用强化学习的设备布局优化
EP3563302A1 (en) * 2017-04-20 2019-11-06 Google LLC Processing sequential data using recurrent neural networks
CN110663049B (zh) * 2017-04-28 2023-12-26 谷歌有限责任公司 神经网络优化器搜索
EP3399460B1 (en) 2017-05-02 2019-07-17 Dassault Systèmes Captioning a region of an image
JP7023613B2 (ja) * 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
CN110770760B (zh) * 2017-05-19 2024-01-12 渊慧科技有限公司 视觉交互网络系统及其方法、训练方法和计算机存储介质
CN110770759B (zh) * 2017-05-19 2023-12-29 渊慧科技有限公司 神经网络系统
EP3596666A1 (en) 2017-05-19 2020-01-22 Google LLC Multi-task multi-modal machine learning model
US11934935B2 (en) 2017-05-20 2024-03-19 Deepmind Technologies Limited Feedforward generative neural networks
RU2021116658A (ru) * 2017-05-23 2021-07-05 ГУГЛ ЭлЭлСи Нейронные сети с преобразованием последовательности на основе внимания
KR102608683B1 (ko) * 2017-07-16 2023-11-30 쥐에스아이 테크놀로지 인코포레이티드 Knn을 이용한 자연 언어 처리
WO2019024083A1 (en) * 2017-08-04 2019-02-07 Nokia Technologies Oy ARTIFICIAL NEURONAL NETWORK
KR102483643B1 (ko) 2017-08-14 2023-01-02 삼성전자주식회사 모델을 학습하는 방법 및 장치 및 상기 뉴럴 네트워크를 이용한 인식 방법 및 장치
WO2019040136A1 (en) * 2017-08-23 2019-02-28 Google Llc MULTI-SCALE QUANTIFICATION FOR QUICK SIMILARITY SEARCH
CN111279359A (zh) * 2017-09-19 2020-06-12 拉莫特特拉维夫大学有限公司 用于图像内容识别的方法及系统
CN107679619B (zh) * 2017-10-13 2020-04-24 中国人民解放军信息工程大学 一种类卷积人工神经网络的构造方法及装置
CN111386536B (zh) * 2017-10-27 2024-01-23 谷歌有限责任公司 语义一致的图像样式转换的方法和系统
US11556786B2 (en) * 2017-10-27 2023-01-17 Google Llc Attention-based decoder-only sequence transduction neural networks
CN118194921A (zh) * 2017-10-27 2024-06-14 谷歌有限责任公司 基于关注的图像生成神经网络
CN108052512B (zh) * 2017-11-03 2021-05-11 同济大学 一种基于深度注意力机制的图像描述生成方法
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
US11836610B2 (en) * 2017-12-13 2023-12-05 Advanced Micro Devices, Inc. Concurrent training of functional subnetworks of a neural network
US11720804B2 (en) * 2018-01-21 2023-08-08 Microsoft Technology Licensing, Llc. Data-driven automatic code review
US11941044B2 (en) 2018-01-26 2024-03-26 Walmart Apollo, Llc Automatic personalized image-based search
WO2019177344A1 (en) * 2018-03-12 2019-09-19 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
DE102018213191A1 (de) * 2018-05-09 2019-11-14 Conti Temic Microelectronic Gmbh Verfahren zur Fahrspur- und Fahrbahndetektion
CN108764141B (zh) * 2018-05-25 2021-07-02 广州虎牙信息科技有限公司 一种游戏场景描述方法、装置、设备及其存储介质
CN110147538B (zh) * 2018-07-05 2023-04-07 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
US10671909B2 (en) * 2018-09-27 2020-06-02 Google Llc Decreasing neural network inference times using softmax approximation
EP3834137A1 (en) 2018-09-27 2021-06-16 DeepMind Technologies Limited Committed information rate variational autoencoders
US11270084B2 (en) * 2018-10-12 2022-03-08 Johnson Controls Tyco IP Holdings LLP Systems and methods for using trigger words to generate human-like responses in virtual assistants
US11636673B2 (en) * 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US11544531B2 (en) * 2018-12-05 2023-01-03 Seoul National University R&Db Foundation Method and apparatus for generating story from plurality of images by using deep learning network
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN111767694B (zh) * 2019-03-26 2024-04-16 北京京东尚科信息技术有限公司 文本生成方法、装置和计算机可读存储介质
CN111813978A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种图像描述模型的生成方法、生成装置和存储介质
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
EP3935633B1 (en) * 2019-04-30 2023-12-27 DeepMind Technologies Limited Bandwidth extension of incoming data using neural networks
US10992619B2 (en) * 2019-04-30 2021-04-27 Snap Inc. Messaging system with avatar generation
CN111915339A (zh) * 2019-05-09 2020-11-10 阿里巴巴集团控股有限公司 数据的处理方法、装置及设备
CN110929640B (zh) * 2019-11-20 2023-04-07 西安电子科技大学 一种基于目标检测的宽幅遥感描述生成方法
CN110969137A (zh) * 2019-12-10 2020-04-07 杭州群核信息技术有限公司 家居图像描述生成方法、装置、系统及存储介质
CN111144553B (zh) * 2019-12-28 2023-06-23 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN113794915B (zh) * 2021-09-13 2023-05-05 海信电子科技(武汉)有限公司 服务器、显示设备、诗词歌赋生成方法及媒资播放方法
US11701546B1 (en) * 2022-01-17 2023-07-18 Tonal Systems, Inc. Exercise machine struggle detection
CN115273810A (zh) * 2022-07-04 2022-11-01 成都理工大学 基于深度学习的多模态图像语音解读方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1869965A (zh) * 2005-05-26 2006-11-29 国际商业机器公司 经由神经网络选择网格执行器的方法和设备
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1008316A (en) 1911-04-15 1911-11-14 Edward A Eustice Driving mechanism.
US1018109A (en) 1911-07-20 1912-02-20 Delvin B Harris Rodent-exterminator.
US1022911A (en) 1911-08-10 1912-04-09 Charles Hudson Mower Tapping device for sieves or screens.
US1025526A (en) 1911-09-06 1912-05-07 Farbenfab Vorm Bayer F & Co Arylalkylbarbituric acid.
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US8874434B2 (en) * 2010-06-02 2014-10-28 Nec Laboratories America, Inc. Method and apparatus for full natural language parsing
EP2649558A4 (en) * 2010-12-09 2017-08-09 Nanyang Technological University Method and an apparatus for determining vein patterns from a colour image
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9477654B2 (en) * 2014-04-01 2016-10-25 Microsoft Corporation Convolutional latent semantic models and their applications
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US20160034812A1 (en) * 2014-07-31 2016-02-04 Qualcomm Incorporated Long short-term memory using a spiking neural network
US9858524B2 (en) * 2014-11-14 2018-01-02 Google Inc. Generating natural language descriptions of images
US10409908B2 (en) * 2014-12-19 2019-09-10 Google Llc Generating parse trees of text segments using neural networks
US20170140240A1 (en) * 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US10083169B1 (en) * 2015-08-28 2018-09-25 Google Llc Topic-based sequence modeling neural networks
US10504010B2 (en) * 2015-10-02 2019-12-10 Baidu Usa Llc Systems and methods for fast novel visual concept learning from sentence descriptions of images
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
CN108604227B (zh) * 2016-01-26 2023-10-24 皇家飞利浦有限公司 用于神经临床释义生成的系统和方法
US10229111B1 (en) * 2016-02-03 2019-03-12 Google Llc Sentence compression using recurrent neural networks
CN109155003B (zh) * 2016-02-05 2023-09-15 渊慧科技有限公司 生成神经网络
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
EP3433795A4 (en) * 2016-03-24 2019-11-13 Ramot at Tel-Aviv University Ltd. METHOD AND SYSTEM FOR CONVERTING A TEXT IMAGE
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
US9881208B2 (en) * 2016-06-20 2018-01-30 Machine Learning Works, LLC Neural network based recognition of mathematical expressions
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
KR20180077689A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 자연어 생성 장치 및 방법
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
US10817552B2 (en) * 2017-03-27 2020-10-27 Microsoft Technology Licensing, Llc Input-output example encoding
US10565318B2 (en) * 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US11934934B2 (en) * 2017-04-17 2024-03-19 Intel Corporation Convolutional neural network optimization mechanism
EP3399460B1 (en) * 2017-05-02 2019-07-17 Dassault Systèmes Captioning a region of an image
US11275989B2 (en) * 2017-05-22 2022-03-15 Sap Se Predicting wildfires on the basis of biophysical indicators and spatiotemporal properties using a long short term memory network
KR20190007816A (ko) * 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
US20190035020A1 (en) * 2017-07-27 2019-01-31 Hcl Technologies Limited Method for assigning a trade instruction to a trading system belonging to a financial institution
JP7030853B2 (ja) * 2017-07-28 2022-03-07 グーグル エルエルシー 電子健康記録から医療イベントを予測して要約するためのシステムおよび方法
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US20190147355A1 (en) * 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
US10489639B2 (en) * 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
US10817042B2 (en) * 2018-09-27 2020-10-27 Intel Corporation Power savings for neural network architecture with zero activations during inference

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1869965A (zh) * 2005-05-26 2006-11-29 国际商业机器公司 经由神经网络选择网格执行器的方法和设备
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models;Ryan Kiros等;《http://arxiv.org/pdf/1411.2539v1.pdf》;20141110;第1-13页

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853861B2 (en) 2017-05-19 2023-12-26 Deepmind Technologies Limited Generating output examples using bit blocks

Also Published As

Publication number Publication date
US20200042866A1 (en) 2020-02-06
CN110443351B (zh) 2021-05-28
US10832124B2 (en) 2020-11-10
US20180204112A1 (en) 2018-07-19
WO2016077797A1 (en) 2016-05-19
US10417557B2 (en) 2019-09-17
CN110443351A (zh) 2019-11-12
US20160140435A1 (en) 2016-05-19
US20210125038A1 (en) 2021-04-29
US9858524B2 (en) 2018-01-02
US12014259B2 (en) 2024-06-18
EP3218854A1 (en) 2017-09-20
EP3218854B1 (en) 2021-01-06
CN106462802A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106462802B (zh) 生成映像的自然语言描述
US10409908B2 (en) Generating parse trees of text segments using neural networks
US10559300B2 (en) Generating target sequences from input sequences using partial conditioning
US20170192956A1 (en) Generating parse trees of text segments using neural networks
CN106056213B (zh) 使用目标和观察来选择强化学习动作
KR102424540B1 (ko) 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
US20200279162A1 (en) Selecting action slates using reinforcement learning
CN105940395B (zh) 生成文档的矢量表示
CN106462801A (zh) 在分区训练数据上训练神经网络
CN106471526B (zh) 用于处理图像的方法和系统
JP6636172B2 (ja) グローバルに正規化されたニューラルネットワーク
CN107870902A (zh) 神经机器翻译系统
CN107145940A (zh) 压缩的递归神经网络模型
CN110366734A (zh) 优化神经网络架构
CN111667057B (zh) 用于搜索模型结构的方法和装置
CN109328362A (zh) 渐进式神经网络
CN109791631A (zh) 奖励增强模型训练
JP2019511033A5 (zh)
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
CN110462638A (zh) 使用后验锐化训练神经网络
CN111914994B (zh) 多层感知机的生成方法、装置、电子设备及存储介质
US20220138531A1 (en) Generating output sequences from input sequences using neural networks
CN116610797A (zh) 文本情感分类模型的训练方法、装置、电子设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant