CN110443351A - 生成映像的自然语言描述 - Google Patents

生成映像的自然语言描述 Download PDF

Info

Publication number
CN110443351A
CN110443351A CN201910624318.XA CN201910624318A CN110443351A CN 110443351 A CN110443351 A CN 110443351A CN 201910624318 A CN201910624318 A CN 201910624318A CN 110443351 A CN110443351 A CN 110443351A
Authority
CN
China
Prior art keywords
word
input image
output
sequence
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910624318.XA
Other languages
English (en)
Other versions
CN110443351B (zh
Inventor
萨米·本希奥
奥里奥尔·温亚尔斯
亚历山大·托什科夫·托舍夫
杜米特鲁·埃尔汉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110443351A publication Critical patent/CN110443351A/zh
Application granted granted Critical
Publication of CN110443351B publication Critical patent/CN110443351B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

公开了生成映像的自然语言描述。用于生成输入映像的描述的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。方法之一包括获取输入映像;使用第一神经网络处理输入映像以生成输入映像的替代表示;以及使用第二神经网络处理输入映像的替代表示以生成描述输入映像的目标自然语言中的多个词的序列。

Description

生成映像的自然语言描述
本申请是分案申请,原案的申请号是201580032854.0,申请日是2015-11-13,发明名称是“生成映像的自然语言描述”。
技术领域
本申请涉及生成映像的自然语言描述。
背景技术
本说明书涉及使用神经网络生成输入映像的自然语言描述。
神经网络(Neural networks)是采用一个或多个非线性单元层来预测对于接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出用做网络中下一层——即下一隐藏层或输出层——的输入。网络的每层根据相应的参数集合的当前值从接收的输入生成输出。
一些神经网络是回归神经网络。回归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地,回归神经网络可以使用来自先前时间步骤的网络的内部状态的一些或全部计算当前时间步骤处的输出。回归神经网络的示例是包括一个或多个长短期存储器(LSTM)存储器块的LSTM神经网络。每个LSTM存储器块可以包括一个或多个单体,每个单体包括输入门,遗忘门和输出门,其允许该单体存储该单体的先前状态,举例来说,用于生成当前激活或将被提供到LSTM神经网络的其他组件。
发明内容
本说明书描述了被实施为在一个或多个位置中的一个或多个计算机上的计算机程序的系统如何可以生成映像的自然语言描述。
可以实施本说明书中描述的主题的特定实施例,以便实现以下优点中的一个或多个。通过生成适当形成的自然语言词序列,可以训练系统自动描述输入映像的内容。有利地,与先前方法不同,系统可以是使用随机梯度下降完全可训练的端到端系统,并且能够比先前方法在映像描述任务上产生更好的性能。系统生成的词序列不仅可以捕获包含在映像中的对象,而且还可以表现对象如何相互关联以及它们的属性和它们涉及的活动。为了生成描述,神经网络有效地将用于视觉理解的模型与语言模型结合。
在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据描述、附图和权利要求,主题的其他特征,方面和优点将变得显而易见。
附图说明
图1示出了示例映像描述系统。
图2是生成输入映像的自然语言描述的流程图。
图3是使用解码器LSTM神经网络生成自然语言序列的示例过程的流程图。
图4是使用解码器LSTM神经网络进行束搜索解码的示例过程的流程图。
各个附图中相同的附图标记和指定指示相同的元件。
具体实施方式
图1示出了示例映像描述系统100。映像描述系统100是在一个或多个位置中的一个或多个计算机上实施为计算机程序的系统的示例,其中可以实施下面描述的系统,组件和技术。
映像描述系统100接收输入映像102并且生成用于输入映像102的自然语言序列122。自然语言序列122是描述输入映像102的目标自然语言中的词序列。由映像描述系统100生成的自然语言序列通常是可变长度序列,即可以包含目标自然语言中的不同数量的词的序列。
映像描述系统100包括编码器卷积神经网络110和解码器LSTM神经网络120。
作为生成输入映像102的自然语言序列122的一部分,映像描述系统100使用编码器卷积神经网络110处理输入映像102,以生成输入映像102的替代表示112。
编码器卷积神经网络110是接收输入映像并根据参数集合从输入映像生成替代表示的卷积神经网络。
具体地,编码器卷积神经网络可以是另一个深度卷积神经网络的一部分,其已经被配置为对映像中的对象进行分类,即接收输入映像,并且对于每个输入映像,为对象类别的预定集合的每个对象类别生成相应的得分。给定类别的得分表示输入映像包括类别中的对象的映像的似然性。
更具体地,另一映像分类神经网络包括多个核心层和输出层。核心层共同地处理输入映像以生成输入映像的替代表示,并且输出层从核心层接收替代表示,并且从替代表示生成输入映像的类别得分。例如,输出层可以是softmax层。用于对映像中的对象进行分类的这种深度卷积神经网络的示例在C.Szegedy,W.Liu,Y.Ja,P.Sermanet,S.Reed,D.Unguelov,D.Erhan,V.Vanhoucke和A.Rabinovich的“Going deeper with convolutions(深入卷积)”,参见http://arxiv.org/pdf/1409.4842,有详细的描述。
编码器卷积神经网络110可以是除去输出层的另一个深度卷积神经网络,使得编码器卷积神经网络110仅包括来自另一个深度卷积神经网络的核心层,并且由用于输入映像102的编码器卷积神经网络110生成的输出是替代表示122。
下面参照图2更详细地描述使用编码器卷积神经网络110生成替代表示。
映像描述系统100使用解码器LSTM神经网络120处理输入映像102的所生成的替代表示122,以生成用于输入映像102的自然语言序列122。
解码器LSTM神经网络120是包括一个或多个LSTM神经网络层的LSTM神经网络,其中每个LSTM层包括一个或多个LSTM存储器块。每个LSTM存储器块可以包括一个或多个单体,每个单体包括输入门、遗忘门和输出门,其允许单体存储由单体生成的先前激活,举例来说,作为用于生成当前激活或提供给LSTM神经网络110的其他组件的隐藏状态。在“Generating sequences with recurrent neural networks(利用回归神经网络生成序列)”,Alex Graves,参见http://arxiv.org/abs/1308.0850v5,更详细地描述示例LSTM神经网络。
特别地,解码器LSTM神经网络120被配置为接收自然语言序列中的当前词,并且针对来自当前词的可能词集合中的每一个以及根据解码器LSTM神经网络120的当前隐藏状态和参数集合的当前值生成相应的得分。给定词的词得分表示词是自然语言序列中的下一个词的似然性,即,输出紧接着自然语言序列中的当前词的似然性。作为生成词得分的一部分,解码器LSTM神经网络120还更新网络的隐藏状态以生成更新的隐藏状态。
可能词集合包括目标自然语言中的词的词汇表和指定的停止词。停止词是不在自然语言中的词的词汇表中的指定词。
使用解码器LSTM神经网络处理替代表示以生成自然语言序列在下文中参照图2和图3更详细地描述。
图2是用于从输入映像生成自然语言序列的示例过程200的流程图。为了方便,过程200将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如,映像描述系统,举例来说,图1的映像描述系统100,经适当编程,可进行过程200。
系统获取输入映像(步骤202)。
系统使用编码器卷积神经网络,举例来说,图1的编码器卷积神经网络110,来处理输入映像以将输入映像生成为输入映像的替代表示(步骤204)。也就是说,系统通过编码器卷积神经网络中的每个核心层处理输入映像,以生成替代表示,即替代表示是编码器卷积神经网络中最后核心层的输出。
因此,因为替代表示是最后核心层的输出,所以输入映像的替代表示是固定长度表示,即替代表示中的元素的数目是固定的,并且不依赖于输入映像。比如,替代表示可以是具有固定维度的数值的向量,举例来说,浮点值的向量或浮点值的量化表示的向量。
系统使用解码器LSTM神经网络,举例来说,图1的解码器LSTM神经网络120,处理替代表示以生成用于输入映像的自然语言序列(步骤206)。自然语言序列是根据输出次序排列的目标自然语言中的词的序列。解码器LSTM神经网络和编码器卷积神经网络已经通过进行训练以生成对应输入映像的描述的自然语言序列被配置。
一般来说,系统使用解码器LSTM神经网络通过使用输入映像的替代表示初始化解码器LSTM的初始隐藏状态来处理替代表示。比如,系统可以提供替代表示作为到解码器LSTM神经网络的初始输入,并且解码器LSTM神经网络可以处理替代表示,以便初始化用于生成自然语言序列中的词的初始隐藏状态。
一旦使用替代表示初始化解码器LSTM神经网络的隐藏状态,解码器LSTM神经网络接收自然语言序列中的当前词,将当前词映射到数字表示,然后处理数字表示以针对来自当前输出的可能词集中的每一个并根据解码器LSTM神经网络的当前隐藏状态和参数集合的当前值生成相应的词得分。解码器LSTM神经网络还更新当前隐藏状态作为处理数字表示的一部分。
一般来说,数字表示是具有与输入映像的替代表示相同维度的固定长度表示。下面将参照图3更详细地描述使用解码器LSTM神经网络生成自然语言序列。
图3是使用解码器LSTM神经网络来生成自然语言序列的示例过程300的流程图。为了方便,过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如,映像描述系统,举例来说,图1的映像描述系统100,经适当编程,可进行过程300。
系统使用输入映像的替代表示来初始化解码器LSTM神经网络的初始隐藏状态(步骤302)。也就是说,系统提供替代表示作为到解码器LSTM神经网络的初始输入,并且解码器LSTM神经网络处理替代表示,以初始化用于生成自然语言序列中的词的初始隐藏状态。
系统根据初始隐藏状态使用解码器LSTM神经网络生成初始词得分集合(步骤304)。也就是说,系统根据初始隐藏状态使用解码器LSTM神经网络处理特殊开始词,以生成初始词得分,并使用初始隐藏状态生成更新的隐藏状态。如上所述,解码器LSTM神经网络被配置为根据解码器LSTM神经网络的当前隐藏状态和解码器LSTM神经网络的参数的当前值,将给定输入词映射到数字表示,然后处理数字表示以生成词得分集合并生成更新的隐藏状态。
系统使用初始词得分从词的词汇表中选择词作为自然语言序列中的第一词(步骤306)。在一些实施方式中,系统根据初始词得分选择最高得分的词。在一些其他实施方式中,系统根据初始词得分从词的词汇表中进行采样以选择词。
系统使用解码器LSTM神经网络处理所选择的词以生成下一词得分集合(步骤308)。也就是说,系统根据网络的更新的隐藏状态处理所选择的词以生成下一个词得分集合,并且再次更新网络的隐藏状态。
系统使用下一个词得分从词的词汇表中选择词作为自然语言序列中的下一个词(步骤310),举例来说,如上面参考步骤306所描述的。
系统可以重复步骤308和310以将词添加到自然语言序列并且更新网络的隐藏状态,直到所选择的词是停止词而不是来自词的词汇表中的一个词。系统然后可以考虑在停止词之前选择的词的序列作为自然语言序列。
在一些实施方式中,系统生成多个可能的自然语言序列,并确定用于每个可能的自然语言序列的相应序列分值。然后,系统可以选择具有最高序列得分的可能的自然语言序列作为自然语言序列。特别地,系统可以通过使用解码器LSTM神经网络进行束搜索解码来生成可能的自然语言序列。
图4是用于使用解码器LSTM神经网络进行束搜索解码的示例过程400的流程图。为了方便,过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统进行。比如,映像描述系统,举例来说,图1的映像描述系统100,经适当编程,可进行过程400。
系统将解码器LSTM神经网络的初始隐藏状态初始化为输入映像的替代表示(步骤402)。
系统根据初始隐藏状态使用解码器LSTM神经网络生成初始词得分集合(步骤404)。
系统根据初始得分选择预定数目的最高得分可能的词(步骤406)。系统为每个被选择的可能词生成相应的可能的自然语言序列,每个可能的自然语言序列包括在输出次序中的第一位置处的对应被选择的可能词。系统将可能的自然语言序列与对应的可能词的初始得分相关联,作为可能的自然语言序列的序列得分。
系统为输出次序中的当前位置的每个维护的可能自然语言序列生成相应的词得分集合(步骤408)。也就是说,对于每个维护的可能自然语言序列,系统使用解码器LSTM神经网络处理可能的自然语言序列中的当前词,以根据解码器LSTM神经网络的当前隐藏状态为可能的词序列生成词得分集合。词得分集合包括用于可能词集合中的每一个的相应词得分。系统与其他维持的可能自然语言序列彼此独立地处理每个维持的可能自然语言序列,使得用于生成给定可能自然语言序列中的当前词的词得分集合的解码器LSTM的隐藏状态仅基于对可能的自然语言序列的处理,而不是针对任何其它可能的自然语言序列的所选择的词。
例如,一旦系统已经选择了用于输出次序中第一位置的可能词,则系统可以使用解码器LSTM神经网络来处理所选择的第一位置词中的每一个,以对于每个选择的第一位置词生成词得分的相应的集合。
对于每个维护的可能自然语言序列,系统为可以从可能的自然语言序列生成的每个可能的候选自然语言序列生成相应的序列得分(步骤410)。对于给定可能的自然语言序列的候选自然语言序列是将可能的词之一附加到可能的自然语言序列的结尾的序列。用于候选自然语言序列的序列得分是可能的自然语言序列的序列得分乘以附加可能词的词得分。
系统选择具有最高序列得分的预定数目的候选自然语言序列(步骤412)。
系统将维护的可能自然语言序列更新为所选择的候选自然语言序列(步骤414)。
当所选择的候选自然语言序列以停止词结束时,系统从束中移除所选择的候选自然语言序列,即,停止向所选择的候选自然语言序列添加额外的词,并且考虑在停止词被添加为最终可能的自然语言序列之前所选择的候选自然语言的序列。系统还将要维持的序列的预定数目减少一。
系统可以重复过程400的步骤408-414,直到每个维护的可能自然语言序列已经完成。然后,系统可以选择具有最高序列得分的最终可能自然语言序列作为用于输入映像的自然语言序列,或者可以提供最终可能自然语言序列中的多个作为用于输入映像的可能自然语言序列。
为了配置解码器LSTM神经网络,系统使用常规机器学习训练技术,举例来说,使用随机梯度下降,来训练网络。为了配置编码器卷积网络,系统训练具有核心层和输出层的映像分类卷积神经网络,举例来说,上面参考图1描述的映像分类神经网络,以分类映像,然后使用核心层的参数的训练值作为编码器卷积神经网络的参数的值。在一些实施方式中,系统然后可以通过将针对解码器LSTM神经网络计算的梯度反向传播回编码器卷积神经网络来联合训练网络,以在训练技术期间调整编码器卷积神经网络的参数的值。在这些实施中的一些中,系统仅调整编码器卷积神经网络的顶层的参数,同时保持在该训练期间固定的剩余层的参数的值。
在本说明书中描述的主题和功能操作的实施例可以在数字电子电路中,在有形体现的计算机软件或固件中,在计算机硬件中实施,包括在本说明书中公开的结构以及其结构等同物,或者它们中的一种或多种的组合。在本说明书中描述的主题的实施例可以实施为一个或多个计算机程序,即编码在有形非暂时性程序载体上的计算机程序指令的一个或多个模块,用于由数据处理装置执行或控制操作。可选地或另外地,程序指令可以被编码在人工生成的传播信号上,举例来说,机器生成的电、光或电磁信号,其被生成以对信息进行编码以传输到合适的接收器装置,以便由数据处理装置执行。计算机存储介质可以是机器可读存储设备,机器可读存储基板,随机或串行存取存储器设备,或它们中的一个或多个的组合。
术语“数据处理装置”囊括用于处理数据的所有种类的装置,设备和机器,包括作为示例的可编程处理器,计算机或多个处理器或计算机。该装置可以包括专用逻辑电路,举例来说,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,该装置还可以包括为考虑中计算机程序创建执行环境的代码问题,举例来说,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。
计算机程序(其还可被称为或描述为程序、软件、软件应用程序、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写,包括编译或解释性的语言,或声明性或过程性的语言,并且其可以以任何形式部署,包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程或其它单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中,举例来说,存储在标记语言文档中的一个或多个脚本,在专用于所考虑的程序的单个文件中的一个或多个脚本,或者存储在多个协同文件(举例来说,存储一个或多个模块,子程序或代码的一部分的文件)中的一个或多个脚本。计算机程序可以被部署为在一个计算机上或在位于一个站点或通过通信网络互连并分布在多个站点上的多个计算机上执行。
本说明书中描述的过程和逻辑流程可以由进行一个或多个可编程计算机执行一个或多个计算机程序,以通过对输入数据进行操作并生成输出来进行功能。过程和逻辑流程也可以由专用逻辑电路,举例来说,FPGA(现场可编程门阵列)或ASIC(专用集成电路)来进行,并且装置也可以最为专用逻辑电路,举例来说,FPGA(现场可编程门阵列)或ASIC(专用集成电路)来实施。
适合于执行计算机程序的计算机包括,作为示例,可以基于通用或专用微处理器或两者,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于进行或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括或者可操作地耦合以从其接收数据或向其传送数据的用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入在另一设备中,举例来说,移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备,举例来说,通用串行总线(USB)闪存驱动器,仅举几个例子。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器,介质和存储器设备,包括作为示例的半导体存储器设备,举例来说,EPROM,EEPROM和闪存设备;磁盘,举例来说,内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于对用户显示信息的显示设备,举例来说,CRT(阴极射线管)或LCD(液晶显示器)监视器,以及用户可以通过其向计算机提供输入键盘和指示设备,举例来说,鼠标或轨迹球,的计算机上实施。其他类型的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感觉反馈,举例来说,视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求,将网页发送到用户的客户端设备上的网络浏览器。
在本说明书中描述的主题的实施例可以在计算系统中实施,该计算系统包括后端组件,举例来说,作为数据服务器,或包括中间件组件,举例来说,应用服务器,或包括前端组件,举例来说,具有图形用户界面或网络浏览器的客户端计算机,用户可以通过其与本说明书中描述的主题的实施交互,或者一个或多个这样的后端,中间件或前端组件的组合。系统的组件可以通过任何形式或数字数据通信介质互连,举例来说,通信网络。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),举例来说,因特网。
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。
尽管本说明书包含许多具体实施细节,但是这些不应被解释为对任何发明或要求保护的范围的限制,而是作为对特定发明的特定实施例具体的特征的描述。在本说明书中在分离实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中分离地或以任何合适的子组合来实施。此外,虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中去除,并且所要求保护的组合可以针对子组合或子组合的变体。
类似地,虽然在附图中以特定次序描绘操作,但是这不应被理解为要求这些操作以所示的特定次序或以顺序次序进行,或者所有所示的操作被进行以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中记载的动作可以以不同的次序进行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定需要所示的特定次序或顺序次序,以实现期望的结果。在某些实施中,多任务和并行处理可能是有利的。

Claims (20)

1.具有在其上编码的指令的一种或多种非暂时性计算机存储介质,所述指令当由一个或多个计算机执行时使得所述一个或多个计算机执行操作,所述操作包括:
获得输入映像;
使用第一神经网络处理所述输入映像,以生成所述输入映像的替代表示;以及
利用回归神经网络处理所述输入映像的所述替代表示,以生成描述所述输入映像的目标自然语言的词的输出序列,其中:
所述输出序列中的词根据输出次序排列,以及
处理所述输入映像的所述替代表示包括,对于所述输出次序中在初始位置之后的每个位置:
(i)识别为所述输出序列所选择的、在所述输出次序中位于当前位置之前的在前位置处的词;
(ii)利用所述回归神经网络来处理表示为所述输出序列所选择的、在所述输出次序中位于所述在前位置处的所述词的数据,以生成可能词的预定义集合中的词的相应词得分,以及
(iii)从所述可能词的预定义集合中并基于所述相应词得分,选择在所述输出次序中的所述当前位置的所述输出序列的特定词。
2.根据权利要求1所述的一种或多种计算机存储介质,其中所述回归神经网络是长短期存储器LSTM神经网络,并且其中处理所述输入映像的替代表示还包括,对于所述输出次序中的所述初始位置:
利用所述LSTM神经网络来处理特殊开始词,以生成所述可能词的预定义集合中的词的相应词得分;
从所述可能词的预定义集合中并根据所述相应词得分,选择所述词的所述输出序列的输出次序中的初始位置的特定词。
3.根据权利要求1所述的一种或多种计算机存储介质,其中处理所述输入的替代表示还包括:
使用左到右束搜索解码来生成每个所述可能序列的多个可能序列和相应序列得分;以及
选择一个或多个得分最高的可能序列作为所述输入映像的描述。
4.根据权利要求1所述的一种或多种计算机存储介质,其中所述第一神经网络和所述回归神经网络是联合训练的。
5.根据权利要求1所述的一种或多种计算机存储介质,其中,所述第一神经网络是深度卷积神经网络。
6.根据权利要求5所述的一种或多种计算机存储介质,其中:
所述深度卷积神经网络包括多个核心神经网络层,每个核心神经网络层具有相应参数集合;
使用所述第一神经网络处理所述输入映像包括:通过所述深度卷积神经网络的每个所述核心神经网络层来处理所述输入映像;以及
所述输入映像的所述替代表示是由所述多个核心神经网络层中的最后核心神经网络层所生成的输出。
7.根据权利要求6所述的一种或多种计算机存储介质,其中:
通过在多个训练映像上训练第三神经网络来确定所述相应参数集合的当前值;以及
所述第三神经网络包括多个核心神经网络层和输出层,所述输出层被配置为:对于每个训练映像,接收由所述最后核心神经网络层针对所述训练映像所生成的输出,并针对多个对象类别中的每一个对象类别生成相应得分,所述多个对象类别中的每一个对象类别的所述相应得分表示所述训练映像包含来自所述对象类别中的对象的映像的预测似然性。
8.根据权利要求1所述的一种或多种计算机存储介质,其中,所述可能词的预定义集合包括所述目标自然语言中的词的词汇表和特殊停止词。
9.一种计算机实现的方法,包括:
获得输入映像;
使用第一神经网络处理所述输入映像,以生成所述输入映像的替代表示;以及
利用回归神经网络处理所述输入映像的所述替代表示,以生成描述所述输入映像的目标自然语言的词的输出序列,其中:
所述输出序列中的词根据输出次序排列,以及
处理所述输入映像的所述替代表示包括,对于所述输出次序中的初始位置之后的每个位置:
(i)识别为所述输出序列所选择的、在所述输出次序中位于当前位置之前的在前位置处的词;
(ii)利用所述回归神经网络来处理表示为所述输出序列所选择的、在所述输出次序中位于所述在前位置处的所述词的数据,以生成可能词的预定义集合中的词的相应词得分,以及
(iii)从所述可能词的预定义集合中并基于所述相应词得分,选择在所述输出次序中的所述当前位置的所述输出序列的特定词。
10.根据权利要求9所述的计算机实现的方法,其中所述回归神经网络是长短期存储器LSTM神经网络,并且其中处理所述输入映像的替代表示还包括,对于所述输出次序中的所述初始位置:
利用所述LSTM神经网络来处理特殊开始词,以生成所述可能词的预定义集合中的词的相应词得分;
从所述可能词的预定义集合中并根据所述相应词得分,选择所述词的所述输出序列的输出次序中的所述初始位置的特定词。
11.根据权利要求9所述的计算机实现的方法,其中处理所述输入的替代表示还包括:
使用左到右束搜索解码来生成每个所述可能序列的多个可能序列和相应序列得分;以及
选择一个或多个得分最高的可能序列作为所述输入映像的描述。
12.根据权利要求9所述的计算机实现的方法,其中所述第一神经网络和所述回归神经网络是联合训练的。
13.根据权利要求9所述的计算机实现的方法,其中,所述第一神经网络是深度卷积神经网络。
14.根据权利要求13所述的计算机实现的方法,其中:
所述深度卷积神经网络包括多个核心神经网络层,每个核心神经网络层具有相应参数集合;
使用所述第一神经网络处理所述输入映像包括:通过所述深度卷积神经网络的每个所述核心神经网络层来处理所述输入映像;以及
所述输入映像的所述替代表示是由所述多个核心神经网络层中的最后核心神经网络层所生成的输出。
15.根据权利要求14所述的计算机实现的方法,其中:
通过在多个训练映像上训练第三神经网络来确定所述相应参数集合的当前值;以及
所述第三神经网络包括多个核心神经网络层和输出层,所述输出层被配置为:对于每个训练映像,接收由所述最后核心神经网络层针对所述训练映像所生成的输出,并针对多个对象类别中的每一个对象类别生成相应得分,所述多个对象类别中的每一个对象类别的所述相应得分表示所述训练映像包含来自所述对象类别中的对象的映像的预测似然性。
16.根据权利要求9所述的计算机实现的方法,其中,所述可能词的预定义集合包括所述目标自然语言中的词的词汇表和特殊停止词。
17.一种包括一个或多个计算机和存储指令的一个或多个存储设备的系统,所述指令在由所述一个或多个计算机执行时能够使所述一个或多个计算机执行操作,所述操作包括:
获得输入映像;
使用第一神经网络处理所述输入映像,以生成所述输入映像的替代表示;以及
利用回归神经网络处理所述输入映像的所述替代表示,以生成描述所述输入映像的目标自然语言的词的输出序列,其中:
所述输出序列中的词根据输出次序排列,以及
处理所述输入映像的所述替代表示包括,对于所述输出次序中的初始位置之后的每个位置:
(i)识别为所述输出序列所选择的、在所述输出次序中位于当前位置之前的在前位置处的词;
(ii)利用所述回归神经网络来处理表示为所述输出序列所选择的、在所述输出次序中位于所述在前位置处的所述词的数据,以生成可能词的预定义集合中的词的相应词得分,以及
(iii)从所述可能词的预定义集合中并基于所述相应词得分,选择在所述输出次序中的所述当前位置的所述输出序列的特定词。
18.根据权利要求17所述的系统,其中所述回归神经网络是长短期存储器LSTM神经网络,并且其中处理所述输入映像的替代表示还包括,对于所述输出次序中的所述初始位置:
利用所述LSTM神经网络来处理特殊开始词,以生成所述可能词的预定义集合中的词的相应词得分;
从所述可能词的预定义集合中并根据所述相应词得分,选择所述词的所述输出序列的输出次序中的所述初始位置的特定词。
19.根据权利要求17所述的系统,其中处理所述输入的替代表示还包括:
使用左到右束搜索解码来生成每个所述可能序列的多个可能序列和相应序列得分;以及
选择一个或多个得分最高的可能序列作为所述输入映像的描述。
20.根据权利要求17所述的系统,其中,所述第一神经网络是深度卷积神经网络。
CN201910624318.XA 2014-11-14 2015-11-13 生成映像的自然语言描述 Active CN110443351B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462080081P 2014-11-14 2014-11-14
US62/080,081 2014-11-14
CN201580032854.0A CN106462802B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201580032854.0A Division CN106462802B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Publications (2)

Publication Number Publication Date
CN110443351A true CN110443351A (zh) 2019-11-12
CN110443351B CN110443351B (zh) 2021-05-28

Family

ID=54834905

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201580032854.0A Active CN106462802B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述
CN201910624318.XA Active CN110443351B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201580032854.0A Active CN106462802B (zh) 2014-11-14 2015-11-13 生成映像的自然语言描述

Country Status (4)

Country Link
US (5) US9858524B2 (zh)
EP (1) EP3218854B1 (zh)
CN (2) CN106462802B (zh)
WO (1) WO2016077797A1 (zh)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106462802B (zh) * 2014-11-14 2019-08-06 谷歌有限责任公司 生成映像的自然语言描述
US10289912B1 (en) * 2015-04-29 2019-05-14 Google Llc Classifying videos using neural networks
JP6671515B2 (ja) * 2016-05-20 2020-03-25 ディープマインド テクノロジーズ リミテッド 比較セットを使用する入力例の分類
US10395356B2 (en) * 2016-05-25 2019-08-27 Kla-Tencor Corp. Generating simulated images from input images for semiconductor applications
CN109219812B (zh) * 2016-06-03 2023-12-12 微软技术许可有限责任公司 口语对话系统中的自然语言生成
KR20180003123A (ko) 2016-06-30 2018-01-09 삼성전자주식회사 메모리 셀 유닛 및 메모리 셀 유닛들을 포함하는 순환 신경망
US10387769B2 (en) 2016-06-30 2019-08-20 Samsung Electronics Co., Ltd. Hybrid memory cell unit and recurrent neural network including hybrid memory cell units
KR101886373B1 (ko) * 2016-07-14 2018-08-09 주식회사 언더핀 딥러닝 인공신경망 기반의 타스크 제공 플랫폼
IE87469B1 (en) * 2016-10-06 2024-01-03 Google Llc Image processing neural networks with separable convolutional layers
WO2018094296A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Sentinel long short-term memory
US10565305B2 (en) 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10627464B2 (en) 2016-11-22 2020-04-21 Hyperfine Research, Inc. Low-field magnetic resonance imaging methods and apparatus
US10955504B2 (en) 2016-11-22 2021-03-23 Hyperfine Research, Inc. Systems and methods for automated detection in magnetic resonance images
US10241684B2 (en) * 2017-01-12 2019-03-26 Samsung Electronics Co., Ltd System and method for higher order long short-term memory (LSTM) network
JP6791780B2 (ja) * 2017-02-16 2020-11-25 株式会社日立製作所 文章作成装置
EP3559868A1 (en) 2017-03-24 2019-10-30 Google LLC Device placement optimization with reinforcement learning
WO2018195459A1 (en) * 2017-04-20 2018-10-25 Google Llc Processing sequential data using recurrent neural networks
CN110663049B (zh) * 2017-04-28 2023-12-26 谷歌有限责任公司 神经网络优化器搜索
EP3399460B1 (en) 2017-05-02 2019-07-17 Dassault Systèmes Captioning a region of an image
JP7023613B2 (ja) * 2017-05-11 2022-02-22 キヤノン株式会社 画像認識装置および学習装置
WO2018211143A1 (en) * 2017-05-19 2018-11-22 Deepmind Technologies Limited Neural network system
CN117915108A (zh) * 2017-05-19 2024-04-19 渊慧科技有限公司 视觉交互网络系统及其方法、训练方法和计算机存储介质
US11468295B2 (en) 2017-05-19 2022-10-11 Deepmind Technologies Limited Generating output examples using bit blocks
EP3596666A1 (en) * 2017-05-19 2020-01-22 Google LLC Multi-task multi-modal machine learning model
TWI767000B (zh) * 2017-05-20 2022-06-11 英商淵慧科技有限公司 產生波形之方法及電腦儲存媒體
RU2021116658A (ru) * 2017-05-23 2021-07-05 ГУГЛ ЭлЭлСи Нейронные сети с преобразованием последовательности на основе внимания
KR102608683B1 (ko) * 2017-07-16 2023-11-30 쥐에스아이 테크놀로지 인코포레이티드 Knn을 이용한 자연 언어 처리
WO2019024083A1 (en) * 2017-08-04 2019-02-07 Nokia Technologies Oy ARTIFICIAL NEURONAL NETWORK
KR102483643B1 (ko) 2017-08-14 2023-01-02 삼성전자주식회사 모델을 학습하는 방법 및 장치 및 상기 뉴럴 네트워크를 이용한 인식 방법 및 장치
US11531695B2 (en) * 2017-08-23 2022-12-20 Google Llc Multiscale quantization for fast similarity search
EP3685312A4 (en) * 2017-09-19 2021-06-16 Ramot at Tel-Aviv University Ltd. METHOD AND SYSTEM FOR DETECTION OF IMAGE CONTENT
CN107679619B (zh) * 2017-10-13 2020-04-24 中国人民解放军信息工程大学 一种类卷积人工神经网络的构造方法及装置
US11556786B2 (en) * 2017-10-27 2023-01-17 Google Llc Attention-based decoder-only sequence transduction neural networks
CN111386536B (zh) * 2017-10-27 2024-01-23 谷歌有限责任公司 语义一致的图像样式转换的方法和系统
US10839259B2 (en) 2017-10-27 2020-11-17 Google Llc Attention-based image generation neural networks
CN108052512B (zh) * 2017-11-03 2021-05-11 同济大学 一种基于深度注意力机制的图像描述生成方法
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
US11836610B2 (en) * 2017-12-13 2023-12-05 Advanced Micro Devices, Inc. Concurrent training of functional subnetworks of a neural network
US11720804B2 (en) * 2018-01-21 2023-08-08 Microsoft Technology Licensing, Llc. Data-driven automatic code review
US11941044B2 (en) 2018-01-26 2024-03-26 Walmart Apollo, Llc Automatic personalized image-based search
US10970900B2 (en) * 2018-03-12 2021-04-06 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
DE102018213191A1 (de) * 2018-05-09 2019-11-14 Conti Temic Microelectronic Gmbh Verfahren zur Fahrspur- und Fahrbahndetektion
WO2019219968A1 (en) * 2018-05-18 2019-11-21 Deepmind Technologies Limited Visual speech recognition by phoneme prediction
CN108764141B (zh) * 2018-05-25 2021-07-02 广州虎牙信息科技有限公司 一种游戏场景描述方法、装置、设备及其存储介质
CN110147538B (zh) 2018-07-05 2023-04-07 腾讯科技(深圳)有限公司 图片集描述生成方法、装置和计算机设备
EP3834137A1 (en) 2018-09-27 2021-06-16 DeepMind Technologies Limited Committed information rate variational autoencoders
CN111008689B (zh) * 2018-09-27 2024-01-26 谷歌有限责任公司 使用softmax近似来减少神经网络推理时间
US11270084B2 (en) * 2018-10-12 2022-03-08 Johnson Controls Tyco IP Holdings LLP Systems and methods for using trigger words to generate human-like responses in virtual assistants
US10854109B2 (en) 2018-10-31 2020-12-01 Sony Interactive Entertainment Inc. Color accommodation for on-demand accessibility
US11375293B2 (en) 2018-10-31 2022-06-28 Sony Interactive Entertainment Inc. Textual annotation of acoustic effects
US10977872B2 (en) 2018-10-31 2021-04-13 Sony Interactive Entertainment Inc. Graphical style modification for video games using machine learning
US11636673B2 (en) * 2018-10-31 2023-04-25 Sony Interactive Entertainment Inc. Scene annotation using machine learning
US11544531B2 (en) * 2018-12-05 2023-01-03 Seoul National University R&Db Foundation Method and apparatus for generating story from plurality of images by using deep learning network
US20220129740A1 (en) * 2019-01-23 2022-04-28 Google Llc Convolutional neural networks with soft kernel selection
WO2020186484A1 (zh) * 2019-03-20 2020-09-24 深圳大学 图片自动生成描述的方法、系统、电子装置及存储介质
CN111767694B (zh) * 2019-03-26 2024-04-16 北京京东尚科信息技术有限公司 文本生成方法、装置和计算机可读存储介质
CN111813978A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 一种图像描述模型的生成方法、生成装置和存储介质
CN110084250B (zh) * 2019-04-26 2024-03-12 北京金山数字娱乐科技有限公司 一种图像描述的方法及系统
US10992619B2 (en) * 2019-04-30 2021-04-27 Snap Inc. Messaging system with avatar generation
EP3935633B1 (en) * 2019-04-30 2023-12-27 DeepMind Technologies Limited Bandwidth extension of incoming data using neural networks
CN111915339A (zh) * 2019-05-09 2020-11-10 阿里巴巴集团控股有限公司 数据的处理方法、装置及设备
CN110929640B (zh) * 2019-11-20 2023-04-07 西安电子科技大学 一种基于目标检测的宽幅遥感描述生成方法
CN110969137A (zh) * 2019-12-10 2020-04-07 杭州群核信息技术有限公司 家居图像描述生成方法、装置、系统及存储介质
CN111144553B (zh) * 2019-12-28 2023-06-23 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN113794915B (zh) * 2021-09-13 2023-05-05 海信电子科技(武汉)有限公司 服务器、显示设备、诗词歌赋生成方法及媒资播放方法
US11701546B1 (en) * 2022-01-17 2023-07-18 Tonal Systems, Inc. Exercise machine struggle detection
CN115273810A (zh) * 2022-07-04 2022-11-01 成都理工大学 基于深度学习的多模态图像语音解读方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
WO2012078114A1 (en) * 2010-12-09 2012-06-14 Nanyang Technological University Method and an apparatus for determining vein patterns from a colour image

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1008316A (en) 1911-04-15 1911-11-14 Edward A Eustice Driving mechanism.
US1018109A (en) 1911-07-20 1912-02-20 Delvin B Harris Rodent-exterminator.
US1022911A (en) 1911-08-10 1912-04-09 Charles Hudson Mower Tapping device for sieves or screens.
US1025526A (en) 1911-09-06 1912-05-07 Farbenfab Vorm Bayer F & Co Arylalkylbarbituric acid.
US20070005530A1 (en) * 2005-05-26 2007-01-04 International Business Machines Corporation Selecting grid executors via a neural network
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US8874434B2 (en) * 2010-06-02 2014-10-28 Nec Laboratories America, Inc. Method and apparatus for full natural language parsing
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
US9477654B2 (en) * 2014-04-01 2016-10-25 Microsoft Corporation Convolutional latent semantic models and their applications
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US20160034812A1 (en) * 2014-07-31 2016-02-04 Qualcomm Incorporated Long short-term memory using a spiking neural network
CN106462802B (zh) * 2014-11-14 2019-08-06 谷歌有限责任公司 生成映像的自然语言描述
US10409908B2 (en) * 2014-12-19 2019-09-10 Google Llc Generating parse trees of text segments using neural networks
US20170140240A1 (en) * 2015-07-27 2017-05-18 Salesforce.Com, Inc. Neural network combined image and text evaluator and classifier
US10083169B1 (en) * 2015-08-28 2018-09-25 Google Llc Topic-based sequence modeling neural networks
US10504010B2 (en) * 2015-10-02 2019-12-10 Baidu Usa Llc Systems and methods for fast novel visual concept learning from sentence descriptions of images
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks
CN108604227B (zh) * 2016-01-26 2023-10-24 皇家飞利浦有限公司 用于神经临床释义生成的系统和方法
US10229111B1 (en) * 2016-02-03 2019-03-12 Google Llc Sentence compression using recurrent neural networks
US10176424B2 (en) * 2016-02-05 2019-01-08 Deepmind Technologies Limited Generative neural networks
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos
US20190087677A1 (en) * 2016-03-24 2019-03-21 Ramot At Tel-Aviv University Ltd. Method and system for converting an image to text
US9760806B1 (en) * 2016-05-11 2017-09-12 TCL Research America Inc. Method and system for vision-centric deep-learning-based road situation analysis
US9881208B2 (en) * 2016-06-20 2018-01-30 Machine Learning Works, LLC Neural network based recognition of mathematical expressions
US10565305B2 (en) * 2016-11-18 2020-02-18 Salesforce.Com, Inc. Adaptive attention model for image captioning
US10445431B1 (en) * 2016-12-22 2019-10-15 Shutterstock, Inc. Language translation of text input using an embedded set for images and for multilanguage text strings
KR20180077689A (ko) * 2016-12-29 2018-07-09 주식회사 엔씨소프트 자연어 생성 장치 및 방법
US10255269B2 (en) * 2016-12-30 2019-04-09 Microsoft Technology Licensing, Llc Graph long short term memory for syntactic relationship discovery
US10817552B2 (en) * 2017-03-27 2020-10-27 Microsoft Technology Licensing, Llc Input-output example encoding
US10565318B2 (en) * 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
US10474709B2 (en) * 2017-04-14 2019-11-12 Salesforce.Com, Inc. Deep reinforced model for abstractive summarization
US11934934B2 (en) * 2017-04-17 2024-03-19 Intel Corporation Convolutional neural network optimization mechanism
EP3399460B1 (en) * 2017-05-02 2019-07-17 Dassault Systèmes Captioning a region of an image
US11275989B2 (en) * 2017-05-22 2022-03-15 Sap Se Predicting wildfires on the basis of biophysical indicators and spatiotemporal properties using a long short term memory network
KR20190007816A (ko) * 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
US20190035020A1 (en) * 2017-07-27 2019-01-31 Hcl Technologies Limited Method for assigning a trade instruction to a trading system belonging to a financial institution
KR20200003407A (ko) * 2017-07-28 2020-01-09 구글 엘엘씨 전자 건강 기록으로부터 의료 이벤트를 예측 및 요약하기 위한 시스템 및 방법
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
US20190147355A1 (en) * 2017-11-14 2019-05-16 International Business Machines Corporation Self-critical sequence training of multimodal systems
US10304208B1 (en) * 2018-02-12 2019-05-28 Avodah Labs, Inc. Automated gesture identification using neural networks
US10489639B2 (en) * 2018-02-12 2019-11-26 Avodah Labs, Inc. Automated sign language translation and communication using multiple input and output modalities
US10817042B2 (en) * 2018-09-27 2020-10-27 Intel Corporation Power savings for neural network architecture with zero activations during inference

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6847737B1 (en) * 1998-03-13 2005-01-25 University Of Houston System Methods for performing DAF data filtering and padding
WO2012078114A1 (en) * 2010-12-09 2012-06-14 Nanyang Technological University Method and an apparatus for determining vein patterns from a colour image

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALEX GRAVES: ""Sequence Transduction with Recurrent Neural Networks"", 《HTTP://ARXIV.ORG/PDF/1411.2539V1.PDF》 *
RYAN KIROS等人: ""Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models"", 《HTTP://ARXIV.ORG/PDF/1211.3711.PDF》 *

Also Published As

Publication number Publication date
US20200042866A1 (en) 2020-02-06
US20240296313A1 (en) 2024-09-05
US12014259B2 (en) 2024-06-18
WO2016077797A1 (en) 2016-05-19
US20210125038A1 (en) 2021-04-29
US10417557B2 (en) 2019-09-17
US20180204112A1 (en) 2018-07-19
CN106462802B (zh) 2019-08-06
CN106462802A (zh) 2017-02-22
CN110443351B (zh) 2021-05-28
EP3218854B1 (en) 2021-01-06
US10832124B2 (en) 2020-11-10
US9858524B2 (en) 2018-01-02
EP3218854A1 (en) 2017-09-20
US20160140435A1 (en) 2016-05-19

Similar Documents

Publication Publication Date Title
CN106462802B (zh) 生成映像的自然语言描述
US20200251099A1 (en) Generating Target Sequences From Input Sequences Using Partial Conditioning
CN106471526B (zh) 用于处理图像的方法和系统
CN106056213B (zh) 使用目标和观察来选择强化学习动作
CN105940395B (zh) 生成文档的矢量表示
US20160180215A1 (en) Generating parse trees of text segments using neural networks
JP6676165B2 (ja) 畳み込みゲート制御再帰型ニューラルネットワーク
CN106462801A (zh) 在分区训练数据上训练神经网络
KR102424540B1 (ko) 문장 생성 모델의 업데이트 방법 및 문장 생성 장치
US10699187B2 (en) Selecting action slates using reinforcement learning
JP6636172B2 (ja) グローバルに正規化されたニューラルネットワーク
US10860928B2 (en) Generating output data items using template data items
CN108431832B (zh) 利用外部存储器扩增神经网络
CN110520871A (zh) 训练机器学习模型
CN110366734A (zh) 优化神经网络架构
CN109844773A (zh) 使用卷积神经网络处理序列
CN108140143A (zh) 正则化机器学习模型
CN109791631A (zh) 奖励增强模型训练
CN109923560A (zh) 使用变分信息瓶颈来训练神经网络
CN105160397A (zh) 训练精炼的机器学习模型
CN110825884A (zh) 基于人工智能的嵌入表示处理方法、装置及电子设备
CN110326002A (zh) 使用在线注意的序列处理
CN108475345A (zh) 生成较大神经网络
JP7044839B2 (ja) エンドツーエンドモデルのトレーニング方法および装置
CN109190754A (zh) 量化模型生成方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant