CN105868829A - 用于数据项生成的循环神经网络 - Google Patents

用于数据项生成的循环神经网络 Download PDF

Info

Publication number
CN105868829A
CN105868829A CN201610139237.7A CN201610139237A CN105868829A CN 105868829 A CN105868829 A CN 105868829A CN 201610139237 A CN201610139237 A CN 201610139237A CN 105868829 A CN105868829 A CN 105868829A
Authority
CN
China
Prior art keywords
decoder
neutral net
time step
data item
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610139237.7A
Other languages
English (en)
Other versions
CN105868829B (zh
Inventor
卡罗尔·格雷戈尔
伊沃·达尼赫尔卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DeepMind Technologies Ltd
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Priority to CN202110924961.1A priority Critical patent/CN113705779B/zh
Publication of CN105868829A publication Critical patent/CN105868829A/zh
Application granted granted Critical
Publication of CN105868829B publication Critical patent/CN105868829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及用于数据项生成的循环神经网络。一种方法,包括:使用前一时间步的解码器的解码器隐藏状态向量,从所述数据项读取一瞥;作为编码器的输入,提供所述一瞥和所述前一时间步的所述解码器隐藏状态向量以用于处理;作为所述编码器的输出,接收该时间步的所生成的编码器隐藏状态向量;从所述所生成的编码器隐藏状态向量生成解码器输入;将所述解码器输入提供给所述解码器以用于处理;作为所述解码器的输出,接收该时间步的所生成的解码器隐藏状态向量;从该时间步的所述解码器隐藏状态向量生成神经网络输出更新;以及将所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。

Description

用于数据项生成的循环神经网络
技术背景
本说明书涉及通过循环神经网络的层处理输入以产生输出。
神经网络是机器学习模型,其采用非线性单元的一个或多个层来预测对于所接收输入的输出。除了输出层之外,一些神经网络包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层即下一隐藏层或输出层的输入。网络的每一层根据各自的参数集合的当前值从所接收的输入生成输出。
一些神经网络是循环神经网络。循环神经网络是一种接收输入序列并从输入序列生成输出序列的神经网络。尤其是,循环神经网络可将来自前一时间步的网络的一些或全部内部状态用在计算当前时间步的输出中。循环神经网络的示例是长短期记忆(LSTM)神经网络,其包括一个或多个LSTM记忆块。每个LSTM记忆块可以包括一个或多个单元,每个单元包括输入门、遗忘门、和输出门,其允许该单元存储该单元的先前状态,例如用于生成当前激活或被提供给LSTM神经网络的其它组件。
发明内容
一般来说,本说明书中描述的主题的一个创新方面可在系统中实现,所述系统包括:编码器神经网络,其中,该编码器神经网络是循环神经网络,其被配置成,对于由该编码器神经网络处理的每个输入数据项和在多个步中的每个时间步处:接收通过从所述输入数据项读取而捕获的一瞥(glimpse);接收前一时间步的解码器神经网络的解码器隐藏状态向量;处理该一瞥、解码器隐藏状态向量、和前一时间步的所述编码器神经网络的编码器隐藏状态向量,以生成该时间步的编码器隐藏状态向量;解码器神经网络,其中该解码器神经网络是一种循环神经网络,其被配置成,对于多个时间步中的每个:接收该时间步的解码器输入,以及处理前一时间步的解码器隐藏状态向量和该解码器输入,以生成该时间步的解码器隐藏状态向量;子系统,其中,该子系统配置成,对于时间步中的每个时间步来说:使用前一时间步的解码器隐藏状态向量,从所述输入数据项读取该一瞥;提供该一瞥作为所述编码器神经网络的输入;在该时间步处从编码器隐藏状态向量生成所述解码器神经网络的解码器输入;提供该解码器输入作为该时间步的所述解码器神经网络的输入;从该时间步的解码器隐藏状态向量生成该时间步的神经网络输出更新;以及将所述该时间步的神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
该方面的其它实施例包括在一个或多个计算机存储设备上记录的计算机程序,所述计算机程序被配置成使一个或多个计算机实现包括由子系统执行的操作的系统和方法。一个或多个计算机的系统可以被配置成借助于按照在系统上在操作中可使得系统执行动作的软件、固件、硬件、或其任何组合来执行特定的操作或动作。一个或多个计算机程序可以被配置成借助于包括指令而执行特定操作或动作,所述指令在由数据处理装置执行时,使得该装置执行动作。
本说明书中描述的主题可在特定实施例中实现,以便实现下列优点中的一个或多个优点。
一种实现用于数据项生成的深度循环注意写入器神经网络架构(deep recurrent attentive writer neural network)的系统将模仿人眼孔隙的空间注意(spatial attention)机构与使得能够迭代构建复杂图像的连续变化自动编码框架(sequential variational autoencoding framework)相结合。该系统可用于生成高质量图像,例如无法用裸眼与真实数据相区分的高度逼真自然的图像。
与通过单程生成整个场景立刻自动生成图像的标准系统(例如以单个潜在分布上的像素为条件的生成性神经网络(eg.generative neuralnetworks that condition pixels on a single latent distribution))不同,实现深度循环注意写入器神经网络架构的系统应用了自然形式的图像构建,在其中从其它部分独立地创建场景的部分并连续精细化近似草图。实现深度循环注意写入器神经网络架构而因此不排除迭代自校正的可能性的系统,改善了所构建图像的精确性和质量。此外,与不包括深度循环注意写入器神经网络架构的标准系统不同,通过应用自然形式的图像构建,实现深度循环注意写入器神经网络架构的系统易于扩展成大图像。
经由通过累加包括在架构中的解码器所发出的修改来迭代地构建场景,其中每个场景由包括在架构中的编码器进行观察,该实现深度循环注意写入器神经网络架构的系统可选择性地注意场景的特定部分而忽略其它部分,因此改善了所构建图像的视觉结构。此外,与实现连续注意(sequential attention)模型的其它系统不同,该系统可学习何处看见何时执行部分一瞥序列,因为深度循环注意写入器神经网络模型是完全可辨的,并且可用标准反向传播技术训练。例如,在某些情况下,该系统可参数化潜在变量分布,其是对角高斯分布,其可使得能够使用诸如再参数化技巧(reparameterization trick)的标准技术容易地获得关于分布参数的潜在变量样本的函数梯度,进而通过潜在分布使得能够进行无偏差、低方差随机梯度的损失函数的直接反向传播。
也被应用于图像生成任务,实现深度循环注意写入器神经网络架构的系统中嵌入的注意机构可进一步应用于图像分类任务、图像修复绘图、语音生成任务、或图像分割任务。
本说明书的主题的一个或多个实施例的细节在附图和下面描述中阐述。主题的其它特征、方面、和优点将从描述、附图、和权利要求而变得显而易见。
附图说明
图1示出了示例数据项生成系统。
图2是用于生成更新的神经网络输出的示例处理的流程图。
图3是用于使用编码器神经网络处理一瞥的示例处理的流程图。
图4是用于使用解码器神经网络处理解码器输入的示例处理的流程图。
各个附图中相同附图标记和名称指示相同元件。
具体实施方式
图1示出了用于生成神经网络输出的示例数据项生成系统100。该数据项生成系统100是实现为在一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例,在其中可实现下面描述的系统、组件、和技术。
数据项生成系统100获得输入数据项并处理所述输入数据项,以生成针对每个输入数据项的相应神经网络输出,例如针对数据项108的神经网络输出110。针对给定输入数据项的所生成的神经网络输出可以是所述输入数据项的重构版本,或者是可以进而用于重构所述输入数据项的画布矩阵(canvas matrices)。例如,输入数据项(例如输入数据项108)可以是来自视频的图像或帧,并且所生成的神经网络输出可以是重构的图像或该视频的逐帧重构。输入数据项被提供给数据项生成系统100并在时间步序列中的每个时间步处读取。时间步序列中的时间步的数目可被视为预先指定的自由参数。
数据项生成系统100包括读取子系统101、编码器神经网络102、解码器输入子系统104、解码器神经网络106、以及写入子系统108。编码器神经网络102压缩在训练期间接收的数据项,并且解码器神经网络106在接收到代码后重组数据项。可使用标准训练技术(例如利用适当的损失函数的随机梯度下降方法)对数据项生成系统100的组件进行端到端训练。
编码器神经网络102和解码器神经网络106是循环神经网络,在每个时间步处,其接收各自的输入并使用该输入更新神经网络的相应隐藏状态。在一些实施方式中,编码器神经网络102和解码器神经网络106是包括一个或多个LSTM神经网络层的长短期记忆(LSTM)神经网络,其中每个LSTM层包括一个或多个LSTM记忆块。每个LSTM记忆块能够包括一个或多个单元,每个单元包括输入门、遗忘门、和输出门,其允许该单元存储由该单元生成的先前激活,例如作为在生成当前激活过程中使用或者被提供给LSTM神经网络110的其它组件的隐藏状态。示例LSTM神经网络在“利用循环神经网络生成序列(Generating sequences with recurrent neual networks)”中更详细地描述,Alex Gravestone,在http://arxiv.org/abs/1308.0850v5处可用。在该说明书中,编码器神经网络102的隐藏状态将被称为编码器隐藏状态,并且解码器神经网络106的隐藏状态将被称为解码器隐藏状态。
读取子系统101接收数据项输入(例如数据项输入108),以及在时间步序列中的每个时间步处,使用前一时间步的解码器隐藏状态向量从输入数据输入项读取一瞥。前一时间步的解码器隐藏状态向量指定读取子系统101应读取数据输入项的哪部分,并且进而限制由编码器神经网络102观察到的输入数据项的输入区域。读取子系统101提供该一瞥作为编码器神经网络102的输入。
在时间步序列中的每个时间步处,解码器输入子系统104使用该时间步的编码器隐藏状态向量(例如编码器隐藏状态向量114)生成解码器输入(例如解码器输入116),并在该时间步处,将所生成的该时间步的解码器输入提供给解码器神经网络106作为解码器神经网络106的输入。
在时间步序列中的每个时间步处,写入子系统108进一步使用该时间步的解码器隐藏状态向量(例如解码器隐藏状态向量118)生成该时间步的神经网络输出更新,并将该神经网络输出更新与当前神经网络输出相结合以生成更新的神经网络输出。例如,写入子系统108可以被配置成经由到用于重构数据项的累加画布矩阵的写入操作,而添加神经网络输出更新。在最近时间步之后所更新的神经网络输出可被视为针对该输入数据项的神经网络输出。下面参照图2更详细地描述从输入数据项生成更新的神经网络输出。
在一些实施方式中,数据项生成系统100可训练编码器神经网络102和解码器神经网络104来自动编码输入数据项。例如,数据项生成子系统100可以训练编码器神经网络102和解码器神经网络106来生成更新的神经网络输出110,更新的神经网络输出110是输入数据项108的重构。
在时间步序列中的每个时间步处,编码器神经网络102接收一瞥例如通过从输入数据项x(例如输入数据项108)读取而捕获的一瞥(例如一瞥120),以及前一时间步的解码器神经网络106的解码器隐藏状态作为输入。编码器神经网络102处理一瞥120、前一解码器隐藏状态向量、和来自前一时间步的编码器神经网络102的编码器隐藏状态向量,以生成更新的编码器隐藏状态向量(例如编码器隐藏状态向量114)。下面将参照图3更详细描述地使用编码器神经网络处理一瞥。
在时间步序列中的每个时间步处,解码器神经网络106接收所输入的解码器输入(例如解码器输入116)。解码器神经网络106处理该解码器输入116和前一时间步的解码器隐藏状态向量,以生成该时间步的解码器隐藏状态向量,例如解码器隐藏状态向量118。下面参照图4更详细地描述使用解码器神经网络处理解码器输入。
一旦所述组件已训练好,则数据项生成系统100可使用解码器神经网络106用于数据生成任务,而不用编码器神经网络102。例如,图像可通过从先前分布中迭代地选择潜在变量样本并运行解码器神经网络106以更新画布矩阵来生成。在重复该处理固定数目后,数据项生成系统100可输出最终的画布矩阵作为新生成的图像。
图2是用于在给定时间步处从数据项输入生成更新的神经网络输出的示例处理200的流程图。为了方便,过程300将被描述成由位于一个或多个位置处的一个或多个计算机的系统执行。例如,被适当地编程的包括编码器神经网络和解码器神经网络的数据项生成系统(例如图1的数据项生成系统100),可执行处理300。
该系统在时间步t处使用前一时间步t-1的解码器神经网络的解码器隐藏状态向量从输入数据项x读取一瞥(步骤202)。前一时间步的解码器神经网络的隐藏状态向量指定在每个时间步处该系统应读取何处。在一些实施方式中,该系统可进一步使用多步先前时间步的编码器隐藏状态向量从输入数据项读取一瞥。
在一些实施方式中,数据项x是图像并且通过从输入数据项读取而由该系统捕获的一瞥是图像分块。图像分块可通过对该图像应用高斯滤波器阵列来生成,其中用于应用高斯滤波器阵列的参数是通过对前一时间步的解码器隐藏状态向量应用线性变换而生成的。例如,在2D高斯滤波器阵列被应用于该图像的情况下二维形式的注意(attention)可以被使用,而产生平滑改变位置和缩放的图像分块。在其它实施方式中,输入数据项是视频。在另外的实施方式中,输入数据项是语音片段或语音片段的特征。
该系统将(i)一瞥和(ii)前一时间步的解码器隐藏状态向量作为输入提供给编码器神经网络以用于处理(步骤204)。提供给编码器神经网络的输入的精确形式取决于上面步骤202中执行的读取操作。由于编码器与解码器的先前输出有关联,因此编码器能够根据解码器到目前为止的行为定制其发送的代码。下面参照图3更详细地描述通过编码器神经网络处理一瞥和解码器隐藏状态向量。
该系统接收该时间步的所生成的编码器隐藏状态向量作为从编码器神经网络的输出(步骤206)。编码器神经网络的输出可用于在时间步t处通过潜在变量计算近似后端,例如编码器的输出可用于参数化潜在变量向量zt上的分布在一些实施方式中,该潜在分布是对角高斯分布。
在一些实施方式中,该系统提供针对特定数据项的来自该时间步的编码器隐藏状态向量作为该特定数据项的特征,其中在半监督学习过程中,该特定数据项的特征被提供用于处理该特定数据项。
该系统在该时间步处从所生成的编码器隐藏状态向量生成解码器神经网络的解码器输入(步骤208)。在一些实施方式中,通过使用该时间步的编码器隐藏状态向量来参数化本征向量的分布以及从该分布中采样解码器输入,该系统可以在该时间步处从编码器隐藏状态向量生成解码器神经网络的解码器输入。例如,该系统可以从上文参照步骤206所述的潜在分布中绘制采样该时间步的编码器隐藏状态向量以及因此的潜在分布取决于输入数据项x和先前潜在样本z1:t-1的历史。
该系统提供解码器输入作为解码器神经网络的输入以用于处理(步骤210)。下面参照图4更详细地描述使用解码器神经网络处理解码器输入。
该系统接收该时间步的所生成的解码器隐藏状态向量作为解码器神经网络的输出(步骤212)。该时间步的所生成的解码器隐藏状态向量可在后一时间步(例如时间步序列中的下一时间步t+1)处存储和/或提供给编码器神经网络。编码器神经网络因此与解码器的先前输出有关,允许编码器神经网络根据解码器到目前为止的行为定制其发送的代码。
该系统从该时间步的解码器隐藏状态向量生成该时间步的神经网络输出更新(步骤214),并将该神经网络输出更新与来自前一时间步的神经网络输出相结合,以生成更新的神经网络输出。因此,解码器输出可被连续添加至可用于生成系统输出数据的分布,而不是在单个步骤中发出分布。例如,该系统可使用写操作从解码器神经网络的输出生成写入,并且通过写操作将该写入添加至累加画布矩阵ct-1,例如通过修改该累加矩阵的部分来生成当前累加画布矩阵ct
尤其是,对于图像来说,该系统通过从解码器隐藏状态向量中提取注意参数集合,以及通过将所述注意参数应用于解码器隐藏状态向量以便生成写入图像分块,来生成待写入的数据。
在一些实施方式中,该系统可以使得解码器神经网络处理从先前分布中采样的输入序列,以生成新的神经网络输出,其中所述数据项是图像,并且其中该新的神经网络输出是由解码器神经网络生成的新的图像。例如,该系统可以在最终时间T处使用经修改的累加画布矩阵来重构该图像。网络所耗费的时间步的总数T可以是能够在执行处理200之前指定的自由参数。
最终的画布矩阵cT可用于参数化输入数据的模型。例如,如果该输入数据是二进制的,则该最终画布矩阵可用于参数化柏努利分布(Bernoulli distribution)。该参数化模型可用于确定该网络的总损失函数(total loss function),所述总损失函数描述因解码器和先前分布的该数据的期望压缩。
图3是用于使用编码器神经网络处理一瞥的示例处理300的流程图。为了方便,处理300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,被适当编程的包括编码器神经网络(例如图1的编码器神经网络102)的数据项生成系统,可执行处理300。
该系统接收通过从输入数据项读取而捕获的一瞥(步骤302)。在一些实施方式中,该数据项生成系统可不采用注意模型,并且整个图像可在每个时间步处提供给编码器神经网络。在其它实施方式中,该系统可以采用选择性注意模型。例如,如上面参照图2所描述的,该系统对图像应用高斯滤波器阵列,产生平滑地变化位置和缩放的图像分块。在另外的实施方式中,该系统可以采用利用注意模型的读取,例如通过连结来自接收图像和误差图像的两个图像分块。在这种情况下,相同滤波器组用于该图像和误差图像二者。
该系统接收前一时间步的解码器神经网络的解码器隐藏状态向量(步骤304)。通过接收前一时间步的解码器神经网络的解码器隐藏状态向量,编码器神经网络能够根据解码器到目前为止的行为定制其发送的代码。
该系统使用编码器神经网络处理该一瞥、来自前一时间步的解码器隐藏状态向量、和来自前一时间步的编码器神经网络的编码器隐藏状态向量,以更新编码器隐藏状态向量,即生成该时间步的编码器隐藏状态向量(步骤306)。该系统可将该时间步的所生成的编码器隐藏状态向量提供给子系统以用于处理,例如用于在生成解码器神经网络输入中使用,如上面参照图2所描述的。
图4是用于使用解码器神经网络处理解码器输入的示例处理400的流程图。为了方便,该处理400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如,被适当编程的解码器神经网络(例如图1的解码器神经网络106)可执行该处理400。
该系统接收该时间步的解码器输入(步骤402)。
该系统使用解码器神经网络处理前一时间步的解码器隐藏状态向量和解码器输入以更新解码器隐藏状态向量,即生成该时间步的解码器隐藏状态向量(步骤404)。
本说明书中描述的主题和功能操作的实施例可用数字电子电路、有形实现的计算机软件或固件、计算机硬件来实现,包括本说明书中公开的结构及其结构等同物,或其一种或多种的组合。本说明书中描述的主题的实施例可被实现为一个或多个计算机程序,即在有形非瞬时性程序载体上编码的一个或多个计算机程序指令模块,以用于由数据处理装置执行或控制数据处理装置的操作。替选地或另外地,程序指令可在人工生成的传播信号上编码,例如机器生成的电子的、光学的、或电磁信号,其被生成以编码用于传输至适合的接收器装置由数据处理装置执行的信息。计算机存储介质能够是机器可读存储设备、机器可读存储衬底、随机或串行存取存储器、或其中一种或多种的组合。然而,计算机存储介质并非传播信号。
术语“数据处理装置”包含所有种类的用于处理数据的装置、设备和机器,包括例如可编程处理器、计算机、或多个处理器或计算机。该装置能够包括专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))。除了硬件之外,该装置还能够包括为正讨论的计算机程序创建运行环境的代码,例如构成处理器固件、协议栈、数据库管理系统、操作系统、或其一种或多种的组合的代码。
计算机程序(其亦可指代或描述为程序、软件、软件应用程序、模块、软件模块、脚本、或代码)可用任何形式的编程语言来编写,包括编译或解释语言、或声明性或过程语言,并且其可用任何形式部署,包括作为独立程序或作为模块、组件、子例程、或适用于计算环境的其它单元。计算机程序可以但不必须,与文件系统中的文件相对应。程序可存储在文件的一部分中,其保留其它程序或数据,例如在标记语言文档、专用于正被讨论的程序的单一文件、或多个协同文件(例如存储一个或多个模块、子程序、或代码部分中的文件)存储的一个或多个脚本。计算机程序可被部署以在位于一个站点或分布在多个站点、且通过通信网络互连的一个或多个计算机上执行。
如本说明书中所使用的,“引擎”或“软件引擎”是指软件实现的输入/输出系统,其提供不同于输入的输出。引擎可以是功能编码块,诸如库、平台、软件开发工具套件(“SDK”)、或对象。每个引擎可以在任意类型的计算设备上实现,所述计算设备例如包括一个或多个处理器和计算机可读介质的服务器、移动电话、平板计算机、笔记本计算机、音乐播放器、电子书阅读器、膝上型或桌面型计算机、PDA、智能电话、或其它固定或便携式设备。另外地,两个或多个引擎可在同一计算设备或不同计算设备上实现。
本说明书中描述的处理和逻辑流可由一个或多个可编程计算机执行,所述可编程计算机执行一个或多个计算机程序以通过对输入数据进行操作且生成输出来执行功能。所述处理和逻辑流也可由专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行,并且装置也可被实现为专用逻辑电路(例如FPGA(现场可编程门阵列)或ASIC(专用集成电路))。
适用于执行计算机程序的计算机包括,例如可基于通用或专用微处理器或二者,或者任意其它种类的中央处理单元。一般来说,中央处理单元将从只读存储器或随机存取存储器或二者接收指令。计算机的基本元件是用于执行或运行指令的中央处理单元以及一种或多种用于存储指令和数据的存储器设备。一般来说,计算机将也包括或可操作地耦合至一个或多个用于存储数据的大容量存储设备(例如磁盘、磁光盘、或光盘),以从其接收数据或传输数据至其,或二者均有。然而,计算机不必有这样的设备。而且,计算机可被嵌入另一设备,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅仅例举几种。
适用于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备(例如EPROM、EEPROM、和闪存设备);磁盘,例如内部硬盘或可移动盘;磁光盘;以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路。
为了提供与用户的交互,本说明书中描述的主题的实施例可在具有用于给用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器),和用户可通过其向计算机提供输入的键盘以及指示设备(例如鼠标或跟踪球)的计算机上实现。其它种类的设备也可用于提供与用户的交互;例如,提供给用户的反馈可以是任意形式的感觉反馈,例如视觉反馈、听觉反馈、或触觉反馈;以及来自用户的输入可以任意形式接收,包括声学、语音、或触觉输入。另外,计算机可通过发送文档至用户使用的设备或自用户使用的设备接收文档而与用户交互;例如,通过响应于自web浏览器接收的请求而发送网页至用户客户端设备上的web浏览器。
本说明书中描述的主题的实施例可在计算系统中实现,该计算系统包括后端组件(例如作为数据服务器),或者包括中间件组件(例如应用服务器),或者包括前端组件(例如具有图形用户接口或Web浏览器的客户端计算机,用户通过前端组件可与本说明书中描述的主题的实施方式相交互),或者包括一个或多个这样的后端、中间件、或前端组件的任意组合。该系统的组件可通过任意形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”),例如Internet。
该计算系统可包括客户端和服务器。客户端和服务器通常彼此远离,并且典型地通过通信网络交互。客户端和服务器的关系借助于在各自的计算机上运行且彼此之间具有客户端-服务器关系的计算机程序而产生。
虽然本说明书包含许多特定的实施方式细节,但是这些细节不应解释为对任意发明的保护范围或其请求保护的范围的限制,而应解释为特定发明的特定实施例所特有的特征的描述。在本说明书中以分立实施例为上下文描述的某些特征,也可在单个实施例中组合实现。相反地,以单个实施例为上下文描述的各种特征也可在多个实施例中单独实现或者以任意适当的子组合来实现。此外,虽然特征在上文中被描述为以某种组合发生作用甚至初始地如此要求,但是来自请求保护的组合中的一个或多个特征在一些情况下可从组合中脱离,并且所请求保护的组合可以指向子组合或子组合的变化形式。
类似地,尽管在附图中按照特定次序描绘了操作,但是这不应理解为要求这种操作应按示出的特定次序或顺序执行,或者所有图示的操作应被执行来取得期望的结果。在某种环境下,多任务和并行处理可能是有利的。此外,上述实施例中的各个系统模块和组件的划分不应被理解为在所有实施例中都要求这种划分,并且应该理解的是,所述程序组件和系统一般来说可集成到单个软件产品中或封装到多个软件产品中。
已描述了该主题的特定实施例。其它实施例在以下权利要求的保护范围内。例如,权利要求中所记载的动作可按照不同顺序执行并且仍实现了期望的结果。例如,附图中描绘的处理不必要求示出的特定次序或者顺序次序来实现期望的结果。在某些实施方式中,多任务及并行处理可能是有利的。

Claims (19)

1.一种由一个或多个计算机实现的神经网络系统,所述神经网络系统包括:
编码器神经网络,其中所述编码器神经网络是循环神经网络,所述编码器神经网络被配置成,针对由所述编码器神经网络处理的每个输入数据项以及在多个步中的每个时间步处:
接收通过从所述输入数据项读取而捕获的一瞥;
接收前一时间步的解码器神经网络的解码器隐藏状态向量,以及
处理所述一瞥、所述解码器隐藏状态向量、以及来自所述前一时间步的所述编码器神经网络的编码器隐藏状态向量,以生成该时间步的编码器隐藏状态向量;
解码器神经网络,其中所述解码器神经网络是循环神经网络,所述解码器神经网络被配置成,对于多个时间步中的每个时间步:
接收该时间步的解码器输入,以及
处理前一时间步的解码器隐藏状态向量和该解码器输入,以生成该时间步的解码器隐藏状态向量;以及
子系统,其中,所述子系统被配置成,对于所述时间步中的每个时间步:
使用前一时间步的解码器隐藏状态向量,从所述输入数据项读取所述一瞥;
提供所述一瞥作为所述编码器神经网络的输入;
在该时间步处,从所述编码器隐藏状态向量生成所述解码器神经网络的解码器输入;
提供该解码器输入作为该时间步的所述解码器神经网络的输入;
从该时间步的解码器隐藏状态向量生成该时间步的神经网络输出更新;以及
将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
2.根据权利要求1所述的神经网络系统,其中,所述编码器神经网络和所述解码器神经网络是长短期记忆神经网络。
3.根据权利要求1或2中任一项所述的神经网络系统,其中,所述子系统进一步被配置成:训练所述编码器神经网络和所述解码器神经网络以自动编码输入数据项。
4.根据权利要求3所述的神经网络系统,其中,训练所述编码器神经网络和所述解码器神经网络以自动编码输入数据项包括:训练所述神经网络以生成神经网络输出,所述神经网络输出是所述输入数据项的重构。
5.根据权利要求1至4中任一项所述的神经网络系统,其中,所述子系统进一步被配置成:针对特定数据项提供来自所述时间步中的每个时间步的编码器隐藏状态向量作为所述特定数据项的特征。
6.根据权利要求5所述的神经网络系统,其中,在半监督学习过程期间,所述特定数据项的所述特征被提供用于处理所述特定数据项。
7.根据权利要求1至6中任一项所述的神经网络系统,其中,所述输入数据项是图像。
8.根据权利要求1至6中任一项所述的神经网络系统,其中,所述输入数据项是视频。
9.根据权利要求1至6中任一项所述的神经网络系统,其中,所述输入数据项是图像,并且其中,通过从所述输入数据项读取而捕获的所述一瞥是图像块,所述图像块是通过对所述图像应用高斯滤波器阵列而生成的。
10.根据权利要求9所述的神经网络系统,其中,用于应用所述高斯滤波器阵列的参数是通过对所述前一时间步的解码器隐藏状态向量应用线性变换而生成的。
11.根据权利要求1至10中任一项所述的神经网络系统,其中,在该时间步处从所述编码器隐藏状态向量生成用于所述解码器神经网络的所述解码器输入包括:
使用该时间步的所述编码器隐藏状态向量来参数化本征向量的分布;以及
从所述分布中采样所述解码器输入。
12.根据权利要求1至11中任一项所述的神经网络系统,其中所述子系统进一步配置成:使得所述解码器神经网络处理从先前分布中采样的输入序列,以生成新的神经网络输出。
13.根据权利要求12所述的神经网络系统,其中,所述数据项是图像,以及其中,所述新的神经网络输出是由所述解码器神经网络生成的新的图像。
14.根据权利要求1至6中任一项所述的神经网络系统,其中,所述数据项是语音片段或语音片段的特征。
15.一种方法,所述方法包括权利要求1至14中任一项所述的子系统被配置成执行的操作。
16.一种用指令编码的计算机存储介质,所述指令当由一个或多个计算机执行时,使得一个或多个计算机实现权利要求1至14中任一项所述的神经网络系统。
17.一种由一个或多个计算机实现的神经网络系统,所述神经网络系统包括:
解码器神经网络,其中,所述解码器神经网络是循环神经网络,所述解码器神经网络被配置成,对于多个时间步中的每个时间步:
接收该时间步的解码器输入;以及
处理前一时间步的解码器隐藏状态向量和该解码器输入,以生成该时间步的解码器隐藏状态向量;以及
子系统,其中,所述子系统配置成,对于所述时间步中的每个时间步:
生成所述解码器神经网络的解码器输入;
提供该解码器输入作为用于该时间步的所述解码器神经网络的输入;
从该时间步的解码器隐藏状态向量生成该时间步的神经网络输出更新;以及
将该时间步的所述神经网络输出更新与当前神经网络输出相结合,以生成更新的神经网络输出。
18.根据权利要求17所述的神经网络系统,其中,生成所述解码器神经网络的解码器输入包括,从先前分布中选择潜在变量样本。
19.根据权利要求17或18中任一项所述的神经网络系统,其中,所述更新的神经网络输出是图像,以及其中,所述多个时间步中的最近时间步的更新的神经网络输出是由所述神经网络系统生成的新的图像。
CN201610139237.7A 2015-02-06 2016-02-06 用于数据项生成的循环神经网络 Active CN105868829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110924961.1A CN113705779B (zh) 2015-02-06 2016-02-06 用于数据项生成的循环神经网络

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201562113338P 2015-02-06 2015-02-06
US62/113,338 2015-02-06

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110924961.1A Division CN113705779B (zh) 2015-02-06 2016-02-06 用于数据项生成的循环神经网络

Publications (2)

Publication Number Publication Date
CN105868829A true CN105868829A (zh) 2016-08-17
CN105868829B CN105868829B (zh) 2021-08-20

Family

ID=55315336

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201610139237.7A Active CN105868829B (zh) 2015-02-06 2016-02-06 用于数据项生成的循环神经网络
CN202110924961.1A Active CN113705779B (zh) 2015-02-06 2016-02-06 用于数据项生成的循环神经网络

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110924961.1A Active CN113705779B (zh) 2015-02-06 2016-02-06 用于数据项生成的循环神经网络

Country Status (3)

Country Link
US (3) US11080587B2 (zh)
EP (2) EP3312777B1 (zh)
CN (2) CN105868829B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
CN108153913A (zh) * 2018-01-24 2018-06-12 北京神州泰岳软件股份有限公司 回复信息生成模型的训练方法、回复信息生成方法及装置
CN108335349A (zh) * 2017-01-18 2018-07-27 辉达公司 利用神经网络滤波图像数据
CN108334889A (zh) * 2017-11-30 2018-07-27 腾讯科技(深圳)有限公司 摘要描述生成方法和装置、摘要描述模型训练方法和装置
CN109045708A (zh) * 2018-06-14 2018-12-21 太仓聚堂网络科技有限公司 游戏事件智能检测方法、系统及终端设备
CN109155002A (zh) * 2016-02-05 2019-01-04 渊慧科技有限公司 具有外部存储器的增强神经网络
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109711280A (zh) * 2018-12-10 2019-05-03 北京工业大学 一种基于ST-Unet的视频异常检测方法
CN109844773A (zh) * 2016-09-06 2019-06-04 渊慧科技有限公司 使用卷积神经网络处理序列
CN109891434A (zh) * 2016-09-06 2019-06-14 渊慧科技有限公司 使用神经网络生成音频
CN109923558A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 混合专家神经网络
CN109952580A (zh) * 2016-11-04 2019-06-28 易享信息技术有限公司 基于准循环神经网络的编码器-解码器模型
CN109964237A (zh) * 2016-09-15 2019-07-02 谷歌有限责任公司 图像深度预测神经网络
CN109964238A (zh) * 2016-09-30 2019-07-02 渊慧科技有限公司 使用神经网络生成视频帧
CN110062934A (zh) * 2016-12-02 2019-07-26 谷歌有限责任公司 使用神经网络确定图像中的结构和运动
CN110114784A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 递归神经网络
CN110168560A (zh) * 2016-11-04 2019-08-23 渊慧科技有限公司 使用神经网络的场景理解和生成
CN110192206A (zh) * 2017-05-23 2019-08-30 谷歌有限责任公司 基于注意力的序列转换神经网络
CN110249342A (zh) * 2016-12-15 2019-09-17 谷歌有限责任公司 使用机器学习模型的自适应信道编码
CN110383299A (zh) * 2017-02-06 2019-10-25 渊慧科技有限公司 记忆增强的生成时间模型
CN110476206A (zh) * 2017-03-29 2019-11-19 谷歌有限责任公司 端到端文本到语音转换
CN110476172A (zh) * 2017-07-21 2019-11-19 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN110517679A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN110574049A (zh) * 2017-05-19 2019-12-13 谷歌有限责任公司 多任务多模态机器学习系统
CN110612536A (zh) * 2017-05-19 2019-12-24 谷歌有限责任公司 神经机器翻译的逐深度可分离卷积
CN110622348A (zh) * 2017-05-03 2019-12-27 株式会社半导体能源研究所 神经网络、蓄电系统、车辆及电子设备
CN110728356A (zh) * 2019-09-17 2020-01-24 阿里巴巴集团控股有限公司 基于循环神经网络的对话方法、系统及电子设备
CN110770760A (zh) * 2017-05-19 2020-02-07 渊慧科技有限公司 对物理系统的未来状态进行对象级预测
CN110770759A (zh) * 2017-05-19 2020-02-07 渊慧科技有限公司 神经网络系统
CN110913229A (zh) * 2018-09-18 2020-03-24 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN111742332A (zh) * 2017-11-17 2020-10-02 艾维泰有限责任公司 经由多预测模型架构进行异常检测的系统和方法
CN111937004A (zh) * 2018-05-09 2020-11-13 康蒂-特米克微电子有限公司 用于检测车道和道路的方法
CN112036546A (zh) * 2020-08-24 2020-12-04 上海交通大学 序列处理方法及相关设备
CN112136143A (zh) * 2018-05-17 2020-12-25 国际商业机器公司 使用神经网络的时间序列数据依赖的动态发现
CN112789625A (zh) * 2018-09-27 2021-05-11 渊慧科技有限公司 承诺信息速率变分自编码器
US11113800B2 (en) 2017-01-18 2021-09-07 Nvidia Corporation Filtering image data using a neural network
CN113508399A (zh) * 2019-03-15 2021-10-15 杜比国际公司 用于更新神经网络的方法和装置
CN113597620A (zh) * 2019-03-13 2021-11-02 渊慧科技有限公司 使用神经网络的压缩感测
CN113632091A (zh) * 2019-03-22 2021-11-09 辉达公司 迭代空间图生成

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201511887D0 (en) 2015-07-07 2015-08-19 Touchtype Ltd Improved artificial neural network for language modelling and prediction
US11353833B2 (en) 2016-08-08 2022-06-07 Goldman Sachs & Co. LLC Systems and methods for learning and predicting time-series data using deep multiplicative networks
CA3033489A1 (en) 2016-08-08 2018-02-15 Goldman Sachs & Co. LLC Systems and methods for learning and predicting time-series data using inertial auto-encoders
US10546066B2 (en) 2016-08-31 2020-01-28 Microsoft Technology Licensing, Llc End-to-end learning of dialogue agents for information access
CA3033753A1 (en) * 2016-09-01 2018-03-08 Goldman Sachs & Co. LLC Systems and methods for learning and predicting time-series data using deep multiplicative networks
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
US10224058B2 (en) 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
WO2018071403A1 (en) * 2016-10-10 2018-04-19 Insurance Services Office, Inc. Systems and methods for optical charater recognition for low-resolution ducuments
US11205110B2 (en) * 2016-10-24 2021-12-21 Microsoft Technology Licensing, Llc Device/server deployment of neural network data entry system
WO2018081089A1 (en) 2016-10-26 2018-05-03 Deepmind Technologies Limited Processing text sequences using neural networks
JP6728495B2 (ja) * 2016-11-04 2020-07-22 ディープマインド テクノロジーズ リミテッド 強化学習を用いた環境予測
CN109923560A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 使用变分信息瓶颈来训练神经网络
US10671908B2 (en) * 2016-11-23 2020-06-02 Microsoft Technology Licensing, Llc Differential recurrent neural network
US10140980B2 (en) 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
US10529320B2 (en) * 2016-12-21 2020-01-07 Google Llc Complex evolution recurrent neural networks
CN110235083B (zh) * 2017-01-02 2023-06-30 广州异构智能科技有限公司 对象识别方法和系统的无监督学习
US10241684B2 (en) * 2017-01-12 2019-03-26 Samsung Electronics Co., Ltd System and method for higher order long short-term memory (LSTM) network
US11636317B2 (en) 2017-02-16 2023-04-25 International Business Machines Corporation Long-short term memory (LSTM) cells on spiking neuromorphic hardware
US10769522B2 (en) 2017-02-17 2020-09-08 Wipro Limited Method and system for determining classification of text
US10249289B2 (en) * 2017-03-14 2019-04-02 Google Llc Text-to-speech synthesis using an autoencoder
EP3559868A1 (en) * 2017-03-24 2019-10-30 Google LLC Device placement optimization with reinforcement learning
US10595039B2 (en) 2017-03-31 2020-03-17 Nvidia Corporation System and method for content and motion controlled action video generation
US10447635B2 (en) 2017-05-17 2019-10-15 Slice Technologies, Inc. Filtering electronic messages
US11200269B2 (en) 2017-06-15 2021-12-14 Microsoft Technology Licensing, Llc Method and system for highlighting answer phrases
CN107505837A (zh) * 2017-07-07 2017-12-22 浙江大学 一种半监督神经网络模型及基于该模型的软测量建模方法
US11330804B2 (en) 2017-08-07 2022-05-17 The Jackson Laboratory Long-term and continuous animal behavioral monitoring
US10671918B2 (en) 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
CN118194921A (zh) * 2017-10-27 2024-06-14 谷歌有限责任公司 基于关注的图像生成神经网络
EP3688673A1 (en) * 2017-10-27 2020-08-05 Google LLC Neural architecture search
US11556786B2 (en) * 2017-10-27 2023-01-17 Google Llc Attention-based decoder-only sequence transduction neural networks
US11468262B2 (en) * 2017-10-30 2022-10-11 Nec Corporation Deep network embedding with adversarial regularization
US10672388B2 (en) * 2017-12-15 2020-06-02 Mitsubishi Electric Research Laboratories, Inc. Method and apparatus for open-vocabulary end-to-end speech recognition
US11003858B2 (en) * 2017-12-22 2021-05-11 Microsoft Technology Licensing, Llc AI system to determine actionable intent
US11803883B2 (en) 2018-01-29 2023-10-31 Nielsen Consumer Llc Quality assurance for labeled training data
US11442817B2 (en) * 2018-02-27 2022-09-13 Rubrik, Inc. Intelligent scheduling of backups
US10909157B2 (en) * 2018-05-22 2021-02-02 Salesforce.Com, Inc. Abstraction of text summarization
EP3576019B1 (en) 2018-05-29 2024-10-09 Nokia Technologies Oy Artificial neural networks
US10650245B2 (en) * 2018-06-08 2020-05-12 Adobe Inc. Generating digital video summaries utilizing aesthetics, relevancy, and generative neural networks
US10812449B1 (en) * 2018-09-19 2020-10-20 Verisign Method for generating a domain name using a learned information-rich latent space
WO2020117370A2 (en) * 2018-10-11 2020-06-11 Georgia Tech Research Corporation Systems and methods for material simulation
US11126915B2 (en) * 2018-10-15 2021-09-21 Sony Corporation Information processing apparatus and information processing method for volume data visualization
US11079495B2 (en) * 2018-10-31 2021-08-03 Mitsubishi Electric Research Laboratories, Inc. Position estimation under multipath transmission
US11449268B2 (en) * 2018-11-20 2022-09-20 Samsung Electronics Co., Ltd. Deep solid state device (deep-SSD): a neural network based persistent data storage
CN109919358B (zh) * 2019-01-31 2021-03-02 中国科学院软件研究所 一种基于神经网络时空注意力机制的实时站点流量预测方法
CN109960749B (zh) * 2019-02-22 2021-04-06 清华大学 模型获取方法、关键词生成方法、装置、介质及计算设备
US11860615B2 (en) 2019-03-29 2024-01-02 Tata Consultancy Services Limited Method and system for anomaly detection and diagnosis in industrial processes and equipment
US11210477B2 (en) * 2019-05-09 2021-12-28 Adobe Inc. Systems and methods for transferring stylistic expression in machine translation of sequence data
CN112151003A (zh) * 2019-06-27 2020-12-29 百度在线网络技术(北京)有限公司 并行语音合成方法、装置、设备以及计算机可读存储介质
US11645518B2 (en) 2019-10-07 2023-05-09 Waymo Llc Multi-agent simulations
US11570030B2 (en) * 2019-10-11 2023-01-31 University Of South Carolina Method for non-linear distortion immune end-to-end learning with autoencoder—OFDM
CN110827806B (zh) * 2019-10-17 2022-01-28 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
KR102556096B1 (ko) * 2019-11-29 2023-07-18 한국전자통신연구원 이전 프레임의 정보를 사용한 오디오 신호 부호화/복호화 장치 및 방법
CN110797002B (zh) * 2020-01-03 2020-05-19 同盾控股有限公司 语音合成方法、装置、电子设备及存储介质
JP7479925B2 (ja) * 2020-05-14 2024-05-09 キヤノン株式会社 画像処理システム、画像処理方法、及びプログラム
CN113284202B (zh) * 2021-06-11 2022-10-25 北京大学深圳研究生院 一种基于内容自适应的可伸缩网络的图像压缩感知方法
CN113936173A (zh) * 2021-10-08 2022-01-14 上海交通大学 一种最大化互信息的图像分类方法、设备、介质及系统
CN114124554B (zh) * 2021-11-29 2022-08-30 燕山大学 一种虚拟网络服务链吞吐量预测方法
CN114490950B (zh) * 2022-04-07 2022-07-12 联通(广东)产业互联网有限公司 编码器模型的训练方法及存储介质、相似度预测方法及系统
US20230386479A1 (en) * 2022-05-27 2023-11-30 Tencent America LLC Techniques for improved zero-shot voice conversion with a conditional disentangled sequential variational auto-encoder

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1100541A (zh) * 1993-06-14 1995-03-22 莫托罗拉公司 神经网络及其使用方法
US6591235B1 (en) * 2000-02-04 2003-07-08 International Business Machines Corporation High dimensional data mining and visualization via gaussianization
CN1463215A (zh) * 2001-04-03 2003-12-24 索尼公司 有腿移动机器人及其动作教学方法和存储介质
US20080046249A1 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of Decoder States After Packet Loss Concealment
US20130311412A1 (en) * 2011-02-09 2013-11-21 The Trustees Of Columbia University In The City Of New York Encoding and decoding machine with recurrent neural networks
CN104050507A (zh) * 2014-06-30 2014-09-17 南京理工大学 基于多层神经网络的超光谱图像分类方法
US20140358265A1 (en) * 2013-05-31 2014-12-04 Dolby Laboratories Licensing Corporation Audio Processing Method and Audio Processing Apparatus, and Training Method

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0466022A3 (en) * 1990-07-12 1993-08-25 Allen-Bradley Company, Inc. Teaching method for recurrent neural networks
AUPO793897A0 (en) * 1997-07-15 1997-08-07 Silverbrook Research Pty Ltd Image processing method and apparatus (ART25)
US6526167B1 (en) * 1998-05-26 2003-02-25 Sony Corporation Image processing apparatus and method and provision medium
EP1508872A1 (en) * 2003-08-22 2005-02-23 Semeion An algorithm for recognising relationships between data of a database and a method for image pattern recognition based on the said algorithm
US7433820B2 (en) * 2004-05-12 2008-10-07 International Business Machines Corporation Asynchronous Hidden Markov Model method and system
CN101163250B (zh) * 2006-10-09 2011-07-13 北京航空航天大学 一种基于边界梯度的视频流容错方法
US8463721B2 (en) * 2010-08-05 2013-06-11 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for recognizing events
US9015096B2 (en) * 2012-05-30 2015-04-21 Qualcomm Incorporated Continuous time spiking neural network event-based simulation that schedules co-pending events using an indexable list of nodes
US9519858B2 (en) * 2013-02-10 2016-12-13 Microsoft Technology Licensing, Llc Feature-augmented neural networks and applications of same
CN103824054B (zh) * 2014-02-17 2018-08-07 北京旷视科技有限公司 一种基于级联深度神经网络的人脸属性识别方法
CN103914985B (zh) * 2014-04-25 2015-10-28 大连理工大学 一种混合动力客车未来车速轨迹预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1100541A (zh) * 1993-06-14 1995-03-22 莫托罗拉公司 神经网络及其使用方法
US6591235B1 (en) * 2000-02-04 2003-07-08 International Business Machines Corporation High dimensional data mining and visualization via gaussianization
CN1463215A (zh) * 2001-04-03 2003-12-24 索尼公司 有腿移动机器人及其动作教学方法和存储介质
US20080046249A1 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of Decoder States After Packet Loss Concealment
US20130311412A1 (en) * 2011-02-09 2013-11-21 The Trustees Of Columbia University In The City Of New York Encoding and decoding machine with recurrent neural networks
US20140358265A1 (en) * 2013-05-31 2014-12-04 Dolby Laboratories Licensing Corporation Audio Processing Method and Audio Processing Apparatus, and Training Method
CN104050507A (zh) * 2014-06-30 2014-09-17 南京理工大学 基于多层神经网络的超光谱图像分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
C.C.TAN ET AL.: "Reconstruction of handwritten digit images using autoencoder neural networks", 《2008 CANADIAN CONFERENCE ON ELECTRICAL AND COMPUTER ENGINEERING》 *
KYUNGHYUN CHO ET.AL: "Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation", 《ARXIV:1406.1078V3》 *
VOLODYMYR MNIH ET.AL: "Recurrent Models of Visual Attention", 《ARXIV:1406.6247V1》 *
曲建岭 等: "深度自动编码器的研究与展望", 《计算机与现代化》 *

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109155002A (zh) * 2016-02-05 2019-01-04 渊慧科技有限公司 具有外部存储器的增强神经网络
CN109155002B (zh) * 2016-02-05 2021-11-09 渊慧科技有限公司 增强神经网络系统、方法和计算机程序
CN109891434A (zh) * 2016-09-06 2019-06-14 渊慧科技有限公司 使用神经网络生成音频
CN109891434B (zh) * 2016-09-06 2020-10-30 渊慧科技有限公司 使用神经网络生成音频
CN109844773B (zh) * 2016-09-06 2023-08-01 渊慧科技有限公司 使用卷积神经网络处理序列
CN109844773A (zh) * 2016-09-06 2019-06-04 渊慧科技有限公司 使用卷积神经网络处理序列
CN111915663B (zh) * 2016-09-15 2024-04-30 谷歌有限责任公司 图像深度预测神经网络
US11734847B2 (en) 2016-09-15 2023-08-22 Google Llc Image depth prediction neural networks
CN109964237B (zh) * 2016-09-15 2020-07-17 谷歌有限责任公司 图像深度预测神经网络
US10929996B2 (en) 2016-09-15 2021-02-23 Google Llc Image depth prediction neural networks
CN111915663A (zh) * 2016-09-15 2020-11-10 谷歌有限责任公司 图像深度预测神经网络
CN109964237A (zh) * 2016-09-15 2019-07-02 谷歌有限责任公司 图像深度预测神经网络
CN109964238A (zh) * 2016-09-30 2019-07-02 渊慧科技有限公司 使用神经网络生成视频帧
CN109923558A (zh) * 2016-11-04 2019-06-21 谷歌有限责任公司 混合专家神经网络
CN109952580A (zh) * 2016-11-04 2019-06-28 易享信息技术有限公司 基于准循环神经网络的编码器-解码器模型
CN110114784A (zh) * 2016-11-04 2019-08-09 渊慧科技有限公司 递归神经网络
CN110168560A (zh) * 2016-11-04 2019-08-23 渊慧科技有限公司 使用神经网络的场景理解和生成
CN110114784B (zh) * 2016-11-04 2023-06-02 渊慧科技有限公司 递归环境预测器及其方法
US11790214B2 (en) 2016-11-04 2023-10-17 Google Llc Mixture of experts neural networks
US11587344B2 (en) 2016-11-04 2023-02-21 Deepmind Technologies Limited Scene understanding and generation using neural networks
CN110168560B (zh) * 2016-11-04 2024-03-15 渊慧科技有限公司 用于场景理解和生成的方法、系统和介质
CN109952580B (zh) * 2016-11-04 2023-08-01 硕动力公司 基于准循环神经网络的编码器-解码器模型
US12067476B2 (en) 2016-11-04 2024-08-20 Google Llc Mixture of experts neural networks
US11763466B2 (en) 2016-12-02 2023-09-19 Google Llc Determining structure and motion in images using neural networks
CN110062934B (zh) * 2016-12-02 2023-09-01 谷歌有限责任公司 使用神经网络确定图像中的结构和运动
CN110062934A (zh) * 2016-12-02 2019-07-26 谷歌有限责任公司 使用神经网络确定图像中的结构和运动
CN110249342A (zh) * 2016-12-15 2019-09-17 谷歌有限责任公司 使用机器学习模型的自适应信道编码
CN110249342B (zh) * 2016-12-15 2023-09-15 谷歌有限责任公司 使用机器学习模型的自适应信道编码
CN108335349B (zh) * 2017-01-18 2022-03-15 辉达公司 利用神经网络滤波图像数据
US11113800B2 (en) 2017-01-18 2021-09-07 Nvidia Corporation Filtering image data using a neural network
CN108335349A (zh) * 2017-01-18 2018-07-27 辉达公司 利用神经网络滤波图像数据
CN110383299A (zh) * 2017-02-06 2019-10-25 渊慧科技有限公司 记忆增强的生成时间模型
CN110383299B (zh) * 2017-02-06 2023-11-17 渊慧科技有限公司 记忆增强的生成时间模型
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
US11107457B2 (en) 2017-03-29 2021-08-31 Google Llc End-to-end text-to-speech conversion
US11862142B2 (en) 2017-03-29 2024-01-02 Google Llc End-to-end text-to-speech conversion
CN110476206A (zh) * 2017-03-29 2019-11-19 谷歌有限责任公司 端到端文本到语音转换
CN110476206B (zh) * 2017-03-29 2021-02-02 谷歌有限责任公司 将文本转换为语音的系统及其存储介质
CN110622348A (zh) * 2017-05-03 2019-12-27 株式会社半导体能源研究所 神经网络、蓄电系统、车辆及电子设备
CN110770760A (zh) * 2017-05-19 2020-02-07 渊慧科技有限公司 对物理系统的未来状态进行对象级预测
CN110770759B (zh) * 2017-05-19 2023-12-29 渊慧科技有限公司 神经网络系统
CN110574049A (zh) * 2017-05-19 2019-12-13 谷歌有限责任公司 多任务多模态机器学习系统
US11494561B2 (en) 2017-05-19 2022-11-08 Google Llc Multi-task multi-modal machine learning system
CN110612536B (zh) * 2017-05-19 2024-01-26 谷歌有限责任公司 神经机器翻译的逐深度可分离卷积
CN110612536A (zh) * 2017-05-19 2019-12-24 谷歌有限责任公司 神经机器翻译的逐深度可分离卷积
CN110770760B (zh) * 2017-05-19 2024-01-12 渊慧科技有限公司 视觉交互网络系统及其方法、训练方法和计算机存储介质
US11803711B2 (en) 2017-05-19 2023-10-31 Google Llc Depthwise separable convolutions for neural machine translation
CN110770759A (zh) * 2017-05-19 2020-02-07 渊慧科技有限公司 神经网络系统
CN110192206A (zh) * 2017-05-23 2019-08-30 谷歌有限责任公司 基于注意力的序列转换神经网络
US11893483B2 (en) 2017-05-23 2024-02-06 Google Llc Attention-based sequence transduction neural networks
CN110476172B (zh) * 2017-07-21 2024-01-30 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN110476172A (zh) * 2017-07-21 2019-11-19 谷歌有限责任公司 用于卷积神经网络的神经架构搜索
CN111742332A (zh) * 2017-11-17 2020-10-02 艾维泰有限责任公司 经由多预测模型架构进行异常检测的系统和方法
CN108334889A (zh) * 2017-11-30 2018-07-27 腾讯科技(深圳)有限公司 摘要描述生成方法和装置、摘要描述模型训练方法和装置
US11494658B2 (en) 2017-11-30 2022-11-08 Tencent Technology (Shenzhen) Company Limited Summary generation method, summary generation model training method, and computer device
CN108334889B (zh) * 2017-11-30 2020-04-03 腾讯科技(深圳)有限公司 摘要描述生成方法和装置、摘要描述模型训练方法和装置
CN110598779A (zh) * 2017-11-30 2019-12-20 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
CN110598779B (zh) * 2017-11-30 2022-04-08 腾讯科技(深圳)有限公司 摘要描述生成方法、装置、计算机设备和存储介质
CN108153913A (zh) * 2018-01-24 2018-06-12 北京神州泰岳软件股份有限公司 回复信息生成模型的训练方法、回复信息生成方法及装置
CN108153913B (zh) * 2018-01-24 2020-08-07 鼎富智能科技有限公司 回复信息生成模型的训练方法、回复信息生成方法及装置
CN111937004A (zh) * 2018-05-09 2020-11-13 康蒂-特米克微电子有限公司 用于检测车道和道路的方法
CN112136143A (zh) * 2018-05-17 2020-12-25 国际商业机器公司 使用神经网络的时间序列数据依赖的动态发现
CN109045708A (zh) * 2018-06-14 2018-12-21 太仓聚堂网络科技有限公司 游戏事件智能检测方法、系统及终端设备
CN110913229B (zh) * 2018-09-18 2021-10-15 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN110913229A (zh) * 2018-09-18 2020-03-24 腾讯科技(深圳)有限公司 基于rnn的解码器隐状态确定方法、设备和存储介质
CN112789625A (zh) * 2018-09-27 2021-05-11 渊慧科技有限公司 承诺信息速率变分自编码器
CN109472031B (zh) * 2018-11-09 2021-05-04 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN109472031A (zh) * 2018-11-09 2019-03-15 电子科技大学 一种基于双记忆注意力的方面级别情感分类模型及方法
CN110517679A (zh) * 2018-11-15 2019-11-29 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN110517679B (zh) * 2018-11-15 2022-03-08 腾讯科技(深圳)有限公司 一种人工智能的音频数据处理方法及装置、存储介质
CN109711280A (zh) * 2018-12-10 2019-05-03 北京工业大学 一种基于ST-Unet的视频异常检测方法
US12032523B2 (en) 2019-03-13 2024-07-09 Deepmind Technologies Limited Compressed sensing using neural networks
CN113597620A (zh) * 2019-03-13 2021-11-02 渊慧科技有限公司 使用神经网络的压缩感测
CN113508399A (zh) * 2019-03-15 2021-10-15 杜比国际公司 用于更新神经网络的方法和装置
CN113632091A (zh) * 2019-03-22 2021-11-09 辉达公司 迭代空间图生成
CN110728356B (zh) * 2019-09-17 2023-08-04 创新先进技术有限公司 基于循环神经网络的对话方法、系统及电子设备
CN110728356A (zh) * 2019-09-17 2020-01-24 阿里巴巴集团控股有限公司 基于循环神经网络的对话方法、系统及电子设备
CN112036546B (zh) * 2020-08-24 2023-11-17 上海交通大学 序列处理方法及相关设备
CN112036546A (zh) * 2020-08-24 2020-12-04 上海交通大学 序列处理方法及相关设备

Also Published As

Publication number Publication date
US20230419076A1 (en) 2023-12-28
CN105868829B (zh) 2021-08-20
EP3312777A1 (en) 2018-04-25
EP3054403A3 (en) 2016-12-07
EP3054403B1 (en) 2018-01-31
EP3054403A2 (en) 2016-08-10
EP3312777B1 (en) 2020-12-23
CN113705779A (zh) 2021-11-26
US20210350207A1 (en) 2021-11-11
CN113705779B (zh) 2024-04-30
US11080587B2 (en) 2021-08-03
US20160232440A1 (en) 2016-08-11
US11790209B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
CN105868829A (zh) 用于数据项生成的循环神经网络
US10657436B2 (en) Generative neural networks
US10671889B2 (en) Committed information rate variational autoencoders
CN105224984B (zh) 一种基于深度神经网络的数据类别识别方法及装置
CN110062934A (zh) 使用神经网络确定图像中的结构和运动
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN109754078A (zh) 用于优化神经网络的方法
CN110383298A (zh) 用于连续控制任务的数据高效强化学习
Taieb et al. Boosting multi-step autoregressive forecasts
CN109478254A (zh) 使用合成梯度来训练神经网络
US11755879B2 (en) Low-pass recurrent neural network systems with memory
US11908180B1 (en) Generating videos using sequences of generative neural networks
CN106355191A (zh) 一种深度生成网络随机训练算法及装置
CN114116995B (zh) 基于增强图神经网络的会话推荐方法、系统及介质
WO2024050107A1 (en) Three-dimensional diffusion models
CN116821113A (zh) 时序数据缺失值处理方法、装置、计算机设备及存储介质
CN112950501B (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN110659962B (zh) 一种商品信息输出方法及相关装置
CN112906561A (zh) 用于获取动作识别模型的方法、装置及设备
RU2823216C1 (ru) Способ и устройство генерирования видеоклипа по текстовому описанию и последовательности ключевых точек, синтезируемой диффузионной моделью
Sudarshan et al. Image storage and retrieval in graded memory
CN116704588B (zh) 面部图像的替换方法、装置、设备及存储介质
Lu et al. Cdvae: Co-embedding deep variational auto encoder for conditional variational generation
Li et al. Projection Analysis Optimization for Human Transition Motion Estimation
CN117314555A (zh) 业务处理方法、装置、计算机设备、存储介质和程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
CB02 Change of applicant information
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200303

Address after: England Atsushi

Applicant after: DEEPMIND TECHNOLOGIES Ltd.

Address before: California, USA

Applicant before: GOOGLE Inc.

GR01 Patent grant
GR01 Patent grant