CN109964238A

CN109964238A - 使用神经网络生成视频帧

Info

Publication number: CN109964238A
Application number: CN201780060788.7A
Authority: CN
Inventors: 纳尔·埃默里赫·卡尔赫布伦纳; 阿伦·杰勒德·安东尼厄斯·范登伍尔德; 凯伦·西蒙尼扬
Original assignee: Yin Hui Technology Co Ltd
Current assignee: Yin Hui Technology Co Ltd; DeepMind Technologies Ltd
Priority date: 2016-09-30
Filing date: 2017-09-29
Publication date: 2019-07-02
Also published as: WO2018064591A1; CN117499658A; US11144782B2; US20210019555A1; EP3485433A1

Abstract

用于使用神经网络来生成视频帧的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。所述方法中的一个包括：使用编码器神经网络处理视频帧序列以生成编码表示；并且根据像素顺序和通道顺序逐个像素地生成预测的下一帧，包括：对于每个像素的每个色彩通道，向解码器神经网络提供(i)编码表示、(ii)用于在像素顺序中在所述像素之前的任何像素的色彩值以及(iii)用于在通道顺序中在所述色彩通道之前的任何色彩通道的像素的色彩值作为输入，其中，解码器神经网络被配置为生成定义在多个可能的色彩值上的评分分布的输出，并通过从评分分布中采样来确定像素的色彩通道的色彩值。

Description

使用神经网络生成视频帧

技术领域

本说明书涉及一种使用神经网络生成视频帧。

背景技术

神经网络是机器学习模型，其采用了非线性单元的一个或多个层来对于接收输入预测输出。除了输出层之外，一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层(即，下一个隐藏层或输出层)的输入。网络的每一个层根据参数的相应集合的当前值从接收的输入来生成输出。

一些神经网络是递归神经网络。递归神经网络是接收输入序列并从输入序列生成输出序列的神经网络。特别地，递归神经网络能够在当前时间步处计算输出中使用来自先前时间步的网络的内部状态的一些或全部。

递归神经网络的示例是长短期记忆(LSTM)神经网络，其包括一个或多个LSTM存储块。每个LSTM存储器块能够包括一个或多个单元，这些单元中的每个单元包括输入门、遗忘门和输出门，其允许单元存储用于单元的先前状态，例如，用于生成当前激活或被提供到LSTM神经网络的其他组件。

发明内容

该说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统如何能够生成预测的下一视频帧，该预测的下一视频帧是将跟随视频帧的时间序列中的最后一个视频帧的视频帧的预测。预测的下一视频帧包括多个像素，所述多个像素中的每一个对于多个色彩通道中的每一个具有相应的色彩值，并且像素根据像素顺序进行排序，并且色彩通道根据通道顺序进行排序。能够例如由系统设计者配置像素顺序和通道顺序，并且帧和通道中的像素的各种排序是可能的。

该系统包括编码器神经网络，该编码器神经网络被配置为处理时间序列中的每个视频帧以生成视频帧的时间序列的编码表示。例如，编码器神经网络能够包括卷积子神经网络，跟随其后的是卷积长短期记忆(LSTM)子神经网络。

该系统还包括解码器神经网络，所述解码器神经网络被配置为对于预测的下一视频帧中的每个像素的每个色彩通道：接收输入，该输入包括(i)视频帧的时间序列的编码表示，(ii)用于在像素顺序中在像素之前的预测的下一视频帧中的任何像素的色彩值，以及(iii)用于在通道顺序中在色彩通道之前的任何色彩通道的像素的色彩值。

解码器神经网络被配置为处理输入以生成定义在用于像素的色彩通道的多个可能色彩值上的评分分布的输出。例如，评分分布可以包括用于通道的离散的一组可能色彩值中的每个色彩值的相应评分。

系统能够通过根据像素顺序和色彩通道顺序迭代地向解码器神经网络提供输入从而逐像素地生成下一帧，并且对于每个像素的每个色彩通道，通过下述方式确定用于色彩通道的色彩值：通过从由解码器神经网络为像素生成的评分分布进行采样，例如，通过根据评分分布中的评分从可能的色彩值中采样色彩值，使得以由色彩值的评分定义的似然估计量来采样每个可能的色彩值，或者通过选择评分最高的色彩值。

能够实现本说明书中描述的主题的特定实施例，以便实现以下优点中的一个或多个。如本说明书中描述的视频帧生成系统能够在从当前看到的视频帧精确地预测视频中的下一个视频帧中实现优于现有技术的结果。特别是，系统能够实现这些结果，因为模型和神经架构反映了视频张量的时间、空间和色彩结构，并将其编码为四维相关性链。相关性的分解进一步确保模型保持完全地易处理；能够精确地计算模型分配给视频的似然估计量。该模型对像素在不需要预处理和预测在原始像素强度上的离散多项分布的情况下进行操作，允许模型估计任何形状的分布。特别地，该系统能够在不使用任何特定运动先验或任何替代损失的情况下实现这些现有技术结果。由于架构和相关性，系统生成是没有伪像和对许多帧非常详细的视频帧至未来，即，通过继续将由系统生成的帧附加到时间序列的末尾以生成更多帧。

另外，视频帧生成系统能够被配置为根据由与环境交互的机器人代理执行的动作有效地调节预测的接着的视频帧。

在训练之后，视频帧生成系统能够有效地推广到新对象的运动，即，能够生成准确地预测新对象的在训练期间未遇到的运动的视频帧。

由于编码器神经网络和解码器神经网络的架构，由系统执行的某些操作能够在训练期间并行化，使得需要较少的计算资源来训练神经网络。

本公开可以被表示为计算机实现的方法，或被表示为计算机系统，或被表示为存储程序指令的计算机程序产品(诸如一个或多个计算机存储介质)，该程序指令使一个或多个计算机执行该方法，以实现计算机系统。

在附图和以下描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了示例视频帧生成系统。

图2示出了示例残余乘法块。

图3是用于在视频帧的时间序列中生成下一帧的示例过程的流程图。

各附图中相同的附图标号和标记表示相同的元件。

具体实施方式

图1示出了示例视频帧生成系统100。视频帧生成系统100是在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统的示例，其中，能够实现下面描述的系统、组件和技术。

视频帧生成系统100接收视频帧的时间序列，并生成预测视频帧，该预测的视频帧是序列中的下一视频帧的预测，即，将跟随视频帧的时间序列中的最后视频帧的视频帧。视频帧的序列在本说明书中称为时间序列，因为序列中的视频帧是根据捕获帧的时间来排序的。

例如，视频帧生成系统100能够接收视频帧序列102并生成下一帧152，其是视频帧序列102中的下一视频帧的预测。

具体地，如下面将更详细描述的，由系统100生成的预测的下一视频帧152包括多个像素，其中每个像素具有用于多个色彩通道中的每一个的相应色彩值，以及像素根据像素顺序进行排序并且色彩通道根据通道顺序进行排序。像素顺序和通道顺序可以例如由系统设计者配置，并且帧和通道中的像素的各种排序是可能的。

帧生成系统100包括：编码器神经网络120以及解码器神经网络130，所述编码器神经网络120被配置为处理时间序列中的每个视频帧以生成时间序列的编码表示；以及所述解码器神经网络130被配置为从该编码表示生成下一帧。

例如，编码器神经网络120能够处理帧序列102以生成编码表示122，并且解码器神经网络130能够处理编码表示122以生成下一帧152。

特别地，编码器神经网络120能够包括卷积编码器子神经网络110，跟随其后的是卷积长短期记忆(LSTM)子神经网络114。

卷积编码器子神经网络110被配置为接收输入视频帧，并处理输入视频帧以生成保持视频帧的分辨率的输入视频帧的卷积表示。也就是说，该卷积表示具有与输入视频帧相同的空间维度，但是可以包括与输入视频帧不同数目的通道。换句话说，如果输入视频帧是n乘n乘c张量，则卷积表示是n乘n乘d张量，其中，c和d可以是不同的。

通常，卷积编码器子神经网络110包括多个保持分辨率的卷积神经网络层。在一些情况下，卷积编码器110中的卷积神经网络层被布置成多个残余块。卷积神经网络层的残余块是层的具有从块的输入到块的输出的残余(加法跳过(additive skip))连接的块。通常，残余块允许通过神经网络的许多层容易地进行梯度传播。

在一些情况下，残余块中的一些或全部是残余乘法块，其包括布置成一个或多个乘法单元的卷积层。乘法单元包括多个卷积层，这些卷积层各自例如并行地应用于乘法单元的输入。

下面参考图2更详细地描述用于卷积编码器110的残余乘法块、乘法单元和示例架构。

系统100使用卷积编码器110处理输入视频序列中的每个帧，以为这些帧中的每一个生成相应的卷积表示。例如，系统100能够使用卷积编码器110来处理来自视频序列102的视频帧104A-C，以生成相应的卷积表示112A-C。

卷积LSTM 114被配置为接收序列中的用于视频帧的卷积表示，并且按顺序处理该卷积表示以生成时间序列的编码表示。通常，编码表示还保持时间序列中视频帧的分辨率。然而，编码表示可以具有与卷积表示和输入帧两者相比不同数目的通道。

例如，卷积LSTM 114可以接收卷积表示112A-C并该处理卷积表示112A-C以生成编码表示122。

通常，卷积LSTM 114是具有卷积门的递归神经网络，并且在处理输入序列中的最后一个视频帧的卷积表示之后，输入序列的编码表示是卷积LSTM 114的输出。在以下文献中更详细地描述了卷积LSTM：Xingjian Shi,Zhourong Chen,Hao Wang,Dit-Yan Yeung,Wai-Kin Wong,and Wang-chun Woo.在2015年的NIPS中第802-810页发表的卷积LSTM网络：用于预测临近预报的机器学习方法(Convolutional LSTM network:A machine learningapproach for precipitation nowcasting)。

通过生成如上所述保持视频帧的空间分辨率的编码表示，系统100允许解码器神经网络130在不需要损失代表性容量的情况下调节需要生成的每个像素。

系统100使用解码器神经网络130从由编码器神经网络120生成的编码表示生成下一帧。

具体地，如上所述，由系统100生成的下一帧包括以二维图布置的预定数目的像素，其中每个像素对于多个色彩通道中的每一个具有相应的色彩值。例如，视频帧生成系统100能够生成包括红色通道、绿色通道、和蓝色通道的帧。作为不同的示例，视频帧生成系统100能够生成包括青色通道、品红色通道、黄色通道、和黑色通道的帧。多个色彩通道根据下述预定的通道顺序被布置：例如红色、绿色、然后是蓝色，或者蓝色、红色、然后是绿色。

通常，视频帧生成系统100逐个像素地在输出帧中生成色彩值。也就是说，视频帧生成系统100根据像素顺序对下一帧中的像素进行排序，并且然后根据像素顺序按顺序逐个为输出帧中的每个像素生成色彩值。

例如，像素顺序可以从帧的左上角开始并且逐行地穿过帧，其中在像素顺序中的最后一个像素是帧的右下角中的像素。在该示例中，视频帧生成系统100首先生成用于左上角像素的色彩值，然后前进到帧的顶行中的下一个像素。然而，这些帧中像素的其他顺序是可能的。

因此，解码器神经网络130是神经网络，该神经网络被配置为对于预测的下一视频帧中的每个像素的每个色彩通道，接收解码器输入，该解码器输入包括(i)视频帧的时间序列的编码表示，(ii)在像素顺序中的像素之前的所预测的下一视频帧中的任何像素的色彩值，以及(iii)通道顺序中在色彩通道之前的任何色彩通道的、用于像素的色彩值。因此，如果通道顺序是红色、绿色、蓝色，则对于像素顺序中第k个像素的红色通道的色彩值，解码器神经网络130将以下述部分为条件：(i)编码表示和(ii)像素顺序中用于像素1到k-1的色彩值。对于像素顺序中第k个像素的蓝色通道的色彩值，解码器神经网络130将以下述部分为条件：(i)编码表示，(ii)像素顺序中的用于像素1到k-1的色彩值，以及(iii)用于第k个像素的红色和绿色通道的色彩值。

解码器神经网络130被配置为处理解码器输入以生成定义用于像素的色彩通道的多个可能色彩值上的评分分布的输出。例如，评分分布可以包括可能的离散的一组色彩值中的每个色彩值的相应评分。例如，可能的离散的一组色彩值是从零到二百五十五(包括其)的整数的集合，其中评分分布包括该集合中的整数中的每一个的相应评分。

通常，解码器神经网络130包括卷积神经网络层的多个残余块，跟随其后的是生成评分分布的、例如softmax输出层的输出层。

特别地，解码器神经网络130中的卷积神经网络层是掩蔽的卷积层。也就是说，每个卷积神经网络层被配置为应用被掩蔽的卷积，使得仅基于编码表示和下述部分来生成用于给定像素的给定色彩通道的评分分布：(i)用于下一帧中的在像素顺序中的给定像素之前的任何像素的色彩值，以及(ii)用于通道顺序中在给定色彩通道之前的色彩通道的用于给定像素的任何色彩值。

视频帧生成系统100能够以各种方式中的任何一种来实现该掩蔽。例如，每个卷积层能够具有内核，其中相对应的权重归零(zeroed out)。

在下文中更详细地描述了掩蔽卷积解码器的示例：Aaron van den Oord,NalKalchbrenner,and Koray Kavukcuoglu.2016b年在ICML中第48卷第1747–1756页发表的像素再现神经网络(Pixel recurrent neural networks)，以及Aaron van den Oord,NalKalchbrenner,Oriol Vinyals,Lasse Espeholt,Alex Graves,and KorayKavukcuoglu.2016c年在NIPS发表的用像素CNN解码器进行条件图像生成(Conditionalimage generation with PixelCNN decoders)。

在一些实现中，针对给定像素的给定色彩通道的解码器输入是编码表示与当前下一帧的深度级联，其仅包括已经生成的色彩值，即，在像素顺序中在该像素之前的、用于下一帧中的像素的色彩值和在通道顺序中在给定色彩通道之前的色彩通道的像素的色彩值。也就是说，编码表示和当前下一帧沿着深度维度进行级联以生成解码器输入。

在一些其他实现方式中，解码器神经网络130分别将一个或多个卷积应用于编码表示、当前下一帧、或两者，并且然后在处理通过掩蔽卷积层和输出层的求和张量之前对所得到的张量求和。

系统100能够通过下述方式来逐个像素地自动回归地生成下一帧：根据像素顺序和色彩通道顺序迭代地向解码器神经网络130提供解码器输入，并且对于每个像素的每个色彩通道，通过下述方式确定色彩通道的色彩值：通过从由解码器神经网络为像素生成的评分分布中采样，例如，通过根据评分分布中的评分从可能的色彩值中采样色彩值，使得以由对像素的评分进行定义的似然估计量或者通过选择评分最高的色彩值来采样每个可能的色彩值。

例如，当生成用于在输出帧152中的下一个像素142的通道顺序中的第一色彩通道的色彩值时，解码器神经网络130能够处理包括编码表示122和当前下一帧140的解码器输入。如图1所示，当前下一帧140的阴影部分指示对其已经由视频帧生成系统100生成色彩值的像素，而当前下一帧140的无阴影部分指示对其尚未生成色彩值的像素。

在图1的示例中，解码器神经网络130处理包括编码表示122和当前下一帧140的解码器输入，以生成用于下一像素142的通道顺序中的第一色彩通道的评分分布146。一旦已经生成了下一个像素142的通道顺序中的第一色彩通道的值，系统100就能够生成新的解码器输入并将该新的解码器输入提供给解码器神经网络130，以为下一个像素142的通道顺序中的下一个色彩通道生成色彩值，依此类推，直到已经生成了整个下一帧152。

通过以这种方式调节解码器神经网络130并如上所述生成新帧，系统100能够生成不具有伪像(artifacts)的新帧，所述伪像例如是视频延续的模糊，该伪像存在于由其他系统预测的视频帧中，该其他系统不以这样的方式调节色彩值，例如，其在下一帧中生成每个像素，而与每个其他像素无关。

在一些实现方式中，时间序列中的输入视频帧是从由与机器人代理进行交互的环境捕获的视频帧。例如，视频帧能够是来自由机器人代理捕获(即，通过附接到机器人代理的相机)的视频的帧。在这些情况下，系统100还能够为这些视频帧中的每一个接收相应的动作向量，该动作向量定义当环境处于由视频帧表征的状态时要由机器人代理执行的动作，并且可选地，系统100还能够为这些视频帧中的每一个接收表征表示在环境处于状态时的机器人代理的状态的状态向量。例如，动作向量能够是机器人代理的接合部的期望位置，或者是对机器人代理的接合部的当前位置进行的修改。当接收到时，状态向量能够表征机器人代理的接合部的当前位置。

在这些实现方式中，系统100在预测下一帧时使用动作向量。特别地，当生成下一帧时，系统100能够根据动作向量调节解码器神经网络130，该动作向量定义由机器人代理执行的动作以从由在输入序列中最后帧表征的状态到达由下一帧表征的状态。为了根据动作向量调节解码器神经网络130，系统100能够将变换应用于动作向量，例如1×1卷积，以生成特征向量，然后根据特征向量调节解码器神经网络130中的部分或全部卷积层的激活函数，即，使得激活函数的输出根据特征向量和由卷积层执行的卷积进行输出。在以下文献中更详细地描述了用于根据特征向量来调节激活函数的示例技术：Aaron van den Oord,NalKalchbrenner,Oriol Vinyals,Lasse Espeholt,Alex Graves,and KorayKavukcuoglu.2016c年在NIPS中发表的用PixelCNN解码器进行条件图像生成(Conditionalimage generation with PixelCNN decoders)。

在一些实现方式中，系统100还针对每个输入帧根据用于输入帧的动作向量和可选地用于输入帧的状态向量来调节卷积编码器110。系统100能够以与对于解码器神经网络130上述相同的方式执行该调节。

通过根据动作向量调节下一帧的生成，系统100能够对环境的未来行为进行更有效地建模，以解释计划的动作并且更准确地预测下一帧。

图2示出了卷积神经网络层的残余乘法块200的示例架构。例如，块200能够是图1的卷积编码器子神经网络110中的残余乘法块中的一个。

具体地，块200接收具有尺寸N×M×2c的块输入202，并生成也具有尺寸N×M×2c的块输出212。例如，取决于卷积编码器的架构，块输入202能够是由先前残余块、输入帧生成的输出或卷积编码器内的不同种类层的输出。块200能够将块输出212提供为输入到卷积编码器内的另一块的输入或者提供为用于输入帧的卷积表示。

块200将1×1卷积204应用于块输入202以生成N×M×c张量，即，1×1卷积204将输入中的通道的数目从2c减少到c但保持了块输入的空间维数。

然后，块200将两个3×3乘法单元206和208应用于N×M×c张量。每个块乘法单元206、208被配置为处理N×M×c输入张量以生成N×M×c输出张量。

特别地，每个乘法单元通过四个卷积层传递块输入以创建更新和三个门。当单元是3×3乘法单元时，四个卷积层中的每一个是3×3卷积层。乘法单元然后组合门、块输入、和更新，以生成块输出张量。具体地，乘法单元能够对块输入h执行以下操作，以生成块输出MU(h)：

g₁＝σ(conv₁(h))，

g₂＝σ(conv₂(h))，

g₃＝σ(conv₃(h))，

u＝tanh(conv₄(h))，以及

MU(h)＝g₁*tanh(g₂*h+g₃*u)，

其中，σ是S形(sigmoid)非线性、每个conv是卷积层、tanh是双曲正切非线性、以及*指示逐元素相乘。

然后，块200将1×1卷积210应用于乘法单元的输出，以生成N×M×2c张量，即，1×1卷积210将作为乘法单元208的输出的N×M×c特征图投影返回2c通道。

因为块200是残余块，所以块200然后将块输入202和1×1卷积210的输出相加，以生成块输出212。

在一些实现方式中，为了增加接收场而不过度增加系统的计算复杂度，块200内的乘法单元中的卷积层是扩张的卷积层。通常，具有大的接收场有助于模型捕获视频序列中较大对象的运动。

通常，扩张的卷积架构具有增加卷积网络中神经元的接收场大小的效果，允许神经元之间的比没有扩张而可行的情况下更大范围的交互。

在一些情况下，给定块内的每个卷积层具有相同的扩张，但是该扩张从一个块到下一个块加倍直到选择的最大尺寸，并且然后重复。例如，对于总共8个残余乘法块，卷积编码器的一种架构使用两个重复的扩张方案[1，2，4，8]。

图3是用于生成下一帧的示例过程300的流程图。为方便起见，过程300将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，被适当地编程的视频帧生成系统(例如，图1的视频帧生成系统100)能够执行过程300。

系统接收视频帧的时间序列(步骤302)。

系统使用编码器神经网络处理视频帧序列以生成视频帧序列的编码表示(步骤304)。具体地，如上所述，系统首先使用卷积编码器子神经网络处理序列中的每个视频帧，以为每个视频帧生成相应的卷积表示。然后，系统使用卷积LSTM子神经网络按顺序处理该卷积表示，以生成视频帧序列的编码表示。特别地，编码表示是在处理序列中的最后一个视频帧的卷积表示之后的卷积LSTM子神经网络的输出。如上所述，编码表示通常保持视频帧的空间分辨率。

系统使用解码器神经网络从编码表示生成下一帧(步骤306)。

具体地，系统根据像素顺序按顺序逐个生成下一帧中每个像素的色彩值，使得在像素顺序中的稍后的色彩值之前生成在像素顺序中较早像素的色彩值。在每个像素内，系统根据通道顺序逐个生成像素的色彩通道的色彩值。特别地，系统根据以下述部分为条件而为每个像素输出每个色彩值：(i)编码表示、(ii)用于在像素顺序中在该像素之前的像素的色彩值和(iii)在通道顺序中在色彩通道之前的任何色彩通道的像素的色彩值。

因此，系统迭代地向解码器神经网络提供解码器输入，以使解码器神经网络生成在用于当前色彩通道的可能色彩值上的评分分布。然后，系统使用评分分布通过下述方式选择用于当前色彩通道的色彩值：例如，从评分分布中采样，使得以由可能色彩值的评分定义的概率来选择每个可能的色彩值；或者通过选择评分最高的色彩值。系统能够根据像素和通道顺序对下一帧中每个像素的每个色彩通道重复这些步骤，以生成下一帧中每个像素的每个色彩通道的色彩值。

系统能够对输入序列执行过程300，对于该输入序列，期望的输出(即，应当由系统为输入序列生成的下一帧)是未知的。

系统还能够对训练数据中的集合中的输入序列执行过程300，即，对其应当由系统生成下一帧的输入序列的集合是未知的，以便训练编码器和解码器神经网络，即，以确定用于编码器和解码器神经网络的参数的训练值。能够对作为用于训练神经网络的传统机器学习训练技术的部分、从训练数据的集合(例如，通过时间训练技术随着反向传播的随机梯度下降)中选择的输入重复执行过程300。

在训练期间，因为应当生成的输出帧是预先知道的，并且因为输入序列中的所有帧在开始时都是已知的，所以由编码器和解码器神经网络执行的计算能够并行化并因此被加速以减少处理给定训练神经网络输入所需的时间和计算资源的量，因此，以减少对训练所需的时间，以改善所训练的神经网络的性能，或两者。

例如，该系统能够并行使用卷积编码器处理每个输入帧。

作为另一示例，因为整个输出图像从计算的开始起可获得，所以系统能够并行地执行解码器神经网络的计算，而不是迭代地向解码器神经网络提供解码器输入。也就是说，系统能够使用来自已知的下一帧的色彩值来代替已经生成的输出帧像素色彩值。因为卷积被掩蔽，所以系统能够并行地生成所有评分分布，而不会不正确地针对根据用于下述部分的任何色彩值来调整对于给定像素的给定色彩通道生成的评分分布：(i)在通道顺序中的用于给定像素的给定色彩通道之后的色彩通道，或(ii)像素顺序中的给定像素之后的像素。

本说明书与系统和计算机程序组件相关地使用术语“被配置”。对于要被配置为执行特定操作或动作的一个或多个计算机的系统意指系统已经在其上安装了软件、固件、硬件或它们的组合，其在操作中使得系统执行所述操作或动作。对于要被配置为执行特定操作或动作的一个或多个计算机程序意指一个或多个程序包括当由数据处理装置执行时使所述装置执行操作或动作的指令。

本说明书中描述的主题和功能操作的实施例能够被实现在数字电子电路中、在有形地实施的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构及其结构等同物)中、或在它们的一个或多个的组合中。本说明书中描述的主题的实施例能够被实现为一个或多个计算机程序，即在有形非暂时性程序载体上编码的计算机程序指令的一个或多个模块，用于由数据处理装置执行的或用于执行以控制数据处理装置的操作。计算机存储介质能够是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备或它们中的一个或多个的组合。可替选地或附加地，程序指令能够被编码在人工生成的传播信号上，例如，机器生成的电信号、光信号或电磁信号，其被生成以对信息进行编码以便传输给合适的接收器设备以供数据处理装置执行。

术语“数据处理装置”指的是用于处理数据的所有类型的装置、设备和机器，包括例如可编程处理器、计算机、或多个处理器或计算机。该装置能够包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还能够包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(其也可以被称为程序、软件、软件应用、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，该任何形式的编程语言包括编译或解释语言或者声明性或过程语言，并且该计算机程序能够以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程、对象或其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序能够被存储在保存其他程序或数据(例如，在标记语言文档中存储的一个或多个脚本)的文件的一部分中、在专用于所涉及的程序的单个文件中、或在多个协同文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序能够被部署为在一个计算机上或在位于一个地点或分布在多个地点处的多个计算机上执行。

在本说明书中，术语“数据库”广泛用于指代数据的任何集合：不需要以任何特定方式构造数据或根本不构造数据，并且能够在一个或多个位置中的存储设备上的存储数据。因此，例如，索引数据库能够包括数据的多个集合，这些数据中的集合中的每一个可以被不同地组织和访问。

类似地，在本说明书中，术语“引擎”广义用于指代被编程为执行一个或多个特定功能的基于软件的系统、子系统或过程。通常，引擎将被实现为在一个或多个位置中的一个或多个计算机上安装的一个或多个软件模块或组件。在某些情况下，一个或多个计算机将专用于特定的引擎；在其他情况下，可以在相同的一个或多个计算机上安装和运行多个引擎。

本说明书中描述的过程和逻辑流程能够由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程还能够由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行。

适合于执行计算机程序的计算机能够是基于通用和专用微处理器或两者以及任何种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行或实行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器能够通过专用逻辑电路系统进行补充，或者能够将该中央处理单元和存储器并入在专用逻辑电路系统中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如，磁盘、磁光盘或光盘，或者计算机还可操作地耦合到该一个或多个大容量存储设备，以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。此外，计算机能够被嵌入在另一设备中，该另一个设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器、或便携式存储设备(例如，通用串行总线(USB)闪速驱动器)，这里仅举了几个例子。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，例如包括：半导体存储设备，例如，EPROM、EEPROM和闪速存储设备；磁盘，例如，内部硬盘或可移动盘；磁光盘；以及，CD-ROM和DVD-ROM盘。

为了提供与用户的交互，本说明书中描述的主题的实施例能够被实现在计算机上，该计算机具有：显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，用于向用户显示信息；以及，键盘和诸如鼠标或轨迹球的指示设备，用户能够通过其向计算机提供输入。其他类型的设备也能够用于提供与用户的交互；例如，提供给用户的反馈能够是任何形式的感官反馈，例如视觉反馈、听觉反馈、或触觉反馈；并且能够以任何形式接收来自用户的输入，该任何形式包括声音、语音、或触觉输入。另外，计算机能够通过下述方式与用户交互：向由用户使用的设备发送文档和从由用户使用的设备接收文档；例如，通过响应于从用户的客户端设备上的web浏览器接收的请求，将网页发送到该web浏览器。此外，计算机能够通过向个人设备(例如，运行消息收发应用程序的智能电话)发送文本消息或其他形式的消息，并且继而从用户接收响应消息来与用户交互。

用于实现机器学习模型的数据处理装置还能够包括例如专用硬件加速器单元，用于处理机器学习训练或产生(即，推断、工作负载)的公共和计算密集部分。

能够使用机器学习框架(例如TensorFlow框架、Microsoft认知工具包框架、Apache Singa框架或Apache MXNet框架)来实现和部署机器学习模型。

在本说明书中描述的主题的实施例能够被实现在计算系统中，该计算系统包括例如作为数据服务器的后端组件，或者包括例如应用服务器的中间件组件，或者包括例如具有图形用户界面、Web浏览器、或app的客户端计算机的前端组件，或者包括一个或多个这样的后端、中间件或前端组件的任何组合，用户能够通过该图形用户界面或Web浏览器、或app与本说明书中描述的主题的实现交互。系统的组件可以通过数字数据通信(例如，通信网络)的任何形式或介质进行互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)(例如，互联网)。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行的并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施例中，服务器向用户设备发送数据(例如，HTML页面)，例如，为了向与作为客户端的设备交互的用户显示数据和从该与作为客户端的设备交互的用户接收用户输入的目的。可以在服务器处从设备接收例如作为用户交互的结果在用户设备处生成的数据。

虽然本说明书包含许多具体实现细节，但是这些不应当被解释为对任何本发明或所要求保护内容的范围的限制，而是作为对特定发明的特定实施例特定的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征还能够在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征还能够在多个实施例中单独地或以任何合适的子组合来实现。此外，虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此被要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下能够从组合中去除，并且所要求保护的组合可以针对子组合或子组合的变化。

类似地，虽然在附图中以特定顺序描绘操作，但是这不应当被理解为要求这些操作以示出的特定顺序或以依序顺序执行，或者所有图示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统组件的分离不应当被理解为在所有实施例中都需要这样的分离，并且应当理解的是，所描述的程序组件和系统通常能够一起被集成在单个软件产品中或封装到多个软件产品内。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，在权利要求中所述的动作能够以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要示出的特定顺序或依序的顺序来实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

Claims

1.一种用于生成预测的下一视频帧的系统，所述预测的下一视频帧是将跟随视频帧的时间序列中的最后一个视频帧的视频帧的预测，其中，所述预测的下一视频帧包括多个像素，所述多个像素中的每一个对于多个色彩通道中的每一个具有相应的色彩值，其中，所述像素根据像素顺序进行排序，并且所述色彩通道根据通道顺序进行排序，并且其中，所述系统包括：

编码器神经网络，所述编码器神经网络由一个或多个计算机实现并且被配置为：

处理所述时间序列中的每个视频帧以生成所述视频帧的时间序列的编码表示；以及

解码器神经网络，所述解码器神经网络由所述一个或多个计算机实现并被配置为对于所述预测的下一视频帧中的每个像素的每个色彩通道：

接收输入，所述输入包括(i)所述视频帧的时间序列的所述编码表示、(ii)用于在所述像素顺序中在所述像素之前的所述预测的下一视频帧中的任何像素的色彩值以及(iii)用于在所述通道顺序中在所述色彩通道之前的任何色彩通道的所述像素的色彩值；以及

处理所述输入以生成定义在用于所述像素的所述色彩通道的多个可能色彩值上的评分分布的输出。

2.根据权利要求1所述的系统，还包括：

解码器子系统，所述解码器子系统被配置为：通过针对每个像素的每个色彩通道执行以下动作来根据所述像素顺序和所述通道顺序逐像素地生成所述预测的下一视频帧，

向所述解码器神经网络提供(i)所述视频帧的时间序列的所述编码表示、(ii)用于在所述像素顺序中在所述像素之前的所述预测的下一视频帧中的任何像素的色彩值以及(iii)用于在所述通道顺序中在所述色彩通道之前的任何色彩通道的所述像素的色彩值作为输入；以及

通过从由所述解码器神经网络的所述输出定义的所述评分分布中采样来确定用于所述像素的所述色彩通道的所述色彩值。

3.根据权利要求1或2中的任一项所述的系统，其中，所述编码器神经网络包括：

卷积子神经网络，所述卷积子神经网络被配置为：对于所述时间序列中的每个视频帧，处理所述视频帧以生成所述视频帧的保持所述视频帧的分辨率的卷积表示；以及

卷积长短期记忆(LSTM)子神经网络，所述卷积长短期记忆(LSTM)子神经网络被配置为：对于所述时间序列中的每个视频帧，处理所述卷积表示以生成保持所述时间序列中的所述视频帧的所述分辨率的编码表示。

4.根据权利要求3所述的系统，其中，所述卷积子神经网络包括卷积神经网络层的多个残余块。

5.根据权利要求4所述的系统，其中，所述残余块是残余乘法块。

6.根据权利要求4或5中的任一项所述的系统，其中，所述卷积神经网络层包括一个或多个扩张的卷积神经网络层。

7.根据权利要求1-6中的任一项所述的系统，其中，所述解码器神经网络包括卷积神经网络层的多个残余块和输出层。

8.根据权利要求7所述的系统，其中，所述残余块是残余乘法块。

9.根据权利要求7或8中的任一项所述的系统，其中，所述卷积神经网络层包括一个或多个掩蔽的卷积神经网络层。

10.根据权利要求1-9中的任一项所述的系统，

其中，所述时间序列中的所述视频帧是通过机器人代理交互的环境的视频帧，其中，每个视频帧与相应的动作向量相关联，所述动作向量定义当所述环境处于由相关联的视频帧表征的状态中时要由所述机器人代理执行的动作，以及其中，当生成所述预测的下一帧时，所述解码器神经网络以动作向量为条件，所述动作向量定义当所述环境处于由在所述时间序列中的所述最后一个视频帧表征的状态时要由所述机器人代理执行的动作。

11.根据权利要求10所述的系统，其中，所述编码器神经网络以动作向量为条件，并且可选地，所述编码器神经网络以表征所述机器人代理的状态的状态向量为条件。

12.一种生成预测的下一视频帧的方法，所述预测的下一视频帧是将跟随视频帧的时间序列中的最后一个视频帧的视频帧的预测，其中，所述预测的下一视频帧包括多个像素，所述多个像素中的每一个像素对于多个色彩通道中的每一个具有相应的色彩值，其中，所述像素根据像素顺序进行排序，并且所述色彩通道根据通道顺序进行排序，并且其中，所述方法包括：

使用编码器神经网络来处理所述视频帧的时间序列，其中，所述编码器神经网络被配置为：

根据所述像素顺序和所述通道顺序逐个像素生成所述预测的下一帧，包括：

对于每个像素的每个色彩通道，

向解码器神经网络提供(i)所述视频帧的时间序列的所述编码表示、(ii)用于在所述像素顺序中在所述像素之前的所述预测的下一视频帧中的任何像素的色彩值以及(iii)在所述通道顺序中在所述色彩通道之前的任何色彩通道的所述像素的色彩值作为输入，

其中，所述解码器神经网络被配置为接收所述输入并处理所述输入，以生成定义用于所述像素的所述色彩通道的多个可能色彩值上的评分分布的输出，以及

13.根据权利要求12所述的方法，其中，所述编码器神经网络包括：

卷积LSTM子神经网络，所述卷积LSTM子神经网络被配置为：对于所述时间序列中的每个视频帧，处理所述卷积表示，以生成保持所述视频帧的所述分辨率的编码表示。

14.根据权利要求13所述的方法，其中，所述卷积子神经网络包括卷积神经网络层的多个残余块。

15.根据权利要求14所述的方法，其中，所述残余块是残余乘法块。

16.根据权利要求14或15中的任一项所述的方法，其中，所述卷积神经网络层包括一个或多个扩张的卷积神经网络层。

17.根据权利要求12-16中的任一项所述的方法，其中，所述解码器神经网络包括卷积神经网络层的多个残余块和输出层。

18.根据权利要求17所述的方法，其中，所述残余块是残余乘法块。

19.根据权利要求17或18中的任一项所述的方法，其中，所述卷积神经网络层包括一个或多个掩蔽的卷积神经网络层。

20.根据权利要求12-19中的任一项所述的方法，其中，所述时间序列中的所述视频帧是通过所述机器人代理交互的环境的视频帧，其中，每个视频帧与相应的动作向量相关联，所述动作向量定义当所述环境处于由相关联的视频帧表征的状态中时要由所述机器人代理执行的动作，以及其中，当生成所述预测的下一帧时，所述解码器神经网络以动作向量为条件，所述动作向量定义当所述环境处于由所述时间序列中的所述最后一个视频帧表征的状态时要由所述机器人代理执行的动作。

21.根据权利要求20所述的方法，其中，所述编码器神经网络以动作向量为条件，并且可选地，所述编码器神经网络以表征所述机器人代理的状态的状态向量为条件。

22.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求12-21中的任一项所述的方法的相应操作。

23.一种存储指令的计算机程序产品，所述指令在由一个或多个计算机执行时使得所述一个或多个计算机执行根据权利要求12-21中的任一项所述的方法的相应操作。

24.一种存储指令的计算机程序产品，所述指令在由一个或多个计算机执行时使所述一个或多个计算机实现根据权利要求1-11中的任一项所述的系统。