CN110770760B

CN110770760B - 视觉交互网络系统及其方法、训练方法和计算机存储介质

Info

Publication number: CN110770760B
Application number: CN201880027163.5A
Authority: CN
Inventors: N.沃特斯; R.帕斯卡努; P.W.巴塔格利亚; D.佐恩; T.G.韦伯
Original assignee: DeepMind Technologies Ltd
Current assignee: DeepMind Technologies Ltd
Priority date: 2017-05-19
Filing date: 2018-05-22
Publication date: 2024-01-12
Anticipated expiration: 2038-05-22
Also published as: US20200092565A1; EP3593291A1; CN110770760A; US10887607B2; EP3593291B1; US11388424B2; CN117915108A; US20210152835A1; WO2018211144A1

Abstract

一种由一台或多台计算机实施的系统包括视觉编码器组件，该视觉编码器组件被配置为接收表示图像帧序列的数据作为输入，特别是表示该序列的场景中的对象的数据，并输出对应的状态码序列，每个状态码包括向量，一个向量用于每个对象。每个向量表示其对应的对象的相应位置和速度。该系统还包括动态预测器组件，该动态预测器组件被配置为采用例如来自视觉编码器的状态码序列作为输入，并且预测下一个未观察帧的状态码。该系统还包括状态解码器组件，该状态解码器组件被配置成将预测状态码转换成状态，该状态包括场景中每个对象的相应位置和速度向量。该状态可以表示每个对象的预测位置和速度向量。

Description

视觉交互网络系统及其方法、训练方法和计算机存储介质

相关申请的交叉引用

本申请要求于2017年5月19日在美国提交的第62/509，049号美国专利申请“对物理系统的未来状态进行对象级预测”的权益，该专利申请通过引用并入本文。

技术领域

本说明书涉及可以被训练来预测物理系统的未来状态的机器学习模型。

背景技术

神经网络是采用一层或多层非线性单元来针对接收到的输入预测输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中下一层(即下一个隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值来从接收到的输入生成输出。

一些神经网络是递归神经网络。递归神经网络(recurrent neural network，RNN)是接收输入序列并从输入序列生成输出序列的神经网络。具体而言，递归神经网络可以在计算当前时间步长的输出时使用来自先前时间步长的网络的一些或全部内部状态。递归神经网络的示例是包括一个或多个长短期(long short term，LSTM)记忆块的LSTM神经网络。每个LSTM记忆块可以包括一个或多个单元，每个单元包括输入门、遗忘门和输出门，这些门允许单元存储例如用于生成电流激励或要被提供给LSTM神经网络的其他组件的单元的先前状态。

一些神经网络是卷积神经网络。卷积神经网络是假设输入是图像的一种前馈神经网络。通常，图像可以被认为表示为体积(volume)，即针对多个通道中每个通道的像素值矩阵。通道通常是颜色通道。卷积神经网络层具有对应于输入数据维度的按三维排列的计算神经元。三种类型的层用于构建卷积神经网络:一个或多个卷积层、一个或多个池化层以及一个或多个完全连接层。这些层中的每一层都从激励的输入体积生成激励的输出体积。简单卷积神经网络的层序列可以是，例如，保存图像像素值的输入层，随后是计算连接到输入中局部区域的神经元的输出的卷积层，其中每个卷积层计算神经元的权重和输入体积中小区域之间的点积。根据卷积层中应用的滤波器的数量，得到的体积可以更大或更小。在本示例中，该层之后是ReLU(整流线性单元)层，该层对每个元素应用非线性激励函数，诸如max(0，input)。在本示例中，该层之后是池化层，它沿着体积的宽度和高度执行向下采样(down-sampling)，然后是计算分类分数的完全连接层。完全连接层中的每个层接收池化层中生成的所有值。

发明内容

本说明书描述了实施视觉交互网络(visual interaction network，VIN)的系统，该视觉交互网络从视频中学习物理，并且可以对对象之间的短期和长期空间交互进行编码。一个示例系统组合了交互网络和深度卷积神经网络。该系统具有基于卷积神经网络的感知前端和基于交互网络的动态预测器。通过联合训练，感知前端学会将动态视觉场景解析成一组分解的潜在对象表示。动态预测器通过计算这些表示的交互和动态来学会及时地将表示向前滚动，从而产生任意长度的预测物理轨迹。

因此，在一个实施方式中，由一台或多台计算机实现的系统包括视觉编码器组件，该视觉编码器组件被配置为接收表示图像帧序列的数据作为输入，特别是表示该序列的场景中的对象的数据，并输出对应的状态码序列，每个状态码包括向量，一个向量用于每个对象，其中每个向量表示其对应的对象的相应位置和速度。该系统还包括动态预测器组件，该动态预测器组件被配置为，更具体地该动态预测器组件被训练为例如从视觉编码器接收状态码序列作为输入，并且预测下一个未观察到的帧的“最终的”(即，预测的)状态码。该系统还包括状态解码器组件，该状态解码器组件被配置为，更具体地该状态解码器组件被训练为将状态码(特别是“最终的”或预测的状态码)转换为状态，该状态包括场景中每个对象的相应位置和速度向量。该状态可以表示每个对象的预测位置和速度矢量。

每个状态码可以包括表示对象位置和速度的向量的条目或“槽位(slot)”的列表。每个状态可以类似地包括用于对象的位置和速度向量的条目或槽位的列表。

在一些实施方式中，系统被配置为以滑动窗口的方式对帧序列应用视觉编码器，以产生状态码序列。因此，每个状态码可以编码图像帧序列。

稍后将进一步描述动态预测器组件，但是一般而言，动态预测器组件可以包括具有不同时间偏移的多个交互网络。每个交互网络被配置为采用不同的时间偏移处的输入，并为其时间偏移产生(预测的)候选状态码。动态预测器组件被配置成例如使用多层感知器来聚合候选状态码，以产生图像帧的输入序列之后的下一个(未观察的)帧的预测状态码。

时间偏移指的是(预测的)候选状态码(即下一个(未观察的)帧的时间)和用于预测它的状态码的时间之间的时间差。用于预测它的状态码的时间可以通过由状态码编码的图像帧序列的帧中的一个帧(例如该序列的最近图像帧)的时间来定义。时间偏移可以是1、2和4。

在输入状态码序列的一些实施方式中，对于每个偏移t，单独的交互网络组件从索引t处的输入状态码计算候选预测状态码。

在一些实施方式中，交互网络将关系网络应用于每个对象的向量与每个其他(对象)向量的组合(串联)，以更新对象的向量。交互网络还可以将自动态网络应用于对象的向量本身，以提供对对象的向量的附加更新；可以添加更新。

动态预测器组件可以被配置为递归神经网络，并且被训练为预测预定数量的未见的帧中的每一个帧的状态。

还描述了一种方法，包括接收表示图像帧序列的数据，并从图像帧生成对应的状态码序列，每个状态码包括一组对象码，一个对象码用于序列中的最终输入帧中的每个对象，其中该组对象码表示序列的最终输入帧中每个对象的相应位置。该方法还可以包括从状态码序列生成下一个未观察帧的预测状态码。该方法还可以包括将预测的状态码转换成状态。该方法还可以包括执行任何前述操作。

还描述了一种用于训练视觉交互网络(模型)系统的方法，包括:使用训练损失来训练系统以从输入图像帧序列预测未见的图像帧序列，训练损失是预定数量的未见的帧中的每一个帧的相应误差项的加权和。该系统可以是如前所述的VIN系统。

本说明书中描述的主题可以在特定实施例中实施，以便实现一个或多个以下优点。

所述类型的视觉交互网络(VIN)系统能够使用感官观察(例如排他地使用视觉输入)来学习对物理系统的未来状态配置进行对象级预测。通常，输入到系统的、表示物理系统的对象的运动的数据可以以任何方式导出(例如从感测的位置或速度数据、和/或从其他数据导出)，但是所描述的系统的优点在于，它可以排他地从图像预测对象状态(例如位置和速度)。

所描述的VIN系统能够处理完全不同类型的对象-对象交互，诸如重力交互和刚体交互。这种系统能够从视频中学习物理，并且能够对对象之间的短期和长期空间交互进行建模，从而允许系统适应快速和慢速移动。在这种系统中，校正物理系统状态配置的对象级预测的误差信号足以学习支持对象并产生适于关于对象和关系的推理的场景表示的感知前端。因此，该系统的示例能够从图像帧序列推断多个对象的物理状态，并且能够对它们的未来轨迹做出准确预测。该系统的示例在各种物理系统上表现良好，并且对对象的视觉复杂性和部分可观察性具有鲁棒性。

VIN系统的视觉输入可以从真实或模拟的物理系统导出。视觉输入可以包括表示物理系统的观察的图像帧，例如来自相机或存储的视频，或者来自雷达传感器(例如LIDAR传感器)。

如上所述的VIN系统可用于根据物理系统的预测状态提供用于控制物理系统的动作控制信号。例如，VIN系统预测可由控制算法用来控制物理系统，例如，用来最大化基于物理系统的预测状态预测的回报。VIN系统可以包括在强化学习系统中，例如根据物理系统的预测状态来估计未来的折扣回报。强化学习系统可以具有用于选择要由物理系统执行的动作的动作选择策略神经网络。可以通过从策略分布中采样来选择动作，或者可以由动作选择策略神经网络确定性地提供动作。可以根据旨在最大化动作值的策略梯度来确定策略。VIN系统可用于例如通过响应于动作而预测物理系统的未来状态来估计动作值。

物理系统可以是任何真实和/或模拟的物理系统。例如，物理系统可以包括真实或模拟机器人的环境的一部分、或者真实或模拟自主或半自主车辆的环境的一部分、或者任何设备的环境的一部分。物理系统还可以包括具有移动部分的物理系统，在这种情况下，VIN系统可以被用于预测移动部分的未来配置和/或速度。在其他一些应用中，VIN系统可以在模拟系统或游戏中、或者在自主或引导推理或决策系统中用作物理引擎。

每个网络和组合可以在一个或多个位置的一台或多台计算机上实施为计算机程序。

附图说明

图1示出了一个示例视觉交互网络系统。

图2示出了视觉编码器的示例帧对编码器。

图3示出了动态预测器中示例交互网络的操作。

不同附图中相同的附图标记和名称表示相同的元件。

具体实施方式

图1示出了一个示例视觉交互网络系统。如将要描述的，可以训练该系统，以从由输入图像帧和目标对象状态值组成的监督数据序列预测未来的物理状态。可以通过隐式地将模拟交互实体的动态和交互所需的规则内在化来训练该系统，以近似涉及交互实体的一系列不同物理系统。该系统可以学习推断对象状态的模型，并且可以对在未来的时间步长时的这些状态做出准确的预测。该系统能准确预测动态。它是可伸缩的，能够适应各种强度和距离范围的力，并且能够从动态推断视觉上不可观察的量，即，不可观察的对象位置。该系统还可以生成长的卷展(rollout)序列，该卷展序列在视觉上看似合理并与基准真值(ground-truth)物理相似。

该系统包括基于卷积神经网络(convolutional neural network，CNN)的视觉编码器102，以及如稍后所述使用交互网络106进行迭代物理预测的动态预测器或“核心”104。该系统还包括状态解码器(图1中未明确示出)。

视觉编码器

视觉编码器102采用序列(在该示例中为三元组的连续帧120a、120b)作为输入，并且针对每个三元组而输出状态码122a、122b。每一帧都示出对象。状态是每个对象的位置和速度向量的列表。状态码是向量列表，场景中的每个对象对应一个向量。这些向量中的每一个向量都是其对应对象的位置和速度的分布式表示。如稍后所述，槽位(slot)是在对应于对象的列表中的条目，即向量。槽位数量可以是系统的超参数。以滑动窗口的方式对帧序列应用视觉编码器，产生状态码序列。该系统的训练目标是基准真值状态。

视觉编码器的帧对编码器

图2示出了视觉编码器的帧对编码器。帧对编码器是一个CNN，它从多个图像对产生状态码，并用于编码例如三个图像的序列。因此，帧对编码器获取一对连续帧202，并输出帧对状态码216。帧对编码器应用于三个帧的序列中的两个连续帧对。例如通过槽位的方式(slot-wise)的多层感知器(multilayer perceptron，MLP)(未示出)，将两个获得的帧对状态码聚合成三个图像的序列的编码状态码。这里，槽位方式的聚合意味着MLP每次从一对槽位获取输入，以产生对应槽位的聚合输出。帧对编码器将具有两种不同内核大小的CNN 204应用于通道堆叠的帧对，附加常数x、y坐标定义的通道210(如后所述)，并且应用例如具有交替的卷积层和最大池化层的CNN212，直到获得单位宽度和高度214。获得的形状为1×1×(N_object×L′_code)的张量被重新定型为形状为N_object×L′_code的帧对状态码216，其中N_object是在该场景中对象的数量并且L′_code是在聚合之前的每个状态码槽位的长度。这两个状态码被馈送到聚合器中，以从三元组产生最终编码器输出(例如输出122a(图1))，即图像帧序列的状态码。图像帧序列的状态码具有槽位长度L_code，该槽位长度可以但是不需要不同于L′_code。

视觉编码器架构的一个重要特征是通过在两个帧对上应用相同的帧对编码器而给出的权重分配，这近似于输入序列上的时间卷积。类似地，在其他实施方式中，3D CNN(即具有两个空间维度和一个时间维度的CNN)可以采用帧序列作为输入，并且提供序列码的状态码作为输出。

另一个重要特征是包括定义通道的常数x、y坐标。这些可以在CNN中以任何方便的级别与来自输入帧的数据相结合，并且可以在图像帧上定义网格，例如矩形或其他网格，其中该网格从一个图像帧到另一个图像帧是恒定的。因此，在一些实施方式中，定义通道的常数x、y坐标定义了图像上的x-和y-坐标网格。这允许在整个处理的大部分时间内合并位置。如果没有坐标通道，这种卷积结构将不得不从图像的边界推断位置，这是一项更具挑战性的任务。

以下段落将描述视觉编码器的一个实施方式的特定参数和细节。在该实施方式中，视觉编码器采用三幅图像的序列作为输入并输出状态码。它对帧[F1，F2，F3]的操作顺序如下:

·将帧对编码器应用于[F1，F2]和[F2，F3]，获得S1和S2。这些是从图像对编码器输出的长度为32的向量。

·应用共享线性层将S1和S2转换为形状为N_object×64的张量。这里N_object是场景中对象的数量，64是每个状态码槽位的长度。

·以槽位的方式串联S1和S2，获得形状为N_object×128的单个张量S。

·将具有一个大小为64的隐藏层和一个长度为64的输出层的共享MLP应用于S的每个槽位。结果是帧序列[F1，F2，F3]的编码状态码。

该实施方式的图像对编码器采用两幅图像作为输入并输出候选状态码。它对帧[F1，F2]的操作顺序如下:

·沿着它们的颜色通道维度堆叠F1和F2。

·独立应用两个2层卷积网，一个卷积网具有大小为10的内核和4个通道，另一个卷积网具有大小为3的内核和16个通道。两者都被填充以保持输入大小。沿着通道维度堆叠这些卷积的输出。

·应用有16个通道和大小为3的内核的两层大小保持(size-preserving)的卷积网。保持输入大小有助于添加坐标网格。

·添加两个常数坐标通道，表示特征矩阵的x坐标和y坐标。这两个通道定义了最小值为0并且最大值为1的网格。

·利用交替的卷积和2×2最大池化层卷积到单位高度和宽度。卷积层是大小保持的，并且内核大小为3。卷积层和最大池化层各自都总共为5层。前三层有16个通道，并且后两层有32个通道。将结果展平成一个长度为32的向量。这是图像对编码器的输出。

动态预测器

图1所示的示例动态预测器104从以滑动窗口的方式被应用于帧序列的视觉编码器102输出的状态码序列122a、122b。因此，动态预测器将状态码序列作为输入，其中每个状态码从相应的帧序列导出。动态预测器输出该序列的后续帧的预测状态码140a。图1示出了卷展中涉及的处理，其中预测了另外两个图像帧的状态码140b、140c。因此，预测状态码140b是从状态码122b和140a预测的，并且预测状态码140c是从状态码140a和140b预测的。

动态预测器104包括一组交互网络，每个交互网络采用不同的时间偏移处的输入并产生对应的候选状态码。在图1所示的示例中，为了简化说明，动态预测器104具有两个交互网络；在后面描述的示例中，动态预测器104中存在三个交互网络。在多层感知器(MLP)的实施方式中，候选状态码由聚合器108聚合，以产生下一帧的预测状态码。如下所述，状态解码器将预测状态码140a、140b和140c分别转换成预测状态150a、150b和150c。

动态预测器104实施交互网络的变体，即状态到状态物理预测器模型。PeterBattaglia等人在《Interaction Networks for Learning about Objects,Relations andPhysics,Advances in Neural Information Processing Systems,pages 4502-4510,2016》(《用于学习对象，关系和物理的交互网络，神经信息处理系统的最新进展，第4502-4510页，2016》)中描述了交互网络。交互网络利用对象关系神经网络对表示对象特征的一组向量(即矩阵)进行操作，以便生成表示对象之间交互的一组更新的向量(即更新的矩阵)。例如，对象关系神经网络可以采用对象i和j的向量作为输入，并输出对象i的修正向量；对于每个对象，交互网络可以对对象i和每个其他对象j之间的交互的修正向量进行求和，以提供对象i的更新的向量；也可以包括由不同的自交互神经网络来确定的自交互(对象i至对象i)项。

然而，由动态预测器实施的交互网络在多个不同的时间偏移上聚合。动态预测器具有一组时间偏移(例如，三个偏移{1，2，4}为一组)，每个偏移具有一个交互网络106(图1)。给定输入状态码序列122a、122b(为简化表示，图1仅示出了单个时间偏移量)，对于每个偏移t，单独的交互网络106根据索引t处的输入状态码计算候选预测状态码。聚合器108将候选预测状态码的列表转换为帧的预测状态码，其中该聚合器108在实施方式中包括对候选预测状态码以槽位的方式进行操作的MLP。因为候选预测状态码都与相同的预测状态/帧相关，所以时间偏移从预测状态/帧向后。

这种架构的时间偏移的聚合通过允许它适应帧序列中不同对象的快速和慢速移动来增强它的能力。这种使用交互网络的“分解”表示即使在有许多对象的场景中也促进高效地学习交互，并且是架构性能的重要贡献者。

图3示意性地示出了动态预测器中交互网络106的操作。动态预测器中用于每个时间偏移的交互网络如下。对于状态码302的每个槽位，例如所示的槽位302a，关系神经网络304被应用于槽位302a与每个其他槽位302b、302c、302d、302e的串联。每个槽位对应于相应的对象(图2中槽位203b-203e的重复仅仅是为了便于说明)。自动态神经网络306被应用于槽位302a本身。神经网络304和306的输出被求和，并且在实施方式中由影响器308进行后处理，在实施方式中影响器308是诸如MLP的神经网络。影响器308的功能是促进学习观察到的系统的交互和动态如何影响对象的预测。影响器308的输出被施加到槽位302a(例如通过将影响器的输出添加到槽位的内容)，以产生候选预测状态码的对应槽位312a的向量。

以下段落将描述动态预测器的一个实施方式的特定参数和细节。在该示例实施方式中，动态预测器具有三个交互网络，每个交互网络具有不同的时间偏移。该示例实施方式采用4个连续状态码[S1，...S4]的序列，并输出如下预测状态码：

·时间偏移是1、2、4，所以动态预测器有三个交互网络C₁、C₂、C₄。由于时间偏移索引可以追溯到时间(对于帧的预测是基于距离该帧不同时间偏移处的更早的帧)，因此C₄应用于S₁，C₂应用于S₃，C₁应用于S₄。使表示输出。

·针对每个i∈{1,...,N_object}将大小为[32，64]的共享的以槽位的方式的MLP聚合器应用于的串联。获得的状态码是动态预测器的预测状态码输出。

该实施方式的每个交互网络采用状态码作为输入，并如下输出候选状态码:

·将大小为[64，64]的自动态MLP应用于每个槽位M_i。使表示这些。

·将大小为[64，64，64]的关系MLP应用于每对不同槽位的串联。使表示输出。

·针对每个槽位对到目前为止所计算的数量进行求和，以产生更新的槽位。具体来说，使

·将大小为[64、64、64]的影响器MLP应用于每个以产生/>

·对于每个槽位，将大小为[32，64]的(相同)共享MLP应用于Mi和的串联。获得的状态码是交互网络的候选状态码输出。

状态解码器

该系统还包括状态解码器，其将预测状态码(例如，预测状态码140a、140b和140c)分别转换成预测解码状态(例如预测解码状态150a、150b和150c)。为了说明清楚，状态解码器没有在图1中明确示出，但是状态解码器在预测状态码和解码状态之间操作。对于位置和速度向量，状态解码器可以包括具有大小为L_code的输入和大小为4的输出的线性层。该线性层独立地应用于预测状态码的每个槽位。

训练

当训练时，状态解码器可以应用于编码状态码，以生成用于辅助编码器损耗函数162的解码状态，并且可以应用于预测状态码，以生成用于预测损耗函数160的预测状态。训练损失可以包括预测损失和辅助编码器损失的总和。更具体地，辅助损失可以从自状态码解码的状态和基准真值状态(即，视觉编码器的输入，其中视觉编码器从该输入生成状态码)之间的差异导出。预测损失可以从与基准真值训练序列的帧的比较中导出。在一些实施方式中，预测损失函数可以从帧序列的卷展中导出，其中由时间折扣因子对未来的帧的损失赋予更小的权重。

该系统非常适合长期预测，因为动态预测器可以被视为循环网络，即一个预测状态码可以用作用于预测另一个状态码的输入，并在状态码上被卷展。视觉编码器输出中的噪声似乎有利于训练。在一种情况下，系统被训练来预测八种未见的未来状态的序列。预测损失是对应的八个误差项的归一化加权和。该加权和在整个训练过程中由从0.0开始并接近1.0的折扣因子加权，因此在训练开始时，系统必须只预测第一个未见的状态，并且在结束时，它必须预测所有八个未来状态的平均值。

本说明书中描述的主题和功能操作的实施例可以实施在数字电子电路中、实施在有形地具体体现的计算机软件或固件中、实施在计算机硬件(包括本说明书中公开的结构及其结构等同物)中、或者实施在它们中的一个或多个的组合中。本说明书中描述的主题的实施例可以实施为一个或多个计算机程序，即，编码在有形的非暂时性存储介质上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基底、随机或串行访问存储器设备、或者它们中的一个或多个的组合。可替换地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其中该传播信号被生成以编码用于传输到合适的接收器装置以由数据处理装置执行的信息。

术语“数据处理装置”指的是数据处理硬件并且包含用于处理数据的所有种类的装置、设备和机器，例如包括可编程处理器、计算机、或多个处理器或计算机。该装置还可以是或还可以包括专用逻辑电路，例如，现场可编程门阵列(field programmable gatearray，FPGA)或专用集成电路(application-specific integrated circuit，ASIC)。除了硬件之外，该设备可以可选地包括为计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(也可以被称为或描述为程序、软件、软件应用、应用、模块、软件模块、脚本或代码)，可以以任何形式的编程语言(包括编译或解释语言、或者声明或过程语言)编写；并且它可以以任何形式部署，包括作为独立程序或作为模块、组件、子例程或其他适合在计算环境中使用的单元。程序可以但不一定对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、存储在专用于所讨论的程序的单个文件中、或者存储在多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。计算机程序可以被部署为在一个计算机上运行，或者在位于一个站点的或者分布在多个站点之间并通过通信网络互连的多个计算机上运行。

本说明书中描述的过程和逻辑流程可以由执行一个或多个计算机程序的一台或多台可编程计算机执行，以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA或ASIC)来执行、或者由专用逻辑电路和一台或多台编程计算机的组合来执行。

适于执行计算机程序的计算机可以基于通用微处理器或专用微处理器、或者两者、或者任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路补充或并入到专用逻辑电路中。通常，计算机还将包括用于存储数据的一个或多个海量存储设备(例如，磁盘、磁光盘或者光盘)，或者计算机还将被可操作地耦合到所述一个或多个海量存储设备，以从所述一个或多个海量存储设备接收数据、或者向所述一个或多个海量存储设备传递数据、或者兼而有之。然而，计算机不需要这样的设备。此外，计算机可以嵌入到另一设备中，例如移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器、或便携式存储设备(例如，通用串行总线闪存(universal serial bus，USB)驱动器)，仅举几例。

适于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，例如包括：半导体存储设备(例如，EPROM、EEPROM和闪存设备)；磁盘(例如，内部硬盘或可移动磁盘)；磁光盘；以及CD-ROM盘和DVD-ROM盘。

为了提供与用户的交互，本说明书描述的主题的实施例可以在计算机上实施，该计算机具有用于向用户显示信息的显示设备(例如，阴极射线管(cathode ray tube，CRT)或液晶显示器(liquid crystal display，LCD)监视器)以及用户可以通过其向计算机提供输入的键盘和指示设备(例如,鼠标或轨迹球)和/或触摸屏。其它种类的设备也可以用来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈、或者触觉反馈；以及可以以任何形式接收来自用户的输入，包括声音、语音、或者触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互；例如，通过响应于从用户设备上的网络浏览器接收的请求，向该网络浏览器发送网页。此外，计算机可以通过向个人设备(例如，运行消息传递应用的智能手机)发送文本消息或其他形式的消息，并且反过来从用户接收响应消息来与用户交互。

用于实施机器学习模型的数据处理装置还可以包括例如专用硬件加速器单元，用于处理机器学习训练或生产的公共和计算密集型部分，即推理、工作负载。

可以使用机器学习框架(例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架)来实施和部署机器学习模型。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为对任何发明的范围或可能要求保护的范围的限制，而是对特定于特定发明的特定实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。而且，虽然特征可能在上面被描述为出现在某些组合中并且甚至一开始就被要求按这样进行保护，但是来自要求保护的组合中的一个或多个特征在一些情况下可以从该组合中被删除，并且要求保护的组合可以专注于子组合或者子组合的变体。

类似地，虽然操作在附图中被按照特定次序描绘并且在权利要求中被按照特定次序记载，但是这不应该被理解为要求按照所示出的特定次序来执行或者按照相继次序执行这些操作、或者要求执行所有示出的操作，以便实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离，并且应理解，所描述的程序组件和系统通常可以集成在单个软件产品中或者打包到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的次序执行，并且仍然实现期望的结果。作为一个示例，附图中描述的过程不一定要求所示的特定次序或相继次序以实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。

本说明书结合系统和计算机程序组件使用术语“配置”。被配置为执行特定的操作或动作的一台或多台计算机的系统意味着系统已经在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作时使得该系统执行操作或动作。被配置为执行特定的操作或动作的一个或多个计算机程序意味着该一个或多个程序包括指令，当由数据处理装置执行时，该指令使得该装置执行操作或动作。

虽然本说明书包含许多具体的实施细节，但这些不应被解释为对任何发明的范围或所要求保护的范围的限制，而是对可以特定于特定发明的特殊实施例的特征的描述。本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。而且，虽然特征可能在上面被描述为出现在某些组合中并且甚至一开始就被要求按这样进行保护，但是来自要求保护的组合中的一个或多个特征在一些情况下可以从该组合中被删除，并且要求保护的组合可以专注于子组合或者子组合的变型。

类似地，虽然操作在附图中被按照特定次序描述，但是这不应该被理解为要求按照所示出的特定次序来执行或者按照相继次序执行这些操作、或者要求执行所有示出的操作，以便实现期望的结果。在某些情况下，多任务处理和并行处理可能是有利的。此外，上述实施例中各种系统模块和组件的分离不应理解为在所有实施例中都需要这种分离，并且应理解，所描述的程序组件和系统通常可以集成在单个软件产品中或者打包到多个软件产品中。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中记载的动作可以以不同的次序执行，并且仍然实现期望的结果。作为一个示例，附图中描述的过程不一定需要所示的特定次序或相继次序以实现期望的结果。在某些实施方式中，多任务和并行处理可能是有利的。

Claims

1.一种由一台或多台计算机实施的视觉交互网络系统，该系统包括:

视觉编码器组件，被配置为:

接收表示图像帧序列的数据作为输入，并输出对应的状态码序列，每个状态码包括向量，一个向量用于序列的场景中的每个对象，其中每个向量表示其对应的对象的相应位置和速度；

动态预测器组件，被配置为:

将状态码序列作为输入，并预测下一个未观察帧的状态码；以及状态解码器组件，被配置为:

将状态码转换成状态，所述状态包括场景中的每个对象的相应位置和速度向量，其中:

所述动态预测器组件包括几个交互网络组件，每个交互网络组件被配置为采用在不同的时间偏移处的输入并产生候选状态码；以及

所述动态预测器组件被配置为通过多层感知器聚合所述候选状态码，以产生图像帧的输入序列之后的下一帧的预测状态码。

2.根据权利要求1所述的系统，其中：

每个状态码和状态各自都是位置和速度向量的列表。

3.根据权利要求1所述的系统，其中:

所述系统被配置为以滑动窗口的方式对帧序列应用视觉编码器，以产生状态码序列。

4.根据权利要求1所述的系统，其中：

时间偏移是1、2和4。

5.根据权利要求1所述的系统，其中:

对于输入状态码序列，对于每个偏移t，单独的交互网络组件根据索引t处的输入状态码计算候选预测状态码。

6.根据权利要求1-5中任一项所述的系统，其中:

所述动态预测器组件被配置为递归神经网络，并被训练为预测预定数量的未见的帧中的每个帧的状态。

7.一种用指令编码的计算机存储介质，当由一台或多台计算机执行时，所述指令使所述一台或多台计算机实施权利要求1至6中任一项的系统。

8.一种由一台或多台计算机实施的视觉交互网络方法，包括：

使用视觉编码器组件来：

使用动态预测器组件来：

将状态码序列作为输入，并预测下一个未观察帧的状态码；

以及使用状态解码器组件来：

使用动态预测器组件包括使用多个交互网络组件，每个交互网络组件采用在不同的时间偏移处的输入并产生候选状态码，并且还包括：

使用动态预测器组件通过多层感知器聚合所述候选状态码，以产生图像帧的输入序列之后的下一帧的预测状态码。

9.一种用于训练视觉交互网络系统的方法，包括:

使用训练损失来训练根据权利要求1至6中任一项所述的系统以从输入图像帧序列预测未见的图像帧序列，所述训练损失是预定数量的未见的帧中的每一帧的相应误差项的加权和。

10.一种用指令来编码的计算机存储介质，当由一台或多台计算机执行时，所述指令使所述一台或多台计算机执行权利要求8或9所述的方法。