CN110622169A

CN110622169A - 用于视频中的动作识别的神经网络系统

Info

Publication number: CN110622169A
Application number: CN201880028962.4A
Authority: CN
Inventors: 若昂·卡雷拉; 安德鲁·西塞曼
Original assignee: Yin Hui Technology Co Ltd
Current assignee: Yin Hui Technology Co Ltd; DeepMind Technologies Ltd
Priority date: 2017-05-15
Filing date: 2018-05-15
Publication date: 2019-12-27
Also published as: WO2018210796A1; EP3602397A1; JP2020519995A; US11361546B2; WO2018210796A8; US20200394412A1; JP6870114B2; US10789479B2; US20200125852A1

Abstract

用于处理视频数据的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。示例系统接收视频数据并生成光流数据。来自视频数据的图像序列被提供给第一3D时空卷积神经网络，以在至少三个时空维度上处理图像数据，并提供第一卷积神经网络输出。将光流图像帧的对应序列提供给第二3D时空卷积神经网络，以至少在三个时空维度上处理光流数据，并提供第二卷积神经网络输出。第一卷积神经网络输出和第二卷积神经网络输出被组合以提供系统输出。

Description

用于视频中的动作识别的神经网络系统

相关申请的交叉引用

本申请是2017年5月15日提交的美国临时专利申请No.62/506,507的非临时申请并要求其优先权，其全部内容通过引用合并于此。

技术领域

本说明书涉及神经网络系统以及训练神经网络系统的改进方法。

背景技术

神经网络是机器学习模型，其采用一层或多层非线性单元来对于接收到的输入预测输出。一些神经网络除输出层外还包括一个或多个隐藏层。每个隐藏层的输出用作对于网络中下一个层(即，下一个隐藏层或输出层)的输入。网络的每一层根据相应的一组参数的当前值从接收到的输入生成输出。

发明内容

本说明书描述了一种被实现为在一个或多个位置中的一个或多个计算机上的一个或多个计算机程序的处理视频数据的系统。

如本文所使用，视频数据可以是2D或3D图像数据帧的任何时间序列。在实施例中，图像数据帧在二维或三维上编码空间位置；例如，帧可以包括图像帧，其中，图像帧可以表示真实场景或虚拟场景的图像。更一般而言，图像数据帧可以定义实体位置的2D或3D地图；实体可以是真实的或虚拟的，并且可以是任何规模，例如从人类规模到原子规模，后者包括例如原子、区域或二级结构在分子中的位置。

本文描述的系统的示例可以用于捕获/分类在图像帧内表示的实体或实体的一部分的运动，例如人类运动。系统的输出可以表示或分类在视频序列中识别出的一个或多个动作，并且/或者可以以其他方式处理视频数据，例如用于语义分段和视频物体检测等。

因此，来自本文描述的系统的输出数据可以基于输入来定义任何种类的分值、分类或回归输出。例如，如果对神经网络的输入是图像或已从图像中提取出的特征，则由神经网络针对给定图像生成的输出可能是用于动作或物体运动类别集合中的每个的分值，每个分值表示视频包含执行动作类别的物体的图像序列的估计的可能性。这种类型的系统在机器人技术中具有例如帮助学习模仿行为的应用。

因此，从广义上讲，在一个方面，一种用于处理视频数据的神经网络系统可以包括：第一数据输入，用于从视频数据的第一帧序列中接收图像数据；以及，第二数据输入，用于从所述视频数据的第二帧序列接收光流数据。该系统可以进一步包括：第一3D时空卷积神经网络，该第一3D时空卷积神经网络耦合到所述第一数据输入并且被配置为在至少三个时空维度上处理所述图像数据并提供第一卷积神经网络输出；以及，第二3D时空卷积神经网络，该第二3D时空卷积神经网络耦合到所述第二数据输入并且被配置为在至少三个时空维度上处理所述光流数据并提供第二卷积神经网络输出。该系统也可以包括：数据组合器，用于组合来自所述第一和第二卷积神经网络输出的数据，以提供组合的已处理的视频数据输出。数据组合器可以平均来自第一和第二卷积神经网络输出的数据。组合的已处理的视频数据输出可以包括分类数据输出，以提供指示在所述视频数据内的运动的分类的分类数据。

可以采用用于确定光流数据的任何合适的技术，包括例如预定的或学习的光流计算核(kernel)。光流数据可以表示为图像数据，并且可以在帧之间被确定，这些帧可以是但不必是时间上相邻的帧。因此，光流数据可以包括光流图像帧序列或图像帧对。由第二3D时空卷积神经网络处理的光流图像帧序列可以对应于由第一3D时空卷积神经网络处理的图像帧序列。

神经网络系统可包括：用于生成光流数据的预处理；以及可选地，用于选择图像帧以供该系统处理的预处理。因此，神经网络系统可以包括光流确定系统，该光流确定系统耦合在第一数据输入和第二数据输入之间，以从视频数据生成用于第二数据输入的光流数据。光流数据可包括两个光流通道，用于输入到第二3D时空卷积神经网络。类似地，图像数据可以包括用于第一3D时空卷积神经网络的两个或更多个彩色图像数据通道。在一些实现中，光流确定可以在序列的一端或另一端使用图像帧和一个附加帧。

第一和第二3D时空卷积神经网络中的一个或两个可以具有包括连续子模块的模块化子结构。然后，每个子模块可以包括(一个或多个)卷积层集合和至少一个降维层，例如1x1x1卷积，以减少底层中的卷积过滤器的特征映射维度。每个子模块还包括至少一个并行数据路径，该数据路径绕过(circumvent)卷积层集合，例如，到子模块输出的快捷连接或经由诸如最大或平均(3D)池化(pool)层的池化层的连接。这样的结构促进了多个子模块的堆叠，有助于提高准确性并减少训练误差并控制计算复杂度。

第一时空卷积神经网络和第二时空卷积神经网络中的一个或两个可以具有3D卷积层和池化层，它们具有带有立方感受野(receptive field)的3D核。虽然如此，第一和第二时空卷积神经网络中的一个或两个都可以包括仅池化时空维度的空间维度的3D池化层。这种方法可以帮助在空间和时间上对齐在网络内各层的感受野，以使网络之一内的过滤器或核看到物体在空间和时间上均连贯地运动。

在涉及3D核/层的情况下，这包括4D核/层，因为本文所述的架构可用于处理体素序列和像素，例如用于处理医学图像数据(例如4D超声或磁共振成像数据)，例如用于对运动(例如心脏运动)进行分类。

在一些实施例中，第一和第二3D时空卷积神经网络中的一个或两个可以包括：连续的两个、三个或更多子模块。每个子模块可以具有至少两个串联连接的3D卷积层，这些串联连接的层彼此并联连接；子模块输出之前的3D池化层；以及子模块输入和子模块输出之间的至少一个降维层。已经发现，在对输入数据进行分类时，这种布置特别准确。

3D时空卷积神经网络中的一个或两个都可以具有扩展的2D架构。

因此，在另一方面，一种提供神经网络系统的方法包括：识别用于2D图像处理的2D神经网络架构，其中，所述2D神经网络架构包括连续的卷积层和池化层，每个卷积层和池化层由相应的2D核定义。然后，该方法通过向所述2D核添加时间维度以将所述核转换为在空间和时间维度上运行的3D核来扩展所述2D神经网络架构，从而提供扩展的神经网络架构。然后，在视频数据上训练所述扩展的神经网络架构以产生经训练的神经网络。

在一些实施例中，在适当训练之前，例如通过在扩展架构中的时间维度中重复权重参数的缩放版本，使用来自2D神经网络架构的训练版本的权重参数来初始化或预训练扩展的神经网络架构。在某种程度上与直觉相反，在给定了最终的经训练的权重参数的情况下，已经发现这一点以在经训练的网络准确性上提供了实质性的好处。附加地或替代地，为了额外的利益，训练可以包括两个阶段，使用第一数据集的第一训练阶段和使用第二不同数据集的第二训练阶段。通常，第一数据集和第二数据集表示可以被分类为一些或全部相同类别的示例，并且在某些情况下基本上是不相交的。

在另一方面，一种提供经训练的神经网络系统的方法包括：提供至少一个时空卷积神经网络模块，该至少一个时空卷积神经网络模块耦合到数据输入并且被配置为使用连续的卷积层和池化层在至少三个时空维度上处理输入数据，每个卷积层和池化层由相应的核定义以提供卷积神经网络输出。时空卷积神经网络可以包括扩展的2D神经网络架构，在该扩展的2D神经网络架构中已经将时间维度添加到2D神经网络架构的2D核，以将核转换为在空间和时间维度上运行的3D核。时空卷积神经网络的权重可以使用2D神经网络架构的训练版本的权重来初始化，以提供初始化的时空卷积神经网络。附加地或可替代地，可以通过在与用于后续训练的训练数据集的不同的预训练数据集上进行训练来初始化时空卷积神经网络的权重。然后可以训练初始化的时空卷积神经网络以提供经训练的神经网络系统。

本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。

在一些实现中，所描述的神经网络系统可以在诸如包括人类运动的示例的视频数据集上实现实质上改善的分类准确性。由于所描述的第一和第二3D时空卷积神经网络的架构，对于相同的网络深度，系统的实施例还可以具有较少的参数，因此可以更轻松地在更高空间分辨率的视频上操作和/或采用较长的时间感受野，从而提取表示在较长时间上表征的运动的特征。换句话说，由于对于给定的分类精度可能需要较少的参数，所以与其他系统相比，本文所述的系统可能具有减少的处理和存储器要求。

系统的示例还能够利用先前成功的静止图像表征架构，以有原则的方式扩展它们以提供改进的准确性和更快的训练。这些架构的学习到的参数可用于初始化本文所述的网络，以便进行更快、更准确的训练。在一些实现中，在与用于训练过程的数据集不同的数据集上的预训练可以产生进一步的动作分类准确性改进。

在附图和以下描述中阐述本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1示出了用于处理视频数据的示例神经网络系统。

图2a和图2b示出了图1的系统的示例神经网络的细节。

图3示出了用于提供经训练的神经网络系统来处理视频数据的示例过程的流程图。

在各个附图中，相似的附图标号和标记指示相似的元件。

具体实施方式

本说明书总体上描述用于处理视频数据的神经网络系统。视频数据包括图像的时间序列，通常是2D图像，但可能是3D图像。图像可以包括由诸如相机的图像传感器捕获的图像和/或它们可以包括雷达，例如LIDAR图像。可以在电磁频谱的视觉区域和/或其他区域中捕获图像。可替代地，视频数据可以从模拟或游戏中获得，并且可以描绘模拟或游戏中的物体和/或演员。可以在将视频数据提供给神经网络系统之前对其进行预处理，例如以从图像中提取特征。

在一些实现中，视频数据被处理以识别，更具体地分类由视频数据表示的一个或多个动作。然而，更一般而言，所描述的神经网络系统具有架构，该架构可用于通过训练具有所描述的架构的神经网络系统以执行任务而处理用于任何目的的视频数据。例如，本文所述的神经网络系统可以被训练以识别或分类物体运动，例如出于医学或工程诊断目的或由自主或半自主车辆或机器人的控制系统使用。例如，可以控制车辆或机器人以响应于识别出的物体运动，例如以采取预防或躲避动作或者以开始抓握物体。在一些其他应用中，可以识别动作或行为，以便于机器人或车辆学习模仿该动作或行为。

因此，如本文所述的来自神经网络系统的输出可以包括分值集合，其可以是在[0,1]范围内的概率。每个分值可以表示视频数据包括表示对应分类类别(例如，识别的动作、物体行为或物体运动)的图像序列的估计的可能性。

在其他应用中，本文所述的神经网络系统可用于例如根据动作类别对视频数据进行分类，例如以促进视频搜索。例如，由神经网络系统针对给定图像生成的输出可以是用于动作(物体运动)类别集合中每个类别的分值，每个分值表示视频数据包含执行动作类别的物体的图像序列的估计的可能性。作为另一示例，每个分值可以表示视频关于主题的估计的可能性。作为另一个示例，由神经网络系统生成的输出可以是表示特定视频广告将被点击的估计的可能性的分值。在此，输入到系统的数据可以包括对于广告的印象场境的一个或多个特征。作为另一示例，由神经网络系统生成的输出可以是用于内容项集合中的每一个的分值，其中，每个分值表示用户将对内容项被推荐做出有利响应的估计的可能性。在此，输入到系统的视频数据可以包括针对用户的个性化推荐的一个或多个特征，例如，表征推荐的场境的特征，诸如表征用户采取的先前动作的特征。

图1示出了如上所述的用于执行任务的示例神经网络系统100。该系统包括用于接收包括一系列图像帧的视频数据的视频数据输入102，这些图像帧一次K个图像帧104的集合地被处理。该K个图像帧的集合可以重叠。可以以压缩形式提供视频数据，在这种情况下，可以在由神经网络系统100处理之前从视频数据中提取图像帧。图像帧可以是彩色图像帧，在这种情况下，该帧可以包括多个彩色通道，例如RGB或YUV彩色通道。

视频数据102还被提供给光流确定器106。这通常以软件实现，并且被配置为确定光流数据，例如，光流帧集合108，例如与K个图像帧相对应的光流帧。光流帧可以包括用于一对光流通道的数据，该对光流通道表示光流的水平(x)和垂直(y)分量。该对光流通道可以被认为是对光流进行成像的图像通道；它们可能具有与图像帧相同的分辨率。对于视频的每个图像帧，可以有一个光流帧，例如一对光流图像。因此，光流确定器106可以确定用于K个图像帧的K个光流帧。但是，由于通常由来自两个(或多个)图像的数据构成光流帧，因此可以从第一图像帧和第二图像帧等推导出第一光流帧，以便最终的光流帧可以使用来自第K+1图像帧的数据。

有许多确定光流的技术。在一种实现中，光流确定器使用TV-L1算法(总变化流场正则化，用于数据保真度的L¹范数)。光学流帧集合可以包括用于每个光学流帧的每个像素位置的x位移值集合和该每个像素位置的y位移值集合。备选地，光流可以包括沿着运动轨迹从一帧到另一帧的样本。在这种情况下，光学流帧集合可以在每个像素位置包括向量的x和y分量，该向量通过来自第一帧的连续图像帧映射像素的运动。例如，像素的第一光流帧向量是从第一图像帧到第二图像帧，下一个是从像素在第二帧之处到第三帧，等等；每个连续向量被存储在帧集合的第一帧中的像素的起始位置处的连续光流帧中。在一些实现中，可以采用双向光流，例如，一些光流帧编码前向流，而其他例如交织帧编码至前一帧的后向流。在一些实现中，光流帧可以例如通过减去(例如从位移值的平均值导出的)估计的全局运动分量来补偿相机或其他传感器的运动。

图像帧集合104向第一3D卷积神经网络110提供输入。广义而言，3D卷积神经网络110包括3D核，其中，核可以包括过滤或池化操作。3D核接收时空数据作为输入——即，它们从输入帧的时间序列接收数据。

在一些实现中，3D卷积神经网络110的架构可以基于扩展的2D卷积神经网络架构。例如，可以通过向二维卷积神经网络的过滤和合并核赋予附加的时间维度来使其扩展。例如，在过滤或池化核是正方形的情况下，可以将其制成立方的，即N×N过滤器可以变成N×N×N过滤器。3D卷积神经网络110可以具有多个输入通道，例如每个图像彩色通道一个输入通道，就像特征图一样对待。过滤器具有可学习的参数，这些参数将在训练期间被调整，如下所述。

光流帧集合108向第二3D卷积神经网络120提供输入。这可以具有与第一3D卷积神经网络110大致相似的架构，并且类似地接收时空数据作为输入，即，它们从光流帧的时间序列接收数据。稍后将描述3D卷积神经网络的示例架构。第二3D卷积神经网络120可以具有双通道输入以接收一对光流图像。

第一3D卷积神经网络和第二3D卷积神经网络各自提供输入视频数据的分层时空表示。来自第一3D卷积神经网络和第二3D卷积神经网络的输出由组合器130组合以提供神经网络系统输出132。在一些实现中，来自每个3D卷积神经网络的输出包括分值集合，用于对视频数据的语义内容进行分类的对应的分类类别集合中的每一个分类类别一个分值。这些神经网络的输出层可以实现softmax函数，并且分值可以表示类别的相应概率。在一些实现中，类别可以表示由视频数据表示的动作或物体运动的类别。来自组合器130的输出可类似地包括分类数据，例如分值集合，其表示神经网络系统已经被训练以区分的分类类别集合中的每一个的相应概率。

在一些实现中，组合器130可以平均来自每个3D卷积神经网络的分值。在一些其他实现中，组合器130可以以某种其他方式线性地组合分值。例如，组合器130可以包括学习的线性分类器，诸如多类支持向量机。在其他实现中，组合器130可以实施一个或多个3D卷积神经网络层以提供分类器分值输出。例如，来自3D卷积神经网络110、120的上层的特征图可以被组合并提供给由组合器130实现的一个或多个其他卷积神经网络层。

可以在每个时间步长/帧或对于每K个时间步长/帧提供来自组合器130的预测(分值)。预测(分值)可以在时间上被平均。

可以端到端地训练图1的神经网络系统100。例如，可以向系统提供视频数据的带标签的示例，其表示系统要学习区分的类的示例。可以通过随机裁剪、大小调整和翻转视频来生成用于训练的其他示例，并且可以通过随机拾取起始帧在时间上对示例进行随机化。然后可以通过反向传播从表示类别分值中的分类错误的成本函数得出的梯度调整系统的可学习参数，特别是3D卷积神经网络的过滤器的权重。在一些实现中，每个3D卷积神经网络110、120被分别训练，并且由组合器130平均来自这些网络的分值。在一些其他实现中，可以基于组合器130的输出来整体上训练系统。

现在将更详细地描述示例实现。

因此，参考图2a，其示出了3D卷积神经网络200的示例，其可用于3D卷积神经网络110、120中的任何一个或两者。神经网络200具有视频输入202以接收图像帧或光流帧。如图所示，这是单个通道输入，但实际上可以具有多个通道，在这种情况下，核可以将通道数作为附加维度。

视频向连续的卷积层204a-d、最大或平均池化层206a-e和子模块208提供输入。神经网络200具有预测输出210，其提供预测，例如分值，如前所述。示例子模块如图2b所示。在图2a中，(单通道)核感受野大小被标签kxixj表示，其中，i和j表示以像素为单位的空间维度，k表示以帧为单位的时间维度。相似地标记核步幅(stride)，并且此处未给出的为1。在一些实现中，每个卷积层之后可以是批归一化层和诸如ReLU(整流线性)激活函数(未示出)之类的激活函数。可以采用一个或多个1x1x1卷积204b,d通过在多个特征图上池化来执行降维。可以在预测输出210之前立即提供softmax层和可选的一个或多个完全连接的层(未显示)。

虽然卷积神经网络具有相对于水平方向和垂直方向对称的特征感受野，但是当考虑时间时，该感受野应取决于帧率和图像尺寸。如果感受野增长太快，则可能会合并来自不同物体的边缘，而如果其增长太慢，则可能无法很好地动态捕捉某些场景。通常，以像素和帧为单位，神经网络200可以被配置为使得至少一些核的感受野在空间维度和时间维度上不同。例如，在神经网络206a,b的一个或多个较低(接近输入)层中可能存在空间池，但是没有时间池。

参照图2b，示例子模块208具有来自前一层212的输入，并将输出提供给下一层214。该子模块可包括输入和输出之间的多个并行路径。这些可以包括一个或多个降维1x1x1卷积216、218、220、222，其中的一个或多个也可以实现非线性激活，例如整流线性激活。一个或多个并行路径可包括不同大小的卷积224、226；或这些可以分解为较小卷积的链。并行路径之一可以包括池化操作228。来自并行路径的输出可以由级联(concatenation)操作230组合。由神经网络200和子模块208实施的操作包括通过监督训练获知的参数。

虽然可以从头开始训练图1和2的系统，但是当使用前述类型的扩展2D网络时，系统的某些实现会引导训练。当通过例如将2D N×N过滤器扩大为N×N×N过滤器来扩展2D网络架构时，系统可能会受到限制，使得由重复图像帧组成的“无聊”视频应导致与在使用与单个图像输入相同的图像呈现时在经训练的2D网络中的那些相同的池化激活。这可以通过沿着时间维度将经训练的2D网络的权重重复N次然后通过除以N来重新缩放来实现。如果将N×N过滤器扩到为N×N×M过滤器，则可以采用相同的原理。以这种方式，对于以“无聊”视频呈现的3D网络，卷积过滤器响应可以与从其通过“扩展”导出3D网络架构的原始2D网络相同。由于卷积过滤器的输出对于“无聊”视频在时间上是恒定的，因此逐点非线性层以及平均池化层和最大池化层的输出也与2D架构相同，因此整个网络都遵循“无聊”视频限制。

图3示出了用于实例化和训练如上所述的神经网络，例如以对视频数据中的运动进行分类的示例过程。

因此，在步骤300，系统识别先前已经发现对于图像分类有用的2D神经网络架构。然后，系统如前所述将过滤器和池化核扩展为3D(步骤302)。这为系统提供了3D神经网络架构。再次如先前所述，系统初始化3D卷积神经网络110、120之一或两者的经训练的2D神经网络架构的权重(步骤304)。然后，系统通过监督的学习和反向传播训练图1的神经网络，分别训练或串联地训练每个3D神经网络或者端到端训练神经网络。在一些改善性能的实现中，可以在大型视频数据集上对系统100进行预训练(步骤306)，以便学习相关特征，然后可以在第二个可能较小的目标数据集上对系统100进行训练(步骤308)。这可能涉及仅训练系统的最后一层(最接近输出)，同时冻结其他网络权重。

对于被配置为执行特定操作或动作的一台或多台计算机的系统，意味着该系统已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在操作中导致系统执行该操作或动作。对于将被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，该指令在由数据处理装置执行时使该装置执行该操作或动作。

本说明书中描述的主题和功能操作的实施例可以被实现在数字电子电路中、在有形地实施的计算机软件或固件中、在计算机硬件(包括本说明书中公开的结构及其结构等同物)中或在它们的一个或多个的组合中。本说明书中描述的主题的实施例可以被实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上的计算机程序指令的一个或多个模块，用于由数据处理装置执行或控制数据处理装置的操作。替代地或补充地，程序指令可以编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，其被生成以编码信息以便传输到合适的接收器装置以供数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备或它们中的一个或多个的组合。然而，计算机存储介质不是传播的信号。

术语“数据处理装置”指代数据处理硬件，并且涵盖用于处理数据的所有种类的装置、设备和机器，例如包括可编程处理器、计算机或多个处理器或计算机。所述装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，所述装置也可以包括创建用于所涉及的计算机程序的执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或多个的组合的代码。

计算机程序(也称为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以以任何形式的编程语言编写，该任何形式的编程语言包括编译或解释语言或者声明性或过程语言，并且该计算机程序可以以任何形式部署，包括作为独立程序或作为适于在计算环境中使用的模块、组件、子例程或其他单元。程序可以但不需要对应于文件系统中的文件。程序可以存储在保存其他程序或数据(例如，存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所涉及的程序的单个文件中或者在多个协同文件中(例如，存储一个或多个模块、子程序或代码部分的文件)。计算机程序可以被部署为在一个计算机上或在位于一个地点或分布在多个地点并通过通信网络互连的多个计算机上执行。

如本说明书中所使用的，“引擎”或“软件引擎”是指提供与输入不同的输出的软件实现的输入/输出系统。引擎可以是编码的功能块，诸如库、平台、软件开发工具包(“SDK”)或对象。每个引擎可以在任何适当类型的计算设备上实现，该任何适当类型的计算设备例如是服务器、移动电话、平板电脑、笔记本电脑、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话或其他固定或便携式设备，其包括一个或多个处理器和计算机可读介质。另外，引擎的两个或更多可以实现在同一计算设备上或不同的计算设备上。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行，该一个或多个可编程处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。过程和逻辑流程也可以由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行。例如，过程和逻辑流程可以由图形处理单元(GPU)执行，并且所述装置也可以被实现为图形处理单元(GPU)。

适合于执行计算机程序的计算机包括例如可以基于通用和专用微处理器或两者以及任何种类的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的必要元件是用于执行指令的中央处理单元和用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如，磁盘、磁光盘或光盘，或者计算机还可操作地耦合到该一个或多个大容量存储设备以从其接收数据或向其传送数据或两者。然而，计算机不需要具有这样的设备。此外，计算机可以嵌入在另一设备中，该另一个设备例如是移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)，这里仅举了几个例子。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储设备，例如包括：半导体存储设备，例如，EPROM、EEPROM和闪存设备；磁盘，例如，内部硬盘或可移动盘；磁光盘；以及，CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

为了提供与用户的交互，本说明书中描述的主题的实施例可以实现在计算机上，该计算机具有：显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，用于向用户显示信息；以及，键盘和诸如鼠标或轨迹球的指示设备，用户可以通过其向计算机提供输入。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，该任何形式包括声音、语音或触觉输入。另外，计算机可以通过下述方式与用户交互：向用户使用的设备发送文档和从用户使用的设备接收文档；例如，通过响应于从用户的客户端设备上的web浏览器接收的请求，将网页发送到该web浏览器。

在此描述的主题的实施例可以实现在计算系统中，该计算系统包括诸如作为数据服务器的后端组件，或者包括诸如应用服务器的中间件组件，或者包括诸如具有图形用户界面或Web浏览器的客户端计算机的前端组件，或者包括一个或多个这样的后端、中间件或前端组件的任何组合，用户可以通过该图形用户界面或Web浏览器与在此描述的系统和技术的实现交互。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)(例如，因特网)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络交互。客户端和服务器的关系借助于在相应计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

虽然本说明书包含许多具体实现细节，但是这些不应被解释为对任何本发明或所要求保护内容的范围的限制，而是作为对特定发明的特定实施例特定的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实现。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独地或以任何合适的子组合来实现。此外，虽然特征可以在上面描述为在某些组合中起作用并且甚至最初如此被要求保护，但是来自所要求保护的组合的一个或多个特征在一些情况下可以从组合中去除，并且将所要求保护的组合可以涉及子组合或子组合变体。

类似地，虽然在附图中以特定顺序描绘操作，但是这不应被理解为要求这些操作以所示的特定顺序或以依序顺序执行，或者所有所示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统组件的分离不应被理解为在所有实施例中都需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中或封装到多个软件产品内。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，在权利要求中所述的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或依序的顺序来实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

Claims

1.一种用于处理视频数据的神经网络系统，所述神经网络系统包括：

第一数据输入，该第一数据输入用于从视频数据的第一帧序列接收图像数据；

第二数据输入，该第二数据输入用于从所述视频数据的第二帧序列接收光流数据；

第一3D时空卷积神经网络，该第一3D时空卷积神经网络耦合到所述第一数据输入并且被配置为在至少三个时空维度上处理所述图像数据并提供第一卷积神经网络输出；

第二3D时空卷积神经网络，该第二3D时空卷积神经网络耦合到所述第二数据输入并且被配置为在至少三个时空维度上处理所述光流数据并提供第二卷积神经网络输出；以及

数据组合器，该数据组合器用于组合来自所述第一卷积神经网络输出的数据和所述第二卷积神经网络输出的数据，以提供组合的已处理的视频数据输出。

2.根据权利要求1所述的神经网络系统，其中，所述第一3D时空卷积神经网络和所述第二3D时空卷积神经网络中的一个或两个具有包括连续子模块的模块化子结构，其中，每个所述子模块包括卷积层集合和至少一个降维层，以减少基础层中的卷积过滤器的特征映射维度。

3.根据权利要求1或2所述的神经网络系统，其中，所述第一3D时空卷积神经网络和所述第二3D时空卷积神经网络中的一个或两个具有包括连续子模块的模块化子结构，其中，每个所述子模块包括卷积层集合和绕过所述卷积层集合的至少一个并行数据路径。

4.根据权利要求1、2或3所述的神经网络系统，其中，所述第一3D时空卷积神经网络和所述第二3D时空卷积神经网络中的一个或两个包括3D卷积层和3D池化层，所述3D卷积层和所述3D池化层均具有含有至少3D k x i x j感受野的核，其中，i和j标记空间维度并且k标记时间维度，并且其中，i＝j＝k。

5.根据权利要求1至4中任一项所述的神经网络系统，其中，所述第一3D时空卷积神经网络和所述第二3D时空卷积神经网络中的一个或两个包括仅池化时空维度的空间维度的3D池化层。

6.根据权利要求1至5中任一项所述的神经网络系统，其中，所述第一3D时空卷积神经网络和所述第二3D时空卷积神经网络中的一个或两个包括：至少两个子模块，每个子模块均具有：至少两个串联连接的3D卷积层，其中，所述至少两个串联连接的3D卷积层彼此并联连接；在子模块输出之前的3D池化层；以及，在子模块输入和所述子模块输出之间的至少一个降维层。

7.根据权利要求1至6中任一项所述的神经网络系统，还包括光流确定系统，所述光流确定系统耦合在所述第一数据输入和所述第二数据输入之间，以从所述视频数据生成用于所述第二数据输入的所述光流数据。

8.根据权利要求1至7中任一项所述的神经网络系统，其中，所述光流数据包括至少两个光流通道，并且其中，所述第二3D时空卷积神经网络具有至少两个对应的输入通道。

9.根据权利要求1至8中任一项所述的神经网络系统，其中，所述图像数据包括由至少两个图像数据通道表示的彩色图像数据，并且其中，所述第一3D时空卷积神经网络具有至少两个对应的输入通道。

10.根据权利要求1至9中任一项所述的神经网络系统，其中，所述数据组合器被配置为对来自所述第一卷积神经网络输出的数据和所述第二卷积神经网络输出的数据求平均。

11.根据权利要求1至10中任一项所述的神经网络系统，其中，所述组合的已处理的视频数据输出包括分类数据输出，以提供指示在所述视频数据内的运动的分类的分类数据。

12.根据权利要求1至11中任一项所述的神经网络系统，其中，所述3D时空卷积神经网络中的一个或两个具有扩展的2D架构。

13.一种提供神经网络系统的方法，所述方法包括：

识别用于2D图像处理的2D神经网络架构，其中，所述2D神经网络架构包括连续的卷积层和池化层，每个卷积层和池化层由相应的2D核定义；

通过向所述2D核添加时间维度以将所述核转换为在空间维度和时间维度上运行的3D核来扩展所述2D神经网络架构，从而提供扩展的神经网络架构；以及

在视频数据上训练所述扩展的神经网络架构以产生经训练的神经网络。

14.根据权利要求13所述的方法，进一步包括：重新使用来自所述2D神经网络架构的训练版本的权重参数，以在所述训练之前对所述扩展的神经网络架构进行预训练。

15.根据权利要求14所述的方法，其中，所述预训练包括在所述扩展的神经网络架构中的时间维度上重复所述权重参数的缩放版本。

16.根据权利要求13、14或15所述的方法，其中，所述训练包括两个阶段：在第一数据集上的第一训练阶段和在第二不同数据集上的第二训练阶段。

17.一种提供经训练的神经网络系统的方法，所述方法包括：

提供至少一个3D时空卷积神经网络模块，该至少一个3D时空卷积神经网络模块耦合到数据输入并且被配置为使用连续的卷积层和池化层在至少三个时空维度上处理输入数据以提供卷积神经网络输出，每个卷积层和池化层由相应的核定义，

其中，所述3D时空卷积神经网络包括扩展的2D神经网络架构，在该扩展的2D神经网络架构中已经向2D神经网络架构的2D核添加时间维度以将所述核转换为在空间维度和时间维度上运行的3D核；

通过使用所述2D神经网络架构的训练版本的权重来初始化所述3D时空卷积神经网络的权重，以提供初始化的时空卷积神经网络，和/或通过在预训练数据集上进行训练来初始化所述3D时空卷积神经网络的权重；并且然后

训练所述初始化的3D时空卷积神经网络以提供经训练的神经网络系统。

18.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令当由所述一个或多个计算机执行时，使所述一个或多个计算机执行权利要求13至17中任一项所述的相应方法的所述操作。

19.一种或多种存储指令的计算机存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机执行根据权利要求13至17中任一项所述的相应方法的所述操作。

20.一种或多种存储指令的计算机存储介质，所述指令当由一个或多个计算机执行时，使所述一个或多个计算机实现根据权利要求1至12中任一项所述的神经网络系统。