CN117501277A

CN117501277A - 用于3d cnn中的动态四重卷积的装置和方法

Info

Publication number: CN117501277A
Application number: CN202180099274.9A
Authority: CN
Inventors: 蔡东琪; 姚安邦; 陈玉荣; 李超
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2024-02-02
Also published as: US20240312196A1; TW202324208A; WO2023097423A1

Abstract

提供了用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置、方法、设备和介质。该装置包括：多维注意力块，其被配置为接收视频数据样本的输入特征图；以及基于输入特征图动态地生成沿着3维卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及卷积块，其被配置为以矩阵‑向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

Description

用于3D CNN中的动态四重卷积的装置和方法

技术领域

本公开的实施例总体涉及卷积神经网络(CNN)的技术，具体涉及用于3维(3D)CNN中的动态四重卷积的装置和方法。

背景技术

3D CNN是用3D卷积运算来构造的，这些运算在输入数据的时空空间中自然地执行。由于联合时空建模能力，3D CNN已经成为广泛用于高级视频分析任务的主流模型，高级视频分析任务包括视频动作识别和检测、视频对象检测和分割等。

发明内容

根据本公开的一个方面，提供了一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置。该装置包括：多维注意力块，其被配置为接收视频数据样本的输入特征图；以及基于输入特征图动态地生成沿着3D卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及卷积块，其被配置为以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

根据本公开的另一方面，提供了一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法。该方法包括：由多维注意力块接收视频数据样本的输入特征图；由多维注意力块基于输入特征图动态地生成沿着3D卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

本公开的另一方面提供了一种设备，包括用于实施本公开的方法的装置。

本公开的另一方面提供了一种上面存储有指令的机器可读存储介质，指令在由机器执行时使得机器执行本公开的方法。

附图说明

在不一定按比例绘制的附图中，同样的附图标记可以在不同的视图中描述类似的部件。具有不同字母后缀的相同附图标记可以表示类似部件的不同实例。附图通过示例而非限制的方式一般性地例示了本文献中讨论的各种实施例。

图1a是示出3D CNN中的常规卷积层的框图。

图1b是示出3D CNN中的现有动态卷积层的框图。

图1c是根据本公开的一些实施例示出3D CNN中的动态四重卷积(DqConv)层的框图。

图2是根据本公开的一些实施例示出用于DqConv的示例性多维注意力(MDA)块的框图。

图3是根据本公开的一些实施例的具有MDA块的实例化的DqConv层的示例性图示。

图4示出了使用R(2+1)D ResNet-18作为主干针对Kinetics数据集的激活图的可视化比较，其中，图4(a)至图4(d)中的每一个从上到下示出：原始输入视频剪辑；R(2+1)DResNet-18的基线；将DqConv应用于基线模型。

图5示出了根据本公开的一些实施例的用于3D CNN中的DqConv的示例性方法的流程图。

图6是示出根据一些示例实施例的能够从机器可读或计算机可读介质读取指令并执行本文所讨论的方法中的任何一个或多个的部件的框图。

图7是根据本公开的一些实施例的示例处理器平台的框图。

具体实施方式

将使用本领域技术人员通常采用的术语来描述说明性实施例的各个方面，以向本领域其他技术人员传达本公开的实质。然而，对于本领域技术人员将显而易见的是，可以使用所描述的方面的部分来实践许多替代实施例。为了解释的目的，阐述了具体的数字、材料和配置，以便提供对说明性实施例的透彻理解。然而，对于本领域技术人员将显而易见的是，可以在没有这些具体细节的情况下实践替代实施例。在其它情况下，为了避免使说明性实施例模糊，可能已经省略或简化了公知的特征。

进一步地，将以最有助于理解说明性实施例的方式将各种操作依次描述为多个离散的操作；然而，描述的顺序不应被解释为暗示这些操作必须是顺序相关的。特别地，这些操作不需要以呈现的顺序来执行。

短语“在实施例中”、“在一个实施例中”和“在一些实施例中”在本文中重复使用。该短语通常不指代同一实施例；但其可以指代同一实施例。术语“包括”、“具有”和“包含”是同义的，除非上下文另外规定。短语“A或B”和“A/B”意指“(A)、(B)或(A和B)”。

当前，训练高性能3D CNN以用于视频分析是具有挑战性的问题，因为有大量的可学习参数。为了从卷积运算的角度扩充3D CNN的容量，当前存在两类解决方案。第一类是将3D卷积运算分解为分别沿着空间和时间维度的各种形式的可分离2D和1D卷积，诸如P3D、S3D、FstCN、R(2+1)D和X3D等。这种解决方案在一定程度上以联合时空建模能力为代价来简化3D CNN的训练。第二类是引入额外的控制器来调整或生成卷积参数，包括沿着特定维度对卷积权重、核形状或采样偏移自适应、以及权重预测等应用软注意力的动态卷积。这种解决方案利用动态参数执行自适应推理以增加模型能力，然而，除了它们主要被提出用于图像任务并且在应用于相对大的网络时表现出不令人满意的性能提升之外，它们还遭受卷积层中的参数的数量的线性增加。

图1a示出了3D CNN中的常规卷积层的框图，图1b示出了3D CNN中的现有动态卷积层的框图。如图1a所示的常规3D卷积要学习每层的静态3D卷积核，并且该核在推理期间是固定的。图1b所示的现有动态卷积解决方案使用注意力块来学习多个卷积核的自适应集成。其遭受参数的数量相对于被集成的卷积核的数量的线性增加。

对于现有的3D卷积，令表示输入特征图，其中，T、H和W表示其时间长度、空间高度和宽度，并且C_i表示输入通道的数量。考虑具有输出通道数C_o和核大小K_t×K_h×K_w(其中，K_t表示核的时间长度，K_h表示核的空间高度，并且K_w表示核的空间宽度)的常规3D卷积运算，卷积过滤器被表示为/>其中，各个过滤器/> 包含C_i个3D卷积核/> 为了简化，空间核大小K_h×K_w在以下部分中表示为K_s。如图1a所示的常规3D卷积运算可以写为

其中，输出特征图为卷积层处的卷积过滤器/>是静态的，这意味着过滤器是固定的并且应用于所有输入样本。

与常规的静态卷积不同，现有的动态卷积是样本自适应的，如图1b所示，它们可以被公式化为

其中，π_n,n＝1,2,…K由注意力块动态地生成以自适应地集成K个卷积核。当使用这些现有动态卷积来代替常规(静态)卷积时，将导致用于模型存储的约K倍的存储器成本，其中，K指示被使用的动态核的数量且通常设定为4或8。此外，现有的动态卷积仅将注意力机制应用于3D卷积核的四个维度之一，这在很大程度上限制了现有动态卷积设计的能力。因此，存在用于开发最佳动态3D卷积设计的大量空间。

为了克服训练用于视频分析的高性能3D CNN中的问题，本公开从新的技术角度提供解决方案：通过重新设计基本的3D卷积运算来扩充CNN的容量以用于视频分析。

本公开提供了简单但高效的动态四重卷积(DqConv)以扩充3D CNN的容量以用于高性能视频分析。DqConv引入了一种最佳的多维注意力机制，用于将3D卷积过滤器调制成样本动态的，这提供了捕捉丰富的背景线索的性能保证，并且在模型大小和准确性之间取得了最佳折衷。在一个实施例中，DqConv可以将多维注意力块插入到3D CNN的常规卷积过滤器中，并且在每个卷积层处顺序地学习沿着过滤器空间的所有四个维度(关于空间核大小、时间核大小、输入通道数和输出通道数)的注意力卷积过滤器标量，从而以细粒度方式增强基本3D卷积运算的特征建模能力。另外，作为一种嵌入式设计，DqConv可以容易地插入任何流行的3D CNN架构中。

图1c示出了根据本公开的一些实施例的3D CNN中的DqConv卷积层的框图。如图1c所示，DqConv并入有多维注意力(MDA)块以动态地生成沿着3D卷积核空间的四个维度的注意力卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小。这样，由DqConv引入的额外参数的数量是可忽略的，并且取决于沿着所有四个维度的原始3D卷积核大小的和。图1a至图1c中示出了DqConv与常规卷积和现有动态卷积的比较概览。

在一个实施例中，DqConv可将MDA块插入原始静态卷积核中。该MDA块沿着3D卷积核空间的所有四个维度动态地生成注意力卷积核标量，从而产生和他们表示沿着卷积核/>的输出通道和输入通道的数量、时间和空间维度的注意力卷积核标量。然后，如图1c所示的DqConv可以被公式化为

其中，“×”表示矩阵-向量积运算。具体地，示出了各个/>与相乘，其中，/>表示标量/>的第k^th个元素。通过顺序乘以沿着不同维度的四个注意力标量，3D卷积核对视频/高维数据特征进行建模的能力被以灵活的自适应性增强。此外，/> 和/>由MDA块以高效方式生成：

图2示出了根据本公开的一些实施例的用于DqConv的示例性MDA块200。示例性MDA块200是被设计用于计算沿着3D卷积核空间的四个维度的注意力核标量的轻量结构。示例性MDA块200可首先跨空间和时间维度聚合输入特征图以产生通道描述符。该描述符很好地嵌入了基于通道的特征响应的全局分布。接着进行通道挤压和激励操作以变换通道描述符以便进一步抽象。接着，可将抽象的描述符映射并缩放至3D卷积核空间的不同维度的大小，以便分别实现四个对应的注意力核标量。如等式(3)所表示的，然后，将这些标量以矩阵-向量积的方式与原始静态3D卷积核顺序相乘，以获得DqConv的动态核。该MDA块可以嵌入在各个卷积层中，使得能够容易地进行端到端训练。

具体地，如图2所示，MDA块200可包括时空聚合单元202，用于对接收的输入特征图执行时空聚合操作以产生通道描述符。MDA结构还可包括通道挤压和激励单元204，用于执行通道挤压和激励操作，以变换在时空聚合单元202中生成的通道描述符以便进一步抽象。另外，MDA块200可包括映射和缩放单元206，用于执行映射和缩放操作，以将抽象的描述符映射和缩放到3D卷积核空间的不同维度的大小，并分别输出四个对应的注意力核标量。

在一个实施例中，时空聚合操作可以利用3D全局平均池化(GAP)来执行。在另一个实施例中，时空聚合可以利用最大池化、随机池化、最小池化等来执行，其在本文中不受限制。

在一个实施例中，通道挤压和激励操作可以通过采用具有通道挤压比r的全连接(FC)层且随后进行归一化(BN)和非线性激活(ReLU)来执行。在另一个实施例中，1×1卷积可用于代替FC。

在一个实施例中，映射和缩放单元206可以包括：第一映射和缩放单元，用于将抽象的描述符映射和缩放到输出通道数C_o的维度的大小，并且输出注意力核标量att_co；第二映射和缩放单元，用于将抽象的描述符映射和缩放到输入通道数C_i的维度的大小，并输出注意力核标量att_ci；第三映射和缩放单元，用于将抽象的描述符映射和缩放到时间大小K_t的维度的大小，并且输出注意力核标量att_Kt；以及第四映射和缩放单元，用于将抽象的描述符映射和缩放到空间大小K_s的维度的大小，并且输出注意力核标量att_Ks。

在一个实施例中，在通道挤压和激励单元204中生成的抽象的描述符可以分别使用例如FC和Softmax运算来映射和缩放为注意力标量。在另一个实施例中，1×1卷积运算可用于代替FC运算。在又一个实施例中，Sigmoid或Tanh运算可以用于代替Softmax运算。这在本文中不受限制。

在一个实施例中，DqConv可通过MDA块在每个卷积层处学习沿着核空间的四个维度的注意力卷积核标量。在顺序地乘以这四个注意力核标量之后，静态3D卷积核变得动态地适应于各个输入示例并且专用于核空间的各个维度。用DqConv代替常规的3D卷积使得能够增加3D CNN的容量，同时维持高效的推理。另外，作为一种嵌入式设计，DqConv可以容易地插入任何流行的3D CNN架构中，诸如C3D、i3D、P3D、R(2+1)D、ResNet-3D、SlowFast等，并且提升高性能视频分析任务的性能，如以下描述的示例实验中所示。

图3示出了根据本公开的一些实施例的具有MDA块的实例化的DqConv层的示例图示。考虑到DqConv的效率，如图3所示的DqConv的实例化可用作示例用例。具体地，可以使用例如3D全局平均池化(GAP)来进行对输入特征图的时空聚合以产生通道描述符。可以采用具有通道挤压比为r的全连接(FC)层，随后是归一化(BN)和非线性激活(ReLU)，以变换通道描述符以用于进一步抽象。例如，使用FC和Softmax运算，抽象描述符被进一步分别映射和缩放为注意力标量。在这种情况下，DqConv的额外参数可以表示为作为示例，当使用挤压比r＝4并取C_i＝C_o＝256时，由DqConv引入的额外参数的数量大约是原始3D卷积核(C_o×C_i×K_t×K_s)的2.8％，这是相当轻量的设计。

当将DqConv应用于R(2+1)D ResNet-34并使用具有空间大小224×224的8帧输入时，由DqConv引入的额外FLOP为2.65G，其为基线模型的约5％。另外，DqConv为基线模型(如表1所示)带来了4.05％的Top-1性能提升以及1.8％的总额外参数，这在准确性和效率方面均优于先前的解决方案。

在实验中，使用视频动作识别基准将DqConv应用于流行的3D CNN主干以用于评估。Kinetics-200是大规模视频动作识别数据集。总共有80K个训练视频和5K个验证视频。提取视频帧并将其调整大小为340×256像素，且在训练时将其裁剪为224×224。具有采样间隔2的32帧剪辑可以被默认用作网络输入，否则将在设置中例示。

表1：DqConv、CondConv和DyConv在Kinetics-200数据集上的性能比较

表1示出了DqConv与先前的现有技术解决方案(CondConv(条件参数化卷积)和Dyconv(动态卷积：对卷积核的注意力)在Kinetics-200数据集上的综合比较。具体地，使用ResNet-34和ResNet-18作为主干将将DqConv应用于R(2+1)D。对于R(2+1)D R34，使用具有224×224的空间分辨率的8帧输入。如图所示，DqConv优于基线，与CondConv和DyConv相比，DqConv具有更少的额外参数但具有更大的性能提升。对于R(2+1)DR18，32帧输入用于进一步对更长期运动动力学建模。如图所示，DqConv实现了优于先前解决方案的持续且显著的性能优点，这证明了DqConv对于高性能视频分析的有效性和高效性。

表2示出了当应用于不同的流行3D CNN主干(包括R(2+1)D、R3D和SlowFast)时对DqConv在Kinetics-200数据集上的性能比较。如表2所示，DqConv以可忽略的额外参数为所有基线模型带来持续且显著的准确性改善，从而产生超过3％的Top-1裕度。此外，原始模型大小越小，准确性增益越大，从而在在边缘/云客户端上部署高性能视频分析模型方面显示了巨大潜力。

表2：当将DqConv应用于不同种类的流行3D CNN主干时在Kinetics-200数据集上的性能比较

表3示出了DqConv在大得多的基准Kinetics-400数据集上的性能比较。该数据集包含超过Kinetics-200的两倍的视频样本。如表3所示，DqConv在Kinetics-400上的改进大于(超过4.5％的Top-1裕度)在Kinetics-200上的改进，从而示出其对较大规模且具有挑战性的视频数据集的良好泛化能力。

表3：Kinetics-400数据集上的性能比较。

可以看出，DqConv以高效的设计显著提高了3D CNN模型的准确性。当在大规模视频动作识别数据集(包括Kinetics-200/400)上将DqConv应用于不同的流行3D CNN时，示出了DqConv为各种主干模型带来了有前景的准确性改进，并且使得与先前的对应物相比，模型复杂度的增加显著较小。

图4示出了使用R(2+1)D ResNet-18作为主干的Kinetics数据集的激活图的可视化比较，其中，图4中的(a)至(d)中的每一个从上到下示出：原始输入视频剪辑；R(2+1)DResNet-18的基线；将DqConv应用于基线模型。如图4所示，DqConv倾向于学习持续且准确地定位不同动作示例中的运动相关注意力区域的视频特征，从而扩充了3D CNN对丰富的时空背景线索建模的能力。

如图4所示，用DqConv代替原始卷积显著地改善了时空特征学习。其倾向于始终强调视频剪辑内的运动相关注意力区域，从而证明其在对3DCNN的丰富复杂时空线索进行建模方面的效率。

除了大规模视频识别任务之外，在一个实施例中，DqConv还可以应用于其他有挑战性的任务，包括迁移学习。如在表4(其示出了DqConv在被迁移到UCF-101数据集时的性能)中可以看出，当迁移到UCF-101数据集时，具有DqConv的模型也实现了显著的性能提升。

表4：DqConv在被迁移到UCF-101数据集时的性能。

图5例示了示出根据本公开的一些实施例的用于3D CNN中的DqConv的示例性方法500的流程图。方法500可以包括方框S510-S530。

在方框S510，可例如由图2中的MDA块200或图3中的MDA块300接收视频数据样本的输入特征图。在方框S520，可以基于输入特征图例如通过图2中的MDA块200或图3中的MDA块300动态地生成沿着3D卷积核空间的四个维度的卷积核标量，其中，四个维度包括输出通道数、输入通道数、时间大小和空间大小。在方框S530，可以以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得DqConv的动态核。

在一些实施例中，方法500可包括更多或更少的步骤。本公开在这个方面不受限制。而且，方法500可以结合上述实施例来理解。

本公开提供了简单但高效的DqConv以扩充3D CNN的容量以用于高性能视频分析。作为一种嵌入式设计，DqConv可以容易地插入任何流行的3D CNN架构中，并且提升高性能视频分析任务的性能。DqConv引入了一种最佳的多维注意力机制，其用于将3D卷积过滤器调制成是样本动态的，提供了性能保证以捕捉丰富的背景线索，并且在模型大小和准确性之间取得了最佳折衷。DqConv还可以增强现有的人工智能(AI)/深度学习(DL)/机器学习(ML)相关硬件(HW)设计、SW(软件)开发和高性能高级视频分析应用(包括视频动作识别和检测、视频对象检测和分割等)的解决方案。

作为深度CNN不可缺少的组成部分，本公开在高级视频分析任务(动作识别、迁移学习等)中示出了极大的泛化能力，并且有助于提供用于在边缘/云设备和高性能分布式/并行计算系统上部署深度3D模型的软件栈。DqConv技术可以在例如英特尔GPU计算架构上实施，并且可以被采用作为大型计算集群设计和业务的一个业务特征。

另外，作为即插即用设计，DqConv可应用于任何现有3D CNN，从而大大扩充3D模型的容量。

图6是例示了根据一些示例实施例的能够从机器可读或计算机可读介质(例如，非瞬态机器可读存储介质)读取指令并执行本文所讨论的方法中的任何一个或多个的部件的框图。具体地，图6示出了硬件资源600的图示，其包括一个或多个处理器(或处理器核心)610、一个或多个存储器/存储设备620以及一个或多个通信资源630，其中的每一个都可以经由总线640通信地耦合。对于利用节点虚拟化(例如，NFV)的实施例，可以执行管理程序602来提供用于一个或多个网络切片/子切片的执行环境，从而利用硬件资源600。

处理器610可以包括例如处理器612和处理器614，其可以是例如中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、诸如基带处理器的数字信号处理器(DSP)、专用集成电路(ASIC)、射频集成电路(RFIC)、另一处理器或其任何合适的组合。

存储器/存储设备620可以包括主存储器、磁盘储存器或其任何合适的组合。存储器/存储设备620可以包括但不限于任何类型的易失性或非易失性存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、闪存、固态储存器等。

通信资源630可以包括互连或网络接口部件或其他合适的设备，其经由网络608与一个或多个外围设备604或一个或多个数据库606通信。例如，通信资源630可以包括有线通信部件(例如，用于经由通用串行总线(USB)耦合)、蜂窝通信部件、NFC部件、蓝牙部件(例如，蓝牙/>低功耗)、Wi-Fi/>部件和其他通信部件。

指令650可以包括软件、程序、应用、小应用程序、应用程序(app)或用于使至少任何处理器610执行本文所讨论的任何一个或多个方法的其他可执行代码。指令650可完全或部分地驻留在至少一个处理器610内(例如，处理器的高速缓冲存储器内)、存储器/存储设备620或其任何合适的组合内。此外，指令650的任何部分可从外围设备604或数据库606的任何组合传送到硬件资源600。因此，处理器610的存储器、存储器/存储设备620、外围设备604和数据库606是计算机可读和机器可读介质的示例。

图7是根据本公开的一些实施例的示例处理器平台的框图。处理器平台700可以是例如服务器、个人计算机、工作站、自学习机(例如，神经网络)、移动设备(例如，蜂窝电话、智能电话、诸如iPadTM的平板电脑)、个人数字助理(PDA)、因特网电器、DVD播放器、CD播放器、数字录像机、蓝光播放器、游戏控制台、个人录像机、机顶盒、头戴式视图器或其他可穿戴设备、或者任何其他类型的计算设备。

所例示示例的处理器平台700包括处理器712。所例示示例的处理器712是硬件。例如，处理器712可以由来自任何期望系列或制造商的一个或多个集成电路、逻辑电路、微处理器、GPU、DSP或控制器来实施。硬件处理器可以是基于半导体(例如，基于硅)的设备。在一些实施例中，处理器实施上述方法或过程中的一个或多个。

所例示示例的处理器712包括本地存储器713(例如，高速缓存)。所例示示例的处理器712经由总线718与包括易失性存储器714和非易失性存储器716的主存储器通信。易失性存储器714可以由同步动态随机存取存储器(SDRAM)、动态随机存取存储器(DRAM)、RAMBUS动态随机存取存储器(RDRAM/>)和/或任何其它类型的随机存取存储器设备来实施。非易失性存储器716可以由闪存和/或任何其它期望类型的存储器设备来实施。对主存储器714、716的访问由存储器控制器控制。

所例示示例的处理器平台700还包括接口电路720。接口电路720可以由任何类型的接口标准来实施，接口标准诸如以太网接口、通用串行总线(USB)、蓝牙接口、近场通信(NFC)接口、和/或PCI高速接口。

在所例示的示例中，一个或多个输入设备722连接到接口电路720。一个或多个输入设备722允许用户将数据和/或命令录入到处理器712中。一个或多个输入设备可以由例如音频传感器、麦克风、相机(静态相机或摄像机)、键盘、按钮、鼠标、触摸屏、跟踪板、跟踪球、和/或语音识别系统来实施。

一个或多个输出设备724也连接到所例示示例的接口电路720。输出设备724可例如由显示设备(例如，发光二极管(LED)、有机发光二极管(OLED)、液晶显示器(LCD)、阴极射线管(CRT)显示器、面内切换(IPS)显示器、触摸屏等)、触觉输出设备、打印机和/或扬声器来实施。由此，所例示示例的接口电路720通常包括图形驱动器卡、图形驱动器芯片和/或图形驱动器处理器。

所例示示例的接口电路720还包括通信设备，诸如发送器、接收器、收发器、调制解调器、住宅网关、无线接入点和/或网络接口，以便于经由网络726与外部机器(例如，任何种类的计算设备)交换数据。通信可以是经由例如以太网连接、数字用户线(DSL)连接、电话线连接、同轴电缆系统、卫星系统、现场线路无线系统、蜂窝电话系统等进行。

例如，接口电路720可以包括通过一个或多个输入设备722输入或者从网络726检索的训练数据集。

所例示示例的处理器平台700还包括用于存储软件和/或数据的一个或多个大容量存储设备728。这种大容量存储设备728的示例包括软盘驱动器、硬盘驱动器、光盘驱动器、蓝光盘驱动器、独立磁盘冗余阵列(RAID)系统和数字多功能盘(DVD)驱动器。

机器可执行指令732可以存储在大容量存储设备728中、易失性存储器714中、非易失性存储器716中和/或诸如CD或DVD的可移动非瞬态计算机可读存储介质上。

以下段落描述了各种实施例的示例。

示例1包括一种用于3维(3D)卷积神经网络(3D CNN)中的动态四重卷积的装置，包括：多维注意力块，其被配置为接收视频数据样本的输入特征图；以及基于输入特征图动态地生成沿着3D卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及卷积块，其被配置为以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

示例2包括示例1的装置，其中，多维注意力块包括：时空聚合单元，其对输入特征图执行时空聚合操作以产生通道描述符；通道挤压和激励单元，其执行通道挤压和激励操作以变换通道描述符以用于进一步抽象；以及映射和缩放单元，其执行映射和缩放操作以将抽象的描述符映射和缩放至3D卷积核空间的不同维度的大小，并分别输出四个对应的注意力核标量。

示例3包括示例1或2的装置，其中，时空聚合操作利用3D全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

示例4包括示例1至3中任一项的装置，其中，通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

示例5包括示例1至4中任一项的装置，其中，映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

示例6包括示例1至5中任一项的装置，其中，映射和缩放单元包括：第一映射和缩放单元，其将抽象的描述符映射和缩放到输出通道数的维度的大小，并输出沿着输出通道数的维度的注意力核标量；第二映射和缩放单元，其将抽象的描述符映射和缩放到输入通道数的维度的大小，并输出沿着输入通道数的维度的注意力核标量；第三映射和缩放单元，其将抽象的描述符映射和缩放到时间大小的维度的大小，并输出沿着时间大小的维度的注意力核标量；以及第四映射和缩放单元，其将抽象的描述符映射和缩放到空间大小的维度的大小，并输出沿着空间大小的维度的注意力核标量。

示例7包括示例1至6中任一项的装置，其中，多维注意力块被嵌入在3D CNN的各个卷积层中。

示例8包括示例1至7中任一项的装置，其中，动态四重卷积应用于任何类型的3DCNN。

示例9包括示例1至8中任一项的装置，其中，动态四重卷积被执行用于高级视频分析任务。

示例10包括示例1至9中任一项的装置，其中，动态四重卷积被执行用于迁移学习。

示例11包括示例1至10中任一项的装置，其中，动态四重卷积被执行用于动作识别。

示例12包括一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法，包括：由多维注意力块接收视频数据样本的输入特征图；由多维注意力块基于输入特征图动态地生成沿着3D卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

示例13包括示例12的方法，还包括：对输入特征图执行时空聚合操作以产生通道描述符；执行通道挤压和激励操作以变换通道描述符以用于进一步抽象；以及执行映射和缩放操作以将抽象的描述符映射和缩放至3D卷积核空间的不同维度的大小，并分别输出四个对应的注意力核标量。

示例14包括示例12或13的方法，其中，时空聚合操作利用3D全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

示例15包括示例12至14中任一项的方法，其中，通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

示例16包括示例12至15中任一项的方法，其中，映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

示例17包括示例12至16中任一项的方法，其中，映射和缩放操作包括：由第一映射和缩放单元将抽象的描述符映射和缩放到输出通道数的维度的大小，并且输出沿着输出通道数的维度的注意力核标量；由第二映射和缩放单元将抽象的描述符映射和缩放到输入通道数的维度的大小，并且输出沿着输入通道数的维度的注意力核标量；由第三映射和缩放单元将抽象的描述符映射和缩放到时间大小的维度的大小，并且输出沿着时间大小的维度的注意力核标量；以及由第四映射和缩放单元将抽象的描述符映射和缩放到空间大小的维度的大小，并且输出沿着空间大小的维度的注意力核标量。

示例18包括示例12至17中任一项的方法，其中，多维注意力块被嵌入在3D CNN的各个卷积层中。

示例19包括示例12至18中任一项的方法，其中，动态四重卷积应用于任何类型的3D CNN。

示例20包括示例12至19中任一项的方法，其中，动态四重卷积被执行用于高级视频分析任务。

示例21包括示例12至20中任一项的方法，其中，动态四重卷积被执行用于迁移学习。

示例22包括示例12至21中任一项的方法，其中，动态四重卷积被执行用于动作识别。

示例23包括一种机器可读存储介质，其上存储有指令，指令在由机器执行时使得机器执行用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法，方法包括：由多维注意力块接收视频数据样本的输入特征图；由多维注意力块基于输入特征图动态地生成沿着3D卷积核空间的四个维度的卷积核标量，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘，以获得动态四重卷积的动态核。

示例24包括示例23的机器可读存储介质，其中，指令在由机器执行时进一步使得机器：对输入特征图执行时空聚合操作以产生通道描述符；执行通道挤压和激励操作以变换通道描述符以用于进一步抽象；以及执行映射和缩放操作以将抽象的描述符映射和缩放至3D卷积核空间的不同维度的大小，并分别输出四个对应的注意力核标量。

示例25包括示例23或24的机器可读存储介质，其中，时空聚合操作利用3D全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

示例26包括示例23至25中任一项的机器可读存储介质，其中，通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

示例27包括示例23至26中任一项的机器可读存储介质，其中，映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

示例28包括示例23至27中任一项的机器可读存储介质，其中，映射和缩放操作包括：由第一映射和缩放单元将抽象的描述符映射和缩放到输出通道数的维度的大小，并且输出沿着输出通道数的维度的注意力核标量；由第二映射和缩放单元将抽象的描述符映射和缩放到输入通道数的维度的大小，并且输出沿着输入通道数的维度的注意力核标量；由第三映射和缩放单元将抽象的描述符映射和缩放到时间大小的维度的大小，并且输出沿着时间大小的维度的注意力核标量；以及由第四映射和缩放单元将抽象的描述符映射和缩放到空间大小的维度的大小，并且输出沿着空间大小的维度的注意力核标量。

示例29包括示例23至28中任一项的机器可读存储介质，其中，多维注意力块被嵌入在3D CNN的各个卷积层中。

示例30包括示例23至29中任一项的机器可读存储介质，其中，动态四重卷积应用于任何类型的3D CNN。

示例31包括示例23至30中任一项的机器可读存储介质，其中，动态四重卷积被执行用于高级视频分析任务。

示例32包括示例23至31中任一项的机器可读存储介质，其中，动态四重卷积被执行用于迁移学习。

示例33包括示例23至32中任一项的机器可读存储介质，其中，动态四重卷积被执行用于动作识别。

示例34包括一种用于3维卷积神经网络(3D CNN)中的动态四重卷积的设备，包括：用于接收视频数据样本的输入特征图的装置；用于基于输入特征图动态地生成沿着3D卷积核空间的四个维度的卷积核标量的装置，四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及用于以矩阵-向量积的方式将所生成的卷积核标量与静态3D卷积核顺序相乘以获得动态四重卷积的动态核的装置。

示例35包括示例34的设备，还包括：用于对输入特征图执行时空聚合操作以产生通道描述符的装置；用于执行通道挤压和激励操作以变换通道描述符以用于进一步抽象的装置；以及用于执行映射和缩放操作以将抽象的描述符映射和缩放至3D卷积核空间的不同维度的大小并分别输出四个对应的注意力核标量的装置。

示例36包括示例34或35的设备，其中，时空聚合操作利用3D全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

示例37包括示例34至36中任一项的设备，其中，通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

示例38包括示例34至37中任一项的设备，其中，映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

示例39包括示例34至38中任一项的设备，还包括：用于将抽象的描述符映射和缩放到输出通道数的维度的大小的装置，并输出沿着输出通道数的维度的注意力核标量；用于将抽象的描述符映射和缩放到输入通道数的维度的大小并输出沿着输入通道数的维度的注意力核标量的装置；用于将抽象的描述符映射和缩放到时间大小的维度的大小并输出沿着时间大小的维度的注意力核标量的装置；以及用于将抽象的描述符映射和缩放到空间大小的维度的大小并输出沿着空间大小的维度的注意力核标量的装置。

示例40包括示例34至39中任一项的设备，其中，设备被嵌入在3DCNN的各个卷积层中。

示例41包括示例34至40中任一项的设备，其中，动态四重卷积应用于任何类型的3D CNN。

示例42包括示例34至41中任一项的设备，其中，动态四重卷积被执行用于高级视频分析任务。

示例43包括示例34至42中任一项的设备，其中，动态四重卷积被执行用于迁移学习。

示例44包括示例34至43中任一项的设备，其中，动态四重卷积被执行用于动作识别。

示例45包括一种如说明书中示出和描述的装置。

示例46包括一种在如说明书中示出和描述的装置处执行的方法。

上述描述旨在说明而非限制。例如，上述示例(或其一个或多个方面)可以彼此组合使用。例如，本领域的普通技术人员在阅读以上描述之后可以使用其他实施例。摘要是为了允许读者快速确定技术公开的本质，并且在理解其将不被用于解释或限制权利要求的范围或含义的情况下提交。而且，在以上详细描述中，各种特征可以被分组在一起以使本公开流线化。这不应被解释为意图未要求保护的公开特征对于任何权利要求是必要的。相反，发明主题可以在于少于特定公开实施例的所有特征。由此，以下权利要求由此被并入详细描述中，其中各个权利要求独立地作为单独的实施例。实施例的范围应当参考所附权利要求以及这些权利要求所授权的等同物的全部范围来确定。

尽管为了描述的目的，本文已经例示和描述了某些实施例，但是在不脱离本公开的范围的情况下，可以用旨在实现相同目的的各种替代和/或等同实施例或实施方式来代替所示出和描述的实施例。本公开旨在覆盖本文所讨论的实施例的任何修改或变化。因此，显然意图是本文所述的实施例仅由所附权利要求及其等同物限制。

Claims

1.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的装置，包括：

多维注意力块，其被配置为：

接收视频数据样本的输入特征图；以及

基于所述输入特征图动态地生成沿着3维卷积核空间的四个维度的卷积核标量，所述四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及

卷积块，其被配置为以矩阵-向量积的方式将所生成的卷积核标量与静态3维卷积核顺序相乘，以获得动态四重卷积的动态核。

2.根据权利要求1所述的装置，其中，所述多维注意力块包括：

时空聚合单元，用于对所述输入特征图执行时空聚合操作以产生通道描述符；

通道挤压和激励单元，用于执行通道挤压和激励操作以变换所述通道描述符以用于进一步抽象；以及

映射和缩放单元，用于执行映射和缩放操作以将所述抽象的描述符映射和缩放至所述3维卷积核空间的不同维度的大小，并分别输出四个对应的注意力核标量。

3.根据权利要求2所述的装置，其中，所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

4.根据权利要求2所述的装置，其中，所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

5.根据权利要求2所述的装置，其中，所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

6.根据权利要求5所述的装置，其中，所述映射和缩放单元包括：

第一映射和缩放单元，用于将所述抽象的描述符映射和缩放到所述输出通道数的维度的大小，并输出沿着所述输出通道数的维度的注意力核标量；

第二映射和缩放单元，用于将所述抽象的描述符映射和缩放到所述输入通道数的维度的大小，并输出沿着所述输入通道数的维度的注意力核标量；

第三映射和缩放单元，用于将所述抽象的描述符映射和缩放到所述时间大小的维度的大小，并输出沿着所述时间大小的维度的注意力核标量；以及

第四映射和缩放单元，用于将所述抽象的描述符映射和缩放到所述空间大小的维度的大小，并输出沿着所述空间大小的维度的注意力核标量。

7.根据权利要求1所述的装置，其中，所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。

8.根据权利要求1所述的装置，其中，所述动态四重卷积应用于任何类型的3D CNN。

9.根据权利要求1所述的装置，其中，所述动态四重卷积被执行用于高级视频分析任务。

10.根据权利要求9所述的装置，其中，所述动态四重卷积被执行用于迁移学习。

11.根据权利要求10所述的装置，其中，所述动态四重卷积被执行用于动作识别。

12.一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法，包括：

由多维注意力块接收视频数据样本的输入特征图；

由所述多维注意力块基于所述输入特征图动态地生成沿着3维卷积核空间的四个维度的卷积核标量，所述四个维度包括输出通道数、输入通道数、时间大小和空间大小；以及

以矩阵-向量积的方式将所生成的卷积核标量与静态3维卷积核顺序相乘，以获得动态四重卷积的动态核。

13.根据权利要求12所述的方法，还包括：

对所述输入特征图执行时空聚合操作以产生通道描述符；

执行通道挤压和激励操作以变换所述通道描述符以用于进一步抽象；以及

执行映射和缩放操作以将所述抽象的描述符映射和缩放至所述3维卷积核空间的不同维度的大小，并分别输出四个对应的注意力核标量。

14.根据权利要求13所述的方法，其中，所述时空聚合操作利用3维全局平均池化、最大池化、随机池化或最小池化中的至少一个来执行。

15.根据权利要求13所述的方法，其中，所述通道挤压和激励操作通过采用具有通道挤压比r的全连接或1×1卷积层且随后进行归一化和非线性激活来执行。

16.根据权利要求13所述的方法，其中，所述映射和缩放操作使用全连接或1×1卷积层的运算以及Softmax、Sigmoid或Tanh的运算来执行。

17.根据权利要求16所述的方法，其中，所述映射和缩放操作包括：

由第一映射和缩放单元将所述抽象的描述符映射和缩放到所述输出通道数的维度的大小，并且输出沿着所述输出通道数的维度的注意力核标量；

由第二映射和缩放单元将所述抽象的描述符映射和缩放到所述输入通道数的维度的大小，并且输出沿着所述输入通道数的维度的注意力核标量；

由第三映射和缩放单元将所述抽象的描述符映射和缩放到所述时间大小的维度的大小，并且输出沿着所述时间大小的维度的注意力核标量；以及

由第四映射和缩放单元将所述抽象的描述符映射和缩放到所述空间大小的维度的大小，并且输出沿着所述空间大小的维度的注意力核标量。

18.根据权利要求12所述的方法，其中，所述多维注意力块被嵌入在所述3D CNN的各个卷积层中。

19.根据权利要求12所述的方法，其中，所述动态四重卷积应用于任何类型的3D CNN。

20.根据权利要求12所述的方法，其中，所述动态四重卷积被执行用于高级视频分析任务。

21.根据权利要求20所述的方法，其中，所述动态四重卷积被执行用于动作识别或迁移学习。

22.一种机器可读存储介质，其上存储有指令，所述指令在由机器执行时使得所述机器执行一种用于3维(3D)卷积神经网络(CNN)中的动态四重卷积的方法，该方法包括：

接收视频数据样本的输入特征图；

23.根据权利要求22所述的机器可读存储介质，所述指令在由所述机器执行时使得所述机器：

对所述输入特征图执行时空聚合操作以产生通道描述符；

24.一种设备，包括用于执行权利要求12至21中任一项所述的方法的装置。