CN113761992A

CN113761992A - 一种视频动作识别方法及设备

Info

Publication number: CN113761992A
Application number: CN202010578083.8A
Authority: CN
Inventors: 黄子渊; 周奕臣; 杨旭雷
Original assignee: Eto Singapore Ltd Private
Current assignee: Eto Singapore Ltd Private
Priority date: 2020-06-01
Filing date: 2020-06-23
Publication date: 2021-12-07

Abstract

本申请涉及计算机视觉领域，公开了一种视频动作识别方法，包括：获取视频；将视频输入神经网络模型的隐含层进行处理，得到视频中的识别对象及识别对象对应的运动，其中神经网络模型的隐含层包括多个处理单元；以及基于视频中的识别对象及识别对象对应的运动，输出视频的动作识别结果；其中，在至少一个处理单元中，顺序提取作为至少一个处理单元的输入的视频中的空间特征和时间特征，联合视频中的空间特征和时间特征，并执行逐点卷积操作，输出视频的空间语义信息和时间语义信息。根据本申请所提供的技术方案，视频处理过程具有更强的对时空关系编码的能力，以较少数量的参数便能够提取出更有意义的特征，从而可以使用更紧凑的结构从数据集中学习更多有用的信息。在实施视频处理的过程中，仅需单个处理器就可处理之前需要多处理器处理的视频量，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

Description

一种视频动作识别方法及设备

技术领域

本申请涉及计算机视觉领域，特别涉及一种基于顺序-并行网络的视频动作识别方法及视频动作识别装置。

背景技术

过去的十年中，深度学习模型取得了快速发展，可以执行各种视觉任务，例如图像分类，对象检测和分割等。由于深度学习模型具有强大的建模能力，因此将其引入视频中以执行动作识别任务。与二维图像不同，视频独有的时间轴，大大增加了计算成本，耗时且耗费资源。

而计算量的增大并不意味着就可以完成时间关系建模。因此，如何有效地从视频中提取合适的信息性的时空特征已成为研究的重点。在视频动作识别中，有两种主流架构，一种基于双流网络，一个具有帧输入的分支用于提取静态空间特征，另一个光流分支用于提取运动特征，但光流分支需要预先计算光流，从而产生很大的计算负担。

另一种基于三维(3D)卷积网络，通过单独使用空间和时间卷积已经减少了计算量，但是大量的计算仍然存在。因而，如何更有效地提取时空特征，仍有很大的改进的空间。

发明内容

本申请实施例提供了一种视频动作识别方法、视频动作识别装置、视频动作识别设备及计算机可读介质。

第一方面，本申请实施例提供了一种视频动作识别方法，其特征在于，包括：

获取视频；

将所述视频输入神经网络模型的隐含层进行处理，得到所述视频中的识别对象及所述识别对象对应的运动，其中所述神经网络模型的隐含层包括多个处理单元；以及

基于所述视频中的识别对象及所述识别对象对应的运动，输出所述视频的动作识别结果；

其中，在至少一个处理单元中，顺序提取作为所述至少一个处理单元的输入的所述视频中的空间特征和时间特征，联合所述视频中的空间特征和时间特征，并执行逐点卷积操作，输出视频的空间语义信息和时间语义信息，所述空间语义信息用于表征识别对象，所述时间语义信息用于表征所述识别对象对应的运动。

与现有技术中的视频动作识别方法相比，根据本申请所提供的技术方案，视频处理过程具有更强的对时空关系编码的能力，以较少数量的参数便能够提取出更有意义的特征，从而可以使用更紧凑的结构从数据集中学习更多有用的信息。在实施视频处理的过程中，仅需单个处理器就可处理之前需要多处理器处理的视频量，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

在上述第一方面的一种可能的实现中，顺序提取所述视频数据中的空间特征和时间特征，包括：通过在空间轴上对所述视频执行二维卷积得到所述空间特征，以学习得到所述视频的空间语义信息；基于所述空间语义信息，在时间轴上对所述视频执行一维卷积得到所述时间特征，以学习得到所述视频的时间语义信息。

在上述第一方面的一种可能的实现中，联合所述视频数据中的空间特征和时间特征，包括：将所述空间特征的通道数和所述时间特征的通道数相加，得到联合特征图，并且所述空间特征和所述时间特征之间相互独立；针对所述联合特征图的所有通道进行计算，得到所述联合特征图的值，以融合所述空间特征和所述时间特征。

在上述第一方面的一种可能的实现中，所述神经网络模型包括输入层、多个隐含层和输出层，所述隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的所述视频包括多个连续的视频帧，所述连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到所述24或32个输出通道的所述连续视频帧的连续特征图；所述连续视频帧的连续特征图，经过所述全卷积层的处理，得到所述视频的识别对象及所述识别对象对应的运动；所述视频的识别对象及所述识别对象对应的运动经过全局平均池化层的处理，被池化为所述视频动作的识别结果。

与其他应用于视频动作识别的神经网络模型相比，所述神经网络模型仅使用一半的计算量得到了更好的精度，即参数数量减少了75％，计算量减少了50％，与现有技术相比，本申请所提供的技术方案，视频处理过程具有更强的对时空关系编码的能力，以较少数量的参数便能够提取出更有意义的特征，从而可以使用更紧凑的结构从数据集中学习更多有用的信息。在实施视频处理的过程中，仅需单个处理器就可处理之前需要多处理器处理的视频量，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

在上述第一方面的一种可能的实现中，所述神经网络模型基于无需预训练的something-something v1和v2数据集进行训练，使得顺序-并行网络(sequential-parallel network，以下称SPNet模型)，具有低延迟和高吞吐量。

第二方面，本申请实施例提供了一种视频动作识别装置，包括：

获取模块，获取视频；

处理模块，对所述视频进行基于神经网络模型的处理，得到所述视频中的识别对象及所述识别对象对应的运动，所述处理模块包括多个处理单元；以及

输出模块，基于所述视频中的识别对象及所述识别对象对应的运动，输出所述视频的动作识别结果；

其中，在至少一个处理单元中，包括，

顺序处理子单元，用于顺序提取作为所述至少一个处理单元的输入的所述视频中的空间特征和时间特征，

并行处理子单元，用于联合所述视频中的空间特征和时间特征，并执行逐点卷积操作，

输出子单元，用于输出视频的空间语义信息和时间语义信息，所述空间语义信息用于表征识别对象，所述时间语义信息用于表征所述识别对象对应的运动。

在上述第二方面的一种可能的实现中，所述顺序处理子单元，包括：

通过在空间轴上对所述视频执行二维卷积得到所述空间特征，以学习得到所述视频的空间语义信息；

基于所述空间语义信息，在时间轴上对所述视频执行一维卷积得到所述时间特征，以学习得到所述视频的时间语义信息。

在上述第二方面的一种可能的实现中，所述并行处理子单元，包括：

将所述空间特征的通道数和所述时间特征的通道数相加，得到联合特征图，并且所述空间特征和所述时间特征之间相互独立；

针对所述联合特征图的所有通道进行计算，得到所述联合特征图的值，以融合所述空间特征和所述时间特征。

在上述第二方面的一种可能的实现中，所述神经网络模型包括输入层、多个隐含层和输出层，所述隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的所述视频包括多个连续的视频帧，所述连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到所述24或32个输出通道的所述连续视频帧的连续特征图；所述连续视频帧的连续特征图，经过所述全卷积层的处理，得到所述视频的识别对象及所述识别对象对应的运动；所述视频的识别对象及所述识别对象对应的运动经过全局平均池化层的处理，被池化为所述视频动作的识别结果。

在上述第二方面的一种可能的实现中，所述神经网络模型基于无需预训练的something-something v1和v2数据集进行训练，使得SPNet模型具有低延迟和高吞吐量。

第三方面，本申请实施例提供了一种视频动作识别设备，包括：

存储器，用于存储由系统的一个或多个处理器执行的指令，以及

处理器，是系统的处理器之一，用于执行所述指令以实施视频动作识别方法，所述方法包括：

获取视频；

在上述第三方面的一种可能的实现中，顺序提取所述视频数据中的空间特征和时间特征，包括：通过在空间轴上对所述视频执行二维卷积得到所述空间特征，以学习得到所述视频的空间语义信息；基于所述空间语义信息，在时间轴上对所述视频执行一维卷积得到所述时间特征，以学习得到所述视频的时间语义信息。

在上述第三方面的一种可能的实现中，联合所述视频数据中的空间特征和时间特征，并执行逐点卷积操作，包括：将所述空间特征的通道数和所述时间特征的通道数相加，得到联合特征图，并且所述空间特征和所述时间特征之间相互独立；针对所述联合特征图的所有通道进行计算，得到所述联合特征图的值，以融合所述空间特征和所述时间特征。

在上述第三方面的一种可能的实现中，所述神经网络模型包括输入层、多个隐含层和输出层，所述隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的所述视频包括多个连续的视频帧，所述连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到所述24或32个输出通道的所述连续视频帧的连续特征图；

所述连续视频帧的连续特征图，经过所述全卷积层的处理，得到所述视频的识别对象及所述识别对象对应的运动；

所述视频的识别对象及所述识别对象对应的运动经过全局平均池化层的处理，被池化为所述视频动作的识别结果。

在上述第三方面的一种可能的实现中，所述神经网络模型基于无需预训练的something-something v1和v2数据集进行训练。

第四方面，本申请实施例提供了一种使用计算机程序编码的计算机可读存储介质，其特征在于，所述计算机可读介质上存储有指令，所述指令在计算机上执行时使计算机执行上述第一方面中的任意一种视频动作识别方法。

附图说明

图1根据本申请的一些实施例，示出了一种神经网络模型的结构示意图；

图2根据本申请的一些实施例，示出了一种神经网络模型的体系结构示意图；

图3根据本申请的一些实施例，示出了一种电子设备的结构框图；

图4根据本申请的一些实施例，示出了一种视频动作识别方法流程图；

图5(a)根据本申请的一些实施例，示出了一种顺序连接空间和时间卷积的R(2+1)D结构的结构示意图；

图5(b)根据本申请的一些实施例，示出了一种并行连接空间和时间卷积的GST结构的结构示意图；

图5(c)根据本申请的一些实施例，示出了一种处理单元的结构示意图；

图6(a)根据本申请的一些实施例，示出了一种处理单元的网络结构图；

图6(b)根据本申请的一些实施例，示出了现有技术中一种C3D结构的网络结构图；

图6(c)根据本申请的一些实施例，示出了现有技术中一种P3D-C结构的网络结构图；

图6(d)根据本申请的一些实施例，示出了现有技术中一种仅并行结构的网络结构图；

图6(e)根据本申请的一些实施例，示出了现有技术中一种仅顺序结构的网络结构图；

图7根据本申请的一些实施例，示出了一种视频动作识别装置的结构示意图；

图8根据本申请的一些实施例，示出了一种神经网络模型与其他视频动作识别模型性能的对比图；

图9根据本申请的一些实施例，示出了一种视频动作识别的电子设备的结构示意图；

图10根据本申请的一些实施例，示出了一种电子设备的结构示意图。

具体实施例

本申请的说明性实施例包括但不限于一种视频动作识别方法、视频动作识别装置、视频动作识别设备及计算机可读介质。

可以理解，如本文所使用的，术语“模块”、“单元”可以指代或者包括专用集成电路(ASIC)、电子电路、执行一个或多个软件或固件程序的处理器(共享、专用、或群组)和/或存储器、组合逻辑电路、和/或提供所描述的功能的其他适当硬件组件，或者可以作为这些硬件组件的一部分。

可以理解，在本申请各实施例中，处理器可以是微处理器、数字信号处理器、微控制器等，和/或其任何组合。根据另一个方面，所述处理器可以是单核处理器，多核处理器等，和/或其任何组合。

可以理解，本申请提供的视频动作识别方法可以在各种电子设备上实施，包括但不限于，服务器、多个服务器组成的分布式服务器集群、手机、平板电脑、膝上型计算机、台式计算机、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、个人数字助理、虚拟现实或者增强现实设备、其中嵌入或耦接有一个或多个处理器的电视机等电子设备等。

特别地，本申请提供的视频动作识别方法适用于边缘设备，边缘计算是在靠近物或数据源头的网络边缘侧，融合网络、计算、存储、应用核心能力的分布式开放平台(架构)，就近提供边缘智能服务，能够满足实时业务、数据优化、应用智能、安全与隐私保护等方面的关键需求。例如，边缘设备可以是在视频监控系统中靠近视频数据源(网络智能摄像头)端能够对视频数据执行边缘计算的设备。

如图1所示，根据本申请的一些实施例，提供了一种神经网络模型，称之为SPNet模型，其属于全卷积网络。

图1所示的神经网络模型可以用于视频动作识别。如图1所示，神经网络模型包括输入层、多个隐含层以及输出层共n个网络层。其中，第一层称为输入层，最后一层称为输出层，其他层称为隐含层。输入层接收不同维度的以数组形式呈现的待处理对象，例如图片、视频帧等。隐含层包含卷积层、池化层和全连接层三类基础构筑，更复杂的算法中包括Inception模块、残差块(residual block)等复杂构筑。在基本构筑中，卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数，而池化层不包含权重系数。

如图1所示，基础的网络模型的结构由1个输入层、3个卷积层、2个池化层、1个全连接层和1个输出层构成。三类基础构筑在隐含层中的顺序通常为：输入层—卷积层—池化层—全连接层—输出层。

下面详细介绍在进行视频动作识别时，采用样本图像对图1所示的神经网络模型进行处理的具体过程。

在使用神经网络模型进行视频动作识别之前，需要将大量的样本数据和期望结果数据输入模型中进行训练，其中，将视频划分为若干个连续的视频帧，每个视频帧作为一张样本图像，每张样本图像的图像数据输入图1所示的神经网络模型的输入层的n个节点，经过隐含层的计算，最后经由输出层计算后产生视频动作识别结果数据。每一张图像训练完成后，将神经网络模型最终输出的处理结果数据和期望结果数据进行比较，计算出误差。根据该误差，能够对除了输入层的其他网络层中各节点的权重进行调整。如此，通过输入上述视频的连续视频帧数据对神经网络模型进行训练，不断地调整权重，在神经网络模型最终输出的面部视频动作识别结果数据和期望结果数据之间的误差小于误差阈值时，确定神经网络模型收敛。

图2根据本申请的一些实施例，示出了一种神经网络模型的体系结构示意图。如图2所示，ResNet-50包括第一卷积层，全卷积层，池化层，其中全连接层包括四个阶段，对应四组程序块(block)，每组程序块依次包括3、4、6、3个程序块，成为残差块(residualblock)，每个程序块里有三个卷积层，因而构成了50层的ResNet网络模型。

SPNet网络模型的体系结构与ResNet-50的体系结构类似，但两者之间也存在截然不同之处。SPNet模型采用与ResNet-50类似的50层网络结构，其体系结构由第一卷积层、全卷积层、池化层组成，其中全卷积层包括多个阶段，每个阶段都由数个处理单元组成。不同之处在于ResNet-50的全卷积层由残差块组成，而SPNet模型的全卷积层则由根据本申请的处理单元组成。在该处理单元中，顺序提取作为处理单元的输入的视频中的空间特征和时间特征，联合视频中的空间特征和时间特征，并执行逐点卷积操作，输出视频的空间语义信息和时间语义信息。

图2根据本申请的一些实施例，示出了一种神经网络模型的体系结构示意图。如图二所示，从视频中采样T RGB帧，并将其作为输入。第一卷积层是一个简单的三维卷积，在最后一个处理单元之后，经过全局平均池化层进行池化，然后连接到全连接层以将输入的视频进行分类预测。每个阶段包含数个处理单元，且在每个阶段之后，输出的通道数增加一倍。

本申请中，将第一卷积层的输出通道数用超参数B来表示。当B＝x时，命名该神经网络模型为SPNet-Bx。例如，当B＝24时，将该神经网络模型命名为SPNet-B24。

超参数B表示第一卷积层的输出通道数，并被定义为网络级复杂度的精度控制参数。具体到该神经网络模型中，如图2所示，超参数B代表第一个处理单元中的过滤器数量，随着处理阶段的递进，基于超参数B的过滤器数量以2倍率增长，分别为2B，4B，8B，16B。

本申请中，超参数B的值被设置为24和32，神经网络模型相较于B取其他值的情况将会变得紧凑且高效。基于此，将SPNet模型进行实例化，其具体网络结构如表1所示。其中d₂，d₃，d₄，d₅的值分别代表上一个处理单元的输出通道数。并设卷积层的步幅为2，且不使用时间步幅，并且空间下采样都在每个阶段的第一个处理单元中发生。且在每次卷积操作后，均使用BatchNorm和ReLU操作。

表1

与其他应用于视频动作识别的神经网络模型相比，所述神经网络模型仅使用一半的计算量得到了更好的精度，使得参数数量减少了75％的同时计算量减少了50％，在实施视频处理的过程中，仅需单个处理器就可处理之前需要多处理器处理的视频量，硬件配置更加优化，从而使得计算机系统的内部结构更加精简。

可以理解，上述对图1所示的神经网络模型进行训练的技术方案的描述仅仅是示例性的，并非限制性的。

图3根据本申请的一些实施例，示出了一种电子设备100的结构框图。具体地，如图3所示，电子设备100包括一个或多个处理器104，与处理器104中的至少一个连接的系统控制逻辑108，与系统控制逻辑108连接的系统内存112，与系统控制逻辑108连接的非易失性存储器(NVM)116，以及与系统控制逻辑108连接的网络接口120。

在一些实施例中，处理器104可以包括一个或多个单核或多核处理器。在一些实施例中，处理器104可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在电子设备100采用eNB(EvolvedNode B，增强型基站)或RAN(RadioAccess Network，无线接入网)控制器的实施例中，处理器104可以被配置为执行各种符合的实施例。

在一些实施例中，处理器104可以用于基于神经网络模型，进行视频动作识别。具体的，例如，在神经网络模型的各层对视频动作的识别过程中，处理器104根据获取到的视频帧图像信息不断调整神经网络模型，直至得到准确度较高的图像特征映射。处理器104还可以周期性更新上述神经网络模型，以便于较好的适应对神经网络模型的各种实际需求的变化。

在一些实施例中，系统控制逻辑108可以包括任意合适的接口控制器，以向处理器104中的至少一个和/或与系统控制逻辑108通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑108可以包括一个或多个存储器控制器，以提供连接到系统内存112的接口。系统内存112可以用于加载以及存储数据和/或指令。在一些实施例中电子设备100的内存112可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。在一些实施例中，系统内存112可以用于加载或者存储实施上述视频动作识别的指令，或者系统内存112可以用于加载或者存储实施利用上述神经网络模型进行视频动作识别的应用程序的指令。

NVM/存储器116可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器116可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。NVM/存储器116还可以用于存储上述视频动作识别中所用的神经网络模型。

NVM/存储器116可以包括安装电子设备100的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口120通过网络访问NVM/存储116。

特别地，系统内存112和NVM/存储器116可以分别包括：指令124的暂时副本和永久副本。指令124可以包括：由处理器104中的至少一个执行时导致电子设备100实施本申请中的视频动作识别方法的指令。在一些实施例中，指令124、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑108，网络接口120和/或处理器104中。

网络接口120可以包括收发器，用于为电子设备100提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口120可以集成于电子设备100的其他组件。例如，网络接口120可以集成于处理器104的，系统内存112，NVM/存储器116，和具有指令的固件设备(未示出)中的至少一种，当处理器104中的至少一个执行所述指令时，电子设备100实现本申请中的视频动作识别方法。

网络接口120可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口120可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一些实施例中，处理器104中的至少一个可以与用于系统控制逻辑108的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一些实施例中，处理器104中的至少一个可以与用于系统控制逻辑108的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

电子设备100可以进一步包括：输入/输出(I/O)设备132。I/O设备132可以包括用户界面，使得用户能够与电子设备100进行交互；外围组件接口的设计使得外围组件也能够与电子设备100交互。在一些实施例中，电子设备100还包括传感器，用于确定与电子设备100相关的环境条件和位置信息的至少一种。

根据本申请的一些实施例，提供了一种视频动作识别方法400，图4根据本申请的一些实施例，示出了一种视频动作识别方法流程图，如图4所示，使用SPNet模型进行视频动作识别的方法400如下：

步骤402：获取视频；

步骤404：输入的视频在SPNet模型的输入层被处理成多个连续的视频帧；

步骤406：连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到24或32个输出通道的连续视频帧的连续特征图；

步骤408：连续视频帧的连续特征图，经过全卷积层的处理，得到视频的识别对象及识别对象对应的运动；

步骤410：经过全局平均池化层的处理，使得视频的识别对象及识别对象对应的运动被池化为视频动作的识别结果；

步骤412：经过输出层的处理，输出视频动作的识别结果。

SPNet模型的全卷积层中包括多个处理单元，多个处理单元中至少部分处理单元彼此互联并且与所述输入层的输出相连。

其中，在至少一个处理单元中，顺序提取作为至少一个处理单元的输入的视频中的空间特征和时间特征，联合视频中的空间特征和时间特征，并执行逐点卷积操作，输出视频的空间语义信息和时间语义信息，空间语义信息用于表征识别对象，时间语义信息用于表征识别对象对应的运动。

在另一些实施例中，可在最后添加一个全连接层，以预测每个类别的分类。

该视频动作识别方法与现有的视频动作识别方法相比，具有更强的对时空关系进行编码的能力，能够以较少数量的参数提取出更有意义的特征。从而可以使用更紧凑的结构，减少模型容量，从数据集中学习更多有用的信息。

接下来结合附图5(a)至5(c)，详细说明本申请中的处理单元相对于现有技术做出的改进。如图5(a)至5(c)所示的结构中，卷积核的大小由T×H×W表示，其中T代表时间大小，H，W分别代表卷积核的空间高度和宽度。

图5(a)根据本申请的一些实施例，示出了一种顺序连接空间卷积和时间卷积的R(2+1)D结构的结构示意图，如图5(a)所示，R(2+1)D是一种常见的连通结构，顺序连接两个卷积，如图中所示的1×3×3的空间卷积和3×1×1时间卷积。

图5(b)根据本申请的一些实施例，示出了一种并行连接空间卷积和时间卷积的GST结构的结构示意图。如图5(b)所示，GST结构在执行空间卷积和时空卷积之前，将输入特征分为两部分，然后针对这两部分分别进行1×3×3的空间卷积和3×3×3时间卷积操作。上述操作将使得在GST模块的两个分支中重复提取了空间特征，导致特征提取冗余。

图5(c)根据本申请的一些实施例，示出了一种处理单元的结构示意图，如图5(c)所示，处理单元中进行的处理可分为两个阶段，一个为顺序阶段(Sequential)，另一个为并行阶段(Parallel)。

对于处理单元的处理过程中的顺序阶段，由两个分解的二维卷积1×3×3和一维卷积3×1×1构成，分别在空间轴上执行二维卷积操作得到空间特征，在时间轴上执行一维卷积操作，得到时间特征。空间卷积主要学习输入视频剪辑的空间语义，时间卷积主要学习输入视频剪辑的时间语义。空间卷积先于时间卷积进行操作，从不同视频帧中提取出有意义的空间特征，时间卷积在了解了空间语义的前提下寻找与空间语义相匹配的运动模式。

对于处理单元的处理过程中的并行阶段，在处理单元中，将空间特征和时间特征并行地流入并行阶段，并在执行逐点卷积之前执行联合操作(concatenate)。与之形成对比的是，在现有技术的R(2+1)D块中，由顺序连接的卷积提取的时空特征直接流向1×1×1逐点卷积。与仅仅进行顺序连接相比，处理单元可通过联合操作和逐点卷积操作的组合操作，增强时空特征之间的交互，且没有引入额外的计算。而因为空间特征在处理单元中被重复利用而不是冗余地提取，使得处理单元的效率更高。

表2示出了处理单元进行实例化的结构，如表2所示，引入块级复杂度精度控制参数γ，用于控制输入通道数与空间卷积之间的比率和处理单元的输出通道的最终数量。除非另有说明，否则在实验中，超参数γ的值通常为1/2。结合之前的超参数B，可以得到多个不同的计算能力和时空建模能力，满足不同的需求和应用场景的网络。

表2

在一些实施例中，顺序提取视频数据中的空间特征和时间特征，包括：通过在空间轴上对视频执行二维卷积得到所述空间特征，以学习得到所述视频的空间语义信息；基于所述空间语义信息，在时间轴上对所述视频执行一维卷积得到时间特征，以学习得到所述视频的时间语义信息。具体的，以识别人手的动作为例，首先通过在空间轴上对视频进行学习得到空间语义信息即识别对象为人的手，接下来，在得知识别对象为人的手的前提下，在时间轴上对视频进行时间语义学习即识别手的动作，是在挥手、握手还是洗手等运动。

以下具体解释对于视频数据中的空间特征和时间特征的联合处理。根据本申请的对于视频数据中的空间特征和时间特征的联合处理包括：将空间特征的通道数和时间特征的通道数相加，得到联合特征图，并且空间特征和时间特征之间相互独立；针对联合特征图的所有通道进行计算，得到联合特征图的值，以融合空间特征和时间特征。

具体地，联合操作是对空间特征和时间特征的全部通道进行叠加，即将空间特征的通道数和时间特征的通道数加在一起。例如，在空间轴上执行二维卷积得到的空间特征具有N/2个(更具体的示例，32个)输出通道的特征图，在时间轴上执行一维卷积得到的时间特征具有N/2个(更具体的示例，32个)输出通道的特征图。针对空间特征的特征图和时间特征的特征图进行联合操作之后，将得到N个(即32+32＝64个)输出通道的联合特征图。即联合操作针对空间特征和时间特征图的全部通道数量上进行进行相加，并使得时间特征和空间特征之间是独立的。

在得到独立的空间特征和时间特征之后，需要将二者融合在一起以得到时空特征，此时需要逐点卷及操作。在进行逐点卷积的过程中，同时计算特征图中特定区域的所有通道，输出特征图中特定位置的值，从而将之前联合在一起的时间特征和空间特征进行融合。

为了说明根据本申请的联合操作的好处，以下对比本申请和现有技术进行说明。图6(a)至(e)示出了本申请中处理单元和现有技术中的处理单元的结构及其处理过程中通道数变化的示意图。

图6(a)、(b)、(d)、(e)所有的结构在图中所示出的处理之前和之后都会进行相同的逐点卷积操作，其中N表述输入通道数。图6(c)所示的P3D-C结构的处理方式与他们不同。

图6(a)根据本申请的一些实施例，示出了一种处理单元的结构及其处理过程中通道数变化的示意图的网络结构图，如图6(a)所示，处理单元输入通道数为N/2的1×3×3的空间卷积和通道数为N/2的3×1×1的时间卷积，在进行联合操作之后，进行了通道的叠加，得到通道数为N的1×1×1的输出结果。

图6(b)示出了现有技术中一种C3D结构的网络结构图，如图6(b)所示，C3D仅进行输入通道数为N/2的1×3×3的空间卷积操作。

图6(c)示出了现有技术中一种P3D-C结构的网络结构图，如图6(c)所示，P3D-C结构类似于图5(b)所示的GST结构，其后续的1×1×1卷积的输入通道为N/2。在P3D-C中，使用相加作为特征融合的方式，将空间卷积和时间卷积的输出特征直接相加在一起，例如当空间卷积和时间卷积分别得到32个输出通道的特征图，相加之后仍然是32个输出通道的特征图。而在图6(a)中所示的本申请的处理单元中，将这些特征联合在一起，输出64个输出通道的特征图。在P3D-C设计中，时间卷积主要用来充当空间卷积的残差，在某种程度上限制了时间建模能力。相反，本申请中的处理单元是利用联合的操作方式使得空间特征和时间特征得以完整保留，然后再使用逐点卷积进行融合，使得由处理单元组成的SPNet模型具有更大的时空建模能力。

图6(d)示出了现有技术中一种仅并行结构的网络结构图，如图6(d)所示，并行阶段输入通道数为N/2的1×3×3的空间卷积和通道数为N/2的3×1×1的时间卷积，不进行通道的叠加，只是并行的输出2个通道数为N/2的结果。

图6(e)示出了现有技术中一种仅顺序结构的网络结构图，如图6(e)所示，顺序结构的时间卷积中的输出通道数为N，与图6(a)中所示的处理单元结构相比，会导致计算成本的增加。

在一些实施例中，神经网络模型基于无需预训练的something-something v1和v2数据集进行训练。具体的，something-something v1和v2数据集是两个需要大规模时空建模的大型动作分类数据集，分别包含10.8万和22万视频。因为在识别对象和复杂的时间关系之间存在广泛的空间相互作用，所以为了理解视频并正确地对其进行分类，需要高时空的推理能力。据了解，SPNet模型是第一个从头开始进行训练的模型，即进行随机初始化，而不进行ImageNet或动力学相关的预训练。使得SPNet模型具有低延迟和高吞吐量。

根据本申请的一些实施例，提供了一种视频动作识别装置600，图7根据本申请的一些实施例，示出了一种视频动作识别装置的结构示意图。如图7所示，使用SPNet模型进行视频动作识别的装置600如下：

获取模块602，获取视频；

处理模块604，基于神经网络模型，对视频进行的处理，得到视频中的识别对象及识别对象对应的运动，处理模块包括多个处理单元，处理单元1，处理单元2，处理单元3等等；以及

输出模块606，基于视频中的识别对象及识别对象对应的运动，输出视频的动作识别结果；

其中，在处理单元1中，包括，

顺序处理子单元1，用于顺序提取处理单元1的输入的所述视频中的空间特征和时间特征，

并行处理子单元1，用于联合视频中的空间特征和时间特征，并执行逐点卷积操作，

输出子单元1，用于输出视频的空间语义信息和时间语义信息，空间语义信息用于表征识别对象，时间语义信息用于表征识别对象对应的运动。

在一些实施例中，顺序处理子单元，包括：

通过在空间轴上对视频执行二维卷积得到空间特征，以学习得到视频的空间语义信息；

基于空间语义信息，在时间轴上对视频执行一维卷积得到时间特征，以学习得到视频的时间语义信息。

在一些实施例中，并行处理子单元，包括：

将间特征的通道数和所述时间特征的通道数相加，得到联合特征图，并且空间特征和时间特征之间相互独立；

计算所有通道，得到联合特征图的值，从而融合空间特征和时间特征。接下来，结合实验数据，详细说明SPNet模型的优势。将输入的视频分为T段，选择每个段的中心帧以形成T帧输入。对于时间采样，采用相同数量的帧16或24)作为输入。对于空间采样，首先将短边的长度调整为224，然后裁剪尺寸为224的中心正方形作为输入模型。就像时间采样一样，在本申请的技术方案中仅在空间上进行一次裁剪，即使用中心裁剪进行推断(除非另有说明)。

在一些实施例中，神经网络模型包括输入层、多个隐含层和输出层，隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的视频包括多个连续的视频帧，连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到24或32个输出通道的连续视频帧的连续特征图；连续视频帧的连续特征图，经过全卷积层的处理，得到视频的识别对象及识别对象对应的运动；视频的识别对象及识别对象对应的运动经过全局平均池化层的处理，被池化为视频动作的识别结果。

在一些实施例中，神经网络模型基于无需预训练的something-something v1和v2数据集进行训练，使得SPNet模型具有低延迟和高吞吐量。

图8根据本申请的一些实施例，示出了一种神经网络模型与其他视频动作识别模型性能的对比图，其中横坐标表示使用的GFLOPs(Giga Floating-point Operations，总计算量)，纵坐标表示精度(accuracy)。如图8所示，SPNet模型使用少于20个GFLOPs来达到竞争性能，使用少于30个GFLOPs达到最佳性能。因此得出，SPNet在准确性和计算成本上均具有一定的优势。值得注意的是，与使用预训练的ResNet模型的其他模型不同，SPNet在数据集上是从头开始进行训练的。

图9根据本申请的一些实施例，示出了一种用于视频动作识别的电子设备的结构示意图。如图9所示，电子设备800包括：

视频获取模块802，用于获取视频；

输入层804，将视频处理成多个连续的视频帧；

第一卷积层806，将多个连续的视频帧处理成连续特征图；

全卷积层808，将连续特征图输出为视频的识别对象及识别对象对应的运动；

全局平均池化层810，将视频的识别对象及识别对象对应的运动池化为视频动作的识别结果；

输出层812，输出视频动作的识别结果。

可以理解，图9所示的用于视频动作识别的电子设备800与本申请提供的视频动作识别的方法相对应，以上关于本申请的提供的视频动作识别的方法的具体描述中的技术细节依然适用于图9所示的用于视频动作识别的电子设备800，具体描述请参见上文，在此不再赘述。

可以理解，本申请实施例提供的基于神经网络的视频动作识别的示例性应用包括但不限于人工智能领域的视频动作识别。

根据本申请的实施例，图10示出了一种电子设备900的结构示意图。该电子设备900也能够执行本申请上述实施例公开的视频动作识别的方法。在图10中，相似的部件具有同样的附图标记。如图10所示，电子设备900可以包括处理器910、电源模块940、存储器980，移动通信模块930、无线通信模块920、传感器模块990、音频模块950、摄像头970、接口模块960、按键901以及显示屏902等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备900的具体限定。在本申请另一些实施例中，电子设备900可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器910可以包括一个或多个处理单元，例如，可以包括中央处理器CPU(Central Processing Unit)、视频动作识别器GPU(Graphics Processing Unit)、数字信号处理器DSP、微处理器MCU(Micro-programmed Control Unit)、AI(ArtificialIntelligence，人工智能)处理器或可编程逻辑器件FPGA(Field ProgrammableGateArray)等的处理单元或处理电路。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器910中可以设置存储单元，用于存储指令和数据。在一些实施例中，处理器910中的存储单元为高速缓冲存储器980。存储器980主要包括存储程序区9801以及存储数据区9802，其中，存储程序区9801可存储操作系统以及至少一个功能所需的应用程序(比如声音播放，图像识别等功能)。在本申请实施例提供的基于神经网络模型的视频动作识别方法可视为存储程序区9801中以能够实现视频动作识别等功能的应用程序。神经网络模型存储于上述存储数据区9802中。

电源模块940可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中，电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入；电源管理模块用于连接电源，充电管理模块与处理器910。电源管理模块接收电源和/或充电管理模块的输入，为处理器910，显示屏902，摄像头970，及无线通信模块920等供电。

移动通信模块930可以包括但不限于天线、功率放大器、滤波器、LNA(Lownoiseamplify，低噪声放大器)等。移动通信模块930可以提供应用在电子设备900上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块930可以由天线接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块930还可以对经调制解调处理器调制后的信号放大，经天线转为电磁波辐射出去。在一些实施例中，移动通信模块930的至少部分功能模块可以被设置于处理器910中。在一些实施例中，移动通信模块930至少部分功能模块可以与处理器910的至少部分模块被设置在同一个器件中。无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivisionmultiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，无线局域网(wireless local areanetworks，WLAN)，近距离无线通信技术(near field communication，NFC)，调频(frequency modulation，FM)和/或红外技术(infrared，IR)技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(globalnavigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigationsatellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

无线通信模块920可以包括天线，并经由天线实现对电磁波的收发。无线通信模块920可以提供应用在电子设备900上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。电子设备900可以通过无线通信技术与网络以及其他设备进行通信。

在一些实施例中，电子设备900的移动通信模块930和无线通信模块920也可以位于同一模块中。

显示屏902用于显示人机交互界面、图像、视频等。显示屏902包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organiclight-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flexlight-emitting diode，FLED)，Miniled，MicroLed，Micro-oled，量子点发光二极管(quantum dot light emitting diodes，QLED)等。

传感器模块990可以包括接近光传感器、压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

音频模块950用于将数字音频信息转换成模拟音频信号输出，或者将模拟音频输入转换为数字音频信号。音频模块950还可以用于对音频信号编码和解码。在一些实施例中，音频模块950可以设置于处理器910中，或将音频模块950的部分功能模块设置于处理器910中。在一些实施例中，音频模块950可以包括扬声器、听筒、麦克风以及耳机接口。

摄像头970用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP(Image SignalProcessing，图像信号处理)转换成数字图像信号。电子设备900可以通过ISP，摄像头970，视频编解码器，GPU(Graphic Processing Unit，图形处理器)，显示屏902以及应用处理器等实现拍摄功能。

接口模块960包括外部存储器接口、通用串行总线(universal serial bus，USB)接口及用户标识模块(subscriber identification module，SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备900的存储能力。外部存储卡通过外部存储器接口与处理器910通信，实现数据存储功能。通用串行总线接口用于电子设备900和其他电子设备进行通信。用户标识模块卡接口用于与安装至电子设备900的SIM卡进行通信，例如读取SIM卡中存储的电话号码，或将电话号码写入SIM卡中。

在一些实施例中，电子设备900还包括按键901、马达以及指示器等。其中，按键901可以包括音量键、开/关机键等。马达用于使电子设备900产生振动效果，例如在用户的电子设备900被呼叫的时候产生振动，以提示用户接听电子设备900来电。指示器可以包括激光指示器、射频指示器、LED指示器等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种视频动作识别方法，其特征在于，包括：

获取视频；

2.如权利要求1所述的方法，其特征在于，顺序提取所述视频数据中的空间特征和时间特征，包括：

3.如权利要求2所述的方法，其特征在于，联合所述视频数据中的空间特征和时间特征，并执行逐点卷积操作，包括：

4.如权利要求1-3所述的方法，其特征在于，所述神经网络模型包括输入层、多个隐含层和输出层，所述隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的所述视频包括多个连续的视频帧，所述连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到所述24或32个输出通道的所述连续视频帧的连续特征图；

5.如权利要求4所述的方法，其特征在于，所述神经网络模型基于无需预训练的something-something v1和v2数据集进行训练。

6.一种视频动作识别装置，其特征在于，包括：

获取模块，获取视频；

其中，在至少一个处理单元中，包括，

7.如权利要求6所述的装置，其特征在于，所述顺序处理子单元，包括：

8.如权利要求7所述的装置，其特征在于，所述并行处理子单元，包括：

9.如权利要求6-8所述的装置，其特征在于，所述神经网络模型包括输入层、多个隐含层和输出层，所述隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的所述视频包括多个连续的视频帧，所述连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到所述24或32个输出通道的所述连续视频帧的连续特征图；

10.如权利要求9所述的装置，其特征在于，所述神经网络模型基于无需预训练的something-something v1和v2数据集进行训练。

11.一种视频动作识别设备，其特征在于，包括：

获取视频；

12.如权利要求11所述的装备，其特征在于，顺序提取所述视频数据中的空间特征和时间特征，包括：

13.如权利要求12所述的装备，其特征在于，联合所述视频数据中的空间特征和时间特征，并执行逐点卷积操作，包括：

14.如权利要求11-13所述的装备，其特征在于，所述神经网络模型包括输入层、多个隐含层和输出层，所述隐含层进一步包括第一卷积层、全卷积层和全局平均池化层，全卷积层，包括至少一个处理单元，其中，输入的所述视频包括多个连续的视频帧，所述连续的视频帧经过包括24或32个输出通道的进行三维卷积运算的第一卷积层，得到所述24或32个输出通道的所述连续视频帧的连续特征图；

15.如权利要求14所述的装备，其特征在于，所述神经网络模型基于无需预训练的something-something v1和v2数据集进行训练。

16.一种使用计算机程序编码的计算机可读存储介质，其特征在于，所述计算机可读介质上存储有指令，所述指令在计算机上执行时使计算机执行权利要求1-5中任一项所述的视频动作识别方法。