CN110163052B

CN110163052B - 视频动作识别方法、装置和机器设备

Info

Publication number: CN110163052B
Application number: CN201810861147.8A
Authority: CN
Inventors: 厉扬豪; 宋思捷; 刘家瑛; 刘婷婷; 黄婷婷; 马林; 刘威
Original assignee: Peking University; Tencent Technology Shenzhen Co Ltd
Current assignee: Peking University; Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-01
Filing date: 2018-08-01
Publication date: 2022-09-09
Anticipated expiration: 2038-08-01
Also published as: CN110163052A

Abstract

本发明揭示了一种视频动作识别方法、装置和机器设备。所述方法包括：获取进行动作识别的视频数据；对视频数据在神经网络中进行网络各层的特征抽取中，经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层；相邻帧视频图像之间根据空域特征进行双线性层上的双线性相关性运算，获得视频数据中每帧视频图像的时空域特征；通过时空域特征进行视频中动作的分类，获得视频数据的动作识别结果。对于神经网络中网络各层的特征抽取，在双线性层上双线性相关性运算中参数和计算复杂度得到控制，进而在控制复杂度的情况下抽取了时空域特征由此，实现了时域关系上的显式建模，有效提升动作识别的性能。

Description

视频动作识别方法、装置和机器设备

技术领域

本发明涉及计算机视觉应用技术领域，特别涉及一种视频动作识别方法、装置和机器设备。

背景技术

基于视频的动作识别，一直是计算机视觉研究的重要领域。视频动作识别的实现主要包括特征抽取与表示，以及特征分类两大部分。例如，经典的密度轨迹追跟踪的方法，在光流场的轨迹点附近抽取不同的特征，包括光流直方图和梯度直方图等，并用Fisher编码的方式得到最后的视频特征表示，之后支持向量机、随机森林等分类器在训练集上进行学习得到最终的分类器，以来进行特征分类。此为手动设计特征的方法，而近些年来随着深度学习所具备的强大特征表示能力，神经网络逐渐成为动作识别领域的主流方法，相对于手动设计特征的方法，大大提升了动作识别的性能。

基于深度学习的动作识别方法，其核心在于如何更好地进行时域的建模。一种深度学习的方法是进行所抽取空域和时域特征的融合，另一方法则是基于三维卷积神经网络。

但是，对于所抽取空域和时域特征的融合而言，缺乏对时域信息的显式建模，这将导致视频所包含的时序运动信息无法得到充分利用，所能够获得的视频动作分类性能受限。

而基于三维卷积神经网络进行的动作识别，也无法显式地对视频帧之间时域的关系进行建模，三维卷积相比于二维卷积网络也大大增加参数和计算的复杂度，分类性能受限的同时，参数和计算的高复杂度也无法得到控制。

综上所述的，亟待为视频动作的识别，实现对时域信息的显式建模，并且有效控制参数和计算的复杂度，以提升动作识别的性能。

发明内容

为了解决相关技术中无法对时域信息显式地建模，且参数和计算复杂度高，无法控制参数和计算复杂度的技术问题，本发明提供一种视频动作识别方法、装置和机器设备。

一种视频动作识别方法，所述方法包括：

获取进行动作识别的视频数据，所述视频数据包括若干帧视频图像；

对所述视频数据在神经网络中进行网络各层的特征抽取中，经由所述神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层；

相邻帧视频图像之间根据所述空域特征进行所述双线性层上的双线性相关性运算，获得所述视频数据中每帧视频图像的时空域特征；

通过所述时空域特征进行视频中动作的分类，获得所述视频数据的动作识别结果。

一种视频动作识别装置，所述装置包括：

获取模块，用于获取进行动作识别的视频数据，所述视频数据包括若干帧视频图像；

各层特征抽取模块，用于对所述视频数据在神经网络中进行网络各层的特征抽取中，经由所述神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层；

时空域特征抽取模块，用于相邻帧视频图像之间根据所述空域特征进行所述双线性层上的双线性相关性运算，获得所述视频数据中每帧视频图像的时空域特征；

分类模块，用于通过所述时空域特征进行视频中动作的分类，获得所述视频数据的动作识别结果。

一种机器设备，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如前所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

对于给定视频，获取进行动作识别的视频数据，此视频数据包括了若干帧视频图像，对视频数据在神经网络中进行网络各层的特征抽取中，经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层，至此，相邻帧视频图像之间便根据空域特征进行双线性层上的双线性相关性运算，获得视频数据中每帧视频图像的时空域特征，最后通过时空域特征进行视频中动作的分类，获得视频数据的动作识别结果，在此动作识别的实现中，对于神经网络中网络各层的特征抽取，在双线性层上双线性相关性运算中，参数和计算复杂度都能够得到控制，进而在控制复杂度的情况下抽取了时空域特征，由此，实现了时域关系上的显式建模，有效提升动作识别的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本发明所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种服务器的硬件结构框图；

图3是根据一示例性实施例示出的一种视频动作识别方法的流程图；

图4是根据图3对应实施例示出的对步骤330进行描述的流程图；

图5是根据图3对应实施例示出的对步骤350进行描述的流程图；

图6是根据图3对应实施例示出的对步骤370进行描述的流程图；

图7是根据一示例性实施例示出的对步骤370进行描述的流程图；

图8是根据一实施例描述的时域双线性模型的具体实现示意图；

图9是根据一示例性实施例示出的原始的ResNet结构中一个单元的结构示意图；

图10是根据图9对应实施例示出的ResNet结构中并联加入时域双线性模型的示意图；

图11是根据图9对应实施例示出的ResNet结构中串联加入时域双线性模型的示意图；

图12是根据一示例性实施例示出的时域双线性网络进行视频中动作识别的应用示意图；

图13是根据一示例性实施例示出的一种视频动作识别装置的框图；

图14是根据图13对应实施例示出的对各层特征抽取模块进行描述的框图；

图15是根据图13对应实施例示出的对时空域特征抽取模块进行描述的框图；

图16是根据图13对应实施例示出的对分类模块进行描述的框图；

图17是根据图13对应实施例示出的对分类模块在另一示例性实施例进行描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本发明所涉及的实施环境的示意图。在一个示例性实施例中，该实施环境包括视频源110、服务端130，对于视频源110所捕获的视频，例如短视频，在服务端130进行着视频中动作的识别，以获得动作识别结果。

例如，如图1所示的，视频源110，可以是用户所手持的用户终端，通过用户终端中的摄像头进行动作的捕获。

该实施环境至少包括视频源110以及服务端130，在视频源110和服务端130的配合之下，对输入的视频进行动作识别。该实施环境的具体框架将与所落地的场景强相关，不同的场景，将使得所在的实施环境除上视频源110和服务端130之外，有着不同的架构部署。

例如，此实现环境可以为各种应用所需要进行的视频动作识别提供服务接口，对于需要进行视频动作识别的应用而言，仅需要通过服务端搭建视频识别平台以及封装可供调用的API接口即可。

由此，服务端150将面向于各种应用所在的设备，通过二者之间的交互以及接口调用实现应用中视频的动作识别。

除此之外，还存在着诸多场景，例如，视频监控、医疗监护以及人机交互等在此不进行一一列举。

应当理解，在本实施环境的阐述中，仅仅是对一实现场景进行说明，但并不限于此，对于所给定的视频，都能够借助于本发明的视频动作识别实现所输入视频中的动作识别。

图2是根据一示例性实施例示出的一种服务器200的硬件结构框图。需要说明的是，该服务器200只是一个适配于本公开的示例，不能认为是提供了对本公开的使用范围的任何限制。该服务器200也不能解释为需要依赖于或者必须具有图2中示出的示例性的服务器200中的一个或者多个组件。

该服务器200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，服务器200包括：电源210、接口230、至少一存储介质250、以及至少一中央处理器(CPU，Central Processing Units)270。

其中，电源210用于为服务器200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。

存储介质250作为资源存储的载体，可以是随机存储介质、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。其中，操作系统251用于管理与控制服务器200上的各硬件设备以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是Windows ServerTM、MacOS XTM、UnixTM、LinuxTM、FreeBSDTM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对服务器200的一系列操作指令。数据255可以是存储于磁盘中的照片、图片等等。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储介质250通信，用于运算与处理存储介质250中的海量数据255。

如上面所详细描述的，适用本公开的服务器200将通过中央处理器270读取存储介质250中存储的一系列操作指令的形式来进行视频中动作的识别。

图3是根据一示例性实施例示出的一种视频动作识别方法的流程图。在一个示例性实施例中，该视频识别方法，如图3所示，至少包括以下步骤。

在步骤310中，获取进行视频识别的视频数据，视频数据包括若干帧视频图像。

其中，随着视频识别的进行，将获取此视频对应的视频数据，应当理解，视频数据描述了视频内容，因此包括着视频中动作所相关的运动信息。视频内容是通过视频播放中一帧帧视频图像呈现的，因此，视频所对应的视频数据包含了若干帧视频图像。这些视频图像形成了时间序列，即按照一定的时间顺序所构成的视频图像序列。

进行视频识别的视频数据，可以是一完整视频所对应的视频数据，例如，短视频所对应的视频数据，也可以是对一完整视频分割所获得视频段对应的视频数据，在此不进行限定，将根据动作识别的需求，以及所部署机器硬件的性能进行灵活配置。

随着视频识别的进行，将获取到所需要进行视频识别的视频数据。在一个示例性实施，此视频数据由视频源传输至能够进行视频中动作识别的服务端，根据视频源的不同，视频数据也各不相同。例如，视频源为进行视频监控的摄像头，此时，视频数据即为摄像头持续向服务端传输的视频流，可直接对所接收的视频流进行动作识别，也可对所接收的视频流分割后获得进行动作识别的视频数据。

随着所进行的视频数据接收，为动作识别而获得了视频数据，对所获得的视频数据发起动作识别。

在一个示例性实施例中，视频是一完整视频的视频段，步骤310包括：在对完整视频所触发的动作识别中，将完整视频的视频数据分成若干段，获得每一视频段进行动作识别的视频数据。

其中，步骤310所指进行动作识别的视频，是一视频段，在服务端所部署的机器计算能力有限的情况下，对所需要进行动作识别的完整视频，往往需要将其分割为若干视频段，以分别进行动作识别。

应当说明的是，所指的完整视频，可为一短视频，例如，其可为包含描述了一个动作的短视频，与之相对应的，对完整视频分割所得到的若干视频段，每一视频段都描述了此动作的一部分执行过程。对所有视频段都进行识别之后，方能够获知所对应完整视频段的动作分类。

对于请求进行动作识别的完整视频，在根据服务端自身的硬件部署情况，将完整视频的视频数据按照一定的时间长度进行分割，所得到的若干视频数据用于进行完整视频的动作识别，以便于能够适应于任意视频识别状况和机器部署状况实现视频动作识别，增强了视频动作识别的可靠性和通用性。

在步骤330中，对视频数据在神经网络中进行网络各层的特征抽取中，经由神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层。

其中，神经网络用于通过深度学习的方式实现视频数据的特征抽取和动作分类。神经网络存在着若干网络层，这将取决于所设定的网络结果，每一网络层都有着所对应的神经网络操作，以通过神经网络操作的执行而实现所在网络层的计算过程。

对于视频数据向神经网络的输入，神经网络中部署的各网络层将逐层进行特征抽取，所抽取得到的特征将作为下一网络层的输入而继续通过所对应神经网络操作的执行抽取特征，直至进入神经网络的输出层。在输出层将通过所输入的特征、分类函数以及损失函数而获得视频中动作可对于每一动作分类的概率，以此来获得动作所归属的动作分类，得到动作识别结果。

应当理解的，对于进行特征抽取的各网络层，将用于实现神经网络中的前向传播；所抽取的特征，神经网络的前端网络层抽取所抽取特征会相对底层，例如，包括一些图像边缘等信息，而后端网络层的特征更接近语义，因此，需要通过各网络层不断进行特征抽取，所不断进行的特征抽取助于增强视频动作识别的准确性和分类性能。

对于神经网络中逐层进行特征抽取的网络层来说，双线性层为进行空域特征抽取的一网络层的下一层。抽取得到视频图像中空域特征的网络层，其下一层即为本发明所实现的双线性层，所抽取得到的空域特征将输入到双线性层进行适应于双线性层的特征抽取。

应当补充说明的是，网络层所进行的空域特征抽取，是针对单帧视频图像，即每一帧视频图像按照时间顺序所分别进行的，所抽取得到的空域特征将成为双线性层的输入，参与到所在视频段中当前帧视频图像的时空域特征抽取。

本发明所实现的双线性层，将基于空域特征而进行时空域特征的抽取，即对所存在时空域特征进行了显式地建模，以此通过所构建模型实现时空域特征的抽取。

在一实施例中，该双线性层，是通过相邻帧视频图像之间特征的二维线性相关，即二次相关来实现的显式建模，以此来实现时空域特征抽取，在此基础之上也将使得所进行的视频动作识别考虑了空域和时域两方面的因素，进而得以充分利用时序运动信息识别视频动作，而不再限于空域特征下的视频动作识别，适应于视频中动作的运动和时域特性。

在另一实施例中，该双线性层，可以是在已有神经网络插入到进行空域特征识别的网络层之后，即与原有的网络结构相串联或者并联，以此来使得已有神经网络引入本发明所实现的双线性层，进而能够抽取得到时空域特征，而不再仅限于空域特征的抽取和视频动作识别，也不再由于时空域特征的抽取而引发高复杂度的参数和计算，双线性层将通过限制所使用交互权值矩阵中交互因子数k的大小，来控制复杂度，进而达成复杂度可控甚至于降低的时空域特征抽取。

在此应当说明的是，双线性层的交互权值矩阵中交互因子数k控制了双线性层上输出神经元的数量，通过交互因子数k的限制，使得所有输出神经元所构成双线性模型的大小受限控制，进而使得双线性层的复杂度得到控制及降低。双线性层上，输出神经元的数量为kC，其中，C为双线性层所约束抽取的特征维数，对于播入神经网络的双线性层而言，是一定值，因此，输出神经元的数量便取决于交互因子数k的大小。

无论何种神经网络，都可在实现空域特征抽取的网络层之后引入本发明实现的双线性层，进而得以获得时空域特征，实现本发明的视频动作识别，因此，本发明所进行的视频动作识别能够适应于各种神经网络。

在步骤350中，相邻帧视频图像之间根据空域特征进行双线性层上的双线性相关性运算，获得视频数据中每帧视频图像的时空域特征。

其中，在通过前述步骤的执行，使得所抽取空域特征进入双线性层之后，将在双线性层基于相邻帧视频图像之间的二维线性相关，即二次相关进行每帧视频图像的时空域特征抽取。

首先应当说明的是，二维线性相关，亦为二次相关，双线性相关，是指相邻帧视频图像之间，所对应的特征是在交互权值矩阵控制下二维线性相关，而非类似于一般神经网络算法中权值矩阵和特征之间直接相乘的一维线性相关。

具体的，相邻帧视频图像之间，其所对应特征的二维线性相关将通过下述公式表示，即：

x_i ^TF^TFx_i+1

其中，x_i为输入的第i帧特征，x_i+1为相邻帧，即第i+1帧特征，F为交互权值矩阵，F的维度为k×C，k用于控制参数复杂度，是交互权值矩阵的交互因子数，C则是所在双线性层指定的特征维度，即特征维数。T是转置操作。

双线性层中，参数复杂度为F的大小，即kC，计算复杂度也为O(kC),因此，通过限制所使用交互权值矩阵中交互因子数k的大小，将使得双线性层中参数和计算复杂度都能够得到有效控制和降低。在一个示例性实施例的具体实现中，k的大小可以为5到20之间，能够通过限制k来控制所构建模型的大小。

交互权值矩阵F，体现了相邻帧视频图像所对应特征之间的相关性，即交互关系，其将通过对双线性层进行的迭代训练所约束得到。

应当理解，对于交互权值矩阵中交互因子数k，其大小直接决定着双线性层进行特征抽取所涉及的因子数量，即交互因子数，因此，可以通过交互因子数的控制而尽可能减少特征抽取中涉及的因子数量，进而降低参数和计算的复杂度，参数和计算度从此将处于可控状态。

除此之外，交互因子数k与双线性层中输出神经元的数量，通过限制交互因子数k，而使得双线性层上输出神经元的数量得到控制，进而达到控制所实现双线性模型的目的，由此，在数量受到控制的输出神经元，所进行的计算的复杂度也随着输出神经元的数量而得到降低。

进一步的，对于每一网络层，当然也包括双线性层中的输出神经元，输出神经元所进行的计算，是并行处理的。输出神经元的计算过程中的主要运算是矩阵乘法，输出神经元的数量即为一个批处理的个数，即所开辟运算线程的数量，在交互因子数k的控制下，将使得所开辟运算线程的数量得到控制和减少。

在一个示例性实施例中，双线性层所进行的时空域特征抽取是面向于输入的一视频段进行的，此视频段对应的视频数据，其每一帧视频图像对应的空域特征便作为双线性层的输入。具体的，双线性层中的时空域特征抽取，以空域特征、特征维数C以及视频数据所对应的帧数为输入，进行时空域特征的抽取，所抽取得到时空域特征和空域特征在相邻帧视频图像之间运算得到的二维线性相关便为双线性层所输出的特征，将以此进行视频中动作的分类。

应当补充说明的是，对于每一网络层进行的特征抽取，其是通过所构建的模型，即定义的输出神经元进行着特征的抽取，由此即可得到当前所在网络层的特征。但是，对于当前所在网络层向下一网络的输出，则是当前所在网络层的输出神经元的特征输出，例如，以双线性层为例，其在抽取得到时空域特征之后，将通过输出神经元向下一网络层，包括输出层输出二维线性相关，以此来通过时域域特征来进行视频中的动作分类。

双线性层中，对输入的空域特征、视频数据所对应帧数以及双线性层所指定的特征维数，通过输出神经元进行时空域特征抽取，所抽取特征对应的二维线性相关满足阈值，则所抽取特征可用，将作为所抽取得到的时空域特征，至此，便通过所抽取得到时空域特征对应的二维线性相关继续进行神经网络中的前向传播，进入下一网络层。

通过步骤350的执行，得以抽取得到每一帧视频图像对应的时空域特征。对于每一帧视频图像而言，抽取得到的时空域特征包含着空域信息的同时，也与其它视频图像相互作用表征着所对应时间段的运动信息，即在所对应时间段上进行着动作所对应运动过程的描述，因此，适应于视频中动作的特性，将极大增强分类性能。

在步骤370中，通过时空域特征进行视频中动作的分类，获得视频数据的动作识别结果。

其中，如前所述的，神经网络中，随着前向传播，即经由所途经的网络层而进行逐步贴近于语义的特征抽取以及向下一网络层的输出，所抽取的特征，都将用于视频中动作的分类。

也就是说，无论所下一网络层是否为输出层，所抽取的特征都将通过所在网络层的输出神经元而作用于下一网络层。换而言之，通过所在网络层的输出神经元，对抽取的特征获取所在网络层向下一网络层输出的特征，例如，前述双线性层所指的二维线性相关。无论下一网络层是继续进行特征抽取的网络层，还是输出层，当前所在网络层抽取的特征都将作用于所进行的动作分类。下一网络层继续进行特征抽取时，当前所在网络层抽取的特征将作用和影响至相一网络层的特征抽取，以此类推，直至传递至输出层最终所进行的分类输出。

通过此示例性实施例，为神经网络所进行的视频动作识别插入了双线性层，所插入进行时空域特征抽取的双线性层能够在控制复杂度的情况下抽取时空域特征，并不需要通常所抽取时空域特征的三维卷积操作，既获得了时空域特征并且于视频中动作识别，又极大的降低了参数和计算的复杂度，神经网络对视频中动作的分类性能得到增强。

如上所述的示例性实施例，在已有的神经网络，使用已有的神经网络操作有效的实现时域双线性模型，即双线性层中构建的模型，通过双线性层中相邻帧视频图像之间特征的交互关系，即二维线性相关性，相邻两帧之间对时域显式地建模，从而提取出更具判别力的时空域特征，快速准确的为视频动作识别提供时空域特征，增强了进行视频中动作识别的实用性。

本发明所实现双线性层的时空域特征抽取，是面向于一视频段进行的，也就是说，所进行的双线性相关性运算是对此视频段进行的，而并非针对于单帧视频图像，即面向于此视频段构建每帧视频图像与相邻帧视频图像之间的时域双线性模型，以在此视频段为每帧视频图像抽取得到时空域特征，进而借助于时空域特征来提高分类性能。

本发明所实现的双线性层，能够插入至各种网络结构的神经网络，以提升已有神经网络进行视频中动作识别的准确性，本发明视频中动作识别的实现具备较强的通用性。

如上所述示例性实施例，应当说明的是，本发明所述实现的神经网络中，至少存在一个双线性层，即至少存在着用于进行时空域特征抽取的双线性层，但并不仅限于此，也可在神经网络中插入多个双线性层。

对于所插入的多个双线性层，除了以空域特征为输入而输出时空域特征的双线性层之外，其它双线性层，可能存在着以时空域特征为输入的双线性层，总而言之，本发明所实现的双线性层将与其它网络层相互配合相互作用，并且根据需要而配置不同的网络结果，神经网络中可能包含存在于网络结构中不同位置的多个双线性层。

图4是根据图3对应实施例示出的对步骤330进行描述的流程图。在一个示例性实施例中，如图4所示，步骤330至少包括以下步骤。

在步骤331中，对视频数据在神经网络中进行网络各层的前向传播，以逐层进行特征抽取，直至抵达进行空域特征抽取的网络层，该进行空域特征抽取的网络层为双线性层的上一网络层。

其中，如前所述的，视频数据是对应于一视频段，例如，一完整视频，或者从完整视频中分割所得到的一视频段。因此，视频数据包含着若干帧视频图像，对此若干帧视频图像进行神经网络中网络向层的前向传播，直至抵达进行空域特征抽取的网络层。

本发明所实现的双线性层插入神经网络之后，在神经网络的网络结构上，双线性层处于一网络层的下一层，此网络层用于进行空域特征抽取，由此，所抽取的空域特征便能够应用于双线性层的时空域特征抽取，得以充分利用空域特征抽取时空域特征。

在步骤333中，在网络层进行视频图像上的空域特征抽取。

其中，神经网络中随着对视频数据经由网络各层进行的前向传播，将进入一网络层进行空域特征的抽取。空域特征，这一二维特征，其是针对于每一帧视频图像所一一抽取得到的。

在一个示例性实施例的具体实现中，进行视频图像上空域特征抽取的网络层可以是卷积层，即卷积神经网络中的卷积层。

在步骤335中，将抽取的空域特征进行空域特征抽取的输入至双线性层，双线性层在网络结构上连接于进行空载中特征抽取的网络层。

通过此示例性实施例，便实现了神经网络由前端向后端所逐层进行的特征抽取，并进入到能够进行时空域特征的双线性层。

在一个示例性实施例中，神经网络为卷积神经网络，图4所对应实施例中的步骤331包括：

在卷积神经网络中各卷积层对视频数据进行的特征抽取；

将所抽取的特征在卷积神经网络的各卷积层不断进行前向传播，直至到达空域特征抽取的对应卷积层，该对应卷积层的下一层即为双线性层。

其中，卷积神经网络中，部署了卷积层，以此来实现底层特征向语义特征的抽取，而本发明所实现的双线性层，便插入至抽取空域特征的卷积层之后，进而通过抽取空域特征的卷积层和双线性层，来替代现有实现中时空域特征的抽取或者时域特征、空域特征之间的融合，实现卷积神经网络中的时空域特征抽取。

正如前述描述所指出的，为每一帧视频图像抽取得到时空域特征，将使得所在的视频图像序列获得时空域特征，进而所有时空域特征在时序上的相互作用得以表征了视频中动作的时序运动信息。

图5是根据图3对应实施例示出的对步骤350进行描述的流程图。在一个示例性实施例中，步骤350如图5所示，至少包括：

在步骤351中，为进行时空域特征抽取的一帧视频图像获取相邻帧视频图像的空域特征。

其中，如前所述的，时空域特征抽取，即后续所进行的双线性相关性运算是面向于一视频段进行的，对一视频段进行一帧帧视频图像与相邻帧视频图像之间的双线性相关运算。

因此，对于一帧视频图像，需要获取其相邻帧视频图像的空域特征。应当说明的是，所指的相邻帧，是当前帧的下一帧。

进行的双线性相关性运算，即对于双线性层而言，所输入的是视频段的帧数，以及所获得的空域特征序列，即每一帧视频图像所对应空域特征按照时序构成的序列。

因此，对于相邻帧视频图像的空域特征获取，仅需要对空域特征序列执行时序偏移操作即可。

在步骤353中，通过空域特征与交互权值矩阵之间的二次相关，对相邻帧视频图像的空域特征进行双线性相关性运算。

其中，交互权值矩阵，即为神经网络迭代训练所获得的权值矩阵，但是，更进一步的，其还体现了两相邻视频图像之间的二维线性相关性，即交互关系，而不仅限于一维线性相关，也不是借由一帧视频图像所输入特征与权值的直接相乘来体现相关性，即如前述公式x_i ^TF^TFx_i+1所示。

应当理解，通过步骤353的执行，基于相邻视频图像之间的二维线性相关来进行时空域特征的抽取，在此所指的二维线性相关是在一个共面上，即二维空间中经由空域特征进行时空域特征的抽取，延展了空域和时域，因此，并不限于前述公式的实现，任意通过二维空间而进行的时空域特征抽取，都是步骤353所指的双线性相关性运算。

在步骤355中，由双线性相关性运算获取视频数据中每帧视频图像的时空域特征。

其中，针对于网络各层输出的特征，使用基于分解的时域双线性模型来对相邻帧特征进行建模。此时，对于一输出神经元y，其具体的输出如下：

y＝x_i ^TF^TFx_i+1(1)

x_i是输入的第i帧特征，F是输出神经元对应的交互权值矩阵，T为转置操作。

在一个示例性实施例中，所输入的第i帧特征，即x_i，其输入的特征维度为T×C×H×W。T是帧数，视频段中视频图像的帧数，C是双线性层指定的特征维数，H和W是特征的空域维度。应当理解，特征维度T表征所输入的视频段，特征维度C、H和W则是针对于视频段中每一帧视频图像所进行的时空域特征抽取而言的。

在双线性层输出神经元的作用下，通过双线性相关性运算的进行实现每帧视频图像的时空域特征抽取。

在一个示例性实施例中，对于步骤351为相邻帧视频图像所进行的空域特征获取，包括：

对视频数据中视频图像的空域特征执行时序偏移操作，获得相邻帧视频图像的空域特征，时序偏移操作的执行中，相对于最后一帧视频图像的相邻帧视频图像，以最后一帧视频图像的空域特征填补。

其中，如前所述的，通过神经网络中的一网络层，例如卷积层，进行了每一视频图像所对应的空域特征抽取，而在此为相邻视频图像所进行的空域特征获取，不是对相邻帧视频图像进行特征抽取，而是为一帧视频图像的相邻帧视频图像直接获取其所对应的空域特征。

相邻帧视频图像的空域特征获取，对视频数据中视频图像的空域特征执行时序偏移操作实现。具体的，视频数据中视频图像的空域特征，按照所在视频图像的时序，构成了空域特征序列，每一帧视频图像的空域特征都将作为空域特征序列中的一元素，以此类推，下一帧视频图像的空域特征即为空域特征序列中的下一元素。

由此，所需要获取相邻帧视频图像的空域特征，是面向于此视频数据中的视频图像而言的，对于此视频数据中视频图像的空域特征序列而言，仅需要执行时序偏移操作，取第二个元素作为相邻帧视频图像所对应空域特征序列的第一个元素，以此类推，直至取最后一个元素作为相邻帧视频图像所对应空域特征序列的倒数第二个元素，而最后一个元素，则使用最后帧视频图像的空域特征，即最后一个元素填补。

此过程简单准确，并且对于输入神经网络进行视频中动作识别的视频数据而言，不会由于下一视频数据段的视频数据未输入而无法获得相邻帧视频图像的空域特征，保障了视频中动作识别的进行。

在另一个示例性实施例中，图5对应实施例中的步骤353包括：

以空域特征为输入，进行双线性层中每一帧视频图像和相邻帧视频图像之间特征的二维线性相关运算，获得对每一帧视频图像抽取的特征，摄取的特征根据运算的二维线性相关性确定时空域特征。

其中，如前所述的，对于一视频段，其视频数据中视频图像向神经网络的双线性层输入的特征，是为此视频段所输入的特征，即所输入的特征包括帧数、特征维数以及空域特征。

对此视频段，由所输入的特征，与相邻帧视频图像所对应的视频段进行二维线性相关性运算，进而通过二维线性相关性运算来抽取得到此视频段中每一帧视频图像的时空域特征。

在一个示例性实施例的具体实现中，对输入特征进行的二维线性相关运算，所输入的特征是高维，例如，是T×C×H×W这么四维的，对应于时域维度、特征维度和空域维度，应当理解，帧数T是对应于时域维度的。

高维特征所进行的二维线性相关运算中，对输入特征首先使用包含Ck个输出神经元的1×1×1三维卷积，由此将矩阵变换为T×Ck×H×W。即对应于Fx_i。每一输出神经元对应原来的C维特征，但是输出的是一维的，因此，将获得Ck个特征，组成输出维度，将T×Ck×H×W拆分为T×C×k×H×W。

而对于相邻帧的输入特征，采用时序偏移操作，将在后偏移一位，即从第2个元素开始，最后一个元素用第T项补齐，得到Fx_i+1对应的矩阵。

最后对运算得到的两个矩阵点乘，并在k这一维求和，便得以完成了高维度的特征得到最终x_i ^TF^TFx_i+1对应的特征输出，实现时域双线性模型。

图6是根据图3对应实施例示出的对步骤370进行描述的流程图。在一个示例性实施例中，如图6所示的，该步骤370包括：

在步骤371a中，在神经网络中对所获得视频数据中每帧视频图像的时空域特征继续进行所存在网络各层的前向传输，直至到达神经网络的输出层。

在步骤373a中，在神经网络的输出层预测视频中动作对应的动作分类概率，根据动作分类概率获得视频动作的动作识别结果。

其中，在神经网络通过双线性层中显示地抽取得到时空域特征，并随着神经网络的前向传播而继续进行后续网络层的计算，最终到达输出层。输出层将通过所配置的分类器和损失函数实现动作所对应动作分类概率的预测以及最终动作识别结果的获得。

可以理解的，在双线性层的作用下，将使得神经网络成为时域双线性神经网络，所进行的动作分类将在时空域特征的作用下精准快速的进行，且不会增加计算复杂度。

在一个示例性实施例中，如前所述的，在此所指的视频中动作识别，所针对的视频，是一个完整视频的视频段，适应于机器部署的情况，在所部署机器的计算能力并非最佳的情况下，将进行视频段中动作的识别，以此为基础得以完成完整视频中动作的识别，进而使得所进行的视频中动作识别能够适应于各种环境和场景。

具体的，图3所对应实施例中步骤310包括：在对完整视频所触发的动作识别中，将完整视频的视频数据分成若干段，获得每一视频段进行动作识别的视频数据。

此时，首先应当说明的是，所指的完整视频，是一个动作的完整视频，所进行的视频中动作识别将识别出这一完整视频中的动作是何种动作，其动作类别是什么。

因此，对于此完整视频所对应各视频段的动作识别，所获得的动作识别进行融合之后，即可得到此完整视频的动作识别结果。

图7是根据一示例性实施例示出的对步骤370进行描述的流程图。在一个示例性实施例中，如图7所示的，完整视频通过各视频段进行的动作识别，其步骤370包括：

在步骤371b中，进行神经网络输出层中各视频数据的动作分类概率运算，获得视频数据的动作分类概率。

在步骤373b中，融合视频数据的动作分类概率获得完整视频的动作识别结果。

其中，对于一视频，即一完整视频，其不同视频段所获得的动作分类概率各不相同，因此，对于所进行的完整视频中动作识别而言，将融合同一视频内不同段所运算得到的动作分类概率，以此确定完整视频的动作识别结果。

在一个示例性实施例中，对不同视频段所进行的动作分类概率融合，是通过运算动作分类概率的平均值实现的。

通过如上所述的示例性实施例，便得以在控制参数复杂度的情况下，对于相邻帧之间的时序信息进行双线性建模，显式地抽取时空域特征，并结合神经网络，以此来实现视频中动作的识别，提升视频动作分类的性能。

本发明所实现的视频中动作识别，由于其实用性能够灵活应用于视频监控、医疗监控和人机交互等领域。在视频监控中，可用于危险动作、暴力事件的检测，以及时发出预警；在医疗监护中，可实时分析病人的行为，对相关病症进行预诊，也可以起到监护作用，对老人儿童的摔倒等情况做出及时预警；在人机交互中，可帮助智能设备识别人类的动作，从而帮助机器理解人类的行为意图，进而实现交互交流。

本发明所实现基于时域双线性模型的神经网络，将通过用于训练的视频数据构建得到。具体的，准备好用于训练的视频数据，提取每一视频中的各帧视频图像，然后搭建基于时域双线性模型的神经网络。

此时域双线性模型，是针对网络各层输出的特征，使用基于分解的双线性模型的方法对于相邻帧特征进行建模的。由此将获得高维时域双线性模型。

以描述一动作的短视频为例，结合上述方法实现进行阐述。

现有的视频动作实现中，例如，有些方法对卷积神经网络抽取图像特征的基础上，进行时域建模，这让前端的卷积神经网络无法包含时域信息。而基于Two-stream结构的方法由于其针对视频数据和光流数据分别建模，无法同时充分利用外观和运动信息，且额外抽取光流数据也增加了计算的负担。而基于三维卷积神经网络的方法，其三维卷积操作对于时域建模依然首先进行线性变换，无法显式地对时域帧之间的关系进行建模，同时三维卷积网络相比于二维卷积网络也大大参数和计算的复杂度。

而上述方法，是一种基于时域双线性模型的动作识别方法，在控制参数复杂度的情况下，对于相邻帧之间的进行双线性建模，显式地抽取时空域特征。

描述一动作的短视频，为识别此动作，获取所对应的视频数据，这一视频数据是多通道视频数据，例如RGB视频数据。

在所构建基于时域双线性模型的卷积神经网络中，对短视频的每一段视频数据进行特征提取和动作分类，最后通过融合视频不同段之间的动作分类概率，得到对视频中动作的最终识别结果，至此，动作识别性能得到提升。

具体的，将视频分成若干段，在基于时域双线性模型的卷积神经网络中通过网络的各个层抽取得到不同维度的特征表示。

基于时域双线性模型的卷积神经网络中，对短视频的每一段视频数据抽取得到空域特征之后，图8是根据一实施例描述的时域双线性模型的具体实现示意图，在一个示例性实施例中，如图8所示，对于输入特征X，通过变维、时序偏移、点乘以及因子求和的进行，而获得输出神经元在双线性层输出的特征，完成时空域特征的抽取。

应当理解，基于时域双线性模型的卷积神经网络，是时域双线性网络，是将时域双线性模型插入到卷积神经网络中得到的时域双线性网络结构。

例如，以ResNet结构为例，ResNet结构为卷积神经网络的一种网络结构，图9是根据一示例性实施例示出的原始的ResNet结构中一个单元的结构示意图。在此结构下，将以串联或者并联的方式引入时域双线性模型，图10是根据图9对应实施例示出的ResNet结构中并联加入时域双线性模型的示意图，图11是根据图9对应实施例示出的ResNet结构中串联加入时域双线性模型的示意图。

在基于时域双线性模型的卷积神经网络中，将进行误差值的反向传播，以不断迭代优化网络。

图12是根据一示例性实施例示出的时域双线性网络进行视频中动作识别的应用示意图。正如图12所示的，对于输入视频，将提取各帧视频图像，以进行时空域特征的抽取和动作分类概率的输出，最终概率最大的动作类别作为最终的动作分类结果。

下述为本发明装置实施例，用于执行本发明上述视频动作识别方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明视频动作识别方法实施例。

图13是根据一示例性实施例示出的一种视频动作识别装置的框图。在一个示例性实施例中，如图13所示，该视频动作识别装置包括但不限于：获取模块510、各层特征抽取模块530、时空域特征抽取模块550和分类模块570。

获取模块510，用于获取进行动作识别的视频数据，所述视频数据包括若干帧视频图像；

各层特征抽取模块530，用于对所述视频数据在神经网络中进行网络各层的特征抽取中，经由所述神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层；

时空域特征抽取模块550，用于相邻帧视频图像之间根据所述空域特征进行所述双线性层上的双线性相关性运算，获得所述视频数据中每帧视频图像的时空域特征；

分类模块570，用于通过所述时空域特征进行视频中动作的分类，获得所述视频数据的动作识别结果。

图14是根据图13对应实施例示出的对各层特征抽取模块进行描述的框图。在一个示例性实施例中，如图14所示的，各层特征抽取模块530包括但不限于：前向传播单元531、空域特征抽取单元533和双线性层输入单元535。

前向传播单元531，用于对所述视频数据在所述神经网络中进行网络各层的前向传播，以逐层进行特征抽取，直至抵达进行空域特征抽取的网络层，所述网络层为所述双线性层的上一层网络；

空域特征抽取单元533，用于在所述网络层进行所述视频图像上的空域特征抽取；

双线性层输入单元535，用于将抽取的所述空域特征输入至所述双线性层，所述双线性层在所述网络结构上连接于进行所述空域特征抽取的网络层。

在一个示例性实施例中，神经网络为卷积神经网络，前向传播单元531进一步用于进行所述视频数据在所述卷积神经网络中各卷积层的特征抽取，所抽取的特征在所述卷积神经网络的各卷积层不断进行前向传播，直至到达进行空域特征抽取的卷积层，所述卷积层的下一层即为所述双线性层。

图15是根据图13对应实施例示出的对时空域特征抽取模块进行描述的框图。在一个示例性实施例中，如图15所示，该时空域特征抽取模块550包括但不限于：相邻帧空域特征获取单元551、相关性运算单元553和特征获取单元555。

相邻帧空域特征获取单元551，用于为进行时空域特征抽取的一帧视频图像获取相邻帧视频图像的空域特征；

相关性运算单元553，用于通过所述空域特征与交互权值矩阵之间的二次相关，对所述相邻帧视频图像的空域特征进行双线性相关性运算；

特征获取单元555，用于由所述双线性相关性运算获取所述视频数据中每帧视频图像的时空域特征。

在一个示例性实施例中，相邻帧空域特征获取单元551进一步用于对所述视频数据中视频图像的空域特征执行时序偏移操作，获得相邻帧视频图像的空域特征，所述时序偏移操作的执行中，相对于最后一帧视频图像的相邻帧视频图像，以所述最后一帧视频图像的空域特征填补。

在另一个示例性实施例中，相关性运算单元553进一步用于以所述空域特征为输入，进行双线性层中每一帧视频图像和相邻帧视频图像之间特征的二维线性相关运算，获得对每一帧视频图像抽取的特征，抽取的所述特征根据运算的所述二维线性相关性确定时空域特征。

图16是根据图13对应实施例示出的对分类模块进行描述的框图。在一个示例性实施例中，如图16所示，分类模块570包括但不限于：输出层输入单元571以及预测单元573。

输出层输入单元571a，用于在神经网络中对所获得视频数据中每帧视频图像的时空域特征继续进行所存在网络各层的前向传输，直至到达所述神经网络的输出层。

预测单元573a，用于在所述神经网络的输出层预测所述视频中动作对应的动作分类概率，根据所述动作分类概率获得所述视频数据的动作识别结果。

在一个示例性实施例中，视频是一完整视频的视频段，获取模块510进一步用于在对所述完整视频所触发的动作识别中，将所述完整视频的视频数据分成若干段，获得每一视频段进行动作识别的视频数据。

图17是根据图13对应实施例示出的对分类模块在另一示例性实施例进行描述的框图。在另一示例性实施例中，如图17所示，该分类模块570包括但不限于：概率运算模块571b以及融合模块573b。

概率运算模块571b，用于进行所述神经网络输出层中各视频数据的动作分类概率运算，获得所述视频数据的动作分类概率。

融合模块573b，用于融合所述视频数据的动作分类概率获得所述完整视频的动作识别结果。

可选的，本发明还提供一种机器设备，该机器设备可以用于图1所示实施环境中，执行图3、图4、图5、图6和图7任一所示的方法的全部或者部分步骤。所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行实现前述所指的方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关前述实施例中执行了详细描述，此处将不做详细阐述说明。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种视频动作识别方法，其特征在于，所述方法包括：

对所述视频数据在神经网络中进行网络各层的特征抽取中，经由所述神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层，所述双线性层为进行空域特征抽取的一网络层的下一网络层，抽取得到的所述空域特征将输入到所述双线性层；

在所述双线性层，相邻帧视频图像之间根据所述空域特征进行所述双线性层上的双线性相关性运算，获得所述视频数据中每帧视频图像的时空域特征；其中，相邻帧视频图像根据所对应的空域特征进行交互权值矩阵控制下的二维线性相关，所述交互权值矩阵用于体现相邻帧视频图像所对应特征之间的相关性，并通过对所述双线性层进行的迭代训练得到；

2.根据权利要求1所述的方法，其特征在于，所述对所述视频数据在神经网络中进行网络各层的特征抽取中，经由所述神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层，包括：

对所述视频数据在所述神经网络中进行网络各层的前向传播，以逐层进行特征抽取，直至抵达进行空域特征抽取的网络层，所述进行空域特征抽取的网络层为所述双线性层的上一层网络；

在所述网络层进行所述视频图像上的空域特征抽取；

将抽取的所述空域特征经由所述神经网络的网络结构输入至所述双线性层，所述双线性层在所述网络结构上连接于进行所述空域特征抽取的网络层。

3.根据权利要求2所述的方法，其特征在于，所述神经网络为卷积神经网络，所述对所述视频数据在所述神经网络中进行网络各层的前向传播，以逐层进行特征抽取，直至抵达进行空域特征抽取的网络层，包括：

在所述卷积神经网络中各卷积层对所述视频数据进行特征抽取；

将所抽取的特征在所述卷积神经网络的各卷积层不断进行前向传播，直至到达进行空域特征抽取的对应卷积层。

4.根据权利要求1所述的方法，其特征在于，进一步包括：

对所述视频数据中视频图像的空域特征执行时序偏移操作，获得相邻帧视频图像的空域特征，所述时序偏移操作的执行中，相对于最后一帧视频图像的相邻帧视频图像，以所述最后一帧视频图像的空域特征填补。

5.根据权利要求1所述的方法，其特征在于，所述通过所述空域特征与交互权值矩阵之间的二次相关，对所述相邻帧视频图像的空域特征进行双线性相关性运算，包括：

以所述空域特征为输入，进行双线性层中每一帧视频图像和相邻帧视频图像之间特征的二维线性相关运算，获得对每一帧视频图像抽取的特征，抽取的所述特征根据运算的所述二维线性相关性确定时空域特征。

6.根据权利要求1所述的方法，其特征在于，所述通过所述时空域特征进行视频中动作的分类，获得所述视频数据的动作识别结果，包括：

在神经网络中对所获得视频数据中每帧视频图像的时空域特征继续进行所存在网络各层的前向传输，直至到达所述神经网络的输出层；

在所述神经网络的输出层预测所述视频中动作对应的动作分类概率，根据所述动作分类概率获得所述视频数据的动作识别结果。

7.根据权利要求6所述的方法，其特征在于，所述视频是一完整视频的视频段，所述获取进行动作识别的视频数据，包括：

在对所述完整视频所触发的动作识别中，将所述完整视频的视频数据分成若干段，获得每一视频段进行动作识别的视频数据。

8.根据权利要求7所述的方法，其特征在于，所述在所述神经网络的输出层预测所述视频中动作对应的动作分类概率，根据所述动作分类概率获得所述视频数据的动作识别结果，包括：

进行所述神经网络输出层中各视频数据的动作分类概率运算，获得所述视频数据的动作分类概率；

融合所述视频数据的动作分类概率获得所述完整视频的动作识别结果。

9.一种视频动作识别装置，其特征在于，所述装置包括：

各层特征抽取模块，用于对所述视频数据在神经网络中进行网络各层的特征抽取中，经由所述神经网络的网络结构使得视频图像上抽取的空域特征进入双线性层，所述双线性层为进行空域特征抽取的一网络层的下一网络层，抽取得到的所述空域特征将输入到所述双线性层；

时空域特征抽取模块，用于在所述双线性层，相邻帧视频图像之间根据所述空域特征进行所述双线性层上的双线性相关性运算；其中，相邻帧视频图像根据所对应的空域特征进行交互权值矩阵控制下的二维线性相关，所述交互权值矩阵用于体现相邻帧视频图像所对应特征之间的相关性，并通过对所述双线性层进行的迭代训练得到；

10.根据权利要求9所述的装置，其特征在于，所述各层特征抽取模块包括：

前向传播单元，用于对所述视频数据在所述神经网络中进行网络各层的前向传播，以逐层进行特征抽取，直至抵达进行空域特征抽取的网络层，所述网络层为所述双线性层的上一层网络；

空域特征抽取单元，用于在所述网络层进行所述视频图像上的空域特征抽取；

双线性层输入单元，用于将抽取的所述空域特征输入至所述双线性层，所述双线性层在所述网络结构上连接于进行所述空域特征抽取的网络层。

11.根据权利要求10所述的装置，其特征在于，所述神经网络为卷积神经网络，所述前向传播单元进一步用于进行所述视频数据在所述卷积神经网络中各卷积层的特征抽取，所抽取的特征在所述卷积神经网络的各卷积层不断进行前向传播，直至到达进行空域特征抽取的卷积层。

12.根据权利要求10所述的装置，其特征在于，所述时空域特征抽取模块进一步用于对所述视频数据中视频图像的空域特征执行时序偏移操作，获得相邻帧视频图像的空域特征，所述时序偏移操作的执行中，相对于最后一帧视频图像的相邻帧视频图像，以所述最后一帧视频图像的空域特征填补。

13.一种机器设备，其特征在于，包括：

处理器；以及

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至8中任一项所述的方法。