CN108960059A

CN108960059A - 一种视频动作识别方法及装置

Info

Publication number: CN108960059A
Application number: CN201810554476.8A
Authority: CN
Inventors: 徐宝函; 叶浩; 郑莹斌; 陆王天宇; 王恒; 姜育刚; 孙谷飞
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Zhongan Information Technology Service Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-12-07

Abstract

本发明公开了一种视频动作识别方法及装置，属于计算机视觉及机器学习技术领域。所述方法包括：提取视频的时空特征；根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型；利用所述目标密集扩张网络模型对待识别视频进行识别，获得视频识别结果。本发明实现了对视频动作良好而有效的识别，并且仅需要少量的数据就可以生成新类别的密集扩张网络模型，相对于现有的诸多视频识别技术，具有显著的改进，特别是由于新的任务样本量较少而难以识别的问题，因此可广泛应用于视频检索、车辆事故检测、医疗影像等领域。

Description

一种视频动作识别方法及装置

技术领域

本发明涉及计算机视觉及机器学习技术领域，特别涉及一种视频动作识别方法及装置。

背景技术

视频动作识别近年来被广泛的研究，早期的研究主要集中在传统的人工特征上，视觉特征如空间兴趣点(Space-time interest points,STIP),梯度直方图(Histogram ofgradient,HoG),光流直方图(Histogram of optical flow,HOF)等都有研究。此外，来自图像的信息被扩展用来捕获时间信息，密集轨迹(Dense trajectory)密集跟踪并采样了光流每一块的局部信息，但这些人工设计的特征表征能力较为有限，限制了这些方法对于复杂、大规模视频的分类能力。

近年来，卷积神经网络受到了越来越多的关注，并在图像分类、检测等任务上取得了较好的效果。2012年，AlexNet首次利用神经网络赢得了ImageNet比赛的冠军。此后，许多研究者针对计算机视觉任务对网络进行了很多优化工作。最近，有研究者针对输入层设计了一个残差函数，残差网络虽然有152层，但仍能够通过增加深度来提高准确性。而另一种密集网络，侧重于特征的重用以及学习不同层输入的变化。但这些效果良好的网络结构是为图像分类设计的，直接将他们应用在视频分类上，不仅忽视了运动信息，更忽略了视频中时序的关联。

为了解决这些问题，Simonayan提出了混合静态图像和运动光流的双通道网络(参考文献[1].Karen Simonyan and Andrew Zisserman.2014.Two-stream convolutionalnetworks for action recognition in videos.In Neural Information ProcessingSystems(NIPS).568–576)，并有其他研究者对于网络的配置进行了改进，在一些标准数据集如HMDB51,UCF101等取得了较好的结果，然而将图像与运动分开来进行分析忽视了视频时序上的关系。

而另一方面，也有一些研究者关注如何利用时序信息来实现多模态的识别。3DCNN(C3D)利用3维卷积核，同时考虑了视频的时空表达。Pseudo 3D(P3D)构建了一个两维空间卷积和一维时间连接来模拟三维卷积。这种深度残差框架可以有效的训练一个更深层次的神经网络。还有研究者使用时序卷积和扩张卷积取代传统的卷积方式，以此来获取全局信息。然而，这些方法仍需要大量的数据才能获取较好的效果。

针对少样本的识别任务也有了很长时间的研究，在早期，研究者的关注点主要放在类别、动作简单的数据集上，如KTH，Weizman。这些数据集由演员表演规定的某个动作组成，如走路、慢跑或跑步等。这些数据仅用一小部分训练也可以很容易的识别。基于隐马尔可夫模型的编码算法针对这些数据有较好的效果，但很难扩展到大规模的数据集上。

然而现实中，视频一般是非专业拍摄且缺乏质量控制，其标注工作也更加复杂，对于新任务很难获取大量标注数据训练网络。现有的一些迁移学习算法将预训练的图像模型运用在视频识别中，有研究者利用空间注意力图将视频映射到低维特征空间，这些领域自适应算法需要大量的图像或其他数据来迁移知识，很难仅通过修改网络结构来实现少样本的视频识别。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种视频动作识别方法及装置。所述技术方案如下：

第一方面，提供了一种视频动作识别方法，所述方法包括：

提取视频的时空特征；根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型；利用所述目标密集扩张网络模型对待识别视频进行识别，获得视频识别结果。

结合第一方面，在第一种可能的实现方式中，提取视频的时空特征，包括：通过时序分割网络提取视频的时空特征。

结合第一方面的第一种可能实现方式，在第二种可能实现方式中，通过时序分割网络提取视频的时空特征，包括：通过时序分割网络包含的空间卷积网络和时序卷积网络分别提取静态的图像特征与运动的光流特征，并生成相应的特征向量。

结合第一方面，在第三种可能的实现方式中，根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型，包括：

将提取的特征输入预设密集扩张网络模型进行识别，并根据识别结果对所述预设密集扩张网络模型进行调整，得到目标密集扩张网络模型。

结合第一方面及第一方面的第一至三种中任一种可能实现方式，在第四至七种可能实现方式中，所述预设密集扩张网络模型包括多个密集扩张模块，所述多个密集扩张模块相互之间采用预定连接方式，每个密集扩张模块其中每层包含批量归一化操作、扩张卷积操作和激活函数操作，层与层之间采用密集连接方式。

结合第一方面的第四至七种中任一种可能实现方式，在第八至十一种可能实现方式中，所述预定连接方式包括：将每层的输出相加；和/或，将每层的输出串联；和/或，从每层直接进行特征提取。

结合第一方面及第一方面的第一至三种中任一种可能实现方式，在第十二至十五种可能实现方式中，提取视频的时空特征包括：提取所述待识别视频的时空特征，或者，在利用所述目标密集扩张网络模型对待识别视频进行识别之前，提取所述待识别视频的时空特征。

结合第一方面及第一方面的第一至三种中任一种可能实现方式，在第十六至十九种可能实现方式中，在提取视频的时空特征之前，所述方法还包括：对所述视频和/或待识别视频进行视频预处理，所述视频预处理包括视频片段分割和关键帧提取。

结合第一方面及第一方面的第一至三种中任一种可能实现方式，在第二十至二十三种可能实现方式中，所述方法还包括：通过预设神经网络或预设分类器对所述视频识别结果进行分类操作，通过获得的片段识别结果进一步优化所述视频识别结果。

第二方面，提供了一种视频动作识别装置，所述装置包括：

提取模块，用于提取视频的时空特征；训练模块，用于根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型；识别模块，用于利用所述目标密集扩张网络模型对待识别视频进行识别，获得视频识别结果。

结合第二方面，在第一种可能的实现方式中，所述提取模块用于：通过时序分割网络提取视频的时空特征。

结合第二方面的第一种可能实现方式，在第二种可能实现方式中，所述提取模块用于：通过时序分割网络包含的空间卷积网络和时序卷积网络分别提取静态的图像特征与运动的光流特征，并生成相应的特征向量。

结合第二方面，在第三种可能的实现方式中，所述训练模块用于：将提取的特征输入预设密集扩张网络模型进行识别，并根据识别结果对所述预设密集扩张网络模型进行调整，得到目标密集扩张网络模型。

结合第二方面及第二方面的第一至三种中任一种可能实现方式，在第四至七种可能实现方式中，所述预设密集扩张网络模型包括多个密集扩张模块，所述多个密集扩张模块相互之间采用预定连接方式，每个密集扩张模块其中每层包含批量归一化操作、扩张卷积操作和激活函数操作，层与层之间采用密集连接方式。

结合第二方面的第四至七种中任一种可能实现方式，在第八至十一种可能实现方式中，所述预定连接方式包括：将每层的输出相加；和/或，将每层的输出串联；和/或，从每层直接进行特征提取。

结合第二方面及第二方面的第一至三种中任一种可能实现方式，在第十二至十五种可能实现方式中，所述提取模块提取视频的时空特征包括：提取所述待识别视频的时空特征，或者，在利用所述目标密集扩张网络模型对待识别视频进行识别之前，所述提取模块提取所述待识别视频的时空特征。

结合第二方面及第二方面的第一至三种中任一种可能实现方式，在第十六至十九种可能实现方式中，所述装置还包括：视频预处理模块，对所述视频和/或待识别视频进行视频预处理，所述视频预处理包括视频片段分割和关键帧提取。

结合第二方面及第二方面的第一至三种中任一种可能实现方式，在第二十至二十三种可能实现方式中，所述装置还包括：视频分类模块，用于将视频通过预设神经网络或预设分类器对所述视频识别结果进行分类操作，根据获得的片段识别结果进一步优化所述视频识别结果。

本发明实施例提供的技术方案带来的有益效果是：

1、利用提供的基于密集扩张连接的网络结构，通过原型学习来解决少样本识别问题，具体来说，不是通过增量学习的方式替换分类器，来重新训练动作识别器，而是将现有数据上训练的网络看做动作原型的提取器，提出的网络将这些基元作为输入，使它们可以适应那些样本量较少的新类别；

2、不仅可以通过层与层之间的相连捕获空间信息，而且可以通过时序扩张卷积得到全局的内容信息，在基于密集扩张的网络框架中，两个基本的卷积网络分别预先通过视频帧和光流图片训练，从这两个网络中提取的空间和运动基元作为输入传入后续的密集连接网络，其中每一层可以接受到之前网络的额外信息(除了两个基本网络)，并将输出传入后续的网络层中。因此，这种紧凑的信息流充分利用了少量训练样本的空间和时间特征。

总之，本发明实施例提供的视频动作识别方法及装置，由于其采用的密集扩张网络结合了时序扩张卷积和密集连接，其中的密集扩张模块能够捕获片段和整体的时空信息，实现了对视频动作良好而有效的识别，并且仅需要少量的数据就可以生成新类别的密集扩张网络模型，相对于现有的诸多视频识别技术，具有显著的改进，特别是由于新的任务样本量较少而难以识别的问题，因此可广泛应用于视频检索、车辆事故检测、医疗影像等领域。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的视频动作识别方法流程示意图；

图2是预设密集扩张网络模型的结构示意图；

图3是预设密集扩张网络模型内部预定连接方式示意图；

图4是本发明实施例提供的视频动作识别方法流程的整体网络框架图；

图5是本发明实施例2提供的视频动作识别方法流程图；

图6是本发明实施例提供的视频动作识别装置结构示意图；

图7是本发明实施例提供的视频动作识别装置的应用实例结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

视频分析是计算机视觉的基础任务之一，随着视频拍摄设备的增加和网络的普及，视频分析也引起了越来越多学者的兴趣。近年来，深度神经网络在许多计算机视觉任务上取得了领先的水平，如图像分类、物体检测等等。但用于训练视频分析系统的数据量比图像大几个数量级。由于视频的复杂性和多样性，标注这些量大且种类各异的视频需要大量的人力和时间。因此，特别是对于新出现的类别，数据稀缺是一个普遍的问题，这严重阻碍了神经网络学习特异性的特征。在视频识别中，同一类的视频可能有不同的背景，这也需要大量的数据来训练一个深度神经网络。因此，我们希望可以找到只需要少量样本就能学习新类别的方法。

少样本学习的目的是在面对新类别时，充分利用从预训练中获取的知识，而不是从头开始训练。最近，基于原型学习范式的方法在实现少样本学习时尝试利用预训练的网络来解决数据稀缺的问题。在动作识别中，许多不同类的动作共享了相似的空间或运动的基元信息，而通过考虑这些基元和样例视频，可以重建新的分类器，也就是原型。众所周知，神经网络有能力保存和重复利用这些基元信息。

本发明实施例提供的视频动作识别方法及装置，通过训练得到的密集扩张网络模型进行视频动作识别，由于该密集扩张网络结合了时序扩张卷积和密集连接，其中的密集扩张模块能够捕获片段和整体的时空信息，实现了对视频动作良好而有效的识别，并且仅需要少量的数据就可以生成新类别的密集扩张网络模型，相对于现有的诸多视频识别技术，具有显著的改进，特别是由于新的任务样本量较少而难以识别的问题，因此可广泛应用于视频检索、车辆事故检测、医疗影像等领域。

下面结合具体实施例及附图，对本发明实施例提供的视频动作识别方法及装置作详细说明。

实施例1

图1是本发明实施例1提供的视频动作识别方法流程示意图，如图1所示，

本发明实施例提供的视频动作识别方法，包括以下步骤：

101、提取视频的时空特征。

具体的，通过时序分割网络提取视频的时空特征，该过程包括：

通过时序分割网络包含的空间卷积网络和时序卷积网络分别提取静态的图像特征与运动的光流特征，并生成相应的特征向量。时序分割网络(Temporal SegmentNetwork,TSN)用来提取每个片段的时空特征(参考文献[2].Limin Wang,Yuanjun Xiong,Zhe Wang,YuQiao,DahuaLin,Xiaoou Tang,and Luc Van Gool.2016.Temporal segmentnetworks:Towards good practices for deep action recognition.In EuropeanConference on Computer Vision(ECCV).20–36.)。针对输入的片段，TSN通过空间卷积网络和时序卷积网络，对输入的RGB图片和光流图片分别提取静态的图像特征与运动的光流特征，生成特征向量以便输入后面的待训练网络。假设我们针对每个视频提取n个帧和光流图片，TSN则用来分别提取RGB特征和光流特征。TSN的基础网络可采用Google Inception，且在Kinetics数据集上进行了预训练，该数据集包含了30万个视频片段，共400类不同的动作，具体来说，使用了softmax层之前的1024维全局池化特征。

102、根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型。

具体的，将提取的特征输入预设密集扩张网络模型进行识别，并根据识别结果对预设密集扩张网络模型进行调整，得到目标密集扩张网络模型。预设密集扩张网络模型主要包含以下特征：每层包含批量归一化操作、扩张卷积操作和激活函数操作，层与层之间采用预定连接方式，该预定连接方式包括：将每层的输出相加；和/或，将每层的输出串联；和/或，从每层直接进行特征提取。

图2是预设密集扩张网络模型的结构示意图。如图2所示，我们以3层为例，每一层包含了3个操作：批量归一化，扩张卷积和激活函数，不同层之间采用密集相连的形式，即密集连接方式，主要就是把每一层的特征图进行相连(参考文献，Huang G,Liu Z,WeinbergerK Q,et al.Densely connected convolutional networks[C]//Proceedings of theIEEE conference on computer vision and pattern recognition.2017,1(2):3.)。具体来说，预设密集扩张网络模型的每个密集扩张模块包含了连续的L层，每层包含了批量归一化，一系列扩张卷积以及一个激活函数。膨胀参数为s，膨胀参数每层随着层数增加被定义为2^L。与传统的卷积相比，扩张卷积可以捕捉长期的依赖，这可以使得更有代表性的片段对于最终的识别有更重要的影响。

为了进一步改进上述预设密集扩张网络模型，每个模块内部采用密集连接的方式，以便从不同层学习到的特征图可以为后续层提供更多样化的输入。同时，可以很容易学习类内的关系，尤其是训练数据很有限的情况下。时序密集扩张模块中的每一层都有相同数量的过滤器，这也就是DenseNet中的增长率。在神经网络模块中，每层会利用不同的filter(即过滤器或者滤波器)与特征图进行卷积操作。根据filter大小、维度选择的不同，卷积之后可以在一些特定的、与识别相关的区域得到较高的值，而其他区域得到较低的值。总的来说，训练神经网络本质即是在训练每一个卷积层的滤波器，这些滤波器对特定的特征产生作用，从而可以达到分类的目的。具体来说，在初始的层次，滤波器更关注边、角等形状，而随着层数的增加，滤波器则关注了较复杂的特征，如不同的类别所蕴含的动作、姿态的特征。而本实施例中的扩张卷积，则具有更大的感受野，可以获取更多时间维度的特征。

图3是预设密集扩张网络模型内部预定连接方式示意图，如图3所示，本发明实施例提供的预设密集扩张网络模型内部预定连接方式主要包括：将所有模块相加、所有模块串联以及从不同模块抽取特征的方式。具体到图3中，(a)将每个模块的输出最后相加；(b)将不同模块的输出拼接起来；(c)则是更直接的提取每个模块的输出作为片段的表示。

不同维度的特征可以使用1x1的卷积进行对齐，使用所有层的信息可能会得到关于整体视频更多的信息，但不同层的输出会在更简单的网络结构下带来不同维度的信息，对于不同的任务、数据，可以选取最适合的连接方式。具体来说，在本发明实施例1中，为了密集扩张模块可以获取之前每一层特征的信息，对于数据量较小的数据集和类别较少的任务，可以采用DD2甚至DD1的连接方式，针对少量数据采用较少的密集扩张模块不仅可以减少网络参数、训练时间，也可以防止模型过于复杂而造成的过拟合；而对于其他实施例中，需要完成数据量较大、类别较多的任务，可以采用DD3、DDC或者DDA这三种网络结构，甚至可以叠加更多的密集扩张模块，帮助网络收敛，提高识别的准确率。

由于深度神经网络中，误差反向传播通常与优化方法结合起来，是用来训练网络的常见方法。通过更新网络中每个权重，使最终的输出接近真实的结果，总体误差最小化。因此，利用识别结果返回对预设密集扩张网络模型进行调整的过程，可以按照如下方式进行：在训练过程中，每次数据传入神经网络，最后会输出神经网络对于该视频属于各种类别的概率，而预测的概率与正确概率之间的差则是神经网络的误差，神经网络的权重会根据误差进行更新，再继续下一轮的训练，最终能使总体误差减小。

本发明实施例提供的密集扩张网络模型，利用密集扩张模块(Dense dilatedblocks)将特征在通道层面相连，每一层都可以利用之前所有层的特征，而其中的扩张网络通过不同的卷积核的大小，不仅可以获取局部的视频特征，还可以获取整个视频的全局时空特征。此外，密集连接的优点不仅可以防止梯度弥散，还可以减少参数数量。密集网络每一层通常比较窄，比如只有12个过滤器，因此整个网络很容易训练和收敛。同时，密集连接还有一种正则化的效应，可以防止过拟合，尤其是面对少量训练数据，这样不需要很深的网络即可学到不同类别的特征，减少了网络的复杂性及对训练样本的需求。

103、利用目标密集扩张网络模型对待识别视频进行识别，获得视频识别结果。

具体的，利用上述训练过程训练好的目标密集扩张网络模型，对待识别视频进行识别，然后获得视频动作的识别结果。

优选地，在上述101步骤中，进行提取视频时空特征的过程，包括提取待识别视频的时空特征，又或者，提取待识别视频的时空特征这一过程可以在103步骤之前、102步骤之后进行，本发明实施例不对其加以特别限制。

另外优选地，本发明实施例提供的视频动作识别方法还包括以下步骤：

通过预设神经网络或预设分类器对视频识别结果进行分类操作，通过获得的片段识别结果进一步优化视频识别结果。

具体的，通过目标密集扩张网络模型得到特征之后，通过预设神经网络或者其他分类器，如SVM(支持向量机，Support Vector Machine)对于每个片段进行分类，得到片段识别结果，最终每个视频的类别由针对片段的分类投票决定，拥有最多类别的作为视频的最终分类结果，综合整段视频给出最终类标，至此完成本发明实施例提供的视频动作识别方法整个流程。

图4是本发明实施例提供的视频动作识别方法流程的整体网络框架图，如图4所示，在该框架图中，首先，视频被分为n个片段，时序分割网络提取每个片段的时空信息；接着，密集扩张模块将每层特征密集相连，扩张卷积则帮助探索不同片段之间的时序关系；最后，基于所有特征图生成了预测分数，整个视频的分类通过所有片段的分数综合得到。

需要说明的是，上述对于本发明实施例提供的预设密集扩张网络模型只是示例性的，在不脱离本发明构思的情况下，实践中可以选择其他任何可能的密集扩张网络模型，本发明实施例不对其加以特别限制。

实施例2

图5是本发明实施例2提供的视频动作识别方法流程图，如图2所示，本发明实施例提供的视频动作识别方法，包括以下步骤：

201、对视频和待识别视频进行视频预处理，视频预处理包括视频片段分割和关键帧提取。

具体的，将需要训练和识别的视频和待识别视频，提取RGB静态帧的图片以及运动的光流图片。

值得注意的是，步骤201实施的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

202、通过时序分割网络提取视频的时空特征。

具体的，通过时序分割网络包含的空间卷积网络和时序卷积网络分别提取静态的图像特征与运动的光流特征，并生成相应的特征向量。时序分割网络用来提取每个片段的时空特征。针对输入的片段，TSN通过空间卷积网络和时序卷积网络，对输入的RGB图片和光流图片分别提取静态的图像特征与运动的光流特征，生成特征向量以便输入后面的待训练网络。假设我们针对每个视频提取n个帧和光流图片，TSN则用来分别提取RGB特征和光流特征。TSN的基础网络采用Google Inception，且在Kinetics数据集上进行了预训练，该数据集包含了30万个视频片段，共400类不同的动作，具体来说，使用了softmax层之前的1024维全局池化特征。

值得注意的是，步骤202实施的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

203、将提取的特征输入预设密集扩张网络模型进行识别，并根据识别结果对所述预设密集扩张网络模型进行调整，得到目标密集扩张网络模型。

具体的，将提取的特征输入预设密集扩张网络模型进行识别，并根据识别结果对预设密集扩张网络模型进行调整，得到目标密集扩张网络模型。预设密集扩张网络模型主要包含以下特征：包括多个密集扩张模块，多个密集扩张模块相互之间采用预定连接方式，每个密集扩张模块其中每层包含批量归一化操作、扩张卷积操作和激活函数操作，层与层之间采用密集连接方式。

本发明实施例中的203步骤，除了预设密集扩张网络模型涉及的以上特征与实施例1中的102步骤不同之外，其他无论是该步骤实施过程还是其中涉及的预设密集扩张网络模型，均与实施例1相同，详见实施例1中相应描述，在此不再赘述。

值得注意的是，步骤203实施的过程，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

204、提取待识别视频的时空特征。

具体的，该步骤进行的时空特征提取与上述步骤202实施方式和实施过程相同，详见步骤202相应描述，在此不再赘述。

205、利用目标密集扩张网络模型对待识别视频进行识别，获得识别结果。

具体的，该步骤实施过程与实施例1中步骤103实施方式和实施过程相同，在此不再赘述。

206、通过预设神经网络或预设分类器对视频识别结果进行分类操作，通过获得的片段识别结果进一步优化视频识别结果。

实施例3

图6是本发明实施例提供的视频动作识别装置结构示意图，如图6所示，本发明实施例提供的视频动作识别装置，主要包括提取模块31、训练模块32和识别模块33。

具体的，提取模块31，用于提取视频的时空特征，具体地通过时序分割网络包含的空间卷积网络和时序卷积网络分别提取静态的图像特征与运动的光流特征，并生成相应的特征向量。提取模块提取视频的时空特征的时间节点为：提取待识别视频的时空特征，或者，在利用目标密集扩张网络模型对待识别视频进行识别之前，提取模块提取待识别视频的时空特征。

训练模块32，用于根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型。具体的，将提取的特征输入预设密集扩张网络模型进行识别，并根据识别结果对所述预设密集扩张网络模型进行调整，得到目标密集扩张网络模型。预设密集扩张网络模型主要包含以下特征：包括多个密集扩张模块，所述多个密集扩张模块相互之间采用预定连接方式，每个密集扩张模块其中每层包含批量归一化操作、扩张卷积操作和激活函数操作，层与层之间采用密集连接方式。

识别模块33，用于利用目标密集扩张网络模型对待识别视频进行识别，获得识别结果。

优选地，上述装置还包括：

视频预处理模块34，对视频和/或待识别视频进行视频预处理，视频预处理包括视频片段分割和关键帧提取。

视频分类模块35，用于将视频通过预设神经网络或预设分类器对识别结果进行分类操作，获得片段识别结果。

应用实例

图7是本发明实施例提供的视频动作识别装置的应用实例结构示意图。如图7所示，在视频动作识别装置进行系统构建时，硬件方面提供计算设备(或云端服务器)一台、视频输入设备一台，计算设备或云端服务器包含CPU/GPU服务器41，视频输入设备用于向视频动作识别装置的系统输入视频。

具体功能模块方面搭建视频预处理模块42、提取模块43、训练模块44、识别模块45以及视频分类模块46。

流程方面分为视频模型训练及视频动作识别。

训练阶段需要将样本通过视频输入设备输入，通过视频预处理模块42、提取模块43、训练模块44进行训练，并保存训练得到的模型。

识别阶段先对视频的预处理、特征提取，这一过程可以在上述训练过程之前完成，也可以在训练阶段之后的另外步骤独立实施，特征提取完成之后，载入训练好的视频识别模型，通过目标密集扩张网络模型得到视频的向量表示，在视频分类模块中进行分类，并将结果返回给用户。

需要说明的是：上述实施例及应用实例提供的视频动作识别装置在触发视频动作识别业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频动作识别装置与视频动作识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

综上所述，本发明实施例提供的视频动作识别方法及装置，相对于现有技术具有以下有益效果：

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频动作识别方法，其特征在于，所述方法包括：

提取视频的时空特征；

根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型；

利用所述目标密集扩张网络模型对待识别视频进行识别，获得视频识别结果。

2.根据权利要求1所述的方法，其特征在于，提取视频的时空特征，包括：

通过时序分割网络提取视频的时空特征。

3.根据权利要求2所述的方法，其特征在于，通过时序分割网络提取视频的时空特征，包括：

通过时序分割网络包含的空间卷积网络和时序卷积网络分别提取静态的图像特征与运动的光流特征，并生成相应的特征向量。

4.根据权利要求1所述的方法，其特征在于，根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述预设密集扩张网络模型包括多个密集扩张模块，所述多个密集扩张模块相互之间采用预定连接方式，每个密集扩张模块其中每层包含批量归一化操作、扩张卷积操作和激活函数操作，层与层之间采用密集连接方式。

6.根据权利要求5所述的方法，其特征在于，所述预定连接方式包括：

将每层的输出相加；和/或，

将每层的输出串联；和/或，

从每层直接进行特征提取。

7.根据权利要求1至4任一项所述的方法，其特征在于，提取视频的时空特征包括：提取所述待识别视频的时空特征，或者，

在利用所述目标密集扩张网络模型对待识别视频进行识别之前，提取所述待识别视频的时空特征。

8.根据权利要求1至4任一项所述的方法，其特征在于，在提取视频的时空特征之前，所述方法还包括：

对所述视频和/或待识别视频进行视频预处理，所述视频预处理包括视频片段分割和关键帧提取。

9.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：

通过预设神经网络或预设分类器对所述视频识别结果进行分类操作，通过获得的片段识别结果进一步优化所述视频识别结果。

10.一种视频动作识别装置，其特征在于，所述装置包括：

提取模块，用于提取视频的时空特征；

训练模块，用于根据提取的特征对预设密集扩张网络模型进行训练，得到目标密集扩张网络模型；

识别模块，用于利用所述目标密集扩张网络模型对待识别视频进行识别，获得视频识别结果。

11.根据权利要求10所述的装置，其特征在于，所述提取模块用于：

通过时序分割网络提取视频的时空特征。

12.根据权利要求11所述的装置，其特征在于，所述提取模块用于：

13.根据权利要求10所述的装置，其特征在于，所述训练模块用于：

14.根据权利要求10至13任一项所述的装置，其特征在于，所述预设密集扩张网络模型包括多个密集扩张模块，所述多个密集扩张模块相互之间采用预定连接方式，每个密集扩张模块其中每层包含批量归一化操作、扩张卷积操作和激活函数操作层与层之间采用密集连接方式。

15.根据权利要求14所述的装置，其特征在于，所述预定连接方式包括：

将每层的输出相加；和/或，

将每层的输出串联；和/或，

从每层直接进行特征提取。

16.根据权利要求10至13任一项所述的装置，其特征在于，所述提取模块提取视频的时空特征包括：提取所述待识别视频的时空特征，

或者，

在利用所述目标密集扩张网络模型对待识别视频进行识别之前，所述提取模块提取所述待识别视频的时空特征。

17.根据权利要求10至13任一项所述的装置，其特征在于，所述装置还包括：

视频预处理模块，对所述视频和/或待识别视频进行视频预处理，所述视频预处理包括视频片段分割和关键帧提取。

18.根据权利要求10至13任一项所述的装置，其特征在于，所述装置还包括：

视频分类模块，用于将视频通过预设神经网络或预设分类器对所述视频识别结果进行分类操作，根据获得的片段识别结果进一步优化所述视频识别结果。