CN112329738A

CN112329738A - 基于显著片段采样的长视频动作识别方法

Info

Publication number: CN112329738A
Application number: CN202011387822.1A
Authority: CN
Inventors: 王其聪; 黄靖
Original assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Current assignee: Xiamen University; Shenzhen Research Institute of Xiamen University
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-02-05

Abstract

基于显著片段采样的长视频动作识别方法，涉及计算机视觉技术。1)准备长视频动作识别数据集；2)设计用于显著片段采样的采样器和用于动作识别的分类器，通过采样器对视频运动特征显著的部分进行采样，分类器仅考虑采样器采样的片段，通过提取视频显著片段的时空特征进行动作分类；3)在大规模图像数据集上，对采样器的主干网络ShuffleNet V2和分类器网络膨胀3D卷积网络进行预训练，得到预训练模型；4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练，并保存训练好的模型；5)利用训练好的模型进行视频显著部分的采样和动作分类。能有效去除冗余信息，减少模型计算量。

Description

基于显著片段采样的长视频动作识别方法

技术领域

本发明涉及计算机视觉技术，具体是涉及一种基于显著片段采样的长视频动作识别方法。

背景技术

视频的理解与识别是计算机视觉的基础任务之一。近年来，随着计算机算力的爆发和计算机视觉技术的不断发展，视频识别技术迅速兴起并得到了广泛关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。动作识别任务的主要目标是判断一段视频中人的行为的类别。早期的动作识别主要基于兴趣点的检测和表示，例如梯度直方图，时空兴趣点检测以及光流直方图等。近年来，深度神经网络在图像分类和目标检测等计算机视觉任务上取得了几乎超越人类的效果。因此，一些基于深度学习的方法被应用于视频动作识别任务中。Simonyan等人(Simonyan K,Zisserman A.Two-streamconvolutional networks for action recognition in videos[C]//Advances inneural information processing systems.2014:568-576.)提出了基于双流的动作识别方法。该方法首次将视频分成空间和时间两个部分，分别使用RGB图像和光流图像送入两支神经网络并融合最终分类结果。Tran等人(Tran D,Bourdev L,Fergus R,et al.Learningspatiotemporal features with 3d convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:4489-4497.)将3D卷积应用于视频动作识别领域，提出了3D卷积网络，希望把ImageNet(迁移学习)的成功复制到视频动作领域中。Carreira等人(Carreira J,Zisserman A.Quo vadis,action recognition？anew model and the kinetics dataset[C]//proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:6299-6308.)提出了一个基于3D卷积的双流模型，网络的主干借鉴了成熟的2D卷积网络Inception-v1，将网络中的2D卷积核换成了3D卷积核。膨胀3D卷积网络进一步提高了视频动作识别的准确率。为了获得更有辨别力的时序特征，Wang等人(Wang X,Girshick R,Gupta A,et al.Non-local neuralnetworks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:7794-7803.)提出了在网络中加入全局感受模块以获取长期时序依赖。

然而上述工作都专注于短视频动作识别任务，识别的视频往往只有10秒甚至更短，面对包含数千帧且长达数分钟的长视频，这些方法就会因为巨大的计算量而无能为力。目前，长视频动作识别任务受到的挑战主要有：

1)由于现有模型需要对采样得到的帧提取时空特征，因此对长视频进行密集采样时将会导致无法承受的巨大计算量。

2)在长达数分钟的长视频中，存在大量的冗余信息，将会导致动作识别性能降低。

3)由于视频过长，因此在提取时序信息时，难以建立有效的长期时序依赖。

目前的方法，大多数使用的是密集采样或者是将视频分段均匀采样，忽略了上述采样方法存在的许多局限性。密集采样容易造成巨大的计算量，而均匀采样可能会导致大量的冗余信息被采样，继而影响识别效果。因此，在长视频动作识别中，应尽可能采样运动特征显著的片段，摈弃特征不显著的冗余片段。

发明内容

本发明的目的在于针对现有的视频动作识别方法中存在的上述技术问题，提供能够有效提取到采样片段的时空特征，有效去除冗余信息，减少模型计算量的一种基于显著片段采样的长视频动作识别方法。

本发明包括以下步骤：

1)准备长视频动作识别数据集；

2)设计用于显著片段采样的采样器和用于动作识别的分类器，通过采样器对视频运动特征显著的部分进行采样，分类器仅考虑采样器采样的片段，通过提取视频显著片段的时空特征进行动作分类；

3)在大规模图像数据集上，对采样器的主干网络ShuffleNet V2(Ningning Ma,Xiangyu Zhang,Hai-Tao Zheng,Jian Sun，ShuffleNet V2:Practical Guidelines forEfficient CNN Architecture Design.In ECCV,2018)和分类器网络膨胀3D卷积网络(Joao Carreira and Andrew Zisserman.Quo vadis,action recognition？a new modeland the kinetics dataset.In CVPR,2017.)进行预训练，得到预训练模型；

4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练，并保存训练好的模型；

5)利用训练好的模型进行视频显著部分的采样和动作分类。

在步骤1)中，所述准备长视频动作识别数据集，假设训练集动作视频为{(x_i,y_i),i＝1,…,n}，其中，n为训练集的样本数；x_i为第i个训练样本对应的视频，y_i表示第i个训练样本对应的标签。

在步骤2)中，所述设计用于显著片段采样的采样器的具体步骤如下：

2.1采样器将输入视频平均分成N个片段，并从每个片段中均匀采样一帧图像；采样得到的N帧图像作为采样器的输入；

2.2ShuffleNet在经过第一次卷积和最大池化操作以后，主要分为三个阶段，每个阶段以后的特征图的大小皆为输入的一半，通道数则相应增加一倍；移除ShuffleNet原有的最后的全连接层，在图像输入采样器的主干网络后，获得N个1024维的特征向量用以表征每一帧的空间特征；

2.3获得每个片段代表帧的空间特征后，利用选择器生成特征矩阵选择运动特征显著的帧，选择器由1个多层感知器(多层感知器)、1个全局感受模块和1个耿贝尔模块组成；特征矩阵经过选择器后，生成一个只含{0,1}离散的向量，0代表该帧所在的片段运动特征不够显著，分类器应不予考虑；反之，则代表该片段运动特征显著，分类器应予以考虑；

2.4采样器获得具有显著特征的片段后，分类器分别提取具有显著特征片段是时空特征；分类器使用3D卷积核，能够充分捕捉视频片段的时序特征和空间特征，最后使用多层感知器进行动作分类。

与现有技术相比，本发明具有以下突出的优势：

首先，设计用于显著片段采样的采样器，采样器引入轻量级的卷积神经网络，ShuffleNet提取样本帧的空间特征，使得模型既能提取视频帧有辨别力的空间特征又不会耗费大量计算资源。其次，选择器可以根据前面提取到的特征采样运动特征显著的片段。为了获取到更丰富的长期时序依赖，选择器引入全局感受模块。这样采样器在进行显著片段采样的时候不但能考虑到视频帧的空间特征，还能充分考虑视频帧之间的时序依赖。最后，分类器主干采用借鉴于成熟2D网络Inception v1的3D网络膨胀3D卷积网络，该网络使用3D卷积核对输入视频进行卷积，能够有效提取到采样片段的时空特征。分类器只对采样器采样的稀疏的，运动特征显著的片段提取时空特征，因此能有效去除冗余信息，减少模型计算量。

附图说明

图1为本发明实施例的模型结构图；

图2为本发明实施例的采样器结构图；

图3为本发明实施例的选择器结构图。

具体实施方式

为使本发明的上述目的、特征和优点能够更明显易懂，下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，提供一种基于显著片段采样的长视频动作识别方法。本实施例包括以下步骤：

1.准备长视频动作识别数据集。假设训练集动作视频为{(x_i,y_i),i＝1,…,n}，其中，n为训练集的样本数；x_i为第i个训练样本对应的视频，y_i表示第i个训练样本对应的标签；

2.设计用于显著片段采样的采样器和，通过采样器对视频运动特征显著的部分进行采样。参见图2，采样器由一个轻量级网络ShuffleNet和一个选择器组成。下面详细说明采样器的工作原理。

2.1如图2所示，模型输入为一个长视频v,采样器将其分为N个片段(N＝10)，即v＝{S₁,S₂,…,S_N}，其中每个片段又能表示为S_i＝{f_i|i∈[1,...,T]}。为了提取最能代表每个片段的特征的帧，求取每个片段的平均值最为该片段的代表帧，即对于每个片段S_i，都有其代表帧：

2.2采样器使用ShuffleNet提取代表帧的空间特征，ShuffleNet在经过第一次卷积和最大池化操作以后，主要分为三个阶段，每个阶段以后的特征图的大小皆为输入的一半，通道数则相应增加一倍。移除ShuffleNet原有的最后的全连接层，因此在图像输入采样器的主干网络后，将会获得N个1024维的特征向量用以表征每一帧的空间特征。即对于所有代表帧F＝{F_i|i∈[1,...,N]}，在神经网络中提取特征前，都被裁剪至224×224的大小，经过ShuffleNet后都可以表示为卷积特征：X＝{x_i|i∈[1,...,N]}；其中，x_i∈R^d，X∈R^N×d，d是每帧图像经过ShuffleNet提取特征后，生成的特征向量的维数,d＝1024。

2.3如图3所示，获得每个片段代表帧的空间特征后，选择器根据得到的特征进行显著片段选择。为了获取视频帧之间的长期时序依赖，引进全局感受模块。一般来说，全局感受模块有以下形式：

相似度量函数选择高斯函数

g(x)使用1×1的卷积即g(x)＝W^Tx；归一化系数

值得一提的是，引进全局感受模块的目的是为了提取视频帧间的时序依赖，因此公式中的i,j指的是在时间维度的位置。由于全局感受模块只是对输入的特征图进行信息精炼，因此特征图的尺寸不会改变。获得具有长期时序依赖的特征矩阵后，利用多层感知器进行分类。为了增加多层感知器的非线性拟合能力，在多层感知器的不同层间添加ReLU激活函数，具体形式如下：

α＝Softmax(σW₂((σ(W₁X)+b₁))+b₂)

其中，α∈R^N，σ为激活函数ReLU。由于采样显著片段是没有人工标注的，因此不能作为一个有监督分类问题考虑。进行显著片段采样是通过采样器生成一个只含{0,1}的选择变量进行选择。由于该变量是离散的分布，为了解决离散变量无法求梯度的问题，引入基于耿贝尔分布的重参数方法。由上述操作得到每个片段是显著片段的概率α_i＝{π₀,π₁}，π₀表示该片段不是显著片段的概率，π₁表示该片段是显著片段的概率；因此，对于每个片段，采集的样本表示为：

其中，g_i是从耿贝尔(0，1)分布中采集的样本，耿贝尔(0，1)的生成如下：

g＝-log(-log(u))

由于公式(4)中使用了argmax函数，因此依然无法求导，为此使用Softmax函数代替argmax函数，所以采集的样本写作：

其中，τ是温度系数，τ越小，则生成的向量y越接近one-hot向量。至此，选择器已经成功生成用于选择显著片段的选择向量。

3.设计用于动作识别的分类器，如图1所示，分类器仅考虑采样器采样的片段，通过提取视频显著片段的时空特征进行动作分类。

3.1利用在Kinetics数据集上预训练的模型，使用3D卷积提取RGB图像的时序特征。并且出于减少计算量的考虑，去除了膨胀3D卷积网络模型的光流分支，只保留RGB流分支。输入视频已经被平均分为N个片段。采样器通过对每个片段的代表帧提取特征，采样其中的显著片段。分类器只对显著片段进行特征提取，模型的输入为3×64×224×224。当输入片段的帧数大于64帧时，分类器对该片段随机采样64帧。每个显著片段经过3DInception v1网络提取特征后，得到特征向量y∈R^d，y经过多层感知器分类器得到预测结果。测试时，对每个采样的显著片段进行预测，然后取平均值作为最终的预测结果。

4在大规模图像数据集上，对采样器的主干网络ShuffleNet V2和分类器网络进行预训练，得到预训练模型。这一步旨在为网络引入解决目标任务所需的语义信息，本项目采用两阶段的预训练方法，分别对采样器和分类器网络主干进行预训练。对于采样器，本项目在采样器的主干网络ShuffleNet V2后接一个多层感知器得到分类结果的概率分布。对于分类器的预训练方法与采样器相似，只是不需要额外引入新的线性分类器，直接使用分类器的网络主干3D Inception v1加方法本身的多层感知器建模一个分类网络模型。

5经过上一步的操作后，采样器和分类器的网络参数已经得到充分的预训练，包含了丰富的语义信息。这一步的目的是将预训练后的模型应用到长视频动作识别数据集上进行动作识别任务。具体操作是，首先对输入的视频段进行数据增强，数据增强操作包括0％几率的水平翻转、30％几率的随机视频灰度化，图像亮度，对比度和饱和度在[0.2,1.2]范围内随机偏移，图像色相在[-0.5，0.5]范围内随机采样；然后将数据增强后的视频馈入网络进行前向传播；网络预测结果与真实值的误差使用交叉熵损失度量；之后在损失的指导下进行反向传播，根据梯度更新网络参数；最后在损失收敛后，保存好训练的模型参数。

6完成上述所有步骤后，即可利用训练好的模型进行视频显著部分的采样和动作识别。具体来说，输入一个任意长度的视频，网络可以输出该视频属于各动作类别的概率。

Claims

1.基于显著片段采样的长视频动作识别方法，其特征在于包括以下步骤：

1)准备长视频动作识别数据集；

3)在大规模图像数据集上，对采样器的主干网络ShuffleNet V2和分类器网络膨胀3D卷积网络进行预训练，得到预训练模型；

5)利用训练好的模型进行视频显著部分的采样和动作分类。

2.如权利要求1所述基于显著片段采样的长视频动作识别方法，其特征在于在步骤1)中，所述准备长视频动作识别数据集，假设训练集动作视频为{(x_i,y_i),i＝1,…,n}，其中，n为训练集的样本数；x_i为第i个训练样本对应的视频，y_i表示第i个训练样本对应的标签。

3.如权利要求1所述基于显著片段采样的长视频动作识别方法，其特征在于在步骤2)中，所述设计用于显著片段采样的采样器的具体步骤如下：

2.3获得每个片段代表帧的空间特征后，利用选择器生成特征矩阵选择运动特征显著的帧，选择器由1个多层感知器、1个全局感受模块和1个耿贝尔模块组成；特征矩阵经过选择器后，生成一个只含{0,1}离散的向量，0代表该帧所在的片段运动特征不够显著，分类器应不予考虑；反之，则代表该片段运动特征显著，分类器应予以考虑；

2.4采样器获得具有显著特征的片段后，分类器分别提取具有显著特征片段是时空特征；分类器使用3D卷积核，用于捕捉视频片段的时序特征和空间特征，最后使用多层感知器进行动作分类。