CN109919011A

CN109919011A - 一种基于多时长信息的动作视频识别方法

Info

Publication number: CN109919011A
Application number: CN201910077685.2A
Authority: CN
Inventors: 宣琦; 李甫宪; 翔云; 徐东伟; 刘毅
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2019-06-21

Abstract

一种基于多时长信息的动作视频识别方法，包括以下步骤：1)将动作视频转换成序列帧图像，以等间隔方式进行采样；2)构建多时长信息特征融合层；3)扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121‑3D，同时将多时长信息特征融合层嵌入到该网络当中；4)将步骤1采样得到的序列图像作为输入数据，对网络进行训练，而后就可以将待识别的动作视频输入到网络当中进行识别分类。本发明通过采用多时长三维卷积神经网络对不同时长特性的动作进行特征学习，使得网络具有更好的鲁棒性，得到较好的分类结果。

Description

一种基于多时长信息的动作视频识别方法

技术领域

本发明涉及深度学习、计算机视觉领域，特别是涉及一种基于多时长信息的动作视频识别方法。

背景技术

在计算机视觉领域中，对于人体动作的识别一直是一个十分活跃的课题，其在运动视频分析、视频检索、智能摄像监控等实际生活场景有着广泛的应用前景。然而，人体动作具有高度复杂性，且视频数据具有不同的尺度大小以及光照强弱等特点，采用传统特征工程建模的方法识别效果不佳，也不具有普遍应用性。近年来，随着视频数据的爆发式增长，以深度学习为代表的机器学习方法逐渐被应用到该领域当中，得益于大规模数据以及高效的计算能力，研究人员提出多种深度神经网络模型对动作视频进行识别，取得了较好的效果。

Du Tran提出了15层的三维卷积神经网络，将视频提取帧图像后，以堆叠图像的方式输入到网络中进行训练，经过8层卷积层和5层池化层的特征提取后输入到两个全连接层得到识别分类结果(Tran,Du,et al.Learning spatiotemporal features with 3dconvolutional networks[C]//International Conference on Computer Vision.IEEE,2015:4489-4497，即基于三维卷积神经网络的时空特征学习)；Karen Simonyan提出一个双通道三维卷积神经网络，该网络接受两种类型的输入数据，分别是从视频中提取的RGB图像以及从视频中获取的多帧光流图像，对应的经过图像空间域卷积和光流图像时域卷积得到特征，将特征融合后输入到全连接层进行分类(Simonyan,Karen,et al.Two-streamconvolutional networks for action recognition in videos[C]//NeuralInformation Processing Systems.2014:568-576，即基于双流卷积神经网络的动作视频分类)；Joao Carreira提出将GoogleNet中的Inception模块扩展成三维卷积，同时将2D图像网络中学习得到的参数辅助初始化三维卷积神经网络，采用逐层递增的空间和时序卷积核以达到良好的分类效果。(Carreira,Joao,et al.Quo vadis,action recognition？anew model and the kinetics dataset[C]//Computer Vision and PatternRecognition.IEEE,2017:4724-4733，即一种用于分类动作视频的新型方法以及kinetics数据集)。

因此，有效的采用视频中的时间序列信息对动作进行识别是一种可行性较强的方法。

发明内容

为了克服现有技术方案无法融合不同时长动作信息的不足，本发明提出一种有效融合多时长信息对动作视频进行识别分类的方法，采用多时长三维卷积神经网络算法进行特征学习，获得的特征有更好的判别性，且具有更好的分类精度。

本发明实现上述发明目的所采用的技术方案为：

一种基于多时长信息的动作视频识别方法，包括以下步骤：

S1：将动作视频转换成序列帧图像，以等间隔方式进行采样；

S2：构建多时长信息特征融合层；

S3：扩展二维卷积神经网络DenseNet121(Huang,Gao,et al.Densely connectedconvolutional networks[C]//Computer Vision and Pattern Recognition.IEEE,2017:2261-2269)至三维卷积神经网络DenseNet121-3D，同时将多时长信息特征融合层嵌入到该网络当中；

S4：将步骤1采样得到的序列图像作为输入数据，对网络进行训练，而后就可以将待识别的动作视频输入到网络当中进行识别分类。

进一步，所述步骤S1中，由于动作视频数据时间长度不同，则原视频所包含的帧图像数量不一致，每一段视频时间长度为T_i，i∈{1，2，...,N}，其中N为训练集中视频数量，计算所有训练集动作视频的平均时间长度：

对于原时间长度大于等于平均值的视频，即T_i 以剪切的方式取至时间后续部分舍弃；对于原时间长度小于平均值的视频即以重复的方式在视频末尾补充原视频开始部分，补充时长为处理后的视频转化成帧图像，每段视频共有张序列图像，其中f为视频的FPS值，以等间隔的方式选取M张图像作为神经网络的输入数据。

再进一步，所述步骤S2中，多时长信息特征融合层由3个并行的卷积操作，1个级联操作，1个平均池化操作所组成；其中，3个卷积操作具有不同的卷积核大小，每个卷积操作互相独立，它们的时间维度均不同，即时间维度d∈{T_1，T₂，...，T_D}，以此来捕捉不同时长(短时长，中时长，长时长)的动态特征；假定多时长信息特征融合层的输入为x_l，将会被该层的不同卷积核进行卷积计算，输出多个中间特征图{S₁，S₂，...，S_K}，其中且均不相同。这些中间特征图被级联成一个特征张量[S₁，S₂，...，S_K]后输入到三维池化层进行特征融合操作，输出特征图x′_l。

所述步骤S3中，扩展的DensenNet121-3D共有121层不同的计算操作，其中包含三维卷积操作，三维平均池化等操作，对于三维卷积操作，具体公式如下：

其中x^l+1代表第l层的输出数据，(t，i，j)分别是时间、宽、高三个维度的位置，(K_T，K_W，K_H)分别是第l层的卷积核在时间、宽、高三个维度的大小，表示第l层中第K个特征图的卷积核权重，表示第l层中第K个特征图在(t，i，j)位置的值，b^K为第K个特征图的偏置向量；对于三维平均池化操作，公式如下：

其中代表第l+1层第K个特征图在位置(t，i，j)的值，t′∈[2t-1，2t+1]，i′∈[2i-1，2i+1]，j′∈[2j-1，2j+1]；

最后是一个全连接层，其神经元个数为k，其中k表示待训练数据里的类别数，后紧接一个Softmax分类器得到动作视频所属每一个类别的概率分布，概率计算公式如下：

其中，p_i为模型预测物体属于第i类的概率，z_i为最后一层全连接层第i个神经元的输出。

所述步骤S4中，网络训练的损失函数L_total由交叉熵损失函数L_cross和L₂正则化项组成，如下所示：

L_total＝L_cross+L₂

其中，n是每批次训练样本数量，l是训练类别数，y⁽ⁱ⁾和分别表示真实标签以及预测标签概率分布。Ind为指示函数，公式如下：

在正则化项L₂中，λ是参数正则化的权重参数，w为模型的所有卷积核参数，m为参数的总数量。将步骤1中所得到的M张图像堆叠成图像体输入到网络中进行训练，在迭代E轮后终止训练。将获得的模型参数作为我们的最终模型，进行待识别动作视频的分类。

与现有的技术相比，本发明的有益效果是：采用多时长三维卷积神经网络算法对不同时长的动作图像进行特征融合学习，能够同时获取不同时长动作的特征，有助于获得具有更好判别性的特征，且具有更好的分类精度。

附图说明

图1为基于多时长信息的动作视频识别方法流程图；

图2为多时长特征融合层示意图；

图3为多时长三维卷积神经网络模型框架图；

图4为不同神经网络结果对比示意图。

具体实施方式

下面结合说明书附图对本发明做进一步说明。

参照图1～图4，一种基于多时长信息的动作视频识别方法，本发明使用HMDB51公开数据集来评估所提出的方法。HMDB51数据集共有6766个动作视频片段，51种不同类别的动作，其中每一个动作类别至少包含101个片段，这些片段主要取自Youtube视频网站。具体数量如下表1所示。

类别	数量	类别	数量	类别	数量
						brush hair	108	hit	127	shoot ball	131
cartwheel	108	hug	118	shoot bow	112
						catch	102	jump	151	shoot gun	103
chew	109	kick	130	sit	142
						clap	130	kick ball	128	situp	105
climb	108	kiss	102	smile	102
						climb stairs	112	laugh	128	smoke	109
dive	127	pick	106	somersault	140
						draw sword	103	pour	106	stand	154
dribble	145	pullup	104	swing base	143
						drink	165	punch	126	sword	127
eat	108	push	116	exercise	127
						fall floor	136	pushup	103	talk	120
fencing	116	ride bike	103	throw	102
						flic flac	107	ride horse	116	turn	240
golf	105	run	232	walk	548
						handstand	114	shake hands	162	wave	104

表1

本发明包括以下步骤：

S2：构建多时长信息特征融合层；

S3：扩展二维卷积神经网络DenseNet121至三维卷积神经网络DenseNet121-3D，同时将多时长信息特征融合层嵌入到该网络当中；

进一步，所述步骤S1中，由于动作视频数据时间长度不同，则原视频所包含的帧图像数量不一致，每一段视频时间长度为T_i，i∈{1，2，...，N}，其中N为训练集中视频数量。计算所有训练集动作视频的平均时间长度：

对于原时间长度大于等于平均值的视频，即T_i 以剪切的方式取至时间后续部分舍弃；对于原时间长度小于平均值的视频，即以重复的方式在视频末尾补充原视频开始部分，补充时长为将处理后的视频转化成帧图像，每段视频共有张序列图像，其中f为视频的FPS值为30，以等间隔的方式选取M＝16张图像作为神经网络的输入数据。

再进一步，所述步骤S2中，如图2所示，多时长信息特征融合层由3个并行的卷积操作，1个级联操作，1个平均池化操作所组成，其中，3个卷积操作具有不同的卷积核大小，每个卷积操作互相独立，它们的时间维度均不同，即时间维度d∈{T₁，T₂，...，T_D}，具体分别为1*1*T₁、3*3*T₂、3*3*T₃，以此来捕捉不同时长(短时长，中时长，长时长)的动态特征，假定多时长信息特征融合层的输入为x_l，将会被该层的不同卷积核进行卷积计算，输出多个中间特征图{S₁，S₂，...，S_K}，其中且均不相同，这些中间特征图被级联成一个特征张量[S₁，S₂，...，S_K]后输入到三维池化层进行特征融合操作，输出特征图x′_l。

所述步骤S3中，如图3所示为扩展的DensenNet121-3D示意图，其中共有121层不同的计算操作，其中包含三维卷积操作，三维平均池化等操作，对于三维卷积操作，公式如下：

其中x^l+1代表第l层的输出数据，(t，i，j)分别是时间、宽、高三个维度的位置，(K_T，K_W，K_H)分别是第l层的卷积核在时间、宽、高三个维度的大小，表示第l层中第K个特征图的卷积核权重，表示第l层中第K个特征图在(t，i，j)位置的值，b^K为第K个特征图的偏置向量，对于三维平均池化操作，公式如下：

L_total＝L_cross+L₂

其中，n是每批次训练样本数量，l是训练类别数，y⁽ⁱ⁾和分别表示真实标签以及预测标签概率分布，Ind为指示函数，公式如下：

在正则化项L₂中，λ是参数正则化的权重参数，设定为0.0005。w为模型的所有卷积核参数，用标准偏差为0.05的零均值高斯分布初始化。m为参数的总数量。将步骤1中所得到的16张图像堆叠成图像体输入到网络中进行训练，在迭代E＝20轮后终止训练。将获得的模型参数作为我们的最终模型，进行待识别动作视频的分类，在HMDB51数据集上的分类结果如图4所示。

如上所述为本发明基于多时长信息的动作视频识别方法实施例介绍，本发明通过采用多时长三维卷积神经网络对不同时长特性的动作进行特征学习，使得网络具有更好的鲁棒性，得到较好的分类结果。对发明而言仅仅是说明性的，而非限制性的。

本专业技术人员理解，在发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种基于多时长信息的动作视频识别方法，其特征在于，所述方法包括以下步骤：

S2：构建多时长信息特征融合层；

2.如权利要求1所述的一种基于多时长信息的动作视频识别方法，其特征在于：所述步骤S1中，由于动作视频数据时间长度不同，则原视频所包含的帧图像数量不一致，每一段视频时间长度为T_i，i∈{1，2，...，N}，其中N为训练集中视频数量，计算所有训练集动作视频的平均时间长度：

对于原时间长度大于等于平均值的视频，即以剪切的方式取至时间后续部分舍弃；对于原时间长度小于平均值的视频，即以重复的方式在视频末尾补充原视频开始部分，补充时长为将处理后的视频转化成帧图像，每段视频共有张序列图像，其中f为视频的FPS值，以等间隔的方式选取M张图像作为神经网络的输入数据。

3.如权利要求1或2所述的一种基于多时长信息的动作视频识别方法，其特征在于：所述步骤S2中，多时长信息特征融合层由3个并行的卷积操作，1个级联操作，1个平均池化操作所组成，其中，3个卷积操作具有不同的卷积核大小，每个卷积操作互相独立，它们的时间维度均不同，即时间维度d∈{T₁，T₂，...，T_D}，以此来捕捉不同时长的动态特征，假定多时长信息特征融合层的输入为x_l，将会被该层的不同卷积核进行卷积计算，输出多个中间特征图{S₁，S₂，...，S_K}，其中且均不相同，这些中间特征图被级联成一个特征张量[S₁，S₂，...，S_K]后输入到三维池化层进行特征融合操作，输出特征图x′_l。

4.如权利要求3所述的一种基于多时长信息的动作视频识别方法，其特征在于：所述步骤S3中，扩展的DensenNet121-3D共有121层不同的计算操作，其中包含三维卷积操作，三维平均池化操作，对于三维卷积操作，公式如下：

5.如权利要求4所述的一种基于多时长信息的动作视频识别方法，其特征在于：所述步骤S4中，网络训练的损失函数L_total由交叉熵损失函数L_cross和L₂正则化项组成，如下所示：

L_total＝L_cross+L₂

在正则化项L₂中，λ是参数正则化的权重参数，w为模型的所有卷积核参数，m为参数的总数量，将步骤1中所得到的M张图像堆叠成图像体输入到网络中进行训练，在迭代E轮后终止训练，将获得的模型参数作为我们的最终模型，进行待识别动作视频的分类。