CN110084202B

CN110084202B - 一种基于高效三维卷积的视频行为识别方法

Info

Publication number: CN110084202B
Application number: CN201910356716.8A
Authority: CN
Inventors: 李春国; 徐煜耀; 常颖; 赵清玄; 徐琴珍; 杨绿溪
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2023-04-18
Anticipated expiration: 2039-04-29
Also published as: CN110084202A

Abstract

一种基于高效三维卷积的视频行为识别方法，在三维卷积神经网络的基础上，进一步降低了它的运行时间、计算量以及参数量。本发明先对输入视频进行稀疏采样，再利用二维卷积网络处理经过稀疏采样之后的视频帧，得到各个随机采样帧的特征表示，然后利用一个三维卷积网络对这些不同帧的特征进行融合，生成最终的动作分类标签。本发明提出了一种新的三维卷积方式，使网络能在保持甚至超过现有性能的情况下，降低计算量、参数量以及运行时间。本发明在数据集UCF101上进行测试，利用该三维卷积网络结合上述的行为识别流程，使得在UCF101数据集上的准确率达到了92.9%。另一方面，本发明大大降低了三维网络的计算量、参数量以及运行时间，有利于算法实时性的实现。

Description

一种基于高效三维卷积的视频行为识别方法

技术领域

本发明属于计算机视觉与人工智能、多媒体信号处理领域，特别是涉及一种基于高效三维卷积的视频行为识别方法。

背景技术

近年来，视频理解领域飞速发展，特别是行动识别，这主要得益于深入学习和大数据集的创建。新的数据集，如Kinetics、ActivityNet和Something-Something为这一领域贡献了更多的多样性和现实性。行为识别可以分为动作检测与活动理解。动作检测所针对的动作是短时的动作，在短时间内可以决定当前动作的类别，能足够快地实时运行，而活动理解涉及的是可以跨越几秒钟的长期活动，它需要将长期的前后帧视频信息集合起来才能达到预测的精确性。本发明就是综合了上述两个目的。利用稀疏采样、二维特征提取、三维卷积特征融合的方式，可以很好完成活动理解的任务。但当一个动作是短时的，经过上述的稀疏采样之后，得到的可能仅仅是一个静态图片的语义信息。因此，这里通过在3D网络上并联一个2D网络，来改善这个问题。对于短时的行为，这个2D网络结构可以保证这个静态图片语义信息被充分利用。

为了降低计算资源以及时间上的浪费，同时充分利用长时视频中的行为信息，Mohammadreza等人提出了ECO网络。该网络与前面方法的不同主要有以下三点：

1)类似于TSN，该网络从整个视频中采样固定数量的帧，以覆盖用于理解视频的长时时间结构。这样的话，采样的视频帧将包含整个视频且不受限于视频长度。

2)与TSN不同的一点是，该方法使用3D网络来融合帧之间的关系，并在整个视频中跟踪它们。ECO可以实现端到端的训练来完成对这个关系的学习。

3)该网络直接提供视频层面(video-level)的分数，没有上述的事后归因的特征融合。因此，他们的计算资源与时间将大大节省，可以被移植到移动端设备上，实现在线视频理解。

虽然ECO网络有上述的优点，但是由于它采用了传统的C3D网络来融合特征，而C3D网络计算量大、模型大的缺点将会制约该网络实现移动端迁移。因此本发明在C3D网络的基础上提出了一种新的特征融合3D网络，称为移动三维卷积网络(Mobile 3D ConvolutionalNetwork，简称M3D网络)，并在ECO网络结构中用M3D网络作为三维卷积网络来融合特征，提出了一种基于高效三维卷积的视频行为识别网络——Mobile-ECO网络。

发明内容

针对视频行为识别任务中，算法在满足较高识别准确率的同时，还需要能够降低运行时间，减少计算量与参数量，这样利于算法的可移植性。本发明提出了一种基于高效三维卷积的视频行为识别方法，其特征在于：所述的方法包括如下步骤：

(1)将输入的视频进行稀疏采样；

(2)将稀疏采样后的视频帧利用二维卷积网络提取特征，得到相应的特征图；

(3)将二维卷积网络提取的特征利用三维卷积网络进行融合，并得到相应的特征向量；

(4)将二维卷积网络提取的特征分别通过另一个与上述三维卷积网络并联的二维卷积网络，并通过平均池化，得到特征向量；

(5)将上述两者的特征向量连接，得到最终的特征向量，利用这个特征向量进行分类。

作为本发明进一步改进，所述步骤(1)中对输入的视频进行稀疏采样，具体步骤为：

步骤1.1：对于一个输入视频，假设它的总帧长为L，将此视频分成N段等长的子视频段S_i,i＝1,...,N，然后在每一个子视频段S_i中，随机采样一帧，进行后续的处理。

作为本发明进一步改进，所述步骤(2)中将稀疏采样后的视频帧利用二维卷积网络提取特征，得到相应的特征图，具体步骤为：

步骤2.1：将步骤2.1稀疏采样后的视频帧，送入批次归一化Inception网络进行特征提取，得到不同视频帧的特征图，这里取inception-3c层特征，以备后续三维模块特征融合使用。

作为本发明进一步改进，所述步骤(3)中将二维卷积网络提取的特征利用三维卷积网络进行融合，并得到相应的特征向量，具体步骤为：

步骤3.1稀疏采样后的视频帧通过二维卷积网络提取到特征，将不同帧的特征组合成一个输入块，利用新的三维卷积网络Mobile-3D进行特征融合，这里将Pool层的输出作为此步骤的特征向量。

作为本发明进一步改进，所述步骤(4)中将二维卷积网络提取的特征通过另一个与步骤3.1中的三维卷积网络并联的二维卷积网络，并通过平均池化，得到特征向量，具体步骤为：

步骤4.1：将稀疏采样视频帧经过二维卷积网络后提取到的特征图利用另一个二维卷积网络进行特征提取，此二维卷积网络为批次归一化Inception网络中从inception-4a层至inception-5b层的部分，然后将输出的N×1024维特征图通过平均池化为1024维的特征向量，其中N为稀疏采样后的视频帧数。

作为本发明进一步改进，所述步骤(5)中将步骤3.1与步骤4.1中得到的特征向量连接，得到最终的特征向量，利用这个特征向量进行分类，具体步骤为：

步骤5.1：将步骤3.1得到的512维特征向量与步骤4.1得到的1024维向量连接，得到1536维的特征向量；

步骤5.2：将上述的1536维特征向量利用全连接层转化为101维的输出，这里采用101维输出的原因是数据集UCF101的类别数为101，然后利用SoftMax层进行预测；

作为本发明进一步改进，所述UCF101数据集来源为YouTube视频，共计101类动作，13320段视频。共有5个大类的动作包括：人-物交互、肢体运动、人-人交互、弹奏乐器、运动。

作为本发明进一步改进，建立模型的实验平台如下：Ubuntu 14系统，采用GeForceGTX 980显卡，采用Caffe框架来进行网络的训练与测试，使用基于Nesterov动量优化的小批次法来训练，并在每个全连接层中使用Dropout法进行正则化，防止过拟合，将每个视频分割成16片段，并从每个片段中随机选择一个帧，将输入帧的大小调整到240×320，并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强，然后，将输入调整为3×16×224×224，训练时初始学习率设置为0.001，当验证误差饱和4次时，学习率降低10倍，训练网络的动量设置为0.9，权重衰减设置为0.0005，小批次的大小设置为16。

本申请一种基于高效三维卷积的视频行为识别方法，本发明先对输入视频进行稀疏采样，再利用二维卷积网络处理经过稀疏采样之后的视频帧，得到各个随机采样帧的特征表示，然后利用一个三维卷积网络对这些不同帧的特征进行融合，生成最终的动作分类标签。本发明在中佛罗里达大学提出的数据集UCF101上进行测试，利用该三维卷积网络结合上述的行为识别流程，使得在UCF101数据集上的准确率达到了92.9％。另一方面，本发明大大降低了三维网络的计算量、参数量以及运行时间，有利于算法实时性的实现。

附图说明

图1为本申请高效三维卷积的视频行为识别整体流程。

图2为本申请Mobile-3D网络卷积结构。

图3为本申请利用摄像头采集的测试视频结果举例。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提出了一种新的三维卷积方式，使网络能在保持甚至超过现有性能的情况下，降低计算量、参数量以及运行时间。本发明在数据集UCF101上进行测试，利用该三维卷积网络结合上述的行为识别流程，使得在UCF101数据集上的准确率达到了92.9％。另一方面，本发明大大降低了三维网络的计算量、参数量以及运行时间，有利于算法实时性的实现。

一种基于高效三维卷积的视频行为识别方法，整体流程说明书附图1所示，包括如下步骤：

步骤1：将输入的视频进行稀疏采样。

对于一个输入视频，假设它的总帧长为L。将此视频分成N段等长的子视频段S_i,i＝1,...,N。然后在每一个子视频段S_i中，随机采样一帧，进行后续的处理。

步骤2：将步骤1稀疏采样后的视频帧，送入BatchNorm-Inception网络进行特征提取，得到不同视频帧的特征图。这里取inception-3c层特征，以备后续三维模块特征融合使用。

步骤3：将步骤2提取到的特征组合成一个输入块，利用本发明提出的新的三维卷积网络(Mobile-3D)进行特征融合，这里将Pool层的输出作为最后的特征向量。Mobile-3D网络结构见说明书附表1所示。

表1Mobile-3D网络结构

表中的P3Dform的操作层表示的是3×1×1卷积核与1×3×3卷积核级联的结构；M3D_form表示的是利用说明书附图2中的Mobile-3D网络卷积结构，其中如果重复次数大于1时，所列大于一的空间维步长与时间维步长只是针对第一层重复层的，后面的重复层的步长均为1；T_Pool层表示的是对时间维度进行池化，其尺寸为2×1×1；Pool层就是二维空间的池化层，其尺寸为1×4×4；3Dconv表示的是就是一般的三维卷积，其中1×1×1表示的是卷积核的尺寸；FC层表示的是全连接层，它的输出通道k表示的是分类的类别数。

步骤4：将步骤2得到的视频帧特征图利用另一个二维卷积网络进行特征提取，此二维卷积网络为BatchNorm-Inception网络中从inception-4a层至inception-5b层的部分，然后将输出的N×1024维特征图通过平均池化为1024维的特征向量，其中N为稀疏采样后的视频帧数。

步骤5：将步骤3得到的512维特征向量与步骤4得到的1024维向量连接，得到1536维的特征向量。

步骤6：将步骤5得到的1536维特征向量利用全连接层转化为101维的输出，这里采用101维输出的原因是数据集UCF101的类别数为101。然后利用SoftMax层进行预测。在数据集UCF101上的测试结果如表2所示。利用作者采集的视频进行测试的情况如说明书附图3所示。

表2视频行为识别测试结果

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.一种基于高效三维卷积的视频行为识别方法，其特征在于：所述的方法包括如下步骤：

(1)将输入的视频进行稀疏采样；

所述步骤(1)中对输入的视频进行稀疏采样，具体步骤为：

步骤1.1：对于一个输入视频，假设它的总帧长为L，将此视频分成N段等长的子视频段S_i,i＝1,...,N，然后在每一个子视频段S_i中，随机采样一帧，进行后续的处理；

所述步骤(2)中将稀疏采样后的视频帧利用二维卷积网络提取特征，得到相应的特征图，具体步骤为：

步骤2.1：将步骤2.1稀疏采样后的视频帧，送入批次归一化Inception网络进行特征提取，得到不同视频帧的特征图，这里取inception-3c层特征，以备后续三维模块特征融合使用；

所述步骤(3)中将二维卷积网络提取的特征利用三维卷积网络进行融合，并得到相应的特征向量，具体步骤为：

步骤3.1稀疏采样后的视频帧通过二维卷积网络提取到特征，将不同帧的特征组合成一个输入块，利用新的三维卷积网络Mobile-3D进行特征融合，这里将Pool层的输出作为此步骤的特征向量；

所述步骤(4)中将二维卷积网络提取的特征通过另一个与步骤3.1中的三维卷积网络并联的二维卷积网络，并通过平均池化，得到特征向量，具体步骤为：

步骤4.1：将稀疏采样视频帧中的二维卷积网络后提取到的特征图利用另一个二维卷积网络进行特征提取，此二维卷积网络为批次归一化Inception网络中从inception-4a层至inception-5b层的部分，然后将输出的N×1024维特征图通过平均池化为1024维的特征向量，其中N为稀疏采样后的视频帧数；

(5)将上述两者的特征向量连接，得到最终的特征向量，利用这个特征向量进行分类；

所述步骤(5)中将步骤3.1与步骤4.1中得到的特征向量连接，得到最终的特征向量，利用这个特征向量进行分类，具体步骤为：

所述UCF101数据集来源为YouTube视频，共计101类动作，13320段视频，共有5个大类的动作包括：人-物交互、肢体运动、人-人交互、弹奏乐器、运动；

Ubuntu 14系统，采用GeForce GTX 980显卡，采用Caffe框架来进行网络的训练与测试，使用基于Nesterov动量优化的小批次法来训练，并在每个全连接层中使用Dropout法进行正则化，防止过拟合，将每个视频分割成16片段，并从每个片段中随机选择一个帧，将输入帧的大小调整到240×320，并采用固定角裁剪和基于水平翻转的尺度抖动来进行数据增强，然后，将输入调整为3×16×224×224，训练时初始学习率设置为0.001，当验证误差饱和4次时，学习率降低10倍，训练网络的动量设置为0.9，权重衰减设置为0.0005，小批次的大小设置为16。