CN112464835A

CN112464835A - 一种基于时序增强模块的视频人体行为识别方法

Info

Publication number: CN112464835A
Application number: CN202011391904.3A
Authority: CN
Inventors: 明少锋; 蔡强; 高翠
Original assignee: Beijing Technology and Business University
Current assignee: Beijing Technology and Business University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-09

Abstract

本发明公开了一种基于时序增强模块的人体行为识别方法，目的是提高人体行为识别的准确度。所述方法包括三个方面：(1)针对输入的视频片段进行稀疏采样，以及对提取到的特征进行保留时序信息的池化下采样；(2)构建时序增强模块，对时空特征进行提取激活，同时对时序信息进行增强和交互处理；(3)构建分类器得到行为识别结果。本发明在模型训练的过程中进行时序信息增强和交互处理，增强了视频帧之间的时序信息，为模型的训练提供了丰富的语义信息，增强了模型的鲁棒性和健壮性，由此可以提高人体行为识别的准确度。

Description

一种基于时序增强模块的视频人体行为识别方法

技术领域

本发明涉及计算机视觉领域，特别地涉及视频人体行为识别领域，具体是设计一种基于时序增强模块的视频人体行为识别方法。

背景技术

当前，社会处于一个大数据与云计算并行的时代，随着抖音、快手、火山小视频等视频社交软件的出现，互联网上的信息不再局限于文字和图像，视频信息也层出不穷。挖掘视频信息中的联系、对视频信息进行有效的监控，是当代社会一个不可避免的问题。

视频人体行为识别的目的是使用计算机对视频序列进行分析，自动识别出视频中的人体做了何种行为动作。其按照提取时空特征的方式可以分为双流网络和3D卷积网络。当前，视频人体行为识别技术在深度学习的背景下，取得了快速的发展。但是，在智能监控、人机交互、虚拟现实以及视频理解等领域对视频人体行为识别的应用，还存在很多的挑战。因此，本发明提出了一种基于时序增强模块的视频人体行为识别方法。

相较于图像来说，视频的一个关键元素是时序信息，人们普遍认为图像内容在视频相邻帧之间变化缓慢，尤其是在高级语义上。因此，视频相邻帧中物体的位置和外观在时间上应该是一致的，即人体姿态在视频相邻帧中不应该随着时间发生剧烈的变化，然而人体行为动作种类的划分十分依赖于人体特征在时序信息上的表达。由此可见，直接将未经处理的视频片段直接用于人体行为识别网络进行分类识别得不到较好的识别效果。所以要做好视频人体行为识别就要充分利用视频中包含的时序信息。

目前，视频人体行为识别主要的技术主要有以下几类：

(1)基于双流网络的人体行为识别方法。双流网络分为时间流卷积神经网络和空间流卷积神经网络两个分支，且两个分支具有相似的网络结构。时间流卷积神经网络先对视频序列中相邻两帧计算光流图像，再对多帧堆叠的光流图像提取时序信息，空间流卷积神经网络则对视频RGB图像提取空间特征。最后将两个网络分别得到的得分进行融合，从而得到最终的分类结果。虽然基于双流网络架构方法的准确率高，但提取时序信息过程复杂，并且分开训练两个网络，耗费计算资源，难以达到实时性的要求。

(2)基于传统3D卷积网络的人体行为识别方法。传统3D卷积网络使用正方体卷积核提取时空特征，对特征进行池化下采样；由于视频相邻帧包含时序信息和空间信息的比例不同，这种方法对时序信息和空间信息进行了等比例的采样，容易导致关键的时序信息丢失，从而降低了人体行为识别的准确率。

基于以上分析可得，当前视频人体行为识别遇到的问题是不能简单有效地提取和利用视频序列中的时序信息。而时序增强模块是一种基于深度学习的模板方法，通过利用不同的卷积核分别对时间、空间、特征维度和通道特征做相应的卷积特征提取，同时时序模块在对时空特征进行网络训练时，只在空间维度上进行特征池化下采样，在时间维度上不进行特征池化下采样，进而可以保留关键的时序信息；最后将各个通道上的时序信息进行交互，进一步增强时序信息的表达。由以上描述可得，时序增强模块提取时空特征的过程相对简单，不仅可以降低计算资源消耗，而且还可以有效地保留时序信息，提升时序信息在时空特征里的权重比例。

针对上述问题，构建一个能充分利用视频中时序信息的端到端网络，是解决视频人体行为识别问题的关键。由时序增强模块的特征提取过程可以发现，基于时序增强模块的方法在时序特征提取和保留方面有很大的优势。此外，我们还会在运用时序增强模块进行时序特征增强之前，通过对视频片段进行关键帧的稀疏采样预处理，以降低视频中冗余信息带来的计算量。根据现有了解，还没有任何机构或组织构建一个可以增强时序信息的表达以及对特征进行近邻通道交互的时序增强模块来提取时空特征，并将其传入一个端到端网络中进行训练。

发明内容

针对现有视频人体行为识别技术不能充分利用视频中时序信息的缺陷，本发明提出了一种基于时序增强模块的视频人体行为识别方法，算法中利用不同的卷积核分别对时间、空间、特征维度和通道特征做相应的卷积，接着将其卷积核组合成时序增强模块来进行时空特征提取，同时在网络训练过程中不对时间维度进行特征下采样，从而更好地利用视频中的时序信息进行人体行为识别。

本发明的技术方案如下：

一种基于时序信息的视频人体行为识别方法，包括以下步骤：

步骤(1)本发明使用了佛罗里达大学发布的人体行为动作基准数据集UCF-101作为实验用的数据集，该数据集包含了101种行为动作和13320个视频片段。

步骤(2)对长度为T帧的视频片段进行时间步幅为t的稀疏采样，设置T∶t的比例为8∶1，得到视频序列frames。

步骤(3)构建保留时序信息的池化层Pool₁，接着在frames上滑动一个以T×S²为卷积核的卷积网络得到时空特征features_1，并将features_1输入到池化层Pool₁中，得到时空特征features_2。

步骤(4)采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block。Temporal_Block包含5层卷积层，分别为时间卷积层、空间卷积层、维度调整卷积层、跳跃连接卷积层和通道交互卷积层。将步骤(3)中的features_2输入到16组Temporal_Block中进行特征提取激活，同时对时序信息进行增强处理，以及不对时序信息进行特征下采样，得到富含时序信息的时空特征features_3。

步骤(5)对步骤(4)中时空特征features_3进行平均池化采样以及dropout处理，得到特征features_4。

步骤(6)将features_4输入到一个长度为N维的全连接层，得到行为预测结果，其中N为需要识别的行为动作种类个数。

本发明与现有的技术相比优点在于：通过上述步骤，基于时序增强模块的人体行为识别方法在端到端网络的训练过程中增强了时序信息的表达，同时保留了时序信息的真实性，为人体行为识别提供了丰富的语义信息，有利于模型对人体行为动作进行准确的分类；而且时序增强模块的方法相较于双流网络中的光流图像提取简单，速度快且可操作性强；相较于传统3D卷积网络保留了更多关键帧的时序信息，保证了视频人体行为分类的准确性。

附图说明

图1是本发明方法流程图；

图2是本发明提到保留时序特征的池化示意图；

图3是本发明提到的时序增强模块结构图；

图4是本发明提到的通道特征交互示意图；

图5是本发明的网络架构图；

具体实施方式

下面结合附图和具体实施方式对本发明进行描述。

如图1所示，本发明是一种基于时序增强模块的视频人体行为识别算法，通过构建时序增强模块对视频帧进行时空特征提取，并在端到端网络的训练过程中对时序特征信息进行了增强和交互处理，提高了视频中时序信息的利用率；同时相对于现有的视频人体行为识别技术来说，也降低了模型的复杂度。

实施例1：

(1)本发明使用了佛罗里达大学在2012年发布的UCF-101动作识别基准数据集，UCF-101数据集有101个动作类别，共13320个视频，在动作方面具有最大的多样性，并且在摄像机运动、物体外观及姿势、物体比例、杂乱的背景和照明条件等方面存在很大差异，可以进行广泛的研究。同时，该数据集按照8∶1∶1的比例进行划分训练集、验证集和测试集，其中训练集有10656段视频，验证集有1332段视频，测试集有1332段视频。本发明中的方法不仅适用于对该数据集包含的101种行为动作的识别分类，也可以扩展到其他类别的视频人体行为动作识别，例如人与人交互或人与物交互等行为动作。

(2)由(1)中的数据集，可得视频片段，将长度为T帧的视频片段以时间步幅t进行稀疏采样得到视频帧序列；其中T表示输入视频片段总帧数，t表示沿着时间轴方向，每间隔t帧视频图像进行采样一次。对于视频帧之间的采样比例T∶t，取值过小，会导致计算资源耗费过大；取值过大，又会导致丢失某些关键帧的时序信息；因此，采样比例T∶t的设定还要根据具体的实验进行具体分析。通过实验，本发明设置T∶t的值为8∶1。在本发明中采用计算机机器学习库pytorch中的torch.io._read_video_from_memory()进行稀疏采样，得到该视频帧序列表示为frames。

(3)对时空特征进行预处理。在本发明中采用卷积层和池化层作为特征采样网络feature_net，具体是在frames上滑动一个卷积核尺寸为1×7²的卷积网络来提取时空特征信息，再将提取到的时空特征进行空间维度上的特征池化下采样，对时间维度上的特征进行保留处理，得到特征feature_2。特征池化过程如图2所示，图2中左侧柱体为提取到的时空特征，右侧为经过池化后保留时序信息的时空特征，对比池化前后的特征可以发现，该池化方法有效地保留了时序特征信息，可以帮助模型更好地预测行为动作的种类。feature_net的网络结构如表1所示。

表1是本发明涉及到的feature_net网络结构信息表

(4)对时空特征进行时序信息增强处理。在本发明中采用残差网络(ResNet)中的残差思想来设计时序增强模块Temporal_Block，每个Temporal_Block中包含5层卷积层，共16组Temporal_Block。Temporal_Block的结构如图3所示，用{T×S²，C}代表卷积核，其中T是卷积核在时间维度上的滑动尺寸，S是卷积核在空间维度上的滑动尺寸，C是输出的通道维数，BN是批处理层，RELU是激活函数；在Temporal_Block中，时间卷积层、空间卷积层、维度调整卷积层、跳跃连接卷积层和通道交互卷积层的卷积核尺寸分别为{3×1²，64}、{1×3²，64}、{1×1²，256}、{1×1²，256}、{1×1²，256}。时间卷积层在时空特征上滑动一个{3×1²，64}的卷积核，步长为{1×2²}，即在时间维度上滑动的范围为3，滑动步长为1，可以频繁地提取时间特征，而在空间维度上滑动的范围为1，滑动步长为2，这样有利于减少空间上的冗余信息；空间卷积层的卷积核尺寸为{1×3²，64}，滑动步长依然为{1×2²}，则对空间特征进行提取激活时，可以保留特征的时序信息；维度调整卷积层则是使用{1×1²，256}卷积核对特征进行升维处理，将64维调整为256维，有利于将特征传到后续的Temporal_Block结构中进行训练，增强了特征的传播；同时跳跃连接卷积层使用{1×1²，256}卷积核来进行残差连接，借助模型的反向传播机制修正网络参数，对模型进行调优操作；通道交互卷积层使通道特征通过1×1×1卷积与其近邻k个通道特征进行卷积交互，对于通道特征的交互范围k，取值过小，会导致特征间的联系信息减弱；取值过大，又会导致冗余信息过多，因此，交互范围k值还需要根据具体的实验进行具体分析。通过实验，本发明设置k的值为5，交互卷积层的交互示意图如图4所示。图4中左侧的柱体f₁是没有进行通道交互的时空特征，中间的圆形代表一个通道特征，图4呈现的是每5个通道特征用1×1×1卷积生成一个交互后的通道特征的过程，通道交互后的时空特征如图4中右侧的柱体f₂所示。

最后将步骤(2)中的feature_2传入16组Temporal_Block中进行特征提取激活，得到特征feature_3；在Temporal_Network网络训练过程中，增强了视频帧之间的时序信息，为模型的训练提供了丰富的语义信息，同时也增强了模型的鲁棒性和健壮性。16组Temporal_Network网络结构信息如表2所示。

表2是本发明涉及到的16组Temporal_Block网络结构信息表

(5)对feature_3进行尺寸为{4×7²}的平均池化，进一步去除冗余信息的干扰，降低计算量，以及对feature_3进行dropout处理，得到特征feature_4；其中dropout的值设为0.5，防止模型过拟合，增强模型的健壮性。

(6)采取全连接层来构建行为识别分类器，全连接层输出长度为N维，其中N是行为识别的种类个数，将feature_4输入全连接层，得到行为识别预测结果。

本发明整体的网络架构如图4所示，图中的时序增强模块即为本发明的创新，首先从视频片段中进行稀疏采样获取视频序列，接着对视频序列进行特征提取和池化，减少冗余信息的干扰；然后将提取到的特征传入到时序增强模块中进行特征提取和时序信息增强与交互处理；接着将特征再次进行池化处理，减少计算量；最后将特征输入到全连接层得到行为识别结果。和基于双流网络的人体行为识别方法相比，该框架不用预先提取光流图像，特征提取过程相对简单；与基于传统3D网络的人体行为识别方法相比，该框架在网络训练过程中，增强了视频帧之间的时序信息，为模型训练提供了丰富的语义信息，增强了模型的鲁棒性和健壮性。

应当理解的是，对本领域的普通技术人员来说，可以根据上述说明加以改进或变换，而所有的这些改进和变换都应该属于本发明所附权利要求的保护范围。

Claims

1.一种基于时序增强模块的视频人体行为识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于时序增强模块的视频人体行为识别方法，其特征在于：所述步骤(2)中，设置视频稀疏采样参数T∶t的比例为8∶1，得到的视频序列既保留了目标的运动信息，同时也在一定程度上减少网络的计算量。

3.根据权利要求1所述的一种基于时序模块的视频人体行为识别方法，其特征在于：所述步骤(3)中，保留时序信息的池化层Pool₁的构造如下，池化层的尺寸和步长分别表示为{T_size，S_size²}，{T_stride，S_stride²}，其中T_size，S_size分别代表池化层在时间维度和空间维度上的采样范围，T_stride，S_stride分别代表在时间维度和空间维度上的窗口滑动步幅；Pool₁采用最大池化，设置{T_size，S_size²}和{T_stride，S_stride²}分别为{1，S_size²}，{1，S_stride²}，表示在时间维度上不进行池化下采样，有利于保留帧与帧之间的时序信息。

4.根据权利要求1所述的一种基于时序增强模块的视频人体行为识别方法，其特征在于：所述步骤(4)中，时序增强模块Temporal_Block的具体构造如下：对于尺寸为{T，S²}的卷积核，其中T、S分别代表卷积核在时间维度上的尺寸和在空间维度上的尺寸；卷积核的步长表示为{T_stride_1，S_stride_1²}，其中T_stride_1、S_stride_1分别代表卷积核在时间维度和空间维度上滑动窗口的步幅。在Temporal_Block中，时间卷积层的卷积尺寸设置为{3×1²}，步幅设置为{1，S_stride_1²}，有利于密集地提取相邻帧的时序信息；空间卷积层的卷积尺寸设置为{1×3²}，步幅设置为{1，S_stride_1²}，有利于在进行空间特征提取时保留时序信息；维度调整卷积层的卷积尺寸设置为{1×1²}，步幅设置为{1，1²}，借助1×1×1卷积核可以保留信息的特性，将特征维度个数C₁调整为C₂，有利传入下一个Temporal_Block中进行训练，增强特征的传播；跳跃连接卷积层的卷积尺寸设置为{1×1²}，步幅设置为{1，1²}，借助模型的残差连接机制修正网络参数，对模型进行调优操作；通道交互卷积层的卷积尺寸设置为{1×1²}，步幅设置为{1，1²}，通道交互卷积层将通道特征与其近邻k个通道特征进行1×1×1卷积交互，每一个特征y_i对应的权重w_i为

其中，σ是激活函数，k是其近邻通道的个数，

代表y_i的k个近邻通道特征的集合，α^j为一个{1×1²}卷积核。