CN112699786B

CN112699786B - 一种基于空间增强模块的视频行为识别方法及系统

Info

Publication number: CN112699786B
Application number: CN202011603129.3A
Authority: CN
Inventors: 胡永健; 蔡德利; 刘琲贝; 王宇飞
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-03-29
Anticipated expiration: 2040-12-29
Also published as: CN112699786A

Abstract

本发明公开了一种基于空间增强模块的视频行为识别方法及系统，该方法包括下述步骤：将待测视频解码为帧序列，将解码所得帧序列以图像的形式存储；采取稀疏采样的采样策略，将视频分成多个视频片段，从每个视频片段中抽取一帧，组合而成堆叠的帧序列；计算行为识别数据集中所有的训练视频帧的三个通道的均值，将所采样的帧图像减去所计算出来的均值；用残差神经网络3D‑ResNet‑18为骨干网络，空间增强模块构建行为识别分类网络；设置训练参数，将训练集输入行为识别分类网络进行训练，保存训练后网络参数；在模型部署阶段，融合空间增强模块的线性运算符；待测视频输入到行为识别分类网络，输出最终的分类结果。本发明提升了行为识别效果，兼具有效性与通用性。

Description

一种基于空间增强模块的视频行为识别方法及系统

技术领域

本发明涉及计算机视觉的视频行为识别技术领域，具体涉及一种基于空间增强模块的视频行为识别方法及系统。

背景技术

对人体的行为识别一直都是计算机视觉领域中的一项重点研究问题。通过对人体的体态、行为的研究，可以检测出现在公共场合的异常行为，如：快速奔跑，摔倒，打人等。将深度学习理论应用于计算机视觉应用中，可以设计出高精度、高效率的行为识别算法。一个实用性高的行为识别算法为公共安全起到了一份重要的保障，也使得计算机能够自动完成对人体的异常行为检测，节省了管理人员手动查找的时间。视频行为识别的目的就是要识别出一段视频中某个目标的所做动作的具体类别，这在智能安防领域中有非常广泛的应用场景。利用计算机视觉技术进行视频内容的智能分析是当下一种可行的解决方法，值得深入研究。当前主流的基于深度学习的行为识别算法之一是基于3D卷积的行为识别算法。3D卷积可联合学习视频行为的时空特征，在时序性较强的行为数据集上的分类精度显著性的高于2D卷积。然而其对时空特征的联合学习导致了单独对于空间特征的提取能力较2D卷积有很明显的衰减，故在空间特征较强、时序性较弱的数据集上的分类精度弱于2D卷积。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于空间增强模块的视频行为识别方法及系统，本发明在充分考虑视频动作的帧间关联性的基础上，深入挖掘其静态空间特征，具体地说，空间增强模块在其内部利用2D卷积所提取的空间特征来对3D卷积所提取的时空联合特征进行叠加，实现空间增强，从而提升行为识别的准确率；空间特征描述视频中行为及其目标的外观、纹理、穿着，而时空特征主要描述行为在前后帧间的时序性与关联性，若仅考虑时空特征，而忽略其空间特征，在外观较为复杂的行为而帧间关联性较弱的行为上，往往会导致较高的误识别率。因此，本发明通过采用空间增强模块，单独的对行为空间特征进行提取并增强，从而实现行为分类，提升了行为识别效果，兼具有效性与通用性。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于空间增强模块的视频行为识别方法，包括下述步骤：

视频解码：将待测视频解码为帧序列，将解码所得帧序列以图像的形式存储，用于训练及测试；

稀疏采样：采取稀疏采样的采样策略，将视频分成多个视频片段，从每个视频片段中抽取一帧，组合而成堆叠的帧序列，输入神经网络以捕获长时间动作信息；

数据预处理：计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值，将所采样的帧图像减去所计算出来的均值，并进行归一化处理，对帧图像进行区域裁剪，用于适应神经网络的输入分辨率；

基于空间增强模块构建神经网络：采用残差神经网络3D-ResNet-18为骨干网络，采用空间增强模块构建行为识别分类网络，增强视频中复杂行为的外观及边缘特征；

设置训练参数，将训练数据集的视频输入行为识别分类网络进行训练，保存训练后的网络参数；

模型部署及模型融合：在模型部署阶段，将空间增强模块内部的线性运算符进行融合；

待测视频输入到行为识别分类网络，输出最终的分类结果。

作为优选的技术方案，所述采取稀疏采样的采样策略，具体步骤包括：

将一段视频的所有帧平均分成长度相等的N段，以每一段的起始帧为起点，选取偏移量，从各视频段中相应偏移量的位置抽取一帧，组成时间维度为N的帧序列。

作为优选的技术方案，所述数据预处理具体步骤包括：

在训练阶段，对原始帧进行随机拉伸后，并缩放至320×240或240×320分辨率，再随机裁剪出224×224的图像块作为输入；在测试阶段，采取中心裁剪的方式裁剪出224×224的图像块作为输入。

作为优选的技术方案，所述采用空间增强模块构建行为识别分类网络，具体包括：

采用残差神经网络3D-ResNet-18为骨干网络，使用空间增强模块替换3D-ResNet-18中的所有3D卷积核，搭建行为识别分类网络，所述空间增强模块采用双支路形式，一条支路为3D卷积运算，提取时空联合特征，一条支路为2D卷积运算，提取纯空间特征，在行为识别分类网络的最后采用全连接层对所提取的特征值实行分类。

作为优选的技术方案，所述空间增强模块采用双支路形式，一条支路为3D卷积运算，提取时空联合特征，一条支路为2D卷积运算，提取纯空间特征，对3D卷积和2D卷积的输出特征图进行逐元素相加，再送入BN层执行批量归一化操作。

作为优选的技术方案，所述空间增强模块采用双支路形式，一条支路为3D卷积运算，提取时空联合特征，一条支路为2D卷积运算，提取纯空间特征，分别对3D卷积和2D卷积的输出特征图执行批量归一化操作，再进行逐元素相加，实现时空联合特征与纯空间特征的叠加。

作为优选的技术方案，所述空间增强模块的算子表示为：

Y＝f(X_in*W_3D+X_in*W_2D)

其中，X_in表示输入到空间增强模块的特征图，W_3D表示3D卷积的权值，W_2D表示2D卷积的权值，“*”表示卷积运算。

作为优选的技术方案，所述在模型部署阶段，将空间增强模块内部的线性运算符进行融合，具体步骤包括：

所述空间增强模块的内部算子包括卷积、BN、元素相加以及ReLU；

通过线性融合的方式将其内部线性算子合并成为一个单一的3D卷积。

作为优选的技术方案，所述输出最终的特征图，表示为：

M_3D＝X_in*W_3D

M_2D＝X_in*W_2D

其中，所有的粗体变量均表示特征图张量，细体变量表示标量，“*”表示卷积运算，“·”表示标量与张量的数乘运算，X_in表示输入空间增强模块的特征图，W_3D和W_2D表示3D卷积和2D卷积的权值，γ、β、μ、σ²分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差，Y_out表示空间增强模块最终的输出特征图。

本发明还提供一种基于空间增强模块的视频行为识别系统，包括：视频解码模块、稀疏采样模块、数据预处理模块、行为识别分类网络构建模块、网络训练模块、融合模块和输出模块；

所述视频解码模块用于将待测视频解码为帧序列，将解码所得帧序列以图像的形式存储，用于训练及测试；

所述稀疏采样模块用于采取稀疏采样的采样策略，将视频分成多个视频片段，从每个视频片段中抽取一帧，组合而成堆叠的帧序列，输入神经网络以捕获长时间动作信息；

所述数据预处理模块用于计算行为识别数据集中所有的训练视频帧的R、G、B三个通道的均值，将所采样的帧图像减去所计算出来的均值，并进行归一化处理，对帧图像进行区域裁剪，用于适应神经网络的输入分辨率；

所述行为识别分类网络构建模块用于采用残差神经网络3D-ResNet-18为骨干网络，采用空间增强模块构建行为识别分类网络，增强视频中复杂行为的外观及边缘特征；

所述网络训练模块用于设置训练参数，将训练数据集的视频输入行为识别分类网络进行训练，保存训练后的网络参数；

所述融合模块用于在模型部署阶段，将空间增强模块内部的线性运算符进行融合；

所述输出模块用于将待测视频输入到行为识别分类网络，输出最终的分类结果。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明所设计的空间增强模块充分利用了2D卷积高效的空间特征提取能力，来弥补3D卷积衰减的空间特征提取能力，充分地利用了空间与时间信息，来识别复杂场景中的行为。

(2)本发明的空间增强模块实现了在学习时空特征的同时，增强了其空间特征，可提取到更加全面更加清晰的特征图，可解决视频场景中由于背景环境的复杂性、人体行为的多样性及行为类间差异小而导致的识别准确率不佳的问题。

(3)本发明的空间增强模块包含2D卷积，故其拥有类似于时间分段网络(TSN)的长时间建模能力，大大提高了原始3D卷积网络的长时间建模能力。

(4)本发明的空间增强模块在部署阶段，通过线性融合的方式，以人工的方式，将其内部线性算子合并成为一个单一的3D卷积，由于空间增强模块在融合后，其形式完全与3D卷积相同，故其相比3D卷积不增加额外计算量，并能优化3D卷积的空间特征提取能力，在当前的公开数据集上，空间增强模块的准确率显著地高于3D卷积，亦不涉及复杂运算；在时空联合学习任务如行为识别、目标跟踪中有着重要的实际应用价值，计算简单，通用性强。

(5)本发明所设计的空间增强模块可应用于任何包含3D卷积的计算机视觉任务中去，且易于替换，通用性极高。

附图说明

图1为本实施例基于空间增强模块的视频行为识别方法的流程示意图；

图2(a)为本实施例3D卷积结构示意图；

图2(b)为本实施例空间增强模块(a)结构示意图；

图2(c)为本实施例空间增强模块(b)结构示意图；

图3为本实施例搭建的神经网络中各空间增强模块双支路的均值柱状图；

图4(a)为本实施例3D卷积残差网络示意图；

图4(b)为本实施例采用空间增强模块搭建的残差网络示意图；

图4(c)为本实施例对空间增强模块进行线性融合后的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本实施例采用的数据集是Kinetics-400数据集。Kinetics是一个特大型视频分类数据集，其中的视频均来自于Youtube视频网站，总共包含约23万个训练集视频和约2万个验证集视频，所有视频的时长均为3-10s，分辨率统一为340×256像素或256×340像素；实施例在Linux系统上运行，系统版本为Ubuntu16.04，主要基于Caffe框架来实现，Caffe的依赖库OpenCV版本为3.0，python版本2.7；实验所用显卡为PCI-E Tesla V100，16GB，CUDA版本为9.0.0，cudnn版本为7.1.4。

如图1所示，本实施例提供一种基于空间增强模块的视频行为识别方法，具体步骤包括：

S1：视频解码与稀疏采样：将待测视频解码为帧序列，将解码所得帧序列以图像的形式存储，用于训练及测试；

采取稀疏采样的采样策略，对一个包含特定行为的视频分成相等长度的一系列视频片段，从每个视频片段中抽取一帧，组合而成堆叠的帧序列，输入神经网络以捕获长时间动作信息；

具体为：记一段视频总长度记为num_frames，将一段视频的所有帧平均分成长度相等的N段，即num_segments＝N，本实施例中取N＝8、16，则每一段长度为duration＝num_frames//num_segments；以每一段的起始帧为起点，选取偏移量offset∈[0,duration)，从各视频段中相应偏移量的位置抽取一帧，组成时间维度为N的帧序列；

S2：数据预处理：读取行为识别数据集中所有的训练视频，计算所有训练视频的所有帧的R、G、B三个通道，所有像素值的平均值，生成R_mean，G_mean，B_mean；将帧图像中所有通道的像素值减去对应通道的均值，生成0均值的帧图像矩阵；将所采样的帧图像减去所计算出来的均值后做归一化处理，并对帧图像做区域裁剪以适应神经网络的输入分辨率；

在本实施例中，采用的python版本为2.7，使用opencv-python库中的VideoCapture类读取视频，使用numpy库的mean函数来计算每个通道的均值，以此操作遍历整个数据集的所有视频，从而获取R、G、B三个通道的均值R_mean，G_mean，B_mean。

记三个通道原始图像矩阵分别为I_r(x,y)，I_g(x,y)，I_b(x,y)，减去均值之后获得的图像矩阵为J_r(x,y)，J_g(x,y)，J_b(x,y),具体计算公式如下：

J_r(x,y)＝I_r(x,y)-R_mean

J_g(x,y)＝I_g(x,y)-G_mean

J_b(x,y)＝I_b(x,y)-B_mean

在训练阶段，对原始帧进行随机拉伸后，并缩放至320×240或240×320分辨率，再随机裁剪出224×224的图像块作为输入，以达到数据增强、降低过拟合可能性的目的；在测试阶段，采取中心裁剪的方式裁剪出224×224的图像块作为输入；

S3：基于空间增强模块设计神经网络：以残差神经网络3D-ResNet-18为骨干网络，基于空间增强模块设计行为识别分类网络，用以增强视频中复杂行为的外观及边缘特征；

关于本发明所提出的空间增强模块(Spatial Enhanced Module，以下简称SEM)，含有2种备选结构，如图2(a)、图2(b)和图2(c)所示，分别为原始3D卷积与2种空间增强模块结构图；

本实施例2种SEM的主体结构均为双支路形式，一条支路为3D卷积运算，提取时空联合特征，一条支路为2D卷积运算，提取纯空间特征；区别在于，SEM(a)首先对3D卷积和2D卷积的输出特征图进行逐元素相加，再送入BN层执行批量归一化操作，而SEM(b)是分别对3D卷积和2D卷积的输出特征图执行批量归一化操作，再进行逐元素相加，以实现时空联合特征与纯空间特征的叠加；本实施例分别采用这两种空间增强模块来替换3D-ResNet-18的原始3D卷积，得到两个网络，以搭建行为识别分类网络，在网络的最后采用全连接层对所提取的特征值实行分类。

在本实施例中，空间增强模型算子可表示为：Y＝f(X_in*W_3D+X_in*W_2D)，其中X_in表示输入到空间增强模块的特征图；W_3D表示3D卷积的权值，W_2D表示2D卷积的权值，“*”表示卷积运算。

S4：设置训练参数，将训练数据集的视频输入行为识别分类网络进行训练，保存训练后的网络参数；

在本实施例中，在版本为Ubuntu16.04的linux系统上，采用多线程caffe-MPI训练网络，采用4个GPU并行计算，每个GPU的batch size＝16，即实际总批次数量16×4＝64；设置初学习率为0.001，学习率衰减率为0.1，学习率lr(t)具体如下所示：

其中，t表示迭代轮次epoch。

选择交叉熵损失(cross-entropy loss)为目标函数，其计算公式为：

其中N是一个批次中视频的数量，M是类别标签的数量，p_ij表示第i个样本属于第j类的真实概率，q_ij表示第i个样本经过神经网络所得的预测概率；选择Adam作为优化器；将训练数据集的视频送入设计好的神经网络训练，采用随机梯度下降法(SGD)迭代来寻求最优模型参数。

依据上述设定训练所述三个神经网络，其在Kinetics数据集的验证集准确率如下表1所示：

表1空间增强模块不同子结构的准确率对比表

从上述试验结果可见，SEM(a)的准确率几乎与原始3D网络一致，而SEM(b)相比原始3D网络有明显的准确率提升。

为此探究这个现象的原因，本实施例从所训练好的SEM(b)模型中，读取了阶段conv1到res5中，每一个空间增强模块中的3D卷积和2D卷积输出特征图所有像素的平均值，如图3所示，其中，左边深色柱状图表示3D卷积核输出特征图的均值，右边浅色柱状图表示2D卷积核输出特征图的均值，图中的每个百分比表示2D输出均值与3D输出均值的比值。从图3可以看到，SEM(b)中的每个空间增强模块内部，2D输出均值与3D输出均值的比值的百分比均小于1，因此，当2D和3D输出特征图先执行逐元素相加后再执行批量归一化，2D卷积所增强的空间特征将被压缩至一个非常小的数值，经过逐层前向传播之后，浅层2D所贡献的空间特征将被压缩的越来越小，这种现象与梯度消失现象类似。梯度消失是经过逐层反向传播求导后导致梯度值逐渐趋近于0。故本发明最终所采用的空间增强模块为SEM(b)。

S5：模型部署及模型融合：如图4(a)、图4(b)和图4(c)所示，在模型部署阶段，可将空间增强模块内部的线性运算符进行融合，使计算量保持原始3D卷积的水平。

由于在模型部署阶段，部署平台的不确定性，需使得模型的尺寸、计算量、推理速度尽可能达到最优；本实施例的空间增强模块，其内部算子包括卷积、BN、元素相加以及ReLU，其中线性算子为卷积、BN、元素相加；由于包含线性算子，其可通过手工的方式进行算子参数值的线性融合以达到模型融合的目的。

M_3D＝X_in*W_3D

M_2D＝X_in*W_2D

其中，所有的粗体变量均表示特征图张量，细体变量表示标量，“*”表示卷积运算，“·”表示标量与张量的数乘运算。X_in表示输入空间增强模块的特征图，W_3D和W_2D表示3D卷积和2D卷积的权值，γ、β、μ、σ²分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差，Y_out表示空间增强模块最终的输出特征图。

于是，融合的卷积核权重及偏置为：

本实施例的模型融合操作采用的编程语言是python2.7，利用caffe的python接口，读取caffemodel文件，将每一个空间增强模块的3D和2D卷积核参数读取存入numpy数组中，再根据所述融合后的权重W^*及偏置b^*和公式进行空间增强模块的融合,并将融合后的模型使用python接口写入磁盘。另外，在实际操作中，其标准差实为

ξ是为了防止模型中存储的方差为0而导致的分母为0而添加的，ξ取值为0.00005。由上所述，在部署阶段，本实施例可采取模型融合的方式，将空间增强模块融合成原始的3D卷积形式，故可知，在不增加额外计算量的前提下，优化了3D卷积的空间特征建模能力，此实验结果证明了本实施例方法的高效性。

S6：待测视频输入到行为识别分类网络，输出视频行为识别结果。

以上即为本发明提出的一种基于空间增强模块的视频行为识别方法的具体实施方案。此实施方案是在Kinetics数据集上进行验证的，Kinetics数据集的数据具有强空间性与弱时序性的特点。Kinetics数据集的所有视频时长均为3-10s，本实施例使用稀疏采样策略所得的帧序列来表示一个视频，以此作为神经网络的输入，分别在采样帧数为8帧和16帧的情况下进行实验，以验证本发明的有效性。本发明用平均准确率(Average Accuracy)对实验结果进行了评估。在与当前使用3D卷积的单一任务模型的比较中，本发明提出的方法取得了领先的检测精度，具体比较结果如下表2所示：

表2不同方法在Kinetics数据集的准确率(％)

从上述实验结果可见，当采样帧数为8帧和16帧两种情况下，本实施例在Kinetics数据集上的性能均比现有的基于原始3D卷积的方法有明显的提升，此实验结果证明了本实施例方法的有效性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于空间增强模块的视频行为识别方法，其特征在于，包括下述步骤：

所述空间增强模块，表示为：

M_3D＝X_in*W_3D

M_2D＝X_in*W_2D

Y_out＝Y_3D+Y_2D

其中，所有的粗体变量均表示特征图张量，细体变量表示标量，“*”表示卷积运算，“·”表示标量与张量的数乘运算，X_in表示输入空间增强模块的特征图，W_3D和W_2D表示3D卷积和2D卷积的权值，γ、β、μ、σ²分别表示接在3D卷积和2D卷积后面的BN层的缩放、偏置、均值及方差，Y_out表示空间增强模块最终的输出特征图；

待测视频输入到行为识别分类网络，输出最终的分类结果。

2.根据权利要求1所述的基于空间增强模块的视频行为识别方法，其特征在于，所述采取稀疏采样的采样策略，具体步骤包括：

3.根据权利要求1所述的基于空间增强模块的视频行为识别方法，其特征在于，所述数据预处理具体步骤包括：

4.根据权利要求1所述的基于空间增强模块的视频行为识别方法，其特征在于，所述采用空间增强模块构建行为识别分类网络，具体包括：

5.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法，其特征在于，所述空间增强模块采用双支路形式，一条支路为3D卷积运算，提取时空联合特征，一条支路为2D卷积运算，提取纯空间特征，对3D卷积和2D卷积的输出特征图进行逐元素相加，再送入BN层执行批量归一化操作。

6.根据权利要求1或4所述的基于空间增强模块的视频行为识别方法，其特征在于，所述空间增强模块采用双支路形式，一条支路为3D卷积运算，提取时空联合特征，一条支路为2D卷积运算，提取纯空间特征，分别对3D卷积和2D卷积的输出特征图执行批量归一化操作，再进行逐元素相加，实现时空联合特征与纯空间特征的叠加。

7.根据权利要求1所述的基于空间增强模块的视频行为识别方法，其特征在于，所述空间增强模块的算子表示为：

Y＝f(X_in*W_3D+X_in*W_2D)

其中，X_in表示输入到空间增强模块的特征图，“*”表示卷积运算。

8.根据权利要求1所述的基于空间增强模块的视频行为识别方法，其特征在于，所述在模型部署阶段，将空间增强模块内部的线性运算符进行融合，具体步骤包括：

9.一种基于空间增强模块的视频行为识别系统，其特征在于，包括：视频解码模块、稀疏采样模块、数据预处理模块、行为识别分类网络构建模块、网络训练模块、融合模块和输出模块；

所述空间增强模块，表示为：

M_3D＝X_in*W_3D

M_2D＝X_in*W_2D