CN111881794A

CN111881794A - 一种视频行为识别方法及系统

Info

Publication number: CN111881794A
Application number: CN202010698476.2A
Authority: CN
Inventors: 凌贺飞; 陈遥; 黄昌喜
Original assignee: Yuanshen Technology Hangzhou Co Ltd
Current assignee: Yuanshen Technology Hangzhou Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-03
Anticipated expiration: 2040-07-20
Also published as: CN111881794B

Abstract

本发明提供一种视频行为识别方法及系统，其特征在于，包括：基于三维全分离卷积构建轻量级三维卷积神经网络模型；基于时序全局信息对、模型进行优化，以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息；通过预先准备的训练视频帧，基于交叉熵损失的梯度下降法对优化后的模型进行参数优化，得到训练好的轻量级三维卷积神经网络模型；将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，识别视频中运动物体的行为信息。本发明在保证视频行为识别准确率的前提下降低计算负载，不需要依赖卷积的叠加就能够直接建模全局信息，进一步提高准确率。

Description

一种视频行为识别方法及系统

技术领域

本发明属于视频分析和深度学习领域，更具体地，涉及一种视频行为识别方法及系统。

背景技术

近年来，随着多媒体技术的发展和互联网的普及，视频图像等信息资源呈指数型增长，令人目不暇接。在这个信息爆炸的时代，计算机视觉应运而生，在医学图像处理、人机交互、智能机器人、智能安防等领域大放异彩，对视频图像进行智能分析已成为当今社会的迫切需求。在深度卷积神经网络的助力下，图像理解(Image Understanding)取得了显著的成功。值得注意的例子包括用于图像分类(Image Classification)的残差网络、用于对象检测的FastRCNN和用于语义分割的Deeplab。然而，用于视频分析的深度卷积神经网络的发展仍然滞后于图像分析，主要原因就是其额外的计算成本和时空输入的复杂性。

视频的时间维度包含有价值的运动信息，这些信息在视频行为识别任务中起着关键作用。目前一种流行且有效的识别方法就是在深层神经网络中使用时空卷积，也叫3D卷积学习视频特征。3D卷积是2D卷积(空间卷积)的一种扩展，额外增加了一个时间维度，因此可以沿时间轴进行卷积。通过将2D卷积神经网络中的2D卷积直接替换为3D卷积构造3D卷积神经网络，这样获得的模型是端到端可训练的。目前较为先进的视频行为识别模型，如Res3D和I3D都是以这种简单的方式构建3D卷积神经网络，在多个基准数据集上取得了较优的结果，但同时它们都伴随着极高的计算负载。尽管最近的一些方法使用分解的3D卷积或分组卷积降低3D卷积的计算成本，但在实际的大规模应用中使用3D卷积仍然令人望而却步。

另一方面，事实证明，通过分析视频中的长期依赖关系达到对视觉场景的全局理解有利于提高视频识别的准确率。在卷积神经网络中，由于卷积层只对局部相邻像素进行卷积，因此对全局信息的建模主要依靠于卷积层的层层堆叠。然而，过度叠加卷积层会导致计算效率低下以及优化困难的问题，最终造成全局信息建模失败。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于轻量级三维卷积神经网络的视频行为识别方法及系统，旨在解决现有视频识别中简单构建三维卷积神经网络导致计算负载较大，以及过度叠加卷积层会导致计算效率低下以及优化困难的问题。

为实现上述目的，第一方面，本发明提供了一种视频行为识别方法，包括如下步骤：

基于三维全分离卷积构建轻量级三维卷积神经网络模型；

基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化，以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息；

通过预先准备的训练视频帧，基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化，得到训练好的轻量级三维卷积神经网络模型；

将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，识别视频中运动物体的行为信息。

可选地，通过将时序全局信息模块加入轻量级三维卷积神经网络模型，以对模型进行优化；

所述时序全局信息模块的建模分为三个阶段：全局上下文建模、特征转换以及特征聚合；采用公式具体表示为：

其中，x表示时序全局信息模块的输入，y表示时序全局信息模块的输出，

表示全局上下文建模，全局上下文建模采用权重为C_a的加权平均聚合输入特征以获得全局上下文特征，C_c×RELU(LN(C_b×(·)))代表特征转换，特征聚合阶段采用的是广播逐元素加法，C_b表示特征转换中的权重1，C_c表示特征转换中的权重2，x_k表示第k维特征，x_j表示第j维特征，H表示输入特征的高，W表示输入特征的宽。

可选地，所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。

可选地，基于三维全分离卷积构建第一基本单元和第二基本单元，第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同，第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸；将第一基本单元和第二基本单元基于ResNet的框架进行堆叠，得到轻量级三维卷积神经网络模型；

所述第一基本单元和第二基本单元均借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建，以在不增加参数的情况下实现通道之间信息共享。

可选地，将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，包括如下步骤：

对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列；

将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。

第二方面，本发明提供一种视频行为识别系统，包括：

模型确定单元，用于基于三维全分离卷积构建轻量级三维卷积神经网络模型；

模型优化单元，用于基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化，以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息；

模型训练单元，用于通过预先准备的训练视频帧，基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化，得到训练好的轻量级三维卷积神经网络模型；

视频识别单元，用于将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，识别视频中运动物体的行为信息。

可选地，所述模型优化单元通过将时序全局信息模块加入轻量级三维卷积神经网络模型，以对模型进行优化；所述时序全局信息模块的建模分为三个阶段：全局上下文建模、特征转换以及特征聚合；采用公式具体表示为：

可选地，所述模型确定单元基于三维全分离卷积构建第一基本单元和第二基本单元，第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同，第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸；将第一基本单元和第二基本单元基于ResNet的框架进行堆叠，得到轻量级三维卷积神经网络模型；

所述模型确定单元借鉴ShuffleNet v2基于三维深度空间卷积、三维深度时间卷积以及三维逐点卷积构建第一基本单元和第二基本单元，以在不增加参数的情况下实现通道之间信息共享。

可选地，所述视频识别单元对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列；以及将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

本发明提供一种视频行为识别方法及系统，通过创新提出的三维全分离卷积构造三维卷积神经网络，在保证视频行为识别准确率的前提下大量降低计算负载；同时在网络中加入时序全局信息模块，不需要依赖卷积的叠加就能够直接建模全局信息，进一步提高准确率。

附图说明

图1是本发明提供的视频行为识别方法流程图；

图2是本发明提供的3D全分离卷积结构图；

图3是本发明提供的A单元和B单元的结构图；

图4是本发明提供的轻量级三维卷积神经网络结构图；

图5是本发明提供时序全局信息模块的结构图；

图6是本发明提供基于时序全局信息优化的基本单元；

图7是本发明提供基于时序全局信息优化的轻量级三维卷积神经网络结构；

图8是本发明提供的视频行为识别系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于轻量级三维卷积神经网络的视频行为识别方法。本发明所采用的技术方案是创新提出面向视频行为识别的轻量级三维卷积神经网络，并基于时序全局信息对其进行优化，具体如下：

1、数据采集。获取包含人体行为的视频数据。

2、训练数据预处理。对视频的空间位置和时间位置进行裁剪，同时采用多尺度和随机翻转进行增强，最终生成多个相同尺寸的视频序列。

3、构建深度卷积神经网络模型。

在一个实施例中，如图1所示，本发明提供的视频行为识别方法包括如下步骤：

S110，基于三维全分离卷积构建轻量级三维卷积神经网络模型；

S120，基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化，以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息；

S130，通过预先准备的训练视频帧，基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化，得到训练好的轻量级三维卷积神经网络模型；

S140，将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，识别视频中运动物体的行为信息。

在一个更具体的实施例中，本发明是基于3D全分离卷积构建轻量级三维卷积神经网络，并基于时序全局信息对其进行优化，具体说明如下：

1、数据采集。从Kinetics数据集中任意挑选10类构成Kinetics-partA数据集，其中包括5498个训练视频和459个待预测视频。

2、训练数据预处理。通过均匀采样在视频中确定起始帧位置，生成16帧序列。如果总视频短于16帧，则使用现有帧对其进行扩充。接下来，本发明从4个角或中心随机选择一个目标位置进行空间裁剪。

除了空间位置增强，本发明还执行多尺度增强，比例例如为

注意本发明的原视频帧和输入样本的纵横比均为1，比例1表示样本的边长与原视频帧的边长相同，比例0.5表示样本的边长是原视频帧边长的一半，其他比例同理。样本依据位置和尺度进行处理后，调整样本的尺寸为112×112像素，同时以50％的概率对样本进行水平翻转。

最后，本发明还将对样本执行平均减法和归一化操作。每个样本的大小均为(3通道，16帧，112像素，112像素)，所有生成样本的类标签与原视频相同。

3、构建深度卷积神经网络模型。本发明构建基于轻量级三维卷积神经网络的视频行为识别模型，并基于时序全局信息对其优化，具体说明如下：

3.1、面向视频行为识别的轻量级三维卷积神经网络的设计。基于可分离卷积的思想，本发明提出3D全分离卷积，如图2所示，它主要由3D深度空间卷积，3D深度时间卷积和3D逐点卷积构成。借鉴ShuffleNet v2构建模型基本单元A单元和B单元，如图3所示，两个单元均基于3D全分离卷积。A单元的输入和输出的大小相同，B单元用于将通道数量加倍同时将特征图的尺寸减半。通道混合单元是ShuffleNet v2的关键思想，它可以在不增加参数的情况下实现通道之间信息共享的目的。受在许多具有挑战性的图像任务中取得成功的ResNet的启发，本发明将A单元和B单元两个基本单元基于ResNet的框架进行堆叠，得到轻量级三维卷积神经网络模型，模型结构如图4所示。基于3D全分离卷积构建的面向视频行为识别的轻量级三维卷积神经网络，可以在保证行为识别性能的同时，极大降低模型参数量和计算复杂度。

具体地，A单元和B单元为构建轻量级三维卷积神经网络模型的两个基本单元，在构建三维卷积神经网络模型中是经常用到的。本发明相比现有技术，主要是基于3D全分离卷积构建这两个基本单元，可以使得构建出的三维卷积神经网络模型为轻量级，复杂度低。

3.2、基于时序全局信息对3.1中轻量级三维卷积神经网络进行优化。本专利提出时序全局信息建模模块，与3.1中的轻量级三维卷积神经网络结合，达到优化网络的效果。与传统的全局信息建模模块相比，时序全局信息建模模块能够提取到视频在时间维度上具有判别性的信息，即时序信息，对每一帧给予不同的权重，因此它除了构建对场景的全局理解，还能有效定位关键帧。

时序全局信息建模主要分为三个阶段——全局上下文建模，特征变换和特征聚合。时序全局信息模块结构如图5所示，(C×T×H×W)分别表示通道，帧，高以及宽，用公式可以表示为：

其中，

表示全局上下文建模，该模块采用权重为C_a的加权平均聚合输入特征以获得上下文特征，C_c×RELU(LN(C_b×(·)))代表特征转换，特征聚合阶段采用的是广播逐元素加法，y表示全局信息建模模块的输出，x表示全局信息建模模块的输入，C_b表示特征转换中的权重1，C_c表示特征转换中的权重2，x_k表示第k维特征，x_j表示第j维特征，H表示输入特征的高，W表示输入特征的宽。

基于时序全局信息优化后的轻量级三维卷积神经网络的基本单元如图6所示。

最后，基于时序全局信息优化的轻量级三维卷积神经网络结构如图7所示。

4、离线训练模型。本发明使用第2步中准备好的数据，采用基于交叉熵损失的梯度下降法对第3步最终构建的模型进行参数优化，使用Adam优化器等方法加快模型收敛。

5、待预测数据预处理。本发明采用在待预测视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列。

6、在线运行模型。将第5步中处理好的待预测视频序列输入到第4步中训练好的网络中进行行为分类，整个视频的分类分数取其所包含的所有视频序列的均值，最终得分最高的类被确定为该视频的识别类别。

图8是本发明提供的视频行为识别系统架构图，如图8所示，包括：

模型确定单元810，用于基于三维全分离卷积构建第一基本单元和第二基本单元，第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同，第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸；将第一基本单元和第二基本单元基于ResNet的框架进行堆叠，得到轻量级三维卷积神经网络模型；

模型优化单元820，用于基于时序全局信息对所述轻量级三维卷积神经网络模型进行优化，以使得轻量级三维卷积神经网络模型能够提取视频在时间维度上的判别性全局信息；

模型训练单元830，用于通过预先准备的训练视频帧，基于交叉熵损失的梯度下降法对优化后的轻量级三维卷积神经网络模型进行参数优化，得到训练好的轻量级三维卷积神经网络模型；

视频识别单元840，用于将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，识别视频中运动物体的行为信息。

可以理解的是，图8中各个单元的功能参见前述方法实施例中的介绍，在此不做赘述。

本发明公开了一种基于轻量级三维卷积神经网络的视频行为识别方法及系统，该方法的特征包括：基于可分离卷积思想的3D全分离卷积，基于3D全分离卷积构建面向视频行为识别的轻量级三维卷积神经网络；基于时序全局信息优化的轻量级三维卷积神经网络。与现有技术相比，本发明在保证相当的行为识别性能的同时，能够极大降低模型参数量和计算复杂度。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频行为识别方法，其特征在于，包括如下步骤：

基于三维全分离卷积构建轻量级三维卷积神经网络模型；

2.根据权利要求1所述的视频行为识别方法，其特征在于，通过将时序全局信息模块加入轻量级三维卷积神经网络模型，以对模型进行优化；

3.根据权利要求1所述的视频行为识别方法，其特征在于，所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。

4.根据权利要求3所述的视频行为识别方法，其特征在于，基于三维全分离卷积构建第一基本单元和第二基本单元，第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同，第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸；将第一基本单元和第二基本单元基于ResNet的框架进行堆叠，得到轻量级三维卷积神经网络模型；

5.根据权利要求1至4任一项所述的视频行为识别方法，其特征在于，将待识别的视频输入到训练好的轻量级三维卷积神经网络模型，包括如下步骤：

6.一种视频行为识别系统，其特征在于，包括：

7.根据权利要求6所述的视频行为识别系统，其特征在于，所述模型优化单元通过将时序全局信息模块加入轻量级三维卷积神经网络模型，以对模型进行优化；所述时序全局信息模块的建模分为三个阶段：全局上下文建模、特征转换以及特征聚合；采用公式具体表示为：

8.根据权利要求6所述的视频行为识别系统，其特征在于，所述三维全分离卷积包括三维深度空间卷积、三维深度时间卷积以及三维逐点卷积。

9.根据权利要求8所述的视频行为识别系统，其特征在于，所述模型确定单元基于三维全分离卷积构建第一基本单元和第二基本单元，第一基本单元用于保证输入特征图的尺寸和输出特征图的尺寸相同，第二基本单元用于将特征通道数量加倍的同时减半特征图的尺寸；将第一基本单元和第二基本单元基于ResNet的框架进行堆叠，得到轻量级三维卷积神经网络模型；

10.根据权利要求6至9任一项所述的视频行为识别系统，其特征在于，所述视频识别单元对待识别的视频的空间位置和时间位置进行裁剪生成多个相同尺寸的视频序列；以及将裁剪得到的视频序列输入到训练好的轻量级三维卷积神经网络模型。