CN113255616A

CN113255616A - 一种基于深度学习的视频行为识别方法

Info

Publication number: CN113255616A
Application number: CN202110764936.1A
Authority: CN
Inventors: 胡谋法; 王珏; 卢焕章; 张瑶; 张路平; 沈杏林; 肖山竹; 陶华敏; 赵菲; 邓秋群
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-08-13
Anticipated expiration: 2041-07-07
Also published as: CN113255616B

Abstract

本申请涉及一种基于深度学习的视频行为识别方法，所述方法中视频行为识别网络以普通2D网络作为骨干网络，使用双线性操作来提取帧间信息特征，然后将帧内信息和帧间信息进行融合得到高辨识度的时空特征用于行为分类。仅仅增加少量的参数就使得2D模型具备处理三维视频信息的能力，相对于传统3D卷积网络能够在降低计算负载的同时进一步提高行为识别的准确率。本发明特别适合用在有实时视频分析需求但是资源有限的场合下，在智能安防、自动驾驶等领域有着广阔的应用前景。

Description

一种基于深度学习的视频行为识别方法

技术领域

本申请涉及视频信息处理技术领域，特别是涉及一种基于深度学习的视频行为识别方法。

背景技术

近年来，随着多媒体技术、高速互联网技术以及大容量存储设备的发展和普及，互联网中视频图像信息资源出现了爆炸性的增长，与静态图片相比，视频中包含的信息量更大、更加丰富多样，己经成为现代社会中重要的信息载体。目前，绝大部分视频内容分析任务依赖人力完成，然而对于海量数据，人工处理费时费力，成本高昂，也难免有疏漏发生，因而迫切需要视频智能分析技术。自2012年Alexnet展露头角以来，深度卷积神经网络已经统治了计算机视觉领域，在包括图像分类、目标检测等多个视觉任务中都取得了突破，并且成功商用，改变了人们的生活方式。但是相对于图像分析取得的巨大成就，深度神经网络在视频分析领域虽然展现出良好的潜力但是还无法达到令人满意的效果，本质原因在于视频信号的高度时空复杂性以及随之而来的庞大计算成本，如何设计出合理高效的网络结构目前还在研究探索之中。

视频比图像信号多出了一个时间维度，通常认为帧间的运动信息在视频行为识别任务中起到了决定性的作用，但是如何提取有效的帧间运动信息一直没有很好的解决。目前一种流行且有效的识别方法就是在深层神经网络中使用3D卷积核，这是将图像识别领域中的2D卷积自然拓展得到的结果，这样获得的模型也是端到端可以训练的。目前较为先进的视频行为识别模型，如I3D，就是采用这种方法构建的深度卷积网络来进行行为识别的，通过在大型数据集上的训练，然后在小数据集上微调的方法，在多个基准测试集上都取得了领先的结果。

3D卷积核直接使用前后帧局部邻近数据进行拟合，来提取时空特征，虽然效果不错，但是存在参数量大，计算复杂的问题，而且容易出现过拟合的现象。虽然目前有一些简化的技术，如P3D、R3D等采用2D+1D卷积的形式来替代3D卷积，也都取得了不错的效果。但是总体来说，在帧间特征提取方面仍然还存在着不足，识别性能还有待提高。

发明内容

基于此，有必要针对上述技术问题，提供一种基于深度学习的视频行为识别方法。

一种基于深度学习的视频行为识别方法，所述方法包括：

获取视频数据，并对所述视频数据进行预处理得到训练样本。

构建视频行为识别网络；所述视频行为识别网络为以二维卷积神经网络Resnet作为骨干网络，在所述骨干网络中插入帧间时域信息提取模块的卷积神经网络；所述二维卷积神经网络Resnet用于提取视频中目标的静态特征，所述帧间时域信息提取模块用于对所述骨干网络进行优化，使用双线性操作来提取帧间信息特征。

采用所述训练样本对所述视频行为识别网络进行训练，并进行参数优化，得到训练好的视频行为识别网络模型。

获取待识别视频，并进行预处理，将预处理后的待识别视频输入到所述视频行为识别网络模型中，得到视频行为分类结果。

在其中一个实施例中，获取视频数据，并对所述视频数据进行预处理得到训练样本，包括：

获取视频数据。

采用密集采样法在所述视频数据中随机抽取连续若干帧图像组成视频块。

将所述视频块中的图像缩放为120像素×160像素大小，并从中随机裁剪112像素×112像素大小的图像。

将剪裁后图像的灰度除以255，映射到[0,1]的数值区间范围。

对裁剪后图像的RGB三个通道分别进行去均值归一化操作。

对所述视频块在水平方向以50%概率随机翻转，得到训练样本。

在其中一个实施例中，采用所述训练样本对所述视频行为识别网络进行训练，并进行参数优化，得到训练好的视频行为识别网络模型，包括：

将所述训练样本进行分类，得到训练集和测试集。

将所述训练集输入到所述视频行为识别网络中进行网络训练，得到视频行为预测分类结果。

根据所述视频行为预测分类结果和所述测试集，采用基于交叉熵损失的带动量随机梯度下降法对所述视频行为识别网络进行参数优化，得到训练好的视频行为识别网络模型。

在其中一个实施例中，所述视频行为识别网络由1个第一特征提取子模块、3个第二特征提取子模块、1个第三特征提取子模块以及1个全连接层组成；所述第一特征提取子模块由1个卷积层和1个最大池化层组成；所述第二特征提取子模块由1个时空特征提取模块和最大池化层组成；所述第三特征提取子模块由1个所述时空特征提取模块以及全局池化层组成。

将所述训练集输入到所述视频行为识别网络中进行网络训练，得到视频行为预测分类结果，包括：

将所述训练集输入到所述第一特征提取子模块的卷积层中，得到第一卷积特征，将第一卷积特征输入到第一特征提取子模块的最大池化层进行空域最大值池化，得到第一最大值池化特征。

将所述第一最大值池化特征输入到第一个所述第二特征提取子模块的时空特征提取模块中，得到第一时空融合特征。

将所述第一时空融合特征输入到第一个所述第二特征提取子模块的最大池化层中，得到第二最大值池化特征。

将所述第二最大值池化特征输入到第二个所述第二特征提取子模块中，得到第三最大值池化特征。

将所述第三最大值池化特征输入到第三个所述第二特征提取子模块中，得到第四最大值池化特征。

将所述第四最大值池化特征输入到所述第三特征提取子模块的时空特征提取模块中，得到时空融合特征；并将所述时空融合特征输入到所述第三特征提取子模块的全局池化层，得到全局池化特征。

将所述全局池化特征输入到全连接层，采用softmax作为激活函数，得到视频行为预测分类结果。

在其中一个实施例中，所述时空特征提取模块是由若干个残差模块和帧间时域信息提取模块交替串联组成；所述残差模块为Resnet网络的基本组成单元；所述帧间时域信息提取模块包括：帧间时域特征提取单元和特征融合单元；所述帧间时域特征提取单元包括用于提取时域特征的双线性操作卷积层；所述特征融合单元包括用于特征融合的卷积层。

将所述第一最大值池化特征输入到第一个所述第二特征提取子模块的时空特征提取模块中，得到第一时空融合特征，包括：

将第一最大值池化特征输入到第一个所述第二特征提取子模块的所述时空特征提取模块中的第一个残差模块得到深层空域特征。

将所述深层空域特征输入到第一个所述第二特征提取子模块的所述时空特征提取模块中的第一个帧间时域信息提取模块，得到融合特征。

将所述融合特征输入到第一个所述第二特征提取子模块的第二个残差模块和帧间时域信息提取模块，如此重复，直到特征信息通过第一个所述第二特征提取子模块中的所有的残差模块和帧间时域信息提取模块为止，得到第一融合特征。

在其中一个实施例中，将所述训练集输入到所述视频行为识别网络中进行网络训练，得到视频行为预测分类结果，步骤前还包括：

采用TSN模型在kinetics400数据集上预训练的参数对所述视频行为识别网络的主干网络参数进行初始化。

将所述帧间时域信息提取模块中帧间时域特征提取单元的参数初始化为随机数，并将所述帧间时域信息提取模块中特征融合单元的参数初始化为0。

将所述全连接层的参数初始化为随机数。

在其中一个实施例中，并进行预处理，将预处理后的待识别视频输入到所述视频行为识别网络模型中，得到视频行为分类结果，包括：

获取待识别视频，对所述待识别视频进行均匀的采样，得到若干段等长的视频序列。

将视频序列中的图像缩放到120像素×160像素，裁剪中间112×112像素区域，并将剪裁后图像的灰度除以255，映射到[0,1]的数值区间范围，对裁剪后图像的RGB三个通道分别进行去均值归一化操作。

将处理后的视频序列输入到所述视频行为识别网络模型中，得到分类预测得分。

将所述预测得分进行平均，在得到的平均分中进行查找，将查找得到的最高平均分对应的类别作为视频行为分类结果。

上述基于深度学习的视频行为识别方法，视频行为识别网络以普通2D网络作为骨干网络，使用双线性操作来提取帧间信息特征，然后将帧内信息和帧间信息进行融合得到高辨识度的时空特征用于行为分类。仅仅增加少量的参数就使得2D模型具备处理三维视频信息的能力，相对于传统3D卷积网络能够在降低计算负载的同时进一步提高行为识别的准确率。本发明特别适合用在有实时视频分析需求但是资源有限的场合下，在智能安防、自动驾驶等领域有着广阔的应用前景。

附图说明

图1为一个实施例中基于深度学习的视频行为识别方法的流程示意图；

图2为一个实施例中帧间时域信息提取模块的结构示意图；

图3为一个实施例中以Resnet34为骨干网的视频行为识别网络结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于深度学习的视频行为识别方法，该方法包括以下步骤：

步骤100：获取视频数据，并对视频数据进行预处理得到训练样本。

训练样本是对视频数据进行采样，然后进行图像处理后的图片格式的样本。

步骤102：构建视频行为识别网络。

视频行为识别网络为以二维卷积神经网络Resnet作为骨干网络，在骨干网络中插入帧间时域信息提取模块的卷积神经网络。

二维卷积神经网络Resnet用于提取视频中目标的静态特征。

帧间时域信息提取模块用于对骨干网络进行优化，使用双线性操作来提取帧间信息特征。

帧间时域特征提取模块包括时域特征提取的双线性操作卷积层以及特征融合的卷积层。

步骤104：采用训练样本对视频行为识别网络进行训练，并进行参数优化，得到训练好的视频行为识别网络模型。

步骤106：获取待识别视频，并进行预处理，将预处理后的待识别视频输入到视频行为识别网络模型中，得到视频行为分类结果。

上述基于深度学习的视频行为识别方法中，视频行为识别网络以普通2D网络作为骨干网络，使用双线性操作来提取帧间信息特征，然后将帧内信息和帧间信息进行融合得到高辨识度的时空特征用于行为分类。仅仅增加少量的参数就使得2D模型具备处理三维视频信息的能力，相对于传统3D卷积网络能够在降低计算负载的同时进一步提高行为识别的准确率。本发明特别适合用在有实时视频分析需求但是资源有限的场合下，在智能安防、自动驾驶等领域有着广阔的应用前景。

在其中一个实施例中，步骤100还包括：获取视频数据；采用密集采样法在视频数据中随机抽取连续若干帧图像组成视频块；将视频块中的图像缩放为120像素×160像素大小，并从中随机裁剪112像素×112像素大小的图像；将剪裁后图像的灰度除以255，映射到[0,1]的数值区间范围；对裁剪后图像的RGB三个通道分别进行去均值归一化操作；对视频块在水平方向以50%概率随机翻转，得到训练样本。

在其中一个实施例中，步骤104还包括：将训练样本进行分类，得到训练集和测试集；将训练集输入到视频行为识别网络中进行网络训练，得到视频行为预测分类结果；根据视频行为预测分类结果和测试集，采用基于交叉熵损失的带动量的随机梯度下降法对视频行为识别网络进行参数优化，得到训练好的视频行为识别网络模型。

在其中一个实施例中，视频行为识别网络由1个第一特征提取子模块、3个第二特征提取子模块、1个第三特征提取子模块以及1个全连接层组成；第一特征提取子模块由1个卷积层和1个最大池化层组成；第二特征提取子模块由1个时空特征提取模块和最大池化层组成；第三特征提取子模块由1个时空特征提取模块以及全局池化层组成。步骤104还包括：将训练集输入到第一特征提取子模块的卷积层中，得到第一卷积特征，将第一卷积特征输入到第一特征提取子模块的最大池化层进行空域最大值池化，得到第一最大值池化特征；将第一最大值池化特征输入到第一个第二特征提取子模块的时空特征提取模块中，得到第一时空融合特征；将第一时空融合特征输入到第一个第二特征提取子模块的最大池化层中，得到第二最大值池化特征；将第二最大值池化特征输入到第二个第二特征提取子模块中，得到第三最大值池化特征；将第三最大值池化特征输入到第三个第二特征提取子模块中，得到第四最大值池化特征；将第四最大值池化特征输入到第三特征提取子模块的时空特征提取模块中，得到时空融合特征；并将时空融合特征输入到第三特征提取子模块的全局池化层，得到全局池化特征；将全局池化特征输入到全连接层，采用softmax作为激活函数，得到视频行为预测分类结果。

残差模块是Resnet系列卷积神经网络中的基本组成单元。

在其中一个实施例中，时空特征提取模块是由若干个残差模块和帧间时域信息提取模块交替串联组成；残差模块为Resnet网络的基本组成单元；帧间时域信息提取模块包括：帧间时域特征提取单元和特征融合单元；帧间时域特征提取单元包括用于提取时域特征的双线性操作卷积层；特征融合单元包括用于特征融合的卷积层。步骤104还包括：将第一最大值池化特征输入到第一个第二特征提取子模块的时空特征提取模块中的第一个残差模块得到深层空域特征；将深层空域特征输入到第一个第二特征提取子模块的时空特征提取模块中的第一个帧间时域信息提取模块，得到融合特征；将融合特征输入到第一个第二特征提取子模块的第二个残差模块和帧间时域信息提取模块，如此重复，直到特征信息通过第一个第二特征提取子模块中的所有的残差模块和帧间时域信息提取模块为止，得到第一融合特征。

帧间时域特征提取单元采用双线性操作提取帧间信息特征。

在另一个实施例中，帧间时域信息提取模块的设计思路如下：

帧间时域信息提取模块包括两个部分：采用双线性操作提取帧间特征的帧间时域特征提取单元，用于将帧间特征与帧内特征进行融合的特征融合单元。

传统3D分解方法通过在时域上的1D卷积来提取帧间信息特征，虽然计算简单但是从本质上来说属于线性拟合，建模能力有限，特征提取性能较弱。本发明采用双线性操作来提取前后帧对应位置处的时域信息特征，双线性操作本质上属于二阶拟合，在细粒度图像识别中得到了广泛的应用，可以更好的捕捉前后帧图像之间的变化。双线性操作的计算公式如下：

（1）

其中

表示输出特征向量Y的第k维分量，

表示前后帧对应位置点的特征向量，

表示二维卷积提取的空域特征的维度，即特征向量

的维度，

为其第i，j维分量。假设输出特征向量Y的维度也为

，则

就是双线性拟合参数，显然其参数数量远多于普通一维卷积。为了简化计算，可以对参数

进行分解：

，p决定了分解的复杂程度，p是模型的超参数，则公式（1）可以展开如下：

（2）

公式（2）括号内就是常规的1D时域卷积，通过平方操作引入了二次项，而括号外也是一个线性计算，可以用1×1×1的卷积实现，这样就可以用带平方项的两层卷积计算来近似模拟双线性操作，超参数p就是第一层卷积的输出通道数。考虑到相邻帧之间相同通道的特征具有更高的相关性，使用分组卷积来替换常规卷积，同时可以进一步减少参数量。设置分组数为4，第一层卷积的时域感受野大小为3，第一层卷积输出通道数为

，则双线性操作的参数量减少为

。

提取的帧间特征需要与原始空域特征进行融合以获得当前层的时空特征，为了减少对原始网络输出的影响，参考使用NonLocal网络的加权融合方式，实现公式如下：

（3）

其中Z为融合特征，X为空域特征，Y为帧间时域特征，W为加权系数。当W初始化为0时，输出的融合特征与输入的空域特征相等，变为恒等输出，这样相当于对原始网络结构不产生任何影响，能够更好的利用骨干网的预训练模型参数。

帧间时域信息提取模块的结构示意图如图2所示。将空域特征输入到卷积核为3×1×1卷积层（第一层卷积），得到卷积特征，将卷积特征输入到平方层引入二次项，将平方层的结果输入到卷积核为1×1×1的卷积层（第二层卷积），输出即为帧间时域特征，将帧间时域特征输入到卷积核为1×1×1卷积层，并将得到的卷积输出与输入的空域特征相加融合，输出融合特征。

在其中一个实施例中，步骤104前还包括：采用TSN模型在kinetics400数据集上预训练的参数对视频行为识别网络的主干网络参数进行初始化；将帧间时域信息提取模块中帧间时域特征提取单元的参数初始化为随机数，并将帧间时域信息提取模块中特征融合单元的参数初始化为0；将全连接层的参数初始化为随机数。

双线性操作的卷积层参数指的是公式（2）中

参数，就是图2中的前两层卷积层的参数。双线性操作是区别传统线性卷积的，本质上是向量二次项的线性组合，传统线性卷积是向量一次项的线性组合。

在其中一个实施例中，步骤106还包括：获取待识别视频，对待识别视频进行均匀的采样，得到若干段等长的视频序列；将视频序列中的图像缩放到120像素×160像素，裁剪中间112×112像素区域，并将剪裁后图像的灰度除以255，映射到[0,1]的数值区间范围，对裁剪后图像的RGB三个通道分别进行去均值归一化操作；将处理后的视频序列输入到视频行为识别网络模型中，得到分类预测得分；将预测得分进行平均，在得到的平均分中进行查找，将查找得到的最高平均分对应的类别作为视频行为分类结果。

在一个具体的实施例中，以ucf101数据集为训练样本，采用Resnet34作为2D骨干网，来说明视频行为识别模型对数据集中的行为类别进行分类的步骤，包括如下步骤：

第1步：获得数据。

下载并准备好ucf101数据集，将视频数据逐帧解压为图片格式并存储，用于网络的训练和测试。

ucf101共包含101种行为类别，共包含13k视频，采用官方提供的第一种方式来划分训练集和测试集，其中训练集有9537段视频，测试集有3743段视频。

从视频中随机抽取连续16帧图像组成一个视频块，对获得的视频块进行预处理：①将原始图像缩放为120×160大小，然后从中随机裁剪112×112大小的图像；②将图像灰度除以255，映射到[0,1]的数值区间范围；③对裁剪后图像的RGB三个通道分别进行去均值归一化操作，使用imagenet数据集上的归一化系数，RGB三个通道的均值系数和方差系数分别为[0.485, 0.456, 0.406]，[0.229, 0.224, 0.225]；④对视频块在水平方向以50%概率随机翻转，来扩充原始数据。经过以上步骤，就得到了网络的最终输入，其维度大小为16（时间维度）×112（空间维度）×112（空间维度）×3（通道维度）。

第2步：建立视频行为识别网络。

采用Resnet34作为骨干网络，Resnet34共包含4个残差模块组，每个残差模块组内部包含若干个残差模块，在每个残差模块后面加入一个帧间信息提取模块。除最后一个残差模块组外，每个残差模块组后面使用空域最大池化来减少特征图空域尺寸，时域维度不做池化。在最后一个模块后面使用全局池化获得最终512维特征向量输入全连接层，将全连接层的输出维度变为101维，使用softmax作为激活函数。网络前向运算的输出就是输入样本被模型识别为不同类别的概率。以Resnet34作为骨干网络的视频行为识别网络的结构图如图3所示。

Resnet34骨干网初始化时采用TSN模型在kinetics400数据集上预训练的参数；帧间信息提取模块中帧间时域特征提取单元的使用随机初始化，融合的卷积层使用全0初始化；最后的全连接层采用随机初始化。

第3步：获取网络参数。

网络训练时采用带动量的随机梯度下降法进行网络参数的训练，采用标准的交叉熵损失函数对网络参数进行优化。训练批大小为128，初始学习率为0.001，动量为0.9，在第10轮时学习率缩小10倍，共训练20轮（epoch），得到训练好的视频行为识别网络。

第4步：用训练好的视频行为识别网络对视频行为进行分类识别。

通过第2~第3步的学习训练，得到最优的网络模型参数，用该网络对测试集中视频包含的行为类别进行预测。预测时以16帧为间隔将测试视频均匀的分为若干段，对视频片段中的帧执行缩放、中心裁剪、灰度重映射以及去均值归一化的操作，将每一个处理后的视频片段送入网络计算分类得分，然后将所有片段的得分进行累加，选取得分最高的类别作为最终的预测类别。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的视频行为识别方法，其特征在于，所述方法包括：

获取视频数据，并对所述视频数据进行预处理得到训练样本；

构建视频行为识别网络；所述视频行为识别网络为以二维卷积神经网络Resnet作为骨干网络，在所述骨干网络中插入帧间时域信息提取模块的卷积神经网络；所述二维卷积神经网络Resnet用于提取视频中目标的静态特征，所述帧间时域信息提取模块用于对所述骨干网络进行优化，使用双线性操作来提取帧间信息特征；

采用所述训练样本对所述视频行为识别网络进行训练，并进行参数优化，得到训练好的视频行为识别网络模型；

2.根据权利要求1所述的方法，其特征在于，获取视频数据，并对所述视频数据进行预处理得到训练样本，包括：

获取视频数据；

采用密集采样法在所述视频数据中随机抽取连续若干帧图像组成视频块；

将所述视频块中的图像缩放为120像素×160像素大小，并从中随机裁剪112像素×112像素大小的图像；

将剪裁后图像的灰度除以255，映射到[0,1]的数值区间范围；

对裁剪后图像的RGB三个通道分别进行去均值归一化操作；

3.根据权利要求1所述的方法，其特征在于，采用所述训练样本对所述视频行为识别网络进行训练，并进行参数优化，得到训练好的视频行为识别网络模型，包括：

将所述训练样本进行分类，得到训练集和测试集；

将所述训练集输入到所述视频行为识别网络中进行网络训练，得到视频行为预测分类结果；

4.根据权利要求3所述的方法，其特征在于，所述视频行为识别网络由1个第一特征提取子模块、3个第二特征提取子模块、1个第三特征提取子模块以及1个全连接层组成；所述第一特征提取子模块由1个卷积层和1个最大池化层组成；所述第二特征提取子模块由1个时空特征提取模块和最大池化层组成；所述第三特征提取子模块由1个所述时空特征提取模块以及全局池化层组成；

将所述训练集输入到所述第一特征提取子模块的卷积层中，得到第一卷积特征，将第一卷积特征输入到第一特征提取子模块的最大池化层进行空域最大值池化，得到第一最大值池化特征；

将所述第一最大值池化特征输入到第一个所述第二特征提取子模块的时空特征提取模块中，得到第一时空融合特征；

将所述第一时空融合特征输入到第一个所述第二特征提取子模块的最大池化层中，得到第二最大值池化特征；

将所述第二最大值池化特征输入到第二个所述第二特征提取子模块中，得到第三最大值池化特征；

将所述第三最大值池化特征输入到第三个所述第二特征提取子模块中，得到第四最大值池化特征；

将所述第四最大值池化特征输入到所述第三特征提取子模块的时空特征提取模块中，得到时空融合特征；并将所述时空融合特征输入到所述第三特征提取子模块的全局池化层，得到全局池化特征；

5.根据权利要求4所述的方法，其特征在于，所述时空特征提取模块是由若干个残差模块和帧间时域信息提取模块交替串联组成；所述残差模块为Resnet网络的基本组成单元；所述帧间时域信息提取模块包括：帧间时域特征提取单元和特征融合单元；所述帧间时域特征提取单元包括用于提取时域特征的双线性操作卷积层；所述特征融合单元包括用于特征融合的卷积层；

将第一最大值池化特征输入到第一个所述第二特征提取子模块的所述时空特征提取模块中的第一个残差模块得到深层空域特征；

将所述深层空域特征输入到第一个所述第二特征提取子模块的所述时空特征提取模块中的第一个帧间时域信息提取模块，得到融合特征；

6.根据权利要求5所述的方法，其特征在于，将所述训练集输入到所述视频行为识别网络中进行网络训练，得到视频行为预测分类结果，步骤前还包括：

采用TSN模型在kinetics400数据集上预训练的参数对所述视频行为识别网络的主干网络参数进行初始化；

将所述帧间时域信息提取模块中帧间时域特征提取单元的参数初始化为随机数，并将所述帧间时域信息提取模块中特征融合单元的参数初始化为0；

将所述全连接层的参数初始化为随机数。

7.根据权利要求1所述的方法，其特征在于，获取待识别视频，并进行预处理，将预处理后的待识别视频输入到所述视频行为识别网络模型中，得到视频行为分类结果，包括：

获取待识别视频，对所述待识别视频进行均匀的采样，得到若干段等长的视频序列；

将视频序列中的图像缩放到120像素×160像素大小，裁剪中间112像素×112像素大小区域，并将剪裁后图像的灰度除以255，映射到[0,1]的数值区间范围，对裁剪后图像的RGB三个通道分别进行去均值归一化操作；

将处理后的视频序列输入到所述视频行为识别网络模型中，得到分类预测得分；