CN116912727A

CN116912727A - 一种基于时空特征增强网络的视频人体行为识别方法

Info

Publication number: CN116912727A
Application number: CN202310669142.6A
Authority: CN
Inventors: 滕竹; 陈敏; 张宝鹏; 李浥东
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2023-10-20

Abstract

本发明提供了一种基于时空特征增强网络的视频人体行为识别方法。该方法包括：将训练视频数据的帧图像输入到视频人体行为识别模型中，通过局部时空特征增强模块提取出帧图像中的帧级别运动的局部时空特征，利用全局时空特征增强模块获取帧图像中的视频级运动的全局时空特征，通过多特征融合模块融合局部时空特征和全局时空特征，将得到的最终的特征表示输入到全连接层，全连接层输出视频数据中的人体行为识别结果；当重复执行上述处理过程迭代训练视频人体行为识别模型达到设定次数后，得到训练好的视频人体行为识别模型，利用训练好的视频人体行为识别模型对待检测的视频数据进行人体行为识别。本发明方法可以高效地从视频中识别出行人的行为。

Description

一种基于时空特征增强网络的视频人体行为识别方法

技术领域

本发明涉及视频分析技术领域，尤其涉及一种基于时空特征增强网络的视频人体行为识别方法。

背景技术

视频中的人体行为识别是计算机视觉领域中的热门研究，属于视频分析任务中的一个重要分支，其主旨是利用计算机视觉相关算法自动对视频中人的行为进行分析和理解。现阶段视频任务下的人体行为识别在国内外大量研究人员不断努力下，具备了极大的发展潜力与宽广的应用前景，视频行为识别相比于静态图片中的行为识别，更加关注人体在视频序列中的时空变化。现阶段，视频序列的行为识别算法主要可以分为两大类，这两类算法具有不同的理论基础，一类基于传统手工算法，另一类以深度学习算法为基础。随着深度学习在视频理解任务中的应用，视频人体行为识别取得了巨大的进步，因此现阶段较多地使用深度学习的方法，但目前精度较高的深度学习算法往往模型复杂度较大，无法部署在低算力的移动设备当中满足实时性的应用需求，所以研究一个高精度低延迟的算法模型将对大规模应用人体行为识别技术产生重要意义。

基于深度方法的行为识别的步骤主要分为：数据的载入与处理、网络构建、分类器与损失函数的定义、优化器的设计以及训练与验证。而卷积神经网络是深度学习中较为高效的方法，其中二维卷积和三维卷积常用于行为识别，但是三维卷积虽能提取到时空特征，但是它会引入大量参数，且计算量大，因此耗时长，因此从时间开销上来看，现在大多选择对传统的二维卷积进行改进，在保证低计算量的情况下确保时间信息的提取，与此同时，现有的研究发现局部时空特征和全局时空特征相互补充对人体行为识别是有利的。

目前也出现了一些技术可以避免三维卷积的缺陷，设计了一些即使使用二维卷积神经网络但是也能提取时序信息方法。现有技术中的一种视频人体行为识别方案提出了时空网络与该技术路线相契合。该时空网络用于视频中的局部和全局建模，其时空建模方法的主干采用二维卷积神经网络，如ResNet50，设计的时空建模模块插入在ResNet50的残差块之间。时空网络首先对输入数据进行了预处理，输入视频采取了均匀采样的策略，因此整个网络利用这种抽样而不是整个视频序列模拟远程时间动态，随后将视频均匀分为T个连续片段，再从每个片段中局部采样N个视频帧。将N个连续的视频帧堆叠成具有3N个通道的堆叠图像，该堆叠图像不仅包含由单个帧表示的局部空间外观信息，还包含这些连续视频帧之间的局部时间依赖性。由于T个堆叠图像上的二维卷积生成T个局部时空特征图，构建采用T个堆叠图像的全局时空表示对于理解整个视频至关重要，因此该时空网络在ResNet50中插入了两个时间建模块，分别用在ResNet50的第三个阶段和第四个阶段之后，时间建模块旨在捕获视频序列内的远程时间动态，时间建模块中使用了三维卷积。最后为了进一步融合时序信息，在最后的全连接层前加了时间感知块，该结构类似残差结构，包含上下两个分支，上分支包含两次卷积，下分支一次卷积，上下两个分支不同的感受野能更好的融合局部和全局的时序信息，这种卷积结构看成深度可分离卷积，既能融合通道维度的信息又能融合时间维度的信息，将最后做的最大池化生成特征输入全连接层之后就能给出分类结果。

上述现有技术中的一种视频人体行为识别方案的缺点包括：

计算复杂、时间花销大：巨大的计算成本，需要很长的执行时间，速度太慢不适合在实际应用中使用。

长距离建模困难：动作有快慢，一个完整动作的完成时间有长有短，而长时间运动的全局运动特征难以捕获。

缺乏高效的运动表示：常用的运动特征从光流图中提取，一方面光流图的计算会带来额外的开销，另一方面，当视频中没有发生运动，而仅仅是外部照明发生变化，也可以观测到光流。

发明内容

本发明的实施例提供了一种基于时空特征增强网络的视频人体行为识别方法，以实现有效对识别视频数据中的人体行为。

为了实现上述目的，本发明采取了如下技术方案。

一种基于时空特征增强网络的视频人体行为识别方法，包括：

构建包括局部时空特征增强模块、全局时空特征增强模块和多特征融合模块的视频人体行为识别模型；

将训练视频数据的帧图像输入到所述视频人体行为识别模型中，通过局部时空特征增强模块提取出帧图像中的帧级别运动的局部时空特征，利用全局时空特征增强模块获取帧图像中的视频级运动的全局时空特征，通过多特征融合模块融合所述局部时空特征和所述全局时空特征，将得到的最终的特征表示输入到全连接层，全连接层输出视频数据中的人体行为识别结果；

当重复执行上述处理过程迭代训练所述视频人体行为识别模型达到设定次数后，得到训练好的视频人体行为识别模型，利用所述训练好的视频人体行为识别模型对待检测的视频数据进行人体行为识别。

优选地，所述的将训练视频数据的帧图像输入到所述视频人体行为识别模型中，通过局部时空特征增强模块提取出帧图像中的帧级别运动的局部时空特征，包括：

将训练的视频数据进行分段，从每一段视频数据中采样并分解得到视频帧图像序列，将视频帧序列输入到所述视频人体行为识别模型中，局部时空特征增强模块包括空间流网络模块和时间流网络模块，所述空间流网络模块通过卷积核为3×3的二维空间卷积提取视频帧图像的空间特征，所述时间流网络模块通过卷积核为3×3的时间卷积提取视频帧图像的时序特征，将所述空间特征和所述时序特征进行组合，得到所述视频数据的局部的时空特征，将局部的时空特征送入ResNet50的前期网络层得到特征图F_L，将特征图F_L传输给全局时空特征增强模块。

优选地，所述的利用全局时空特征增强模块获取帧图像中的视频级运动的全局时空特征，包括：

所述的全局时空特征增强模块，用于包括多尺度提取网络，该多尺度提取网络包含了三条路径：第一条路径采用短连接；第二条路径利用是一个卷积核为3×3的卷积层提取特征；第三条路径经过平均池化缩小尺寸后再进入卷积核为3×3的卷积层提取特征，再经上采样还原尺寸，进行空间对齐，利用一维的卷积将特征图F_L分为前向特征和后向特征，将所述前向特征与经过二维卷积处理过的后向特征相减后，将得到的特征输入到所述多尺度提取网络中的三条路径中，将所述后向特征与经过二维卷积处理过的前向特征相减后，将得到的特征输入到所述多尺度提取网络中的三条路径中，使用Sigmoid激活函数将所述三条路径得到的特征进行加权求和，得到融合特征，将所述融合特征与输入的特征图F_L进行相乘，得到所述全局时空特征增强模块输出的特征图F_G。

优选地，所述的通过多特征融合模块融合所述局部时空特征和所述全局时空特征，将得到的最终的特征表示输入到全连接层，全连接层输出视频数据中的人体行为识别结果，包括：

将分段后稀疏采样的视频序列与全局特征增强模块的输出FG之和输入到多特征融合模块，多特征融合模块使用卷积从输入数据中提取时空特征、通道特征和运动特征三类互补关键信息，基于注意力机制对时空特征、通道特征与运动特征进行增强，通道特征增强首先经过空间平均池化实现降维，然后经过卷积核为1×1的二维卷积、卷积核为3的一维卷积以及卷积核为1×1的二维卷积得到通道增强特征F_c，时空特征增强首先经过通道平均池化实现降维，经过一个卷积核为3×3×3的三维卷积增强时空特征F_st，运动特征增强首先利用1×1的二维卷积在通道上分成16份得到特征F_mi(i∈[1,16])，将F_m(i+1)输入到卷积核为3×3的二维卷积后得到新的特征，再与特征F_mi进行差分运算，再经过一个1×1的二维卷积层得到运动增强特征F_m；

将三类增强的特征之和F_c+F_st+F_m与该多特征融合模块的原始输入数据一同送入ResNet50的残差模块得到最终的特征表示F_M，将最终的特征表示F_M输入到作为分类器的全连接层，全连接层获取输入的视频数据中的人体动作类别，输出人体行为识别结果。

优选地，所述的当重复执行上述处理过程迭代训练所述视频人体行为识别模型达到设定次数后，得到训练好的视频人体行为识别模型，利用所述训练好的视频人体行为识别模型对待检测的视频数据进行人体行为识别，包括：

将所述视频人体行为识别模型的人体行为识别结果输入到均方误差MSE损失函数中，得到损失结果，根据损失结果判断视频人体行为识别模型是否收敛，若收敛，得到训练好的视频人体行为识别模型；否则，根据损失结果梯度反向传播更新视频人体行为识别模型的参数，继续训练视频人体行为识别模型，直到模型收敛，得到训练好的视频人体行为识别模型；

将待识别的视频数据进行分段处理，从每一段视频中稀疏采样，将稀疏采样的视频数据输入到训练好的视频人体行为识别模型中，所述训练好的视频人体行为识别模型输出所述待识别的视频数据的输出结果。

由上述本发明的实施例提供的技术方案可以看出，本发明提出了一种基于时空特征增强网络的视频人体行为识别的方法，可以高效地从视频中识别出行人的行为。本发明的网络主干利用残差网络ResNet50，首先设计了两个特征增强子模块分别用于对长短程运动建模，局部特征增强模块用于提取帧级别运动的局部时空特征，全局特征增强模块用于获取视频级运动的全局时空特征，最后利用一个多特征融合模块捕获视频序列中的互补信息，避免运动细节在深层网络中丢失，并增强网络的表现力。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种视频人体行为识别模型的模块结构图；

图2为本发明实施例提供的一种局部时空特征增强模块的框架图；

图3为本发明实施例提供的一种全局时空特征增强模块的框架图；

图4为本发明实施例提供的一种多特征融合模块的框架图；

图5为本发明实施例提供的一种基于时空特征增强网络的视频人体行为识别方法的处理流程图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

因为对于视频序列下的人体行为识别来说，除了包含了图像帧中的空间信息，如背景和目标，还要考虑到动作在时间维度上的连续性，即视频帧与帧之间的运动关系代表的时间信息。一方面传统的二维卷积只能提取到空间信息，另一方面动作有快有慢，完整动作的完成时间有长有短，因此为了提取到完整的时空信息并兼顾长短运动的特征的提取，设计了局部与全局两个时空特征增强模块，两个模块分别用于对提取图像帧级别的局部时空特征和视频级别的全局时空特征，最后再通过一个轻量级的多特征融合模块对互补关键信息特征进行提取与融合。

中心帧与相邻帧形成的差值图提取出视频中的运动对象，局部时空特征增强模块利用这种像素级别的差值图获取局部时空特征，全局时空特征网络利用视频片段之间的特征差异来增强运动变化，实现更长距离的运动建模，多特征融合模块最后充分利用了视频序列中包含的互补关键信息，防止信息丢失，增强网络的表达能力。

本发明实施例提供的一种视频人体行为识别模型的模块结构图如图1所示，包括：局部时空特征增强模块、全局时空特征增强模块和多特征融合模块，首先通过局部时空特征增强模块提取出视频中的帧级别运动的局部时空特征，再利用全局时空特征增强模块获取视频级运动的全局时空特征，最后通过多特征融合模块融合差异性信息，以增强网络的识别能力。

初始的输入为训练的视频数据，在正式进入到网络模型之前需要进行预处理，数据预处理采用基于分段的稀疏采样方法，首先对输入视频进行分段，分段后每段视频的内容变化缓慢、不容易发生突变，然后从每一段视频中稀疏采样，这种做法确保了最后抽取的样本沿着时间轴均匀分布，覆盖整个视频。

局部时空特征增强模块：本发明实施例提供的一种局部时空特征增强模块的框架图如图2所示。局部时空特征增强模块本质上是一条两条分支的网络模块，空间流分支提取RGB图像的空间特征，借助卷积核为3×3的二维空间卷积实现，时间流分支抽取视频片段中连续帧中的时序特征，借助卷积核为3×3的时间卷积实现，将上述空间特征和上采样处理过的时序特征进行组合，得到视频序列的局部的时空特征。该模块最后将局部的时空特征送入ResNet50的前期网络层得到特征图F_L，将特征图F_L传输给全局时空特征增强模块，这是因为局部时空特征增强主要应用在网络的前期发挥作用，用于提取视频中的帧级别运动的低级特征，通过帧级别的空间特征与从连续帧中提取到的时间差异信息的融合使得网络能够感知局部运动信息。

全局时空特征增强模块：本发明实施例提供的一种全局时空特征增强模块的框架图如图3所示。全局时空特征增强模块对长时间运动的识别有利，有助于解决长距离运动建模困难的问题，这是因为该模块让视频片段间的特征有了双向交流。该模块是一个多分支结构，能够进一步增强视频片段内运动变化。全局特征增强子网有助于视频片段间的信息的交流，利用视频片段间的特征级别差值保留最有用的全局运动信息，具体的做法是首先利用一个一维的卷积将特征图F_L分为前向特征和后向特征，前向特征与经过二维卷积处理过的后向特征相减，后向特征与经过二维卷积处理过的前向特征相减，从而实现信息间的交流。多尺度提取网络是为了最大限度地利用特征，包含了三条路径：第一条路径直接采用短连接；第二条路径利用是一个卷积核为3×3的卷积层提取特征；第三条路径经过平均池化缩小尺寸后再进入卷积核为3×3的卷积层提取特征，然后再经上采样还原尺寸，进行空间对齐，三条路径得到的特征再进行求和操作。最后特征的融合使用Sigmoid激活函数产生门控权重之和与原始输入特征进行相乘得到特征图F_G，这是因为深层次的网络会更加偏向于基于注意力的特征。

多特征融合模块：本发明实施例提供的一种多特征融合模块的框架如图4所示，为了避免特征信息丢失的问题，引入轻量级的多特征融合模块，多特征融合模块的输入为分段后稀疏采样的视频序列与全局特征增强模块的输出F_G之和，多特征融合模块使用了二维卷积与三维卷积，从输入数据中提取时空特征、通道特征和运动特征三类互补关键信息，基于注意力机制对时空特征、通道特征与运动特征进行增强。通道特征增强首先经过空间平均池化实现降维，然后经过卷积核为1×1的二维卷积、卷积核为3的一维卷积以及卷积核为1×1的二维卷积得到通道增强特征F_c，时空特征增强首先经过通道平均池化实现降维，然后经过一个卷积核为3×3×3的三维卷积增强时空特征F_st，运动特征增强首先利用1×1的二维卷积在通道上分成16份得到特征F_mi(i∈[1,16])，然后设计了一种层次级联结构实现了通道分割后的特征信息之间的交流，该过程通过F_m(i+1)输入到卷积核为3×3的二维卷积后得到新的特征，再与特征F_mi进行差分运算，最终再经过一个1×1的二维卷积层得到运动增强特征F_m，最后将这三类增强的特征之和F_c+F_st+F_m与该模块的原始输入数据一同送入ResNet50的残差模块得到最终的特征表示F_M，以增强网络对特征的表达能力。将最终的特征表示F_M输入到作为分类器的全连接层，全连接层获取输入的视频数据中的人体动作类别，输出人体行为识别结果。

本发明实施例提供的一种基于时空特征增强网络的视频人体行为识别方法的处理流程如图5所示，包括如下的处理步骤：

步骤S1、首选对待识别的视频序列进行预处理，预处理包括将视频序列中所有图像帧的尺寸调整为固定大小，将整个视频分段后采取稀疏采样策略等操作。

步骤S2、预处理后的视频序列直接输入到视频人体行为识别模型中，需要经过三个模块的有序处理。首先将视频序列输入到局部时空特征增强模块，经过局部时空特征增强模块提取出视频序列中局部的时空特征F_L，然后再将视频序列的特征图F_L输入到全局时空特征增强模块得到新的特征图F_G。

最后，将分段后稀疏采样的视频序列与全局特征增强模块的输出FG之和作为多特征融合模块的输入，多特征融合模块的输出与全局特征增强模块的输出值和F_G+F_M经过全连接层的处理后得到最终的识别结果，全连接层起到分类器的作用，即最后得到视频中动作类别。

步骤S3、将步骤S2得到的结果图输入到MSE(Mean Squared Error，均方误差)损失函数中，得到损失结果。

步骤S4、根据步骤S3计算的损失函数结果判断视频人体行为识别模型是否收敛，若收敛，可以使用该视频人体行为识别模型进行测试模块的工作，即测试视频中的人体行为识别；否则，根据损失结果梯度反向传播更新视频人体行为识别模型的参数，继续训练视频人体行为识别模型的。

反向传播更新的整个网络的参数，包括一些权重、偏置。在反向传播的过程中，根据误差调整各种参数的值；不断迭代直至收敛。

若视频人体行为识别模型的测试结果达到预期效果，则视频人体行为识别模型训练成功；若效果不理想或者训练结果一直不收敛，则调整视频人体行为识别模型的训练参数，重新进行视频人体行为识别模型的训练。

步骤S5、利用训练好的视频人体行为识别模型对待识别的视频数据进行人体行为识别，输出人体行为识别结果。

待识别的视频数据在输入到视频人体行为识别模型之前，首先对输入视频进行分段，分段后每段视频的内容变化缓慢、不容易发生突变，然后从每一段视频中稀疏采样，这种做法确保了最后抽取的样本沿着时间轴均匀分布，覆盖整个视频。

上述流程中最核心的步骤为训练网络提取视频运动目标的动作特征部分以及测试模型效果部分。

训练网络提取目标特征部分首先需要使用数据集训练一个能够较好地提取目标特征的深度学习网络，其次为了更好地表示行人运动信息，特征提取需要考虑目标的空间特征，涉及外观特征、目标的变化幅度、背景因素、遮挡以及光线、角度等问题，还要考虑视频理解任务中时间特征的重要性，因为好的特征表示方法可以极大地提高行为识别的准确率。测试模型效果部分主要使用准确率和每秒处理帧数两个指标，准确率用于判定模型的精度，每秒处理帧数用于判定模型的速度。

本发明提出了一种新的网络结构，对局部时空特征和全局时空特征都进行了增强，并且设计了一个多特征融合模块，融合了视频序列中的互补关键信息。

在人体行为识别任务中，由于各种动作的速度会有差别，这就意味着完整动作的执行时间有长有短，而对于长时间运动而言，要想捕获全局的运动特征是不易的，因此设计了一个时空特征增强网络，该网络包含局部时空特征增强模块、全局时空特征增强模块和多特征融合模块三个模块。前两个模块分别用于局部和全局运动特征的提取，局部时空特征增强模块利用像素级别的图像帧间差异获取局部运动特征，全局时空特征网络利用视频片段之间的特征差异来增强运动变化，实现更长距离的运动建模，多特征融合模块最后充分利用了视频序列中包含的互补关键信息，防止信息丢失，并增强网络的表达能力。

在进行这项发明的开发之前，技术人员必须对试验环境进行配置，其中包含了Linux操作系统的安装、python运行软件的安装、pytorch深度学习框架的安装等。另外，由于深度学习模型的训练比较耗费时间，所以使用GPU来进行训练是最好的选择。在开发的过程中，要注重形成阶段性的成果文档，对于数据的处理要有统一的标准，比如尺寸大小、预处理的一些设定等。其中，最难以控制的就是学习率、迭代次数等超参数的设定，它们的设定会极大地影响试验的效果。

综上所述，本发明实施例设计了一个时空特征增强子网络，该网络包含局部时空特征增强、全局时空特征增强以及多特征融合三个模块，首先使用局部时空特征增强模块提取出帧级别的空间信息与连续帧间的时序信息，以捕获局部运动的时空特征，随后使用全局时空特征增强模块利用视频片段之间特征级别的信息交互增强全局运动表示，有利于长程运动与全局特征的捕获，最后，为了充分利用视频序列中丰富的特征信息，设计了轻量级的多特征融合模块，该模块提取了三类互补的关键性特征并进行融合，以解决深层网络中运动细节信息的丢失问题。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于时空特征增强网络的视频人体行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的将训练视频数据的帧图像输入到所述视频人体行为识别模型中，通过局部时空特征增强模块提取出帧图像中的帧级别运动的局部时空特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述的利用全局时空特征增强模块获取帧图像中的视频级运动的全局时空特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述的通过多特征融合模块融合所述局部时空特征和所述全局时空特征，将得到的最终的特征表示输入到全连接层，全连接层输出视频数据中的人体行为识别结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述的当重复执行上述处理过程迭代训练所述视频人体行为识别模型达到设定次数后，得到训练好的视频人体行为识别模型，利用所述训练好的视频人体行为识别模型对待检测的视频数据进行人体行为识别，包括：