CN116959100A

CN116959100A - 一种基于频域增强的压缩视频人体行为识别方法

Info

Publication number: CN116959100A
Application number: CN202310732026.4A
Authority: CN
Inventors: 明悦; 熊露; 周江琬; 吕柏阳; 冯帆
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-10-27

Abstract

本发明提供了一种基于频域增强的压缩视频人体行为识别方法。该方法包括：构建频域增强FE模块，所述FE模块包括时间‑通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块；将所述FE模块插入到骨干网络为ResNet‑50的网络中，得到频域增强的压缩视频人体行为识别FENet网络，对所述FENet网络进行训练；将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果。本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题，与其他基于频域数据的方法相比，达到了更高的识别准确率，与其他基于压缩域数据的方法和基于RGB数据方法相比，也达到了具有竞争力的准确率，同时具有较高的效率。

Description

一种基于频域增强的压缩视频人体行为识别方法

技术领域

本发明涉及视频分析技术领域，尤其涉及一种基于频域增强的压缩视频人体行为识别方法。

背景技术

人体行为识别是智能视频分析领域的研究热点,是智能视频分析与理解、视频监控、人机交互等诸多领域的理论基础，近年来得到了学术界及工程界的广泛重视，人体行为识别在视频检索、自动驾驶和智能监控等方面有广泛的应用前景。而基于压缩域数据和频域数据的人体行为识别方法，由于其高效性，以及压缩域数据、频域数据与RGB数据含有的不同语义和运动线索，近年也受到了大量关注。

而对于实际应用，需要考虑实时性和准确性的问题，现有的方法仍存在许多问题和挑战。在基于RGB数据的人体行为识别方法中，基于卷积神经网络(ConvolutionalNeural Network，CNN)的方法取得了较好的识别效果，但仍存在计算量大、缺乏对全局信息的建模等问题；而视觉Transformer的方法能够捕获长距离的特征依赖关系，提升了人体行为识别任务的识别效果，但仍存在计算量大、需要大量训练数据和缺乏对局部信息的建模等问题。另一方面，基于压缩域数据的人体行为识别方法近年来也受到大量关注。基于压缩域数据的人体行为识别利用视频的压缩域数据而不是RGB数据进行人体行为识别。压缩域数据只保留少数完整帧，即I帧(I frame，I)，其他帧基于偏移进行重建，称为运动矢量(Motion Vector，MV)和残差(Residual，R)。基于压缩域数据的人体行为识别方法达到了较高的识别速度，但解码过程仍需花费较长时间，且仍存在空间信息冗余的问题。此外，基于频域数据进行视觉任务的处理的方法也受到了广泛关注，其将频域数据，即离散余弦变换(Discrete Cosine Transform，DCT)系数作为原始图像或压缩视频格式的替代，提供了数据的频域形式，但大部分方法需要完整解压图像或视频，然后再通过DCT变换计算获得其DCT系数，因此速度并没有显著提升。并且，目前基于频域数据的方法忽略了频域不同通道的显著性不同的特点，造成低频包含的显著纹理和边缘信息的丢失，导致目前基于频域数据的方法的识别准确率相较于基于RGB视频帧的方法仍有一定差距。

目前，现有技术的视频人体行为识别方法存在信息冗余问题和识别效率较低的问题。由于视频的相邻帧之间的相似性较高，视频中含有大量的冗余信息。而视频的压缩域数据只保留少数完整帧(I帧)，其他帧(P帧，包括残差R和运动矢量MV)基于偏移进行重建，能够一定程度降低视频的信息冗余。另一方面，传统的基于RGB数据的人体行为识别方法需要对视频进行完全解码以获得RGB视频帧，而基于压缩域的方法也需要对I帧和残差R进行完全解码获得RGB数据，解码过程所需的预处理时间较长，降低了人体行为识别的效率；且需要对解码得到的RGB帧进行空间下采样，造成了空间显著信息的丢失。

现有技术的基于频域的人体行为识别方法存在低频显著时空纹理和边缘信息丢失的问题。与RGB数据的通道不同，频域数据的通道显著性分布具有一定的特点，即主要时空信息集中在DC和低频通道，而高频通道包含一部分冗余信息和噪声等。现有的频域学习方法直接采用卷积操作对频域数据的所有通道进行相同处理，忽略了不同频域通道所包含信息量不同的特点，导致了低频的显著时空纹理和边缘线索的丢失，造成频域中行为相关的物体和背景信息不能被有效获取，使得基于频域数据的人体行为识别方法的准确率与基于RGB数据及压缩域数据的方法相比有一定的差距。

现有技术中的第一种压缩视频人体行为识别(CoViAR)方法包括：利用压缩视频的I帧、运动矢量MV、残差R进行人体行为识别。具体处理步骤包括：

1)视频解码。通过对压缩视频进行解码，得到压缩域I帧和P帧(残差R、运动矢量

MV)数据。

2)数据处理。为了打破连续P帧之间的依赖性，使得每个P帧只依赖于参考I帧，而不依赖于其他P帧，累计运动矢量和残差到参考I帧。

3)输入网络。将I帧、残差R、运动矢量MV分别输入到ResNet-152、ResNet-18、

ResNet-18网络中，输入帧数均为3帧，最后对输出的预测分数取平均，得到最终的预测结果。

上述现有技术中的第一种压缩视频人体行为识别(CoViAR)方法的缺点包括：

1)采用ResNet-152作为I帧的骨干网络，计算复杂度较高，导致识别速度下降。

2)仍然需要将压缩域的I帧和残差R解码为RGB图片数据，解码过程仍需要较多时间，降低了人体行为识别的效率。

3)存在空间下采样过程中帧内显著空间信息丢失的问题。

现有技术中的第二种从频域进行快速人体行为识别(Fast-CoViAR)的方法包括：利用压缩视频的频域数据进行人体行为识别。具体处理步骤包括：

1)通过对压缩视频进行解码，得到I帧和运动矢量MV数据，不使用残差R。

2)通过熵解码获得I帧频域DCT数据，并选择16或32个主要通道作为输入。

3)将I帧和运动矢量MV分别输入到适应于DCT输入的ResNet50、ResNet18中，输入帧数均为3帧，最后对输出的预测分数取平均，得到最终的预测结果。

上述现有技术中的第二种从频域进行快速人体行为识别(Fast-CoViAR)的方法的缺点包括：

1)频域数据的获取较为复杂，效率提升不明显。

2)缺乏对频域数据的时空上下文的提取。

3)没有充分利用频域数据的显著性分布特点，导致识别准确率相比基于压缩域的基线方法CoViAR出现明显下降，识别性能与基于压缩域的方法相比有较大差距。

现有技术中的第三种基于频域数据的快速压缩视频人体行为识别方法(Faster-FCoViAR)包括：利用压缩视频部分解码，直接获得视频的频域数据，进行快速的压缩视频人体行为识别。具体处理步骤包括：

1)部分解码。通过对压缩视频进行部分解码，得到I帧和残差R的频域数据以及运动矢量MV，效率较高。

2)通道选择。通过实验选择24个信息显著的通道作为输入。

3)输入网络。将频域I帧、频域残差R、运动矢量MV分别输入到ResNet-50、ResNet-

50、ResNet-18网络中，输入帧数均为3帧，最后对输出的预测分数取平均。

4)空间域-频域联合学习。通过知识蒸馏，将空间语义知识从空间教师网络转移到轻量级的频域学生网络。

上述现有技术中的第三种基于频域数据的快速压缩视频人体行为识别方法(Faster-FCoViAR)的缺点包括：

1)输入帧数较少，不利于网络捕获长期运动线索。

2)缺乏对频域数据的时空上下文的提取。

3)对输入网络的频域数据的所有通道进行同等处理，没有充分利用频域数据不同通道的时空显著性不同的特点，造成时空信息的丢失，导致与基于RGB数据的方法仍有准确率的差距。

发明内容

本发明的实施例提供了一种基于频域增强的压缩视频人体行为识别方法，以实现有效地对压缩视频进行人体行为识别。

为了实现上述目的，本发明采取了如下技术方案。

一种基于频域增强的压缩视频人体行为识别方法，包括：

构建频域增强FE模块，所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块；

将所述FE模块插入到骨干网络为ResNet-50的网络中，得到频域增强的压缩视频人体行为识别FENet网络，对所述FENet网络进行训练；

将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果。

优选地，所述的构建频域增强FE模块，所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块，包括：

构建包括TCTHA模块和FOGC模块的FE模块，输入特征首先经过TCTHA模块，将TCTHA模块输出的特征输入到FOGC模块中；

所述TCTHA模块对输入特征X进行全局平均池化，得到空间池化后的特征，对空间池化后的特征进行通道维度的1D卷积，得到不同通道的注意力权重，使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征；

所述FOGC模块将输入特征X的通道分成G组，使得每组内只含有相邻频段的通道，组与组之间有部分通道重叠，对每组特征进行一个时间维度的1D卷积和一个空间2D卷积，对不同组的输出特征沿通道维度进行拼接，应用一个1×1的2D卷积将通道维度转换为与输入通道大小一致，得到最终的输出结果。

优选地，所述的TCTHA模块将输入特征分别输入到通道注意力分支和时间注意力分支，在通道注意力分支中，将输入特征X进行全局平均池化，得到空间池化后的特征/>

对特征U^channel进行通道维度的1D卷积，得到不同通道的注意力权重：

s^channel＝σ(Conv1D(U^channel)) (2)

其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数；

使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征

其中·为通道维度的乘法。

在时间注意力分支中，将特征X进行全局平均池化)后，得到空间池化后的特征

对特征U^temporal进行时间维度的1D卷积，得到不同帧的时间注意力权重，捕获时间上下文信息：

s^temporal＝σ(Conv1D(U^temporal)) (5)

其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数。

使用时间注意力权重对输入特征的时间维度进行加权，得到输出特征

其中·为时间维度的乘法。

将通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接，经过一个1×1的2D卷积将通道维度恢复到输入通道大小，得到最终的输出结果

其中Conv1×1D为1×1的2D卷积，表示通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接。

优选地，所述的将所述FE模块插入到骨干网络为ResNet-50的网络中，得到频域增强的压缩视频人体行为识别FENet网络，对所述FENet网络进行训练，包括：

将FE模块插入到骨干网络为ResNet-50的网络中，使用TCTHA模块和FOGC模块替换掉所有ResNet-50的瓶颈块的3×3的2D卷积，得到频域增强的FENet网络；

FENet网络采用ResNet-50作为骨干网络，采用频域部分解码方法获得压缩视频的频域I帧数据，采样帧数为8帧，将频域I帧数据输入到FENet网络中；

训练FENet网络时，对频域I帧进行随机翻转以进行数据增强，采用权重衰减为0.0001的Adam优化器进行训练，训练的批处理Batch大小设置为64，采用和Kinetics-700数据集进行训练，实验一共训练60轮，初始学习率为0.001，且在第10、24和44轮时衰减为原学习率的1/10，得到训练好的FENet网络。

优选地，所述的将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果，包括：

对于待识别的压缩域视频，采样共8帧的频域I帧，作为训练好的FENet网络的输入数据，输入数据经过FENet网络中的全连接层后，对所有频域I帧的分类分数进行平均，得到所述待识别的压缩域视频的人体行为识别结果。

由上述本发明的实施例提供的技术方案可以看出，本发明方法解决了频域学习的低频纹理和边缘线索丢失问题、时空建模不足的问题，与其他基于频域数据的方法相比，达到了更高的识别准确率，与其他基于压缩域数据的方法和基于RGB数据方法相比，也达到了具有竞争力的准确率，同时具有较高的效率。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于频域增强的压缩视频人体行为识别方法的处理流程图；

图2为本发明实施例提出的一种频域增强模块(FEBlock)的结构示意图。

图3为本发明实施例提出的一种时间-通道双头注意力模块(TCTHA)结构图；

图4为本发明实施例提出的一种频段重叠的分组卷积模块的结构图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例提供了一种基于频域增强的压缩视频人体行为识别方法的处理流程如图1所示，包括如下的处理步骤：

步骤S10：构建如图2所示的频域增强(Frequency Enhancement，FE)模块，该FE模块包括一个时间-通道双头注意力(Temporal-channel Two-heads Attention，TCTHA)模块和一个频段重叠的分组卷积(Frequency Overlapping Group Convolution，FOGC)模块。输入特征首先经过TCTHA模块增强时间和通道关联，随后将TCTHA模块输出的特征输入到FOGC模块中，进一步增强特征的显著低频时空边缘和纹理线索。

步骤S20：将FE模块插入到骨干网络为ResNet-50的网络中，具体地，使用TCTHA模块和FOGC模块替换掉所有ResNet-50的瓶颈块的3×3的2D卷积，得到频域增强的压缩视频人体行为识别网络(Frequency Enhancement Network，FENet)。

FENet网络采用ResNet-50作为骨干网络。首先，采用频域部分解码方法获得压缩视频的频域I帧数据，采样帧数为8帧。随后，将频域I帧数据输入到FENet中。

训练FENet网络时，对频域I帧进行随机翻转以进行数据增强。采用权重衰减为0.0001的Adam优化器进行训练。训练的批处理(Batch)大小设置为64。采用和Kinetics-700数据集进行训练，实验一共训练60轮，初始学习率为0.001，且在第10、24和44轮时衰减为原学习率的1/10。

步骤S30：将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果。

对于待识别的压缩域视频，采样共8帧的频域I帧，不进行任何数据增强，采用一个剪辑(Clip)，作为训练好的FENet网络的输入数据，输入数据经过FENet网络，最终经过全连接层(FC Layer)后，对所有频域I帧的分类分数进行平均(Temporal Average)，得到上述待识别的压缩域视频的人体行为识别结果。

本发明方法可以应用于人体行为识别、视频分类任务中，如：如在视频检索中，对视频进行分类；在智能监控中，对当前行为类别进行分类等；在人机交互中，对人体行为、手势等进行识别。

具体的，上述步骤S10包括：本发明利用压缩视频的频域数据的分布特点，针对频域学习中低频纹理和边缘线索，导致行为相关的物体和场景特征不能被有效提取，造成识别性能的下降的问题，提出了一种FE模块，该FE模块包括一个TCTHA模块和一个FOGC模块。首先，TCTHA模块通过注意力机制强调帧间的时间上下文关联和帧内的显著频率语义。然后，FOGC模块对不同频段的通道进行分组，强调低频纹理和边缘线索，且每组包含共享通道来保持不同频率信息间的交互。

本发明实施例提出的一种时间-通道双头注意力模块(TCTHA)结构如图3所示。为了增强对于人体行为识别重要的频域通道，并加入时间上下文关联信息。首先，对于输入特征将特征X分别输入到两个分支，其一为通道注意力分支，其二为时间注意力分支。

对于通道注意力分支，将输入特征X进行全局平均池化(Global AveragePooling，GAP)，得到空间池化后的特征

随后对特征U^channel进行通道维度的1D卷积，捕获跨通道的交互信息，得到不同通道的注意力权重：

s^channel＝σ(Conv1D(U^channel)) (2)

其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数。

然后使用通道注意力权重对输入特征的通道维度进行加权，得到输出特征

其中·为通道维度的乘法。

另一方面，对于时间注意力分支，同样将特征X进行全局平均池化(GAP)后，得到空间池化后的特征

随后对特征U^temporal进行时间维度的1D卷积，得到不同帧的时间注意力权重，捕获时间上下文信息：

s^temporal＝σ(Conv1D(U^temporal)) (5)

其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数。

然后使用时间注意力权重对输入特征的时间维度进行加权，得到输出特征

其中·为时间维度的乘法。

最后，将通道注意力分支和时间注意力分支的输出特征沿通道维度进行拼接，最后经过一个1×1的2D卷积将通道维度恢复到输入通道大小，得到最终的输出结果

本发明实施例提出的一种频段重叠的分组卷积模块的结构如图4所示。突出低频时空线索，抑制高频冗余和噪声，提高网络的频域时空特征提取能力。首先将输入特征X的通道分成G组，使得每组内只含有相邻频段的通道，减少高频冗余和噪声对低频显著时空语义的干扰：

X＝[X₁；X₂；…；X_g；…；X_G] (8)

并且，组与组之间有部分通道重叠，以促进不同频段通道间的信息交互，重叠部分通道数与每组通道数的比例为α＝n_overlap/n_g。

然后，对每组特征进行一个时间维度的1D卷积和一个空间2D卷积[14]，加强组内的时间上下文联系：

最后，对不同组的输出特征沿通道维度进行拼接，并应用一个1×1的2D卷积将通道维度转换为与输入通道大小一致，得到最终的输出结果，

其中Conv1×1D表示1×1的2D卷积。

通过这种方式，FOGC模块可以更好地提取低频时空线索，提高网络的频域时空建模能力，且分组卷积的计算复杂度低于普通卷积，保持了网络的高效性。

本发明使用时间-通道双头注意力(TCTHA)模块和频段重叠的分组卷积(FOGC)模块替换ResNet-50的瓶颈块的3×3的2D卷积，将FE模块插入到骨干网络为ResNet-50的网络中，替换原ResNet-50的瓶颈块，即得到频域增强的快速压缩视频人体行为识别网络(FENet)。通过FE模块，FENet具有更强的提取低频时空边缘和纹理线索的能力。

综上所述，本发明实施例缓解了现有的频域和压缩域行为算法面临的3个问题：

频域数据的获取的效率问题。本发明利用部分解码，直接获取频域I帧数据作为输入，保留了视频主要信息的同时，降低了数据预处理的复杂度，提高了人体行为识别的效率。

压缩视频的频域数据的时空信息获取不足的问题。本发明提出基于注意力的时间-通道注意力模块(TCTHA)，通过时间注意力和通道注意力，增强对于人体行为识别重要的频域通道，并加入时间上下文关联信息，提高网络对频域关键时间和频域线索的提取能力，进而提高了频域人体行为识别的准确率。

频域学习中低频纹理和边缘信息的丢失导致视频中行为相关的物体和场景特征不能被有效提取的问题。本发明提出一种频段重叠的分组卷积模块(FOGC)，针对频域数据的通道分布特点，即频域的显著纹理和边缘线索集中在DC和低频通道，而高频通道包含冗余信息和噪声，提出将不同频段的通道进行分组，突出低频时空线索，抑制高频冗余和噪声，提高网络的频域时空特征提取能力。通过这种方式，网络能够捕获到关键的低频时空线索，如边缘和纹理线索，使得网络对具有细小边缘、物体纹理较明显的行为类别具有更好的识别效果；且分组卷积的计算复杂度较低，使得网络具有较高的效率。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于频域增强的压缩视频人体行为识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述的构建频域增强FE模块，所述FE模块包括时间-通道双头注意力TCTHA模块和频段重叠的分组卷积FOGC模块，包括：

3.根据权利要求2所述的方法，其特征在于，所述的TCTHA模块将输入特征分别输入到通道注意力分支和时间注意力分支，在通道注意力分支中，将输入特征X进行全局平均池化，得到空间池化后的特征/>

s^channel＝σ(Conv1D(U^channel)) (2)

其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数；

其中·为通道维度的乘法。

s^temporal＝σ(Conv1D(U^temporal)) (5)

其中Conv1D为卷积核大小为5的1D卷积，σ为sigmoid函数。

其中·为时间维度的乘法。

4.根据权利要求1所述的方法，其特征在于，所述的将所述FE模块插入到骨干网络为ResNet-50的网络中，得到频域增强的压缩视频人体行为识别FENet网络，对所述FENet网络进行训练，包括：

5.根据权利要求4所述的方法，其特征在于，所述的将待识别的压缩视频数据输入到训练好的FENet网络中，FENet网络输出所述待识别的压缩视频的人体行为识别结果，包括：