CN116469172A

CN116469172A - 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统

Info

Publication number: CN116469172A
Application number: CN202310496638.8A
Authority: CN
Inventors: 陈宏伟; 李梦杰
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-21

Abstract

本发明提供一种多时间尺度下的骨骼行为识别视频帧提取方法及系统，其技术要点在于，所述方法包括：首先通过目标检测算法对视频中的人物进行框选，获得视频中人物的位置信息，再使用人体关键点估计算法获得视频中人物信息的关键点位置，随后对堆叠后的人体关键点热图进行均匀采样，将均匀采样后的帧进行低中高频采样，使得模型能够从粗粒度到细粒度分层次学习到对于视频不同尺度下的特征，从而加强3D‑CNN对长视频的理解能力；最后，对多尺度下不同频率帧采用并行方式卷积通道，获取对应的特征信息，将特征信息经过判断结果并归一化处理，根据识别后的概率结果，最终输出为行为识别类别。本发明能够在保证分类的精度的前提下提高模型在长视频上的表现。

Description

一种多时间尺度下的骨骼行为识别视频帧提取方法及系统

技术领域

本发明涉及深度学习、行为检测，骨骼行为识别的多个技术领域，具体地，涉及一种多时间尺度下的骨骼行为识别视频帧提取方法及系统。

背景技术

行为识别随着时间发展，已经变成计算机视觉领域的重要任务，对于行为检测来说，已经发展了多种检测手段，包含有采用光流特征表达、RGB、骨骼等多模态作为特征进行检测，其中骨骼行为检测近些年来收到了越来越高的关注，因为其对于环境中其他信息的干扰有更好的鲁棒性。骨骼行为识别是首先通过网络提出人体关键点，再将检测出的人体关键点的骨骼位置作为一串序列作为网络输入，这样使得识别的时候能更好的注重于关键点的位置信息。

行为识别不同于以往传统的计算机视觉任务，其不仅需要在对图片的空间信息的特征进行提取，同样也需要对时间维度下的信息进行提取，即行为识别不仅依赖于某一帧的图像本身，同时还依赖于时间上关键点信息的变化。骨骼行为识别主要可以分为两大类别，一类是通过将骨骼关键点坐标看作图结构，通过使用图卷积(graph convolutionalnetworks，GCN)对关键点信息进行提取，图卷积通过比较两两帧之间的关键点的差异从而得到关于时间维度上的信息，同时将时间和空间维度进行卷积。

另一类骨骼行为识别方式是采用3D-CNN进行特征提取，3D-CNN通过将CNN的卷积核添加时间维度信息构成新的卷积核，即通过一次对多张图片进行帧的读取，将时间信息引入到特征提取中，以实现网络对时间和空间上的理解。

不论是通过GCN还是通过3D-CNN都需要对时间维度进行处理，但是受限于卷积核的大小，GCN和3D-CNN在长视频上的表现往往会比短视频上的效果更差。

因此，如何在保证分类精度的前提下提高模型在长视频上的表现，成为本领域技术人员亟需解决的技术问题。

发明内容

本发明的目的是提供一种多时间尺度下的骨骼行为识别视频帧提取方法及系统，能够在保证分类的精度的前提下提高模型在长视频上的表现。

根据本发明的第一方面，提供了一种多时间尺度下的骨骼行为识别视频帧提取方法，包括以下步骤：

步骤1：输入原始图像，对原始图像中的视频人物进行框选，提取出视频中的2D人体姿态关键点，将获取的关键点转化为热图或坐标信息保存；

步骤2：若保存为坐标信息则通过映射函数转换为热图，将热图堆叠后形成对应的人体关键点热图；

步骤3：对堆叠后的人体关键点热图进行均匀采样，获得均匀采样后的帧作为下一阶段采样的原始输入；

步骤4：对均匀采样帧进行处理，对低频采帧通道与中频采帧通道进行融合处理，融合后低频通道、中频通道的帧数与高频通道相同；

步骤5：对多尺度下不同频率帧采用并行方式卷积通道，获取对应的特征信息；

步骤6：将特征信息经过判断结果并归一化处理，根据识别后的概率结果，最终输出为行为识别类别。

在上述技术方案的基础上，本发明还可以作出如下改进。

可选的，所述对原始图像中的视频人物进行框选包括：

通过目标检测算法对视频中的人物进行框选，输出为包含候选框的处理后的原始图像。

可选的，所述提取出视频中的2D人体姿态关键点包括：

使用自上而下的人体姿态估计模型对框选的人体姿态进行估计，逐步增加高分辨率到低分辨率的子网，形成更多的阶段，并将多分辨率子网并行连接；在整个过程中，并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合，网络最终输出的结果作为整体估计的关键点。

可选的，所述对堆叠后的人体关键点热图进行均匀采样包括：将视频切分成等长片段后从各个片段中均匀采样。

可选的，所述对均匀采样帧进行处理包括：取低频采帧通道、中频采帧通道和高帧率采帧通道对采样帧进行处理；其中，对于多个尺度下的通道划分，包括但不局限于以上三个采帧通道，其中，包含多个低频通道、中频通道和高频通道。

可选的，所述将低频采帧通道与中频采帧通道进行融合处理代入以下公式,

式中，T_l表示低帧率的采帧通道，T_m表示中等采帧频率通道，T_h表示高帧率采帧通道,num表示为整体数量，即低采帧频率通道和中等采帧频率通道数通过特征拼接后与高帧率采帧通道数一致。

可选的，所述对多尺度下不同频率帧采用并行方式卷积通道，获取对应的特征信息包括：对低频采帧通道与中频采帧通道进行学习，并在此基础上增加输入的帧数，从粗粒度到细粒度不断加深，将学习到的多段特征融合。

可选的，所述将学习到的多段特征融合代入以下公式，

F(n)＝g_φ(f_l+f_m)+f_h

式中，F(n)为最终的融合特征，n为输入层的层数；f_l表示低帧率的采帧通道特征，f_m表示中等采帧频率通道特征，f_h表示高帧率采帧通道特征，gφ是将低帧率和中等帧率通道采帧进行融合处理的聚合函数。

可选的，所述根据识别后的概率结果，最终输出为行为识别类别包括：

对行为检测结果进行分析和评估，根据数据集的特点和实际需求，选择相应的性能指标进行评估，根据实验结果，对算法进行优化和调整；其中，相应的性能指标包括但不限于准确率、召回率、低帧率的采帧通道特征值。

根据本发明的第二方面，提供一种应用于多尺度下的骨骼行为识别视频帧提取方法的系统，所述系统包括：

视频信息获取模块，用于输入原始图像，对原始图像中的视频人物进行框选，提取出视频中的2D人体姿态关键点，将获取的关键点转化为热图或坐标信息保存；若保存为坐标信息则通过映射函数转换为热图，将热图堆叠后形成对应的人体关键点热图；

视频信息输入模块，用于对堆叠后的人体关键点热图进行均匀采样，获得均匀采样后的帧作为下一阶段采样的原始输入；

视频信息处理模块，用于对均匀采样帧进行处理，对低频采帧通道与中频采帧通道进行融合处理，融合后低频通道、中频通道的帧数与高频通道相同；对多尺度下不同频率帧采用并行方式卷积通道，获取对应的特征信息；

视频信息输出模块，用于将特征信息经过判断结果并归一化处理，根据识别后的概率结果，最终输出为行为识别类别。

本发明的技术效果和优点：

本发明提供了一种多时间尺度下的骨骼行为识别视频帧提取方法及系统，能够在保证分类的精度的前提下提高模型在长视频上的表现，通过将均匀采样后的帧进行进一步的低中高频采样，使得模型能够从粗粒度到细粒度分层次学习到对于视频不同尺度下的特征，从而加强3D-CNN对长视频的理解能力。因此本发明能够解决传统3D-CNN在长视频上表现不佳的问题。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

图1为本发明实施例提供的一种多时间尺度下的骨骼行为识别视频帧提取方法步骤流程图；

图2为本发明实施例提供的一种基于3D-CNN算法改进的多时间尺度下采样过程流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

可以理解的是，基于背景技术中的缺陷，本发明实施例提出了一种多时间尺度下的骨骼行为识别视频帧提取方法，具体如图1所示，包含以下步骤：

具体地，所述原始图像包括视频文件。

所述对原始图像中的视频人物进行框选包括：对原始图像中的视频进行目标检测算法识别，获得视频中人物的位置信息。

所述目标检测算法采用Yolo算法进行人体的框选，输出为包含候选框的处理后的图像。所述Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测，核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box(边界框)的位置及其所属的类别。目的在于将视频中的人框选出来。

所述提取出视频中的2D人体姿态关键点，将获取的关键点转化为热图或坐标信息保存包括：

通过2D人体姿态估计模型HRNet(Deep High-Resolution RepresentationLearning for Human Pose Estimation)提取出视频中的2D人体姿态关键点，并将其保存为热图(heatmap)或者关键点坐标。

具体地，通过HRnet模型提取出视频中的2D人体姿态关键点具体包括：使用自上而下的人体关键点检测模型(HRNet)对框选的人体姿态进行估计，逐步增加高分辨率到低分辨率的子网(gradually add high-to-low resolution subnetworks)，形成更多的阶段，并将多分辨率子网并行连接。在整个过程中，并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合，网络最终输出的结果作为整体估计的关键点。

所述HRnet模型是用于从框选的图中得到人体骨骼关键点。

步骤2：若保存为坐标信息则通过映射函数转换为热图，将关键点热图堆叠后形成对应的人体关键点热图；

进一步地，将关键点热图堆叠后形成对应的人体关键点热图包括：通过将T张K*W*H的热图进行堆叠，形成T*K*W*H的通道的热图，其中T张热图代表着T帧，K代表的是K个人体关键点，W和H是热图的宽高，通过热图堆叠可以使得模型学习时间维度特征。

步骤3：对堆叠后的人体关键点热图进行均匀采样，获得均匀采样后的帧作为下一阶段采样的原始输入。

所述对堆叠后的人体关键点热图进行均匀采样包括：将视频切分成等长片段后从各个片段中均匀采样。

在本实施例中，均匀采样具体包括：采用一定数量的帧数做为总的输入帧，从整个总的输入帧中均匀采样n帧。

步骤4：对均匀采样帧进行处理，包括对低频采帧通道与中频采帧通道进行融合处理，融合后低频通道、中频通道的帧数与高频通道相同；

如图2所示为基于3D-CNN算法改进的多时间尺度下采样过程流程图，所述对均匀采样帧进行处理具体包括以下步骤：

通过将帧融合形成新的特征以提升对长视频更好的理解能力，取三种采帧方式对均匀采样帧进行处理，分别是低频采帧通道、中频采帧通道和高帧率采帧通道。其中，

(1)低频通道帧采样

低频通道采样较少，通常不大于n/4帧，表示为对视频整体进行粗略特征分析通道。

(2)中频通道帧采样

中频通道采样较多，通常不大于n/3帧，表示为对视频整体进行进一步了解的特征分析通道。

(3)高频通道帧采样

高频通道采样最多，通常不大于n/2帧，表示为对视频整体进行详细了解的特征分析通道。

所述对低频采帧通道与中频采帧通道进行融合处理包括：

将低频采帧通道与中频采帧通道进行融合处理，融合后低频通道、中频通道的帧数与高频通道相同。其中，低频采帧通道与中频采帧通道融合函数表示如下：

式中，T_l表示低帧率的采帧通道，T_m表示中等采帧频率通道，T_h表示高帧率采帧通道。

所述对多尺度下不同频率帧采用并行方式卷积通道包括：多尺度下帧卷积和多尺度下帧特征融合。其中，多尺度下帧卷积包括：在多尺度下，对均匀采样后的低频采帧通道与中频采帧通道进行融合，采用并行方式卷积通道，各个通道间使用独立3D卷积核并采用残差连接(skip-connection)进行连接。具体地，通过先对低频采帧通道与中频采帧通道进行学习，对整段视频有一定的理解，再在此基础上增加输入的帧数，从粗粒度到细粒度不断加深，从而取到比原有直接输入更详细的特征理解，将学习到的多段特征融合，使得学习到更有效的时间序列信息。

多尺度下帧卷积还包括：对均匀采样后的高频采帧通道采用并行方式卷积通道，各个通道间使用独立3D卷积核并采用残差连接(skip-connection)进行特征交换，并在此基础上增加输入的帧数，从粗粒度到细粒度不断加深，将学习到的多段特征融合。

对于多个尺度下的通道划分，包括但不局限于三个采帧通道，可能包含多个低频通道、中频通道和高频通道。

多尺度下帧特征融合包括：代入多段特征融合公式，表示如下：

F(n)＝g_φ(f_l+f_m)+f_h

式中，F(n)为最终的融合特征，n为输入层的层数，f_l表示低帧率的采帧通道特征，f_m表示中等采帧频率通道特征，f_h表示高帧率采帧通道特征，gφ是将低帧率和中等帧率通道采帧进行融合处理的聚合函数。

在本实施例中，采用PoseC3D进行行为特征的提取，PoseC3D中针对Pose姿态和RGB光流特征改进了SlowFast，提出了两种3D-CNN：分别为Pose-SlowOnly和RGBPose-SlowFast。其中RGBPose-SlowFast包含两个分支，分别处理RGB和骨骼两个模态。RGB分支具有低帧率以及更大的网络宽度，骨骼分支具有高帧率和更小的网络宽度，两分支间存在双向连接，以促进模态间的特征融合。PoseC3D在长视频上的表现往往会比短视频上的效果更差，为了解决这个问题，我们提出通过一种多时间尺度下的网络来解决上述问题，通过不同时间尺度下的帧输入，改进时间卷积，以取得更好的对时间维度上的理解能力。

所述根据识别后的概率结果，最终输出为行为识别类别包括：对行为检测结果进行分析和评估，根据实验结果，对算法进行优化和调整，以提高行为检测的准确性和效率。其中，根据数据集的特点和实际需求，选择相应的性能指标进行评估，包括但不限于准确率、召回率、F1值等。

综上所述，本发明提供了一种多时间尺度下的骨骼行为识别视频帧提取方法，能够在保证分类的精度的前提下提高模型在长视频上的表现，通过将均匀采样后的帧进行进一步的低中高频采样，使得模型能够从粗粒度到细粒度分层次学习到对于视频不同尺度下的特征，从而加强3D-CNN对长视频的理解能力。因此本发明能够解决传统3D-CNN在长视频上表现不佳的问题。

本发明实施例还提供一种应用于多尺度下的骨骼行为识别视频帧提取方法的系统，所述系统包括：

可以理解的是，本发明提供的一种多时间尺度下的骨骼行为识别视频帧提取系统与前述各实施例提供的一种多时间尺度下的骨骼行为识别视频帧提取方法相对应，一种多时间尺度下的骨骼行为识别视频帧提取系统的相关技术特征可参考一种多时间尺度下的骨骼行为识别视频帧提取方法的相关技术特征，在此不再赘述。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述对原始图像中的视频人物进行框选包括：

3.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述提取出视频中的2D人体姿态关键点包括：

4.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述对堆叠后的人体关键点热图进行均匀采样包括：将视频切分成等长片段后从各个片段中均匀采样。

5.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述对均匀采样帧进行处理包括：取低频采帧通道、中频采帧通道和高帧率采帧通道对采样帧进行处理；其中，对于多个尺度下的通道划分，包括但不局限于以上三个采帧通道，其中，包含多个低频通道、中频通道和高频通道。

6.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述将低频采帧通道与中频采帧通道进行融合处理代入以下公式，

7.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述对多尺度下不同频率帧采用并行方式卷积通道，获取对应的特征信息包括：对低频采帧通道与中频采帧通道进行学习，并在此基础上增加输入的帧数，从粗粒度到细粒度不断加深，将学习到的多段特征融合。

8.根据权利要求7所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述将学习到的多段特征融合代入以下公式，

F(n)＝q_φ(f_l+f_m)+f_h

9.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法，其特征在于，所述根据识别后的概率结果，最终输出为行为识别类别包括：

10.一种应用于多时间尺度下的骨骼行为识别视频帧提取方法的系统，其特征在于，所述系统包括：