CN116469172A - 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 - Google Patents
一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 Download PDFInfo
- Publication number
- CN116469172A CN116469172A CN202310496638.8A CN202310496638A CN116469172A CN 116469172 A CN116469172 A CN 116469172A CN 202310496638 A CN202310496638 A CN 202310496638A CN 116469172 A CN116469172 A CN 116469172A
- Authority
- CN
- China
- Prior art keywords
- frame
- video
- frequency
- channel
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 15
- 210000000988 bone and bone Anatomy 0.000 title claims description 21
- 238000005070 sampling Methods 0.000 claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 108091006146 Channels Proteins 0.000 claims description 127
- 230000006399 behavior Effects 0.000 claims description 49
- 230000004927 fusion Effects 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 230000006872 improvement Effects 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明提供一种多时间尺度下的骨骼行为识别视频帧提取方法及系统,其技术要点在于,所述方法包括:首先通过目标检测算法对视频中的人物进行框选,获得视频中人物的位置信息,再使用人体关键点估计算法获得视频中人物信息的关键点位置,随后对堆叠后的人体关键点热图进行均匀采样,将均匀采样后的帧进行低中高频采样,使得模型能够从粗粒度到细粒度分层次学习到对于视频不同尺度下的特征,从而加强3D‑CNN对长视频的理解能力;最后,对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息,将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。本发明能够在保证分类的精度的前提下提高模型在长视频上的表现。
Description
技术领域
本发明涉及深度学习、行为检测,骨骼行为识别的多个技术领域,具体地,涉及一种多时间尺度下的骨骼行为识别视频帧提取方法及系统。
背景技术
行为识别随着时间发展,已经变成计算机视觉领域的重要任务,对于行为检测来说,已经发展了多种检测手段,包含有采用光流特征表达、RGB、骨骼等多模态作为特征进行检测,其中骨骼行为检测近些年来收到了越来越高的关注,因为其对于环境中其他信息的干扰有更好的鲁棒性。骨骼行为识别是首先通过网络提出人体关键点,再将检测出的人体关键点的骨骼位置作为一串序列作为网络输入,这样使得识别的时候能更好的注重于关键点的位置信息。
行为识别不同于以往传统的计算机视觉任务,其不仅需要在对图片的空间信息的特征进行提取,同样也需要对时间维度下的信息进行提取,即行为识别不仅依赖于某一帧的图像本身,同时还依赖于时间上关键点信息的变化。骨骼行为识别主要可以分为两大类别,一类是通过将骨骼关键点坐标看作图结构,通过使用图卷积(graph convolutionalnetworks,GCN)对关键点信息进行提取,图卷积通过比较两两帧之间的关键点的差异从而得到关于时间维度上的信息,同时将时间和空间维度进行卷积。
另一类骨骼行为识别方式是采用3D-CNN进行特征提取,3D-CNN通过将CNN的卷积核添加时间维度信息构成新的卷积核,即通过一次对多张图片进行帧的读取,将时间信息引入到特征提取中,以实现网络对时间和空间上的理解。
不论是通过GCN还是通过3D-CNN都需要对时间维度进行处理,但是受限于卷积核的大小,GCN和3D-CNN在长视频上的表现往往会比短视频上的效果更差。
因此,如何在保证分类精度的前提下提高模型在长视频上的表现,成为本领域技术人员亟需解决的技术问题。
发明内容
本发明的目的是提供一种多时间尺度下的骨骼行为识别视频帧提取方法及系统,能够在保证分类的精度的前提下提高模型在长视频上的表现。
根据本发明的第一方面,提供了一种多时间尺度下的骨骼行为识别视频帧提取方法,包括以下步骤:
步骤1:输入原始图像,对原始图像中的视频人物进行框选,提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存;
步骤2:若保存为坐标信息则通过映射函数转换为热图,将热图堆叠后形成对应的人体关键点热图;
步骤3:对堆叠后的人体关键点热图进行均匀采样,获得均匀采样后的帧作为下一阶段采样的原始输入;
步骤4:对均匀采样帧进行处理,对低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同;
步骤5:对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息;
步骤6:将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。
在上述技术方案的基础上,本发明还可以作出如下改进。
可选的,所述对原始图像中的视频人物进行框选包括:
通过目标检测算法对视频中的人物进行框选,输出为包含候选框的处理后的原始图像。
可选的,所述提取出视频中的2D人体姿态关键点包括:
使用自上而下的人体姿态估计模型对框选的人体姿态进行估计,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接;在整个过程中,并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合,网络最终输出的结果作为整体估计的关键点。
可选的,所述对堆叠后的人体关键点热图进行均匀采样包括:将视频切分成等长片段后从各个片段中均匀采样。
可选的,所述对均匀采样帧进行处理包括:取低频采帧通道、中频采帧通道和高帧率采帧通道对采样帧进行处理;其中,对于多个尺度下的通道划分,包括但不局限于以上三个采帧通道,其中,包含多个低频通道、中频通道和高频通道。
可选的,所述将低频采帧通道与中频采帧通道进行融合处理代入以下公式,
式中,Tl表示低帧率的采帧通道,Tm表示中等采帧频率通道,Th表示高帧率采帧通道,num表示为整体数量,即低采帧频率通道和中等采帧频率通道数通过特征拼接后与高帧率采帧通道数一致。
可选的,所述对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息包括:对低频采帧通道与中频采帧通道进行学习,并在此基础上增加输入的帧数,从粗粒度到细粒度不断加深,将学习到的多段特征融合。
可选的,所述将学习到的多段特征融合代入以下公式,
F(n)=gφ(fl+fm)+fh
式中,F(n)为最终的融合特征,n为输入层的层数;fl表示低帧率的采帧通道特征,fm表示中等采帧频率通道特征,fh表示高帧率采帧通道特征,gφ是将低帧率和中等帧率通道采帧进行融合处理的聚合函数。
可选的,所述根据识别后的概率结果,最终输出为行为识别类别包括:
对行为检测结果进行分析和评估,根据数据集的特点和实际需求,选择相应的性能指标进行评估,根据实验结果,对算法进行优化和调整;其中,相应的性能指标包括但不限于准确率、召回率、低帧率的采帧通道特征值。
根据本发明的第二方面,提供一种应用于多尺度下的骨骼行为识别视频帧提取方法的系统,所述系统包括:
视频信息获取模块,用于输入原始图像,对原始图像中的视频人物进行框选,提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存;若保存为坐标信息则通过映射函数转换为热图,将热图堆叠后形成对应的人体关键点热图;
视频信息输入模块,用于对堆叠后的人体关键点热图进行均匀采样,获得均匀采样后的帧作为下一阶段采样的原始输入;
视频信息处理模块,用于对均匀采样帧进行处理,对低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同;对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息;
视频信息输出模块,用于将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。
本发明的技术效果和优点:
本发明提供了一种多时间尺度下的骨骼行为识别视频帧提取方法及系统,能够在保证分类的精度的前提下提高模型在长视频上的表现,通过将均匀采样后的帧进行进一步的低中高频采样,使得模型能够从粗粒度到细粒度分层次学习到对于视频不同尺度下的特征,从而加强3D-CNN对长视频的理解能力。因此本发明能够解决传统3D-CNN在长视频上表现不佳的问题。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。
附图说明
图1为本发明实施例提供的一种多时间尺度下的骨骼行为识别视频帧提取方法步骤流程图;
图2为本发明实施例提供的一种基于3D-CNN算法改进的多时间尺度下采样过程流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
可以理解的是,基于背景技术中的缺陷,本发明实施例提出了一种多时间尺度下的骨骼行为识别视频帧提取方法,具体如图1所示,包含以下步骤:
步骤1:输入原始图像,对原始图像中的视频人物进行框选,提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存;
具体地,所述原始图像包括视频文件。
所述对原始图像中的视频人物进行框选包括:对原始图像中的视频进行目标检测算法识别,获得视频中人物的位置信息。
所述目标检测算法采用Yolo算法进行人体的框选,输出为包含候选框的处理后的图像。所述Yolo算法采用一个单独的CNN模型实现end-to-end的目标检测,核心思想就是利用整张图作为网络的输入,直接在输出层回归bounding box(边界框)的位置及其所属的类别。目的在于将视频中的人框选出来。
所述提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存包括:
通过2D人体姿态估计模型HRNet(Deep High-Resolution RepresentationLearning for Human Pose Estimation)提取出视频中的2D人体姿态关键点,并将其保存为热图(heatmap)或者关键点坐标。
具体地,通过HRnet模型提取出视频中的2D人体姿态关键点具体包括:使用自上而下的人体关键点检测模型(HRNet)对框选的人体姿态进行估计,逐步增加高分辨率到低分辨率的子网(gradually add high-to-low resolution subnetworks),形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合,网络最终输出的结果作为整体估计的关键点。
所述HRnet模型是用于从框选的图中得到人体骨骼关键点。
步骤2:若保存为坐标信息则通过映射函数转换为热图,将关键点热图堆叠后形成对应的人体关键点热图;
进一步地,将关键点热图堆叠后形成对应的人体关键点热图包括:通过将T张K*W*H的热图进行堆叠,形成T*K*W*H的通道的热图,其中T张热图代表着T帧,K代表的是K个人体关键点,W和H是热图的宽高,通过热图堆叠可以使得模型学习时间维度特征。
步骤3:对堆叠后的人体关键点热图进行均匀采样,获得均匀采样后的帧作为下一阶段采样的原始输入。
所述对堆叠后的人体关键点热图进行均匀采样包括:将视频切分成等长片段后从各个片段中均匀采样。
在本实施例中,均匀采样具体包括:采用一定数量的帧数做为总的输入帧,从整个总的输入帧中均匀采样n帧。
步骤4:对均匀采样帧进行处理,包括对低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同;
如图2所示为基于3D-CNN算法改进的多时间尺度下采样过程流程图,所述对均匀采样帧进行处理具体包括以下步骤:
通过将帧融合形成新的特征以提升对长视频更好的理解能力,取三种采帧方式对均匀采样帧进行处理,分别是低频采帧通道、中频采帧通道和高帧率采帧通道。其中,
(1)低频通道帧采样
低频通道采样较少,通常不大于n/4帧,表示为对视频整体进行粗略特征分析通道。
(2)中频通道帧采样
中频通道采样较多,通常不大于n/3帧,表示为对视频整体进行进一步了解的特征分析通道。
(3)高频通道帧采样
高频通道采样最多,通常不大于n/2帧,表示为对视频整体进行详细了解的特征分析通道。
所述对低频采帧通道与中频采帧通道进行融合处理包括:
将低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同。其中,低频采帧通道与中频采帧通道融合函数表示如下:
式中,Tl表示低帧率的采帧通道,Tm表示中等采帧频率通道,Th表示高帧率采帧通道。
步骤5:对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息;
所述对多尺度下不同频率帧采用并行方式卷积通道包括:多尺度下帧卷积和多尺度下帧特征融合。其中,多尺度下帧卷积包括:在多尺度下,对均匀采样后的低频采帧通道与中频采帧通道进行融合,采用并行方式卷积通道,各个通道间使用独立3D卷积核并采用残差连接(skip-connection)进行连接。具体地,通过先对低频采帧通道与中频采帧通道进行学习,对整段视频有一定的理解,再在此基础上增加输入的帧数,从粗粒度到细粒度不断加深,从而取到比原有直接输入更详细的特征理解,将学习到的多段特征融合,使得学习到更有效的时间序列信息。
多尺度下帧卷积还包括:对均匀采样后的高频采帧通道采用并行方式卷积通道,各个通道间使用独立3D卷积核并采用残差连接(skip-connection)进行特征交换,并在此基础上增加输入的帧数,从粗粒度到细粒度不断加深,将学习到的多段特征融合。
对于多个尺度下的通道划分,包括但不局限于三个采帧通道,可能包含多个低频通道、中频通道和高频通道。
多尺度下帧特征融合包括:代入多段特征融合公式,表示如下:
F(n)=gφ(fl+fm)+fh
式中,F(n)为最终的融合特征,n为输入层的层数,fl表示低帧率的采帧通道特征,fm表示中等采帧频率通道特征,fh表示高帧率采帧通道特征,gφ是将低帧率和中等帧率通道采帧进行融合处理的聚合函数。
在本实施例中,采用PoseC3D进行行为特征的提取,PoseC3D中针对Pose姿态和RGB光流特征改进了SlowFast,提出了两种3D-CNN:分别为Pose-SlowOnly和RGBPose-SlowFast。其中RGBPose-SlowFast包含两个分支,分别处理RGB和骨骼两个模态。RGB分支具有低帧率以及更大的网络宽度,骨骼分支具有高帧率和更小的网络宽度,两分支间存在双向连接,以促进模态间的特征融合。PoseC3D在长视频上的表现往往会比短视频上的效果更差,为了解决这个问题,我们提出通过一种多时间尺度下的网络来解决上述问题,通过不同时间尺度下的帧输入,改进时间卷积,以取得更好的对时间维度上的理解能力。
步骤6:将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。
所述根据识别后的概率结果,最终输出为行为识别类别包括:对行为检测结果进行分析和评估,根据实验结果,对算法进行优化和调整,以提高行为检测的准确性和效率。其中,根据数据集的特点和实际需求,选择相应的性能指标进行评估,包括但不限于准确率、召回率、F1值等。
综上所述,本发明提供了一种多时间尺度下的骨骼行为识别视频帧提取方法,能够在保证分类的精度的前提下提高模型在长视频上的表现,通过将均匀采样后的帧进行进一步的低中高频采样,使得模型能够从粗粒度到细粒度分层次学习到对于视频不同尺度下的特征,从而加强3D-CNN对长视频的理解能力。因此本发明能够解决传统3D-CNN在长视频上表现不佳的问题。
本发明实施例还提供一种应用于多尺度下的骨骼行为识别视频帧提取方法的系统,所述系统包括:
视频信息获取模块,用于输入原始图像,对原始图像中的视频人物进行框选,提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存;若保存为坐标信息则通过映射函数转换为热图,将热图堆叠后形成对应的人体关键点热图;
视频信息输入模块,用于对堆叠后的人体关键点热图进行均匀采样,获得均匀采样后的帧作为下一阶段采样的原始输入;
视频信息处理模块,用于对均匀采样帧进行处理,对低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同;对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息;
视频信息输出模块,用于将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。
可以理解的是,本发明提供的一种多时间尺度下的骨骼行为识别视频帧提取系统与前述各实施例提供的一种多时间尺度下的骨骼行为识别视频帧提取方法相对应,一种多时间尺度下的骨骼行为识别视频帧提取系统的相关技术特征可参考一种多时间尺度下的骨骼行为识别视频帧提取方法的相关技术特征,在此不再赘述。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,包括以下步骤:
步骤1:输入原始图像,对原始图像中的视频人物进行框选,提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存;
步骤2:若保存为坐标信息则通过映射函数转换为热图,将热图堆叠后形成对应的人体关键点热图;
步骤3:对堆叠后的人体关键点热图进行均匀采样,获得均匀采样后的帧作为下一阶段采样的原始输入;
步骤4:对均匀采样帧进行处理,对低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同;
步骤5:对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息;
步骤6:将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。
2.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述对原始图像中的视频人物进行框选包括:
通过目标检测算法对视频中的人物进行框选,输出为包含候选框的处理后的原始图像。
3.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述提取出视频中的2D人体姿态关键点包括:
使用自上而下的人体姿态估计模型对框选的人体姿态进行估计,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接;在整个过程中,并行的多分辨率子网络上反复交换信息来进行多尺度的重复融合,网络最终输出的结果作为整体估计的关键点。
4.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述对堆叠后的人体关键点热图进行均匀采样包括:将视频切分成等长片段后从各个片段中均匀采样。
5.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述对均匀采样帧进行处理包括:取低频采帧通道、中频采帧通道和高帧率采帧通道对采样帧进行处理;其中,对于多个尺度下的通道划分,包括但不局限于以上三个采帧通道,其中,包含多个低频通道、中频通道和高频通道。
6.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述将低频采帧通道与中频采帧通道进行融合处理代入以下公式,
式中,Tl表示低帧率的采帧通道,Tm表示中等采帧频率通道,Th表示高帧率采帧通道,num表示为整体数量,即低采帧频率通道和中等采帧频率通道数通过特征拼接后与高帧率采帧通道数一致。
7.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息包括:对低频采帧通道与中频采帧通道进行学习,并在此基础上增加输入的帧数,从粗粒度到细粒度不断加深,将学习到的多段特征融合。
8.根据权利要求7所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述将学习到的多段特征融合代入以下公式,
F(n)=qφ(fl+fm)+fh
式中,F(n)为最终的融合特征,n为输入层的层数;fl表示低帧率的采帧通道特征,fm表示中等采帧频率通道特征,fh表示高帧率采帧通道特征,gφ是将低帧率和中等帧率通道采帧进行融合处理的聚合函数。
9.根据权利要求1所述的一种多时间尺度下的骨骼行为识别视频帧提取方法,其特征在于,所述根据识别后的概率结果,最终输出为行为识别类别包括:
对行为检测结果进行分析和评估,根据数据集的特点和实际需求,选择相应的性能指标进行评估,根据实验结果,对算法进行优化和调整;其中,相应的性能指标包括但不限于准确率、召回率、低帧率的采帧通道特征值。
10.一种应用于多时间尺度下的骨骼行为识别视频帧提取方法的系统,其特征在于,所述系统包括:
视频信息获取模块,用于输入原始图像,对原始图像中的视频人物进行框选,提取出视频中的2D人体姿态关键点,将获取的关键点转化为热图或坐标信息保存;若保存为坐标信息则通过映射函数转换为热图,将热图堆叠后形成对应的人体关键点热图;
视频信息输入模块,用于对堆叠后的人体关键点热图进行均匀采样,获得均匀采样后的帧作为下一阶段采样的原始输入;
视频信息处理模块,用于对均匀采样帧进行处理,对低频采帧通道与中频采帧通道进行融合处理,融合后低频通道、中频通道的帧数与高频通道相同;对多尺度下不同频率帧采用并行方式卷积通道,获取对应的特征信息;
视频信息输出模块,用于将特征信息经过判断结果并归一化处理,根据识别后的概率结果,最终输出为行为识别类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496638.8A CN116469172A (zh) | 2023-04-27 | 2023-04-27 | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310496638.8A CN116469172A (zh) | 2023-04-27 | 2023-04-27 | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116469172A true CN116469172A (zh) | 2023-07-21 |
Family
ID=87184271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310496638.8A Pending CN116469172A (zh) | 2023-04-27 | 2023-04-27 | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469172A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523677A (zh) * | 2024-01-02 | 2024-02-06 | 武汉纺织大学 | 一种基于深度学习的课堂行为识别方法 |
-
2023
- 2023-04-27 CN CN202310496638.8A patent/CN116469172A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117523677A (zh) * | 2024-01-02 | 2024-02-06 | 武汉纺织大学 | 一种基于深度学习的课堂行为识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sankaranarayanan et al. | Learning from synthetic data: Addressing domain shift for semantic segmentation | |
Anwar et al. | Image colorization: A survey and dataset | |
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN112150493B (zh) | 一种基于语义指导的自然场景下屏幕区域检测方法 | |
CN106548169A (zh) | 基于深度神经网络的模糊文字增强方法及装置 | |
Wang et al. | Multiscale deep alternative neural network for large-scale video classification | |
CN111353544B (zh) | 一种基于改进的Mixed Pooling-YOLOV3目标检测方法 | |
CN115457531A (zh) | 用于识别文本的方法和装置 | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN106407978B (zh) | 一种结合似物度的无约束视频中显著物体检测方法 | |
CN113449691A (zh) | 一种基于非局部注意力机制的人形识别系统及方法 | |
CN112580480A (zh) | 一种高光谱遥感影像分类方法及装置 | |
CN111209873A (zh) | 一种基于深度学习的高精度人脸关键点定位方法及系统 | |
CN113409355A (zh) | 一种基于fpga的运动目标识别系统及方法 | |
CN113988147A (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN116469172A (zh) | 一种多时间尺度下的骨骼行为识别视频帧提取方法及系统 | |
Chen et al. | Adaptive fusion network for RGB-D salient object detection | |
US20230072445A1 (en) | Self-supervised video representation learning by exploring spatiotemporal continuity | |
CN110751271A (zh) | 一种基于深度神经网络的图像溯源特征表征方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN112380978A (zh) | 基于关键点定位的多人脸检测方法、系统及存储介质 | |
CN116798041A (zh) | 图像识别方法、装置和电子设备 | |
CN112989919B (zh) | 一种从影像中提取目标对象的方法及系统 | |
CN117036658A (zh) | 一种图像处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |