CN115620394A - 一种基于骨架的行为识别方法、系统、装置及存储介质 - Google Patents
一种基于骨架的行为识别方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN115620394A CN115620394A CN202211265481.XA CN202211265481A CN115620394A CN 115620394 A CN115620394 A CN 115620394A CN 202211265481 A CN202211265481 A CN 202211265481A CN 115620394 A CN115620394 A CN 115620394A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- behavior recognition
- based behavior
- recognition method
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000004913 activation Effects 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000003238 somatosensory effect Effects 0.000 claims abstract 2
- 230000006399 behavior Effects 0.000 claims description 53
- 230000008569 process Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 230000007774 longterm Effects 0.000 abstract description 6
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/34—Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于骨架的行为识别方法、系统、装置及存储介质,通过获取体感摄像头拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标,将骨架坐标输入至集成了多尺度运动激活模块的图卷积神经网络中。然后利用图卷积神经网络提取骨架关节点的空间特征和长期时序特征,并使用多尺度运动激活模块提取骨架关节点的多尺度短期运动特征,提升模型的时序表征能力。
Description
技术领域
本发明属于计算机视觉领域,特别是一种基于骨架的行为识别方法、系统、装置及存储介质。
背景技术
行为识别是计算机视觉的一个基本问题,在智能监控、智慧交通、人机交互。医疗健康等众多领域扮演着越来越重要的角色。行为识别方法可以根据使用的数据模态不同,划分为基于视频和基于骨架的方法。近年来,随着硬件的升级(如微软Kinect相机)和人体姿态估计方法的性能提升,基于骨架的行为识别任务受到了广泛关注,已成为一个研究热点。基于骨架的行为识别任务,旨在建模人体骨架序列的运动模式,提取骨架序列的时空特征,从而识别骨架序列代表的行为。
相比于视频模态,骨架是非欧几里德结构数据,只包含二维或者三维的人体关节点位置坐标,其数据维度更低,且对环境或光照变化具有更强的鲁棒性。骨架关节点的短期运动信息是识别骨架行为的重要信息,揭示了骨架的运动方向和大小,但现有的基于图卷积神经网络的方法更多的关注如何建模骨架关节点的空间依赖关系,忽略了骨架关节点的运动信息,单一尺度的运动信息难以模拟不同运动速率的骨架行为,限制了模型的泛化能力。如何提取多尺度的短期运动信息,从而提高基于骨架的行为识别精度目前仍有待解决。
发明内容:
本发明要解决的技术问题是现有算法行为识别精度低。
为了解决上述问题,本发明提出一种基于骨架的行为识别方法、系统、装置及存储介质。
一种基于骨架的行为识别方法,包括:
S1,获取人体骨架关节点坐标,根据多帧的人体骨架关节点坐标得到骨架序列;
S3,将特征X通过卷积操作得到两个特征X1和X2,扩展X1和X2的维度,将扩展后的X1和X2调整至相同的维度,对调整后的两个特征进行融合,得到特征权重M,将M全局平均后得到激活权重Mp,将Mp与X进行点乘,得到激活特征Xr;
S4,将Xr输入时序卷积神经网络,得到一层包括特征X、特征Xm以及时序特征的网络输出;
S5,重复S2到S4,直至得到全部层的网络输出,作为关节点最终特征,将该最终特征池化后输入分类器,通过分类器将最终特征映射到行为类别,将该类别作为骨架的行为识别结果。
优选的,S3中,将X1的维度扩展为[B,C,T,1,N],将X2的维度扩展为[B,C,1,T,N];通过矩阵广播机制的作用,将扩展后的X1和X2调整至相同的维度。
优选的,S3中,通过公式M=σ(X1-X2)进行融合,其中σ(·)为双曲正切激活函数。
优选的,S3中,Mp与X点乘后得到Xm,对Xm残差连接特征X后得到激活特征Xr,即Xr=Xm+X。
优选的,S3中,激活权重Mp后,使用2D卷积层将Mp还原到与特征X相同的通道维度。
一种基于骨架的行为识别系统,用于实现上述的基于骨架的行为识别方法,包括采集模块,用于获取体感设备拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标;空间关系提取模块,用于提取骨架序列的空间特征;运动激活模块,用于提取激活特征和时序特征;分类模块,用于输出骨架的行为识别结果。
一种基于骨架的行为识别装置,包括处理器和存储器,所述存储器用于存储至少一个程序,处理器用于执行上述的基于骨架的行为识别方法。
一种基于骨架的行为识别存储介质,用于存储实现上述的基于骨架的行为识别方法的指令或程序。
本发明同现有技术相比具有以下优点及效果:
本发明利用图卷积神经网络提取骨架关节点的空间特征和长期时序特征,并使用多尺度运动激活模块提取骨架关节点的多尺度短期运动特征,提升模型的时序表征能力。目标网络有效地利用了骨架关节点的运动信息,具有更强的时序表征能力,基于骨架的行为识别结果的准确度会上升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程图。
图2是本发明的多尺度运动激活模块结构示意图。
图3是本发明的多尺度运动激活模块插入位置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:一种基于骨架的行为识别方法,包括:
步骤1、获取人体骨架关节点坐标数据。
使用体感摄像头(如微软Kinect相机)获取人体骨架关节点坐标,或者使用普通的摄像头拍摄视频,并利用现有的人体姿态估计方法(如,OpenPose)提取视频中的人体骨架关节点坐标,根据多帧图像的人体骨架关节点坐标得到骨架序列。
步骤2、提取骨架关节点的空间特征。
为了提取骨架关节点的空间依赖关系,可以根据应用场景的不同,任意选择现有的图卷积神经网络,比如,对于准确率要求高的场景,可以选择CTR-GCN网络,对于实时性要求高的场景,可以选择Shift-GCN网络。使用现有算法,将骨架关节点坐标输入到图卷积神经网络中,建模骨架关节点的空间依赖关系,提取骨架序列的空间特征。
步骤3、提取骨架关节点的短期运动特征和长期时序特征。
3.1、提取骨架关节点的短期运动特征
如图2所示的多尺度运动激活模块可以提取骨架关节点的短期运动特征,给定输入的节点特征其中B是批处理大小,C是通道维度,T是骨架序列的长度,N是骨架序列中单帧的骨架关节点的节点数量。优选的,为了以降低参数量和计算量并模拟骨架关节点的运动,可以使用两个1×1的2D卷积层来减少特征通道的数量,即使用两个1×1的2D卷积层将X映射到不同空间:
X1=conv1*X
X2=conv2*X
为了提取多尺度的短期运动特征,需要计算任意两帧骨架的特征差异。通过分别扩展骨架序列特征X1和X2的维度,使它们的维度变成[B,C/r,T,1,N]和[B,C/r,1,T,N]。在矩阵广播机制的作用下,可以获得多尺度的运动激活权重M。该过程可由如下公式表示
M=σ(X1-X2)
M表示任意两帧的特征差异,为了聚合一帧与所有帧的特征差异,使用一个全局平均池化层p(·)来得到聚合后的多尺度运动激活权重Mp。由于X1和X2经过通道缩减,则需要使用一个1×1的2D卷积层(conv3)来将Mp的通道维度还原到原始节点特征X的通道维度。该过程可表示为
该模块的目的是激活运动敏感的特征通道,因此将多尺度运动激活权重Mp与骨架关节点特征X通过点乘的方法,激活运动敏感的特征通道,当通道不缩减时,同时,还使用另一个1×1的2D卷积层(conv4)来更新节点特征,提高节点特征X的表征能力。该过程可表示为
其中,Xm为更新后的节点特征,⊙表示点乘操作。
虽然通过点乘的方式可以激活运动敏感的特征通道,也可能会抑制其他的特征通道,如位置信息,节点类型信息的通道。为了解决这个问题,该模块使用一个残差连接来保存其他通道的信息。即
Xr=Xm+X,
3.2、提取骨架关节点的长期时序特征
可选择现有的基于骨架的时序卷积方法提取骨架关节点的长期时序特征,如固定步长的1D卷积堆叠方式,或者多分支的不同步长卷积方式。将上述的多尺度运动激活特征输入到时序卷积网络中,得到一层网络的输出,此时输出的特征包括了骨架关节点的空间依赖关系、短期运动特征和长期时序特征。图3展示了多尺度运动激活模块的插入位置示意图,其中,GC表示图卷积,TC表示时序卷积,现有的基于骨架的图卷积神经网络大多通过堆叠空间图卷积和时序卷积的方式来构成网络,该模块不改变骨架特征的维度,因此无需修改原始网络即可插入,获取多尺度的运动激活权重,激活运动敏感的特征通道,提取多尺度的短期运动特征,从而提升网络的识别性能。
步骤4、输出骨架的行为识别结果。
上述步骤2和步骤3为网络的一层操作,重复上述步骤,直至图卷积神经网络的全部层完成网络输出,得到关节点最终特征,将该最终特征池化后输入分类器,通过分类器将最终特征映射到行为类别,将该类别作为骨架的行为识别结果。
将上述识别方法应用到人类行为识别数据集NTU-RGB+D,本方法得到的动作识别精度如表1所示:
表1
其中,Ours表示本实施例的方法,使用的评价指标为Top1准确率。
为了进一步验证方法的有效性,还将本方法应用到另一个更大规模的人类行为识别数据集NTU-RGB+D 120,与其他方法相比,本实施例方法的达到了目前的最好性能,具体数值对比结果如表2所示:
表2
其中,Ours表示本实施例的方法,使用的评价指标为Top1准确率
一种基于骨架的行为识别系统,用于实现所述的基于骨架的行为识别方法,包括
采集模块,用于获取体感设备拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标,例如体感摄像头(如微软Kinect相机);
空间关系提取模块,用于提取骨架序列的空间特征,例如CTR-GCN网络,对于实时性要求高的场景,可以选择Shift-GCN网络;
运动激活模块,用于提取激活特征和时序特征,可采用如图2所示的结构;
分类模块,用于输出骨架的行为识别结果,例如分类器。
一种基于骨架的行为识别装置,包括处理器和存储器,所述存储器用于存储至少一个程序,处理器用于执行权利要求1-6任一所述的基于骨架的行为识别方法。
一种基于骨架的行为识别存储介质,用于存储实现所述的基于骨架的行为识别方法的指令或程序,例如移动硬盘或U盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于骨架的行为识别方法,其特征在于,包括:
S1,获取人体骨架关节点坐标,根据多帧的人体骨架关节点坐标得到骨架序列;
S3,将特征X通过卷积操作得到两个特征X1和X2,扩展X1和X2的维度,将扩展后的X1和X2调整至相同的维度,对调整后的两个特征进行融合,得到特征权重M,将M全局平均后得到激活权重Mp,将Mp与X进行点乘,得到激活特征Xr;
S4,将Xr输入时序卷积神经网络,得到一层包括特征X、特征Xm以及时序特征的网络输出;
S5,重复S2到S4,直至得到全部层的网络输出,作为关节点最终特征,将该最终特征池化后输入分类器,通过分类器将最终特征映射到行为类别,将该类别作为骨架的行为识别结果。
3.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,将X1的维度扩展为[B,C,T,1,N],将X2的维度扩展为[B,C,1,T,N];通过矩阵广播机制的作用,将扩展后的X1和X2调整至相同的维度。
4.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,通过公式M=σ(X1-X2)进行融合,其中σ(·)为双曲正切激活函数。
5.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,Mp与X点乘后得到Xm,对Xm残差连接特征X后得到激活特征Mr,即Xr=Xm+X。
6.根据权利要求2所述的基于骨架的行为识别方法,其特征在于,S3中,激活权重Mp后,使用2D卷积层将Mp还原到与特征X相同的通道维度。
7.一种基于骨架的行为识别系统,用于实现权利要求1-6任一所述的基于骨架的行为识别方法,其特征在于,包括
采集模块,用于获取体感设备拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标;
空间关系提取模块,用于提取骨架序列的空间特征;
运动激活模块,用于提取激活特征和时序特征;
分类模块,用于输出骨架的行为识别结果。
8.一种基于骨架的行为识别装置,其特征在于,包括处理器和存储器,所述存储器用于存储至少一个程序,处理器用于执行权利要求1-6任一所述的基于骨架的行为识别方法。
9.一种基于骨架的行为识别存储介质,其特征在于,用于存储实现权利要求1-6任一所述的基于骨架的行为识别方法的指令或程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211265481.XA CN115620394A (zh) | 2022-10-14 | 2022-10-14 | 一种基于骨架的行为识别方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211265481.XA CN115620394A (zh) | 2022-10-14 | 2022-10-14 | 一种基于骨架的行为识别方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115620394A true CN115620394A (zh) | 2023-01-17 |
Family
ID=84862363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211265481.XA Pending CN115620394A (zh) | 2022-10-14 | 2022-10-14 | 一种基于骨架的行为识别方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115620394A (zh) |
-
2022
- 2022-10-14 CN CN202211265481.XA patent/CN115620394A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113378600B (zh) | 一种行为识别方法及系统 | |
CN112328715B (zh) | 视觉定位方法及相关模型的训练方法及相关装置、设备 | |
CN111179419A (zh) | 三维关键点预测及深度学习模型训练方法、装置及设备 | |
CN107944381B (zh) | 人脸跟踪方法、装置、终端及存储介质 | |
WO2023151237A1 (zh) | 人脸位姿估计方法、装置、电子设备及存储介质 | |
US20220262093A1 (en) | Object detection method and system, and non-transitory computer-readable medium | |
CN112232134A (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN108062559A (zh) | 一种基于多重感受野的图像分类方法、系统及装置 | |
CN113158970B (zh) | 一种基于快慢双流图卷积神经网络的动作识别方法与系统 | |
CN111179408A (zh) | 三维建模的方法及设备 | |
CN112989952A (zh) | 一种基于遮罩引导的人群密度估计方法及装置 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN113762231B (zh) | 端对端的多行人姿态跟踪方法、装置及电子设备 | |
CN107622498B (zh) | 基于场景分割的图像穿越处理方法、装置及计算设备 | |
CN110633630A (zh) | 一种行为识别方法、装置及终端设备 | |
CN115620394A (zh) | 一种基于骨架的行为识别方法、系统、装置及存储介质 | |
CN115100745A (zh) | 基于Swin Transformer模型的运动实时计数方法和系统 | |
CN115223198A (zh) | 一种猪只行为识别方法、系统、计算机设备和存储介质 | |
CN114638921A (zh) | 动作捕捉方法、终端设备及存储介质 | |
Sun et al. | Devil in the details: Delving into accurate quality scoring for DensePose | |
CN111488476B (zh) | 图像推送方法、模型训练方法及对应装置 | |
CN112580772B (zh) | 卷积神经网络的压缩方法及装置 | |
CN113780215A (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN113610856A (zh) | 训练图像分割模型和图像分割的方法和装置 | |
CN113033334B (zh) | 图像处理方法、装置、电子设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |