CN115620394A - 一种基于骨架的行为识别方法、系统、装置及存储介质 - Google Patents

一种基于骨架的行为识别方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN115620394A
CN115620394A CN202211265481.XA CN202211265481A CN115620394A CN 115620394 A CN115620394 A CN 115620394A CN 202211265481 A CN202211265481 A CN 202211265481A CN 115620394 A CN115620394 A CN 115620394A
Authority
CN
China
Prior art keywords
skeleton
behavior recognition
based behavior
recognition method
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211265481.XA
Other languages
English (en)
Inventor
谭明奎
倪耿钦
陈沛豪
李宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Beida Information Technology Innovation Center
Original Assignee
Shaoxing Beida Information Technology Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing Beida Information Technology Innovation Center filed Critical Shaoxing Beida Information Technology Innovation Center
Priority to CN202211265481.XA priority Critical patent/CN115620394A/zh
Publication of CN115620394A publication Critical patent/CN115620394A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于骨架的行为识别方法、系统、装置及存储介质,通过获取体感摄像头拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标,将骨架坐标输入至集成了多尺度运动激活模块的图卷积神经网络中。然后利用图卷积神经网络提取骨架关节点的空间特征和长期时序特征,并使用多尺度运动激活模块提取骨架关节点的多尺度短期运动特征,提升模型的时序表征能力。

Description

一种基于骨架的行为识别方法、系统、装置及存储介质
技术领域
本发明属于计算机视觉领域,特别是一种基于骨架的行为识别方法、系统、装置及存储介质。
背景技术
行为识别是计算机视觉的一个基本问题,在智能监控、智慧交通、人机交互。医疗健康等众多领域扮演着越来越重要的角色。行为识别方法可以根据使用的数据模态不同,划分为基于视频和基于骨架的方法。近年来,随着硬件的升级(如微软Kinect相机)和人体姿态估计方法的性能提升,基于骨架的行为识别任务受到了广泛关注,已成为一个研究热点。基于骨架的行为识别任务,旨在建模人体骨架序列的运动模式,提取骨架序列的时空特征,从而识别骨架序列代表的行为。
相比于视频模态,骨架是非欧几里德结构数据,只包含二维或者三维的人体关节点位置坐标,其数据维度更低,且对环境或光照变化具有更强的鲁棒性。骨架关节点的短期运动信息是识别骨架行为的重要信息,揭示了骨架的运动方向和大小,但现有的基于图卷积神经网络的方法更多的关注如何建模骨架关节点的空间依赖关系,忽略了骨架关节点的运动信息,单一尺度的运动信息难以模拟不同运动速率的骨架行为,限制了模型的泛化能力。如何提取多尺度的短期运动信息,从而提高基于骨架的行为识别精度目前仍有待解决。
发明内容:
本发明要解决的技术问题是现有算法行为识别精度低。
为了解决上述问题,本发明提出一种基于骨架的行为识别方法、系统、装置及存储介质。
一种基于骨架的行为识别方法,包括:
S1,获取人体骨架关节点坐标,根据多帧的人体骨架关节点坐标得到骨架序列;
S2,将骨架序列输入图卷积神经网络,通过图卷积神经网络提取骨架序列的空间特征
Figure BDA0003891808490000021
其中,R为维度,B是批处理大小,C是通道维度,T是骨架序列的长度,N是骨架序列中单帧的骨架关节点的节点数量;
S3,将特征X通过卷积操作得到两个特征X1和X2,扩展X1和X2的维度,将扩展后的X1和X2调整至相同的维度,对调整后的两个特征进行融合,得到特征权重M,将M全局平均后得到激活权重Mp,将Mp与X进行点乘,得到激活特征Xr
S4,将Xr输入时序卷积神经网络,得到一层包括特征X、特征Xm以及时序特征的网络输出;
S5,重复S2到S4,直至得到全部层的网络输出,作为关节点最终特征,将该最终特征池化后输入分类器,通过分类器将最终特征映射到行为类别,将该类别作为骨架的行为识别结果。
优选的,S3中,在特征X通过卷积操作得到特征X1和X2的过程中,控制卷积操作的卷积核通道缩减特征X1和X2通道的数量,
Figure BDA0003891808490000022
Figure BDA0003891808490000023
其中r为通道数量缩减倍数,r为正整数。
优选的,S3中,将X1的维度扩展为[B,C,T,1,N],将X2的维度扩展为[B,C,1,T,N];通过矩阵广播机制的作用,将扩展后的X1和X2调整至相同的维度。
优选的,S3中,通过公式M=σ(X1-X2)进行融合,其中σ(·)为双曲正切激活函数。
优选的,S3中,Mp与X点乘后得到Xm,对Xm残差连接特征X后得到激活特征Xr,即Xr=Xm+X。
优选的,S3中,激活权重Mp后,使用2D卷积层将Mp还原到与特征X相同的通道维度。
一种基于骨架的行为识别系统,用于实现上述的基于骨架的行为识别方法,包括采集模块,用于获取体感设备拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标;空间关系提取模块,用于提取骨架序列的空间特征;运动激活模块,用于提取激活特征和时序特征;分类模块,用于输出骨架的行为识别结果。
一种基于骨架的行为识别装置,包括处理器和存储器,所述存储器用于存储至少一个程序,处理器用于执行上述的基于骨架的行为识别方法。
一种基于骨架的行为识别存储介质,用于存储实现上述的基于骨架的行为识别方法的指令或程序。
本发明同现有技术相比具有以下优点及效果:
本发明利用图卷积神经网络提取骨架关节点的空间特征和长期时序特征,并使用多尺度运动激活模块提取骨架关节点的多尺度短期运动特征,提升模型的时序表征能力。目标网络有效地利用了骨架关节点的运动信息,具有更强的时序表征能力,基于骨架的行为识别结果的准确度会上升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的方法流程图。
图2是本发明的多尺度运动激活模块结构示意图。
图3是本发明的多尺度运动激活模块插入位置示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:一种基于骨架的行为识别方法,包括:
步骤1、获取人体骨架关节点坐标数据。
使用体感摄像头(如微软Kinect相机)获取人体骨架关节点坐标,或者使用普通的摄像头拍摄视频,并利用现有的人体姿态估计方法(如,OpenPose)提取视频中的人体骨架关节点坐标,根据多帧图像的人体骨架关节点坐标得到骨架序列。
步骤2、提取骨架关节点的空间特征。
为了提取骨架关节点的空间依赖关系,可以根据应用场景的不同,任意选择现有的图卷积神经网络,比如,对于准确率要求高的场景,可以选择CTR-GCN网络,对于实时性要求高的场景,可以选择Shift-GCN网络。使用现有算法,将骨架关节点坐标输入到图卷积神经网络中,建模骨架关节点的空间依赖关系,提取骨架序列的空间特征。
步骤3、提取骨架关节点的短期运动特征和长期时序特征。
3.1、提取骨架关节点的短期运动特征
如图2所示的多尺度运动激活模块可以提取骨架关节点的短期运动特征,给定输入的节点特征
Figure BDA0003891808490000051
其中B是批处理大小,C是通道维度,T是骨架序列的长度,N是骨架序列中单帧的骨架关节点的节点数量。优选的,为了以降低参数量和计算量并模拟骨架关节点的运动,可以使用两个1×1的2D卷积层来减少特征通道的数量,即使用两个1×1的2D卷积层将X映射到不同空间:
X1=conv1*X
X2=conv2*X
其中
Figure BDA0003891808490000052
Figure BDA0003891808490000053
表示两个映射后的骨架序列特征,*表示卷积操作算子,conv1和conv2表示卷积层,r=1。优选的,可以通过调整卷积层的卷积核数量,使r>1,从而缩减输出特征的通道数量,减少计算量。
为了提取多尺度的短期运动特征,需要计算任意两帧骨架的特征差异。通过分别扩展骨架序列特征X1和X2的维度,使它们的维度变成[B,C/r,T,1,N]和[B,C/r,1,T,N]。在矩阵广播机制的作用下,可以获得多尺度的运动激活权重M。该过程可由如下公式表示
M=σ(X1-X2)
其中,
Figure BDA0003891808490000054
σ(·)为双曲正切(Tanh)激活函数。
M表示任意两帧的特征差异,为了聚合一帧与所有帧的特征差异,使用一个全局平均池化层p(·)来得到聚合后的多尺度运动激活权重Mp。由于X1和X2经过通道缩减,则需要使用一个1×1的2D卷积层(conv3)来将Mp的通道维度还原到原始节点特征X的通道维度。该过程可表示为
Figure BDA0003891808490000055
该模块的目的是激活运动敏感的特征通道,因此将多尺度运动激活权重Mp与骨架关节点特征X通过点乘的方法,激活运动敏感的特征通道,当通道不缩减时,
Figure BDA0003891808490000061
同时,还使用另一个1×1的2D卷积层(conv4)来更新节点特征,提高节点特征X的表征能力。该过程可表示为
Figure BDA0003891808490000062
其中,Xm为更新后的节点特征,⊙表示点乘操作。
虽然通过点乘的方式可以激活运动敏感的特征通道,也可能会抑制其他的特征通道,如位置信息,节点类型信息的通道。为了解决这个问题,该模块使用一个残差连接来保存其他通道的信息。即
Xr=Xm+X,
其中,Xr就是多尺度运动激活的特征,
Figure BDA0003891808490000063
包含了骨架序列的多尺度短期运动信息。
3.2、提取骨架关节点的长期时序特征
可选择现有的基于骨架的时序卷积方法提取骨架关节点的长期时序特征,如固定步长的1D卷积堆叠方式,或者多分支的不同步长卷积方式。将上述的多尺度运动激活特征输入到时序卷积网络中,得到一层网络的输出,此时输出的特征包括了骨架关节点的空间依赖关系、短期运动特征和长期时序特征。图3展示了多尺度运动激活模块的插入位置示意图,其中,GC表示图卷积,TC表示时序卷积,现有的基于骨架的图卷积神经网络大多通过堆叠空间图卷积和时序卷积的方式来构成网络,该模块不改变骨架特征的维度,因此无需修改原始网络即可插入,获取多尺度的运动激活权重,激活运动敏感的特征通道,提取多尺度的短期运动特征,从而提升网络的识别性能。
步骤4、输出骨架的行为识别结果。
上述步骤2和步骤3为网络的一层操作,重复上述步骤,直至图卷积神经网络的全部层完成网络输出,得到关节点最终特征,将该最终特征池化后输入分类器,通过分类器将最终特征映射到行为类别,将该类别作为骨架的行为识别结果。
将上述识别方法应用到人类行为识别数据集NTU-RGB+D,本方法得到的动作识别精度如表1所示:
Figure BDA0003891808490000071
表1
其中,Ours表示本实施例的方法,使用的评价指标为Top1准确率。
为了进一步验证方法的有效性,还将本方法应用到另一个更大规模的人类行为识别数据集NTU-RGB+D 120,与其他方法相比,本实施例方法的达到了目前的最好性能,具体数值对比结果如表2所示:
Figure BDA0003891808490000072
Figure BDA0003891808490000081
表2
其中,Ours表示本实施例的方法,使用的评价指标为Top1准确率
一种基于骨架的行为识别系统,用于实现所述的基于骨架的行为识别方法,包括
采集模块,用于获取体感设备拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标,例如体感摄像头(如微软Kinect相机);
空间关系提取模块,用于提取骨架序列的空间特征,例如CTR-GCN网络,对于实时性要求高的场景,可以选择Shift-GCN网络;
运动激活模块,用于提取激活特征和时序特征,可采用如图2所示的结构;
分类模块,用于输出骨架的行为识别结果,例如分类器。
一种基于骨架的行为识别装置,包括处理器和存储器,所述存储器用于存储至少一个程序,处理器用于执行权利要求1-6任一所述的基于骨架的行为识别方法。
一种基于骨架的行为识别存储介质,用于存储实现所述的基于骨架的行为识别方法的指令或程序,例如移动硬盘或U盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于骨架的行为识别方法,其特征在于,包括:
S1,获取人体骨架关节点坐标,根据多帧的人体骨架关节点坐标得到骨架序列;
S2,将骨架序列输入图卷积神经网络,通过图卷积神经网络提取骨架序列的空间特征
Figure FDA0003891808480000011
其中,R为维度,B是批处理大小,C是通道维度,T是骨架序列的长度,N是骨架序列中单帧的骨架关节点的节点数量;
S3,将特征X通过卷积操作得到两个特征X1和X2,扩展X1和X2的维度,将扩展后的X1和X2调整至相同的维度,对调整后的两个特征进行融合,得到特征权重M,将M全局平均后得到激活权重Mp,将Mp与X进行点乘,得到激活特征Xr
S4,将Xr输入时序卷积神经网络,得到一层包括特征X、特征Xm以及时序特征的网络输出;
S5,重复S2到S4,直至得到全部层的网络输出,作为关节点最终特征,将该最终特征池化后输入分类器,通过分类器将最终特征映射到行为类别,将该类别作为骨架的行为识别结果。
2.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,在特征X通过卷积操作得到特征X1和X2的过程中,控制卷积操作的卷积核通道缩减特征X1和X2通道的数量,
Figure FDA0003891808480000012
其中r为通道数量缩减倍数,r为正整数。
3.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,将X1的维度扩展为[B,C,T,1,N],将X2的维度扩展为[B,C,1,T,N];通过矩阵广播机制的作用,将扩展后的X1和X2调整至相同的维度。
4.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,通过公式M=σ(X1-X2)进行融合,其中σ(·)为双曲正切激活函数。
5.根据权利要求1所述的基于骨架的行为识别方法,其特征在于,S3中,Mp与X点乘后得到Xm,对Xm残差连接特征X后得到激活特征Mr,即Xr=Xm+X。
6.根据权利要求2所述的基于骨架的行为识别方法,其特征在于,S3中,激活权重Mp后,使用2D卷积层将Mp还原到与特征X相同的通道维度。
7.一种基于骨架的行为识别系统,用于实现权利要求1-6任一所述的基于骨架的行为识别方法,其特征在于,包括
采集模块,用于获取体感设备拍摄的人体骨架坐标,或者使用人体姿态估计方法提取视频中的人体骨架坐标;
空间关系提取模块,用于提取骨架序列的空间特征;
运动激活模块,用于提取激活特征和时序特征;
分类模块,用于输出骨架的行为识别结果。
8.一种基于骨架的行为识别装置,其特征在于,包括处理器和存储器,所述存储器用于存储至少一个程序,处理器用于执行权利要求1-6任一所述的基于骨架的行为识别方法。
9.一种基于骨架的行为识别存储介质,其特征在于,用于存储实现权利要求1-6任一所述的基于骨架的行为识别方法的指令或程序。
CN202211265481.XA 2022-10-14 2022-10-14 一种基于骨架的行为识别方法、系统、装置及存储介质 Pending CN115620394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211265481.XA CN115620394A (zh) 2022-10-14 2022-10-14 一种基于骨架的行为识别方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211265481.XA CN115620394A (zh) 2022-10-14 2022-10-14 一种基于骨架的行为识别方法、系统、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115620394A true CN115620394A (zh) 2023-01-17

Family

ID=84862363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211265481.XA Pending CN115620394A (zh) 2022-10-14 2022-10-14 一种基于骨架的行为识别方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115620394A (zh)

Similar Documents

Publication Publication Date Title
CN113378600B (zh) 一种行为识别方法及系统
CN112328715B (zh) 视觉定位方法及相关模型的训练方法及相关装置、设备
CN111179419A (zh) 三维关键点预测及深度学习模型训练方法、装置及设备
CN107944381B (zh) 人脸跟踪方法、装置、终端及存储介质
WO2023151237A1 (zh) 人脸位姿估计方法、装置、电子设备及存储介质
US20220262093A1 (en) Object detection method and system, and non-transitory computer-readable medium
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN108062559A (zh) 一种基于多重感受野的图像分类方法、系统及装置
CN113158970B (zh) 一种基于快慢双流图卷积神经网络的动作识别方法与系统
CN111179408A (zh) 三维建模的方法及设备
CN112989952A (zh) 一种基于遮罩引导的人群密度估计方法及装置
CN114820755B (zh) 一种深度图估计方法及系统
CN113762231B (zh) 端对端的多行人姿态跟踪方法、装置及电子设备
CN107622498B (zh) 基于场景分割的图像穿越处理方法、装置及计算设备
CN110633630A (zh) 一种行为识别方法、装置及终端设备
CN115620394A (zh) 一种基于骨架的行为识别方法、系统、装置及存储介质
CN115100745A (zh) 基于Swin Transformer模型的运动实时计数方法和系统
CN115223198A (zh) 一种猪只行为识别方法、系统、计算机设备和存储介质
CN114638921A (zh) 动作捕捉方法、终端设备及存储介质
Sun et al. Devil in the details: Delving into accurate quality scoring for DensePose
CN111488476B (zh) 图像推送方法、模型训练方法及对应装置
CN112580772B (zh) 卷积神经网络的压缩方法及装置
CN113780215A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN113610856A (zh) 训练图像分割模型和图像分割的方法和装置
CN113033334B (zh) 图像处理方法、装置、电子设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination