CN115620394A

CN115620394A - 一种基于骨架的行为识别方法、系统、装置及存储介质

Info

Publication number: CN115620394A
Application number: CN202211265481.XA
Authority: CN
Inventors: 谭明奎; 倪耿钦; 陈沛豪; 李宏
Original assignee: Shaoxing Beida Information Technology Innovation Center
Current assignee: Shaoxing Beida Information Technology Innovation Center
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-17

Abstract

本发明提出一种基于骨架的行为识别方法、系统、装置及存储介质，通过获取体感摄像头拍摄的人体骨架坐标，或者使用人体姿态估计方法提取视频中的人体骨架坐标，将骨架坐标输入至集成了多尺度运动激活模块的图卷积神经网络中。然后利用图卷积神经网络提取骨架关节点的空间特征和长期时序特征，并使用多尺度运动激活模块提取骨架关节点的多尺度短期运动特征，提升模型的时序表征能力。

Description

一种基于骨架的行为识别方法、系统、装置及存储介质

技术领域

本发明属于计算机视觉领域，特别是一种基于骨架的行为识别方法、系统、装置及存储介质。

背景技术

行为识别是计算机视觉的一个基本问题，在智能监控、智慧交通、人机交互。医疗健康等众多领域扮演着越来越重要的角色。行为识别方法可以根据使用的数据模态不同，划分为基于视频和基于骨架的方法。近年来，随着硬件的升级(如微软Kinect相机)和人体姿态估计方法的性能提升，基于骨架的行为识别任务受到了广泛关注，已成为一个研究热点。基于骨架的行为识别任务，旨在建模人体骨架序列的运动模式，提取骨架序列的时空特征，从而识别骨架序列代表的行为。

相比于视频模态，骨架是非欧几里德结构数据，只包含二维或者三维的人体关节点位置坐标，其数据维度更低，且对环境或光照变化具有更强的鲁棒性。骨架关节点的短期运动信息是识别骨架行为的重要信息，揭示了骨架的运动方向和大小，但现有的基于图卷积神经网络的方法更多的关注如何建模骨架关节点的空间依赖关系，忽略了骨架关节点的运动信息，单一尺度的运动信息难以模拟不同运动速率的骨架行为，限制了模型的泛化能力。如何提取多尺度的短期运动信息，从而提高基于骨架的行为识别精度目前仍有待解决。

发明内容：

本发明要解决的技术问题是现有算法行为识别精度低。

为了解决上述问题，本发明提出一种基于骨架的行为识别方法、系统、装置及存储介质。

一种基于骨架的行为识别方法，包括：

S1，获取人体骨架关节点坐标，根据多帧的人体骨架关节点坐标得到骨架序列；

S2，将骨架序列输入图卷积神经网络，通过图卷积神经网络提取骨架序列的空间特征

其中，R为维度，B是批处理大小，C是通道维度，T是骨架序列的长度，N是骨架序列中单帧的骨架关节点的节点数量；

S3，将特征X通过卷积操作得到两个特征X₁和X₂，扩展X₁和X₂的维度，将扩展后的X₁和X₂调整至相同的维度，对调整后的两个特征进行融合，得到特征权重M，将M全局平均后得到激活权重M_p，将M_p与X进行点乘，得到激活特征X_r；

S4，将X_r输入时序卷积神经网络，得到一层包括特征X、特征X_m以及时序特征的网络输出；

S5，重复S2到S4，直至得到全部层的网络输出，作为关节点最终特征，将该最终特征池化后输入分类器，通过分类器将最终特征映射到行为类别，将该类别作为骨架的行为识别结果。

优选的，S3中，在特征X通过卷积操作得到特征X₁和X₂的过程中，控制卷积操作的卷积核通道缩减特征X₁和X₂通道的数量，

其中r为通道数量缩减倍数，r为正整数。

优选的，S3中，将X₁的维度扩展为[B,C,T,1,N],将X₂的维度扩展为[B,C,1,T,N]；通过矩阵广播机制的作用，将扩展后的X₁和X₂调整至相同的维度。

优选的，S3中，通过公式M＝σ(X₁-X₂)进行融合，其中σ(·)为双曲正切激活函数。

优选的，S3中，M_p与X点乘后得到X_m，对X_m残差连接特征X后得到激活特征X_r，即X_r＝X_m+X。

优选的，S3中，激活权重M_p后，使用2D卷积层将M_p还原到与特征X相同的通道维度。

一种基于骨架的行为识别系统，用于实现上述的基于骨架的行为识别方法，包括采集模块，用于获取体感设备拍摄的人体骨架坐标，或者使用人体姿态估计方法提取视频中的人体骨架坐标；空间关系提取模块，用于提取骨架序列的空间特征；运动激活模块，用于提取激活特征和时序特征；分类模块，用于输出骨架的行为识别结果。

一种基于骨架的行为识别装置，包括处理器和存储器，所述存储器用于存储至少一个程序，处理器用于执行上述的基于骨架的行为识别方法。

一种基于骨架的行为识别存储介质，用于存储实现上述的基于骨架的行为识别方法的指令或程序。

本发明同现有技术相比具有以下优点及效果：

本发明利用图卷积神经网络提取骨架关节点的空间特征和长期时序特征，并使用多尺度运动激活模块提取骨架关节点的多尺度短期运动特征，提升模型的时序表征能力。目标网络有效地利用了骨架关节点的运动信息，具有更强的时序表征能力，基于骨架的行为识别结果的准确度会上升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的方法流程图。

图2是本发明的多尺度运动激活模块结构示意图。

图3是本发明的多尺度运动激活模块插入位置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1：一种基于骨架的行为识别方法，包括：

步骤1、获取人体骨架关节点坐标数据。

使用体感摄像头(如微软Kinect相机)获取人体骨架关节点坐标，或者使用普通的摄像头拍摄视频，并利用现有的人体姿态估计方法(如，OpenPose)提取视频中的人体骨架关节点坐标，根据多帧图像的人体骨架关节点坐标得到骨架序列。

步骤2、提取骨架关节点的空间特征。

为了提取骨架关节点的空间依赖关系，可以根据应用场景的不同，任意选择现有的图卷积神经网络，比如，对于准确率要求高的场景，可以选择CTR-GCN网络，对于实时性要求高的场景，可以选择Shift-GCN网络。使用现有算法，将骨架关节点坐标输入到图卷积神经网络中，建模骨架关节点的空间依赖关系，提取骨架序列的空间特征。

步骤3、提取骨架关节点的短期运动特征和长期时序特征。

3.1、提取骨架关节点的短期运动特征

如图2所示的多尺度运动激活模块可以提取骨架关节点的短期运动特征，给定输入的节点特征

其中B是批处理大小，C是通道维度，T是骨架序列的长度，N是骨架序列中单帧的骨架关节点的节点数量。优选的，为了以降低参数量和计算量并模拟骨架关节点的运动，可以使用两个1×1的2D卷积层来减少特征通道的数量，即使用两个1×1的2D卷积层将X映射到不同空间:

X₁＝conv₁*X

X₂＝conv₂*X

其中

和

表示两个映射后的骨架序列特征，*表示卷积操作算子，conv1和conv2表示卷积层，r＝1。优选的，可以通过调整卷积层的卷积核数量，使r>1，从而缩减输出特征的通道数量，减少计算量。

为了提取多尺度的短期运动特征，需要计算任意两帧骨架的特征差异。通过分别扩展骨架序列特征X₁和X₂的维度，使它们的维度变成[B,C/r,T,1,N]和[B,C/r,1,T,N]。在矩阵广播机制的作用下，可以获得多尺度的运动激活权重M。该过程可由如下公式表示

M＝σ(X₁-X₂)

其中，

σ(·)为双曲正切(Tanh)激活函数。

M表示任意两帧的特征差异，为了聚合一帧与所有帧的特征差异，使用一个全局平均池化层p(·)来得到聚合后的多尺度运动激活权重M_p。由于X₁和X₂经过通道缩减，则需要使用一个1×1的2D卷积层(conv3)来将M_p的通道维度还原到原始节点特征X的通道维度。该过程可表示为

该模块的目的是激活运动敏感的特征通道，因此将多尺度运动激活权重M_p与骨架关节点特征X通过点乘的方法，激活运动敏感的特征通道，当通道不缩减时，

同时，还使用另一个1×1的2D卷积层(conv4)来更新节点特征，提高节点特征X的表征能力。该过程可表示为

其中，X_m为更新后的节点特征，⊙表示点乘操作。

虽然通过点乘的方式可以激活运动敏感的特征通道，也可能会抑制其他的特征通道，如位置信息，节点类型信息的通道。为了解决这个问题，该模块使用一个残差连接来保存其他通道的信息。即

X_r＝X_m+X,

其中，X_r就是多尺度运动激活的特征，

包含了骨架序列的多尺度短期运动信息。

3.2、提取骨架关节点的长期时序特征

可选择现有的基于骨架的时序卷积方法提取骨架关节点的长期时序特征，如固定步长的1D卷积堆叠方式，或者多分支的不同步长卷积方式。将上述的多尺度运动激活特征输入到时序卷积网络中，得到一层网络的输出，此时输出的特征包括了骨架关节点的空间依赖关系、短期运动特征和长期时序特征。图3展示了多尺度运动激活模块的插入位置示意图，其中，GC表示图卷积，TC表示时序卷积，现有的基于骨架的图卷积神经网络大多通过堆叠空间图卷积和时序卷积的方式来构成网络，该模块不改变骨架特征的维度，因此无需修改原始网络即可插入，获取多尺度的运动激活权重，激活运动敏感的特征通道，提取多尺度的短期运动特征，从而提升网络的识别性能。

步骤4、输出骨架的行为识别结果。

上述步骤2和步骤3为网络的一层操作，重复上述步骤，直至图卷积神经网络的全部层完成网络输出，得到关节点最终特征，将该最终特征池化后输入分类器，通过分类器将最终特征映射到行为类别，将该类别作为骨架的行为识别结果。

将上述识别方法应用到人类行为识别数据集NTU-RGB+D，本方法得到的动作识别精度如表1所示：

表1

其中，Ours表示本实施例的方法，使用的评价指标为Top1准确率。

为了进一步验证方法的有效性，还将本方法应用到另一个更大规模的人类行为识别数据集NTU-RGB+D 120，与其他方法相比，本实施例方法的达到了目前的最好性能，具体数值对比结果如表2所示：

表2

其中，Ours表示本实施例的方法，使用的评价指标为Top1准确率

一种基于骨架的行为识别系统，用于实现所述的基于骨架的行为识别方法，包括

采集模块，用于获取体感设备拍摄的人体骨架坐标，或者使用人体姿态估计方法提取视频中的人体骨架坐标，例如体感摄像头(如微软Kinect相机)；

空间关系提取模块，用于提取骨架序列的空间特征，例如CTR-GCN网络，对于实时性要求高的场景，可以选择Shift-GCN网络；

运动激活模块，用于提取激活特征和时序特征，可采用如图2所示的结构；

分类模块，用于输出骨架的行为识别结果，例如分类器。

一种基于骨架的行为识别装置，包括处理器和存储器，所述存储器用于存储至少一个程序，处理器用于执行权利要求1-6任一所述的基于骨架的行为识别方法。

一种基于骨架的行为识别存储介质，用于存储实现所述的基于骨架的行为识别方法的指令或程序，例如移动硬盘或U盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于骨架的行为识别方法，其特征在于，包括：

2.根据权利要求1所述的基于骨架的行为识别方法，其特征在于，S3中，在特征X通过卷积操作得到特征X₁和X₂的过程中，控制卷积操作的卷积核通道缩减特征X₁和X₂通道的数量，

其中r为通道数量缩减倍数，r为正整数。

3.根据权利要求1所述的基于骨架的行为识别方法，其特征在于，S3中，将X₁的维度扩展为[B，C，T，1，N]，将X₂的维度扩展为[B，C，1，T，N]；通过矩阵广播机制的作用，将扩展后的X₁和X₂调整至相同的维度。

4.根据权利要求1所述的基于骨架的行为识别方法，其特征在于，S3中，通过公式M＝σ(X₁-X₂)进行融合，其中σ(·)为双曲正切激活函数。

5.根据权利要求1所述的基于骨架的行为识别方法，其特征在于，S3中，M_p与X点乘后得到X_m，对X_m残差连接特征X后得到激活特征M_r，即X_r＝X_m+X。

6.根据权利要求2所述的基于骨架的行为识别方法，其特征在于，S3中，激活权重M_p后，使用2D卷积层将M_p还原到与特征X相同的通道维度。

7.一种基于骨架的行为识别系统，用于实现权利要求1-6任一所述的基于骨架的行为识别方法，其特征在于，包括

采集模块，用于获取体感设备拍摄的人体骨架坐标，或者使用人体姿态估计方法提取视频中的人体骨架坐标；

空间关系提取模块，用于提取骨架序列的空间特征；

运动激活模块，用于提取激活特征和时序特征；

分类模块，用于输出骨架的行为识别结果。

8.一种基于骨架的行为识别装置，其特征在于，包括处理器和存储器，所述存储器用于存储至少一个程序，处理器用于执行权利要求1-6任一所述的基于骨架的行为识别方法。

9.一种基于骨架的行为识别存储介质，其特征在于，用于存储实现权利要求1-6任一所述的基于骨架的行为识别方法的指令或程序。