CN114550308B

CN114550308B - 基于时空图的人体骨骼动作识别方法

Info

Publication number: CN114550308B
Application number: CN202210424128.5A
Authority: CN
Inventors: 邹茂扬; 万辉帆; 潘光晖
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-05
Anticipated expiration: 2042-04-22
Also published as: CN114550308A

Abstract

本发明公开了一种基于时空图的人体骨骼动作识别方法，包括以下步骤：S1、获取骨骼数据，并对所述骨骼数据进行预处理，得到二阶数据信息；S2、将二阶数据信息输入多分支网络，得到骨骼数据提取信息；S3、将骨骼数据提取信息输入时空特征提取网络，得到骨骼数据的时空特征信息；S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层，得到置信度最高的动作，完成人体骨骼动作识别。本发明设计了时空图模块引入Transformer结构，可以更好捕捉若干帧内全局的时空关系，利用其注意力机制自适应的学习跨帧节点间关联性的强度，并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充，从而使得信息能够直接的跨时空交流。

Description

基于时空图的人体骨骼动作识别方法

技术领域

本发明属于计算视觉及深度识别技术领域，具体涉及基于时空图的人体骨骼动作识别方法。

背景技术

动作识别是计算机视觉领域的一个重要细分领域，在智能安防、人机交互、视频检索分类、虚拟现实、视频监控等领域有着广阔的应用前景。而基于骨骼数据的动作识别方法在复杂背景和动态场景下具有很强的鲁棒性，因此受到了很大的关注。

早期基于骨骼数据的动作识别模型采用手工提取特征的方法。因为其效果不理想存在计算复杂度高、泛化能力弱等问题，所以引入深度学习方法。目前基于深度学习的动作识别方法的研究已经成为主流。而深度学习方法主要可以分为三类：基于卷积神经网(Convolutional Neural Network， CNN）、基于递归神经网络(Recurrent NeuralNetwork，RNN)和基于图神经网络(Graph Convolutional Network， GCN)。基于CNN的方法将骨骼数据按照人工设计的规则构建为伪图像；基于RNN的方法是将骨骼数据构建为骨骼点坐标向量序列。然而，人体骨骼本身就是拓扑图结构，构建为伪图像和向量序列并不能充分表示出图结构的丰富信息，这些方法的缺点是都忽略了人体骨骼点间的内在依赖关系。基于GCN的方法能直接处理骨骼数据这类图结构信息，能充分发掘骨骼点间的内在依赖关系，因此基于GCN的方法成为当下该领域的研究热点。

发明内容

针对现有技术中的上述不足，本发明提供的基于时空图的人体骨骼动作识别方法解决了现有的人体骨骼动作识别方法无法使节点信息直接跨时空交流以至难以有效捕捉复杂动作的动态时空特征的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于时空图的人体骨骼动作识别方法，包括以下步骤：

S1、获取骨骼数据，并对所述骨骼数据进行预处理，得到二阶数据信息；

S2、将二阶数据信息输入多分支网络，得到骨骼数据提取信息；

S3、将骨骼数据提取信息输入时空特征提取网络，得到骨骼数据的时空特征信息；

S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层，得到置信度最高的动作，完成人体骨骼动作识别。

进一步地：所述步骤S1中，二阶数据信息包括节点位置信息、运动向量信息和骨骼信息；

所述步骤S1包括以下分步骤：

S11、通过人体姿态估计算法或深度摄像头获取骨骼数据，进而根据骨骼数据构建时空图；

S12、将时空图每帧中的节点位置信息减去其中心节点位置信息，得到节点相对位置信息；

S13、将时空图相邻两帧的节点位置信息相减，得到运动向量信息；

S14、将时空图每帧中相互连接的节点构成骨骼边，通过计算相连接的两节点位置得到骨骼边信息。

上述进一步方案的有益效果为：将骨骼数据处理成三种二阶数据信息有利于多分支网络提取骨骼数据的结构信息。

进一步地：所述步骤S11中，构建时空图的方法具体为：

以骨骼数据的关节点作为节点，进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点，构建时空图

；其中，R为三维矩阵，C为通道数，T为骨骼数据的总帧数，V为节点集，且

，v _ti为骨骼数据第t帧中第i节点，U为骨骼数据的第t帧中的关节点的总数。

进一步地：所述步骤S2中，多分支网络包括三个并行的分支网络，每个分支网络均包括两个相互连接的STGCN子网络，所述STGCN子网络包括依次连接的图卷积模块（GCN）、时间卷积模块（TCN）和时空点注意力模块（ATT）。

所述步骤S2具体为：将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中，进而将三个分支网络的输出结果进行拼接，得到骨骼数据提取信息；

其中，所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵

；R为三维矩阵，C为通道数；每个分支网络的输出结果表示形式具体为

，D为每个所述分支网络输出数据的通道数；骨骼数据提取信息的表示形式具体为

。

上述进一步方案的有益效果为：多分支网络结构用于融合输入的二阶数据信息，能够提取更为丰富的骨骼数据结构信息以提高最终动作识别准确率，还可以大大降低整个模型的复杂度。

进一步地：所述步骤S3中，时空特征提取网络包括三个依次连接的STGT子网络，每个所述STGT子网络均通过残差连接，每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块；

所述时空图模块用于提取输入数据混合时空特征信息，所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。

进一步地：所述时空图模块包括并行的跨时空子模块和图卷积子模块；所述跨时空子模块用于提取输入数据的全局跨时空特征信息，所述图卷积子模块用于提取输入数据的局部空间特征信息；

所述时空图模块获取输入数据混合时空特征信息的方法具体为：

SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息；

SA2、通过图卷积子模块提取输入数据的局部空间特征信息；

SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合，得到输入数据混合时空特征信息。

进一步地：所述步骤SA1包括以下分步骤：

SA11、将输入数据通过1*1的标准卷积进行特征映射到高维空间，得到第一特征图

；

其中，第一特征图

；

SA12、将特征图

在时间维度进行分割展开成N个第二特征图，得到第二特征图

；

其中，第二特征图

，

为第二特征图中包括的帧数；

SA13、将每个第二特征图进行展平并转置，得到第三特征图

；

其中，第三特征图

，且

，Ｑ为第三特征图的所有帧中包含的节点数；

SA14、通过Transformer编码公式捕捉第三特征图的跨时空关系，得到第四特征图

；

其中，得到第四特征图

的表达式具体为：

式中，Transformer（·）为Transformer编码公式，n为特征图的序号；

SA15、将第四特征图

合并，得到第五特征图

，并将第五特征图通过1*1的标准卷积进行跨通道信息交互，得到输入数据的全局跨时空特征信息；

所述步骤SA2中，通过图卷积子模块提取输入数据的局部空间结构信息

的表达式具体为：

式中，

为输入数据的第t帧内第i节点，

为输入特性向量，

为输出特性向量，

为包含

节点的邻居节点集，

为映射函数，

为权值函数，

为邻居节点集的总数。

上述进一步方案的有益效果为：时空图模块通过跨时空子模块捕捉缺失的全局跨时空特征信息，并通过图卷积子模块捕捉局部的空间关系，最后通过相加混合局部特征和全局特征，达到捕捉更为丰富的时空特征关系。

进一步地：所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为：

SB1、将输入数据通过1*1的标准卷积进行处理，并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积，分别得到输出特征Y ₁和输出特征Y ₂；

其中，所述输出特征

，输出特征

；

SB2、将输出特征Y ₁和输出特征Y ₂进行特征融合，得到输出特征Z；

其中，输出特征

；

SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取，得到局部通道注意力和全局特征通道注意力；

其中，得到局部通道注意力

的方法具体为：

通过1*1的标准卷积将输出特征Z的通道数降为

，再通过1*1的标准卷积将输出特征Z的通道数升为C，得到局部通道注意力

；

得到全局特征通道注意力

的方法具体为：

将输出特征Z进行全局平均池化，得到中间特征，通过1*1的标准卷积将中间特征的通道数降为

，再通过1*1的标准卷积将中间特征的通道数升为C，得到全局特征通道注意力

；

SB4、将局部通道注意力和全局特征通道注意力相加，并通过Sigmoid激活函数得到注意力权重

；

其中，所述注意力权重

；

SB5、将输出特征Y ₁与

逐点相乘，将输出特征Y ₂与

逐点相乘，进而将两相乘结果相加，得到输入数据的时空特征信息。

上述进一步方案的有益效果为：本发明提出了多尺度混合自卷积模块来替代原始

的标准卷积，以此进一步增强模型对动态时空信息的捕捉能力，本发明使用了多尺度自卷积的方法，并使用了注意力特征融合来弥补自卷积不能通道间交互信息的影响。

进一步地：所述步骤S4具体为：

将骨骼数据的时空特征信息通过全局平均池化层，得到128维特征向量，并将所述特征向量输入全连接层，确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。

本发明的有益效果为：

（1）本发明设计了时空图模块引入Transformer结构，可以更好捕捉若干帧内全局的时空关系，利用其注意力机制自适应的学习跨帧节点间关联性的强度，并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充，从而使得信息能够直接的跨时空交流。

（2）本发明提出多尺度混合自卷积模块捕捉在时域上关节点的长期上下文依赖关系的方法，该方法在两个不同的大小的自卷积核上构建连续帧间的时间依赖关系，并使用特征融合的方式融合这两个尺度的时间消息。这个方法可以明显的降低参数量加并有效的捕捉时间相关性。

（3）本发明提出了的整体网络模型更为轻量，使用多分支网络不同于现有的方法如2sgcn在最后阶段融合分支特征。本发明的多分支网络在输入前就进行融合输入多分支网络的特征信息，大大降低了网络模型的复杂度。在更小参数量的情况下实现更高的准确率，综合性能优于现有的方法。

附图说明

图1为一种基于时空图的人体骨骼动作识别方法的流程图。

图2为本发明的整体网络示意图。

图3为跨时空子模块获取全局跨时空特征信息的示意图。

图4为多尺度混合自卷积模块（MSHI）获取时空特征信息的示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

如图1所示，在本发明的一个实施例中，一种基于时空图的人体骨骼动作识别方法，包括以下步骤：

所述步骤S1中，二阶数据信息包括节点位置信息、运动向量信息和骨骼信息；

所述步骤S1包括以下分步骤：

在本实施例中，时空图的每个节点的信息由坐标参数和置信度组成，通过计算相连接的两节点的坐标参数可以得到骨骼边信息。

所述步骤S11中，构建时空图的方法具体为：

构建的时空图，以骨骼数据的关节点作为节点，进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点，将骨骼数据构造成时空图

，V为节点集，且

，v _ti为骨骼数据第t帧中第i节点，U为骨骼数据的第t帧中的关节点的总数。边集

包含两个子集，

由单帧内人体自然结构的自然连接而成，

由骨骼数据不同帧间对应关节点的连接而成，同时根据规则将图映射成伪图像的形式，将骨骼数据构建为时空图

；其中，R为三维矩阵，C为通道数，T为骨骼数据的总帧数，V为节点集。

在本实施例中，计算节点位置信息

的表达式具体为：

式中，c为中心节点，

为时空图的第i节点位置信息，

为时空图的第c节点位置信息。

计算运动向量信息

的表达式具体为

式中，

为第t+1帧的位置信息，

为第t帧的位置信息。

计算运动向量信息

的表达式具体为：

式中，

为第

节点位置信息，第i节点与第

节点相互连接，第

节点表示与第i节点相邻的节点，

为第i节点与第

节点x轴上的距离，

为第i节点与第

节点y轴上的距离，

为第i节点与第

节点z轴上的距离。

实施例2：

本实施例针对本发明中的多分支网络结构；

如图2所示，所述多分支网络结构包含两层STGCN子网络，第一层STGCN子网络的通道数为64，第二层STGCN子网络的通道数为48。

所述步骤S2中，多分支网络包括三个并行的分支网络，每个分支网络均包括两个相互连接的STGCN子网络，所述STGCN子网络包括依次连接的图卷积模块（GCN）、时间卷积模块（TCN）和时空点注意力模块（ATT）；

。

本实施例的有益效果为：本发明的多分支网络结构用于融合输入的二阶数据信息，能够提取更为丰富的骨骼数据结构信息以提高最终动作识别准确率，还可以大大降低整个模型的复杂度。

本发明的多分支网络结构中的每个分支包括相互连接的STGCN子网络，每个STGCN子网络均由经典ST-GCN模块和时空点注意力模块构成，经典ST-GCN模块包括图卷积模块和时间卷积模块；通过经典ST-GCN模块将骨骼数据构成的二阶数据信息的人体结构，在空间维度上使用图卷积模块在聚合空间信息，在时间维度上使用时间卷积模块聚合时间信息。通过交错堆叠上述两模块以达到学习时空信息。

实施例3：

本实施例针对时空特征提取网络的具体结构：

现有的方法都是先使用各类图卷积方法提取空间特征，再使用标准卷积（TCN）提取时间特征，如此循环堆叠以达到提取时空特征的效果。这种方法使得信息并不能直接的跨时空交流，而对动作识别来说跨帧节点间的直接时空依赖是十分重要的。为了解决上述问题，本发明使用时空图模块(STT)以实现直接跨帧节点间的时空特性。

如图2所示，时空特征提取网络包含三层STGT子网络，第一层STGT子网络的通道数为32，第二层STGT子网络的通道数为64，第三层STGT子网络的通道数为68。

所述步骤S3中，时空特征提取网络包括三个依次连接的STGT子网络，每个所述STGT子网络均通过残差连接，每个所述STGT子网络均包括依次连接的时空图模块（STT）、多尺度混合自卷积模块（MSHI）和时空点注意力模块（ATT）；

如图2所示，所述时空图模块包括并行的跨时空子模块（TT）和图卷积子模块（GCN）；所述跨时空子模块用于提取输入数据的全局跨时空特征信息，所述图卷积子模块用于提取输入数据的局部空间特征信息；

SA2、通过图卷积子模块提取输入数据的局部空间特征信息；

在本实施例中，时空图模块通过跨时空子模块捕捉缺失的全局跨时空特征信息，并通过图卷积子模块捕捉局部的空间关系，最后通过相加混合局部特征和全局特征，达到捕捉更为丰富的时空特征关系。

跨时空子模块获取全局跨时空特征信息的方法如图3所示，所述步骤SA1包括以下分步骤：

；

其中，第一特征图

；

SA12、将特征图

在时间维度进行分割展开成N个第二特征图，得到第二特征图

；

其中，第二特征图

，

为第二特征图中包括的帧数；

SA13、将每个第二特征图进行展平并转置，得到第三特征图

；

其中，第三特征图

，且

，Ｑ为第三特征图的所有帧中包含的节点数；

；

其中，得到第四特征图

的表达式具体为：

SA15、将第四特征图

合并，得到第五特征图

的表达式具体为：

式中，

为输入数据的第t帧内第i节点，

为输入特性向量，

为输出特性向量，

为包含

节点的邻居节点集，

为映射函数，

为权值函数，其根据映射函数进行分配；

为邻居节点集的总数，用于平衡不同邻居节点的贡献。

在本实施例中，时空图模块可以提取节点集和边集的局部空间关系，通过节点集和边集表示时空图

，其中，边集

包括第一子集

和第二子集

，第一子集

由单帧内人体自然结构的自然连接而成，第二子集

由骨骼数据不同帧间对应关节点的连接而成；

如图4所示，所述多尺度混合自卷积模块（MSHI）提取输入数据中连续帧间节点的上下文特征信息方法具体为：

其中，所述输出特征

，输出特征

；

其中，输出特征

；

其中，得到局部通道注意力

的方法具体为：

通过1*1的标准卷积将输出特征Z的通道数降为

；

得到全局特征通道注意力

的方法具体为：

；

；

其中，所述注意力权重

；

SB5、将输出特征Y ₁与

逐点相乘，将输出特征Y ₂与

受限于标准卷积对获取关节点的长期上下文依赖关系不足。对此，本发明进一步提出了多尺度混合自卷积模块(MSHI) 来替代原始N*1的标准卷积，以此进一步增强模型对动态时空信息的捕捉能力，本发明使用了多尺度自卷积的方法，并使用了注意力特征融合来弥补自卷积不能通道间交互信息的影响。

所述步骤S4具体为：

在本实施例中，全局平均池化层和全连接层的通道数为128。

本发明方法的实施过程为：由人体姿态估计算法或深度摄像头获取骨骼数据，并根据骨骼数据构建时空图得到二阶数据信息，将二阶数据信息输入多分支网络，提取骨骼数据的二阶数据信息中更为丰富的结构信息，得到骨骼数据提取信息，将骨骼数据提取信息输入时空特征提取网络，时空特征提取网络设置三个依次连接的STGT子网络，通过其中的时空图模块和多尺度混合自卷积模块获取骨骼数据提取信息的混合时空特征信息和连续帧间节点的上下文特征信息，进一步提取骨骼数据的时空特征关系，得到骨骼数据的时空特征信息。将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层，经过全局池化得到128维的特征向量，将其输入到全连接层降维动作类别数（60类或120类)，将其中的动作类别置信度最高的作为识别结果。

为了验证本发明的技术效果，在相同条件下，与基准模型EfficientGCN-B0( 1ststage)进行对比实验。在只使用时空图模块时，本发明的方案提升了0.9%。在只使用多尺度混合自卷积模块的方法时，本发明的方案提升了0.8%。同时使用两个模块时，本发明模型的准确率提升了1.4%，达到了90.4%。在Xsub数据集上，相比于基于骨骼动作识别中经典ST-GCN模块，本发明的方法在其参数量1/7的情况下准确率提升了8.9%；对于最早的多流方法2s-GCN同样参数量缩小至1/15但准确率提升了2%。相比于目前的最好的方法MS-G3D，本发明的结果也处于同一水平，略低一点，但本发明整体网络结构的复杂度却远远低于MS-G3D的结构。相比SOTA方法，本发明更好实现了在平衡模型准确率和复杂度的权衡，表现的更为高效，其综合性能优于基于骨骼的动作识别现有的所有方法。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。