CN116434347A

CN116434347A - 一种基于掩码图自编码器的骨架序列识别方法及系统

Info

Publication number: CN116434347A
Application number: CN202310688179.3A
Authority: CN
Inventors: 刘阳; 严鸿; 李冠彬; 王青; 林倞
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-07-14
Anticipated expiration: 2043-06-12
Also published as: CN116434347B

Abstract

本发明公开了一种基于掩码图自编码器的骨架序列识别方法及系统，包括步骤如下：建立骨架动作识别模型，利用骨架动作识别模型识别骨架序列，实现预测动作类别；所述的骨架动作识别模型包括一个M层的空间‑时间表示学习模型和一层分类器；所述的空间‑时间表示学习模型包括两个并联连接的掩码图自编码器，且掩码图自编码器的输出端通过1×1卷积与输入端进行残差连接。本发明将一个M层的空间‑时间表示学习模型和一层分类器构建骨架动作识别模型，其利用不同骨架关节之间的细粒度依赖关系来训练学习，是一个高效的骨架序列学习模型，可以在不同的数据集上很好地泛化。

Description

一种基于掩码图自编码器的骨架序列识别方法及系统

技术领域

本发明涉及视频动作表示学习技术领域，更具体的，涉及一种基于掩码图自编码器的骨架序列识别方法及系统。

背景技术

人类动作识别在视频理解中引起了越来越多的关注，由于人类动作识别在人机交互、智能监控安全、虚拟现实等方面的广泛应用。在视觉感知方面，即使没有外观信息，人类也可以只通过观察关节的运动来识别动作类别。与RGB视频不同，骨架序列只包含人体关键关节的坐标信息，具有高层次、轻量级、对复杂背景和各种条件（包括视点、比例和运动速度）的鲁棒性。此外，随着人体姿态估计算法的发展，人体关节（即关键点）的定位方法有了很大的进步，获得准确的骨架序列是可行的。由于对人体运动的细粒度和大变化进行建模的能力潜力巨大且迅速发展，与RGB数据相比，骨架序列更适合区分具有细微差别的类似动作。为了捕捉具有鉴别力的时空运动模式，现有的基于骨架的动作识别方法都是完全监督的，通常需要大量的标记数据来训练精心设计的模型，这既费时又费力。为了缓解有限的标记训练数据的问题，基于自监督的骨架动作识别方法最近引起了越来越多的关注。一些对比性学习方法采用了数据增强的方法来产生正负样本对，但它们在很大程度上依赖于对比对的数量。随着编码器-解码器的普及，一些方法按照图编码器-解码器的范式，通过链接重构掩盖的骨架序列来鼓励拓扑的接近性。然而，这些方法通常在链接预测和节点聚类方面表现良好，但在节点和图的分类方面却不尽人意。

对于准确的动作识别，不同骨架关节之间的细粒度依赖关系（即图分类）是至关重要的。但是，以前基于自监督学习的方法往往忽略了不同骨架关节之间的细粒度依赖关系，这限制了自监督骨架表示的通用性。

发明内容

本发明为了解决以上现有技术忽略了不同骨架关节之间的细粒度依赖关系，限制了自监督骨架表示的通用性的问题，提供了一种基于掩码图自编码器的骨架序列识别方法及系统。

为实现上述本发明目的，采用的技术方案如下：

一种基于掩码图自编码器的骨架序列识别方法，所述的方法包括步骤如下：

建立骨架动作识别模型，利用骨架动作识别模型识别骨架序列，实现预测动作类别；

所述的骨架动作识别模型包括一个M层的空间-时间表示学习模型和一层分类器；

所述的空间-时间表示学习模型包括两个并联连接的掩码图自编码器，且掩码图自编码器的输出端通过1×1卷积与掩码图自编码器的输入端进行残差连接。

优选地，所述掩码图自编码器包括一个编码器

和一个解码器/>

，其中，编码器/>

包括三层GIN，解码器/>

包括一层GIN。

优选地，建立关于骨架关节和骨架关节的拓扑结构的图结构

，将骨架关节的拓扑结构和骨架关节特征进行融合，得到骨架序列矩阵/>

，N表示骨架关节的数量，T表示骨架序列的数量；将骨架序列矩阵S转化为具有可学习参数的/>

，D表示对原始骨架序列矩阵S进行升维；

对于每个骨架关节特征矩阵

，图结构/>

表示一个骨架，其中，

是包含所有骨架关节的节点集；/>

是一个邻接矩阵，如果i和j是物理连接的，则/>

，否则为0；节点/>

的骨架关节特征表示为/>

，/>

。

进一步地，利用被遮蔽的骨架关节特征训练掩码图自编码器重建骨架序列，具体地，所述掩码图自编码器基于建立的骨架关节掩码策略、重加权损失函数对被遮蔽的骨架关节特征进行重建训练。

再进一步地，建立骨架关节掩码策略，具体如下：

将

按身体部位进行划分，每个部位对应一个第一关节子集，随机选择一个或多个第一关节子集，由一个或多个第一关节子集组成一个第二关节子集/>

，用于掩盖。

然后，用一个可学习的掩码令牌向量

对人体骨架序列的每个骨架关节特征进行掩码；因此，被屏蔽的骨架关节特征/>

在被屏蔽的关节特征矩阵/>

定义为：如果/>

，则/>

，否则/>

；

将骨架关节特征矩阵

作为掩码图自编码器的输入，骨架关节特征矩阵/>

中的每个骨架关节特征定义为/>

；

因此，被遮蔽的骨架被表述为

。

再进一步地，所述的掩码图自编码器重建被遮蔽的骨架关节特征，定义为：

其中，H表示编码器输出的中间层特征矩阵，Y表示解码器输出的骨架关节特征矩阵；

所述的掩码图自编码器的目标是最小化H和Y之间的差异。

再进一步地，所述重加权损失函数表示在所有被掩码的节点上，重建的骨架与输入的原始关节点之间的相似性差距的平均值，具体如下：

给定原始骨架关节特征矩阵

和重建后的解码器输出的骨架关节特征

，重加权损失函数定义为：

式中，

原始骨架关节特征，包含在/>

中；/>

表示重建的骨架关节特征，包含在/>

中，/>

表示缩放系数。

再进一步地，所述的骨架动作识别模型识别骨架序列，实现预测动作类别，具体如下：输入的骨架序列矩阵

首先与可学习的时间位置嵌入PE相加，得到骨架序列特征矩阵/>

；

从

中得到两个人的单独特征/>

和/>

；

将节点表示

和节点的先验知识/>

送入一个掩码图自编码器，

其中，

是掩码图自编码器；SP(/>

)表示求和池化；Repeat(/>

;N)表示求和后将单个节点重复成N个节点表示，然后与/>

残差连接，得到全局节点表示/>

，掩码图自编码器通过单个节点表征获得全局信息，并通过所有节点表征约束一些节点特征；同样，获得/>

；

得到的节点特征

包含第0个人和第1个人之间的动作交互；根据图卷积的更新规则，从多层GCN中的/>

得到/>

，最终的骨架序列特征矩阵表示定义如下：

其中

表示第l层的可训练权重矩阵，/>

表示ReLU激活函数。

然后，采用多尺度时空集合来得到最终的骨架序列特征矩阵；

最后，分类器根据最终的骨架序列预测动作类别。

优选地，在利用骨架动作识别模型识别骨架序列之前，将骨架动作识别数据集输入骨架动作识别模型，使用交叉熵损失对骨架动作识别模型进行微调。

一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现如上所述的方法的步骤。

本发明的有益效果如下：

本发明将一个M层的空间-时间表示学习模型和一层分类器构建骨架动作识别模型，其利用不同骨架关节之间的细粒度依赖关系来训练学习，是一个高效的骨架序列学习模型，可以在不同的数据集上很好地泛化。

本发明骨架动作识别模型引入基于骨架掩码的掩码图自编码器，掩码图自编码器可以进行无监督训练。

本发明构建的掩码图自编码器，将骨架关节序列嵌入到图卷积网络中，并基于人体先验拓扑知识重构隐藏的骨骼关节和边缘，为了可靠地进行特征重建，引入了重加权余弦误差（RCE）。

附图说明

图1为本发明骨架动作识别模型的原理框架图。

图2为本发明掩码图自编码器的原理框架图。

图3为本发明掩码图自编码器的训练示意图。

图4为本发明与现有技术随机选择节点进行掩码的对比示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

如图1所示，一种基于掩码图自编码器的骨架序列识别方法，所述的方法包括步骤如下：

所述的骨架动作识别模型（SSL）包括一个

层的空间-时间表示学习模型（STRL）和一层分类器；

所述的空间-时间表示学习模型（STRL）包括两个并联连接的掩码图自编码器（SkeletonMAE，SM），且掩码图自编码器（SkeletonMAE，SM）的输出端通过1×1卷积与掩码图自编码器（SkeletonMAE）的输入端进行残差连接。

本发明将一个

层的空间-时间表示学习模型（STRL）和一层分类器构建骨架动作识别模型，其利用不同骨架关节之间的细粒度依赖关系来训练学习，是一个高效的骨架序列学习模型，可以在不同的数据集上很好地泛化。

在一个具体的实施例中，所述掩码图自编码器包括一个编码器

和一个解码器/>

，其中，编码器/>

包括三层GIN，解码器/>

包括一层GIN。

在一个具体的实施例中，对N个人体骨架关节和T个骨架序列进行预处理。建立关于骨架关节和骨架关节的拓扑结构的图结构

，/>

表示对原始骨架序列矩阵S进行升维。本实施例根据经验将T和D设置为64。

对于每个骨架关节特征矩阵

，图结构/>

表示一个骨架，其中，

是包含所有骨架关节的节点集；/>

是一个邻接矩阵，如果i和j是物理连接的，则/>

，否则为0；节点/>

的骨架关节特征表示为/>

，/>

。本实施例骨架关节的数量为N=17。

在一个具体的实施例中，利用被遮蔽的骨架关节特征训练掩码图自编码器重建骨架序列，具体地，所述掩码图自编码器基于建立的骨架关节掩码策略、重加权损失函数对被遮蔽的骨架关节特征进行重建训练。

再进一步地，建立骨架关节掩码策略，具体如下：

为了掩盖骨架关节特征，将

按身体部位进行划分，划分为头部、四肢、躯干这6个部位对应V₀,…,V₅的第一关节子集，随机选择一个或多个第一关节子集，由一个或多个第一关节子集组成一个第二关节子集/>

，用于掩盖。对于人体骨架序列，每个关节都与该关节的一些相邻的关节进行交流，以代表特定的动作类别。因此，对所有动作类别的所有关节集进行屏蔽是不可行的。

然后，用一个可学习的掩码令牌向量

在被屏蔽的骨架关节特征矩阵/>

定义为：如果/>

，则/>

，否则/>

；

将骨架关节特征矩阵

作为掩码图自编码器的输入，骨架关节特征矩阵/>

中的每个关节特征定义为/>

；

因此，被遮蔽的骨架被表述为

；

所述的掩码图自编码器，在给定的被屏蔽的骨架关节特征矩阵

和邻接矩阵A的情况下，重建第二关节子集/>

中被遮蔽的骨架关节特征。

其中，所述的掩码图自编码器重建被遮蔽的骨架关节特征，定义为：

所述的掩码图自编码器的目标是最小化H和Y之间的差异。

在一个具体的实施例中，在图像和视频任务中，掩码图自编码器的常见重建损失是平均平方误差（MSE）。对于骨架序列，节点特征的多维和连续性质使得平均平方误差难以进行可靠的特征重建，因为平均平方误差对特征的维度和矢量范式很敏感。余弦误差中的

归一化将向量映射到一个单位超球面上，并极大改善了训练的稳定性，我们利用余弦误差作为重建的依据。

为了使重建标准在不平衡的简单和困难样本上倾向于较难的样本，为掩码图自编码器引入了重加权余弦误差函数（RCE）。重加权余弦误差函数是基于这样的方式：可以通过将余弦误差以

的幂数进行缩放，来减轻简单样本在训练中的占比贡献。对于具有高置信度的预测，其相应的余弦误差通常小于1，并且当缩放系数/>

时，会更快地衰减到零。

在本实施中，所述重加权损失函数表示在所有被掩码的节点上，重建的骨架关节特征与输入的原始骨架关节特征之间的相似性差距的平均值，具体如下：

给定原始骨架关节特征矩阵

和重建后的解码器输出的骨架关节特征矩阵/>

，重加权损失函数定义为：

式中，

原始关键点特征，包含在/>

中；/>

表示重建的关键点特征，包含在/>

中，/>

表示缩放系数；

重加权损失函数通过将余弦误差以

的幂数进行缩放，来减轻简单样本在训练中的占比贡献；对于具有高置信度的预测，其相应的余弦误差通常小于1，并且当缩放系数/>

时，会更快地衰减到零。

本实施例

设定为2。通过训练掩码图自编码器来重建骨架序列，预训练的掩码图自编码器可以全面感知人体骨架结构并获得具有判断力的动作表示。经过预训练后，所述的掩码图自编码器可以嵌入到骨架动作识别模型中进行微调，如图3所示。

在一个具体的实施例中，为了评估掩码图自编码器对骨架动作识别的泛化能力，我们在预先训练好的掩码图自编码器的基础上，建立了一个完整的骨架动作识别模型，即骨架序列学习框架（SSL）。为了捕捉多人互动，我们整合了两个预先训练好的掩码图自编码器来建立空间-时间表示学习（STRL）模块，如图1、2所示。整个骨架动作识别模型由一个M层的STRL模型和一个分类器组成。最后，输入骨架动作识别数据集到骨架动作识别模型中，使用交叉熵损失来对骨架动作识别模型进行微调。

在本实施例中，所述的骨架动作识别模型识别骨架序列，实现预测动作类别，具体如下：输入的骨架序列矩阵

；

从

中得到两个人（P= 2）的单独特征/>

和/>

；

这里，我们以第0个人的节点特征为例，第1个人的操作是类似实现的。将节点表示

和节点的先验知识/>

送入一个掩码图自编码器；

其中，

是掩码图自编码器；SP(/>

)表示求和池化；Repeat(/>

;N)表示求和后将单个节点重复成N个节点表示，然后与/>

残差连接，得到全局节点表示/>

，掩码图自编码器通过单个节点表征获得全局信息，并通过所有节点表征约束一些节点特征；

类似地，

以同样的方式获得的。

得到的节点特征

得到/>

，最终的骨架序列特征矩阵表示定义如下：

其中

表示第l层的可训练权重矩阵，/>

表示ReLU激活函数。

最后，分类器根据最终的骨架序列预测动作类别。

在一个具体的实施例中，在利用骨架动作识别模型识别骨架序列之前，在利用骨架动作识别模型识别骨架序列之前，将骨架动作识别数据集输入掩码图自编码器中进行无监督预训练，然后将掩码图自编码器在骨架动作识别模型上微调并用交叉熵损失对骨架动作识别模型来识别动作。

如图4所示，本发明与现有技术随机选择节点进行掩码的对比示意图首先本发明是对应的skeleton MAE，现有技术的是MAE，在图4中举例了两个细粒度的动作标签，图中的一个动作是后空翻，图中另一个动作是身体扭动的后空翻。本发明是对身体部位的掩码，因为我们将人体的17个关键点即关节点按身体部位划分，分成6个部分，分别是头部，四肢和躯干。本发明的掩码策略是对部位掩码。而现有的MAE是从人体的17个关键点中随机选取一些关键点进行掩码。本发明可以按照先验知识有选择的去掩码身体的哪个部位，从而能提升模型的性能。

实施例2

本实施例还提供了一种计算机系统，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述的处理器执行所述的计算机程序时，实现如实施例1所述的方法的步骤。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

实施例3

一种计算机可读存储介质，其上存储有计算机程序，所述的计算机程序被处理器执行时，实现如实施例1所述的方法的步骤。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。