CN114511924A

CN114511924A - 基于自适应增广与表示学习的半监督骨骼动作识别方法

Info

Publication number: CN114511924A
Application number: CN202111676997.9A
Authority: CN
Inventors: 舒祥波; 徐斌倩; 葛晓静
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-17

Abstract

本发明提出一种基于自适应增广与表示学习的半监督骨骼动作识别方法，包括：输入包含关节、骨骼和差分的原始骨架序列，通过自适应增强模块的增强变换矩阵将其转换为增强骨架序列；通过残差卷积编码器中的残差图卷积网络分别学习增强骨架序列和原始骨架序列中三类数据各自的表示，然后对两组骨架序列中三类数据进行融合并进行统一表示学习，得到增强和原始时空动作特征表示；将增强和原始时空动作特征分别输入到多层感知机MLP获取推拉式对比损失，再通过全连接层获取计算识别损失；推拉式对比损失和识别损失相结合作为X‑CAR损失，对自适应增强模块和残差图卷积编码器进行学习训练。本方法可有效提高基于半监督骨架的动作识别精度。

Description

基于自适应增广与表示学习的半监督骨骼动作识别方法

技术领域

本发明涉及计算机视觉领域中基于骨骼的动作识别领域，尤其涉及一种基于自适应增广与表示学习的半监督骨骼动作识别方法。

背景技术

人类动作识别是计算机视觉领域的一项基本但具有挑战性的任务，在视频监控、人机交互、视频检索、虚拟现实等许多现实世界的应用中发挥着重要作用。与原始RGB视频相比，由关节准确位置组成的人体骨骼序列对人体尺度、动态环境、相机视点和干扰背景具有更强的鲁棒性。此外，人体骨骼序列可以被视为一个动作的高级抽象表示，在计算和存储方面具有更多优势。因此基于骨骼的动作识别引起了广泛的关注。

随着深度学习的发展，基于深度学习的动作识别方法通过使用卷积神经网络(CNN)或循环神经网络(RNN)来学习基于特定识别任务的骨架序列的表示，取得了显著的性能，但依然无法满足现实需求。主要挑战在于现有的模型很少探索身体关节之间的相互依存关系，忽略了大量的运动信息，从而产生了将骨骼序列视为时空图，通过图卷积网络提取特征的方法，但现有的这些方法大多是全监督的，严重依赖于大量标记训练数据，但大量标记数据在很多情况下难以获得。因此，如何从少量带标签的骨架数据中有效地学习特征表示仍然是一个值得关注的问题。

发明内容

本发明的目的在于提供一种基于自适应增广与表示学习的半监督骨骼动作识别方法，可以从少量带标签的骨架数据中有效地学习特征，且有效提高了基于半监督骨架的动作识别精度。

实现本发明目的的技术解决方案为：一种基于自适应增广与表示学习的半监督骨骼动作识别方法，包括以下步骤：

步骤1，输入包含关节、骨骼和差分的原始骨架序列，通过自适应增强模块的增强变换矩阵将其转换为增强骨架序列；

步骤2，通过残差卷积编码器中的残差图卷积网络分别学习增强骨架序列和原始骨架序列中关节、骨骼和差分三类数据各自的表示，然后对两组骨架序列中三类数据进行融合并进行统一表示学习，得到增强时空动作特征和原始时空动作特征表示；

步骤3，将增强时空动作特征和原始时空动作特征分别输入到多层感知机MLP获取推拉式对比损失，再通过全连接层获取计算识别损失；

步骤4，将推拉式对比损失和识别损失相结合作为X-CAR损失，同时对自适应增强模块和残差图卷积编码器进行学习训练。

本发明与现有技术相比，其有益效果在于：本发明通过一阶段方式取代传统两阶段方式，获取可学习的增强方法来促进增强和表示的一致性，且通过新的推拉式对比损失避免由于预先定义正负样本带来的模糊样本而导致结果不稳定的问题，有效提高基于半监督骨架的动作识别精度。

附图说明

图1为本发明半监督骨骼动作识别方法的流程图。

图2为本发明方法中旋转、剪切和缩放增强的示意图。

图3(a)为NW-UCLA数据集上原始骨架特征示意图，图3(b)为传统对比学习方法学到的骨架特征示意图，图3(c)为本发明X-CAR学习到的骨架特征的t-SNE可视化示意图。

图4为自适应结合增强AA学习到的部分样本的可视化结果图。

具体实施方式

下面结合附图对本发明进行进一步详细的说明：

一种基于自适应增广与表示学习的半监督骨骼动作识别方法，包括获取可学习的增强骨架序列、获取时空动作特征、计算推拉式对比损失与动作识别损失、结合PPCL和识别损失同时对增强和表示进行学习训练四个过程，具体流程如图1所示。其中：

获取增强骨架序列包括以下步骤：

步骤1)、将包含关节、骨骼和差分三类数据的原始骨架序列S，输入自适应组合增强模块(AA)。

步骤2)、根据骨架的特性定义了三种类型的增强变换，即旋转、剪切和缩放，三种类型的变换示例见图2。

a.对步骤1)中的各类数据进行旋转增强。旋转增强变换矩阵定义如下：

其中r_ro表示旋转增强的基础增强值，R^ro为旋转增强变换矩阵，

为绕X轴的旋转增强变换矩阵，

为绕Y轴的旋转增强变换矩阵，

为绕Z轴的旋转增强变换矩阵。

旋转增强的坐标变换如下：

其中

表示旋转增强的可学习的控制因素，i是每次训练中的第i个骨架序列，[x,y,z]为旋转增强变换前坐标。

b.使用剪切增强变换矩阵对步骤a所得的骨架序列进行剪切增强，剪切增强变换矩阵定义如下：

其中r_sh表示剪切增强的基础增强值。

剪切增强的坐标变换如下：

其中

表示剪切增强的可学习的控制因素，[x,y,z]为剪切增强变换前坐标。

c.使用缩放增强变换矩阵对步骤b所得骨架序列进行缩放增强，缩放增强变换矩阵定义如下：

其中r_sc表示缩放增强的基础增强值。

缩放增强的坐标变换如下：

其中

表示缩放增强的可学习的控制因素，[x,y,z]为缩放增强变换前坐标。

经过三种类型的变换后得到的骨架动作示例如图4，图4中第一列是来自NTU RGB+D数据集的三个骨架动作，即使用风扇、把手掌放到一起和查看时间(从手表)，图4中第二列是三个骨架动作(即站起来、用一只手捡起和穿上)来自NW-UCLA数据集。每组包括从原始骨架到增强骨架的变换，以及学习到的增强控制因子。

步骤3)、经过缩放增强以后得到包含关节、骨骼和差分三类数据的增强骨架序列S'。在此步骤中，使用参数化的方式定义旋转、剪切和缩放变换，使得三种类型的增强变换可学习，完成用一阶段方式，即同时学习自适应组合增强和特征表示，取代传统两阶段方式。

获取时空动作特征包括以下步骤：

步骤4)、将一个空间图卷积网络(SGCN)、一个时间图卷积网络(TGCN)和一些密集残差连接组成残差图卷积模块，即残差图卷积R-GCN模块。其中SGCN的公式定义如下：

其中D为预定义的最大图距离，A为骨架矩阵，Λ_j为对角矩阵，

用于归一化A_j，i、k为骨架矩阵A的第i行、第k列，f_in表示图的输入，W_j表示可学习的权重参数。

TGCN是一个普通的L×1的卷积层，用于聚合嵌入在相邻帧中的上下文表示。R-GCN不仅可以捕捉骨骼动作的时空上下文，而且得益于其密集的残差连接，使得训练过程更加收敛。

步骤5)、将BatchNorm层(BN)与步骤4)中得到的R-GCN网络连接起来作为处理三种类型数据的分支。

步骤6)、分别将步骤3)中所得的增强骨架数据输入步骤5)所得的分支，将各个分支的内容进行早期融合，得到增强数据的表示；将原始骨架数据输入另一步骤5)所得的分支，将各个分支的内容进行早期融合，得到原始数据的表示。

步骤7)、将步骤5)所得分支与6个R-GCN模块连接。将步骤6)所得的增强骨架序列与原始骨架序列的表示分别输入主干R-GCN网络块，得到两组序列的特征表示。

步骤8)、步骤4)、步骤5)、步骤6)、步骤7)中相互连接的BN、R-GCN、融合模块以及主干R-GCN块构成了残差图卷积编码器，记为R-GCE F(·)，R-GCE保留了三类数据的特定特征，增加了最终表示的互补性。将处理增强序列与处理原始序列的R-GCE分别定义为分支A与分支B，将经分支A与分支B处理后得到的特征表示为f_a和f_b。

计算推拉式对比损失与动作识别损失包括以下步骤：

步骤9)、MLP模块由线性层、BatchNorm(BN)层和非线性激活函数(ReLU)连接起来得到。本发明共使用两个MLP模块，分别记为MLP H(·)和MLP G(·)。两个模块体系结构相同，但它们的参数不共享。

步骤10)、将从步骤7)得到的两组序列表示分别输入步骤9)得到的MLP H(·)和MLP G(·)模块中，获得表示；

步骤11)、定义

作为不包括s_i的其他骨架序列的表示，即

使用均方误差计算表示之间的距离，借助停止梯度策略来学习促进增强与表示的一致性，制定新的推拉式对比损失(PPCL)如下：

其中h_a＝H(F(s'_i)),g_b＝G(F(s_i))，

N为每次训练的骨架序列数，

r^j∈Ω(/s_i)，为S中不包括s_i的其他骨架序列的表示，i是每次训练中的第i个骨架序列，s_i∈S，s'_i∈S'，H(·)和G(·)分别表示增强时空动作特征和原始时空动作特征对应的MLP函数，F(·)表示图卷积编码器函数，该图卷积编码器函数由上述BatchNorm、残差图卷积网络、融合模块和多个残差图卷积块连接而成。

PPCL鼓励增强样本与其相同样本拉得更近，但推远其他样本。

步骤12)、将步骤3)中得到的增强数据与原始数据分别输入步骤8)中的分支B与分支A，重复以上步骤，得到对称化对比损失，并优化推拉式对比损失，即：

其中h_b＝H(F(s_i))，g_a＝G(F(s′_i))，

r^j∈Ω(/s_i)，为S中不包括s_i的其它骨架序列的表示，N为每次训练的骨架序列数，i是每次训练中的第i个骨架序列，s_i∈S，s′_i∈S′。

步骤13)、将步骤11)和步骤12)中得到的推拉式对比损失求和，得到最终的推拉式对比损失PPCL，即：

步骤14)、将步骤7)中得到的两组特征f_a和f_b输入全连接层(FC)，得到最终的分类表示特征向量p_a＝FC(f_a)，p_b＝FC(f_b)以及动作识别损失。动作识别损失定义如下：

其中y为动作的标签，

AP(·)为平均池化操作，p_a＝FC(f_a)，p_b＝FC(f_b)为分类表示特征向量。

并整合

和识别损失

为X-CAR损失

如下：

结合PPCL和识别损失同时对增强和表示进行学习训练包括以下步骤：

步骤15)、在这项发明中，我们通过使用SGD和停止梯度策略来最小化

来更新X-CAR的所有参数对模型进行训练。

本方法以可学习的增强方法来促进增强和表示的一致性，且通过新的对比损失避免由于预先定义正负样本带来的模糊样本而导致结果不稳定的问题，效果如图3所述，图3(a)为NW-UCLA数据集上原始骨架特征示意图，图3(b)为传统对比学习方法学到的骨架特征示意图，图3(c)为本发明X-CAR学习到的骨架特征的t-SNE可视化示意图；不同方法的识别精度见表1和表2，表1为NTU RGB+D数据集(Cross-Subject(CS)和Cross-View(CV))上不同方法获得的识别准确率(％)，训练集标记数据分别为5％、10％、20％和40％；表2为NW-UCLA数据集上不同方法获得的识别准确率(％)，训练集标注数据分别为5％、15％、30％和40％，从表1和表2可以看出，本发明可有效提高基于半监督骨架的动作识别精度。

表1

表2