CN114511924A - 基于自适应增广与表示学习的半监督骨骼动作识别方法 - Google Patents
基于自适应增广与表示学习的半监督骨骼动作识别方法 Download PDFInfo
- Publication number
- CN114511924A CN114511924A CN202111676997.9A CN202111676997A CN114511924A CN 114511924 A CN114511924 A CN 114511924A CN 202111676997 A CN202111676997 A CN 202111676997A CN 114511924 A CN114511924 A CN 114511924A
- Authority
- CN
- China
- Prior art keywords
- enhanced
- enhancement
- skeleton
- original
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种基于自适应增广与表示学习的半监督骨骼动作识别方法,包括:输入包含关节、骨骼和差分的原始骨架序列,通过自适应增强模块的增强变换矩阵将其转换为增强骨架序列;通过残差卷积编码器中的残差图卷积网络分别学习增强骨架序列和原始骨架序列中三类数据各自的表示,然后对两组骨架序列中三类数据进行融合并进行统一表示学习,得到增强和原始时空动作特征表示;将增强和原始时空动作特征分别输入到多层感知机MLP获取推拉式对比损失,再通过全连接层获取计算识别损失;推拉式对比损失和识别损失相结合作为X‑CAR损失,对自适应增强模块和残差图卷积编码器进行学习训练。本方法可有效提高基于半监督骨架的动作识别精度。
Description
技术领域
本发明涉及计算机视觉领域中基于骨骼的动作识别领域,尤其涉及一种基于自适应增广与表示学习的半监督骨骼动作识别方法。
背景技术
人类动作识别是计算机视觉领域的一项基本但具有挑战性的任务,在视频监控、人机交互、视频检索、虚拟现实等许多现实世界的应用中发挥着重要作用。与原始RGB视频相比,由关节准确位置组成的人体骨骼序列对人体尺度、动态环境、相机视点和干扰背景具有更强的鲁棒性。此外,人体骨骼序列可以被视为一个动作的高级抽象表示,在计算和存储方面具有更多优势。因此基于骨骼的动作识别引起了广泛的关注。
随着深度学习的发展,基于深度学习的动作识别方法通过使用卷积神经网络(CNN)或循环神经网络(RNN)来学习基于特定识别任务的骨架序列的表示,取得了显著的性能,但依然无法满足现实需求。主要挑战在于现有的模型很少探索身体关节之间的相互依存关系,忽略了大量的运动信息,从而产生了将骨骼序列视为时空图,通过图卷积网络提取特征的方法,但现有的这些方法大多是全监督的,严重依赖于大量标记训练数据,但大量标记数据在很多情况下难以获得。因此,如何从少量带标签的骨架数据中有效地学习特征表示仍然是一个值得关注的问题。
发明内容
本发明的目的在于提供一种基于自适应增广与表示学习的半监督骨骼动作识别方法,可以从少量带标签的骨架数据中有效地学习特征,且有效提高了基于半监督骨架的动作识别精度。
实现本发明目的的技术解决方案为:一种基于自适应增广与表示学习的半监督骨骼动作识别方法,包括以下步骤:
步骤1,输入包含关节、骨骼和差分的原始骨架序列,通过自适应增强模块的增强变换矩阵将其转换为增强骨架序列;
步骤2,通过残差卷积编码器中的残差图卷积网络分别学习增强骨架序列和原始骨架序列中关节、骨骼和差分三类数据各自的表示,然后对两组骨架序列中三类数据进行融合并进行统一表示学习,得到增强时空动作特征和原始时空动作特征表示;
步骤3,将增强时空动作特征和原始时空动作特征分别输入到多层感知机MLP获取推拉式对比损失,再通过全连接层获取计算识别损失;
步骤4,将推拉式对比损失和识别损失相结合作为X-CAR损失,同时对自适应增强模块和残差图卷积编码器进行学习训练。
本发明与现有技术相比,其有益效果在于:本发明通过一阶段方式取代传统两阶段方式,获取可学习的增强方法来促进增强和表示的一致性,且通过新的推拉式对比损失避免由于预先定义正负样本带来的模糊样本而导致结果不稳定的问题,有效提高基于半监督骨架的动作识别精度。
附图说明
图1为本发明半监督骨骼动作识别方法的流程图。
图2为本发明方法中旋转、剪切和缩放增强的示意图。
图3(a)为NW-UCLA数据集上原始骨架特征示意图,图3(b)为传统对比学习方法学到的骨架特征示意图,图3(c)为本发明X-CAR学习到的骨架特征的t-SNE可视化示意图。
图4为自适应结合增强AA学习到的部分样本的可视化结果图。
具体实施方式
下面结合附图对本发明进行进一步详细的说明:
一种基于自适应增广与表示学习的半监督骨骼动作识别方法,包括获取可学习的增强骨架序列、获取时空动作特征、计算推拉式对比损失与动作识别损失、结合PPCL和识别损失同时对增强和表示进行学习训练四个过程,具体流程如图1所示。其中:
获取增强骨架序列包括以下步骤:
步骤1)、将包含关节、骨骼和差分三类数据的原始骨架序列S,输入自适应组合增强模块(AA)。
步骤2)、根据骨架的特性定义了三种类型的增强变换,即旋转、剪切和缩放,三种类型的变换示例见图2。
a.对步骤1)中的各类数据进行旋转增强。旋转增强变换矩阵定义如下:
旋转增强的坐标变换如下:
b.使用剪切增强变换矩阵对步骤a所得的骨架序列进行剪切增强,剪切增强变换矩阵定义如下:
其中rsh表示剪切增强的基础增强值。
剪切增强的坐标变换如下:
c.使用缩放增强变换矩阵对步骤b所得骨架序列进行缩放增强,缩放增强变换矩阵定义如下:
其中rsc表示缩放增强的基础增强值。
缩放增强的坐标变换如下:
经过三种类型的变换后得到的骨架动作示例如图4,图4中第一列是来自NTU RGB+D数据集的三个骨架动作,即使用风扇、把手掌放到一起和查看时间(从手表),图4中第二列是三个骨架动作(即站起来、用一只手捡起和穿上)来自NW-UCLA数据集。每组包括从原始骨架到增强骨架的变换,以及学习到的增强控制因子。
步骤3)、经过缩放增强以后得到包含关节、骨骼和差分三类数据的增强骨架序列S'。在此步骤中,使用参数化的方式定义旋转、剪切和缩放变换,使得三种类型的增强变换可学习,完成用一阶段方式,即同时学习自适应组合增强和特征表示,取代传统两阶段方式。
获取时空动作特征包括以下步骤:
步骤4)、将一个空间图卷积网络(SGCN)、一个时间图卷积网络(TGCN)和一些密集残差连接组成残差图卷积模块,即残差图卷积R-GCN模块。其中SGCN的公式定义如下:
TGCN是一个普通的L×1的卷积层,用于聚合嵌入在相邻帧中的上下文表示。R-GCN不仅可以捕捉骨骼动作的时空上下文,而且得益于其密集的残差连接,使得训练过程更加收敛。
步骤5)、将BatchNorm层(BN)与步骤4)中得到的R-GCN网络连接起来作为处理三种类型数据的分支。
步骤6)、分别将步骤3)中所得的增强骨架数据输入步骤5)所得的分支,将各个分支的内容进行早期融合,得到增强数据的表示;将原始骨架数据输入另一步骤5)所得的分支,将各个分支的内容进行早期融合,得到原始数据的表示。
步骤7)、将步骤5)所得分支与6个R-GCN模块连接。将步骤6)所得的增强骨架序列与原始骨架序列的表示分别输入主干R-GCN网络块,得到两组序列的特征表示。
步骤8)、步骤4)、步骤5)、步骤6)、步骤7)中相互连接的BN、R-GCN、融合模块以及主干R-GCN块构成了残差图卷积编码器,记为R-GCE F(·),R-GCE保留了三类数据的特定特征,增加了最终表示的互补性。将处理增强序列与处理原始序列的R-GCE分别定义为分支A与分支B,将经分支A与分支B处理后得到的特征表示为fa和fb。
计算推拉式对比损失与动作识别损失包括以下步骤:
步骤9)、MLP模块由线性层、BatchNorm(BN)层和非线性激活函数(ReLU)连接起来得到。本发明共使用两个MLP模块,分别记为MLP H(·)和MLP G(·)。两个模块体系结构相同,但它们的参数不共享。
步骤10)、将从步骤7)得到的两组序列表示分别输入步骤9)得到的MLP H(·)和MLP G(·)模块中,获得表示;
其中ha=H(F(s'i)),gb=G(F(si)),N为每次训练的骨架序列数,rj∈Ω(/si),为S中不包括si的其他骨架序列的表示,i是每次训练中的第i个骨架序列,si∈S,s'i∈S',H(·)和G(·)分别表示增强时空动作特征和原始时空动作特征对应的MLP函数,F(·)表示图卷积编码器函数,该图卷积编码器函数由上述BatchNorm、残差图卷积网络、融合模块和多个残差图卷积块连接而成。
PPCL鼓励增强样本与其相同样本拉得更近,但推远其他样本。
步骤12)、将步骤3)中得到的增强数据与原始数据分别输入步骤8)中的分支B与分支A,重复以上步骤,得到对称化对比损失,并优化推拉式对比损失,即:
步骤13)、将步骤11)和步骤12)中得到的推拉式对比损失求和,得到最终的推拉式对比损失PPCL,即:
步骤14)、将步骤7)中得到的两组特征fa和fb输入全连接层(FC),得到最终的分类表示特征向量pa=FC(fa),pb=FC(fb)以及动作识别损失。动作识别损失定义如下:
结合PPCL和识别损失同时对增强和表示进行学习训练包括以下步骤:
本方法以可学习的增强方法来促进增强和表示的一致性,且通过新的对比损失避免由于预先定义正负样本带来的模糊样本而导致结果不稳定的问题,效果如图3所述,图3(a)为NW-UCLA数据集上原始骨架特征示意图,图3(b)为传统对比学习方法学到的骨架特征示意图,图3(c)为本发明X-CAR学习到的骨架特征的t-SNE可视化示意图;不同方法的识别精度见表1和表2,表1为NTU RGB+D数据集(Cross-Subject(CS)和Cross-View(CV))上不同方法获得的识别准确率(%),训练集标记数据分别为5%、10%、20%和40%;表2为NW-UCLA数据集上不同方法获得的识别准确率(%),训练集标注数据分别为5%、15%、30%和40%,从表1和表2可以看出,本发明可有效提高基于半监督骨架的动作识别精度。
表1
表2
Claims (10)
1.一种基于自适应增广与表示学习的半监督骨骼动作识别方法,其特征在于,包括以下步骤:
步骤1,输入包含关节、骨骼和差分的原始骨架序列,通过自适应增强模块的增强变换矩阵将其转换为增强骨架序列;
步骤2,通过残差卷积编码器中的残差图卷积网络分别学习增强骨架序列和原始骨架序列中关节、骨骼和差分三类数据各自的表示,然后对两组骨架序列中三类数据进行融合并进行统一表示学习,得到增强时空动作特征和原始时空动作特征表示;
步骤3,将增强时空动作特征和原始时空动作特征分别输入到MLP模块中获取推拉式对比损失,再通过全连接层获取计算识别损失;
步骤4,将推拉式对比损失和识别损失相结合作为X-CAR损失,同时对自适应增强模块和残差图卷积编码器进行学习训练。
2.根据权利要求1所述的基于自适应增广与表示学习的半监督骨骼动作识别方法,其特征在于,所述通过自适应增强模块的增强变换矩阵将其转换为增强骨架序列具体包括:
通过旋转增强变换矩阵对原始骨架序列S进行旋转增强,获取旋转增强的骨架序列;
通过剪切增强变换矩阵对旋转增强的骨架序列进行剪切增强,获取剪切增强的骨架序列;
通过缩放增强变换矩阵对剪切增强的骨架序列进行缩放增强,获取最终的增强骨架序列S'。
7.根据权利要求6所述的基于自适应增广与表示学习的半监督骨骼动作识别方法,其特征在于,所述残差图卷积编码器由BatchNorm、所述残差图卷积网络、融合模块和多个残差图卷积块连接而成,所述步骤2具体包括:
将增强骨架序列和原始骨架序列分别输入至BatchNorm层与所述残差图卷积网络对三种类型数据进行处理,得到关节、骨骼和差分三类数据各自的表示,并通过融合模块进行早期融合,得到增强和原始骨架序列的数据表示;
将得到的增强和原始骨架序列的数据表示输入多个残差图卷积块,得到两组序列的时空动作特征表示fa和fb,所述残差图卷积块为6个。
8.根据权利要求1所述的基于自适应增广与表示学习的半监督骨骼动作识别方法,所述MLP模块由两组线性层、BatchNorm和非线性激活函数连接起来获得。
9.根据权利要求8所述的基于自适应增广与表示学习的半监督骨骼动作识别方法,其特征在于,所述将增强时空动作特征和原始时空动作特征分别输入到MLP模块获取推拉式对比损失,再通过全连接层获取计算识别损失具体包括:
将增强和原始时空动作特征表示分别输入到对应的MLP模块中,获得表示;
采用均方误差计算表示之间的距离,通过停止梯度策略获取推拉式对比损失为:
其中ha=H(F(s'i)),gb=G(F(si)),N为每次训练的骨架序列数,rj∈Ω(/si),为S中不包括si的其他骨架序列的表示,i是每次训练中的第i个骨架序列,si∈S,s'i∈S',H(·)和G(·)分别表示增强时空动作特征和原始时空动作特征对应的MLP函数,F(·)表示图卷积编码器函数;
将步骤1中得到原始骨架序列与增强骨架序列分别输入步骤2中,并重复以上步骤,得到对称的推拉式对比损失为:
将步骤2中得到的增强时空动作特征表示fa和原始时空动作特征表示fb输入至全连接层,得到最终的分类表示特征向量以及动作识别损失,动作识别损失为:
10.根据权利要求1所述的基于自适应增广与表示学习的半监督骨骼动作识别方法,其特征在于,所述对自适应增强模块和残差图卷积编码器进行学习训练具体为:通过SGD和停止梯度策略来最小化X-CAR损失更新X-CAR的所有参数对模型进行学习训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676997.9A CN114511924A (zh) | 2021-12-31 | 2021-12-31 | 基于自适应增广与表示学习的半监督骨骼动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111676997.9A CN114511924A (zh) | 2021-12-31 | 2021-12-31 | 基于自适应增广与表示学习的半监督骨骼动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114511924A true CN114511924A (zh) | 2022-05-17 |
Family
ID=81548315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111676997.9A Pending CN114511924A (zh) | 2021-12-31 | 2021-12-31 | 基于自适应增广与表示学习的半监督骨骼动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114511924A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019397A (zh) * | 2022-06-15 | 2022-09-06 | 北京大学深圳研究生院 | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 |
CN115035606A (zh) * | 2022-08-11 | 2022-09-09 | 天津大学 | 一种基于片段驱动对比学习的骨骼动作识别方法 |
-
2021
- 2021-12-31 CN CN202111676997.9A patent/CN114511924A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019397A (zh) * | 2022-06-15 | 2022-09-06 | 北京大学深圳研究生院 | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 |
CN115019397B (zh) * | 2022-06-15 | 2024-04-19 | 北京大学深圳研究生院 | 一种基于时空信息聚合的对比自监督人体行为识别方法及系统 |
CN115035606A (zh) * | 2022-08-11 | 2022-09-09 | 天津大学 | 一种基于片段驱动对比学习的骨骼动作识别方法 |
CN115035606B (zh) * | 2022-08-11 | 2022-10-21 | 天津大学 | 一种基于片段驱动对比学习的骨骼动作识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491880B (zh) | 基于神经网络的物体分类和位姿估计方法 | |
CN111968217B (zh) | 基于图片的smpl参数预测以及人体模型生成方法 | |
CN107038429A (zh) | 一种基于深度学习的多任务级联人脸对齐方法 | |
Komorowski et al. | Minkloc++: lidar and monocular image fusion for place recognition | |
CN114511924A (zh) | 基于自适应增广与表示学习的半监督骨骼动作识别方法 | |
CN113205466A (zh) | 一种基于隐空间拓扑结构约束的残缺点云补全方法 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN113743544A (zh) | 一种跨模态神经网络构建方法、行人检索方法及系统 | |
Li et al. | Appearance-based gaze estimator for natural interaction control of surgical robots | |
CN110135277B (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN114372173A (zh) | 一种基于Transformer架构的自然语言目标跟踪方法 | |
Fan et al. | An integrated hand-object dense pose estimation approach with explicit occlusion awareness for human-robot collaborative disassembly | |
Wu et al. | Link-RGBD: Cross-guided feature fusion network for RGBD semantic segmentation | |
CN115205926A (zh) | 一种基于多任务学习的轻量化鲁棒人脸对齐方法及系统 | |
CN114170304A (zh) | 一种基于多头自注意力和置换注意力的相机定位方法 | |
CN112975968A (zh) | 基于第三视角可变主体演示视频的机械臂模仿学习方法 | |
CN113139432A (zh) | 基于人体骨架和局部图像的工业包装行为识别方法 | |
CN116189306A (zh) | 基于联合注意力机制的人体行为识别方法 | |
Liu et al. | Pose and color-gamut guided generative adversarial network for pedestrian image synthesis | |
CN116977506A (zh) | 模型动作重定向的方法、装置、电子设备及存储介质 | |
CN115830707A (zh) | 一种基于超图学习的多视角人体行为识别方法 | |
CN115331261A (zh) | 基于YOLOv6的移动端实时人体检测方法及系统 | |
CN113192186B (zh) | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 | |
CN114937153A (zh) | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 | |
Si et al. | Image semantic segmentation based on improved DeepLab V3 model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |