CN111401141B

CN111401141B - 一种基于骨架的3d手势估计方法

Info

Publication number: CN111401141B
Application number: CN202010116785.4A
Authority: CN
Inventors: 于慧敏; 李钰昊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2022-07-15
Anticipated expiration: 2040-02-25
Also published as: CN111401141A

Abstract

本发明公开了一种基于骨架和隐含特征空间对齐的3D手势估计方法。该方法利用深度生成网络实现对手势骨架和深度手势的隐含特征进行建模、学习和表达，并利用多任务学习的机制，在建模的同时完成骨架隐含空间与手势隐含空间之间的对齐。不同于以往的手势估计方法，该方法的目标是在低维隐含空间之间学习建立映射关系，使得学习难度降低。同时，该方法有效地利用了多任务学习机制，使得学习到的特征更加全面，鲁棒性更高。

Description

一种基于骨架的3D手势估计方法

技术领域

本发明属于姿态估计、计算机视觉、和人机交互领域，特别地涉及一种基于骨架和多任务学习的手势估计方法。

背景技术

3D手势估计是计算机视觉与人机交互领域的基础和重要的任务。经典的手势估计方法包括基于生成模型的方法，基于判别模型的方法，基于3D卷积神经网络的方法以及基于骨架关节点热图的方法。但是，多数现有方法往往基于手势的深度或RGB图像，通过对其进行层层处理，最终估计得到手势参数，如关节点坐标或角度。然而，不难理解，手势与骨架从本质上来讲是同一事物的两种模态，手势与骨架之间存在着一一对应的关系，它们的低维特征也是如此。因此，与其采用由手势到骨架的自顶向下的处理思路，不如考虑在低维特征层面上，将手势与骨架关联起来，即可实现从手势到骨架的估计过程。此外，低维特征空间的构建与特征关联应该是两个互相促进的任务，而非相互独立的。

引入多任务学习策略，同步地进行低维特征空间的构建与特征关联，这一方法能够保证学习到的特征更加关注于手的本质，而非偏向手势或是骨架。多任务学习策略有助于提高两个联合任务各自的效果。

发明内容

本发明的目的在于提供了一种基于骨架的3D手势估计模型。该方法通过对骨架的学习、建模和表达，基于变分自动编码器建立了骨架的特征空间，并在此基础上，同步完成手势的特征空间建立以及手势、骨架的特征关联，从而实现手势与骨架在低维空间层面上映射关系。

为实现上述目的，本发明的技术方案为：一种基于骨架的3D手势估计模型。该方法为：首先建模骨架的低维特征空间，然后将手势生成模块与特征映射模块用一个联合的损失函数

进行训练优化，其中D为实际手势图像，

是手势生成的结果，z由骨架坐标向量y经过步骤1中的编码器编码所得，

是特征映射的结果，优化该损失函数即等价于同步地进行构建低维空间与学习特征映射任务。该方法具体为：

(1)获取N个手势样本对的数据集{手势图像D_i，骨架坐标向量y_i}，其中i＝1,…,N为样本编号，

H,W分别为深度图像D_i的长和宽，J为骨架关节点个数。

(2)使用变分自动编码器建立生成模型，用于学习、提取每个骨架y_i的隐含特征

其中d为隐含特征维度；同时，模型可以根据隐含特征z_i，准确恢复出相应的骨架

(3)使用卷积神经网络结构构建共享编码器Enc，对手势图像D_i进行特征提取，得到共享特征

其中ds为共享特征维度。

(4)构建手势生成模块，所述手势生成模块包括生成器Dec和判别器Dis。共享特征zs经过生成器Dec，重新生成对应的深度手势图像

建立损失函数

同时，生成图像

与原图像D经过判别器Dis，进行图像的真假判断，建立损失函数

按照梯度下降法的原则，对Dis与Dec进行参数更新；

(5)构建用于关联手势、骨架的特征映射模块Ali，将共享特征zs输入特征映射模块Ali，得到估计的骨架隐含特征

结合步骤2生成模型得到的隐含特征z建立损失函数

其中第二项为KL散度，

表示特征映射模块Ali的输出,

即符合标准正态分布。按照梯度下降法的原则，对Ali进行参数更新；

(6)基于多任务学习策略，联合生成模块与特征映射模块的损失函数，建立总损失函数

其中α、β均为可学习的权重参数，按照梯度下降法的原则，对α、β以及共享编码器Enc进行参数更新；第一个损失项为手势的重构损失，第二个损失项为手势的真假判别损失，第三个损失项为由手势特征到骨架特征的映射损失；

(7)重复步骤2～6，直到

收敛或达到最大迭代次数。

(8)使用经过训练的网络参数权重，对一幅新的深度手势图像d，依次经过共享编码器Enc、特征映射模块Ali以及步骤1中变分自动编码器的解码部分，即可估计出对应的手势骨架

进一步地，步骤1中所述手势数据包括深度、RGB等数据格式。

进一步地，步骤2中，生成模型的训练过程为无监督训练。利用变分自动编码器具有的生成能力，在非监督的方式下进行训练，使得变分自动编码器能够有效的对骨架进行特征提取，并构建了一个能够有效进行骨架生成的低维特征空间。由于变分自动编码器引入的随机性，该特征空间不仅对训练样本有重构能力，而且对于任意的新数据也能够有效地进行编解码；

进一步地，所述共享特征与骨架隐含特征均具有可解释性，可以应用的任务包括：

(4.1)手势估计；

(4.2)手势识别。

进一步地，所述步骤5中，特征映射模块Ali为单隐层全连接网络。

本发明的有益效果是：

(1)以一种基于骨架的设计思路，实现了手势与骨架之间，在低维特征层面上的关联。

(2)建立了低维空间建模与特征映射的多任务学习结构，实现了两个任务的相互补充、促进，学习到了具有解释性的、足够鲁棒的手势特征，提升了手势估计的效果。

附图说明

图1为本发明的流程图；

图2为待估计手势图像，其中，a-f分别为六种手势；

图3为图2对应的估计结果，其中，a-f分别为六种手势。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应该理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述可以完全理解本发明。

参考图1所示为本发明实施例的基于骨架的3D手势估计模型的训练步骤流程图。

给定N个训练数据集{手势图像D_i，骨架坐标向量y_i}，其中i＝1,…,N为样本编号，

H,W分别为深度图像D_i的长和宽，J为骨架关节点个数。测试用手势图像d，按照以下方法处理：

1.训练3D手势估计模型

(1.1)将训练数据集中的骨架坐标向量作为样本集合，Y＝{y_i}_i＝1…N。设定变分自动编码器的隐层数量为1，此时变分自动编码器为“输入层-隐层-特征层-隐层-输出层”的镜像结构。将Y中样本输入到变分自动编码器中进行无监督学习，建立骨架的生成模型。

(1.2)设定共享编码器、手势生成模块以及用于关联手势、骨架的特征映射模块Ali的网络结构，其中，共享编码器结构可以使用已有的各类卷积神经网络，如ResNet、DenseNet等，手势生成模块包括一个生成器Dec与一个判别器Dis，本实施例中，共享编码器结构采用DenseNet，特征映射模块Ali采用简单的单隐层全连接网络。

(1.3)将手势图像D_i输入共享编码器学习、提取共享特征，共享特征进一步分别输入手势生成模块，建立损失函数

和

进行训练，对Dis与Dec进行参数更新得到手势生成模型。将共享特征zs输入特征映射模块Ali，得到估计的骨架隐含特征

结合步骤2生成模型得到的隐含特征z建立损失函数

其中第二项为KL散度，

表示特征映射模块Ali的输出,

即符合标准正态分布。按照梯度下降法的原则，对Ali进行参数更新训练得到特征映射模型。

(1.4)联合生成模块与特征映射模块的损失函数，建立总损失函数

其中α、β均为可学习的权重参数，按照梯度下降法的原则，对α、β以及共享编码器Enc进行参数迭代优化，直到总损失函数收敛或达到最大迭代次数，保存网络权重。

2.对测试图像d

(2.1)将测试图像d(如图2所示)输入共享编码器，提取共享特征zs

(2.2)共享特征zs经过特征映射模型，映射为骨架特征z

(2.3)利用(1.1)中变分自动编码器的后半部分的解码器，即“特征层-隐层-输出层”，将骨架特征z重构生成为最终的骨架估计结果。

图3为使用训练好的模型进行估计后的输出结果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。