CN111428555A

CN111428555A - 一种分关节的手部姿态估计方法

Info

Publication number: CN111428555A
Application number: CN202010053784.XA
Authority: CN
Inventors: 林相波; 王雅凯; 孙怡; 马晓红; 陈晓慧
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2020-07-17
Anticipated expiration: 2040-01-17
Also published as: CN111428555B

Abstract

本发明提供分关节的手部姿态估计方法，包括：S1、准备数据集；S2、设计网络结构，将数据集中的图像数据输入到神经网络进行处理和融合重构；S3、设计损失函数；S4、构建网络并进行网络训练，网络使用python2.7基于tensorflow1.3构建，在配有GTX1080显卡的主机上进行训练和测试；S5、通过评价指标对测试结果进行分析；所述评价指标包括平均关节误差、正确检测帧比率以及平均检测速度。本发明依据手指功能区别设计了分手指、分关节的手部姿态估计网络结构，使手部姿态估计具有较高的准确度。

Description

一种分关节的手部姿态估计方法

技术领域

本发明涉及计算机视觉的人手姿态估计技术领域，具体而言，尤其涉及一种分关节的手部姿态估计方法。

背景技术

国内外研究人员在人手姿态估计问题上尝试了很多研究方案。从输入数据类型角度分类，包括单幅彩色RGB图像，双目或多目立体视觉，直接采用深度数据等。单幅彩色RGB图像缺少深度信息，获得的3D姿态估计结果准确度低。利用双目或多目立体视觉可以重构出深度信息，但是数据采集系统相对复杂，且易受到复杂光照影响，准确度不高。深度传感器为直接获取深度信息提供了便利。以单帧深度数据作为输入时，可以将其看成图像，或转换成点云表达，或转换成3D体素表达。点云以及3D体素比深度图像复杂，以此为输入时，虽然可以提高3D姿态估计的准确度，但是往往需要借助非常复杂的姿态估计模型，难以满足实时性的要求。

从视觉手部姿态估计方法的角度分类，大致可以分为基于生成式模型的方法和基于数据学习的方法。生成式模型法通常预先定义一个手部模型，借助不同的目标函数实现手部模型与观测到的深度图像的最优匹配。这类方法的性能对目标函数的合理性有较高依赖，对初始参数值敏感，估计速度慢，当手部动作变化较快时，姿态估计的准确度下降严重。数据学习法用大量数据训练手部姿态估计模型，可直接回归得到关节位置或角度，可以避免复杂建模过程，克服优化难度较高的缺点，但是姿态估计的准确度不如生成式模型法。最近的研究将手部模型与数据学习结合起来，期望在估计准确度和估计速度之间达到最佳平衡。如采用图卷积网重构手部形状模型获取姿态信息，利用大量合成数据训练网络，以实际采集的深度图为真值，弱监督模式调整网络参数去匹配真实深度图中的手部姿态。或采用编码器结构从彩色图像中估计控制手部模型动作的参数以及视角参数，并用估计的参数调整解码器部分给出的手部模型以及投影图像。不过，这种模型与数据学习结合的混合式方法仍然需要复杂的手部建模，估计速度提升有限。如果采用仿真合成数据训练网络模型，其与真实数据之间的差异对估计的准确性有不利影响。

本发明目标是以深度传感器采集的人手动作图像为数据源，研究一种基于深度学习技术的新方法，估计人手在动作过程中的关节位置信息，可以为诸如机器手操作等提供技术手段。本发明为了综合提升估计准确度和估计速度，选用深度图像作为输入，不需要建立手部模型，而是直接采用深度卷积网络达到目的。特别是本发明提出了一种新颖的与手指功能差异相对应的网络结构，通过分手指分关节的估计，不仅提高了手部姿态估计的准确度，而且具有非常高的估计速度。

发明内容

根据上述提出的技术问题，而提供分关节的手部姿态估计方法。本发明在充分调研手部姿态估计方法的研究进展基础上，提出一种依据手指功能区别而设计的分手指、分关节的手部姿态估计网络结构，使手部姿态估计具有较高的准确度。

本发明采用的技术手段如下：

一种分关节的手部姿态估计方法，包括：

S1、准备数据集；

S2、设计网络结构，将数据集中的图像数据输入到神经网络进行处理和融合重构；

S3、设计损失函数，所述损失函数定义如下：

L＝L₁+L₂+L₃+λR(w) (1)

式(1)中，L₁、L₂、L₃分别表示第一个损失函数项、第二个损失函数项和第三个损失函数项，R(w)表示正则化项，λ表示正则化项的权重系数；

其中，第一个损失函数项L₁具体定义为：

L₁＝δL_palm+αL_thumb+βL_index+γL_others (2)

式(2)由掌关节、拇指关节、食指关节和其他手指关节的损失函数L_palm、L_thumb、L_index、L_others构成，定义为预测关节位置与真实关节位置的差，即

式(3)中，a_i为第i个关节位置预测值，A_i为第i个关节位置真实值，J_f为各支路对应的关节数量；δ、α、β、γ分别为平衡各项的权重因子；

第二个损失函数项L₂具体定义为：

式(4)中，p_i和P_i分别表示第i维收缩层的预测输出和关节位置真值降维后的特征值；

第三个损失函数项位于干扰消除之后的最终的分支之后，定义了每个分支预测的关节点的3D坐标与真值标注之间距离，其定义与L₂相同；

S4、构建网络并进行网络训练，网络使用python2.7基于tensorflow1.3构建，在配有GTX1080显卡的主机上进行训练和测试；

S5、通过评价指标对测试结果进行分析；所述评价指标包括平均关节误差、正确检测帧比率以及平均检测速度。

进一步地，所述步骤S1中准备数据集的具体过程如下：

S11、获取图像数据集；所述图像数据集采用开源共享的ICVL数据集；

S12、通过图像的二维旋转变换将数据集扩充到330K，数据集包含1.5K 帧测试图像；

S13、数据预处理，定义固定大小的手部包围盒，以手指中部MCP关节的标注为中心，裁剪出手部图像，计算裁剪后图像的质心；以该质心为包围盒中心，重新裁剪图像；将裁剪后手部深度图的大小调整为128×128，深度值归一化到[-1,1]。

进一步地，所述ICVL数据集通过3D骨骼模型跟踪对手部16个关节点的3D位置进行标注，通过Intel Creative深度相机拍摄22K张手部动作的深度图像，分辨率320×240，位深度16，所含图像序列共有10个操作者，执行26个不同动作。

进一步地，所述步骤S2中设计的网络结构包括网络输入特征提取单元和网络特征融合单元；

所述网络输入特征提取单元采用四分支卷积神经结构，每个分支分别对应不同的手部关节且结构相同，其中每个分支包括两个卷积模块和一个全连接模块；

所述网络特征融合单元通过集成操作将四个分支得到的特征合并，形成一个综合特征，送入后续的全连接模块进行全局特征映射，该模块结构与所述特征提取单元中的全连接模块相同；该全连接模块连接收缩层，其神经元数量少于表达全手关节所需要的神经元数量，通过高维向低维的映射，强化手部的整体结构约束。

进一步地，所述的两个卷积模块，每个卷积模块包括两个卷积层，核尺寸5×5，通道数32，非线性激活函数ReLU，每个卷积层后加规范化处理，最后做最大池化操作，步长为3；所述的全连接模块包括两个全连接层，分别有2048和1024个神经元，规范化处理后，做随机丢弃操作，丢弃率50％。

进一步地，所述步骤S2中还包括降维处理操作，具体如下：

设高维数据X＝{x₁,x₂,…,x_n}，W＝{w₁,w₂,…,w_D}是适应于数据分布的D维标准正交基向量构成的投影矩阵，D＜＜n，则任一高维数据x_i∈X在低维空间的投影为z_i＝W^Tx_i，z_i＝Z＝{z₁,z₂,…,z_n}；从低维空间重构高维空间，得到 x_i＝∑_Dz_iW。

进一步地，所述步骤S2中还包括网络处理时，将真实关节位置信息降维到D维空间，作为收缩层权重训练的监督信息，重构时将投影矩阵W作为重构层权重，特征值的均值作为偏置，得到重构后手部关节点位置的步骤。

较现有技术相比，本发明具有以下优点：

1、本发明提出的方法具有新颖的网络结构。结构设计建立在手部结构和功能特点的基础上，不同的网络分支与不同的手指或手指组合相对应，掌关节作为全局特征融入其他三个手指分支中，强化了全局与局部信息的联系。设置收缩层强化了手指与手指之间的结构关联性，可以让估计出的手部姿态符合人手物理结构和运动特性。

2、本发明提出的方法，其准确率高，适用性更好，计算复杂性低，运行时间少。在ICVL数据集上实施本发明提出的方法，检测精度为8.25mm。

基于上述理由本发明可在计算机视觉的人手姿态估计等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法手部姿态检测网络总体结构图。

图2为本发明实施例提供的不同方法在ICVL数据集上正确帧检测比率对比图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明的目的是仅以深度相机为传感器，采用深度学习技术，估计不同视角下人手动作姿态。

实施例

本发明提供了一种分关节的手部姿态估计方法，包括：

S1、准备数据集；

所述步骤S1中准备数据集的具体过程如下：

S11、获取图像数据集；所述图像数据集采用开源共享的ICVL数据集；进一步的作为本发明优选的实施方式，所述ICVL数据集通过3D骨骼模型跟踪对手部16个关节点的3D位置进行标注，通过Intel Creative深度相机拍摄 22K张手部动作的深度图像，分辨率320×240，位深度16，所含图像序列共有10个操作者，执行26个不同动作。

为提高手部姿态估计的准确度，需要将手部区域尽可能准确分离出来，本部分没有纳入到整体网络的端到端训练中，通过数据预处理步骤完成。数据预处理过程如下：

S13、数据预处理，定义固定大小的手部包围盒，以手指中部MCP关节的标注为中心，裁剪出手部图像，计算裁剪后图像的质心；以该质心为包围盒中心，重新裁剪图像；将裁剪后手部深度图的大小调整为128×128，深度值归一化到[-1,1]；相应地，关节点位置标注也转换到包围盒空间；实际第三视角人机交互场景中，操作者面向相机，手部保持在身体前方，距离相机最近，利用深度阈值完成手部区域检测。

进一步地作为本发明优选的实施方式，如图1所示，所述步骤S2中设计的网络结构包括网络输入特征提取单元和网络特征融合单元；

所述网络输入特征提取单元采用四分支卷积神经结构，每个分支分别对应不同的手部关节且结构相同，其中每个分支包括两个卷积模块和一个全连接模块；所述的两个卷积模块，每个卷积模块包括两个卷积层，核尺寸5×5，通道数32，非线性激活函数ReLU，每个卷积层后加规范化处理，最后做最大池化操作，步长为3；所述的全连接模块包括两个全连接层，分别有2048 和1024个神经元，规范化处理后，做随机丢弃操作，丢弃率50％。

所述网络特征融合单元通过集成操作将四个分支得到的特征合并，形成一个综合特征，送入后续的全连接模块进行全局特征映射，该模块结构与所述特征提取单元中的全连接模块相同；该全连接模块连接收缩层，其神经元数量少于表达全手关节所需要的神经元数量，目的是通过高维向低维的映射，强化手部的整体结构约束。本实施例中，其神经元数量设为30，通过高维向低维的映射，强化手部的整体结构约束。

所述步骤S2中还包括降维处理操作，降维处理采用主成分分析思想，具体如下：

网络处理时，将真实关节位置信息降维到D维空间，作为收缩层权重训练的监督信息，重构时将投影矩阵W作为重构层权重，特征值的均值作为偏置，得到重构后的手部关节点位置。

网络训练时采用多级监督策略，第一级监督L₁位于各分支网络输出端，监督信息为各分支对应的手指关节位置，第二级监督L₂位于收缩层之后，监督信息为降维后真实关节位置的投影。

S3、设计损失函数，所述损失函数定义如下：

L＝L₁+L₂+L₃+λR(w) (1)

式(1)中，L₁、L₂、L₃分别表示第一个损失函数项、第二个损失函数项和第三个损失函数项，第四项R(w)表示正则化项，对网络权重进行正则化处理，采用L₂-范数，λ表示正则化项的权重系数，在实验中设置为0.001。

其中，第一个损失函数项L₁具体定义为：

L₁＝δL_palm+αL_thumb+βL_index+γL_others (2)

式(3)中，a_i为第i个关节位置预测值，A_i为第i个关节位置真实值，J_f为各支路对应的关节数量；δ、α、β、γ分别为平衡各项的权重因子；损失函数中各项的贡献度根据经验调整参数取值，本实验中设置为 α＝1,β＝1,γ＝1,δ＝1,σ＝1,λ＝0.001。以本发明实施例所采用的ICVL数据集为例，J_palm＝1,J_thumb＝4，J_index＝4，J_others＝10。

第二个损失函数项L₂具体定义为：

S4、构建网络并进行网络训练，网络使用python2.7基于tensorflow1.3构建，在配有GTX1080显卡的主机上进行训练和测试；具体实施时，网络采用端到端的方式进行训练，所有的权重被随机初始化为均值为0，标准差为 0.01的正态分布，使用Adam算法进行梯度的反向传播计算，初始学习率设为0.001，每一轮训练学习率衰减为上一轮的0.96倍。除输出层之外所有的全连接层都使用随机失活防止过拟合，随机失活比率设为0.5。批大小为64，最小批量1720，训练100轮。训练时间约20小时。

平均关节误差：测试集中每一帧图像的所有关节位置的预测值与真值标签之间的3D距离，单位mm。

正确检测帧比率：所有关节点的误差低于某个阈值的帧数所占总体测试集的比例，取值0-100％。

平均检测速度：每秒钟完成检测的帧数，单位fps。

本发明以ICVL深度图像数据集为实验案例进行手部关节检测，并与多种近年提出的优秀结果进行比较，包括Crossing-Nets，DeepModel，LRF， REN_Baseline，HBE,V2V-PoseNet。如图2所示，展示了在ICVL数据集上，不同方法在不同的误差阈值下正确检测帧比率曲线，可以看出，本发明提出的方法优于其他方法。表1所示为不同方法在ICVL数据集上测试结果的平均关节误差，本发明所提方法在准确度指标上表现很好，虽然平均检测误差大于V2V-PoseNet约2mm，但是检测速度是V2V-PoseNet方法的120倍，综合性能占优。

表1不同方法在ICVL数据集上的平均检测误差和检测速度对比(本文方法简称HStB)

方法	平均关节误差/mm	检测速度/fps
			LRF	12.58	-
DeepModel	10.4	-
			Crossing Nets	10.2	-
HBE	8.62	557
			V2V-PoseNet	6.28	3.5
HStB	8.25	422

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种分关节的手部姿态估计方法，其特征在于，包括：

S1、准备数据集；

S3、设计损失函数，所述损失函数定义如下：

L＝L₁+L₂+L₃+λR(w) (1)

其中，第一个损失函数项L₁具体定义为：

L₁＝δL_palm+αL_thumb+βL_index+γL_others (2)

第二个损失函数项L₂具体定义为：

2.根据权利要求1所述的分关节的手部姿态估计方法，其特征在于，所述步骤S1中准备数据集的具体过程如下：

S12、通过图像的二维旋转变换将数据集扩充到330K，数据集包含1.5K帧测试图像；

3.根据权利要求2所述的分关节的手部姿态估计方法，其特征在于，所述ICVL数据集通过3D骨骼模型跟踪对手部16个关节点的3D位置进行标注，通过Intel Creative深度相机拍摄22K张手部动作的深度图像，分辨率320×240，位深度16，所含图像序列共有10个操作者，执行26个不同动作。

4.根据权利要求1所述的分关节的手部姿态估计方法，其特征在于，所述步骤S2中设计的网络结构包括网络输入特征提取单元和网络特征融合单元；

5.根据权利要求4所述的分关节的手部姿态估计方法，其特征在于，所述的两个卷积模块，每个卷积模块包括两个卷积层，核尺寸5×5，通道数32，非线性激活函数ReLU，每个卷积层后加规范化处理，最后做最大池化操作，步长为3；所述的全连接模块包括两个全连接层，分别有2048和1024个神经元，规范化处理后，做随机丢弃操作，丢弃率50％。

6.根据权利要求4所述的分关节的手部姿态估计方法，其特征在于，所述步骤S2中还包括降维处理操作，具体如下：

设高维数据X＝{x₁,x₂,…,x_n}，W＝{w₁,w₂,…,w_D}是适应于数据分布的D维标准正交基向量构成的投影矩阵，D＜＜n，则任一高维数据x_i∈X在低维空间的投影为z_i＝W^Tx_i，z_i＝Z＝{z₁,z₂,…,z_n}；从低维空间重构高维空间，得到x_i＝∑_Dz_iW。

7.根据权利要求1所述的分关节的手部姿态估计方法，其特征在于，所述步骤S2中还包括网络处理时，将真实关节位置信息降维到D维空间，作为收缩层权重训练的监督信息，重构时将投影矩阵W作为重构层权重，特征值的均值作为偏置，得到重构后手部关节点位置的步骤。