CN110188598B

CN110188598B - 一种基于MobileNet-v2的实时手部姿态估计方法

Info

Publication number: CN110188598B
Application number: CN201910296212.1A
Authority: CN
Inventors: 朱雯娟; 马晓红
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-04-13
Filing date: 2019-04-13
Publication date: 2022-07-05
Anticipated expiration: 2039-04-13
Also published as: CN110188598A

Abstract

本发明属于手部姿态估计、人机交互、计算机视觉手部跟踪技术领域，一种基于MobileNet‑v2的实时手部姿态估计方法，包括以下步骤：(1)获取包含手部关节点3D位置标注的深度图像，(2)对ICVL数据集中的深度图像进行预处理，(3)搭建基于MobileNet‑v2的实时手部姿态估计网络，(4)搭建三分支手指注意力输出网络，(5)确定网络的损失函数，(6)训练搭建的神经网络，(7)得到训练好的模型。本发明具有以下优点：一是，使用数据驱动的深度学习方法，在实际应用时计算复杂度低，速度快；二是，使用轻量级网络MobileNet‑v2作为骨干网络在保证性能的前提下减少了网络参数；三是，使用全局平均池化代替全连接层节省了大量参数。

Description

一种基于MobileNet-v2的实时手部姿态估计方法

技术领域

本发明涉及一种基于MobileNet-v2的实时手部姿态估计方法，属于手部姿态估计、人机交互、计算机视觉手部跟踪技术领域。

背景技术

传统的与计算机等设备进行交互的方式主要是依靠一些硬件设备，例如键盘、鼠标、打印机等，这些设备为人们操作计算机等设备提供了巨大的帮助，然而，随着社会的发展与技术的进步，人们已不仅仅满足于通过这些设备，而是希望使用更加自然的手段进行人机交互。通过手势自然地进行人机交互已经成为人们的一种诉求。

伴随着机械自动化技术的蓬勃发展，工业机器人产业日趋成熟，并逐渐的被应用在生产生活中，它能够帮助人类完成特定的行为动作。如果想提高机器人的操作水平，则需要学习人手的操作经验，从而获取对它有用的先验信息。

无论是使用手势的方式进行更加自然的人机交互，为机器人提供人手操作经验还是进行手部追踪，首先需要做的就是估计手部姿态，得到手部关节点3D坐标，并在此基础上给设备传递相关信息。使用带有传感器的数据手套，可以记录手部姿态的准确信息，其缺点是使人手部动作受限，运动不够自然，成本也相对较高，这使得人们考虑采用其他方法获取数据。近年来，深度相机的出现降低了数据采集的成本，使得基于深度数据估计手部姿态成为一种主流方法。

基于深度数据估计手部姿态的方法大致分为三大类：生成类方法、判别类方法和混合方法。生成类方法首先是使用几何结构构建手部模型，建立手部关节与几何模型之间的对应关系；然后，将手部模型的二维投影特征与观测到的图像特征进行匹配；最后，使用优化算法在高维参数空间中寻找目标函数的最优解。这类方法虽然精度较高，但计算复杂，且实时性较差，目前无法满足人们对手部姿态估计实时性的要求。判别类方法的主要思路是首先搭建卷积神经网络 (Convolutional Neural Networks,CNN)提取手部特征，然后使用全连接层回归出手部所有关节点的3D坐标。这类方法在实际应用时，计算复杂度低，速度较快，其结构对输出结果的精确度以及实时性有很大的影响。现有的网络模型计算复杂度较大，网络结构复杂，MobileNet-v2提供了一个非常高效的面向移动设备的模型，可以作为这个任务的基础网络。混合类方法是两种方法的结合。

发明内容

为了克服现有技术中存在的不足，本发明目的是提供一种基于MobileNet-v2 的实时手部姿态估计方法，从而得到关节点的3D坐标。该方法基于MobileNet-v2 网络，借鉴编码器-解码器的架构，进行特征融合，融合后的特征再经过三分支手指注意力输出网络，实时估计出深度图像中手部关节点的3D位置，该方法使用了能快速移植到移动设备的轻量级神经网络MobileNet-v2，能够准确地获得深度图像中手部关节点的3D位置，即便是在设备资源有限的情况下，该方法依然能很快速的估计出关节点3D坐标，同时能保证准确度。

为了实现上述发明目的，解决已有技术中所存在的问题，本发明采取的技术方案是：一种基于MobileNet-v2的实时手部姿态估计方法，包括以下步骤：

步骤1、获取包含手部关节点3D位置标注的深度图像，首先下载ICVL数据集，它由深度相机获得22k深度图像，通过对其进行不同的旋转，形成了由180k 张深度图像组成的训练集，以及由1536张深度图像组成的的测试集构成，本发明的训练集只使用其中的22k原始深度图像，测试集使用全部的1536张深度图像，每张深度图像有J＝16个注释关节点(x,y,z)，ICVL数据集提供的深度图像具有质量高、噪声小且轮廓清晰等优点；

步骤2、对ICVL数据集中的深度图像进行预处理，具体包括以下子步骤：

(a)在深度图像中分割手部区域，手是最接近相机的物体，从深度图像中提取一个以该物体的质心为中心的立方体，立方体的大小设定为250×250×250 mm，获得手的包围框，实现了从原深度图中分割出手部图像的目的；

(b)将分割出的手部图像大小调整为128×128，深度值归一化为[-1,1]，深度不可用的点或者比立方体的背面更深的点的深度被设定为1，这种预处理对于卷积神经网络(Convolutional Neural Networks,CNN)而言很重要；

步骤3、搭建基于MobileNet-v2的实时手部姿态估计网络，该网络是一个编码器-解码器架构，它能够充分利用图像的多尺度特征，从而实现手部姿态的估计，具体包括以下子步骤：

(a)输入为128×128的手部深度图像，通道数为1；

(b)使用TensorFlow框架搭建基于MobileNet-v2的实时手部姿态估计网络，其解码器部分有链式残差池化(Chained Residual Pooling,CRP)、融合(FUSION) 两种操作方式，CRP由一系列的5×5池化层与1×1卷积层构成，以残差的形式排列，进行特征提取；FUSION部分则是对两路输入数据分别执行1×1卷积后，将低分辨率特征进行上采样，形成与高分辨率特征一样的分辨率，然后求和，依次选取MobileNet-v2网络中的特征图为原图像分辨率的1/4,1/8，1/16，1/32的输出特征作为本发明编码器部分的blocks1，blocks2，blocks3和blocks4，将blocks4 经过CRP后与blocks3进行FUSION，实现了低分辨率高语义特征与高分辨率低语义特征的融合，融合后的特征经过CRP后和blocks2进行FUSION，再经过CRP 后和blocks1进行FUSION，最后经过CRP输出最终融合后的特征F，通道数为 256；

步骤4、搭建三分支手指注意力输出网络，由于拇指和食指在抓握、操作中起着重要的作用，而中指，无名指和小指在大多数情况下起着辅助作用，因此将五指结构简化为拇指、食指和其他手指的三分支结构，不同分支的手指注意力模块以浅层低级图像特征作为输入，可以大大降低计算复杂度和训练时间，使用 TensorFlow搭建三分支手指注意力输出网络，从而获得手部16个关节的3D位置 (x,y,z)，具体包括以下子步骤：

(a)将步骤3子步骤(b)获得的融合后的特征F经过stride＝2的池化层，分辨率降为原始图像分辨率的1/8；

(b)建立拇指注意力输出网络，得到拇指对应的4个关节点的3D坐标，经步骤4子步骤(a)融合后的特征F大小为16×16，通道数为256，再将F送到1 ×1卷积层，使用激活函数sigmoid获得具有尺寸为16×16的权重M^it，M^it中的值被视为F中拇指关节对应像素是关节点的可能性，从而得到注意力机制后的特征，通过公式(1)进行描述，

其中，F_x,y,c为步骤4子步骤(a)融合后的特征F，

为拇指对应的像素权重，

为拇指注意力机制后的输出特征，得到

后经过1×1卷积、BN层、 ReLU函数激活后输出512个特征图，512个特征图进行全局平均池化，再经过1 ×1卷积，形成输出通道数为12的特征图，最后进行维度压缩得到12个坐标值，其中拇指对应4个关节点，每个关节点3个坐标，故一共输出12个坐标；

(c)建立食指注意力输出网络，得到食指对应的3个关节点的3D坐标，经步骤4子步骤(a)融合后的特征F大小为16×16，通道数为256，再将F送到1 ×1卷积层，使用激活函数sigmoid获得具有尺寸为16×16的权重Mⁱⁱ，Mⁱⁱ中的值被视为F中拇指关节对应像素是关节点的可能性，从而得到注意力机制后的特征，通过公式(2)进行描述，

其中，

为食指对应的像素权重，

为注意力机制后食指的输出特征，得到

后经过1×1卷积、BN层、ReLU函数激活后输出512个特征图，512 个特征图进行全局平均池化，再经过1×1卷积，形成输出通道数为9的特征图，最后进行维度压缩得到9个坐标值，食指对应的3个关节点，每个关节点3个坐标，故一共输出9个坐标；

(d)建立其余三指注意力输出网络，得到其余三指对应的9个关节点的3D 坐标，经步骤4子步骤(a)融合后的特征F大小为16×16，通道数为256，再将F送到1×1卷积层，使用激活函数sigmoid获得具有尺寸16×16的权重M^io， M^io中的值被视为F中拇指关节对应像素是关节点的可能性，得到注意力机制后的特征，通过公式(3)进行描述，

其中，

为其余三指对应的像素权重，

为注意力机制后的其余三指输出特征，得到

后经过1×1卷积、BN层、relu函数激活后输出512个特征图， 512个特征图进行全局平均池化，形成输出通道数为27的特征图，最后进行维度压缩得到27个坐标值，其余三指对应的9个关节点，每个关节点3个坐标，故一共输出27个坐标；

步骤5、确定网络的损失函数，网络的损失函数Loss，通过公式(4)进行描述

Loss＝L+αR(ω) (4)

其中，αR(ω)是L2范数正则化项，正则化系数α在实验中设定为0.001，L 表示预测值和坐标真实值之间的均方误差，即损失项，通过公式(5)进行描述

L＝L_thumb+L_index+L_others (5)

其中，L_thumb表示拇指分支的损失项，L_index表示食指分支的损失项，L_others表示其余手指分支的损失项，具体的每个分支的损失函数，通过公式(6)进行描述

其中，c_i表示预测的第i个关节点的3D坐标(x,y,z)，C_i表示真实标注的3D 坐标(x,y,z)，J_b表示每个分支关节点的总数；

步骤6、训练搭建的神经网络，网络模型在具有Intel Core i7 CPU，32GB RAM 和NVIDIA GTX1080 GPU的计算机上进行训练，网络基于Tensorflow框架，采用Python编程语言实现，所有权重初始化时均采用均值为0，标准差为0.01的正态分布，使用Adam优化器以batchsize大小为96对网络进行反向传播训练，训练200个epoch，使用初始值为0.001的动态学习率，并在每个epoch后降低为原来的0.95倍，训练过程使用随机数据扩充，即平移、翻转、放缩；

步骤7、得到训练好的模型，将测试数据送入模型，从而估计出手部关节点的3D坐标(x,y,z)。

本发明有益效果是：一种基于MobileNet-v2的实时手部姿态估计方法，包括以下步骤：(1)获取包含手部关节点3D位置标注的深度图像，(2)对ICVL数据集中的深度图像进行预处理，(3)搭建基于MobileNet-v2的实时手部姿态估计网络，(4)搭建三分支手指注意力输出网络，(5)确定网络的损失函数，(6)训练搭建的神经网络，(7)得到训练好的模型。与已有技术相比，本发明具有以下优点：一是，使用数据驱动的深度学习方法，在实际应用时计算复杂度低，速度较快；二是，使用轻量级网络MobileNet-v2，在保证性能的前提下大大减少了网络参数；三是，使用全局池化代替全连接层节省了大量参数，同时也能达到防止训练过拟合的情况；四是，三分支的特征注意力输出网络能充分利用不同尺度融合的特征；本发明能实时准确的估计出手部深度图像关节点的3D位置坐标。

附图说明

图1是本发明方法步骤流程图。

图2是本发明方法基于MobileNet-v2的沙漏特征提取网络图。

图3是本发明方法三分支特征注意力输出网络图。

图4是本发明方法CRP和FUSION结构图。

图中：(a)是CRP结构图，(b)是FUSION结构图。

图5是本发明方法手指注意力机制图。

图6是本发明方法16个手指每个关节的误差和平均误差图。

图7是本发明方法不同误差范围内关节预测结果所占的比例图。

图8是本发明方法得到的最终结果图。

具体实施方式

下面结合附图对本发明作进一步说明。

如图1所示，一种基于MobileNet-v2的实时手部姿态估计方法，包括以下步骤：

步骤3、搭建基于MobileNet-v2的实时手部姿态估计网络，如图2所示，该网络是一个编码器-解码器架构，它能够充分利用图像的多尺度特征，从而实现手部姿态的估计，具体包括以下子步骤：

(a)输入为128×128的手部深度图像，通道数为1；

(b)使用TensorFlow框架搭建基于MobileNet-v2的实时手部姿态估计网络，其解码器部分有链式残差池化(Chained Residual Pooling,CRP)、融合(FUSION) 两种操作方式，如图4所示，CRP由一系列的5×5池化层与1×1卷积层构成，以残差的形式排列，进行特征提取；FUSION部分则是对两路输入数据分别执行1 ×1卷积后，将低分辨率特征进行上采样，形成与高分辨率特征一样的分辨率，然后求和，依次选取MobileNet-v2网络中的特征图为原图像分辨率的1/4,1/8， 1/16，1/32的输出特征作为本发明编码器部分的blocks1，blocks2，blocks3和 blocks4，将blocks4经过CRP后与blocks3进行FUSION，实现了低分辨率高语义特征与高分辨率低语义特征的融合，融合后的特征经过CRP后和blocks2进行FUSION，再经过CRP后和blocks1进行FUSION，最后经过CRP输出最终融合后的特征F，通道数为256；

步骤4、搭建三分支手指注意力输出网络，如图3所示。由于拇指和食指在抓握、操作中起着重要的作用，而中指，无名指和小指在大多数情况下起着辅助作用，因此将五指结构简化为拇指、食指和其他手指的三分支结构，不同分支的手指注意力模块以浅层低级图像特征作为输入，可以大大降低计算复杂度和训练时间，使用TensorFlow搭建三分支手指注意力输出网络，从而获得手部16个关节的3D位置(x,y,z)，具体包括以下子步骤：

(b)建立拇指注意力输出网络，得到拇指对应的4个关节点的3D坐标，经步骤4子步骤(a)融合后的特征F大小为16×16，通道数为256，再将F送到1 ×1卷积层，使用激活函数sigmoid获得具有尺寸为16×16的权重M^it，M^it中的值被视为F中拇指关节对应像素是关节点的可能性，从而得到注意力机制后的特征，如图5所示，通过公式(1)进行描述，

其中，F_x,y,c为步骤4子步骤(a)融合后的特征F，

为拇指对应的像素权重，

为拇指注意力机制后的输出特征，得到

(c)建立食指注意力输出网络，得到食指对应的3个关节点的3D坐标，经步骤4子步骤(a)融合后的特征F大小为16×16，通道数为256，再将F送到1 ×1卷积层，使用激活函数sigmoid获得具有尺寸为16×16的权重Mⁱⁱ，Mⁱⁱ中的值被视为F中拇指关节对应像素是关节点的可能性，从而得到注意力机制后的特征，如图5所示，通过公式(2)进行描述，

其中，

为食指对应的像素权重，

为注意力机制后食指的输出特征，得到

(d)建立其余三指注意力输出网络，得到其余三指对应的9个关节点的3D 坐标，经步骤4子步骤(a)融合后的特征F大小为16×16，通道数为256，再将F送到1×1卷积层，使用激活函数sigmoid获得具有尺寸16×16的权重M^io， M^io中的值被视为F中拇指关节对应像素是关节点的可能性，得到注意力机制后的特征，如图5所示，通过公式(3)进行描述，

其中，

为其余三指对应的像素权重，

为注意力机制后的其余三指输出特征，得到

Loss＝L+αR(ω) (4)

L＝L_thumb+L_index+L_others (5)

本发明得到的最终结果如图8所示，手指的平均关节误差是7.3mm，对于自遮挡不严重的关节点，本方法估计的关节点3D坐标非常准确，如图7所示，所有的估计结果都在2cm的误差内，1cm误差内图像所占的比例达到了90％；本方法比其他深度学习方法的参数量低一个数量级，参数量只有4M，最终的测试结果在单GPU的情况下速度为700fps，达到了实时性的要求。

Claims

1.一种基于MobileNet-v2的实时手部姿态估计方法，其特征在于包括以下步骤：

步骤1、获取包含手部关节点3D位置标注的深度图像，首先下载ICVL数据集，它由深度相机获得22k张深度图像，通过对其进行不同的旋转，形成了由180k张深度图像组成的训练集，以及由1536张深度图像组成的测试集构成，训练集只使用其中的22k张原始深度图像，测试集使用全部的1536张深度图像，每张深度图像有J＝16个注释关节点(x,y,z)，ICVL数据集提供的深度图像具有质量高、噪声小且轮廓清晰的优点；

(a)在深度图像中分割手部区域，手是最接近相机的物体，从深度图像中提取一个以手的质心为中心的立方体，立方体的大小设定为250×250×250mm，获得手的包围框，实现了从原深度图中分割出手部图像的目的；

(a)输入大小为128×128的手部深度图像，通道数为1；

(b)使用TensorFlow框架搭建基于MobileNet-v2的实时手部姿态估计网络，其解码器部分有链式残差池化(Chained Residual Pooling,CRP)、融合(FUSION)两种操作方式，CRP由一系列的5×5池化层与1×1卷积层构成，以残差的形式排列，进行特征提取；FUSION部分则是对两路输入数据分别执行1×1卷积后，将低分辨率特征进行上采样，形成与高分辨率特征一样的分辨率，然后求和，依次选取MobileNet-v2网络中的特征图为原图像分辨率的1/4,1/8，1/16，1/32的输出特征作为编码器部分的blocks1，blocks2，blocks3和blocks4，将blocks4经过CRP后与blocks3进行FUSION，实现了低分辨率高语义特征与高分辨率低语义特征的融合，融合后的特征经过CRP后和blocks2进行FUSION，再经过CRP后和blocks1进行FUSION，最后经过CRP输出最终融合后的特征F，通道数为256；

步骤4、搭建三分支手指注意力输出网络，由于拇指和食指在抓握、操作中起着重要的作用，而中指，无名指和小指在大多数情况下起着辅助作用，因此将五指结构简化为拇指、食指和其他手指的三分支结构，不同分支的手指注意力模块以浅层低级图像特征作为输入，可以大大降低计算复杂度和训练时间，使用TensorFlow搭建三分支手指注意力输出网络，从而获得手部16个关节的3D位置(x,y,z)，具体包括以下子步骤：

(b)建立拇指注意力输出网络，得到拇指对应的4个关节点的3D坐标，经步骤4子步骤(a)池化后的特征F大小为16×16，通道数为256，再将F送到1×1卷积层，使用激活函数sigmoid获得具有尺寸为16×16的权重M^it，M^it中的值被视为F中拇指关节对应像素是关节点的可能性，从而得到注意力机制后的特征，通过公式(1)进行描述，

其中，F_x,y,c为步骤4子步骤(a)池化后的特征F，

为拇指对应的像素权重，

为拇指注意力机制后的输出特征，得到

后经过1×1卷积、BN层、ReLU函数激活后输出512个特征图，512个特征图进行全局平均池化，再经过1×1卷积，形成输出通道数为12的特征图，最后进行维度压缩得到12个坐标值，其中拇指对应4个关节点，每个关节点3个坐标，故一共输出12个坐标；

(c)建立食指注意力输出网络，得到食指对应的3个关节点的3D坐标，经步骤4子步骤(a)池化后的特征F大小为16×16，通道数为256，再将F送到1×1卷积层，使用激活函数sigmoid获得具有尺寸为16×16的权重Mⁱⁱ，Mⁱⁱ中的值被视为F中食指关节对应像素是关节点的可能性，从而得到注意力机制后的特征，通过公式(2)进行描述，

其中，

为食指对应的像素权重，

为注意力机制后食指的输出特征，得到

后经过1×1卷积、BN层、ReLU函数激活后输出512个特征图，512个特征图进行全局平均池化，再经过1×1卷积，形成输出通道数为9的特征图，最后进行维度压缩得到9个坐标值，食指对应的3个关节点，每个关节点3个坐标，故一共输出9个坐标；

(d)建立其余三指注意力输出网络，得到其余三指对应的9个关节点的3D坐标，经步骤4子步骤(a)池化后的特征F大小为16×16，通道数为256，再将F送到1×1卷积层，使用激活函数sigmoid获得具有尺寸16×16的权重M^io，M^io中的值被视为F中其余三指关节对应像素是关节点的可能性，得到注意力机制后的特征，通过公式(3)进行描述，

其中，

为其余三指对应的像素权重，

为注意力机制后的其余三指输出特征，得到

后经过1×1卷积、BN层、relu函数激活后输出512个特征图，512个特征图进行全局平均池化，形成输出通道数为27的特征图，最后进行维度压缩得到27个坐标值，其余三指对应的9个关节点，每个关节点3个坐标，故一共输出27个坐标；

Loss＝L+αR(ω) (4)

其中，αR(ω)是L2范数正则化项，正则化系数α在实验中设定为0.001，L表示预测值和坐标真实值之间的均方误差，即损失项，通过公式(5)进行描述

L＝L_thumb+L_index+L_others (5)

其中，c_i表示预测的第i个关节点的3D坐标(x,y,z)，C_i表示真实标注的3D坐标(x,y,z)，J_b表示每个分支关节点的总数；

步骤6、训练搭建的神经网络，网络模型在具有Intel Core i7 CPU，32GB RAM和NVIDIAGTX1080 GPU的计算机上进行训练，网络基于Tensorflow框架，采用Python编程语言实现，所有权重初始化时均采用均值为0，标准差为0.01的正态分布，使用Adam优化器以batchsize大小为96对网络进行反向传播训练，训练200个epoch，使用初始值为0.001的动态学习率，并在每个epoch后降低为原来的0.95倍，训练过程中随机使用了平移、翻转、放缩三种数据扩充方式；