CN108491752A

CN108491752A - 一种基于手部分割卷积网络的手部姿态估计方法

Info

Publication number: CN108491752A
Application number: CN201810037633.8A
Authority: CN
Inventors: 齐越; 车云龙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2018-09-04

Abstract

本发明公开了一种基于手部分割卷积网络的手部姿态估计方法，利用从深度图像中捕获的手部点云数据，恢复出对应手部的姿态。其步骤包括：(1)基于深度点云动态投影的手部区域提取算法，重新投影出一张只包含手部的深度图像；(2)手部分割网络的训练与预测，利用步骤(1)得到的只包含手部的深度图像训练手部分割网络，逐像素的输出其对应的手部区域归属信息；(3)基于手部拓扑约束的物理约束优化，根据步骤(2)的分割结果，生成对应的手部拓扑约束，并集合手部关节旋转约束，刚体碰撞约束和时序信息约束，对手部姿态进行基于物理约束的优化，得到最终手部姿态。本发明能够从输入的包含手部的深度图像中恢复出对应的手部姿态。

Description

一种基于手部分割卷积网络的手部姿态估计方法

技术领域

本发明属于计算机虚拟现实领域，具体地说，一种基于手部分割卷积网络的手部姿态估计方法。

背景技术

随着深度传感器的普及和人机交互领域的需求，近年来基于深度数据的手部姿态估计的研究正在兴起。与传统基于RGB图像的手部姿态估计相比，深度数据提供了手部的三维信息，极大地提高了手部姿态估计的鲁棒性和准确性。

基于深度传感器数据流的手部姿态估计方法的步骤一般分为：首先使用对输入的包含手部区域的深度图像进行预处理，提取手部ROI，然后将其作为预先训练好的分类器的输入，预测出对应的手部姿态，最后将预测出的结果结合手的其他先验信息使用局部优化以获得最终的手部姿态。

相比单独使用这两种方法，本发明将两类方法的优势结合起来，提出了一种能够实时，鲁棒，准确的手部姿态估计方法。

因此，本发明针对基于深度图像的手部姿态估计的工作极具研究意义和应用前景。

发明内容

本发明的技术解决问题：克服现有技术的一些局限性，提供一种基于手部分割卷积网络的手部姿态估计方法，有效的在获取传感器传入的包含手部的深度图像之后，得到对应深度数据中的手部姿态。

本发明的技术解决方案：以包含手部的深度图像为输入，基于分割网络的手部区域预测，利用基于物理约束的姿态优化方程，从而估计手部姿态。其特征在于如下步骤：

(1)基于深度点云动态投影的手部区域提取算法的步骤，重新投影出一张只包含手部的深度图像；

(2)手部分割网络的训练与预测的步骤，利用步骤(1)得到的只包含手部的深度图像训练手部分割网络，逐像素的输出其对应的手部区域归属信息；

(3)基于手部拓扑约束的物理约束优化的步骤，根据步骤(2)的分割结果，生成对应的手部拓扑约束，并集合手部关节旋转约束，刚体碰撞约束和时序信息约束，对手部姿态进行基于物理约束的优化，得到最终手部姿态。

进一步地，上述基于手部分割卷积网络的手部姿态估计方法中，所述步骤(1)基于深度点云动态投影的手部区域提取算法的步骤包括：首先，从原始输入的深度图像中提取只包含手部的深度点云，计算出这些点云的中心位置；其次，将这些点云移动到原始输入的深度图像中心所在的位置，然后将点云沿着照相机位置与原始输入的深度图像中心位置的朝向移动,使得点云更加靠近摄像机位置；最后，在原来的摄像机位置使用新的投影参数将这些点云重新投影到一个新的尺寸的图像平面，得到新的只包含手部的深度图像。

进一步地，上述基于手部分割卷积网络的手部姿态估计方法中，所述步骤(2)中，手部分割网络的训练与预测的步骤包括：利用所述步骤(1)得到的只包含手部的深度图像训练手部分割网络，其中在对手部分割网络进行训练时，采用基于点云旋转变换的数据增强方法，首先将输入的只包含手部的深度图像转化为对应的深度点云数据，然后将深度点云沿着XY方向旋转，旋转区间在-15°到15°之间，其中每隔5°重新投影生成的深度图以及对应的标签图，最终使用这些新生成的图像加入网络的训练中。

进一步地，上述基于手部分割卷积网络的手部姿态估计方法中，所述步骤(3)中，基于手部拓扑约束的物理约束优化的步骤包括：首先，深度图像中的每个像素在分割网络预测之后被标明了其对应的手部区域归属信息，然后相邻的像素之间使用一种基于归属度的区域生长算法计算出每个区域的中心位置；随后，使用这些中心位置附近的若干个像素及其手部区域归属信息加入物理约束优化方程，并集合手部关节旋转限制，刚体碰撞约束，时序信息约束迭代计算姿态；最后，优化方程产生的残差缩小到一定距离时停止迭代。

本发明的优点在于：

1、本发明所提出的手部点云动态重投影算法，能够将只包含手部的点云重新投影到一个指定大小的平面上，提高了新图像中手部区域所占的比例。

2、本发明所设计的手部区域分割网络，相比于传统的方法能够更好的预测出输入数据中各个点的手部区域归属信息。

附图说明

图1为本发明方法的数据流程图；

图2为本发明方法的深度点云动态投影算法示意图；

图3为本发明方法的分割网络结构图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细说明。

本发明方法的主要流程图如图1所示，包含手部的深度图像为输入的情况下，具体步骤如下：

(1)基于深度点云动态投影的手部区域提取算法

此步骤为本发明的关键步骤，本发明中深度点云动态投影算法，与传统的图像ROI截取不同，能够在不改变截取区域的拓扑关系的情况下提高手在输入图像中的面积比例，而且为后续的手部区域分割网络提供有效的输入。首先是从原始输入的深度图像(原始图像)中提取只包含手部的深度点云，计算手部点云的中心位置M。然后将所有的点云的位置坐标乘以平移矩阵T1，即将其平移到原始图像的中心位置，再沿着摄像机与原始图像中心连线的方向移动k cm，使得点云更加靠近摄像机位置，其中k的值根据最终需要的图像输出尺寸具体设置，T₁,T₂分别为了点云移动到制定位置时的平移矩阵。最后，在原来的摄像机位置使用新的投影参数将点云数据进行重新投影到一个新的尺寸的图像平面，得到新的只包含手部的深度图像。

总体来说，我们的方法将原始图像转为深度点云，然后将点云平移，最后重新投影。其中原始图像转化为深度点云的数学方式为：

公式(1)中，f为原始的相机焦距，(u₀,v₀)为原始图像的中心位置,u,v为原始图像中的图像坐标，p_x,y为点云3D位置中的x,y值，d为原始图像中对应在u,v的值。

最后在重新投影时的数学公式如下:

(u,v)_new＝camproj_new(p_x,y,z*T₁*T₂) (2)

公式(2)，T₁表示将点云移动到视野中心的平移矩阵，T₂表示将点云更加靠近摄像机的平移矩阵。p_x,y,z表示原始图像转为的点云。最后使用一组新的相机参数将平移后点云进行投影。

新的投影公式camproj_new如公式(3):

(u,v)_new＝P_x,y/P_z*f_new+(u₀,v₀)_new， (3)

其中，P_x,y和P_z表示平移过后的深度点云中的点的x,y值和z值，f_new在这里是新的相机的焦距，(u₀,v₀)_new在这里是新的投影平面的中心位置。

(2)手部区域分割网络

为了提高姿态估计方法的鲁棒性，需要为姿态优化方程提供一个可靠的初始化，本发明使用手部分割网络对输入的数据进行逐像素分类，输出每个像素对应的手部区域归属信息(如标签信息)。如采用图3所示的分割网络。首先利用大量有标注的深度数据对如图2所示的网络进行训练，在训练的过程中，我们使用了一种基于点云旋转的数据增强方法，首先将输入的只包含手部的深度图像转化为对应的深度点云数据，然后将深度点云沿着XY方向旋转(对应的标签位置也随之旋转相同的角度)。由于随机旋转的角度过大可能会导致原始图像的边缘噪声在投影时破坏新图像中的手的结构，这里我们设置旋转角度区间为-15°到15°，其中每隔5°重新投影生成的深度图以及对应的标签图，最终使用这些新生成的图像加入网络的训练中。网络在充分训练后，能够对于输入的包含手部的图像进行逐像素分类。输出各个像素对应的手部区域归属信息。

(3)基于手部拓扑约束的物理约束的优化

步骤为：首先，深度图像中的每个像素在分割网络预测之后被标明了其对应的手部区域归属信息，然后相邻的像素之间使用一种基于归属度的区域生长算法计算出每个区域的中心位置；随后，使用这些中心位置附近的若干个像素及其对应的手部区域归属信息(如标签信息)加入物理约束优化方程，并结合手部关节旋转限制，刚体碰撞约束，时序信息约束迭代计算姿态；最后，优化方程产生的残差缩小到一定距离时停止迭代。

基于手部拓扑约束的数学公式如下：

E＝arg max(‖p-p_b‖) (4)

其中p为输入的深度点云，p_b为p对应的最靠近的部件表面的点，E为目标方程的残差值。

基于手部关节旋转约束的数学公式如下：

θ＝middle(θ_l,θ_h) (5)

其中θ为当前估计的关节角度，θ_l,θ_h分别为该关节旋转角度的最小值和最大值。middle代表将θ的值限定在一个范围之内。

时序信息约束表示我们的方程使用前一帧的结果作为方程的初始值。刚体碰撞约束属于基于物理仿真的基本内容，这里是指关节之间不会碰撞。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

以上所述仅为本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应该视为本发明的保护范围。

Claims

1.一种基于手部分割卷积网络的手部姿态估计方法，其输入为包含手部的深度图像，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于手部分割卷积网络的手部姿态估计方法，其特征在于：所述步骤(1)基于深度点云动态投影的手部区域提取算法的步骤包括：首先，从原始输入的深度图像中提取只包含手部的深度点云，计算出这些点云的中心位置；其次，将这些点云移动到原始输入的深度图像中心所在的位置，然后将点云沿着照相机位置与原始输入的深度图像中心位置的朝向移动,使得点云更加靠近摄像机位置；最后，在原来的摄像机位置使用新的投影参数将这些点云重新投影到一个新的尺寸的图像平面，得到新的只包含手部的深度图像。

3.根据权利要求1所述的一种基于手部分割卷积网络的手部姿态估计方法，其特征在于：所述步骤(2)中，手部分割网络的训练与预测的步骤包括：利用所述步骤(1)得到的只包含手部的深度图像训练手部分割网络，其中在对手部分割网络进行训练时，采用基于点云旋转变换的数据增强方法，首先将输入的只包含手部的深度图像转化为对应的深度点云数据，然后将深度点云沿着XY方向旋转，旋转区间在-15°到15°之间，其中每隔5°重新投影生成的深度图以及对应的标签图，最终使用这些新生成的图像加入网络的训练中。

4.根据权利要求1所述的一种基于手部分割卷积网络的手部姿态估计方法，其特征在于：所述步骤(3)中，基于手部拓扑约束的物理约束优化的步骤包括：首先，深度图像中的每个像素在分割网络预测之后被标明了其对应的手部区域归属信息，然后相邻的像素之间使用一种基于归属度的区域生长算法计算出每个区域的中心位置；随后，使用这些中心位置附近的若干个像素及其对应的手部区域归属信息加入物理约束优化方程，并集合手部关节旋转限制，刚体碰撞约束，时序信息约束迭代计算姿态；最后，优化方程产生的残差缩小到一定距离时停止迭代。