CN111709268A

CN111709268A - 一种深度图像中的基于人手结构指导的人手姿态估计方法和装置

Info

Publication number: CN111709268A
Application number: CN202010331826.1A
Authority: CN
Inventors: 邓小明; 左德鑫; 马翠霞; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-04-24
Filing date: 2020-04-24
Publication date: 2020-09-25
Anticipated expiration: 2040-04-24
Also published as: CN111709268B

Abstract

本发明提供一种深度图像中的基于人手结构指导的人手姿态估计方法和装置。该方法的步骤包括：对深度图像进行分割，获得消除背景的人手区域；对分割后的深度图像进行采样得到点云，对点云进行归一化；构建人手标准化坐标系；利用归一化后的点云和构建的人手标准化坐标系，构建多阶段点云网络，在每个阶段对点云进行姿态引导的对齐；训练多阶段点云网络；利用所训练的多阶段点云网络预测人手的关节位置。本发明提出了人手结构指导的人手姿态估计方法，提出了从手掌到手指的从“粗糙”到“精细”的估计流程。经过实际使用验证，本发明具有自动化程度高、精度高和速度快的优点，可满足专业的或者大众化的应用需求。

Description

一种深度图像中的基于人手结构指导的人手姿态估计方法和装置

技术领域

本发明属于计算机视觉、计算机图像处理领域，具体涉及一种深度图像中基于人手结构指导的人手姿态估计方法和装置。

背景技术

手势操作具有不需要接触操作，体积小，较自然等优点。最初手势识别交互主要是利用特制的设备，直接获得人手各个部位的空间位置。典型的设备是数据手套，这种手套由多个传感器件组成，通过传感器可以将手的信息输入计算机从而计算出手势。这种设备估计出的人手姿态比较准确，但是手套本身价格昂贵，需要依据人手的大小定制，且不方便携带。后来，光学标记被应用于人手姿态检测，这个方法要求人们在手上配戴光学标记，用光学信息取代了数据手套中的传感器信息。该方法也由良好的效果，但是依然流程繁琐并且价格昂贵。

外部设备的介入虽然可以提供良好的精确度，但繁琐、昂贵等特点限制了它的应用场景。随着移动互联网、物联网兴起，电子摄像头成为了移动终端的标配，视觉信息成为了最容易获取人手姿态的渠道，移动应用对获取人手姿态的需求也越来越强烈，基于视觉的人手姿态估计越来越成为研究的主流方向。视觉人手姿态估计是指利用图像采集设备采集到的图像数据，通过计算机视觉技术获得人手各部位的位置信息。人手姿态估计把人手建模成一些关键部位(如手掌、手指)的集合进而估计它们在图像上(二维估计)或者三维空间内位置的过程。

利用视觉信息获取手势的关键在于计算机对于视觉信息的理解。传统的做法是用滤波器获取图像的特征，再用提取到的特征训练分类器或者决策森林。这种方法的优点在于可解释性强，缺点是设计特征需要较强的领域知识，过于依赖特征。2012年，以Alex-net为代表的基于深度学习的视觉算法获得了ImageNet的冠军，Top-5错误率从25％降至17％，标志着计算机视觉走入深入学习为主导的阶段。深度学习中的“深度”是相对于传统的支持向量机、隐马尔可夫模型、Boosting算法等“浅层”学习方法而言的。深度学习利用多隐层的人工神经网络，直接接收原始数据，通过分层网络获取分层次的特征信息。它解决了浅层学习中需要人工提取特征的难题，能够自动地学习所需特征，从而解决图像识别、语音识别、自然语言处理等领域中的多种问题。

基于视觉的人手姿态估计可分为特征提取和预测姿态两个步骤，深度学习出现之后，特征提取普遍地用多层神经网络来实现，预测姿态的过程主要分为两类，一类是基于检测的预测，一类是基于回归的预测。基于检测的预测为每个关节生成一个概率分布图称为热度图，关节的坐标通过对应的热度图取argmax获得。基于回归的方法直接预测所有关节的坐标，这类方法在模型的最后一层会有和关节数相等神经元，神经元的输出直接作为关节的坐标。由于从图像到人手坐标是高度非线性的，训练基于回归的模型需要大量的数据。但是，由于三维热度图非常稠密，会占用比较大的计算资源，基于回归的方法在三维关节预测时也是一个常见的选择。

基于回归的方法把人手建模为稀疏的关节点，这种人手没有对关节的位置做显式约束，神经网络对于人手模型的概念是由数据驱动的，因此不具备足够的稳定性。因此需要建立更加明确的人手模型已消除数据驱动带来的不确定性。

发明内容

本发明针对上述问题，提供一种深度图像中的基于人手结构指导的人手姿态估计方法和装置。主要解决的问题是如何从单张深度估计人手关节点的三维空间位置，该问题主要的技术难点在于人手丰富的手势变化以及由于拍摄角度导致的人手自遮挡等。

本发明采用的技术方案如下：

一种深度图像中的基于人手结构指导的人手姿态估计方法，包括以下步骤：

对深度图像进行分割，获得消除背景的人手区域；

对分割后的深度图像进行采样得到点云，对点云进行归一化；

构建人手标准化坐标系；

利用归一化后的点云和构建的人手标准化坐标系，构建多阶段点云网络，在每个阶段对点云进行姿态引导的对齐(后文简称姿态对齐)；

训练多阶段点云网络；

利用所训练的多阶段点云网络预测人手的关节位置。

进一步地，所述归一化包括：首先将采样的点利用相机参数变换到世界坐标系，然后进行归一化。

进一步地，所述人手标准化坐标系利用手上的关节点作为参考点确定手掌坐标系和手指坐标系。

进一步地，所述多阶段点云网络包括：

第一阶段称为初始化阶段，输入归一化之后的点云，通过初始化阶段网络预测该点云对应的关节坐标；

第二阶段称为手掌阶段，将第一阶段得到的关节坐标输入手掌预测网络，预测得到所有关节在手掌坐标系下的坐标；

第三个阶段称为手指阶段，将第二阶段预测的关节分为五组，每个手指分别为一组；将其输入各个手指预测网络，预测在手指坐标系下的关节坐标。

进一步地，所述多阶段点云网络利用人手姿态指导输入数据完成空间变换，人手姿态包括关节点、角度，输入数据包括点云、深度图，空间包括三维空间。

进一步地，所述多阶段点云网络中每一个阶段的输入是上一阶段预测的姿态和原始输入的一个结合，所述结合包括空间变换、加权、拼接。

进一步地，所述多阶段点云网络中，姿态指导空间变换之后的输入数据输入下一阶段的智能模块进行预测，每个阶段所使用的智能模块包括神经网络、决策树、支持向量机。

一种深度图像中的基于人手结构指导的人手姿态估计装置，其包括：

数据预处理模块，负责进行数据预处理，包括：对深度图像进行分割，获得消除背景的人手区域；对分割后的深度图像进行采样得到点云，对点云进行归一化；构建人手标准化坐标系；

网络构建与训练模块，负责构建和训练多阶段点云网络；

关节位置预测模块，负责利用所训练的多阶段点云网络预测人手的关节位置。

本发明的有益效果如下：

本发明建立了人手坐标系下的人手模型，在此模型下，人手具有更小的自由度，能减轻网络预测人手关节的难度。本发明还提出了基于此模型的多阶段预测流程，提出了从手掌到手指的从“粗糙”到“精细”的估计流程。经过实验验证，本发明的预测精度超过了现有方法的最高精度，在速度上达到了实时的要求。本发明具有精度高、显存占用小、速度快等优点。

附图说明

图1展示了姿态引导的点云对齐。

图2展示了人手坐标系的建立方式，(a)、(b)是手掌坐标系的两种不同建立方式，(c)、(d)是无名指坐标系的两种不同的建立方式。

图3展示了第一阶段和第二阶段所用的网络结构。

图4展示了手指阶段所用的网络结构。

图5展示了本发明的全部流程。

图6展示了不同阶段的预测结果。

图7展示了本发明在不同数据集上的结果。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本实施例提供了一种基于深度图像的人手姿态估计方法，包括以下步骤：

1.对深度图像进行分割，获得消除背景的人手区域。

1.1)数据获取：数据格式为单张深度图，通过深度相机采集得到。

1.2)人手分割：通过现有的基于深度图的人手分割算法得到人手区域，在图像上仅保留人手区域深度图，其余区域用0填充。

2.对深度图像进行采样得到点云，对点云进行归一化。

2.1)采样：在分割好的深度图上通过最远点采样算法采集得到N个点，用P_plane表示，P_plane∈R^N×3，每个点用(u⁽ⁱ⁾,v⁽ⁱ⁾,d⁽ⁱ⁾)表示，其中(u⁽ⁱ⁾,v⁽ⁱ⁾)是点在图像平面的坐标，表示这个点在图像上的第u⁽ⁱ⁾行，第v⁽ⁱ⁾列，d⁽ⁱ⁾表示这个位置存放的深度值。

2.2)归一化：采样好的点需要利用相机参数变换到世界坐标系，相机的参数记为(f_y,f_y,u₀,v₀)，世界坐标系下点的坐标记为(x⁽ⁱ⁾,y⁽ⁱ⁾,z⁽ⁱ⁾),计算方法为：

于是把P_plane转换成了世界坐标系下的点P_world，计算P_world的中心坐标，除以一个固定的长度C，对P_world进行归一化得到P，每个点P⁽ⁱ⁾的计算公式可以表示为：

图1展示了姿态引导的点云对齐。上面的分支展示的是深度图经过两次随机采样和一次最远点采样之后得到点云，下面的分支展示的是通过关节计算坐标系变换矩阵，汇合处表示矩阵乘法，实现的是点云的几何变换，最终得到了对齐之后的点云。

3.构建人手标准化坐标系。

3.1)人手标准化坐标系

为了对人手的自由度进行约束，需要建立坐标系作为人手各个部位的参考。在进行测试时，从预测出的粗略关节计算坐标系参数和变换矩阵，然后对点云进行三维空间变换。人手标准化坐标系分为手掌坐标系和各个手指坐标系，以下是根据关节点计算各个坐标系基向量的方法：

手掌坐标系T_palm：手掌坐标系需要三个点来确定，不妨选取掌心坐标作为坐标原点O，掌心与手掌上或者手腕上的某一关节A作为x轴的方向，掌心与手掌上或者手腕上的另一关节B作为平面的确定依据。用T_palm表示原坐标系到手掌坐标系的几何变换。

图2中(a)、(b)是手掌坐标系的两种不同建立方式，这两种方式是：

1)以掌心关节作为O点，两个手腕关节分别作为A点和B点；

2)以掌心关节作为O点，小拇指和食指分别作为A点和B点。

手指坐标系包括拇指坐标系、食指坐标系、中指坐标系、无名指坐标系、小指坐标系，分别表示为T_thumb，T_index，T_middle，T_ring，T_pinky。每个手指坐标系需要三个点来确定，不妨选取手指根关节作为坐标原点O，手指中关节A作为x轴的方向，指间关节B作为平面的确定依据。

图2中(c)、(d)是无名指坐标系的两种不同的建立方式，这两种方式是：

1)以手指根关节往上数第一个关节作为O点，第二个关节作为B点，掌心作为A点；

2)以手指根关节往上数第一个关节作为O点，第三个关节作为B点，掌心作为A点。

坐标轴可以用向量叉乘获得，三个轴的计算方式为：

把坐标轴的方向作为基向量，可以得到旋转变换矩阵R：

R＝(x y z)^T

为了能表示平移和缩放平移量用t来表示，缩放量用s来表示，齐次坐标系下的变换

可以写成

当不发生缩放和平移时，t＝0，S＝1。

3.2)坐标系变换

将点云P进行空间变换之前，需要将其变换为齐次坐标

空间变换之后的点云的计算方法为：

4.构建多阶段点云网络，包括以下三个阶段：

本发明提出一个多阶段的预测流程，分为三个阶段，如图5所示。

第一阶段：将归一化之后的点云P输入网络φ_global(·)，得到该点云对应的关节坐标J_global＝φ_global(P)。

从关节J_global计算

的过程可以用函数

表示，使用J_global计算变换矩阵

将得到的变换

施加于P，进行对齐得到

令

是

的非齐次表示。

其中，

表示手掌阶段的点云对齐变换，

表示手掌阶段对齐之后的点云。

第二阶段：将第一阶段变换后的点云输入第二阶段网络φ_palm(·)，预测得到所有关节在手掌坐标系下的坐标J_palm。

第三阶段：将第二阶段预测的关节分出五组，每个手指分别为一组；组内的每个关节点获取在归一化点云中的近邻，变换到该组对应的标准坐标系下。为每个手指分别构建小型点云网络，预测标准坐标系下的坐标。把标准坐标系下的坐标根据原来的变换参数变换回原来的坐标系下，作为最终预测的坐标。

第一个阶段称为初始化阶段，输入是归一化之后的点云P，通过初始化阶段网络φ_global(·)预测该点云对应的关节坐标J_global，令J_stage1＝J_global。

第二个阶段称为手掌阶段，用J_stage1计算变换矩阵

将点云变换到手掌坐标系下得到

输入第二阶段的手掌预测网络φ_palm(·)预测出所有关节在手掌坐标系下的坐标J_palm，通过逆变换

计算得到关节在原来坐标系下的坐标。

第三个阶段称为手指阶段，使用多个不同的网络预测各个手指区域的局部姿态。和第二阶段类似，根据手指坐标系的定义，可以得到变换矩阵的求法，用函数

表示，其中thumb、index、middle、ring、pinky各表示大拇指、食指、中指、无名指、小指。根据J_stage2计算各个手指对应的变换矩阵

先把点云P分别进行变换得到经过各个手指坐标系下的对齐后坐标

分别输入各个手指预测网络φ_thumb(·)、φ_index(·)、φ_middle(·)、φ_ring(·)、φ_pinky(·)预测在手指坐标系下的关节坐标J_thumb、J_index、J_middle、J_ring、J_pinky(仅包含属于该手指的关节)，通过逆变换然后组合起来得到手指阶段的预测，

5.训练点云网络

如前文第4部分所述，本发明提出一个多阶段的点云网络，分为三个阶段，分别对应了姿态对齐的初始化阶段、手掌阶段和手指阶段。

第一个阶段和第二个阶段使用PointNet++的类似结构，将点云继续分三级采样，第一级采样点从原始点云采样而来，后续每一级采样点都是由前一级点云通过最远点采样得到。PointNet++使用分组操作提取特征以提取不同尺度的特征，分组操作利用后一级采样点作为中心，按照K近邻法则进行分组。在每个组中，每个采样点使用多层感知器将点的三维坐标特征提升维度，组内所有采样点的特征使用最大池化聚合为一个特征，连接到下一级采样点的坐标特征上，作为下一级提取特征的输入。

第三个阶段的网络使用轻量级的特征提取网络，使用的是PointNet的结构，去掉了第一、二个阶段多层次分组的操作，使用多层感知器直接从点云提取每个点高维特征，全部点的高维特征通过最大池化直接输出该点云代表的特征。

网络特征提取阶段会输出一个全局的高维特征，作为点云的特征表示，把这个特征输入多层全连接层回归关节的位置坐标。

图3展示了第一阶段和第二阶段所用的网络结构。网络的输入是点云，用一个N×3的张量(Tensor)表示。点云需要首先经过两个抽取层(abstract)进行特征抽取。每个特征抽取层包含了一次分组过程和一次特征提取过程。分组过程在点云里选取N′个点作为组中心，每个组包含了离组中心欧式距离最近的K个点，获得N×K×3的张量。接着是一个特征提取过程，用1×1卷积实现多层感知机(MLP)功能，图中MLP后面的括号表示1×1卷积核的通道数，特征提取会改变点云的维度到C′维，结合点云的原始维度d，最终的维度是C^′+d。抽取层一共有N′个组，因此抽取层的最终输出是形状为N^′×(C^′+d)的张量。其后接入一个MLP进一步提取特征，最后在N′所在的维度进行最大池化max pooling，得到1024维的全局特征，最后通过一个MLP回归关节，输出的关节张量为J×3。

图4展示了手指阶段所用的网络结构。在手指阶段，为了排除其他手指的干扰，把输入某一手指的关节称为相关关节，每根手指所对应的网络只接受相关关节的近邻点云作为输入。为了选取近邻点云，利用J_palm在点云P上选取每个相关关节最近的K个点。每个手指的网络具有相同的结构，输入是数量为N_f的点云，经过一个多层感知机提取特征，得到N_f×512的张量，经过最大池化层，得到维度为512的特征，因为反映的是手指局部的特征，因此称为局部特征。接着把局部特征输入多层感知机，回归出F个关节的坐标(F是该手指含有的关节数量)。

6.利用点云网络预测关节位置

最终的预测结果由第二阶段和第三阶段组合而成，第二个阶段提供手掌各关节点的坐标，第三个阶段提供手指各个关节点的坐标。将两个阶段的预测拼接得到最终的人手关节点预测结果。图6展示了不同阶段的预测结果。第一行展示了初始化阶段的预测结果，第二行展示了手掌阶段的预测结果，第三行展示了手指阶段的预测结果，根据该图可以看出，初始化阶段、手掌阶段、手指阶段的预测精度依次提高，体现了本发明提出的姿态对齐和多阶段流程对于提升预测精度的重要性。

图7展示了在不同数据集上的结果。其中NYU表示NYU数据集，ICVL表示ICVL数据集，MSRA表示MSRA数据集。第一行表示网络的预测结果，第二行表示目标姿态。根据该图可以看出，网络的预测结果跟目标姿态差距非常小，精确程度非常高。

本发明的方案可以通过软件的方式实现，也可以通过硬件的方式来实现，比如：

在一个实施例中，提供一种基于深度图像的人手姿态估计装置，其包括：

数据预处理模块，负责进行输入神经网络前的数据预处理，把原始深度图采样获得点云，归一化，获取姿态标签。具体包括：对深度图像进行分割，获得消除背景的人手区域；对分割后的深度图像进行采样得到点云，对点云进行归一化；构建人手标准化坐标系。

网络构建与训练模块，负责构建和训练关节点预测网络，即前文所述的多阶段点云网络；

关节位置预测模块，负责利用所训练的多阶段点云网络预测人手的关节位置，包括后续阶段利用前一阶段的姿态输出实施点云的空间变换，输入下一阶段预测关节位置；包括三个阶段的预测结果的组合策略。

在另一个实施例中，提供一种电子装置(计算机、服务器等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上面所述方法中各步骤的指令。

在另一个实施例中，提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现上面所述方法的步骤。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的原理和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种深度图像中的基于人手结构指导的人手姿态估计方法，其特征在于，包括以下步骤：

对深度图像进行分割，获得消除背景的人手区域；

构建人手标准化坐标系；

利用归一化后的点云和构建的人手标准化坐标系，构建多阶段点云网络，在每个阶段对点云进行姿态引导的对齐；

训练多阶段点云网络；

利用所训练的多阶段点云网络预测人手的关节位置。

2.根据权利要求1所述的方法，其特征在于，所述归一化包括：首先将采样的点利用相机参数变换到世界坐标系，然后进行归一化。

3.根据权利要求1所述的方法，其特征在于，所述人手标准化坐标系利用手上的关节点作为参考点确定手掌坐标系和手指坐标系。

4.根据权利要求1所述的方法，其特征在于，所述多阶段点云网络包括：

5.根据权利要求1所述的方法，其特征在于，所述多阶段点云网络利用人手姿态指导输入数据完成空间变换，人手姿态包括关节点、角度，输入数据包括点云、深度图，空间包括三维空间。

6.根据权利要求1所述的方法，其特征在于，所述多阶段点云网络中每一个阶段的输入是上一阶段预测的姿态和原始输入的一个结合，所述结合包括空间变换、加权、拼接。

7.根据权利要求1所述的方法，其特征在于，所述多阶段点云网络中，姿态指导空间变换之后的输入数据输入下一阶段的智能模块进行预测，每个阶段所使用的智能模块包括神经网络、决策树、支持向量机。

8.一种采用权利要求1～7中任一权利要求所述方法的深度图像中的基于人手结构指导的人手姿态估计装置，其特征在于，包括：

网络构建与训练模块，负责构建和训练多阶段点云网络；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。