CN113362452B

CN113362452B - 一种手部姿态三维重建方法、装置及存储介质

Info

Publication number: CN113362452B
Application number: CN202110629489.9A
Authority: CN
Inventors: 王宗雨; 郭璠; 吴志虎; 唐琎
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2022-11-15
Anticipated expiration: 2041-06-07
Also published as: CN113362452A

Abstract

本发明公开了一种手部姿态三维重建方法、装置及存储介质，其中方法包括：实时获取一组多角度下的手部图像；将获取的一组多角度下的手部图像输入预先训练好的关节三维坐标预测模型中，得到手部各关节点的三维坐标；其中关节三维坐标预测模型基于多组标注有手部关节点的多角度下手部图像对神经网络进行弱监督训练得到；基于手部各关节点的三维坐标使用空间向量法，实时计算得到各相邻手指骨骼之间的夹角；基于实时计算得到的各相邻手指骨骼之间的夹角调整预先建立的人体手部三维模型中各关节的位置，实现手部姿态运动可视化。利用多角度二维图像作为输入很好的解决了手部转动过程遮挡问题，使用弱监督训练模型提升了二维坐标回归三维坐标的精度。

Description

一种手部姿态三维重建方法、装置及存储介质

技术领域

本发明涉及计算机视觉和模式识别的技术领域，尤其涉及一种手部姿态三维重建方法、装置及存储介质。

背景技术

基于计算机视觉技术的三维手部姿态估计在人类生活的众多领域得到广泛应用，如计算机动画、医学、人机交互，手势识别等领域。基于神经网络技术的快速发展，从RGB图像估计三维手部姿态，不仅消除了对RGB-D传感器(如Kinect)的依赖，并且获得了性能上的明显提升，成为当前研究热点。

手部作为人体最灵活的部位之一，是人体最经常使用到的一个部位，在日常生活、学习以及工作的各个方面，都发挥着重要的作用。在目前的科学研究和开发中，手部姿态估计的相关技术的研究和产品的开发已取得了大量的成果，手部姿态估计技术在社会生活和生产中的一些领域已经得到了较为成熟的应用。然而，在智能医疗方面的研究却是相当有限，主要原因是现有的应用于智能医疗的手部姿态估计技术和产品在制作成本、可移动性、环境适应性、使用灵活性、针对复杂姿态的解析能力等方面存在着不足，难以满足大众化需求。解决这些问题，是推动手部姿态估计技术普及并应用的关键所在。因此，在人类智能医疗之中，能够精准估计手部的各种运动，以及重建手部运动的姿态，具有重要的理论意义和现实价值，它可以作为医生诊断治疗的一个辅助工具。

在手部姿态估计技术发展初期，一些研究使用数据手套等传感器设备来直接检测、获取人手及其各个关节的空间信息，以便于精确地提取并估计出特定的手部位置。同时一些学者将光学标识引入估计系统中以提高估计准确性，也取得了较好的效果。但是数据手套和光学标识等外部设备虽然提高了估计的稳定性和准确性，但在一定程度上掩盖了人手动态的表达方式。为了追求用户更舒适的体验，动态手部运动姿态的估计技术逐渐成为当前研究的重心。然而，由于人手结构的复杂性、手部动作的多义性以及图像获取过程的模糊性，使得动态姿态估计成为了一个极具挑战性的研究课题。通过双目视觉进行手部姿态估计与跟踪也有自身的技术的局限性。人手具有多样性、复杂性以及在空间中的相异性，所以相对其他刚性物体更难以被检测和估计；同时，手部在三维空间中运动时容易受到外部因素(如光照角度、拍摄角度)的干扰，难以被准确跟踪和匹配，容易发生遮挡问题。因此，针对视觉手部姿态估计的研究具有重要意义。

发明内容

本发明提供了一种手部姿态三维重建方法、装置及存储介质，以解决现有视觉手部姿态估计技术难以准确估计的问题。

第一方面，提供了一种手部姿态三维重建方法，包括：

实时获取一组多角度下的手部图像；

将获取的一组多角度下的手部图像输入预先训练好的关节三维坐标预测模型中，得到手部各关节点的三维坐标；其中关节三维坐标预测模型基于多组标注有手部关节点的多角度下手部图像对神经网络进行弱监督训练得到；

基于手部各关节点的三维坐标使用空间向量法，实时计算得到各相邻手指骨骼之间的夹角；

基于实时计算得到的各相邻手指骨骼之间的夹角调整预先建立的人体手部三维模型中各关节的位置，实现手部姿态运动可视化。

进一步地，所述关节三维坐标预测模型包括特征提取模块和坐标计算模块，其中：

所述特征提取模块的输入为一组多角度下的手部图像，其输出包括2J个通道，其中J个通道用于输出关节2D热点图H_j ^2D，另外J个通道用于输出关节潜在深度图

所述坐标计算模块的输入为关节2D热点图H_j ^2D和关节潜在深度图

其输出为各关节点的三维坐标；其处理过程包括：

获取二维坐标：将关节2D热点图H_j ^2D通过softmax函数对其进行归一化转换得到归一化关节热点图

然后根据函数soft-arg max计算出各关节的二维位姿坐标(x_j,y_j)，如下式所示：

其中，u，v是2D热点图H_j ^2D中的像素坐标，U是基于神经网络的有效步幅大小预设采样的二维网格，而λ是控制归一化热点图温度的常数；

获取2.5D位置姿态：通过将归一化关节热点图

和关节潜在深度图H_j ^z进行同位素相乘，得到每一个关节的相对尺度归一化深度值

二维位姿坐标(x_j,y_j)和相对尺度归一化深度值

构成了2.5D位置姿态

计算三维关节坐标：每个关节的深度值表现为根关节深度值加上相对尺度归一化深度值，手指骨骼长度固定不变，通过如下公式计算得到关节的根关节深度值

其中，l、k表示关节，且l关节为k关节的根关节，

表示k关节的相对尺度归一化深度值，

表示k关节的根关节深度值，z_k表示k关节的深度值；A为预设常数；k关节的三维坐标

通过如下公式计算得到：

其中，K为相机的内参矩阵。

进一步地，所述关节三维坐标预测模型通过方法得到：

采集多组多角度下手部图像并标注手部关节点，构成训练样本集；

以多角度下手部图像为输入，各关节点三维坐标为输出，基于训练样本集对神经网络进行弱监督训练，得到关节三维坐标预测模型；训练过程中，使用的损失函数如下：

L_WS＝L_H+αL_MC+βL_B

其中，L_H为2D热点图的损失函数，L_MC为多角度一致性的损失函数，L_B为手指骨骼长度的损失函数，α，β表示权重。

关节三维坐标预测模型是通过单目图像给与2D标注回归得到，相比2D-3D关节标注的方法有了很大的简便性；同时较于硬件传感器和数据手套等的方式极大的节约了成本；并且使得数据采集十分便利。

进一步地，2D热点图的损失函数L_H，是在关节位置处用高斯分布函数测量2D实际热点图和标注热点图之间的差异：

其只对带有2D位姿标注的图像起作用，并且对所有其他图像都假定为零；其中，H_j ^2D(x_j,y_j)表示多角度下的手部图像2D热点图二维坐标，H_gt ^2D(x_j,y_j)是多角度下的手部图像标注图的2D热点图二维坐标；j是某个关节，J是手部所有关节的合集，

表示关节j相对深度标注值，γ表示由关节深度值带来的损失所占权重；

多角度一致性的损失函数L_MC，强制要求从不同视图获得的3D姿态估计在刚性变换之前应该是相同的，定义为刚性对齐后不同视图间3D关节位置差异的加权和：

其中，C是所有的相机视角合集；φ_j,c＝H_j,c ^2D(x_j,c,y_j,c)，φ_j,c'＝H_j,c' ^2D(x_j,c',y_j,c')分别表示相机视角c和c’的置信度，J是手部所有关节的合集；

和

分别是从c视角和c’视角估算得到的关节j的尺度归一化坐标；d是用于测量对齐姿态之间差异的距离度量；

表示刚性变换矩阵，用于对齐两个3D姿态，且

通过下式计算得到：

手指骨骼长度的损失函数L_B，用来预测3D姿态的手指骨骼长度与平均骨骼长度的偏差，其计算公式如下：

其中，ε表示手部运动学结构中的关节集合，

是一对关节(l，k)的尺度标准化平均手骨长度，φ_l＝H_l ^2D(x_l,y_l)，φ_k＝H_k ^2D(x_k,y_k)分别表示任一相机视角关节l和关节k的置信度，

和

表示从任意视角估算得到的关节l和关节k的尺度归一化坐标。

进一步地，所述基于手部各关节点的三维坐标使用空间向量法，实时计算得到各相邻手指骨骼之间的夹角，具体包括：

获取三个依次相邻的关节a、b、c的三维坐标，基于此计算相邻的两个手指骨骼对应的骨相邻

和

基于

和

可计算得到：

基于cosθ的值得到θ；其中，θ表示相邻的两个手指骨骼之间的夹角。

进一步地，所述基于实时计算得到的各相邻手指骨骼之间的夹角调整预先建立的人体手部三维模型中各关节的位置，实现手部姿态运动可视化，具体包括：

预先建立手部模型：用软件3Dmax，利用约束人手运动的特性绘制带有19个关节的手部模型，并且骨长按照标准长度；然后在已有模型的基础之上填充皮肤纹理和绑定骨骼；

生成三维运动：基于各相邻手指骨骼之间的夹角控制关节的旋转，实现手部姿态运动可视化。

进一步地，预先建立手部模型具体包括：

绘制手掌模型：新建一个box，转换成可编辑多边形，调节至人手掌大致形状；在原来box基础上按照真实手指位置挤压出五根手指，长度以标准的手指长度作为依据；进行裁剪和细化处理，使手指与手掌连接处衔接变得光滑；

填充皮肤纹理：准备好2D皮肤纹理图片以及成功绘制的手掌模型，在3Dmax材质编辑器里，使用贴图功能，将2D皮肤纹理图片一一贴至模型上；

骨骼关节绑定：绑定骨骼，使用软件自带的骨头和BIPE功能，从手指到手掌逐一添加骨骼；建模完成后，将人体手部模型导入软件Unity3D中开始进行手部运动的可视化。

进一步地，所述实时获取一组多角度下的手部图像之前包括：

搭建多角度场景：在手部正前方搭配两个摄像机构成双目视频图像采集装置，同时配置多个单目摄像机采集手部不同视角的图像，且所有摄像机的光学参数相同。

第二方面，提供了一种手部姿态三维重建装置，包括：

图像获取模块，用于实时获取一组多角度下的手部图像；

关节坐标获取模块，用于将获取的一组多角度下的手部图像输入预先训练好的关节三维坐标预测模型中，得到手部各关节点的三维坐标；其中关节三维坐标预测模型基于多组标注有手部关节点的多角度下手部图像对神经网络进行弱监督训练得到；

夹角获取模块，用于基于手部各关节点的三维坐标使用空间向量法，实时计算得到各相邻手指骨骼之间的夹角；

手部姿态可视化模块，用于基于实时计算得到的各相邻手指骨骼之间的夹角调整预先建立的人体手部三维模型中各关节的位置，实现手部姿态运动可视化。

第三方面，提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器加载时执行如上所述的手部姿态三维重建方法。

有益效果

本发明提出了一种手部姿态三维重建方法、装置及存储介质，利用多个视角的二维图形作为输入，得到关节的三维坐标，进而得到手指骨骼之间夹角，基于夹角实现手部姿态三维重建的可视化，很好的解决了手部转动过程遮挡问题，使用弱监督训练模型也提升了二维坐标回归三维坐标的精度，提升了夹角预测的准确性。有效地避免了数据手套、多运动传感器设备昂贵，不易穿戴，对身体有危害等一些问题；还可以解决单视觉、双目视觉出现的遮挡问题。同时本方案旨在应用于医疗领域，利用关节来检测手指角度变化也可以提高传统意义上动态姿态估计的精度问题，可以辅助医生对患者手部进行观察和治疗。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种手部姿态三维重建方法流程图；

图2是本发明实施例提供的关节三维坐标预测模型网络框架图；

图3是本发明实施例提供的用于可视化的手部模型；

图4是本发明实施例提供的MPII+NZSL数据集上手部关节检测结果图；

图5是本发明实施例提供的MPII+NZSL数据集上手部运动可视化结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在实施本发明的方案之前，需实现搭建多视觉场景、预先训练好关节三维坐标预测模型及建立人体手部三维模型。过程如下。

多视觉场景的搭建：在手部正前方搭配两个光学参数相同的摄像机所构成的双目视频图像采集装置；同时，另外配置多个光学参数相同的单目摄像机进行校准，来获取到多角度的图像，进而得到手指在运动过程的所有信息。摄像机的内参矩阵K通过张正友棋盘标定法计算得到。

关节三维坐标预测模型的构建过程：

A：采用搭建好的多视觉场景，采集不同实验者不同姿势的手部RGB图像，并标注出手部图像中19个手部关节位置，连接相邻关节认定为手指骨骼，得到训练样本集。

B：构建神经网络的结构，该神经网络包括特征提取模块和坐标计算模块，采用卷积神经网络，如图2所示，其中：

J为手部关节数量；

其输出为各关节点的三维坐标；其处理过程包括：

获取2.5D位置姿态：通过将归一化关节热点图

和关节潜在深度图H_j ^z进行同位素相乘(element-wise multiplication)，得到每一个关节的相对尺度归一化深度值

二维位姿坐标(x_j,y_j)和相对尺度归一化深度值

构成了2.5D位置姿态

其中，l、k表示关节，且l关节为k关节的根关节，

表示k关节的相对尺度归一化深度值，

表示k关节的根关节深度值，z_k表示k关节的深度值；A为预设常数，表示手指骨骼长度，如取1；k关节的三维坐标

通过如下公式计算得到：

其中，K为相机的内参矩阵。

C：以多角度下手部图像为输入，各关节点三维坐标为输出，基于训练样本集对神经网络进行弱监督训练，得到关节三维坐标预测模型。训练过程中，使用的损失函数如下：

L_WS＝L_H+αL_MC+βL_B

2D热点图的损失函数L_H，是在关节位置处用高斯分布函数测量2D实际热点图和标注热点图之间的差异：

和

表示刚性变换矩阵，用于对齐两个3D姿态，且

通过下式计算得到：

其中，ε表示手部运动学结构中的关节集合，

和

建立人体手部三维模型：用软件3Dmax，利用约束人手运动的特性绘制带有19个关节的手部模型，并且骨长按照标准长度；然后在已有模型的基础之上填充皮肤纹理和绑定骨骼。

更具体的：

骨骼关节绑定：绑定骨骼，使用软件自带的骨头和BIPE功能，从手指到手掌逐一添加骨骼；建模完成后，将人体手部模型导入软件Unity3D中开始进行手部运动的可视化，人体手部三维模型如图3所示。

在完成上述搭建多视觉场景、预先训练好关节三维坐标预测模型及建立人体手部三维模型之后，即可进行手部姿态三维重建方法。

实施例1

如图1所述，本实施例提供了一种手部姿态三维重建方法，包括：

S1：实时获取一组多角度下的手部图像。

S2：将获取的一组多角度下的手部图像输入预先训练好的关节三维坐标预测模型中，得到手部各关节点的三维坐标；其中关节三维坐标预测模型基于多组标注有手部关节点的多角度下手部图像对神经网络进行弱监督训练得到，其过程参见前述关节三维坐标预测模型的构建过程。

S3：基于手部各关节点的三维坐标使用空间向量法，实时计算得到各相邻手指骨骼之间的夹角；具体包括：

和

基于

和

可计算得到：

S4：基于实时计算得到的各相邻手指骨骼之间的夹角调整预先建立的人体手部三维模型中各关节的位置，实现手部姿态运动可视化。

手部姿态运动可视化即生成三维运动：基于各相邻手指骨骼之间的夹角控制关节的旋转，实现手部姿态运动可视化。

具体实施时，可采用如下方法实现：为14个运动的手指骨骼分别绑定脚本，结合进程休眠以及父子关节相对运动的操作实现关节的旋转。本实施例采用Excel文件的方式作为相邻手指骨骼之间的夹角数据传输的媒介。在软件Unity3D中，关于读数据，采用按行读取，创建脚本ReadExcel并且依次将数据保存至二维数组m_ArrayData中。其中，该Excel中的列本文按照拇指到食指，手掌关节到指尖的顺序进行排列。关于使用数据，首先在关节各个脚本中定义ReadExcel脚本的引用。然后调用二维数组m_ArrayData里对应的数据，利用全局变量判断m_ArrayData中数据是否读取完毕，并在结束时候停止脚本的调用。

如图4和图5所示，为利用本实施例提供的方法在现有的MPII+NZSL数据集进行实验的效果，图4所示为MPII+NZSL数据集上手部关节检测结果图，图5所示为MPII+NZSL数据集上手部运动可视化结果图。

实施例2

本实施例提供了一种手部姿态三维重建装置，包括：

图像获取模块，用于实时获取一组多角度下的手部图像；

实施例3

本实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器加载时执行如上所述的手部姿态三维重建方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。