CN115797555A

CN115797555A - 一种基于深度相机的人体实时三维重建方法

Info

Publication number: CN115797555A
Application number: CN202211465514.5A
Authority: CN
Inventors: 宋梁; 卢洋; 倪伟; 张冠华; 蒋林华; 余晗; 王梓名
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-14

Abstract

本发明公开了一种基于深度相机的人体实时三维重建方法。本发明使用SMPL‑X作为参数化的人体模型，通过训练神经网络从输入数据中控制该模型的变形，实现实时重建效果。首先，利用深度相机输出深度数据丰富神经网络的上下文信息，避免使用RGB数据间接计算深度特征，使网络更加轻量化；其次，利用人体姿态估计结果从输入数据中裁剪得到局部数据，通过学习局部细节特征提升人体模型手部和脸部的精度；接着，利用去噪自编码器对人体模型参数进行压缩和降噪，最后，给出基于深度相机和参数化人体模型的贴图方案。综上，本发明方法是一种轻量化且高性能的重建方法，能够快速重建出高精度的人体三维模型，可应用于虚拟现实、元宇宙等场景。

Description

一种基于深度相机的人体实时三维重建方法

技术领域

本发明涉及人体三维重建技术领域，具体的说，涉及一种基于深度相机的人体实时三维重建方法。

背景技术

随着技术的不断进步，相关的科学研究从二维图像逐渐扩展到了三维模型。相比于二维图像，三维模型具有更直观的呈现形式和更丰富的语义信息，更符合人类对于三维立体世界的认知。远程会议、VR试衣、在线VR教育等应用不仅要求能够对人体进行重建，还需要实时地将人在3D空间中进行表示。

为了实现这一目的，可以使用基于多摄像机标定和点云融合的非参数化建模方法或是基于人体先验知识的参数化建模方法。非参数化方法通常使用点云作为人体模型表征方式，通过相机标定或是点云配准方法计算多相机之间的坐标关系，利用该关系将不同视角的稠密点云进行融合得到完整人体模型。该类方法在计算资源足够的情况下具有较高的分辨率，重建出来的人体模型具有较高的逼真程度，并且能够很好地适应人体拓扑结构变化。然而这种方法需要大量且密集的图像作为输入，并且要求严密的相机标定或复杂的点云配准方法。同时，该类方法在目标对象被遮挡时，难以完整地表征整个人体三维模型。参数化的方法首先利用机器学习技术从海量数据中学习一个参数化的人体模型，利用少量的参数就可以对该模型进行变形控制。之后，使用该模型作为模板，并利用机器学习方法从数据中生成参数，利用参数对模板进行变形控制，从而实现实时重建的效果。参数化的重建方法非常轻量，具有更广泛的应用价值，但其缺点在于需要较复杂的深度学习模型以及大量的训练数据。同时，现有方法未能充分地表征人体脸部、手部的细节。

另一方面，现有的一些预测人体模型控制参数的方法大多使用RGB数据作为输入，这类方法需要搭建较深的神经网络间接地推理深度信息特征，并且其预测的形状参数容易受光照不均等环境因素的影响。近年来，深度相机的性能不断进步，而其主动式测量的方法能够快速鲁棒地获取被测物体的深度，越来越多的研究人员将深度相机应用于三维物体重建和三维场景重建当中。相比于基于双目相机的测量办法，基于深度相机的方法无需复杂的计算过程，能够更快地获取被测物体的深度数据。

综上可知，参数化的重建方法对于部署要求较低，若能解决现存的一些问题，其应用价值将非常之高。而深度相机已经在静态场景和静态物体重建任务中证明了其在三维重建领域中的巨大优势，将之应用于参数化的重建方法将有效提高重建速度和重建精度。

发明内容

本发明所要解决的技术问题是提供一种轻量化且高性能的人体实时三维重建方法，其能够实现人体的三维重建和动态变形，其克服现有方法中存在的系统复杂、手部和脸部局部细节表征差以及存在不合理状态的问题。

本发明首先提出了一个人体重建网络，实现了从RGBD数据中预测SMPL-X人体模型的参数，并且能够充分挖掘手部和脸部的局部特征。其次，本发明提出了一个基于自动编码器的参数压缩与矫正的方法，实现了对人体模型参数的压缩以及对不合理状态的矫正。最后，本发明提出了一种基于深度数据与SMPL-X的纹理贴图方法，实现了人体纹理的离线采集与在线实时贴图，使重建的人体三维模型更加真实。

人体重建网络

首先，本发明使用OpenPose获取人体关键点的姿态信息，然后根据其输出结果

计算人体关节点的边界点x_max，x_min，y_max，y_min，则人体边界框的中心c和大小s可以计算为：

s＝γ(x_max-x_min，y_max-y_min)，(x，y)∈O

其中，γ表示放大系数。接着，使用计算出的边界框进行仿射变换T_p(c，s)，从原始RGB图像I和深度图像D中剪裁得到人体图像。同样的操作也适用于脸部部位和手部部位，最后得到分别包含主干、脸部和手部的三幅RGB图像I_p和三幅深度图像D_p：

I_p＝ST[I；T_p(c_p，s_p)]，D_p＝ST[D；T_p(c_p，s_p)]，p∈[global，face，hand]

其中，ST代表空间变换。

在输入数据经过注意力机制处理后，本发明设计了一个并行多分支的神经网络用以预测SMPL-X参数，该网络包含三个子网络

主干网络从主干RGB图、主干深度图以及主干位姿中提取特征

脸部网络从脸部RGB图中提取特征

手部网络从手部RGB图像中提取特征

在所有特征被提取后，分别通过全连接层来预测人体模型参数。最后，通过对三个子网络的输出进行加权融合得到最终输出。网络的损失函数由三部分构成，分别为参数损失L_params、关节点损失L_joint和反投影损失L_re-project，每部分损失计算如下：

L＝L_params+L_j0int+L_re-project

其中，x_j代表2D关节位置，加帽变量表示标签值。在分别对三个子网络进行训练后，网络停止梯度传播并输出加权结果。最终输出为：

其中，λ表示自网络间的姿势权重，ζ表示自网络间的表情权重。

基于自动编码器的参数压缩与矫正

为了解决手掌外翻和肘关节向内等人体重建结果中存在的不合理现象，本发明使用去噪自编码器对参数进行压缩与矫正。具体地，本发明将不合理状态的样本视为噪声数据，并通过矫正不合理状态的样本得到干净数据集。在训练时，本发明使用均方误差作为损失函数。

纹理贴图方法

本发明的提出的纹理贴图方法包括两部分：离线采集与在线实时贴图。

离线采集过程：(1)从正面和背面收集目标人体的RGBD数据。(2)使用人体重建算法生成SMPL-X网格模型，将其转换为点云，而后根据相机参数将其投影到像素平面。(3)计算投影变换并通过像素匹配生成纹理图像。(4)存储于数据库中。

在线实时贴图：(1)基于SMPL-X模板网格将纹理图映射到顶点.(2)按照顶点索引将纹理图转换为颜色序列。(3)在生成人体模型后读出并赋值于模型顶点。

总的来说，一种基于深度相机的人体实时三维重建方法包括以下步骤：

(1)基于深度相机从正面和背面收集目标人体的RGBD数据，基于缓冲和滤波对数据进行预处理；

(2)根据人体姿态估计结果对图像数据裁剪，利用构建的人体重建网络获得SMPL-X人体模型的参数；

(3)通过去噪自编码器对步骤(2)获得的人体模型的参数进行压缩和降噪，去除不合理的参数；

(4)通过纹理贴图，实现人体实时三维重建。

本发明中，步骤(1)中，缓冲预处理时采用双端队列，滤波预处理时用高斯滤波器滤除背景噪声，用泊松滤波器处理局部凹凸问题。

本发明中，步骤(2)中，人体选取Resnet50作为主干网络的特征提取器，选取Resnet18作为脸部网络和手部网络的特征提取器。

本发明中，步骤(3)中，去噪自编码器的网络包括三层隐藏层，前后两端的隐藏层具有相同维度的输入，中间层神经元数量为两端隐藏层的80％；在训练过程中，使用均方误差作为损失函数。

本发明中，步骤(4)中，纹理贴图方法包括两部分：离线采集与在线实时贴图；其中：

离线采集过程包括：

(1)从正面和背面收集目标人体的RGBD数据；

(2)使用人体重建网络生成SMPL-X模型的参数，将其转换为点云，而后根据相机参数将其投影到像素平面；

(3)计算投影变换并通过像素匹配生成纹理图像；

在线实时贴图过程包括：

(1)基于SMPL-X模板网格将纹理图像映射到顶点；

(2)按照顶点索引将纹理图像转换为颜色序列；

(3)在生成的人体三维模型上对顶点序列进行颜色赋值。

和现有技术相比，本发明的有益效果在于：

1)使用RGBD数据作为参数化化建模的输入数据源，更轻量且更高效；

2)使用人体姿态估计结果快速裁剪人体、手部、脸部数据，学习局部特征，提升重建精度；

3)使用去噪自动编码器对人体模型参数进行压缩和降噪，一方面降低带宽传输压力，一方面避免重建结果中出现的手掌外翻、肘关节向内等问题；

4)基于RGBD和SMPL-X设计了一种纹理贴图方法。

综上所述，本发明所提出的一种基于深度相机的人体实时三维重建方法是一种轻量化且高性能的重建方法，该方法包括人体重建网络、参数压缩与矫正以及纹理贴图三个主要模块。其中，人体重建网络使用深度神经网络从RGBD数据中生成人体参数，之后，过压缩与矫正去除不合理状态，最后通过纹理贴图重建人体表面。本发明提出的方法能够快速重建出高精度的人体三维模型，可应用于虚拟现实、元宇宙等场景，具有充分的社会价值和商业价值。

附图说明

图1基于深度相机的人体实时三维重建方法实施流程图。

图2纹理贴图方法离线采集过程示意图。

图3人体实时三维重建前后端分离部署示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案进行详细介绍。在具体实施过程中，需进行以下操作：

(1)深度数据预处理。深度相机输出的深度图像存在非均匀响应噪声、随机噪声和固定噪声，这将影响人体的重建质量。本发明在采用了缓冲和滤波两种预处理方法，其中，缓冲步骤采用双端队列，滤波步骤采用高斯滤波器滤除背景噪声并采用泊松滤波器缓解局部凹凸问题。该步骤能够得到平滑的深度数据输入。

(2)人体姿态估计与图像裁剪。首先对RGB图片运行OpenPose算法，获取2D的人体姿态数据，后根据其输出结果

s＝γ(x_max-x_min，y_max-y_min)，(x，y)∈O

其中，γ表示放大系数。接着，使用计算出的边界框进行仿射变换T_p(c，s)，从原始RGB图像I和深度图像D中剪裁得到主干图像。同样的操作也适用于脸部部位和手部部位，最后得到分别包含主干、脸部和手的三幅RGB图像I_p和三幅深度图像D_p：

其中，ST代表空间变换。

(3)深度神经网络构建。本发明中提到的神经网络都基于残差网络进行构建。具体地，选取Resnet50作为主干网络的特征提取器，选取Resnet18作为脸部和手部子网络的特征提取器。在实现过程中，本发明采用Pytorch编写代码。

(4)数据集处理与网络训练。首先，本发明使用Azure Kinect DK相机采集多位演员的RGBD数据，而后通过相机内参对RGB图像和深度图像进行对齐。之后，本发明在这些数据上运行SMPLify-X来获得标签。为了扩充得到更多训练样本，本发明在现有数据集的基础上进行了数据增强。本发明首先将深度图和RGB图转换为点云，然后在三维空间中将视角围绕X、Y、Z三个轴旋转正负45度，将获得的六个侧视图作为增强数据。

(5)去噪自编码器构建与训练。在构建过程中，本发明使用Pytorch编写去噪自动编码器的网络结构，该网络包括三层隐藏层，前后两端的隐藏层具有相同维度的输入，中间层神经元数量为两端隐藏层的80％。在训练过程中，本发明使用均方误差作为损失函数，将不合理状态的样本视为噪声数据，并通过矫正不合理状态的样本得到干净数据集。

(6)离线纹理采集。首先，本发明通过Azure Kinect DK收集目标人体的RGBD数据并使用本发明提出的人体重建网络生成SMPL-X参数。之后，将该参数输入SMPL-X中并获取人体三维网格并将该网格转换为点云并利用Azure Kinect DK的内参将其投影到像素平面。接着，计算投影变换并通过像素匹配生成纹理图像。最后，将纹理图像以Blob格式存储于Mysql数据库中。

(7)在线实时贴图。首先，读取SMPL-X模型的模板网格，而后将纹理图映射到网格顶点。接着，按照顶点索引将纹理图转换为颜色序列。最后，在人体三维模型上对顶点序列进行颜色赋值。

(8)部署。本发明采用前后端分离的方式部署整个人体实时重建系统，前后端通过http协议进行通信。在后端方面，本发明使用Flask将Pytorch构建的深度神经网络打包为服务，并使用Gunicorn将Flask实例部署于服务器上，使用Nginx对多个实例进行负载均衡。在前端方面，本发明采用Pyrender对人体三维模型进行渲染呈现，为了让人体能够实时更新，本发明采用多线程的方式运行程序，一个线程运行http请求，一个线程运行屏幕渲染。当人体模型变化时，在渲染器中按照唯一标识先删除旧人体模型，而后再添加新人体模型。

Claims

1.一种基于深度相机的人体实时三维重建方法，其特征在于，其使用SMPL-X作为参数化的人体模型，通过训练神经网络从输入的彩色图像RGB和深度图像D中控制该模型的变形，实现实时重建效果；包括以下步骤：

(1)基于深度相机从正面和背面采集目标人体的RGB图像和D图像，基于缓冲和滤波两种方法对数据进行预处理；

(2)根据人体姿态估计结果对图像数据裁剪得到局部数据，通过学习局部细节特征，提升SMPL-X人体模型手部和脸部的精度，获得SMPL-X人体模型的参数：姿态参数

形状参数

和表情参数

首先对深度相机采集得到的RGB图像，使用OpenPose获取人体关键点的姿态信息；

然后根据其输出结果

计算人体关节点的边界点x_max，x_min，y_max，y_min，则人体边界框的中心c和大小s计算为：

s＝γ(x_max-x_min,y_max-y_min),(x,y)∈O

其中，γ表示放大系数；

接着，使用计算出的边界框进行仿射变换T_p(c,s)，从原始RGB图像I和深度图像D中剪裁得到包含全部关键点的人体主干图像；

同样的操作也适用于脸部部位和手部部位，最后得到分别包含主干、脸部和手部的三幅RGB图像I_p和相应的三幅深度图像D_p：

I_p＝ST[I；T_p(c_p,s_p)],D_p＝ST[D；T_p(c_p,s_p)],p∈[global,face,hand]

其中，ST代表空间变换；

输入数据I_p和D_p经过注意力机制处理后，基于人体重建网络预测SMPL-X人体模型的参数；

人体重建网络包含三个子网络：主干网络、手部网络和脸部网络；其中：

主干网络从人体主干RGB图、人体主干深度图以及主干位姿中提取特征

脸部网络从脸部RGB图中提取特征

手部网络从手部RGB图像中提取特征

在所有特征被提取后，分别通过全连接层来预测SMPL-X人体模型的参数；最后，通过对三个子网络的输出进行加权融合得到最终输出；

人体重建网络的损失函数由三部分构成，分别为参数损失L_params、关节点损失L_joint和反投影损失L_re-project，每部分损失计算如下：

L＝L_params+L_joint+L_re-project

其中，L_params代表SMPL-X参数损失，使用L2损失函数；L_joint代表关键点损失，使用L1损失函数；L_re-project代表重投影损失，使用L1损失函数。在公式中X_j和x_j分别代表三维和二维关键点位置，加帽变量表示标签值；

在分别对三个子网络进行训练后，网络停止梯度传播并输出加权结果，最终输出为：

其中，λ表示自网络间的姿势权重，ζ表示自网络间的表情权重；

(3)通过去噪自编码器对步骤(2)获得的人体模型的参数进行压缩和降噪，去除不合理的参数；此时即可通过SMPL-X模型直接将参数重建为人体网格，实现人体实时三维重建。

(4)通过纹理贴图，为得到的人体网格进行高精度贴图，提升三维模型的真实性。

2.根据权利要求1所述的三维重建方法，其特征在于，步骤(1)中，缓冲预处理时采用双端队列，滤波预处理时用高斯滤波器滤除背景噪声，用泊松滤波器处理局部凹凸问题。

3.根据权利要求1所述的三维重建方法，其特征在于，步骤(2)中，人体选取Resnet50作为主干网络的特征提取器，选取Resnet18作为脸部网络和手部网络的特征提取器。

4.根据权利要求1所述的三维重建方法，其特征在于，步骤(2)中，训练人体重建网络时，通过SMPLify-X获得标签；为了扩充得到更多训练样本，在现有数据集的基础上进行了数据增强：首先将深度图和RGB图转换为点云，然后在三维空间中将视角围绕X、Y、Z三个轴旋转正负45度，将获得的六个侧视图作为增强数据。

5.根据权利要求1所述的三维重建方法，其特征在于，步骤(3)中，去噪自编码器的网络包括三层隐藏层，前后两端的隐藏层具有相同维度的输入，中间层神经元数量为两端隐藏层的80％；在训练过程中，使用均方误差作为损失函数。

6.根据权利要求1所述的三维重建方法，其特征在于，步骤(4)中，纹理贴图方法包括两部分：离线采集与在线实时贴图；其中：