CN110599585A

CN110599585A - 基于深度学习的单图像人体三维重建方法及装置

Info

Publication number: CN110599585A
Application number: CN201910716534.7A
Authority: CN
Inventors: 刘烨斌; 郑泽荣; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-12-20

Abstract

本发明公开了一种基于深度学习的单图像人体三维重建方法及装置，其中，该方法包括：获取测试图像，通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型并对其进行预处理得到网络训练数据；构建满足预设条件的图像特征提取网络和三维体转换网络，并在最小化损失函数的条件下，利用网络训练数据对两个网络进行训练；对测试图像进行处理得到测试图像对应的人体内层参数化模型；将测试图像和测试图像对应的人体内层参数化模型输入到训练后的网络中，得到测试图像中人体的三维重建预测结果。该方法基于深度学习实现，一旦网络训练完成，则使用时只需要单张彩色图片作为输入，就可以实现对图像中出现的人体的三维重建。

Description

基于深度学习的单图像人体三维重建方法及装置

技术领域

本发明涉及计算机视觉和计算机图形学技术领域，特别涉及一种基于深度学习的单图像人体三维重建方法及装置。

背景技术

人体三维重建是计算机图形学和计算机视觉领域的重点问题。高质量的人体三维模型在影视娱乐、人口数据统计分析等领域有着广泛的应用前景和重要的应用价值。但是高质量人体三维模型的获取通常依靠价格昂贵的激光扫描仪或者多相机阵列系统来实现，虽然精度较高，但是也显著存在着一些缺点：第一，扫描过程中要求被人保持绝对静止，微小的移动就会导致扫描结果存在明显的误差；第二，造假昂贵，很难普及到普通民众日常生活中，往往应用于大公司或国家统计部门。第三，速度慢，往往重建一个三维人体模型需要至少10分钟到数小时的时间。即便现有一些简便的方法可以使用单个深度相机实现简便的三维人体重建，其对深度相机的依赖使得其不能应用到现有的RGB相机系统下。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种基于深度学习的单图像人体三维重建方法，该方法基于深度学习实现，一旦网络训练完成，则使用时只需要单张彩色图片作为输入，就可以实现对图像中出现的人体的三维重建。

本发明的另一个目的在于提出一种基于深度学习的单图像人体三维重建装置。

为达到上述目的，本发明一方面实施例提出了一种基于深度学习的单图像人体三维重建方法，包括：

获取测试图像，通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据；

构建满足预设条件的图像特征提取网络和三维体转换网络，在最小化损失函数的条件下，利用所述网络训练数据对所述图像特征提取网络和所述三维体转换网络进行训练；

对所述测试图像进行处理得到所述测试图像对应的人体内层参数化模型；

将所述测试图像和所述测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络，得到所述测试图像中人体的三维重建预测结果。

本发明实施例的基于深度学习的单图像人体三维重建方法，通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型，充分挖掘人体模型中各个维度的多样性，保证其泛化能力；使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络，输出对彩色图片中外层三维人体模型的预测结果，具有很强的使用性。

另外，根据本发明上述实施例的基于深度学习的单图像人体三维重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，包括：静态模型采集阶段和动作捕捉阶段；

在所述静态模型采集阶段，所述采集系统要求采集对象先进行简单的扫描动作，以实现具有纹理的静态人体外层模型的扫描和重建，以及内层参数化模型的估计；

在所述动作捕捉阶段，所述采集系统呈现随机生成的动作，并要求采集对象模仿呈现的动作，采集对象模仿完毕后，所述采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。

进一步地，在本发明的一个实施例中，所述对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据，包括：

将所述外层人体模型和对应的内层参数化模型进行随机旋转；

将所述外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上，得到训练图像；

将所述外层人体模型和对应的内层参数化模型做体素化，构建对应的三维体描述，得到训练时的输入三维体和目标三维体；

对所述目标三维体做前向投影渲染和侧向投影渲染，得到训练时的目标前向投影和侧向投影，所述目标前向投影和所述侧向投影为所述网络训练数据。

进一步地，在本发明的一个实施例中，所述图像特征提取网络包括5层卷积层：第一层卷积层包括8个大小为4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，每一层后均连接有一个修正线性单元；

所述三维体转换网络，包括11层三维卷积层：第一层卷积层包括8个大小为4x4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4x4、步长为2的卷积核，第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元，第六层为128个大小为4x4x4、步长为2的解卷积核，第七层为64个大小为4x4x4、步长为2的解卷积核，第八层为32个大小为4x4x4、步长为2的解卷积核，第九层为16个大小为4x4x4、步长为2的解卷积核，第十层为8个大小为4x4x4、步长为2的解卷积核，第六层到第十层的每一层后均连接有一个修正线性单元，且与第一层到第五层中对应尺度的卷积层相互连接，第十一层为1个大小4x4x4、步长为1的卷积核，其后连接有一个sigmoid单元；

所述图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入，其变换方法为：其中F(·)表示所执行的仿射变换，表示输入的三维卷积结果的第z个切片，表示输入的图像特征，α(·)和β(·)表示获得线性变换参数的卷积操作。

进一步地，在本发明的一个实施例中，所述最小化损失函数的定义为：

L＝L_V+λ_FSL_FS+λ_SSL_SS

其中，L_V为三维体重建损失函数，L_FS为前向投影重建损失函数，L_SS为侧向投影重建损失函数，λ_FS和λ_SS对应各个约束项的权重系数，其中，

其中，γ为平衡不同体素的损失贡献的权重，为真实的目标三维体，为中坐标为(x,y,z)的体素的取值，V_o为网络输出的三维体，为V_o中坐标为(x,y,z)的体素的取值，为真实的前向投影，为中坐标为(x,y)的像素的取值，S_F为网络的输出三维体的前向投影，为S_F中坐标为(x,y)的像素的取值，为真实的侧向投影，为中坐标为(x,y)的像素的取值，S_S为网络的输出三维体的侧向投影，为S_S中坐标为(x,y)的像素的取值。

为达到上述目的，本发明另一方面实施例提出了一种基于深度学习的单图像人体三维重建装置，包括：

采集模块，用于获取测试图像，通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据；

构建模块，用于构建满足预设条件的图像特征提取网络和三维体转换网络，在最小化损失函数的条件下，利用所述网络训练数据对所述图像特征提取网络和所述三维体转换网络进行训练；

预处理模块，用于对所述测试图像进行处理得到所述测试图像对应的人体内层参数化模型；

重建模块，用于将所述测试图像和所述测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络，得到所述测试图像中人体的三维重建预测结果。

本发明实施例的基于深度学习的单图像人体三维重建装置，通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型，充分挖掘人体模型中各个维度的多样性，保证其泛化能力；使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络，输出对彩色图片中外层三维人体模型的预测结果，具有很强的使用性。

另外，根据本发明上述实施例的基于深度学习的单图像人体三维重建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集模块，包括：

旋转单元，用于将所述外层人体模型和对应的内层参数化模型进行随机旋转；

渲染单元，用于将所述外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上，得到训练图像；

第一处理单元，用于将所述外层人体模型和对应的内层参数化模型做体素化，构建对应的三维体描述，得到训练时的输入三维体和目标三维体；

第二处理单元，用于对所述目标三维体做前向投影渲染和侧向投影渲染，得到训练时的目标前向投影和侧向投影，所述目标前向投影和所述侧向投影为所述网络训练数据。

L＝L_V+λ_FSL_FS+λ_SSL_SS

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于深度学习的单图像人体三维重建方法流程图；

图2为根据本发明一个实施例的基于深度学习的单图像人体三维重建装置结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于深度学习的单图像人体三维重建方法及装置。

首先将参照附图描述根据本发明实施例提出的基于深度学习的单图像人体三维重建方法。

图1为根据本发明一个实施例的基于深度学习的单图像人体三维重建方法流程图。

如图1所示，该基于深度学习的单图像人体三维重建方法包括以下步骤：

步骤S1，获取测试图像，通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，对人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据。

进一步地，在本发明的一个实施例中，通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，包括：静态模型采集阶段和动作捕捉阶段；

在静态模型采集阶段，采集系统要求采集对象先进行简单的扫描动作，以实现具有纹理的静态人体外层模型的扫描和重建，以及内层参数化模型的估计。

在动作捕捉阶段，采集系统呈现随机生成的动作，并要求采集对象模仿呈现的动作，采集对象模仿完毕后，采集系统会采集当前时刻的采集对象的人体外层模型以及内层参数化模型。

可以理解的是，采集系统可以根据实际需要进行设置，采集系统可以为算法等，采集对象可以为人体等。通过采集系统对人体的动作进行采集，得到人体外层模型及对应的内层参数化模型。

进一步地，在本发明的一个实施例中，得到网络训练数据的具体步骤为：

将外层人体模型和对应的内层参数化模型进行随机旋转；

将外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上，得到训练图像；

将外层人体模型和对应的内层参数化模型做体素化，构建对应的三维体描述，得到训练时的输入三维体和目标三维体；

对目标三维体做前向投影渲染和侧向投影渲染，得到训练时的目标前向投影和侧向投影，目标前向投影和侧向投影为网络训练数据。

其中，目标前向投影和侧向投影为网络训练数据。

步骤S2，构建满足预设条件的图像特征提取网络和三维体转换网络，在最小化损失函数的条件下，利用网络训练数据对图像特征提取网络和三维体转换网络进行训练。

进一步地，在本发明的一个实施例中，构建的图像特征提取网络包括5层卷积层：第一层卷积层包括8个大小为4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，每一层后均连接有一个修正线性单元，每一层的输出构成了图像在该尺度下的特征。

进一步地，在本发明的一个实施例中，构建的三维体转换网络，包括11层三维卷积层：第一层卷积层包括8个大小为4x4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4x4、步长为2的卷积核，第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元，第六层为128个大小为4x4x4、步长为2的解卷积核，第七层为64个大小为4x4x4、步长为2的解卷积核，第八层为32个大小为4x4x4、步长为2的解卷积核，第九层为16个大小为4x4x4、步长为2的解卷积核，第十层为8个大小为4x4x4、步长为2的解卷积核，第六层到第十层的每一层后均连接有一个修正线性单元，且与第一层到第五层中对应尺度的卷积层相互连接，第十一层为1个大小4x4x4、步长为1的卷积核，其后连接有一个sigmoid单元。

其中，图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入，其变换方法为：其中F(·)表示所执行的仿射变换，表示输入的三维卷积结果的第z个切片，表示输入的图像特征，α(·)和β(·)表示获得线性变换参数的卷积操作。

进一步地，在最小化损失函数的条件下，完成两个网络的训练。训练所使用的损失函数的定义为：

L＝L_V+λ_FSL_FS+λ_SSL_SS

其中，L_V为三维体重建损失函数，L_FS为前向投影重建损失函数，L_SS为侧向投影重建损失函数，λ_FS和λ_SS对应各个约束项的权重系数。其中，

步骤S3，对测试图像进行处理得到测试图像对应的人体内层参数化模型。

具体地，对输入的测试图像，进行预处理获取对应的人体内层参数化模型。其中，所采用的获取对应人体内层模型的方法为HMR算法。

步骤S4，将测试图像和测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络，得到测试图像中人体的三维重建预测结果。

具体地，将图像和人体内层参数化模型输入网络，得到人体外层三维模型的预测结果，实现对人体的三维重建。

根据本发明实施例提出的基于深度学习的单图像人体三维重建方法，通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型，充分挖掘人体模型中各个维度的多样性，保证其泛化能力；使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络，输出对彩色图片中外层三维人体模型的预测结果，具有很强的使用性。

其次参照附图描述根据本发明实施例提出的基于深度学习的单图像人体三维重建装置。

如图2所示，该基于深度学习的单图像人体三维重建装置包括：采集模块100、构建模块200、预处理模块300和重建模块400。

其中，采集模块100，用于获取测试图像，通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，对人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据。

构建模块200，用于构建满足预设条件的图像特征提取网络和三维体转换网络，在最小化损失函数的条件下，利用网络训练数据对图像特征提取网络和三维体转换网络进行训练。

预处理模块300，用于对测试图像进行处理得到测试图像对应的人体内层参数化模型。

重建模块400，用于将测试图像和测试图像对应的人体内层参数化模型输入到训练后的图像特征提取网络和三维体转换网络，得到测试图像中人体的三维重建预测结果。

该装置基于深度学习实现，一旦网络训练完成，则使用时只需要单张彩色图片作为输入，就可以实现对图像中出现的人体的三维重建。

在静态模型采集阶段，采集系统要求采集对象先进行简单的扫描动作，以实现具有纹理的静态人体外层模型的扫描和重建，以及内层参数化模型的估计；

进一步地，在本发明的一个实施例中，采集模块，包括：

旋转单元，用于将外层人体模型和对应的内层参数化模型进行随机旋转；

渲染单元，用于将外层人体模型通过图形渲染引擎渲染到随机选取的自然图像上，得到训练图像；

第一处理单元，用于将外层人体模型和对应的内层参数化模型做体素化，构建对应的三维体描述，得到训练时的输入三维体和目标三维体；

第二处理单元，用于对目标三维体做前向投影渲染和侧向投影渲染，得到训练时的目标前向投影和侧向投影，目标前向投影和侧向投影为网络训练数据。

进一步地，在本发明的一个实施例中，图像特征提取网络包括5层卷积层：第一层卷积层包括8个大小为4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，每一层后均连接有一个修正线性单元；

三维体转换网络，包括11层三维卷积层：第一层卷积层包括8个大小为4x4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4x4、步长为2的卷积核，第一层到第五层的每一层后均连接有一个修正线性单元和图像特征引导的仿射变换单元，第六层为128个大小为4x4x4、步长为2的解卷积核，第七层为64个大小为4x4x4、步长为2的解卷积核，第八层为32个大小为4x4x4、步长为2的解卷积核，第九层为16个大小为4x4x4、步长为2的解卷积核，第十层为8个大小为4x4x4、步长为2的解卷积核，第六层到第十层的每一层后均连接有一个修正线性单元，且与第一层到第五层中对应尺度的卷积层相互连接，第十一层为1个大小4x4x4、步长为1的卷积核，其后连接有一个sigmoid单元；

图像特征引导的仿射变换单元以对应层的三维卷积结果和图像特征作为输入，其变换方法为：其中F(·)表示所执行的仿射变换，表示输入的三维卷积结果的第z个切片，表示输入的图像特征，α(·)和β(·)表示获得线性变换参数的卷积操作。

进一步地，在本发明的一个实施例中，最小化损失函数的定义为：

L＝L_V+λ_FSL_FS+λ_SSL_SS

需要说明的是，前述对基于深度学习的单图像人体三维重建方法实施例的解释说明也适用于该实施例的装置，此处不再赘述。

根据本发明实施例提出的基于深度学习的单图像人体三维重建装置，通过利用采集好的多种人体、多种衣物、多种姿态下的人体模型，充分挖掘人体模型中各个维度的多样性，保证其泛化能力；使用该网络时只需将图片和对应的内层人体模型输入训练后的卷积神经网络，输出对彩色图片中外层三维人体模型的预测结果，具有很强的使用性。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于深度学习的单图像人体三维重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，包括：静态模型采集阶段和动作捕捉阶段；

3.根据权利要求1所述的方法，其特征在于，所述对所述人体外层模型和对应的内层参数化模型进行预处理得到网络训练数据，包括：

4.根据权利要求1所述的方法，其特征在于，

所述图像特征提取网络包括5层卷积层：第一层卷积层包括8个大小为4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，每一层后均连接有一个修正线性单元；

5.根据权利要求1所述的方法，其特征在于，所述最小化损失函数的定义为：

L＝L_V+λ_FSL_FS+λ_SSL_SS

其中，γ为平衡不同体素的损失贡献的权重，为真实的目标三维体，为中坐标为(x，y，z)的体素的取值，V_o为网络输出的三维体，为V_o中坐标为(x，y，z)的体素的取值，为真实的前向投影，为中坐标为(x，y)的像素的取值，S_F为网络的输出三维体的前向投影，为S_F中坐标为(x，y)的像素的取值，为真实的侧向投影，为中坐标为(x，y)的像素的取值，S_S为网络的输出三维体的侧向投影，为S_S中坐标为(x，y)的像素的取值。

6.一种基于深度学习的单图像人体三维重建装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述通过采集系统对采集对象进行采集得到人体外层模型及对应的内层参数化模型，包括：静态模型采集阶段和动作捕捉阶段；

8.根据权利要求6所述的装置，其特征在于，所述采集模块，包括：

9.根据权利要求6所述的装置，其特征在于，所述图像特征提取网络包括5层卷积层：第一层卷积层包括8个大小为4x4、步长为2的卷积核，第二层卷积层16个个大小为4x4、步长为2的卷积核，第三层卷积层包括32个大小为4x4、步长为2的卷积核，第四层卷积层包括64个大小为4x4、步长为2的卷积核，第五层卷积层包括128个大小为4x4、步长为2的卷积核，每一层后均连接有一个修正线性单元；

10.根据权利要求6所述的装置，其特征在于，所述最小化损失函数的定义为：

L＝L_V+λ_FSL_FS+λ_SSL_SS