CN109285215B

CN109285215B - 一种人体三维模型重建方法、装置和存储介质

Info

Publication number: CN109285215B
Application number: CN201810990982.1A
Authority: CN
Inventors: 李琛; 易鸿伟; 曹琼; 沈小勇; 戴宇榮; 賈佳亞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2021-01-08
Anticipated expiration: 2038-08-28
Also published as: EP3745358A1; CN109285215A; EP3745358A4; US11302064B2; US20210012558A1; WO2020042720A1

Abstract

本发明实施例公开了一种人体三维模型的重建方法、装置和存储介质；本发明实施例可以获取待重建人体的二维图像，将二维图像映射至体素空间，得到该二维图像的体素化结果，然后，采用预设三维参数回归网络对该体素化结果进行计算，并基于计算得到的该二维图像的三维形变模型参数重建人体的三维模型；该方案在计算三维形变模型参数之前，可以将二维图像映射至体素空间，因此，可以避免由于二维图像信息缺失所导致的准确性较差的问题，可以大大提高三维模型重建的准确性和效果。

Description

一种人体三维模型重建方法、装置和存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种人体三维模型重建方法、装置和存储介质。

背景技术

三维模型重建，是计算机视觉和计算机图形学中研究的重要课题之一，也是虚拟现实(VR，Virtual Reality)，增强现实(AR，Augmented Reality)和混合现实(MR)的基础技术之一，因此，如何更好地实现三维模型重建，具有重大意义。

传统的三维模型重建，主要是利用深度传感器、结构光(Structure Lights)、以及多目立体匹配(Stereo Matching)等技术来实现，不仅设备价格昂贵，而且图片采集过程也较为繁琐。为此，现有技术又提出了另一种方案，该方案只需利用单张二维图像，便可重建出相应的三维模型(即恢复该对象的几何结构)。例如，以人脸为例，具体可以通过在三维人脸形变模型(3DMM，3D Face Morphable Model)上人工标注人脸特征点位置，然后，通过优化基向量对应的系数实现该三维形变模型上的人脸特征点与输入图片上二维人脸特征点的对齐，从而得到该输入图片对应的基向量系数组合，根据该基向量系数组合，便可以得到该输入图片对应的三维模型(即人脸三维模型)。但是，在对现有技术的研究和实践过程中，本发明的发明人发现，该方案非常依赖准确的人脸特征点检测，而由于二维人脸图像本身会因为侧脸、大表情、或有遮挡等情况产生一部分的信息缺失，所以，该方案除了正脸无遮挡图片的重建效果较好之外，侧脸、大表情、或有遮挡的人脸重建效果并不是非常理想，准确性较低。

发明内容

本发明实施例提供一种人体三维模型重建方法、装置和存储介质；可以提高重建的人体三维模型的准确性，改善重建效果。

本发明实施例提供一种人体三维模型重建方法，包括：

获取待重建人体的二维图像；

将二维图像映射至体素空间，得到所述二维图像的体素化结果；

采用预设三维参数回归网络对所述体素化结果进行计算，得到所述二维图像对应的三维形变模型参数；

基于所述三维形变模型参数重建所述人体的三维模型。

相应的，本发明实施例还提供一种人体三维模型重建装置，包括：

获取单元，用于获取待重建人体的二维图像；

映射单元，用于将二维图像映射至体素空间，得到所述二维图像的体素化结果；

计算单元，用于采用预设三维参数回归网络对所述体素化结果进行计算，得到所述二维图像对应的三维形变模型参数；

重建单元，用于基于所述三维形变模型参数重建所述人体的三维模型。

可选的，在一些实施例中，所述三维形变模型参数包括形态系数、状态系数和相机参数，所述重建单元包括构建子单元和投影子单元，如下：

构建子单元，用于基于所述形态系数和状态系数构建所述人体的正视三维模型；

投影子单元，用于根据所述相机参数，将所述人体的正视三维模型投影至图像空间，得到所述人体对应的三维模型。

可选的，在一些实施例中，所述构建子单元，具体用于获取预设的平均人体模型、形态基向量矩阵、以及状态基向量矩阵，根据所述平均人体模型、形态基向量矩阵、状态基向量矩阵、形态系数和状态系数构建所述人体的正视三维模型。

可选的，在一些实施例中，所述构建子单元，具体用于采用所述形态系数对所述形态基向量矩阵进行调整，得到调整后形态基向量矩阵，采用所述状态系数对所述状态基向量矩阵进行调整，得到调整后状态基向量矩阵，计算所述平均人体模型、调整后形态基向量矩阵和调整后状态基向量矩阵的和，得到所述人体的正视三维模型。

可选的，在一些实施例中，投影子单元，具体用于采用迭代最近邻算法对所述相机参数进行优化，得到优化后相机参数，根据所述优化后相机参数将所述人体的正视三维模型投影至图像空间，得到所述人体对应的三维模型。

可选的，在一些实施例中，所述优化后相机参数包括优化后比例系数、优化后平移矩阵和优化后旋转矩阵，所述投影子单元，具体用于获取预设的正视投影矩阵；计算所述正视投影矩阵、优化后比例系数、优化后旋转矩阵和正视三维模型的乘积；计算所述乘积与优化后平移矩阵的和，得到所述人体对应的三维模型。

可选的，在一些实施例中，所述优化后相机参数包括优化后平移矩阵和优化后旋转矩阵，所述投影子单元，具体用于获取预设的弱透视投影矩阵；计算所述弱透视投影矩阵、优化后旋转矩阵和正视三维模型的乘积；计算所述乘积与优化后平移矩阵的和，得到所述人体对应的三维模型。

可选的，在一些实施例中，所述映射单元，具体用于获取预设的体素回归网络，将二维图像输入所述体素回归网络中进行计算，得到所述二维图像的体素化结果。

可选的，在一些实施例中，所述人体三维模型重建装置还可以包括第一训练单元，如下：

所述第一训练单元，用于采集多张标注了体素真实值的二维人体样本，采用预设多层沙漏网络对所述二维人体样本的体素进行计算，得到体素预测值，对所述二维人体样本的体素预测值和体素真实值进行收敛，得到体素回归网络。

可选的，在一些实施例中，所述人体三维模型重建装置还可以包括第二训练单元，如下：

所述第二训练单元，用于采集多张标注了三维形变模型参数真实值的三维人体样本，采用预设三维回归网络对三维人体样本的三维形变模型参数进行计算，得到三维形变模型参数预测值，对所述三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，得到三维参数回归网络。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种人体三维模型重建方法中的步骤。

本发明实施例可以获取待重建人体的二维图像，将二维图像映射至体素空间，得到该二维图像的体素化结果，然后，采用预设三维参数回归网络对该体素化结果进行计算，并基于计算得到的该二维图像的三维形变模型参数重建人体的三维模型；由于该方案在计算三维形变模型参数之前，可以将二维图像映射至体素空间，因此，相对于现有直接依据二维图像来计算三维形变模型参数的方案而言，可以避免由于二维图像信息缺失所导致的准确性较差的问题，可以大大提高三维模型重建的准确性和效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的人体三维模型重建方法的场景示意图；

图1b是本发明实施例提供的人体三维模型重建方法的流程图；

图1c是本发明实施例提供的多层沙漏网络(体素回归网络)的示例图；

图1d是本发明实施例提供的参数回归网络的示例图；

图1e是本发明实施例提供的参数回归网络的另一示例图；

图2a是本发明实施例提供的人体三维模型重建方法的另一流程图；

图2b是本发明实施例提供的人体三维模型重建方法的框架示意图；

图2c是本发明实施例提供的人体三维模型重建方法的另一框架示意图；

图2d是本发明实施例中人脸图像三维重建效果的对比图；

图2e是本发明实施例提供的人体三维模型重建方法所重建的三维模型的结果示例图；

图3a是本发明实施例提供的人体三维模型重建装置的结构示意图；

图3b是本发明实施例提供的人体三维模型重建装置的另一结构示意图；

图4是本发明实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种人体三维模型重建方法、装置和存储介质。其中，该人体三维模型重建装置具体可以集成在网络设备，如终端或服务器等设备中。

例如，参见图1a，网络设备在获取到待重建人体的二维图像，如接收到图像采集设备发送的待重建人体的二维图像之后，可以将二维图像映射至体素空间，比如可以采用体素回归网络将二维图像映射至体素空间，得到该二维图像的体素化结果，等等，然后，采用预设三维参数回归网络对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数，并基于该三维形变模型参数重建该人体的三维模型。比如，如果该二维图像为人脸图像，则可以基于3DMM参数重建该人脸的三维模型，而如果该二维图像为人体整体(人脸和身体)图像，则可以基于蒙皮多人线性模型(SMPL，Skinned Multi-Person LinearModel)参数重建该人体整体的三维模型，等等。

以下分别进行详细说明。需说明的是，以下实施例的顺序不作为对实施例优选顺序的限定。

本发明实施例将从人体三维模型重建装置的角度进行描述，该人体三维模型重建装置具体可以集成在网络设备，比如终端或服务器等设备中；其中，该终端具体可以包括手机、平板电脑、笔记本电脑、和个人计算机(PC，Personal Computer)等设备。

本发明实施例提供一种人体三维模型重建方法，包括：获取待重建人体的二维图像，将二维图像映射至体素空间，得到该二维图像的体素化结果，采用预设三维参数回归网络对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数，基于该三维形变模型参数重建该人体的三维模型。

如图1b所示，该人体三维模型重建方法的具体流程可以如下：

101、获取待重建人体的二维图像。

例如，具体可以通过本地(即该人体三维模型重建装置)的摄像部件如摄像头等来采集人体图像，或者，也可以接收其他设备如其他终端发送的人体图像，然后，对该人体图像进行预处理，得到待重建人体的二维图像，等等。

其中，预处理可以包括裁剪、分辨率的调整、图像尺寸的缩放、亮度调整、和/或对比度调整等操作。

其中，待重建人体的二维图像指的是需要进行三维模型重建的人体的二维图像，该人体的二维图像可以是人体的整体图像(包括人脸和身体)，也可以是人体的部分图像，比如人脸图像或人的身体的某些部位的图像，等等。

102、将二维图像映射至体素空间，得到该二维图像的体素化结果。

其中，体素是体积元素(Volume Pixel)的简称，包含体素的立体可以通过立体渲染或者提取给定阈值轮廓的多边形等值面表现出来。一如其名，体素是数字数据于三维空间分割上的最小单位，常用于三维成像等领域。所谓体素空间，指的是以体素作为单位的坐标空间。也就是说，将二维图像映射至体素空间，意味着将二维图像投影至一以体素作为单元的坐标空间中，进而得到与该二维图像对应的三维图像(该三维图像可以以体素为单位)，为了描述方便，在本发明实施例中，将该二维图像对应的三维图像称为该二维图像的体素化结果。

其中，将二维图像映射至体素空间的方式可以有多种，比如，可以采用体素回归网络(VRN，Volumetric Regression Network)，如下：

获取预设的体素回归网络，将二维图像输入该体素回归网络中进行计算，得到该二维图像的体素化结果。

其中，该体素回归网络可以由多张标注了体素真实值的二维人体样本训练而成，具体可以由维护人员预先进行设置，或者，也可以由其他设备或该人体三维模型重建装置自行进行训练，即在步骤“获取预设的体素回归网络”之前，该人体三维模型重建方法还可以包括：

采集多张标注了体素真实值的二维人体样本(即人体的二维图像样本)，采用预设多层沙漏网络(stack hourglass network)对该二维人体样本的体素进行计算，得到体素预测值，对该二维人体样本的体素预测值和体素真实值进行收敛，得到体素回归网络。

其中，该多层沙漏网络可以根据实际应用的需求灵活进行设置，比如，可以是包括多个沙漏网络，比如包括两个沙漏网络。

例如，如图1c所示，具体可以采用两个结构相同的沙漏网络来组成一个多层沙漏网络；其中，每一个沙漏网络都可以包括左右两部分，右边部分为左边部分的镜像，且左右两个部分的相应位置可以通过加号进行合并；譬如，若左边部分包括C_1a、C_2a、C_3a和C_4a四层，则右边部分也可以包括C_4b、C_3b、C_2b和C_1b四层，且C_1a与C_1b、C_2a与C_2b、C_3a与C_3b、以及C_4a与C_4b分别可以通过加号进行合并。

在建立该多层沙漏网络之后，便可以采用该多层沙漏网络对该二维人体样本的体素进行计算，得到体素预测值，然后，对该二维人体样本的体素预测值和体素真实值进行收敛，得到体素回归网络，比如，具体可以采用预设的损失函数(LOSS)对该二维人体样本的体素预测值和体素真实值进行收敛，其中，该体素回归网络对应的损失函数E_V具体可以如下：

其中，w、h和d为体素在体素空间的坐标值，具体为宽、高和深度；而W、H和D的取值可以根据实际应用的需求灵活进行设置；V_whd为该二维人体样本的体素真实值，

为该二维人体样本的体素真实值。

需说明的是，其中，二维人体样本的体素真实值可以由人工进行标注，也可以由该人体三维模型重建装置或其他设备自动进行标注，比如，通过卷积神经网络进行学习后，利用该卷积神经网络对这些二维人体样本的体素真实值进行标注，等等，在此不作赘述。

103、采用预设三维参数回归网络对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数。

例如，具体可以获取预设三维参数回归网络，然后，将该待重建人体的二维图像所对应的体素化结果导入至该三维参数回归网络进行计算，得到该待重建人体的二维图像对应的三维形变模型参数。

其中，该三维形变模型参数可以包括形态系数(a_id)、状态系数(a_exp)和相机参数；所谓形态系数，指的是可以表征物体(比如人体)固有形态的参数，比如人的高、矮、胖和瘦，又比如人脸的轮廓、五官的形状和大小等。状态系数指的是表征物体(比如人体)当前状态的参数，比如人是站着还是坐着，比如人的手是否举起来，比如人脸中的嘴巴是否张开，比如是微笑还是大笑、是睁眼还是闭眼，等等。而相机参数则指的是建立相机成像的几何模型的参数(在图像测量过程以及机器视觉应用中，为确定空间物体表面某点的三维几何位置与其在图像中对应点之间的相互关系，必须建立相机成像的几何模型)。相机参数一般可以分为外参(camera extrinsic matrix)和内参(camera intrinsic matrix)，外参确定了相机在某个三维空间中的位置和朝向，根据外参可以确定现实世界点(即世界坐标)是怎样经过旋转和平移，然后落到另一个现实世界点(即相机坐标)上；而内参指的是相机内部的参数，根据内参可以知道该现实世界点是如何在外参的作用后，经过相机的镜头、并通过针孔成像和电子转化而成为像素点的；比如，以人体为例，该相机参数可以包括对应人体朝向的旋转矩阵R、以及人体映射至二维图像坐标下的平移矩阵t，此外，还可以包括比例系数；其中，比例系数为内参，而旋转矩阵R和平移矩阵t为外参。

一般的，旋转矩阵R可以用在三维空间下的三个旋转角度来表示：r＝(roll，yaw，pitch)，其中，yaw是围绕Y轴旋转，pitch是围绕X轴旋转，roll是围绕Z轴旋转。

需说明的是，由于旋转矩阵R可以用r＝(roll，yaw，pitch)来表示，因此，在本发明实施例中，该相机参数可以包括{f，r，t}。

可选的，该三维参数回归网络可以由多张标注了三维形变模型参数真实值的三维人体样本训练而成；该三维人体样本可以直接采集得到，也可以由体素回归网络根据该二维人体样本计算得到，而该三维参数回归网络的获取方式也可以有多种，比如，可以由维护人员预先进行设置，或者，由其他设备预先进行训练后提供给该人体三维模型重建装置，又或者，还可以由该人体三维模型重建装置自行进行训练，即在步骤“采用预设三维参数回归网络对该体素化结果进行计算”之前，该人体三维模型重建方法还可以包括：

采集多张标注了三维形变模型参数真实值的三维人体样本，采用预设三维回归网络对三维人体样本的三维形变模型参数进行计算，得到三维形变模型参数预测值，对该三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，得到三维参数回归网络。

其中，该预设三维回归网络可以根据实际应用的需求灵活进行设置，比如，可以设置为一个5层三维卷积层的回归网络，或者，设置为一个七层三维卷积层(3Dconv)的回归网络，等等。

例如，以该预设三维回归网络为5层三维卷积层的回归网络为例，参见图1d，该三维回归网络可以包括5层三维卷积层：3Dconv1、3Dconv2、3Dconv3、3Dconv4和3Dconv5，此外，还可以包括池化层mp-3D和全连接层FC，由于该三维回归网络的输出为“三维形变模型参数”，因此，若三维形变模型参数包括形态系数(α_id)、状态系数(α_exp)和相机参数，则在池化层mp-3D之后，可以将该三维回归网络划分为三个分支——形态系数分支、状态系数分支和相机参数分支。其中，形态系数分支输出的三维形变模型参数预测值为形态系数预测值，状态系数分支输出的三维形变模型参数预测值为状态系数预测值，而相机参数分支则输出的三维形变模型参数预测值为相机参数预测值。

相应的，可以为每一分支分别设置相应地全连接层，比如，形态系数分支对应全连接层FC_id，状态系数分支对应全连接层FC_exp，相机参数分支对应全连接层FC_p，等等。

可选的，为了提高计算的准确性，在该三维回归网络中，还可以在各个分支中添加相应卷积层，比如，如图1e所示，可以在池化层mp-3D之后，增加卷积层3Dconv6；可选的，还可以在全连接层FC_p之前，在相机参数分支上增加卷积层3Dconv7。

可选的，如图1d所示，每一分支的全连接层也可以包括多层，比如，形态系数分支上的FC_id可以包括FC_id ¹、FC_id ²和FC_id ³，状态系数分支上的FC_exp可以包括FC_exp ¹、FC_exp ²和FC_exp ³，等等。

需说明的是，各个卷积层的卷积核大小、步长、以及扩充边缘(池化)均可以根据实际应用的需求灵活进行设置，同理，各全连接层的参数也可以根据实际应用的需求灵活进行设置，在此不作赘述。

在建立了该三维回归网络之后，便可以采用该三维回归网络对三维人体样本的三维形变模型参数进行计算，得到三维形变模型参数预测值，然后，对该三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，得到三维参数回归网络，比如，具体可以采用预设的损失函数(LOSS)对该三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，具体可以如下：

其中，E_id为三维回归网络中形态系数分支对应的损失函数，E_exp为三维回归网络中状态系数分支对应的损失函数，E_p为三维回归网络中相机参数分支对应的损失函数。

为形态系数预测值，a_id为形态系数真实值，

为状态系数预测值，a_exp为状态系数真实值；

为基于

和a_exp所构建的正视三维模型，S(a_id，a_exp)为基于a_id和a_exp所构建的正视三维模型，

为基于

和

所构建的正视三维模型；U_id为人体形态的主成分分析(PCA，Principal Component Analysis)空间的基向量矩阵，在本发明实施例中称为形态基向量矩阵；U_exp为人体状态的PCA空间的基向量矩阵，在本发明实施例中称为状态基向量矩阵；f为相机参数中的比例系数(或称为尺度信息)，

为相机参数中的比例系数的预测值，P为正视投影矩阵，比如，具体可以为

R为对应人体朝向的旋转矩阵，

为对应人体朝向的旋转矩阵的预测值，R和

均可以用在三维空间下的三个旋转角度r＝(roll，yaw，pitch)来表示，其中，yaw是围绕Y轴旋转，pitch是围绕X轴旋转，roll是围绕Z轴旋转。

可选的，为了提高该参数回归网络的准确性，相机参数分支对应的损失函数E_p还可以采用如下公式：

其中，F为人体三维图像中关键点的集合，其中，该关键点可以根据实际应用的需求灵活进行设置，比如，对于人脸而言，一般可以取三维图像中的68个关键点来作为该F，等等，而对于整个人体(包括人脸和人身)而言，则一般可以取三维图像中的22个关键点来作为该F。

需说明的是，其中，三维人体样本的三维形变模型参数真实值可以由人工进行标注，也可以由该人体三维模型重建装置或其他设备自动进行标注，比如，通过卷积神经网络进行学习后，利用该卷积神经网络对这些三维人体样本的三维形变模型参数真实值进行标注，等等，在此不作赘述。

104、基于该三维形变模型参数重建该人体的三维模型。

例如，若该三维形变模型参数包括形态系数、状态系数和相机参数，则步骤“基于该三维形变模型参数重建该人体的三维模型”可以包括：

(1)基于该形态系数和状态系数构建该人体的正视三维模型。

例如，具体可以获取预设的平均人体模型、形态基向量矩阵、以及状态基向量矩阵，根据该平均人体模型、形态基向量矩阵、状态基向量矩阵、形态系数和状态系数构建该人体的正视三维模型。

其中，根据该平均人体模型、形态基向量矩阵、状态基向量矩阵、形态系数和状态系数构建该人体的正视三维模型的方式可以有多种，比如，具体可以如下：

采用该形态系数对该形态基向量矩阵进行调整，得到调整后形态基向量矩阵；采用该状态系数对该状态基向量矩阵进行调整，得到调整后状态基向量矩阵；计算该平均人体模型、调整后形态基向量矩阵和调整后状态基向量矩阵的和，得到该人体的正视三维模型，用公式表示即为：

S(a_id，a_exp)为正视三维模型，

为平均人体模型，U_id为形态基向量矩阵，a_id为形态系数，U_exp为状态基向量矩阵，a_exp为状态系数。

平均人体模型

形态基向量矩阵U_id、以及状态基向量矩阵U_exp均可以通过采集多张人体图像样本，然后按照预设算法计算得到，当然，这些采集的人体图像样本需与该待重建人体的二维图像属于同一类型，比如，如果该待重建人体的二维图像为人脸图像，则需要采集的人体图像样本为人脸图像样本，该平均人体模型

为这些人脸图像样本的所对应的正视三维模型的均值(称为平均人脸模型)，而如果该待重建人体的二维图像为人体整体图像(包括人脸和身体)，则需要采集的人体图像样本为人体整体图像样本，该平均人体模型

为这些人体整体图像样本所对应的正视三维模型的均值，以此类推，等等。

(2)根据该相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型。

其中，将该人体的正视三维模型投影至图像空间的方式可以有多种，比如，可以通过正视投影矩阵或弱透视投影矩阵来将该人体的正视三维模型投影至图像空间，等等，具体如下：

A1、采用正视投影矩阵；

若相机参数包括比例系数、平移矩阵和人体朝向的旋转矩阵(简称旋转矩阵)，即相机参数为{f，r，t}，则步骤“根据该相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型”具体可以如下：

获取预设的正视投影矩阵，计算该正视投影矩阵、比例系数、旋转矩阵和正视三维模型的乘积，计算该乘积与平移矩阵的和，得到该人体对应的三维模型，用公式表示即为：

V(p)＝f*P*R*S+t

其中，V(p)为该人体对应的三维模型，f为比例系数，P为正视投影矩阵，R为旋转矩阵，可以用r＝(roll，yaw，pitch)来表示，S为正视三维模型，t为平移矩阵。

A2、采用弱透视投影矩阵；

若该相机参数包括平移矩阵和人体朝向的旋转矩阵，即相机参数为{r，t}，则步骤“根据该相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型”具体可以如下：

获取预设的弱透视投影矩阵，计算该弱透视投影矩阵旋转矩阵和正视三维模型的乘积，计算该乘积与平移矩阵的和，得到该人体对应的三维模型。

其中，该弱透视投影矩阵可以通过对正视投影矩阵进行调整得到，比如，可以将正视投影矩阵乘以比例系数f，等等。

可选的，由于该待重建人体的二维图像为一张经过预处理如裁剪、分辨率调整、和/或尺寸缩放的图片，因此，其尺度和平移信息会有一定程度上的丢失，导致其比例系数f和平移矩阵t的准确度也有待加强，所以，为了提高重建的三维模型的准确性，可以对相机参数进行优化，具体的优化方式有多种，比如，可以采用迭代最近邻算法(ICP，IterativeClosest Point，也称为迭代最近点，是一种点云匹配算法，其可以通过旋转、平移使得两个点集之间的距离最小，进而将一幅图像映射到另一幅图像上，使得两图中对应于空间同一位置的点一一对应起来，从而达到信息融合的目的)来对其进行优化，具体如下：

采用迭代最近邻算法对该相机参数进行优化，得到优化后相机参数，根据该优化后相机参数将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型。

其中，根据该优化后相机参数将该人体的正视三维模型投影至图像空间方式与根据优化前的相机参数类似，比如，具体可以如下：

B1、采用正视投影矩阵；

该优化后相机参数包括优化后比例系数、优化后平移矩阵和优化后旋转矩阵，则步骤“根据该优化后相机参数将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型”可以包括：

获取预设的正视投影矩阵，计算该正视投影矩阵、优化后比例系数、优化后旋转矩阵和正视三维模型的乘积，计算该乘积与优化后平移矩阵的和，得到该人体对应的三维模型。

B2、采用弱透视投影矩阵；

若该相机参数包括优化后平移矩阵和优化后旋转矩阵，则步骤“根据该优化后相机参数将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型”具体可以如下：

获取预设的弱透视投影矩阵，计算该弱透视投影矩阵、优化后旋转矩阵和正视三维模型的乘积，计算该乘积与优化后平移矩阵的和，得到该人体对应的三维模型。

在得到该人体对应的三维模型之后，后续便可以根据各应用场景的需求，基于该三维模型进行其他的操作，比如，可执行增强现实、虚拟现实或混合现实等领域中的各相关操作，等等。

由上可知，本发明实施例可以获取待重建人体的二维图像，将二维图像映射至体素空间，得到该二维图像的体素化结果，然后，采用预设三维参数回归网络对该体素化结果进行计算，并基于计算得到的该二维图像的三维形变模型参数重建人体的三维模型；由于该方案在计算三维形变模型参数之前，可以将二维图像映射至体素空间，因此，相对于现有直接依据二维图像来计算三维形变模型参数的方案而言，可以避免由于二维图像信息缺失所导致的准确性较差的问题，可以大大提高三维模型重建的准确性和效果。

为了更好地实施以上方法，以下将举例作进一步详细说明。

在本实施例中，将以该人体三维模型重建装置具体集成在网络设备中，且体素回归网络和三维参数回归网络均由该网络设备自行进行训练为例进行说明。

(一)首先，需要对体素回归网络和三维参数回归网络进行训练，具体可以如下：

(1)体素回归网络的训练。

网络设备可以采集多张二维人体样本，对这些二维人体样本的体素真实值进行标注，比如，可以由人工进行标注，或者也可以由该网络设备或其他设备自动进行标注，等等，然后，采用这些标注好的二维人体样本对预设多层沙漏网络进行训练，训练好的多层沙漏网络即为体素回归网络。

比如，网络设备具体可以从这多张二维人体样本中确定当前需要进行训练的二维人体样本，然后，将该当前需要进行训练的二维人体样本导入该多层沙漏网络中进行计算，得到该当前需要进行训练的二维人体样本所对应的体素预测值，将该当前需要进行训练的二维人体样本所对应的体素预测值和标注的体素真实值进行收敛，以对该多层沙漏网络的参数进行调整，即完成了一次训练。此后，网络设备可以返回执行“从这多张二维人体样本中确定当前需要进行训练的二维人体样本”的步骤，以更新该当前需要进行训练的二维人体样本，并继续对该体素回归网络进行训练，以此反复，直至所有的二维人体样本均训练完毕，便可得到体素回归网络。

其中，在对二维人体样本的体素预测值和体素真实值进行收敛时，具体可以采用如下损失函数E_V来进行收敛：

为该二维人体样本的体素真实值。

可选的，该多层沙漏网络可以根据实际应用的需求灵活进行设置，比如，可以包括多个沙漏网络，比如两个沙漏网络，该多层沙漏网络的结构具体可以参见图1c和前面的实施例，在此不作赘述。

(2)三维参数回归网络的训练。

网络设备可以采集多张三维人体样本，其中，该三维人体样本可以与二维人体样本(用于训练体素回归网络)不具有关联性，也可以具有关联性，比如可以将二维人体样本经过体素回归网络后的输出，来作为相应的三维人体样本，等等。

在采集到多张三维人体样本之后，网络设备可以对这些三维人体样本进行三维形变模型参数真实值的标注，比如，可以由人工进行标注，或者也可以由该网络设备或其他设备自动进行标注，等等，然后，采用这些标注好的三维人体样本对预设三维回归网络进行训练，训练好的三维回归网络即为三维参数回归网络。

比如，网络设备具体可以从这多张三维人体样本中确定当前需要进行训练的三维人体样本，然后，将该当前需要进行训练的三维人体样本导入该三维回归网络中进行计算，得到该当前需要进行训练的三维人体样本对应的三维形变模型参数预测值，将该当前需要进行训练的三维人体样本对应的三维形变模型参数预测值和标注的三维形变模型参数真实值进行收敛，以对该三维回归网络的参数进行调整，即可完成一次训练。此后，网络设备可以返回执行“从这多张三维人体样本中确定当前需要进行训练的三维人体样本”的步骤，以更新该当前需要进行训练的三维人体样本，并继续对该三维回归网络进行训练，以此反复，直至所有三维人体样本均训练完毕，便可得到该三维参数回归网络。

其中，该预设三维回归网络的结构可以根据实际应用的需求灵活进行设置，比如，可以设置为一个5层三维卷积层的回归网络，其结构具体可参见图1d、图1e、以及前面的实施例，在此不作赘述。

可选的，该三维回归网络中各层的设置可也可以根据实际应用的需求灵活进行设置，比如，可如表一所示的参数对各卷积层进行设置，以及可根据表二所示的参数对各全连接层进行设置。

表一：

表二：

需说明的是，上述参数设置仅仅为示例，应当理解的是，根据应用场景的不同或需求，还可以为其他的设置方式。

其中，具体可以采用如下损失函数来分别对三维形变模型参数预测值和标注的三维形变模型参数真实值进行收敛：

为形态系数预测值，a_id为形态系数真实值，

为状态系数预测值，a_exp为状态系数真实值；

为基于

为基于

和

所构建的正视三维模型；U_id为形态基向量矩阵；U_exp为状态基向量矩阵；f为相机参数中的比例系数(或称为尺度信息)，

R为对应人体朝向的旋转矩阵，

为对应人体朝向的旋转矩阵的预测值，R和

其中，F为人体三维图像中关键点的集合，其中，该关键点可以根据实际应用的需求灵活进行设置，比如，对于人脸而言，一般可以取三维图像中的68个关键点来作为该F，等等，而对于整个人体(包括人脸和人身)而言，则一般可以取三维图像中的22个关键点来作为该F，等等。

(二)通过训练好的体素回归网络和三维参数回归网络，便可以对待重建人体的二维图像进行三维模型的重建。

如图2a所示，一种人体三维模型重建方法，具体流程可以如下：

201、网络设备采集人体图像。

例如，该网络设备具体可以通过本地(即本网络设备)的摄像部件如摄像头等来采集人体图像，或者，也可以接收其他设备如其他终端发送的人体图像，等等。

202、网络设备对采集到的人体图像进行预处理，得到待重建人体的二维图像。

其中，该预处理可以包括裁剪、分辨率的调整、图像尺寸的缩放、亮度调整、和/或对比度调整等操作。

其中，该待重建人体的二维图像可以是人体的整体图像(包括人脸和身体)，也可以是人体的部分图像，比如人脸图像或人的身体的某些部位的图像，等等。

203、网络设备获取体素回归网络，将二维图像输入该体素回归网络中进行计算，得到该二维图像的体素预测值，在本发明实施例中，该二维图像的体素预测值即为该二维图像的体素化结果。

例如，若该二维图像为人脸图像，则如图2b所示，在获取到体素回归网络后，可以将该人脸图像输入该体素回归网络中进行计算，得到关于该人脸图像的体素化结果，比如，以该人脸图像为图2d中的图像001为例，则该体素化结果可如图2d中的图像002所示。

又例如，若该二维图像为人体整体图像，则如图2c所示，在获取到体素回归网络后，可以将该人体整体图像输入该体素回归网络中进行计算，得到关于该人体整体图像的体素化结果。

其中，该体素回归网络可以由多张标注了体素真实值的二维人体样本训练而成，具体训练方法可参见前面的实施例，在此不作赘述。

204、网络设备采用预设三维参数回归网络对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数。

其中，该三维形变模型参数可以包括形态系数a_id、状态系数a_exp和相机参数；该相机参数可以包括对应人体朝向的旋转矩阵R、以及人体映射至二维图像坐标下的平移矩阵t，此外，还可以包括比例系数f。一般的，旋转矩阵R可以用在三维空间下的三个旋转角度来r＝(roll，yaw，pitch)表示，即该相机参数一般可以包括{r，t}或{f，r，t}。

基于不同类型的二维图像，该三维形变模型参数也会有所区别，比如，若该二维图像为人脸图像，则该三维形变模型参数一般指3DMM参数，其中，形态系数a_id具体可以反映该人脸的轮廓、五官的形状和大小等，而状态系数a_exp则可以反映该人脸的表情，大笑、微笑、睁眼或闭眼，等等。又比如，若该二维图像为人体整体图像，则该三维形变模型参数一般指SMPL参数，其中，形态系数a_id具体可以反映该人体的固有形态，比如人的高矮胖瘦，而状态系数a_exp则可以反映该人体当前的状态，比如是身体的弯曲情况、或四肢的状态，等等。

例如，以该二维图像具体为人脸图像为例，参见图2b，网络设备可以获取预先训练得到的三维参数回归网络，然后，将该人脸图像所对应的体素化结果导入至该三维参数回归网络进行计算，得到该人脸图像对应的三维形变模型参数{a_id，a_exp，f，r，t}。

又例如，以该二维图像具体为人体整体图像为例，参见图2c，网络设备可以获取预先训练得到的三维参数回归网络，然后，将该人体整体图像所对应的体素化结果导入至该三维参数回归网络进行计算，得到该人体整体图像对应的三维形变模型参数{a_id，a_exp，f，r，t}。

205、网络设备基于该形态系数和状态系数构建该人体的正视三维模型。

例如，如图2b和图2c所示，网络设备可以获取预设的平均人体模型

形态基向量矩阵U_id、以及状态基向量矩阵U_exp，然后，根据该平均人体模型

形态基向量矩阵U_id、状态基向量矩阵U_exp、形态系数a_id和状态系数a_exp构建该人体的正视三维模型，比如，具体可以如下：

采用该形态系数a_id对该形态基向量矩阵U_id进行调整，得到调整后形态基向量矩阵；采用该状态系数a_exp对该状态基向量矩阵U_exp进行调整，得到调整后状态基向量矩阵；计算该平均人体模型

调整后形态基向量矩阵和调整后状态基向量矩阵的和，得到该人体的正视三维模型S(a_id，a_exp)，用公式表示即为：

比如，参见图2b，若该待重建人体的二维图像为人脸图像，则该正视三维模型为该人脸正面的三维模型；又比如，参见图2c，若该待重建人体的二维图像为人体整体图像，则该正视三维模型为该人体正面的三维模型，以此类推，等等。

需说明的是，其中，平均人体模型

206、网络设备采用迭代最近邻算法对该相机参数进行优化，得到优化后相机参数。

之所以对该相机参数进行优化，是因为该输入体素回归网络的二维图像为一张经过裁剪、分辨率调整、和/或尺寸缩放的图片，因此，其尺度和平移信息会有一定程度上的丢失，导致其比例系数f和平移矩阵t的准确度也有待加强，比如，参见图2d，人脸图像003即为根据优化前的相机参数所建立的三维模型(即根据相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型)，由图中可以看到，与原人脸图像001相比，该人脸图像003的旋转信息(旋转矩阵r)基本正确，而尺度信息(即比例系数f)和平移信息(即平移矩阵t)的准确度还待加强，所以，此时对相机参数进行优化，特别是对比例系数f和平移矩阵t进行优化，有利于提高后续重建的三维模型的准确性。

207、网络设备根据优化后相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型。

例如，以该优化后相机参数包括优化后比例系数、优化后平移矩阵和优化后旋转矩阵(即相机参数包括优化后{f，r，t})为例，则此时，网络设备具体可以获取预设的正视投影矩阵，计算该正视投影矩阵、优化后比例系数、优化后旋转矩阵和正视三维模型的乘积，计算该乘积与优化后平移矩阵的和，得到该人体对应的三维模型，用公式表示即为：

V(p)＝f*P*R*S+t

其中，V(p)为该人体对应的三维模型，f为优化后比例系数，P为正视投影矩阵，R为优化后旋转矩阵，可以用r＝(roll，yaw，pitch)来表示，S为正视三维模型，t为优化后平移矩阵。

比如，参见图2b，可以计算正视投影矩阵P、优化后比例系数f、优化后旋转矩阵R和该人脸图像的正视三维模型S的乘积，然后，计算该乘积与优化后平移矩阵t的和，得到该人脸图像对应的三维模型，比如，具体可参见图2d中的图像004，由图2d可以看出，此时所得到三维模型(采用优化后相机参数进行映射)相对于图像003(采用优化前相机参数进行映射)而言，与该人脸真实的三维模型005更为接近。更多的例子可参见图2e。如图2e所示，其中，第一行和第三行图像为待重建人体的二维图像，第二行图像为采用本发明实施例所提供的人体三维模型重建方法，对第一行的二维图像进行三维模型重建后，所得到的三维模型，同理，第四行图像为采用本发明实施例所提供的人体三维模型重建方法，对第三行的二维图像进行三维模型重建后，所得到的三维模型。

又譬如，参见图2c，可以计算正视投影矩阵P、优化后比例系数f、优化后旋转矩阵R和该人体整体图像的正视三维模型S的乘积，然后，计算该乘积与优化后平移矩阵t的和，得到该人体整体图像对应的三维模型。

可选的，除了可以采用正视投影矩阵来将该人体的正视三维模型投影至图像空间之外，还可以采用弱透视投影矩阵来将该人体的正视三维模型投影至图像空间，例如，具体可以如下：

网络设备具体可以获取预设的弱透视投影矩阵，计算该弱透视投影矩阵、优化后旋转矩阵和正视三维模型的乘积，计算该乘积与优化后平移矩阵的和，得到该人体对应的三维模型，用公式表示即为：

V(p)＝K*R*S+t

其中，V(p)为该人体对应的三维模型，R为优化后旋转矩阵，可以用r＝(roll，yaw，pitch)来表示，S为正视三维模型，t为优化后平移矩阵，K为弱透视投影矩阵，该弱透视投影矩阵K可以通过对正视投影矩阵P进行调整得到，比如，可以将正视投影矩阵P乘以优化后比例系数f，等等。

在得到该人体对应的三维模型，比如人脸的三维模型之后，后续便可以根据各应用场景的需求，基于该三维模型进行其他的操作，比如，可执行增强现实、虚拟现实或混合现实等领域中的各相关操作，在此不作赘述。

由上可知，本发明实施例的网络设备在获取到待重建人体的二维图像之后，可以采用体素回归网络计算该二维图像的体素化结果，然后，采用预设三维参数回归网络对该体素化结果进行计算，并基于计算得到的该二维图像的三维形变模型参数重建人体的三维模型；由于该方案在计算三维形变模型参数之前，可以将二维图像映射至体素空间，因此，相对于现有直接依据二维图像来计算三维形变模型参数的方案而言，可以避免由于二维图像信息缺失所导致的准确性较差的问题，可以大大提高三维模型重建的准确性和效果。

此外，由于本发明实施例所采用的三维形变模型参数中的相机参数是经过迭代最近邻算法优化后的参数，因此，可以加强该三维模型在尺度和平移上的准确度，有利于进一步提高重建的三维模型的准确性，使得该三维模型更贴近于真实的三维模型。

为了更好地实施以上方法，本发明实施例还提供一种人体三维模型重建装置，该人体三维模型重建装置具体可以集成在网络设备，比如终端或服务器等设备中；其中，该终端具体可以包括手机、平板电脑、笔记本电脑、和PC等设备。

例如，如图3a所示，该人体三维模型重建装置可以包括获取单元301、映射单元302、计算单元303和重建单元304，如下：

(1)获取单元301；

获取单元301，用于获取待重建人体的二维图像。

例如，获取单元301具体可以通过本地(即该人体三维模型重建装置)的摄像部件如摄像头等来采集人体图像，或者，也可以接收其他设备如其他终端发送的人体图像，然后，对该人体图像进行预处理，比如进行裁剪、分辨率的调整、图像尺寸的缩放、亮度调整、和/或对比度调整等操作，得到待重建人体的二维图像，等等。

其中，待重建人体的二维图像可以是人体的整体图像(包括人脸和身体)，也可以是人体的部分图像，比如人脸图像或人的身体的某些部位的图像，等等。

(2)映射单元302；

映射单元302，用于将二维图像映射至体素空间，得到该二维图像的体素化结果。

其中，将二维图像映射至体素空间的方式可以有多种，比如，可以采用体素回归网络，如下：

该映射单元302，具体可以用于获取预设的体素回归网络，将二维图像输入该体素回归网络中进行计算，得到该二维图像的体素化结果。

其中，该体素回归网络可以由多张标注了体素真实值的二维人体样本训练而成，具体可以由维护人员预先进行设置，或者，也可以由其他设备或该人体三维模型重建装置自行进行训练，即如图3b所示，该人体三维模型重建装置还可以包括第一训练单元305，如下：

该第一训练单元305，可以用于采集多张标注了体素真实值的二维人体样本，采用预设多层沙漏网络对该二维人体样本的体素进行计算，得到体素预测值，对该二维人体样本的体素预测值和体素真实值进行收敛，得到体素回归网络。

则此时，映射单元302，具体可以用于获取第一训练单元305得到的体素回归网络，将二维图像输入该体素回归网络中进行计算，得到该二维图像的体素化结果。

其中，该多层沙漏网络可以根据实际应用的需求灵活进行设置，比如，可以包括多个沙漏网络，如两个沙漏网络，具体可参见前面的实施例，在此不作赘述。

(3)计算单元303；

计算单元303，用于采用预设三维参数回归网络对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数。

例如，计算单元303具体可以用于获取预设三维参数回归网络，然后，将该待重建人体的二维图像所对应的体素化结果导入至该三维参数回归网络进行计算，得到该待重建人体的二维图像对应的三维形变模型参数。

其中，该三维形变模型参数可以包括形态系数、状态系数和相机参数，相机参数可以包括对应人体朝向的旋转矩阵R(可用r＝(roll，yaw，pitch)来表示)、以及人体映射至二维图像坐标下的平移矩阵t；此外，相机参数还可以包括比例系数。

可选的，该三维参数回归网络可以由多张标注了三维形变模型参数真实值的三维人体样本训练而成，该三维人体样本可以直接采集得到，也可以由体素回归网络根据该二维人体样本计算得到，而该三维参数回归网络的获取方式也可以有多种，比如，可以由维护人员预先进行设置，或者，由其他设备预先进行训练后提供给该人体三维模型重建装置，又或者，还可以由该人体三维模型重建装置自行进行训练，即如图3b所示，该人体三维模型重建装置还可以包括第二训练单元306，如下：

该第二训练单元306，可以用于采集多张标注了三维形变模型参数真实值的三维人体样本，采用预设三维回归网络对三维人体样本的三维形变模型参数进行计算，得到三维形变模型参数预测值，对该三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，得到三维参数回归网络。

则此时，计算单元303，具体可以用于采用该第二训练单元306得到的三维参数回归网络，对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数。

其中，该预设三维回归网络可以根据实际应用的需求灵活进行设置，比如，可以设置为一个5层三维卷积层的回归网络，或者，设置为一个七层三维卷积层(3Dconv)的回归网络，等等，具体可参见前面的方法实施例，在此不作赘述。

(4)重建单元304；

重建单元304，用于基于该三维形变模型参数重建该人体的三维模型。

例如，若该三维形变模型参数可以包括形态系数、状态系数和相机参数，则该重建单元304可以包括构建子单元和投影子单元，如下：

构建子单元，用于基于该形态系数和状态系数构建该人体的正视三维模型。

投影子单元，用于根据该相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型。

例如，该构建子单元，具体可以用于获取预设的平均人体模型、形态基向量矩阵、以及状态基向量矩阵，根据该平均人体模型、形态基向量矩阵、状态基向量矩阵、形态系数和状态系数构建该人体的正视三维模型。

其中，根据该平均人体模型、形态基向量矩阵、状态基向量矩阵、形态系数和状态系数构建该人体的正视三维模型的方式可以有多种，比如，该构建子单元，具体可以用于：

采用该形态系数对该形态基向量矩阵进行调整，得到调整后形态基向量矩阵，采用该状态系数对该状态基向量矩阵进行调整，得到调整后状态基向量矩阵，计算该平均人体模型、调整后形态基向量矩阵和调整后状态基向量矩阵的和，得到该人体的正视三维模型；用公式表示即为：

S(a_id，a_exp)为正视三维模型，

为平均人体模型，U_id为形态基向量矩阵，a_id为形态系数，U_exp为状态基向量矩阵，a_exp为状态系数。平均人体模型

形态基向量矩阵U_id、以及状态基向量矩阵U_exp均可以通过采集多张人体图像样本，然后按照预设算法计算得到，详见前面的实施例，在此不作赘述。

其中，将该人体的正视三维模型投影至图像空间的方式也可以有多种，比如，可以通过正视投影矩阵或弱透视投影矩阵来将该人体的正视三维模型投影至图像空间，详见前面的实施例，在此不作赘述。

可选的，为了避免因预处理所导致的二维图像的尺度和平移信息部分丢失的问题，可以对相机参数进行优化，以增加尺度(比例系数)和平移信息(平移矩阵)准确性。即：

投影子单元，具体可以用于采用迭代最近邻算法对该相机参数进行优化，得到优化后相机参数，根据该优化后相机参数将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型。

其中，根据该优化后相机参数将该人体的正视三维模型投影至图像空间方式与根据优化前的相机参数类似，比如，可以如下：

(A)采用正视投影矩阵；

该优化后相机参数可以包括优化后比例系数、优化后平移矩阵和优化后旋转矩阵，则：

该投影子单元，具体用于获取预设的正视投影矩阵，计算该正视投影矩阵、优化后比例系数、优化后旋转矩阵和正视三维模型的乘积，计算该乘积与优化后平移矩阵的和，得到该人体对应的三维模型。

(B)采用弱透视投影矩阵；

该优化后相机参数可以包括优化后平移矩阵和优化后旋转矩阵，则：

该投影子单元，具体用于获取预设的弱透视投影矩阵，计算该弱透视投影矩阵、优化后旋转矩阵和正视三维模型的乘积，计算该乘积与优化后平移矩阵的和，得到该人体对应的三维模型。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本发明实施例的人体三维模型重建装置的获取单元301可以获取待重建人体的二维图像，由映射单元302将二维图像映射至体素空间，得到该二维图像的体素化结果，然后，由计算单元303采用预设三维参数回归网络对该体素化结果进行计算，并由重建单元304基于计算得到的该二维图像的三维形变模型参数重建人体的三维模型；由于该方案在计算三维形变模型参数之前，可以将二维图像映射至体素空间，因此，相对于现有直接依据二维图像来计算三维形变模型参数的方案而言，可以避免由于二维图像信息缺失所导致的准确性较差的问题，可以大大提高三维模型重建的准确性和效果。

此外，由于该人体三维模型重建装置所采用的三维形变模型参数中的相机参数是经过迭代最近邻算法优化后的参数，因此，可以加强该三维模型在尺度和平移上的准确度，有利于进一步提高重建的三维模型的准确性，使得该三维模型更贴近于真实的三维模型。

本发明实施例还提供一种网络设备，该网络设备可以是服务器，也可以是终端。如图4所示，其示出了本发明实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

网络设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待重建人体的二维图像，将二维图像映射至体素空间，得到该二维图像的体素化结果，采用预设三维参数回归网络对该体素化结果进行计算，得到该二维图像对应的三维形变模型参数，基于该三维形变模型参数重建该人体的三维模型。

例如，具体可以获取预设的体素回归网络，将二维图像输入该体素回归网络中进行计算，得到该二维图像的体素化结果，然后，获取预设三维参数回归网络，将该待重建人体的二维图像所对应的体素化结果导入至该三维参数回归网络进行计算，得到该待重建人体的二维图像对应的三维形变模型参数，比如形态系数、状态系数和相机参数，再然后，基于该形态系数和状态系数构建该人体的正视三维模型，并根据该相机参数，将该人体的正视三维模型投影至图像空间，得到该人体对应的三维模型。

其中，该体素回归网络可以由多张标注了体素真实值的二维人体样本训练而成，而三维参数回归网络则可以由多张标注了三维形变模型参数真实值的三维人体样本训练而成。该体素回归网络和三维参数回归网络既可以由维护人员预先进行设置，也可以由其他设备或该网络设备自行进行训练，即处理器401还可以运行存储在存储器402中的应用程序，从而实现以下功能：

采集多张标注了体素真实值的二维人体样本，采用预设多层沙漏网络对该二维人体样本的体素进行计算，得到体素预测值，对该二维人体样本的体素预测值和体素真实值进行收敛，得到体素回归网络。

和/或，采集多张标注了三维形变模型参数真实值的三维人体样本，采用预设三维回归网络对三维人体样本的三维形变模型参数进行计算，得到三维形变模型参数预测值，对该三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，得到三维参数回归网络。

以上各个操作的具体实施可参见前面的实施例，在此不作赘述。

由上可知，本发明实施例的网络设备可以获取待重建人体的二维图像，将二维图像映射至体素空间，得到该二维图像的体素化结果，然后，采用预设三维参数回归网络对该体素化结果进行计算，并基于计算得到的该二维图像的三维形变模型参数重建人体的三维模型；由于该方案在计算三维形变模型参数之前，可以将二维图像映射至体素空间，因此，相对于现有直接依据二维图像来计算三维形变模型参数的方案而言，可以避免由于二维图像信息缺失所导致的准确性较差的问题，可以大大提高三维模型重建的准确性和效果。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种人体三维模型重建方法中的步骤。例如，该指令可以执行如下步骤：

其中，该体素回归网络可以由多张标注了体素真实值的二维人体样本训练而成，而三维参数回归网络则可以由多张标注了三维形变模型参数真实值的三维人体样本训练而成。该体素回归网络和三维参数回归网络既可以由维护人员预先进行设置，也可以由其他设备或该网络设备自行进行训练，即该指令还可以执行如下步骤：：

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种人体三维模型重建方法中的步骤，因此，可以实现本发明实施例所提供的任一种人体三维模型重建方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种人体三维模型重建方法、装置和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种人体三维模型重建方法，其特征在于，包括：

获取待重建人体的二维图像；

获取体素回归网络，并将所述二维图像输入至所述体素回归网络中进行计算，得到该二维图像的体素预测值；

采用预设三维参数回归网络对所述体素预测值进行计算，得到所述二维图像对应的三维形变模型参数，所述三维形变模型参数包括形态系数、状态系数和相机参数；

获取预设的平均人体模型、形态基向量矩阵以及状态基向量矩阵；

采用所述形态系数对所述形态基向量矩阵进行调整，得到调整后形态基向量矩阵，以及；

采用所述状态系数对所述状态基向量矩阵进行调整，得到调整后状态基向量矩阵；

计算所述平均人体模型、调整后形态基向量矩阵和调整后状态基向量矩阵的和，得到所述人体的正视三维模型；

采用迭代最近邻算法对所述相机参数进行优化，得到优化后相机参数；

根据所述优化后相机参数将所述人体的正视三维模型投影至图像空间，得到所述人体对应的三维模型。

2.根据权利要求1所述的方法，其特征在于，所述优化后相机参数包括优化后比例系数、优化后平移矩阵和优化后旋转矩阵，所述根据所述优化后相机参数将所述人体的正视三维模型投影至图像空间，得到所述人体对应的三维模型，包括：

获取预设的正视投影矩阵；

计算所述正视投影矩阵、优化后比例系数、优化后旋转矩阵和正视三维模型的乘积；

计算所述乘积与优化后平移矩阵的和，得到所述人体对应的三维模型。

3.根据权利要求1所述的方法，其特征在于，所述优化后相机参数包括优化后平移矩阵和优化后旋转矩阵，所述根据所述优化后相机参数将所述人体的正视三维模型投影至图像空间，得到所述人体对应的三维模型，包括：

获取预设的弱透视投影矩阵；

计算所述弱透视投影矩阵、优化后旋转矩阵和正视三维模型的乘积；

4.根据权利要求1所述的方法，其特征在于，所述获取体素回归网络之前，还包括：

采集多张标注了体素真实值的二维人体样本；

采用预设多层沙漏网络对所述二维人体样本的体素进行计算，得到体素预测值；

对所述二维人体样本的体素预测值和体素真实值进行收敛，得到体素回归网络。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述采用预设三维参数回归网络对所述体素预测值进行计算之前，还包括：

采集多张标注了三维形变模型参数真实值的三维人体样本；

采用预设三维回归网络对三维人体样本的三维形变模型参数进行计算，得到三维形变模型参数预测值；

对所述三维人体样本的三维形变模型参数真实值和三维形变模型参数预测值进行收敛，得到三维参数回归网络。

6.一种人体三维模型重建装置，其特征在于，包括：

获取单元，用于获取待重建人体的二维图像；

映射单元，用于获取体素回归网络，并将所述二维图像输入至所述体素回归网络中进行计算，得到该二维图像的体素预测值；

计算单元，用于采用预设三维参数回归网络对所述体素预测值进行计算，得到所述二维图像对应的三维形变模型参数，所述三维形变模型参数包括形态系数、状态系数和相机参数；

构建子单元，用于获取预设的平均人体模型、形态基向量矩阵以及状态基向量矩阵；采用所述形态系数对所述形态基向量矩阵进行调整，得到调整后形态基向量矩阵，以及采用所述状态系数对所述状态基向量矩阵进行调整，得到调整后状态基向量矩阵；计算所述平均人体模型、调整后形态基向量矩阵和调整后状态基向量矩阵的和，得到所述人体的正视三维模型；

投影子单元，具体用于采用迭代最近邻算法对所述相机参数进行优化，得到优化后相机参数，根据所述优化后相机参数将所述人体的正视三维模型投影至图像空间，得到所述人体对应的三维模型。

7.根据权利要求6所述的装置，其特征在于，还包括第一训练单元，

8.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至5任一项所述的人体三维模型重建方法中的步骤。