CN116993926A

CN116993926A - 单视图人体三维重建方法

Info

Publication number: CN116993926A
Application number: CN202311244409.3A
Authority: CN
Inventors: 方顺; 崔铭; 冯星; 张志恒; 殷杏雨; 金虓; 张佳骥; 王玉娇; 韦昀; 陈明明; 范佳佳; 傅晨阳; 刘熠; 蔡和伦; 丁剑; 杜茂风; 高建宇; 刘娟娟; 刘晓涛; 叶育廷
Original assignee: Beijing Xuanguang Technology Co ltd
Current assignee: Beijing Xuanguang Technology Co ltd
Priority date: 2023-09-26
Filing date: 2023-09-26
Publication date: 2023-11-03
Anticipated expiration: 2043-09-26
Also published as: CN116993926B

Abstract

本发明属于人工智能、计算机视觉、计算机图形学领域，具体涉及一种单视图人体三维重建方法，旨在解决现有人体三维重建方法重建的精度、效率鲁棒性较差的问题。本发明方法包括：获取包含待三维重建人体的图像，作为全尺寸图像；对全尺寸图像进行人体检测与人体区域分割，将分割得到的区域图像作为输入图像；将输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像。本发明提升了人体三维重建的精度、效率鲁棒性。

Description

单视图人体三维重建方法

技术领域

本发明属于人工智能、计算机视觉、计算机图形学领域，具体涉及一种单视图人体三维重建方法。

背景技术

人体三维重建技术是一种将人体姿态和形态进行捕捉，并通过计算机将其转化为具有三维形态和结构的技术，在医学、虚拟现实、运动分析等领域具有广泛的应用前景。但传统人体三维重建方法存在以下不足：

1)依赖于手工设计，这往往需要大量的领域知识，需要专业人员经过专门培训，成本较大；

2)需要大量特定数据的采集，需要更昂贵、专业的采集设备，并且有很多可调参数，具有很高的门槛。对于遮挡、光照变化、姿态变化等问题，传统方法的鲁棒性不好；

3)很难捕获细节，比如皮肤纹理或细微的面部特征；

4）3D模型的创建和渲染，需要较长的时间周期和处理时间，与可以通过继续学习和适应新数据的深度学习模型相比，传统方法可能缺乏自适应性。

基于此，本发明提出了一种单视图人体三维重建方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有人体三维重建方法重建的精度、效率鲁棒性较差的问题，本发明提出了一种单视图人体三维重建方法，该方法包括：

获取包含待三维重建人体的图像，作为全尺寸图像；

对所述全尺寸图像进行人体检测与人体区域分割，将分割得到的区域图像作为输入图像；

将所述输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像；

所述人体三维重建模型包括粗粒度重建单元、精细重建单元；

所述粗粒度重建单元包括Transformer网络、回归网络、人体参数化网络；所述人体参数化网络用于根据提取的3D人体参数以及相机参数生成人体3D模型；

所述精细重建单元包括第一残差神经网络、第一加法器、全连接层、第二残差神经网络、第二加法器、多层感知机。

在一些优选的实施方式中，所述粗粒度重建单元对所述输入图像的处理过程为：

通过所述Transformer网络对所述输入图像依次进行Embedding、位置编码，将位置编码后的特征向量，作为第一向量；

将所述第一向量输入所述回归网络进行3D人体参数以及相机参数的提取；所述相机参数包括缩放参数、旋转参数、平移参数；所述3D人体参数包括形态参数、设定人体关键关节点对应的姿态参数；

将所述3D人体参数和所述相机参数输入所述人体参数化网络，生成人体3D模型，作为第一人体模型。

在一些优选的实施方式中，所述回归网络为3D回归网络；所述3D回归网络包含有N个网络层，每个网络层包含设定数量的神经元，且每个网络层后连接一个drop-out层；

所述3D回归网络为迭代执行的网络，即经过设定次迭代后，再将所述3D回归网络的输出输入至所述人体参数化网络；

其中，所述3D回归网络每次迭代的过程为：将所述Transformer网络输出的第一向量以及所述3D回归网络第t次迭代输出的相机参数，输入所述3D回归网络，计算第t+1次迭代时所述相机参数的残差；

将第t+1次迭代时计算的残差与第t次迭代输出的相机参数相加，作为第t+1次迭代时所述3D回归网络输出的相机参数。

在一些优选的实施方式中，所述精细重建单元对所述输入图像的处理过程为：

通过所述第一残差神经网络提取所述输入图像的特征，作为第一特征；

提取各体素点在所述输入图像中的二维投影点的深度；将所述深度与所述第一特征输入所述第一加法器进行特征融合，将融合后的特征作为第二特征；

对所述第一人体模型进行三维体素化，得到三维体素人体；

将所述三维体素人体输入所述第二残差神经网络进行特征提取，得到第三特征；其中，所述第二残差神经网络输入的特征维度与所述第一加法器输出的特征维度相同；

将所述第二特征经过所述全连接层处理后，与所述第三特征输入所述第二加法器进行特征融合，将融合后的特征作为第四特征；

将所述第四特征输入所述多层感知机，得到各体素点的预测值，进而重建人体三维图像。

在一些优选的实施方式中，所述人体三维重建模型，其在训练过程中的损失函数为：

其中，表示总损失，/>表示正交投影损失，/>表示3D人体损失，/>表示第一残差损失，/>表示第二残差损失，/>表示全连接损失，/>表示多层感知损失，是/>是否存在的指示函数，即/>存在的话，/>，否则/>，/>是第/>个2D人体关键关节点的可见性，/>是第/>个2D人体关键关节点的预测值，/>是第/>个2D人体关键关节点的真值，/>表示下标，/>是所有2D人体关键关节点的损失之和，/>是正交投影，S是缩放参数，R是旋转参数，T是平移参数，/>表示人体关键关节点，/>是二维的人体关键关节点的预测值，/>、/>分别表示第/>个3D人体关键关节点的真值、预测值，/>、/>分别表示姿态参数的真值、形态参数的真值，/>、/>分别表示姿态参数的预测值、形态参数的预测值，第一残差损失为基于所述第一残差神经网络的输出与对应的真值，通过MSE损失函数计算的损失值，第二残差损失为基于所述第二残差神经网络的输出与对应的真值，通过MSE损失函数计算的损失值，全连接损失为基于所述全连接层的输出与对应的真值，通过MSE损失函数计算的损失值，多层感知损失为基于所述多层感知机的输出与对应的真值，通过MSE损失函数计算的损失值，/>是3D人体关节损失，/>是3D人体姿态参数和形态参数的损失。

在一些优选的实施方式中，所述粗粒度重建单元，其训练方法为：

获取包含待三维重建人体的图像，作为全尺寸图像；

对所述全尺寸图像进行人体检测与人体区域分割，并对分割得到的区域图像进行尺寸调整，将尺寸调整后的区域图像作为训练样本；所述训练样本标注有关键关节点的位置；

将所述训练样本逐像素的输入所述Transformer网络中，并对所述训练样本掩码设定百分比的像素点，通过所述Transformer网络对像素点掩码后的训练样本进行补全，基于补全后的训练样本、所述Transformer网络输入的训练样本，计算损失值，进而训练所述Transformer网络的KQV矩阵；

循环对所述Transformer网络训练，直至训练完成；

重新获取训练样本，输入训练完成的Transformer网络，将所述训练完成的Transformer网络的输出，输入所述3D回归网络进行3D人体参数以及相机参数的提取；

将所述3D人体参数和所述相机参数输入所述人体参数化网络，生成人体3D模型，作为第一人体模型，进而计算，更新所述3D回归网络的网络参数。

在一些优选的实施方式中，所述第一残差神经网络基于2D的残差网络构建；所述第二残差神经网络基于3D的残差网络构建。

本发明的第二方面，提出了一种单视图人体三维重建方法，该方法包括：

获取包含待三维重建人体的图像，作为全尺寸图像；

所述人体三维重建模型包括Transformer网络、回归网络、人体参数化网络、判别器；所述人体参数化网络用于根据提取的3D人体参数以及相机参数生成人体3D模型。

在一些优选的实施方式中，将所述输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像，其方法为：

对所述人体关节关键点对应的参数输入所述判别器进行判别，当判别结果为真，则将所述3D人体参数和所述相机参数输入所述人体参数化网络，生成人体3D模型，进而重建人体三维图像。

在一些优选的实施方式中，所述判别器包括形态判别器、姿态判别器和整体判别器；

所述形态判别器，基于第一设定层数的神经网络构建；所述形态判别器，用于判断所述形态参数的真假；

所述姿态判别器，基于第二设定层数的神经网络构建；将所述设定人体关键关节点对应的姿态参数通过罗德里格旋转公式进行转换，得到旋转矩阵；将各旋转矩阵输入全连接网络处理，处理后，分别发送至对应的姿态判别器得到所述设定人体关键关节点对应的姿态参数的真假；

所述整体判别器，基于第三设定层数的神经网络构建；将所有的设定人体关键关节点对应的姿态参数输入所述整体判别器，进而得到整体形态参数的真假；

其中，所述第一设定层数的神经网络、所述第二设定层数的神经网络、所述第三设定层数的神经网络均包含有输入层、隐藏层、输出层。

本发明的有益效果：

本发明提升了人体三维重建的精度、效率鲁棒性。

1）本发明通过粗粒度重建单元构建待重建人体的粗模，对粗模进行三维体素化，然后结合各体素点的深度信息，通过精细重建单元对图像中的人体进一步重建，进而得到精度较高的人体三维图像；

2）本发明通过Transformer获取局部图像的所有信息，输入回归网络，通过迭代执行回归网络，根据残差更新回归网络提取的人体关节关键点以及相机参数，可以得到更精确的人体参数，进而提升人体三维重建的鲁棒性。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1 是本发明第一实施例的单视图人体三维重建方法的流程示意图；

图2为本发明第三实施例的单视图人体三维重建系统的框架示意图；

图3是本发明第一实施例中的人体三维重建模型的结构示意图；

图4是本发明第二实施例中的人体三维重建模型的结构示意图；

图5是本发明一种实施例的适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明第一实施例的一种单视图人体三维重建方法，如图1所示，该方法包括：

获取包含待三维重建人体的图像，作为全尺寸图像；

为了更清晰地对本发明一种单视图人体三维重建方法进行说明，下面结合附图，对本发明方法一种实施例中各步骤进行展开详述。

在下述实施例中，先对通过单视图人体三维重建方法重建人体三维图像的过程进行描述，再对人体三维重建模型的训练过程进行描述。

1、单视图人体三维重建方法

获取包含待三维重建人体的图像，作为全尺寸图像；

在本实施例中，获取包含待三维重建人体的图像，作为全尺寸图像，全尺寸图像可以是任意分辨率。

在本实施例中，优选使用目标检测与分割网络对全尺寸图像进行人体检测与人体区域分割，将图像中的人体剪裁出来，剪裁后的图像作为输入图像，分辨率优选设置为256*256。其中，目标检测与分割网络可以为FCOS（Fully Convolutional One-Stage ObjectDetection）、MaskR-CNN、PolarMask、DeMT（Deformable Mixer Transformer for Multi-Task Learning of Dense Prediction）等等，在其他实施例中，也可以选取其他的网络作为目标检测与分割网络。如图3所示。

另外，本发明中还包括对图像超分辨率的重构，可以选取Restormer、EnhanceNet等网络，也可以选取其他的网络进行重建。

重构的过程为：对于图像中人体包围盒（即分割的人体区域）小于256*256，则需要对原始图片进行超分辨率重建。比如人体包围盒为200*50，则其最大正方形包围区域为200*200，小于256*256，因此需要对原始尺寸按照256/200来调整原始图片的分辨率。

对于图像中人体包围盒大于256*256，则需要对原始图像（即输入图像）进行Resize（调整大小）。比如人体包围盒式300*50，其最大正方形包围区域为300*300，大约256*256，因此需要对原始尺寸图片Resize，使得人体包围区域的最大边长为256。

将所述输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像。

在本实施例中，人体三维重建模型包括粗粒度重建单元、精细重建单元；

1）粗粒度重建单元包括Transformer网络、回归网络、人体参数化网络；人体参数化网络用于根据提取的3D人体参数以及相机参数生成人体3D模型；

粗粒度重建单元对所述输入图像的处理过程为：

在本发明中，按照超像素（即优选4个相邻向量组成的田字形像素组）对256*256的输入图片分组，形成64组，然后Embedding（编码）和位置编码。Embedding就是对超像素转换成特征向量，位置编码采用二维编码结构，比如(3,32)表示横向第3个，纵向第32个对应的超像素。Transformer的输出也是64个特征向量，记为。

在本发明中，回归网络优选为3D回归网络用于推断3D人体参数，即人体关节关键点（包括和/>，其中/>是人的姿态pose，比如体操中的各种动作姿势，姿态与人体关节息息相关，本发明优选选取23个关键关节；/>是形态shape，就是高矮胖瘦等等身体形态，一共选取10个形态参数）和相机参数（包括S、R和T，其中S – Scale缩放， R – Rotation旋转，T –Translation平移）。3D回归网络优选采用N（本发明优先为5）层网络结构（即网络层），从输入层到输出层，各层神经元的数量分别优选设置为：64/1024/1024/1024/23，每层后接一个drop-out层，激活函数优选采用ReLU，输出的是23个85维的特征向量。3D回归网络是迭代执行的，将Transformer输出的图像特征/>，以及当前t时刻的3D人体参数/>，一起输入到回归网络，输出残差/>，因此t+1时刻的3D人体参数/>，如此进行设定次（本发明中优选为3次）迭代，其中初始参数取均值/>，其中，/>是一个85维向量，表示人体的1个关键关节，一共23个。即3D回归网络每次迭代的过程为：将所述Transformer网络输出的第一向量以及所述3D回归网络第t次迭代输出的相机参数，输入所述3D回归网络，计算第t+1次迭代时所述相机参数的残差；将第t+1次迭代时计算的残差与第t次迭代输出的相机参数相加，作为第t+1次迭代时所述3D回归网络输出的相机参数。

在本发明中，人体参数化网络用于根据提取的3D人体参数以及相机参数生成人体3D模型；本发明中优选人体参数化网络为SMPL，SMPL（A skinned multi-person linearmodel）是参数化的人体3D模型，提供了一个可微分的函数，从3D人体扫描中学习，SMPL输入是23个关节姿态（Pose，每个姿态有3个旋转自由度，包括Pitch/Roll/Yaw）参数和10个形态（shape）参数。其中，设定人体关键关节点对应的姿态参数包括根关节（root joint，即骨盆）的全局旋转，以及23个铰接关节的局部旋转。，其中的J表示Joint关节，/>表示k个关节，可以通过网格顶点的线性组合得到，即/>，其中M是k个关节的预训练稀疏矩阵，V是网格顶点，SMPL输出一个6890个顶点的3D Mesh。

在其他实施例中可以用SMPL-H，SMPL-X、STAR等等作为人体参数化网络，具体根据实际情况进行选取。

采用弱透视相机，输入23个到人体参数化网络，就可以生成一个人体3D模型。此时构建的人体3D模型为一个粗模，将粗模输入精细重建单元（也可以称之为人体隐函数）生成精模。

2）精细重建单元包括第一残差神经网络、第一加法器、全连接层、第二残差神经网络、第二加法器、多层感知机。

精细重建单元对所述输入图像的处理过程为：

在本发明中，第一残差神经网络基于2D的残差网络构建，优选为2D-ResNet。第一残差神经网络对输入图像进行特征提取（即位置编码），得到各体素点在输入图像中二维投影像素点的特征向量。

在本发明中，先提取各体素点在所述输入图像中的二维投影点的深度Z(X)，X为三维人体点，即经过采样后的体素点。

优选两种方法求解深度：一种是通过计算透视相机参数，另一种是使用神经网络获取，在其他实施例中，可以根据实际情况选取其他的方法求解深度。

将提取的深度与各体素点在输入图像中二维投影像素点的特征向量（即第一特征）输入第一加法器进行融合，即直接扩容，比如2D-ResNet是64维向量，经过加法器后直接输出65维特征向量。

对所述第一人体模型进行三维体素化，得到三维体素人体；

在本发明中，第二残差神经网络基于3D的残差网络构建，优选为3D-ResNet。第二残差神经网络输入的特征维度与第一加法器输出的特征维度相同。这是全连接层的作用，让两个特征向量维度相同，以便后续加法操作，比如3D-ResNet是64维特征向量，则全连接后的特征向量也应该为64维特征向量。

在本发明中，第二加法器直接特征向量按位相加，得到同一个维度的特征向量。

在本发明中，将通过加法器的特征向量输入多层感知机，最终预测体素点在人体模型表面的内或外，进而重建人体三维图像。

2、人体三维重建模型的训练过程

在本发明中，人体三维重建模型，其在训练过程中的损失函数为：

（1）

（2）

（3）

（4）

（5）

（6）

其中，表示总损失，/>表示正交投影损失，/>表示3D人体损失，/>表示第一残差损失，/>表示第二残差损失，/>表示全连接损失，/>表示多层感知损失，是/>是否存在的指示函数，即/>存在的话，/>，否则/>，/>是第/>个2D人体关键关节点的可见性，可见取1，反之取0，/>是第/>个2D人体关键关节点的预测值，/>是第/>个2D人体关键关节点的真值，/>表示下标，/>是所有2D人体关键关节点的损失之和，/>是正交投影，S是缩放参数，R是旋转参数，T是平移参数，/>表示人体关键关节点，/>是二维的人体关键关节点的预测值，/>、/>分别表示第/>个3D人体关键关节点的真值、预测值，/>、/>分别表示姿态参数的真值、形态参数的真值，/>、/>分别表示姿态参数的预测值、形态参数的预测值，第一残差损失为基于所述第一残差神经网络的输出与对应的真值，通过MSE损失函数计算的损失值，第二残差损失为基于所述第二残差神经网络的输出与对应的真值，通过MSE损失函数计算的损失值，全连接损失为基于所述全连接层的输出与对应的真值，通过MSE损失函数计算的损失值，多层感知损失为基于所述多层感知机的输出与对应的真值，通过MSE损失函数计算的损失值，/>是3D人体关节损失，/>是3D人体姿态参数和形态参数的损失。

其中，粗粒度重建单元，其训练方法为：

获取包含待三维重建人体的图像，作为全尺寸图像；

对所述全尺寸图像进行人体检测与人体区域分割，并对分割得到的区域图像进行尺寸调整（Resize），将尺寸调整后的区域图像作为训练样本；所述训练样本标注有关键关节点的位置；

在本实施例中，通过2D目标检测方法，比如Mask R-CNN，通过2D包围框来将人体分割出来。然后Resize到指定尺寸，比如512*512，以便于所有输入图像的尺寸一致。Resize的方法比如：现将裁剪图以高度缩放到512，此时裁剪图的宽度一般远小于512，可以通过填充空白背景的方式，将宽度补全到512，从而生成分辨率一致的输入图片。

将所述训练样本逐像素的输入所述Transformer网络中，并对所述训练样本掩码设定百分比的像素点，通过所述Transformer网络对像素点掩码后的训练样本进行补全，基于补全后的训练样本、所述Transformer网络输入的训练样本，计算损失值，进而训练所述Transformer网络的KQV矩阵。

在本实施例中，Transformer网络训练优选采用随机掩码（mask）15%进行，比如输入是完整的图片，随机掩码15%后，让Transformer把掩码的15%给补全出来，然后与原始完整图片（即网络输入的训练样本）进行像素比对，从而训练Transformer的KQV矩阵（）。损失函数采用Transformer自己的交叉熵损失+L2正则化损失即可。

循环对所述Transformer网络训练，直至训练完成；

在本实施例中，掩码是为了训练Transformer，而Transformer作为自注意力机制的网络，需要通过Transformer来输出特征向量之间相互关系的特征向量，这个是要输入到回归网路中的。

具体来说要分成两步：

第1步需要先训练好Transformer，训练时的输出是不传入回归网络的，训练需要掩码，计算Transformer的损失函数，调整KQV权重矩阵；

第2步是使用Transformer，需要用Transformer生成一个具有注意力效果的特征向量，并将这个特征向量输入到回归网络中。

精细重建单元，其训练方法为：

将训练样本输入，直接基于各层的输出与对应的真值，通过MSE损失函数计算损失值进行更新即可，MSE损失函数为现有技术，此处不再一一详述。

本发明第二实施例的一种单视图人体三维重建方法，该方法包括：

获取包含待三维重建人体的图像，作为全尺寸图像；

所述人体三维重建模型包括Transformer网络、回归网络、人体参数化网络以及判别器；所述人体参数化网络用于根据提取的3D人体参数以及相机参数生成人体3D模型；

本实施例中，人体三维重建模型与实施例一中的模型的粗粒度重建单元仅多了一个判别器。如图4所示。

判别器以便于将明显错误的数据（比如关节异常弯曲的参数）剔除，只有判别器的结果是真时，其参数才能作为SMPL的输入，否则将优化训练回归网络，从而起到弱监督的作用。另外，还要输入已经有的人体3D模型库，作为真值，用于判断人体参数。

本发明优选了25个判别器，1个用于判断形态（shape）参数，23个用于判断23个关键关节的姿态（pose）参数/>，还有1个是整体判别器，用于判断整体形态参数和设定人体关键关节点对应的姿态参数的正确性（具体为：判别器最后一层是Sigmoid激活函数，输出的一个概率值，这个概率值就是输入参数是否是真实人体参数的真实程度，越高越真实，本发明优选采用90%概率值作为一个阈值，超过这个阈值，就说明判别的结果是真的（具体为下述的形态判别器、姿态判别器和整体判别器输出的概率均大于90%，则认为判别结果为真，如果有一个达不到，那就说明生成的数据有问题，比如形态达不到，那可能形态就出现了扭曲，不符合真实情况），否则为假的，需要重新将输入图像输入人体三维重建模型进行处理）。

形态判别器由第一设定层数的（本发明优先为3层）神经网络构成，输入层有第一数量个（本发明优选为10个）神经元，对应10种形态；隐藏层有第二数量个（本发明优选5个）神经元，输出层有第三数量个（本发明优选1个）神经元，用于输出真或假，所有神经元之间采用全连接，用ReLU作为激活函数。形态判别器，用于判断所述形态参数的真假；

姿态判别器由第二设定层数的（本发明优先为3层）神经网络构成，输入层有第四数量个（本发明优选9个）神经元，隐藏层有第五数量个（本发明优选32个）神经元，输出层有第六数量个（本发明优选1个）神经元，用于输出真或假，所有神经元之间采用全连接，用ReLU作为激活函数。

设定人体关键关节点对应的姿态参数通过罗德里格旋转公式（Rodrigues），将姿态转换为23个3*3旋转矩阵，每个旋转矩阵输入到全连接网络中，将输出结果发送到23个不同的鉴别器中，输出真或假。姿态判别器用于判别设定人体关键关节点对应的姿态参数的真假；

将23个32维特征向量作为整体判别器的输入，整体判别器由第三设定层数的（本发明优先为4层）神经网络构成，输入层有第七数量个（本发明优选23个）神经元，隐藏层优选设置有2层，每层有1024个神经元，输出层优选设置有1个神经元，用于输出真或假，即整体形态参数的真假，所有神经元之间采用全连接，用ReLU作为激活函数。将所有的设定人体关键关节点对应的姿态参数输入所述整体判别器，进而得到整体形态参数的真假。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的第二实施例中的具体工作过程及有关说明，可以参考前述第一实施例中的对应过程，在此不再赘述。

本发明第三实施例的一种单视图人体三维重建系统，该系统包括：

图像获取模块100，配置为获取包含待三维重建人体的图像，作为全尺寸图像；

人体检测与分割模块110，配置为对所述全尺寸图像进行人体检测与人体区域分割，将分割得到的区域图像作为输入图像；

三维重建模块120，配置为将所述输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的第三实施例中的单视图人体三维重建系统的具体的工作过程及有关说明，可以参考前述第一实施例中的对应过程，在此不再赘述。

本发明第四实施例的一种单视图人体三维重建系统，该系统包括：

图像获取模块200，配置为获取包含待三维重建人体的图像，作为全尺寸图像；

人体检测与分割模块210，配置为对所述全尺寸图像进行人体检测与人体区域分割，将分割得到的区域图像作为输入图像；

三维重建模块220，配置为将所述输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像；

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述第二实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供第三实施例、第四实施例的单视图人体三维重建系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第五实施例的一种单视图人体三维重建设备，至少一个处理器；以及与至少一个所述处理器通信连接的存储器；其中，所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述第一实施例、第二实施例的单视图人体三维重建方法。

本发明第六实施例的一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述第一实施例、第二实施例的单视图人体三维重建方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的设备、计算机可读存储介质的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

下面参考图5，其示出了适于用来实现本申请方法、系统、设备以及计算机可读存储介质实施例的服务器的计算机系统的结构示意图。图5示出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)501，其可以根据存储在只读存储器(ROM，Read Only Memory)502中的程序或者从存储部分508加载到随机访问存储器(RAM，Random Access Memory)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O，Input/Output)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通讯部分509。通讯部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通讯部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU501执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、 “第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种单视图人体三维重建方法，其特征在于，该方法包括：

获取包含待三维重建人体的图像，作为全尺寸图像；

2.根据权利要求1所述的单视图人体三维重建方法，其特征在于，所述粗粒度重建单元对所述输入图像的处理过程为：

3.根据权利要求2所述的单视图人体三维重建方法，其特征在于，所述回归网络为3D回归网络；所述3D回归网络包含有N个网络层，每个网络层包含设定数量的神经元，且每个网络层后连接一个drop-out层；

4.根据权利要求2所述的单视图人体三维重建方法，其特征在于，所述精细重建单元对所述输入图像的处理过程为：

对所述第一人体模型进行三维体素化，得到三维体素人体；

5.根据权利要求4所述的单视图人体三维重建方法，其特征在于，所述人体三维重建模型，其在训练过程中的损失函数为：

；

其中，表示总损失，/>表示正交投影损失，/>表示3D人体损失，/>表示第一残差损失，/>表示第二残差损失，/>表示全连接损失，/>表示多层感知损失，/>是是否存在的指示函数，即/>存在的话，/>，否则/>，/>是第/>个2D人体关键关节点的可见性，/>是第/>个2D人体关键关节点的预测值，/>是第/>个2D人体关键关节点的真值，/>表示下标，/>是所有2D人体关键关节点的损失之和，/>是正交投影，S是缩放参数，R是旋转参数，T是平移参数，/>表示人体关键关节点，/>是二维的人体关键关节点的预测值，/>、/>分别表示第/>个3D人体关键关节点的真值、预测值，/>、/>分别表示姿态参数的真值、形态参数的真值，/>、/>分别表示姿态参数的预测值、形态参数的预测值，第一残差损失为基于所述第一残差神经网络的输出与对应的真值，通过MSE损失函数计算的损失值，第二残差损失为基于所述第二残差神经网络的输出与对应的真值，通过MSE损失函数计算的损失值，全连接损失为基于所述全连接层的输出与对应的真值，通过MSE损失函数计算的损失值，多层感知损失为基于所述多层感知机的输出与对应的真值，通过MSE损失函数计算的损失值，/>是3D人体关节损失，/>是3D人体姿态参数和形态参数的损失。

6.根据权利要求5所述的单视图人体三维重建方法，其特征在于，所述粗粒度重建单元，其训练方法为：

获取包含待三维重建人体的图像，作为全尺寸图像；

循环对所述Transformer网络训练，直至训练完成；

7.根据权利要求4所述的单视图人体三维重建方法，其特征在于，所述第一残差神经网络基于2D的残差网络构建；所述第二残差神经网络基于3D的残差网络构建。

8.一种单视图人体三维重建方法，其特征在于，该方法包括：

获取包含待三维重建人体的图像，作为全尺寸图像；

9.根据权利要求8所述的单视图人体三维重建方法，其特征在于，将所述输入图像输入训练好的人体三维重建模型，得到重建后的人体三维图像，其方法为：

对所述3D人体参数输入所述判别器进行判别，当判别结果为真，则将所述3D人体参数和所述相机参数输入所述人体参数化网络，生成人体3D模型，进而重建人体三维图像。

10.根据权利要求9所述的单视图人体三维重建方法，其特征在于，所述判别器包括形态判别器、姿态判别器和整体判别器；