CN116486009A

CN116486009A - 单目三维人体重建方法、装置以及电子设备

Info

Publication number: CN116486009A
Application number: CN202310440944.XA
Authority: CN
Inventors: 王磊; 胡龙华; 陈恭斌; 马晓亮; 程俊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-25

Abstract

本申请涉及计算机视觉技术领域，公开了一种单目三维人体重建方法、装置以及电子设备，所述方法利用预先训练好的掩码自编码器处理目标图像，获取人体特征，使得所述人体特征的鲁棒性较好；根据所述鲁棒性较好的人体特征提取三维人体特征，以及根据所述鲁棒性较好的人体特征进行二维人体分割，获得二维人体特征；然后利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数；根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。可以降低单目三维重建的误差，具有较好的泛化能力，对真实场景遮挡情况依然有较好的效果。

Description

单目三维人体重建方法、装置以及电子设备

技术领域

本申请涉及计算机视觉技术领域，具体涉及一种单目三维人体重建方法、装置以及电子设备。

背景技术

相对于深度相机或多视角重建，单目三维重建因缺少深度信息而更困难。单目三维人体重建常常将此作为模型参数学习问题，将3D人体模型拟合到图像的2D关键点，以获得3D人体估计。基于回归的方法包括对人体参数化模型和非参数(例如回归顶点坐标)进行回归。基于深度神经网络的三维人体重建方法有卷积神经网络(Convolutional NeuralNetworks，简称ConvNets)、HMR(A.Kanazawa,M.J.Black,D.W.Jacobs and J.Malik等人在名称为“End-to-End Recovery of Human Shape and Pose”的文献中所使用的方法)、SPIN(N.Kolotouros,G.Pavlakos,M.Black and K.Daniilidis等人在名称为“Learning toReconstruct 3D Human Pose and Shape via Model-Fitting in the Loop”的文献中所使用的方法)、SMPLify-x(G.Pavlakos等人在名称为“Expressive Body Capture:3DHands,Face,and Body from a Single Image”的文献中所使用的方法)、EFT(H.Joo,N.Neverova and A.Vedaldi等人在名称为“Exemplar Fine-Tuning for 3D Human ModelFitting Towards In-the-Wild 3D Human Pose Estimation”的文献中所使用的方法)等。

HMR使用卷积编码器从单目2D图像中提取特征，然后回归SMPL模型的3D网格参数，生成由形状和3D关节角度参数化的网格表示；SPIN(循环中的SMPL优化)基于回归和优化两种范式使用回归结果作为优化过程的初始值，优化结果为网络提供监督，以此将训练转为迭代优化程序；EFT将网络解释为3D关节的重新参数化作为网络函数利用2D关节和RGB图像进行估计；ConvNets通过卷积神经网络预测人体关节点信息和轮廓，作为推断SMPL模型姿势和形状参数的输入；基于图神经网络(GNN)的方法对SMPL模型拓扑进行编码，并将网络提取的特征嵌入网格顶点，然后通过GNN层进行迭代优化；基于纹理映射到3D空间的方法将2D图像特征转换为纹理映射空间，并在纹理空间(3D网格纹理映射的2D空间)中明确建立网格和局部图像特征；SMPLify-x采用变分自动编码器进行姿态先验学习，使SMPL-X模型适合身体、手和脸的二维特征。

上述现有技术中，单目三维重建常常会受遮挡问题影响，导致遮挡部分关节姿态预测不准确；由于复杂的姿态空间，现有技术处理真实场景的泛化能力需提高。

发明内容

本申请实施例提供了一种单目三维人体重建方法，以解决现有技术中，单目三维重建常常会受遮挡问题影响，导致遮挡部分关节姿态预测不准确的问题；以及由于复杂的姿态空间，现有技术处理真实场景的泛化能力需提高的问题。

相应的，本申请实施例还提供了一种单目三维人体重建装置、一种人体骨骼关节点数据及标注信息生成装置、一种电子设备，用于保证上述方法的实现及应用。

为了解决上述技术问题，本申请实施例公开了一种单目三维人体重建方法，所述方法包括：

利用预先训练好的掩码自编码器处理目标图像，获取人体特征；

根据所述人体特征提取三维人体特征，以及根据所述人体特征进行二维人体分割，获得二维人体特征；

利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数；

根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。

本申请实施例还公开了一种单目三维人体重建装置，所述装置包括：

特征提取模块，用于利用预先训练好的掩码自编码器处理目标图像，获取人体特征；

混合编码模块，用于根据所述人体特征提取三维人体特征，以及根据所述人体特征进行二维人体分割，获得二维人体特征；

参数回归模块，用于利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数；

参数回归模块，还用于根据所述关节的姿态参数和身体形状参数建立人体模型。

本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现本申请实施例中一个或多个所述的方法。

本申请实施例还公开了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如本申请实施例中一个或多个所述的方法。

本申请实施例中，利用预先训练好的掩码自编码器处理目标图像，获取人体特征，使得所述人体特征的鲁棒性较好；根据所述鲁棒性较好的人体特征提取三维人体特征，以及根据所述鲁棒性较好的人体特征进行二维人体分割，获得二维人体特征；然后利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数；根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。可以降低单目三维重建的误差，具有较好的泛化能力，对真实场景遮挡情况依然有较好的效果。

本申请实施例附加的方面和优点将在下面的描述部分中给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例提供的单目三维人体重建方法的流程图；

图2为本申请实施例提供的单目三维人体重建方法的示意图；

图3为本申请实施例提供的提取三维人体特征的结构示意图；

图4为本申请实施例提供的获取二维人体特征的结构示意图；

图5为本申请实施例提供的真实场景图像遮挡下三维重建的主观视觉效果图；

图6为本申请实施例提供的不同方法对遮挡图像的三维重建效果对比图；

图7为本申请实施例提供的单目三维重建装置的结构示意图；

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请实施例所提供的方案可以由任一电子设备执行，如可以是终端设备，也可以是服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。对于现有技术中所存在的技术问题，本申请提供的单目三维人体重建方法、装置以及电子设备，旨在解决现有技术的技术问题中的至少一项。

下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种可能的实现方式，如图1所示，提供了一种单目三维人体重建方法的流程图，该方案可以由任一电子设备执行，可选的，可以在服务器端或终端设备执行，为描述方便，下面以服务器作为执行主体对本申请实施例提供的方法进行说明。

如图1中所示，该方法可以包括以下步骤：

步骤101，利用预先训练好的掩码自编码器处理目标图像，获取人体特征。

本实施例中将待进行重构的二维图像作为目标图像，将目标图像输入训练好的掩码自编码器。其中，在训练掩码自编码器的过程中，编码器将输入的目标图像映射到隐空间，解码器从隐空间重构出原图像，本实施例采用非对称结构，编码器可以对输入信号部分掩码，而只保留部分信号，解码器通过部分信号的隐空间重构出完整信息，因此通过训练使编码器尽可能的学习图像精确有效的特征。进而，利用训练好的掩码自编码器处理目标图像，可以获得较为精准的人体特征。

步骤102，根据所述人体特征提取三维人体特征，以及根据所述人体特征进行二维人体分割，获得二维人体特征。

其中，所述三维人体特征的参数包括：高度、宽度和通道数；所述二维人体特征包括高度、宽度以及关节数，所述二维特征中每个像素存储其属于人体部分的概率。

可选地，将所述三维人体特征展开成一维的第一人体向量；将所述二维人体特征展开成一维的第二人体向量。

步骤103，利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数。

可选地，可以将第一人体向量和第二人体向量融合，生成融合人体向量；所述的融合人体向量为最终提取得到的人体特征向量。通过多层感知机对融合人体向量进场参数回归处理，得到所有关节的姿态参数和身体形状参数。

步骤104,根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。

可以通过形状姿态混合函数计算所述姿态参数和所述身体形状参数，得到SMPL人体模型。

作为第一示例，图2示出了一种单目三维人体重建方法的示意图，所述的三维人体重建方法的流程可以分为三个部分，分别为特征提取模块、混合编码模块以及参数回归模块。具体地，参照图2，在特征提取模块，将目标图像输入掩码自编码器中，获得人体特征

在混合编码模块，将所述人体特征进行卷积处理后分别进行图像空间特征(即三维人体特征)提取，以及2D身体部分分割预测(即进行二维人体分割)；分别得到三维人体特征F和二维人体特征P。其中，图2中所示的H为高度、W为宽度、C为通道数、J为关节数，且所述二维人体特征P中每个像素存储其属于身体部分的概率。将三维人体特征F展开成一维的第一人体向量/>将二维人体特征展开成一维的第二人体向量/>

在参数回归模块，将第一人体向量和第二人体向量/>根据下述的公式进行融合处理，进而得到融合人体向量F'：

根据多层感知器层(MLP)对融合人体向量F'进行参数回归处理，得到J个关节的姿态参数θ₁,θ₂,θ₃,…,θ_J，和身体形状参数β；并通过形状姿态混合函数处理J个关节的姿态参数和身体形状参数，得到SMPL人体模型。

在一个可选的实施例中，所述利用预先训练好的掩码自编码器处理目标图像，获取人体特征之前，所述方法还包括：

将训练图像输入掩码自编码网络，并利用掩码正则化项训练掩码自编码网络，获得解码重构图像和训练好的掩码自编码器；

所述掩码正则化项为：

其中，X_MAE和分别表示训练图像和解码重构图像。

所述的训练图像为掩码图像，将掩码图像输入掩码编码器网络，利用自编码提取特征，使用这些特征监督训练过程，称为掩码混合注意力监督学习。通过掩码编码器网络强迫训练过程中掩码图像去近似原始图像，使掩码编码器网络更有益于三维人体重建的特征，称为掩码正则化项。

在一个可选的实施例中，所述根据所述人体特征提取三维人体特征，包括：

对所述人体特征进行二维反卷积处理，获得所述三维人体特征。

作为第二示例，参照图3，输入特征(即人体特征)的大小为196×16×16，可以对输入特征进行三次二维反卷积处理，最后获得128×226×226的输出特征(即三维人体特征)。

可选地，可以对输入的人体特征进行三次通道拆分，以减少计算量，提升训练速度。三次通道拆分分别在三次二维反卷积处理之前进行，且在最后一次二维反卷积处理之后进行通道合并，最后输出特征，即输入三维人体特征。

在一个可选的实施例中，所述对所述人体特征进行二维反卷积处理，获得所述三维人体特征，包括：

将所述人体特征依次经过反卷积处理、归一化处理以及激活函数处理，获得所述三维人体特征。

结合上述第二示例，参照图3，具体参照图3中的三维人体特征提取分支(3D BodyBranch)，对输入的人体特征进行二维反卷积处理的具体实现包括：对大小为196×16×16的输入特征(即人体特征)进行反卷积处理(Deconvolution)，输出196×32×32的第一次3D特征，将第一次3D特征进行归一化处理(BatchNorm)，输出196×32×32的第二次3D特征；利用线性整流函数(Rectified Linear Unit,ReLU)处理第二次3D特征，获得196×32×32的输出特征(即三维人体特征)。其中，若要经过多次二维反卷积处理，则将上一次二维反卷积的输出特征作为本次二维反卷积处理的输入特征。并且将最后一次二维反卷积的输出特征作为三维人体特征。

在一个可选的实施例中，所述根据所述人体特征进行二维人体分割，获得二维人体特征，包括：

对所述人体特征进行上采样，获得所述人体二维特征。

作为第三示例，参照图4，输入特征(即人体特征)的大小为196×16×16，可以对输入特征进行三次上采样，最后获得128×226×226的输出特征(即二维人体特征)。

可选地，可以对输入的人体特征进行三次通道拆分，以减少计算量，提升训练速度。三次通道拆分分别在三次上采样之前进行，且在最后一次上采样之后进行通道合并，最后输出特征，即输入二维人体特征。

在一个可选的实施例中，所述对所述人体特征进行上采样，获得所述人体二维特征，包括：

将所述人体特征依次经过双线性差值处理、卷积及二维转置处理、归一化处理以及激活函数处理，获得所述二维人体特征。

结合上述第三示例，参照图4，具体参照二维特征分割分支(2D Part Branch)对输入的人体特征进行上采样的具体实现包括：对大小为196×16×16的输入特征(即人体特征)进行双线性差值处理(Bilinear 2X)，输出196×32×32的第一次2D特征，将第一次2D特征进行反卷积处理(ConvTranspose2d)，输出128×64×64的第二次2D特征；利用归一化处理(BatchNorm)第二次2D特征，获得196×32×32的第三次2D特征；利用线性整流函数(Rectified Linear Unit,ReLU)处理第三次2D特征，获得196×32×32的输出特征(即二维人体特征)。其中，若要经过多次上采样，则将上一次上采样的输出特征作为本次上采样的输入特征。并且将最后一次上采样的输出特征作为二维人体特征。

在一个可选的实施例中，所述根据所述关节的姿态参数和身体形状参数获得SMPL人体模型，还包括：

通过所述SMPL人体模型获得三维关节位置；

通过预设相机参数和正交映射获得二维关节位置。

结合上述第一示例，参照图2，可以根据SMPL人体模型得到三维关节位置J_3D。再通过预设的相机参数和正交映射Π得到二维关节位置J_2D。

在一个可选的实施例中，所述方法还包括：

利用代价函数计算损失；所述代价函数为：

L＝λ₀L_2D+λ₁L_3D+λ₂L_SMPL+λ₃L_P+λ₄L_MAE；

其中，L_2D为根据所述二维关节位置获得的二维关节损失；L_3D为根据所述三维关节位置获得的三维关节损失；L_MAE为掩码区域特征的损失；L_SMPL为根据所述姿态参数和所述身体形状参数获得的形状与姿态损失；L_P为根据所述人体特征进行二维人体分割过程中的人体部分分割损失；λ_i、λ₁、λ₂、λ₃和λ₄均为权重系数。

结合上述第一示例，参照图2，根据所述二维关节位置获得的二维关节损失L_2D，具体为：

其中，X_2D为二维关节位置；为标注样本中的二维关节位置。

根据所述三维关节位置获得的三维关节损失L_3D，具体为：

其中，X_3D为三维关节位置；为标注样本中的三维关节位置。

根据所述SMPL人体模型获得重构图像，将所述重构图像与所述目标图像(输入的原图像)在掩码区域的像素误差作为掩码区域特征的损失L_MAE；

根据所述姿态参数和所述身体形状参数获得的形状与姿态损失L_SMPL，具体为：

其中，β和θ分别表示SMPL人体模型的身体形状参数和姿态参数。

根据所述人体特征进行二维人体分割过程中的人体部分分割损失L_P，具体为：

其中，H为所述二维人体特征的高度；W为所述二维人体特征的宽度；P_h,w为在位置(h,w)的人体部分预测概率；为人体部分的标签。

表1为本申请实施例中单目三维重建方法中的生成网络参数：

表1.生成网络参数

输入	层	卷积核	输出
				(3,224,224)	1	(16,16)	(196,768)
(196,768)	2	(1,1)	(196,256)
				(196,16,16)	3	(16,16)	(128,34,34)
(128,34,34)	4	(16,16)	(128,70,70)
				(128,70,70)	5	(16,16)	(128,226,226)
(128,226,226)	6	(3,3)	(128,228,228)
				(128,228,228)	7	(1,1)	(24,226,226)
(196,16,16)	8	(16,16)	(128,33,33)
				(128,33,33)	9	(16,16)	(128,67,67)
(128,67,67)	10	(16,16)	(128,226,226)
				(196,1,1)	11	(16,16)	(128,8,8)
(128,8,8)	12	(16,16)	(128,18,18)
				(128,18,18)	13	(16,16)	(128,40,40)
(24,3,3)	14	(1,1)	(49,3)

表3为不同方法对3DPW数据集的关节误差与顶点误差对比。实验数据为平均每关节位置误差(MPJPE)、Procrustes-aligned的平均每个关节位置误差(PA-MPJPE)和顶点误差(PVE)。由数据可以看出，本申请实施例中的方法优于其他方法。

表2.各方法对3DPW数据集的关节误差与顶点误差对比

其中，表2中的HMR-temporal为A.Kanazawa,M.J.Black,D.W.Jacobs and J.Malik等人在名称为“End-to-End Recovery of Human Shape and Pose”的文献中所使用的方法；

VIBE为M.Kocabas,N.Athanasiou and M.J.Black等人在名称为“VIBE:VideoInference for Human Body Pose and Shape Estimation”的文献中所使用的方法；

MEVA为Z.Luo,S.A.Golestaneh,K.M.Kitani等人在名称为“3D Human MotionEstimation via Motion Compression and Refinement”的文献中所使用的方法；

Pose2Mesh为H.Choi,G.Moon,and K.M.Lee等人在名称为“Pose2Mesh:Graphconvolutional network for 3D human pose and mesh recovery from a 2D humanpose”的文献中所使用的方法；

Zanfir为Andrei Zanfir,Eduard Gabriel Bazavan,Hongyi Xu等人在名称为“Weakly supervised 3d human pose and shape reconstruction with normalizingflows”的文献中所使用的方法；

I2L-MeshNet为Gyeongsik Moon and Kyoung Mu Lee等人在名称为“I2L-MeshNet:Image-to-lixel prediction network for accurate 3d human pose and meshestimation from a single rgb image”的文献中所使用的方法；

HMR为A.Kanazawa,M.J.Black,D.W.Jacobs and J.Malik等人在名称为“End-to-End Recovery of Human Shape and Pose”的文献中所使用的方法；

CMR为N.Kolotouros,G.Pavlakos and K.Daniilidis等人在名称为“Convolutional Mesh Regression for Single-Image Human Shape Reconstruction”的文献中所使用的方法；

SPIN为N.Kolotouros,G.Pavlakos,M.Black and K.Daniilidis等人在名称为“Learning to Reconstruct 3D Human Pose and Shape via Model-Fitting in theLoop”的文献中所使用的方法；

HMR-EFT为H.Joo,N.Neverova and A.Vedaldi等人在名称为“Exemplar Fine-Tuning for3D Human Model Fitting Towards In-the-Wild 3D Human PoseEstimation”的文献中所使用的方法；

PARE为M.Kocabas,C.-H.P.Huang,O.Hilliges等人在名称为“Pare:Partattention regressor for 3d human body estimation”的文献中所使用的方法；

PARE w.3DPW为M.Kocabas,C.-H.P.Huang,O.Hilliges等人在名称为“Pare:Partattention regressor for 3d human body estimation”的文献中所使用的方法。

为进一步说明对遮挡的作用，进行实验，在3DPW-OCC遮挡数据集进行验证，实验结果如表3所示。

表3.不同方法对3DPW-OCC数据集的关节误差与顶点误差对比

下图所示为本发明方法对真实场景图像遮挡下三维重建的主观视觉效果，由图中可以看出本发明方法可以有效重构三维人体姿态而不受遮挡的影响。

其中，表3中的Zhang为Tianshu Zhang,Buzhen Huang,and YangangWang等人在名称为“Objectoccluded human shape and pose estimation from a single colorimage”的文献中所使用的方法；

PARE为M.Kocabas,C.-H.P.Huang,O.Hilliges,and M.J.Black等人在名称为“Pare:Part attention regressor for 3d human body estimation”的文献中所使用的方法。

根据上述表2和表3可知，本申请实施例中的单目三维重建方法降低了单目三维重建的平均每关节位置误差(MPJPE)、Procrustes-aligned的平均每个关节位置误差(PA-MPJPE)和顶点误差(PVE)，具有更好的泛化能力，对真实场景遮挡情况依然有较好的效果。

图5为本申请实施例提供的真实场景图像遮挡下三维重建的主观视觉效果图，由图5可以看出本申请实施例可以有效重构三维人体姿态而不受遮挡的影响。

图6为本申请实施例提供的不同方法对遮挡图像的三维重建效果对比图，由图6可以看出本申请实施例视觉效果较好，没有受严重遮挡的影响，较好的重构了原图像中的三维人体姿态。

其中，图6中的第一列为输入图像；第二列为SPIN方法(N.Kolotouros,G.Pavlakos,M.Black and K.Daniilidis等人在名称为“Learning to Reconstruct 3DHuman Pose and Shape via Model-Fitting in the Loop”的文献中所使用的方法)重构的图像；第三列为HMR-EFT方法(H.Joo,N.Neverova and A.Vedaldi等人在名称为“Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D HumanPose Estimation”的文献中所使用的方法)重构的图像；第四列为本申请实施例中方法重构的图像。

基于与本申请实施例所提供的方法相同的原理，本申请实施例还提供了一种单目三维重建装置，如图7所示，所述装置包括：

特征提取模块701，用于利用预先训练好的掩码自编码器处理目标图像，获取人体特征。

混合编码模块702，用于根据所述人体特征提取三维人体特征，以及根据所述人体特征进行二维人体分割，获得二维人体特征。

参数回归模块703，用于利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数。

参数回归模块703，还用于根据所述关节的姿态参数和身体形状参数建立人体模型。

在混合编码模块，将所述人体特征进行卷积处理后分别进行图像空间特征(即三维人体特征)提取，以及2D身体部分分割预测(即进行二维人体分割)；分别得到三维人体特征F和二维人体特征P。其中，图2中所示的H为高度、W为宽度、C为通道数、J为关节数，且所述二维人体特征P中每个像素存储其属于身体部分的概率。将三维人体特征F展开成一维的第一人体向量/>将二维人体特征展开成一维的第二人体向量/>/>

本申请实施例中，特征提取模块利用预先训练好的掩码自编码器处理目标图像，获取人体特征，使得所述人体特征的鲁棒性较好；混合编码模块根据所述鲁棒性较好的人体特征提取三维人体特征，以及根据所述鲁棒性较好的人体特征进行二维人体分割，获得二维人体特征；然后参数回归模块利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数；参数回归模块还根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。可以降低单目三维重建的误差，具有较好的泛化能力，对真实场景遮挡情况依然有较好的效果。

本申请一个可选实施例中，所述装置还包括：

所述掩码正则化项为：

其中，X_MAE和分别表示训练图像和解码重构图像。

本申请一个可选实施例中，所述混合编码模块702包括：

第一混合编码子模块，用于对所述人体特征进行二维反卷积处理，获得所述三维人体特征。

本申请一个可选实施例中，所述混合编码模块702还包括：

第二混合编码子模块，用于对所述人体特征进行上采样，获得所述人体二维特征。

本申请一个可选实施例中，所述参数回归模块703还包括：

第一参数回归模块子模块，用于通过所述SMPL人体模型获得三维关节位置；

第二参数回归子模块，用于通过预设相机参数和正交映射获得二维关节位置。

本申请一个可选实施例中，所述装置还包括：

损失模块，用于利用代价函数计算损失；所述代价函数为：

L＝λ₀L_2D+λ₁L_3D+λ₂L_SMPL+λ₃L_P+λ₄L_MAE；

本申请一个可选实施例中，所述第一混合编码子模块包括：

第一混合编码单元，用于将所述人体特征依次经过反卷积处理、归一化处理以及激活函数处理，获得所述三维人体特征。

本申请一个可选实施例中，所述第二混合编码子模块包括：

第二混合编码子单元，用于将所述人体特征依次经过双线性差值处理、卷积及二维转置处理、归一化处理以及激活函数处理，获得所述二维人体特征。

本申请实施例提供的单目三维重建装置能够实现图1至图6的方法实施例中实现的各个过程，为避免重复，这里不再赘述。

本申请实施例的单目三维重建装置可执行本申请实施例所提供的单目三维人体重建方法，其实现原理相类似，本申请各实施例中的单目三维重建装置中的各模块、单元所执行的动作是与本申请各实施例中的单目三维人体重建方法中的步骤相对应的，对于单目三维重建装置的各模块的详细功能描述具体可以参见前文中所示的对应的单目三维人体重建方法中的描述，此处不再赘述。

基于与本申请的实施例中所示的方法相同的原理，本申请实施例还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本申请任一可选实施例所示的单目三维人体重建方法。与现有技术相比，本申请提供的单目三维人体重建方法，利用预先训练好的掩码自编码器处理目标图像，获取人体特征，使得所述人体特征的鲁棒性较好；根据所述鲁棒性较好的人体特征提取三维人体特征，以及根据所述鲁棒性较好的人体特征进行二维人体分割，获得二维人体特征；然后利用多层感知其对所述三维人体特征和二维人体特征进行参数回归，获得关节的姿态参数和身体形状参数；根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。可以降低单目三维重建的误差，具有较好的泛化能力，对真实场景遮挡情况依然有较好的效果。

在一个可选实施例中，还提供了一种电子设备，如图8所示，图8所示的电子设备800可以为服务器，包括：处理器801和存储器803。其中，处理器801和存储器803相连，如通过总线802相连。可选地，电子设备800还可以包括收发器804。需要说明的是，实际应用中收发器804不限于一个，该电子设备800的结构并不构成对本申请实施例的限定。

处理器801可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器801也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线802可包括一通路，在上述组件之间传送信息。总线802可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器803可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器803用于存储执行本申请方案的应用程序代码，并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请提供的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，本申请上述的计算机可读存储介质还可以是计算机可读信号介质或者计算机可读存储介质与计算机可读存储介质的组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的单目三维人体重建方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定，例如，特征提取模块还可以被描述为“用于利用预先训练好的掩码自编码器处理目标图像，获取人体特征的特征提取模块”。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种单目三维人体重建方法，其特征在于，所述方法包括：

根据所述关节的姿态参数和身体形状参数获得SMPL人体模型。

2.根据权利要求1所述的单目三维重建方法，其特征在于，所述利用预先训练好的掩码自编码器处理目标图像，获取人体特征之前，所述方法还包括：

所述掩码正则化项为：

其中，X_MAE和分别表示训练图像和解码重构图像。

3.根据权利要求1所述的单目三维重建方法，其特征在于，所述根据所述人体特征提取三维人体特征，包括：

4.根据权利要求1所述的单目三维重建方法，其特征在于，所述根据所述人体特征进行二维人体分割，获得二维人体特征，包括：

对所述人体特征进行上采样，获得所述人体二维特征。

5.根据权利要求4所述的单目三维重建方法，其特征在于，所述根据所述关节的姿态参数和身体形状参数获得SMPL人体模型，还包括：

通过所述SMPL人体模型获得三维关节位置；

通过预设相机参数和正交映射获得二维关节位置。

6.根据权利要求5所述的单目三维重建方法，其特征在于，所述方法还包括：

利用代价函数计算损失；所述代价函数为：

L＝λ₀L_2D+λ₁L_3D+λ₂L_SMPL+λ₃L_P+λ₄L_MAE；

7.根据权利要求3所述的单目三维重建方法，其特征在于，所述对所述人体特征进行二维反卷积处理，获得所述三维人体特征，包括：

8.根据权利要求4所述的单目三维重建方法，其特征在于，所述对所述人体特征进行上采样，获得所述人体二维特征，包括：

9.一种单目三维人体重建装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法。