CN115346018A

CN115346018A - 三维模型重建方法及装置、电子设备

Info

Publication number: CN115346018A
Application number: CN202210956378.3A
Authority: CN
Inventors: 苏明兰; 张超颖; 刘巧俏
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-15

Abstract

本公开实施例是关于一种三维模型重建方法及装置、电子设备，涉及人工智能技术领域，该方法包括：获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。本公开能够提高遮挡场景下重建的三维人体模型的准确性。

Description

三维模型重建方法及装置、电子设备

技术领域

本公开实施例涉及人工智能技术领域，具体而言，涉及一种三维模型重建方法、三维模型重建装置以及电子设备。

背景技术

在元世界中构造真实的三维人体模型以构建虚拟数字人的过程中，可能会出现多人聚集场景而导致的人与人之间彼此遮挡的问题。

相关技术中，基于参数化的重建思路，通过预测人体模板的参数，在基础对象模型上进行形变，实现目标对象的三维重建。上述方式中，对象模板的方法仅对对象本身进行建模，具有一定的局限性，并且得到的模型的准确性较差，难以实现全面精准重建。

需要说明的是，在上述背景技术部分发明的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种三维模型重建方法、三维模型重建装置以及电子设备，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的重建的三维人体模型准确性低的问题。

根据本公开的一个方面，提供一种三维模型重建方法，包括：获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

在本公开的一种示例性实施例中，所述基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型，包括：通过体素估计网络对所述实例分割图中目标对象对应的实例进行体素重建，获取所述体素重建模型；其中，所述体素估计网络根据三维重建损失以及轮廓遮挡损失训练得到。

在本公开的一种示例性实施例中，所述通过体素估计模型对所述实例分割图中目标对象对应的实例进行体素重建，获取所述体素重建模型，包括：通过体素估计模型确定所述目标对象对应的实例的每个体素是否位于三维对象模型，以确定存在状态；若所述存在状态为所述体素位于所述三维对象模型，则根据所述体素构建所述体素重建模型。

在本公开的一种示例性实施例中，所述将所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建，包括：将所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行融合，得到第一混合特征；基于隐式函数对所述第一混合特征进行预测，获取所述三维点的所述占用值，以确定所述三维点是否在目标网格内。

在本公开的一种示例性实施例中，所述方法还包括：基于预测占用值与真实占用值之间的差值，对所述预测占用值以及真实占用值进行监督。

在本公开的一种示例性实施例中，在生成所述三维人体模型后，所述方法还包括：获取所述待处理图像对应的第二混合特征；根据所述全局深度特征以及所述第二混合特征，对所述三维人体模型进行方位估计，确定所述三维人体模型的方位信息。

在本公开的一种示例性实施例中，所述获取所述待处理图像对应的第二混合特征，包括：对所述实例分割图中的每个实例进行特征提取，得到实例特征；获取与所述实例对应的局部深度图，并基于所述局部深度图获取局部深度特征；将所述局部深度特征以及所述实例特征进行融合，得到第二混合特征。

在本公开的一种示例性实施例中，所述根据全局深度特征以及所述第二混合特征，对所述三维人体模型进行方位估计，确定所述三维人体模型的方位信息，包括：对所述全局深度特征以及所述第二混合特征进行卷积操作，并对卷积结果进行全连接操作，以获取所述目标对象的方位信息。

根据本公开的一个方面，提供一种三维模型重建装置，包括：实例分割模块，用于获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；体素重建模块，用于基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；隐式重建模块，用于对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；三维重建模块，用于基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的三维模型重建方法。

本公开实施例中提供的三维模型重建方法、三维模型重建装置以及电子设备中，一方面，基于实例分割图对待处理图像中的目标对象进行体素三维重建，来减少遮挡、姿态对于重建的影响，进一步可以将体素重建模型输出的体素特征、待处理图像对应的图像特征以及深度图对应的全局深度特征共同作为输入，拟合计算三维点的占用值，并基于占用值对应的三维点构建目标对象的三维人体模型，能够重建遮挡的不可见部分的模型，且通过隐式重建表示细化表面纹理，提高在遮挡场景下重建三维人体模型的准确性，实现三维人体模型的精细化重建。另一方面，避免了相关技术中无法重建全部表征的局限性，提高了全面性，增加了应用范围和真实性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开实施例的相关技术中三维模型重建方法的流程图。

图2示意性示出本公开实施例的一种三维模型重建方法的流程图。

图3示意性示出本公开实施例进行体素重建的示意图。

图4示意性示出本公开实施例获取三维点的占用值的具体流程图。

图5示意性示出本公开实施例重建三维人体模型的流程示意图。

图6示意性示出本公开实施例获取第二混合特征的流程示意图。

图7示意性示出本公开实施例预测三维人体模型的方位信息的流程示意图。

图8示意性示出本公开实施例三维模型重建的流程示意图。

图9示意性示出本公开实施例三维模型重建装置的框图示意图。

图10示意性示出本公开实施例电子设备的框图示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

相关技术中，现有的单视图多人重建方法是基于参数化的重建思路，通过预测人体模板SMPL(Skinned Multi-Person Linear)的参数，在基础人体模型上进行形变，实现目标人体的三维重建。参考图1中所示，具体步骤可以包括：步骤S101，获取待处理图像；步骤S102，通过目标检测网络进行特征提取；步骤S103，将特征输入至SMPL参数回归；步骤S104，得到纹理细节缺失的三维人体模型；步骤S105，进行几何约束损失；步骤S106，与阈值进行对比，并返回至SMPL参数回归继续执行；步骤S106，重建完成。该方法存在以下问题：基于人体模板的方法仅对人体本身进行建模，不能很好的重建表面衣物、头发等模板中不存在的人物相关表征；多人场景下人与人之间容易出现互相遮挡的现象，因此不能实现人与人之间相对空间位置关系的重建。

本公开实施例中，为了解决上述技术问题，提供了一种三维模型重建方法。参考图2中所示，该三维模型重建方法主要包括以下步骤：

在步骤S210中，获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；

在步骤S220中，基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；

在步骤S230中，对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；

在步骤S140中，基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

其中，在姿态、衣物、头发具有较大形变以及遮挡时，体素3D重建仍能表现出较好的重建性能。因此首先基于体素估计网络对输入的目标对象进行体素重建，得到体素重建模型。进一步地，由于体素重建输出分辨率较低，无法重建表面纹理细节。因此需要对体素重建模型进行二次细节，补充更加精细的纹理细节。具体地，分别从体素三维模型提取体素特征、从待处理图像提取图像特征以及从待处理图像对应的深度图提取全局深度特征，根据体素特征、图像特征以及全局深度特征生成第一混合特征，然后基于隐式函数对第一混合特征预测三维点的占用值，以根据三维点的占用值决定该三维点是否在目标网格内，并根据处于目标网格内的所有三维点来构建三维人体模型。

接下来，参考图2中所示对本公开实施例中的三维模型重建方法的具体步骤进行解释说明。

在步骤S210中，获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图。

本公开实施例中，可以应用于增强现实或者是虚拟现实场景中，在存在这档情况时进行三维建模的场景，也可以应用于其他应用场景。待处理图像中可以存在多个对象，对象例如可以为人物、动物、车辆或者是其他任意类型的物体，此处以对象为人体为例进行说明。待处理图像中可以包含多个人体，且多个人体之间由于运动状态或者是外界环境状态，可能导致在姿态、服饰以及头发等各个维度发生较大形变从而使得多个对象之间存在遮挡状态。待处理图像可以为预设场景中的图像，预设场景例如可以为遮挡场景。遮挡场景可以理解为待处理图像中的多个对象之间存在部分重叠区域。

可以获取待处理图像的深度图，深度图是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，深度图中每个像素值代表的是物体到相机平面的距离，可用于反映物体可见表面的几何形状。深度图可以由深度相机拍摄得到，也可以为深度估计编码器对每一个像素进行处理得到。本公开实施例中，可以通过深度估计编码器获取整个待处理图像的深度图。

在多人遮挡场景中，可以对待处理图像进行实例分割，从而得到待处理图像对应的实例分割图。目标对象可以为待处理图像中包含的每一个对象，每一个对象均可以通过实例分割得到一个实例。实例分割是针对图像中的每个对象而进行，且多个对象可能属于同一个类别。基于此，实例分割指的是在对象检测的基础上进一步细化，分离对象的前景与背景，实现像素级别的对象分离。实例分割用于分割出同一个类别中的不同实例的物体，也可以认为一个对象均会分割出一个实例。在一些实施例中，实例分割可以对待处理图像中包含的每个对象都用不同的颜色表示，而且把每个对象从背景中分离出来。示例性地，可以通过任意一个实例分割网络来进行实例分割，实例分割网络可以为Mask-RCNN实例分割网络，也可以为其他任意类型的实例分割网络，此处不作具体限定。

在步骤S220中，基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型。

本公开实施例中，在姿态、服饰、头发具有较大形变以及遮挡时，体素3D重建仍能表现出较好的重建性能。因此首先基于体素3D估计网络预测输入的目标对象的体素三维模型。

体素是三维空间中的概念，是数字数据于三维空间分割上的最小单位，且体素本身不含有位置信息，只需确定体素之间的相对距离。体素法通过描述物体在空间中的实体区域来表示其几何形状。

可以将待处理图像对应的三维空间切割成一系列体素，例如将128*128*128的三维空间切割为多个1*1*1的体素。基于所述实例分割图对所述待处理图像中的目标对象进行体素重建时，可以通过体素估计网络判断目标对象的体素是否在三维人体模型上。进一步可以根据体素的存在状态来构建体素重建模型。存在状态可以为位于三维人体模型或未位于三维人体模型。基于此，若存在状态为位于三维人体模型，则可以根据位于三维人体模型的体素获取体素重建模型。如此重复，可以根据体素估计网络对每一个体素的存在状态进行判断，进而基于存在状态，根据所有位于三维人体模型的体素来构建体素重建模型。

本公开实施例中，可以基于体素估计网络输出目标对象对应的实例的体素重建模型。体素重建模型可以为构建的目标对象的未包含细节的初始三维模型。为了避免相关技术中的技术问题，本公开实施例中的体素估计网络可以根据三维重建损失以及轮廓遮挡损失训练得到。在一些实施例中，根据所述三维重建损失以及轮廓遮挡损失共同确定损失函数，并以损失函数最小为训练目标，对体素估计网络的网络参数进行调整，以训练体素估计网络。损失函数可以根据三维点在体素网格中的占用值以及预测占用值、真实图像轮廓以及可见度指标与渲染图像轮廓的乘积进行加权求和得到。损失函数具体可以参考公式(1)中所示：

其中，O_p表示三维点P在体素网格中的占用值，

表示三维点P在体素网格中的预测占用值，

是渲染的图像轮廓，Sⁱ是真实的图像轮廓，m是可见度指标。可见度指标用于表示渲染的图像轮廓的可见度。

本公开实施例中，可以样本体素的实际信息以及样本体素的预测信息作为输入，以损失函数最小为训练目标，对体素估计网络的网络参数进行更新，得到训练好的网络作为用于进行体素重建的体素估计网络。实际信息用于表示体素是否处于三维人体模型上的真实占用值，预测信息用于表示预测得到的体素是否处于三维人体模型上的占用值。通过在原有三维重建损失的基础上引入轮廓遮挡损失来计算损失函数，进而根据损失函数来训练体素估计网络，能够在原有三维模型的基础上引入轮廓遮挡，从基础以及轮廓遮挡情况等多个维度共同进行体素重建，能够提升遮挡场景下的重建效果。

举例而言，参考图3中所示，可以对遮挡场景中待处理图像包含的3个对象分别进行体素重建，以得到每个对象对应的体素重建模型。待处理图像包含的3个对象之间存在互相遮挡。其中，对象310与体素重建模型311对应，对象320与体素重建模型321对应，对象330与体素重建模型331对应。每个对象构建体素重建模型的方式相同，此处不再赘述。

本公开实施例中，通过在原有三维重建损失的基础上引入轮廓遮挡损失来计算损失函数，进而根据损失函数来训练体素估计网络，能够提高体素估计网络的准确性，进而能够提高目标对象的体素重建模型的精准性，能够提升遮挡场景下的重建效果。

在步骤S230中，对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建。

本公开实施例中，在得到体素重建模型之后，由于体素重建模型输出的分辨率较低，难以重建表面纹理细节，因此需要对体素重建模型所表示的表面模型进行细节重建，以补充更加精细的纹理等细节。

其中，可以结合体素重建模型对应的体素特征、待处理图像中目标对象的图像特征以及深度图对应的全局深度特征来进行拟合计算，以获取每个三维点的占用值，从而在体素重建的基础上进行隐式重建。图4中示意性示出了获取三维点的占用值的流程图，参考图4中所示，主要包括以下步骤：

在步骤S410中，将所述体素重建模型对应的体素特征、所述待处理图像的图像特征以及所述深度图对应的全局深度特征进行融合，得到第一混合特征；

在步骤S420中，基于隐式函数对所述第一混合特征进行预测，获取所述三维点的所述占用值，以确定所述三维点是否在目标网格内。

在一些实施例中，可以从体素重建模型中获取体素特征、从待处理图像获取图像特征，并从深度图获取全局深度特征。体素特征可以为从体素重建模型图像中提取的与体素有关的特征，图像特征指的是图像本身的基本特征，全局深度特征指的是更深层、更为抽象的特征。

进一步地，可以将体素特征、图像特征以及全局深度特征进行融合，得到第一混合特征。示例性地，可以通过卷积操作对体素特征、图像特征以及全局深度特征进行融合，得到包含不同维度特征的第一混合特征。

在得到第一混合特征之后，可以将第一混合特征输入至隐式函数，通过隐式函数对第一混合特征进行拟合预测，预测三维点的占用值。隐式函数可以为任意合适的用于计算占用值的函数，占用值用于表示三维点是否在目标网格内。通过隐式函数进行拟合预测，可以理解为用任意合适的隐式函数拟合三维人体的曲面。为了提高准确性，在通过隐式函数来对三维点的占用值进行拟合计算的过程中，可以基于样本三维点的预测占用值以及真实占用值之间的差值构成的损失函数来对预测占用值和真实占用值进行监督，也可以理解为根据预测占用值与真实占用值构成的损失函数来更新隐式函数的参数，以训练隐式函数，得到更加准确的占用值，提高准确性。示例性地，在对隐式函数进行训练的过程中，可以根据样本三维点的真实占用值对预测占用值进行监督，以实现有监督的隐式函数训练过程。具体可以根据样本三维点的真实占用值以及预测占用值的差值对预测占用值进行监督，以调整隐式函数的参数。举例而言，若对于样本三维点A而言，其真实占用值为B，预测占用值为B’，则可以根据真实占用值以及预测占用值的差值构成的损失函数来对预测占用值进行监督，损失函数可以如公式(2)所示：

在步骤S240中，基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

本公开实施例中，在得到三维点的占用值之后，可以根据该占用值判断三维点是否处于目标网格内，目标网格可以为上述描述的体素网格。占用值可以用于表示体素网格是否被三维点的至少部分所占用。示例性地，当占用值为满足预设条件时，可以认为处于目标网格内；当占用值不满足预设条件时，可以认为未处于目标网格内。满足预设条件可以包括但不限于：大于阈值、等于阈值、处于阈值范围内的任意一种，此处不作限定。

进一步地，若根据占用值确定三维点处于目标网格内，则根据由占用值表示的处于目标网格内的三维点对待处理图像中的目标对象进行三维重建，进一步根据所有处于目标网格内的三维点(即根据满足预设条件的所有三维点)对待处理图像的目标对象进行三维重建，从而得到目标对象的三维人体模型。此处的三维人体模型可以为存在纹理信息等细节信息的三维人体模型。需要说明的是，对于待处理图像中的所有目标对象而言，均可以通过步骤S210至步骤S240中的方式来构建对应的三维人体模型，从而得到每个对象的三维人体模型，即得到多人模型。

本公开实施例中，由于可以结合体素特征、图像特征以及全局深度特征来共同补充细节信息，在没有任何人工干预的情况下处理来自单个图像的复杂姿势、衣物和部分遮挡的情况，结合体素重建模型获取三维点的占用值，从而提高三维人体模型的准确性，实现单视角下精准的三维人体模型重建。

图5中示意性示出了进行三维人体重建的流程图，参考图5中所示，主要包括以下步骤：

在步骤S510中，获取待处理图像。具体可以为遮挡场景的待处理图像，例如遮挡场景下拍摄的当前帧图像。

在步骤S520中，获取待处理图像对应的深度图以及实例分割图。

在步骤S530中，根据实例分割图进行体素重建，得到体素重建模型。

在步骤S540中，从深度图获取全局深度特征、从待处理图像获取图像特征，从体素重建模型获取体素特征。

在步骤S550中，将所述体素重建模型对应的体素特征、所述图像特征以及所述深度图对应的全局深度特征进行融合，得到第一混合特征。

在步骤S560中，将第一混合特征进行三维重建，得到三维人体模型。

图5中的技术方案，相对于基于SMPL模板的多人三维重建方法而言，首先基于体素表示，处理姿态、衣物、头发的形变以得到体素重建模型，进一步在体素重建模型的基础上使用隐式表示细化表面纹理，以获得更高质量的纹理表面重建。该方法能够重建被遮挡的不可见部分，还能够实现表面纹理的精细化重建，提高了可靠性和完整性、全面性，不仅可以克服多人遮挡场景对于三维人体重建的影响，还最大限度地保留了人物的服装、头发等纹理细节，应用场景更加广泛，具有良好的实用性。

本公开实施例中，在获取待处理图像中每个目标图像的三维人体模型后，为了保证重建后人物空间位置、方向在不同视角下的一致性，需要预测每一个三维人体的在多个自由度的空间位置、方向，因此还可以确定三维人体模型的方位信息，以预测每个目标对象对应的三维人体模型的空间位置和方向，对目标对象以及他们在彼此遮挡的场景中的空间位置、方向进行空间连贯的隐式重建，实现多人之间相对空间位置关系的重建。多个自由度指的是多个维度，例如可以为3DOF、6DOF或者是9DOF中的任意一种，具体根据实际需求而确定，此处以多个自由度为6DOF为例进行说明。在一些实施例中，可以获取待处理图像中目标对象的第二混合特征；根据全局深度特征以及所述第二混合特征，对所述目标对象进行方位估计预测，确定所述三维人体模型的方位信息。

图6示意性示出了确定第二混合特征的流程图，参考图6中所示，主要包括以下步骤：

在步骤S610中，对所述实例分割图中的每个实例进行特征提取，得到实例特征；

在步骤S620中，获取与所述实例对应的深度图，并基于所述深度图获取局部深度特征；

在步骤S630中，将所述局部深度特征以及所述实例特征进行融合，得到第二混合特征。

本公开实施例中，首先可以对实例分割得到的实例分割图中，每个目标对象的实例进行特征提取，得到实例特征。示例性地，可以对于分割得到的每一个实例，基于卷积神经网络进行特征提取，得到每个实例的实例特征。

接下来，可以在深度图中分别裁剪得到与每个实例对应的局部深度图，并基于PointNet网络从局部深度图中进行特征提取，得到局部深度特征。由于每个实例不同，因此每个实例对应的局部深度图可能不同。举例而言，可以基于每个实例对深度图分别进行裁剪，得到实例1对应的局部深度图1、实例2对应的局部深度图2等等。PointNet使用了分层抽取特征的思想，分为三部分：采样层、分组层、特征提取层。首先采样层为了从稠密的点云中抽取出一些相对较为重要的中心点，采用FPS(farthest point sampling)最远点采样法。分组层在上一层提取出的中心点的某个范围内寻找最近个k近邻点组成patch。特征提取层是将这k个点通过小型PointNet网络进行卷积和池化得到的特征作为此中心点的特征，再送入下一个分层继续，以得到每个实例的局部深度特征。

进一步地，可以将局部深度特征以及实例特征进行融合得到第二混合特征。第二混合特征能够用于进行方位估计，且第二混合特征与第一混合特征的生成方式不同。第一混合特征是根据体素特征、图像特征以及全局深度特征组成的整体混合特征。第二混合特征是根据局部深度特征以及实例特征组成的局部混合特征，即每一个实例对应的局部混合特征。示例性地，可以将局部深度特征以及实例特征输入至混合网络进行卷积操作，实现对局部深度特征以及实例特征的融合，得到第二混合特征。第二混合特征可以为像素级的混合特征。

在得到第二混合特征后，可以根据由深度图获取的全局深度特征以及第二混合特征对目标对象进行方位估计，得到三维人体模型的方位信息。方位信息可以包括但不限于空间位置以及方向。示例性地，可通过方位估计网络对全局深度特征以及第二混合特征进行处理。方位估计网络可以包含卷积网络以及全连接网络。基于此，可以通过卷积网络对全局深度特征以及第一混合特征进行卷积操作得到卷积结果，并通过全连接网络对卷积结果进行全连接操作，从而将每个维度的参数进行组合获取三维人体模型的方位信息。卷积结果可以为一个维度的参数(一个自由度的参数)，用于表示在一个维度的方位信息，进一步可通过全连接网络将所有维度的参数进行全连接操作以进行组合，得到多维度的方位信息。多维度的方位信息例如可以为6自由度(6DOF)的空间位置以及方向。

本公开实施例中，通过深度图获取的全局深度特征以及，每个实例的实例特征和对应的局部深度特征融合得到的第二混合特征来进行每个三维人体模型的方位估计，能够提高三维人体模型的方位信息的准确性和全面性。

图7示意性示出了获取三维人体模型的方位信息的流程图，参考图7中所示，主要包括以下步骤：

在步骤S710中，获取待处理图像。

在步骤S720中，获取待处理图像对应的深度图以及实例分割图。

在步骤S730中，根据实例分割图进行实例特征提取，并根据深度图进行局部深度特征提取。示例性地，可以对实例分割图中的每个实例进行特征提取得到实例特征；按照深度图中每个实例将深度图切割为局部深度图，并从局部深度图中进行特征提取得到局部深度特征。

在步骤S740中，将从深度图获取的局部深度特征、以及从实例分割图获取的实例特征进行融合，得到第二混合特征。

在步骤S750中，将从所述深度图获取的全局深度特征以及第二混合特征进行预测，得到三维人体模型的方位信息。此处的全局深度特征可以为从整个深度图获取的深度特征，第二混合特征中包含目标对象的局部深度特征以及实例特征，方位信息可以为待处理图像中目标对象对应的三维人体模型的空间位置以及方向。

本公开实施例中，融合了局部深度特征与实例特征，并采用全局深度特征来改进方位估计的过程，在遮挡场景下实现了对三维人体模型的空间位置以及方向的精确预测，提高了三维人体模型的方位估计的准确性。在遮挡场景下，能够保证重建后的三维人体模型的空间位置以及方向在不同视角观察下的一致性。

图8中示意性示出了三维模型重建的具体流程图，三维模型重建主要包括两个阶段：其中第一阶段包含实例分割以及深度处理，以确定输入的待处理图像的实例分割图以及深度图。在第一阶段采用多任务的方式来预估实例分割结果和目标人物的深度信息，提取遮挡场景下目标对象之间相对的空间位置信息。第二阶段主要用于实现三维人体模型重建以及三维人体模型的方位估计。实例分割图和深度图被用于第二阶段的多任务学习中。第一个学习任务是在复杂姿势、衣物和部分遮挡下，实现精细化的三维人体重建。第二个学习任务则是通过局部、以及全局深度信息来对输入实例进行6DOF空间位置以及方向预测。

参考图8中所示，第一阶段主要包含步骤S802以及步骤S803，第二阶段主要包括步骤S804以及步骤S805。具体而言，整个流程可以包括以下步骤：

步骤S801，获取待处理图像。

步骤S802，将待处理图像输入至实例分割编码器，得到实例分割图。

步骤S803，将待处理图像输入至深度估计编码器，得到深度图。其中，深度估计编码器可以与实例分割编码器共享权重。共享权重指的是实例分割编码器和深度估计编码器在遍历整个待处理图像时，实例分割编码器以及深度估计编码器的参数是固定不变的，即整个图像的所有元素都共享了相同的权值，从而可以减少计算复杂度，提高处理效率。

步骤S804，通过实例分割图以及深度图进行隐式三维人体重建，得到每个目标对象的三维人体模型。首先对目标对象进行体素3D重建，来减少遮挡、姿态对于重建的影响，然后将体素重建结果、图像特征以及全局深度特征共同作为输入，在混合特征表示中预测3D点的占用值，实现更加精确的二次隐式重建。三维人体模型的重建过程参考图5中的步骤所示，此处不再进行赘述。

步骤S805，通过深度图以及实例分割图对三维人体模型进行方位估计，得到三维人体模型的方位信息。获取三维人体模型的方位信息的具体过程参考图7中的步骤所示，此处不再赘述。

步骤S806，循环执行三维人体重建以及三维人体模型的方位估计过程，实现多人重建。

本公开实施例中，基于上述三维重建的流程图，可以通过实例分割模块、深度估计模块、三维人体重建模块以及人体空间位置、方向估计模块来实现遮挡状态下每个目标对象的三维人体模型的重建过程，并且能够重建表面衣物、头发等模板中不存在的人物相关表征。通过多任务学习的方法，分阶段优化的策略在复杂姿势、衣物和部分遮挡下，实现单视角精细化的三维人体重建，不仅可以克服多人遮挡场景对于三维人体重建的影响，还最大限度地保留了人物的服装、头发等纹理细节，提高准确性和全面性。除此之外，实现了不同对象之间的相对空间位置关系的重建，能准确预测遮挡场景下的三维人体模型的方位信息，应用场景更加广泛，具有良好的实用性。

本公开实施例中的技术方案，首先对目标对象进行体素重建，来减少遮挡、姿态对于重建的影响；然后将体素重建模型、图像特征以及全局深度特征共同作为输入，在混合特征表示中预测三维点的占用值，以根据三维点的占用值，基于处于目标网格的三维点构建目标对象的三维人体模型，实现更加精确的二次隐式重建表示细化表面纹理，以获得更高质量的纹理表面重建。该方法不仅能可靠的重建被遮挡的不可见部分，还能够实现表面纹理的精细化重建。不仅可以克服多人遮挡场景对于三维人体重建的影响，还最大限度地保留了人物的服装、头发等纹理细节，因此提高了三维人体模型重建的准确性和全面性。除此之外，还可以根据实例分割图以及深度图等对三维人体模型的方位进行估计，通过估计的6DOF空间位置、方向实现对于多个对象之间相对空间位置关系的重建，还可以对目标人物以及他们在彼此遮挡的场景中的6DOF空间位置、方向进行空间连贯的隐式重建，在遮挡场景下，保证重建后人物空间位置、方向在不同视角下的一致性，提高重建后模型的准确性，提高了三维人体模型与真实场景的匹配性，增加了遮挡场景下三维人体模型的真实性。

本公开还提供了一种三维模型重建装置。参考图9所示，该三维模型重建方法900主要包括以下模块：

实例分割模块901，用于获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；

体素重建模块902，用于基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；

隐式重建模块903，用于对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；

三维重建模块904，用于基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

需要说明的是，上述三维模型重建装置中各模块的具体细节已经在对应的三维模型重建方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图10来描述根据本公开的这种实施方式的电子设备1000。图10显示的电子设备1000仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图10所示，电子设备1000以通用计算设备的形式表现。电子设备1000的组件可以包括但不限于：上述至少一个处理单元1010、上述至少一个存储单元1020、连接不同系统组件(包括存储单元1020和处理单元1010)的总线1030以及显示单元1040。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1010执行，使得所述处理单元1010执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元1010可以执行如图2中所示的步骤。

存储单元1020可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)10201和/或高速缓存存储单元10202，还可以进一步包括只读存储单元(ROM)10203。

存储单元1020还可以包括具有一组(至少一个)程序模块10205的程序/实用工具10204，这样的程序模块10205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线1030可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1000也可以与一个或多个外部设备1100(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1000交互的设备通信，和/或与使得该电子设备1000能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且，电子设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1060通过总线1030与电子设备1000的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1000使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者电子设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里发明的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种三维模型重建方法，其特征在于，包括：

获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；

基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；

对所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；

基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

2.根据权利要求1所述的三维模型重建方法，其特征在于，所述基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型，包括：

通过体素估计网络对所述实例分割图中目标对象对应的实例进行体素重建，获取所述体素重建模型；

其中，所述体素估计网络根据三维重建损失以及轮廓遮挡损失训练得到。

3.根据权利要求2所述的三维模型重建方法，其特征在于，所述通过体素估计模型对所述实例分割图中目标对象对应的实例进行体素重建，获取所述体素重建模型，包括：

通过体素估计模型确定所述目标对象对应的实例的每个体素是否位于三维对象模型，以确定存在状态；

若所述存在状态为所述体素位于所述三维对象模型，则根据所述体素构建所述体素重建模型。

4.根据权利要求1所述的三维模型重建方法，其特征在于，所述将所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建，包括：

将所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行融合，得到第一混合特征；

基于隐式函数对所述第一混合特征进行预测，获取所述三维点的所述占用值，以确定所述三维点是否在目标网格内。

5.根据权利要求4所述的三维模型重建方法，其特征在于，所述方法还包括：

基于预测占用值与真实占用值之间的差值，对所述预测占用值以及真实占用值进行监督。

6.根据权利要求1所述的三维模型重建方法，其特征在于，在生成所述三维人体模型后，所述方法还包括：

获取所述待处理图像对应的第二混合特征；

根据所述全局深度特征以及所述第二混合特征，对所述三维人体模型进行方位估计，确定所述三维人体模型的方位信息。

7.根据权利要求6所述的三维模型重建方法，其特征在于，所述获取所述待处理图像对应的第二混合特征，包括：

对所述实例分割图中的每个实例进行特征提取，得到实例特征；

获取与所述实例对应的局部深度图，并基于所述局部深度图获取局部深度特征；

将所述局部深度特征以及所述实例特征进行融合，得到第二混合特征。

8.根据权利要求6所述的三维模型重建方法，其特征在于，所述根据全局深度特征以及所述第二混合特征，对所述三维人体模型进行方位估计，确定所述三维人体模型的方位信息，包括：

对所述全局深度特征以及所述第二混合特征进行卷积操作，并对卷积结果进行全连接操作，以获取所述目标对象的方位信息。

9.一种三维模型重建装置，其特征在于，包括：

实例分割模块，用于获取待处理图像的深度图，并对待处理图像进行实例分割得到实例分割图；

体素重建模块，用于基于所述实例分割图对所述待处理图像中的目标对象进行体素重建，获取体素重建模型；

隐式重建模块，用于将所述体素重建模型对应的体素特征、所述待处理图像对应的图像特征以及所述深度图对应的全局深度特征进行拟合计算，获取三维点的占用值以进行隐式重建；

三维重建模块，用于基于所述三维点的所述占用值对所述待处理图像中的目标对象进行三维重建，获取所述目标对象的三维人体模型。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至8中任一项所述的三维模型重建方法。