CN114419279A

CN114419279A - 三维对象生成方法及装置、存储介质和电子设备

Info

Publication number: CN114419279A
Application number: CN202210073904.1A
Authority: CN
Inventors: 陈立梁; 黄晗; 郭彦东
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-29

Abstract

本公开提供了一种三维对象生成方法、三维对象生成装置、计算机可读存储介质和电子设备，涉及计算机技术领域。该三维对象生成方法包括：获取原始图像，原始图像包含目标对象；利用原始图像，预测目标对象的至少两个深度图像，各深度图像针对目标对象的方向互不相同；将至少两个深度图像反投影到三维体素空间，利用三维体素空间中体素点的信息，生成目标对象的三维表面。本公开可以降低三维对象的构建成本。

Description

三维对象生成方法及装置、存储介质和电子设备

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种三维对象生成方法、三维对象生成装置、计算机可读存储介质和电子设备。

背景技术

随着游戏、增强现实、虚拟显示、机器人、制造等领域的发展，三维对象重建的需求越来越普遍。

目前，一些三维对象重建的方案中，需要采用例如Kinect的深度相机来获取深度数据，成本高。

发明内容

本公开提供一种三维对象生成方法、三维对象生成装置、计算机可读存储介质和电子设备，进而至少在一定程度上克服三维对象重建成本高的问题。

根据本公开的第一方面，提供了一种三维对象生成方法，包括：获取原始图像，原始图像包含目标对象；利用原始图像，预测目标对象的至少两个深度图像，各深度图像针对目标对象的方向互不相同；将至少两个深度图像反投影到三维体素空间，利用三维体素空间中体素点的信息，生成目标对象的三维表面。

根据本公开的第二方面，提供了一种三维对象生成装置，包括：图像获取模块，用于获取原始图像，原始图像包含目标对象；深度预测模块，用于利用原始图像，预测目标对象的至少两个深度图像，各深度图像针对目标对象的方向互不相同；表面生成模块，用于将至少两个深度图像反投影到三维体素空间，利用三维体素空间中体素点的信息，生成目标对象的三维表面。

根据本公开的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的三维对象生成方法。

根据本公开的第四方面，提供了一种电子设备，包括处理器；存储器，用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得所述处理器实现上述的三维对象生成方法。

在本公开的一些实施例所提供的技术方案中，利用原始图像，预测目标对象的至少两个深度图像，将所述至少两个深度图像反投影到三维体素空间，并利用三维体素空间中体素点的信息，生成目标对象的三维表面。本公开仅采用一张包含目标对象的原始图像即可得到该目标对象的三维表面，无需深度相机等硬件设备，成本低。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本公开实施场景的示意图；

图2示出了适于用来实现本公开实施例的电子设备的结构示意图；

图3示意性示出了根据本公开示例性实施方式的三维对象生成方法的流程图；

图4示出了本公开实施例的利用原始图像预测两个深度图像的示意图；

图5示出了以输出三维人体为例对本公开三维对象生成方法进行说明的示意图；

图6示意性示出了根据本公开示例性实施方式的三维对象生成装置的方框图；

图7示意性示出了根据本公开另一示例性实施方式的三维对象生成装置的方框图；

图8示意性示出了根据本公开又一示例性实施方式的三维对象生成装置的方框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的步骤。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是，本公开实施方式的三维对象生成方法可以由终端设备执行。在这种情况下，三维对象生成装置可以配置在终端设备中。终端设备可以包括但不限于智能手机、平板电脑、智能可穿戴设备、个人计算机等，本公开对终端设备的类型不做限制。

另外，本公开实施方式的三维对象生成方法还可以由服务器执行。具体的，终端设备可以将拍摄出的图像作为本公开实施方式的原始图像，通过网络发送给服务器，由服务器根据接收到的图像执行本公开实施方式的三维对象生成方法。在这种情况下，三维对象生成装置可以配置在服务器中。其中，服务器可以是单个服务器，也可以是多个服务器组成的服务器集群等。

下面以终端设备执行本公开实施方式的三维对象生成方案为例进行说明。

图1示出了本公开实施场景的示意图，终端设备可以利用单张包含目标对象的原始图像，生成目标对象的三维表面。也就是说，在本公开实施方式中，终端设备可以仅根据一张图像，实现三维对象的重建。

具体的，终端设备可以利用原始图像预测目标对象的至少两个深度图像，将这些深度图像反投影到三维体素空间，并利用三维体素空间中像素点的信息，生成目标对象的三维表面。

图2示出了适于用来实现本公开示例性实施方式的电子设备的示意图。本公开示例性实施方式的终端设备可以被配置为如图2的形式。需要说明的是，图2示出的电子设备仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本公开的电子设备至少包括处理器和存储器，存储器用于存储一个或多个程序，当一个或多个程序被处理器执行时，使得处理器可以实现本公开示例性实施方式的三维对象生成方法。

具体的，如图2所示，电子设备200可以包括：处理器210、内部存储器221、外部存储器接口222、通用串行总线(Universal Serial Bus，USB)接口230、充电管理模块240、电源管理模块241、电池242、天线1、天线2、移动通信模块250、无线通信模块260、音频模块270、扬声器271、受话器272、麦克风273、耳机接口274、传感器模块280、显示屏290、摄像模组291、指示器292、马达293、按键294以及用户标识模块(Subscriber IdentificationModule，SIM)卡接口295等。其中传感器模块280可以包括深度传感器、压力传感器、陀螺仪传感器、气压传感器、磁传感器、加速度传感器、距离传感器、接近光传感器、指纹传感器、温度传感器、触摸传感器、环境光传感器及骨传导传感器等。

可以理解的是，本公开实施例示意的结构并不构成对电子设备200的具体限定。在本公开另一些实施例中，电子设备200可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件、软件或软件和硬件的组合实现。

处理器210可以包括一个或多个处理单元，例如：处理器210可以包括应用处理器(Application Processor，AP)、调制解调处理器、图形处理器(Graphics ProcessingUnit，GPU)、图像信号处理器(Image Signal Processor，ISP)、控制器、视频编解码器、数字信号处理器(Digital Signal Processor，DSP)、基带处理器和/或神经网络处理器(Neural-network Processing Unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。另外，处理器210中还可以设置存储器，用于存储指令和数据。

电子设备200通过GPU、显示屏290及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏290和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器210可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

电子设备200可以通过ISP、摄像模组291、视频编解码器、GPU、显示屏290及应用处理器等实现拍摄功能。在一些实施例中，电子设备200可以包括1个或N个摄像模组291，N为大于1的正整数，若电子设备200包括N个摄像头，N个摄像头中有一个是主摄像头。

内部存储器221可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器221可以包括存储程序区和存储数据区。外部存储器接口222可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备200的存储能力。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中所述的方法。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

图3示意性示出了本公开的示例性实施方式的三维对象生成方法的流程图。参考图3，三维对象生成方法可以包括以下步骤：

S32.获取原始图像，原始图像包含目标对象。

本公开所述的原始图像可以是RGB图像，可以由终端设备配备的摄像模组拍摄出。终端设备还可以从其他设备或服务器获取原始图像。

原始图像也可以是从一个图像上截取出的图像，例如，首先，终端设备可以借助于其摄像模组拍摄出图像A，接下来，终端设备可以经由图像检测算法确定出图像A中包含目标对象的图像区域，截取该图像区域，得到本公开实施方式的原始图像。

另外，本公开对原始图像的分辨率不做限制，例如原始图像的分辨率可以为512×512。

本公开实施方式对目标对象的类型不做限制，虽然本公开一些实施例以人体为例进行说明，然而，应当理解的是，除人体外，目标对象还可以包括动物、手部、任意指定的物体等。

S34.利用原始图像，预测目标对象的至少两个深度图像，各深度图像针对目标对象的方向互不相同。

在本公开的示例性实施方式中，可以将各深度图像针对目标对象的方向互不相同理解为，从目标对象的不同角度确定出多个深度图像，例如，目标对象的正面、侧面、背面均属于不同的角度，是针对目标对象的不同方向。

根据本公开的一些实施例，终端设备可以利用原始图像直接预测出目标对象的至少两个深度图像。

具体的，可以借助于机器学习模型实现深度图像的预测。例如，可以利用多路输出的深度估计网络实现多个深度图像的预测，本公开对深度估计网络的结构不做限制，例如可以包括DenseNet结构，DenseNet结构的特点在于，每一层可以复用之前所有层的不同抽象程度特征，从而避免重复学习相似特征，提高参数的有效性，并且不同层之间的链接有助于训练过程中梯度的传导，使得深层网格的优化问题得以求解。

根据本公开的另一些实施例，终端设备可以结合原始图像以及从原始图像转换出的至少一个语义图像，预测出目标对象的两个深度图像。

首先，终端设备可以根据目标对象包含的语义信息，将原始图像转换为至少一个语义图像。

应当注意的是，目标对象类型的不同，包含的语义信息通常存在差别，本公开对语义信息的具体内容不做限制。

以人体作为目标对象为例，语义的类型可以包括人头、身体、大臂、小臂、大腿、小腿、背景等。也就是说，可以例如依据人头、身体、大臂、小臂、大腿、小腿、背景等语义类型对原始图像进行分割，得到每一种语义类型对应的语义图像。

例如，可以使用在Pascal-Person-Part数据集上经训练的自校正(Self-Correction)网络，实现对原始图像的分割，生成至少一个语义图像。其中，得到的语义图像的尺寸与原始图像的尺寸相同。

接下来，终端设备可以利用原始图像以及至少一个语义图像，预测出目标对象的至少两个深度图像。

具体的，终端设备可以将原始图像与每一个语义图像进行通道维度的拼接操作，即通道叠加操作。将拼接操作后的图像输入深度估计网络，以通过深度估计网络预测出目标对象的至少两个深度图像。如上所说，该深度估计网络可以例如包括DenseNet结构。

在确定深度图像的过程中，添加语义信息，可以提升深度估计的鲁棒性，算法精度得到了提高。

以深度图像包括目标对象的正面深度图像和目标对象的背面深度图像为例，对深度估计网络的训练过程进行说明。

首先，可以预先获取训练集，训练接包括原始训练图像以及与所述原始训练图像对应的正面深度图像和背面深度图像。

以人体作为目标对象为例，可以通过渲染带纹理的三维人体模型得到训练集。这种通过合成数据得到的训练集，数据采集成本较低，且对于拍摄环境的泛化性较好。

接下来，利用训练集以及损失函数对深度估计网络进行训练，损失函数包括正面深度损失和背面深度损失。

具体的，可以使用损失函数L训练深度估计网络，参考公式1和公式2：

L＝L-part_front+w·L_back (公式1)

其中，损失函数基于L1损失函数构建，L-part_front和L_back分别表示正面深度损失和背面深度损失；W为可调超参数，用于调和两个损失的比重；w₁包含I个权重参数且表示I个语义部分的损失占比，为可调超参数；

为深度图真值，

为深度图预测值。

下面参考图4对结合语义图像预测深度图像的过程进行示例性说明。

首先，原始图像经过自校正网络的处理，得到针对目标对象的至少一个语义图像。其中，语义图像的尺寸与原始图像的尺寸相同，均为512×512。

接下来，可以将原始图像与语义图像进行通道维度的拼接操作，并输入训练后的深度估计网络，深度估计网络双路输出，同时预测出目标对象的正面深度图像和目标对象的背面深度图像。其中，正面深度图像和背面深度图像的尺寸可以例如均为256×256。

S36.将至少两个深度图像反投影到三维体素空间，利用三维体素空间中体素点的信息，生成目标对象的三维表面。

应当注意的是，本公开实施方式所说到的反投影操作是相机成像投影的逆过程。可以通过深度图像和相机参数的矩阵运算来实现。

终端设备可以将步骤S34确定出的至少两个深度图像反投影到三维体素空间。具体可以采用正交投影的方式实现。其中，体素(voxel)指描述三维空间的最小单位，相对于二维空间的像素而言，体素的大小取决于最小长方体包围盒的大小以及预设划分体素的数目，例如，体素的大小可以是0.05m*0.05m*0.05m的立方体，本公开实施方式对此不做特殊限定。

由此，终端设备可以利用三维体素空间中体素点的信息，生成目标对象的三维表面。

首先，终端设备可以计算三维体素空间中体素点相对于各深度图像的轮廓边缘的距离，以估计该体素点相对于目标对象的三维表面的距离。需要说明的是，此距离是带有符号的距离，例如，体素点在轮廓边缘内部为正，在轮廓边缘外部为负，在轮廓边缘上为0。

具体的，终端设备可以确定体素点相对于各深度图像的轮廓边缘的距离中的最小距离，并将该最小距离作为估计出的该体素点相对于目标对象的三维表面的距离。

例如，可以计算像素点相对于深度图像的轮廓边缘的符号距离函数，具体如公式3和公式4所示：

f(X)＝min(d_z(X，D_f)，d_z(D_b，X)) (公式3)

d_z(X，D)＝z_X-z_π(X，D) (公式4)

其中，f(X)表示符号距离函数，π表示正交投影，z_X表示体素点X的z方向分量，d_z(X，D)表示体素点X在z方向上到深度图像D的轮廓边缘的带符号的距离。

接下来，终端设备可以根据各像素点相对于目标对象的三维表面的距离，生成目标对象的三维表面。

具体的，终端设备可以采用Marching Cube算法(简称MC算法)生成目标对象的三维表面。本公开实施例的Marching Cube算法的输入可以是上述确定出的各体素点对应的带符号的距离，输出可以是三角网格，基于三角网格即得到目标对象的三维表面。

其中，主要过程包括，通过将体素点对应的距离与指定阈值进行比较，确定体素点与等势面的相交情况，进而创建出三角网格。

除Marching Cube算法外，本公开还可以采用其他三维等值面提取算法，本公开对此不做限制。

下面参考图5，以输出三维人体为例对本公开三维对象生成方法进行说明。

首先，终端设备可以获取包含人体的原始图像，对人体进行分割得到多个语义图像。

接下来，终端设备将原始图像与人体分割后得到的多个语义图像进行拼接，并输入深度估计网络，由深度估计网络输出正面深度图像和背面深度图像。

然后，将深度图像反投影到三维体素空间，利用三维体素空间中体素点的信息，生成人体三维表面。

此外，在生成目标对象的三维表面之后，终端设备还可以对该三维表面的颜色进行预测。

具体的，终端设备可以利用原始图像中目标对象的颜色信息，对生成的三维表面的颜色进行预测，以确定出三维表面的颜色。例如，可以将原始图像中目标对象的颜色纹理进行与三维表面适配的重构，以得到三维表面的颜色。随后，可以对三维表面进行渲染。

以人体作为目标对象为例，通过本公开实施方式的三维对象生成方法，一方面，可以仅利用单张RGB图像即可重建出细节丰富的三维人体表面，可以呈现出衣服褶皱、面部细节和发型等内容，无需依赖深度相机等硬件设备，成本低且呈现效果好；另一方面，方案普适性强，可以在GPU上实现实时推理，兼顾重建质量和模型处理速度，且重建效果稳定、鲁棒性强。

应当注意，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

进一步的，本示例实施方式中还提供了一种三维对象生成装置。

图6示意性示出了本公开的示例性实施方式的三维对象生成装置的方框图。参考图6，根据本公开的示例性实施方式的三维对象生成装置6可以包括图像获取模块61、深度预测模块63和表面生成模块65。

具体的，图像获取模块61可以用于获取原始图像，原始图像包含目标对象；深度预测模块63可以用于利用原始图像，预测目标对象的至少两个深度图像，各深度图像针对目标对象的方向互不相同；表面生成模块65可以用于将至少两个深度图像反投影到三维体素空间，利用三维体素空间中体素点的信息，生成目标对象的三维表面。

根据本公开的示例性实施例，表面生成模块65生成目标对象的三维表面的过程可以被配置为执行：计算三维体素空间中体素点相对于各深度图像的轮廓边缘的距离，以估计体素点相对于目标对象的三维表面的距离；根据各体素点相对于目标对象的三维表面的距离，生成目标对象的三维表面。

根据本公开的示例性实施例，表面生成模块65估计体素点相对于目标对象的三维表面的距离的过程可以被配置为执行：确定体素点相对于各深度图像的轮廓边缘的距离中的最小距离，将最小距离作为估计出的体素点相对于目标对象的三维表面的距离。

根据本公开的示例性实施例，深度预测模块63可以被配置为执行：根据目标对象包含的语义信息，将原始图像转换为至少一个语义图像；利用原始图像以及至少一个语义图像，预测出目标对象的至少两个深度图像。

根据本公开的示例性实施例，深度预测模块63还可以被配置为执行：将原始图像与至少一个语义图像进行通道维度的拼接操作，将拼接操作后的图像输入深度估计网络，通过深度估计网络预测出目标对象的至少两个深度图像。

根据本公开的示例性实施例，参考图7，相比于三维对象生成装置6，三维对象生成装置7还可以包括网络训练模块71。

具体的，网络训练模块71可以被配置为执行：预先获取训练集，训练集包括原始训练图像以及与原始训练图像对应的正面深度图像和背面深度图像；利用训练集以及损失函数对深度估计网络进行训练，损失函数包括正面深度损失和背面深度损失。

根据本公开的示例性实施例，参考图8，相比于三维对象生成装置6，三维对象生成装置8还可以包括颜色确定模块81。

具体的，颜色确定模块81可以被配置为执行：利用原始图像中目标对象的颜色信息，对生成的三维表面的颜色进行预测，以确定出三维表面的颜色。

由于本公开实施方式的三维对象生成装置的各个功能模块与上述方法实施方式中相同，因此在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种三维对象生成方法，其特征在于，包括：

获取原始图像，所述原始图像包含目标对象；

利用所述原始图像，预测所述目标对象的至少两个深度图像，各所述深度图像针对所述目标对象的方向互不相同；

将所述至少两个深度图像反投影到三维体素空间，利用所述三维体素空间中体素点的信息，生成所述目标对象的三维表面。

2.根据权利要求1所述的三维对象生成方法，其特征在于，利用所述三维体素空间中体素点的信息，生成所述目标对象的三维表面，包括：

计算所述三维体素空间中体素点相对于各所述深度图像的轮廓边缘的距离，以估计所述体素点相对于所述目标对象的三维表面的距离；

根据各所述体素点相对于所述目标对象的三维表面的距离，生成所述目标对象的三维表面。

3.根据权利要求2所述的三维对象生成方法，其特征在于，估计所述体素点相对于所述目标对象的三维表面的距离包括：

确定所述体素点相对于各所述深度图像的轮廓边缘的距离中的最小距离，将所述最小距离作为估计出的所述体素点相对于所述目标对象的三维表面的距离。

4.根据权利要求1所述的三维对象生成方法，其特征在于，利用所述原始图像，预测所述目标对象的至少两个深度图像，包括：

根据所述目标对象包含的语义信息，将所述原始图像转换为至少一个语义图像；

利用所述原始图像以及所述至少一个语义图像，预测出所述目标对象的至少两个深度图像。

5.根据权利要求4所述的三维对象生成方法，其特征在于，利用所述原始图像以及所述至少一个语义图像，预测出所述目标对象的至少两个深度图像，包括：

将所述原始图像与所述至少一个语义图像进行通道维度的拼接操作，将拼接操作后的图像输入深度估计网络，通过所述深度估计网络预测出所述目标对象的至少两个深度图像。

6.根据权利要求5所述的三维对象生成方法，其特征在于，所述至少两个深度图像包括所述目标对象的正面深度图像和所述目标对象的背面深度图像；所述三维对象生成方法还包括：

预先获取训练集，所述训练集包括原始训练图像以及与所述原始训练图像对应的正面深度图像和背面深度图像；

利用所述训练集以及损失函数对所述深度估计网络进行训练，所述损失函数包括正面深度损失和背面深度损失。

7.根据权利要求1所述的三维对象生成方法，其特征在于，在生成所述目标对象的三维表面之后，所述三维对象生成方法还包括：

利用所述原始图像中所述目标对象的颜色信息，对生成的所述三维表面的颜色进行预测，以确定出所述三维表面的颜色。

8.一种三维对象生成装置，其特征在于，包括：

图像获取模块，用于获取原始图像，所述原始图像包含目标对象；

深度预测模块，用于利用所述原始图像，预测所述目标对象的至少两个深度图像，各所述深度图像针对所述目标对象的方向互不相同；

表面生成模块，用于将所述至少两个深度图像反投影到三维体素空间，利用所述三维体素空间中体素点的信息，生成所述目标对象的三维表面。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至7中任一项所述的三维对象生成方法。

10.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述处理器执行时，使得所述处理器实现如权利要求1至7中任一项所述的三维对象生成方法。