CN115830227A

CN115830227A - 三维建模方法、装置、存储介质、电子设备及产品

Info

Publication number: CN115830227A
Application number: CN202211465942.8A
Authority: CN
Inventors: 张煜; 任文嘉; 孙伟; 邵志兢
Original assignee: Zhuhai Prometheus Vision Technology Co ltd
Current assignee: Zhuhai Prometheus Vision Technology Co ltd
Priority date: 2022-11-22
Filing date: 2022-11-22
Publication date: 2023-03-21

Abstract

本申请公开了一种三维建模方法、装置、存储介质、电子设备及产品，涉及计算机技术领域，该方法包括：获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。本申请可以有效降低三维建模的成本和实施难度，提升多视角三维建模效果。

Description

三维建模方法、装置、存储介质、电子设备及产品

技术领域

本申请涉及计算机技术领域，具体涉及一种三维建模方法、装置、存储介质、电子设备及产品。

背景技术

多视角三维建模任务中，通常采用几十上百个真实相机环绕目标对象进行同步环绕拍摄，采集多视角的真实相机画面，基于采集的多视角的真实相机画面进行多视角建模目标对象的三维模型。

目前的方式下，通常需要采用较多数量的真实相机进行拍摄，才能建模得到良好的三维模型，对于真实相机的需求量较大，三维建模的成本和实施难度较高，多视角三维建模效果有限。

发明内容

本申请实施例提供一种方案，可以有效降低三维建模的成本和实施难度，提升多视角三维建模效果。

本申请实施例提供以下技术方案：

根据本申请的一个实施例，一种三维建模方法，所述方法包括：获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

在本申请的一些实施例中，所述画面预测网络为按照如下方式训练得到的：获取训练数据集，所述训练数据集中包括多种样本数据，每种样本数据包括采用预设相机针对样本对象所拍摄的样本画面；将每种样本数据中的样本画面划分为真实画面及虚拟画面，所述真实画面对应的预设相机为预定真实相机，所述虚拟画面对应的预设相机为预定虚拟相机；将每种样本数据中的真实画面及预定真实相机对应的预定相机参数输入预设神经网络进行预测处理，得到预测画面；根据每种样本数据中的预测画面与所述虚拟画面对所述预设神经网络进行调整，直至符合预定训练条件，得到所述画面预测网络。

在本申请的一些实施例中，所述将每种样本数据中的样本画面划分为真实画面及虚拟画面，包括：将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机；将每种样本数据中的预定真实相机所拍摄的样本画面，作为真实画面；将每种样本数据中的预定虚拟相机所拍摄的样本画面，作为虚拟画面。

在本申请的一些实施例中，所述将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机，包括：从每种样本数据下的预设相机中，选择部分位置的预设相机作为预定虚拟相机；选择位于所述预定虚拟相机周围预定范围内的预设相机，作为所述预定虚拟相机对应的预定真实相机。

在本申请的一些实施例中，在所述将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理之前，所述方法还包括：获取所述真实相机自身的相机参数以及所述真实相机与所述虚拟相机的相对设置参数中至少一种，作为所述真实相机对应的预定相机参数。

在本申请的一些实施例中，所述画面预测网络还输出所述虚拟相机画面对应的置信度；所述基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型，包括：从所述画面预测网络输出的虚拟相机画面中，获取置信度符合预定条件的虚拟相机画面；基于所述真实相机画面及置信度符合预定条件的虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

在本申请的一些实施例中，所述真实相机画面包括不同时刻的所拍摄的，每个时刻对应得到虚拟相机画面；基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型，包括：基于每个时刻的真实相机画面及虚拟相机画面进行多视角三维建模，得到所述目标对象在不同时刻的三维模型；将不同时刻的三维模型按照时序进行串联，得到所述目标对象对应的体积视频。

根据本申请的一个实施例，一种三维建模装置，所述装置包括：获取模块，用于获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；预测模块，用于将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；建模模块，用于基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

在本申请的一些实施例中，所述装置还包括训练模块，用于：获取训练数据集，所述训练数据集中包括多种样本数据，每种样本数据包括采用预设相机针对样本对象所拍摄的样本画面；将每种样本数据中的样本画面划分为真实画面及虚拟画面，所述真实画面对应的预设相机为预定真实相机，所述虚拟画面对应的预设相机为预定虚拟相机；将每种样本数据中的真实画面及预定真实相机对应的预定相机参数输入预设神经网络进行预测处理，得到预测画面；根据每种样本数据中的预测画面与所述虚拟画面对所述预设神经网络进行调整，直至符合预定训练条件，得到所述画面预测网络。

在本申请的一些实施例中，所述训练模块，用于：将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机；将每种样本数据中的预定真实相机所拍摄的样本画面，作为真实画面；将每种样本数据中的预定虚拟相机所拍摄的样本画面，作为虚拟画面。

在本申请的一些实施例中，所述训练模块，用于：从每种样本数据下的预设相机中，选择部分位置的预设相机作为预定虚拟相机；选择位于所述预定虚拟相机周围预定范围内的预设相机，作为所述预定虚拟相机对应的预定真实相机。

在本申请的一些实施例中，所述装置还包括参数模块，用于：获取所述真实相机自身的相机参数以及所述真实相机与所述虚拟相机的相对设置参数中至少一种，作为所述真实相机对应的预定相机参数。

在本申请的一些实施例中，所述画面预测网络还输出所述虚拟相机画面对应的置信度；所述建模模块，用于：从所述画面预测网络输出的虚拟相机画面中，获取置信度符合预定条件的虚拟相机画面；基于所述真实相机画面及置信度符合预定条件的虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

在本申请的一些实施例中，所述真实相机画面包括不同时刻的所拍摄的，每个时刻对应得到虚拟相机画面；所述建模模块，用于：基于每个时刻的真实相机画面及虚拟相机画面进行多视角三维建模，得到所述目标对象在不同时刻的三维模型；所述装置还包括序列化模块，用于：将不同时刻的三维模型按照时序进行串联，得到所述目标对象对应的体积视频。

根据本申请的另一实施例，一种存储介质，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行本申请实施例所述的方法。

根据本申请的另一实施例，一种电子设备可以包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行本申请实施例所述的方法。

根据本申请的另一实施例，一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例所述的各种可选实现方式中提供的方法。

本申请实施例的三维建模方案中，获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

以这种方式，利用真实相机拍摄的真实相机画面与真实相机对应的预定相机参数，采用画面预测网络进行预测处理，预测得到虚拟相机针对目标对象的虚拟相机画面，结合真实相机画面与虚拟相机画面进行多视角三维建模，一方面，通过预测的虚拟相机画面可以增加真实相机之外视角的画面，仅需较少数量的真实相机进行拍摄，进而降低三维建模的成本和实施难度，另一方面，增加真实相机之外视角的画面，可以增加更多视角的画面，进而提升多视角三维建模效果。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一种可以应用本申请实施例的系统的示意图。

图2示出了根据本申请的一个实施例的三维建模方法的流程图。

图3示出了根据本申请的一个示例的相机布局图。

图4示出了根据本申请的另一个实施例的三维建模装置的框图。

图5示出了根据本申请的一个实施例的电子设备的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1示出了可以应用本申请实施例的系统100的示意图。如图1所示，系统100可以包括服务器101及终端102。

服务器101可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端102可以是任意的设备，终端102包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、VR/AR设备、智能手表以及计算机等等。一种实施方式中，服务器101或终端102可以是区块链网络或地图车联网平台中的节点设备。

本示例的一种实施方式中，服务器101或终端102可以：获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

图2示意性示出了根据本申请的一个实施例的三维建模方法的流程图。该三维建模方法的执行主体可以是任意的设备，例如图1所示的服务器101或终端102。

如图2所示，该三维建模方法可以包括步骤S210至步骤S230。

步骤S210，获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；步骤S220，将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；步骤S230，基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

目标对象可以是人物、物品等对象。采用一些数量的不同位置的真实相机环绕目标对象进行拍摄，可以拍摄到这些真实相机从不同角度针对目标对象所拍摄的真实相机画面。可以理解，可以采用真实相机针对目标对象进行持续拍摄，得到不同时刻的真实相机画面集合，每个时刻的真实相机画面集合中可以包括这些真实相机在对应时刻所拍摄的不同角度的真实相机画面。

获取某个时刻的真实相机画面集合中的真实相机画面，将该时刻的真实相机画面集合中的真实相机画面以及真实相机的预定相机参数输入画面预测网络进行预测处理，得到预测的该时刻下虚拟相机针对目标对象拍摄的画面，即得到预测的该时刻下目标对象对应的虚拟相机画面。

例如，如图3所示，一个示例中，获取到真实相机301至真实相机309在某个时刻拍摄的目标对象300的真实相机画面集合A，将真实相机画面集合A中的真实相机画面以及真实相机301至真实相机309的预定相机参数输入画面预测网络进行预测处理，可以得到预测的虚拟相机310至虚拟相机312拍摄的目标对象300的虚拟相机画面。

可以理解，虚拟相机画面的拍摄视角与真实相机画面的拍摄视角不同，但是，虚拟相机画面不是真实拍摄的，而是画面预测网络预测得到的。虚拟相机画面的拍摄角度为虚拟相机对应的拍摄角度，虚拟相机在空间坐标系中的位置与真实相机在空间坐标系中的位置不同。

进一步，结合真实相机画面及虚拟相机画面进行多视角三维建模，可以在真实相机画面的基础上增加其他视角的虚拟相机画面，可以结合更多视角的画面进行多视角三维建模，得到目标对象对应的三维模型。

以这种方式，基于步骤S210至步骤S230，利用真实相机拍摄的真实相机画面与真实相机对应的预定相机参数，采用画面预测网络进行预测处理，预测得到虚拟相机针对目标对象的虚拟相机画面，结合真实相机画面与虚拟相机画面进行多视角三维建模，一方面，通过预测的虚拟相机画面可以增加真实相机之外视角的画面，仅需较少数量的真实相机进行拍摄，进而降低三维建模的成本和实施难度，另一方面，增加真实相机之外视角的画面，可以增加更多视角的画面，进而提升多视角三维建模效果。

下面描述图2实施例中进行三维建模时，所进行的各步骤下进一步具体可选实施例。

一种实施例中，所述画面预测网络为按照如下方式训练得到的：

获取训练数据集，所述训练数据集中包括多种样本数据，每种样本数据包括采用预设相机针对样本对象所拍摄的样本画面；将每种样本数据中的样本画面划分为真实画面及虚拟画面，所述真实画面对应的预设相机为预定真实相机，所述虚拟画面对应的预设相机为预定虚拟相机；将每种样本数据中的真实画面及预定真实相机对应的预定相机参数输入预设神经网络进行预测处理，得到预测画面；根据每种样本数据中的预测画面与所述虚拟画面对所述预设神经网络进行调整，直至符合预定训练条件，得到所述画面预测网络。

每种样本数据中可以包括采用多个预设相机环绕目标对象，针对样本对象所拍摄的不同视角的样本画面。

将每种样本数据中的样本画面划分为真实画面及虚拟画面，真实画面对应的预设相机作为预定真实相机，虚拟画面对应的预设相机作为预定虚拟相机。

将每种样本数据中的真实画面及预定真实相机对应的预定相机参数输入预设神经网络进行预测处理，得到预测的预测画面，该预测画面为预测的预定虚拟相机针对样本对象拍摄的画面。预定真实相机对应的预定相机参数可以是：预定真实相机自身的相机参数以及预定真实相机与预定虚拟相机的相对设置参数中至少一种。一些实施方式中，预定真实相机对应的相机参数可以包括预定真实相机的相机外参。进一步的，一些实施方式中，预定真实相机对应的相机参数可以包括预定真实相机的相机外参与相机内参。预定真实相机与预定虚拟相机的相对设置参数可以是预定真实相机相对预定虚拟相机的旋转和位移等参数。

进而，根据每种样本数据中的预测画面与虚拟画面之间的误差，可以对预设神经网络中的参数进行不断调整，直至符合预定训练条件(例如误差小于预定阈值等)，符合预定训练条件的预设神经网络即训练后的画面预测网络。

一种实施例中，所述将每种样本数据中的样本画面划分为真实画面及虚拟画面，包括：将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机；将每种样本数据中的预定真实相机所拍摄的样本画面，作为真实画面；将每种样本数据中的预定虚拟相机所拍摄的样本画面，作为虚拟画面。

该实施例下，进一步的，从每种样本数据下的样本画面对应的预设相机中，首先，选定一些预设相机作为预定真实相机，选定一些预设相机作为预定虚拟相机，然后，将样本数据中的预定真实相机所拍摄的样本画面作为真实画面，将样本数据中的预定虚拟相机所拍摄的样本画面作为虚拟画面。进而，直接以预设相机的划分为基础划分得到真实画面及虚拟画面。

另一种实施例中，所述将每种样本数据中的样本画面划分为真实画面及虚拟画面，包括：将每种样本数据中的一些样本画面划分为真实画面，另一些样本画面划分为虚拟画面。进而，以样本画面的划分为基础划分得到真实画面及虚拟画面。

一些实施例中，所述将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机，包括：从每种样本数据下的预设相机中，选择部分位置的预设相机作为预定虚拟相机；选择位于所述预定虚拟相机周围预定范围内的预设相机，作为所述预定虚拟相机对应的预定真实相机。

例如，每种样本数据中可以包括采用多个预设相机环绕目标对象，针对样本对象所拍摄的不同视角的样本画面，随机选取一个相机位的预设相机作为预定虚拟相机，该预定虚拟相机相邻的预定范围内的预设相机标记为预定真实相机；剩下的预设相机中再随机选取一个作为预定虚拟相机，并将其相邻预设相机标记为预定真实相机；重复以上步骤直到预定虚拟相机选取完毕，预定虚拟相机周围预定范围内的预设相机，即预定虚拟相机对应的预定真实相机。

以这种方式，可以使得预定虚拟相机周围具有足够的预定真实相机，进一步提升画面预测网络的训练效果，整体上进一步提升三维建模的建模效果。其中，预定范围可以是一个距离和夹角的阈值范围。

另一些实施例中，所述将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机，可以包括：从每种样本数据下的预设相机中，随机选择部分位置的预设相机作为预定虚拟相机，剩余的预设相机作为预定真实相机。

一种实施例中，在所述将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理之前，还可以包括：获取所述真实相机自身的相机参数以及所述真实相机与所述虚拟相机的相对设置参数中至少一种，作为所述真实相机对应的预定相机参数。

一些实施方式中，真实相机自身的相机参数可以包括真实相机的相机外参。进一步的，一些实施方式中，真实相机自身的相机参数可以包括真实相机的相机外参与相机内参。真实相机与虚拟相机的相对设置参数可以是真实相机相对虚拟相机的旋转和位移等参数。

一种实施例中，所述画面预测网络还输出所述虚拟相机画面对应的置信度；所述基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型，包括：从所述画面预测网络输出的虚拟相机画面中，获取置信度符合预定条件的虚拟相机画面；基于所述真实相机画面及置信度符合预定条件的虚拟相机画面所述候选相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

置信度符合预定条件的虚拟相机画面，可以是置信度最高的预定数目个虚拟相机画面，或置信度高于预定置信度的虚拟相机画面。基于真实相机画面及置信度符合预定条件的虚拟相机画面进行多视角三维建模，得到目标对象对应的三维模型，进一步提升建模效果。

一种实施例中，前述实施例中，所述真实相机画面包括不同时刻的所拍摄的，每个时刻对应得到虚拟相机画面；基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型，包括：基于每个时刻的真实相机画面及虚拟相机画面进行多视角三维建模，得到所述目标对象在不同时刻的三维模型；所述方法还包括：将不同时刻的三维模型按照时序进行串联，得到所述目标对象对应的体积视频。

本申请前述实施例中的“三维模型”可以是用于生成体积视频的三维模型，体积视频(Volumetric Video，又称容积视频、空间视频、体三维视频或6自由度视频等)是一种通过捕获三维空间中信息(如深度信息和色彩信息等)并生成三维动态模型序列的技术。相对于传统的视频，体积视频将空间的概念加入到视频中，用三维模型来更好的还原真实三维世界，而不是以二维的平面视频加上运镜来模拟真实三维世界的空间感。由于体积视频实质为三维模型序列，使得用户可以随自己喜好调整到任意视角进行观看，较二维平面视频具有更高的还原度和沉浸感。

可选地，在本申请中，真实相机画面可以包括彩色图像和深度图像，虚拟相机画面可以包括彩色图像和深度图像，基于每个时刻的真实相机画面及虚拟相机画面进行多视角三维建模，得到所述目标对象在不同时刻的三维模型，可以包括：

先获取每个时刻下目标对象的不同视角的彩色图像和深度图像，以及彩色图像对应的相机参数；然后根据获取到的彩色图像及其对应的深度图像和相机参数，训练隐式表达目标对象三维模型的神经网络模型，并基于训练的神经网络模型进行等值面提取，实现对目标对象的三维重建，得到目标对象的三维模型。

应当说明的是，本申请实施例中对采用何种架构的神经网络模型不作具体限制，可由本领域技术人员根据实际需要选取。比如，可以选取不带归一化层的多层感知机(Multilayer Perceptron，MLP)作为模型训练的基础模型。

下面将对本申请提供的三维模型重建方法进行详细描述。

首先，可以同步采用多个真实相机(包括彩色相机和深度相机)对需要进行三维重建的目标对象进行多视角的拍摄，得到对象在多个不同视角的真实相机画面(包括彩色图像及对应的深度图像)，即在同一拍摄时刻(实际拍摄时刻的差值小于或等于时间阈值即认为拍摄时刻相同)，各视角的彩色相机将拍摄得到目标对象在对应视角的彩色图像，相应的，各视角的深度相机将拍摄得到对象在对应视角的深度图像。基于同一拍摄时刻的真实相机画面(包括彩色图像及对应的深度图像)可以通过画面预测网络预测得到某个视角的虚拟相机(包括彩色相机和深度相机)拍摄的虚拟相机画面(包括彩色图像及对应的深度图像)。

以此，目标对象在不同视角的彩色图像均具备对应的深度图像，即在拍摄时，彩色相机和深度相机可以采用相机组的配置，同一视角的彩色相机配合深度相机同步对同一对象进行拍摄。比如，可以搭建一摄影棚，该摄影棚中心区域为拍摄区域，环绕该拍摄区域，在水平方向和垂直方向每间隔一定角度配对设置有多组彩色相机和深度相机。当对象处于这些彩色相机和深度相机所环绕的拍摄区域时，即可通过这些彩色相机和深度相机拍摄得到该对象在不同视角的彩色图像及对应的深度图像。

此外，进一步获取每一彩色图像对应的彩色相机(可以包括真实相机与虚拟相机中彩色相机)的相机参数。其中，相机参数包括彩色相机的内外参，可以通过标定确定，相机内参为与彩色相机自身特性相关的参数，包括但不限于彩色相机的焦距、像素等数据，相机外参为彩色相机在世界坐标系中的参数，包括但不限于彩色相机的位置(坐标)和相机的旋转方向等数据。

如上，在获取到目标对象在同一时刻的多个不同视角的彩色图像及其对应的深度图像(包括真实相机画面和虚拟相机画面中的彩色图像及其对应的深度图像)之后，即可根据这些彩色图像及其对应深度图像对对象进行三维重建。区别于相关技术中将深度信息转换为点云进行三维重建的方式，本申请训练一神经网络模型用以实现对对象的三维模型的隐式表达，从而基于该神经网络模型实现对对象的三维重建。

可选地，本申请选用一不包括归一化层的多层感知机(Multilayer Perceptron，MLP)作为基础模型，按照如下方式进行训练：

基于对应的相机参数将每一彩色图像中的像素点转化为射线；在射线上采样多个采样点，并确定每一采样点的第一坐标信息以及每一采样点距离像素点的SDF值；将采样点的第一坐标信息输入基础模型，得到基础模型输出的每一采样点的预测SDF值以及预测RGB颜色值；基于预测SDF值与SDF值之间的第一差异，以及预测RGB颜色值与像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整，直至满足预设停止条件；将满足预设停止条件的基础模型作为隐式表达对象的三维模型的神经网络模型。

首先，基于彩色图像对应的相机参数将彩色图像中的一像素点转化为一条射线，该射线可以为经过像素点且垂直于彩色图像面的射线；然后，在该射线上采样多个采样点，采样点的采样过程可以分两步执行，可以先均匀采样部分采样点，然后再在基于像素点的深度值在关键处进一步采样多个采样点，以保证在模型表面附近可以采样到尽量多的采样点；然后，根据相机参数和像素点的深度值计算出采样得到的每一采样点在世界坐标系中的第一坐标信息以及每一采样点的有向距离(Signed Distance Field，SDF)值，其中，SDF值可以为像素点的深度值与采样点距离相机成像面的距离之间的差值，该差值为有符号的值，当差值为正值时，表示采样点在三维模型的外部，当差值为负值时，表示采样点在三维模型的内部，当差值为零时，表示采样点在三维模型的表面；然后，在完成采样点的采样并计算得到每一采样点对应的SDF值之后，进一步将采样点在世界坐标系的第一坐标信息输入基础模型(该基础模型被配置为将输入的坐标信息映射为SDF值和RGB颜色值后输出)，将基础模型输出的SDF值记为预测SDF值，将基础模型输出的RGB颜色值记为预测RGB颜色值；然后，基于预测SDF值与采样点对应的SDF值之间的第一差异，以及预测RGB颜色值与采样点所对应像素点的RGB颜色值之间的第二差异，对基础模型的参数进行调整。

此外，对于彩色图像中的其它像素点，同样按照上述方式进行采样点采样，然后将采样点在世界坐标系的坐标信息输入至基础模型以得到对应的预测SDF值和预测RGB颜色值，用于对基础模型的参数进行调整，直至满足预设停止条件，比如，可以配置预设停止条件为对基础模型的迭代次数达到预设次数，或者配置预设停止条件为基础模型收敛。在对基础模型的迭代满足预设停止条件时，即得到能够对对象的三维模型进行准确地隐式表达的神经网络模型。最后，可以采用等值面提取算法对该神经网络模型进行三维模型表面的提取，从而得到对象的三维模型。

可选地，在一些实施例中，根据相机参数确定彩色图像的成像面；确定经过彩色图像中像素点且垂直于成像面的射线为像素点对应的射线。

其中，可以根据彩色图像对应的彩色相机的相机参数，确定该彩色图像在世界坐标系中的坐标信息，即确定成像面。然后，可以确定经过彩色图像中像素点且垂直于该成像面的射线为该像素点对应的射线。

可选地，在一些实施例中，根据相机参数确定彩色相机在世界坐标系中的第二坐标信息及旋转角度；根据第二坐标信息和旋转角度确定彩色图像的成像面。

可选地，在一些实施例中，在射线上等间距采样第一数量个第一采样点；根据像素点的深度值确定多个关键采样点，并根据关键采样点采样第二数量个第二采样点；将第一数量个的第一采样点与第二数量个的第二采样点确定为在射线上采样得到的多个采样点。

其中，先在射线上均匀采样n(即第一数量)个第一采样点，n为大于2的正整数；然后，再根据前述像素点的深度值，从n个第一采样点中确定出距离前述像素点最近的预设数量个关键采样点，或者从n个第一采样点中确定出距离前述像素点小于距离阈值的关键采样点；然后，根据确定出的关键采样点再采样m个第二采样点，m为大于1的正整数；最后，将采样得到的n+m个采样点确定为在射线上采样得到的多个采样点。其中，在关键采样点处再多采样m个采样点，可以使得模型的训练效果在三维模型表面处更为精确，从而提升三维模型的重建精度。

可选地，在一些实施例中，根据彩色图像对应的深度图像确定像素点对应的深度值；基于深度值计算每一采样点距离像素点的SDF值；根据相机参数与深度值计算每一采样点的坐标信息。

其中，在每一像素点对应的射线上采样了多个采样点后，对于每一采样点，根据相机参数、像素点的深度值确定彩色相机的拍摄位置与对象上对应点之间的距离，然后基于该距离逐一计算每一采样点的SDF值以及计算出每一采样点的坐标信息。

需要说明的是，在完成对基础模型的训练之后，对于给定的任意一个点的坐标信息，即可由完成训练的基础模型预测其对应的SDF值，该预测的SDF值即表示了该点与对象的三维模型的位置关系(内部、外部或者表面)，实现对对象的三维模型的隐式表达，得到用于隐式表达对象的三维模型的神经网络模型。

最后，对以上神经网络模型进行等值面提取，比如可以采用等值面提取算法(Marching cubes，MC)绘制出三维模型的表面，得到三维模型表面，进而根据该三维模型表面得到目标对象的三维模型。

本申请提供的三维重建方案，通过神经网络去隐式建模对象的三维模型，并加入深度信息提高模型训练的速度和精度。采用本申请提供的三维重建方案，在时序上持续的对目标对象进行三维重建，即可得到目标对象在不同时刻的三维模型，这些不同时刻的三维模型按时序构成的三维模型序列即为对目标对象所拍摄得到的体积视频。以此，可以针对任意目标对象进行“体积视频拍摄”，得到特定内容呈现的体积视频。比如，可以对跳舞的目标对象进行体积视频拍摄，得到可以在任意角度观看对象舞蹈的体积视频，可以对教学的目标对象进行体积视频拍摄，得到可以在任意角度观看目标对象教学的体积视频，等等。

为便于更好的实施本申请实施例提供的三维建模方法，本申请实施例还提供一种基于上述三维建模方法的三维建模装置。其中名词的含义与上述三维建模方法中相同，具体实现细节可以参考方法实施例中的说明。图4示出了根据本申请的一个实施例的三维建模装置的框图。

如图4所示，三维建模装置400中可以包括：

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，本申请实施例还提供一种电子设备，该电子设备可以为终端或者服务器，如图5所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解，图5中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该电子设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行计算机设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

电子设备还包括给各个部件供电的电源503，优选的，电源503可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元504，该输入单元504可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器501会按照如下的指令，将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的计算机程序，从而实现本申请前述实施例中各种功能。

如处理器501可以执行下述步骤：

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种方法中的步骤。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种方法中的步骤，因此，可以实现本申请实施例所提供的方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

本领域技术人员在考虑说明书及实践这里公开的实施方式后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的实施例，而可以在不脱离其范围的情况下进行各种修改和改变。

Claims

1.一种三维建模方法，其特征在于，所述方法包括：

获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；

将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；

基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

2.根据权利要求1所述的方法，其特征在于，所述画面预测网络为按照如下方式训练得到的：

获取训练数据集，所述训练数据集中包括多种样本数据，每种样本数据包括采用预设相机针对样本对象所拍摄的样本画面；

将每种样本数据中的样本画面划分为真实画面及虚拟画面，所述真实画面对应的预设相机为预定真实相机，所述虚拟画面对应的预设相机为预定虚拟相机；

将每种样本数据中的真实画面及预定真实相机对应的预定相机参数输入预设神经网络进行预测处理，得到预测画面；

根据每种样本数据中的预测画面与所述虚拟画面对所述预设神经网络进行调整，直至符合预定训练条件，得到所述画面预测网络。

3.根据权利要求2所述的方法，其特征在于，所述将每种样本数据中的样本画面划分为真实画面及虚拟画面，包括：

将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机；

将每种样本数据中的预定真实相机所拍摄的样本画面，作为真实画面；

将每种样本数据中的预定虚拟相机所拍摄的样本画面，作为虚拟画面。

4.根据权利要求3所述的方法，其特征在于，所述将每种样本数据下的预设相机划分为预定真实相机及预定虚拟相机，包括：

从每种样本数据下的预设相机中，选择部分位置的预设相机作为预定虚拟相机；

选择位于所述预定虚拟相机周围预定范围内的预设相机，作为所述预定虚拟相机对应的预定真实相机。

5.根据权利要求1所述的方法，其特征在于，在所述将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理之前，所述方法还包括：

获取所述真实相机自身的相机参数以及所述真实相机与所述虚拟相机的相对设置参数中至少一种，作为所述真实相机对应的预定相机参数。

6.根据权利要求1所述的方法，其特征在于，所述画面预测网络还输出所述虚拟相机画面对应的置信度；

所述基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型，包括：

从所述画面预测网络输出的虚拟相机画面中，获取置信度符合预定条件的虚拟相机画面；

基于所述真实相机画面及置信度符合预定条件的虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述真实相机画面包括不同时刻的所拍摄的，每个时刻对应得到虚拟相机画面；

基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型，包括：

基于每个时刻的真实相机画面及虚拟相机画面进行多视角三维建模，得到所述目标对象在不同时刻的三维模型；

所述方法还包括：

将不同时刻的三维模型按照时序进行串联，得到所述目标对象对应的体积视频。

8.一种三维建模装置，其特征在于，所述装置包括：

获取模块，用于获取针对目标对象所拍摄的真实相机画面，所述真实相机画面为采用不同拍摄位置的真实相机拍摄的；

预测模块，用于将所述真实相机画面及所述真实相机对应的预定相机参数输入画面预测网络进行预测处理，得到所述目标对象对应的虚拟相机画面，所述虚拟相机画面为预测的虚拟相机针对所述目标对象拍摄的画面，所述虚拟相机的拍摄位置与所述真实相机的拍摄位置不同；

建模模块，用于基于所述真实相机画面及所述虚拟相机画面进行多视角三维建模，得到所述目标对象对应的三维模型。

9.一种存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被计算机的处理器执行时，使计算机执行权利要求1至7任一项所述的方法。

10.一种电子设备，其特征在于，包括：存储器，存储有计算机程序；处理器，读取存储器存储的计算机程序，以执行权利要求1至7任一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至7任一项的方法。