CN117456097B

CN117456097B - 一种三维模型构建方法及装置

Info

Publication number: CN117456097B
Application number: CN202311425905.9A
Authority: CN
Inventors: 沈翀; 张克进; 刘洪强; 胡静远
Original assignee: Nantong Haisai Future Digital Technology Co ltd
Current assignee: Nantong Haisai Future Digital Technology Co ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-05-14
Anticipated expiration: 2043-10-30
Also published as: CN117456097A

Abstract

本发明实施例公开了一种三维模型构建方法及装置。该方法包括：获取多帧对象图像；针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，并将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本；根据多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并且利用目标神经辐射场渲染出多帧渲染图像；根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。本发明实施例的技术方案，可以提高三维模型的构建精度。

Description

一种三维模型构建方法及装置

技术领域

本发明实施例涉及三维建模技术领域，尤其涉及一种三维模型构建方法及装置。

背景技术

针对目标对象进行三维建模，是计算机图形学和计算机视觉中的重要研究内容，目前在动画和影视等多个领域均有着非常广泛的应用。

神经辐射场是一种隐式的三维场景表示，可实现三维建模。但是，经实践发现，目前基于神经辐射场构建出的三维模型的精度不高，有待改进。

发明内容

本发明实施例提供了一种三维模型构建方法及装置，可以提高三维模型的构建精度。

根据本发明的一方面，提供了一种三维模型构建方法，可以包括：

获取多帧对象图像，其中，多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像；

针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中的各像素点的颜色真值以及与目标对象对应的掩膜真值，并将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本；

根据多帧对象图像分别所对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并利用目标神经辐射场渲染出多帧渲染图像，其中，多帧渲染图像与多帧对象图像分别对应的视角互不相同；

根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。

根据本发明的另一方面，提供了一种三维模型构建装置，可以包括：

对象图像获取模块，用于获取多帧对象图像，其中，多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像；

训练样本得到模块，用于针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中的各像素点的颜色真值以及与目标对象对应的掩膜真值，并将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本；

渲染图像渲染模块，用于根据多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，利用目标神经辐射场渲染出多帧渲染图像，其中，多帧渲染图像与多帧对象图像分别对应的视角互不相同；

三维模型构建模块，用于根据多帧对象图像及多帧渲染图像，构建出目标对象的三维模型。

本发明实施例的技术方案，通过获取利用采集设备在不同采集视角下针对目标对象采集到的多帧对象图像；针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，然后将颜色真值、掩膜真值、采集位置和采集视角，作为与对象图像对应的训练样本；根据多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并利用目标神经辐射场渲染出新视角下的多帧渲染图像；根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。上述技术方案，在神经辐射场的训练过程中，通过加入掩膜真值作为监督信息，由此提高了神经辐射场的训练精度，从而提高了基于神经辐射场构建出的三维模型的精准度。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或是重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种三维模型构建方法的流程图；

图2是根据本发明实施例提供的另一种三维模型构建方法的流程图；

图3是根据本发明实施例提供的又一种三维模型构建方法的流程图；

图4是根据本发明实施例提供的再一种三维模型构建方法的流程图；

图5是根据本发明实施例提供的一种三维模型构建装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。“目标”、“原始”等的情况类似，在此不再赘述。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明实施例提供的一种三维模型构建方法的流程图。本实施例可适用于基于神经辐射场实现三维建模的情况，尤其适用于在训练神经辐射场的过程中，加入掩膜真值作为监督信息的情况。该方法可以由本发明实施例提供的三维模型构建装置来执行，该装置可以由软件和/或硬件的方式实现，该装置可以集成在电子设备上，该电子设备可以是各种用户终端或是服务器。

参见图1，本发明实施例的方法具体包括如下步骤：

S110、获取多帧对象图像，其中，多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像。

其中，目标对象可理解为待进行三维模型构建的对象，在本发明实施例中，尤其可理解为待进行三维建模的物体，例如可以是生物物体或非生物物体等，这可根据实际需求进行设置，在此未做具体限定。

采集设备可理解为用于针对目标对象进行数据(如图像数据或视频数据等)采集的电子设备，例如可以是相机、摄像机或是摄像头等，这可根据实际需求进行设置，在此未做具体限定。

对象图像可理解为利用采集设备针对目标对象采集到的图像，例如可以是利用采集设备直接进行图像采集得到的图像；也可以是利用采集设备进行视频采集，然后从采集到的对象视频中抽样出的图像；等等，在此未做具体限定。对象图像的数量可以是多帧，而且该多帧对象图像中的各帧对象图像可以是在不同采集视角下分别采集到的图像，例如可通过移动采集设备围绕着目标对象进行采集，从而得到不同采集视角下的多帧对象图像。

获取多帧对象图像。

S120、针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，并将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本。

其中，基于S120分别处理多帧对象图像中的各帧对象图像。具体的，这里以多帧对象图像中的任一一帧对象图像为例，采集时刻可理解为采集到该对象图像的时刻，在此基础上，采集位置可理解为采集设备在该采集时刻下的空间位置，在本发明实施例中，该空间位置例如可通过(x,y,z)进行表示；采集视角可理解为采集设备在该采集时刻下的视角，在本发明实施例中，该视角例如可通过进行表示，其中，θ表示方位角(azimuth)，/>表示倾角(inclination)。

确定采集位置和采集视角，在本发明实施例中，结合上述示例，可选的，该采集位置和采集视角可通过这个五维向量进行表示。

由于对象图像通过采集设备实际采集得到，因此这里可将对象图像中的各像素点的颜色值称为颜色真值，而且这些颜色真值可在神经辐射场的训练过程中作为监督信息应用。在实际应用中，可选的，上述颜色真值可通过(R,G,B)、(H,S,L)或(L,a,b)等方式进行表示，在此未做具体限定。

类似于颜色真值，这里将用于描述对象图像中的像素点是否表征目标对象的掩膜值，称为掩膜真值。对象图像中的各像素点分别对应有各自的掩膜真值，而且这些掩膜真值可在神经辐射场的训练过程中作为监督信息应用。

分别确定对象图像中每个像素点的颜色真值和掩膜真值。示例性的，假设这里通过(R,G,B)表示颜色真值并且通过m表示掩膜真值，则对象图像中的每个像素点分别对应有各自的(R,G,B,m)。

在获取到某对象图像对应的颜色真值、掩膜真值、采集位置以及采集视角之后，可基于这些数据得到与该对象图像对应的训练样本。

至此可知，在基于S120分别处理多帧对象图像中的各帧对象图像之后，可得到多帧对象图像分别对应的训练样本。

S130、根据多帧对象图像分别所对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并且利用目标神经辐射场渲染出多帧渲染图像，其中，多帧渲染图像与多帧对象图像分别对应的视角互不相同。

其中，原始神经辐射场可理解为存在训练需求的神经辐射场，在实际应用中，该神经辐射场例如可以是NeRF(Neural Radiance Fields)、F2-NeRF(Fast Neural RadianceFields)或是NeuS等，尤其可以是可保证训练速度的Instant-NGP版本的NeuS。当然，这可根据实际需求选择其余的神经辐射场，在此未做限定。

根据多帧对象图像分别所对应的训练样本，对原始神经辐射场进行训练。结合本发明实施例可能涉及到的应用场景，示例性的，例如可将训练样本中的采集位置和采集视角作为实际输入，并将颜色真值和掩膜真值作为期望输出(即监督信息)，训练原始神经辐射场，从而得到目标神经辐射场。

进一步，针对目标对象，利用目标神经辐射场渲染出多帧渲染图像。需要说明的是，多帧渲染图像分别对应的渲染视角与多帧对象图像分别对应的采集视角互不相同。换言之，在将对象图像对应的采集视角作为已有视角的情况下，渲染图像可理解为在新视角下生成的图像。

S140、根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。

其中，相较于单独的多帧对象图像，多帧对象图像和多帧渲染图像涵盖了更多视角下的图像，因此这里利用多帧对象图像和多帧渲染图像进行三维建模，从而保证了由此构建出的三维模型的精准度。

在实际应用中，可选的，可利用marching cubes算法进行三维建模；当然，也可基于其余算法进行三维建模，在此未做具体限定。

一种可选的技术方案，根据多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，包括：

获取原始神经辐射场，并针对多帧对象图像分别对应的训练样本中的每个训练样本，将训练样本中的采集位置和采集视角输入到原始神经辐射场中，并根据原始神经辐射场的输出结果，得到预测图像；

确定预测图像中各像素点的颜色预测值，以及确定预测图像中各像素点的与目标对象对应的掩膜预测值；

根据颜色预测值与训练样本中的颜色真值进行颜色损失计算，可得到颜色损失，以及根据掩膜预测值与训练样本中的掩膜真值进行掩膜损失计算，得到掩膜损失；

根据颜色损失和掩膜损失，得到总损失，并基于总损失，对原始神经辐射场中的参数进行调整，以训练得到目标神经辐射场。

其中，针对多帧对象图像中的每帧对象图像，可将该对象图像对应的训练样本中的采集位置和采集视角作为实际输入，输入到原始神经辐射场中，从而可利用原始神经辐射场，根据该实际输入，预测出该对象图像对应的预测图像。

类似于颜色真值，颜色预测值可理解为预测图像中的各像素点的颜色值。类似于掩膜真值，掩膜预测值可理解为预测图像中各像素点的与目标对象对应的掩膜值。分别确定预测图像中的每个像素点的颜色预测值和掩膜预测值。

由于预测图像是针对该对象图像预测出的图像，因此可根据颜色预测值与该对象图像对应的颜色真值进行颜色损失计算，得到颜色损失，以及根据掩膜预测值与该对象图像对应的掩膜真值进行掩膜损失计算，得到掩膜损失。然后，根据颜色损失和掩膜损失计算出总损失，并根据总损失，对原始神经辐射场中的参数进行调整，以训练得到目标神经辐射场。

在此基础上，为了更好的理解上述的总损失计算过程，下面结合具体示例进行示例性说明。示例性的，这里以多帧对象图像中的任一帧对象图像为例，通过(R,G,B,m)表示该图像对象中的各像素点的颜色真值和掩膜真值，并通过(R^′,G^′,B^′,m^′)表示与该图像对象对应的预测图像中的各像素点的颜色预测值和掩膜预测值。在此基础上，根据(R,G,B)和(R^′,G^′,B^′)计算颜色损失(或说颜色重建损失)L_c，以及根据m和m^′计算掩膜损失L_mask，除此之外，还可根据对象图像和预测图像计算用于保证光滑度的Eikonal正则项损失L_r，然后可利用如下式子计算总损失L：L＝L_c+γL_r+δL_mask，其中，γ和δ均是[0,1]之间的参数。

上述技术方案，通过将掩膜真值作为监督信息，根据掩膜真值和掩膜预测值计算掩膜损失来训练神经辐射场，由此保证了神经辐射场的训练精度。

另一种可选的技术方案，确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，包括：

确定对象图像中各像素点的颜色真值；

以对象图像中的目标对象为前景，对该对象图像进行前景分割，得到目标对象的掩膜图像；

根据掩膜图像，得到对象图像中各像素点的与目标对象对应的掩膜真值。

其中，以对象图像中的目标对象为前景，对该对象图像进行前景分割，即分割出该对象图像中的前景对象(即目标对象)，或是说移除该对象图像中的背景对象，从而可得到该对象图像中的目标对象的掩膜图像。可选的，上述的前景分割过程，可通过U2Net等前景分割模型实现，在此未做具体限定。

进一步，根据掩膜图像，得到对象图像中各像素点的掩膜真值，例如可将掩膜图像中各像素点的像素值，直接作为对象图像中相应的像素点的掩膜真值。

上述技术方案，通过对对象图像进行前景分割以得到目标对象的掩膜图像，从而基于掩膜图像得到该对象图像中各像素点的掩膜真值，这可有效保证掩膜真值的准确性，进而保证了后续针对目标对象进行三维建模时的精准性。

又一种可选的技术方案，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，包括：

确定采集设备在对象图像的采集时刻下的采集位姿；

根据采集位姿，创建从采集时刻下的采集设备，穿过对象图像中的各像素点的射线，并在创建出的各射线上分别进行采样；

根据得到的采样结果，确定采集设备在采集时刻下的采集位置和采集视角。

其中，采集位姿可理解为采集设备在采集时刻下的位姿，可以理解的是，该采集位姿可通过采集位置和采集姿态进行表示。

确定采集位姿。实际应用中，可选的，可通过Colmap等位姿估计工具进行位姿估计，从而得到采集位姿。示例性的，将对象图像输入到Colmap中，并对Colmap输出的文件进行解析，从而可得到该对象图像(或说采集到该对象图像的采集设备)对应的采集位姿。除此外，还可得到采集设备的设备内参。

进一步，根据采集位姿，创建从采集时刻下的采集设备，穿过对象图像中的各像素点的射线，具体说可以是根据采集位姿，分别创建从采集位置，穿过对象图像中的各像素点的射线，即对象图像中的每个像素点分别对应有各自的射线。然后，在创建出的各条射线上分别进行采样，并根据得到的采样结果，确定采集设备在采集时刻下的采集位置和采集视角。

上述技术方案，通过确定采集位姿，并基于采集位姿进行射线创建与采样，由此实现了采集位置和采集视角的准确确定。

再一种可选的技术方案，利用目标神经辐射场渲染出多帧渲染图像，包括：

从多帧对象图像中抽取多帧关键帧图像，并根据多帧关键帧图像分别对应的采集位姿，插值生成多个插值位姿；

针对多个插值位姿中的每个插值位姿，得到采集设备在插值位姿下的插值位置和插值视角；

将插值位置和插值视角输入到目标神经辐射场，并根据目标神经辐射场的输出结果，得到插值视角下的渲染图像。

其中，关键帧图像可理解为从多帧对象图像中抽取的用于生成插值位姿的对象图像。关键帧图像的帧数是多帧。从多帧对象图像中抽取多帧关键帧图像。

根据多帧关键帧图像分别对应的采集位姿，插值生成多个插值位姿，即在多帧关键帧图像分别对应的采集位姿中进行插值，从而生成多个插值位姿。在实际应用中，可选的，在多帧对象图像通过控制采集设备围绕着目标对象进行移动过程中采集得到的情况下，可根据多帧关键帧图像分别对应的采集位姿，确定待生成的多个插值位姿分别对应的渲染图像的运动轨迹，然后根据该运动轨迹，在这些采集位姿中插值生成多个插值位姿。

在实际应用中，可根据从多帧对象图像中抽取得到的多帧关键帧图像分别对应的采集位姿，插值生成多个插值位姿；也可先从多帧对象图像分别对应的采集位姿中抽取出多个关键帧位姿，然后根据这些关键帧位姿，插值生成多个插值位姿；等等，在此未做具体限定。

进一步，针对多个插值位姿中的每个插值位姿，可得到采集设备在该插值位姿下的插值位置和插值视角。示例性的，根据插值位姿得到插值位置，并以该插值位置为起点，创建出多条射线，这些射线好比是穿过该插值位姿对应的渲染图像中的各像素点的射线；然后，在这些射线上分别进行采样以得到五维向量(即插值位置和插值视角)。

再进一步，将插值位置和插值视角输入到目标神经辐射场中，从而可根据目标神经辐射场的输出结果，得到插值视角下的渲染图像，该渲染图像可理解为从插值视角下观测目标对象时所观测到的图像。可以理解的是，这里的插值视角，即为上文中阐述的新视角或是渲染视角。

还一种可选的技术方案，在构建出目标对象的三维模型之后，上述的三维模型构建方法，还包括：

对三维模型进行光滑处理，并基于光滑处理后的三维模型，生成三维文件，对三维文件进行可视化。

其中，在得到三维模型之后，为了保证三维模型表面的光滑性，可对三维模型进行光滑处理，得到光滑处理后的三维模型；然后，根据该光滑处理后的三维模型生成三维文件，在实际应用中，可选的，该三维文件可以是一种或是多种格式下的三维文件，在此未做具体限定；再然后，对三维文件进行可视化，以使用户可浏览到表面光滑的三维模型。

示例性的，可借助PyMeshlab工具包，对三维模型使用二次边折叠抽取(QuadricEdge Collapse Decimation，QEM)算法创建并导出Mesh网格，然后基于此生成GLTF格式的三维文件并进行可视化。

图2是本发明实施例中提供的另一种三维模型构建方法的流程图。本实施例以上述各技术方案为基础进行优化。在本实施例中，可选的，获取多帧对象图像，可包括：获取利用采集设备针对目标对象采集得到的对象视频，其中，在对象视频的采集过程中，采集设备围绕目标对象进行移动；确定对象视频的视频时长，并根据视频时长确定抽样帧率；根据抽样帧率，对对象视频进行抽帧采样，得到多帧对象图像。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图2，本实施例的方法具体可以包括如下步骤：

S210、获取利用采集设备针对目标对象采集到的对象视频，其中，在对象视频的采集过程中，通过控制采集设备围绕着目标对象进行移动，以改变采集设备的采集视角。

其中，为了改变采集设备的采集视角，从而采集到不同采集视角下的对象图像，可控制采集设备围绕着目标对象进行移动，并在移动过程中，针对目标对象采集对象视频，从而可从该对象视频中抽样出不同采集视角下的对象图像。

结合本发明实施例可能涉及的应用场景，可选的，在对象视频采集过程中，具体说在移动采集设备过程中，可注意以下两点：

(1)目标对象尽可能是处于静止状态的静态对象，如果是处于运动状态的动态对象，比如行人或车辆，则在采集对象视频时，可快速移动采集设备；

(2)在目标对象是目标场景的情况下，可将目标场景进行拆分，逐段进行采集，但可保持相邻两个子场景间出现的物体具有一定的重复性，并尽可能从多个采集视角进行采集，以保证目标对象的捕捉完全。

S220、确定对象视频的视频时长，并根据视频时长确定抽样帧率。

其中，视频时长可以理解为对象视频的时长。抽样帧率可理解为针对对象视频进行抽帧采样的频率。确定视频时长，并根据视频时长确定抽样帧率(Frame rate，fps)。换言之，本发明实施例中应用的抽样帧率并非是固定频率，而是与视频时长匹配的动态频率。

S230、根据抽样帧率，对对象视频进行抽帧采样，得到多帧对象图像。

其中，根据抽样帧率进行抽帧采样，从而得到目标对象的多帧对象图像。

在本发明实施例中，视频时长与抽样帧率可呈负相关，即视频时长越长，抽样帧率越小；视频时长越短，抽样帧率越大。这样设置的好处是，可从不同视频时长的对象视频中抽取出帧数大致相同的对象图像，即可保证从不同视频时长的对象视频中抽取出的对象图像的帧数处于预设帧数范围内，这有助于保证后续的模型训练速度，而且与Colmap配合时，可保证Colmap的处理速度。

S240、针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，并将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本。

S250、根据多帧对象图像分别所对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并且利用目标神经辐射场渲染出多帧渲染图像，其中，多帧渲染图像与多帧对象图像分别对应的视角互不相同。

S260、根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。

本发明实施例的技术方案，通过确定与视频时长匹配的抽样帧率，并根据抽样帧率在对象视频中进行抽帧采样，有助于将从不同视频时长下的对象视频中抽取出的对象图像的帧数控制在预设帧数范围内，保证了后续的处理速度。

一种可选的技术方案，根据视频时长确定抽样帧率，包括：

获取到预设的至少一个抽样帧率确定策略，其中，至少一个抽样帧率确定策略中的各抽样帧率确定策略分别对应的视频时长范围互不相同；

根据视频时长以及各抽样帧率确定策略分别对应的视频时长范围，从至少一个抽样帧率确定策略中筛选出目标确定策略；

根据视频时长和目标确定策略，确定抽样帧率。

其中，抽样帧率确定策略可理解为预先设置的用于确定抽样帧率的策略。抽样帧率确定策略的数量可以是一个或多个，这与实际情况有关，在此并未做具体限定。需要说明的是，该一个或多个抽样帧率确定策略中的各个抽样帧率确定策略分别对应的视频时长范围互不相同，即不同的抽样帧率确定策略用于确定不同视频时长范围下的抽样帧率。

根据视频时长以及各抽样帧率确定策略分别对应的视频时长范围，从至少一个抽样帧率确定策略中筛选出目标确定策略。示例性的，可确定各抽样帧率确定策略分别对应的视频时长范围中，涵盖视频时长的目标时长范围，并将各抽样帧率确定策略中与目标时长范围对应的抽样帧率确定策略，作为目标确定策略。进一步，根据视频时长和目标确定策略，确定抽样帧率。

结合本发明实施例可能涉及的应用场景，这里给出一个至少一个抽样帧率确定策略的可选示例。示例性的，如下述式子所示，这里给出了3个视频时长范围分别对应的抽样帧率计算公式，其中，t表示视频时长。根据下述式子可知，fps与t呈现负相关，这有助于将从不同视频时长下的对象视频中抽取出的对象图像的帧数控制在预设帧数范围内：

图3是本发明实施例中提供的又一种三维模型构建方法的流程图。本实施例以上述各技术方案为基础进行优化。本实施例中，可选的，在获取多帧对象图像之后，上述三维模型构建方法，还包括：分别确定多帧对象图像中的各帧对象图像的模糊度；对各帧对象图像的模糊度进行排序，并根据得到的模糊度排序结果，从多帧对象图像中剔除部分对象图像；根据剔除后保留下来的对象图像，对多帧对象图像进行更新。其中，与上述各实施例相同或相应的术语的解释在此不再赘述。

参见图3，本实施例的方法具体可以包括如下步骤：

S310、获取多帧对象图像，其中，多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像。

S320、分别确定多帧对象图像中的各帧对象图像的模糊度。

其中，在采集过程中，考虑到因为采集设备的移动和抖动，可能导致采集到模糊的对象图像，而该模糊的对象图像可能影响到三维建模的精准性。

为了解决上述问题，可分别确定多帧对象图像中的各帧对象图像的模糊度，例如可采取拉普拉斯等算法分别计算每帧对象图像的模糊度，得到多个模糊度。

S330、对各帧对象图像的模糊度进行排序，并根据得到的模糊度排序结果，从多帧对象图像中剔除部分对象图像。

其中，在得到各帧对象图像分别对应的模糊度之后，可对这些模糊度进行排序，并根据得到的模糊度排序结果，从多帧对象图像中剔除部分对象图像。示例性的，这里以针对模糊度从大到小进行排序为例，可剔除模糊度排序结果中排序在前p％的模糊度分别对应的对象图像；也可剔除模糊度排序结果中位于目标模糊度之前的各模糊度分别对应的对象图像，该目标模糊度可理解为模糊度排序结果中首个小于预设模糊度阈值的模糊度；等等，在此未做具体限定。

经过本步骤，可使剔除后保留下来的对象图像具有较好的清晰度。

S340、根据剔除后保留下的对象图像，对多帧对象图像进行更新。

其中，根据剔除后保留下的对象图像，更新多帧对象图像，以使后续应用的对象图像均具有较好的清晰度。

S350、针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，并将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本。

S360、根据多帧对象图像分别所对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并且利用目标神经辐射场渲染出多帧渲染图像，其中，多帧渲染图像与多帧对象图像分别对应的视角互不相同。

S370、根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。

本发明实施例的技术方案，通过剔除多帧对象图像中较为模糊的对象图像，以使后续应用的对象图像具有较好的清晰度，从而保证了三维建模的精准性。

图4是本发明实施例中提供的再一种三维模型构建方法的流程图。本实施例以上述各技术方案为基础进行优化。其中，与上述各实施例相同或是相应的术语的解释在此不再赘述。

参见图4，本实施例的方法具体可以包括如下步骤：

S4010、获取利用采集设备针对目标对象采集到的对象视频，其中，在对象视频的采集过程中，通过控制采集设备围绕着目标对象进行移动，以改变采集设备的采集视角。

S4020、根据对象视频的视频时长，确定出抽样帧率，并根据抽样帧率，对对象视频进行抽帧采样，得到多帧对象图像。

S4030、根据多帧对象图像中的各帧对象图像的模糊度，从多帧对象图像中剔除部分对象图像，并根据剔除后保留下的对象图像，更新多帧对象图像。

S4040、针对多帧对象图像中的每帧对象图像，以对象图像中的目标对象为前景，对对象图像进行前景分割，得到目标对象的掩膜图像，以根据掩膜图像，得到对象图像中各像素点的与目标对象对应的掩膜真值。

S4050、确定采集设备在对象图像的采集时刻下的采集位姿。

S4060、根据采集位姿，确定采集设备在采集时刻下的采集位置和采集视角，并将对象图像中的各像素点的颜色真值和掩膜真值作为期望输出，以及将采集位置和采集视角作为实际输入，构建得到训练样本。

S4070、根据多帧对象图像分别对应的训练样本，针对原始神经辐射场进行训练，得到目标神经辐射场。

S4080、从多帧对象图像中抽取出多帧关键帧图像，并根据多帧关键帧图像分别对应的采集位姿，插值生成多个插值位姿。

S4090、针对多个插值位姿中的每个插值位姿，得到采集设备在插值位姿下的插值位置和插值视角，并将插值位置和插值视角输入到目标神经辐射场中，得到插值视角下的渲染图像。

S4100、根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型，并对三维模型进行光滑处理。

本发明实施例的技术方案，通过确定与视频时长匹配的抽样帧率，并根据抽样帧率在对象视频中进行抽帧采样，有助于将从不同视频时长下的对象视频中抽取的对象图像的帧数控制在预设帧数范围内，从而保证了后续的处理速度；通过剔除多帧对象图像中较为模糊的对象图像，以使后续应用的对象图像具有较好清晰度，保证了三维建模的精准性；通过加入掩膜真值作为监督信息，可提高神经辐射场的训练精度，进而提高基于神经辐射场进行三维建模的精准度。

图5为本发明实施例中提供的三维模型构建装置的结构框图，该装置用于执行上述任意实施例所提供的三维模型构建方法。该装置与上述各实施例的三维模型构建方法属于同一个发明构思，在三维模型构建装置的实施例中未详尽描述的细节内容，可参考上述三维模型构建方法的实施例。参见图5，该装置具体可以包括：对象图像获取模块510、训练样本得到模块520、渲染图像渲染模块530以及三维模型构建模块540。

其中，对象图像获取模块510，用于获取多帧对象图像，其中，多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像；

训练样本得到模块520，用于针对多帧对象图像中的每帧对象图像，确定采集设备在对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，将颜色真值、掩膜真值以及采集位置和采集视角，作为与对象图像对应的训练样本；

渲染图像渲染模块530，用于根据多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并利用目标神经辐射场渲染出多帧渲染图像，多帧渲染图像与多帧对象图像分别对应的采集视角互不相同；

三维模型构建模块540，用于根据多帧对象图像和多帧渲染图像，构建出目标对象的三维模型。

可选的，渲染图像渲染模块530，可以包括：

预测图像得到单元，用于获取原始神经辐射场，并针对多帧对象图像分别对应的训练样本中的每个训练样本，将训练样本中的采集位置和采集视角输入到原始神经辐射场中，根据原始神经辐射场的输出结果，得到预测图像；

掩膜预测值确定单元，用于确定预测图像中各像素点的颜色预测值，以及确定预测图像中各像素点的与目标对象对应的掩膜预测值；

掩膜损失得到单元，可用于根据颜色预测值与训练样本中的颜色真值进行颜色损失计算，得到颜色损失，以及根据掩膜预测值与训练样本中的掩膜真值进行掩膜损失计算，得到掩膜损失；

神经辐射场训练单元，用于根据颜色损失和掩膜损失，得到总损失，基于总损失，对原始神经辐射场中的参数进行调整，以训练得到目标神经辐射场。

可选的，训练样本得到模块520，可以包括：

颜色真值确定单元，用于确定对象图像中各像素点的颜色真值；

掩膜图像得到单元，用于以对象图像中的目标对象为前景，对对象图像进行前景分割，得到目标对象的掩膜图像；

掩膜真值得到单元，用于根据掩膜图像，得到对象图像中的各像素点的与目标对象对应的掩膜真值。

可选的，对象图像获取模块510，包括：

对象视频获取单元，用于获取利用采集设备针对目标对象采集得到的对象视频，其中，在对象视频的采集过程中，采集设备围绕目标对象进行移动；

抽样帧率确定单元，用于确定对象视频的视频时长，并根据视频时长确定抽样帧率；

对象图像得到单元，用于根据抽样帧率，对对象视频进行抽帧采样，得到多帧对象图像。

在此基础上，可选的，抽样帧率确定单元，包括：

抽样帧率确定策略获取子单元，用于获取到预设的至少一个抽样帧率确定策略，其中，至少一个抽样帧率确定策略中的各抽样帧率确定策略分别对应的视频时长范围互不相同；

目标确定策略筛选子单元，用于根据视频时长以及各抽样帧率确定策略分别对应的视频时长范围，从至少一个抽样帧率确定策略中筛选出目标确定策略；

抽样帧率确定子单元，用于根据视频时长和目标确定策略，确定抽样帧率。

可选的，上述的三维模型构建装置，还包括：

模糊度确定模块，用于在获取多帧对象图像之后，分别确定多帧对象图像中的各帧对象图像的模糊度；

对象图像剔除模块，用于对各帧对象图像的模糊度进行排序，并根据得到的模糊度排序结果，从多帧对象图像中剔除部分对象图像；

对象图像更新模块，用于根据剔除后保留下的对象图像，对多帧对象图像进行更新。

可选的，训练样本得到模块520，包括：

采集位姿确定单元，可用于确定采集设备在对象图像的采集时刻下的采集位姿；

采样单元，用于根据采集位姿，创建从采集时刻下的采集设备，穿过对象图像中的各像素点的射线，并在创建出的各射线上分别进行采样；

采集视角确定单元，用于根据得到的采样结果，确定采集设备在采集时刻下的采集位置和采集视角。

可选的，渲染图像渲染模块530，包括：

插值位姿生成单元，用于从多帧对象图像中抽取多帧关键帧图像，并根据多帧关键帧图像分别对应的采集位姿，插值生成多个插值位姿；

插值视角得到单元，用于针对多个插值位姿中的每个插值位姿，得到采集设备在插值位姿下的插值位置和插值视角；

渲染图像得到单元，用于将插值位置和插值视角输入到目标神经辐射场，并根据目标神经辐射场的输出结果，得到插值视角下的渲染图像。

可选的，上述的三维模型构建装置，还包括：

可视化模块，用于在构建出目标对象的三维模型后，对三维模型进行光滑处理，并基于光滑处理后的三维模型生成三维文件，对三维文件进行可视化。

本发明实施例所提供的三维模型构建装置，通过对象图像获取模块，获取利用采集设备在不同采集视角下对目标对象采集到的多帧对象图像；通过训练样本得到模块，针对多帧对象图像中的每帧对象图像，确定采集设备在该对象图像的采集时刻下的采集位置和采集视角，并确定对象图像中各像素点的颜色真值以及与目标对象对应的掩膜真值，然后将颜色真值、掩膜真值、采集位置和采集视角，作为与对象图像对应的训练样本；通过渲染图像渲染模块，根据多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并利用目标神经辐射场渲染出新视角下的多帧渲染图像；通过三维模型构建模块，根据多帧对象图像和多帧渲染图像，构建目标对象的三维模型。上述装置，在神经辐射场的训练过程中，通过加入掩膜真值作为监督信息，可提高神经辐射场的训练精度，进而提高基于神经辐射场进行三维建模的精准度。

本发明实施例所提供的三维模型构建装置可执行本发明任意实施例所提供的三维模型构建方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述三维模型构建装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种三维模型构建方法，其特征在于，包括：

获取多帧对象图像，其中，所述多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像；

针对所述多帧对象图像中的每帧对象图像，确定所述采集设备在所述对象图像的采集时刻下的采集位置和采集视角，并确定所述对象图像中各像素点的颜色真值以及与所述目标对象对应的掩膜真值，并将所述颜色真值、所述掩膜真值以及所述采集位置和采集视角，作为与所述对象图像对应的训练样本；

根据所述多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并利用所述目标神经辐射场渲染出多帧渲染图像，其中，所述多帧渲染图像与所述多帧对象图像分别对应的视角互不相同；

根据所述多帧对象图像和所述多帧渲染图像，构建出所述目标对象的三维模型；

其中，获取多帧对象图像，包括：

获取利用所述采集设备针对所述目标对象采集得到的对象视频，其中，在所述对象视频的采集过程中，所述采集设备围绕所述目标对象进行移动；

确定所述对象视频的视频时长，并根据所述视频时长确定抽样帧率；其中，所述视频时长与抽样帧率呈负相关；

根据所述抽样帧率，对所述对象视频进行抽帧采样，得到多帧对象图像；

其中，所述根据所述视频时长确定抽样帧率，包括：

获取到预设的至少一个抽样帧率确定策略，其中，所述抽样帧率确定策略为预先设置的用于确定抽样帧率的策略，所述至少一个抽样帧率确定策略中的各抽样帧率确定策略分别对应的视频时长范围互不相同；

根据所述视频时长以及所述各抽样帧率确定策略分别对应的视频时长范围，从所述至少一个抽样帧率确定策略中筛选出目标确定策略；

根据所述视频时长和所述目标确定策略，确定抽样帧率。

2.根据权利要求1所述的方法，其特征在于，根据所述多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，包括：

获取原始神经辐射场，并针对所述多帧对象图像分别对应的训练样本中的每个训练样本，将所述训练样本中的所述采集位置和采集视角输入到所述原始神经辐射场中，根据所述原始神经辐射场的输出结果，得到预测图像；

确定所述预测图像中各像素点的颜色预测值，以及确定所述预测图像中各像素点的与所述目标对象对应的掩膜预测值；

根据所述颜色预测值与所述训练样本中的所述颜色真值进行颜色损失计算，得到颜色损失，以及根据所述掩膜预测值与所述训练样本中的所述掩膜真值进行掩膜损失计算，得到掩膜损失；

根据所述颜色损失和所述掩膜损失，得到总损失，并基于所述总损失，对所述原始神经辐射场中的参数进行调整，以训练得到目标神经辐射场。

3.根据权利要求1所述的方法，其特征在于，所述确定所述对象图像中各像素点的颜色真值以及与所述目标对象对应的掩膜真值，包括：

确定所述对象图像中各像素点的颜色真值；

以所述对象图像中的所述目标对象为前景，对所述对象图像进行前景分割，得到所述目标对象的掩膜图像；

根据所述掩膜图像，得到所述对象图像中各像素点的与所述目标对象对应的掩膜真值。

4.根据权利要求1所述的方法，其特征在于，在所述获取多帧对象图像之后，还包括：

分别确定所述多帧对象图像中的各帧对象图像的模糊度；

对所述各帧对象图像的模糊度进行排序，并根据得到的模糊度排序结果，从所述多帧对象图像中剔除部分对象图像；

根据剔除后保留下的对象图像，对所述多帧对象图像进行更新。

5.根据权利要求1所述的方法，其特征在于，所述确定所述采集设备在所述对象图像的采集时刻下的采集位置和采集视角，包括：

确定所述采集设备在所述对象图像的采集时刻下的采集位姿；

根据所述采集位姿，创建出从所述采集时刻下的所述采集设备，穿过所述对象图像中的各像素点的射线，并在创建出的各射线上分别进行采样；

根据得到的采样结果，确定所述采集设备在所述采集时刻下的采集位置和采集视角。

6.根据权利要求1所述的方法，其特征在于，所述利用所述目标神经辐射场渲染出多帧渲染图像，包括：

从所述多帧对象图像中抽取多帧关键帧图像，并根据所述多帧关键帧图像分别对应的采集位姿，插值生成多个插值位姿；

针对所述多个插值位姿中的每个插值位姿，得到所述采集设备在所述插值位姿下的插值位置和插值视角；

将所述插值位置和插值视角输入到所述目标神经辐射场，并根据所述目标神经辐射场的输出结果，得到所述插值视角下的渲染图像。

7.根据权利要求1所述的方法，其特征在于，在所述构建出所述目标对象的三维模型之后，还包括：

对所述三维模型进行光滑处理，并基于光滑处理后的所述三维模型，生成三维文件，对所述三维文件进行可视化。

8.一种三维模型构建装置，其特征在于，包括：

对象图像获取模块，用于获取多帧对象图像，其中，所述多帧对象图像为利用采集设备在不同采集视角下针对目标对象采集得到的图像；

训练样本得到模块，用于针对所述多帧对象图像中的每帧对象图像，确定所述采集设备在所述对象图像的采集时刻下的采集位置和采集视角，并确定所述对象图像中各像素点的颜色真值以及与所述目标对象对应的掩膜真值，并将所述颜色真值、所述掩膜真值以及所述采集位置和采集视角，作为与所述对象图像对应的训练样本；

渲染图像渲染模块，用于根据所述多帧对象图像分别对应的训练样本，对原始神经辐射场进行训练，得到目标神经辐射场，并利用所述目标神经辐射场渲染出多帧渲染图像，其中，所述多帧渲染图像与所述多帧对象图像分别对应的视角互不相同；

三维模型构建模块，用于根据所述多帧对象图像以及所述多帧渲染图像，构建出所述目标对象的三维模型；

其中，所述对象图像获取模块，包括：

抽样帧率确定单元，用于确定对象视频的视频时长，并根据视频时长确定抽样帧率；其中，所述视频时长与抽样帧率呈负相关；

对象图像得到单元，用于根据抽样帧率，对对象视频进行抽帧采样，得到多帧对象图像；

其中，抽样帧率确定单元，包括：

抽样帧率确定策略获取子单元，用于获取到预设的至少一个抽样帧率确定策略，其中，所述抽样帧率确定策略为预先设置的用于确定抽样帧率的策略，至少一个抽样帧率确定策略中的各抽样帧率确定策略分别对应的视频时长范围互不相同；