CN116824092B

CN116824092B - 三维模型生成方法、装置、计算机设备和存储介质

Info

Publication number: CN116824092B
Application number: CN202311087786.0A
Authority: CN
Inventors: 周会祥
Original assignee: Shenzhen Xingfang Technology Co ltd
Current assignee: Shenzhen Xingfang Technology Co ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-19
Anticipated expiration: 2043-08-28
Also published as: CN116824092A

Abstract

本申请涉及一种三维模型生成方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像；将目标物品的物品描述文本和渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声；根据预测噪声，对目标物品的初始神经辐射场进行更新，得到与物品描述文本匹配的更新后神经辐射场；将更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型；对三维网格模型进行可微分渲染，得到目标物品的目标三维模型。采用本方法能够减少三维模型生成对数据集的依赖，并提高三维模型的生成效果。

Description

三维模型生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种三维模型生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机视觉领域中的三维模型技术的不断发展，越来越多的行业使用三维模型来展示物品，例如通过珠宝饰品的三维模型进行首饰展示。

目前，生成三维模型时需要使用大规模的图像数据集，图像采集和图像处理占时较多，导致三维模型的生成效率较低。若减少数据集的数量，则导致生成的三维模型的质量不佳，因此，目前的三维模型生成方法存在三维模型的生成质量对数据集依赖度较高的缺陷。

发明内容

基于此，有必要针对上述技术问题，提供一种能够减少三维模型生成对数据集的依赖、并提高三维模型的生成效果的三维模型生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种三维模型生成方法。所述方法包括：

对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到所述目标物品的渲染图像；

将所述目标物品的物品描述文本和所述渲染图像，输入至噪声预测模型中，得到所述渲染图像的预测噪声；

根据所述预测噪声，对所述目标物品的初始神经辐射场进行更新，得到与所述物品描述文本匹配的更新后神经辐射场；

将所述更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型；

对所述三维网格模型进行可微分渲染，得到所述目标物品的目标三维模型。

在其中一个实施例中，对所述三维网格模型进行可微分渲染，得到所述目标物品的目标三维模型，包括：

对所述三维网格模型进行可微分渲染，得到可微分渲染后图像；

根据获取到的噪声数据，对所述可微分渲染后图像进行噪声添加处理，得到所述可微分渲染后图像的噪声图像；

将所述目标物品的物品描述文本和所述噪声图像，输入至所述噪声预测模型中，得到所述噪声图像的预测噪声；

根据所述噪声图像的预测噪声与所述噪声数据之间的差异，对所述三维网格模型进行更新，得到所述目标物品的目标三维模型。

在其中一个实施例中，将所述更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型，包括：

根据所述更新后神经辐射场中的体密度，得到所述目标物品的符号距离场；

根据所述符号距离场，确定所述目标物品的四面体网格；

根据所述更新后神经辐射场中的颜色信息，确定所述目标物品的纹理辐射场；

由所述四面体网格和所述纹理辐射场构建得到所述目标物品的三维网格模型。

在其中一个实施例中，将所述目标物品的物品描述文本和所述渲染图像，输入至噪声预测模型中，得到所述渲染图像的预测噪声，包括：

获取所述渲染图像进行噪声添加处理后得到的处理后渲染图像，以及获取所述物品描述文本的文本嵌入信息；

将所述文本嵌入信息和所述处理后渲染图像，输入至所述噪声预测模型中，得到所述渲染图像的预测噪声。

在其中一个实施例中，获取所述渲染图像进行噪声添加处理后得到的处理后渲染图像，以及获取所述物品描述文本的文本嵌入信息，包括：

采样得到图像维度与所述渲染图像的图像维度相等的样本噪声；

根据所述样本噪声，对所述渲染图像进行噪声添加处理，得到所述渲染图像的处理后渲染图像；

对所述目标物品的物品描述文本进行编码处理，得到所述物品描述文本的文本嵌入信息。

在其中一个实施例中，根据所述预测噪声，对所述目标物品的初始神经辐射场进行更新，得到与所述物品描述文本匹配的更新后神经辐射场，包括：

确定所述渲染图像的预测噪声与所述样本噪声之间的噪声误差；

根据所述噪声误差，对所述初始神经辐射场的参数进行更新，得到与所述物品描述文本匹配的更新后神经辐射场。

在其中一个实施例中，在对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到所述目标物品的渲染图像之前，还包括：

在球面坐标系中，对基于所述目标物品的相机位置和相机方向得到的射线进行采样，得到所述射线上的采样点；

将所述采样点和所述采样点的相机方向，输入至体密度预测模型中，得到所述采样点的体密度和颜色信息；

所述对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到所述目标物品的渲染图像，包括：

对所述采样点的所述体密度和所述颜色信息进行体渲染，得到所述目标物品在所述相机位置和所述相机方向对应的渲染图像。

第二方面，本申请还提供了一种三维模型生成装置。所述装置包括：

渲染图像获取模块，用于对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到所述目标物品的渲染图像；

预测噪声获取模块，用于将所述目标物品的物品描述文本和所述渲染图像，输入至噪声预测模型中，得到所述渲染图像的预测噪声；

辐射场更新模块，用于根据所述预测噪声，对所述目标物品的初始神经辐射场进行更新，得到与所述物品描述文本匹配的更新后神经辐射场；

辐射场转换模块，用于将所述更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型；

三维模型获取模块，用于对所述三维网格模型进行可微分渲染，得到所述目标物品的目标三维模型。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述三维模型生成方法、装置、计算机设备、存储介质和计算机程序产品，对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像；将目标物品的物品描述文本和渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声；根据预测噪声，对目标物品的初始神经辐射场进行更新，得到与物品描述文本匹配的更新后神经辐射场；将更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型；对三维网格模型进行可微分渲染，得到目标物品的目标三维模型。采用本方法，解决了传统三维模型生成技术严重依赖于目标物品的图像质量和图像数量的技术缺陷，能够通过相机位置的采样点的颜色信息处理得到目标物品的渲染图像，进而通过渲染图像的预测噪声来不断更新完善神经辐射场，从而利用更新后神经辐射场构建得到目标物品的目标三维模型，在减少了生成三维模型对数据集的依赖的同时，还提高了三维模型的生成效果。

附图说明

图1为一个实施例中三维模型生成方法的流程示意图；

图2为一个实施例中得到目标物品的目标三维模型步骤的流程示意图；

图3为一个实施例中得到目标物品的渲染图像步骤的流程示意图；

图4为另一个实施例中三维模型生成方法的流程示意图；

图5为又一个实施例中三维模型生成方法的流程示意图；

图6为一个实施例中三维模型生成装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

在一个实施例中，如图1所示，提供了一种三维模型生成方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等。本实施例中，该方法包括以下步骤：

步骤S101，对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像。

其中，目标物品可以是珠宝首饰、箱包、眼镜等饰品。相机位置是指假定用于拍摄目标物品的相机的位置。颜色信息是指采样点的颜色值，例如颜色信息可以是RGB（红、绿、蓝）形式的颜色值。

具体地，终端可以在球面坐标系中随机采样目标物品的相机位置，然后确定该相机位置关联的射线，并按照预设的采样范围在射线上进行采样，得到多个采样点。终端确定采样点的颜色信息和体密度，通过对该采样点的颜色信息和体密度进行体渲染，可以得到目标物品在该相机位置对应的渲染图像，解决了传统三维模型生成技术对物品图像质量和图像数量的依赖，通过步骤S101能够处理得到大量不同相机位置的渲染图像，在提升了可利用图像数量的同时，还提高了得到的渲染图像的多样性。

步骤S102，将目标物品的物品描述文本和渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声。

其中，噪声预测模型是指用于预测添加到图像中的噪声的模型。预测噪声是指通过噪声预测模型预测出往渲染图像中添加的噪声。噪声预测模型可以是由扩散模型构成的，进而由扩散模型构成的噪声预测模型输出的预测噪声包括预测扩散噪声，即预测噪声可以是预测出的扩散的噪声。

具体地，终端在渲染图像中添加与其图像维度相等的样本噪声，得到渲染图像的处理后渲染图像。终端接收用户针对目标物品输入的物品描述文本，进而将物品描述文本（或者物品描述文本经过处理后的数据）和处理后渲染图像，输入至由扩散模型构成的噪声预测模型中，以通过扩散模基于文本数据（如物品描述文本）对图像进行反向去噪扩散处理，则终端得到渲染图像的预测扩散噪声，即预测噪声。

步骤S103，根据预测噪声，对目标物品的初始神经辐射场进行更新，得到与物品描述文本匹配的更新后神经辐射场。

其中，更新后神经辐射场是目标物品的初始三维模型载体。

具体地，终端预先构建目标物品的初始神经辐射场。终端确定预测噪声与添加到渲染图像中的样本噪声之间的噪声差异，将该噪声差异通过反向传播计算梯度，然后根据计算得到的梯度对目标物品的初始神经辐射场的参数进行更新，经过多次迭代更新后，终端得到与物品描述文本匹配的更新后神经辐射场。

步骤S104，将更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型。

其中，三维网格模型中包含有模型的顶点、纹理等几何信息。

具体地，终端基于更新后神经辐射场初始化目标物品的三维网格模型，可以是根据更新后神经辐射场中的顶点，构建可变形四面体网格，以通过可变形四面体网格来表示目标物品的几何结构；根据更新后神经辐射场中的颜色信息，来确定纹理辐射场，以通过纹理辐射场来表示目标物品的纹理。终端结合四面体网格和纹理辐射场，得到目标物品的三维网格模型。

步骤S105，对三维网格模型进行可微分渲染，得到目标物品的目标三维模型。

其中，目标三维模型是指经过渲染、参数更新后的三维网格模型。

具体地，终端可以通过可微分渲染器，将四面体网格和纹理辐射场渲染为预设分辨率（例如256*256）的可微分渲染后图像，并通过可微分渲染器获取可微分渲染后图像中各像素投影的三维坐标，以通过该三维坐标从纹理辐射场中查询各像素的颜色信息，进而采用与上述步骤S102至步骤S104同理的方式，利用可微分渲染后图像来更新迭代三维网格模型，则终端得到目标物品的目标三维模型。

上述三维模型生成方法中，对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像；将目标物品的物品描述文本和渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声；根据预测噪声，对目标物品的初始神经辐射场进行更新，得到与物品描述文本匹配的更新后神经辐射场；将更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型；对三维网格模型进行可微分渲染，得到目标物品的目标三维模型。采用本方法，解决了传统三维模型生成技术严重依赖于目标物品的图像质量和图像数量的技术缺陷，能够通过相机位置的采样点的颜色信息处理得到目标物品的渲染图像，进而通过渲染图像的预测噪声来不断更新完善神经辐射场，从而利用更新后神经辐射场构建得到目标物品的目标三维模型，在减少了生成三维模型对数据集的依赖的同时，还提高了三维模型的生成效果。

在一个实施例中，如图2所示，上述步骤S105，对三维网格模型进行可微分渲染，得到目标物品的目标三维模型，具体包括如下内容：

步骤S201，对三维网格模型进行可微分渲染，得到可微分渲染后图像。

具体地，终端可以在三维网格模型上采样得到相机位置和相机方向，并通过可微分渲染器进行渲染，得到该相机位置和相机方向对应的预设分辨率（例如256*256）的可微分渲染后图像。其中，由于可微分渲染图像是从质量更高的可变形四面体网格和纹理辐射场中渲染得到的，所以可微分渲染后图像的分辨率高于渲染图像的分辨率。渲染图像的分辨率可以是64*64。

步骤S202，根据获取到的噪声数据，对可微分渲染后图像进行噪声添加处理，得到可微分渲染后图像的噪声图像。

具体地，终端随机采样图像维度与可微分渲染后图像的图像维度相等的噪声数据；其中，噪声数据可以是高斯噪声。终端在预设均匀分布中随机采样扩散时间步长t；其中，预设均匀分布可以是μ(0.02,0.98)。然后终端根据扩散时间步长，将可微分渲染后图像和噪声数据进行融合，例如可以是将可微分渲染后图像和噪声数据以(1-t) :t的比例进行融合，则终端得到可微分渲染后图像加入噪声后的噪声图像。

步骤S203，将目标物品的物品描述文本和噪声图像，输入至噪声预测模型中，得到噪声图像的预测噪声。

具体地，终端接收用户针对目标物品输入的物品描述文本，并将物品描述文本转换为文本嵌入信息。终端将文本嵌入信息、噪声图像和扩散时间步长输入噪声预测模型中，以通过扩散模型基于文本嵌入信息和扩散时间步长对图像进行反向去噪扩散处理，则终端得到噪声图像的预测扩散噪声，即预测噪声。

步骤S204，根据噪声图像的预测噪声与噪声数据之间的差异，对三维网格模型进行更新，得到目标物品的目标三维模型。

具体地，终端计算噪声图像的预测噪声与可微分渲染后图像中添加的噪声数据之间的噪声差异，即。将该噪声差异通过反向传播计算梯度，然后根据计算得到的梯度对三维网格模型的参数进行更新，经过多次迭代更新后，终端得到与物品描述文本匹配的目标三维模型。

本实施例中，通过对三维网格模型进行可微分渲染，得到可微分渲染后图像；根据获取到的噪声数据，对可微分渲染后图像进行噪声添加处理，得到可微分渲染后图像的噪声图像；将目标物品的物品描述文本和噪声图像，输入至噪声预测模型中，得到噪声图像的预测噪声；进而利用噪声图像的预测噪声与噪声数据之间的差异，不断迭代更新三维网格模型的参数，以对目标物品的四面体网格和纹理辐射场进行迭代优化，使四面体网格逐渐逼近目标物品的实际的几何结构，使纹理辐射场不断逼近目标物品实际的纹理，使得得到目标物品的目标三维模型与物品描述文本愈加匹配，从而提高了目标物品的三维模型的生成效果和精确性。

在一个实施例中，上述步骤S104，将更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型，具体包括如下内容：根据更新后神经辐射场中的体密度，得到目标物品的符号距离场；根据符号距离场，确定目标物品的四面体网格；根据更新后神经辐射场中的颜色信息，确定目标物品的纹理辐射场；由四面体网格和纹理辐射场构建得到目标物品的三维网格模型。

其中，纹理辐射场和颜色辐射场都可以视为辐射场。

具体地，终端获取更新后神经辐射场中各顶点对应的体密度，将各顶点的体密度减去所有顶点的体密度的平均值，得到各顶点对应的符号距离场值，进而由各顶点对应的符号距离场值确定符号距离场；终端通过符号距离场和顶点，构建得到四面体网格，其中，每个顶点包含一个符号距离场（Signed Distance Field，SDF）值和该顶点从其初始坐标的移动距离。根据更新后神经辐射场中的颜色辐射场具备颜色信息，进而可以由颜色辐射场来表示目标物品的纹理辐射场，即使用颜色辐射场来表示目标物品的三维网格模型的纹理。终端结合四面体网格和纹理辐射场，来初始化表示目标物品的三维网格模型。

在本实施例中，通过更新后神经辐射场，确定目标物品的四面体网格和纹理辐射场；然后由四面体网格和纹理辐射场构建得到目标物品的三维网格模型，实现了目标物品的三维模型的初始化构建，四面体网格可以准确表征物品的几何结构，而经过多次更新迭代得到的更新后神经辐射场具有较为准确的参数，通过更新后神经辐射场的颜色辐射场来表征目标物品的纹理，大大提升了目标物品的三维建模效果。

在一个实施例中，上述步骤S102，将目标物品的物品描述文本和渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声，具体包括如下内容：获取渲染图像进行噪声添加处理后得到的处理后渲染图像，以及获取物品描述文本的文本嵌入信息；将文本嵌入信息和处理后渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声。

其中，文本嵌入信息是指能够表征物体描述文本语义的信息。

具体地，终端根据扩散时间步长，在渲染图像中添加与其图像维度相等的样本噪声，得到渲染图像的处理后渲染后图像。终端对物品描述文本进行文本编码处理，得到物品描述文本的文本嵌入信息。终端将文本嵌入信息、噪声图像和扩散时间步长作为噪声预测模型的输入，噪声预测模型输出噪声图像的预测扩散噪声，即预测噪声，终端通过基于扩散模型的噪声预测模型训练迭代神经辐射场。

在本实施例中，通过扩散时间步长往渲染图像中添加样本噪声，能够得到一系列噪声程度不同的加噪图像，即处理后渲染图像；通过特征信息更显著的文本嵌入信息和处理后渲染图像作为噪声预测模型的输入，能够进一步提高噪声预测模型的输出准确度，从而提高对神经辐射场的更新效果。

在一个实施例中，获取渲染图像进行噪声添加处理后得到的处理后渲染图像，以及获取物品描述文本的文本嵌入信息，具体包括如下内容：采样得到图像维度与渲染图像的图像维度相等的样本噪声；根据样本噪声，对渲染图像进行噪声添加处理，得到渲染图像的处理后渲染图像；对目标物品的物品描述文本进行编码处理，得到物品描述文本的文本嵌入信息。

其中，样本噪声与上述步骤S204中的噪声数据，均是用于添加到图像中的噪声（如高斯噪声），但样本噪声是指添加到渲染图像中的噪声，噪声数据是指添加到可微分渲染后图像中的噪声。

具体地，终端随机采样图像维度与渲染图像的图像维度相等的样本噪声；其中，噪声数据可以是高斯噪声。终端在预设均匀分布中随机采样扩散时间步长t；其中，预设均匀分布可以是μ(0.02,0.98)。然后终端根据扩散时间步长t，确定噪声融合比例，并按照噪声融合比例将渲染图像和样本噪声进行融合，例如可以是将渲染图像和样本噪声以(1-t) :t的比例进行融合，则终端得到渲染图像加入噪声后的处理后渲染图像。

进一步地，在球面坐标系中随机采样球坐标角度，终端可以根据球坐标角度，将用户输入的物体描述文本添加上方位描述词，以获取对应方位的监督信息，之后终端将句子进行分词，将纯文本的自然语言拆分为单词组成的一段序列，使用基于对比学习的多模态模型（Contrastive Language-Image Pre-Training，CLIP）将序列中的每个单词映射到词嵌入向量，并进行序列填充得到固定维度的文本嵌入矩阵，可以将预设维度的文本嵌入矩阵作为文本嵌入信息；其中，预设维度可以是维度（77,768）。由于多模态模型能够将文本信息与图像信息相关联，最终得到的文本嵌入信息能够使得监督信息很大程度的符合用户对于珠宝外观的描述，令最终渲染出的图像与用户描述保持高度一致性，进而使得最终生成的三维模型与用户描述保持高度一致。

在本实施例中，终端使用与渲染图像的图像维度相等的样本噪声，并基于扩散时间步长对渲染图像进行噪声添加处理，得到一系列噪声程度不同的处理后渲染图像；通过对目标物品的物品描述文本进行编码处理，来得到具备语义信息的文本嵌入信息，实现了处理后渲染图像和文本嵌入信息的合理获取，以便后续步骤中以处理后渲染图像和文本嵌入信息为依据，通过噪声预测模型训练神经辐射场。

在一个实施例中，步骤S103，根据预测噪声，对目标物品的初始神经辐射场进行更新，得到与物品描述文本匹配的更新后神经辐射场，具体包括如下内容：确定渲染图像的预测噪声与样本噪声之间的噪声误差；根据噪声误差，对初始神经辐射场的参数进行更新，得到与物品描述文本匹配的更新后神经辐射场。

具体地，终端计算渲染图像的预测噪声与渲染图像中添加的样本噪声之间的噪声误差，即。将该噪声误差通过反向传播计算梯度，然后根据计算得到的梯度对初始神经辐射场的参数进行更新，经过多次迭代更新后，终端得到与物品描述文本匹配的更新后神经辐射场。

在本实施例中，通过渲染图像的预测噪声与样本噪声之间的噪声误差，对初始神经辐射场的参数进行迭代优化，使得更新后神经辐射场愈加与物品描述文本相匹配，提高了更新后神经辐射场的准确性。

在一个实施例中，如图3所示，在上述步骤S101，对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像之前，还包括：

步骤S301，在球面坐标系中，对基于目标物品的相机位置和相机方向得到的射线进行采样，得到射线上的采样点。

具体地，根据预设采样范围，在球面坐标系中进行随机采样；其中，预设采样范围可以针对球面坐标系中的极角、方位角和到原点的距离分别进行设置。例如，对于球面坐标系中的极角，采样范围为[-10°，90°]；对于球面坐标系中的方位角，采样范围为[0°，360°]；对于到原点的距离，采样范围为[1，1.5]。然后终端将球面坐标系的采样结果转换为表征相机位置的三维向量。终端预先设置渲染图像的像素中心坐标，以像素中心坐标为终点，以相机位置为起点，得到相机方向；进而以相机位置为射线起点，以相机方向为射线方向，确定射线；在该射线上进行多次采样得到多个采样点。

步骤S302，将采样点和采样点的相机方向，输入至体密度预测模型中，得到采样点的体密度和颜色信息。

其中，体密度预测模型是指用于预测采样点对应的体密度和颜色信息的模型。体密度预测模型可以由多层感知机（Multilayer Perceptron，MLP）实现。

具体地，终端将采样点和采样点的相机方向作为体密度预测模型的输入，预先训练的体密度预测模型输出采样点的体密度和颜色信息；其中，颜色信息是体密度预测模型基于采样点和采样点的相机方向输出的预测值。

如图3所示，上述步骤S101，对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像，具体包括如下内容：步骤S303，对采样点的体密度和颜色信息进行体渲染，得到目标物品在相机位置和相机方向对应的渲染图像。

具体地，终端可以通过体渲染公式，对射线上各体密度和颜色信息进行体渲染，得到该射线对应的像素颜色；进而终端由射线对应的像素颜色确定目标物品在该相机位置和相机方向对应的渲染图像。

在实际应用中，体渲染公式可以表示为：

式中，C(r)表示像素颜色；N表示采样点的总数量；T _i表示第i个采样点从相机位置出发沿相机方向的累计透射率；σ_i表示第i个采样点的体密度；c _i表示第i个采样点的颜色信息；δ_i表示第i个采样点与第i-1个采样点之间的距离。

在本实施例中，首先在基于相机位置和相机方向得到的射线上采样得到采样点；然后将采样点和采样点的相机方向输入体密度预测模型中，得到采样点的体密度和颜色信息；进而对体密度和颜色信息进行体渲染得到像素颜色，并基于像素颜色确定目标物品在相机位置和相机方向对应的渲染图像，实现了多角度、多位置的渲染图像的生成，即使目标物品的原始拍摄的数据集规模小且多样性差，也能通过自动生成目标物品不同角度、不同位置的渲染图像，为提高目标物品的三维模型的建模效果奠定基础。

在一个实施例中，如图4所示，提供了另一种三维模型生成方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S401，在球面坐标系中，对基于目标物品的相机位置和相机方向得到的射线进行采样，得到射线上的采样点；将采样点和采样点的相机方向，输入至体密度预测模型中，得到采样点的体密度和颜色信息。

步骤S402，对采样点的体密度和颜色信息进行体渲染，得到目标物品在相机位置和相机方向对应的渲染图像。

步骤S403，采样得到图像维度与渲染图像的图像维度相等的样本噪声；根据样本噪声，对渲染图像进行噪声添加处理，得到渲染图像的处理后渲染图像。

步骤S404，对目标物品的物品描述文本进行编码处理，得到物品描述文本的文本嵌入信息。

步骤S405，将文本嵌入信息和处理后渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声。

步骤S406，确定渲染图像的预测噪声与样本噪声之间的噪声误差；根据噪声误差，对初始神经辐射场的参数进行更新，得到与物品描述文本匹配的更新后神经辐射场。

步骤S407，根据更新后神经辐射场中的体密度，得到目标物品的符号距离场；根据符号距离场，确定目标物品的四面体网格；根据更新后神经辐射场中的颜色信息，确定目标物品的纹理辐射场。

步骤S408，由四面体网格和纹理辐射场构建得到目标物品的三维网格模型。

步骤S409，对三维网格模型进行可微分渲染，得到可微分渲染后图像；根据获取到的噪声数据，对可微分渲染后图像进行噪声添加处理，得到可微分渲染后图像的噪声图像。

步骤S410，将目标物品的物品描述文本和噪声图像，输入至噪声预测模型中，得到噪声图像的预测噪声。

步骤S411，根据噪声图像的预测噪声与噪声数据之间的差异，对三维网格模型进行更新，得到目标物品的目标三维模型。

上述三维模型生成方法，能够实现以下有益效果：解决了传统三维模型生成技术严重依赖于目标物品的图像质量和图像数量的技术缺陷，能够通过相机位置的采样点的颜色信息处理得到目标物品的渲染图像，进而通过渲染图像的预测噪声来不断更新完善神经辐射场，从而利用更新后神经辐射场构建得到目标物品的目标三维模型，在减少了生成三维模型对数据集的依赖的同时，还提高了三维模型的生成效果。

为了更清晰阐明本公开实施例提供的三维模型生成方法，以下以一个具体的实施例对上述三维模型生成方法进行具体说明。如图5所示，提供了又一种三维模型生成方法，可以应用于终端，具体包括如下内容：

终端根据预设采样范围，在球面坐标系中进行随机采样相机位置，并通过对该采样点的颜色信息和体密度进行体渲染，可以得到目标物品在该相机位置对应的渲染图像。终端使用由渲染图像添加噪声后得到的处理后渲染图像，以及用户针对目标物品输入的物品描述文本作为扩散模型的输入，使用扩散模型输出的预测噪声反向传播更新初始神经辐射场的参数，得到更新后神经辐射场；之后将训练好的更新后神经辐射场转为由可变形四面体网格和纹理辐射场构成的三维网格模型。终端再次使用扩散模型输出的预测噪声更新优化三维网格模型，得到目标物品的目标三维模型。

在本实施例中，解决了传统三维模型生成技术严重依赖于目标物品的图像质量和图像数量的技术缺陷，能够通过相机位置的采样点的颜色信息处理得到目标物品的渲染图像，进而通过渲染图像的预测噪声来不断更新完善神经辐射场，从而利用更新后神经辐射场构建得到目标物品的目标三维模型，在减少了生成三维模型对数据集的依赖的同时，还提高了三维模型的建模效果。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的三维模型生成方法的三维模型生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个三维模型生成装置实施例中的具体限定可以参见上文中对于三维模型生成方法的限定，在此不再赘述。

在一个实施例中，如图6所示，提供了一种三维模型生成装置600，包括：渲染图像获取模块601、预测噪声获取模块602、辐射场更新模块603、辐射场转换模块604和三维模型获取模块605，其中：

渲染图像获取模块601，用于对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到目标物品的渲染图像。

预测噪声获取模块602，用于将目标物品的物品描述文本和渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声。

辐射场更新模块603，用于根据预测噪声，对目标物品的初始神经辐射场进行更新，得到与物品描述文本匹配的更新后神经辐射场。

辐射场转换模块604，用于将更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型。

三维模型获取模块605，用于对三维网格模型进行可微分渲染，得到目标物品的目标三维模型。

在一个实施例中，三维模型获取模块605，还用于对三维网格模型进行可微分渲染，得到可微分渲染后图像；根据获取到的噪声数据，对可微分渲染后图像进行噪声添加处理，得到可微分渲染后图像的噪声图像；将目标物品的物品描述文本和噪声图像，输入至噪声预测模型中，得到噪声图像的预测噪声；根据噪声图像的预测噪声与噪声数据之间的差异，对三维网格模型进行更新，得到目标物品的目标三维模型。

在一个实施例中，辐射场转换模块604，还用于根据更新后神经辐射场中的体密度，得到目标物品的符号距离场；根据符号距离场，确定目标物品的四面体网格；根据更新后神经辐射场中的颜色信息，确定目标物品的纹理辐射场；由四面体网格和纹理辐射场构建得到目标物品的三维网格模型。

在一个实施例中，预测噪声获取模块602，还用于获取渲染图像进行噪声添加处理后得到的处理后渲染图像，以及获取物品描述文本的文本嵌入信息；将文本嵌入信息和处理后渲染图像，输入至噪声预测模型中，得到渲染图像的预测噪声。

在一个实施例中，三维模型生成装置600还包括文本编码模块，用于采样得到图像维度与渲染图像的图像维度相等的样本噪声；根据样本噪声，对渲染图像进行噪声添加处理，得到渲染图像的处理后渲染图像；对目标物品的物品描述文本进行编码处理，得到物品描述文本的文本嵌入信息。

在一个实施例中，三维模型生成装置600还包括参数更新模块，用于确定渲染图像的预测噪声与样本噪声之间的噪声误差；根据噪声误差，对初始神经辐射场的参数进行更新，得到与物品描述文本匹配的更新后神经辐射场。

在一个实施例中，三维模型生成装置600还包括采样点获取模块，用于在球面坐标系中，对基于目标物品的相机位置和相机方向得到的射线进行采样，得到射线上的采样点；将采样点和采样点的相机方向，输入至体密度预测模型中，得到采样点的体密度和颜色信息。渲染图像获取模块601，还用于对采样点的体密度和颜色信息进行体渲染，得到目标物品在相机位置和相机方向对应的渲染图像。

上述三维模型生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种三维模型生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random AccessMemory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种三维模型生成方法，其特征在于，所述方法包括：

对与目标物品的相机位置和相机方向关联的射线上的采样点的体密度和颜色信息进行体渲染，得到所述目标物品在所述相机位置和所述相机方向对应的渲染图像；

根据在球面坐标系中采样得到的球坐标角度，将所述目标物品的物品描述文本添加方位描述文本，得到所述球坐标角度对应方向和位置的监督信息；

通过多模态模型，将所述监督信息中的单词序列映射为词嵌入向量；

对所述词嵌入向量进行序列填充处理，得到文本嵌入信息；

在所述渲染图像中添加与所述渲染图像的图像维度相等的样本噪声，得到渲染图像的处理后渲染图像；

将所述文本嵌入信息和所述处理后渲染图像，输入至噪声预测模型中，得到所述处理后渲染图像的预测噪声；

根据所述处理后渲染图像的预测噪声与所述样本噪声之间的噪声误差，对所述目标物品的初始神经辐射场进行更新，得到与所述物品描述文本匹配的更新后神经辐射场；

根据与所述可微分渲染后图像的图像维度相等的噪声数据，对所述可微分渲染后图像进行噪声添加处理，得到所述可微分渲染后图像的噪声图像；

将所述文本嵌入信息和所述噪声图像，输入至所述噪声预测模型中，得到所述噪声图像的预测噪声；

2.根据权利要求1所述的方法，其特征在于，所述将所述更新后神经辐射场，转换为由四面体网格和纹理辐射场构成的三维网格模型，包括：

根据所述符号距离场，确定所述目标物品的四面体网格；

3.根据权利要求1所述的方法，其特征在于，所述得到所述渲染图像的预测噪声，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述渲染图像进行噪声添加处理后得到的处理后渲染图像，以及获取所述物品描述文本的文本嵌入信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述样本噪声，对所述渲染图像进行噪声添加处理，得到所述渲染图像的处理后渲染图像，包括：

在预设均匀分布中随机采样扩散时间步长，并根据所述扩散时间步长，确定噪声融合比例；

按照所述噪声融合比例，将所述渲染图像和样本噪声进行融合，得到所述处理后渲染图像。

6.根据权利要求4所述的方法，其特征在于，所述对所述目标物品的初始神经辐射场进行更新，得到与所述物品描述文本匹配的更新后神经辐射场，包括：

7.根据权利要求1所述的方法，其特征在于，在对与目标物品的相机位置关联的射线上的采样点的颜色信息进行体渲染，得到所述目标物品的渲染图像之前，还包括：

8.一种三维模型生成装置，其特征在于，所述装置包括：

渲染图像获取模块，用于对与目标物品的相机位置和相机方向关联的射线上的采样点的体密度和颜色信息进行体渲染，得到所述目标物品在所述相机位置和所述相机方向对应的渲染图像；

预测噪声获取模块，用于根据在球面坐标系中采样得到的球坐标角度，将所述目标物品的物品描述文本添加方位描述文本，得到所述球坐标角度对应方向和位置的监督信息；通过多模态模型，将所述监督信息中的单词序列映射为词嵌入向量；对所述词嵌入向量进行序列填充处理，得到文本嵌入信息；在所述渲染图像中添加与所述渲染图像的图像维度相等的样本噪声，得到渲染图像的处理后渲染图像；将所述文本嵌入信息和所述处理后渲染图像，输入至噪声预测模型中，得到所述处理后渲染图像的预测噪声；

辐射场更新模块，用于根据所述处理后渲染图像的预测噪声与所述样本噪声之间的噪声误差，对所述目标物品的初始神经辐射场进行更新，得到与所述物品描述文本匹配的更新后神经辐射场；

三维模型获取模块，用于对所述三维网格模型进行可微分渲染，得到可微分渲染后图像；根据与所述可微分渲染后图像的图像维度相等的噪声数据，对所述可微分渲染后图像进行噪声添加处理，得到所述可微分渲染后图像的噪声图像；将所述文本嵌入信息和所述噪声图像，输入至所述噪声预测模型中，得到所述噪声图像的预测噪声；根据所述噪声图像的预测噪声与所述噪声数据之间的差异，对所述三维网格模型进行更新，得到所述目标物品的目标三维模型。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。