CN114119838A

CN114119838A - 体素模型与图像生成方法、设备及存储介质

Info

Publication number: CN114119838A
Application number: CN202210081290.1A
Authority: CN
Inventors: 黄锦池; 章坚; 付欢; 蔡博文; 罗鸿城; 李玉洁; 王家明; 贾荣飞; 赵斌强; 汤兴
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-03-01
Anticipated expiration: 2042-01-24
Also published as: CN114119838B

Abstract

本申请实施例提供一种体素模型与图像生成方法、设备及存储介质，在本申请实施例中，提出一种通过体素模型对物体进行隐式3D表达的方案，相比于采用MLP的神经网络，本申请实施例的体素模型是一种离散神经辐射场，其包括多个体素，每个体素具有能够对落入该体素内的空间点进行隐式3D表达的体素信息，基于该体素模型，通过对体素模型进行体素信息的查询即可实现对物体的隐式3D表达，无需经过多层神经网络的前向计算，有利于提高基于对物体的隐式3D表达进行三维重建时的重建效率，进而可提高新视角图像的合成效率，对物体的隐式3D表达可应用于任何新视角图像合成场景中，不再受应用场景对合成效率要求的限制。

Description

体素模型与图像生成方法、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种体素模型与图像生成方法、设备及存储介质。

背景技术

新视角合成技术是指针对一个三维场景，使用该三维场景的已有图像生成任意视角下的高真实感图像的技术。新视角合成依赖三维场景精确的几何结构，但是，由于现实世界中的三维场景比较复杂，很难获得三维场景精确的几何结构，这导致新视角合成技术从理论到落地实施较为困难。

于是，业界提出了神经辐射场（Neural Radiance Field，NERF）算法，该算法利用全连接网络来表示三维场景，其输入是一个连续的5维坐标：空间位置（x，y，z）和视角信息（θ，φ），其输出是该空间位置处的体积密度和视角相关的颜色信息；进一步结合立体渲染（volume rendering）技术，可以将输出的颜色信息和体积密度投影到2D图像上，从而实现新视图合成。由于简单结构和良好的渲染效果，NERF算法吸引了大量关注。

但是，现有NERF算法采用基于多层感知机（MLP）的神经网络对物体进行隐式3D表达，这种方式在三维重建时效率较低，进而影响新视角图像的合成效率，无法应用于对合成效率要求较高的场景，例如一些实时交互场景，限制了隐式3D表达的应用。

发明内容

本申请的多个方面提供一种体素模型与图像生成方法、设备及存储介质，用以提高基于对物体的隐式3D表达进行三维重建时的重建效率，进而可提高新视角图像的合成效率，拓展隐式3D表达的应用。

本申请实施例提供一种图像生成方法，包括：根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线；根据所述目标视线上多个空间点的空间坐标，从预先生成的所述目标物体对应的目标体素模型中，查询得到所述目标视线上落入所述目标体素模型中的目标空间点及其落入的目标体素，所述目标体素模型包括多个体素，每个体素具有目标体素信息；根据所述目标体素的目标体素信息，生成所述目标空间点的颜色信息和体积密度，并根据所述目标空间点的颜色信息和体积密度进行体渲染，以得到与所述相机位姿适配的目标图像。

本申请实施例还提供一种体素模型生成方法，包括：根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到初始隐式3D表征模型，所述目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；根据所述多张样本图像和所述初始隐式3D模型，构建所述目标物体对应的初始体素模型，所述体素模型包括多个体素及其初始体素信息；利用所述多张样本图像中像素点对应的第一视线上的空间点，针对所述初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，所述目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

本申请实施例还提供一种图像生成装置，包括：生成模块，用于根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线；查询模块，用于根据所述目标视线上多个空间点的空间坐标，从预先生成的所述目标物体对应的目标体素模型中，查询得到所述目标视线上落入所述目标体素模型中的目标空间点及其落入的目标体素，所述目标体素模型包括多个体素，每个体素具有目标体素信息；渲染模块，用于根据所述目标体素的目标体素信息，生成所述目标空间点的颜色信息和体积密度，并根据所述目标空间点的颜色信息和体积密度对所述待渲染图像进行体渲染，以得到与所述相机位姿适配的目标图像。

本申请实施例还提供一种体素模型生成装置，包括：三维重建模块，用于根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到初始隐式3D表征模型，所述目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；模型初始化模块，用于根据所述多张样本图像和所述初始隐式3D模型，构建所述目标物体对应的初始体素模型，所述体素模型包括多个体素及其初始体素信息；模型训练模块，用于利用所述多张样本图像中像素点对应的第一视线上的空间点，针对所述初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，所述目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

本申请实施例还提供一种计算机设备，包括：存储器和处理器；所述存储器，用于存储计算机程序，所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于实现体素模型生成方法或图像生成方法。

本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，当所述计算机程序被处理器执行时，致使所述处理器实现体素模型生成方法或图像生成方法。

在本申请实施例中，提出一种通过体素模型对物体进行隐式3D表达的方案，相比于采用MLP的神经网络，本实施例的体素模型是一种离散神经辐射场，其包括多个体素，每个体素具有能够对落入该体素内的空间点进行隐式3D表达的体素信息，基于该体素模型，通过对体素模型进行体素信息的查询即可实现对物体的隐式3D表达，无需经过多层神经网络的前向计算，有利于提高基于对物体的隐式3D表达进行三维重建时的重建效率，进而可提高新视角图像的合成效率，对物体的隐式3D表达可应用于任何新视角图像合成场景中，不再受应用场景对合成效率要求的限制。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种体素模型生成方法的流程示意图；

图2为示例性的视线从相机光心发射到物体空间的示意图；

图3为示例性的视线穿过目标物体表面点的示意图；

图4为一种示例性的应用场景图；

图5为一种示例性的体素；

图6为本申请实施例提供的一种图像生成方法的流程示意图；

图7为另一种示例性的应用场景图；

图8为本申请实施例提供的一种图像生成装置的结构示意图；

图9为本申请实施例提供的一种体素模型生成装置的结构示意图；

图10为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

针对现有基于采用MLP的神经网络对物体进行隐式3D表达时存在的三维重建效率较低，进而影响新视角图像的合成效率，无法应用于对合成效率要求较高的场景的技术问题，在本申请实施例中，提出一种通过体素模型对物体进行隐式3D表达的方案，相比于采用MLP的神经网络，本实施例的体素模型是一种离散神经辐射场，其包括多个体素，每个体素具有能够对落入该体素内的空间点进行隐式3D表达的体素信息，基于该体素模型，通过对体素模型进行体素信息的查询即可实现对物体的隐式3D表达，无需经过多层神经网络的前向计算，有利于提高基于对物体的隐式3D表达进行三维重建时的重建效率，进而可提高新视角图像的合成效率，对物体的隐式3D表达可应用于任何新视角图像合成场景中，不再受应用场景对合成效率要求的限制。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请实施例提供的一种体素模型生成方法的流程示意图。参见图1，该方法可以包括以下步骤：

101、根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型，目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应。

102、根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型，体素模型包括多个体素及其初始体素信息。

103、利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

在本实施例中，目标物体可以是任意物体，例如为鞋子、桌子、椅子、帽子、衣柜、苹果等等。在全景显示、自动化建模、3D商品展示、新视角图像合成等多种应用场景中，都需要目标物体的三维模型。为此，需要对目标物体进行三维重建。以新视角图像合成为例，可以基于目标物体的三维模型确定新视角下看到的模型内容，进而基于该模型内容渲染出新视角下的图像。在本实施例中，为了更好地保留物体的纹理信息，提高三维重建的模型质量，采用基于神经网络的三维重建方式，得到对目标物体进行隐式三维表达的初始隐式3D表征模型。

在对目标物体进行三维重建之前，获取包含目标物体的多张样本图像，以便基于包含目标物体的样本图像进行基于神经网络的三维重建。可选地，可以对处于真实世界中的目标物体从不同拍摄角度进行拍摄，得到该目标物体的多张图像或者得到该目标物体的视频，从视频中提取包含该目标物体的多张图像。进一步可选的，为了能够准确重建出目标物体的三维模型，进而提高基于三维模型的图像渲染质量，可以采用绕目标物体360度的环绕方式进行拍摄，得到目标物体的多张图像。需要说明的是，不同样本图像对应不同的相机位姿，相机位姿包括拍摄设备在拍摄图像时的位置和姿态。其中，本实施例对拍摄设备不做限制，拍摄设备例如可以是但不限于：相机、具有拍摄功能的手机、平板电脑、可穿戴设备等。

在本实施例中，将真实的拍摄设备在对处于真实世界中的目标物体进行拍摄时，从真实的拍摄设备的相机光心发射出去穿过物体空间的视线称作为第一视线，该第一视线可以认为是真实的拍摄设备发射出的实际视线，一条第一视线从拍摄设备的相机光心发射出来穿过所拍摄图像的各个像素点对应的物体空间。以图2为例，拍摄椅子图像I₁的相机1和拍摄椅子图像I₂的相机2是真实相机，从真实相机的光心发射出的视线（图2中的实线）是第一视线，也即视线r1和视线r2均是第一视线。在图2中，拍摄椅子图像I₃的相机3是假设出来的虚拟相机（图2中虚线框内的相机），从虚拟相机的光心发射发出的视线（图2中带箭头的虚线）是虚拟视线，也即视线r3是虚拟视线。

需要说明的是，对于一张样本图像上的每个像素点都会对应一条第一视线，相应地，样本图像中的像素点是由第一视线射到目标物体的一个表面点上成像得到的，该第一视线也就是拍摄到该像素点的视线。由此可知，目标物体上的表面点与像素点以及拍摄到该像素点的第一视线之间存在对应关系。每张样本图像中的不同像素点与目标物体上的不同表面点对应，不同表面点对应不同的第一视线，也就是说，每张样本图像中的各像素点都会与穿过目标物体上与其对应的表面点的第一视线对应，不同像素点会与穿过不同表面点的第一视线对应。另外，因为不同样本图像对应的相机位姿不同，所以不同样本图像中的像素点可能对应目标物体上不同的表面点。对两张样本图像而言，其中可能有部分像素点对应相同的表面点，也可能所有像素点均对应不同的表面点。

在本实施例中，利用多张样本图像进行基于神经网络的三维重建，得到初始隐式3D表征模型。初始隐式3D表征模型能够对目标物体进行隐式三维表达，例如可以表达目标物体的形状、纹理、材质等多个维度的物体信息。

在本实施例中，初始隐式3D表征模型是一个全连接神经网络，全连接神经网络又称多层感知器（(Multi-Layer Perceptron，MLP），进一步可选的，初始隐式3D表征模型是基于神经辐射场 (Neural Radiance Field，NERF)的隐式3D表征模型。该初始隐式3D表征模型基于输入的空间点的空间坐标和视角信息，分别预测空间点的体积密度和颜色信息。其中，初始隐式3D表征模型可以表达为：

σ，c=F(d，x)……(1)

其中，x=(x,y,z)，x记为空间点的空间坐标(x,y,z)；d=(θ,φ)，d=(θ,φ)记为空间点的视角信息(θ,φ)，θ为方位角，φ为仰角。c=(r,g,b)，c记为空间点的颜色信息(r,g,b)，r是指红色（Red，R），g是指绿色（Green，G），b是指蓝色（Blue，B）。σ记为空间点的体积密度。

实际应用中，初始隐式3D表征模型包括用于预测σ体积密度的Fσ网络和用于预测c颜色信息的Fc网络。于是，初始隐式3D表征模型可以进一步表达为：

Fσ：x→（σ，f）……(2)

Fc：（d，f）→c……(3)

值得注意的是，Fσ网络输入的是空间点的空间坐标x，输出的是空间点的体积密度和中间特征f。Fc网络输入的是中间特征f和空间点的视角信息d，输入的是空间点的颜色信息RGB值。也就是说，体积密度只和空间坐标x有关，颜色信息RGB值和空间坐标及视角信息相关。

在本实施例中，在获取到目标物体的多张样本图像之后，分别计算每张样本图像对应的相机位姿，根据每张样本图像对应的相机位姿和相机内参等数据确定相机在拍摄每张样本图像时发射出来的多条第一视线以及每条第一视线的视角信息。在每条第一视线上进行空间点采样，得到多个空间点。应理解，从同一条第一视线上采样得到的空间点的视角信息均是该第一视线的视角信息。例如，图3中视线r1的四个圆点是在视线r1上采样的4个空间点，视线r1的箭头所指方向是视线r1的视角信息，也是在视线r1上采样的4个空间点的视角信息。在得到多个空间点之后，利用多个空间点的空间坐标及其视角信息进行基于神经网络的三维重建，该过程可以是分批多次执行的过程，最终可得到初始隐式3D表征模型。具体地，可以采用不断迭代的方式进行基于神经网络的三维重建，例如每次可以随机选择k张样本图像，从k张样本图像中随机选择大小为m*n的图像块，利用k个图像块中各像素点对应的第一视线上空间点的空间坐标和视角信息进行基于神经网络的三维重建（或模型训练），直到三维重建过程的损失函数符合设定要求时终止三维重建过程。其中，k是大于或等于1的自然数，且k小于或等于样本图像的总数；m、n是大于或等于1的自然数，m、n分别表示图像块在横向和纵向维度上的像素数，m小于或等于样本图像的宽度（宽度维度对应横向），n小于或等于样本图像的长度（长度维度对应纵向），m和n可以相同，也可以不同。可选地，可以采用等间隔方式在每条第一视线上采样多个空间点，即任意两个相邻空间点之间的采样间隔是相同的。也可以采用不同采样间隔在每条第一视线上采样多个空间点，采样间隔的大小不做限定。

进一步可选的，可以采用SLAM(simultaneous localization and mapping，即时定位与地图构建)算法来更加准确计算每张样本图像对应的相机位姿。具体的，SLAM算法在计算相机位姿时，首先提取每张样本图像的特征点，接着，建立相邻两张样本图像的特征点之间的匹配关系，根据相邻两张样本图像的特征点之间的匹配关系计算相邻两张样本图像之间的相对相机位姿。根据两两样本图像之间的相对相机位姿计算每张样本图像对应的相机位姿。

在此说明，在本实施例中，初始隐式3D表征模型并不是最终用于对物体进行隐式3D表达的模型，而是为了辅助生成最终用于对物体进行隐式3D表达的目标体素模型的，因此，在本实施例中，对初始隐式3D模型的收敛程度不做过高的要求，也就是说，可以采用较少数量的第一视线来训练初始隐式3D模型，从而提高得到初始隐式3D模型，进而提高得到目标体素模型的效率。在本实施例中，在得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型之后，根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型。

值得说明的是，初始体素模型是体素化（Voxelization）的目标物体，体素化是指将物体的几何形式表示转换成最接近该物体的体素表示形式。初始体素模型包括多个体素（体积元素，Volume Pixel），每个体素具有初始体素信息，每个体素的初始体素信息包括但不限于：该体素包含的各个顶点的体积密度、颜色信息等等。在一可选实施例中，初始体素模型可以是一个立方体，例如正方体或长方体，相应地，每个体素可以为一个规模更小的立方体。

作为一种可选实现方式，根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型具体是：根据多张样本图像的图像特征，确定目标物体对应的空间范围，空间范围具有长宽高三个维度；对空间范围在长宽高三个维度上采样相同数量的空间点作为体素包含的顶点，并由顶点将空间范围分割为多个体素；将多个体素包含的顶点的空间坐标输入初始隐式3D模型，得到多个体素包含的顶点的体积密度，并初始化多个体素包含的顶点的颜色信息，以得到多个体素的初始体素信息。

在本实施例中，可以采用诸如运动恢复结构（Structure from Motion，SfM）算法处理多张样本图像的图像特征，以估计出目标物体对应的稀疏3D点位置，目标物体对应的稀疏3D点位置可以帮助确定目标物体在世界坐标系中的空间范围。该空间范围可以是具有长、宽和高的空间范围，例如可以是正方体空间或长方体空间，但不限于此。对目标物体对应的空间范围在长宽高三个维度上采样相同数量的空间点作为体素包含的顶点，多个顶点（例如八个顶点）可形成多个小立方体，其中一个小立方体即为一个体积元素，进而实现由顶点将空间范围分割为多个体素。例如，在长宽高三个维度上各采样两个数量的空间点，共八个空间点，八个空间点作为体素的八个顶点，于是，八个空间点可形成一个体素。图4中的体素模型可视为一个长方体或正方体，该体素模型包括多个小立方体，每个小立方体为一个体素。

在本实施例中，对初始化多个体素包含的顶点的颜色信息的方式不做限制。例如，将多个体素包含的顶点初始化为同一颜色信息。又例如，以体素为粒度，将不同体素包含的顶点初始化为不同的颜色信息，将同一体素包含的顶点初始化为同一颜色信息。又例如，以顶点为粒度，将同一体素包含的顶点初始化为至少两种不同的颜色信息。

在本实施例中，在构建出目标物体对应的初始体素模型之后，利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型。相对于初始体素模型中各个体素具有初始体素信息，目标体素模型中各体素具有目标体素信息，无论是初始体素信息还是目标体素信息，都能用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。相对于初始体素信息，目标体素信息是基于目标物体对应的样本图像中像素点对应的第一视线上的空间点进行模型训练最终得到的，能够更为准确地对落入该体素内的空间点进行隐式3D表达，也就是说，相对于初始体素模型，目标体素模型是最终用于对目标物体进行隐式三维3D表达的体素模型。

值得注意的是，在迭代训练初始体素模型过程中，以初始体素模型中多个体素的当前体素信息作为待训练的模型参数，在上一轮模型训练对应的损失函数不满足收敛条件的情况下，调整初始体素模型中相应体素的当前体素信息，并继续下一轮模型训练，直至损失函数满足收敛条件时得到目标体素模型。

进一步可选的，利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型的一种实现方式是：针对任一轮模型训练，从多张样本图像中选择样本图像块，并将样本图像块中多个像素点对应的第一视线作为多条第二视线；根据初始体素模型中多个体素的当前体素信息，对多条第二视线上的空间点进行隐式3D表达，得到多个第二视线对应的多个第一像素点的第一颜色信息；根据多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数；在本轮模型训练对应的损失函数不满足收敛条件的情况下，调整初始体素模型中相应体素的当前体素信息，并继续下一轮模型训练，直至损失函数满足收敛条件时得到目标体素模型。

在每轮训练当中，可以随机从多张样本图像中选择指定大小的样本图像块，样本图像块的数量可以是一个或多个。例如，在图像尺寸的长度与宽度是以像素为单位的前提下，若样本图像的尺寸大小为1600×1200，则图像块的尺寸大小可以是24×24，也就是说样本图像块包括24×24个像素点，这里的数值仅为举例，并不限于此。在选择出样本图像块之后，基于样本图像块的样本图像对应的相机位姿和样本图像块中的多个像素点，可以确定多条从相机位姿对应的光心位置出射并穿过各个像素点的多条第一视线。为了便于区分和理解，将穿过样本图像块中像素点的第一视线作为第二视线。

针对确定出的穿过样本图像块中像素点的每条第二视线，根据初始体素模型中多个体素的当前体素信息，对该条第二视线上的空间点进行隐式3D表达，得到该条第二视线对应的第一像素点的第一颜色信息。其中，第一像素点是指第二视线穿过的样本图像块中的像素点，第一颜色信息是基于初始体素模型预测出来的第一像素点的颜色信息。与第一像素点的第一颜色信息相对的是第一像素点在样本图像块中的第二颜色信息，第二颜色信息是第一像素点的真实颜色信息。

值得注意的是，每条第二视线对应一个第一像素点，多条第二视线对应多个第一像素点。在确定出多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，可以根据多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数。本实施例对构建本轮模型训练对应的损失函数的方式不做限制。下面介绍几种可选的构建方式：

方式1：针对每个第一像素点，根据第一像素点的第一颜色信息和第一像素点在样本图像块中的第二颜色信息的颜色差异，生成像素级的损失函数。

例如，在每轮模型训练中，选择一个样本图像块中的5个第一像素点参与到本轮模型训练当中，则针对每个第一像素点，计算该第一像素点的第一颜色信息和第二颜色信息之差，作为该第一像素点的颜色差异；将5个第一像素点的颜色差异平方值进行累加，得到本轮模型训练的像素级的损失函数。

方式2：根据多个第一像素点的第一颜色信息渲染出第一图像块；根据第一图像块和样本图像块的图像差异，生成图像块级的损失函数。

例如，在每轮模型训练中，计算第一图像块和样本图像块之间的颜色差异，将第一图像块和样本图像块之间的颜色差异的平方值作为本轮模型训练的图像块级的损失函数。

方式3：针对每个第一像素点，根据第一像素点的第一颜色信息和第一像素点在样本图像块中的第二颜色信息的颜色差异，生成像素级的损失函数；根据多个第一像素点的第一颜色信息渲染出第一图像块；根据第一图像块和样本图像块的图像差异，生成图像块级的损失函数。

在方式3中，损失函数包含像素级的损失函数和图像块级的损失函数，在分别计算出像素级的损失函数和图像块级的损失函数后，可以对本轮模型训练的像素级的损失函数和图像块级的损失函数进行求和或加权平均，得到本轮模型训练最终的损失函数。

值得注意的是，结合图像块级的损失函数进行训练，使得基于体素表示的三维重建方案的纹理恢复效果极大地好于现有的神经网络表征方案，可恢复如布料线条等细致纹理。

进一步可选的，根据初始体素模型中多个体素的当前体素信息，对第二视线上多个空间点进行隐式3D表达，得到第二视线对应的第一像素点的第一颜色信息的一种实施方式是：根据第二视线上多个空间点的空间坐标，查询初始体素模型，得到第二视线上落入初始体素模型中的第一空间点及其落入的第一体素；根据第一体素的当前体素信息，生成第一空间点的颜色信息和体积密度，并根据第一空间点的颜色信息和体积密度，生成第二视线对应的第一像素点的第一颜色信息。

在本实施例中，在确定第二视线上落入初始体素模型中的第一空间点及其落入的第一体素时，可以根据第二视线上多个空间点的空间坐标，确定第二视线对应的视线方程。根据第二视线对应的视线方程和初始体素模型中多个体素的位置范围，确定与第二视线相交的第一体素；根据第二视线上多个空间点的空间坐标与第一体素的位置范围，确定第二视线上落入第一体素内的第一空间点。

在本实施例中，每个第一体素的当前体素信息至少包括第一体素包含的多个顶点的颜色信息和体积密度。在确定第一空间点的颜色信息时，可以对第一体素包含的多个顶点的颜色信息进行加权求平均，得到第一空间点的颜色信息。同样地，在确定第一空间点的体积密度时，可以对第一体素包含的多个顶点的体积密度进行加权求平均，得到第一空间点的体积密度。进一步可选地，为了准确确定第一空间点的颜色信息和体积密度，在根据第一体素的当前体素信息，生成第一空间点的颜色信息和体积密度时，可以根据第一体素包含的多个顶点的空间坐标和第一空间点的空间坐标，确定第一空间点与第一体素包含的多个顶点之间的相对位置关系；根据第一空间点与第一体素包含的多个顶点之间的相对位置关系，利用第一体素包含的多个顶点的颜色信息和体积密度，生成第一空间点的颜色信息和体积密度。

具体而言，根据第一空间点与第一体素包含的多个顶点之间的相对位置关系，利用第一体素包含的多个顶点的颜色信息和体积密度，生成第一空间点的颜色信息和体积密度的一种可选实现方式是：根据第一空间点与第一体素包含的多个顶点之间的相对位置关系，确定第一体素包含的多个顶点各自对应的插值系数，对第一体素包含的任一顶点，顶点与第一空间点的相对位置关系越近，顶点对应的插值系数越大；根据插值系数，对第一体素包含的多个顶点的颜色信息和体积密度进行插值计算，得到第一空间点的颜色信息和体积密度。

以图5为例，第一体素包含顶点A1、顶点A2、顶点A3、顶点A4、顶点A5、顶点A6、顶点A7、顶点A8。在计算第一空间点P的颜色信息时，首先，将顶点A1的插值系数c1与其颜色信息RGB1进行相乘，得到顶点A1插值后的颜色信息c1×RGB1；将顶点A2的插值系数c2与其颜色信息RGB2进行相乘，得到顶点A2插值后的颜色信息c2×RGB2；根据顶点A1插值后的颜色信息c1×RGB1和顶点A2插值后的颜色信息c2×RGB2进行异侧单线性插值计算，得到直线A1A2上的插值点a的颜色信息。依次类推，基于顶点A3的插值系数c3及其颜色信息RGB3、顶点A4的插值系数c4及其颜色信息RGB4能够得到直线A3A4上的插值点b的颜色信息。基于顶点A5的插值系数c5及其颜色信息RGB5、顶点A6的插值系数c6及其颜色信息RGB6能够得到直线A5A6上的插值点c的颜色信息。基于顶点A7的插值系数c7及其颜色信息RGB7、顶点A8的插值系数c8及其颜色信息RGB8能够得到直线A7A8上的插值点d的颜色信息。对插值点a的颜色信息、插值点b的颜色信息、插值点c的颜色信息和插值点d的颜色信息进行双线性插值计算，得到第一空间点P的颜色信息。

在计算第一空间点P的体积密度时，首先，将顶点A1的插值系数c1与其体积密度σ1进行相乘，得到顶点A1插值后的体积密度c1×σ1；将顶点A2的插值系数c2与其体积密度σ2进行相乘，得到顶点A2插值后的体积密度c2×σ2；根据顶点A1插值后的体积密度c1×σ1和顶点A2插值后的体积密度c2×σ2进行异侧单线性插值计算，得到直线A1A2上的插值点a的体积密度。依次类推，基于顶点A3的插值系数c3及其体积密度σ3、顶点A4的插值系数c4及其体积密度σ4能够得到直线A3A4上的插值点b的体积密度。基于顶点A5的插值系数c5及其体积密度σ5、顶点A6的插值系数c6及其体积密度σ6能够得到直线A5A6上的插值点c的体积密度。基于顶点A7的插值系数c7及其体积密度σ7、顶点A8的插值系数c8及其体积密度σ8能够得到直线A7A8上的插值点d的体积密度。对插值点a的体积密度、插值点b的体积密度、插值点c的体积密度和插值点d的体积密度进行双线性插值计算，得到第一空间点P的体积密度。

本申请实施例提供的体素模型生成方法，根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型；根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型，体素模型包括多个体素及其初始体素信息；利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。由此，提供一种基于体素表示的三维重建方法，三维重建效率较高，进一步地，能帮助提高新视角图像的合成效率，能够应用于对合成效率要求较高的场景，例如一些实时交互场景，拓展了隐式3D表达的应用。

值得注意的是，基于体素表示的目标体素模型，相比于神经网络隐式表示模型，在训练过程中，减少了显存占用。特别是，结合图像块级的损失函数进行训练，使得基于体素表示的三维重建方案的纹理恢复效果极大地好于现有的神经网络表征方案，可恢复如布料线条等细致纹理。

值得注意的是，本实施例的体素模型是一种离散神经辐射场，其包括多个体素，每个体素具有能够对落入该体素内的空间点进行隐式3D表达的体素信息，基于该体素模型，通过对体素模型进行体素信息的查询即可实现对物体的隐式3D表达，无需经过多层神经网络的前向计算，有利于提高基于对物体的隐式3D表达进行三维重建时的重建效率，进而可提高新视角图像的合成效率，对物体的隐式3D表达可应用于任何新视角图像合成场景中，不再受应用场景对合成效率要求的限制。

在得到目标物体对应的目标体素模型之后，可以基于目标体素模型实时渲染出该目标物体的新视角图像，可应用于实时交互场景、VR（Virtual Reality，虚拟现实技术）场景、全景展示场景、3D商品展示场景、AR购物场景，具有较高的商业价值。为此，本申请实施例还提供一种图像生成方法，该方法应用于新视角合成场景，可帮助提高新视角图像的合成效率，该方法能够应用于对合成效率要求较高的场景，例如一些实时交互场景，拓展了隐式3D表达的应用。

图6为本申请实施例提供的一种图像生成方法的流程示意图。参见图6，该方法可以包括以下步骤：

601、根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线。

602、根据目标视线上多个空间点的空间坐标，从预先生成的目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素，目标体素模型包括多个体素，每个体素具有目标体素信息。

603、根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度，并根据目标空间点的颜色信息和体积密度进行体渲染，以得到与相机位姿适配的目标图像。

在本实施例中，待渲染的目标图像的属性信息包括但不限于像素的行数、列数、通道数。基于行数、列数可以获知待渲染的目标图像的图像尺寸。例如，该待渲染的目标图像的图像尺寸为445×670，也即待渲染的目标图像的像素点数目是445×670。445是目标图像的行数，670是目标图像的列数。于是，从待渲染的目标图像的属性信息中获知待渲染的目标图像的图像尺寸之后，可以渲染出具有待渲染的目标图像的图像尺寸的初始图像，该初始图像可以是空白图像，也可以是带有随机内容的图像。

在本实施例中，待渲染的目标图像的相机位姿可以预先指定。根据相机位姿和相机内参等信息可以推导出相机坐标系和图像坐标系之间的相对位置关系，根据成像原理可以确定从相机位姿对应的相机光心出射，并穿过初始图像中像素点对应的目标物体的表面点的视线作为目标视线。其中，目标视线的数量为多个。

在本实施例中，在确定从相机位姿的相机光心出射的多条目标视线之后，分别在每条目标视线上采样多个空间点，以及根据目标视线上多个空间点的空间坐标，从预先生成的目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素。

在一可选实施方式中，根据目标视线上多个空间点的空间坐标，从预先生成的目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型时，可以根据目标视线对应的视线方程和目标体素模型中多个体素的位置范围，确定与目标视线相交的目标体素；根据目标视线上多个空间点的空间坐标与目标体素的位置范围，确定目标视线上落入目标体素内的目标空间点。

在本实施例中，在确定目标体素后，根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度。其中，每个体素的目标体素信息包括但不限于：体素包含的多个顶点的颜色信息和体积密度。在确定目标空间点的颜色信息时，可以对目标体素包含的多个顶点的颜色信息进行加权求平均，得到目标空间点的颜色信息。同样地，在确定目标空间点的体积密度时，可以对目标体素包含的多个顶点的体积密度进行加权求平均，得到目标空间点的体积密度。进一步可选地，为了准确确定目标空间点的颜色信息和体积密度，在根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度时，可以根据目标体素包含的多个顶点的空间坐标和目标空间点的空间坐标，确定目标空间点与目标体素包含的多个顶点之间的相对位置关系；根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，利用目标体素包含的多个顶点的颜色信息和体积密度，生成目标空间点的颜色信息和体积密度。

具体而言，根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，利用目标体素包含的多个顶点的颜色信息和体积密度，生成目标空间点的颜色信息和体积密度的一种可选实现方式是：根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，确定目标体素包含的多个顶点各自对应的插值系数，对目标体素包含的任一顶点，顶点与目标空间点的相对位置关系越近，顶点对应的插值系数越大；根据插值系数，对目标体素包含的多个顶点的颜色信息和体积密度进行插值计算，得到目标空间点的颜色信息和体积密度。

在本实施例中，在生成目标空间点的颜色信息和体积密度后，根据目标空间点的颜色信息和体积密度进行体渲染，以得到与相机位姿适配的目标图像。在本申请实施例中，对于任一目标视线，在生成该目标视线对应像素点的颜色信息时，可以不考虑该目标视线上未落入目标体素模型中的空间点，也可以考虑对此不做限定。在考虑的情况下，可以设置未落入目标体素模型中的空间点的颜色信息和体积密度仅为0，或其它设定值。

在此对立体渲染技术进行简单说明，针对视线r，在视线r上采样M个空间点，其中连续N个空间点落入目标物体对应的目标体素模型中，且通过查询目标体素模型得到了N个空间点落入的目标体素，根据目标体素的目标体素信息生成了N个空间点的颜色信息和体积密度，M、N为大于1的正整数，且N＜M，针对第i个目标空间点，i为1至N之间的正整数，记第 i个目标空间点对应的采样间距为δ_i、记第i个目标空间点对应的体积密度为σ_i、记第i个目标空间点对应的深度信息为t_i、记前i-1个目标空间点的累加体积密度为T_i，记视线r的颜色为

，

也即视线r的颜色对应像素点的颜色信息，其中，δ_i=t_i+1-t_i，t_i的取值范围在预设的数值区间[t_n，t_f]内，数值t_n和数值t_f与目标物体的空间范围相关，也即目标物体的空间围在[t_n，t_f]内。于是，视线r的颜色可以按照公式(4)表达为：

…… (4)

其中，T_i可以按照公式（5）计算：

……(5)

其中，j是1至i-1之间的正整数。

为了更好地理解图像生成方法，结合图4进行说明，在目标体素模型生成阶段，从包括目标物体的样本图像中像素点对应的多条视线上采样多个空间点，依次将多个空间点的空间坐标和视角信息输入至基于神经辐射场的神经网络中，以进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型。根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型。利用样本图像中像素点对应的第一视线上的空间点，继续训练初始体素模型，得到目标体素模型。在图像生成阶段，从待渲染的目标视线上采样多个空间点，根据空间点的空间坐标，查询目标物体对应的目标体素模型，得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素。根据目标体素的目标体素信息，生成目标空间点的颜色信息RGB和体积密度σ，并根据目标空间点的颜色信息和体积密度进行体渲染，以渲染出目标图像。

本申请实施例提供的图像生成方法，基于目标体素模型可以实时渲染出该目标物体的新视角图像，该方法可以帮助提高新视角图像的合成效率，该方法能够应用于对合成效率要求较高的场景，例如一些实时交互场景，拓展了隐式3D表达的应用。

在一可选实施例中，可以面向用户提供一种基于体素模型的图像生成服务，该服务可以部署在服务端，服务端可以在云端，在实现形态上可以是云端服务器、虚拟机、容器等；当然，服务端也可以采用传统服务器实现，对此不做限定。该服务面向用户提供人机交互界面，该人机交互界面可以是web界面或命令窗等。用户可以通过该服务提供的人机交互界面使用该服务，例如通过该人机交互界面向服务端提交样本图像或待渲染的目标图像的属性信息和相机位姿，并且可通过人机交互界面展示目标物体对应的体素模型或渲染出的目标图像等。

在一可选实施例中，用户在其使用的终端设备上展示基于体素模型的图像生成服务对应的人机交互界面，用户通过该人机交互界面进行图像上传或图像拍摄，以提交进行三维重建所需的包含目标物体的多张样本图像。基于此，响应于人机交互界面上的图像上传操作或图像拍摄操作，获取包含目标物体的多张样本图像；之后，执行三维重建过程，即根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到初始隐式3D表征模型；接着根据多张样本图像和初始隐式3D模型构建目标物体对应的初始体素模型，利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型。关于各步骤的详细实现可参见前述实施例，在此不再赘述。

进一步，在得到目标体素模型之后，还可以在人机交互界面上输出已得到目标体素模型的消息，以通知用户可以基于该目标体素模型型进行新视角图像的合成；用户在该人机交互界面上输入待渲染的目标图像的属性信息和相机位姿；响应人机交互界面上的输入操作，获取待渲染的目标图像的属性信息和目标相机位姿；之后，执行基于目标体素模型的图像生成过程，如图6所示，最终得到目标物体在该相机位姿下的目标图像，并输出该目标图像。关于各步骤的详细实现可参见前述实施例，在此不再赘述。

为了便于理解，下面介绍几种场景实施例对本申请实施例提供的图像生成方法和体素模型生成进行详细说明。

场景实施例1：

在电商场景中，商品主图的好坏直接影响着电商店铺的客流量。目前，在制作商品主图时，通常需要利用相机从多个不同视角对商品对象进行拍摄，得到多张不同的图像，并从多张图像中选择一张质量较好的商品图像作为商品主图。然而，受限于拍摄人员的拍摄技巧，选择出的商品主图无法提供一个很好的视角展示商品信息，致使难以有效地吸引顾客点击商品链接，影响电商店铺的客流量。另外，需要拍摄大量的图像才能保证选择出质量较好的商品主图，人工成本较高，商品主图制作效率较低。

出于满足快速制作质量较好的商品主图的需求，可以利用本申请实施例提供的图像生成方法制作商品主图。参见图7，实际应用中，商家可以用诸如手机、手机、平板电脑、可穿戴式智能设备、智能家居设备等终端设备环绕商品对象360度的环绕方式拍摄一段视频，商家可在终端设备提供的人机交互界面（例如为web界面）上发起图片上传操作，以将该包括多种商品图像的视频上传至执行图像生成方法的服务端，如图7中①所示。该服务端为单个服务器或多个服务器组成的分布式服务器集群，进一步可选的，服务端可以为云端服务器。如图7中②所示，服务端基于多张商品图像进行三维模型重建以获得对商品对象进行隐式三维3D表达的初始隐式3D表征模型。如图7中③所示，服务端基于多张商品图像和初始隐式3D表征模型构建初始体素模型，并迭代训练初始体素模型以获取目标体素模型。在目标体素模型模型生成后，商家可以在终端设备提供的人机交互界面上输入渲染视角和待渲染的新视角图像的图像尺寸，终端设备解析渲染视角获取对应的待渲染的相机位姿，并生成包括待渲染的相机位姿和图像尺寸的新视角图像获取请求并向服务端发送该新视角图像获取请求，如图7中④所示，服务端响应新视角图像获取请求，如图7中⑤所示，采用本申请实施例提供的图像生成方法处理待渲染的相机位姿和图像尺寸以渲染出新视角图像。如图7中⑥所示，服务端向终端设备发送商品对象的新视角图像以供终端设备展示该新视角图像。商家可在其终端设备上查看到商品对象的新视角图像。

场景实施例2：

在AI（Artificial Intelligence，人工智能）家装领域，为了给消费者提供3D场景化的购物体验，将查看商品从传统的看图片、看视频升级成在AI家居场景中看搭配、看效果。在创建AI家居场景过程中，除了需要创建三维立体户型图，还需要创建搭配到三维立体户型图中的家具、电器等三维模型。为此，设计人员可以用手机环绕真实场景中的家具、电器等物体360度的环绕方式拍摄一段视频，并将该视频上传至执行体素模型生成方法的体素模型生成装置，体素模型生成装置基于视频中的多张图像生成对家具、电器进行隐式三维3D表达的体素模型。从对家具、电器进行隐式三维3D表达的体素模型中抽取家具、电器的隐式三维3D信息，并基于隐式三维3D信息创建出家具、电器的三维模型。将家具、电器的三维模型搭配到三维立体户型图中，以完成AI家居场景的创建任务。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤103的执行主体可以为设备A；又比如，步骤101和102的执行主体可以为设备A，步骤103的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图8为本申请实施例提供的一种图像生成装置的结构示意图。如图8所示，该图像生成装置可以包括生成模块81、查询模块82和渲染模块83。

其中，生成模块81，用于根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线；

查询模块82，用于根据目标视线上多个空间点的空间坐标，从预先生成的目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素，目标体素模型包括多个体素，每个体素具有能够对落入该体素内的空间点进行隐式3D表达的目标体素信息；

渲染模块83，用于根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度，并根据目标空间点的颜色信息和体积密度对待渲染图像进行体渲染，以得到与相机位姿适配的目标图像。

进一步可选的，查询模块82根据目标视线上多个空间点的空间坐标，从预先生成的所述目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素时，具体用于：根据目标视线对应的视线方程和目标体素模型中多个体素的位置范围，确定与目标视线相交的目标体素；根据目标视线上多个空间点的空间坐标与目标体素的位置范围，确定目标视线上落入目标体素内的目标空间点。

进一步可选的，每个体素的目标体素信息包括体素包含的多个顶点的颜色信息和体积密度，则渲染模块83根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度时，具体用于：根据目标体素包含的多个顶点的空间坐标和目标空间点的空间坐标，确定目标空间点与目标体素包含的多个顶点之间的相对位置关系；根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，利用目标体素包含的多个顶点的颜色信息和体积密度，生成目标空间点的颜色信息和体积密度。

进一步可选的，渲染模块83根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，利用目标体素包含的多个顶点的颜色信息和体积密度，生成目标空间点的颜色信息和体积密度时，具体用于：根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，确定目标体素包含的多个顶点各自对应的插值系数，对目标体素包含的任一顶点，顶点与目标空间点的相对位置关系越近，顶点对应的插值系数越大；根据插值系数，对目标体素包含的多个顶点的颜色信息和体积密度进行插值计算，得到目标空间点的颜色信息和体积密度。

进一步可选的，上述装置还包括：三维重建模块、模型初始化模块、模型训练模块。

三维重建模块，用于根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型，目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；换句话说，每张样本图像中的不同像素点与穿过目标物体上不同表面点的第一视线对应；

模型初始化模块，用于根据多张样本图像和初始隐式3D表征模型，构建目标物体对应的初始体素模型，初始体素模型包括多个体素及其初始体素信息；

模型训练模块，用于利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

进一步可选的，模型训练模块利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型时，具体用于：针对任一轮模型训练，从多张样本图像中选择样本图像块，并将样本图像块中多个像素点对应的第一视线作为多条第二视线；根据初始体素模型中多个体素的当前体素信息，对多条第二视线上的空间点进行隐式3D表达，得到多个第二视线对应的多个第一像素点的第一颜色信息；根据多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数；在本轮模型训练对应的损失函数不满足收敛条件的情况下，调整初始体素模型中相应体素的当前体素信息，并继续下一轮模型训练，直至损失函数满足收敛条件时得到目标体素模型。

进一步可选的，模型训练模块根据初始体素模型中多个体素的当前体素信息，对第二视线上多个空间点进行隐式3D表达，得到第二视线对应的第一像素点的第一颜色信息时，具体用于：根据第二视线上多个空间点的空间坐标，查询初始体素模型，得到第二视线上落入初始体素模型中的第一空间点及其落入的第一体素；根据第一体素的当前体素信息，生成第一空间点的颜色信息和体积密度，并根据第一空间点的颜色信息和体积密度，生成第二视线对应的第一像素点的第一颜色信息。

进一步可选的，损失函数包含像素级的损失函数和图像块级的损失函数，则模型训练模块根据多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数时，具体用于：针对每个第一像素点，根据第一像素点的第一颜色信息和第一像素点在样本图像块中的第二颜色信息的颜色差异，生成像素级的损失函数；根据多个第一像素点的第一颜色信息渲染出第一图像块；根据第一图像块和样本图像块的图像差异，生成图像块级的损失函数。

进一步可选的，模型训练模块根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型时，具体用于：根据多张样本图像的图像特征，确定目标物体对应的空间范围，空间范围具有长宽高三个维度；对空间范围在长宽高三个维度上采样相同数量的空间点作为体素包含的顶点，并由顶点将空间范围分割为多个体素；将多个体素包含的顶点的空间坐标输入初始隐式3D模型，得到多个体素包含的顶点的体积密度，并初始化多个体素包含的顶点的颜色信息，以得到多个体素的初始体素信息。

图8的图像生成装置可以执行图6所示实施例的图像生成方法，其实现原理和技术效果不再赘述。对于上述实施例中的图8装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9为本申请实施例提供的一种体素模型生成装置的结构示意图。如图9所示，该体素模型生成装置可以包括三维重建模块91、模型初始化模块92和模型训练模块93。

三维重建模块91，用于根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型，目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应，换句话说，每张样本图像中的不同像素点与穿过目标物体上不同表面点的第一视线对应。

模型初始化模块92，用于根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型，体素模型包括多个体素及其初始体素信息。

模型训练模块93，用于利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

图9的体素模型生成装置可以执行图1所示实施例的体素模型生成方法，其实现原理和技术效果不再赘述。对于上述实施例中的图9装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10为本申请实施例提供的一种计算机设备的结构示意图。如图10所示，该装置包括：存储器101和处理器102；

存储器101，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算平台上的操作。这些数据的示例包括用于在计算平台上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器101可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

处理器102，与存储器101耦合，用于执行存储器101中的计算机程序，以用于：根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线；根据目标视线上多个空间点的空间坐标，从预先生成的目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素，目标体素模型包括多个体素，每个体素具有能够对落入该体素内的空间点进行隐式3D表达的目标体素信息；根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度，并根据目标空间点的颜色信息和体积密度进行体渲染，以得到与相机位姿适配的目标图像。

进一步可选的，处理器102根据目标视线上多个空间点的空间坐标，从预先生成的目标物体对应的目标体素模型中，查询得到目标视线上落入目标体素模型中的目标空间点及其落入的目标体素时，具体用于：根据目标视线对应的视线方程和目标体素模型中多个体素的位置范围，确定与目标视线相交的目标体素；根据目标视线上多个空间点的空间坐标与目标体素的位置范围，确定目标视线上落入目标体素内的目标空间点。

进一步可选的，每个体素的目标体素信息包括体素包含的多个顶点的颜色信息和体积密度，则处理器102根据目标体素的目标体素信息，生成目标空间点的颜色信息和体积密度时，具体用于：根据目标体素包含的多个顶点的空间坐标和目标空间点的空间坐标，确定目标空间点与目标体素包含的多个顶点之间的相对位置关系；根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，利用目标体素包含的多个顶点的颜色信息和体积密度，生成目标空间点的颜色信息和体积密度。

进一步可选的，处理器102根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，利用目标体素包含的多个顶点的颜色信息和体积密度，生成目标空间点的颜色信息和体积密度时，具体用于：根据目标空间点与目标体素包含的多个顶点之间的相对位置关系，确定目标体素包含的多个顶点各自对应的插值系数，对目标体素包含的任一顶点，顶点与目标空间点的相对位置关系越近，顶点对应的插值系数越大；根据插值系数，对目标体素包含的多个顶点的颜色信息和体积密度进行插值计算，得到目标空间点的颜色信息和体积密度。

进一步可选的，处理器102还用于：根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到对目标物体进行隐式三维3D表达的初始隐式3D表征模型，目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应，或者说，每张样本图像中的不同像素点与穿过目标物体上不同表面点的第一视线对应；根据多张样本图像和初始隐式3D表征模型，构建目标物体对应的初始体素模型，初始体素模型包括多个体素及其初始体素信息；利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达。

进一步可选的，处理器102利用多张样本图像中像素点对应的第一视线上的空间点，针对初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型时，具体用于：针对任一轮模型训练，从多张样本图像中选择样本图像块，并将样本图像块中多个像素点对应的第一视线作为多条第二视线；根据初始体素模型中多个体素的当前体素信息，对多条第二视线上的空间点进行隐式3D表达，得到多个第二视线对应的多个第一像素点的第一颜色信息；根据多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数；在本轮模型训练对应的损失函数不满足收敛条件的情况下，调整初始体素模型中相应体素的当前体素信息，并继续下一轮模型训练，直至损失函数满足收敛条件时得到目标体素模型。

进一步可选的，处理器102根据初始体素模型中多个体素的当前体素信息，对第二视线上多个空间点进行隐式3D表达，得到第二视线对应的第一像素点的第一颜色信息时，具体用于：根据第二视线上多个空间点的空间坐标，查询初始体素模型，得到第二视线上落入初始体素模型中的第一空间点及其落入的第一体素；根据第一体素的当前体素信息，生成第一空间点的颜色信息和体积密度，并根据第一空间点的颜色信息和体积密度，生成第二视线对应的第一像素点的第一颜色信息。

进一步可选的，损失函数包含像素级的损失函数和图像块级的损失函数，则处理器102根据多个第一像素点的第一颜色信息和多个第一像素点在样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数时，具体用于：针对每个第一像素点，根据第一像素点的第一颜色信息和第一像素点在样本图像块中的第二颜色信息的颜色差异，生成像素级的损失函数；根据多个第一像素点的第一颜色信息渲染出第一图像块；根据第一图像块和样本图像块的图像差异，生成图像块级的损失函数。

进一步可选的，处理器102根据多张样本图像和初始隐式3D模型，构建目标物体对应的初始体素模型时，具体用于：根据多张样本图像的图像特征，确定目标物体对应的空间范围，空间范围具有长宽高三个维度；对空间范围在长宽高三个维度上采样相同数量的空间点作为体素包含的顶点，并由顶点将空间范围分割为多个体素；将多个体素包含的顶点的空间坐标输入初始隐式3D模型，得到多个体素包含的顶点的体积密度，并初始化多个体素包含的顶点的颜色信息，以得到多个体素的初始体素信息。

进一步，如图10所示，该计算机设备还包括：通信组件103、显示器104、电源组件105、音频组件106等其它组件。图10中仅示意性给出部分组件，并不意味着计算机设备只包括图10所示组件。另外，图10中虚线框内的组件为可选组件，而非必选组件，具体可视排产设备的产品形态而定。本实施例的计算机设备可以实现为台式电脑、笔记本电脑、智能手机或IOT设备等终端设备，也可以是常规服务器、云服务器或服务器阵列等服务端设备。若本实施例的计算机设备实现为台式电脑、笔记本电脑、智能手机等终端设备，可以包含图10中虚线框内的组件；若本实施例的计算机设备实现为常规服务器、云服务器或服务器阵列等服务端设备，则可以不包含图10中虚线框内的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中的各步骤。

相应地，本申请实施例还提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，致使处理器能够实现上述方法实施例中的各步骤。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

上述显示器包括屏幕，其屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

上述音频组件，可被配置为输出和/或输入音频信号。例如，音频组件包括一个麦克风（MIC），当音频组件所在设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中，音频组件还包括一个扬声器，用于输出音频信号。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器 (RAM) 和/或非易失性内存等形式，如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种图像生成方法，其特征在于，包括：

根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线；

根据所述目标视线上多个空间点的空间坐标，从预先生成的所述目标物体对应的目标体素模型中，查询得到所述目标视线上落入所述目标体素模型中的目标空间点及其落入的目标体素，所述目标体素模型包括多个体素，每个体素具有目标体素信息；

根据所述目标体素的目标体素信息，生成所述目标空间点的颜色信息和体积密度，并根据所述目标空间点的颜色信息和体积密度进行体渲染，以得到与所述相机位姿适配的目标图像。

2.根据权利要求1所述的方法，其特征在于，根据所述目标视线上多个空间点的空间坐标，从预先生成的所述目标物体对应的目标体素模型中，查询得到所述目标视线上落入所述目标体素模型中的目标空间点及其落入的目标体素，包括：

根据所述目标视线对应的视线方程和所述目标体素模型中多个体素的位置范围，确定与所述目标视线相交的目标体素；

根据所述目标视线上多个空间点的空间坐标与所述目标体素的位置范围，确定所述目标视线上落入所述目标体素内的目标空间点。

3.根据权利要求1所述的方法，其特征在于，每个体素的目标体素信息包括所述体素包含的多个顶点的颜色信息和体积密度，则根据所述目标体素的目标体素信息，生成所述目标空间点的颜色信息和体积密度，包括：

根据所述目标体素包含的多个顶点的空间坐标和所述目标空间点的空间坐标，确定所述目标空间点与所述目标体素包含的多个顶点之间的相对位置关系；

根据所述目标空间点与所述目标体素包含的多个顶点之间的相对位置关系，利用所述目标体素包含的多个顶点的颜色信息和体积密度，生成所述目标空间点的颜色信息和体积密度。

4.根据权利要求3所述的方法，其特征在于，根据所述目标空间点与所述目标体素包含的多个顶点之间的相对位置关系，利用所述目标体素包含的多个顶点的颜色信息和体积密度，生成所述目标空间点的颜色信息和体积密度，包括：

根据所述目标空间点与所述目标体素包含的多个顶点之间的相对位置关系，确定所述目标体素包含的多个顶点各自对应的插值系数，对所述目标体素包含的任一顶点，所述顶点与所述目标空间点的相对位置关系越近，所述顶点对应的插值系数越大；

根据所述插值系数，对所述目标体素包含的多个顶点的颜色信息和体积密度进行插值计算，得到所述目标空间点的颜色信息和体积密度。

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到初始隐式3D表征模型，所述目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；

根据所述多张样本图像和所述初始隐式3D表征模型，构建所述目标物体对应的初始体素模型，所述初始体素模型包括多个体素及其初始体素信息；

利用所述多张样本图像中像素点对应的第一视线上的空间点，针对所述初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，所述目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达。

6.根据权利要求5所述的方法，其特征在于，利用所述多张样本图像中像素点对应的第一视线上的空间点，针对所述初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，包括：

针对任一轮模型训练，从所述多张样本图像中选择样本图像块，并将所述样本图像块中多个像素点对应的第一视线作为多条第二视线；

根据所述初始体素模型中多个体素的当前体素信息，对所述多条第二视线上的空间点进行隐式3D表达，得到所述多个第二视线对应的多个第一像素点的第一颜色信息；

根据所述多个第一像素点的第一颜色信息和所述多个第一像素点在所述样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数；

在本轮模型训练对应的损失函数不满足收敛条件的情况下，调整所述初始体素模型中相应体素的当前体素信息，并继续下一轮模型训练，直至损失函数满足收敛条件时得到目标体素模型。

7.根据权利要求6所述的方法，其特征在于，根据所述初始体素模型中多个体素的当前体素信息，对所述第二视线上多个空间点进行隐式3D表达，得到所述第二视线对应的第一像素点的第一颜色信息，包括：

根据所述第二视线上多个空间点的空间坐标，查询所述初始体素模型，得到所述第二视线上落入所述初始体素模型中的第一空间点及其落入的第一体素；

根据所述第一体素的当前体素信息，生成所述第一空间点的颜色信息和体积密度，并根据所述第一空间点的颜色信息和体积密度，生成所述第二视线对应的第一像素点的第一颜色信息。

8.根据权利要求6所述的方法，其特征在于，所述损失函数包含像素级的损失函数和图像块级的损失函数，则根据所述多个第一像素点的第一颜色信息和所述多个第一像素点在所述样本图像块中的第二颜色信息，构建本轮模型训练对应的损失函数，包括：

针对每个第一像素点，根据所述第一像素点的第一颜色信息和所述第一像素点在所述样本图像块中的第二颜色信息的颜色差异，生成所述像素级的损失函数；

根据所述多个第一像素点的第一颜色信息渲染出第一图像块；根据所述第一图像块和所述样本图像块的图像差异，生成所述图像块级的损失函数。

9.根据权利要求7所述的方法，其特征在于，根据所述多张样本图像和所述初始隐式3D模型，构建所述目标物体对应的初始体素模型，包括：

根据所述多张样本图像的图像特征，确定所述目标物体对应的空间范围，所述空间范围具有长宽高三个维度；

对所述空间范围在长宽高三个维度上采样相同数量的空间点作为体素包含的顶点，并由所述顶点将所述空间范围分割为多个体素；

将所述多个体素包含的顶点的空间坐标输入所述初始隐式3D模型，得到所述多个体素包含的顶点的体积密度，并初始化所述多个体素包含的顶点的颜色信息，以得到所述多个体素的初始体素信息。

10.一种体素模型生成方法，其特征在于，所述方法包括：

根据所述多张样本图像和所述初始隐式3D模型，构建所述目标物体对应的初始体素模型，所述体素模型包括多个体素及其初始体素信息；

利用所述多张样本图像中像素点对应的第一视线上的空间点，针对所述初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，所述目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

11.一种图像生成装置，其特征在于，包括：

生成模块，用于根据目标物体对应的待渲染的目标图像的属性信息和相机位姿，生成待渲染的目标视线；

查询模块，用于根据所述目标视线上多个空间点的空间坐标，从预先生成的所述目标物体对应的目标体素模型中，查询得到所述目标视线上落入所述目标体素模型中的目标空间点及其落入的目标体素，所述目标体素模型包括多个体素，每个体素具有目标体素信息；

渲染模块，用于根据所述目标体素的目标体素信息，生成所述目标空间点的颜色信息和体积密度，并根据所述目标空间点的颜色信息和体积密度对所述待渲染图像进行体渲染，以得到与所述相机位姿适配的目标图像。

12.一种体素模型生成装置，其特征在于，包括：

三维重建模块，用于根据包含目标物体的多张样本图像进行基于神经网络的三维重建，得到初始隐式3D表征模型，所述目标物体上的表面点与对应样本图像中的像素点对应，且与拍摄到所述像素点的第一视线对应；

模型初始化模块，用于根据所述多张样本图像和所述初始隐式3D模型，构建所述目标物体对应的初始体素模型，所述体素模型包括多个体素及其初始体素信息；

模型训练模块，用于利用所述多张样本图像中像素点对应的第一视线上的空间点，针对所述初始体素模型中多个体素的体素信息进行模型训练，以得到目标体素模型，所述目标体素模型中各体素具有目标体素信息，用于对落入该体素内的空间点进行隐式3D表达，以实现对目标物体进行隐式三维3D表达。

13.一种计算机设备，其特征在于，包括：存储器和处理器；所述存储器，用于存储计算机程序，所述处理器与所述存储器耦合，用于执行所述计算机程序，以用于实现权利要求1-10任一项所述方法中的步骤。

14.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，致使所述处理器实现权利要求1-10任一项所述方法中的步骤。