CN115375884B

CN115375884B - 自由视点合成的模型生成方法、图像绘制方法及电子设备

Info

Publication number: CN115375884B
Application number: CN202210929284.7A
Authority: CN
Inventors: 韩少强; 董立龙; 杨光
Original assignee: Beijing Weishiwei Information Technology Co ltd
Current assignee: Beijing Weishiwei Information Technology Co ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2023-05-30
Anticipated expiration: 2042-08-03
Also published as: CN115375884A

Abstract

本公开涉及一种自由视点合成的模型生成方法、图像绘制方法及电子设备，该方法包括：获取相机在至少一个参考视点观察目标场景得到的至少一张第一图像，以及所述第一图像对应的相机参数；根据至少一张第一图像和对应的相机参数，得到多个训练样本；其中，一个训练样本对应一张第一图像的一个像素，训练样本的标签包括对应像素的颜色真值和与颜色无关的特征向量真值；通过所述多个训练样本、设定的损失函数、设定的第一绘制模型和第二绘制模型练第一预测模型，并基于训练后的第一预测模型得到第二预测模型；其中，所述第一预测模型包括体密度预测模型、颜色预测模型和特征预测模型，第二预测模型包括训练后的密度预测模型和训练后的颜色预测模型。

Description

自由视点合成的模型生成方法、图像绘制方法及电子设备

技术领域

本发明涉及自由视点合成技术领域，更具体地，涉及一种自由视点合成的模型生成方法、一种自由视点合成的图像绘制方法、及一种电子设备。

背景技术

自由视点合成的图像绘制是指基于在参考视点观察目标场景的已知图像，绘制出在其他视点观察该目标场景的图像，以实现用户对于该目标场景的自由视点观察。

对于自由视点合成，现有技术提出了基于神经辐射场(Neural Radiance Fields，NeRF)的三维场景表示方法，该方法从已知视点的训练图像中估计出一个连续的神经网络场景表示，在此基础上，使用经典的体绘制技术绘制出其他视点的图像。尽管NeRF在学习高频的外观信息和精确的几何信息方面表现出了优异的性能，但其仍然具有局限性，最大的局限性就体现其存在几何-颜色的歧义性(Shape-Radiance Ambiguity)。几何-颜色歧义性意味着即使预测的几何形状完全不正确，也可能存在一个辐射场分布，使模型能够完美地绘制训练图像，这意味着一个完全错误的几何估计搭配一个错误的辐射场分布，同样有可能很好地绘制出训练图像。这就导致训练后的模型虽然对训练图像的拟合非常好，但是在通过该模型绘制其他视点的图像时，将会出现严重的错误，即出现过拟合现象。可见，通过NeRF方法训练得到的模型在渲染新的视点上能力非常有限，因此，有必要提供一种进行自由视点合成的新的技术方案，以提高图像绘制的精确性。

发明内容

本公开实施例的一个目的是提供一种进行自由视点合成的新的技术方案，以提高自由视点绘制的精确性。

根据本公开的第一方面，提供了根据一实施例的自由视点合成的模型生成方法，其包括：

获取相机在至少一个参考视点观察目标场景得到的至少一张第一图像，以及所述第一图像对应的相机参数；其中，所述至少一个参考视点与所述至少一张第一图像一一对应；

根据所述至少一张第一图像和所述第一图像对应的相机参数，得到多个训练样本；其中，一个训练样本对应一张第一图像的一个像素，所述训练样本的数据包括对应像素的成像光线上多个采样点的数据，所述采样点的数据包括所述采样点的位置坐标和观察方向，所述训练样本的标签包括对应像素的颜色真值和特征向量真值，所述特征向量表示对应像素的与颜色无关的特征；

通过所述多个训练样本、设定的损失函数、设定的第一绘制模型和第二绘制模型练第一预测模型，并基于训练后的第一预测模型得到第二预测模型；其中，所述第一预测模型包括体密度预测模型、颜色预测模型和特征预测模型，所述体密度预测模型反映采样点的位置坐标与采样点的体密度间的映射关系，所述颜色预测模型反映采样点的第一位置信息和采样点的观察方向与采样点的颜色间的映射关系，所述特征预测模型反映采样点的第二位置信息与采样点的所述特征向量间的映射关系，所述第一位置信息与所述第二位置信息为所述体密度预测模型的中间层输出的信息；所述第一绘制模型基于通过所述第一预测模型预测的、一条成像光线上多个采样点的体密度和颜色，得到对应像素的颜色预测值；所述第二绘制模型基于通过所述第一预测模型预测的、一条成像光线上多个采样点的体密度和特征向量，得到对应像素的特征向量预测值；所述损失函数包括反映像素的颜色预测值相对颜色真值的第一损失，以及反映像素的特征向量预测值相对特征向量真值的第二损失；所述第二预测模型包括训练后的密度预测模型和训练后的颜色预测模型。

可选地，所述与颜色无关的特征包括尺度不变转换特征。

可选地，所述体密度预测模型是基于循环神经网络的模型。

可选地，所述多个采样点为K个采样点，所述体密度预测模型包括串联连接的N个网络层，第k个采样点的位置坐标输入至第1个网络层，k取1至K的整数；

第i个网络层L_i对于第k个采样点的输出out^k _i表示为：

out^k _i＝L_i(out^k _i-1)，其中，i取2至(N-2)的整数，out^k _i-1为第(i-1)个网络层对于第k个采样点的输出，其中，out^k _i-1作为第i个网络层L_i的输入；

第j个网络层L_j对于第k个采样点的输出out^k _j表示为：

out^k _j＝L_j(out^k _j-1+W_j(out^k-1 _j-1))，其中，j取(N-1)和N，out^k _j-1为第(j-1)个网络层对于第k个采样点的输出，out^k-1 _j-1为第(j-1)个网络层对于第(k-1)个采样点的输出，W_j为全连接层。

可选地，所述网络层为全连接的ReLU层。

可选地，所述第一位置信息和所述第二位置信息分别由所述体密度预测模型的相邻两个中间层输出，所述第一位置信息由所述两个中间层的前一中间层输出，所述第二位置信息由所述两个中间层的后一中间层输出。

可选地，所述体密度预测模型包括8个串联连接的全连接的ReLU层，所述相邻两个中间层分别为第五层和第六层。

可选地，所述特征预测模型包括串联连接的M个全连接的ReLU层和一个作为输出层的全连接层，最末序位的ReLU层与所述全连接层连接。

根据本公开的第二方面，提供了根据一实施例的自由视点合成的图像绘制方法，其包括：

接收观察目标场景的目标视点；

根据所述目标视点，确定对应于所述目标视点的相机参数；

根据对应于所述目标视点的相机参数、第一绘制模型和通过本公开的第一方面所述的模型生成方法获得的第二预测模型，绘制并输出所述目标场景的对应于所述目标视点的第二图像；其中，所述第一绘制模型基于通过所述第二预测模型预测的、一条成像光线上多个采样点的体密度和颜色，得到构成第二图像的像素的颜色预测值，所述第二图像的像素的颜色预测值用于生成所述第二图像。

根据本公开的第三方面，提供了根据一实施例的电子设备，该电子设备包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于在所述计算机程序的控制下，执行根据本公开的第一方面所述的模型绘制方法或者根据本公开的第二方面所述的图像绘制方法。

本公开实施例的一个有益效果在于，本公开实施例的模型生成方法联合仅与采样点的位置坐标有关、但与观察方向无关的特征预测模型，训练颜色预测模型和体密度预测模型，进而得到由训练后的颜色预测模型和训练后的体密度预测模型构成的第二预测模型。在此，由于在训练颜色预测模型和体密度预测模型时，引入了与观察方向无关的特征预测模型进行约束，因此，可以有效避免几何-颜色歧义性的发生，这样，在基于训练得到的第二预测模型和第一绘制模型进行其他视点的图像绘制时，便不会出现几何估计错误的问题，能够有效提高自由视点绘制的精确性。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本公开实施例方法的应用场景示意图；

图2是根据一些实施例的模型生成方法的流程示意图；

图3是根据一些实施例的第一预测模型的模型结构示意图；

图4是根据一些实施例的体密度预测模型的模型结构示意图；

图5是根据一些实施例的进行模型训练的图解示意图；

图6是根据一些实施例的图像绘制方法的流程示意图；

图7是根据一些实施例的电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<硬件配置>

图1是本公开实施例的模型生成方法和图像绘制方法的应用场景示意图。

图1示出的电子设备1000可用于执行根据本公开实施例的模型生成方法，也可用于执行根据本公开实施例的图像绘制方法，还可以用于执行根据本公开实施例的模型生成方法和图像生成方法。也就是说，本公开实施例的模型生成方法和图像绘制方法可以分别由不同的电子设备实施，也可以由同一电子设备实施，在此不做限定。

该电子设备1000可以是具有计算能力的任意电子设备，可以是终端设备，也可以是服务器等，在此不做限定。

如图1所示，电子设备1000基于目标场景的参考视点的至少一张第一图像，其中，视点反映了对于目标场景的观察位置和观察方向，第一图像为已知图像，一张第一图像对应一个参考视点，不同的第一图像对应不同的参考视点，执行根据本公开实施例的模型生成方法训练第一预测模型，以确定第一预测模型的模型参数，其中，该第一预测模型包括体密度预测模型、颜色预测模型和特征预测模型，得到由训练后的颜色预测模型和训练后的体密度预测模型构成的第二预测模型，其中，第二预测模型用于在自由视点合成中预测目标视点所对应成像光线上采样点的体密度和颜色。在此，至少一张第一图像及对应的参考视点可以由用户输入或者由外部设备提供，也可以由图像绘制装置1000拍摄得到该第一图像并基于拍摄状态确定参考视点，在此不做限定。

如图1所示，电子设备1000在基于参考视点的至少一张第一图像训练得到第二预测模型后，还可以针对用户输入的目标视点，执行根据本公开实施例的图像绘制方法，通过第二预测模型和第一绘制模型，绘制对应给定的任意目标视点的第二图像。

电子设备1000可以包括处理器1100、存储器1200、相机1300、通信装置1400、显示装置1500、输入装置1600。

处理器1100用于执行计算机程序，该计算机程序可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集编写。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。相机1300可以是深度相机。通信装置1400例如能够进行有线或无线通信，通信装置1400可以包括至少一种短距离通信模块，例如是基于Hilink协议、WiFi(IEEE 802.11协议)、Mesh、蓝牙、ZigBee、Thread、Z-Wave、NFC、UWB、LiFi等短距离无线通信协议进行短距离无线通信的任意模块，通信装置1400也可以包括远程通信模块，例如是进行WLAN、GPRS、2G/3G/4G/5G远程通信的任意模块。显示装置1500是能够进行图像显示的任意装置。输入装置1600可以包括鼠标、键盘、麦克风等供用户输入信息的装置。

电子设备1000的存储器1200用于存储计算机程序，该计算机程序用于控制处理器1100进行操作以至少执行根据本公开任意实施例的模型生成方法和/或图像绘制方法。技术人员可以根据该方法步骤设计计算机程序，而且计算机程序如何控制处理器进行操作，这是本领域公知技术，故在此不再详细描述。

<方法实施例>

图2示出了根据一个实施例的模型生成方法的流程示意图。该模型生成方法可由图1所示的电子设备1000实施，也可以由具有其他硬件结构的设备实施，在此不做限定。

如图2所示，本实施例的模型生成方法可以包括如下步骤S210～S230：

步骤S210，获取相机在至少一个参考视点观察目标场景得到的至少一张第一图像、及所述第一图像对应的相机参数。

本实施例中，相机可以是电子设备1000的相机，也可以是独立于电子设备1000的其他设备。

本实施例中，第一图像为通过相机在参考视点拍摄目标场景得到的真实图像，至少一个参考视点与至少一张第一图像一一对应，不同的第一图像对应不同的参考视点。本实施例中的视点包括观察位置和观察方向。本实施例中的第一图像可以是具有深度信息的深度图。

相机参数包括内参和外参，内参的作用是确定相机从三维空间到二维图像的投影关系，共有6个参数(f,κ,Sx,Sy,Cx,Cy)，其中，f为焦距；κ表示径向畸变量；Sx,Sy是缩放比例因子；Cx,Cy是图像的主点，即过镜头轴心垂直于成像平面与图像平面的交点。外参的作用是确定相机坐标与世界坐标系之间相对位置关系，共有6个参数(α,β,γ,Tx,Ty,Tz)，其中T＝(Tx,Ty,Tz)是平移向量，R＝R(α,β,γ,)是旋转矩阵。一个视点会对应一套相机参数，不同视点对应不同的相机参数，其中，不同视点至少对应不同的外参，也就是说，每张第一图像会有各自对应的相机参数。

参考视点、相机参数和第一图像可以由用户输入、外部设备提供，也可以是电子设备1000通过采集第一图像获得。

步骤S220，根据至少一张第一图像和所述第一图像对应的相机参数，得到多个训练样本。

本实施例中，一个训练样本对应一张第一图像的一个像素。每一第一图像具有多个像素，至少一张第一图像可以获得多个训练样本。

由于一个场景的外观可以由一个五维的全光函数进行表示，其中，该全光函数可以通过描述场景中每个空间位置点(3个自由度的位置坐标)沿每个方向(2个自由度)发出的光来表达整个场景，其中，2个自由度为该空间位置所发出光线与以该空间位置为球心的球面间的相交点的经度和维度，而图像的像素信息(包括像素的颜色和特征)是由所对应发射光线经过的所有空间位置点的信息决定的。因此，对于本实施例的每一训练样本，该训练样本的数据包括对应像素的成像光线上多个采样点的数据，该采样点的数据包括采样点的位置坐标(3个自由度)和观察方向(2个自由度)，其中，一条成像光线上的所有采样点的观察方向均相同；训练样本的标签包括对应像素的颜色真值和特征向量真值，其中，该特征向量表示对应像素的与颜色无关的特征，以在模型训练中，通过颜色和与颜色无关的特征的共同约束来解决几何-颜色歧义性问题。

经分析，几何-颜色歧义性的存在是由于从不同方向观察场景中的目标场景时，场景中同一空间位置向不同方向发射的颜色可以是不同的所导致的，所以仅靠颜色信息作为监督进行模型训练是不充分的，也就是说，仅靠颜色信息进行监督进行模型训练，训练得到的预测模型在绘制自由视点图像时便会出现错误。为了解决该问题，本实施例在模型训练时，除了RGB颜色信息，还增加了与观察方向无关的特征进行训练监督，以通过与颜色无关的特征的约束，提高训练得到的预测模型的准确性，进而解决几何-颜色歧义性问题。

在一些实施例中，与颜色无关的特征可以包括尺度不变转换特征(Scale-InvariantFeatureTransform，SIFT)。SIFT是一种表征局部梯度信息的局部描述符，SIFT描述符是一种稀疏的特征表示，包括特征提取和检测两部分，在这些实施例中，可以仅使用特征提取部分来编码与观察方向无关的信息。在这些实施例中，每一像素的SIFT特征可以用128维的特征向量表示。通过提取第一图像的SIFT特征，便可得到第一图像的SIFT特征图，根据SIFT特征图与第一图像间的像素映射关系，便可从SIFT特征图中获得第一图像中每一像素的SIFT特征，即获得第一图像中每一像素的特征向量真值。

本实施例中，第一图像的一个像素所对应的成像光线可以根据该第一图像对应的相机参数确定。在确定成像光线后，可以结合该成像光线所对应像素的景深(深度信息)，在该成像光线的景深范围内选取多个采样点，设为选取K个采样点，每一采样点通过位置坐标和观察方向进行表示，例如可以表示为γ_k(x，d)，其中，γ_k表示一条发射光线γ上的第k个采样点，k的取值范围为1至K的整数，x表示位置坐标，d表示观察方向，这里可以在成像光线上等间隔选取设定数目K个采样点，也可以按照其他规则选取，在此不做限定。

步骤S230，通过多个训练样本、设定的损失函数、设定的第一绘制模型和第二绘制模型训练第一预测模型，并基于训练后的第一预测模型得到第二预测模型。

如图3和图5所示，第一预测模型300包括体密度预测模型

颜色预测模型/>

和特征预测模型/>

体密度预测模型/>

反映采样点的位置坐标与采样点的体密度间的映射关系。颜色预测模型/>

反映采样点的第一位置信息和采样点的观察方向与采样点的颜色间的映射关系，即，颜色预测模型/>

的输入信息包括采样点的第一位置信息和采样点的观察方向，输出信息为该采样点的颜色信息，第一位置信息为与采样点的位置坐标有关的信息。特征预测模型/>

反映采样点的第二位置信息与采样点的特征向量间的映射关系，该特征向量用于表示该采样点的与颜色无关的特征，该第二位置信息同样为与采样点的位置坐标有关的信息。

体密度预测模型

可以表示为：

颜色预测模型

可以表示为：

特征预测模型

可以表示为：

其中，γ_k表示一条发射光线γ上的第k个采样点，x(γ_k)表示第k个采样点的位置坐标x，d(γ_k)示第k个采样点的观察方向d，Z(γ_k)表示第k个采样点的第一位置信息，Z^*(γ_k)表示第k个采样点的第二位置信息，σ(γ_k)表示第k个采样点的体密度(预测值)，c(γ_k)表示第k个采样点的颜色(预测值)，s(γ_k)表示第k个采样点的特征向量(预测值)。

本实施例中，第一位置信息与第二位置信息为体密度预测模型

的中间层输出的信息，其中，第一位置信息由体密度预测模型/>

的第一中间层输出，第二位置信息由体密度预测模型/>

的第二中间层输出，在此，“第一”和“第二”并不用于限定中间层在模型中的位置，仅用于表示两个不同的中间层。也就是说，特征预测模型/>

的输入端与体密度预测模型/>

的第一中间层的输出端连接，而颜色预测模型/>

的输入端不仅接收采样点的观察方向，还与体密度预测模型/>

的第二中间层的输出端连接，以接收第二位置信息。

在一些实施例中，第一位置信息和第二位置信息可以分别由体密度预测模型

的相邻两个中间层输出，其中，第一位置信息由此两个中间层的前一中间层输出，而第二位置信息由此两个中间层的后一中间层输出。该体密度预测模型/>

可以包括多个串联连接的ReLU层，尤其是多个串联连接的全连接的ReLU层，其中，每层可以具有256个通道，第一中间层和第二中间层为多个ReLU层中的两层。例如，体密度预测模型包括8个串联连接的全连接的ReLU层，相邻两个中间层分别为其中的第五层和第六层。

在一些实施例中，体密度预测模型

可以通过相同的网络结构独立地预测同一发射光线上每一采样点的体密度。例如，体密度预测模块/>

可以采样基于多层感知机(Multilayer Perceptron，MLP)的网络结构。

在另一些实施例中，体密度预测模型

可以是基于循环神经网络的模型，其可以统一处理沿一条成像光线上所有采样位置来收集空间中的上下文信息，并结合上下文信息来预测该条成像光线上每一采样点的体密度，也就是说，在这些实施例中，体密度预测模型

不仅从单个的空间位置来预测体密度，而且还能在同一成像光线中聚合空间的上下文信息，这有利于提高对成像光线上多个采样点的信息进行合成的合成质量，进而提高图像绘制的准确性。

在这些实施例中，如图4所示，体密度预测模型

可以包括串联连接的N个网络层和2个全连接层，最后两个网络层L_j对于第k个采样点的输出/>

可以表示为：

out^k _j＝L_j(out^k _j-1+W_j(out^k-1 _j-1)) 公式(4)；

其中，j取(N-1)和N，out^k _j-1为第(j-1)个网络层对于第k个采样点的输出，out^k-1 _j-1为第(j-1)个网络层对于第(k-1)个采样点的输出，W_j为全连接层，将第(j-1)个网络层对于第(k-1)个采样点的输出out^k-1 _j-1与第(j-1)个网络层对于第k个采样点的输出out^k _j-1一起传递至第j个网络层，成为第j个网络层的输入。

对于第1个网络层L₁，其输入为第k个采样点γ_k的位置坐标x(γ_k)，第1个网络层L₁对于第k个采样点的输出

可以表示为：

out^k ₁＝L₁(x(γ_k)) 公式(5)；

对于第2个网络层至第(N-2)个网络层中的第i个网络层，其对于第k个采样点的输出out^k _i可以表示为：

out^k _i＝L_i(out^k _i-1) 公式(6)；

其中，i取2至(N-2)的整数，out^k _i-1为第(i-1)个网络层对于第k个采样点的输出及第i个网络层L_i的输入。

在这些实施例中，一条发射光线上的多个采样点γ₁～γ_K中，编号越小的采样点，距离视点越近，即在预测采样点的体密度时，沿着视点至场景的方向，将近处采样点的信息向远处采样点传递。

在这些实施例中，体密度预测模型

可以包括如上的多个串联连接的全连接的ReLU层，例如包括8个全连接的ReLU层，体密度预测模型/>

的第一中间层输出所对应采样点的第一位置信息，体密度预测模型/>

的第二中间层输出所对应采样点的第二位置信息。每一ReLU层可以具有256个通道。

在一些实施例中，特征预测模型

可以包括串联连接的M个全连接的ReLU层和一个作为输出层的全连接层，最末序位的ReLU层与该全连接层连接。特征预测模型/>

的第1个ReLU层的输入为体密度预测模型/>

的中间层输出的第二位置信息。在这些实施例中，ReLU层可以为256通道，作为输出层的全连接层可以降维输出128维的用于表示采样点的与颜色无关的特征(例如SIFT特征)的特征向量。

在一些实施例中，颜色预测模型

可以包括一个具有128个通道的全连接的ReLU层和一个具有sigmoid激活函数的输出层，颜色预测模型/>

最终输出一个3维的RGB向量，即，输出采样点的颜色。

本实施例中，第一绘制模型基于通过第一预测模型300预测的、一条成像光线γ上多个采样点γ_k的体密度σ(γ_k)和颜色c(γ_k)，得到对应像素的颜色预测值

也就是说，

是由经过相机光心o的成像光线γ成像的预期颜色。对于任一第一图像的任一像素，该像素的颜色预测值/>

(或者称之为沿该成像光线γ成像的颜色预测值)均可利用第一绘制模型基于通过第一预测模型300预测的、对应成像光线γ上多个采样点γ_k的体密度σ(γ_k)和颜色c(γ_k)得到，这样便可得到每一第一图像的每一像素的颜色预测值。

该第一绘制模型可以采用体绘制技术，第一绘制模型例如可以表示为：

其中，式子中(γ_k-γ_k-1)表示采样点γ_k+1与采样点γ_k在所在成像光线方向上的间距，同理(γ_k′-γ_(k-1)′)表示采样点γ_k′+1与采样点γ_k′在所在成像光线方向上的间距。

本实施例中，第二绘制模型基于通过第一预测模型300预测的、一条成像光线上多个采样点γ_k的体密度σ(γ_k)和特征向量s(γ_k)，得到对应像素的特征向量预测值

对于任一第一图像的任一像素，该像素的特征向量预测值/>

均可利用第二绘制模型基于通过第一预测模型300预测的、对应成像光线γ上多个采样点γ_k的体密度σ(γ_k)和特征向量s(γ_k)得到，这样便可得到每一第一图像的每一像素的特征向量预测值。

与第一绘制模型类似，第二绘制模型例如可以表示为：

可见，通过第一预测模型预测第一图像中像素所对应发射光线上每一采样点的体密度、颜色和特征向量，再通过第一绘制模型和第二绘制模型分别绘制该发射光线所对应像素的颜色和特征向量，便可得到每一训练样本的颜色预测值和特征向量预测值。

在通过第一预测模型、第一绘制模型和第二绘制模型得到每一训练样本的颜色预测值和特征向量预测值后，需要通过损失函数计算所有训练样本的预测值相对真值的平均损失，并根据损失优化模型参数，以根据优化后的模型参数进行下一次迭代，直至满足收敛条件为止训练结束，达到通过训练确定第一预测模型的模型参数的目的。该收敛条件可以是迭代次数达到设定次数，也可以是迭代损失小于设定损失，还可以是迭代损失的变化率小于设定变化率等，在此不做限定。

本实施例中，损失函数包括第一损失函数和第二损失函数，参见图5，第一损失函数反映像素的颜色预测值相对颜色真值的每一损失L_C，第二损失函数反映像素的特征向量预测值相对特征向量真值的第二损失L_S。在此，颜色预测值和特征向量预测值由第一预测模型、第一绘制模型和第二绘制模型预测得到，颜色真值和特征向量真值由训练样本的标签提供。

例如，第一损失函数可以表示为：

又例如，第二损失函数可以表示为：

其中，R代表训练样本集合，|R|代表训练样本集合中训练样本数目，训练样本集合包括步骤S220中提到的多个训练样本。γ代表发射光线，一条发射光线对应一个像素，也即对应训练样本集合中的一个训练样本。C(γ)代表发射光线γ所对应像素(或者说所对应训练样本)的颜色真值，S(γ)代表发射光线γ所对应像素(或者说所对应训练样本)的特征向量真值，||||₂代表第二范数。第一损失函数和第二损失函数也可以分别采用其他损失形式，例如均方差损失等，在此不做限定。

通过第一损失函数，可以获得训练样本集合中所有训练样本的第一损失；通过第二损失函数，可以获得训练样本集合中所有训练样本的第二损失。根据第一损失和第二损失可以获得每次迭代的总损失。

总损失可以是第一损失和第二损失的加权和，二者的权重可以相同，也可以不同。因此，损失函数可以表示为：

L＝w₁×L_C+w₂×L_S 公式(12)；

其中，w₁、w₂分别为第一损失和第二损失的权重系数，在二者相同的情况下，可以均取值为1。

本实施例中，基于训练后的第一预测模型，得到用于绘制自由视点图像的第二预测模型，第二预测模型包括训练后的密度预测模型和训练后的颜色预测模型，即，第二预测模型中密度预测模型的模型参数Θ1，以及颜色预测模型的模型参数Θ2，通过训练第一预测模型确定。

为了提高训练效率，在保证训练效果的同时减少计算量，对于第一预测模型，可以先进行粗略模型的训练，再以粗略模型的模型参数为初始值，进行精细模型的训练。在进行粗略模型的训练时，每条成像光线上可以选取较少数目的采样点，而在进行精细模型的训练时，每条成像光线上选取较多数目的采样点，例如前者选取64个采样点，后者相对前者增加采样点，例如增加128个采样点等，在此不做限定。

根据以上步骤S210-S230，本实施例的模型生成方法联合只与图像像素的成像光线的位置信息有关、但与成像光线对应的观察方向无关的特征预测模型，训练颜色预测模型和体密度预测模型，进而得到由训练后的颜色预测模型和训练后的体密度预测模型构成的第二预测模型。在此，由于在训练颜色预测模型和体密度预测模型时，引入了与观察方向无关的特征预测模型进行训练约束，因此，可以有效避免几何-颜色歧义性的发生，这样，在基于训练得到的第二预测模型和第一绘制模型进行其他视点的图像绘制时，便不会出现几何估计错误的问题，能够有效提高自由视点绘制的精确性。

本公开实施例在提供自由视点合成的模型生成方法的基础上，还提供了一种自由视点合成的图像绘制方法，图6为根据一实施例的自由视点合成的图像绘制方法的流程示意图。如图6所示，该图像绘制方法可以包括步骤S610-S630：

步骤S610，接收观察目标场景的目标视点。

该目标视点包括设定的观察位置和观察方向。

用户可以通过键盘、语音等方式，直接输入关于目标视点的数据，用户也可以通过移动、旋转代表目标视点的球标来选定目标视点，电子设备可以根据用户对球标的操作，确定目标视点。

该目标视点可以是区别于模型训练中使用的第一图像的参考视点。

步骤S620，根据目标视点，确定相机参数。

电子设备保存有体现视点与相机参数间映射关系的映射函数，基于该映射函数，便可以确定对应目标视点的相机参数。

步骤S630，根据相机参数、第一绘制模型和通过第二预测模型，绘制并输出目标场景的对应于目标视点的第二图像。

本实施例中使用的第二预测模型即为根据以上任意实施例的模型生成方法所获得的第二预测模型。

基于相机参数，可以确定在目标视点上成像的各条成像光线，进而获得每条成像光线上多个采样点的位置坐标和观察方向，这样便可通过将采样点的位置坐标和观察方向输入至第二预测模型，得到每一采样点的体密度和颜色，然后，将成像光线上多个采样点的体密度和颜色输入至第一绘制模型，便可以获得沿着该成像光线成像的颜色预测值，即得到该成像光线所对应像素的颜色预测值，其中，第一绘制模型基于通过第二预测模型预测的、一条成像光线上多个采样点的体密度和颜色，得到对应像素的颜色预测值，该对应像素也即为第二图像的像素。按照该种方式，可以获得沿着对应目标视点的每条成像光线成像的颜色预测值，由于一条成像光线对应一个像素，这样便可基于每一像素的颜色预测值，绘制出第二图像，并将第二图像输出给用户浏览。

在本实施例的方法中，由于使用第二预测模型进行空间位置点的颜色和体密度的预测，而第二预测模型在训练中由与颜色无关的特征进行约束，能够有效解决几何-颜色歧义性问题，因此，通过该第二预测模型和第一绘制模型绘制得到的自由视点合成的图像，将能够较为精准地表达目标场景在该目标视点的真实形态和真实颜色，明显提高了自由视点合成的精确性。

<设备实施例>

图7是根据一个实施例的电子设备700的硬件结构示意图。如图7所示，该电子设备700可以包括处理器710和存储器720，存储器720用于存储计算机程序，处理器710用于在该计算机程序的控制下，执行根据本公开任意实施例的模型生成方法和/或图像绘制方法，即，本公开实施例的模型生成方法和图像绘制方法可以由同一电子设备实施，也可以由不同的电子设备实施，在此不做限定。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人物来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人物来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人物能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种自由视点合成的模型生成方法，包括：

通过所述多个训练样本、设定的损失函数、设定的第一绘制模型和第二绘制模型训练第一预测模型，并基于训练后的第一预测模型得到第二预测模型；其中，所述第一预测模型包括体密度预测模型、颜色预测模型和特征预测模型，所述体密度预测模型反映采样点的位置坐标与采样点的体密度间的映射关系，所述颜色预测模型反映采样点的第一位置信息和采样点的观察方向与采样点的颜色间的映射关系，所述特征预测模型反映采样点的第二位置信息与采样点的所述特征向量间的映射关系，所述第一位置信息与所述第二位置信息为所述体密度预测模型的中间层输出的信息；所述第一绘制模型基于通过所述第一预测模型预测的、一条成像光线上多个采样点的体密度和颜色，得到对应像素的颜色预测值；所述第二绘制模型基于通过所述第一预测模型预测的、一条成像光线上多个采样点的体密度和特征向量，得到对应像素的特征向量预测值；所述损失函数包括反映像素的颜色预测值相对颜色真值的第一损失，以及反映像素的特征向量预测值相对特征向量真值的第二损失；所述第二预测模型包括训练后的密度预测模型和训练后的颜色预测模型。

2.根据权利要求1所述的方法，其中，所述与颜色无关的特征包括尺度不变转换特征。

3.根据权利要求1所述的方法，其中，所述体密度预测模型是基于循环神经网络的模型。

4.根据权利要求3所述的方法，其中，所述多个采样点为K个采样点，所述体密度预测模型包括串联连接的N个网络层，第k个采样点的位置坐标输入至第1个网络层，k取1至K的整数；

第i个网络层L_i对于第k个采样点的输出out^k _i表示为：

第j个网络层L_j对于第k个采样点的输出out^k _j表示为：

5.根据权利要求4所述的方法，其中，所述网络层为全连接的ReLU层。

6.根据权利要求1所述的方法，其中，所述第一位置信息和所述第二位置信息分别由所述体密度预测模型的相邻两个中间层输出，所述第一位置信息由所述两个中间层的前一中间层输出，所述第二位置信息由所述两个中间层的后一中间层输出。

7.根据权利要求6所述的方法，其中，所述体密度预测模型包括8个串联连接的全连接的ReLU层，所述相邻两个中间层分别为第五层和第六层。

8.根据权利要求1所述的方法，其中，所述特征预测模型包括串联连接的M个全连接的ReLU层和一个作为输出层的全连接层，最末序位的ReLU层与所述全连接层连接。

9.一种自由视点合成的图像绘制方法，包括：

接收观察目标场景的目标视点；

根据所述目标视点，确定对应于所述目标视点的相机参数；

根据对应于所述目标视点的相机参数、第一绘制模型和通过权利要求1至8中任一项所述的模型生成方法获得的第二预测模型，绘制并输出所述目标场景的对应于所述目标视点的第二图像；其中，所述第一绘制模型基于通过所述第二预测模型预测的、一条成像光线上多个采样点的体密度和颜色，得到构成第二图像的像素的颜色预测值，所述第二图像的像素的颜色预测值用于生成所述第二图像。

10.一种电子设备，包括存储器和处理器，所述存储器用于存储可执行的计算机程序；处理器，用于根据所述计算机程序的控制运行所述电子设备，以执行根据权利要求1至9中任一项所述的方法。