CN113592991B

CN113592991B - 一种基于神经辐射场的图像渲染方法、装置及电子设备

Info

Publication number: CN113592991B
Application number: CN202110884016.3A
Authority: CN
Inventors: 李天琦
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2023-09-05
Anticipated expiration: 2041-08-03
Also published as: CN113592991A

Abstract

本发明实施例提供了一种基于神经辐射场的图像渲染方法、装置及电子设备，所述方法包括：获取用于描述预期场景的描述信息；获取包含目标对象的输入图像；从所述输入图像中提取对象特征，得到所述目标对象的对象特征；将所述目标对象的对象特征以及用于描述所述预期场景的场景信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；其中，所述神经辐射场模型预先经过多个样本对象的样本数据的训练，每个样本对象的样本数据包括：该样本对象的对象特征、该样本对象在样本场景中的样本图像。基于此，可以提高图像渲染效率。

Description

一种基于神经辐射场的图像渲染方法、装置及电子设备

技术领域

本发明涉及人工智能技术领域，特别是涉及一种基于神经辐射场的图像渲染方法、装置及电子设备。

背景技术

在一些应用场景中，用户可能需要获取特定视角下的目标对象的图像，例如，用户需要获取特定人员或车辆的侧视图。但是受限制于各种条件，难以在真实的预期场景中从特定视角拍摄目标对象以得到用户需要的图像。

相关技术中，可以利用从特定视角以外的其他视角拍摄目标对象得到的图像，训练生成神经辐射场模型，并利用神经辐射场模型渲染得到特定视角下的目标对象的图像。

但是，该方案中训练得到的神经辐射场模型只能够适用于一个目标对象，当存在多个目标对象时，需要针对每个目标对象分别训练一个新的神经辐射场模型，导致图像渲染的效率较低。

发明内容

本发明实施例的目的在于提供一种基于神经辐射场的图像渲染方法、装置及电子设备，以实现提高图像渲染效率。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种基于神经辐射场的图像渲染方法，所述方法包括：

获取用于描述预期场景的描述信息；

获取包含目标对象的输入图像；

从所述输入图像中提取对象特征，得到所述目标对象的对象特征；

将所述目标对象的对象特征以及用于描述所述预期场景的场景信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

其中，所述神经辐射场模型预先经过多个样本对象的样本数据的训练，每个样本对象的样本数据包括：该样本对象的对象特征、该样本对象在样本场景中的样本图像。

在一种可能的实施例中，所述将所述目标对象的对象特征以及用于描述所述预期场景的描述信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像，包括：

将所述目标对象的对象特征输入至神经辐射场模型，以使得所述神经辐射场模型根据所述目标对象的对象特征微调所述神经辐射场模型的模型参数，得到经过微调的神经辐射场模型；

将用于描述所述预期场景的描述信息输入至所述经过微调的神经辐射场模型，得到所述经过微调的神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像。

将所述目标对象的对象特征输入至神经辐射场模型，以使得神经辐射场模型根据所述目标对象的对象特征初始化所述神经辐射场模型的元学习参数，得到初始化后的神经辐射场模型；

将用于描述所述预期场景描述信息输入至所述初始化后的神经辐射场模型，得到所述初始化后的神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

其中，初始化前的神经辐射场模型为基于元学习的训练方式训练得到的。

在一种可能的实施例中，所述神经辐射场模型预先通过以下方式训练得到：

针对每个样本对象，将该样本对象的对象特征以及用于描述所述样本场景的描述信息输入至第一原始模型，得到所述第一原始模型输出的有偏图像；

根据所述有偏图像与该样本对象的样本图像之间的差异，调整所述第一原始模型的模型参数，得到神经辐射场模型。

在一种可能的实施例中，所述方法还包括：

针对每个样本对象，获取除样本图像以外的该样本对象的图像，作为该样本对象的小样本图像；

将该样本对象的小样本图像输入至第二原始模型，得到所述第二原始模型输出的对象特征，作为该样本对象的对象特征；

根据所述有偏图像与该样本对象的样本图像之间的差异，调整所述第二原始模型的模型参数，得到特征提取模型；

所述从所述输入图像中提取对象特征，得到所述目标对象的对象特征，包括：

将所述输入图像输入至所述特征提取模型，得到所述特征提取模型输出的对象特征，作为所述目标对象的对象特征。

在一种可能的实施例中，所述方法还包括：

从样本对象的样本图像中提取描述信息，作为所述样本场景的描述信息。

在一种可能的实施例中，描述信息包括用于描述场景中的环境的环境描述信息，和/或，用于描述场景中对象所处状态的状态描述信息。

在一种可能的实施例中，所述用于描述所述预期场景的场景信息输入至神经辐射场模型，包括：

根据描述信息的类型，从预设的多个信息编码器中确定与所述类型对应的信息编码器，作为目标信息编码器，其中，每个信息编码器为预先训练得到且用于将对应类型的描述信息编码为预设格式；

将所述描述信息输入至所述目标信息编码器，得到所述目标信息编码器输出的经过编码的描述信息；

将所述经过编码的描述信息输入至神经辐射场模型。

在本发明实施的第二方面，还提供了一种基于神经辐射场的图像渲染装置，包括：

描述信息获取模块，用于获取预期场景的描述信息；

输入图像获取模块，用于获取包含目标对象的输入图像；

对象特征获取模块，用于从所述输入图像中提取对象特征，得到所述目标对象的对象特征；

目标图像确定模块，用于将所述目标对象的对象特征以及用于描述所述预期场景的场景信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

在一种可能的实施例中，所述目标图像确定模块，具体用于将所述目标对象的对象特征输入至神经辐射场模型，以使得所述神经辐射场模型根据所述目标对象的对象特征微调所述神经辐射场模型的模型参数，得到经过微调的神经辐射场模型；

在一种可能的实施例中，所述目标图像确定模块，具体用于将所述目标对象的对象特征输入至神经辐射场模型，以使得神经辐射场模型根据所述目标对象的对象特征初始化所述神经辐射场模型的元学习参数，得到初始化后的神经辐射场模型；

在一种可能的实施例中，所述装置还包括神经辐射场模型训练模块；

所述神经辐射场模型训练模块，用于针对每个样本对象，将该样本对象的对象特征以及用于描述所述样本场景的描述信息输入至第一原始模型，得到所述第一原始模型输出的有偏图像；根据所述有偏图像与该样本对象的样本图像之间的差异，调整所述第一原始模型的模型参数，得到神经辐射场模型。

在一种可能的实施例中，所述装置还包括：

第一样本特征获取模块，用于针对每个样本对象，获取除样本图像以外的该样本对象的图像，作为该样本对象的小样本图像；将该样本对象的小样本图像输入至第二原始模型，得到所述第二原始模型输出的对象特征，作为该样本对象的对象特征；

特征提取模型确定模块，用于根据所述有偏图像与该样本对象的样本图像之间的差异，调整所述第二原始模型的模型参数，得到特征提取模型；

所述对象特征获取模块，具体用于将所述输入图像输入至所述特征提取模型，得到所述特征提取模型输出的对象特征，作为所述目标对象的对象特征。

在一种可能的实施例中，所述装置还包括：

第二样本特征获取模块，用于从样本对象的样本图像中提取描述信息，作为所述样本场景的描述信息。

在一种可能的实施例中，所述目标图像确定模块，具体用于根据描述信息的类型，从预设的多个信息编码器中确定与所述类型对应的信息编码器，作为目标信息编码器，其中，每个信息编码器为预先训练得到且用于将对应类型的描述信息编码为预设格式；将所述描述信息输入至所述目标信息编码器，得到所述目标信息编码器输出的经过编码的描述信息；将所述经过编码的描述信息输入至神经辐射场模型。

在本发明实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述第一方面任一所述的方法步骤。

在本发明实施的又一方面，还提供了一种包含指令的可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述第一方面任一所述的方法步骤。

本发明实施例提供的基于神经辐射场的图像渲染方法、装置及电子设备，通过样本数据训练得到神经辐射场模型，由于样本数据中包括样本对象的对象特征、以及样本对象在样本场景中的样本图像，因此神经辐射场模型在训练过程中除了可以学习到如何输出样本对象在不同场景中的图像，同时还能够学习到如何输出具有不同对象特征的对象的图像，因此可以通过向神经辐射场模型输入不同对象的对象特征，控制神经辐射场模型渲染得到不同对象的图像，即使存在多个目标对象，也仅需获取多个目标对象的对象特征，而无需针对不同对象分别训练神经辐射场模型，由于获取对象特征所消耗的计算量远小于训练神经辐射场模型，因此可以有效提高图像渲染效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1a为本发明实施例提供的基于神经辐射场的图像渲染方法的一种流程示意图；

图1b为本发明实施例提供的基于神经辐射场的图像渲染方法的另一种流程示意图；

图1c为本发明实施例提供的基于神经辐射场的图像渲染方法的另一种流程示意图；

图2为本发明实施例提供的描述信息输入方法的一种流程示意图；

图3为本发明实施例提供的神经辐射场模型的训练方法的一种流程示意图；

图4为本发明实施例提供的神经辐射场模型的一种结构示意图；

图5为本发明实施例提供的神经辐射场模型的另一种结构示意图；

图6为本发明实施例提供的神经辐射场模型的训练方法的另一种流程示意图；

图7为本发明实施例提供的特征提取模型的一种结构示意图；

图8为本发明实施例提供的基于神经辐射场的图像渲染装置的一种结构示意图；

图9为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

神经辐射场作为一种新兴的3D场景隐式表征方法，可以实现高保真度的重建效果，并且可以随意调整目标的观测方向，但是在现有的基于神经辐射场的图像渲染方法中，由于训练得到的神经辐射场模型只能够用于生成一个目标对象的图像，因此针对每个目标对象，都要基于大量的数据重新训练一个新的模型，并且对于神经辐射场模型的训练成本较高，每个模型的训练时间往往至少在1天以上，因此，在存在多个目标对象时，模型的训练时间更长，导致图像渲染的效率更低。

为了提高图像渲染的效率，本发明实施例提供了一种基于神经辐射场的图像渲染方法，具体的，如图1a所示，方法包括：

S101，获取用于描述预期场景的描述信息。

本实施例中的预期场景可以是指预期中目标对象所处的预期场景，即，本申请中的预期场景并不一定是目标对象实际所处的场景，例如，在一种情况下，需要获取雪地里车辆的图像，则预期场景就可以是雪地，又例如，需要获取日落后沙滩上人的图像，此时，预期场景就可以是日落后的沙滩。

用于描述预期场景的描述信息可以是以任意表现方法表现该预期场景中任意构成要素的信息，示例性的，若描述信息为用于描述预期场景中人的表情的信息，则该描述信息可以是用于描述人的五官位置的信息，如嘴角、鼻尖、眼睛所处的位置，也可以是用于描述对象发出的语音的描述信息，比如，用户希望渲染得到目标对象发出语音“茄子”时的图像，则可使用语音“茄子”作为描述信息。

再例如，描述信息为用于描述预期场景中的光照的信息，则该描述信息可以是拍摄于与预期场景具有相同或相近光照条件下的图像，比如，用户希望渲染得到目标对象处于目标光照条件下的图像，则可以使用拍摄于目标光照条件或与目标光照条件相近的光照条件下的背景图或人像图作为描述信息。

本申请中场景的构成要素可以根据实际需求的不同而不同，示例性的，构成要素可以包括以下要素中的一个或多个要素：拍摄视角、对象所处的状态、环境等等。场景的描述信息可以是用于描述场景的各个构成要素的信息，并且根据场景的构成要素的不同，场景的描述信息中所包括的信息也可以不同。

在一种可能的实施例中，描述信息可以包括用于描述拍摄视角的视角描述信息，视角描述信息根据应用场景的不同可以是以不同形式表示的，例如，视角描述信息可以是以(x，y，z，d)的形式表示的，其中，(x，y，z)为摄像机相对所拍摄的对象的空间坐标，d为拍摄时对象相对摄像机的角度，视角描述信息也可以是以摄相机的相机参数，如内参和外参的形式表示的。本文中的摄像机可以是指存在于现实空间中的摄像机，也可以是假想中的虚拟摄像机，例如，预期场景可能是用户假想中的一个场景，则该预期场景的视角描述信息可以是假想中的虚拟摄像机对该预期场景的拍摄视角。

在一种可能的实施例中，描述信息可以包括：用于描述场景中环境的环境描述信息和/或用于描述场景中对象状态的状态描述信息。

示例性的，若目标对象是人，状态描述信息(下文中为描述方便，将状态描述信息记为E)可以是人的表情、妆容，若目标对象是车，状态描述信息可以是车的内饰、车的贴纸等等。而环境描述信息(下文中为描述方便，将环境描述信息记为L)可以是预期场景的光照强度、天气情况等等，只要可以表征该预期场景的环境情况的信息，都可以作为该预期场景的环境描述信息，本发明对此并不做限定。需要说明的是，上述用来标记描述信息的x，y，z，d，E，L只是对描述信息的一种标记方式，上述各描述信息也可以用数字1，2，3，4，5，6或其他符号来标记，例如希腊字母，本申请对此并不做限定。

通过上述实施例对预期场景中的环境描述信息和状态描述信息的获取，可以获取到更全面的对预期场景进行描述，使得后续获得的渲染后的目标图像更加精准。

S102，获取包含目标对象的输入图像。

在此步骤中，目标对象可以是不同类型的对象，例如人、车、动物等，本发明对此并不做限定。并且，输入图像中可以仅包含目标对象，也可以包含目标对象以外的其他内容，示例性的，输入图像中可以包含背景图像，也可以不包含背景图像(例如输入图像中的背景区域可以是透明的)。

S103，从输入图像中提取对象特征，得到目标对象的对象特征。

对象特征用于表征目标对象与其他对象之间存在差异的特征，不同类型的目标对象的对象特征(下文中为描述方便，将对象特征记为I)也可以是不同的，示例性的，在目标对象是人的情况下，该目标对象的对象特征可以是是否具有喉结，头发的长短等，又例如，若目标对象是车的情况下，目标对象的对象特征可以是车的座位数，车标等等，再例如，若目标对象是宠物，其对象特征可以是尾巴的长度，毛发的长短等等，本发明对此并不做限定，只要获取的对象特征可以表示该目标对象的身份即可，即只要获取的对象特征可以区别该目标对象与目标对象以外的其他对象即可。上述标记对象特征的字母I只是对对象特征的一个标记方法，也可以用数字或其他符号来代替，本发明对此并不做限定。

S104，将获取的目标对象的对象特征以及用于描述预期场景的描述信息输入至神经辐射场模型，得到神经辐射场模型输出的图像，作为渲染得到的目标对象在预期场景中的目标图像。

其中，神经辐射场模型预先经过多个样本对象的样本数据的训练，该样本数据包括：样本对象的对象特征、样本对象在样本场景中的样本图像。

由于样本数据中包括样本对象的对象特征、以及样本对象在样本场景中的样本图像，因此神经辐射场模型在训练过程中除了可以学习到如何输出样本对象在不同场景中的图像，同时还能够学习到如何输出具有不同对象特征的对象的图像，因此在获取图像中目标对象的对象特征和用于描述预期场景的描述信息后，将这些特征输入至预先训练好的神经辐射场模型中进行渲染，就可以得到目标对象在预期场景中的目标图像。

本实施例中，在预先对神经辐射场模型进行训练时，样本数据所属样本对象应当与目标对象的类型相同，例如，目标对象的类型是人，则样本数据中样本对象的类型也应该是人。

本实施例通过样本数据训练得到神经辐射场模型，由于样本数据中包括样本对象的对象特征、以及样本对象在样本场景中的样本图像，因此神经辐射场模型在训练过程中除了可以学习到如何输出样本对象在不同场景中的图像，同时还能够学习到如何输出具有不同对象特征的对象的图像，因此可以通过向神经辐射场模型输入不同对象的对象特征，控制神经辐射场模型渲染得到不同对象的图像，即使存在多个目标对象，也仅需获取多个目标对象的对象特征，而无需针对不同对象分别训练神经辐射场模型，由于获取对象特征所消耗的计算量远小于训练神经辐射场模型，因此可以有效提高图像渲染效率。

可以理解的是，图1a所示仅是本发明实施例提供的基于神经辐射场的图像渲染方法的一种可能的流程示意图，在其他可能的实施例中，S101、S102、S103以及S104也可以是交替进行的，示例性的，可以是首先获取包含目标对象的输入图像，并从输入图像中提取得到目标对象的对象特征，并将目标对象的对象特征输入至神经辐射场模型，再获取预期场景的描述信息，并将预期场景的描述信息输入至神经辐射场模型。

并且在前述S104中，对象特征与描述信息可以是同步输入至神经辐射场模型的，也可以是分步输入至神经辐射场模型的，下面将针对分步输入的情况进行示例性说明。

可以参见图1b，图1b所示为本发明实施例提供的基于神经辐射场的图像渲染方法的另一种流程示意图，可以包括：

S102，获取包含目标对象的输入图像。

S104a，将目标对象的对象特征输入至神经辐射场模型，以使得神经辐射场模型根据目标对象的对象特征微调神经辐射场模型的模型参数，得到微调后的神经辐射场模型。

可以理解的是，由于不同对象之间存在一定的区别，因此即使在相同的场景下不同对象的图像也不相同，即对于不同的对象，描述信息与图像之间的映射关系(下文称该映射关系为第一映射关系)是不同的。而如前述分析，神经辐射场模型在训练过程中能够学习到如何输出具有不同对象特征的对象的图像，因此可以视为神经辐射场模型在训练过程中能够学习到对象为不同对象时的第一映射关系，即能够学习到对象特征与第一映射关系之间的映射关系(下文称该映射关系为第二映射关系)。

因此，神经辐射场模型可以根据学习到的第二映射关系以及输入的目标对象的对象特征，确定对象为目标对象时的第一映射关系，并根据确定得到的第一映射关系对神经辐射场模型的网络参数进行微调(finetune)，以使得经过微调后的神经辐射场模型用于实现第一映射关系。

S101，获取用于描述预期场景的描述信息。

S104b，将用于描述预期场景的描述信息输入至经过微调的神经辐射场模型，得到经过微调的神经辐射场模型输出的图像，作为渲染得到的目标对象在预期场景中的目标图像。

如前述分析，由于经过微调后的神经辐射场模型用于实现对象为目标对象时的第一映射关系，因此经过微调后的神经辐射场模型可以将输入的描述信息映射为目标对象在预期场景中的目标图像。

还可以参见图1c，图1c所示为本发明实施例提供的基于神经辐射场的图像渲染方法的另一种流程示意图，可以包括：

S102，获取包含目标对象的输入图像。

S104c，将目标对象的对象特征输入至神经辐射场模型，以使得神经辐射场模型根据目标对象的对象特征初始化神经辐射场模型的元学习参数，得到初始化后的神经辐射场模型。

在该实施例中，神经辐射场模型时预先经过样本数据的训练得到的，且训练方式为基于元学习(meta-learning)的训练方式。通过元学习的训练方式可以使得神经辐射场模型学习到如何学习根据场景的描述信息渲染得到对象在该场景中的图像(下文简称关于如何学习的知识)。

元学习参数为神经辐射场模型中与元学习相关的部分网络参数，根据目标对象的对象特征初始化神经辐射场模型的元学习参数，可以视为神经辐射场模型基于学习到的关于如何学习的知识以及目标对象的对象特征，学习到根据场景的描述信息渲染得到目标对象在该场景中的图像。

S101，获取用于描述预期场景的描述信息。

S104d，将用于描述预期场景的描述信息输入至初始化后的神经辐射场模型，得到初始化后的神经辐射场模型输出的图像，作为渲染得到的目标对象在预期场景中的目标图像。

如前述分析，初始化后的神经辐射场模型已经学习到根据用于描述场景的描述信息渲染得到目标对象在该场景中的图像，因此可以根据输入的用于描述预期场景的描述信息，输出目标对象在预期场景中的目标图像。

选用该实施例，仅需要在初始化神经辐射场模型时输入目标对象的对象特征，后续只需根据需求输入用于描述预期场景的描述信息，而无需重复输入目标对象的对象特征，可以有效提高方法的便捷性。

示例性的，假设用户需要渲染目标对象在多个不同预期场景中的图像，则按照该实施例，仅需要初始化神经辐射场模型时输入目标对象的对象特征，后续仅需要依次输入多个不同预期场景中的图像，即可获得目标对象在多个不同预期场景中的图像。

在一种可能的实施例中，本发明将目标对象的对象特征以及用于描述预期场景的描述信息输入至神经辐射场模型时，如图4的神经辐射场模型结构所示，可以同时输入I，x，y，z，d，E，L，并且在原始的神经辐射场模型中增加SPADE(Spatially AdaptiveDenormalization，空间自适应去归一化层)结构，使得对象特征I通过SPADE结构输入，融合对象特征和描述信息，通过结合后的神经辐射场模型输出了渲染图像的渲染参数(r，g，b，ρ)，即颜色的红色分量(r)、颜色的绿色分量(g)、颜色的蓝色分量(b)和密度(ρ)，以得到渲染后的目标图像。

可以理解的是，图4仅是本发明实施例提供的神经辐射场模型的一种结构示意图，在其他可能的实施例中，对象特征I也可以通过其他结构输入至神经辐射场模型，包括但不限于：AdaIN(Adaptive Instance Normalization，自适应实例归一化层)、AdaLIN(Adaptive Layer-Instance Normalization，自适应层-实例归一化层)等，本实施例对此不做任何限制。

在另一种可能的实现方式中，神经辐射场模型结构也可以如图5所示，在将目标对象的对象特征以及用于描述预期场景的描述信息输入至神经辐射场模型时，可以同时输入I，x，y，z，d，E，L，在原始的神经辐射场模型中增加SPADE结构，将目标对象的对象特征I和状态描述信息E，环境描述信息L通过SPADE结构输入，融合对象特征和描述信息，通过结合后的神经辐射场模型，来得到渲染后的目标图像。

可以理解的是，在上述将对象特征和描述信息输入至神经辐射场模型中时，可以同时目标对象的对象特征和用于描述预期场景的描述信息中的一种或多种，例I，x，y，z，d，E，或者I，x，y，z，d，L，本发明对此并不做限定。

通过上述实施例的方法，根据需求获取一部分的描述信息再结合对象特征就可以获取渲染后的目标图像，使得目标图像的获取更加简便。并且，可以通过不同描述信息和对象特征的组合输入，使得获得的目标图像更加准确丰富。

可以理解的是，神经辐射场模型对输入的描述信息的形式存在一定的要求，例如，一些神经辐射场模型需要输入的描述信息是以特定维度的向量的形式表示的，另一些神经辐射场模型需要输入的描述信息是以标签的形式表示的。而用户可能难以获取满足神经辐射场模型要求的形式表示的描述信息。

因此，在一种可能的实施例中，本发明还提供了一种描述信息输入的方法，如图2所示，包括：

S201，根据描述信息的类型，从预设的多个信息编码器中确定与该类型对应的描述信息编码器，作为目标信息编码器。

用于描述场景中不同构成要素的描述信息的类型不同，并且以不同方式描述相同构成要素的描述信息的类型也不同。示例性的，假设一个描述信息是以语音的形式描述场景中对象的表情的，另一个描述信息是以五官点所处的位置的形式描述场景中对象的表情的，则两个描述信息为不同类型的描述信息。

不同类型的描述信息对应不同的信息编码器。并且每个信息编码器是预先训练得到的，用于将所对应的类型的描述信息编码为神经辐射场模型所要求的预设格式的描述信息。示例性的，假设神经辐射场模型要求输入的描述信息的格式为100维的特征向量，则每个信息编码器用于将对应类型的描述信息编码为100维的特征向量。

S202，将该描述信息输入至预期描述信息编码器，得到预期描述信息编码器输出的描述信息，作为预期场景的描述信息。

将不同的描述信息输入至对应的预期描述信息编码器中，就可以得到神经辐射场模型可以识别的预设格式的描述信息。

S203，将经过编码的描述信息输入至神经辐射场模型。

通过上述实施例，可以将不同类型的描述信息输入至其对应的信息编码器，从而将不同类型的描述信息转换为预设格式的描述信息，使得描述信息能够被神经辐射场模型准确识别。使得用户可以根据实际需求选用不同类型的描述信息灵活地对预期场景进行描述，例如，假设描述信息用于描述预期场景中目标对象的表情，则用户可以使用预期场景中目标对象五官所处的位置作为描述信息，也可以使用预期场景中目标对象所发出的语音作为描述信息，使得方案更加便捷。

为了更清楚的对本发明实施例提供的基于神经辐射场的图像渲染方法进行说明，下面将对神经辐射场模型的训练过程进行说明，如图3所示，方法包括：

S301，针对每个样本对象，将该样本对象的对象特征以及用于描述样本场景的描述信息输入至第一原始模型，得到第一原始模型输出的有偏图像。

将和目标对象类型相同的样本对象的对象特征以及用于描述样本场景的描述信息输入至未经过训练的神经辐射场模型即第一原始模型中，该样本数据可以是从一个训练视频中随机选取的涵盖样本对象不同角度的多帧图像，得到和样本对象在样本场景中的样本图像有差异的有偏图像。

在一种可能的实现方式中，用于描述样本场景的描述信息是从样本图像中提取的。

在一些情况中，由于用户难以知道采集得到样本图像时真实的场景，而通过上述实现方式获取描述信息，例如可以通过3DMM(人脸3D形变统计模型)模型直接提取样本图像中的光照特征和/或人的表情，也可以利用colmap(一种开源软件)等工具获取样本图像的相机内参和外参，可以降低获取用于描述样本场景的描述信息难度，进一步的，提高了神经辐射场模型的训练效率。

S302，根据有偏图像与该样本对象的样本图像之间的差异，调整第一原始模型的模型参数，得到神经辐射场模型。

在本实施例中，在得到有偏图像之后，可以通过构建损失函数，基于损失函数利用梯度下降法，根据有偏图像和样本图像之间的差异，调整第一原始模型的模型参数，再获得有偏图像，不断调整第一原始模型的模型参数，直到通过该模型得到的有偏图像和样本图像差异缩小到一个预设的范围内，将该调整模型参数后的第一原始模型确定为神经辐射场模型。

通过上述模型训练方法，由于样本数据中包括样本对象的对象特征、以及样本对象在样本场景中的样本图像，因此神经辐射场模型在训练过程中除了可以学习到如何输出样本对象在不同场景中的图像，同时还能够学习到如何输出具有不同对象特征的对象的图像。

通过本发明的上述实施例，只通过简单的样本对象的对象特征以及用于描述样本场景的描述信息就可以训练得到能够输出目标对象在不同场景中，且具有不同对象特征的对象的图像的神经辐射场模型，可以理解的是，本实施例以一种相对简单的方式训练得到神经辐射场模型，进一步提高了图像的渲染效率。

在一种可能的实施例中，如图6所示，对神经辐射场模型的训练过程还可以包括：

S601，在针对每个样本对象，将该样本对象的对象特征以及用于描述样本场景的描述信息输入至第一原始模型之前，针对每个样本对象，获取除样本图像以外的样该本对象的图像，作为该样本对象的小样本图像。

在将样本对象的对象特征输入至第一原始模型之前，可以先获取样本对象的小样本图像，需要说明的是，本发明中的小样本图像是除样本图像意外的含有样本对象的图像，该小样本图像具有样本图像中不具有的样本对象的对象特征。

S602，将该样本对象的小样本图像输入至第二原始模型，得到第二原始模型输出的对象特征，作为该样本对象的对象特征。

如图7所示，将多张小样本图像img_i输入到第二原始模型中，利用注意力机制为不同的对象特征分配对应的权重，可以得到第i个对象特征f_i和第i个对象特征对应的权重a_i，其中n是大于0的整数，n的值为小样本图像的数量，则可以根据下方表达式

获得对象特征I，将其作为样本对象的对象特征。

S603，在得到第一原始模型输出的有偏图像后，根据有偏图像与该样本对应的样本图像之间的差异，调整第二原始模型的模型参数，得到特征提取模型。

在获得有偏图像和样本图像之间的差异之后，可以根据有偏图像与样本图像之间的差异，构建损失函数，并根据所构建的损失函数，利用梯度下降法调整第二原始模型的模型参数，以得到特征提取模型。

通过上述实施例，可以通过联合训练的方式使用相同的样本同时训练得到神经辐射场模型与特征提取模型，无需单独地样本训练特征提取模型。

在一种可能的实施例中，在得到特征提取模型之后，从目标对象的小样本图像中提取对象特征，得到目标对象的对象特征的方法可以包括：

将输入图像输入至所述特征提取模型，得到特征提取模型输出的对象特征，作为目标对象的对象特征。

在本实施例中，通过已经训练好的特征提取模型可以高效准确的提取出目标对象的对象特征，进一步的提高了目标图像的渲染效率。

如图8所示，本发明实施例还提供了一种基于神经辐射场的图像渲染装置，包括：

描述信息获取模块801，用于获取预期场景的描述信息；

输入图像获取模块802，用于获取包含目标对象的输入图像；

对象特征获取模块803，用于从所述输入图像中提取对象特征，得到所述目标对象的对象特征；

目标图像确定模块804，用于将所述目标对象的对象特征以及用于描述所述预期场景的场景信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

在一种可能的实施例中，所述目标图像确定模块804，具体用于将所述目标对象的对象特征输入至神经辐射场模型，以使得所述神经辐射场模型根据所述目标对象的对象特征微调所述神经辐射场模型的模型参数，得到经过微调的神经辐射场模型；

在一种可能的实施例中，所述目标图像确定模块804，具体用于将所述目标对象的对象特征输入至神经辐射场模型，以使得神经辐射场模型根据所述目标对象的对象特征初始化所述神经辐射场模型的元学习参数，得到初始化后的神经辐射场模型；

在一种可能的实施例中，所述装置还包括：

在一种可能的实施例中，所述目标图像确定模块804，具体用于根据描述信息的类型，从预设的多个信息编码器中确定与所述类型对应的信息编码器，作为目标信息编码器，其中，每个信息编码器为预先训练得到且用于将对应类型的描述信息编码为预设格式；将所述描述信息输入至所述目标信息编码器，得到所述目标信息编码器输出的经过编码的描述信息；将所述经过编码的描述信息输入至神经辐射场模型。

本发明实施例还提供了一种电子设备，如图9所示，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

处理器111，用于执行存储器113上所存放的程序时，实现以下步骤：

获取用于描述预期场景的描述信息；

获取包含目标对象的输入图像；

上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述实施例中任一所述的方法实施例中的方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的方法实施例的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于神经辐射场的图像渲染方法，其特征在于，所述方法包括：

获取用于描述预期场景的描述信息；

获取包含目标对象的输入图像；

将所述目标对象的对象特征以及用于描述所述预期场景的描述信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

其中，所述神经辐射场模型预先经过多个样本对象的样本数据的训练，每个样本对象的样本数据包括：该样本对象的对象特征、该样本对象在样本场景中的样本图像；

所述将所述目标对象的对象特征以及用于描述所述预期场景的描述信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像，包括：

将用于描述所述预期场景的描述信息输入至所述经过微调的神经辐射场模型，得到所述经过微调的神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

或，

2.根据权利要求1所述的方法，其特征在于，所述神经辐射场模型预先通过以下方式训练得到：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一所述的方法，其特征在于，描述信息包括用于描述场景中的环境的环境描述信息，和/或，用于描述场景中对象所处状态的状态描述信息。

6.根据权利要求1-4任一所述的方法，其特征在于，所述用于描述所述预期场景的描述信息输入至神经辐射场模型，包括：

将所述经过编码的描述信息输入至神经辐射场模型。

7.一种基于神经辐射场的图像渲染装置，其特征在于，包括：

描述信息获取模块，用于获取预期场景的描述信息；

输入图像获取模块，用于获取包含目标对象的输入图像；

目标图像确定模块，用于将所述目标对象的对象特征以及用于描述所述预期场景的描述信息输入至神经辐射场模型，得到所述神经辐射场模型输出的图像，作为渲染得到的所述目标对象在所述预期场景中的目标图像；

所述目标图像确定模块，具体用于将所述目标对象的对象特征输入至神经辐射场模型，以使得所述神经辐射场模型根据所述目标对象的对象特征微调所述神经辐射场模型的模型参数，得到经过微调的神经辐射场模型；

或，

所述目标图像确定模块，具体用于将所述目标对象的对象特征输入至神经辐射场模型，以使得神经辐射场模型根据所述目标对象的对象特征初始化所述神经辐射场模型的元学习参数，得到初始化后的神经辐射场模型；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括神经辐射场模型训练模块；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

11.根据权利要求7-10任一所述的装置，其特征在于，描述信息包括用于描述场景中的环境的环境描述信息，和/或，用于描述场景中对象所处状态的状态描述信息。

12.根据权利要求7-10任一所述的装置，其特征在于，所述目标图像确定模块，具体用于根据描述信息的类型，从预设的多个信息编码器中确定与所述类型对应的信息编码器，作为目标信息编码器，其中，每个信息编码器为预先训练得到且用于将对应类型的描述信息编码为预设格式；将所述描述信息输入至所述目标信息编码器，得到所述目标信息编码器输出的经过编码的描述信息；将所述经过编码的描述信息输入至神经辐射场模型。

13.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。