CN117576292A

CN117576292A - 三维场景渲染方法及装置、电子设备、存储介质

Info

Publication number: CN117576292A
Application number: CN202311684797.7A
Authority: CN
Inventors: 唐晓; 姜研; 马钺; 张帆; 朱峰
Original assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Current assignee: Samsung China Semiconductor Co Ltd; Samsung Electronics Co Ltd
Priority date: 2023-12-08
Filing date: 2023-12-08
Publication date: 2024-02-20

Abstract

公开了一种三维场景渲染方法及装置、电子设备、存储介质，该方法包括：将目标对象在目标视角对应的空间位置信息输入目标对象对应的神经渲染模型，得到第二图像；从多个第一图像中选择第二图像的参考图像，其中，多个第一图像是基于目标对象在多个不同视角的图像得到的且第一图像的分辨率低于多个不同视角的图像的分辨率，第二图像的分辨率低于多个不同视角的图像的分辨率；基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，其中，第三图像的分辨率与多个不同视角的图像的分辨率相同。

Description

三维场景渲染方法及装置、电子设备、存储介质

技术领域

本公开涉及计算机图形学技术，更具体地讲，涉及三维场景渲染方法及装置、电子设备、存储介质。

背景技术

随着VR/AR的发展，3D场景变得越来越重要，用户对3D场景的质量要求也越来越高，而传统的3D建模方式耗时耗力，生成质量好的3D场景成本非常高。神经渲染是一项突破性技术，它可以从一个场景的多张不同角度的照片生成高保真隐式3D模型，然后生成新视角的场景图像，丰富了生成3D场景的图像数据库。与传统的建模和渲染方法相比，神经渲染技术可以大大降低建模成本，提高渲染结果的真实感。

一般实际应用中需要渲染图像有较高的分辨率，虽然神经渲染技术相较于传统的建模，已经降低了建模成本低，使得场景图像更真实，但是为了获得更高分辨率的渲染图像，如VR/AR场景，现有的神经渲染技术的渲染时间和训练时间仍需要较长的时间，难以满足实际应用的需求。

发明内容

本公开提供了一种三维场景渲染方法及装置、电子设备、存储介质，以至少解决上述相关技术中渲染时间和训练时间较长的问题。

根据本公开示例性实施方式的第一方面，提供一种三维场景渲染方法，包括：将目标对象在目标视角对应的空间位置信息输入目标对象对应的神经渲染模型，得到第二图像；从多个第一图像中选择第二图像的参考图像，其中，多个第一图像是基于目标对象在多个不同视角的图像得到的且第一图像的分辨率低于多个不同视角的图像的分辨率，第二图像的分辨率低于多个不同视角的图像的分辨率；基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，其中，第三图像的分辨率与多个不同视角的图像的分辨率相同。

可选地，从多个第一图像中选择第二图像的参考图像，包括：基于每个第一图像与第二图像的距离，从多个第一图像中选择第二图像的参考图像；或者，从多个第一图像中随机选择一个第一图像，作为第二图像的参考图像。

可选地，基于所述第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，包括：基于第二图像和参考图像各自的空间位置信息，利用参考图像对第二图像进行补偿，得到第三图像。

可选地，基于第二图像和参考图像各自的空间位置信息，利用参考图像对第二图像进行补偿，得到第三图像，包括：获取第二图像和参考图像各自的图像特征；基于第二图像和参考图像各自的空间位置信息，获取第二图像和参考图像各自的位置特征；将图像特征和位置特征输入残差超分辨网络，得到第三图像。

可选地，基于第二图像和参考图像各自的空间位置信息，获取第二图像和参考图像各自的位置特征，包括：从第二图像和参考图像各自的空间位置信息中，提取各自的三维位置坐标；对每个三维位置坐标分别进行编码，得到每个三维位置坐标对应的位置特征。

可选地，残差超分辨网络包括多个残差块且多个残差块之间级联连接。

可选地，将图像特征和位置特征输入残差超分辨网络，得到第三图像，包括：将图像特征和位置特征进行融合，得到融合特征；将融合特征输入残差超分辨网络，得到第三图像。

可选地，上述多个第一图像通过如下方式获取：获取目标对象在多个不同视角的图像；对多个不同视角的图像进行下采样处理，得到多个第一图像。

可选地，在基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像之后，还包括：基于目标对象在多个不同视角的图像和第三图像，获取目标对象的3D显示结果。

可选地，残差超分辨网络是通过如下方式进行训练的：获取两个图像集，其中，每个图像集包含目标对象在多个不同视角下的图像和每个图像的空间位置信息；基于两个图像集中的图像，得到两个处理后的图像集，其中，每个处理后的图像集中图像的分辨率低于两个图像集中图像的分辨率；通过两个处理后的图像集中第一图像集对初始神经渲染模型进行训练，得到目标对象对应的神经渲染模型；将两个处理后的图像集中第二图像集中每个图像的空间位置信息，输入到神经渲染模型，得到预估第二图像，其中，第二图像的分辨率低于两个图像集中图像的分辨率；从第一图像集中，确定每个预估第二图像的预估参考图像；基于预估第二图像、预估参考图像、预估第二图像和预估参考图像各自的空间位置信息，对残差超分辨网络进行训练。

根据本公开示例性实施方式的第二方面，提供一种三维场景渲染装置，包括：第一获取单元，被配置为将目标对象在目标视角对应的空间位置信息输入目标对象对应的神经渲染模型，得到第二图像；选择单元，被配置为从多个第一图像中选择第二图像的参考图像，其中，多个第一图像是基于目标对象在多个不同视角的图像得到的且第一图像的分辨率低于多个不同视角的图像的分辨率，第二图像的分辨率低于多个不同视角的图像的分辨率；第二获取单元，被配置为基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，其中，第三图像的分辨率与多个不同视角的图像的分辨率相同。

可选地，选择单元，还被配置为基于每个第一图像与第二图像的距离，从多个第一图像中选择第二图像的参考图像；或者，从多个第一图像中随机选择一个第一图像，作为第二图像的参考图像。

可选地，第二获取单元，还被配置为基于第二图像和参考图像各自的空间位置信息，利用参考图像对第二图像进行补偿，得到第三图像。

可选地，第二获取单元，还被配置为获取第二图像和参考图像各自的图像特征；基于第二图像和参考图像各自的空间位置信息，获取第二图像和参考图像各自的位置特征；将图像特征和位置特征输入残差超分辨网络，得到第三图像。

可选地，第二获取单元，还被配置为从第二图像和参考图像各自的空间位置信息中，提取各自的三维位置坐标；对每个三维位置坐标分别进行编码，得到每个三维位置坐标对应的位置特征。

可选地，第二获取单元，还被配置为将图像特征和位置特征进行融合，得到融合特征；将融合特征输入残差超分辨网络，得到第三图像。

可选地，上述装置还包括：第三获取单元，被配置为获取目标对象在多个不同视角的图像；对多个不同视角的图像进行下采样处理，得到多个第一图像。

可选地，第三获取单元，还被配置为在基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像之后，基于目标对象在多个不同视角的图像和第三图像，获取目标对象的3D显示结果。

可选地，上述装置还包括：训练单元，被配置为通过如下方式训练残差超分辨网络：获取两个图像集，其中，每个图像集包含目标对象在多个不同视角下的图像和每个图像的空间位置信息；基于两个图像集中的图像，得到两个处理后的图像集，其中，每个处理后的图像集中图像的分辨率低于两个图像集中图像的分辨率；通过两个处理后的图像集中第一图像集对初始神经渲染模型进行训练，得到目标对象对应的神经渲染模型；将两个处理后的图像集中第二图像集中每个图像的空间位置信息，输入到神经渲染模型，得到预估第二图像，其中，第二图像的分辨率低于两个图像集中图像的分辨率；从第一图像集中，确定每个预估第二图像的预估参考图像；基于预估第二图像、预估参考图像、预估第二图像和预估参考图像各自的空间位置信息，对残差超分辨网络进行训练。

根据本公开示例性实施方式的第三方面，提供一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现本公开所述的三维场景渲染方法。

根据本公开示例性实施方式的第四方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行本公开所述的三维场景渲染方法。

利用本公开的技术方案，提供了一种三维场景渲染方法及装置、电子设备、存储介质，基于神经渲染模型输出新视角(即目标视角)的低分辨率图像(即第二图像)，并根据该低分辨率图像和一个第一图像(即参考图像)各自的图像信息、空间位置信息得到该新视角下高分辨率图像(即第三图像)，即根据第一图像的已知视角和第二图像的新视角的空间位置关系，利用已知视角的第一图像来提升新视角的低分辨率图像的超分辨率效果，得到高分辨率的第三图像，由于本公开的超分辨过程无需在线训练，因此，降低了获取到高分辨率图像的时长，也即进一步的降低了训练时长和渲染时长。

将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点，还有一部分通过描述将是清楚的，或者可以经过本公开总体构思的实施而得知。

附图说明

通过下面结合示例性地示出实施例的附图进行的描述，本公开的示例性实施例的上述和其他目的和特点将会变得更加清楚，其中：

图1是根据本公开的示例性实施方式的三维场景渲染方法的流程图；

图2是根据本公开的示例性实施方式的图像超分辨率模型的框图；

图3是根据本公开的示例性实施方式的级联残差超分辨网络的示意图；

图4是根据本公开的示例性实施方式的残差块的示意图；

图5是根据本公开的示例性实施方式的级联块的示意图；

图6是根据本公开的示例性实施方式的图像超分辨率模型的训练示意图；

图7是根据本公开的示例性实施方式的一种神经渲染的示意图；

图8是根据本公开的示例性实施方式的渲染效果的示意图；

图9是根据本公开的示例性实施方式的三维场景渲染装置的框图。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解本申请的公开之后，在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且不限于在此阐述的那些顺序，而是除了必须以特定的顺序发生的操作之外，可如在理解本申请的公开之后将是清楚的那样被改变。此外，为了更加清楚和简明，本领域已知的特征的描述可被省略。

在此描述的特征可以以不同的形式来实现，而不应被解释为限于在此描述的示例。相反，已提供在此描述的示例，以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式，所述许多可行方式在理解本申请的公开之后将是清楚的。

在此使用的术语仅用于描述各种示例，并不将用于限制公开。除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合，但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

除非另有定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在理解本公开之后通常理解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义，并且不应被理想化或过于形式化地解释。

此外，在示例的描述中，当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时，将省略这样的详细描述。

鉴于现有的神经渲染技术无法很好的满足实际应用的需求，根据本公开示例性实施方式的一个方面，提供一种三维场景渲染方法，参照图1的示例性实施方式的三维场景渲染方法的流程图，该三维场景渲染方法包括如下步骤：

在步骤S101中，将目标对象在目标视角对应的空间位置信息输入所述目标对象对应的神经渲染模型，得到第二图像。

上述目标视角可以是目标对象的任一视角，根据用户所需进行设定。上述目标对象可以是场景，也可以是物体，对此本公开同样不进行限定。具体地，在利用多个第一图像训练得到目标对象对应的神经渲染模型后，可以将所述目标对象的任一视角对应的空间位置信息输入神经渲染模型，得到所述目标对象在所述任一视角下的低分辨率图像，从而增加目标对象的在不同视角下的图像数量，丰富目标对象的图像库。

上述目标对象对应的神经渲染模型可以预先进行训练，例如，可以基于多个第一图像对初始神经渲染模型进行训练，得到目标对象对应的神经渲染模型，多个第一图像可以基于目标对象在多个不同视角的图像得到且每个第一图像的分辨率低于多个不同视角的图像的分辨率。例如，对于每个第一图像，可以将第一图像的空间位置信息和第一图像分别作为模型的输入和实际输出，训练初始神经渲染模型，得到目标对象对应的神经渲染模型。

举例来说，上述多个不同视角下的图像可以为4K图像(3840×2160)，也可以称为高分辨率的图像，而得到的第一图像是低于该分辨率的图像，如1K图像(960×540)，也可以称为低分辨率的图像，对此本公开并不进行限定。上述获取第一图像的方式可以采用下采样方式，也可以采用其他方式，对此本公开同样不进行限定。

上述空间位置信息可以包括拍摄目标对象的摄像机的坐标和拍摄目标对象的角度；如果有特别需要的话，上述空间位置信息也可以仅包括拍摄目标对象的摄像机的坐标，或者仅包括拍摄目标对象的角度，对此本公开并不进行限定。

由于本步骤训练出的神经渲染模型是利用已知视角的低分辨率图像(即多个第一图像)训练初始神经渲染模型，由于训练的是输出低分辨率图像的神经渲染模型，因此在本实例中训练时长会被缩短，降低了神经渲染模型的训练时间。需要说明的是，上述初始神经渲染模型可以采用即时神经图形基元(InstantNeural Graphics Primitives，缩写为Instant-NPG)神经渲染模型，也可以是其他神经渲染模型，对此本公开并不进行限定。

在步骤S102中，从所述多个第一图像中选择所述第二图像的参考图像，其中，多个第一图像是基于目标对象在多个不同视角的图像得到的且第一图像的分辨率低于多个不同视角的图像的分辨率，第二图像的分辨率低于多个不同视角的图像的分辨率。

在本公开的实施例中，上述多个第一图像可以通过如下方式获取：获取目标对象在多个不同视角的图像；对多个不同视角的图像进行下采样处理，得到多个第一图像。根据本实施例，通过下采样方法，可以方便快速的得到所需的低分辨率图像。

具体地，上述下采样处理可以4倍下采样，可以是2倍下采样，对此本公开并不进行限定。上述下采样的方式可以是BICUBIC下采样，当然也可以是其他下采样方式，对此本公开同样不进行限定。

例如，以4倍下采样、原始图像为4K图像为例，对目标对象在多个不同视角下的4K图像进行4倍下采样，可以获得多个不同视角下的低分辨率图像，即1K图像(960×540)。

在本公开的实施例中，从多个第一图像中选择第二图像的参考图像，可以包括：基于每个第一图像与第二图像的距离，从多个第一图像中选择第二图像的参考图像；或者，从多个第一图像中随机选择一个第一图像，作为第二图像的参考图像。通过本实施例，可以灵活、方便选择出第二图像的参考图像。

作为示例，可以将多个第一图像中随机的一个图像作为第二图像的参考图像，也可以从多个第一图像中选择距离第二图像最近的图像作为第二图像的参考图像，还可以从多个第一图像中选择距离第二图像在预定范围内的一个图像作为第二图像的参考图像，对此本公开并不进行限定。

需要说明的是，上述预定范围可以根据需要设定，如可以是按距离第二图像从近到远的顺序，排在前10的10个第一图像中选择一个图像作为第二图像的参考图像，对此本公开同样不进行限定。

在步骤S104中，基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，其中，第三图像的分辨率与多个不同视角的图像的分辨率相同。

具体地，在通过神经渲染模型得到上述任一视角下的图像(即第二图像)后，由于训练后的神经渲染程序输出的图像是低分辨率的图像，所以可以为得到的每个第二图像确定参考图像，基于参考图像与第二图像的空间位置关系，通过参考图像对第二图像进行细节补偿，即利用已知视角的第一图像来提升新视角的低分辨率图像的超分辨率效果，因此，得到高分辨率的第三图像。

在本公开的实施例中，基于所述第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，可以包括：基于第二图像和参考图像各自的空间位置信息，利用参考图像对第二图像进行补偿，得到第三图像。通过本实施例，通过参考图像对第二图像进行细节补偿，即利用已知视角的第一图像来提升新视角的低分辨率图像的超分辨率效果，因此，可以得到高分辨率的第三图像。

在本公开的实施例中，基于第二图像和参考图像各自的空间位置信息，利用参考图像对第二图像进行补偿，得到第三图像，可以包括：获取第二图像和参考图像各自的图像特征；基于第二图像和参考图像各自的空间位置信息，获取第二图像和参考图像各自的位置特征；将图像特征和位置特征输入残差超分辨网络，得到第三图像。根据本实施例，获取到第二图像和参考图像的图像特征、位置特征后，结合残差超分辨网络学习已知视角(参考图像的视角)和新视角(第二图像的视角)的空间位置关系，并利用已知视角的图像细节信息提升新视角的图像的超分辨率效果，从而可以方便、快速的得到高分辨率的第三图像。

具体地，上述图像特征可以采用常规的图像特征提取网络来获取，例如，图像特征提取单元可以是一个3×1大小的卷积层，对此本公开并不进行限定。例如，将第二图像和参考图像输入上述图像特征提取网络，分别对两张图像进行特征提取，得到两张图像的图像特征。上述位置特征可以理解为是比空间位置信息高维度的信息，即可以通过空间位置信息编码网络，对空间位置信息进行编码获取，编码网络本公开并不进行限定。

例如，可以将上述空间位置信息编码网络、图像特征提取网络和残差超分辨率网络集成在一起，作为图像超分辨率模型，如图2所示，图2是根据本公开的示例性实施方式的图像超分辨率模型的框图，将第二图像(即图2中新视角下的低分辨率渲染图像)、参考图像(即图2中已知视角的低分辨率图像)、第二图像和参考图像各自的空间位置信息输入到图2所示的图像超分辨率模型，既可以得到目标对象在上述预设视角下的高分辨率图像(即图2中的新视角高分辨率图像)，其中，第二图像、参考图像被输入到图像特征提取网络，第二图像和参考图像各自的空间位置信息被输入到空间位置信息编码网络，再将图像特征提取网络和空间位置信息编码网络的输出合并得到融合特征，并输入到残差超分辨率网络，得到目标对象在上述预设视角下高分辨率的第三图像。

需要说明的是，图像超分辨模型可以预先进行训练，因为是通用的，因此无需在线训练，所以减少了在线训练时长。

在本公开的实施例中，基于第二图像和参考图像各自的空间位置信息，获取第二图像和参考图像各自的位置特征，可以包括：从第二图像和参考图像各自的空间位置信息中，提取各自的三维位置坐标；对每个三维位置坐标分别进行编码，得到每个三维位置坐标对应的位置特征。根据本实施例，通过提取、编码过程，可以方便的得到高纬维度的位置特征，以获取到与图像特征相适配的维度，进而可以与图像特征一起输入残差超分辨率网络中进行超分辨处理。

例如，假设空间位置信息是4×4维的，首先，可以先从原始的4×4的空间位置信息中提取三维位置坐标(x，y，z)，其中，x，y，z分别是4×4的空间位置矩阵的前三行的最后一列。然后，对三维位置坐标x，y，z归一化到[-1，1]，再对归一化的结果进行编码，得到位置编码结果，编码函数可以采用如下公式：

γ(p)＝(sin(2⁰πp)，cos(2⁰πp)，…，sin(2^L-1πp)，cos(2^L-1πp))

作为示例，L＝10，可以知晓对于三维位置坐标的进行编码后的编码长度为：3×2×10+3＝63，其中，3代表三维位置坐标(x，y，z)，2代表sin，cos计算，10代表L，再将编码长度与图像的输入维度相对应，得到对应的位置编码结果的维度为63*h*w，其中，h，w代表输入图像的高和宽。最后，将位置编码结果输入1×1大小的卷积块中，得到最终的三维位置特征。

需要说明的是，上述获取三维位置特征的方式可以看做是一种编码网络的处理逻辑，但是编码网络的处理逻辑并不局限于上述方式，且上述编码函数也并局限于上述公式。

在本公开的实施例中，残差超分辨网络可以包括但不限于多个残差块且多个残差块之间级联连接。根据本实施例，通过级联多个残差块，使得构造的残差超分辨网络非常轻量化，进而速度比较快，从可以提高获取第三图像的速度，还可以集成来自多个层的特性，以便接收更多的信息，提高超分辨网络的精准度。

具体地，上述残差超分辨网络可以是级联残差超分辨率网络，即可以包含多个残差块，多个残差块进行级联可以得到多个级联块，如图3所示，在局部(级联块内，残差块间)和全局(级联块间)级别均使用级联机制来集成来自多个层的特性，可以反映不同级别的输入表示，以便接收更多信息。例如，假设上述级联残差超分辨率网络总共有9个同样结构的残差块，每个残差块如图4所示，由两个卷积后跟一个残差加法组成。三个残差块为一组，形成一个级联块，每个级联块如图5所示，上述级联残差超分辨率网络总共有3个级联块，也就是图3中的三个级联块。三个级联块间，进入每一个级联块前，都要对之前的级联块的输出利用1x1的卷积核进行融合压缩。最后一个残差块的输出特征，成为上采样块的输入，进而得到高分辨率的第三图像。

在本公开的实施例中，残差超分辨网络可以通过如下方式进行训练：获取两个图像集，其中，每个图像集包含目标对象在多个不同视角下的图像和每个图像的空间位置信息；基于两个图像集中的图像，得到两个处理后的图像集，其中，每个处理后的图像集中图像的分辨率低于两个图像集中图像的分辨率；通过两个处理后的图像集中第一图像集对初始神经渲染模型进行训练，得到目标对象对应的神经渲染模型；将两个处理后的图像集中第二图像集中每个图像的空间位置信息，输入到神经渲染模型，得到预估第二图像，其中，第二图像的分辨率低于两个图像集中图像的分辨率；从第一图像集中，确定每个预估第二图像的预估参考图像；基于预估第二图像、预估参考图像、预估第二图像和预估参考图像各自的空间位置信息，对残差超分辨网络进行训练。根据本实施例，可以得到相对准确的训练数据，以对残差超分辨网络进行训练，提高训练效果。

具体地，上述两个图像集可以通过Blender软件获取，Blender是一款免费开源三维图形图像软件，提供从建模、动画、材质、渲染、到音频处理、视频剪辑等一系列动画短片制作解决方案，上述两个图像集也可以通过其他方式获取，本公开对此并不进行限定。

例如，图6是根据本公开的示例性实施方式的图像超分辨率模型的训练示意图，使用blender软件获取两个图像集时，可以设定任意场景，生成两个序列的4K图像，每个序列包含100张不同视角的图像，同时保存每张图像的空间位置信息，空间位置信息是一个4×4的矩阵。然后，对生成的两个序列的4K图像进行4倍下采样得到低分辨率图像。再然后，将其中一个序列(第一序列)的图像和对应的空间位置信息作为参照序列，并用来训练Instant-NPG神经渲染模型，通过这种方式进行训练的训练时间特别短，无需长时间等待。再然后，利用训练好的Instant-NPG神经渲染模型对另一个序列(第二序列)的空间位置信息(包括三维位置坐标)进行渲染，得到新视角的低分辨率渲染图像(即预估第二图像)。最后，给每一张新视角的低分辨率渲染图像在第一序列中选择参考图像(即预估参考图像)，得到的图像对和其对应的空间位置信息则为残差超分辨网络的训练数据。

本公开可以生成多个场景的数据，如生成了16个场景的数据，其中13个场景的数据作为训练数据，3个场景的数据作为测试数据，每个训练场景可以包含300组训练数据，对此本公开并不进行限定，在得到训练数据后，将训练数据输入到残差超分辨网络，得到高分辨率的图像，通过计算该高分辨率的图像和第二序列中对应的实际图像的损失，通过损失调整残差超分辨网络的参数，完成对残差超分辨网络的训练。

需要说明的是，本公开残差超分辨网络的训练可以采用多种损失函数，如L1损失函数，均方误差损失函数(MSE loss)等，对此本公开并不进行限定。

在本公开的实施例中，从第一图像集中，确定每个预估第二图像的预估参考图像，可以包括：对于每个预估第二图像，基于预估第二图像的空间位置信息和第一图像集中每个图像的空间位置信息，确定预估第二图像和每个图像的距离；基于距离，确定预估第二图像的第一参考图像、第二参考图像和第三参考图像，其中，第一参考图像是第一图像集中距离预估第二图像最近的图像，第二参考图像是第一图像集中距离预估第二图像在预定范围内的一个图像，第三参考图像是第一图像集中随机的一个图像；将第一参考图像、第二参考图像和第三参考图像，依次作为预估第二图像的预估参考图像。根据本实施例，获取多个参考图像用于训练，可以增加残差超分辨率网络对于预估第二图像和参考图像视角差异的鲁棒性。

具体地，为了增加残差超分辨网络对于待超图像(即预估第二图像)和参考图像视角差异的鲁棒性，参照图像的选择的方式可以为：计算待超图像的空间位置信息和每一张参考图像的空间位置信息的距离，如两个4×4矩阵的欧氏距离。然后分别选择距离最近的一张图像，距离最近的前10张参考图像中的随机一张图像，100张参考图像中随机一张图像，均作为待超图像的参考图像，形成3组训练数据。

在本公开的实施例中，将图像特征和位置特征输入残差超分辨网络，得到第三图像，可以包括：将图像特征和位置特征进行融合，得到融合特征；将融合特征输入残差超分辨网络，得到第三图像。根据本实施例，将图像特征和位置特征先融合，再输入残差超分辨网络，使得无需更改残差超分辨网络原有输入格式。

具体地，在得到两张图像的图像特征和位置特征后，将图像特征和位置特征进行合并，再用一个1x1卷积层融合压缩，然后输入残差超分辨率网络，可以得到第三图像。

在本公开的实施例中，在基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像之后，还可以基于目标对象在多个不同视角的图像和第三图像，获取目标对象的3D显示结果。根据本实施例，经过本公开可以得到目标对象在任一视角下的图像，从而丰富了用于生成3D显示结果的图像库，提高3D显示结果的准确性。

具体地，可以获取目标对象在任一视角下的图像，从而将其应用VR/AR，以便得到目标对象的3D显示结果。

为了方便理解上述实施例，下面图7系统的对本公开进行说明，图7是根据本公开的示例性实施方式的一种神经渲染的示意图。

本公开的处理过程中，如图7所示，先对已知视角的4K图像(3840×2160)进行4倍下采样，获得已知视角的低分辨率图像(960×540)；然后利用已知视角的低分辨率图像训练Instant-NPG模型，在本实例中训练时长仅仅10s，然后利用训练好的模型渲染出的新视角的低分辨率图像；再然后，在已知视角的低分辨图像中，随机选择一张图像作为新视角的低分辨率图像的参考图像，将该参考图像和其对应的空间位置信息作为对新视角的低分辨率图像进行超分辨率处理的参照信息，将新视角的低分辨率图像和对应的空间位置信息，以及参考图像和对应的视角空间位置信息输入预先训练好的图像超分辨率模型(如图2和图3所示)中，得到新视角对应的高分辨率图像。由于本公开仅仅训练Instant-NPG模型输出低分辨率图像即可，这样缩短了训练时长，而且图像超分辨率模型可以预先进行训练，因为是通用的，因此无需在线训练，所以进一步的减少了在线训练时长。

综上，本公开利用低分辨率神经渲染模型结合图像超分辨率模型来提升大尺度图像渲染速度和训练速度，即由低分辨率神经渲染模型输出新视角的低分辨率图像，再由图像超分辨率模型学习已知视角和新视角的空间位置关系，并利用已知视角的图像细节信息提升新视角的低分辨率图像的超分辨率效果，超分辨率速度快，低分辨率渲染和超分辨率的总时间是远远小于直接渲染出高分辨率图像的时间。而且，本公开的图像超分辨率模型还是基于轻量级的单幅图像超分辨率网络-级联残差网络(CARN)设计的，为了利用已知视角的图像信息提升新视角的图像的超分辨率效果，本公开将已知视角和新视角的图像信息、空间位置信息进行编码，融合压缩，输入级联残差超分辨率网络，将原本的针对单幅图像的超分辨率网络改造成基于空间参照信息的图像超分辨率模型，从而本公开提升了超分辨率效果，提高了获取到的超分辨率的图像的质量。

再有，本公开的图像超分辨率模型可以和任何渲染模型相结合，通用性极高，且可以预先进行训练，无需在线训练。

从图8所示的渲染效果图对比中可以看到，Instant-NPG模型直接渲染的4K图像和各种SISR超分辨率算法的结果图的伪影较为明显，部分细节信息较为模糊，本公开的超分辨率图像效果较为清晰，能够还原更加真实的场景信息。

根据本公开示例性实施方式的另一个方面，提供了一种三维场景渲染装置，图9是根据本公开的示例性实施方式的三维场景渲染装置的框图。参照图9，该装置包括第一获取单元92、选择单元94和第二获取单元96。

第一获取单元92，被配置为将目标对象在目标视角对应的空间位置信息输入目标对象对应的神经渲染模型，得到第二图像；选择单元94，被配置为从多个第一图像中选择第二图像的参考图像，其中，多个第一图像是基于目标对象在多个不同视角的图像得到的且第一图像的分辨率低于多个不同视角的图像的分辨率，第二图像的分辨率低于多个不同视角的图像的分辨率；第二获取单元96，被配置为基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像，其中，第三图像的分辨率与多个不同视角的图像的分辨率相同。

在本公开的实施例中，选择单元64，还被配置为基于每个第一图像与第二图像的距离，从多个第一图像中选择第二图像的参考图像；或者，从多个第一图像中随机选择一个第一图像，作为第二图像的参考图像。

在本公开的实施例中，第二获取单元96，还被配置为基于第二图像和参考图像各自的空间位置信息，利用参考图像对第二图像进行补偿，得到第三图像。

在本公开的实施例中，第二获取单元96，还被配置为获取第二图像和参考图像各自的图像特征；基于第二图像和参考图像各自的空间位置信息，获取第二图像和参考图像各自的位置特征；将图像特征和位置特征输入残差超分辨网络，得到第三图像。

在本公开的实施例中，第二获取单元96，还被配置为从第二图像和参考图像各自的空间位置信息中，提取各自的三维位置坐标；对每个三维位置坐标分别进行编码，得到每个三维位置坐标对应的位置特征。

在本公开的实施例中，残差超分辨网络包括多个残差块且多个残差块之间级联连接。

在本公开的实施例中，上述装置还包括训练单元，被配置为通过如下方式训练残差超分辨网络：获取两个图像集，其中，每个图像集包含目标对象在多个不同视角下的图像和每个图像的空间位置信息；基于两个图像集中的图像，得到两个处理后的图像集，其中，每个处理后的图像集中图像的分辨率低于两个图像集中图像的分辨率；通过两个处理后的图像集中第一图像集对初始神经渲染模型进行训练，得到目标对象对应的神经渲染模型；将两个处理后的图像集中第二图像集中每个图像的空间位置信息，输入到神经渲染模型，得到预估第二图像，其中，第二图像的分辨率低于两个图像集中图像的分辨率；从第一图像集中，确定每个预估第二图像的预估参考图像；基于预估第二图像、预估参考图像、预估第二图像和预估参考图像各自的空间位置信息，对残差超分辨网络进行训练。

在本公开的实施例中，训练单元，还被配置为对于每个预估第二图像，基于预估第二图像的空间位置信息和第一图像集中每个图像的空间位置信息，确定预估第二图像和每个图像的距离；基于距离，确定预估第二图像的第一参考图像、第二参考图像和第三参考图像，其中，第一参考图像是第一图像集中距离预估第二图像最近的图像，第二参考图像是第一图像集中距离预估第二图像在预定范围内的一个图像，第三参考图像是第一图像集中随机的一个图像；将所述第一参考图像、所述第二参考图像和所述第三参考图像，依次作为所述预估第二图像的所述预估参考图像。

在本公开的实施例中，第二获取单元96，还被配置为将图像特征和位置特征进行融合，得到融合特征；将融合特征输入残差超分辨网络，得到第三图像。

在本公开的实施例中，上述装置还包括：第三获取单元，被配置为获取目标对象在多个不同视角的图像；对多个不同视角的图像进行下采样处理，得到多个第一图像。

在本公开的实施例中，第二获取单元96，还被配置为在基于第二图像、参考图像、第二图像和参考图像各自的空间位置信息，获取第三图像之后，基于目标对象在多个不同视角的图像和第三图像，获取目标对象的3D显示结果。

应该理解，根据本公开的示例性实施方式的存储方法和存储装置中的各个单元/模块可被实现为硬件组件和/或软件组件。本领域技术人员根据限定的各个单元/模块所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元/模块。

根据本公开示例性实施例的再一个方面，提供一种存储有计算机程序的计算机可读存储介质，其中，当所述计算机程序被处理器执行时，实现本公开所述的三维场景渲染方法。

具体地，根据本公开的示例性实施例的用于深度学习模型的量化方法可被编写为计算机程序、代码段、指令或它们的任何组合，并被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。所述计算机可读存储介质是可存储由计算机系统读出的数据的任意数据存储装置。计算机可读存储介质的示例包括：只读存储器、随机存取存储器、只读光盘、磁带、软盘、光数据存储装置和载波(诸如经有线或无线传输路径通过互联网的数据传输)。

根据本公开示例性实施例的又一个方面，提供一种电子设备，其中，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行本公开所述的三维场景渲染方法。

具体地，所述电子设备可以广义地为平板电脑、智能手机、智能手表，或任何其他具有必要的计算和/或处理能力的电子设备。在一个实施例中，该电子设备可包括通过系统总线连接的处理器、存储器、网络接口、通信接口等。该电子设备的处理器可用于提供必要的计算、处理和/或控制能力。该电子设备的存储器可包括非易失性存储介质和内存储器。该非易失性存储介质中或上可存储有操作系统、计算机程序等。该内存储器可为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口和通信接口可用于与外部的设备通过网络连接和通信。

Claims

1.一种三维场景渲染方法，其特征在于，包括：

将目标对象在目标视角对应的空间位置信息输入所述目标对象对应的神经渲染模型，得到第二图像；

从多个第一图像中选择所述第二图像的参考图像，其中，所述多个第一图像是基于所述目标对象在多个不同视角的图像得到的且所述第一图像的分辨率低于所述多个不同视角的图像的分辨率，所述第二图像的分辨率低于所述多个不同视角的图像的分辨率；

基于所述第二图像、所述参考图像、所述第二图像和所述参考图像各自的空间位置信息，获取第三图像，其中，所述第三图像的分辨率与所述多个不同视角的图像的分辨率相同。

2.根据权利要求1所述三维场景渲染方法，其特征在于，所述从所述多个第一图像中选择所述第二图像的参考图像，包括：

基于每个第一图像与所述第二图像的距离，从所述多个第一图像中选择所述第二图像的参考图像；

或者，从所述多个第一图像中随机选择一个第一图像，作为所述第二图像的参考图像。

3.根据权利要求1所述三维场景渲染方法，其特征在于，所述基于所述第二图像、参考图像、所述第二图像和所述参考图像各自的空间位置信息，获取第三图像，包括：

基于所述第二图像和所述参考图像各自的空间位置信息，利用所述参考图像对所述第二图像进行补偿，得到所述第三图像。

4.根据权利要求3所述三维场景渲染方法，其特征在于，所述基于所述第二图像和所述参考图像各自的空间位置信息，通过所述参考图像对所述第二图像进行补偿，得到所述第三图像，包括：

获取所述第二图像和所述参考图像各自的图像特征；

基于所述第二图像和所述参考图像各自的空间位置信息，获取所述第二图像和所述参考图像各自的位置特征；

将所述图像特征和所述位置特征输入残差超分辨网络，得到所述第三图像。

5.根据权利要求4所述的三维场景渲染方法，其特征在于，所述基于所述第二图像和所述参考图像各自的空间位置信息，获取所述第二图像和所述参考图像各自的位置特征，包括：

从所述第二图像和所述参考图像各自的空间位置信息中，提取各自的三维位置坐标；

对每个三维位置坐标分别进行编码，得到每个三维位置坐标对应的位置特征。

6.根据权利要求4所述的三维场景渲染方法，其特征在于，所述残差超分辨网络包括多个残差块且所述多个残差块之间级联连接。

7.根据权利要求4所述的三维场景渲染方法，其特征在于，所述将所述图像特征和所述位置特征输入残差超分辨网络，得到所述第三图像，包括：

将所述图像特征和所述位置特征进行融合，得到融合特征；

将所述融合特征输入所述残差超分辨网络，得到所述第三图像。

8.根据权利要求1所述的三维场景渲染方法，其特征在于，所述多个第一图像通过如下方式获取：

获取所述目标对象在多个不同视角的图像；

对所述多个不同视角的图像进行下采样处理，得到所述多个第一图像。

9.根据权利要求1所述的三维场景渲染方法，其特征在于，在基于所述第二图像、参考图像、所述第二图像和所述参考图像各自的空间位置信息，获取第三图像之后，还包括：

基于所述目标对象在多个不同视角的图像和所述第三图像，获取所述目标对象的3D显示结果。

10.根据权利要求4所述的三维场景渲染方法，其特征在于，所述残差超分辨网络是通过如下方式进行训练的：

获取两个图像集，其中，每个图像集包含所述目标对象在多个不同视角下的图像和每个图像的空间位置信息；

基于所述两个图像集中的图像，得到两个处理后的图像集，其中，每个处理后的图像集中图像的分辨率低于所述两个图像集中图像的分辨率；

通过所述两个处理后的图像集中第一图像集对初始神经渲染模型进行训练，得到所述目标对象对应的神经渲染模型；

将所述两个处理后的图像集中第二图像集中每个图像的空间位置信息，输入到所述神经渲染模型，得到预估第二图像，其中，所述第二图像的分辨率低于所述两个图像集中图像的分辨率；

从所述第一图像集中，确定每个预估第二图像的预估参考图像；

基于所述预估第二图像、所述预估参考图像、所述预估第二图像和所述预估参考图像各自的空间位置信息，对所述残差超分辨网络进行训练。

11.一种三维场景渲染装置，其特征在于，包括：

第一获取单元，被配置为将目标对象在目标视角对应的空间位置信息输入所述目标对象对应的神经渲染模型，得到第二图像；

选择单元，被配置为从多个第一图像中选择所述第二图像的参考图像，其中，所述多个第一图像是基于所述目标对象在多个不同视角的图像得到的且所述第一图像的分辨率低于所述多个不同视角的图像的分辨率，所述第二图像的分辨率低于所述多个不同视角的图像的分辨率；

第二获取单元，被配置为基于所述第二图像、参考图像、所述第二图像和所述参考图像各自的空间位置信息，获取第三图像，其中，所述第三图像的分辨率与所述多个不同视角的图像的分辨率相同。

12.一种存储有计算机程序的计算机可读存储介质，其特征在于，当所述计算机程序被处理器执行时，实现如权利要求1至10中任一项所述的三维场景渲染方法。

13.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至10中的任一权利要求所述的三维场景渲染方法。