CN117292040A

CN117292040A - 基于神经渲染的新视图合成的方法、设备和存储介质

Info

Publication number: CN117292040A
Application number: CN202311586499.4A
Authority: CN
Inventors: 方顺; 崔铭; 冯星; 张志恒; 张亚男; 吕艳娜; 乔磊; 孙思远; 汪成峰; 殷杏雨
Original assignee: Beijing Xuanguang Technology Co ltd
Current assignee: Beijing Xuanguang Technology Co ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-26
Anticipated expiration: 2043-11-27
Also published as: CN117292040B

Abstract

本申请公开了一种基于神经渲染的新视图合成的方法、设备和存储介质。所述方法包括：获取待进行合成的原视图；使用所述特征提取模块对所述原视图执行图像特征提取操作，以获得图像特征；使用所述像素解码模块对所述图像特征执行像素解码操作，以获得像素特征；使用所述Transformer解码模块对所述图像特征进行参数解码，并将所述像素特征嵌入参数解码结果中，以获得与合成新视图相关的目标参数；以及在交叉平面空间中基于所述目标参数进行新视图渲染，以合成新视图。利用本申请的方案，可以确保获得更加逼真的、高质量的新视图，并适用于通用场景。

Description

基于神经渲染的新视图合成的方法、设备和存储介质

技术领域

本申请一般涉及新视图合成技术领域。更具体地，本申请涉及一种基于神经渲染的新视图合成的方法、设备和计算机可读存储介质。

背景技术

新视图合成任务指的是给定源图像、源姿态和目标姿态，渲染生成目标姿态对应的图片，其在3D重建、AR以及VR等领域有着广泛的应用。针对新视图合成，传统方法是采用例如卷积神经网络模型来进行预测，但传统方法无法做到高保真的视图合成。

目前，基于神经辐射场（Neural Radiance Fields，“NeRF”）可以获得质量较高、逼真度高的新视图，通过输入多个视角的图像、相机参数或者光线方向，输出三维场景中每个点的颜色和密度。然而，在使用NeRF方法时，不同场景需要重新训练，无法做到一次训练，其他场景直接使用，且训练速度较慢。此外，现有的新视图合成是在标准空间平面下进行的，这会使得深度图预测不精准，并产生倾斜表面的离散化伪影和重复纹理的冗余图层等问题。

有鉴于此，亟需提供一种基于神经渲染的新视图合成的方案，以便确保获得更加逼真的、高质量的新视图，并适用于通用场景。

发明内容

为了至少解决如上所提到的一个或多个技术问题，本申请在多个方面中提出了基于神经渲染的新视图合成的方案。

在第一方面中，本申请提供一种基于神经渲染的新视图合成的方法，其中所述神经渲染基于神经网络模型实现，所述神经网络模型包括特征提取模块、像素解码模块和Transformer解码模块，并且所述方法包括：获取待进行合成的原视图；使用所述特征提取模块对所述原视图执行图像特征提取操作，以获得图像特征；使用所述像素解码模块对所述图像特征执行像素解码操作，以获得像素特征；使用所述Transformer解码模块对所述图像特征进行参数解码，并将所述像素特征嵌入参数解码结果中，以获得与合成新视图相关的目标参数；以及在交叉平面空间中基于所述目标参数进行新视图渲染，以合成新视图。

在一个实施例中，其中所述特征提取模块为残差网络，所述残差网络和所述像素解码模块均包括多层，并且所述方法还包括：将所述像素解码模块每层的解码向量与所述残差网络对应层的图像特征相加后进行像素解码操作，以获得所述像素特征。

在另一个实施例中，其中所述目标参数包括颜色、图像实例、图像类别和平面参数信息，所述Transformer解码模块包括解码器和多个感知层头，并且使用所述Transformer解码模块对所述图像特征进行参数解码，并将所述像素特征嵌入参数解码结果中，以获得与合成新视图相关的目标参数包括：使用所述解码器对所述图像特征进行参数解码，以获得与所述目标参数对应的多个参数解码结果；以及将所述像素特征分别嵌入与颜色和图像实例对应的参数解码结果中，并使用所述多个感知层头对应输出所述颜色、所述图像实例、所述图像类别和所述平面参数信息。

在又一个实施例中，其中将所述像素特征分别嵌入与颜色和图像实例对应的参数解码结果中包括：将所述像素特征分别与颜色和图像实例对应的参数解码结果进行点积操作。

在又一个实施例中，其中所述解码器包括自注意力层、交叉注意力层、前馈网络层，所述每个感知层头包括多层感知机和激活函数或者包括多层感知机和全连接层。

在又一个实施例中，其中所述多个感知层头包括颜色层头、实例层头、类别层头和平面参数层头，并且所述颜色层头和所述实例层头均包括多层感知机和Sigmoid激活函数，以对应输出所述颜色和所述图像实例；所述类别层头包括多层感知机和Softmax激活函数，以对应输出所述图像类别；所述平面参数层头包括多层感知机和全连接层，以对应输出所述平面参数信息。

在又一个实施例中，其中所述平面参数信息包括法向量和偏移距离，并且在交叉平面空间中基于所述目标参数进行新视图渲染，以合成新视图包括：根据不同类别的图像实例在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度确定新渲染顺序图片；以及基于所述新渲染顺序图片的深度计算渲染颜色，以合成所述新视图。

在又一个实施例中，其中根据不同类别的图像实例在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度确定新渲染顺序图片包括：根据不同类别的图像实例中的像素点在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度确定像素渲染顺序；以及基于所述像素渲染顺序重新排列像素点，以获得所述新渲染顺序图片。

在又一个实施例中，其中通过计算不同类别的图像实例中的像素点在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度，其中/>表示所述法向量，/>表示所述偏移距离，/>表示相机内部参数，/>表示不同类别的图像实例中的像素点的二维坐标位置。

在又一个实施例中，其中基于所述新渲染顺序图片的深度计算渲染颜色包括：通过计算所述渲染颜色，其中/>，/>表示交叉平面，表示标准平面，/>表示所述新渲染顺序图片的深度，/>表示透明图，/>表示累计透射率。

在又一个实施例中，所述方法还包括：将渲染后的视图由所述交叉平面空间变换至标准平面空间，以合成最终的新视图。

在又一个实施例中，其中将渲染后的视图由所述交叉平面空间变换至标准平面空间，以合成最终的新视图包括：通过将渲染后的视图由所述交叉平面空间变换至标准平面空间，以合成最终的新视图，其中/>表示渲染后的视图，/>表示最终的新视图，/>表示所述法向量，/>表示所述偏移距离，/>表示相机内部参数，R和t表示经由变换矩阵处理的旋转和平移参数。

在又一个实施例中，所述方法还包括：将多个场景下的原始图作为训练集输入至所述神经网络模型，并计算与所述颜色和所述图像实例相关的掩码损失和交叉熵损失；以及根据所述掩码损失和所述交叉熵损失形成的总损失函数训练所述神经网络模型。

在第二方面中，本申请提供一种基于神经渲染的新视图合成的设备，包括：处理器；以及存储器，其中存储有基于神经渲染的新视图合成的程序指令，当所述程序指令由所述处理器执行时，使得所述设备实现前述第一方面中的多个实施例。

在第三方面中，本申请提供一种计算机可读存储介质，其上存储有基于神经渲染的新视图合成的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现前述第一方面中的多个实施例。

通过如上所提供的基于神经渲染的新视图合成的方案，本申请实施例通过由特征提取模块、像素解码模块和Transformer解码模块形成的复杂神经网络模型对原视图执行图像特征提取操作和对图像特征执行像素解码操作和参数解码，并将像素特征嵌入参数解码结果中获得与合成新视图相关的目标参数，进而在交叉平面空间中基于目标参数进行新视图渲染，以合成新视图。基于此，本申请实施例通过使用复杂神经网络模型，不仅可以便于输入普遍参数，使得本申请实施例可以适用于通用场景，还可以提高神经网络模型提取目标参数的精准度。基于提取的目标参数，在交叉平面空间下进行新视图合成，可以提高深度图的精度，避免产生倾斜表面的离散化伪影和重复纹理的冗余图层等问题，从而获得更加逼真的、高质量的新视图。进一步地，本申请实施例的神经网络模型包含Transformer解码模块，可以并行产生所有目标参数，从而大幅度提高计算速度。此外，本申请实施例还通过引入残差网络，以避免深神经网络模型中的梯度消失，确保神经网络模型的稳定性。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本申请实施例的基于神经渲染的新视图合成的方法的示例性流程框图；

图2是示出根据本申请实施例的基于神经渲染的新视图合成的示例性示意图；

图3是示出根据本申请实施例的交叉平面空间与标准平面空间的示例性示意图；

图4是示出根据本申请实施例的确定像素渲染顺序的示例性示意图；

图5是示出根据本申请实施例的基于神经渲染的新视图合成的设备的示例性结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的，而并不意在限定本申请。如在本申请说明书和权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解，在本申请说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当... 时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

如上述背景描述可知，目前主流的新视图合成方式是通过NeRF方法，并且在标准空间平面下进行构建。其中，NeRF采用简单的多层感知机作为网络模型，输入的仅仅是多个视角的图像、相机参数或者光线方向，输出三维场景中每个点的颜色和密度，而仅采用简单的多层感知机根据前述参数估算密度和颜色较为困难，需要针对每个场景训练一次，因而不具有通用性。可以理解，一种物体构成一个场景。例如，花，车，房子为三种不同的场景。以花，车，房子三种不同的场景为例，当采用NeRF方法时，需要分别针对花，车，房子三种不同的场景分别进行训练，而不能将基于花场景下的NeRF应用于车场景或者房子场景。

进一步地，前述标准空间平面（例如图3的（b）图所示）是指包含具有相同法向量的多个平行的平面，这会使得较深的图像像素点的深度信息显示不全，导致深度图预测不精准，产生倾斜表面的离散化伪影和重复纹理的冗余图层等问题。

基于此，本申请提供一种基于神经渲染的新视图合成的方法，通过复杂神经网络模型来处理通用场景下的原视图，并在交叉平面空间下进行新视图合成，以获得更加逼真的、高质量的新视图。

下面结合附图来详细描述本申请的具体实施方式。

图1是示出根据本申请实施例的基于神经渲染的新视图合成的方法100的示例性流程框图。在一个实施例中，本申请实施例中的神经渲染基于神经网络模型实现，该神经网络模型可以包括特征提取模块、像素解码模块和Transformer解码模块。如图1中所示，在步骤S101处，获取待进行合成的原视图。在一个实现场景中，该原视图可以例如是任意场景（例如花、车或者房子等）下的图像。基于获取的原视图，在步骤S102处，使用特征提取模块对原视图执行图像特征提取操作，以获得图像特征。在一个实施例中，该特征提取模块可以例如是残差网络，并且该残差网络可以例如是ResNet50或ResNet101等残差网络。通过使用残差网络对原视图执行图像特征提取操作获得图像特征，该图像特征可以表示成，其中/>表示图像特征的通道数量，S表示图像特征的步长（例如32），H和W分别表示图像特征的高度和宽度。在本申请实施例中，通过引入残差网络，可以避免神经网络模型的梯度消失，以确保神经网络模型的稳定性。

接着，在步骤S103处，使用像素解码模块对图像特征执行像素解码操作，以获得像素特征。在一个实施例中，残差网络和像素解码模块均可以包括多层。在实现场景中，可以将像素解码模块每层的解码向量与残差网络对应层的图像特征相加后进行像素解码操作，以获得像素特征。可以理解，在使用像素解码模块对图像特征执行像素解码操作中，其可以对图像特征进行上采样操作。优选地，像素解码模块每层（例如隐藏层）输出可以是前一层的特征图分辨率的2倍，每层解码向量与残差网络对应层的特征图相加，从而产生高分辨率的像素特征。前述像素特征可以表示为，其中/>是像素嵌入维度（也即像素特征的通道数），例如/>可以是256，H和W分别表示像素特征的高度和宽度。

进一步地，在步骤S104处，使用Transformer解码模块对图像特征进行参数解码，并将像素特征嵌入参数解码结果中，以获得与合成新视图相关的目标参数。在一个实施例中，前述目标参数可以包括颜色、图像实例、图像类别和平面参数信息，前述Transformer解码模块可以包括解码器和多个感知层头。在一个实施场景中，可以使用解码器对图像特征进行参数解码，以获得与目标参数对应的多个参数解码结果，接着将像素特征分别嵌入与颜色和图像实例对应的参数解码结果中，并使用多个感知层头对应输出颜色、图像实例、图像类别和平面参数信息。其中，在将像素特征分别嵌入与颜色和图像实例对应的参数解码结果中，其可以通过像素特征分别与颜色和图像实例对应的参数解码结果进行点积操作。

也就是说，本申请实施例首先通过Transformer解码模块的解码器对残差网络提取的图像特征进行解码，获得与颜色、图像实例、图像类别和平面参数信息相关的多个参数解码结果，其中在与颜色和图像实例中相关的参数解码结果中分别嵌入像素特征，并经由Transformer解码模块的多个感知层头对应输出颜色、图像实例、图像类别和平面参数信息。由此，本申请实施例的多个感知层头可以包括颜色层头、实例层头、类别层头和平面参数层头，以分别对应输出颜色、图像实例、图像类别和平面参数信息。在本申请实施例中，通过像素嵌入，可以将每个像素与所属的语义类别（比如颜色、图像实例）关联起来，从而实现对图像中不同语义区域的精确分割和分类。另外，通过像素嵌入，还可以捕捉到像素的语义信息和上下文关系，有助于提高神经网络模型的性能和准确度。此外，通过Transformer解码模块，可以并行产生所有预测，从而大幅提升计算速度。

在一些实施例中，上述解码器可以包括自注意力层、交叉注意力层、前馈网络层，并且上述每个感知层头可以包括多层感知机和激活函数或者包括多层感知机和全连接层。在一个实现场景中，前述解码器可以至少包括一个。当解码器包含多个（例如6个）时，可以将多个解码器首尾相连，以对残差网络提取的图像特征进行参数解码。在实现场景中，通过将残差网络输出的图像特征输入到Transformer解码模块的解码器的K和V，可以代替原来Transformer神经网络模型中的编码器，并输入N个查询Q，其中N可以例如是100，由Transformer解码模块的解码器输出N个区域的参数解码结果（或者说N个区域嵌入），其中/>表示N个区域嵌入的维度，并且区域嵌入对区域编码了全局信息。需要理解的是，前述Transformer解码模块的解码器的K、V和Q分别为注意力机制中的Key、Value和Query。

进一步地，Transformer解码模块的解码器后连接多个感知层头（例如颜色层头、实例层头、类别层头和平面参数层头），以分别对应输出颜色、图像实例、图像类别和平面参数信息。根据前文可知，每个感知层头可以包括多层感知机和激活函数或者包括多层感知机和全连接层。具体而言，在一个实施场景中，颜色层头可以包括多层感知机（“MLPs”）和Sigmoid激活函数，以基于前述区域嵌入输出颜色。实例层头可以包括MLPs和Sigmoid激活函数，以基于前述区域嵌入输出图像实例，而图像实例表示场景图像中的各个物体。类别层头可以包括MLPs和Softmax激活函数，以基于前述区域嵌入输出图像类别。平面参数层头可以包括MLPs和全连接层，以基于前述区域嵌入输出平面参数信息。在一些实施例中，前述每个层头的多层感知机可以包括2层，并且每层可以包括256个通道。

其中，在颜色层头和实例层头中，基于解码器输出的N个图像区域的区域嵌入首先经由多层感知机生成与颜色、图像实例相关的N个掩码嵌入，其中表示掩码嵌入的维度（例如256）。接着，在颜色层头和实例层头中分别嵌入像素特征。具体地，对像素特征/>与颜色、图像实例相关的掩码嵌入/>进行点积操作，获得与颜色、图像实例相关的掩码预测/>和/>。对于前述实例图层而言，通过判断每个像素点是否属于相应的实例，当属于相应的实例时设置为1，不属于相应的实例时设置为0，可以得到/>。对于前述颜色图层来说，通过判断每个像素的真实颜色，并且采用RGB掩码，可以得到/>。进一步地，分别经由一个Sigmoid激活函数，获得最终的掩码预测，以获得一个/>的颜色图层或实例图层。

在一个实施例中，还需要判断上述N个区域所属的图像实例，由此本申请实施例还通过上述类别层头输出区域属于某个图像实例的概率，其中/>，/>表示类别数，并通过1表示空分类，即某一个像素不属于任何实例。在本申请实施例中，前述类别为一个场景中物体的种类。例如，以花为例，可以划分为枝干、叶等。具体来说，上述区域嵌入经由多层感知机和Softmax激活函数输出每个区域/>的概率预测/>，以获得最终的图像类别。此外，本申请实施例还通过将区域嵌入多层感知机和全连接层，以获得平面参数信息/>，其中/>表示法向量，/>表示平面到光学中心/>的偏移距离。也即，平面参数信息包括法向量和偏移距离。

在获得上述目标参数（颜色、图像实例、图像类别和平面参数信息）后，在步骤S105处，在交叉平面空间中基于目标参数进行新视图渲染，以合成新视图。在一个实施例中，根据不同类别的图像实例在由法向量和偏移距离形成的交叉平面空间的深度确定新渲染顺序图片，进而基于新渲染顺序图片的深度计算渲染颜色，以合成新视图。在一个实施场景中，可以根据不同类别的图像实例中的像素点在由法向量和偏移距离形成的交叉平面空间的深度确定像素渲染顺序，以基于像素渲染顺序重新排列像素点，以获得新渲染顺序图片。也就是说，本申请实施例通过将像素点进行切片，将其显示在交叉的不同平面（例如图3的（a）图所示）上，而像素点位于不同平面上的深度不同，其所显示的颜色也不同。其中，深度值越小（也即像素点距离相机屏幕越近），像素点渲染靠前；深度值越大（也即像素点距离相机屏幕越远），像素点渲染越靠后。

由此，本申请实施例通过计算不同图像实例中的每个像素点在不同平面上的深度确定像素渲染顺序，根据像素渲染顺序重新排列像素点获得新渲染顺序图片，进而基于新渲染顺序图片的深度计算渲染颜色进行渲染，以合成新视图。在一个实现场景中，可以通过计算不同类别的图像实例中的像素点在由法向量和偏移距离形成的交叉平面空间的深度，其中/>表示不同类别的图像实例中的像素点在由法向量和偏移距离形成的交叉平面空间的深度，/>表示法向量，/>表示偏移距离，/>表示相机内部参数，/>表示不同类别的图像实例中的像素点的二维坐标位置。

具体来说，可以通过将不同的图像实例（二维）中的像素点投影到至形成的交叉平面空间（三维）中，结合/>，可以获得/>，进而确定每个平面上每个像素点的深度/>，其中/>表示像素点的二维坐标位置，/>表示三维空间中的像点，E表示相机内部参数（例如相机的焦距、主点位置和像素尺度等）。接着，根据前述深度确定像素渲染顺序，并且重新排列像素顺序，以获得新渲染顺序图片。其中，对于新渲染顺序图片的像素q，其渲染顺序，其中/>表示第i个渲染顺序的图片索引，新渲染顺序图片集合为，其中/>。另外，由于每层图片像素对最终的屏幕像素贡献不同，由此后面乘以一个/>，以表示体渲染中的累计透射率。其中，前述/>表示长宽为H×W的RGB图，/>表示长宽为H×W的透明图，/>表示交叉平面，/>表示标准平面。可以理解，标准空间平面是交叉空间平面的特殊形式。进一步地，根据新渲染顺序图片的深度确定最终的颜色，以合成新视图，其中/>表示每个新渲染顺序图片的深度，也即每个平面上像素点的深度。

在一个实施例中，本申请还涉及将渲染后的视图由交叉平面空间变换至标准平面空间，以合成最终的新视图。具体来说，在一个实施场景中，可以通过设定一个变换矩阵，将上述三维的点x转换为/>，得到目标视角的平面参数/>。通过采样，基于/>将每个平面的源视图变换到目标视图/>，以获得最终的新视图。其中，前述表示交叉平面参数，E表示相机内部参数，R和t是通过变换矩阵F处理的旋转和平移参数，T表示转置。作为示例，给定一个4x4的变换矩阵F，可以通过矩阵分解方法（例如SVD或QR等分解方法）将其分解为旋转矩阵R和平移向量t。

在使用本申请实施例的神经网络模型之前，需要对其进行训练，进而利用训练完成的神经网络模型来合成新视图。在一个实施例中，可以通过将多个场景下的原始图作为训练集输入至神经网络模型，并计算与颜色和图像实例相关的掩码损失和交叉熵损失，进而根据掩码损失和交叉熵损失形成的总损失函数训练神经网络模型。在一个实施场景中，可以通过如下公式来计算总损失函数：

其中，与颜色和图像实例相关的掩码损失，/>表示颜色层头和实例层头中的Sigmoid激活函数，/>表示与颜色和图像实例相关的交叉熵分类损失，/>表示颜色层头和实例层头中的Sigmoid激活函数输出的预测概率，/>表示/>不为空时为1，否则为0。前述掩码损失/>，可以例如是20.0，/>可以例如是1.0，/>，，其中/>，其中/>表示表示类别的真实值，/>表示类别层头输出的预测概率。

结合上述描述可知，本申请实施例通过包括特征提取模块、像素解码模块和Transformer解码模块复杂的神经网络模型，对原视图执行图像特征提取操作和对图像特征执行像素解码操作和参数解码，并将像素特征嵌入参数解码结果中获得与合成新视图相关的目标参数，进而在交叉平面空间中基于目标参数进行新视图渲染，以合成新视图。基于此，本申请实施例可以输入普遍参数，从而适用于通用场景，并且通过在交叉平面空间下进行新视图合成，可以提高深度图的精度，获得更加逼真的、高质量的新视图。进一步地，本申请实施例通过引入残差网络避免了深神经网络模型中的梯度消失，并且通过像素嵌入，以将像素与所属的语义类别（比如颜色、图像实例）进行关联以及捕捉到像素的语义信息和上下文关系，极大地提高了本申请实施例的神经网络模型的性能和准确度。此外，本申请实施例还通过Transformer解码模块并行产生所有预测，大幅提升了计算速度。

图2是示出根据本申请实施例的基于神经渲染的新视图合成的示例性示意图。需要理解的是，图2是上述图1的方法100的一个具体实施例，因此上述关于图1的描述同样适用于图2。

如图2中所示，本申请实施例的神经网络模型可以包括特征提取模块201、像素解码模块202和Transformer解码模块203，并且Transformer解码模块203可以包括解码器203-1和多个感知层头，例如图中示出的颜色层头204-1、实例层头204-2、类别层头204-3和平面参数层头204-4。在一个实施例中，特征提取模块201可以例如是残差网络（例如ResNet50或ResNet101等），残差网络和像素解码模块202可以包括多层。优选地，像素解码模块每层（例如隐藏层）输出可以是前一层的特征图分辨率的2倍。在一些实施例中，前述解码器203-1可以包括自注意力层、交叉注意力层和前馈网络层。前述每个感知层头可以包括多层感知机和激活函数或者包括多层感知机和全连接层。例如颜色层头204-1和实例层头204-2包括多层感知机205和Sigmoid激活函数206-1，类别层头204-3包括多层感知机205和Softmax激活函数206-2，平面参数层头204-4包括多层感知机205和全连接层207。

在一个实施场景中，通过将任意场景下的原视图208输入至神经网络模型，首先经由特征提取模块201执行图像特征提取操作获得图像特征209。接着，将前述图像特征209分别输入至像素解码模块202和解码器203-1执行像素解码操作和参数解码参数，其中像素解码模块202每层的解码向量可以与残差网络对应层的特征图相加获得像素特征210。前述图像特征209经由解码器203-1获得多个参数解码结果（也即区域嵌入）211，并且经由前述颜色层头204-1、实例层头204-2、类别层头204-3和平面参数层头204-4最终输出颜色212、图像实例213、图像类别214和平面参数信息215。其中，在颜色层头204-1和实例层头204-2中分别嵌入了像素特征210，通过将像素特征210与颜色、图像实例相关的掩码嵌入218进行点积操作（例如图中的所示），最终获得颜色212和图像实例213。

图中进一步示出，基于前述颜色212、图像实例213、图像类别214和平面参数信息215，在交叉平面空间中进行新视图渲染216，以合成新视图217。根据前文可知，平面参数信息可以包括法向量和偏移距离，并且经由法向量和偏移距离形成交叉平面空间。在一个实施例中，首先可以确定不同类别的图像实例的像素点在不同平面上的深度，以根据深度判断像素渲染顺序。接着，可以根据渲染顺序对像素重新排序，形成新渲染顺序图片。可以理解，每一个渲染顺序对应一个图片。例如，对于第一渲染的像素点集合，可以构成一个图片。进一步地，基于新渲染顺序图片的深度计算最终的颜色进行渲染，以合成新视图。关于合成新视图的更多细节，可以参考上述图1的描述，本申请在此不再赘述。

图3是示出根据本申请实施例的交叉平面空间与标准平面空间的示例性示意图。如图3的（a）图所示为交叉平面空间，图3的（b）图所示为标准平面空间。在一个实现场景中，假设交叉平面空间由个平面图像构成，则可以表示成/>，其中/>表示一个法线向量和一个平面到光学中心（也即图中所示的相机焦点）/>的偏移量构成的平面，且此平面上每个三维的点都满足/>，由此交叉空间平面的第i个平面也可以表示为/>。其中/>表示长宽为H×W的RGB图，/>表示长宽为H×W的透明图。假设标准平面空间由N个平行的图像构成，则可以表示成，而标准空间平面是交叉空间平面的特殊形式，由此标准空间平面还可以表示为/>，其所有平面的法线均相同，且/>。在一些实施例中，通过综合前述两种空间，可以得到本申请实施例的最终交叉平面空间：。如前所述，标准平面空间容易缺失深度信息，并且存在倾斜表面的离散化伪影和重复纹理的冗余图层、深度图预测不准确的问题，而本申请实施例通过交叉平面空间避免了前述问题，从而能更好地估计深度图。

图4是示出根据本申请实施例的确定像素渲染顺序的示例性示意图。如图4中示例性示出交叉平面空间中的三个平面、/>、/>，三个平面/>、/>、/>中的矩形框A、B、C表示像素点。在实现场景中，可以根据上述深度计算公式/>计算每个平面上每个像素点的深度，例如图中的D1为平面/>上像素点的深度，D2为平面/>上像素点的深度，D3为平面/>上像素点的深度。进一步地，图中箭头指向相机屏幕方向，前表示靠近相机屏幕近，即深度值小；后表示靠近相机屏幕远，即深度值大。如前所述，深度值越小（也即像素点距离相机屏幕越近），像素点渲染靠前；深度值越大（也即像素点距离相机屏幕越远），像素点渲染越靠后。由图可知，深度值D3＜D2＜D1，由此平面/>上像素点排在前，平面/>上像素点排在中间，平面/>上像素点排在最后，以形成新渲染顺序图片。后续通过计算新渲染顺序图片的深度计算最终的渲染颜色，可以合成新视图。在一些实施例中，还可以通过设置变化矩阵，将前述新视图由交叉平面空间变化至标准平面空间，以获得最终的新视图。基于本申请实施例的方案，可以适用于通用场景，并且能够获得更加逼真的、高质量的新视图。

图5是示出根据本申请实施例的基于神经渲染的新视图合成的设备500的示例性结构框图。可以理解的是，实现本申请方案的设备可以是单一的设备（例如计算设备）或包括各种外围设备的多功能设备。

如图5中所示，本申请的设备可以包括中央处理器或中央处理单元（“CPU”）511，其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步，设备500还可以包括大容量存储器512和只读存储器（“ROM”）513，其中大容量存储器512可以配置用于存储各类数据，包括各种与任意场景下的原视图、各种特征、算法数据、中间结果和运行设备500所需要的各种程序。ROM 513可以配置成存储对于设备500的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据和指令。

可选地，设备500还可以包括其他的硬件平台或组件，例如示出的张量处理单元（“TPU”）514、图形处理单元（“GPU”）515、现场可编程门阵列（“FPGA”）516和机器学习单元（“MLU”）517。可以理解的是，尽管在设备500中示出了多种硬件平台或组件，但这里仅仅是示例性的而非限制性的，本领域技术人员可以根据实际需要增加或移除相应的硬件。例如，设备500可以仅包括CPU、相关存储设备和接口设备来实现本申请的基于神经渲染的新视图合成的方法。

在一些实施例中，为了便于数据与外部网络的传递和交互，本申请的设备500还包括通信接口518，从而可以通过该通信接口518连接到局域网/无线局域网（“LAN/WLAN”）505，进而可以通过该LAN/WLAN连接到本地服务器506或连接到因特网（“Internet”）507。替代地或附加地，本申请的设备500还可以通过通信接口518基于无线通信技术直接连接到因特网或蜂窝网络，例如基于第3代（“3G”）、第4代（“4G”）或第5代（“5G”）的无线通信技术。在一些应用场景中，本申请的设备500还可以根据需要访问外部网络的服务器508和数据库509，以便获得各种已知的算法、数据和模块，并且可以远程地存储各种数据，例如用于呈现例如任意场景下的原视图、各种特征、等的各类数据或指令。

设备500的外围设备可以包括显示装置502、输入装置503和数据传输接口504。在一个实施例中，显示装置502可以例如包括一个或多个扬声器和/或一个或多个视觉显示器，其配置用于对本申请的对基于神经网络模型进行渲染合成新视图进行语音提示和/或图像视频显示。输入装置503可以包括例如键盘、鼠标、麦克风、姿势捕捉相机等其他输入按钮或控件，其配置用于接收音频数据的输入和/或用户指令。数据传输接口504可以包括例如串行接口、并行接口或通用串行总线接口（“USB”）、小型计算机系统接口（“SCSI”）、串行ATA、火线（“FireWire”）、PCI Express和高清多媒体接口（“HDMI”）等，其配置用于与其他设备或系统的数据传输和交互。根据本申请的方案，该数据传输接口504可以接收来自于相机采集设备采集的任意场景下的原始图，并且向设备500传送包括任意场景下的原始图或各种其他类型的数据或结果。

本申请的设备500的上述CPU 511、大容量存储器512、ROM 513、TPU 514、GPU 515、FPGA 516、MLU 517和通信接口518可以通过总线519相互连接，并且通过该总线与外围设备实现数据交互。在一个实施例中，通过该总线519，CPU 511可以控制设备500中的其他硬件组件及其外围设备。

以上结合图5描述了可以用于执行本申请的基于神经渲染的新视图合成的设备。需要理解的是这里的设备结构或架构仅仅是示例性的，本申请的实现方式和实现实体并不受其限制，而是可以在不偏离本申请的精神下做出改变。

根据上述结合附图的描述，本领域技术人员也可以理解本申请的实施例还可以通过软件程序来实现。由此本申请还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有基于神经渲染的新视图合成的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，可以用于实现本申请结合附图1所描述的基于神经渲染的新视图合成的方法。

应当注意，尽管在附图中以特定顺序描述了本申请方法的操作，但是这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

应当理解，当本申请的权利要求、当说明书及附图中使用到术语“第一”、“第二”、“第三”和“第四”等时，其仅用于区别不同对象，而不是用于描述特定顺序。本申请的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

虽然本申请的实施方式如上，但所述内容只是为便于理解本申请而采用的实施例，并非用以限定本申请的范围和应用场景。任何本申请所述技术领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于神经渲染的新视图合成的方法，其特征在于，其中所述神经渲染基于神经网络模型实现，所述神经网络模型包括特征提取模块、像素解码模块和Transformer解码模块，并且所述方法包括：

获取待进行合成的原视图；

使用所述特征提取模块对所述原视图执行图像特征提取操作，以获得图像特征；

使用所述像素解码模块对所述图像特征执行像素解码操作，以获得像素特征；

使用所述Transformer解码模块对所述图像特征进行参数解码，并将所述像素特征嵌入参数解码结果中，以获得与合成新视图相关的目标参数；以及

在交叉平面空间中基于所述目标参数进行新视图渲染，以合成新视图。

2.根据权利要求1所述的方法，其特征在于，其中所述特征提取模块为残差网络，所述残差网络和所述像素解码模块均包括多层，并且所述方法还包括：

将所述像素解码模块每层的解码向量与所述残差网络对应层的图像特征相加后进行像素解码操作，以获得所述像素特征。

3. 根据权利要求1所述的方法，其特征在于，其中所述目标参数包括颜色、图像实例、图像类别和平面参数信息，所述Transformer解码模块包括解码器和多个感知层头，并且使用所述Transformer解码模块对所述图像特征进行参数解码，并将所述像素特征嵌入参数解码结果中，以获得与合成新视图相关的目标参数包括：

使用所述解码器对所述图像特征进行参数解码，以获得与所述目标参数对应的多个参数解码结果；以及

将所述像素特征分别嵌入与颜色和图像实例对应的参数解码结果中，并使用所述多个感知层头对应输出所述颜色、所述图像实例、所述图像类别和所述平面参数信息。

4.根据权利要求3所述的方法，其特征在于，其中将所述像素特征分别嵌入与颜色和图像实例对应的参数解码结果中包括：

将所述像素特征分别与颜色和图像实例对应的参数解码结果进行点积操作。

5.根据权利要求3所述的方法，其特征在于，其中所述解码器包括自注意力层、交叉注意力层、前馈网络层，所述每个感知层头包括多层感知机和激活函数或者包括多层感知机和全连接层。

6.根据权利要求5所述的方法，其特征在于，其中所述多个感知层头包括颜色层头、实例层头、类别层头和平面参数层头，并且所述颜色层头和所述实例层头均包括多层感知机和Sigmoid激活函数，以对应输出所述颜色和所述图像实例；所述类别层头包括多层感知机和Softmax激活函数，以对应输出所述图像类别；所述平面参数层头包括多层感知机和全连接层，以对应输出所述平面参数信息。

7. 根据权利要求3所述的方法，其特征在于，其中所述平面参数信息包括法向量和偏移距离，并且在交叉平面空间中基于所述目标参数进行新视图渲染，以合成新视图包括：

根据不同类别的图像实例在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度确定新渲染顺序图片；以及

基于所述新渲染顺序图片的深度计算渲染颜色，以合成所述新视图。

8. 根据权利要求7所述的方法，其特征在于，其中根据不同类别的图像实例在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度确定新渲染顺序图片包括：

根据不同类别的图像实例中的像素点在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度确定像素渲染顺序；以及

基于所述像素渲染顺序重新排列像素点，以获得所述新渲染顺序图片。

9.根据权利要求8所述的方法，其特征在于，其中通过计算不同类别的图像实例中的像素点在由所述法向量和所述偏移距离形成的所述交叉平面空间的深度，其中/>表示所述法向量，/>表示所述偏移距离，/>表示相机内部参数，/>表示不同类别的图像实例中的像素点的二维坐标位置。

10.根据权利要求8所述的方法，其特征在于，其中基于所述新渲染顺序图片的深度计算渲染颜色包括：通过计算所述渲染颜色，其中/>，/>表示交叉平面,/>表示标准平面，/>表示所述新渲染顺序图片的深度，/>表示透明图，表示累计透射率。

11.根据权利要求7所述的方法，其特征在于，还包括：

将渲染后的视图由所述交叉平面空间变换至标准平面空间，以合成最终的新视图。

12.根据权利要求11所述的方法，其特征在于，其中将渲染后的视图由所述交叉平面空间变换至标准平面空间，以合成最终的新视图包括：通过将渲染后的视图由所述交叉平面空间变换至标准平面空间，以合成最终的新视图，其中表示渲染后的视图，[/>]表示最终的新视图，/>表示所述法向量，/>表示所述偏移距离，/>表示相机内部参数，R和t表示经由变换矩阵处理的旋转和平移参数。

13. 根据权利要求3所述的方法，其特征在于，还包括：

将多个场景下的原始图作为训练集输入至所述神经网络模型，并计算与所述颜色和所述图像实例相关的掩码损失和交叉熵损失；以及

根据所述掩码损失和所述交叉熵损失形成的总损失函数训练所述神经网络模型。

14. 一种基于神经渲染的新视图合成的设备，其特征在于，包括：

处理器；以及

存储器，其中存储有基于神经渲染的新视图合成的程序指令，当所述程序指令由所述处理器执行时，使得所述设备实现根据权利要求1-13任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有基于神经渲染的新视图合成的计算机可读指令，该计算机可读指令被一个或多个处理器执行时，实现如权利要求1-13任意一项所述的方法。