CN115797571A

CN115797571A - 3d风格化场景的新视角合成方法

Info

Publication number: CN115797571A
Application number: CN202310054961.XA
Authority: CN
Inventors: 李坤; 王毅; 程敬松
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-03-14
Anticipated expiration: 2043-02-03
Also published as: CN115797571B

Abstract

本发明涉及一种3D风格化场景的新视角合成方法，包括：在随机选取由场景源图像划分的部分子图像后，通过神经辐射场空间编码网络对选取的子图像进行光线采样；通过神经辐射场几何解码网络对光线采样后的子图像进行空间密度构建得到空间密度信息；将相机位姿信息和空间密度信息输入到神经辐射场外观解码网络得到空间颜色信息；通过多模态风格化网络对风格化目标进行预测来调整神经辐射场外观解码网络以使得其得到空间风格化颜色信息；体积渲染空间密度信息和空间风格化颜色信息，得新视角合成的3D隐式风格化场景。本申请基于多模态在风格化目标图像零样本的情形下进行3D场景风格化新视角合成，支持多语义、跨域风格化创作。

Description

3D风格化场景的新视角合成方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种3D风格化场景的新视角合成方法。

背景技术

复杂三维场景重建及内容风格化在3D可视化、建筑景观设计、工业产品设计和影视游戏等领域有着广泛的应用，然而，当风格化目标图像的样本较少甚至是无样本时，是难以进行三维场景风格化处理的。

相关技术中，场景风格化的生成有基于视频的，也有基于神经辐射场进行隐式场景重建，使用图像作为风格参考进行场景的风格化迁移的。

在基于视频的场景风格化生成中，使用图像作为风格参考进行视频的风格化迁移，但视频风格迁移方法主要侧重于解决视频片段的时间一致性，比如说将风格化参考图像应用到视频序列，但是，其不支持任意视角的新视图合成，进而难以对风格化场景进行新视角合成。

在基于神经辐射场进行隐式场景重建，使用图像作为风格参考进行场景的风格化迁移中，尽管其能够发挥新视角合成一致性的优势，但是在风格化目标图像零样本时则无法进行风格化处理，其需要依赖风格化目标图像作为参考进行场景风格迁移。

可见，如何在少样本或零样本的情况下，仍然能够进行场景风格化是本领域亟待解决的技术问题。

发明内容

有鉴于此，本申请实施例为解决背景技术中存在的至少一个问题而提供一种3D风格化场景的新视角合成方法。

本申请实施例提供了一种3D风格化场景的新视角合成方法，所述新视角合成方法包括：

在随机选取由场景源图像网格划分的部分子图像后，通过神经辐射场空间编码网络对选取的所有子图像进行光线采样，得到空间采样点信息；

通过神经辐射场几何解码网络对得到的空间采样点信息进行空间密度构建，得到空间密度信息；

将相机位姿信息和所述空间密度信息输入到神经辐射场外观解码网络，得到空间颜色信息；

通过多模态风格化网络对风格化目标进行风格权重预测，并根据预测结果调整所述神经辐射场外观解码网络，使得所述神经辐射场外观解码网络更新得到空间风格化颜色信息，其中，所述风格化目标包括风格化目标文本和风格化目标图像；

体积渲染所述空间密度信息和所述空间风格化颜色信息，即得新视角合成的3D隐式风格化场景。

结合本申请的第一方面，在一可选实施方式中，随机选取由场景源图像网格划分的部分子图像的具体步骤包括：

根据新视角合成分辨率缩放场景源图像，确定新的源图像尺寸；

根据设定的单次训练采样上限和确定的尺寸，计算得到单张新的源图像的光线采样比例；

等距网格划分新的源图像，得到具有内边距的子图像集合；

将所述光线采样比例作为随机概率，通过随机生成种子数从子图像集合中选取固定数量的子图像。

结合本申请的第一方面，在一可选实施方式中，通过神经辐射场空间编码网络对选取的所有子图像进行光线采样，得到空间采样点信息的具体步骤包括：

在以场景源图像所对应的相机位置为起点，向选取的所有子图像的所有像素发射采样光线之后，沿着每条采样光线进行空间的粗采样；

根据粗采样后的空间密度分布，在密度分布高于设定的密度分布的空间进行精采样；

高维傅里叶变换粗采样后的采样空间点和精采样后的采样空间点，得到场景的空间采样点信息。

结合本申请的第一方面，在一可选实施方式中，通过神经辐射场几何解码网络对得到的空间采样点信息进行空间密度构建，得到空间密度信息的具体步骤包括：

将所有所述空间采样点信息输入到神经辐射场几何解码网络中进行每个空间采样点的密度预测，输出粗层次的空间密度信息和精层次的空间密度信息。

结合本申请的第一方面，在一可选实施方式中，通过多模态风格化网络对风格化目标进行风格权重预测的具体步骤包括：

若风格化目标为风格化目标文本，则通过所述多模态风格化网络中的文本编码器将所述风格化目标文本编码为目标文本潜变量，再通过所述多模态风格化网络中的风格权重预测元模型对所述目标文本潜变量进行风格权重预测；

若风格化目标为风格化目标图像，则通过所述多模态风格化网络中的图像编码器将所述风格化目标图像编码为目标图像潜变量，再通过所述多模态风格化网络中的风格权重预测元模型对所述目标图像潜变量进行风格权重预测。

结合本申请的第一方面，在一可选实施方式中，还包括以下步骤：

若所述多模态风格化网络处于训练阶段，则通过多模态风格化网络损失函数设定的约束损失训练所述多模态风格化网络直至收敛；

其中，所述多模态风格化网络损失函数根据源文本潜变量和目标文本潜变量的跨域方向，以及源图像潜变量和目标图像潜变量的跨域方向确定。

若所述神经辐射场空间编码网络、所述神经辐射场几何解码网络、所述神经辐射场外观解码网络及所述多模态风格化网络均处于训练阶段，则在所述神经辐射场空间编码网络、所述神经辐射场几何解码网络、所述神经辐射场外观解码网络及所述多模态风格化网络训练收敛之前，动态调整所述神经辐射场空间编码网络、所述神经辐射场几何解码网络、所述神经辐射场外观解码网络及所述多模态风格化网络的网络损失函数的权重直至收敛。

本申请实施例所提供的一种3D风格化场景的新视角合成方法，通过神经辐射场技术进行3D风格化隐式重建，兼顾无风格场景源图像的全局特征提取及重建结果多视角一致性；以及基于多模态在风格化目标图像零样本的情形下进行3D场景风格化的新视角合成，支持多语义、跨域的风格化创作。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一实施例提供的一种3D风格化场景的新视角合成方法的流程示意图；

图2为本申请一实施例提供的一种3D风格化场景的新视角合成方法中整个网络的框架示意图；

图3为常规采样的神经辐射场光线采样示意图；

图4为本申请一实施例提供的光线采样的神经辐射场光线采样示意图；

图5为本申请一实施例用于三维重建的场景源图像；

图6为本申请一实施例的源图像在光线采样方法后的结果；

图7为本申请一实施例提供的多模态风格化网络的结构框图；

图8为本申请一实施例在冻结多模态风格化网络时得到的合成图像；

图9为本申请一实施例在解冻多模态风格化网络后，通过风格化目标文本得到的合成图像。

具体实施方式

为使本发明的技术方案和有益效果能够更加明显易懂，下面通过列举具体实施例的方式进行详细说明。其中，附图不一定是按比例绘制的，局部特征可以被放大或缩小，以更加清楚的显示局部特征的细节；除非另有定义，本文所使用的技术和科学术语与本申请所属的技术领域中的技术和科学术语的含义相同。

本申请实施例提供的一种3D风格化场景的新视角合成方法具体可以应用在电子设备中，该电子设备可以是终端或服务器等设备。

如图1至图2所示，本申请实施例提供了一种3D风格化场景的新视角合成方法，所述新视角合成方法包括：

步骤S1：在随机选取由场景源图像网格划分的部分子图像后，通过神经辐射场空间编码网络对选取的所有子图像进行光线采样，得到空间采样点信息；

步骤S2：通过神经辐射场几何解码网络对得到的空间采样点信息进行空间密度构建，得到空间密度信息；

步骤S3：将相机位姿信息和所述空间密度信息输入到神经辐射场外观解码网络，得到空间颜色信息；

步骤S4：通过多模态风格化网络对风格化目标进行风格权重预测，并根据预测结果调整所述神经辐射场外观解码网络，使得所述神经辐射场外观解码网络更新得到空间风格化颜色信息，其中，所述风格化目标包括风格化目标文本和风格化目标图像；

步骤S5：体积渲染所述空间密度信息和所述空间风格化颜色信息，即得新视角合成的3D隐式风格化场景。

在本实施例中，神经辐射场空间编码网络、神经辐射场几何解码网络、神经辐射场外观解码网络和多模态风格化网络协同实现3D隐式风格化场景的新视角合成。

需要说明的是，神经辐射场空间编码网络、神经辐射场几何解码网络和神经辐射场外观解码网络实质是神经辐射场的三个子网络，其中，三个子网络按照任务的不同划分。其中，神经辐射场空间编码网络的任务是基于Nerf神经辐射场技术，将随机采样射线上的每个采样点的空间位置，使用傅里叶函数变换为高维的空间位置编码，以增强网络的输入信息；神经辐射场几何解码网络的任务是基于Nerf神经辐射场技术，使用MLP（多层感知机网络）将空间编码网络编码后的空间位置作为输入，输出隐式3D空间的密度信息；神经辐射场外观解码网络的任务是基于Nerf神经辐射场技术，使用MLP（多层感知机网络），输入隐式3D空间的密度信息，及相机的内外参数信息等，输出隐式3D空间的颜色信息。其中关于神经辐射场技术中涉及到三个上述的子网络的大体任务是本领域技术人员所悉知的，在此不再详细赘述。

首先，对输入到神经辐射场几何解码网络的稀疏的场景源图像先进行网格划分得到多个子图像及随机选取其中的一部分子图像，基于神经辐射场空间编码网络对随机选取的各个子图像进行光线采样得到空间采样点信息，兼顾图像的全局特征提取与重建结果多视角一致性；

其次，将得到的空间采样点信息输入到神经辐射场几何解码网络中，输出场景的空间密度信息；

再次，将相机位姿信息和所述空间密度信息输入到神经辐射场外观解码网络，得到空间颜色信息；需要注意的是，若没有多模态风格化网络对神经辐射场外观解码网络进行风格化处理，则神经辐射场外观解码网络输出的是空间颜色信息，在隐式三维场景重建中，使用神经辐射场Nerf技术可以使用稀疏的场景图片，获得逼真的多视角一致性的三维重建效果，该效果远远优于使用生成对抗网络进行的三维视图合成效果或显式三维重建的效果；若多模态风格化网络对神经辐射场外观解码网络进行了风格化处理，则神经辐射场外观解码网络输出的是空间风格化颜色信息；很显然地，能够根据实际需求确定是否冻结所述多模态风格化网络，进而拓展了三维风格化内容的创作空间和应用领域。

若实际需求为3D隐式风格化场景的新视角合成，则进一步地，将风格化目标输入到多模态风格化网络，该多模态风格化网络对所述风格化目标进行风格权重预测得到预测结果，以使得所述神经辐射场外观解码网络根据预测结果得到风格化调整，输出空间风格化颜色信息；之后，体积渲染所述空间密度信息和所述空间风格化颜色信息，得到各个相机位姿的合成图像，进而得新视角合成的3D隐式风格化场景。

解释来说，相机光线

的预期合成图像颜色

为:

，

进一步地，

，

式中，函数

表示光线从近端

到远端

累计的颜色值，

为光线

上任意点的密度值，

为光线

上任意点在视角d下观察的颜色值，函数

表示光线从

到t沿光线累计的透射率，即射线从

到t传播而不撞击任何其他粒子的概率，空间密度累计

越大，对空间颜色影响越大，但会降低后面区域对颜色的影响。

其中，空间密度信息

可以解释为光线在空间一点x处终止的概率，

为光线的近边界，

为光线的远边界；空间颜色

可以理解为光线在空间x处，从相机视角d观察的风格化颜色信息。

需要说明的是，多模态表征的是多个不同的输入，比如文本输入、图像输入；在风格化目标为风格化目标文本时，即可实现风格化目标图像零样本来对场景源图像进行3D隐式风格化场景的新视角合成。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可选地，随机选取由场景源图像网格划分的部分子图像的具体步骤包括：

等距网格划分新的源图像，得到具有内边距的子图像集合；

示例性地，使用 Tanks and Temples数据集中收集五个真实世界的 3D 场景作为三维重建源图像数据集，即 Family、Francis、Horse、Playground 和 Truck，以及使用开源工具COLMAP SfM来估计3D 场景源图像的相机位姿。

根据风格化新视角合成分辨率，确定三维重建源图像的缩放比例S，得到新的源图像高宽尺寸

；

根据服务器GPU显存容量来设定单次训练采样上限数chunk，由

和采样上限数chunk计算出单张新的源图像的光线采样比例σ；

设置行列参数r、c，对缩放后源图像进行等距的网格划分，将新的源图像划分为具有内边距padding的子图像集合；

将光线采样比例σ作为随机概率，对子图像集合进行采样，其中，需要采样的子图像数量N的一般形式为：

，

需要注意的是，为了确保多进程训练的一致性，固定随机生成种子数seed，使用随机函数从子图像集合中选取N个子图像。

进一步地，所述步骤S1的具体步骤包括：

在本实施例中，在随机选取N个子图像之后，以场景源图像所对应的相机位置为起点，向选取的所有子图像的所有像素发射采样光线，得到多个光线。如图3所示，其为常规采样的神经辐射场光线采样示意图；如图4所示，其为本申请实施例中光线采样的神经辐射场光线采样示意图。

首先，依据光线的始末位置使用近似等距的步长进行重采样，必要时，设置位置扰动，每条光线批量初步采样K个空间采样点，也即粗采样；其次，根据粗采样后d空间采样点的空间密度的分布，重新在密度分布高于设定的密度分布的空间，即密度较高的空间，添加更多的空间采样点，也即精采样，达到由“粗”到“精”的分层采样目的；最后，将分层采样的所有空间采样点的空间位置进行傅里叶编码以得到拟合高频信息数据，即空间采样点信息，其中，空间位置的高维编码函数为：

，

式中，函数γ应用于空间采样点欧式坐标（x，y，z）构成的张量，其中空间采样点的x、y、z坐标值中的每一个坐标值已经被标准化到 [−1,1]，其中，对于空间位置编码γ (X ), 超参数L = 10；对于相机角度编码γ ( D ) , 超参数L = 4 。其中，X=（x，y，z），表示的是空间采样点的空间位置；D表示相机的观测角度，也就是说，X、D为p的实参，p为形参。

如图5所示，其为输入的场景源图像；如图6所示，其为经过改进的光线采样方法得到的光线采样结果。

更进一步地，所述步骤S2的具体步骤包括：

在本实施例中，将所述步骤S1输出的空间采样点信息输入到神经辐射场几何解码网络中，也就是将高维编码的采样点位置输入到一个多层感知机网络，感知机网络对每个空间采样点的密度进行预测，输出粗、精层次的空间密度信息。其中，在所述步骤S1中是分层采样，相应地，在所述步骤S2的密度预测时也会出现分层的空间密度信息，也就是粗层次的空间密度信息和精层次的空间密度信息。

进一步地，在所述步骤S3之中，将相机位姿信息（相机视角）及所述步骤S2得到的粗、精层次的空间密度信息作为组合输入，经过一个128维的多层感知机网络和Relu激活函数处理后，得到场景的空间颜色信息，其中，相机视角也需要进行傅里叶编码转为高频信息以供处理。

作为本申请的一个可选实施例，所述步骤S4的具体步骤包括：

如图7所示，在本实施例中，多模态风格化网络即为场景风格化网络，其包括基于文本-图像对比的多模态预训练元模型C和风格权重预测元模型W。

多模态预训练元模型C的模型训练数据为文本-图像对，即一张图像及其对应的文本描述，其工作原理是通过对比学习的方式学习到文本-图像对的匹配关系。其中，多模态预训练元模型C包括文本编码器和图像编码器；文本编码器用来提取文本的特征，可采用NLP中常用的text transformer模型；图像编码器用来提取图像的特征，可采用CNN模型或者vision transformer模型。

在多模态风格化网络的实施过程中，以风格化目标为风格化目标文本为例，首先，将风格化目标文本作为输入，使用多模态预训练元模型C的文本编码器输出多维文本信息，将多维文本信息期望值作为目标文本潜变量

；其次，将目标文本潜变量

输入风格权重预测元模型W，得到神经辐射场外观解码网络的预测风格化参数。

可选地，还包括以下步骤：

在本实施例中，也就是多模态风格化网络损失函数的构建过程包括：

首先，使用多模态预训练元模型C的文本编码器将源文本编码为源文本潜变量

，并计算其与目标文本潜变量之间的跨域方向

；其中，风格化源文本一般与风格化目标文本成对输入；

其次，使用多模态预训练元模型C的图像编码器将源图像编码为源图像潜变量

，将风格化目标图像编码为目标图像潜变量

，计算源图像潜变量

与目标图像潜变量

之间的跨域方向

；

最后，根据文本潜变量和图像潜变量的跨域方向，综合计算方向平行损失，同时，考虑到文本潜空间与图像潜空间共享一个映射网络，故而还能够保证变量在潜空间中对齐，其中，方向平行损失的损失函数

为：

，

式中，

，

是源文本潜变量与目标文本潜变量之间的跨域方向，

，

是源图像潜变量与目标图像潜变量之间的跨域方向。

在多模态风格化网络的训练中，场景源图像和目标图像编码后嵌入到多模态预训练元模型C的潜空间中，通过约束损失使得向量

和向量

平行，从而使得源场景向风格化目标收敛。

更进一步地，还包括以下步骤：

在本实施例中，为了使得整个网络得到快速收敛，其中，整个网络指代的是所述神经辐射场空间编码网络、所述神经辐射场几何解码网络、所述神经辐射场外观解码网络及所述多模态风格化网络，在整个网络训练时，还给神经辐射场空间编码网络、神经辐射场几何解码网络、神经辐射场外观解码网络和多模态风格化网络四个网络的损失函数按照权重比例进行分配，以进行网络训练。

网络训练主要分为两个阶段，一个是几何训练阶段，另一个是风格化训练阶段。

在几何训练阶段，其网络损失函数项为：

，

式中，

是合成像素与真值像素之间的平方误差，其中，R为单次训练的光线集合，

为源图像真值像素，

为粗精度合成图像素，

细精度合成图像素。

在风格化训练阶段，其网络损失函数项为：

，

式中，

是合成图像与源图像真值之间的内容损失，其中，

是使用ImageNet数据集预训练的VGG-19网络中relu41层的特征表示，

、

分别是使用源图像真值和合成图像真值。

那么，整个网络最终的损失函数

定义为：

，

式中，

、

、

依次是网络像素损失、网络内容损失、方向平行损失，

、

依次是网络内容损失的权重系数、方向平行损失的权重系数。在整个网络训练过程中，需要不断调节

、

使得网络效果最优。

在整个网络训练的训练中，其分为几何训练阶段和风格化训练阶段。同时，在整个网络损失函数中添加了合成图像与源图像真值的像素一致性约束、合成图像与源图像真值的特征内容约束、合成图像与风格化目标之间的方向平行约束。

在几何训练阶段，通过神经辐射场空间编码网络、神经辐射场几何解码网络、神经辐射场外观解码网络从一组稀疏场景源图像中重建3D隐式场景；如图8所示，其为冻结多模态风格化网络，经体积渲染后获得的合成图像，其中，该合成图像基本保持了3D隐式场景空间一致性特征，且没有经过风格化处理。

在风格化训练阶段，固定神经辐射场空间编码网络、神经辐射场几何解码网络、神经辐射场外观解码网络；多模态风格化网络学习风格迁移能力，其根据输入的风格目标生成潜变量，再通过潜变量优化风格权重预测元模型W，输出参数w；如图9所示，其为解冻多模态风格化网络，将风格化目标文本输入风格化网络，让风格权重预测元模型控制外观解码网络的空间颜色，得到的由目标风格文本语义定义的新视角合成图像，其中，该合成图像基本保持了3D隐式场景空间一致性特征，并经过了风格化处理。

经过两训练阶段后，使用参数w改变神经辐射场外观解码网络的风格化参数，通过神经辐射场外观解码网络对场景的空间颜色c进行风格化处理。

具体来说，在几何训练阶段，网络进行了250000次迭代训练，设置光线随机采样概率为0.5；在风格化训练阶段，多模态风格化网络被训练了100000次。在两个训练阶段都使用Adam优化器，学习率分别设置为0.0005和0.001。

其中，前向传播阶段的步骤包括：

在几何训练阶段：首先，将场景源图像及对应场景相机位姿信息输入Nerf空间编码网络，得到空间采样点信息；其次，将空间采样点信息输入Nerf几何解码网络进行空间密度的构建，得到粗、精层次的空间密度信息；再次，将空间密度信息、相机位姿信息输入到Nerf外观解码网络进行空间颜色的构建，输出粗、精层次的空间颜色信息；最后，将粗、精层次的空间密度信息、空间颜色信息输入到体积渲染网络，输出粗、精两种精度的合成结果。

在风格化训练阶段：首先，将几何训练相关网络参数冻结；其次，使用多模态风格化网络中的文本编码器将风格化目标文本信息进行编码，输出目标文本潜变量；然后，将目标文本潜变量输入风格权重预测元模型得到输出参数w，使用参数w对Nerf外观解码网络的参数进行控制，并对空间颜色进行风格化处理；最终，通过体积渲染网络输出风格化后的合成图像。

其中，反向传播阶段的步骤包括：

首先，网络误差反向传播，调整各网络权重参数，检查训练集所有样本是否都参与了训练；其次，检查Nerf几何解码网络、Nerf外观解码网络是否能产生与场景真值图像内容一致的精度，以及使用不同相机位姿产生多角度视图一致性的合成图像；再次，检查网络的总误差是否达到精度E_i，若误差小于精度E_i且训练精度平稳，则结束训练，如误差大于精度E_i或处于震荡，则调整网络超参数，并按极小化网络误差的方法反向传播调整各网络权重及偏差。

验证性地，测试所输入的风格化目标文本是多个内容描述或风格描述的词语组合，得到的新视角合成图像真值和网络风格化合成后的图像也能够表明支持多语义跨域的3D新视角合成。以及，本申请实施例也支持对无风格或内容实例的联想式3D内容创作。

本申请实施例还提供了一种3D风格化场景的新视角合成装置，所述新视角合成装置包括：

神经辐射场空间编码网络，其被配置为在随机选取由场景源图像网格划分的部分子图像后，对选取的所有子图像进行光线采样，得到空间采样点信息；

神经辐射场几何解码网络，其被配置为对得到的空间采样点信息进行空间密度构建，得到空间密度信息；

神经辐射场外观解码网络，其被配置为根据相机位姿信息和所述空间密度信息，得到空间颜色信息；

多模态风格化网络，其被配置为对风格化目标进行风格权重预测，并根据预测结果调整所述神经辐射场外观解码网络，使得所述神经辐射场外观解码网络更新得到空间风格化颜色信息，其中，所述风格化目标包括风格化目标文本和风格化目标图像；

体积渲染网络，其被配置为体积渲染所述空间密度信息和所述空间风格化颜色信息，即得新视角合成的3D隐式风格化场景。

进一步地，所述神经辐射场空间编码网络被配置为：

更进一步地，所述神经辐射场几何解码网络被具体配置为：

进一步地，在所述神经辐射场外观解码网络中，其包括128维的多层感知机网络和Relu激活函数。将相机位姿信息（相机视角）及所述步骤S2得到的粗、精层次的空间密度信息作为组合输入，经过一个128维的多层感知机网络和Relu激活函数处理后，得到场景的空间颜色信息，其中，相机视角也需要进行傅里叶编码转为高频信息以供处理。

作为本申请的一个可选实施例，所述多模态风格化网络包括文本编码器和图像编码器；

所述文本编码器被配置为将所述风格化目标文本编码为目标文本潜变量，再通过所述多模态风格化网络中的风格权重预测元模型对所述目标文本潜变量进行风格权重预测；

所述图像编码器被配置为将所述风格化目标图像编码为目标图像潜变量，再通过所述多模态风格化网络中的风格权重预测元模型对所述目标图像潜变量进行风格权重预测。

在本实施例中，多模态风格化网络即为场景风格化网络，其包括基于文本-图像对比的多模态预训练元模型C和风格权重预测元模型W。

；其次，将目标文本潜变量

本申请实施例还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储计算机可执行指令的存储器；

所述处理器，用于执行所述计算机可执行指令，以实现上述任一实施例所述的3D风格化场景的新视角合成方法。

处理器可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行程序指令，以实现上文的本申请的各个实施例的3D风格化场景的新视角合成方法中的步骤以及/或者其他期望的功能。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构互连。

此外，输入装置还可以包括例如键盘、鼠标、麦克风等等。输出装置可以向外部输出各种信息，例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有指令，当所述指令由电子设备的处理器执行时，使得所述电子设备能够执行上述任一实施例所述的3D风格化场景的新视角合成方法。

本申请实施例可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本申请的各个方面的计算机可读程序指令。计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本申请的各个方面。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。计算机可读存储介质是可以保持和存储由指令执行设备使用的指令的有形设备。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

这里参照根据本申请实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

需要说明的是，本申请实施例提供的一种3D风格化场景的新视角合成方法实施例、3D风格化场景的新视角合成装置实施例、电子设备实施例和计算机可读存储介质实施例属于同一构思；各实施例所记载的技术方案中各技术特征之间，在不冲突的情况下，可以任意组合。

应当理解，以上实施例均为示例性的，不用于包含权利要求所包含的所有可能的实施方式。在不脱离本公开的范围的情况下，还可以做出各种变形和改变。同样的，也可以对以上实施例的各个技术特征进行任意组合，以形成可能没有被明确描述的本发明的另外的实施例。因此，上述实施例仅表达了本发明的几种实施方式，不对本发明专利的保护范围进行限制。

Claims

1.一种3D风格化场景的新视角合成方法，其特征在于，所述新视角合成方法包括：

2.根据权利要求1所述的3D风格化场景的新视角合成方法，其特征在于，随机选取由场景源图像网格划分的部分子图像的具体步骤包括：

等距网格划分新的源图像，得到具有内边距的子图像集合；

3.根据权利要求1所述的3D风格化场景的新视角合成方法，其特征在于，通过神经辐射场空间编码网络对选取的所有子图像进行光线采样，得到空间采样点信息的具体步骤包括：

4.根据权利要求3所述的3D风格化场景的新视角合成方法，其特征在于，通过神经辐射场几何解码网络对得到的空间采样点信息进行空间密度构建，得到空间密度信息的具体步骤包括：

5.根据权利要求1所述的3D风格化场景的新视角合成方法，其特征在于，通过多模态风格化网络对风格化目标进行风格权重预测的具体步骤包括：

6.根据权利要求5所述的3D风格化场景的新视角合成方法，其特征在于，还包括以下步骤：

7.根据权利要求6所述的3D风格化场景的新视角合成方法，其特征在于，还包括以下步骤：