CN116563459A

CN116563459A - 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法

Info

Publication number: CN116563459A
Application number: CN202310392198.1A
Authority: CN
Inventors: 邹征夏; 林柏宏; 武永昌; 杨晶莹; 于治平; 孟亚鹏; 史振威
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-04-13
Filing date: 2023-04-13
Publication date: 2023-08-08

Abstract

本发明涉及一种文本驱动的沉浸式大场景神经渲染与混合增强方法，该方法包含：一、制作数据集；二、基于改进的渐进式神经辐射场重建大场景；三、基于卷积神经网络预测渲染图像的前景与背景哑光值；四、利用稳定扩散模型由文本生成背景；五、通过相邻帧之间相机参数变化计算背景运动；六；将渲染前景与背景融合并进行光照协调。本发明实现了由实时文本驱动的可编辑大场景背景增强，允许对城市尺度的沉浸式大场景任意观测位置进行渲染，生成效果与真实场景一致的观测图像，并在此基础上进行混合现实，可以满足使用者对场景的个性化定制，获得影视特效级别的视觉效果。该技术可以应用于三维可视化、数字地图以及虚拟现实游戏等领域。

Description

一种文本驱动的沉浸式开放场景神经渲染与混合增强方法

技术领域

本发明涉及一种沉浸式开放场景与混合增强方法，属于计算机视觉领域。

背景技术

(1)三维场景新视角合成(Novel View Synthesis of 3D Scene)指在给定多张图像和相机位置的情况下，从未被观察到的角度合成场景图像。该技术可分为两个阶段：第一阶段从多视图图像中恢复三维几何形状，第二阶段则根据给定的视点合成图像。

三维场景新视角合成技术面临的主要是三维场景的表征质量问题。三维场景的表征质量对生成新视角的图像质量至关重要，现有的三维场景表示方法包括显式表征和隐式表征，各类表征方法对数据集要求较高，仅能在特定的场景下使用，应用范围较窄。

目前，实现三维场景新视角合成的方式主要有三种，基于网格的新视角合成、基于学习的新视角合成、基于多层感知机(Multilayer perceptron，MLP)和神经辐射场(Neuralradiance field，NERF)方法的新视角合成。

基于点云的新视角合成，技术原理是通过记录空间中三维物体表面的一些离散点，重建出物体的三维模型，再通过不同视角下的透视变换来推测出新视角下物体的图像。这类方法由于记录离散三维结构，因此当重建场景较大、分辨率要求较高时，对硬件的内存要求会产生几何量级的增加。

基于学习的新视角合成，技术原理是从一组带有位置的图像预测每个体素格中的三维特征嵌入。采用可微分渲染来复现对应已知视图的图像。这类方法生成的图像需要对网格进行优化，但是需要初始化的模板网格很难获取。此外，这些方法生成的图像会在被遮挡区域后面产生严重的伪影。

基于深度学习的新视角合成，近年来受到学术界的广泛关注。通过使用多层感知机利用输入的5D向量(3D坐标和2D视图方向)查询空间中对应点的透明度和颜色值，神经辐射场(Neural radiance field)方法在视角合成方面也具有极大的优越性，但仍然只对具有实际深度值的前景具有较好的训练效果，并需要场景中心经纬度、场景内建筑尺寸等信息。

(2)混合现实技术(Mixed reality)是一种将虚拟信息和真实世界巧妙融合的技术，在电影制作、虚拟现实游戏等领域得到了广泛应用。背景增强技术主要应用于天空背景增强。目前，实现天空背景增强的方式主要有两种，基于人工后期制作的方法、基于视觉的图像分割与匹配方法。

基于人工后期制作的方法，主要应用于专业影视和游戏特效的制作，但手动替换视频中的天空区域往往费时费力，甚至需要专业的后处理技术。处理过程通常包括逐帧的蓝屏匹配和背景运动捕捉。即使在专业软件的帮助下，用户也可能会在几秒的视频中使用几小时进行编辑处理。移动设备，实时进行天空背景的分割与图像融合，但该方法需要特定相机和陀螺仪等设备，并且无法有效处理相机平移时的背景增强。

基于视觉的图像分割与匹配方法，首先使用卷积神经网络，通过像素级预测天空哑光将图像平滑地匹配出前景和背景部分。再使用带有金字塔的迭代卢卡斯方法来计算光流，通过逐帧跟踪天空背景上的特征点来估算背景的运动。最后，将仿射后的背景图像与前景进行融合。但由于该方法对背景特征点的依赖性，因此无法对纯色背景(例如晴天或黑夜)的场景进行增强。

本发明提出了一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，解决了三维场景新视角合成的三维场景表征质量问题和背景增强技术普适性低的问题，同时仅需输入背景特征的文字描述，本方法即可自动基于用户的描述生成沉浸式增强场景，并可对场景进行自主编辑。本发明利用渐进式神经辐射场模型对场景进行三维重建与新视角合成，得到场景边缘清晰、纹理细节丰富的重建图像，提高了三维场景表征的质量。本发明利用相机位姿坐标对重建场景背景进行增强，该方法可以实时估计背景图像的仿射变化从而与渲染的每一帧前景图像匹配，可对纯色背景进行增强，普适性高、背景增强效果好。本发明利用稳定扩散模型生成背景，能够基于用户输入的背景特征描述生成沉浸式场景，满足了用户个性化需求。

发明内容

1、目的：本发明旨在提供一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，以实现实时文本驱动的场景背景增强。允许在城市尺度的场景中任意观测位置进行渲染。并进一步结合混合现实，为使用者提供个性化场景定制，获得影视特效级别的视觉效果。该发明不仅大大缩减了传统3D建模和影视特效制作等行业的工作量，而且使非专业人士也能轻松编辑制作个性化的混合现实场景。该发明丰富并完善了基于深度学习的场景渲染与增强方法，可以应用于三维可视化、数字地图以及虚拟现实游戏等领域。

2、技术方案：本发明是通过以下技术方案实现的：

本发明是一种基于渐进式神经辐射场对场景神经渲染以及文本驱动实现混合增强的技术，分为五个步骤：基于改进的渐进式神经辐射场重建场景、基于卷积神经网络预测渲染图像的前景与背景哑光值、利用稳定扩散模型由文本生成背景、通过相邻帧之间相机参数变化计算背景运动、将渲染前景与背景融合并进行光照协调。

步骤一：基于改进的渐进式神经辐射场重建场景

本发明以渐进的方式建立和训练渐进式神经辐射场模型，从大尺度的数据开始逐步训练，使神经辐射场的不同网络层(具体结构如图1)之间具有明确的工作划分，并随着训练阶段的增加逐步增加空间位置编码的维度，以更小的输入参数量充分利用位置编码中全频带的信息。

本发明将每个待训练的场景分为L个尺度，两个尺度中相邻像素对应世界坐标中的距离约为2倍关系。训练过程中，神经辐射场的输入参数从最远的视角(L＝1)中的图像数据开始。远距离的视角通常呈现出相对简单的纹理细节，因此可以采用一个浅层的多层感知机作为基础块随着训练的进行，每个新的训练阶段会加入一个更接近的视角(L+1)，同时，上一阶段的数据仍会被继续训练。随着训练集的扩大，神经辐射场模型引入残差块以捕获场景组件中不断增加的复杂细节，残差块的设计使得其中的中间层集中于学习较大尺度训练阶段缺失的细节，并利用跳跃连接的方法提供高频空间特征。在整个训练过程中，网络中基础块和所有增加的残差快都保持可训练状态。

本发明采用多层次监督策略保证所有尺度的渲染质量一致。在训练的第L阶段，基础块与各残差块叠加后的输出由L前所有尺度的图像联合监督，即I_l≤L。阶段L的损失汇总在从H₁到H_L的所有输出头上：

式中，R_l为第l尺度的数据集，r为数据集中像素坐标，分别为图像像素的真值和相应预测的像素值(RGB)。

本发明采用的多层次监督策略将不同的细节层次统一成一个单一的模型，可以用L进行控制。

步骤二：基于卷积神经网络预测渲染图像的前景与背景哑光值

在步骤一中，本发明完成对场景的重建，通过预设观测相机的轨迹，可以得到新视角下的渲染图像。

本发明利用卷积神经网络(Convolution neural network，CNN)精确提取步骤一中渲染所得的图像，在像素级回归框架下预测天空哑光值，进而分离出图像的背景区域(天空等可视为无穷远的区域)和前景区域(除背景外的区域)，该框架产生粗尺度的天空哑光，再利用导向滤波进行精细哑光预测。该卷积神经网络由一个分割编码器E、一个掩模预测解码器D和一个导向滤波模块组成。

分割编码器使用与残差网络(Residual network，Resnet)思想相同的卷积架构，学习下采样输入图像的中间特征表示。掩模预测解码器使用具有几个卷积层的上采样网络，用来预测一个粗糙的天空哑光。导向滤波模块利用粗糙的天空哑光和原输入图像生成精细化的天空哑光。由于天空区域通常出现在图像的上方，本发明在编码器的输入层和解码器的所有上采样层都使用坐标卷积层。

假设I和I_l表示一个具有全分辨率的输入图像及其降采样后的图像，网络f＝{E，D}的输入为I_l，输出为与I_l尺寸相同的天空哑光图。假设A_l＝f(I_l)和表示天空哑光的预测和真值。本发明通过训练网络使得天空哑光的预测值和真值误差最小，定义损失函数如下：

式中，其中为二范数，N_l是图像中的像素数，D_l是下采样后的图像数据集。

在导向滤波模块，本发明使用全分辨率图像I作为引导图像，该图像在计算机中通过红绿蓝(RGB)三通道存储，为获得更好的针对天空的颜色对比度，本发明只保留蓝色通道。滤波将引导图像的结构转移到低分辨率的天空哑光上，并产生比卷积神经网络的输出更精确的结果。细化后预测的全分辨率天空哑光可以表示为：

式中，其中f_gf和h是导向滤波和双线性上采样操作。r和∈是引导滤波器的预定义半径和正则化系数。

步骤三：利用稳定扩散模型由文本生成背景

生成模型的发展使得对图像的直接生成成为可能，在众多模型中，概率扩散模型通过使用UNct网络骨架使得其具有更强的生成能力且适用于类图像数据偏差的归纳。

本发明利用公开预训练的概率扩散模型SD2.1-v，实现由输入提示标签准确生成背景图像的工作。为使用户在使用过程中能够稳定生成高质量的背景增强图像，本发明在用户输入的提示标签基础上额外加入“背景”、“远处场景”、“无地面”，引导模型生成效果更好的背景图像。

步骤四：通过相邻帧之间相机参数变化计算背景运动

在步骤四中，本发明完成了对背景图像的生成。考虑到场景是在输入相机位姿后渲染生成的，本发明借助在多张渲染图像中每一帧相机位姿的变化估算背景的运动，以匹配前景的视角变化。

假设背景处在无穷远处，则背景只有3自由度的平面刚性运动，因此其仿射矩阵可由来表示：

其中u_curr、v_curr为当前帧像素的横纵坐标；u_pre、v_pre为前一帧像素的横纵坐标。

假设相邻两帧相机从相机坐标系到世界坐标系的变换矩阵分别为C2W_pre、C2W_curr，则可计算出前一帧到后一帧的变换矩阵：

式中，为两相机之间变换的旋转矩阵，/>为两相机之间变换的平移矢量。于是可计算出相邻两帧像素坐标的变换关系：

其中，K为相机的内参矩阵，n为z轴方向的单位矢量，z为背景平面到相机的距离。当z→∞时，变换关系可简化为：

于是可解出：

M＝K^-1(R^-1)^TK[：2，：]

在获得每个相邻帧的仿射矩阵Mi后，渲染图像中初始帧和第t帧之间的仿射矩阵M(t)可以写成以下矩阵乘法形式：

其中M_c为第一帧中从原背景图像中心裁剪的变换矩阵。因此将背景图像像素坐标左乘仿射矩阵M(t)，再利用双线性插值即可得到第t帧中待融合的背景图像。

步骤五：将渲染前景与背景融合并进行光照协调

经过上述步骤，本发明完成了对渲染图像前景区域和背景区域的提取、背景图像的生成，并预测了天空哑光值。本发明基于图像匹配方程并基于修正，将前景图像和背景图像融合。

利用图像匹配方程，天空哑光值输出像素值越高，表示像素属于天空的背景概率越高，则第t帧融合图像Y(t)可表示为：

Y(t)＝I(t)·(1-A(t))+B(t)·A(t)

式中，I(t)为第t帧前景图像，A(t)为预测天空哑光值，B(t)为待融合的背景图像。

本发明利用光照协调的思路，将背景的色调和亮度赋予前景，使前景图像和背景图像的色调和亮度协调一致，修正公式如下：

I′(t)＝I(t)+α(μ_B(A＝1)(t)-μ_I(A＝0)(t))，

I_new(t)＝β(I′(t)+μ_I(t)-μ′_I(t))

其中μ_I(t)、μ′_I(t)分别为I(t)和I′(t)的亮度均值，μ_B(A＝1)(t)、μ_I(A＝0)(t)分别为背景在原图像哑光预测值为1处的平均亮度和原图像前景的平均亮度。α、β为两可调参数，物理意义分别为原图像前景亮度的比重以及背景亮度对前景的影响比重。I′(t)、I_new(t)分别为光照协调过程的中间变量与最终输出图像。

3、优点及功效：

本发明是一种文本驱动的沉浸式场景渲染与混合增强方法，优点是：本发明优化了渐进式神经辐射场中数据处理和光线渲染的计算过程，仅需输入同一场景的多张图像及其对应的相机参数，即可让网络生成该场景中任一位置下的新视角前景图像，具有应用场景广、模型训练复杂度低的优点。本发明通过相机位姿信息直接估算背景的运动，能够对纯色背景的场景进行增强，具有方法普适性高的优点。本发明将前景图像和背景图像进行光照协调，使前景与背景的色调和亮度协调匹配，具有生成效果真实的优点。

附图说明

图1本发明设计的多层感知机结构图。

图2数据集多尺度联合渐进式训练示意图。

图3背景增强技术流程图。

图4文本驱动生成图像。

具体实施方式

为了更好地理解本发明的技术方案，以下结合附图对本发明的实施方式作进一步描述：

本发明在PyTorch框架下，使用Python语言编程实现。首先完成渐进式神经辐射场模型以及背景分割卷积网络的构建，并设置相关超参数；再读入预处理后的数据集对神经辐射场和卷积神经网络进行迭代优化。

计算机配置采用Intel(R)Core(TM)i5-10300H处理器，主频2.50GHz，内存16GB，显卡是NVIDIA GeForce GTX 1650，显存为4.0GB。

该文本驱动的沉浸式场景渲染与混合增强方法包括如下步骤：

步骤一：制作数据集

本发明的数据集包括国内经典场景的2D图像和对应的相机内外参数组。数据集部分可能的场景样例信息如表1所示。具体相机参数储存格式为：针对每一帧图像，取4×4的外参数矩阵前三行，并在每一行最后位置分别加入图像宽度、图像高度、相机焦距，再将15个数值按行存入.json文件中。

本发明通过不同数据来源渠道进行了数据集的构建。对于国外场景，利用谷歌地球(GoogleEarth Studio)获取3D图像以及虚拟相机坐标；对于国内场景，通过Youtube、Bilibili流媒体平台获取无人机航拍视频，并通过捕捉不同帧的特征点进行多视图重建，进而估计每一帧相机的外参。

表1：数据集场景与重建指标

步骤二：基于改进的渐进式神经辐射场重建场景

本发明以渐进的方式建立和训练模型，从大尺度的数据开始逐步训练，使不同网络层之间具有明确的工作划分，并随着训练阶段的增加逐步增加空间位置编码的维度，以更小的输入充分利用位置编码中全频带的信息。

本发明将每个待训练的场景分为L个尺度，两个尺度中相邻像素对应世界坐标中的距离为2倍关系。训练开始时，模型从最远的视角(L＝1)开始。远距离的视角通常呈现出相对简单的纹理细节，因此可以采用一个浅层的多层感知机作为基础块，其具有4个隐藏层，每个层具有W＝256个隐藏单元，以适应最远的尺度I_l＝1。随着训练的进行，每个新的训练阶段会加入一个更接近的视角(L+1)，同时，上一阶段的数据仍会被继续训练。随着训练集的扩大，模型引入残差块以捕获场景组件中不断增加的复杂细节，残差块的设计使得其中的中间层集中于学习较大尺度训练阶段缺失的细节，并利用跳跃连接的方法提供高频空间特征。在整个训练过程中，网络中的所有层都保持可训练状态。

以L＝2为例的多层感知机网络模型如图1所示，输入向量中，γ(x)为三维位置坐标的空间位置编码，γ(d)为二维方向坐标的空间位置编码。在隐藏层中，数字表示通过该层后的输出向量维度。最终输出预测值为L1网络训练的基本输出和L2得到的残差网络相加。

本发明采用多层次监督保证所有尺度的渲染质量一致。在训练的第L阶段，基础块与各残差块叠加后的输出由L前所有尺度的图像联合监督，即I_l<＝L。阶段L的损失汇总在从H₁到H_L的所有输出头上：

式中，其中C(r)，C^(r)是图像像素的真值和相应预测的RGB值。

本发明采用的多层次监督策略将不同的细节层次统一成一个单一的模型，可以用L进行控制，尺度示意图如图2所示。

在步骤二中，本发明完成对场景的重建，通过设置观测相机的轨迹，本发明可以得到新视角下的混合现实图像，流程图如图3所示，可将全过程分为前景提取模块、背景运动计算模块、文本驱动生成模块、实时渲染增强模块。

步骤三：基于卷积神经网络预测渲染图像的前景与背景哑光值

在前景提取模块中，利用卷积神经网络精确提取前景，在像素级回归框架下预测天空哑光值，该框架产生粗尺度的天空哑光，再利用导向滤波进行精细哑光预测。该方法由一个分割编码器网络E、一个掩模预测解码器网络D和一个导向滤波模块组成。

表2所示为分割编码器网络与掩模预测解码器网络D的结构，分割编码器使用与残差网络思想相同的卷积架构，学习下采样输入图像的中间特征表示；掩模预测解码器使用具有卷积层的上采样网络，用来预测一个粗糙的天空哑光。导向滤波模块利用粗糙的天空哑光和原输入图像生成精细化的天空哑光。由于天空区域通常出现在图像的上方，本发明在分割编码器的输入层和掩模预测解码器的所有上采样层都使用坐标卷积层，及在原卷积层的基础上后两个通道中加入图像的横纵坐标。

表2：网络配置参数，其中CoordConv代表坐标卷积层，激活函数为ReLU；BN代表批处理归一化，UP代表双线性上采样，Pool代表最大池化。

假设I和I_l表示一个具有全分辨率的输入图像及其64倍降采样后的图像，网络f＝{E,D}的输入为I_l，输出为I_l尺寸相同的天空哑光图。假设A_l＝f(I_l)和表示天空哑光的预测和真值。本发明通过训练网络使得天空哑光的预测值和真值误差最小，定义损失函数如下：

式中，其中为二范数的平方，N_l是图像中的像素数，D_l是下采样后的图像数据集。

在导向滤波模块，本发明使用全分辨率图像I作为引导图像，只保留RGB三通道中的蓝色通道，获得更好的针对天空的颜色对比度。滤波将引导图像的结构转移到低分辨率的天空哑光上，并产生比CNN的输出更精确的结果。细化后预测的全分辨率天空哑光可以表示为：

步骤四：利用稳定扩散模型由文本生成背景

在本发明的文本驱动生成模块中，利用预训练的稳定扩散模型SD2.1-v(已经公开的具由文本有生成精确图像能力的稳定模型)，实现由输入文本生成背景图像的工作。指定输入图片尺寸(长为1080，宽为1920)，并输入提示标签，具体示例由图4(a)至(f)所示，图注即为输入的提示标签词。本发明在每次输入提示标签后默认加入“背景”、“远处场景”、“无地面”三个提示词，引导模型生成效果更好的背景图片。

步骤五：通过相邻帧之间相机参数变化计算背景运动

在步骤四中，本发明完成了对背景图像的生成。背景运动计算模块中，本发明首先假设了背景在无穷远处，进而利用相机位姿的变化计算背景的运动，以匹配前景的视角变化。

于是可解出：

M＝K^-1(R^-1)^TK[：2，：]

在获得每个相邻帧的仿射矩阵M_i后，视频中初始帧和第t帧之间的仿射矩阵M(t)可以写成以下矩阵乘法形式：

其中Mc为第一帧中从原背景图像中心裁剪的变换矩阵。因此将背景图像像素坐标左乘仿射矩阵M(t)，再利用双线性插值即可得到第t帧中待融合的背景图像。

步骤六：将渲染前景与背景融合并进行光照协调

经过上述步骤，本发明完成了对前景图像的神经渲染、对背景图像的文本驱动生成，并基于含有空间坐标编码的卷积神经网络预测了天空哑光值。在实时渲染增强模块中，本发明基于图像匹配方程，将前景图像和背景图像融合，实现了混合现实效果。

r(t)＝I(t)·(1-A(t))+B(t)·A(t)

I′(t)＝I(t)+α(μ_B(A＝1)(t)-μ_I(A＝0)(t))，

I_new(t)＝β(I′(t)+μ_I(t)-μ′_I(t))

其中μ_I(t)、μ′_I(t)分别为I(t)和I′(t)的亮度均值，μ_B(A＝1)(t)、μ_I(A＝0)(t)分别为背景在原图像哑光预测值为1处的平均亮度和原图像前景的平均亮度。α、β为两可调参数，物理意义分别为原图像前景亮度的比重以及背景亮度对前景的影响比重。在前景与背景亮度接近时，α、β可各取0.5。

Claims

1.一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：包括如下步骤：

步骤一：基于改进的渐进式神经辐射场重建场景

以渐进的方式建立和训练渐进式神经辐射场模型，从大尺度的数据开始逐步训练，使神经辐射场的不同网络层之间具有明确的工作划分，并随着训练阶段的增加逐步增加空间位置编码的维度，输入参数量充分利用位置编码中全频带的信息；

在步骤一中，完成对场景的重建，通过预设观测相机的轨迹，得到新视角下的渲染图像；利用卷积神经网络提取步骤一中渲染所得的图像，在像素级回归框架下预测天空哑光值，进而分离出图像的背景区域即无穷远的区域和前景区域即除背景外的区域，框架产生粗尺度的天空哑光，再利用导向滤波进行精细哑光预测；该卷积神经网络由一个分割编码器E、一个掩模预测解码器D和一个导向滤波模块组成；

步骤三：利用稳定扩散模型由文本生成背景

利用公开预训练的概率扩散模型SD2.1-v，实现由输入提示标签准确生成背景图像的工作；在用户输入的提示标签基础上额外加入“背景”、“远处场景”、“无地面”，引导模型生成效果更好的背景图像；

步骤四：通过相邻帧之间相机参数变化计算背景运动

在步骤四中，完成对背景图像的生成；考虑到场景是在输入相机位姿后渲染生成的，借助在多张渲染图像中每一帧相机位姿的变化估算背景的运动，以匹配前景的视角变化；

步骤五：将渲染前景与背景融合并进行光照协调

经过上述步骤1-4，完成了对渲染图像前景区域和背景区域的提取、背景图像的生成，并预测了天空哑光值；基于图像匹配方程并基于修正，将前景图像和背景图像融合。

2.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：在步骤一中，将每个待训练的场景分为个尺度，两个尺度中相邻像素对应世界坐标中的距离为2倍关系；训练过程中，神经辐射场的输入参数从最远的视角中的图像数据开始；远距离的视角呈现出相对简单的纹理细节，采用一个浅层的多层感知机作为基础块随着训练的进行，每个新的训练阶段会加入一个更接近的视角L+1，同时，上一阶段的数据仍会被继续训练；随着训练集的扩大，神经辐射场模型引入残差块以捕获场景组件中不断增加的复杂细节，残差块的设计使得其中的中间层集中于学习的大尺度训练阶段缺失的细节，并利用跳跃连接的方法提供高频空间特征；在整个训练过程中，网络中基础块和所有增加的残差快都保持可训练状态。

3.根据权利要求1或2所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：采用多层次监督策略保证所有尺度的渲染质量一致；在训练的第L阶段，基础块与各残差块叠加后的输出由L前所有尺度的图像联合监督，即I_l≤L；阶段L的损失汇总在从H₁到H_L的所有输出头上：

式中，R_l为第l尺度的数据集，r为数据集中像素坐标，C(r)，分别为图像像素的真值和相应预测的像素值RGB。

4.根据权利要求3所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：采用的多层次监督策略将不同的细节层次统一成一个单一的模型，用L进行控制。

5.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：在步骤二中，分割编码器使用与残差网络思想相同的卷积架构，学习下采样输入图像的中间特征表示；掩模预测解码器使用具有几个卷积层的上采样网络，用来预测一个粗糙的天空哑光；导向滤波模块利用粗糙的天空哑光和原输入图像生成精细化的天空哑光；在编码器的输入层和解码器的所有上采样层都使用坐标卷积层。

6.根据权利要求1或5所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在^于：设I和I_l表示一个具有全分辨率的输入图像及其降采样后的图像，网络f＝{E，D}的输入为I_l，输出为与I_l尺寸相同的天空哑光图；假设A_l＝f(I_l)和表示天空哑光的预测和真值；通过训练网络使得天空哑光的预测值和真值误差最小，定义损失函数如下：

7.根据权利要求6所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：在导向滤波模块，使用全分辨率图像I作为引导图像，该图像在计算机中通过红绿蓝RGB三通道存储，这里只保留蓝色通道；滤波将引导图像的结构转移到低分辨率的天空哑光上，细化后预测的全分辨率天空哑光表示为：

式中，其中f_gf和h是导向滤波和双线性上采样操作；r和∈是引导滤波器的预定义半径和正则化系数。

8.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：在步骤四中，设背景处在无穷远处，则背景只有3自由度的平面刚性运动，因此其仿射矩阵由来表示：

其中u_curr、v_curr为当前帧像素的横纵坐标；u_pre、υ_pre为前一帧像素的横纵坐标；

设相邻两帧相机从相机坐标系到世界坐标系的变换矩阵分别为C2W_pre、C2W_curr，则计算出前一帧到后一帧的变换矩阵：

式中，为两相机之间变换的旋转矩阵，/>为两相机之间变换的平移矢量；于是计算出相邻两帧像素坐标的变换关系：

其中，K为相机的内参矩阵，n为z轴方向的单位矢量，z为背景平面到相机的距离；当z→∞时，变换关系简化为：

于是解出：

M＝K^-1(R^-1)^TK[：2，：]

在获得每个相邻帧的仿射矩阵M_i后，渲染图像中初始帧和第t帧之间的仿射矩阵M(t)写成以下矩阵乘法形式：

其中，M_c为第一帧中从原背景图像中心裁剪的变换矩阵；因此将背景图像像素坐标左乘仿射矩阵M(t)，再利用双线性插值得到第t帧中待融合的背景图像。

9.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：在步骤五中，利用图像匹配方程，天空哑光值输出像素值越高，表示像素属于天空的背景概率越高，则第t帧融合图像Y(t)表示为：

Y(t)＝I(t)·(1-A(t))+B(t)·A(t)

10.根据权利要求9所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法，其特征在于：利用光照协调的思路，将背景的色调和亮度赋予前景，使前景图像和背景图像的色调和亮度协调一致，修正公式如下：

I′(t)＝I(t)+α(μ_B(A＝1)(t)-μ_I(A＝0)(t))，

I_new(t)＝β(I′(t)+μ_I(t)-μ′_I(t))

其中，μ_I(t)、μ′_I(t)分别为I(t)和I′(t)的亮度均值，μ_B(A＝1)(t)、μ_I(A＝0)(t)分别为背景在原图像哑光预测值为1处的平均亮度和原图像前景的平均亮度；α、β为两可调参数，物理意义分别为原图像前景亮度的比重以及背景亮度对前景的影响比重；I′(t)、I_new(t)分别为光照协调过程的中间变量与最终输出图像。