CN116563459A - 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 - Google Patents
一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 Download PDFInfo
- Publication number
- CN116563459A CN116563459A CN202310392198.1A CN202310392198A CN116563459A CN 116563459 A CN116563459 A CN 116563459A CN 202310392198 A CN202310392198 A CN 202310392198A CN 116563459 A CN116563459 A CN 116563459A
- Authority
- CN
- China
- Prior art keywords
- image
- background
- scene
- matte
- rendering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000009877 rendering Methods 0.000 title claims abstract description 34
- 238000002156 mixing Methods 0.000 title claims abstract description 16
- 230000001537 neural effect Effects 0.000 title claims abstract description 14
- 210000005036 nerve Anatomy 0.000 claims abstract description 25
- 230000005855 radiation Effects 0.000 claims abstract description 20
- 230000000750 progressive effect Effects 0.000 claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 15
- 230000000694 effects Effects 0.000 claims abstract description 13
- 238000005286 illumination Methods 0.000 claims abstract description 11
- 238000009792 diffusion process Methods 0.000 claims abstract description 10
- 230000000007 visual effect Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 16
- 230000009466 transformation Effects 0.000 claims description 16
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 238000013461 design Methods 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012800 visualization Methods 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 238000004519 manufacturing process Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Graphics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及一种文本驱动的沉浸式大场景神经渲染与混合增强方法,该方法包含:一、制作数据集;二、基于改进的渐进式神经辐射场重建大场景;三、基于卷积神经网络预测渲染图像的前景与背景哑光值;四、利用稳定扩散模型由文本生成背景;五、通过相邻帧之间相机参数变化计算背景运动;六;将渲染前景与背景融合并进行光照协调。本发明实现了由实时文本驱动的可编辑大场景背景增强,允许对城市尺度的沉浸式大场景任意观测位置进行渲染,生成效果与真实场景一致的观测图像,并在此基础上进行混合现实,可以满足使用者对场景的个性化定制,获得影视特效级别的视觉效果。该技术可以应用于三维可视化、数字地图以及虚拟现实游戏等领域。
Description
技术领域
本发明涉及一种沉浸式开放场景与混合增强方法,属于计算机视觉领域。
背景技术
(1)三维场景新视角合成(Novel View Synthesis of 3D Scene)指在给定多张图像和相机位置的情况下,从未被观察到的角度合成场景图像。该技术可分为两个阶段:第一阶段从多视图图像中恢复三维几何形状,第二阶段则根据给定的视点合成图像。
三维场景新视角合成技术面临的主要是三维场景的表征质量问题。三维场景的表征质量对生成新视角的图像质量至关重要,现有的三维场景表示方法包括显式表征和隐式表征,各类表征方法对数据集要求较高,仅能在特定的场景下使用,应用范围较窄。
目前,实现三维场景新视角合成的方式主要有三种,基于网格的新视角合成、基于学习的新视角合成、基于多层感知机(Multilayer perceptron,MLP)和神经辐射场(Neuralradiance field,NERF)方法的新视角合成。
基于点云的新视角合成,技术原理是通过记录空间中三维物体表面的一些离散点,重建出物体的三维模型,再通过不同视角下的透视变换来推测出新视角下物体的图像。这类方法由于记录离散三维结构,因此当重建场景较大、分辨率要求较高时,对硬件的内存要求会产生几何量级的增加。
基于学习的新视角合成,技术原理是从一组带有位置的图像预测每个体素格中的三维特征嵌入。采用可微分渲染来复现对应已知视图的图像。这类方法生成的图像需要对网格进行优化,但是需要初始化的模板网格很难获取。此外,这些方法生成的图像会在被遮挡区域后面产生严重的伪影。
基于深度学习的新视角合成,近年来受到学术界的广泛关注。通过使用多层感知机利用输入的5D向量(3D坐标和2D视图方向)查询空间中对应点的透明度和颜色值,神经辐射场(Neural radiance field)方法在视角合成方面也具有极大的优越性,但仍然只对具有实际深度值的前景具有较好的训练效果,并需要场景中心经纬度、场景内建筑尺寸等信息。
(2)混合现实技术(Mixed reality)是一种将虚拟信息和真实世界巧妙融合的技术,在电影制作、虚拟现实游戏等领域得到了广泛应用。背景增强技术主要应用于天空背景增强。目前,实现天空背景增强的方式主要有两种,基于人工后期制作的方法、基于视觉的图像分割与匹配方法。
基于人工后期制作的方法,主要应用于专业影视和游戏特效的制作,但手动替换视频中的天空区域往往费时费力,甚至需要专业的后处理技术。处理过程通常包括逐帧的蓝屏匹配和背景运动捕捉。即使在专业软件的帮助下,用户也可能会在几秒的视频中使用几小时进行编辑处理。移动设备,实时进行天空背景的分割与图像融合,但该方法需要特定相机和陀螺仪等设备,并且无法有效处理相机平移时的背景增强。
基于视觉的图像分割与匹配方法,首先使用卷积神经网络,通过像素级预测天空哑光将图像平滑地匹配出前景和背景部分。再使用带有金字塔的迭代卢卡斯方法来计算光流,通过逐帧跟踪天空背景上的特征点来估算背景的运动。最后,将仿射后的背景图像与前景进行融合。但由于该方法对背景特征点的依赖性,因此无法对纯色背景(例如晴天或黑夜)的场景进行增强。
本发明提出了一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,解决了三维场景新视角合成的三维场景表征质量问题和背景增强技术普适性低的问题,同时仅需输入背景特征的文字描述,本方法即可自动基于用户的描述生成沉浸式增强场景,并可对场景进行自主编辑。本发明利用渐进式神经辐射场模型对场景进行三维重建与新视角合成,得到场景边缘清晰、纹理细节丰富的重建图像,提高了三维场景表征的质量。本发明利用相机位姿坐标对重建场景背景进行增强,该方法可以实时估计背景图像的仿射变化从而与渲染的每一帧前景图像匹配,可对纯色背景进行增强,普适性高、背景增强效果好。本发明利用稳定扩散模型生成背景,能够基于用户输入的背景特征描述生成沉浸式场景,满足了用户个性化需求。
发明内容
1、目的:本发明旨在提供一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,以实现实时文本驱动的场景背景增强。允许在城市尺度的场景中任意观测位置进行渲染。并进一步结合混合现实,为使用者提供个性化场景定制,获得影视特效级别的视觉效果。该发明不仅大大缩减了传统3D建模和影视特效制作等行业的工作量,而且使非专业人士也能轻松编辑制作个性化的混合现实场景。该发明丰富并完善了基于深度学习的场景渲染与增强方法,可以应用于三维可视化、数字地图以及虚拟现实游戏等领域。
2、技术方案:本发明是通过以下技术方案实现的:
本发明是一种基于渐进式神经辐射场对场景神经渲染以及文本驱动实现混合增强的技术,分为五个步骤:基于改进的渐进式神经辐射场重建场景、基于卷积神经网络预测渲染图像的前景与背景哑光值、利用稳定扩散模型由文本生成背景、通过相邻帧之间相机参数变化计算背景运动、将渲染前景与背景融合并进行光照协调。
步骤一:基于改进的渐进式神经辐射场重建场景
本发明以渐进的方式建立和训练渐进式神经辐射场模型,从大尺度的数据开始逐步训练,使神经辐射场的不同网络层(具体结构如图1)之间具有明确的工作划分,并随着训练阶段的增加逐步增加空间位置编码的维度,以更小的输入参数量充分利用位置编码中全频带的信息。
本发明将每个待训练的场景分为L个尺度,两个尺度中相邻像素对应世界坐标中的距离约为2倍关系。训练过程中,神经辐射场的输入参数从最远的视角(L=1)中的图像数据开始。远距离的视角通常呈现出相对简单的纹理细节,因此可以采用一个浅层的多层感知机作为基础块随着训练的进行,每个新的训练阶段会加入一个更接近的视角(L+1),同时,上一阶段的数据仍会被继续训练。随着训练集的扩大,神经辐射场模型引入残差块以捕获场景组件中不断增加的复杂细节,残差块的设计使得其中的中间层集中于学习较大尺度训练阶段缺失的细节,并利用跳跃连接的方法提供高频空间特征。在整个训练过程中,网络中基础块和所有增加的残差快都保持可训练状态。
本发明采用多层次监督策略保证所有尺度的渲染质量一致。在训练的第L阶段,基础块与各残差块叠加后的输出由L前所有尺度的图像联合监督,即Il≤L。阶段L的损失汇总在从H1到HL的所有输出头上:
式中,Rl为第l尺度的数据集,r为数据集中像素坐标,分别为图像像素的真值和相应预测的像素值(RGB)。
本发明采用的多层次监督策略将不同的细节层次统一成一个单一的模型,可以用L进行控制。
步骤二:基于卷积神经网络预测渲染图像的前景与背景哑光值
在步骤一中,本发明完成对场景的重建,通过预设观测相机的轨迹,可以得到新视角下的渲染图像。
本发明利用卷积神经网络(Convolution neural network,CNN)精确提取步骤一中渲染所得的图像,在像素级回归框架下预测天空哑光值,进而分离出图像的背景区域(天空等可视为无穷远的区域)和前景区域(除背景外的区域),该框架产生粗尺度的天空哑光,再利用导向滤波进行精细哑光预测。该卷积神经网络由一个分割编码器E、一个掩模预测解码器D和一个导向滤波模块组成。
分割编码器使用与残差网络(Residual network,Resnet)思想相同的卷积架构,学习下采样输入图像的中间特征表示。掩模预测解码器使用具有几个卷积层的上采样网络,用来预测一个粗糙的天空哑光。导向滤波模块利用粗糙的天空哑光和原输入图像生成精细化的天空哑光。由于天空区域通常出现在图像的上方,本发明在编码器的输入层和解码器的所有上采样层都使用坐标卷积层。
假设I和Il表示一个具有全分辨率的输入图像及其降采样后的图像,网络f={E,D}的输入为Il,输出为与Il尺寸相同的天空哑光图。假设Al=f(Il)和表示天空哑光的预测和真值。本发明通过训练网络使得天空哑光的预测值和真值误差最小,定义损失函数如下:
式中,其中为二范数,Nl是图像中的像素数,Dl是下采样后的图像数据集。
在导向滤波模块,本发明使用全分辨率图像I作为引导图像,该图像在计算机中通过红绿蓝(RGB)三通道存储,为获得更好的针对天空的颜色对比度,本发明只保留蓝色通道。滤波将引导图像的结构转移到低分辨率的天空哑光上,并产生比卷积神经网络的输出更精确的结果。细化后预测的全分辨率天空哑光可以表示为:
式中,其中fgf和h是导向滤波和双线性上采样操作。r和∈是引导滤波器的预定义半径和正则化系数。
步骤三:利用稳定扩散模型由文本生成背景
生成模型的发展使得对图像的直接生成成为可能,在众多模型中,概率扩散模型通过使用UNct网络骨架使得其具有更强的生成能力且适用于类图像数据偏差的归纳。
本发明利用公开预训练的概率扩散模型SD2.1-v,实现由输入提示标签准确生成背景图像的工作。为使用户在使用过程中能够稳定生成高质量的背景增强图像,本发明在用户输入的提示标签基础上额外加入“背景”、“远处场景”、“无地面”,引导模型生成效果更好的背景图像。
步骤四:通过相邻帧之间相机参数变化计算背景运动
在步骤四中,本发明完成了对背景图像的生成。考虑到场景是在输入相机位姿后渲染生成的,本发明借助在多张渲染图像中每一帧相机位姿的变化估算背景的运动,以匹配前景的视角变化。
假设背景处在无穷远处,则背景只有3自由度的平面刚性运动,因此其仿射矩阵可由来表示:
其中ucurr、vcurr为当前帧像素的横纵坐标;upre、vpre为前一帧像素的横纵坐标。
假设相邻两帧相机从相机坐标系到世界坐标系的变换矩阵分别为C2Wpre、C2Wcurr,则可计算出前一帧到后一帧的变换矩阵:
式中,为两相机之间变换的旋转矩阵,/>为两相机之间变换的平移矢量。于是可计算出相邻两帧像素坐标的变换关系:
其中,K为相机的内参矩阵,n为z轴方向的单位矢量,z为背景平面到相机的距离。当z→∞时,变换关系可简化为:
于是可解出:
M=K-1(R-1)TK[:2,:]
在获得每个相邻帧的仿射矩阵Mi后,渲染图像中初始帧和第t帧之间的仿射矩阵M(t)可以写成以下矩阵乘法形式:
其中Mc为第一帧中从原背景图像中心裁剪的变换矩阵。因此将背景图像像素坐标左乘仿射矩阵M(t),再利用双线性插值即可得到第t帧中待融合的背景图像。
步骤五:将渲染前景与背景融合并进行光照协调
经过上述步骤,本发明完成了对渲染图像前景区域和背景区域的提取、背景图像的生成,并预测了天空哑光值。本发明基于图像匹配方程并基于修正,将前景图像和背景图像融合。
利用图像匹配方程,天空哑光值输出像素值越高,表示像素属于天空的背景概率越高,则第t帧融合图像Y(t)可表示为:
Y(t)=I(t)·(1-A(t))+B(t)·A(t)
式中,I(t)为第t帧前景图像,A(t)为预测天空哑光值,B(t)为待融合的背景图像。
本发明利用光照协调的思路,将背景的色调和亮度赋予前景,使前景图像和背景图像的色调和亮度协调一致,修正公式如下:
I′(t)=I(t)+α(μB(A=1)(t)-μI(A=0)(t)),
Inew(t)=β(I′(t)+μI(t)-μ′I(t))
其中μI(t)、μ′I(t)分别为I(t)和I′(t)的亮度均值,μB(A=1)(t)、μI(A=0)(t)分别为背景在原图像哑光预测值为1处的平均亮度和原图像前景的平均亮度。α、β为两可调参数,物理意义分别为原图像前景亮度的比重以及背景亮度对前景的影响比重。I′(t)、Inew(t)分别为光照协调过程的中间变量与最终输出图像。
3、优点及功效:
本发明是一种文本驱动的沉浸式场景渲染与混合增强方法,优点是:本发明优化了渐进式神经辐射场中数据处理和光线渲染的计算过程,仅需输入同一场景的多张图像及其对应的相机参数,即可让网络生成该场景中任一位置下的新视角前景图像,具有应用场景广、模型训练复杂度低的优点。本发明通过相机位姿信息直接估算背景的运动,能够对纯色背景的场景进行增强,具有方法普适性高的优点。本发明将前景图像和背景图像进行光照协调,使前景与背景的色调和亮度协调匹配,具有生成效果真实的优点。
附图说明
图1本发明设计的多层感知机结构图。
图2数据集多尺度联合渐进式训练示意图。
图3背景增强技术流程图。
图4文本驱动生成图像。
具体实施方式
为了更好地理解本发明的技术方案,以下结合附图对本发明的实施方式作进一步描述:
本发明在PyTorch框架下,使用Python语言编程实现。首先完成渐进式神经辐射场模型以及背景分割卷积网络的构建,并设置相关超参数;再读入预处理后的数据集对神经辐射场和卷积神经网络进行迭代优化。
计算机配置采用Intel(R)Core(TM)i5-10300H处理器,主频2.50GHz,内存16GB,显卡是NVIDIA GeForce GTX 1650,显存为4.0GB。
该文本驱动的沉浸式场景渲染与混合增强方法包括如下步骤:
步骤一:制作数据集
本发明的数据集包括国内经典场景的2D图像和对应的相机内外参数组。数据集部分可能的场景样例信息如表1所示。具体相机参数储存格式为:针对每一帧图像,取4×4的外参数矩阵前三行,并在每一行最后位置分别加入图像宽度、图像高度、相机焦距,再将15个数值按行存入.json文件中。
本发明通过不同数据来源渠道进行了数据集的构建。对于国外场景,利用谷歌地球(GoogleEarth Studio)获取3D图像以及虚拟相机坐标;对于国内场景,通过Youtube、Bilibili流媒体平台获取无人机航拍视频,并通过捕捉不同帧的特征点进行多视图重建,进而估计每一帧相机的外参。
表1:数据集场景与重建指标
步骤二:基于改进的渐进式神经辐射场重建场景
本发明以渐进的方式建立和训练模型,从大尺度的数据开始逐步训练,使不同网络层之间具有明确的工作划分,并随着训练阶段的增加逐步增加空间位置编码的维度,以更小的输入充分利用位置编码中全频带的信息。
本发明将每个待训练的场景分为L个尺度,两个尺度中相邻像素对应世界坐标中的距离为2倍关系。训练开始时,模型从最远的视角(L=1)开始。远距离的视角通常呈现出相对简单的纹理细节,因此可以采用一个浅层的多层感知机作为基础块,其具有4个隐藏层,每个层具有W=256个隐藏单元,以适应最远的尺度Il=1。随着训练的进行,每个新的训练阶段会加入一个更接近的视角(L+1),同时,上一阶段的数据仍会被继续训练。随着训练集的扩大,模型引入残差块以捕获场景组件中不断增加的复杂细节,残差块的设计使得其中的中间层集中于学习较大尺度训练阶段缺失的细节,并利用跳跃连接的方法提供高频空间特征。在整个训练过程中,网络中的所有层都保持可训练状态。
以L=2为例的多层感知机网络模型如图1所示,输入向量中,γ(x)为三维位置坐标的空间位置编码,γ(d)为二维方向坐标的空间位置编码。在隐藏层中,数字表示通过该层后的输出向量维度。最终输出预测值为L1网络训练的基本输出和L2得到的残差网络相加。
本发明采用多层次监督保证所有尺度的渲染质量一致。在训练的第L阶段,基础块与各残差块叠加后的输出由L前所有尺度的图像联合监督,即Il<=L。阶段L的损失汇总在从H1到HL的所有输出头上:
式中,其中C(r),C^(r)是图像像素的真值和相应预测的RGB值。
本发明采用的多层次监督策略将不同的细节层次统一成一个单一的模型,可以用L进行控制,尺度示意图如图2所示。
在步骤二中,本发明完成对场景的重建,通过设置观测相机的轨迹,本发明可以得到新视角下的混合现实图像,流程图如图3所示,可将全过程分为前景提取模块、背景运动计算模块、文本驱动生成模块、实时渲染增强模块。
步骤三:基于卷积神经网络预测渲染图像的前景与背景哑光值
在前景提取模块中,利用卷积神经网络精确提取前景,在像素级回归框架下预测天空哑光值,该框架产生粗尺度的天空哑光,再利用导向滤波进行精细哑光预测。该方法由一个分割编码器网络E、一个掩模预测解码器网络D和一个导向滤波模块组成。
表2所示为分割编码器网络与掩模预测解码器网络D的结构,分割编码器使用与残差网络思想相同的卷积架构,学习下采样输入图像的中间特征表示;掩模预测解码器使用具有卷积层的上采样网络,用来预测一个粗糙的天空哑光。导向滤波模块利用粗糙的天空哑光和原输入图像生成精细化的天空哑光。由于天空区域通常出现在图像的上方,本发明在分割编码器的输入层和掩模预测解码器的所有上采样层都使用坐标卷积层,及在原卷积层的基础上后两个通道中加入图像的横纵坐标。
表2:网络配置参数,其中CoordConv代表坐标卷积层,激活函数为ReLU;BN代表批处理归一化,UP代表双线性上采样,Pool代表最大池化。
假设I和Il表示一个具有全分辨率的输入图像及其64倍降采样后的图像,网络f={E,D}的输入为Il,输出为Il尺寸相同的天空哑光图。假设Al=f(Il)和表示天空哑光的预测和真值。本发明通过训练网络使得天空哑光的预测值和真值误差最小,定义损失函数如下:
式中,其中为二范数的平方,Nl是图像中的像素数,Dl是下采样后的图像数据集。
在导向滤波模块,本发明使用全分辨率图像I作为引导图像,只保留RGB三通道中的蓝色通道,获得更好的针对天空的颜色对比度。滤波将引导图像的结构转移到低分辨率的天空哑光上,并产生比CNN的输出更精确的结果。细化后预测的全分辨率天空哑光可以表示为:
式中,其中fgf和h是导向滤波和双线性上采样操作。r和∈是引导滤波器的预定义半径和正则化系数。
步骤四:利用稳定扩散模型由文本生成背景
在本发明的文本驱动生成模块中,利用预训练的稳定扩散模型SD2.1-v(已经公开的具由文本有生成精确图像能力的稳定模型),实现由输入文本生成背景图像的工作。指定输入图片尺寸(长为1080,宽为1920),并输入提示标签,具体示例由图4(a)至(f)所示,图注即为输入的提示标签词。本发明在每次输入提示标签后默认加入“背景”、“远处场景”、“无地面”三个提示词,引导模型生成效果更好的背景图片。
步骤五:通过相邻帧之间相机参数变化计算背景运动
在步骤四中,本发明完成了对背景图像的生成。背景运动计算模块中,本发明首先假设了背景在无穷远处,进而利用相机位姿的变化计算背景的运动,以匹配前景的视角变化。
假设背景处在无穷远处,则背景只有3自由度的平面刚性运动,因此其仿射矩阵可由来表示:
假设相邻两帧相机从相机坐标系到世界坐标系的变换矩阵分别为C2Wpre、C2Wcurr,则可计算出前一帧到后一帧的变换矩阵:
式中,为两相机之间变换的旋转矩阵,/>为两相机之间变换的平移矢量。于是可计算出相邻两帧像素坐标的变换关系:
其中,K为相机的内参矩阵,n为z轴方向的单位矢量,z为背景平面到相机的距离。当z→∞时,变换关系可简化为:
于是可解出:
M=K-1(R-1)TK[:2,:]
在获得每个相邻帧的仿射矩阵Mi后,视频中初始帧和第t帧之间的仿射矩阵M(t)可以写成以下矩阵乘法形式:
其中Mc为第一帧中从原背景图像中心裁剪的变换矩阵。因此将背景图像像素坐标左乘仿射矩阵M(t),再利用双线性插值即可得到第t帧中待融合的背景图像。
步骤六:将渲染前景与背景融合并进行光照协调
经过上述步骤,本发明完成了对前景图像的神经渲染、对背景图像的文本驱动生成,并基于含有空间坐标编码的卷积神经网络预测了天空哑光值。在实时渲染增强模块中,本发明基于图像匹配方程,将前景图像和背景图像融合,实现了混合现实效果。
利用图像匹配方程,天空哑光值输出像素值越高,表示像素属于天空的背景概率越高,则第t帧融合图像Y(t)可表示为:
r(t)=I(t)·(1-A(t))+B(t)·A(t)
式中,I(t)为第t帧前景图像,A(t)为预测天空哑光值,B(t)为待融合的背景图像。
本发明利用光照协调的思路,将背景的色调和亮度赋予前景,使前景图像和背景图像的色调和亮度协调一致,修正公式如下:
I′(t)=I(t)+α(μB(A=1)(t)-μI(A=0)(t)),
Inew(t)=β(I′(t)+μI(t)-μ′I(t))
其中μI(t)、μ′I(t)分别为I(t)和I′(t)的亮度均值,μB(A=1)(t)、μI(A=0)(t)分别为背景在原图像哑光预测值为1处的平均亮度和原图像前景的平均亮度。α、β为两可调参数,物理意义分别为原图像前景亮度的比重以及背景亮度对前景的影响比重。在前景与背景亮度接近时,α、β可各取0.5。
Claims (10)
1.一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:包括如下步骤:
步骤一:基于改进的渐进式神经辐射场重建场景
以渐进的方式建立和训练渐进式神经辐射场模型,从大尺度的数据开始逐步训练,使神经辐射场的不同网络层之间具有明确的工作划分,并随着训练阶段的增加逐步增加空间位置编码的维度,输入参数量充分利用位置编码中全频带的信息;
步骤二:基于卷积神经网络预测渲染图像的前景与背景哑光值
在步骤一中,完成对场景的重建,通过预设观测相机的轨迹,得到新视角下的渲染图像;利用卷积神经网络提取步骤一中渲染所得的图像,在像素级回归框架下预测天空哑光值,进而分离出图像的背景区域即无穷远的区域和前景区域即除背景外的区域,框架产生粗尺度的天空哑光,再利用导向滤波进行精细哑光预测;该卷积神经网络由一个分割编码器E、一个掩模预测解码器D和一个导向滤波模块组成;
步骤三:利用稳定扩散模型由文本生成背景
利用公开预训练的概率扩散模型SD2.1-v,实现由输入提示标签准确生成背景图像的工作;在用户输入的提示标签基础上额外加入“背景”、“远处场景”、“无地面”,引导模型生成效果更好的背景图像;
步骤四:通过相邻帧之间相机参数变化计算背景运动
在步骤四中,完成对背景图像的生成;考虑到场景是在输入相机位姿后渲染生成的,借助在多张渲染图像中每一帧相机位姿的变化估算背景的运动,以匹配前景的视角变化;
步骤五:将渲染前景与背景融合并进行光照协调
经过上述步骤1-4,完成了对渲染图像前景区域和背景区域的提取、背景图像的生成,并预测了天空哑光值;基于图像匹配方程并基于修正,将前景图像和背景图像融合。
2.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:在步骤一中,将每个待训练的场景分为个尺度,两个尺度中相邻像素对应世界坐标中的距离为2倍关系;训练过程中,神经辐射场的输入参数从最远的视角中的图像数据开始;远距离的视角呈现出相对简单的纹理细节,采用一个浅层的多层感知机作为基础块随着训练的进行,每个新的训练阶段会加入一个更接近的视角L+1,同时,上一阶段的数据仍会被继续训练;随着训练集的扩大,神经辐射场模型引入残差块以捕获场景组件中不断增加的复杂细节,残差块的设计使得其中的中间层集中于学习的大尺度训练阶段缺失的细节,并利用跳跃连接的方法提供高频空间特征;在整个训练过程中,网络中基础块和所有增加的残差快都保持可训练状态。
3.根据权利要求1或2所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:采用多层次监督策略保证所有尺度的渲染质量一致;在训练的第L阶段,基础块与各残差块叠加后的输出由L前所有尺度的图像联合监督,即Il≤L;阶段L的损失汇总在从H1到HL的所有输出头上:
式中,Rl为第l尺度的数据集,r为数据集中像素坐标,C(r),分别为图像像素的真值和相应预测的像素值RGB。
4.根据权利要求3所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:采用的多层次监督策略将不同的细节层次统一成一个单一的模型,用L进行控制。
5.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:在步骤二中,分割编码器使用与残差网络思想相同的卷积架构,学习下采样输入图像的中间特征表示;掩模预测解码器使用具有几个卷积层的上采样网络,用来预测一个粗糙的天空哑光;导向滤波模块利用粗糙的天空哑光和原输入图像生成精细化的天空哑光;在编码器的输入层和解码器的所有上采样层都使用坐标卷积层。
6.根据权利要求1或5所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:设I和Il表示一个具有全分辨率的输入图像及其降采样后的图像,网络f={E,D}的输入为Il,输出为与Il尺寸相同的天空哑光图;假设Al=f(Il)和表示天空哑光的预测和真值;通过训练网络使得天空哑光的预测值和真值误差最小,定义损失函数如下:
式中,其中为二范数,Nl是图像中的像素数,Dl是下采样后的图像数据集。
7.根据权利要求6所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:在导向滤波模块,使用全分辨率图像I作为引导图像,该图像在计算机中通过红绿蓝RGB三通道存储,这里只保留蓝色通道;滤波将引导图像的结构转移到低分辨率的天空哑光上,细化后预测的全分辨率天空哑光表示为:
式中,其中fgf和h是导向滤波和双线性上采样操作;r和∈是引导滤波器的预定义半径和正则化系数。
8.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:在步骤四中,设背景处在无穷远处,则背景只有3自由度的平面刚性运动,因此其仿射矩阵由来表示:
其中ucurr、vcurr为当前帧像素的横纵坐标;upre、υpre为前一帧像素的横纵坐标;
设相邻两帧相机从相机坐标系到世界坐标系的变换矩阵分别为C2Wpre、C2Wcurr,则计算出前一帧到后一帧的变换矩阵:
式中,为两相机之间变换的旋转矩阵,/>为两相机之间变换的平移矢量;于是计算出相邻两帧像素坐标的变换关系:
其中,K为相机的内参矩阵,n为z轴方向的单位矢量,z为背景平面到相机的距离;当z→∞时,变换关系简化为:
于是解出:
M=K-1(R-1)TK[:2,:]
在获得每个相邻帧的仿射矩阵Mi后,渲染图像中初始帧和第t帧之间的仿射矩阵M(t)写成以下矩阵乘法形式:
其中,Mc为第一帧中从原背景图像中心裁剪的变换矩阵;因此将背景图像像素坐标左乘仿射矩阵M(t),再利用双线性插值得到第t帧中待融合的背景图像。
9.根据权利要求1所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:在步骤五中,利用图像匹配方程,天空哑光值输出像素值越高,表示像素属于天空的背景概率越高,则第t帧融合图像Y(t)表示为:
Y(t)=I(t)·(1-A(t))+B(t)·A(t)
式中,I(t)为第t帧前景图像,A(t)为预测天空哑光值,B(t)为待融合的背景图像。
10.根据权利要求9所述的一种文本驱动的沉浸式开放场景神经渲染与混合增强方法,其特征在于:利用光照协调的思路,将背景的色调和亮度赋予前景,使前景图像和背景图像的色调和亮度协调一致,修正公式如下:
I′(t)=I(t)+α(μB(A=1)(t)-μI(A=0)(t)),
Inew(t)=β(I′(t)+μI(t)-μ′I(t))
其中,μI(t)、μ′I(t)分别为I(t)和I′(t)的亮度均值,μB(A=1)(t)、μI(A=0)(t)分别为背景在原图像哑光预测值为1处的平均亮度和原图像前景的平均亮度;α、β为两可调参数,物理意义分别为原图像前景亮度的比重以及背景亮度对前景的影响比重;I′(t)、Inew(t)分别为光照协调过程的中间变量与最终输出图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310392198.1A CN116563459A (zh) | 2023-04-13 | 2023-04-13 | 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310392198.1A CN116563459A (zh) | 2023-04-13 | 2023-04-13 | 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116563459A true CN116563459A (zh) | 2023-08-08 |
Family
ID=87490711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310392198.1A Pending CN116563459A (zh) | 2023-04-13 | 2023-04-13 | 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563459A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778061A (zh) * | 2023-08-24 | 2023-09-19 | 浙江大学 | 一种基于非真实感图片的三维物体生成方法 |
CN117274353A (zh) * | 2023-11-20 | 2023-12-22 | 光轮智能(北京)科技有限公司 | 合成图像数据生成方法、控制装置及可读存储介质 |
-
2023
- 2023-04-13 CN CN202310392198.1A patent/CN116563459A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778061A (zh) * | 2023-08-24 | 2023-09-19 | 浙江大学 | 一种基于非真实感图片的三维物体生成方法 |
CN116778061B (zh) * | 2023-08-24 | 2023-10-27 | 浙江大学 | 一种基于非真实感图片的三维物体生成方法 |
CN117274353A (zh) * | 2023-11-20 | 2023-12-22 | 光轮智能(北京)科技有限公司 | 合成图像数据生成方法、控制装置及可读存储介质 |
CN117274353B (zh) * | 2023-11-20 | 2024-02-20 | 光轮智能(北京)科技有限公司 | 合成图像数据生成方法、控制装置及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Attal et al. | MatryODShka: Real-time 6DoF video view synthesis using multi-sphere images | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
Ji et al. | Deep view morphing | |
Liu et al. | Geometry-aware deep network for single-image novel view synthesis | |
KR101370718B1 (ko) | 파노라마 이미지를 이용한 2d에서 3d로의 변환 방법 및 장치 | |
CN116563459A (zh) | 一种文本驱动的沉浸式开放场景神经渲染与混合增强方法 | |
CN108876814B (zh) | 一种生成姿态流图像的方法 | |
CN109361913A (zh) | 用于对于头戴式显示器提供三维图像的方法和装置 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
KR102141319B1 (ko) | 다시점 360도 영상의 초해상화 방법 및 영상처리장치 | |
Schnyder et al. | 2D to 3D conversion of sports content using panoramas | |
CN109949354B (zh) | 一种基于全卷积神经网络的光场深度信息估计方法 | |
Liu et al. | A single frame and multi-frame joint network for 360-degree panorama video super-resolution | |
CN106548494A (zh) | 一种基于场景样本库的影视图像深度提取方法 | |
Bleyer et al. | Temporally consistent disparity maps from uncalibrated stereo videos | |
CN110113593A (zh) | 基于卷积神经网络的宽基线多视点视频合成方法 | |
CN114782596A (zh) | 语音驱动的人脸动画生成方法、装置、设备及存储介质 | |
Wang et al. | 3d moments from near-duplicate photos | |
Zhang et al. | Refilming with depth-inferred videos | |
Li et al. | Learning to compose 6-DoF omnidirectional videos using multi-sphere images | |
CN108616746A (zh) | 基于深度学习的2d全景图像转3d全景图像的方法 | |
CN115170921A (zh) | 一种基于双边网格学习和边缘损失的双目立体匹配方法 | |
CN115345781A (zh) | 一种基于深度学习的多视点视频拼接方法 | |
CN115049559A (zh) | 模型训练、人脸图像处理、人脸模型处理方法及装置、电子设备及可读存储介质 | |
CN114004773A (zh) | 基于深度学习以及反向映射实现的单目多视点视频合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |