CN117541732A - 一种文本引导的神经辐射场建筑物场景风格化方法 - Google Patents
一种文本引导的神经辐射场建筑物场景风格化方法 Download PDFInfo
- Publication number
- CN117541732A CN117541732A CN202410028439.9A CN202410028439A CN117541732A CN 117541732 A CN117541732 A CN 117541732A CN 202410028439 A CN202410028439 A CN 202410028439A CN 117541732 A CN117541732 A CN 117541732A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- style
- text
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000005855 radiation Effects 0.000 title claims abstract description 15
- 230000001537 neural effect Effects 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000009877 rendering Methods 0.000 claims abstract description 11
- 230000005012 migration Effects 0.000 claims abstract description 8
- 238000013508 migration Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 15
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000009792 diffusion process Methods 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 230000036544 posture Effects 0.000 claims description 3
- 238000002834 transmittance Methods 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 230000008447 perception Effects 0.000 abstract description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 230000007774 longterm Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 210000005036 nerve Anatomy 0.000 description 2
- 241000086550 Dinosauria Species 0.000 description 1
- 241000233855 Orchidaceae Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Graphics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Architecture (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种文本引导的神经辐射场建筑物场景风格化方法,包括训练得到一建筑场景几何外观重建模型M1,用于生成内容图像;训练得到一风格化内容图像生成模型M2,用于得到风格化内容图像;用M1、M2构建一整体模型,训练得到融合模型,用户根据需求向融合模型输入一文本信息和一视角,融合模型输出该视角下的风格化内容图像。本发明在构造M1时构造一基于体素网格特征的NeRF模型,能优化NeRF网络结构,提高渲染速度,在构造M2时设计了SCYUVNet模型,能高效地产生高质量的风格转换结果。并克服了现有技术中,2D图片缺乏空间一致性约束和对3D场景多维度特征感知从而影响风格迁移效果的缺陷,使最终图像具有多视角下的空间一致性。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种文本引导的神经辐射场建筑物场景风格化方法。
背景技术
近年来,探索一种高效的建筑物场景生成和风格化方法,是现在动漫、动画等视频艺术创作的缺口。计算机图形学依赖于计算机视觉算法助力而蓬勃发展,其中,基于三维隐式表示方法的NeRF因其在场景渲染方面的优异性能而取得了很大的进展。同时可以通过对场景外观的重建进行控制,该外观风格迁移技术可以减少艺术创作的时间并降低专业知识壁垒。例如将单个2D图像的艺术特征转移到渲染的3D场景中,从而改变3D场景中的风格。在缺乏风格图像的情况下,通过文本语义引导生成非常直观、具体的风格图片,再将风格图片风格特征迁移到3D场景中,是一条非常具有创新的技术路线。因此,在视频游戏、电影行业和元宇宙创作领域,高效生成一个具有艺术风格的建筑场景是亟需解决的技术问题。
另外,现有技术中,风格迁移为简单的2D图像到2D图像的风格迁移,生成的图片缺乏空间一致性约束和对3D场景多维度特征感知,所以不能对3D场景中任意视角图像生成具有良好表现。
名词解释:
NeRF是Neural Radiance Field的首字母缩写,中文为神经辐射场,它是一种基于神经网络的 3D 重建技术,传统的NeRF使用MLP来隐式学习3D空间中三维点和其颜色、密度的映射,从而从一组图像中重建一个体积场景表示,该方法可以渲染出任意视角下的照片,但不足之处是是需要较长的训练时间,以及低效率的新视角图片渲染。
发明内容
本发明的目的就在于提供一种解决目前建筑物场景不能快速生成、不能快速风格化等问题的,一种文本引导的神经辐射场建筑物场景风格化方法。
为了实现上述目的,本发明采用的技术方案是这样的:一种文本引导的神经辐射场建筑物场景风格化方法,包括以下步骤:
S1,训练得到一建筑场景几何外观重建模型M1,用于生成内容图像,包括步骤S11~S15;
S11,采集建筑物多视角多姿态下的外观图像,每张外观图像均有一拍摄的视角d;
S12,确定一建筑场景几何外观重建的三维空间,划分为体素网格;
S13,构造一基于体素网格特征的NeRF模型MNeRF;
所述MNeRF包括密度体素网格、特征体素网格和RGBNet;
当输入一外观图像时,密度体素网格、特征体素网格分别输出每个体素网格的预测密度特征和预测颜色特征,对每个预测颜色特征,结合视角d得到每个体素网格在视角d的预测颜色特征,再经RGBNet输出每个体素网格的颜色值,对每个体素网格的预测密度特征、颜色值进行体渲染生成内容图像;
S14,构造MNeRF的损失函数L g ,包括光度损失、RGB损失和背景熵损失;
S15,以S11采集的外观图像为输入、最小化L g 为训练目标,训练MNeRF得到M1,该模型用于生成不同视角的建筑物图像,作为内容图像;
S2,训练得到一成风格化内容图像生成模型M2,包括S21~S24;
S21,用扩散模型对文本生成风格图像;
S22,构造一SCYUVNet模型,包括特征提取单元、特征融合单元和图像解码单元;
所述特征提取单元用于对风格图像和内容图像进行多尺度特征提取;
所述特征融合单元用于将特征提取单元输出的多尺度特征、风格图像和内容图像进行特征融合,得到风格化图像;
所述图像解码单元包括高斯滤波单元、RGB转YUV单元、AdaIN网络和YUV转RGB单元;
所述高斯滤波单元用于对进行高斯滤波,得到平滑风格图像/>;
RGB转YUV单元用于将内容图像、平滑风格图像分别转换到YUV色彩空间,得到色彩空间内容图像、色彩空间平滑风格图像/>;
所述AdaIN网络用于对、/>执行风格迁移,输出迁移图像/>;
所述YUV转RGB单元用于将转换到RGB空间,得到风格化内容图像;
S23,构造SCYUVNet模型的损失函数L yuvs ;
S24,以内容图像、风格图像为输入,最小化L yuvs 为训练目标,得到模型M2;
S3,训练得到融合模型;
S31,利用M1、M2构建一整体模型;
M1中,断开特征体素网格和RGBNet,每个体素网格在视角d的预测颜色特征经权重优化网络连接RGBNet,得到模型M1’;
M2中,扩散模型的输出的风格图像分出一路,经风格编码器、超网络连接权重优化网络,风格编码器对风格图像提取风格特征,超网络提取风格特征的权重数据,权重优化网络根据权重数据控制RGBNet的输出;
S32,训练,包括S32-1到S32-6;
S32-1,冻结密度体素网格、特征体素网格、风格编码器、SCYUVNet的参数;
S32-2,确定与风格相关的文本语义,经扩散模型生成风格图像;
S32-3,风格图像一路经SCYUVNet生成风格化内容图像,标记为I pcs ,一路用于约束权重优化网络的权重;
S32-4,用M1’生成一新视角的内容图像,标记为I pc ;
S32-5,计算I pcs 与I pc 的差异值,反向传播到权重优化网络中;
S32-6,权重优化网络根据权重数据和差异值,调整自身参数,并迭代学习至整体模型收敛,得到融合模型;
S4,用户根据需求向融合模型输入一文本信息和一视角,融合模型输出一图像,作为该视角下的风格化内容图像。
作为优选,S14具体为,根据下式构造MNeRF的损失函数为,
(1),
(2),
(3),
式(1)中,为光度损失,/>为RGBNet的RGB损失,/>为背景熵损失,,/>,/>分别为对应损失的权重超参数;
式(2)中,R为一个采样的小批量射线集合,r为R中的一条射线,C(r)为指定视角渲染像素颜色值,C gt (r)为指定视角像素颜色真值;
式(3)中,K为射线r上在预定义的近平面和远平面间的采样点数量,i为采样点i,i=1~K,α i 是在采样点i处终止的概率,T i 是从近平面到采样点i的累积透射率,c i 为采样点i的颜色值。
作为优选,S21中,扩散模型生成风格图像具体为,
将文本通过文本编码器得到一文本特征;
将文本特征和噪声信息作为输入,通过生成模型得到一中间特征;
将中间特征通过图像解码器,得到风格图像。
作为优选,SCYUVNet模型中:
所述特征提取单元包括两个下采样单元和两个VGG19网络;其中,两个下采样单元分别对风格图像和内容图像进行下采样,得到低分辨率风格图像和低分辨率内容图像/>,所述VGG19网络经过预训练,一VGG19网络用于从/>中从高到低提取4个不同尺度的风格图像特征SF1到SF4,另一VGG19网络用于从/>中从高到低提取4个不同尺度的内容图像特征CF1到CF4,SFj的尺度与SFj的尺度相同,1≤j≤4;
所述特征融合单元包括5个Splatting block网络模块SB1到SB5,将SFj与CFj构成一特征对,送入SBj中得到对应输出,将/>和/>也构成一特征对,送入SB5中得到对应输出/>,将/>~/>通过卷积网络后,依次进行特征拼接,得到拼接图像,再上采样得到风格化图像,其尺度与内容图像相同。
作为优选,S23中,根据下式构造SCYUVNet模型的损失函数L yuvs ;
(4),
式(4)中,L s 、L c 分别为AdaIN网络的风格损失和内容损失,λ s 、λ c 分别为L s 、L c 的权重超参数。
作为优选,S32-6中,训练整体模型时使用MNeRF的损失函数。这里损失函数的公式虽然没有变化,但图片发生了改变,MNeRF中,RGBNet输入连接特征体素网格,但整体模型时,RGBNet输入为权重优化网络。
与现有技术相比,本发明的优点在于:
本发明对神经辐射场模型进行改进,构造一基于体素网格特征的NeRF模型,在几何训练阶段使用体素网格直接优化场景的几何外观,以此来优化NeRF的网络结构,提高渲染速度,并利用基于体素网格特征的NeRF模型构造了模型M1。
设计了SCYUVNet模型,通过对风格图片的不同维度的风格语义信息学习,并将其与建筑场景任意视角图像的纹理和色彩特征相结合,高效地产生高质量的风格转换结果。SCYUVNet模型中的高斯滤波和YUV转换方法使得生成的风格化图像更加真实细腻并且在亮度上与内容图像保持一致。
M1和M2来构造融合模型,最终只需要输入视角和文本信息,就能渲染生成对应视角下的风格化内容图像。克服了现有技术中,2D图片缺乏空间一致性约束和对3D场景多维度特征感知从而影响风格迁移效果的技术缺陷,使得的最终的风格化内容图像具有多视角下的空间一致性,从而具有较好的风格化内容和一致性评价指标。
附图说明
图1为本发明流程图;
图2为模型M1的架构图;
图3为模型M2的架构图;
图4为融合模型的架构图;
图5为SCYUVNet模型的架构图。
具体实施方式
下面将结合附图对本发明作进一步说明。
实施例1:参见图1到图5,一种文本引导的神经辐射场建筑物场景风格化方法,包括以下步骤:
S1,训练得到一建筑场景几何外观重建模型M1,用于生成内容图像,包括步骤S11~S15;
S11,采集建筑物多视角多姿态下的外观图像,每张外观图像均有一拍摄的视角d;
S12,确定一建筑场景几何外观重建的三维空间,划分为体素网格;
S13,构造一基于体素网格特征的NeRF模型MNeRF;
所述MNeRF包括密度体素网格、特征体素网格和RGBNet;
当输入一外观图像时,密度体素网格、特征体素网格分别输出每个体素网格的预测密度特征和预测颜色特征,对每个预测颜色特征,结合视角d得到每个体素网格在视角d的预测颜色特征,再经RGBNet输出每个体素网格的颜色值,对每个体素网格的预测密度特征、颜色值进行体渲染生成内容图像;
S14,构造MNeRF的损失函数L g ,包括光度损失、RGB损失和背景熵损失;
S15,以S11采集的外观图像为输入、最小化L g 为训练目标,训练MNeRF得到M1,该模型用于生成不同视角的建筑物图像,作为内容图像;
S2,训练得到一成风格化内容图像生成模型M2,包括S21~S24;
S21,用扩散模型对文本生成风格图像;
S22,构造一SCYUVNet模型,包括特征提取单元、特征融合单元和图像解码单元;
所述特征提取单元用于对风格图像和内容图像进行多尺度特征提取;
所述特征融合单元用于将特征提取单元输出的多尺度特征、风格图像和内容图像进行特征融合,得到风格化图像;
所述图像解码单元包括高斯滤波单元、RGB转YUV单元、AdaIN网络和YUV转RGB单元;
所述高斯滤波单元用于对进行高斯滤波,得到平滑风格图像/>;
RGB转YUV单元用于将内容图像、平滑风格图像分别转换到YUV色彩空间,得到色彩空间内容图像、色彩空间平滑风格图像/>;
所述AdaIN网络用于对、/>执行风格迁移,输出迁移图像/>;
所述YUV转RGB单元用于将转换到RGB空间,得到风格化内容图像;
S23,构造SCYUVNet模型的损失函数L yuvs ;
S24,以内容图像、风格图像为输入,最小化L yuvs 为训练目标,得到模型M2;
S3,训练得到融合模型;
S31,利用M1、M2构建一整体模型;
M1中,断开特征体素网格和RGBNet,每个体素网格在视角d的预测颜色特征经权重优化网络连接RGBNet,得到模型M1’;
M2中,扩散模型的输出的风格图像分出一路,经风格编码器、超网络连接权重优化网络,风格编码器对风格图像提取风格特征,超网络提取风格特征的权重数据,权重优化网络根据权重数据控制RGBNet的输出;
S32,训练,包括S32-1到S32-6;
S32-1,冻结密度体素网格、特征体素网格、风格编码器、SCYUVNet的参数;
S32-2,确定与风格相关的文本语义,经扩散模型生成风格图像;
S32-3,风格图像一路经SCYUVNet生成风格化内容图像,标记为I pcs ,一路用于约束权重优化网络的权重;
S32-4,用M1’生成一新视角的内容图像,标记为I pc ;
S32-5,计算I pcs 与I pc 的差异值,反向传播到权重优化网络中;
S32-6,权重优化网络根据权重数据和差异值,调整自身参数,并迭代学习至整体模型收敛,得到融合模型;
S4,用户根据需求向融合模型输入一文本信息和一视角,融合模型输出一图像,作为该视角下的风格化内容图像。
S14具体为,根据下式构造MNeRF的损失函数为,
(1),
(2),
(3),
式(1)中,为光度损失,/>为RGBNet的RGB损失,/>为背景熵损失,,/>,/>分别为对应损失的权重超参数;
式(2)中,R为一个采样的小批量射线集合,r为R中的一条射线,C(r)为指定视角渲染像素颜色值,C gt (r)为指定视角像素颜色真值;
式(3)中,K为射线r上在预定义的近平面和远平面间的采样点数量,i为采样点i,i=1~K,α i 是在采样点i处终止的概率,T i 是从近平面到采样点i的累积透射率,c i 为采样点i的颜色值。
S21中,扩散模型生成风格图像具体为,
将文本通过文本编码器得到一文本特征;
将文本特征和噪声信息作为输入,通过生成模型得到一中间特征;
将中间特征通过图像解码器,得到风格图像。
SCYUVNet模型中:所述特征提取单元包括两个下采样单元和两个VGG19网络;其中,两个下采样单元分别对风格图像和内容图像进行下采样,得到低分辨率风格图像和低分辨率内容图像/>,所述VGG19网络经过预训练,一VGG19网络用于从/>中从高到低提取4个不同尺度的风格图像特征SF1到SF4,另一VGG19网络用于从/>中从高到低提取4个不同尺度的内容图像特征CF1到CF4,SFj的尺度与SFj的尺度相同,1≤j≤4;
所述特征融合单元包括5个Splatting block网络模块SB1到SB5,将SFj与CFj构成一特征对,送入SBj中得到对应输出,将/>和/>也构成一特征对,送入SB5中得到对应输出/>,将/>~/>通过卷积网络后,依次进行特征拼接,得到拼接图像,再上采样得到风格化图像,其尺度与内容图像相同。
S23中,根据下式构造SCYUVNet模型的损失函数L yuvs ;
(4),
式(4)中,L s 、L c 分别为AdaIN网络的风格损失和内容损失,λ s 、λ c 分别为L s 、L c 的权重超参数。
S32-6中,训练整体模型时使用MNeRF的损失函数。
实施例2:参见图1到图5,在实施例1的基础上,我们给出更详细的方法如下:
S11采集建筑物多视角多姿态下的外观图像时:1、先进行拍摄条件约束:在特定场所如简单背景或者绿幕环境进行补光灯、相机等设备搭建;建筑物周围环境需在多角度采集过程中保持没有其他条件干扰,并且保持在很短时间间隔内采集避免出现大幅度光照变化。2、在约束的相同拍摄条件下,邀请10名自愿者拍摄不同视角和风格丰富的建筑物视频,每段视频大约持续20秒钟。最终收集到10段约20秒钟的建筑物视频片段。每个视频剪辑使用FFmpeg以15帧每秒的速率提取了100帧,总共1000帧建筑物数据集。3、使用COLMAP工具对这些帧进行相机姿势估计,其中使用了刚性相对相机姿势约束。并且假设一段视频中的所有帧共享相同的相机内部参数。其余与实施例1相同。
实施例3:基于实施例1的方案,本实施例使用图片感知相似度LPIPS指标来衡量模型在新视角渲染时的短期和长期一致性。LPIPS指标来源于LPIPS模型,该模型使用两幅图像作为输入,然后输出它们之间的感知相似性分数。
本实施例在公开数据集LLFF的五个场景上进行评估,五个场景分别为:Fern蕨类、Flower花朵、Horns牛角、Orchids兰花和Trex恐龙。
本实施例采用5种图像处理方法对公开数据集LLFF进行渲染,得到各自的输出。5种方法分别是:AdaIN方法、MCCNet方法、ReReVST方法、ARF方法和本发明方法。
具体的:对数据集LLFF中蕨类场景,将场景中第u张、第v张图片作为一对,用AdaIN方法渲染得到图片O u 、O v ,并计算O u 、O v 的LPIPS指标。当v=u+1时,我们称O u 、O v 的LPIPS指标为短期一致性,当v=u+5时,我们称O u 、O v 的LPIPS指标为长期一致性。
按LLFF中蕨类场景的方法,对上述5个场景,用5种方法,各选取20对图片,分别计算其短期一致性和短期一致性,得到下表1和表2。
表1:短期一致性结果对比表
,
表2:长期一致性结果对比表
,
从表1和表2可知,本发明一致性评价指标较其他方法更好。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种文本引导的神经辐射场建筑物场景风格化方法,其特征在于,包括以下步骤:
S1,训练得到一建筑场景几何外观重建模型M1,用于生成内容图像,包括步骤S11~S15;
S11,采集建筑物多视角多姿态下的外观图像,每张外观图像均有一拍摄的视角d;
S12,确定一建筑场景几何外观重建的三维空间,划分为体素网格;
S13,构造一基于体素网格特征的NeRF模型MNeRF;
所述MNeRF包括密度体素网格、特征体素网格和RGBNet;
当输入一外观图像时,密度体素网格、特征体素网格分别输出每个体素网格的预测密度特征和预测颜色特征,对每个预测颜色特征,结合视角d得到每个体素网格在视角d的预测颜色特征,再经RGBNet输出每个体素网格的颜色值,对每个体素网格的预测密度特征、颜色值进行体渲染生成内容图像;
S14,构造MNeRF的损失函数L g ,包括光度损失、RGB损失和背景熵损失;
S15,以S11采集的外观图像为输入、最小化L g 为训练目标,训练MNeRF得到M1,该模型用于生成不同视角的建筑物图像,作为内容图像;
S2,训练得到一成风格化内容图像生成模型M2,包括S21~S24;
S21,用扩散模型对文本生成风格图像;
S22,构造一SCYUVNet模型,包括特征提取单元、特征融合单元和图像解码单元;
所述特征提取单元用于对风格图像和内容图像进行多尺度特征提取;
所述特征融合单元用于将特征提取单元输出的多尺度特征、风格图像和内容图像进行特征融合,得到风格化图像;
所述图像解码单元包括高斯滤波单元、RGB转YUV单元、AdaIN网络和YUV转RGB单元;
所述高斯滤波单元用于对进行高斯滤波,得到平滑风格图像/>;
RGB转YUV单元用于将内容图像、平滑风格图像分别转换到YUV色彩空间,得到色彩空间内容图像、色彩空间平滑风格图像/>;
所述AdaIN网络用于对、/>执行风格迁移,输出迁移图像/>;
所述YUV转RGB单元用于将转换到RGB空间,得到风格化内容图像;
S23,构造SCYUVNet模型的损失函数L yuvs ;
S24,以内容图像、风格图像为输入,最小化L yuvs 为训练目标,得到模型M2;
S3,训练得到融合模型;
S31,利用M1、M2构建一整体模型;
M1中,断开特征体素网格和RGBNet,每个体素网格在视角d的预测颜色特征经权重优化网络连接RGBNet,得到模型M1’;
M2中,扩散模型的输出的风格图像分出一路,经风格编码器、超网络连接权重优化网络,风格编码器对风格图像提取风格特征,超网络提取风格特征的权重数据,权重优化网络根据权重数据控制RGBNet的输出;
S32,训练,包括S32-1到S32-6;
S32-1,冻结密度体素网格、特征体素网格、风格编码器、SCYUVNet的参数;
S32-2,确定与风格相关的文本语义,经扩散模型生成风格图像;
S32-3,风格图像一路经SCYUVNet生成风格化内容图像,标记为I pcs ,一路用于约束权重优化网络的权重;
S32-4,用M1’生成一新视角的内容图像,标记为I pc ;
S32-5,计算I pcs 与I pc 的差异值,反向传播到权重优化网络中;
S32-6,权重优化网络根据权重数据和差异值,调整自身参数,并迭代学习至整体模型收敛,得到融合模型;
S4,用户根据需求向融合模型输入一文本信息和一视角,融合模型输出一图像,作为该视角下的风格化内容图像。
2.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法,其特征在于,S14具体为,根据下式构造MNeRF的损失函数为,
(1),
(2),
(3),
式(1)中,为光度损失,/>为RGBNet的RGB损失,/>为背景熵损失,,/>,/>分别为对应损失的权重超参数;
式(2)中,R为一个采样的小批量射线集合,r为R中的一条射线,C(r)为指定视角渲染像素颜色值,C gt (r)为指定视角像素颜色真值;
式(3)中,K为射线r上在预定义的近平面和远平面间的采样点数量,i为采样点i,i=1~K,α i 是在采样点i处终止的概率,T i 是从近平面到采样点i的累积透射率,c i 为采样点i的颜色值。
3.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法,其特征在于,S21中,扩散模型生成风格图像具体为,
将文本通过文本编码器得到一文本特征;
将文本特征和噪声信息作为输入,通过生成模型得到一中间特征;
将中间特征通过图像解码器,得到风格图像。
4.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法,其特征在于,SCYUVNet模型中:
所述特征提取单元包括两个下采样单元和两个VGG19网络;其中,两个下采样单元分别对风格图像和内容图像进行下采样,得到低分辨率风格图像和低分辨率内容图像/>,所述VGG19网络经过预训练,一VGG19网络用于从/>中从高到低提取4个不同尺度的风格图像特征SF1到SF4,另一VGG19网络用于从/>中从高到低提取4个不同尺度的内容图像特征CF1到CF4,SFj的尺度与SFj的尺度相同,1≤j≤4;
所述特征融合单元包括5个Splatting block网络模块SB1到SB5,将SFj与CFj构成一特征对,送入SBj中得到对应输出,将/>和/>也构成一特征对,送入SB5中得到对应输出,将/>~/>通过卷积网络后,依次进行特征拼接,得到拼接图像,再上采样得到风格化图像,其尺度与内容图像相同。
5.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法,其特征在于,S23中,根据下式构造SCYUVNet模型的损失函数L yuvs ;
(4),
式(4)中,L s 、L c 分别为AdaIN网络的风格损失和内容损失,λ s 、λ c 分别为L s 、L c 的权重超参数。
6.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法,其特征在于,S32-6中,训练整体模型时使用MNeRF的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028439.9A CN117541732A (zh) | 2024-01-09 | 2024-01-09 | 一种文本引导的神经辐射场建筑物场景风格化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410028439.9A CN117541732A (zh) | 2024-01-09 | 2024-01-09 | 一种文本引导的神经辐射场建筑物场景风格化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117541732A true CN117541732A (zh) | 2024-02-09 |
Family
ID=89786532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410028439.9A Pending CN117541732A (zh) | 2024-01-09 | 2024-01-09 | 一种文本引导的神经辐射场建筑物场景风格化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117541732A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808933A (zh) * | 2024-02-29 | 2024-04-02 | 成都索贝数码科技股份有限公司 | 一种图像要素分解与重构方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797571A (zh) * | 2023-02-03 | 2023-03-14 | 天津大学 | 3d风格化场景的新视角合成方法 |
CN116934936A (zh) * | 2023-09-19 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维场景风格迁移方法、装置、设备及存储介质 |
CN117152326A (zh) * | 2023-08-09 | 2023-12-01 | 沈阳美行科技股份有限公司 | 一种基于神经辐射场的风格化图像生成方法、装置和设备 |
CN117237479A (zh) * | 2023-08-03 | 2023-12-15 | 苏州大学 | 基于扩散模型的产品风格自动生成方法、装置及设备 |
-
2024
- 2024-01-09 CN CN202410028439.9A patent/CN117541732A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115797571A (zh) * | 2023-02-03 | 2023-03-14 | 天津大学 | 3d风格化场景的新视角合成方法 |
CN117237479A (zh) * | 2023-08-03 | 2023-12-15 | 苏州大学 | 基于扩散模型的产品风格自动生成方法、装置及设备 |
CN117152326A (zh) * | 2023-08-09 | 2023-12-01 | 沈阳美行科技股份有限公司 | 一种基于神经辐射场的风格化图像生成方法、装置和设备 |
CN116934936A (zh) * | 2023-09-19 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维场景风格迁移方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
YAOSEN CHEN ET AL: "UPST-NeRF: Universal Photorealistic Style Transfer of Neural Radiance Fields for 3D Scene", ARXIV, 21 August 2022 (2022-08-21), pages 2 - 4 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808933A (zh) * | 2024-02-29 | 2024-04-02 | 成都索贝数码科技股份有限公司 | 一种图像要素分解与重构方法及装置 |
CN117808933B (zh) * | 2024-02-29 | 2024-05-24 | 成都索贝数码科技股份有限公司 | 一种图像要素分解与重构方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rudnev et al. | Nerf for outdoor scene relighting | |
Meshry et al. | Neural rerendering in the wild | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
WO2021103137A1 (zh) | 室内场景光照估计模型、方法、装置、存储介质以及渲染方法 | |
CN110191299A (zh) | 一种基于卷积神经网络的多重帧插值方法 | |
WO2020220516A1 (zh) | 图像生成网络的训练及图像处理方法、装置、电子设备、介质 | |
CN110120049B (zh) | 由单张图像联合估计场景深度与语义的方法 | |
CN117541732A (zh) | 一种文本引导的神经辐射场建筑物场景风格化方法 | |
Zhang et al. | Dinet: Deformation inpainting network for realistic face visually dubbing on high resolution video | |
CN116664782B (zh) | 一种基于融合体素的神经辐射场三维重建方法 | |
CN117496072B (zh) | 一种三维数字人生成和交互方法及系统 | |
WO2023066173A1 (zh) | 图像处理方法、装置及存储介质、电子设备 | |
CN114092774B (zh) | 基于信息流融合的rgb-t图像显著性检测系统及检测方法 | |
CN115239857B (zh) | 图像生成方法以及电子设备 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN115100337A (zh) | 一种基于卷积神经网络的全身人像视频重照明方法和装置 | |
CN117274501A (zh) | 一种可驱动数字人建模方法、装置、设备及介质 | |
Hilsmann et al. | Going beyond free viewpoint: creating animatable volumetric video of human performances | |
US20240119671A1 (en) | Systems and methods for face asset creation and models from one or more images | |
CN114004803A (zh) | 一种基于物体光照编辑的方法 | |
Reinhard et al. | On visual realism of synthesized imagery | |
CN113066114A (zh) | 一种基于Retinex模型的卡通风格迁移方法 | |
Xu | The research on applying artificial intelligence technology to virtual youtuber | |
CN117011357A (zh) | 基于3d运动流和法线图约束的人体深度估计方法及系统 | |
CN116310228A (zh) | 一种针对遥感场景的表面重建与新视图合成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |