CN117541732A

CN117541732A - 一种文本引导的神经辐射场建筑物场景风格化方法

Info

Publication number: CN117541732A
Application number: CN202410028439.9A
Authority: CN
Inventors: 钟剑丹; 李志强; 李英祥; 祖艺航; 张洪源; 邓伟; 姜虹羽; 刘凌峰; 宋翼桐
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2024-01-09
Filing date: 2024-01-09
Publication date: 2024-02-09

Abstract

本发明公开了一种文本引导的神经辐射场建筑物场景风格化方法，包括训练得到一建筑场景几何外观重建模型M1，用于生成内容图像；训练得到一风格化内容图像生成模型M2，用于得到风格化内容图像；用M1、M2构建一整体模型，训练得到融合模型，用户根据需求向融合模型输入一文本信息和一视角，融合模型输出该视角下的风格化内容图像。本发明在构造M1时构造一基于体素网格特征的NeRF模型，能优化NeRF网络结构，提高渲染速度，在构造M2时设计了SCYUVNet模型，能高效地产生高质量的风格转换结果。并克服了现有技术中，2D图片缺乏空间一致性约束和对3D场景多维度特征感知从而影响风格迁移效果的缺陷，使最终图像具有多视角下的空间一致性。

Description

一种文本引导的神经辐射场建筑物场景风格化方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种文本引导的神经辐射场建筑物场景风格化方法。

背景技术

近年来，探索一种高效的建筑物场景生成和风格化方法，是现在动漫、动画等视频艺术创作的缺口。计算机图形学依赖于计算机视觉算法助力而蓬勃发展，其中，基于三维隐式表示方法的NeRF因其在场景渲染方面的优异性能而取得了很大的进展。同时可以通过对场景外观的重建进行控制，该外观风格迁移技术可以减少艺术创作的时间并降低专业知识壁垒。例如将单个2D图像的艺术特征转移到渲染的3D场景中，从而改变3D场景中的风格。在缺乏风格图像的情况下，通过文本语义引导生成非常直观、具体的风格图片，再将风格图片风格特征迁移到3D场景中，是一条非常具有创新的技术路线。因此，在视频游戏、电影行业和元宇宙创作领域，高效生成一个具有艺术风格的建筑场景是亟需解决的技术问题。

另外，现有技术中，风格迁移为简单的2D图像到2D图像的风格迁移，生成的图片缺乏空间一致性约束和对3D场景多维度特征感知，所以不能对3D场景中任意视角图像生成具有良好表现。

名词解释：

NeRF是Neural Radiance Field的首字母缩写，中文为神经辐射场，它是一种基于神经网络的 3D 重建技术，传统的NeRF使用MLP来隐式学习3D空间中三维点和其颜色、密度的映射，从而从一组图像中重建一个体积场景表示，该方法可以渲染出任意视角下的照片，但不足之处是是需要较长的训练时间，以及低效率的新视角图片渲染。

发明内容

本发明的目的就在于提供一种解决目前建筑物场景不能快速生成、不能快速风格化等问题的，一种文本引导的神经辐射场建筑物场景风格化方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种文本引导的神经辐射场建筑物场景风格化方法，包括以下步骤：

S1，训练得到一建筑场景几何外观重建模型M1，用于生成内容图像，包括步骤S11~S15；

S11，采集建筑物多视角多姿态下的外观图像，每张外观图像均有一拍摄的视角d；

S12，确定一建筑场景几何外观重建的三维空间，划分为体素网格；

S13，构造一基于体素网格特征的NeRF模型M_NeRF；

所述M_NeRF包括密度体素网格、特征体素网格和RGBNet；

当输入一外观图像时，密度体素网格、特征体素网格分别输出每个体素网格的预测密度特征和预测颜色特征，对每个预测颜色特征，结合视角d得到每个体素网格在视角d的预测颜色特征，再经RGBNet输出每个体素网格的颜色值，对每个体素网格的预测密度特征、颜色值进行体渲染生成内容图像；

S14，构造M_NeRF的损失函数L _g，包括光度损失、RGB损失和背景熵损失；

S15，以S11采集的外观图像为输入、最小化L _g为训练目标，训练M_NeRF得到M1，该模型用于生成不同视角的建筑物图像，作为内容图像；

S2，训练得到一成风格化内容图像生成模型M2，包括S21~S24；

S21，用扩散模型对文本生成风格图像；

S22，构造一SCYUVNet模型，包括特征提取单元、特征融合单元和图像解码单元；

所述特征提取单元用于对风格图像和内容图像进行多尺度特征提取；

所述特征融合单元用于将特征提取单元输出的多尺度特征、风格图像和内容图像进行特征融合，得到风格化图像；

所述图像解码单元包括高斯滤波单元、RGB转YUV单元、AdaIN网络和YUV转RGB单元；

所述高斯滤波单元用于对进行高斯滤波，得到平滑风格图像/>；

RGB转YUV单元用于将内容图像、平滑风格图像分别转换到YUV色彩空间，得到色彩空间内容图像、色彩空间平滑风格图像/>；

所述AdaIN网络用于对、/>执行风格迁移，输出迁移图像/>；

所述YUV转RGB单元用于将转换到RGB空间，得到风格化内容图像；

S23，构造SCYUVNet模型的损失函数L _yuvs；

S24，以内容图像、风格图像为输入，最小化L _yuvs为训练目标，得到模型M2；

S3，训练得到融合模型；

S31，利用M1、M2构建一整体模型；

M1中，断开特征体素网格和RGBNet，每个体素网格在视角d的预测颜色特征经权重优化网络连接RGBNet，得到模型M1’；

M2中，扩散模型的输出的风格图像分出一路，经风格编码器、超网络连接权重优化网络，风格编码器对风格图像提取风格特征，超网络提取风格特征的权重数据，权重优化网络根据权重数据控制RGBNet的输出；

S32，训练，包括S32-1到S32-6；

S32-1，冻结密度体素网格、特征体素网格、风格编码器、SCYUVNet的参数；

S32-2，确定与风格相关的文本语义，经扩散模型生成风格图像；

S32-3，风格图像一路经SCYUVNet生成风格化内容图像，标记为I _pcs，一路用于约束权重优化网络的权重；

S32-4，用M1’生成一新视角的内容图像，标记为I _pc；

S32-5，计算I _pcs与I _pc的差异值，反向传播到权重优化网络中；

S32-6，权重优化网络根据权重数据和差异值，调整自身参数，并迭代学习至整体模型收敛，得到融合模型；

S4，用户根据需求向融合模型输入一文本信息和一视角，融合模型输出一图像，作为该视角下的风格化内容图像。

作为优选，S14具体为，根据下式构造M_NeRF的损失函数为，

（1），

（2），

（3），

式（1）中，为光度损失，/>为RGBNet的RGB损失，/>为背景熵损失，，/>，/>分别为对应损失的权重超参数；

式（2）中，R为一个采样的小批量射线集合，r为R中的一条射线，C(r)为指定视角渲染像素颜色值，C _gt(r)为指定视角像素颜色真值；

式（3）中，K为射线r上在预定义的近平面和远平面间的采样点数量，i为采样点i，i=1~K，α _i是在采样点i处终止的概率，T _i是从近平面到采样点i的累积透射率，c _i为采样点i的颜色值。

作为优选，S21中，扩散模型生成风格图像具体为，

将文本通过文本编码器得到一文本特征；

将文本特征和噪声信息作为输入，通过生成模型得到一中间特征；

将中间特征通过图像解码器，得到风格图像。

作为优选，SCYUVNet模型中：

所述特征提取单元包括两个下采样单元和两个VGG19网络；其中，两个下采样单元分别对风格图像和内容图像进行下采样，得到低分辨率风格图像和低分辨率内容图像/>，所述VGG19网络经过预训练，一VGG19网络用于从/>中从高到低提取4个不同尺度的风格图像特征SF1到SF4，另一VGG19网络用于从/>中从高到低提取4个不同尺度的内容图像特征CF1到CF4，SFj的尺度与SFj的尺度相同，1≤j≤4；

所述特征融合单元包括5个Splatting block网络模块SB1到SB5，将SFj与CFj构成一特征对，送入SBj中得到对应输出，将/>和/>也构成一特征对，送入SB5中得到对应输出/>，将/>~/>通过卷积网络后，依次进行特征拼接，得到拼接图像，再上采样得到风格化图像，其尺度与内容图像相同。

作为优选，S23中，根据下式构造SCYUVNet模型的损失函数L _yuvs；

（4），

式（4）中，L _s、L _c分别为AdaIN网络的风格损失和内容损失，λ _s、λ _c分别为L _s、L _c的权重超参数。

作为优选，S32-6中，训练整体模型时使用M_NeRF的损失函数。这里损失函数的公式虽然没有变化，但图片发生了改变，M_NeRF中，RGBNet输入连接特征体素网格，但整体模型时，RGBNet输入为权重优化网络。

与现有技术相比，本发明的优点在于：

本发明对神经辐射场模型进行改进，构造一基于体素网格特征的NeRF模型，在几何训练阶段使用体素网格直接优化场景的几何外观，以此来优化NeRF的网络结构，提高渲染速度，并利用基于体素网格特征的NeRF模型构造了模型M1。

设计了SCYUVNet模型，通过对风格图片的不同维度的风格语义信息学习，并将其与建筑场景任意视角图像的纹理和色彩特征相结合，高效地产生高质量的风格转换结果。SCYUVNet模型中的高斯滤波和YUV转换方法使得生成的风格化图像更加真实细腻并且在亮度上与内容图像保持一致。

M1和M2来构造融合模型，最终只需要输入视角和文本信息，就能渲染生成对应视角下的风格化内容图像。克服了现有技术中，2D图片缺乏空间一致性约束和对3D场景多维度特征感知从而影响风格迁移效果的技术缺陷，使得的最终的风格化内容图像具有多视角下的空间一致性，从而具有较好的风格化内容和一致性评价指标。

附图说明

图1为本发明流程图；

图2为模型M1的架构图；

图3为模型M2的架构图；

图4为融合模型的架构图；

图5为SCYUVNet模型的架构图。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1到图5，一种文本引导的神经辐射场建筑物场景风格化方法，包括以下步骤：

S13，构造一基于体素网格特征的NeRF模型M_NeRF；

所述M_NeRF包括密度体素网格、特征体素网格和RGBNet；

S2，训练得到一成风格化内容图像生成模型M2，包括S21~S24；

S21，用扩散模型对文本生成风格图像；

所述AdaIN网络用于对、/>执行风格迁移，输出迁移图像/>；

S23，构造SCYUVNet模型的损失函数L _yuvs；

S3，训练得到融合模型；

S31，利用M1、M2构建一整体模型；

S32，训练，包括S32-1到S32-6；

S32-4，用M1’生成一新视角的内容图像，标记为I _pc；

S14具体为，根据下式构造M_NeRF的损失函数为，

（1），

（2），

（3），

S21中，扩散模型生成风格图像具体为，

将文本通过文本编码器得到一文本特征；

将中间特征通过图像解码器，得到风格图像。

SCYUVNet模型中：所述特征提取单元包括两个下采样单元和两个VGG19网络；其中，两个下采样单元分别对风格图像和内容图像进行下采样，得到低分辨率风格图像和低分辨率内容图像/>，所述VGG19网络经过预训练，一VGG19网络用于从/>中从高到低提取4个不同尺度的风格图像特征SF1到SF4，另一VGG19网络用于从/>中从高到低提取4个不同尺度的内容图像特征CF1到CF4，SFj的尺度与SFj的尺度相同，1≤j≤4；

S23中，根据下式构造SCYUVNet模型的损失函数L _yuvs；

（4），

S32-6中，训练整体模型时使用M_NeRF的损失函数。

实施例2：参见图1到图5，在实施例1的基础上，我们给出更详细的方法如下：

S11采集建筑物多视角多姿态下的外观图像时：1、先进行拍摄条件约束：在特定场所如简单背景或者绿幕环境进行补光灯、相机等设备搭建；建筑物周围环境需在多角度采集过程中保持没有其他条件干扰，并且保持在很短时间间隔内采集避免出现大幅度光照变化。2、在约束的相同拍摄条件下，邀请10名自愿者拍摄不同视角和风格丰富的建筑物视频，每段视频大约持续20秒钟。最终收集到10段约20秒钟的建筑物视频片段。每个视频剪辑使用FFmpeg以15帧每秒的速率提取了100帧，总共1000帧建筑物数据集。3、使用COLMAP工具对这些帧进行相机姿势估计，其中使用了刚性相对相机姿势约束。并且假设一段视频中的所有帧共享相同的相机内部参数。其余与实施例1相同。

实施例3：基于实施例1的方案，本实施例使用图片感知相似度LPIPS指标来衡量模型在新视角渲染时的短期和长期一致性。LPIPS指标来源于LPIPS模型，该模型使用两幅图像作为输入，然后输出它们之间的感知相似性分数。

本实施例在公开数据集LLFF的五个场景上进行评估，五个场景分别为：Fern蕨类、Flower花朵、Horns牛角、Orchids兰花和Trex恐龙。

本实施例采用5种图像处理方法对公开数据集LLFF进行渲染，得到各自的输出。5种方法分别是：AdaIN方法、MCCNet方法、ReReVST方法、ARF方法和本发明方法。

具体的：对数据集LLFF中蕨类场景，将场景中第u张、第v张图片作为一对，用AdaIN方法渲染得到图片O_u、O_v，并计算O_u、O_v的LPIPS指标。当v=u+1时，我们称O_u、O_v的LPIPS指标为短期一致性，当v=u+5时，我们称O_u、O_v的LPIPS指标为长期一致性。

按LLFF中蕨类场景的方法，对上述5个场景，用5种方法，各选取20对图片，分别计算其短期一致性和短期一致性，得到下表1和表2。

表1：短期一致性结果对比表

，

表2：长期一致性结果对比表

，

从表1和表2可知，本发明一致性评价指标较其他方法更好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本引导的神经辐射场建筑物场景风格化方法，其特征在于，包括以下步骤：

S13，构造一基于体素网格特征的NeRF模型M_NeRF；

所述M_NeRF包括密度体素网格、特征体素网格和RGBNet；

S2，训练得到一成风格化内容图像生成模型M2，包括S21~S24；

S21，用扩散模型对文本生成风格图像；

所述AdaIN网络用于对、/>执行风格迁移，输出迁移图像/>；

S23，构造SCYUVNet模型的损失函数L _yuvs；

S3，训练得到融合模型；

S31，利用M1、M2构建一整体模型；

S32，训练，包括S32-1到S32-6；

S32-4，用M1’生成一新视角的内容图像，标记为I _pc；

2.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法，其特征在于，S14具体为，根据下式构造M_NeRF的损失函数为，

（1），

（2），

（3），

3.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法，其特征在于，S21中，扩散模型生成风格图像具体为，

将文本通过文本编码器得到一文本特征；

将中间特征通过图像解码器，得到风格图像。

4.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法，其特征在于，SCYUVNet模型中：

所述特征融合单元包括5个Splatting block网络模块SB1到SB5，将SFj与CFj构成一特征对，送入SBj中得到对应输出，将/>和/>也构成一特征对，送入SB5中得到对应输出，将/>~/>通过卷积网络后，依次进行特征拼接，得到拼接图像，再上采样得到风格化图像，其尺度与内容图像相同。

5.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法，其特征在于，S23中，根据下式构造SCYUVNet模型的损失函数L _yuvs；

（4），

6.根据权利要求1所述的一种文本引导的神经辐射场建筑物场景风格化方法，其特征在于，S32-6中，训练整体模型时使用M_NeRF的损失函数。