CN114926553A - 基于神经辐射场的三维场景一致性风格化方法及系统 - Google Patents

基于神经辐射场的三维场景一致性风格化方法及系统 Download PDF

Info

Publication number
CN114926553A
CN114926553A CN202210517934.7A CN202210517934A CN114926553A CN 114926553 A CN114926553 A CN 114926553A CN 202210517934 A CN202210517934 A CN 202210517934A CN 114926553 A CN114926553 A CN 114926553A
Authority
CN
China
Prior art keywords
stylized
content
picture
loss
color
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210517934.7A
Other languages
English (en)
Inventor
高林
黄熠华
何月
袁宇杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202210517934.7A priority Critical patent/CN114926553A/zh
Publication of CN114926553A publication Critical patent/CN114926553A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/80Shading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Image Generation (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提出一种基于神经辐射场的三维场景一致性风格化方法和系统。通过引入2D风格化模型和3D神经辐射场互学习的策略,让神经辐射场获得了像素级的精准风格化监督,同时减少了2D风格化模型的不一致性对神经辐射场结果的损害。引入的条件概率建模的可学习变量在学习到2D风格化结果的不一致性,进一步降低了神经辐射场的模糊,与此同时让神经辐射场能够条件化的对三维场景进行风格化渲染。本发明能够基于一组风格图片,和同一场景不同视角的一组图片,建模出该场景的风格化神经辐射场。可给定场景的任意新视角和一张风格图片,渲染出该视角下符合风格图片的风格效果的场景图片,渲染结果在不同视角下满足一致性。

Description

基于神经辐射场的三维场景一致性风格化方法及系统
技术领域
本发明涉及计算机图形学的几何处理领域,尤其涉及对于三维场景的建模和外观编辑。
背景技术
建模和控制复杂真实的三维场景外观一直都是计算机视觉与图形学领域中非常基础且重要的前沿热点问题。其中的三维场景风格化在游戏、电影、虚拟现实、增强现实等领域有着巨大的应用前景。三维场景风格化的研究挑战之一在于对场景的外观进行控制的同时保持多视角的一致性。现有技术方法可将风格化扩展到三维场景上。该方法使用了特征点云来表示场景,通过深度网络进行特征转换以实现风格迁移。在渲染风格化图片时,首先将特征投影到图片平面上,再通过卷积神经网络回归得到风格化的颜色。现有技术方法还使用了NeRF(神经辐射场)对场景进行建模和风格化。使用一个变分自编码器编码2D图片的风格,将编码后的风格作为NeRF的输入,渲染得到风格化的图片。受限于GPU的内存,训练过程中无法采样整张图片或是大的图块。该方法使用了子集采样的方法,通过一个小的图块来近似一个大图块,并在其上计算风格化损失和内容损失。风格化损失和内容损失通过预训练的卷积神经网络分类器VGG提取图片特征后,计算风格化结果和风格图片、内容图片的逐通道均值方差的距离以及特征距离得到。
上述现有技术提出的方法需要显式的点云几何作为代理,但其点云的获得依赖于传统的运动恢复结构SfM技术,存在着几何上的误差。同时由于离散的点云难以进行位置信息的训练优化,导致了风格化结果存在着较多的几何破损和失准。上述另一现有技术通过神经辐射场对几何进行了学习和优化。但该方法所用到的神经辐射场有巨大的GPU内存开销,依赖于近似大图块的小图块进行风格化损失和内容损失的计算,造成了风格化结果中精细几何与纹理的缺乏。对于如何利用神经辐射场进行场景几何外观优化的同时,确保风格化损失和内容损失的精确计算,提升风格化结果的质量,成为了研究关注的重点。
发明内容
本发明的目的是克服三维场景风格化任务中对于神经辐射场的训练无法使用大图块计算风格化损失和内容损失进行训练的问题以及使用2D风格化方法辅助训练神经辐射场导致的模糊问题。具体来说本发明提出了一种基于神经辐射场的三维场景一致性风格化方法,其中包括
步骤1、获取风格图片和一组相同场景不同视角的内容图片;
步骤2、使用特征提取模型分别对该内容图片和该风格图片进行特征提取,得到该内容图片的内容特征和该风格图片的风格特征;内容特征通过线性变换,将其均值和方差与风格特征的均值和方差对齐,通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作,得到第一风格化内容图片;
步骤3、该第一风格化内容图片经过该特征提取模型提取出中间特征,根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离,作为风格化损失;根据该中间特征与该内容特征之间的L2距离,作为内容损失,通过优化该内容损失和该风格化损失训练卷积网络解码器,得到具备风格化能力的中间解码器;
步骤4、通过神经辐射场,渲染出该场景多个视角下的颜色图片和深度图片,经过该特征提取模型依次提取每张颜色图片的特征,并将其与风格特征的均值方差对齐后,使用该中间解码器恢复为风格化的第二风格化内容图片;根据每张第二风格化内容图片的深度以及视角,将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角,得到多张颜色投影图片及其对应的深度投影图片;根据深度投影图片,筛除颜色投影图片中深度差距过大的像素点,计算筛除后的颜色投影图片之间的颜色误差作为一致性损失,通过该一致性损失、该风格化损失和该内容损失,对该中间解码器进行训练,得到最终解码器;
步骤5、将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器,得到风格化图片结果。
所述的基于神经辐射场的三维场景一致性风格化方法,其中该神经辐射场具有风格化颜色预测模块,且该神经辐射场的训练方法包括:
该风格化颜色预测模块接收空间坐标x和表示风格的隐向量,输出该空间位置在该风格下的辐射颜色,在训练的过程中,为每个训练样本分配隐变量lij,每个训练样本由内容图片Ci和风格图片Sj组成{Ci,Sj};
卷积神经网络分类器VGG将内容图片Ci风格化后得到风格化图片
Figure BDA0003640499100000031
该风格化颜色预测模块预测出光线Rh上各个采样点的颜色chk,通过该神经辐射场的几何预测模块得到各采样点的不透明度σjk,沿光线方向组合得到该光线Rh的颜色
Figure BDA0003640499100000032
其中Tk表示第k个采样点之前的采样点由自身不透明性对应的遮挡系数,并基于该颜色
Figure BDA0003640499100000033
得到风格化图片
Figure BDA0003640499100000034
Figure BDA0003640499100000035
计算其损失Lmimic以约束2D和3D辐射场的风格化结果,Lmimic为风格化图片
Figure BDA0003640499100000036
和风格化图片
Figure BDA0003640499100000037
间的L2距离;该神经辐射场训练阶段的损失函数为:LmimicdLd;该卷积神经网络分类器VGG训练阶段的损失函数为:λmLmimicsLscLc;其中Ls,Lc是该风格化损失和该内容损失,λd、λm、λs和λc均为预设权重。
所述的基于神经辐射场的三维场景一致性风格化方法,其中为每个训练样本分配隐变量lij具体包括:
将Sj的特征编码映射到隐分布
Figure BDA0003640499100000038
上,对于隐向量lij,在训练过程中计算其负对数似然损失
Figure BDA0003640499100000039
以约束隐向量lij符合分布
Figure BDA00036404991000000310
本发明还提出了一种基于神经辐射场的三维场景一致性风格化系统,其中包括:
初始模块,用于获取风格图片和一组相同场景不同视角的内容图片;
线性变换模块,用于使用特征提取模型分别对该内容图片和该风格图片进行特征提取,得到该内容图片的内容特征和该风格图片的风格特征;内容特征通过线性变换,将其均值和方差与风格特征的均值和方差对齐,通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作,得到第一风格化内容图片;
损失计算模块,用于该第一风格化内容图片经过该特征提取模型提取出中间特征,根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离,作为风格化损失;根据该中间特征与该内容特征之间的L2距离,作为内容损失,通过优化该内容损失和该风格化损失训练卷积网络解码器,得到具备风格化能力的中间解码器;
训练模块,用于通过神经辐射场,渲染出该场景多个视角下的颜色图片和深度图片,经过该特征提取模型依次提取每张颜色图片的特征,并将其与风格特征的均值方差对齐后,使用该中间解码器恢复为风格化的第二风格化内容图片;根据每张第二风格化内容图片的深度以及视角,将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角,得到多张颜色投影图片及其对应的深度投影图片;根据深度投影图片,筛除颜色投影图片中深度差距过大的像素点,计算筛除后的颜色投影图片之间的颜色误差作为一致性损失,通过该一致性损失、该风格化损失和该内容损失,对该中间解码器进行训练,得到最终解码器;
风格化模块,用于将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器,得到风格化图片结果。
所述的基于神经辐射场的三维场景一致性风格化系统,其中该神经辐射场具有风格化颜色预测模块,且该神经辐射场的训练方法包括:
该风格化颜色预测模块接收空间坐标x和表示风格的隐向量,输出该空间位置在该风格下的辐射颜色,在训练的过程中,为每个训练样本分配隐变量lij,每个训练样本由内容图片Ci和风格图片Sj组成{Ci,Sj};
卷积神经网络分类器VGG将内容图片Ci风格化后得到风格化图片
Figure BDA0003640499100000041
该风格化颜色预测模块预测出光线Rh上各个采样点的颜色chk,通过该神经辐射场的几何预测模块得到各采样点的不透明度σjk,沿光线方向组合得到该光线Rh的颜色
Figure BDA0003640499100000042
其中Tk表示第k个采样点之前的采样点由自身不透明性对应的遮挡系数,并基于该颜色
Figure BDA0003640499100000043
得到风格化图片
Figure BDA0003640499100000044
Figure BDA0003640499100000045
计算其损失Lmimic以约束2D和3D辐射场的风格化结果,Lmimic为风格化图片
Figure BDA0003640499100000046
和风格化图片
Figure BDA0003640499100000047
间的L2距离;该神经辐射场训练阶段的损失函数为:LmimicdLd;该卷积神经网络分类器VGG训练阶段的损失函数为:λmLmimicsLscLc;其中Ls,Lc是该风格化损失和该内容损失,λd、λm、λs和λc均为预设权重。
所述的基于神经辐射场的三维场景一致性风格化系统,其中为每个训练样本分配隐变量lij具体包括:
将Sj的特征编码映射到隐分布
Figure BDA0003640499100000048
上,对于隐向量lij,在训练过程中计算其负对数似然损失
Figure BDA0003640499100000049
以约束隐向量lij符合分布
Figure BDA00036404991000000410
本发明还提出了一种服务器,用于实施所述任意一种基于神经辐射场的三维场景一致性风格化方法。
本发明还提出了一种存储介质,用于存储执行所述基于神经辐射场的三维场景一致性风格化的程序。
本发明还提出了一种客户端,用于所述任意一种基于神经辐射场的三维场景一致性风格化系统。该客户端为手机应用APP或电脑应用软件。
由以上方案可知,本发明的优点在于:
本发明通过引入2D风格化模型和3D神经辐射场互学习的策略,让神经辐射场获得了像素级的精准风格化监督,同时减少了2D风格化模型的不一致性对神经辐射场结果的损害。引入的条件概率建模的可学习变量在学习到2D风格化结果的不一致性,进一步降低了神经辐射场的模糊,与此同时让神经辐射场能够条件化的对三维场景进行风格化渲染。本项发明能够基于一组风格图片,和同一场景不同视角的一组图片,建模出该场景的风格化神经辐射场。可给定场景的任意新视角和一张风格图片,渲染出该视角下符合风格图片的风格效果的场景图片,渲染结果在不同视角下满足一致性,不会出现同一位置的渲染颜色有较大差异的问题。
附图说明
图1为本发明方法的框架图;
图2为本发明方法在视频风格化的比对结果图;
图3为本发明方法和LSNV的比对结果图;
图4为本发明方法和SIRP的比对结果图。
具体实施方式
鉴于已有方法存在各种局限性,本发明从三维场景的精准建模和训练策略的角度对三维场景风格化算法进行改进。本发明的一个重点是使用神经辐射场来对三维场景进行风格化表达,同时使用了2D卷积网络与3D神经辐射场互学习的方法进行模型的训练。神经辐射场能够精准的重建场景的几何与外观,近年来受到了广泛关注。但神经辐射场的风格化训练存在着巨大的技术挑战。一方面,神经辐射场的计算需要巨大的显存开销,在消费级的单张英伟达显卡RTX 2080Ti上,至多只能容纳2048根光线的颜色计算。而2D图片上广泛采用的风格化损失和内容损失需要较大的图块(512*512根光线)才能进行准确的计算。如果使用小图块近似大图快的策略则会导致精度和效果的损失。本发明采用了2D-3D互学习策略,引入了2D卷积网络进行大图块上的风格化损失和内容损失计算,并通过一个对齐误差将损失梯度传播到神经辐射场上。另一方面,神经辐射场对于训练数据中的不一致性非常敏感,而2D卷积网络的风格化结果由于缺乏空间感知,存在着严重的不一致性,容易造成神经辐射场的渲染结果中出现严重的模糊。本发明针对这一挑战引入了条件概率建模的可学习隐变量,来对不一致性进行表示,同时使用了互学习机制来让神经辐射场规范2D卷积网络的一致性,从而避免了结果的模糊,同时支持了条件风格化功能。具体来说本申请包括如下核心技术点:
关键点1,基于神经辐射场建模风格化的三维场景。通过学习的方法优化辐射场的几何和风格化外观。技术效果;基于神经辐射场的建模,计算出场景在不同风格、不同视角下的高质量风格化图片,并保持了场景的一致性;
关键点2,;引入了2D卷积神经网络的风格化模型与3D神经辐射场之间的互学习策略,将风格化知识从2D模型传播给3D辐射场,将空间一致性先验从3D辐射场蒸馏到2D风格化模型;技术效果为能够在单张消费级的英伟达显卡(如RTX 2080Ti)上进行大图块的风格化损失和内容损失计算,损失函数包含的风格化知识传播给3D辐射场指导其进行空间一致性的风格化,训练得到具备风格化效果的神经辐射场;
关键点3,针对2D风格化模型的风格化知识的不一致会造成3D神经辐射场的输出模糊的问题,引入了条件概率建模的可学习隐向量作为风格化神经辐射场的输入;技术效果通过变分自编码器建模的可学习隐变量能够在保证3D神经辐射场具备风格化效果的同时,学习到不同视角2D风格化方法的不一致性,从而避免了不一致性被辐射场参数捕捉而造成模糊。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
本发明的任务是,给定一组风格化图片以及一组同一场景不同视角的图片,得到任意新视角下,满足任一风格化图片的风格效果的场景图。为了达到这个目标,本发明引入了互学习策略来优化风格化神经辐射场和2D卷积风格化模型。为了避免2D卷积模型的不一致性造成神经辐射场渲染结果的模糊,使用了两个针对性的策略,一个是利用神经辐射场的3D一致性来训练2D卷积风格化模型,降低其不一致性程度,另一个是引入了可学习的条件概率建模的隐变量来捕捉不一致性,同时让神经辐射场能够条件化的进行风格化渲染。
本发明利用2D卷积神经网络作为解码器,搭配神经辐射场NeRF进行互学习。2D风格化模型采用预训练的卷积神经网络分类器(VGG网络)来提取内容图片和风格图片的特征。内容图片的特征通过线性变换,将其均值和方差与风格图片特征的均值和方差对齐。经过特征对齐后的内容图片特征输入到一个卷积网络解码器中,经过反卷积等操作恢复出风格化之后的内容图片。风格化内容图片再经过VGG网络提取出特征,计算其特征的均值与方差与风格图片特征的均值与方差之间的L2距离,作为风格化损失。风格化内容图片经过VGG提取的特征与内容图片提取得到的深层次特征之间的L2距离作为内容损失。通过优化这两个损失,训练得到一个具备风格化能力的解码器。为了让该解码器能够保持较好的一致性以参与后续的互学习过程,本发明首先对该解码器进行一致性的预训练。通过一个训练好的神经辐射场,渲染出场景多个视角下的颜色图片和深度图片。将拍摄视角相近的颜色图片经过VGG提取特征,对齐风格特征的均值方差之后,使用解码器恢复风格化的内容图片。由于已知这些图片的深度以及视角,因此将这些图片的像素点重新投影到同一视角下,得到重投影的颜色图片和深度图片。通过筛除重新投影后深度差距过大的像素点来筛除遮挡等特殊情况,计算筛除后的颜色图片之间的颜色误差并得到一致性损失。一致性预训练阶段,通过一致性损失、风格化损失以及内容损失三种损失搭配,对2D卷积解码器进行训练。
本发明为神经辐射场添加了一个额外的风格化颜色预测模块,该模块接收空间坐标x和表示风格的隐向量l作为输入,输出该空间位置在该风格下的辐射颜色c。考虑到2D风格化方法得到的风格化图片并不一致,容易导致神经辐射场的结果出现模糊。因此,在训练的过程中,本发明为每一张训练样本引入了一个可学习的隐变量。每个训练样本由一张内容图片Ci和一个风格图片Sj组成{Ci,Sj},2D风格化模型将内容图片风格化后得到风格化图片
Figure BDA0003640499100000071
对应该训练样本,对于每个赋予其一个可训练的隐向量lij。神经辐射场的风格化颜色预测模块预测出光线Rh上各个采样点的颜色chk后,用原神经辐射场的几何预测模块预测采样点的不透明度σjk,沿光线方向组合得到了该光线的颜色
Figure BDA0003640499100000072
其中
Figure BDA0003640499100000073
表示第k个采样点之前的采样点由于自身不透明性质得到的遮挡系数,cs表示风格化神经辐射场的颜色预测函数,rhk表示光线h上的第k个采样点的坐标,σk表示第k个采样点的不透明度,δk表示第k个采样点和同一根光线上的下一个采样点之间的距离。训练样本来源于2D风格化模型,由于每个样本都有独自的可学习隐向量lij,因此样本之间的不一致性不会被共用的神经辐射场系数学习到,而更容易表达在隐向量lij上,从而在一定程度上避免了神经辐射场输出模糊的结果。为了让神经辐射场能够条件化的进行风格化渲染,本发明中对可学习的隐向量lih进行了条件概率建模。为了建模隐向量lij和条件变量Sj之间的关系,本发明中引入了一个变分自编码器,将条件变量Sj映射到高斯分布
Figure BDA0003640499100000081
上。对于隐向量lij,在训练过程中计算其负对数似然损失
Figure BDA0003640499100000082
用以约束其符合分布
Figure BDA0003640499100000083
经过Ld约束,同样风格的隐变量能够聚成一类,确保了在测试阶段使用μj作为条件输入控制神经辐射场风格化渲染时能够在不同视角下都达到接近lij控制的渲染结果。
互学习阶段,对于2D卷积风格化方法得到的风格化图片
Figure BDA0003640499100000084
计算其风格化损失Ls和内容损失Lc,同时添加一项额外的损失Lmimic来约束2D方法和3D辐射场的风格化结果接近。Lmimic=||SC3D-SC2D||2定义为2D方法的输出和3D方法输出之间的L2距离。这项损失能够让2D方法学习到3D辐射场的一致性。对于3D辐射场得到的风格化结果
Figure BDA0003640499100000085
同样使用Lmimic约束其与
Figure BDA0003640499100000086
距离接近。对于3D辐射场的风格化模块和可学习隐向量,互学习阶段的损失函数为:LmimicdLd。对于2D卷积风格化方法,其互学习阶段的损失函数为:λmLmimicsLscLc。其中Ls,Lc是风格化和内容损失,定义为VGG提取的特征方差,均值的L2距离以及深层次特征距离Ls=∑l||var(VGG(SC2D)l)-var(VGG(S)l)||2,Lc=||VGG(SC2D)l′-VGG(C)l′||2,l′表示VGG隐空间的深层,λd,λs,λc是损失项的权重系数。
整个方法的框架如图1所示。流程可总结为
1、训练出一个表示原场景的神经辐射场NeRF。
2、基于NeRF渲染出一系列新视角图片,并搭配风格化图片预训练2D卷积解码器,训练的损失函数使用风格化损失、内容损失以及一致性损失。
3、对于风格图片,将其风格特征使用预训练的VGG网络提取出来。再训练一个变分自编码器VAE将这些特征编码到隐分布上
Figure BDA0003640499100000091
4、初始化风格化颜色预测模块,为每个风格化训练样本{Ci,Sj}赋予一个可学习的隐向量lij,隐向量的初始化通过在相应的隐分布上采样得到。
5、在训练样本{Ci,Sj}上进行采样,将可学习的隐变量lij作为神经辐射场的输入,控制神经辐射场渲染出颜色
Figure BDA0003640499100000092
2D风格化结果得到
Figure BDA0003640499100000093
使用Lmimic,Ld,Ls,Lc对2D解码器和风格化神经辐射场进行优化。
在训练完成后,可以使用训练好的风格化神经辐射场进行风格化渲染。将制定的风格图片的VAE编码得到的分布均值作为控制向量输入到风格化神经辐射场中。对指定角度的光线上进行采样,计算不透明度和风格化辐射光颜色,再组合得到光线最终的颜色。以此方式渲染出各张图片。
风格化神经辐射场的训练和测试是在真实的三维场景数据集上进行的,其中包括360度无界场景数据集Tanks Templates,前向视角场景数据集LLFF。Tanks Templates中测试了六个场景,包括:M60,Train,Truck,Playground,Friency,Family。LLFF中测试了七个场景。
这里与四种相关工作进行对比,其中包括两种视频风格化方法MCCNet和ReReVST,两种三维场景风格化方法LSNV和SIRP。和视频风格化方法的比对结果如附图2所示(其中由于本申请风格化效果展示需要依托彩色图片,才能清楚的体现图片风格及风格化效果,故采用彩色图片),视频风格化方法对于长时段的一致性保持较差,会出现闪烁的情况,本发明基于物理渲染的方法可以从根本上杜绝了不一致的发生。和LSNV的比对结果如图3所示,由于LSNV采用点云的表示方法,几何上会出现缺漏和失准的情况,而本发明采用的神经辐射场对场景的几何有着精准的建模。和SIRP的比对结果如图4所示,SIRP使用近似采样的方法,导致了结果缺失了细节内容。本发明采用了互学习的学习方法,在2D风格化结果上使用更大的图块计算风格化损失和内容损失并传导到神经辐射场上,因此可以得到更精细的风格化结果。
通过上述风格化实验的结果可以看出,本发明提出的风格化神经辐射场几何的方法,能够支持用户对场景的高效风格化建模,同时保证理想的一致性风格化结果,相比已有方法具有更高的实用价值和更优异的性能。以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种基于神经辐射场的三维场景一致性风格化系统,其中包括:
初始模块,用于获取风格图片和一组相同场景不同视角的内容图片;
线性变换模块,用于使用特征提取模型分别对该内容图片和该风格图片进行特征提取,得到该内容图片的内容特征和该风格图片的风格特征;内容特征通过线性变换,将其均值和方差与风格特征的均值和方差对齐,通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作,得到第一风格化内容图片;
损失计算模块,用于该第一风格化内容图片经过该特征提取模型提取出中间特征,根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离,作为风格化损失;根据该中间特征与该内容特征之间的L2距离,作为内容损失,通过优化该内容损失和该风格化损失训练卷积网络解码器,得到具备风格化能力的中间解码器;
训练模块,用于通过神经辐射场,渲染出该场景多个视角下的颜色图片和深度图片,经过该特征提取模型依次提取每张颜色图片的特征,并将其与风格特征的均值方差对齐后,使用该中间解码器恢复为风格化的第二风格化内容图片;根据每张第二风格化内容图片的深度以及视角,将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角,得到多张颜色投影图片及其对应的深度投影图片;根据深度投影图片,筛除颜色投影图片中深度差距过大的像素点,计算筛除后的颜色投影图片之间的颜色误差作为一致性损失,通过该一致性损失、该风格化损失和该内容损失,对该中间解码器进行训练,得到最终解码器;
风格化模块,用于将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器,得到风格化图片结果。
所述的基于神经辐射场的三维场景一致性风格化系统,其中该神经辐射场具有风格化颜色预测模块,且该神经辐射场的训练方法包括:
该风格化颜色预测模块接收空间坐标x和表示风格的隐向量,输出该空间位置在该风格下的辐射颜色,在训练的过程中,为每个训练样本分配隐变量lij,每个训练样本由内容图片Ci和风格图片Sj组成{Ci,Sj};
卷积神经网络分类器VGG将内容图片Ci风格化后得到风格化图片
Figure BDA0003640499100000111
该风格化颜色预测模块预测出光线Rh上各个采样点的颜色chk,通过该神经辐射场的几何预测模块得到各采样点的不透明度σjk,沿光线方向组合得到该光线Rh的颜色
Figure BDA0003640499100000112
其中Tk表示第k个采样点之前的采样点由自身不透明性对应的遮挡系数,并基于该颜色
Figure BDA0003640499100000113
得到风格化图片
Figure BDA0003640499100000114
Figure BDA0003640499100000115
计算其损失Lmimic以约束2D和3D辐射场的风格化结果,Lmimic为风格化图片
Figure BDA0003640499100000116
和风格化图片
Figure BDA0003640499100000117
间的L2距离;该神经辐射场训练阶段的损失函数为:LmimicdLd;该卷积神经网络分类器VGG训练阶段的损失函数为:λmLmimicsLscLc;其中Ls,Lc是该风格化损失和该内容损失,λd、λm、λs和λc均为预设权重。
所述的基于神经辐射场的三维场景一致性风格化系统,其中为每个训练样本分配隐变量lij具体包括:
将Sj的特征编码映射到隐分布
Figure BDA0003640499100000118
上,对于隐向量lij,在训练过程中计算其负对数似然损失
Figure BDA0003640499100000119
以约束隐向量lij符合分布
Figure BDA00036404991000001110
本发明还提出了一种服务器,用于实施所述任意一种基于神经辐射场的三维场景一致性风格化方法。
本发明还提出了一种存储介质,用于存储执行所述基于神经辐射场的三维场景一致性风格化的程序。
本发明还提出了一种客户端,用于所述任意一种基于神经辐射场的三维场景一致性风格化系统。该客户端为手机应用APP或电脑应用软件。

Claims (10)

1.一种基于神经辐射场的三维场景一致性风格化方法,其特征在于,包括
步骤1、获取风格图片和一组相同场景不同视角的内容图片;
步骤2、使用特征提取模型分别对该内容图片和该风格图片进行特征提取,得到该内容图片的内容特征和该风格图片的风格特征;内容特征通过线性变换,将其均值和方差与风格特征的均值和方差对齐,通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作,得到第一风格化内容图片;
步骤3、该第一风格化内容图片经过该特征提取模型提取出中间特征,根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离,作为风格化损失;根据该中间特征与该内容特征之间的L2距离,作为内容损失,通过优化该内容损失和该风格化损失训练卷积网络解码器,得到具备风格化能力的中间解码器;
步骤4、通过神经辐射场,渲染出该场景多个视角下的颜色图片和深度图片,经过该特征提取模型依次提取每张颜色图片的特征,并将其与风格特征的均值方差对齐后,使用该中间解码器恢复为风格化的第二风格化内容图片;根据每张第二风格化内容图片的深度以及视角,将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角,得到多张颜色投影图片及其对应的深度投影图片;根据深度投影图片,筛除颜色投影图片中深度差距过大的像素点,计算筛除后的颜色投影图片之间的颜色误差作为一致性损失,通过该一致性损失、该风格化损失和该内容损失,对该中间解码器进行训练,得到最终解码器;
步骤5、将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器,得到风格化图片结果。
2.如权利要求1所述的基于神经辐射场的三维场景一致性风格化方法,其特征在于,该神经辐射场具有风格化颜色预测模块,且该神经辐射场的训练方法包括:
该风格化颜色预测模块接收空间坐标x和表示风格的隐向量,输出该空间位置在该风格下的辐射颜色,在训练的过程中,为每个训练样本分配隐变量lij,每个训练样本由内容图片Ci和风格图片Sj组成{Ci,Sj};
卷积神经网络分类器VGG将内容图片Ci风格化后得到风格化图片
Figure FDA0003640499090000011
该风格化颜色预测模块预测出光线Rh上各个采样点的颜色chk,通过该神经辐射场的几何预测模块得到各采样点的不透明度σjk,沿光线方向组合得到该光线Rh的颜色
Figure FDA0003640499090000021
其中Tk表示第k个采样点之前的采样点由自身不透明性对应的遮挡系数,并基于该颜色
Figure FDA0003640499090000022
得到风格化图片
Figure FDA0003640499090000023
Figure FDA0003640499090000024
计算其损失Lmimic以约束2D和3D辐射场的风格化结果,Lmimic为风格化图片
Figure FDA0003640499090000025
和风格化图片
Figure FDA0003640499090000026
间的L2距离;该神经辐射场训练阶段的损失函数为:LmimicdLd;该卷积神经网络分类器VGG训练阶段的损失函数为:λmLmimicsLscLc;其中Ls,Lc是该风格化损失和该内容损失,λd、λm、λs和λc均为预设权重。
3.如权利要求2所述的基于神经辐射场的三维场景一致性风格化方法,其特征在于,为每个训练样本分配隐变量lij具体包括:
将Sj的特征编码映射到隐分布
Figure FDA0003640499090000027
上,对于隐向量lij,在训练过程中计算其负对数似然损失
Figure FDA0003640499090000028
以约束隐向量lij符合分布
Figure FDA0003640499090000029
4.一种基于神经辐射场的三维场景一致性风格化系统,其特征在于,包括
初始模块,用于获取风格图片和一组相同场景不同视角的内容图片;
线性变换模块,用于使用特征提取模型分别对该内容图片和该风格图片进行特征提取,得到该内容图片的内容特征和该风格图片的风格特征;内容特征通过线性变换,将其均值和方差与风格特征的均值和方差对齐,通过卷积网络解码器对经特征对齐后的内容特征进行反卷积操作,得到第一风格化内容图片;
损失计算模块,用于该第一风格化内容图片经过该特征提取模型提取出中间特征,根据该中间特征的均值与方差与该风格特征的均值与方差之间的L2距离,作为风格化损失;根据该中间特征与该内容特征之间的L2距离,作为内容损失,通过优化该内容损失和该风格化损失训练卷积网络解码器,得到具备风格化能力的中间解码器;
训练模块,用于通过神经辐射场,渲染出该场景多个视角下的颜色图片和深度图片,经过该特征提取模型依次提取每张颜色图片的特征,并将其与风格特征的均值方差对齐后,使用该中间解码器恢复为风格化的第二风格化内容图片;根据每张第二风格化内容图片的深度以及视角,将预设视角范围内的第二风格化内容图片图片的像素点投影至同一视角,得到多张颜色投影图片及其对应的深度投影图片;根据深度投影图片,筛除颜色投影图片中深度差距过大的像素点,计算筛除后的颜色投影图片之间的颜色误差作为一致性损失,通过该一致性损失、该风格化损失和该内容损失,对该中间解码器进行训练,得到最终解码器;
风格化模块,用于将待风格化的一组相同场景不同视角的内容图片依次输入该特征提取模型和该最终解码器,得到风格化图片结果。
5.如权利要求4所述的基于神经辐射场的三维场景一致性风格化系统,其特征在于,该神经辐射场具有风格化颜色预测模块,且该神经辐射场的训练方法包括:
该风格化颜色预测模块接收空间坐标x和表示风格的隐向量,输出该空间位置在该风格下的辐射颜色,在训练的过程中,为每个训练样本分配隐变量lij,每个训练样本由内容图片Ci和风格图片Sj组成{Ci,Sj};
卷积神经网络分类器VGG将内容图片Ci风格化后得到风格化图片
Figure FDA0003640499090000031
该风格化颜色预测模块预测出光线Rh上各个采样点的颜色chk,通过该神经辐射场的几何预测模块得到各采样点的不透明度σjk,沿光线方向组合得到该光线Rh的颜色
Figure FDA0003640499090000032
其中Tk表示第k个采样点之前的采样点由自身不透明性对应的遮挡系数,并基于该颜色
Figure FDA0003640499090000033
得到风格化图片
Figure FDA0003640499090000034
Figure FDA0003640499090000035
计算其损失Lmimic以约束2D和3D辐射场的风格化结果,Lmimic为风格化图片
Figure FDA0003640499090000036
和风格化图片
Figure FDA0003640499090000037
间的L2距离;该神经辐射场训练阶段的损失函数为:λmimicdLd;该卷积神经网络分类器VGG训练阶段的损失函数为:λmLmimicsLscLc;其中Ls,Lc是该风格化损失和该内容损失,λd、λm、λs和λc均为预设权重。
6.如权利要求5所述的基于神经辐射场的三维场景一致性风格化系统,其特征在于,为每个训练样本分配隐变量lij具体包括:
将Sj的特征编码映射到隐分布
Figure FDA0003640499090000038
上,对于隐向量lij,在训练过程中计算其负对数似然损失
Figure FDA0003640499090000039
以约束隐向量lij符合分布
Figure FDA00036404990900000310
7.一种服务器,用于实施权利要求1至3中任意一种基于神经辐射场的三维场景一致性风格化方法。
8.一种存储介质,用于存储执行权利要求7所述基于神经辐射场的三维场景一致性风格化的程序。
9.一种客户端,用于权利要求4至6中任意一种基于神经辐射场的三维场景一致性风格化系统。
10.如权利要求8所述的客户端,其特征在于,该客户端为手机应用APP或电脑应用软件。
CN202210517934.7A 2022-05-12 2022-05-12 基于神经辐射场的三维场景一致性风格化方法及系统 Pending CN114926553A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210517934.7A CN114926553A (zh) 2022-05-12 2022-05-12 基于神经辐射场的三维场景一致性风格化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210517934.7A CN114926553A (zh) 2022-05-12 2022-05-12 基于神经辐射场的三维场景一致性风格化方法及系统

Publications (1)

Publication Number Publication Date
CN114926553A true CN114926553A (zh) 2022-08-19

Family

ID=82807709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210517934.7A Pending CN114926553A (zh) 2022-05-12 2022-05-12 基于神经辐射场的三维场景一致性风格化方法及系统

Country Status (1)

Country Link
CN (1) CN114926553A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115686727A (zh) * 2023-01-04 2023-02-03 麒麟软件有限公司 基于wlroots的合成渲染实现方法
CN115797571A (zh) * 2023-02-03 2023-03-14 天津大学 3d风格化场景的新视角合成方法
CN116385643A (zh) * 2023-04-03 2023-07-04 北京百度网讯科技有限公司 虚拟形象生成、模型的训练方法、装置及电子设备
CN116418961A (zh) * 2023-06-09 2023-07-11 深圳臻像科技有限公司 一种基于三维场景风格化的光场显示方法及系统
WO2024077792A1 (zh) * 2022-10-09 2024-04-18 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077792A1 (zh) * 2022-10-09 2024-04-18 名之梦(上海)科技有限公司 视频生成方法、装置、设备与计算机可读存储介质
CN115686727A (zh) * 2023-01-04 2023-02-03 麒麟软件有限公司 基于wlroots的合成渲染实现方法
CN115686727B (zh) * 2023-01-04 2023-04-14 麒麟软件有限公司 基于wlroots的合成渲染实现方法
CN115797571A (zh) * 2023-02-03 2023-03-14 天津大学 3d风格化场景的新视角合成方法
CN115797571B (zh) * 2023-02-03 2023-04-14 天津大学 3d风格化场景的新视角合成方法
CN116385643A (zh) * 2023-04-03 2023-07-04 北京百度网讯科技有限公司 虚拟形象生成、模型的训练方法、装置及电子设备
CN116385643B (zh) * 2023-04-03 2024-02-13 北京百度网讯科技有限公司 虚拟形象生成、模型的训练方法、装置及电子设备
CN116418961A (zh) * 2023-06-09 2023-07-11 深圳臻像科技有限公司 一种基于三维场景风格化的光场显示方法及系统
CN116418961B (zh) * 2023-06-09 2023-08-22 深圳臻像科技有限公司 一种基于三维场景风格化的光场显示方法及系统

Similar Documents

Publication Publication Date Title
CN114926553A (zh) 基于神经辐射场的三维场景一致性风格化方法及系统
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
Karnewar et al. Holodiffusion: Training a 3d diffusion model using 2d images
CN108876814B (zh) 一种生成姿态流图像的方法
CN111161364B (zh) 一种针对单视角深度图的实时形状补全和姿态估计方法
CN115082639A (zh) 图像生成方法、装置、电子设备和存储介质
Thomas et al. Deep illumination: Approximating dynamic global illumination with generative adversarial network
CN116664782B (zh) 一种基于融合体素的神经辐射场三维重建方法
CN114463492B (zh) 一种基于深度学习的自适应通道注意力三维重建方法
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN113592715A (zh) 一种面向小样本图像集的超分辨率图像重构方法
Menapace et al. Playable environments: Video manipulation in space and time
CN117496072B (zh) 一种三维数字人生成和交互方法及系统
Chen et al. Scenetex: High-quality texture synthesis for indoor scenes via diffusion priors
Rabby et al. Beyondpixels: A comprehensive review of the evolution of neural radiance fields
CN117635771A (zh) 一种基于半监督对比学习的场景文本编辑方法和装置
CN116863053A (zh) 一种基于知识蒸馏的点云渲染增强方法
CN111738092A (zh) 一种基于深度学习的恢复被遮挡人体姿态序列方法
CN111932670A (zh) 基于单个rgbd相机的三维人体自画像重建方法及系统
CN112329799A (zh) 一种点云彩色化算法
CN112132743A (zh) 可自适应光照的视频换脸方法
CN117078982B (zh) 基于深度学习的大倾角立体像对准密集特征匹配方法
Mantiuk et al. State of the art on neural rendering
Xu et al. StyleDyRF: Zero-shot 4D Style Transfer for Dynamic Neural Radiance Fields

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination