CN117372644A - 基于周期隐式表示的三维内容生成方法 - Google Patents

基于周期隐式表示的三维内容生成方法 Download PDF

Info

Publication number
CN117372644A
CN117372644A CN202311363583.XA CN202311363583A CN117372644A CN 117372644 A CN117372644 A CN 117372644A CN 202311363583 A CN202311363583 A CN 202311363583A CN 117372644 A CN117372644 A CN 117372644A
Authority
CN
China
Prior art keywords
network
dimensional
scene
image
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311363583.XA
Other languages
English (en)
Inventor
符颖
宋成刚
袁霞
吴锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202311363583.XA priority Critical patent/CN117372644A/zh
Publication of CN117372644A publication Critical patent/CN117372644A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • G06T17/10Constructive solid geometry [CSG] using solid primitives, e.g. cylinders, cubes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • G06T15/20Perspective computation
    • G06T15/205Image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于周期隐式表示的三维内容生成方法。首先,采用具有周期性激活函数的全连接SIREN网络结合仿射变换操作,为场景中包括背景在内的各个对象创建一个以潜在编码z为条件的三维神经特征场,这不仅保证了合成图像的高保真度,还鼓励了多视角一致性;其次,将这种组合特征场景表示合并至生成模型中,进一步允许了合成图像的可控性。此外,体渲染技术与神经渲染器的有效结合,能够高效地将分辨率较低的中间特征图像映射上采样到更高分辨率的RGB图像,进而提高整体的渲染效率。本发明的感知图像合成方法克服了现有的三维监督需要,实现了从非结构化和无位姿信息的二维图像集合中学习无监督的神经场景表示。

Description

基于周期隐式表示的三维内容生成方法
技术领域
本发明涉及三维内容生成领域,尤其涉及一种基于周期隐式表示的三维内容生成方法。
背景技术
随着数字技术的不断发展,对于3D数字内容的创建需求也越来越大,特别是在元宇宙的兴起下,这种需求更加显著。元宇宙作为一个虚拟世界的多维度拓展,需要大量逼真的3D数字内容来构建其内部环境和体验。在这一背景下,3D内容生成作为计算机视觉领域的关键任务,可以模拟和创建逼真的三维场景,为虚拟现实、增强现实、医疗影像处理、电影特效制作等应用领域的发展提供关键支持。近年来,神经辐射场技术在现实三维场景重建方面崭露头角,展现出了强大的优势和潜力。这一技术为场景的高效表示提供了一种全新的方法。该方法能够将场景编码为神经网络的权重,使得3D内容的生成性能得到了进一步提升。这个方法为虚拟世界的构建、医学影像处理和其他领域带来了新的可能性,有望推动3D数字内容的生产和应用领域的不断创新,为未来的数字体验提供更多维度的发展空间。
一般来说,3D内容的生成可以根据其建模方式的不同,将其分为显示建模和隐式建模两种。传统的显示建模方式根据表示方式的不同,又可以进一步分为网格、体素、点云和多视角图像等。网格表示虽然将物体表面划分为多个小多边形,以精确地捕捉物体的几何形状和曲率细节信息,但其难以处理拓扑的变换;体素表示将三维空间分割成包含物体内部或场景密度信息的小立方体单元,但高质量的体素表示也带来了高存储量的问题;点云表示使用一组三维点来描述物体或场景的表面和内部结构,而这种方式带来的缺点则是模型精细细节的丢失;多视角图像表示虽然便于采用成熟的2D神经网络编码来自不同视角的图像,进而建模物体或场景的外观和几何形状,但对于表达几何和结构丰富的模型却存在较大的困难。传统显示建模方式中存在的诸多问题大大阻碍了普通研究人员投身到3D内容的创建当中,因为要重建精细准确的几何、高真实感的纹理材质以及对真实世界的光照模型等,均需要高昂的设备支持。相比较之下,近年来兴起的隐式建模方式采用神经隐式表示的方法将物体或场景的几何和外观信息参数化为神经网络的权重,这意味着模型不再需要类似于网格、体素或点云来表示,从而摆脱了传统建模方式的局限性。这一方式使3D内容的生成变得更加开放、创新和可行,不仅为专业人士提供了更高效的工具,还为广大普通研究人员和创作者创造了更多的机会,使他们能够更轻松地参与到3D内容的创作和探索中。
生成对抗网络(GANs)作为一类强大的生成模型出现,已经被广泛地运用到高分辨率的、逼真的二维图像生成方面,并取得了长足的进步。然而,由于缺乏逼真的三维训练数据,这些GANs网络通常局限于二维。因此,它们不能支持对象的多视角合成等任务。随着神经辐射场普及程度的迅速提高,研究人员开始尝试将生成模型与神经辐射场NeRF相结合,以克服3D内容生成面临的挑战。GRAF作为生成式神经辐射场的先驱工作,在3D场景生成和渲染方面引领了新的方向。GRAF采用块级渲染技术将三维场景进行分解,独立渲染,虽然提高了渲染效率和生成质量,但这种块级操作忽略了全局场景的一致性和连贯性,这可能导致生成图像之间出现不连贯的边界和信息丢失。Pi-GAN中提出了一种更具表现力的网络架构来改善生成图像的质量,它使用正弦表示网络(Sinusoidal Representation Networks,SIREN)激活来替换先前的ReLU激活,同时利用StyleGAN启发的映射网络,通过特征线性调制FiLM条件在噪声向量z上调节SIREN。NeRF-VAE引入了变分自编码器(VAE)来增强NeRF模型的可解释性和控制性,支持潜在空间的插值,实现场景属性的编辑。这项工作为三维场景生成提供了更多的可控性和灵活性,但也面临着训练和推断的复杂性以及对潜在表示维度的限制。GIRAFFE工作指出,考虑场景的构成性质,解开数据变化的潜在因素对于创建可控的3D内容是必要的。它将组合3D场景表示合并到生成模型中,从而导致了更可控的图像合成。同时,将场景表示为组合生成神经特征场使得我们能够从背景中解耦单个或多个对象。
然而,现有技术方案存在以下不足:1、缺乏底层的3D表示或依赖视角不一致的渲染,导致生成的图像不具有多视角一致性;2、依赖于表达能力不足的网络架构,不能有效地表达细节,导致图像质量受损;3、忽略了物理世界的三维本质带来的纠缠表示,从而导致创建的内容不可控制。
发明内容
针对现有技术之不足,本发明提出了一种基于周期隐式表示的三维内容生成方法。所述方法延用了神经辐射场NeRF的生成变体作为场景中的对象级表示,并采用生成对抗网络机制进行训练。其中,生成器由具有周期性激活的全连接SIREN网络、体渲染和神经渲染器构成。首先,通过具有周期性激活函数的全连接SIREN网络模块,结合仿射变换操作将场景中包括背景在内的各个对象构建为以潜在编码z为条件的三维神经特征场,继而以加权平均的方式融合不同对象的特征场得到整个场景的神经场表示,从而提高模型对对象的可控能力;为了提高效率,渲染模块先通过体渲染技术将组合后的三维场景表示渲染为分辨率较低的中间特征图,神经渲染器再进一步处理这些特征图为分辨率更高的RGB图像。所述方法能够有效合成高质量的、视角一致的可控图像,具体步骤如下:
步骤1:重要参数的获取。
步骤11:获取相机内参矩阵和相机外参矩阵:根据预先设定的视场角、旋转范围、仰角范围、半径范围信息计算得到;
步骤12:为每个对象(背景也视为对象)定义一个边界框,包括了仿射变换所需的缩放平移/>和旋转R∈SO(3)参数;
步骤13:获取潜在编码z;
步骤2:采样光线r并获取相关采样点的空间位置和视角方向,该步骤具体包括:
步骤21:首先,获取图像坐标系下相机及各像素点的位置信息;
步骤22:然后,先根据步骤11得到的相机内参矩阵,将相机原点及各像素点位置转换至相机坐标系下,再跟据相机外参矩阵将其转换至世界坐标系下;
步骤23:根据步骤12中得到的仿射变换参数分别获取到各对象及其背景在场景空间中(边界框中)的相机原点o和视角方向d;
步骤24:根据预先设定的采样点数、近边界和远边界得到各采样点的深度值t;
步骤25:根据采样公式r(x)=o+td,其中,o表示相机原点,d表示视角方向,t表示不同采样点的深度值;根据不同的t分别在对象和背景的场景空间中采样得到该条光线上各个采样点的空间位置r(x)和其对应的视角方向d;
步骤3:神经辐射场隐式表示3D对象。采用周期性激活的全连接SIREN网络作为条件辐射场,分别为各对象及其背景创建神经特征场hθ,以此来计算与视角无关的体积密度σ和与视角相关的亮度特征图f,参数化为:其中,一个ReLU全连接映射网络通过特征线性调制FiLM来调节SIREN网络的每一层,具体如下:
步骤31:映射网络由256维的3层全连接网络构成,它以步骤13获取的潜在编码z作为输入,输出得到周期性激活函数中使用的频率γi和相位βi
步骤32:采用正余弦周期函数的形式将输入的位置信息x和视角方向d进行编码,分别对x和d使用10和4个frequencyoctaves,将它们嵌入到Lx=2*3*10=60和Ld=2*3*4=24维空间中,这样能让模型学到特征场更好的表示高频信息,从而提高合成图像的清晰度;
步骤33:对象特征场的构建,采用8个全连接隐藏层(维度为128)和FiLM SIREN激活。同时,添加一个跳跃连接,将位置编码后的输出拼接至第4层的输出上,以此来提升重建质量。之后,第一分支会通过一个全连接层将特征投影到一维的密度值第二分支再通过一层FiLM SIREN激活的全连接层后得到128维的中间特征图/>
步骤34:背景特征场的构建,考虑到背景复杂度较低,仅采用4个全连接隐藏层(维度为64)和FiLM SIREN激活。同理,第一分支会通过1层全连接层将特征投影到一维的密度值σN-1;第二分支再通过1层FiLM SIREN激活的全连接层后得到128维的中间特征图(假定场景中存在N个包括背景在内的对象);
步骤4:将各对象及其背景场景空间下采样得到的空间点信息分别输入对应的特征场中,输出得到各特征场下的密度值σ和中间特征图Mf,再通过组合算子将各特征场的预测输出组合为完整的3D场景表示,具体组合方式如下;
步骤41:将不同特征场输出得到的对应采样点的密度值直接求和得到总体密度值;中间特征图以密度加权平均的方式进行组合,这种简单直观的组合方式确保了梯度能够朝着密度值大于0的所有实体流动,从而避免梯度消失带来的模型训练缓慢或停滞;
步骤5:将组合之后的场景表示通过经典的体渲染技术渲染为分辨率较低的特征图
步骤6:二维的神经渲染操作将低分辨率的特征图IV映射到最终的RGB图像神经渲染网络被参数化Leaky ReLU激活的二维卷积网络构成,并将最近邻上采样与3×3卷积相结合以提高空间分辨率。在实现过程中选择3×3大小的卷积核可以确保在较小空间进行细化,以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率。同时,在每个空间分辨率下将特征图像映射到RGB图像,并通过双线性上采样操作将前一个输出添加至下一个输出。这样的跳跃连接可以确保一个强大的梯度流到特征场。
步骤7:判别器由具有Leaky ReLU激活的卷积神经网络构建,采用具有R1正则化的非饱和GAN损失训练网络;将从真实数据集中采集的图像和生成器中合成的RGB图像分别输入判别器网络中进行鉴别,计算损失,从而指导模型更新;
本发明具有以下有益效果:
1、生成器部分采用了带有周期性激活函数的SIREN隐式场景表示来为各个对象构建独立的特征场。这一方法不仅鼓励了多视角的一致性,还提高了网络对精细细节的表达能力。同时,在构建复杂对象的特征场时,引入了跳跃连接,以确保原始特征得以融合,避免深度网络训练中的信息丢失,从而增强了网络的场景表达能力。
2、本发明采用映射网络通过特征线性调制(FiLM)来调节正弦网络(SIREN)中的层。通过调整映射网络的参数,可以根据需要自定义不同层的特征变换,以适应不同的任务或数据分布。通过特征线性调制(FiLM),网络可以根据输入的条件进行自适应调整,从而更好地捕捉输入数据的不同属性和变化。通过在不同特征场之间共享映射网络的权重,网络可以学习到更一般化的特征变换,从而提高了其泛化性能。此外,特征线性调制(FiLM)在网络的不同层次上对输入进行归一化和缩放,可以减轻深度神经网络中的内部协变量偏移问题,从而促进网络的稳定训练和快速收敛。
3、针对各特征场之间可能存在的纠缠表示问题,采用一种密度加权平均的融合方式将各对象的特征场组合起来,从而确保了更可控的图像合成。
4、本发明在渲染时考虑到更快速且更逼真图像的合成,先将场景体渲染为分辨率较低的特征图像,以节省时间和计算量;再通过二维神经渲染的方式将其上采样至更高分辨率的RGB图像。
附图说明
图1是本发明三维内容生成的模型结构示意图;
图2是本发明生成辐射场建模的网络结构示意图;
图3是FiLM调制的SIREN结构示意图;
图4是本发明二维神经渲染的结构示意图;
图5是本发明判别器网络的结构示意图;
图6是本发明方法在Cats数据集上渲染生成的实验效果图展示;
图7是本发明方法在CelebA数据集上渲染生成的实验效果图展示;
图8是本发明方法在Cars数据集上渲染生成的实验效果图展示;
图9是本发明方法在Chairs数据集上渲染生成的实验效果图展示;
图10是本发明方法Churches数据集上渲染生成的实验效果图展示;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
下面结合附图进行详细说明。需要说明的是,本发明中所有图示中的Linear表示全连接网络层。本发明图1中的f表示各特征场处理得到的不同亮度特征图,与图2中的表达一致。
本发明图2中的z表示潜在编码,x、d分别表示空间中采样点的位置信息和视角方向,PE表示位置编码操作。
本发明图4中的Conv表示卷积网络,UpNN和UpBL分别表示最近邻上采样和双线性上采样操作。
图1为本发明三维内容生成的模型结构示意图。本发明提出了一种基于周期隐式表示的三维内容生成方法,该方法延用了神经辐射场NeRF的生成变体作为场景中的对象级表示,并采用生成对抗网络机制进行训练。其中,生成器由具有周期性激活的全连接SIREN网络、体渲染和神经渲染器构成。首先,通过具有周期性激活函数的全连接SIREN网络模块,结合仿射变换操作将场景中包括背景在内的各个对象构建为以潜在编码z为条件的三维神经特征场,继而以加权平均的方式融合不同对象的特征场得到整个场景的神经场表示,从而提高模型对对象的可控能力;为了提高效率,渲染模块先通过体渲染技术将组合后的三维场景表示渲染为分辨率较低的中间特征图,神经渲染器再进一步处理这些特征图为分辨率更高的RGB图像。所述方法能够有效合成高质量的、视角一致的可控图像。具体步骤如下:
步骤1:进行重要参数的获取。
步骤11:获取相机内参和相机外参矩阵:根据预先设定的视场角、旋转范围、仰角范围、半径范围信息处理得到;其中,包含焦距信息的相机内参矩阵是为了将图像信息从图像坐标系下转换至相机坐标系,包含旋转、平移以及缩放参数的相机外参矩阵进一步将其转换至世界坐标系下。
步骤12:为每个对象(背景也视为对象)定义一个边界框,包括了仿射变换所需的缩放平移/>和旋转R∈SO(3)参数;
步骤13:获取潜在编码z;潜在编码z来自一个服从标准正态的随机分布,大小为256维;
步骤2:采样光线r并获取相关采样点的空间位置和视角方向,该步骤具体包括:
步骤21:首先,获取图像坐标系下相机及各像素点的位置信息;
步骤22:然后,先根据步骤11得到的相机内参矩阵,将相机原点及各像素点位置转换至相机坐标系下,再跟据相机外参矩阵将其转换至世界坐标系下;
步骤23:接下来,根据步骤12中得到的仿射变换参数就可以分别获取到各对象及其背景在场景空间中(边界框中)的相机原点o和视角方向d;
步骤24:根据预先设定的采样点数、近边界和远边界得到各采样点的深度值t;
步骤25:最后,再根据采样公式r(x)=o+td,分别在对象和背景的场景空间中采样得到各空间点的最终信息(空间位置r(x)和视角方向d)。具体的,根据采样公式r(x)=o+td,其中,o表示相机原点,d表示视角方向,t表示不同采样点的深度值;根据不同的t分别在对象和背景的场景空间中采样得到该条光线上各个采样点的空间位置r(x)和其对应的视角方向d;
步骤3:神经辐射场隐式表示3D场景。采用周期性激活的全连接SIREN网络作为条件辐射场,分别为各对象及其背景创建神经特征场hθ,以此来计算与视角无关的体积密度σ和与视角相关的亮度特征图f,参数化为:式中θ为网络参数,Lx,Ld为位置编码后空间位置信息和视角信息的输出维数,Mz表示潜在编码的维数,+表示输出体积密度的值(标量),Mf表示输出特征图的维数。其中,一个Leaky ReLU全连接映射网络通过特征线性调制(FiLM)来调节SIREN网络的每一层,具体如下:
步骤31:如图2所示,映射网络由4层全连接网络构成,它以步骤13获取的潜在编码z(256)作为输入,经过三层带有Leaky ReLU激活的、大小为128维的全连接层处理之后,最后一层全连接输出为2944,即周期激活函数中使用的频率γi和相位βi,如图3展示的特征线性调制(FiLM)操作所示。
需要注意的是,最后一层的输出为2944是因为对象特征场中使用9个周期激活函数,背景特征场使用5个周期激活函数,其中对象特征场中每个周期激活函数又分别需要128维的频率参数γ和相位参数β、对象特征场中每个周期激活函数又分别需要64维的频率参数γ和相位参数β,因此9*128*2+5*64*2=2944.
步骤32:由于神经网络更擅长检测低频信息,为了更好地优化特征场表达高频场景信息,从而提高合成图像的清晰度,我们沿用NeRF中采用的位置编码技术将输入特征嵌入到更高维度,具体如下:
采用正余弦周期函数的形式将输入的位置信息x和视角方向d进行编码,分别对x和d使用L=10和L=4个frequencyoctaves,将它们嵌入到Lx=2*3*10=60和Ld=2*3*4=24维空间中,编码函数如下;
γ(p,L)=(sin(20pπ),cos(20pπ),…,sin(2L-1pπ),cos(2L-1pπ)) (1)
其中,p是一个标量输入,例如x和d的一个分量。L是频度,具体为控制升高的维度;
步骤33:对象特征场的构建,采用8个带有周期性激活的全连接隐藏层(维度为128)。此外,添加一个跳跃连接,将浅层特征图与中间层特征图结合,以更好地捕获三维场景的信息,同时改善模型的性能和训练过程,从而进一步改善重建质量。具体做法如下:
如图2上半部分所示,首先将编码后的空间信息点输入网络,经过4层网络处理之后;将位置编码后的输出先通过一个全连接层将通道数升高至128,然后与第4层的输出特征图融合,接着再经过后4层网络处理。之后,第一分支会通过一个全连接层将特征投影到一维的密度值第二分支再通过一层周期性激活的全连接层后得到128维的中间特征图/>
步骤34:背景特征场的构建,考虑到背景复杂度较低,仅采用4个全连接隐藏层(维度为64)和周期性激活,如图2下半部分所示。同理,第一分支会通过1层全连接层将特征投影到一维的密度值σN-1;第二分支再通过1层周期性激活的全连接层后得到128维的中间特征图(假定场景中存在N个包括背景在内的对象);
步骤4:将各对象及其背景场景空间下采样得到的空间点信息分别输入对应的特征场中,输出得到各特征场下的密度值σ和中间特征图f,再通过组合算子将各特征场的预测输出组合为完整的3D场景表示,具体组合方式如下;
其中,σi和fi表示第i个对象在给定点x和视角方向d处的密度和特征向量;σ为x处的总体密度,C(x,d)表示通过密度加权平均方式组合得到的(x,d)处的所有特征;
步骤41:如数学表达式(2)所示,将不同特征场输出得到的对应采样点的密度值直接求和得到总体密度值;中间特征图以密度加权平均的方式进行组合。这种简单直观的组合方式确保了梯度能够朝着密度值大于0的所有实体流动,从而避免梯度消失带来的模型训练缓慢或停滞;
步骤5:将组合之后的场景表示通过经典的体渲染技术渲染为分辨率较低的特征图具体如下:
体渲染算子表示为
+表示输出体积密度的标量值,Mf表示输出特征图的维数,Ns表示给定像素沿相机射线d的采样点数,{σj,fj}表示相应场的密度和特征向量,f表示给定像素的最终特征向量。HV和WV分别表示体渲染算子πvol渲染得到的低分辨率特征图IV的高和宽;
其中f采用先前研究提出的数值积分法计算得到:
其中τj为透射率,αj为xj的alpha值,δj=||xj+1-xj||2为邻近采样点之间的距离。
步骤6:二维的神经渲染操作详细过程展示在图4中。它的目的是将低分辨率的特征图映射到最终的RGB图像/>神经渲染网络被参数化LeakyReLU激活的二维卷积网络,并将最近邻上采样UpNN与3×3卷积相结合以提高空间分辨率。在实现过程中选择3×3大小的卷积核可以确保在较小空间进行细化,以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率。同时,在每个空间分辨率下将特征图像映射到RGB图像,并通过双线性上采样UpBL操作将前一个输出添加至下一个输出。这样的跳跃连接可以确保一个强大的梯度流到特征场。
步骤7:如图5所示,判别器由具有Leaky ReLU激活的卷积神经网络构建。经过五层的卷积层处理,每次在成倍地降低分辨率的同时成倍地升高通道数,直到最后一层卷积直接从一个高通道数降为单通道值来表示预测结果。采用具有R1正则化的非饱和GAN损失训练网络;将从真实数据集中采集的图像和生成器中合成的RGB图像分别输入判别器网络中进行鉴别,计算损失,从而指导模型更新;
为了进一步说明本发明所提方法的有效性,量化指标采用生成网络中质量评估广泛使用的FID(Fréchet Inception Distance)评分,其指的是真实图像与生成图像的特征向量之间的距离度量;若FID值越小,则相似程度越高。它可以通过以下步骤来计算:
1、特征提取:使用一个预训练的卷积神经网络(Inceptionv3网络)来提取真实图像和生成图像的特征表示。
2、特征统计:对于提取的特征表示,计算它们的均值(mean)和协方差矩阵(covariance matrix)。
3、Fréchet距离计算:使用真实图像的特征统计和生成图像的特征统计来计算它们之间的Fréchet距离。这个距离是在特征空间中度量的,表示了两个分布之间的相似性。
实验的平台和系统设置:CPU为AMD Ryzen 5 3600X 6-Core;GPU为NVIDIAGeForceRTX 3090;操作系统为Ubuntu20.04,使用pytorch深度学习框架,Python版本为3.8。实验中选用β1=0,β2=0.9,衰减系数为0的Adam作为网络优化器,生成器学习率设置为5×10-5,判别器学习率设置为2×10-4,batch size设置为32。
在Cats、CelebA、Cars、Chairs和Churches数据集上与一些经典的三维感知图像合成算法对比,具体结果如下所示。
表1定量比较:不同算法在64×64分辨率上的FID评分对比
注:粗体表示最优值。
图6-图10展示了本发明在各数据集上渲染生成的部分效果图。其中,图6展示了Cats数据集的合成结果;图7展示了CelebA数据集的合成结果;图8展示了Cars数据集的合成结果;图9展示了Chairs数据集的合成结果;图10展示了Churches数据集的合成结果。
需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims (1)

1.一种基于周期隐式表示的三维内容生成方法,其特征在于,所述方法延用了神经辐射场NeRF的生成变体作为场景中的对象级表示,并采用生成对抗网络机制进行训练;其中,生成器由具有周期性激活的全连接SIREN网络、体渲染和神经渲染器构成;首先,通过具有周期性激活函数的全连接SIREN网络模块,结合仿射变换操作将场景中包括背景在内的各个对象构建为以潜在编码z为条件的三维神经特征场,然后以加权平均的方式融合不同对象的特征场得到整个场景的神经场表示,从而提高模型对对象的可控能力;渲染模块先通过体渲染技术将组合后的三维场景表示渲染为分辨率较低的中间特征图,然后神经渲染器进一步处理分辨率较低的中间特征图为分辨率更高的RGB图像;该方法的具体步骤包括:
步骤1:重要参数的获取,该步骤包括:
步骤11:获取相机内参矩阵和相机外参矩阵:根据预先设定的视场角、旋转范围、仰角范围、半径范围信息处理得到;
步骤12:为每个对象(背景也视为对象)定义一个边界框,包括了仿射变换所需的缩放平移/>和旋转R∈SO(3)参数;
步骤13:获取潜在编码z;
步骤2:对光线r进行采样并获取相关采样点的空间位置和视角方向,该步骤包括:
步骤21:获取图像坐标系下相机及各像素点的位置信息;
步骤22:根据步骤11得到的相机内参矩阵将相机原点及各像素点位置转换至相机坐标系下;然后根据相机外参矩阵将其转换至世界坐标系下;
步骤23:根据步骤12中得到的仿射变换参数分别获取到各对象及其背景在场景空间中的相机原点o和视角方向d;
步骤24:根据预先设定的采样点数、近边界和远边界得到各采样点的深度值t;
步骤25:根据采样公式r(x)=o+td,其中,o表示相机原点,d表示视角方向,t表示不同采样点的深度值;根据不同的t分别在对象和背景的场景空间中采样得到该条光线上各个采样点的空间位置r(x)和其对应的视角方向d;
步骤3:神经辐射场隐式表示3D对象;其中,采用周期性激活的全连接正弦表示网络(SIREN)作为条件辐射场,分别为各对象及其背景创建神经特征场hθ,以此来计算与视角无关的体积密度σ和与视角相关的亮度特征图f,参数化为:hθ:其中,一个ReLU全连接映射网络通过特征线性调制(FiLM)来调节SIREN网络的每一层,该步骤包括:
步骤31:映射网络由256维的3层全连接网络构成,它以步骤13获取的潜在编码z作为输入,输出得到周期激活函数中使用的频率γi和相位βi;输出得到的周期激活函数则是受特征线性调制的正弦表示网络,将其表示为FiLM SIREN;
步骤32:采用正余弦周期函数的形式将输入的位置信息x和视角方向d进行编码,分别对x和d使用10和4个frequencyoctaves,将它们嵌入到Lx=2*3*10=60和Ld=2*3*4=24维空间中,从而提高合成图像的清晰度;
步骤33:对象特征场的构建,采用8个全连接隐藏层和FiLM SIREN激活;添加一个跳跃连接,将位置编码后的输出拼接至第4层的输出上,以此来提升重建质量;然后第一分支会通过一个全连接层将特征投影到一维的密度值第二分支再通过一层FiLM SIREN激活的全连接层后得到128维的中间特征图/>
步骤34:背景特征场的构建,采用4个全连接隐藏层和FiLM SIREN激活;第一分支通过1层全连接层将特征投影到一维的密度值σN-1;第二分支通过1层FiLM SIREN激活的全连接层后得到128维的中间特征图
步骤4:将各对象及其背景场景空间下采样得到的空间点信息分别输入对应的特征场中,输出得到各特征场下的密度值σ和中间特征图Mf,再通过组合算子将各特征场的预测输出组合为完整的3D场景表示,具体组合方式如下;
步骤41:将不同特征场输出得到的对应采样点的密度值直接求和得到总体密度值;中间特征图以密度加权平均的方式进行组合,以使得梯度能够朝着密度值大于0的所有实体流动,从而避免梯度消失带来的模型训练缓慢或停滞;
步骤5:将组合之后的场景表示通过经典的体渲染技术渲染为分辨率较低的特征图
步骤6:通过二维的神经渲染操作将低分辨率的特征图IV映射到最终的RGB图像神经渲染网络被参数化Leaky ReLU激活的二维卷积网络构成,并将最近邻上采样与3×3卷积相结合以提高空间分辨率;在实现过程中选择3×3大小的卷积核可以确保在较小空间进行细化,以避免在图像合成过程中纠缠全局场景属性,同时允许增加输出分辨率;在每个空间分辨率下将特征图像映射到RGB图像,并通过双线性上采样操作将前一个输出添加至下一个输出,通过跳跃连接能够确保一个强大的梯度流到特征场;
步骤7:判别器由具有Leaky ReLU激活的卷积神经网络构建,采用具有R1正则化的非饱和GAN损失训练网络;将从真实数据集中采集的图像和生成器中合成的RGB图像分别输入判别器网络中进行鉴别,计算损失,从而指导模型更新。
CN202311363583.XA 2023-10-20 2023-10-20 基于周期隐式表示的三维内容生成方法 Pending CN117372644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311363583.XA CN117372644A (zh) 2023-10-20 2023-10-20 基于周期隐式表示的三维内容生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311363583.XA CN117372644A (zh) 2023-10-20 2023-10-20 基于周期隐式表示的三维内容生成方法

Publications (1)

Publication Number Publication Date
CN117372644A true CN117372644A (zh) 2024-01-09

Family

ID=89394202

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311363583.XA Pending CN117372644A (zh) 2023-10-20 2023-10-20 基于周期隐式表示的三维内容生成方法

Country Status (1)

Country Link
CN (1) CN117372644A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853695A (zh) * 2024-03-07 2024-04-09 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117853695A (zh) * 2024-03-07 2024-04-09 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置
CN117853695B (zh) * 2024-03-07 2024-05-03 成都信息工程大学 基于局部空间自注意力的3d感知图像合成方法和装置

Similar Documents

Publication Publication Date Title
CN112396703B (zh) 一种单图像三维点云模型重建方法
Fan et al. Unified implicit neural stylization
Neubert et al. Approximate image-based tree-modeling using particle flows
CN113706714A (zh) 基于深度图像和神经辐射场的新视角合成方法
CN110390638B (zh) 一种高分辨率三维体素模型重建方法
CN111627019A (zh) 一种基于卷积神经网络的肝脏肿瘤分割方法及系统
CN112085836A (zh) 一种基于图卷积神经网络的三维人脸重建方法
US11989846B2 (en) Mixture of volumetric primitives for efficient neural rendering
Shen et al. Deepsketchhair: Deep sketch-based 3d hair modeling
US11823349B2 (en) Image generators with conditionally-independent pixel synthesis
Clarke et al. Automatic generation of 3D caricatures based on artistic deformation styles
CN117372644A (zh) 基于周期隐式表示的三维内容生成方法
WO2023129190A1 (en) Generative modeling of three dimensional scenes and applications to inverse problems
CN116977536A (zh) 一种基于混合神经辐射场的无边界场景新视角合成方法
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Cheng et al. Dense point cloud completion based on generative adversarial network
Yuan et al. Neural radiance fields from sparse rgb-d images for high-quality view synthesis
CN115457182A (zh) 一种基于多平面图像场景表示的交互视点图像合成方法
CN113989441A (zh) 基于单张人脸图像的三维漫画模型自动生成方法及系统
Sun et al. Recent advances in implicit representation-based 3d shape generation
CN117333604A (zh) 一种基于语义感知神经辐射场的人物面部重演方法
US20240087265A1 (en) Multidimentional image editing from an input image
Sugimoto et al. Water simulation and rendering from a still photograph
CN115482368A (zh) 一种利用语义图进行三维场景编辑的方法
Yi Research on artificial intelligence art image synthesis algorithm based on generation model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination