CN113706714B - 基于深度图像和神经辐射场的新视角合成方法 - Google Patents
基于深度图像和神经辐射场的新视角合成方法 Download PDFInfo
- Publication number
- CN113706714B CN113706714B CN202111033534.0A CN202111033534A CN113706714B CN 113706714 B CN113706714 B CN 113706714B CN 202111033534 A CN202111033534 A CN 202111033534A CN 113706714 B CN113706714 B CN 113706714B
- Authority
- CN
- China
- Prior art keywords
- image
- scene
- network
- radiation field
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000005855 radiation Effects 0.000 title claims abstract description 71
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 29
- 210000005036 nerve Anatomy 0.000 title claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 59
- 230000001537 neural effect Effects 0.000 claims abstract description 55
- 238000009877 rendering Methods 0.000 claims abstract description 25
- 239000003086 colorant Substances 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims description 22
- 230000015572 biosynthetic process Effects 0.000 claims description 13
- 238000003786 synthesis reaction Methods 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 239000004575 stone Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004382 potting Methods 0.000 description 3
- 238000002679 ablation Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000270722 Crocodylidae Species 0.000 description 1
- 208000009119 Giant Axonal Neuropathy Diseases 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- LNNWVNGFPYWNQE-GMIGKAJZSA-N desomorphine Chemical compound C1C2=CC=C(O)C3=C2[C@]24CCN(C)[C@H]1[C@@H]2CCC[C@@H]4O3 LNNWVNGFPYWNQE-GMIGKAJZSA-N 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 201000003382 giant axonal neuropathy 1 Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Abstract
本发明涉及一种基于深度图像和神经辐射场的新视角合成方法。适用于计算机图形学以及深度学习领域。本发明的技术方案为:一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:获取场景多个视角的真实RGB‑D图像;基于场景多个视角的RGB‑D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB‑D图像相应位置的颜色对应;基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;渲染带颜色的三角网格表示生成大量渲染图像;利用渲染图像作为网络真值预训练神经辐射场网络;利用所述RGB‑D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
Description
技术领域
本发明涉及一种基于深度图像和神经辐射场的新视角合成方法。适用于计算机图形学以及深度学习领域,尤其适用于场景或物体的新视角合成领域。
背景技术
新视角合成技术是计算机视觉和计算机图形学的一个重要研究课题,它已广泛应用于数字和娱乐行业,从电影制作到游戏,以及蓬勃发展的虚拟现实和增强现实应用。
目前,使用少量已知图像生成任意视角下的高真实感图像仍然是一个亟待解决的问题。如果拥有物体或场景精确的几何结构,可以通过渲染来生成任意视角下的高真实感图像,但这还需要了解物体的表面材质、光照环境等条件,渲染过程通过对渲染方程的积分求解,能得到非常逼真的结果。然而,针对现实世界中的物体或场景仍然充满挑战,一方面,现实世界中的物体或场景很难获得精确的几何、曲面法线和材质信息;另一方面,真实环境的光照非常复杂,多光源环境难以建模。
Mildenhall等人的“Nerf:Representing scenes as neural radiance fieldsforview synthesis”首先提出了神经辐射场工作,利用全连接网络(MLP)和体渲染从图片中拟合重建场景的几何和外观,由于其简单的结构和令人惊艳的效果,吸引了大量关注。但它也存在着渲染速度过慢,实现理想的效果仍需要大量图片等问题,这导致其距离实际使用还存在着一定距离。
Lingjie Liu等人的“Neural Sparse Voxel Fields”提出使用稀疏体素组织场景,让光线上的采样点数量减少,加速了渲染时间,但他们的方法仍旧需要大量输入图片来完成体素的剪枝和细分。
AlexYu等人的“pixelNeRF:Neural Radiance Fields from One orFew Images”实现了仅从一幅或几幅输入图像进行新视角合成,该工作虽然减少了对输入图像数量的要求,但新视角生成的结果存在明显瑕疵,极大地影响了用户在实际使用中的体验。
Ajay Jain等人的“PuttingNeRF on a Diet:Semantically Consistent Few-Shot View Synthesis”同样致力于减少输入图片的数量,他们通过引入一种语义一致性损失函数,在新视角下保持场景属性不变。这种损失函数建立在预训练好的网络模块提取的语义信息上。
QianqianWang等人的“IBRNet:Learning Multi-View Image-Based Rendering”在多个场景上训练,可以做到使用少量图片微调网络,即可泛化到新场景上,但该方法依赖相似场景的预训练,同时从输入图片上提取二维特征,在深度上存在歧义性,使用少量图片泛化到新场景上的效果难以满足用户需求。
发明内容
本发明要解决的技术问题是:针对上述存在的问题,提供一种基于深度图像和神经辐射场的新视角合成方法,以实现利用少量拍摄视角完成高质量新视角合成。
本发明所采用的技术方案是:一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:
获取场景多个视角的真实RGB-D图像;
基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB-D图像相应位置的颜色对应;
基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
渲染带颜色的三角网格表示生成大量渲染图像;
利用渲染图像作为网络真值预训练神经辐射场网络;
利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;
通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
所述利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:
引入图像判别器网络D,将所述神经辐射场网络作为生成器G,形成生成对抗网络;
利用所述RGB图像和神经辐射场网络生成的生成图像训练所述生成对抗网络。
所述图像判别器网络D采用基于图像分块的判别器。
所述生成对抗网络的损失函数为:
其中Pfake是假图像块的集合,而Preal是真图像块的集合。
所述利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:
取场景每个体素所包含点云的平均颜色值作为该体素的体素颜色cvoxel;
将体素颜色特征Enc(cvoxel)作为条件输入到所述神经辐射场网络的颜色预测网络Fc中。
所述基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,包括:
在每个视角重建原始点云,并为每个视角下点云的每个点分配颜色值;
采用带颜色的迭代最近点算法来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,获得场景完整的场景彩色点云。
所述基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示,包括:将完整的场景彩色点云通过泊松表面重建转换为带颜色的三角网格表示。
所述神经辐射场网络的预训练过程由RGB损失函数监督,其公式为:
其中,R是分批训练中一个批次的光线集,C(r)是光线r对应像素点的真实颜色;
其中,δi=ti+1-ti,表示第i+1个采样点和第i个采样点之间的距离;σ为神经辐射场网络中密度预测网络Fσ预测的采样点体积密度;c为神经辐射场网络中颜色预测网络Fc预测的采样点颜色值。
一种基于神经辐射场的新视角合成装置,其特征在于:
图像获取模块,用于获取场景多个视角的真实RGB-D图像;
点云生成模块,用于基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB-D图像相应位置的颜色对应;
网格生成模块,用于基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
渲染模块,用于渲染带颜色的三角网格表示生成大量渲染图像;
预训练模块,用于利用渲染图像作为网络真值预训练神经辐射场网络;
继续训练模块,用于利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;
新视角合成模块,用于通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现所述基于深度图像和神经辐射场的新视角合成方法的步骤。
一种电子设备,其特征在于,包括:
处理器;
存储器,存储有能被处理器执行的计算机程序,该计算机程序被执行时实现所述基于深度图像和神经辐射场的新视角合成方法的步骤;
输入单元,用于输入指定新视角;
显示单元,用于显示新视角图像。
该电子设备还具有用于采集RGB-D图像的相机。
本发明的有益效果是:本发明通过少量RGB-D图像,重建场景的完整彩色点云以及三角网格表示,获取场景的大致几何,为方法提供几何先验;采样生成大量采样视角,并从采样视角渲染重建的三角网格表示,得到大量的渲染图像,为网络提供充足的训练数据;使用拍摄得到的少量真实图片微调网络,最终完成高真实感的新视角图片合成。
本发明提出引入深度,在拍摄图像的数量无法达到要求的数量时,提供大量接近真实的渲染图像来预训练网络,由于渲染图像具有精确的相机参数并且来自任意多视角方向,因此预训练过程可以为网络提供强大的先验。
附图说明
图1为实施例的流程图。
图2为实施例的流程各主要阶段示意图。
图3为实施例中从RGB-D图像得到三角网格表示的示意图。
图4为实施例中基于预训练-微调策略的神经辐射场网络结构示意图。
图5、图6、图7、图8为实施例新视角合成方法与其他先进方法在不同场景上的比较示意图。
图9为实施例中消融实验的结果示意图。
具体实施方式
如图1、图2所示,本实施例为一种基于深度图像和神经辐射场的新视角合成方法,具体包括以下步骤:
S1、获取某一场景n个视角的真实RGB-D图像,RGB-D图像由RGB图像和相应的深度图像组成。
本实施例充分利用了通过消费级电子设备(例如Apple iPad Pro,具有LiDAR相机和RGB相机)捕获的RGB-D图像,RGB图像{Ii,i=1,…,n}和相应的深度图像分别由电子设备的RGB相机和LiDAR相机捕获。
本例中对RGB-D图像数量和具体拍摄视角不设限制,但需保证该多个视角的RGB-D图像能够构成场景完整的点云。
S2、基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB-D图像相应位置的颜色对应。
本实施例借助从ARKit导出的相机参数,在每个拍摄的视角下重建原始点云{pi,i=1,…,n}。需要注意的是,RGB图像的分辨率和LiDAR相机拍摄的深度图像的分辨率可能存在不同,本实施例将RGB图像缩放到与深度图像相同的分辨率,并为每个视角下重建点云的每个点根据相应RGB图像上相应位置的颜色分配颜色值。
由于LiDAR相机存在深度估计的问题,重建的点云可能会有一些噪点,本例使用Open3D软件库的异常值去除算法去除那些离群点。
由于iPad Pro的传感器估计得到的相机参数也可能存在问题,导致不同视角重建的点云在世界坐标系中无法完全对齐。由于点云包含颜色值,本实施例采用带颜色的迭代最近点算法(ICP)来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,以获得该场景完整的场景彩色点云。其中,带颜色的迭代最近点算法适用于彩色点云,与常规迭代最近点算法相比,在优化目标上加入了颜色误差,会更加精确和鲁棒。对于彩色点云合并这一部分,我们对两个点云重叠的部分计算轴对齐包围盒,包围盒进一步被分割为小的体素格子,每个小体素格子内的点通过平均的方式合并,包括他们的位置,颜色和法向,重叠区域之外的部分不做改变。
S3、基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示,完整的场景彩色点云将通过泊松表面重建转换为带颜色的三角网格表示(见图3)。
S4、渲染带颜色的三角网格表示生成大量渲染图像,一旦获得重建的三角网格表示,就可以从任意视角渲染网格表示得到渲染图像。
为了覆盖场景的大部分视角,本实施例在已知的相机视角{di,i=1,…,n}之间进行插值,并在每个已知的相机视角处进行轻微扰动,生成大量新相机视角,将这些视角称作采样视角{d′i,i=1,…,k},其中k为采样视角的数量。
在采样视角下使用OpenGL渲染重建的带颜色的三角网格表示,生成大量渲染图像{I′i,i=1,…,k},渲染图像的数量k可以满足训练一个令人满意的神经辐射场网络的需要,并且这些渲染图像对应的相机参数十分准确,比从RGB图像当中重建得到的相机参数更有利于网络的训练。
S5、利用步骤S4生成的大量渲染图像作为网络真值预训练神经辐射场网络。针对当前场景,构建神经辐射场网络,完成从RGB图像隐式重建场景的几何和外观。
本实施例利用点云或三角网格的体素化方法初始化场景的体素表示,初始的体素大小取决于场景大小。
本实施例使用八叉树结构来组织场景的体素表示在每个体素顶点定义一个可学习的嵌入特征/>因为相机参数已知,可以在世界坐标系中,生成从相机位置出发,穿过图像像素的光线。对每条光线,应用轴对齐包围盒相交检测方法判断光线是否与体素格子相交,该方法对稀疏八叉树结构组织的体素非常高效。对于每个相交的体素,在相交的射线段上均匀采样,并使用下式获得每个采样点p的输入特征gi(p):
其中,是Vi的八个顶点,/>是对应顶点的嵌入特征,χ(·)代表三线性插值。
本实施例中神经辐射场网络的整个网络架构如图4所示,神经辐射场网络的输入是采样点的插值得到的特征gi(p)和光线r的方向d。输入特征gi(p)和光线方向d会经过一个编码过程Enc(·),来捕捉高频细节(具体可参见“Nerf:Representing scenes as neuralradiance fields for view synthesis”论文),编码后的输入特征Enc(gi(p))将被输入到一个全连接(MLP)网络Fσ(密度预测网络)预测采样点的体积密度σ,
σ=Fσ(Enc(gi(p))),
将输入特征Enc(gi(p))和编码的光线方向Enc(d)输入到另一个全连接(MLP)网络Fc(颜色预测网络)预测采样点的颜色值c,
c=Fc(Enc(gi(p)),Enc(d))
本实施例利用体渲染的离散化公式计算光线对应的像素点颜色
其中,δi=ti+1-ti,表示相邻的第i+1个采样点和第i个采样点之间的距离。
在预训练阶段,使用步骤S4中得到的接近真实的渲染图像{I′i,i=1,…,k}作为网络真值训练神经辐射场网络。预训练过程由RGB损失函数监督,其公式为:
其中,R是分批训练中一个批次的光线集,C(r)是光线r对应像素点的真实颜色。在预训练过程中,为了保证场景的完整性,提出的方法不对体素进行剪枝操作,但是在必要的时候,会对体素进行细分,即体素的大小会是原来的一半。
本实施例中预训练过程训练方法为自适应的矩估计方法(ADAM),训练次数为6000次,学习率从0.001开始,并随着迭代次数逐渐衰减,每次训练都将数据进行随机排序。
S6、引入网络微调过程,利用RGB-D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络。
由于步骤S5预训练过程使用了接近真实的渲染图像作为网络真值,所以网络生成的新视角图像也是渲染风格的,也只是接近真实,与真实拍摄的图像仍存在差异。为了使网络能够借助一些真实拍摄的图像在新视角下生成逼真的图像,本实施例引入网络微调过程来完成网络的小样本训练。
在使用少量真实图像的小样本训练过程中,最简单地做法是将渲染图像{I′i,i=1,…,k}替换为那些真实拍摄的RBG图像{Ii,i=1,…,n}作为网络真值并继续训练神经辐射场网络。
虽然直接替换网络真值的操作非常直接,但是这个简单的策略已经能够帮助网络生成真实风格的新视角图像。唯一的问题在于细节上仍然存在不足,尤其是当新视角与已知真实图像的视角有很大不同时。因此,本实施例引入了图像判别器网络D,并将神经辐射场网络的整个全连接(MLP)网络(包括密度预测网络Fσ和颜色预测网络Fc)视为图像生成器G,形成生成对抗网络架构改进网络训练和生成图像的细节。
在训练过程中,不仅从已知的相机视角{di,i=1,…,n}中采样光线并执行与预训练过程相同的RGB损失监督,而且还从采样视角{d′i,i=1,…,k}生成图像生成的图像/>与实际拍摄的RGB图像{Ii,i=1,…,n}组合来训练生成对抗网络架构。
由于本实施例设定的背景是没有获取大量真实拍摄的RGB图像,因此“真”图像的数量少于“假”(生成)图像的数量。为了解决“真”样本不足的问题,本例中图像判别器网络D采用基于图像分块的判别器,基于图像分块的判别器全部由图像卷积层组成(具体可参见“High-Resolution Image Synthesis and Semantic Manipulation with ConditionalGANs”论文)。
本实施例分别从真实图像和生成的假图像中随机采样一定大小的图像块,并将它们输入到判别器中来判断是“真”还是“假”。基于图像块的判别器不仅可以帮助增加训练中的“真”样本数量,还可以减少显存开销,图像块优选地的大小通常为32×32。
生成对抗网络架构可以在采样视角下为网络微调过程提供除了已知视角下RGB损失函数监督之外的额外监督。针对网络微调过程,除了增加监督之外,更好地利用少量的拍摄的RGB图像和深度图像提供的先验来增强新视角合成结果也是一个可行的思路。目前已有的工作使用二维卷积网络从图像中提取特征,并将采样点投影到图像平面上以获取像素点的特征,获取到的特征被用作网络输入的一部分。然而,这种方法不能消除深度上的歧义,可能会带来错误的先验信息。相反,本实施例通过收集深度信息,可以消除在网络中添加RGB先验时深度的模糊性。
在步骤S2中,不同视角的RGB图像和深度图像已重建为场景的完整彩色点云,所以可以知道场景的每个体素包含点云中的哪些点,及这些点云的颜色信息。由于每个体素中包含的点数不一致,本例取一个体素中点云的平均颜色值作为该体素的体素颜色cvoxel。RGB值cvoxel只有三维,使用类似的编码方式Enc(·),将三维颜色信息编码为高维特征,编码后的体素颜色特征Enc(cvoxel)被作为条件输入到颜色预测网络Fc中,因此颜色预测网络Fc重新定义为:
c=Fc(Enc(gi(p)),Enc(d),Enc(cvoxel))
密度预测网络Fσ与体素颜色无关,因此Fσ的定义不变,并且密度仅由采样点处的编码位置特征决定。Enc(Cvoxel)为相应体素中的采样点提供颜色先验,是来自真实场景的先验。与从2D图像中提取颜色特征的工作相比,本实施例从3D点云中提取颜色信息,可以解决深度的模糊性。
网络微调过程的训练目标由RGB损失函数和生成对抗网络损失函数/>组成,其中RGB损失函数/>的定义与预训练过程中的相同;生成对抗网络损失函数/>定义为:
其中Pfake是假图像块的集合,而Preal是真图像块的集合。
总训练损失函数是和/>的总和:
其中α是调节权重,优选地α=0.1。需要注意的是,RGB损失函数仅适用于生成器网络部分。
网络微调过程训练方法为自适应的矩估计方法(ADAM),训练次数为20000次,学习率从0.001开始,并随着迭代次数逐渐衰减。每次训练都将数据进行随机排序。
图5展示了本实施例在“盒子”场景和“哑铃”场景与其它基于深度图像和神经辐射场的新视角合成方法的比较。其中第一列到第五列为其它方法的在新视角下的合成图像结果,第六列为本实施例方法在新视角下的合成图像结果,最后一列为该视角下拍摄的真实图片。在“盒子”场景下,其它方法要么不能很好地保持两个盒子的外观,要么细节丢失,整个图像非常模糊。在“哑铃”场景下,其它方法要么不能很好地对物体的几何细节进行建模,物体的边界存在模糊,要么整个图像都很模糊。相比之下,本实施例方法的结果很好地保持了场景对象的几何结构和外观,是最接近真实图片的结果。
图6展示了“盆栽”场景下的对比结果,这个场景具有极其精细的几何细节,如盆栽上的枝干与叶子。其中第一列到第五列为其它方法的在新视角下的合成图像结果,第六列为本实施例方法在新视角下的合成图像结果,最后一列为该视角下拍摄的真实图片。第二列和第四列的结果整体非常模糊。第三列的结果能清楚地分辨出植物,但很多叶子缺失了。第一列和第五列的结果叶子模糊或缺失,尤其是第五列的结果中,叶子的颜色受到了地板颜色的影响。而本实施例方法引入基于图像块的判别器和三维体素颜色先验,一方面可以保证树叶不会模糊或消失,另一方面可以防止树叶的颜色受到场景中其他颜色的影响。
图7展示了在“鳄鱼玩具”场景和“角色玩具”场景下的对比结果。这两个数据集中的一个展示了本实施例方法在毛绒物体上生成新视角图像的能力,另一个展示了本实施例方法在多个物体的场景中仍然可以获得较好的结果。其中第一列到第五列为其它方法的在新视角下的合成图像结果,第六列为本实施例方法在新视角下的合成图像结果,最后一列为该视角下拍摄的真实图片。与其他方法相比,本实施例方法的结果更清晰,细节更丰富。
图8展示了在“石凳”场景和“石头艺术品”场景下的对比结果,这两个场景都包含比较大的物体。“石凳”场景包含一个具有十分光滑表面的石凳。可以看到,本实施例的结果可以重建与视角相关的视觉效果,例如石凳表面上的反射。在新视角合成图像中还可以保留一些表面几何图案。与此相比,其他方法的结果甚至不能保持基本的石凳形状。另一个场景,“石头艺术品”包含一个被放置在水面旁边的石头艺术品。从结果可以看出,本实施例的方法不仅很好地重建了石头的几何和外观,而且在合成新视角时很好地处理了水面的反射。其他方法甚至在合成图像的石头部分也会产生瑕疵。
图9展示了在“盆栽”场景下消融实验的结果。总共有四种不同的实验方案。第一种方案去除预训练阶段,直接用体素颜色先验和图像块判别器对网络进行训练。另外三种方案都采用了预训练过程。第二种方案不使用体素颜色先验和图像块判别器,第三种方案使用体素颜色先验但不使用图像块判别器,最后一种方案同时使用体素颜色先验和图像块判别器,是本实施例使用的方法。四种方案分别对应图中四列。通过比较第一列的结果和最后一列的结果,可以得出结论,预训练+微调的策略效果更好。通过对比第二列的结果和第三列的结果,可以发现由于使用了体素颜色先验,第三列结果中的植物叶子不会受到地板颜色的影响,生成的颜色更生动,更接近真实。然而,由于植物本身的复杂结构,第三种方案的结果仍然无法在某些视角(第二排)中重建植物叶片。与第三种方案相比,最后一种方案增加了一个图像块判别器,可以在新视角下提供更好的监督。从第三列和最后一列的结果比较可以看出,在第三种方案缺少叶子的视图中,最后一种方案可以很好地保持外观,视觉效果更好。通过以上四种方案的比较,充分证明了预训练+微调策略的效果以及在小样本学习框架中引入体素颜色先验和图像块判别器的必要性。这些模块达到了预期的效果。
通过上述仿真实验的结果可以看出,本实施例提出的基于深度图像和神经辐射场的新视角合成方法,能够显著较低拍摄视角的需要,同时保证理想的图像合成结果,相比已有方法具有更高的实用价值。
本实施例还提供一种基于神经辐射场的新视角合成装置,包括图像获取模块、点云生成模块、网格生成模块、渲染模块、预训练模块、继续训练模块和新视角合成模块。
其中图像获取模块用于获取场景多个视角的真实RGB-D图像;点云生成模块用于基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云;网格生成模块用于基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;渲染模块用于渲染带颜色的三角网格表示生成大量渲染图像;预训练模块用于利用渲染图像作为网络真值预训练神经辐射场网络;继续训练模块用于利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;新视角合成模块用于通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
本实施例还提供一种存储介质,其上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中基于深度图像和神经辐射场的新视角合成方法的步骤。
本实施例还提供一种电子设备,包括处理器、存储器、输入单元、显示单元和相机,其中存储器上存储有能被处理器执行的计算机程序,该计算机程序被执行时实现本实施例中基于深度图像和神经辐射场的新视角合成方法的步骤;输入单元用于输入指定新视角;显示单元用于显示新视角图像;相机包括RGB相机和LiDAR相机,用于采集RGB-D图像。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变形,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (12)
1.一种基于深度图像和神经辐射场的新视角合成方法,其特征在于:
获取场景多个视角的真实RGB-D图像;
基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB-D图像相应位置的颜色对应;
基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
渲染带颜色的三角网格表示生成大量渲染图像;
利用渲染图像作为网络真值预训练神经辐射场网络;
利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;
通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
2.根据权利要求1所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:
引入图像判别器网络D,将所述神经辐射场网络作为生成器G,形成生成对抗网络;
利用所述RGB图像和神经辐射场网络生成的生成图像训练所述生成对抗网络。
3.根据权利要求2所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于:所述图像判别器网络D采用基于图像分块的判别器。
4.根据权利要求3所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述生成对抗网络的损失函数为:
其中Pfake是假图像块的集合,而Preal是真图像块的集合。
5.根据权利要求1~4任意一项所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练神经辐射场网络,包括:
取场景每个体素所包含点云的平均颜色值作为该体素的体素颜色cvoxel;
将体素颜色特征Enc(cvoxel)作为条件输入到所述神经辐射场网络的颜色预测网络Fc中。
6.根据权利要求1所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,包括:
在每个视角重建原始点云,并为每个视角下点云的每个点分配颜色值;
采用带颜色的迭代最近点算法来对齐不同视角下的点云,对齐后使用盒式网格过滤器将来自不同视角的彩色点云合并在一起,获得场景完整的场景彩色点云。
7.根据权利要求1所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于,所述基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示,包括:将完整的场景彩色点云通过泊松表面重建转换为带颜色的三角网格表示。
8.根据权利要求1所述的基于深度图像和神经辐射场的新视角合成方法,其特征在于:所述神经辐射场网络的预训练过程由RGB损失函数监督,其公式为:
其中,R是分批训练中一个批次的光线集,C(r)是光线r对应像素点的真实颜色;
其中,δi=ti+1-ti,表示第i+1个采样点和第i个采样点之间的距离;σ为神经辐射场网络中密度预测网络Fσ预测的采样点体积密度;c为神经辐射场网络中颜色预测网络Fc预测的采样点颜色值。
9.一种基于深度图像和神经辐射场的新视角合成装置,其特征在于:
图像获取模块,用于获取场景多个视角的真实RGB-D图像;
点云生成模块,用于基于场景多个视角的RGB-D图像生成该场景完整的场景彩色点云,场景彩色点云中每个点的颜色值与RGB-D图像相应位置的颜色对应;
网格生成模块,用于基于场景完整的场景彩色点云生成该场景带颜色的三角网格表示;
渲染模块,用于渲染带颜色的三角网格表示生成大量渲染图像;
预训练模块,用于利用渲染图像作为网络真值预训练神经辐射场网络;
继续训练模块,用于利用所述RGB-D图像对应的真实RGB图像作为网络真值继续训练所述神经辐射场网络;
新视角合成模块,用于通过经渲染图像和RGB图像训练的神经辐射场网络生成指定新视角的图像。
10.一种存储介质,其上存储有能被处理器执行的计算机程序,其特征在于:所述计算机程序被执行时实现权利要求1~8任意一项所述基于深度图像和神经辐射场的新视角合成方法的步骤。
11.一种电子设备,其特征在于,包括:
处理器;
存储器,存储有能被处理器执行的计算机程序,该计算机程序被执行时实现权利要求1~8任意一项所述基于深度图像和神经辐射场的新视角合成方法的步骤;
输入单元,用于输入指定新视角;
显示单元,用于显示新视角图像。
12.根据权利要求11所述的电子设备,其特征在于:该电子设备还具有用于采集RGB-D图像的摄像头。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111033534.0A CN113706714B (zh) | 2021-09-03 | 2021-09-03 | 基于深度图像和神经辐射场的新视角合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111033534.0A CN113706714B (zh) | 2021-09-03 | 2021-09-03 | 基于深度图像和神经辐射场的新视角合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113706714A CN113706714A (zh) | 2021-11-26 |
CN113706714B true CN113706714B (zh) | 2024-01-05 |
Family
ID=78659593
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111033534.0A Active CN113706714B (zh) | 2021-09-03 | 2021-09-03 | 基于深度图像和神经辐射场的新视角合成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706714B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114004941B (zh) * | 2022-01-04 | 2022-08-16 | 苏州浪潮智能科技有限公司 | 一种基于神经辐射场的室内场景三维重建系统及方法 |
CN114119839B (zh) * | 2022-01-24 | 2022-07-01 | 阿里巴巴(中国)有限公司 | 三维模型重建与图像生成方法、设备以及存储介质 |
CN114429538B (zh) * | 2022-04-02 | 2022-07-12 | 中科计算技术创新研究院 | 交互式编辑神经辐射场几何的方法 |
CN114882537B (zh) * | 2022-04-15 | 2024-04-02 | 华南理工大学 | 一种基于神经辐射场的手指新视角图像生成方法 |
CN115049783B (zh) * | 2022-05-20 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 模型的确定方法、场景重建模型、介质、设备及产品 |
CN115115688B (zh) * | 2022-05-31 | 2023-05-02 | 荣耀终端有限公司 | 一种图像处理方法及电子设备 |
CN114998548B (zh) * | 2022-05-31 | 2024-02-13 | 北京非十科技有限公司 | 一种图像重建的方法和系统 |
US20230401815A1 (en) * | 2022-06-10 | 2023-12-14 | Lemon Inc. | Novel view synthesis from sparse volume data structure |
CN114820906B (zh) * | 2022-06-24 | 2022-11-22 | 北京百度网讯科技有限公司 | 图像渲染方法、装置、电子设备及存储介质 |
CN115359195B (zh) * | 2022-07-18 | 2023-06-20 | 北京建筑大学 | 一种正射影像生成方法、装置、存储介质和电子设备 |
CN115100360B (zh) * | 2022-07-28 | 2023-12-01 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
CN115272575B (zh) * | 2022-07-28 | 2024-03-29 | 中国电信股份有限公司 | 图像生成方法及装置、存储介质和电子设备 |
DE102022123577A1 (de) | 2022-09-15 | 2024-03-21 | Dr. Ing. H.C. F. Porsche Aktiengesellschaft | Verfahren zum Simulieren von Echosignalen einer mittels eines auf elektromagnetischen Strahlen basierenden Messsystems abgetasteten Szene |
CN115359170B (zh) * | 2022-10-19 | 2023-03-03 | 北京百度网讯科技有限公司 | 场景数据的生成方法、装置、电子设备和存储介质 |
CN116681818B (zh) * | 2022-10-28 | 2024-04-09 | 荣耀终端有限公司 | 新视角重建方法、新视角重建网络的训练方法及装置 |
CN115631418B (zh) * | 2022-11-18 | 2023-05-16 | 北京百度网讯科技有限公司 | 图像处理方法及装置、神经辐射场的训练方法 |
CN115731336B (zh) * | 2023-01-06 | 2023-05-16 | 粤港澳大湾区数字经济研究院(福田) | 图像渲染方法、图像渲染模型生成方法及相关装置 |
CN115983352B (zh) * | 2023-02-14 | 2023-06-16 | 北京科技大学 | 一种基于辐射场和生成对抗网络的数据生成方法及装置 |
CN116129082B (zh) * | 2023-03-06 | 2024-01-23 | 中南大学 | 一种面向无人货柜的TIN-NeRF新视角图像标注方法 |
CN115965749B (zh) * | 2023-03-16 | 2023-06-23 | 联易云科(北京)科技有限公司 | 一种基于雷视融合的三维重建设备 |
CN116129030B (zh) * | 2023-04-18 | 2023-07-04 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的场景物体融合方法及装置 |
CN116168137B (zh) * | 2023-04-21 | 2023-07-11 | 湖南马栏山视频先进技术研究院有限公司 | 一种基于神经辐射场的新视角合成方法、装置及存储器 |
CN117058049B (zh) * | 2023-05-04 | 2024-01-09 | 广州图语信息科技有限公司 | 新视角图像合成方法、合成模型训练方法及存储介质 |
CN116452758B (zh) * | 2023-06-20 | 2023-10-20 | 擎翌(上海)智能科技有限公司 | 一种神经辐射场模型加速训练方法、装置、设备及介质 |
CN116934936A (zh) * | 2023-09-19 | 2023-10-24 | 成都索贝数码科技股份有限公司 | 一种三维场景风格迁移方法、装置、设备及存储介质 |
CN117115331B (zh) * | 2023-10-25 | 2024-02-09 | 苏州元脑智能科技有限公司 | 一种虚拟形象的合成方法、合成装置、设备及介质 |
CN117456097A (zh) * | 2023-10-30 | 2024-01-26 | 南通海赛未来数字科技有限公司 | 一种三维模型构建方法及装置 |
CN117593618B (zh) * | 2024-01-18 | 2024-04-05 | 苏州立创致恒电子科技有限公司 | 基于神经辐射场和深度图的点云生成方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2808842A2 (en) * | 2013-05-31 | 2014-12-03 | Technische Universität München | An apparatus and method for tracking and reconstructing three-dimensional objects |
EP3293705A1 (en) * | 2016-09-12 | 2018-03-14 | Dassault Systèmes | 3d reconstruction of a real object from a depth map |
CN108876926A (zh) * | 2017-05-11 | 2018-11-23 | 京东方科技集团股份有限公司 | 一种全景场景中的导航方法及系统、ar/vr客户端设备 |
CN111325779A (zh) * | 2020-02-07 | 2020-06-23 | 贝壳技术有限公司 | 点云配准方法和装置、电子设备和存储介质 |
WO2020242170A1 (en) * | 2019-05-28 | 2020-12-03 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
CN112291550A (zh) * | 2020-10-29 | 2021-01-29 | 苏州浪潮智能科技有限公司 | 自由视点图像生成方法、装置、系统及可读存储介质 |
CN112613609A (zh) * | 2020-12-18 | 2021-04-06 | 中山大学 | 基于联合位姿优化的神经辐射场增强方法 |
CN112862901A (zh) * | 2021-02-20 | 2021-05-28 | 清华大学 | 基于多视视频与时空神经辐射场的实验动物视场模拟方法 |
GB202108687D0 (en) * | 2021-06-17 | 2021-08-04 | Monolith Al Ltd | Monolith IP 2 |
-
2021
- 2021-09-03 CN CN202111033534.0A patent/CN113706714B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2808842A2 (en) * | 2013-05-31 | 2014-12-03 | Technische Universität München | An apparatus and method for tracking and reconstructing three-dimensional objects |
EP3293705A1 (en) * | 2016-09-12 | 2018-03-14 | Dassault Systèmes | 3d reconstruction of a real object from a depth map |
CN108876926A (zh) * | 2017-05-11 | 2018-11-23 | 京东方科技集团股份有限公司 | 一种全景场景中的导航方法及系统、ar/vr客户端设备 |
WO2020242170A1 (en) * | 2019-05-28 | 2020-12-03 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
CN111325779A (zh) * | 2020-02-07 | 2020-06-23 | 贝壳技术有限公司 | 点云配准方法和装置、电子设备和存储介质 |
CN112291550A (zh) * | 2020-10-29 | 2021-01-29 | 苏州浪潮智能科技有限公司 | 自由视点图像生成方法、装置、系统及可读存储介质 |
CN112613609A (zh) * | 2020-12-18 | 2021-04-06 | 中山大学 | 基于联合位姿优化的神经辐射场增强方法 |
CN112862901A (zh) * | 2021-02-20 | 2021-05-28 | 清华大学 | 基于多视视频与时空神经辐射场的实验动物视场模拟方法 |
GB202108687D0 (en) * | 2021-06-17 | 2021-08-04 | Monolith Al Ltd | Monolith IP 2 |
Non-Patent Citations (6)
Title |
---|
Multiscale Mesh Defor mation Component Analysis with Attention-based Autoencoders;Jie Yang;《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》;1-12 * |
NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis;Ben Mildenhall;《ECCV》;99-108 * |
Nonrigid reconstruction of 3D breast surfaces with a low-cost RGBD camera for surgical planning and aesthetic evaluation;R.M. Lacher;《Medical Image Analysis》;11-25 * |
STD-Net: Structure-preserving and Top ology-adaptive Deformation Network for 3D Reconstruction from a Single Image;Aihua Mao;《arXiv》;1-14 * |
基于新视角合成的视频摘要交互式浏览;徐超;《电子学报》;2263-2270 * |
基于神经辐射场的视点合成算法综述;常远;《图学学报》;376-384 * |
Also Published As
Publication number | Publication date |
---|---|
CN113706714A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113706714B (zh) | 基于深度图像和神经辐射场的新视角合成方法 | |
Yuan et al. | Star: Self-supervised tracking and reconstruction of rigid objects in motion with neural rendering | |
Kalantari et al. | Learning-based view synthesis for light field cameras | |
Flynn et al. | Deepstereo: Learning to predict new views from the world's imagery | |
Ham et al. | Computer vision based 3D reconstruction: A review | |
Rematas et al. | Image-based synthesis and re-synthesis of viewpoints guided by 3d models | |
CN110378838B (zh) | 变视角图像生成方法,装置,存储介质及电子设备 | |
KR20160033128A (ko) | 3d 표면 재구성을 위한 스파스 gpu 복셀화 | |
CN108416751A (zh) | 一种基于深度辅助全分辨率网络的新视点图像合成方法 | |
CN114581571A (zh) | 基于imu和前向变形场的单目人体重建方法及装置 | |
Osman Ulusoy et al. | Dynamic probabilistic volumetric models | |
CN114998515A (zh) | 一种基于多视角图像的3d人体自监督重建方法 | |
CN115428027A (zh) | 神经不透明点云 | |
CN115298708A (zh) | 多视角神经人体渲染 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
Kolos et al. | TRANSPR: Transparency ray-accumulating neural 3D scene point renderer | |
Yuan et al. | Neural radiance fields from sparse RGB-D images for high-quality view synthesis | |
CN110889868B (zh) | 一种结合梯度和纹理特征的单目图像深度估计方法 | |
CN116664782A (zh) | 一种基于融合体素的神经辐射场三维重建方法 | |
Nguyen et al. | Rgbd-net: Predicting color and depth images for novel views synthesis | |
Liu et al. | Creating simplified 3D models with high quality textures | |
CN116134491A (zh) | 用于面部表情、身体姿态形态和衣服表演捕捉的使用隐式可微分渲染器的多视图神经人体预测 | |
CN116681839B (zh) | 一种基于改进NeRF的实景三维目标重建与单体化方法 | |
Waschbüsch et al. | 3d video billboard clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |