CN113506362A - 基于编码解码网络的单视角透明物体新视图合成的方法 - Google Patents
基于编码解码网络的单视角透明物体新视图合成的方法 Download PDFInfo
- Publication number
- CN113506362A CN113506362A CN202110612422.4A CN202110612422A CN113506362A CN 113506362 A CN113506362 A CN 113506362A CN 202110612422 A CN202110612422 A CN 202110612422A CN 113506362 A CN113506362 A CN 113506362A
- Authority
- CN
- China
- Prior art keywords
- view
- normal
- transparent object
- network
- new
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000002194 synthesizing effect Effects 0.000 title claims abstract description 19
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 20
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 15
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 15
- 230000005540 biological transmission Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 9
- 230000009466 transformation Effects 0.000 claims abstract description 9
- 239000003086 colorant Substances 0.000 claims abstract description 3
- 238000009877 rendering Methods 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 16
- 238000011160 research Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 7
- 238000010206 sensitivity analysis Methods 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 6
- 238000002679 ablation Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000007547 defect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 230000001788 irregular Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/04—Texture mapping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/50—Lighting effects
- G06T15/506—Illumination models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于编码解码网络的单视角透明物体新视图合成的方法,其中包括以下步骤:获取数据集,本方法通过对三维模型在不同视角下获得对应的法线图,建立透明物体复杂背景多视角数据集;模型设计,基于编码解码网络结构,设计合理的网络模型;模型训练,显式地考虑光传输特性和视角相关效应,通过编码解码网络学习RGB颜色到表面法线的光传输特性以及视角变换。将建立的数据集输入给设计的模型进行训练,优化编码网络和解码网络的参数,同时提出一种纹理特征提取子网,以减轻法线贴图生成过程中的轮廓损失现象。实验结果表明,本发明的方法仅使用单视图图像及其对应的分割图就可以在复杂场景中的透明对象上实现更好的视图合成。
Description
技术领域
本发明涉及视图合成领域,尤其涉及一种基于编码解码网络的单视角透明物体新视图合成的方法。本发明提出了一种将复杂场景下单视角透明物体的RGB图像转换为新视图的方法—基于法线估计与纹理提取的编码解码网络,能够在已知且任意环境图中渲染得到新视角透明物体图片。
背景技术
视图合成是在给定一幅或多幅具有已知视角的图像的情况下,生成具有未知视角的图像,这项工作在3D建模、增强现实、图像编辑、以3D视觉观看RGB图像等方面具有广泛的应用。
对于透明物体,由于光线通过物体表面之后被反射至空间中,以至于不能直接观测到物体表面的特征。并且,随着观测视角的变化,依据斯涅尔定律,反射光线的方向也将随之变化,从而将空间中不同位置的信息带入观测的图片中,所以物体表面同一点的特征也跟随着变化。因此,一直以来透明物体的的新视图生成都被认为是很有挑战性的问题。
最近研究工作有多种解决方案,分别是多视角估计场景的三维模型(如Zhou等研究人员的论文,Stereo magnification:Learning view synthesis using multiplaneimages.arXiv preprint arXiv:1805.09817,2018.)、图像修补(如Shih等研究人员的论文,3d photography using context-aware layered depth inpainting.In Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp.8028–8038,2020.)、估计场景深度图、基于图像的渲染(如Wiles等研究人员的论文,Synsin:End-to-end view synthesis from a single image.In Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition,pp.7467–7477,2020.)、估计场景的法线或者折射反射流(光线与像素的关系)(如Zhou等研究人员的论文,View synthesis by appearance flow.In European conference on computer vision,pp.286–301.Springer,2016.)来合成新视图。前四种方法因受限于多视图、或易产生伪像、或无法估计透明物体的深度而对于透明物体的新视图生成这一研究任务不适定,而最后一种方法考虑到透明物体的光传输特性,因此更适用于存在透明物体的复杂场景的新视图合成。
发明内容
(一)要解决的技术问题
本发明的目的在于提供一种基于编码解码网络的单视角透明物体新视图合成的方法,解决上述的技术问题。
(二)技术方案
本发明提供了一种基于编码解码网络的单视角透明物体新视图合成的方法,包括:获取数据集,本方法通过对三维模型在不同视角下获得对应的法线图,建立透明物体复杂背景多视角数据集;模型设计,基于编码解码网络结构,设计合理的网络模型;模型训练,显式地考虑光传输特性和视角相关效应,通过编码解码网络学习RGB颜色到表面法线的光传输特性以及视角变换。将建立的数据集输入给设计的模型进行训练,优化编码网络和解码网络的参数,同时提出一种纹理特征提取子网,以减轻法线贴图生成过程中的轮廓损失现象。
在本发明的一些实施例中,所述构造数据集包括:
因为在当前的研究工作中,没有专门用于评估透明对象新视图合成的开源数据集,所以本发明需要创建一个合成数据集来评估本发明的方法。首先是准备复杂的环境图,本发明获得了2233张HDR全景图片,将1449张场景图片随机选择为训练集,其余的作为本发明的测试集。接下来是透明物体的准备,本发明从ShapeNet收集了9种模型,分别是飞机,浴缸,汽车,椅子,水龙头,罐子,灯,手机,器皿(包括带有孔和大凹面的复杂表面)。对于每个类别,选择了125个模型,其中100个用于训练集中,25个用于测试集中(训练集与测试集比例8:2)。此外,为了证明模型的泛化能力并将其有效地应用于各种3D形状,本发明随机生成了一类不规则形状的3D模型。根据现实世界中的平均透明物体的折射率,将所有形状的IoR设置为1.4723。相机的视野为63.4149。假设相机是透视相机,则相机的视点绕Z轴从-9°到9°每隔3°进行变化,并且生成的图像的分辨率为480*360。
在本发明的一些实施例中,所述模型的设计包括:
用于法线估计的网络架构,它以透明物体RGB图像和相应的分割图作为输入,并使用共享权重的方式预测法线。编码器由六个下采样(卷积层、RELU激活层和归一化层)模块组成,其输出通道数为(64,64,256,256,512,512)。如果结合后续纹理特征或视角特征的变化,第二层的输入通道数为128。解码器由三个反卷积模块(卷积层、归一化层和RELU激活层)、和三个上采样层组成,其输出通道数为(512,256,256,128,128,64)。首先进行编码,通过将透明物体RGB图像和相应的分割图输入到编码器,以低维的特征向量的形式进行特征提取。然后进行解码,将提取的特征向量输入到解码器,输出对应的法线图。
用于纹理特征提取的网络架构,因为CNN的空间变换不变性导致其对边缘细节不敏感,难以捕捉法线图的细节信息,最终造成法线图的细节丢失。针对卷积神经网络细节轮廓丢失严重的问题,本发明提出了一个基于VGG19的纹理特征提取器优化法线图生成时的轮廓损失现象,以透明物体RGB图像为输入并将提取到的纹理特征作为上一步的输入,得到质量较好的透明物体法线图。
用于法线预测的网络架构,目前而言,很难从RGB颜色空间直接估计新视角的法线贴图,这对于生成高质量的新视角场景图像至关重要。因此,本发明不直接从图像的特征变化到新视点的法线图学习映射关系,而是首先估计初始视点下透明物体的法线图,然后学习随视点变化法线图之间的映射关系。它以透明物体RGB图像的法线估计图和相应的视点变换作为输入来预测新视点的法线。模型设置与用于法线估计的网络架构,只是编码器层第二层的输入通道数变更为128。
在本发明的一些实施例中,所述模型的训练包括:
在数据的输入阶段,网络的输入是一个具有已知折射率(IoR)的透明物体的图像I,以及一个对应的分割蒙版M,输出是两个法线贴图N1和N2(它们是入射光线穿过透明物体两接触点P1和P2的法线),然后经过渲染器渲染得到新视角图片。因此,在理论上是比较渲染得到的图片的分布与真实图片所形成的分布的差异,优化模型参数,尽可能减小差异。
本发明的网络模型分别使用三个损失函数:第一个阶段采用的是L2损失函数计算从RGB像素到其对应法线值的转换误差,第二个阶段也是采用的L2损失函数计算将新视点与原始视点之间的法线值差异,第三个阶段是计算渲染生成图片和目标图片之间的损失,由L1损失函数计算损失。
模型的超参数设定,其中编码器和编码器的学习率初始化为10-4,并利用Adam优化器(其动量参数的范围在0.5到0.9直接)进行优化。本发明的模型学习率每50个迭代后将其减半,所有网络都经过了200个迭代的训练。本发明基于PyTorch实现上述模型,并需要2天左右的时间在单张NVIDIA GeForce RTX 3090GPU上进行训练。
在本发明的一些实施例中,所诉模型的测试,包括步骤:
本发明随机调整测试集中每个模型的7个不同视角图片的顺序,以便每个视点图像和不同的视点图形成一个测试对,这样本发明就可以得到250*7套不同形状的透明对象的输入源视点图像和目标新视点图像。与现有的研究方法如Synsin,CLDI和VAF相比,本发明的方法可以很好地合成透明物体的新透视图。本发明使用SSIM、PSNR和LPIPS等评价指标在合成目标视图和真实视图之间进行度量,以量化每个模型的性能。
为了观察本发明提出的组件对最终性能的影响,本发明进行了消融研究(均在测试集上进行验证)。首先,本发明验证了纹理提取器对透明物体正常估计的影响。其次,本发明还计算PSNR,SSIM,LPIPS等评价指标以进行评估生成的法线图和真实的法线图之间的差异。此外,本发明针对IoR指数对渲染精度的影响进行了灵敏度性分析,使用范围在[1.2-1.8]的IoR来测试本发明的网络,比较生成渲染得到的图片与真实图片的差异变化。
(三)有益效果
本发明的基于编码解码网络的单视角透明物体新视图合成的方法,相较于现有技术,至少具有以下优点:
1、生成透明物体的新视图不再需要输入现有的3D模型,极大简化了网络生成流程。
2、相比于其他研究方法,本发明在透明物体场景下新视角合成的问题上表现得更好,并且可以在每个视角下将目标对象无缝地合成到任何新背景中。
3、基于VGG19的纹理提取器的提出,优化法线图生成时的轮廓损失现象,并将提取到的纹理特征作为上一步的输入,得到质量较好的透明物体法线图。
附图说明
图1为本发明实施例的基于编码解码网络的单视角透明物体新视图合成流程示意图。
图2为本发明实施例的基于编码解码网络的单视角透明物体新视图合成网络结构图。
图3为本发明实施例的采集透明物体复杂背景多视角数据集所使用的三维模型。
图4为本发明实施例的透明物体光传输示意图。
图5为本发明实施例的法线估计网络架构示意图。
图6为本发明实施例的可视化结果图。
图7为本发明实施例的IoR灵敏度分析示例图。
具体实施方式
本发明提供了一种基于编码解码网络的单视角透明物体新视图合成的方法,采用了编码解码结构。通过设计基于编码解码网络的单视角透明物体新视图合成的卷积神经网络模型,然后收集大量的草图和对应的浅浮雕模型制作成数据集,然后将收集的数据集输入设计好的神经网络模型进行训练优化模型参数,能够解决现有透明物体新视图合成依赖于3D模型的缺点,在复杂的日常场景中对于多种形态的透明物体仅使用一张单视角RGB图片以及对应分割图像就能够生成多个视角的法线图以及新视角图片。在透明物体场景下新视角合成的问题上表现得更好,并且可以在每个视角下将目标对象无缝地合成到任何新背景中。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的一方面,提供了一种基于编码解码网络的单视角透明物体新视图合成的方法,图1为本发明实施例的基于编码解码网络的单视角透明物体新视图合成的结构示意图,如图1所示,该装置包括:构建数据集1、模型的设计2、模型的训练3和模型的测试4。构建数据集1,本步骤制作了十类不同模型的数据集包括:飞机,浴缸,汽车,椅子,水龙头,罐子,灯,手机,器皿(包括带有孔和大凹面的复杂表面)和不规则模型;通过对三维模型在X轴和Y轴进行视角的转动,每一个三维模型获得7个不同视角下的场景图、分割掩码图、双法线图;模型的设计2,树立透明物体新视角生成的目标任务,通过调查研究后结合编码解码网络的网络架构思想进行网络的设计;模型的训练3,将收集的数据集输入给网络模型,设置相应的超参数进行训练网络模型,优化生成网络和判别网络的参数;模型的测试4,通过与现有视图合成的研究工作进行对比,利用PSNR,SSIM,LPIPS等评价指标进行评估,在合成目标视图和真实视图之间进行度量,以量化每个模型的性能。
接下来,结合图2至图7对本发明中各模块(数据集构造、模型设计、模型训练、模型测试)的工作流程进行详细地说明。
构造透明物体复杂背景多视角数据集1,通过使用渲染三维模型的方法获得大量的不同视角下的透明物体场景图、对应分割图、双法线图。其中本步骤一共制作了十类不同模型的数据集包括:飞机,浴缸,汽车,椅子,水龙头,罐子,灯,手机,器皿(包括带有孔和大凹面的复杂表面)和不规则模型,如图3所示。相机假定为透视相机,则相机的视点绕Z轴从-9°到9°,每隔3°进行变化,并且生成的图像的分辨率为480*360。相机在Z轴进行均匀的转动来获得不同的视角,本步骤采用先在Z轴每次转动3度。每一个模型对应着7个视角,从而每个三维模型获得7组数据,包括场景图、模型配置信息、相机位置信息、双法线图等。
对数据集的划分,本步骤将80%的配套的透明物体模型相关数据按划分到训练集,剩余的20%划分到测试集。
模型的设计2,如图2所示,模型包括法线估计网络、纹理特征提取网络和法线预测网络以及后续渲染操作。
法线估计网络,由于透明物体的复杂光学传输特性,网络需要了解透明物体的反射和折射特性以及形状轮廓特征。本发明提出了一种用于估计法线图的编码器/解码器网络,其优点是仅使用单个RGB图像及其对应的分割图像来获得透明物体的复杂光透射效果,而不是使用复杂且耗时的光线跟踪。换句话说,在准确估计法线图之后,本发明可以直接计算入射光穿过透明物体后折射光和反射光的方向。本发明网络的输入是一个具有已知折射率(IoR)的透明物体的图像I,以及一个相应的分割掩码图M,输出是两个法线贴图N1和N2(它们是入射光线穿过透明物体两接触点P1和P2的法线,请参见图4)。本发明使用N1和N2的真实值作为监督,即网络架构如图5所示。
N1,N2=DNNet(I,M)
从RGB像素到其对应法线值的转换误差,所采用的损失函数就是N1和N2的L2损失。
纹理特征提取网络,由于卷积神经网络的空间变换不变性使其对边缘细节不敏感,因此难以捕获法线贴图的细节信息,这通常会导致法线贴图的细节大量丢失,尤其是在透明对象的轮廓处。针对这个问题,本发明提出了基于VGG19的纹理特征提取器,以有效减轻法线贴图生成过程中的轮廓损失。使用提取的纹理特征作为新加入作为上一阶段法线估计网络的输入,生成具有更好质量的透明对象的法线贴图。本发明的纹理提取器原理是充分利用输入图像I中对象的纹理细节,以补偿生成的法线贴图的细节信息。本发明使用pytorch提出的预训练VGG19模型来学习相应透明对象的纹理特征(表示为TF),并将输入图像I和分割掩码图M组合起来,将其发送到编码层,将其转换为编码层的隐空间特征。该特征用作解码器的输入以预测法线图。若使用纹理特征提取网络,则本发明的法线估计可以重新表示为
N1,N2=DNNet(I,M,TF)
where TF=VGG19(I,M)
法线预测网络,本部分的关键是通过神经网络了解法线变化与视角变化之间的关系。现有的用于视图合成的工作通常使用图像修复等技术直接在图像像素空间中操作,而无需重新计算对象的实际光照效果。显然,由于透明物体因折射和反射形成的复杂光路,使得无法将这些方法应用于透明对象。考虑到很难从原有RGB颜色空间直接预测新视点的法线贴图的情况(这对于生成newviewpoint的逼真的高质量场景图像至关重要),本发明不直接学习从图像的颜色特征变化到新视点法线图的映射关系,而是首先估计初始视点下透明物体的法线图,然后学习关于法线图之间有关视角的映射。给定初始视点sv和目标视点tv,本发明需要从目标视点tv生成透明对象的新视图。本发明使用一个简单的卷积网络层来学习初始视点到目标视点的空间变化特征,结合法线估计网络的预测法线贴图N1和N2的特征一起作解码器的输入以预测新视图的法线贴图tN1和tN2。本发明使用真实的来监督tN1和tN2的训练。
tN1,tN2=DNNet(N1,N2,sv,tv)
计算将新视点与原始视点之间的法线值差异,所采用的损失函数就是tN1和tN2的L2损失。
渲染操作,本发明提出的渲染模块来实现透明对象的新视图的渲染,并通过非迭代的局部计算来模拟透明对象在渲染过程中的折射和反射。给定一个新的场景,表示为场景环境图E(任意已知的环境图,本发明均采用的是真实环境下HDR图像的室内场景图)。如图4所示,首先,根据斯涅尔定律,本发明利用法线预测网络估计的法线图tN1和tN2计算折射和反射光线l1与l2,然后根据新视点tv将折射反射光线的方向由相机坐标系转换为世界坐标系。其次,在校准摄像机后,为新视图透明物体图像Io的每个像素计算其入射光方向li。最后,通过双线性采样计算环境地图E的射入光线方向,以获得像素的采样。由于发生了全内反射,某些光在进入透明物体后再次反弹后可能无法到达环境图。因此,渲染层将返回到误差二进制掩码Merr。渲染层通过反射,折射和全内反射获得透明对象的新视图图像Io。
l1,l2,Merr=RenderLayer(E,tN1,tN2)
Io=l1+l2
对应的新透视图真实图像Igt和生成的Io之间的差异是渲染损失Lr,本发明使用渲染损失Lr进行额外的监督:
Lr=|Igt-Io|⊙M
网络模型的训练3,在数据的输入阶段,网络的输入是一个具有已知折射率(IoR)的透明物体的图像I,以及一个对应的分割蒙版M,输出是新视角的两个法线贴图tN1和tN2,然后经过渲染器渲染得到新视角图片Io。因此,在本质上是比较渲染得到的图片Io的分布与真实图片Igt的分布的差异,优化模型参数,尽可能减小差异。
本发明的网络模型分别使用三个损失函数:第一个阶段采用的是L2损失函数计算从RGB像素到其对应法线值的转换误差,第二个阶段也是采用的L2损失函数计算将新视点与原始视点之间的法线值差异,第三个阶段是计算渲染生成图片和目标图片之间的损失,由L1损失函数计算损失。
模型的超参数设定,其中编码器和编码器的学习率初始化为10-4,并利用Adam优化器(其动量参数的范围在0.5到0.9直接)进行优化。本发明的模型学习率每50个迭代后将其减半,所有网络都经过了200个迭代的训练。本发明基于PyTorch实现上述模型,并需要2天左右的时间在单张NVIDIA GeForce RTX 3090GPU上进行训练。
模型的测试4,本步骤从可视化结果、量化指标评估来比较现有研究与本发明,再通过消融实验、IoR灵敏度性分析来分析本发明各模块的鲁棒性与功能贡献度。
本发明随机调整测试集中每个模型的7个不同视角图片的顺序,以便每个视点图像和不同的视点图形成一个测试对,这样本发明就可以得到250*7套不同形状的透明对象的输入源视点图像和目标新视点图像。如图6与表1所示,与现有的研究方法如Synsin,CLDI和VAF相比,本发明的方法可以很好地合成透明物体的新透视图。本发明使用SSIM、PSNR和LPIPS在合成目标视图和真实视图之间进行度量,以量化每个模型的性能。
为了观察本发明提出的组件对最终性能的影响,本发明进行了消融研究(均在测试集上进行验证)。首先,本发明验证了纹理提取器对透明物体正常估计的影响。其次,本发明还计算PSNR,SSIM,LPIPS等评价指标以进行评估生成的法线图和真实的法线图之间的差异。此外,本发明针对IoR指数对渲染精度的影响进行了灵敏度性分析,使用范围在[1.2-1.8]的IoR来测试本发明的网络,比较生成渲染得到的图片与真实图片的差异变化。如图7所示,IoR在此范围内产生的渲染误差只在很小的范围内变化,这表明本发明模型对IoR值是相对稳健的。
表1.量化评估
综上,本发明的基于编码解码网络的单视角透明物体新视图合成的方法,通过构造数据集,再设计网络模型,最后训练和测试模型,能够解决现有透明物体新视图合成依赖于3D模型的缺点,在复杂的日常场景中对于多种形态的透明物体仅使用一张单视角RGB图片以及对应分割图像就能够生成多个视角的法线图以及新视角图片。在透明物体场景下新视角合成的问题上表现得更好,并且可以在每个视角下将目标对象无缝地合成到任何新背景中。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的“一”或“一个”不排除存在多个这样的元件。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.本发明提供了一个基于编码解码网络的单视角透明物体新视图合成的方法,包括如下步骤包括:
S1、获取数据集,本方法通过对三维模型在不同视角下获得对应的法线图,建立透明物体复杂背景多视角数据集;
S2、基于编码解码网络结构,设计合理的网络模型;
S3、显式地考虑光传输特性和视角相关效应,通过编码解码网络学习RGB颜色到表面法线的光传输特性以及视角变换;将建立的数据集输入给设计的模型进行训练,优化编码网络和解码网络的参数,同时提出一种纹理特征提取子网,以减轻法线贴图生成过程中的轮廓损失现象;
S4、经过可视化对比、多评价指标量化、消融实验、灵敏度分析等对模型进行测试,本发明方法仅使用单视图图像及其对应的分割图就可以在复杂场景中的透明对象上实现更好的视图合成。
2.如权利要求1所述的基于编码解码网络的单视角透明物体新视图合成,其特征在于,所述步骤S1具体包括以下处理:
首先是准备复杂的环境图,本发明获得了2233张HDR全景图片,将1449张场景图片随机选择为训练集,其余的作为本发明的测试集;接下来是透明物体的准备,本发明从ShapeNet收集了9种模型,分别是飞机,浴缸,汽车,椅子,水龙头,罐子,灯,手机,器皿(包括带有孔和大凹面的复杂表面);对于每个类别,选择了125个模型,其中100个用于训练集中,25个用于测试集中(训练集与测试集比例8:2);此外,为了证明模型的泛化能力并将其有效地应用于各种3D形状,本发明随机生成了一类不规则形状的3D模型;根据现实世界中的平均透明物体的折射率,将所有形状的IoR设置为1.4723;相机的视野为63.4149;假设相机是透视相机,则相机的视点绕Z轴从-9°到9°每隔3°进行变化,并且生成的图像的分辨率为480*360。
3.如权利要求1所述的基于编码解码网络的单视角透明物体新视图合成,其特征在于,所述步骤S2具体包括以下处理:
用于法线估计的网络架构,它以透明物体RGB图像和相应的分割图作为输入,并使用共享权重的方式预测法线;编码器由六个下采样(卷积层、RELU激活层和归一化层)模块组成,其输出通道数为(64,64,256,256,512,512);如果结合后续纹理特征或视角特征的变化,第二层的输入通道数为128;解码器由三个反卷积模块(卷积层、归一化层和RELU激活层)、和三个上采样层组成,其输出通道数为(512,256,256,128,128,64);首先进行编码,通过将透明物体RGB图像和相应的分割图输入到编码器,以低维的特征向量的形式进行特征提取;然后进行解码,将提取的特征向量输入到解码器,输出对应的法线图;
用于纹理特征提取的网络架构,因为CNN的空间变换不变性导致其对边缘细节不敏感,难以捕捉法线图的细节信息,最终造成法线图的细节丢失;针对卷积神经网络细节轮廓丢失严重的问题,本发明提出了一个基于VGG19的纹理特征提取器优化法线图生成时的轮廓损失现象,以透明物体RGB图像为输入并将提取到的纹理特征作为上一步的输入,得到质量较好的透明物体法线图;
用于法线预测的网络架构,目前而言,很难从RGB颜色空间直接估计新视角的法线贴图,这对于生成高质量的新视角场景图像至关重要;因此,本发明不直接从图像的特征变化到新视点的法线图学习映射关系,而是首先估计初始视点下透明物体的法线图,然后学习随视点变化法线图之间的映射关系;它以透明物体RGB图像的法线估计图和相应的视点变换作为输入来预测新视点的法线;模型设置与用于法线估计的网络架构,只是编码器层第二层的输入通道数变更为128。
4.如权利要求1所述的基于编码解码网络的单视角透明物体新视图合成,其特征在于,所述步骤S3具体包括以下处理:
法线估计网络,由于透明物体的复杂光学传输特性,网络需要了解透明物体的反射和折射特性以及形状轮廓特征;本发明提出了一种用于估计法线图的编码器/解码器网络,其优点是仅使用单个RGB图像及其对应的分割图像来获得透明物体的复杂光透射效果,而不是使用复杂且耗时的光线跟踪;换句话说,在准确估计法线图之后,本发明可以直接计算入射光穿过透明物体后折射光和反射光的方向;本发明网络的输入是一个具有已知折射率(IoR)的透明物体的图像I,以及一个相应的分割掩码图M,输出是两个法线贴图N1和N2(它们是入射光线穿过透明物体两接触点P1和P2的法线);本发明使用N1和N2的真实值作为监督,即
N1,N2=DNNet(I,M)
从RGB像素到其对应法线值的转换误差,所采用的损失函数就是N1和N2的L2损失;
纹理特征提取网络,由于卷积神经网络的空间变换不变性使其对边缘细节不敏感,因此难以捕获法线贴图的细节信息,这通常会导致法线贴图的细节大量丢失,尤其是在透明对象的轮廓处;针对这个问题,本发明提出了基于VGG19的纹理特征提取器,以有效减轻法线贴图生成过程中的轮廓损失;使用提取的纹理特征作为新加入作为上一阶段法线估计网络的输入,生成具有更好质量的透明对象的法线贴图;本发明的纹理提取器原理是充分利用输入图像I中对象的纹理细节,以补偿生成的法线贴图的细节信息;本发明使用pytorch提出的预训练VGG19模型来学习相应透明对象的纹理特征(表示为TF),并将输入图像I和分割掩码图M组合起来,将其发送到编码层,将其转换为编码层的隐空间特征;该特征用作解码器的输入以预测法线图;若使用纹理特征提取网络,则本发明的法线估计可以重新表示为
N1,N2=DNNet(I,M,TF)
where TF=VGG19(I,M)
法线预测网络,本部分的关键是通过神经网络了解法线变化与视角变化之间的关系;现有的用于视图合成的工作通常使用图像修复等技术直接在图像像素空间中操作,而无需重新计算对象的实际光照效果;显然,由于透明物体因折射和反射形成的复杂光路,使得无法将这些方法应用于透明对象;考虑到很难从原有RGB颜色空间直接预测新视点的法线贴图的情况(这对于生成newviewpoint的逼真的高质量场景图像至关重要),本发明不直接学习从图像的颜色特征变化到新视点法线图的映射关系,而是首先估计初始视点下透明物体的法线图,然后学习关于法线图之间有关视角的映射;给定初始视点sv和目标视点tv,本发明需要从目标视点tv生成透明对象的新视图;本发明使用一个简单的卷积网络层来学习初始视点到目标视点的空间变化特征,结合法线估计网络的预测法线贴图N1和N2的特征一起作解码器的输入以预测新视图的法线贴图tN1和tN2;本发明使用真实的来监督tN1和tN2的训练;
tN1,tN2=DNNet(N1,N2,sv,tv)
计算将新视点与原始视点之间的法线值差异,所采用的损失函数就是tN1和tN2的L2损失;
渲染操作,本发明提出的渲染模块来实现透明对象的新视图的渲染,并通过非迭代的局部计算来模拟透明对象在渲染过程中的折射和反射;给定一个新的场景,表示为场景环境图E(任意已知的环境图,本发明均采用的是真实环境下HDR图像的室内场景图);首先,根据斯涅尔定律,本发明利用法线预测网络估计的法线图tN1和tN2计算折射和反射光线l1与l2,然后根据新视点tv将折射反射光线的方向由相机坐标系转换为世界坐标系;其次,在校准摄像机后,为新视图透明物体图像Io的每个像素计算其入射光方向li;最后,通过双线性采样计算环境地图E的射入光线方向,以获得像素的采样;由于发生了全内反射,某些光在进入透明物体后再次反弹后可能无法到达环境图;因此,渲染层将返回到误差二进制掩码Merr;渲染层通过反射,折射和全内反射获得透明对象的新视图图像Io;
l1,l2,Merr=RenderLayer(E,tN1,tN2)
Io=l1+l2
对应的新透视图真实图像Igt和生成的Io之间的差异是渲染损失Lr,本发明使用渲染损失Lr进行额外的监督:
Lr=|Igt-Io|⊙M
在数据的输入阶段,网络的输入是一个具有已知折射率(IoR)的透明物体的图像I,以及一个对应的分割蒙版M,输出是新视角的两个法线贴图tN1和tN2,然后经过渲染器渲染得到新视角图片Io;因此,在本质上是比较渲染得到的图片Io的分布与真实图片Igt的分布的差异,优化模型参数,尽可能减小差异;
本发明的网络模型分别使用三个损失函数:第一个阶段采用的是L2损失函数计算从RGB像素到其对应法线值的转换误差,第二个阶段也是采用的L2损失函数计算将新视点与原始视点之间的法线值差异,第三个阶段是计算渲染生成图片和目标图片之间的损失,由L1损失函数计算损失;
模型的超参数设定,其中编码器和编码器的学习率初始化为10-4,并利用Adam优化器(其动量参数的范围在0.5到0.9直接)进行优化;本发明的模型学习率每50个迭代后将其减半,所有网络都经过了200个迭代的训练;本发明基于PyTorch实现上述模型,并需要2天左右的时间在单张NVIDIA GeForce RTX 3090 GPU上进行训练。
5.如权利要求1所述的基于编码解码网络的单视角透明物体新视图合成,其特征在于,所述步骤S4具体包括以下处理:
本发明随机调整测试集中每个模型的7个不同视角图片的顺序,以便每个视点图像和不同的视点图形成一个测试对,这样本发明就可以得到250*7套不同形状的透明对象的输入源视点图像和目标新视点图像;与现有的研究方法相比,本发明的方法可以很好地合成透明物体的新透视图;本发明使用SSIM、PSNR和LPIPS在合成目标视图和真实视图之间进行度量,以量化每个模型的性能;
为了观察本发明提出的组件对最终性能的影响,本发明进行了消融研究(均在测试集上进行验证);首先,本发明验证了纹理提取器对透明物体正常估计的影响;其次,本发明还计算PSNR,SSIM,LPIPS等评价指标以进行评估生成的法线图和真实的法线图之间的差异;此外,本发明针对IoR指数对渲染精度的影响进行了灵敏度性分析,使用范围在[1.2-1.8]的IoR来测试本发明的网络,比较生成渲染得到的图片与真实图片的差异变化;
综上,本发明的基于编码解码网络的单视角透明物体新视图合成的方法,通过构造数据集,再设计网络模型,最后训练和测试模型,能够解决现有透明物体新视图合成依赖于3D模型的缺点,在复杂的日常场景中对于多种形态的透明物体仅使用一张单视角RGB图片以及对应分割图像就能够生成多个视角的法线图以及新视角图片;在透明物体场景下新视角合成的问题上表现得更好,并且可以在每个视角下将目标对象无缝地合成到任何新背景中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612422.4A CN113506362B (zh) | 2021-06-02 | 2021-06-02 | 基于编码解码网络的单视角透明物体新视图合成的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110612422.4A CN113506362B (zh) | 2021-06-02 | 2021-06-02 | 基于编码解码网络的单视角透明物体新视图合成的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113506362A true CN113506362A (zh) | 2021-10-15 |
CN113506362B CN113506362B (zh) | 2024-03-19 |
Family
ID=78008807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110612422.4A Active CN113506362B (zh) | 2021-06-02 | 2021-06-02 | 基于编码解码网络的单视角透明物体新视图合成的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113506362B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615499A (zh) * | 2022-05-07 | 2022-06-10 | 北京邮电大学 | 一种面向图像传输的语义光通信系统和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102196242A (zh) * | 2010-02-12 | 2011-09-21 | 王炳立 | 具有图像增强功能的自适应场景图像辅助系统 |
US20120235988A1 (en) * | 2010-09-10 | 2012-09-20 | Dd3D, Inc. | Systems and methods for converting two-dimensional images into three-dimensional images |
CN108305229A (zh) * | 2018-01-29 | 2018-07-20 | 深圳市唯特视科技有限公司 | 一种基于深度学习轮廓网络的多视图重建方法 |
WO2020242170A1 (en) * | 2019-05-28 | 2020-12-03 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
-
2021
- 2021-06-02 CN CN202110612422.4A patent/CN113506362B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102196242A (zh) * | 2010-02-12 | 2011-09-21 | 王炳立 | 具有图像增强功能的自适应场景图像辅助系统 |
US20120235988A1 (en) * | 2010-09-10 | 2012-09-20 | Dd3D, Inc. | Systems and methods for converting two-dimensional images into three-dimensional images |
CN108305229A (zh) * | 2018-01-29 | 2018-07-20 | 深圳市唯特视科技有限公司 | 一种基于深度学习轮廓网络的多视图重建方法 |
WO2020242170A1 (en) * | 2019-05-28 | 2020-12-03 | Samsung Electronics Co., Ltd. | Electronic device and controlling method thereof |
Non-Patent Citations (1)
Title |
---|
张之敏;乔建忠;林树宽;王品贺;: "一种基于深度网络的视图重建方法", 东北大学学报(自然科学版), no. 08 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615499A (zh) * | 2022-05-07 | 2022-06-10 | 北京邮电大学 | 一种面向图像传输的语义光通信系统和方法 |
CN114615499B (zh) * | 2022-05-07 | 2022-09-16 | 北京邮电大学 | 一种面向图像传输的语义光通信系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113506362B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN111739078B (zh) | 一种基于上下文注意力机制的单目无监督深度估计方法 | |
CN108510573A (zh) | 一种基于深度学习的多视点人脸三维模型重建的方法 | |
CN112465955B (zh) | 一种动态人体三维重建和视角合成方法 | |
CN110223370A (zh) | 一种从单视点图片生成完整人体纹理贴图的方法 | |
CN116402942A (zh) | 一种融合多尺度图像特征的大规模建筑物三维重建方法 | |
CN115423978A (zh) | 用于建筑物重建的基于深度学习的图像激光数据融合方法 | |
CN117315169A (zh) | 基于深度学习多视密集匹配的实景三维模型重建方法和系统 | |
CN116468769A (zh) | 一种基于图像的深度信息估计方法 | |
CN114758070A (zh) | 基于跨域多任务的单张图像三维人体精细重建方法 | |
CN113506362B (zh) | 基于编码解码网络的单视角透明物体新视图合成的方法 | |
CN112927348B (zh) | 一种基于多视点rgbd相机高分辨率人体三维重建方法 | |
CN114187263A (zh) | 一种融合先验引导和域适应的磨损表面朗伯反射分离方法 | |
CN112116646B (zh) | 一种基于深度卷积神经网络的光场图像深度估计方法 | |
CN117671126A (zh) | 基于神经辐射场的空间变化室内场景光照估计方法 | |
Sarkar et al. | LitNeRF: Intrinsic Radiance Decomposition for High-Quality View Synthesis and Relighting of Faces | |
CN117557721A (zh) | 一种单张图像细节三维人脸重建方法、系统、设备和介质 | |
US20230177771A1 (en) | Method for performing volumetric reconstruction | |
CN116310228A (zh) | 一种针对遥感场景的表面重建与新视图合成方法 | |
Kang et al. | View-dependent scene appearance synthesis using inverse rendering from light fields | |
CN115761116A (zh) | 一种基于单目相机的透视投影下三维人脸重建方法 | |
CN109697695A (zh) | 可见光图像引导的超低分辨率热红外图像插值算法 | |
CN115082636A (zh) | 基于混合高斯网络的单图像三维重建方法及设备 | |
Pei et al. | Research on 3D reconstruction technology of large‐scale substation equipment based on NeRF | |
CN110689514B (zh) | 一种透明物体的新视角合成模型的训练方法和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |