CN115359191A - 一种基于深度学习的物体三维重建系统 - Google Patents

一种基于深度学习的物体三维重建系统 Download PDF

Info

Publication number
CN115359191A
CN115359191A CN202211111620.3A CN202211111620A CN115359191A CN 115359191 A CN115359191 A CN 115359191A CN 202211111620 A CN202211111620 A CN 202211111620A CN 115359191 A CN115359191 A CN 115359191A
Authority
CN
China
Prior art keywords
depth
pixel
stage
image
dimensional reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211111620.3A
Other languages
English (en)
Inventor
宋涛
邢镔
郑米培
张渝
张景涛
李程
田媛
王敏
李沩沩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Industrial Big Data Innovation Center Co ltd
Chongqing University of Technology
Original Assignee
Chongqing Industrial Big Data Innovation Center Co ltd
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Industrial Big Data Innovation Center Co ltd, Chongqing University of Technology filed Critical Chongqing Industrial Big Data Innovation Center Co ltd
Priority to CN202211111620.3A priority Critical patent/CN115359191A/zh
Publication of CN115359191A publication Critical patent/CN115359191A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/20Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Graphics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Architecture (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及三维重建技术领域,具体涉及一种基于深度学习的物体三维重建系统。本发明提出了一种引入可见性感知的自适应成本聚合方法用于成本量的聚合,通过网络获取视图中像素点的可见性,可以提高遮挡区域重建完整性;采用基于方差预测每像素视差范围,构建空间变化的深度假设面,用于下一阶段的深度估计,在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块,以获得优化后的深度图;采用改进深度图融合算法,结合像素点与3D点重投影误差进行一致性检查,得到密集点云。在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景,且实现了降低GPU内存消耗和计算时长的目的。

Description

一种基于深度学习的物体三维重建系统
技术领域
本发明涉及三维重建技术领域,具体涉及一种基于深度学习的物体三维重建系统。
背景技术
三维重建是指利用二维投影恢复物体三维信息(形状等)的数学过程和计算机技术。三维重建技术作为计算机视觉的热门方向之一,被广泛应用于医疗、3D打印、虚拟现实技术和3D地图和导航等方面。传统的三维重建方法使用的相似性度量和正则化方法如标准化互相关和半全局匹配等来计算光度一致性并恢复深度信息。尽管目前的一些传统算法在精确度方面表现良好,但它们也有一些共同的局限性,例如在场景的低纹理、镜面反射和反射区域的重建较为困难。
和传统算法相比,基于学习的方法能够学习利用场景全局语义信息,包括对象材质、镜面反射度和环境照明等条件,以获得更稳健的匹配和更完整的重建。近年来,卷积神经网络在各种计算机视觉任务中的成功应用促进了多视图几何(MVS)方法的改进。立体匹配任务非常适合应用基于深度学习的方法,因为对图像的预先矫正,此问题变成了水平像素方向的视差估计,而不需要考虑相机参数。
在基于深度学习的三维重建方面,有研究人员提出SurfaceNet预先构建彩色体素立方体,将所有图像像素颜色信息和相机信息组合到单个体素中,作为网络的输入;也有研究人员提出立体学习机(LSM)直接利用可微映射来实现端到端的训练。然而,这两种方法都利用了规则栅格的体积表示,受三维体积巨大内存消耗的限制,其网络难以扩展:LSM仅处理低体积分辨率的对象,而SurfaceNet采用启发式分治策略,大规模重建需要很长时间。除此,还有研究人员提出端到端的网络(如MVSNet)直接从一系列图像中估计场景的深度,从而达到更高的预测精度。
尽管上述方法的准确性已在各种数据集上得到验证,但大多数方法都利用3D卷积神经网络(CNN)来预测深度图或体素占用,导致内存消耗过多,限制了估计分辨率的提高。随后,研究人员进一步提出了一种新的基于递归神经网络的可伸缩多视点立体框架,称为R-MVSNet。通过顺序处理,算法的在线内存需求从三次型降低到二次型,能够实现高分辨率的重建。然而这使重建的完整性和准确性受到了影响,运行速率也有所降低。后续工作等级联式立体网络用于多幅RGB图像的三维重建。然而在2D到3D信息融合过程中,同样存在一些不足之处,如深度估计网络内存占用过大、无法处理图像中遮挡区域的可见性问题、计算深度图耗时太长等问题。
综上,怎样通过低内存占用和低计算消耗实现高精度和高度完整的重建,成为目前亟待解决的问题。
发明内容
针对上述现有技术的不足,本发明提供了一种基于深度学习的物体三维重建系统,能够通过低内存占用和低计算消耗实现高精度和高度完整的重建。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于深度学习的物体三维重建系统,包括输入单元、处理单元、融合单元和重建单元;输入单元用于输入进行三维重建的初始图像,所述初始图像包括源图像和1张参考图像;
所述处理单元包括级联式三维重建网络和深度图优化模块,级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计;所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块;
特征提取模块用于预设的要求对初始图像进行特征提取,得到对应的特征图;所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取;成本体构建模块用于对该阶段的特征图进行处理,得到各像素点的可见性并构建对应的成本体;自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体,再采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面;深度图构建模块用于根据概率体预测得到对应的初始深度图;其中,若成本体构建模块不属于级联式三维重建网络的第一阶段,则该成本体构建模块根据该阶段的特征图及上一阶段的深度假设面构建成本体;深度图优化模块用于对最后一阶段的初始深度图进行优化,得到优化深度图;
融合单元用于根据优化深度图生成3D密集点云;重建单元用于对3D密集点云进行处理得到重建的三维视图。
基础方案有益效果:
本发明中,提出了一种引入可见性感知的自适应成本聚合方法,在成本体生成阶段采用了相似性度量的方法,通过可见性感知网络获取视图中像素点是否可见;基于方差预测每像素视差范围,将局部深度范围划分在学习到的小间隔内,按分辨率从低到高分阶段进行深度估计;并在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块,以实现从粗到精的方式实现重建。实验证明,在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景,且实现了降低GPU内存消耗和计算时长的目的。
与现有技术相比,本方法能够通过低内存占用和低计算消耗实现高精度和高度完整的重建。
优选地,所述特征提取模块包括编码器和特征提取器;所述编码器包括一组卷积层组,编码器的统一层为INPLACE-ABN,编码器用于按预设步长的卷积对初始图像大小进行下采样;特征提取器用于按照预设的要求从解码器中提取特征图。
有益效果:INPLACE-ABN是将常用深度网络中常见的BN+Activation组合替换为一个合并层,通过存储少量计算结果(丢弃部分中间结果,在反向传播时倒置计算恢复需要的参量),节省了50%的存储空间,却只增加少许计算量。它取代了常用的批量标准化(BN)和非线性激活层,在后向传递期间,可以通过反转前向传递计算有效地从该缓冲区恢复所有所需的量,理论上在不引入明显的计算开销的情况下在卷积层获得50%的内存增益,计算时间仅增加0.8-2%。
优选地,第一阶段的成本构建模块的工作过程包括:
建立一个标准的平面扫描体,从预定义的深度间隔[dmin,dmax]中均匀采样得到L个深度假设层
Figure BDA0003843545130000031
通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体;所述源视图的特征映射和参考图像之间的像素对应关系为:
pi,l=Ki·(Ri·(K-1·p·dl)+ti);其中,pi,l为第i张源图像中的像素p在参考图像中第l层深度假设dl的对应像素:
Figure BDA0003843545130000032
为参考图像与第i张源图像的内参矩阵;
Figure BDA0003843545130000033
为参考图像与第i张源图像的旋转平移矩阵。
优选地,除第一阶段外,其余阶的成本体构建模块的工作过程包括:
将特征通道划分为G组后,计算参考图像特征F(p)和第i张源视图在第l层深度假设面扭曲映射后的特征图Fi(pi,l)在第g组的相似性Si(p,l)g
Figure BDA0003843545130000034
其中,H为特征通道的数量;G为特征通道的组数;
计算像素P和第l层深度假设面的最终每组相似性
Figure BDA0003843545130000035
Si(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性;n表示初始图像的数量;
Figure BDA0003843545130000036
为第i张源图像的可见性掩码;
计算第i幅源图像的成本体
Figure BDA0003843545130000037
Figure BDA0003843545130000038
表示第i张源视图在第l层深度假设面的最终每组相似性;
再计算成本体C:
Figure BDA0003843545130000039
有益效果:在大多数已知的MVS方法中,成本体是通过将所有提取的特征映射转换为参考图像的特征映射来生成的。本发明在使用与其他方法不同的特征聚合方法的同时,对成本体的生成进行了深入的研究。通过类似于平面扫描算法将提取的特征从源视图扭曲映射到参考视图,从而在多个尺度上构建多个成本体。并且,针对本发明中各阶段构建模块的具体特征,本发明对第一阶段和其与阶段的构建模块,专门设计了不同的成本提构建方式。这样的构建方式,在保证运算效率的同时,还可以保证成本体的构建质量。
优选地,自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本,再通过可见性感知网络获取源图像中像素点是否可见;
其中,所述通过可见性感知网络获取视图中像素点是否可见包括:将参考图像特征F(p)和源图像特征Fi(pi,l)的相似性Si(p,l)输入可见性感知网络,并输出视图i的可见性掩码
Figure BDA0003843545130000041
且在所有像素上共享权重,独立预测每个像素的可见性;所述可见性掩码
Figure BDA0003843545130000042
中,wi(p)=max{Pi(p,l)|l=0,1,...,L-1};其中,Pi(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值;L为该阶段的深度假设面的数量。
有益效果:现有技术中,如MVSNet,将所有视图中的多视图功能提供给基于方差的成本度量,而不管像素的可见性如何,未解决的可见性问题可能会不可避免地恶化最终重建。为此,本发明提出了一种新的聚合操作,通过这种方式可以在成本聚合期间学习到源视图像素在参考图像中的可见信息,并获得稳健性。
优选地,自适应聚合模块通过3D CNN处理成本体,并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后,得到对应的概率体。
优选地,像素p在第k阶段的预测深度Qk(p)的计算式为:
Figure BDA0003843545130000043
其中,L为该阶段的深度假设面的数量;Qk,l表示第k阶段的第l假设平面,Qk,l(p)表示Qk,l在像素p处的值;Pk,l(p)表示像素p在Qk,l的概率值。
优选地,所述自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面具体包括:
计算像素p在第k阶段的概率分布的方差vk(p):
Figure BDA0003843545130000044
其中,Pk,l(p)表示像素p在Qk,l深度的概率值;Qk(p)表示像素p在k阶段的预测深度概率体;并计算相应的标准差
Figure BDA0003843545130000051
使用基于方差的置信区间来衡量视差范围预测:
ck(p)=[Qk(p)-λσk(p),Qk(p)+λσk(p)];其中,λ为预设的用于确定置信区间的大小的标量参数;
之后,对于每个像素p,从第k阶段的置信区间ck(p)均匀采样Lk+1个深度值,以获取该像素在k+1阶段的深度假设面的深度值Qk+1,1(p),Qk+1,2(p),...,
Figure BDA0003843545130000053
并构建对应的深度假设面。
有益效果:这样的方式,在地面真值表面周围有一个概率局部空间,地面真值深度位于视差范围区间内,具有很高的置信度。由于基于方差的视差范围估计是可微的,这使本发明的网络能够学习调整每个阶段的概率预测,以实现在端到端训练过程中实现优化的间隔和后续阶段的相应的深度假设面,从而实现高效的空间划分。
优选地,深度图优化模块包括注意力引导的深度残差网络;深度残差网络的训练包括优化深度残差网络学习输出残差,并将残差添加到深度残差网络的深度图估计中;
深度图优化模块的工作过程包括:将参考图像经2D卷积层后的特征图D∈RH×W×C与最后一阶段产生的初始深度图Dpre拼接,得到拼接特征图D1;之后,通过顺着空间维度来对拼接特征图D1进行特征压缩、全局平均池化和1×1卷积得到一个R1×1×C的张量wc,张量wc用于表示拼接特征图D1的对应通道中的权重;然后,将张量wc经过sigmoid函数归一化后与拼接特征图D1相乘,使每个通道拼接特征图D1与权重相乘;再将加权后的拼接特征图D1与最后一阶段产生的初始深度图Dpre相加,生成优化深度图Dc
有益效果:通过本发明提出的残差与通道注意力引导融合的深度图优化模块,可以在保证对最有一阶段的初始深度图进行优化的同时,尽可能的避免深度学习算法遭遇梯度弥散和梯度爆炸的风险。
优选地,融合单元还用于对优化深度图生成的3D点进行一致性筛查,所述一致性筛查具体包括:
获取优化深度图中的图像i在像素点p处的深度值di(p)后,结合相机参数的投影矩阵Pi=[Mi|ti],将图像i上的像素点p反投影到3D空间中生成3D点Tref(x,y,z):
Figure BDA0003843545130000052
之后,将3D点Tref(x,y,z)投影到图像i的邻域视图生成投影像素q:
Figure BDA0003843545130000061
其中,Pj表示邻域试图的相机参数,d为投影深度;再将邻域视图的投影像素q根据其估计深度dj(q)反投影到3D空间并投影回参考图像生成像素p':
Figure BDA0003843545130000062
其中,d'为参考图像上重投影像素p'处的深度值;计算像素点的重投影误差:ξp=||p-p'||2;将图像i中重投影误差ξp>θ1对应的像素点筛除;其中,θ1为正向投影误差阈值;
然后,将邻域视图同位置的像素点根据其估计深度dj(q)反投影到3D空间生成3D点Tsrc(x',y',z'):
Figure BDA0003843545130000063
再将邻域视图的3D点通过单应性矩阵扭曲映射到图像Ii的3D空间中得到点Tproj(x”,y”,z”);并计算点Tproj的重投影误差:ξn=(x”-x)2+(y”-y)2+(z”-z)2;将重投影误差ξn>θ2对应的3D点Tproj筛除;其中,θ2反投影误差阈值;
通过聚集来自所有邻域视图的3D点匹配一致性,获得全局多视图几何一致性
Figure BDA0003843545130000064
其中,n为初始图像的数量;再将η(p)≥τ对应的3D点Tref删除;其中,τ为全局多视图几何一致性误差阈值。
有益效果:与现有技术中的深度图融合方法相比,本发充分考虑了几何一致性,并且结合计算像素点的重投影误差和3D点的重投影误差,明提高了三维重建点云的鲁棒性、完整性和准确性。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为实施例中处理单元的示意图;
图2为实施例中自适应聚合模块的示意图;
图3为随像素在空间变化的深度假设面示意图;
图4为深度图优化模块中注意力引导的深度残差网络的示意图;
图5为实验的精度误差和内存消耗的比较结果示例图;
图6为实验的精度误差和运行时间内存消耗的结果示例图;
图7-图8为实验的四种网络的定性比较结果图;
图9为实验中本模型22个场景处理结果展示图;
图10为实验的深度图可视化对比图。
具体实施方式
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于深度学习的物体三维重建系统,包括输入单元、处理单元、融合单元和重建单元。
输入单元用于输入进行三维重建的初始图像,所述初始图像包括源图像和1张参考图像。为便于后续说明,具体实施时,初始图像的数量为n,即,源图像的数量为n-1。
如图1所示,处理单元包括级联式三维重建网络和深度图优化模块,级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计;所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块。具体实施时,级联式三维重建网络共包括三个阶段。
特征提取模块用于预设的要求对初始图像进行特征提取,得到对应的特征图;所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取。具体实施时,所述特征提取模块包括编码器和特征提取器;所述编码器包括一组卷积层组,编码器的统一层为INPLACE-ABN,编码器用于按预设步长的卷积对初始图像大小进行下采样;特征提取器用于按照预设的要求从解码器中提取特征图。
以往的方法通常采用多层2D CNN下采样或是UNet来进行单一分辨率上的特征提取,为了实现高分辨率特征通过学习的上采样过程以较低的分辨率适当地合并信息,本发明提出了一个多尺度特征提取器,先采用类似FPN的八层降采样卷积网络,然后参考UNet,在多阶段深度预测中,每个阶段都使用前一阶段中的特征信息,从而进行合理的高频特征提取。编码器由一组卷积层组成,使用步长stride=2的卷积对原始图像大小进行两次下采样。之前的网络中大量采用BN层接激活层的组合,而现有的深度学习框架一定程度上在深度学习框架中的内存管理不理想。本公司名采用一种新的统一层(INPLACE-ABN),INPLACE-ABN是将常用深度网络中常见的BN+Activation组合替换为一个合并层,通过存储少量计算结果(丢弃部分中间结果,在反向传播时倒置计算恢复需要的参量),节省了50%的存储空间,却只增加少许计算量。它取代了常用的批量标准化(BN)和非线性激活层,在后向传递期间,可以通过反转前向传递计算有效地从该缓冲区恢复所有所需的量,理论上在不引入明显的计算开销的情况下在卷积层获得50%的内存增益,计算时间仅增加0.8-2%。其输入为参考图像与N-1张源图像。特征提取器从解码器提取三个比例的特征图F1,F2,F3,用于代价体构建。本发明将原始图像的大小表示为W*H,F1,F2,F3具有
Figure BDA0003843545130000081
和W*H的分辨率。
成本体构建模块用于对该阶段的特征图进行处理,得到各像素点的可见性并构建对应的成本体。具体实施时,第一阶段的成本构建模块的工作过程包括:
建立一个标准的平面扫描体,从预定义的深度间隔[dmin,dmax]中均匀采样得到L个深度假设层
Figure BDA0003843545130000082
通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体;所述源视图的特征映射和参考图像之间的像素对应关系为:
pi,l=Ki·(Ri·(K-1·p·dl)+ti);其中,pi,l为第i张源图像中的像素p在参考图像中第l层深度假设dl的对应像素:
Figure BDA0003843545130000083
为参考图像与第i张源图像的内参矩阵;
Figure BDA0003843545130000084
为参考图像与第i张源图像的旋转平移矩阵。
除第一阶段外,其余阶的成本体构建模块的工作过程包括:
将特征通道划分为G组后,计算参考图像特征F(p)和第i张源视图在第l层深度假设面扭曲映射后的特征图Fi(pi,l)在第g组的相似性Si(p,l)g
Figure BDA0003843545130000085
其中,H为特征通道的数量;G为特征通道的组数;
计算像素P和第l层深度假设面的最终每组相似性
Figure BDA0003843545130000086
其中,Si(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性;n表示初始图像的数量;
Figure BDA0003843545130000087
为第i张源图像的可见性掩码;
计算第i幅源图像的成本体
Figure BDA0003843545130000088
Figure BDA0003843545130000089
表示第i张源视图在第l层深度假设面的最终每组相似性;
再计算成本体C:
Figure BDA00038435451300000810
在大多数已知的MVS方法中,成本体是通过将所有提取的特征映射转换为参考图像的特征映射来生成的。本发明在使用与其他方法不同的特征聚合方法的同时,对成本体的生成进行了深入的研究。通过类似于平面扫描算法将提取的特征从源视图扭曲映射到参考视图,从而在多个尺度上构建多个成本体。并且,针对本发明中各阶段构建模块的具体特征,本发明对第一阶段和其与阶段的构建模块,专门设计了不同的成本提构建方式。这样的构建方式,在保证运算效率的同时,还可以保证成本体的构建质量。
自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体,再采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面。
具体实施时,如图2所示,自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本,再通过可见性感知网络获取源图像中像素点是否可见;其中,所述通过可见性感知网络获取视图中像素点是否可见包括:将参考图像特征F(p)和源图像特征Fi(pi,l)的相似性Si(p,l)输入可见性感知网络,并输出视图i的可见性掩码
Figure BDA0003843545130000091
且在所有像素上共享权重,独立预测每个像素的可见性;所述可见性掩码
Figure BDA0003843545130000092
中,wi(p)=max{Pi(p,l)|l=0,1,...,L-1};其中,Pi(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值;L为该阶段的深度假设面的数量。现有技术中,如MVSNet,将所有视图中的多视图功能提供给基于方差的成本度量,而不管像素的可见性如何,未解决的可见性问题可能会不可避免地恶化最终重建。为此,本发明提出了一种新的聚合操作,通过这种方式可以在成本聚合期间学习到源视图像素在参考图像中的可见信息,并获得稳健性。
自适应聚合模块通过3D CNN处理成本体,并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后,得到对应的概率体。
像素p在第k阶段的预测深度Qk(p)的计算式为:
Figure BDA0003843545130000093
其中,L为该阶段的深度假设面的数量;Qk,l表示第k阶段的第l假设平面,Qk,l(p)表示Qk,l在像素p处的值;Pk,l(p)表示像素p在Qk,l的概率值。
自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面具体包括:
计算像素p在第k阶段的概率分布的方差vk(p):
Figure BDA0003843545130000094
其中,Pk,l(p)表示像素p在Qk,l深度的概率值;Qk(p)表示像素p在k阶段的预测深度概率体;并计算相应的标准差
Figure BDA0003843545130000095
使用基于方差的置信区间来衡量视差范围预测:
ck(p)=[Qk(p)-λσk(p),Qk(p)+λσk(p)];其中,λ为预设的用于确定置信区间的大小的标量参数;
之后,对于每个像素p,从第k阶段的置信区间ck(p)均匀采样Lk+1个深度值,以获取该像素在k+1阶段的深度假设面的深度值Qk+1,1(p),Qk+1,2(p),...,
Figure BDA0003843545130000102
并构建对应的深度假设面。
通过这种方式,本发明可以构建Lk+1个随像素在空间变化的深度假设曲面Qk+1,l,如图3所示。该方法在地面真值表面周围有一个概率局部空间,地面真值深度位于视差范围区间内,具有很高的置信度。由于基于方差的视差范围估计是可微的,这使本发明的网络能够学习调整每个阶段的概率预测,以实现在端到端训练过程中实现优化的间隔和后续阶段的相应的深度假设平面,从而实现高效的空间划分。
深度图构建模块用于根据概率体预测得到对应的初始深度图。深度图优化模块用于对最后一阶段的初始深度图进行优化,得到优化深度图。具体实施时,深度图优化模块包括注意力引导的深度残差网络,如图4所示;深度残差网络的训练包括优化深度残差网络学习输出残差,并将残差添加到深度残差网络的深度图估计中。
如图5所示,深度图优化模块的工作过程包括:将参考图像经2D卷积层后的特征图D∈RH×W×C与最后一阶段产生的初始深度图Dpre拼接,得到拼接特征图D1;之后,通过顺着空间维度来对拼接特征图D1进行特征压缩、全局平均池化和1×1卷积得到一个R1×1×C的张量wc,张量wc用于表示拼接特征图D1的对应通道中的权重;然后,将张量wc经过sigmoid函数归一化后与拼接特征图D1相乘,使每个通道拼接特征图D1与权重相乘;再将加权后的拼接特征图D1与最后一阶段产生的初始深度图Dpre相加,生成优化深度图Dc
Figure BDA0003843545130000103
通过本发明提出的残差与通道注意力引导融合的深度图优化模块,可以在保证对最有一阶段的初始深度图进行优化的同时,尽可能的避免深度学习算法遭遇梯度弥散和梯度爆炸的风险。
融合单元用于根据优化深度图生成3D密集点云。融合单元还用于对优化深度图生成的3D点进行一致性筛查,所述一致性筛查具体包括:
获取优化深度图中的图像i在像素点p处的深度值di(p)后,结合相机参数的投影矩阵Pi=[Mi|ti],将图像i上的像素点p反投影到3D空间中生成3D点Tref(x,y,z):
Figure BDA0003843545130000101
之后,将3D点Tref(x,y,z)投影到图像i的邻域视图生成投影像素q:
Figure BDA0003843545130000111
其中,Pj表示邻域试图的相机参数,d为投影深度;再将邻域视图的投影像素q根据其估计深度dj(q)反投影到3D空间并投影回参考图像生成像素p':
Figure BDA0003843545130000112
其中,d'为参考图像上重投影像素p'处的深度值;计算像素点的重投影误差:ξp=||p-p'||2;将图像i中重投影误差ξp>θ1对应的像素点筛除;其中,θ1为正向投影误差阈值;
然后,将邻域视图同位置的像素点根据其估计深度dj(q)反投影到3D空间生成3D点Tsrc(x',y',z'):
Figure BDA0003843545130000113
再将邻域视图的3D点通过单应性矩阵扭曲映射到图像Ii的3D空间中得到点Tproj(x”,y”,z”);并计算点Tproj的重投影误差:ξn=(x”-x)2+(y”-y)2+(z”-z)2;将重投影误差ξn>θ2对应的3D点Tproj筛除;其中,θ2为为反投影误差阈值;
通过聚集来自所有邻域视图的3D点匹配一致性,获得全局多视图几何一致性
Figure BDA0003843545130000114
其中,n为初始图像的数量;再将η(p)≥τ对应的3D点Tref删除;其中,τ为为全局多视图几何一致性误差阈值。
与现有技术中的深度图融合方法相比,本发充分考虑了几何一致性,并且结合计算像素点的重投影误差和3D点的重投影误差,明提高了三维重建点云的鲁棒性、完整性和准确性。
重建单元用于对3D密集点云进行处理得到重建的三维视图。
与现有技术相比,本发明提出了一种引入可见性感知的自适应成本聚合方法,在成本体生成阶段采用了相似性度量的方法,通过可见性感知网络获取视图中像素点是否可见;基于方差预测每像素视差范围,将局部深度范围划分在学习到的小间隔内,按分辨率从低到高分阶段进行深度估计;并在最后一阶段提出了残差与通道注意力引导融合的深度图优化模块,以实现从粗到精的方式实现重建。并采用改进深度图融合算法,结合像素点与3D点重投影误差进行几何一致性检查。
实验证明,在DTU数据集上与其他方法的定量定性比较结果表明本发明方法可以重建出细节上表现更好的场景,且实现了降低GPU内存消耗和计算时长的目的。实验的具体内容如下:
实验设置
在DTU数据集上训练本发明中的网络。DTU数据集中包含了各种各样的场景和物体,还包括非常相似的场景,例如房屋模型,这样可以探索类内可变性。数据集分为训练集、验证集和测试集。和之前基于深度学习的方法一样,采用场景{3,5,17,21,28,35,37,38,40,43,56,59,66,67,82,86,106,117}作为验证集,场景{1,4,9,10,11,12,13,15,23,24,29,32,33,34,48,49,62,75,77,110,114,118}作为测试集,训练集为其余78个场景。训练输入图片的分辨率为640x512,视图数为3;使用N1=64,N2=32和N3=8来构造平面扫描体。从端到端训练完整三阶网络30个epoch。初始学习率为0.0016。
实验结论
在DTU测试集上评估了本系统,采用视图数n=5,图片尺寸W=1600,H=1184,初始深度范围dmin=425mm,dmax=933.8mm。使用MSG-Net中的距离度量来比较最终重建的精度。以下参数是在点云模型下完成的,真值是结构光扫描得到的点云模型Comp.完整性由计算结构光扫描的模型的每个点到距离MVS重建的模型最近点的距离计算;Acc.精度由在可视掩码内的MVS重建的点到结构光扫描模型最近点的距离;Ovrall衡量准确性和完整性的总体表现。对传统方法和基于学习的方法进行了比较,定量结果如表1所示。虽然Gipuma[27]在不精确性方面表现最佳,但本方法在完整性方面优于其他方法,并在整体质量方面取得了有竞争力性能。注意,在输入相同的情况下,MVSNet和R-MVSNet预测的深度图大小仅为
Figure BDA0003843545130000122
最终深度图是在原始图像尺寸上估计的,这具有高得多的分辨率,并且导致明显更好的完整性。
表1 DTU评估数据集上重建质量的定量结果(越低越好)
Table 1 quantitative results of reconstruction quality on DTUevaluation data set(the lower the better)
Figure BDA0003843545130000121
同时,对三维重建的整体精度误差(overall error)和内存消耗以及精度误差和运行时间上做了比较,与其他方法相比,本发明的模型的内存消耗和运行时长相对更小,如图5、图6所示。模型内存消耗和运行时间分别比CasMVSNet降低了36.64%和22.95%,比CVP-MVSNet降低了39.54%和61.48%,比UCSNet降低了14.84%和16.07%。同时。整体精度误差(overall error)比CasMVSNet、CVP-MVSNet、UCSNet分别降低了9.30%,6.40%,。在生成点云的质量方面,本发明的3D重建结果与UCSNet、CasMVSNet与地面真值Ground Truth在DTU数据集上的scan15,scan23,scan32进行定性比较,由图7-8所示。图中,(a)为CasMVSNet,(b)为UCSNet;(c)为Ground Truth;(d)为本发明。在这些示例中实现了相当的完整性,由于能够处理高输入分辨率,本发明的结果更加密集,门、横幅和饮料瓶的弱纹理区域细节更加精细,且在图七的遮挡区域表现良好,并且可以更容易地从3D重建结果中识别。
为了证明网络训练模型的有效性,对DTU数据中1、4、9、10、11、12、13、15、23、24、29、32、33、34、48、49、62、75、77、110、114、118场景分别进行深度图的预测,进而转换成点云模型做出展示,总共22个场景,如图9所示。
消融实验分析
提供消融实验和定量分析,以评估本发明框架中关键组件包括自适应成本聚合、深度图优化模块与改进深度图融合算法的优势和局限性。在接下来的所有研究中,实验都是在DTU数据集上进行和评估的,并且准确性和完整性都被用来衡量重建质量。设置组数G=4,其他所有设置与前文中使用的设置相同。结果如表2所示。
表2 模型消融实验对比
Table 9 Comparison of model ablation experiments
Figure BDA0003843545130000131
通过表2,可以看出本发明提出的算法对于Baseline网络有了显著提升。同时,如图10所示,针对自适应成本聚合方法,进行了对输出尺寸为1200x1986的深度图可视化来说明网络对于图片全局及可见信息的感知。由左至右分别:rgb图;Baseline网络的深度图,采用自适应成本聚合的深度图,添加深度图优化模块后的网络模型的深度图。通过对比,可以看出,本发明提出的网络模型深度图更完整孔洞更少,边缘更清晰,能够做出更好地预测结果。
结果表明,本发明在提升预测结果的整体精度前提下降低了网络的GPU内存的消耗,并且提升了计算速度,生成的点云文字部分以及场景细节的弱纹理区域与遮挡区域处重建效果明显。与大多数基于学习的MVS方法相比,本发明实现了具有竞争力的性能。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种基于深度学习的物体三维重建系统,其特征在于:包括输入单元、处理单元、融合单元和重建单元;输入单元用于输入进行三维重建的初始图像,所述初始图像包括源图像和1张参考图像;
所述处理单元包括级联式三维重建网络和深度图优化模块,级联式三维重建网络用于按分辨率从低到高分阶段进行深度估计;所述级联式三维重建网络的每一阶段均包括特征提取模块、成本体构建模块、自适应聚合模块和深度图构建模块;
特征提取模块用于预设的要求对初始图像进行特征提取,得到对应的特征图;所述预设要求为各阶段的特征提取模块按照分辨率从低到高的顺序依次进行特征提取;成本体构建模块用于对该阶段的特征图进行处理,得到各像素点的可见性并构建对应的成本体;自适应聚合模块用于对该阶段的成本体进行分析处理得到对应的概率体,再采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面;深度图构建模块用于根据概率体预测得到对应的初始深度图;其中,若成本体构建模块不属于级联式三维重建网络的第一阶段,则该成本体构建模块根据该阶段的特征图及上一阶段的深度假设面构建成本体;深度图优化模块用于对最后一阶段的初始深度图进行优化,得到优化深度图;
融合单元用于根据优化深度图生成3D密集点云;重建单元用于对3D密集点云进行处理得到重建的三维视图。
2.如权利要求1所述的基于深度学习的物体三维重建系统,其特征在于:所述特征提取模块包括编码器和特征提取器;所述编码器包括一组卷积层组,编码器的统一层为INPLACE-ABN,编码器用于按预设步长的卷积对初始图像大小进行下采样;特征提取器用于按照预设的要求从解码器中提取特征图。
3.如权利要求2所述的基于深度学习的物体三维重建系统,其特征在于:第一阶段的成本构建模块的工作过程包括:
建立一个标准的平面扫描体,从预定义的深度间隔[dmin,dmax]中均匀采样得到L个深度假设层
Figure FDA0003843545120000011
通过源视图的特征映射和参考图像之间的像素对应关系扭曲映射得到对应的成本体;所述源视图的特征映射和参考图像之间的像素对应关系为:
pi,l=Ki·(Ri·(K-1·p·dl)+ti);其中,pi,l为第i张源图像中的像素p在参考图像中第l层深度假设dl的对应像素:
Figure FDA0003843545120000012
为参考图像与第i张源图像的内参矩阵;
Figure FDA0003843545120000013
为参考图像与第i张源图像的旋转平移矩阵。
4.如权利要求3所述的基于深度学习的物体三维重建系统,其特征在于:除第一阶段外,其余阶的成本体构建模块的工作过程包括:
将特征通道划分为G组后,计算参考图像特征F(p)和第i张源视图在第l层深度假设面扭曲映射后的特征图Fi(pi,l)在第g组的相似性Si(p,l)g
Figure FDA0003843545120000021
其中,H为特征通道的数量;G为特征通道的组数;
计算像素P和第l层深度假设面的最终每组相似性
Figure FDA0003843545120000022
其中,Si(p,l)表示像素p参考图像特征和第i张源图像在l层特征图上的相似性;n表示初始图像的数量;
Figure FDA0003843545120000023
为第i张源图像的可见性掩码;
计算第i幅源图像的成本体
Figure FDA0003843545120000024
Figure FDA0003843545120000025
表示第i张源视图在第l层深度假设面的最终每组相似性;
再计算成本体C:
Figure FDA0003843545120000026
5.如权利要求4所述的基于深度学习的物体三维重建系统,其特征在于:自适应聚合模块经平均分组相关性计算的相似性度量来表示结构权重成本,再通过可见性感知网络获取源图像中像素点是否可见;
其中,所述通过可见性感知网络获取视图中像素点是否可见包括:将参考图像特征F(p)和源图像特征Fi(pi,l)的相似性Si(p,l)输入可见性感知网络,并输出视图i的可见性掩码
Figure FDA0003843545120000027
且在所有像素上共享权重,独立预测每个像素的可见性;所述可见性掩码
Figure FDA0003843545120000028
中,wi(p)=max{Pi(p,l)|l=0,1,...,L-1};其中,Pi(p,l)表示第i张源图像中像素p在第l层深度假设面的像素值;L为该阶段的深度假设面的数量。
6.如权利要求5所述的基于深度学习的物体三维重建系统,其特征在于:自适应聚合模块通过3D CNN处理成本体,并在3D CNN的末尾应用深度方向的softmax来分析每个像素的预测深度后,得到对应的概率体。
7.如权利要求6所述的基于深度学习的物体三维重建系统,其特征在于:像素p在第k阶段的预测深度Qk(p)的计算式为:
Figure FDA0003843545120000029
其中,L为该阶段的深度假设面的数量;Qk,l表示第k阶段的第l假设平面,Qk,l(p)表示Qk,l在像素p处的值;Pk,l(p)表示像素p在Qk,l的概率值。
8.如权利要求7所述的基于深度学习的物体三维重建系统,其特征在于:所述自适应聚合模块采用基于方差的视差范围预测每像素的空间变化的视差范围,并构建空间变化的深度假设面具体包括:
计算像素p在第k阶段的概率分布的方差vk(p):
Figure FDA0003843545120000031
其中,Pk,l(p)表示像素p在Qk,l深度的概率值;Qk(p)表示像素p在k阶段的预测深度概率体;并计算相应的标准差
Figure FDA0003843545120000032
使用基于方差的置信区间来衡量视差范围预测:
ck(p)=[Qk(p)-λσk(p),Qk(p)+λσk(p)];其中,λ为预设的用于确定置信区间的大小的标量参数;
之后,对于每个像素p,从第k阶段的置信区间ck(p)均匀采样Lk+1个深度值,以获取该像素在k+1阶段的深度假设面的深度值
Figure FDA0003843545120000033
并构建对应的深度假设面。
9.如权利要求8所述的基于深度学习的物体三维重建系统,其特征在于:深度图优化模块包括注意力引导的深度残差网络;深度残差网络的训练包括优化深度残差网络学习输出残差,并将残差添加到深度残差网络的深度图估计中;
深度图优化模块的工作过程包括:将参考图像经2D卷积层后的特征图D∈RH×W×C与最后一阶段产生的初始深度图Dpre拼接,得到拼接特征图D1;之后,通过顺着空间维度来对拼接特征图D1进行特征压缩、全局平均池化和1×1卷积得到一个R1×1×C的张量wc,张量wc用于表示拼接特征图D1的对应通道中的权重;然后,将张量wc经过sigmoid函数归一化后与拼接特征图D1相乘,使每个通道拼接特征图D1与权重相乘;再将加权后的拼接特征图D1与最后一阶段产生的初始深度图Dpre相加,生成优化深度图Dc
10.如权利要求9所述的基于深度学习的物体三维重建系统,其特征在于:融合单元还用于对优化深度图生成的3D点进行一致性筛查,所述一致性筛查具体包括:
获取优化深度图中的图像i在像素点p处的深度值di(p)后,结合相机参数的投影矩阵Pi=[Mi|ti],将图像i上的像素点p反投影到3D空间中生成3D点Tref(x,y,z):
Figure FDA0003843545120000041
之后,将3D点Tref(x,y,z)投影到图像i的邻域视图生成投影像素q:
Figure FDA0003843545120000042
其中,Pj表示邻域试图的相机参数,d为投影深度;再将邻域视图的投影像素q根据其估计深度dj(q)反投影到3D空间并投影回参考图像生成像素p':
Figure FDA0003843545120000043
其中,d'为参考图像上重投影像素p'处的深度值;计算像素点的重投影误差:ξp=||p-p'||2;将图像i中重投影误差ξp>θ1对应的像素点筛除;其中,θ1为正向投影误差阈值;
然后,将邻域视图同位置的像素点根据其估计深度dj(q)反投影到3D空间生成3D点Tsrc(x',y',z'):
Figure FDA0003843545120000044
再将邻域视图的3D点通过单应性矩阵扭曲映射到图像Ii的3D空间中得到点Tproj(x”,y”,z”);并计算点Tproj的重投影误差:ξn=(x”-x)2+(y”-y)2+(z”-z)2;将重投影误差ξn>θ2对应的3D点Tproj筛除;其中,θ2为反投影误差阈值;
通过聚集来自所有邻域视图的3D点匹配一致性,获得全局多视图几何一致性
Figure FDA0003843545120000045
其中,n为初始图像的数量;再将η(p)≥τ对应的3D点Tref删除;其中,τ为全局多视图几何一致性误差阈值。
CN202211111620.3A 2022-09-13 2022-09-13 一种基于深度学习的物体三维重建系统 Pending CN115359191A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211111620.3A CN115359191A (zh) 2022-09-13 2022-09-13 一种基于深度学习的物体三维重建系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211111620.3A CN115359191A (zh) 2022-09-13 2022-09-13 一种基于深度学习的物体三维重建系统

Publications (1)

Publication Number Publication Date
CN115359191A true CN115359191A (zh) 2022-11-18

Family

ID=84006317

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211111620.3A Pending CN115359191A (zh) 2022-09-13 2022-09-13 一种基于深度学习的物体三维重建系统

Country Status (1)

Country Link
CN (1) CN115359191A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310105A (zh) * 2023-03-09 2023-06-23 广州沃佳科技有限公司 基于多视图的物体三维重建方法、装置、设备及存储介质
CN116883479A (zh) * 2023-05-29 2023-10-13 杭州飞步科技有限公司 单目图像深度图生成方法、装置、设备及介质
CN117115359A (zh) * 2023-10-17 2023-11-24 国网江西省电力有限公司信息通信分公司 一种基于深度图融合的多视图电网三维空间数据重建方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116310105A (zh) * 2023-03-09 2023-06-23 广州沃佳科技有限公司 基于多视图的物体三维重建方法、装置、设备及存储介质
CN116310105B (zh) * 2023-03-09 2023-12-05 广州沃佳科技有限公司 基于多视图的物体三维重建方法、装置、设备及存储介质
CN116883479A (zh) * 2023-05-29 2023-10-13 杭州飞步科技有限公司 单目图像深度图生成方法、装置、设备及介质
CN116883479B (zh) * 2023-05-29 2023-11-28 杭州飞步科技有限公司 单目图像深度图生成方法、装置、设备及介质
CN117115359A (zh) * 2023-10-17 2023-11-24 国网江西省电力有限公司信息通信分公司 一种基于深度图融合的多视图电网三维空间数据重建方法
CN117115359B (zh) * 2023-10-17 2024-02-02 国网江西省电力有限公司信息通信分公司 一种基于深度图融合的多视图电网三维空间数据重建方法

Similar Documents

Publication Publication Date Title
Wei et al. Aa-rmvsnet: Adaptive aggregation recurrent multi-view stereo network
Wang et al. Patchmatchnet: Learned multi-view patchmatch stereo
CN108537864B (zh) 利用具有网络渲染层的神经网络编辑数字图像
Flynn et al. Deepstereo: Learning to predict new views from the world's imagery
US20210295606A1 (en) Reconstructing three-dimensional scenes in a target coordinate system from multiple views
CN115359191A (zh) 一种基于深度学习的物体三维重建系统
Lafarge et al. A hybrid multiview stereo algorithm for modeling urban scenes
CN115690324A (zh) 一种基于点云的神经辐射场重建优化方法及装置
CN113345082B (zh) 一种特征金字塔多视图三维重建方法和系统
WO2016183464A1 (en) Deepstereo: learning to predict new views from real world imagery
CN113066168A (zh) 一种多视图立体网络三维重建方法及系统
Wei et al. Bidirectional hybrid LSTM based recurrent neural network for multi-view stereo
Pavllo et al. Shape, pose, and appearance from a single image via bootstrapped radiance field inversion
US20240013479A1 (en) Methods and Systems for Training Quantized Neural Radiance Field
Liu et al. High-quality textured 3D shape reconstruction with cascaded fully convolutional networks
CN113850900A (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN113593037A (zh) 一种德劳内三角化表面重建模型的建立方法及其应用
CN116912405A (zh) 一种基于改进MVSNet的三维重建方法及系统
CN114937073A (zh) 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法
Ibrahim et al. Mvpcc-net: Multi-view based point cloud completion network for mls data
CN116385667B (zh) 三维模型的重建方法、纹理重构模型的训练方法以及装置
Lin et al. A-SATMVSNet: An attention-aware multi-view stereo matching network based on satellite imagery
Fujitomi et al. Bi-directional recurrent MVSNet for high-resolution multi-view stereo
Yang et al. SA-MVSNet: Self-attention-based multi-view stereo network for 3D reconstruction of images with weak texture
CN110827238A (zh) 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination