CN114937073A - 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 - Google Patents
一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 Download PDFInfo
- Publication number
- CN114937073A CN114937073A CN202210369641.9A CN202210369641A CN114937073A CN 114937073 A CN114937073 A CN 114937073A CN 202210369641 A CN202210369641 A CN 202210369641A CN 114937073 A CN114937073 A CN 114937073A
- Authority
- CN
- China
- Prior art keywords
- depth
- mvsnet
- image
- resolution
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 238000000034 method Methods 0.000 claims abstract description 24
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 16
- 238000002679 ablation Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 9
- 238000011160 research Methods 0.000 abstract description 5
- 238000013461 design Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
- G06T7/593—Depth or shape recovery from multiple images from stereo images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
- Image Generation (AREA)
Abstract
本发明提供了一种基于多分辨率自适应性的多视角立体重建网络模型MA‑MVSNet的图像处理方法,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化;该MA‑MVSNet网络模型通过提取像素的卷积特征,使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试,准确度和完整性实验验证了该网络能处理大尺寸图像,并且重建效果也有所提升。此外,本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性,生成深度图速度较快,内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。
Description
技术领域
本发明属于图像处理技术领域,具体涉及一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法。
背景技术
随着三维传感器迭代发展和虚拟信息实体化等原因,使用三维数据用于对现实世界的理解和交互显然变得越来越重要。与二维数据相比,三维数据由于带有深度信息,在数据表达上拥有天然优势,因此它也成为了实现高精度识别、定位、重建、场景理解等研究的关键。三维重建技术可以将实体几何信息较为完整的保存下来,为深入数据分析提供极大便利。
多视角立体视觉MVS(Multiple View Stereo)是指从多个视角观察和获取场景的图像,利用图像和对应的相机参数恢复场景的三维表达,完成立体匹配和深度估计。传统的多视角立体重建方法使用的是几何或者光学一致性构造匹配代价,进行代价累积,再估计深度值。虽然传统方法在理想的实验环境下效果很好,有较高的深度估计精度,但在缺少纹理或者光照条件剧烈变化的场景中,完整性还有待提高。
近年来,随着深度学习技术不断成熟,在计算机视觉领域取得突破性进展。基于深度学习的多视角立体匹配方法通过学习全局语义信息,可以较好地提升模型在弱纹理和非朗伯区域的重建完整性,并且利用大规模数据训练,效率更高,具有良好的泛化性。因此基于深度学习的多视角立体重建技术被越来越多的学者研究。
2017年提出的SurfaceNet和Learned Stereo Machine(LSM)网络都是基于三维数据的表现形式之一:体积像素进行重建,内存的高消耗在很大程度限制了重建精度,无法进行大规模的重建。MVSNet是Yao等人在2018年提出的一种基于深度学习的端到端深度估计框架。该算法以一张参考图像和多张源图像为输入,得到参考图像深度图,以固定的分辨率构建代价体,导致处理高分辨率图像的高内存需求。R-MVSNet是将MVSNet网络正则化所使用的 3D卷积换成循环神经网络GRU(Gate Recurrent Unit)来降低模型大小。减少了内存需求但增加了运行时间。Point-MVSNet通过粗糙到精细的结构,首先预测一个粗糙深度图,转成点云后再进行深度优化。该算法节约卷积正则化操作,内存消耗更少,结果更平滑。Fast-MVSNet提出从稀疏代价体得到稀疏深度图,使用高斯牛顿层对深度图进行优化,算法的运行速度快。P-MVSNet 采用Patch-Wise进行代价聚合,考虑邻域像素匹配代价值,提高匹配精度,使用3D U-Net推断出深度图,重建后点云完整性更好。CVP-MVSNet是目前深度学习精度最高的网络,以图像金字塔构建代价体金字塔,估计初始深度图,与每一层的深度残差估计叠加得到最终深度图。该算法网络模型复杂导致冗余问题,重建速度较慢,内存消耗大,计算昂贵。
发明内容
为了解决深度图在精度和完整性方面的冲突,本发明提出一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题。
一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法,包括如下步骤:
步骤1、输入多视角图像,对图像进行降采样得到不同的训练输入图;
步骤2、将不同的训练输入图输入到特征提取网络中对每幅图像进行特征提取,将最粗分辨率图像的特征图变换到参考相机的特征视锥体空间中,形成代价体;
步骤3、使用三维卷积对代价体正则化操作,得到沿深度方向的概率体,进一步处理后得到粗糙的深度估计图;
步骤4、迭代的采样深度估计图,进行重投影视锥体操作,以更高的图像分辨率确定每个像素当前深度残差的局部搜索范围,用从粗糙到精细的方式构建不同分辨率的代价体金字塔,进行剩余图像的深度残差估计;
步骤5、叠加计算出参考图像的完整深度图。
进一步的,所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。
进一步的,所述特征提取网络是由二维卷积网络上融合CBAM注意力机制的卷积网络组成。
进一步的,所述CBAM注意力机制包括空间注意力和通道注意力两个模块。
进一步的,所述代价体是由多视角立体重建网络模型MA-MVSNet通过可微分的单应性变换将像素点之间坐标关系映射到深度方向构建而成,具体过程是:以相机主光轴n为扫描方向,将参考图像按深度间隔从最小深度dmin一直映射到最大深度dmax,得到含有N个不同深度间隔的相机视锥体;将提取的 N张特征图投影到相机视锥体得到N个特征体即特征体是参考特征图 f0上像素p在深度d处所对应源特征图上的特征向量,将多个特征体聚合为一个代价体。
本发明的优点是:本发明提供这种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题,在特征提取阶段使用融合了CBAM(Convolutional BlockAttention Module)注意力机制的改进卷积网络替换原有的普通二维卷积网络,获取图像特征的全局信息。在代价体正则化阶段,提出自适应卷积网络,针对不同分辨率图像能自适应调整卷积参数,提升正则化网络的感受野,在减少内存消耗的同时提升模型性能;该 MA-MVSNet网络模型通过提取像素的卷积特征,使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试,准确度和完整性实验验证了该网络能处理大尺寸图像,并且重建效果也有所提升。此外,本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性,生成深度图速度较快,内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。
附图说明
图1是本A-MVSNet网络结构示意图。
图2是基于图像金字塔的特征提取网络示意图。
图3是构造匹配代价示意图。
图4a是对CBAM的消融实验示意图一。
图4b是对CBAM的消融实验示意图二。
图4c是对CBAM的消融实验示意图三。
图5a是自适应卷积的消融实验示意图一。
图5b是自适应卷积的消融实验示意图二。
图5c是自适应卷积的消融实验示意图三。
图6a是不同重建算法的比较示意图一。
图6b是不同重建算法的比较示意图二。
图7a是不同算法重建的点云示意图一。
图7b是不同算法重建的点云示意图二。
图7c是不同算法重建的点云示意图三。
具体实施方式
为进一步阐述本发明达成预定目的所采取的技术手段及功效,以下结合实施例对本发明的具体实施方式、结构特征的功效,详细说明如下。
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1
为了解决深度图在精度和完整性方面的冲突,本实施例提出一种如图吧所示的基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题。该基于多分辨率自适应性的多视角立体重建网络模型 MA-MVSNet的图像处理方法,包括如下步骤:
步骤2、将不同的训练输入图输入到特征提取神经网络中对每幅图像进行特征提取,利用卷积运算提取图像的关键特征,包括颜色、纹理、形状等特征信息,将最粗分辨率的图像提取得到的特征图变换到参考相机的特征视锥体空间中,形成代价体来表示深度d处所有像素点i的匹配代价;
步骤3、使用自适应三维卷积对代价体进行降采样,提取不同尺度中的上下文信息,利用SoftArgMax函数回归每个像素p在深度d处的概率,得到图中每个像素点沿深度方向的置信度的概率体进一步用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图:
得到L层的粗糙的深度估计图DL(p);
步骤5、迭代的上采样深度估计图像DL-1(p),DL-2(p),…,D0(p),重复执行重投影特征图、正则化代价体、细化深度估计操作,计算出每一层的更新深度,最终得到参考图像的完整深度图D0。
进一步的,所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。
进一步的,所述特征提取网络是由二维卷积网络上融合CBAM注意力机制的卷积网络组成。
进一步的,所述CBAM注意力机制包括空间注意力和通道注意力两个模块。
在特征提取阶段提取的特征将影响后续代价体正则化中的匹配结果,这将进一步影响估计深度估计的质量。二维卷积网络提取的特征更多地关注局部信息,忽略了全局特征,从而使得特征提取的精度较低。为了提高特征提取的精度,MA-MVSNet首先通过降采样构建图像金字塔来存储参考图I0和源图像然后在二维卷积网络上融合CBAM提取图像特征,关注重要的特征,忽视不必要的特征。
CBAM分为空间注意力和通道注意力两个模块。通道注意力关注什么样的特征是有意义的,提取相对全局化的特征。空间注意力模块关注哪里的特征是有意义的,提取相对局部的特征。通过全局平均池化和最大池化,使用 Sigmoid函数作为激活函数,在较前层中使用CBAM让网络更关注图像的全局特征。CBAM与卷积共同使用在不增加额外的开销的同时显著提升了特征提取的效果。改进后特征提取网络输出图像的大小为
所述代价体是由多视角立体重建网络模型MA-MVSNet通过可微分的单应性变换将像素点之间坐标关系映射到深度方向构建而成,具体过程是:以相机主光轴n为扫描方向,将参考图像按深度间隔从最小深度dmin一直映射到最大深度dmax,得到含有N个不同深度间隔的相机视锥体;将提取的N张特征图投影到相机视锥体得到N个特征体即特征体是参考特征图f0上像素p在深度d处所对应源特征图上的特征向量,将多个特征体聚合为一个代价体。,可以降低异常像素点的影响,提高信噪比,进而提高匹配精度。深度d 处所有像素的匹配代价用来自N+1个视图的特征体方差来表示,公式 (1)来衡量不同视图间像素投影点的相似性。式中,代表所有特征体的均值,L代表当前位于金字塔的层数。
由于从特征图计算产生的代价体只考虑了局部特征相关性,存在噪声污染,进而导致了弱纹理、反光区域无法建立完整的匹配关系,因此我们提出了多尺度3D卷积对卷积结果进行平滑处理,为深度估计提供有用的上下文信息,构建更加平滑的密集匹配关系。
在卷积神经网络中,更大的卷积核会导致更大的感受野,在一次卷积中可以看见更多的图像信息,但更大的感受野也会造成干扰信息增多、计算量增加和计算性能降低。普通的卷积网络使用同一个卷积核对输入图像进行过滤,核的参数固定,导致提取的特征单一化,不利于像素间的区分。而由于图像相邻像素的深度位移是相关的,规则的多尺度3D卷积可以为深度残差估计提供有用的上下文信息。因此,本发明提出了采样多尺度卷积核对输入图像进行卷积。
MA-MVSNet提出的网络模型平衡了内存消耗和重建精度,通过卷积网络金字塔结构,提取出多尺度的图像特征,赋予每个像素点更大的感受野和上下文信息,对不同分辨率的图像使用不同的卷积参数进行处理。卷积核的大小根据图像金字塔的采样层数进行调整,与输入图像尺寸大小相关,同时改变填充大小,具体公式如下,
k_size=log2(H/100)+3, (2)
上式中,H代表输入图像高度,若参考图像经过上采样形成五层图像金字塔且图像高度为200像素时,卷积核大小为3;若图像高度为800像素,则卷积核大小调整为6,填充大小根据公式(3)计算得出,
p=(H×(stride-1)+k_size)/2, (3)
表1自适应卷积正则化基本结构构造
Tab.1 Construction of basic structure of MACNN regularization
基于代价体获得深度方向的概率体,可以计算出图像的初始深度图。概率体是利用SoftArgMax函数回归每个像素在深度d处的概率,得到参考图中每个像素点沿深度方向的置信度,即在每个深度下,每个像素的可能性大小。为了避免沿深度方向出现空缺、不平滑情况,用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图。
其中,DL(p)代表深度估计值,代表像素点p在深度d处的置信度,L表示采样层数。利用公式(4)获得最粗分辨率图像的初始深度图,然后基于粗略估计和深度残差假设迭代地上采样图像、重投影特征图、正则化代价体,细化深度估计,从而实现具有更高分辨率和精度的深度图。下一层的更新深度为:
本发明采用监督学习策略,由于真值深度图在整幅图像中并不总是完整的,所以我们只考虑有效像素点,Ω代表深度图中有效点的集合,DL(p)表示像素p在第L层深度估计值。使用L1范数来对深度真值和深度估计值做差值运算。对于每个训练样本,其深度图的损失函数是:
综上所述,该种基于多分辨率自适应性的多视角立体重建网络模型 MA-MVSNet,网络基本流程是提取特征点、构造匹配代价、深度估计、深度图优化。针对重建结果完整性差的问题,在特征提取阶段使用融合了CBAM (Convolutional Block Attention Module)注意力机制的改进卷积网络替换原有的普通二维卷积网络,获取图像特征的全局信息。在代价体正则化阶段,提出自适应卷积网络,针对不同分辨率图像能自适应调整卷积参数,提升正则化网络的感受野,在减少内存消耗的同时提升模型性能;该MA-MVSNet 网络模型通过提取像素的卷积特征,使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试,准确度和完整性实验验证了该网络能处理大尺寸图像,并且重建效果也有所提升。此外,本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性,生成深度图速度较快,内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。
实施例2
消融实验
为了验证CBAM注意力机制和自适应3D卷积在网络中的有效性,我们分别单独使用CBAM和自适应卷积,并与联合使用两者的MA-MVSNet对输入图像生成的深度图结果进行对比。CBAM模块可以捕获图像中更多的全局上下文信息,融合多层次特征进行重建。自适应3D卷积模块可以捕获更多的局部信息,提高重建的准确性。定量结果如表2所示,定性结果如图4所示。
表2消融实验结果
Tab.2 Ablation study results
在图4a和图4b中(a)是使用普通卷积进行特征提取生成的深度图,由图可以看出,普通卷积进行特征提取存在明显的错误深度估计和深度突变现象。(b)是使用融合CBAM注意力机制的特征提取卷积生成的深度图,结果证明使用CBAM进行卷积后,生成的深度图更关注图像原本的全局特征信息,完整性有较大程度的提升。(c)是本发明提出的方法MA-MVSNet,利用CBAM 注意力机制提高重建完整性的同时关注图像细节特征。
图5a、5b、5c中(a)是使用普通3D卷积网络生成的深度图,在深度图边缘区域存在较大误差,物体细节信息较模糊。(b)是使用了自适应3D卷积进行代价体正则化,生成的深度图更关注细节信息,边缘区域更加平滑,但是在弱纹理区域容易出现错误深度值。(c)是本发明提出的方法,利用不同分辨率图像的信息特征提高重建精度的同时完整性较好。
与其他算法对比实验
在DTU公共数据集上与已有的基于传统算法和基于深度学习的多视角立体重建方法作比较,结果如图6a、图6b所示,其中,图6a内存消耗和整体误差的关系;图6b运行时间和整体误差的关系。在DTU数据集上训练MA-MVSNet,对于可以处理高分辨率图像的MVSNet、CVP-MVSNet等网络,输入图像为不同视角的二维图像,图像大小为1600×1184。为了构建图像金字塔,设置金字塔采样层数为5层,在最粗分辨率图像上设置整个深度范围内共有96个深度假设,和Point-MVSNet网络设置相同。经过端到端网络,结果输出的是160×128大小的深度图,来匹配地面真实深度图。对所有算法使用相同的深度融合方法获得点云可视化结果。
与其他算法相比,本发明提出的网络模型在内存消耗、运行时间方面和重建精度完整性等整体误差方面处于较为平衡的状态。在整体误差较低的情况下减少网络参数,提升资源利用率。
首先将我们的结果与传统的基于几何的三维重建方法和其他基于深度学习的三维重建方法进行比较。定量分析如表3所示,我们的方法在准确性、完整性和总分方面优于现有的其他基于深度学习的方法,与基于几何的方法相比,仅Galliani等人提出的Gipuma方法在平均精度方面提供了稍好的结果。综合点云重建精度和像素点完整性的总体得分较MVSNet网络提升24.9%,较CVP-MVSNet网络提升7.9%。
表3精度结果
Tab.3 Precision results
为验证本算法的稳健性,选取DTU数据集中的三组标准图像scan9、 scan11、scan75分别用不同算法Gipuma、SurfaceNet、MVSNet、CVP-MVSNet 和MA-MVSNet进行对比实验,结果如图7a、图7b、图7c所示。可以发现,本算法在多尺度空间下采用可变卷积进行代价体过滤,充分利用了多分辨率图像的全局信息和细节信息,获得的深度图质量较高,重建后点云图像能更好地保留图像信息。同时,与传统重建算法相比,本算法在反光、弱纹理等区域更平滑,效果较好。
在实际应用中,我们更关注网络模型在测试阶段的空间复杂度,GPU使用情况和算法运行时间如表4所示,可以看出,本发明提出的正则化网络MACNN 的效果更明显,在内存使用和运行速度上都较CVP-MVSNet有很大提升。
表4效率结果
在RTX 3090上对图像进行对比实验,可以看出,虽然我们的模型 MA-MVSNet添加了注意力机制增加了内存消耗,但使用的自适应3D卷积在处理高分辨率图像时可以显著地减少计算量,提高运行时间,并且在测试阶段更节省内存,内存消耗为6.1GB,较MVSNet网络节省了43.5%,较CVP-MVSNet 节省6.2%。
本发明提出的MA-MVSNet网络模型通过提取像素的卷积特征,使得网络在获得较高准确率的同时抑制模型复杂性增长。模型在DTU数据集上训练并测试,准确度和完整性实验验证了该网络能处理大尺寸图像,并且重建效果也有所提升。此外,本发明设计的消融实验证明了融合CBAM和自适应卷积的必要性,生成深度图速度较快,内存消耗和运行时间均比已有网络模型有所降低。之后的主要研究方向主要是进一步提高反光区域深度估计的精度和完整性。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (5)
1.一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法,其特征在于,包括如下步骤:
步骤1、输入多视角图像,对图像进行降采样得到不同的训练输入图;
步骤2、将不同的训练输入图输入到特征提取神经网络中对每幅图像进行特征提取,将最粗分辨率图像的特征图变换到参考相机的特征视锥体空间中,形成代价体;
步骤3、使用三维卷积对代价体正则化操作,得到沿深度方向的概率体,用深度期望值的计算方式作为该像素的深度估计值平滑整个深度图;
步骤4、迭代的采样深度估计图,进行重投影视锥体操作,以更高的图像分辨率确定每个像素当前深度残差的局部搜索范围,用从粗糙到精细的方式构建不同分辨率的代价体金字塔,进行剩余图像的深度残差估计;
步骤5、叠加计算出参考图像的完整深度图。
2.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法,其特征在于:所述步骤1、输入的多视角图像包括1一幅参考图像和N幅源图像。
3.如权利要求1所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法,其特征在于:所述特征提取网络是由二维卷积网络上融合CBAM注意力机制的卷积网络组成。
4.如权利要求3所述的一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法,其特征在于:所述CBAM注意力机制包括空间注意力和通道注意力两个模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369641.9A CN114937073B (zh) | 2022-04-08 | 2022-04-08 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369641.9A CN114937073B (zh) | 2022-04-08 | 2022-04-08 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114937073A true CN114937073A (zh) | 2022-08-23 |
CN114937073B CN114937073B (zh) | 2024-08-09 |
Family
ID=82861488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210369641.9A Active CN114937073B (zh) | 2022-04-08 | 2022-04-08 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114937073B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071504A (zh) * | 2023-03-06 | 2023-05-05 | 安徽大学 | 一种面向高分辨率图像的多视图立体重建方法 |
CN116091712A (zh) * | 2023-04-12 | 2023-05-09 | 安徽大学 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
CN116740158A (zh) * | 2023-08-14 | 2023-09-12 | 小米汽车科技有限公司 | 图像深度确定方法、装置和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174377A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
CN111462329A (zh) * | 2020-03-24 | 2020-07-28 | 南京航空航天大学 | 一种基于深度学习的无人机航拍影像的三维重建方法 |
CN112132972A (zh) * | 2020-09-29 | 2020-12-25 | 凌美芯(北京)科技有限责任公司 | 一种激光与图像数据融合的三维重建方法及系统 |
CN112734915A (zh) * | 2021-01-19 | 2021-04-30 | 北京工业大学 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
CN113066168A (zh) * | 2021-04-08 | 2021-07-02 | 云南大学 | 一种多视图立体网络三维重建方法及系统 |
CN113345082A (zh) * | 2021-06-24 | 2021-09-03 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
KR102319237B1 (ko) * | 2021-03-02 | 2021-10-29 | 인하대학교 산학협력단 | 핸드크래프트 비용 기반의 다중 뷰 스테레오 정합 방법 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN113963117A (zh) * | 2021-10-29 | 2022-01-21 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
-
2022
- 2022-04-08 CN CN202210369641.9A patent/CN114937073B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174377A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
CN111462329A (zh) * | 2020-03-24 | 2020-07-28 | 南京航空航天大学 | 一种基于深度学习的无人机航拍影像的三维重建方法 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN112132972A (zh) * | 2020-09-29 | 2020-12-25 | 凌美芯(北京)科技有限责任公司 | 一种激光与图像数据融合的三维重建方法及系统 |
CN112734915A (zh) * | 2021-01-19 | 2021-04-30 | 北京工业大学 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
KR102319237B1 (ko) * | 2021-03-02 | 2021-10-29 | 인하대학교 산학협력단 | 핸드크래프트 비용 기반의 다중 뷰 스테레오 정합 방법 |
CN113066168A (zh) * | 2021-04-08 | 2021-07-02 | 云南大学 | 一种多视图立体网络三维重建方法及系统 |
CN113345082A (zh) * | 2021-06-24 | 2021-09-03 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN113963117A (zh) * | 2021-10-29 | 2022-01-21 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
Non-Patent Citations (2)
Title |
---|
占文枢;伦增珉;陈洪刚;周霞;陈敬勖;滕奇志;: "基于像素及梯度域双层深度卷积神经网络的页岩图像超分辨率重建", 科学技术与工程, no. 03, 28 January 2018 (2018-01-28) * |
叶春凯;万旺根;: "基于特征金字塔网络的多视图深度估计", 电子测量技术, no. 11, 8 June 2020 (2020-06-08) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116071504A (zh) * | 2023-03-06 | 2023-05-05 | 安徽大学 | 一种面向高分辨率图像的多视图立体重建方法 |
CN116091712A (zh) * | 2023-04-12 | 2023-05-09 | 安徽大学 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
CN116740158A (zh) * | 2023-08-14 | 2023-09-12 | 小米汽车科技有限公司 | 图像深度确定方法、装置和存储介质 |
CN116740158B (zh) * | 2023-08-14 | 2023-12-05 | 小米汽车科技有限公司 | 图像深度确定方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114937073B (zh) | 2024-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110738697B (zh) | 基于深度学习的单目深度估计方法 | |
Jiang et al. | Edge-enhanced GAN for remote sensing image superresolution | |
CN113066168B (zh) | 一种多视图立体网络三维重建方法及系统 | |
CN107154023B (zh) | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 | |
CN114937073B (zh) | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 | |
CN113345082B (zh) | 一种特征金字塔多视图三维重建方法和系统 | |
WO2016183464A1 (en) | Deepstereo: learning to predict new views from real world imagery | |
CN111931787A (zh) | 一种基于特征聚合的rgbd显著性检测方法 | |
Li et al. | Confidence-based large-scale dense multi-view stereo | |
CN112734915A (zh) | 一种基于深度学习的多视角立体视觉三维场景重建方法 | |
CN111626308B (zh) | 一种基于轻量卷积神经网络的实时光流估计方法 | |
CN112529944B (zh) | 一种基于事件相机的端到端无监督光流估计方法 | |
CN112347987A (zh) | 一种多模数据融合的三维目标检测方法 | |
CN111899295B (zh) | 一种基于深度学习的单目场景深度预测方法 | |
CN114463492B (zh) | 一种基于深度学习的自适应通道注意力三维重建方法 | |
Gao et al. | A general deep learning based framework for 3D reconstruction from multi-view stereo satellite images | |
CN116310098A (zh) | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 | |
CN113313828A (zh) | 基于单图片本征图像分解的三维重建方法与系统 | |
CN114519772A (zh) | 一种基于稀疏点云和代价聚合的三维重建方法及系统 | |
CN114996814A (zh) | 一种基于深度学习与三维重建的家具设计系统 | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
CN115359191A (zh) | 一种基于深度学习的物体三维重建系统 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN114463176B (zh) | 基于改进esrgan的图像超分辨重建方法 | |
CN117315169A (zh) | 基于深度学习多视密集匹配的实景三维模型重建方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |