CN116071504A - 一种面向高分辨率图像的多视图立体重建方法 - Google Patents
一种面向高分辨率图像的多视图立体重建方法 Download PDFInfo
- Publication number
- CN116071504A CN116071504A CN202310205404.3A CN202310205404A CN116071504A CN 116071504 A CN116071504 A CN 116071504A CN 202310205404 A CN202310205404 A CN 202310205404A CN 116071504 A CN116071504 A CN 116071504A
- Authority
- CN
- China
- Prior art keywords
- depth
- representing
- map
- sampling
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000005070 sampling Methods 0.000 claims abstract description 53
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000005457 optimization Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000013519 translation Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000007670 refining Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000010276 construction Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Graphics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种面向高分辨率图像的多视图立体重建方法,对参考图像和源图像使用动态特征提取网络计算特征图,将提取到的源视图特征映射到参照平面构建代价体;使用三维卷积神经网络对代价体进行正则化处理,获到概率体,通过偏置回归算法使得深度值更加接近真实值,进而提高深度图的精度。同时使用不确定性距离估计方法,优化深度值估计范围,计算出精确的深度采样范围,进而采用动态范围采样处理,重复上述操作,直到计算出半分辨率深度图,使用深度图优化网络对半分辨率的深度图进行优化,计算出全分辨率的深度图,对全分辨率的深度图进行融合,从而获得高质量的稠密点云模型。本发明能实现快速计算出大规模场景的高质量稠密点云的目标。
Description
技术领域
本发明涉及多视图三维重建技术,具体涉及一种面向高分辨率图像的多视图立体重建方法。
背景技术
面向高分辨率图像的多视图立体重建技术具有重要的应用价值,例如,元宇宙、数字孪生、4D城市建设、数字中国建设、影视拍摄与制作、三维场景监控、文化遗产的数字化保护与应用、军事与战争仿真、三维地图导航、视觉定位、虚拟现实和增强现实等领域具有重要的作用。随着图像采集设备性能的提升以及在工业场景中的广泛使用,人们采集高分辨率的图像数据变得非常容易。虽然大量高分辨率的图像数据,以数据驱动的方式提升了三维重建方法的性能,增强了三维模型的质量,但是也增加了三维重建的难度。概括地说,基于高分辨率图像的三维重建所面临的主要困难如下:(1)处理时间长,且需要占用大量的显存空间;由于多视图立体重建方法的计算流程非常复杂,当处理大规模高分辨率的图像数据时,现有方法的计算效率较低,无法在有限的时间内计算出点云模型,难以满足应用系统的实时性需求;(2)可移植性差,受显存空间和计算时间限制,难以将现有的多视图立体重建方法移植到一些移动设备或计算资源受限的计算机设备上运行。
上述问题严重阻碍了面向高分辨率图像数据的多视图立体重建技术的发展和应用。因此,人们迫切希望设计一种能够处理高分辨率图像数据的多视图立体重建方法和系统,以便快速地从高分辨率图像数据中计算出高质量的稠密点云模型,进而促进基于高分辨率图像数据的三维重建技术的发展。
相关的研究论文有《Cascade Cost Volume for High-Resolution Multi-ViewStereo and Stereo Matching》,该论文于2020发表在国际会议CVPR(IEEEInternationalConference on Computer Vision and Pattern Recognition)上。此方法的主要创新点是:提出了一种高效的代价体计算方法,以提高现有多视图立体方法的时间性能。虽然现有方法在一定程度上减少了显存空间消耗,但是仍然无法解决基于高分辨率图像的多视图立体重建过程中的时间效率低和显存溢出问题。
此外,现有的基于深度学习技术的多视图立体方法与系统在高分辨率图像的三维重建中距离实际应用还有很大的距离,主要不足体现在以下几个方面:(1)现有算法的时间效率较低,无法满足应用程序的实时性需求;(2)模型泛化能力差,精度和完整度较低,当处理复杂的室外场景图像数据时,现有的基于深度学习技术的多视图立体重建方法难以保证重建出来的三维模型与真实场景具有较高的几何一致性,甚至导致三维模型残缺;(3)现有的多视图立体重建算法非常消耗显存空间,在一些资源受限的计算设备上无法处理大规模的高分辨率图像数据。
例如,发明专利CN109949399A公开一种基于无人机图像的场景三维重建方法,采用的是传统的多视图几何理论(Multi-view Geometry)重建场景的三维模型,并且要求输入图像之间至少有60%的重叠区域。
又例如,发明专利CN112991167A公开一种基于分层特征融合网络的图像超分辨率重建方法,其目的是从一幅低分辨率的图像生成高分辨率的图像,其采用的分层特征融合网络非常耗时,当处理大规模的三维重建图像数据时需要消耗大量的时间,无法满足三维重建的时间效率需求。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种面向高分辨率图像的多视图立体重建方法,本发明建立在分布式运行环境之上快速地从大规模图像数据中计算出场景的稠密点云模型,促进面向大规模图像的多视图立体重建技术的进步,实现快速计算出大规模场景的高质量稠密点云的目标。
技术方案:本发明的一种面向高分辨率图像的多视图立体重建方法,包括以下步骤:
步骤S1、分别向多尺度特征提取网络输入参考图像和源图像以及各自对应相机,输出得到对应多尺度特征图;参考图像的相机参数为,源图像的相机参数为,;
其中,表示参考图像对应的摄像机内部参数,表示参考图像对应的旋转矩阵,表示参考图像对应的摄像机平移向量;表示输入的源图像的数量,表示第幅源图像的序号,表示第幅源图像对应的摄像机内部参数,表示第幅源图像对应的摄像机旋转矩阵,表示第幅源图像对应的摄像机平移向量;
步骤S2、样本采样,采样方法分为两种,分别是固定深度采样和动态范围采样,StageID默认为1,表示当前循环次数,当StageID≤1时,采用固定深度采样,否则采用动态范围采样,所以首先使用的是固定深度采样,在假设区间内进行均匀的采样;
步骤S3、通过单应性变换,将源图像的特征图映射到参照平面,根据深度假设计算视图匹配代价,构造代价体;通过单应性变换对不同视角源特征图进行映射,映射到参考平面;
其中,表示单位矩阵,表示深度值,表示参考图像对应的旋转矩阵的逆矩阵;表示参考摄像机主轴;
步骤S4、使用多尺度三维卷积神经网络(3D Convolutional Neural Networks,3DCNN)对代价体进行正则化处理,获得深度概率体;然后利用概率体,进行不确定距离估计,计算得到不确定性图(Uncertainty Map)来实现动态范围采样,将动态范围采样结果用于确定下一阶段的采样范围;
步骤S5、再根据深度概率体,利用偏置回归算法计算出深度图,此时StageID加1;
重复步骤S2至步骤S5,将步骤S2中的采样方法换为动态范围采样,直到计算出1/2分辨率的深度图;
步骤S6、使用深度优化网络对1/2分辨率下的深度图进行上采样操作,然后根据参考图像对上采样后的深度图进行细化,即可得到全分辨率深度图;
步骤S7、对步骤S6所得全分辨率深度图进行融合,即可获得高质量的稠密点云模型。
进一步地,所述步骤S1使用特征提取网络提取多尺度特征图的具体方法为:
式(1)
其中,表示输入图像,输入图像包括参考图像和源图像,表示输出的多尺度特征图,表示第幅源图像的序号,表示第幅源图像的候选卷积核(具体是指根据独热向量在几个候选尺寸的卷积核中选择出合适的卷积核,一幅图像可能存在多个卷积核,在一些光照反射区域,会自动选择一些大尺度的卷积核,在一些纹理清楚的地方,会自动选择小尺寸的卷积核,这些都是根据独热向量进行自动选择的),表示第幅源图像经过卷积网络CNN计算得到的一个独热向量,用于自动选择合适的卷积核,*表示卷积算子;是指参考图像的独热向量。
此处,所述输入图像既可是手持相机采集的高分辨率图像,又可使用无人机设备采集的高分辨率图像;并且仅计算参考图像和源图像在1/8分辨率、1/4分辨率和1/2分辨率下的特征图。
进一步地,所述步骤S3构建代价体的具体步骤如下:步骤S3.1、根据单应性变换公式(4)将由动态特征提取网络计算得到的所有特征图映射到参考图像对应摄像机的不同平行平面中;其中,动态特征提取网络方法的步骤为:
步骤S3.1.1、给出一组个大小不等的卷积核和相对应的个候选尺度;计算个候选尺度的近似法曲率,计算公式如下:
式(2)
其中,表示可学习的卷积核且||,表示输入特征,表示沿核线方向,是指将进行转置,表示某一像素;
步骤S3.1.2、对于每个像素,根据上面计算得到的法曲率,利用由CNN卷积实现的分类网络,计算得到一个独热向量{,用于从个法曲率中自动选择合适的卷积尺度;
步骤S3.1.3、最后通过使用加权和的方式从个候选卷积核的特征输入产生特征输出,如式(1)所示;
步骤S3.2、通过公式(3)根据深度采样假设,计算两视图匹配代价,然后将匹配代价聚合为单一代价体,其中表示参考图像的特征图,表示源图像在深度假设处经过映射后的源特征图;
式(3)
其中,,D表示深度假设的数量。
步骤S3.3、根据像素视点权重预测的方式,对两视图代价执行代价聚合操作,以构造代价体;
式(4)
其中,表示单位矩阵,表示参考相机主轴,表示深度。
进一步地,所述步骤S4利用三维卷积神经网络(3D CNN)对代价体正则化处理得到深度概率体,根据概率体进行不确定距离估计,用于确定下一阶段的采样范围,详细方法为:
S4.1、先采用编码器-解码器结构,以较低的存储空间和较低的计算成本从大范围的接受野聚集邻域信息,对代价体进行正则化处理得到概率体;
S4.2、沿着深度方向应用SoftMax操作,进行概率归一化处理,得到概率体;SoftMax的定义如下:
式(5)
其中,表示第个概率值,表示分类的类别数量;
S4.3、根据S4.1所得概率体,通过距离不确定估计方法得到不确定性图Uncertainty Map,进而计算得到动态采样范围,动态范围的计算方法如下:
式(6)
其中,表示上一阶段的采样范围,表示计算的不确定性值,是一个超参数,用于确定置信度区间尺度大小。
进一步地,所述步骤S5中利用偏置回归算法计算出1/8分辨率的深度图;重复步骤S2至步骤S5,直到计算出1/2分辨率的深度图;具体步骤为:
S5.1、根据分类方法计算得到概率最大值,然后利用偏移量计算公式即可得到深度偏移量,其中偏移量offset的计算公式为:
式(7)
表示根据分类方法计算得到的概率最大值,表示深度间隔。
S5.2、以偏置回归方法为基础,将计算得到的回归深度值加上深度偏移量,即可得到预测深度值;
其中偏置回归计算预测深度值的计算公式为:
式(8)
其中,表示像素点的横轴坐标值,表示像素点的纵轴坐标值,表示深度假设,表示深度值,表示深度值对应的概率分布,表示回归方法中每一深度假设对应的概率值,表示回归方法计算得到的深度值。
进一步地,使用偏置回归所得深度图对所步骤S1多尺度特征提取网络进行动态训练,训练过程中使用如下损失计算方法:
式(9)
其中,表示Sigmoid激活函数,表示像素的数量,和表示正则化的超参数,表示计算得到的曲率值,表示匹配代价,表示在地面真实值周围随机选取个相邻深度;
为进一步提高深度范围准确性,使用一种深度损失优化策略来改进不确定性距离估计方法,以产生更好的深度范围和更高的置信度;当计算出深度范围假设和概率体后,通过钳位策略(Clamp Strategy)获得优化后的深度假设和概率体;对优化后的概率体进行归一化操作,确保单个像素中的总概率和为1;优化后的深度图计算方式如下:
式(10)
其中,表示第个深度假设,代表优化后的深度图,代表优化后的深度范围假设,代表优化后的概率;
至此,最终的损失函数定义为:
式(11)
其中,表示优化后的深度图与真实地面深度之间的损失,是超参数;表示初始化深度图的深度损失,表示特征损失。
进一步地,所述步骤S6中对1/2分辨率的深度图进行上采样操作,然后利用参考图像对上采样后的深度图进行细化,即可计算出全分辨率深度图,所述深度优化网络不含有残差网络,主要包括两部分,第一部分是对深度图进行直接上采样,第二部分是根据参考图像对深度图进行细化。
进一步地,所述步骤S7中对全分辨率深度图,融合全分辨率的深度图即可获得高质量的稠密点云模型。
有益效果:与现有技术相比,本发明具有以下优点:
(1)从高分辨率图像数据集中选取一幅图像作为参考图像,将其它相邻图像作为源图像;采用由粗到细的方式计算深度图,避免输入图像数据量过大导致三维重建方法和系统出现显存溢出问题;
(2)采用由粗到细的深度估计方式,避免直接计算全分辨率图像的深度图,采用渐进方式分别计算源视图在1/8分辨率、1/4分辨率和1/2分辨率下的深度图,使得本发明提供的多视图立体重建方法在计算资源受限设备上,能够快速地从大规模高分辨率图像数据中计算出对应场景的高质量三维点云模型;
(3)采用不确定距离估计、动态范围采样和偏置回归算法,增强了点云模型的边缘细节,提高了点云模型的精度和完整度。
综上所述,本发明提供的一种面向高分辨率图像的多视图立体重建方法与系统,能够从大规模高分辨率图像数据中快速地重建出高质量的稠密点云模型,同时保证重建的稠密点云模型具有较高的完整性。
附图说明
图1为本发明的整体流程示意图;
图2为实施例中的输入高分辨率图像数据样本;
图3为实施例中生成的高分辨率图像数据样本的深度图;
图4为实施例中重建的稠密点云模型。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
本发明的面向高分辨率图像的多视图立体重建方法,采用的是基于深度学习理论的稠密点云重建方法,仅要求输入图像之间有30%的重叠区域,降低了用户的使用的难度。为进一步解决现有技术缺陷,本发明采用固定深度假设和动态深度假设相结合方法,可以在有限的时间内对深度值进行准确的估计,减少的时间的消耗;同时还使用偏置回归算法和深度优化网络,大大减少了网络架构的复杂性,提升的模型重建的完整度和精度;最后采用由粗到细的级联框架作为我们方法的基础框架,只需要计算半分辨率的深度图即可获得全分辨率的深度图,大大减少的GPU显存的需求。
如图1所示,本实施例的一种面向高分辨率图像的多视图立体重建方法,包括以下步骤:
步骤一:
对于输入的参考图像和源图像以及相对应的相机参数,经特征提取网络输出得到多尺度特征图,如下所示:
式(1)
其中,表示输入图像(参考图像和源图像),表示输出的特征图,表示源图像的序号,表示经过卷积网络CNN输出的一个选择独热向量,用于自动选择合适的尺度,表示卷积核,*表示卷积算子,表示输入图像的数量,表示第幅图像对应的摄像机内部参数,表示第幅图像对应的摄像机旋转矩阵,第幅图像对应的摄像机平移向量。
步骤二:
样本采样,采样方法分为两种,分别是固定深度采样和动态范围采样,使用StageID表示当前循环次数,且StageID默认为1,当StageID≤1时,采用固定深度采样,否则采用动态范围采样,所以首先使用的是固定深度采样,在假设区间内进行均匀的采样。
步骤三:
通过单应性变换将源图像的特征图映射到参照平面,根据深度假设计算视图匹配代价,以构造代价体。
步骤S3.1、根据单应性变换公式(4)将由动态特征提取网络计算得到的所有特征图映射到参考图像对应摄像机的不同平行平面中;其中,动态特征提取网络方法的步骤为:
步骤S3.1.1、给出一组个大小不等的卷积核和相对应的个候选尺度,计算个候选尺度的近似法曲率,计算公式如下:
式(2)
中,表示可学习的卷积核且||,表示输入特征,表示沿核线方向,是指将进行转置,表示某一像素;
步骤S3.1.2、对于每个像素,根据上面计算得到的法曲率,利用由CNN卷积实现的分类网络,计算得到一个独热向量{,用于从个法曲率中自动选择合适的卷积尺度;
步骤S3.1.3、最后通过使用加权和的方式从个候选卷积核的特征输入产生特征输出,如式(1)所示;
步骤S3.2、通过公式(3)根据深度采样假设,计算两视图匹配代价,然后将匹配代价聚合为单一代价体,其中表示参考图像的特征图,表示源图像在深度假设处经过映射后的源特征图;
式(3)
其中,,D表示深度假设的数量。
步骤S3.3、根据像素视点权重预测的方式,对两视图代价执行代价聚合操作,以构造代价体;
式(4)。
步骤四:
根据上述所得代价体,采用3DCNN网络从聚集地匹配代价体获得深度概率体。根据概率体,进行距离不确定估计,计算出不确定性特征图uncertainty map用于确定下一阶段的采样范围,此处动态采样范围的计算方法如下:
S4.1、先采用编码器-解码器结构从大范围接受野聚集邻域信息,并对代价体进行正则化处理得到概率体;
S4.2、沿着深度方向应用SoftMax操作,进行概率归一化处理,得到概率体;SoftMax的定义如下:
式(5)
其中,表示第个概率值,表示深度假设的数量;
S4.3、根据S4.1所得概率体,通过距离不确定估计方法得到不确定性图Uncertainty Map,进而计算得到动态采样范围,动态范围的计算方法如下:
式(6)
其中,表示上一阶段的采样范围,表示计算的不确定性值,是一个超参数,用于确定置信度区间尺度大小。
步骤五:
利用偏置回归算法重复计算得到1/2分辨率深度图的具体步骤为:
S5.1、根据分类方法计算得到概率最大值,然后利用偏移量计算公式即可得到深度偏移量,其中偏移量offset的计算公式为:
式(7)
表示根据分类方法计算得到的概率最大值,表示深度间隔;
S5.2、以偏置回归方法为基础,将计算得到的回归深度值加上深度偏移量,即可得到预测深度值;
其中偏置回归计算预测深度值的计算公式为:
式(8)
其中,表示像素点的横轴坐标值,表示像素点的纵轴坐标值,表示深度假设,表示深度值,表示深度值对应的概率分布,表示回归方法中每一深度假设对应的概率值,表示回归方法计算得到的深度值。
为有效地训练动态多尺度特征提取网络,使用如下所示的损失计算方法:
式(9)
其中,表示Sigmoid激活函数,表示像素的数量,和表示正则化的超参数,表示计算得到的曲率值,表示匹配代价,表示在地面真实值周围随机选取个相邻深度。
为进一步提高深度范围准确性,使用一种深度损失优化策略来改进不确定性距离估计方法,以产生更好的深度范围和更高的置信度。当计算出深度范围假设和概率体后,通过《DDR-Net: Learning Multi-Stage Multi-View Stereo With Dynamic DepthRange》提出的钳位策略(Clamp Strategy)获得优化后的深度假设和概率体。本发明的钳位策略指的是对原始的概率体进行切割,只保留假设区间内的概率体,提高深度值估计的准确性。
对优化后的概率体进行归一化操作,确保单个像素中的总概率和为1。优化后的深度图计算方式如下:
式(10)
其中,表示第个深度假设,代表优化后的深度图,代表优化后的深度范围假设,代表优化后的概率。
至此,最终的损失函数定义为:
式(11)
其中,表示优化后的深度图与真实地面深度之间的损失,是超参数。表示初始化深度图的深度损失,表示特征损失。
重复步骤S2至步骤S5,StageID加1,将步骤2中的采样方法换为动态范围采样,即可计算出源图像在1/2分辨率下的深度图,然后对1/2分辨率的深度图进行上采样操作,最后利用参考图像对上采样后的深度图进行细化,计算得到全分辨率的深度图,融合全分辨率的深度图即可获得高质量的稠密点云模型。
实施例:
图2为本实施例输入的高分辨率图像,本实施例的具体过程为:
首先将所有高分辨率图像输入到动态特征提取网络中,获得对应源图像的多尺度特征图,然后将所得多尺度特征图通过单应性变换映射到参照平面,根据深度假设计算出视图匹配代价以构建代价体。
其次,采用多尺度3DCNN网络正则化匹配代价体,计算出深度概率体,概率体经偏置回归算法得到如图3所示的深度图(图3中六个深度图与图2一一对应)。
再次,对半分辨率的深度图进行直接上采样操作,然后使用参考图像对上采样后的深度图进行细化,从而获得全分辨率的深度图。
最后,融合全分辨率的深度图即可获得如图4所示的高质量的稠密点云模型。
通过上述实施例可看出,本发明技术方案采用由粗到细的方式计算深度图像,然后融合全分辨率的深度图像,即可获得高质量的稠密点云模型。首先,将高分辨率图像输入到动态特征提取网络中,分别计算出输入图像在1/8分辨率、1/4分辨率和1/2分辨率下的特征图;其次,每个分辨率的特征图分别经过构建代价体、代价体正则化、偏置回归等步骤得到深度图;最后,融合全分辨率深度图即可获得完整场景的稠密点云模型。
本发明应用广泛,具体应用场景包括:元宇宙、古遗址场景的叙事可视化、工业仿真、数字孪生城市建设、数字中国建设、影视拍摄与制作、三维场景监控、文化遗产的数字化保护与应用、军事与战争仿真、无人驾驶、三维地图导航、视觉定位、虚拟现实和增强现实等。
Claims (8)
1.一种面向高分辨率图像的多视图立体重建方法,其特征在于,包括以下步骤:
步骤S1、分别向多尺度特征提取网络输入参考图像 和源图像以及各自对应相机参数,输出得到对应多尺度特征图;参考图像的相机参数为,源图像的相机参数为,;
其中,表示参考图像对应的摄像机内部参数,表示参考图像对应的旋转矩阵,表示参考图像对应的摄像机平移向量;表示输入的源图像的数量,表示第幅源图像的序号,表示第幅源图像对应的摄像机内部参数,表示第幅源图像对应的摄像机旋转矩阵,表示第幅源图像对应的摄像机平移向量;
步骤S2、样本采样,采样方法分为两种,分别是固定深度采样和动态范围采样,使用StageID表示当前循环次数,且StageID默认为1,当StageID≤1时,采用固定深度采样,否则采用动态范围采样,所以首先使用的是固定深度采样,在假设区间内进行均匀的采样;
步骤S3、通过单应性变换,将源图像的特征图映射到参照平面,根据深度假设计算视图匹配代价,以构建代价体;
其中,表示单位矩阵,表示深度,表示参考图像对应的旋转矩阵的逆矩阵;表示参考摄像机主轴;
步骤S4、使用多尺度三维卷积神经网络3DCNN对代价体进行正则化处理,获得深度概率体;然后根据概率体,通过不确定距离估计方法计算得到不确定性图Uncertainty Map实现动态范围采样,将动态范围采样结果用于确定下一阶段的动态采样的假设范围;
步骤S5、再根据深度概率体,利用偏置回归算法计算出预测深度值,此时StageID加1;
重复步骤S2至步骤S5直到计算出1/2分辨率的深度图;
步骤S6、使用深度优化网络对1/2分辨率下的深度图进行上采样操作,然后利用参考图像对上采样后的深度图进行细化,得到全分辨率深度图;
步骤S7、对步骤S6所得全分辨率深度图进行融合,即可获得高质量的稠密点云模型。
2.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:所述步骤S1中使用特征提取网络提取多尺度特征图的具体方法为:
式(1)
其中,表示输入图像,输入图像包括参考图像和源图像,表示输出的多尺度特征图,表示第幅源图像的序号,表示第幅源图像的候选卷积核,表示第幅源图像经过卷积网络计算得到的独热向量,用于自动选择合适的卷积核,*表示卷积算子;是指参考图像的独热向量。
3.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:所述步骤S3构建代价体的具体步骤如下:
步骤S3.1、根据单应性变换公式(4)将由动态特征提取网络计算得到的所有特征图映射到参考图像对应摄像机的不同平行平面中;其中,动态特征提取网络方法的步骤为:
步骤S3.1.1、给出一组个大小不等的卷积核和相对应的个候选尺度,计算个候选尺度的近似法曲率,计算公式如下:
式(2)
其中,表示可学习的卷积核且||,表示输入特征,表示沿核线方向,是指将进行转置,表示某一像素;
步骤S3.1.2、对于每个像素,根据上面计算得到的法曲率,利用由CNN卷积实现的分类网络,计算得到一个独热向量{,用于从个法曲率中自动选择合适的卷积尺度;
步骤S3.1.3、最后通过使用加权和的方式从个候选卷积核的特征输入产生特征输出;
步骤S3.2、通过公式(3)根据深度采样假设,计算两视图匹配代价,然后将匹配代价聚合为单一代价体,其中表示参考图像的特征图,表示源图像在深度假设处经过映射后的源特征图;
式(3)
其中,,D表示深度假设的数量;
步骤S3.3、根据像素视点权重预测的方式,对两视图代价执行代价聚合操作,以构造代价体;
式(4)。
4.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:所述步骤S4利用三维卷积神经网络3DCNN对代价体正则化处理得到深度概率体,利用概率体,进行不确定距离估计,确定下一阶段采样范围,详细方法为:
S4.1、先采用编码器-解码器结构从大范围接受野聚集邻域信息,并对代价体进行正则化处理得到概率体;
S4.2、沿着深度方向应用SoftMax操作,进行概率归一化处理,得到概率体;SoftMax的定义如下:
式(5)
其中,表示第个概率值,表示深度假设的数量;
S4.3、根据S4.1所得概率体,通过距离不确定估计方法得到不确定性图UncertaintyMap,进而计算得到动态采样范围,动态范围的计算方法如下:
式(6)
其中,表示上一阶段的采样范围,表示计算的不确定性值,是一个超参数,用于确定置信度区间尺度大小。
5.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:所述步骤S5中利用偏置回归算法重复计算得到1/2分辨率深度图的具体步骤为:
S5.1、根据分类方法计算得到概率最大值,然后利用偏移量计算公式即可得到深度偏移量,其中偏移量offset的计算公式为:
式(7)
表示根据分类方法计算得到的概率最大值,表示深度间隔;
S5.2、以偏置回归方法为基础,将计算得到的回归深度值加上深度偏移量,即可得到预测深度值;
其中偏置回归计算预测深度值的计算公式为:
式(8)
其中,表示像素点的横轴坐标值,表示像素点的纵轴坐标值,表示深度假设,表示深度值,表示深度值对应的概率分布,表示回归方法中每一深度假设对应的概率值,表示回归方法计算得到的深度值。
6.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:使用偏置回归所得深度图对所步骤S1多尺度特征提取网络进行动态训练,训练过程中使用如下损失计算方法:
式(9)
其中,表示Sigmoid激活函数,表示像素的数量,和表示正则化的超参数,表示计算得到的曲率值,表示匹配代价,表示在地面真实值周围随机选取个相邻深度;
当计算出深度范围假设和概率体后,根据钳位策略获得优化后的深度假设和概率体,然后对优化后的概率体进行归一化操作,确保单个像素中的总概率和为1,优化后的深度图计算方式如下:
式(10)
其中,表示第个深度假设,代表优化后的深度图,代表优化后的深度范围假设,代表优化后的概率;
至此,最终的损失函数定义为:
式(11)
其中,表示优化后的深度图与真实地面深度之间的损失,是超参数;表示初始化深度图的深度损失,表示特征损失。
7.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:所述步骤S6中使用深度优化网络对1/2分辨率的深度图进行上采样操作,然后利用参考图像对上采样后的深度图进行细化,由此计算出全分辨率的深度图。
8.根据权利要求1所述的面向高分辨率图像的多视图立体重建方法,其特征在于:所述步骤S7中对全分辨率深度图,融合全分辨率的深度图即可获得高质量的稠密点云模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205404.3A CN116071504B (zh) | 2023-03-06 | 2023-03-06 | 一种面向高分辨率图像的多视图立体重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310205404.3A CN116071504B (zh) | 2023-03-06 | 2023-03-06 | 一种面向高分辨率图像的多视图立体重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116071504A true CN116071504A (zh) | 2023-05-05 |
CN116071504B CN116071504B (zh) | 2023-06-09 |
Family
ID=86182092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310205404.3A Active CN116071504B (zh) | 2023-03-06 | 2023-03-06 | 一种面向高分辨率图像的多视图立体重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071504B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000077734A2 (en) * | 1999-06-16 | 2000-12-21 | Microsoft Corporation | A multi-view approach to motion and stereo |
CN113284227A (zh) * | 2021-05-14 | 2021-08-20 | 安徽大学 | 一种面向大规模航拍图像的分布式运动推断结构方法 |
US20210279904A1 (en) * | 2020-03-05 | 2021-09-09 | Magic Leap, Inc. | Systems and methods for depth estimation by learning triangulation and densification of sparse points for multi-view stereo |
CN114937073A (zh) * | 2022-04-08 | 2022-08-23 | 陕西师范大学 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
CN115631223A (zh) * | 2022-09-27 | 2023-01-20 | 厦门大学 | 基于自适应学习和聚合的多视图立体重建方法 |
CN115719407A (zh) * | 2023-01-05 | 2023-02-28 | 安徽大学 | 一种面向大规模航拍图像的分布式多视图立体重建方法 |
-
2023
- 2023-03-06 CN CN202310205404.3A patent/CN116071504B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000077734A2 (en) * | 1999-06-16 | 2000-12-21 | Microsoft Corporation | A multi-view approach to motion and stereo |
US20210279904A1 (en) * | 2020-03-05 | 2021-09-09 | Magic Leap, Inc. | Systems and methods for depth estimation by learning triangulation and densification of sparse points for multi-view stereo |
CN113284227A (zh) * | 2021-05-14 | 2021-08-20 | 安徽大学 | 一种面向大规模航拍图像的分布式运动推断结构方法 |
CN114937073A (zh) * | 2022-04-08 | 2022-08-23 | 陕西师范大学 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
CN115631223A (zh) * | 2022-09-27 | 2023-01-20 | 厦门大学 | 基于自适应学习和聚合的多视图立体重建方法 |
CN115719407A (zh) * | 2023-01-05 | 2023-02-28 | 安徽大学 | 一种面向大规模航拍图像的分布式多视图立体重建方法 |
Non-Patent Citations (5)
Title |
---|
RAFAEL WEILHARTER等: "HighRes-MVSNet: A Fast Multi-View Stereo Network for Dense 3D Reconstruction From High-Resolution Images", IEEE ACCESS, pages 11306 - 11315 * |
SHUAI QI等: "Unsupervised multi-view stereo network based on multi-stage depth estimation", IMAGE AND VISION COMPUTING, pages 1 - 13 * |
YAO YAO等: "Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference", ARXIV, pages 1 - 15 * |
刘万军等: "多尺度代价体信息共享的多视角立体重建网络", 中国图象图形学报, pages 3331 - 3342 * |
吴天生: "基于多视图立体视觉的三维重建算法研究", 中国优秀博硕士学位论文全文数据库(硕士), pages 1 - 67 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117437363A (zh) * | 2023-12-20 | 2024-01-23 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
CN117437363B (zh) * | 2023-12-20 | 2024-03-22 | 安徽大学 | 基于深度感知迭代器的大规模多视图立体方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116071504B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110458939B (zh) | 基于视角生成的室内场景建模方法 | |
Zhu et al. | Vpfnet: Improving 3d object detection with virtual point based lidar and stereo data fusion | |
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN107330439B (zh) | 一种图像中物体姿态的确定方法、客户端及服务器 | |
CN110689008A (zh) | 一种面向单目图像的基于三维重建的三维物体检测方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN111985376A (zh) | 一种基于深度学习的遥感影像舰船轮廓提取方法 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN114666564B (zh) | 一种基于隐式神经场景表示进行虚拟视点图像合成的方法 | |
WO2021249401A1 (zh) | 模型生成方法、图像透视图确定方法、装置、设备及介质 | |
CN116071504B (zh) | 一种面向高分辨率图像的多视图立体重建方法 | |
WO2022141718A1 (zh) | 一种辅助点云目标检测的方法及系统 | |
Shi et al. | An improved lightweight deep neural network with knowledge distillation for local feature extraction and visual localization using images and LiDAR point clouds | |
Chen et al. | Autosweep: Recovering 3d editable objects from a single photograph | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
He et al. | Spindle-net: Cnns for monocular depth inference with dilation kernel method | |
CN117315169A (zh) | 基于深度学习多视密集匹配的实景三维模型重建方法和系统 | |
Wang et al. | Multi-view attention-convolution pooling network for 3D point cloud classification | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
Liu et al. | Deep neural networks with attention mechanism for monocular depth estimation on embedded devices | |
Li et al. | Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
WO2022193104A1 (zh) | 一种光场预测模型的生成方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |