CN112734915A - 一种基于深度学习的多视角立体视觉三维场景重建方法 - Google Patents
一种基于深度学习的多视角立体视觉三维场景重建方法 Download PDFInfo
- Publication number
- CN112734915A CN112734915A CN202110072362.1A CN202110072362A CN112734915A CN 112734915 A CN112734915 A CN 112734915A CN 202110072362 A CN202110072362 A CN 202110072362A CN 112734915 A CN112734915 A CN 112734915A
- Authority
- CN
- China
- Prior art keywords
- feature
- depth
- depth map
- scale
- reference image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013135 deep learning Methods 0.000 title claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 13
- 230000002776 aggregation Effects 0.000 claims description 11
- 238000004220 aggregation Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005259 measurement Methods 0.000 claims description 2
- 230000000007 visual effect Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度学习的多视角立体视觉三维场景重建方法,现有的基于深度学习的重建方法,通过提取图像最后一层的特征以生成3D代价体,没有很好地利用浅层特征,这将丢失不同尺度的信息。而且,这些方法在深度图细化时,只考虑了参考图像本身对深度细化的效果,忽略了相邻图像的深度对深度图预测的贡献。为了解决上述问题,我们提出了多尺度特征提取与融合网络以及基于帧间相关性的深度图细化网络,来提升场景的预测精度和完整性。与现有的基于深度学习的方法相比,我们的方法能够更好地学习输入图像的上下文特征,重建出目标场景被遮挡和缺失的区域,能够更完整地恢复场景的三维信息,实现高精度的三维场景重建。
Description
技术领域
本发明属于计算机视觉和三维重建领域,研究了一种新的三维重建方法。
背景技术
高精度的三维场景重建对于许多应用至关重要,如城市三维地图、古迹复现、自动驾驶和增强现实等。基于多视角立体视觉的三维重建方法也是计算机视觉的核心研究问题之一。传统的多视角立体匹配重建方法使用主观设计的相似性度量和工程化的正则化(例如归一化互相关和半全局匹配)来计算稠密对应并恢复3D点。虽然这些方法在理想的Lambertian(朗伯)情形下显示出了很好的重建效果,但它们也有一些共同的局限性。例如,场景的低纹理、高光和镜面反射区域等问题的存在使密集匹配变得难以处理,从而导致重建结果不完整。这些缺陷导致传统方法的重建结果质量较低,难以满足实践应用需求,因此,基于视觉的高精度三维重建研究仍面临很多具有挑战性的问题。
近年来,深度学习的快速发展和大量多视角立体匹配数据集的发布,为高精度三维重建方法带来了新思路。目前较为多见的基于深度学习的方法是利用深度图融合,从多视角图像进行三维重建。该方法的基本结构是首先通过深度估计网络生成每一幅图像所对应的深度图,然后再使用传统的深度图融合算法将所有的单幅深度图融合成一个完整的场景点云。基于深度图的学习方法的一个重要步骤是构造一个像素级匹配的置信度或代价卷。其基本思想是先将深度空间进行离散化,即均匀采样多个深度平面,从输入图像集合中选取一幅图像作为参考图像,根据平面扫描算法建立一个平面扫描体素,然后计算在每个采样深度假设下,参考图像中的每个像素与其他相邻图像中对应像素的匹配代价来构建3D代价卷,最后通过CNNs来推断参考图像的深度图。其优点是基于代价卷的方法迫使网络通过立体匹配来学习深度估计,而不只是学习单一的视图线索,有利于泛化。然而,现有的基于深度学习的多视角深度估计方法也存在一些问题:首先,从概念上讲,通过提取图像最后一层的特征以生成3D代价卷,没有很好的利用浅层特征,这将丢失不同尺度的信息以供进一步处理。其次,这些方法在深度图细化时,只考虑了参考图像本身对深度细化的效果,忽略了相邻图像的深度对深度图预测的贡献。
发明内容
为了解决上述这些问题,本发明提出了一种基于深度学习的多视角立体视觉三维场景重建方法,实现多视角图像的三维重建。与现有的基于学习的三维重建方法相比,该方法能够学习到不同尺度的特征,增强基于不同区域的不同信息间上下文信息的聚合,有利于神经网络提取更具有表现力的特征,此外,通过使用帧间相关性度量,能够进一步细化网络预测的初始深度图。
为了能够提高三维重建的精度与质量,本发明提通过多尺度特征提取与融合以及帧间相关性,提升场景的预测精度和完整性。为此,需要解决的关键技术问题包括:利用深度神经网络进行高性能多尺度特征的提取与融合、避免人工设计的多环节误差积累;多视点深度信息融合优化,通过多视点获取的同一场景的图像,一般具有相近的深度,利用相邻图像的深度信息来细化预测的初始深度图。
本发明框架如图2,主要分为三大模块:1)多尺度特征提取与融合;2)匹配代价体的构建与正则化;3)基于帧间相关性的深度图细化。本发明将待估计深度图的图像称为参考图像,其他输入的图像称为源图像,参考图像和任意数量的源图像作为输入图像首先通过多尺度特征提取网络进行特征提取,并借助可微单应性变换将源图像的特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体,然后使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体;接着使用基于方差的度量构建匹配代价体,并使用3D-Unet网络对代价体进行正则化,再使用softArgmin操作生成初始的深度图;最后使用帧相关深度图细化网络对初始深度图进行优化,生成细化后的深度图。我们只在网络的训练阶段使用帧间相关性模块进行深度图细化,测试时不使用。
有益效果
实验表明,本发明提出的方法能够很好的学习图像的上下文特征,实现高精度的三维场景重建。
附图说明
图1、本发明整体流程图;
图2、本发明网络算法框架示意图;
图3多尺度特征提取与融合模块结构示意图;
图4特征提取的网络结构图(MSFNet);
图5代价体的构建与正则化模块结构示意图;
图6基于帧间相关性的深度图细化模块结构示意图;
图7(a)DTU数据集scan09场景上点云重建效果;
图7(b)DTU数据集scan77场景上点云重建效果;
图7(c)DTU数据集scan114场景上点云重建效果。
具体实施方式
以下将详细介绍本发明的具体过程:
1.多尺度特征提取和融合
该部分主要是提取图像的多尺度特征以及多尺度特征体的聚合。其创新点是提出了多尺度特征体聚合网络,即MFVA-Net(Multi-scale Feature Volume AggregationNet),该网络能够学习到不同尺度特征体中的上下文信息,增强了神经网络对深度预测的能力,进一步提高三维重建的精度和完整性。
多尺度特征提取和融合部分主要由三个阶段组成:1)多尺度特征提取;2)特征体的构建;3)多尺度特征体的聚合。其框架如图2。
1)多尺度特征提取
网络的输入为N张已知相机参数的RGB图像将I1记做参考图像,记做源图像。多尺度特征提取网络MSFE-Net(Multi-Scale Feature Extractor Net)由12个卷积层组成,每个卷积层后都进行BN批量归一化操作和ReLU操作来加速训练。我们在第6、8、10、12个卷积层处分别提取不同尺度的特征,最终得到通道数都为32的feature_0、feature_1、feature_2、feature_3四个不同尺度的特征图,组成特征金字塔。网络结构图如图3。
2)特征体的构建
相同场景的任何两张图像都可以通过单应性变换来互相映射,相同场景的任何两张图像都可以通过单应性变换来互相映射,我们使用可微单应性变换这一操作将特征提取网路提取的源图像的四个不同尺度的32通道特征图feature_0、feature_1、feature_2、feature_3变换到参考图像的视锥中,得到多尺度下的特征体f0,0、f1,0、f2,0、f3,0。具体地,我们先将参考图像的视锥体进行离散化,等距离采样D(D=192)个深度平面,然后通过可微单应性变换操作将源图像的每个通道的特征图分别变换到参考图像视锥体中每个采样深度平面上,组成大小为W·H·D·Fc特征体,其中,W,H,D,Fc分别为输入图像的宽、高、深度采样的数目和特征图的通道数。
其可微单应性变化的公式为:
3)多尺度特征体的聚合
接下来,为了学习更多的上下文信息,增强神经网络对图像的深度预测能力,本发明提出了多尺度特征体聚合网络MFVA-Net。其主要思想是首先将特征体构建阶段生成的四种不同尺度的特征体f0,0、f1,0、f2,0、f3,0分别经过一次卷积得到尺度从大到小表示的特征体金字塔F3,0、F2,0、F1,0、F0,0;然后我们使用自底向上的方式将四种不同尺度特征体从最小尺度进行卷积和上采样到下一级尺度,然后和同一尺度的相邻特征体进行拼接,直到上采样到与最高尺度的特征体相同尺寸为止,最终得到最大尺度的特征体F3,3。
我们将Fi,j表示为第i个尺度下的第j个特征体,则Fi,j用公式可以表示为:
其中,H(·)是一个3x3的卷积操作,后面跟一个ReLU激活函数,U(·)表示上采样,Cn表示拼接操作。经过多次卷积、上采样和拼接操作,我们的多尺度特征体聚合网络通过使用多个平行金字塔路径,使网络能够学习到具有强语义信息的精细分辨率特征。
具体地,我们首先对特征体构建中得到的四个不同的特征体f0,0,f1,0,f20f3,0进行一次卷积操作分别得到四个不同的特征体得到F0,0、F1,0、F2,0、F3,0。将最小尺度的特征体F0,0进行3x3的卷积,接着用两倍缩放比例的最近邻插值将特征体上采样至更高一级尺度,然后将上采样后的特征体与构建的特征体F1,0进行拼接得到融合后的特征体F1,1;紧接着将特征体F1,0进行3x3卷积并上采样到更高一级尺度,然后与特征体F2,0进行拼接得到特征体F2,1,同时,我们将融合得到的特征体F1,1也进行3x3卷积并上采样到更高一级尺度,并与融合得到的特征体F2,1进行拼接得到特征体F2,2;接下来使用与上面相同的方式分别得到最高尺度下的特征体F3,1、F3,2、F3,3。则特征体F3,3最终融合了多尺度特征体之间的上下文信息。我们的多尺度特征体聚合网络通过使用多个平行金字塔路径,使网络能够学习到具有强语义信息的精细分辨率特征。
2.匹配代价体的构建与正则化
为了得到参考图像中每个像素的深度值,我们需要计算参考图像特征与经过单应性变换后的源图像特征的逐像素匹配损失,具体地,我们在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值,在同一个像素点会计算得到D个匹配损失值。我们认为匹配损失最小的平面就是该像素的深度值。
接下来由这N个32通道的特征体构造一个四维的匹配代价体C,其尺寸与一个特征体的尺寸相同,通过基于方差的度量定义四维代价体:
由图像特征计算出的原始代价体可能受到噪声污染(例如,存在非朗伯面或物体遮挡),因此应该加入平滑性约束来推断深度图,我们的正则化网络旨在细化构建的代价体C,以生成用于深度估计的概率体P,具体地,我们使用U-Net网络(如图5)进行代价体正则化。它使用编码器-解码器结构以相对较低的内存和计算成本来聚合更大感受野的相邻信息。为了进一步减少计算需求,我们在第一个3D卷积层之后将32通道的代价体减少到8通道,每个尺度下使用两层卷积层,最后的卷积输出一个1通道的代价体,接着,通过softmax操作对采样深度方向上每个深度值计算相应的概率,得到概率体P。最后,我们使用SoftArgmin操作来生成初始深度图,具体地,计算每个像素对应所有深度值的期望,对所有深度假设值进行加权求和:
其中,dmin、dmax分别表示最小和最大深度采样值,d表示采样深度值,p(d)表示每个像素在采样深度为d时的概率。
3.基于帧间相关性的深度图细化
通过上述过程已经得到了初始的深度图,但由于代价体正则化涉及到较大的感受野,最终得到的初始深度中对象的边界可能变得过度平滑。因此,我们使用基于帧间相关性的深度图细化模块(如图6)对初始深度图进行细化。对于参考图像和它的相邻(帧间)图像具有相同的场景,我们假设“具有相同场景的图像,其深度也具有相似性”,由于各近邻图像对初始深度图细化的贡献不同,可以通过设置权重的大小,使得相似度高的深度图贡献大,相似度低的深度图贡献小。
首先,通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数,具体地,我们使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征;然后对于参考图像中的每个特征点,均在源图像中计算并找到与其距离最近和次最近的两个特征点;当最近距离与次距离的比值小于0.6时,认为具有最近距离的特征点是参考图像中特征点的配对点,则这两个特征点成为一个匹配对。当得到所有匹配对的个数Nm时,即可计算其与参考图像中SIFT特征点总数的比值,该值作为参考图像与源图像的相似性分数wi。公式如下所示:
其中,Nm表示SIFT特征匹配对的个数、Nr表示参考图像中SIFT特征的个数。
然后根据相似性分数对源图像的深度图进行加权求和,得到加权后的深度图,相邻图像的深度图加权公式:
其中,di(p)表示像素p源图像中的深度,wi表示相邻图像的深度的相似性分数。
而且参考图像包含了边界信息,有助于细化深度图的边界,因此,我们将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入,然后经过六个32通道带有组标准化和ReLU的2D卷积层,卷积核大小为3x 3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图,并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。
整体网络训练的损失函数综合考虑了初始深度图和优化后的深度图,并使用L1损失来衡量预测得到的深度图和ground truth深度图之间的差距。其公式为:
其中d(p)表示groundtruth深度图,di(p)表示初始的深度图对应的深度值,dr(p)表示优化后的深度图对应的深度值。
最后,我们将输入的N张图像分别当做参考图像进行深度图预测,得到N张同一场景下的深度图,然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。
本发明使用公开的DTU数据集进行训练和测试。该数据集包含119个场景,由49个精确的相机位置获得,所有图像都是在7个不同的照明条件下拍摄得到。我们将数据集划分为训练集、验证集和测试集,其中训练集包含79个场景(27097个训练样本),测试集包含22个场景(7546个对象),其余用于验证。
本发明使用了精度、完整性和Overall来评估三维重建的性能。精度用来衡量重建场景点云到groundtruth点云之间的距离,表示重建点云的质量;完整性用来衡量groundtruth点云到重建点云的距离,表示有多少表面被捕捉到。Overall定义为精度和完整性的均值。三个度量值越小重建效果越好。
本发明做了相关实验,将提出的基于学习的多视角立体视觉三维场景重建方法与经典的传统方法Gipuma和colmap,以及基于学习的方法surfaceNet和MVSNet进行了比较,对比结果如表1、图7(a)-(c)所示:
表1在场景scan09上的评估
Mean:均值
Acc:重建精度(重建的点云到groundtruth点云的距离,单位:mm)
Comp:重建完整性(groundtruth点云到重建点云的距离,单位:mm)
Overall:(Acc+Comp)/2
综上分析,本发明提出的基于深度学习的多视角立体视觉三维场景重建方法优于传统的重建方法和基于深度学习的重建方法,即它能够更好地学习输入图像的多尺度特征,增强了神经网络对深度预测的能力,重建出目标场景被遮挡和缺失的区域,从而能够更完整地恢复场景的三维信息。
Claims (7)
1.一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于包括以下步骤:
步骤1)通过多尺度特征提取网络提取同一场景不同视角下的N张图像的多尺度特征图,其中,任选一张图像称为参考图像,其他输入的图像称为源图像;
步骤2)借助可微单应性变换将源图像的多尺度特征图映射到参考图像所在的视锥体中以生成不同尺度的特征体;
步骤3)使用多尺度特征体聚合网络将不同尺度的特征体进行聚合生成聚合后的特征体,经过多尺度特征体融合后,对于每一幅图像都会得到一个32通道的特征体F(F=F3,3),则N张图像最终得到N个32通道的特征体
步骤4)使用基于方差的度量构建匹配代价体,并使用3D-Unet网络对代价体进行正则化,再使用softArgmin操作生成参考图像的初始深度图;
步骤5)使用帧相关深度图细化网络对初始深度图进行优化,生成细化后的深度图;其中,只在网络的训练阶段使用帧间相关性模块进行深度图细化,实际应用时不使用;
步骤6)将输入的N张图像分别当做参考图像进行深度图预测,得到N张同一场景下的深度图,然后使用传统的表面法向融合算法将多张深度图进行融合得到场景的稠密3D点云表示。
3.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤2),具体如下:
首先将参考图像的视锥体进行离散化,等距离采样D(D=192)个深度平面,然后通过可微单应性变换将源图像的多尺度特征图分别变换到每个采样深度平面上,组成四种不同尺度的特征体f0,0、f1,0、f2,0、f3,0。
4.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤3)中所述特征体的计算过程具体如下:
首先将特征体构建阶段生成的四种不同尺度的特征体f0,0、f1,0、f2,0、f3,0分别经过一次卷积得到尺度从大到小表示的特征体金字塔F3,0、F2,0、F1,0、F0,0;然后使用自底向上的方式将四种不同尺度特征体从最小尺度进行卷积和上采样到下一级尺度,然后和同一尺度的相邻特征体进行拼接,直到上采样到与最高尺度的特征体相同尺寸为止,最终得到最大尺度的特征体F3,3,其中,将Fi,j表示为第i个尺度下的第j个特征体,则Fi,j用公式可以表示为:
其中,H(·)是一个3x3的卷积操作,后面跟一个ReLU激活函数,U(·)表示上采样,Cn表示拼接操作,经过多次卷积、上采样和拼接操作,多尺度特征体聚合网络通过使用多个平行金字塔路径,学习到具有强语义信息的精细分辨率特征。
5.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤4)具体如下:
首先在D个采样平面下分别计算参考图像特征图和源图像特征图的对应的逐像素差值,在同一个像素点计算得到D个匹配损失值,匹配损失最小的平面就是该像素的深度值;
接下来由这N个32通道的特征体构造一个四维的匹配代价体C,其尺寸与一个特征体的尺寸相同,通过基于方差的度量定义四维代价体:
然后,使用3D-Unet网络进行代价体正则化,用于细化构建的代价体C,以生成用于深度估计的概率体P;所述的概率体P是由3D-Unet网络中softmax操作对采样深度方向上每个深度值计算相应的概率构成的;
最后,计算每个像素对应所有深度值的期望,对所有深度假设值进行加权求和,得到初始的深度图,具体如下:
其中,dmin、dmax分别表示最小和最大深度采样值,d表示采样深度值,p(d)表示每个像素在采样深度为d时的概率。
6.根据权利要求1所述的一种基于深度学习的多视角立体视觉三维场景重建方法,其特征在于步骤5)中所述帧间相关性模块工作过程如下:
首先,通过SIFT特征匹配来度量参考图像和每张源图像的相似性分数,具体地,使用经典的SIFT特征提取算法分别从参考图像和源图像上提取各自的SIFT特征;然后对于参考图像中的每个特征点,均在源图像中计算并找到与其距离最近和次最近的两个特征点;当最近距离与次近距离的比值小于阈值时,认为具有最近距离的特征点是参考图像中特征点的配对点,则这两个特征点成为一个匹配对;当得到所有匹配对的个数Nm时,即可计算其与参考图像中SIFT特征点总数Nr的比值,该值作为参考图像与源图像的相似性分数wi,公式如下所示:
其中,Nm表示SIFT特征匹配对的个数、Nr表示参考图像中SIFT特征的个数;
然后根据相似性分数对源图像的深度图进行加权求和,得到加权后的深度图,源图像的深度图加权公式:
其中,di(p)表示像素p源图像中的深度,wi表示源图像的深度的相似性分数。
而且参考图像包含了边界信息,有助于细化深度图的边界,因此,将加权后的源图像的深度图(1通道)、参考图像(3通道)和网络预测的初始深度图(1通道)组成5通道的输入,然后依次经过六个32通道带有组标准化和ReLU的2D卷积层,卷积核大小为3x3,最后经过一个不带有组标准化和ReLU的2D卷积层输出1通道的深度残差图,并将其与网络预测的参考图像的初始深度图进行叠加得到优化后的深度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110072362.1A CN112734915A (zh) | 2021-01-19 | 2021-01-19 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110072362.1A CN112734915A (zh) | 2021-01-19 | 2021-01-19 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112734915A true CN112734915A (zh) | 2021-04-30 |
Family
ID=75592515
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110072362.1A Pending CN112734915A (zh) | 2021-01-19 | 2021-01-19 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734915A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345082A (zh) * | 2021-06-24 | 2021-09-03 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN113808063A (zh) * | 2021-09-24 | 2021-12-17 | 土豆数据科技集团有限公司 | 用于大规模场景重建的深度图优化方法、装置及存储介质 |
CN113963117A (zh) * | 2021-10-29 | 2022-01-21 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
CN113962858A (zh) * | 2021-10-22 | 2022-01-21 | 沈阳工业大学 | 一种多视角深度获取方法 |
CN114359509A (zh) * | 2021-12-03 | 2022-04-15 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN114821228A (zh) * | 2022-04-12 | 2022-07-29 | 北京鉴智科技有限公司 | 深度图像输出模型训练方法、深度图像获取方法及装置 |
CN114820755A (zh) * | 2022-06-24 | 2022-07-29 | 武汉图科智能科技有限公司 | 一种深度图估计方法及系统 |
CN114937073A (zh) * | 2022-04-08 | 2022-08-23 | 陕西师范大学 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
CN114943776A (zh) * | 2022-05-31 | 2022-08-26 | 中国地质大学(武汉) | 一种基于互相关函数和法向量损失的三维重建方法及装置 |
CN115170746A (zh) * | 2022-09-07 | 2022-10-11 | 中南大学 | 一种基于深度学习的多视图三维重建方法、系统及设备 |
CN115587987A (zh) * | 2022-10-19 | 2023-01-10 | 中国长江三峡集团有限公司 | 一种蓄电池缺陷检测方法、装置、存储介质及电子设备 |
CN116721143A (zh) * | 2023-08-04 | 2023-09-08 | 南京诺源医疗器械有限公司 | 3d医学图像的深度信息处理装置及方法 |
CN117036589A (zh) * | 2023-06-30 | 2023-11-10 | 成都飞机工业(集团)有限责任公司 | 基于多视角几何的三维重建方法、装置、设备及介质 |
CN118334255A (zh) * | 2024-06-14 | 2024-07-12 | 南京先维信息技术有限公司 | 基于深度学习的高分辨率图像三维重建方法、系统与介质 |
CN118485785A (zh) * | 2024-07-16 | 2024-08-13 | 科大讯飞股份有限公司 | 三维重建方法、装置、电子设备和存储介质 |
CN118485785B (zh) * | 2024-07-16 | 2024-09-24 | 科大讯飞股份有限公司 | 三维重建方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461180A (zh) * | 2018-09-25 | 2019-03-12 | 北京理工大学 | 一种基于深度学习的三维场景重建方法 |
CN110197468A (zh) * | 2019-06-06 | 2019-09-03 | 天津工业大学 | 一种基于多尺度残差学习网络的单图像超分辨重建算法 |
WO2019174377A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
WO2020056791A1 (zh) * | 2018-09-21 | 2020-03-26 | 五邑大学 | 一种多尺度空洞卷积神经网络超分辨率重构方法及装置 |
AU2020100200A4 (en) * | 2020-02-08 | 2020-06-11 | Huang, Shuying DR | Content-guide Residual Network for Image Super-Resolution |
CN111462329A (zh) * | 2020-03-24 | 2020-07-28 | 南京航空航天大学 | 一种基于深度学习的无人机航拍影像的三维重建方法 |
CN111652966A (zh) * | 2020-05-11 | 2020-09-11 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
-
2021
- 2021-01-19 CN CN202110072362.1A patent/CN112734915A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174377A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
WO2020056791A1 (zh) * | 2018-09-21 | 2020-03-26 | 五邑大学 | 一种多尺度空洞卷积神经网络超分辨率重构方法及装置 |
CN109461180A (zh) * | 2018-09-25 | 2019-03-12 | 北京理工大学 | 一种基于深度学习的三维场景重建方法 |
CN110197468A (zh) * | 2019-06-06 | 2019-09-03 | 天津工业大学 | 一种基于多尺度残差学习网络的单图像超分辨重建算法 |
AU2020100200A4 (en) * | 2020-02-08 | 2020-06-11 | Huang, Shuying DR | Content-guide Residual Network for Image Super-Resolution |
CN111462329A (zh) * | 2020-03-24 | 2020-07-28 | 南京航空航天大学 | 一种基于深度学习的无人机航拍影像的三维重建方法 |
CN111652966A (zh) * | 2020-05-11 | 2020-09-11 | 北京航空航天大学 | 一种基于无人机多视角的三维重建方法及装置 |
Non-Patent Citations (3)
Title |
---|
ABHISHEK KAR 等: "Learning a multi-view stereo machine", NIPS\'17: PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS, pages 1 - 12 * |
王刚: "基于多视角立体视觉的三维重建研究", 中国优秀硕士学位论文全文数据库(信息科技辑), pages 138 - 1727 * |
袁坤: "基于立体视觉的多视角三维重建系统的研究与设计", 中国优秀硕士学位论文全文数据库(信息科技辑), pages 138 - 621 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345082B (zh) * | 2021-06-24 | 2022-11-11 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN113345082A (zh) * | 2021-06-24 | 2021-09-03 | 云南大学 | 一种特征金字塔多视图三维重建方法和系统 |
CN113808063A (zh) * | 2021-09-24 | 2021-12-17 | 土豆数据科技集团有限公司 | 用于大规模场景重建的深度图优化方法、装置及存储介质 |
CN113962858B (zh) * | 2021-10-22 | 2024-03-26 | 沈阳工业大学 | 一种多视角深度获取方法 |
CN113962858A (zh) * | 2021-10-22 | 2022-01-21 | 沈阳工业大学 | 一种多视角深度获取方法 |
CN113963117A (zh) * | 2021-10-29 | 2022-01-21 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
CN113963117B (zh) * | 2021-10-29 | 2024-03-29 | 温州大学 | 一种基于可变卷积深度网络的多视图三维重建方法及装置 |
CN114359509B (zh) * | 2021-12-03 | 2024-07-09 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN114359509A (zh) * | 2021-12-03 | 2022-04-15 | 三峡大学 | 一种基于深度学习的多视图自然场景重建方法 |
CN114937073A (zh) * | 2022-04-08 | 2022-08-23 | 陕西师范大学 | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 |
CN114821228A (zh) * | 2022-04-12 | 2022-07-29 | 北京鉴智科技有限公司 | 深度图像输出模型训练方法、深度图像获取方法及装置 |
CN114943776A (zh) * | 2022-05-31 | 2022-08-26 | 中国地质大学(武汉) | 一种基于互相关函数和法向量损失的三维重建方法及装置 |
CN114943776B (zh) * | 2022-05-31 | 2024-08-13 | 中国地质大学(武汉) | 一种基于互相关函数和法向量损失的三维重建方法及装置 |
CN114820755A (zh) * | 2022-06-24 | 2022-07-29 | 武汉图科智能科技有限公司 | 一种深度图估计方法及系统 |
CN115170746A (zh) * | 2022-09-07 | 2022-10-11 | 中南大学 | 一种基于深度学习的多视图三维重建方法、系统及设备 |
CN115587987A (zh) * | 2022-10-19 | 2023-01-10 | 中国长江三峡集团有限公司 | 一种蓄电池缺陷检测方法、装置、存储介质及电子设备 |
CN117036589A (zh) * | 2023-06-30 | 2023-11-10 | 成都飞机工业(集团)有限责任公司 | 基于多视角几何的三维重建方法、装置、设备及介质 |
CN116721143A (zh) * | 2023-08-04 | 2023-09-08 | 南京诺源医疗器械有限公司 | 3d医学图像的深度信息处理装置及方法 |
CN116721143B (zh) * | 2023-08-04 | 2023-10-20 | 南京诺源医疗器械有限公司 | 3d医学图像的深度信息处理装置及方法 |
CN118334255A (zh) * | 2024-06-14 | 2024-07-12 | 南京先维信息技术有限公司 | 基于深度学习的高分辨率图像三维重建方法、系统与介质 |
CN118334255B (zh) * | 2024-06-14 | 2024-08-27 | 南京先维信息技术有限公司 | 基于深度学习的高分辨率图像三维重建方法、系统与介质 |
CN118485785A (zh) * | 2024-07-16 | 2024-08-13 | 科大讯飞股份有限公司 | 三维重建方法、装置、电子设备和存储介质 |
CN118485785B (zh) * | 2024-07-16 | 2024-09-24 | 科大讯飞股份有限公司 | 三维重建方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112734915A (zh) | 一种基于深度学习的多视角立体视觉三维场景重建方法 | |
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
Huang et al. | Indoor depth completion with boundary consistency and self-attention | |
CN107154023B (zh) | 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法 | |
CN110175986B (zh) | 一种基于卷积神经网络的立体图像视觉显著性检测方法 | |
CN112102182B (zh) | 一种基于深度学习的单图像去反射方法 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN111260775B (zh) | 基于遮挡信息多尺度感知的三维重建方法及装置 | |
CN112767478B (zh) | 一种基于表观指导的六自由度位姿估计方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
CN113538569A (zh) | 一种弱纹理物体位姿估计方法和系统 | |
CN115439743A (zh) | 一种泊车场景下精确提取视觉slam静态特征的方法 | |
CN112348762A (zh) | 一种基于多尺度融合生成对抗网络的单幅图像去雨方法 | |
CN114937073A (zh) | 一种基于多分辨率自适应性的多视角立体重建网络模型MA-MVSNet的图像处理方法 | |
CN112634184A (zh) | 基于融合性卷积神经网络的rgb图像光谱反射率重建方法 | |
Ma et al. | STSRNet: Self-texture transfer super-resolution and refocusing network | |
CN114663880A (zh) | 基于多层级跨模态自注意力机制的三维目标检测方法 | |
CN114092540A (zh) | 基于注意力机制的光场深度估计方法及计算机可读介质 | |
CN113362307A (zh) | 一种rgb-d图像显著性检测方法 | |
CN117765175A (zh) | 一种基于特征聚合Transformer的多视图立体重建系统 | |
CN112991422A (zh) | 一种基于空洞空间金字塔池化的立体匹配方法及系统 | |
CN110766609B (zh) | 一种针对ToF相机的景深图超分辨率重建方法 | |
CN116433904A (zh) | 一种基于形状感知和像素卷积的跨模态rgb-d语义分割方法 | |
CN116091793A (zh) | 一种基于光流融合的光场显著性检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210430 |