CN117437363A - 基于深度感知迭代器的大规模多视图立体方法 - Google Patents
基于深度感知迭代器的大规模多视图立体方法 Download PDFInfo
- Publication number
- CN117437363A CN117437363A CN202311754136.7A CN202311754136A CN117437363A CN 117437363 A CN117437363 A CN 117437363A CN 202311754136 A CN202311754136 A CN 202311754136A CN 117437363 A CN117437363 A CN 117437363A
- Authority
- CN
- China
- Prior art keywords
- depth
- view
- representing
- map
- iterator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000008447 perception Effects 0.000 title claims abstract description 30
- 238000013527 convolutional neural network Methods 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 5
- 239000013598 vector Substances 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 7
- 230000008569 process Effects 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/04—Indexing scheme for image data processing or generation, in general involving 3D image data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度感知迭代器的大规模多视图立体方法,首先提取多尺度特征;然后,计算像素级视图权重、深度图和置信图;其次,构造深度感知迭代器;再次,构造混合损失策略,优化深度图;最后,融合深度图,即可获得点云模型。本发明充分利用基于深度感知迭代器的由粗到细的深度图计算方法,有效地将上下文引导的深度几何信息融合到代价体中计算出高质量的深度图,进而计算出精确的点云模型。
Description
技术领域
本发明涉及多视图三维重建领域、计算机图形学与计算机视觉领域,具体涉及一种基于深度感知迭代器的大规模多视图立体方法。
背景技术
多视图立体(Multi-view Stereo,MVS)是从图像数据中计算场景的点云模型的一种技术。现有的多视图立体重建方法主要分为以下几类:(1)基于点扩散的方法;(2)基于马尔科夫随机场的方法;(3)基于图割(Graph Cut)的方法;(4)基于深度图融合的方法。
尽管现有的方法对以手持相机采集的小规模场景图像数据的多视图立体重建问题取得了较大的研究进展,然而,针对大规模的室外场景,现有的多视图立体重建方法还需要进一步提高。此外,随着无人机设备的普及和广泛使用,使得获取大规模场景的图像数据变得非常容易。这些大量的图像数据对多视图立体重建方法提出了新的挑战:(a)现有的多视图立体重建方法非常耗时,尤其处理大规模图像数据时,现有的多视图立体重建方法需要消耗较长的时间才能计算出场景的点云模型,因此,难以满足高层次计算机应用系统的时间效率需求;(b)现有的多视图立体重建方法对计算机内存空间的需求较大,尤其是当大规模图像数据时容易出现内容溢出问题,进而导致三维重建过程失败。(c)现有的多视图立体重建方法的普适性有待进一步提高,没有任何一种方法能够处理所有场景的图像数据。
上述问题严重阻碍了多视图立体重建方法的发展和应用,暴露现有的多视图立体重建方法在处理大规模图像数据时的不足。因此,人们迫切需要一种鲁棒的高精度立体重建方法,以便快速地从大规模图像数据中重建出高质量的点云模型。
近年来,深度学习技术在目标检测与识别等领域取得了较大的成功,受此启发,一些研究人员将深度学习技术应用于多视图立体重建问题中,取得了一定的研究进展,相关的研究论文有:《Differentiable Stereopsis: Meshes from multiple viewsusingdifferentiable rendering》,《IterMVS: Iterative Probability Estimation forEfficient Multi-View Stereo》,《BlendedMVS: Alarge-scale dataset forgeneralized multi-view stereo networks》。上述这些多视图立体重建方法的重点是,如何提高点云模型的精度,且处理的目标均是小规模场景的图像数据,不适用于大规模图像数据。
也就是说,现有技术在应用于大规模图像数据时,仍然面临以下挑战:(1)现有的多视图立体重建方法在处理大规模图像数据时的精度较低,难以满足元宇宙、数字孪生、文化遗产的数字化保护、虚拟现实和增强现实等领域的应用需求;(2)现有的多视图立体重建方法处理大规模图像数据时,需要较大的内存空间,且随着图像数据量的增加、现有多视图立体重建方法对内存空间的需求超过了单台计算机所支持的最大内存空间范围;(3)现有多视图立体重建方法在处理大规模图像数据时的运行效率太低,难以满足大规模三维重建的时间效率需求。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于深度感知迭代器的大规模多视图立体方法,本发明既具有较高的精度,有具有较高的计算效率,有效地克服了现有多视图立体重建方法的不足,能够促进元宇宙、数字孪生、文化遗产的数字化保护、虚拟现实和增强现实等领域的发展。
技术方案:本发明的一种基于深度感知迭代器的大规模多视图立体方法,包括以下步骤:
步骤S1、输入多视角图像数据和摄像机参数;此处多视角图像既可以是通过手持相机采集的多视角图像,又可以是通过无人机等设备采集的航拍图像,每幅图像大小均为/>;/>中的/>幅多视角图像包括一幅参考视图/>和/>幅源视图/>;
其中,为/>中多视角图像和/>中摄像机的序号,/>为/>中多视角图像的数量;/>,/>表示第/>个摄像机的内部参数矩阵,/>表示第0个摄像机和第/>个摄像机之间的旋转矩阵,/>表示第0个摄像机和第/>个摄像机之间的平移向量;
步骤S2、对于中的/>幅图像/>,使用一个包含3个阶段的特征金字塔网络FPN来计算多视角图像的多尺度特征;在每个阶段/>(k=0,1,2),均使用FPN提取/>幅多视角图像的特征图/>和参考视图的上下文特征/>;通过上下文特征有利于生成初始隐藏状态;
步骤S3、使用基于三维 CNN正则化的多视图立体网络,来计算图像1/8分辨率下的像素级视图权重,然后通过像素级视图权重计算得到初始的深度图和置信图;
步骤S4、基于步骤S3中的初始深度图,执行可微分单应性变换并构建一个深度感知的代价体,得到深度感知迭代器,具体方法为:
步骤S4.1、在个阶段上采用级联的2D ConvGRUs来进行深度优化:
首先从上下文特征中提取当前隐藏状态,然后将其与深度感知代价体(Depth-Aware Cost Volume,DACV)结合并输入到ConvGRU中进行处理,从而得到更新后的隐藏状态/>;
其中,表示非线性激活函数,/>表示一个小型的2D CNN,/>和/>分别表示当前状态GRU单元的更新门和重置门,/>表示中间隐藏状态,/>分别表示与CNN相关的更新门,重置门和中间隐藏状态的参数,/>表示深度感知代价体,⊙表示哈达玛积;
步骤S4.2、对应用2D CNNs操作以获得残差深度值/>,然后将其添加到当前深度/>以进行更新;
;
步骤S4.3、在第个阶段进行/>次迭代(/>),在每个阶段的最后一次迭代之后,基于当前的隐藏状态/>对深度图进行上采样操作;
步骤S5、构造混合损失策略,优化深度图;在初始化阶段通过监督像素级的概率分布来增强训练的鲁棒性,在迭代阶段通过直接监督亚像素级的深度图来实现更好的训练性能,从而提高深度图的质量;
混合损失策略的定义如下:
其中,表示预测深度图的总数,/>;/>;
和/>分别表示阶段数和每个阶段的迭代次数,/>表示初始化阶段的损失,/>表示迭代阶段的损失;
步骤S6、融合深度图以输出点云模型。
进一步地,在步骤S2中,N幅多视角图像的特征图和参考视图的上下文特征的分辨率均为/>,/>表示多视角图像的宽度,/>表示多视角图像的高度。
进一步地,所述步骤S3的详细步骤为:
步骤S3.1、根据深度假设的数量,首先将源视图的特征图/>映射到参考图视图的视角下多个假设平面上,形成参考特征体/>以及源特征体/>;然后,对于源视图的特征图/>中的每个像素/>,计算在参考视图视角下的第/>个深度假设/>下的对应像素/>:
其中,表示内部参数矩阵,/>和/>分别表示参考视图和源视图之间的旋转矩阵和平移向量;
步骤S3.2、对于和每个源特征体/>,按如下方式计算相似性:
其中,表示内积;
随后,使用CNN从相似性中学习像素级视图权重/>,从而获取可见性信息;
最后,通过像素级视图权重将所有相似性聚合成一个代价体/>:像素级视图权重指的是参考特征体和每一个源特征体相似性/>的权重,与源特征体的数量相同,所以序号为[1,N-1];
步骤S3.3、在使用三维CNN对代价体进行正则化后,沿着深度维度进行softmax操作计算出概率体;
最终,从概率体中计算初始深度图和置信图。
进一步地,所述步骤S5中,构造混合损失策略,优化深度图的核心思想是,在初始化阶段通过监督像素级的概率分布来增强训练的鲁棒性,在迭代阶段通过直接监督亚像素级的深度图来实现更好的训练性能,从而提高深度图的质量;详细计算步骤如下:
S5.1、使用交叉熵损失来监督初始化阶段预测的概率体和one-hot模式的地面真值概率体之间的训练损失;
其中,和/>分别表示深度假设/>在像素q处的地面真值概率体和预测的概率体,/>表示一组有效的实际像素,D表示深度假设的数量;
S5.2、使用损失测量估计的深度与实际深度之间的绝对距离来监督深度感知迭代阶段的深度估计;
其中,和/>分别表示阶段数和每个阶段的迭代次数,/>表示/>损失;
S5.3、混合损失包括初始化损失和迭代损失/>;
其中,表示预测深度图的总数,/>。
进一步地,所述步骤S6使用全局的迭代最近邻点方法来融合所有深度图,以输出点云模型;
;
其中,表示点云模型中的三维点,/>表示点云模型中三维点的数量。
有益效果:本发明采用深度感知代价补全模块来更新代价体,然后使用二维ConvGRUs来高效地迭代优化深度图,同时提出一种混合损失策略,将两个损失函数的优势结合起来,以提高深度估计的稳健性,最后融合深度图即可获得高质量的点云模型。
与现有技术相比,本发明的优点如下:
(1)、本发明通过深度感知迭代器有效地将上下文引导的深度几何信息整合到代价体中,为计算场景精细目标的深度图奠定基础。
(2)、本发明采用深度感知代价补全模块来更新代价体和混合损失策略,以迭代方式优化深度图,计算出高质量的深度图,进而提高点云模型的质量。
(3)、本发明既能够解决现有多视图立体重建方法在处理大规模图像数据时所产生的内存空间溢出问题,又能够提高多视图立体重建的时间效率,为大规模图像数据在多视图三维重建领域的应用以及三维重建技术的发展奠定重要基础。
(4)、本发明能够为元宇宙、文化遗产的数字化保护、虚拟现实和增强现实、自动驾驶、地图导航和道路资产数字等领域提供高质量的点云模型。
附图说明
图1为本发明的整体流程示意图。
图2为实施例中的大规模图像数据的样本。
图3为实施例中的深度图的样本。
图4为实施例最终输出的点云模型。
图5为现有方法输出的点云模型。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
现有多视图方法在构建代价体时往往忽视了包含场景几何形状的深度图,这会导致次优的重建结果,特别是在缺乏几何信息的低纹理或重复纹理区域。为解决上述问题,本发明的基于深度感知迭代器的大规模多视图立体方法,通过深度感知迭代器有效地将上下文引导的深度几何信息整合到代价体中。
如图1所示,本发明的主要思路为:首先提取多尺度特征;然后,计算像素级视图权重、深度图和置信图;其次,构造深度感知迭代器;再次,构造混合损失策略,优化深度图;最后,融合深度图,即可获得点云模型。本发明充分利用了基于深度感知迭代器的由粗到细的深度图计算方法,有效地将上下文引导的深度几何信融合到代价体中计算出高质量的深度图,进而计算出精确的点云模型。
本实施例的基于深度迭代感知器的大规模多视图立体方法,包括以下步骤:
步骤S1、输入多视角图像数据和摄像机参数。
步骤S2、计算多视角图像的多尺度特征,给定幅多视角图像/>,包括一幅参考视图/>和/>幅源视图/>,尺寸为/>。
实施例用一个包含3个阶段()的特征金字塔网络(Feature PyramidNetwork,FPN)。
对于每个阶段,使用FPN提取/>幅多视角图像的特征图/>以及参考视图的上下文特征。
步骤S3、计算像素级视图权重、深度图和置信图,采用一个基于三维卷积神经网络正则化的多视图立体网络计算1/8分辨率下的像素级视图权重、深度图和置信图。具体步骤为:
步骤S3.1、根据深度假设的数量,首先将源视图的特征图映射到参考视图的视角下多个假设平面上,形成参考特征体/>以及源特征体/>;然后,对于源视图的特征图中的每个像素/>,计算在参考视图视角下的第/>个深度假设/>下的对应像素/>:
其中,表示内部参数矩阵,/>和/>分别表示参考视图和源视图之间的旋转矩阵和平移向量;
步骤S3.2、对于和每个/>,按如下方式计算相似性:
随后,使用CNN从相似性中学习像素级视图权重/>,从而获取可见性信息。最后,通过像素级视图权重将所有相似性聚合成一个代价体:
此处,像素级视图权重指的是参考特征体和每一个源特征体相似性的权重,与源特征体的数量相同,所以序号为[1,N-1];
步骤S3.3、在使用三维 CNN对代价体进行正则化后,沿着深度维度进行softmax操作计算出概率体;最后,从概率体中计算初始深度图和置信图。
步骤S4、构造深度感知迭代器,基于步骤S3中的初始深度图,首先执行可微分单应性变换,然后构建一个代价体。也就是先使用两个CNN从深度图中提取几何形状,然后通过上下文特征的引导进行细化,以确保深度几何的准确表示。随后,通过使用轻量级的Transformer模块将上下文引导的几何形状编码到代价体中,形成深度感知的代价体。
具体计算步骤如下:
步骤S4.1、在个阶段上采用级联的2D ConvGRUs来进行深度优化。具体地,首先从上下文特征中提取隐藏状态/>,然后将其与深度感知代价体(Depth-Aware CostVolume,DACV)结合并输入到ConvGRU中进行处理,从而得到更新后的隐藏状态/>;
其中,表示非线性激活函数,/>表示一个小型的2D CNN,/>和/>分别表示当前状态GRU单元的更新门和重置门,/>表示中间隐藏状态,/>分别表示与CNN相关的更新门,重置门和中间隐藏状态的参数,/>表示深度感知代价体,⊙表示哈达玛积;
步骤S4.2、对应用2D CNNs操作,以获得残差深度值/>,然后将其添加到当前深度/>以进行更新;
步骤S4.3、在第个阶段进行/>次迭代(此处/>,也就意味着每个阶段均迭代三次),在每个阶段的最后一次迭代之后,基于当前的隐藏状态/>对深度图进行上采样操作。
步骤S5、构造混合损失策略,优化深度图;在初始化阶段通过监督像素级的概率分布来增强训练的鲁棒性,在迭代阶段通过直接监督亚像素级的深度图来实现更好的训练性能,从而提高深度图的质量。
具体计算步骤如下:
步骤S5.1、使用交叉熵损失来监督初始化阶段预测的概率体和one-hot模式的地面真值概率体之间的训练损失;
其中,和/>分别表示深度假设/>在像素q处的地面真值概率体和预测的概率体,/>表示一组有效的实际像素,/>表示深度假设的数量;
步骤S5.2、使用损失测量估计的深度与实际深度之间的绝对距离来监督深度感知迭代阶段的深度估计;
其中,和/>分别表示阶段数和每个阶段的迭代次数,/>表示/>损失;
步骤S5.3、混合损失包括初始化损失和迭代损失/>;
其中,表示预测深度图的总数,/>。
步骤S6、使用全局的迭代最近邻点方法将多视角的深度图融合为点云模型,记为;/>表示点云模型中的三维点,/>表示点云模型中三维点的数量。
实施例1:
本实施例中输入的图像数据的样本如图2所示,图2中为四个不同视角的图像,本实施例输出的点云模型如图4所示,可以看出从图像数据中重建出的云模型与真实场景具有较高的几何一致性。
通过上述实施例可以看出,本发明首先提取多尺度特征;然后,计算像素级视图权重、置信图和初始深度图;其次,构造深度感知迭代器;再次,构造混合损失策略,优化深度图(如图3);最后,融合深度图,即可获得点云模型(如图4所示)。本发明充分利用了基于深度感知迭代器的由粗到细的深度图计算方法,有效地将上下文引导的深度几何信融合到代价体中计算出高质量的深度图,进而计算出精确的点云模型。
根据最终实验结果(图4);对于图2中同样的样本数据,若采用与现有方法《Efficient Multi-view Stereo by Iterative Dynamic Cost Volume》进行处理,其结果如图5所示,对比图4和图5的结果可知,本发明既提高了大规模多视图立体重建的时间效率,又避免了内存溢出问题。
Claims (5)
1.一种基于深度感知迭代器的大规模多视图立体方法,其特征在于,包括以下步骤:
步骤S1、输入多视角图像数据和摄像机参数;/>中的/>幅多视角图像包括一幅参考视图/>和/>幅源视图/>;
其中,为/>中多视角图像和/>中摄像机的序号,/>为/>中多视角图像和/>中摄像机的数量;/>,/>表示第/>个摄像机的内部参数矩阵,/>表示第0个摄像机和第/>个摄像机之间的旋转矩阵,/>表示第0个摄像机和第/>个摄像机之间的平移向量;
步骤S2、对于中的/>幅图像/>,使用一个包含3个阶段的特征金字塔网络FPN来计算多视角图像的多尺度特征,在每个阶段/>,均使用FPN提取/>幅多视角图像的特征图,以及参考视图的上下文特征/>,其中k=0,1,2;
步骤S3、使用基于三维CNN正则化的多视图立体网络,来计算图像1/8分辨率下的像素级视图权重,然后通过像素级视图权重计算得到初始的深度图和置信图;
步骤S4、基于步骤S3中的初始深度图,执行可微分单应性变换并构建一个深度感知的代价体,得到深度感知迭代器,具体方法为:
步骤S4.1、在个阶段上采用级联的2D ConvGRUs来进行深度优化:
首先从上下文特征中提取当前隐藏状态,然后将其与深度感知代价体DACV结合并输入到ConvGRU中进行处理,从而得到更新后的隐藏状态/>;
其中,表示非线性激活函数,/>表示一个小型的2D CNN,/>和/>分别表示当前状态GRU单元的更新门和重置门,/>表示中间隐藏状态,/>分别表示与CNN相关的更新门,重置门和中间隐藏状态的参数,/>表示深度感知代价体,⊙表示哈达玛积;
步骤S4.2、对应用2D CNNs操作以获得残差深度值/>,然后将其添加到当前深度/>以进行更新;
;
步骤S4.3、在第个阶段进行/>次迭代,在每个阶段的最后一次迭代之后,基于当前的隐藏状态/>对深度图进行上采样操作,/>=3;
步骤S5、构造混合损失策略,优化深度图;
步骤S6、融合所有视角图像的深度图,以输出点云模型。
2.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法,其特征在于,在步骤S2中,N幅多视角图像的特征图和参考视图的上下文特征/>的分辨率均为,/>表示多视角图像的宽度,/>表示多视角图像的高度。
3.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法,其特征在于,所述步骤S3的详细步骤为:
步骤S3.1、根据深度假设的数量,首先将源视图的特征图/>映射到参考图视图的视角下多个假设平面上,形成参考特征体/>以及源特征体/>;然后,对于源视图的特征图/>中的每个像素/>,计算在参考视图视角下的第/>个深度假设/>下的对应像素/>:
其中,表示内部参数矩阵,/>和/>分别表示参考视图和源视图之间的旋转矩阵和平移向量;
步骤S3.2、对于和每个源特征体/>,按如下方式计算相似性:
其中,表示内积;
随后,使用CNN从相似性中学习像素级视图权重/>,从而获取可见性信息;
最后,通过像素级视图权重将所有相似性聚合成一个代价体/>:
步骤S3.3、在使用三维CNN对代价体进行正则化后,沿着深度维度进行softmax操作计算出概率体;
最终,从概率体中计算初始深度图和置信图。
4.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法,其特征在于,所述步骤S5构造混合损失策略,优化深度图的详细步骤如下:
步骤S5.1、使用交叉熵损失来监督初始化阶段预测的概率体和one-hot模式的地面真值概率体之间的训练损失;
其中,和/> 分别表示深度假设/>在像素q处的地面真值概率体和预测的概率体,/>表示一组有效的实际像素,/>表示深度假设的数量;
步骤S5.2、使用损失测量估计的深度与实际深度之间的绝对距离来监督深度感知迭代阶段的深度估计;
其中,和/>分别表示阶段数和每个阶段的迭代次数,/>表示/>损失;
步骤S5.3、混合损失包括初始化损失和迭代损失/>;
其中,表示预测深度图的总数,/>。
5.根据权利要求1所述的基于深度感知迭代器的大规模多视图立体方法,其特征在于:所述步骤S6使用全局的迭代最近邻点方法来融合所有深度图,以输出点云模型;
;
其中,表示点云模型中的三维点,/>表示点云模型中三维点的数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311754136.7A CN117437363B (zh) | 2023-12-20 | 2023-12-20 | 基于深度感知迭代器的大规模多视图立体方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311754136.7A CN117437363B (zh) | 2023-12-20 | 2023-12-20 | 基于深度感知迭代器的大规模多视图立体方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117437363A true CN117437363A (zh) | 2024-01-23 |
CN117437363B CN117437363B (zh) | 2024-03-22 |
Family
ID=89553825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311754136.7A Active CN117437363B (zh) | 2023-12-20 | 2023-12-20 | 基于深度感知迭代器的大规模多视图立体方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117437363B (zh) |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0329312D0 (en) * | 2003-12-18 | 2004-01-21 | Univ Durham | Mapping perceived depth to regions of interest in stereoscopic images |
US20080127211A1 (en) * | 2006-11-27 | 2008-05-29 | James Belsey | Merging realtime data flows |
WO2019174377A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
CN112488104A (zh) * | 2020-11-30 | 2021-03-12 | 华为技术有限公司 | 深度及置信度估计系统 |
CN114119889A (zh) * | 2021-11-12 | 2022-03-01 | 杭州师范大学 | 基于跨模态融合的360度环境深度补全和地图重建方法 |
WO2022166412A1 (zh) * | 2021-02-05 | 2022-08-11 | 中国科学院深圳先进技术研究院 | 基于协同分割与数据增强的自监督三维重建方法及系统 |
WO2022193976A1 (zh) * | 2021-03-16 | 2022-09-22 | 华为技术有限公司 | 一种图像深度预测方法及电子设备 |
CN115239870A (zh) * | 2021-12-31 | 2022-10-25 | 国网浙江省电力有限公司金华供电公司 | 基于注意力代价体金字塔的多视图立体网络三维重建方法 |
CN115546442A (zh) * | 2022-11-08 | 2022-12-30 | 长春理工大学 | 基于感知一致损失的多视图立体匹配重建方法及系统 |
CN115719407A (zh) * | 2023-01-05 | 2023-02-28 | 安徽大学 | 一种面向大规模航拍图像的分布式多视图立体重建方法 |
WO2023070421A1 (en) * | 2021-10-28 | 2023-05-04 | Intel Corporation | Methods and apparatus to perform mask-based depth enhancement for multi-view systems |
CN116071504A (zh) * | 2023-03-06 | 2023-05-05 | 安徽大学 | 一种面向高分辨率图像的多视图立体重建方法 |
CN116091712A (zh) * | 2023-04-12 | 2023-05-09 | 安徽大学 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
CN116310131A (zh) * | 2023-03-28 | 2023-06-23 | 西南科技大学 | 一种考虑多视图融合策略的三维重建方法 |
CN116310098A (zh) * | 2023-03-01 | 2023-06-23 | 电子科技大学 | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 |
WO2023137869A1 (en) * | 2022-01-21 | 2023-07-27 | Southern University Of Science And Technology | Multiview 3d image encoding method, apparatus, system and storage medium |
CN116664531A (zh) * | 2023-06-02 | 2023-08-29 | 西北工业大学深圳研究院 | 一种基于深度学习的大变形测量方法及系统 |
CN116721216A (zh) * | 2023-06-19 | 2023-09-08 | 沈阳理工大学 | 基于GCF-MVSNet网络的多视图三维重建方法 |
CN116778091A (zh) * | 2023-06-30 | 2023-09-19 | 桂林电子科技大学 | 基于路径聚合的深度学习多视角立体三维重建算法 |
-
2023
- 2023-12-20 CN CN202311754136.7A patent/CN117437363B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0329312D0 (en) * | 2003-12-18 | 2004-01-21 | Univ Durham | Mapping perceived depth to regions of interest in stereoscopic images |
US20080127211A1 (en) * | 2006-11-27 | 2008-05-29 | James Belsey | Merging realtime data flows |
WO2019174377A1 (zh) * | 2018-03-14 | 2019-09-19 | 大连理工大学 | 一种基于单目相机的三维场景稠密重建方法 |
CN112488104A (zh) * | 2020-11-30 | 2021-03-12 | 华为技术有限公司 | 深度及置信度估计系统 |
WO2022166412A1 (zh) * | 2021-02-05 | 2022-08-11 | 中国科学院深圳先进技术研究院 | 基于协同分割与数据增强的自监督三维重建方法及系统 |
WO2022193976A1 (zh) * | 2021-03-16 | 2022-09-22 | 华为技术有限公司 | 一种图像深度预测方法及电子设备 |
WO2023070421A1 (en) * | 2021-10-28 | 2023-05-04 | Intel Corporation | Methods and apparatus to perform mask-based depth enhancement for multi-view systems |
CN114119889A (zh) * | 2021-11-12 | 2022-03-01 | 杭州师范大学 | 基于跨模态融合的360度环境深度补全和地图重建方法 |
CN115239870A (zh) * | 2021-12-31 | 2022-10-25 | 国网浙江省电力有限公司金华供电公司 | 基于注意力代价体金字塔的多视图立体网络三维重建方法 |
WO2023137869A1 (en) * | 2022-01-21 | 2023-07-27 | Southern University Of Science And Technology | Multiview 3d image encoding method, apparatus, system and storage medium |
CN115546442A (zh) * | 2022-11-08 | 2022-12-30 | 长春理工大学 | 基于感知一致损失的多视图立体匹配重建方法及系统 |
CN115719407A (zh) * | 2023-01-05 | 2023-02-28 | 安徽大学 | 一种面向大规模航拍图像的分布式多视图立体重建方法 |
CN116310098A (zh) * | 2023-03-01 | 2023-06-23 | 电子科技大学 | 一种基于注意力机制与可变卷积深度网络的多视图三维重建方法 |
CN116071504A (zh) * | 2023-03-06 | 2023-05-05 | 安徽大学 | 一种面向高分辨率图像的多视图立体重建方法 |
CN116310131A (zh) * | 2023-03-28 | 2023-06-23 | 西南科技大学 | 一种考虑多视图融合策略的三维重建方法 |
CN116091712A (zh) * | 2023-04-12 | 2023-05-09 | 安徽大学 | 一种面向计算资源受限设备的多视图立体重建方法与系统 |
CN116664531A (zh) * | 2023-06-02 | 2023-08-29 | 西北工业大学深圳研究院 | 一种基于深度学习的大变形测量方法及系统 |
CN116721216A (zh) * | 2023-06-19 | 2023-09-08 | 沈阳理工大学 | 基于GCF-MVSNet网络的多视图三维重建方法 |
CN116778091A (zh) * | 2023-06-30 | 2023-09-19 | 桂林电子科技大学 | 基于路径聚合的深度学习多视角立体三维重建算法 |
Non-Patent Citations (5)
Title |
---|
MINGWEI CAO等: "Accurate 3-D Reconstruction Under IoT Environments and Its Applications to Augmented Reality", JOURNAL & MAGAZINES, 31 December 2020 (2020-12-31) * |
YAO YAO等: "Recurrent MVSNet for High-Resolution Multi-View Stereo Depth Inference", CVPR 2019, 31 December 2019 (2019-12-31) * |
曹明伟: "数据驱动的多视图三维重建", 中国优秀硕士论文库 信息科技辑, 15 January 2018 (2018-01-15) * |
苗兰芳;: "一个基于多视图立体视觉的三维重建方法", 浙江师范大学学报(自然科学版), no. 03, 15 August 2013 (2013-08-15) * |
赵海峰;费婷婷;王文中;汤振宇;: "结合个性化建模和深度数据的三维人体姿态估计", 计算机系统应用, no. 11, 15 November 2016 (2016-11-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117437363B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Fcfr-net: Feature fusion based coarse-to-fine residual learning for depth completion | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN111862126B (zh) | 深度学习与几何算法结合的非合作目标相对位姿估计方法 | |
Wang et al. | 360sd-net: 360 stereo depth estimation with learnable cost volume | |
CN111160214B (zh) | 一种基于数据融合的3d目标检测方法 | |
CN109146001B (zh) | 多视角isar图像融合方法 | |
CN115719407B (zh) | 一种面向大规模航拍图像的分布式多视图立体重建方法 | |
Chen et al. | Depth completion using geometry-aware embedding | |
CN112991537B (zh) | 城市场景重建方法、装置、计算机设备和存储介质 | |
CN114677479A (zh) | 一种基于深度学习的自然景观多视图三维重建方法 | |
CN113963117A (zh) | 一种基于可变卷积深度网络的多视图三维重建方法及装置 | |
CN113762267A (zh) | 一种基于语义关联的多尺度双目立体匹配方法及装置 | |
Zhou et al. | PADENet: An efficient and robust panoramic monocular depth estimation network for outdoor scenes | |
CN113378756B (zh) | 一种三维人体语义分割方法、终端设备及存储介质 | |
CN116071504B (zh) | 一种面向高分辨率图像的多视图立体重建方法 | |
CN113886510A (zh) | 一种终端交互方法、装置、设备及存储介质 | |
CN116091712B (zh) | 一种面向计算资源受限设备的多视图立体重建方法与系统 | |
Hou et al. | Joint learning of image deblurring and depth estimation through adversarial multi-task network | |
CN117437363B (zh) | 基于深度感知迭代器的大规模多视图立体方法 | |
CN116912405A (zh) | 一种基于改进MVSNet的三维重建方法及系统 | |
Tang et al. | Encoder-decoder structure with the feature pyramid for depth estimation from a single image | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN115862012A (zh) | 点云数据语义分割方法、装置、电子设备及存储介质 | |
CN115527082A (zh) | 一种基于图像多重预处理的深度学习小目标检测方法 | |
Wang et al. | SPNet: Learning stereo matching with slanted plane aggregation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |