CN115631223A - 基于自适应学习和聚合的多视图立体重建方法 - Google Patents

基于自适应学习和聚合的多视图立体重建方法 Download PDF

Info

Publication number
CN115631223A
CN115631223A CN202211183328.2A CN202211183328A CN115631223A CN 115631223 A CN115631223 A CN 115631223A CN 202211183328 A CN202211183328 A CN 202211183328A CN 115631223 A CN115631223 A CN 115631223A
Authority
CN
China
Prior art keywords
matching cost
feature
matching
view
aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211183328.2A
Other languages
English (en)
Inventor
陈祥
董继扬
张晓燕
石浩
罗攀
韩超
廖加铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202211183328.2A priority Critical patent/CN115631223A/zh
Publication of CN115631223A publication Critical patent/CN115631223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/08Volume rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及一种基于自适应学习和聚合的多视图立体重建方法,它包括以下步骤:S1.特征提取,从输入图像中提取图像特征,将众多信息中不重要的信息剔除;S2.匹配代价构建,在每个采样深度假设下,计算参考摄像机中的每个像素与其相邻摄像机对应匹配像素之间的匹配成本;S3.匹配代价正则化,对匹配代价中的代价体进行去噪处理;S4.深度图估计,将匹配代价正则化后的结果利用函数回归加权得到初始深度图;S5.深度图优化,将初始深度图的边缘部分减轻过平滑的影响。本发明的目的在于提供一种基于自适应学习和聚合的多视图立体重建方法,相比MVSNet有着更高的重建精度和完整度,并且极大降低时间消耗和显卡内存消耗。

Description

基于自适应学习和聚合的多视图立体重建方法
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于自适应学习和聚合的多视图立体重建方法。
背景技术
多视图立体(MVS,multi-view stereo)是计算机视觉的一个重要分支,主要内容是在已知一系列图像以及相应的相机姿态和固有参数(相机的内外参数)的前提下,重建观察到的场景或对象的高精度3D几何模型。
MVS的重建方法主要包括基于体素的方法、基于点云的方法和基于深度图的方法。基于体素的方法将3D空间划分为规则网格,并估计每个体素是否附在表面上。缺点主要是空间离散度误差以及巨大的内存消耗;基于点云的方法直接在点云上运行,通常以靠传播策略逐渐使重建变得更加密集。由于点云的传播都是逐步进行的,不能并行,导致重建需要花费很长时间;基于深度图的方法是利用估计的深度图作为中间层,将复杂的MVS问题分解成较小的每个视图深度估计问题,并且每次只关注一幅参考图像和几幅源图像,然后对每个深度图进行回归融合以形成最终的3D点云模型。
现如今基于深度图的MVS重建方法很多,性能良好的技术主要都是基于深度神经网络,它们的区别仅在于网络的结构和其他的细枝末节,目前比较流行的基于深度学习的MVS网络有DeepMVS、MVSNet、R-MVSNet、CVP-MVSNet、M3VSNet等等,它们都有各自的优缺点,比如DeepMVS网络是第一个开源的基于深度学习的MVS重建系统,其优点是将图像序列化分为面片,使得能够更好处理纹理性弱的区域和薄结构,缺点是基于面片的方法使得网络在训练时丢失图像的全局信息,无法处理细节丰富的场景。
MVSNet是2018年由香港科技大学YaoYao教授提出的一种MVS重建网络,该算法虽然重建速度快,泛化能力强,不需要微调也能重建出较好的结果,但是没有考虑到输入图像之间的像素可见性和显存的高消耗,使得重建的场景是不完整的,并且对显存的需求很大。
发明内容
本发明的目的在于提供一种基于自适应学习和聚合的多视图立体重建方法,相比MVSNet有着更高的重建精度和完整度,并且极大降低时间消耗和显卡内存消耗。
本发明的目的通过如下技术方案实现:一种基于自适应学习和聚合的多视图立体重建方法,它包括以下步骤:
S1.特征提取,从输入图像中提取图像特征,将众多信息中不重要的信息剔除,只保留场景关键信息;
S2.匹配代价构建,在每个采样深度假设下,计算参考摄像机中的每个像素与其相邻摄像机对应匹配像素之间的匹配成本;
S3.匹配代价正则化,对匹配代价中的代价体进行去噪处理;
S4.深度图估计,将匹配代价正则化后的结果利用函数回归加权得到初始深度图;
S5.深度图优化,将初始深度图的边缘部分减轻过平滑的影响;
步骤S1中构建多尺度特征聚合提取器,多尺度特征聚合提取器包含三个卷积单元,每个卷积单元由三层卷积层组成,除最后一个卷积层外,前面两个卷积层后面均紧跟着一个批量归一化层和一个ReLU激活函数层;
每幅输入图像均会生成三个大小分别为H/4xW/4、H/2xW/2和HxW的特征图,之后将三个尺度的特征图分别输入可变形卷积层处理;当输出H/4xW/4大小的特征图时,将其他两个尺度的特征图分别下采样至H/4xW/4;接着将三个尺度的特征图沿着特征维度进行拼接,得到多尺度聚合后的特征图,其分辨率为H/4xW/4x64;
其他分辨率以此类推,最终输出特征图分别为H/4xW/4x64、H/2xW/2x64和HxWx64。
较之现有技术而言,本发明的优点在于:
本发明使用了新颖的级联结构,从粗略全局估计逐渐恢复为较精细估计,更改了原算法中特征提取模块、匹配代价构建模块和匹配代价正则化模块,解决了MVSNet中像素可见性和显存高消耗的问题。
1.网络使用了级联结构,先估计小分辨率深度图,将得到的小分辨率深度图作为先验信息去预测更大分辨率的深度图。
2.特征提取模块加入可变形卷积,目的是让模块可以自适应的聚合不同尺度特征信息,使得特征结果包含更多特征信息。
3.在匹配代价模块中增加了像素可见性预测,通过计算相邻视角中像素的遮挡图,保留可见像素,同时过滤掉遮挡像素。并且不再使用基于方差的方法构建代价体,而是通过计算源图像和参考图像的内积。
4.匹配代价正则化模块将3D卷积神经网络变换成基于Transfomer的VT-UNet网络(基于体素的U型自注意变换网络),大大减少了模型参数量,降低显存的消耗量。
附图说明
图1是MVSNet网络中特征提取模块的可视结构图。
图2是MVSNet网络中正则化模块的可视化结果图。
图3是本发明基于自适应学习和聚合的多视图立体重建方法的特征提取模块示意图。
图4是本发明中匹配代价构建的示意图。
图5是本发明中匹配代价正则化模块的示意图。
图6是本发明网络整体的结构图。
图7是图片处理实际效果对比图(左边是MVSNet重建结果,右边是本发明网络重建结果)。
具体实施方式
下面结合说明书附图和实施例对本发明内容进行详细说明:
如图3-7所示为本发明提供的一种基于自适应学习和聚合的多视图立体重建方法的实施例示意图。
一种基于自适应学习和聚合的多视图立体重建方法,它包括以下步骤:
步骤S1.特征提取,从输入图像中提取图像特征,将众多信息中不重要的信息剔除,只保留场景关键信息;
步骤S1中构建多尺度特征聚合提取器,多尺度特征聚合提取器包含三个卷积单元,每个卷积单元由三层卷积层组成,除最后一个卷积层外,前面两个卷积层后面均紧跟着一个批量归一化层和一个ReLU激活函数层;
每幅输入图像均会生成三个大小分别为H/4xW/4、H/2xW/2和HxW的特征图,之后将三个尺度的特征图分别输入可变形卷积层处理。当输出H/4xW/4大小的特征图时,将其他两个尺度的特征图分别下采样至H/4xW/4;接着将三个尺度的特征图沿着特征维度进行拼接,得到多尺度聚合后的特征图,其分辨率为H/4xW/4x64;
其他分辨率以此类推,最终输出特征图分别为H/4xW/4x64、H/2xW/2x64和HxWx64,参见图3。
而MVSNet网络中的特征提取模块由八层卷积层组成,具体组成如表1所示,其特征提取模块可视结构图参见图1。
表1
Figure BDA0003866171530000041
Figure BDA0003866171530000051
步骤S2.匹配代价构建,在每个采样深度假设下,计算参考摄像机中的每个像素与其相邻摄像机对应匹配像素之间的匹配成本;
步骤S2中将特征图和相应相机的内外参数结合起来,使用单应性变换构建三维空间的匹配代价;
给定一张参考图像I1和一系列源图像集合S,S定义为:
Figure BDA0003866171530000052
其中N表示输入图像的数量,H和W分别是图像的高度和宽度。
以参考图像I1为基准,使用单应性变换将第i个视角对应的特征图Fi变换为与参考图像I1对应的特征图F1平行的平面,单应性变换公式如下:
Figure BDA0003866171530000053
其中,I1为参考图像,
Figure BDA0003866171530000054
为与I1进行多视角立体匹配的匹配视图,
Figure BDA0003866171530000055
为各个视图对应的相机内参数、旋转矩阵和平移向量,d为深度范围内的均匀采样值,n1为参考图像对应相机的主轴线,上标T为矩阵里面的转置,I为单位矩阵。
对于参考图像I1对应的特征图F1,它的单应变换矩阵是一个3x3的恒等矩阵,这保证了单应变换对所有视图具有普适性。
接着利用单应矩阵建立源图像和参考图像的特征映射之间的对应关系,公式如下:
Figure BDA0003866171530000056
其中,
Figure BDA0003866171530000057
表示源图像特征图映射至参考图像视角后的特征图;
再计算
Figure BDA0003866171530000058
与F1相似性,以此来衡量两个视角的匹配程度,定义为以下等式:
Figure BDA0003866171530000061
其中,<·,·>表示内积,Si(d)的维度为WxHxDxC;
得到逐视角代价体后通过一个三层的三维卷积网络,最后一层输出通道维度为1,再通过sigmoid函数,将代价体转换成各个像素可见性概率图;这一操作是为了计算不同视角下像素的可见性,当源图像的视角与参考图像的的视角越近,源图像与参考图像所包含的相同信息越多,那么可以认定这个源图像与参考图像构建的匹配代价体相较于其他匹配代价体更加重要。
最终将每个匹配代价体乘以一个权重值后求和得出最终聚合的匹配代价体,聚合匹配代价定义为:
Figure BDA0003866171530000062
其中wi表示源视图和参考视图之间的像素可见度,参见图4。
而MVSNet网络中使用单应性变换将第i个视角对应的特征图Fi映射至与参考视图I1对应的特征图F1平行的平面,为了能够自适应的输入任意数量的匹配视图,在根据特征体映射计算匹配代价时,通过使用基于方差的映射关系来实现任意输入视图数量的匹配代价构建,其计算公式如下:
Figure BDA0003866171530000063
其中N是输入视图的数量,
Figure BDA0003866171530000064
是所有特征体的均值。
S3.匹配代价正则化,对匹配代价中的代价体进行去噪处理;
由于在真实场景中,物体表面并不是理想的朗伯体,并且不同物体间还存在遮挡,将导致匹配代价不准确。因此,在得到匹配代价后,还需进行正则化处理。
在MVSNet网络中匹配代价正则化模块由三维卷积神经网络构成,其结构是三维卷积层组成的U-Net网络,具体组成如下表2所示。图2为MVSNet网络正则化模块可视结果图。
表2
Figure BDA0003866171530000065
Figure BDA0003866171530000071
本发明中步骤S3中采用基于体素的U型自注意变换网络去对匹配代价进行正则化。该模块抛弃了原来3D卷积神经网络,改用Transformer(自注意力变换)搭建U字型网络去对匹配代价进行正则化,在提升匹配代价准确性的基础上,大大减少了显存的需求。
我们引进了VT-UNet(Volumetric TransformerUNetwork,基于体素的U型自注意变换网络),该模块是基于Transformer搭建而成,可以直接处理3D匹配代价体。VT-UNet的模型架构如图5。整体分割流程参考了UNet(U型卷积神经网络),不同的是VT-UNet设计了全新的Encoder(编码器)和Decoder(解码器)。VT-Encoder(体素自注意力变换编码器)能够有效学习局部和全局信息,VT-Encoder使用两层和VT-Decoder(体素自注意力变换解码器)相似的(翻转)平行结构,融合来自编码器的高分辨率信息和来自解码器的低分辨率信息,恢复下采样过程中丢失的特征,提高分割精准度。另外还使用了独特的跳跃连接机制,让低分辨率和高分辨率特征融合更加高效,同时还保持了较低的参数量和计算量。
S4.深度图估计,将匹配代价正则化后的结果利用函数回归加权得到初始深度图;
将匹配代价正则化结果沿深度维度经过softmax处理,可以得到深度估计在不同深度采样值处的概率分布,称为概率体P。对于概率体P上的任意一点(x,y,d),其对应的值代表这一深度估计值的置信度。当概率体已知时,最简单的方法是按照“赢者通吃”的方法直接估计深度图。但此方法无法估计亚像素级别的深度值,而且在网络中无法通过误差反向传播获取最优结果。因此,采用softargmin函数对概率体进行处理。其原理是计算每个深度下的加权平均值,具体公式如下:
Figure BDA0003866171530000081
其中,dmin和dmax分别表示最小深度和最大深度,d为深度范围内均匀采样数量,P(d)为深度采样值d处对应的概率估计值。
S5.深度图优化,将初始深度图的边缘部分减轻过平滑的影响;
在进行逐像素地深度估计后,便可得到初始预测地深度图,然而由于深度学习网络具有较大地感受野区域,受其影响,初始深度图D的边界可能会过于平滑。该模块使用输入图像作为引导,利用深度残差网络对初始估计的深度图进行微调,从而改善边界处的深度估计结果。模块具体为先将初始估计的深度图D和参考视图连接成一个4通道的输入,然后将其送入含有3个32通道卷积和1个1通道卷积层的深度残差网络进行学习。
深度图优化后还可以通过损失函数模块进行训练,该模块将L1函数作为损失函数,在网络训练时,通过损失函数来衡量当前的输出结果和期望结果的差异,并进行反向传播对学习网络模型的参数。损失函数公式如下:
Figure BDA0003866171530000082
其中,p为有用的像素点集合,d(p)时像素点p对应的真实深度值,
Figure BDA0003866171530000083
为其对应的初始深度图的深度值,
Figure BDA0003866171530000084
为其对应优化后深度图的深度值,μ1和μ2为权重系数,衡量初始深度图和优化后深度图对网络学习的影响程度。
本发明的算法流程直观描述如下:
本发明网络目的是借助摄像机参数来推断参考图像的深度图,图6给出了该网络的具体结构图。本发明网络利用级联结构(由粗略估计到精细优化)分阶段生成深度图,并且上一层级生成的深度图作为下一层级估计的先验假设。在每个层级中,基于所有参考-源图像对构造多个逐视角代价体,然后计算得到每个图像对之间的像素可见性,将此结果与之相对于的代价体加权求和得到聚合后的匹配代价。
将匹配代价输入正则化模块后,得到的正则化结果经过soft-argmin函数处理可以得到每个像素在不同深度采样值处的概率分布,称为概率体P。对于概率体P上的任意一点(x,y,d),其对应的值代表该像素在某一深度的置信度,最后通过将概率体P和深度范围内的所有采样值加权回归得到最终的深度估计图。在得到各个角度的深度图后,经过光度一致性和几何一致性过滤外点处理后,将所有角度的深度图进行融合,再转换成点云,即得到了场景的三维重建结果。注意,除了第一阶段的深度范围是预定义的外,其余阶段的深度范围都是从上一阶段生成的深度图中获得。

Claims (3)

1.一种基于自适应学习和聚合的多视图立体重建方法,它包括以下步骤:
S1.特征提取,从输入图像中提取图像特征,将众多信息中不重要的信息剔除,只保留场景关键信息;
S2.匹配代价构建,在每个采样深度假设下,计算参考摄像机中的每个像素与其相邻摄像机对应匹配像素之间的匹配成本;
S3.匹配代价正则化,对匹配代价中的代价体进行去噪处理;
S4.深度图估计,将匹配代价正则化后的结果利用函数回归加权得到初始深度图;
S5.深度图优化,将初始深度图的边缘部分减轻过平滑的影响;
其特征在于,步骤S1中构建多尺度特征聚合提取器,多尺度特征聚合提取器包含三个卷积单元,每个卷积单元由三层卷积层组成,除最后一个卷积层外,前面两个卷积层后面均紧跟着一个批量归一化层和一个ReLU激活函数层;
每幅输入图像均会生成三个大小分别为H/4xW/4、H/2xW/2和HxW的特征图,之后将三个尺度的特征图分别输入可变形卷积层处理;当输出H/4xW/4大小的特征图时,将其他两个尺度的特征图分别下采样至H/4xW/4;接着将三个尺度的特征图沿着特征维度进行拼接,得到多尺度聚合后的特征图,其分辨率为H/4xW/4x64;
其他分辨率以此类推,最终输出特征图分别为H/4xW/4x64、H/2xW/2x64和HxWx64。
2.根据权利要求1所述的基于自适应学习和聚合的多视图立体重建方法,其特征在于:
步骤S2中将特征图和相应相机的内外参数结合起来,使用单应性变换构建三维空间的匹配代价;
给定一张参考图像I1和一系列源图像集合S,S定义为:
Figure FDA0003866171520000011
其中N表示输入图像的数量,H和W分别是图像的高度和宽度;
以参考图像I1为基准,使用单应性变换将第i个视角对应的特征图Fi变换为与参考图像I1对应的特征图F1平行的平面,单应性变换公式如下:
Figure FDA0003866171520000021
其中,I1为参考图像,
Figure FDA0003866171520000022
为与I1进行多视角立体匹配的匹配视图,
Figure FDA0003866171520000023
为各个视图对应的相机内参数、旋转矩阵和平移向量,d为深度范围内的均匀采样值,n1为参考图像对应相机的主轴线,上标T为矩阵里面的转置,I为单位矩阵;
接着利用单应矩阵建立源图像和参考图像的特征映射之间的对应关系,公式如下:
Figure FDA0003866171520000024
其中,
Figure FDA0003866171520000025
表示源图像特征图映射至参考图像视角后的特征图;
再计算
Figure FDA0003866171520000026
与F1相似性,以此来衡量两个视角的匹配程度,定义为以下等式:
Figure FDA0003866171520000027
其中,<·,·>表示内积,Si(d)的维度为WxHxDxC;
得到逐视角代价体后通过一个三层的三维卷积网络,最后一层输出通道维度为1,再通过sigmoid函数,将代价体转换成各个像素可见性概率图;
最终将每个匹配代价体乘以一个权重值后求和得出最终聚合的匹配代价体,聚合匹配代价定义为:
Figure FDA0003866171520000028
其中wi表示源视图和参考视图之间的像素可见度。
3.根据权利要求1所述的基于自适应学习和聚合的多视图立体重建方法,其特征在于:步骤S3中采用基于体素的U型自注意变换网络去对匹配代价进行正则化。
CN202211183328.2A 2022-09-27 2022-09-27 基于自适应学习和聚合的多视图立体重建方法 Pending CN115631223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211183328.2A CN115631223A (zh) 2022-09-27 2022-09-27 基于自适应学习和聚合的多视图立体重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211183328.2A CN115631223A (zh) 2022-09-27 2022-09-27 基于自适应学习和聚合的多视图立体重建方法

Publications (1)

Publication Number Publication Date
CN115631223A true CN115631223A (zh) 2023-01-20

Family

ID=84903963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211183328.2A Pending CN115631223A (zh) 2022-09-27 2022-09-27 基于自适应学习和聚合的多视图立体重建方法

Country Status (1)

Country Link
CN (1) CN115631223A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071504A (zh) * 2023-03-06 2023-05-05 安徽大学 一种面向高分辨率图像的多视图立体重建方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116071504A (zh) * 2023-03-06 2023-05-05 安徽大学 一种面向高分辨率图像的多视图立体重建方法

Similar Documents

Publication Publication Date Title
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及系统
CN113592026B (zh) 一种基于空洞卷积和级联代价卷的双目视觉立体匹配方法
CN111508013B (zh) 立体匹配方法
CN111899295B (zh) 一种基于深度学习的单目场景深度预测方法
Ttofis et al. High-quality real-time hardware stereo matching based on guided image filtering
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN115239871A (zh) 一种多视图立体网络三维重构方法
CN115546505A (zh) 一种基于深度学习的无监督单目图像深度估计方法
CN114677479A (zh) 一种基于深度学习的自然景观多视图三维重建方法
CN114170311A (zh) 一种双目立体匹配方法
CN115830406A (zh) 一种基于多视差尺度的快速光场深度估计方法
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN114640885B (zh) 视频插帧方法、训练方法、装置和电子设备
CN115511708A (zh) 基于不确定性感知特征传输的深度图超分辨率方法及系统
CN109816781B (zh) 一种基于图像细节和结构增强的多视图立体几何方法
CN115587987A (zh) 一种蓄电池缺陷检测方法、装置、存储介质及电子设备
CN113610912B (zh) 三维场景重建中低分辨率图像单目深度估计系统及方法
CN115631223A (zh) 基于自适应学习和聚合的多视图立体重建方法
CN111369435B (zh) 基于自适应稳定模型的彩色图像深度上采样方法及系统
CN113947538A (zh) 一种多尺度高效卷积自注意力单幅图像除雨方法
CN116721216A (zh) 基于GCF-MVSNet网络的多视图三维重建方法
CN116703996A (zh) 基于实例级自适应深度估计的单目三维目标检测算法
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination