CN114820755A - 一种深度图估计方法及系统 - Google Patents
一种深度图估计方法及系统 Download PDFInfo
- Publication number
- CN114820755A CN114820755A CN202210725671.9A CN202210725671A CN114820755A CN 114820755 A CN114820755 A CN 114820755A CN 202210725671 A CN202210725671 A CN 202210725671A CN 114820755 A CN114820755 A CN 114820755A
- Authority
- CN
- China
- Prior art keywords
- depth
- uncertainty
- map
- scale
- sampling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005070 sampling Methods 0.000 claims abstract description 73
- 230000006870 function Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000008447 perception Effects 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 12
- 238000005259 measurement Methods 0.000 claims abstract description 11
- 238000007477 logistic regression Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims abstract description 5
- 230000001131 transforming effect Effects 0.000 claims abstract description 4
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 4
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000009191 jumping Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000182988 Assa Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种深度图估计方法及系统,该方法包括:对图像进行多尺度深度特征提取;在场景深度范围内均匀采样,得到不同尺度下的深度假设;在各尺度的深度假设下,通过可微单应变换,将邻域视图的深度特征变换至参考视图,并通过组相关度量构建代价体;基于三维卷积神经网络对代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,并分别估算对应的深度图和不确定性图;将不确定性图和深度图均进行上采样、归一化,得到下一尺度的采样区间和深度假设;对不同尺度的深度假设进行采样,通过不确定感知损失函数对每个尺度下的深度图和不确定性图进行训练监督。通过该方案可以有效提高图像深度估计的准确性和可靠性。
Description
技术领域
本发明属于计算机视觉领域,尤其涉及一种深度图估计方法及系统。
背景技术
多视图深度估计旨在从多个相机姿态已知的图像中建立密集对应关系,从而恢复参考视角下的稠密几何结构。近年来,深度学习技术极大地推动了多视图深度估计的发展。由于基于深度学习的多视图深度估计方法需要利用三维卷积神经网络对三维代价体进行正则化,这使得随着输入图像分辨率地增加,网络的显存消耗和计算时间呈立方体增长。
为了能够估计高分辨率深度图和提升运算速率,“由粗到细”策略广泛应用于基于深度学习的多视图深度估计中。这类方法通常首先在整个场景的深度范围内进行深度采样,并在最低分辨率下构造代价体,估计出低分辨率的粗糙深度图,之后在粗糙深度图的基础上,不断对其进行上采样细化,最终估计出高分辨率的深度图。然而,尽管基于“由粗到细”策略的多视图深度估计方法能够高效率地估计出高分辨率深度图,但由于在深度图细化阶段,现有技术没有给出合理的深度假设采样方法,也无法对深度图的可靠性进行衡量,导致实际深度图估计的准确性、可靠性存疑。
发明内容
有鉴于此,本发明实施例提供了一种深度图估计方法及系统,用于解决现有深度图估计的准确性、可靠性存疑的问题。
在本发明实施例的第一方面,提供了一种深度图估计方法,包括:
输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
在本发明实施例的第二方面,提供了一种深度图估计系统,包括:
特征提取模块,用于输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
深度采样模块,用于对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
代价体构建模块,用于在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
图预测模块,用于基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
第一上采样模块,用于将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
第二上采样模块,用于将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
监督训练模块,用于对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
在本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
在本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例中,通过引入不确定性感知的损失函数来指导网络的训练过程,可以在训练过程中减弱训练集中高不确定性区域和错误标签的不良影响,进一步提高深度估计的准确性、可靠性;通过基于不确定性的深度假设采样策略,自适应确定更精细阶段的深度搜索范围,能够得到更合理的深度假设区间,构建更紧凑的代价体,从而能够得到更加精准的深度图,有效提高了深度图估计的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图。
图1为本发明一个实施例提供的一种深度图估计方法流程示意图;
图2为本发明一个实施例提供的一种深度图估计系统的结构示意图;
图3为本发明的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。此外,“第一”“第二”用于区分不同对象,并非用于描述特定顺序。
请参阅图1,本发明实施例提供的一种深度图估计方法的流程示意图,包括:
S101、输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
所述多尺度深度特征即不同尺寸深度的特征,一般为两个及以上尺寸的深度特征。通过多尺度深度特征提取网络可以提取目标的多尺度深度特征。
给定参考图像X 0 及其N-1幅邻域图像,利用权值共享的多尺度深度特征提
取网络提取每幅图像的多尺度深度特征,其中,s=1,2,3表示第s个尺度,第s个尺
度特征的大小为,为第s个尺度特征的通道数,H×W为原始
输入图像的大小。
其中,所述多尺度深度特征提取网络为一个二维U型网络,由具有跳跃式连接的一个编码器和一个解码器组成,所述编码器和所述解码器均包含有一定数量的残差块。
S102、对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在某一尺度下,在其场景深度范围内均匀采样多个深度值,可以得到该尺度下的深度假设。
S103、在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
单应性变换是将一个平面转换到另一平面的映射过程,本实施中,通过可微单应性变换,能将邻域视图(图像)的深度特征转换到参考视图(图像)下。在同一尺度、同一视图下,通过组相关度量来构建代价体。所述组相关度量是将图像深度特征分组后,分组计算特征的相似性。
具体的,步骤S103具体包括:
S1032:基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角的深度特征的相似性。
其中,g=0,1,2,...G-1,和分别是和的第g组特征,是内积
操作。当计算完和间所有G组的特征相似性后,这些特征相似性将会成一个G通道
的特征相似性图。由于V s 个深度假设值,参考图像和第i幅邻域视图之间V s 个特征相似
性图进一步构成大小为的两视图代价体。
S1033:为了使得输入的邻域视图数量可以是任意的,通过对参考视图和所有邻域视图间构造的两视图代价体进行平均操作,得到最终的代价体M s 。
S104、基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
所述三维卷积神经网络是由两个级联的U型神经网络构成,通过将代价体正则化来增强其泛化能力。所述逻辑回归算法,即softmax算法,用于将神经元输出分类,并映射到(0,1)的区间。通过逻辑回归分类,可以将正则化网络输出的通道特征进行划分。
可选的,对深度概率体,通过soft-argmax回归估计出深度图;对不确定性概率体进行熵操作后,输入卷积神经网络,得到不确定性图。
具体的,所述步骤S104包括:
S1402、将正则化网络输出的2通道特征分别通过Softmax操作得到深度概率体和不确定性概率体;
S105、将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
S106、将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对深度图进行上采样,根据深度假设间隔以及预设的深度假设采样数,可以得到下一尺度深度假设的采样区域,基于采样区间可以确定下一尺度的深度假设。
S107、对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
其中,至少获取3个尺度的深度图进行深度假设采样。
设定训练时不同尺度下的深度假设采样数以及测试时不同尺度的深度假设采样数,以对模型进行训练、测试。
示例性的,在训练时,第1至第3个尺度的深度假设采样数分别为32、16、8,在测试时第1至第3个尺度的深度假设采样数分别为64、32、16。
具体的,为了使网络能够感知不确定性,假设观测到的不确定性服从拉普拉斯分布,并引入拉普拉斯似然对不确定性进行建模,则由负对数似然导出的不确定性感知损失函数可表示为:
将L1损失函数与公式(3)结合构成不确定性感知的损失函数来引导整个网络的优化,即
则整个网络的总损失函数为:
所述L1损失函数也称为最小绝对值偏差(或误差),是将目标值与估计值的绝对差值的总和最小化。
本实施例中,通过引入不确定性感知的损失函数来指导网络的训练过程,可以在训练过程中减弱训练集中高不确定性区域和错误标签的不良影响,进一步提高深度估计的准确性;在此基础上,进一步引入一种基于不确定性的深度假设采样策略,自适应确定更精细阶段的深度搜索范围,与其他传统方案相比,该策略有助于生成更合理的深度假设区间,构建更紧凑的代价体,从而得到更加精准的深度图。
在一个实施例中,所述深度图估计方法的整体架构包括:参考及邻域图像输入模型后,在不同尺度下分别进行基于不确定性的深度假设采样,经过可微单应性变换和组相关度量后,构建得到代价体,再经正则化及Softmax操作得到深度概率体和不确定性概率体。对于深度概率体,通过soft-argmax估计出深度图,对于不确定性概率体,通过熵操作和二维卷积神经网络得到不确定性图。通过上采样、归一化等确定深度假设,基于深度假设进行采样,并基于不确定性感知损失函数对网络模型训练进行监督优化。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图2为本发明实施例提供的一种深度图估计系统的结构示意图,该系统包括:
特征提取模块210,用于输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
其中,所述多尺度深度特征提取网络为一个二维U型网络,由具有跳跃式连接的一个编码器和一个解码器组成,所述编码器和所述解码器均包含有一定数量的残差块。
深度采样模块220,用于对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
代价体构建模块230,用于在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
具体的,在每个深度假设下,通过可微单应变换将所有邻域视图的深度特征投影至参考视图下,得到变换后的特征;基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角深度特征的相似性;对参考视图和所有邻域视图间构造的两视图代价体进行平均操作,得到最终的代价体。
图预测模块240,用于基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
其中,对深度概率体,通过soft-argmax回归估计出深度图;对不确定性概率体进行熵操作后,输入三层卷积神经网络,得到不确定性图。
第一上采样模块250,用于将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
第二上采样模块260,用于将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
监督训练模块270,用于对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
具体的,基于拉普拉斯分布似然对特征不确定性进行建模,并由负对数似然导出不确定性感知损失函数;
将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程可以参考前述方法实施例中对应的过程,在此不再赘述。
图3是本发明一实施例提供的一种电子设备的结构示意图。所述电子设备用于计算机视觉中的深度图估计。如图3所示,该实施例的电子设备3至少包括:存储器310、处理器320以及系统总线330,所述存储器310包括存储其上的可运行的程序3101,本领域技术人员可以理解,图3中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对电子设备的各个构成部件进行具体的介绍:
存储器310可用于存储软件程序以及模块,处理器320通过运行存储在存储器310的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如缓存数据)等。此外,存储器310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在存储器310上包含网络请求方法的可运行程序3101,所述可运行程序3101可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器310中,并由处理器320执行,以实现深度图估计等,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序3101在所述电子设备3中的执行过程。例如,所述计算机程序3101可以被分割为特征提取模块、深度采样模块、代价体构架模块等。
处理器320是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器310内的软件程序和/或模块,以及调用存储在存储器310内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体状态监控。可选的,处理器320可包括一个或多个处理单元;优选的,处理器320可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器320中。
系统总线330是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如PCI总线、ISA总线、CAN总线等。处理器320的指令通过总线传递至存储器310,存储器310反馈数据给处理器320,系统总线330负责处理器320与存储器310之间的数据、指令交互。当然系统总线330还可以接入其他设备,例如网络接口、显示设备等。
在本发明实施例中,该电子设备所包括的处理320执行的可运行程序包括:
输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在各尺度每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对不同尺度的深度假设进行采样,通过不确定性感知损失函数对每个尺度下的深度图和不确定性图进行训练监督。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种深度图估计方法,其特征在于,包括:
输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
2.根据权利要求1所述的方法,其特征在于,所述多尺度深度特征提取网络为一个二维U型网络,由具有跳跃式连接的一个编码器和一个解码器组成,所述编码器和所述解码器均包含有一定数量的残差块。
3.根据权利要求1所述的方法,其特征在于,所述通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体包括:
在每个深度假设下,通过可微单应变换将所有邻域视图的深度特征投影至参考视图下,得到变换后的特征;
基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角深度特征的相似性;
对参考视图和所有邻域视图间构造的两视图代价体进行平均操作,得到最终的代价体。
4.根据权利要求1所述的方法,其特征在于,所述分别估算深度概率体、不确定性概率体对应的深度图和不确定性图包括:
对深度概率体,通过soft-argmax回归估计出深度图;
对不确定性概率体进行熵操作后,输入三层卷积神经网络,得到不确定性图。
5.根据权利要求1所述的方法,其特征在于,所述通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督包括:
基于拉普拉斯分布似然对特征不确定性进行建模,并由负对数似然导出不确定性感知损失函数;
将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。
6.一种深度图估计系统,其特征在于,包括:
特征提取模块,用于输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
深度采样模块,用于对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
代价体构建模块,用于在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
图预测模块,用于基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
第一上采样模块,用于将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
第二上采样模块,用于将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
监督训练模块,用于对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
7.根据权利要求6所述的系统,其特征在于,所述分别估算深度概率体、不确定性概率体对应的深度图和不确定性图包括:
对深度概率体,通过soft-argmax回归估计出深度图;
对不确定性概率体进行熵操作后,输入三层卷积神经网络,得到不确定性图。
8.根据权利要求6所述的系统,其特征在于,所述通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督包括:
基于拉普拉斯分布似然对特征不确定性进行建模,并由负对数似然导出不确定性感知损失函数;
将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的一种深度图估计方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至5任一项所述的一种深度图估计方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725671.9A CN114820755B (zh) | 2022-06-24 | 2022-06-24 | 一种深度图估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210725671.9A CN114820755B (zh) | 2022-06-24 | 2022-06-24 | 一种深度图估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114820755A true CN114820755A (zh) | 2022-07-29 |
CN114820755B CN114820755B (zh) | 2022-10-04 |
Family
ID=82520398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210725671.9A Active CN114820755B (zh) | 2022-06-24 | 2022-06-24 | 一种深度图估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820755B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457101A (zh) * | 2022-11-10 | 2022-12-09 | 武汉图科智能科技有限公司 | 面向无人机平台的边缘保持多视图深度估计及测距方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
US20210103814A1 (en) * | 2019-10-06 | 2021-04-08 | Massachusetts Institute Of Technology | Information Robust Dirichlet Networks for Predictive Uncertainty Estimation |
CN112734915A (zh) * | 2021-01-19 | 2021-04-30 | 北京工业大学 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
CN113066168A (zh) * | 2021-04-08 | 2021-07-02 | 云南大学 | 一种多视图立体网络三维重建方法及系统 |
CN113330486A (zh) * | 2019-01-24 | 2021-08-31 | 帝国理工学院创新有限公司 | 深度估计 |
CN113592913A (zh) * | 2021-08-09 | 2021-11-02 | 中国科学院深圳先进技术研究院 | 一种消除自监督三维重建不确定性的方法 |
US20210350616A1 (en) * | 2020-05-07 | 2021-11-11 | Toyota Research Institute, Inc. | System and method for estimating depth uncertainty for self-supervised 3d reconstruction |
CN114255474A (zh) * | 2020-09-25 | 2022-03-29 | 上海舜瞳科技有限公司 | 一种基于多尺度、多粒度行人重识别方法 |
CN114445265A (zh) * | 2020-10-31 | 2022-05-06 | 罗伯特·博世有限公司 | 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层 |
CN114519772A (zh) * | 2022-01-25 | 2022-05-20 | 武汉图科智能科技有限公司 | 一种基于稀疏点云和代价聚合的三维重建方法及系统 |
CN114549297A (zh) * | 2021-10-12 | 2022-05-27 | 吉林大学 | 一种基于不确定分析的无监督单目深度估计方法 |
-
2022
- 2022-06-24 CN CN202210725671.9A patent/CN114820755B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
CN113330486A (zh) * | 2019-01-24 | 2021-08-31 | 帝国理工学院创新有限公司 | 深度估计 |
US20210103814A1 (en) * | 2019-10-06 | 2021-04-08 | Massachusetts Institute Of Technology | Information Robust Dirichlet Networks for Predictive Uncertainty Estimation |
US20210350616A1 (en) * | 2020-05-07 | 2021-11-11 | Toyota Research Institute, Inc. | System and method for estimating depth uncertainty for self-supervised 3d reconstruction |
CN114255474A (zh) * | 2020-09-25 | 2022-03-29 | 上海舜瞳科技有限公司 | 一种基于多尺度、多粒度行人重识别方法 |
CN114445265A (zh) * | 2020-10-31 | 2022-05-06 | 罗伯特·博世有限公司 | 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层 |
CN112734915A (zh) * | 2021-01-19 | 2021-04-30 | 北京工业大学 | 一种基于深度学习的多视角立体视觉三维场景重建方法 |
CN113066168A (zh) * | 2021-04-08 | 2021-07-02 | 云南大学 | 一种多视图立体网络三维重建方法及系统 |
CN113592913A (zh) * | 2021-08-09 | 2021-11-02 | 中国科学院深圳先进技术研究院 | 一种消除自监督三维重建不确定性的方法 |
CN114549297A (zh) * | 2021-10-12 | 2022-05-27 | 吉林大学 | 一种基于不确定分析的无监督单目深度估计方法 |
CN114519772A (zh) * | 2022-01-25 | 2022-05-20 | 武汉图科智能科技有限公司 | 一种基于稀疏点云和代价聚合的三维重建方法及系统 |
Non-Patent Citations (2)
Title |
---|
PUYUAN YI 等: "DDR-Net: Learning Multi-Stage Multi-View StereoWith Dynamic Depth Range", 《HTTPS://ARXIV.ORG/ABS/2103.14275》 * |
李旭 等: "VDAS中基于单目红外图像的深度估计方法", 《系统工程与电子技术》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115457101A (zh) * | 2022-11-10 | 2022-12-09 | 武汉图科智能科技有限公司 | 面向无人机平台的边缘保持多视图深度估计及测距方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114820755B (zh) | 2022-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161349B (zh) | 物体姿态估计方法、装置与设备 | |
CN113902926A (zh) | 一种基于自注意力机制的通用图像目标检测方法和装置 | |
CN111160249A (zh) | 基于跨尺度特征融合的光学遥感图像多类目标检测方法 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN110222718B (zh) | 图像处理的方法及装置 | |
CN112801047B (zh) | 缺陷检测方法、装置、电子设备及可读存储介质 | |
CN112036381B (zh) | 视觉跟踪方法、视频监控方法及终端设备 | |
CN111914908A (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
CN116503399B (zh) | 基于yolo-afps的绝缘子污闪检测方法 | |
CN115147598A (zh) | 目标检测分割方法、装置、智能终端及存储介质 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN108921131A (zh) | 一种生成人脸检测模型、三维人脸图像的方法及装置 | |
CN111310821A (zh) | 多视图特征融合方法、系统、计算机设备及存储介质 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN111611925A (zh) | 一种建筑物检测与识别方法及装置 | |
CN116152334A (zh) | 图像处理方法及相关设备 | |
CN114820755B (zh) | 一种深度图估计方法及系统 | |
CN116434303A (zh) | 基于多尺度特征融合的人脸表情捕捉方法、装置及介质 | |
CN114998610A (zh) | 一种目标检测方法、装置、设备及存储介质 | |
CN108520532B (zh) | 识别视频中物体运动方向的方法及装置 | |
CN112070181B (zh) | 一种基于图像流的协同检测方法及装置、存储介质 | |
CN116805387B (zh) | 基于知识蒸馏的模型训练方法、质检方法和相关设备 | |
CN116721139A (zh) | 生成图像数据的深度图像 | |
CN116258756A (zh) | 一种自监督单目深度估计方法及系统 | |
CN116385369A (zh) | 深度图像质量评价方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: No. 548, 5th Floor, Building 10, No. 28 Linping Avenue, Donghu Street, Linping District, Hangzhou City, Zhejiang Province Patentee after: Hangzhou Tuke Intelligent Information Technology Co.,Ltd. Address before: 430000 B033, No. 05, 4th floor, building 2, international enterprise center, No. 1, Guanggu Avenue, Donghu New Technology Development Zone, Wuhan, Hubei (Wuhan area of free trade zone) Patentee before: Wuhan Tuke Intelligent Technology Co.,Ltd. |