CN114820755B - 一种深度图估计方法及系统 - Google Patents

一种深度图估计方法及系统 Download PDF

Info

Publication number
CN114820755B
CN114820755B CN202210725671.9A CN202210725671A CN114820755B CN 114820755 B CN114820755 B CN 114820755B CN 202210725671 A CN202210725671 A CN 202210725671A CN 114820755 B CN114820755 B CN 114820755B
Authority
CN
China
Prior art keywords
depth
uncertainty
scale
map
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210725671.9A
Other languages
English (en)
Other versions
CN114820755A (zh
Inventor
陶文兵
苏婉娟
刘李漫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tuke Intelligent Information Technology Co ltd
Original Assignee
Wuhan Tuke Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tuke Intelligent Technology Co ltd filed Critical Wuhan Tuke Intelligent Technology Co ltd
Priority to CN202210725671.9A priority Critical patent/CN114820755B/zh
Publication of CN114820755A publication Critical patent/CN114820755A/zh
Application granted granted Critical
Publication of CN114820755B publication Critical patent/CN114820755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种深度图估计方法及系统,该方法包括:对图像进行多尺度深度特征提取;在场景深度范围内均匀采样,得到不同尺度下的深度假设;在各尺度的深度假设下,通过可微单应变换,将邻域视图的深度特征变换至参考视图,并通过组相关度量构建代价体;基于三维卷积神经网络对代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,并分别估算对应的深度图和不确定性图;将不确定性图和深度图均进行上采样、归一化,得到下一尺度的采样区间和深度假设;对不同尺度的深度假设进行采样,通过不确定感知损失函数对每个尺度下的深度图和不确定性图进行训练监督。通过该方案可以有效提高图像深度估计的准确性和可靠性。

Description

一种深度图估计方法及系统
技术领域
本发明属于计算机视觉领域,尤其涉及一种深度图估计方法及系统。
背景技术
多视图深度估计旨在从多个相机姿态已知的图像中建立密集对应关系,从而恢复参考视角下的稠密几何结构。近年来,深度学习技术极大地推动了多视图深度估计的发展。由于基于深度学习的多视图深度估计方法需要利用三维卷积神经网络对三维代价体进行正则化,这使得随着输入图像分辨率地增加,网络的显存消耗和计算时间呈立方体增长。
为了能够估计高分辨率深度图和提升运算速率,“由粗到细”策略广泛应用于基于深度学习的多视图深度估计中。这类方法通常首先在整个场景的深度范围内进行深度采样,并在最低分辨率下构造代价体,估计出低分辨率的粗糙深度图,之后在粗糙深度图的基础上,不断对其进行上采样细化,最终估计出高分辨率的深度图。然而,尽管基于“由粗到细”策略的多视图深度估计方法能够高效率地估计出高分辨率深度图,但由于在深度图细化阶段,现有技术没有给出合理的深度假设采样方法,也无法对深度图的可靠性进行衡量,导致实际深度图估计的准确性、可靠性存疑。
发明内容
有鉴于此,本发明实施例提供了一种深度图估计方法及系统,用于解决现有深度图估计的准确性、可靠性存疑的问题。
在本发明实施例的第一方面,提供了一种深度图估计方法,包括:
输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
在本发明实施例的第二方面,提供了一种深度图估计系统,包括:
特征提取模块,用于输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
深度采样模块,用于对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
代价体构建模块,用于在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
图预测模块,用于基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
第一上采样模块,用于将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
第二上采样模块,用于将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
监督训练模块,用于对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
在本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。
在本发明实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。
本发明实施例中,通过引入不确定性感知的损失函数来指导网络的训练过程,可以在训练过程中减弱训练集中高不确定性区域和错误标签的不良影响,进一步提高深度估计的准确性、可靠性;通过基于不确定性的深度假设采样策略,自适应确定更精细阶段的深度搜索范围,能够得到更合理的深度假设区间,构建更紧凑的代价体,从而能够得到更加精准的深度图,有效提高了深度图估计的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图。
图1为本发明一个实施例提供的一种深度图估计方法流程示意图;
图2为本发明一个实施例提供的一种深度图估计系统的结构示意图;
图3为本发明的一个实施例提供的一种电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
应当理解,本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述,意指覆盖不排他的包含,如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。此外,“第一”“第二”用于区分不同对象,并非用于描述特定顺序。
请参阅图1,本发明实施例提供的一种深度图估计方法的流程示意图,包括:
S101、输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
所述多尺度深度特征即不同尺寸深度的特征,一般为两个及以上尺寸的深度特征。通过多尺度深度特征提取网络可以提取目标的多尺度深度特征。
给定参考图像X 0 及其N-1幅邻域图像
Figure 368374DEST_PATH_IMAGE001
,利用权值共享的多尺度深度特征提 取网络提取每幅图像的多尺度深度特征
Figure 237235DEST_PATH_IMAGE002
,其中,s=1,2,3表示第s个尺度,第s个尺 度特征的大小为
Figure 899161DEST_PATH_IMAGE003
Figure 100335DEST_PATH_IMAGE004
为第s个尺度特征的通道数,H×W为原始 输入图像的大小。
其中,所述多尺度深度特征提取网络为一个二维U型网络,由具有跳跃式连接的一个编码器和一个解码器组成,所述编码器和所述解码器均包含有一定数量的残差块。
S102、对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在某一尺度下,在其场景深度范围内均匀采样多个深度值,可以得到该尺度下的深度假设。
示例性的,对于第1个尺度,在整个场景深度范围R 1 内均匀采样V 1 个深度值,得到该 尺度下的深度假设
Figure 418184DEST_PATH_IMAGE005
S103、在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
单应性变换是将一个平面转换到另一平面的映射过程,本实施中,通过可微单应性变换,能将邻域视图(图像)的深度特征转换到参考视图(图像)下。在同一尺度、同一视图下,通过组相关度量来构建代价体。所述组相关度量是将图像深度特征分组后,分组计算特征的相似性。
具体的,步骤S103具体包括:
S1031:在每个深度假设
Figure 510643DEST_PATH_IMAGE006
下,通过可微单应变换将所有邻域视图的深度特征
Figure 292654DEST_PATH_IMAGE007
投影变换至参考视图下,得到变换后的特征
Figure 336833DEST_PATH_IMAGE008
。可微单应变换计算过程 如公式(1)所示:
Figure 204295DEST_PATH_IMAGE009
; (1)
其中,
Figure 320019DEST_PATH_IMAGE010
Figure 720651DEST_PATH_IMAGE011
分别表示参考视图的相机内参和外参,
Figure 60365DEST_PATH_IMAGE012
Figure 149544DEST_PATH_IMAGE013
分别表示第第i幅 邻域视图的相机内参和外参。
S1032:基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角的深度特征的相似性。
对于参考图像的深度特征
Figure 803379DEST_PATH_IMAGE014
和在深度值d v 下的第i幅邻域视图的投影变换特征
Figure 61447DEST_PATH_IMAGE015
,沿着特征通道维度,将它们的特征均匀地分成G组。然后,
Figure 775325DEST_PATH_IMAGE016
Figure 882959DEST_PATH_IMAGE017
间第g组特征相 似性计算为:
Figure 635758DEST_PATH_IMAGE018
; (2)
其中,g=0,1,2,...G-1,
Figure 902660DEST_PATH_IMAGE019
Figure 725122DEST_PATH_IMAGE020
分别是
Figure 290358DEST_PATH_IMAGE019
Figure 145051DEST_PATH_IMAGE020
的第g组特征,
Figure 282771DEST_PATH_IMAGE021
是内积 操作。当计算完
Figure 338452DEST_PATH_IMAGE019
Figure 512688DEST_PATH_IMAGE020
间所有G组的特征相似性后,这些特征相似性将会成一个G通道 的特征相似性图
Figure 108754DEST_PATH_IMAGE022
。由于V s 个深度假设值,参考图像和第i幅邻域视图之间V s 个特征相似 性图进一步构成大小为
Figure 366560DEST_PATH_IMAGE023
的两视图代价体
Figure 422503DEST_PATH_IMAGE024
S1033:为了使得输入的邻域视图数量可以是任意的,通过对参考视图和所有邻域视图间构造的两视图代价体进行平均操作,得到最终的代价体M s
S104、基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
所述三维卷积神经网络是由两个级联的U型神经网络构成,通过将代价体正则化来增强其泛化能力。所述逻辑回归算法,即softmax算法,用于将神经元输出分类,并映射到(0,1)的区间。通过逻辑回归分类,可以将正则化网络输出的通道特征进行划分。
可选的,对深度概率体,通过soft-argmax回归估计出深度图;对不确定性概率体进行熵操作后,输入卷积神经网络,得到不确定性图。
具体的,所述步骤S104包括:
步骤S1041、利用三维卷积神经网络对代价体M s 进行正则化,该网络输出特征的大 小为
Figure 497685DEST_PATH_IMAGE025
S1402、将正则化网络输出的2通道特征分别通过Softmax操作得到深度概率体和不确定性概率体;
S1403:对于深度概率体,基于soft-argmax回归出深度图,即通过对深度概率体和 深度假设求期望得到最终的深度图
Figure 569547DEST_PATH_IMAGE026
S1404:对于不确定性概率体,先进行熵操作,得到不确定性图U E ,为了增强不确定 性图的准确性,再将U E 输入至一个由3层卷积构成的卷积神经网络,得到最终的不确定性图
Figure 42379DEST_PATH_IMAGE027
S105、将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
示例性的,根据公式确定基准采样间隔
Figure 439862DEST_PATH_IMAGE028
将不确定性图
Figure 231100DEST_PATH_IMAGE027
先上采样两倍得到
Figure 667505DEST_PATH_IMAGE029
,再通过Sigmoid函数进行归一化得到不 确定引导的深度采样间隔权重,基于该权重与基准采样间隔则可得到第s+1尺度下的深度 假设间隔
Figure 24537DEST_PATH_IMAGE030
,即
Figure 592921DEST_PATH_IMAGE031
S106、将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对深度图进行上采样,根据深度假设间隔以及预设的深度假设采样数,可以得到下一尺度深度假设的采样区域,基于采样区间可以确定下一尺度的深度假设。
示例性的,在得到第s+1尺度下的深度假设间隔
Figure 497554DEST_PATH_IMAGE030
后,将深度图
Figure 252496DEST_PATH_IMAGE026
上采样2倍 得到大小为的
Figure 699920DEST_PATH_IMAGE032
深度图
Figure 704785DEST_PATH_IMAGE029
,则可以进一步确定第s+1尺度下的深度 假设的采样区间为
Figure 939458DEST_PATH_IMAGE033
,其中
Figure 920927DEST_PATH_IMAGE034
为 第s+1尺度下的深度假设采样数。
S107、对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
其中,至少获取3个尺度的深度图进行深度假设采样。
设定训练时不同尺度下的深度假设采样数以及测试时不同尺度的深度假设采样数,以对模型进行训练、测试。
示例性的,在训练时,第1至第3个尺度的深度假设采样数分别为32、16、8,在测试时第1至第3个尺度的深度假设采样数分别为64、32、16。
具体的,为了使网络能够感知不确定性,假设观测到的不确定性服从拉普拉斯分布,并引入拉普拉斯似然对不确定性进行建模,则由负对数似然导出的不确定性感知损失函数可表示为:
Figure 455813DEST_PATH_IMAGE035
; (3)
其中,
Figure 162738DEST_PATH_IMAGE036
为真实深度图,Ω为真实深度图中的有效像素,|Ω|表示有效像素数。 为了数值稳定性,在实际应用中网络对对数不确定性进行预测,即
Figure 884707DEST_PATH_IMAGE037
,并为了 数值平衡忽略了系数
Figure 843435DEST_PATH_IMAGE038
,则公式可进一步重写为:
Figure 468714DEST_PATH_IMAGE039
; (4)
将L1损失函数与公式(3)结合构成不确定性感知的损失函数来引导整个网络的优化,即
Figure 612119DEST_PATH_IMAGE040
(5)
则整个网络的总损失函数为:
Figure 821384DEST_PATH_IMAGE041
(6)
其中,
Figure 318224DEST_PATH_IMAGE042
为第s个尺度下损失函数的权重系数。第1个至第3个尺度的损失函数的 权重系数可以分别设置为0.5、1、2。
所述L1损失函数也称为最小绝对值偏差(或误差),是将目标值与估计值的绝对差值的总和最小化。
本实施例中,通过引入不确定性感知的损失函数来指导网络的训练过程,可以在训练过程中减弱训练集中高不确定性区域和错误标签的不良影响,进一步提高深度估计的准确性;在此基础上,进一步引入一种基于不确定性的深度假设采样策略,自适应确定更精细阶段的深度搜索范围,与其他传统方案相比,该策略有助于生成更合理的深度假设区间,构建更紧凑的代价体,从而得到更加精准的深度图。
在一个实施例中,所述深度图估计方法的整体架构包括:参考及邻域图像输入模型后,在不同尺度下分别进行基于不确定性的深度假设采样,经过可微单应性变换和组相关度量后,构建得到代价体,再经正则化及Softmax操作得到深度概率体和不确定性概率体。对于深度概率体,通过soft-argmax估计出深度图,对于不确定性概率体,通过熵操作和二维卷积神经网络得到不确定性图。通过上采样、归一化等确定深度假设,基于深度假设进行采样,并基于不确定性感知损失函数对网络模型训练进行监督优化。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图2为本发明实施例提供的一种深度图估计系统的结构示意图,该系统包括:
特征提取模块210,用于输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
其中,所述多尺度深度特征提取网络为一个二维U型网络,由具有跳跃式连接的一个编码器和一个解码器组成,所述编码器和所述解码器均包含有一定数量的残差块。
深度采样模块220,用于对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
代价体构建模块230,用于在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
具体的,在每个深度假设下,通过可微单应变换将所有邻域视图的深度特征投影至参考视图下,得到变换后的特征;基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角深度特征的相似性;对参考视图和所有邻域视图间构造的两视图代价体进行平均操作,得到最终的代价体。
图预测模块240,用于基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
其中,对深度概率体,通过soft-argmax回归估计出深度图;对不确定性概率体进行熵操作后,输入三层卷积神经网络,得到不确定性图。
第一上采样模块250,用于将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
第二上采样模块260,用于将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
监督训练模块270,用于对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
具体的,基于拉普拉斯分布似然对特征不确定性进行建模,并由负对数似然导出不确定性感知损失函数;
将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。
所述领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程可以参考前述方法实施例中对应的过程,在此不再赘述。
图3是本发明一实施例提供的一种电子设备的结构示意图。所述电子设备用于计算机视觉中的深度图估计。如图3所示,该实施例的电子设备3至少包括:存储器310、处理器320以及系统总线330,所述存储器310包括存储其上的可运行的程序3101,本领域技术人员可以理解,图3中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图3对电子设备的各个构成部件进行具体的介绍:
存储器310可用于存储软件程序以及模块,处理器320通过运行存储在存储器310的软件程序以及模块,从而执行电子设备的各种功能应用以及数据处理。存储器310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如缓存数据)等。此外,存储器310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
在存储器310上包含网络请求方法的可运行程序3101,所述可运行程序3101可以被分割成一个或多个模块/单元,所述一个或多个模块/单元被存储在所述存储器310中,并由处理器320执行,以实现深度图估计等,所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序3101在所述电子设备3中的执行过程。例如,所述计算机程序3101可以被分割为特征提取模块、深度采样模块、代价体构架模块等。
处理器320是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器310内的软件程序和/或模块,以及调用存储在存储器310内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体状态监控。可选的,处理器320可包括一个或多个处理单元;优选的,处理器320可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器320中。
系统总线330是用来连接计算机内部各功能部件,可以传送数据信息、地址信息、控制信息,其种类可以是例如PCI总线、ISA总线、CAN总线等。处理器320的指令通过总线传递至存储器310,存储器310反馈数据给处理器320,系统总线330负责处理器320与存储器310之间的数据、指令交互。当然系统总线330还可以接入其他设备,例如网络接口、显示设备等。
在本发明实施例中,该电子设备所包括的处理320执行的可运行程序包括:
输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在各尺度每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对不同尺度的深度假设进行采样,通过不确定性感知损失函数对每个尺度下的深度图和不确定性图进行训练监督。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种深度图估计方法,其特征在于,包括:
输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
其中,对深度概率体,通过soft-argmax回归估计出深度图;
对不确定性概率体进行熵操作后,输入三层卷积神经网络,得到不确定性图;
将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
2.根据权利要求1所述的方法,其特征在于,所述多尺度深度特征提取网络为一个二维U型网络,由具有跳跃式连接的一个编码器和一个解码器组成,所述编码器和所述解码器均包含有一定数量的残差块。
3.根据权利要求1所述的方法,其特征在于,所述通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体包括:
在每个深度假设下,通过可微单应变换将所有邻域视图的深度特征投影至参考视图下,得到变换后的特征;
基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角深度特征的相似性;
对参考视图和所有邻域视图间构造的两视图代价体进行平均操作,得到最终的代价体。
4.根据权利要求1所述的方法,其特征在于,所述通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督包括:
基于拉普拉斯分布似然对特征不确定性进行建模,并由负对数似然导出不确定性感知损失函数;
将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。
5.一种深度图估计系统,其特征在于,包括:
特征提取模块,用于输入参考图像及邻域图像,通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征;
深度采样模块,用于对多尺度特征,在场景深度范围内均匀采样一定数量的深度值,得到不同尺度下的深度假设;
代价体构建模块,用于在各尺度的每个深度假设下,通过可微单应变换,将所有邻域视图的深度特征投影变换至参考视图下,并通过组相关度量构建代价体;
图预测模块,用于基于三维卷积神经网络对所述代价体进行正则化,通过逻辑回归算法得到深度概率体和不确定性概率体,分别估算深度概率体、不确定性概率体对应的深度图和不确定性图;
其中,对深度概率体,通过soft-argmax回归估计出深度图;
对不确定性概率体进行熵操作后,输入三层卷积神经网络,得到不确定性图;
第一上采样模块,用于将所述不确定性图上采样、归一化后得到深度采样间隔权重,基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔;
第二上采样模块,用于将所述深度图上采样,基于所述深度假设间隔和深度假设采样数,得到下一尺度的采样区间,并确定下一尺度的深度假设;
监督训练模块,用于对不同尺度的深度假设进行采样,通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。
6.根据权利要求5所述的系统,其特征在于,所述通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督包括:
基于拉普拉斯分布似然对特征不确定性进行建模,并由负对数似然导出不确定性感知损失函数;
将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的一种深度图估计方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被执行时实现如权利要求1至4任一项所述的一种深度图估计方法的步骤。
CN202210725671.9A 2022-06-24 2022-06-24 一种深度图估计方法及系统 Active CN114820755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210725671.9A CN114820755B (zh) 2022-06-24 2022-06-24 一种深度图估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210725671.9A CN114820755B (zh) 2022-06-24 2022-06-24 一种深度图估计方法及系统

Publications (2)

Publication Number Publication Date
CN114820755A CN114820755A (zh) 2022-07-29
CN114820755B true CN114820755B (zh) 2022-10-04

Family

ID=82520398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210725671.9A Active CN114820755B (zh) 2022-06-24 2022-06-24 一种深度图估计方法及系统

Country Status (1)

Country Link
CN (1) CN114820755B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457101B (zh) * 2022-11-10 2023-03-24 武汉图科智能科技有限公司 面向无人机平台的边缘保持多视图深度估计及测距方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113330486A (zh) * 2019-01-24 2021-08-31 帝国理工学院创新有限公司 深度估计
CN114255474A (zh) * 2020-09-25 2022-03-29 上海舜瞳科技有限公司 一种基于多尺度、多粒度行人重识别方法
CN114445265A (zh) * 2020-10-31 2022-05-06 罗伯特·博世有限公司 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107945265B (zh) * 2017-11-29 2019-09-20 华中科技大学 基于在线学习深度预测网络的实时稠密单目slam方法与系统
US20210103814A1 (en) * 2019-10-06 2021-04-08 Massachusetts Institute Of Technology Information Robust Dirichlet Networks for Predictive Uncertainty Estimation
US11341719B2 (en) * 2020-05-07 2022-05-24 Toyota Research Institute, Inc. System and method for estimating depth uncertainty for self-supervised 3D reconstruction
CN112734915A (zh) * 2021-01-19 2021-04-30 北京工业大学 一种基于深度学习的多视角立体视觉三维场景重建方法
CN113066168B (zh) * 2021-04-08 2022-08-26 云南大学 一种多视图立体网络三维重建方法及系统
CN113592913B (zh) * 2021-08-09 2023-12-26 中国科学院深圳先进技术研究院 一种消除自监督三维重建不确定性的方法
CN114549297A (zh) * 2021-10-12 2022-05-27 吉林大学 一种基于不确定分析的无监督单目深度估计方法
CN114519772A (zh) * 2022-01-25 2022-05-20 武汉图科智能科技有限公司 一种基于稀疏点云和代价聚合的三维重建方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113330486A (zh) * 2019-01-24 2021-08-31 帝国理工学院创新有限公司 深度估计
CN114255474A (zh) * 2020-09-25 2022-03-29 上海舜瞳科技有限公司 一种基于多尺度、多粒度行人重识别方法
CN114445265A (zh) * 2020-10-31 2022-05-06 罗伯特·博世有限公司 等矩形投影立体匹配的两阶段深度估计机器学习算法和球面扭曲层

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DDR-Net: Learning Multi-Stage Multi-View StereoWith Dynamic Depth Range;Puyuan Yi 等;《https://arxiv.org/abs/2103.14275》;20210326;全文 *
VDAS中基于单目红外图像的深度估计方法;李旭 等;《系统工程与电子技术》;20210607;第43卷(第5期);全文 *

Also Published As

Publication number Publication date
CN114820755A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
US10977530B2 (en) ThunderNet: a turbo unified network for real-time semantic segmentation
CN111161349B (zh) 物体姿态估计方法、装置与设备
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN108875482B (zh) 物体检测方法和装置、神经网络训练方法和装置
CN110222718B (zh) 图像处理的方法及装置
CN110838122B (zh) 点云的分割方法、装置及计算机存储介质
CN111914908B (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
CN112801047B (zh) 缺陷检测方法、装置、电子设备及可读存储介质
CN111310821A (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
CN113781519A (zh) 目标跟踪方法和目标跟踪装置
CN114266894A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN114820755B (zh) 一种深度图估计方法及系统
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN108520532B (zh) 识别视频中物体运动方向的方法及装置
CN112597995B (zh) 车牌检测模型训练方法、装置、设备及介质
CN112070181B (zh) 一种基于图像流的协同检测方法及装置、存储介质
CN116258756B (zh) 一种自监督单目深度估计方法及系统
TWI803243B (zh) 圖像擴增方法、電腦設備及儲存介質
CN110633630A (zh) 一种行为识别方法、装置及终端设备
CN110826726B (zh) 目标处理方法、目标处理装置、目标处理设备及介质
CN115457101B (zh) 面向无人机平台的边缘保持多视图深度估计及测距方法
CN111275183A (zh) 视觉任务的处理方法、装置和电子系统
CN116721139A (zh) 生成图像数据的深度图像

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 548, 5th Floor, Building 10, No. 28 Linping Avenue, Donghu Street, Linping District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Tuke Intelligent Information Technology Co.,Ltd.

Address before: 430000 B033, No. 05, 4th floor, building 2, international enterprise center, No. 1, Guanggu Avenue, Donghu New Technology Development Zone, Wuhan, Hubei (Wuhan area of free trade zone)

Patentee before: Wuhan Tuke Intelligent Technology Co.,Ltd.