CN114820755A

CN114820755A - 一种深度图估计方法及系统

Info

Publication number: CN114820755A
Application number: CN202210725671.9A
Authority: CN
Inventors: 陶文兵; 苏婉娟; 刘李漫
Original assignee: Wuhan Tuke Intelligent Technology Co ltd
Current assignee: Hangzhou Tuke Intelligent Information Technology Co ltd
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-07-29
Anticipated expiration: 2042-06-24
Also published as: CN114820755B

Abstract

本发明提供一种深度图估计方法及系统，该方法包括：对图像进行多尺度深度特征提取；在场景深度范围内均匀采样，得到不同尺度下的深度假设；在各尺度的深度假设下，通过可微单应变换，将邻域视图的深度特征变换至参考视图，并通过组相关度量构建代价体；基于三维卷积神经网络对代价体进行正则化，通过逻辑回归算法得到深度概率体和不确定性概率体，并分别估算对应的深度图和不确定性图；将不确定性图和深度图均进行上采样、归一化，得到下一尺度的采样区间和深度假设；对不同尺度的深度假设进行采样，通过不确定感知损失函数对每个尺度下的深度图和不确定性图进行训练监督。通过该方案可以有效提高图像深度估计的准确性和可靠性。

Description

一种深度图估计方法及系统

技术领域

本发明属于计算机视觉领域，尤其涉及一种深度图估计方法及系统。

背景技术

多视图深度估计旨在从多个相机姿态已知的图像中建立密集对应关系，从而恢复参考视角下的稠密几何结构。近年来，深度学习技术极大地推动了多视图深度估计的发展。由于基于深度学习的多视图深度估计方法需要利用三维卷积神经网络对三维代价体进行正则化，这使得随着输入图像分辨率地增加，网络的显存消耗和计算时间呈立方体增长。

为了能够估计高分辨率深度图和提升运算速率，“由粗到细”策略广泛应用于基于深度学习的多视图深度估计中。这类方法通常首先在整个场景的深度范围内进行深度采样，并在最低分辨率下构造代价体，估计出低分辨率的粗糙深度图，之后在粗糙深度图的基础上，不断对其进行上采样细化，最终估计出高分辨率的深度图。然而，尽管基于“由粗到细”策略的多视图深度估计方法能够高效率地估计出高分辨率深度图，但由于在深度图细化阶段，现有技术没有给出合理的深度假设采样方法，也无法对深度图的可靠性进行衡量，导致实际深度图估计的准确性、可靠性存疑。

发明内容

有鉴于此，本发明实施例提供了一种深度图估计方法及系统，用于解决现有深度图估计的准确性、可靠性存疑的问题。

在本发明实施例的第一方面，提供了一种深度图估计方法，包括：

输入参考图像及邻域图像，通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征；

对多尺度特征，在场景深度范围内均匀采样一定数量的深度值，得到不同尺度下的深度假设；

在各尺度的每个深度假设下，通过可微单应变换，将所有邻域视图的深度特征投影变换至参考视图下，并通过组相关度量构建代价体；

基于三维卷积神经网络对所述代价体进行正则化，通过逻辑回归算法得到深度概率体和不确定性概率体，分别估算深度概率体、不确定性概率体对应的深度图和不确定性图；

将所述不确定性图上采样、归一化后得到深度采样间隔权重，基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔；

将所述深度图上采样，基于所述深度假设间隔和深度假设采样数，得到下一尺度的采样区间，并确定下一尺度的深度假设；

对不同尺度的深度假设进行采样，通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。

在本发明实施例的第二方面，提供了一种深度图估计系统，包括：

特征提取模块，用于输入参考图像及邻域图像，通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征；

深度采样模块，用于对多尺度特征，在场景深度范围内均匀采样一定数量的深度值，得到不同尺度下的深度假设；

代价体构建模块，用于在各尺度的每个深度假设下，通过可微单应变换，将所有邻域视图的深度特征投影变换至参考视图下，并通过组相关度量构建代价体；

图预测模块，用于基于三维卷积神经网络对所述代价体进行正则化，通过逻辑回归算法得到深度概率体和不确定性概率体，分别估算深度概率体、不确定性概率体对应的深度图和不确定性图；

第一上采样模块，用于将所述不确定性图上采样、归一化后得到深度采样间隔权重，基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔；

第二上采样模块，用于将所述深度图上采样，基于所述深度假设间隔和深度假设采样数，得到下一尺度的采样区间，并确定下一尺度的深度假设；

监督训练模块，用于对不同尺度的深度假设进行采样，通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。

在本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例第一方面所述方法的步骤。

在本发明实施例的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的所述方法的步骤。

本发明实施例中，通过引入不确定性感知的损失函数来指导网络的训练过程，可以在训练过程中减弱训练集中高不确定性区域和错误标签的不良影响，进一步提高深度估计的准确性、可靠性；通过基于不确定性的深度假设采样策略，自适应确定更精细阶段的深度搜索范围，能够得到更合理的深度假设区间，构建更紧凑的代价体，从而能够得到更加精准的深度图，有效提高了深度图估计的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单介绍，显而易见地，下面描述的附图仅仅是本发明的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他附图。

图1为本发明一个实施例提供的一种深度图估计方法流程示意图；

图2为本发明一个实施例提供的一种深度图估计系统的结构示意图；

图3为本发明的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

应当理解，本发明的说明书或权利要求书及上述附图中的术语“包括”以及其他相近意思表述，意指覆盖不排他的包含，如包含一系列步骤或单元的过程、方法或系统、设备没有限定于已列出的步骤或单元。此外，“第一”“第二”用于区分不同对象，并非用于描述特定顺序。

请参阅图1，本发明实施例提供的一种深度图估计方法的流程示意图，包括：

S101、输入参考图像及邻域图像，通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征；

所述多尺度深度特征即不同尺寸深度的特征，一般为两个及以上尺寸的深度特征。通过多尺度深度特征提取网络可以提取目标的多尺度深度特征。

给定参考图像X ₀及其N-1幅邻域图像

，利用权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征

，其中，s=1,2,3表示第s个尺度，第s个尺度特征的大小为

，

为第s个尺度特征的通道数，H×W为原始输入图像的大小。

其中，所述多尺度深度特征提取网络为一个二维U型网络，由具有跳跃式连接的一个编码器和一个解码器组成，所述编码器和所述解码器均包含有一定数量的残差块。

S102、对多尺度特征，在场景深度范围内均匀采样一定数量的深度值，得到不同尺度下的深度假设；

在某一尺度下，在其场景深度范围内均匀采样多个深度值，可以得到该尺度下的深度假设。

示例性的，对于第1个尺度，在整个场景深度范围R ¹内均匀采样V ¹个深度值，得到该尺度下的深度假设

。

S103、在各尺度的每个深度假设下，通过可微单应变换，将所有邻域视图的深度特征投影变换至参考视图下，并通过组相关度量构建代价体；

单应性变换是将一个平面转换到另一平面的映射过程，本实施中，通过可微单应性变换，能将邻域视图（图像）的深度特征转换到参考视图（图像）下。在同一尺度、同一视图下，通过组相关度量来构建代价体。所述组相关度量是将图像深度特征分组后，分组计算特征的相似性。

具体的，步骤S103具体包括：

S1031：在每个深度假设

下，通过可微单应变换将所有邻域视图的深度特征

投影变换至参考视图下，得到变换后的特征

。可微单应变换计算过程如公式（1）所示：

；（1）

其中，

和

分别表示参考视图的相机内参和外参，

和

分别表示第第i幅邻域视图的相机内参和外参。

S1032：基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角的深度特征的相似性。

对于参考图像的深度特征

和在深度值d _v下的第i幅邻域视图的投影变换特征

，沿着特征通道维度，将它们的特征均匀地分成G组。然后，

和

间第g组特征相似性计算为：

；（2）

其中，g=0,1,2,...G-1，

和

分别是

和

的第g组特征，

是内积操作。当计算完

和

间所有G组的特征相似性后，这些特征相似性将会成一个G通道的特征相似性图

。由于V ^s个深度假设值，参考图像和第i幅邻域视图之间V ^s个特征相似性图进一步构成大小为

的两视图代价体

。

S1033：为了使得输入的邻域视图数量可以是任意的，通过对参考视图和所有邻域视图间构造的两视图代价体进行平均操作，得到最终的代价体M ^s。

S104、基于三维卷积神经网络对所述代价体进行正则化，通过逻辑回归算法得到深度概率体和不确定性概率体，分别估算深度概率体、不确定性概率体对应的深度图和不确定性图；

所述三维卷积神经网络是由两个级联的U型神经网络构成，通过将代价体正则化来增强其泛化能力。所述逻辑回归算法，即softmax算法，用于将神经元输出分类，并映射到（0,1）的区间。通过逻辑回归分类，可以将正则化网络输出的通道特征进行划分。

可选的，对深度概率体，通过soft-argmax回归估计出深度图；对不确定性概率体进行熵操作后，输入卷积神经网络，得到不确定性图。

具体的，所述步骤S104包括：

步骤S1041、利用三维卷积神经网络对代价体M ^s进行正则化，该网络输出特征的大小为

；

S1402、将正则化网络输出的2通道特征分别通过Softmax操作得到深度概率体和不确定性概率体；

S1403：对于深度概率体，基于soft-argmax回归出深度图，即通过对深度概率体和深度假设求期望得到最终的深度图

。

S1404：对于不确定性概率体，先进行熵操作，得到不确定性图U _E，为了增强不确定性图的准确性，再将U _E输入至一个由3层卷积构成的卷积神经网络，得到最终的不确定性图

。

S105、将所述不确定性图上采样、归一化后得到深度采样间隔权重，基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔；

示例性的，根据公式确定基准采样间隔

；

将不确定性图

先上采样两倍得到

，再通过Sigmoid函数进行归一化得到不确定引导的深度采样间隔权重，基于该权重与基准采样间隔则可得到第s+1尺度下的深度假设间隔

，即

。

S106、将所述深度图上采样，基于所述深度假设间隔和深度假设采样数，得到下一尺度的采样区间，并确定下一尺度的深度假设；

对深度图进行上采样，根据深度假设间隔以及预设的深度假设采样数，可以得到下一尺度深度假设的采样区域，基于采样区间可以确定下一尺度的深度假设。

示例性的，在得到第s+1尺度下的深度假设间隔

后，将深度图

上采样2倍得到大小为的

深度图

，则可以进一步确定第s+1尺度下的深度假设的采样区间为

，其中

为第s+1尺度下的深度假设采样数。

S107、对不同尺度的深度假设进行采样，通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。

其中，至少获取3个尺度的深度图进行深度假设采样。

设定训练时不同尺度下的深度假设采样数以及测试时不同尺度的深度假设采样数，以对模型进行训练、测试。

示例性的，在训练时，第1至第3个尺度的深度假设采样数分别为32、16、8，在测试时第1至第3个尺度的深度假设采样数分别为64、32、16。

具体的，为了使网络能够感知不确定性，假设观测到的不确定性服从拉普拉斯分布，并引入拉普拉斯似然对不确定性进行建模，则由负对数似然导出的不确定性感知损失函数可表示为：

；（3）

其中，

为真实深度图，Ω为真实深度图中的有效像素，|Ω|表示有效像素数。为了数值稳定性，在实际应用中网络对对数不确定性进行预测，即

，并为了数值平衡忽略了系数

，则公式可进一步重写为：

；（4）

将L1损失函数与公式（3）结合构成不确定性感知的损失函数来引导整个网络的优化，即

（5）

则整个网络的总损失函数为：

（6）

其中，

为第s个尺度下损失函数的权重系数。第1个至第3个尺度的损失函数的权重系数可以分别设置为0.5、1、2。

所述L1损失函数也称为最小绝对值偏差（或误差），是将目标值与估计值的绝对差值的总和最小化。

本实施例中，通过引入不确定性感知的损失函数来指导网络的训练过程，可以在训练过程中减弱训练集中高不确定性区域和错误标签的不良影响，进一步提高深度估计的准确性；在此基础上，进一步引入一种基于不确定性的深度假设采样策略，自适应确定更精细阶段的深度搜索范围，与其他传统方案相比，该策略有助于生成更合理的深度假设区间，构建更紧凑的代价体，从而得到更加精准的深度图。

在一个实施例中，所述深度图估计方法的整体架构包括：参考及邻域图像输入模型后，在不同尺度下分别进行基于不确定性的深度假设采样，经过可微单应性变换和组相关度量后，构建得到代价体，再经正则化及Softmax操作得到深度概率体和不确定性概率体。对于深度概率体，通过soft-argmax估计出深度图，对于不确定性概率体，通过熵操作和二维卷积神经网络得到不确定性图。通过上采样、归一化等确定深度假设，基于深度假设进行采样，并基于不确定性感知损失函数对网络模型训练进行监督优化。

应理解，上述实施例中各步骤的序号大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

图2为本发明实施例提供的一种深度图估计系统的结构示意图，该系统包括：

特征提取模块210，用于输入参考图像及邻域图像，通过权值共享的多尺度深度特征提取网络提取每幅图像的多尺度深度特征；

深度采样模块220，用于对多尺度特征，在场景深度范围内均匀采样一定数量的深度值，得到不同尺度下的深度假设；

代价体构建模块230，用于在各尺度的每个深度假设下，通过可微单应变换，将所有邻域视图的深度特征投影变换至参考视图下，并通过组相关度量构建代价体；

具体的，在每个深度假设下，通过可微单应变换将所有邻域视图的深度特征投影至参考视图下，得到变换后的特征；基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角深度特征的相似性；对参考视图和所有邻域视图间构造的两视图代价体进行平均操作，得到最终的代价体。

图预测模块240，用于基于三维卷积神经网络对所述代价体进行正则化，通过逻辑回归算法得到深度概率体和不确定性概率体，分别估算深度概率体、不确定性概率体对应的深度图和不确定性图；

其中，对深度概率体，通过soft-argmax回归估计出深度图；对不确定性概率体进行熵操作后，输入三层卷积神经网络，得到不确定性图。

第一上采样模块250，用于将所述不确定性图上采样、归一化后得到深度采样间隔权重，基于所述深度采样间隔权重和基准采样间隔得到下一尺度的深度假设间隔；

第二上采样模块260，用于将所述深度图上采样，基于所述深度假设间隔和深度假设采样数，得到下一尺度的采样区间，并确定下一尺度的深度假设；

监督训练模块270，用于对不同尺度的深度假设进行采样，通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督。

具体的，基于拉普拉斯分布似然对特征不确定性进行建模，并由负对数似然导出不确定性感知损失函数；

将L1损失函数与不确定性感知损失函数结合来对整个神经网络的训练优化。

所述领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程可以参考前述方法实施例中对应的过程，在此不再赘述。

图3是本发明一实施例提供的一种电子设备的结构示意图。所述电子设备用于计算机视觉中的深度图估计。如图3所示，该实施例的电子设备3至少包括：存储器310、处理器320以及系统总线330，所述存储器310包括存储其上的可运行的程序3101，本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对电子设备的各个构成部件进行具体的介绍：

存储器310可用于存储软件程序以及模块，处理器320通过运行存储在存储器310的软件程序以及模块，从而执行电子设备的各种功能应用以及数据处理。存储器310可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据（比如缓存数据）等。此外，存储器310可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在存储器310上包含网络请求方法的可运行程序3101，所述可运行程序3101可以被分割成一个或多个模块/单元，所述一个或多个模块/单元被存储在所述存储器310中，并由处理器320执行，以实现深度图估计等，所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序3101在所述电子设备3中的执行过程。例如，所述计算机程序3101可以被分割为特征提取模块、深度采样模块、代价体构架模块等。

处理器320是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器310内的软件程序和/或模块，以及调用存储在存储器310内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体状态监控。可选的，处理器320可包括一个或多个处理单元；优选的，处理器320可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器320中。

系统总线330是用来连接计算机内部各功能部件，可以传送数据信息、地址信息、控制信息，其种类可以是例如PCI总线、ISA总线、CAN总线等。处理器320的指令通过总线传递至存储器310，存储器310反馈数据给处理器320，系统总线330负责处理器320与存储器310之间的数据、指令交互。当然系统总线330还可以接入其他设备，例如网络接口、显示设备等。

在本发明实施例中，该电子设备所包括的处理320执行的可运行程序包括：

在各尺度每个深度假设下，通过可微单应变换，将所有邻域视图的深度特征投影变换至参考视图下，并通过组相关度量构建代价体；

对不同尺度的深度假设进行采样，通过不确定性感知损失函数对每个尺度下的深度图和不确定性图进行训练监督。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种深度图估计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述多尺度深度特征提取网络为一个二维U型网络，由具有跳跃式连接的一个编码器和一个解码器组成，所述编码器和所述解码器均包含有一定数量的残差块。

3.根据权利要求1所述的方法，其特征在于，所述通过可微单应变换，将所有邻域视图的深度特征投影变换至参考视图下，并通过组相关度量构建代价体包括：

在每个深度假设下，通过可微单应变换将所有邻域视图的深度特征投影至参考视图下，得到变换后的特征；

基于组相关度量计算每幅邻域视角的投影变换深度特征与参考视角深度特征的相似性；

对参考视图和所有邻域视图间构造的两视图代价体进行平均操作，得到最终的代价体。

4.根据权利要求1所述的方法，其特征在于，所述分别估算深度概率体、不确定性概率体对应的深度图和不确定性图包括：

对深度概率体，通过soft-argmax回归估计出深度图；

对不确定性概率体进行熵操作后，输入三层卷积神经网络，得到不确定性图。

5.根据权利要求1所述的方法，其特征在于，所述通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督包括：

基于拉普拉斯分布似然对特征不确定性进行建模，并由负对数似然导出不确定性感知损失函数；

6.一种深度图估计系统，其特征在于，包括:

7.根据权利要求6所述的系统，其特征在于，所述分别估算深度概率体、不确定性概率体对应的深度图和不确定性图包括：

对深度概率体，通过soft-argmax回归估计出深度图；

8.根据权利要求6所述的系统，其特征在于，所述通过不确定性感知损失函数对各尺度下的深度图和不确定性图进行训练监督包括：

9.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的一种深度图估计方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1至5任一项所述的一种深度图估计方法的步骤。