CN115908522A - 基于终身学习的单目深度估计方法及相关设备 - Google Patents

基于终身学习的单目深度估计方法及相关设备 Download PDF

Info

Publication number
CN115908522A
CN115908522A CN202211729433.1A CN202211729433A CN115908522A CN 115908522 A CN115908522 A CN 115908522A CN 202211729433 A CN202211729433 A CN 202211729433A CN 115908522 A CN115908522 A CN 115908522A
Authority
CN
China
Prior art keywords
domain
depth estimation
target
estimation model
image sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211729433.1A
Other languages
English (en)
Inventor
胡君杰
范晨悠
林天麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Artificial Intelligence and Robotics
Original Assignee
Shenzhen Institute of Artificial Intelligence and Robotics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Artificial Intelligence and Robotics filed Critical Shenzhen Institute of Artificial Intelligence and Robotics
Priority to CN202211729433.1A priority Critical patent/CN115908522A/zh
Publication of CN115908522A publication Critical patent/CN115908522A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请实施例公开了一种基于终身学习的单目深度估计方法及相关设备。目标单目深度估计模型为一个多分支感知框架,由一个领域共享的编码器和特定领域的解码器组成,可预测输入图像的深度图及其不确定性图,以排除在训练过程中由深度传感器拍摄的深度图中离群值引起的性能下降。为进一步克服灾难性遗忘,采用了正则化约束,利用知识蒸馏损失和重放损失项来克服显著的领域差距。特定领域的解码器将用新领域的数据进行学习;在旧领域训练的其他解码器将用深度一致性和不确定性一致性以及重放损失进行正则化约束,正则化项相互补充以提高终身学习的稳定性和可塑性,从而实现更加精准的图像单目深度估计。

Description

基于终身学习的单目深度估计方法及相关设备
技术领域
本申请实施例涉及图像处理领域,具体涉及一种基于终身学习的单目深度估计方法及相关设备。
背景技术
近年来,单目深度估计取得了显著性的成果。其最终目的在于取代深度传感器,从而提供一种较为便宜的场景深度感知方式。单目深度估计通过其技术的不断进步,可提供一种安全、可靠的深度估计算法,从而在某些领域替代深度传感器。因此,具有重要的产业价值和经济效益。
然而,目前的算法实现方式只能在目标环境中,通过大量数据驱动的训练,学习深度卷积神经网络(CNN),从而估计场景的绝对深度。然而,由于对分布外数据的泛化能力差,基于学习的方法经常被批评和质疑。最近的趋势是通过尽可能地覆盖可能的领域(domain)来解决通用性差的问题。然而,现实世界中不可能穷尽所有可能的数据模式。当有一些新的数据模式或目标领域时,预先训练好的模型必须从头开始重新训练,从而造成时间和成本的巨大浪费。
另一方面,由于图像识别和单目深度估计之间有很大的区别,如何在单目深度估计上进行终身学习在很大程度上是未知的。大多数已有的多领域学习方法只推断相对深度图来解决领域差距。此外,只有少数研究尝试基于终身学习范式的深度估计算法,但这些方法由于采样无监督学习,无法推断出场景的绝对深度图。另外,此类方法仅工作在域差异较小的情况,无法应对域差异大的情况。
总体而言,在进行终身学习时,以下两个主要挑战会导致灾难性的遗忘(即在新的领域中更新训练过的模型后,会忘记学到的知识),一是显著的领域差距,视觉图像和深度图像在不同的领域都有显著的不同,因此一个训练完毕的模型在两个领域之间无法迁移;二是深度尺度差异,场景深度尺度通常与领域有关,如室内0-10米,室外0-100米,因此模型在两个不同尺度的领域之间无法迁移。
发明内容
本申请实施例提供了一种基于终身学习的单目深度估计方法及相关设备,用于执行更加精准的图像单目深度估计。
本申请实施例第一方面提供了一种基于终身学习的单目深度估计方法,所述方法应用于计算机设备,所述方法包括:
获取预先训练完成的目标单目深度估计模型,所述目标单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域的解码器;
获取目标域的目标图像,将所述目标图像输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型执行以下操作:
使用所述多域共享编码器对所述目标图像进行特征提取得到图像特征;
使用所述多个特定领域的解码器中所述目标域对应的解码器,对所述图像特征进行计算得到所述目标域的深度估计图;
输出所述目标域的深度估计图。
本申请实施例第二方面提供了一种计算机设备,所述计算机设备包括:
获取单元,用于获取预先训练完成的目标单目深度估计模型,所述目标单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域的解码器;
单目深度估计单元,用于获取目标域的目标图像,将所述目标图像输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型执行以下操作:使用所述多域共享编码器对所述目标图像进行特征提取得到图像特征;使用所述多个特定领域的解码器中所述目标域对应的解码器,对所述图像特征进行计算得到所述目标域的深度估计图;
输出单元,用于输出所述目标域的深度估计图。
本申请实施例第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述第一方面的方法。
本申请实施例第四方面提供了一种计算机存储介质,计算机存储介质中存储有指令,该指令在计算机上执行时,使得计算机执行前述第一方面的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
目标单目深度估计模型为一个多分支感知框架,由一个领域共享的编码器和特定领域的解码器组成,可预测输入图像的深度图及其不确定性图,以排除在训练过程中由深度传感器拍摄的深度图中离群值引起的性能下降。为进一步克服灾难性遗忘,采用了正则化约束,利用知识蒸馏损失和重放损失项来克服显著的领域差距。特定领域的解码器将用新领域的数据进行学习;在旧领域训练的其他解码器将用深度一致性和不确定性一致性以及重放损失进行正则化约束,正则化项相互补充以提高终身学习的稳定性和可塑性,从而实现更加精准的图像单目深度估计。
附图说明
图1为本申请实施例中基于终身学习的单目深度估计方法一个流程示意图;
图2为本申请实施例中目标单目深度估计模型一个模型结构示意图;
图3为本申请实施例中目标单目深度估计模型一种应用场景示意图;
图4为本申请实施例中由传感器捕获的深度图一种显示效果示意图;
图5为本申请实施例中计算机设备一个结构示意图;
图6为本申请实施例中计算机设备另一结构示意图。
具体实施方式
本申请实施例提供了一种基于终身学习的单目深度估计方法及相关设备,用于执行更加精准的图像单目深度估计。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本申请实施例中的基于终身学习的单目深度估计方法进行描述:
在进行本申请实施例的详细阐述之前,预先对以下多个概念做一次名词释义。
单目深度估计(monoculardepth estimation):从单个相机拍摄的图像中估计物体到相机之间的距离。该技术常用于避障、三维重建、无人驾驶。
领域(domain):也可简称为域,指特定数据分布。例如,在单目深度估计任务上,室内的深度范围一般为0到10米,一些室外的场景深度范围为0到100米。因此,不同深度范围的场景其所属的域不同。
终身学习(lifelong learning):是指让模型进行持续学习或增量学习。即在一些域上学习后,当出现新域时,让模型继续在其上学习。在新域上学习时,终身学习不使用或用尽可能少的旧域的数据。其目的在于增强可塑性(尽可能在新域上达到高的精度)和保留稳定性(尽可能在旧域上保留精度)。
请参阅图1,本申请实施例中基于终身学习的单目深度估计方法一个实施例包括:
101、获取预先训练完成的目标单目深度估计模型,所述目标单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域的解码器;
本实施例的方法可应用于计算机设备,该计算机设备可以是服务器、终端等能够执行数据处理的计算机设备。当该计算机设备为终端时,可以是个人电脑(personalcomputer,PC)、台式计算机等终端设备;当该计算机设备为服务器时,可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云计算以及大数据和人工智能平台等基础云计算服务的云服务器。
在进行单目深度估计时,计算机设备可获取预先训练完成的目标单目深度估计模型,该目标单目深度估计模型包括多域共享编码器、与该多域共享编码器连接的多个特定领域的解码器。
如图2所示,目标单目深度估计模型包括的多域共享编码器由Res1、Res2、Res3、Res4等多个残差卷积模块和一个多尺度特征融合模块MFF组成,它们一起构成了多域共享编码器。其中,x指代输出图像,g(x)是指多域共享编码器的输出,其三维长方体指代特征图,它们的厚度表示通道数量,另外两个维度表示特征图的长和宽,也就是特征图的尺度。
而图2右边的模型结构f1、f2、f3分别为不同的特定领域的解码器,各个特定领域的解码器用于输出图像的深度图,还有不确定性图。例如,在图3所示的应用场景中,采用一个多域共享编码器g进行特征提取,采用多分支解码器进行特定领域的深度估计。每个解码器的学习都是为了估计具有固定深度范围的特定领域的深度图。图3中给出了可视化模型在三个不同领域的学习框架。该模型从一个深度解码器f1开始,用于在领域
Figure BDA0004031037900000051
的学习,并动态地扩展其解码器f2和f3,从而依次在
Figure BDA0004031037900000052
Figure BDA0004031037900000053
上进行学习。
当然,图2和图3仅将3个特定领域的解码器作为例子进行举例说明,实际上多个特定领域的解码器对应的领域个数不作限定,例如可以是4个特定领域的解码器,或者5个特定领域的解码器等等。
102、获取目标域的目标图像,将所述目标图像输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型执行以下操作:使用所述多域共享编码器对所述目标图像进行特征提取得到图像特征;使用所述多个特定领域的解码器中所述目标域对应的解码器,对所述图像特征进行计算得到所述目标域的深度估计图;
103、输出所述目标域的深度估计图;
基于现实应用考虑,模型需实时估计深度。因此,本申请旨在构建一个轻量级的模型框架。如图2和图3所示,对于编码器,本申请采用基于ResNet-34的骨干网络用来提前多尺度特征,并用一个多尺度特征(MFF,multi-feature fusion)融合模块进行特征融合;解码器则由四个5×5卷积层构成,其中两个卷积层(conv_d1和conv_d2)用于深度估计,另外两个卷积层(conv_u1和conv_u2)用于模型的预测不确定性推断。在本申请的框架中,共享编码器有21.81M个参数;每个特定领域的解码器分别有0.21M个参数。在学习三个领域的情况下,该框架拥有超过97%的共享参数以促进计算效率。
在获得该目标单目深度估计模型之后,计算机设备可获取目标域的目标图像,并将目标域的目标图像输入至目标单目深度估计模型,从而目标单目深度估计模型执行以下操作:
使用目标单目深度估计模型的多域共享编码器对目标图像进行特征提取得到图像特征;
使用目标单目深度估计模型的多个特定领域的解码器中该目标域对应的解码器,对该图像特征进行计算得到目标域的深度估计图。
因此,计算机设备可获取到目标单目深度估计模型输出的该目标域的深度估计图。
在单目深度估计模型的模型训练过程中,为实现更优的单目深度估计的技术效果,本申请实施例特提出以下多个方面来分别优化单目深度估计模型,下面将一一阐述:
第一、基于不确定性的场景深度获取;
由于终身学习的目标之一在于尽量解除对旧目标域的训练数据的存储要求,当模型在新的目标域利用新的训练数据学习时,其在旧域获取的能力或知识会不断退化。因此,在模型训练过程中,需满足两方面的要求,一是能够在新的目标域中获取深度估计的能力,二是能够保留其在旧的目标域中已学到的深度估计的能力、防止知识遗忘。为此,本申请提出基于不确定性的场景深度获取以满足前述第一个方面的要求,以及提出基于不确定性的一致性约束和数据回放机制以满足前述第二个方面的要求。
为此,本实施例一种优选的实施方式中,该目标单目深度估计模型的训练步骤包括:
获取多组训练样本,每组训练样本包括一个领域的图像样本以及图像样本对应的真实领域深度图;
获取初始单目深度估计模型,初始单目深度估计模型包括多域共享编码器、与多域共享编码器连接的多个特定领域解码器,多域共享编码器包括多个残差卷积模块以及与多个残差卷积模块连接的多尺度特征融合模块;
将多组训练样本输入至初始单目深度估计模型,以使得初始单目深度估计模型执行以下操作:
使用多个残差卷积模块对图像样本进行特征提取,得到图像样本的多个不同尺度的中间特征;
使用多尺度特征融合模块对多个不同尺度的中间特征进行特征融合,得到融合特征;
使用多个特定领域解码器对融合特征进行计算得到图像样本对应的预测领域深度图;
根据真实领域深度图和预测领域深度图构建基于不确定性的深度损失函数,根据基于不确定性的深度损失函数的损失值调整初始单目深度估计模型的模型参数,直至基于不确定性的深度损失函数满足收敛条件时停止模型训练,得到目标单目深度估计模型。
其中,在本申请提出的基于不确定性的场景深度获取中,给定一个目标域
Figure BDA0004031037900000061
其中
Figure BDA0004031037900000062
表示RGB图像和它们相应的深度图,进而可以直接利用有监督学习让模型学习估计目标域的深度图。
如图4所示,由传感器捕获的深度图通常是稀疏的且在图像边缘附近带噪声。为了消除离群值的影响并提高鲁棒性,本申请采用基于不确定性(模型预测的自信度)的深度损失函数来训练目标单目深度估计模型:
Figure BDA0004031037900000071
其中,
Figure BDA0004031037900000072
st分别对应模型在域
Figure BDA0004031037900000073
上采样的图像数据,即xt,所估计的深度图和不确定性图,即
Figure BDA0004031037900000074
通过以上方式,模型可获取在目标域
Figure BDA0004031037900000075
进行单目深度感知的能力。
因此,本申请提出了一个高效的多分支模型框架,能够实现终身的、跨领域的和绝对场景尺度的单目深度学习。尤其需要说明的是,本申请所提出的方法为首次通过终身学习实现多域绝对深度估计的技术。
第二、基于不确定性的旧域知识保留;
当出现新的领域时,单目深度估计模型会相应地增加一个新的特定领域的深度解码器,并用损失函数学习其参数。然而,这将改变单目深度估计模型的编码器原有的参数,从而导致在旧领域上的深度估计发生故障,即导致灾难性的遗忘。为了防止遗忘,本申请实施例提出基于不确定性的旧域知识保留,避免单目深度估计模型在学习新的领域时对旧域的知识造成灾难性的遗忘。
因此,在本实施例另一优选的实施方式中,目标单目深度估计模型为旧域的单目深度估计模型。在获得目标单目深度估计模型之后,计算机设备可获取新域的图像样本,将新域的图像样本输入至目标单目深度估计模型,以使得目标单目深度估计模型使用多个残差卷积模块对新域的图像样本进行特征提取,得到新域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对多个不同尺度的中间特征进行特征融合,得到融合特征,使用在旧域上的多个特定领域解码器对融合特征进行计算得到新域的图像样本对应的第一预测深度图以及第一预测不确定性图;
获取新域对应的单目深度估计模型,将新域的图像样本输入至新域的单目深度估计模型,以使得新域的单目深度估计模型使用多个残差卷积模块对新域的图像样本进行特征提取,得到新域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对多个不同尺度的中间特征进行特征融合,得到融合特征,使用多个特定领域解码器对融合特征进行计算得到新域的图像样本对应的第二预测深度图以及第二预测不确定性图;
根据第一预测深度图以及第一预测不确定性图、第二预测深度图以及第二预测不确定性图,构建一致性损失函数,根据一致性损失函数的损失值调整新域的单目深度估计模型,直至一致性损失函数的损失值减小到预设数值范围时停止模型训练,得到新域的目标单目深度估计模型。
在相关方案中,当出现新的领域
Figure BDA0004031037900000081
时,相应地增加一个新的特定领域的深度解码器ft+1,并使用以上损失函数学习其参数。然而,这将改变编码器的参数,从而导致在旧领域
Figure BDA0004031037900000082
上的深度估计发生故障,即导致灾难性的遗忘。为了防止遗忘,需要对模型参数进行正则化处理,在本申请的方法中,在旧领域上训练的模型作为专家教师,其在每个领域的预测结果用来施加一致性约束。
因此,可令g′,f1′,…,ft′为在旧域
Figure BDA0004031037900000083
上训练好的编码器和解码器,g,f1,…,ft为在新域上需要更新的模型编码器和多个特定领域的解码器,基于不确定性的旧域知识保留具体执行以下操作:
1.针对每个旧域
Figure BDA0004031037900000084
利用训练好的模型,即g′,fi′,从新域的图像数据,即xt+1,预测深度图
Figure BDA0004031037900000085
(即前述的第一预测深度图)和不确定性图
Figure BDA0004031037900000086
(即前述的第一预测不确定性图)。
2.针对每个旧域,利用新的模型,即g,fi,从新域的图像数据,即xt+1,预测深度图
Figure BDA0004031037900000087
(即前述的第二预测深度图)和不确定性图
Figure BDA0004031037900000088
(即前述的第二预测不确定性图)。
3.最小化一致性损失,包括深度一致性和不确定性一致性。该一致性损失可如下表示:
Figure BDA0004031037900000089
Figure BDA00040310379000000810
Figure BDA00040310379000000811
因此,根据上述损失函数对目标单目深度估计模型进行训练,可以使得训练得到的目标单目深度估计模型能够在新的目标域中获取深度估计的能力,并保留其在旧的目标域中已学到的深度估计能力,防止知识遗忘,从而能够更加精准地进行图像的单目深度估计。
第三、基于数据回放机制的记忆增强;
本申请实施例还提出了基于数据回放机制的记忆增强方式,以保留单目深度估计模型在旧的目标域中已学到的深度估计的能力,进一步防止知识遗忘,保持单目深度估计模型在旧域上的深度估计性能。
因此,在本实施例另一优选的实施方式中,计算机设备还可获取训练样本,该训练样本包括旧域的图像样本;
将旧域的图像样本输入至目标单目深度估计模型,以使得目标单目深度估计模型使用多个残差卷积模块对旧域的图像样本进行特征提取,得到旧域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对多个不同尺度的中间特征进行特征融合,得到融合特征,使用多个特定领域解码器对融合特征进行计算得到旧域的图像样本对应的第三预测深度图以及第三预测不确定性图;
根据第三预测深度图以及第三预测不确定性图,构建损失函数,根据该损失函数的损失值调整目标单目深度估计模型,直至该损失函数的损失值减小到预设数值范围时停止模型训练。
在相关方案中,如果新领域
Figure BDA0004031037900000091
的图像与某个旧领域
Figure BDA0004031037900000092
的图像分布相同,一致性损失将对保存在领域
Figure BDA0004031037900000093
的知识完全有效。否则,由于域的差距,其性能往往会下降。如果新域和旧域之间存在明显的领域转移,该模型在旧域上的性能有可能会显著下降。为了处理这个问题,本申请采取了和许多经典的终身学习方法一样的重放策略,通过定期和反复地回顾历史数据,随机地保留以前每个领域的有限训练数据(500张图片),并重放这些数据用于新领域的学习。
重放损失可理解为以上基于不确定性的旧域知识保留技术的补充,具体执行步骤如下:
1.针对每个旧域
Figure BDA0004031037900000094
对保留的少量图像,计算模型预测的每张图像的深度图
Figure BDA0004031037900000095
(即前述的第三预测深度图)和不确定性图si(即前述的第三预测不确定性图)。
2.由于保留了少量图像和其对应的真实值,可最小化一致性损失,该重放损失可表述为:
Figure BDA0004031037900000101
因此,结合预测一致性正则化和重放策略可克服灾难性遗忘,前者同时应用深度和不确定性一致性,后者则保留一小部分旧域的数据,并在新域学习时进行回放,可实现更加精准的图像单目深度估计。
在单目深度估计模型的模型部署过程中,本申请实施例提出识别给定图像与特征空间中每个域之间的最小距离,以实现在线特定域深度解码器的选取。
因此,在本实施例另一优选的实施方式中,计算机设备还可获取每个域的图像样本,将每个域的图像样本输入至目标单目深度估计模型,以使得目标单目深度估计模型使用多个残差卷积模块对每个域的图像样本进行特征提取,得到每个域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对多个不同尺度的中间特征进行特征融合,得到融合特征;
根据每个域的图像样本对应的融合特征,计算每个域的平均特征近似值;
根据平均特征近似值计算输入的图像样本在特征空间中距离每个域的距离,将最小的距离所对应的域确定为该输入的图像样本的目标域。因此,可进一步确定该输入的图像样本的目标域对应的解码器,可用于该输入的图像样本对应的融合特征的解码计算过程,进而获得该输入的图像样本的深度图和不确定性图。
相关方案中,在完成所有目标域的增量学习之后,理想情况下,该模型对多个目标域中取样的任何图像都能够进行正确地估计其深度图。由于模型具有多个分支解码器,一个实际的挑战是如何识别该图像的领域,并相应地在推理过程中自动选择相应的解码器。为了解决这个问题,本申请提出识别给定图像与特征空间中每个域之间的最小距离,以实现在线特定域深度解码器的选取。具体执行过程如下:
1.由于保留了每个域的一个子集(即重放数据,假设该子集为500张图片),首先利用重放数据计算每个域的平均特征近似值,即
Figure BDA0004031037900000102
其中,
Figure BDA0004031037900000111
为领域
Figure BDA0004031037900000112
的该500张图片中第k张图片对应的融合特征。
2.计算每个输入的图像样本在特征空间中距离每个域的距离di,则特定领域的深度解码器应选取令di最小时所对应的域,其表达式可表示为:
Figure BDA0004031037900000113
s.t.di=||g(x)-ui||2
其中,g(x)为输入的图像样本对应的融合特征。
因此,在模型部署时,提出根据每个领域的平均特征的最小距离,为图像自动选择特定领域的解码器,能够实现更加精准的图像单目深度估计。
在现实世界中捕捉到的深度图在不同的领域有明显的不同,它们的数据质量和尺度都与领域有关。因此,模型必须具有具有多个预测分支,每个分支用以预测不同范围的深度图。为此,本实施例提出了一个多分支感知框架,它由一个领域共享的编码器和特定领域的解码器组成,对于每个领域的输入图像,不仅预测它们的深度图,还预测不确定性图,以排除在训练过程中由深度传感器拍摄的深度图中的离群值引起的性能下降。该框架允许跨多领域的绝对尺度的单目深度估计。为进一步克服灾难性遗忘,采用了正则化约束,利用知识蒸馏损失和重放损失项来克服显著的领域差距。当在一个新的领域学习时,该框架会动态地增长一个在此特定领域的解码器。该特定领域的解码器将用新领域的数据进行学习;在旧领域训练的其他解码器将用深度一致性和不确定性一致性以及重放损失进行正则化约束。这些正则化项相互补充以提高终身学习的稳定性和可塑性。在推理过程中,需动态地选择相应的特定领域的解码器。本申请提出通过比较图像和每个域在特征空间中的距离,则最小距离对应图像所属的域。通过广泛的数值研究,表明本申请所提出的方法可以实现良好的效率、稳定性和可塑性,在基准数据集上的精度领先已有方法8%-15%。
上面对本申请实施例中的基于终身学习的单目深度估计方法进行了描述,下面对本申请实施例中的计算机设备进行描述,请参阅图5,本申请实施例中计算机设备一个实施例包括:
获取单元501,用于获取预先训练完成的目标单目深度估计模型,所述目标单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域的解码器;
单目深度估计单元502,用于获取目标域的目标图像,将所述目标图像输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型执行以下操作:使用所述多域共享编码器对所述目标图像进行特征提取得到图像特征;使用所述多个特定领域的解码器中所述目标域对应的解码器,对所述图像特征进行计算得到所述目标域的深度估计图;
输出单元503,用于输出所述目标域的深度估计图。
本实施例一种优选的实施方式中,所述计算机设备还包括:
训练单元504,用于执行所述目标单目深度估计模型的训练步骤,所述训练步骤包括:
获取多组训练样本,每组所述训练样本包括一个领域的图像样本以及所述图像样本对应的真实领域深度图;
获取初始单目深度估计模型,所述初始单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域解码器,所述多域共享编码器包括多个残差卷积模块以及与所述多个残差卷积模块连接的多尺度特征融合模块;
将所述多组训练样本输入至所述初始单目深度估计模型,以使得所述初始单目深度估计模型执行以下操作:
使用所述多个残差卷积模块对所述图像样本进行特征提取,得到所述图像样本的多个不同尺度的中间特征;
使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征;
使用所述多个特定领域解码器对所述融合特征进行计算得到所述图像样本对应的预测领域深度图;
根据所述真实领域深度图和所述预测领域深度图构建基于不确定性的深度损失函数,根据所述基于不确定性的深度损失函数的损失值调整所述初始单目深度估计模型的模型参数,直至所述基于不确定性的深度损失函数满足收敛条件时停止模型训练,得到所述目标单目深度估计模型。
本实施例一种优选的实施方式中,所述目标单目深度估计模型为旧域的单目深度估计模型;
所述训练单元504还用于:
获取新域的图像样本,将所述新域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对所述新域的图像样本进行特征提取,得到所述新域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用在旧域上的所述多个特定领域解码器对所述融合特征进行计算得到所述新域的图像样本对应的第一预测深度图以及第一预测不确定性图;
获取所述新域对应的单目深度估计模型,将所述新域的图像样本输入至所述新域的单目深度估计模型,以使得所述新域的单目深度估计模型使用多个残差卷积模块对所述新域的图像样本进行特征提取,得到所述新域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用在旧域上的多个特定领域解码器对所述融合特征进行计算得到所述新域的图像样本对应的第二预测深度图以及第二预测不确定性图;
根据所述第一预测深度图以及所述第一预测不确定性图、所述第二预测深度图以及所述第二预测不确定性图,构建一致性损失函数,根据所述一致性损失函数的损失值调整所述新域的单目深度估计模型,直至所述一致性损失函数的损失值减小到预设数值范围时停止模型训练,得到所述新域的目标单目深度估计模型。
本实施例一种优选的实施方式中,所述训练单元504还用于:
获取训练样本,所述训练样本包括所述旧域的图像样本;
将所述旧域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对所述旧域的图像样本进行特征提取,得到所述旧域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用所述多个特定领域解码器对所述融合特征进行计算得到所述旧域的图像样本对应的第三预测深度图以及第三预测不确定性图;
根据所述第三预测深度图以及所述第三预测不确定性图,构建损失函数,根据所述损失函数的损失值调整所述目标单目深度估计模型,直至所述损失函数的损失值减小到预设数值范围时停止模型训练。
本实施例一种优选的实施方式中,计算机设备还包括:
模型部署单元505,用于获取每个域的图像样本,将每个域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对每个域的图像样本进行特征提取,得到每个域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征;
根据每个域的图像样本对应的融合特征,计算每个域的平均特征近似值;
根据所述平均特征近似值计算输入的图像样本在特征空间中距离每个域的距离,将最小的所述距离所对应的域确定为所述输入的图像样本的目标域。
本实施例中,计算机设备中各单元所执行的操作与前述图1所示实施例中描述的类似,此处不再赘述。
本实施例中,目标单目深度估计模型为一个多分支感知框架,由一个领域共享的编码器和特定领域的解码器组成,可预测输入图像的深度图及其不确定性图,以排除在训练过程中由深度传感器拍摄的深度图中离群值引起的性能下降。为进一步克服灾难性遗忘,采用了正则化约束,利用知识蒸馏损失和重放损失项来克服显著的领域差距。特定领域的解码器将用新领域的数据进行学习;在旧领域训练的其他解码器将用深度一致性和不确定性一致性以及重放损失进行正则化约束,正则化项相互补充以提高终身学习的稳定性和可塑性,从而实现更加精准的图像单目深度估计。
下面对本申请实施例中的计算机设备进行描述,请参阅图6,本申请实施例中计算机设备一个实施例包括:
该计算机设备600可以包括一个或一个以上中央处理器(central processingunits,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括对计算机设备中的一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在计算机设备600上执行存储器605中的一系列指令操作。
计算机设备600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
该中央处理器601可以执行前述图1所示实施例中计算机设备所执行的操作,具体此处不再赘述。
本申请实施例还提供了一种计算机存储介质,其中一个实施例包括:该计算机存储介质中存储有指令,该指令在计算机上执行时,使得该计算机执行前述图1所示实施例中计算机设备所执行的操作。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-onlymemory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种基于终身学习的单目深度估计方法,其特征在于,所述方法应用于计算机设备,所述方法包括:
获取预先训练完成的目标单目深度估计模型,所述目标单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域的解码器;
获取目标域的目标图像,将所述目标图像输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型执行以下操作:
使用所述多域共享编码器对所述目标图像进行特征提取得到图像特征;
使用所述多个特定领域的解码器中所述目标域对应的解码器,对所述图像特征进行计算得到所述目标域的深度估计图;
输出所述目标域的深度估计图。
2.根据权利要求1所述的方法,其特征在于,所述目标单目深度估计模型的训练步骤包括:
获取多组训练样本,每组所述训练样本包括一个领域的图像样本以及所述图像样本对应的真实领域深度图;
获取初始单目深度估计模型,所述初始单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域解码器,所述多域共享编码器包括多个残差卷积模块以及与所述多个残差卷积模块连接的多尺度特征融合模块;
将所述多组训练样本输入至所述初始单目深度估计模型,以使得所述初始单目深度估计模型执行以下操作:
使用所述多个残差卷积模块对所述图像样本进行特征提取,得到所述图像样本的多个不同尺度的中间特征;
使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征;
使用所述多个特定领域解码器对所述融合特征进行计算得到所述图像样本对应的预测领域深度图;
根据所述真实领域深度图和所述预测领域深度图构建基于不确定性的深度损失函数,根据所述基于不确定性的深度损失函数的损失值调整所述初始单目深度估计模型的模型参数,直至所述基于不确定性的深度损失函数满足收敛条件时停止模型训练,得到所述目标单目深度估计模型。
3.根据权利要求2所述的方法,其特征在于,所述目标单目深度估计模型为旧域的单目深度估计模型;
所述得到所述目标单目深度估计模型之后,所述方法还包括:
获取新域的图像样本,将所述新域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对所述新域的图像样本进行特征提取,得到所述新域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用在旧域上的所述多个特定领域解码器对所述融合特征进行计算得到所述新域的图像样本对应的第一预测深度图以及第一预测不确定性图;
获取所述新域对应的单目深度估计模型,将所述新域的图像样本输入至所述新域的单目深度估计模型,以使得所述新域的单目深度估计模型使用多个残差卷积模块对所述新域的图像样本进行特征提取,得到所述新域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用在旧域上的多个特定领域解码器对所述融合特征进行计算得到所述新域的图像样本对应的第二预测深度图以及第二预测不确定性图;
根据所述第一预测深度图以及所述第一预测不确定性图、所述第二预测深度图以及所述第二预测不确定性图,构建一致性损失函数,根据所述一致性损失函数的损失值调整所述新域的单目深度估计模型,直至所述一致性损失函数的损失值减小到预设数值范围时停止模型训练,得到所述新域的目标单目深度估计模型。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本包括所述旧域的图像样本;
将所述旧域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对所述旧域的图像样本进行特征提取,得到所述旧域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用所述多个特定领域解码器对所述融合特征进行计算得到所述旧域的图像样本对应的第三预测深度图以及第三预测不确定性图;
根据所述第三预测深度图以及所述第三预测不确定性图,构建损失函数,根据所述损失函数的损失值调整所述目标单目深度估计模型,直至所述损失函数的损失值减小到预设数值范围时停止模型训练。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取每个域的图像样本,将每个域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对每个域的图像样本进行特征提取,得到每个域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征;
根据每个域的图像样本对应的融合特征,计算每个域的平均特征近似值;
根据所述平均特征近似值计算输入的图像样本在特征空间中距离每个域的距离,将最小的所述距离所对应的域确定为所述输入的图像样本的目标域。
6.一种计算机设备,其特征在于,所述计算机设备包括:
获取单元,用于获取预先训练完成的目标单目深度估计模型,所述目标单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域的解码器;
单目深度估计单元,用于获取目标域的目标图像,将所述目标图像输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型执行以下操作:使用所述多域共享编码器对所述目标图像进行特征提取得到图像特征;使用所述多个特定领域的解码器中所述目标域对应的解码器,对所述图像特征进行计算得到所述目标域的深度估计图;
输出单元,用于输出所述目标域的深度估计图。
7.根据权利要求6所述的计算机设备,其特征在于,所述计算机设备还包括:
训练单元,用于执行所述目标单目深度估计模型的训练步骤,所述训练步骤包括:
获取多组训练样本,每组所述训练样本包括一个领域的图像样本以及所述图像样本对应的真实领域深度图;
获取初始单目深度估计模型,所述初始单目深度估计模型包括多域共享编码器、与所述多域共享编码器连接的多个特定领域解码器,所述多域共享编码器包括多个残差卷积模块以及与所述多个残差卷积模块连接的多尺度特征融合模块;
将所述多组训练样本输入至所述初始单目深度估计模型,以使得所述初始单目深度估计模型执行以下操作:
使用所述多个残差卷积模块对所述图像样本进行特征提取,得到所述图像样本的多个不同尺度的中间特征;
使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征;
使用所述多个特定领域解码器对所述融合特征进行计算得到所述图像样本对应的预测领域深度图;
根据所述真实领域深度图和所述预测领域深度图构建基于不确定性的深度损失函数,根据所述基于不确定性的深度损失函数的损失值调整所述初始单目深度估计模型的模型参数,直至所述基于不确定性的深度损失函数满足收敛条件时停止模型训练,得到所述目标单目深度估计模型。
8.根据权利要求7所述的计算机设备,其特征在于,所述目标单目深度估计模型为旧域的单目深度估计模型;
所述训练单元还用于:
获取新域的图像样本,将所述新域的图像样本输入至所述目标单目深度估计模型,以使得所述目标单目深度估计模型使用所述多个残差卷积模块对所述新域的图像样本进行特征提取,得到所述新域的图像样本的多个不同尺度的中间特征,以及使用所述多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用所述多个特定领域解码器对所述融合特征进行计算得到所述新域的图像样本对应的第一预测深度图以及第一预测不确定性图;
获取所述新域对应的单目深度估计模型,将所述新域的图像样本输入至所述新域的单目深度估计模型,以使得所述新域的单目深度估计模型使用多个残差卷积模块对所述新域的图像样本进行特征提取,得到所述新域的图像样本的多个不同尺度的中间特征,以及使用多尺度特征融合模块对所述多个不同尺度的中间特征进行特征融合,得到融合特征,使用多个特定领域解码器对所述融合特征进行计算得到所述新域的图像样本对应的第二预测深度图以及第二预测不确定性图;
根据所述第一预测深度图以及所述第一预测不确定性图、所述第二预测深度图以及所述第二预测不确定性图,构建一致性损失函数,根据所述一致性损失函数的损失值调整所述新域的单目深度估计模型,直至所述一致性损失函数的损失值减小到预设数值范围时停止模型训练,得到所述新域的目标单目深度估计模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有指令,所述指令在计算机上执行时,使得所述计算机执行如权利要求1至5中任一项所述的方法。
CN202211729433.1A 2022-12-30 2022-12-30 基于终身学习的单目深度估计方法及相关设备 Pending CN115908522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211729433.1A CN115908522A (zh) 2022-12-30 2022-12-30 基于终身学习的单目深度估计方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211729433.1A CN115908522A (zh) 2022-12-30 2022-12-30 基于终身学习的单目深度估计方法及相关设备

Publications (1)

Publication Number Publication Date
CN115908522A true CN115908522A (zh) 2023-04-04

Family

ID=86473033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211729433.1A Pending CN115908522A (zh) 2022-12-30 2022-12-30 基于终身学习的单目深度估计方法及相关设备

Country Status (1)

Country Link
CN (1) CN115908522A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132841A (zh) * 2023-10-26 2023-11-28 之江实验室 一种保守渐进的领域自适应图像分类方法和装置
CN118397420A (zh) * 2024-07-01 2024-07-26 中国计量大学 一种图像目标识别方法
CN118397420B (zh) * 2024-07-01 2024-09-06 中国计量大学 一种图像目标识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117132841A (zh) * 2023-10-26 2023-11-28 之江实验室 一种保守渐进的领域自适应图像分类方法和装置
CN117132841B (zh) * 2023-10-26 2024-03-29 之江实验室 一种保守渐进的领域自适应图像分类方法和装置
CN118397420A (zh) * 2024-07-01 2024-07-26 中国计量大学 一种图像目标识别方法
CN118397420B (zh) * 2024-07-01 2024-09-06 中国计量大学 一种图像目标识别方法

Similar Documents

Publication Publication Date Title
CN111190981B (zh) 一种三维语义地图的构建方法、装置、电子设备及存储介质
CN107369166B (zh) 一种基于多分辨率神经网络的目标跟踪方法及系统
KR20220029335A (ko) 깊이 이미지를 보완하는 방법 및 장치
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN113159283B (zh) 一种基于联邦迁移学习的模型训练方法及计算节点
CN108629291B (zh) 一种抗网格效应的人脸深度预测方法
CN110503680A (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
WO2020062911A1 (en) Actor ensemble for continuous control
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN111914878B (zh) 特征点跟踪训练及跟踪方法、装置、电子设备及存储介质
CN111476835B (zh) 多视角图像一致性的无监督深度预测方法、系统、装置
Zhang et al. Rigid image registration by PSOSQP algorithm
CN114723047B (zh) 任务模型训练方法、装置以及系统
CN111553477A (zh) 图像处理方法、装置及存储介质
US20230098548A1 (en) Image processing method and apparatus, computer device, program, and storage medium
CN111898735A (zh) 蒸馏学习方法、装置、计算机设备和存储介质
CN115908522A (zh) 基于终身学习的单目深度估计方法及相关设备
CN112101207A (zh) 一种目标跟踪方法、装置、电子设备及可读存储介质
Tian et al. 3D scene geometry-aware constraint for camera localization with deep learning
CN114638408A (zh) 一种基于时空信息的行人轨迹预测方法
CN114782864A (zh) 一种信息处理方法、装置、计算机设备及存储介质
CN114821404A (zh) 一种信息处理方法、装置、计算机设备及存储介质
KR20220154578A (ko) 이미지 디노이징을 수행하는 이미지 프로세싱 장치
CN117788544A (zh) 一种基于轻量级注意力机制的图像深度估计方法
CN116416212B (zh) 路面破损检测神经网络训练方法及路面破损检测神经网络

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination