CN114022799A - 一种自监督单目深度估计方法和装置 - Google Patents
一种自监督单目深度估计方法和装置 Download PDFInfo
- Publication number
- CN114022799A CN114022799A CN202111117413.4A CN202111117413A CN114022799A CN 114022799 A CN114022799 A CN 114022799A CN 202111117413 A CN202111117413 A CN 202111117413A CN 114022799 A CN114022799 A CN 114022799A
- Authority
- CN
- China
- Prior art keywords
- depth
- model
- map
- teacher model
- uncertainty
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及深度估计技术领域,更为具体来说,本申请涉及一种自监督单目深度估计方法和装置。所述方法包括:获取视频数据;将所述视频数据输入训练好的教师模型,得到第一深度图;将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。本申请可以有效地估计深度图,能感知并屏蔽深度估计结果中存在的噪声,使模型达到更好的估计精度,带来明显的性能提升。本申请以深度不确定性图的方式评价噪声的大小,提高了深度估计方法在真实环境中如无人驾驶等各种应用场景的可用性。
Description
技术领域
本申请涉及深度估计技术领域,更为具体来说,本申请涉及一种自监督单目深度估计方法和装置。
背景技术
深度估计是几乎所有移动机器人的高级应用,如自动驾驶等。虽然已有的传统方法通过双目相机、激光雷达、毫米波雷达等传感器或多或少地解决了这一问题,但是这些设备往往价格高昂且难以部署,因此人们逐渐对于使用成本低廉、部署简单、分辨率较高的单目摄像头实现深度估计产生了兴趣。
如今,基于深度学习的方法在许多图像处理任务中都显示出强大的性能。神经网络通过有监督的学习方法可以直接从单张图像中恢复出深度信息。但是这些方法需要大量带有精确标注的深度图作为标签,从而限制了自身的泛化能力。已有的工作在图像满足光度不变性的假设下,将深度估计任务与位姿估计任务结合起来,提出了一种新颖的自监督训练范式。这种自监督范式使用连续的图像数据作为输入,将目标帧与重建出的新图像之间的差异(即光度误差)作为监督信号,达到了与有监督方法相近的精度。
然而,深度学习固有的低可解释性问题仍然存在,阻碍了其在真实场景中的部署和应用,换言之,如何在单目自监督深度估计算法中应用不确定性仍然是一个有待解决的问题。
发明内容
基于上述技术问题,本发明旨在提供一种自训练机制和自提升机制的自监督单目深度估计方法与装置,教师模型采用自训练机制,学生模型采用自提升机制,教师模型和学生模型进行联合训练,训练好的教师模型能预测高精度的深度图,训练好的学生模型可以预测高精度的深度图和深度不确定性图。
本发明第一方面提供了一种自监督单目深度估计方法,包括:
获取视频数据;
将所述视频数据输入训练好的教师模型,得到第一深度图;
将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
具体地,所述教师模型和所述学生模型采取联合训练,包括:
向教师模型载入无标注的视频数据;
采取自监督训练方式进行训练教师模型,预测得到第三深度图;
基于所述第三深度图创建带有伪标注的深度估计任务数据集;
利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练。
进一步地,所述利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练之后,还包括:
判断教师模型和学生模型是否收敛,若收敛则结束训练;
若不收敛则预测得到第二深度不确定性图,并基于所述第二深度不确定性图计算深度不确定性遮罩;
利用所述深度不确定性遮罩优化所述教师模型。
优选地,所述向教师模型载入无标注的视频数据之后,还包括:
判断教师模型是否存在深度不确定性遮罩,如果是,载入所述深度不确定性遮罩,如果否,载入空白遮罩。
再进一步地,所述并基于第二深度不确定性图计算深度不确定性遮罩的计算公式为:
其中,∑s表示第二深度不确定性图,P95%表示深度不确定性图中第95个百分位数。
进一步具体地,所述教师模型包括深度估计网络、图像特征提取网络和位姿估计网络,所述将所述视频数据输入训练好的教师模型,得到第一深度图,包括:
所述将所述视频数据输入训练好的教师模型;
所述深度估计网络输出第一深度图。
优选地,所述教师模型还通过反向传播进行训练与优化,具体包括:
将连续两帧训练图像输入教师模型,其中,所述连续两帧训练图像包括目标帧和参考帧;
将所述目标帧发送到所述深度估计网络得到第四深度图;
将所述目标帧和所述参考帧经过图像特征提取网络处理后按照通道拼接在一起后送入所述位姿估计网络,得到位姿变换矩阵;
利用所述第四深度图、所述位姿变换矩阵及所述参考帧通过反投影和双线性插值得到所述目标帧的重建帧;
基于所述重建帧和所述目标帧的差异采取反向传播进行训练与优化教师模型。
另外优选地,基于教师模型的第一深度图约束学生模型的第二深度图和第一深度不确定性图,约束所构造的损失函数为:
其中,V表示图像中的所有像素点,Dt表示第一深度图,Ds表示第二深度图,∑s表示第一深度不确定性图。
本发明第二方面提供了一种自监督单目深度估计装置,所述装置包括:
获取模块,用于获取视频数据;
深度图获得模块,用于将所述视频数据输入训练好的教师模型,得到第一深度图;
不确定图获得模块,用于将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
本发明第三方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行如下步骤:
获取视频数据;
将所述视频数据输入训练好的教师模型,得到第一深度图;
将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
本申请的有益效果为:本申请所述方法可以有效地估计深度图,能感知并屏蔽深度估计结果中存在的噪声,使模型达到更好的估计精度,带来明显的性能提升。本申请以深度不确定性图的方式评价噪声的大小,提高了深度估计方法在真实环境中如无人驾驶等各种应用场景的可用性。采用深度不确定性遮罩调优后的教师模型能够预测出更加合理的结果,基于教师模型预测的深度图约束学生模型预测的深度图和深度不确定性图,使学生模型进一步提升了深度估计结果的精度。此外,本申请还能够排除不准确的深度估计结果对自监督信号的干扰,能够有效地解决模型趋近收敛时,光度误差和几何一致性误差对深度估计噪声敏感的问题,提升了算法的收敛能力。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1示出了本申请示例性实施例的方法步骤示意图;
图2示出了本申请示例性实施例中的方法流程图;
图3示出了本申请示例性实施例中的教师模型的工作过程示意图;
图4示出了本申请示例性实施例中的自提升结构体的工作过程示意图;
图5示出了本申请示例性实施例中的深度误差示意图;
图6示出了本申请示例性实施例中的装置结构示意图;
图7示出了本申请示例性实施例所提供的一种电子设备的结构示意图;
图8示出了本申请示例性实施例所提供的一种存储介质的示意图。
具体实施方式
以下,将参照附图来描述本申请的实施例。但是应该理解的是,这些描述只是示例性的,而并非要限制本申请的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本申请的概念。对于本领域技术人员来说显而易见的是,本申请可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本申请发生混淆,对于本领域公知的一些技术特征未进行描述。
应予以注意的是,这里所使用的术语仅是为了描述具体实施例,而非意图限制根据本申请的示例性实施例。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式。此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或附加一个或多个其他特征、整体、步骤、操作、元件、组件和/或它们的组合。
现在,将参照附图更详细地描述根据本申请的示例性实施例。然而,这些示例性实施例可以多种不同的形式来实施,并且不应当被解释为只限于这里所阐述的实施例。附图并非是按比例绘制的,其中为了清楚表达的目的,可能放大了某些细节,并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的,实际中可能由于制造公差或技术限制而有所偏差,并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。
下面结合说明书附图1-8给出几个实施例来描述根据本申请的示例性实施方式。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
实施例1:
本实施例实施了一种自监督单目深度估计方法,如图1所示,包括:
S1、获取视频数据;
S2、将所述视频数据输入训练好的教师模型,得到第一深度图;
S3、将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
具体地,所述教师模型和所述学生模型采取联合训练,包括:
向教师模型载入无标注的视频数据;
采取自监督训练方式进行训练教师模型,预测得到第三深度图;
基于所述第三深度图创建带有伪标注的深度估计任务数据集;
利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练。
进一步地,所述利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练之后,还包括:
判断教师模型和学生模型是否收敛,若收敛则结束训练;
若不收敛则预测得到第二深度不确定性图,并基于所述第二深度不确定性图计算深度不确定性遮罩;
利用所述深度不确定性遮罩优化所述教师模型。
优选地,所述向教师模型载入无标注的视频数据之后,还包括:
判断教师模型是否存在深度不确定性遮罩,如果是,载入所述深度不确定性遮罩,如果否,载入空白遮罩。
再进一步地,所述并基于第二深度不确定性图计算深度不确定性遮罩的计算公式为:
其中,∑s表示第二深度不确定性图,P95%表示深度不确定性图中第95个百分位数。这里需要说明的是,深度图是一个和图像长宽相同的二维矩阵。该矩阵中的每一个元素都代表了在对应的图像坐标上,模型预测出的深度,即真实世界中物体到相机的距离。在实际应用场景中,如无人驾驶场景,我们可以通过深度图判断前方障碍物的远近,并构建出场景的三维地图,从而指导无人车及时调整路径,避免发生碰撞。但并没有一个指标或方法能够表示深度图质量的好坏。在某些场景下,神经网络可能会估计出完全错误的深度。在这种情况下,无人车可能无法做出正确决策,导致事故的发生。因此本申请采用深度不确定性图来表示深度图的质量。深度不确定性图是一个与深度图长宽相同的二维矩阵,其中的每一个元素都代表了深度图对应坐标上深度值的好坏。若一个深度值的深度不确定性很高,则可认为该深度值大概率是不准确的;若一个深度值的深度不确定性很低,则可认为该深度值大概率是准确的。第95个百分位数,可以理解为100%减掉5%,是将不确定性图中所有的元素按照大小(不确定性值的大小)排列,如果这个元素是最大的5%,深度不确定性遮罩的值就为0,否则为1。
进一步具体地,所述教师模型包括深度估计网络、图像特征提取网络和位姿估计网络,所述将所述视频数据输入训练好的教师模型,得到第一深度图,包括:所述将所述视频数据输入训练好的教师模型;所述深度估计网络输出第一深度图。
优选地,所述教师模型还通过反向传播进行训练与优化,具体包括:将连续两帧训练图像输入教师模型,其中,所述连续两帧训练图像包括目标帧和参考帧;将所述目标帧发送到所述深度估计网络得到第四深度图;将所述目标帧和所述参考帧经过图像特征提取网络处理后按照通道拼接在一起后送入所述位姿估计网络,得到位姿变换矩阵;利用所述第四深度图、所述位姿变换矩阵及所述参考帧通过反投影和双线性插值得到所述目标帧的重建帧;基于所述重建帧和所述目标帧的差异采取反向传播进行训练与优化教师模型。
另外优选地,基于教师模型的第一深度图约束学生模型的第二深度图和第一深度不确定性图,约束所构造的损失函数为:
其中,V表示图像中的所有像素点,Dt表示第一深度图,Ds表示第二深度图,∑s表示第一深度不确定性图。
本申请所述方法可以有效地估计深度图,能感知并屏蔽深度估计结果中存在的噪声,使模型达到更好的估计精度,带来明显的性能提升。本申请以深度不确定性图的方式评价噪声的大小,提高了深度估计方法在真实环境中如无人驾驶等各种应用场景的可用性。采用深度不确定性遮罩调优后的教师模型能够预测出更加合理的结果,基于教师模型预测的深度图约束学生模型的预测的深度图和深度不确定性图,使学生模型进一步提升了深度估计结果的精度。此外,本申请还能够排除不准确的深度估计结果对自监督信号的干扰,能够有效地解决模型趋近收敛时,光度误差和几何一致性误差对深度估计噪声敏感的问题,提升了算法的收敛能力。
实施例2:
本实施例提供了一种自监督单目深度估计方法,如图2所示,首先构造教师模型,接着在教师模型中载入无标注的视频数据,然后判断是否存在深度不确定性遮罩,如果存在则载入深度不确定性遮罩,如果不存在则载入空白遮罩,再之后对教师模型进行自监督训练并预测得到稠密深度图,利用该稠密深度图制造伪数据集,构造学生模型并对学生模型采取有监督训练,判断教师模型和学生模型是否收敛,如果不收敛,则预测深度不确性图并基于深度不确定性图来计算深度不确定性遮罩,如果收敛则结束。另外,所计算出的不确定遮罩用于教师模型的优化,训练是迭代进行的,直到教师模型和学生模型都训练好为止。
其中,所构造的教师模型的工作过程示意图如图3所示,包括深度估计网络、图像特征提取网络和位姿估计网络,所述深度估计网络得到稠密深度图。
优选地,所述教师模型还通过反向传播进行训练与优化,具体包括:
将连续两帧训练图像输入教师模型,其中,所述连续两帧训练图像包括目标帧和参考帧;将所述目标帧发送到所述深度估计网络得到第四深度图;将所述目标帧和所述参考帧经过图像特征提取网络处理后按照通道拼接在一起后送入所述位姿估计网络,得到位姿变换矩阵;利用所述第四深度图、所述位姿变换矩阵及所述参考帧通过反投影和双线性插值得到所述目标帧的重建帧;基于所述重建帧和所述目标帧的差异采取反向传播进行训练与优化教师模型。
在一种具体的实施方式中,如图3所示,给定两帧连续的图片<Ii,Ii+1>,其中i(i>0)为时间索引,Ii为目标帧,Ii+1为参考帧。将Ii送入深度估计网络预测出稠密的深度图将Ii与Ii+1经过图像特征提取网络处理后按照通道拼接在一起后送入位姿估计网络预测出相机在i时刻到i+1时刻的位姿变换矩阵
由于视频流中相邻时刻的两帧图像对应的光照变化、曝光条件和相机位置差异较小,可以认为其满足光度不变性假设,即目标帧与参考帧中对应像素的像素值相同。因此,可以结合深度图位姿变换矩阵以及i+1时刻的图像Ii+1,通过反投影和双线性插值重建出i时刻的图像,将重建出的图像称为Ii+1。然后利用真实图像Ii与重建出的图像I′i之间的误差作为监督信号,利用反向传播训练和优化教师模型。其中,所使用的损失函数包括光度误差为:
其中,V表示目标帧投影后落到参考帧上的所有像素,而|V|表示这些像素的个数。由于落在图像外部的像素并不能提供有意义的梯度,本发明只选取投影后位于参考帧内部的像素计算像素梯度。F的计算过程为:
F(Ii,I′i)=α||Ii-I′i||1+(1-α)SSIM(Ii,I′i)
其中,SSIM表示结构相似性指标,用于计算Ii与I′i两张图片间每个小块的差异,优选地,α设置为0.15。
模型预测出的深度图应当与原始图像具有相似的物体边界,优选地,也采用了平滑损失函数:
其中,Δ表示图像坐标p处对应的像素梯度,包含横向梯度和纵向梯度。
在具体实施中,为了约束估计结果的尺度,还采用了一种几何一致性损失,其计算过程为:
其中,Di→i′表示从目标帧投影到参考帧后的深度图,D′i,表示应用双线性插值后的目标帧的深度图。该损失要求模型对每两个相邻时刻的数据预测出同一尺度的结果,因此保证了整个输入序列预测结果的一致性。
组合上述的损失项就得到了基线模型的优化目标,即:
Lbaseline=λ1Lp+λ2Ls+λ3LCG
其中,λ1、λ2和λ3表示不同损失函数的权重,分别为1.0、0.1和0.5。通过优化该基线损失,模型能够预测出较好的结果。
作为可变换的实施方式,在实际应用场景中,可以通过本申请提出的深度不确定性图判断是否要采用深度图。比如下游应用中无人车的决策控制系统可以自行设定阈值,抛弃掉不确定性高于阈值的深度值,只采用不确定性较低的深度估计结果用于参与决策。
实施例3:
本实施例提供了一种自监督单目深度估计方法,包括:获取视频数据;将所述视频数据输入训练好的教师模型,得到第一深度图;将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
具体地,联合训练采用自提升机制中的循环迭代自提升结构体,图4为自提升结构体的工作过程示意图,如图4所示,结构体工作过程包含了一个训练步骤和一个优化步骤。训练步骤采用自训练机制,以教师模型的预测结果作为数据标签,通过有监督的方式训练学生模型,使得学生模型在预测深度的同时能够输出对应的不确定性估值;优化步骤利用所得的深度不确定性进一步优化教师模型。以自监督的方式继续训练教师模型,此时将深度不确定性图作为遮罩,屏蔽可能违反光度不变假设的像素,不计算这些像素带来的光度误差与几何一致性误差。重复训练步骤和优化步骤,逐步提升教师模型和学生模型的性能,得到更加精确的估计结果。等待教师模型与学生模型充分收敛后,保存模型权重以供下游应用使用。
在训练过程中,训练步骤包括:向教师模型载入无标注的视频数据;采取自监督训练方式进行训练教师模型,预测得到第三深度图;基于所述第三深度图创建带有伪标注的深度估计任务数据集;利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练;判断教师模型和学生模型是否收敛,若收敛则结束训练;若不收敛则预测得到第二深度不确定性图,并基于所述第二深度不确定性图计算深度不确定性遮罩;利用所述深度不确定性遮罩优化所述教师模型。
进一步地,所述利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练之后,还包括:所述向教师模型载入无标注的视频数据之后,还包括:判断教师模型是否存在深度不确定性遮罩,如果是,载入所述深度不确定性遮罩,如果否,载入空白遮罩。
基于第二深度不确定性图计算深度不确定性遮罩的计算公式为:
其中,∑s表示第二深度不确定性图,P95%表示深度不确定性图中第95个百分位数。这里我们将不确定性图中所有的元素按照大小排列,如果这个元素是最大的5%,深度不确定性遮罩的值就为0,否则为1。
将深度不确定性遮罩应用在教师模型的光度误差损失和几何一致性损失中。更新后的光度误差损失为:
更新后的几何一致性损失为:
再进一步地,优化步骤可基于教师模型的第一深度图约束学生模型的第二深度图和第一深度不确定性图,约束所构造的损失函数为:
其中,V表示图像中的所有像素点,Dt表示第一深度图,Ds表示第二深度图,∑s表示第一深度不确定性图。
图5为深度误差示意图,已有的自监督方法在计算损失时考虑了每一个像素的重投影误差。这一做法在理想情况下表现优异,但是当模型估计的像素深度与真实深度差异较大时可能导致数据关联失准,从而带来极高的光度误差惩罚。如图5所示,It与Is,分别表示目标帧与参考帧,在重投影过程中,对于目标帧上的某一像素点p,当模型估计的深度值与真实深度值D(P)相差较小时能够重投影至Is得到对应的匹配点p′g,提供有意义的像素梯度。然而当模型估计的深度值与真实深度值相差较大时,点p可能重投影至p′b,将模型指向错误的优化方向。此外,由于自监督方法受违反光度不变性假设的场景(如运动物体、遮挡和伪影)所困扰,上述深度估计错误的区域将始终存在,并阻止模型的进一步收敛。因此,本申请采用教师模型的第一深度图约束学生模型的第二深度图和第一深度不确定性图,构造损失函数进行训练和优化学生模型,以达到更好的精度。
本申请与其他自监督深度估计方法对比,实验设备为台式电脑,搭载Intel Corei7-97008核8线程处理器,主频为3GHz;内存大小为64GB,频率为3200MHz。所有实验均在Ubuntu 18.04 64位操作系统上完成。我们在KITTI数据集上对所提出的自监督深度估计算法进行训练与评估。该数据集是目前里程计领域所广泛使用的数据集之一,提供了由激光雷达采集而来的深度信息以及由GPS/IMU融合得到的轨迹信息。
本申请在评估深度估计结果时采用了KITTI深度估计数据集,与原始结果对比后可以发现,采用深度不确定性遮罩调优后的教师模型能够预测出更加合理的结果。此外,通过检测并消除教师模型估计结果中的噪声,学生模型进一步提升了深度估计结果的精度。
本发明在定量评估深度估计结果时计算了7种评价深度估计结果的指标,其中AbsRel、Sq Rel、RMSE、RMSE(log)是模型预测结果与真实深度之间的误差,该值越小越好;Acc.1、Acc.2、Acc.3表示模型预测结果的准确性,该值越大越好。具体的计算公式如下所示:
其中,表示测试集中某个像素真实的深度值,di表示模型对该像素深度的预测值,N表示所有像素的总数。对于Acc指标,Acc.1、Acc.2、Acc.3分别对应阈值thr等于1.25、1.252与1.253。
从表1中能够直观地看出,教师模型与学生模型都达到了自监督方法中最优的性能表现,并且能够得到与有监督训练以及使用双目约束的自监督训练方法相近的精度。这证明了所提供的基于自训练机制和自提升机制的自监督单目深度估计方法的有效性。
除了深度外,我们还额外评估了学生模型估计深度不确定性的能力。表2展示了经过自提升训练后,学生模型与其他不确定性估计方法的性能比较。其中表2(a)评估了各方法对深度估计结果的影响,表2(b)评估了各方法不确定性估值的好坏。对于深度估计结果,我们使用了与表相同的指标;对于不确定性估计结果,我们对Abs Rel、RMSE和1-Acc.1这三个指标分别计算了稀疏误差下的面积(Area Uncer the Sparsification Error,AUSE)与随机增益下的面积(AreaUndertheRandomGain,AURG)。AUSE与AURG都是由稀疏图(Sparsification plots)推导而来的指标。需要注意的是,对于一个不确定性估计模型,AUSE越小,AURG越大,则表明其性能越好。从表2可以看出,我们的学生模型在取得最佳深度估计精度的同时,达到了较好的不确定性估计结果。
表1深度估计精度评估结果表
表2(a)不确定性估计方法结果对比表1
表2(b)不确定性估计方法结果对比表2
实施例4:
本实施例提供了一种自监督单目深度估计装置,如图6所示,包括:
获取模块601,用于获取视频数据;
深度图获得模块602,用于将所述视频数据输入训练好的教师模型,得到第一深度图;
不确定图获得模块603,用于将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练,即基于自训练机制和自提升机制的联合训练与优化。
所述装置可以有效地估计深度图,能感知并屏蔽深度估计结果中存在的噪声,使模型达到更好的估计精度,带来明显的性能提升。所述装置以深度不确定性图的方式评价噪声的大小,提高了深度估计方法在真实环境中如无人驾驶等各种应用场景的可用性。
下面请参考图7,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图7所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的自监督单目深度估计方法,所述电子设备可以是具有触敏显示器的电子设备。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述自监督单目深度估计方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的自监督单目深度估计方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的自监督单目深度估计方法对应的计算机可读存储介质,请参考图8,图8示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的自监督单目深度估计方法。
另外,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的空分复用光网络中量子密钥分发信道分配方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任意实施方式所提供的自监督单目深度估计方法的步骤,所述方法的步骤包括:获取视频数据;将所述视频数据输入训练好的教师模型,得到第一深度图;将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
需要说明的是:在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
最后还需要强调的是,本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序。实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种自监督单目深度估计方法,其特征在于,包括:
获取视频数据;
将所述视频数据输入训练好的教师模型,得到第一深度图;
将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
2.根据权利要求1所述的自监督单目深度估计方法,其特征在于,所述教师模型和所述学生模型采取联合训练,包括:
向教师模型载入无标注的视频数据;
采取自监督训练方式进行训练教师模型,预测得到第三深度图;
基于所述第三深度图创建带有伪标注的深度估计任务数据集;
利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练。
3.根据权利要求2所述的自监督单目深度估计方法,其特征在于,所述利用所述带有伪标注的深度估计任务数据集对学生模型采取有监督训练之后,还包括:
判断教师模型和学生模型是否收敛,若收敛则结束训练;
若不收敛则预测得到第二深度不确定性图,并基于所述第二深度不确定性图计算深度不确定性遮罩;
利用所述深度不确定性遮罩优化所述教师模型。
4.根据权利要求3所述的自监督单目深度估计方法,其特征在于,所述向教师模型载入无标注的视频数据之后,还包括:
判断教师模型是否存在深度不确定性遮罩,如果是,载入所述深度不确定性遮罩,如果否,载入空白遮罩。
7.根据权利要求1所述的自监督单目深度估计方法,其特征在于,所述教师模型包括深度估计网络、图像特征提取网络和位姿估计网络,所述将所述视频数据输入训练好的教师模型,得到第一深度图,包括:
将所述视频数据输入训练好的教师模型;
所述深度估计网络输出第一深度图。
8.根据权利要求7所述的自监督单目深度估计方法,其特征在于,所述教师模型还通过反向传播进行训练与优化,具体包括:
将连续两帧训练图像输入教师模型,其中,所述连续两帧训练图像包括目标帧和参考帧;
将所述目标帧发送到所述深度估计网络得到第四深度图;
将所述目标帧和所述参考帧经过图像特征提取网络处理后按照通道拼接在一起后送入所述位姿估计网络,得到位姿变换矩阵;
利用所述第四深度图、所述位姿变换矩阵及所述参考帧通过反投影和双线性插值得到所述目标帧的重建帧;
基于所述重建帧和所述目标帧的差异采取反向传播进行训练与优化教师模型。
9.一种自监督单目深度估计装置,其特征在于,所述装置包括:
获取模块,用于获取视频数据;
深度图获得模块,用于将所述视频数据输入训练好的教师模型,得到第一深度图;
不确定图获得模块,用于将所述视频数据输入训练好的学生模型,得到第二深度图和第一深度不确定性图;
其中,所述教师模型的训练方式为自监督训练方式,所述学生模型的训练方式为有监督训练方式,且所述教师模型和所述学生模型采取联合训练。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-8任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111117413.4A CN114022799A (zh) | 2021-09-23 | 2021-09-23 | 一种自监督单目深度估计方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111117413.4A CN114022799A (zh) | 2021-09-23 | 2021-09-23 | 一种自监督单目深度估计方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022799A true CN114022799A (zh) | 2022-02-08 |
Family
ID=80054703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111117413.4A Pending CN114022799A (zh) | 2021-09-23 | 2021-09-23 | 一种自监督单目深度估计方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022799A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219900A (zh) * | 2022-02-21 | 2022-03-22 | 北京影创信息科技有限公司 | 基于混合现实眼镜的三维场景重建方法、重建系统和应用 |
CN114782782A (zh) * | 2022-06-20 | 2022-07-22 | 武汉大学 | 一种单目深度估计模型学习性能的不确定性量化方法 |
CN114993306A (zh) * | 2022-08-04 | 2022-09-02 | 中国人民解放军国防科技大学 | 一种尺度自恢复的视觉惯性组合导航方法和装置 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
WO2023168815A1 (zh) * | 2022-03-09 | 2023-09-14 | 平安科技(深圳)有限公司 | 单目深度估计模型的训练方法、装置、设备及存储介质 |
CN117268345A (zh) * | 2023-11-20 | 2023-12-22 | 启元实验室 | 一种高实时性单目深度估计测量方法、装置及电子设备 |
-
2021
- 2021-09-23 CN CN202111117413.4A patent/CN114022799A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114219900A (zh) * | 2022-02-21 | 2022-03-22 | 北京影创信息科技有限公司 | 基于混合现实眼镜的三维场景重建方法、重建系统和应用 |
CN114219900B (zh) * | 2022-02-21 | 2022-07-01 | 北京影创信息科技有限公司 | 基于混合现实眼镜的三维场景重建方法、重建系统和应用 |
WO2023168815A1 (zh) * | 2022-03-09 | 2023-09-14 | 平安科技(深圳)有限公司 | 单目深度估计模型的训练方法、装置、设备及存储介质 |
CN114998411A (zh) * | 2022-04-29 | 2022-09-02 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN114998411B (zh) * | 2022-04-29 | 2024-01-09 | 中国科学院上海微系统与信息技术研究所 | 结合时空增强光度损失的自监督单目深度估计方法和装置 |
CN114782782A (zh) * | 2022-06-20 | 2022-07-22 | 武汉大学 | 一种单目深度估计模型学习性能的不确定性量化方法 |
CN114782782B (zh) * | 2022-06-20 | 2022-10-04 | 武汉大学 | 一种单目深度估计模型学习性能的不确定性量化方法 |
CN114993306A (zh) * | 2022-08-04 | 2022-09-02 | 中国人民解放军国防科技大学 | 一种尺度自恢复的视觉惯性组合导航方法和装置 |
CN114993306B (zh) * | 2022-08-04 | 2022-10-28 | 中国人民解放军国防科技大学 | 一种尺度自恢复的视觉惯性组合导航方法和装置 |
CN117268345A (zh) * | 2023-11-20 | 2023-12-22 | 启元实验室 | 一种高实时性单目深度估计测量方法、装置及电子设备 |
CN117268345B (zh) * | 2023-11-20 | 2024-03-29 | 启元实验室 | 一种高实时性单目深度估计测量方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11557085B2 (en) | Neural network processing for multi-object 3D modeling | |
Ming et al. | Deep learning for monocular depth estimation: A review | |
Xu et al. | Cobevt: Cooperative bird's eye view semantic segmentation with sparse transformers | |
Dong et al. | Towards real-time monocular depth estimation for robotics: A survey | |
CN114022799A (zh) | 一种自监督单目深度估计方法和装置 | |
Žbontar et al. | Stereo matching by training a convolutional neural network to compare image patches | |
US11482014B2 (en) | 3D auto-labeling with structural and physical constraints | |
US10755426B2 (en) | Efficient scene depth map enhancement for low power devices | |
US11064178B2 (en) | Deep virtual stereo odometry | |
Ke et al. | Gsnet: Joint vehicle pose and shape reconstruction with geometrical and scene-aware supervision | |
US11687773B2 (en) | Learning method and recording medium | |
US20230080133A1 (en) | 6d pose and shape estimation method | |
US11783500B2 (en) | Unsupervised depth prediction neural networks | |
US20210097266A1 (en) | Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision | |
US11948310B2 (en) | Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator | |
CN116433903A (zh) | 实例分割模型构建方法、系统、电子设备及存储介质 | |
CN115294539A (zh) | 多任务检测方法及装置、存储介质、终端 | |
CN110827341A (zh) | 一种图片深度估计方法、装置和存储介质 | |
CN112396657A (zh) | 一种基于神经网络的深度位姿估计方法、装置及终端设备 | |
Fan et al. | Computer stereo vision for autonomous driving: Theory and algorithms | |
CN114972492A (zh) | 一种基于鸟瞰图的位姿确定方法、设备和计算机存储介质 | |
CN112800822A (zh) | 利用结构约束和物理约束进行3d自动标记 | |
CN114627438A (zh) | 目标检测模型生成方法、目标检测方法、设备及介质 | |
Hashimoto et al. | Fadec: FPGA-based acceleration of video depth estimation by hw/sw co-design | |
Pei et al. | RISAT: real-time instance segmentation with adversarial training |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |