CN114782782B - 一种单目深度估计模型学习性能的不确定性量化方法 - Google Patents

一种单目深度估计模型学习性能的不确定性量化方法 Download PDF

Info

Publication number
CN114782782B
CN114782782B CN202210696178.9A CN202210696178A CN114782782B CN 114782782 B CN114782782 B CN 114782782B CN 202210696178 A CN202210696178 A CN 202210696178A CN 114782782 B CN114782782 B CN 114782782B
Authority
CN
China
Prior art keywords
uncertainty
model
strategy
snapshot
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210696178.9A
Other languages
English (en)
Other versions
CN114782782A (zh
Inventor
肖春霞
郑圣杰
罗飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202210696178.9A priority Critical patent/CN114782782B/zh
Publication of CN114782782A publication Critical patent/CN114782782A/zh
Application granted granted Critical
Publication of CN114782782B publication Critical patent/CN114782782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及单目深度估计领域,公开了一种单目深度估计模型学习性能的不确定性量化方法,通过设计不确定性测量策略、不确定性引导策略和不确定性后处理策略。不仅能高效测量自监督单目深度模型输出深度图的不确定性,并且可以利用不确定性信息引导网络学习和对深度图进行后处理。本发明简单有效,不需要添加网络模块,避免了对基线模型网络结构的修改,可推广到现有和未来的自监督单目深度模型当中。

Description

一种单目深度估计模型学习性能的不确定性量化方法
技术领域
本发明涉及单目深度估计领域,提供了一种单目深度估计模型学习性能的不确定性量化方法,具体包括不确定性测量策略、不确定性引导策略和不确定性后处理策略。
背景技术
深度估计是诸多复杂计算机视觉任务的重要一环,例如增强现实中的虚拟物体摆放和碰撞检测,场景重建中的遮挡判定,自动驾驶中的距离检测等。深度估计的方法分为两类,一类是使用LiDAR和ToF这样的工业测距设备进行主动测距,另一类是结合消费级相机和基于机器学习的方法来进行深度估计。工业测距设备通过计量光的飞行时间来计算距离,抗干扰性强,易于标定,精度较高,但是设备成本高昂,工作环境受限,传感器自带噪声并且功耗高,生成深度图的分辨率和帧率都十分有限。基于机器学习的深度估计方法则不需要复杂的传感器,成本较低,并且可以提供更高分辨率和帧率的深度图。
基于机器学习的深度估计方法分为两类:传统方法和基于深度学习的方法。传统方法基于多视图几何或者机器学习模型对单幅图像进行深度估计。代表方法有双目立体匹配,运动恢复结构等。传统方法主要通过视图间的特征点匹配来估计深度,生成的深度图较为稀疏并且计算量较大。随着深度学习的发展,单目深度估计逐渐成为深度估计领域中的一个热门研究课题。
单目深度估计是给定一幅RGB图像,通过单目深度网络估算出对应的稠密深度图。单目深度估计的应用前景广泛,它可以缓解无人驾驶对于昂贵的激光雷达传感器的需求,同时也可以用于支持新的单视图应用,如图像编辑和AR合成等。基于深度学习的单目深度估计方法可以分为两类:有监督学习方法和自监督学习方法。有监督学习方法构建网络直接从大量的数据中学习空间距离和RGB特征之间的关系,但是具有高质量真实深度信息GT的数据集往往难以获取。自监督学习方法基于双目立体几何或SFM原理,通过光度重构损失函数来估算深度信息。自监督学习方法的训练不依赖真实的深度信息,训练时只使用RGB图像。根据训练方法的不同,可将训练流程分为单目视频、立体图像对和混合数据流三种训练范式。目前自监督学习方法的精度与有监督学习方法的精度相比还是存在一定的差距,如何进一步提升自监督单目深度估计网络的精度受到越来越多的关注。
自监督单目深度估计的核心损失函数是光度重构损失。该损失函数通过计算参考图像与深度投影图像之间的光度距离来约束网络输出正确的深度图。该损失函数通过计算目标图像与深度投影图像之间的光度距离来约束网络输出正确的深度图。但是光度重构损失函数存在一个很严重的缺陷,即在低纹理区域、运动物体和遮挡区域等估算的深度值具有歧义性,容易使网络陷入局部最优。因此,自监督单目深度网络的训练较为复杂,精度有限。因此仅仅使用光度重构损失函数进行约束是不够的。
现有工作为了提高自监督单目深度网络的深度估算精度,除了优化基本的光度重构损失以外,还采用了辅助性网络模块,预处理以及后处理等技术。然而,这些技术还不足以解决自监督单目深度估计网络在训练过程遇到的所有问题。因为现有改进方法都依赖于明确的应用前提,训练集中弱纹理区域、光照变化、运动物体和遮挡区域对模型的负面影响始终不能完全消除。现有的单目深度估计网络仍然是欠约束的。网络的欠约束问题表现为深度估计的不确定性。已有工作开始从不确定性度量的角度对单目深度估计展开研究。自监督单目深度估计的不确定性来源有两个:数据集的不确定性和网络自身结构的不确定性。二者分别从训练集所包含噪声和模型自身学习能力这两个方面来估算网络输出深度图的不确定性。
自监督单目深度网络在训练过程中由于约束不足导致估算的深度具有歧义性,因此不确定性度量是一个非常重要的研究方向。自监督单目深度估计的不确定性度量对深度图赋予一个不确定性图。不确定性信息指出了深度图中可能存在错误的区域,既可以用来对深度图进行修复,也可以用来引导深度图的使用。因此不确定性度量对于基于单目深度图的复杂任务具有重要意义。
发明内容
为了克服上述不足,本发明提供了一种单目深度估计模型学习性能的不确定性量化方法,基于集成的不确定性后处理策略,对深度图进行修正,以提升最终深度估计的精度和鲁棒性。
本发明所设计的用于提升自监督单目深度估计模型学习性能的不确定性量化方法,具体包括不确定性测量策略、不确定性引导策略和不确定性后处理策略。包含以下步骤:
步骤1,选择基线模型;
步骤2,基线模型进行自监督训练;
步骤3,分别基于快照策略Snapshot策略和暹罗策略Siam计算单目深度模型方差,差越大的对应着不确定性越高,方差大于阈值的区域判定为不确定性区域;
步骤4,基于步骤3中计算的不确定性进行不确定性区域评估,判定不确定性高于阈值的区域为不确定性区域,同时赋予高训练权重;
步骤5,训练完成后分别基于Snapshot策略和Siam策略构建模型集合;
步骤6,使用基于集成的不确定性后处理策略对深度图进行后处理;
所述步骤1具体如下:Snapshot策略不对基线模型做处理。Siam策略基于基础网络构建子网络完全一样的双网络结构。
所述步骤3具体如下:Snapshot策略通过计算相邻迭代周期保存模型的方差来量化不确定性。Siam策略通过计算当前迭代周期内两个子网络的方差来量化不确定性。
所述步骤4具体如下:基于步骤3中计算的不确定性进行不确定性区域评估,判定不确定性高于阈值的区域为不确定性区域,不确定性高于均值的区域判定为不确定性区域,赋予高的训练权重,不确定性越高,训练权重越大。
所述步骤5具体如下:Snapshot策略通过选取模型迭代过程中倒数5个迭代周期保存的模型构建集合。Siam策略通过选取模型迭代过程中最后1个迭代周期保存的两个子模型构建集合。
所述步骤6具体如下:Snapshot策略构建的集合,对于不确定性高的区域,使用最后一个迭代周期保存的模型进行深度估计,对于不确定性低的区域,使用集合均值进行估计。Siam策略构建的集合,对于不确定性高的区域,使用性能较好的子模型进行深度估计,对于不确定性低的区域,使用集合均值进行估计。
进一步地,所述步骤1中选择Monodepth2和Hints两个基线模型。
进一步地,所述步骤3的具体过程为:
Snapshot通过计算相邻迭代周期保存模型的方差来量化不确定性, Siam通过计算当前迭代周期内两个子网络的方差来量化不确定性;Snapshot策略和Siam策略按照如下方式来计算不确定性;基线模型Γ在训练到第ith个迭代周期,对于输入图像I生成深度图所对应的不确定mask um,函数um=UM(),其公式如下:
Figure 632839DEST_PATH_IMAGE001
其中,F表示用于计算不确定性的模型集合,集合成员在Snapshot和Siam两种策略 当中是不同的,F Snapshot 包含N个相邻的迭代周期保存的模型,但是不包含正在训练的第i个 模型;F Siam 只包含由基线模型构造的两个孪生子网络,d i 为基线模型Γ在第i个迭代周期h的 生成的深度图,
Figure 222084DEST_PATH_IMAGE002
Figure 736242DEST_PATH_IMAGE003
F Snapshot F Siam 对应模型集合生成深度图的平均值,
Figure 554287DEST_PATH_IMAGE004
的分辨率与输入图像一致。
进一步地,所述步骤4中均值
Figure 837501DEST_PATH_IMAGE005
计算公式如下:
Figure 394384DEST_PATH_IMAGE006
其中cell是u m 中的所有像素的集合,u m (cell)用于获取每个像素对应的不确定性值,|u m |表示u m 中的所有像素的数目,u m 的分辨率与深度图还有输入图像的分辨率都是一致的。
更进一步地,步骤4中高于阈值的区域为不确定性区域,其处理过程为:
对于不确定的像素对应的深度值计算的损失,要额外乘以惩罚系数,惩罚系数的大小与不确定程度成正相关,L是基线模型Γ的损失函数,它将作用于输入图像对应深度图的每个像素计算光度重构损失,在添加不确定性引导机制后,新的损失函数L '可以表示为:
Figure 582789DEST_PATH_IMAGE007
其中,λ是一个经验参数,用来控制给不确定性像素多少权重。
再进一步地,所述步骤6的具体过程为:
当Snapshot策略或Siam策略完成训练时,基于集成的不确定性后处理策略根据这两种策略构建集合方式的不同对应构建不同的集成策略,
Figure 516110DEST_PATH_IMAGE008
其中,F表示用于计算不确定性的模型集合,Γ '表示Snapshot中的最后一个迭代 周期保存的模型或Siam中两个子网络中性能较优的一个;
Figure 653830DEST_PATH_IMAGE009
是由
Figure 67101DEST_PATH_IMAGE010
生成的深度图;
Figure 290272DEST_PATH_IMAGE011
对应
Figure 761704DEST_PATH_IMAGE002
Figure 3199DEST_PATH_IMAGE003
本发明的优点在于:
提出的不确定性量化方法不需要添加网络模块,避免了对基线模型的大幅修改。因此该策略可以便捷地推广到现有自监督单目深度估计模型当中。选择目前性能良好的经典模型Monodepth2和Hints作为基线模型,通过综合比较和消融实验来验证本发明策略的有效性。
提出一种用于提升自监督单目深度估计模型学习性能的不确定性量化方法,从学习策略方面提升现有自监督单目深度估计模型的深度估计性能而不需要对策略应用的模型本身网络结构进行修改。基于深度学习的单目深度估计是一个二维像素回归问题,单目深度估计模型根据输入RGB图片估算出对应的深度图。自监督单目深度估计模型的核心损失函数是光度重构损失函数。该损失函数通过计算目标图像与深度投影图像之间的光度距离来约束网络输出正确的深度图。但是光度重构损失函数存在一个很严重的缺陷,即在低纹理区域、运动物体和遮挡区域等估算的深度值具有歧义性,容易使网络陷入局部最优。现有工作对光度重构损失函数做了一定的改进但是仍然不能完全消除该损失函数存在的缺陷。所以现有的自监督单目深度估计模型的损失优化函数是欠约束的,反映到对训练集场景中不同区域,深度神经网络的学习收敛能力是不同的。基于此事实现状,本发明进一步观察到:对于训练集相同场景中损失约束良好的区域,模型易于收敛,并在不同迭代周期的输出深度值相对稳定,表现为确定性;对于训练集相同场景中损失欠约束的区域,模型难以收敛,并在不同迭代周期的输出深度值不稳定,表现为不确定性。本发明从模型自身的学习特性出发,进行不确定性量化,同时基于不确定性信息提升学习引导和深度图后处理,而不需要添加额外的辅助模块。
不同于通过改变整体模型参数的不确定性评估方法,本发明从模型自身学习的特 点出发,基于快照策略Snapshot和暹罗策略Siam探究确定性和不确定性之间的学习难度差 异。Snapshot策略通过计算相邻迭代周期保存模型的方差来量化不确定性,Siam策略通过 计算当前迭代周期内两个暹罗子网络的方差来量化不确定性。模型对于约束良好的区域在 迭代的过程中会快速收敛,因此方差较小。而对于欠约束的区域,模型估算的深度会具有歧 义性,这种歧义性会导致模型对该区域估算的深度值具有较大的方差。因此本发明用模型 的方差来度量不确定性,方差越大不确定性越高。模型的方差是指不同模型对于相同输入 的输出方差,基于模型方差生成的不确定
Figure 105147DEST_PATH_IMAGE012
是二维的并且与训练RGB图片分辨率相同, 可以精确引导基线模型对于每个像素点的学习。
附图说明
图1是本发明的总体流程图。
图2是本发明的Snapshot策略流程图。
图3是本发明的Siam策略流程图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员理解本发明,并不对本发明作任何的限制。
本发明提供了一种单目深度估计模型学习性能的不确定性量化方法,主要包括不确定性测量策略、不确定性引导策略和不确定性后处理策略。具体含以下步骤:
步骤1,本发明分别选择Monodepth2和Hints两个基线模型进行试验。其中,Monodepth2是一个性能良好的自监督单目深度模型, Hints是一个性能良好的半监督模型,以这两个基线模型作为代表验证本发明可以推广到其他基线模型当中去。Snapshot策略不对基线模型做处理。Siam策略基于基础网络构建子网络完全一样的双网络结构。
步骤2,保持基线模型的原有参数进行训练。
步骤3,分别基于快照策略Snapshot策略和暹罗策略Siam计算单目深度模型方差,量化不确定性mask。传统的Snapshot策略是一种集成多个模型来求解单值优化问题的方法,本发明针对提出了新的Snapshot策略。为了将Snapshot进行扩展,使之适用于二维图像的深度估计任务,需要准确区分确定性像素和不确定性像素。本发明选择连续迭代周期的保存模型作为一个集合,并判断当前输入图像当中哪些像素对应的深度值稳定和哪些像素对应的深度值不稳定,即深度值波动是否大于方差的均值。根据相邻迭代周期模型对良好约束的区域易于收敛,预测能力相近,欠约束区域估算深度存在歧义性,输出波动较大的特点,提出了新的Snapshot策略。传统的Siam策略通过构建双网络结构来分解复杂的目标任务。本发明基于网络模型的垂直方差进行考虑,结合不确定性问题构建新的Siam网络。本发明构建的Siam网络中两个子网络的网络结构完全相同,两个子网络同时进行训练,并在每个迭代周期中根据两个子网络对于同一输入图像输出深度图的方差,来判定深度图中的确定性区域与不确定性区域。
本发明的Snapshot策略通过计算相邻迭代周期保存模型的方差来量化不确定性。Siam策略通过计算当前迭代周期内两个子网络的方差来量化不确定性。Snapshot策略和Siam策略按照如下方式来计算不确定性。Snapshot和Siam按照如下方式来计算不确定性。基线模型Γ在训练到第i th 个迭代周期,对于输入图像I生成深度图所对应的不确定mask u m ,函数u m=UM(),其公式如下:
Figure 815614DEST_PATH_IMAGE013
其中,F表示用于计算不确定性的模型集合,集合成员在Snapshot和Siam两种策略 当中是不同的。F Snapshot 包含N个相邻的迭代周期保存的模型,但是不包含正在训练的第i个 模型。N对应着集合的规模,如果模型集合规模较小则难以有效统计模型的水平方差,模型 集合过大则会引入较多的方差噪声同时也会生成较大的计算负担。本发明通过收集一个小 的区间来确定经验最优值,在平衡信噪比和计算量两种情况下找到一个合适的区间。在本 发明的实验当中,设置N=5并取得了最优的结果。F Siam 只包含由基线模型构造的两个孪生子 网络。d i 为基线模型Γ在第i个迭代周期的生成的深度图。
Figure 575891DEST_PATH_IMAGE014
Figure 688203DEST_PATH_IMAGE003
F Snapshot F Siam 对应模型集合生成深度图的平均值。u m 的分辨率与输入图像一致。
步骤4,基于步骤3所得到的不确定性掩膜mask u m ,,选择不确定性mask u m 中的均 值作为阈值来区分不确定性区域,不确定性mask中高于均值的区域判定为不确定性区域, 赋予高的训练权重,不确定性越高,训练权重越大。均值
Figure 695473DEST_PATH_IMAGE005
计算公式如下:
Figure 408083DEST_PATH_IMAGE006
其中cellu m 中的所有像素的集合。u m cell)用于获取每个像素对应的不确定性值。|u m |表示u m 中的所有像素的数目,u m 的分辨率与深度图还有输入图像的分辨率都是一致的。如果cell中某一像素的不确定性值小于等于阈值,则本发明认为该像素对应的深度值是确定的,该像素所在的区域也是光度重构损失当中约束完善的区域。相反,如果cell中某一像素的不确定性值高于阈值,则本发明认为该像素对应的深度值是不确定的,该像素所在的区域也是光度重构损失当中欠约束的区域。对于不确定的像素对应的深度值计算的损失,要额外乘以惩罚系数。惩罚系数的大小与不确定程度成正相关。L是基线模型Γ的损失函数,它将作用于输入图像对应深度图的每个像素计算光度重构损失。在添加不确定性引导机制后,新的损失函数L '可以表示为:
Figure 955739DEST_PATH_IMAGE015
其中,
Figure 922558DEST_PATH_IMAGE016
是一个经验参数,用来控制给不确定性像素多少权重。本发明枚举多个λ 值来确定最优的参数,发现0.8~1.2是最优区间。为了降低计算成本和简化参数设置,本发 明在后续的所有实验中设置λ=1。
步骤5,Snapshot策略通过选取模型迭代过程中倒数N个迭代周期保存的模型构建集合。Siam策略通过选取模型迭代过程中最后1个迭代周期保存的两个子模型构建集合。
步骤6,当Snapshot策略或Siam策略完成训练时,基于集成的不确定性后处理策略根据这两种策略构建集合方式的不同对应构建不同的集成策略。
Figure 119971DEST_PATH_IMAGE017
其中,F表示用于计算不确定性的模型集合,Γ '表示Snapshot中的最后一个迭代 周期保存的模型或Siam中两个子网络中性能较优的一个;
Figure 539451DEST_PATH_IMAGE009
是由
Figure 156377DEST_PATH_IMAGE010
生成的深度图;
Figure 977703DEST_PATH_IMAGE018
对应
Figure 841622DEST_PATH_IMAGE002
Figure 13978DEST_PATH_IMAGE003
。首先计算
Figure 903436DEST_PATH_IMAGE019
生成深度图的不确定性图u m
Figure 798842DEST_PATH_IMAGE005
u m 中的均值。u m 中不确定性小于等于阈值
Figure 381133DEST_PATH_IMAGE005
所对应的像素,表示网络学习的很好,但是可能存在过拟合 的现象。提高鲁棒性,减轻过拟合的影响,例如纹理复制;本发明用
Figure 40785DEST_PATH_IMAGE018
作为最后的深度输出d final
Figure 983202DEST_PATH_IMAGE018
中不确定性高于阈值
Figure 513540DEST_PATH_IMAGE005
所对应的像素,表示网络在学习的过程中缺乏有效的约 束,因此有较大的波动,存在欠拟合现象,本发明用
Figure 469995DEST_PATH_IMAGE009
作为最后的深度输出d final 。因为
Figure 99166DEST_PATH_IMAGE010
是集合F Snapshot F Siam 里最接近理想最优点的模型了。
本发明从不确定性度量的角度出发,对自监督单目深度估计展开研究。基于深度学习的单目深度估计是一个二维像素回归问题,单目深度估计模型根据输入RGB图片估算出对应的深度图。由于现有的自监督单目深度估计模型的损失优化函数是欠约束的,反映到对训练集场景中不同区域,深度神经网络的学习收敛能力是不同的。对于训练集相同场景中损失约束良好的区域,模型易于收敛,并在不同迭代周期的输出深度值相对稳定,表现为确定性;对于训练集相同场景中损失欠约束的区域,模型难以收敛,并在不同迭代周期的输出深度值不稳定,表现为不确定性。本发明从模型自身的学习特性出发,进行不确定性量化,在不添加额外的辅助模块的前提下,基于不确定性信息改进模型性能。
相比于单一网络模型的研究,本发明提出了通用的不确定性量化方法,具体包括不确定性测量策略、不确定性引导策略和不确定性后处理策略。具体来说,不同于通过改变整体模型参数的不确定性评估方法,本发明从模型自身学习的特点出发,基于快照策略Snapshot和暹罗策略Siam探究确定性和不确定性之间的学习难度差异,二者分别通过计算连续迭代周期之间的模型方差和暹罗网络之内的模型方差来度量不确定性。模型对于约束良好的区域在迭代的过程中会快速收敛,因此方差较小。而对于欠约束的区域,模型估算的深度会具有歧义性,这种歧义性会导致模型对该区域估算的深度值具有较大的方差。因此本发明用模型的方差来度量不确定性,方差越大不确定性越高。模型的方差是指不同模型对于相同输入的输出方差。然后利用不确定性引导基线模型学习,加强基线模型对场景中高不确定性区域的学习。最后,本发明提出了一种基于集成的不确定性后处理策略,对深度图进行修正,以提升最终深度估计的精度和鲁棒性。
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (6)

1.一种单目深度估计模型学习性能的不确定性量化方法,其特征在于,包括以下步骤:
步骤1,选择基线模型;
步骤2,使用基线模型的原有参数进行自监督训练;
步骤3,分别基于快照策略Snapshot策略和暹罗策略Siam策略计算单目深度模型方差,量化不确定性,Snapshot策略通过计算相邻迭代周期保存模型的方差来量化不确定性,Siam策略通过计算当前迭代周期内两个子网络的方差来量化不确定性;
步骤4,基于步骤3中量化的不确定性进行不确定性区域评估,判定不确定性高于阈值的区域为不确定性区域,同时赋予高训练权重,其中,所述阈值为步骤3量化的不确定性掩膜值的均值;
步骤5,训练完成后分别基于Snapshot策略和Siam策略构建模型集合,Snapshot策略通过选取模型迭代过程中倒数N个迭代周期保存的模型构建集合,Siam策略通过选取模型迭代过程中最后1个迭代周期保存的两个子模型构建集合,N不包含正在训练的第i个模型;
步骤6,Snapshot策略构建的集合,对不确定性高于所述阈值的区域,使用最后一个迭代周期保存的模型进行深度估计,对不确定性低于所述阈值的区域,使用集合均值进行估计;Siam策略构建的集合,对不确定性高于阈值的区域,使用两个子模型中性能较好的子模型进行深度估计,对不确定性低于阈值的区域,使用集合均值进行估计。
2.根据权利要求1所述的单目深度估计模型学习性能的不确定性量化方法,其特征在于:所述步骤1中选择Monodepth2和Hints两个基线模型。
3.根据权利要求1所述的单目深度估计模型学习性能的不确定性量化方法,其特征在于:所述步骤3的具体过程为:
Snapshot策略和Siam策略按照如下方式来计算不确定性;基线模型Γ在训练到第i th 个迭代周期,对于输入图像I生成深度图所对应的不确定性掩膜值 u m ,函数u m=UM(),其公式如下:
Figure 955060DEST_PATH_IMAGE001
其中,F表示用于计算不确定性的模型集合,集合成员在Snapshot和Siam两种策略当中是不同的,F Snapshot 包含N个相邻的迭代周期保存的模型,但是不包含正在训练的第i个模型;F Siam 只包含由基线模型构造的两个孪生子网络,d i 为基线模型Γ在第i个迭代周期h生成的深度图,
Figure 30463DEST_PATH_IMAGE002
Figure 554985DEST_PATH_IMAGE003
F Snapshot F Siam 对应模型集合生成深度图的平均值,u m 的分辨率与输入图像一致。
4.根据权利要求3所述的单目深度估计模型学习性能的不确定性量化方法,其特征在于:所述步骤4中均值
Figure 217304DEST_PATH_IMAGE004
计算公式如下:
Figure 751054DEST_PATH_IMAGE005
其中cellu m 中的所有像素的集合,u m cell)用于获取每个像素对应的不确定性掩膜值,|u m |表示u m 中的所有像素的数目,u m 的分辨率与深度图和输入图像的分辨率一致。
5.根据权利要求4所述的单目深度估计模型学习性能的不确定性量化方法,其特征在于:步骤4中判定不确定性高于阈值的区域为不确定性区域,其处理过程为:
对于不确定性区域中的像素对应的深度值计算的损失,需额外乘以与不确定性程度成正相关的惩罚系数,L是基线模型Γ的损失函数,在添加不确定性引导机制后,新的损失函数L '表示为:
Figure 680963DEST_PATH_IMAGE006
其中,λ是一个经验参数,用来控制给不确定性区域中的像素多少权重。
6.根据权利要求5所述的单目深度估计模型学习性能的不确定性量化方法,其特征在于:所述步骤6的具体过程为:
当Snapshot策略或Siam策略完成训练时,基于集成的不确定性后处理策略根据这两种策略构建集合方式的不同对应构建不同的集成策略,
Figure 845229DEST_PATH_IMAGE007
其中,F表示用于计算不确定性的模型集合,Γ '表示Snapshot中的最后一个迭代周期保存的模型或Siam策略中两个子模型中性能较优的一个;
Figure 618012DEST_PATH_IMAGE008
是由
Figure 565240DEST_PATH_IMAGE009
生成的深度图;
Figure 943132DEST_PATH_IMAGE010
对应
Figure 809456DEST_PATH_IMAGE011
Figure 944903DEST_PATH_IMAGE003
CN202210696178.9A 2022-06-20 2022-06-20 一种单目深度估计模型学习性能的不确定性量化方法 Active CN114782782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210696178.9A CN114782782B (zh) 2022-06-20 2022-06-20 一种单目深度估计模型学习性能的不确定性量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210696178.9A CN114782782B (zh) 2022-06-20 2022-06-20 一种单目深度估计模型学习性能的不确定性量化方法

Publications (2)

Publication Number Publication Date
CN114782782A CN114782782A (zh) 2022-07-22
CN114782782B true CN114782782B (zh) 2022-10-04

Family

ID=82421995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210696178.9A Active CN114782782B (zh) 2022-06-20 2022-06-20 一种单目深度估计模型学习性能的不确定性量化方法

Country Status (1)

Country Link
CN (1) CN114782782B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461178A (zh) * 2018-09-10 2019-03-12 中国科学院自动化研究所 一种融合稀疏已知标签的单目图像深度估计方法及装置
CN113724155A (zh) * 2021-08-05 2021-11-30 中山大学 用于自监督单目深度估计的自提升学习方法、装置及设备
CN114022799A (zh) * 2021-09-23 2022-02-08 中国人民解放军军事科学院国防科技创新研究院 一种自监督单目深度估计方法和装置
CN114549297A (zh) * 2021-10-12 2022-05-27 吉林大学 一种基于不确定分析的无监督单目深度估计方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315266B2 (en) * 2019-12-16 2022-04-26 Robert Bosch Gmbh Self-supervised depth estimation method and system
EP3989163B1 (en) * 2020-10-24 2023-12-06 Tata Consultancy Services Limited Method and system for unsupervised prediction of image depth and confidence map

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109461178A (zh) * 2018-09-10 2019-03-12 中国科学院自动化研究所 一种融合稀疏已知标签的单目图像深度估计方法及装置
CN113724155A (zh) * 2021-08-05 2021-11-30 中山大学 用于自监督单目深度估计的自提升学习方法、装置及设备
CN114022799A (zh) * 2021-09-23 2022-02-08 中国人民解放军军事科学院国防科技创新研究院 一种自监督单目深度估计方法和装置
CN114549297A (zh) * 2021-10-12 2022-05-27 吉林大学 一种基于不确定分析的无监督单目深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Bayesian DeNet: Monocular Depth Prediction and Frame-Wise Fusion With Synchronized Uncertainty";Xin Yang 等;《 IEEE Transactions on Multimedia》;20191130;第21卷(第11期);第2701-2713页 *
"基于单目视觉深度估计的无人机障碍规避方法的研究与实现";卢震;《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》;20220315;C031-234 *
"基于深度学习的单目深度估计";箩筐技术;《https://baijiahao.baidu.com/s?id=1693025980828061662&wfr=spider&for=pc》;20210303;第1-26页 *

Also Published As

Publication number Publication date
CN114782782A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
Xu et al. Multi-scale geometric consistency guided multi-view stereo
Rosinol et al. Nerf-slam: Real-time dense monocular slam with neural radiance fields
Schilling et al. Trust your model: Light field depth estimation with inline occlusion handling
CN103226821B (zh) 基于视差图像素分类校正优化的立体匹配方法
CN111325794A (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN103177451B (zh) 基于图像边缘的自适应窗口和权重的立体匹配算法
Chen et al. Transforming a 3-d lidar point cloud into a 2-d dense depth map through a parameter self-adaptive framework
CN107845073B (zh) 一种基于深度图的局部自适应三维点云去噪方法
CN110246151B (zh) 一种基于深度学习和单目视觉的水下机器人目标跟踪方法
CN107170042A (zh) 一种无序图像的多视立体匹配的三维重建方法
CN111899280A (zh) 采用深度学习和混合型位姿估计的单目视觉里程计方法
CN102447917A (zh) 立体图像匹配方法及其设备
CN110428461B (zh) 结合深度学习的单目slam方法及装置
CN114782782B (zh) 一种单目深度估计模型学习性能的不确定性量化方法
CN112612275A (zh) 一种数据库机房复杂路径规划系统及其规划方法
US20220068018A1 (en) Method for 3d reconstruction of an object
Li et al. Unsupervised joint learning of depth, optical flow, ego-motion from video
CN115937465A (zh) 一种顾及像素区域预测的深度图融合算法
CN111696147A (zh) 一种基于改进YOLOv3模型的深度估计方法
Braun et al. Visual terrain traversability estimation using a combined slope/elevation model
Shade Choosing where to go: mobile robot exploration
CN112396611B (zh) 一种点线视觉里程计自适应优化方法、装置及存储介质
CN115170745B (zh) 一种基于立体视觉的无人机测距方法
Li et al. Dense Points Aided Performance Evaluation Criterion of Human Obsevation for Image-based 3D Reconstruction
Zhong et al. Multi-channel with RBF neural network aggregation based on disparity space for color image stereo matching

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant