CN117036442A - 一种鲁棒单目深度补全方法、系统及储存介质 - Google Patents

一种鲁棒单目深度补全方法、系统及储存介质 Download PDF

Info

Publication number
CN117036442A
CN117036442A CN202310797358.0A CN202310797358A CN117036442A CN 117036442 A CN117036442 A CN 117036442A CN 202310797358 A CN202310797358 A CN 202310797358A CN 117036442 A CN117036442 A CN 117036442A
Authority
CN
China
Prior art keywords
depth
image
sparse
robust
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310797358.0A
Other languages
English (en)
Inventor
赵峰
徐光锴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202310797358.0A priority Critical patent/CN117036442A/zh
Publication of CN117036442A publication Critical patent/CN117036442A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/513Sparse representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种鲁棒单目深度补全方法、系统及储存介质,包括如下步骤:将待补全图像的RGB图、稀疏深度图和引导深度图输送到已训练完成的鲁棒深度补全网络模型中,以输出密集的补全深度图;鲁棒深度补全网络模型的训练过程:构建训练集,并对训练集中每个训练RGB图像对应的训练稀疏深度图随机添加噪声;构建测试集,并对测试集中的部分图像添加噪声;将训练集输入到已构建后的鲁棒深度补全网络模型中,以训练鲁棒深度补全网络模型;将测试集输入到已训练后的鲁棒深度补全网络模型中,输出预测深度图,以测试鲁棒深度补全网络模型;该深度补全方法用于补全各种范围传感器获取的稀疏/半密集、嘈杂和潜在低分辨率深度图。

Description

一种鲁棒单目深度补全方法、系统及储存介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种鲁棒单目深度补全方法、系统及储存介质。
背景技术
深度补全任务的目标是从不完整的深度图像或稀疏点云数据中推断出完整的深度信息,该任务在计算机视觉、机器人、自动驾驶等领域中具有广泛的实际应用价值。例如,在计算机视觉中,深度补全可以用于三维重建、虚拟现实、物体识别和跟踪等任务;在机器人和自动驾驶中,深度补全可以用于环境感知和避障。然而,深度补全任务的挑战在于需要从有限的深度信息中推断出完整的深度图像或点云数据,同时还要克服噪声、缺少信息和不确定性等问题。
在现实生活中,深度信息通常通过使用直接距离传感器(如LiDAR和Time-of-Flight(ToF)传感器)从手机中获取,或通过多视图立体匹配方法计算得出。然而,这些传感器通常只能提供不完整或稀疏的深度信息。例如,LiDAR传感器以线性扫描模式捕获深度,其分布较为稀疏;ToF传感器输出深度图的分辨率较低,且在镜面或远距离表面上失败;基于多视图重建的方法仅在纹理丰富的区域提供有可信度的深度,并且受限于相机基线的长度,其测距范围也受到限制。(例如,iPhone后置立体摄像头获取的深度最大值为2.5米)。
现有的深度补全算法通常需要针对特定的稀疏深度类型进行设计,它们的跨任务领域的泛化性能较差。根据输入深度图的稀疏模式,现有的深度补全方法可分为两类:深度填充方法,用于填充深度图的空洞部分,以及稀疏深度的密集化方法,用于密集化稀疏分布的深度测量。在处理特定的稀疏模式时,现有的方法可以获得不错的性能。然而,在实际情况下,稀疏模式在训练时可能会发生变化或者是未知的,这给实际应用带来了困难。
发明内容
基于背景技术存在的技术问题,本发明提出了一种鲁棒单目深度补全方法、系统及储存介质,用于补全各种范围传感器获取的稀疏/半密集、嘈杂和潜在低分辨率深度图。
本发明提出的一种鲁棒单目深度补全方法,包括如下步骤:
将待补全图像的RGB图、稀疏深度图和引导深度图输送到已训练完成的鲁棒深度补全网络模型中,以输出密集的补全深度图;
鲁棒深度补全网络模型的训练过程如下:
构建训练集,所述训练集包括训练RGB图、训练稀疏深度图和训练引导深度图,并对训练集中每个训练RGB图像对应的训练稀疏深度图随机添加噪声,所述训练稀疏深度图为对深度传感器上传的稠密深度图随机采样稀疏点得到的图像,所述随机采样稀疏点包括均匀采样、特征采样和空洞采样。
构建测试集,并对测试集中的部分图像添加噪声,所述测试集包括测试RGB图、测试稀疏深度图和测试引导深度图,所述测试稀疏深度图为对深度传感器上传的稠密深度图通过稀疏深度模式转换得到的图像,所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离;
将训练集输入到已构建后的鲁棒深度补全网络模型中,以训练鲁棒深度补全网络模型;
将测试集输入到已训练后的鲁棒深度补全网络模型中,输出预测深度图,将预测深度图与测试集中对应的稠密深度图进行比较,以测试鲁棒深度补全网络模型。
进一步地,所述鲁棒深度补全网络模型采用虚拟法线损失、法线回归损失、边缘排序损失和逐点深度损失进行训练监督,鲁棒深度补全网络模型的损失函数L公式如下:
L=Lvnl+Lpwn+Lrel+L1
其中,Lpnl表示虚拟法线损失,Lpwn表示法线回归损失,Lrel表示边缘排序损失,L1表示逐点深度损失,代表从预测深度图计算得到的虚拟法向量图中第i个像素点对应的虚拟法向量,/>代表从稠密深度图计算得到的虚拟法向量图中第i个像素点对应的虚拟法向量,/>和/>分别表示从预测深度图计算得到的虚拟法向量图中第Ai和Bi个像素点对应的虚拟法向量值,/>和/>分别表示从稠密深度图中计算得到的虚拟法向量图中第Ai和Bi个像素点对应的虚拟法向量值,pi,0、pi,1代表随机采样的两个点,/>函数先根据l函数计算两个点的先后顺序,然后根据采样两个点深度相等或者不等的情况,选择不同的损失函数,p0和p1分别为预测深度图中两个采样点对应的预测深度值,/>和/>分别为稠密深度图中两个采样点对应的真值深度值,τ为阈值超参数,/>表示预测深度图中第i个像素点对应的预测深度值,/>表示稠密深度图中第i个像素点对应的真值深度值,N表示稠密深度图的像素点个数。
进一步地,在随机采样稀疏点包括均匀采样、特征采样和空洞采样中,具体为:
(a1)均匀采样:在均匀分布采样点中均匀采样,以模拟低分辨率深度的稀疏模式;
(a2)特征采样:采用FAST特征检测器在稠密深度图的纹理区域和角落采样点,以模拟结构光和多视角立体视觉方法中产生高置信度深度值的具有明显可匹配特征区域的稀疏模式;
(a3)空洞采样:采用深度捕捉方式模拟稠密深度图中多个连续区域缺失的深度信息,所述深度捕捉方式包括使用随机多边形区域掩蔽深度、在一定距离内掩蔽区域、除了一个多边形区域外掩蔽整个图像。
进一步地,在对训练集中每个图像添加噪声中,具体为将训练集中每个图像的深度按照随机因子进行缩放,将缩放后的图像作为添加了噪声的图像用于训练鲁棒深度补全网络模型。
进一步地,在所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离中,具体为:
(b1)不匹配的视场角:将稠密深度图的4个边界沿着25%的区域进行掩蔽以模拟RGB图和稠密深度图之间的不同视场角;
(b2)稀疏ToF:将稠密深度图降采样到低分辨率上并投影到原始大小,并掩蔽远距离区域以获取测试稀疏深度图;
(b3)短距离:掩蔽地面真实深度的50%最远区域获取稠密深度图对应的不完整深度图,以模拟深度传感器的短测量范围。
进一步地,在对测试集中的部分图像添加噪声中,具体为:
将测试集划分为三种数据集,每个数据集中均包括测试RGB图、测试稀疏深度图和测试引导深度图;
基于其中一种数据集,使用COLMAP重建场景,并根据深度传感器和COLMAP深度之间的深度误差,对深度误差大于深度预设阈值的部分进行掩蔽,以模拟实际场景重建应用中的噪声模式,将掩蔽后的图像作为添加了噪声的图像。
进一步地,所述鲁棒深度补全网络模型以预训练的ResNet-34作为骨干网络,基于SGD(随机梯度下降法)优化鲁棒深度补全网络模型,所述鲁棒深度补全网络模型中所有层的初始学习率为0.02,学习率按比例0.1进行衰减。
一种鲁棒单目深度补全系统,待补全图像的RGB图、稀疏深度图和引导深度图输送到已训练完成的鲁棒深度补全网络模型中,以输出密集的补全深度图;
鲁棒深度补全网络模型的训练过程如下:
构建训练集,所述训练集包括训练RGB图、训练稀疏深度图和训练引导深度图,并对训练集中每个训练RGB图像对应的训练稀疏深度图随机添加噪声,所述训练稀疏深度图为对深度传感器上传的稠密深度图随机采样稀疏点得到的图像,所述随机采样稀疏点包括均匀采样、特征采样和空洞采样。
构建测试集,并对测试集中的部分图像添加噪声,所述测试集包括测试RGB图、测试稀疏深度图和测试引导深度图,所述测试稀疏深度图为对深度传感器上传的稠密深度图通过稀疏深度模式转换得到的图像,所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离;
将训练集输入到已构建后的鲁棒深度补全网络模型中,以训练鲁棒深度补全网络模型;
将测试集输入到已训练后的鲁棒深度补全网络模型中,输出预测深度图,将预测深度图与测试集中对应的稠密深度图进行比较,以测试鲁棒深度补全网络模型。
一种计算机可读储存介质,所述计算机可读储存介质上存储有若干分类程序,所述若干分类程序用于被处理器调用并执行如权利要求1至7任一所述的鲁棒单目深度补全方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本发明提供的一种鲁棒单目深度补全方法、系统及储存介质的优点在于:本发明结构中提供的一种鲁棒单目深度补全方法、系统及储存介质,采用RGB图、稀疏深度图和引导深度图作为输入,密集的补全深度图作为输出,基于数据驱动先验,利用卷积神经网络学习由深度引导图引导的稠密深度。此外,本发明在训练该网络时提出采用从稠密深度图(真值深度图)中均匀采样、按特征采样和空洞采样三种采样方式,用于模拟现实场景中各类深度输入范式。为了增强模型对离群点的鲁棒性,本发明还提出在训练过程中随机对输入稀疏深度点人工添加扰动,模拟输入稀疏点存在噪声的情况;提出采用两种测评基准。第一种测评基准默认所有输入稀疏深度点均为准确点,并在NYU、ScanNet和DIODE三个数据集上进行测评;第二种测评基准假设输入稀疏点含有噪声,包含16段NYU视频,使用COLMAP算法计算并部分滤波后的深度图作为输入。
附图说明
图1为本发明的结构示意图;
图2为针对CSPN和Senushkin方法的鲁棒性分析对应的曲线图,其中,CSPN-NYU表示CSPN方法在NYU数据集上的效果,CSPN-ScanNet表示CSPN方法在ScanNet数据集上的效果,Ours-NYU表示本发明鲁棒单目深度补全方法在NYU数据集上的效果,Ours-ScanNet表示本发明鲁棒单目深度补全方法在ScanNet数据集上的效果,Senushkin-Matterport3D表示Senushkin等人提出算法在Matterport3D数据集上的效果,Ours-Matterport3D表示本发明鲁棒单目深度补全方法在Matterport3D数据集上的效果;
图3为鲁棒深度补全网络模型的框架图;
图4为鲁棒深度补全网络模型在训练过程中采用的三类稀疏深度模式示意图,其中(a)表示原始稠密深度图,(b)表示均匀采样所得到的训练稀疏深度图,(c)表示基于特征点采样所得的训练稀疏深度图,(d)表示空洞采样所得的训练稀疏深度图;
图5为华为手机ToF传感器获得的深度图及上采样后的示意图;
图6为噪声测试基准包含的稀疏深度及预测结果示意图;
其中,Sparse depth表示测试稀疏深度图,Guidance map表示测试引导深度图,RGB表示测试RGB图,COLMAP表示传统多视图几何COLMAP方法,Senushkinrtal表示Senushkinrtal等人提出的算法结果,ours表示本发明鲁棒单目深度补全方法的算法结果,GT表示稠密深度图对应的真值深度值。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明,在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
如图1至6所示,本发明提出的一种鲁棒单目深度补全方法,包括如下步骤:将待补全图像的RGB图、稀疏深度图和引导深度图输送到已训练完成的鲁棒深度补全网络模型中,以输出密集的补全深度图。
鲁棒深度补全网络模型设置三个输入,分别用于输入RGB图、稀疏深度图和引导深度图,用于补全各种范围传感器获取的稀疏/半密集、嘈杂和潜在低分辨率深度图,包括从现代手机中的传感器或多视图重建算法中获取的深度。
针对噪声具有鲁棒性,适用于不同类型的稀疏深度,并且可以很好地推广到未见过的数据集。具体为:针对深度补全方法,分析现有方法在各类数据集上对输入稀疏点数量及噪声的鲁棒性,发现现有方法鲁棒性差、精度受限等问题,基于现有深度补全方法鲁棒性差的分析,本实施例提出采用卷积神经网络将RGB图片、稀疏真值深度点及深度引导图作为输入,学习输出补全后的稠密深度图(补全深度图)
鲁棒深度补全网络模型的构建过程(A1)至(A2):
(A1)针对现有深度补全方法的性能分析。现有具有代表性的深度补全方法为CSPN和Senushkin等提出的方法。前者旨在补全仅具有数百个稀疏点的非常稀疏的深度,而后者旨在补全深度的空洞。对于在NYU上训练的CSPN方法,使用NYU和ScanNet进行测试,并将测量/输入点的数量设置为从500个变化到20000个。Senushkin等的方法是在Matterport3D上进行训练的,用于补全深度图的深度空洞。采用Matterport3D进行测试,并使用不同核大小的有效深度区域来控制Matterport3D上有效点的数量。理论上,这些扰动并不会显著改变稀疏模式,一个鲁棒的模型应该能够应对这些轻微的变化。然而,从图2(a)和(c)可以观察到,传统的方法对这些轻微扰动很敏感。尤其是CSPN的性能随着输入点数的增加而降低,这表明在采样密度之外的泛化能力较差。此外,由于在许多应用中无法避免异常值,还通过从稀疏深度中采样0%-10%的点并将原始深度乘以0.1-2的随机因子来模拟两种方法对深度噪声的鲁棒性,图2(b)和(d)显示,性能与异常值的增加程度显著下降,比本实施例的结果更差。
(A2)提出鲁棒深度补全的框架,利用稀疏深度作为输入,根据RGB图片恢复出稠密深度图(补全深度图)。该方法对稀疏深度的噪声鲁棒、能够适应多种类型的稀疏深度分布、并且能泛化至各类未曾见过的现实场景,其框架图如图3所示。
鲁棒深度补全网络模型输入RGB图像、稀疏深度图以及引导深度图,输出密集的补全深度图。使用Seichter等提出的ESANet-R34-NBt1D网络和ResNet-34骨干网络进行深度补全,基于SGD优化鲁棒深度补全网络模型,鲁棒深度补全网络模型中所有层的初始学习率为0.02。每40000次迭代,学习率按比例0.1进行衰减,使用每批24个样本,从三个数据集Taskonomy、DIML和TartanAir中分别随机选取12000张图像(输入RGB图像、稀疏深度图)进行训练。在训练过程中,图像被随机水平翻转并调整大小为448×448,使用LeReS鲁棒单目仿射不变深度估计模型预测的仿射不变深度作为引导深度图。
鲁棒深度补全网络模型的训练过程如下(B1至B4)。
(B1)构建训练集,所述训练集包括训练RGB图、训练稀疏深度图和训练引导深度图,并对训练集中每个训练RGB图像对应的训练稀疏深度图随机添加噪声,所述训练稀疏深度图为对深度传感器上传的稠密深度图随机采样稀疏点得到的图像,所述随机采样稀疏点包括均匀采样、特征采样和空洞采样。
基于LeReS鲁棒单目仿射不变深度估计模型预测的仿射不变深度作为引导深度图,将多个引导深度图聚合作为训练引导深度图用于训练鲁棒深度补全网络模型。
◆由于无法在训练过程中获取足够的数据以覆盖所有可能下游应用场景的各种稀疏模式,因此可以选择模拟一些不同的稀疏模式。这种方法受到域随机化方法的启发,在模拟数据上训练鲁棒深度补全网络模型,并表明通过在模拟器中随机渲染可以减少到真实数据的域差距。
设计了鲁棒深度补全网络模型训练过程中输入训练稀疏深度图的稀疏范式,将稀疏深度范式分为三类,如图4所示。在训练过程中,从稠密深度图的真实深度中随机采样稀疏点,并尝试恢复稠密的深度图;三类稀疏深度范式包括均匀采样、特征采样和空洞采样中,具体为:
(a1)均匀采样:在均匀分布采样点中均匀采样,以模拟低分辨率深度(例如由手机ToF传感器捕获的深度)的稀疏模式;
(a2)特征采样:采用FAST特征检测器在稠密深度图的纹理区域和角落采样点,以模拟结构光和多视角立体视觉方法中产生高置信度深度值的具有明显可匹配特征区域的稀疏模式;
结构光和多视角立体视觉方法为现有方法,使用FAST特征检测器获取采样点,用于模拟该类方法获取高置信度区域。该类方法是需要传感器的,本实施例从RGB图片出发获取这些点,因此使用FAST特征点模拟结构光和多视角立体视觉方法获取高置信度区域。
(a3)空洞采样:普通的深度传感器无法捕捉明亮、透明、反射和远距离表面区域的深度,因此,可能会缺失多个连续区域的深度信息,空洞采样是采用深度捕捉方式模拟稠密深度图中多个连续区域缺失的深度信息,所述深度捕捉方式包括使用随机多边形区域掩蔽深度、在一定距离内掩蔽区域、除了一个多边形区域外掩蔽整个图像。
为了增加稀疏深度范式的多样性,通过随机化其参数(例如有效点数、掩蔽大小和特征阈值)来增强每种类型的稀疏深度,然后将稀疏深度范式((a1)至(a3))组合在一起使用。
◆在对训练集中每个图像添加噪声中:离群点和深度传感器噪声在任何深度采集方法中都是不可避免的。大多数传统的方法只使用RGB图像和稀疏深度作为输入,它们没有任何额外的信息来源,无法区分异常值。然而,本实施例所采用的方法利用了来自LeReS单图像鲁棒深度预测网络(现有的网络结构)的数据先验,当两者之间存在显著差异时,可以帮助处理不正确的约束信号。在训练期间添加了异常值,添加异常值是为了增加模型鲁棒性。具体为:将训练集中每个图像的深度按照随机因子(0.1到2)进行缩放,将缩放后的图像作为添加了噪声的图像用于训练鲁棒深度补全网络模型
(B2)构建测试集,并对测试集中的部分图像添加噪声,所述测试集包括测试RGB图、测试稀疏深度图和测试引导深度图,所述测试稀疏深度图为对深度传感器上传的稠密深度图通过稀疏深度模式转换得到的图像,所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离。
现有模型的基准测试如NYU和Matterport3D只考虑特定类型的稀疏模式,因此它们不适合评估模型在不同任务领域中的鲁棒性和泛化能力。本实施例提出了两种基于实际应用中比较经典的深度稀疏度和深度噪声的新基准测试范式。此外,测试过程中用于生成稀疏和噪声数据的方法与训练过程中的方式略有不同,这使能够在这些(更真实的)稀疏模式上评估训练的稀疏深度范式的泛化能力。测试集和训练集是两个独立的数据集,能够体现方法的鲁棒性。
第一个基准旨在评估深度完成方法对各种稀疏情况的泛化能力,称为通用稀疏基准。收集了3种数据集(NYU、ScanNet和DIODE)作为验证集,验证集中的每个数据集中均包括测试RGB图、测试稀疏深度图和测试引导深度图,并提出了3种稀疏深度模式(b1至b3)来模拟商用RGBD传感器:
(b1)不匹配的视场角:一些RGBD传感器在RGB相机和深度传感器之间具有不同的视场角,例如KinectV2(RGB:84.1°×53.8°;深度:70.6°×60°),本实施例将稠密深度图的4个边界沿着25%的区域进行掩蔽以模拟RGB图和稠密深度图之间的不同视场角;
(b2)稀疏ToF:嵌入移动设备的飞行时间(ToF)传感器的分辨率比RGB相机低得多。例如,华为手机上的RGB传感器和深度传感器具有相同的视场角,但RGB相机和ToF传感器的分辨率分别为1280×960和240×180。将原始深度上投影到RGB大小,并获得如图5所示的稀疏深度。在本实施例基准测试中,将稠密深度图降采样到低分辨率上并投影到原始大小,并掩蔽远距离区域以获取测试稀疏深度图;
(b3)短距离:为了模拟深度传感器(如RealSense)的短测量范围,掩蔽地面真实深度的50%最远区域获取稠密深度图对应的不完整深度图,以模拟深度传感器的短测量范围。
还设置了另一个基准测试,以评估对噪声输入的鲁棒性,称为噪声基准,在对测试集中的部分图像添加噪声中,具体为:
将测试集划分为三种数据集,每个数据集中均包括测试RGB图、测试稀疏深度图和测试引导深度图;
基于其中一种数据集,使用COLMAP重建场景,并根据深度传感器和COLMAP深度之间深度误差,对深度误差大于深度预设阈值的部分进行掩蔽,以模拟实际场景重建应用中的噪声模式,将掩蔽后的图像作为添加了噪声的图像,基于深度传感器和COLMAP深度绝对差值最大的部分设置深度预设阈值。
具体可以记载为:从NYU(验证集中的其中一种数据集)中采样了16个视频,其中包含超过4000张图像。为了模拟实际场景重建应用中的噪声模式,使用COLMAP重建场景,并根据深度传感器和COLMAP深度之间的不一致性对最嘈杂的区域进行掩蔽。请注意,被掩蔽的不完整深度仍然非常嘈杂。一些示例如图6所示。
(B3)将训练集输入到已构建后的鲁棒深度补全网络模型中,以训练鲁棒深度补全网络模型。
(B4)将测试集输入到已训练后的鲁棒深度补全网络模型中,输出预测深度图,将预测深度图与测试集中对应的稠密深度图进行比较,以测试鲁棒深度补全网络模型。
在以上鲁棒深度补全网络模型训练过程,采用虚拟法线损失、法线回归损失、边缘排序损失和逐点深度损失进行训练监督,鲁棒深度补全网络模型的损失函数L公式如下:
L=Lvnl+Lpwn+Lrel+L1
其中,Lvnl表示虚拟法线损失,Lpwn表示法线回归损失,Lrel表示边缘排序损失,L1表示逐点深度损失,代表从预测深度图计算得到的虚拟法向量图中第i个像素点对应的虚拟法向量,/>代表从稠密深度图计算得到的虚拟法向量图中第i个像素点对应的虚拟法向量,/>和/>分别表示从预测深度图计算得到的虚拟法向量图中第Ai和Bi个像素点对应的虚拟法向量值,/>和/>分别表示从稠密深度图中计算得到的虚拟法向量图中第Ai和Bi个像素点对应的虚拟法向量值,pi,0、pi,1代表随机采样的两个点,/>函数先根据l函数计算两个点的先后顺序,然后根据采样两个点深度相等或者不等的情况,选择不同的损失函数,p0和p1分别为预测深度图中两个采样点对应的预测深度值,/>和/>分别为稠密深度图中两个采样点对应的真值深度值,τ为阈值超参数,/>表示预测深度图中第i个像素点对应的预测深度值,/>表示稠密深度图中第i个像素点对应的真值深度值,N表示稠密深度图的像素点个数。
在以上鲁棒深度补全网络模型测试过程,测试指标有AbsRel和δ1,对应的公式如下:
其中,N表示稠密深度图的像素点个数,di表示预测深度图中第i个像素点对应的预测深度值,/>表示稠密深度图中第i个像素点对应的真值深度值。
本发明的有益效果在于:
1)本发明发现了传统深度补全方法针对稀疏输入深度点分布及噪声的鲁棒性差的问题,设计实验分析在稀疏输入深度图存在离群点及差异性分布时,现有方法的性能变化。
2)本发明提出了一种新型的鲁棒深度补全网络框架(鲁棒深度补全网络模型),结合了基于数据驱动的单张图像先验和有效的数据增强技术,用于实现测试域不可知的深度补全。首先,采用RGB图、稀疏深度图和引导深度图作为输入,密集的补全深度图作为输出,基于数据驱动先验,利用卷积神经网络学习由深度引导图引导的稠密深度。此外,本发明在训练该网络时提出采用从稠密深度图(真值深度图)中均匀采样、按特征采样和空洞采样三种采样方式,用于模拟现实场景中各类深度输入范式。为了增强模型对离群点的鲁棒性,本发明还提出在训练过程中随机对输入稀疏深度点人工添加扰动,模拟输入稀疏点存在噪声的情况。
3)为了更好地测评深度补全的性能,本发明提出采用两种测评基准。第一种测评基准默认所有输入稀疏深度点均为准确点,并在NYU、ScanNet和DIODE三个数据集上进行测评。第一种测评基准的稀疏深度分布包含三种情景:未匹配视场角大小、稀疏ToF和短深度范围三种,这三种稀疏分布类型在现实场景中十分常见。第二种测评基准假设输入稀疏点含有噪声,包含16段NYU视频,使用COLMAP算法计算并部分滤波后的深度图作为输入。这两种深度补全测评基准能够较好地反映出深度补全方法的鲁棒性和准确性。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种鲁棒单目深度补全方法,其特征在于,包括如下步骤:
将待补全图像的RGB图、稀疏深度图和引导深度图输送到已训练完成的鲁棒深度补全网络模型中,以输出密集的补全深度图;
鲁棒深度补全网络模型的训练过程如下:
构建训练集,所述训练集包括训练RGB图、训练稀疏深度图和训练引导深度图,并对训练集中每个训练RGB图像对应的训练稀疏深度图随机添加噪声,所述训练稀疏深度图为对深度传感器上传的稠密深度图随机采样稀疏点得到的图像,所述随机采样稀疏点包括均匀采样、特征采样和空洞采样。
构建测试集,并对测试集中的部分图像添加噪声,所述测试集包括测试RGB图、测试稀疏深度图和测试引导深度图,所述测试稀疏深度图为对深度传感器上传的稠密深度图通过稀疏深度模式转换得到的图像,所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离;
将训练集输入到已构建后的鲁棒深度补全网络模型中,以训练鲁棒深度补全网络模型;
将测试集输入到已训练后的鲁棒深度补全网络模型中,输出预测深度图,将预测深度图与测试集中对应的稠密深度图进行比较,以测试鲁棒深度补全网络模型。
2.根据权利要求1所述的鲁棒单目深度补全方法,其特征在于,所述鲁棒深度补全网络模型采用虚拟法线损失、法线回归损失、边缘排序损失和逐点深度损失进行训练监督,鲁棒深度补全网络模型的损失函数L公式如下:
L=Lvnl+Lpwn+Lrel+L1
其中,Lvnl表示虚拟法线损失,Lpwn表示法线回归损失,Lrel表示边缘排序损失,L1表示逐点深度损失,代表从预测深度图计算得到的虚拟法向量图中第i个像素点对应的虚拟法向量,/>代表从稠密深度图计算得到的虚拟法向量图中第i个像素点对应的虚拟法向量,/>和/>分别表示从预测深度图计算得到的虚拟法向量图中第Ai和Bi个像素点对应的虚拟法向量值,/>和/>分别表示从稠密深度图中计算得到的虚拟法向量图中第Ai和Bi个像素点对应的虚拟法向量值,pi,0、pi,1代表随机采样的两个点,/>函数先根据l函数计算两个点的先后顺序,然后根据采样两个点深度相等或者不等的情况,选择不同的损失函数,p0和p1分别为预测深度图中两个采样点对应的预测深度值,/>和/>分别为稠密深度图中两个采样点对应的真值深度值,τ为阈值超参数,/>表示预测深度图中第i个像素点对应的预测深度值,/>表示稠密深度图中第i个像素点对应的真值深度值,N表示稠密深度图的像素点个数。
3.根据权利要求1所述的鲁棒单目深度补全方法,其特征在于,在随机采样稀疏点包括均匀采样、特征采样和空洞采样中,具体为:
(a1)均匀采样:在均匀分布采样点中均匀采样,以模拟低分辨率深度的稀疏模式;
(a2)特征采样:采用FAST特征检测器在稠密深度图的纹理区域和角落采样点,以模拟结构光和多视角立体视觉方法中产生高置信度深度值的具有明显可匹配特征区域的稀疏模式;
(a3)空洞采样:采用深度捕捉方式模拟稠密深度图中多个连续区域缺失的深度信息,所述深度捕捉方式包括使用随机多边形区域掩蔽深度、在一定距离内掩蔽区域、除了一个多边形区域外掩蔽整个图像。
4.根据权利要求1所述的鲁棒单目深度补全方法,其特征在于,在对训练集中每个图像添加噪声中,具体为将训练集中每个图像的深度按照随机因子进行缩放,将缩放后的图像作为添加了噪声的图像用于训练鲁棒深度补全网络模型。
5.根据权利要求1所述的鲁棒单目深度补全方法,其特征在于,在所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离中,具体为:
(b1)不匹配的视场角:将稠密深度图的4个边界沿着25%的区域进行掩蔽以模拟RGB图和稠密深度图之间的不同视场角;
(b2)稀疏ToF:将稠密深度图降采样到低分辨率上并投影到原始大小,并掩蔽远距离区域以获取测试稀疏深度图;
(b3)短距离:掩蔽地面真实深度的50%最远区域获取稠密深度图对应的不完整稠密深度图,以模拟深度传感器的短测量范围。
6.根据权利要求1所述的鲁棒单目深度补全方法,其特征在于,在对测试集中的部分图像添加噪声中,具体为:
将测试集划分为三种数据集,每个数据集中均包括测试RGB图、测试稀疏深度图和测试引导深度图;
基于其中一种数据集,使用COLMAP重建场景,并根据深度传感器和COLMAP深度之间的深度误差,对深度误差大于深度预设阈值的部分进行掩蔽,以模拟实际场景重建应用中的噪声模式,将掩蔽后的图像作为添加了噪声的图像。
7.根据权利要求1所述的鲁棒单目深度补全方法,其特征在于,所述鲁棒深度补全网络模型以在ImageNet上预训练的ResNet-34作为骨干网络,基于SGD优化器优化鲁棒深度补全网络模型,所述鲁棒深度补全网络模型中所有层的初始学习率为0.02,学习率按比例0.1进行衰减。
8.一种鲁棒单目深度补全系统,其特征在于,待补全图像的RGB图、稀疏深度图和引导深度图输送到已训练完成的鲁棒深度补全网络模型中,以输出密集的补全深度图;
鲁棒深度补全网络模型的训练过程如下:
构建训练集,所述训练集包括训练RGB图、训练稀疏深度图和训练引导深度图,并对训练集中每个训练RGB图像对应的训练稀疏深度图随机添加噪声,所述训练稀疏深度图为对深度传感器上传的稠密深度图随机采样稀疏点得到的图像,所述随机采样稀疏点包括均匀采样、特征采样和空洞采样。
构建测试集,并对测试集中的部分图像添加噪声,所述测试集包括测试RGB图、测试稀疏深度图和测试引导深度图,所述测试稀疏深度图为对深度传感器上传的稠密深度图通过稀疏深度模式转换得到的图像,所述稀疏深度模式包括不匹配的视场角、稀疏ToF和短距离;
将训练集输入到已构建后的鲁棒深度补全网络模型中,以训练鲁棒深度补全网络模型;
将测试集输入到已训练后的鲁棒深度补全网络模型中,输出预测深度图,将预测深度图与测试集中对应的稠密深度图进行比较,以测试鲁棒深度补全网络模型。
9.一种计算机可读储存介质,其特征在于,所述计算机可读储存介质上存储有若干分类程序,所述若干分类程序用于被处理器调用并执行如权利要求1至7任一所述的鲁棒单目深度补全方法。
CN202310797358.0A 2023-06-29 2023-06-29 一种鲁棒单目深度补全方法、系统及储存介质 Pending CN117036442A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310797358.0A CN117036442A (zh) 2023-06-29 2023-06-29 一种鲁棒单目深度补全方法、系统及储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310797358.0A CN117036442A (zh) 2023-06-29 2023-06-29 一种鲁棒单目深度补全方法、系统及储存介质

Publications (1)

Publication Number Publication Date
CN117036442A true CN117036442A (zh) 2023-11-10

Family

ID=88632520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310797358.0A Pending CN117036442A (zh) 2023-06-29 2023-06-29 一种鲁棒单目深度补全方法、系统及储存介质

Country Status (1)

Country Link
CN (1) CN117036442A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635679A (zh) * 2023-12-05 2024-03-01 之江实验室 一种基于预训练扩散概率模型的曲面高效重建方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117635679A (zh) * 2023-12-05 2024-03-01 之江实验室 一种基于预训练扩散概率模型的曲面高效重建方法和装置
CN117635679B (zh) * 2023-12-05 2024-05-28 之江实验室 一种基于预训练扩散概率模型的曲面高效重建方法和装置

Similar Documents

Publication Publication Date Title
Gehrig et al. Combining events and frames using recurrent asynchronous multimodal networks for monocular depth prediction
CN114782691B (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
US10019652B2 (en) Generating a virtual world to assess real-world video analysis performance
CN112365434B (zh) 一种基于双掩膜图像分割的无人机狭窄通道检测方法
CN109300151B (zh) 图像处理方法和装置、电子设备
US11651581B2 (en) System and method for correspondence map determination
CN113850900B (zh) 三维重建中基于图像和几何线索恢复深度图的方法及系统
CN113312973B (zh) 一种手势识别关键点特征提取方法及系统
CN113723317B (zh) 3d人脸的重建方法、装置、电子设备和存储介质
EP3480782A1 (en) Method and device for reducing noise in a depth image
CN109063549A (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN117036442A (zh) 一种鲁棒单目深度补全方法、系统及储存介质
CN113592913A (zh) 一种消除自监督三维重建不确定性的方法
CN117274515A (zh) 基于ORB和NeRF映射的视觉SLAM方法及系统
Nakashima et al. Learning to drop points for lidar scan synthesis
Jia et al. Depth measurement based on a convolutional neural network and structured light
CN115496788A (zh) 一种使用空域传播后处理模块的深度补全方法
CN114841870A (zh) 图像处理方法、相关装置和系统
US10896333B2 (en) Method and device for aiding the navigation of a vehicle
Haque et al. Robust feature-preserving denoising of 3D point clouds
RU2761768C1 (ru) Способ оценки глубины сцены по изображению и вычислительное устройство для его реализации
CN118115392B (zh) 图像去雾方法、装置、电子设备及存储介质
CN118097566B (zh) 基于深度学习的场景变动检测方法、装置、介质及设备
Nadar et al. Sensor simulation for monocular depth estimation using deep neural networks
de Carvalho Deep depth from defocus: Neural networks for monocular depth estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination