CN113763474A - 一种基于场景几何约束的室内单目深度估算方法 - Google Patents

一种基于场景几何约束的室内单目深度估算方法 Download PDF

Info

Publication number
CN113763474A
CN113763474A CN202111096526.0A CN202111096526A CN113763474A CN 113763474 A CN113763474 A CN 113763474A CN 202111096526 A CN202111096526 A CN 202111096526A CN 113763474 A CN113763474 A CN 113763474A
Authority
CN
China
Prior art keywords
plane
calculating
manhattan
constraint
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111096526.0A
Other languages
English (en)
Other versions
CN113763474B (zh
Inventor
邹丹平
郁文贤
黄媛
李博颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202111096526.0A priority Critical patent/CN113763474B/zh
Publication of CN113763474A publication Critical patent/CN113763474A/zh
Application granted granted Critical
Publication of CN113763474B publication Critical patent/CN113763474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于场景几何约束的室内单目深度估算方法,涉及图像处理技术领域,包括以下步骤:准备步骤;深度图局部光滑监督信号计算步骤;光度误差监督信号计算步骤;曼哈顿法向量监督信号计算步骤;共平面监督信号计算步骤;总体损失函数计算步骤。本方法对前述步骤中计算得到的共平面约束监督信号Lplane、曼哈顿法向量监督信号Lnorm,以及深度图局部光滑监督信号L_smooth、光度误差监督信号L_photo,进行系数加权求和,得到总体损失函数L的值,用于网络模型反向传播系数调整,以提升自监督单目深度估计网络整体性能。

Description

一种基于场景几何约束的室内单目深度估算方法
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于场景几何约束的室内单目深度估算方法。
背景技术
从单张图像恢复场景深度技术(简称单目深度估计)具有非常广泛的应用前景。目前主流技术方案是采用神经网络模型对场景深度进行回归,即输入一幅图像,输出一个稠密的场景深度图。该技术方案需要采集大量的稠密场景深度真值用于训练,而采集稠密场景深度真值需要昂贵的专业设备如激光雷达、全站仪等,还需要大量的人力进行数据后处理。整个过程耗时耗力,限制了该技术方案大规模应用。
另外一种技术方案采用自监督训练的方式,即利用模型回归的场景深度图生成新视角图像,与该视角采集的真实图像进行比对来调整网络模型。该技术方案无需采集场景深度真值,因此非常适合大规模应用。该自监督单目深度估计技术方案在一些室外应用场景取得了较好性能。
自监督单目深度估计采用的监督信号主要为图像信息比对误差,也被称为光度误差(Photometric error)。基于光度误差的监督信号对场景中的纹理丰富程度要求较高。而在室内场景中,存在大量无纹理区域,例如白墙和天花板。在这些区域,光度一致性的监督效果大大下降。因此目前自监督单目深度估计技术方案在室内场景中所训练模型性能仍与室外场景存在较大差距。
现有基于光度误差的自监督单幅图像场景深度预测技术不能应对广泛的场景需求,尤其是存在大量无纹理区域室内场景。
目前改进措施主要集中于删除数据集中、旋转角度变换较大的图像序列来减少对网络估计深度的影响,利用超像素分割从彩色图像中提取平面标签,对具有平面标签的区域增加额外的共平面监督信号,同时利用图像块代替逐像素来计算光度一致性监督信号等。尽管引入基于彩色图像的平面假设方案取得了一定的提升效果,但并未充分利用环境中的结构先验,且该假设不适用于具有相同颜色的不同平面,以及具有不同颜色的相同平面。
因此,本领域的技术人员致力于开发一种基于场景几何约束的室内单目深度估算方法,以提升自监督单目深度估计网络整体性能。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是如何帮助自监督单目深度估计网络学习场景中的三维几何特性,使得单目深度估计网络面对纹理缺失的室内场景,也可以获得可靠的监督信息,从而提高单目深度估计效果。
为实现上述目的,本发明提供了一种基于场景几何约束的室内单目深度估算方法,包括以下步骤:
准备步骤;
深度图局部光滑监督信号计算步骤;
光度误差监督信号计算步骤;
曼哈顿法向量监督信号计算步骤;
共平面监督信号计算步骤;
总体损失函数计算步骤;
其中,所述准备步骤包括:以图像序列作为训练数据,建立包括单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型;向所述单目深度估计网络输入参考帧图像,输出所述参考帧图像的深度图;向所述位姿估计网络分别输入所述参考图像与邻近图像,输出所述参考图像与所述邻近图像这两幅图像间相机相对位姿变换。
进一步地,所述曼哈顿法向量监督信号计算步骤还包括:
根据公式Xp=DpK-1p,得到深度图中每一个像素点p对应的三维坐标Xp,再通过一个可微的方法从点的三维坐标Xp计算得到点的法线方向np
其中,Dp代表像素点p的深度值,K代表相机内参矩阵;
其中,p点的法线方向由p点周围7x7邻域上的点计算得来,具体为将p点邻域上的点从左上起顺时针命名为1-8,按照{(i,j)|(i,j)∈{(3,5),(4,6),(7,1),(8,2)}}分为四组,通过以下公式计算得到np
n=∑i,j(Xp-Xi)×(Xj-Xp)
np=n/‖n‖2
进一步地,所述曼哈顿法向量监督信号计算步骤还包括:得到所述法线方向后,首先计算每个点的法线方向与可能的六个主方向之间的余弦相似度,选择最相似的主方向作为该点的曼哈顿主方向分类结果;在训练过程中,采用一个自适应阈值的方案来检测非曼哈顿区域;再对曼哈顿平面内的点进行表面法线np与主方向法线
Figure BDA0003266103590000021
的余弦距离误差计算,得到曼哈顿法线监督信号Lnorm
进一步地,计算所述曼哈顿法向量监督信号Lnorm的公式为:
Figure BDA0003266103590000022
其中,Nnorm代表曼哈顿平面区域内的点数,
Figure BDA0003266103590000023
代表曼哈顿区域,
Figure BDA0003266103590000024
代表平面区域,s代表两个向量的余弦相似度。
进一步地,所述共平面约束监督信号计算步骤包括:通过一个平面区域检测模块得到平面标签图;其中,所述平面区域检测模块整合颜色信息以及训练过程中不断更新的几何信息对平面区域进行检测;
所述平面区域检测模块是一个基于图的分割模块,将图像的每个像素点作为图的节点,图的边由像素点之间的不相似度表示,两点之间的所述不相似度Dg(p,q)由以下公式计算得到,
Figure BDA0003266103590000031
其中,I表示颜色、nalign表示法线,d表示平面到原点距离,
按照所述不相似度从小到大的顺序逐一合并图的节点,最后过滤掉面积较小的区域,得到检测出的各平面区域。
进一步地,所述共平面约束监督信号计算步骤还包括:在检测出所述平面区域后,对所述平面区域内的3D点进行平面拟合,通过解最小二乘问题得到平面参数θ,然后计算平面深度
Figure BDA0003266103590000032
其中,求解平面参数θ的公式为
XTθ=1
计算平面深度
Figure BDA0003266103590000033
的公式为
Figure BDA0003266103590000034
进一步地,平面约束监督信号计算步骤还包括:
根据公式
Figure BDA0003266103590000035
对所述平面区域内的点进行平面深度和估计深度的绝对误差计算,得到共平面约束监督信号Lplane
进一步地,所述总体损失函数计算步骤包括:计算深度图局部光滑监督信号Lsmooth和光度误差监督信号Lphoto
进一步地,所述总体损失函数计算步骤还包括:对所述深度图局部光滑监督信号Lsmooth、所述光度误差监督信号Lphoto,所述共平面约束监督信号Lplane、所述曼哈顿法向量监督信号Lnorm进行系数加权求和,得到总体损失函数L的值。
进一步地,计算所述总体损失函数L的值的公式如下:
L=Lphoto1Lsmooth2Lnorm3Lplane
其中,λ1、λ2、λ3分别为0.001,0.05,0.1。
与现有技术方案相比,本发明的有益技术效果包括:
第一,由于引入了曼哈顿世界模型,充分利用了室内场景结构先验知识,增强了单目深度估计网络对场景中几何信息的感知;
第二,采取的平面区域检测模块充分整合了几何信息和颜色信息,额外的几何信息使得本方法避免了因颜色难以区分导致的平面检测错误,并且在纹理丰富的区域得到了更少的过分割结果,正确的平面区域检测结果有效地提升了单目深度估计网络在平面区域的表现;
第三,将曼哈顿法线约束和共平面约束引入网络训练过程中,使得网络可以使用自监督的方式不断纠正和加强自己对场景中正确几何结构信息的感知能力,最终达到更好的深度估计效果。
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
附图说明
图1是本发明的一个较佳实施例的整体方法流程图;
图2是本发明的一个较佳实施例中计算曼哈顿法线监督信号的流程图;
图3是本发明的一个较佳实施例中计算共平面约束监督信号的流程图;
图4是本发明的一个较佳实施例中作为目标图像而选取的第0帧图像;
图5是本发明的一个较佳实施例中经训练后得到的深度图;
图6是本发明的一个较佳实施例中经训练后得到的法线估计图;
图7是本发明的一个较佳实施例中经训练后得到的曼哈顿主方向法线图;
图8是本发明的一个较佳实施例中第0帧图像的平面标签图;
图9是本发明与其他方法生成的深度图在NYU数据集上的对比示意图。
具体实施方式
以下参考说明书附图介绍本发明的多个优选实施例,使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现,本发明的保护范围并非仅限于文中提到的实施例。
在附图中,结构相同的部件以相同数字标号表示,各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的,本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰,附图中有些地方适当夸大了部件的厚度。
如图1所示,本发明所提方法的整体流程如下。首先以图像序列作为训练数据,所训练的模型包含两个卷积神经网络,一个是单目深度估计网络,另一个是相机位姿估计网络,为单目深度估计网络输入参考帧图像(即图像1),输出该参考帧图像的深度图,为位姿估计网络分别输入参考图像与邻近图像(即图像N),输出两幅图像间相机相对位姿变换。然后将两个网络的输出结果通过曼哈顿法向量监督信号计算、共平面监督信号计算、深度图局部光滑监督信号计算、光度误差监督信号计算,得到各监督信号的损失值,最后通过总体损失函数计算,获得最终损失值,用于网络模型反向传播系数调整。
其中单目深度估计网络模型、相机位姿估计网络模型、深度图局部光滑监督信号计算、光度误差监督信号计算可参考现有技术方案,这里不展开介绍。而其中曼哈顿法向量监督信号计算、共平面监督信号计算、总体损失函数计算为本发明的关键步骤。以下分别予以阐述。
在曼哈顿法向量监督信号计算步骤中,首先利用消失点检测方法提取中间帧图像的主方向,将提取到的主方向及其反方向都考虑为场景中主要平面可能的法线方向,例如天花板、地板和墙面。
接着根据公式(1)得到深度图中每一个像素点p对应的三维坐标Xp,再通过一个可微的方法从点的三维坐标Xp计算得到点的法线方向np。公式(1)中Dp代表像素点p的深度值,K代表相机内参矩阵。
Xp=DpK-1p 公式(1)
具体来说,p点的法线方向由p点周围7x7邻域上的点计算得来。将p点邻域上的点从左上起顺时针命名为1-8,按照{(i,j)|(i,j)∈{(3,5),(4,6),(7,1),(8,2)}}分为四组,通过公式(2)和公式(3)计算得到np
n=∑i,j(Xp-Xi)×(Xj-Xp) 公式(2)
np=n/‖n‖2 公式(3)
得到法线估计后,首先计算每个点的法线方向与可能的六个主方向之间的余弦相似度,选择最相似的主方向作为该点的曼哈顿主方向分类结果。在网络训练过程中,采用一个自适应阈值的方案来检测非曼哈顿区域,由于初始的法线估计不够准确,因此先设置一个比较小的阈值允许更多的像素被分类为曼哈顿区域,随着法线估计在后续的迭代中变得准确逐渐调高阈值。再对曼哈顿平面内的点进行表面法线np与主方向法线
Figure BDA0003266103590000051
的余弦距离误差计算,得到曼哈顿法线监督信号,计算流程如图2所示。该约束可由公式(4)描述,其中Nnorm代表曼哈顿平面区域内的点数,
Figure BDA0003266103590000052
代表曼哈顿区域,
Figure BDA0003266103590000053
代表平面区域,s代表两个向量的余弦相似度。
Figure BDA0003266103590000054
在共平面约束监督信号计算步骤中,首先通过一个平面区域检测模块得到平面标签图,该模块整合颜色信息以及训练过程中不断更新的几何信息对平面区域进行检测。这个模块是一个基于图的分割模块,将图像的每个像素点作为图的节点,图的边由像素点之间的不相似度表示,两点之间的不相似度Dg(p,q)由公式(5)计算得到,包括了颜色I、法线nalign和平面到原点距离d三种信息。
Figure BDA0003266103590000055
这里使用对应的曼哈顿主方向法线代替每个点估计得到的法线,减轻噪声的影响。使用线性归一化对所有的不相似度进行处理,然后把法线不相似度和平面到原点距离不相似度直接相加作为几何不相似度,再通过归一化后取最大值的方式整合颜色不相似度和几何不相似度。按照不相似度从小到大的顺序逐一合并图的节点,最后过滤掉面积较小的区域,即可得到检测出的各平面区域。
在检测出平面区域后,使用共平面约束来展平位于这些平面区域的3D点。首先对平面区域内的3D点进行平面拟合。通过公式(6)解最小二乘问题得到平面参数θ,然后按照公式(7)计算平面深度
Figure BDA0003266103590000061
XTθ=1 公式(6)
Figure BDA0003266103590000062
最后对平面区域内的点进行平面深度和估计深度的绝对误差计算,得到共平面约束监督信号,计算流程如图3所示。该约束可由公式(8)描述。
Figure BDA0003266103590000063
由前述曼哈顿法向量监督信号计算步骤和共平面约束监督信号计算步骤得到曼哈顿法向量监督信号Lnorm以及共平面约束监督信号Lplane后,执行总体损失函数计算步骤。参考现有技术方案计算深度图局部光滑监督信号Lsmooth和光度误差监督信号Lphoto,最后对这四个监督信号进行系数加权求和,得到总体损失函数如公式(9)所示,式中λ1、λ2、λ3分别为0.001,0.05,0.1。该总体损失用于网络模型反向传播系数调整,提升自监督单目深度估计网络整体性能。
L=Lphoto1Lsmooth2Lnorm3Lplane 公式(9)
以下为本发明的一个实施例的单次训练步骤说明,本实施例使用NYUv2数据集中的21465个真实场景图像序列作为训练集。
在准备步骤中,以图像序列作为训练数据,建立包括单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型的具体流程及内容如下:
首先参考图1建立单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型,然后从NYUv2训练集中获取一个图像序列,这个图像序列共包括五帧图像(-2,-1,0,1,2),选取第0帧图像作为目标图像,如图4所示。
接着将第0帧图像送入单目深度估计网络模型进行训练,得到深度图,如图5所示。
在曼哈顿法向量监督信号计算步骤中,具体内容如下:
将目标图像进行曼哈顿主方向检测,得到主方向向量矩阵。
将目标图像的深度图代入到公式(1)中计算得到目标图像中所有点的三维坐标,再通过公式(2)和公式(3)计算所有点的法线向量,得到法线估计图,如图6所示。
该法线估计图与主方向向量矩阵进行余弦相似度计算,根据相似度最大及自适应阈值的判断得到每个点的曼哈顿分类结果,根据该分类结果将对应的曼哈顿主方向向量赋值到第0帧图像的每个像素坐标点上,得到曼哈顿主方向法线图,如图7所示。
将第0帧图像的法线估计图和曼哈顿主方向法线图代入到公式(4)中,计算得到曼哈顿法向量监督信号Lnorm
共平面监督信号计算步骤中,具体内容如下:
在计算共平面约束损失的步骤中,首先将第0帧图像、对应的所有点的三维坐标、曼哈顿主方向法线图通过基于图的分割步骤,得到第0帧图像的平面标签图,如图8所示。
然后将平面标签图和所有点的三维坐标代入公式(6)和公式(7),得到拟合平面深度图。将拟合平面深度图与深度图代入公式(8),计算得到共平面约束监督信号Lplane
在向所述位姿估计网络分别输入所述参考图像与邻近图像,输出所述参考图像与所述邻近图像这两幅图像间相机相对位姿变换这一步骤中,具体内容如下:
将第0帧图像与其他帧图像两两组合,逐次送入位姿估计网络模型进行训练,得到各帧图像相对于第0帧图像的位姿变换矩阵。
在光度误差监督信号计算步骤中:
将相邻图像、相邻图像位姿变换矩阵、第0帧图像的深度图进行重投影,得到各相邻图像重建出来的伪第0帧图像,将伪第0帧图像和第0帧图像代入光度误差计算公式计算得到光度误差监督信号Lphoto
在深度图局部光滑监督信号计算步骤中:
将第0帧图像和深度图代入深度图局部光滑监督信号计算公式中得到深度图局部光滑监督信号Lsmooth
在总体损失函数计算步骤中:
在总体损失函数计算步骤中,将该图像序列计算得到的深度图局部光滑监督信号Lsmooth、光度误差监督信号Lphoto,共平面约束监督信号Lplane、曼哈顿法向量监督信号Lnorm代入公式(9),计算得到总体损失监督信号,将该信号进行反向传播,完成一次训练。重复多个图像序列的多次训练后,最终得到一个精度更高的单目深度估计模型。
图9为本发明一种实施例与其他算法生成的深度图在NYU数据集上的对比示意图,如图9所示,示出基于场景几何约束的室内单目深度估算方法和真实深度图、Monodepth2、P2Net的深度图在NYUv2室内数据集的对比示意图。
结合图9所示的对比图,表1为本发明对比Monodepth2、P2Net在NYUv2、ScanNet、InteriorNet三个室内场景数据集上的测试结果。其中RMSE代表均方根误差,δ代表准确率。
Figure BDA0003266103590000081
表1
参见表1所示,在三个不同的室内场景图像数据集上,本技术方案预测的深度图的均方根误差均小于其他算法,准确率大于其他算法。
综上,本发明的核心关键技术体现在以下三方面:
第一,结合室内几何结构特性的单目深度自监督训练整体流程。在单目深度估计自监督训练流程中引入了室内结构相关的监督信息,包括基于曼哈顿世界模型或者扩展曼哈顿世界模型(如亚特兰大世界模型)等信息。
第二,室内结构特性的方向性监督信息抽取方法。利用图像中投影灭点导出的主方向对场景表面法向量进行判断归类,将属于场景主要结构化平面(墙、天花板、地板等)表面法向量进行自动标注。
第三,训练过程中结合几何信息的室内环境平面区域抽取方法。共同利用图像与几何(深度/法向量等)信息进行平面区域自动识别。以及对几何信息在训练过程中随着模型的改进不断优化。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于场景几何约束的室内单目深度估算方法,其特征在于,包括以下步骤:
准备步骤;
深度图局部光滑监督信号计算步骤;
光度误差监督信号计算步骤;
曼哈顿法向量监督信号计算步骤;
共平面监督信号计算步骤;
总体损失函数计算步骤;
其中,所述准备步骤包括:以图像序列作为训练数据,建立包括单目深度估计网络模型和相机位姿估计网络模型这两个卷积神经网络的整体训练模型;向所述单目深度估计网络输入参考帧图像,输出所述参考帧图像的深度图;向所述位姿估计网络分别输入所述参考图像与邻近图像,输出所述参考图像与所述邻近图像这两幅图像间相机相对位姿变换。
2.如权利要求1所述的基于场景几何约束的室内单目深度估算方法,其特征在于,所述曼哈顿法向量监督信号计算步骤还包括:根据公式Xp=DpK-1p,得到深度图中每一个像素点p对应的三维坐标Xp,再通过一个可微的方法从点的三维坐标Xp计算得到点的法线方向np
其中,Dp代表像素点p的深度值,K代表相机内参矩阵;
其中,p点的法线方向由p点周围7x7邻域上的点计算得来,具体为将p点邻域上的点从左上起顺时针命名为1-8,按照{(i,j)|(i,j)∈{(3,5),(4,6),(7,1),(8,2)}}分为四组,通过以下公式计算得到np
n=∑i,j(Xp-Xi)×(Xj-Xp)
np=n/||n||2
3.如权利要求2所述的基于场景几何约束的室内单目深度估算方法,其特征在于,所述曼哈顿法向量监督信号计算步骤还包括:得到所述法线方向后,首先计算每个点的法线方向与可能的六个主方向之间的余弦相似度,选择最相似的主方向作为该点的曼哈顿主方向分类结果;在训练过程中,采用一个自适应阈值的方案来检测非曼哈顿区域;再对曼哈顿平面内的点进行表面法线np与主方向法线
Figure FDA0003266103580000011
的余弦距离误差计算,得到曼哈顿法线监督信号Lnorm
4.如权利要求3所述的基于场景几何约束的室内单目深度估算方法,其特征在于,计算所述曼哈顿法向量监督信号Lnorm的公式为:
Figure FDA0003266103580000021
其中,Nnorm代表曼哈顿平面区域内的点数,
Figure FDA0003266103580000022
代表曼哈顿区域,
Figure FDA0003266103580000023
代表平面区域,s代表两个向量的余弦相似度。
5.如权利要求4所述的基于场景几何约束的室内单目深度估算方法,其特征在于,所述共平面约束监督信号计算步骤包括:通过一个平面区域检测模块得到平面标签图;其中,所述平面区域检测模块整合颜色信息以及训练过程中不断更新的几何信息对平面区域进行检测;
所述平面区域检测模块是一个基于图的分割模块,将图像的每个像素点作为图的节点,图的边由像素点之间的不相似度表示,两点之间的所述不相似度Dg(p,q)由以下公式计算得到,
Figure FDA0003266103580000024
其中,I表示颜色、nalign表示法线,d表示平面到原点距离,
按照所述不相似度从小到大的顺序逐一合并图的节点,最后过滤掉面积较小的区域,得到检测出的各平面区域。
6.如权利要求5所述的基于场景几何约束的室内单目深度估算方法,其特征在于,所述共平面约束监督信号计算步骤还包括:在检测出所述平面区域后,对所述平面区域内的3D点进行平面拟合,通过解最小二乘问题得到平面参数θ,然后计算平面深度
Figure FDA0003266103580000025
其中,求解平面参数θ的公式为
XTθ=1
计算平面深度
Figure FDA0003266103580000026
的公式为
Figure FDA0003266103580000027
7.如权利要求6所述的基于场景几何约束的室内单目深度估算方法,其特征在于,平面约束监督信号计算步骤还包括:
根据公式
Figure FDA0003266103580000028
对所述平面区域内的点进行平面深度和估计深度的绝对误差计算,得到共平面约束监督信号Lplane
8.如权利要求7所述的基于场景几何约束的室内单目深度估算方法,其特征在于,所述总体损失函数计算步骤包括:计算深度图局部光滑监督信号Lsmooth和光度误差监督信号Lphoto
9.如权利要求8所述的基于场景几何约束的室内单目深度估算方法,其特征在于,所述总体损失函数计算步骤还包括:对所述深度图局部光滑监督信号Lsmooth、所述光度误差监督信号Lphoto,所述共平面约束监督信号Lplane、所述曼哈顿法向量监督信号Lnorm进行系数加权求和,得到总体损失函数L的值。
10.如权利要求9所述的基于场景几何约束的室内单目深度估算方法,其特征在于,计算所述总体损失函数L的值的公式如下:
L=Lphoto1Lsmooth2Lnorm3Lplane
其中,λ1、λ2、λ3分别为0.001,0.05,0.1。
CN202111096526.0A 2021-09-16 2021-09-16 一种基于场景几何约束的室内单目深度估算方法 Active CN113763474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111096526.0A CN113763474B (zh) 2021-09-16 2021-09-16 一种基于场景几何约束的室内单目深度估算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111096526.0A CN113763474B (zh) 2021-09-16 2021-09-16 一种基于场景几何约束的室内单目深度估算方法

Publications (2)

Publication Number Publication Date
CN113763474A true CN113763474A (zh) 2021-12-07
CN113763474B CN113763474B (zh) 2024-04-09

Family

ID=78796429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111096526.0A Active CN113763474B (zh) 2021-09-16 2021-09-16 一种基于场景几何约束的室内单目深度估算方法

Country Status (1)

Country Link
CN (1) CN113763474B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152323A (zh) * 2023-04-18 2023-05-23 荣耀终端有限公司 深度估计方法、单目深度估计模型生成方法和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190139179A1 (en) * 2017-11-03 2019-05-09 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN110009674A (zh) * 2019-04-01 2019-07-12 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110610486A (zh) * 2019-08-28 2019-12-24 清华大学 单目图像深度估计方法及装置
CN112272850A (zh) * 2018-04-11 2021-01-26 皇家飞利浦有限公司 用于根据3d医学图像数据生成增强诊断图像的系统和方法
CN112329662A (zh) * 2020-11-10 2021-02-05 西北工业大学 基于无监督学习的多视角显著性估计方法
CN113313732A (zh) * 2021-06-25 2021-08-27 南京航空航天大学 一种基于自监督学习的前视场景深度估计方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190139179A1 (en) * 2017-11-03 2019-05-09 Baidu Usa Llc Systems and methods for unsupervised learning of geometry from images using depth-normal consistency
CN112272850A (zh) * 2018-04-11 2021-01-26 皇家飞利浦有限公司 用于根据3d医学图像数据生成增强诊断图像的系统和方法
CN110009674A (zh) * 2019-04-01 2019-07-12 厦门大学 基于无监督深度学习的单目图像景深实时计算方法
CN110610486A (zh) * 2019-08-28 2019-12-24 清华大学 单目图像深度估计方法及装置
CN112329662A (zh) * 2020-11-10 2021-02-05 西北工业大学 基于无监督学习的多视角显著性估计方法
CN113313732A (zh) * 2021-06-25 2021-08-27 南京航空航天大学 一种基于自监督学习的前视场景深度估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BOYING LI 等: "StructDepth: Leveraging the structural regularities for self-supervised indoor depth estimation", ARXIV, pages 1 - 16 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116152323A (zh) * 2023-04-18 2023-05-23 荣耀终端有限公司 深度估计方法、单目深度估计模型生成方法和电子设备
CN116152323B (zh) * 2023-04-18 2023-09-08 荣耀终端有限公司 深度估计方法、单目深度估计模型生成方法和电子设备

Also Published As

Publication number Publication date
CN113763474B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
Dong et al. An efficient global energy optimization approach for robust 3D plane segmentation of point clouds
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
CN108648161B (zh) 非对称核卷积神经网络的双目视觉障碍物检测系统及方法
CN111899172A (zh) 一种面向遥感应用场景的车辆目标检测方法
CN108537239B (zh) 一种图像显著性目标检测的方法
CN107437246B (zh) 一种基于端到端全卷积神经网络的共同显著性检测方法
US9626585B2 (en) Composition modeling for photo retrieval through geometric image segmentation
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
CN109086777B (zh) 一种基于全局像素特征的显著图精细化方法
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
Xu et al. Automatic building rooftop extraction from aerial images via hierarchical RGB-D priors
CN111310768B (zh) 基于鲁棒性背景先验和全局信息的显著性目标检测方法
CN104657980A (zh) 一种改进的基于Meanshift的多通道图像分割算法
CN113095371B (zh) 一种面向三维重建的特征点匹配方法及系统
Liu et al. PatchMatch-based automatic lattice detection for near-regular textures
CN108388901B (zh) 基于空间-语义通道的协同显著目标检测方法
CN115937552A (zh) 一种基于融合手工特征与深度特征的图像匹配方法
CN113763474B (zh) 一种基于场景几何约束的室内单目深度估算方法
Li et al. Global color consistency correction for large-scale images in 3-D reconstruction
CN112330639A (zh) 一种用于彩色-热红外图像的显著性检测方法
CN115294371B (zh) 基于深度学习的互补特征可靠描述与匹配方法
CN112509014B (zh) 金字塔遮挡检测块匹配的鲁棒插值光流计算方法
CN111008555B (zh) 一种无人机图像弱小目标增强提取方法
CN114445618A (zh) 一种跨模态交互rgb-d图像显著区域检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant