CN108932734A - 单目图像的深度恢复方法及装置、计算机设备 - Google Patents

单目图像的深度恢复方法及装置、计算机设备 Download PDF

Info

Publication number
CN108932734A
CN108932734A CN201810502947.0A CN201810502947A CN108932734A CN 108932734 A CN108932734 A CN 108932734A CN 201810502947 A CN201810502947 A CN 201810502947A CN 108932734 A CN108932734 A CN 108932734A
Authority
CN
China
Prior art keywords
image
characteristic image
characteristic
monocular
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810502947.0A
Other languages
English (en)
Other versions
CN108932734B (zh
Inventor
鲍虎军
章国锋
蒋沁宏
石建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Sensetime Technology Development Co Ltd
Original Assignee
Zhejiang Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Sensetime Technology Development Co Ltd filed Critical Zhejiang Sensetime Technology Development Co Ltd
Priority to CN201810502947.0A priority Critical patent/CN108932734B/zh
Priority to SG11201912423WA priority patent/SG11201912423WA/en
Priority to PCT/CN2018/116276 priority patent/WO2019223262A1/zh
Priority to JP2020520708A priority patent/JP6850399B2/ja
Publication of CN108932734A publication Critical patent/CN108932734A/zh
Priority to US16/724,287 priority patent/US11004221B2/en
Application granted granted Critical
Publication of CN108932734B publication Critical patent/CN108932734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/94Dynamic range modification of images or parts thereof based on local image properties, e.g. for local contrast enhancement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种单目图像的深度恢复方法及装置、计算机设备、计算机可读存储介质、计算机程序,所述方法包括:对所述单目图像进行特征提取,得到所述单目图像的特征图像;对所述特征图像进行解耦,得到所述特征图像的场景结构图;将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。

Description

单目图像的深度恢复方法及装置、计算机设备
技术领域
本发明涉及计算机视觉领域,尤其涉及一种单目图像的深度恢复方法及装置、计算机设备、计算机可读存储介质、计算机程序。
背景技术
单目图像的深度恢复是指对单目图像进行深度恢复,单目图像的深度恢复是计算机视觉领域中的重要问题,且在很多领域都有重要的应用,比如三维重建、机器人实时定位、视觉避障等领域。
然而,单目图像的深度恢复由于深度尺度的不确定性,是一个复杂的多解问题。很多现有的深度估计方案往往简单地将场景结构估计和深度尺度估计耦合在一起同时求解,使得问题的求解过程相对困难,往往需要较多的数据和训练时间,精度低。
发明内容
为解决上述技术问题,本发明实施例提供了一种单目图像的深度恢复方法及装置、计算机设备、计算机可读存储介质、计算机程序。
本发明实施例提供的单目图像的深度恢复方法,包括:
对所述单目图像进行特征提取,得到所述单目图像的特征图像;
对所述特征图像进行解耦,得到所述特征图像的场景结构图;
将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;
根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
本发明实施例中,所述对所述单目图像进行特征提取,得到所述单目图像的特征图像,包括:
将所述单目图像输入第一神经网络进行特征提取,得到所述单目图像的特征图像。
本发明实施例中,所述第一神经网络执行的特征提取,包括:
对所述单目图像进行多尺度特征提取,得到所述单目图像的多尺度特征信息;
对所述多尺度特征信息进行残差调整,得到调整后的多尺度特征信息;
对所述调整后的多尺度特征信息进行特征融合,得到所述特征图像。
本发明实施例中,所述对所述特征图像进行解耦,得到所述特征图像的场景结构图,包括:
将所述特征图像输入第二神经网络进行解耦,得到所述特征图像的场景结构图。
本发明实施例中,在将所述特征图像输入第二神经网络之前,还包括:
预先建立所述第二神经网路,其中,所述第二神经网路至少包括一卷积层和一线性整流函数。
本发明实施例中,所述将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像,包括:
将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理,得到区域增强的特征图像。
本发明实施例中,所述第三神经网络执行的梯度感知处理,包括:
根据所述场景结构图得到所述场景结构图的实际梯度图像;
根据所述特征图像得到所述特征图像对应的预测梯度图像;
根据所述实际梯度图像和所述预测梯度图像进行相似度分析,得到掩模;
将所述掩模和所述特征图像进行残差滤波处理,得到区域增强的特征图像。
本发明实施例中,所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析,得到掩模,包括:
计算所述实际梯度图像和所述预测梯度图像之间的相似度;
将相似度大于预设阈值的实际梯度图像作为所述掩模。
本发明实施例中,所述将所述掩模和所述特征图像进行残差滤波处理,包括:
计算所述掩模和所述特征图像的乘积,得到融合图像;
将所述融合图像进行预处理,得到预处理后的图像,其中所述预处理依次包括:卷积计算、线性整流计算、卷积计算;
将所述特征图像和所述预处理后的图像进行叠加,得到区域增强的特征图像。
本发明实施例中,所述根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像,包括:
对所述区域增强的特征图像进行卷积计算,得到所述单目图像的深度图像。
本发明实施例提供的单目图像的深度恢复装置,包括:
特征提取模块,用于对所述单目图像进行特征提取,得到所述单目图像的特征图像;
场景结构估计模块,用于对所述特征图像进行解耦,得到所述特征图像的场景结构图;
梯度感知模块,用于将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;
深度估计模块,用于根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
本发明实施例中,所述特征提取模块,用于将所述单目图像输入第一神经网络进行特征提取,得到所述单目图像的特征图像。
本发明实施例中,所述第一神经网络执行的特征提取,包括:
对所述单目图像进行多尺度特征提取,得到所述单目图像的多尺度特征信息;
对所述多尺度特征信息进行残差调整,得到调整后的多尺度特征信息;
对所述调整后的多尺度特征信息进行特征融合,得到所述特征图像。
本发明实施例中,所述场景结构估计模块,用于将所述特征图像输入第二神经网络进行解耦,得到所述特征图像的场景结构图。
本发明实施例中,所述装置还包括:
建立模块,用于预先建立所述第二神经网路,其中,所述第二神经网路至少包括一卷积层和一线性整流函数。
本发明实施例中,所述梯度感知模块,用于将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理,得到区域增强的特征图像。
本发明实施例中,所述第三神经网络执行的梯度感知处理,包括:
根据所述场景结构图得到所述场景结构图的实际梯度图像;
根据所述特征图像得到所述特征图像对应的预测梯度图像;
根据所述实际梯度图像和所述预测梯度图像进行相似度分析,得到掩模;
将所述掩模和所述特征图像进行残差滤波处理,得到区域增强的特征图像。
本发明实施例中,所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析,得到掩模,包括:
计算所述实际梯度图像和所述预测梯度图像之间的相似度;
将相似度大于预设阈值的实际梯度图像作为所述掩模。
本发明实施例中,所述将所述掩模和所述特征图像进行残差滤波处理,包括:
计算所述掩模和所述特征图像的乘积,得到融合图像;
将所述融合图像进行预处理,得到预处理后的图像,其中所述预处理依次包括:卷积计算、线性整流计算、卷积计算;
将所述特征图像和所述预处理后的图像进行叠加,得到区域增强的特征图像。
本发明实施例中,所述深度估计模块,用于对所述区域增强的特征图像进行卷积计算,得到所述单目图像的深度图像。
本发明实施例提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时,实现本发明实施例提供的单目图像的深度恢复方法。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现本发明实施例提供的单目图像的深度恢复方法。
本发明实施例提供一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现本发明实施例提供的单目图像的深度恢复方法。
本发明实施例的技术方案中,对所述单目图像进行特征提取,得到所述单目图像的特征图像;对所述特征图像进行解耦,得到所述特征图像的场景结构图;将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。上述的单目图像的深度恢复方法和装置,不仅能够采用少量的数据获得更好的深度估计结果,而且还采用梯度感知处理获得更多深度细节。
附图说明
图1为本发明实施例的单目图像的深度恢复方法的流程示意图;
图2为本发明实施例的神经网络架构图;
图3为本发明实施例的单目图像的特征提取的流程示意图;
图4为本发明实施例的梯度感知处理的流程示意图;
图5为本发明实施例的单目图像的深度恢复装置的结构组成示意图一;
图6为本发明实施例的单目图像的深度恢复装置的结构组成示意图二;
图7为本发明实施例的计算机设备的结构组成示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本发明实施例可以应用于计算机系统/服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备一起使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
计算机系统/服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
图1为本发明实施例的单目图像的深度恢复方法的流程示意图,如图1所示,所述单目图像的深度恢复方法包括以下步骤:
步骤101:对所述单目图像进行特征提取,得到所述单目图像的特征图像。
这里,单目图像也称为二维图像,单目图像的信息仅包含有各个像素点的颜色信息,例如RGB信息,而不包含有各个像素点的深度信息。本发明实施例旨在从单目图像中估计出对应的深度图像,假设(x,y)为单目图像中任一个像素点的坐标,从单目图像中可以确定坐标(x,y)对应的RGB信息,而无法确定坐标(x,y)对应的深度信息(depth),为了确定坐标(x,y)对应的深度信息(depth),需要对该单目图像的深度进行恢复。
为实现单目图像的深度恢复,首先需要对所述单目图像进行特征提取,得到所述单目图像的特征图像。这里的特征提取是指对所述单目图像进行深度感知特征提取,以为后续进行深度图像的估计提供基本特征。
本发明实施例中,可以采用卷积操作来实现对所述单目图像进行特征提取。
步骤102:对所述特征图像进行解耦,得到所述特征图像的场景结构图。
这里,场景结构图包含有单目图像的场景结构信息,其中,场景结构信息包括单目图像中各个物体的结构信息以及物体之间的相对位置关系(例如前后关系),这里的场景结构信息本质上反映了物体的相对深度信息。
本发明实施例中,特征图像中包括了两种信息,一种是场景结构信息,另一种是深度尺度信息,同时对这两种信息进行估计非常困难,为此,本发明实施例对所述特征图像进行解耦,先估计所述特征图像的场景结构信息,进而得到场景结构图。
本发明实施例中,可以采用卷积操作来实现估计所述特征图像的场景结构信息。
步骤103:将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像。
考虑到深度图像的几何细节,对于3D重建等应用非常关键,本发明实施例通过梯度感知处理来估计特征图像的增强区域,从而得到区域增强的特征图像。
本发明实施例中,利用梯度和几何细节之间的强相关性,对获取到的特征图像和场景结构图分别进行梯度信息的估计,对比这两个估计结果,即可确定出增强区域,从而得到区域增强的特征图像。在该区域增强的特征图像中,几何细节得到增强,为后续得到高质量的深度图像提供了基本保障。
步骤104:根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
本发明实施例中,通过卷积操作对所述区域增强的特征图像进行深度估计,从而得到所述单目图像的深度图像。具体地,对所述区域增强的特征图像进行卷积计算,得到所述单目图像的深度图像。
本发明实施例的技术方案,将深度估计解耦为两个部分,即1)场景结构(scenestructure)的估计、2)深度的估计,如此可以显著加速神经网络的收敛,并且提高深度估计的准确度。此外,深度图像的局部细节通过梯度感知处理进一步改进,可以得到高质量的深度图像,从而为需要精细的几何细节和准确的物体边界的3D重建等应用提供优质的数据源。
为实现上述的单目图像的深度恢复方法,本发明实施例还提供一种神经网络架构(称为DCNet),如图2所示,DCNet由三部分组成,即:1)特征提取模块,2)解耦模块,以及3)梯度感知模块,其中,解耦模块包括两个部分,分别为2.1)场景结构估计模块、2.2)深度估计模块。参照图2,(a)部分的网络对应特征提取模块,(b)部分的网络对应场景结构估计模块,(d)部分的网络对应深度估计模块,(c)部分的网络对应梯度感知模块。本发明实施例中,可以采用欧几里德损失函数对图2所示的DCNet进行训练。在图2所示的DCNet中,通过(a)部分的网络对单目图像进行特征提取,得到所述单目图像的特征图像;通过(b)部分的网络对所述特征图像进行解耦,得到所述特征图像的场景结构图;通过(c)部分的网络将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;通过(d)部分的网络根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
图1所示的方案中,单目图像的特征提取可以通过将所述单目图像输入第一神经网络进行特征提取,从而得到所述单目图像的特征图像。以下结合图2及图3对如何通过第一神经网络进行特征提取进行描述。
图3为本发明实施例的单目图像的特征提取的流程示意图,如图3所示,该流程包括以下步骤:
步骤301:对所述单目图像进行多尺度特征提取,得到所述单目图像的多尺度特征信息。
基于图2所示的DCNet,第一神经网络为(a)部分的网络,参照图2中的(a)部分的网络,左侧的一列卷积层用于对所述单目图像进行多尺度特征提取,得到所述单目图像的多尺度特征信息。
步骤302:对所述多尺度特征信息进行残差调整,得到调整后的多尺度特征信息。
这里,多尺度特征信息是指提取出的特征信息的尺度不同,有些特征信息的尺度较大,有些特征信息的尺度较小,由于多尺度特征信息的尺度不一致,会使得小尺度的特征信息在融合之后消失,因此,需要通过中间一列的类残差调整模块(Residual likeadjustment,简称为adjust)(参照图2中的(e))对所述多尺度特征信息进行残差调整,得到调整后的多尺度特征信息,这里,残差调整的目的是对多尺度特征信息中的各个特征信息的尺度进行调整,以得到更好的融合效果。
步骤303:对所述调整后的多尺度特征信息进行特征融合,得到所述特征图像。
在一实施方式中,在调整后的多尺度特征信息中选择部分特征信息并上采样到输入图像大小的一半输入到右侧的融合模块(Concat)进行特征融合,得到所述特征图像。
通过上述步骤得到特征图像后,将所述特征图像输入第二神经网络进行解耦,得到所述特征图像的场景结构图。以下结合图2对如何通过第二神经网络对场景结构图进行估计进行描述。
基于图2所示的DCNet,第二神经网络为(b)部分的网络,(a)部分的网络从单目图像中提取出特征图像I后,将特征图像I输入至(b)部分的网络,通过(b)部分的网络预测场景结构图R。本发明实施例中,预先建立所述第二神经网路,其中,所述第二神经网路至少包括一卷积层和一线性整流函数。这里,卷积层可以是512通道的卷积层,线性整流函数通过修正线性单元(ReLU,Rectified Linear Unit)来实现。I和R之间的关系可以通过以下公式表示:
其中,F1表示从特征图像I到场景结构图R的映射,F1对应图2中的(b)部分的网络,(b)部分的网络用于学习场景结构图R。
为了细化图像的布局细节,本发明实施例将所述特征图像和所述场景结构图进行梯度感知处理,从而得到区域增强的特征图像。这里,梯度感知处理可以通过将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理,得到区域增强的特征图像。以下结合图2及图4对如何通过第三神经网络进行梯度感知处理进行描述。
图4为本发明实施例的梯度感知处理的流程示意图,如图4所示,该流程包括以下步骤:
步骤401:根据所述场景结构图得到所述场景结构图的实际梯度图像。
步骤402:根据所述特征图像得到所述特征图像对应的预测梯度图像。
基于图2所示的DCNet,第三神经网络为(c)部分的网络,参照图2中的(c)部分的网络,根据场景结构图R估计实际梯度图像根据特征图像I估计预测梯度图像理想情况下,相同,然而,由于是实际梯度图像,而是预测梯度图像,因此,可能不同。
步骤403:根据所述实际梯度图像和所述预测梯度图像进行相似度分析,得到掩模。
本实施例中,计算所述实际梯度图像和所述预测梯度图像之间的相似度(例如通过余弦函数计算相似度);将相似度大于预设阈值的实际梯度图像作为所述掩模。参照图2中的(c)部分的网络,计算之间的相似度,将相似度大于δ的实际梯度图像作为所述掩模。
这里,掩模对应实际梯度图像的一个区域,这部分区域的特征有利于后续进一步优化深度图像的细节,使得深度图像能用于三维建模等高精度应用。
步骤404:将所述掩模和所述特征图像进行残差滤波处理,得到区域增强的特征图像。
在一实施方式中,区域增强的特征图像通过如下方式得到:计算所述掩模和所述特征图像的乘积,得到融合图像;将所述融合图像进行预处理,得到预处理后的图像,其中所述预处理依次包括:卷积计算、线性整流计算、卷积计算;将所述特征图像和所述预处理后的图像进行叠加,得到区域增强的特征图像。例如,参照图2中的(f)部分的网络(Residual like filtering),Multiply模块用于计算掩模和特征图像的乘积,得到融合图像,将融合图像依次输入Conv模块、RuLU模块以及Conv模块,从而实现对应的卷积计算、线性整流计算以及卷积计算,最后的结果再通过Sum模块与原始的特征图像进行叠加,输出区域增强的特征图像。
通过上述方案得到区域增强的特征图像后,通过图2中的(d)部分的网络对所述区域增强的特征图像进行卷积计算,得到所述单目图像的深度图像。这里,执行卷积计算的卷积层可以是64通道的卷积层。
本发明实施例中,通过场景结构估计模块(图2中的(b)部分的网络)和深度估计模块(图2中的(d)部分的网络),将深度图像的估计以分治策略的方式分解成了对场景结构的估计和对深度的估计,从而能够加快DCNet的收敛速度并得到更加精准的结果。并且,在场景结构估计模块和深度估计模块之间建立梯度感知模块,通过深度估计模块能够得到区域增强的特征图像,使得较深层的神经网络(例如图2中的(d)部分的网络)能够更集中在增强的区域,恢复出具有更好的边界以及细节的深度图像,恢复出来的高精度深度图像为三维重建等应用提供了高质量的数据源。
图5为本发明实施例的单目图像的深度恢复装置的结构组成示意图一,如图5所示,所述单目图像的深度恢复装置包括:
特征提取模块501,用于对所述单目图像进行特征提取,得到所述单目图像的特征图像;
场景结构估计模块502,用于对所述特征图像进行解耦,得到所述特征图像的场景结构图;
梯度感知模块503,用于将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;
深度估计模块504,用于根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
本领域技术人员应当理解,图5所示的单目图像的深度恢复装置中的各单元的实现功能可参照前述单目图像的深度恢复方法的相关描述而理解。图5所示的单目图像的深度恢复装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图6为本发明实施例的单目图像的深度恢复装置的结构组成示意图二,如图6所示,所述单目图像的深度恢复装置包括:
特征提取模块501,用于对所述单目图像进行特征提取,得到所述单目图像的特征图像;
场景结构估计模块502,用于对所述特征图像进行解耦,得到所述特征图像的场景结构图;
梯度感知模块503,用于将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;
深度估计模块504,用于根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
在一实施方式中,所述特征提取模块501,用于将所述单目图像输入第一神经网络进行特征提取,得到所述单目图像的特征图像。
在一实施方式中,所述第一神经网络执行的特征提取,包括:
对所述单目图像进行多尺度特征提取,得到所述单目图像的多尺度特征信息;
对所述多尺度特征信息进行残差调整,得到调整后的多尺度特征信息;
对所述调整后的多尺度特征信息进行特征融合,得到所述特征图像。
在一实施方式中,所述场景结构估计模块502,用于将所述特征图像输入第二神经网络进行解耦,得到所述特征图像的场景结构图。
在一实施方式中,所述装置还包括:
建立模块505,用于预先建立所述第二神经网路,其中,所述第二神经网路至少包括一卷积层和一线性整流函数。
在一实施方式中,所述梯度感知模块503,用于将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理,得到区域增强的特征图像。
在一实施方式中,所述第三神经网络执行的梯度感知处理,包括:
根据所述场景结构图得到所述场景结构图的实际梯度图像;
根据所述特征图像得到所述特征图像对应的预测梯度图像;
根据所述实际梯度图像和所述预测梯度图像进行相似度分析,得到掩模;
将所述掩模和所述特征图像进行残差滤波处理,得到区域增强的特征图像。
在一实施方式中,所述根据所述实际梯度信息和所述预测梯度信息进行相似度分析,得到掩模,包括:
计算所述实际梯度图像和所述预测梯度图像之间的相似度;
将相似度大于预设阈值的实际梯度图像作为所述掩模。
在一实施方式中,所述将所述掩模和所述特征图像进行残差滤波处理,包括:
计算所述掩模和所述特征图像的乘积,得到融合图像;
将所述融合图像进行预处理,得到预处理后的图像,其中所述预处理依次包括:卷积计算、线性整流计算、卷积计算;
将所述特征图像和所述预处理后的图像进行叠加,得到区域增强的特征图像。
在一实施方式中,所述深度估计模块504,用于对所述区域增强的特征图像进行卷积计算,得到所述单目图像的深度图像。
本领域技术人员应当理解,图6所示的单目图像的深度恢复装置中的各单元的实现功能可参照前述单目图像的深度恢复方法的相关描述而理解。图6所示的单目图像的深度恢复装置中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例上述单目图像的深度恢复装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应地,本发明实施例还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本发明实施例的上述单目图像的深度恢复方法。
图7为本发明实施例的计算机设备的结构组成示意图,如图7所示,计算机设备100可以包括一个或多个(图中仅示出一个)处理器1002(处理器1002可以包括但不限于微处理器(MCU,Micro Controller Unit)或可编程逻辑器件(FPGA,Field Programmable GateArray)等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机设备100还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
存储器1004可用于存储应用软件的软件程序以及模块,如本发明实施例中的方法对应的程序指令/模块,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器1004可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机设备100的通信供应商提供的无线网络。在一个实例中,传输装置1006包括一个网络适配器(NIC,Network Interface Controller),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置1006可以为射频(RF,Radio Frequency)模块,其用于通过无线方式与互联网进行通讯。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种单目图像的深度恢复方法,其特征在于,所述方法包括:
对所述单目图像进行特征提取,得到所述单目图像的特征图像;
对所述特征图像进行解耦,得到所述特征图像的场景结构图;
将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;
根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
2.根据权利要求1所述的方法,其特征在于,所述对所述单目图像进行特征提取,得到所述单目图像的特征图像,包括:
将所述单目图像输入第一神经网络进行特征提取,得到所述单目图像的特征图像。
3.根据权利要求2所述的方法,其特征在于,所述第一神经网络执行的特征提取,包括:
对所述单目图像进行多尺度特征提取,得到所述单目图像的多尺度特征信息;
对所述多尺度特征信息进行残差调整,得到调整后的多尺度特征信息;
对所述调整后的多尺度特征信息进行特征融合,得到所述特征图像。
4.根据权利要求1所述的方法,其特征在于,所述对所述特征图像进行解耦,得到所述特征图像的场景结构图,包括:
将所述特征图像输入第二神经网络进行解耦,得到所述特征图像的场景结构图。
5.根据权利要求1所述的方法,其特征在于,所述将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像,包括:
将所述特征图像和所述场景结构图输入第三神经网络进行梯度感知处理,得到区域增强的特征图像。
6.根据权利要求5所述的方法,其特征在于,所述第三神经网络执行的梯度感知处理,包括:
根据所述场景结构图得到所述场景结构图的实际梯度图像;
根据所述特征图像得到所述特征图像对应的预测梯度图像;
根据所述实际梯度图像和所述预测梯度图像进行相似度分析,得到掩模;
将所述掩模和所述特征图像进行残差滤波处理,得到区域增强的特征图像。
7.一种单目图像的深度恢复装置,其特征在于,所述装置包括:
特征提取模块,用于对所述单目图像进行特征提取,得到所述单目图像的特征图像;
场景结构估计模块,用于对所述特征图像进行解耦,得到所述特征图像的场景结构图;
梯度感知模块,用于将所述特征图像和所述场景结构图进行梯度感知处理,得到区域增强的特征图像;
深度估计模块,用于根据所述区域增强的特征图像进行深度估计,得到所述单目图像的深度图像。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时实现权利要求1至6任一项所述的方法步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至6任一项所述的方法。
10.一种计算机程序,包括计算机指令,当所述计算机指令在设备的处理器中运行时,实现权利要求1至6任一项所述的方法。
CN201810502947.0A 2018-05-23 2018-05-23 单目图像的深度恢复方法及装置、计算机设备 Active CN108932734B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810502947.0A CN108932734B (zh) 2018-05-23 2018-05-23 单目图像的深度恢复方法及装置、计算机设备
SG11201912423WA SG11201912423WA (en) 2018-05-23 2018-11-19 Depth recovery methods and apparatuses for monocular image, and computer devices
PCT/CN2018/116276 WO2019223262A1 (zh) 2018-05-23 2018-11-19 单目图像的深度恢复方法及装置、计算机设备
JP2020520708A JP6850399B2 (ja) 2018-05-23 2018-11-19 単眼画像の深度回復方法及び装置、コンピュータ機器
US16/724,287 US11004221B2 (en) 2018-05-23 2019-12-21 Depth recovery methods and apparatuses for monocular image, and computer devices

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810502947.0A CN108932734B (zh) 2018-05-23 2018-05-23 单目图像的深度恢复方法及装置、计算机设备

Publications (2)

Publication Number Publication Date
CN108932734A true CN108932734A (zh) 2018-12-04
CN108932734B CN108932734B (zh) 2021-03-09

Family

ID=64449119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810502947.0A Active CN108932734B (zh) 2018-05-23 2018-05-23 单目图像的深度恢复方法及装置、计算机设备

Country Status (5)

Country Link
US (1) US11004221B2 (zh)
JP (1) JP6850399B2 (zh)
CN (1) CN108932734B (zh)
SG (1) SG11201912423WA (zh)
WO (1) WO2019223262A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948689A (zh) * 2019-03-13 2019-06-28 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110515463A (zh) * 2019-08-29 2019-11-29 南京泛在地理信息产业研究院有限公司 一种手势交互式视频场景中基于单目视觉的3d模型嵌入方法
CN110992304A (zh) * 2019-10-30 2020-04-10 浙江力邦合信智能制动系统股份有限公司 二维图像深度测量方法及其在车辆安全监测中的应用
CN112446909A (zh) * 2019-08-30 2021-03-05 上海商汤临港智能科技有限公司 一种深度图像补全方法及装置、计算机可读存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6971934B2 (ja) * 2018-08-10 2021-11-24 株式会社東芝 画像処理装置
US20210366139A1 (en) * 2020-05-21 2021-11-25 Samsung Electronics Co., Ltd. Method and apparatus for generating depth image
CN114143517A (zh) * 2021-10-26 2022-03-04 深圳华侨城卡乐技术有限公司 一种基于重叠区域的融合蒙板计算方法、系统及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130069934A1 (en) * 2011-09-19 2013-03-21 Himax Technologies Limited System and Method of Rendering Stereoscopic Images
CN106768325A (zh) * 2016-11-21 2017-05-31 清华大学 多光谱光场视频采集装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8422766B2 (en) * 2008-06-24 2013-04-16 Thomson Licensing System and method for depth extraction of images with motion compensation
CN102413756B (zh) * 2009-04-29 2015-04-01 皇家飞利浦电子股份有限公司 从单目内窥镜图像估计实时深度
US8284998B2 (en) * 2010-07-01 2012-10-09 Arcsoft Hangzhou Co., Ltd. Method of estimating depths from a single image displayed on display
US9471988B2 (en) * 2011-11-02 2016-10-18 Google Inc. Depth-map generation for an input image using an example approximate depth-map associated with an example similar image
CN103413347B (zh) * 2013-07-05 2016-07-06 南京邮电大学 基于前景背景融合的单目图像深度图提取方法
CN105374039B (zh) * 2015-11-16 2018-09-21 辽宁大学 基于轮廓锐度的单目图像深度信息估计方法
CN106157307B (zh) * 2016-06-27 2018-09-11 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
WO2018160998A1 (en) * 2017-03-02 2018-09-07 Arizona Board Of Regents On Behalf Of Arizona State University Live-cell computed tomography
CN107204010B (zh) * 2017-04-28 2019-11-19 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107578436B (zh) * 2017-08-02 2020-06-12 南京邮电大学 一种基于全卷积神经网络fcn的单目图像深度估计方法
US10504282B2 (en) * 2018-03-21 2019-12-10 Zoox, Inc. Generating maps without shadows using geometry

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130069934A1 (en) * 2011-09-19 2013-03-21 Himax Technologies Limited System and Method of Rendering Stereoscopic Images
CN106768325A (zh) * 2016-11-21 2017-05-31 清华大学 多光谱光场视频采集装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCO VISENTINI-SCARZANELLA等: "Deep monocular 3D reconstruction for assisted navigation in bronchoscopy", 《INTERNATIONAL JOURNAL OF COMPUTER ASSISTED RADIOLOGY AND SURGERY》 *
李晓明等: "基于中值滤波的三维重建研究", 《仪表技术》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948689A (zh) * 2019-03-13 2019-06-28 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
CN109948689B (zh) * 2019-03-13 2022-06-03 北京达佳互联信息技术有限公司 一种视频生成方法、装置、电子设备及存储介质
CN110515463A (zh) * 2019-08-29 2019-11-29 南京泛在地理信息产业研究院有限公司 一种手势交互式视频场景中基于单目视觉的3d模型嵌入方法
CN110515463B (zh) * 2019-08-29 2023-02-28 南京泛在地理信息产业研究院有限公司 一种手势交互式视频场景中基于单目视觉的3d模型嵌入方法
CN112446909A (zh) * 2019-08-30 2021-03-05 上海商汤临港智能科技有限公司 一种深度图像补全方法及装置、计算机可读存储介质
CN112446909B (zh) * 2019-08-30 2022-02-01 上海商汤临港智能科技有限公司 一种深度图像补全方法及装置、计算机可读存储介质
CN110992304A (zh) * 2019-10-30 2020-04-10 浙江力邦合信智能制动系统股份有限公司 二维图像深度测量方法及其在车辆安全监测中的应用

Also Published As

Publication number Publication date
SG11201912423WA (en) 2020-01-30
JP6850399B2 (ja) 2021-03-31
CN108932734B (zh) 2021-03-09
US11004221B2 (en) 2021-05-11
WO2019223262A1 (zh) 2019-11-28
US20200143552A1 (en) 2020-05-07
JP2020524355A (ja) 2020-08-13

Similar Documents

Publication Publication Date Title
CN108932734A (zh) 单目图像的深度恢复方法及装置、计算机设备
WO2021057027A1 (zh) 人体检测方法、装置、计算机设备及存储介质
CN106503671B (zh) 确定人脸姿态的方法和装置
Arrigoni et al. Robust synchronization in SO (3) and SE (3) via low-rank and sparse matrix decomposition
CN108335322A (zh) 深度估计方法和装置、电子设备、程序和介质
CN107103613B (zh) 一种三维手势姿态估计方法
CN106600583B (zh) 基于端到端神经网络的视差图获取方法
US20180137611A1 (en) Novel View Synthesis Using Deep Convolutional Neural Networks
CN110599491B (zh) 基于先验信息的眼部图像分割方法、装置、设备及介质
CN110832501A (zh) 用于姿态不变面部对准的系统和方法
CN104596502A (zh) 一种基于cad模型与单目视觉的物体位姿测量方法
CN109801379A (zh) 通用的增强现实眼镜及其标定方法
JP2020524355A5 (zh)
US11403781B2 (en) Methods and systems for intra-capture camera calibration
CN107481313A (zh) 一种基于学习有效点云生成的密集三维物体重建方法
JP6613876B2 (ja) 姿勢推定装置、姿勢推定方法、およびプログラム
CN110276795A (zh) 一种基于分裂迭代算法的光场深度估计方法
CN112419419A (zh) 用于人体姿势和形状估计的系统和方法
CN110060296A (zh) 估计姿态的方法、电子设备和显示虚拟对象的方法及设备
Michael et al. Model-based generation of personalized full-body 3D avatars from uncalibrated multi-view photographs
CN114972634A (zh) 基于特征体素融合的多视角三维可变形人脸重建方法
Mulligan et al. Stereo-based environment scanning for immersive telepresence
KR102333768B1 (ko) 딥러닝 기반 손 인식 증강현실 상호 작용 장치 및 방법
Ranade et al. Novel single view constraints for manhattan 3d line reconstruction
Yang et al. A hybrid 3D registration method of augmented reality for intelligent manufacturing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant