CN112053393B - 一种图像深度估计方法及装置 - Google Patents

一种图像深度估计方法及装置 Download PDF

Info

Publication number
CN112053393B
CN112053393B CN202011115972.7A CN202011115972A CN112053393B CN 112053393 B CN112053393 B CN 112053393B CN 202011115972 A CN202011115972 A CN 202011115972A CN 112053393 B CN112053393 B CN 112053393B
Authority
CN
China
Prior art keywords
image
estimated
depth
depth map
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011115972.7A
Other languages
English (en)
Other versions
CN112053393A (zh
Inventor
周振
俞益洲
李一鸣
乔昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Original Assignee
Beijing Shenrui Bolian Technology Co Ltd
Shenzhen Deepwise Bolian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenrui Bolian Technology Co Ltd, Shenzhen Deepwise Bolian Technology Co Ltd filed Critical Beijing Shenrui Bolian Technology Co Ltd
Priority to CN202011115972.7A priority Critical patent/CN112053393B/zh
Publication of CN112053393A publication Critical patent/CN112053393A/zh
Application granted granted Critical
Publication of CN112053393B publication Critical patent/CN112053393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • G06T11/005Specific pre-processing for tomographic reconstruction, e.g. calibration, source positioning, rebinning, scatter correction, retrospective gating

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像深度估计方法,所述方法对待估计图像和对应的当前深度图进行信息提取,将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。由于在本申请的技术方案中,只需要一张待估计图像即可进行图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。

Description

一种图像深度估计方法及装置
技术领域
本申请涉及图像深度估计技术领域,尤其涉及一种图像深度估计方法及装置。
背景技术
目前,单目视觉的图像深度估计方法采用有监督的方式,例如:采用雷达或者红外线设备来采集带深度标签的图像或者人工对图像进行深度标注得到带深度标签的图像,然后用传统的机器学习或者深度学习方式对带深度标签的图像进行训练得到深度估计模型,然后利用深度估计模型来预测图像的深度。上述方式需要大量的带深度标签的图像进行训练,因此,无论是采用雷达或者红外线设备采集的方式还是采用人工标注的方式均需要耗费大量的人工成本和时间成本,使得现有的图像深度估计方法耗时耗力。
发明内容
本申请提供一种图像深度估计方法及装置,以实现图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。
第一方面,本申请提供了一种图像深度估计方法,所述方法包括:
对待估计图像和对应的当前深度图进行信息提取;
将所述提取到的信息作为当前图像重建信息,根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图;
将所述修正深度图作为当前深度图,返回执行所述对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对所述待估计图像进行图像深度估计的结果。
可选的,所述对待估计图像和对应的当前深度图进行信息提取的步骤,包括:
按照预设划分规则分别将所述待估计图像和所述当前深度图划分为多个预设大小的待估计方块和深度方块;
计算每个深度方块的深度值;
对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;
将每个深度方块的深度值作为对应的待估计方块的深度值;
将每个待估计方块的深度值在所述k个类别中对应的位置作为每个待估计方块的空间位置。
可选的,所述根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图的步骤,包括:
采用最小均方误差作为目标图像重建模型的损失函数,利用目标图像重建模型对每个待估计方块在所述待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系进行学习得到重建图像和修正深度图。
可选的,所述目标图像重建模型为UNet模型或者全卷积神经网络。
可选的,构建利用所述目标图像重建模型替代循环神经网络中的全连接操作的模型架构,利用所构建的模型架构执行上述任一所述的图像深度估计方法。
可选的,采用循环神经网络或者长短时记忆网络执行迭代操作直至达到预设迭代次数。
第二方面,本申请提供了一种图像深度估计装置,所述装置包括:
信息提取模块,用于对待估计图像和对应的当前深度图进行信息提取;
重建模块,用于将所述提取到的信息作为当前图像重建信息,根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图;
深度估计模块,用于将所述修正深度图作为当前深度图,返回执行所述对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对所述待估计图像进行图像深度估计的结果。
可选的,所述信息提取模块,包括:
划分子模块,用于按照预设划分规则分别将所述待估计图像和所述当前深度图划分为多个预设大小的待估计方块和深度方块;
计算子模块,用于计算每个深度方块的深度值;
聚类子模块,用于对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;
深度值确定子模块,用于将每个深度方块的深度值作为对应的待估计方块的深度值;
空间位置确定子模块,用于将每个待估计方块的深度值在所述k个类别中对应的位置作为每个待估计方块的空间位置。
可选的,所述重建模块,具体用于:
采用最小均方误差作为目标图像重建模型的损失函数,利用目标图像重建模型对每个待估计方块在所述待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系进行学习得到重建图像和修正深度图。
可选的,所述目标图像重建模型为UNet模型或者全卷积神经网络。
可选的,上述图像深度估计装置还包括构建模块,所述构建模块具体用于构建利用所述目标图像重建模型替代循环神经网络中的全连接操作的模型架构,利用所构建的模型架构执行上述任一所述的图像深度估计装置所执行的图像深度估计方法。
可选的,所述深度估计模块具体用于采用循环神经网络或者长短时记忆网络执行迭代操作直至达到预设迭代次数。
第三方面,本申请提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
第四方面,本申请提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
由上述技术方案可以看出,本申请可以对待估计图像和对应的当前深度图进行信息提取,将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。由于在本申请的技术方案中,只需要一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本申请实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种图像深度估计方法的流程示意图;
图2为本申请一实施例提供的一种模型架构的结构示意图;
图3为本申请一实施例提供的一种图像深度估计装置的结构示意图;
图4为本申请一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了解决现有技术中,需要大量的带深度标签的图像进行训练,而无论是采用雷达或者红外线设备采集的方式还是采用人工标注的方式均需要耗费大量的人工成本和时间成本,使得现有的图像深度估计方法耗时耗力的问题。
本申请提供了一种图像深度估计方法,在本方法中,可以对待估计图像和对应的当前深度图进行信息提取,将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。由于在本申请的技术方案中,只需要一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。
下面结合附图,详细说明本申请的各种非限制性实施方式。
参见图1,示出了本申请实施例中的一种图像深度估计方法。在本实施例中,所述方法应用于电子设备,所述方法例如可以包括以下步骤:
S101:对待估计图像和对应的当前深度图进行信息提取。
为了对待估计图像进行图像深度估计,需要对待估计图像和对应的当前深度图进行信息提取,进行信息提取的目的是为了挖掘到待估计图像和当前深度图包含的自监督信息。
由于本申请提出的是一种无标签的训练,因此,当前深度图可以为随机初始的一张深度图。
示例性的,待估计图像和当前深度图的大小相同,且当前深度图中的每个位置像素的像素值代表待估计图像对应位置像素的深度值。
但当前深度图中的每个像素的像素值并不是待估计图像对应位置像素的真实深度值。本申请就是通过模型的不断迭代来逐步使得当前深度图的深度值更接近待估计图像的真实深度值。
其中,对待估计图像和对应的当前深度图进行信息提取,可以包括:
按照预设划分规则分别将待估计图像和当前深度图划分为多个预设大小的待估计方块和深度方块;
计算每个深度方块的深度值;
对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;
将每个深度方块的深度值作为对应的待估计方块的深度值;
将每个待估计方块的深度值在k个类别中对应的位置作为每个待估计方块的空间位置。
按照预设划分规则分别将待估计图像和当前深度图划分为多个预设大小的待估计方块和深度方块,并在图像域随机打乱顺序,即打乱划分得到的多个待估计方待估计图像所在平面上的顺序,然后根据每个深度方块所包含的像素的深度信息按照投票的原则计算得到每个深度方块的深度值。
通过聚类的方式对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数。然后将每个待估计方块按照其从对应的深度方块中得到的深度值放在k个通道对应的位置,通道中没有待估计方块的位置补零,即将每个深度方块的深度值作为对应的待估计方块的深度值,将每个待估计方块的深度值在所述k个类别中对应的位置作为每个待估计方块的空间位置。
通过上述方式,将待估计图像在平面上处理成多个无序的图像方块也就是待估计方块,在立体空间上也就是k个通道上,按照待估计方块从对应的深度方块中获得深度值放在对应的立体空间层面上,由此,完成了信息提取。接下来需要让目标图像重建模型去自动学习每个待估计方块在平面上以及立体空间上的位置关系。
当然,对待估计图像和对应的当前深度图进行信息提取的方式还可以为按照预设划分规则分别将待估计图像和当前深度图划分为多个预设大小的待估计方块和深度方块,然后将多个深度方块随机旋转。然后后续让目标图像重建模型去预测每个深度方块的旋转角度,本申请实施例对待估计图像和对应的当前深度图进行信息提取的方式不做任何限定。
S102:将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图。
在进行信息提取后,即可通过目标图像重建模型去学习如何重建待估计图像本身,即将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图。
其中,在上述步骤S101对待估计图像和对应的当前深度图进行信息提取,包括按照预设划分规则分别将待估计图像和当前深度图划分为多个预设大小的待估计方块和深度方块;计算每个深度方块的深度值;对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;将每个深度方块的深度值作为对应的待估计方块的深度值;将每个待估计方块的深度值在k个类别中对应的位置作为每个待估计方块的空间位置的情况下,根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图,可以包括:
采用最小均方误差作为目标图像重建模型的损失函数,利用目标图像重建模型对每个待估计方块在待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系进行学习得到重建图像和修正深度图。
目标图像重建模型的监督信息就是待估计图像本身,损失函数采用最小均方误差,目标图像重建模型自动学习每个待估计方块在待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系,当两者之间的关系被正确的学习到以后即重建出来的重建图像的每个像素和待估计图像的每个对应的像素之差的平方和最小时,就得到了重建图像和修正深度图。
示例性的,目标图像重建模型为UNet模型或者全卷积神经网络。
S103:将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。
所得到的修正深度图的深度值相较于待估计图像对应的当前深度图的深度值更接近待估计图像的真实深度值,为了可以得到更高精度的图像深度估计,本申请通过循环迭代优化的方式对每一次得到的修正深度图进行循环迭代优化。
为了通过循环迭代优化的方式对每一次得到的修正深度图进行循环迭代优化,在得到修正深度图后,需要将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数就不再进行迭代,此时得到的修正深度图的深度值已经非常接近待估计图像的真实深度值,此时,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。
示例性的,采用循环神经网络或者长短时记忆网络执行迭代操作直至达到预设迭代次数。
综上可见,本申请提供的一种图像深度估计方法,可以对待估计图像和对应的当前深度图进行信息提取,将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。由于在本申请的技术方案中,只需要一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。
并且,申请实施例在得到修正深度图后,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取,直至达到预设迭代次数就不再进行迭代,此时得到的修正深度图的深度值已经非常接近待估计图像的真实深度值,相较于现有技术中仅一次学习的过程,本申请可以多次对修正深度图进行调整,得到更高精度的修正深度图,提高了图像深度估计的准确性。
以及,本申请提供的图像深度估计方法是无监督方法,仅需一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,可以适用于多种场景,避免了场景受限,可以进行广泛推广。
在另一种实现方式中,可以构建利用上述目标图像重建模型替代循环神经网络中的全连接操作的模型架构,利用所构建的模型架构执行上述图像深度估计方法。
具体的,采用FCNN(全卷积神经网络,Fully Convolutional Neural Netwok)构建一个图像重建的基本框架,然后将其嵌套在一个RNN(循环神经网络,Recurrent NeuralNetwork)中,FCNN替代RNN中的全连接操作。
模型架构的输入是一张自然图像和一个随机初始化的深度图像,也就是待估计图像和对应的当前深度图,在RNN迭代的每一步骤中,会输出一个图像重建的图像即重建图像,以及一个深度估计的图像即修正深度图,然后在下一次迭代时将预测出来的深度估计图像和自然图像叠加在一起再进行一轮迭代,在达到规定的迭代次数后停止迭代。
为了便于理解,结合图2对本申请提供的模型架构进行介绍,图2为本申请提供的模型架构的结构示意图。参见图2,本申请提供的模型架构可以包括三个模块:图像自监督信息提取模块、图像重建模块和循环迭代优化模块,图2中图像重建模块下方的全卷积网络代表图像重建模块可以使用全卷积网络。
图像自监督信息提取模块的输入有两个,一个是原始的自然图像,一个是随机初始的一张深度图,所谓深度图是指和自然图像大小对应并且其上每个像素的值代表了自然图像中对应位置的深度。图像自监督信息提取模块主要是对RNN每次输入的预处理,主要挖掘一些自监督信息。自监督信息的提取可以参照步骤S101中的对待估计图像和对应的当前深度图进行信息提取的方式,在此不再赘述。
接下来就是通过模型的不断迭代来逐步使得这个随机初始化的深度图更加符合自然图像的实际情况。
图像重建模块的输入就是图像自监督信息提取模块的输出,图像重建模块的输出是重建出来的自然图像和一个深度估计的图像也就是重建图像和修正深度图。在图像重建模块中的监督信息即为原图本身,通过图像比对构建损失函数,也就是将重建出的图像与自然图像进行对比,损失函数采用最小均方误差。图像重建模块的作用是让网络自动去学习如何重建其本身,本申请对具体采用的网络形式不做任何限定。
循环迭代优化模块的基本组成要素就是图像重建模块,在每一次迭代过程中,除了图像重建模块要输出的重建图像外,还需要输出学习到的修正以后的深度图,然后该深度图作为下一轮迭代的输入和自然图像送入图像自监督信息提取模块,通过这样的机制实现了模型架构在每一轮迭代都是基于上一轮优化的结果基础之上,从而实现了整个模型架构的自动优化。
示例性的,图像自监督信息提取模块包括但不限于图像随机分块或者图像随机旋转,图像重建模块可使用的网络包括但不限于全卷积网络或者UNet模型,循环迭代优化模块使用的网络包括但不限于循环神经网络或者长短时记忆网络。
综上可见,本申请实施例采用了全卷积神经网络替代循环神经网络中的全连接操作的方式构建了图像深度估计的模型架构,可以只需要一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。
并且,本申请实施例可以借助循环神经网络的多次迭代的特性,在得到修正深度图后,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取,直至达到预设迭代次数就不再进行迭代,此时得到的修正深度图的深度值已经非常接近待估计图像的真实深度值,相较于现有技术中仅一次学习的过程,本申请可以多次对修正深度图进行调整,得到更高精度的修正深度图,提高了图像深度估计的准确性。
以及,本申请提供的模型架构所基于的是无监督方法,仅需一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,可以适用于多种场景,避免了场景受限,可以进行广泛推广。
如图3所示,为本申请所述图像深度估计装置的一个具体实施例。本实施例所述装置,即用于执行上述实施例所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置包括:
信息提取模块301,用于对待估计图像和对应的当前深度图进行信息提取;
重建模块302,用于将所述提取到的信息作为当前图像重建信息,根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图;
深度估计模块303,用于将所述修正深度图作为当前深度图,返回执行所述对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对所述待估计图像进行图像深度估计的结果。
本申请提供的一种图像深度估计装置,可以对待估计图像和对应的当前深度图进行信息提取,将提取到的信息作为当前图像重建信息,根据目标图像重建模型和当前图像重建信息对待估计图像进行重建,得到重建图像和修正深度图,将修正深度图作为当前深度图,返回执行对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对待估计图像进行图像深度估计的结果。由于在本申请的技术方案中,只需要一张待估计图像和对应的一张当前深度图即可进行图像的深度估计,无需大量的带深度标签的图像进行训练得到深度估计模型后再对图像进行深度估计,大大节约了数据采集和人工标注的成本,省时省力。
在一种实现方式中,所述信息提取模块301,可以包括:
划分子模块,用于按照预设划分规则分别将所述待估计图像和所述当前深度图划分为多个预设大小的待估计方块和深度方块;
计算子模块,用于计算每个深度方块的深度值;
聚类子模块,用于对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;
深度值确定子模块,用于将每个深度方块的深度值作为对应的待估计方块的深度值;
空间位置确定子模块,用于将每个待估计方块的深度值在所述k个类别中对应的位置作为每个待估计方块的空间位置。
在一种实现方式中,所述重建模块302,可以具体用于:
采用最小均方误差作为目标图像重建模型的损失函数,利用目标图像重建模型对每个待估计方块在所述待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系进行学习得到重建图像和修正深度图。
在一种实现方式中,所述目标图像重建模型为UNet模型或者全卷积神经网络。
在一种实现方式中,上述图像深度估计装置还包括构建模块,所述构建模块具体用于构建利用所述目标图像重建模型替代循环神经网络中的全连接操作的模型架构,利用所构建的模型架构执行上述任一所述的图像深度估计装置所执行的图像深度估计方法。
在一种实现方式中,所述深度估计模块303具体用于采用循环神经网络或者长短时记忆网络执行迭代操作直至达到预设迭代次数。
图4是本申请实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成图像深度估计装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本申请任一实施例中提供的图像深度估计方法。
上述如本申请图1所示实施例提供的图像深度估计方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本申请任一实施例中提供的图像深度估计方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本申请的实施例可提供为方法或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种图像深度估计方法,其特征在于,包括:
对待估计图像和对应的当前深度图进行信息提取;
将所述提取到的信息作为当前图像重建信息,根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图;
将所述修正深度图作为当前深度图,返回执行所述对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对所述待估计图像进行图像深度估计的结果,其中,所述对待估计图像和对应的当前深度图进行信息提取的步骤,包括:
按照预设划分规则分别将所述待估计图像和所述当前深度图划分为多个预设大小的待估计方块和深度方块;
计算每个深度方块的深度值;
对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;
将每个深度方块的深度值作为对应的待估计方块的深度值;
将每个待估计方块的深度值在所述k个类别中对应的位置作为每个待估计方块的空间位置。
2.根据权利要求1所述的方法,其特征在于,所述根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图的步骤,包括:
采用最小均方误差作为目标图像重建模型的损失函数,利用目标图像重建模型对每个待估计方块在所述待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系进行学习得到重建图像和修正深度图。
3.根据权利要求1所述的方法,其特征在于,所述目标图像重建模型为UNet模型或者全卷积神经网络。
4.根据权利要求1所述的方法,其特征在于,构建利用所述目标图像重建模型替代循环神经网络中的全连接操作的模型架构,利用所构建的模型架构执行权利要求1-3任一项所述的图像深度估计方法。
5.根据权利要求1所述的方法,其特征在于,采用循环神经网络或者长短时记忆网络执行迭代操作直至达到预设迭代次数。
6.一种图像深度估计装置,其特征在于,包括:
信息提取模块,用于对待估计图像和对应的当前深度图进行信息提取,其中,所述信息提取模块,包括:
划分子模块,用于按照预设划分规则分别将所述待估计图像和所述当前深度图划分为多个预设大小的待估计方块和深度方块;
计算子模块,用于计算每个深度方块的深度值;
聚类子模块,用于对划分得到的多个深度方块的深度值进行聚类得到k个类别,其中,k为正整数;
深度值确定子模块,用于将每个深度方块的深度值作为对应的待估计方块的深度值;
空间位置确定子模块,用于将每个待估计方块的深度值在所述k个类别中对应的位置作为每个待估计方块的空间位置;
重建模块,用于将所述提取到的信息作为当前图像重建信息,根据目标图像重建模型和所述当前图像重建信息对所述待估计图像进行重建,得到重建图像和修正深度图;
深度估计模块,用于将所述修正深度图作为当前深度图,返回执行所述对待估计图像和当前深度图进行信息提取的步骤,直至达到预设迭代次数,将达到预设迭代次数时所得到的修正深度图作为对所述待估计图像进行图像深度估计的结果。
7.根据权利要求6所述的装置,其特征在于,所述重建模块,具体用于:
采用最小均方误差作为目标图像重建模型的损失函数,利用目标图像重建模型对每个待估计方块在所述待估计图像所在平面上的平面位置和每个待估计方块的空间位置之间的关系进行学习得到重建图像和修正深度图。
8.一种电子设备,其特征在于,包括:处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行权利要求1-5任一项所述的方法。
CN202011115972.7A 2020-10-19 2020-10-19 一种图像深度估计方法及装置 Active CN112053393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011115972.7A CN112053393B (zh) 2020-10-19 2020-10-19 一种图像深度估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011115972.7A CN112053393B (zh) 2020-10-19 2020-10-19 一种图像深度估计方法及装置

Publications (2)

Publication Number Publication Date
CN112053393A CN112053393A (zh) 2020-12-08
CN112053393B true CN112053393B (zh) 2021-07-02

Family

ID=73605793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011115972.7A Active CN112053393B (zh) 2020-10-19 2020-10-19 一种图像深度估计方法及装置

Country Status (1)

Country Link
CN (1) CN112053393B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087349A (zh) * 2018-07-18 2018-12-25 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN110766737A (zh) * 2018-07-26 2020-02-07 富士通株式会社 训练深度估计模型的方法和设备以及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401242B2 (en) * 2011-01-31 2013-03-19 Microsoft Corporation Real-time camera tracking using depth maps
US10748247B2 (en) * 2017-12-26 2020-08-18 Facebook, Inc. Computing high-resolution depth images using machine learning techniques
CN111028282A (zh) * 2019-11-29 2020-04-17 浙江省北大信息技术高等研究院 一种无监督位姿与深度计算方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109087349A (zh) * 2018-07-18 2018-12-25 亮风台(上海)信息科技有限公司 一种单目深度估计方法、装置、终端和存储介质
CN110766737A (zh) * 2018-07-26 2020-02-07 富士通株式会社 训练深度估计模型的方法和设备以及存储介质

Also Published As

Publication number Publication date
CN112053393A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
US20200250436A1 (en) Video object segmentation by reference-guided mask propagation
US20190385059A1 (en) Method and Apparatus for Training Neural Network and Computer Server
CN111860398B (zh) 遥感图像目标检测方法、系统及终端设备
CN110210513B (zh) 数据分类方法、装置及终端设备
CN112085056B (zh) 目标检测模型生成方法、装置、设备及存储介质
CN113496208B (zh) 视频的场景分类方法及装置、存储介质、终端
CN112016475A (zh) 一种人体检测识别方法和装置
CN110705573A (zh) 一种目标检测模型的自动建模方法及装置
CN112738640B (zh) 一种视频流的字幕的确定方法、装置及可读存储介质
CN114612832A (zh) 一种实时手势检测方法及装置
CN111914908A (zh) 一种图像识别模型训练方法、图像识别方法及相关设备
CN113065525A (zh) 年龄识别模型训练方法、人脸年龄识别方法及相关装置
CN114694005A (zh) 目标检测模型训练方法和装置、目标检测方法和装置
CN111651674A (zh) 双向搜索方法、装置及电子设备
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN109389215B (zh) 一种深度学习网络的网络结构确定方法及装置
CN112053393B (zh) 一种图像深度估计方法及装置
CN113744280A (zh) 图像处理方法、装置、设备及介质
CN113393410A (zh) 一种图像融合方法、装置、电子设备及存储介质
CN110210314B (zh) 人脸检测方法、装置、计算机设备及存储介质
CN113822097A (zh) 单视角人体姿态识别方法、装置、电子设备和存储介质
CN108460768B (zh) 层次化时域切分的视频关注对象分割方法和装置
CN112148817A (zh) 一种基于全景图的slam优化方法、装置和系统
CN112669270A (zh) 视频质量的预测方法、装置及服务器
CN113191401A (zh) 基于视觉显著性共享的用于三维模型识别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant