CN110827341A - 一种图片深度估计方法、装置和存储介质 - Google Patents

一种图片深度估计方法、装置和存储介质 Download PDF

Info

Publication number
CN110827341A
CN110827341A CN201810907717.2A CN201810907717A CN110827341A CN 110827341 A CN110827341 A CN 110827341A CN 201810907717 A CN201810907717 A CN 201810907717A CN 110827341 A CN110827341 A CN 110827341A
Authority
CN
China
Prior art keywords
depth
picture
sample
sample picture
full convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810907717.2A
Other languages
English (en)
Inventor
杨本植
赵辰羽
李璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Communications Ltd Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Communications Ltd Research Institute filed Critical China Mobile Communications Group Co Ltd
Priority to CN201810907717.2A priority Critical patent/CN110827341A/zh
Publication of CN110827341A publication Critical patent/CN110827341A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图片深度估计方法、装置和存储介质,用以提供一种通用的图像深度估计方法,提高图像深度估计的准确性。图片深度估计方法,包括:获取带有深度标签的样本图片;利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;利用训练得到的图像深度估计模型确定二维图片的深度信息。

Description

一种图片深度估计方法、装置和存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种图片深度估计方法、装置和存储介质。
背景技术
在计算机视觉系统中,三维场景信息为图像分割、目标检测、物体跟踪等各类计算机视觉应用提供了更多的可能性,而深度图像(Depth map)作为一种普遍的三维场景信息表达方式得到了广泛的应用。在3D计算机图形中,Depth Map(深度图像)是包含与视点的场景对象的表面的距离有关的信息的图像或图像通道,深度图像的每个像素点的灰度值可用于表征场景中某一点距离摄像机的远近。
图像深度信息的获取可以分为硬件和软件两种方式,硬件设备主要有激光测距仪和深度相机,前者价格昂贵不利于推广,后者虽然价格较便宜,但检测距离有限,且精度易受周围环境的影响。另一方面,硬件方法要求在拍摄时需要同步获取深度,对于如何从已经存在的二维图片重建或估计三维深度信息可以使用软件的方法,主要包括传统算法,传统算法有离焦法(depth from defocus),多视图立体匹配法(multi-view stereo)和运动结构法(structure form motion)等,它们对拍摄条件或图片类型有特殊要求,精度不高并且难以适用普遍需求。
因此,提供提高图像三维深度信息估计方法适用性和准确性,成为现有技术中亟待解决的技术问题之一。
发明内容
本发明实施例提供一种图像深度估计方法、装置和存储介质,用以提供一种通用的图像深度估计方法,提高图像深度估计的准确性。
第一方面,提供一种图像深度估计方法,包括:
获取带有深度标签的样本图片;
利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;
利用训练得到的图像深度估计模型确定二维图片的深度信息。
可选地,按照以下公式确定所述损失函数:
L=(D-log(dt))2
D=∑(log(di))/N
其中:
L表示损失函数;
di表示所述全卷积残差网络在不同类别上的估计的深度信息;
dt表示样本图像对应的深度标签值;
N表示所述全卷积残差网络输出的分类数量。
可选地,在利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练之前,还包括:
对获取的样本图片进行预处理,所述预处理包括以下至少一种:图片缩放、图片裁剪、随机旋转、随机翻转和随机调整颜色对比度。
可选地,在对获取的样本图片进行图片缩放时,还包括:
根据图片缩放比例,调整所述样本图片的深度标签。
可选地,根据图片缩放比例,调整所述样本图片的深度标签,具体包括:
如果缩小样本图片,则根据缩小倍数,将所述样本图片的深度放大相同的倍数;
如果放大样本图片,则根据放大倍数,将所述样本图片的深度缩小相同的倍数。
第二方面,提供一种图片深度估计装置,包括:
获取单元,用于获取带有深度标签的样本图片;
训练单元,用于利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;
确定单元,用于利用训练得到的图像深度估计模型确定二维图片的深度信息。
可选地,所述训练单元,用于按照以下公式确定所述损失函数:
L=(D-log(dt))2
D=∑(log(di))/N
其中:
L表示损失函数;
di表示所述全卷积残差网络在不同类别上的估计的深度信息;
dt表示样本图像对应的深度标签值;
N表示所述全卷积残差网络输出的分类数量。
可选地,本发明实施例提供的图片深度估计装置,还包括:
预处理单元,用于在所述训练单元利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练之前,对获取的样本图片进行预处理,所述预处理包括以下至少一种:图片缩放、图片裁剪、随机旋转、随机翻转和随机调整颜色对比度。
可选地,所述预处理单元,还用于在对获取的样本图片进行图片缩放时,根据图片缩放比例,调整所述样本图片的深度标签。
可选地,所述预处理单元,用于如果缩小样本图片,则根据缩小倍数,将所述样本图片的深度放大相同的倍数;如果放大样本图片,则根据放大倍数,将所述样本图片的深度缩小相同的倍数。
第三方面,提供一种计算装置,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行上述任一图片深度估计方法所述的步骤。
第四方面,提供一种计算装置,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行上述任一图片深度估计方法所述的步骤。
本发明实施例提供的图片深度估计方法、装置和存储介质中,利用带有深度标签的样本图片和全卷积残差网络对图像深度估计模型进行训练,直至全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值时停止训练,这样,利用得到的图像深度估计模型对图像深度信息进行预测,该方法适用于任何场景下的二维图片,而且通过最小化损失函数保证了图像深度预测的准确性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例提供的图片深度估计方法的实施流程示意图;
图2为本发明实施例提供的图片深度估计装置的结构示意图;
图3为本发明实施例提供的计算装置的结构示意图。
具体实施方式
为了提高图片深度估计方法的适用性和准确性,本发明实施例提供了一种图片深度估计方法、装置和存储介质。
首先,对本发明实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
三维重建技术:三维重建是指对三维物体建立适合计算机表示和处理的数学模型。主要有两类方法:一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型,另一类是通过一定的手段获取真实物体的几何形状,包括如何利用二维平面信息恢复真实世界物体的三维信息(深度等)。
深度学习技术:深度学习是人工智能邻域的一个分支,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、声音和文本。多层神经网络是一种常用的深度学习模型,它通过组合低层特征形成更加抽象的高层特征或属性,以发现数据的分布式特征表示。
需要说明的是,本发明中的终端设备可以是个人电脑(英文全称:PersonalComputer,PC)、平板电脑、个人数字助理(Personal Digita l Assistant,PDA)、个人通信业务(英文全称:Personal Communication Service,PCS)电话、笔记本和手机等终端设备,也可以是具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们能够向用户提供语音和/或数据连通性的设备,以及与无线接入网交换语言和/或数据。
另外,本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
为了提高图片深度估计的适用性和准确性,本发明实施例提供了一种基于深度全卷积残差网络的单张图片深度估计方法,利用深度全卷积残差网络提取深度线索用于单张图片深度估计。如图1所示,其为本发明实施例提供的图片深度估计方法的实施流程示意图,包括以下步骤:
S11、获取带有深度标签的样本图片。
本步骤中,需要获取足够多的带深度标签的样本图片,具体实施时,可以用RGB相机结合深度相机自行采集,也可以从互联网下载公开的深度数据集,如NYU Depth v2、Make3D等。
进一步地,可以对获取的样本图片进行预处理以提高训练得到的深度估计模型的泛化能力,例如,可以对样本图片进行数据增强处理,包括以下至少一种:图片缩放、图片裁剪、随机旋转、随机翻转和随机调整颜色对比度。例如,包括对样本图片以及相应深度标签的缩放、裁剪、随机旋转、随机翻转与随机调整颜色对比度。其中,在对获取的样本图片进行图片缩放时,还需要根据图片缩放比例,调整所述样本图片的深度标签。具体地,如果缩小样本图片,则根据缩小倍数,将所述样本图片的深度放大相同的倍数;如果放大样本图片,则根据放大倍数,将所述样本图片的深度缩小相同的倍数。例如,原图缩小s倍则其对应的深度标签值应该放大s倍以还原真实图片拍摄,具体实施时,空白区域填0,随机旋转、随机翻转和随机调整颜色对比度等随机操作的概率可以设定为0.5,RGB值的缩放尺度可以设定为[0.8 1.2],同时将样本图片与标签的尺寸统一为网络输入的大小。最后样本图片三通道减去均值128进行归一化处理,深度标签由线性空间转换到对数空间。
应当理解,具体实施时,上述设定的各种参数均可以根据实际需要进行调整,本发明实施例对此不进行限定。
S12、利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值。
具体实施时,为了提高图片深度估计的准确性,本发明实施例中,使用的全卷积残差网络中通过堆叠残差块来增加网络的深度,并且增强高层抽象特征的提取能力。残差块在堆叠卷积层的基础上添加了skip(跳过)支路,可以有效的解决深层网络中的梯度消失问题。skip支路按其是否包含卷积层可分为identity mapping(恒等映射)和linearprojection(线性投影)两种类型,projection连接用来匹配输入输出维度。RGB图片输入网络后,通过一个7*7的卷积层及紧随其后的池化层进行处理,随后通过4个残差块,一个全卷积层,一个反卷积层上采样得到与原图相同大小的特征图。
具体实施中,可以采用迁移学习的思想进行训练,首先载入ImageNet(拥有多个Node(节点),一个node含有至少500个对应物体的可供训练的图片/图像)上预训练的网络(resNet-50,resNet-101或resNet-152),其中,resNet-50,resNet-101或resNet-152均为残差网络(resNet)的一种类型,移除其最后的average pooling(平均池化)层以更好的保存图片细节信息,其后的全卷积层输出维度改为N,对应N个类别,然后添加可学习的deconvolution(反卷积)层将结果上采样为原图尺寸,并使用双线性插值初始化,最后通过Loss层计算损失并迭代优化。训练的全局学习率可以设为0.01,反卷积层的学习率可以设为0。
在LOSS层,针对大小为H*W(高度*宽度)的二维图片,假设利用全卷积残差网络预测得到的深度为D,则首先将上采样特征图在深度维度上取平均:D=∑(log(di))/N,其中:di表示所述全卷积残差网络在不同类别上的估计的深度信息,N表示所述全卷积残差网络输出的分类数量,对应N个类别。得到与原图同样大小的预测深度图。最终的Loss函数可以按照以下公式确定:L=(D-log(dt))2,其中,L表示损失函数;D为网络预测的深度,dt表示样本图像对应的深度标签值,网络训练的目的就是最小化损失函数,使得预测深度尽可能等于深度标签值。基于此,当全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值时,停止训练,得到图像深度估计模型。
S13、利用训练得到的图像深度估计模型确定二维图片的深度信息。
具体地,将待估计深度信息的二维图片输入训练得到的图像深度估计模型中,即可输出该二维图片的深度信息。
本发明实施例中,将深度全卷积残差网络用于单张图片深度估计,包括深度数据集的处理,基于残差结构的深度全卷积残差网络的构造方法以及训练方法,残差块的使用增强了网络的特征提取能力。特别是其中结合分类思想的meanL2 loss的创建,以及可学习的反卷积层的使用,很好地提升了最终训练结果。不局限于单张图片的深度估计问题,其它像素级的回归任务均可使用此本发明实施例提出的思路训练模型。
本发明实施例提供的图片深估计方法中,在网络结构上,使用了更深的残差网络,残差块的使用使得网络在深度增加的基础上可以有效地避免梯度消失问题;反卷积层的使用可以实现像素级的预测;构造新的Loss函数进行学习,很好的提升了训练效果。而且,不需要图片模型的后处理便可以获得较高的精度以及较好的细节信息,可以很好的满足实时性与精度的需求。
基于同一发明构思,本发明实施例中还提供了一种图片深度估计装置,由于上述装置解决问题的原理与图片深度估计方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图2所示,其为本发明实施例提供的图片深度估计装置的结构示意图,包括:
获取单元21,用于获取带有深度标签的样本图片;
训练单元22,用于利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;
确定单元23,用于利用训练得到的图像深度估计模型确定二维图片的深度信息。
可选地,所述训练单元,用于按照以下公式确定所述损失函数:
L=(D-log(dt))2
D=∑(log(di))/N
其中:
L表示损失函数;
di表示所述全卷积残差网络在不同类别上的估计的深度信息;
dt表示样本图像对应的深度标签值;
N表示所述全卷积残差网络输出的分类数量。
可选地,本发明实施例提供的图片深度估计装置,还包括:
预处理单元,用于在所述训练单元利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练之前,对获取的样本图片进行预处理,所述预处理包括以下至少一种:图片缩放、图片裁剪、随机旋转、随机翻转和随机调整颜色对比度。
可选地,所述预处理单元,还用于在对获取的样本图片进行图片缩放时,根据图片缩放比例,调整所述样本图片的深度标签。
可选地,所述预处理单元,用于如果缩小样本图片,则根据缩小倍数,将所述样本图片的深度放大相同的倍数;如果放大样本图片,则根据放大倍数,将所述样本图片的深度缩小相同的倍数。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
在介绍了本发明示例性实施方式的图片深度估计方法和装置之后,接下来,介绍根据本发明的另一示例性实施方式的计算装置。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中,所述存储器存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的图片深度估计方法中的步骤。例如,所述处理器可以执行如图1中所示的步骤S11、获取带有深度标签的样本图片,和步骤S12、利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;以及步骤S13、利用训练得到的图像深度估计模型确定二维图片的深度信息。
下面参照图3来描述根据本发明的这种实施方式的计算装置30。图3显示的计算装置30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算装置30以通用计算设备的形式表现。计算装置30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器32可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算装置30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与计算装置30交互的设备通信,和/或与使得该计算装置30能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,计算装置30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器36通过总线33与用于计算装置30的其它模块通信。应当理解,尽管图中未示出,可以结合计算装置30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在一些可能的实施方式中,本发明提供的图片深度估计方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的图片深度估计方法中的步骤,例如,所述计算机设备可以执行如图1中所示的步骤S11、获取带有深度标签的样本图片,和步骤S12、利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;以及步骤S13、利用训练得到的图像深度估计模型确定二维图片的深度信息。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本发明的实施方式的用于图片深度估计的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在计算设备上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种图片深度估计方法,其特征在于,包括:
获取带有深度标签的样本图片;
利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;
利用训练得到的图像深度估计模型确定二维图片的深度信息。
2.如权利要求1所述的方法,其特征在于,按照以下公式确定所述损失函数:
L=(D-log(dt))2
D=∑(log(di))/N
其中:
L表示损失函数;
di表示所述全卷积残差网络在不同类别上的估计的深度信息;
dt表示样本图像对应的深度标签值;
N表示所述全卷积残差网络输出的分类数量。
3.如权利要求1或2所述的方法,其特征在于,在利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练之前,还包括:
对获取的样本图片进行预处理,所述预处理包括以下至少一种:图片缩放、图片裁剪、随机旋转、随机翻转和随机调整颜色对比度。
4.如权利要求3所述的方法,其特征在于,在对获取的样本图片进行图片缩放时,还包括:
根据图片缩放比例,调整所述样本图片的深度标签。
5.如权利要求4所述的方法,其特征在于,根据图片缩放比例,调整所述样本图片的深度标签,具体包括:
如果缩小样本图片,则根据缩小倍数,将所述样本图片的深度放大相同的倍数;
如果放大样本图片,则根据放大倍数,将所述样本图片的深度缩小相同的倍数。
6.一种图片深度估计装置,其特征在于,包括:
获取单元,用于获取带有深度标签的样本图片;
训练单元,用于利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练,直至所述全卷积残差网络中包含的损失LOSS层输出的损失函数小于预设阈值;
确定单元,用于利用训练得到的图像深度估计模型确定二维图片的深度信息。
7.如权利要求6所述的装置,其特征在于,
所述训练单元,用于按照以下公式确定所述损失函数:
L=(D-log(dt))2
D=∑(log(di))/N
其中:
L表示损失函数;
di表示所述全卷积残差网络在不同类别上的估计的深度信息;
dt表示样本图像对应的深度标签值;
N表示所述全卷积残差网络输出的分类数量。
8.如权利要求6或7所述的装置,其特征在于,还包括:
预处理单元,用于在所述训练单元利用全卷积残差网络和带有深度标签的样本图片进行训练对图像深度估计模型进行训练之前,对获取的样本图片进行预处理,所述预处理包括以下至少一种:图片缩放、图片裁剪、随机旋转、随机翻转和随机调整颜色对比度。
9.如权利要求8所述的装置,其特征在于,
所述预处理单元,还用于在对获取的样本图片进行图片缩放时,根据图片缩放比例,调整所述样本图片的深度标签。
10.如权利要求9所述的装置,其特征在于,
所述预处理单元,用于如果缩小样本图片,则根据缩小倍数,将所述样本图片的深度放大相同的倍数;如果放大样本图片,则根据放大倍数,将所述样本图片的深度缩小相同的倍数。
11.一种计算装置,其特征在于,包括至少一个处理器、以及至少一个存储器,其中,所述存储器存储有计算机程序,当所述程序被所述处理器执行时,使得所述处理器执行权利要求1~5任一权利要求所述方法的步骤。
12.一种计算机可读介质,其特征在于,其存储有可由终端设备执行的计算机程序,当所述程序在终端设备上运行时,使得所述终端设备执行权利要求1~5任一所述方法的步骤。
CN201810907717.2A 2018-08-10 2018-08-10 一种图片深度估计方法、装置和存储介质 Pending CN110827341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810907717.2A CN110827341A (zh) 2018-08-10 2018-08-10 一种图片深度估计方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810907717.2A CN110827341A (zh) 2018-08-10 2018-08-10 一种图片深度估计方法、装置和存储介质

Publications (1)

Publication Number Publication Date
CN110827341A true CN110827341A (zh) 2020-02-21

Family

ID=69541124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810907717.2A Pending CN110827341A (zh) 2018-08-10 2018-08-10 一种图片深度估计方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110827341A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801128A (zh) * 2020-12-14 2021-05-14 深圳云天励飞技术股份有限公司 非机动车识别方法、装置、电子设备及存储介质
CN113592890A (zh) * 2021-05-28 2021-11-02 北京医准智能科技有限公司 一种ct图像肝脏分割方法及装置
CN113643343A (zh) * 2020-04-27 2021-11-12 北京达佳互联信息技术有限公司 深度估计模型的训练方法、装置、电子设备及存储介质
CN113379813B (zh) * 2021-06-08 2024-04-30 北京百度网讯科技有限公司 深度估计模型的训练方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040218595A1 (en) * 2003-05-02 2004-11-04 Lucent Technologies Inc. System and method for multi-protocol label switching network tuning
CN106204522A (zh) * 2015-05-28 2016-12-07 奥多比公司 对单个图像的联合深度估计和语义标注
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107274445A (zh) * 2017-05-19 2017-10-20 华中科技大学 一种图像深度估计方法和系统
US20180059679A1 (en) * 2016-09-01 2018-03-01 Ford Global Technologies, Llc Depth map estimation with stereo images
CN108280814A (zh) * 2018-02-08 2018-07-13 重庆邮电大学 基于感知损失的光场图像角度超分辨率重建方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040218595A1 (en) * 2003-05-02 2004-11-04 Lucent Technologies Inc. System and method for multi-protocol label switching network tuning
CN106204522A (zh) * 2015-05-28 2016-12-07 奥多比公司 对单个图像的联合深度估计和语义标注
US20180059679A1 (en) * 2016-09-01 2018-03-01 Ford Global Technologies, Llc Depth map estimation with stereo images
CN107204010A (zh) * 2017-04-28 2017-09-26 中国科学院计算技术研究所 一种单目图像深度估计方法与系统
CN107274445A (zh) * 2017-05-19 2017-10-20 华中科技大学 一种图像深度估计方法和系统
CN108280814A (zh) * 2018-02-08 2018-07-13 重庆邮电大学 基于感知损失的光场图像角度超分辨率重建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MASAHIRO YAMAGUCHI 等: "Computer generated hologram from full-parallax 3D image data captured by scanning vertical camera array(Invited Paper)", 《 CHINESE OPTICS LETTERS》 *
许路 等: "基于深层卷积神经网络的单目红外图像深度估计", 《光学学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643343A (zh) * 2020-04-27 2021-11-12 北京达佳互联信息技术有限公司 深度估计模型的训练方法、装置、电子设备及存储介质
CN113643343B (zh) * 2020-04-27 2024-05-17 北京达佳互联信息技术有限公司 深度估计模型的训练方法、装置、电子设备及存储介质
CN112801128A (zh) * 2020-12-14 2021-05-14 深圳云天励飞技术股份有限公司 非机动车识别方法、装置、电子设备及存储介质
CN112801128B (zh) * 2020-12-14 2023-10-13 深圳云天励飞技术股份有限公司 非机动车识别方法、装置、电子设备及存储介质
CN113592890A (zh) * 2021-05-28 2021-11-02 北京医准智能科技有限公司 一种ct图像肝脏分割方法及装置
CN113592890B (zh) * 2021-05-28 2022-02-11 北京医准智能科技有限公司 一种ct图像肝脏分割方法及装置
CN113379813B (zh) * 2021-06-08 2024-04-30 北京百度网讯科技有限公司 深度估计模型的训练方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110062934B (zh) 使用神经网络确定图像中的结构和运动
CN106204522B (zh) 对单个图像的联合深度估计和语义标注
WO2019223382A1 (zh) 单目深度估计方法及其装置、设备和存储介质
US8958630B1 (en) System and method for generating a classifier for semantically segmenting an image
CN109871800B (zh) 一种人体姿态估计方法、装置和存储介质
CN109858333B (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN110827341A (zh) 一种图片深度估计方法、装置和存储介质
US20230419521A1 (en) Unsupervised depth prediction neural networks
CN109272543B (zh) 用于生成模型的方法和装置
CN109754464B (zh) 用于生成信息的方法和装置
CN111357018B (zh) 使用神经网络的图像分割
JP2023533907A (ja) 自己注意ベースのニューラルネットワークを使用した画像処理
CN114022799A (zh) 一种自监督单目深度估计方法和装置
CN111028279A (zh) 点云数据处理方法及装置、电子设备和存储介质
CN115272565A (zh) 一种头部三维模型的重建方法及电子设备
CN111833360A (zh) 一种图像处理方法、装置、设备以及计算机可读存储介质
CN112598673A (zh) 全景分割方法、装置、电子设备和计算机可读介质
CN110211017B (zh) 图像处理方法、装置及电子设备
CN114926734A (zh) 基于特征聚合和注意融合的固体废弃物检测装置及方法
CN114677422A (zh) 深度信息生成方法、图像虚化方法和视频虚化方法
CN113902789A (zh) 图像特征处理、深度图像生成方法及装置、介质和设备
CN109816791B (zh) 用于生成信息的方法和装置
CN113610856B (zh) 训练图像分割模型和图像分割的方法和装置
US20230145498A1 (en) Image reprojection and multi-image inpainting based on geometric depth parameters
CN117011156A (zh) 图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200221

RJ01 Rejection of invention patent application after publication