CN110766737A - 训练深度估计模型的方法和设备以及存储介质 - Google Patents
训练深度估计模型的方法和设备以及存储介质 Download PDFInfo
- Publication number
- CN110766737A CN110766737A CN201810835621.XA CN201810835621A CN110766737A CN 110766737 A CN110766737 A CN 110766737A CN 201810835621 A CN201810835621 A CN 201810835621A CN 110766737 A CN110766737 A CN 110766737A
- Authority
- CN
- China
- Prior art keywords
- projection
- point
- sample image
- estimation model
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
公开了一种深度估计模型训练方法和设备以及存储介质。该方法包括:通过深度估计模型获得样本图像的估计深度图;在基于样本图像、其真实深度图和投影参数而获得的第一投影图中选择第一投影点,并且在基于样本图像、其估计深度图和投影参数而获得的第二投影图中选择第二投影点,第一和第二投影图具有相同的投影方向,并且第一投影点在第一投影图中的位置与第二投影点在第二投影图中的位置相同;确定第一和第二投影点在样本图像中的相对应的第一和第二点;通过使包括第一损失函数的总损失函数最小,来更新深度估计模型的参数,第一损失函数是关于第一和第二点的特征值之间的距离;和重复上述步骤,直到通过深度估计模型获得的估计深度图不再变化。
Description
技术领域
本公开内容涉及对深度估计模型的训练,并且特别地涉及基于特征一致性的单幅图像深度估计。
背景技术
目前,从图像、特别是具有高分辨率的图像中进行场景或物体三维结构的复原,对于很多计算机应用具有重要的意义,例如,娱乐、增强现实、古迹保护、机器人等。基于图像进行三维建模的关键步骤是单幅图像的深度估计。
当前的单幅图像深度估计方法利用机器学习方法,其利用估计的深度和真实的深度之间的L1或者L2的距离作为损失函数。
发明内容
在下文中给出了关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种训练深度估计模型的方法,包括以下步骤:通过所述深度估计模型获得样本图像的估计深度图;在基于所述样本图像、所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和重复进行上述步骤,直到所述样本图像的通过所述深度估计模型获得的估计深度图不再变化为止。
根据本发明的另一个方面,提供了一种深度估计模型训练设备,包括:获得单元,其被配置成通过所述深度估计模型获得样本图像的估计深度图;选择单元,其被配置成在基于所述样本图像、所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;确定单元,其被配置成确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;更新单元,其被配置成通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和判定单元,其被配置成确定所述样本图像的通过所述深度估计模型获得的估计深度图是否变化,其中,如果所述判定单元判定所述样本图像的通过所述深度估计模型获得的估计深度图有变化,则所述选择单元、所述确定单元、所述更新单元和所述判定单元针对有变化的估计深度图重复执行其功能,并且其中,如果所述判定单元判定所述样本图像的通过所述深度估计模型获得的估计深度图没有变化,则结束所述训练。
根据本发明的又另一个方面,提供了一种深度估计设备,其包括被配置成通过利用根据上述训练深度估计模型的方法或上述深度估计模型训练设备而被训练的深度估计模型来获得图像的估计深度图的装置。
根据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过本申请的深度估计模型训练方法和设备,使得能够利用不同视点之间的特征一致性的约束来修正物体在其估计深度图中的形状和边缘,改进了深度估计模型的准确性;并且使得能够利用损失函数中的随机投影参数来进一步改进深度估计模型的准确性以及鲁棒性。
通过以下结合附图对本发明的优选实施方式的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本公开内容的以上和其它优点和特征,下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本公开内容的典型示例,而不应看作是对本公开内容的范围的限定。在附图中:
图1概念性地示出了根据本发明的实施方式的、用于训练深度估计模型的损失函数;
图2以图示的方式说明了如何通过基于真实深度和估计深度对样本图像进行随机投影而产生特征差异;
图3示意性地示出了根据本发明的实施方式的训练深度估计模型的方法的流程图;
图4示意性地示出了据本发明的实施方式的深度估计模型训练设备的框图;和
图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
如上文提到的,基于具有高分辨率的图像进行三维建模的关键步骤是单幅图像的深度估计。当前的单幅图像深度估计方法主要是利用一些单目的深度线索,如聚焦、遮挡、雾等。然而,这种方法的局限性在于,当场景中不存在这些深度线索时算法就会失效。
近年来,利用机器学习的方法从单幅图像中学习深度变得越来越普遍。该方法主要利用估计的深度和真实的深度之间的L1或者L2的距离作为损失函数。虽然这样的方法能够取得良好的深度估计准确度,但是物体在估计的深度图中的边缘和形状往往会出现扭曲的现象。
然而,物体在估计的深度图中正确的边缘和形状对于三维重建至关重要。根据本发明的基于随机投影的特征一致性的方法,通过在损失函数中考虑了不同视点之间的特征一致性的约束来修正估计深度图中物体的形状和边缘,改进了深度估计模型的准确性;并且通过在损失函数中使用随机的投影参数,进一步改进了深度估计模型的准确性以及鲁棒性。
下面结合图1和图2简要地介绍根据本发明的实施方式的损失函数的基本原理。
如图1和2所示,给定一副图像及其真实深度图,通过随机投影得到该幅图像的第一投影图像,即真实投影图像。然后,对于该幅图像和由当前深度估计模型所估计的深度图,利用相同(方向)的随机投影得到第二投影图像,即估计的投影图像。最后,将该幅图像中的与在两幅投影图像中处于相同位置的点相对应的两个点各自的特征值之差的绝对值作为深度估计模型的损失函数。
通过利用随机投影,使得对于一幅彩色图像,只要在该投影方向上具有有效的投影点,就可以生成其任意投影方向上的投影图像。如果估计的深度图不准确,它的投影图像中会存在扭曲现象,并且在不同的投影方向上,这种扭曲程度是不一样的。通过利用这种不同程度的扭曲,也就是比较第二投影图像与第一投影图像的差异,使得可以在不同的投影方向上评估深度估计的准确性,即差异越小深度估计越准确。
图3示出了根据本发明的实施方式的训练深度估计模型的方法的流程图。
为了便于描述,首先给出一些符号的表示和公式的介绍。深度估计模型表示为M,彩色图像表示为I,其真实深度图表示为d,模型输出的估深度图表示为ε表示随机投影的操作算子,其作用在于:对于图像I中的点p,利用其深度dp和ε可将点p投影到另一幅图像中的点pε,其中,ε由已知的相机内参矩阵K,旋转矩阵R和平移向量t组成,点pε可以由如下公式表示:
pε:=K(RTK-1pdp-t) (1)。
如图3所示,方法开始于步骤301,其中,通过深度估计模型M获得样本图像I的估计深度图。在本实施方式中,深度估计模型M可以是例如卷积神经网络模型或线性回归模型。
接着,在步骤302中,在基于样本图像、样本图像的真实深度图和投影参数而获得的样本图像的第一投影图中选择第一投影点,并且在基于样本图像、估计深度图和投影参数而获得的样本图像的第二投影图中选择第二投影点,其中,第一投影图与第二投影图具有相同的投影方向,并且其中,第一投影点在第一投影图中的位置与第二投影点在第二投影图中的位置相同。具体地,在本实施方式中,投影参数是通过对旋转矩阵R和平移向量t进行随机取值而得到随机投影算子ε。例如,可以通过以下方式获得第一投影图I1和第二投影图I2:对于I中的每一个点p,分别利用其真实深度和估计深度以及公式(1),得到其在第一投影图I1中的投影点和在第二投影图I2中的投影点并且将点p的诸如颜色这样的特征I(p)赋予和对样本图像I中的每个点进行上述操作,从而得到第一投影图I1和第二投影图I2。
在得到第一投影图I1和第二投影图I2后,分别在这两个投影图上选取位于相同位置、即具有相同坐标的两个点pε和本领域技术人员应理解,由于第一投影图和第二投影图是分别基于真实深度和估计深度而得到的,因此在这两个投影图中处于相同位置的两个点pε和对应于样本图像I中的两个不同点p1和p2。
已知地,投影图中通常会存在一些没有颜色的空洞点。本领域技术人员应理解,这些点在后续的计算中将不做考虑。
本领域技术人员应理解,随机投影算子ε可以根据需要对于每个样本图像不同、或者对于每个样本图像相同。
接着,在步骤303中,确定第一投影点在样本图像中的相对应的第一点和第二投影点在样本图像中的相对应的第二点。具体地,在本实施方式中,可以借助于公式(1)来确定第一投影点pε在样本图像I中对应于点p1以及具有与第一投影点相同坐标的第二投影点在样本图像I中对应于点p2。
然后,在步骤304中,通过使包括第一损失函数的总损失函数最小,来更新深度估计模型M的参数,其中第一损失函数是关于第一点的特征值与第二点的特征值之间的距离。具体,在本实施方式中,第一损失函数是关于点p1的特征值与点p2的特征值之间的距离。
根据本发明的一个实施方式,样本图像I中的点p1的特征值与点p2的特征值之间的距离可以是例如绝对值距离或欧式距离。在本实施方式中,以绝对值距离为例,第一损失函数可以表示如下:
其中,f表示所提取的特征值。
应指出,p1和p2分别对应于第一投影图I1和第二投影图I2中的处于相同位置的投影点pε和
本领域技术人员还应理解,投影算子ε在深度估计模型M的迭代优化过程中是随机的。只要在随机的投影方向上具有有效的投影点,那么对于一幅图像I可以得到很多对投影图像I1和I2,从而可以在不同的投影方向上进行I1和I2的差异的评估。这使得在最小化第一损失函数Loss(M)的过程中,对于当前深度估计模型输出的深度图在任意的投影方向上都具有逐渐减小的I1和I2的差异,从而进一步增加了估计深度图的准确性。
根据本发明的一个实施方式,步骤304中的特征值可以是投影点处的灰度或RGB。
根据本发明的另一个实施方式,步骤304中的特征值可以是在投影点中心处的图像块的整体灰度或整体RGB。
本领域技术人员应理解,步骤304中的特征值不限于灰度或RGB,而可以是能够代表投影点的任何特征值。
最后,重复进行上述步骤301至304,直到通过深度估计模型M获得的估计深度图不再变化为止。
本领域技术人员应理解,上述步骤301至304的迭代次数也可以根据需要相应调整,而并不一定限于重复这些步骤直到通过深度估计模型M获得的估计深度图不再变化。
以上所讨论的方法可以完全由计算机可执行的程序来实现,也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时,或者将计算机可执行的程序载入可运行程序的硬件设备时,则实现了下文将要描述的深度估计模型训练设备。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要,但是应当注意,虽然这些设备可以执行前文所描述的方法,但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。
图4示出了根据本发明的一个实施方式的深度估计模型训练设备400,其包括获得单元401、选择单元402、确定单元403、更新单元404和判定单元405。其中,获得单元401用于通过深度估计模型获得样本图像的估计深度图;选择单元402用于基于样本图像、样本图像的真实深度图和投影参数而获得的样本图像的第一投影图中选择第一投影点,并且在基于样本图像、估计深度图和投影参数而获得的样本图像的第二投影图中选择第二投影点,其中,第一投影图与第二投影图具有相同的投影方向,并且其中,第一投影点在第一投影图中的位置与第二投影点在第二投影图中的位置相同;确定单元403用于确定第一投影点在样本图像中的相对应的第一点和第二投影点在样本图像中的相对应的第二点;更新单元404用于通过使包括第一损失函数的总损失函数最小,来更新深度估计模型的参数,其中第一损失函数是关于第一点的特征值与第二点的特征值之间的距离;以及判定单元405用于确定样本图像的通过深度估计模型获得的估计深度图是否变化,其中,如果判定单元405判定样本图像的通过深度估计模型获得的估计深度图有变化则选择单元402、确定单元403、更新单元404和判定单元405针对有变化的估计深度图重复执行其功能,并且如果判定单元405判定样本图像的通过深度估计模型获得的估计深度图没有变化则结束训练。
图4所示的深度估计模型训练设备400对应于图3所示的方法。因此,深度估计模型训练设备400中的各单元的相关细节已经在对图3的训练深度估计模型的方法的描述中详细给出,在此不再赘述。
根据本发明的另一个实施方式,还提供了一种深度估计设备,其包括被配置成通过利用根据上述实施方式的训练深度估计模型的方法或深度估计模型训练设备而被训练的深度估计模型来获得图像的估计深度图的装置。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图5所示,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可移除介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质511。可移除介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
通过以上描述,本公开的实施方式提供了以下的技术方案,但不限于此。
附记1.一种训练深度估计模型的方法,包括以下步骤:
通过所述深度估计模型获得样本图像的估计深度图;
在基于所述样本图像、所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;
确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;
通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和
重复进行上述步骤,直到所述样本图像的通过所述深度估计模型获得的估计深度图不再变化为止。
附记2.如附记1所述的方法,其中,所述投影参数是随机的。
附记3.如附记1所述的方法,其中,所述投影参数是由相机内参矩阵K,旋转矩阵R和平移向量t组成的。
附记4.如附记3所述的方法,其中,所述相机内参矩阵K是已知的。
附记5.如附记4所述的方法,其中,通过对所述旋转矩阵R和所述平移向量t进行随机取值而得到所述投影参数。
附记6.如附记1至5中任一项所述的方法,其中,所述总损失函数还包括第二损失函数,所述第二损失函数是所述样本图像的真实深度图与估计深度图之间的距离。
附记7.如附记6所述的方法,其中,更新所述深度估计模型的参数包括使所述第一损失函数与所述第二损失函数之和最小。
附记8.如附记1至5中任一项所述的方法,其中,所述距离是绝对值距离。
附记9.如附记1至5中任一项所述的方法,其中,所述距离是欧式距离。
附记10.如附记1至5中任一项所述的方法,其中,所述第一点的特征值和所述第二点的特征值分别对应于所述第一点和所述第二点处的灰度。
附记11.如附记1至5中任一项所述的方法,其中,所述第一点的特征值和所述第二点的特征值分别对应于所述第一点和所述第二点处的RGB。
附记12.如附记1至5中任一项所述的方法,其中,所述第一点的特征值和所述第二点的特征值分别对应于在所述第一点和所述第二点的中心处的图像块的整体灰度。
附记13.如附记1至5中任一项所述的方法,其中,所述第一点的特征值和所述第二点的特征值分别对应于在所述第一点和所述第二点的中心处的图像块的整体RGB。
附记14.如附记1至5中任一项所述的方法,其中,所述投影参数针对每个样本图像不同。
附记15.如附记1至5中任一项所述的方法,其中,所述投影参数针对每个样本图像相同。
附记16.如附记1至5中任一项所述的方法,其中,所述深度估计模型是卷积神经网络模型。
附记17.如附记1至5中任一项所述的方法,其中,所述深度估计模型是线性回归模型。
附记18.如附记1至5中任一项所述的方法,其中,通过以下步骤获得所述第一投影图和所述第二投影图:对于所述样本图像中的一个点,利用其真实深度和所述投影参数得到该点在第一投影图中的第一投影点,并且利用其估计深度和所述投影参数得到该点在第二投影图中的第二投影点;将该点在所述样本图像中的特征赋予所述第一投影点和所述第二投影点;以及对所述样本图像中的每个点进行上述操作,从而得到所述第一投影图和所述第二投影图。
附记19.一种深度估计模型训练设备,包括:
获得单元,其被配置成通过所述深度估计模型获得样本图像的估计深度图;
选择单元,其被配置成在基于所述样本图像、所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;
确定单元,其被配置成确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;
更新单元,其被配置成通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和
判定单元,其被配置成确定所述样本图像的通过所述深度估计模型获得的估计深度图是否变化,
其中,如果所述判定单元判定所述样本图像的通过所述深度估计模型获得的估计深度图有变化,则所述选择单元、所述确定单元、所述更新单元和所述判定单元针对有变化的估计深度图重复执行其功能,
并且其中,如果所述判定单元判定所述样本图像的通过所述深度估计模型获得的估计深度图没有变化,则结束所述训练。
附记20.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
通过所述深度估计模型获得样本图像的估计深度图;
在基于所述样本图像。所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;
确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;
通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和
重复进行上述步骤,直到所述样本图像的通过所述深度估计模型获得的估计深度图不再变化为止。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施方式,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
Claims (10)
1.一种训练深度估计模型的方法,包括以下步骤:
通过所述深度估计模型获得样本图像的估计深度图;
在基于所述样本图像、所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;
确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;
通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和
重复进行上述步骤,直到所述样本图像的通过所述深度估计模型获得的估计深度图不再变化为止。
2.如权利要求1所述的方法,其中,所述投影参数是随机的。
3.如权利要求1或2所述的方法,其中,所述总损失函数还包括第二损失函数,所述第二损失函数是所述样本图像的真实深度图与估计深度图之间的距离,并且其中,更新所述深度估计模型的参数包括使所述第一损失函数与所述第二损失函数之和最小。
4.如权利要求1或2所述的方法,其中,所述距离是绝对值距离或欧式距离。
5.如权利要求1或2所述的方法,其中,所述第一点的特征值和所述第二点的特征值分别对应于所述第一点和所述第二点处的灰度或RGB。
6.如权利要求1或2所述的方法,其中,所述第一点的特征值和所述第二点的特征值分别对应于在所述第一点和所述第二点的中心处的图像块的整体灰度或整体RGB。
7.如权利要求1或2所述的方法,其中,所述投影参数针对每个样本图像不同,或者针对每个样本图像相同。
8.如权利要求1或2所述的方法,其中,所述深度估计模型是卷积神经网络模型或线性回归模型。
9.一种深度估计模型训练设备,包括:
获得单元,其被配置成通过所述深度估计模型获得样本图像的估计深度图;
选择单元,其被配置成在基于所述样本图像、所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;
确定单元,其被配置成确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;
更新单元,其被配置成通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和
判定单元,其被配置成确定所述样本图像的通过所述深度估计模型获得的估计深度图是否变化,
其中,如果所述判定单元判定所述样本图像的通过所述深度估计模型获得的估计深度图有变化,则所述选择单元、所述确定单元、所述更新单元和所述判定单元针对有变化的估计深度图重复执行其功能,
并且其中,如果所述判定单元判定所述样本图像的通过所述深度估计模型获得的估计深度图没有变化,则结束所述训练。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
通过所述深度估计模型获得样本图像的估计深度图;
在基于所述样本图像。所述样本图像的真实深度图和投影参数而获得的所述样本图像的第一投影图中选择第一投影点,并且在基于所述样本图像、所述估计深度图和所述投影参数而获得的所述样本图像的第二投影图中选择第二投影点,其中,所述第一投影图与所述第二投影图具有相同的投影方向,并且其中,所述第一投影点在所述第一投影图中的位置与所述第二投影点在所述第二投影图中的位置相同;
确定所述第一投影点在所述样本图像中的相对应的第一点和所述第二投影点在所述样本图像中的相对应的第二点;
通过使包括第一损失函数的总损失函数最小,来更新所述深度估计模型的参数,其中所述第一损失函数是关于所述第一点的特征值与所述第二点的特征值之间的距离;和
重复进行上述步骤,直到所述样本图像的通过所述深度估计模型获得的估计深度图不再变化为止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810835621.XA CN110766737B (zh) | 2018-07-26 | 2018-07-26 | 训练深度估计模型的方法和设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810835621.XA CN110766737B (zh) | 2018-07-26 | 2018-07-26 | 训练深度估计模型的方法和设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110766737A true CN110766737A (zh) | 2020-02-07 |
CN110766737B CN110766737B (zh) | 2023-08-04 |
Family
ID=69327426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810835621.XA Active CN110766737B (zh) | 2018-07-26 | 2018-07-26 | 训练深度估计模型的方法和设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110766737B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112053393A (zh) * | 2020-10-19 | 2020-12-08 | 北京深睿博联科技有限责任公司 | 一种图像深度估计方法及装置 |
CN112163636A (zh) * | 2020-10-15 | 2021-01-01 | 电子科技大学 | 基于孪生神经网络的电磁信号辐射源的未知模式识别方法 |
CN113298860A (zh) * | 2020-12-14 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113505885A (zh) * | 2021-06-29 | 2021-10-15 | 中国科学院深圳先进技术研究院 | 基于预设的损失函数的单目深度估计网络的训练方法 |
CN113643343A (zh) * | 2020-04-27 | 2021-11-12 | 北京达佳互联信息技术有限公司 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
CN115118950A (zh) * | 2021-03-22 | 2022-09-27 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150381972A1 (en) * | 2014-06-30 | 2015-12-31 | Microsoft Corporation | Depth estimation using multi-view stereo and a calibrated projector |
US20170124715A1 (en) * | 2015-10-29 | 2017-05-04 | Canon Kabushiki Kaisha | Multispectral binary coded projection using multiple projectors |
GB201716533D0 (en) * | 2017-10-09 | 2017-11-22 | Nokia Technologies Oy | Methods and apparatuses for depth rectification processing |
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
US20180189565A1 (en) * | 2015-08-28 | 2018-07-05 | Imperial College Of Science, Technology And Medicine | Mapping a space using a multi-directional camera |
-
2018
- 2018-07-26 CN CN201810835621.XA patent/CN110766737B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150381972A1 (en) * | 2014-06-30 | 2015-12-31 | Microsoft Corporation | Depth estimation using multi-view stereo and a calibrated projector |
US20180189565A1 (en) * | 2015-08-28 | 2018-07-05 | Imperial College Of Science, Technology And Medicine | Mapping a space using a multi-directional camera |
US20170124715A1 (en) * | 2015-10-29 | 2017-05-04 | Canon Kabushiki Kaisha | Multispectral binary coded projection using multiple projectors |
GB201716533D0 (en) * | 2017-10-09 | 2017-11-22 | Nokia Technologies Oy | Methods and apparatuses for depth rectification processing |
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
Non-Patent Citations (2)
Title |
---|
RAVI GARY ET AL: "Upsupervised CNN for single view depth estimation:geometry to the rescue" * |
李耀宇;王宏民;张一帆;卢汉清;: "基于结构化深度学习的单目图像深度估计" * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643343A (zh) * | 2020-04-27 | 2021-11-12 | 北京达佳互联信息技术有限公司 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
CN113643343B (zh) * | 2020-04-27 | 2024-05-17 | 北京达佳互联信息技术有限公司 | 深度估计模型的训练方法、装置、电子设备及存储介质 |
CN112163636A (zh) * | 2020-10-15 | 2021-01-01 | 电子科技大学 | 基于孪生神经网络的电磁信号辐射源的未知模式识别方法 |
CN112163636B (zh) * | 2020-10-15 | 2023-09-26 | 电子科技大学 | 基于孪生神经网络的电磁信号辐射源的未知模式识别方法 |
CN112053393A (zh) * | 2020-10-19 | 2020-12-08 | 北京深睿博联科技有限责任公司 | 一种图像深度估计方法及装置 |
CN112053393B (zh) * | 2020-10-19 | 2021-07-02 | 北京深睿博联科技有限责任公司 | 一种图像深度估计方法及装置 |
CN113298860A (zh) * | 2020-12-14 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN115118950A (zh) * | 2021-03-22 | 2022-09-27 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
CN115118950B (zh) * | 2021-03-22 | 2024-01-30 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
CN113505885A (zh) * | 2021-06-29 | 2021-10-15 | 中国科学院深圳先进技术研究院 | 基于预设的损失函数的单目深度估计网络的训练方法 |
CN113505885B (zh) * | 2021-06-29 | 2024-05-03 | 中国科学院深圳先进技术研究院 | 基于预设的损失函数的单目深度估计网络的训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110766737B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110766737B (zh) | 训练深度估计模型的方法和设备以及存储介质 | |
US9042648B2 (en) | Salient object segmentation | |
US8885941B2 (en) | System and method for estimating spatially varying defocus blur in a digital image | |
CN109697728B (zh) | 数据处理方法、装置、系统和存储介质 | |
US8818082B2 (en) | Classifying blur state of digital image pixels | |
CN106204592B (zh) | 一种基于局部灰度聚类特征的图像水平集分割方法 | |
CN109919971B (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
JP6320649B1 (ja) | 機械学習装置及び画像認識装置 | |
KR102094506B1 (ko) | 피사체 추적 기법을 이용한 카메라와 피사체 사이의 거리 변화 측정방법 상기 방법을 기록한 컴퓨터 판독 가능 저장매체 및 거리 변화 측정 장치. | |
CN114925748B (zh) | 模型训练及模态信息的预测方法、相关装置、设备、介质 | |
WO2018010101A1 (en) | Method, apparatus and system for 3d face tracking | |
CN107895377A (zh) | 一种前景目标提取方法、装置、设备及存储介质 | |
WO2021108626A1 (en) | System and method for correspondence map determination | |
CN115362478A (zh) | 用于标记图像之间的空间关系的强化学习模型 | |
US10089764B2 (en) | Variable patch shape synthesis | |
US11790550B2 (en) | Learnable cost volume for determining pixel correspondence | |
CN117372604B (zh) | 一种3d人脸模型生成方法、装置、设备及可读存储介质 | |
CN112364881A (zh) | 一种进阶采样一致性图像匹配算法 | |
US20200334890A1 (en) | Systems and Methods for Fast Texture Mapping of 3D Models | |
Barath | Recovering affine features from orientation-and scale-invariant ones | |
CN108986155B (zh) | 多视点图像的深度估计方法和深度估计设备 | |
CN112236800A (zh) | 学习设备、图像生成设备、学习方法、图像生成方法和程序 | |
CN108961381A (zh) | 用于对物体的三维几何模型着色的方法和装置 | |
CN116051813A (zh) | 全自动智能腰椎定位与识别方法及应用 | |
CN112560834B (zh) | 一种坐标预测模型生成方法、装置及图形识别方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |