CN110148179A - 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 - Google Patents
一种训练用于估计图像视差图的神经网络模型方法、装置及介质 Download PDFInfo
- Publication number
- CN110148179A CN110148179A CN201910316871.7A CN201910316871A CN110148179A CN 110148179 A CN110148179 A CN 110148179A CN 201910316871 A CN201910316871 A CN 201910316871A CN 110148179 A CN110148179 A CN 110148179A
- Authority
- CN
- China
- Prior art keywords
- image
- disparity map
- estimation
- loss function
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 title claims abstract description 51
- 230000001537 neural effect Effects 0.000 title claims abstract description 9
- 238000003062 neural network model Methods 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims description 69
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 8
- 210000005036 nerve Anatomy 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 6
- 230000000875 corresponding effect Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
- G06T7/85—Stereo camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种训练用于估计图像视差图的神经网络模型方法,包括:将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图;基于双目相机采集的右图像和所述左视差图确定估计的左图像;基于所述左图像和所述右视差图确定估计的右图像;根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;基于所述第一损失函数,训练所述神经网络模型。解决了现有技术中通过图像估计深度信息不准确的问题,达到了通过加入损失函数能够更准确的回归出像素点的绝对深度值的技术效果。
Description
技术领域
本申请涉及计算机视觉识别处理技术领域,尤其涉及一种训练用于估计图像视差值的神经网络模型方法、装置及介质。
背景技术
通过图像获取环境的深度信息一直以来是一个难以解决的问题。其主要原因在于,图像是三维环境下的二维投影,这样的投影(映射)是不可逆的,即在二维图像上的每一个像素点,都有无穷多个三维环境下的三维点与其对应。在现有技术中,通常采用如下方案:
1.检测图像中的路面区域,随后根据路面的先验位置信息,拟合出地面对应的平面方程。根据地面的平面方程以及实际位置信息,该方法可以重建出像素单位与物理单位之间的尺度,从而恢复图像的深度信息。
2.利用深度学习,以图像以及对应像素点的真实深度值作为训练数据,回归每一个像素点的深度信息。
3.利用无监督学习方法,以双目图像作为训练时的输入,令模型学习左右图之间的转换关系(即视差图),在使用时根据单张图像推测出视差信息,并根据相机内参恢复其深度值。
发明内容
上述现有技术存在以下缺点:
1.根据路面的先验位置信息,拟合出地面对应的平面方程的思路简单,但有较大的先验约束;只能在道路场景下使用,并且路面必须符合某种平面模型(如平面、二次曲面),因此缺乏鲁棒性。
2.深度学习方法在道路/室外场景中,真实深度信息难以获取(需要依赖图像与激光雷达的联合标定)。
3.无监督学习方法与深度学习方法相比,得到的深度图像能够保持物体之间的相对深度,但对其绝对深度信息估计不准确。
为了解决上述技术问题,提出了一种训练用于估计图像视差图的神经网络模型方法、装置及介质。
第一方面,本申请的实施例提供了一种训练用于估计图像视差图的神经网络模型方法,所述方法包括:将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图;基于双目相机采集的右图像和所述左视差图确定估计的左图像;基于所述左图像和所述右视差图确定估计的右图像;根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;基于所述第一损失函数,训练所述神经网络模型。
第二方面,根据本申请的第一方面,提供了一种训练用于估计图像视差图的神经网络模型装置,包括:左视差图、右视差图获得模块,用于将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图;估计的左图像确定模块,用于基于双目相机采集的右图像和所述左视差图确定估计的左图像;估计的右图像确定模块,用于基于所述左图像和所述右视差图确定估计的右图像;第一损失函数获得模块,用于根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;第一神经网络模型训练模块,用于基于所述第一损失函数,训练所述神经网络模型。
第三方面,本说明书实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面所述的方法。
第四方面,本说明书实施例提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于执行上述第一方面所述的方法。
第五方面,本说明书实施例还提供了一种图像的深度信息的估计方法,所述方法包括:将双目相机采集的左图像输入至如第一方面所述方法训练得到的神经网络模型中获得左视差图;获得所述双目相机的参数信息;根据所述参数信息和所述左视差图获得所述左图像的深度信息。
与现有技术相比,采用根据本申请提供的训练用于估计图像视差图的神经网络模型方法、装置及介质,解决了现有技术中通过图像估计深度信息不准确的问题,达到了通过加入损失函数能够更准确的回归出像素点的绝对深度值的技术效果。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本申请一示例性实施例提供的一种训练用于估计图像视差图的神经网络模型方法的流程示意图。
图2是本申请一示例性实施例提供的另一种训练用于估计图像视差图的神经网络模型方法的流程示意图。
图3是本申请另一示例性实施例提供的确定第二损失函数方法的流程示意图。
图4是本申请另一示例性实施例提供的一种图像的深度信息的估计方法的流程示意图。
图5是本申请实施例提供了一种训练用于估计图像深度信息的模型装置的结构示意图。
图6是本申请实施例提供了另一种训练用于估计图像深度信息的模型装置的结构示意图。
图7是本申请实施例提供了第二损失函数确定模块的结构示意图。
图8是本申请实施例提供了一种图像的深度信息的估计装置的结构示意图。
图9是本申请一示例性实施例提供的电子设备的结构图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
申请概述
本申请的实施例提供了一种训练用于估计图像深度信息的模型方法,所述方法包括:将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图;基于双目相机采集的右图像和所述左视差图确定估计的左图像;基于所述左图像和所述右视差图确定估计的右图像;根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;基于所述第一损失函数,训练所述神经网络模型。解决了现有技术中通过图像估计深度信息不准确的问题,达到了通过加入损失函数能够更准确的回归出像素点的绝对深度值的技术效果。
示例性方法一
图1是本申请一示例性实施例提供的一种训练用于估计图像深度信息的模型方法的流程示意图,本实施例可应用在电子设备上,如图1所示,包括如下步骤:
步骤110:将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图。
具体而言,双目相机是可以产生双目立体视觉的相机,双目立体视觉 (BinocularStereo Vision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。通过双目相机能够采集到左图像和右图像两种图像,将左图像作为输入数据,输入至神经网络模型中,所述神经网络模型用于提取图像特征,包括网络结构以及网络权重两部分,在训练过程开始前,网络结构便已固定,而训练过程的目的是通过不断更新网络的权重,最终令网络具有能够获取图像深度的相关特征信息,网络的输出有2个,分别为左视差图以及右视差图。其中,双目立体视觉融合两只眼睛获得的图像并观察它们之间的差别,使我们可以获得明显的深度感,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来,这个差别称作视差(Disparity)图。
步骤120:基于双目相机采集的右图像和所述左视差图确定估计的左图像。
具体而言,所述右图像为由双目相机采集的左图像和右图像中的右图像,左视差图为左图像输入至神经网络模型中后输出的左视差图和右视差图中的左视差图,根据右图像和左视差图确定出估计的左图像。
步骤130:基于所述左图像和所述右视差图确定估计的右图像。
具体而言,所述左图像为由双目相机采集的左图像和右图像中的左图像,右视差图为右图像输入至神经网络模型中后输出的左视差图和右视差图中的右视差图,根据左图像和右视差图确定出估计的右图像。
步骤140:根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数。
具体而言,损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中,损失函数通常作为学习准则与优化问题相联系。通过预设的损失函数的计算公式,将估计的左图像、左图像、估计的右图像和右图像带入公式进行计算,得到对应的第一损失函数。
步骤150:基于所述第一损失函数,训练所述神经网络模型。
具体而言,在训练神经网络模型的过程中,将第一损失函数输入神经网络模型中,基于第一损失函数不断更新网络的权重,最终令网络具有能够根据输入的左图像准确的输出左视差图和右视差图。
通过上述步骤110-150可以在双目图像的基础上,通过将第一损失函数输入神经网络模型中,不断训练所述神经网络模型,进而获得更加准确的估计出的左视差图和右视差图,提高了通过图像获取环境深度信息的可获得性和准确性。
如图2所示,在上述图1所示实施例的基础上,还可包括如下步骤:
步骤210:根据所述左视差图确定第一视差值;
步骤220:根据左图像的标注的深度真值确定第二视差值;
步骤230:根据第一视差值和第二视差值确定第二损失函数;
其中,所述基于所述第一损失函数,训练所述神经网络模型,包括:
步骤240:基于所述第一损失函数和第二损失函数,训练所述神经网络模型。
具体而言,所述第一视差值为预测视差值,根据左图像的标注的深度真值确定第二视差值为真值视差值,根据预测视差值和真值视差值确定第二损失函数,所述第二损失函数属于监督学习部分,监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。监督学习是从标记的训练数据来推断一个功能的机器学习任务,其中训练数据包括一套训练示例,每个示例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成,监督学习算法分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。通过引入监督学习部分的损失函数,从而训练所述神经网络模型,并通过反向传播,更新深度神经网络模块中的权重。
在上述图1所示的基础上,第一损失函数包括图像重建损失、视差平滑项、左右相容性检测项其中任意一项或多项的组合。其中图像重建损失、视差平滑项、左右相容性检测项均属于无监督学习部分。
具体而言,所述第一损失函数的计算公式为:
Lu=αphLph+αdsLds+αlrLlr
其中,Lph为图像重建损失;Lds为视差平滑项;Llr为左右相容性检测项;αph、αds、αlr均为权重。
图像重建损失主要用于衡量通过原图像与预测视差图得到的生成图像与另一视角的图像的差异:
其中分别为原图像以及预测视差图的像素点,SSIM表示结构相似性函数,表示原图像以及预测视差图的像素点二者之间的L1范数,α为二者间的权重。N为像素点总数。
视差平滑项用于对网络输出的视差图的平滑性进行激励,是针对图像平滑度的正则项,具体形式定义如下:
其中,di表示视差图中的像素值,pi是di对应的原图像素值。与分别表示像素点p在x与y方向下的图像梯度。
左右相容性检测项用于模拟双目匹配的过程。理论上,网络的输出左视差图以及右视差图是存在对应关系的。分别记左视差图为DL,右视差图为DR,假设DL(x,y)=dL,则有DR(x-dL,y)=dL。左右相容性检测项基于这样的原理,具体如下:
其中,为左图中某像素点(x,y)对应的视差值,而为其在右图中对应的匹配点,视差值为最终为左图的左右相容性检测项。
对于本申请实施例而言,将第一损失函数和第二损失函数输入神经网络模型中,融入监督学习和无监督学习两个内容,可以进一步提升通过图像获取环境深度信息的可获得性和准确性。
如图3所示,在上述图2的基础上,步骤230可包括如下步骤:
步骤231:计算所述第一视差值与所述第二视差值的范数;
步骤232:基于所述范数确定所述第二损失函数。
具体而言,计算所述第一视差值与所述第二视差值的范数的公式为:其中,为第一视差值;dx,y为第二视差值。根据计算获得的范数,确定所述第二损失函数。
在上述图1所示的基础上,基于所述右图像和所述左视差图确定估计的左图像、基于所述左图像和所述右视差图确定估计的右图像包括:
将所述右图像和所述左视差图通过双线性插值法确定所述估计的左图像、将所述左图像和所述右视差图通过双线性插值法确定所述估计的右图像。
具体而言,双线性插值,又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。本申请实施例通过上述双线性插值法将所述右图像和所述左视差图确定所述估计的左图像、将所述左图像和所述右视差图确定所述估计的右图像。如果可以存在其他方法能够同样达到将所述右图像和所述左视差图确定所述估计的左图像、将所述左图像和所述右视差图确定所述估计的右图像的方法,本申请实施例依然适用,并在本申请实施例的保护范围之内。
在上述图2的基础上,步骤240可包括:
调整所述神经网络模型的参数,使得所述第一损失函数和第二损失函数之和最小。
具体而言,调整所述神经网络模型的参数,当所述第一损失函数和所述第二损失函数之和最小时的模型参数为最终训练的神经网络模型的参数。
示例性方法二
图4是本申请另一示例性实施例提供的一种图像的深度信息的估计方法的流程示意图,本实施例可应用在电子设备上,如图4所示,包括如下步骤:
步骤410:将双目相机采集的左图像输入至如示例性方法一训练得到的神经网络模型中获得左视差图;
具体而言,双目相机是可以产生双目立体视觉的相机,双目立体视觉 (BinocularStereo Vision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。通过双目相机能够采集到左图像和右图像两种图像,将左图像作为输入数据,输入至神经网络模型中,所述神经网络模型用于提取图像特征,包括网络结构以及网络权重两部分,在训练过程开始前,网络结构便已固定,而训练过程的目的是通过不断更新网络的权重,最终令网络具有能够获取图像深度的相关特征信息,网络的输出有2个,分别为左视差图以及右视差图。其中,双目立体视觉融合两只眼睛获得的图像并观察它们之间的差别,使我们可以获得明显的深度感,建立特征间的对应关系,将同一空间物理点在不同图像中的映像点对应起来,这个差别,我们称作视差(Disparity)图像。
步骤420:获得所述双目相机的参数信息;
具体而言,相机参数信息包括内参数和外参数,内参数是与相机自身特性相关的参数,比如相机的焦距、像素大小等;相机外参数是在世界坐标系中的参数,比如相机的位置、旋转方向等。相机内参数由相机焦距f,基线距离b以及相机的主点坐标(xc,yc),根据双目小孔成像原理,可以将像素点的视差值转换成对应的三维坐标,从而获得三维图像信息。
步骤430:根据所述参数信息和所述左视差图获得所述左图像的深度信息。
例如,可以利用下面的等式(1),根据P的视差值VPAX确定P的深度值:
VDEP=B*F/VPAX (1)
其中,B可以是双目图像采集装置的基线长度,F可以是双目图像采集装置的焦距。
具体而言,利用示例性方法一种所述的神经网络模型将左图像作为输入,输出左视差图,根据左视差图和所述双目相机的参数信息,获得所述左图像的深度信息。利用本申请实施例所述的方法估计的图像深度信息估计尤其是绝对深度的预测更稳定、更准确。
示例性装置
如图5所示,本申请实施例提供了一种训练用于估计图像视差图的神经网络模型装置,其中,所述装置包括:
左视差图、右视差图获得模块510,用于将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图;
估计的左图像确定模块520,用于基于双目相机采集的右图像和所述左视差图确定估计的左图像;
估计的右图像确定模块530,用于基于所述左图像和所述右视差图确定估计的右图像;
第一损失函数获得模块540,用于根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;
第一神经网络模型训练模块550,用于基于所述第一损失函数,训练所述神经网络模型。
进一步的,如图6所示,其中,所述装置还包括:
第一视差值确定模块610,用于根据所述左视差图确定第一视差值;
第二视差值确定模块620,用于根据左图像的标注的深度真值确定第二视差值;
第二损失函数确定模块630,用于根据第一视差值和第二视差值确定第二损失函数;
所述基于所述第一损失函数640,训练所述神经网络模型,包括:
第二神经网络模型训练模块650,用于基于所述第一损失函数和第二损失函数,训练所述神经网络模型。
进一步的,如图7所示,所述第二损失函数确定模块630包括:
范数计算单元631,用于计算所述第一视差值与所述第二视差值的范数;
第二损失函数确定单元632,用于基于所述范数确定所述第二损失函数。
进一步的,估计的左图像确定模块520、计的右图像确定模块530分别包括:
左图像确定单元,用于将所述右图像和所述左视差图通过双线性插值法确定所述估计的左图像、右图像确定单元,用于将所述左图像和所述右视差图通过双线性插值法确定所述估计的右图像。
如图8所示,本说明书还提供一种图像的深度信息的估计装置,所述装置包括:
左视差图获得模块710,用于将双目相机采集的左图像输入神经网络模型中获得左视差图;
双目相机的参数信息获得模块720,用于获得所述双目相机的参数信息;
深度信息获得模块730,用于根据所述参数信息和所述左视差图获得所述左图像的深度信息。
示例性电子设备
下面,参考图9来描述根据本申请实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
图9图示了根据本申请实施例的电子设备的框图。
如图9所示,电子设备11包括一个或多个处理器111和存储器112。
处理器111可以是中央处理单元(CPU)或者具有数据处理能力和/ 或指令执行能力的其他形式的处理单元,并且可以控制电子设备11中的其他组件以执行期望的功能。
存储器112可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM) 和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器111可以运行所述程序指令,以实现上文所述的本申请的各个实施例的训练用于估计图像视差图的神经网络模型方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备11还可以包括:输入装置113和输出装置 114,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置113可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置113可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备113还可以包括例如键盘、鼠标等等。
该输出装置114可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备11中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备11还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的训练用于估计图像视差图的神经网络模型方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种训练用于估计图像视差图的神经网络模型方法,所述方法包括:
将双目相机采集的左图像输入到神经网络模型中获得左视差图、右视差图;
基于双目相机采集的右图像和所述左视差图确定估计的左图像;
基于所述左图像和所述右视差图确定估计的右图像;
根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;
基于所述第一损失函数,训练所述神经网络模型。
2.如权利要求1所述的方法,其中,所述方法还包括:
根据所述左视差图确定第一视差值;
根据左图像的标注的深度真值确定第二视差值;
根据第一视差值和第二视差值确定第二损失函数;
所述基于所述第一损失函数,训练所述神经网络模型,包括:
基于所述第一损失函数和第二损失函数,训练所述神经网络模型。
3.如权利要求1所述的方法,其中,所述第一损失函数包括图像重建损失、视差平滑项、左右相容性检测项其中任意一项或多项的组合。
4.如权利要求2所述的方法,其中,所述根据第一视差值和第二视差值确定第二损失函数包括:
计算所述第一视差值与所述第二视差值的范数;
基于所述范数确定所述第二损失函数。
5.如权利要求1所述的方法,其中,基于所述右图像和所述左视差图确定估计的左图像、基于所述左图像和所述右视差图确定估计的右图像包括:
将所述右图像和所述左视差图通过双线性插值法确定所述估计的左图像、将所述左图像和所述右视差图通过双线性插值法确定所述估计的右图像。
6.如权利要求2所述的方法,其中,基于所述第一损失函数和第二损失函数,训练所述神经网络模型包括:
调整所述神经网络模型的参数,使得所述第一损失函数和第二损失函数之和最小。
7.一种图像的深度信息的估计方法,所述方法包括:
将双目相机采集的左图像输入至如权利要求1-6训练得到的神经网络模型中获得左视差图;
获得所述双目相机的参数信息;
根据所述参数信息和所述左视差图估计所述左图像的深度信息。
8.一种训练用于估计图像视差图的神经网络模型装置,所述装置包括:
左视差图、右视差图获得模块,用于将双目相机采集的左图像输入神经网络模型中获得左视差图、右视差图;
估计的左图像确定模块,用于基于双目相机采集的右图像和所述左视差图确定估计的左图像;
估计的右图像确定模块,用于基于所述左图像和所述右视差图确定估计的右图像;
第一损失函数获得模块,用于根据所述估计的左图像、所述左图像、所述估计的右图像、所述右图像获得第一损失函数;
第一神经网络模型训练模块,用于基于所述第一损失函数,训练所述神经网络模型。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6任一所述的一种训练用于估计图像视差图的神经网络模型方法。
10.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-6任一所述的一种训练用于估计图像视差图的神经网络模型方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316871.7A CN110148179A (zh) | 2019-04-19 | 2019-04-19 | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910316871.7A CN110148179A (zh) | 2019-04-19 | 2019-04-19 | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110148179A true CN110148179A (zh) | 2019-08-20 |
Family
ID=67588506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910316871.7A Pending CN110148179A (zh) | 2019-04-19 | 2019-04-19 | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148179A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110812149A (zh) * | 2019-12-03 | 2020-02-21 | 安阳师范学院 | 一种观看左右格式3d影片产生立体视觉的视觉训练方法 |
CN111047634A (zh) * | 2019-11-13 | 2020-04-21 | 杭州飞步科技有限公司 | 场景深度的确定方法、装置、设备及存储介质 |
CN111583345A (zh) * | 2020-05-09 | 2020-08-25 | 吉林大学 | 一种相机参数的获取方法、装置、设备及存储介质 |
CN111709938A (zh) * | 2020-06-18 | 2020-09-25 | 武汉唯理科技有限公司 | 一种基于深度图的路面缺陷及抛洒物检测方法 |
CN112348187A (zh) * | 2020-11-11 | 2021-02-09 | 东软睿驰汽车技术(沈阳)有限公司 | 神经网络模型的训练方法、装置以及电子设备 |
CN112907645A (zh) * | 2021-03-05 | 2021-06-04 | 重庆紫光华山智安科技有限公司 | 视差图获取方法、装置、训练方法、电子设备和介质 |
CN113014899A (zh) * | 2019-12-20 | 2021-06-22 | 杭州海康威视数字技术股份有限公司 | 一种双目图像的视差确定方法、装置及系统 |
CN113160298A (zh) * | 2021-03-31 | 2021-07-23 | 奥比中光科技集团股份有限公司 | 一种深度真值获取方法、装置、系统及深度相机 |
CN113281779A (zh) * | 2021-05-20 | 2021-08-20 | 中山大学 | 一种3d物体快速检测方法、装置、设备及介质 |
US11158077B2 (en) | 2019-12-13 | 2021-10-26 | NextVPU (Shanghai) Co., Ltd. | Disparity estimation |
CN114187357A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 一种高精地图的生产方法、装置、电子设备及存储介质 |
WO2022160897A1 (zh) * | 2021-01-26 | 2022-08-04 | 上海西井信息科技有限公司 | 双目视差估计方法、模型训练方法以及相关设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022304A (zh) * | 2016-06-03 | 2016-10-12 | 浙江大学 | 一种基于双目相机的实时人体坐姿情况检测方法 |
CN107358626A (zh) * | 2017-07-17 | 2017-11-17 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN108230338A (zh) * | 2018-01-11 | 2018-06-29 | 温州大学 | 一种基于卷积神经网络的立体图像分割方法 |
CN108229591A (zh) * | 2018-03-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络自适应训练方法和装置、设备、程序和存储介质 |
CN108961327A (zh) * | 2018-05-22 | 2018-12-07 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN109191515A (zh) * | 2018-07-25 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种图像视差估计方法及装置、存储介质 |
CN109191512A (zh) * | 2018-07-27 | 2019-01-11 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及系统 |
-
2019
- 2019-04-19 CN CN201910316871.7A patent/CN110148179A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106022304A (zh) * | 2016-06-03 | 2016-10-12 | 浙江大学 | 一种基于双目相机的实时人体坐姿情况检测方法 |
CN107358626A (zh) * | 2017-07-17 | 2017-11-17 | 清华大学深圳研究生院 | 一种利用条件生成对抗网络计算视差的方法 |
CN108230338A (zh) * | 2018-01-11 | 2018-06-29 | 温州大学 | 一种基于卷积神经网络的立体图像分割方法 |
CN108229591A (zh) * | 2018-03-15 | 2018-06-29 | 北京市商汤科技开发有限公司 | 神经网络自适应训练方法和装置、设备、程序和存储介质 |
CN108961327A (zh) * | 2018-05-22 | 2018-12-07 | 深圳市商汤科技有限公司 | 一种单目深度估计方法及其装置、设备和存储介质 |
CN109191515A (zh) * | 2018-07-25 | 2019-01-11 | 北京市商汤科技开发有限公司 | 一种图像视差估计方法及装置、存储介质 |
CN109191512A (zh) * | 2018-07-27 | 2019-01-11 | 深圳市商汤科技有限公司 | 双目图像的深度估计方法及装置、设备、程序及介质 |
CN109544613A (zh) * | 2018-11-23 | 2019-03-29 | 南昌航空大学 | 一种基于稠密网络深度学习的双目立体匹配方法及系统 |
Non-Patent Citations (4)
Title |
---|
CLÉMENT GODARD等: "Unsupervised Monocular Depth Estimation with Left-Right Consistency", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION(CVPR)》 * |
NADIA BAHA TOUZENE等: "Disparity map estimation with neural network", 《2010 INTERNATIONAL CONFERENCE ON MACHINE AND WEB INTELLIGENCE》 * |
朱俊鹏 等: "基于卷积神经网络的视差图生成技术", 《计算机应用》 * |
王凯 等: "基于生成对抗网络的图像恢复与SLAM容错研究", 《浙江大学学报(工学版)》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111047634A (zh) * | 2019-11-13 | 2020-04-21 | 杭州飞步科技有限公司 | 场景深度的确定方法、装置、设备及存储介质 |
CN111047634B (zh) * | 2019-11-13 | 2023-08-08 | 杭州飞步科技有限公司 | 场景深度的确定方法、装置、设备及存储介质 |
CN110812149B (zh) * | 2019-12-03 | 2021-07-20 | 安阳师范学院 | 一种观看左右格式3d影片产生立体视觉的视觉训练方法 |
CN110812149A (zh) * | 2019-12-03 | 2020-02-21 | 安阳师范学院 | 一种观看左右格式3d影片产生立体视觉的视觉训练方法 |
US11158077B2 (en) | 2019-12-13 | 2021-10-26 | NextVPU (Shanghai) Co., Ltd. | Disparity estimation |
CN113014899A (zh) * | 2019-12-20 | 2021-06-22 | 杭州海康威视数字技术股份有限公司 | 一种双目图像的视差确定方法、装置及系统 |
CN111583345A (zh) * | 2020-05-09 | 2020-08-25 | 吉林大学 | 一种相机参数的获取方法、装置、设备及存储介质 |
CN111583345B (zh) * | 2020-05-09 | 2022-09-27 | 吉林大学 | 一种相机参数的获取方法、装置、设备及存储介质 |
CN111709938A (zh) * | 2020-06-18 | 2020-09-25 | 武汉唯理科技有限公司 | 一种基于深度图的路面缺陷及抛洒物检测方法 |
CN112348187A (zh) * | 2020-11-11 | 2021-02-09 | 东软睿驰汽车技术(沈阳)有限公司 | 神经网络模型的训练方法、装置以及电子设备 |
WO2022160897A1 (zh) * | 2021-01-26 | 2022-08-04 | 上海西井信息科技有限公司 | 双目视差估计方法、模型训练方法以及相关设备 |
CN112907645A (zh) * | 2021-03-05 | 2021-06-04 | 重庆紫光华山智安科技有限公司 | 视差图获取方法、装置、训练方法、电子设备和介质 |
CN113160298A (zh) * | 2021-03-31 | 2021-07-23 | 奥比中光科技集团股份有限公司 | 一种深度真值获取方法、装置、系统及深度相机 |
CN113160298B (zh) * | 2021-03-31 | 2024-03-08 | 奥比中光科技集团股份有限公司 | 一种深度真值获取方法、装置、系统及深度相机 |
CN113281779A (zh) * | 2021-05-20 | 2021-08-20 | 中山大学 | 一种3d物体快速检测方法、装置、设备及介质 |
CN114187357A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 一种高精地图的生产方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148179A (zh) | 一种训练用于估计图像视差图的神经网络模型方法、装置及介质 | |
US10198623B2 (en) | Three-dimensional facial recognition method and system | |
US11113842B2 (en) | Method and apparatus with gaze estimation | |
CN109887003B (zh) | 一种用于进行三维跟踪初始化的方法与设备 | |
US11688105B2 (en) | Facial expression image processing method and apparatus | |
CN110276317B (zh) | 一种物体尺寸检测方法、物体尺寸检测装置及移动终端 | |
CN111784821B (zh) | 三维模型生成方法、装置、计算机设备及存储介质 | |
KR20120048370A (ko) | 물체 자세 인식장치 및 이를 이용한 물체 자세 인식방법 | |
EP2597597A2 (en) | Apparatus and method for calculating three dimensional (3D) positions of feature points | |
EP3274964B1 (en) | Automatic connection of images using visual features | |
CN107924571A (zh) | 从点云中对人耳进行三维重建 | |
EP3326156B1 (en) | Consistent tessellation via topology-aware surface tracking | |
CN104317391A (zh) | 一种基于立体视觉的三维手掌姿态识别交互方法和系统 | |
CN106570482B (zh) | 人体动作识别方法及装置 | |
EP3905194A1 (en) | Pose estimation method and apparatus | |
CN104677330A (zh) | 一种小型双目立体视觉测距系统 | |
CN111524216A (zh) | 生成三维人脸数据的方法和装置 | |
KR102362470B1 (ko) | 족부 정보 처리 방법 및 장치 | |
CN105096353A (zh) | 一种图像处理方法及装置 | |
Canessa et al. | A dataset of stereoscopic images and ground-truth disparity mimicking human fixations in peripersonal space | |
Cao et al. | Accurate 3-D reconstruction under IoT environments and its applications to augmented reality | |
CN110336991B (zh) | 一种基于双目相机的环境提示方法及装置 | |
CN110007764B (zh) | 一种手势骨架识别方法、装置、系统及存储介质 | |
CN113592015B (zh) | 定位以及训练特征匹配网络的方法和装置 | |
CN104182747A (zh) | 基于多个立体相机的对象检测跟踪方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |