CN113139999A - 一种透明物体单视图多尺度深度估计方法和系统 - Google Patents

一种透明物体单视图多尺度深度估计方法和系统 Download PDF

Info

Publication number
CN113139999A
CN113139999A CN202110528885.2A CN202110528885A CN113139999A CN 113139999 A CN113139999 A CN 113139999A CN 202110528885 A CN202110528885 A CN 202110528885A CN 113139999 A CN113139999 A CN 113139999A
Authority
CN
China
Prior art keywords
depth
view
original
boundary
left view
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110528885.2A
Other languages
English (en)
Other versions
CN113139999B (zh
Inventor
许汝聪
王涛
吴勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110528885.2A priority Critical patent/CN113139999B/zh
Publication of CN113139999A publication Critical patent/CN113139999A/zh
Application granted granted Critical
Publication of CN113139999B publication Critical patent/CN113139999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • G06T7/593Depth or shape recovery from multiple images from stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种透明物体单视图多尺度深度估计方法和系统,利用对缺失深度的透明物体图像的边界信息进行预测,并将边界信息合成到原图像来增强透明物体的边界特征,并将合成图像送入深度估计网络来预测左视图与右视图的视差,即可获得透明物体的粗尺度深度信息,之后将粗尺度信息图送入多尺度深度估计网络,最终可得到透明物体的深度图。解决了双目摄像机捕获透明物体图像时存在的深度缺失问题,以及人工补全深度透明物体深度信息工作量大,效率低下和准确率低的技术问题。

Description

一种透明物体单视图多尺度深度估计方法和系统
技术领域
本发明涉及计算机机器视觉技术领域,尤其涉及一种透明物体单视图多尺度深度估计方法和系统。
背景技术
在计算机机器视觉中,对普通物体的深度估计需要获取透明物体在场景中实际的深度,而现有的3D传感器(Kinect或RealSense)只能捕获透明物体的RGB信息,无法在透明物体表面捕获可靠的深度数据。现有的透明物体深度采集方法先用深度相机对透明物体的RGB图片进行捕获,之后保持相机的位置不变,将场景中的透明物体替换成和它形状相同的不透明物体。这种方法需要大量的人工来对数据采集过程中的物体进行替换,且一旦透明物体的对象的种类增加,还需制作相应的不透明对象模型,工作量加大,效率低下,且准确率较低。为解决以上问题,本发明提供了一种透明物体单视图多尺度深度估计方法和系统,用于解决双目摄像机捕获透明物体图像时存在的深度缺失问题,以及人工补全深度透明物体深度信息工作量大,效率低下和准确率低的技术问题。
发明内容
本发明提供了一种透明物体单视图多尺度深度估计方法和系统,用于解决双目摄像机捕获透明物体图像时存在的深度缺失问题,以及人工补全深度透明物体深度信息工作量大,效率低下和准确率低的技术问题。
有鉴于此,本发明第一方面提供了一种透明物体单视图多尺度深度估计方法,包括:
获取双目摄像机捕获的缺失深度的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓;
将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中,得到带有边界信息的左视图和右视图;
将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络,得到左视差图和右视差图;
根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数,对深度预测网络进行训练;
将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图;
根据原左视图和原右视图的透明物体的边界轮廓,在透明物体形状模板库中进行形状匹配,根据形状匹配结果对粗尺度深度图进行深度补全;
将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络,得到中尺度深度图;
根据形状匹配结果对中尺度深度图进行深度补全;
将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络,得到细尺度深度图,其中,细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。
可选地,中尺度深度信息提取网络的卷积核大小为5×5,细尺度深度信息提取网络的卷积核大小为7×7。
可选地,获取双目摄像机捕获的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓,包括:
获取双目摄像机捕获的透明物体的原左视图和原右视图;
将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓。
可选地,将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓,包括:
将原左视图和原右视图输入边界预测网络,边界预测网络对原左视图和原右视图分别依次进行三次采样,将每一次采样的结果分别进行四次不同的卷积和一次池化,将五次的结果进行堆叠,将得到的堆叠结果和前两次采样的结果送入解码器进行边界特征预测,得到原左视图和原右视图的透明物体的边界轮廓。
可选地,解码器为BAM-Decoder。
可选地,深度预测网络的损失函数为:
Figure BDA0003067348450000031
其中,
Figure BDA0003067348450000032
为代表重建图像与输入左视图的外观匹配损失的损失函数,
Figure BDA0003067348450000033
为代表重建图像与输入右视图的外观匹配损失的损失函数,
Figure BDA0003067348450000034
为采用左视图计算得到的为了使重建图像在边缘处更为平滑的损失函数,
Figure BDA0003067348450000035
为采用右视图计算得到的为了使右重建图像在边缘处更为平滑的损失函数,
Figure BDA0003067348450000036
为采用左视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,
Figure BDA0003067348450000037
为采用右视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,aap,ads,alr分别为三个权重。
本发明第二方面提供了一种透明物体单视图多尺度深度估计系统,包括:
边界提取模块,用于获取双目摄像机捕获的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓;
合成模块,用于将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中,得到带有边界信息的左视图和右视图;
视差模块,用于将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络,得到左视差图和右视差图;
训练模块,用于根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数,对深度预测网络进行训练;
粗尺度深度图模块,用于将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图;
第一透明深度重建模块,用于根据原左视图和原右视图的透明物体的边界轮廓,在透明物体形状模板库中进行形状匹配,根据形状匹配结果对粗尺度深度图进行深度补全;
中尺度深度图模块,用于将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络,得到中尺度深度图;
第二透明深度重建模块,用于根据形状匹配结果对中尺度深度图进行深度补全;
细尺度深度图模块,用于将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络,得到细尺度深度图,其中,细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。
可选地,边界提取模块包括:
获取子模块,用于获取双目摄像机捕获的透明物体的原左视图和原右视图;
轮廓提取子模块,用于将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓。
可选地,轮廓提取子模块具体用于:
将原左视图和原右视图输入边界预测网络,边界预测网络对原左视图和原右视图分别依次进行三次采样,将每一次采样的结果分别进行四次不同的卷积和一次池化,将五次的结果进行堆叠,将得到的堆叠结果和前两次采样的结果送入解码器进行边界特征预测,得到原左视图和原右视图的透明物体的边界轮廓。
可选地,解码器为BAM-Decoder。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明中提供的一种透明物体单视图多尺度深度估计方法,首先对双目摄像机捕获的左视图和右视图里的透明物体并行进行边界预测,然后将预测得到的边界分别合成到左视图和右视图中,再将带有边界信息的左视图送入深度预测网络进行训练,获得带有边界信息的预测左视图与预测右视图,随后对预测出来的左右视图与带有边界信息的左右视图进行训练,在训练过程中使左视差图和右视差图的视差绝对值趋向于零,即可获得针对透明物体的深度估计网络。当网络输入一张带有透明物体的RGB图片,减去最后一步生成预测图的模块,即可获得物体的粗尺度深度信息,最后将粗尺度信息图输入多尺度特征提取网络,同时引入基于模板匹配的深度补全模块,分别对提取得到的粗尺度和中尺度的深度信息图进行深度补全,最后计算出细尺度深度信息图。本发明提出的这种采用边界预测与视差一致性的多尺度网络深度估计方法,可以在透明物体的深度信息缺失的情况下,对场景中透明对象的特征信息进行提取,使得对透明物体的深度估计更为准确,具有更高的识别率,且减少了工作量,解决了双目摄像机捕获透明物体图像时存在的深度缺失问题,以及人工补全深度透明物体深度信息工作量大,效率低下和准确率低的技术问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的一种透明物体单视图多尺度深度估计方法的流程框图;
图2为本发明实施例中提供的边界预测网络的结构示意图;
图3为图2中的Boundary Stream部分流程图;
图4为本发明实施例中提供的BAM-Decoder解码器的结构示意图;
图5为本发明实施例中提供的深度预测网络结构的表格体现形式;
图6为本发明实施例中提供的透明物体姿态模板库示意图;
图7为本发明实施例中提供的多尺度深度估计网络结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于理解,请参阅图1,本发明提供了一种透明物体单视图多尺度深度估计方法的实施例,包括:
步骤101、获取双目摄像机捕获的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓。
通过双目摄像机分别获取透明物体的原左视图(即左目摄像机采集的透明物体图片)和原右视图(即右目摄像机采集的透明物体图片),然后对原左视图和原右视图分别进行透明物体边界轮廓特征提取,得到原左视图和原右视图的透明物体的边界轮廓。透明物体的边界轮廓获取可以通过边界预测网络实现,边界预测网络的结构如图2所示,对送入边界预测网络的原图依次进行三次采样(如图2中的conv1、conv2和conv3所示),并且依次保存每次采样的结果,之后将最后一次采样的结果分别进行四次不同的卷积和一次池化操作,如图3所示。并将这五次操作的结果进行堆叠,最后将得到的特征堆叠结果和前两次采样的结果送入BAM-Decoder解码器来对特征进行预测,BAM-Decoder解码器是一种边界信息增强模块,其中的BAM是一种边界注意模块,可以增强对图片中边界信息的感知程度,Decoder解码模块是为了同时将conv1、conv2所提取的特征进行利用。BAM-Decoder解码器的结构如图4所示,BAM-Decoder会先对conv2和conv3进行上采样融合,并加入3×3卷积运算。将融合后的特征图进一步上采样,以相同的方法与conv1融合。由于conv1、conv2和conv3代表着不同尺度的特征,因此利用BAM-Decoder解码器可以更好地进行特征提取。
步骤102、将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中,得到带有边界信息的左视图和右视图。
将预测得到的透明物体的轮廓合成到原图像中,能够解决透明物体在真实场景中边缘信息较弱的问题。
步骤103、将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络,得到左视差图和右视差图。
视差是三维场景中某一点在左右视图像中对应点位置的像素级差距。当给定摄像机的基线距离和焦距之后,就可以从视差图中自动计算出深度,所以深度和视差是可以互相转换,相互等价的。
本发明中优选将带有边界信息的左视图送入深度预测网络。深度预测网络结构的表格体现形式如图5所示,将原图输入深度预测网络,深度预测网络会先经过深度图模块预测出深度图,然后再经末端的视差图生成模块生成左视差图和右视差图。
步骤104、根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数,对深度预测网络进行训练,使左视差图和右视差图的视差绝对值趋向于零。
深度预测网络的损失函数目的是为了是左右视差的差值趋近于0,损失函数C的设定为:
Figure BDA0003067348450000071
其中,
Figure BDA0003067348450000072
为代表重建图像与输入左视图的外观匹配损失的损失函数,
Figure BDA0003067348450000073
为代表重建图像与输入右视图的外观匹配损失的损失函数,
Figure BDA0003067348450000074
为采用左视图计算得到的为了使重建图像在边缘处更为平滑的损失函数,
Figure BDA0003067348450000075
为采用右视图计算得到的为了使右重建图像在边缘处更为平滑的损失函数,
Figure BDA0003067348450000076
为采用左视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,
Figure BDA0003067348450000077
为采用右视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,aap,ads,alr分别为三个权重。将带有边界信息的左视图送入深度预测网络,在损失函数的计算中都包含左视图像和右视图像,但在网络中只有左视图像通过卷积层被馈入。
以左视图为例,对
Figure BDA0003067348450000078
Figure BDA0003067348450000079
三个损失函数进行说明:
Figure BDA00030673484500000710
其中,N为输入图片像素点的数量,
Figure BDA00030673484500000711
为输入的图像,i,j代表第i行第j个像素,l代表左视图,
Figure BDA00030673484500000712
代表输入的图像在经过深度预测网络重建的结果,SSIM代表一块3×3的滤波器,a为对应的权重,在训练过程中a设置为0.6。
Figure BDA00030673484500000713
其中,
Figure BDA00030673484500000714
代表着网络生成的视差图,由于鼓励图像在局部上的平滑性,因此设置图像梯度
Figure BDA00030673484500000715
Figure BDA00030673484500000716
对分别指在x轴和y轴的梯度,用
Figure BDA00030673484500000717
对边缘特征进行加权,e代表自然对数。
Figure BDA00030673484500000718
其中,r代表右视图。
步骤105、将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图。
步骤104中训练好的深度预测网络,去掉由深度图生成左视差图和右视差图部分架构,那么输出即为深度图,将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图。
步骤106、根据原左视图和原右视图的透明物体的边界轮廓,在透明物体形状模板库中进行形状匹配,根据形状匹配结果对粗尺度深度图进行深度补全。
对于深度预测网络得到的粗尺度深度图,由于本身双目摄像头获取到的透明对象的深度存在缺失,即便引入边界预测对深度进行估计,图像中透明对象也仅有边界深度是准确的。因此对透明物体的各个位姿中各点的位置信息进行记录,并以此来建立姿态模板库(如图6所示)。之后依靠边界预测网络所得到的边界结果,送入模板库中进行匹配,通过匹配来确定物体的位姿,并且根据对应位姿中物体外轮廓中各点相对于边缘的位置信息来进行相对深度的计算,计算可得到该物体各点所对应的深度,之后去除原图像中物体所在区域的所有深度信息,重新填入计算得到的真实深度信息,以完成深度补全操作。
步骤107、将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络,得到中尺度深度图。
步骤108、根据形状匹配结果对中尺度深度图进行深度补全。
步骤109、将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络,得到细尺度深度图,其中,细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。
将深度预测网络所得到的粗尺度深度信息图以及左视图进行特征融合,并送入多尺度深度估计网络(如图7)的中尺度深度信息提取网络,之后进行两次5×5的卷积来对图片中的中尺度特征进行提取,得到更为精细的中尺度深度图。参照步骤106将得到的中尺度深度图进行深度补全操作,按照边界预测网络预测的边界,在透明物品模板库对透明物体的位姿进行匹配,利用匹配结果对中尺度信息中透明物品的部分进行深度补全,获得补全后的中尺度深度信息图。最后通过图7的细尺度深度信息提取网络对中尺度深度图和左视图重复特征融合操作,再进行两次7x7的卷积来对图片中的更多局部小细节(如边缘信息)进行提取,得到细尺度深度图,即对应透明物体的深度信息图。
本发明中提供的一种透明物体单视图多尺度深度估计方法,首先对双目摄像机捕获的左视图和右视图里的透明物体并行进行边界预测,然后将预测得到的边界分别合成到左视图和右视图中,再将带有边界信息的左视图送入深度预测网络进行训练,获得带有边界信息的预测左视图与预测右视图,随后对预测出来的左右视图与带有边界信息的左右视图进行训练,在训练过程中使左视差图和右视差图的视差绝对值趋向于零,即可获得针对透明物体的深度估计网络。当网络输入一张带有透明物体的RGB图片,减去最后一步生成预测图的模块,即可获得物体的粗尺度深度信息,最后将粗尺度信息图输入多尺度特征提取网络,同时引入基于模板匹配的深度补全模块,分别对提取得到的粗尺度和中尺度的深度信息图进行深度补全,最后计算出细尺度深度信息图。本发明提出的这种采用边界预测与视差一致性的多尺度网络深度估计方法,可以在透明物体的深度信息缺失的情况下,对场景中透明对象的特征信息进行提取,使得对透明物体的深度估计更为准确,具有更高的识别率,且减少了工作量,解决了双目摄像机捕获透明物体图像时存在的深度缺失问题,以及人工补全深度透明物体深度信息工作量大,效率低下和准确率低的技术问题。
本发明中还提供了一种透明物体单视图多尺度深度估计系统的实施例,包括:
边界提取模块,用于获取双目摄像机捕获的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓;
合成模块,用于将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中,得到带有边界信息的左视图和右视图;
视差模块,用于将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络,得到左视差图和右视差图;
训练模块,用于根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数,对深度预测网络进行训练,使左视差图和右视差图的视差绝对值趋向于零;
粗尺度深度图模块,用于将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图;
第一透明深度重建模块,用于根据原左视图和原右视图的透明物体的边界轮廓,在透明物体形状模板库中进行形状匹配,根据形状匹配结果对粗尺度深度图进行深度补全;
中尺度深度图模块,用于将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络,得到中尺度深度图;
第二透明深度重建模块,用于根据形状匹配结果对中尺度深度图进行深度补全;
细尺度深度图模块,用于将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络,得到细尺度深度图,其中,细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。
边界提取模块包括:
获取子模块,用于获取双目摄像机捕获的透明物体的原左视图和原右视图;
轮廓提取子模块,用于将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓。
轮廓提取子模块具体用于:
将原左视图和原右视图输入边界预测网络,边界预测网络对原左视图和原右视图分别依次进行三次采样,将每一次采样的结果分别进行四次不同的卷积和一次池化,将五次的结果进行堆叠,将得到的堆叠结果和前两次采样的结果送入解码器进行边界特征预测,得到原左视图和原右视图的透明物体的边界轮廓。
解码器为BAM-Decoder。
深度预测网络的损失函数为:
Figure BDA0003067348450000101
其中,
Figure BDA0003067348450000102
为代表重建图像与输入左视图的外观匹配损失的损失函数,
Figure BDA0003067348450000103
为代表重建图像与输入右视图的外观匹配损失的损失函数,
Figure BDA0003067348450000104
为采用左视图计算得到的为了使重建图像在边缘处更为平滑的损失函数,
Figure BDA0003067348450000105
为采用右视图计算得到的为了使右重建图像在边缘处更为平滑的损失函数,
Figure BDA0003067348450000106
为采用左视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,
Figure BDA0003067348450000111
为采用右视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,aap,ads,alr分别为三个权重。
本发明中提供的一种透明物体单视图多尺度深度估计系统,首先对双目摄像机捕获的左视图和右视图里的透明物体并行进行边界预测,然后将预测得到的边界分别合成到左视图和右视图中,再将带有边界信息的左视图送入深度预测网络进行训练,获得带有边界信息的预测左视图与预测右视图,随后对预测出来的左右视图与带有边界信息的左右视图进行训练,在训练过程中使左视差图和右视差图的视差绝对值趋向于零,即可获得针对透明物体的深度估计网络。当网络输入一张带有透明物体的RGB图片,减去最后一步生成预测图的模块,即可获得物体的粗尺度深度信息,最后将粗尺度信息图输入多尺度特征提取网络,同时引入基于模板匹配的深度补全模块,分别对提取得到的粗尺度和中尺度的深度信息图进行深度补全,最后计算出细尺度深度信息图。本发明提出的这种采用边界预测与视差一致性的多尺度网络深度估计方法,可以在透明物体的深度信息缺失的情况下,对场景中透明对象的特征信息进行提取,使得对透明物体的深度估计更为准确,具有更高的识别率,且减少了工作量,解决了双目摄像机捕获透明物体图像时存在的深度缺失问题,以及人工补全深度透明物体深度信息工作量大,效率低下和准确率低的技术问题。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种透明物体单视图多尺度深度估计方法,其特征在于,包括:
获取双目摄像机捕获的缺失深度的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓;
将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中,得到带有边界信息的左视图和右视图;
将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络,得到左视差图和右视差图;
根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数,对深度预测网络进行训练,使左视差图和右视差图的视差绝对值趋向于零;
将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图;
根据原左视图和原右视图的透明物体的边界轮廓,在透明物体形状模板库中进行形状匹配,根据形状匹配结果对粗尺度深度图进行深度补全;
将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络,得到中尺度深度图;
根据形状匹配结果对中尺度深度图进行深度补全;
将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络,得到细尺度深度图,其中,细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。
2.根据权利要求1所述的透明物体单视图多尺度深度估计方法,其特征在于,中尺度深度信息提取网络的卷积核大小为5×5,细尺度深度信息提取网络的卷积核大小为7×7。
3.根据权利要求1所述的透明物体单视图多尺度深度估计方法,其特征在于,获取双目摄像机捕获的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓,包括:
获取双目摄像机捕获的透明物体的原左视图和原右视图;
将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓。
4.根据权利要求3所述的透明物体单视图多尺度深度估计方法,其特征在于,将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓,包括:
将原左视图和原右视图输入边界预测网络,边界预测网络对原左视图和原右视图分别依次进行三次采样,将每一次采样的结果分别进行四次不同的卷积和一次池化,将五次的结果进行堆叠,将得到的堆叠结果和前两次采样的结果送入解码器进行边界特征预测,得到原左视图和原右视图的透明物体的边界轮廓。
5.根据权利要求4所述的透明物体单视图多尺度深度估计方法,其特征在于,解码器为BAM-Decoder。
6.根据权利要求1所述的透明物体单视图多尺度深度估计方法,其特征在于,深度预测网络的损失函数为:
Figure FDA0003067348440000021
其中,
Figure FDA0003067348440000022
为代表重建图像与输入左视图的外观匹配损失的损失函数,
Figure FDA0003067348440000023
为代表重建图像与输入右视图的外观匹配损失的损失函数,
Figure FDA0003067348440000024
为采用左视图计算得到的为了使重建图像在边缘处更为平滑的损失函数,
Figure FDA0003067348440000025
为采用右视图计算得到的为了使右重建图像在边缘处更为平滑的损失函数,
Figure FDA0003067348440000026
为采用左视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,
Figure FDA0003067348440000027
为采用右视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数,aap,ads,alr分别为三个权重。
7.一种透明物体单视图多尺度深度估计系统,其特征在于,包括:
边界提取模块,用于获取双目摄像机捕获的透明物体的原左视图和原右视图,并提取原左视图和原右视图的透明物体的边界轮廓;
合成模块,用于将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中,得到带有边界信息的左视图和右视图;
视差模块,用于将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络,得到左视差图和右视差图;
训练模块,用于根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数,对深度预测网络进行训练,使左视差图和右视差图的视差绝对值趋向于零;
粗尺度深度图模块,用于将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络,得到RGB图片对应的透明物体的粗尺度深度图;
第一透明深度重建模块,用于根据原左视图和原右视图的透明物体的边界轮廓,在透明物体形状模板库中进行形状匹配,根据形状匹配结果对粗尺度深度图进行深度补全;
中尺度深度图模块,用于将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络,得到中尺度深度图;
第二透明深度重建模块,用于根据形状匹配结果对中尺度深度图进行深度补全;
细尺度深度图模块,用于将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络,得到细尺度深度图,其中,细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。
8.根据权利要求7所述的透明物体单视图多尺度深度估计系统,其特征在于,边界提取模块包括:
获取子模块,用于获取双目摄像机捕获的透明物体的原左视图和原右视图;
轮廓提取子模块,用于将原左视图和原右视图送入边界预测网络,得到原左视图和原右视图的透明物体的边界轮廓。
9.根据权利要求8所述的透明物体单视图多尺度深度估计系统,其特征在于,轮廓提取子模块具体用于:
将原左视图和原右视图输入边界预测网络,边界预测网络对原左视图和原右视图分别依次进行三次采样,将每一次采样的结果分别进行四次不同的卷积和一次池化,将五次的结果进行堆叠,将得到的堆叠结果和前两次采样的结果送入解码器进行边界特征预测,得到原左视图和原右视图的透明物体的边界轮廓。
10.根据权利要求9所述的透明物体单视图多尺度深度估计系统,其特征在于,解码器为BAM-Decoder。
CN202110528885.2A 2021-05-14 2021-05-14 一种透明物体单视图多尺度深度估计方法和系统 Active CN113139999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110528885.2A CN113139999B (zh) 2021-05-14 2021-05-14 一种透明物体单视图多尺度深度估计方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110528885.2A CN113139999B (zh) 2021-05-14 2021-05-14 一种透明物体单视图多尺度深度估计方法和系统

Publications (2)

Publication Number Publication Date
CN113139999A true CN113139999A (zh) 2021-07-20
CN113139999B CN113139999B (zh) 2023-04-07

Family

ID=76817028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110528885.2A Active CN113139999B (zh) 2021-05-14 2021-05-14 一种透明物体单视图多尺度深度估计方法和系统

Country Status (1)

Country Link
CN (1) CN113139999B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704822A (zh) * 2017-09-30 2018-02-16 广州智慧城市发展研究院 基于残缺补全的指静脉深层特征提取与匹配方法及系统
CN109977981A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置
CN111161364A (zh) * 2019-12-24 2020-05-15 东南大学 一种针对单视角深度图的实时形状补全和姿态估计方法
CN111325782A (zh) * 2020-02-18 2020-06-23 南京航空航天大学 一种基于多尺度统一的无监督单目视图深度估计方法
CN111667444A (zh) * 2020-05-29 2020-09-15 湖北工业大学 一种基于多通道残差网络的图像压缩感知重建方法
CN112001914A (zh) * 2020-08-31 2020-11-27 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN112396645A (zh) * 2020-11-06 2021-02-23 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和系统
CN112435325A (zh) * 2020-09-29 2021-03-02 北京航空航天大学 基于vi-slam和深度估计网络的无人机场景稠密重建方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704822A (zh) * 2017-09-30 2018-02-16 广州智慧城市发展研究院 基于残缺补全的指静脉深层特征提取与匹配方法及系统
CN109977981A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置
CN111161364A (zh) * 2019-12-24 2020-05-15 东南大学 一种针对单视角深度图的实时形状补全和姿态估计方法
CN111325782A (zh) * 2020-02-18 2020-06-23 南京航空航天大学 一种基于多尺度统一的无监督单目视图深度估计方法
CN111667444A (zh) * 2020-05-29 2020-09-15 湖北工业大学 一种基于多通道残差网络的图像压缩感知重建方法
CN112001914A (zh) * 2020-08-31 2020-11-27 三星(中国)半导体有限公司 深度图像补全的方法和装置
CN112435325A (zh) * 2020-09-29 2021-03-02 北京航空航天大学 基于vi-slam和深度估计网络的无人机场景稠密重建方法
CN112396645A (zh) * 2020-11-06 2021-02-23 华中科技大学 一种基于卷积残差学习的单目图像深度估计方法和系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CHI XU ET AL.: "6DoF Pose Estimation of Transparent Object from a Single RGB-D Image", 《SENSORS》 *
DAVID EIGEN ET AL: "Predicting Depth, Surface Normals and Semantic Labels", 《IEEE》 *
ENZE XIE ET AL: "Segmenting Transparent Objects in the Wild", 《ARXIV》 *
SHREEYAK S.SAJJAN ET AL.: "ClearGrasp:3D Shape Estimation of Transparent Objects for Manipulation", 《ARXIV》 *
TAO WANG ET AL.: "Glass Object Localization by Joint Inference of Boundary and Depth", 《21ST INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR 2012)》 *
黄军 等: "单目深度估计技术进展综述", 《中国图象图形学报》 *

Also Published As

Publication number Publication date
CN113139999B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111066065B (zh) 用于混合深度正则化的系统和方法
KR100748719B1 (ko) 다중 스테레오 카메라를 이용한 3차원 모델링 장치 및 그방법
Bhat et al. Using photographs to enhance videos of a static scene
EP2087466B1 (en) Generation of depth map for an image
US6430304B2 (en) Method and apparatus for processing images to compute image flow information
RU2382406C1 (ru) Способ улучшения карты диспарантности и устройство для реализации способа
EP2595116A1 (en) Method for generating depth maps for converting moving 2d images to 3d
EP1418766A2 (en) Method and apparatus for processing images
CN111612878B (zh) 将静态照片制作成三维效果视频的方法及装置
JP2002524937A (ja) 高解像度カメラと低解像度カメラとを用いて高解像度像を合成する方法および装置
CN109949354B (zh) 一种基于全卷积神经网络的光场深度信息估计方法
CN114863037A (zh) 基于单手机的人体三维建模数据采集与重建方法及系统
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
CN115222889A (zh) 基于多视图图像的3d重建方法、装置及相关设备
CN111447428A (zh) 平面至立体图像的转换方法、装置、计算机可读存储介质及设备
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN107767393B (zh) 一种面向移动硬件的场景流估计方法
KR100837776B1 (ko) 2차원 영상을 3차원 영상으로 변환하는 영상 변환 장치 및그 방법
CN113139999B (zh) 一种透明物体单视图多尺度深度估计方法和系统
CN115063303A (zh) 一种基于图像修复的图像3d化方法
KR100879802B1 (ko) 가상 시점에서의 3차원 영상 생성 방법 및 장치
Ganeeva et al. The impact of intermediate video frames reconstruction step on the result of 3D reconstruction of objects
KR101665049B1 (ko) 영상 처리 장치 및 방법
Melendez et al. Relightable Buildings from Images.
Hamaguchi et al. Real-time view interpolation system for a super multiview 3D display: processing implementation and evaluation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant