CN113139999A

CN113139999A - 一种透明物体单视图多尺度深度估计方法和系统

Info

Publication number: CN113139999A
Application number: CN202110528885.2A
Authority: CN
Inventors: 许汝聪; 王涛; 吴勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-07-20
Anticipated expiration: 2041-05-14
Also published as: CN113139999B

Abstract

本发明公开了一种透明物体单视图多尺度深度估计方法和系统，利用对缺失深度的透明物体图像的边界信息进行预测，并将边界信息合成到原图像来增强透明物体的边界特征，并将合成图像送入深度估计网络来预测左视图与右视图的视差，即可获得透明物体的粗尺度深度信息，之后将粗尺度信息图送入多尺度深度估计网络，最终可得到透明物体的深度图。解决了双目摄像机捕获透明物体图像时存在的深度缺失问题，以及人工补全深度透明物体深度信息工作量大，效率低下和准确率低的技术问题。

Description

一种透明物体单视图多尺度深度估计方法和系统

技术领域

本发明涉及计算机机器视觉技术领域，尤其涉及一种透明物体单视图多尺度深度估计方法和系统。

背景技术

在计算机机器视觉中，对普通物体的深度估计需要获取透明物体在场景中实际的深度，而现有的3D传感器(Kinect或RealSense)只能捕获透明物体的RGB信息，无法在透明物体表面捕获可靠的深度数据。现有的透明物体深度采集方法先用深度相机对透明物体的RGB图片进行捕获，之后保持相机的位置不变，将场景中的透明物体替换成和它形状相同的不透明物体。这种方法需要大量的人工来对数据采集过程中的物体进行替换，且一旦透明物体的对象的种类增加，还需制作相应的不透明对象模型，工作量加大，效率低下，且准确率较低。为解决以上问题，本发明提供了一种透明物体单视图多尺度深度估计方法和系统，用于解决双目摄像机捕获透明物体图像时存在的深度缺失问题，以及人工补全深度透明物体深度信息工作量大，效率低下和准确率低的技术问题。

发明内容

本发明提供了一种透明物体单视图多尺度深度估计方法和系统，用于解决双目摄像机捕获透明物体图像时存在的深度缺失问题，以及人工补全深度透明物体深度信息工作量大，效率低下和准确率低的技术问题。

有鉴于此，本发明第一方面提供了一种透明物体单视图多尺度深度估计方法，包括：

获取双目摄像机捕获的缺失深度的透明物体的原左视图和原右视图，并提取原左视图和原右视图的透明物体的边界轮廓；

将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中，得到带有边界信息的左视图和右视图；

将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络，得到左视差图和右视差图；

根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数，对深度预测网络进行训练；

将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络，得到RGB图片对应的透明物体的粗尺度深度图；

根据原左视图和原右视图的透明物体的边界轮廓，在透明物体形状模板库中进行形状匹配，根据形状匹配结果对粗尺度深度图进行深度补全；

将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络，得到中尺度深度图；

根据形状匹配结果对中尺度深度图进行深度补全；

将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络，得到细尺度深度图，其中，细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。

可选地，中尺度深度信息提取网络的卷积核大小为5×5，细尺度深度信息提取网络的卷积核大小为7×7。

可选地，获取双目摄像机捕获的透明物体的原左视图和原右视图，并提取原左视图和原右视图的透明物体的边界轮廓，包括：

获取双目摄像机捕获的透明物体的原左视图和原右视图；

将原左视图和原右视图送入边界预测网络，得到原左视图和原右视图的透明物体的边界轮廓。

可选地，将原左视图和原右视图送入边界预测网络，得到原左视图和原右视图的透明物体的边界轮廓，包括：

将原左视图和原右视图输入边界预测网络，边界预测网络对原左视图和原右视图分别依次进行三次采样，将每一次采样的结果分别进行四次不同的卷积和一次池化，将五次的结果进行堆叠，将得到的堆叠结果和前两次采样的结果送入解码器进行边界特征预测，得到原左视图和原右视图的透明物体的边界轮廓。

可选地，解码器为BAM-Decoder。

可选地，深度预测网络的损失函数为：

其中，

为代表重建图像与输入左视图的外观匹配损失的损失函数，

为代表重建图像与输入右视图的外观匹配损失的损失函数，

为采用左视图计算得到的为了使重建图像在边缘处更为平滑的损失函数，

为采用右视图计算得到的为了使右重建图像在边缘处更为平滑的损失函数，

为采用左视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数，

为采用右视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数，a_ap，a_ds，a_lr分别为三个权重。

本发明第二方面提供了一种透明物体单视图多尺度深度估计系统，包括：

边界提取模块，用于获取双目摄像机捕获的透明物体的原左视图和原右视图，并提取原左视图和原右视图的透明物体的边界轮廓；

合成模块，用于将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中，得到带有边界信息的左视图和右视图；

视差模块，用于将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络，得到左视差图和右视差图；

训练模块，用于根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数，对深度预测网络进行训练；

粗尺度深度图模块，用于将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络，得到RGB图片对应的透明物体的粗尺度深度图；

第一透明深度重建模块，用于根据原左视图和原右视图的透明物体的边界轮廓，在透明物体形状模板库中进行形状匹配，根据形状匹配结果对粗尺度深度图进行深度补全；

中尺度深度图模块，用于将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络，得到中尺度深度图；

第二透明深度重建模块，用于根据形状匹配结果对中尺度深度图进行深度补全；

细尺度深度图模块，用于将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络，得到细尺度深度图，其中，细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。

可选地，边界提取模块包括：

获取子模块，用于获取双目摄像机捕获的透明物体的原左视图和原右视图；

轮廓提取子模块，用于将原左视图和原右视图送入边界预测网络，得到原左视图和原右视图的透明物体的边界轮廓。

可选地，轮廓提取子模块具体用于：

可选地，解码器为BAM-Decoder。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明中提供的一种透明物体单视图多尺度深度估计方法，首先对双目摄像机捕获的左视图和右视图里的透明物体并行进行边界预测，然后将预测得到的边界分别合成到左视图和右视图中，再将带有边界信息的左视图送入深度预测网络进行训练，获得带有边界信息的预测左视图与预测右视图，随后对预测出来的左右视图与带有边界信息的左右视图进行训练，在训练过程中使左视差图和右视差图的视差绝对值趋向于零，即可获得针对透明物体的深度估计网络。当网络输入一张带有透明物体的RGB图片，减去最后一步生成预测图的模块，即可获得物体的粗尺度深度信息，最后将粗尺度信息图输入多尺度特征提取网络，同时引入基于模板匹配的深度补全模块，分别对提取得到的粗尺度和中尺度的深度信息图进行深度补全，最后计算出细尺度深度信息图。本发明提出的这种采用边界预测与视差一致性的多尺度网络深度估计方法，可以在透明物体的深度信息缺失的情况下，对场景中透明对象的特征信息进行提取，使得对透明物体的深度估计更为准确，具有更高的识别率，且减少了工作量，解决了双目摄像机捕获透明物体图像时存在的深度缺失问题，以及人工补全深度透明物体深度信息工作量大，效率低下和准确率低的技术问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例中提供的一种透明物体单视图多尺度深度估计方法的流程框图；

图2为本发明实施例中提供的边界预测网络的结构示意图；

图3为图2中的Boundary Stream部分流程图；

图4为本发明实施例中提供的BAM-Decoder解码器的结构示意图；

图5为本发明实施例中提供的深度预测网络结构的表格体现形式；

图6为本发明实施例中提供的透明物体姿态模板库示意图；

图7为本发明实施例中提供的多尺度深度估计网络结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明提供了一种透明物体单视图多尺度深度估计方法的实施例，包括：

步骤101、获取双目摄像机捕获的透明物体的原左视图和原右视图，并提取原左视图和原右视图的透明物体的边界轮廓。

通过双目摄像机分别获取透明物体的原左视图(即左目摄像机采集的透明物体图片)和原右视图(即右目摄像机采集的透明物体图片)，然后对原左视图和原右视图分别进行透明物体边界轮廓特征提取，得到原左视图和原右视图的透明物体的边界轮廓。透明物体的边界轮廓获取可以通过边界预测网络实现，边界预测网络的结构如图2所示，对送入边界预测网络的原图依次进行三次采样(如图2中的conv1、conv2和conv3所示)，并且依次保存每次采样的结果，之后将最后一次采样的结果分别进行四次不同的卷积和一次池化操作，如图3所示。并将这五次操作的结果进行堆叠，最后将得到的特征堆叠结果和前两次采样的结果送入BAM-Decoder解码器来对特征进行预测，BAM-Decoder解码器是一种边界信息增强模块，其中的BAM是一种边界注意模块，可以增强对图片中边界信息的感知程度，Decoder解码模块是为了同时将conv1、conv2所提取的特征进行利用。BAM-Decoder解码器的结构如图4所示，BAM-Decoder会先对conv2和conv3进行上采样融合，并加入3×3卷积运算。将融合后的特征图进一步上采样，以相同的方法与conv1融合。由于conv1、conv2和conv3代表着不同尺度的特征，因此利用BAM-Decoder解码器可以更好地进行特征提取。

步骤102、将左视图和右视图的透明物体的边界轮廓分别合成到原左视图和原右视图中，得到带有边界信息的左视图和右视图。

将预测得到的透明物体的轮廓合成到原图像中，能够解决透明物体在真实场景中边缘信息较弱的问题。

步骤103、将带有边界信息的左视图或带有边界信息的右视图送入深度预测网络，得到左视差图和右视差图。

视差是三维场景中某一点在左右视图像中对应点位置的像素级差距。当给定摄像机的基线距离和焦距之后，就可以从视差图中自动计算出深度，所以深度和视差是可以互相转换，相互等价的。

本发明中优选将带有边界信息的左视图送入深度预测网络。深度预测网络结构的表格体现形式如图5所示，将原图输入深度预测网络，深度预测网络会先经过深度图模块预测出深度图，然后再经末端的视差图生成模块生成左视差图和右视差图。

步骤104、根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数，对深度预测网络进行训练，使左视差图和右视差图的视差绝对值趋向于零。

深度预测网络的损失函数目的是为了是左右视差的差值趋近于0，损失函数C的设定为：

其中，

为代表重建图像与输入左视图的外观匹配损失的损失函数，

为代表重建图像与输入右视图的外观匹配损失的损失函数，

为采用右视图计算得到的根据重建图像计算使视差重建网络得到的左右视差趋近一致性的损失函数，a_ap,a_ds,a_lr分别为三个权重。将带有边界信息的左视图送入深度预测网络，在损失函数的计算中都包含左视图像和右视图像，但在网络中只有左视图像通过卷积层被馈入。

以左视图为例，对

和

三个损失函数进行说明：

其中，N为输入图片像素点的数量，

为输入的图像，i,j代表第i行第j个像素，l代表左视图，

代表输入的图像在经过深度预测网络重建的结果，SSIM代表一块3×3的滤波器，a为对应的权重，在训练过程中a设置为0.6。

其中，

代表着网络生成的视差图，由于鼓励图像在局部上的平滑性，因此设置图像梯度

和

对分别指在x轴和y轴的梯度，用

对边缘特征进行加权，e代表自然对数。

其中，r代表右视图。

步骤105、将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络，得到RGB图片对应的透明物体的粗尺度深度图。

步骤104中训练好的深度预测网络，去掉由深度图生成左视差图和右视差图部分架构，那么输出即为深度图，将一张场景中带有透明物体的RGB图片送入去掉由深度图生成左视差图和右视差图部分架构的训练好的深度预测网络，得到RGB图片对应的透明物体的粗尺度深度图。

步骤106、根据原左视图和原右视图的透明物体的边界轮廓，在透明物体形状模板库中进行形状匹配，根据形状匹配结果对粗尺度深度图进行深度补全。

对于深度预测网络得到的粗尺度深度图，由于本身双目摄像头获取到的透明对象的深度存在缺失，即便引入边界预测对深度进行估计，图像中透明对象也仅有边界深度是准确的。因此对透明物体的各个位姿中各点的位置信息进行记录，并以此来建立姿态模板库(如图6所示)。之后依靠边界预测网络所得到的边界结果，送入模板库中进行匹配，通过匹配来确定物体的位姿，并且根据对应位姿中物体外轮廓中各点相对于边缘的位置信息来进行相对深度的计算，计算可得到该物体各点所对应的深度，之后去除原图像中物体所在区域的所有深度信息，重新填入计算得到的真实深度信息，以完成深度补全操作。

步骤107、将原左视图和深度补全后的粗尺度深度图送入中尺度深度信息提取网络，得到中尺度深度图。

步骤108、根据形状匹配结果对中尺度深度图进行深度补全。

步骤109、将原左视图和深度补全后的中尺度深度图送入细尺度深度信息提取网络，得到细尺度深度图，其中，细尺度深度信息提取网络的卷积核大小大于中尺度深度信息提取网络的卷积核大小。

将深度预测网络所得到的粗尺度深度信息图以及左视图进行特征融合，并送入多尺度深度估计网络(如图7)的中尺度深度信息提取网络，之后进行两次5×5的卷积来对图片中的中尺度特征进行提取，得到更为精细的中尺度深度图。参照步骤106将得到的中尺度深度图进行深度补全操作，按照边界预测网络预测的边界，在透明物品模板库对透明物体的位姿进行匹配，利用匹配结果对中尺度信息中透明物品的部分进行深度补全，获得补全后的中尺度深度信息图。最后通过图7的细尺度深度信息提取网络对中尺度深度图和左视图重复特征融合操作，再进行两次7x7的卷积来对图片中的更多局部小细节(如边缘信息)进行提取，得到细尺度深度图，即对应透明物体的深度信息图。

本发明中还提供了一种透明物体单视图多尺度深度估计系统的实施例，包括：

训练模块，用于根据带有边界信息的左视图和右视图以及左视差图和右视差图建立深度预测网络的损失函数，对深度预测网络进行训练，使左视差图和右视差图的视差绝对值趋向于零；

边界提取模块包括：

轮廓提取子模块具体用于：

解码器为BAM-Decoder。

深度预测网络的损失函数为：

其中，

为代表重建图像与输入左视图的外观匹配损失的损失函数，

为代表重建图像与输入右视图的外观匹配损失的损失函数，

本发明中提供的一种透明物体单视图多尺度深度估计系统，首先对双目摄像机捕获的左视图和右视图里的透明物体并行进行边界预测，然后将预测得到的边界分别合成到左视图和右视图中，再将带有边界信息的左视图送入深度预测网络进行训练，获得带有边界信息的预测左视图与预测右视图，随后对预测出来的左右视图与带有边界信息的左右视图进行训练，在训练过程中使左视差图和右视差图的视差绝对值趋向于零，即可获得针对透明物体的深度估计网络。当网络输入一张带有透明物体的RGB图片，减去最后一步生成预测图的模块，即可获得物体的粗尺度深度信息，最后将粗尺度信息图输入多尺度特征提取网络，同时引入基于模板匹配的深度补全模块，分别对提取得到的粗尺度和中尺度的深度信息图进行深度补全，最后计算出细尺度深度信息图。本发明提出的这种采用边界预测与视差一致性的多尺度网络深度估计方法，可以在透明物体的深度信息缺失的情况下，对场景中透明对象的特征信息进行提取，使得对透明物体的深度估计更为准确，具有更高的识别率，且减少了工作量，解决了双目摄像机捕获透明物体图像时存在的深度缺失问题，以及人工补全深度透明物体深度信息工作量大，效率低下和准确率低的技术问题。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。