CN115330874A

CN115330874A - 基于超像素处理遮挡的单目深度估计方法

Info

Publication number: CN115330874A
Application number: CN202211070202.4A
Authority: CN
Inventors: 程德强; 张晖敏; 寇旗旗; 王晓艺; 徐飞翔; 韩成功; 刘敬敬; 杨小冬
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-11
Anticipated expiration: 2042-09-02
Also published as: CN115330874B

Abstract

本发明提供一种基于超像素处理遮挡的单目深度估计方法，属于计算机视觉领域，步骤一，图像预处理：对输入的双目图片进行图像去噪以及生成遮挡物体掩膜；步骤二，采用相机位姿估计进行位姿估计对图像进行重建：首先进行特征提取，相机位姿估计使用PoseCNN，之后将输入图像分为三个任务，分别为语义分割、三维旋转回归、三维平移估计；步骤三，采用深度估计网络进行深度估计对图像进行重建；步骤四，计算光度重建损失。使用光度重建损失来识别遮挡，可以有效去除影响网络训练的遮挡物体；图像输入网络之前，使用聚类分割，然后使用SSIM指标重新匹配双目图像对，网络预测的图像比较单一，提高了网络估计的准确率。

Description

基于超像素处理遮挡的单目深度估计方法

技术领域

本发明涉及涉及计算机视觉领域，尤其涉及一种基于超像素处理遮挡的单目深度估计方法。

背景技术

深度估计是计算机视觉领域的一个基础性问题，其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。而目前大部分深度估计都是基于二维RGB图像到RBG-D图像的转化估计，主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的Shape from X方法，还有结合SFM和SLAM等方式预测相机位姿的算法。有很多用于获取深度信息的设备，但是设备造价昂贵。单目深度估计之外还有双目进行深度估计，双目图像需要利用立体匹配进行像素点对应和视差计算，计算复杂度大，尤其是对于低纹理场景的匹配效果不好。单目深度估计相较于双目深度估计成本更低，更容易普及。

单目深度估计分为监督算法和无监督算法。监督算法需要地面真值作为约束，监督算法的发展受到数据集的限制。无监督算法，在不使用深度真值的条件下，构造约束条件。深度数据的获取难度较高，目前大量算法都是基于无监督模型的。使用两个摄像机采集的双目图像数据进行联合训练。双目数据通过重建算法可彼此预测，从而获得相应的视差数据，再根据视差与深度的关系进行计算。另一种算法是将双目图像中各个像素点的对应问题看作是立体匹配问题进行训练。

基于光度重建损失的深度估计算法中，遮挡物体的存在使图像重建产生错误，遮挡像素的处理一般使用掩膜，掩膜对遮挡物体的识别存在不准确的情况；由于噪声存在，遮挡物体存在识别错误的情况；掩膜对遮挡像素的识别存在漏检、错检的情况。

发明内容

为解决上述问题，本发明提供一种基于超像素处理遮挡的单目深度估计方法，包括以下步骤：

步骤一，图像预处理：输入一组双目图片，对双目图片进行图像去噪，使用深度图生成遮挡物体掩膜；

步骤二，采用相机位姿估计进行位姿估计对图像进行重建：首先进行特征提取，相机位姿估计使用PoseCNN，之后将输入图像分为三个任务，分别为语义分割、三维旋转回归、三维平移估计；

步骤三，采用深度估计网络进行深度估计对图像进行重建；

步骤四，计算光度重建损失

。

进一步改进在于，所述步骤一具体为：输入一组双目图片，首先对图片进行滤波，提高图像的质量；使用聚类分割算法对图像进行聚类分割；初始化种子点，按照设定的超像素个数，在图像内均匀的分配种子点；假设图片总共有 N 个像素点，预分割为 K 个相同尺寸的超像素，那么每个超像素的大小为

，则相邻种子点的距离即步长近似为

；在种子点的

邻域内重新选择种子点；在每个种子点周围的邻域内为每个像素点分配类标签；左视图聚类分割的结果记为集合L，右视图聚类分割的结果记为集合R，使用结构性相似指标对左右视图重新配对；结构相似性指标公式为

，

其中

，

是输入的图像，

为

的平均数,

为

的平均数，

为

的方差，

为

的方差，

为

和

的协方差，

和

为常数，其中

，

，

是像素值的动态范围；

L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性，若L1和R1结构相似性指标最小，即L1和R1最相似，则L1和R1组成新的双目图像对；生成的双目视觉对用集合

表示，计算光度重建损失，光度重建损失如下：

，

其中

为原图像，

为重建图像，

为超参数，计算光度重建损失的平均值

，计算当前的光度重建损失

，如果

为真，则此双目视觉对存在遮挡，直接丢弃。

进一步改进在于，所述步骤二包括提取阶段和嵌入阶段，特征提取阶段使用13个卷积层和4个最大池化层，提取高维特征；嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中；然后，执行6D姿势估计的三个不同任务：语义分割、三维旋转回归、三维平移估计。

进一步改进在于，所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入；两种特征图的分辨率分别为原始图像大小的1/8和1/16；首先使用两个卷积层将两个特征映射的通道数降低到64；然后用反卷积层将1/16特征图的分辨率提高一倍；在此基础上，对两幅特征图进行求和，再利用反卷积层将分辨率提高8倍，得到具有原始图像大小的特征图；最后，卷积层对特征映射进行操作，并生成像素的语义标记分数；在训练过程中，采用最大交叉熵损失来训练语义标记分支；在测试中，使用softmax函数计算像素的类概率。

进一步改进在于，所述步骤二三维平移估计即估计目标对象到相机镜头中心的距离，三维平移

是相机坐标系中对象原点的坐标；假设T在图像上的投影是

，根据假设针孔相机的以下投影方程来恢复

和

，公式如下：

，

是相机的焦距，

是像素坐标系和相机坐标系的相对位移；之后使用Hough投票层，在像素级语义标注结果和中心回归结果中找到二维目标中心；

进一步改进在于，所述步骤二三维旋转回归使用Hough投票层预测的对象边界框，使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征；合并的特征映射被添加到一起，并输入到三个完全连接的FC层中；前两个FC层的维数为4096，最后一个FC层的维数为4×n，n为对象类的个数；对于每个类，最后一个FC层输出由四元数表示的三维旋转。

进一步改进在于，所述步骤三深度估计网络使用U-Net编码器-解码器模型结构；编码器是经过预训练的ResNet模型，深度解码器将输出转换为深度值；输入图像经过归一化处理，尺寸变为572×572，使用3×3的卷积层以及Relu激活函数提取特征，输出尺寸为570×570×64的特征，再次进行卷积以及Relu操作，进一步提取特征，输出568×568×64的特征，两次卷积、激活操作为一次编码，一共进行四次编码操作；每两次编码之间进行2×2的最大池化；解码器的操作主要为反卷积，通过反卷积恢复原来的尺度，把特征解码为深度图。

进一步改进在于，所述步骤四具体为：原图像和重建图像强制它们彼此一致来获得更好的深度；在已知深度信息和两相机位姿的条件下，图像可在两相机位姿下相互重建；输入两相机的位姿，深度图像可以在两相机的坐标系下相互转换；输入左视图、深度信息、相机位姿，可以反向重构右视图，重构的右视图和真实的右视图做结构相似性损失，以此来约束深度估计的网络；光度重建损失为

，

其中

为左视图，

为重建的右视图，最终的损失为

。

本发明使用monodepth单目深度估计的框架，本发明包含的模块有遮挡处理模块，位姿识别模块，深度估计模块。

本发明的有益效果：本发明使用的算法是深度学习算法，深度学习算法在使用前需要用数据集进行训练，算法性能的好坏取决于网络的训练。网络的训练流程为图像去噪、遮挡物体处理、位姿估计、深度估计、图像重建、计算SSIM损失函数。

本发明针对图像噪声影响网络训练的问题，在图像进入网络训练之前，进行图像去噪，提高遮挡物体的识别。针对遮挡像素识别不准确问题，使用预测的深度信息来进一步识别遮挡像素，有效去除遮挡像素。

本发明使用光度重建损失来识别遮挡，可以有效去除影响网络训练的遮挡物体。图像输入网络之前，使用聚类分割，然后使用SSIM指标重新匹配双目图像对，网络预测的图像比较单一，提高了网络估计的准确率。

本发明的遮挡处理不同于以往的遮挡处理，本发明遮挡像素的识别使用了光度重建损失。以前遮挡像素的识别使用遮挡像素的数学特征识别，数学特征识别起来很简单，但不是针对影响深度估计的遮挡。基于光度重建损失的遮挡识别，这样识别的遮挡像素都是影响深度估计的遮挡像素。

本发明不同于一般深度估计，输入深度估计网络的不是一整张图像，在输入网络之前对图像进行聚类分割，图像分为不同的区域，每个区域的像素有一定共性，降低识别图像复杂度，从而提高深度估计的推理速度以及准确率。

附图说明

图1是本发明的流程图。

图2是本发明步骤一图像预处理流程图。

图3是本发明位姿估计示意图。

图4是背景技术中心现有技术单目深度估计流程图。

具体实施方式

为了加深对本发明的理解，下面将结合实施例对本发明作进一步的详述，本实施例仅用于解释本发明，并不构成对本发明保护范围的限定。

本实施例提供一种基于超像素处理遮挡的单目深度估计方法，使用的算法是深度学习算法，深度学习算法在使用前需要用数据集进行训练，算法性能的好坏取决于网络的训练。网络的训练流程为图像去噪、遮挡物体处理、位姿估计、深度估计、图像重建、计算SSIM损失函数。

具体步骤如下：

S1，图像去噪以及生成遮挡物体掩膜

双目图像在拍摄的过程中不可避免的受到噪声的影响，噪声使损失函数的计算出现偏差。图像去噪可以使得损失函数更好收敛，同时提高深度估计的准确率。图像去噪常用的方法为空间域滤波法、变化域滤波法、偏微分方程法、形态学噪声滤除器等，图像去噪后保证图像质量，为后续操作提供便利。图像三维重建需要使用深度信息和位姿信息，遮挡物体无法使用这两种信息进行重建，需要对遮挡物体制作掩膜。掩膜的作用为剔除遮挡物体，遮挡物体对应的像素不参与深度网络的训练，减少遮挡物体对网络训练的影响。

输入一组双目图片，首先对图片进行滤波，提高图像的质量；使用聚类分割算法对图像进行聚类分割；初始化种子点，按照设定的超像素个数，在图像内均匀的分配种子点；假设图片总共有 N 个像素点，预分割为 K 个相同尺寸的超像素，那么每个超像素的大小为

，则相邻种子点的距离即步长近似为

；在种子点的

，

其中

，

是输入的图像，

为

的平均数,

为

的平均数，

为

的方差，

为

的方差，

为

和

的协方差，

和

为常数，其中

，

，

是像素值的动态范围；

表示，计算光度重建损失，光度重建损失如下：

，

其中

为原图像，

为重建图像，

为超参数，计算光度重建损失的平均值

，计算当前的光度重建损失

，如果

为真，则此双目视觉对存在遮挡，直接丢弃。

S2相机位姿估计

相机位姿估计使用PoseCNN，它将输入图像分为三个任务，分别为语义分割、三维旋转、三维平移。具体过程分为两个阶段，特征提取阶段和嵌入阶段。特征提取阶段使用13个卷积层和4个最大池化层，提取高维特征。嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中。然后，网络执行6D姿势估计的三个不同任务，即语义分割、三维平移估计和三维旋转估计。相机位姿估计算法流程如下：

语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入；两种特征图的分辨率分别为原始图像大小的1/8和1/16；首先使用两个卷积层将两个特征映射的通道数降低到64；然后用反卷积层将1/16特征图的分辨率提高一倍；在此基础上，对两幅特征图进行求和，再利用反卷积层将分辨率提高8倍，得到具有原始图像大小的特征图；最后，卷积层对特征映射进行操作，并生成像素的语义标记分数；在训练过程中，采用最大交叉熵损失来训练语义标记分支；在测试中，使用softmax函数计算像素的类概率。

三维平移估计即估计目标对象到相机镜头中心的距离，三维平移

是相机坐标系中对象原点的坐标；假设T在图像上的投影是

，根据假设针孔相机的以下投影方程来恢复

和

，公式如下：

，

是相机的焦距，

三维旋转回归使用Hough投票层预测的对象边界框，使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征；合并的特征映射被添加到一起，并输入到三个完全连接的FC层中；前两个FC层的维数为4096，最后一个FC层的维数为4×n，n为对象类的个数；对于每个类，最后一个FC层输出由四元数表示的三维旋转。

S3采用深度估计网络进行深度估计对图像进行重建

深度估计网络使用U-Net编码器-解码器模型结构；编码器是经过预训练的ResNet模型，深度解码器将输出转换为深度值；输入图像经过归一化处理，尺寸变为572×572，使用3×3的卷积层以及Relu激活函数提取特征，输出尺寸为570×570×64的特征，再次进行卷积以及Relu操作，进一步提取特征，输出568×568×64的特征，两次卷积、激活操作为一次编码，一共进行四次编码操作；每两次编码之间进行2×2的最大池化；解码器的操作主要为反卷积，通过反卷积恢复原来的尺度，把特征解码为深度图。

S4光度重建损失

原图像和重建图像强制它们彼此一致来获得更好的深度；

在已知深度信息和两相机位姿的条件下，图像可在两相机位姿下相互重建；输入两相机的位姿，深度图像可以在两相机的坐标系下相互转换；输入左视图、深度信息、相机位姿，可以反向重构右视图，重构的右视图和真实的右视图做结构相似性损失，以此来约束深度估计的网络；光度重建损失为

，

其中

为左视图，

为重建的右视图，最终的损失为

。

针对图像噪声影响网络训练的问题，在图像进入网络训练之前，进行图像去噪，提高遮挡物体的识别。针对遮挡像素识别不准确问题，使用预测的深度信息来进一步识别遮挡像素，有效去除遮挡像素。使用光度重建损失来识别遮挡，可以有效去除影响网络训练的遮挡物体。图像输入网络之前，使用聚类分割，然后使用SSIM指标重新匹配双目图像对，网络预测的图像比较单一，提高了网络估计的准确率。遮挡处理不同于以往的遮挡处理，遮挡像素的识别使用了光度重建损失。以前遮挡像素的识别使用遮挡像素的数学特征识别，数学特征识别起来很简单，但不是针对影响深度估计的遮挡。基于光度重建损失的遮挡识别，这样识别的遮挡像素都是影响深度估计的遮挡像素。不同于一般深度估计，输入深度估计网络的不是一整张图像，在输入网络之前对图像进行聚类分割，图像分为不同的区域，每个区域的像素有一定共性，降低识别图像复杂度，从而提高深度估计的推理速度以及准确率。

Claims

1.一种基于超像素处理遮挡的单目深度估计方法，其特征在于，包括以下步骤：

步骤三，采用深度估计网络进行深度估计对图像进行重建；

步骤四，计算光度重建损失

。

2.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤一具体为：输入一组双目图片，首先对图片进行滤波，提高图像的质量；使用聚类分割算法对图像进行聚类分割；初始化种子点，按照设定的超像素个数，在图像内均匀的分配种子点；假设图片总共有 N 个像素点，预分割为 K 个相同尺寸的超像素，那么每个超像素的大小为

，则相邻种子点的距离即步长近似为

；在种子点的

，

其中

，

是输入的图像，

为

的平均数,

为

的平均数，

为

的方差，

为

的方差，

为

和

的协方差，

和

为常数，其中

，

，

是像素值的动态范围；

表示，计算光度重建损失，光度重建损失如下：

，

其中

为原图像，

为重建图像，

为超参数，计算光度重建损失的平均值

，计算当前的光度重建损失

，如果

为真，则此双目视觉对存在遮挡，直接丢弃。

3.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二包括提取阶段和嵌入阶段，特征提取阶段使用13个卷积层和4个最大池化层，提取高维特征；嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中；然后，执行6D姿势估计的三个不同任务：语义分割、三维旋转回归、三维平移估计。

4.如权利要求3所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入；两种特征图的分辨率分别为原始图像大小的1/8和1/16；首先使用两个卷积层将两个特征映射的通道数降低到64；然后用反卷积层将1/16特征图的分辨率提高一倍；在此基础上，对两幅特征图进行求和，再利用反卷积层将分辨率提高8倍，得到具有原始图像大小的特征图；最后，卷积层对特征映射进行操作，并生成像素的语义标记分数；在训练过程中，采用最大交叉熵损失来训练语义标记分支；在测试中，使用softmax函数计算像素的类概率。

5.如权利要求4所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二三维平移估计即估计目标对象到相机镜头中心的距离，三维平移

是相机坐标系中对象原点的坐标；假设T在图像上的投影是

，根据假设针孔相机的以下投影方程来恢复

和

，公式如下：

，

是相机的焦距，

是像素坐标系和相机坐标系的相对位移；之后使用Hough投票层，在像素级语义标注结果和中心回归结果中找到二维目标中心。

6.如权利要求5所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤二三维旋转回归使用Hough投票层预测的对象边界框，使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征；合并的特征映射被添加到一起，并输入到三个完全连接的FC层中；前两个FC层的维数为4096，最后一个FC层的维数为4×n，n为对象类的个数；对于每个类，最后一个FC层输出由四元数表示的三维旋转。

7.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤三深度估计网络使用U-Net编码器-解码器模型结构；编码器是经过预训练的ResNet模型，深度解码器将输出转换为深度值；输入图像经过归一化处理，尺寸变为572×572，使用3×3的卷积层以及Relu激活函数提取特征，输出尺寸为570×570×64的特征，再次进行卷积以及Relu操作，进一步提取特征，输出568×568×64的特征，两次卷积、激活操作为一次编码，一共进行四次编码操作；每两次编码之间进行2×2的最大池化；解码器的操作主要为反卷积，通过反卷积恢复原来的尺度，把特征解码为深度图。

8.如权利要求1所述基于超像素处理遮挡的单目深度估计方法，其特征在于，所述步骤四具体为：原图像和重建图像强制它们彼此一致来获得更好的深度；在已知深度信息和两相机位姿的条件下，图像可在两相机位姿下相互重建；输入两相机的位姿，深度图像可以在两相机的坐标系下相互转换；输入左视图、深度信息、相机位姿，可以反向重构右视图，重构的右视图和真实的右视图做结构相似性损失，以此来约束深度估计的网络；光度重建损失为

，

其中

为左视图，

为重建的右视图，最终的损失为

。