CN115330874A - 基于超像素处理遮挡的单目深度估计方法 - Google Patents

基于超像素处理遮挡的单目深度估计方法 Download PDF

Info

Publication number
CN115330874A
CN115330874A CN202211070202.4A CN202211070202A CN115330874A CN 115330874 A CN115330874 A CN 115330874A CN 202211070202 A CN202211070202 A CN 202211070202A CN 115330874 A CN115330874 A CN 115330874A
Authority
CN
China
Prior art keywords
image
estimation
depth
dimensional
depth estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211070202.4A
Other languages
English (en)
Other versions
CN115330874B (zh
Inventor
程德强
张晖敏
寇旗旗
王晓艺
徐飞翔
韩成功
刘敬敬
杨小冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202211070202.4A priority Critical patent/CN115330874B/zh
Publication of CN115330874A publication Critical patent/CN115330874A/zh
Application granted granted Critical
Publication of CN115330874B publication Critical patent/CN115330874B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)

Abstract

本发明提供一种基于超像素处理遮挡的单目深度估计方法,属于计算机视觉领域,步骤一,图像预处理:对输入的双目图片进行图像去噪以及生成遮挡物体掩膜;步骤二,采用相机位姿估计进行位姿估计对图像进行重建:首先进行特征提取,相机位姿估计使用PoseCNN,之后将输入图像分为三个任务,分别为语义分割、三维旋转回归、三维平移估计;步骤三,采用深度估计网络进行深度估计对图像进行重建;步骤四,计算光度重建损失。使用光度重建损失来识别遮挡,可以有效去除影响网络训练的遮挡物体;图像输入网络之前,使用聚类分割,然后使用SSIM指标重新匹配双目图像对,网络预测的图像比较单一,提高了网络估计的准确率。

Description

基于超像素处理遮挡的单目深度估计方法
技术领域
本发明涉及涉及计算机视觉领域,尤其涉及一种基于超像素处理遮挡的单目深度估计方法。
背景技术
深度估计是计算机视觉领域的一个基础性问题,其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。而目前大部分深度估计都是基于二维RGB图像到RBG-D图像的转化估计,主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的Shape from X方法,还有结合SFM和SLAM等方式预测相机位姿的算法。有很多用于获取深度信息的设备,但是设备造价昂贵。单目深度估计之外还有双目进行深度估计,双目图像需要利用立体匹配进行像素点对应和视差计算,计算复杂度大,尤其是对于低纹理场景的匹配效果不好。单目深度估计相较于双目深度估计成本更低,更容易普及。
单目深度估计分为监督算法和无监督算法。监督算法需要地面真值作为约束,监督算法的发展受到数据集的限制。无监督算法,在不使用深度真值的条件下,构造约束条件。深度数据的获取难度较高,目前大量算法都是基于无监督模型的。使用两个摄像机采集的双目图像数据进行联合训练。双目数据通过重建算法可彼此预测,从而获得相应的视差数据,再根据视差与深度的关系进行计算。另一种算法是将双目图像中各个像素点的对应问题看作是立体匹配问题进行训练。
基于光度重建损失的深度估计算法中,遮挡物体的存在使图像重建产生错误,遮挡像素的处理一般使用掩膜,掩膜对遮挡物体的识别存在不准确的情况;由于噪声存在,遮挡物体存在识别错误的情况;掩膜对遮挡像素的识别存在漏检、错检的情况。
发明内容
为解决上述问题,本发明提供一种基于超像素处理遮挡的单目深度估计方法,包括以下步骤:
步骤一,图像预处理:输入一组双目图片,对双目图片进行图像去噪,使用深度图生成遮挡物体掩膜;
步骤二,采用相机位姿估计进行位姿估计对图像进行重建:首先进行特征提取,相机位姿估计使用PoseCNN,之后将输入图像分为三个任务,分别为语义分割、三维旋转回归、三维平移估计;
步骤三,采用深度估计网络进行深度估计对图像进行重建;
步骤四,计算光度重建损失
Figure DEST_PATH_IMAGE002
进一步改进在于,所述步骤一具体为:输入一组双目图片,首先对图片进行滤波,提高图像的质量;使用聚类分割算法对图像进行聚类分割;初始化种子点,按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有 N 个像素点,预分割为 K 个相同尺寸的超像素,那么每个超像素的大小为
Figure DEST_PATH_IMAGE004
,则相邻种子点的距离即步长近似为
Figure DEST_PATH_IMAGE006
;在种子点的
Figure DEST_PATH_IMAGE008
邻域内重新选择种子点;在每个种子点周围的邻域内为每个像素点分配类标签;左视图聚类分割的结果记为集合L,右视图聚类分割的结果记为集合R,使用结构性相似指标对左右视图重新配对;结构相似性指标公式为
Figure DEST_PATH_IMAGE010
其中
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
是输入的图像,
Figure DEST_PATH_IMAGE016
Figure 611355DEST_PATH_IMAGE012
的平均数,
Figure DEST_PATH_IMAGE018
Figure 59654DEST_PATH_IMAGE014
的平均数,
Figure DEST_PATH_IMAGE020
Figure 964025DEST_PATH_IMAGE012
的方差,
Figure DEST_PATH_IMAGE022
Figure 749447DEST_PATH_IMAGE014
的方差,
Figure DEST_PATH_IMAGE024
Figure 688453DEST_PATH_IMAGE012
Figure 573233DEST_PATH_IMAGE014
的协方差,
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
为常数,其中
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
是像素值的动态范围;
L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性,若L1和R1结构相似性指标最小,即L1和R1最相似,则L1和R1组成新的双目图像对;生成的双目视觉对用集合
Figure DEST_PATH_IMAGE036
表示,计算光度重建损失,光度重建损失如下:
Figure DEST_PATH_IMAGE038
其中
Figure DEST_PATH_IMAGE040
为原图像,
Figure DEST_PATH_IMAGE042
为重建图像,
Figure DEST_PATH_IMAGE044
为超参数,计算光度重建损失的平均值
Figure DEST_PATH_IMAGE046
,计算当前的光度重建损失
Figure DEST_PATH_IMAGE048
,如果
Figure DEST_PATH_IMAGE050
为真,则此双目视觉对存在遮挡,直接丢弃。
进一步改进在于,所述步骤二包括提取阶段和嵌入阶段,特征提取阶段使用13个卷积层和4个最大池化层,提取高维特征;嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中;然后,执行6D姿势估计的三个不同任务:语义分割、三维旋转回归、三维平移估计。
进一步改进在于,所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入;两种特征图的分辨率分别为原始图像大小的1/8和1/16;首先使用两个卷积层将两个特征映射的通道数降低到64;然后用反卷积层将1/16特征图的分辨率提高一倍;在此基础上,对两幅特征图进行求和,再利用反卷积层将分辨率提高8倍,得到具有原始图像大小的特征图;最后,卷积层对特征映射进行操作,并生成像素的语义标记分数;在训练过程中,采用最大交叉熵损失来训练语义标记分支;在测试中,使用softmax函数计算像素的类概率。
进一步改进在于,所述步骤二三维平移估计即估计目标对象到相机镜头中心的距离,三维平移
Figure DEST_PATH_IMAGE052
是相机坐标系中对象原点的坐标;假设T在图像上的投影是
Figure DEST_PATH_IMAGE054
,根据假设针孔相机的以下投影方程来恢复
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE058
,公式如下:
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
是相机的焦距,
Figure DEST_PATH_IMAGE064
是像素坐标系和相机坐标系的相对位移;之后使用Hough投票层,在像素级语义标注结果和中心回归结果中找到二维目标中心;
进一步改进在于,所述步骤二三维旋转回归使用Hough投票层预测的对象边界框,使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征;合并的特征映射被添加到一起,并输入到三个完全连接的FC层中;前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数;对于每个类,最后一个FC层输出由四元数表示的三维旋转。
进一步改进在于,所述步骤三深度估计网络使用U-Net编码器-解码器模型结构;编码器是经过预训练的ResNet模型,深度解码器将输出转换为深度值;输入图像经过归一化处理,尺寸变为572×572,使用3×3的卷积层以及Relu激活函数提取特征,输出尺寸为570×570×64的特征,再次进行卷积以及Relu操作,进一步提取特征,输出568×568×64的特征,两次卷积、激活操作为一次编码,一共进行四次编码操作;每两次编码之间进行2×2的最大池化;解码器的操作主要为反卷积,通过反卷积恢复原来的尺度,把特征解码为深度图。
进一步改进在于,所述步骤四具体为:原图像和重建图像强制它们彼此一致来获得更好的深度;在已知深度信息和两相机位姿的条件下,图像可在两相机位姿下相互重建;输入两相机的位姿,深度图像可以在两相机的坐标系下相互转换;输入左视图、深度信息、相机位姿,可以反向重构右视图,重构的右视图和真实的右视图做结构相似性损失,以此来约束深度估计的网络;光度重建损失为
Figure DEST_PATH_IMAGE066
其中
Figure DEST_PATH_IMAGE068
为左视图,
Figure DEST_PATH_IMAGE070
为重建的右视图,最终的损失为
Figure DEST_PATH_IMAGE072
本发明使用monodepth单目深度估计的框架,本发明包含的模块有遮挡处理模块,位姿识别模块,深度估计模块。
本发明的有益效果:本发明使用的算法是深度学习算法,深度学习算法在使用前需要用数据集进行训练,算法性能的好坏取决于网络的训练。网络的训练流程为图像去噪、遮挡物体处理、位姿估计、深度估计、图像重建、计算SSIM损失函数。
本发明针对图像噪声影响网络训练的问题,在图像进入网络训练之前,进行图像去噪,提高遮挡物体的识别。针对遮挡像素识别不准确问题,使用预测的深度信息来进一步识别遮挡像素,有效去除遮挡像素。
本发明使用光度重建损失来识别遮挡,可以有效去除影响网络训练的遮挡物体。图像输入网络之前,使用聚类分割,然后使用SSIM指标重新匹配双目图像对,网络预测的图像比较单一,提高了网络估计的准确率。
本发明的遮挡处理不同于以往的遮挡处理,本发明遮挡像素的识别使用了光度重建损失。以前遮挡像素的识别使用遮挡像素的数学特征识别,数学特征识别起来很简单,但不是针对影响深度估计的遮挡。基于光度重建损失的遮挡识别,这样识别的遮挡像素都是影响深度估计的遮挡像素。
本发明不同于一般深度估计,输入深度估计网络的不是一整张图像,在输入网络之前对图像进行聚类分割,图像分为不同的区域,每个区域的像素有一定共性,降低识别图像复杂度,从而提高深度估计的推理速度以及准确率。
附图说明
图1是本发明的流程图。
图2是本发明步骤一图像预处理流程图。
图3是本发明位姿估计示意图。
图4是背景技术中心现有技术单目深度估计流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明作进一步的详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
本实施例提供一种基于超像素处理遮挡的单目深度估计方法,使用的算法是深度学习算法,深度学习算法在使用前需要用数据集进行训练,算法性能的好坏取决于网络的训练。网络的训练流程为图像去噪、遮挡物体处理、位姿估计、深度估计、图像重建、计算SSIM损失函数。
具体步骤如下:
S1,图像去噪以及生成遮挡物体掩膜
双目图像在拍摄的过程中不可避免的受到噪声的影响,噪声使损失函数的计算出现偏差。图像去噪可以使得损失函数更好收敛,同时提高深度估计的准确率。图像去噪常用的方法为空间域滤波法、变化域滤波法、偏微分方程法、形态学噪声滤除器等,图像去噪后保证图像质量,为后续操作提供便利。图像三维重建需要使用深度信息和位姿信息,遮挡物体无法使用这两种信息进行重建,需要对遮挡物体制作掩膜。掩膜的作用为剔除遮挡物体,遮挡物体对应的像素不参与深度网络的训练,减少遮挡物体对网络训练的影响。
输入一组双目图片,首先对图片进行滤波,提高图像的质量;使用聚类分割算法对图像进行聚类分割;初始化种子点,按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有 N 个像素点,预分割为 K 个相同尺寸的超像素,那么每个超像素的大小为
Figure 742396DEST_PATH_IMAGE004
,则相邻种子点的距离即步长近似为
Figure 3613DEST_PATH_IMAGE006
;在种子点的
Figure 388DEST_PATH_IMAGE008
邻域内重新选择种子点;在每个种子点周围的邻域内为每个像素点分配类标签;左视图聚类分割的结果记为集合L,右视图聚类分割的结果记为集合R,使用结构性相似指标对左右视图重新配对;结构相似性指标公式为
Figure 321648DEST_PATH_IMAGE010
其中
Figure 403873DEST_PATH_IMAGE012
Figure 609727DEST_PATH_IMAGE014
是输入的图像,
Figure 461008DEST_PATH_IMAGE016
Figure 953169DEST_PATH_IMAGE012
的平均数,
Figure 522691DEST_PATH_IMAGE018
Figure 860131DEST_PATH_IMAGE014
的平均数,
Figure 706865DEST_PATH_IMAGE020
Figure 500420DEST_PATH_IMAGE012
的方差,
Figure 26079DEST_PATH_IMAGE022
Figure 88582DEST_PATH_IMAGE014
的方差,
Figure 383297DEST_PATH_IMAGE024
Figure 482840DEST_PATH_IMAGE012
Figure 902320DEST_PATH_IMAGE014
的协方差,
Figure 378301DEST_PATH_IMAGE026
Figure 934047DEST_PATH_IMAGE028
为常数,其中
Figure 797967DEST_PATH_IMAGE030
Figure 767060DEST_PATH_IMAGE032
Figure 843469DEST_PATH_IMAGE034
是像素值的动态范围;
L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性,若L1和R1结构相似性指标最小,即L1和R1最相似,则L1和R1组成新的双目图像对;生成的双目视觉对用集合
Figure 519301DEST_PATH_IMAGE036
表示,计算光度重建损失,光度重建损失如下:
Figure 695068DEST_PATH_IMAGE038
其中
Figure 948195DEST_PATH_IMAGE040
为原图像,
Figure 314714DEST_PATH_IMAGE042
为重建图像,
Figure 32004DEST_PATH_IMAGE044
为超参数,计算光度重建损失的平均值
Figure 440988DEST_PATH_IMAGE046
,计算当前的光度重建损失
Figure 915832DEST_PATH_IMAGE048
,如果
Figure 147093DEST_PATH_IMAGE050
为真,则此双目视觉对存在遮挡,直接丢弃。
S2相机位姿估计
相机位姿估计使用PoseCNN,它将输入图像分为三个任务,分别为语义分割、三维旋转、三维平移。具体过程分为两个阶段,特征提取阶段和嵌入阶段。特征提取阶段使用13个卷积层和4个最大池化层,提取高维特征。嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中。然后,网络执行6D姿势估计的三个不同任务,即语义分割、三维平移估计和三维旋转估计。相机位姿估计算法流程如下:
语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入;两种特征图的分辨率分别为原始图像大小的1/8和1/16;首先使用两个卷积层将两个特征映射的通道数降低到64;然后用反卷积层将1/16特征图的分辨率提高一倍;在此基础上,对两幅特征图进行求和,再利用反卷积层将分辨率提高8倍,得到具有原始图像大小的特征图;最后,卷积层对特征映射进行操作,并生成像素的语义标记分数;在训练过程中,采用最大交叉熵损失来训练语义标记分支;在测试中,使用softmax函数计算像素的类概率。
三维平移估计即估计目标对象到相机镜头中心的距离,三维平移
Figure 656572DEST_PATH_IMAGE052
是相机坐标系中对象原点的坐标;假设T在图像上的投影是
Figure 439720DEST_PATH_IMAGE054
,根据假设针孔相机的以下投影方程来恢复
Figure 542805DEST_PATH_IMAGE056
Figure 436812DEST_PATH_IMAGE058
,公式如下:
Figure 331956DEST_PATH_IMAGE060
Figure 895792DEST_PATH_IMAGE062
是相机的焦距,
Figure 876386DEST_PATH_IMAGE064
是像素坐标系和相机坐标系的相对位移;之后使用Hough投票层,在像素级语义标注结果和中心回归结果中找到二维目标中心;
三维旋转回归使用Hough投票层预测的对象边界框,使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征;合并的特征映射被添加到一起,并输入到三个完全连接的FC层中;前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数;对于每个类,最后一个FC层输出由四元数表示的三维旋转。
S3采用深度估计网络进行深度估计对图像进行重建
深度估计网络使用U-Net编码器-解码器模型结构;编码器是经过预训练的ResNet模型,深度解码器将输出转换为深度值;输入图像经过归一化处理,尺寸变为572×572,使用3×3的卷积层以及Relu激活函数提取特征,输出尺寸为570×570×64的特征,再次进行卷积以及Relu操作,进一步提取特征,输出568×568×64的特征,两次卷积、激活操作为一次编码,一共进行四次编码操作;每两次编码之间进行2×2的最大池化;解码器的操作主要为反卷积,通过反卷积恢复原来的尺度,把特征解码为深度图。
S4光度重建损失
原图像和重建图像强制它们彼此一致来获得更好的深度;
在已知深度信息和两相机位姿的条件下,图像可在两相机位姿下相互重建;输入两相机的位姿,深度图像可以在两相机的坐标系下相互转换;输入左视图、深度信息、相机位姿,可以反向重构右视图,重构的右视图和真实的右视图做结构相似性损失,以此来约束深度估计的网络;光度重建损失为
Figure 574084DEST_PATH_IMAGE066
其中
Figure 933521DEST_PATH_IMAGE068
为左视图,
Figure 120789DEST_PATH_IMAGE070
为重建的右视图,最终的损失为
Figure 791942DEST_PATH_IMAGE072
本发明使用monodepth单目深度估计的框架,本发明包含的模块有遮挡处理模块,位姿识别模块,深度估计模块。
针对图像噪声影响网络训练的问题,在图像进入网络训练之前,进行图像去噪,提高遮挡物体的识别。针对遮挡像素识别不准确问题,使用预测的深度信息来进一步识别遮挡像素,有效去除遮挡像素。使用光度重建损失来识别遮挡,可以有效去除影响网络训练的遮挡物体。图像输入网络之前,使用聚类分割,然后使用SSIM指标重新匹配双目图像对,网络预测的图像比较单一,提高了网络估计的准确率。遮挡处理不同于以往的遮挡处理,遮挡像素的识别使用了光度重建损失。以前遮挡像素的识别使用遮挡像素的数学特征识别,数学特征识别起来很简单,但不是针对影响深度估计的遮挡。基于光度重建损失的遮挡识别,这样识别的遮挡像素都是影响深度估计的遮挡像素。不同于一般深度估计,输入深度估计网络的不是一整张图像,在输入网络之前对图像进行聚类分割,图像分为不同的区域,每个区域的像素有一定共性,降低识别图像复杂度,从而提高深度估计的推理速度以及准确率。

Claims (8)

1.一种基于超像素处理遮挡的单目深度估计方法,其特征在于,包括以下步骤:
步骤一,图像预处理:输入一组双目图片,对双目图片进行图像去噪,使用深度图生成遮挡物体掩膜;
步骤二,采用相机位姿估计进行位姿估计对图像进行重建:首先进行特征提取,相机位姿估计使用PoseCNN,之后将输入图像分为三个任务,分别为语义分割、三维旋转回归、三维平移估计;
步骤三,采用深度估计网络进行深度估计对图像进行重建;
步骤四,计算光度重建损失
Figure DEST_PATH_IMAGE001
2.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤一具体为:输入一组双目图片,首先对图片进行滤波,提高图像的质量;使用聚类分割算法对图像进行聚类分割;初始化种子点,按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有 N 个像素点,预分割为 K 个相同尺寸的超像素,那么每个超像素的大小为
Figure 279308DEST_PATH_IMAGE002
,则相邻种子点的距离即步长近似为
Figure DEST_PATH_IMAGE003
;在种子点的
Figure 852241DEST_PATH_IMAGE004
邻域内重新选择种子点;在每个种子点周围的邻域内为每个像素点分配类标签;左视图聚类分割的结果记为集合L,右视图聚类分割的结果记为集合R,使用结构性相似指标对左右视图重新配对;结构相似性指标公式为
Figure DEST_PATH_IMAGE005
其中
Figure 569661DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
是输入的图像,
Figure 886242DEST_PATH_IMAGE008
Figure 169456DEST_PATH_IMAGE006
的平均数,
Figure DEST_PATH_IMAGE009
Figure 904501DEST_PATH_IMAGE007
的平均数,
Figure 640376DEST_PATH_IMAGE010
Figure 291806DEST_PATH_IMAGE006
的方差,
Figure DEST_PATH_IMAGE011
Figure 632788DEST_PATH_IMAGE007
的方差,
Figure 94994DEST_PATH_IMAGE012
Figure 567432DEST_PATH_IMAGE006
Figure 773286DEST_PATH_IMAGE007
的协方差,
Figure DEST_PATH_IMAGE013
Figure 218042DEST_PATH_IMAGE014
为常数,其中
Figure DEST_PATH_IMAGE015
Figure 319991DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
是像素值的动态范围;
L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性,若L1和R1结构相似性指标最小,即L1和R1最相似,则L1和R1组成新的双目图像对;生成的双目视觉对用集合
Figure 485917DEST_PATH_IMAGE018
表示,计算光度重建损失,光度重建损失如下:
Figure DEST_PATH_IMAGE019
其中
Figure 698724DEST_PATH_IMAGE020
为原图像,
Figure DEST_PATH_IMAGE021
为重建图像,
Figure 263566DEST_PATH_IMAGE022
为超参数,计算光度重建损失的平均值
Figure DEST_PATH_IMAGE023
,计算当前的光度重建损失
Figure 520104DEST_PATH_IMAGE024
,如果
Figure DEST_PATH_IMAGE025
为真,则此双目视觉对存在遮挡,直接丢弃。
3.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二包括提取阶段和嵌入阶段,特征提取阶段使用13个卷积层和4个最大池化层,提取高维特征;嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中;然后,执行6D姿势估计的三个不同任务:语义分割、三维旋转回归、三维平移估计。
4.如权利要求3所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入;两种特征图的分辨率分别为原始图像大小的1/8和1/16;首先使用两个卷积层将两个特征映射的通道数降低到64;然后用反卷积层将1/16特征图的分辨率提高一倍;在此基础上,对两幅特征图进行求和,再利用反卷积层将分辨率提高8倍,得到具有原始图像大小的特征图;最后,卷积层对特征映射进行操作,并生成像素的语义标记分数;在训练过程中,采用最大交叉熵损失来训练语义标记分支;在测试中,使用softmax函数计算像素的类概率。
5.如权利要求4所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二三维平移估计即估计目标对象到相机镜头中心的距离,三维平移
Figure 921130DEST_PATH_IMAGE026
是相机坐标系中对象原点的坐标;假设T在图像上的投影是
Figure DEST_PATH_IMAGE027
,根据假设针孔相机的以下投影方程来恢复
Figure 921315DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
,公式如下:
Figure 356976DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
是相机的焦距,
Figure 52924DEST_PATH_IMAGE032
是像素坐标系和相机坐标系的相对位移;之后使用Hough投票层,在像素级语义标注结果和中心回归结果中找到二维目标中心。
6.如权利要求5所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二三维旋转回归使用Hough投票层预测的对象边界框,使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征;合并的特征映射被添加到一起,并输入到三个完全连接的FC层中;前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数;对于每个类,最后一个FC层输出由四元数表示的三维旋转。
7.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤三深度估计网络使用U-Net编码器-解码器模型结构; 编码器是经过预训练的ResNet模型,深度解码器将输出转换为深度值;输入图像经过归一化处理,尺寸变为572×572,使用3×3的卷积层以及Relu激活函数提取特征,输出尺寸为570×570×64的特征,再次进行卷积以及Relu操作,进一步提取特征,输出568×568×64的特征,两次卷积、激活操作为一次编码,一共进行四次编码操作;每两次编码之间进行2×2的最大池化;解码器的操作主要为反卷积,通过反卷积恢复原来的尺度,把特征解码为深度图。
8.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤四具体为:原图像和重建图像强制它们彼此一致来获得更好的深度;在已知深度信息和两相机位姿的条件下,图像可在两相机位姿下相互重建;输入两相机的位姿,深度图像可以在两相机的坐标系下相互转换;输入左视图、深度信息、相机位姿,可以反向重构右视图,重构的右视图和真实的右视图做结构相似性损失,以此来约束深度估计的网络;光度重建损失为
Figure DEST_PATH_IMAGE033
其中
Figure 924934DEST_PATH_IMAGE034
为左视图,
Figure DEST_PATH_IMAGE035
为重建的右视图,最终的损失为
Figure 479543DEST_PATH_IMAGE036
CN202211070202.4A 2022-09-02 2022-09-02 基于超像素处理遮挡的单目深度估计方法 Active CN115330874B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211070202.4A CN115330874B (zh) 2022-09-02 2022-09-02 基于超像素处理遮挡的单目深度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211070202.4A CN115330874B (zh) 2022-09-02 2022-09-02 基于超像素处理遮挡的单目深度估计方法

Publications (2)

Publication Number Publication Date
CN115330874A true CN115330874A (zh) 2022-11-11
CN115330874B CN115330874B (zh) 2023-05-16

Family

ID=83929822

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211070202.4A Active CN115330874B (zh) 2022-09-02 2022-09-02 基于超像素处理遮挡的单目深度估计方法

Country Status (1)

Country Link
CN (1) CN115330874B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993947A (zh) * 2023-09-26 2023-11-03 光谷技术有限公司 一种三维场景可视化展示方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN113450410A (zh) * 2021-06-29 2021-09-28 浙江大学 一种基于对极几何的单目深度和位姿联合估计方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN114022527A (zh) * 2021-10-20 2022-02-08 华中科技大学 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180231871A1 (en) * 2016-06-27 2018-08-16 Zhejiang Gongshang University Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113450410A (zh) * 2021-06-29 2021-09-28 浙江大学 一种基于对极几何的单目深度和位姿联合估计方法
CN114022527A (zh) * 2021-10-20 2022-02-08 华中科技大学 基于无监督学习的单目内窥镜深度及位姿估计方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报 *
马成齐 等: "抗遮挡的单目深度估计算法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116993947A (zh) * 2023-09-26 2023-11-03 光谷技术有限公司 一种三维场景可视化展示方法及系统
CN116993947B (zh) * 2023-09-26 2023-12-12 光谷技术有限公司 一种三维场景可视化展示方法及系统

Also Published As

Publication number Publication date
CN115330874B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
Ma et al. Multi-view deep learning for consistent semantic mapping with rgb-d cameras
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
CN106910242B (zh) 基于深度相机进行室内完整场景三维重建的方法及系统
CN113330490A (zh) 三维(3d)辅助个性化家庭对象检测
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN109685045B (zh) 一种运动目标视频跟踪方法及系统
CN110766024B (zh) 基于深度学习的视觉里程计特征点提取方法及视觉里程计
CN113298934B (zh) 一种基于双向匹配的单目视觉图像三维重建方法及系统
CN112419497A (zh) 基于单目视觉的特征法与直接法相融合的slam方法
Chen et al. A full density stereo matching system based on the combination of CNNs and slanted-planes
CN113674400A (zh) 基于重定位技术的光谱三维重建方法、系统及存储介质
Ubina et al. Intelligent underwater stereo camera design for fish metric estimation using reliable object matching
CN115393519A (zh) 一种基于红外可见光融合图像的三维重构方法
Abd Manap et al. Disparity refinement based on depth image layers separation for stereo matching algorithms
Li et al. Deep learning based monocular depth prediction: Datasets, methods and applications
CN115330874B (zh) 基于超像素处理遮挡的单目深度估计方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Jia et al. Multi-scale cost volumes cascade network for stereo matching
Nouduri et al. Deep realistic novel view generation for city-scale aerial images
Shibata et al. Unified image fusion framework with learning-based application-adaptive importance measure
Qin et al. Structured-patch optimization for dense correspondence
Salih et al. Depth estimation using monocular cues from single image
Wang et al. RGB-guided depth map recovery by two-stage coarse-to-fine dense CRF models
Schneider Visual hull
CN114463334A (zh) 一种基于语义分割的内腔视觉slam方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant