CN115330874A - 基于超像素处理遮挡的单目深度估计方法 - Google Patents
基于超像素处理遮挡的单目深度估计方法 Download PDFInfo
- Publication number
- CN115330874A CN115330874A CN202211070202.4A CN202211070202A CN115330874A CN 115330874 A CN115330874 A CN 115330874A CN 202211070202 A CN202211070202 A CN 202211070202A CN 115330874 A CN115330874 A CN 115330874A
- Authority
- CN
- China
- Prior art keywords
- image
- estimation
- depth
- dimensional
- depth estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012545 processing Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000013519 translation Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011084 recovery Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 4
- 230000036544 posture Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30244—Camera pose
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
Abstract
本发明提供一种基于超像素处理遮挡的单目深度估计方法,属于计算机视觉领域,步骤一,图像预处理:对输入的双目图片进行图像去噪以及生成遮挡物体掩膜;步骤二,采用相机位姿估计进行位姿估计对图像进行重建:首先进行特征提取,相机位姿估计使用PoseCNN,之后将输入图像分为三个任务,分别为语义分割、三维旋转回归、三维平移估计;步骤三,采用深度估计网络进行深度估计对图像进行重建;步骤四,计算光度重建损失。使用光度重建损失来识别遮挡,可以有效去除影响网络训练的遮挡物体;图像输入网络之前,使用聚类分割,然后使用SSIM指标重新匹配双目图像对,网络预测的图像比较单一,提高了网络估计的准确率。
Description
技术领域
本发明涉及涉及计算机视觉领域,尤其涉及一种基于超像素处理遮挡的单目深度估计方法。
背景技术
深度估计是计算机视觉领域的一个基础性问题,其可以应用在机器人导航、增强现实、三维重建、自动驾驶等领域。而目前大部分深度估计都是基于二维RGB图像到RBG-D图像的转化估计,主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的Shape from X方法,还有结合SFM和SLAM等方式预测相机位姿的算法。有很多用于获取深度信息的设备,但是设备造价昂贵。单目深度估计之外还有双目进行深度估计,双目图像需要利用立体匹配进行像素点对应和视差计算,计算复杂度大,尤其是对于低纹理场景的匹配效果不好。单目深度估计相较于双目深度估计成本更低,更容易普及。
单目深度估计分为监督算法和无监督算法。监督算法需要地面真值作为约束,监督算法的发展受到数据集的限制。无监督算法,在不使用深度真值的条件下,构造约束条件。深度数据的获取难度较高,目前大量算法都是基于无监督模型的。使用两个摄像机采集的双目图像数据进行联合训练。双目数据通过重建算法可彼此预测,从而获得相应的视差数据,再根据视差与深度的关系进行计算。另一种算法是将双目图像中各个像素点的对应问题看作是立体匹配问题进行训练。
基于光度重建损失的深度估计算法中,遮挡物体的存在使图像重建产生错误,遮挡像素的处理一般使用掩膜,掩膜对遮挡物体的识别存在不准确的情况;由于噪声存在,遮挡物体存在识别错误的情况;掩膜对遮挡像素的识别存在漏检、错检的情况。
发明内容
为解决上述问题,本发明提供一种基于超像素处理遮挡的单目深度估计方法,包括以下步骤:
步骤一,图像预处理:输入一组双目图片,对双目图片进行图像去噪,使用深度图生成遮挡物体掩膜;
步骤二,采用相机位姿估计进行位姿估计对图像进行重建:首先进行特征提取,相机位姿估计使用PoseCNN,之后将输入图像分为三个任务,分别为语义分割、三维旋转回归、三维平移估计;
步骤三,采用深度估计网络进行深度估计对图像进行重建;
进一步改进在于,所述步骤一具体为:输入一组双目图片,首先对图片进行滤波,提高图像的质量;使用聚类分割算法对图像进行聚类分割;初始化种子点,按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有 N 个像素点,预分割为 K 个相同尺寸的超像素,那么每个超像素的大小为 ,则相邻种子点的距离即步长近似为;在种子点的邻域内重新选择种子点;在每个种子点周围的邻域内为每个像素点分配类标签;左视图聚类分割的结果记为集合L,右视图聚类分割的结果记为集合R,使用结构性相似指标对左右视图重新配对;结构相似性指标公式为
L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性,若L1和R1结构相似性指标最小,即L1和R1最相似,则L1和R1组成新的双目图像对;生成的双目视觉对用集合表示,计算光度重建损失,光度重建损失如下:
进一步改进在于,所述步骤二包括提取阶段和嵌入阶段,特征提取阶段使用13个卷积层和4个最大池化层,提取高维特征;嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中;然后,执行6D姿势估计的三个不同任务:语义分割、三维旋转回归、三维平移估计。
进一步改进在于,所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入;两种特征图的分辨率分别为原始图像大小的1/8和1/16;首先使用两个卷积层将两个特征映射的通道数降低到64;然后用反卷积层将1/16特征图的分辨率提高一倍;在此基础上,对两幅特征图进行求和,再利用反卷积层将分辨率提高8倍,得到具有原始图像大小的特征图;最后,卷积层对特征映射进行操作,并生成像素的语义标记分数;在训练过程中,采用最大交叉熵损失来训练语义标记分支;在测试中,使用softmax函数计算像素的类概率。
进一步改进在于,所述步骤二三维旋转回归使用Hough投票层预测的对象边界框,使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征;合并的特征映射被添加到一起,并输入到三个完全连接的FC层中;前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数;对于每个类,最后一个FC层输出由四元数表示的三维旋转。
进一步改进在于,所述步骤三深度估计网络使用U-Net编码器-解码器模型结构;编码器是经过预训练的ResNet模型,深度解码器将输出转换为深度值;输入图像经过归一化处理,尺寸变为572×572,使用3×3的卷积层以及Relu激活函数提取特征,输出尺寸为570×570×64的特征,再次进行卷积以及Relu操作,进一步提取特征,输出568×568×64的特征,两次卷积、激活操作为一次编码,一共进行四次编码操作;每两次编码之间进行2×2的最大池化;解码器的操作主要为反卷积,通过反卷积恢复原来的尺度,把特征解码为深度图。
进一步改进在于,所述步骤四具体为:原图像和重建图像强制它们彼此一致来获得更好的深度;在已知深度信息和两相机位姿的条件下,图像可在两相机位姿下相互重建;输入两相机的位姿,深度图像可以在两相机的坐标系下相互转换;输入左视图、深度信息、相机位姿,可以反向重构右视图,重构的右视图和真实的右视图做结构相似性损失,以此来约束深度估计的网络;光度重建损失为
本发明使用monodepth单目深度估计的框架,本发明包含的模块有遮挡处理模块,位姿识别模块,深度估计模块。
本发明的有益效果:本发明使用的算法是深度学习算法,深度学习算法在使用前需要用数据集进行训练,算法性能的好坏取决于网络的训练。网络的训练流程为图像去噪、遮挡物体处理、位姿估计、深度估计、图像重建、计算SSIM损失函数。
本发明针对图像噪声影响网络训练的问题,在图像进入网络训练之前,进行图像去噪,提高遮挡物体的识别。针对遮挡像素识别不准确问题,使用预测的深度信息来进一步识别遮挡像素,有效去除遮挡像素。
本发明使用光度重建损失来识别遮挡,可以有效去除影响网络训练的遮挡物体。图像输入网络之前,使用聚类分割,然后使用SSIM指标重新匹配双目图像对,网络预测的图像比较单一,提高了网络估计的准确率。
本发明的遮挡处理不同于以往的遮挡处理,本发明遮挡像素的识别使用了光度重建损失。以前遮挡像素的识别使用遮挡像素的数学特征识别,数学特征识别起来很简单,但不是针对影响深度估计的遮挡。基于光度重建损失的遮挡识别,这样识别的遮挡像素都是影响深度估计的遮挡像素。
本发明不同于一般深度估计,输入深度估计网络的不是一整张图像,在输入网络之前对图像进行聚类分割,图像分为不同的区域,每个区域的像素有一定共性,降低识别图像复杂度,从而提高深度估计的推理速度以及准确率。
附图说明
图1是本发明的流程图。
图2是本发明步骤一图像预处理流程图。
图3是本发明位姿估计示意图。
图4是背景技术中心现有技术单目深度估计流程图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例对本发明作进一步的详述,本实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
本实施例提供一种基于超像素处理遮挡的单目深度估计方法,使用的算法是深度学习算法,深度学习算法在使用前需要用数据集进行训练,算法性能的好坏取决于网络的训练。网络的训练流程为图像去噪、遮挡物体处理、位姿估计、深度估计、图像重建、计算SSIM损失函数。
具体步骤如下:
S1,图像去噪以及生成遮挡物体掩膜
双目图像在拍摄的过程中不可避免的受到噪声的影响,噪声使损失函数的计算出现偏差。图像去噪可以使得损失函数更好收敛,同时提高深度估计的准确率。图像去噪常用的方法为空间域滤波法、变化域滤波法、偏微分方程法、形态学噪声滤除器等,图像去噪后保证图像质量,为后续操作提供便利。图像三维重建需要使用深度信息和位姿信息,遮挡物体无法使用这两种信息进行重建,需要对遮挡物体制作掩膜。掩膜的作用为剔除遮挡物体,遮挡物体对应的像素不参与深度网络的训练,减少遮挡物体对网络训练的影响。
输入一组双目图片,首先对图片进行滤波,提高图像的质量;使用聚类分割算法对图像进行聚类分割;初始化种子点,按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有 N 个像素点,预分割为 K 个相同尺寸的超像素,那么每个超像素的大小为 ,则相邻种子点的距离即步长近似为;在种子点的邻域内重新选择种子点;在每个种子点周围的邻域内为每个像素点分配类标签;左视图聚类分割的结果记为集合L,右视图聚类分割的结果记为集合R,使用结构性相似指标对左右视图重新配对;结构相似性指标公式为
L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性,若L1和R1结构相似性指标最小,即L1和R1最相似,则L1和R1组成新的双目图像对;生成的双目视觉对用集合表示,计算光度重建损失,光度重建损失如下:
S2相机位姿估计
相机位姿估计使用PoseCNN,它将输入图像分为三个任务,分别为语义分割、三维旋转、三维平移。具体过程分为两个阶段,特征提取阶段和嵌入阶段。特征提取阶段使用13个卷积层和4个最大池化层,提取高维特征。嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中。然后,网络执行6D姿势估计的三个不同任务,即语义分割、三维平移估计和三维旋转估计。相机位姿估计算法流程如下:
语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入;两种特征图的分辨率分别为原始图像大小的1/8和1/16;首先使用两个卷积层将两个特征映射的通道数降低到64;然后用反卷积层将1/16特征图的分辨率提高一倍;在此基础上,对两幅特征图进行求和,再利用反卷积层将分辨率提高8倍,得到具有原始图像大小的特征图;最后,卷积层对特征映射进行操作,并生成像素的语义标记分数;在训练过程中,采用最大交叉熵损失来训练语义标记分支;在测试中,使用softmax函数计算像素的类概率。
三维旋转回归使用Hough投票层预测的对象边界框,使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征;合并的特征映射被添加到一起,并输入到三个完全连接的FC层中;前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数;对于每个类,最后一个FC层输出由四元数表示的三维旋转。
S3采用深度估计网络进行深度估计对图像进行重建
深度估计网络使用U-Net编码器-解码器模型结构;编码器是经过预训练的ResNet模型,深度解码器将输出转换为深度值;输入图像经过归一化处理,尺寸变为572×572,使用3×3的卷积层以及Relu激活函数提取特征,输出尺寸为570×570×64的特征,再次进行卷积以及Relu操作,进一步提取特征,输出568×568×64的特征,两次卷积、激活操作为一次编码,一共进行四次编码操作;每两次编码之间进行2×2的最大池化;解码器的操作主要为反卷积,通过反卷积恢复原来的尺度,把特征解码为深度图。
S4光度重建损失
原图像和重建图像强制它们彼此一致来获得更好的深度;
在已知深度信息和两相机位姿的条件下,图像可在两相机位姿下相互重建;输入两相机的位姿,深度图像可以在两相机的坐标系下相互转换;输入左视图、深度信息、相机位姿,可以反向重构右视图,重构的右视图和真实的右视图做结构相似性损失,以此来约束深度估计的网络;光度重建损失为
本发明使用monodepth单目深度估计的框架,本发明包含的模块有遮挡处理模块,位姿识别模块,深度估计模块。
针对图像噪声影响网络训练的问题,在图像进入网络训练之前,进行图像去噪,提高遮挡物体的识别。针对遮挡像素识别不准确问题,使用预测的深度信息来进一步识别遮挡像素,有效去除遮挡像素。使用光度重建损失来识别遮挡,可以有效去除影响网络训练的遮挡物体。图像输入网络之前,使用聚类分割,然后使用SSIM指标重新匹配双目图像对,网络预测的图像比较单一,提高了网络估计的准确率。遮挡处理不同于以往的遮挡处理,遮挡像素的识别使用了光度重建损失。以前遮挡像素的识别使用遮挡像素的数学特征识别,数学特征识别起来很简单,但不是针对影响深度估计的遮挡。基于光度重建损失的遮挡识别,这样识别的遮挡像素都是影响深度估计的遮挡像素。不同于一般深度估计,输入深度估计网络的不是一整张图像,在输入网络之前对图像进行聚类分割,图像分为不同的区域,每个区域的像素有一定共性,降低识别图像复杂度,从而提高深度估计的推理速度以及准确率。
Claims (8)
2.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤一具体为:输入一组双目图片,首先对图片进行滤波,提高图像的质量;使用聚类分割算法对图像进行聚类分割;初始化种子点,按照设定的超像素个数,在图像内均匀的分配种子点;假设图片总共有 N 个像素点,预分割为 K 个相同尺寸的超像素,那么每个超像素的大小为 ,则相邻种子点的距离即步长近似为;在种子点的邻域内重新选择种子点;在每个种子点周围的邻域内为每个像素点分配类标签;左视图聚类分割的结果记为集合L,右视图聚类分割的结果记为集合R,使用结构性相似指标对左右视图重新配对;结构相似性指标公式为
L中的元素为L1,L2,L3...,R中的元素为R1,R2,R3...,L1与R中的所有元素计算结构相似性,若L1和R1结构相似性指标最小,即L1和R1最相似,则L1和R1组成新的双目图像对;生成的双目视觉对用集合表示,计算光度重建损失,光度重建损失如下:
3.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二包括提取阶段和嵌入阶段,特征提取阶段使用13个卷积层和4个最大池化层,提取高维特征;嵌入阶段是将第一阶段生成的高维特征映射嵌入到低维、特定于任务的特征中;然后,执行6D姿势估计的三个不同任务:语义分割、三维旋转回归、三维平移估计。
4.如权利要求3所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二语义分割是将特征提取阶段生成的通道尺寸为512的两个特征映射作为输入;两种特征图的分辨率分别为原始图像大小的1/8和1/16;首先使用两个卷积层将两个特征映射的通道数降低到64;然后用反卷积层将1/16特征图的分辨率提高一倍;在此基础上,对两幅特征图进行求和,再利用反卷积层将分辨率提高8倍,得到具有原始图像大小的特征图;最后,卷积层对特征映射进行操作,并生成像素的语义标记分数;在训练过程中,采用最大交叉熵损失来训练语义标记分支;在测试中,使用softmax函数计算像素的类概率。
6.如权利要求5所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤二三维旋转回归使用Hough投票层预测的对象边界框,使用两个RoI池层裁剪和汇集第一阶段生成的视觉特征;合并的特征映射被添加到一起,并输入到三个完全连接的FC层中;前两个FC层的维数为4096,最后一个FC层的维数为4×n,n为对象类的个数;对于每个类,最后一个FC层输出由四元数表示的三维旋转。
7.如权利要求1所述基于超像素处理遮挡的单目深度估计方法,其特征在于,所述步骤三深度估计网络使用U-Net编码器-解码器模型结构; 编码器是经过预训练的ResNet模型,深度解码器将输出转换为深度值;输入图像经过归一化处理,尺寸变为572×572,使用3×3的卷积层以及Relu激活函数提取特征,输出尺寸为570×570×64的特征,再次进行卷积以及Relu操作,进一步提取特征,输出568×568×64的特征,两次卷积、激活操作为一次编码,一共进行四次编码操作;每两次编码之间进行2×2的最大池化;解码器的操作主要为反卷积,通过反卷积恢复原来的尺度,把特征解码为深度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070202.4A CN115330874B (zh) | 2022-09-02 | 2022-09-02 | 基于超像素处理遮挡的单目深度估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211070202.4A CN115330874B (zh) | 2022-09-02 | 2022-09-02 | 基于超像素处理遮挡的单目深度估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115330874A true CN115330874A (zh) | 2022-11-11 |
CN115330874B CN115330874B (zh) | 2023-05-16 |
Family
ID=83929822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211070202.4A Active CN115330874B (zh) | 2022-09-02 | 2022-09-02 | 基于超像素处理遮挡的单目深度估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115330874B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993947A (zh) * | 2023-09-26 | 2023-11-03 | 光谷技术有限公司 | 一种三维场景可视化展示方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180231871A1 (en) * | 2016-06-27 | 2018-08-16 | Zhejiang Gongshang University | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF |
CN113450410A (zh) * | 2021-06-29 | 2021-09-28 | 浙江大学 | 一种基于对极几何的单目深度和位姿联合估计方法 |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN114022527A (zh) * | 2021-10-20 | 2022-02-08 | 华中科技大学 | 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 |
-
2022
- 2022-09-02 CN CN202211070202.4A patent/CN115330874B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180231871A1 (en) * | 2016-06-27 | 2018-08-16 | Zhejiang Gongshang University | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF |
US20210390723A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Monocular unsupervised depth estimation method based on contextual attention mechanism |
CN113450410A (zh) * | 2021-06-29 | 2021-09-28 | 浙江大学 | 一种基于对极几何的单目深度和位姿联合估计方法 |
CN114022527A (zh) * | 2021-10-20 | 2022-02-08 | 华中科技大学 | 基于无监督学习的单目内窥镜深度及位姿估计方法及装置 |
Non-Patent Citations (2)
Title |
---|
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报 * |
马成齐 等: "抗遮挡的单目深度估计算法" * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116993947A (zh) * | 2023-09-26 | 2023-11-03 | 光谷技术有限公司 | 一种三维场景可视化展示方法及系统 |
CN116993947B (zh) * | 2023-09-26 | 2023-12-12 | 光谷技术有限公司 | 一种三维场景可视化展示方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115330874B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Multi-view deep learning for consistent semantic mapping with rgb-d cameras | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
CN106910242B (zh) | 基于深度相机进行室内完整场景三维重建的方法及系统 | |
CN113330490A (zh) | 三维(3d)辅助个性化家庭对象检测 | |
CN112766160A (zh) | 基于多级属性编码器和注意力机制的人脸替换方法 | |
CN109685045B (zh) | 一种运动目标视频跟踪方法及系统 | |
CN110766024B (zh) | 基于深度学习的视觉里程计特征点提取方法及视觉里程计 | |
CN113298934B (zh) | 一种基于双向匹配的单目视觉图像三维重建方法及系统 | |
CN112419497A (zh) | 基于单目视觉的特征法与直接法相融合的slam方法 | |
Chen et al. | A full density stereo matching system based on the combination of CNNs and slanted-planes | |
CN113674400A (zh) | 基于重定位技术的光谱三维重建方法、系统及存储介质 | |
Ubina et al. | Intelligent underwater stereo camera design for fish metric estimation using reliable object matching | |
CN115393519A (zh) | 一种基于红外可见光融合图像的三维重构方法 | |
Abd Manap et al. | Disparity refinement based on depth image layers separation for stereo matching algorithms | |
Li et al. | Deep learning based monocular depth prediction: Datasets, methods and applications | |
CN115330874B (zh) | 基于超像素处理遮挡的单目深度估计方法 | |
CN112329662B (zh) | 基于无监督学习的多视角显著性估计方法 | |
Jia et al. | Multi-scale cost volumes cascade network for stereo matching | |
Nouduri et al. | Deep realistic novel view generation for city-scale aerial images | |
Shibata et al. | Unified image fusion framework with learning-based application-adaptive importance measure | |
Qin et al. | Structured-patch optimization for dense correspondence | |
Salih et al. | Depth estimation using monocular cues from single image | |
Wang et al. | RGB-guided depth map recovery by two-stage coarse-to-fine dense CRF models | |
Schneider | Visual hull | |
CN114463334A (zh) | 一种基于语义分割的内腔视觉slam方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |