CN111402310A - 一种基于深度估计网络的单目图像深度估计方法及系统 - Google Patents
一种基于深度估计网络的单目图像深度估计方法及系统 Download PDFInfo
- Publication number
- CN111402310A CN111402310A CN202010132201.2A CN202010132201A CN111402310A CN 111402310 A CN111402310 A CN 111402310A CN 202010132201 A CN202010132201 A CN 202010132201A CN 111402310 A CN111402310 A CN 111402310A
- Authority
- CN
- China
- Prior art keywords
- layer
- depth
- module
- image
- estimation network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 24
- 239000004576 sand Substances 0.000 claims description 24
- 230000009191 jumping Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 77
- 238000013507 mapping Methods 0.000 description 8
- 230000008034 disappearance Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度估计网络的单目图像深度估计方法及系统,该方法具体为:构建深度估计网络,将目标图像输入训练好的深度估计网络,获得目标图像深度图;所述的训练过程中采用相机位姿估计步骤;所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,所述的解码器包括5层包含跳跃连接的解码模块。与现有技术相比,本发明具有精度高、鲁棒性强等优点。
Description
技术领域
本发明涉及计算机视觉领域,尤其是涉及一种基于深度估计网络的单目图像深度估计方法及系统。
背景技术
在计算机视觉领域,对图像进行深度估计是一项不可或缺的基本任务,在基于视觉的同时定位与建图、三维场景重建、增强现实等领域起着十分重要的作用。传统的深度估计方法通常采用多视图几何的原理,根据场景中的多个视图间的差异,通过几何约束关系建立图像间的对应像素点的关系,从而从二维图像中恢复三维场景的深度及几何形状。由于需要人为的从图像中提取相应特征,建立对应匹配关系,从而得到图像的深度信息,计算量大且复杂。而随着深度学习的迅速发展,并与各个领域相结合后呈现出巨大的潜力和商业价值。深度学习在计算机视觉领域也表现出了强大的解析与表达能力,使得从单张图像中估计深度成为可能,基于深度学习的单目图像深度估计问题也成为近年来研究者们关注的热点之一。
但是,由于图像在成像过程中丢失了部分真实三维场景的信息,导致基于二维平面图像的计算机视觉技术存在固有的缺陷。并且由于现实场景的复杂性,存在动态物体的干扰,所导致的遮挡现象,使得网络不能很好的学习图像的特征,会丢失图像的一些特征信息,使得网络预测的深度存在准确度和清晰度问题。
现有技术也给出了一些解决方案,中国专利CN201810296143.X提出了一种利用深度学习对视频序列中单目视图深度估计优化方法,包括:通过一个深度估计神经网络对单目视图L进行深度估计,得到与L相同分辨率的深度图:将单目视图L与相邻帧的单目视图L作为位姿估计网络的输入,得到两帧视图间相机的相对位姿变化,其中,位姿变化包括相对位移和旋转;步骤S3:利用L的深度图,以及单目视图L与相邻帧的单目视图L的相对位姿变化对L进行重构,得到单目视图L重构后的视图L';步骤S4:通过特定卷积神经网络VGG-16分别得到L和L'的特征图,利用特征图欧式距离上的对比及两视图像素级的误差,作为损失函数以优化深度估计神经网络和位姿估计网络,该专利避免了深度信息采集的高昂代价;
但该专利存在以下不足:
一是该专利最终获得的深度图与原视图图像分辨率相同,没有考虑图像的高维特征,使得其深度估计神经网络不能充分学习图像像素的深层特征,从而使得网络对图像上的弱纹理区域学习能力较弱;
二是该专利将特征图欧式距离上的对比以及两视图像素级的误差作为损失函数,但是没有考虑动态物体的干扰所导致的遮挡问题对网络训练的影响,而对于复杂环境来说,动态物体的干扰是不可避免的,由此导致网络训练的精度较低。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度估计网络的单目图像深度估计方法及系统。
本发明的目的可以通过以下技术方案来实现:
一种基于深度估计网络的单目图像深度估计方法,具体为:
将目标图像输入训练好的深度估计网络,获得目标图像深度图;
其中,所述的深度估计网络为U-net结构,包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,每层包含32路的残差模块融合组成。所述的解码器包括5层解码模块,每1层解码模块由上采样层和卷积层组成;
第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。
进一步地,所述的训练过程中采用相机位姿估计步骤,具体为:
建立相机位姿估计网络,采集包含若干组图像序列的训练集,每组图像序列包含1张参考图It和多张对照图Is,将图像序列输入深度估计网络获得It的深度图Dt和Is的深度图Ds,将Dt和Ds输入位姿估计网络获取It与Is的相机位姿转换关系Tt→s,根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和参考图像深度图Ds→t,根据It、Is→t、Ds和Ds→t训练深度估计网络,根据It和Ds→t训练深度估计网络,获取深度估计网络的最优的模型权重,最后将任意的目标图像输入训练后的深度估计网络来生成精确性更高的全分辨率的目标图像深度图。
进一步地,所述的相机位姿估计网络包括编码结构,包括7层卷积模块和1层卷积层,其中每层卷积模块包括1层卷积层和1层ReLU激活层。
进一步地,所述的训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
所述的一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
所述的Charbonnier惩罚函数为:
其中,∈为超参,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
其中,M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
进一步地,所述的Dt的获取过程为:
所述的It具有三通道,将It输入基于ResNeXt50模型构建的编码器,将3通道It分32个分支进行1x1、3x3和1x1的卷积操作,然后进行融合,逐步升维到64、256、512、1024和2048,学习It的不同尺度的深层抽象特征,获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图;在解码阶段,使用上采样-卷积的方式代替直接进行反卷积操作,避免了反卷积操作导致深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt。使用跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题;
所述的Ds的获取过程与Dt相同。
一种基于深度估计网络的单目图像深度估计系统,包括:
深度估计模块,用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图It的深度图Dt和对照图Is的深度图Ds;
位姿估计模块,用于建立相机位姿估计网络并利用该网络获取Dt和Ds的相机位姿转换关系Tt→s;
视图合成模块,用于根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t;
网络训练模块,用于采集包含若干组图像序列的训练集并根据It、Is→t、Ds和Ds→t训练深度估计网络,每组图像序列包含1张It和多张Is;
其中,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,由32路残差模块融合组成,所述的解码器包括5层解码模块,第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图;
所述的相机位姿估计网络包括编码结构,包括7层卷积模块和1层卷积层,其中每层卷积模块包括1层卷积层和1层ReLU激活层。
进一步地,所述的训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
所述的一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
所述的Charbonnier惩罚函数为:
其中,∈为超参,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
其中,M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
进一步地,所述的视图合成步骤具体为:根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得Is→t和Ds→t。
进一步地,所述的Dt的获取过程为:
将It输入基于ResNeXt50模型构建的编码器,所述的5层编码模块对应获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图;引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt,所述的Ds的获取过程与Dt相同。
与现有技术相比,本发明具有以如下有益效果:
(1)本发明采用U-net结构的深度估计网络,并结合相机位姿估计步骤对深度估计网络进行训练,不依赖于图像间的特征匹配来估计深度信息,精度高且成本低,深度估计网络为U-net结构,包括编码器和解码器,编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,将输入分别分配到32路个残差模块,分别在每路残差模块进行图像特征学习,最后再把所有支路的结果融合作为输出,充分学习图像特征,网络精度高,解码器包括交叉设置的5层上采样模块和5层卷积模块,所述的解码模块包含跳跃连接,解决了梯度消失问题,能够输出不同分辨率的深度图供网络训练及优化使用,使得训练后的深度估计网络的精度更高;
(2)本发明基于Charbonnier惩罚构建无监督方式的损失函数进行训练,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数,去除图像外点和噪声的干扰,提高模型的鲁棒性,输出的深度图像平滑性好,精度高;
(3)本发明通过位姿估计网络获取参考图和对照图的相机位姿转换关系,根据相机位姿转换关系和参照图深度图像中的像素点深度计算得到在对照图深度图像中相同像素点的对应信息,对对照图以及对照图深度图像进行双线性采样获得合成参考图以及合成参考图像深度图,通过构建图像间的差异作为以无监督方式训练网络的监督信号。从而避免了对场景真实深度值的获取;
(4)本发明将图像输入基于ResNeXt50模型构建的编码器,学习图像的不同尺度的深层抽象特征,获得分辨率分别为该图像分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图。在解码阶段,使用上采样加卷积的方式代替直接进行反卷积操作,避免了反卷积操作导致深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为原图像分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立图像与该图像深度图的映射关系,输出4种不同分辨率的图像深度图,跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题,整体使得深度估计网络输出的深度图像精度高。
附图说明
图1为深度估计网络结构图;
图2为本发明的方法流程图;
图3为单个残差块结构图;
图4为每层编码模块结构图;
图5为目标图像;
图6为目标图像深度图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例一
一种基于深度估计网络的单目图像深度估计方法,如图2,具体为:
采集公开数据集KITTI并对其进行并对进行预处理和数据增强操作,生成包含多个图像序列<I1,I2,…,IN>的训练集,每组图像序列包含1张参考图It和多张对照图Is(1≤s≤N,s≠t);
构建基于U-net结构的深度估计网络包括编码器和解码器,编码器基于ResNeXt50模型构建,对输入的图像升维以提取图像高维度特征,其网络框架如表1:
表1编码器框架表
其中,layer为卷积层数,Conv为卷积层,input为输入图像,Kernel代表卷积核,stride代表步长,C代表通道,chns代表输入输出通道数,output代表卷积层输出,max pool为最大池化层,如图3和图4,输入分辨率为192×640×3的单目图像,依次经过5个基于ResNext50模型的编码模块,并得到通道数分别为64、256、512、1024和2048的1/2、1/4、1/8和1/16分辨率的图像特征图。
通过解码器对特征图降维,建立特征图与深度图间的映射关系,获取图像深度图,解码器的结构如表2所示:
表2解码器框架表
其中,stage为输入对应的阶段,output为每一阶段输出分辨率,k为卷积核大小,s表示步长,upconv为解码阶段的卷积操作,iconv为每个解码模块的输入,disp为逆深度图,activation代表激活函数,ReLU、Sigmoid为每一阶段对应的激活函数;input为每一层对应的输入;
如图1和表2,所述的解码器包括5层解码模块,第1层解码模块Deconv5由第5层编码模块Enconv5依次连接卷积层和上采样层后与再与第4层编码模块Enconv4跳跃连接构成,第2层解码模块Deconv2由第1层解码模块Deconv1依次连接卷积层和上采样层后与再与第3层编码模块Enconv3跳跃连接构成,并且通过Sigmoid激活函数输出1/8分辨率的深度图disp4,第3层解码模块Deconv3由第2层解码模块Deconv2依次连接卷积层和上采样层后与再与第2层编码模块Enconv2跳跃连接构成,并且通过Sigmoid激活函数输出1/4分辨率的深度图disp3,第4层解码模块Deconv4由第3层解码模块Deconv3依次连接卷积层和上采样层后与再与第1层编码模块Enconv1构成跳跃连接产生,并且通过Sigmoid激活函数输出1/2分辨率的深度图disp2,第5层解码模块Deconv5由第4层解码模块Deconv4依次连接卷积层和上采样层构成,并且通过Sigmoid激活函数输出全分辨率的深度图disp1。
相机位姿估计网络结构如表3:
表3相机位姿估计网络结构表
其中,econv为位姿估计网络的每层,Input为每层的输入,位姿估计网络总共包含7层卷积模块和1层卷积层组成,其中每层卷积模块由卷积操作和ReLU激活函数组成,输入分辨率为192×640×3的图像对,最终通过位姿估计网络输出图像对间六自由度的相对位姿变换关系,包括位移关系和旋转关系。
将图像序列<I1,I2,…,IN>输入深度估计网络获得It的深度图Dt和Is的深度图Ds,将Dt和Ds输入位姿估计网络获取It与Is的相机位姿转换关系Tt→s,根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和参考图像深度图Ds→t,根据It、Is→t、Ds和Ds→t训练深度估计网络,根据It和Ds→t训练深度估计网络,获取深度估计网络的最优的模型权重,最后将任意的目标图像输入训练后的深度估计网络来生成精确性更高的全分辨率的目标图像深度图。
Dt的获取过程为:
It具有三通道,将It输入基于ResNeXt50模型构建的编码器,将3通道It分32个分支进行1x1、3x3和1x1的卷积操作,然后进行融合,逐步升维到64、256、512、1024和2048,学习It的不同尺度的深层抽象特征,获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图;利用上采样和卷积的操作代替直接进行反卷积操作避免了反卷积操作所导致的深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt,跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题,Ds的获取过程与Dt相同。
输入的目标图像如图5所示,输出的目标图像深度图如图6所示。
训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
Charbonnier惩罚函数为:
其中,∈为超参,设为0.001,当a<0.5时,该函数为非凸函数,当a>0.5时函数为凸函数,根据经验值,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
其中M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
为了保证深度估计网络预测的目标图像的梯度平滑性,基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
实施例二
一种基于深度估计网络的单目图像深度估计系统,包括:
深度估计模块,用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图It的深度图Dt和对照图Is的深度图Ds;
位姿估计模块,用于建立相机位姿估计网络并利用该网络获取Dt和Ds的相机位姿转换关系Tt→s;
视图合成模块,用于根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t;
网络训练模块,用于采集包含若干组图像序列的训练集并根据It、Is→t、Ds和Ds→t训练深度估计网络,每组图像序列包含1张It和多张Is;
其中,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,所述的解码器包括交叉设置的5层上采样模块和5层与编码模块跳跃连接的反卷积模块。
编码器结构如表4所示:
表4编码器框架表
其中,layer为卷积层数,Conv为卷积层,input为输入图像,Kernel代表卷积核,stride代表步长,C代表通道,chns代表输入输出通道数,output代表卷积层输出,max pool为最大池化层,如图3和图4。输入分辨率为192×640×3的单目图像,依次经过5个基于ResNext50模型的编码模块,并得到通道数为64,256,512,1024,2048的1/2、1/4、1/8、1/16分辨率的图像特征图。
通过解码器对特征图降维,建立特征图与深度图间的映射关系,获取图像深度图,解码器的结构如表5所示:
表5解码器框架表
其中,stage为输入对应的阶段,output为每一阶段输出分辨率,k为卷积核大小,s表示步长,upconv为解码阶段的卷积操作,iconv为每个解码模块的输入(请补充),disp为深度图,activation代表激活函数,ReLU和Sigmoid为每一阶段对应的激活函数,input为每一层对应的输入。
如图1和表5,所述的解码器包括5层解码模块,第1层解码模块Deconv5由第5层编码模块Enconv5依次连接卷积层和上采样层后与再与第4层编码模块Enconv4跳跃连接构成,第2层解码模块Deconv2由第1层解码模块Deconv1依次连接卷积层和上采样层后与再与第3层编码模块Enconv3跳跃连接构成,并且通过Sigmoid激活函数输出1/8分辨率的深度图disp4,第3层解码模块Deconv3由第2层解码模块Deconv2依次连接卷积层和上采样层后与再与第2层编码模块Enconv2跳跃连接构成,并且通过Sigmoid激活函数输出1/4分辨率的深度图disp3,第4层解码模块Deconv4由第3层解码模块Deconv3依次连接卷积层和上采样层后与再与第1层编码模块Enconv1构成跳跃连接产生,并且通过Sigmoid激活函数输出1/2分辨率的深度图disp2,第5层解码模块Deconv5由第4层解码模块Deconv4依次连接卷积层和上采样层构成,并且通过Sigmoid激活函数输出全分辨率的深度图disp1。
相机位姿估计网络结构如表6:
表6相机位姿估计网络结构表
其中,econv为位姿估计网络的每层,Input为每层的输入,位姿估计网络包括7层卷积模块和1层卷积层,每层卷积模块由卷积操作和ReLU激活函数组成,输入分辨率为192×640×3的图像对,最终通过位姿估计网络输出图像对间六自由度的相对位姿变换关系。
Dt的获取过程为:
It具有3通道,将It输入编码器,基于ResNeXt50模型构建的编码模块将3通道It分32个分支进行1x1、3x3和1x1的卷积操作,然后进行融合,逐步升维到64、256、512、1024和2048,学习It的不同尺度的深层抽象特征,获得分辨率分别为It分辨率的1/2、1/4、1/8、1/16和1/32的5种特征图,利用上采样和卷积的操作代替直接进行反卷积操作避免了反卷积操作所导致的深度图出现的伪影现象,得到更稠密的像素点深度,引入跳跃连接并对其余4种特征图中分辨率相同的特征图依次进行维度上的线性组合和卷积操作,当其余4种特征图的分辨率分别为It分辨率的1/8、1/4、1/2和1时利用Sigmoid函数建立It与Dt的映射关系,输出4种不同分辨率的Dt,跳跃连接利于获取更多的图像信息,实现多个特征图的线性组合,并且能够防止反向传播时出现梯度消失的问题,Ds的获取过程与Dt相同。
训练过程中采用的损失函数基于Charbonnier惩罚构建,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数;
一致性约束和几何一致性约束能够去除图像外点和噪声的干扰,提高模型的鲁棒性;
Charbonnier惩罚函数为:
其中,∈为超参,当a<0.5时,该函数为非凸函数,当a>0.5时函数为凸函数,根据经验值,a为0.45;
基于Charbonnier惩罚的重投影损失函数pe(It,Is)为:
其中M为像素点总数;
基于Charbonnier惩罚的几何一致性损失函数Ldepth为:
为了保证深度估计网络预测的目标图像的梯度平滑性,基于Charbonnier惩罚的深度图梯度平滑损失函数Ls为:
损失函数总体表达式为:
πfinal=α*pe(It,Is)+β*Ldepth+γ*Ls
其中,α、β和γ为超参数。
实施例一和实施例二提出了一种基于深度估计网络的单目图像深度估计方法及系统,采用U-net结构的深度估计网络,并结合相机位姿估计步骤对深度估计网络进行训练,不依赖于图像间的特征匹配来估计深度信息,精度高且成本低,解码模块包含跳跃连接,解决了梯度消失问题,能够输出不同分辨率的深度图供网络训练及优化使用,使得训练后的深度估计网络的精度更高,同时基于Charbonnier惩罚构建无监督方式的损失函数进行训练,包括重投影损失函数、几何一致性损失函数和深度图梯度平滑损失函数,去除图像外点和噪声的干扰,提高模型的鲁棒性,输出的深度图像平滑性好,精度高。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。
Claims (9)
1.一种基于深度估计网络的单目图像深度估计方法,具体为:构建深度估计网络,将目标图像输入训练好的深度估计网络,获得目标图像深度图;
所述的训练过程中采用相机位姿估计步骤;
其特征在于,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建,所述的解码器包括5层包含跳跃连接的解码模块。
2.根据权利要求1所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,所述的相机位姿估计步骤具体为:
建立相机位姿估计网络,采集包含若干图像序列的训练集,每组图像序列包含1张参考图It和多张对照图Is,将图像序列输入深度估计网络获得It深度图Dt和Is深度图Ds,将Dt和Ds输入位姿估计网络获取It与Is的相机位姿转换关系Tt→s,根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t,根据It、Is→t、Ds和Ds→t训练深度估计网络。
3.根据权利要求2所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,所述的相机位姿估计网络包括7层卷积模块和1层卷积层,其中每个卷积模块包括1层卷积层和1层ReLU激活函数层。
5.根据权利要求1所述的一种基于深度估计网络的单目图像深度估计方法,其特征在于,第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。
6.一种基于深度估计网络的单目图像深度估计系统,其特征在于,包括:
深度估计模块,用于建立深度估计网络并利用该网络输出目标图像的目标图像深度图、参考图It的深度图Dt和对照图Is的深度图Ds;
位姿估计模块,用于建立相机位姿估计网络并利用该网络获取Dt和Ds的相机位姿转换关系Tt→s;
视图合成模块,用于根据Tt→s和像素点深度得到在Dt的像素点在Ds中对应的像素点,对Is和Ds进行双线性采样获得合成参考图Is→t和合成参考图像深度图Ds→t;
网络训练模块,用于采集包含若干组图像序列的训练集并根据It、Is→t、Ds和Ds→t训练深度估计网络,每组图像序列包含1张It和多张Is;
其中,所述的深度估计网络包括编码器和解码器,所述的编码器包括5层编码模块,每层编码模块基于ResNeXt50模型构建所述的解码器包括5层解码模块,每1层解码模块由上采样层和卷积层组成。
7.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计系统,其特征在于,所述的相机位姿估计网络包括7层卷积模块和1层卷积层,其中每层卷积模块包括1层卷积层和1层ReLU激活函数层。
9.根据权利要求6所述的一种基于深度估计网络的单目图像深度估计系统,其特征在于,第1层解码模块由第5层编码模块依次连接卷积层和上采样层后与再与第4层编码模块跳跃连接构成,第2层解码模块由第1层解码模块依次连接卷积层和上采样层后与再与第3层编码模块跳跃连接构成,第3层解码模块由第2层解码模块依次连接卷积层和上采样层后与再与第2层编码模块跳跃连接构成,第4层解码模块由第3层解码模块依次连接卷积层和上采样层后与再与第1层编码模块构成跳跃连接产生,第5层解码模块由第4层解码模块依次连接卷积层和上采样层构成,第2~5层解码模块通过Sigmoid激活函数分别输出分辨率为输入图像的1/8、1/4、1/2和1倍的深度图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132201.2A CN111402310B (zh) | 2020-02-29 | 2020-02-29 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010132201.2A CN111402310B (zh) | 2020-02-29 | 2020-02-29 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111402310A true CN111402310A (zh) | 2020-07-10 |
CN111402310B CN111402310B (zh) | 2023-03-28 |
Family
ID=71436010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010132201.2A Active CN111402310B (zh) | 2020-02-29 | 2020-02-29 | 一种基于深度估计网络的单目图像深度估计方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111402310B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950477A (zh) * | 2020-08-17 | 2020-11-17 | 南京大学 | 一种基于视频监督的单图像三维人脸重建方法 |
CN111986181A (zh) * | 2020-08-24 | 2020-11-24 | 中国科学院自动化研究所 | 基于双注意力机制的血管内支架图像分割方法和系统 |
CN112085776A (zh) * | 2020-07-31 | 2020-12-15 | 山东科技大学 | 一种直接法无监督单目图像场景深度估计方法 |
CN112184611A (zh) * | 2020-11-03 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 图像生成模型训练方法以及装置 |
CN112862089A (zh) * | 2021-01-20 | 2021-05-28 | 清华大学深圳国际研究生院 | 一种具有可解释性的医学图像深度学习方法 |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN113298860A (zh) * | 2020-12-14 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN113793472A (zh) * | 2021-09-15 | 2021-12-14 | 应急管理部沈阳消防研究所 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
CN113989183A (zh) * | 2021-09-17 | 2022-01-28 | 浙江省北大信息技术高等研究院 | 基于神经网络的木板缺陷检测方法、装置、设备及介质 |
CN114693759A (zh) * | 2022-03-31 | 2022-07-01 | 电子科技大学 | 一种基于编解码网络的轻量级快速图像深度估计方法 |
CN114862686A (zh) * | 2021-02-03 | 2022-08-05 | 深圳市万普拉斯科技有限公司 | 图像处理方法、装置及电子设备 |
CN115294282A (zh) * | 2022-08-19 | 2022-11-04 | 中国矿业大学 | 三维场景重建中增强特征融合的单目深度估计系统及其方法 |
CN116129036A (zh) * | 2022-12-02 | 2023-05-16 | 中国传媒大学 | 一种深度信息引导的全方向图像三维结构自动恢复方法 |
CN116245927A (zh) * | 2023-02-09 | 2023-06-09 | 湖北工业大学 | 一种基于ConvDepth的自监督单目深度估计方法及系统 |
CN116342675A (zh) * | 2023-05-29 | 2023-06-27 | 南昌航空大学 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
CN116758131A (zh) * | 2023-08-21 | 2023-09-15 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN116797625A (zh) * | 2023-07-20 | 2023-09-22 | 无锡埃姆维工业控制设备有限公司 | 一种单目三维工件位姿估计方法 |
CN117115331A (zh) * | 2023-10-25 | 2023-11-24 | 苏州元脑智能科技有限公司 | 一种虚拟形象的合成方法、合成装置、设备及介质 |
WO2024131377A1 (zh) * | 2022-12-20 | 2024-06-27 | 维悟光子(北京)科技有限公司 | 用于光学成像系统的图像编解码模型的训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977981A (zh) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | 基于双目视觉的场景解析方法、机器人及存储装置 |
CN110473254A (zh) * | 2019-08-20 | 2019-11-19 | 北京邮电大学 | 一种基于深度神经网络的位姿估计方法及装置 |
CN110738699A (zh) * | 2019-10-12 | 2020-01-31 | 浙江省北大信息技术高等研究院 | 一种无监督绝对尺度计算方法及系统 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
-
2020
- 2020-02-29 CN CN202010132201.2A patent/CN111402310B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109977981A (zh) * | 2017-12-27 | 2019-07-05 | 深圳市优必选科技有限公司 | 基于双目视觉的场景解析方法、机器人及存储装置 |
CN110473254A (zh) * | 2019-08-20 | 2019-11-19 | 北京邮电大学 | 一种基于深度神经网络的位姿估计方法及装置 |
CN110782490A (zh) * | 2019-09-24 | 2020-02-11 | 武汉大学 | 一种具有时空一致性的视频深度图估计方法及装置 |
CN110738699A (zh) * | 2019-10-12 | 2020-01-31 | 浙江省北大信息技术高等研究院 | 一种无监督绝对尺度计算方法及系统 |
Non-Patent Citations (5)
Title |
---|
JOHN PAUL T ET AL: "AsiANet: Autoencoders in Autoencoder for Unsupervised Monocular Depth Estimation", 《2019 IEEE WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 * |
LU SHENG ET AL: "Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry Towards Monocular Deep SLAM", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
TINGHUI ZHOU ET AL: "Unsupervised Learning of Depth and Ego-Motion from Video", 《ARXIV:1704.07813V2》 * |
WEI YIN ET AL: "Enforcing geometric constraints of virtual normal for depth prediction", 《2019 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 * |
梁欣凯 等: "基于深度学习的序列图像深度估计技术", 《红外与激光工程》 * |
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085776A (zh) * | 2020-07-31 | 2020-12-15 | 山东科技大学 | 一种直接法无监督单目图像场景深度估计方法 |
CN112085776B (zh) * | 2020-07-31 | 2022-07-19 | 山东科技大学 | 一种直接法无监督单目图像场景深度估计方法 |
CN111950477A (zh) * | 2020-08-17 | 2020-11-17 | 南京大学 | 一种基于视频监督的单图像三维人脸重建方法 |
CN111950477B (zh) * | 2020-08-17 | 2024-02-02 | 南京大学 | 一种基于视频监督的单图像三维人脸重建方法 |
CN111986181A (zh) * | 2020-08-24 | 2020-11-24 | 中国科学院自动化研究所 | 基于双注意力机制的血管内支架图像分割方法和系统 |
CN112184611A (zh) * | 2020-11-03 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 图像生成模型训练方法以及装置 |
CN113298860A (zh) * | 2020-12-14 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN112862089B (zh) * | 2021-01-20 | 2023-05-23 | 清华大学深圳国际研究生院 | 一种具有可解释性的医学图像深度学习方法 |
CN112862089A (zh) * | 2021-01-20 | 2021-05-28 | 清华大学深圳国际研究生院 | 一种具有可解释性的医学图像深度学习方法 |
CN114862686A (zh) * | 2021-02-03 | 2022-08-05 | 深圳市万普拉斯科技有限公司 | 图像处理方法、装置及电子设备 |
CN113077505A (zh) * | 2021-04-19 | 2021-07-06 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN113077505B (zh) * | 2021-04-19 | 2023-11-17 | 大连理工大学人工智能大连研究院 | 一种基于对比学习的单目深度估计网络的优化方法 |
CN113393522A (zh) * | 2021-05-27 | 2021-09-14 | 湖南大学 | 一种基于单目rgb相机回归深度信息的6d位姿估计方法 |
CN113793472B (zh) * | 2021-09-15 | 2023-01-20 | 应急管理部沈阳消防研究所 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
CN113793472A (zh) * | 2021-09-15 | 2021-12-14 | 应急管理部沈阳消防研究所 | 基于特征深度聚合网络的图像型火灾探测器位姿估计方法 |
CN113989183A (zh) * | 2021-09-17 | 2022-01-28 | 浙江省北大信息技术高等研究院 | 基于神经网络的木板缺陷检测方法、装置、设备及介质 |
CN114693759A (zh) * | 2022-03-31 | 2022-07-01 | 电子科技大学 | 一种基于编解码网络的轻量级快速图像深度估计方法 |
CN115294282A (zh) * | 2022-08-19 | 2022-11-04 | 中国矿业大学 | 三维场景重建中增强特征融合的单目深度估计系统及其方法 |
CN116129036A (zh) * | 2022-12-02 | 2023-05-16 | 中国传媒大学 | 一种深度信息引导的全方向图像三维结构自动恢复方法 |
CN116129036B (zh) * | 2022-12-02 | 2023-08-29 | 中国传媒大学 | 一种深度信息引导的全方向图像三维结构自动恢复方法 |
WO2024131377A1 (zh) * | 2022-12-20 | 2024-06-27 | 维悟光子(北京)科技有限公司 | 用于光学成像系统的图像编解码模型的训练方法 |
CN116245927A (zh) * | 2023-02-09 | 2023-06-09 | 湖北工业大学 | 一种基于ConvDepth的自监督单目深度估计方法及系统 |
CN116245927B (zh) * | 2023-02-09 | 2024-01-16 | 湖北工业大学 | 一种基于ConvDepth的自监督单目深度估计方法及系统 |
CN116342675A (zh) * | 2023-05-29 | 2023-06-27 | 南昌航空大学 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
CN116342675B (zh) * | 2023-05-29 | 2023-08-11 | 南昌航空大学 | 一种实时单目深度估计方法、系统、电子设备及存储介质 |
CN116797625A (zh) * | 2023-07-20 | 2023-09-22 | 无锡埃姆维工业控制设备有限公司 | 一种单目三维工件位姿估计方法 |
CN116797625B (zh) * | 2023-07-20 | 2024-04-19 | 无锡埃姆维工业控制设备有限公司 | 一种单目三维工件位姿估计方法 |
CN116758131B (zh) * | 2023-08-21 | 2023-11-28 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN116758131A (zh) * | 2023-08-21 | 2023-09-15 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN117115331A (zh) * | 2023-10-25 | 2023-11-24 | 苏州元脑智能科技有限公司 | 一种虚拟形象的合成方法、合成装置、设备及介质 |
CN117115331B (zh) * | 2023-10-25 | 2024-02-09 | 苏州元脑智能科技有限公司 | 一种虚拟形象的合成方法、合成装置、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111402310B (zh) | 2023-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111402310B (zh) | 一种基于深度估计网络的单目图像深度估计方法及系统 | |
Xiao et al. | Satellite video super-resolution via multiscale deformable convolution alignment and temporal grouping projection | |
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN111325794B (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
CN110490919B (zh) | 一种基于深度神经网络的单目视觉的深度估计方法 | |
CN115187638B (zh) | 一种基于光流遮罩的无监督单目深度估计方法 | |
CN111783582A (zh) | 一种基于深度学习的无监督单目深度估计算法 | |
CN113792641B (zh) | 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法 | |
CN112950475B (zh) | 基于残差学习及空间变换网络的光场超分辨率重建方法 | |
CN113762147B (zh) | 人脸表情迁移方法、装置、电子设备及存储介质 | |
CN111696035A (zh) | 一种基于光流运动估计算法的多帧图像超分辨率重建方法 | |
Tang et al. | HTC-Net: A hybrid CNN-transformer framework for medical image segmentation | |
CN113034563A (zh) | 基于特征共享的自监督式单目深度估计方法 | |
CN114037714A (zh) | 一种面向前列腺系统穿刺的3d mr与trus图像分割方法 | |
CN118134952B (zh) | 一种基于特征交互的医学图像分割方法 | |
CN112906675B (zh) | 一种固定场景中的无监督人体关键点检测方法及系统 | |
CN113658047A (zh) | 一种结晶图像超分辨率重建方法 | |
CN115330935A (zh) | 一种基于深度学习的三维重建方法及系统 | |
CN115049739A (zh) | 一种基于边缘检测的双目视觉立体匹配方法 | |
CN118351211B (zh) | 一种肺癌ct到pet的医学图像生成的方法、系统和设备 | |
CN114565624B (zh) | 基于多期立体图元生成器的肝脏病灶分割的图像处理方法 | |
CN117635801A (zh) | 基于实时渲染可泛化神经辐射场的新视图合成方法及系统 | |
CN115731280A (zh) | 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法 | |
CN116266336A (zh) | 视频超分辨率重建方法、装置、计算设备及存储介质 | |
Takeda et al. | Color guided depth map super-resolution based on a deep self-learning approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |