CN110910327B - 一种基于掩模增强网络模型的无监督深度补全方法 - Google Patents

一种基于掩模增强网络模型的无监督深度补全方法 Download PDF

Info

Publication number
CN110910327B
CN110910327B CN201911170122.4A CN201911170122A CN110910327B CN 110910327 B CN110910327 B CN 110910327B CN 201911170122 A CN201911170122 A CN 201911170122A CN 110910327 B CN110910327 B CN 110910327B
Authority
CN
China
Prior art keywords
depth map
mask
network
depth
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911170122.4A
Other languages
English (en)
Other versions
CN110910327A (zh
Inventor
陈志峰
王涵韬
吴林煌
郭恩特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Shixin Technology Co ltd
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911170122.4A priority Critical patent/CN110910327B/zh
Publication of CN110910327A publication Critical patent/CN110910327A/zh
Application granted granted Critical
Publication of CN110910327B publication Critical patent/CN110910327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于掩模增强网络模型的无监督深度补全方法,包括以下步骤:步骤S1:采集KITTI数据集;步骤S2:构建用于输出稠密深度图的深度图网络模型和用于输出连续两帧之间运动物体和梯度较小区域的掩膜网络模型;步骤S3:构建网络训练的损失函数;步骤S4:根据得到的训练集,对深度图网络和掩膜网络进行无监督训练,并保存深度图网络模型和掩膜网络模型的各项权重值;步骤S5:根据验证集,对深度图网络超参数的调整,重复步骤S4,得到优化后的深度图网络模型;步骤S6:将待补全深度图输入优化后的深度图网络模型,进行深度补全,得到深度补全后的深度图。本发明可以对深度图进行更好补全,用于自动驾驶车辆能够实现更好的进行避障、建图的处理。

Description

一种基于掩模增强网络模型的无监督深度补全方法
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于掩模增强网络模型的无监督深度补全方法。
背景技术
人们可以从视觉感知中理解自身运动和周围物体运动的关系。例如人们在前进的过程中能够轻松避开障碍物,甚至是突然出现的障碍物。在许多计算机视觉的任务中,也希望计算机能够获得同样的场景理解和建模能力,这有利于自动驾驶和机器人在前进的过程中躲避障碍物和选择前进方向。在过去的几年里,深度预测任务的性能得到了快速提升。随着深度学习的不断发展,基于深度学习的测距展现出更加具有竞争力的性能。通过训练深度网络,可以使用未标记的视频或立体图像作为输入,从单个图像实现3D重建。
近几年,基于深度学习的深度预测性能虽然在不断提高,但在精度上仍然有难以突破的瓶颈。激光雷达的出现,使得来自传感器的深度信息的置信程度有了很大改善。雷达能够产生周围环境的点云,但扫描线的数量有限,并且稀疏度很高,具有64条扫描线的雷达深度图虽然并不稠密,但是仍然十分昂贵,并且对于远距离的物体十分不敏感。深度补全是指将稀疏点云变成密集深度图。由于深度图对于避障和测距等任务具有重要的作用,所以工业界对于深度图的获取变得更加关注,特别是在自动驾驶和机器人领域。这使得深度补全和深度预测目前正处于一个非常活跃的研究领域。但是真正的深度补全标签往往难以获得,即使是现在大家用的KITTI数据集也是合成的,只有30%像素有深度信息的标签,并且是通过10帧合成的,这导致了有监督学习的不可靠性和对专门场景的数据集的标签制作的复杂性。现有的有监督学习的精度尽管很高,但对场景的依赖程度高,对于未训练过的场景鲁棒性并不好。
许多利用光度误差作为损失函数来计算深度的办法是一种非常好的想法,但是在计算光度误差时,要求图像中物体是静止的,并且对于梯度较小的区域,容易产生错误的点匹配,计算出错误的光度误差,这导致最终的模型性能并不理想。通过搭建用于输出连续两帧之间运动物体和梯度较小区域的掩膜的网络,利用网络输出的掩膜来屏蔽运动物体,避免在计算附近帧和当前帧的光度误差时使模型学到错误的深度信息,影响网络架构性能。
目前,深度补全的办法基本是利用单目RGB图像和激光雷达融合作为引导进行深度补全,但是其实双目的图像对于训练的网络能提供更多的引导信息。利用双目图像进行光度误差的计算时,由于是处于同一时刻,不存在因为物体运动的原因而产生错误的光度误差,这有利于对运动物体的光度误差的计算,同时为深度图网络的训练提供了更多的学习样本。的网络架构就利用这一特性,通过计算双目图像的光度误差,将双目图像作为网络的一种监督信号。
发明内容
有鉴于此,本发明的目的在于提供一种基于掩模增强网络模型的无监督深度补全方法,能够不依赖于标签的标注信息,表现出良好的性能。
为实现上述目的,本发明采用如下技术方案:
一种基于掩模增强网络模型的无监督深度补全方法,包括以下步骤:
步骤S1:采集KITTI数据集,并随机分为训练集和验证集;
步骤S2:构建用于输出稠密深度图的深度图网络模型和用于输出连续两帧之间运动物体和梯度较小区域的掩膜网络模型;
步骤S3:构建网络训练的损失函数;
步骤S4:根据得到的训练集,对深度图网络和掩膜网络进行无监督训练,并保存深度图网络模型和掩膜网络模型的各项权重值;
步骤S5:根据验证集,对深度图网络超参数的调整,重复步骤S4,得到优化后的深度图网络模型;
步骤S6:将待补全深度图输入优化后的深度图网络模型,进行深度补全,得到深度补全后的深度图。
进一步的,所述步骤S3具体为:
步骤S31:对于稀疏激光雷达深度图的深度补全,要保证在补全后的稠密深度图要与稀疏激光雷达深度图具有深度信息的像素点具有一致的深度信息,构建损失函数
Figure GDA0004054276950000031
Figure GDA0004054276950000041
其中Ds表示的是系数雷达深度图,Dpred表示的是从深度图网络输出的稠密深度图,右下角角标的d>0表示的是只计算稀疏深度图有深度信息的部分;
步骤S32:对于稀疏深度图中没有深度信息的点,通过光度误差损失函数作为约束;
步骤S33:引入拉普拉斯算子作为损失函数:
Figure GDA0004054276950000042
进一步的,所述步骤S32具体为:
步骤S321:将当前帧k的图像和它的附近帧k+1的图像进行特征点匹配,再将当前帧的特征点的2D坐标系转移到激光雷达所在的3D坐标系,通过PnP的方法得到当前帧3D坐标系到附近帧2D坐标系的旋转矩阵rk,k+1和转移矩阵tk,k+1
步骤S322:通过对当前帧和右侧摄像头拍摄图像之间的特征点匹配得到左右眼图像之间的旋转矩阵rL,R和转移矩阵tL,R
步骤S323:设Ik和Ik+1为第k帧和第k+1帧图像,Ir表示为第k帧的右眼图像,Pk表示Ik中的一个像素,Pk+1表示为Ik+1中的一个像素,Pr表示为Ir中的一个像素,从Pk中推出Pk+1,从Pr通过:
Pk+1=KTk,k+1DpredK-1Pk
其中的K是相机的内参矩阵,Tk,k+1是第k帧到第k+1帧的相机变化矩阵;
从当前帧k预测图像得到右眼的映射,公式如下:
Pr=KTk,rDpredK-1Pk
步骤S324:通过以上两个公式,得到一长从预测的稠密深度图重构的当前帧RGB图像
Figure GDA0004054276950000051
得到利用右视角图重构得到的当前帧RGB图像
Figure GDA0004054276950000052
则左眼和右眼的光度误差的损失函数可以从以下公式得到:
Figure GDA0004054276950000053
Figure GDA0004054276950000054
其中,其中,Emask是由通过掩膜网络输出的掩膜,LSSIM(x,y)是
Figure GDA0004054276950000055
式中的ux,uy,
Figure GDA0004054276950000056
σxy分别为图像x,y的均值,方差和协方差;c1,c2,c3为小的正常数。
进一步的,所述步骤S5具体为:
步骤S51:确定整个架构的损失函数是:
Figure GDA0004054276950000057
其中
Figure GDA0004054276950000058
是用于抑制输出连续两帧之间运动物体和梯度较小区域的掩膜网络输出的掩膜,防止掩膜变成全0矩阵;α、β、γ和μ是的超参数权重;
步骤S52:将验证集图像输入深度图网络,将得到的输出图像性能进行检测,对α、β、γ和μ的值进行修改;性能评价指标RMSE公式为:
Figure GDA0004054276950000061
式中n是总的图像个数,yi是深度图网络输出的图像,
Figure GDA0004054276950000062
是KITTI提供的正确标注图像;
步骤S53:重新对深度图网络进行训练,然后再检测出深度图网络输出的RMSE指标;
步骤S54:重复步骤S52和步骤S53,选出性能最好一组α、β、γ和μ。
本发明与现有技术相比具有以下有益效果:
1、本发明基于无监督的网络架构,能够不依赖于标签的标注信息,同样表现出良好的性能。
2、本发明无监督学习不仅解决了对标签的依赖问题,同时增强了对不同场景理解能力的鲁棒性。
3、本发明通过掩膜来减小时域光度误差对网络造成的影响,同时利用双目的空域光度误差来提高网络性能。
4、本发明可以对深度图进行更好补全,用于自动驾驶车辆能够实现更好的进行避障、建图的处理。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的从KITTI官网下载的部分数据集效果图;
图3为本发明实施例的深度补全网络架构图;
图4为本发明实施例的用于输出连续两帧之间运动物体和梯度较小区域的掩膜的网络架构图;
图5为本发明实施例的无监督架构的损失函数和整体架构关系图;
图6为本发明实施例的推理阶段结构框图;
图7为本发明实施例的深度补全网络输出的结果图;
图8为本发明实施例的KITTI官网评测的结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于掩模增强网络模型的无监督深度补全方法,包括以下步骤:
步骤S1:采集KITTI数据集,从KITTI官网上获取图像训练数据集和测试数据集,及其各自标签文件;本实施例中以train作为训练数据集,valid作为验证集,test作为测试数据集。训练数据集的部分截图如图2所示。
步骤S2:构建用于输出稠密深度图的深度图网络模型和用于输出连续两帧之间运动物体和梯度较小区域的掩膜网络模型;具体如下:
步骤S21:如图3所示,搭建深度图网络,输入的图像是一个RGB图和一个稀疏雷达深度图,两张图片尺寸均为原图大小1216×352×3,其中图像的长为1216,宽为352,通道数为3;
本实施例中,深度图网络架构如下:
输入层:由于输入的是一个1216×352的RGB图像和一个稀疏雷达深度图,他们在三维空间的维度是1216×352×3。
3x3 Conv F=16:本实施例中RGB图像先经过第一个卷积层的尺寸是3×3,卷积深度为16,设定步长为1(卷积前先将原始输入图像的上下左右1行以像素0填充),相当于用16个3×3的滑动窗口以步长1与输入图像在该窗口下的像素相卷积。3x3 Conv F=48、1x1Conv F=1、3x3 Conv F=512,0.5x与3x3 Conv F=16的结构相似,差别就是输入x的向量尺寸、0填充的行数不同,下采样倍数和各个卷积层的卷积深度不同,其中0.5x表示2倍下采样。
Res.BlockF=64:本实施例中设定在激光雷达稀疏深度图和RGB图像融合后,经过的是一个64通道的残差模块模块网络。在经过此模块后,虚线表示的是跳跃链接,直接绕过剩下的模块,也可以按实线进入下一模块。Res.Block F=128,0.5x、Res.Block F=256,0.5x、Res.Block F=512,0.5x与Res.Block F=64的结构相似,差别就是输入x的向量尺寸、下采样倍数和各个卷积层的卷积深度不同,其中0.5x表示2倍下采样。
3x3 Transp.Conv F=256,2x:本实例中,该模块表示转置卷积,通道为256,2倍上采样。3x3 Transp.Conv F=64、3x3 Transp.Conv F=64,2x、3x3 Transp.Conv F=64,2、3x3 Transp.Conv F=128,2x与3x3Transp.Conv F=256,2x的结构相似,差别就是输入x的向量尺寸、上采样倍数和各个卷积层的卷积深度不同,其中2x表示2倍上采样。
输出层:最后将3x3 Transp.Conv F=64得到的向量经过1×1的卷积层,输出补全的稠密深度图。
步骤S22:如图4所示,搭建用于输出连续两帧之间运动物体和梯度较小区域的掩膜网络,输入的图像是当前帧RGB图像和附近帧的RGB图像,两张图片尺寸均为原图大小1216×352×3,其中图像的长为1216,宽为352,通道数为3;
在本实施例中,掩膜网络模型架构如下:
输入层:由于输入的是良个1216×352的输入的图像是当前帧RGB图像和附近帧的RGB图像的堆叠,他们在三维空间的维度是1216×352×6。
7x7 Conv F=16:本实施例中堆叠后的RGB图像先经过第一个卷积层的尺寸是7×7,卷积深度为16,设定步长为2(卷积前先将原始输入图像的上下左右3行以像素0填充),相当于用16个7×7的滑动窗口以步长2与输入图像在该窗口下的像素相卷积。5x5 Conv F=32、3x3 Conv F=64、3x3 Conv F=128、3x3 Conv F=256与7x7 Conv F=16的结构相似,差别就是输入x的向量尺寸、0填充的行数不同和各个卷积层的卷积深度不同。
4x4 Transp.Conv F=16:本实例中,该模块表示转置卷积,通道为16,设定步长为2(卷积前先将原始输入图像的上下左右1行以像素0填充)。4x4 Transp.Conv F=32、4x4Transp.Conv F=64、4x4 Transp.Conv F=128、4x4 Transp.Conv F=256与4x4Transp.Conv F=16的结构相似,差别就是输入x的向量尺寸和各个卷积层的卷积深度不同。
输出层:最后经过4x4 Transp.Conv F=256的输出结果,就是和原图大小一样大的掩膜。
步骤S3:构建网络训练的损失函数;无监督架构的损失函数和整体架构之间的关系如图5所述;
步骤S31:对于稀疏激光雷达深度图的深度补全,要保证在补全后的稠密深度图要与稀疏激光雷达深度图具有深度信息的像素点具有一致的深度信息,构建损失函数
Figure GDA0004054276950000101
Figure GDA0004054276950000102
其中Ds表示的是系数雷达深度图,Dpred表示的是从深度图网络输出的稠密深度图,右下角角标的d>0表示的是只计算稀疏深度图有深度信息的部分;
步骤S32:对于稀疏深度图中没有深度信息的点,通过光度误差损失函数作为约束;
所述步骤S32具体为:
步骤S321:将当前帧k的图像和它的附近帧k+1的图像进行特征点匹配,再将当前帧的特征点的2D坐标系转移到激光雷达所在的3D坐标系,通过PnP的方法得到当前帧3D坐标系到附近帧2D坐标系的旋转矩阵rk,k+1和转移矩阵tk,k+1
步骤S322:通过对当前帧和右侧摄像头拍摄图像之间的特征点匹配得到左右眼图像之间的旋转矩阵rL,R和转移矩阵tL,R
步骤S323:设Ik和Ik+1为第k帧和第k+1帧图像,Ir表示为第k帧的右眼图像,Pk表示Ik中的一个像素,Pk+1表示为Ik+1中的一个像素,Pr表示为Ir中的一个像素,从Pk中推出Pk+1,从Pr通过:
Pk+1=KTk,k+1DpredK-1Pk
其中的K是相机的内参矩阵,Tk,k+1是第k帧到第k+1帧的相机变化矩阵;
从当前帧k预测图像得到右眼的映射,公式如下:
Pr=KTk,rDpredK-1Pk
步骤S324:通过以上两个公式,得到一长从预测的稠密深度图重构的当前帧RGB图像
Figure GDA0004054276950000111
得到利用右视角图重构得到的当前帧RGB图像
Figure GDA0004054276950000112
由于在计算时域上的光度误差的时候会受到运动物体和梯度较小区域的影响。所以我们通过掩膜网络输出的掩膜Emask对这些区域进行屏蔽;
则左眼和右眼的光度误差的损失函数可以从以下公式得到:
Figure GDA0004054276950000121
Figure GDA0004054276950000122
其中,LSSIM(x,y)是
Figure GDA0004054276950000123
式中的ux,uy,
Figure GDA0004054276950000124
σxy分别为图像x,y的均值,方差和协方差;c1,c2,c3为小的正常数。
步骤S33:引入拉普拉斯算子作为损失函数:
Figure GDA0004054276950000125
步骤S4:根据得到的训练集,对深度图网络和掩膜网络进行无监督训练,并保存深度图网络模型和掩膜网络模型的各项权重值;
步骤S5:根据验证集,对深度图网络超参数的调整,重复步骤S4,得到优化后的深度图网络模型;
所述步骤S5具体为:
步骤S51:确定整个架构的损失函数是:
Figure GDA0004054276950000126
其中
Figure GDA0004054276950000127
是用于抑制输出连续两帧之间运动物体和梯度较小区域的掩膜网络输出的掩膜,防止掩膜变成全0矩阵;α、β、γ和μ是的超参数权重;
步骤S52:将验证集图像输入深度图网络,将得到的输出图像性能进行检测,对α、β、γ和μ的值进行修改;性能评价指标RMSE公式为:
Figure GDA0004054276950000131
式中n是总的图像个数,yi是深度图网络输出的图像,
Figure GDA0004054276950000132
是KITTI提供的正确标注图像;
步骤S53:重新对深度图网络进行训练,然后再检测出深度图网络输出的RMSE指标;
步骤S54:重复步骤S52和步骤S53,选出性能最好一组α、β、γ和μ。
步骤S6:将待补全深度图输入优化后的深度图网络模型,进行深度补全,得到深度补全后的深度图。
步骤S61:将步骤S1中下载好的KITTI test测试数据集的图像输入到步骤S4中训练好深度图网络中,得出最后的检测结果16位png文件,如图7所示,将其规范命名后打包成zip文件上传至KITTI网站进行评测。
步骤S62:本发明的在KITTI上得到的评测结果如图8所示,其中iRMSE=4.39,iMAE=1.16,RMSE=1339.74,MAE=353.27,且在服务器配置为:i9-900K CPU、2080Ti GPU、CUDA10.1、CUDNN 7.6、Pytorch 1.1.0上fps(每秒推理的速度)达到了111帧/秒,所以本实施例的一种带掩膜深度补全网络及其训练方法不仅准确率高,而且误差小。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (2)

1.一种基于掩模增强网络模型的无监督深度补全方法,其特征在于,包括以下步骤:
步骤S1:采集KITTI数据集,并随机分为训练集和验证集;
步骤S2:构建用于输出稠密深度图的深度图网络模型和用于输出连续两帧之间运动物体和梯度较小区域的掩膜网络模型;
步骤S3:构建网络训练的损失函数;
步骤S4:根据得到的训练集,对深度图网络和掩膜网络进行无监督训练,并保存深度图网络模型和掩膜网络模型的各项权重值;
步骤S5:根据验证集,对深度图网络超参数的调整,重复步骤S4,得到优化后的深度图网络模型;
步骤S6:将待补全深度图输入优化后的深度图网络模型,进行深度补全,得到深度补全后的深度图;
所述步骤S3具体为:
步骤S31:对于稀疏激光雷达深度图的深度补全,要保证在补全后的稠密深度图要与稀疏激光雷达深度图具有深度信息的像素点具有一致的深度信息,构建损失函数
Figure FDA0004054276940000011
Figure FDA0004054276940000012
其中Ds表示的是稀疏雷达深度图,Dpred表示的是从深度图网络输出的稠密深度图,右下角角标的d>0表示的是只计算稀疏深度图有深度信息的部分;
步骤S32:对于稀疏深度图中没有深度信息的点,通过光度误差损失函数作为约束;
步骤S33:引入拉普拉斯算子作为损失函数:
Figure FDA0004054276940000021
所述步骤S32具体为:
步骤S321:将当前帧k的图像和它的附近帧k+1的图像进行特征点匹配,再将当前帧的特征点的2D坐标系转移到激光雷达所在的3D坐标系,通过PnP的方法得到当前帧3D坐标系到附近帧2D坐标系的旋转矩阵rk,k+1和转移矩阵tk,k+1
步骤S322:通过对当前帧和右侧摄像头拍摄图像之间的特征点匹配得到左右眼图像之间的旋转矩阵rL,R和转移矩阵tL,R
步骤S323:设Ik和Ik+1为第k帧和第k+1帧图像,Ir表示为第k帧的右眼图像,Pk表示Ik中的一个像素,Pk+1表示为Ik+1中的一个像素,Pr表示为Ir中的一个像素,从Pk中推出Pk+1,从Pr通过:
Pk+1=KTk,k+1DpredK-1Pk
其中的K是相机的内参矩阵,Tk,k+1是第k帧到第k+1帧的相机变化矩阵;
从当前帧k预测图像得到右眼的映射,公式如下:
Pr=KTk,rDpredK-1Pk
步骤S324:通过以上两个公式,得到一张从预测的稠密深度图重构的当前帧RGB图像
Figure FDA0004054276940000031
得到利用右视角图重构得到的当前帧RGB图像
Figure FDA0004054276940000032
则左眼和右眼的光度误差的损失函数可以从以下公式得到:
Figure FDA0004054276940000033
Figure FDA0004054276940000034
其中,Emask是由通过掩膜网络输出的掩膜,LSSIM(x,y)是
Figure FDA0004054276940000035
式中的ux,uy,
Figure FDA0004054276940000036
σxy分别为图像x,y的均值,方差和协方差;c1,c2为小的正常数。
2.根据权利要求1所述的一种基于掩模增强网络模型的无监督深度补全方法,其特征在于,所述步骤S5具体为:
步骤S51:确定整个架构的损失函数是:
Figure FDA0004054276940000037
其中
Figure FDA0004054276940000038
是用于抑制输出连续两帧之间运动物体和梯度较小区域的掩膜网络输出的掩膜,防止掩膜变成全0矩阵;α、β、γ和μ是的超参数权重;
步骤S52:将验证集图像输入深度图网络,将得到的输出图像性能进行检测,对α、β、γ和μ的值进行修改;性能评价指标RMSE公式为:
Figure FDA0004054276940000041
式中n是总的图像个数,yi是深度图网络输出的图像,
Figure FDA0004054276940000042
是KITTI提供的正确标注图像;
步骤S53:重新对深度图网络进行训练,然后再检测出深度图网络输出的RMSE指标;
步骤S54:重复步骤S52和步骤S53,选出性能最好一组α、β、γ和μ。
CN201911170122.4A 2019-11-26 2019-11-26 一种基于掩模增强网络模型的无监督深度补全方法 Active CN110910327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911170122.4A CN110910327B (zh) 2019-11-26 2019-11-26 一种基于掩模增强网络模型的无监督深度补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911170122.4A CN110910327B (zh) 2019-11-26 2019-11-26 一种基于掩模增强网络模型的无监督深度补全方法

Publications (2)

Publication Number Publication Date
CN110910327A CN110910327A (zh) 2020-03-24
CN110910327B true CN110910327B (zh) 2023-04-07

Family

ID=69819449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911170122.4A Active CN110910327B (zh) 2019-11-26 2019-11-26 一种基于掩模增强网络模型的无监督深度补全方法

Country Status (1)

Country Link
CN (1) CN110910327B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541482B (zh) * 2020-12-25 2024-04-02 北京百度网讯科技有限公司 深度信息补全模型训练方法、装置、设备以及存储介质
CN114693536A (zh) * 2020-12-30 2022-07-01 华为技术有限公司 一种图像处理方法,装置及储存介质
CN114119889B (zh) * 2021-11-12 2024-04-09 杭州师范大学 基于跨模态融合的360度环境深度补全和地图重建方法
CN114782911B (zh) * 2022-06-20 2022-09-16 小米汽车科技有限公司 图像处理的方法、装置、设备、介质、芯片及车辆

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665496A (zh) * 2018-03-21 2018-10-16 浙江大学 一种基于深度学习的端到端的语义即时定位与建图方法
CN108765479A (zh) * 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
CN109087375A (zh) * 2018-06-22 2018-12-25 华东师范大学 基于深度学习的图像空洞填充方法
CN109754417A (zh) * 2017-11-03 2019-05-14 百度(美国)有限责任公司 从图像中无监督学习几何结构的系统与方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10755391B2 (en) * 2018-05-15 2020-08-25 Adobe Inc. Digital image completion by learning generation and patch matching jointly

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109754417A (zh) * 2017-11-03 2019-05-14 百度(美国)有限责任公司 从图像中无监督学习几何结构的系统与方法
CN108665496A (zh) * 2018-03-21 2018-10-16 浙江大学 一种基于深度学习的端到端的语义即时定位与建图方法
CN108765479A (zh) * 2018-04-04 2018-11-06 上海工程技术大学 利用深度学习对视频序列中单目视图深度估计优化方法
CN109087375A (zh) * 2018-06-22 2018-12-25 华东师范大学 基于深度学习的图像空洞填充方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志峰等.《图像和惯性传感器相结合的摄像机定位和物体三维位置估计》.《福州大学学报(自然科学版)》.2018,第第46卷卷(第第46卷期),481-489. *

Also Published As

Publication number Publication date
CN110910327A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN110910327B (zh) 一种基于掩模增强网络模型的无监督深度补全方法
US10839543B2 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
Facil et al. CAM-Convs: Camera-aware multi-scale convolutions for single-view depth
Mancini et al. Fast robust monocular depth estimation for obstacle detection with fully convolutional networks
US20210150747A1 (en) Depth image generation method and device
Shivakumar et al. Dfusenet: Deep fusion of rgb and sparse depth information for image guided dense depth completion
CN108665496B (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
US11734918B2 (en) Object identification apparatus, moving body system, object identification method, object identification model learning method, and object identification model learning apparatus
US11064178B2 (en) Deep virtual stereo odometry
WO2020000390A1 (en) Systems and methods for depth estimation via affinity learned with convolutional spatial propagation networks
CN113159151B (zh) 面向自动驾驶的多传感器深度融合3d目标检测方法
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
Varma et al. Transformers in self-supervised monocular depth estimation with unknown camera intrinsics
CN113657388B (zh) 一种融合图像超分辨率重建的图像语义分割方法
CN112991413A (zh) 自监督深度估测方法和系统
EP3769265A1 (en) Localisation, mapping and network training
CN111563415A (zh) 一种基于双目视觉的三维目标检测系统及方法
CN113936139A (zh) 一种视觉深度信息与语义分割相结合的场景鸟瞰图重构方法及系统
CN112802078A (zh) 深度图生成方法和装置
CN112927279A (zh) 一种图像深度信息生成方法、设备及存储介质
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
Masoumian et al. Absolute distance prediction based on deep learning object detection and monocular depth estimation models
CN116229452B (zh) 一种基于改进的多尺度特征融合的点云三维目标检测方法
CN115049130B (zh) 一种基于时空金字塔的自动驾驶轨迹预测方法
CN116612468A (zh) 基于多模态融合与深度注意力机制的三维目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240524

Address after: Room A1301, 13th Floor, Building 17, Phase II, Innovation Park, No. 7 Wulongjiang Middle Avenue, High tech Zone, Fuzhou City, Fujian Province, 350108

Patentee after: Fuzhou Shixin Technology Co.,Ltd.

Country or region after: China

Address before: Fuzhou University, No.2, wulongjiang North Avenue, Fuzhou University Town, Minhou County, Fuzhou City, Fujian Province

Patentee before: FUZHOU University

Country or region before: China