CN110942484A - 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 - Google Patents

基于遮挡感知和特征金字塔匹配的相机自运动估计方法 Download PDF

Info

Publication number
CN110942484A
CN110942484A CN201911169783.5A CN201911169783A CN110942484A CN 110942484 A CN110942484 A CN 110942484A CN 201911169783 A CN201911169783 A CN 201911169783A CN 110942484 A CN110942484 A CN 110942484A
Authority
CN
China
Prior art keywords
camera
frame
network model
image
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911169783.5A
Other languages
English (en)
Other versions
CN110942484B (zh
Inventor
陈志峰
郭恩特
吴林煌
王涵韬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou Ivisionic Technology Co ltd
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201911169783.5A priority Critical patent/CN110942484B/zh
Publication of CN110942484A publication Critical patent/CN110942484A/zh
Application granted granted Critical
Publication of CN110942484B publication Critical patent/CN110942484B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,首先,获取单目相机采集的图像,剔除其中相机静止时采集的图像;其次,标定相机参数,获得相机内参和畸变系数,对相机采集的图像消畸变;在训练时,搭建深度预测网络、相机运动网络和遮挡感知掩膜网络,构建无监督学习的损失函数,并将事先准备好的图像、相机内参用于训练这三个卷积神经网络,并将训练后获得的卷积神经网络参数保存下来;在单目深度预测时,将新的单目图像输入已经训练好的深度预测网络中,得到稠密的单目深度图;输入连续多帧图像到相机运动网络,相机运动网络的输出即为相机自运动的结果。本发明可以预测单目图像深度和单目图像序列之间相机的自运动。

Description

基于遮挡感知和特征金字塔匹配的相机自运动估计方法
技术领域
本发明涉及单目图像深度预测和相机自运动估计领域,具体涉及一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法。
背景技术
对于机器人或无人驾驶汽车而言,通过图像估计深度和自身运动是至关重要的任务。先前的有监督深度估计方法可以通过端到端的卷积神经网络学习图像和深度之间的关系。同样,视觉里程计也可以通过端到端卷积神经网络学习得到连续帧之间相机的自运动。但是获取深度需要昂贵的高线数激光雷达,获取准确的相机运动需要昂贵的高精度GPS/IMU设备,而且很多已经采集视频的场景没有办法后期再获得准确的稠密深度和位姿作为训练标签,这限制了在新场景的适用性。
相机在运动过程中,单目无监督方法会遇到遮挡、运动物体等问题,运动物体导致两帧匹配的点不满足对极几何约束,遮挡会造成无法正确找到两帧之间的点的正确匹配。先前为了匹配两帧之间的点所提出的光度误差损失函数还会受到光照变化和物体表面非朗伯的影响。在现实场景中,光度一致性假设往往不能得到满足,光照变化和物体表面的反射性质对光度误差有较大的影响。
发明内容
有鉴于此,本发明的目的在于提供一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,可以预测单目图像深度和单目图像序列之间相机的自运动。
为实现上述目的,本发明采用如下技术方案:
一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,包括以下步骤:
步骤S1:通过单目相机采集图像,并预处理,剔除相机静止时采集的图像,保留相机运动时采集的图像作为图像样本;
步骤S2:标定单目相机的相机内参和畸变系数,并将图像样本按比例分为训练集和验证集;
步骤S3:构建深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S4:根据得到的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,构建无监督学习的损失函数;
步骤S5:根据训练集,分别训练深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,得到训练后的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S6:根据得到的验证集,分别验证训练后的三个网络模型,并保存三个网络模型的参数,得到优化后的深度预测网络模型和相机运动网络模型;
步骤S7:将待测单帧图像输入优化后的深度预测网络模型,得到对应深度图;将待测多帧图像输入相机运动网络模型,,得到相机的自运动预估结果。
进一步的,所述步骤S1具体为:
步骤S11:将单目相机安装在移动装置上,采集视频;
步骤S12:提取采集的视频序列中的图像,使用帧间差分法剔除相机没有运动时采集的图像;采集的连续帧图像In和In-1分别表示当前帧和前一帧;统计对应像素的差异,如果当前帧和前一帧相同位置像素值In(p)和In-1(p)的差异累计小于阈值,即∑p|In(p)-In-1(p)|<阈值,就剔除In图像,得到图像样本。
进一步的,所述步骤S2具体为:
步骤S21:相机从不同角度不同位置采集标定板的图像;
步骤S22:根据采集的标定板图像,使用OpenCV自带的张正友标定法标定相机内参和畸变参数,并对步骤S1中所有图像消畸变;
步骤S23:将消畸变后的图像按照100:1划分为训练集和验证集。
进一步的,所述步骤S4具体为:
步骤S41:输入目标图像In到深度预测网络模型,并输出预测的深度Dn
步骤S42:输入目标图像In和附近帧If到相机运动网络模型,并输出预测的相机从In到附近帧If的自运动Tt→f,附近帧If为当前帧的前后帧;
步骤S43:输入图像In和附近帧If遮挡感知掩膜网络模型,并输出附近帧If所对应的一致性掩膜Mf,通过一致性掩膜Mf得到遮挡掩膜Vf
步骤S44:从不同视角观察朗伯的物体表面,表面亮度都是一致的,构建光度误差损失Lp
步骤S45:为了使得深度平滑并且边缘锐利,构建基于图像梯度的深度平滑损失函数
Figure BDA0002288391680000041
其中
Figure BDA0002288391680000042
Figure BDA0002288391680000043
分别表示X方向和Y方向梯度;
步骤S46:计算掩膜正则项和掩膜平滑损失,其中掩膜正则项为
Figure BDA0002288391680000044
掩膜平滑损失为
Figure BDA0002288391680000045
Figure BDA0002288391680000046
其中一致性掩膜M-1,M1∈Mf分别表示当前帧的前后帧所对应的掩膜;
步骤S47:构建目标帧和附近帧的特征金字塔,通过特征金字塔计算特征金字塔匹配误差损失函数Lf
步骤S48:根据步骤S44、S45、S46和S47构建总的损失函数L=LpsLsmLmmsLmsfLf,其中λsmmsf分别表示深度平滑损失函数、掩膜正则项、掩膜平滑损失函数和特征金字塔损失函数的权重。
进一步的,所述步骤S43具体为:
步骤S431:输入图像In和附近帧If到遮挡感知掩膜网络模型,并输出附近帧If多对应的一致性掩膜Mf
步骤S432:根据得到的一致性掩膜M-1,M1∈Mf中提取遮挡掩膜V-1,V1∈Vf分别表示像素从目标帧投影到前后帧是否可见,M-1,M1分别表示前后帧中像素满足光度一致性假设的概率;pn为图像上的点,当M-1(pn)>M1(pn)时,表示pn在前一帧比后一帧可见概率更高,令V-1(pn)=1,V1(pn)=0;同样的,当M-1(pn)<M1(pn)时,令V-1(pn)=0,V1(pn)=1;若M-1(pn)=M1(pn),V-1(pt)=0.5,V1(pt)=0.5,表示前后帧都可见。
进一步的,所述步骤S47具体为:
步骤S471:输入目标帧In和附近帧If到同样参数的深度预测网络模型;深度预测网络结构的编码部分卷积产生L=5层特征金字塔,他们对应的通道数为64,64,128,256,512;目标帧的特征金字塔中的特征图用
Figure BDA0002288391680000051
来表示,l代表特征图在特征金字塔中的层数,
Figure BDA0002288391680000052
表示附近帧的第l层特征图;
步骤S472:根据预测的目标图像深度Dn和相机自运动Tt→f,获得附近帧特征图投影位置
Figure BDA0002288391680000053
并先将目标图像深度Dn下采样至特征图大小为
Figure BDA0002288391680000054
通过投影几何关系将目标特征图
Figure BDA0002288391680000055
上的点投影到附近帧特征图,
Figure BDA0002288391680000056
步骤S473:双线性插值合成投影位置
Figure BDA0002288391680000057
的特征值,即合成目标特征图
Figure BDA0002288391680000058
对应的重构特征图
Figure BDA0002288391680000059
Figure BDA00022883916800000510
其中
Figure BDA0002288391680000061
为位于
Figure BDA0002288391680000062
左上、右上、左下和右下的整像素位置,ωi,j为双线性插值权重,
Figure BDA0002288391680000063
步骤S474:使用余弦相似度衡量目标特征图
Figure BDA0002288391680000064
和重构特征图
Figure BDA0002288391680000065
之间的相似性,
Figure BDA0002288391680000066
特征图金字塔匹配损失函数为,
Figure BDA0002288391680000067
Figure BDA0002288391680000068
本发明与现有技术相比具有以下有益效果:
本发明使用单目摄像头采集的图像进行学习,通过单帧图像预测深度,通过多帧图像估计相机自运动,并且可以克服遮挡,运动物体和光照变化等影响。
附图说明
图1为本发明实施例的结构框图;
图2为本发明实施例中步骤S2中所使用的标定板;
图3为本发明实施例中步骤S3中编码部分ResNet-18网络架构表;
图4为本发明实施例中步骤S3中编码部分ResNet-18的深度学习网络架构图;
图5为本发明实施例中步骤S3中解码部分网络架构表;
图6为本发明实施例中步骤S4损失函数构建结构图;
图7为本发明实施例中步骤S47特征金字塔损失函数的结构框图;
图8为本发明实施例中步骤S7网络输出结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,包括以下步骤:
步骤S1:通过单目相机采集图像,并预处理,剔除相机静止时采集的图像,保留相机运动时采集的图像作为图像样本;
步骤S2:标定单目相机的相机内参和畸变系数,并将图像样本按比例分为训练集和验证集;
步骤S3:构建深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S4:根据得到的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,构建无监督学习的损失函数;
步骤S5:根据训练集,分别训练深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,得到训练后的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S6:根据得到的验证集,分别验证训练后的三个网络模型,并保存三个网络模型的参数,得到优化后的深度预测网络模型和相机运动网络模型;
步骤S7:将待测单帧图像输入优化后的深度预测网络模型,得到对应深度图;将待测多帧图像输入相机运动网络模型,,得到相机的自运动预估结果。
在本实施例中,所述步骤S1具体为:
步骤S11:将单目相机安装在移动装置上,采集视频;
步骤S12:提取采集的视频序列中的图像,使用帧间差分法剔除相机没有运动时采集的图像;采集的连续帧图像In和In-1分别表示当前帧和前一帧;统计对应像素的差异,如果当前帧和前一帧相同位置像素值In(p)和In-1(p)的差异累计小于阈值,即∑p|In(p)-In-1(p)|<阈值,就剔除In图像,得到图像样本。
在本实施例中,所述步骤S2具体为:
步骤S21:相机从不同角度不同位置采集标定板的图像;
步骤S22:根据采集的标定板图像,使用OpenCV自带的张正友标定法标定相机内参和畸变参数,并对步骤S1中所有图像消畸变;
步骤S23:将消畸变后的图像按照100:1划分为训练集和验证集。
在本实施例中,所述步骤S3,具体包括以下步骤:
步骤S31:深度预测网络和遮挡感知掩膜网络,他们的结构相同,结构都为编码-解码架构,并使用跳跃连接将解码部分浅层信息传递给编码部分;首先搭建编码部分;
步骤S32:再搭建解码部分。
所述步骤S31所涉及的深度预测网络和遮挡感知掩膜网络的编码部分如下:
搭建ResNet-18的深度学习卷积神经网络架构作为编码部分,输入RGB图像,通道数为3,ResNet-18的卷积神经网络结构如图3所示;
输入层:输入一张RGB图像;
conv1:本实施例中第一个卷积层的尺寸是7×7,卷积深度为64,设定步长为2,采用单位为2的0填充方式;
maxpool:本实施例中设定第一个池化步长为2,池化尺寸为3×3,池化方式为最大池化;
conv2_x:如图4所示,本实施例中ResNet-18卷积神经网络的残差连接部分,x是这一层残差块的输入,也称作F(x)为残差,x为输入值,F(x)是经过第一层线性变化并激活后的输出,该图表示在残差网络中,第二层进行线性变化之后激活之前,F(x)加入了这一层输入值x,然后再进行激活后输出。在第二层输出值激活前加入x,这条路径称作shortcut连接。F(x)如下式所示:
F(x)=H(x)-x
conv3_x、conv4_x、conv5_x与conv2_x的结构相似,差别就是输入x的向量尺寸和各个卷积层的卷积深度不同;
所述步骤S32所涉及的深度预测网络和遮挡感知掩膜网络的解码部分如下:
解码部分的卷积神经网络结构如图5所示,输入为步骤S31得到的特征,由conv1、conv2_x,conv3_x,conv4_x,conv5_x输出。
Upconv5:本实施例中卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,最后采用ELU激活。Upconv4,Upconv3,Upconv2,Upconv1与Upconv5参数相同除了通道数不一样,通道数分别为128,64,32,16。
Iconv5:本实施例中输入为upconv5输出的上采样和步骤S31中conv4_x输出的特征图,卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,最后采用ELU激活。Iconv4,Iconv3,Iconv2,Iconv1与Iconv5参数相同,除了通道数不一样,通道数分别为128,64,32,16。
Disp4:本实施例中输入为Iconv5输出,卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,最后采用Sigmoid激活。Disp3,Disp2,Disp1与Disp4相同。
所述步骤S3所涉及的相机运动网络如下:
相机编码网络部分与所述步骤S31编码部分结构相同。
所述步骤S3所涉及的相机运动网络解码部分如下:
相机运动网络解码部分解码部分输入为相机编码网络部分得到的特征,由conv_1、conv2_x,conv3_x,conv4_x输出。
Conv_1:本实施例中卷积层的尺寸是1×1,卷积深度为256,设定步长为1,使用RELU激活;
Conv_2:本实施例中卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,使用RELU激活;
Conv_3:本实施例中卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,使用RELU激活;
Conv_4:本实施例中卷积层的尺寸是1×1,卷积深度为6,设定步长为1,变形为6*1输出;
在本实施例中,所述步骤S4具体为:
步骤S41:输入目标图像In到深度预测网络模型,并输出预测的深度Dn
步骤S42:输入目标图像In和附近帧If到相机运动网络模型,并输出预测的相机从In到附近帧If的自运动Tt→f,附近帧If为当前帧的前后帧;
步骤S43:输入图像In和附近帧If遮挡感知掩膜网络模型,并输出附近帧If所对应的一致性掩膜Mf,通过一致性掩膜Mf得到遮挡掩膜Vf
步骤S44:从不同视角观察朗伯的物体表面,表面亮度都是一致的,构建光度误差损失Lp
步骤S45:为了使得深度平滑并且边缘锐利,构建基于图像梯度的深度平滑损失函数
Figure BDA0002288391680000111
其中
Figure BDA0002288391680000112
Figure BDA0002288391680000113
分别表示X方向和Y方向梯度;
步骤S46:计算掩膜正则项和掩膜平滑损失,其中掩膜正则项为
Figure BDA0002288391680000114
掩膜平滑损失为
Figure BDA0002288391680000115
Figure BDA0002288391680000116
其中一致性掩膜M-1,M1∈Mf分别表示当前帧的前后帧所对应的掩膜;
步骤S47:构建目标帧和附近帧的特征金字塔,通过特征金字塔计算特征金字塔匹配误差损失函数Lf
步骤S48:根据步骤S44、S45、S46和S47构建总的损失函数L=LpsLsmLmmsLmsfLf,其中λsmmsf分别表示深度平滑损失函数、掩膜正则项、掩膜平滑损失函数和特征金字塔损失函数的权重。
在本实施例中,所述步骤S43具体为:
步骤S431:输入图像In和附近帧If到遮挡感知掩膜网络模型,并输出附近帧If多对应的一致性掩膜Mf
步骤S432:根据得到的一致性掩膜M-1,M1∈Mf中提取遮挡掩膜V-1,V1∈Vf分别表示像素从目标帧投影到前后帧是否可见,M-1,M1分别表示前后帧中像素满足光度一致性假设的概率;pn为图像上的点,当M-1(pn)>M1(pn)时,表示pn在前一帧比后一帧可见概率更高,令V-1(pn)=1,V1(pn)=0;同样的,当M-1(pn)<M1(pn)时,令V-1(pn)=0,V1(pn)=1;若M-1(pn)=M1(pn),V-1(pt)=0.5,V1(pt)=0.5,表示前后帧都可见。
在本实施例中,所述步骤S47具体为:
步骤S471:输入目标帧In和附近帧If到同样参数的深度预测网络模型;深度预测网络结构的编码部分卷积产生L=5层特征金字塔,他们对应的通道数为64,64,128,256,512;目标帧的特征金字塔中的特征图用
Figure BDA0002288391680000121
来表示,l代表特征图在特征金字塔中的层数,
Figure BDA0002288391680000122
表示附近帧的第l层特征图;
步骤S472:根据预测的目标图像深度Dn和相机自运动Tt→f,获得附近帧特征图投影位置
Figure BDA0002288391680000123
并先将目标图像深度Dn下采样至特征图大小为
Figure BDA0002288391680000124
通过投影几何关系将目标特征图
Figure BDA0002288391680000125
上的点投影到附近帧特征图,
Figure BDA0002288391680000131
步骤S473:双线性插值合成投影位置
Figure BDA0002288391680000132
的特征值,即合成目标特征图
Figure BDA0002288391680000133
对应的重构特征图
Figure BDA0002288391680000134
Figure BDA0002288391680000135
其中
Figure BDA0002288391680000136
为位于
Figure BDA0002288391680000137
左上、右上、左下和右下的整像素位置,ωi,j为双线性插值权重,
Figure BDA0002288391680000138
步骤S474:使用余弦相似度衡量目标特征图
Figure BDA0002288391680000139
和重构特征图
Figure BDA00022883916800001310
之间的相似性,
Figure BDA00022883916800001311
特征图金字塔匹配损失函数为,
Figure BDA00022883916800001312
Figure BDA00022883916800001313
在本实施例中,所述步骤S6具体包括以下步骤:
步骤S61:在本实施例中,保存下模型训练过程中每个epoch卷积神经网络参数;
步骤S62:在本实施例中,使用验证集对步骤S61中保存的每个卷积神经网络参数验证,留下结果最好的作为最终模型参数。
在本实施例中,所述步骤S7具体包括以下步骤:
步骤S71:将步骤2中得到的测试集数据输入步骤6训练好的深度神经网络中,分别将单帧图像输入到深度预测网络,将3帧连续图像输入相机运动网络,得到对应深度图和相机自运动。得到的深度图样例如图8所示。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (6)

1.一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,包括以下步骤:
步骤S1:通过单目相机采集图像,并预处理,剔除相机静止时采集的图像,保留相机运动时采集的图像作为图像样本;
步骤S2:标定单目相机的相机内参和畸变系数,并将图像样本按比例分为训练集和验证集;
步骤S3:构建深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S4:根据得到的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,构建无监督学习的损失函数;
步骤S5:根据训练集,分别训练深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,得到训练后的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S6:根据得到的验证集,分别验证训练后的三个网络模型,并保存三个网络模型的参数,得到优化后的深度预测网络模型和相机运动网络模型;
步骤S7:将待测单帧图像输入优化后的深度预测网络模型,得到对应深度图;将待测多帧图像输入相机运动网络模型,,得到相机的自运动预估结果。
2.根据权利要求1所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S1具体为:
步骤S11:将单目相机安装在移动装置上,采集视频;
步骤S12:提取采集的视频序列中的图像,使用帧间差分法剔除相机没有运动时采集的图像;采集的连续帧图像In和In-1分别表示当前帧和前一帧;统计对应像素的差异,如果当前帧和前一帧相同位置像素值In(p)和In-1(p)的差异累计小于阈值,即∑p|In(p)-In-1(p)|<阈值,就剔除In图像,得到图像样本。
3.根据权利要求1所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S2具体为:
步骤S21:相机从不同角度不同位置采集标定板的图像;
步骤S22:根据采集的标定板图像,使用OpenCV自带的张正友标定法标定相机内参和畸变参数,并对步骤S1中所有图像消畸变;
步骤S23:将消畸变后的图像按照100∶1划分为训练集和验证集。
4.根据权利要求1所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S4具体为:
步骤S41:输入目标图像In到深度预测网络模型,并输出预测的深度Dn
步骤S42:输入目标图像In和附近帧If到相机运动网络模型,并输出预测的相机从In到附近帧If的自运动Tt→f,附近帧If为当前帧的前后帧;
步骤S43:输入图像In和附近帧If遮挡感知掩膜网络模型,并输出附近帧If所对应的一致性掩膜Mf,通过一致性掩膜Mf得到遮挡掩膜Vf
步骤S44:从不同视角观察朗伯的物体表面,表面亮度都是一致的,构建光度误差损失Lp
步骤S45:为了使得深度平滑并且边缘锐利,构建基于图像梯度的深度平滑损失函数
Figure FDA0002288391670000031
其中
Figure FDA0002288391670000032
Figure FDA0002288391670000033
分别表示X方向和Y方向梯度;
步骤S46:计算掩膜正则项和掩膜平滑损失,其中掩膜正则项为
Figure FDA0002288391670000034
掩膜平滑损失为
Figure FDA0002288391670000035
Figure FDA0002288391670000036
其中一致性掩膜M-1,M1∈Mf分别表示当前帧的前后帧所对应的掩膜;
步骤S47:构建目标帧和附近帧的特征金字塔,通过特征金字塔计算特征金字塔匹配误差损失函数Lf
步骤S48:根据步骤S44、S45、S46和S47构建总的损失函数L=LpsLsmLmmsLmsfLf,其中λs,λm,λms,λf分别表示深度平滑损失函数、掩膜正则项、掩膜平滑损失函数和特征金字塔损失函数的权重。
5.根据权利要求4所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S43具体为:
步骤S431:输入图像In和附近帧If到遮挡感知掩膜网络模型,并输出附近帧If多对应的一致性掩膜Mf
步骤S432:根据得到的一致性掩膜M-1,M1∈Mf中提取遮挡掩膜V-1,V1∈Vf分别表示像素从目标帧投影到前后帧是否可见,M-1,M1分别表示前后帧中像素满足光度一致性假设的概率;pn为图像上的点,当M-1(pn)>M1(pn)时,表示pn在前一帧比后一帧可见概率更高,令V-1(pn)=1,V1(pn)=0;同样的,当M-1(pn)<M1(pn)时,令V-1(pn)=0,V1(pn)=1;若M-1(pn)=M1(pn),V-1(pt)=0.5,V1(pt)=0.5,表示前后帧都可见。
6.根据权利要求4所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S47具体为:
步骤S471:输入目标帧In和附近帧If到同样参数的深度预测网络模型;深度预测网络结构的编码部分卷积产生L=5层特征金字塔,他们对应的通道数为64,64,128,256,512;目标帧的特征金字塔中的特征图用
Figure FDA0002288391670000041
来表示,l代表特征图在特征金字塔中的层数,
Figure FDA0002288391670000042
表示附近帧的第l层特征图;
步骤S472:根据预测的目标图像深度Dn和相机自运动Tt→f,获得附近帧特征图投影位置
Figure FDA0002288391670000043
并先将目标图像深度Dn下采样至特征图大小为
Figure FDA0002288391670000044
通过投影几何关系将目标特征图
Figure FDA0002288391670000045
上的点投影到附近帧特征图,
Figure FDA0002288391670000046
步骤S473:双线性插值合成投影位置
Figure FDA0002288391670000051
的特征值,即合成目标特征图
Figure FDA0002288391670000052
对应的重构特征图
Figure FDA0002288391670000053
Figure FDA0002288391670000054
其中
Figure FDA0002288391670000055
为位于
Figure FDA0002288391670000056
左上、右上、左下和右下的整像素位置,ωi,j为双线性插值权重,
Figure FDA0002288391670000057
步骤S474:使用余弦相似度衡量目标特征图
Figure FDA0002288391670000058
和重构特征图
Figure FDA0002288391670000059
之间的相似性,
Figure FDA00022883916700000510
特征图金字塔匹配损失函数为,
Figure FDA00022883916700000511
Figure FDA00022883916700000512
CN201911169783.5A 2019-11-26 2019-11-26 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 Active CN110942484B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911169783.5A CN110942484B (zh) 2019-11-26 2019-11-26 基于遮挡感知和特征金字塔匹配的相机自运动估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911169783.5A CN110942484B (zh) 2019-11-26 2019-11-26 基于遮挡感知和特征金字塔匹配的相机自运动估计方法

Publications (2)

Publication Number Publication Date
CN110942484A true CN110942484A (zh) 2020-03-31
CN110942484B CN110942484B (zh) 2022-07-12

Family

ID=69908028

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911169783.5A Active CN110942484B (zh) 2019-11-26 2019-11-26 基于遮挡感知和特征金字塔匹配的相机自运动估计方法

Country Status (1)

Country Link
CN (1) CN110942484B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540000A (zh) * 2020-04-28 2020-08-14 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111813996A (zh) * 2020-07-22 2020-10-23 四川长虹电器股份有限公司 基于单帧和连续多帧抽样并行的视频搜索方法
CN112270692A (zh) * 2020-10-15 2021-01-26 电子科技大学 一种基于超分辨的单目视频结构和运动预测的自监督方法
CN112907620A (zh) * 2021-01-25 2021-06-04 北京地平线机器人技术研发有限公司 相机位姿的估计方法、装置、可读存储介质及电子设备
CN116524026A (zh) * 2023-05-08 2023-08-01 哈尔滨理工大学 一种基于频域和语义的动态视觉slam方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242910A (zh) * 2018-08-21 2019-01-18 电子科技大学 一种基于任意已知平面形状的单目相机自标定方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110322499A (zh) * 2019-07-09 2019-10-11 浙江科技学院 一种基于多层特征的单目图像深度估计方法
US20190333231A1 (en) * 2017-08-11 2019-10-31 Zhejiang University Stereo visual odometry method based on image gradient joint optimization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190333231A1 (en) * 2017-08-11 2019-10-31 Zhejiang University Stereo visual odometry method based on image gradient joint optimization
CN109242910A (zh) * 2018-08-21 2019-01-18 电子科技大学 一种基于任意已知平面形状的单目相机自标定方法
CN109410261A (zh) * 2018-10-08 2019-03-01 浙江科技学院 基于金字塔池化模块的单目图像深度估计方法
CN110163246A (zh) * 2019-04-08 2019-08-23 杭州电子科技大学 基于卷积神经网络的单目光场图像无监督深度估计方法
CN110322499A (zh) * 2019-07-09 2019-10-11 浙江科技学院 一种基于多层特征的单目图像深度估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BO LI ET AL.: "Pitch angle estimation using a Vehicle-Mounted monocular camera for range measurement", 《2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP)》 *
罗倩慧: "室内外环境中的物体检测", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
郭恩特 等: "图像和惯性传感器相结合的摄像机定位和物体三维位置估计", 《福州大学学报(自然科学版)》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540000A (zh) * 2020-04-28 2020-08-14 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111540000B (zh) * 2020-04-28 2021-11-05 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111813996A (zh) * 2020-07-22 2020-10-23 四川长虹电器股份有限公司 基于单帧和连续多帧抽样并行的视频搜索方法
CN112270692A (zh) * 2020-10-15 2021-01-26 电子科技大学 一种基于超分辨的单目视频结构和运动预测的自监督方法
CN112270692B (zh) * 2020-10-15 2022-07-05 电子科技大学 一种基于超分辨的单目视频结构和运动预测的自监督方法
CN112907620A (zh) * 2021-01-25 2021-06-04 北京地平线机器人技术研发有限公司 相机位姿的估计方法、装置、可读存储介质及电子设备
CN116524026A (zh) * 2023-05-08 2023-08-01 哈尔滨理工大学 一种基于频域和语义的动态视觉slam方法
CN116524026B (zh) * 2023-05-08 2023-10-27 哈尔滨理工大学 一种基于频域和语义的动态视觉slam方法

Also Published As

Publication number Publication date
CN110942484B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110942484B (zh) 基于遮挡感知和特征金字塔匹配的相机自运动估计方法
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN108986136B (zh) 一种基于语义分割的双目场景流确定方法及系统
CN113140011B (zh) 一种红外热成像单目视觉测距方法及相关组件
JP3679426B2 (ja) 画像データを符号化して夫々がコヒーレントな動きの領域を表わす複数の層とそれら層に付随する動きパラメータとにするシステム
CN114782691A (zh) 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN111582483A (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN111354030B (zh) 嵌入SENet单元的无监督单目图像深度图生成方法
CN113284173B (zh) 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法
CN115035171B (zh) 基于自注意力导向特征融合的自监督单目深度估计方法
CN111325782A (zh) 一种基于多尺度统一的无监督单目视图深度估计方法
CN110009675A (zh) 生成视差图的方法、装置、介质及设备
CN114663509A (zh) 一种关键点热力图引导的自监督单目视觉里程计方法
CN109903315A (zh) 用于光流预测的方法、装置、设备以及可读存储介质
CN112270691A (zh) 一种基于动态滤波器网络的单目视频结构和运动预测方法
CN116468769A (zh) 一种基于图像的深度信息估计方法
CN114913182A (zh) 图像分割方法、装置、设备和存储介质
CN116402876A (zh) 双目深度估计方法、装置、嵌入式设备和可读存储介质
CN112233149A (zh) 场景流的确定方法及装置、存储介质、电子装置
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN113469930B (zh) 图像处理方法、装置、及计算机设备
CN115035172A (zh) 基于置信度分级及级间融合增强的深度估计方法及系统
CN113191301B (zh) 融合时序和空间信息的视频密集人群计数方法及系统
CN108830890B (zh) 一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230717

Address after: Room 203, No. 397, Xihong, Hongshan Town, Gulou District, Fuzhou City, Fujian Province 350025

Patentee after: FUZHOU IVISIONIC TECHNOLOGY Co.,Ltd.

Address before: Fuzhou University, No.2, wulongjiang North Avenue, Fuzhou University Town, Minhou County, Fuzhou City, Fujian Province

Patentee before: FUZHOU University