CN110942484A - 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 - Google Patents
基于遮挡感知和特征金字塔匹配的相机自运动估计方法 Download PDFInfo
- Publication number
- CN110942484A CN110942484A CN201911169783.5A CN201911169783A CN110942484A CN 110942484 A CN110942484 A CN 110942484A CN 201911169783 A CN201911169783 A CN 201911169783A CN 110942484 A CN110942484 A CN 110942484A
- Authority
- CN
- China
- Prior art keywords
- camera
- frame
- network model
- image
- mask
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008447 perception Effects 0.000 title claims abstract description 34
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000003068 static effect Effects 0.000 claims abstract description 4
- 238000009499 grossing Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 8
- 230000000007 visual effect Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 10
- 230000004913 activation Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011176 pooling Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,首先,获取单目相机采集的图像,剔除其中相机静止时采集的图像;其次,标定相机参数,获得相机内参和畸变系数,对相机采集的图像消畸变;在训练时,搭建深度预测网络、相机运动网络和遮挡感知掩膜网络,构建无监督学习的损失函数,并将事先准备好的图像、相机内参用于训练这三个卷积神经网络,并将训练后获得的卷积神经网络参数保存下来;在单目深度预测时,将新的单目图像输入已经训练好的深度预测网络中,得到稠密的单目深度图;输入连续多帧图像到相机运动网络,相机运动网络的输出即为相机自运动的结果。本发明可以预测单目图像深度和单目图像序列之间相机的自运动。
Description
技术领域
本发明涉及单目图像深度预测和相机自运动估计领域,具体涉及一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法。
背景技术
对于机器人或无人驾驶汽车而言,通过图像估计深度和自身运动是至关重要的任务。先前的有监督深度估计方法可以通过端到端的卷积神经网络学习图像和深度之间的关系。同样,视觉里程计也可以通过端到端卷积神经网络学习得到连续帧之间相机的自运动。但是获取深度需要昂贵的高线数激光雷达,获取准确的相机运动需要昂贵的高精度GPS/IMU设备,而且很多已经采集视频的场景没有办法后期再获得准确的稠密深度和位姿作为训练标签,这限制了在新场景的适用性。
相机在运动过程中,单目无监督方法会遇到遮挡、运动物体等问题,运动物体导致两帧匹配的点不满足对极几何约束,遮挡会造成无法正确找到两帧之间的点的正确匹配。先前为了匹配两帧之间的点所提出的光度误差损失函数还会受到光照变化和物体表面非朗伯的影响。在现实场景中,光度一致性假设往往不能得到满足,光照变化和物体表面的反射性质对光度误差有较大的影响。
发明内容
有鉴于此,本发明的目的在于提供一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,可以预测单目图像深度和单目图像序列之间相机的自运动。
为实现上述目的,本发明采用如下技术方案:
一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,包括以下步骤:
步骤S1:通过单目相机采集图像,并预处理,剔除相机静止时采集的图像,保留相机运动时采集的图像作为图像样本;
步骤S2:标定单目相机的相机内参和畸变系数,并将图像样本按比例分为训练集和验证集;
步骤S3:构建深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S4:根据得到的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,构建无监督学习的损失函数;
步骤S5:根据训练集,分别训练深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,得到训练后的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S6:根据得到的验证集,分别验证训练后的三个网络模型,并保存三个网络模型的参数,得到优化后的深度预测网络模型和相机运动网络模型;
步骤S7:将待测单帧图像输入优化后的深度预测网络模型,得到对应深度图;将待测多帧图像输入相机运动网络模型,,得到相机的自运动预估结果。
进一步的,所述步骤S1具体为:
步骤S11:将单目相机安装在移动装置上,采集视频;
步骤S12:提取采集的视频序列中的图像,使用帧间差分法剔除相机没有运动时采集的图像;采集的连续帧图像In和In-1分别表示当前帧和前一帧;统计对应像素的差异,如果当前帧和前一帧相同位置像素值In(p)和In-1(p)的差异累计小于阈值,即∑p|In(p)-In-1(p)|<阈值,就剔除In图像,得到图像样本。
进一步的,所述步骤S2具体为:
步骤S21:相机从不同角度不同位置采集标定板的图像;
步骤S22:根据采集的标定板图像,使用OpenCV自带的张正友标定法标定相机内参和畸变参数,并对步骤S1中所有图像消畸变;
步骤S23:将消畸变后的图像按照100:1划分为训练集和验证集。
进一步的,所述步骤S4具体为:
步骤S41:输入目标图像In到深度预测网络模型,并输出预测的深度Dn;
步骤S42:输入目标图像In和附近帧If到相机运动网络模型,并输出预测的相机从In到附近帧If的自运动Tt→f,附近帧If为当前帧的前后帧;
步骤S43:输入图像In和附近帧If遮挡感知掩膜网络模型,并输出附近帧If所对应的一致性掩膜Mf,通过一致性掩膜Mf得到遮挡掩膜Vf;
步骤S44:从不同视角观察朗伯的物体表面,表面亮度都是一致的,构建光度误差损失Lp;
步骤S45:为了使得深度平滑并且边缘锐利,构建基于图像梯度的深度平滑损失函数
步骤S47:构建目标帧和附近帧的特征金字塔,通过特征金字塔计算特征金字塔匹配误差损失函数Lf;
步骤S48:根据步骤S44、S45、S46和S47构建总的损失函数L=Lp+λsLs+λmLm+λmsLms+λfLf,其中λs,λm,λms,λf分别表示深度平滑损失函数、掩膜正则项、掩膜平滑损失函数和特征金字塔损失函数的权重。
进一步的,所述步骤S43具体为:
步骤S431:输入图像In和附近帧If到遮挡感知掩膜网络模型,并输出附近帧If多对应的一致性掩膜Mf;
步骤S432:根据得到的一致性掩膜M-1,M1∈Mf中提取遮挡掩膜V-1,V1∈Vf分别表示像素从目标帧投影到前后帧是否可见,M-1,M1分别表示前后帧中像素满足光度一致性假设的概率;pn为图像上的点,当M-1(pn)>M1(pn)时,表示pn在前一帧比后一帧可见概率更高,令V-1(pn)=1,V1(pn)=0;同样的,当M-1(pn)<M1(pn)时,令V-1(pn)=0,V1(pn)=1;若M-1(pn)=M1(pn),V-1(pt)=0.5,V1(pt)=0.5,表示前后帧都可见。
进一步的,所述步骤S47具体为:
步骤S471:输入目标帧In和附近帧If到同样参数的深度预测网络模型;深度预测网络结构的编码部分卷积产生L=5层特征金字塔,他们对应的通道数为64,64,128,256,512;目标帧的特征金字塔中的特征图用来表示,l代表特征图在特征金字塔中的层数,表示附近帧的第l层特征图;
本发明与现有技术相比具有以下有益效果:
本发明使用单目摄像头采集的图像进行学习,通过单帧图像预测深度,通过多帧图像估计相机自运动,并且可以克服遮挡,运动物体和光照变化等影响。
附图说明
图1为本发明实施例的结构框图;
图2为本发明实施例中步骤S2中所使用的标定板;
图3为本发明实施例中步骤S3中编码部分ResNet-18网络架构表;
图4为本发明实施例中步骤S3中编码部分ResNet-18的深度学习网络架构图;
图5为本发明实施例中步骤S3中解码部分网络架构表;
图6为本发明实施例中步骤S4损失函数构建结构图;
图7为本发明实施例中步骤S47特征金字塔损失函数的结构框图;
图8为本发明实施例中步骤S7网络输出结果图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1,本发明提供一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,包括以下步骤:
步骤S1:通过单目相机采集图像,并预处理,剔除相机静止时采集的图像,保留相机运动时采集的图像作为图像样本;
步骤S2:标定单目相机的相机内参和畸变系数,并将图像样本按比例分为训练集和验证集;
步骤S3:构建深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S4:根据得到的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,构建无监督学习的损失函数;
步骤S5:根据训练集,分别训练深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,得到训练后的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S6:根据得到的验证集,分别验证训练后的三个网络模型,并保存三个网络模型的参数,得到优化后的深度预测网络模型和相机运动网络模型;
步骤S7:将待测单帧图像输入优化后的深度预测网络模型,得到对应深度图;将待测多帧图像输入相机运动网络模型,,得到相机的自运动预估结果。
在本实施例中,所述步骤S1具体为:
步骤S11:将单目相机安装在移动装置上,采集视频;
步骤S12:提取采集的视频序列中的图像,使用帧间差分法剔除相机没有运动时采集的图像;采集的连续帧图像In和In-1分别表示当前帧和前一帧;统计对应像素的差异,如果当前帧和前一帧相同位置像素值In(p)和In-1(p)的差异累计小于阈值,即∑p|In(p)-In-1(p)|<阈值,就剔除In图像,得到图像样本。
在本实施例中,所述步骤S2具体为:
步骤S21:相机从不同角度不同位置采集标定板的图像;
步骤S22:根据采集的标定板图像,使用OpenCV自带的张正友标定法标定相机内参和畸变参数,并对步骤S1中所有图像消畸变;
步骤S23:将消畸变后的图像按照100:1划分为训练集和验证集。
在本实施例中,所述步骤S3,具体包括以下步骤:
步骤S31:深度预测网络和遮挡感知掩膜网络,他们的结构相同,结构都为编码-解码架构,并使用跳跃连接将解码部分浅层信息传递给编码部分;首先搭建编码部分;
步骤S32:再搭建解码部分。
所述步骤S31所涉及的深度预测网络和遮挡感知掩膜网络的编码部分如下:
搭建ResNet-18的深度学习卷积神经网络架构作为编码部分,输入RGB图像,通道数为3,ResNet-18的卷积神经网络结构如图3所示;
输入层:输入一张RGB图像;
conv1:本实施例中第一个卷积层的尺寸是7×7,卷积深度为64,设定步长为2,采用单位为2的0填充方式;
maxpool:本实施例中设定第一个池化步长为2,池化尺寸为3×3,池化方式为最大池化;
conv2_x:如图4所示,本实施例中ResNet-18卷积神经网络的残差连接部分,x是这一层残差块的输入,也称作F(x)为残差,x为输入值,F(x)是经过第一层线性变化并激活后的输出,该图表示在残差网络中,第二层进行线性变化之后激活之前,F(x)加入了这一层输入值x,然后再进行激活后输出。在第二层输出值激活前加入x,这条路径称作shortcut连接。F(x)如下式所示:
F(x)=H(x)-x
conv3_x、conv4_x、conv5_x与conv2_x的结构相似,差别就是输入x的向量尺寸和各个卷积层的卷积深度不同;
所述步骤S32所涉及的深度预测网络和遮挡感知掩膜网络的解码部分如下:
解码部分的卷积神经网络结构如图5所示,输入为步骤S31得到的特征,由conv1、conv2_x,conv3_x,conv4_x,conv5_x输出。
Upconv5:本实施例中卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,最后采用ELU激活。Upconv4,Upconv3,Upconv2,Upconv1与Upconv5参数相同除了通道数不一样,通道数分别为128,64,32,16。
Iconv5:本实施例中输入为upconv5输出的上采样和步骤S31中conv4_x输出的特征图,卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,最后采用ELU激活。Iconv4,Iconv3,Iconv2,Iconv1与Iconv5参数相同,除了通道数不一样,通道数分别为128,64,32,16。
Disp4:本实施例中输入为Iconv5输出,卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,最后采用Sigmoid激活。Disp3,Disp2,Disp1与Disp4相同。
所述步骤S3所涉及的相机运动网络如下:
相机编码网络部分与所述步骤S31编码部分结构相同。
所述步骤S3所涉及的相机运动网络解码部分如下:
相机运动网络解码部分解码部分输入为相机编码网络部分得到的特征,由conv_1、conv2_x,conv3_x,conv4_x输出。
Conv_1:本实施例中卷积层的尺寸是1×1,卷积深度为256,设定步长为1,使用RELU激活;
Conv_2:本实施例中卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,使用RELU激活;
Conv_3:本实施例中卷积层的尺寸是3×3,卷积深度为256,设定步长为1,采用单位为1的0填充方式,使用RELU激活;
Conv_4:本实施例中卷积层的尺寸是1×1,卷积深度为6,设定步长为1,变形为6*1输出;
在本实施例中,所述步骤S4具体为:
步骤S41:输入目标图像In到深度预测网络模型,并输出预测的深度Dn;
步骤S42:输入目标图像In和附近帧If到相机运动网络模型,并输出预测的相机从In到附近帧If的自运动Tt→f,附近帧If为当前帧的前后帧;
步骤S43:输入图像In和附近帧If遮挡感知掩膜网络模型,并输出附近帧If所对应的一致性掩膜Mf,通过一致性掩膜Mf得到遮挡掩膜Vf;
步骤S44:从不同视角观察朗伯的物体表面,表面亮度都是一致的,构建光度误差损失Lp;
步骤S45:为了使得深度平滑并且边缘锐利,构建基于图像梯度的深度平滑损失函数
步骤S47:构建目标帧和附近帧的特征金字塔,通过特征金字塔计算特征金字塔匹配误差损失函数Lf;
步骤S48:根据步骤S44、S45、S46和S47构建总的损失函数L=Lp+λsLs+λmLm+λmsLms+λfLf,其中λs,λm,λms,λf分别表示深度平滑损失函数、掩膜正则项、掩膜平滑损失函数和特征金字塔损失函数的权重。
在本实施例中,所述步骤S43具体为:
步骤S431:输入图像In和附近帧If到遮挡感知掩膜网络模型,并输出附近帧If多对应的一致性掩膜Mf;
步骤S432:根据得到的一致性掩膜M-1,M1∈Mf中提取遮挡掩膜V-1,V1∈Vf分别表示像素从目标帧投影到前后帧是否可见,M-1,M1分别表示前后帧中像素满足光度一致性假设的概率;pn为图像上的点,当M-1(pn)>M1(pn)时,表示pn在前一帧比后一帧可见概率更高,令V-1(pn)=1,V1(pn)=0;同样的,当M-1(pn)<M1(pn)时,令V-1(pn)=0,V1(pn)=1;若M-1(pn)=M1(pn),V-1(pt)=0.5,V1(pt)=0.5,表示前后帧都可见。
在本实施例中,所述步骤S47具体为:
步骤S471:输入目标帧In和附近帧If到同样参数的深度预测网络模型;深度预测网络结构的编码部分卷积产生L=5层特征金字塔,他们对应的通道数为64,64,128,256,512;目标帧的特征金字塔中的特征图用来表示,l代表特征图在特征金字塔中的层数,表示附近帧的第l层特征图;
在本实施例中,所述步骤S6具体包括以下步骤:
步骤S61:在本实施例中,保存下模型训练过程中每个epoch卷积神经网络参数;
步骤S62:在本实施例中,使用验证集对步骤S61中保存的每个卷积神经网络参数验证,留下结果最好的作为最终模型参数。
在本实施例中,所述步骤S7具体包括以下步骤:
步骤S71:将步骤2中得到的测试集数据输入步骤6训练好的深度神经网络中,分别将单帧图像输入到深度预测网络,将3帧连续图像输入相机运动网络,得到对应深度图和相机自运动。得到的深度图样例如图8所示。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (6)
1.一种基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,包括以下步骤:
步骤S1:通过单目相机采集图像,并预处理,剔除相机静止时采集的图像,保留相机运动时采集的图像作为图像样本;
步骤S2:标定单目相机的相机内参和畸变系数,并将图像样本按比例分为训练集和验证集;
步骤S3:构建深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S4:根据得到的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,构建无监督学习的损失函数;
步骤S5:根据训练集,分别训练深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型,得到训练后的深度预测网络模型,相机运动网络模型和遮挡感知掩膜网络模型;
步骤S6:根据得到的验证集,分别验证训练后的三个网络模型,并保存三个网络模型的参数,得到优化后的深度预测网络模型和相机运动网络模型;
步骤S7:将待测单帧图像输入优化后的深度预测网络模型,得到对应深度图;将待测多帧图像输入相机运动网络模型,,得到相机的自运动预估结果。
2.根据权利要求1所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S1具体为:
步骤S11:将单目相机安装在移动装置上,采集视频;
步骤S12:提取采集的视频序列中的图像,使用帧间差分法剔除相机没有运动时采集的图像;采集的连续帧图像In和In-1分别表示当前帧和前一帧;统计对应像素的差异,如果当前帧和前一帧相同位置像素值In(p)和In-1(p)的差异累计小于阈值,即∑p|In(p)-In-1(p)|<阈值,就剔除In图像,得到图像样本。
3.根据权利要求1所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S2具体为:
步骤S21:相机从不同角度不同位置采集标定板的图像;
步骤S22:根据采集的标定板图像,使用OpenCV自带的张正友标定法标定相机内参和畸变参数,并对步骤S1中所有图像消畸变;
步骤S23:将消畸变后的图像按照100∶1划分为训练集和验证集。
4.根据权利要求1所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S4具体为:
步骤S41:输入目标图像In到深度预测网络模型,并输出预测的深度Dn;
步骤S42:输入目标图像In和附近帧If到相机运动网络模型,并输出预测的相机从In到附近帧If的自运动Tt→f,附近帧If为当前帧的前后帧;
步骤S43:输入图像In和附近帧If遮挡感知掩膜网络模型,并输出附近帧If所对应的一致性掩膜Mf,通过一致性掩膜Mf得到遮挡掩膜Vf;
步骤S44:从不同视角观察朗伯的物体表面,表面亮度都是一致的,构建光度误差损失Lp;
步骤S45:为了使得深度平滑并且边缘锐利,构建基于图像梯度的深度平滑损失函数
步骤S47:构建目标帧和附近帧的特征金字塔,通过特征金字塔计算特征金字塔匹配误差损失函数Lf;
步骤S48:根据步骤S44、S45、S46和S47构建总的损失函数L=Lp+λsLs+λmLm+λmsLms+λfLf,其中λs,λm,λms,λf分别表示深度平滑损失函数、掩膜正则项、掩膜平滑损失函数和特征金字塔损失函数的权重。
5.根据权利要求4所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S43具体为:
步骤S431:输入图像In和附近帧If到遮挡感知掩膜网络模型,并输出附近帧If多对应的一致性掩膜Mf;
步骤S432:根据得到的一致性掩膜M-1,M1∈Mf中提取遮挡掩膜V-1,V1∈Vf分别表示像素从目标帧投影到前后帧是否可见,M-1,M1分别表示前后帧中像素满足光度一致性假设的概率;pn为图像上的点,当M-1(pn)>M1(pn)时,表示pn在前一帧比后一帧可见概率更高,令V-1(pn)=1,V1(pn)=0;同样的,当M-1(pn)<M1(pn)时,令V-1(pn)=0,V1(pn)=1;若M-1(pn)=M1(pn),V-1(pt)=0.5,V1(pt)=0.5,表示前后帧都可见。
6.根据权利要求4所述的基于遮挡感知和特征金字塔匹配的相机自运动估计方法,其特征在于,所述步骤S47具体为:
步骤S471:输入目标帧In和附近帧If到同样参数的深度预测网络模型;深度预测网络结构的编码部分卷积产生L=5层特征金字塔,他们对应的通道数为64,64,128,256,512;目标帧的特征金字塔中的特征图用来表示,l代表特征图在特征金字塔中的层数,表示附近帧的第l层特征图;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911169783.5A CN110942484B (zh) | 2019-11-26 | 2019-11-26 | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911169783.5A CN110942484B (zh) | 2019-11-26 | 2019-11-26 | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110942484A true CN110942484A (zh) | 2020-03-31 |
CN110942484B CN110942484B (zh) | 2022-07-12 |
Family
ID=69908028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911169783.5A Active CN110942484B (zh) | 2019-11-26 | 2019-11-26 | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110942484B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540000A (zh) * | 2020-04-28 | 2020-08-14 | 深圳市商汤科技有限公司 | 场景深度和相机运动预测方法及装置、电子设备和介质 |
CN111813996A (zh) * | 2020-07-22 | 2020-10-23 | 四川长虹电器股份有限公司 | 基于单帧和连续多帧抽样并行的视频搜索方法 |
CN112270692A (zh) * | 2020-10-15 | 2021-01-26 | 电子科技大学 | 一种基于超分辨的单目视频结构和运动预测的自监督方法 |
CN112907620A (zh) * | 2021-01-25 | 2021-06-04 | 北京地平线机器人技术研发有限公司 | 相机位姿的估计方法、装置、可读存储介质及电子设备 |
CN116524026A (zh) * | 2023-05-08 | 2023-08-01 | 哈尔滨理工大学 | 一种基于频域和语义的动态视觉slam方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109242910A (zh) * | 2018-08-21 | 2019-01-18 | 电子科技大学 | 一种基于任意已知平面形状的单目相机自标定方法 |
CN109410261A (zh) * | 2018-10-08 | 2019-03-01 | 浙江科技学院 | 基于金字塔池化模块的单目图像深度估计方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
US20190333231A1 (en) * | 2017-08-11 | 2019-10-31 | Zhejiang University | Stereo visual odometry method based on image gradient joint optimization |
-
2019
- 2019-11-26 CN CN201911169783.5A patent/CN110942484B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190333231A1 (en) * | 2017-08-11 | 2019-10-31 | Zhejiang University | Stereo visual odometry method based on image gradient joint optimization |
CN109242910A (zh) * | 2018-08-21 | 2019-01-18 | 电子科技大学 | 一种基于任意已知平面形状的单目相机自标定方法 |
CN109410261A (zh) * | 2018-10-08 | 2019-03-01 | 浙江科技学院 | 基于金字塔池化模块的单目图像深度估计方法 |
CN110163246A (zh) * | 2019-04-08 | 2019-08-23 | 杭州电子科技大学 | 基于卷积神经网络的单目光场图像无监督深度估计方法 |
CN110322499A (zh) * | 2019-07-09 | 2019-10-11 | 浙江科技学院 | 一种基于多层特征的单目图像深度估计方法 |
Non-Patent Citations (3)
Title |
---|
BO LI ET AL.: "Pitch angle estimation using a Vehicle-Mounted monocular camera for range measurement", 《2014 12TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING (ICSP)》 * |
罗倩慧: "室内外环境中的物体检测", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
郭恩特 等: "图像和惯性传感器相结合的摄像机定位和物体三维位置估计", 《福州大学学报(自然科学版)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111540000A (zh) * | 2020-04-28 | 2020-08-14 | 深圳市商汤科技有限公司 | 场景深度和相机运动预测方法及装置、电子设备和介质 |
CN111540000B (zh) * | 2020-04-28 | 2021-11-05 | 深圳市商汤科技有限公司 | 场景深度和相机运动预测方法及装置、电子设备和介质 |
CN111813996A (zh) * | 2020-07-22 | 2020-10-23 | 四川长虹电器股份有限公司 | 基于单帧和连续多帧抽样并行的视频搜索方法 |
CN112270692A (zh) * | 2020-10-15 | 2021-01-26 | 电子科技大学 | 一种基于超分辨的单目视频结构和运动预测的自监督方法 |
CN112270692B (zh) * | 2020-10-15 | 2022-07-05 | 电子科技大学 | 一种基于超分辨的单目视频结构和运动预测的自监督方法 |
CN112907620A (zh) * | 2021-01-25 | 2021-06-04 | 北京地平线机器人技术研发有限公司 | 相机位姿的估计方法、装置、可读存储介质及电子设备 |
CN116524026A (zh) * | 2023-05-08 | 2023-08-01 | 哈尔滨理工大学 | 一种基于频域和语义的动态视觉slam方法 |
CN116524026B (zh) * | 2023-05-08 | 2023-10-27 | 哈尔滨理工大学 | 一种基于频域和语义的动态视觉slam方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110942484B (zh) | 2022-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110942484B (zh) | 基于遮挡感知和特征金字塔匹配的相机自运动估计方法 | |
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN108986136B (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
CN113140011B (zh) | 一种红外热成像单目视觉测距方法及相关组件 | |
JP3679426B2 (ja) | 画像データを符号化して夫々がコヒーレントな動きの領域を表わす複数の層とそれら層に付随する動きパラメータとにするシステム | |
CN114782691A (zh) | 基于深度学习的机器人目标识别与运动检测方法、存储介质及设备 | |
CN113077505B (zh) | 一种基于对比学习的单目深度估计网络的优化方法 | |
CN111582483A (zh) | 基于空间和通道联合注意力机制的无监督学习光流估计方法 | |
CN111354030B (zh) | 嵌入SENet单元的无监督单目图像深度图生成方法 | |
CN113284173B (zh) | 一种基于伪激光雷达的端到端的场景流、位姿联合学习方法 | |
CN115035171B (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN111325782A (zh) | 一种基于多尺度统一的无监督单目视图深度估计方法 | |
CN110009675A (zh) | 生成视差图的方法、装置、介质及设备 | |
CN114663509A (zh) | 一种关键点热力图引导的自监督单目视觉里程计方法 | |
CN109903315A (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
CN112270691A (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN116468769A (zh) | 一种基于图像的深度信息估计方法 | |
CN114913182A (zh) | 图像分割方法、装置、设备和存储介质 | |
CN116402876A (zh) | 双目深度估计方法、装置、嵌入式设备和可读存储介质 | |
CN112233149A (zh) | 场景流的确定方法及装置、存储介质、电子装置 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN113469930B (zh) | 图像处理方法、装置、及计算机设备 | |
CN115035172A (zh) | 基于置信度分级及级间融合增强的深度估计方法及系统 | |
CN113191301B (zh) | 融合时序和空间信息的视频密集人群计数方法及系统 | |
CN108830890B (zh) | 一种使用生成式对抗网络从单幅图像中估计场景几何信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230717 Address after: Room 203, No. 397, Xihong, Hongshan Town, Gulou District, Fuzhou City, Fujian Province 350025 Patentee after: FUZHOU IVISIONIC TECHNOLOGY Co.,Ltd. Address before: Fuzhou University, No.2, wulongjiang North Avenue, Fuzhou University Town, Minhou County, Fuzhou City, Fujian Province Patentee before: FUZHOU University |