CN112308911A - 端到端的视觉定位方法及系统 - Google Patents
端到端的视觉定位方法及系统 Download PDFInfo
- Publication number
- CN112308911A CN112308911A CN202011154636.3A CN202011154636A CN112308911A CN 112308911 A CN112308911 A CN 112308911A CN 202011154636 A CN202011154636 A CN 202011154636A CN 112308911 A CN112308911 A CN 112308911A
- Authority
- CN
- China
- Prior art keywords
- image
- pose
- source image
- network model
- regression network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000000007 visual effect Effects 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 19
- 239000002131 composite material Substances 0.000 claims description 14
- 230000003287 optical effect Effects 0.000 claims description 12
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000006073 displacement reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 239000004576 sand Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/003—Reconstruction from projections, e.g. tomography
- G06T11/006—Inverse problem, transformation from projection-space into object-space, e.g. transform methods, back-projection, algebraic methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30248—Vehicle exterior or interior
- G06T2207/30252—Vehicle exterior; Vicinity of vehicle
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种端到端的视觉定位方法及系统,所述视觉定位方法包括:获取训练数据集,所述训练数据集包括多帧连续源图像;根据各连续源图像,建立位姿回归网络模型;具体包括:针对每一源图像,基于深度卷积神经网络,根据源图像预测对应的深度图;根据相机内部参数及深度图,通过反向投影方法,确定合成图像;根据各源图像及对应的合成图像,确定位姿回归网络模型;基于位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。本发明基于深度卷积神经网络Depth CNN,根据源图像预测对应的深度图,通过反向投影方法,确定合成图像;进而确定位姿回归网络模型,实现端到端的视觉定位,可准确确定待测图像的绝对位姿,提高定位精度。
Description
技术领域
本发明涉及计算机视觉技术与SLAM(Simultaneous localization and mapping,同步定位与建图)领域,特别涉及一种基于在线几何数据增广策略的端到端的视觉定位方法及系统。
背景技术
视觉定位(Visual Localization)是移动机器人、自动驾驶以及增强现实中的重要环节,是指通过图像估计相机拍摄位姿。
目前主流的视觉定位算法是基于几何的方法。给定拍摄图像,首先需要使用SFM(structure-from-motion)算法对场景进行三维重建,重建得到的三维模型点会被赋予一个或多个特征描述子。当给定一幅查询图像,首先对其提取特征点并计算描述子,之后通过计算描述子距离在三维点云库中搜索与特征点最相似的三维点,得到2D和3D匹配后可以使用基于RANSAC的PnP算法计算出相机的6-Dof位姿。
与图像检索技术相比,这种方法能够得到更加精确的位姿。但是随着三维模型的增大,2D-3D匹配过程会消耗大量时间,使得定位过程非常缓慢。
近年来,随着深度学习技术的发展,很多学者尝试利用深度网络进行端到端的位姿回归。尽管端到端的方法能够克服几何方法的部分缺陷,但是其定位精度受限于训练数据的稀疏性。因为定位数据采集相对困难,端到端模型的训练数据库中的位姿通常只包含定位空间中的一小部分,导致在训练过程中,网络非常容易过拟合。大部分早期的工作集中于设计新的网络结构或者损失函数来提高网络的泛化能力,但是精度提升并不明显。
发明内容
为了解决现有技术中的上述问题,即为了提高定位精度,本发明的目的在于提供一种端到端的视觉定位方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种端到端的视觉定位方法,所述视觉定位方法包括:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
可选地,所述相机内部参数包括:焦距和光心;
所述根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像,具体包括:
通过焦距、光心及深度图,将所述源图像Is上的像素点p=(u,v)T投影到三维空间,得到在相机坐标系下的3D点P:
其中,P=(X,Y,Z)T,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;
根据所述源图像Is的位姿真值Ts及相对位姿ΔT,确定位姿更新值Tt:
Tt=TsΔT;
根据所述位姿更新值Tt,将3D点P转换到全局坐标系下得到点Pg:
根据点Pg,通过反向投影方法,确定所述源图像的合成图像。
可选地,所述根据点Pg,通过反向投影方法,确定所述源图像的合成图像,具体包括:
将点Pg重新投影到图像平面,确定点Pg的对应位置;
将3D点P的像素值填充到所述点Pg的对应位置,确定新视角下的图像,所述新视角下的图像为所述源图像的合成图像。
可选地,根据以下公式确定所述源图像的合成图像:
其中,(u′,v′)表示所述合成图像的像素点坐标,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;(X′,Y′,Z′)表示将3D点P的像素值填充到所述点Pg的对应位置后的位置坐标。
可选地,所述3D点P的像素值通过可微分的双线性插值的方法确定。
可选地,所述根据各源图像及对应的合成图像,确定位姿回归网络模型,具体包括:
根据各源图像及对应的合成图像,采用预训练ResNet,确定位姿回归网络模型,所述位姿回归网络模型用于确定图像的绝对位姿p=[x,q],x∈R3表示位置,q∈R4表示姿态。
可选地,所述根据各连续源图像,建立位姿回归网络模型,还包括:
根据以下公式,计算位姿回归网络模型的损失值L(I):
其中,表示预测的位置,表示预测的姿态,x0,k和q0,k为对应的真值,和为可学习变量,Rx(Ik)表示相对位移,Rq(Ik)表示相对旋转,对于每一源图像I0,通过预测出的深度能够随机合成4个视角的图片(I1,I2,I3,I4),k=1,2,3,4,表示源图像I0的位置,表示源图像I0的姿态,表示二范数。
为解决上述技术问题,本发明还提供了如下方案:
一种端到端的视觉定位系统,所述视觉定位系统包括:
获取单元,用于获取训练数据集,所述训练数据集包括多帧连续源图像;
建模单元,用于根据各连续源图像,建立位姿回归网络模型;
其中,所述建模单元包括:
预测模块,用于针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
合成模块,用于根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
确定模块,用于根据各源图像及对应的合成图像,确定位姿回归网络模型;
定位单元,用于基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
为解决上述技术问题,本发明还提供了如下方案:
一种端到端的视觉定位系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于深度卷积神经网络Depth CNN,根据源图像预测对应的深度图,通过反向投影方法,确定合成图像;进而确定位姿回归网络模型,实现端到端的视觉定位,可准确确定待测图像的绝对位姿,提高定位精度。
附图说明
图1是本发明端到端的视觉定位方法的流程图;
图2是本发明端到端的视觉定位系统的模块结构示意图。
符号说明:
获取单元—1,建模单元—2,预测模块—21,合成模块—22,确定模块—23,定位单元—3。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种端到端的视觉定位方法,基于深度卷积神经网络DepthCNN,根据源图像预测对应的深度图,通过反向投影方法,确定合成图像;进而确定位姿回归网络模型,实现端到端的视觉定位,可准确确定待测图像的绝对位姿,提高定位精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明端到端的视觉定位方法包括:
步骤100:获取训练数据集,所述训练数据集包括多帧连续源图像;
步骤200:根据各连续源图像,建立位姿回归网络模型;
步骤300:基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
在步骤200中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
步骤210:针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图。
通过Depth CNN首先估计源图像的深度图,Depth CNN的网络结构采用DispNet的结构。
步骤220:根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像。
其中,所述相机内部参数包括:焦距和光心。
步骤230:根据各源图像及对应的合成图像,确定位姿回归网络模型。
在步骤220中,所述根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像,具体包括:
步骤2201:通过焦距、光心及深度图将所述源图像Is上的像素点p=(u,v)T投影到三维空间,得到在相机坐标系下的3D点P:
其中,P=(X,Y,Z)T,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;
步骤2202:根据所述源图像Is的位姿真值Ts及相对位姿ΔT,确定位姿更新值Tt:
Tt=TsΔT;
步骤2203:根据所述位姿更新值Tt,将3D点P转换到全局坐标系下得到点Pg:
步骤2204:根据点Pg,通过反向投影方法,确定所述源图像的合成图像。
进一步地,所述根据点Pg,通过反向投影方法,确定所述源图像的合成图像,具体包括:
步骤2204a:将点Pg重新投影到图像平面,确定点Pg的对应位置;
步骤2204b:将3D点P的像素值填充到所述点Pg的对应位置,确定新视角下的图像,所述新视角下的图像为所述源图像的合成图像。
具体地,根据以下公式确定所述源图像的合成图像:
其中,(u′,v′)表示所述合成图像的像素点坐标,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;(X′,Y′,Z′)表示将3D点P的像素值填充到所述点Pg的对应位置后的位置坐标。
其中,所述3D点P的像素值通过可微分的双线性插值的方法确定。
在本发明中,深度估计采用自监督的方式。例如,给定相邻三帧源图像,通过DepthCNN首先估计It帧的深度图,在内参和相邻帧之间的位姿已知的情况下,It+1和It-1能够通过反向投影的方式分别合成It,合成的图片分别表示为和损失函数为合成图片和源图片的光度误差。以It+1和It为例,假设pt(u,v)是It中(u,v)位置的齐次坐标,K是相机内参,Dt表示估计出的It的深度,将pt投影到It+1平面,得到其在It+1平面的齐次坐标pt+1:
pt+1=KTt-1→tDt(u,v)K-1pt;
其中,Tt-1→t是It和It+1之间的相对位姿。因为数据库中图像的位姿是已知的,则Tt-1→t的数值是很容易得到的。其中pt+1是一个连续的值,通过可微分的双线性插值的方式可以得到pt+1处的像素值。得到的像素值填充到平面的(u,v)位置,从而合成It。
深度估计部分的损失函数为:
合成的<It,Tt>对和原始的<Is,Ts>对共同参与训练。在实验中,每张图片在每次参与训练时都随机给定四个不同的相对位姿ΔT,生成4个新视角的图片。随着训练次数的增多,参与训练的<图像,位姿>对也不断增多,使得网络不易过拟合。
在深度学习框架中,所有操作必须都可微才能进行端到端训练,所以在本发明的深度学习中,图片的合成采用反向投影的方式。反向投影是已知目标图片的深度图,反向投影到源图片上,最后通过双线性插值利用源图片合成目标图片。通过反向投影,可减少黑点的数量,但是反向投影需要确定目标图片的深度图,在本发明中,采用源图片的深度图近似代替目标图片的深度图。
在步骤230中,所述根据各源图像及对应的合成图像,确定位姿回归网络模型,具体包括:
根据各源图像及对应的合成图像,采用预训练ResNet,确定位姿回归网络模型,所述位姿回归网络模型用于确定图像的绝对位姿p=[x,q],x∈R3表示位置,q∈R4用四元数表示姿态。
在本实施例中,位姿回归网络采用预训练ResNet50,最后的分类层被替换成两层节点数分别为512和7的全连接层。
进一步地,所述根据各连续源图像,建立位姿回归网络模型,还包括:
根据以下公式,计算位姿回归网络模型的损失值L(I):
相对位姿损失函数(源图像与合成图像之间的相对几何关系,在训练过程中,不仅约束绝对位姿和真值一致,还约束源图像I0与合成图像之间的相对位姿与真值接近):
其中,表示预测的位置,表示预测的姿态,x0,k和q0,k为对应的真值,和为可学习变量,Rx(Ik)表示相对位移,Rq(Ik)表示相对旋转,对于每一源图像I0,通过预测出的深度能够随机合成4个视角的图片(I1,I2,I3,I4),k=1,2,3,4,表示源图像I0的位置,表示源图像I0的姿态,表示二范数。
进一步地,为便于对图像的识别,在执行步骤210之前,所述根据各连续源图像,建立位姿回归网络模型,还包括:对各连续源图像进行预处理,得到处理后的源图像,其中,所述处理后的源图像为RGB图像。
本发明采用Microsoft 7-Scenes作为训练和评测的数据集。7-Scenes包含七个不同场景的室内数据,这七个场景的数据都是由手持的Kinect RGB-D相机采集,分辨率为640×480。相机的位姿由KinectFusion算法得到。每个场景都采集了不同相机运动的多条视频序列,其中包含了运动模糊、无纹理等情况,使得该数据集广泛应用于重定位和跟踪算法的测评。训练和测试数据的划分由数据集本身提供。本发明使用旋转和位移的误差的中值作为衡量指标。
此外,本发明还提供一种端到端的视觉定位系统,可提高定位精度。
如图2所示,本发明端到端的视觉定位系统包括获取单元1、建模单元2及定位单元3。
其中,所述获取单元1用于获取训练数据集,所述训练数据集包括多帧连续源图像;
所述建模单元2用于根据各连续源图像,建立位姿回归网络模型;
所述定位单元3用于基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
进一步地,所述建模单元2包括预测模块21、合成模块22及确定模块23。
所述预测模块21与所述获取单元连接,所述预测模块21用于针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
所述合成模块22与所述预测模块21连接,所述合成模块22用于根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
所述确定模块23分别与所述获取单元1、合成模块22及定位单元3连接,所述确定模块23用于根据各源图像及对应的合成图像,确定位姿回归网络模型;
此外,本发明还提供了一种端到端的视觉定位系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
相对于现有技术,本发明端到端的视觉定位系统、计算机可读存储介质与上述端到端的视觉定位方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种端到端的视觉定位方法,其特征在于,所述视觉定位方法包括:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
2.根据权利要求1所述的端到端的视觉定位方法,其特征在于,所述相机内部参数包括:焦距和光心;
所述根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像,具体包括:
通过焦距、光心及深度图将所述源图像Is上的像素点p=(u,v)T投影到三维空间,得到在相机坐标系下的3D点P:
其中,P=(X,Y,Z)T,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;
根据所述源图像Is的位姿真值Ts及相对位姿ΔT,确定位姿更新值Tt:
Tt=TsΔT;
根据所述位姿更新值Tt,将3D点P转换到全局坐标系下得到点Pg:
Pg=Tt -1P;
根据点Pg,通过反向投影方法,确定所述源图像的合成图像。
3.根据权利要求2所述的端到端的视觉定位方法,其特征在于,所述根据点Pg,通过反向投影方法,确定所述源图像的合成图像,具体包括:
将点Pg重新投影到图像平面,确定点Pg的对应位置;
将3D点P的像素值填充到所述点Pg的对应位置,确定新视角下的图像,所述新视角下的图像为所述源图像的合成图像。
5.根据权利要求3所述的端到端的视觉定位方法,其特征在于,所述3D点P的像素值通过可微分的双线性插值的方法确定。
6.根据权利要求1所述的端到端的视觉定位方法,其特征在于,所述根据各源图像及对应的合成图像,确定位姿回归网络模型,具体包括:
根据各源图像及对应的合成图像,采用预训练ResNet,确定位姿回归网络模型,所述位姿回归网络模型用于确定图像的绝对位姿p=[x,q],x∈R3表示位置,q∈R4表示姿态。
8.一种端到端的视觉定位系统,其特征在于,所述视觉定位系统包括:
获取单元,用于获取训练数据集,所述训练数据集包括多帧连续源图像;
建模单元,用于根据各连续源图像,建立位姿回归网络模型;
其中,所述建模单元包括:
预测模块,用于针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
合成模块,用于根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
确定模块,用于根据各源图像及对应的合成图像,确定位姿回归网络模型;
定位单元,用于基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
9.一种端到端的视觉定位系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154636.3A CN112308911A (zh) | 2020-10-26 | 2020-10-26 | 端到端的视觉定位方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011154636.3A CN112308911A (zh) | 2020-10-26 | 2020-10-26 | 端到端的视觉定位方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112308911A true CN112308911A (zh) | 2021-02-02 |
Family
ID=74330804
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011154636.3A Pending CN112308911A (zh) | 2020-10-26 | 2020-10-26 | 端到端的视觉定位方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112308911A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106791773A (zh) * | 2016-12-30 | 2017-05-31 | 浙江工业大学 | 一种基于深度图像的新视点合成方法 |
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
CN109194888A (zh) * | 2018-11-12 | 2019-01-11 | 北京大学深圳研究生院 | 一种针对低质量深度图的dibr自由视点合成方法 |
CN110223351A (zh) * | 2019-05-30 | 2019-09-10 | 杭州蓝芯科技有限公司 | 一种基于卷积神经网络的深度相机定位方法 |
-
2020
- 2020-10-26 CN CN202011154636.3A patent/CN112308911A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106791773A (zh) * | 2016-12-30 | 2017-05-31 | 浙江工业大学 | 一种基于深度图像的新视点合成方法 |
CN107945265A (zh) * | 2017-11-29 | 2018-04-20 | 华中科技大学 | 基于在线学习深度预测网络的实时稠密单目slam方法与系统 |
CN109194888A (zh) * | 2018-11-12 | 2019-01-11 | 北京大学深圳研究生院 | 一种针对低质量深度图的dibr自由视点合成方法 |
CN110223351A (zh) * | 2019-05-30 | 2019-09-10 | 杭州蓝芯科技有限公司 | 一种基于卷积神经网络的深度相机定位方法 |
Non-Patent Citations (2)
Title |
---|
YIMING WAN等: "Boosting Image-Based Localization Via Randomly Geometric Data Augmentation", 《2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 * |
章海兵,等: "H--S直方图反向投影结合特征点提取的双目视觉定位算法", 《控制理论与应用》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166149B (zh) | 一种融合双目相机与imu的定位与三维线框结构重建方法与系统 | |
CN109461180B (zh) | 一种基于深度学习的三维场景重建方法 | |
CN108564616B (zh) | 快速鲁棒的rgb-d室内三维场景重建方法 | |
US11210804B2 (en) | Methods, devices and computer program products for global bundle adjustment of 3D images | |
US9420265B2 (en) | Tracking poses of 3D camera using points and planes | |
US9613420B2 (en) | Method for locating a camera and for 3D reconstruction in a partially known environment | |
CN112785702A (zh) | 一种基于2d激光雷达和双目相机紧耦合的slam方法 | |
CN110176032B (zh) | 一种三维重建方法及装置 | |
CA3134440A1 (en) | System and method for virtual modeling of indoor scenes from imagery | |
CN112001926B (zh) | 基于多维语义映射rgbd多相机标定方法、系统及应用 | |
US20240029384A1 (en) | 3-D Reconstruction Using Augmented Reality Frameworks | |
CN109472820B (zh) | 单目rgb-d相机实时人脸重建方法及装置 | |
CN108519102B (zh) | 一种基于二次投影的双目视觉里程计算方法 | |
CN111105432A (zh) | 基于深度学习的无监督端到端的驾驶环境感知方法 | |
CN111860651B (zh) | 一种基于单目视觉的移动机器人半稠密地图构建方法 | |
CN113034571B (zh) | 一种基于视觉—惯性的物体三维尺寸测量方法 | |
CN111798373A (zh) | 一种基于局部平面假设及六自由度位姿优化的快速无人机图像拼接方法 | |
CN111062326A (zh) | 一种基于几何驱动的自监督人体3d姿态估计网络训练方法 | |
CN111998862A (zh) | 一种基于bnn的稠密双目slam方法 | |
CN114494150A (zh) | 一种基于半直接法的单目视觉里程计的设计方法 | |
Tian et al. | Research on multi-sensor fusion SLAM algorithm based on improved gmapping | |
Huttunen et al. | A monocular camera gyroscope | |
JP2024510230A (ja) | 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測 | |
CN112150609A (zh) | 一种基于室内实时稠密三维重建技术的vr系统 | |
Panek et al. | Visual localization using imperfect 3d models from the internet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210202 |