CN112308911A - 端到端的视觉定位方法及系统 - Google Patents

端到端的视觉定位方法及系统 Download PDF

Info

Publication number
CN112308911A
CN112308911A CN202011154636.3A CN202011154636A CN112308911A CN 112308911 A CN112308911 A CN 112308911A CN 202011154636 A CN202011154636 A CN 202011154636A CN 112308911 A CN112308911 A CN 112308911A
Authority
CN
China
Prior art keywords
image
pose
source image
network model
regression network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011154636.3A
Other languages
English (en)
Inventor
高伟
万一鸣
吴毅红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202011154636.3A priority Critical patent/CN112308911A/zh
Publication of CN112308911A publication Critical patent/CN112308911A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/003Reconstruction from projections, e.g. tomography
    • G06T11/006Inverse problem, transformation from projection-space into object-space, e.g. transform methods, back-projection, algebraic methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种端到端的视觉定位方法及系统,所述视觉定位方法包括:获取训练数据集,所述训练数据集包括多帧连续源图像;根据各连续源图像,建立位姿回归网络模型;具体包括:针对每一源图像,基于深度卷积神经网络,根据源图像预测对应的深度图;根据相机内部参数及深度图,通过反向投影方法,确定合成图像;根据各源图像及对应的合成图像,确定位姿回归网络模型;基于位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。本发明基于深度卷积神经网络Depth CNN,根据源图像预测对应的深度图,通过反向投影方法,确定合成图像;进而确定位姿回归网络模型,实现端到端的视觉定位,可准确确定待测图像的绝对位姿,提高定位精度。

Description

端到端的视觉定位方法及系统
技术领域
本发明涉及计算机视觉技术与SLAM(Simultaneous localization and mapping,同步定位与建图)领域,特别涉及一种基于在线几何数据增广策略的端到端的视觉定位方法及系统。
背景技术
视觉定位(Visual Localization)是移动机器人、自动驾驶以及增强现实中的重要环节,是指通过图像估计相机拍摄位姿。
目前主流的视觉定位算法是基于几何的方法。给定拍摄图像,首先需要使用SFM(structure-from-motion)算法对场景进行三维重建,重建得到的三维模型点会被赋予一个或多个特征描述子。当给定一幅查询图像,首先对其提取特征点并计算描述子,之后通过计算描述子距离在三维点云库中搜索与特征点最相似的三维点,得到2D和3D匹配后可以使用基于RANSAC的PnP算法计算出相机的6-Dof位姿。
与图像检索技术相比,这种方法能够得到更加精确的位姿。但是随着三维模型的增大,2D-3D匹配过程会消耗大量时间,使得定位过程非常缓慢。
近年来,随着深度学习技术的发展,很多学者尝试利用深度网络进行端到端的位姿回归。尽管端到端的方法能够克服几何方法的部分缺陷,但是其定位精度受限于训练数据的稀疏性。因为定位数据采集相对困难,端到端模型的训练数据库中的位姿通常只包含定位空间中的一小部分,导致在训练过程中,网络非常容易过拟合。大部分早期的工作集中于设计新的网络结构或者损失函数来提高网络的泛化能力,但是精度提升并不明显。
发明内容
为了解决现有技术中的上述问题,即为了提高定位精度,本发明的目的在于提供一种端到端的视觉定位方法及系统。
为解决上述技术问题,本发明提供了如下方案:
一种端到端的视觉定位方法,所述视觉定位方法包括:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
可选地,所述相机内部参数包括:焦距和光心;
所述根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像,具体包括:
通过焦距、光心及深度图,将所述源图像Is上的像素点p=(u,v)T投影到三维空间,得到在相机坐标系下的3D点P:
Figure BDA0002742302750000021
其中,P=(X,Y,Z)T,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;
根据所述源图像Is的位姿真值Ts及相对位姿ΔT,确定位姿更新值Tt
Tt=TsΔT;
根据所述位姿更新值Tt,将3D点P转换到全局坐标系下得到点Pg
Figure BDA0002742302750000031
根据点Pg,通过反向投影方法,确定所述源图像的合成图像。
可选地,所述根据点Pg,通过反向投影方法,确定所述源图像的合成图像,具体包括:
将点Pg重新投影到图像平面,确定点Pg的对应位置;
将3D点P的像素值填充到所述点Pg的对应位置,确定新视角下的图像,所述新视角下的图像为所述源图像的合成图像。
可选地,根据以下公式确定所述源图像的合成图像:
Figure BDA0002742302750000032
其中,(u′,v′)表示所述合成图像的像素点坐标,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;(X′,Y′,Z′)表示将3D点P的像素值填充到所述点Pg的对应位置后的位置坐标。
可选地,所述3D点P的像素值通过可微分的双线性插值的方法确定。
可选地,所述根据各源图像及对应的合成图像,确定位姿回归网络模型,具体包括:
根据各源图像及对应的合成图像,采用预训练ResNet,确定位姿回归网络模型,所述位姿回归网络模型用于确定图像的绝对位姿p=[x,q],x∈R3表示位置,q∈R4表示姿态。
可选地,所述根据各连续源图像,建立位姿回归网络模型,还包括:
根据以下公式,计算位姿回归网络模型的损失值L(I):
Figure BDA0002742302750000041
Figure BDA0002742302750000042
Figure BDA0002742302750000043
Figure BDA0002742302750000044
Figure BDA0002742302750000045
Figure BDA0002742302750000046
Figure BDA0002742302750000047
Figure BDA0002742302750000048
其中,
Figure BDA0002742302750000049
表示预测的位置,
Figure BDA00027423027500000410
表示预测的姿态,x0,k和q0,k为对应的真值,
Figure BDA00027423027500000411
Figure BDA00027423027500000412
为可学习变量,Rx(Ik)表示相对位移,Rq(Ik)表示相对旋转,对于每一源图像I0,通过预测出的深度能够随机合成4个视角的图片(I1,I2,I3,I4),k=1,2,3,4,
Figure BDA00027423027500000413
表示源图像I0的位置,
Figure BDA00027423027500000414
表示源图像I0的姿态,
Figure BDA00027423027500000415
表示二范数。
为解决上述技术问题,本发明还提供了如下方案:
一种端到端的视觉定位系统,所述视觉定位系统包括:
获取单元,用于获取训练数据集,所述训练数据集包括多帧连续源图像;
建模单元,用于根据各连续源图像,建立位姿回归网络模型;
其中,所述建模单元包括:
预测模块,用于针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
合成模块,用于根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
确定模块,用于根据各源图像及对应的合成图像,确定位姿回归网络模型;
定位单元,用于基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
为解决上述技术问题,本发明还提供了如下方案:
一种端到端的视觉定位系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
为解决上述技术问题,本发明还提供了如下方案:
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于深度卷积神经网络Depth CNN,根据源图像预测对应的深度图,通过反向投影方法,确定合成图像;进而确定位姿回归网络模型,实现端到端的视觉定位,可准确确定待测图像的绝对位姿,提高定位精度。
附图说明
图1是本发明端到端的视觉定位方法的流程图;
图2是本发明端到端的视觉定位系统的模块结构示意图。
符号说明:
获取单元—1,建模单元—2,预测模块—21,合成模块—22,确定模块—23,定位单元—3。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的是提供一种端到端的视觉定位方法,基于深度卷积神经网络DepthCNN,根据源图像预测对应的深度图,通过反向投影方法,确定合成图像;进而确定位姿回归网络模型,实现端到端的视觉定位,可准确确定待测图像的绝对位姿,提高定位精度。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明端到端的视觉定位方法包括:
步骤100:获取训练数据集,所述训练数据集包括多帧连续源图像;
步骤200:根据各连续源图像,建立位姿回归网络模型;
步骤300:基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
在步骤200中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
步骤210:针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图。
通过Depth CNN首先估计源图像的深度图,Depth CNN的网络结构采用DispNet的结构。
步骤220:根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像。
其中,所述相机内部参数包括:焦距和光心。
步骤230:根据各源图像及对应的合成图像,确定位姿回归网络模型。
在步骤220中,所述根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像,具体包括:
步骤2201:通过焦距、光心及深度图将所述源图像Is上的像素点p=(u,v)T投影到三维空间,得到在相机坐标系下的3D点P:
Figure BDA0002742302750000081
其中,P=(X,Y,Z)T,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;
步骤2202:根据所述源图像Is的位姿真值Ts及相对位姿ΔT,确定位姿更新值Tt
Tt=TsΔT;
步骤2203:根据所述位姿更新值Tt,将3D点P转换到全局坐标系下得到点Pg
Figure BDA0002742302750000082
步骤2204:根据点Pg,通过反向投影方法,确定所述源图像的合成图像。
进一步地,所述根据点Pg,通过反向投影方法,确定所述源图像的合成图像,具体包括:
步骤2204a:将点Pg重新投影到图像平面,确定点Pg的对应位置;
步骤2204b:将3D点P的像素值填充到所述点Pg的对应位置,确定新视角下的图像,所述新视角下的图像为所述源图像的合成图像。
具体地,根据以下公式确定所述源图像的合成图像:
Figure BDA0002742302750000091
其中,(u′,v′)表示所述合成图像的像素点坐标,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;(X′,Y′,Z′)表示将3D点P的像素值填充到所述点Pg的对应位置后的位置坐标。
其中,所述3D点P的像素值通过可微分的双线性插值的方法确定。
在本发明中,深度估计采用自监督的方式。例如,给定相邻三帧源图像,通过DepthCNN首先估计It帧的深度图,在内参和相邻帧之间的位姿已知的情况下,It+1和It-1能够通过反向投影的方式分别合成It,合成的图片分别表示为
Figure BDA0002742302750000092
Figure BDA0002742302750000093
损失函数为合成图片和源图片的光度误差。以It+1和It为例,假设pt(u,v)是It中(u,v)位置的齐次坐标,K是相机内参,Dt表示估计出的It的深度,将pt投影到It+1平面,得到其在It+1平面的齐次坐标pt+1
pt+1=KTt-1→tDt(u,v)K-1pt
其中,Tt-1→t是It和It+1之间的相对位姿。因为数据库中图像的位姿是已知的,则Tt-1→t的数值是很容易得到的。其中pt+1是一个连续的值,通过可微分的双线性插值的方式可以得到pt+1处的像素值。得到的像素值填充到
Figure BDA0002742302750000101
平面的(u,v)位置,从而合成It
深度估计部分的损失函数为:
Figure BDA0002742302750000102
合成的<It,Tt>对和原始的<Is,Ts>对共同参与训练。在实验中,每张图片在每次参与训练时都随机给定四个不同的相对位姿ΔT,生成4个新视角的图片。随着训练次数的增多,参与训练的<图像,位姿>对也不断增多,使得网络不易过拟合。
在深度学习框架中,所有操作必须都可微才能进行端到端训练,所以在本发明的深度学习中,图片的合成采用反向投影的方式。反向投影是已知目标图片的深度图,反向投影到源图片上,最后通过双线性插值利用源图片合成目标图片。通过反向投影,可减少黑点的数量,但是反向投影需要确定目标图片的深度图,在本发明中,采用源图片的深度图近似代替目标图片的深度图。
在步骤230中,所述根据各源图像及对应的合成图像,确定位姿回归网络模型,具体包括:
根据各源图像及对应的合成图像,采用预训练ResNet,确定位姿回归网络模型,所述位姿回归网络模型用于确定图像的绝对位姿p=[x,q],x∈R3表示位置,q∈R4用四元数表示姿态。
在本实施例中,位姿回归网络采用预训练ResNet50,最后的分类层被替换成两层节点数分别为512和7的全连接层。
进一步地,所述根据各连续源图像,建立位姿回归网络模型,还包括:
根据以下公式,计算位姿回归网络模型的损失值L(I):
Figure BDA0002742302750000111
欧式距离损失函数
Figure BDA0002742302750000112
Figure BDA0002742302750000113
相对位姿损失函数(源图像与合成图像之间的相对几何关系,在训练过程中,不仅约束绝对位姿和真值一致,还约束源图像I0与合成图像之间的相对位姿与真值接近):
Figure BDA0002742302750000114
Figure BDA0002742302750000115
Figure BDA0002742302750000116
Figure BDA0002742302750000117
其中,
Figure BDA0002742302750000118
表示预测的位置,
Figure BDA0002742302750000119
表示预测的姿态,x0,k和q0,k为对应的真值,
Figure BDA00027423027500001110
Figure BDA00027423027500001111
为可学习变量,Rx(Ik)表示相对位移,Rq(Ik)表示相对旋转,对于每一源图像I0,通过预测出的深度能够随机合成4个视角的图片(I1,I2,I3,I4),k=1,2,3,4,
Figure BDA00027423027500001112
表示源图像I0的位置,
Figure BDA00027423027500001113
表示源图像I0的姿态,
Figure BDA00027423027500001114
表示二范数。
进一步地,为便于对图像的识别,在执行步骤210之前,所述根据各连续源图像,建立位姿回归网络模型,还包括:对各连续源图像进行预处理,得到处理后的源图像,其中,所述处理后的源图像为RGB图像。
本发明采用Microsoft 7-Scenes作为训练和评测的数据集。7-Scenes包含七个不同场景的室内数据,这七个场景的数据都是由手持的Kinect RGB-D相机采集,分辨率为640×480。相机的位姿由KinectFusion算法得到。每个场景都采集了不同相机运动的多条视频序列,其中包含了运动模糊、无纹理等情况,使得该数据集广泛应用于重定位和跟踪算法的测评。训练和测试数据的划分由数据集本身提供。本发明使用旋转和位移的误差的中值作为衡量指标。
此外,本发明还提供一种端到端的视觉定位系统,可提高定位精度。
如图2所示,本发明端到端的视觉定位系统包括获取单元1、建模单元2及定位单元3。
其中,所述获取单元1用于获取训练数据集,所述训练数据集包括多帧连续源图像;
所述建模单元2用于根据各连续源图像,建立位姿回归网络模型;
所述定位单元3用于基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
进一步地,所述建模单元2包括预测模块21、合成模块22及确定模块23。
所述预测模块21与所述获取单元连接,所述预测模块21用于针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
所述合成模块22与所述预测模块21连接,所述合成模块22用于根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
所述确定模块23分别与所述获取单元1、合成模块22及定位单元3连接,所述确定模块23用于根据各源图像及对应的合成图像,确定位姿回归网络模型;
此外,本发明还提供了一种端到端的视觉定位系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
此外,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
相对于现有技术,本发明端到端的视觉定位系统、计算机可读存储介质与上述端到端的视觉定位方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种端到端的视觉定位方法,其特征在于,所述视觉定位方法包括:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
2.根据权利要求1所述的端到端的视觉定位方法,其特征在于,所述相机内部参数包括:焦距和光心;
所述根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像,具体包括:
通过焦距、光心及深度图将所述源图像Is上的像素点p=(u,v)T投影到三维空间,得到在相机坐标系下的3D点P:
Figure FDA0002742302740000011
其中,P=(X,Y,Z)T,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;
根据所述源图像Is的位姿真值Ts及相对位姿ΔT,确定位姿更新值Tt
Tt=TsΔT;
根据所述位姿更新值Tt,将3D点P转换到全局坐标系下得到点Pg
Pg=Tt -1P;
根据点Pg,通过反向投影方法,确定所述源图像的合成图像。
3.根据权利要求2所述的端到端的视觉定位方法,其特征在于,所述根据点Pg,通过反向投影方法,确定所述源图像的合成图像,具体包括:
将点Pg重新投影到图像平面,确定点Pg的对应位置;
将3D点P的像素值填充到所述点Pg的对应位置,确定新视角下的图像,所述新视角下的图像为所述源图像的合成图像。
4.根据权利要求3所述的端到端的视觉定位方法,其特征在于,根据以下公式确定所述源图像的合成图像:
Figure FDA0002742302740000021
其中,(u′,v′)表示所述合成图像的像素点坐标,fx、fy分别表示相机的焦距,cx、cy分别表示相机的光心;(X′,Y′,Z′)表示将3D点P的像素值填充到所述点Pg的对应位置后的位置坐标。
5.根据权利要求3所述的端到端的视觉定位方法,其特征在于,所述3D点P的像素值通过可微分的双线性插值的方法确定。
6.根据权利要求1所述的端到端的视觉定位方法,其特征在于,所述根据各源图像及对应的合成图像,确定位姿回归网络模型,具体包括:
根据各源图像及对应的合成图像,采用预训练ResNet,确定位姿回归网络模型,所述位姿回归网络模型用于确定图像的绝对位姿p=[x,q],x∈R3表示位置,q∈R4表示姿态。
7.根据权利要求1-6中任一项所述的端到端的视觉定位方法,其特征在于,所述根据各连续源图像,建立位姿回归网络模型,还包括:
根据以下公式,计算位姿回归网络模型的损失值L(I):
Figure FDA0002742302740000031
Figure FDA0002742302740000032
Figure FDA0002742302740000033
Figure FDA0002742302740000034
Figure FDA0002742302740000035
Figure FDA0002742302740000036
Figure FDA0002742302740000037
其中,
Figure FDA0002742302740000038
表示预测的位置,
Figure FDA0002742302740000039
表示预测的姿态,x0,k和q0,k为对应的真值,
Figure FDA00027423027400000310
Figure FDA00027423027400000311
为可学习变量,Rx(Ik)表示相对位移,Rq(Ik)表示相对旋转,对于每一源图像I0,通过预测出的深度能够随机合成4个视角的图片(I1,I2,I3,I4),k=1,2,3,4,
Figure FDA00027423027400000312
表示源图像I0的位置,
Figure FDA00027423027400000313
表示源图像I0的姿态,
Figure FDA00027423027400000314
表示二范数。
8.一种端到端的视觉定位系统,其特征在于,所述视觉定位系统包括:
获取单元,用于获取训练数据集,所述训练数据集包括多帧连续源图像;
建模单元,用于根据各连续源图像,建立位姿回归网络模型;
其中,所述建模单元包括:
预测模块,用于针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
合成模块,用于根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
确定模块,用于根据各源图像及对应的合成图像,确定位姿回归网络模型;
定位单元,用于基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
9.一种端到端的视觉定位系统,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
获取训练数据集,所述训练数据集包括多帧连续源图像;
根据各连续源图像,建立位姿回归网络模型;
其中,所述根据各连续源图像,建立位姿回归网络模型,具体包括:
针对每一源图像,基于深度卷积神经网络,根据所述源图像预测对应的深度图;
根据相机内部参数及所述深度图,通过反向投影方法,确定所述源图像的合成图像;
根据各源图像及对应的合成图像,确定位姿回归网络模型;
基于所述位姿回归网络模型,根据待测图像,得到待测图像的绝对位姿。
CN202011154636.3A 2020-10-26 2020-10-26 端到端的视觉定位方法及系统 Pending CN112308911A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011154636.3A CN112308911A (zh) 2020-10-26 2020-10-26 端到端的视觉定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011154636.3A CN112308911A (zh) 2020-10-26 2020-10-26 端到端的视觉定位方法及系统

Publications (1)

Publication Number Publication Date
CN112308911A true CN112308911A (zh) 2021-02-02

Family

ID=74330804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011154636.3A Pending CN112308911A (zh) 2020-10-26 2020-10-26 端到端的视觉定位方法及系统

Country Status (1)

Country Link
CN (1) CN112308911A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791773A (zh) * 2016-12-30 2017-05-31 浙江工业大学 一种基于深度图像的新视点合成方法
CN107945265A (zh) * 2017-11-29 2018-04-20 华中科技大学 基于在线学习深度预测网络的实时稠密单目slam方法与系统
CN109194888A (zh) * 2018-11-12 2019-01-11 北京大学深圳研究生院 一种针对低质量深度图的dibr自由视点合成方法
CN110223351A (zh) * 2019-05-30 2019-09-10 杭州蓝芯科技有限公司 一种基于卷积神经网络的深度相机定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106791773A (zh) * 2016-12-30 2017-05-31 浙江工业大学 一种基于深度图像的新视点合成方法
CN107945265A (zh) * 2017-11-29 2018-04-20 华中科技大学 基于在线学习深度预测网络的实时稠密单目slam方法与系统
CN109194888A (zh) * 2018-11-12 2019-01-11 北京大学深圳研究生院 一种针对低质量深度图的dibr自由视点合成方法
CN110223351A (zh) * 2019-05-30 2019-09-10 杭州蓝芯科技有限公司 一种基于卷积神经网络的深度相机定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YIMING WAN等: "Boosting Image-Based Localization Via Randomly Geometric Data Augmentation", 《2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP)》 *
章海兵,等: "H--S直方图反向投影结合特征点提取的双目视觉定位算法", 《控制理论与应用》 *

Similar Documents

Publication Publication Date Title
CN109166149B (zh) 一种融合双目相机与imu的定位与三维线框结构重建方法与系统
CN109461180B (zh) 一种基于深度学习的三维场景重建方法
CN108564616B (zh) 快速鲁棒的rgb-d室内三维场景重建方法
US11210804B2 (en) Methods, devices and computer program products for global bundle adjustment of 3D images
US9420265B2 (en) Tracking poses of 3D camera using points and planes
US9613420B2 (en) Method for locating a camera and for 3D reconstruction in a partially known environment
CN112785702A (zh) 一种基于2d激光雷达和双目相机紧耦合的slam方法
CN110176032B (zh) 一种三维重建方法及装置
CA3134440A1 (en) System and method for virtual modeling of indoor scenes from imagery
CN112001926B (zh) 基于多维语义映射rgbd多相机标定方法、系统及应用
US20240029384A1 (en) 3-D Reconstruction Using Augmented Reality Frameworks
CN109472820B (zh) 单目rgb-d相机实时人脸重建方法及装置
CN108519102B (zh) 一种基于二次投影的双目视觉里程计算方法
CN111105432A (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN111860651B (zh) 一种基于单目视觉的移动机器人半稠密地图构建方法
CN113034571B (zh) 一种基于视觉—惯性的物体三维尺寸测量方法
CN111798373A (zh) 一种基于局部平面假设及六自由度位姿优化的快速无人机图像拼接方法
CN111062326A (zh) 一种基于几何驱动的自监督人体3d姿态估计网络训练方法
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN114494150A (zh) 一种基于半直接法的单目视觉里程计的设计方法
Tian et al. Research on multi-sensor fusion SLAM algorithm based on improved gmapping
Huttunen et al. A monocular camera gyroscope
JP2024510230A (ja) 顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測
CN112150609A (zh) 一种基于室内实时稠密三维重建技术的vr系统
Panek et al. Visual localization using imperfect 3d models from the internet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210202