CN117456124A - 一种基于背靠背双目鱼眼相机的稠密slam的方法 - Google Patents
一种基于背靠背双目鱼眼相机的稠密slam的方法 Download PDFInfo
- Publication number
- CN117456124A CN117456124A CN202311801439.XA CN202311801439A CN117456124A CN 117456124 A CN117456124 A CN 117456124A CN 202311801439 A CN202311801439 A CN 202311801439A CN 117456124 A CN117456124 A CN 117456124A
- Authority
- CN
- China
- Prior art keywords
- depth
- panoramic
- image
- slam
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000013507 mapping Methods 0.000 claims abstract description 42
- 238000005457 optimization Methods 0.000 claims abstract description 25
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 14
- 238000006073 displacement reaction Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000000007 visual effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 abstract description 5
- 230000000694 effects Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 102000008115 Signaling Lymphocytic Activation Molecule Family Member 1 Human genes 0.000 description 1
- 108010074687 Signaling Lymphocytic Activation Molecule Family Member 1 Proteins 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/80—Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Remote Sensing (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
本发明提出了一种基于背靠背双目鱼眼相机的稠密SLAM的方法,用于直接处理背靠背双目鱼眼相机在线数据流实现稠密SLAM。前端基于双目鱼眼图像实现实时的位姿估计和局部建图,并筛选出关键帧送入后端。后端通过全景图拼接算法实现在线全景ERP图像拼接,并将拼接好的全景ERP图像以及对应的稀疏深度图送入全景深度补全网络进行全景深度预测,预测得到全景图深度信息和置信度信息。本发明还考虑了双目鱼眼相机畸变,图像拼接误差以及相机持有者对SLAM的干扰,生成了有效深度的掩码。有效深度的掩码、深度补全网络生成的深度信息、置信度信息共同参与到SLAM的BA优化和稠密建图,获得全局一致性更高的深度以及更好的重建结果。
Description
技术领域
本发明涉及计算机视觉和计算机图形学领域,尤其涉及一种基于背靠背双目鱼眼相机的稠密SLAM(视觉同时定位与地图构建,Simultaneous localization and mapping)的方法。
背景技术
未知环境的实时位姿估计和稠密建图是计算机视觉领域非常重要的问题。这项技术被广泛应用于机器人技术、自动驾驶AR、VR等应用场景中。在机器人领域,这项技术给予了机器人对未知环境的感知能力,是机器人实现路径规划和避障的基础。对于AR/VR领域,基于实时位姿估计和稠密建图才能实现AR/VR效果遮挡和碰撞,才能给用户提供更真实的效果体验。
传统的稠密SLAM通常都是基于Kinect、Realsense等深度传感器,将深度传感器获取到的深度信息作为输入,但这些传感器的引入会带来硬件成本的增加。除此之外,不同的深度传感器根据感知原理会有不同应用场景的限制。更为重要的是,这些深度传感器通常只提供了很小FoV(视场角,Field of View)的感知能力,这种感知效率是非常低的。随着全景采集技术的推进,不同的全景相机方案出现,如四目鱼眼相机,背靠背双鱼眼相机等。全景相机提供了对环境360度的感知能力,这对机器人和自动驾驶非常有利。单相机即使FoV再大也无法实现360度感知,360度的全景图像需要至少两个相机进行图像采集,然后通过算法进行拼接获得,这也导致相机能够实时输出的只有各个相机的采集数据而无法提供实时高帧率的360度的全景图像。除此之外,目前的全景相机方案只能实现360度图像采集,无法进行深度感知。
随着深度学习的兴起,出现了很多使用深度网络来预测深度的工作。根据输入不同,可以将它们归类为:单帧深度预测(单帧图像作为输入),单帧深度补全(单帧图像,稀疏深度图作为输入),多帧深度预测(有重叠区域的多帧图像)。单帧深度从单帧图像中直接预测深度,这是一个病态的问题,因此通常精度较低。单帧深度补全引入了稀疏深度作为输入,精度可靠性相对于单帧深度预测网络大幅提高,但目前的深度补全工作都关注于小FoV相机的深度补全,全景图的深度补全工作还非常少。多帧深度预测网络基于有重叠区域的多帧图像,这种方法精度较高,但通常需要的计算资源更多。有一些工作是基于多帧深度预测网络来进行全景图的深度预测,但这种方法对相机的硬件分布有要求,不适合背靠背双目鱼眼相机硬件方案。
除了深度预测外,近几年,出现了一些能够支持全景相机的SLAM/VO(视觉里程计,Visual Odometry)/VIO(视觉惯性里程计,Visual-Inertial Odometry)工作,这些工作有些基于双目鱼眼相机,有些基于四目鱼眼相机,但这些工作大多都只能进行稀疏建图,能满足实时位姿估计的需求,但无法进行稠密建图。“OmniSLAM: OmnidirectionalLocalization and Dense Mapping for Wide-baseline Multi-camera Systems”虽然是一个稠密SLAM系统,但它基于的是四目相机,要求各相机之间存在较大的重叠区域,不能应用于背靠背双目鱼眼相机的硬件方案中。另外,他们的方案位姿估计依赖于深度预测结果,因此整个系统的效率较低。“Cross-Modal 360◦ Depth Completion and Reconstructionfor Large-Scale Indoor Environment”使用SLAM生成的点云结合深度补全网络来预测深度,但基于的是后处理的ERP图像,无法处理实时鱼眼数据流,并且它没有将网络预测的深度加入到SLAM的优化中。
发明内容
为了解决技术中的现有问题,本发明提出了一种基于背靠背双目鱼眼相机的稠密SLAM的方法。包括以下步骤:
步骤1:实时运行中的SLAM接受背靠背双目鱼眼图像作为输入,SLAM的前端进行实时位姿估计和局部建图,得到估算的相机位姿以及局部地图点,然后选取部分帧送入到SLAM的后端作为关键帧;
步骤2:后端根据背靠背双目鱼眼相机的内外参,定义虚拟球面坐标系,生成像素映射模板,并将步骤1中的关键帧内的背靠背双目鱼眼图像在线拼接为全景ERP图像;
步骤3: 根据步骤2生成的像素映射模版生成有效深度区域的掩码;根据步骤2生成的全景ERP图像,生成相机持有者所在区域的掩码;
步骤4:将关键帧内的局部地图点投影到全景ERP图像上,得到对应的稀疏深度图;
步骤5:将步骤2得到的全景ERP图像和步骤4得到的稀疏深度图送入全景深度补全网络,预测得到稠密的全景深度信息和对应的置信度信息;
步骤6:将步骤5预测得到的深度信息和置信度信息,以及步骤3生成的掩码,加入到SLAM的优化和稠密建图中。
与现有技术相比,本发明的优势在于:
1)本发明使用内外参生成的背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的映射模板来拼接全景ERP图像,这种拼接方法能够快速的完成图像拼接,从而能够在线生成全景ERP图来作为深度补全网络的输入。
2)本发明将全景深度补全网络与SLAM系统相结合,深度补全网络使用SLAM生成的全景ERP图像和全景ERP图像对应的稀疏深度图作为输入,网络预测的深度信息和置信度信息加入到SLAM的优化中,从而获得全局一致性更高的深度以及更好的重建结果。
3)本发明使用了背靠背双目鱼眼相机采集的鱼眼图像作为输入,在双目鱼眼图上做实时位姿估计,然后结合全景深度补全网络来进行深度预测,实现稠密建图。这使得本发明能够基于双目鱼眼相机的实时数据流来实现稠密SLAM,而不是依赖于后处理的全景图数据流。
附图说明
图1是本发明方法的流程示意图。
图2是本发明的重建效果的展示图;其中,最左边的图像为SLAM实时的轨迹和点云,中间图像为稠密重建结果,最右边一列图像为稠密重建结果的局部结构对应视角的双目鱼眼图像。
图3 是本发明优化前后的重建效果的对比图,左边为网络预测的深度不参与SLAM优化的重建结果,右边为网络预测的深度参与优化后的重建结果。
图4 是分别使用全景深度补全网络获得的深度结果与单帧全景深度预测网络获得的深度结果的重建对比图。第一行为两个SOTA单帧深度预测网络预测的深度用于重建的结果(左边为PanoFormer网络,右边为UniFuse网络);第二行左边为本发明使用的全景深度补全网络预测的深度用于重建的结果;第二行右边为使用深度真值用于重建的结果。
图5是使用本发明从真实场景双目鱼眼图像在线拼接得到全景ERP图像。
图6是使用本发明从仿真双目鱼眼图像在线拼接得到全景ERP图像。
具体实施方式
下面结合说明书附图对本发明进行详细说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下,均可进行相应组合。
参考图1,本发明的方法包含前端跟踪,后端建图两个模块,系统接受双目鱼眼序列的RGB图像以及IMU数据(其中,IMU数据作为可选输入,实际也可以不使用;IMU数据中包含加速度信息和角速度信息,实时运行中的SLAM可以通过加速度信息、角速度信息与实时运行中的SLAM内的特征跟踪信息进行联合优化,得到更精准、更鲁棒的估算的背靠背双目鱼眼图像的相机位姿以及局部地图点)作为输入。前端负责实时位姿估计和局部建图,然后选取部分帧作为关键帧送入到后端。后端会根据背靠背双目鱼眼相机的内外参,提前生成从背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的像素映射模板。当后端获取到新的关键帧后,会使用预先生成的映射模板在线将两张鱼眼图像拼接为全景图。然后将关键帧中的局部地图点投影到全景图上,生成与全景图大小相等的稀疏深度图。随后,将拼接好的全景图和稀疏深度图送入深度预测网络进行深度预测,深度预测网络会预测全景深度以及置信度。因为光照差异以及内外参的精度问题,基于内外参拼接得到的全景图像在两张鱼眼图像的边界区域会存在接缝问题; 且鱼眼图像边界区域畸变较大,容易出现较大的观测误差。因此除了网络预测的置信度外,还会根据像素映射模板生成有效深度的掩码,将鱼眼图像的边界区域对应的深度标记为不可靠深度,不参与建图和优化。在实际应用中,全景ERP图像中不可避免的会拍摄到相机持有者,相机持有者对应区域的视觉信息和深度信息都是不可靠的,因此我们还会将相机持有者所在区域标记为不可靠深度区域,不参与建图和优化。网络预测的全景深度可以参与到SLAM的优化中,进一步提高全景深度的一致性。一种可选的方案是网络预测的深度采用多深度基的表达形式,将深度基的权重加入到SLAM的BA优化中,参考Depth Completion with Multiple Balanced Bases andConfidence for Dense Monocular SLAM;或者变分自编码器生成的网络编码加入到SLAM的优化中,参考CodeMapping: Real-Time Dense Mapping for Sparse SLAM usingCompact Scene Representations。
如图1所示,在本发明的一个具体实施例中,本发明方法包括以下步骤:
步骤1:实时运行中的SLAM接受背靠背双目鱼眼图像和IMU数据作为输入,SLAM的前端负责实时位姿估计和局部建图,然后选取包含了背靠背双目鱼眼图像、估算的背靠背双目鱼眼图像的相机位姿以及局部地图点的帧送入到SLAM的后端作为关键帧。
为了避免地图冗余严重,导致内存占用过多,关键帧的选取需要按照一定的策略。
常用的策略有根据前端视觉跟踪状态,即如果当前帧与上一个关键帧能跟踪上的特征点数量少于一定阈值,则认为到达一个新的场景,将当前帧作为关键帧加入到后端中;
或者,还有基于时间关系添加的关键帧,例如如果相对于上一个关键帧,已经有一定时间没有添加关键帧,则将当前帧作为关键帧加入到后端中;或者,还有基于空间关系添加的关键帧,例如如果相对于上一个关键帧,当前帧已经运动的位置已经发生较大的移动或旋转,则将当前帧作为关键帧加入到后端。实际上关键帧的选择策略可能是多种条件共同管理。
步骤2:后端使用背靠背双目鱼眼相机的内外参,预先生成背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的像素映射模板,利用像素映射模板结合合适的插值算法可以在线将步骤1中送入到SLAM的后端的关键帧内的背靠背双目鱼眼图像转换为在线拼接得到的全景ERP图像。
在一个优选实施例中,该步骤具体为:定义R代表旋转矩阵,t代表位移向量,在它们的左边分别标注上标和下标,用以具体表示从下标坐标系变换到上标坐标系的旋转矩阵和位移向量。定义背靠背双目鱼眼相机的其中一目为左目,另一目为右目;背靠背双目鱼眼相机的外参为和/>,其中/>代表Body坐标系,/>和/>分别是左目鱼眼相机坐标系和右目鱼眼相机坐标系。/>、/>分别表示从Body坐标系变换到左目鱼眼相机坐标系的旋转矩阵和位移向量,/>、/>分别表示从Body坐标系变换到右目鱼眼相机坐标系的旋转矩阵和位移向量。所述背靠背双目鱼眼相机的外参可以通过背靠背双目鱼眼相机标定获得。
构造一个虚拟球面坐标系,其相对于Body坐标系的外参定义为/>,/>、分别表示从Body坐标系变换到虚拟球面坐标系的旋转矩阵和位移向量,对于背靠背双目鱼眼相机,定义/>,/>可以为人为指定为任意旋转矩阵,特别的,通常将它设定为能够将在线拼接得到的全景ERP (EquiRectangular Projection,等距圆柱体投影)图像左半边的图像对应为左目鱼眼相机的图像和将在线拼接得到的全景ERP图像右半边对应为右目鱼眼相机的图像的旋转矩阵。
假设和/>分别为左目和右目鱼眼相机的投影函数,可以将背靠背双目鱼眼相机坐标系的点投影到左目鱼眼图像、右目鱼眼图像上,左目和右目鱼眼相机的投影函数由背靠背双目鱼眼相机的内参决定。所述背靠背双目鱼眼相机的内参可以通过背靠背双目鱼眼相机标定获得。
为球面坐标系到在线拼接得到的全景ERP图像的投影函数,可以将球面坐标系的点投影到ERP图像上,/>为其对应的反投影函数。则背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的像素映射模板为:
;
;
其中,、/>、/>分别为全景ERP图像、左目鱼眼图像、右目鱼眼图像上的像素点;/>和/>分别表示从虚拟球面坐标系变换到左、右目相机坐标系的变换矩阵;/>为全景ERP图像的宽;/>表示/>在宽方向上的坐标值;
通过以上公式可以建立背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的映射关系,结合插值算法可以迅速的实现背靠背双目鱼眼图像到在线拼接得到的全景ERP图像的转换,常用的实现方案可以参考OpenCV的remap函数。在内外参确定的情况下,该模板只需要生成一次,不需要对每个关键帧独立生成。
步骤3: 根据步骤2生成的背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的像素映射模板生成有效深度区域的掩码。在本发明的一个具体实施例中,该过程具体为:将全景ERP图像上对应为两张双目鱼眼图像边界区域的全景深度信息标记为无效深度区域。
根据步骤2在线拼接得到的全景ERP图像,生成背靠背鱼眼相机持有者所在区域的掩码。在本发明的一个具体实施例中,该过程具体为:检测持有者所在区域,并生成对应的掩码。如持有者是人,则可以使用人体检测算法;如持有者在全景ERP图像上所在的区域较为固定,则可以预先标记出持有者所在区域,从而生成有效深度区域的掩码。
步骤4:将前端跟踪生成的局部地图点,投影到在线拼接得到的全景ERP图像上,得到全景ERP图像对应的稀疏深度图。
在本发明的一个优选实施方式中,该步骤具体为:
对于世界坐标系下的坐标为的三维点,其在第i帧图像的虚拟球面坐标系的坐标/>为:
;
其中,为第i帧在世界坐标系中的位姿;/>表示从Body坐标系变换到虚拟球面坐标系的旋转矩阵,/>表示从Body坐标系变换到虚拟球面坐标系的位移向量;/>表示第i帧图像从世界坐标系变换到Body坐标系的旋转矩阵,/>表示第i帧图像从世界坐标系变换到Body坐标系的位移向量。
则坐标为的三维点对应的在线拼接得到的全景ERP图像上的投影点/>,可以按如下公式进行计算:
;
点对应的深度值为/>,/>表示/>的模长。对于没有三维点对应的投影点的投影区域,其深度用0填充,从而得到与全景ERP图像等大的稀疏深度图,即全景ERP图像对应的稀疏深度图。
步骤5: 将在线拼接得到的全景ERP图像和全景ERP图像对应的稀疏深度图送入全景深度补全网络,预测得到稠密的全景深度信息和对应的置信度信息。
全景深度补全网络接受全景ERP图像和稀疏深度图作为输入,通常包含一个encoder网络和decoder网络,encoder网络对输入图像和稀疏深度图进行编码,然后通过decoder网络解码获得全景深度图,参考Cross-Modal 360◦ Depth Completion andReconstruction for Large-Scale Indoor Environment。
步骤6: 将预测得到的稠密的全景深度信息和对应的置信度信息,以及根据步骤3生成的两个掩码,加入到SLAM的优化和稠密建图中。
全景深度补全网络预测得到的稠密的全景深度信息和对应的置信度信息,以及根据步骤3生成的两个掩码,可以为SLAM优化提供额外约束,可以有多种方式加入到SLAM的优化中。例如:不优化深度,将预测的深度作为额外观测,优化关键帧位姿和地图点;或者将最终深度以多深度基的表达形式加入到BA优化中;或者将最终深度以变分自编码器编码的网络编码加入到SLAM的优化中。
实施案例:
图1是本发明方法的流程示意图,本发明的方法包含前端跟踪,后端建图两个模块,系统接受背靠背双目鱼眼图像和IMU数据作为输入。前端基于双目鱼眼图像和IMU数据进行实时位姿估计和局部建图,得到估算的背靠背双目鱼眼图像的相机位姿以及局部地图点,每一帧由背靠背双目鱼眼图像、估算的背靠背双目鱼眼图像的相机位姿以及局部地图点组成,然后选取部分帧送入到SLAM的后端作为关键帧。后端首先判断是否已经生成了鱼眼图像到全景ERP图像的像素映射模板,如果没有生成,则生成像素映射模板;再根据像素映射模板,在线将双目鱼眼图像拼接为全景ERP图像。分别根据像素映射模板和拼接好的全景图生成两个有效深度的掩码。然后将拼接得到的全景ERP图像和通过关键帧中的局部地图点投影生成的全景ERP图像对应的稀疏深度图作为输入送给全景深度补全网络。全景深度补全网络输出稠密的全景深度信息和对应的置信度信息以及有效深度掩码,这些数据会参与到SLAM的后续优化中,进一步优化深度。
最后可以利用关键帧位姿和稠密深度信息使用TSDF稠密重建算法生成稠密模型,如图2所示。图2是本发明的重建效果的展示图;其中,最左边为SLAM实时的轨迹和点云,中间为稠密重建结果,最右边一列为稠密重建结果的局部结构对应视角的双目鱼眼图像。
本发明在仿真数据集上与之前的工作进行了实验对比,本发明的方法得到的深度取得的重建结果较之前的方法有明显的提升。
图3是本发明优化前后的重建效果的对比图,左边为网络预测的深度信息不参与SLAM优化的重建结果,右边为网络预测的深度信息参与优化后的重建结果。将全景深度预测加入到SLAM的优化中,可以获得一致性更好的重建结果(左边的模型中用框框出的部分出现了明显的分层)。
图4是分别使用全景深度补全网络获得的深度结果与单帧全景深度预测网络获得的深度结果的重建对比图。第一行为两个之前的单帧深度预测网络预测的深度用于重建的结果(左边为PanoFormer网络,右边为UniFuse网络);第二行左边为本发明使用的全景深度补全网络预测的深度用于重建的结果;第二行右边为使用深度真值用于重建的结果。使用SLAM的稀疏深度作为网络的输入获得的深度比单纯的单帧深度预测网络获得的深度精度明显高。
图5是使用本发明从真实场景双目鱼眼图像在线拼接得到全景ERP图像的例子。左边为真实场景采集的双目鱼眼图像,右边为在线拼接得到的全景ERP图像。
图6是使用本发明从仿真双目鱼眼图像在线拼接得到全景ERP图像的例子。左边为仿真数据生成的双目鱼眼图像,右边为从左边的双目鱼眼图像在线拼接得到的全景ERP图像。
本发明可以应用于基于背靠背双目鱼眼的全景硬件采集方案中,可以直接使用双目鱼眼相机的实时数据流实现稠密SLAM,输出实时位姿和稠密建图结果,而不依赖于后处理的ERP图像。稠密SLAM输出的实时位姿和稠密建图结果可以用于生成遮挡、碰撞等更复杂的AR、VR效果;也可以应用于机器人领域,实现路径规划和避障功能等。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (10)
1.一种基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,包括以下步骤:
步骤1:实时运行中的SLAM接受背靠背双目鱼眼图像作为输入,SLAM的前端进行实时位姿估计和局部建图,得到估算的相机位姿以及局部地图点,然后选取部分帧送入到SLAM的后端作为关键帧;
步骤2:后端根据背靠背双目鱼眼相机的内外参,定义虚拟球面坐标系,生成像素映射模板,并将步骤1中的关键帧内的背靠背双目鱼眼图像在线拼接为全景ERP图像;
步骤3: 根据步骤2生成的像素映射模版生成鱼眼图像边界区域的掩码;根据步骤2生成的全景ERP图像,生成相机持有者所在区域的掩码;
步骤4:将关键帧内的局部地图点投影到全景ERP图像上,得到对应的稀疏深度图;
步骤5:将步骤2得到的全景ERP图像和步骤4得到的稀疏深度图送入全景深度补全网络,预测得到稠密的全景深度信息和对应的置信度信息;
步骤6:将步骤5预测得到的深度信息和置信度信息,以及步骤3生成的掩码,加入到SLAM的优化和稠密建图中。
2.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述步骤1中,实时运行中的SLAM接受的输入还包括IMU数据,IMU数据中包含加速度信息和角速度信息,实时运行中的SLAM将加速度信息、角速度信息与其内部生成的特征跟踪信息进行联合优化,得到估算的背靠背双目鱼眼图像的相机位姿以及局部地图点。
3.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述步骤1中,根据前端视觉跟踪状态、时间关系或空间关系来选取部分帧送入到SLAM的后端作为关键帧;其中,每一关键帧均包含输入的背靠背双目鱼眼图像、估算的背靠背双目鱼眼图像的相机位姿以及局部地图点。
4.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述步骤2中,定义虚拟球面坐标系,具体为:
定义R代表旋转矩阵,t代表位移向量,定义背靠背双目鱼眼相机的其中一目为左目,另一目为右目;、/>分别表示从Body坐标系变换到左目鱼眼相机坐标系和右目鱼眼相机坐标系的变换矩阵,其中/>代表Body坐标系,/>和/>分别是左目鱼眼相机坐标系和右目鱼眼相机坐标系;所述背靠背双目鱼眼相机的外参通过背靠背双目鱼眼相机标定获得;
构造一个虚拟球面坐标系,/>表示从Body坐标系变换到虚拟球面坐标系的变换矩阵,其中/>,/>为能够将全景ERP图像左右半边的图像分别对应为左目鱼眼相机的图像和右目鱼眼相机的图像的旋转矩阵。
5.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述步骤2中,生成像素映射模板,并将步骤1中的关键帧内的背靠背双目鱼眼图像在线拼接为全景ERP图像,具体为:
设和/>分别为左目和右目鱼眼相机的投影函数,将各自鱼眼相机坐标系的点投影到左、右目鱼眼图像上;
为球面坐标系到全景ERP图像的投影函数,将球面坐标系的点投影到全景ERP图像上,/>为其对应的反投影函数;则背靠背双目鱼眼图像和全景ERP图像之间的像素映射模版为:
;
;
其中,、/>、/>分别为全景ERP图像、左目鱼眼图像、右目鱼眼图像上的像素点;和/>分别表示从虚拟球面坐标系变换到左、右目相机坐标系的变换矩阵;为全景ERP图像的宽;/>表示/>在宽方向上的坐标值;
通过以上公式结合插值算法实现双目鱼眼图像到全景ERP图像的转换。
6.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述的步骤3中的步骤2生成的像素映射模版生成鱼眼图像边界区域的掩码,具体为:
根据步骤2生成的背靠背双目鱼眼图像和在线拼接得到的全景ERP图像之间的像素映射模板,得到全景ERP图像上对应为两张双目鱼眼图像边界附近的区域,将这部分区域深度标记为不可靠深度,从而生成有效深度区域的掩码。
7.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述的步骤3中的生成相机持有者所在区域的掩码,具体为:
在步骤2生成的全景ERP图像上,将背靠背鱼眼相机持有者所在区域标记为不可靠深度,生成有效深度区域的掩码。
8.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述的步骤4,具体为:
对于世界坐标系下的坐标为的三维点,其在第i帧图像的虚拟球面坐标系的坐标为:
;
其中,和/>分别表示第i帧图像从世界坐标系变换到Body坐标系的旋转矩阵和位移向量;
则坐标为的三维点对应的在线拼接得到的全景ERP图像上的投影点/>,按如下公式进行计算:
;
其中,点对应的深度值为/>,/>表示/>的模长;
对于没有三维点对应的投影点的投影区域,其深度用0填充,从而得到全景ERP图像对应的稀疏深度图。
9.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述的步骤5,具体为:
全景深度补全网络接受一帧在线拼接得到的全景ERP图像和全景ERP图像对应的稀疏深度图作为输入,全景深度补全网络通过网络推理预测获得稠密的全景深度信息以及对应的置信度信息。
10.根据权利要求1所述的基于背靠背双目鱼眼相机的稠密SLAM的方法,其特征在于,所述的步骤6中,根据步骤3生成的两个掩码,丢弃步骤5中生成的全景深度信息上的无效深度区域;
在将全景深度信息以及对应的置信度信息加入到SLAM的优化和稠密建图时,直接剔除置信度低于设定阈值的深度,或将置信度作为深度的权重加入到SLAM的优化和稠密建图中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311801439.XA CN117456124B (zh) | 2023-12-26 | 2023-12-26 | 一种基于背靠背双目鱼眼相机的稠密slam的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311801439.XA CN117456124B (zh) | 2023-12-26 | 2023-12-26 | 一种基于背靠背双目鱼眼相机的稠密slam的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117456124A true CN117456124A (zh) | 2024-01-26 |
CN117456124B CN117456124B (zh) | 2024-03-26 |
Family
ID=89589675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311801439.XA Active CN117456124B (zh) | 2023-12-26 | 2023-12-26 | 一种基于背靠背双目鱼眼相机的稠密slam的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117456124B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118195922A (zh) * | 2024-05-08 | 2024-06-14 | 深圳先进技术研究院 | 视频图像地理拼接方法、装置、计算机设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509230A (zh) * | 2018-11-13 | 2019-03-22 | 武汉大学 | 一种应用于多镜头组合式全景相机的slam方法 |
CN111998862A (zh) * | 2020-07-02 | 2020-11-27 | 中山大学 | 一种基于bnn的稠密双目slam方法 |
CN113781573A (zh) * | 2021-07-19 | 2021-12-10 | 长春理工大学 | 一种基于双目折反射全景相机的视觉里程计方法 |
CN114119889A (zh) * | 2021-11-12 | 2022-03-01 | 杭州师范大学 | 基于跨模态融合的360度环境深度补全和地图重建方法 |
CN114596382A (zh) * | 2022-02-19 | 2022-06-07 | 复旦大学 | 一种基于全景相机的双目视觉slam方法及系统 |
WO2023015880A1 (zh) * | 2021-08-09 | 2023-02-16 | 深圳奥锐达科技有限公司 | 训练样本集的获取方法、模型训练方法及相关装置 |
CN115880344A (zh) * | 2022-11-18 | 2023-03-31 | 浙江大学 | 一种双目立体匹配数据集视差真值获取方法 |
CN116309775A (zh) * | 2023-03-01 | 2023-06-23 | 浙江大学 | 一种将基于多基的深度补全网络与slam融合的方法 |
CN116664621A (zh) * | 2023-03-02 | 2023-08-29 | 武汉唯理科技有限公司 | 一种基于车载多目摄像头和深度神经网络的slam系统 |
CN117218210A (zh) * | 2023-08-29 | 2023-12-12 | 上海大学 | 一种基于仿生眼的双目主动视觉半稠密深度估计方法 |
CN117274514A (zh) * | 2023-08-25 | 2023-12-22 | 清华大学 | 基于地空视角几何变换的遥感图像生成方法及装置 |
-
2023
- 2023-12-26 CN CN202311801439.XA patent/CN117456124B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109509230A (zh) * | 2018-11-13 | 2019-03-22 | 武汉大学 | 一种应用于多镜头组合式全景相机的slam方法 |
CN111998862A (zh) * | 2020-07-02 | 2020-11-27 | 中山大学 | 一种基于bnn的稠密双目slam方法 |
CN113781573A (zh) * | 2021-07-19 | 2021-12-10 | 长春理工大学 | 一种基于双目折反射全景相机的视觉里程计方法 |
WO2023015880A1 (zh) * | 2021-08-09 | 2023-02-16 | 深圳奥锐达科技有限公司 | 训练样本集的获取方法、模型训练方法及相关装置 |
CN114119889A (zh) * | 2021-11-12 | 2022-03-01 | 杭州师范大学 | 基于跨模态融合的360度环境深度补全和地图重建方法 |
CN114596382A (zh) * | 2022-02-19 | 2022-06-07 | 复旦大学 | 一种基于全景相机的双目视觉slam方法及系统 |
CN115880344A (zh) * | 2022-11-18 | 2023-03-31 | 浙江大学 | 一种双目立体匹配数据集视差真值获取方法 |
CN116309775A (zh) * | 2023-03-01 | 2023-06-23 | 浙江大学 | 一种将基于多基的深度补全网络与slam融合的方法 |
CN116664621A (zh) * | 2023-03-02 | 2023-08-29 | 武汉唯理科技有限公司 | 一种基于车载多目摄像头和深度神经网络的slam系统 |
CN117274514A (zh) * | 2023-08-25 | 2023-12-22 | 清华大学 | 基于地空视角几何变换的遥感图像生成方法及装置 |
CN117218210A (zh) * | 2023-08-29 | 2023-12-12 | 上海大学 | 一种基于仿生眼的双目主动视觉半稠密深度估计方法 |
Non-Patent Citations (3)
Title |
---|
SHAOPENG LI ET AL: "Overview of deep learning application on visual SLAM", 《DISPLAYS》, 30 September 2022 (2022-09-30) * |
洪运志 等: "室内环境下深度相机V-SLAM的稠密建图", 《计算机工程与设计》, 16 September 2020 (2020-09-16) * |
陈昕欣: "基于无人机的稠密地图重建与地面目标搜索研究", 《中国优秀硕士学位论文全文数据库电子期刊 工程科技II辑》, vol. 2023, no. 2, 15 February 2023 (2023-02-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118195922A (zh) * | 2024-05-08 | 2024-06-14 | 深圳先进技术研究院 | 视频图像地理拼接方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN117456124B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986136B (zh) | 一种基于语义分割的双目场景流确定方法及系统 | |
US11210804B2 (en) | Methods, devices and computer program products for global bundle adjustment of 3D images | |
CN107836012B (zh) | 投影图像生成方法及其装置、图像像素与深度值之间的映射方法 | |
CN111325794A (zh) | 一种基于深度卷积自编码器的视觉同时定位与地图构建方法 | |
US20190012804A1 (en) | Methods and apparatuses for panoramic image processing | |
US20210049371A1 (en) | Localisation, mapping and network training | |
US20170180644A1 (en) | Threshold determination in a ransac algorithm | |
CN112613609A (zh) | 基于联合位姿优化的神经辐射场增强方法 | |
JP7116262B2 (ja) | 画像深度推定方法および装置、電子機器、ならびに記憶媒体 | |
GB2580691A (en) | Depth estimation | |
CN117456124B (zh) | 一种基于背靠背双目鱼眼相机的稠密slam的方法 | |
CN107809610B (zh) | 摄像头参数集算出装置、摄像头参数集算出方法以及记录介质 | |
CN110070598A (zh) | 用于3d扫描重建的移动终端及其进行3d扫描重建方法 | |
CN113711276A (zh) | 尺度感知单目定位和地图构建 | |
CN112634379B (zh) | 一种基于混合视域光场的三维定位测量方法 | |
CN110428461B (zh) | 结合深度学习的单目slam方法及装置 | |
CN110969706B (zh) | 增强现实设备及其图像处理方法、系统以及存储介质 | |
Fan et al. | RS-DPSNet: Deep plane sweep network for rolling shutter stereo images | |
CN113345032B (zh) | 一种基于广角相机大畸变图的初始化建图方法及系统 | |
WO2019045722A1 (en) | METHODS, DEVICES AND COMPUTER PROGRAM PRODUCTS FOR 3D CARTOGRAPHY ESTIMATION AND 3D IMAGE POSES | |
CN107240149A (zh) | 基于图像处理的物体三维模型构建方法 | |
WO2018150086A2 (en) | Methods and apparatuses for determining positions of multi-directional image capture apparatuses | |
CN117201705B (zh) | 一种全景图像的获取方法、装置、电子设备及存储介质 | |
Wang et al. | Self-supervised learning of depth and camera motion from 360 {\deg} videos | |
Vasiljevic | Neural Camera Models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |