CN116182894A - 一种单目视觉里程计方法、装置、系统及存储介质 - Google Patents

一种单目视觉里程计方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN116182894A
CN116182894A CN202310113950.4A CN202310113950A CN116182894A CN 116182894 A CN116182894 A CN 116182894A CN 202310113950 A CN202310113950 A CN 202310113950A CN 116182894 A CN116182894 A CN 116182894A
Authority
CN
China
Prior art keywords
matching
feature
image
pairs
feature point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310113950.4A
Other languages
English (en)
Inventor
龚谢平
尹洋
王黎明
周子扬
王征
李厚朴
刘洋
周帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN202310113950.4A priority Critical patent/CN116182894A/zh
Publication of CN116182894A publication Critical patent/CN116182894A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C22/00Measuring distance traversed on the ground by vehicles, persons, animals or other moving solid bodies, e.g. using odometers, using pedometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C3/00Measuring distances in line of sight; Optical rangefinders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Electromagnetism (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种单目视觉里程计方法、装置、系统及存储介质,该方法包括:步骤一、对摄像头采集的单帧图像进行特征点提取,得到图像的特征点和描述子;步骤二、将相邻帧图像的特征点进行特征匹配,得到特征匹配的最优得分矩阵;步骤三、对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。本发明能够融合深度学习的特征点提取和匹配算法,并对匹配结果进行优化,解决了视觉里程计在光照变化场景下误差较大的问题,提高了单目视觉里程计的精度和鲁棒性。

Description

一种单目视觉里程计方法、装置、系统及存储介质
技术领域
本发明涉及机器人同步定位与地图构建领域,具体是一种单目视觉里程计方法、装置、系统及存储介质。
背景技术
移动机器人是一种具有自主能力,能够执行特定任务的无人系统,移动机器人无论是在军事还是民用中都发挥着重要的作用。移动机器人可以部署在高危险环境或受核、生物或化学制剂污染的区域,它们可靠、快速、机动性强,可以执行各种任务,包括监控、巡逻、搜救等任务。
传统地形勘探的方式存在很多难点:①环境复杂、工况恶劣:战场上局势瞬息万变,十分危险;②危险地形,难以作业:部分地形作业风险高,地形勘探活动难以开展;③耗财耗时,效率低下:勘探方法古老,需要耗费大量的人力财力。针对以上问题,移动机器人就具有很多技术优势:①自主导航,可以抵达危险区域,人员无需涉险;②勘探方法简单便捷;③定位精度高,跑线精确。所以,移动机器人能够承担地形勘探、巡逻等任务,并且能够减少大量的人力、物力。
同步定位与地图构建(Simultaneous Localization and Mapping,SLAM)作为移动机器人执行定位、导航等任务的核心技术,使得移动机器人能够在未知环境中自由活动。SLAM是指在未知环境中利用传感器对移动机器人周围环境中所处的位置与姿态进行状态感知与估计,并对所处环境进行地图构建。视觉里程计作为视觉SLAM的前端,是指从一系列图像流中估计相机的运动位姿。传统的视觉里程计算法包括相机矫正、特征检测、特征匹配、运动估计等,能够在大部分情况下取得很好的效果,但是在光照变化大的场景下会出现定位失败的现象。
发明内容
本发明提供一种单目视觉里程计方法、装置、系统及存储介质,能够融合深度学习的特征点提取和匹配算法,并对匹配结果进行优化,解决了视觉里程计在光照变化场景下误差较大的问题,提高了单目视觉里程计的精度和鲁棒性,能够适应复杂的场景。
一种单目视觉里程计方法,包括如下步骤:
步骤一、对摄像头采集的单帧图像进行特征点提取:利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
步骤二、将相邻帧图像的特征点进行特征匹配:利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
步骤三、根据匹配结果进行相机位姿估计与优化:对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
进一步的,所述步骤一具体为:
深度卷积神经网络SuperPoint的模型结构包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器用于对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过深度卷积神经网络SuperPoint处理后,即得到图像的特征点和特征描述子。
进一步的,所述步骤二具体为:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
进一步的,所述步骤三具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
Figure SMS_1
其中,
Figure SMS_2
表示第i个匹配对,/>
Figure SMS_3
为设定的阈值,/>
Figure SMS_4
表示匹配集中最小匹配距离;
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
一种单目视觉里程计装置,包括:
特征点提取模块,用于对摄像头采集的单帧图像进行特征点提取,具体的,利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
特征点匹配模块,用于将相邻帧图像的特征点进行特征匹配,具体的,利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
位姿估计与优化模块,用于根据匹配结果进行相机位姿估计与优化,具体的,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
进一步的,所述特征点提取模块利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子,具体包括:所述特征点提取模块包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过所述特征点提取模块处理后,即得到图像的特征点和特征描述子。
进一步的,所述特征点匹配模块利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵,具体包括:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
进一步的,所述位姿估计与优化模块,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿,具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
Figure SMS_5
其中,
Figure SMS_6
表示第i个匹配对,/>
Figure SMS_7
为设定的阈值,/>
Figure SMS_8
表示匹配集中最小匹配距离;
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
一种单目视觉里程计系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行所述的单目视觉里程计方法。
一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的单目视觉里程计方法。
本发明能够融合深度学习的特征点提取和匹配算法,并对匹配结果进行优化,解决了视觉里程计在光照变化场景下误差较大的问题,提高了单目视觉里程计的精度和鲁棒性。
附图说明
图1是发明单目视觉里程计方装置的结构示意图;
图2是SuperPoint特征点提取网络结构图;
图3是Super Glue特征点匹配网络结构图;
图4是对极几何约束图;
图5是ORB算法、SIFT算法和SuperPoint算法对图像提取特征点效果图;
图6是ORB&BF算法、SIFT&FLANN算法和SuperPoint&SuperGlue算法对图像提取特征点效果图;
图7是分别基于ORB、SIFT、SuperPoint算法的单目视觉里程计相机位姿估计轨迹结果图。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
图1所示为本发明单目视觉里程计装置的结构示意图,所述装置包括:
特征点提取模块:通过该模块获取摄像头的数据,并通过深度卷积神经网络提取图像中的特征点和特征描述子以供后续模块使用。SuperPoint网络结构如图2所示,特征点提取结果如图5所示。
特征点匹配模块:将相邻帧图像的特征点和特征描述子作为输入,通过自注意力机制神经网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征得分矩阵。SuperGlue网络结构如图3所示,特征点匹配结果如图6所示。
位姿估计与优化模块:根据最小距离阈值法和RANSAC优化算法对匹配结果进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。对极几何约束如图4所示,相机位姿估计与真实轨迹对比结果如图7所示。
根据各模块的功能,本发明实施例提供一种单目视觉里程计方法,包括如下步骤:
步骤一、对摄像头采集的单帧图像进行特征点提取(该步骤主要由深度卷积网络模块实现):利用卷积神经网络对图像进行特征点提取,获取图像的特征点和特征描述子。
考虑到传统视觉里程计在光照变化场景下误差较大的问题,本发明选取的是SuperPoint框架,其使用的编码器为VGG卷积网络,然后将特征点解码器和描述子解码器添加到网络来提取图像特征点和特征描述子。共享编码器结构类似于VGG卷积网络,主要由卷积层、下采样池化层和非线性激活函数组成。编码器将尺寸为
Figure SMS_10
的图像作为输入,经过卷积池化等操作后将图像映射到尺寸为/>
Figure SMS_12
(其中/>
Figure SMS_14
)的中间张量,进行了图片降维,提取深层特征,简化后续的计算量。特征点检测解码器通过上卷积运算将经过池化层和条纹卷积降维的图像还原到全分辨率,但上采样会增加计算复杂度,因此采用亚像素卷积层的特征点检测解码器来减少模型复杂度。特征点检测解码器将尺寸为/>
Figure SMS_11
的张量作为输入,通过Softmax归一化以及Reshape操作,输出/>
Figure SMS_13
尺寸的张量(其中/>
Figure SMS_15
),最后再经过NMS输出图像的特征点。特征点描述解码器将尺寸为/>
Figure SMS_16
的张量作为输入,对描述符进行归一化后根据特征点的位置通过双线性插值得到特征向量,输出/>
Figure SMS_9
的特征向量。
SuperPoint算法采用自监督的方式进行训练,训练过程是先使用已知角点的基础图形的虚拟图片来训练编码器和特征点解码器提取特征点,使用训练好的编码器和特征点解码器检测目标N个随机单应性矩阵变换后的特征点,将特征点通过逆向单应性变换还原到原图像上,最后将映射后的图像特征点作为增强点数据集训练网络生成特征点和描述子。损失函数由特征点损失和描述子损失两部分组成:
Figure SMS_17
其中
Figure SMS_18
为特征点相关损失,/>
Figure SMS_19
为描述子相关损失,/>
Figure SMS_20
分别为经过网络结构后输出的特征点和描述子,Y为特征点的的标签值,
Figure SMS_21
对应原图经过单应性变换后的图片中与/>
Figure SMS_22
含义相同,超参数/>
Figure SMS_23
用来平衡特征点损失和描述子损失。
特征点相关损失函数定义为一个交叉熵损失:
Figure SMS_24
其中,
Figure SMS_25
和/>
Figure SMS_26
分别表示/>
Figure SMS_27
在/>
Figure SMS_28
处的值,/>
Figure SMS_29
公式如下所示:
Figure SMS_30
其中,
Figure SMS_31
示/>
Figure SMS_32
在第k个通道的值。描述子损失函数/>
Figure SMS_33
定义为一个合页损失函数:
Figure SMS_34
其中
Figure SMS_35
和/>
Figure SMS_36
分别表示当前帧和上一帧的描述子,S表示一对图像描述子的整个对应集合。/>
Figure SMS_37
用来判断/>
Figure SMS_38
对应图片单元的中心位置进过单应性变换后是否在
Figure SMS_39
对应图片单元的中心位置的领域内。/>
Figure SMS_40
和/>
Figure SMS_41
公式如下所示:
Figure SMS_42
其中,
Figure SMS_43
分别表示/>
Figure SMS_44
和/>
Figure SMS_45
对应的输入图片单元的位置中心,/>
Figure SMS_46
是对/>
Figure SMS_47
进行的单应性变换。
Figure SMS_48
其中,超参数
Figure SMS_49
和/>
Figure SMS_50
分别对应正向对应阈值与负向对应阈值,超参数/>
Figure SMS_51
用于平衡描述子内部正向对应损失与负向对应损失值。
步骤二、将相邻帧图像的特征点进行特征匹配(该步骤主要由注意力机制神经网络实现):考虑到传统的特征点匹配算法存在一定的缺点,例如源图像中多个特征点匹配到目标图的同一个特征点上,或是当源图特征亮度高于背景且标图特征亮度低于背景时,前景特征就会匹配到背景目标点上,本发明选取的是SuperGlue特征点匹配算法,对相邻帧图像的特征点进行匹配,求解最优特征得分矩阵。
注意力机制GNN将输入的图像特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
SuperPoint模型中注意力机制的原理为:注意力机制模拟人脑来回浏览匹配的过程,在特征点组成的无安全图中,图中包含两种无向边,一种是连接图像内部特征点的
Figure SMS_52
,另一种是连接本图中特征点i与另一张图所有特征点的
Figure SMS_53
。图像A上第i个元素在第/>
Figure SMS_54
层的中间表达式用/>
Figure SMS_55
表示,则图像A中所有特征点更新的残差信息为:
Figure SMS_56
其中,
Figure SMS_57
,MLP为多层感知机。通过层数的奇偶数变化,使得/>
Figure SMS_58
在cross和self之间交替变换,实现了模拟人脑匹配的过程。
步骤三、根据匹配结果进行相机位姿估计与优化:根据最小距离阈值法和RANSAC优化算法对匹配结果进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。所述步骤三具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离。对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对;
Figure SMS_59
其中,
Figure SMS_60
表示第i个匹配对,/>
Figure SMS_61
为设定的阈值,/>
Figure SMS_62
表示匹配集中最小匹配距离;
步骤3.2:采用RANSAC优化算法对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
图4为对极几何约束原理图。
Figure SMS_63
表示上一帧与当前帧图像的成像平面,/>
Figure SMS_64
表示相机光心,/>
Figure SMS_65
是特征点/>
Figure SMS_66
的极线,与/>
Figure SMS_67
连线的交点为极点/>
Figure SMS_68
。对极几何约束方程为:
Figure SMS_69
其中,H为单应矩阵。当特征点匹配正确且P点不在空间平面上时,归一化平面坐标与基础矩阵满足上式。若受到误匹配的影响,特征点无法落在极线上,则需要计算特征点
Figure SMS_70
分别到极线/>
Figure SMS_71
的距离,当距离大于阈值时该点为外点。
图5为ORB算法、SIFT算法和SuperPoint算法对图像提取特征点效果图。图5(a)反应了ORB的提取效果,提取出的特征点比较集中,能够提取出房子、树干的边缘等光暗变化明显的特征点,在图片中的大部分区域未提取出特征点,且特征点分布不均匀;图5(b)反应了SIFT的提取效果,提取出的特征点也比较密集,对比与ORB算法要稍均匀,主要集中在树干边缘等光暗变化明显的区域,在路面、汽车提取出少量特征点;图5(c)反应了SuperPoint的提取效果,均匀分布在图像中,不存在集中在某一区域的现象,图像中车辆、路面、房子、树干等都能提取出大量的特征点,从定性分析来衡量算法,SuperPoint算法要优于ORB算法和SIFT算法,对后续的特征点匹配和位姿估计提供了良好的基础。
图6为ORB&BF算法、SIFT&FLANN算法和SuperPoint&SuperGlue算法对图像提取特征点效果图。图6(a)反应了ORB&BF的特征点匹配效果,匹配结果中存在大量的匹配线密集的现象,大多数集中在一定的区域,匹配线段斜率接近;图6(b)反应了SIFT&FLANN的特征点匹配效果,结果也存在匹配线段密集的现象,相比于ORB算法更稀疏,在图像中的分布也更均匀;图6(c)反应了SuperPoint&SuperGlue的特征点匹配效果,匹配结果均匀分布在图像中,匹配质量优于ORB&BF和SIFT&FLANN两种算法,为位姿估计提供了良好的基础。
图7是分别基于ORB、SIFT、SuperPoint算法的单目视觉里程计相机位姿估计轨迹结果图。图7(a)为基于ORB算法的单目视觉里程计位姿估计效果,完全偏离实际轨迹。图7(b)为基于SIFT算法的单目视觉里程计位姿估计效果,前期轨迹误差较小,但随着帧数的增多,轨迹误差轨迹增大。图7(c)为本发明单目视觉里程计位姿估计效果,相机位姿估计轨迹与真实轨迹几乎一致。并且,该系统在光照变化明显的场景下也具有很高的精度。总的来说,该系统的优点在于:①提高了算法的鲁棒性;②提高了相机位姿估计的精度;③提高了系统的容错能力;④提高了整个系统的性能。
本发明另一方面提供了一种单目视觉里程计系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行所述的单目视觉里程计方法。
本发明另一方面提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的单目视觉里程计方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种单目视觉里程计方法,其特征在于:包括如下步骤:
步骤一、对摄像头采集的单帧图像进行特征点提取:利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
步骤二、将相邻帧图像的特征点进行特征匹配:利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
步骤三、根据匹配结果进行相机位姿估计与优化:对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
2.如权利要求1所述的单目视觉里程计方法,其特征在于:所述步骤一具体为:
深度卷积神经网络SuperPoint的模型结构包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器用于对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过深度卷积神经网络SuperPoint处理后,即得到图像的特征点和特征描述子。
3.如权利要求1所述的单目视觉里程计方法,其特征在于:所述步骤二具体为:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
4.如权利要求1所述的单目视觉里程计方法,其特征在于:所述步骤三具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
Figure QLYQS_1
其中,
Figure QLYQS_2
表示第i个匹配对,/>
Figure QLYQS_3
为设定的阈值,/>
Figure QLYQS_4
表示匹配集中最小匹配距离;
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
5.一种单目视觉里程计装置,其特征在于:包括:
特征点提取模块,用于对摄像头采集的单帧图像进行特征点提取,具体的,利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子;
特征点匹配模块,用于将相邻帧图像的特征点进行特征匹配,具体的,利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵;
位姿估计与优化模块,用于根据匹配结果进行相机位姿估计与优化,具体的,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿。
6.如权利要求5所述的单目视觉里程计装置,其特征在于:所述特征点提取模块利用深度卷积神经网络SuperPoint对图像进行特征提取,获取图像的特征点和特征描述子,具体包括:
所述特征点提取模块包括共享编码器、特征点检测解码器和特征点描述解码器,所述共享编码器对图像进行降维处理,之后特征点检测解码器和特征点描述解码器的共享参数同时提取图像特征点和描述符,摄像头采集的单帧图像通过所述特征点提取模块处理后,即得到图像的特征点和特征描述子。
7.如权利要求5所述的单目视觉里程计装置,其特征在于:所述特征点匹配模块利用注意力机制网络SuperGlue对相邻帧图像的特征点进行匹配,求解最优特征分配矩阵,具体包括:
注意力机制GNN将输入的图像的特征点和特征描述子编码为一个特征匹配向量f,再利用自我注意力机制和交叉注意力机制增强向量f的特征匹配性能,然后将向量f转化成匹配向量并输出到最优匹配层,计算特征匹配向量的内积得到匹配度得分矩阵,最后通过Sinkhorm算法多次迭代求解出最优特征分配矩阵。
8.如权利要求5所述的单目视觉里程计装置,其特征在于:所述位姿估计与优化模块,对所述最优特征矩阵根据最小距离阈值法和RANSAC优化算法进行优化,剔除错误匹配对,再根据对极几何约束求解相机位姿,具体包括:
步骤3.1:根据最小阈值法对错误图像特征点匹配对滤除,对图像中的特征点对进行距离测试,选取距离最近特征点对作为最小距离,对特征点匹配对的距离采用以下式子判断,当满足上述条件时,判定为正确匹配,否则剔除该匹配对:
Figure QLYQS_5
其中,
Figure QLYQS_6
表示第i个匹配对,/>
Figure QLYQS_7
为设定的阈值,/>
Figure QLYQS_8
表示匹配集中最小匹配距离;
步骤3.2:采用RANSAC优化算法进一步对错误图像特征点匹配对滤除,从最小阈值法优化后的匹配集M中随机挑选N+1对匹配对,N对匹配对计算相对变换矩阵得到模型Q,剩余1对匹配验证模型Q的准确性,重复上述步骤得到内点数最多的匹配结果;
步骤3.3:相机位姿估计:对于优化后的结果,根据对极几何约束来求解单应矩阵H和基础矩阵F,估计相机位姿。
9.一种单目视觉里程计系统,其特征在于包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行权利要求1-4中任一项所述的单目视觉里程计方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-4中任一项所述的单目视觉里程计方法。
CN202310113950.4A 2023-02-15 2023-02-15 一种单目视觉里程计方法、装置、系统及存储介质 Pending CN116182894A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310113950.4A CN116182894A (zh) 2023-02-15 2023-02-15 一种单目视觉里程计方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310113950.4A CN116182894A (zh) 2023-02-15 2023-02-15 一种单目视觉里程计方法、装置、系统及存储介质

Publications (1)

Publication Number Publication Date
CN116182894A true CN116182894A (zh) 2023-05-30

Family

ID=86436108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310113950.4A Pending CN116182894A (zh) 2023-02-15 2023-02-15 一种单目视觉里程计方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN116182894A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455994A (zh) * 2023-11-07 2024-01-26 暨南大学 一种相机位姿估计方法、系统、电子设备及可读介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117455994A (zh) * 2023-11-07 2024-01-26 暨南大学 一种相机位姿估计方法、系统、电子设备及可读介质

Similar Documents

Publication Publication Date Title
CN112270249B (zh) 一种融合rgb-d视觉特征的目标位姿估计方法
Teed et al. Droid-slam: Deep visual slam for monocular, stereo, and rgb-d cameras
JP7106665B2 (ja) 単眼深度推定方法およびその装置、機器ならびに記憶媒体
Wang et al. 360sd-net: 360 stereo depth estimation with learnable cost volume
CN113674416B (zh) 三维地图的构建方法、装置、电子设备及存储介质
CN107657644B (zh) 一种移动环境下稀疏场景流检测方法和装置
CN110619638A (zh) 一种基于卷积块注意模块的多模态融合显著性检测方法
US20220392083A1 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
CN113256699B (zh) 图像处理方法、装置、计算机设备和存储介质
CN113674400A (zh) 基于重定位技术的光谱三维重建方法、系统及存储介质
CN115049821A (zh) 一种基于多传感器融合的三维环境目标检测方法
CN112686952A (zh) 一种图像光流计算系统、方法及应用
CN116182894A (zh) 一种单目视觉里程计方法、装置、系统及存储介质
Liu et al. D-lc-nets: Robust denoising and loop closing networks for lidar slam in complicated circumstances with noisy point clouds
Hirner et al. FC-DCNN: A densely connected neural network for stereo estimation
Basak et al. Monocular depth estimation using encoder-decoder architecture and transfer learning from single RGB image
Zhang et al. Improved feature point extraction method of ORB-SLAM2 dense map
CN113160210A (zh) 基于深度相机的排水管道缺陷检测方法及装置
Geletu et al. Deep learning based architecture reduction on camera-lidar fusion for autonomous vehicles
Gao et al. Optimization of greenhouse tomato localization in overlapping areas
CN114140524A (zh) 一种多尺度特征融合的闭环检测系统及方法
Carvalho et al. Technical Report: Co-learning of geometry and semantics for online 3D mapping
Ding et al. Research on optimization of SURF algorithm based on embedded CUDA platform
Piao et al. Dynamic fusion network for light field depth estimation
Zeng et al. 3D Reconstruction of buildings based on transformer-MVSNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination