CN117671022A - 一种室内弱纹理环境的移动机器人视觉定位系统及方法 - Google Patents

一种室内弱纹理环境的移动机器人视觉定位系统及方法 Download PDF

Info

Publication number
CN117671022A
CN117671022A CN202311465125.7A CN202311465125A CN117671022A CN 117671022 A CN117671022 A CN 117671022A CN 202311465125 A CN202311465125 A CN 202311465125A CN 117671022 A CN117671022 A CN 117671022A
Authority
CN
China
Prior art keywords
binocular image
information
point
binocular
moment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311465125.7A
Other languages
English (en)
Inventor
朱锋
张雪晴
张小红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202311465125.7A priority Critical patent/CN117671022A/zh
Publication of CN117671022A publication Critical patent/CN117671022A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Processing (AREA)

Abstract

本发明提出了一种室内弱纹理环境的移动机器人视觉定位系统及方法。进行参数标定及训练数据获取,对构建的Superpoint及LightGlue网络进行优化训练。结合优化训练好的网络及LSD算法,提取实时采集的双目图像中的特征点及结构线,进行左右目特征匹配及三角化。结合上一时刻双目图像,实现前后时刻特征匹配,计算当前时刻双目图像位姿信息,并判断是否将其创建为关键帧纳入优化窗口,同时进行回环检测。若检测到回环则进行全局优化。若未检测到回环,当优化窗口中关键帧数目大于设定阈值后,图优化更新窗口内所有关键帧的位姿及特征信息。本发明能够缓解弱纹理环境下有效点特征信息不足致使定位退化的问题,能够在保障运行效率的前提下得到更加精确的导航定位结果。

Description

一种室内弱纹理环境的移动机器人视觉定位系统及方法
技术领域
本发明属于双目视觉领域,尤其涉及一种室内弱纹理环境的移动机器人视觉定位系统及方法。
背景技术
无人自主感知测量系统广泛应用于军事侦察、灾害应对、测绘测量等领域,指运用智能载体快速检测并获取目标场景信息,通常包含定位、感知、决策、规划四部分,其中高精度定位技术是各环节的基础。目前定位导航领域常用的传感器可以分为三类,分别基于无线电信号、航位推算和环境特征匹配,对应最具代表性的传感器为GNSS、SINS、视觉/激光雷达。其中视觉传感器体积小、功耗低、价格低廉,能够呈现颜色、纹理等多维度表征信息,具有较好的应用前景。
根据图像信息利用方案不同,视觉定位可以分为直接法和间接法。前者假设局部序列影像中亮度恒定,通过最小化连续帧之间的光度误差来估计相机运动,对亮度变化非常敏感且受限于狭窄的基线运动。后者通常先提取每帧图像的特征信息,然后依据描述子或光流完成特征匹配,构建不同图像中的像素数据关联,从而建立起几何上的目标函数实现位姿求解。其中点特征因为易于提取、描述和匹配,在双目视觉SLAM中应用广泛。但是,前述方法在弱纹理环境中往往难以找到大量有效关键点特征,致使定位精度降低,甚至完全失败。而室内弱纹理环境往往具有高度结构化的特性,其中结构线包含较多环境信息,对视角和光照变化具有很好的鲁棒性。但特征类型的增多往往会导致算法运行效率的降低,故引入图论稀疏化方案,在尽量少地改变后端图优化结构的前提下,减少使用的特征数目,进而提升算法运行效率。
综上所述,目前双目视觉SLAM算法主要存在以下问题:
室内弱纹理环境下,基于特征点的双目视觉SLAM难以获取足量有效特征,算法精度会降低,甚至完全失败;
室内弱纹理场景下,传统基于手工设计的特征点提取及匹配算法效率较低,且不同特征点间区分度不高,易出现匹配错误;
点线特征结合的定位方案会导致系统效率降低,大量特征的处理及重定位耗时严重,在常规配置平台上难以实时处理较复杂场景。
发明内容
针对以上问题,本发明提出了一种室内弱纹理环境的移动机器人视觉定位系统及方法,在保障算法运行效率的前提下,有效提高了室内弱纹理环境下的定位精度。
本发明系统的技术方案为一种室内弱纹理环境的移动机器人视觉定位系统,包括:
机器人平台底盘、工控机、双目相机;
所述的机器人平台底盘装载所述的工控机、双目相机;
所述工控机分别与所述的机器人平台底盘、双目相机通过有线方式依次连接;
进行参数标定及训练数据获取,对构建的Superpoint及LightGlue网络进行优化训练。结合优化训练好的网络及LSD算法,提取实时采集的双目图像中的特征点及结构线,进行左右目特征匹配及三角化。结合上一时刻双目图像,实现前后时刻特征匹配,计算当前时刻双目图像位姿信息,并判断是否将其创建为关键帧纳入优化窗口,同时进行回环检测。若检测到回环则进行全局优化。若未检测到回环,当优化窗口中关键帧数目大于设定阈值后,图优化更新窗口内所有关键帧的位姿及特征信息。
本发明方法的技术方案为一种室内弱纹理环境的移动机器人视觉方法,包括以下步骤:
步骤1:通过张正友标定模型对双目相机进行参数标定,得到标定数据;工控机控制机器人平台底盘驱动所述机器人在室内运动,双目相机连续采集多幅移动机器人前进方向的双目图像数据,并传输至工控机,工控机通过标定数据对双目图像进行去噪、去畸变、图像增强,得到每幅预处理后双目图像;
步骤2:输入多幅几何形状的图像、每幅几何形状的图像的多个真实特征点像素坐标;构建Magicpoint网络,将每幅几何形状图像输入网络预测并进行非极大值抑制,得到每幅几何形状图像的多个预测特征点像素坐标,进一步结合每幅几何形状图像的每个真实特征点像素坐标构建交叉熵损失函数,通过梯度下降法优化训练得到优化后的Magicpoint网络;
步骤3:将多幅预处理后双目图像作为训练数据集,输入优化后的Magicpoint网络,得到每幅预处理后双目图像的伪真实特征点像素坐标;将多幅预处理后双目图像进行单应变换,得到每幅单应变换后的双目图像、每幅预处理后双目图像的伪真实特征点单应变换后的像素坐标;构建Superpoint网络,将每幅预处理后双目图像、每幅单应变换后的双目图像输入网络预测得到每幅预处理后双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息,进一步结合每幅预处理后双目图像的每个伪真实特征点像素坐标、每幅预处理后双目图像的伪真实特征点单应变换后的像素坐标构建联合损失函数,通过AdamW优化器优化训练得到优化后的Superpoint网络;
步骤4:将多幅预处理后双目图像作为训练数据集,将每幅预处理后双目图像通过单应变换,得到每幅变换后的双目图像、每幅双目图像对应真实变换参数,将每幅预处理后双目图像及对应单应变换后的双目图像输入Superpoint网络,得到每幅预处理后双目图像特征点像素坐标集合、每幅预处理后双目图像特征点描述信息集合、每幅变换后的双目图像特征点像素坐标集合、每幅变换后的双目图像特征点描述信息集合;构建LightGlue网络,将幅预处理后双目图像特征点像素坐标集合、每幅预处理后双目图像特征点描述信息集合、每幅变换后的双目图像特征点像素坐标集合、每幅变换后的双目图像特征点描述信息集合输入网络进行预测,得到预处理后双目图像特征点及对应变换后的双目图像特征点的预测匹配关系,从而计算得到每幅双目图像对应预测变换参数,进一步结合每幅双目图像对应真实变换参数构建网络损失函数,通过AdamW优化器优化训练得到优化后的LightGlue网络。
步骤5:工控机通过双目相机实时采集运动双目图像,将每个时刻的运动双目图像进行去噪、去畸变、图像增强,得到每个时刻的预处理后双目图像;将每个时刻预处理后双目图像输入优化后的Superpoint网络预测,得到每个时刻预处理后双目图像的每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息;将每个时刻预处理后双目图像的每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息输入优化后LightGlue网络预测,得到每个时刻预处理后双目图像的每个预测特征点之间的匹配关系;使用LSD、LBD算法处理每个时刻预处理后双目图像,得到每个时刻预处理后双目图像的多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,进一步结合曼哈顿理论筛选得到多个结构线段的起点像素坐标、终点像素坐标以及对应描述信息;使用最近邻匹配算法处理多个结构线段的起点像素坐标、终点像素坐标以及对应描述信息,得到多个结构线段之间的匹配关系。
步骤6:结合每个时刻预处理后双目图像的多个结构线段的起点像素坐标、终点像素坐标,计算多个结构线段的线段方程,进而通过J-Linkage算法识别出多组平行线段集合,计算每组平行线段集合对应的灭点坐标,通过灭点坐标反推主方向信息,结合主方向信息及多个结构线段之间的匹配关系恢复三维结构线信息;利用所述的标定数据及双目图像的每个预测特征点之间的匹配关系,三角化得到三维点云坐标,进一步在三维点云中筛选出符合深度阈值的部分保留。
步骤7:工控机通过双目相机获取当前时刻的双目图像,利用Superpoint、LSD、LBD算法处理当前时刻的双目图像,得到当前时刻双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息、多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,并结合上一时刻双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息、多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,使用LightGlue网络及最近邻匹配算法,得到前后时刻双目图像间预测特征点的匹配关系、结构线段之间的匹配关系;若前后时刻双目图像间预测特征点的匹配、结构线段之间的匹配数量大于设定阈值,结合PNP及RANSAC算法估算前后时刻双目图像之间的位姿变化,进而计算当前时刻双目图像的初始位姿信息;利用前后时刻双目图像间预测特征点的匹配关系、结构线段之间的匹配关系,结合当前时刻双目图像的初始位姿信息,恢复双目图像的三维结构线信息及三维点云坐标信息;判断是否将当前时刻双目图像创建为新关键帧,若判定其为关键帧,则使用BoW模型计算新创建的关键帧的词袋信息,并进行回环检测,若未检测到回环,则将新创建的关键帧的位姿信息、三维结构线信息及三维点云坐标信息纳入优化窗口;若检测到回环,则进入步骤9。
步骤8:重复前述步骤7,直至优化窗口内关键帧数量大于设定阈值时,工控机使用基于图论的特征点稀疏化方法,删除当前优化窗口内关键帧包含的冗余三维点云坐标信息;利用优化窗口内关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息,构建图优化所需图结构并优化,将更新后优化窗口内双目图像对应的位姿信息、三维结构线信息及三维点云坐标信息存储到静态地图中,并删除优化窗口包含的所有关键帧。
步骤9:若工控机检测到回环,则将检测到的历史时刻到当前时刻内所有关键帧的位姿信息、三维结构线信息及三维点云坐标信息纳入优化窗口,构建图优化所需图结构并优化,将更新后优化窗口内双目图像对应的位姿信息、三维结构线信息及三维点云坐标信息存储更新到静态地图中,并删除优化窗口包含的所有关键帧;
作为优选,步骤1所述标定数据包含相机焦距、主点坐标、畸变参数、长宽等信息。
作为优选,步骤2所述的交叉熵损失函数为:
其中,m表示第m幅几何形状图像,n表示第m幅几何形状图像中的第n个像素点,ymn表示第m幅几何形状图像中的第n个像素点实际是否为特征点,取值为1或0,1表示对应像素点为特征点,0表示对应像素点不为特征点;为模型的预测输出,表示预测的第m幅几何形状图像中的第n个像素点属于特征点的概率。
作为优选,步骤3所述的联合损失函数为:
L(X,X′,D,D′;Y,Y′,S)=Lp(X,Y)+Lp(X′,Y′)+λLd(D,D′,S)
其中,λ为权重平衡系数,X表示预测的预处理后双目图像各像素属于特征点的概率,X′表示预测的每幅单应变换后的双目图像各像素属于特征点的概率;Y表示真实的预处理后双目图像各像素是否属于特征点,Y′表示真实的每幅单应变换后的双目图像各像素是否属于特征点;D表示预测的预处理后双目图像各像素描述信息,即以该像素为中心一定像素为半径的周边像素块;D′表示预测的每幅单应变换后的双目图像各像素描述信息,即以该像素为中心10像素为半径的周边像素块;S表示预处理后双目图像各像素描述信息与每幅单应变换后的双目图像各像素描述信息是否为正确匹配。
其中Lp为特征点提取部分的损失函数,具体为全卷积交叉熵;Ld为描述子提取部分的损失函数,具体使用点之间的匹配情况构建:
where
其中,Hc为预处理后双目图像纵轴方向包含的像素点数量,Wc为预处理后双目图像横轴方向包含的像素点数量;dhw为预处理后双目图像在像素坐标(h,w)处的描述信息,即以(h,w)像素为中心10像素为半径的周边像素块;d′h′w′为每幅单应变换后的双目图像在像素坐标(h′,w′)处的描述信息,即以(h′,w′)像素为中心10像素为半径的周边像素块;shwh′w′为指示函数,表示预处理后双目图像在(h,w)处的描述信息dhw与每幅单应变换后的双目图像在(h′,w′)处的描述信息d′h′w′的真实匹配情况,匹配则其(h,w)处的值为1不匹配则为0。
phw表示预处理后双目图像在像素坐标(h,w)处的描述信息dhw的中心像素,ph′w′表示每幅单应变换后的双目图像在像素坐标(h′,w′)处的描述信息d′h′w′的中心像素;为通过网络预测结果的计算得到的预测单应变换矩阵;/>表示将预处理后双目图像上的像素点phw变换到每幅单应变换后的双目图像中;当/>与ph′w′的直线距离小于8个像素时认为描述信息dhw与描述信息d′h′w′为正确匹配,即指示函数shwh′w′在(h,w)处的值设为1;dhw Td′h′w′表示描述信息dhw与描述信息d′h′w′之间的余弦相似度,mp为是否对余弦相似度进行惩罚的阈值,mn为对余弦相似度进行惩罚的惩罚项系数,此处惩罚是为了防止网络性能不佳导致损失函数数值较大;
作为优选,步骤4所述的损失函数为:
其中,为每幅预处理后双目图像包含的特征点数量,/>为每幅变换后的双目图像包含的特征点数量;M为预处理后双目图像特征点及对应变换后的双目图像特征点的真实匹配情况,即预处理后双目图像第i个特征点与变换后双目图像第j个特征点是否为正确匹配,正确则M在(i,j)处值为1否则为0;P为网络预测的双目图像特征点及变换后双目图像特征点间正确的匹配关系,即预测的预处理后双目图像第i个特征点与变换后双目图像第j个特征点为正确的概率,并存储在P矩阵(i,j)处;/>为预处理后双目图像第i个特征点被检测为特征点的方差,/>为变换后双目图像第j个特征点是特征点被检测为特征点的方差。
作为优选,步骤5所述每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息为:
{*datamn,*typemn,*desman}
其中,*datamn表示第m个时刻双目图像中第n个预测特征点的坐标,*typemn表示第m个时刻双目图像中第n个预测特征点是否为真实特征点,*desmn表示第m个时刻双目图像中第n个预测特征点的描述信息。
步骤5所述曼哈顿世界假设为:高度结构化的室内环境由一个水平面和许多相互垂直的竖直平面组成,这些平面的法线分布在三个相互垂直的主方向上,可以抽象地描述场景。
步骤5所述结合曼哈顿理论筛选具体为:
对影像内所有线段进行聚类操作,识别出多组平行线段集合,并保留多组平行线段集合中集合内线段数量排在前三的平行线段集合中的线段为符合假设的结构线。
步骤5所述多个结构线段之间的匹配关系具体为:
gmn={li,lj}
其中,gmn表示第m个时刻双目图像中匹配上的第n组结构线段,li表示第m个时刻双目图像中第i条结构线段的的起点像素坐标、终点像素坐标,lj表示第m个时刻双目图像中第j条结构线段的的起点像素坐标、终点像素坐标,此处li和lj分别在左目和右目图像上。
作为优选,步骤6所述计算每组平行线段集合对应的灭点坐标的方法为:
其中,s表示待进行灭点坐标计算的平行线组,v为此平行线组对应灭点的齐次坐标,其中[uv,vv]为灭点在图像上的像素坐标,uv为灭点在图像上的列数,vv为灭点在图像上的行数;[aj,bj,cj]T表示平行线组s中第j条线段对应的直线参数,即第j条线段上的所有像素点[x,y]均满足ajx+bjy+cj=0。上述方程为超定方程,使用非线性优化方法解算得到灭点在图像上的像素坐标。
步骤6所述通过灭点坐标反推主方向信息:结合曼哈顿世界假设及透视几何原理可知,灭点坐标反投影回世界坐标系并与相机中心作差得到的向量方向即为对应主方向η。
其中,v为灭点的齐次坐标,Rwc为世界坐标系到相机坐标系的旋转矩阵,Kcam为相机内参矩阵。
步骤6所述结合主方向信息及多个结构线段之间的匹配关系恢复的三维结构线信息表达方式为:
Lmi=[ca,cb,θ,]
其中,Lmi表示第m个时刻双目图像中第i条结构线的三维信息;a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,为投影点a及投影点b之间距离的倒数。
作为优选,步骤7所述计算得到的当前时刻双目图像的初始位姿信息为:
其中,ck表示k时刻双目图像的初始位姿信息,表示k时刻双目图像的相机坐标系原点在世界坐标系中的坐标,/>表示k时刻双目图像从世界坐标系旋转到图像坐标系的旋转矩阵。
步骤7所述判断是否将当前时刻双目图像创建为新关键帧的条件为:
当前时刻之前一个关键帧是否成功进行了回环检测:刚进行过回环检测并优化后的双目图像的位姿不准,不适合作为新关键帧;
当前时刻关键帧与上一个关键帧之间的时间间隔是否超过阈值:如果时间间隔小于阈值则不进行关键帧创建;
当前时刻双目图像的三维结构线信息、三维点云坐标信息数量是否超过阈值:超过阈值说明当前时刻双目图像的观测质量较好,适合创建为关键帧。
步骤7所述的回环检测方法为:
计算当前时刻的关键帧的词袋信息与之前所有时刻的关键帧的词袋信息间的相似程度,若当前时刻的关键帧的词袋信息与m时刻的关键帧的词袋信息的相似程度较高,则认为当前时刻的关键帧与m时刻的关键帧存在共视关系;使用LightGlue网络及最近邻匹配算法,得到当前时刻的关键帧双目图像与m时刻的关键帧双目图像间预测特征点的匹配关系、结构线段之间的匹配关系,并统计总体匹配数量,若匹配数量大于设定阈值,则认为检测到回环检测且检测到的为m时刻的关键帧。
作为优选,步骤8中所述的基于图论的特征点稀疏化方法为:
将三维点是否冗余的判断准则转化为最小成本最大流量的二部分图,利用节点之间的成本和流量关系筛选原始三维点云的子集,使其对图优化的图结构改变最小,即用最少的三维点云数量实现最多的图优化约束。
其中,三维点是否冗余的判断准则为:能够观测到相同三维点的关键帧数量最多;关键帧上特征点的空间分布均匀;关键帧与相邻时刻关键帧之间基线长度较长。
其中,具体的最小成本最大流量的二部分图结构,基于谷歌开源优化工具or-tools解算。
步骤8中所述的构建图优化所需图结构为:
利用优化窗口内关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息,计算优化窗口内各个时刻双目图像对应的三维点云重投影误差、三维结构线重投影误差,最小化上述重投影误差信息,从而获取更为精确的关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息。
其中,三维点云坐标表达为Pi、三维结构线信息表达为Lj,其中i表示第i个三维点云,j表示第j条三维结构线。
其中,优化窗口内各个时刻双目图像对应的三维点云重投影误差为:
其中,δmP表示m时刻双目图像的三维点云重投影误差,Pi代表第i个三维点坐标信息,即三维点在世界坐标系下的三维坐标;pi表示m时刻双目图像中预测到的与三维点云Pi应的预测特征点的像素坐标;si为尺度信息即第i个三维点的深度值,Kcam为m时刻双目图像的内参数矩阵,ξ^是李代数形式的m时刻双目图像的位姿信息。
其中,优化窗口内各个时刻双目图像对应的三维结构线重投影误差为:
其中,δml表示m时刻双目图像对应的三维结构线重投影误差,lj为三维结构线信息Lj=[ca,cb,θ,h]在m时刻双目图像上的投影的直线参数向量lj=[lj 1,lj 2,lj 3],即投影直线上的所有像素点[x,y]均满足lj 1x+lj 2y+lj 3=0;其中,三维结构线信息中a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,h为投影点a及投影点b之间距离的倒数;sa,sb为分别与三维结构线信息Lj匹配的m时刻双目图像平面上特征线段的起点像素坐标、终点像素坐标。
其中,三维结构线信息Lj在m时刻双目图像上的投影方法为:
lj=Aj×v
其中,lj表示三维结构线信息Lj在m时刻双目图像上的投影;v为三维结构线信息Lj对应的主方向信息在m时刻双目图像上的投影点像素坐标;Lmi表示第m个时刻双目图像中第i条结构线的三维信息;a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,为投影点a及投影点b之间距离的倒数;Kcam为m时刻双目图像的内参数矩阵,ξ^是李代数形式的m时刻双目图像的位姿信息。
作为优选,步骤9所述构建图优化所需图结构与步骤8中相同。
步骤9所述的静态地图为:所有经过优化的双目图像关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息。
本发明方法实现简单,结构完整,能满足实时导航定位需求的视觉自主定位系统,利用深度学习模型进行前端特征点数据提取及关联,同时对环境中结构线特征进行识别,并利用窗口优化方案,融合上述特征估计当前载体位姿信息,并构建局部特征地图,使用基于图论的特征点稀疏化模型去除地图冗余信息,然后进行回环检测判断是否进行全局优化,并将局部地图融入全局地图。其为移动机器人定位提供了更为丰富的特征,并降低了数据冗余对运行效率的损耗,从而能在保障效率的前提下解决弱纹理环境下视觉定位问题。
本发明具有以下优点:
1)实现基于深度学习的前端数据关联方案,使帧间特征点匹配效率及鲁棒性满足应用需求;
2)实现特征点及结构线联合的后端窗口优化方案,使系统能够利用环境结构信息辅助位姿解算,缓解弱纹理环境下有效点特征信息不足致使定位退化的问题;
3)进一步的,在后端窗口优化方案实现中,实现基于有向图结构的特征点稀疏化方法,使有效信息弱的特征点不参与解算,降低计算时间和内存空间消耗。
附图说明
图1:本发明实例的方法流程图;
图2:本发明实例的LightGlue前后时刻图像特征关联结果图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
具体实施时,本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程,实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备,也应当在本发明的保护范围内。
下面结合图1-2介绍本发明实施例的技术方案为一种室内弱纹理环境的移动机器人视觉定位系统及方法。
本发明实施例系统的技术方案为一种室内弱纹理环境的移动机器人视觉定位系统,包括:
机器人平台底盘、工控机、双目相机;
所述的机器人平台底盘装载所述的工控机、双目相机;
所述工控机分别与所述的机器人平台底盘、双目相机通过有线方式依次连接;
所述机器人平台底盘的型号为:SCOUT MINI;
所述工控机的型号为:米文EVO XAVIER;
所述双目相机的型号为:LEOPARD IMAGING INC(LI-USB30-AR023ZWDRB);
本发明具体实施例的场景为:办公楼走廊场景;
本发明实施例方法的技术方案为一种室内弱纹理环境的移动机器人视觉定位方法,如图1所示,具体步骤如下:
步骤1:通过张正友标定模型对双目相机进行参数标定,得到标定数据;工控机控制机器人平台底盘驱动所述机器人在室内运动,双目相机连续采集多幅移动机器人前进方向的双目图像数据,并传输至工控机,工控机通过标定数据对双目图像进行去噪、去畸变、图像增强,得到每幅预处理后双目图像;
步骤1所述标定数据包含相机焦距、主点坐标、畸变参数、长宽等信息。
步骤2:输入多幅几何形状的图像、每幅几何形状的图像的多个真实特征点像素坐标;构建Magicpoint网络,将每幅几何形状图像输入网络预测并进行非极大值抑制,得到每幅几何形状图像的多个预测特征点像素坐标,进一步结合每幅几何形状图像的每个真实特征点像素坐标构建交叉熵损失函数,通过梯度下降法优化训练得到优化后的Magicpoint网络;
步骤2所述的交叉熵损失函数为:
其中,m表示第m幅几何形状图像,n表示第m幅几何形状图像中的第n个像素点,ymn表示第m幅几何形状图像中的第n个像素点实际是否为特征点,取值为1或0,1表示对应像素点为特征点,0表示对应像素点不为特征点;为模型的预测输出,表示预测的第m幅几何形状图像中的第n个像素点属于特征点的概率。
步骤3:将多幅预处理后双目图像作为训练数据集,输入优化后的Magicpoint网络,得到每幅预处理后双目图像的伪真实特征点像素坐标;将多幅预处理后双目图像进行单应变换,得到每幅单应变换后的双目图像、每幅预处理后双目图像的伪真实特征点单应变换后的像素坐标;构建Superpoint网络,将每幅预处理后双目图像、每幅单应变换后的双目图像输入网络预测得到每幅预处理后双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息,进一步结合每幅预处理后双目图像的每个伪真实特征点像素坐标、每幅预处理后双目图像的伪真实特征点单应变换后的像素坐标构建联合损失函数,通过AdamW优化器优化训练得到优化后的Superpoint网络;
步骤3所述的联合损失函数为:
L(X,X′,D,D′;Y,Y′,S)=Lp(X,Y)+Lp(X′,Y′)+λLd(D,D′,S)
其中,λ为权重平衡系数,X表示预测的预处理后双目图像各像素属于特征点的概率,X′表示预测的每幅单应变换后的双目图像各像素属于特征点的概率;Y表示真实的预处理后双目图像各像素是否属于特征点,Y′表示真实的每幅单应变换后的双目图像各像素是否属于特征点;D表示预测的预处理后双目图像各像素描述信息,即以该像素为中心10像素为半径的周边像素块;D′表示预测的每幅单应变换后的双目图像各像素描述信息,即以该像素为中心10像素为半径的周边像素块;S表示预处理后双目图像各像素描述信息与每幅单应变换后的双目图像各像素描述信息是否为正确匹配。
其中Lp为特征点提取部分的损失函数,具体为全卷积交叉熵;Ld为描述子提取部分的损失函数,具体使用点之间的匹配情况构建:
where
其中,Hc为预处理后双目图像纵轴方向包含的像素点数量,Wc为预处理后双目图像横轴方向包含的像素点数量;dhw为预处理后双目图像在像素坐标(h,w)处的描述信息,即以(h,w)像素为中心10像素为半径的周边像素块;d′h′w′为每幅单应变换后的双目图像在像素坐标(h′,w′)处的描述信息,即以(h′,w′)像素为中心10像素为半径的周边像素块;shwh′w′为指示函数,表示预处理后双目图像在(h,w)处的描述信息dhw与每幅单应变换后的双目图像在(h′,w′)处的描述信息d′h′w′的真实匹配情况,匹配则其(h,w)处的值为1不匹配则为0。
phw表示预处理后双目图像在像素坐标(h,w)处的描述信息dhw的中心像素,ph′w′表示每幅单应变换后的双目图像在像素坐标(h′,w′)处的描述信息d′h′w′的中心像素;为通过网络预测结果的计算得到的预测单应变换矩阵;/>表示将预处理后双目图像上的像素点phw变换到每幅单应变换后的双目图像中;当/>与ph′w′的直线距离小于8个像素时认为描述信息dhw与描述信息d′h′w′为正确匹配,即指示函数shwh′w′在(h,w)处的值设为1;dhw Td′h′w′表示描述信息dhw与描述信息d′h′w′之间的余弦相似度,mp为是否对余弦相似度进行惩罚的阈值,mn为对余弦相似度进行惩罚的惩罚项系数,此处惩罚是为了防止网络性能不佳导致损失函数数值较大。
步骤4:将多幅预处理后双目图像作为训练数据集,将每幅预处理后双目图像通过单应变换,得到每幅变换后的双目图像、每幅双目图像对应真实变换参数,将每幅预处理后双目图像及对应单应变换后的双目图像输入Superpoint网络,得到每幅预处理后双目图像特征点像素坐标集合、每幅预处理后双目图像特征点描述信息集合、每幅变换后的双目图像特征点像素坐标集合、每幅变换后的双目图像特征点描述信息集合;构建LightGlue网络,将幅预处理后双目图像特征点像素坐标集合、每幅预处理后双目图像特征点描述信息集合、每幅变换后的双目图像特征点像素坐标集合、每幅变换后的双目图像特征点描述信息集合输入网络进行预测,得到预处理后双目图像特征点及对应变换后的双目图像特征点的预测匹配关系,从而计算得到每幅双目图像对应预测变换参数,进一步结合每幅双目图像对应真实变换参数构建网络损失函数,通过AdamW优化器优化训练得到优化后的LightGlue网络。
步骤4所述的损失函数为:
其中,为每幅预处理后双目图像包含的特征点数量,/>为每幅变换后的双目图像包含的特征点数量;M为预处理后双目图像特征点及对应变换后的双目图像特征点的真实匹配情况,即预处理后双目图像第i个特征点与变换后双目图像第j个特征点是否为正确匹配,正确则M在(i,j)处值为1否则为0;P为网络预测的双目图像特征点及变换后双目图像特征点间正确的匹配关系,即预测的预处理后双目图像第i个特征点与变换后双目图像第j个特征点为正确的概率,并存储在P矩阵(i,j)处;/>为预处理后双目图像第i个特征点被检测为特征点的方差,/>为变换后双目图像第j个特征点是特征点被检测为特征点的方差。
步骤5:工控机通过双目相机实时采集运动双目图像,将每个时刻的运动双目图像进行去噪、去畸变、图像增强,得到每个时刻的预处理后双目图像;将每个时刻预处理后双目图像输入优化后的Superpoint网络预测,得到每个时刻预处理后双目图像的每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息;将每个时刻预处理后双目图像的每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息输入优化后LightGlue网络预测,得到每个时刻预处理后双目图像的每个预测特征点之间的匹配关系;使用LSD、LBD算法处理每个时刻预处理后双目图像,得到每个时刻预处理后双目图像的多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,进一步结合曼哈顿理论筛选得到多个结构线段的起点像素坐标、终点像素坐标以及对应描述信息;使用最近邻匹配算法处理多个结构线段的起点像素坐标、终点像素坐标以及对应描述信息,得到多个结构线段之间的匹配关系。
步骤6:结合每个时刻预处理后双目图像的多个结构线段的起点像素坐标、终点像素坐标,计算多个结构线段的线段方程,进而通过J-Linkage算法识别出多组平行线段集合,计算每组平行线段集合对应的灭点坐标,通过灭点坐标反推主方向信息,结合主方向信息及多个结构线段之间的匹配关系恢复三维结构线信息;利用所述的标定数据及双目图像的每个预测特征点之间的匹配关系,三角化得到三维点云坐标,进一步在三维点云中筛选出符合深度阈值的部分保留。
步骤7:工控机通过双目相机获取当前时刻的双目图像,利用Superpoint、LSD、LBD算法处理当前时刻的双目图像,得到当前时刻双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息、多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,并结合上一时刻双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息、多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,使用LightGlue网络及最近邻匹配算法,得到前后时刻双目图像间预测特征点的匹配关系、结构线段之间的匹配关系;若前后时刻双目图像间预测特征点的匹配、结构线段之间的匹配数量大于设定阈值,结合PNP及RANSAC算法估算前后时刻双目图像之间的位姿变化,进而计算当前时刻双目图像的初始位姿信息;利用前后时刻双目图像间预测特征点的匹配关系、结构线段之间的匹配关系,结合当前时刻双目图像的初始位姿信息,恢复双目图像的三维结构线信息及三维点云坐标信息;判断是否将当前时刻双目图像创建为新关键帧,若判定其为关键帧,则使用BoW模型计算新创建的关键帧的词袋信息,并进行回环检测,若未检测到回环,则将新创建的关键帧的位姿信息、三维结构线信息及三维点云坐标信息纳入优化窗口;若检测到回环,则进入步骤9。
步骤8:重复前述步骤7,直至优化窗口内关键帧数量大于设定阈值时,工控机使用基于图论的特征点稀疏化方法,删除当前优化窗口内关键帧包含的冗余三维点云坐标信息;利用优化窗口内关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息,构建图优化所需图结构并优化,将更新后优化窗口内双目图像对应的位姿信息、三维结构线信息及三维点云坐标信息存储到静态地图中,并删除优化窗口包含的所有关键帧。
步骤9:若工控机检测到回环,则将检测到的历史时刻到当前时刻内所有关键帧的位姿信息、三维结构线信息及三维点云坐标信息纳入优化窗口,构建图优化所需图结构并优化,将更新后优化窗口内双目图像对应的位姿信息、三维结构线信息及三维点云坐标信息存储更新到静态地图中,并删除优化窗口包含的所有关键帧。
步骤5所述每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息为:
{*datamn,*typemn,*desmn}
其中,*datamn表示第m个时刻双目图像中第n个预测特征点的坐标,*typemn表示第m个时刻双目图像中第n个预测特征点是否为真实特征点,*desmn表示第m个时刻双目图像中第n个预测特征点的描述信息。
步骤5所述曼哈顿世界假设为:高度结构化的室内环境由一个水平面和许多相互垂直的竖直平面组成,这些平面的法线分布在三个相互垂直的主方向上,可以抽象地描述场景。
步骤5所述结合曼哈顿理论筛选具体为:
对影像内所有线段进行聚类操作,识别出多组平行线段集合,并保留多组平行线段集合中集合内线段数量排在前三的平行线段集合中的线段为符合假设的结构线。
步骤5所述多个结构线段之间的匹配关系具体为:
gmn={li,lj}
其中,gmn表示第m个时刻双目图像中匹配上的第n组结构线段,li表示第m个时刻双目图像中第i条结构线段的的起点像素坐标、终点像素坐标,lj表示第m个时刻双目图像中第j条结构线段的的起点像素坐标、终点像素坐标,此处li和lj分别在左目和右目图像上。
步骤6所述计算每组平行线段集合对应的灭点坐标的方法为:
其中,s表示待进行灭点坐标计算的平行线组,v为此平行线组对应灭点的齐次坐标,其中[uv,vv]为灭点在图像上的像素坐标,uv为灭点在图像上的列数,vv为灭点在图像上的行数;[aj,bj,cj]T表示平行线组s中第j条线段对应的直线参数,即第j条线段上的所有像素点[x,y]均满足ajx+bjy+cj=0。上述方程为超定方程,使用非线性优化方法解算得到灭点在图像上的像素坐标。
步骤6所述通过灭点坐标反推主方向信息:结合曼哈顿世界假设及透视几何原理可知,灭点坐标反投影回世界坐标系并与相机中心作差得到的向量方向即为对应主方向η。
其中,v为灭点的齐次坐标,Rwc为世界坐标系到相机坐标系的旋转矩阵,Kcam为相机内参矩阵。
步骤6所述结合主方向信息及多个结构线段之间的匹配关系恢复的三维结构线信息表达方式为:
Lmi=[ca,cb,θ,]
其中,Lmi表示第m个时刻双目图像中第i条结构线的三维信息;a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,为投影点a及投影点b之间距离的倒数。
步骤7所述计算得到的当前时刻双目图像的初始位姿信息为:
其中,ck表示k时刻双目图像的初始位姿信息,表示k时刻双目图像的相机坐标系原点在世界坐标系中的坐标,/>表示k时刻双目图像从世界坐标系旋转到图像坐标系的旋转矩阵。
步骤7所述判断是否将当前时刻双目图像创建为新关键帧的条件为:
当前时刻之前一个关键帧是否成功进行了回环检测:刚进行过回环检测并优化后的双目图像的位姿不准,不适合作为新关键帧;
当前时刻关键帧与上一个关键帧之间的时间间隔是否超过阈值:如果时间间隔小于阈值则不进行关键帧创建;
当前时刻双目图像的三维结构线信息、三维点云坐标信息数量是否超过阈值:超过阈值说明当前时刻双目图像的观测质量较好,适合创建为关键帧。
步骤7所述的回环检测方法为:
计算当前时刻的关键帧的词袋信息与之前所有时刻的关键帧的词袋信息间的相似程度,若当前时刻的关键帧的词袋信息与m时刻的关键帧的词袋信息的相似程度较高,则认为当前时刻的关键帧与m时刻的关键帧存在共视关系;使用LightGlue网络及最近邻匹配算法,得到当前时刻的关键帧双目图像与m时刻的关键帧双目图像间预测特征点的匹配关系、结构线段之间的匹配关系,并统计总体匹配数量,若匹配数量大于设定阈值,则认为检测到回环检测且检测到的为m时刻的关键帧。
步骤8中所述的基于图论的特征点稀疏化方法为:
将三维点是否冗余的判断准则转化为最小成本最大流量的二部分图,利用节点之间的成本和流量关系筛选原始三维点云的子集,使其对图优化的图结构改变最小,即用最少的三维点云数量实现最多的图优化约束。
其中,三维点是否冗余的判断准则为:能够观测到相同三维点的关键帧数量最多;关键帧上特征点的空间分布均匀;关键帧与相邻时刻关键帧之间基线长度较长。
步骤8中所述的构建图优化所需图结构为:
利用优化窗口内关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息,计算优化窗口内各个时刻双目图像对应的三维点云重投影误差、三维结构线重投影误差,最小化上述重投影误差信息,从而获取更为精确的关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息。
其中,三维点云坐标表达为Pi、三维结构线信息表达为Lj,其中i表示第i个三维点云,j表示第j条三维结构线。
其中,优化窗口内各个时刻双目图像对应的三维点云重投影误差为:
其中,δmP表示m时刻双目图像的三维点云重投影误差,Pi代表第i个三维点坐标信息,即三维点在世界坐标系下的三维坐标;pi表示m时刻双目图像中预测到的与三维点云Pi应的预测特征点的像素坐标;si为尺度信息即第i个三维点的深度值,Kcam为m时刻双目图像的内参数矩阵,ξ^是李代数形式的m时刻双目图像的位姿信息。
其中,优化窗口内各个时刻双目图像对应的三维结构线重投影误差为:
其中,δml表示m时刻双目图像对应的三维结构线重投影误差,lj为三维结构线信息Lj=[ca,cb,θ,h]在m时刻双目图像上的投影的直线参数向量lj=[lj 1,lj 2,lj 3],即投影直线上的所有像素点[x,y]均满足lj 1x+lj 2y+lj 3=0;其中,三维结构线信息中a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,h为投影点a及投影点b之间距离的倒数;sa,sb为分别与三维结构线信息Lj匹配的m时刻双目图像平面上特征线段的起点像素坐标、终点像素坐标。
其中,三维结构线信息Lj在m时刻双目图像上的投影方法为:
lj=Aj×v
其中,lj表示三维结构线信息Lj在m时刻双目图像上的投影;v为三维结构线信息Lj对应的主方向信息在m时刻双目图像上的投影点像素坐标;Lmi表示第m个时刻双目图像中第i条结构线的三维信息;a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,为投影点a及投影点b之间距离的倒数;Kcam为m时刻双目图像的内参数矩阵,ξ^是李代数形式的m时刻双目图像的位姿信息。
步骤9所述构建图优化所需图结构与步骤8中相同。
步骤9所述的静态地图为:所有经过优化的双目图像关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息。
如图2所示,办公楼走廊场景中纹理信息较弱,且环境重复性高,特征信息难以区分,但Superpoint网络提取的特征点丰富且分布均匀,用LightGlue网络对前后时刻双目图像预测特征点进行匹配的结果也较好,错误匹配数量较少。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (10)

1.一种室内弱纹理环境的移动机器人视觉定位系统,包括:
机器人平台底盘、工控机、双目相机;
所述的机器人平台底盘装载所述的工控机、双目相机;
所述工控机分别与所述的机器人平台底盘、双目相机通过有线方式依次连接;
进行参数标定及训练数据获取,对构建的Superpoint及LightGlue网络进行优化训练;结合优化训练好的网络及LSD算法,提取实时采集的双目图像中的特征点及结构线,进行左右目特征匹配及三角化;结合上一时刻双目图像,实现前后时刻特征匹配,计算当前时刻双目图像位姿信息,并判断是否将其创建为关键帧纳入优化窗口,同时进行回环检测;若检测到回环则进行全局优化;若未检测到回环,当优化窗口中关键帧数目大于设定阈值后,图优化更新窗口内所有关键帧的位姿及特征信息。
2.一种应用于权利要求1所述的室内弱纹理环境的移动机器人视觉定位系统的室内弱纹理环境的移动机器人视觉定位方法,其特征在于,包括以下步骤:
步骤1:通过张正友标定模型对双目相机进行参数标定,得到标定数据;工控机控制机器人平台底盘驱动所述机器人在室内运动,双目相机连续采集多幅移动机器人前进方向的双目图像数据,并传输至工控机,工控机通过标定数据对双目图像进行去噪、去畸变、图像增强,得到每幅预处理后双目图像;
步骤2:输入多幅几何形状的图像、每幅几何形状的图像的多个真实特征点像素坐标;构建Magicpoint网络,将每幅几何形状图像输入网络预测并进行非极大值抑制,得到每幅几何形状图像的多个预测特征点像素坐标,进一步结合每幅几何形状图像的每个真实特征点像素坐标构建交叉熵损失函数,通过梯度下降法优化训练得到优化后的Magicpoint网络;
步骤3:将多幅预处理后双目图像作为训练数据集,输入优化后的Magicpoint网络,得到每幅预处理后双目图像的伪真实特征点像素坐标;将多幅预处理后双目图像进行单应变换,得到每幅单应变换后的双目图像、每幅预处理后双目图像的伪真实特征点单应变换后的像素坐标;构建Superpoint网络,将每幅预处理后双目图像、每幅单应变换后的双目图像输入网络预测得到每幅预处理后双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息,进一步结合每幅预处理后双目图像的每个伪真实特征点像素坐标、每幅预处理后双目图像的伪真实特征点单应变换后的像素坐标构建联合损失函数,通过AdamW优化器优化训练得到优化后的Superpoint网络;
步骤4:将多幅预处理后双目图像作为训练数据集,将每幅预处理后双目图像通过单应变换,得到每幅变换后的双目图像、每幅双目图像对应真实变换参数,将每幅预处理后双目图像及对应单应变换后的双目图像输入Superpoint网络,得到每幅预处理后双目图像特征点像素坐标集合、每幅预处理后双目图像特征点描述信息集合、每幅变换后的双目图像特征点像素坐标集合、每幅变换后的双目图像特征点描述信息集合;构建LightGlue网络,将幅预处理后双目图像特征点像素坐标集合、每幅预处理后双目图像特征点描述信息集合、每幅变换后的双目图像特征点像素坐标集合、每幅变换后的双目图像特征点描述信息集合输入网络进行预测,得到预处理后双目图像特征点及对应变换后的双目图像特征点的预测匹配关系,从而计算得到每幅双目图像对应预测变换参数,进一步结合每幅双目图像对应真实变换参数构建网络损失函数,通过AdamW优化器优化训练得到优化后的LightGlue网络;
步骤5:工控机通过双目相机实时采集运动双目图像,将每个时刻的运动双目图像进行去噪、去畸变、图像增强,得到每个时刻的预处理后双目图像;将每个时刻预处理后双目图像输入优化后的Superpoint网络预测,得到每个时刻预处理后双目图像的每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息;将每个时刻预处理后双目图像的每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息输入优化后LightGlue网络预测,得到每个时刻预处理后双目图像的每个预测特征点之间的匹配关系;使用LSD、LBD算法处理每个时刻预处理后双目图像,得到每个时刻预处理后双目图像的多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,进一步结合曼哈顿理论筛选得到多个结构线段的起点像素坐标、终点像素坐标以及对应描述信息;使用最近邻匹配算法处理多个结构线段的起点像素坐标、终点像素坐标以及对应描述信息,得到多个结构线段之间的匹配关系;
步骤6:结合每个时刻预处理后双目图像的多个结构线段的起点像素坐标、终点像素坐标,计算多个结构线段的线段方程,进而通过J-Linkage算法识别出多组平行线段集合,计算每组平行线段集合对应的灭点坐标,通过灭点坐标反推主方向信息,结合主方向信息及多个结构线段之间的匹配关系恢复三维结构线信息;利用所述的标定数据及双目图像的每个预测特征点之间的匹配关系,三角化得到三维点云坐标,进一步在三维点云中筛选出符合深度阈值的部分保留;
步骤7:工控机通过双目相机获取当前时刻的双目图像,利用Superpoint、LSD、LBD算法处理当前时刻的双目图像,得到当前时刻双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息、多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,并结合上一时刻双目图像的每个预测特征点像素坐标、每个预测特征点的描述信息、多组特征线段的起点像素坐标、终点像素坐标以及对应描述信息,使用LightGlue网络及最近邻匹配算法,得到前后时刻双目图像间预测特征点的匹配关系、结构线段之间的匹配关系;若前后时刻双目图像间预测特征点的匹配、结构线段之间的匹配数量大于设定阈值,结合PNP及RANSAC算法估算前后时刻双目图像之间的位姿变化,进而计算当前时刻双目图像的初始位姿信息;利用前后时刻双目图像间预测特征点的匹配关系、结构线段之间的匹配关系,结合当前时刻双目图像的初始位姿信息,恢复双目图像的三维结构线信息及三维点云坐标信息;判断是否将当前时刻双目图像创建为新关键帧,若判定其为关键帧,则使用BoW模型计算新创建的关键帧的词袋信息,并进行回环检测,若未检测到回环,则将新创建的关键帧的位姿信息、三维结构线信息及三维点云坐标信息纳入优化窗口;若检测到回环,则进入步骤9;
步骤8:重复前述步骤7,直至优化窗口内关键帧数量大于设定阈值时,工控机使用基于图论的特征点稀疏化方法,删除当前优化窗口内关键帧包含的冗余三维点云坐标信息;利用优化窗口内关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息,构建图优化所需图结构并优化,将更新后优化窗口内双目图像对应的位姿信息、三维结构线信息及三维点云坐标信息存储到静态地图中,并删除优化窗口包含的所有关键帧;
步骤9:若工控机检测到回环,则将检测到的历史时刻到当前时刻内所有关键帧的位姿信息、三维结构线信息及三维点云坐标信息纳入优化窗口,构建图优化所需图结构并优化,将更新后优化窗口内双目图像对应的位姿信息、三维结构线信息及三维点云坐标信息存储更新到静态地图中,并删除优化窗口包含的所有关键帧。
3.根据权利要求2所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤1所述标定数据包含相机焦距、主点坐标、畸变参数、长宽。
4.根据权利要求3所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤2所述的交叉熵损失函数为:
其中,m表示第m幅几何形状图像,n表示第m幅几何形状图像中的第n个像素点,ymn表示第m幅几何形状图像中的第n个像素点实际是否为特征点,取值为1或0,1表示对应像素点为特征点,0表示对应像素点不为特征点;为模型的预测输出,表示预测的第m幅几何形状图像中的第n个像素点属于特征点的概率。
5.根据权利要求4所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤3所述的联合损失函数为:
L(X,X′,D,D′;Y,Y′,S)=Lp(X,Y)+Lp(X′,Y′)+λLd(D,D′,S)
其中,λ为权重平衡系数,X表示预测的预处理后双目图像各像素属于特征点的概率,X′表示预测的每幅单应变换后的双目图像各像素属于特征点的概率;Y表示真实的预处理后双目图像各像素是否属于特征点,Y′表示真实的每幅单应变换后的双目图像各像素是否属于特征点;D表示预测的预处理后双目图像各像素描述信息,即以该像素为中心一定像素为半径的周边像素块;D′表示预测的每幅单应变换后的双目图像各像素描述信息,即以该像素为中心10像素为半径的周边像素块;S表示预处理后双目图像各像素描述信息与每幅单应变换后的双目图像各像素描述信息是否为正确匹配;
其中Lp为特征点提取部分的损失函数,具体为全卷积交叉熵;Ld为描述子提取部分的损失函数,具体使用点之间的匹配情况构建:
where
ld(dhw,d′h′w′;shwh′w′)=λd*shwh′w′*max(0,mp-dhw Td′h′w′)+(1-shwh′w′)*max(0,dhw Td′h′w′-mn)
其中,Hc为预处理后双目图像纵轴方向包含的像素点数量,Wc为预处理后双目图像横轴方向包含的像素点数量;dhw为预处理后双目图像在像素坐标(h,w)处的描述信息,即以(h,w)像素为中心10像素为半径的周边像素块;d′h′w′为每幅单应变换后的双目图像在像素坐标(h′,w′)处的描述信息,即以(h′,w′)像素为中心10像素为半径的周边像素块;shwh′w′为指示函数,表示预处理后双目图像在(h,w)处的描述信息dhw与每幅单应变换后的双目图像在(h′,w′)处的描述信息d′g′w′的真实匹配情况,匹配则其(h,w)处的值为1不匹配则为0;
phw表示预处理后双目图像在像素坐标(h,w)处的描述信息dhw的中心像素,ph′w′表示每幅单应变换后的双目图像在像素坐标(h′,w′)处的描述信息d′h′w′的中心像素;为通过网络预测结果的计算得到的预测单应变换矩阵;/>表示将预处理后双目图像上的像素点ph′变换到每幅单应变换后的双目图像中;当/>与ph′w′的直线距离小于8个像素时认为描述信息dhw与描述信息d′h′′′为正确匹配,即指示函数shwh′′′在(h,w)处的值设为1;dhw Td′h′w′表示描述信息dhw与描述信息d′h′w′之间的余弦相似度,mp为是否对余弦相似度进行惩罚的阈值,mn为对余弦相似度进行惩罚的惩罚项系数,此处惩罚是为了防止网络性能不佳导致损失函数数值较大。
6.根据权利要求5所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤4所述的损失函数为:
其中,为每幅预处理后双目图像包含的特征点数量,/>为每幅变换后的双目图像包含的特征点数量;M为预处理后双目图像特征点及对应变换后的双目图像特征点的真实匹配情况,即预处理后双目图像第i个特征点与变换后双目图像第j个特征点是否为正确匹配,正确则M在(i,j)处值为1否则为0;P为网络预测的双目图像特征点及变换后双目图像特征点间正确的匹配关系,即预测的预处理后双目图像第i个特征点与变换后双目图像第j个特征点为正确的概率,并存储在P矩阵(i,j)处;/>为预处理后双目图像第i个特征点被检测为特征点的方差,/>为变换后双目图像第j个特征点是特征点被检测为特征点的方差。
7.根据权利要求6所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤5所述每个预测特征点像素坐标、每个时刻预处理后双目图像的每个预测特征点的描述信息为:
{*datamn,*typemn,*desmn}
其中,*datamn表示第m个时刻双目图像中第n个预测特征点的坐标,*type,m表示第m个时刻双目图像中第n个预测特征点是否为真实特征点,*desmn表示第m个时刻双目图像中第n个预测特征点的描述信息;
步骤5所述曼哈顿世界假设为:高度结构化的室内环境由一个水平面和许多相互垂直的竖直平面组成,这些平面的法线分布在三个相互垂直的主方向上,可以抽象地描述场景;
步骤5所述结合曼哈顿理论筛选具体为:
对影像内所有线段进行聚类操作,识别出多组平行线段集合,并保留多组平行线段集合中集合内线段数量排在前三的平行线段集合中的线段为符合假设的结构线;
步骤5所述多个结构线段之间的匹配关系具体为:
gmn={li,lj}
其中,gmn表示第m个时刻双目图像中匹配上的第n组结构线段,li表示第m个时刻双目图像中第i条结构线段的的起点像素坐标、终点像素坐标,lj表示第m个时刻双目图像中第j条结构线段的的起点像素坐标、终点像素坐标,此处li和lj分别在左目和右目图像上。
8.根据权利要求7所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤6所述计算每组平行线段集合对应的灭点坐标的方法为:
其中,s表示待进行灭点坐标计算的平行线组,v为此平行线组对应灭点的齐次坐标,其中[uv,vv]为灭点在图像上的像素坐标,uv为灭点在图像上的列数,vv为灭点在图像上的行数;[aj,bj,cj]T表示平行线组s中第j条线段对应的直线参数,即第j条线段上的所有像素点[x,y]均满足ajx+bjy+cj=0;上述方程为超定方程,使用非线性优化方法解算得到灭点在图像上的像素坐标;
步骤6所述通过灭点坐标反推主方向信息:结合曼哈顿世界假设及透视几何原理可知,灭点坐标反投影回世界坐标系并与相机中心作差得到的向量方向即为对应主方向η;
其中,v为灭点的齐次坐标,Rwc为世界坐标系到相机坐标系的旋转矩阵,Kcam为相机内参矩阵;
步骤6所述结合主方向信息及多个结构线段之间的匹配关系恢复的三维结构线信息表达方式为:
Lmi=[ca,cb,θ,]
其中,Lmi表示第m个时刻双目图像中第i条结构线的三维信息;a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,为投影点a及投影点b之间距离的倒数。
9.根据权利要求8所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤7所述计算得到的当前时刻双目图像的初始位姿信息为:
其中,ck表示k时刻双目图像的初始位姿信息,表示k时刻双目图像的相机坐标系原点在世界坐标系中的坐标,/>表示k时刻双目图像从世界坐标系旋转到图像坐标系的旋转矩阵;
步骤7所述判断是否将当前时刻双目图像创建为新关键帧的条件为:
当前时刻之前一个关键帧是否成功进行了回环检测:刚进行过回环检测并优化后的双目图像的位姿不准,不适合作为新关键帧;
当前时刻关键帧与上一个关键帧之间的时间间隔是否超过阈值:如果时间间隔小于阈值则不进行关键帧创建;
当前时刻双目图像的三维结构线信息、三维点云坐标信息数量是否超过阈值:超过阈值说明当前时刻双目图像的观测质量较好,适合创建为关键帧;
步骤7所述的回环检测方法为:
计算当前时刻的关键帧的词袋信息与之前所有时刻的关键帧的词袋信息间的相似程度,若当前时刻的关键帧的词袋信息与m时刻的关键帧的词袋信息的相似程度较高,则认为当前时刻的关键帧与m时刻的关键帧存在共视关系;使用LightGlue网络及最近邻匹配算法,得到当前时刻的关键帧双目图像与m时刻的关键帧双目图像间预测特征点的匹配关系、结构线段之间的匹配关系,并统计总体匹配数量,若匹配数量大于设定阈值,则认为检测到回环检测且检测到的为m时刻的关键帧。
10.根据权利要求9所述的室内弱纹理环境的移动机器人视觉定位方法,其特征在于:
步骤8中所述的基于图论的特征点稀疏化方法为:
将三维点是否冗余的判断准则转化为最小成本最大流量的二部分图,利用节点之间的成本和流量关系筛选原始三维点云的子集,使其对图优化的图结构改变最小,即用最少的三维点云数量实现最多的图优化约束;
其中,三维点是否冗余的判断准则为:能够观测到相同三维点的关键帧数量最多;关键帧上特征点的空间分布均匀;关键帧与相邻时刻关键帧之间基线长度较长;
其中,具体的最小成本最大流量的二部分图结构如图3所示,基于谷歌开源优化工具or-tools解算;
步骤8中所述的构建图优化所需图结构为:
利用优化窗口内关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息,计算优化窗口内各个时刻双目图像对应的三维点云重投影误差、三维结构线重投影误差,最小化上述重投影误差信息,从而获取更为精确的关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息;
其中,三维点云坐标表达为Pi、三维结构线信息表达为Lj,其中i表示第i个三维点云,j表示第j条三维结构线;
其中,优化窗口内各个时刻双目图像对应的三维点云重投影误差为:
其中,δmP表示m时刻双目图像的三维点云重投影误差,Pi代表第i个三维点坐标信息,即三维点在世界坐标系下的三维坐标;pi表示m时刻双目图像中预测到的与三维点云Pi应的预测特征点的像素坐标;si为尺度信息即第i个三维点的深度值,Kcam为m时刻双目图像的内参数矩阵,ξ^是李代数形式的m时刻双目图像的位姿信息;
其中,优化窗口内各个时刻双目图像对应的三维结构线重投影误差为:
其中,δml表示m时刻双目图像对应的三维结构线重投影误差,lj为三维结构线信息Lj=[ca,cb,θ,h]在m时刻双目图像上的投影的直线参数向量lj=[lj 1,lj 2,lj 3],即投影直线上的所有像素点[x,y]均满足lj 1x+lj 2y+lj 3=0;其中,三维结构线信息中a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,h为投影点a及投影点b之间距离的倒数;sa,sb为分别与三维结构线信息Lj匹配的m时刻双目图像平面上特征线段的起点像素坐标、终点像素坐标;
其中,三维结构线信息Lj在m时刻双目图像上的投影方法为:
lj=Aj×v
其中,lj表示三维结构线信息Lj在m时刻双目图像上的投影;v为三维结构线信息Lj对应的主方向信息在m时刻双目图像上的投影点像素坐标;Lmi表示第m个时刻双目图像中第i条结构线的三维信息;a=[ca,cb]为第m个时刻相机中心沿主方向在世界坐标系坐标面上的投影点,ca为投影点在世界坐标系坐标面上的横坐标,cb为投影点在世界坐标系坐标面上的纵坐标;θ为投影a及结构线Lmi沿主方向在世界坐标系坐标面上的投影b的连线与世界坐标系坐标轴的夹角,为投影点a及投影点b之间距离的倒数;Kcam为m时刻双目图像的内参数矩阵,ξ^是李代数形式的m时刻双目图像的位姿信息;
步骤9所述构建图优化所需图结构与步骤8中相同;
步骤9所述的静态地图为:所有经过优化的双目图像关键帧对应的位姿信息、三维结构线信息及三维点云坐标信息。
CN202311465125.7A 2023-11-02 2023-11-02 一种室内弱纹理环境的移动机器人视觉定位系统及方法 Pending CN117671022A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311465125.7A CN117671022A (zh) 2023-11-02 2023-11-02 一种室内弱纹理环境的移动机器人视觉定位系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311465125.7A CN117671022A (zh) 2023-11-02 2023-11-02 一种室内弱纹理环境的移动机器人视觉定位系统及方法

Publications (1)

Publication Number Publication Date
CN117671022A true CN117671022A (zh) 2024-03-08

Family

ID=90081616

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311465125.7A Pending CN117671022A (zh) 2023-11-02 2023-11-02 一种室内弱纹理环境的移动机器人视觉定位系统及方法

Country Status (1)

Country Link
CN (1) CN117671022A (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610175A (zh) * 2017-08-04 2018-01-19 华南理工大学 基于半直接法和滑动窗口优化的单目视觉slam算法
CN109934862A (zh) * 2019-02-22 2019-06-25 上海大学 一种点线特征结合的双目视觉slam方法
CN110782494A (zh) * 2019-10-16 2020-02-11 北京工业大学 一种基于点线融合的视觉slam方法
CN110929748A (zh) * 2019-10-12 2020-03-27 杭州电子科技大学 一种基于深度学习的运动模糊图像特征匹配方法
CN111862673A (zh) * 2020-06-24 2020-10-30 北京易航远智科技有限公司 基于顶视图的停车场车辆自定位及地图构建方法
CN113450412A (zh) * 2021-07-15 2021-09-28 北京理工大学 一种基于直线特征的视觉slam方法
CN113537208A (zh) * 2021-05-18 2021-10-22 杭州电子科技大学 一种基于语义orb-slam技术的视觉定位方法及系统
CN113674400A (zh) * 2021-08-18 2021-11-19 公安部物证鉴定中心 基于重定位技术的光谱三维重建方法、系统及存储介质
CN114608558A (zh) * 2022-03-08 2022-06-10 中国科学技术大学 基于特征匹配网络的slam方法、系统、设备及存储介质
CN114862949A (zh) * 2022-04-02 2022-08-05 华南理工大学 一种基于点线面特征的结构化场景视觉slam方法
US20220319042A1 (en) * 2019-06-05 2022-10-06 Conti Temic Microelectronic Gmbh Detection, 3d reconstruction and tracking of multiple rigid objects moving in relation to one another
CN115393603A (zh) * 2022-07-15 2022-11-25 电子科技大学 一种动态环境下基于改进SuperPoint的视觉SLAM方法
CN115451964A (zh) * 2022-08-18 2022-12-09 武汉理工大学 基于多模态混合特征的船舶场景同时建图与定位方法
WO2023076913A1 (en) * 2021-10-29 2023-05-04 Hover Inc. Methods, storage media, and systems for generating a three-dimensional line segment

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107610175A (zh) * 2017-08-04 2018-01-19 华南理工大学 基于半直接法和滑动窗口优化的单目视觉slam算法
CN109934862A (zh) * 2019-02-22 2019-06-25 上海大学 一种点线特征结合的双目视觉slam方法
US20220319042A1 (en) * 2019-06-05 2022-10-06 Conti Temic Microelectronic Gmbh Detection, 3d reconstruction and tracking of multiple rigid objects moving in relation to one another
CN110929748A (zh) * 2019-10-12 2020-03-27 杭州电子科技大学 一种基于深度学习的运动模糊图像特征匹配方法
CN110782494A (zh) * 2019-10-16 2020-02-11 北京工业大学 一种基于点线融合的视觉slam方法
CN111862673A (zh) * 2020-06-24 2020-10-30 北京易航远智科技有限公司 基于顶视图的停车场车辆自定位及地图构建方法
CN113537208A (zh) * 2021-05-18 2021-10-22 杭州电子科技大学 一种基于语义orb-slam技术的视觉定位方法及系统
CN113450412A (zh) * 2021-07-15 2021-09-28 北京理工大学 一种基于直线特征的视觉slam方法
CN113674400A (zh) * 2021-08-18 2021-11-19 公安部物证鉴定中心 基于重定位技术的光谱三维重建方法、系统及存储介质
WO2023076913A1 (en) * 2021-10-29 2023-05-04 Hover Inc. Methods, storage media, and systems for generating a three-dimensional line segment
CN114608558A (zh) * 2022-03-08 2022-06-10 中国科学技术大学 基于特征匹配网络的slam方法、系统、设备及存储介质
CN114862949A (zh) * 2022-04-02 2022-08-05 华南理工大学 一种基于点线面特征的结构化场景视觉slam方法
WO2023184968A1 (zh) * 2022-04-02 2023-10-05 华南理工大学 一种基于点线面特征的结构化场景视觉slam方法
CN115393603A (zh) * 2022-07-15 2022-11-25 电子科技大学 一种动态环境下基于改进SuperPoint的视觉SLAM方法
CN115451964A (zh) * 2022-08-18 2022-12-09 武汉理工大学 基于多模态混合特征的船舶场景同时建图与定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAIMOULIKATRAGADDA等: "NeRF-VINS:A Real-time Neural Radiance Field Map-based Visual-Inertial Navigation System", 《ARXIV》, 17 September 2023 (2023-09-17), pages 1 - 6 *
王榆钦: "弱光照环境下的视觉定位技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 10, 15 October 2022 (2022-10-15), pages 138 - 339 *

Similar Documents

Publication Publication Date Title
CN110070615B (zh) 一种基于多相机协同的全景视觉slam方法
CN111462135B (zh) 基于视觉slam与二维语义分割的语义建图方法
CN111983639B (zh) 一种基于Multi-Camera/Lidar/IMU的多传感器SLAM方法
CN110223348B (zh) 基于rgb-d相机的机器人场景自适应位姿估计方法
CN112197770B (zh) 一种机器人的定位方法及其定位装置
CN102426019B (zh) 一种无人机景象匹配辅助导航方法及系统
CN112734841B (zh) 一种用轮式里程计-imu和单目相机实现定位的方法
CN111693047A (zh) 一种高动态场景下的微小型无人机视觉导航方法
CN110717927A (zh) 基于深度学习和视惯融合的室内机器人运动估计方法
CN113537208A (zh) 一种基于语义orb-slam技术的视觉定位方法及系统
CN112115874B (zh) 一种融合云端的视觉slam系统及方法
CN113658337B (zh) 一种基于车辙线的多模态里程计方法
CN110487286B (zh) 基于点特征投影与激光点云融合的机器人位姿判断方法
CN113516664A (zh) 一种基于语义分割动态点的视觉slam方法
CN113674416A (zh) 三维地图的构建方法、装置、电子设备及存储介质
CN112734765A (zh) 基于实例分割与多传感器融合的移动机器人定位方法、系统及介质
CN112101160B (zh) 一种面向自动驾驶场景的双目语义slam方法
CN112767546B (zh) 移动机器人基于双目图像的视觉地图生成方法
CN114088081B (zh) 一种基于多段联合优化的用于精确定位的地图构建方法
CN111368759A (zh) 基于单目视觉的移动机器人语义地图构建系统
CN116468786B (zh) 一种面向动态环境的基于点线联合的语义slam方法
CN111998862A (zh) 一种基于bnn的稠密双目slam方法
CN112541423A (zh) 一种同步定位与地图构建方法和系统
CN110992424B (zh) 基于双目视觉的定位方法和系统
CN115471748A (zh) 一种面向动态环境的单目视觉slam方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination