CN114067128A - 一种基于语义特征的slam回环检测方法 - Google Patents

一种基于语义特征的slam回环检测方法 Download PDF

Info

Publication number
CN114067128A
CN114067128A CN202111570170.XA CN202111570170A CN114067128A CN 114067128 A CN114067128 A CN 114067128A CN 202111570170 A CN202111570170 A CN 202111570170A CN 114067128 A CN114067128 A CN 114067128A
Authority
CN
China
Prior art keywords
image
semantic
current image
loop
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111570170.XA
Other languages
English (en)
Inventor
张晓峰
陈哲
王梅
欧垚君
丁红
陶秦
施正阳
魏东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202111570170.XA priority Critical patent/CN114067128A/zh
Publication of CN114067128A publication Critical patent/CN114067128A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于语义特征的SLAM回环检测方法,属于计算机视觉图像技术领域,包括以下步骤:通过RGB‑D相机获取新的图像,并通过YOLOv4目标检测网络模型提取当前图像与图像数据库中其他待匹配图像的语义信息,计算当前图像与图像序列中其他图像的语义特征向量之间的余弦相似度,根据相似度从历史图像中挑选出最接近的K个候选帧,对当前图像和K个候选帧进行几何一致性检验,将满足几何一致性的当前图像作为真正的回环。本发明的有益效果为:采用语义特征可以大大减少光照和视点变化的影响,提高回环检测的准确性以及召回率,同时使用的几何一致性检验又减少了大部分误匹配,且计算量小,需要较低的存储消耗和计算成本,提高了实时性。

Description

一种基于语义特征的SLAM回环检测方法
技术领域
本发明涉及计算机视觉图像技术领域,尤其涉及一种基于语义特征的SLAM回环检测方法。
背景技术
移动机器人在室内环境下根据视觉传感器数据在定位的同时构建地图,即视觉SLAM(Simultaneous Localization and Mapping,SLAM)技术,是实现移动机器人自主定位的关键。回环检测是视觉SLAM的关键组成部分。在视觉SLAM中,机器人运动时,在没有获得先验环境信息的情况下,可以对周围的环境进行建图。但随着时间推移,机器人会不断累积误差,最终形成轨迹漂移。回环检测的主要作用是帮助机器人实时识别是否回到了曾经到达过的位置。由此可知,回环检测的实质是为了求两幅图像的相似性匹配。传统的回环检测方法一般采用的是词袋模型(Bag of Words,BoW),该方法通过手工的方式提取特征来描述图像,对各帧图像间的相似性进行计算。但是,该方法在复杂环境下实时性较差,面对光照变化,天气变化,季节变换等情况时会出现准确率下降,不能够稳定工作。
近年来,深度学习方法被广泛的用于计算机视觉任务,如图像分类、目标检测并且均取得了不错的成绩。越来越多的研究人员将卷积神经网络应用于回环检测模块,如使用AlexNet网络提取特征,还有使用自编码器(Auto encoder)提取图像特征,上述方法在复杂光照下取得良好的效果,但是这些方法提取的特征维度较高、耗时较长,无法满足闭环检测的实时性要求。
如何解决上述技术问题为本发明面临的课题。
发明内容
为了解决以上技术问题,本发明的目的在于对提供一种基于语义特征的SLAM回环检测方法,通过语义特征帮助机器人判断是否回到之前访问过的地方,提高了回环检测的准确率,减少位姿漂移误差,进一步提升定位的精度,且大大减少了运算量,在实时性方面表现的更加优秀。
本发明是通过以下措施实现的,一种基于语义特征的SLAM回环检测方法,包含以下步骤:
步骤1,机器人在运动过程中,通过RGB-D相机获取室内环境的图像;
步骤2,将相机采集的当前图像输入YOLOv4目标检测网络模型,以获取所述图像的语义信息,对获取语义信息进行处理得到当前图像的语义特征向量;
步骤3,基于当前图像的语义特征向量,计算当前图像与历史图像的相似度,基于所述相似度,从历史图像中选择最接近的前K个帧,作为回环候选帧;
步骤4,对当前图像和K个回环候选帧进行几何一致性检验,将满足几何一致性的当前图像作为真正的回环;
步骤5,将真正的回环加入到历史图像中,通过RGB-D相机获取新的图像,进行下一轮的回环检测过程。
进一步地,所述步骤1中,
机器人在运动的过程通过相机拍摄的图像,将拍摄的新图像i加入到图像数据库,图像数据库为:图像1,图像2,…图像i。
进一步地,所述步骤2中,将相机采集的当前图像输入YOLOv4目标检测网络模型,以获取所述图像的语义信息包括:
步骤2-1,将图像输入到YOLOv4目标检测网络模型,在将图像输入到YOLOv4目标检测网络之前,先将其调整到416×416的尺寸;
步骤2-2,将图像输入YOLOv4目标检测网络进行语义信息提取,YOLOv4目标检测网络模型首先将图像划分为S×S个网格,每个网格产生B个候选框anchor box,每个候选框会经过网络最终得到相应的边界框,为了解决物体遮挡问题,检测时使用Soft NMS和DiouNMS相结合的非极大值抑制方法剔除不必要的目标框,从而得到图像的语义信息。
步骤2-3,YOLOv4目标检测网络模型由BackBone、Neck和head三部分组成,BackBone部分是CSPDarknet53用于提取初步特征,Neck部分是SPP和PAN用于提取增强后的特征,head部分是基于YOLOv3用于得到预期的结果,其中,CSPDarknet53是在Darknet53的每个大残差块上加上CSP,对应layer 0~layer 104;SPP网络用在YOLOv4中增加网络的感受野,对layer 107进行5×5、9×9、13×13的最大池化,分别得到layer 108,layer 110和layer 112,完成池化后,将layer 107,layer 108,layer 110和layer 112进行连接,连接成一个特征图layer 114并通过1×1降维到512个通道;PANet是在UpSample之后又加了DownSample的操作,PANet上采样对应的layer为layer105到layer128。最后,通过YOLOv4网络模型的图像获得到带有系列边界框的目标检测结果;
步骤2-4,YOLOv4目标检测网络的损失函数L(object)的计算公式是:
L(object)=λiouLlocclsLconclaLcla
其中,Lloc表示定位损失,Lcon表示置信度损失,Lcla表示分类损失,λiouclscla是平衡系数。
定位损失Lloc的计算公式是:
Figure BDA0003423391790000031
其中,参数
Figure BDA0003423391790000032
表示第i个网格的第j个anchor box是否负责这个object,如果负责那么
Figure BDA0003423391790000033
否则为0。
Figure BDA0003423391790000034
其中,ρ2(Actr,Bctr)分别代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。αv为对长宽比的惩罚项,α是一个正数,v用来测量长宽比的一致性。惩罚项作用就是控制预测框的宽高能够尽可能快速地与真实框的宽高接近。
α和v的公式如下:
Figure BDA0003423391790000035
Figure BDA0003423391790000036
其中,wgt和hgt为真实框的宽、高,w和h为预测框的宽、高。
因为,Lciou=1-CIOU,故可以得到Lciou为:
Figure BDA0003423391790000037
上式中A是预测框,B是真实框,IoU为交并比函数,计算两个边界框交集和并集之比。IoU公式如下:
Figure BDA0003423391790000038
置信度损失Lcon的计算公式是:
Figure BDA0003423391790000039
Figure BDA00034233917900000310
其中,Ci为预测值,
Figure BDA00034233917900000311
表示预测目标矩形框i内是否存在目标的Sigmoid概率;Pi∈{0,1}表示预测目标矩形框i中是否真实存在目标,0表示不存在,1表示存在。
分类损失Lcla的计算公式是:
Figure BDA0003423391790000041
Figure BDA0003423391790000042
其中,positive为正样本集,classes为所包含的物体类别;pij∈{0,1}表示预测目标矩形框i中是否真实存在第j类目标,0表示不存在,1表示存在;cij为预测值,
Figure BDA0003423391790000043
表示预测目标矩形框i内存在第j类目标的Sigmoid概率。
步骤2-5,根据YOLOv4提取的语义信息,根据实际空间大小对目标检测到的类的标签进行排序。拒绝置信度小于0.5的检测标记,得到每幅图像的类别特征,结果用向量表示。类别特征向量如下所示:
Figure BDA0003423391790000044
c=(c1,c2,c3,…cN)
其中,c表示类别特征向量,li此表示类别标签,k表示类别数量,N为字典库中物体类别总数。
根据类别特征向量构建语义特征向量,所述语义特征向量公式如下:
εi=[cipix1iy1ix2iy2i]i=1,2,3,…,N
S=[ε1ε2…εN]
其中,εi表示种类i在图像中出现,ci表示种类i在图像中出现的次数,pi表示种类i出现的概率,(x1i,y1i)和(x2i,y2i)分别表示边界框的左上角和右下角坐标。
进一步地,所述步骤2-2中,采用Soft NMS和Diou NMS相结合的非极大值抑制方法对检测时产生的冗余预测框进行筛选,Soft-Diou NMS公式如下:
Figure BDA0003423391790000045
其中,Si为预测框分数,Bi是si当前类别预测框,A是当前类别得分最高的预测框,thresh是预设阈值。
进一步地,在所述步骤2-5中,剔除了预测概率小于0.5的标签,还需要剔除影响力小的标签。因此,建立由常见物体组成的字典库。若选取的物体在字典库内存在时,才利用其表征图像。
进一步地,在所述步骤3中,从历史图像中寻找与当前图像最接近的前K个帧,包括:
步骤3-1,根据步骤2得到的类别特征向量,判断当前帧的类别特征向量与历史帧的类别特征向量相减是否为零,若为零,则执行步骤3-2,若不为零,则与下一个历史帧比较,重新执行本步骤;
步骤3-2,由步骤2得到的语义特征向量,按下式计算余弦相似度:
Figure BDA0003423391790000051
步骤3-3,基于所述相似度,在当前图像与历史图像中执行最近邻搜索,筛选出与当前图像最接近的前K个帧。
进一步地,在所述步骤3-2中,将RGB-D当前拍摄的图像视为查询图像,将先前拍摄的图像视为参考图像。由于RGB-D相机采集的帧率和移动的速度,在时间上接近的图像在外观上很可能是相似的。为了避免这些图像成为候选帧,指定一个时间约束,要求查询图像的M个近邻图像不参与相似度计算,M值确定为:
M=f·T
其中f是帧率,T是预定义的参数。
若两张图像之间间隔的图像个数大于M,则根据这两张图像分别对应的语义特征向量计算这两张图像之间的相似度。
进一步地,在所述步骤4中,对当前图像和K个回环候选帧进行几何一致性检验,将满足几何一致性的当前图像作为真正的回环包括:
步骤4-1,提取当前图像Ii和回环候选图像Ij的ORB关键点和LDB局部描述符;
步骤4-2,对当前图像Ii和回环候选图像Ij进行特征匹配
进一步地,在所述步骤4-1中包括:
ORB关键点提取:ORB关键点为FAST角点,首先取图像中的一个像素点p,然后以3为半径画圆,对比p的灰度值lp与其圆上的16个像素的灰度值,若有连续n个点大于或者小于设定的阈值,则认为点p为角点;另外,还进行FAST角点的改进,增加尺度不变性和旋转特性的描述,其中,尺度不变性是通过构建图像金字塔,然后对每一层的图像进行角点检测,旋转特性是通过灰度质心法获取的;
LDB局部描述符提取包括:根据ORB点检测器提取的关键点ki,在关键点上裁剪出形状为S×S的平滑图像块Pi。然后将图像块Pi分割成大小相等的n×n个网格单元,然后计算每个网格单元
Figure BDA0003423391790000061
的平均强度Iavg和梯度dx,dy。根据下式中定义的二进制测试,在任意两个网格单元
Figure BDA0003423391790000062
Figure BDA0003423391790000063
面片Pi上计算关键点ki的二进制编码,
Figure BDA0003423391790000064
其中f(m)和f(n)分别表示网格单元
Figure BDA0003423391790000065
Figure BDA0003423391790000066
中的Iavg、dx和dx的值。二进制码中的每一位都恰好是一次比较的结果。网格数n×n的选择在LDB中起着至关重要的作用。较大的n指的是较细的网格单元,这增强了LDB的特异性,而较小的n则增强了LDB的稳定性。因此,我们设置了多个值{2,3,4,5},并将来自所有分区的二进制代码串联起来。最后,利用随机比特选择方法将二进制码固定到256比特的维度,生成最终的LDB描述符ki
进一步地,在所述步骤4-2中,对当前图像Ii和回环候选图像Ij进行特征匹配包括:特征点匹配采用k邻近搜索算法,即KNN算法,首先在Ij中找到的两个最接近的描述符
Figure BDA0003423391790000067
Figure BDA0003423391790000068
fi a是当前图像Ii的局部描述符,如果fi a,
Figure BDA0003423391790000069
Figure BDA00034233917900000610
满足如下公式,fi a
Figure BDA00034233917900000611
将被认为是一对好的匹配。良好的描述符匹配将被送入随机采样一致性算法(RANSAC)以去除误匹配并估计基本矩阵,如果回环候选帧中有足够的有效匹配来估计随机采样一致性算法(RANSAC)的基础矩阵,则认为已检测到回环,若无法计算基本矩阵,则Ii和Ij之间的回环闭合对将被丢弃。
Figure BDA00034233917900000612
这里H(·)表示汉明距离,ε是距离的比率,通常小于1,由于所使用的LDB描述符是只有256位的二进制描述符,并且可以通过汉明距离进行有效匹配,因此所提出的几何一致性检查需要较低的存储消耗和计算成本。
与现有技术相比,本发明的有益效果在于:
(1)本发明使用目标检测技术得到图像的语义特征,通过提取图像的语义信息,根据物体种类、数量、置信度和预测框位置构建图像的语义特征向量,使得机器人可以类似于人类一样辨识周围的环境,并判断当前场景与历史场景是否相同,因此,可以大大减少光照和视点变化的影响。
(2)由于本发明使用LDB描述符,并且可以通过汉明距离进行有效匹配,因此所提出的几何一致性检查需要较低的存储消耗和计算成本。
(3)本发明使用目标检测与传统特征相结合的方法,与FAB-MAP方法相比,克服了传统的词袋模型回环检测的缺陷,大大的较少了计算量,在提高精度的同时提高了实时性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1本发明的流程图。
图2为本发明步骤4的流程图。
图3为本发明中New College数据集的准确率召回率曲线图。
图4为本发明中KITTI数据集的准确率召回率曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,图2所示,本发明提供一种基于语义特征的SLAM回环检测方法,包括以下步骤:
步骤1,机器人在运动过程中,通过RGB-D相机获取室内环境的图像;
机器人在运动的过程通过相机拍摄室内的图像,将拍摄的新图像i加入到图像数据库,图像数据库为:图像1,图像2,…图像i。
步骤2,将相机采集的当前图像输入YOLOv4目标检测网络模型,以获取所述图像的语义信息,对获取语义信息进行处理得到当前图像的语义特征向量;
步骤2-1,将图像输入到YOLOv4目标检测网络模型,在将图像输入到YOLOv4目标检测网络之前,先将其调整到416×416的尺寸;
步骤2-2,将图像输入YOLOv4目标检测网络进行语义信息提取,YOLOv4目标检测网络模型首先将图像划分为S×S个网格,每个网格产生B个候选框anchor box,每个候选框会经过网络最终得到相应的边界框。为了解决物体遮挡问题,检测时使用Soft NMS和DiouNMS相结合的非极大值抑制方法剔除不必要的目标框,从而得到图像的语义信息。
步骤2-3,YOLOv4目标检测网络模型由BackBone、Neck和head三部分组成,BackBone部分是CSPDarknet53用于提取初步特征,Neck部分是SPP和PAN用于提取增强后的特征,head部分是基于YOLOv3用于得到预期的结果,其中,CSPDarknet53是在Darknet53的每个大残差块上加上CSP,对应layer 0~layer 104;SPP网络用在YOLOv4中增加网络的感受野,对layer 107进行5×5、9×9、13×13的最大池化,分别得到layer 108,layer 110和layer 112,完成池化后,将layer 107,layer 108,layer 110和layer 112进行连接,连接成一个特征图layer 114并通过1×1降维到512个通道;PANet是在UpSample之后又加了DownSample的操作,PANet上采样对应的layer为layer105到layer128,最后,通过YOLOv4网络模型的图像获得到带有系列边界框的目标检测结果;
步骤2-4,YOLOv4目标检测网络的损失函数L(object)的计算公式是:
L(object)=λiouLlocclsLconclaLcla
其中,Lloc表示定位损失,Lcon表示置信度损失,Lcla表示分类损失,λiouclscla是平衡系数。
定位损失Lloc的计算公式是:
Figure BDA0003423391790000081
其中,参数
Figure BDA0003423391790000082
表示第i个网格的第j个anchor box是否负责这个object,如果负责那么
Figure BDA0003423391790000083
否则为0。
Figure BDA0003423391790000084
其中,ρ2(Actr,Bctr)分别代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。αv为对长宽比的惩罚项,α是一个正数,v用来测量长宽比的一致性。惩罚项作用就是控制预测框的宽高能够尽可能快速地与真实框的宽高接近。
α和v的公式如下:
Figure BDA0003423391790000085
Figure BDA0003423391790000086
其中,wgt和hgt为真实框的宽、高,w和h为预测框的宽、高。
因为,Lciou=1-CIOU,故可以得到Lciou为:
Figure BDA0003423391790000087
上式中A是预测框,B是真实框,IoU为交并比函数,计算两个边界框交集和并集之比。IoU公式如下:
Figure BDA0003423391790000091
置信度损失Lcon的计算公式是:
Figure BDA0003423391790000092
Figure BDA0003423391790000093
其中,Ci为预测值,
Figure BDA0003423391790000094
表示预测目标矩形框i内是否存在目标的Sigmoid概率;Pi∈{0,1}表示预测目标矩形框i中是否真实存在目标,0表示不存在,1表示存在。
分类损失Lcla的计算公式是:
Figure BDA0003423391790000095
Figure BDA0003423391790000096
其中,positive为正样本集,classes为所包含的物体类别;pij∈{0,1}表示预测目标矩形框i中是否真实存在第j类目标,0表示不存在,1表示存在;cij为预测值,
Figure BDA0003423391790000097
表示预测目标矩形框i内存在第j类目标的Sigmoid概率。
步骤2-5,根据YOLOv4提取的语义信息,根据实际空间大小对目标检测到的类的标签进行排序。拒绝置信度小于0.5的检测标记,得到每幅图像的类别特征,结果用向量表示。类别特征向量如下所示:
Figure BDA0003423391790000098
c=(c1,c2,c3,…cN)
其中,c表示类别特征向量,li此表示类别标签,k表示类别数量,N为字典库中物体类别总数。
根据类别特征向量构建语义特征向量,所述语义特征向量公式如下:
εi=[cipix1iy1ix2iy2i]i=1,2,3,…,N
S=[ε1ε2…εN]
其中,εi表示种类i在图像中出现,ci表示种类i在图像中出现的次数,pi表示种类i出现的概率,(x1i,y1i)和(x2i,y2i)分别表示边界框的左上角和右下角坐标。
优选地,所述步骤2-2中,采用Soft NMS和Diou NMS相结合的非极大值抑制方法对检测时产生的冗余预测框进行筛选,Soft-Diou NMS公式如下:
Figure BDA0003423391790000101
其中,Si为预测框分数,Bi是si当前类别预测框,A是当前类别得分最高的预测框,thresh是预设阈值。
优选地,在所述步骤2-5中,我们剔除了预测概率小于0.5的标签,还需要剔除影响力小的标签。因此,建立由常见物体组成的字典库。若选取的物体在字典库内存在时,才利用其表征图像。例如机器人在室内运行时,可以建立由室内常见物体组成的字典库,字典库中物体种类见表1。
表1字典库物体种类
person backpack handbag umbrella bottle
cup chair Potted plant table Tv monitor
laptop mouse remote keyboard cell phone
book clock teddy bear hair drier toothbrush
步骤3,基于当前图像的语义特征向量,计算当前图像与历史图像的相似度,基于所述相似度,从历史图像中选择最接近的前K个帧,作为回环候选帧;
步骤3-1,根据步骤2得到的类别特征向量,判断当前帧的类别特征向量与历史帧的类别特征向量相减是否为零,若为零,则执行步骤3-2,若不为零,则与下一个历史帧比较,重新执行本步骤;
步骤3-2,由步骤2得到的语义特征向量,按下式计算余弦相似度:
Figure BDA0003423391790000102
步骤3-3,基于所述相似度,在当前图像与历史图像中执行最近邻搜索,筛选出与当前图像最接近的前K个帧。
优选地,在所述步骤3-2中,将RGB-D当前拍摄的图像视为查询图像,将先前拍摄的图像视为参考图像。由于RGB-D相机采集的帧率和移动的速度,在时间上接近的图像在外观上很可能是相似的。为了避免这些图像成为候选帧,指定一个时间约束,要求查询图像的M个近邻图像不参与相似度计算,M值确定为:
M=f·T
其中f是帧率,T是预定义的参数。
若两张图像之间间隔的图像个数大于M,则根据这两张图像分别对应的语义特征向量计算这两张图像之间的相似度。
步骤4,对当前图像和K个回环候选帧进行几何一致性检验,将满足几何一致性的当前图像作为真正的回环;
步骤4-1,提取当前图像Ii和回环候选图像Ij的ORB关键点和LDB局部描述符;
ORB关键点提取包括:ORB关键点为FAST角点,首先取图像中的一个像素点p,然后以3为半径画圆,对比p的灰度值lp与其圆上的16个像素的灰度值,若有连续n个点大于或者小于设定的阈值,则认为点p为角点;另外,还进行FAST角点的改进,增加尺度不变性和旋转特性的描述,其中,尺度不变性是通过构建图像金字塔,然后对每一层的图像进行角点检测,旋转特性是通过灰度质心法获取的;
LDB局部描述符提取包括:根据ORB点检测器提取的关键点ki,在关键点上裁剪出形状为S×S的平滑图像块Pi。然后将图像块Pi分割成大小相等的n×n个网格单元,然后计算每个网格单元
Figure BDA0003423391790000111
的平均强度Iavg和梯度dx,dy。根据下式中定义的二进制测试,在任意两个网格单元
Figure BDA0003423391790000112
Figure BDA0003423391790000113
面片Pi上计算关键点ki的二进制编码,
Figure BDA0003423391790000114
其中f(m)和f(n)分别表示网格单元
Figure BDA0003423391790000115
Figure BDA0003423391790000116
中的Iavg、dx和dx的值。二进制码中的每一位都恰好是一次比较的结果。网格数n×n的选择在LDB中起着至关重要的作用。较大的n指的是较细的网格单元,这增强了LDB的特异性,而较小的n则增强了LDB的稳定性。因此,我们设置了多个值{2,3,4,5},并将来自所有分区的二进制代码串联起来。最后,利用随机比特选择方法将二进制码固定到256比特的维度,生成最终的LDB描述符ki
步骤4-2,对当前图像Ii和回环候选图像Ij进行特征匹配;
对当前图像Ii和回环候选图像Ij进行特征匹配包括:特征点匹配采用k邻近搜索算法,即KNN算法,首先在Ij中找到的两个最接近的描述符
Figure BDA0003423391790000117
Figure BDA0003423391790000118
fi a是当前图像Ii的局部描述符,如果fi a,
Figure BDA0003423391790000119
Figure BDA00034233917900001110
满足如下公式,fi a
Figure BDA00034233917900001111
将被认为是一对好的匹配。良好的描述符匹配将被送入随机采样一致性算法(RANSAC)以去除误匹配并估计基本矩阵,如(果回环候选帧中有足够的有效匹配来估计随机采样一致性算法(RANSAC)的基础矩阵,则认为已检测到回环,若无法计算基本矩阵,则Ii和Ij之间的回环闭合对将被丢弃。
Figure BDA0003423391790000121
这里H(·)表示汉明距离。ε是距离的比率,通常小于1。由于所使用的LDB描述符是只有256位的二进制描述符,并且可以通过汉明距离进行有效匹配,因此所提出的几何一致性检查需要较低的存储消耗和计算成本。
步骤5,将真正的回环加入到历史图像中,通过RGB-D相机获取新的图像,进行下一轮的回环检测过程。
为了更好地验证本发明提供的一种基于语义特征的SLAM回环检测方法可行性,进一步提供具体实例如下:
本发明为验证回环检测的精确性,测试部分使用的数据集为牛津大学的Newcollege数据集和KITTI数据集。New college数据集共有2146幅图像,是手持相机拍摄的大学校园内的场景。KITTI数据集为市区、乡村和高速公路等场景采集的真实图像数据。本发明使用KITTI序列00进行方法评估。
回环检测最重要的性能指标是精确召回率(precision-recall)。根据得到的回环信息,计算回环检测算法的准确率和召回率,并绘制出准确率召回率曲线以验证回环检测算法性能。准确率和召回率定义如下:
准确率P的计算公式是:
Figure BDA0003423391790000122
其中,TP的含义为:实际是回环并且算法的检测出来也是回环的数量;FP的含义为:当实际不是回环但是算法检测出来是回环的数量;
召回率R的计算公式是:
Figure BDA0003423391790000123
其中FN的含义为:实际是回环但是算法检测出来结果不是回环的数量。
为进一步证明本实施例算法的有效性,本发明将FAB-MAP方法与本发明的方法进行比较,FAB-MAP算法是一种非常经典的基于词袋模型的回环检测算法。通过计算准确率和召回率,本发明绘制了准确率召回率曲线,图3为New college数据集准确率召回率曲线,图4为KITTI数据集的准确率召回率曲线。
如图3,4所示的准确率召回率曲线信息,可以发现,由于本发明采用了语义特征与几何一致性检验相结合的方式,在准确率大幅提高的情况下,本发明的召回率也有了一定的提高。同时使用的几何一致性检验又减少了大部分误匹配,且计算量小,提高了实时性。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基于语义特征的SLAM回环检测方法,其特征在于:包括以下步骤:
步骤1,机器人在运动过程中,通过RGB-D相机获取室内环境的图像,将拍摄的图像加入到图像数据库;
步骤2,将相机采集的当前图像输入YOLOv4目标检测网络模型,以获取所述图像的语义信息,对获取语义信息进行处理得到当前图像的语义特征向量;
步骤3,基于当前图像的语义特征向量,计算当前图像与历史图像的相似度,基于该相似度,从历史图像中选择最接近的前K个帧,作为回环候选帧;
步骤4,对当前图像和K个回环候选帧进行几何一致性检验,将满足几何一致性的当前图像作为真正的回环;
步骤5,将真正的回环加入到历史图像中,通过RGB-D相机获取新的图像,进行下一轮的回环检测过程。
2.根据权利要求1所述的一种基于语义特征的SLAM回环检测方法,其特征在于:所述步骤2中,将相机采集的当前图像输入YOLOv4目标检测网络模型,以获取所述图像的语义信息,具体包括以下步骤:
步骤2-1,将图像输入到YOLOv4目标检测网络模型,在将图像输入到YOLOv4目标检测网络之前,先将其调整到416×416的尺寸;
步骤2-2,将图像输入YOLOv4目标检测网络进行语义信息提取,YOLOv4目标检测网络模型首先将图像划分为S×S个网格,每个网格产生B个候选框anchor box,每个候选框会经过网络最终得到相应的边界框,检测时使用Soft NMS和Diou NMS相结合的非极大值抑制方法剔除不必要的目标框,得到图像的语义信息;
步骤2-3,YOLOv4目标检测网络模型由BackBone、Neck和head三部分组成,BackBone部分是CSPDarknet53用于提取初步特征,Neck部分是SPP和PAN用于提取增强后的特征,head部分是基于YOLOv3用于得到预期的结果,其中,CSPDarknet53是在Darknet53的每个大残差块上加上CSP,对应layer 0~layer 104;SPP网络用在YOLOv4中增加网络的感受野,对layer 107进行5×5、9×9、13×13的最大池化,分别得到layer 108,layer 110和layer112,完成池化后,将layer 107,layer 108,layer 110和layer 112进行连接,连接成一个特征图layer 114并通过1×1降维到512个通道;PANet是在UpSample之后又加了DownSample的操作,PANet上采样对应的layer为layer105到layer128,通过YOLOv4网络模型的图像获得到带有系列边界框的目标检测结果;
步骤2-4,YOLOv4目标检测网络的损失函数L(object)的计算公式是:
L(object)=λiouLlocclsLconclaLcla
其中,Lloc表示定位损失,Lcon表示置信度损失,Lcla表示分类损失,λiouclscla是平衡系数;
定位损失Lloc的计算公式是:
Figure FDA0003423391780000021
其中,参数
Figure FDA0003423391780000022
表示第i个网格的第j个anchor box是否负责这个object,如果负责那么
Figure FDA0003423391780000023
否则为0;
Figure FDA0003423391780000024
其中,ρ2(Actr,Bctr)分别代表了预测框和真实框的中心点的欧式距离,c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离,αv为对长宽比的惩罚项,α是一个正数,v用来测量长宽比的一致性,惩罚项是控制预测框的宽高快速地与真实框的宽高接近;
α和v的公式如下:
Figure FDA0003423391780000025
Figure FDA0003423391780000026
其中,wgt和hgt为真实框的宽、高,w和h为预测框的宽、高;
因为,Lciou=1-CIOU,故可以得到Lciou为:
Figure FDA0003423391780000027
上式中A是预测框,B是真实框,IoU为交并比函数,计算两个边界框交集和并集之比,IoU公式如下:
Figure FDA0003423391780000028
置信度损失Lcon的计算公式是:
Figure FDA0003423391780000029
Figure FDA00034233917800000210
其中,Ci为预测值,
Figure FDA00034233917800000211
表示预测目标矩形框i内是否存在目标的Sigmoid概率;Pi∈{0,1}表示预测目标矩形框i中是否真实存在目标,0表示不存在,1表示存在;
分类损失Lcla的计算公式是:
Figure FDA0003423391780000031
Figure FDA0003423391780000032
其中,positive为正样本集,classes为所包含的物体类别;pij∈{0,1}表示预测目标矩形框i中是否真实存在第j类目标,0表示不存在,1表示存在;cij为预测值,
Figure FDA0003423391780000033
表示预测目标矩形框i内存在第j类目标的Sigmoid概率;
步骤2-5,根据YOLOv4提取的语义信息,根据实际空间大小对目标检测到的类的标签进行排序,拒绝置信度小于0.5的检测标记,得到每幅图像的类别特征,结果用向量表示,类别特征向量如下所示:
Figure FDA0003423391780000034
c=(c1,c2,c3,…cN)#
其中,c表示类别特征向量,li表示类别标签,k表示类别数量,N为字典库中物体类别总数;
根据类别特征向量构建语义特征向量,所述语义特征向量公式如下:
εi=[cipix1iy1ix2iy2i] i=1,2,3,…,N
S=[ε1ε2…εN]
其中,εi表示种类i在图像中出现,ci表示种类i在图像中出现的次数,pi表示种类i出现的概率,(x1i,y1i)和(x2i,y2i)分别表示边界框的左上角和右下角坐标。
3.根据权利要求2所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤2-2中,采用Soft NMS和Diou NMS相结合的非极大值抑制方法对检测时产生的冗余预测框进行筛选,Soft-Diou NMS公式如下:
Figure FDA0003423391780000035
其中,Si为预测框分数,Bi是si当前类别预测框,A是当前类别得分最高的预测框,thresh是预设阈值。
4.根据权利要求2所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤2-5中,剔除预测概率小于0.5的标签,再剔除影响力小的标签,建立由常见物体组成的字典库,若选取的物体在字典库内存在时,才利用其表征图像。
5.根据权利要求1所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤3中,从历史图像中寻找与当前图像最接近的前K个帧,具体包括以下步骤:
步骤3-1,根据步骤2得到的类别特征向量,判断当前帧的类别特征向量与历史帧的类别特征向量相减是否为零,若为零,则执行步骤3-2,若不为零,则与下一个历史帧比较,重新执行本步骤;
步骤3-2,由步骤2得到的语义特征向量,按下式计算余弦相似度:
Figure FDA0003423391780000041
步骤3-3,基于所述相似度,在当前图像与历史图像中执行最近邻搜索,筛选出与当前图像最接近的前K个帧。
6.根据权利要求5所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤3-2中,将RGB-D当前拍摄的图像视为查询图像,将先前拍摄的图像视为参考图像,由于RGB-D相机采集的帧率和移动的速度,在时间上接近的图像在外观上是相似的,为了避免这些图像成为候选帧,指定一个时间约束,要求查询图像的M个近邻图像不参与相似度计算,M值确定为:
M=f·T
其中,f是帧率,T是预定义的参数;
若两张图像之间间隔的图像个数大于M,则根据这两张图像分别对应的语义特征向量计算这两张图像之间的相似度。
7.根据权利要求1所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤4中,对当前图像和K个回环候选帧进行几何一致性检验,将满足几何一致性的当前图像作为真正的回环,具体包括以下步骤:
步骤4-1,提取当前图像Ii和回环候选图像Ij的ORB关键点和LDB局部描述符;
步骤4-2,对当前图像Ii和回环候选图像Ij进行特征匹配。
8.根据权利要求7所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤4-1中,具体内容如下:
ORB关键点提取包括:ORB关键点为FAST角点,首先取图像中的一个像素点p,然后以3为半径画圆,对比p的灰度值lp与其圆上的16个像素的灰度值,若有连续n个点大于或者小于设定的阈值,则认为点p为角点;另外,还进行FAST角点的改进,增加尺度不变性和旋转特性的描述,其中,尺度不变性是通过构建图像金字塔,然后对每一层的图像进行角点检测,旋转特性是通过灰度质心法获取;
LDB局部描述符提取:根据ORB点检测器提取的关键点ki,在关键点上裁剪出形状为S×S的平滑图像块Pi,将图像块Pi分割成大小相等的n×n个网格单元,计算每个网格单元
Figure FDA0003423391780000051
的平均强度Iavg和梯度dx,dy,根据下式中定义的二进制测试,在任意两个网格单元
Figure FDA0003423391780000052
Figure FDA0003423391780000053
面片Pi上计算关键点ki的二进制编码,
Figure FDA0003423391780000054
其中f(m)和f(n)分别表示网格单元
Figure FDA0003423391780000055
Figure FDA0003423391780000056
中的Iavg、dx和dx的值,二进制码中的每一位是一次比较的结果,设置多个值{2,3,4,5},并将来自所有分区的二进制代码串联起来,利用随机比特选择方法将二进制码固定到256比特的维度,生成LDB描述符ki
9.根据权利要求7所述的一种基于语义特征的SLAM回环检测方法,其特征在于,在所述步骤4-2中,对当前图像Ii和回环候选图像Ij进行特征匹配包括:
特征点匹配采用k邻近搜索算法,首先在Ij中找到的两个最接近的描述符fj 1和fj 2,fi a是当前图像Ii的局部描述符,如果fi a,fj 1和fj 2满足如下公式,fi a和fj 1被认为是一对好的匹配,良好的描述符匹配被送入随机采样一致性算法以去除误匹配并估计基本矩阵,如果回环候选帧中有足够的有效匹配来估计随机采样一致性算法的基础矩阵,则认为已检测到回环,若无法计算基本矩阵,则Ii和Ij之间的回环闭合对将被丢弃;
H(fi a,fj 1)<μ×H(fi a,fj 2)
H(·)表示汉明距离,μ是距离的比率,由于所使用的LDB描述符是只有256位的二进制描述符,通过汉明距离进行有效匹配。
CN202111570170.XA 2021-12-21 2021-12-21 一种基于语义特征的slam回环检测方法 Pending CN114067128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111570170.XA CN114067128A (zh) 2021-12-21 2021-12-21 一种基于语义特征的slam回环检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111570170.XA CN114067128A (zh) 2021-12-21 2021-12-21 一种基于语义特征的slam回环检测方法

Publications (1)

Publication Number Publication Date
CN114067128A true CN114067128A (zh) 2022-02-18

Family

ID=80230160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111570170.XA Pending CN114067128A (zh) 2021-12-21 2021-12-21 一种基于语义特征的slam回环检测方法

Country Status (1)

Country Link
CN (1) CN114067128A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882560A (zh) * 2022-05-10 2022-08-09 福州大学 一种基于轻量级人像检测的图像智能裁剪方法
CN117173247A (zh) * 2023-11-02 2023-12-05 中国海洋大学 基于2D激光雷达与LightGBM的室外定位与构图方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114882560A (zh) * 2022-05-10 2022-08-09 福州大学 一种基于轻量级人像检测的图像智能裁剪方法
CN117173247A (zh) * 2023-11-02 2023-12-05 中国海洋大学 基于2D激光雷达与LightGBM的室外定位与构图方法及系统
CN117173247B (zh) * 2023-11-02 2024-02-02 中国海洋大学 基于2D激光雷达与LightGBM的室外定位与构图方法及系统

Similar Documents

Publication Publication Date Title
CN109934121B (zh) 一种基于YOLOv3算法的果园行人检测方法
CN111795704B (zh) 一种视觉点云地图的构建方法、装置
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Li et al. Location recognition using prioritized feature matching
CN109949368A (zh) 一种基于图像检索的人体三维姿态估计方法
CN111709311A (zh) 一种基于多尺度卷积特征融合的行人重识别方法
CN110097584A (zh) 结合目标检测和语义分割的图像配准方法
CN114067128A (zh) 一种基于语义特征的slam回环检测方法
CN106407978B (zh) 一种结合似物度的无约束视频中显著物体检测方法
CN115861619A (zh) 一种递归残差双注意力核点卷积网络的机载LiDAR城市点云语义分割方法与系统
CN109063549A (zh) 基于深度神经网络的高分辨率航拍视频运动目标检测方法
CN111709317A (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
Alcantarilla et al. Visibility learning in large-scale urban environment
Shi et al. Lidar-based place recognition for autonomous driving: A survey
CN115035599A (zh) 一种融合装备与行为特征的武装人员识别方法和系统
CN114743139A (zh) 视频场景检索方法、装置、电子设备及可读存储介质
CN106971176A (zh) 基于稀疏表示的红外人体目标跟踪方法
CN113011359B (zh) 一种基于图像的同时检测平面结构和生成平面描述的方法及应用
CN112287906B (zh) 一种基于深度特征融合的模板匹配跟踪方法及系统
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN113032613A (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN111291785A (zh) 目标检测的方法、装置、设备及存储介质
Xiang et al. Delightlcd: A deep and lightweight network for loop closure detection in lidar slam
CN115240269A (zh) 基于体型变换的步态识别方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination