CN114067128A

CN114067128A - 一种基于语义特征的slam回环检测方法

Info

Publication number: CN114067128A
Application number: CN202111570170.XA
Authority: CN
Inventors: 张晓峰; 陈哲; 王梅; 欧垚君; 丁红; 陶秦; 施正阳; 魏东
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-02-18

Abstract

本发明公开了一种基于语义特征的SLAM回环检测方法，属于计算机视觉图像技术领域，包括以下步骤：通过RGB‑D相机获取新的图像，并通过YOLOv4目标检测网络模型提取当前图像与图像数据库中其他待匹配图像的语义信息，计算当前图像与图像序列中其他图像的语义特征向量之间的余弦相似度，根据相似度从历史图像中挑选出最接近的K个候选帧，对当前图像和K个候选帧进行几何一致性检验，将满足几何一致性的当前图像作为真正的回环。本发明的有益效果为：采用语义特征可以大大减少光照和视点变化的影响，提高回环检测的准确性以及召回率，同时使用的几何一致性检验又减少了大部分误匹配，且计算量小，需要较低的存储消耗和计算成本，提高了实时性。

Description

一种基于语义特征的SLAM回环检测方法

技术领域

本发明涉及计算机视觉图像技术领域，尤其涉及一种基于语义特征的SLAM回环检测方法。

背景技术

移动机器人在室内环境下根据视觉传感器数据在定位的同时构建地图，即视觉SLAM(Simultaneous Localization and Mapping，SLAM)技术，是实现移动机器人自主定位的关键。回环检测是视觉SLAM的关键组成部分。在视觉SLAM中，机器人运动时，在没有获得先验环境信息的情况下，可以对周围的环境进行建图。但随着时间推移，机器人会不断累积误差，最终形成轨迹漂移。回环检测的主要作用是帮助机器人实时识别是否回到了曾经到达过的位置。由此可知，回环检测的实质是为了求两幅图像的相似性匹配。传统的回环检测方法一般采用的是词袋模型(Bag of Words，BoW)，该方法通过手工的方式提取特征来描述图像，对各帧图像间的相似性进行计算。但是，该方法在复杂环境下实时性较差，面对光照变化，天气变化，季节变换等情况时会出现准确率下降，不能够稳定工作。

近年来，深度学习方法被广泛的用于计算机视觉任务，如图像分类、目标检测并且均取得了不错的成绩。越来越多的研究人员将卷积神经网络应用于回环检测模块，如使用AlexNet网络提取特征，还有使用自编码器(Auto encoder)提取图像特征，上述方法在复杂光照下取得良好的效果，但是这些方法提取的特征维度较高、耗时较长，无法满足闭环检测的实时性要求。

如何解决上述技术问题为本发明面临的课题。

发明内容

为了解决以上技术问题，本发明的目的在于对提供一种基于语义特征的SLAM回环检测方法，通过语义特征帮助机器人判断是否回到之前访问过的地方，提高了回环检测的准确率，减少位姿漂移误差，进一步提升定位的精度，且大大减少了运算量，在实时性方面表现的更加优秀。

本发明是通过以下措施实现的，一种基于语义特征的SLAM回环检测方法，包含以下步骤：

步骤1，机器人在运动过程中，通过RGB-D相机获取室内环境的图像；

步骤2，将相机采集的当前图像输入YOLOv4目标检测网络模型，以获取所述图像的语义信息，对获取语义信息进行处理得到当前图像的语义特征向量；

步骤3，基于当前图像的语义特征向量，计算当前图像与历史图像的相似度,基于所述相似度，从历史图像中选择最接近的前K个帧，作为回环候选帧；

步骤4，对当前图像和K个回环候选帧进行几何一致性检验，将满足几何一致性的当前图像作为真正的回环；

步骤5，将真正的回环加入到历史图像中，通过RGB-D相机获取新的图像，进行下一轮的回环检测过程。

进一步地，所述步骤1中，

机器人在运动的过程通过相机拍摄的图像，将拍摄的新图像i加入到图像数据库，图像数据库为：图像1，图像2，…图像i。

进一步地，所述步骤2中，将相机采集的当前图像输入YOLOv4目标检测网络模型，以获取所述图像的语义信息包括：

步骤2-1，将图像输入到YOLOv4目标检测网络模型，在将图像输入到YOLOv4目标检测网络之前，先将其调整到416×416的尺寸；

步骤2-2，将图像输入YOLOv4目标检测网络进行语义信息提取，YOLOv4目标检测网络模型首先将图像划分为S×S个网格，每个网格产生B个候选框anchor box，每个候选框会经过网络最终得到相应的边界框，为了解决物体遮挡问题，检测时使用Soft NMS和DiouNMS相结合的非极大值抑制方法剔除不必要的目标框，从而得到图像的语义信息。

步骤2-3，YOLOv4目标检测网络模型由BackBone、Neck和head三部分组成，BackBone部分是CSPDarknet53用于提取初步特征，Neck部分是SPP和PAN用于提取增强后的特征，head部分是基于YOLOv3用于得到预期的结果，其中，CSPDarknet53是在Darknet53的每个大残差块上加上CSP，对应layer 0～layer 104；SPP网络用在YOLOv4中增加网络的感受野，对layer 107进行5×5、9×9、13×13的最大池化，分别得到layer 108，layer 110和layer 112，完成池化后，将layer 107，layer 108，layer 110和layer 112进行连接，连接成一个特征图layer 114并通过1×1降维到512个通道；PANet是在UpSample之后又加了DownSample的操作，PANet上采样对应的layer为layer105到layer128。最后，通过YOLOv4网络模型的图像获得到带有系列边界框的目标检测结果；

步骤2-4，YOLOv4目标检测网络的损失函数L(object)的计算公式是：

L(object)＝λ_iouL_loc+λ_clsL_con+λ_claL_cla

其中，L_loc表示定位损失，L_con表示置信度损失，L_cla表示分类损失，λ_iou,λ_cls,λ_cla是平衡系数。

定位损失L_loc的计算公式是：

其中，参数

表示第i个网格的第j个anchor box是否负责这个object，如果负责那么

否则为0。

其中，ρ²(A_ctr,B_ctr)分别代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。αv为对长宽比的惩罚项，α是一个正数，v用来测量长宽比的一致性。惩罚项作用就是控制预测框的宽高能够尽可能快速地与真实框的宽高接近。

α和v的公式如下：

其中，w^gt和h^gt为真实框的宽、高，w和h为预测框的宽、高。

因为，L_ciou＝1-CIOU，故可以得到L_ciou为：

上式中A是预测框，B是真实框，IoU为交并比函数，计算两个边界框交集和并集之比。IoU公式如下：

置信度损失L_con的计算公式是：

其中，C_i为预测值，

表示预测目标矩形框i内是否存在目标的Sigmoid概率；P_i∈{0,1}表示预测目标矩形框i中是否真实存在目标，0表示不存在，1表示存在。

分类损失L_cla的计算公式是：

其中，positive为正样本集，classes为所包含的物体类别；p_ij∈{0,1}表示预测目标矩形框i中是否真实存在第j类目标，0表示不存在，1表示存在；c_ij为预测值，

表示预测目标矩形框i内存在第j类目标的Sigmoid概率。

步骤2-5，根据YOLOv4提取的语义信息，根据实际空间大小对目标检测到的类的标签进行排序。拒绝置信度小于0.5的检测标记，得到每幅图像的类别特征，结果用向量表示。类别特征向量如下所示：

c＝(c₁,c₂,c₃,…c_N)

其中,c表示类别特征向量，l_i此表示类别标签，k表示类别数量，N为字典库中物体类别总数。

根据类别特征向量构建语义特征向量，所述语义特征向量公式如下：

ε_i＝[c_ip_ix_1iy_1ix_2iy_2i]i＝1,2,3,…,N

S＝[ε₁ε₂…ε_N]

其中，ε_i表示种类i在图像中出现,c_i表示种类i在图像中出现的次数，p_i表示种类i出现的概率,(x_1i,y_1i)和(x_2i,y_2i)分别表示边界框的左上角和右下角坐标。

进一步地，所述步骤2-2中，采用Soft NMS和Diou NMS相结合的非极大值抑制方法对检测时产生的冗余预测框进行筛选，Soft-Diou NMS公式如下：

其中，S_i为预测框分数,B_i是s_i当前类别预测框，A是当前类别得分最高的预测框，thresh是预设阈值。

进一步地，在所述步骤2-5中，剔除了预测概率小于0.5的标签，还需要剔除影响力小的标签。因此，建立由常见物体组成的字典库。若选取的物体在字典库内存在时，才利用其表征图像。

进一步地，在所述步骤3中，从历史图像中寻找与当前图像最接近的前K个帧，包括：

步骤3-1，根据步骤2得到的类别特征向量，判断当前帧的类别特征向量与历史帧的类别特征向量相减是否为零，若为零，则执行步骤3-2，若不为零，则与下一个历史帧比较，重新执行本步骤；

步骤3-2，由步骤2得到的语义特征向量，按下式计算余弦相似度：

步骤3-3，基于所述相似度，在当前图像与历史图像中执行最近邻搜索，筛选出与当前图像最接近的前K个帧。

进一步地，在所述步骤3-2中，将RGB-D当前拍摄的图像视为查询图像，将先前拍摄的图像视为参考图像。由于RGB-D相机采集的帧率和移动的速度，在时间上接近的图像在外观上很可能是相似的。为了避免这些图像成为候选帧，指定一个时间约束，要求查询图像的M个近邻图像不参与相似度计算，M值确定为：

M＝f·T

其中f是帧率，T是预定义的参数。

若两张图像之间间隔的图像个数大于M，则根据这两张图像分别对应的语义特征向量计算这两张图像之间的相似度。

进一步地，在所述步骤4中，对当前图像和K个回环候选帧进行几何一致性检验，将满足几何一致性的当前图像作为真正的回环包括：

步骤4-1，提取当前图像I_i和回环候选图像I_j的ORB关键点和LDB局部描述符；

步骤4-2，对当前图像I_i和回环候选图像I_j进行特征匹配

进一步地，在所述步骤4-1中包括：

ORB关键点提取：ORB关键点为FAST角点，首先取图像中的一个像素点p，然后以3为半径画圆，对比p的灰度值lp与其圆上的16个像素的灰度值，若有连续n个点大于或者小于设定的阈值，则认为点p为角点；另外，还进行FAST角点的改进，增加尺度不变性和旋转特性的描述，其中，尺度不变性是通过构建图像金字塔，然后对每一层的图像进行角点检测，旋转特性是通过灰度质心法获取的；

LDB局部描述符提取包括：根据ORB点检测器提取的关键点k_i，在关键点上裁剪出形状为S×S的平滑图像块P_i。然后将图像块P_i分割成大小相等的n×n个网格单元，然后计算每个网格单元

的平均强度I_avg和梯度d_x,d_y。根据下式中定义的二进制测试，在任意两个网格单元

和

面片P_i上计算关键点k_i的二进制编码，

其中f(m)和f(n)分别表示网格单元

和

中的I_avg、d_x和d_x的值。二进制码中的每一位都恰好是一次比较的结果。网格数n×n的选择在LDB中起着至关重要的作用。较大的n指的是较细的网格单元，这增强了LDB的特异性，而较小的n则增强了LDB的稳定性。因此，我们设置了多个值{2，3，4，5}，并将来自所有分区的二进制代码串联起来。最后，利用随机比特选择方法将二进制码固定到256比特的维度，生成最终的LDB描述符k_i。

进一步地，在所述步骤4-2中，对当前图像I_i和回环候选图像I_j进行特征匹配包括：特征点匹配采用k邻近搜索算法，即KNN算法，首先在I_j中找到的两个最接近的描述符

和

f_i ^a是当前图像I_i的局部描述符，如果f_i ^a,

和

满足如下公式，f_i ^a和

将被认为是一对好的匹配。良好的描述符匹配将被送入随机采样一致性算法(RANSAC)以去除误匹配并估计基本矩阵，如果回环候选帧中有足够的有效匹配来估计随机采样一致性算法(RANSAC)的基础矩阵，则认为已检测到回环，若无法计算基本矩阵，则I_i和I_j之间的回环闭合对将被丢弃。

这里H(·)表示汉明距离，ε是距离的比率，通常小于1，由于所使用的LDB描述符是只有256位的二进制描述符，并且可以通过汉明距离进行有效匹配，因此所提出的几何一致性检查需要较低的存储消耗和计算成本。

与现有技术相比，本发明的有益效果在于：

(1)本发明使用目标检测技术得到图像的语义特征，通过提取图像的语义信息，根据物体种类、数量、置信度和预测框位置构建图像的语义特征向量，使得机器人可以类似于人类一样辨识周围的环境，并判断当前场景与历史场景是否相同，因此，可以大大减少光照和视点变化的影响。

(2)由于本发明使用LDB描述符，并且可以通过汉明距离进行有效匹配，因此所提出的几何一致性检查需要较低的存储消耗和计算成本。

(3)本发明使用目标检测与传统特征相结合的方法，与FAB-MAP方法相比，克服了传统的词袋模型回环检测的缺陷，大大的较少了计算量，在提高精度的同时提高了实时性。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1本发明的流程图。

图2为本发明步骤4的流程图。

图3为本发明中New College数据集的准确率召回率曲线图。

图4为本发明中KITTI数据集的准确率召回率曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1，图2所示，本发明提供一种基于语义特征的SLAM回环检测方法，包括以下步骤：

机器人在运动的过程通过相机拍摄室内的图像，将拍摄的新图像i加入到图像数据库，图像数据库为：图像1，图像2，…图像i。

步骤2-2，将图像输入YOLOv4目标检测网络进行语义信息提取，YOLOv4目标检测网络模型首先将图像划分为S×S个网格，每个网格产生B个候选框anchor box，每个候选框会经过网络最终得到相应的边界框。为了解决物体遮挡问题，检测时使用Soft NMS和DiouNMS相结合的非极大值抑制方法剔除不必要的目标框，从而得到图像的语义信息。

步骤2-3，YOLOv4目标检测网络模型由BackBone、Neck和head三部分组成，BackBone部分是CSPDarknet53用于提取初步特征，Neck部分是SPP和PAN用于提取增强后的特征，head部分是基于YOLOv3用于得到预期的结果，其中，CSPDarknet53是在Darknet53的每个大残差块上加上CSP，对应layer 0～layer 104；SPP网络用在YOLOv4中增加网络的感受野，对layer 107进行5×5、9×9、13×13的最大池化，分别得到layer 108，layer 110和layer 112，完成池化后，将layer 107，layer 108，layer 110和layer 112进行连接，连接成一个特征图layer 114并通过1×1降维到512个通道；PANet是在UpSample之后又加了DownSample的操作，PANet上采样对应的layer为layer105到layer128，最后，通过YOLOv4网络模型的图像获得到带有系列边界框的目标检测结果；

L(object)＝λ_iouL_loc+λ_clsL_con+λ_claL_cla

定位损失L_loc的计算公式是：

其中，参数

否则为0。

α和v的公式如下：

其中，w^gt和h^gt为真实框的宽、高，w和h为预测框的宽、高。

因为，L_ciou＝1-CIOU，故可以得到L_ciou为：

置信度损失L_con的计算公式是：

其中，C_i为预测值，

分类损失L_cla的计算公式是：

表示预测目标矩形框i内存在第j类目标的Sigmoid概率。

c＝(c₁,c₂,c₃,…c_N)

ε_i＝[c_ip_ix_1iy_1ix_2iy_2i]i＝1,2,3,…,N

S＝[ε₁ε₂…ε_N]

优选地，所述步骤2-2中，采用Soft NMS和Diou NMS相结合的非极大值抑制方法对检测时产生的冗余预测框进行筛选，Soft-Diou NMS公式如下：

优选地，在所述步骤2-5中，我们剔除了预测概率小于0.5的标签，还需要剔除影响力小的标签。因此，建立由常见物体组成的字典库。若选取的物体在字典库内存在时，才利用其表征图像。例如机器人在室内运行时，可以建立由室内常见物体组成的字典库，字典库中物体种类见表1。

表1字典库物体种类

person	backpack	handbag	umbrella	bottle
					cup	chair	Potted plant	table	Tv monitor
laptop	mouse	remote	keyboard	cell phone
					book	clock	teddy bear	hair drier	toothbrush

优选地，在所述步骤3-2中，将RGB-D当前拍摄的图像视为查询图像，将先前拍摄的图像视为参考图像。由于RGB-D相机采集的帧率和移动的速度，在时间上接近的图像在外观上很可能是相似的。为了避免这些图像成为候选帧，指定一个时间约束，要求查询图像的M个近邻图像不参与相似度计算，M值确定为：

M＝f·T

其中f是帧率，T是预定义的参数。

ORB关键点提取包括：ORB关键点为FAST角点，首先取图像中的一个像素点p，然后以3为半径画圆，对比p的灰度值lp与其圆上的16个像素的灰度值，若有连续n个点大于或者小于设定的阈值，则认为点p为角点；另外，还进行FAST角点的改进，增加尺度不变性和旋转特性的描述，其中，尺度不变性是通过构建图像金字塔，然后对每一层的图像进行角点检测，旋转特性是通过灰度质心法获取的；

和

面片P_i上计算关键点k_i的二进制编码，

其中f(m)和f(n)分别表示网格单元

和

步骤4-2，对当前图像I_i和回环候选图像I_j进行特征匹配；

对当前图像I_i和回环候选图像I_j进行特征匹配包括：特征点匹配采用k邻近搜索算法，即KNN算法，首先在I_j中找到的两个最接近的描述符

和

f_i ^a是当前图像I_i的局部描述符，如果f_i ^a,

和

满足如下公式，f_i ^a和

将被认为是一对好的匹配。良好的描述符匹配将被送入随机采样一致性算法(RANSAC)以去除误匹配并估计基本矩阵，如(果回环候选帧中有足够的有效匹配来估计随机采样一致性算法(RANSAC)的基础矩阵，则认为已检测到回环，若无法计算基本矩阵，则I_i和I_j之间的回环闭合对将被丢弃。

这里H(·)表示汉明距离。ε是距离的比率，通常小于1。由于所使用的LDB描述符是只有256位的二进制描述符，并且可以通过汉明距离进行有效匹配，因此所提出的几何一致性检查需要较低的存储消耗和计算成本。

为了更好地验证本发明提供的一种基于语义特征的SLAM回环检测方法可行性，进一步提供具体实例如下：

本发明为验证回环检测的精确性，测试部分使用的数据集为牛津大学的Newcollege数据集和KITTI数据集。New college数据集共有2146幅图像，是手持相机拍摄的大学校园内的场景。KITTI数据集为市区、乡村和高速公路等场景采集的真实图像数据。本发明使用KITTI序列00进行方法评估。

回环检测最重要的性能指标是精确召回率(precision-recall)。根据得到的回环信息，计算回环检测算法的准确率和召回率，并绘制出准确率召回率曲线以验证回环检测算法性能。准确率和召回率定义如下：

准确率P的计算公式是：

其中，TP的含义为：实际是回环并且算法的检测出来也是回环的数量；FP的含义为：当实际不是回环但是算法检测出来是回环的数量；

召回率R的计算公式是：

其中FN的含义为：实际是回环但是算法检测出来结果不是回环的数量。

为进一步证明本实施例算法的有效性，本发明将FAB-MAP方法与本发明的方法进行比较，FAB-MAP算法是一种非常经典的基于词袋模型的回环检测算法。通过计算准确率和召回率，本发明绘制了准确率召回率曲线，图3为New college数据集准确率召回率曲线，图4为KITTI数据集的准确率召回率曲线。

如图3，4所示的准确率召回率曲线信息，可以发现，由于本发明采用了语义特征与几何一致性检验相结合的方式，在准确率大幅提高的情况下，本发明的召回率也有了一定的提高。同时使用的几何一致性检验又减少了大部分误匹配，且计算量小，提高了实时性。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于语义特征的SLAM回环检测方法，其特征在于：包括以下步骤：

步骤1，机器人在运动过程中，通过RGB-D相机获取室内环境的图像，将拍摄的图像加入到图像数据库；

步骤3，基于当前图像的语义特征向量，计算当前图像与历史图像的相似度,基于该相似度，从历史图像中选择最接近的前K个帧，作为回环候选帧；

2.根据权利要求1所述的一种基于语义特征的SLAM回环检测方法，其特征在于：所述步骤2中，将相机采集的当前图像输入YOLOv4目标检测网络模型，以获取所述图像的语义信息，具体包括以下步骤：

步骤2-2，将图像输入YOLOv4目标检测网络进行语义信息提取，YOLOv4目标检测网络模型首先将图像划分为S×S个网格，每个网格产生B个候选框anchor box，每个候选框会经过网络最终得到相应的边界框，检测时使用Soft NMS和Diou NMS相结合的非极大值抑制方法剔除不必要的目标框，得到图像的语义信息；

步骤2-3，YOLOv4目标检测网络模型由BackBone、Neck和head三部分组成，BackBone部分是CSPDarknet53用于提取初步特征，Neck部分是SPP和PAN用于提取增强后的特征，head部分是基于YOLOv3用于得到预期的结果，其中，CSPDarknet53是在Darknet53的每个大残差块上加上CSP，对应layer 0～layer 104；SPP网络用在YOLOv4中增加网络的感受野，对layer 107进行5×5、9×9、13×13的最大池化，分别得到layer 108，layer 110和layer112，完成池化后，将layer 107，layer 108，layer 110和layer 112进行连接，连接成一个特征图layer 114并通过1×1降维到512个通道；PANet是在UpSample之后又加了DownSample的操作，PANet上采样对应的layer为layer105到layer128，通过YOLOv4网络模型的图像获得到带有系列边界框的目标检测结果；

L(object)＝λ_iouL_loc+λ_clsL_con+λ_claL_cla

其中，L_loc表示定位损失，L_con表示置信度损失，L_cla表示分类损失，λ_iou,λ_cls,λ_cla是平衡系数；

定位损失L_loc的计算公式是：

其中，参数

否则为0；

其中，ρ²(A_ctr,B_ctr)分别代表了预测框和真实框的中心点的欧式距离，c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离，αv为对长宽比的惩罚项，α是一个正数，v用来测量长宽比的一致性，惩罚项是控制预测框的宽高快速地与真实框的宽高接近；

α和v的公式如下：

其中，w^gt和h^gt为真实框的宽、高，w和h为预测框的宽、高；

因为，L_ciou＝1-CIOU，故可以得到L_ciou为：

上式中A是预测框，B是真实框，IoU为交并比函数，计算两个边界框交集和并集之比，IoU公式如下：

置信度损失L_con的计算公式是：

其中，C_i为预测值，

表示预测目标矩形框i内是否存在目标的Sigmoid概率；P_i∈{0,1}表示预测目标矩形框i中是否真实存在目标，0表示不存在，1表示存在；

分类损失L_cla的计算公式是：

表示预测目标矩形框i内存在第j类目标的Sigmoid概率；

步骤2-5，根据YOLOv4提取的语义信息，根据实际空间大小对目标检测到的类的标签进行排序，拒绝置信度小于0.5的检测标记，得到每幅图像的类别特征，结果用向量表示，类别特征向量如下所示：

c＝(c₁,c₂,c₃,…c_N)#

其中,c表示类别特征向量，l_i表示类别标签，k表示类别数量，N为字典库中物体类别总数；

ε_i＝[c_ip_ix_1iy_1ix_2iy_2i] i＝1,2,3,…,N

S＝[ε₁ε₂…ε_N]

3.根据权利要求2所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤2-2中，采用Soft NMS和Diou NMS相结合的非极大值抑制方法对检测时产生的冗余预测框进行筛选，Soft-Diou NMS公式如下：

4.根据权利要求2所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤2-5中，剔除预测概率小于0.5的标签，再剔除影响力小的标签，建立由常见物体组成的字典库，若选取的物体在字典库内存在时，才利用其表征图像。

5.根据权利要求1所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤3中，从历史图像中寻找与当前图像最接近的前K个帧，具体包括以下步骤：

6.根据权利要求5所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤3-2中，将RGB-D当前拍摄的图像视为查询图像，将先前拍摄的图像视为参考图像，由于RGB-D相机采集的帧率和移动的速度，在时间上接近的图像在外观上是相似的，为了避免这些图像成为候选帧，指定一个时间约束，要求查询图像的M个近邻图像不参与相似度计算，M值确定为：

M＝f·T

其中，f是帧率，T是预定义的参数；

7.根据权利要求1所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤4中，对当前图像和K个回环候选帧进行几何一致性检验，将满足几何一致性的当前图像作为真正的回环，具体包括以下步骤：

步骤4-2，对当前图像I_i和回环候选图像I_j进行特征匹配。

8.根据权利要求7所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤4-1中，具体内容如下：

ORB关键点提取包括：ORB关键点为FAST角点，首先取图像中的一个像素点p，然后以3为半径画圆，对比p的灰度值lp与其圆上的16个像素的灰度值，若有连续n个点大于或者小于设定的阈值，则认为点p为角点；另外，还进行FAST角点的改进，增加尺度不变性和旋转特性的描述，其中，尺度不变性是通过构建图像金字塔，然后对每一层的图像进行角点检测，旋转特性是通过灰度质心法获取；

LDB局部描述符提取：根据ORB点检测器提取的关键点k_i，在关键点上裁剪出形状为S×S的平滑图像块P_i，将图像块P_i分割成大小相等的n×n个网格单元，计算每个网格单元

的平均强度I_avg和梯度d_x,d_y，根据下式中定义的二进制测试，在任意两个网格单元

和

面片P_i上计算关键点k_i的二进制编码，

其中f(m)和f(n)分别表示网格单元

和

中的I_avg、d_x和d_x的值，二进制码中的每一位是一次比较的结果，设置多个值{2，3，4，5}，并将来自所有分区的二进制代码串联起来，利用随机比特选择方法将二进制码固定到256比特的维度，生成LDB描述符k_i。

9.根据权利要求7所述的一种基于语义特征的SLAM回环检测方法，其特征在于，在所述步骤4-2中，对当前图像I_i和回环候选图像I_j进行特征匹配包括：

特征点匹配采用k邻近搜索算法，首先在I_j中找到的两个最接近的描述符f_j ¹和f_j ²，f_i ^a是当前图像I_i的局部描述符，如果f_i ^a,f_j ¹和f_j ²满足如下公式，f_i ^a和f_j ¹被认为是一对好的匹配，良好的描述符匹配被送入随机采样一致性算法以去除误匹配并估计基本矩阵，如果回环候选帧中有足够的有效匹配来估计随机采样一致性算法的基础矩阵，则认为已检测到回环，若无法计算基本矩阵，则I_i和I_j之间的回环闭合对将被丢弃；

H(f_i ^a,f_j ¹)＜μ×H(f_i ^a,f_j ²)

H(·)表示汉明距离，μ是距离的比率，由于所使用的LDB描述符是只有256位的二进制描述符，通过汉明距离进行有效匹配。