CN115240115B

CN115240115B - 一种语义特征和词袋模型相结合的视觉slam回环检测方法

Info

Publication number: CN115240115B
Application number: CN202210896120.9A
Authority: CN
Inventors: 张博强; 张小彩; 李东鼎; 高天智; 张涛; 冯天培; 孙朋; 陈晨; 刘竟飞; 张勋
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2023-04-07
Anticipated expiration: 2042-07-27
Also published as: CN115240115A

Abstract

本发明属于视觉SLAM技术领域，公开了一种语义特征和词袋模型相结合的视觉SLAM回环检测方法方法：采集工厂的运动视频数据，从运动视频数据中获取每帧图片，判断任意两帧图片之间的相似值，基于相似值删除冗余图片得到训练数据，基于训练数据对U‑net网络进行训练，得到训练U‑net网络；采集工厂的图片，获取该图片的RGB图，并将该RGB图用训练U‑net网络进行语义分割，得到语义标签；对语义标签进行聚类；对聚类后的语义标签进行相似性比较，获取候选关键帧；在检测到有关键帧插入后，进入回环检测。本发明解决了传统的SLAM词袋模型对像光照之类的变化不敏感，在工厂环境有变化的情况下容易造成较大的波动，提取特征存在准确精度低的问题。

Description

一种语义特征和词袋模型相结合的视觉SLAM回环检测方法

技术领域

本发明属于视觉SLAM技术领域，具体涉及一种语义特征和词袋模型相结合的视觉SLAM回环检测方法。

背景技术

随着工业化进程的加快，消费市场不断扩大，传统生产制造业订单类型已由“单一品种大批大量”开始向“多品种、小批量、多批次、高时效”转变。制造企业原有的依靠人工完成订单处理、物料入库、搬运、拣货、出库等作业模式，难以及时准确地完成大量信息处理工作，且错误率也会随任务复杂度而升高，如此不仅会增加企业经营成本，还会影响物流运作效率和商品流转交易等其他环节。因此，制造企业需要通过运用信息技术和智能机器设备代替人力劳动，完成智能化转型升级，以满足现代仓储系统柔性、高效、快速反应的要求，工厂物流用无人车应运而生。

在这种背景下以工厂物流用无人车为载体进行工厂、物品等的定位与建图(SLAM)的准确度尤为重要，在这一过程中，前端提供特征点的提取和轨迹、地图的初值，后端负责对所有这些数据进行优化。然而，如果像视觉里程计那样仅考虑相邻时间上的关键帧，那么之前产生的误差将不可避免地累积到下一个时刻，使得整个SLAM出现累积误差，长期估计的结果将不可靠，或者说，我们无法构建全局一致的轨迹和地图。所以需要回环检测来提升SLAM系统的精度与稳定性。

回环检测需要通过对过程中的两幅图像进行特征匹配，判断其相似性来确定回环关系。传统的SLAM回环检测中用到词袋模型(BoW,Bag-of-words)，通过确定一幅图像中出现了哪些在字典中定义的概念，用单词出现的情况(或直方图)来描述整幅图像，把一幅图像转换成了一个向量的描述，然后通过定义一对对描述向量的相似性来定义图像之间的相似程度，从而进行相似度的计算判断是否存在回环关系。例如，我们说某张照片中有一个人、一辆车；而另一张中有两个人、一个机器设备。其中“人”“车”“设备”等概念——对应词袋模型中的“单词”，许多单词放在一起组成了“字典”。

目前视觉SLAM回环检测主要方式有传统的词袋模型以及基于概率和词袋模型的一些改进算法，但是传统方式依然存在一些问题：在工厂物流场景下，工厂环境多为白色，缺乏纹理性、难以提取特征、环境、物品复杂多变，使用传统的SLAM词袋模型对像光照之类的变化不敏感，在工厂环境有变化的情况下容易造成较大的波动，因此提取特征会存在准确精度低的现象。

发明内容

为了解决以上问题，本发明克服现有技术不足，结合基于深度学习的语义特征技术，提出一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，解决了工厂物流场景下，传统的SLAM词袋模型对像光照之类的变化不敏感，在工厂环境有变化的情况下容易造成较大的波动，提取特征会存在准确精度低的问题。

为了达到上述的发明目的，本发明提供了一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，包括如下步骤：

步骤1，利用工厂物流用无人车采集工厂的运动视频数据，从该运动视频数据中获取每帧图片，获取每帧图片的特征向量，通过计算任意两帧图片的特征向量之间的差值来确定任意两帧图片之间的相似值；

若任意两帧图片的相似值小于门限值时，则确定任意两帧图片为相似的图片，删除冗余图片，其中，冗余图片为任意两帧图片中的任一帧；

若任意两帧图片的相似值大于或等于门限值，则确定任意两帧图片是不相似的图片，保留任意两帧图片；

从获取的每帧图片中删除所有的冗余图片得到训练数据，将训练数据输入U-net网络对U-net网络进行训练，得到训练U-net网络。

具体地，从U-net网络的降采样部分的第一个有效卷积的中间层获取每帧图片的特征向量。

具体地，通过计算任意两帧图片的特征向量的欧几里得距离来确定任意两帧图片的特征矢向量之间的差值。

步骤2，利用工厂物流用无人车在移动过程中采集工厂的图片，获取该图片的RGB图，并将该RGB图用训练U-net网络进行图像语义分割，得到语义标签。

步骤3，对上述图片中的语义标签进行聚类。

具体地，通过K-means算法对语义标签进行聚类。

步骤4，对聚类后的语义标签进行相似性比较，获取候选关键帧。

具体地，把整张图片的语义标签都列出来，直接比较任意两帧图片的重复的语义标签，获取重复的语义标签在任意两帧图片的语义标签中的比例，若上述比例超过预设的阈值，则将该帧图片列入候选关键帧列表。

步骤5，在检测到有关键帧插入后，进入回环检测。

具体地，进行闭环检测具体包括如下步骤：

步骤5.1，若距离上次闭环小于10帧,则直接退出；

步骤5.2，遍历关键帧的所有共视关键帧，基于词袋模型计算关键帧与每个共视关键帧的相似度，找出相似度中的最低分，删除最低分对应的共视关键帧；

步骤5.3，找出与关键帧相连的帧，遍历该帧的所有单词，提取出拥有上述所有单词的所有帧，存放在候选帧列表中；

步骤5.4，遍历候选帧列表，将候选帧列表中共有单词数较多且相似度高于上述最低分的帧存放在匹配列表中；

步骤5.5，将匹配列表中每一帧与该帧共视程度较高的帧每10帧组成一组，选出累计得分最高的一组,记录下累计最高分，将累计得分大于0.75倍该累计最高分的组里的得分最高的帧都存放在闭环候选列表中，成为候选帧。

步骤5.6，进行连续性检测。

本发明公开的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，采用高质量数据对U-net网络进行训练，以提高图像识别的准确性，然后通过训练后的U-net网络对每一帧图片进行语义分割，并对聚类后的语义标签进行相似性比较，排除一些不符合检测标准的帧，便于后期确定出真正的闭环关键帧，克服了由于工厂的仓库和墙白色、工厂环境复杂多变导致在传统特征提取下提取不到的情况，提高了在工厂物流场景下以无人车自动驾驶为载体进行粮库等的定位与建图(SLAM)回环检测的精度。

附图说明

图1为本发明的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法的流程图；

图2为本发明的获取训练数据的第一实施例的方法流程图；

图3为本发明的获取训练数据的第二实施例的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明经行进一步的详细说明。显然，此处所描述的具体实施例仅仅用于解释本发明，是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术普通人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1所示是本发明提供的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法的流程图，该流程图具体包括：

示例性地，获取训练数据的第一实施例的方法流程图可以如图2所示，以图2为例说明本申请获取训练数据的第一实施例的技术方案。将从运动视频数据中获取的每帧图片输入到该流程模块中，随后遍历输入的所有图片，假设总共有K帧图片，设置自变量n和因变量m，其中m＝n+1，计算第n帧图片和第m帧图片之间的相似值，如果第n帧图片和第m帧图片之间的相似值小于门限值，说明第n帧图片和第m帧图片是相似的图片，则删除第n帧图片，随后使n＝n+1，判断n是否大于或等于最大帧数K，若n大于或等于最大帧数K，说明已经比较过最后两帧图片的相似值，已经删除了相似帧中的倒数第二帧，则结束循环，输出最后一帧图片，否则继续循环；如果第n帧图片和第m帧图片之间的相似值大于或等于门限值，则说明第n帧图片和第m帧图片是不相似的图片，则输出第n帧图片，继续比较第m帧图片和下一帧图片的相似值，具体的，使n＝n+1，判断n是否大于或等于最大帧数K，若n大于或等于最大帧数K，说明已经比较过最后两帧图片的相似值，最后两帧图片不相似，结束循环，输出最后一帧图片，否则继续循环。

示例性地，获取训练数据的第二实施例的方法流程图可以如图3所示，以图3为例说明本申请获取训练数据的第二实施例的技术方案。将从运动视频数据中获取的每帧图片输入到该流程模块中，将所有的图片都与其他的图片两两组合(比如(,A,B)、(A,C)、(B,C))，计算任意两帧图片之间的相似值，然后遍历所有组合的相似值，判断是否存在相似值小于门限值的组合，若不存在，则结束循环，输出训练数据；若存在相似值小于门限值的组合，则获取相似值最小的一组组合(比如(A,B))。然后获取该最小相似值(比如a₁)的组合中的第一帧图片A，获取该第一帧图片A与其他图片的组合中相似值最小的组合，判断这个最小相似值(比如a₂)是否小于门限值，若该最小相似值a₂小于门限值，则删除该第一帧图片A，继续循环；若该最小相似值a₂不小于门限值，则获取第二帧图片B与其他图片的组合中相似值最小的组合。随后判断这个最小相似值(比如a₃)是否小于门限值，若该最小相似值a₃小于门限值，则删除第二帧图片B，继续循环；若该最小相似值a₃不小于门限值，则删除第一帧图片A，继续循环。

在进行回环检测前，使工厂物流用无人车环绕工厂运动一周，采集工厂的运动视频数据，然后以一定的帧速率从运动视频数据中提取每帧的静止图片，基于图片间的相似值删除上述静止图片中的冗余图片，生成高质量的训练数据，再使用该训练数据对U-net网路进行训练，调整U-net网路的网络参数，以提高U-net网路对图像进行语义分割的准确性。

具体地，从U-net网络的降采样部分的第一个有效卷积的中间层获取图片的特征向量，如此可以更加清楚准确地获取适用于U-net网络的该帧图片的特征向量。

具体地，通过计算任意两帧图片的特征向量的欧几里得距离来确定任意两帧图片的特征向量之间的差值。

具体地，可以基于每帧图片的特征向量来确定门限值，例如，可以获取每两帧图片的特征向量的欧几里得距离的平均值做为门限值。也可以根据实际需要适当调整门限值的大小，当门限值减小时，判定为相似的图片数量减少，冗余图片数减少，获得的训练数据会增加；当门限值增大时，判定为相似的图片数量增加，冗余图片数增加，获得的训练数据会减少。

传统的图像分割方法大部分是基于图像本身的特征提取，需要在图像上生成不同的区域，再在区域上提取特征，对区域进行分类合并才能得到最终图像分割的结果，过程比较复杂，并且效果也有很大的提升空间。本文采用经过该工厂的运动视频数据中的静止图片训练的U-net网络来进行图像语义分割，可以提高语义分割的准确性。

步骤3，对上述图片中的语义标签进行聚类。

具体地，通过K-means算法对语义标签进行聚类。

简单的说，当有N个数据，想要归成k个类，那么K-means来做主要包括如下步骤：

1.随机选取k个中心点：c₁，...，c_k；

2.对每一个样本，计算它与每个中心点之间的距离，取最小的作为它的归类；

3.重新计算每个类的中心点；

4.如果每个中心点变化很小，则算法收敛，退出；否则返回第二步。

具体地，把整张图片的语义标签都列出来，直接比较任意两帧图片的重复的语义标签，获取重复的语义标签在任意两帧图片的语义标签中的比例，若上述比例超过预设的阈值，则将该帧图片列入候选关键帧列表。例如，设置阈值为百分之八十，当重复的语义标签在该帧图片的所有语义标签中的比例超过百分之八十时，将该帧图片做为候选帧。作为一种示例，假设A帧图片中有6类标签，B帧图片中有7类标签，重复了5类标签，则A帧图片的重复的语义标签的比例是5/6，超过了百分之八十，则将A帧图片列入候选关键帧列表；B帧图片的重复的语义标签的比例是5/7，低于百分之八十，则不将B帧图片列入候选关键帧列表。对词袋模型的候选关键帧组进行内部的比较，排除一些不符合检测标准的关键帧，便于后期确定出真正的闭环关键帧，可以提高回环检测的精度。

步骤5，在检测到有关键帧插入后，进入回环检测。

具体地，进行闭环检测具体包括如下步骤：

步骤5.1，若距离上次闭环小于10帧,则直接退出。

如果当前关键帧距离上一帧关键帧之间小于10个帧，说明运动的太短了，则不需要做回环检测。

步骤5.2，遍历关键帧的所有共视关键帧，基于词袋模型计算关键帧与每个共视关键帧的相似度，找出相似度中的最低分，删除最低分对应的共视关键帧。

确保闭环检测到的帧的匹配程度和共视帧的匹配程度相当，删除不合格的帧。

步骤5.3，找出与关键帧相连的帧，遍历该帧的所有单词，提取出拥有上述所有单词的所有帧，存放在候选帧列表中。

步骤5.4，遍历候选帧列表，将候选帧列表中共有单词数较多且相似度高于上述最低分的帧存放在匹配列表中。

步骤5.6，进行连续性检测。

以上上述的实施例仅表达了本发明的实施优选方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，其特征在于，包括如下步骤：

步骤1，利用工厂物流用无人车采集工厂的运动视频数据，从所述运动视频数据中获取每帧图片，将每一帧图片都与其他图片两两组合，计算任意两帧图片的组合的特征向量之间的差值来确定所述任意两帧图片之间的相似值；

遍历所有组合的相似值，判断是否存在相似值小于门限值的组合，若不存在，则确定所述任意两帧图片是不相似的图片，保留所述任意两帧图片；

若存在，则获取相似值最小的第一组合，获取所述第一组合中的第一帧图片和第二帧图片，并获取所述第一帧图片与除了所述第二帧图片之外的其他图片的组合中相似值最小的第二组合，若所述第二组合的相似值小于门限值，则删除所述第一帧图片，然后继续遍历所述第一组合之后的其他组合，判断是否存在相似值小于门限值的组合；若所述第二组合的相似值不小于门限值，则获取所述第二帧图片与除了所述第一帧图片之外的其他图片的组合中相似值最小的第三组合，若所述第三组合的相似值小于门限值，则删除所述第二帧图片，然后继续遍历所述第一组合之后的其他组合，判断是否存在相似值小于门限值的组合；若所述第三组合的相似值不小于门限值，则删除所述第一帧图片，然后继续遍历所述第一组合之后的其他组合，判断是否存在相似值小于门限值的组合，其中，被删除的图片为冗余图片；

从获取的所述每帧图片中删除所有的冗余图片得到训练数据，将所述训练数据输入U-net网络对U-net网络进行训练，得到训练U-net网络；

步骤2，利用所述工厂物流用无人车在移动过程中采集工厂的图片，获取所述图片的RGB图，并将所述RGB图用所述训练U-net网络进行图像语义分割，得到语义标签；

步骤3，对所述图片中的所述语义标签进行聚类；

步骤4，对聚类后的所述语义标签进行相似性比较，获取候选关键帧；

在步骤4中，把整张图片的所述语义标签都列出来，直接比较任意两帧图片的重复的语义标签，获取所述重复的语义标签在所述任意两帧图片的语义标签中的比例，若所述比例超过预设的阈值，则将该帧图片列入候选关键帧列表；

步骤5，在检测到有关键帧插入后，进入回环检测。

2.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，其特征在于，从所述U-net网络的降采样部分的第一个有效卷积的中间层获取所述每帧图片的特征向量。

3.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，其特征在于，通过计算所述任意两帧图片的特征向量的欧几里得距离来确定所述任意两帧图片的特征向量之间的差值。

4.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，其特征在于，步骤3中，对所述语义标签通过K-means算法进行聚类。

5.根据权利要求1所述的一种语义特征和词袋模型相结合的视觉SLAM回环检测方法，其特征在于，步骤5中，进行闭环检测具体包括如下步骤：

步骤5.1，若距离上次闭环小于10帧,则直接退出；

步骤5.2，遍历所述关键帧的所有共视关键帧，基于词袋模型计算所述关键帧与每个共视关键帧的相似度，找出所述相似度中的最低分，删除所述最低分对应的共视关键帧；

步骤5.3，找出与所述关键帧相连的帧，遍历所述帧的所有单词，提取出拥有所述所有单词的所有帧，存放在候选帧列表中；

步骤5.4，遍历所述候选帧列表，将所述候选帧列表中共有单词数较多且相似度高于所述最低分的帧存放在匹配列表中；

步骤5.5，将所述匹配列表中每一帧与该帧共视程度较高的帧每10帧组成一组，选出累计得分最高的一组,记录下累计最高分，将累计得分大于0.75倍所述累计最高分的组里的得分最高的帧都存放在闭环候选列表中，成为候选帧；

步骤5.6，进行连续性检测。