CN111696118A

CN111696118A - 动态场景下基于语义分割与图像修复的视觉回环检测方法

Info

Publication number: CN111696118A
Application number: CN202010447355.0A
Authority: CN
Inventors: 钱堃; 刘睿; 陈晟豪; 柏纪伸; 张懿
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2020-09-22
Anticipated expiration: 2040-05-25
Also published as: CN111696118B

Abstract

一种动态场景下基于语义分割与图像修复的视觉回环检测方法，包括以下步骤：1)在历史图像库中预训练的ORB特征离线词典；2)获取当前RGB图像作为当前帧，利用DANet语义分割网络分割出图像属于动态场景区域；3)利用图像修复网络对已经进行掩膜覆盖的图像进行图像修复；4)将所有历史数据库图像作为关键帧，用当前帧图像与所有关键帧图像逐一进行回环检测判断；5)根据两帧图像词袋向量的相似度和对极几何判断是否构成回环；6)进行判定。本发明可用于在动态作业环境下视觉SLAM中的回环检测，用于解决由于场景中存在作业人员、车辆、巡检机器人等动态目标而导致特征匹配错误以及由于对动态区域分割导致特征点过少而无法正确检测回环的情况。

Description

动态场景下基于语义分割与图像修复的视觉回环检测方法

技术领域

本发明属于视觉SLAM领域，特别是涉及动态场景下基于语义分割与图像修复的视觉回环检测方法。

背景技术

视觉SLAM(Simultaneous Localization And Mapping)是一种机器人在未知环境中，使用视觉传感器感知周围环境，并在移动过程中，估计出传感器的位姿，同时实现根据地图进行自身定位和根据定位情况建立增量式地图。回环检测是视觉SLAM系统中一个重要模块。回环检测即机器人能识别出曾经经过的场景，使得地图构成回环。在进行视觉SLAM时，视觉里程计在估计位姿时会出现累计漂移问题。因此回环检测的意义在于，机器人可以通过判断是否构成闭环，使用全局优化模块来修正估计的位姿以及建立的地图。

将视觉SLAM技术用于巡检机器人动态作业环境中的一个主要挑战，就是由于环境改变而造成回环检测的准确率下降。实际巡检机器人作业环境中存在作业人员、其它巡检机器人等动态干扰。回环检测通常采用词袋模型，但是在动态作业环境下，含这些动态干扰的图像区域内的特征点与历史图像已发生了变化。若不考虑图像中的动态区域而在仍然在整幅图像中进行特征提取，会影响图像映射到词袋模型的词袋向量，从而影响回环检测的准确率。

针对动态区域特征点干扰的问题，Berta,Bescos等人在DynaSLAM方法中，使用Mask-RCNN方法分割潜在动态环境区域，然后利用ORB特征建立词袋模型进行回环检测(见“Berta B,Facil J M,Javier C,et al.DynaSLAM:Tracking,Mapping and Inpainting inDynamic Scenes[J].IEEE Robotics&Automation Letters,2018:1-1.”)。但是，单纯通过语义分割去除动态场景特征点的方法，会导致特征点总体数目和种类过少，从而得到的词袋向量有效位数降低而更易受干扰影响，在进行相似度比较时使用阈值判断准确率减少，此外，因为特征点数目的减少影响后续对极几何验证的准确率，从而影响回环检测的准确率。

针对图像分割后去除较多特征点的问题，DynaSLAM的处理方法是在上述行语义分割之后进行图像修复，利用修复图像进行跟踪和回环检测，从而弥补特征点减少的缺点。具体地，该方法通过融合附近20张关键帧图像在待修复区域内的像素值来修复该区域内的像素。但是，待修复区域像素光照强度可能与周围区域不同、有些待修复区域没有出现在其他图像中，这些问题导致采用简单的多帧融合方法将无法高质量地进行图像区域修复。而如果在修复效果较差的区域内提取特征点，将出现与真实背景完全不同的伪特征点，进而影响基于词袋模型的回环检测方法准确率。

此外，Juan Pablo Munoz，Scott Dexter提出了利用目标检测的方法，先检测出动态物体，然后用局部描述符减去设定的检测到的物体属性，来得到新的局部描述子，将新的局部描述符加入到词袋模型进行回环检测(见“Improving Place Recognition UsingDynamic Object Detection”)。但是，这样修改的局部描述子不能完全反应真实静态场景的局部描述子。

经专利检索查新，吉长江申请了中国发明专利，申请号为201910913318.1，名称为“一种基于动态场景的RGB-D SLAM方法和系统”。该专利公开的方法是在语义分割后用提取掩膜区域对应物体的轮廓，用canny边缘算子对待识别物的掩模图像进行修复，所采用的修复方法与本发明不同。潘树国申请了中国发明专利，申请号为201910270280.0，名称为“一种基于图像语义分割的动态场景视觉定位方法”，该专利公开的方法是用语义分割来去除动态区域的特征点，没有涉及本专利中的图像修复内容。目前，国内外专利尚无将基于深度学习的图像修复网络加入到回环检测中来提升回环检测的性能。

发明内容

为了解决以上问题，本发明提供动态场景下基于语义分割与图像修复的视觉回环检测方法，本发明可用于在动态作业环境下视觉SLAM中的回环检测，用于解决由于场景中存在作业人员、车辆、巡检机器人等动态目标而导致特征匹配错误以及由于对动态区域分割导致特征点过少而无法正确检测回环的情况，为达此目的，本发明动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，包括以下步骤：

步骤1，在历史数据库图像中离线预训练ORB特征的词典树；

步骤2，获取当前RGB图像作为当前帧，利用预训练的DANet网络对当前图像进行语义分割，分割出动态区域，用掩膜将当前图像的动态区域进行覆盖；

步骤3，利用预训练的图像修复网络对已经进行掩膜覆盖的图像进行图像修复，修复图像中的掩膜区域，使掩膜区域恢复出正确的静态场景图像；

步骤4，将所有历史数据库图像作为关键帧，用当前帧图像与所有关键帧图像逐一进行回环检测判断，即分别提取两帧图像的ORB特征，将提取特征映射到步骤1建立的词典树，得到两帧图像的词袋向量；

步骤5，根据两帧图像词袋向量的相似度以及对极几何验证进行闭环判断；

步骤6，若历史数据库中存在图像于当前图像判定构成闭环，输出对应闭环图像ID，否则，输出ID为空，将修复后的当前帧图像加入到历史数据库中，并给其赋予在历史数据库新的ID。

作为本发明进一步改进，步骤1中获取预训练的词袋模型中，词袋模型预训练过程为：首先对得到所有类型的ORB特征描述子，先对所有特征描述子使用K-means++算法聚类，将描述子空间划分成为k类，然后将每个聚类中心作为词典树的节点。然后在划分的每个子空间中，继续利用K-means++算法进行聚类，重复上述操作，直至将描述子生成为层数为L的词典树结构。

作为本发明进一步改进，步骤2中所述的DANet语义分割网络，使用ResNet101作为基础的骨干网络，同时将ResNet的降采样层替换为空洞卷积层。然后将ResNet输出特征分别输入到两个自注意模块：位置注意力模块和通道注意力模块，融合两个模块的输出接入到一个卷积层，得到语义分割结果。

作为本发明进一步改进，步骤3中所述的图像修复网络进行图像修复方法，该图像修复网络可以对任意形状的掩膜进行修复，图像修复网络由粗修复和细修复和一个SN-PatchGAN鉴别器网络构成。在利用粗修复、细修复和SN-PatchGAN网络对训练集数据训练后，将待修复图像和掩膜图像输入到粗修复和细修复网络，得到修复后的图像。

作为本发明进一步改进，步骤4中所述得到词袋向量的过程，提取两帧图像的ORB特征点，通过将ORB特征描述子映射到预训练的词袋树中得到词袋向量。

作为本发明进一步改进，步骤5中所述相似度计算，在得到两帧图像的词袋向量v和v'后，利用L1范数计算相似度。

作为本发明进一步改进，步骤5中选取一定阈值作为相似度判断的阈值，当相似度高于该阈值时进行对极几何判断。

作为本发明进一步改进，步骤6中当判断构成闭环时，输出检测到回环的图像在历史数据库的ID号，当判断不构成闭环时，输出ID为空，将修复后的当前帧图像加入历史数据库中，并将历史数据库中新的ID号分配给当前帧图像。

与现有的技术相比，本发明提供的技术方案具有以下有益效果：

1.针对动态物体较多的场景，该方法能正确分割出图像中属于动态场景的区域，防止在提取图像的ORB特征时提取到动态区域的特征点，提升图像词袋向量的可靠性，防止因为动态区域特征点匹配导致回环检测时误匹配。

2.针对因语义分割后图像特征点过少，以及单纯用关键帧对应位置像素加权的方式修补图像，导致修补区域提取错误的特征点问题，使用的图像修复网络能较好的恢复出图像正确的静态场景，从而在图像中获取足够数目正确特征点来检测是否构成闭环。

附图说明

图1为该方法的流程图；

图2为图像修复网络训练过程；

图3为输入图像与语义分割后效果图；

图4为图像修复效果图；

图5为对修复图像提取ORB特征效果图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供动态场景下基于语义分割与图像修复的视觉回环检测方法，本发明可用于在动态作业环境下视觉SLAM中的回环检测，用于解决由于场景中存在作业人员、车辆、巡检机器人等动态目标而导致特征匹配错误以及由于对动态区域分割导致特征点过少而无法正确检测回环的情况。

如图1所示，为本发明的系统流程图，本发明所采用的基于语义分割和图像修复的回环检测方法包括六个主要步骤，1：得到预训练ORB特征的离线词典；2：获取当前帧图像，用DANet网络进行语义分割，并用掩膜覆盖动态区域；3：利用图像修复网络修复掩膜覆盖区域；4：利用ORB特征和词袋模型得到当前图像与历史数据库图像的词袋向量；5：根据词袋向量相似性和对极几何判断是否构成闭环；6：根据是否存在闭环进行输出对应结果并进行历史数据库图像更新。

本发明所提出的方法，具体实施步骤如下：

步骤1：得到预训练ORB特征的离线词典。

在获取全部ORB特征后，在预训练的词袋树模型中，设置训练的词袋树模型的节点数为10，深度为5。

步骤2：用DANet网络进行语义分割，并用掩膜覆盖动态区域。

在DANet进行语义分割时，使用训练好的ResNet101网路模型。定义作业人员、车辆、巡检机器人语义区域为动态区域，利用掩膜对上述动态区域像素进行覆盖，得到掩膜覆盖后的图像和掩膜图像。

步骤3，利用图像修复网络修复掩膜覆盖区域。

首先在Places205场景数据集上对该网络进行预训练，将步骤2得到的掩膜覆盖后的图像和掩膜图像输入训练好的图像修复网络,得到修复后的图像。

图像修复网络在训练时输入为待修复图像、掩膜图像和引导图像，其中，引导图像由HED方法提取原图像在掩膜区域的轮廓生成。该网络由粗修复、细修复以及SN-PatchGAN鉴别器网络组成，粗修复和细修复均为编码器加解码器形式的网络，SN-PatchGAN网络为卷积网络由卷积网络构成，用于判断修复结果与真实图像的一致性，网络的损失函数为修复图像与原图像像素差值的L1范数与SN-PatchGAN模块损失函数之和。

此外，在细修复和粗修复部分，该网络使用门控卷积代替传统的卷积网络，此方法能通过学习的方式来动态选择有效特征，这能有效解决图像修复问题中存在大量无效像素的问题。

门控卷积方式为：

Gating_y,x＝∑∑W_g·I

Feature_y,x＝∑∑W_f·I

O_y,x＝φ(Feature_y,x)·σ(Gating_y,x)

W_g和W_f均为卷积核，I为输入图像像素值，σ和φ分别为sigmod函数和激活函数，通过σ(Gating_y,x)函数值可以动态选择特征输出。

步骤4，提取当前图像和数据库图像的ORB特征，并获得其在词袋模型中的词袋向量。

对当前图像I和所需判断闭环检测的目标图像I'分别提取ORB特征点集合P，P'和特征描述子P，P'，分别将I和I'的描述子集合映射到步骤1中建立好的词袋树模型中，得到I和I'的词袋向量v和v'。

步骤5，根据词袋向量相似性和对极几何判断是否构成闭环并进行历史数据库图像更新。

根据步骤4得到的词袋向量v和v'，可以计算图像I和I'的相似度：

设置阈值为r＝0.9，当相似度小于阈值时，认为不构成闭环；当相似度大于阈值时，利用步骤4得到的ORB特征点，使用对I和I'中的特征点P和P'进行匹配得到特征点对，利用匹配的特征点对，估计相机的基础矩阵F，然后利用对极几何约束来剔除错误的闭环。

步骤6，根据是否存在闭环进行输出对应结果并进行历史数据库图像更新。

当判断构成闭环时，输出检测到回环的图像在历史数据库的ID，当判断不构成闭环时，输出ID为空，将修复后的当前帧图像加入历史数据库中，并将历史数据库中新的ID号分配给当前帧图像。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，包括以下步骤：

步骤1，在历史数据库图像中离线预训练ORB特征的词典树；

2.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤1中获取预训练的词袋模型中，词袋模型预训练过程为：首先对得到所有类型的ORB特征描述子，先对所有特征描述子使用K-means++算法聚类，将描述子空间划分成为k类，然后将每个聚类中心作为词典树的节点。然后在划分的每个子空间中，继续利用K-means++算法进行聚类，重复上述操作，直至将描述子生成为层数为L的词典树结构。

3.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤2中所述的DANet语义分割网络，使用ResNet101作为基础的骨干网络，同时将ResNet的降采样层替换为空洞卷积层。然后将ResNet输出特征分别输入到两个自注意模块：位置注意力模块和通道注意力模块，融合两个模块的输出接入到一个卷积层，得到语义分割结果。

4.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤3中所述的图像修复网络进行图像修复方法，该图像修复网络可以对任意形状的掩膜进行修复，图像修复网络由粗修复和细修复和一个SN-PatchGAN鉴别器网络构成。在利用粗修复、细修复和SN-PatchGAN网络对训练集数据训练后，将待修复图像和掩膜图像输入到粗修复和细修复网络，得到修复后的图像。

5.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤4中所述得到词袋向量的过程，提取两帧图像的ORB特征点，通过将ORB特征描述子映射到预训练的词袋树中得到词袋向量。

6.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤5中所述相似度计算，在得到两帧图像的词袋向量v和v'后，利用L1范数计算相似度。

7.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤5中选取一定阈值作为相似度判断的阈值，当相似度高于该阈值时进行对极几何判断。

8.根据权利要求1所述的动态场景下基于语义分割与图像修复的视觉回环检测方法，其特征在于，步骤6中当判断构成闭环时，输出检测到回环的图像在历史数据库的ID号，当判断不构成闭环时，输出ID为空，将修复后的当前帧图像加入历史数据库中，并将历史数据库中新的ID号分配给当前帧图像。