CN112396596A

CN112396596A - 一种基于语义分割及图像特征描述的闭环检测方法

Info

Publication number: CN112396596A
Application number: CN202011365132.6A
Authority: CN
Inventors: 宋海龙; 游林辉; 胡峰; 孙仝; 陈政; 张谨立; 黄达文; 王伟光; 梁铭聪; 黄志就; 何彧; 陈景尚; 谭子毅; 潘嘉琪; 李志鹏; 罗鲜林
Original assignee: Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-02-23

Abstract

本发明涉及一种基于语义分割及图像特征描述的闭环检测方法，采用轻量级语义分割网络分割出图像中的动态场景，重点关注于图像中的静态背景图像，能够较好的解决存在动态物体遮挡的问题。将轻量级卷积神经网络提取的图像全局特征与二进制局部差分描述符LDB进行结合，在闭环检测过程中既能应对存在动态物体遮挡的场景，又能快速获取图像的特征描述，从而得到较高的召回率。

Description

一种基于语义分割及图像特征描述的闭环检测方法

技术领域

本发明涉及无人机自主巡检中基于视觉的定位与导航领域，更具体地，涉及一种基于语义分割及图像特征描述的闭环检测方法。

背景技术

SLAM(simultaneous localization and mapping)技术即同时定位与地图构建起源于1986年的IEEE Robotics and Automation Conference大会。SLAM主要用于移动机器人的自主定位与地图构建，具体为处于未知环境中的移动机器人从某一未知位置开始移动，在移动过程中通过传感器返回的数据对自身位置进行估计，同时建立环境地图。激光雷达与相机是SLAM系统中常用的传感器，单纯依靠相机作为传感器的SLAM系统成为视觉SLAM。近年来，随着计算机视觉处理技术的发展及相机成本的降低，视觉SLAM技术备受关注，在无人驾驶、AR、水下机器人等领域都有着广泛的应用。视觉SLAM系统分为前端视觉里程计、闭环检测、后端优化及地图构建四部分。闭环检测是视觉SLAM系统中的重要一环，指移动机器人在定位过程中通过视觉传感器返回的数据判断是否发生了轨迹闭环，即判断机器人是否回到了曾经访问过的地点。真阳性的闭环对于降低前端定位累计误差及构建一致性环境地图起着重要的作用。

公开号为“CN111553193A”，公开日为2020年4月1日的中国专利申请文件公开了一种基于轻量级深层神经网络的视觉SLAM闭环检测方法，。本方法中图像识别模型采用轻量级深层神经网络，训练方法是利用相似场景的数据集对构架好的网络模型进行图集训练，通过训练优化网络到达一定精度。最终目的是令训练好的神经网络模型能够从训练样本中学习图像样本所对应的概率分布，从而实现对场景特征的提取并得到图像的相似性以达到检测闭环的目的，并为后续SLAM建图优化做准备。本发明在复杂光照下能取得较好的检测效果，可以提升模型实际引用时的速度，此外在较低的计算成本下大幅度提高了算法的准确性。

但是上述的方案中，是基于卷积神经网络提取图像全局特征的闭环检测方法，该方法的特征维数高、因此其准确性确实较高，但其速度较慢且无法获取图像间的几何拓扑关系，而且也难以处理存在动态遮挡的场景。

发明内容

本发明为克服上述现有技术中闭环检测难以处理存在动态遮挡环境的问题，提供一种基于语义分割及图像特征描述的闭环检测方法，采用轻量级语义分割网络分割出图像中的动态场景，将轻量级卷积神经网络提取的图像全局特征与二进制局部差分描述符LDB进行结合，在闭环检测过程中既能应对存在动态物体遮挡的场景，又能快速获取图像的特征描述，从而得到较高的召回率。

为解决上述技术问题，本发明采用的技术方案是：一种基于语义分割及图像特征描述的闭环检测方法，包括以下步骤：

步骤一：通过移动机器人采集的输入图像I_i；当前输入图像I_i采用以轻量级语义分割网络分割出道路中常见的动态物体，对剩余的静态背景图像进行保留；

步骤二：当前输入图像I_i的静态背景图像采用轻量级卷积神经网络提取图像全局特征，将提取的全局特征插入近似最近邻检索算法的分层可通航小世界图中；

步骤三：在当前输入图像I_i的检索范围内，通过HNSW检索与当前输入图像最相似的关键帧作为当前图像的闭环候选图像；

步骤四：引入几何一致性检验，对当前输入图像I_i与闭环候选图像分别提取ORB特征点及对应局部差分二进制描述符LDB，对两幅图像的描述符进行匹配；

步骤五：将两幅图像匹配的描述符输入随机采样一致性算法中进一步消除误匹配并求解基础矩阵，若两幅图像间的内点数小于阈值，则这两幅图像不构成闭环；若两幅图像间的内点数大于阈值，则这两幅图像可能构成闭环；

步骤六：引入时间一致性检验，若当前输入图像I_i之后的连续2帧图像均满足步骤五的阀值条件，则认为该输入图像I_i与闭环候选图像构成一组闭环。

优选的，在所述步骤一中，轻量级语义分割网络的为DeepLabv3网络，且以MobileNetV2为网络骨架；采用采用Pascal数据集作为训练轻量级语义分割网络的训练集。常见的动态物体包括汽车、行人和动物等。

优选的，在所述步骤二中，轻量级卷积神经网络为EfficientNetB0网络，该网络参数量少，运行速度快。其包括移动翻转瓶颈卷积模块，该模块中引入压缩与激发网络(Squeeze and Excitation Network,SENet)的注意力思想，进一步提高运行速度和提高网络准确性；轻量级卷积神经网络采用ImageNet数据集进行预训练，并采用Places365-standard数据集进行微调；对当前输入图像I_i的静态背景图像进行预处理后输入轻量级卷积神经网络，网络全局池化层的输出作为当前输入图像I_i的全局特征f_glo,i。

优选的，所述轻量级卷积神经网络对静态背景图像的操作包括对静态背景图像进行归一化和调整大小。

优选的，在所述步骤三中，通过HNSW检索与当前输入图像最相似的图像作为当前输入图像的闭环候选图像的具体流程为：

从HNSW图结构的最顶层开始搜索距离当前输入图像I_i的全局特征节点f_glo,i最近的节点，存储在最近邻的动态列表中，并将该节点作为下一层搜索的起始点，直至搜索至最底层。在HNSW图结构最底层搜索到的距离全局特征节点f_glo,i最近的特征节点所对应的图像为搜索到的闭环候选图像I_n。

优选的，在所述步骤三中，实际情况下移动机器人返回的图像为连续图像，相邻图像间有较高的相似性，为避免检索到的最相似图像为当前输入图像的相邻图像，造成假阳性闭环，在当前输入图像的检索范围内具体为：

U_sa＝U_before-U_fr×ct

其中，U_sa表示输入图像的检索范围；U_before表示在当前输入图像之前的所有图像的集合；fr为相机的帧率；ct为时间常数；U_fr×ct为在当前输入图像之前的fr×ct帧图像的集合。

优选的，在所述步骤四中，当前输入图像与检索到的闭环候选图像队列提取ORB特征点及对应的局部差分二进制描述符LDB的具体流程为：

对当前输入图像I_i与闭环候选图像I_n提取ORB特征点及LDB描述符的过程相同，对于每个ORB特征点k_ij，以k_ij为中心裁剪大小为S×S的图像块S_ij，将S_ij分割成c×c个大小相等的网格单元

分别计算每个网格单元的平均强度I_avg和梯度d_x、d_y；对于S_ij中的任意两个网格单元

执行二进制测试，得到的二进制编码为与特征点k_ij对应的二进制LDB描述符。

优选的，对于S_ij中的任意两个网格单元

执行二进制测试，具体为：

其中，f(m)、f(n)分别表示网格单元

的平均强度I_avg和梯度d_x、d_y的值；T(f(m),f(n))为二进制数。

优选的，在所述步骤四中，对两幅图像的描述符进行匹配具体为，具体为

采用Hamming距离对输入图像I_i与闭环候选图像I_n的LDB描述符进行匹配，对于输入图像I_i的LDB描述符

在候选图像I_n中寻找与

距离最近的两个描述符

若

与

满足以下条件，则认为

与

是一对符合要求的特征匹配：

其中，

分别表示特征描述子

与

间的Hamming距离，ε_d为距离比例系数，取值通常小于1。

优选的，采用Hamming距离对输入图像I_i与闭环候选图像I_n的LDB描述符进行匹配具体为：

其中，d_i、d_n表示输入图像I_i与闭环候选图像I_n中的LDB描述符；

与

分别表示d_i、d_n描述符的第m位；M表示LDB描述符的总位数。

与现有技术相比，本发明的有益效果是：

1、本发明采用轻量级语义分割网络去除输入图像中的动态物体，重点关注于图像中的静态背景图像，能够较好的解决存在动态物体遮挡的问题。

2、本发明采用分层可通航小世界图在线检索与当前输入图像最近似的图像，无需离线构建视觉词典，能应用于更多场景，泛化能力更强。

3、本发明通过图像间的LDB描述子匹配情况来检验输入图像与闭环候选图像是否构成闭环，在验证的同时能够获取图像间的几何拓扑关系。

附图说明

图1是本发明的一种基于语义分割及图像特征描述的闭环检测方法的流程图；

图2是本发明的卷积神经网络EfficientNetB0的网络结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”“长”“短”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述：

实施例

如图1-2所示为一种基于语义分割及图像特征描述的闭环检测方法的实施例，包括如下步骤：

步骤一：通过移动机器人采集的输入图像I_i；对当前输入图像I_i采用以MobileNetV2为网络骨架的轻量级语义分割网络DeepLabv3分割出道路中常见的动态物体，包括汽车、行人、动物等。以MobileNetV2为网络骨架的轻量级语义分割网络DeepLabv3采用Pascal数据集作为训练集，检测速度快。当前输入图像I_i的剩余静态背景图像被保留用于后续处理。

步骤二：对当前输入图像I_i的静态背景图像进行预处理，调整图像大小为224×224像素以满足轻量级卷积神经网络EfficientnetB0的输入要求。EfficientNetB0网络为谷歌EfficientNets系列模型中的基础网络，参数量少，运行速度快。网络的核心结构为移动翻转瓶颈卷积(mobile inverted bottleneck convolution,MBConv)模块，该模块中引入了压缩与激发网络(Squeeze-and-Excitation Network,SENet)的注意力思想。EfficientNetB0网络首先采用ImageNet数据集进行预训练，随后采用Places365-standard数据集进行微调，网络全局池化层的输出作为当前输入图像I_i提取到的全局图像特征f_glo,i。

步骤三：在当前输入图像I_i的检索范围内，通过HNSW检索与当前输入图像I_i最相似的图像作为当前输入图像的闭环候选图像I_n。实际情况下移动机器人返回的图像为连续图像，相邻图像间有较高的相似性。为避免检索到的最相似图像为当前输入图像I_i的相邻图像，造成假阳性闭环，当前输入图像I_i的检索范围U_sa为：

U_sa＝U_before-U_fr×ct

式中，U_before表示当前输入图像前的所有图像的集合，fr为相机的帧率，ct为时间常数，U_fr×ct为在当前输入图像之前的fr×ct帧图像的集合。

步骤四：引入几何一致性检验，对当前输入图像I_i与闭环候选图像I_n分别提取ORB特征点，对于每个特征点k_ij(j＝1,2,...,H)，以k_ij为中心裁剪出大小为S×S的图像块，将图像块分割为c×c个大小相等的网格单元

分别计算每个网格单元的平均强度I_avg和梯度d_x、d_y。对于特征点k_ij对应的图像块中的任意两个网格单元

执行二进制测试：

式中，f(m)、f(n)分别表示网格单元

的平均强度I_avg和梯度d_x、d_y的值，T(f(m),f(n))为二进制数。对整个图像块的c×c个网格单元执行二进制测试后，得到的一串二进制编码为特征点k_ij对应的二进制LDB描述符。

在获取了当前输入图像I_i与闭环候选图像I_n的ORB特征点及LDB描述符后，采用Hamming距离对图像I_i与I_n的LDB描述符进行匹配。对于图像I_i中的LDB描述符

在候选图像I_n中寻找与

距离最近的两个描述符

若

与

满足以下条件，则认为

与

是一对好的特征匹配并保留：

其中，

分别表示特征描述子

与

间的Hamming距离，ε_d为距离比例系数，取值通常小于1。

采用Hamming距离对输入图像I_i与闭环候选图像I_n的LDB描述符进行匹配具体为：

与

分别表示d_i、d_n描述符的第m位；M表示LDB描述符的总位数。

步骤五：将当前输入图像I_i与闭环候选图像I_n匹配的描述符输入随机采样一致性算法(RANSAC)进一步消除误匹配并求解基础矩阵；若两幅图像间的内点数小于阈值，则这两幅图像不构成闭环；若两幅图像间的内点数不小于于阈值，则这两幅图像可能构成闭环。

步骤六：入时间一致性检验，若当前输入图像I_i之后的连续2帧图像均满足步骤五的阀值条件，则认为当前输入图像与最优闭环候选图像构成一组闭环。

本实例的有益效果：1、本发明采用轻量级语义分割网络去除输入图像中的动态物体，重点关注于图像中的静态背景图像，能够较好的解决存在动态物体遮挡的问题。2、本发明采用分层可通航小世界图在线检索与当前输入图像最近似的图像，无需离线构建视觉词典，能应用于更多场景，泛化能力更强。3、本发明通过图像间的LDB描述子匹配情况来检验输入图像与闭环候选图像是否构成闭环，在验证的同时能够获取图像间的几何拓扑关系。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，在所述步骤一中，轻量级语义分割网络的为DeepLabv3网络，且以MobileNetV2为网络骨架；采用采用Pascal数据集作为训练轻量级语义分割网络的训练集。

3.根据权利要求2所述的一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，在所述步骤二中，轻量级卷积神经网络为EfficientNetB0网络，包括移动翻转瓶颈卷积模块；轻量级卷积神经网络采用ImageNet数据集进行预训练，并采用Places365-standard数据集进行微调；对当前输入图像I_i的静态背景图像进行预处理后输入轻量级卷积神经网络，网络全局池化层的输出作为当前输入图像I_i的全局特征f_glo,i。

4.根据权利要求3所述的一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，所述轻量级卷积神经网络对静态背景图像的操作包括对静态背景图像进行归一化和调整大小。

5.根据权利要3所述的一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，在所述步骤三中，通过HNSW检索与当前输入图像最相似的图像作为当前输入图像的闭环候选图像的具体流程为：

6.根据权利要求1所述的一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，在所述步骤三中，在当前输入图像的检索范围内具体为：

U_sa＝U_before-U_fr×ct

7.根据权利要求1所述的一种基于语义分割及图像特征描述的闭环检测方法，其特征在于，在所述步骤四中，当前输入图像与检索到的闭环候选图像队列提取ORB特征点及对应的局部差分二进制描述符LDB的具体流程为：