CN112465858A

CN112465858A - 基于概率网格滤波的语义视觉slam方法

Info

Publication number: CN112465858A
Application number: CN202011454498.0A
Authority: CN
Inventors: 李迅; 王重九; 张彦铎; 周覃; 崔恒; 尹建南
Original assignee: Wuhan Institute of Technology
Current assignee: Wuhan Institute of Technology
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-09

Abstract

本发明公开了一种基于概率网格滤波的语义视觉SLAM方法，包括步骤：使用摄像机传感器依次采集场景的RGB图像，并对采集的图像进行ORB特征点提取、超点分割和语义分割；创建并初始化概率网格；计算特征点在上下帧间的匹配信息，并使用匹配信息将上帧中网格概率传播到相应下帧概率网格中，完成概率网格更新；对其匹配点进行运动一致性检查，更新概率网格的运动状态；根据更新后的概率网格，使用贝叶斯概率公式更新当前概率网格的属性，并创建动态区域的掩膜；根据提取的ORB特征点，使用动态区域的掩膜进行滤波，删除概率较高的动态特征点；将保留的特征点用于跟踪、局部建图和回环检测，最终实现概率网格增强语义视觉SLAM。

Description

基于概率网格滤波的语义视觉SLAM方法

技术领域

本发明涉及机器人领域，尤其涉及一种基于概率网格滤波的语义视觉 SLAM方法。

背景技术

视觉同时定位和建图(SLAM)是机器人技术领域的关键技术之一。场景静态的假设在SLAM算法中很典型。如此强烈的假设限制了大多数视觉SLAM 系统在人口稠密的实际环境中的使用。近来，针对动态场景的语义视觉SLAM 系统逐渐吸引了越来越多的关注。现有的动态环境语义视觉SLAM系统通常仅简单地将语义信息和运动检查结合起来以获得动态目标轮廓，将动态目标轮廓内的特征点全部去除，仅使用静态特征点计算相机位姿提高定位精度。具体做法是：当将运动检测算法检测到动态特征点并且该特征点在动态物体语义轮廓内时，整个语义轮廓将被视为一个在运动整体，而将其中特征点全部去除。

然而，在人口密集的环境中，人可能坐下只是在谈话，或部分在运动而不是整体，实际上运动部分不过是部分关节运动，上述方法将会去除整个语义轮廓。另一方面，运动一致性检测算法在不稳定时，会造成大量误检动态特征点，导致可用静态特征点过少而使跟踪线程失败。

发明内容

本发明针对动态场景下传统视觉SLAM系统易受到动态目标干扰问题，提供一种基于概率网格滤波的语义视觉SLAM方法，改善SLAM在动态场景的鲁棒性，提高定位精度。

本发明解决其技术问题所采用的技术方案是：

提供一种基于概率网格滤波的语义视觉SLAM方法，包括以下步骤：

步骤1、使用摄像机传感器依次采集场景的RGB图像，并对采集的图像进行ORB特征点提取、超点分割和语义分割；

步骤2、根据超点分割和语义分割结果，创建并初始化概率网格；

步骤3、根据提取的ORB特征点，计算特征点在上下帧间的匹配信息，并使用匹配信息将上帧中网格概率传播到相应下帧概率网格中，完成概率网格更新；

步骤4、根据上下帧间特征点匹配信息，对其匹配点进行运动一致性检查，更新概率网格的运动状态；

步骤5、根据更新后的概率网格，使用贝叶斯概率公式更新当前概率网格的属性，并创建动态区域的掩膜；

步骤6、根据提取的ORB特征点，使用动态区域的掩膜进行滤波，删除概率较高的动态特征点；

步骤7、将步骤6中保留的特征点用于跟踪、局部建图和回环检测，最终实现概率网格增强语义视觉SLAM。

接上述技术方案，步骤1中，摄像机采集640x480分辨率的图像，对RGB 图像数据均匀提取ORB特征点，其中ORB特征点的提取是基于图像金字塔的, 在不同尺度的图像上面提取“Oriented FAST”关键点和BRIEF描述子,该关键点为增加了方向的FAST关键点；同时将RGB图像使用超点分割技术将图片细分成网格，并使用Mask-rcnn网络进行语义分割，其中使用超点分割技术分割图像时，将所有目标进行细分，将图像分割成28x28的网格；同时使用Mask-rcnn网络进行语义分割，Mask-rcnn网络在TensorFlow框架中实现，并在COCO数据集上进行训练。

接上述技术方案，步骤2中，每个概率网格有6种属性：中心点坐标、网格id、运动状态、概率、语义信息、更新状态；通过语义分割的结果初始化概率网格中的概率、语义信息。

接上述技术方案，步骤3具体如下：

在每一个相邻帧间，将上一帧中由步骤1所提取的ORB特征点通过金字塔-光流追踪算法匹配到当前帧，并根据匹配结果将上帧的格子概率传播到当前帧，传播方法如下：遍历上一步中跟踪到的所有匹配的特征点对，如果特征点对中的下一帧的特征点在下一帧某一超点网格内，并且该网格状态没有更新，则将上一帧中配对的特征点在上一帧某一超点网格的概率传播到网格状态没有更新的网格内，传播后网格概率标记为已更新。

接上述技术方案，步骤4具体包括步骤：

根据语义分割的结果将特征点标记为潜力运动点和无潜力运动点，并将标记为潜力运动点的特征点对全部去除，通过无潜力运动点计算基础矩阵F，再对极线约束对图像上的真实运动特征点和静态特征点进行二次判断，具体由上一帧的特征点的极线与下一帧对应的特征点的距离来判断，如果距离小于预设的阈值D，该特征点被判定为静态点，否则为动态点；如果该特征点在某一网格内被标记为动态，则将该概率网格中的运动状态属性标记为动态。

接上述技术方案，步骤5具体包括以下步骤：

运动一致性检查中将会标记特征点的运动情况，动态点所在的超点网格将会增加一个概率值，如下公式：

而静态点所在的超点网格将会减少一个概率值，如下公式：

其中P(D_next)代表下一帧中网格更新后的概率，P(D_prev)其代表下一帧中网格更新前的概率；

得到整个图像的超点网格概率值，将概率值超过50％的网格生成动态区域掩膜即像素值为1，而概率低于50％的网格生成静态区域掩膜即像素值为0。

接上述技术方案，步骤6具体包括以下步骤：

遍历所有提取的特征点，如果特征点坐标在掩膜范围内且坐标值等于1，则该点将被视为动态点去除，其他点均不变。

接上述技术方案，步骤7具体为：保留的特征点进入跟踪线程进行跟踪，局部地图构建并确定关键帧，确定关键帧后，在局部建图线程中插入关键帧，进行局部捆绑调整，并剔除冗余的地图点和关键帧，在回环检测线程中，进行闭环检测，计算SE3和闭环优化，并进行全局捆绑调整和更新地图，最后实现基于概率网格滤波的语义视觉SLAM。

本发明还提供一种基于概率网格滤波的语义视觉SLAM系统法，包括：

采集模块，用于使用摄像机传感器依次采集场景的RGB图像，并对采集的图像进行ORB特征点提取、超点分割和语义分割；

网格创建模块，用于根据超点分割和语义分割结果，创建并初始化概率网格；

匹配模块，用于根据提取的ORB特征点，计算特征点在上下帧间的匹配信息，并使用匹配信息将上帧中网格概率传播到相应下帧概率网格中，完成概率网格更新；

网格更新模块，用于根据上下帧间特征点匹配信息，对其匹配点进行运动一致性检查，更新概率网格的运动状态；

动态区域创建模块，用于根据更新后的概率网格，使用贝叶斯概率公式更新当前概率网格的属性，并创建动态区域的掩膜；

滤波模块，用于根据提取的ORB特征点，使用动态区域的掩膜进行滤波，删除概率较高的动态特征点，将保留的特征点用于跟踪、局部建图和回环检测，最终实现概率网格增强语义视觉SLAM。

本发明还提供一种存储介质，其特征在于，其可被处理器执行，其内存储有计算机程序，该计算机程序执行权利接上述技术方案所述的基于概率网格滤波的语义视觉SLAM方法。

本发明产生的有益效果是：本发明基于概率网格滤波的语义视觉SLAM方法利用语义分割中的先验信息，结合运动检测和超点分割细节，检测对象更可靠的动态特性，以生成准确的运动区域掩膜，减少动态对象在动态环境中对相机位姿估计的影响，使得系统在动态环境下的定位更加精确。

进一步地，本发明可准确去除运动关节区域特征点，而不是整体去除，并将历史帧中图像信息利用起来，而不是只使用单个相邻帧信息直接断言一个运动区域。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例基于概率网格滤波的语义视觉SLAM方法的流程图；

图2是本发明另一实施例基于概率网格滤波的语义视觉SLAM方法的流程图；

图3(a)是上一个相邻帧间的运动一致性检查结果，其中原点代表运动特征点；

图3(b)是下一个相邻帧间的运动一致性检查结果；

图3(c)是传统动态环境SLAM算法去除动态目标轮廓的方法；

图3(d)是本专利动态环境SLAM算法去除动态目标轮廓的方法；

图4是本发明实施例基于概率网格滤波的语义视觉SLAM系统的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明基于概率网格滤波的语义视觉SLAM方法包括以下步骤：

S1、使用摄像机传感器依次采集场景的RGB图像，并对采集的图像进行 ORB特征点提取、超点分割和语义分割；

S2、针对S1中超点分割和语义分割结果，创建并初始化概率网格；

S3、针对S1中提取的ORB特征点，计算特征点在上下帧间的匹配信息，并使用匹配信息将上帧中网格概率传播到相应下帧概率网格中。

S4、针对S3中得到的上下帧间特征点匹配信息，对其匹配点进行运动一致性检查，更新概率网格的运动状态。

S5、针对S3中更新后的概率网格结果，使用贝叶斯概率公式更新当前概率网格的属性。并创建动态区域的掩膜。

S6、针对S1中提取的ORB特征点结果，使用S5中的动态区域掩膜结果进行滤波，删除概率较高的动态特征点。

S7、针对S6中保留的特征点用于跟踪、局部建图和回环检测，最终实现概率网格增强语义视觉SLAM。

进一步地，在S1中，摄像机采集640x480分辨率的图像，对RGB图像数据均匀提取ORB特征点，其中ORB特征点的提取是基于图像金字塔的,在不同尺度的图像上面提取“Oriented FAST”关键点(增加了方向的FAST关键点) 和BRIEF描述子,以此来实现尺度和方向的不变性。同时将RGB图像使用超点分割技术将图片细分成网格，并使用Mask-rcnn实例分割网络进行语义分割。其中：使用超点分割技术(SLIC超像素分割)分割图像时，它不会将目标单独分割出来，而是将所有目标进行细分，将图像过度分割成28x28的网格；同时使用Mask-rcnn网络进行语义分割，Mask-rcnn网络在TensorFlow框架中实现，并在COCO数据集上进行了训练，获得了80多个分类效果(暂时将人、狗、猫、车、动物等类标记为高潜力运动语义类)。

在S2中，根据超点分割和语义分割结果，可以得到初始化后的网格。其中，超点分割可以得到图像中大小为28x28的多个超像素网格，每个网格被定义有6种属性：中心点坐标、网格id、运动状态、概率、语义信息、更新状态等。语义分割的结果会初始化网格中概率、语义信息，其中，通过语义先验信息，将网格概率初始化(遵循人、动物等具有较高的运动潜力，建筑物没有运动潜力，即人、车、动物等类别概率初始化为0.2，而建筑等概率初始化为0)。

在S3中，根据提取的ORB特征点和语义分割的结果，通过特征点在上下帧间的匹配信息，传播、更新概率网格中的概率，方法如下：

在每一个相邻帧间，将上一帧中由S1中所提取的ORB特征点通过金字塔 -光流追踪算法匹配到当前帧，并根据匹配结果将上帧的格子概率传播到当前帧，传播方法如下：遍历上一步中跟踪到的所有匹配的特征点对，如果特征点对中的下一帧的特征点在下一帧某一超点网格内，并且该网格状态没有更新，则将上一帧中配对的的特征点在上一帧某一超点网格的概率传播到该状态没有更新的网格内，传播后网格概率标记为已更新。

在S4中，针对S3中得到的上下帧间特征点匹配信息，匹配的特征点信息一方面被用于传播概率，另一方面也被用于下一帧运动区域的检查，我们使用运动一致性检查算法，具体做法如下：S1中Mask-rcnn网络语义分割的结果将特征点标记为潜力运动点和无潜力运动点，将本步骤中特征点对进行筛选，将标记为潜力运动点的特征点对全部去除，通过无潜力运动点计算基础矩阵F，得到基础矩阵F之后，再根据对极线约束对图像上的真实运动特征点和静态特征点进行二次判断，结果由上一帧的特征点的极线与下一帧对应的特征点的距离来判断，距离是一个阈值D，如果该距离小于D，这该特征点被判定为静态点，否则为动态点。如果该特征点在某一网格内被标记为动态，则将该概率网格中的运动状态属性标记为动态。

在S5中，使用S4中的运动一致性检查算法的结果将下一帧中格子的概率更新，具体实现是：运动一致性检查中将会标记特征点的运动情况，动态点所在的超点网格将会增加一个概率值，如下公式：

而静态点所在的超点网格将会减少一个概率值，如下公式：

其中P(D_next)代表下一帧中网格更新后的概率，P(D_prev)其代表下一帧中网格更新前的概率。

得到整个图像的超点网格概率值。将网格中的概率超过百分之50的网格生成动态区域MASK掩膜即像素值为1，而概率低于百分之50的网格生成静态区域掩膜即像素值为0。

在S6中，S6针对S1中提取的ORB特征点结果，使用S5中的动态区域掩膜结果进行滤波，删除高概率动态特征点。具体做法如下：

在S7中，S7中使用S5剩余的静态特征点进入跟踪线程进行跟踪，局部地图构建并确定关键帧，确定关键帧后，在局部建图线程中插入关键帧，剔除冗余的地图点和关键帧，并进行局部捆绑调整，在回环检测线程中，包含计算SE3,闭环检测和闭环优化，全局捆绑调整和建图，最后实现基于概率网格滤波的语义视觉SLAM。

本发明另一实施例基于概率网格滤波的语义视觉SLAM方法，参照图2，具体实现步骤如下：

步骤1，使用摄像机传感器依次采集场景的RGB图像，并对采集的图像进行ORB特征点提取、使用超点分割(SLIC超像素分割)对当前帧进行网格提取，和使用Mask-rcnn网络对图像进行语义分割得到语义轮廓信息图；

步骤2，使用语义轮廓信息图将当前帧中分割提取的网格进行初始化，语义标签为有潜在运动能力的(动物，车辆等)目标的轮廓对应的网格概率将被初始化为0.2，语义标签为无潜在运动能力的(建筑物等)目标的轮廓对应的网格概率将被初始化为0；

步骤3，在摄像机提取的RGB图像某一相邻帧间，上一帧针对步骤1中提取的ORB特征点，使用金字塔-光流追踪算法计算这些特征点在下一帧中的匹配信息，并使用匹配信息将上一帧中网格概率传播到相应下一帧概率网格中。

步骤4，采用运动一致性检查算法对步骤3中得到的上下帧间特征点匹配信息进行筛选，在整体的匹配点对中去除语义信息为有潜在运动能力目标轮廓中的特征点对，使用剩余的特征点对计算相邻帧间的基础矩阵F，使用该基础矩阵计算2帧间的对极几何约束，二次区分真实运动特征点对和静态特征点对，若某特征点对在下一帧的某概率网格中，则更新概率网格的运动状态为动态。

步骤5，针对步骤3中更新后的网格概率和步骤4中运动一致性检查的结果，使用贝叶斯概率公式更新当前概率网格的属性：

动态点所在的超点网格将会增加一个概率值，如下公式：

而静态点所在的超点网格将会减少一个概率值，如下公式：

得到下一帧的网格概率后，使用这些网格创建动态区域的掩膜，其中某概率网格中概率大于50％时，我们规定它为动态的，掩膜像素在该片区域值设为1，否则设为0；

步骤6，最后在下一帧中，针对步骤1中提取的ORB特征点结果，使用步骤5中的动态区域掩膜结果进行滤波，删除概率较高的动态特征点，最后保留概率较低的静态特征点用于跟踪，而步骤1中提取的所有ORB特征点也会被保留用于下一个相邻帧间的概率网格匹配和概率传播。

步骤7，针对步骤6中保留的特征点用于跟踪、局部建图和回环检测，最终实现基于概率网格滤波的语义视觉SLAM。

本发明将传统视觉SLAM技术和结合历史信息的概率网格滤波技术相结合，提出了一种基于概率网格滤波的视觉SLAM新方法，如图3(a)所示是上一个相邻帧间的运动一致性检查结果，其中原点代表运动特征点；图3(b) 所示是下一个相邻帧间的运动一致性检查结果。图3(c)所示是传统动态环境SLAM算法去除动态目标轮廓的方法，图3(d)所示是我们发明的方法，场景中人坐着在交谈，在交谈时只有手臂剧烈晃动和上半身微微晃动，腿部位保持静止，传统办法将整个轮廓全部去除，本方法准确定位手运动范围，将超点网格内的特征点去除。由此可见，本发明能够在动态场景下具有良好动态点去除效果，保留更多的静态特征点用于跟踪，提高SLAM系统定位精度。

本发明还提供一种存储介质，其可被处理器执行，其内存储有计算机程序，该计算机程序执行权利接上述实施例的基于概率网格滤波的语义视觉 SLAM方法。

综上，本发明基于概率网格滤波的语义视觉SLAM方法，它利用语义分割中的先验信息，结合运动检测和超点分割细节，检测对象更可靠的动态特性，以生成准确的运动区域掩膜，减少动态对象在动态环境中对相机位姿估计的影响，使得系统在动态环境下的定位更加精确。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于概率网格滤波的语义视觉SLAM方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于概率网格滤波的语义视觉SLAM方法，其特征在于，步骤1中，摄像机采集640x480分辨率的图像，对RGB图像数据均匀提取ORB特征点，其中ORB特征点的提取是基于图像金字塔的,在不同尺度的图像上面提取“Oriented FAST”关键点和BRIEF描述子,该关键点为增加了方向的FAST关键点；同时将RGB图像使用超点分割技术将图片细分成网格，并使用Mask-rcnn网络进行语义分割，其中使用超点分割技术分割图像时，将所有目标进行细分，将图像分割成28x28的网格；同时使用Mask-rcnn网络进行语义分割，Mask-rcnn在TensorFlow框架中实现，并在COCO数据集上进行训练。

3.根据权利要求1所述的基于概率网格滤波的语义视觉SLAM方法，其特征在于，步骤2中，每个概率网格有6种属性：中心点坐标、网格id、运动状态、概率、语义信息、更新状态；通过语义分割的结果初始化概率网格中的概率、语义信息。

4.根据权利要求1所述的一种基于概率网格滤波的语义视觉SLAM方法，其特征在于，步骤3具体如下：

5.根据权利要求1所述的基于概率网格滤波的语义视觉SLAM方法，其特征在于：步骤4具体包括步骤：

6.根据权利要求1所述的基于概率网格滤波的语义视觉SLAM方法，其特征在于，步骤5具体包括以下步骤：

而静态点所在的超点网格将会减少一个概率值，如下公式：

7.根据权利要求1所述的基于概率网格滤波的语义视觉SLAM方法，其特征在于，步骤6具体包括以下步骤：

8.根据权利要求1所述的基于概率网格滤波的语义视觉SLAM方法，其特征在于，步骤7具体为：保留的特征点进入跟踪线程进行跟踪，局部地图构建并确定关键帧，确定关键帧后，在局部建图线程中插入关键帧，进行局部捆绑调整，并剔除冗余的地图点和关键帧，在回环检测线程中，进行闭环检测，计算SE3和闭环优化，并进行全局捆绑调整和更新地图，最后实现基于概率网格滤波的语义视觉SLAM。

9.一种基于概率网格滤波的语义视觉SLAM系统法，其特征在于，包括：

10.一种存储介质，其特征在于，其可被处理器执行，其内存储有计算机程序，该计算机程序执行权利要求1-8中任一项所述的基于概率网格滤波的语义视觉SLAM方法。