CN110827305A

CN110827305A - 面向动态环境的语义分割与视觉slam紧耦合方法

Info

Publication number: CN110827305A
Application number: CN201911045057.2A
Authority: CN
Inventors: 陈龙; 谢玉婷; 张亚琛
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-21
Anticipated expiration: 2039-10-30
Also published as: CN110827305B

Abstract

本发明属于机器人、计算机视觉、人工智能技术领域，更具体地，涉及一种面向动态环境的语义分割与视觉SLAM紧耦合方法。包括：S1.经过语义分割模块输出图像的像素级语义分割结果和深度恢复结果；然后原图像和每个像素点的语义标签以及对应深度图传递给视觉SLAM模块；S2.视觉SLAM模块利用这些信息获知新图像与序列中历史图像的数据关联状况，并将这个信息反馈回语义分割模块；S3.语义分割模块利用历史图像的分割结果及历史图像与新图像帧之间的数据关联状况，优化新图像帧的语义分割结果；S4.优化后的语义分割结果再一次传送回视觉SLAM模块，得到最终精细化的三维重建结果。本发明有效提升了语义分割的效果，从而进一步提高依赖于语义分割结果的SLAM性能。

Description

面向动态环境的语义分割与视觉SLAM紧耦合方法

技术领域

本发明属于机器人、计算机视觉、人工智能技术领域，更具体地，涉及一种面向动态环境的语义分割与视觉SLAM紧耦合方法。

背景技术

Simultaneous Localization and Mapping(SLAM)即同步定位与建图技术，指的是移动机器人在未知环境运动的过程中，构建周围环境的地图模型，同时定位出机器人自身在地图中的位置。SLAM技术是机器人领域的关键技术之一，在无人驾驶、虚拟现实等领域有着广阔应用前景。

在弱纹理、高动态和强光照等困难场景条件下，基于点特征或简单几何特征的传统视觉SLAM方法容易失效。随着机器学习技术的飞速发展，深度学习方法在分类识别等任务的卓越表现引人注目，将深度学习方法引入视觉SLAM方法具有巨大的应用潜能。

发明内容

本发明为克服上述现有技术中对于传统SLAM方法在弱纹理、强光照和高动态的困难场景下易失效的缺陷，提供一种面向动态环境的语义分割与视觉SLAM紧耦合方法，提升语义分割的效果，从而进一步提高依赖于语义分割结果的SLAM性能。

为解决上述技术问题，本发明采用的技术方案是：一种面向动态环境的语义分割与视觉SLAM紧耦合方法，包括以下步骤：

S1.经过语义分割模块输出图像的像素级语义分割结果和深度恢复结果；然后原图像和每个像素点的语义标签以及对应深度图传递给视觉SLAM模块；

S2.视觉SLAM模块利用这些信息获知新图像与序列中历史图像的数据关联状况，并将这个信息反馈回语义分割模块；

S3.语义分割模块利用历史图像的分割结果及历史图像与新图像帧之间的数据关联状况，优化新图像帧的语义分割结果；

S4.优化后的语义分割结果再一次传送回视觉SLAM模块，得到最终精细化的三维重建结果。

本发明通过融合语义分割网络，引入语义标签作为高层级特征，以达到提升SLAM性能的目的；同时，通过SLAM反馈给语义分割结果提供时序上的数据关联，提升语义分割的效果，从而进一步提高依赖于语义分割结果的SLAM性能。

主要包括以下技术：通过深度学习技术实现图像的深度估计和语义分割；融合语义分割结果的视觉SLAM方法；融合三维重建，基于MRF的语义分割结果优化方式；语义分割与视觉SLAM的紧耦合双向反馈机制。其中，通过深度学习技术实现图像的深度估计和语义分割包含：利用卷积神经网络训练提取图像所隐含信息，编码网络后端连接一个解码网络，该网络结构通过训练使得其能输出十分接近深度和语义分割真实值的结果；融合语义分割结果的视觉SLAM方法包含：语义标签辅助的特征点选取方式；基于特征点和语义部件的粗糙位姿估计；移动一致性检查确定动态物体和静态物体；利用静态物体的重投影语义误差进一步精细化位姿估计结果；融合三维重建，基于MRF的语义分割结果优化方式包含：利用SLAM所得到的静态物体在前后帧数据之间的数据关联，使用马尔可夫随机场(MRF)算法最大化能量函数，得到时空一致性分割结果；语义分割与视觉SLAM的紧耦合双向反馈机制的结构如图一所示，语义分割网络提供结果辅助视觉SLAM模块，视觉SLAM得到的时序数据关联结果反馈给语义分割模块，精细化的语义分割结果再一次传递给视觉SLAM模块，从而输出最终三维重建结果。

进一步的，所述的S1步骤中，基于全连接卷积神经网络对图像进行像素级语义分割，并且联合图像的深度恢复网络，使用同一个编码结构，同步估计语义分割结果与深度恢复结果；所述的S1步骤中经过语义分割薄模块输出图像的像素级语义分割结果，其具体包括以下步骤：

S101.利用仿真数据集，用有监督的方式，实现多任务编解码网络结构的训练；

S102.在无真值的真实环境数据集上，把之前训练好的多任务编解码网络结构作为基础结构，利用双目相机左右视图之间的观测视角差异，用无监督的方式微调原网络结构，将其迁移到真实数据集上。

进一步的，对于语义分割与深度恢复的多任务编码网络，使用在ImageNet上训练好的ResNet50结构作为编码器，设计U型结构，用对称的四级联RefineNet结构分别解码得到语义分割结果与深度恢复结果，网络的损失函数为与语义分割真值及深度恢复真值地逐像素点误差。

进一步的，对于利用双目相机左右视图实现地无监督网络结构，对左右视图分别利用多任务编码网络获得其语义分割与深度恢复结果，利用深度恢复结果将左视图语义分割结果投影到右视图的视角，计算对应像素位置的语义分割结果误差，将改误差作为网络的损失函数。

进一步的，视觉SLAM模块第一次进行融合语义分割模块输出结果的流程包括：

S111.基于语义标签辅助选取特征点；利用获得的特征点和语义部件进行首次相机位姿估计；

S112.基于估计出的位姿，利用移动一致性检查确定动态物体和静态物体；

S113.利用静态物体的重投影语义误差进一步精细化位姿估计结果。

进一步的，所述的S111步骤中的选区特征点，首先在图像中检测ORB特征点，再次基于这些特征点对应的语义标签，滤掉不可靠类别的特征点，所述的不可靠类别指的是预先定义的可能为动态的类别和较远处特征不稳定的类别的点。

进一步的，所述的S112步骤中，对于首次相机位姿估计，首先利用上一步筛选出的特征点和静态类别语义部件，用RANSAC算法在同类别语义部件之间找到对应关系并得到对应的位姿解算结果，再基于这个解算结果作为初始值，用联合特征点和语义部件的局部Bundle Adjustment恢复一个较精细的位姿估计结果。

进一步的，所述的S112步骤中，对于用移动一致性分类动静态物体，利用得到的位姿解算结果，检查与整体场景运动趋势不一致的部件，所需检查的部件不仅包括利用到的静态类别部件，指的是场景中所有的部件；而这些运动趋势不一致的部件最终确定为动态部件；反之，与场景运动趋势一致的部件则为静态部件，即使其对应类别为预先定义的可能为动态的类别。

进一步的，所述的S113步骤中，对于用语义误差进一步精细化位姿估计结果，首先将S112步骤判断得知地静态物体所含像素点重投影到历史相机位置，从而将当前图像帧的语义分割结果与历史帧的语义分割结果对比，优化位姿估计，使得当前帧与历史帧语义分割结果的误差最小化。

进一步的，利用视觉SLAM模块输出的位姿解算结果，建立图像序列上的像素点时序上的数据关联关系，用MRF方法最小化能量函数，从而修正当前图像的语义分割结果，保证分割结果的时空一致性；利用修正后的语义分割结果，作为最终的像素点语义标签，配合SLAM模块解算出的位姿结果，及深度恢复结果，生成输出带语义标签的三维重建点云。

与现有技术相比，有益效果是：本发明提供的一种面向动态环境的语义分割与视觉SLAM紧耦合方法，通过紧耦合语义分割与视觉SLAM，双向促进两个任务性能，第一，从语义分割辅助视觉SLAM方向，相比传统的视觉SLAM方法，语义分割结果给SLAM提供了更稳定的特征表达，提升了其应对弱纹理、强光照等困难场景的能力；同时基于语义类别的动静态物体预判断，有助于提升了SLAM算法应对高动态环境的能力；第二，从视觉SLAM提升语义分割效果的方向，视觉SLAM提供的时序数据关联信息，从时空一致性角度改善语义分割结果。相比独立的语义分割模块，该方式能显著降低在困难视角的错误类别判断比例，并精细化分割边缘。并且上述两模块的效果存在相互依赖、相辅相成的关系，通过所设计的紧耦合双向反馈机制，最大化两者之间相互促进的有益影响。

附图说明

图1是本发明整体方法流程图。

图2是本发明双目相机左右视图实现地无监督网络结构示意图。

图3是本发明第一次融合语义分割模块输出结果的视觉SLAM模块流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本发明的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本发明的限制。

实施例1：

如图1所示，一种面向动态环境的语义分割与视觉SLAM紧耦合方法，包括以下步骤：

具体的，所述的S1步骤中，基于全连接卷积神经网络对图像进行像素级语义分割，并且联合图像的深度恢复网络，使用同一个编码结构，同步估计语义分割结果与深度恢复结果。

其中，所述的S1步骤中经过语义分割薄模块输出图像的像素级语义分割结果，其具体包括以下步骤：

在本实施例中，对于语义分割与深度恢复的多任务编码网络，使用在ImageNet上训练好的ResNet50结构作为编码器，设计U型结构，用对称的四级联RefineNet结构分别解码得到语义分割结果与深度恢复结果，网络的损失函数为与语义分割真值及深度恢复真值地逐像素点误差。

如图2所示，对于利用双目相机左右视图实现地无监督网络结构，对左右视图分别利用多任务编码网络获得其语义分割与深度恢复结果，利用深度恢复结果将左视图语义分割结果投影到右视图的视角，计算对应像素位置的语义分割结果误差，将改误差作为网络的损失函数。

如图3所示，视觉SLAM模块第一次进行融合语义分割模块输出结果的流程包括：

其中，所述的S111步骤中的选区特征点，首先在图像中检测ORB特征点，再次基于这些特征点对应的语义标签，滤掉不可靠类别的特征点，所述的不可靠类别指的是预先定义的可能为动态的类别(比如室外道路场景上车、人)和较远处特征不稳定的类别的点(如天空和孔洞)。

其中，所述的S112步骤中，对于首次相机位姿估计，首先利用上一步筛选出的特征点和静态类别语义部件(如室外场景的柱子、交通灯等)，用RANSAC算法在同类别语义部件之间找到对应关系并得到对应的位姿解算结果，再基于这个解算结果作为初始值，用联合特征点和语义部件的局部Bundle Adjustment恢复一个较精细的位姿估计结果。

其中，所述的S112步骤中，对于用移动一致性分类动静态物体，利用得到的位姿解算结果，检查与整体场景运动趋势不一致的部件，所需检查的部件不仅包括利用到的静态类别部件，指的是场景中所有的部件；而这些运动趋势不一致的部件最终确定为动态部件；反之，与场景运动趋势一致的部件则为静态部件，即使其对应类别为预先定义的可能为动态的类别。

其中，所述的S113步骤中，对于用语义误差进一步精细化位姿估计结果，首先将S112步骤判断得知地静态物体所含像素点重投影到历史相机位置，从而将当前图像帧的语义分割结果与历史帧的语义分割结果对比，优化位姿估计，使得当前帧与历史帧语义分割结果的误差最小化。

在本实施例中，利用视觉SLAM模块输出的位姿解算结果，建立图像序列上的像素点时序上的数据关联关系，用MRF方法最小化能量函数，从而修正当前图像的语义分割结果，保证分割结果的时空一致性；利用修正后的语义分割结果，作为最终的像素点语义标签，配合SLAM模块解算出的位姿结果，及深度恢复结果，生成输出带语义标签的三维重建点云。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，所述的S1步骤中，基于全连接卷积神经网络对图像进行像素级语义分割，并且联合图像的深度恢复网络，使用同一个编码结构，同步估计语义分割结果与深度恢复结果；所述的S1步骤中经过语义分割薄模块输出图像的像素级语义分割结果，其具体包括以下步骤：

3.根据权利要求3所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，对于语义分割与深度恢复的多任务编码网络，使用在ImageNet上训练好的ResNet50结构作为编码器，设计U型结构，用对称的四级联RefineNet结构分别解码得到语义分割结果与深度恢复结果，网络的损失函数为与语义分割真值及深度恢复真值地逐像素点误差。

4.根据权利要求3所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，对于利用双目相机左右视图实现地无监督网络结构，对左右视图分别利用多任务编码网络获得其语义分割与深度恢复结果，利用深度恢复结果将左视图语义分割结果投影到右视图的视角，计算对应像素位置的语义分割结果误差，将改误差作为网络的损失函数。

5.根据权利要求3所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，视觉SLAM模块第一次进行融合语义分割模块输出结果的流程包括：

6.根据权利要求5所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，所述的S111步骤中的选区特征点，首先在图像中检测ORB特征点，再次基于这些特征点对应的语义标签，滤掉不可靠类别的特征点，所述的不可靠类别指的是预先定义的可能为动态的类别和较远处特征不稳定的类别的点。

7.根据权利要求5所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，所述的S112步骤中，对于首次相机位姿估计，首先利用上一步筛选出的特征点和静态类别语义部件，用RANSAC算法在同类别语义部件之间找到对应关系并得到对应的位姿解算结果，再基于这个解算结果作为初始值，用联合特征点和语义部件的局部Bundle Adjustment恢复一个较精细的位姿估计结果。

8.根据权利要求5所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，所述的S112步骤中，对于用移动一致性分类动静态物体，利用得到的位姿解算结果，检查与整体场景运动趋势不一致的部件，所需检查的部件不仅包括利用到的静态类别部件，指的是场景中所有的部件；而这些运动趋势不一致的部件最终确定为动态部件；反之，与场景运动趋势一致的部件则为静态部件，即使其对应类别为预先定义的可能为动态的类别。

9.根据权利要求6所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，所述的S113步骤中，对于用语义误差进一步精细化位姿估计结果，首先将S112步骤判断得知地静态物体所含像素点重投影到历史相机位置，从而将当前图像帧的语义分割结果与历史帧的语义分割结果对比，优化位姿估计，使得当前帧与历史帧语义分割结果的误差最小化。

10.根据权利要求1至9任一项所述的面向动态环境的语义分割与视觉SLAM紧耦合方法，其特征在于，利用视觉SLAM模块输出的位姿解算结果，建立图像序列上的像素点时序上的数据关联关系，用MRF方法最小化能量函数，从而修正当前图像的语义分割结果，保证分割结果的时空一致性；利用修正后的语义分割结果，作为最终的像素点语义标签，配合SLAM模块解算出的位姿结果，及深度恢复结果，生成输出带语义标签的三维重建点云。