CN113570713A

CN113570713A - 一种面向动态环境的语义地图构建方法及装置

Info

Publication number: CN113570713A
Application number: CN202110758299.7A
Authority: CN
Inventors: 许海涛; 杨春; 林福宏; 周贤伟
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-10-29
Anticipated expiration: 2041-07-05
Also published as: CN113570713B

Abstract

本发明公开了一种面向动态环境的语义地图构建方法及装置，该方法包括：在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，根据语义分割结果得到初始基础矩阵；根据初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法进行动态特征点检测，搜索出所有动态特征点；将动态特征点剔除，利用剩余静态特征点构建语义地图。本发明可完整的去除动态目标对构建全局一致的地图的影响，从而能够有效地构建全局一致性地图。

Description

一种面向动态环境的语义地图构建方法及装置

技术领域

本发明涉及视觉同时定位与地图构建(VSLAM)技术领域，特别涉及一种面向动态环境的语义地图构建方法及装置。

背景技术

机器人技术的发展代表了当今世界高新技术的前进方向，近年来，服务型机器人也越来越多地进入到人们的日常生活中，随着传感器技术和人工智能技术的不断发展，人们对机器人的自主性能和智能化程度提出了更高的要求。

同步定位与地图构建技术(SLAM,Simultaneous Localization and Mapping)，是目前解决机器人定位与地图构建问题的关键技术，SLAM是指搭载特定传感器的主体，在没有环境先验信息的情况下，于运动过程中建立环境的模型，同时估计自身运动的技术。由于视觉SLAM具有结构简单、价格较低、能够提取环境中大量属性信息等优点，因此成为目前机器人技术研究领域的重点与热点，是目前SLAM的主流研究方向，其中RGB-D相机不仅可以确定图像的深度，而且可以节省计算资源，因此常被用于室内地图构建的场景中。但是传统的视觉SLAM构建的地图无法满足机器人与环境交互的高级语义任务需求，语义地图的出现很好地解决了这个问题。

在典型的基于VSLAM构建语义地图的方法中，场景处于静态是实现语义地图精确构建的一个重要条件。但是这个条件限制了VSLAM在动态真实环境中的使用，而机器人面对的真实环境正是动态多变的。因此，研究如何去除场景中运动的目标从而有效准确的构建一个全局一致的地图具有重要意义。同时，应保证动态环境下构建语义地图的实时性与鲁棒性。

发明内容

本发明提供了一种面向动态环境的语义地图构建方法及装置，以解决现有技术存在的准确率较低与实时性较差的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供了一种面向动态环境的语义地图构建方法，包括：

在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据所述图像数据的语义分割结果得到初始基础矩阵；

根据所述初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法对所述图像数据进行动态特征点检测，搜索出所有动态特征点；

将所述动态特征点剔除，并利用剩余的静态特征点构建语义地图。

进一步地，所述在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据所述图像数据的语义分割结果得到初始基础矩阵，包括：

在视觉前端进行位姿估计前，利用SegNet深度学习网络对深度相机传输的图像数据进行语义分割，得到潜在动态目标特征点；

将所述潜在动态目标特征点剔除，利用剩余特征点求解基础矩阵；

得到所述基础矩阵后，利用极限约束模型检测出是否存在匹配错误的问题，如果存在匹配错误的问题，则将错误匹配的特征点去除，得到初始基础矩阵。

进一步地，所述利用极限约束模型检测出是否存在匹配错误的问题，包括：

如果参考帧中的特征点x₁与当前帧中的匹配点x₂是正确的匹配点对，则x₂应当位于x₁在当前帧中对应的极线l上，数学模型描述如下：

其中，F表示所述基础矩阵；

通过上式得到每对匹配点的极线约束误差，同时设置阈值；

如果当前匹配点对的极线约束误差小于所述阈值，则认为在两帧图片中的特征点是正确匹配的；反之，则认为两个特征点是错误匹配的。

进一步地，所述根据所述初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法对所述图像数据进行动态特征点检测，搜索出所有动态特征点，包括：

根据所述初始基础矩阵初始化相机位姿；

利用重投影误差判断当前特征点是否是动态特征点；

根据动态特征点搜索优化算法搜索所有动态特征点。

进一步地，所述根据动态特征点搜索优化算法搜索所有动态特征点，包括：

根据特征点在图像帧中的分布密度确定一条搜索路径；

从点x₀进行动态特征点搜索，依次移动到下一个点x_i，直到移动到所述搜索路径的终点；当每搜索到一个特征点x_i时，都以x_i为原点，在以预设值为半径的圆内搜索是否存在动态特征点；当在圆内找到动态特征点时，利用凸包计算离散点的几何形状，并以几何边缘为边界向外扩展搜索带宽；只要在动态特征点后的搜索带宽内发现一个新的动态特征点，就继续向外扩展搜索带宽，直到在扩展区域内没有新的动态特征点为止；之后返回到所述搜索路径并移动到下一个x_i+1点，在新的区域中搜索动态特征点，直到搜索到所述搜索路径的终点为止。

进一步地，将动态特征点剔除并利用剩余的静态特征点构建语义地图包括：

将所述动态特征点剔除，并利用剩余的静态特征点完成相机的位姿估计，同时根据重投影误差目标函数进行相机的位姿优化，得到优化的相机位姿；

基于优化的相机位姿，构建语义地图。

进一步地，所述重投影误差目标函数为：

其中，ξ表示相机位姿的李代数形式，u_i表示第i个特征点的真实匹配坐标，X_i表示特征点对应空间点坐标，K表示相机的内参数矩阵，exp(ξ^Λ)表示相机的外参数矩阵，s_i表示尺度因子，||.||₂表示L2范数，n表示特征点个数。

进一步地，所述基于优化的相机位姿，构建语义地图，包括：

基于优化的相机位姿，采用基于八叉树的地图构建算法构建语义地图。

进一步地，语义地图的语义信息通过语义分割图像中的像素语义标签添加。

另一方面，本发明还提供了一种面向动态环境的语义地图构建装置，包括：

语义分割模块，用于在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据所述图像数据的语义分割结果得到初始基础矩阵；

基于几何的动态特征点检测模块，用于根据所述语义分割模块得到的初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法对所述图像数据进行动态特征点检测，搜索出所有动态特征点；

地图构建模块，用于将所述基于几何的动态特征点检测模块检测到的动态特征点剔除，并利用剩余的静态特征点构建语义地图。

再一方面，本发明还提供了一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明的语义地图构建方法通过在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据语义分割结果得到初始基础矩阵；根据初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法进行动态特征点检测，搜索出所有动态特征点；将动态特征点剔除，并利用剩余的静态特征点构建语义地图。从而可以完整的去除动态目标对构建全局一致的地图的影响，进而能够有效地构建全局一致性地图，并可以有效提高系统的实时性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明第一实施例提供的面向动态环境的语义地图构建方法的执行流程示意图；

图2是本发明第二实施例提供的面向动态环境的语义地图构建方法的执行流程示意图；

图3是本发明第二实施例提供的极限约束模型示意图；

图4是本发明第二实施例提供的动态特征点搜索优化算法示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

针对语义地图构建过程中存在动态目标干扰、无法构建准确一致地图的问题，本实施例提供了一种面向动态环境的语义地图构建方法，该方法可以由电子设备实现。该面向动态环境的语义地图构建方法包括以下步骤：

S1，在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据所述图像数据的语义分割结果得到初始基础矩阵；

S2，根据所述初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法对所述图像数据进行动态特征点检测，搜索出所有动态特征点；

S3，将所述动态特征点剔除，并利用剩余的静态特征点构建语义地图。

综上，本实施例通过在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据语义分割结果得到初始基础矩阵；根据初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法进行动态特征点检测，搜索出所有动态特征点；将动态特征点剔除，并利用剩余的静态特征点构建语义地图。从而可以完整的去除动态目标对构建全局一致的地图的影响，进而能够有效地构建全局一致性地图，并可以有效提高系统的实时性。

第二实施例

针对语义地图构建过程中存在动态目标干扰、无法构建准确一致地图的问题，本实施例提供了一种面向动态环境的语义地图构建方法，如图2所示，本实施例的方法基于ORB-SLAM2算法框架构建，在ORB-SLAM2的前端基础上增加了语义分割和动态特征点检测线程，以完成动态特征的去除以及语义地图的构建。其中，基于几何的动态特征点检测线程嵌入原前端线程，语义分割则工作在独立的线程中，接受深度相机传输的图像数据进行处理。

本实施例的方法在ORB-SLAM2算法框架的基础上采用语义分割和几何组合方法，采用语义分割和几何组合方法提取动态对象，并引入改进的动态特征点搜索优化算法，并生成基于八叉树的语义地图，提高了系统的精度与速度。

本实施例方法的工作流程为：在视觉前端进行位姿估计前，首先进行图像的语义分割识别图像中的潜在运动物体区域，与此同时基于稀疏光流法对图像进行动态点检测，同时根据动态特征点搜索优化算法搜索所有动态特征点。将二者信息结合，确定图像中运动物体所处区域，剔除其上特征点以获得正确的位姿估计，构建面向动态环境下的基于八叉树的语义地图。

具体地，本实施例的面向动态环境的语义地图构建方法的实现过程如下：

1)RGB-D图像获取

具体的，本实施例通过深度相机(例如Kinect摄像机)可以获取图像的RGB-D图像，包括彩色图像和深度图像。

2)图像语义分割

目前，基于深度学习的语义分割技术已经取得了巨大的发展，例如，Mask R-CNN、SegNet网络等，其检测识别精度都达到了十分不错的效果。虽然Mask R-CNN分割精度很高，但是分割一幅图像需要约200ms，这将限制整个系统的实时性。因此出于对系统实时性的考虑，本实施例在语义分割线程中，使用了高效的SegNet深度学习网络分割动态对象，达到系统实时性的要求，通过语义分割得到潜在动态目标特征点，并利用剩余特征点初始化相机位姿，并利用极限约束模型剔除不正确的特征点匹配，得到初始基础矩阵。

其中，Seg Net网络是基于Caffe框架实现的深度学习网络。网络由Encoder和Decoder两部分组成，Encoder主要由一系列卷积网络组成，其网络模型中主要包括卷积层、池化层和Batch Normalization层，主要功能是对输入的RGB图像进行特征提取和分类，从而获得丰富的语义信息。

具体的，语义分割的过程如下：输入新图像帧，Decoder对经过Encoder处理得到的特征图进行上采样，然后将上采样图像送入反卷积网络，得到各目标分类信息、位置信息与图像像素点间的一一对应关系，输出为带有语义标签的像素分类图像，并将不同类别像素点标记为不同颜色。

3)利用先验语义分割结果得到相机初始位姿

将语义分割得到的具有潜在动态或可移动的人或物等目标上的特征点剔除，利用剩余特征点求解基础矩阵F。得到基础矩阵F后，利用极限约束的方法可检测出是否存在匹配错误的问题，如果存在匹配错误的问题则将错误匹配去除掉。

具体的，在本实施例中，极限约束方法的模型如图3所示，表述如下：

如果参考帧中的特征点x₁与当前帧中的匹配点x₂是正确的匹配点对，则x₂应当位于x₁在当前帧中对应的极线l上，数学模型描述如式(1)：

由式(1)可以得到每对匹配点的极线约束误差，同时设置阈值θ。

如果匹配点对的极线约束误差小于阈值，则认为在两帧图片中的特征点是正确匹配的。反之，则认为两个特征点是错误匹配的，进一步将错误匹配点作为外点剔除。此外，考虑到如果动态点空间位置的变化很大，也会造成极线约束误差会很大，即使是正确匹配的动态点也会作为外点剔除。

4)基于几何的动态特征点检测

在基于几何的动态特征点检测线程中，利用重投影误差判断是否是动态特征点，同时提出一种动态点搜索优化算法，在整个搜索过程中，当找到一个动态点，搜索路径将转向动态特征点区域，直到检测到区域内所有动态点，然后回到偏置点，继续寻找下一个特定的搜索方案。通过此算法可以尽可能少地遍历特征点的数量，从而提高SLAM系统的实时性。具体如下：

a)动态特征点的判别

根据相机的投影模型，参考帧中的特征点x₁可以投影到三维空间点X，三维空间点X投影到当前帧为点x′₁，同时利用光流追踪的方法可以得到特征点x₁在当前帧的匹配特征点u₁。由于外界的影响并不能完全重合，由此产生了重投影误差E，如式(2)所示：

E＝||u₁-x′₁||₂ (2)

利用式(2)判断特征点是否为动态特征点，如果式(2)的结果大于设定的阈值，则为动态特征点，如果小于阈值则为动态特征点。

b)动态特征点搜索优化方法

一张图像帧含有大量特征点，特征点x＝{x₁,x₂,x₃,...,x_n}在经过投影变换之后，将在当前帧图像中接收在前一帧的投影变换之后获得的结果，并且将遍历每个投影点以确定该点是静态特征点还是动态点。在特征提取过程中，特征点的数量从数百到数十万不等。如果将每个投影点都判断为一个静态点，则SLAM系统的实时性能将受到一定程度的影响。

考虑到图像中的静态和动态点分布在一个群体中而不是分散在单个图像中，本方法提出一种动态特征点搜索优化算法，通过确定从开始到结束的最优搜索路径，并依次进行搜索得到所有动态特征点。在搜索整个路径的过程中，当找到一个动态点，搜索路径将转向动态特征点区域，直到检测到动态的区域，然后回到偏置点，继续寻找下一个特定的搜索方案。

具体的，如图4所示，通过动态特征点搜索优化方法寻找动态点的步骤如下：根据特征点在图像帧中的分布密度确定一条搜索路径L，设搜索路径L的起点为A，终点为B。从点x₀进行动态特征点搜索，依次移动到下一个x_i(i＝0,1,2,…,n)点，直到移动到终点B。当每搜索到一个特征点x_i时，都以x_i为原点，在以R为半径的圆内搜索是否存在动态特征点。当在圆内找到动态点时，利用凸包计算离散点的几何形状，并以几何边缘为边界向外扩展搜索带宽Z。只要在动态点后的Z带宽内发现一个新的动态点，就继续向外扩展Z，直到在扩展区域内没有新的动态点为止。之后返回到L路径并移动到下一个x_i+1点，在新的区域中搜索动态点。直到搜索到B点为止。

5)重投影误差求解相机位姿

利用本实施例提出的方法去除场景中动态特征点后，利用剩余的静态特征点即可完成相机的位姿估计，同时根据重投影误差函数进行相机的位姿优化。

具体的，相机的重投影误差目标函数为：

其中，ξ为相机位姿的李代数形式，u_i表示第i个特征点的真实匹配坐标，X_i为特征点对应空间点坐标，K为内参数矩阵，exp(ξ^Λ)为相机外参数矩阵，s_i为尺度因子，||.||₂表示L2范数。

重投影误差函数可采用高斯牛顿等方法进行求解，得到优化的相机位姿。

6)基于八叉树的语义地图构建

动态目标完全剔除后，利用剩余静态特征点构建语义地图，考虑到系统的实时性，选用基于八叉树的地图构建方法，并通过概率融合的方式完成地图的更新。同时，地图的语义信息通过语义分割图像中的像素语义标签添加到节点中得到语义地图。具体实现过程如下：

通过ORB-SLAM2算法可以得到全局一致的相机位姿，利用相机模型以及深度信息将二维图像上的像素点映射到三维空间中，此外，还需对获取的点云信息添加语义信息，图像的语义分割已经识别出图像中物体的类别信息，将二维图像的分割结果融合到点云中，为点云中的每一个点赋予语义信息，从而得到信息丰富的语义点云地图。生成点云地图后，将其插入八叉树中，可以得到环境的八叉树语义地图。在点云的插入过程中，八叉树的叶子节点的占据概率、语义标签以及相应的置信概率将会被更新。

具体的，八叉树地图更新步骤如下：

假设1表示节点被完全占据，0表示节点是空白的，则节点的占据状态可以用0到1间的浮点数x来表示。为了防止x超过0到1的范围，可对x进行对数变换，如式4)所示：

它的反变换为：

这样就可以将y∈(-∞,+∞)转换到x∈[0,1]。通过概率对数值y来表示节点是否被占据，当需要占据概率时只需逆变换即可获得所需的概率x。占有概率更新的基本公式(6)所示：

通过对数变换，则公式(6)可以转化为：

L(n|z_1:t+1)＝L(n|z_1:t-1)+L(n|z_t) (7)

通过上述公式，不断对当前的观测数据进行相关融合，实现节点的不断更新，从而实现八叉树地图的构建。

综上，本实施例在现有的ORB-SLAM框架的基础上，增加语义分割与基于几何的动态特征点检测线程，从而完整的去除动态目标对构建全局一致的地图的影响，并由此改进的SLAM系统获得动态环境的语义地图。在基于几何的动态特征点检测线程中，提出动态特征点搜索优化算法，提高了系统的实时性能。

第三实施例

本实施例提供了一种面向动态环境的语义地图构建装置，该装置包括：

本实施例的面向动态环境的语义地图构建装置与上述第一实施例的面向动态环境的语义地图构建方法相对应；其中，本实施例的面向动态环境的语义地图构建装置中的各功能模块所实现的功能与上述第一实施例的面向动态环境的语义地图构建方法中的各流程步骤一一对应；故，在此不再赘述。

第四实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行上述方法。

第五实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，所述指令由处理器加载并执行，以实现上述第一实施例的方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器、CD-ROM、磁带、软盘和光数据存储设备等。其内存储的指令可由终端中的处理器加载并执行上述方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

Claims

1.一种面向动态环境的语义地图构建方法，其特征在于，包括：

2.如权利要求1所述的面向动态环境的语义地图构建方法，其特征在于，所述在视觉前端进行位姿估计前，对深度相机传输的图像数据进行语义分割，并根据所述图像数据的语义分割结果得到初始基础矩阵，包括：

3.如权利要求2所述的面向动态环境的语义地图构建方法，其特征在于，所述利用极限约束模型检测出是否存在匹配错误的问题，包括：

其中，F表示所述基础矩阵；

通过上式得到每对匹配点的极线约束误差，同时设置阈值；

4.如权利要求1所述的面向动态环境的语义地图构建方法，其特征在于，所述根据所述初始基础矩阵初始化相机位姿，并采用基于几何的动态特征点检测算法对所述图像数据进行动态特征点检测，搜索出所有动态特征点，包括：

根据所述初始基础矩阵初始化相机位姿；

利用重投影误差判断当前特征点是否是动态特征点；

根据动态特征点搜索优化算法搜索所有动态特征点。

5.如权利要求4所述的面向动态环境的语义地图构建方法，其特征在于，所述根据动态特征点搜索优化算法搜索所有动态特征点，包括：

根据特征点在图像帧中的分布密度确定一条搜索路径；

6.如权利要求1所述的面向动态环境的语义地图构建方法，其特征在于，将所述动态特征点剔除，并利用剩余的静态特征点构建语义地图，包括：

基于优化的相机位姿，构建语义地图。

7.如权利要求6所述的面向动态环境的语义地图构建方法，其特征在于，所述重投影误差目标函数为：

8.如权利要求6所述的面向动态环境的语义地图构建方法，其特征在于，所述基于优化的相机位姿，构建语义地图，包括：

9.如权利要求8所述的面向动态环境的语义地图构建方法，其特征在于，所述语义地图的语义信息通过语义分割图像中的像素语义标签添加。

10.一种面向动态环境的语义地图构建装置，其特征在于，包括：