CN114119805B

CN114119805B - 点线面融合的语义建图slam方法

Info

Publication number: CN114119805B
Application number: CN202111265719.4A
Authority: CN
Inventors: 赵良玉; 朱叶青; 金瑞; 陈南华; 王飞
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2024-06-04
Anticipated expiration: 2041-10-28
Also published as: CN114119805A

Abstract

本发明公开了一种点线面融合的语义建图SLAM方法，从图像中提取点特征信息、线特征信息和平面特征信息，采用深度学习方法对图像进行分割获得语义信息，将特征信息和语义信息融合构建地图。本发明提供的点线面融合的语义建图SLAM方法，在不同场景中实现了更鲁棒和更精确的估计，且适用于更多场景，通过结合语义信息，可以为机器人理解和执行人类指令提供理想的抽象级别，并为人类提供易于理解的环境模型。

Description

点线面融合的语义建图SLAM方法

技术领域

本发明涉及一种点线面融合的语义建图SLAM方法研究，属于自主机器人同时定位与地图构建技术领域。

背景技术

机器人的目标之一是在现实世界中自主操作，同时定位与地图创建(Simultaneous Localization and Mapping,SLAM)系统是自主机器人关键技术。

在非结构化、真实环境中自主运行的机器人必须依赖于环境的详细先验地图来规划与场景元素的交互。因此，机器人必须能够准确地定位和鲁棒地感知复杂的周围空间，并获得与任务相关的信息，以指导后续行动。基于RGB-D相机的同时定位和建图在机器人和混合/增强现实应用中起着核心作用。

大多数现有的SLAM方法都是基于特征点的方法，使用特征点来描述场景和估计相机姿态。但这些方法在实际应用中会遇到各种问题，如低纹理环境和光线变化。此外，实际场景中图像强度会受到光线或视角变化的影响。在大型场景中，特征点法测量噪声和数据关联的误差会累积，这些问题很难只用特征点来解决。

对于室内环境，往往包含许多其他高级功能，例如线和面。室内环境是移动机器人常见的工作场景。这些高级功能确保了更快、更精确的数据关联，使用RGB-D相机可以轻松地提取数据关联。由于受测量噪声的影响较小，直线和平面特征更加稳健和准确。因此，使用这些高级功能有助于提高SLAM的性能。

SLAM有直接法和特征法，直接法基于图像强度不变假设，然而实际场景中图像强度会受到光线或视角变化的影响。基于特征的方法通常基于描述符搜索对应点，因此结果取决于特征检测和匹配的可靠性。

然而传统的特征检测在室内环境下检测噪声大、准确性低。

此外，现有的地图中机器人不能理解环境，导致机器人与人类的交互能力较差。

由于上述原因，本发明人对现有的地图构建方法做了深入的研究，以提高地图的准确性和交互能力。

发明内容

为了克服上述问题，本发明人进行了深入研究，设计出一种点线面融合的语义建图SLAM方法，从图像中提取点特征信息、线特征信息和平面特征信息，采用深度学习方法对图像进行分割获得语义信息，将特征信息和语义信息融合构建地图。

进一步地，所述点线面融合的语义建图SLAM方法，包括前端视觉里程计、后端非线性优化、对象实例分割和语义建图过程。

根据本发明，所述前端视觉惯性里程计包括特征检测与匹配过程、位姿估计过程，

所述特征包括点特征、线特征和平面特征，

所述检测是指特征的提取，所述匹配是指特征的跟踪。

优选地，面特征的跟踪通过比较相邻两帧中提取的到平面法线之间的角度和平面的点平面距离来实现。

优选地，根据误差和匹配约束获得最佳位姿估计：

其中，ρ_m,m＝{p,l,π,π_||,π_⊥}，表示不同误差或约束的Huber代价函数，Λ_m,m＝{p,l,π,π_||,π_⊥}表示不同误差或约束协方差矩阵的逆，

所述误差表示为：

e_p＝p_obs-Π(R_cwP_w+t_cw)

其中，Π是所使用RGBD相机的内参矩阵的投影函数，是三维线特征/>的端点，其中x∈{start,end}，e_p为点特征误差，e_l为线特征误差，e_π为面特征误差，R_cw为世界坐标系到相机坐标系的旋转，P_w为世界坐标系下点坐标，t_cw为世界坐标系到相机坐标系的平移，π_c表示相机坐标系下面特征，/>为世界坐标系到相机坐标系的变换矩阵，π_w表示世界坐标系下面特征；

所述匹配约束为：

匹配约束：

其中，是面特征的平行平面，/>是面特征的垂直平面，n_c是观察平面的法线，n_w是匹配平面地标的，R_⊥表示90°旋转矩阵。

优选地，所述对象实例分割过程是指检测图像中的所有对象实例，将不同的对象实例分割开。

优选地，采用Mask R-CNN网络检测RGB图像中的对象实例。

根据本发明，所述语义建图过程包括以下步骤：

S41、将连续图像分割后的对象实例与语义对象预测相结合，得到多帧预测；

S42、将每帧预测与地图中的线段匹配，实现预测对象实例的跟踪；

S43、将提取到的特征和对象实例信息集成到TSDF地图中。

另一方面，本发明还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述方法中任一项所述的方法。

本发明还提供了一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据商法方法中任一项所述的方法。

本发明所具有的有益效果包括：

(1)根据本发明提供的一种点线面融合的语义建图SLAM方法，在不同场景中实现了更鲁棒和更精确的估计；

(2)根据本发明提供的一种点线面融合的语义建图SLAM方法，适用于更多场景；

3)根据本发明提供的一种点线面融合的语义建图SLAM方法，通过结合语义信息，可以为机器人理解和执行人类指令提供理想的抽象级别(例如，“给我拿本书”、“走进那间屋子”)，并为人类提供易于理解的环境模型。

附图说明

图1示出根据本发明一种优选实施方式的点线面融合的语义建图SLAM方法流程图；

图2示出实施例1、对比例1、对比例2的结果对比图。

具体实施方式

下面通过附图和实施例对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在真实环境中要实现机器人自主导航和规划交互，需要准确的定位以及对非结构化周围场景的语义建图。对于室内环境，直线和平面是受测量噪声影响较小的关键几何特征，同时，丰富的高级语义信息的存在可以使机器人更好地理解环境，从而实现各种交互任务。

本发明提供了一种点线面融合的语义建图SLAM方法，从图像中提取点特征信息、线特征信息和平面特征信息，采用深度学习方法对图像进行分割获得语义信息，将特征信息和语义信息融合构建地图。

进一步地，所述RGB图像和深度图像由RGBD相机提供，所述RGBD相机是一种可以同时获取输出RGB信息和深度信息的相机，是图像识别常用的相机之一。

具体地，所述点线面融合的语义建图SLAM方法，包括前端视觉里程计、后端非线性优化、对象实例分割和语义建图过程。

其中，所述前端视觉惯性里程计包括特征检测与匹配过程、位姿估计过程。

所述特征包括点特征、线特征和平面特征。

所述检测是指特征的提取，所述匹配是指特征的跟踪。

在本发明中，对点特征的提取和跟踪的方法不做特别限定，可以采用传统SLAM中的点特征提取和跟踪方法，例如提取Shi-Tomasi角点作为特征点，采用KLT光流法实现特征点的跟踪，并基于反向光流法跟踪和消除差异较大的点，在本发明中，将提取的点特征表示为P＝(X,Y,Z)，点特征的二维观测值表示为p_obs。

其中，Shi-Tomasi角点的提取采用论文J.Shi,C.Tomasi,Good features totrack,in:1994Proceedings of IEEE Conference on Computer Vision and PatternRecognition,IEEE,1994,pp.593-600.中的方法；KLT光流法采用论文B.D.Lucas andT.Kanade,An iterative image registration technique with an application tostereo vision,in:Proceedings of the 7th International Joint Conference onArtificial Intelligence(IJCAI),IEEE,1981,pp.24-28中的方法；反向光流法采用论文Baker S,Matthews I.Lucas-kanade 20years on:A unifying framework[J].International journal of computervision,2004,56(3):221-255中的方法。

在本发明中，对线特征的提取和跟踪的方法不做特别限定，可以采用传统SLAM中的线特征提取和跟踪方法。

优选地，采用FLD提取方法进行线特征提取，采用LBD方法进行线特征的跟踪，在本发明中，将提取的线特征表示为线特征的二维观测值表示为/>观测到的二维线特征的归一化线函数为/>

其中，所述FLD提取采用论文J.H.Lee,S.Lee,G.Zhang,J.Lim,W.K.Chung,I.H.Suh,“Outdoor place recognition in urban environments using straightlines,”in 2014IEEE International Conference on Robotics and Automation(ICRA),Hong Kong,China,Jun.2014,pp.5550-5557.中的方法，所述LBD方法采用论文L.Zhang,R.Koch,“An efficient and robust line segment matching approach based on LBDdescriptor and pairwise geometric consistency,”Journal of VisualCommunication and Image Representation,vol.24,no.7,pp.794-805,May.2013.中的方法。

在一个优选的实施方式中，在线特征提取过程中，采用论文L.Y.Zhao,R.Jin,Y.Q.Zhu,and F.J.Gao,“Stereo visual-inertial slam with point and linefeatures,”Acta Aeronautica et Astronautica Sinica,vol.42,no.21,pp.325117,Jan.2021.Doi:10.7527/S1000-6893.2021.25117.中的改进FLD算法对原FLD进行优化，在保持原FLD算法效率的同时，获得了更有效的直线特征。

与特征点法相比，点线特征互补方法可以为后续的运动估计提供更丰富、更稳健的特征信息，与面特征相比，线特征在更多的局部位置补充了点特征，从而在稀疏地图中可以精确地提取和关联平面。

传统的SLAM并不同时对面特征和线特征进行提取和跟踪，对于有大量墙壁以及玻璃等面特征的室内场景，无法提取足够数量的点特征以及线特征，来估计相机的位姿，面特征的引入对于上述场景有效的补充了无法提取点线特征的弊端，通过面特征的匹配能够更准确地估计出相机的位姿。

进一步地，在本发明中，采用AHC方法从降采样3D点云中提取面特征，在本发明中，将提取到的面特征表示为(n,d)，其中，n＝(n_x,n_y,n_z)表示该平面的单位平面法线，d表示为平面与原点的距离，平面的最小表示为φ是平面法线的方位角，/>是平面法线的仰角。

所述平面的最小是指将平面π表示为参数化形式：

所述3D点云是指通过二维的点、线和面恢复出的三维空间，本发明中优选采用的是体素化网格方法(VoxelGrid filtering)实现降采样，体素化网格方法是一种常用的点云滤波方法，其通过对输入的点云数据创建一个三维体素栅格，然后在每个体素内，用体素中所有点的重心来近似显示体素中其他点，这样该体素就内所有点就用一个重心点最终表示，即减少点的数量，减少点云数据，并同时保持点云的形状特征。

体素化网格方法在提高配准、曲面重建、形状识别等算法速度中非常实用，这种方法对于采样点对应曲面的表示更为准确。

在一个优选的实施方式中，采用的体素尺寸为0.2m。

所述AHC方法采用论文C.Feng,Y.Taguchi,and V.R.Kamat,“Fast planeextraction in organized point clouds using agglomerative hierarchicalclustering,”in 2014IEEE International Conference on Robotics and Automation(ICRA).Hong Kong,China,Jun.2014,pp.6218–6225.中的方法。

进一步地，面特征的跟踪通过比较相邻两帧中提取的平面法线之间的角度和原点到两平面的距离差来实现，优选地，当两个平面法线之间的角度小于10°、原点到两平面的距离差小于0.02m，表示两个平面相匹配。

所述位姿估计是指通过跟踪到的特征估计RGBD相机的位姿。

进一步地，提取到的特征与地图中相匹配3D特征之间的误差表示为：

e_p＝p_obs-Π(R_cwP_w+t_cw)

其中，Π是所使用RGBD相机的内参矩阵的投影函数，是三维线特征/>的端点，其中x∈{start,end}，e_p为点特征误差，e_l为线特征误差，e_π为面特征误差，R_cw为世界坐标系到相机坐标系的旋转，P_w为世界坐标系下点坐标，t_cw为世界坐标系到相机坐标系的平移，π_c表示相机坐标系下面特征，/>为世界坐标系到相机坐标系的变换矩阵，π_w表示世界坐标系下面特征。

所述地图中相匹配的3D特征是指二维图像中特征点对应的地图空间中的三维点特征，所述三维点特征可以使用深度相机RGBD可以直接得到。

更进一步地，对于每个提取到的面特征，该平面还具有平行平面和垂直平面匹配约束：

其中，n_c是观察平面地标的法线，n_w是匹配平面地标的法线，R_⊥表示90°旋转矩阵。

所述观察平面地标是指相机坐标系下观测到的平面地标，所述匹配平面地标是指与观测到的平面相匹配的世界坐标系下的地标。

根据上述误差和匹配约束，通过Levenberg-Marquardt方法优化即可获得最佳位姿估计：

其中，ρ_m,m＝{p,l,π,π_||,π_⊥}，表示不同误差或约束的Huber代价函数，Λ_m,m＝{p,l,π,π_||,π_⊥}表示不同误差或约束协方差矩阵的逆。

Levenberg-Marquardt方式是使用最广泛的非线性最小二乘算法，对其具体步骤在本发明中不做赘述。

在后端非线性优化过程中，采用BA优化方法对特征进行优化。

所述BA优化(bundle adjustment)，又称光束法平差，已被大量应用于SLAM中，具体方法在本发明中不做赘述，采用BA优化，相对于传统的滤波方法，BA优化方法使用更多的信息，更准确，与处理相同数据的滤波解决方案相比，BA更适合于大型复杂场景。

在一个优选的实施方式中，仅对关键帧提取到的特征进行BA优化，以降低BA优化的计算量。

进一步地，关键帧的确定方法本领域技术人员可根据实际需要进行确定。

所述对象实例分割过程是指检测图像中的所有对象实例，将不同的对象实例分割开。

根据本发明一个优选的实施方式，采用Mask R-CNN网络检测RGB图像中的对象实例，并为每个对象实例生成一个分割掩码，即每个对象生成一个实例标签，所述Mask R-CNN网络是ICCV2017中Kaiming He,Georgia Gkioxari等人提出的一种网络模型，在本发明中，采用Mask R-CNN具有易于实现和训练，并且在计算开销量较低的情况下可实现快速系统和快速实验。

所述语义建图过程，是指利用RGBD相机恢复点、线的深度信息，构建基于点、线、面几何结构的三维环境建图。

具体地，包括以下步骤：

S43、将提取到的特征和对象实例信息集成到TSDF地图中。

具体地，在S41中，以RGBD相机拍摄的连续图像作为输入，通过Mask R-CNN网络获取分割后的对象实例。

进一步地，所述对象实例与语义对象预测相结合的方法采用论文K.Tateno,F.Tombari,and N.Navab,“Real-time and scalable incremental segmentation ondense SLAM,”in 2015IEEE/RSJ International Conference on Intelligent Robotsand Systems(IROS),Hamburg,Germany,Sep.2015,pp.4465–4472.中提到的方法。

在S42中，根据前端视觉里程计中的方法，将每帧预测与全局地图中的现有线段匹配，从而解决跨多帧的单个预测对象实例的跟踪。

在S43中，所述TSDF地图是一种常用的地图构建方法，TSDF地图是由一堆体素构成的。

根据本发明，在初始化地图后，通过关键帧构建TSDF地图，针对每个关键帧，采用Voxblox方法进行捆绑光线投射，使用“快速”选项生成TSDF地图。

所述Voxblox方法及“快速”选项可参见论文H.Oleynikova,Z.Taylor,M.Fehr,R.Siegwart,and J.Nieto,“Voxblox:Incremental 3d euclidean signed distancefields for onboard mav planning,”in IEEE/RSJ Intl.Conf.on Intelligent Robotsand Systems(IROS),Vancouver,Canada,Sep.2017,pp.1366–1373.

所述关键帧是指观察到大量新地标时对应的图像帧，优选地，关键帧的判断方法可按照论文T.Qin,P.L.Li,and S.J.Shen,“VINS-Mono:a robust and versatilemonocular visual-inertial state estimator,”IEEE Transactions on Robotics,vol.34,no.4,pp.1004–1020,Aug.2018.中的方法进行。

在所述关键帧中包含提取到的点特征、线特征和平面特征，优选地，若新提取到的平面与地图中已有的平面相匹配，则仅更新地图平面的点云，所述点云是指通过深度相机RGBD恢复出的三维空间点组成的点云，否则，将新提取到的平面添加到地图中。

与传统Voxblox方法不同的是，在进行捆绑光线投射期间，将语义标签附着到Voxblox方法生成图像的每个3D点上，对于捆绑光线投射中的每束光线，根据光线中附着的语义标签的频率生成标签概率向量，则标签概率向量沿着光线传播。

所述语义标签通过将关键帧对应图像输入Mask R-CNN网络获得，通过语义标签将图像不同的像素按语义分割。

优选地，所述标签概率向量仅在TSDF截断距离内传播，TSDF截断距离(TruncatedSigned Distance)的具体概念可参照论文Izadi,Shahram,et al."KinectFusion:real-time3D reconstruction and interaction using a moving depth camera."AcmSymposium on User Interface Software&Technology ACM,2011.

通过标签概率向量仅在TSDF截断距离内传播，省去了更新“空”标签概率的计算工作，节省了计算量。

优选地，与传统Voxblox方法不同的是，当沿着光线遍历体素时，使用贝叶斯更新每个体素的标签概率，

所述贝叶斯更新的具体公式本领域技术人员可根据经验推导获得，例如采用论文J.McCormac,A.Handa,A.J.Davison,and S.Leutenegger,“SemanticFusion:dense 3dsemantic mapping with convolutional Neural Networks,”in IEEE Intl.Conf.onRobotics and Automation(ICRA),Singapore,May.2017.中的公式。

根据本发明，在捆绑语义光线投射后，每个体素都有一个标签概率向量，从中提取最可能的标签，从而实现语义建图，即地图重建过程中融合了对象实例信息。

本发明中以上描述的方法的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的方法和装置，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的方法实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明公开的技术方案所期望的结果，本文在此不进行限制。

实施例

实施例1

使用ICL-NUIM数据集对点线面融合的语义创建的地图(PLP-SLAM)进行评估。

ICL-NUIM数据集是一个仿真场景的数据集，包含客厅和办公室两种场景，客厅里有图画、窗户、椅子、桌子、沙发和其他常见的人造物品，办公室里有桌子、电脑和图片。每个场景中包含四个序列，对所有序列都进行评估。

实验平台为配备Intel Xeon CPU E5645，主频2.40GHz，内存48GB，不带GPU的笔记本电脑。

所述地图创建包括包括前端视觉里程计、后端非线性优化、对象实例分割和语义建图过程。

其中，所述前端视觉惯性里程计包括特征检测与匹配过程和位姿估计过程。

点特征：提取Shi-Tomasi角点作为特征点，采用KLT光流法实现特征点的跟踪，并基于反向光流法跟踪和消除差异较大的点，在本发明中，对线特征的提取和跟踪的方法不做特别限定，可以采用传统SLAM中的线特征提取和跟踪方法。

线特征：FLD提取方法进行线特征提取，采用LBD方法进行线特征的跟踪，在线特征提取过程中，采用论文L.Y.Zhao,R.Jin,Y.Q.Zhu,and F.J.Gao,“Stereo visual-inertialslam with point and line features,”Acta Aeronautica et Astronautica Sinica,vol.42,no.21,pp.325117,Jan.2021.Doi:10.7527/S1000-6893.2021.25117.中的改进FLD算法对原FLD进行优化。

面特征：采用AHC方法从降采样3D点云中提取面特征，面特征的跟踪通过比较相邻两帧中提取的到平面法线之间的角度和平面的点平面距离来实现。

其中，采用体素化网格方法实现降采样，采用的体素尺寸为0.2m。

提取到的特征与地图中相匹配3D特征之间的误差表示为：

e_p＝p_obs-Π(R_cwP_w+t_cw)

对于每个提取到的面特征，该平面还具有平行平面和垂直平面/>匹配束：

根据上述误差和匹配约束，根据Levenberg-Marquardt方法优化获得最佳位姿估计：

在后端非线性优化过程中，对关键帧提取到的特征进行BA优化。

采用Mask R-CNN网络检测RGB图像中的对象实例，并为每个对象实例生成一个分割掩码。

所述语义建图过程，是指利用RGBD相机恢复点、线的深度信息，构建基于点、线、面几何结构的三维环境建图，包括以下步骤：

S43、将提取到的特征和对象实例信息集成到TSDF地图中

在S41中，以RGBD相机拍摄的连续图像作为输入，通过Mask R-CNN网络获取分割后的对象实例。

在S42中，通过数据关联策略将每帧预测与全局地图中的现有线段匹配，从而解决跨多帧的单个预测对象实例的跟踪。

在S43中，通过关键帧构建TSDF地图，针对每个关键帧，采用Voxblox方法进行捆绑光线投射，使用“快速”选项生成TSDF地图。

与传统Voxblox方法不同的是，在进行捆绑光线投射期间，将语义标签附着到Voxblox方法生成图像的每个3D点上，对于捆绑光线投射中的每束光线，根据光线中附着的语义标签的频率生成标签概率向量。

所述标签概率向量仅在TSDF截断距离内传播，当沿着光线遍历体素时，使用贝叶斯更新每个体素的标签概率。

对比例

对比例1

采用相同的实验平台，采用ORB_SLAM2方法在与实施例1相同的数据集上对所有序列进行评估，ORB_SLAM2是目前最先进的基于特征点的视觉SLAM，具体方法参见论文R.Mur-Artal and J.D.Tardos,“ORB_SLAM2:an open-source slam system for monocular,stereo and RGB-D cameras,”IEEE Trans.Robot.,vol.33,no.5,pp.1255–1262,Jun.2017.

对比例2

采用相同的实验平台，采用PP-SLAM方法在与实施例1相同的数据集上对所有序列进行评估，PP-SLAM具体方法参见论文X.Zhang,W.Wang,X.Qi,Z.Liao,and R.Wei,“Point-plane slam using supposed planes for indoor environments,”Sensors,vol.19,no.17,pp.3795,Sep.2019.

实验例

实验例1

对比实施例1、对比例1、对比例2中对8个序列估计得到的轨迹与groundtruth(数据集中的人工标注轨迹，视为真实轨迹标准)之间的误差，以展示不同方法的定位性能，如表一所示。

表一

结果表明，实施例1的方法获得了较好的性能。

其中，对比例2在living_room_0和office_room_3序列上表现良好，但该方法在其他序列中会丢失跟踪。

在序列living_room_3中，当相机靠近墙壁时，仅拍摄到白色墙壁和植物的两片叶子，对比例2在这种情况下无法产生良好的性能，此外，由于墙壁、地板的包含较大平面区域没有足够的光度误差梯度，对比例2也无法很好地执行。而由于实施例1中充分利用了所有几何元素，因此它能够在大多数序列中稳健地执行。

当只有少量特征点可以被跟踪时，实施例1获得明显更好的结果，实施例1的均方根误差波动小，定位估计具有较好的一致性，实现了鲁棒、准确的室内定位，其它两种方法，尤其是对比例1的性能较差。

另外，可以看出，实施例1的均方根误差明显低于对比例1，这是因为这些室内场景中的平面通常是平行或垂直的，实施例1在点特征检测的基础上增加了直线和平面特征检测，因此这些结构约束进一步提高了精度。

图2显示了估计与ground truth的误差比较。其中，第一列显示了一些序列估计轨迹的对比，第二列和第三列是估计轨迹不同角度下的视图，第四列是每个轴上的误差。从结果可以看出，使用直和面特征的实施例1可确保在整个序列中成功跟踪。

对比例2的方法利用假定的平面获得相机的无漂移。毫无疑问，直线的增加使算法更加健壮。因为添加了线特征，PLP-SLAM适用于更多场景。

与对比例1和对比例2相比，实施例1有了很大的改进，在不同场景中实现了更鲁棒和更精确的估计，且适用场景更多。

以上结合了优选的实施方式对本发明进行了说明，不过这些实施方式仅是范例性的，仅起到说明性的作用。在此基础上，可以对本发明进行多种替换和改进，这些均落入本发明的保护范围内。

Claims

1.一种点线面融合的语义建图SLAM方法，其特征在于，从图像中提取点特征信息、线特征信息和平面特征信息，采用深度学习方法对图像进行分割获得语义信息，将特征信息和语义信息融合构建地图；

所述点线面融合的语义建图SLAM方法，包括前端视觉里程计、后端非线性优化、对象实例分割和语义建图过程；

所述前端视觉里程计包括特征检测与匹配过程、位姿估计过程，

所述特征包括点特征、线特征和平面特征，

所述检测是指特征的提取，所述匹配是指特征的跟踪；

面特征的跟踪通过比较相邻两帧中提取的到平面法线之间的角度和平面的点平面距离来实现；

根据误差和匹配约束获得最佳位姿估计：

所述误差表示为：

e_p＝p_obs-Π(R_cwP_w+t_cw)

其中，Π是所使用RGBD相机的内参矩阵的投影函数，是三维线特征/>的端点，其中x∈{start,end}，e_p为点特征误差，e_l为线特征误差，e_π为面特征误差，R_cw为世界坐标系到相机坐标系的旋转，P_w为世界坐标系下点坐标，t_cw为世界坐标系到相机坐标系的平移，π_c表示相机坐标系下面特征，/>为世界坐标系到相机坐标系的变换矩阵，π_w表示世界坐标系下面特征；所述匹配约束为：

匹配约束：

其中，是面特征的平行平面，/>是面特征的垂直平面，n_c是观察平面的法线，n_w是匹配平面地标的，R_⊥表示90°旋转矩阵；

所述语义建图过程包括以下步骤：

S43、将提取到的特征和对象实例信息集成到TSDF地图中。

2.根据权利要求1所述的点线面融合的语义建图SLAM方法，其特征在于，

3.根据权利要求2所述的点线面融合的语义建图SLAM方法，其特征在于，

采用Mask R-CNN网络检测RGB图像中的对象实例。

4.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的方法。

5.一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-3中任一项所述的方法。