CN111060115B

CN111060115B - 一种基于图像边缘特征的视觉slam方法及系统

Info

Publication number: CN111060115B
Application number: CN201911199728.0A
Authority: CN
Inventors: 张浩天; 韩银和
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2022-03-22
Anticipated expiration: 2039-11-29
Also published as: CN111060115A

Abstract

一种基于图像边缘特征的视觉SLAM方法，包括如下步骤：通过视觉传感器获取图像；提取所获取图像的边缘特征进行位姿估计；根据位姿估计结果进行非线性优化；根据非线性优化结果进行闭环检测；根据闭环检测结果进行全局优化；构建全局地图。本发明的优势在于，首先，图像边缘是整个图像中重要的组成部分，往往能代表整幅图像，拥有更高的整体精度和信噪比，更加鲁棒。其次，边缘特征在稀疏纹理下也能鲁棒的运行，对光照变化的抗干扰能力也较强。最后，图像边缘特征是对真实场景的最朴素的表达，其建立的地图能很好的还原真实场景。

Description

一种基于图像边缘特征的视觉SLAM方法及系统

技术领域

本发明涉及SLAM技术领域，具体来说涉及一种基于视觉SLAM方法，更具体地说，涉及一种基于图像边缘特征的视觉SLAM方法及系统。

背景技术

SLAM(Simultaneous Localization and Mapping)即同步定位与构图是机器人领域至关重要的技术。其主要是关于机器人在未知环境中根据周围环境地图来估计自身位置进行定位，同时在自身定位的基础上增量式的构建全局一致性地图的方法。SLAM被广泛应用于机器人自主导航、定位等领域，具有很重要的研究价值，因此SLAM也成为了学术界和工业界的研究热点。

视觉SLAM基于视觉传感器(如单目相机、双目相机、RGB-D相机等)，在对自身进行定位的同时可以实现对大规模场景进行三维稠密地图的构建，所构地图可以服务于上层应用，如对机器人进行路径规划、避障，自动驾驶等，具有很高的实用价值。

视觉SLAM算法主要由以下几个步骤组成：

特征追踪：通过连续的输入图像来进行连续的追踪和相机位姿估计。

后端优化：利用非线性优化，不断的根据当前已有的数据关联来优化相机位姿。

闭环检测：实时的检测当前位置是否是之前曾到达过的某个位置。

全局优化：对形成闭环的关键帧序列进行全局优化，减少累积误差。

不同的视觉SLAM算法主体大致都由上述四个步骤组成，每个步骤内的算法各有不同，且都有其对应的应用场景。

目前主流的视觉SLAM根据使用场景主要有两种不同的实现方法。

一种是基于特征点的SLAM，最具代表性的是ORB-SLAM，其通过对每帧图像提取和匹配ORB特征点来进行当前帧和关键帧之间的追踪，采用BA(Bundle Adjustment)的方式进行局部和全局优化，采用Bow(Bag of Word)进行回环检测以及全局重定位，具有实时性高、定位精度高等优点。

另一种常见的方式是基于直接法的SLAM。直接法意为直接对图像的像素进行追踪，其基于亮度不变性假设，通过最小化光度误差来进行两帧图像之间的追踪。最具代表性的有LSD-SLAM、DSO(Direct Sparse Odometry)等，其不需要提取特征点、计算描述子等操作，实时性很高，同时也可以在特征较少的场景下很稳定的运行

但是以上两种视觉SLAM方法，也都存在各自的缺点。

针对基于特征点的SLAM方法，其不足之处在于特征点非常稀疏，通常只占整个图像很小一部分，不能很好的代表整体图像，因此抗噪能力和整体精度相对较低；另外，该方法建立的稀疏特征点地图并不能很好的表示真实场景，同时在纹理稀疏的场景(如走廊、墙面等)中容易失效。

针对基于直接法的SLAM方法，其不足之处在于无法在亮度变化的情况下(如室内灯光、室外阴影)下稳定的运行。另外，如果视觉传感器运动过快，图像出现运动模糊的情况下也会失效。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种抗噪能力强、场景适应性高的基于图像边缘特征的视觉SLAM方法及系统。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，本发明提供一种基于图像边缘特征的视觉SLAM方法，包括如下步骤：

S1、通过视觉传感器获取图像；

S2、将所述图像的当前帧和关键帧的边缘特征进行配准和位姿估计,构建关键帧序列；

S3、比较所述关键帧序列中最新关键帧与其他关键帧的词向量的距离，进行闭环检测；

S4、根据所述关键帧序列中关键帧所包含的信息构建全局地图。

其中，所述步骤S1还包括：基于获取的图像将其中一帧图像作为第一帧关键帧。

所述步骤S2包括：将当前输入的图像作为当前帧；对当前帧以及距离当前帧时间最近的关键帧的边缘特征使用点到线的迭代最近点算法构造当前帧的整体残差；根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿；将所述运动位姿对应的大小与预先设定的第一阈值对比，将运动位姿对应的大小大于或等于第一阈值的当前帧加入关键帧序列；对运动位姿对应的大小小于第一阈值的当前帧计算其平均残差，将平均残差与预先设定的第二阈值进行对比，将平均残差大于或等于第二阈值的当前帧加入关键帧序列。

优选的，对当前帧以及距离当前帧时间最近的关键帧的边缘特征使用点到线的迭代最近点算法构造当前帧的整体残差，包括：

采用点到线的迭代最近点算法在当前帧中寻找所述关键帧的边缘特征对应的最近点；

根据寻找到最近点的结果，对当前帧和所述关键帧进行边缘特征配准以构造当前帧的整体残差。

其中，采用欧式距离变换加速在当前帧中查找所述关键帧的边缘特征对应的最近点。

其中，根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿，包括：

根据上一时刻视觉传感器的速度和位姿预测当前时刻当前帧的位姿，得到当前帧的预测位姿，以所述预测位姿作为初始值，使用迭代的非线性最小二乘法对当前帧的整体残差进行优化，使用优化后的整体残差对当前帧图像进行位姿估计，根据位姿估计结果求出当前帧相对于所述关键帧的运动位姿。

优选的，采用尺度金字塔对根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿的过程进行优化，优化过程包括：

降低所述当前帧的分辨率，对该分辨率下的当前帧进行位姿估计；

至少进行两次梯级式提高当前帧图像的分辨率至降低前的分辨率，每次提高后，以上一梯度分辨率的当前帧图像的位姿估计结果作为初始值，使用迭代的非线性最小二乘法对当前分辨率下的整体残差进行优化，根据整体残差优化结果对当前分辨率下的当前帧图像进行位姿估计，根据位姿估计结果求出当前帧相对于所述关键帧的运动位姿。

其中，所述步骤S3包括：

将所有关键帧的边缘特征转化为词向量；

通过比较最新关键帧和其它各关键帧的词向量之间的向量差值，将所述向量差值与预先设定的第三阈值进行对比，对存在向量差值小于或等于第三阈值的关键帧序列进行全局优化。

其中，将所有关键帧的边缘特征转化为词向量，包括：

构建训练图像，计算训练图像的边缘特征均值-标准差描述子作为视觉词汇；

以所述视觉词汇对词袋模型进行训练，通过训练好的词袋模型将所有关键帧的边缘特征转化为词向量。

其中，优选的，在进行闭环检测前对关键帧序列中所有关键帧的位姿进行非线性优化，具体包括：

构建包含有多个最近的关键帧的滑动窗口；

构造该滑动窗口内关键帧的总残差并对所述总残差进行非线性优化，根据优化结果对滑动窗口内的所有关键帧的位姿进行重新计算。

根据本发明的另一个方面，本发明提供了一种基于图像边缘特征的视觉SLAM系统，包括：

图像获取模块，用于获取当前所处环境的连续图像；

边缘特征提取模块，用于提取所获取图像的边缘特征；

特征追踪模块，用于将所述图像的当前帧和关键帧的边缘特征进行配准和位姿估计；

后端优化模块，用于根据位姿估计结果进行非线性优化；

闭环检测模块，用于比较最新关键帧与其他关键帧的词向量的距离，进行闭环检测；

全局优化模块，用于根据闭环检测结果进行全局优化；

地图构建模块，用于根据关键帧序列中关键帧所包含的信息构建全局地图。

与现有技术相比，本发明的优点在于：

相对于传统的方法，本发明采用图像的边缘特征进行位姿估计和闭环检测，首先，图像边缘是整个图像中重要的组成部分，往往能代表整幅图像，拥有更高的整体精度和信噪比，更加鲁棒。其次，边缘特征在稀疏纹理下也能鲁棒的运行，对光照变化的抗干扰能力也较强。最后，图像边缘特征是对真实场景的最朴素的表达，其建立的地图能很好的还原真实场景。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例的一种基于图像边缘特征的视觉SLAM方法的工作流程示意图；

图2为根据本发明实施例的一种基于图像边缘特征的视觉SLAM方法中当前帧与关键帧的配准工作流程示意图；

图3为根据本发明实施例的一种基于图像边缘特征的视觉SLAM方法中直线边缘特征的示意图；

图4为根据本发明实施例的一种基于图像边缘特征的视觉SLAM方法中边缘特征的均值-标准差描述子示意图；

图5为根据本发明实施例的一种基于图像边缘特征的视觉SLAM方法中闭环检测的工作流程示意图；

图6为根据本发明实施例的一种基于图像边缘特征的视觉SLAM系统的系统模块图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

附图中所示的方框图仅仅是功能实体示例，不一定必须与物理上独立的实体相对应，即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图也仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

发明人在进行视觉SLAM方法研究时发现，相较于图像的特征点来说，图像的边缘特征更加能够代表图像的内容，而且即使是在亮度发生变化的情况下，图像的边缘特征也能够被顺利提取出来。本发明的目的是解决现有技术中视觉SLAM方法在纹理稀疏的场景中容易失效以及无法在亮度变化的情况下稳定运行的问题，设计了通过提取图像的边缘特征进行特征追踪、后端优化、闭环检测和全局优化的视觉SLAM方法。

下面结合附图及实施例详细说明本发明。

根据本发明的一个实施例，本发明提供一种基于图像边缘特征的视觉SLAM方法，如图1所示，基于图像边缘特征的视觉SLAM方法，包括如下步骤：A1、A2、A3、A5、A6和A7中的一个或者多个。

A1、通过视觉传感器获取图像，并基于获取的图像将第一帧图像作为第一帧关键帧建立关键帧序列，

视觉传感器可以为单目相机、双目相机或RGB-D传感器等，优选的，通过RGB-D传感器获取周围环境的RGB图像与深度图像序列，因为相较于单目相机和双目相机，RGB-D传感器不但能采集RGB图像还能够采集深度图像。

视觉传感器获取的图像是一系列连续的图像，在构建全局地图时并不是所有的图像都需要被用到，而是只有这些图像中具有代表性的图像会被用到，所以需要从输入的一系列图像中提取出这些具有代表性的图像，将这些具有代表性的图像所属的帧定义为关键帧，关键帧序列中的第一帧关键帧就是视觉传感器获取的第一帧图像。

A2、将所述图像的当前帧和关键帧的边缘特征进行配准和位姿估计，构建关键帧序列。

需要说明的是，图像的边缘是图像最基本的特征，边缘是一个区域和另一个区域的交界处，是区域属性发生突变的地方，是图像中不确定性最大的地方，也是图像信息最集中的地方，图像的边缘通常包含着丰富的信息，因此边缘特征是很好的一种特征表示。针对基于边缘特征进行位姿估计，除了要求边缘特征应具有丰富的信息外，还要求边缘特征需要具有可重复性，即当前提取到的边缘特征和之前的针对同一物体提取到的边缘特征在世界坐标系下应该尽可能的是同一个位置，从而能进一步保证特征追踪模块的正确性。

本发明针对边缘特征的提取，优选方式下，采用Canny算子对输入图像进行边缘特征提取，以提取到的边缘特征估计当前帧与关键帧之间的运动位姿。

采用Canny算子对边缘特征进行提取，具体提取方式如下：

T1、使用高斯滤波器对获取的图像进行平滑处理以滤除噪声；

T2、计算图像中每个像素点的梯度强度和方向；

T3、采用非极大值抑制的方式消除杂散响应；

T4、应用双阈值检测的方式来确定真实的和潜在的边缘；

T5、最后通过抑制孤立的弱边缘完成边缘特征的提取。

根据提取出的边缘特征进行位姿估计、非线性优化、闭环检测、全局优化和构建全局地图，不但整体精度和信噪比更高，更加鲁棒，而且所构建的地图对真实场景的还原性更强。

根据本发明的一个实施例，将所述图像的当前帧和关键帧的边缘特征进行配准和位姿估计，构建关键帧序列，如图2所示，包括：

将当前输入的图像作为当前帧；

对当前帧以及距离当前帧时间最近的关键帧的边缘特征使用点到线的迭代最近点算法构造当前帧的整体残差；

根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿；

将所述运动位姿对应的大小与预先设定的第一阈值对比，将运动位姿对应的大小大于或等于第一阈值的当前帧加入关键帧序列。

对运动位姿对应的大小小于第一阈值的当前帧计算平均残差，将平均残差与预先设定的第二阈值进行对比，将平均残差大于或等于第二阈值的当前帧加入关键帧序列。

基于获取的图像将第一帧图像作为第一帧关键帧建立关键帧序列，将当前输入的图像作为当前帧，在运动过程中基于已有的关键帧从当前帧中筛选新关键帧加入关键帧序列。

其中，对当前帧以及距离当前帧时间最近的关键帧的边缘特征使用点到线的迭代最近点算法构造当前帧的整体残差，包括：采用点到线的迭代最近点算法在当前帧中寻找所述关键帧的边缘特征对应的最近点；根据寻找到最近点的结果，对当前帧和所述关键帧进行边缘特征配准，既将该关键帧中的边缘3D点通过初始的旋转量R和平移量t投影到当前帧坐标系下，再通过每次寻找最近点使重投影误差最小来迭代的优化旋转量R和平移量t。优选的，采用欧式距离变换加速在当前帧中查找所述关键帧的边缘特征对应的最近点。基于寻找到的最近点构造当前帧的整体残差以求出当前帧的位姿估计结果，根据位姿估计结果求出当前帧相对于所述关键帧的运动位姿。

根据本发明的一个实施例，对当前帧以及距离当前帧时间最近的关键帧的边缘特征使用点到线的迭代最近点算法进行配准以寻找最近点，包括：

至少进行两次梯级式提高当前帧图像的分辨率至降低前的分辨率，每次提高后，以上一梯度分辨率的当前帧图像的位姿估计结果作为初始值，使用迭代的非线性最小二乘法对当前分辨率下的整体残差进行优化，根据整体残差优化结果对当前分辨率下的当前帧图像进行位姿估计。

发明人在研究过程中发现，以点到线的迭代最近点算法(PLICP)进行配准寻找最近点构建整体残差的过程中，需要很多的迭代步数整体残差才会收敛，而且可能只会收敛到局部最优解，这样就需要花费很多的时间，在相机运动很快的情况下，就很容易造成特征追踪过程中的配准的失败。为了加快配准的速度，先降低所述当前帧的分辨率，对该分辨率下的当前帧进行位姿估计，因为分辨率降低了，图像中的边缘点也就会更少，配准的速度就会得到加快，所以配准过程所需要的时间就被缩短，这样就保证了不会出现配准失败的情况。

因为在SLAM方法中，对在当期帧中寻找关键帧的边缘特征对应的最近点的实时性要求比较高，优选的，采用欧式距离变换来加速寻找最近点，以提高进行位姿估计的效率。

在位姿估计之后计算出当前帧相对于距离当前帧时间最近的关键帧的运动位姿。当前帧的估计位姿与该关键帧的位姿之间的差值则等于当前帧相对于该关键帧的运动位姿；运动位姿是一个既有大小又有方向的矢量。

最后就需要判断能否将当前帧加入关键帧序列，这里采用将所述运动位姿对应的大小与预先设定的第一阈值对比的方式，将运动位姿对应的大小大于或等于第一阈值的当前帧加入关键帧序列。另外，为了防止漏判，针对运动位姿对应的大小小于第一阈值的当前帧，采用其平均残差进行进一步判断，首先根据当前帧的整体残差求出其平均残差，将平均残差与预先设定的第二阈值进行对比，将平均残差大于或等于第二阈值的当前帧加入关键帧序列。

基于上述说明，根据本发明的一个实施例，对当前帧和关键帧的边缘特征进行配准和位姿估计包括如下步骤：

W1、求出该关键帧中3D边缘特征点的集合P^KF,其中KF为关键帧的缩写；

其中

为该关键帧2D图像中的边缘点坐标，π为视觉传感器投影，π^-1为视觉传感器逆投影

其中d_i为该点对应的深度值，X、Y、Z分别为该点在当前视觉传感器坐标系下3D点横坐标、纵坐标和竖坐标的值，x、y是3D点对应在当前视觉传感器平面的二维像素坐标下的横坐标和纵坐标。f_x、f_y、c_x、c_y均为视觉传感器的内置参数，都是固定的常数。其中，f_x表示视觉传感器的x轴上的焦距，f_y表示视觉传感器y轴上的焦距，c_x表示视觉传感器光心相对图像中心在x轴方向上偏移、c_y表示视觉传感器光心相对图像中心在y轴方向上偏移。

W2、通过欧式距离变换来加速在当前帧中重复寻找最近点。

提取边缘特征后，当前帧图像的边缘特征为一幅二值图像，欧式距离变换是计算并标识该关键帧中3D边缘特征点的集合P^KF对当前帧中3D边缘特征点的集合距离的过程，欧式距离变换时构建一个2D网格，网格大小与图像尺寸相同，网格中的每个元素p_i表示离该元素最近的边缘点，对于每个元素来说这都是一个固定值，每次查询3D点投影到当前帧坐标系下的2D坐标对应的值D(p_i)即为该点对应的最近点的坐标。

W3、根据寻找到的最近点构造当前帧的整体残差；

其中g(p_i)为该点p_i处的归一化梯度向量，N为特征点的集合P^KF中特征点的个数。

W4、根据当前帧的整体残差进行位姿估计，求得估计位姿

另外为了保证位姿估计的精确度，优选的，采用三层尺度金字塔模型进行由粗粒度到细粒度的迭代配准，用粗粒度的图像进行快速的粗略地进行位姿估计，用作细粒度图像的初始解，再用细粒度图像进行精准的匹配，这样可以保证在收敛到全局最优解的同时，不需要很多的迭代步数。三层尺度金字塔模型中包括低分辨率、中分辨率和高分辨率三种分辨率的当前帧图像。根据本发明的一个实施例，采用该模型进行配准包括：

W41、针对低分辨率的当前帧图像，采用匀速模型进行位姿估计，具体如下：

针对低分辨率的当前帧图像，根据上一时刻视觉传感器的速度和位姿预测当前时刻当前帧的位姿，得到当前帧的预测位姿，以所述预测位姿作为初始值，使用迭代的非线性最小二乘法对当前帧低分辨率图像的整体残差进行优化，使用优化后的整体残差对当前帧低分辨率图像进行位姿估计。

为了进一步提高位姿估计的准确性，根据上述实施例可知当前帧的估计位姿是整体残差的函数，所以对整体残差进行优化便能够提高当前帧的估计位姿的准确性。

以低分辨率图像的整体残差r为目标函数，以当前时刻的位姿为优化变量，以根据上一时刻视觉传感器的速度和位姿预测出的预测位姿为优化变量的初始值，采用迭代的非线性最小二乘法来优化上述整体残差r函数，在每次迭代过程中，由于Δη很小，因此可以近似的认为D(p_i)保持不变，因此通过高斯牛顿法或者LM法对该优化问题进行求解。

W42、再以低分辨率图像的位姿估计结果作为初始值通过非线性最小二乘法对中分辨图像的整体残差进行优化，根据优化后的整体残差对中分辨率图像进行位姿估计；

W43、最后以中分辨率图像的位姿估计结果作为初始值通过非线性最小二乘法对高分辨图像的整体残差进行优化，根据优化后的整体残差对高分辨率图像进行位姿估计，这里高分辨率图像的分辨率就等于该当前帧图像在降低分辨率前的分辨率。

这样一来不但减少了迭代步数，加快了配准速度，而且即使在视觉传感器快速移动的情况下也保证了不会出现配准失败，提高了本方法的实用性。

W5、根据求出的当前帧的估计位姿

求出当前帧相对于该关键帧的运动位姿；

W6、通过联合判断是否形成新的关键帧。

根据本发明的一个实施例，将运动位姿对应的大小与预先设定的第一阈值对比将运动位姿对应的大小大于或等于第一阈值的当前帧加入关键帧序列。

针对运动位姿对应的大小小于第一阈值的当前帧，计算该当前帧的平均残差

其中r为当前帧的整体残差，N为特征点的集合P^KF中特征点的个数，

将平均残差与预先设定的第二阈值进行对比，将平均残差大于或等于第二阈值的当前帧加入关键帧序列。

这里运动位姿对应的大小即为运动位姿的模，通过将该模与预先设定的第一阈值或者将平均残差与预先设定的第二阈值进行对比，联合判断能否将当前帧加入关键帧序列。第一阈值和第二阈值的取值决定了关键帧序列中两个关键帧之间的运动位姿的大小，第一阈值和第二阈值通过实验设定，若需要构建精细化的全局地图时，便可以将第一阈值和第二阈值的值都取小一些，这样得到的关键帧序列中关键帧的密度较大；若需要构建大致化的全局地图时，便可以将第一阈值和第二阈值的值都取大一些，这样得到的关键帧序列中关键帧的密度较小。

A3、根据位姿估计结果进行非线性优化。

构建包含有多个最近的关键帧的滑动窗口；构造该滑动窗口内关键帧的总残差并对所述总残差进行非线性优化，根据优化结果对滑动窗口内的所有关键帧的位姿进行重新计算。根据本发明的一个实施例，其包括下列步骤：

F1、构建大小为J的滑动窗口，其中包含了J个最新关键帧，优选的，J∈[4,10]的闭区间；以J＝4为例，当关键帧序列中的关键帧的数量小于4时，则不进行非线性优化，当关键帧序列中的关键帧的数量大于或等于4时，开始进行非线性优化。

F2、构造滑动窗口内任意两帧关键帧之间的整体残差和作为总残差，那么该滑动窗口内总残差的数量应为

个，总残差的表达式如下：

r_ij表示该滑动窗口内第i帧关键帧的位姿和第j帧关键帧的位姿。

F3、以这两个关键帧的位姿作为优化变量，记录当该总残差E达到最小值时，这两帧关键帧的位姿，并用该位姿替换到这两帧关键帧原来的位姿，以此对滑动窗口内所有的关键帧进行位姿优化。

F4、滑动窗口沿着关键帧序列进行滑动，以上述方式对关键帧序列中所有的关键帧的位姿进行调整。

A4、比较最新关键帧与其他关键帧的词向量的距离，进行闭环检测。

闭环检测用于通过检测当前帧和之前关键帧的相似度，来判断相机是否到达之前的某一场景。高效的闭环检测是SLAM精确求解的基础。传统的基于特征点的SLAM方法通常采用Bow(Bag of word)词袋模型进行闭环检测，通过提取特征点描述子并通过结合离线训练的字典将关键帧转化为词向量表示，通过比较两个关键帧所对应词向量的距离来判断其相似度大小，若词向量的距离小于给定阈值则认为形成闭环，进而重新计算位姿和进行全局优化。

由于本发明采用了比特征点信息更丰富的图像边缘特征进行位姿估计，优选的，本发明优选采用基于边缘曲线的均值-标准差描述子进行闭环检测，其好处在于，均值-标准差描述子具有平移、旋转、光照、运动模糊等不变性，有利于提高闭环检测的准确性。此外本实施例同样采用了Bow(Bag of word)词袋模型，将关键帧的边缘特征转化为词向量，并比较最新关键帧和其它各关键帧的词向量之间的向量差值；通过比较两个关键帧所对应词向量的距离来判断最新关键帧序列是否形成闭环，若存在两个关键帧的词向量小于第三阈值则认为形成闭环，进而重新计算位姿和进行全局优化。

接下来对边缘特征的均值-标准差描述子做具体介绍：

如图3和图4所示，给定一个边缘中的直线段L，该直线段由N个点组成，沿着每个点的梯度方向将邻域划分为M个子空间，如图所示(以M＝3为例)，G_i表示第i个点的邻域，G_ij表示第i个点的邻域的第j个子空间。在每一个子空间统计所在该子空间的像素的梯度分布，用一个四维的向量

表示，其中

g_⊥(p)表示该点p的梯度的垂直分量，g_||(p)表示该点p梯度的平行分量，此时子空间G_ij的描述符就用一个四维的向量V_ij表示，可以证明这种描述符的构造方式具有旋转不变性。

将该曲线上所有点的邻域的子空间的描述符组成一个4MxN的矩阵D，

矩阵D包含了该曲线邻域内大量的结构化信息，但是它还不能用来直接去描述该曲线，因为它的尺寸大小随着曲线长度而变化。为了使得描述子独立于曲线长度，这里对D的行向量进行数值统计。

首先对D的行向量分别计算均值和标准差，M(D)＝Mean(V₁,V₂,…,V_N),S(D)＝Std(V₁,V₂,…,V_N)。此外，为了使描述子满足光照不变性，将均值向量和标准差向量分别归一化，然后将归一化后的均值向量和标准差向量组成最终的曲线均值-标准差描述子：

如图5所示，接下来针对如何使用均值-标准差描述子进行闭环检测的过程包括以下步骤：B1、B2、B3和B4中的一个或者多个。

B1、构建训练图像，训练图像为一个图像集合，该集合中图像的内容为各种各样的边缘特征，针对训练图像所包含的所有边缘特征分别计算其均值-标准差描述子；优选的，本发明将边缘特征的每个点的邻域划分为9个子空间，每个子空间的大小为5x5，因此边缘特征的每条曲线的描述子都为一个72维的向量。

B2、训练离线字典，将计算出的均值-标准差描述子作为视觉词汇，组成一个视觉词汇集合，基于这个视觉词汇集合，利用K-Means算法构造视觉词汇表。

K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把L个对象分为K个簇，其中L和K均为正整数,以使簇内具有较高的相似度，而簇间相似度较低。根据视觉词汇之间距离的远近，利用K-Means算法将词义相近的视觉词汇合并，作为词汇表中的基础视觉词汇。

B3、使用该视觉词汇表对Bow(Bag of Word)词袋模型进行训练；

根据本发明的一个实施例，利用Bow(Bag of Word)词袋模型以及训练好的视觉词汇表将一幅图像表示成为词向量，包括如下步骤：

首先提取输入图像的边缘特征均值-标准差描述子，再在视觉词汇表中寻找距离该均值-标准差描述子距离最近的视觉词汇，图像中的每个边缘曲线都将被映射到视觉词汇表的某个词上，统计每个视觉词汇的出现的次数，则可将图像描述为一个维数相同的直方图向量；计算词频(TF)和逆文档频率(IDF)，进而得到TF-IDF矩阵，最后对TF-IDF矩阵进行L2归一化处理，便得到输入图像的词向量。

B4、将最新关键帧以及带比较的关键帧输入训练好的模型中，得到二者各自的词向量，求出两个词向量之间的向量差值；将所述向量差值与预先设定的第三阈值进行对比，若所述向量差值小于或等于第三阈值则认为该关键帧序列形成闭环。

第三阈值是通过实验设定的，根据实际环境的不一样第三阈值可以不一样。

A5、根据闭环检测结果进行全局优化。

在检测到闭环后进行全局优化,优选的，目标函数为∑||η(KFⁱ)-T_ijη(KF^j)||²，优化变量为所有关键帧的位姿η(KFⁱ)∈SE(3)，其中KF为关键帧的缩写，KFⁱ表示第i帧关键帧，其中T_ij为第j个关键帧到第i个关键帧的位姿变换矩阵，采用非线性优化得方式进行最优位姿估计，从而进行全局优化，消除累计误差。

A6、根据关键帧序列中关键帧所包含的信息构建全局地图。

优选的，根据关键帧序列中关键帧所包含的信息采用点云拼接的方式构建全局地图。

根据本发明的一个实施例，本发明提供一种基于图像边缘特征的视觉SLAM系统，如图6所示，包括：

图像获取模块，用于获取当前所处环境的连续图像；该模块旨在获取当前视觉传感器所处环境的连续图像,优选采用RGB-D传感器作为边缘特征提取模块，获取周围环境的RGB图像和Depth深度图。

边缘特征提取模块，用于提取所获取图像的边缘特征；该模块旨在提取图像的边缘特征，即用尽可能少的点最大可能的还原真实场景。该模块中采用Canny算子对边缘特征进行提取：使用高斯滤波器对获取的图像进行平滑处理以滤除噪声；计算图像中每个像素点的梯度强度和方向；采用非极大值抑制的方式消除杂散响应；应用双阈值检测的方式来确定真实的和潜在的边缘；最后通过抑制孤立的弱边缘完成边缘特征的提取。

特征追踪模块，用于将所述图像的当前帧和关键帧的边缘特征进行配准和位姿估计；该模块旨在以当前帧和关键帧的边缘特征为输入，通过3D-2D的PLICP(点到线的迭代最近点算法)进行匹配，迭代的寻找最近点并接着通过非线性最小二乘法进行优化，优化变量为3自由度的旋转向量r∈so(3)，其中so(3)为特殊三维正交群SO(3)的李代数，3自由度的平移向量

其中

表示三维欧式群。

后端优化模块，用于根据位姿估计结果进行非线性优化；该模块旨在采用滑动窗口的方式对关键帧位姿进行非线性优化。给定滑动窗口的大小为Q，其包含最新的Q个关键帧，构造总的残差为E＝∑_i∈Q∑_j∈Q,j≠ir_ij；其中，优化变量为滑动窗口内关键帧的位姿η∈SE(3)，其中SE(3)为三维特殊欧几里德群，采用非线性优化得方式优化残差E使得E最小，从而进行最优位姿估计。

闭环检测模块，用于根据非线性优化结果进行闭环检测；该模块旨在通过检测当前帧和之前关键帧的相似度，来判断相机是否到达之前的某一场景，从而可以通过添加约束信息来减少累积误差。高效的闭环检测是SLAM精确求解的基础。

全局优化模块，用于根据闭环检测结果进行全局优化；该模块旨在当检测到闭环时，添加闭环约束进行全局优化。优化变量为所有关键帧的位姿，目标函数为∑||η(KFⁱ)-T_ijη(KF^j)||²，优化变量为所有关键帧的位姿η(KFⁱ)∈SE(3)，其中KF为关键帧的缩写，KFⁱ表示第i帧关键帧，其中T_ij为第j个关键帧到第i个关键帧的位姿变换矩阵，采用非线性优化得方式进行最优位姿估计，从而进行全局优化，消除累计误差。

本发明旨在提供一种基于图像边缘特征的视觉SLAM方法和系统，对输入图像提取边缘特征，通过将两帧图像的边缘特征进行配准来估计相对运动，以及后续基于边缘特征进行后端优化与闭环检测。相对于传统的方法，首先，图像边缘是整个图像中重要的组成部分，往往能代表整幅图像，拥有更高的整体精度和信噪比，更加鲁棒。其次，边缘特征在稀疏纹理下也能鲁棒的运行，对光照变化的抗干扰能力也较强。最后，图像边缘特征是对真实场景的最朴素的表达，其建立的地图能很好的还原真实场景。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种基于图像边缘特征的视觉SLAM方法，其特征在于，包括如下步骤：

S1、通过视觉传感器获取图像；

S4、根据所述关键帧序列中关键帧所包含的信息构建全局地图；

其中，所述步骤S2包括：

将当前输入的图像作为当前帧；

根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿，其中，采用尺度金字塔对根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿的过程进行优化，包括：降低所述当前帧的分辨率，对该分辨率下的当前帧进行位姿估计；至少进行两次梯级式提高当前帧图像的分辨率至降低前的分辨率，每次提高后，以上一梯度分辨率的当前帧图像的位姿估计结果作为初始值，使用迭代的非线性最小二乘法对当前分辨率下的整体残差进行优化，根据整体残差优化结果对当前分辨率下的当前帧图像进行位姿估计，根据位姿估计结果求出当前帧相对于所述关键帧的运动位姿；

将所述运动位姿对应的大小与预先设定的第一阈值对比，将运动位姿对应的大小大于或等于第一阈值的当前帧加入关键帧序列；

对运动位姿对应的大小小于第一阈值的当前帧计算其平均残差，将平均残差与预先设定的第二阈值进行对比，将平均残差大于或等于第二阈值的当前帧加入关键帧序列。

2.根据权利要求1所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，所述步骤S1还包括：基于获取的图像将其中一帧图像作为第一帧关键帧。

3.根据权利要求2所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，对当前帧以及距离当前帧时间最近的关键帧的边缘特征使用点到线的迭代最近点算法构造当前帧的整体残差，包括：

4.根据权利要求3所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，采用欧式距离变换加速在当前帧中查找所述关键帧的边缘特征对应的最近点。

5.根据权利要求2所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，根据当前帧的整体残差求出当前帧相对于所述关键帧的运动位姿，包括：

6.根据权利要求1所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，所述步骤S3包括：

将所有关键帧的边缘特征转化为词向量；

7.根据权利要求6所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，将所有关键帧的边缘特征转化为词向量，包括：

8.根据权利要求1所述的一种基于图像边缘特征的视觉SLAM方法，其特征在于，在进行闭环检测前对关键帧序列中所有关键帧的位姿进行非线性优化，包括：

构建包含有多个最近的关键帧的滑动窗口；

9.一种基于图像边缘特征的视觉SLAM系统，其特征在于，包括：

图像获取模块，用于获取当前所处环境的连续图像；

边缘特征提取模块，用于提取所获取图像的边缘特征；

特征追踪模块，用于将所述图像的当前帧和关键帧的边缘特征进行配准和位姿估计，构建关键帧序列，其中，所述关键帧序列是按以下方式构建的：

将当前输入的图像作为当前帧；

对运动位姿对应的大小小于第一阈值的当前帧计算其平均残差，将平均残差与预先设定的第二阈值进行对比，将平均残差大于或等于第二阈值的当前帧加入关键帧序列；

后端优化模块，用于根据位姿估计结果进行非线性优化；

全局优化模块，用于根据闭环检测结果进行全局优化；

10.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求1至8任一所述方法的步骤。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述电子设备实现如权利要求1至8中任一项所述方法的步骤。