CN113223045B

CN113223045B - 基于动态物体语义分割的视觉与imu传感器融合定位系统

Info

Publication number: CN113223045B
Application number: CN202110544442.2A
Authority: CN
Inventors: 郭金辉; 赵明乐
Original assignee: Beijing Digital Research Technology Development Co ltd
Current assignee: Beijing Digital Research Technology Development Co ltd
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2024-06-11
Anticipated expiration: 2041-05-19
Also published as: CN113223045A

Abstract

本发明公开了基于动态物体语义分割的视觉与IMU传感器融合定位系统，包括前端算法，所述前端算法分为特征提取和跟踪模块是为获取特征点的数据关联，利用KLT法对相邻帧之间的特征点进行跟踪；实例分割和跟踪模块使用Deep SORT算法进行跟踪，用于提供语义信息的数据关联；动态物体处理模块通过动态物体处理算法对动态特征点进行识别，在定位和建图中进行剔除；IMU预积分模块是对IMU测量值进行积分，采用IMU预积分作为观测值，将世界坐标系转换为局部坐标系后，进行直接积分。本发明通过利用视觉传感器与IMU传感器的优势：IMU传感器改善了单目摄像头在运动较快时图像会出现模糊而导致的定位失败问题；同时视觉传感器改善了IMU累积误差较大的问题。

Description

基于动态物体语义分割的视觉与IMU传感器融合定位系统

技术领域

本发明涉及视觉定位技术领域，具体来说，涉及基于动态物体语义分割的视觉与IMU传感器融合定位系统。

背景技术

随着全球卫星导航系统的逐步完善、移动互联网和无线通信技术的快速发展，导航与位置服务 (Location-Based Services，LBS) 对应急、国防、物流、交通、广告和社交等领域均具有重要价值。据《2020中国卫星导航与位置服务产业发展白皮书》显示，我国每年导航与位置服务产业产值达到上千亿元。随着智能手机和穿戴设备的不断普及，导航与位置服务的需求目前仍处于爆炸式增长阶段。在室外无遮挡环境下，利用全球卫星导航系统(Global Navigation Satellite System，GNSS) 进行定位已基本可以满足日常使用需求。然而在森林、山地、城市高楼、建筑内部等复杂环境下，由于遮挡或多路径效应，基于导航卫星的定位技术会产生较大误差甚至失效。

传统的视觉定位方法主要利用单目摄像头的图像信息，根据多视角几何的原理对相机的位姿进行解算。

2015年Raul Mur-Artal等提出ORB-SLAM，ORB-SLAM分为三个线程：跟踪、局部优化和回环。在跟踪线程中首先会对图像提取ORB特征点并进行特征匹配，然后根据特征匹配结果计算相机位姿；局部优化部分负责对相机位姿和局部地图进行非线性优化；而回环线程使用词袋模型 (Bag of Words，BoW) 判断是否到达过先前的位置，然后根据回环检测结果进行位姿图优化，从而获得全局一致的轨迹和地图。此外，ORB-SLAM还在特征点提取、鲁棒初始化、关键帧选取策略等方面做了许多优化。许多研究工作在ORB-SLAM 基础上进行改进，在公开数据集上均取得了较好的效果。

慕尼黑工业大学Jakob等人提出LSD-SLAM算法。与特征点法SLAM不同，LSD-SLAM属于一种直接法SLAM系统。特征点法将数据关联和位姿估计分为两个部分进行，而直接法不用提取特征点，直接使用像素的光度误差作为损失函数进行优化，以更整体的方式计算得到位姿。这种方法节省了特征提取和特征匹配的时间，因此可实现半稠密甚至稠密地图的实时重建。由不依赖于特征点，直接法 SLAM在缺乏角点、重复纹理的环境下仍可正常使用。

在实际应用过程中，单目传感器定位往往存在问题：相机获取的图像易受外界环境干扰(遮挡、运动物体、无纹理场景、光照变化等)；在运动较快时图像会出现模糊，从而导致定位失败；单目摄像头无法得到真实世界的尺度信息，因此相机坐标系无法与真实的世界坐标系进行对齐，具有尺度偏差；传统的基于单目摄像头的定位算法对动态场景没有处理能力，形成错误的数据关联，导致定位精度很差甚至定位丢失而无法定位。

视觉SLAM系统无法恢复尺度信息的缺点限制了进一步应用。然而通过将视觉和IMU进行结合，不仅可以恢复绝对尺度信息，还提高了系统的鲁棒性，近年来逐渐成为研究热点。视觉与IMU的融合方式分松耦合和紧耦合两种，松耦合表示将IMU定位与视觉定位位姿直接融合得到结果，而紧耦合将视觉约束信息与IMU约束联合解算，最终得到待求位姿。

Mourikis等于2007年提出MSCKF算法(Multi-State Constraint KalmanFilter),该算法同样使用扩展卡尔曼滤波作为后端，在预测阶段使用IMU数据进行系统状态传递，在更新阶段维护一个滑动窗口。MSCKF通过对路标点边缘化来给共视帧添加约束，从而实现在不丢失信息的同时大大降低计算复杂度。

VINS-Mono是香港科技大学团队于2017年开源的一个成熟的视觉惯性SLAM系统，其主要包括前端、初始化、后端优化、回环检测和全局位姿图优化五个部分，VINS-Mono前端使用Harris角点光流跟踪，而IMU部分使用预积分得到观测量。初始化部分采用松耦合方式进行，即首先通过运动恢复结构初始化，并以此为运动参考估计其他参数，再将视觉坐标系与世界坐标系对齐。后端部分进行一个滑动窗口优化，并采用一种边缘化策略来尽可能防止信息丢失或冗余：1) 当滑动窗口中第二新的图像帧为关键帧，则边缘化最老的帧，以及上面的路标点；2) 当滑动窗口中第二新的图像帧不是关键帧，则丢弃这一帧上的视觉测量信息，并将IMU预积分传给下一帧。此外，为提供全局一致地图，VINS-Mono还加入回环检测、重定位等功能，使整个系统更加完整、鲁棒。

视觉惯性SLAM的研究取得较大进展，在机器人、无人机、增强现实等领域已得到广泛应用。但现有的SLAM算法通常基于静态环境假设。而现实世界中往往存在大量运动物体，这些运动物体会造成特征点遮挡或误匹配，使得多数SLAM算法在动态环境下可靠性仍然较差。对动态场景没有处理能力，形成错误的数据关联，导致定位精度很差甚至定位丢失而无法定位。

同时定位与地图构建 (Simultaneous Localization and Mapping，SLAM)是一种起源于上个世纪80年代的机器人领域技术，可在未知环境中进行建图并确定自身位置。随着SLAM技术的不断发展，其定位精度和鲁棒性不断提高，目前已广泛应用于自动驾驶、深空探测和增强现实等领域。

动态环境是影响SLAM技术定位精度最重要的因素之一。SLAM通常基于静态环境假设，但在现实世界中，环境中往往存在大量动态物体，如车辆、行人、宠物等。动态环境下，数据关联时易出现误匹配，从而影响定位精度。此外，构建的点云或网格地图会出现重影，限制了地图定位、导航、避障、交互等应用功能。因此，为解决以上问题，动态环境下视觉惯性融合定位方法显得尤为重要。

本发明涉及多传感器辅助的融合定位前端方法，充分利用摄像头和惯性测量传感器 (Inertial Measurement Unit，IMU) 获得的多传感器信息进行动态环境中的定位，应用场景众多，具有很强的理论意义与实际应用价值。

发明内容

针对相关技术中的上述技术问题，本发明提出基于动态物体语义分割的视觉与IMU传感器融合定位系统，能够克服现有技术方法的上述不足。

为实现上述技术目的，本发明的技术方案是这样实现的：

基于动态物体语义分割的视觉与IMU传感器融合定位系统，包括前端算法，所述前端算法分为特征提取和跟踪模块、实例分割和跟踪模块、动态物体处理模块、IMU预积分模块，其中，

所述特征提取和跟踪模块是为获取特征点的数据关联，利用KLT法对相邻帧之间的特征点进行跟踪；

所述实例分割和跟踪模块使用Deep SORT算法进行跟踪，用于提供语义信息的数据关联；

所述动态物体处理模块通过动态物体处理算法对动态特征点进行识别，在定位和建图中进行剔除，通过将几何和语义信息进行结合，处理动态特征点；

所述IMU预积分模块是对IMU测量值进行积分，通过直接积分，当前状态量依赖于先前帧的状态量，采用IMU预积分作为观测值，将世界坐标系转换为局部坐标系后，进行直接积分。

进一步地，所述KLT法使用金字塔迭代的方法进行跟踪，是基于光流原理的一种特征点跟踪算法，与普通光流法直接比较像素点灰度值不同，KLT法比较像素点周围的窗口像素，以寻找最相似的像素点。

进一步地，所述Deep SORT算法分为四步骤包括：目标检测、特征提取、相似度计算和数据关联，所述目标检测是利用目标检测算法对原始图像进行处理，得到边界框；特征提取是对边界框图像裁剪后，利用卷积神经网络提取特征描述；相似度计算是计算每对检测和跟踪特征之间的成本矩阵；数据关联是计算出检测和跟踪目标之间最佳关联。

进一步地，在相似度计算阶段，需根据相似度或距离度量对每对检测和跟踪的目标特征进行评分，对较简单的目标跟踪算法，进行计算边界框交并比作为评价度量，而DeepSORT使用两种不同的指标，几何上，使用马氏距离用来衡量新检测目标的位置与已跟踪目标的位置间的差异；外观上，利用卷积神经网络对每个目标检测结果提取得到外观描述，利用外观描述之间的余弦距离表示目标外观上的相似程度，两种指标通过加权和结合起来，得到最终的相似度量。

进一步地，在数据关联阶段，Deep SORT使用成本矩阵匹配检测目标和跟踪目标，对于跟踪丢失的目标直接丢弃并未任何匹配的检测目标创建新的跟踪目标，匹配过程中使用匈牙利算法进行计算。

进一步地，所述动态物体处理模块中，基于几何约束的动态物体处理算法基于基础矩阵模型，利用RANSAC法对不符合该几何模型的特征点进行检测并剔除所述基础矩阵中表示了静态地图点在两张不同视角图像上的几何关系。

进一步地，所述基于几何约束的动态物体处理算法只能检测和剔除较小的运动特征点，而基于语义信息的动态物体算法利用先验信息检测动态物体，根据实例分割结果，进一步得到动态物体掩膜图像，根据动态掩膜图像，对每帧图像上的动态特征点进行剔除，Deep SORT算法在得到动态物体掩膜图像后，又对掩膜图像进行了膨胀图像学操作，以扩张掩膜边界。

本发明的有益效果：通过充分发挥IMU传感器和视觉传感器两者的优势，将纯单目视觉定位算法中的尺度不客观问题消除，同时利用视觉传感器与IMU传感器的优势，IMU传感器改善了单目摄像头在运动较快时图像会出现模糊而导致的定位失败问题；同时视觉传感器改善了IMU累积误差较大的问题，通过根据动态环境中的动态物体语义信息，提取、分割、跟踪动态物体，同时提出位于动态物体上的特征点，克服了动态环境中已出现的误匹配问题与错误数据关联问题，极大提高了定位的精度与鲁棒性；通过利用物体的语义信息，为后续模块提供了更高级的环境感知与语义信息；通过采用Mask R-CNN，类似的替代方法可能会利用不同的卷积神经网络模型进行物体语义分割。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统的前端算法流程图。

图2是根据本发明实施例所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统的基础矩阵示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围，为了方便理解本发明的上述技术方案，以下通过具体使用方式上对本发明的上述技术方案进行详细说明。

本发明以动态物体实例分割进行动态特征点剔除，并与IMU传感器数据进行融合作为视觉惯性定位算法的前端方法。

根据本发明实施例所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统，包括前端算法，视觉和IMU融合定位方法均能够获得旋转和平移状态量，如图1所示，所述前端算法分为特征提取和跟踪模块、实例分割和跟踪模块、动态物体处理模块、IMU预积分模块。

所述特征提取和跟踪模块是为获取特征点的数据关联，利用KLT法对相邻帧之间的特征点进行跟踪；其中对于每张图像，前端提取Harris角点，为了保证具有足够多的特征点用于计算，同时为了防止计算量过大，需对图像上的特征点数量进行限制(100-300个)。此外，为了避免特征点分布过于集中，在提取特征点时，特征点间需要保证一定的距离。

其中所述KLT法是基于光流原理的一种特征点跟踪算法，与普通光流法直接比较像素点灰度值不同，KLT法比较像素点周围的窗口像素，以寻找最相似的像素点，由于不同特征点在相邻图像上产生的位移大小不同，从而增加了光流跟踪的难度。为此，KLT法使用金字塔迭代的方法进行跟踪。

由于目标检测领域的迅速发展，基于检测的跟踪已经成为多目标跟踪 (Multi-Object Tracking，MOT) 的主流方法。SORT在目标出现短暂遮挡时效果较差，会将跟踪目标识别为一个新的对象。为了解决该问题，Deep SORT在SORT算法基础上做了深度图像特征、级联匹配等改进，取得了较高的精度和实时性。因此，本发明实例分割和跟踪模块使用DeepSORT算法进行跟踪，用于提供语义信息的数据关联。

所述Deep SORT等MOT算法大致分为四个步骤：①目标检测：利用目标检测算法对原始图像进行处理，得到边界框；②特征提取：对边界框图像裁剪后，利用卷积神经网络提取特征描述；③相似度计算：计算每对检测和跟踪特征之间的成本矩阵；④数据关联：计算出检测和跟踪目标之间的最佳关联。

上述其中在相似度计算阶段，需要根据相似度或距离度量对每对检测和跟踪的目标特征进行评分。对于较简单的目标跟踪算法，会计算边界框交并比(Intersection overUnion， IOU)作为评价度量。而Deep SORT使用两种不同的指标。几何上，使用马氏距离用来衡量新检测目标的位置与已跟踪目标的位置间的差异。马氏距离提供了基于运动的目标位置信息，有助于短期预测，其计算公式如下：

其中，记(y_𝑖, S_𝑖)表示第𝑖个跟踪目标在测量空间的分布，用d_𝑗表示第𝑗个检测的边界框。

外观上，利用卷积神经网络对每个目标检测结果提取得到外观描述子，利用外观描述子间的余弦距离表示目标外观上的相似程度。外观描述子的余弦距离有助于重识别遮挡后的跟踪目标，其计算公式为：

其中，对于每个边界框检测d_𝑗，利用卷积神经网络对其计算一个单位外观描述子r_𝑗。记R_𝑖表示100个和第𝑖个跟踪目标相匹配的外观描述子集合。

两种指标通过加权和结合起来，得到最终的相似度量：

在数据关联阶段，Deep SORT使用成本矩阵匹配检测目标和跟踪目标。对于跟踪丢失的目标进行丢弃，并为任何未匹配的检测目标创建新的跟踪目标。匹配过程通常使用匈牙利算法计算，以找到一个最优的匹配结果。

1) 当一个检测目标和一个跟踪目标之间匹配成功后，需要依据新检测的目标，对已跟踪目标的状态信息进行更新。Deep SORT使用卡尔曼滤波不断进行预测和更新。目标跟踪过程中运动方程和观测方程可以由线性方程表示：

其中，下标𝑘表示不同的时刻，x为状态量，其协方差矩阵记为P。z为观测值，w和v为高斯白噪声，满足w ∼ N(0,R)，v ∼ N(0,Q)。

在Deep SORT 中，目标的状态量表示为一个8维向量。卡尔曼滤波共分为两个阶段：1) 预测目标在下一时刻的位置，2) 基于目标检测结果对预测位置进行更新。

在预测阶段，基于跟踪目标在𝑘 − 1时刻的状态，Deep SORT采用匀速运动模型(Constant Velocity Model)来预测其在𝑘时刻的状态：

其中，x′和P′分别表示目标状态均值和协方差矩阵的预测值。

在更新阶段，Deep SORT基于k时刻检测到的目标，校正与其关联的跟踪目标的状态，以得到一个更精确的结果。首先计算卡尔曼增益K为：

卡尔曼增益表示测量值和当前状态估计值的相对权重。当处于高增益时，滤波器对最近的观测值赋予更高的权重，反之则降低观测值的权重。根据卡尔曼增益，对状态量进行更新为：

2) 当之前的跟踪目标匹配新检测目标识别时，Deep SORT对跟踪目标没有匹配的帧数进行统计。当未匹配帧数大于一定阈值后，则将该跟踪目标标记为丢失。另外，为了防止因遮挡而造成跟踪丢失，需要根据情况将该阈值设置稍大一些。

3) 当新检测的目标没有匹配时，则为其创建一个新的跟踪目标。在实际应用中，为了防止存在目标检测效果较差的情况，新跟踪目标在成功匹配一定数量后才予以确认。

所述动态物体处理模块通过动态物体处理算法对动态特征点进行识别，在定位和建图中进行剔除，基于几何约束的动态物体处理算法无需先验信息就可以检测动态特征点，但只能在动态物体较少的情况下使用。而基于语义信息的动态物体处理算法适用于高动态场景，但通常需要预先设定动态物体的类别，因此，通过将几何和语义信息进行结合，处理动态特征点。

如图2所示，基于几何约束的动态物体处理算法基于基础矩阵模型，利用RANSAC法对不符合该几何模型的特征点进行检测并剔除。基础矩阵表示了静态地图点在两张不同视角图像上的几何关系。三维空间中一点X在左右两个不同视角相机中成像坐标分别为x和x′，极线l′由极点e′和x′连接得到。记极线l′=Fx，则基础矩阵约束可以表示为：

其中，F 为3 × 3大小的基础矩阵，矩阵的自由度为7，至少需要7对匹配点求解。为方便计算，通常也会使用八点法线性求解。

理论上，静态特征点应满足基础矩阵模型，其余不满足模型的特征点即为动态特征点(或异常点)。因此，利用RANSAC法计算基础矩阵模型，并从所有特征点中区分出静态和动态特征点。以八点法为例，RANSAC法首先随机选择八对点，并据此计算得到基础矩阵。然后，根据距离阈值判断所有点中哪些点属于内点。通过多次循环，内点数最多的模型即为最终的基础矩阵模型，从而区分出静态和动态特征点。

基于几何约束的动态物体处理算法只能检测和剔除较小的运动特征点，而基于语义信息的动态物体处理算法利用先验信息检测动态物体，如常见的动态物体包括行人、动物、车辆等类别。根据实例分割结果，可进一步得到动态物体掩膜图像。动态物体掩膜图像与原相机图像大小一致，像素值为255表示动态物体，而像素值为0表示非动态物体。记D为动态物体类别的集合，则动态物体掩膜图像数学上可表示为：

根据动态物体掩膜图像，对每帧图像上的动态特征点进行剔除。另外，由于前景和背景之间的物体边界处往往具有明显的梯度变化，特征提取算法容易从动态对象的边缘处提取特征点。因此，本算法在得到动态物体掩膜图像后，又对掩膜图像进行了膨胀图形学操作，以扩张掩膜边界。

所述IMU预积分模块是对IMU测量值进行积分，𝑡时刻的IMU测量模型可以表示为：

通过直接积分，当前状态量依赖于先前帧的状态量，采用IMU预积分作为观测值，将世界坐标系转换为局部坐标系后，进行直接积分，直接积分模型表示为：

其中，

为预积分量。由于IMU测量值为离散数据，需要使用欧拉积分、中值积分、龙格-库塔法积分等数值积分方式得到预积分量。其中，中值积分计算量较小，且可以保证较好的逼近效果。因此算法选择使用中值积分，离散形式下预积分量为：

其中，

可得IMU预积分误差为：

综上所述，借助于本发明的上述技术方案，通过采用Mask R-CNN，类似的替代方法可能会利用不同的卷积神经网络模型进行物体语义分割，通过充分发挥IMU传感器和视觉传感器两者的优势，将纯单目视觉定位算法中的尺度不客观问题消除，同时利用视觉传感器与IMU传感器的优势，IMU传感器改善了单目摄像头在运动较快时图像会出现模糊而导致的定位失败问题；同时视觉传感器改善了IMU累积误差较大的问题，通过根据动态环境中的动态物体语义信息，提取、分割、跟踪动态物体，同时提出位于动态物体上的特征点，克服了动态环境中已出现的误匹配问题与错误数据关联问题，极大提高了定位的精度与鲁棒性；通过利用物体的语义信息，为后续模块提供了更高级的环境感知与语义信息。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于动态物体语义分割的视觉与IMU传感器融合定位系统，包括前端算法，所述前端算法分为特征提取和跟踪模块、实例分割和跟踪模块、动态物体处理模块、IMU预积分模块，其中，

所述KLT法使用金字塔迭代的方法进行跟踪，是基于光流原理的一种特征点跟踪算法，与普通光流法直接比较像素点灰度值不同，KLT法比较像素点周围的窗口像素，以寻找最相似的像素点；

所述Deep SORT算法分为四步骤包括：目标检测、特征提取、相似度计算和数据关联，所述目标检测是利用目标检测算法对原始图像进行处理，得到边界框；特征提取是对边界框图像裁剪后，利用卷积神经网络提取特征描述；相似度计算是计算每对检测和跟踪特征之间的成本矩阵；数据关联是计算出检测和跟踪目标之间最佳关联；

所述IMU预积分模块是对IMU测量值进行积分，通过直接积分，当前状态量依赖于先前帧的状态量，采用IMU预积分作为观测值，将世界坐标系转换为局部坐标系后，进行直接积分；

所述动态物体处理模块中，基于几何约束的动态物体处理算法基于基础矩阵模型，利用RANSAC法对不符合几何模型的特征点进行检测并剔除所述基础矩阵中表示了静态地图点在两张不同视角图像上的几何关系；

所述基于几何约束的动态物体处理算法只能检测和剔除较小的运动特征点，而基于语义信息的动态物体算法利用先验信息检测动态物体，根据实例分割结果，进一步得到动态物体掩膜图像，根据动态掩膜图像，对每帧图像上的动态特征点进行剔除，Deep SORT算法在得到动态物体掩膜图像后，又对掩膜图像进行了膨胀图像学操作，以扩张掩膜边界。

2.根据权利要求1所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统，在相似度计算阶段，需根据相似度或距离度量对每对检测和跟踪的目标特征进行评分，对较简单的目标跟踪算法，进行计算边界框交并比作为评价度量，而Deep SORT使用两种不同的指标，几何上，使用马氏距离用来衡量新检测目标的位置与已跟踪目标的位置间的差异；外观上，利用卷积神经网络对每个目标检测结果提取得到外观描述，利用外观描述之间的余弦距离表示目标外观上的相似程度，两种指标通过加权和结合起来，得到最终的相似度量。

3.根据权利要求1所述的基于动态物体语义分割的视觉与IMU传感器融合定位系统，在数据关联阶段，Deep SORT使用成本矩阵匹配检测目标和跟踪目标，对于跟踪丢失的目标直接丢弃并未任何匹配的检测目标创建新的跟踪目标，匹配过程中使用匈牙利算法进行计算。