CN113066129A

CN113066129A - 基于动态环境下的目标检测的视觉定位与建图系统

Info

Publication number: CN113066129A
Application number: CN202110391010.2A
Authority: CN
Inventors: 方浩; 胡家瑞; 窦丽华; 陈杰
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-02

Abstract

本公开的基于动态环境下的目标检测的视觉定位与建图系统，通过图像获取模块，用于获取动态环境图像和IMU数据；目标检测模块，用于检测所述动态环境图像的检测目标，并输出所述检测目标的边框位置；特征提取和筛选模块，用于提取所述动态环境图像中的特征点，并根据所述检测目标的边框位置筛选特征点；数据处理模块，用于根据所述IMU数据和筛选特征点后的动态环境图像数据估计所述动态环境图像的位姿值，根据所述动态环境图像的位姿估计值进行视觉定位和建图。能够在保证视觉定位与建图系统实时性的前提下有效解决了大漂移位姿估计、场景内的动态目标导致大量误匹配和跟踪失败的问题。

Description

基于动态环境下的目标检测的视觉定位与建图系统

技术领域

本发明属于机器人定位技术领域，具体涉及一种基于动态环境下的目标检测的视觉定位与建图系统。

背景技术

近年来，无人机、无人车、智能仓储机器人等各类层出不穷的智能个体在为人类生活提供巨大便利的同时创造了可观的产业价值，在智能体实现高度无人化的技术进程中，以视觉传感器为硬件基础的视觉同时定位与建图技术(Visual Simultaneouslocalization and mapping，VSLAM)扮演了重要角色。VSLAM能够捕获高频图像序列并从中提取对应特征，从而基于特征匹配约束连续稳定地估计相机位姿、建模周围环境，为后续路径及运动规划任务提供良好接口。在机器人定位领域中，全球定位系统、超宽带定位系统等传统方案在室内环境中收效甚微，而基于视觉图像的定位导航则能够凭借出色的环境适应性填补原有技术缺口。然而，在充分利用环境信息的同时，VSLAM技术也受限于视觉传感器的先天弱势，天然地具备环境敏感性弊端，弱纹理、强光照、高动态及运动模糊等情况都可能引发系统崩溃，特别是场景内的动态目标会导致大量误匹配出现，造成相对运动歧义，严重影响VSLAM技术在现实世界中的普及应用。目前，动态环境下的VSLAM已成为领域内重要课题，伴随计算机视觉技术的更新进步，相关解决方案逐步多样化、完善化。

针对动态环境下的视觉定位与建图任务，文献1(Dai W,Zhang Y,Li P,etal.RGB-D SLAM in Dynamic Environments Using Point Correlations[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2020,PP(99):1-1.)采用图论思想，首先检测任意两邻近点间相对位置关系随时间的变化趋势，如果其相对位置保持长期一致，则在对应特征点间构建“边连接”，反之则删除二者间的关联边。随后，根据地图路标点间的“关联图”将特征划分为静态场景及动态目标两组，并在后续的关联图优化中剔除动态个体，以削弱动态场景内移动目标带来的消极影响。最终，仅以剩余可靠特征点为基础进行相机位姿估计，增强VSLAM在动态场景下的精度及鲁棒性，但是该方法处理流程比较复杂，运算负担较高。

文献2(Wang S,Clark R,Wen H,et al.DeepVO:Towards end-to-end visualodometry with deep Recurrent Convolutional Neural Networks[C]//2017IEEEInternational Conference on Robotics and Automation(ICRA).IEEE，2017.)以Kitti数据集为监督训练端到端的深度学习框架，将完整的视觉定位工作流浓缩至神经网络结构之中，创新性地将卷积神经网络(CNN)与递归神经网络(RNN)融合，使其更加契合VSLAM的问题特性，利用CNN提取图像特征，RNN解算视觉位姿并隐式建模图像序列中的动态信息，充分结合二者优势，同时学习图像序列的时、空间特性，DeepVO良好的精度表现证明了RCNN架构的有效性。但是，该文献中的系统对于动态物体的感知不敏感且不稳定，精度低。

本发明受上述两种方案的启发，根据所要解决问题的本身特点，结合深度学习方法与传统几何视觉，提出一种基于目标检测的VSLAM系统。根据检测框位置在图像中建立特征抑制区域以剔除不稳定特征点，并通过非线性优化算法对剩余可靠特征进行位姿拟合。本发明中，目标检测模块通过级联方式接入原系统架构，在尽力保证系统实时性的前提下有效解决了大漂移位姿估计和跟踪失败的问题。

发明内容

本发明克服了现有技术的不足之一，提供了一种基于动态环境下的目标检测的视觉定位与建图系统，能够在保证视觉定位与建图系统实时性的前提下有效解决了大漂移位姿估计、场景内的动态目标导致大量误匹配和跟踪失败的问题。

根据本公开的一方面，本发明提供一种基于动态环境下的目标检测的视觉定位与建图系统，所述系统包括：

图像获取模块，用于获取动态环境图像和IMU数据；

目标检测模块，用于检测所述动态环境图像的检测目标，并输出所述检测目标的边框位置；

特征提取和筛选模块，用于提取所述动态环境图像中的特征点，并根据所述检测目标的边框位置筛选特征点；

数据处理模块，用于根据所述IMU数据和筛选特征点后的动态环境图像数据估计所述动态环境图像的位姿值，根据所述动态环境图像的位姿估计值进行视觉定位和建图。

在一种可能的实现方式中，所述系统还包括：回环检测模块，用于当当前动态环境图像帧为关键帧时，根据动态环境图像的位姿估计值调节当前动态环境图像帧的位姿值，实现动态环境图像的全局位姿优化。

在一种可能的实现方式中，所述用于根据所述IMU数据和筛选特征点后的动态环境图像数据估计所述动态环境图像的位姿值，包括：

对所述IMU数据进行积分得到所述视觉定位与建图系统的惯性残差，及对所述筛选特征点后的动态环境图像进行坐标转换得到所述视觉定位与建图系统的视觉残差，利用非线性优化算法对所述视觉定位与建图系统的惯性残差和视觉残差构成的优化函数进行求解，得到所述动态环境图像的位姿估计值。

在一种可能的实现方式中，所述特征点包括动态特征点和静态特征点，所述动态特征点为所述检测目标的边框内部的特征点，所述静态特征点为所述检测目标的边框外部的特征点。

在一种可能的实现方式中，所述根据所述检测目标的边框位置筛选特征点，包括：去除所述检测目标的边框内部的动态特征点，保留所述检测目标的边框外部的静态特征点。

在一种可能的实现方式中，所述根据所述检测目标的边框位置筛选特征点，还包括：将保留的静态特征点在两个相邻的动态环境图像帧间进行一一匹配对，利用采样一致性算法对匹配静态特征点进行二次筛选。

在一种可能的实现方式中，所述关键帧为当前动态环境帧和在前的动态环境帧的相似度超出预设阈值。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1示出了根据本公开一实施例的基于动态环境下的目标检测的视觉定位与建图系统框图；

图2示出了根据本公开另一实施例的基于动态环境下的目标检测的视觉定位与建图系统框图；

图3示出了根据本公开一实施例的Fast关键点提取的示意图；

图4示出了根据本公开一实施例的特征点筛选流程图；

图5示出了根据本公开一实施例的特征点筛选后的相邻图像帧间特征点匹配的示意图；

图6示出了根据本公开一实施例的基于动态环境下的目标检测的视觉定位与建图系统进行实验的结果示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达到相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

另外，附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1示出了根据本公开一实施例的基于动态环境下的目标检测的视觉定位与建图系统框图；图2示出了根据本公开另一实施例的基于动态环境下的目标检测的视觉定位与建图系统框图。

如图1所示，该视觉定位与建图系统可以包括：图像获取模块41，目标检测模块42，特征提取和筛选模块43和数据处理模块44。

图像获取模块41，用于获取动态环境图像和IMU数据。如图2所示，图像获取模块41可以通过视觉传感器捕获外界图像信息(环境动态图像信息)，视觉传感器可以为照相机、摄像机等图像采集设备，在此不做限定。IMU数据可以由系统的IMU单元(惯性测量单元)获取，可以包括检测目标的速度数据、角度数据、位姿数据等，可以使用图像获取模块及时记录IMU数据。

目标检测模块42，用于检测所述动态环境图像的检测目标，并输出所述检测目标的边框位置。目标可以为环境中的动态物体，例如人、车等。目标检测模块可以利用神经网络选中特定对象(如图2中的行人)并输出边界框位置(如图2中的行人的黑色边界框)。目标检测模块42可以采用轻量并高效的神经网络架构Yolov2，能够同步订阅原始外界图像信息并快速锁定目标位置，将目标检测任务视作回归问题处。其中，Yolov2神经网络架构能够将图像获取模块获取图像区域提名与分类器整合至同一阶段以提升运行速度，并具有丰富的目标集合，共涵盖9000余种检测对象，可根据场景需要灵活预设网络权重，以确保视觉定位与建图系统的实时性。目标检测工作完成后，该系统将记录各个检测目标的边框位置的二维(2D)角点坐标信息：(x_left-top，y_left-top)，(x_left-bottom，y_left-bottom)，(x_right-top，y_right-top)，(x_right-bottom，y_right-bottom)，可以由这四个交点坐标分割出检测目标的动态场景区域。

特征提取和筛选模块43，用于提取所述动态环境图像中的特征点，并根据所述检测目标的边框位置筛选特征点。

其中，图像特征点是VSLAM系统的基本运算单元和计算机“理解”图像内容的关键信息，通常出现于图像帧中的角点、边缘等特殊区域。特征提取可以通过Ros-kinetic中的“消息-节点”机制读入获取的原始外界图像后进行均衡化等图像增强操作，目的在于保证后续特征点(Fast关键点)位置及对应描述子计算过程的顺利进行。

图3示出了根据本公开一实施例的Fast关键点提取的示意图。

其中，特征点的提取可以采用Fast关键点的提取方式进行。如图3所示，可以从外界图像中任选一个像素点P，定义P点像素值为I_p，选定预设阈值t，以像素点P为中心画一个半径等于3像素的圆，该圆的边界上有标号为1-16共16个像素，若圆上n个连续的像素值I_x满足I_x-I_p>t或I_x-I_p<-t，则P点为候选角点，其中，n为正整数，例如n＝12时，需要该圆上连续12个像素的点的像素值满足上述条件时，将P点作为关键点即特征点保留下来，并将点P与周围满足上述条件的像素点结合起来作为P点对应的描述子。

在一示例中，根据检测目标的边框位置筛选特征点，包括去除所述检测目标的边框内部的动态特征点，保留所述检测目标的边框外部的静态特征点，并将保留的静态特征点在两个相邻的动态环境图像帧间进行一一匹配对，利用采样一致性算法对匹配静态特征点进行二次筛选。其中，特征点可以包括动态特征点和静态特征点，动态特征点为检测目标的边框内部的特征点，所述静态特征点为所述检测目标的边框外部的特征点。

图4示出了根据本公开一实施例的特征点筛选流程图；图5示出了根据本公开一实施例的特征点筛选后的相邻图像帧间特征点匹配的示意图。

如图4所示，首先对获取的原始外界图像采用目标检测模块进行检测目标，并检测出目标对象的边界框位置信息，利用LK光流算法对检测出边界框位置信息的原始外界图像进行特征提取，由于边界框内的特征点为动态特征点，具备高运动概率，将导致轨迹估算偏误，出于稳定性考虑，系统需将其从特征列表内删除，保留稳定性较强的检测目标的边框外部的静态特征点。如图5所示，去除检测目标的边框内部的动态特征点后，相邻的两个动态环境图像帧间静态特征点一一匹配的过程，相邻的两个动态环境图像帧间依靠特征点的描述子相似度建立静态特征点之间的匹配关系并利用RANSAC算法(随机采样一致性算法)进行二次筛查进一步剔除静态特征点对中的异常数据，得到准确可靠的静态特征点对，并保留准确可靠的静态特征点对，如果特征点对的数量足够该系统后续的位姿估计则想ROS系统发布后续操作消息(例如Rviz可视化话题消息或后端话题消息等)，否则如图5所示的，设置掩膜在保留的静态特征点对的邻域内或目标检测框内以补充特征点(如5所示的星型特征点)至所有的特征点对满足系统的位姿估计。通过该操作可以使视觉定位与建图系统获得了相邻两个动态环境图像帧间精确可靠的静态特征点对，并将其传入后续优化环节。其中，特征点的描述子作为特定形式的向量，其相似度可通过汉明距离进行度量。

数据处理模块44，用于根据所述IMU数据和筛选特征点后的动态环境图像数据估计所述动态环境图像的位姿值，根据所述动态环境图像的位姿估计值进行视觉定位和建图。

在一示例中，可以通过对IMU数据进行积分得到视觉定位与建图系统的惯性残差，及对筛选特征点后的动态环境图像进行坐标转换得到所述视觉定位与建图系统的视觉残差，利用非线性优化算法对所述视觉定位与建图系统的惯性残差和视觉残差构成的优化函数进行求解，得到所述动态环境图像的位姿估计值。

一般来说，IMU设备频率远高于图像获取模块(例如相机)的频率，造成相邻两个动态环境图像帧间布满大量的IMU数据。为保证动态环境图像数据和IMU数据时间的一致性与数据利用率，需对IMU数据进行预积分操作。IMU数据信息与动态环境图像帧信息依照时间戳对齐，紧耦合框架驱动IMU数据信息与动态环境图像帧信息进行深层次融合以提升位姿精度。该系统还采用滑动窗口框架用于在相机状态估计过程兼顾位姿估计的精准性与实时性，对IMU数据信息和动态环境图像帧信息进行均衡平滑处理，能够在相机状态估计时，只需维护滑动窗口内固定数目的动态环境图像序列即可。

滑动窗口内待优化的状态变量可以定义为下述状态向量：

其中，i_k为某一动态环境图像帧的相机状态，b_a与b_g分别为加速度计和陀螺仪偏置，d_l为第l个特征点首次被观测时的逆深度信息，n为滑动窗口容量，m为窗口内路标点总数，

为该系统外参描述相机与IMU设备间的相对位置关系。

滑动窗口内的非线性优化函数包含基于IMU预积分的运动增量和筛选特征点后的动态环境图像获得的静态特征点匹配对。其中，对IMU数据进行预积分的结果构成的运动增量可表示为如下形式：

其中p^w，v^w，q^w是对两动态环境图像帧之间加速度、角速度等惯性数据进行积分所得的位置、速度与姿态信息。

根据上述运动增量，构建的系统惯性残差约束项如下：

进而得到系统惯性残差为：

在得到二维的静态特征点匹配对的基础上进一步拓展即可建立新的三维-二维的特征点匹配关系，再应用重投影模型对三维特征点进行二次映射并于相机归一化平面上构造视觉残差。在这个过程中，特征点经历多次坐标转换，具体如下：

得到该系统的视觉残差为：

其中，

是第l个特征点在第i帧中的像素观测值，

是旋转矩阵形式的相机外参，

和

反映了第k个相机帧时刻IMU坐标系与世界坐标系间的转换关系，

能够将像素坐标反投影为归一化平面上的3维特征。

最终，如图2所示，应用非线性优化算法对视觉残差及惯性残差构成的优化函数进行求解，通过梯度下降寻找使优化函数最小化的状态向量χ，

Θ为滑动窗口内特征集合，从而完成状态估计工作，得到动态环境图像的位姿值，根据所述动态环境图像的位姿估计值进行视觉定位和建图。

在一示例中，该系统还可以包括：回环检测模块，用于当当前动态环境图像帧为关键帧时，根据动态环境图像的位姿估计值调节当前动态环境图像帧的位姿值，实现动态环境图像的全局位姿优化。其中，关键帧可以为当前动态环境帧和在前的动态环境帧的相似度超出预设阈值。

针对滑动窗口下的累积误差，需要回环帧提供更久远的位姿关联。回环检测发生与否取决于动态环境中的动态目标的具体运动轨迹，当前动态环境帧和在前的动态环境帧的相似度超出预设阈值时，触发回环机制，回环节点间将产生长时间跨度的关联残差γ_loop，以其为约束可进行全局位姿图优化，对位姿估计结果进行全面且细致的调节。

可以选用词袋模型进行回环检测，词袋模型(Bag of words)通过统计图像上的特征类型来描述图像，例如，动态环境图像上的“人、车、房”等元素对应于词袋模型中的单词，类似的元素集合构成字典。将每一幅动态环境图像转换为统计直方图或表征向量形式，然后将两帧动态环境图像的表征向量代入特定的相似性评分计算式中得到两帧动态环境图像的相似性程度，当相似性评分超过特定阈值时便认为当前动态环境图像帧为关键帧，此时两帧动态环境图像帧之间构成回环，可以根据动态环境图像的位姿估计值调节当前动态环境图像帧的位姿值，实现动态环境图像的全局位姿优化。

图6示出了根据本公开一实施例的基于动态环境下的目标检测的视觉定位与建图系统进行实验的结果示意图。图6示出了典型场景下采用目前现有定位与建图系统(图6右边图)以及和本公开的基于动态环境下的目标检测的视觉定位与建图系统(图6左边图)的实验结果对比，可以看出本公开的目标检测模块的引入为VSLAM系统带来明显的鲁棒性增强，进一步印证了本发明的有效性与实际价值。

本公开的视觉定位与建图系统，通过图像获取模块获取动态环境图像和IMU数据；目标检测模块检测所述动态环境图像的检测目标，并输出检测目标的边框位置；特征提取和筛选模块提取动态环境图像中的特征点，根据检测目标的边框位置筛选特征点；数据处理模块根据IMU数据和筛选特征点后的动态环境图像数据估计动态环境图像的位姿值，根据动态环境图像的位姿估计值进行视觉定位和建图。能够在保证视觉定位与建图系统实时性的前提下有效解决了大漂移位姿估计、场景内的动态目标导致大量误匹配和跟踪失败的问题。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于动态环境下的目标检测的视觉定位与建图系统，其特征在于，所述系统包括：

图像获取模块，用于获取动态环境图像和IMU数据；

2.根据权利要求1所述的视觉定位与建图系统，其特征在于，所述系统还包括：回环检测模块，用于当当前动态环境图像帧为关键帧时，根据动态环境图像的位姿估计值调节当前动态环境图像帧的位姿值，实现动态环境图像的全局位姿优化。

3.根据权利要求1所述的视觉定位与建图系统，其特征在于，所述用于根据所述IMU数据和筛选特征点后的动态环境图像数据估计所述动态环境图像的位姿值，包括：

4.根据权利要求1所述的视觉定位与建图系统，其特征在于，所述特征点包括动态特征点和静态特征点，所述动态特征点为所述检测目标的边框内部的特征点，所述静态特征点为所述检测目标的边框外部的特征点。

5.根据权利要求4所述的视觉定位与建图系统，其特征在于，所述根据所述检测目标的边框位置筛选特征点，包括：去除所述检测目标的边框内部的动态特征点，保留所述检测目标的边框外部的静态特征点。

6.根据权利要求5所述的视觉定位与建图系统，其特征在于，所述根据所述检测目标的边框位置筛选特征点，还包括：将保留的静态特征点在两个相邻的动态环境图像帧间进行一一匹配对，利用采样一致性算法对匹配静态特征点进行二次筛选。

7.根据权利要求2所述的视觉定位与建图系统，其特征在于，所述关键帧为当前动态环境帧和在前的动态环境帧的相似度超出预设阈值。