CN114549549A

CN114549549A - 一种动态环境下基于实例分割的动态目标建模跟踪方法

Info

Publication number: CN114549549A
Application number: CN202210123898.6A
Authority: CN
Inventors: 裴福俊; 苗助; 王京辉; 张恒铭
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2022-05-27
Anticipated expiration: 2042-02-10
Also published as: CN114549549B

Abstract

本发明公开了一种动态环境下基于实例分割的动态目标建模跟踪方法，用于室外的自动驾驶或室内空间的机器人定位，对于动态环境下的动态目标干扰具有较好的鲁棒性，并能够获得运动物体的运动速度和角度信息。本发明使用RGB‑D相机作为视觉输入传感器，经过实例分割算法预处理得到先验语义信息。然后分别使用静态区域进行基于ORB特征的相机位姿解算，使用动态区域进行稀疏光流的目标跟踪获得相机坐标系下运动目标的位姿。最后进行全局的BA优化，得到更为精确的全局相机位姿和运动目标的位姿。

Description

一种动态环境下基于实例分割的动态目标建模跟踪方法

技术领域

本发明设计一种动态环境下基于实例分割的动态目标建模跟踪方法。本方法使用RGB-D相机作为输入视觉传感器，经过实例分割算法预处理得到先验的语义信息。然后分别使用图像中的静态区域进行相机位姿解算获得初步的相机的位姿，使用潜在动态目标区域进行目标跟踪和得到运动目标的位姿。该算法主要应用于动态环境下机器人视觉的定位和绘图中，对于动态环境下的动态目标干扰具有较好的鲁棒性的同时，该算法能够获得运动物体的全局运动速度和角度信息。

背景技术

随着近年来自动驾驶领域和虚拟现实领域的不断发展，基于视觉传感器的视觉定位算法也逐渐成熟。但目前大部分的鲁棒视觉定位算法往往基于静态环境假设，无法较好地处理在画面中占有一定区域的动态目标，给动态环境下机器人的定位精度造成了严重偏差。

目前针对动态物体干扰的处理方法根据其处理信息的方式主要分为两类：一种是采用不包括高级语义信息的低级特征信息来筛选。采用的方法包括GMS关联特征提取算法，RANSAC随机采样一致性算法和线特征提取算法等。然而，这些算法的主要思想是以过滤动态信息和增强静态信息的信任度，而且对于动态区域的比重较大的情况，不能很好的处理。另一种方法是基于神经网络的目标识别算法，该算法能够识别动态场景中目标的语义信息，在复杂的现实场景中比较稳定。该语义信息往往用于剔除动态特征，丢弃了有益的动态信息。特别是在静态特征丢失或者和较少的情况下，动态特征能够辅助相机进行定位。例如，Zhang等人提出的基于稠密光流的动态目标感知跟踪算法(J.Zhang,M.Henein,R.Mahony,and V.Ila,"VDO-SLAM:A Visual Dynamic Object-aware SLAM System,"2020-01-01 2020)，该算法通过全局跟踪稠密光流，来估计相机和运动目标的姿态，在室外的数据集中有较好的表现。然而该算法采用实例分割算法和深度学习网络来产生全局光流的算法，要消耗大量的计算资源并且实时性较差。

为了增强实时性的同时尽量不减少定位精度，本发明提出了基于实例分割的一种分区域跟踪的动态目标跟踪算法。该算法采用静态区域的ORB特征跟踪来估算相机位姿，在保证精度的同时减少计算量。同时，在动态目标区域，使用金字塔LK稀疏光流跟踪，并针对大运动进行对算法优化进行迭代优化。该优化算法能够对大的物体运动具有良好的鲁棒性并且解决了动态区域的纹理特征较少或不明显的问题。最后将两者联合优化，动态的优化方程能后弥补静态区域特征较少造成的跟踪丢失问题。

发明内容

本发明在RGB-D视觉图像输入并进行像素级别的实例分割得到先验语义信息的基础上，设计了一种动态环境下基于实例分割的动态目标建模跟踪方法。本方法使用RGB-D相机作为输入传感器，经过实例分割算法预处理得到先验语义信息。然后分别使用图像中的静态区域进行相机位姿解算获得初步的相机的位姿，使用潜在动态目标区域进行目标跟踪和得到运动目标的位姿。该算法主要应用于动态环境下机器人视觉的定位和绘图中，对于动态环境下的动态目标干扰具有较好的鲁棒性的同时，该算法能够获得运动物体的全局运动速度和角度信息。

为了实现上述目的，本发明提供了如下方案：

一种动态环境下基于实例分割的动态目标建模跟踪方法，其特征在于，包括以下步骤：

步骤1：数据实例分割预处理；

步骤2：静态区域中相机的位姿解算；

步骤3：动态区域运动物体的稀疏光流跟踪；

步骤4：包括动态特征的全局BA联合优化。

所述的单段子地图的获得过程中：

要获得经过实例分割的RGB图像和深度信息的先验，将视觉的信息区域分为稳定静态区域和非稳定的潜在动态区域；该过程中，将从相机传感器获得的RGB-D图像，采用MaskR-CNN实例分割算法处理后，分别得到掩膜的动态区域和未被掩膜的静态区域，并将其中的多个动态区域标记序号，最后将这两部分区域的图像作为新的输入分别给到下一阶段的跟踪算法中；

所述的静态区域中相机的位姿解算，具体包括如下步骤：

基于ORB-SLAM2的RGB-D的输入的开发框架，将连续两帧RGB-D图像中的静态区域预先进行轻量级的里程计跟踪，获得初步粗略的相机位姿，然后通过基于直方图统计的评分算法(HBOS)进一步的剔除由于实例分割失败或者误分割导致的异常点。最后，将获得的精确结果放入后端优化的步骤中。

基于统计直方图的评分系统需要处理获得残差向量的角度和模，得到每个向量与整体分布的离散程度为基准的评分，形成样本评分集。其中第i点重投影误差的数学表达式为：

其中，K表示相机的内参矩阵，P_i为3D路标点，u_i为当前图像帧中3D路标点P_i的二维投影.通过计算可以得到残差向量ξ。

其中，基于直方图统计的评分算法，其数学表达式为：

其中HBOS(p_i)表示p_i残差向量的评分，hist_i()表示向量i在该部分的概率密度，ε表示残差向量的模值，θ表示残差向量的角度。

在评分集合中需要设定阈值来筛选残差较大的向量，其阈值设定的方法为归一化方法，其数学表达式为：

δ＝α(HBOS_max(P)-HBOS_min(P))+HBOS_min(P)#(3)

其中P为样本评分集，α为调整量，在0到1中取值。δ为残差阈值.

在进行静态区域的相机位姿估计时，使用ORB-SLAM2的关键帧跟踪和局部映射模块来优化。

所述的动态区域运动物体的稀疏光流跟踪，具体包括如下步骤：

利用恒速运动模型和区域重叠确定连续帧之间的不同的多个目标的跟踪区域；利用针对大运动优化的金字塔LK光流算法获取对应的光流跟踪，通过直接法计算出相机坐标系下的相对的目标位姿；将运动目标位姿放入后端优化方程中联合解算。

其中采用LK稀疏光流来跟踪w_x*w_y大小的像素块，获得像素运动的光流；设定阈值筛除掩膜错误导致局部光流跟踪；采用金字塔光流算法来稳定像素跟踪中的大运动问题；采用优化的迭代算法来增强图像中大物体运动造成的跟踪丢失问题；其光流跟踪的跟踪点坐标为(u_x,u_y)，在邻域窗口大小为(w_x,w_y)中，待跟踪点与跟踪点的领域窗口的平方差由下式表示：

针对物体的大运动优化后，其第k轮的迭代公式如下式(5)-(9)所示：

d^k＝(G^k)^-1b^k (5)

δI＝I(x,y)-J(x,y)#(8)

该动态区域算法的重投影误差表示为：

其中，

表示动态误差，

表示相机图像中的第i帧的第j个路标点的二维像素坐标，

为第i帧的相机坐标系到世界坐标系的转换矩阵，

为第i帧的第k个目标物体上的路标点的位姿，

为第k个目标物体上的第j个路标点。

所述的包括动态特征的全局BA联合优化过程中：

基于ORB-SLAM2的关键帧和共视图的优化框架，对获得相机静态位姿和相机坐标系下的目标位姿，执行BA(Bundle Adjustment，光束平差法)进行优化；该步骤将静态点，目标动态点，相机位姿，目标位姿放入同一最小二乘中联合优化。

其中优化项包括动态目标的路标点，静态路标点，相机坐标的转换矩阵和动态目标的转换矩阵；其优化参数的向量为：

其静态区域的优化方程为：

其动态区域的优化方程为：

联合优化方程为：

其中MP表示静态地图点，OP表示动态目标点，∑表示该特征点与图像金字塔各层相关的协方差矩阵，ρ表示鲁棒核函数；该联合优化的特征在于能够同时优化静态路标点，相机位姿，目标位姿和动态目标路标点。

有益效果：

本发明提出一种动态环境下基于实例分割的动态目标建模跟踪方法，本方法在RGB-D的输入并进行像素级别的实例分割得到先验语义信息的基础上，设计了一种动态环境下基于实例分割的动态目标建模跟踪方法。本方法使用RGB-D相机作为输入传感器，经过实例分割算法预处理得到先验语义信息。然后分别使用图像中的静态区域进行相机位姿解算获得初步的相机的位姿，使用潜在动态目标区域进行目标跟踪和得到运动目标的位姿。该算法主要应用于动态环境下机器人视觉的定位和绘图中，对于动态环境下的动态目标干扰具有较好的鲁棒性的同时，该算法能够获得运动物体的全局运动速度和角度信息。

附图说明

图1是本发明提供的动态环境下基于实例分割的动态目标建模跟踪方法的流程图；

图2是本发明提供的动态环境下基于实例分割的动态目标建模跟踪方法的实施处理流程示意图；

图3是本发明提供的动态环境下基于实例分割的动态目标建模跟踪方法在KITTI数据集上的实验结果对比图。

具体实施方式

本发明的目的是提供动态场景下基于实例分割的动态目标建模跟踪方法，首先使用RGB-D相机作为输入传感器，经过实例分割算法预处理得到先验语义信息。然后分别通过静态区域相机位姿解算获得相机的位姿，动态区域目标跟踪获得相机坐标系下的运动目标的位姿。最终联合优化获得更加精确的相机位姿，运动目标的姿态和速度。

下面将结合附图对本发明加以详细说明，应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

图1是本发明提供的动态环境下基于实例分割的动态目标建模跟踪方法的流程图；图2是本发明提供的动态环境下基于实例分割的动态目标建模跟踪方法的实施处理流程示意图；图3是本发明提供的动态环境下基于实例分割的动态目标建模跟踪方法在KITTI数据集上的实验结果对比图。本算法的主要目的为在动态场景中估计相机位姿的同时，估计跟踪动态物体的位姿和速度。因此，本实验采用EVO评估工具来评价算法估计得出的轨迹精度，和真实地面轨迹进行对比。其中，蓝色表示初始位姿，褐色为优化后的汇集，虚线表示真是地面轨迹。(a)到(c)为相机位姿，(a)表示在三维空间中相机的轨迹，其中蓝色的初始轨迹和褐色的优化后的轨迹重合，虚线表示真是地面轨迹。(b)表示在俯仰角，横滚角，偏航角上的角度变化，和虚线的真实值对比，平均绝对角度误差在0.132。(c)表示轨迹在xyz三轴上的分量，平均误差在0.11m左右。(d)到(f)为在以相机第一帧为原点的世界坐标系下，数据集中第一辆车的位姿跟踪情况。(d)表示在三维空间中1号车的运动情况，和真值相比可以看出该1号车能够被稳定跟踪。(e)表示在俯仰角，横滚角，偏航角上的角度变化，和虚线的真实值对比，平均绝对角度误差为0.17°。(f)轨迹在xyz三轴上的分量，平均误差在0.02m左右.本实验主要采用了室外的环境下，通过对比可知，该算法在室外环境下能够做到相机位姿估计和动态目标位姿估计，总体误差较小，甚至在某些阶段能够接近真是轨迹精度。由此可知本发明方法能在动态环境中稳定运行，并获得相机位姿和动态目标位姿。

本发明提供的基于多段联合优化的用于精确定位的地图构建方法具体包括：

步骤1：数据实例分割预处理；

在需要进行机器人定位和对动态目标需要跟踪的未知动态场景，采用ORBSLAM2(R.Mur-Artal and J.D.Tardos,“ORB-SLAM2:An open-source SLAM system formonocular,stereo,and RGB-D cameras,”IEEE Transactions on Robotics,vol.33,no.5,pp.1255–1262,2017)的总体框架，通过RGB-D相机进行图像数据和深度信息的输入，将RGB图像信息输入到Mask R-CNN的实例分割网络中，对数据进行预处理，得到分割后的图像。对分割后的潜在运动图像进行标号，用于下一阶段的跟踪。

步骤2：静态区域中相机的位姿解算；

在得到连续两帧的掩模图像后，可以得到完全静态区域，即不包括潜在运动物体的背景区域，可以计算出初步的相机位姿。得到的相机位姿可用于判断场景中的潜在运动目标是否运动，采用的方法为重投影误差或对极几何约束。将获得的特征点的投影残差放入直方图统计模块，进行基于直方统计图的评分，并进行归一化，设定合理的阈值来筛选那些是动态点。然后，本方法计算每个目标中动态特征点的数量，如果目标中的动态特征点的数量多于该目标区域特征点的30％，则认定该目标为运动物体，纳入跟踪目标范围。后续算法为基于ORB-SLAM2的滑动窗口，关键帧和局部BA优化算法，进行稳定估计相机姿态和局部重定位。

本发明该步骤运行于ORB-SLAM2前端视觉里程计框架，其中视觉里程计和局部地图优化是在两个单独的线程中并行运行。视觉里程计线程将定位相机的每一帧，并决定将当前帧是否能成为新的关键帧。局部地图优化线程只处理关键帧，并执行局部BA优化。

步骤3：动态区域物体的稀疏光流跟踪；

在步骤二中确认了动态目标区域并进行了编号，接着本方法采用LK稀疏光流进行跟踪。和采用特征相比，光流跟踪能够获取更多的特征信息并且具有可以方便获得速度的优势。并且，防止物体运动过大导致的光流匹配失败，我们采用了光流迭代优化算法，即采用连续帧中的第二帧的特征点所在的目标处的梯度来进行迭代。同时，采用了金字塔算法来抑制相机可能的运动过快造成的光流跟踪丢失。此处为了防止抖动模糊造成的局部跟踪丢失，同样采用了滑动窗口算法，当跟踪丢失时，将当前帧与滑动窗口中的关键帧进行匹配计算动态目标的位姿。为了处理短暂的遮挡，本方法依据恒定运动模型，进行辅助跟踪。同时，本方法采用Munkres算法来进行目标检测2D边界框辅助跟踪。为了防止过远距离的目标被跟踪，而较远的目标很难提取到稳定的光流特征，当远距离的目标深度大于基线的40倍时，不跟该目标。如果出现游离的动态点，根据观察多数游离动态点可能由实例分割不完整导致的，将在一定范围内尝试寻找该动态特征的主体并归类。

该方法步骤和步骤二并行运行，为了实时性暂不执行局部优化，将在最后步骤和相机位姿进行全局优化。

步骤4：包括动态特征的全局BA联合优化

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换和替代，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种动态环境下基于实例分割的动态目标建模跟踪方法，其特征在于，包括以下步骤：

步骤1：数据实例分割预处理；需要获得经过实例分割的RGB图像和深度信息的先验，将视觉的信息区域分为稳定静态区域和非稳定的动态区域；该过程中，将从相机传感器获得的RGB-D图像，采用Mask R-CNN实例分割算法处理后，分别得到掩膜的动态区域和未被掩膜的静态区域，并将其中的多个动态区域标记序号，最后将这两部分区域的图像作为新的输入分别给到下一阶段的跟踪算法中；

步骤2：静态区域中相机的位姿解算；基于ORB-SLAM2的RGB-D的输入的开发框架，将连续两帧RGB-D图像中的静态区域预先进行轻量级的里程计跟踪，获得初步粗略的相机位姿，然后通过基于直方图统计的评分算法HBOS进一步剔除由于实例分割失败或者误分割导致的异常点；最后，将获得的精确结果放入后端优化的步骤中；

步骤3:动态区域物体的稀疏光流跟踪；利用恒速运动模型和区域重叠确定连续帧之间的不同的多个目标的跟踪区域；利用针对大运动优化的金字塔LK光流算法获取对应的光流跟踪，通过直接法计算出相机坐标系下的相对的目标位姿；将运动目标位姿放入后端优化方程中联合解算；

步骤4：包括动态特征的全局BA联合优化；基于ORB-SLAM2的关键帧和共视图的优化框架，对获得相机静态位姿和相机坐标系下的目标位姿，执行BA即光束平差法进行优化；该步骤将静态点，目标动态点，相机位姿，目标位姿放入同一最小二乘中联合优化。

2.根据权利要求1所述的一种动态环境下基于实例分割的动态目标建模跟踪方法，其特征在于，步骤1所述的数据实例分割预处理，其输入采用的传感器为RGB-D相机，其每秒帧数为10帧；需将传感器所获得RGB图像输入到Mask R-CNN实例分割网络中，获得静态区域图像和动态区域图像；动态区域需要标记目标号并存储目标的语义信息和当前帧中目标的所在区域。

3.根据权利要求1所述的一种动态环境下基于实例分割的动态目标建模跟踪方法，其特征在于，步骤2所述的静态区域中相机的位姿解算，所进行的主要特征采样区域为静态区域；其所采用的特征提取方法为ORB特征点，并采用基于四叉树的网格法均匀采样；采用ORB-SLAM2中的轻量跟踪模块进行初步粗略的相机位姿求解；采用重投影误差法或者对极几何的运动约束方法获得运动残差向量，并将残差向量集输入到基于直方图的评分系统中；基于统计直方图的评分系统需要处理获得残差向量的角度和模，得到每个向量与整体分布的离散程度为基准的评分，形成样本评分集；其中第i点重投影误差的数学表达式为：

其中，K表示相机的内参矩阵，P_i为3D路标点，u_i为当前图像帧中3D路标点P_i的二维投影.通过计算可以得到残差向量

其中，基于直方图统计的评分算法，其数学表达式为：

其中HBOS(p_i)表示p_i残差向量的评分，hist_i()表示向量i在该部分的概率密度，ε表示残差向量的模值，θ表示残差向量的角度；

δ＝α(HBOS_max(P)-HBOS_min(P))+HBOS_min(P) (3)

其中P为样本评分集，α为调整量，在0到1中取值；δ为残差阈值.

4.根据权利要求1所述的一种动态环境下基于实例分割的动态目标建模跟踪方法，其特征在于，步骤3所述的动态区域物体的稀疏光流跟踪中，需要在实例分割后的动态目标区域进行光流跟踪；在进行区域重合度计算和区域跟踪时，采用2D边界框辅助匹配和跟踪；在连续帧中目标的光流区域跟踪采用区域重合度算法和恒速运动模型进行区域匹配；使用恒速运动模型短暂处理运动跟踪丢失，模糊或被遮挡的情况；采用恒定匀速模型来辅助搜索匹配和用于重投影优化；采用LK稀疏光流来跟踪w_x*w_y大小的像素块，获得像素运动的光流；设定阈值筛除掩膜错误导致局部光流跟踪；采用金字塔光流算法来稳定像素跟踪中的大运动问题；采用优化的迭代算法来增强图像中大物体运动造成的跟踪丢失问题；其光流跟踪的跟踪点坐标为(u_x,u_y)，在邻域窗口大小为(w_x,w_y)中，待跟踪点与跟踪点的领域窗口的平方差由下式表示：