CN107833236A

CN107833236A - 一种动态环境下结合语义的视觉定位系统和方法

Info

Publication number: CN107833236A
Application number: CN201711040037.7A
Authority: CN
Inventors: 王金戈; 邹旭东; 仇晓松; 曹天扬; 蔡浩原; 李彤
Original assignee: Institute of Electronics of CAS
Current assignee: Institute of Electronics of CAS
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-03-23
Anticipated expiration: 2037-10-31
Also published as: CN107833236B

Abstract

本发明公开了一种动态环境中的单目视觉定位系统和方法，结合语义信息，实现对动态物体特征的剔除。通过单目摄像机实时采集环境图像，图像通过卷积神经网络实现物体检测，得到物体的语义信息，再进一步结合先验知识实现动态物体判定。使用ORB算法提取图像中的特征，并根据动态物体的位置剔除动态物体特征点。使用非线性优化的方法对相机位姿和3D点坐标进行局部集束调整，从而消除动态物体特征点的影响并提高定位精度。

Description

一种动态环境下结合语义的视觉定位系统和方法

技术领域

本发明涉及计算机视觉及移动机器人定位领域，尤其涉及一种动态环境下结合语义的视觉定位系统和方法。

背景技术

同时定位与地图构建(Simultaneous Localization And Mapping，SLAM)是一种利用传感器信息建立环境地图并确定自身位姿的方法。使用相机作为传感器时称为视觉SLAM。建立实时、精确且鲁棒的SLAM系统对机器人、无人车等设备的定位具有重大意义，是实现导航和自主移动的基础。

传统的SLAM技术建立在静态环境下，不考虑环境物体的运动。而实际环境中，人的走动、车辆的来往都会造成环境动态变化，从而使SLAM系统建立的地图无法保持长时间的一致性，基于视觉的特征也会因为物体的运动而变得不稳定，SLAM系统在动态环境下的鲁棒性亟待提升。

为了使SLAM在动态环境下正常工作，需要避免使用处于动态物体上的特征点，因此需要事先计算出动态物体的位置。目前常用的动态物体提取方法都基于几何特征，当面对更加极端的动态环境时，比如人靠近镜头的走动，依然会失效。

目前，动态环境下的视觉定位的方法介绍如下，以场流法为例，流程图如图1所示。

该方法通过双目摄像机实时采集环境图像，通过特征提取算法提取图像中的特征点，对双目摄像机前后两个时刻采集的四幅图像进行立体匹配。利用双视几何原理恢复特征点三维信息。以回环匹配的方式提高匹配准确度。使用场流法剔除位于动态物体上的特征点。考虑可能引起误差的因素并通过计算协方差矩阵改善场流法效果。使用高斯牛顿迭代的方法由特征点位置信息求得机器人运动参数。使用RANSAC算法进一步提高视觉定位准确度。整个过程不断迭代，实现对机器人姿态和位置的实时计算。

在实现本发明的过程中，申请人发现上述现有技术存在如下技术缺陷：

(1)待删除的动态物体特征点根据场流法误差模型计算得出的马氏距离来决定，对不同运动形态和不同运动速度的物体使用固定的阈值会导致误差增大，无法正确判定物体的动态特性。

(2)场流法误差模型做了静态背景假设，只对小区域的运动物体具有检测能力，无法处理大型运动物体出现在视野中的情况。

(3)只把相邻帧之间发生运动的物体认做动态物体，而没有考虑物体本身的动态特性。比如人在相机前运动时，即使某个时刻处于静止状态，但仍应该看做动态物体予以剔除。

发明内容

(一)要解决的技术问题

有鉴于此，本发明提出一种动态环境下结合语义的视觉定位系统和方法，以期解决上述问题。

(二)技术方案

一种动态环境中的单目视觉定位系统，包括：物体检测模块，用于检测输入图像中物体的种类及所在位置，并输出检测结果；语义校正模块，用于接收所述检测结果，并根据物体种类将物体判定为动态物体或静态物体，输出判定结果；定位与建图模块，用于接收所述判定结果，并在图像中剔除所述动态物体。

在本发明一些示例性实施例中，所述语义校正模块包括：先验知识模块，包括动态物体判定模型，用于判定图像中的物体对应的动态特性分数；动态判定模块，用于比较所述动态特性分数和预先设定的阈值的大小，动态特性分数高于阈值的物体判定为动态物体，动态特性分数低于阈值的物体判定为静态物体。

在本发明一些示例性实施例中，所述动态物体判定模型用于结合先验知识设定多种物体的动态特性分数。

在本发明一些示例性实施例中，还包括漏检补偿模块，用于根据相邻帧图像中各个物体的位置坐标检测图像中是否存在漏检的物体。

在本发明一些示例性实施例中，所述物体检测模块用于采用多层神经网络构成的分类器检测图像中的各个物体的种类；所述多层神经网络为SSD物体检测网络，采用VGG16的基础网络结构，保留前5层不变，fc6和fc7层转化成两个卷积层，并增加三个卷积层和一个平均池化层。

在本发明一些示例性实施例中，所述定位与建图模块包括跟踪模块、建图模块和回环检测模块；所述跟踪模块用于对输入图像提取ORB特征点，根据所述判定结果对特征点分类，剔除位于动态物体上的特征点，只保留静态物体上的特征点，并判定所述输入图像是否作为关键帧加入关键帧列表；所述建图模块用于利用关键帧和关键帧观测到的地图点执行集束调整优化；所述回环检测部分用于消除定位与建图模块在大场景下的累积误差。

一种动态环境中的单目视觉定位方法，包括：检测当前帧图像中物体的种类及位置坐标；根据物体种类将物体判定为动态物体或静态物体；在当前帧图像中剔除所述动态物体。

在本发明一些示例性实施例中，所述根据物体种类将物体判定为动态物体或静态物体进一步包括：根据先验知识判定图像中的物体对应的动态特性分数；比较所述动态特性分数和预先设定的阈值的大小，将动态特性分数高于阈值的物体判定为动态物体，动态特性分数低于阈值的物体判定为静态物体。

在本发明一些示例性实施例中，还包括：检测当前帧图像中是否存在漏检的物体；其中，检测公式为：若存在则没有漏检，否则，将X_0j作为漏检物体加入当前帧的检测结果中，式中，X_1i为当前帧图像中任一物体的坐标，X_0j为前一帧图像中任一物体的坐标，v_threshold为动态物体运动速度的阈值，FPS为帧率。

在本发明一些示例性实施例中，所述在当前帧图像中剔除所述动态物体进一步包括：对当前帧图像提取ORB特征点；根据所述动态物体和静态物体的判定结果对特征点进行分类；剔除位于动态物体上的特征点，保留静态物体上的特征点。

(三)有益效果

(1)从语义层面检测到的动态物体，与其当前时刻是否在运动无关。将动态看做物体的本质属性，而不是某一时刻的状态，可以有效地解决机器人定位在长时间的一致性。

(2)增加了漏检补偿过程，提高了物体检测的精度，从而能够稳定、有效地剔除动态特征点。

(3)使用深度卷积神经网络从语义层面检测动态物体，通过多个层次的池化操作，可以将不同尺度的图像特征检测出来，使得网络能够检测到不同尺度的物体，解决了传统方法中大型动态物体无法成功检测的问题。

附图说明

图1是现有的场流法流程图。

图2本发明实施例的动态环境下结合语义的视觉定位系统流程图。

图3本发明实施例的动态环境下结合语义的视觉定位系统系统各模块详细流程图。

图4本发明实施例的SSD网络结构。

图5本发明实施例的常见物体在动态特性区间上所处的位置示意图。

图6所示为本发明实施例的动态环境中的单目视觉定位方法流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明第一实施例提供一种动态环境中的单目视觉定位系统，如图2所示为本发明实施例的动态环境中的单目视觉定位系统结构示意图，包括物体检测模块、语义校正模块和SLAM定位与建图模块，其中，物体检测模块用于检测输入图像中物体的种类及所在位置，并输出检测结果；语义校正模块用于接收物体检测模块输出的检测结果，并根据物体种类将物体判定为动态物体或静态物体，输出判定结果；定位与建图模块用于接收语义校正模块输出的判定结果，并在图像中剔除动态物体，保留静态物体。

采用单目相机实时采集图像，并将该图像作为SLAM定位与建图模块和物体检测模块的输入，物体检测模块的输出经过语义校正模块后实时反馈给SLAM定位与建图模块，SLAM定位与建图模块最后给出定位和建图结果。各个模块内部的详细流程如图3所示。

物体检测模块首先接收当前帧作为输入，经过一个多层神经网络构成的分类器，输出检测到的各个物体的类别及其所在位置坐标。多层神经网络采用SSD(Single ShotMultiBox Detector)物体检测网络，图4所示为SSD物体检测网络模型图，如图4所示，该网络使用VGG16的基础网络结构，保留前5层不变，然后利用astrous算法将fc6和fc7层转化成两个卷积层，最后再额外增加三个卷积层和一个平均池化层。使用不同网络层的信息来模拟不同尺度下的图像特征，最后通过非最大抑制得到最终的检测结果。由于舍弃了最初的候选框生成阶段，使得整个物体检测流程能够在单一网络下完成，从而实现较高的检测效率(46fps，Titan X)和检测精度(77.2％)。

得到物体检测结果后，由于存在漏检的可能，因此，在本发明一些实施例中，还包括漏检补偿模块，用于根据相邻帧图像中各个物体的位置坐标检测图像中是否存在漏检的物体。这是因为，在动态环境SLAM中，动态物体检测的成功与否直接决定了系统的其它模块是否能够正常执行。一旦发生漏检，相邻两张图间的巨大差异将会导致特征点数量急剧变化，从而导致系统的不稳定。为了能够稳定、有效地剔除动态特征点，必须在物体检测这一步获得足够高的检测精度。在常规的物体检测任务中，由于各个图片间不具有明显的关联，因此无法通过上下文信息提高检测精度。但在SLAM中，由于视频帧按照时间序列抵达，我们可以借助前若干帧的检测结果预测下一次的检测结果，从而弥补下一次可能出现的漏检或误检。该漏检补偿模块包括相邻帧漏检补偿模型，本发明提供的相邻帧漏检补偿模型基于一个合理的假设：“动态物体的运动速度不会超过某个固定的值。”。用X表示动态物体的坐标，v_threshold表示动态物体运动速度的阈值，FPS表示帧率，它们之间应该满足ΔX＜v_threshold/FPS的关系。在设置v_threshold时，既不能设置的太小，太小会使系统过于敏感，导致正确检测被认做漏检；也不能设置的太大，太大则可能使多个动态物体的检测区域重叠。若存在则认为没有漏检，否则，认为出现漏检，将X_0j作为漏检物体加入当前帧的检测结果中。最后，修正后的检测结果列表作为语义校正模块的原始数据。

语义校正模块接收物体检测模块输出的检测结果，并根据物体种类获得物体的动态特性分数，根据动态特性分数判定物体为动态物体或静态物体。语义校正模块接收检测到的各个物体的种类和位置坐标，结合先验知识对这些物体进行动态物体判定，从而提取出其中的动态物体。

语义校正模块具体包括：先验知识模块和动态判定模块，先验知识模块包括动态物体判定模型，用于判定图像中的各个物体对应的动态特性分数；动态判定模块，用于比较物体的动态特性分数和预先设定的阈值之间的大小，动态特性分数高于阈值的物体判定为动态物体，动态特性分数低于阈值的物体判定为静态物体。其中，动态物体判定模型用于结合先验知识设定多种物体的动态特性分数。

本发明在语义的层面上提出了基于先验知识的动态物体判定方法。环境物体的语义是人基于经验对环境做出的解释。处于陌生环境中的人其实并非对周围环境一无所知，人的先验知识会把眼前的景物分为建筑物、草木、车辆、行人等等，自动忽略车辆、行人等运动的物体，同时记住建筑物、草木等静止的物体，这是人处理动态环境的天赋。而SLAM系统如果不从语义层面理解周围的环境，就无法真正区分哪些是动态的，哪些是静态的，只能在短时间内找出运动的物体，而无法保证长时间的一致性。因此，我们将物体检测的结果与先验知识相结合，给出动态物体判定模型。根据人的先验知识，对物体的动态特性评分，0分为静态物体，10分为动态物体，常见物体在该区间上所处的位置大致如图5所示。将物体分数与一个事先定义的阈值相比较，分数高于阈值时判定为动态物体，低于阈值时则判定为静态物体。阈值的大小由经验给定，通常设为5。

如图3所示，SLAM定位与建图模块共分为三部分，分别是追踪模块(Tracking)、局部建图模块(Local Mapping)和回环检测模块(Loop Closing)。

追踪模块可以作为一个基于ORB特征的前端视觉里程计。首先对输入图像提取ORB特征点并计算描述子，然后根据语义校正模块的判定结果对ORB特征点进行分类，剔除位于动态物体上的特征点，只保留静态物体上的特征点。接下来进行跟踪过程，利用ORB描述子与前一关键帧进行特征匹配，使用集束调整(Bundle Adjustment)方法估计相机位姿，并估计地图点位置，建立局部地图。最后，根据重叠区大小决定当前帧是否作为关键帧加入关键帧列表。

局部建图模块用于对追踪模块计算出的位姿进行优化并建立3D点的地图。首先将关键帧插入地图中，对于每一个新的关键帧，三角化该帧上的特征点，得到3D的地图点。然后对局部区域内的若干个关键帧的位姿和这些帧观测到的3D地图点进行局部集束调整(局部BA)，使得关键帧中所有可观测到的3D点在相机位姿下的重投影误差最小。最后，分析优化后的关键帧，如果距离太近或视差太小，则剔除该关键帧。

回环检测模块用于消除SLAM在大场景下的累积误差。包括回环检测和回环修正，首先利用视觉词袋模型，将当前帧的特征与所有关键帧的特征做比较，如果描述子之间的海明距离低于某个阈值，则认为发现回环，此时局部位姿图的连接方式被修改，系统经过一次位姿图优化从而进一步降低系统的累积误差。

本发明第二实施例提供一种动态环境中的单目视觉定位方法，如图6所示为本发明实施例的动态环境中的单目视觉定位方法流程图，包括：

步骤S1：检测当前帧图像中物体的种类及位置坐标。

采用单目相机实时采集图像，并将该图像作为输入图像，本发明实施例采用多层神经网络构成的分类器对当前帧图像中的物体进行检测，输出检测到的各个物体的类别及其所在位置坐标。多层神经网络采用SSD(Single Shot MultiBox Detector)物体检测网络，图4所示为SSD物体检测网络模型图，如图4所示，该网络使用VGG16的基础网络结构，保留前5层不变，然后利用astrous算法将fc6和fc7层转化成两个卷积层，最后再额外增加三个卷积层和一个平均池化层。使用不同网络层的信息来模拟不同尺度下的图像特征，最后通过非最大抑制得到最终的检测结果。由于舍弃了最初的候选框生成阶段，使得整个物体检测流程能够在单一网络下完成，从而实现较高的检测效率(46fps，Titan X)和检测精度(77.2％)。

在本发明一些实施例中，还包括步骤：检测当前帧图像中是否存在漏检的物体。检测过程具体如下：

(1)当前帧K1进入SSD网络，输出检测到的物体列表，列表中的每一项包括检测出的物体的类型和位置坐标X_li(0＜i＜n1，n₁为K₁检测结果的数量)。

(2)若对于前一帧K0的检测结果中的每一项X_0j(0＜j＜n₀，n₀为K₀检测结果的数量)，在当前帧检测结果中若存在则认为没有漏检，若不存在则认为出现漏检，此时认为出现漏检，需要把X_0j添加进当前帧的检测结果列表中。

步骤S2：根据物体种类将物体判定为动态物体或静态物体。

结合先验知识对步骤S1检测得到的各个物体进行动态物体判定，从而提取出其中的动态物体，步骤S2进一步包括以下子步骤：

子步骤S21：根据先验知识判定图像中的物体对应的动态特性分数；

子步骤S22：比较所述动态特性分数和预先设定的阈值的大小，将动态特性分数高于阈值的物体判定为动态物体，动态特性分数低于阈值的物体判定为静态物体。

根据人的先验知识，对物体的动态特性评分，0分为静态物体，10分为动态物体，将物体分数与一个事先定义的阈值相比较，分数高于阈值时判定为动态物体，低于阈值时则判定为静态物体。阈值的大小由经验给定，通常设为5。

步骤S3：在当前帧图像中剔除所述动态物体。

步骤S3进一步包括以下子步骤：

子步骤S31：对当前帧图像提取ORB特征点；

子步骤S32：根据所述动态物体和静态物体的判定结果对特征点进行分类；

子步骤S33：剔除位于动态物体上的特征点，保留静态物体上的特征点。

在本发明一些实施例中，动态环境中的单目视觉定位方法还包括：

步骤S4：判定所述输入图像是否作为关键帧加入关键帧列表。

利用ORB描述子与前一关键帧进行特征匹配，使用集束调整(Bundle Adjustment)方法估计相机位姿，并估计地图点位置，建立局部地图。最后，根据重叠区大小决定当前帧是否作为关键帧加入关键帧列表。

步骤S5：利用关键帧和关键帧观测到的地图点执行集束调整优化。

使用当前帧附近的关键帧和3D地图点执行集束调整优化，使得关键帧中所有可观测到的3D点在相机位姿下的重投影误差最小。

步骤S6：消除定位与建图模块在大场景下的累积误差。

消除SLAM在大场景下的累积误差，利用视觉词袋模型，将当前帧的特征与所有关键帧的特征做比较，如果描述子之间的海明距离低于某个阈值，则认为发现回环，此时局部位姿图的连接方式被修改，系统经过一次位姿图优化从而进一步降低系统的累积误差。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态环境中的单目视觉定位系统，包括：

物体检测模块，用于检测输入图像中物体的种类及所在位置，并输出检测结果；

语义校正模块，用于接收所述检测结果，并根据物体种类将物体判定为动态物体或静态物体，输出判定结果；

定位与建图模块，用于接收所述判定结果，并在图像中剔除所述动态物体。

2.根据权利要求1所述的动态环境中的单目视觉定位系统，其中，所述语义校正模块包括：

先验知识模块，包括动态物体判定模型，用于判定图像中的物体对应的动态特性分数；

动态判定模块，用于比较所述动态特性分数和预先设定的阈值的大小，动态特性分数高于阈值的物体判定为动态物体，动态特性分数低于阈值的物体判定为静态物体。

3.根据权利要求2所述的动态环境中的单目视觉定位系统，其中，所述动态物体判定模型用于结合先验知识设定多种物体的动态特性分数。

4.根据权利要求1所述的动态环境中的单目视觉定位系统，其中，还包括漏检补偿模块，用于根据相邻帧图像中各个物体的位置坐标检测图像中是否存在漏检的物体。

5.根据权利要求1所述的动态环境中的单目视觉定位系统，其中，所述物体检测模块用于采用多层神经网络构成的分类器检测图像中的各个物体的种类；

所述多层神经网络为SSD物体检测网络，采用VGG16的基础网络结构，保留前5层不变，fc6和fc7层转化成两个卷积层，并增加三个卷积层和一个平均池化层。

6.根据权利要求1所述的动态环境中的单目视觉定位系统，其中，所述定位与建图模块包括跟踪模块、建图模块和回环检测模块；

所述跟踪模块用于对输入图像提取ORB特征点，根据所述判定结果对特征点分类，剔除位于动态物体上的特征点，只保留静态物体上的特征点，并判定所述输入图像是否作为关键帧加入关键帧列表；

所述建图模块用于利用关键帧和关键帧观测到的地图点执行集束调整优化；

所述回环检测部分用于消除定位与建图模块在大场景下的累积误差。

7.一种动态环境中的单目视觉定位方法，包括：

检测当前帧图像中物体的种类及位置坐标；

根据物体种类将物体判定为动态物体或静态物体；

在当前帧图像中剔除所述动态物体。

8.根据权利要求7所述的动态环境中的单目视觉定位方法，其中，所述根据物体种类将物体判定为动态物体或静态物体进一步包括：

根据先验知识判定图像中的物体对应的动态特性分数；

比较所述动态特性分数和预先设定的阈值的大小，将动态特性分数高于阈值的物体判定为动态物体，动态特性分数低于阈值的物体判定为静态物体。

9.根据权利要求7所述的动态环境中的单目视觉定位方法，其中，还包括：检测当前帧图像中是否存在漏检的物体；

其中，检测公式为：若存在则没有漏检，否则，将X_0j作为漏检物体加入当前帧的检测结果中，式中，X_1i为当前帧图像中任一物体的坐标，X_0j为前一帧图像中任一物体的坐标，v_threshold为动态物体运动速度的阈值，FPS为帧率。

10.根据权利要求7所述的动态环境中的单目视觉定位方法，其中，所述在当前帧图像中剔除所述动态物体进一步包括：

对当前帧图像提取ORB特征点；

根据所述动态物体和静态物体的判定结果对特征点进行分类；

剔除位于动态物体上的特征点，保留静态物体上的特征点。