CN112567429A

CN112567429A - 用于执行同步定位与地图构建的设备和方法

Info

Publication number: CN112567429A
Application number: CN201880096440.8A
Authority: CN
Inventors: 米格尔·克里斯托瓦尔; 班基·塞蒂亚万
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2021-03-26
Also published as: WO2020048618A1; US11410322B2; EP3818499A1; JP2021508393A; US20200334841A1; BR112021004229A2; JP7472235B2; JP2023017924A

Abstract

本发明实施例涉及同步定位与地图构建(Simultaneous Localization and Mapping，SLAM)的技术领域。特别地，提供了一种用于执行SLAM的设备和方法。所述设备包括至少一个处理器，用于执行所述SLAM，具体用于：在第一处理阶段，对接收的数据序列进行预处理，以获得帧序列，其中，所述接收的数据序列包括摄像机记录的多个图像和来自多个传感器的传感器读数。所述帧序列的每个帧包括与确定的时间实例处的图像之一相关的视觉特征集和该时间实例的传感器读数。进一步地，在第二处理阶段，基于所述帧序列的每个帧中包括的所述视觉特征集和所述传感器读数，按顺序处理该帧，以生成序列映射图。最后，在第三处理阶段，将所述序列映射图与至少一个其他图合并，以生成或更新全图。

Description

用于执行同步定位与地图构建的设备和方法

技术领域

本发明涉及同步定位与地图构建(Simultaneous Localization and Mapping，SLAM)的技术领域。特别地，本发明提供了一种用于执行SLAM的设备和方法。因此，所述设备和方法能够将摄像机图像与多个传感器读数结合以执行所述SLAM。

背景技术

下一代安全和车辆自动化将依赖于精确定位，但基于全球定位系统(GlobalPositioning System，GPS)的定位因GPS信号被频繁阻挡而受到阻碍，即使在正常驾驶情况下也是如此。定位所面临的主要技术问题之一是地图创建，或者称为地图构建。为了成功进行地图构建，需要定位。因此，必须执行所谓的SLAM。

利用立体摄像机的传统SLAM方法包括ORB-SLAM2和立体LSD-SLAM等，分别属于基于特征的方法和直接方法(https://medium.com/@j.zijlmans/lsd-slam-vs-orb-slam2-a-literature-based-comparison-20732df431d)。本发明涉及所述基于特征的方法。

扩展SLAM组合传感器仍然是一个开放性研究课题。例如，第一种手段(R.Mur-Artal和J.D.Tardós，《Visual-Inertial Monocular SLAM With Map Reuse》，IEEERobotics and Automation Letters，第2卷，第2期，第796-803页，2017年4月)将单目ORB-SLAM与惯性测量单元(Inertial Measurement Unit，IMU)相结合。第二种手段(M.Lhuillier，《Incremental Fusion of Structure-from-Motion and GPS UsingConstrained Bundle Adjustments》，IEEE Transactions on Pattern Analysis andMachine Intelligence，第34卷，第12期，第2489-2495页，2012年12月)将类似于ORB-SLAM的光束法平差(bundle adjustment，BA)技术与GPS相结合。

在上述第一种手段中，修改ORB-SLAM架构以在跟踪、局部光束法平差(LocalBundle Adjustment，LBA)和全局光束法平差中包括IMU读数。结果表明，具有已知尺度的单目ORB-SLAM比视觉-惯性单目ORB-SLAM有更好的性能。

在上述第二种手段中，存在两种BA，即标准BA和融合BA。标准BA将3D点特征的重投影误差降到最低，将这种BA的结果用于并入有GPS的融合BA。该手段包括三种提议方法，每种方法都有自己的侧重点。第一种方法是将重投影误差和GPS误差作为平方差之和降到最低，另外两种方法是对重投影误差或GPS误差进行障碍项优化。结果表明，障碍项优化比第一种方法效果好。

然而，到目前为止，尚未解决将多个传感器(例如，GPS和IMU)与SLAM相结合的问题。另外，尚未开发用于SLAM的分布式处理架构。因此，到目前为止，还没有利用所谓的众包算法的优势。

发明内容

鉴于上述问题，本发明实施例旨在改进传统的SLAM方法。目的是在模块化方面改进基于特征的地图构建过程，并将其扩展，以包括多个传感器，特别是包括GPS和IMU两者。另一个目的是实时分布式操作。特别地，应利用众包算法的优势，例如，其中多个设备(例如，车辆)通过将各自的传感器读数上载到例如云中，有助于地图创建。

通过所附独立权利要求中提供的本发明实施例实现所述目的。在从属权利要求中进一步定义本发明实施例的有利实现方式。

本发明的第一方面提供了一种用于执行SLAM的设备，其中，所述设备包括至少一个处理器，用于：在第一处理阶段，对接收的数据序列进行预处理，以获得帧序列，其中，所述接收的数据序列包括摄像机记录的多个图像和来自多个传感器的传感器读数，其中，每个帧包括与确定的时间实例处的图像之一相关的视觉特征集和所述时间实例的传感器读数；在第二处理阶段，基于所述帧序列的每个帧中包括的所述视觉特征集和所述传感器读数，按顺序处理所述帧，以生成序列映射图；在第三处理阶段，将所述序列映射图与至少一个其他图合并，以生成或更新全图。

“时间实例”可以是确定的时间点或时间间隔，也可以是相对于某个起始时间点的时间点或时间间隔。例如，“时间实例”可以是数据序列中连续图像之间的时间间隔。也就是说，可以在第一时间点拍摄所述数据序列中的第一图像，可以在第二时间点拍摄所述数据序列中的第二图像，在第三时间点拍摄第三图像。在这种情况下，所述第二图像的“时间实例”可以是所述第一时间点与所述第二时间点之间的时间间隔。在这种情况下，该“时间实例”(即所述第二图像的同一“时间实例”)的传感器读数包括在所述第一时间点与所述第二时间点之间的所有传感器读数。值得注意的是，有可能在“时间实例”期间没有传感器读数，例如，如果所述传感器工作的频率比摄像机拍摄所述图像的频率慢。进一步地，所述第三图像的“时间实例”从所述第二时间点开始。

所述设备的模块化，即分为所述三个处理阶段，能够实现实时和分布式SLAM。特别是所述第二处理阶段和所述第三处理阶段的分离允许从多个数据序列中获取信息。所述第三处理阶段可以校正传感器读数，例如，可以校正GPS偏差，因为可以(例如，从不同设备)获得多个重叠数据序列。例如，所述传感器读数允许将GPS和IMU读数与一个或多个摄像机所获取的视觉信息融合。所述帧的结构进一步导致需要传递到下一个处理阶段的数据更少(与传递整个图像相比)。

在所述第一方面的一种实现方式中，视觉特征集包括：图像特征集，所述图像特征集包括从所述相关图像中提取的一个或多个2D关键点；与所述2D关键点对应的描述符；所述2D关键点的视差和/或深度信息。

因此，所述帧包括的信息少于所述整个图像，但包括足够的特征视觉信息，以允许执行所述序列映射。优点在于，可以存储将在所述第二处理阶段中使用的所述预处理帧，例如，这便于调试过程。此外，例如，需要在分布式设备中从一个处理器传输到另一个处理器的信息较少。所述视差和/或深度信息能够允许基于所述相应的2D关键点计算3D关键点。

在所述第一方面的另一种实现方式中，所述至少一个处理器用于，在所述第一处理阶段：从所述数据序列中提取图像；校正所述图像；从所述校正图像中提取2D关键点；基于所述提取的2D关键点生成图像特征集。

在所述第一方面的另一种实现方式中，所述至少一个处理器用于，在所述第一处理阶段：向所述校正图像的像素分配一个或多个语义标签；基于所述语义标签过滤所述图像特征集，以从所述图像特征集中移除与标记为动态对象的对象相关的2D关键点。

这移除了不必要的2D关键点，从而有助于减少处理负载。

在所述第一方面的另一种实现方式中，所述至少一个处理器还用于，在所述第一处理阶段：通过向所述过滤的图像特征集添加词袋描述符，可选地添加用于搜索所述2D关键点的哈希表，生成视觉特征集；通过合并所述视觉特征集与所述图像的同一时间实例的传感器读数，生成帧。

这为所述视觉特征集添加了更多信息。所述哈希表可以进一步提高进程的速度和鲁棒性。还可以通过这种方式处理传感器信息。

在所述第一方面的另一种实现方式中，所述至少一个处理器用于，在所述第二处理阶段：基于帧中包括的视觉特征集，通过将所述视觉特征集中的2D关键点与本地存储的3D关键点进行匹配，进行摄像机跟踪，以获得与所述帧相关联的摄像机位姿。

在所述第一方面的另一种实现方式中，所述至少一个处理器用于：基于匹配的2D关键点的数量，确定所述帧是否为关键帧。

在所述第一方面的另一种实现方式中，所述至少一个处理器用于，在所述第二处理阶段：如果确定所述帧为关键帧，则：基于所述摄像机位姿执行第一局部光束法平差(LBA)，以获得视觉里程计信息和LBA图；基于所述帧中包括的所述视觉里程计信息和所述传感器读数，计算融合的摄像机位姿；基于所述融合的摄像机位姿和所述LBA图执行第二LBA，以获得所述序列映射图。

因此，所述第一LBA中的特征匹配过程不受噪声传感器读数等影响，从而防止内点丢失和跟踪失败。所述第二LBA允许将GPS和/或IMU等与视觉里程计数据融合。

在所述第一方面的另一种实现方式中，所述至少一个处理器还用于，在所述第三处理阶段：检测到所述序列映射图和所述至少一个其他图之间存在共享一个或多个环路和/或重叠区域；合并所述序列映射图和所述至少一个其他图，以获得中间图；基于所述检测到的环路和/或重叠区域对所述中间图进行图优化，以获得所述全图。

例如，如果环路或重叠区域可用，则可以校正GPS偏差。

在所述第一方面的另一种实现方式中，所述三个处理阶段中的至少两个处理阶段在不同的处理器中执行。

这能够实现所述SLAM的分布处理。

在所述第一方面的另一种实现方式中，所述设备是分布式设备，包括至少一个终端设备和至少一个网络设备，其中，所述终端设备的处理器用于执行所述第一处理阶段，将所述获得的帧序列传输到所述网络设备；所述网络设备的处理器用于执行所述第二处理阶段和所述第三处理阶段。

例如，这可以实现车辆自动化系统。可以在车辆中实时进行所述预处理。

在所述第一方面的另一种实现方式中，所述终端设备的所述处理器还用于：基于在所述第一处理阶段中获得的所述帧序列进行实时定位。

因此，将所述实时定位与所述图(地图)更新分开。值得注意的是，为了简单起见，由于通常在摄像机位姿与汽车位姿(如果所述摄像机安装在所述汽车上)之间有刚性变换，因此这两个术语可以互换使用，因为在给定另一位姿的情况下，可以通过所述刚性转换直接获得任一位姿。

在所述第一方面的另一种实现方式中，所述终端设备的所述处理器还用于：根据上文所述的第二处理阶段进行所述实时定位，其中，所述第二LBA由基于所述融合的摄像机位姿、所述LBA图和当前全图的融合跟踪程序取代，以获得当前摄像机位姿。

在所述第一方面的另一种实现方式中，所述终端设备位于车辆中，所述车辆包括所述至少一个摄像机和多个传感器。

本发明的第二方面提供了一种用于执行SLAM的方法，其中，所述方法包括：在第一处理阶段，对接收的数据序列进行预处理，以获得帧序列，其中，所述接收的数据序列包括摄像机记录的多个图像和来自多个传感器的传感器读数，其中，每个帧包括与确定的时间实例处的图像之一相关的视觉特征集和该时间实例的传感器读数；在第二处理阶段，基于所述帧序列的每个帧中包括的所述视觉特征集和所述传感器读数，按顺序处理该帧，以生成序列映射图；在第三处理阶段，将所述序列映射图与至少一个其他图合并，以生成或更新全图。

在所述第二方面的一种实现方式中，视觉特征集包括：图像特征集，所述图像特征集包括从所述相关图像中提取的一个或多个2D关键点；与所述2D关键点对应的描述符；所述2D关键点的视差信息和/或深度信息。

在所述第二方面的另一种实现方式中，所述方法包括，在所述第一处理阶段：从所述数据序列中提取图像；校正所述图像；从所述校正图像中提取2D关键点；基于所述提取的2D关键点生成图像特征集。

在所述第二方面的另一种实现方式中，所述方法包括，在所述第一处理阶段：向所述校正图像的像素分配一个或多个语义标签；基于所述语义标签过滤所述图像特征集，以从所述图像特征集中移除与标记为动态对象的对象相关的2D关键点。

在所述第二方面的另一种实现方式中，所述方法还包括，在所述第一处理阶段：通过向所述过滤的图像特征集添加词袋描述符，可选地添加用于搜索所述2D关键点的哈希表，生成视觉特征集；通过合并所述视觉特征集与所述图像的同一时间实例的传感器读数，生成帧。

在所述第二方面的另一种实现方式中，所述方法包括，在所述第二处理阶段：基于帧中包括的视觉特征集，通过将所述视觉特征集中的2D关键点与本地存储的3D关键点进行匹配，进行摄像机跟踪，以获得与所述帧相关联的摄像机位姿。

在所述第二方面的另一种实现方式中，所述方法包括：基于匹配的2D关键点的数量，确定所述帧是否为关键帧。

在所述第二方面的另一种实现方式中，所述方法还包括，在所述第二处理阶段：如果确定所述帧为关键帧，则：基于所述摄像机位姿执行第一LBA，以获得视觉里程计信息和LBA图；基于所述帧中包括的所述视觉里程计信息和所述传感器读数，计算融合的摄像机位姿；基于所述融合的摄像机位姿和所述LBA图执行第二LBA，以获得所述序列映射图。

在所述第二方面的另一种实现方式中，所述方法还包括，在所述第三处理阶段：检测到所述序列映射图和所述至少一个其他图之间存在共享的一个或多个环路和/或重叠区域的存在；合并所述序列映射图和所述至少一个其他图，以获得中间图；基于所述检测到的环路和/或重叠区域对所述中间图进行图优化，以获得所述全图。

在所述第二方面的另一种实现方式中，所述三个处理阶段中的至少两个处理阶段在不同的处理器中执行。

在所述第二方面的另一种实现方式中，所述方法在分布式设备中执行，其中，所述分布式设备包括至少一个终端设备和至少一个网络设备，其中，所述终端设备执行所述第一处理阶段，将所述获得的帧序列传输到所述网络设备；所述网络设备执行所述第二处理阶段和所述第三处理阶段。

在所述第二方面的另一种实现方式中，所述终端设备还基于在所述第一处理阶段中获得的所述帧序列进行实时定位。

在所述第二方面的另一种实现方式中，所述终端还根据上文所述的第二处理阶段进行所述实时定位，其中，所述第二LBA由基于所述融合的摄像机位姿、所述LBA图和当前全图的融合跟踪程序取代，以获得当前摄像机位姿。

在所述第二方面的另一种实现方式中，所述终端设备位于车辆中，所述车辆包括所述至少一个摄像机和多个传感器。

通过所述第二方面及其实现方式的方法，实现了所述第一方面及其相应实现方式的设备的上述优点和效果。

总之，本发明实施例基于以下描述的若干改进：

·软件架构：所述设备的处理架构(分为三个处理阶段)支持可用于实时分布式SLAM的模块化方法。通过这种方式，在进行定位时可以一直更新所述全图(全局地图)，并且只需要传输所述提取的特征，而无需传输整个图像(即，数据速率更低)。

·序列映射与最终图优化分离：映射序列的过程侧重于基于视觉信息进行准确输出，将该过程与全图(全局地图)更新分离，所述全图(全局地图)更新将考虑到多个重叠序列的可用性进行最终整体优化。这样一来，由于过程分离而不是在进行所述图更新时具有单个过程，因此能够适当地使用所有序列的所有信息。另外，所述图更新可以校正GPS偏差，因为由于多个重叠序列的可用性，这是可观察的。

·多传感器融合：在所述序列映射期间使用光束法平差，其中所述第一LBA称为标准LBA，第二LBA将第一LBA的输出与基于GPS、IMU读数和视觉里程计信息等的融合的摄像机位姿融合。目的是在第二LBA中的另一个优化之前，保证重投影误差优化(在第一LBA中完成)和GPS/IMU融合两个独立的过程。这样一来，所述第一LBA中的所述特征匹配过程不会受到GPS/IMU噪声读数的影响。与上述第二种方法相比，还融合了IMU读数。

应注意，本申请中所描述的所有设备、元件、单元和构件都可以在软件或硬件元件或其任何种类的组合中实施。本申请中描述的各种实体执行的所有步骤和所描述的将由各种实体执行的功能旨在表明各个实体适于或用于执行各自的步骤和功能。即使，在以下具体实施例的描述中，待由外部实体执行的特定功能或步骤未反映在执行该特定步骤或功能的该实体的具体详细元件的描述中，技术人员也应该清楚，这些方法和功能可以在相应的软件或硬件元件，或其任何种类的组合中实施。

附图说明

本发明的上述方面和实现形式将在以下具体实施例的描述中结合所附附图进行解释，其中：

图1示出了根据本发明实施例的设备；

图2示出了根据本发明实施例的设备的第一处理阶段；

图3示出了根据本发明实施例的设备的第二处理阶段；

图4示出了根据本发明实施例的设备的第三处理阶段；

图5示出了根据本发明实施例的用于分布处理的设备；

图6示出了根据本发明实施例的用于分布处理的设备中的实时定位；

图7示出了根据本发明实施例的方法。

具体实施方式

图1示出了根据本发明实施例的设备100。设备100用于执行SLAM，特别是执行基于特征的SLAM方法。图1示出了这种可以在离线地图构建过程中执行的SLAM方法的模块化。假设有若干个记录序列可供处理。由设备100执行的基于特征的SLAM方法具体分为三个处理阶段：第一处理阶段102(“预处理”)、第二处理阶段104(“序列映射”)和第三处理阶段106(“图更新”，也称为“全局地图更新”)。

设备100包括至少一个处理器，分别用于执行处理阶段102、104和106。三个处理阶段102、104和106中的至少两个处理阶段可以在设备100的不同处理器中执行。在这种情况下，设备100可以是分布式设备(例如，终端设备和网络设备)。还有一种可能是，每个处理阶段102、104和106都在不同的处理器中执行。

在第一处理阶段102中，对接收到的数据序列101进行预处理。数据序列101至少包括由摄像机记录(或由多个摄像机记录)的多个图像和来自多个传感器501的传感器读数(参见图5)，以获得帧序列103。多个传感器可以包括GPS和IMU。帧序列103包括一个或多个按顺序排列的帧。帧序列103中的每个帧包括视觉特征集，所述视觉特征集与数据序列101中的图像之一(即在确定的时间实例处拍摄的图像)相关，还包括该时间实例的传感器读数502(例如，参见图5)。也就是说，数据序列101包括与传感器读数502存在时间相关性的图像。因此，时间实例可以是确定的时间点或时间间隔，也可以是相对于某个起始点的点或时间间隔。

在第二处理阶段104，基于帧序列103中的每个帧包括的视觉特征集和传感器读数502，按顺序处理该帧，以生成序列映射图105。视觉特征集可以包括：图像特征集，所述图像特征集包括从相关图像中提取的一个或多个2D关键点；与所述2D关键点对应的描述符；所述2D关键点的视差信息和/或深度信息。

在第三处理阶段106，将序列映射图105与至少一个其他图400合并(例如，参见图4，其中将序列映射图105与“初始图”合并)，以生成或更新全图107(也称为“完整地图”或“全局地图”)。

图2更详细地示出了第一“预处理”阶段102的示例。处理阶段102旨在处理某个记录的数据序列101(数据序列i)，以输出帧序列103。因此，例如，在每个离散时间t，帧由与在时间t的数据序列101中的一个图像对应的视觉特征集和数据序列101中包括的时间(t-1,t]等之间的传感器读数502(例如，GPS读数和IMU读数)组成。可以假设数据序列101包括立体图像。视觉特征集可以包括图像特征集(例如，立体图像情况下的立体特征集)以及在移除与动态对象对应的点之后的词袋(Bag-of-words，BoW)描述符。另外，可以创建哈希表，从而能在图像特定区域中搜索关键点。立体特征集可以包括通过ORB等特征提取器方法从立体图像中提取的立体2D关键点及其对应的描述符，还可以包括形成3D关键点的每个立体匹配的视差和深度。优点在于能够存储帧序列103中的预处理帧，以在下一处理阶段104中使用。这将有助于调试过程，允许仅存储相关信息，而不是整个图像。

在第一处理阶段102的过程中，首先，图像提取器单元200从记录的数据序列101中提取图像(此处示例性地为立体图像)。其次，校正单元201处理立体图像，以将图像变换到公共图像平面上，从而产生经校正的立体图像。再次，在一个处理分支中，将所述经校正的立体图像输入到特征提取器单元204中，以提取每个图像中的2D关键点(即，左和右)。然后，通过立体匹配程序进一步处理这些2D关键点，以寻找具有立体对应关系的2D关键点。最后，进行3D重建程序，以基于从立体匹配中获得的视差信息/深度信息将那些2D关键点放置在3D坐标系中。仍可保留没有立体对应关系的2D关键点。值得注意的是，在提取所述2D关键点时，还可以提取相应的特征描述符，并可以将其包括在输出中，即包括在立体特征集中。

在另一个处理分支中，使用传统概念将经校正的图像输入到分类器单元203中，以输出分配给所述经校正图像的图像像素的语义标签集。这可能有助于对所述输入的校正图像进行下采样，从而使处理速度更快。

此外，动态对象过滤单元205随后通过移除2D关键点来处理输入的立体特征集，所述2D关键点与属于汽车、自行车、摩托车等动态对象的语义标签对应。此外，外观描述符单元206用于向输入的经过滤立体特征集添加更多信息，特别是通过附加BoW描述符，可选还附加哈希表(构建该哈希表以进一步提高速度和鲁棒性)，以最终完成视觉特征集的内容。如果对输出帧序列的数据大小有限制，则所述外观描述符单元可以是可选的处理单元。可以直接在需要信息的单元中完成实际处理，例如，可以在图3中的摄像机跟踪301中完成哈希表，在图4中的环路检测和合并401中完成BoW描述符。

在最后一个步骤中，两个连续图像之间的所提取传感器读数(此处示例性地为GPS读数和IMU读数)由GPS/IMU解析器202处理，由容器单元207附加到视觉特征集，以形成输出帧。由于离线处理可能涉及在上述部分或全部处理单元中使用多线程处理，因此可以保证输出序列基于时间戳形成有序帧序列103。

图3更详细地描绘了第二处理阶段104，即“序列映射”的示例，其中将按顺序处理帧序列103的帧。该处理阶段104的目标是从输入帧序列103中创建“部分图”(或“部分地图”)或“序列映射图”。图通常由顶点和边组成，序列映射图的顶点有两种，即摄像机位姿与相应的关键帧和3D关键点。关键帧仅指已被选为图的一部分的帧。边仅示出这两种顶点之间的关系。从技术上讲，每个边通过计算给定摄像机位姿的点的重投影误差，将3D关键点与摄像机位姿关联起来。如果重投影误差小于某个阈值，则建立边。

在第二处理阶段104的一个处理分支中，视觉特征解析器单元300提取在时间t的帧的视觉特征集，然后摄像机跟踪301在本地处理该视觉特征集。在此处，通过将局部地图3D关键点重投影到当前图像2D平面上，进行当前帧的2D关键点与存储的局部地图3D关键点之间的匹配。为实现这一点，预测当前图像摄像机位姿(例如，通过对过去的摄像机位姿采用运动模型)，然后执行迭代算法以根据初始预测位姿缓慢修改摄像机位姿，从而将重投影误差降到最低。也可以通过去除最小重投影误差大于某个重投影误差阈值的点等方法，在该迭代期间过滤异常值。这将使最终输出为经过滤的视觉特征集和经优化的摄像机位姿。经过滤的视觉特征集可以包括附加信息，所述附加信息可以是帧的2D关键点与局部地图3D关键点之间的对应关系。

一旦获得优化的摄像机位姿，考虑到跟踪点和未跟踪点的数量，可以决定将帧插入标准LBA图中。当满足一定条件时，将帧插入图中，将该帧称为关键帧，具有相应的摄像机位姿。将帧中与局部地图3D关键点不具有对应关系的2D关键点插入图中作为新的局部地图3D关键点，所述新的局部地图3D关键点的3D位置取自帧的3D关键点。值得注意的是，可以舍弃帧中没有任何3D关键点(立体对应关系)的那些2D关键点。对应的经优化摄像机位姿正在形成初始位姿猜测以用于下一步骤，其中通过标准局部光束法平差303对图进行局部优化。在此处，“局部”意味着存在延伸到过去的时间观察窗口；在此处，“标准”意味着仅使用摄像机传感器；BA是一种寻找经优化的摄像机位姿和3D关键点位置的方法，在给定经过滤的视觉特征集信息的情况下，该方法将重投影误差降到最低。

最终输出为局部优化图，将新关键帧的经优化摄像机位姿发送到扩展卡尔曼滤波器(Extended Kalman Filter，EKF)单元305作为视觉里程计(相对摄像机位姿变化)信息。然后，EKF单元305将所述视觉里程计信息与传感器读数(来自GPS和IMU，通过GPS/IMU解析器单元302从帧序列103获得)融合，以输出融合的摄像机位姿；其中，所述传感器读数在过去图像与当前图像之间获得。

当该帧不被视为关键帧时，该过程绕过标准LBA单元303继续进行，将经优化的摄像机位姿作为视觉里程计信息发送到EKF单元304。EKF单元304使用该信息更新其内部状态，不需要进一步处理(也不需要融合LBA 305)。整个序列映射过程104继续处理下一帧t+1。

然后，将融合的摄像机位姿和先前获得的标准LBA图输入到融合LBA 305中，以输出经优化的融合LBA图或序列映射图105。该图105不同于ORB-SLAM图和上述标准LBA图，因为图105的关键帧对应于经优化的摄像机位姿，而不是在考虑传感器读数之后的摄像机位姿，同时仍保留3D关键点信息。然后，如上述第二种手段中所示，对重投影误差使用障碍项。例如，这可以防止系统过度拟合GPS和IMU数据，并且容易发生内点丢失和跟踪失败。与第二种手段相比，EKF单元304处理多个传感器读数，即，在此处示例性地为处理GPS读数和IMU读数两者，而不是仅处理GPS读数。

单元305中提出的融合LBA(Fusion LBA，FLBA)优化可以如下：

其中

是优化参数，即局部摄像机位姿和局部3D关键点；γ是常数变量；e_t是障碍阈值项，略大于残差标准LBA e_r(x_LBA)；e_r(x)是整体重投影误差项；e_EKF(x)是EKF误差项。

其中G_L是局部关键帧集；G_F是可共视关键帧(也在观察局部关键点的关键帧)的集；M_k是根据关键帧k观察到的3D关键点集；ρ()是Huber范数；Δz_i(x)是关键点i的单个重投影误差项；Λ是像素误差协方差的逆；( )^丅表示转置运算，

e_t＝λe_r(x_LBA)，λ≥1

其中log_SE(3)是返回作为6维向量的李代数表示的3D标准欧几里德群对数；T_EKF，k是地图原点与由EKF针对关键帧k估计的摄像机位姿之间的变换矩阵；T_WC(x_k)为地图原点与根据x_k预测的摄像机位姿之间的变换矩阵；∑为EKF误差协方差且

在一个实施例中，可以通过排除标准LBA单元303来获得简化的第二处理阶段104，因此不需要将视觉里程计输入到EKF单元304。此外，将摄像机跟踪单元301的输出(即，经过滤的视觉特征集和经优化的摄像机位姿)直接发送到融合LBA单元305，该融合LBA单元305将执行没有障碍项的优化，如下：

融合LBA单元305另外输出将输入到摄像机跟踪单元301中的局部地图3D关键点。这种简化处理可能具有计算优点，抵消了处理容易发生内点丢失和跟踪失败的缺点。

图4更详细地示出了最终处理阶段106(即“图更新”或“全局地图更新”)的示例，该最终处理阶段106旨在能够将多个序列映射图105合并为统一的全图107(也称为“全局地图”)。该处理阶段106的主要任务是在环路检测和合并单元401中检测多个输入序列映射图105之间共有的环路或重叠区域的存在，并在全图优化单元402中对那些检测到的区域进行优化。BoW描述符与传感器读数一起用于提取候选关键帧以启用环路检测。中间图仅仅是将另一图400(此处为“初始图”)中的3D关键点与序列映射图105合并而产生的未经优化的图。多个重叠序列的可用性有利于校正GPS偏置等。

所提出的全图优化方程可以如下：

其中，b为偏置项，β为常数，

其中，G_Loop为扩展的重叠图区域中的关键帧的集，

其中T_EKF(b_k)是地图原点与在考虑关键帧k的偏差之后，EKF估计的摄像机位姿之间的变换矩阵；α₁和α₂是常数；n是当前关键帧与先前关键帧之间的跳过帧数量。

优选地，移除冗余关键帧，以避免图复杂度大幅度增加。值得注意的是，由于计算复杂度的原因，障碍项尚未用于此优化，然而，在允许的情况下，可以很容易地将其引入融合LBA。

既然已经描述了离线地图构建过程，那么可以导出提出的实时分布式SLAM，如图5所示。为了促进由设备100执行的所提出的SLAM方法的实时操作，可以将先前描述的可用于离线地图构建的架构(即处理阶段102、104和106)重新布置为以下架构。

首先，可以修改第一处理阶段102(“预处理”)，以直接从传感器501(例如，立体摄像机、GPS和IMU)接收输入，并实时地执行所述过程(“实时预处理”)。可以在终端设备500，如车辆中执行第一处理阶段102。

然后，终端设备500可以通过网络将在一定时间段之后获得的输出帧序列103传输到网络设备510(例如云服务器)，以执行第二处理阶段104和第三处理阶段106(“序列映射”和“全局图更新”)。鉴于网络设备510可以同时从不同的终端设备500收集多个输入(即，分布式处理和众包方法)，可以启动智能过程，该智能过程能够为包括新信息的序列分配高优先级过程。然后，由第三处理阶段106输出的经更新全图107(全局地图)可以存储在地图服务器511中，并且可供任何终端设备510、客户端或需要进行定位等的车辆下载。

在实时定位处理阶段503中，一旦“预处理”102输出与时间t对应、由于处理传感器读数502而产生的帧序列103的帧t时，如图6所示，就可以像在第二处理阶段104中那样进行数据解析，即由GPS/IMU和视觉特征解析单元300进行数据解析。如果第一处理阶段102直接单独输出数据，还可以跳过该数据解析。实时定位处理阶段503的主要变化(与第二处理阶段104相比)是存在融合跟踪600(参见图6)，而不是融合LBA 305(参见图3)。融合跟踪600输出考虑到所有输入(即融合的摄像机位姿、“全局地图”(或全图)和局部标准LBA图)的经优化摄像机位姿。对于每个输入帧，无论该帧是否被视为关键帧，融合跟踪600始终输出估计的摄像机位姿。

实际上，不需要使用全局地图的整个区域来进行定位，特定的感兴趣区域应该就足够，例如，当前传感器读数(例如，GPS读数)内的区域。从地图服务器511获取与特定感兴趣区域对应的最新全图107(也称为全局地图)应使终端设备500充分了解最新的更新或变化，这在交通堵塞、事故、道路建设工程等情况下可能有所帮助。

在这种情况下，也可以在定位期间校正当前GPS偏差。融合跟踪600可以描述为：

其中，ξ^*为经优化的摄像机位姿，

其中，b_-1为前一偏置项，

e_t＝λe_r(ξ_LBA)，λ≥1

另一种可能性是执行没有障碍项的优化：

图7示出了根据本发明实施例的方法700。方法700用于执行SLAM，可以是设备100执行的SLAM方法。相应地，该方法包括：步骤701：作为第一处理阶段102，对接收的数据序列101进行预处理，以获得帧序列103，其中，所述接收的数据序列101包括摄像机记录的多个图像和来自多个传感器501的传感器读数，其中，每个帧包括与确定的时间实例处的图像之一相关的视觉特征集和该时间实例的传感器读数502。步骤702：作为第二处理阶段104，基于所述帧序列的每个帧中包括的所述视觉特征集和所述传感器读数502，依序处理该帧，以生成序列映射图105。步骤703：作为第三处理阶段106，将所述序列映射图105与至少一个其他图400合并，以生成或更新全图107。

已经结合作为实例的不同实施例以及实施方式描述了本发明。然而，根据对附图、本发明和独立权利要求的研究，本领域技术人员在实践所要求保护的发明时，能够理解和实现其他变化。在权利要求书以及说明书中，词语“包括”不排除其他元件或步骤，且不定冠词“一”或者“一个”不排除多个。单个元件或其他单元可满足权利要求书中所叙述的若干实体或项目的功能。仅仅在相互不同的从属权利要求中叙述某些措施这一事实并不意味着这些措施的组合不能在有利的实现方式中使用。

Claims

1.一种用于执行同步定位与地图构建(Simultaneous Localization and Mapping，SLAM)的设备(100)，其特征在于，所述设备(100)包括至少一个处理器，用于：

-在第一处理阶段(102)，对接收的数据序列(101)进行预处理，以获得帧序列(103)，其中，所述接收的数据序列(101)包括摄像机记录的多个图像和来自多个传感器(501)的传感器读数，

其中，每个帧包括与确定的时间实例处的图像之一相关的视觉特征集和所述时间实例的传感器读数(502)；

-在第二处理阶段(104)，基于所述帧序列(103)的每个帧中包括的所述视觉特征集和所述传感器读数(502)，按顺序处理所述帧，以生成序列映射图(105)；

-在第三处理阶段(106)，将所述序列映射图(105)与至少一个其他图(400)合并，以生成或更新全图(107)。

2.根据权利要求1所述的设备(100)，其特征在于，

视觉特征集包括：图像特征集，所述图像特征集包括从所述相关图像中提取的一个或多个2D关键点；与所述2D关键点对应的描述符；所述2D关键点的视差信息和/或深度信息。

3.根据权利要求2所述的设备(100)，其特征在于，

所述至少一个处理器用于，在所述第一处理阶段(102)：

-从所述数据序列(101)中提取(200)图像；

-校正(201)所述图像；

-从所述校正图像中提取(204)2D关键点；

-基于所述提取的2D关键点生成(206)图像特征集。

4.根据权利要求3所述的设备(100)，其特征在于，

所述至少一个处理器用于，在所述第一处理阶段(102)：

-向所述校正图像的像素分配(203)一个或多个语义标签；

-基于所述语义标签过滤(205)所述图像特征集，以从所述图像特征集中移除与标记为动态对象的对象相关的2D关键点。

5.根据权利要求4所述的设备(100)，其特征在于，

所述至少一个处理器还用于，在所述第一处理阶段(102)：

-通过向所述过滤的图像特征集添加词袋描述符，可选地添加用于搜索所述2D关键点的哈希表，生成(206)视觉特征集；

-通过合并所述视觉特征集与所述图像的同一时间实例的传感器读数(502)，生成(207)帧。

6.根据权利要求1至5中任一项所述的设备(100)，其特征在于，

所述至少一个处理器用于，在所述第二处理阶段(104)：

-基于帧中包括的视觉特征集，通过将所述视觉特征集中的2D关键点与本地存储的3D关键点进行匹配，进行(301)摄像机跟踪，以获得与所述帧相关联的摄像机位姿。

7.根据权利要求6所述的设备(100)，其特征在于，

所述至少一个处理器用于：

-基于匹配的2D关键点数量，确定所述帧是否为关键帧。

8.根据权利要求7所述的设备(100)，其特征在于，

所述至少一个处理器还用于，在所述第二处理阶段(104)，如果确定所述帧为关键帧，则：

-基于所述摄像机位姿执行(303)第一局部光束法平差(Local Bundle Adjustment，LBA)，以获得视觉里程计信息和LBA图；

-基于所述帧中包括的所述视觉里程计信息和所述传感器读数(502)计算(304)融合的摄像机位姿；

-基于所述融合的摄像机位姿和所述LBA图执行(305)第二LBA，以获得所述序列映射图(105)。

9.根据权利要求1至8中任一项所述的设备(100)，其特征在于，

所述至少一个处理器还用于，在所述第三处理阶段(106)：

-检测到(400)所述序列映射图(105)和所述至少一个其他图(400)之间存在共享的一个或多个环路和/或重叠区域；

-合并(400)所述序列映射图(105)和所述至少一个其他图(400)，以获得中间图；

-基于所述检测到的环路和/或重叠区域对所述中间图进行(401)图优化，以获得所述全图(107)。

10.根据权利要求1至9中任一项所述的设备(100)，其特征在于，

所述三个处理阶段(102、104和106)中的至少两个处理阶段在不同的处理器中执行。

11.根据权利要求1至10中任一项所述的设备(100)，其特征在于，

所述设备(100)是分布式设备，包括至少一个终端设备(500)和至少一个网络设备(510)；

所述终端设备(500)的处理器用于执行所述第一处理阶段(102)，将所述获得的帧序列(103)传输到所述网络设备(510)；

所述网络设备(510)的处理器用于执行所述第二处理阶段(104)和所述第三处理阶段(106)。

12.根据权利要求11所述的设备(100)，其特征在于，

所述终端设备(500)的所述处理器还用于：

-基于在所述第一处理阶段(102)中获得的所述帧序列(103)，进行(503)实时定位。

13.根据权利要求12所述的设备(100)，其特征在于，

所述终端设备(500)的所述处理器还用于：

-根据权利要求8所述的所述第二处理阶段(106)进行(503)所述实时定位，其中，所述第二LBA由基于所述融合的摄像机位姿、所述LBA图和当前全图的融合跟踪程序取代，以获得当前摄像机位姿。

14.根据权利要求11至13中任一项所述的设备(100)，其特征在于

所述终端设备(500)位于车辆中，所述车辆包括所述至少一个摄像机和多个传感器(501)。

15.一种用于执行同步定位与地图构建(SLAM)的方法(700)，其特征在于，所述方法包括：

-在第一处理阶段(102)，对接收的数据序列(101)进行预处理(701)，以获得帧序列(103)，其中，所述接收的数据序列(101)包括摄像机记录的多个图像和来自多个传感器(501)的传感器读数，

-其中，每个帧包括与确定的时间实例处的图像之一相关的视觉特征集和该时间实例的传感器读数(502)；

-在第二处理阶段(104)，基于所述帧序列(103)的每个帧中包括的所述视觉特征集和所述传感器读数(502)，按顺序处理(702)该帧，以生成序列映射图(105)；

-在第三处理阶段(106)，将所述序列映射图(105)与至少一个其他图(400)合并(703)，以生成或更新全图(107)。