CN115516524A

CN115516524A - 基于视觉的重定位方法及电子设备

Info

Publication number: CN115516524A
Application number: CN202180032534.0A
Authority: CN
Inventors: 田原; 李翔; 徐毅
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2020-06-03
Filing date: 2021-06-03
Publication date: 2022-12-23
Also published as: WO2021244604A1

Abstract

一种电子设备可执行的基于视觉的重定位方法。提出了包括基于序列的位姿细化的基于视觉的重定位方法，以提高重定位精度。所述设备基于与输入帧序列相关联的基于深度图像的单帧重定位的评估，从所述输入帧序列中选择查询帧序列。所述输入帧序列是从不同的视角获得。所述设备使用与所述查询帧序列相关联的外部位姿来细化与所述查询帧序列相关联的估计位姿，以进行基于视觉的重定位。外部位姿是从外部里程计获得。

Description

基于视觉的重定位方法及电子设备

技术领域

本申请涉及增强现实(AR)系统领域，尤其是涉及一种基于视觉的重定位方法。

背景技术

在增强现实(AR)应用中，基于视觉的重定位是支持AR对象持久性和多用户注册的关键部分。持久性是在AR会话期间或跨越不同AR会话期间将虚拟对象保持在与它们先前位于现实世界空间中相同的物理位置和方向的能力。例如，在第一次AR会话期间，用户使用AR应用程序(app)将虚拟沙发放置在房间中。一段时间后，用户使用相同的应用程序进入另一个AR会话，该应用程序可以在相同的位置和相同的方向显示虚拟沙发。AR对象持久性的过程也称为重定位，其中包括相对于先前存储的“地图”表示的设备位姿的重新估计。对于AR会话中的多个用户交互，一个用户设备可以设置一个参考，或称为“锚点”，它可以是现实世界空间中的一些参考点或对象。其他用户设备可以通过将一些感官数据与“锚点”匹配来重新定位自己。重定位可以利用不同的感官数据，其中基于视觉的重定位是最普遍的。

基于视觉的重定位通常利用来自相机的数字图像作为输入并且计算关于预定义坐标系的六自由度(6DoF)相机位姿作为输出。因此，在重定位之后，可以在与之前的AR会话或不同用户的AR会话相同的坐标系中跟踪设备。

发明内容

大量的基于视觉的重定位研究工作已经发表，其中许多是与同时定位和映射(SLAM)过程一起实现的。这些技术被广泛开发并集成到当前的AR软件产品中(例如ARKit和ARcore)和当前的AR硬件产品中(例如AR眼镜)。重定位通常需要环境的稀疏或密集地图表示。接着，利用地图的视觉外观来提供初始位姿估计，然后根据应用程序进行位姿细化阶段。大多数方法使用红绿蓝(RGB)图像进行重定位。

本申请的目的在于提出一种基于视觉的重定位方法及电子设备。

在第一方面，本发明的实施例提供了一种电子设备可执行的基于视觉的重定位方法，包括：基于与输入帧序列相关联的基于深度图像的单帧重定位的评估，从所述输入帧序列中选择查询帧序列，其中所述输入帧序列是从不同视角获得；以及使用与所述查询帧序列相关联的外部位姿，细化与所述查询帧序列相关联的估计位姿以进行基于视觉的重定位，其中所述外部位姿是从外部里程计获得。

在第二方面，本发明的实施例提供了一种电子设备包括相机、深度相机、惯性测量单元(IMU)和处理器。所述相机配置为获取输入帧序列。每个输入帧包括色彩空间图像。所述深度相机配置为获取与所述色彩空间图像相关联的深度图像。所述IMU配置为提供与所述色彩空间图像相关联的外部里程计。所述处理器配置为执行：基于与所述输入帧序列相关联的基于深度图像的单帧重定位的评估，从所述输入帧序列中选择查询帧序列，其中所述输入帧序列是从不同视角获得；以及使用与所述查询帧序列相关联的外部位姿，细化与所述查询帧序列相关联的估计位姿以进行基于视觉的重定位，其中所述外部位姿是从所述外部里程计获得。

所公开的方法可以在芯片中实现。所述芯片可以包括处理器，被配置为调用和运行存储在存储器中的计算机程序，以使安装了所述芯片的设备执行所公开的方法。

所公开的方法可以被编程为存储在非暂时性计算机可读介质中的计算机可执行指令。所述非暂时性计算机可读介质在加载到计算机时指示所述计算机的处理器执行所公开的方法。

所述非暂时性计算机可读介质可以包括选自由以下组成的组中的至少一个：硬盘、CD-ROM、光存储设备、磁存储设备、只读存储器、可编程只读存储器、可擦除可编程只读存储器、EPROM、电可擦除可编程只读存储器和闪存。

所公开的方法可以被编程为计算机程序产品，其使计算机执行所公开的方法。

所公开的方法可以被编程为计算机程序，其使得计算机执行所公开的方法。

为了克服这些挑战，本发明利用了RGB/单色相机和深度相机。与其他RGB和深度(RGBD)重定位不同，本发明还使用大多数AR设备上可用的外部视觉惯性里程计(VIO)输出。VIO输出包括设备的位姿。VIO是通过分析相关图像和惯性测量单元(IMU)数据来确定设备的位置和方向的过程。本发明提供了用VIO增强的映射和重定位，并且是高效的，与SLAM过程解耦，部署非常灵活，并且不需要学习过程。VIO使用RGB/单色相机和提供外部里程计的IMU。换言之，本发明最终使用来自RGB/单色相机、IMU和深度相机的数据。通过使用异构传感器数据作为输入，所提出的方法可以提高重定位的精度。此外，本发明利用图像序列作为输入并且可以提供长期持久性。例如，n帧感官数据用于重定位。如果对于一小部分帧在映射过程之后发生环境的视觉变化，所公开的方法仍然可以从n帧序列中挑选出未改变的帧来执行重定位。与基于单帧的重定位相比，所提出的重定位方法是基于序列的，并且当长期持续存在视觉变化时可以具有更稳健的性能。

附图说明

为了更清楚地说明本申请或相关技术的实施例，下面将通过附图对实施例进行简要介绍。显然，附图仅是本申请的一些实施例，本领域普通技术人员可以在不付出任何前提下，根据这些附图获得其他附图。

图1示出了虚拟对象的重定位的示意图。

图2示出了根据本申请实施例的包括执行重定位方法的移动设备的系统的示意图。

图3示出了三种类型的基于视觉的重定位方法的示意图。

图4示出了用于基于视觉的重定位方法的映射流水线的示意图。

图5示出了根据本申请实施例的基于视觉的重定位方法的映射流水线的示意图。

图6示出了根据本申请实施例的基于视觉的重定位方法的重定位流水线的示意图。

图7示出了根据本申请实施例的用于无线通信的系统的框图。

具体实施方式

下面结合附图对本发明实施例的技术事项、结构特征、达到的目的和效果进行详细说明。具体地，本发明实施例中的术语仅用于描述特定实施例的目的，并不用于限制本发明。

参考图1，例如，在第一AR会话A期间，用户使用由电子设备10执行的AR应用程序将虚拟对象220(例如化身)放置在具有桌子221的房间中。一段时间后，用户使用相同的应用程序进入另一个AR会话B，即使设备移动到另一个位置，该应用程序也可以在相对于桌子221在相同的位置和相同方向显示虚拟对象220。另一个用户的另一个电子设备10c可以在AR会话C中相对于桌子221在相同位置和相同方向上显示虚拟对象220。

如图1所示，基于视觉的重定位可以帮助持久性和多用户注册。最近，深度相机越来越多地安装在移动设备商品上，例如手机和AR眼镜。从深度相机获取的深度信息在RGB外观之上添加了几何细节，可用于提高重定位的精度和稳健性。

参照图2，包括移动设备10a和10b、基站(BS)200a和网络实体设备300的系统执行根据本申请实施例的公开的方法。移动设备10a和10b可以是手机、AR眼镜或其他AR处理设备。图1是为了说明而非限制而示出的，并且该系统可以包括更多的移动设备、BS和CN实体。设备和设备组件之间的连接在图中显示为线和箭头。移动设备10a可以包括处理器11a、存储器12a、收发器13a、相机14a、深度相机15a和惯性测量单元(IMU)16a。移动设备10b可以包括处理器11b、存储器12b、收发器13b、相机14b、深度相机15b和惯性测量单元(IMU)16b。照相机14a和14b中的每一个从场景中获取并生成色彩空间图像。深度相机15a和15b中的每一个从场景获取并生成深度图像。IMU 16a测量并生成设备10a的外部里程计。IMU 16b测量并生成设备10b的外部里程计。设备的里程计是一种估计，其使用来自运动传感器的数据来估计设备随时间的位置变化。色彩空间图像相机，例如相机14a或14b，被配置为获取输入帧序列，其中每个输入帧包括色彩空间图像。深度相机，例如深度相机15a或15b，被配置为获取与每一帧中的色彩空间图像相关联的深度图像。IMU，例如IMU 16a或16b，被配置为提供与每帧中的色彩空间图像相关联的外部里程计。

基站200a可以包括处理器201a、存储器202a和收发器203a。网络实体设备300可以包括处理器301、存储器302和收发器303。处理器11a、11b、201a和301中的每一个可以被配置为实现在描述中描述的提议的功能、过程和/或方法。无线电接口协议的层可以在处理器11a、11b、201a和301中实现。存储器12a、12b、202a和302中的每一个可操作地存储各种程序和信息以操作连接的处理器。收发器13a、13b、203a和303中的每一个可操作地与连接的处理器耦合，发送和/或接收无线电信号或有线信号。基站200a可以是eNB、gNB或其他类型的无线电节点之一，并且可以为移动设备10a和移动设备10b配置无线电资源。

处理器11a、11b、201a和301中的每一个可以包括专用集成电路(ASIC)、其他芯片组、逻辑电路和/或数据处理设备。存储器12a、12b、202a和302中的每一个可以包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、存储卡、存储介质和/或其他存储设备。收发器13a、13b、203a和303中的每一个可以包括基带电路和射频(RF)电路以处理射频信号。当实施例以软件实现时，这里描述的技术可以用执行这里描述的功能的模块、过程、功能、实体等来实现。这些模块可以存储在存储器中并由处理器执行。存储器可以在处理器内或在处理器外部实现，其中那些可以通过本领域已知的各种方式通信地耦合到处理器。

描述中的电子设备10的示例可以包括移动设备10a和移动设备10b的其中之一。

参考图3，基于视觉的重定位的三个普遍的流水线包括用于实现直接回归方法、匹配和细化方法和匹配回归方法的流水线。图像310被输入到流水线。电子设备可以执行这些方法来实现流水线。

实现直接回归方法的直接回归流水线320使用端到端方法，该方法利用深度神经网络(DNN)直接回归位姿350。位姿可以定义为6自由度(6DoF)平移，并且用户相机的方向指的是坐标空间。三维(3D)对象的6DoF位姿表示3D对象的位置和方向的定位。位姿在ARCore中定义为：

“位姿表示从一个坐标空间到另一个坐标空间的不可变刚性变换。正如所有ARCore API所提供的，位姿总是描述从对象的局部坐标空间到世界坐标空间的变换……变换是使用围绕原点的四元数旋转和平移来定义的。”

来自ARCore API的位姿可以被认为等同于OpenGL模型矩阵。

实现匹配回归方法的匹配回归流水线340从图像中提取特征，然后在提取的特征和存储的地图之间找到匹配，最后通过匹配计算位姿。地图可以是虚拟重建的环境。地图由RGB相机、深度相机或激光雷达传感器等传感器生成。地图可以在本地获取或从服务器下载。实现匹配和回归方法的匹配和细化流水线330获得帧的稀疏或密集特征(块331)，直接回归特征和地图之间的匹配(块332)，然后基于匹配计算位姿(块333)，并输出计算的位姿(块350)。

基于视觉的重定位还需要一个映射过程来生成现实世界空间的表示。这种映射方法通常是根据所使用的特定重定位方法设计的。例如，图3中的直接回归方法需要在映射中进行DNN学习步骤。匹配回归方法还利用了映射中的学习过程，不仅限于DNN。匹配和细化映射流水线330通常使用基于关键帧的方法。普遍的关键帧方法包括增强的分层词袋库(DBoW2)和随机蕨。映射过程如图4所示。电子设备可以执行映射程序。例如，当映射开始时，具有一个图像21和一个位姿22的帧20被预处理(块401)以提取稀疏或密集特征。然后执行关键帧检查(块402)以检查当前帧20是否有资格成为新的关键帧。如果当前帧20有资格成为新的关键帧，则将帧20添加到关键帧数据库30并在关键帧数据库30中编制索引(块403)。关键帧数据库用于后续的重定位过程，以根据输入帧检索最相似的关键帧。如果当前帧20不适合成为新的关键帧，则丢弃帧20(块404)。

尽管已经开发了许多提出的重定位方法，但它们中的许多在AR应用中具有许多挑战。第一个挑战是长期持久性，这意味着虚拟对象应该长期存在。在室内场景中，环境可能一直在变化。例如，椅子可以移动，杯子可以放在不同的地方，床单可以不时更换。户外场景会受到光照、遮挡和季节变化的影响。一个原始的解决方案可能是继续更新地图，这在大多数情况下是不可行的。第二个挑战是大多数AR移动设备的计算能力有限，因此需要高效的重定位解决方案。第三个挑战是多用户AR应用，尤其是在室内场景中，需要较高的重定位精度才能获得良好的用户体验。

为了克服这些挑战，本发明同时利用RGB/单色相机和深度相机。与其他RGB和深度(RGBD)重定位不同，本发明还使用大多数AR设备上可用的外部视觉惯性里程计(VIO)输出。VIO输出包括设备的位姿。VIO是通过分析相关图像和惯性测量单元(IMU)数据来确定设备位置和方向的过程。本发明提供了用VIO增强的映射和重定位，并且是高效的，与SLAM过程解耦，部署非常灵活，并且不需要学习过程。VIO使用RGB/单色相机和提供外部里程计的IMU。换言之，本发明最终使用来自RGB/单色相机、IMU和深度相机的数据。通过使用异构传感器数据作为输入，该方法可以提高重定位的精度。此外，本发明利用图像序列作为输入并且可以提供长期持久性。例如，n帧感官数据用于重定位。如果对于一小部分帧在映射过程之后发生环境的视觉变化，所公开的方法仍然可以从n帧序列中挑选出未改变的帧来执行重定位。与基于单帧的重定位相比，所提出的重定位方法是基于序列的，并且在长期持久存在视觉变化时具有更稳健的性能。

本发明需要用于每一帧的RGB/单色图像、深度图像和外部里程计数据，并且组合查询帧序列的数据作为输入。注意，本发明提供了匹配和细化方法的实施例，并且不依赖于任何特定关键帧选择和检索模型。图5示出了所公开方法的映射流水线。在本发明中可以使用任何当前的RGB/单色关键帧选择方法。例如，Ben Glocker、Jamie Shotton、AntonioCriminisi和Shahram Izadi在IEEE可视化与计算机图形学汇刊21,no.5(2014):571-583的一篇标题为“Real-time RGB-D camera relocalization via random ferns forkeyframe encoding”的文章中公开了一种关键帧选择方法。Gálvez-López,D和J.D.Tardós在标题为“DBoW2:Enhanced hierarchical bag-of-word library for C++”的文章中公开了另一种关键帧选择方法。关键帧是可以表示映射中重要信息的帧。如图4和图5所示，检查每一帧是否有资格成为关键帧。如果该帧被限定为关键帧，则该关键帧被存储在关键帧数据库中。查询帧是重定位过程中的特殊关键帧，其选择标准与映射过程中的关键帧完全不同。

如果当前帧20有资格成为新的关键帧，则将帧20添加到关键帧数据库30中并在其中建立索引。除了关键帧之外，3D点云23也被记录为关键帧的深度图像(块403')，因此每个关键帧都具有被记录为关键帧的深度图像的3D点云23。可以从深度相机生成点云。因此，构建了一系列3D点云，可以组合成一个3D地图点云。

可以在稍后的AR会话中在相同设备或不同用户的设备上执行重定位过程。例如，本申请的基于视觉的重定位方法由设备10执行。基于视觉的重定位方法包括基于与输入帧序列相关联的基于深度图像的单帧重定位的评估，从输入帧序列中选择查询帧序列。输入帧序列是从不同视角获得的。输入帧序列中的每个输入帧包括与深度图像相关联的色彩空间图像，并且基于深度图像的单帧重定位的评估包括使用与当前帧相关联的深度图像的深度信息和与三维(3D)地图中的多个关键帧相关联的深度图像的深度信息来评估输入帧序列中的当前帧的点云配准。多个关键帧包括相对于当前帧的k个最近关键帧，其中k是正整数。当前帧的点云配准可以包括应用于当前帧的迭代最近点(ICP)算法。该设备使用与查询帧序列相关联的外部位姿，细化与查询帧序列相关联的估计位姿以进行基于视觉的重定位。外部位姿是从外部里程计获得

本申请的重定位方法的实施例包括简短的预处理，以及估计6DoF位姿的两个阶段。这两个阶段包括用于序列生成的第一阶段620和用于位姿细化的第二阶段630。图6显示了整个重定位流水线。设备10可以执行所公开的基于视觉的重定位方法来实现重定位流水线。

例如，帧20包括色彩空间图像21、深度图像23和测距位姿24。色彩空间图像可以包括从相机获得的RGB或单色图像。深度图像23可以从深度相机获得。测距位姿可以从外部里程计获得。帧20被处理为当前帧以进行预处理，第一阶段用于序列生成，第二阶段用于位姿细化。本发明引入了一种新的流水线，它结合了色彩空间图像、深度图像和外部里程计来估计重定位。此外，本发明提出了一种生成多模式序列以减少错误重定位的方法。此外，提出了基于序列的位姿细化的基于视觉的重定位方法，以提高重定位精度。

如图6所示，设备10为所公开的重定位方法获得一个或多个帧。在一帧或多帧中，一个帧被选为当前帧20并且包括色彩空间图像21、深度图像23和来自外部里程计的一个6自由度位姿24。所有色彩空间图像、深度图像和6自由度位姿都是同步的。在当前帧20的预处理(块610)中，色彩空间图像21、深度图像23和测距位姿24被配准到RGB/单色相机(例如图2所示的相机14a和14b的其中之一)的相同参考帧，使用可以通过校准过程获得的外部参数。外部参数是指单色/RGB相机和深度相机之间的转换矩阵。例如，针孔相机参数用称为相机矩阵的4×3矩阵表示。该矩阵将3-D世界场景映射到图像平面。校准算法使用外部和内部参数计算相机矩阵。外部参数表示相机在3-D场景中的位置。内部参数代表相机的光学中心和焦距。预处理一个或多个帧输出包括具有深度信息和位姿的图像的帧序列，并被传递到第一阶段620用于序列生成。

序列生成的第一阶段：

用于序列生成的第一阶段是序列生成阶段，其被配置为选择和存储作为从不同视角获取的不同帧的帧序列。每个选定的帧都有很高的概率估计位姿并生成正确的位姿。注意，在该阶段从多个输入帧中选择的帧与为映射和检索而存储的关键帧不同，因为输入到该阶段的帧是在不同时间或从不同设备捕获的。阶段中选定的帧称为查询帧。查询帧需要与存储序列中的所有其他查询帧具有不同的视角，并且具有估计正确位姿的潜力。如图6所示，第一阶段有四个主要步骤。

位姿检查：

该阶段的第一步骤是位姿检查(块621)。此步骤确保新的查询帧相对于已添加至序列中的先前查询帧来自不同的视角。该设备将当前帧20的位姿与查询帧序列中至少一个存储的查询帧的位姿位姿比较，以确定当查询帧序列不为空并且具有除当前帧之外的另一个查询帧时，当前帧是否表示与存储的查询帧完全不同的视角。如果序列中没有查询帧，则省略这一步位姿检查。设备10使用来自与当前帧20相关联的外部里程计的位姿来检查当前帧20是否相对于先前查询帧具有足够视角差。当前帧20的位姿与序列中的一个或多个最后查询帧进行比较。在将当前帧20的位姿与序列中一个存储的查询帧的位姿进行比较时，如果两个比较位姿之间的欧几里得距离大于阈值δ_trans或两个比较位姿之间的角度差大于阈值δ_rot，则选择当前帧20在下一步骤中进一步处理。如果两个比较位姿之间的欧几里得距离不大于阈值δ_trans或两个比较位姿之间的角度差不大于阈值δ_rot，则设备10确定当前帧不是合格的查询帧，并且当前帧20被忽略(块625)。

单帧重定位：

第二步骤是使用单帧重定位(块622)。设备10对当前帧20执行基于深度图像的单帧重定位的评估。具体地，(1)根据在映射期间使用的关键帧选择方法执行当前帧20的特征提取。例如，Ben Glocker、Jamie Shotton、Antonio Criminisi和Shahram Izadi在IEEE可视化与计算机图形学汇刊21,no.5(2014):571-583的一篇标题为“Real-time RGB-Dcamera relocalization via random ferns for keyframe encoding”的文章中公开了一种关键帧选择方法。Gálvez-López,D和J.D.Tardós在标题为“DBoW2:Enhancedhierarchical bag-of-word library for C++”的文章中公开了另一种关键帧选择方法。

然后，设备10使用来自关键帧数据库的K-近邻(kNN)来搜索k个最近关键帧，其中k是正整数。kNN的距离测量也是基于特征定义的。例如，如果将随机蕨用作帧的特征，则将距离计算为当前帧20的蕨与k个最近帧之一之间的汉明距离。Rublee、Ethan、VincentRabaud、Kurt Konolige和Gary Bradski在2011年IEEE国际计算机视觉大会，pp.2564-2571，一篇标题为“ORB:An efficient alternative to SIFT or SURF”的文章中公开了一种基于ORB的帧特征提取。如果使用诸如ORB的稀疏特征作为帧的特征，则该距离可以计算为当前帧20的ORB描述符与k个最近帧之一的ORB描述符的汉明距离。

(2)k个最近关键帧为当前帧提供了k个初始位姿。这k个位姿与k个最近关键帧相关联，并在映射过程中预先存储在关键帧数据库中。设备10然后在来自与当前帧相关联的深度图像的3D点云和与每个最近关键帧相关联的3D点云之间执行迭代最近点(ICP)算法以细化k个位姿。因此，生成了与k个最近关键帧相关联的k个细化位姿。

(3)在所有k个细化位姿中，选择具有最小内点RMSE(均方根误差)和最大内点百分比的位姿作为用于下一阶段的当前帧20的估计位姿。设备10针对与特定位姿相关联的k个关键帧中的特定关键帧计算k个位姿中的特定位姿的内点RMSE inlier_rmse：

表示当前帧的点云中的一个3D点；

表示特定关键帧的点云中的一个3D点；以及

运算

表示输出

和

的欧几里得范数的操作。

特定位姿的内点百分比是当前帧20中的所有3D点中的一个或多个内点的百分比。一个或多个内点被定义为当前帧的点，该些点映射到ICP期间3D地图中的特定关键帧的点。k个细化位姿与k个内点RMSE和k个内点百分比相关联。设备10选择细化位姿的其中之一，其具有最小内点均方根误差(RMSE)和最大内点百分比的k个，以形成当前帧的估计位姿。

ICP度量检查：

第三步骤是ICP度量检查(块623)。在单帧重定位中，ICP用于点变换。在ICP度量检查中，ICP用于双重检查点。ICP度量是内点RMSE和内点百分比的组合。ICP度量检查使用内点百分比和内点RMSE来确定帧是否可以作为查询帧。在ICP度量检查中，如果当前帧有一个选定的位姿，其内点RMSE低于阈值δ_rmse，并且内点百分比高于特定阈值δ_per，则当前帧20成为查询帧，并被添加到查询帧序列中(块624)。否则，忽略当前帧(块625)，并且过程继续到下一帧。

两个主要条件可能导致高内点RMSE：

1)当前帧20包括未被映射过程映射的区域；

2)当前帧20包括一个已经被映射的区域，但是关键帧检索未能找到一个好的匹配。

在这种情况下，ICP的初始位姿可能离真实太远，或者是基准真相(Ground truth)位姿。应避免第一个条件。如果当前帧包含尚未映射的区域，则根本不执行重定位。包括该区域的当前帧被称为地图外帧。除非地图外帧与地图中的某些关键帧具有相似的外观和相似的几何形状，否则内点RMSE可能会很高。阈值δ_rmse和δ_per可以根据经验设置，但可能会根据深度相机参数和映射场景而有所不同。可以在映射过程之后执行找到δ_rmse和δ_per的最佳阈值的过程。设备10可以使用地图中的关键帧作为输入来执行单帧重定位。单帧重定位是一个确定帧相对于地图的位姿的过程。在关键帧数据库中，每个关键帧都存储有一个相机位姿。这种位姿是在映射阶段计算的，可以称为“基准真相位姿”。映射过程选择一组关键帧并计算所选关键帧的位姿。在这一步骤中，这些位姿被认为是基准真相。由于每个关键帧的基准真相位姿都是已知的，因此可以确定重定位的结果。由于估计位姿的平移和旋转误差小于阈值时重定位成功完成，因此可以将查询帧选择视为使用ICP度量作为特征的分类问题。ICP度量可以包括内点RMSE和内点百分比相关测量的参数。然后，可以使用机器学习来处理此类ICP度量参数，例如简单的决策树学习，以避免大多数负面情况。

当当前帧20的所选的细化位姿的内点RMSE低于RMSE阈值δ_rmse，并且当前帧20的所选的细化位姿高于特定百分比阈值δ_per时，设备10选择当前帧20作为查询帧并将其添加到查询帧序列中。作为选择当前帧20的结果，获得所选当前帧20的估计姿态作为查询帧的估计姿态之一。当查询帧被添加到序列时，设备10还存储来自与查询帧相关联的深度图像的对应点云。为了提高效率，可能会对点云进行下采样。设备10可以使用点云来进行位姿细化。可以针对每个输入帧重复该过程以生成多个查询帧和查询帧的估计位姿。

位姿细化的第二阶段：

位姿细化阶段是使用查询帧序列中帧的细化子集来细化查询帧的估计位姿(块631)。此阶段在查询帧数大于阈值N_seq时开始。尽管所有查询帧在第一阶段都满足ICP度量，但由于位姿估计或ICP中的错误，并非所有查询帧都用于最终的位姿细化。例如，由于房间中的桌面具有与地面的平面相似的平面，因此桌面的点云可能与地面的点云相匹配。第二阶段的目标是从查询帧中选择足够多的内点帧。注意，这里的内点表示ICP期间的帧而不是点。可以使用类似随机样本共识(RANSAC)的方法来选择内点。第二阶段的算法如表1所示：

表1

在这个位姿细化过程中，第二阶段的输入是序列中的所有查询帧，具有来自里程计的外部位姿，以及来自序列生成阶段的关于地图的估计位姿。外部位姿是从外部里程计生成的。估计位姿是从重定位过程中生成的。如算法1的第1行和第2行所示，设备10使用查询帧的估计位姿将来自所有查询帧的所有点云变换为3D地图的参考坐标帧。任何地图都有x、y和z轴的原点和方向。地图的坐标系称为参考坐标帧。参考坐标帧不是序列中的帧。

如算法1的第3行所示，设备10计算查询帧每个变换点云与3D地图中参考坐标帧的点云之间的欧几里得RMSE。如算法1的第4行所示，设备10确定计算出的与查询帧相关联的欧几里得RMSE以生成多个内点帧，其中当计算的帧i的欧几里得RMSE小于阈值δ_rmse时，将查询帧序列中的帧i确定为内点帧。设备10组合来自所有内点帧的点云并细化内点帧的估计位姿以使用ICP生成细化估计位姿。设备10可以使用细化的估计位姿来改进基于视觉的重定位。例如，设备10可以使用细化的估计位姿来更好地重定位AR会话、AR内容或虚拟对象。重定位完成后，可以将虚拟对象放置到场景中。

参照图6，在第二阶段，从所有估计位姿中，设备10选择具有足够好的估计位姿

的帧i。为此，对于每个估计位姿

设备10使用算法1的第2行所示的估计位姿

将所有查询帧中的所有点云转换为地图的参考坐标帧。帧i具有估计位姿

和外部位姿

通过变换

将查询帧序列中第j帧的点云PC_j变换到参考坐标帧。PC_j其中(j＝1..n)表示序列中的所有帧。基本上，该算法处理每一帧(如第1行所示的i＝0:n)，在每一帧期间，使用当前帧i作为参考，并使用第2行中的条件变换序列中的所有帧。

然后，使用帧i的位姿和地图的点云PC_map中的点计算序列中所有帧的点云PC_seq中的点之间的欧几里得RMSE。如果欧几里得RMSE小于阈值δ_rmse，则帧i被视为内点。当内点的数量足够大时，例如大于n/2的数量，所有内点帧都保存为细化子集中的元素。在一个实施例中，一旦找到这样的内点帧，设备10返回内点帧和应用于内点的变换作为第二阶段的输出。第二阶段输出中的每个内点帧都与序列中(1..n)中所有j的估计位姿

外部位姿

以及变换

相关联。变量i是用于位姿初始化的选定帧索引，变量j是从1到n的一帧索引。

是

的反向旋转。这种早期返回策略降低了算法1的计算成本。在替代实施例中，在评估了所有具有估计位姿的查询帧之后，选择具有最大内点的数量的帧并将其保存为细化子集中的元素。例如，较小的RMSE会打平。换言之，如果两个帧具有相同数量的内点，则所公开方法的实施例在针对细化子集的帧选择中优选具有较小RMSE的帧。设备10组合来自所有内点帧的点云并使用ICP细化估计位姿，并将细化的估计位姿P_final作为第二阶段的输出的一部分。

设备10确定位姿细化是否成功(块632)。当以具有最小平均RMSE的估计位姿成功地进行位姿细化时，具有最小平均RMSE的估计位姿和与估计位姿相关联的内点也被存储为经细化的估计位姿P_final(框634)。在处理完所有帧之后，如果设备10找不到具有足够内点的估计位姿，则设备10移除作为估计位姿的具有最小均RMSE的异常值的帧，并对其他输入帧重复第一阶段和第二阶段。设备10在第一阶段和第二阶段将新的帧作为当前帧处理，直到细化子集具有足够的帧。

当在处理具有N个帧的序列之后，第二阶段不能获得满足标准的帧时，会发生异常值的去除。异常值去除是稍微缩减N个序列。然后序列被缩短，第二阶段等待序列再次具有N个帧。

所提出的方法利用RGB/单色图像、深度图像和外部里程计作为输入来实现基于视觉的重定位。该方法采用传统的流水线。计算速度快，适用于移动AR设备。基于序列的重定位可以达到比单帧方法更高的精度。由于将序列而不是将单帧作为输入，因此该方法对环境中的视觉变化也具有稳健性。

图7是根据本申请实施例的公开的基于视觉的重定位方法的示例系统700的框图。本文描述的实施例可以使用任何适当配置的硬件和/或软件实现到系统中。图7示出了系统700，包括射频(RF)电路710、基带电路720、处理单元730、存储器740、显示器750、相机模块760、传感器770和输入/输出(I/O)接口780，如图所示相互耦合。

处理单元730可以包括电路，例如但不限于一个或多个单核或多核处理器。处理器可以包括通用处理器和专用处理器(例如图形处理器和应用处理器)的任何组合。处理器可以与存储器耦合并且被配置为执行存储在存储器中的指令以启用在系统上运行的各种应用程序和/或操作系统。

基带电路720可以包括电路，例如但不限于一个或多个单核或多核处理器。处理器可以包括基带处理器。基带电路可以处理能够通过RF电路与一个或多个无线电网络进行通信的各种无线电控制功能。无线电控制功能可以包括但不限于信号调制、编码、解码、无线电频移等。在一些实施例中，基带电路可以提供与一种或多种无线电技术兼容的通信。例如，在一些实施例中，基带电路可以支持与5G NR、LTE、演进的通用陆地无线电接入网络(EUTRAN)和/或其他无线城域网(WMAN)、无线局域网(WLAN)、无线个域网(WPAN)的通信。基带电路被配置为支持多于一种无线协议的无线电通信的实施例可以被称为多模基带电路。在各种实施例中，基带电路720可以包括用未被严格认为处于基带频率的信号操作的电路。例如，在一些实施例中，基带电路可以包括用具有中频的信号操作的电路，该中频在基带频率和射频之间。

RF电路710可以通过非固体介质使用调制的电磁辐射实现与无线网络的通信。在各种实施例中，RF电路可以包括开关、滤波器、放大器等以促进与无线网络的通信。在各种实施例中，RF电路710可以包括用不严格认为处于射频中的信号来操作的电路。例如，在一些实施例中，RF电路可以包括用具有中频的信号操作的电路，该中频在基带频率和射频之间。

在各种实施例中，以上关于UE、eNB或gNB讨论的发射器电路、控制电路或接收器电路可以全部或部分地体现在RF电路、基带电路、和/或处理单元。如本文所用，“电路”可以指代、属于或包括专用集成电路(ASIC)、电子电路、处理器(共享、专用或组)和/或存储器(共享、专用、或组)执行一个或多个软件或固件程序、组合逻辑电路和/或提供所述功能的其他合适的硬件组件。在一些实施例中，电子设备电路可以在一个或多个软件或固件模块中实现，或者与电路相关联的功能可以通过一个或多个软件或固件模块实现。在一些实施例中，基带电路、处理单元和/或存储器的组成组件中的一些或全部可以一起实现在片上系统(SOC)上。

存储器740可以用于加载和存储例如用于系统的数据和/或指令。用于一个实施例的存储器可以包括合适的易失性存储器(例如动态随机存取存储器(DRAM))和/或非易失性存储器(例如闪存)的任何组合。在各种实施例中，I/O接口780可以包括一个或多个被设计成使得用户能够与系统交互的用户接口和/或被设计成能够使外围组件与系统交互的外围组件接口。用户接口可以包括但不限于物理键盘或小键盘、触摸板、扬声器、麦克风等。外围组件接口可以包括但不限于非易失性存储器端口、通用串行总线(USB)端口、音频插孔和电源接口。

相机模块760可以包括色彩空间图像相机和深度相机，例如深度相机15a或15b。色彩空间图像相机被配置为获取输入帧序列，其中每个输入帧包括色彩空间图像。深度相机被配置为获取与每一帧中的色彩空间图像相关联的深度图像。

传感器770被配置为提供与每帧中的色彩空间图像相关联的外部里程计。在各种实施例中，传感器770可以包括一个或多个感测装置以确定与系统相关的环境条件和/或位置信息。在一些实施例中，传感器可以包括但不限于IMU、陀螺仪传感器、加速度计、接近传感器、环境光传感器和定位单元。定位单元也可以是基带电路和/或RF电路的一部分或与之交互，以与定位网络(例如全球定位系统(GPS)卫星)的组件通信。在各种实施例中，显示器750可以包括显示器，例如液晶显示器和触摸屏显示器。在各种实施例中，系统700可以是移动计算设备，例如但不限于膝上型计算设备、平板计算设备、上网本、超极本、智能手机等。在各种实施例中，系统可以具有或多或少的组件，和/或不同的架构。在适当的情况下，本文描述的方法可以实现为计算机程序。计算机程序可以存储在存储介质上，例如非暂时性存储介质。

本申请实施例是可用于创建最终产品的技术/过程的组合。

本领域普通技术人员可以理解，本发明实施例中描述和公开的各个单元、算法和步骤是通过电子硬件或者计算机软件与电子硬件的组合来实现的。功能是在硬件中运行还是在软件中运行取决于应用条件和技术方案的设计要求。本领域普通技术人员可以使用不同的方式来实现针对每个具体应用的功能，但这样的实现不应超出本申请的范围。本领域普通技术人员可以理解，上述系统、设备和单元的工作过程可以参考上述实施例中的系统、设备和单元的工作过程，并且单元基本相同。为便于描述和简单起见，这些工作过程将不再详述。

可以理解的是，本发明实施例所公开的系统、设备和方法可以通过其他方式实现。上述实施例仅是示例性的。单元的划分仅仅基于逻辑功能，其他的划分存在于实现中。可以将多个单元或组件组合或集成到另一个系统中。也有可能省略或跳过某些特征。另一方面，显示或讨论的相互耦合、直接耦合或通信耦合通过一些端口、设备或单元操作，无论是间接地还是通过电气、机械或其他种类的形式进行通信。

作为用于解释的分隔组件的单元在物理上是分开的或不分开的。用于显示的单元是或不是物理单元，即位于一个地方或分布在多个网络单元上。根据实施例的目的使用一些或所有单元。此外，各个实施例中的各个功能单元可以集成为一个处理单元，也可以是物理上独立的，也可以由两个或两个以上的单元集成为一个处理单元。

如果软件功能单元作为产品实现使用和销售，则可以存储在计算机中的可读存储介质中。基于这样的理解，本发明提出的技术方案可以基本或部分地以软件产品的形式实现。或者，可以将对现有技术有利的技术方案的一部分实现为软件产品的形式。计算机中的软件产品存储在存储介质中，包括多个命令，供计算设备(例如个人计算机、服务器或网络设备)运行本发明实施例公开的全部或部分步骤的多个命令。存储介质包括U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、软盘或其他能够存储程序代码的介质。

所提出的解决方案采用匹配和细化流水线并且包括两阶段处理来细化位姿。第一阶段将查询帧选择到序列中。第二阶段从序列中选择内点帧。最后，内点帧用于细化位姿。所公开的方法实现了高重定位精度，同时以低计算资源保持效率。由于序列内点选择，本发明可以避免基于关键帧的方法的缺点，包括由于几何细节不足而导致的初始化不良和ICP不良。此外，该序列采用具有良好几何拟合的内点帧。当序列足够长以覆盖没有视觉变化的场景的静态部分时，所公开的方法可以处理具有视觉变化的场景。

尽管已经结合被认为是最实用和优选的实施例描述了本申请，但是应当理解，本申请不限于所公开的实施例，而是旨在覆盖在不背离所附权利要求的最广泛解释的范围的情况下做出的各种布置。

Claims

1.一种电子设备可执行的基于视觉的重定位方法，其特征在于，包括：

基于与输入帧序列相关联的基于深度图像的单帧重定位的评估，从所述输入帧序列中选择查询帧序列，其中所述输入帧序列是从不同视角获得的不同帧；以及

使用与所述查询帧序列相关联的外部位姿，细化与所述查询帧序列相关联的估计位姿以进行基于视觉的重定位，其中所述外部位姿是从外部里程计获得。

2.如权利要求1所述的基于视觉的重定位方法，其特征在于，所述方法还包括：

比较当前帧的位姿与所述查询帧序列中的至少一个存储的查询帧的位姿，以确定当所述查询帧序列具有所述当前帧以外的另一个查询帧时，所述当前帧是否表示与所述存储的查询帧完全不同的视角。

3.如权利要求2所述的基于视觉的重定位方法，其特征在于，所述方法还包括：

当所述当前帧的所述位姿与所述至少一个存储的查询帧的所述位姿之间的欧几里得距离大于阈值时，确定所述当前帧表示与所述存储的查询帧完全不同的视角；以及

在所述当前帧上执行基于深度图像的单帧重定位的评估，其中所述当前帧表示与所述存储的查询帧完全不同的视角。

4.如权利要求1所述的基于视觉的重定位方法，其特征在于，所述输入帧序列中的每个输入帧包括与深度图像相关联的RGB图像，以及所述基于深度图像的单帧重定位的所述评估包括：使用与当前帧相关联的深度图像的深度信息和与三维(3D)地图中的多个关键帧相关联的深度图像的深度信息来评估所述输入帧序列中的所述当前帧的点云配准。

5.如权利要求4所述的基于视觉的重定位方法，其特征在于，所述多个关键帧包括相对于所述当前帧的k个最近关键帧，k为正整数，所述当前帧的所述点云配准包括应用于所述当前帧的迭代最近点(ICP)算法，所述方法还包括：

为所述当前帧提供与所述k个最近关键帧相关联的k个位姿；以及

在与所述当前帧相关联的所述深度图像的3D点云和与所述k个最近关键帧中的每一个相关联的3D点云之间执行迭代最近点(ICP)算法，以细化与所述k个最近关键帧相关联的所述k个位姿。

6.如权利要求5所述的基于视觉的重定位方法，其特征在于，为与特定位姿相关联的k个关键帧中的特定关键帧计算所述k个位姿中的所述特定位姿的内点均方根误差(RMSE)，所述特定位姿的内点百分比是所述当前帧中所有3D点中一个或多个内点的百分比，所述一个或多个内点被定义为所述当前帧的点，所述点在所述ICP期间映射到所述3D地图中的所述特定关键帧的点，并且k个细化位姿与k个内点RMSE和k个内点百分比相关联；以及

所述方法还包括：

选择所述k个细化位姿中的一个，其具有最小内点RMSE和最大内点百分比，以形成所述当前帧的估计位姿。

7.如权利要求6所述的基于视觉的重定位方法，其特征在于，所述方法还包括：

当所述当前帧的所选择的细化位姿的所述内点RMSE低于RMSE阈值，并且所述当前帧的所选择的细化位姿的所述内点百分比高于特定百分比阈值时，选择所述当前帧作为查询帧并将其添加到所述查询帧序列中，其中获得选择的所述当前帧的所述估计位姿作为所述查询帧的所述估计位姿之一。

8.如权利要求7所述的基于视觉的重定位方法，其特征在于，所述方法还包括：存储与添加到所述查询帧序列中的所述当前帧相关联的所述深度图像。

9.如权利要求7所述的基于视觉的重定位方法，其特征在于，所述方法还包括：

使用所述查询帧的所述估计位姿将所有的所述查询帧的所有点云变换为所述3D地图的参考坐标帧；

计算所述查询帧的每个变换的所述点云与所述3D地图中所述参考坐标帧的点之间的欧几里得RMSE；

确定计算的所述查询帧的所述欧几里得RMSE以生成多个内点帧，其中当计算的第i帧的欧几里得RMSE小于阈值δ_rmse时，确定所述查询帧序列中的所述第i帧为内点帧；以及

结合来自所有内点帧的点云并细化所述内点帧的所述估计位姿，以使用ICP生成细化的估计位姿。

10.如权利要求9所述的基于视觉的重定位方法，其特征在于，所述第i帧具有估计位姿

和外部位姿

以及通过变换式

将所述查询帧序列中的第j帧的点云PC_j变换为所述参考坐标帧。

11.一种电子设备，其特征在于，包括：

相机，配置为获取输入帧序列，其中每个输入帧包括RGB图像；

深度相机，配置为获取与所述RGB图像相关联的深度图像；

惯性测量单元，配置为提供与所述RGB图像相关联的外部里程计；以及

处理器，配置为执行：

基于与所述输入帧序列相关联的基于深度图像的单帧重定位的评估，从所述输入帧序列中选择查询帧序列，其中所述输入帧序列是从不同视角获得的不同帧；以及

使用与所述查询帧序列相关联的外部位姿，细化与所述查询帧序列相关联的估计位姿以进行基于视觉的重定位，其中所述外部位姿是从所述外部里程计获得。

12.如权利要求11所述的电子设备，其特征在于，所述处理器还被配置为执行：

13.如权利要求12所述的电子设备，其特征在于，所述处理器还被配置为执行：

14.如权利要求11所述的电子设备，其特征在于，所述输入帧序列中的每个输入帧包括与深度图像相关联的RGB图像，以及所述基于深度图像的单帧重定位的所述评估包括：使用与当前帧相关联的深度图像的深度信息和与三维(3D)地图中的多个关键帧相关联的深度图像的深度信息来评估所述输入帧序列中的所述当前帧的点云配准。

15.如权利要求14所述的电子设备，其特征在于，所述多个关键帧包括相对于所述当前帧的k个最近关键帧，k为正整数，所述当前帧的所述点云配准包括应用于所述当前帧的迭代最近点(ICP)算法，以及所述处理器还被配置为执行：

16.如权利要求15所述的电子设备，其特征在于，为与特定位姿相关联的k个关键帧中的特定关键帧计算所述k个位姿中的所述特定位姿的内点均方根误差(RMSE)，所述特定位姿的内点百分比是所述当前帧中所有3D点中一个或多个内点的百分比，所述一个或多个内点被定义为所述当前帧的点，所述点在所述ICP期间映射到所述3D地图中的所述特定关键帧的点，并且k个细化位姿与k个内点RMSE和k个内点百分比相关联；以及

所述处理器还被配置为执行：

17.如权利要求16所述的电子设备，其特征在于，所述处理器还被配置为执行：

18.如权利要求17所述的电子设备，其特征在于，所述处理器还被配置为执行：存储与添加到所述查询帧序列中的所述当前帧相关联的所述深度图像。

19.如权利要求17所述的电子设备，其特征在于，所述处理器还被配置为执行：

20.如权利要求19所述的电子设备，其特征在于，所述第i帧具有估计位姿

和外部位姿

以及通过变换式

21.一种芯片，其特征在于，包括：

处理器，配置为调用并运行存储在存储器中的计算机程序，使安装有所述芯片的设备执行如权利要求1至10中任一项所述的方法。

22.一种计算机可读存储介质，其中存储了计算机程序，其特征在于，所述计算机程序使计算机执行如权利要求1至10中任一项所述的方法。

23.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序使计算机执行根据如要求1至10中任一项所述的方法。

24.一种计算机程序，其特征在于，所述计算机程序使计算机执行如权利要求1至10中任一项所述的方法。