CN105210113A

CN105210113A - 具有一般和全景相机移动的单眼视觉slam

Info

Publication number: CN105210113A
Application number: CN201480023846.5A
Authority: CN
Inventors: C·皮尔基海姆; D·施马尔施蒂格; G·赖特迈尔
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-04-30
Filing date: 2014-04-29
Publication date: 2015-12-30
Anticipated expiration: 2034-04-29
Also published as: US20140320593A1; EP2992505A1; JP6348574B2; WO2014179349A1; KR20160003066A; JP2016526313A; US9674507B2; CN105210113B

Abstract

本发明揭示一种用于单眼视觉同时局部化和映射的系统、设备和方法，其处置一般6DOF和全景相机移动。接收环境的3D地图，所述3D地图含有在常规或全景关键帧中观察到的具有有限或无限深度的特征。从有限、无限或混合特征集合，以6DOF跟踪所述相机。在检测到朝未映射场景区的全景相机移动后，即刻创建具有无限特征的参考全景关键帧，并将其插入到所述3D地图中。当全景相机移动朝未映射场景区扩展时，用进一步的从属全景关键帧来扩展所述参考关键帧。全景关键帧相对于有限3D地图特征，以6DOF稳健地局部化。经局部化的全景关键帧含有无限地图特征的2D观察，其与其它经局部化关键帧中的2D观察匹配。对2D-2D对应性进行三角测量，从而产生新的有限3D地图特征。

Description

具有一般和全景相机移动的单眼视觉SLAM

相关申请案的交叉参考

本申请案主张2013年4月30日申请的第61/817,808号美国临时申请案的权益，且明确地以引用的方式并入本文中。

技术领域

本文所揭示的标的物大体上涉及同时局部化和映射。

背景技术

视觉同时局部化和映射(SLAM)系统可处理单个相机的输入，并随着相机以六个自由度(6DOF)移动而连续地建立环境的三维(3D)模型(例如，SLAM地图)。视觉SLAM系统可同时跟踪相机相对于3D模型的位置和定向(姿势)。基于关键帧的视觉SLAM系统可处理来自传入相机图像流或馈送的离散选择的帧。基于关键帧的视觉SLAM系统假定一般相机运动，并应用从运动恢复结构技术来创建3D特征地图。

视觉SLAM系统可需要关键帧对之间的平移或一般相机运动所引起的充分视差来对3D地图特征进行三角测量。因此，相对于先前选择的关键帧，选择算法可拒绝具有退化的相对仅旋转相机运动的候选帧。用于未映射区的仅旋转相机运动可致使视觉SLAM系统归因于缺乏新选择的关键帧而停止。相机跟踪可最终因地图不可用而失败。因此，可迫使视觉SLAM系统处于重新局部化模式，以便重新开始跟踪。因此，改进的跟踪和映射技术是合乎需要的。

发明内容

本文所揭示的实施例可涉及一种用于单眼视觉同时局部化和映射的方法。在一个实施例中，一种用于图像处理的机器实施的方法接收环境的3D地图。在一个实施例中，所述3D地图包含在两个或两个以上关键帧中观察到的具有有限深度的特征，其中每一关键帧是全景关键帧或常规关键帧。所述3D地图还包含在一个或一个以上全景关键帧中观察到的具有无限深度的特征。在一个实施例中，所述方法从在来自输入图像馈送的图像帧内观察到的3D地图的有限或无限深度特征，以六个自由度(6DOF)跟踪所述相机。

本文所揭示的实施例可涉及用于单眼视觉同时局部化和映射的设备。所述设备可包含用于接收环境的3D地图的装置。在一个实施例中，所述3D地图包含在两个或两个以上关键帧中观察到的具有有限深度的特征，其中每一关键帧是全景关键帧或常规关键帧。所述3D地图还包含在一个或一个以上全景关键帧中观察到的具有无限深度的特征。在一个实施例中，所述设备可包含用于从在来自输入图像馈送的图像帧内观察到的3D地图的有限或无限深度特征，以六个自由度(6DOF)跟踪所述相机的装置。

本文所揭示的实施例可涉及一种用于单眼视觉同时局部化和映射的装置，所述装置包括用来接收环境的3D地图的硬件和软件。所述装置可处理接收环境的三维(3D)地图的指令。在一个实施例中，所述3D地图包含在两个或两个以上关键帧中观察到的具有有限深度的特征，其中每一关键帧是全景关键帧或常规关键帧。所述3D地图还包含在一个或一个以上全景关键帧中观察到的具有无限深度的特征。在一个实施例中，所述装置可处理指令以从在来自输入图像馈送的图像帧内观察到的3D地图的有限或无限深度特征，以六个自由度(6DOF)跟踪所述相机。

本文所揭示的实施例可涉及一种上面存储有指令的非暂时性存储媒体，所述指令响应于被装置中的处理器执行，而执行接收环境的3D地图。所述媒体可存储接收环境的三维(3D)地图的指令。在一个实施例中，所述3D地图包含在两个或两个以上关键帧中观察到的具有有限深度的特征，其中每一关键帧是全景关键帧或常规关键帧。所述3D地图还包含在一个或一个以上全景关键帧中观察到的具有无限深度的特征。在一个实施例中，所述媒体可存储指令以从在来自输入图像馈送的图像帧内观察到的3D地图的有限或无限深度特征，以六个自由度(6DOF)跟踪所述相机。

其它特征和优点将从附图且从详细描述中明白。

附图说明

图1是一个实施例中的其中可实践本发明的方面的系统的框图；

图2说明一个实施例中的混合SLAM的流程图；

图3说明一个实施例中的关键帧与特征之间的混合SLAM地图表示的第一级；

图4说明一个实施例中的关键帧与特征之间的混合SLAM地图表示的第二级；

图5一个实施例中的混合SLAM初始化的流程图；

图6说明一个实施例中的具有交替的一般和纯旋转相机运动的6DOF和全景映射和跟踪阶段；

图7说明一个实施例中的映射期间的关键帧选择的不同状态的状态图；以及

图8是一个实施例中的包含跟踪和映射组件的混合SLAM系统的框图。

具体实施方式

词语“示例性”或“实例”在本文用来表示“充当实例、例子或说明”。本文描述为“示例性”或描述为“实例”的任何方面或实施例不一定解释为比其它方面或实施例优选或有利。

在一个实施例中，6DOFSLAM和全景SLAM的功能性可组合到基于稳健运动混合关键帧的SLAM系统中，所述系统可接受用于正常6DOF操作的完全经三角测量的关键帧，以及仅具有旋转约束的关键帧。在一个实施例中，混合SLAM(HSLAM)可处理纯旋转，并向用户提供无缝跟踪体验。在一个实施例中，HSLAM映射利用6DOF和全景关键帧来估计三维(3D)地图(例如，全局SLAM地图)的新部分。HSLAM可贯穿远离场景的所映射部分的旋转而连续地跟踪3D地图，且可使用来自在仅旋转运动(例如，全景跟踪)期间观察到的相机图像的信息来更新3D地图。在一个实施例中，可用单个相机传感器来实施HSLAM，作为一种类型的单眼视觉SLAM。如下文所描述，装置100可在用以实施本文所述的功能性的处理器的控制下实施HSLAM操作。

图1是说明其中可实践本发明的实施例的系统的框图。所述系统可为装置100，其可包含通用处理器161、图像处理模块171、6DOFSLAM模块173、全景模块175和存储器164。装置100还可包含若干装置传感器，其耦合到一个或一个以上总线177或信号线，所述总线177或信号线进一步耦合到至少图像处理171、6DOFSLAM173和全景SLAM175模块。为了清楚，将模块171、173和175与处理器161和/或硬件162分开说明，但其可组合和/或基于软件165和固件163中的指令，在处理器161和/或硬件162中实施。控制单元160可经配置以实施如下文所述的执行混合SLAM的方法。举例来说，控制单元160可经配置以实施图2中所描述的移动装置100的功能。

装置100可为：移动装置、无线装置、手机、增强现实装置(AR)、个人数字助理、可穿戴装置(例如，眼镜、腕表、头饰或类似的附加到身体的装置)、移动计算机、平板计算机、个人计算机膝上型计算机、数据处理装置/系统，或任何类型的具有处理能力的装置。

在一个实施例中，装置100为移动/便携式平台。装置100可包含用于捕获图像的装置，例如相机114，且可任选地包含运动传感器111，例如加速计、陀螺仪、电子指南针，或其它类似的运动感测元件。装置100还可捕获前置或后置相机(例如，相机114)上的图像。装置100可进一步包含用户接口150，其包含用于显示增强现实图像的装置，例如显示器112。用户接口150还可包含键盘、小键盘152或其它输入装置，用户可通过其将信息输入到装置100中。如果需要，那么将虚拟小键盘集成到具有触摸屏/传感器的显示器112中可去除键盘或小键盘152。用户接口150还可包含麦克风154和扬声器156，例如，如果装置100为移动平台，例如蜂窝式电话。装置100可包含与本发明无关的其它元件，例如卫星位置系统接收器、电力装置(例如，电池)，以及通常与便携式和非便携式电子装置相关联的其它组件。

装置100可充当移动或无线装置，且可通过基于或以其它方式支持任何合适的无线通信技术的无线网络，经由一个或一个以上无线通信链路来通信。举例来说，在一些方面中，装置100可为客户端或服务器，且可与无线网络关联。在一些方面中，所述网络可包括体域网络或个人域网(例如，超宽带网络)。在一些方面中，所述网络可包括局域网或广域网。无线装置可支持或以其它方式使用多种无线通信技术、协议或标准中的一者或一者以上，例如3G、LTE、高级LTE、4G、CDMA、TDMA、OFDM、OFDMA、WiMAX和Wi-Fi。类似地，无线装置可支持或以其它方式使用多种对应调制或多路复用方案中的一者或一者以上。移动无线装置可与其它移动装置、手机、其它有线和无线计算机、因特网网站等无线通信。

如上文所述，装置100可为便携式电子装置(例如，智能电话、专用增强现实(AR)装置、游戏装置、或其它具有AR处理和显示能力的装置)。实施本文所述的AR系统的装置可在多种环境(例如，购物中心、街道、办公室、家庭或用户可使用其装置的任何地方)中使用。用户可在各种各样的情形中与其装置100的多个特征介接。在AR上下文中，用户可使用其装置来检视真实世界通过其装置的显示器的表示。用户可通过使用其装置的相机接收真实世界图像/视频来与其具AR能力的装置交互，并以将额外或替代信息叠加到装置上所显示的真实世界图像/视频的方式来处理所述图像。当用户在其装置上检视AR实施例时，真实世界对象或场景可在装置显示器上被实时替换或更改。可将虚拟对象(例如，文本、图像、视频)插入装置显示器上所描绘的场景的表示中。

在一个实施例中，HSLAM可执行6DOFSLAM，其包含如上文所述的全局SLAM地图的跟踪和映射。HSLAM可维持单个SLAM地图(即，全局SLAM地图)，且6DOFSLAM和全景SLAM两者可存取和更新所述全局SLAM地图。

在一些实施例中，HSLAM，通过6DOFSLAM(例如，作为专用6DOF模块173)可从捕获的图像产生关键帧。HSLAM可在确定所捕获的图像满足从已经与全局SLAM地图相关联的先前关键帧的阈值转译后，即刻产生关键帧。

在一个实施例中，6DOFSLAM(例如，6DOF跟踪)可使从关键帧观察到的特征关联到全局SLAM地图。6DOFSLAM(例如，6DOF跟踪)可使用特征关联来确定与相应相机图像有关的相机位置和定向(即，姿势)。6DOF映射也可更新/维持全局SLAM地图。如上文所论述，6DOFSLAM所维持的全局SLAM地图可含有从两个或两个以上关键帧(例如，关键帧对，或一对关键帧以上)三角测量的3D特征点。举例来说，可从图像或视频流或馈送选择关键帧来表示所观察场景。对于每个关键帧，HSLAM可计算与所述图像相关联的相应6DOF相机姿势。所计算的姿势在本文可称为关键帧姿势(由3DOF关键帧位置和3DOF关键帧定向组成)。

如本文所使用，全景SLAM指代将多个所捕获图像一起缝合成以仅旋转相机运动取得的图像的紧密集合。与6DOFSLAM的6DOF(即，由6DOF模块173计算)相比，使用全景SLAM(例如，全景模块175的全景跟踪)的HSLAM可计算三个旋转自由度(3DOF)。HSLAM可使用相对旋转使全景关键帧彼此相关。当不满足最小阈值视差或转译时，HSLAM可绕过或跳过特征点三角测量。举例来说，当相机的位置尚未改变，且自从先前关键帧开始仅发生了纯旋转，那么将不满足最小阈值视差或转译。

HSLAM可将当前关键帧与先前捕获的关键帧进行比较，以确定视差或转译等级。因此，可将全景特征点视为射线(即，无限特征、无限深度特征、不具有所估计深度的特征，或具有无限深度的特征)。在一个实施例中，从6DOFSLAM产生的3D点称为有限深度特征(例如，所述特征可具有指定或所估计深度)。

常规6DOFSLAM可能无法处理纯旋转相机移动。跟踪可能会跟丢，且在一些情形中，错误测得的有限特征可能破坏地图(例如，全局SLAM地图)。作为对比，全景SLAM按照惯例处置旋转运动，而平移运动可编码为额外旋转，也导致地图品质的降级。

在一个实施例中，HSLAM将6DOFSLAM和全景SLAM的优点组合成混合系统，其可取决于运动的性质，在6DOFSLAM与全景SLAM之间动态地切换。举例来说，用户可进行作为一般运动或纯旋转的运动。HSLAM可处置远离用户在实践中经常取得的场景的所映射部分的临时旋转。如果充足的额外信息变为可用，那么HSLAM也可并入有在稍后的3D映射步骤中的旋转运动期间取得的场景的观察。

在一个实施例中，HSLAM可使用6DOF跟踪来为一个或一个以上图像或视频帧确定相机姿势。HSLAM可通过将来自3D地图的特征投射到图像或视频帧中，且从经检验的2D-3D对应性更新相机姿势，来确定相机姿势。HSLAM也可选择新的关键帧来插入地图中。如果当前相机位置(即，平移)充分远离每个现有的关键帧位置，那么HSLAM可将新的关键帧插入3D地图中。如果具有当前帧的已知特征的覆盖范围低于阈值(例如，在当前帧中表示3D地图的新的或先前未映射的区)，那么HSLAM也可将新的关键帧插入地图中。另外，如果当前相机的定向充分远离现有的关键帧定向，且将当前相机的位置从现有关键帧位置平移最小距离，那么HSLAM可插入关键帧。

或者，如果定向已改变，但位置尚未充分改变，那么6DOFSLAM可绕过或跳过关键帧插入。当定向改变但位置不改变时，6DOFSLAM可将移动视为纯旋转。在纯旋转期间，6DOFSLAM可不对新的有限特征进行三角测量，也不将新的有限特征插入地图中。

在一个实施例中，当满足阈值跟踪条件时，HSLAM可触发从6DOFSLAM到全景SLAM的实时切换。举例来说，所述阈值跟踪条件可包含：充分的定向变化(例如，旋转相机视图)、维持相机位置(例如，相机位置是固定的或大约与先前所捕获图像相同)，以及低现有覆盖范围(例如，所捕获的图像区为3D地图中的新的或先前未映射的区)。举例来说，可基于HSLAM检测到当前图像的百分之五十或以下被已知特征点覆盖来确定低现有覆盖范围，从而如果相机视图继续转向新的区，那么指示跟踪可能接近跟丢。在其它实施例中，HSLAM可使用一般化的几何学稳健信息准则(即，GRIC)得分来触发从6DOFSLAM到全景SLAM的切换。

HSLAM可在切换到全景SLAM后，即刻创建含有无限特征的新关键帧。HSLAM可将无限特征关键帧插入关键帧的数据库中。举例来说，关键帧的数据库可与全局SLAM地图相关联。在一个实施例中，可将无限特征关键帧标记或识别为“全景”关键帧。如本文所使用，全景关键帧是含有无限特征或不具有任何所计算深度的特征的关键帧。

当满足阈值跟踪条件或阈值GRIC得分时，HSLAM可继续跟踪无限特征，且插入额外的全景关键帧。在一个实施例中，HSLAM可假定所有全景关键帧的关键帧位置均与在从6DOF跟踪切换到全景SLAM之前考虑的最后一个6DOF关键帧相同。

在一个实施例中，HSLAM可使用姿势细化算法来一起处理有限和无限特征的混合集合。以姿势在先初始化，姿势细化算法可从一组有限和无限地图特征及其对应的二维(2D)图像测量计算经更新的6DOF/3DOF姿势。通过反复地优化有限和无限地图特征两者的再投射误差来计算递增姿势更新。

在一个实施例中，当阈值数目的有限特征可用时，将计算6DOF姿势。在一些实施例中，纯粹由无限特征组成的特征集合可导致3DOF姿势而不是6DOF姿势。在一个实施例中，HSLAM姿势细化算法允许全景与6DOFSLAM(例如，6DOF跟踪)之间的无缝切换。HSLAM可临时使用无限点来跟踪，且在可用时(例如，在可从场景的所捕获图像确定有限特征点时)，切换到有限点。在一个实施例中，如果跟踪跟丢，HSLAM可使用全局SLAM地图来执行重新局部化。如果跟踪跟丢，那么HSLAM可通过对所有可用关键帧使用小模糊图像(SBI)来执行完全重新局部化。或者，HSLAM可使用描述符匹配来执行重新局部化。HSLAM可使用6DOF关键帧以及全景关键帧来尝试全局SLAM地图的重新局部化。

图2说明一个实施例中的混合SLAM的流程图。在框205处，实施例(例如，HSLAM)接收环境的3D地图。举例来说，HSLAM可处理全局SLAM地图。3D地图可具有在两个或两个以上关键帧中观察到的具有有限深度的特征。每一关键帧可为全景或常规关键帧。所述3D地图可具有在一个或一个以上全景关键帧中观察到的具有无限深度的特征。

在框210处，实施例从在当前帧中观察到的3D地图的有限或无限特征以6DOF跟踪相机。相机移动可为一般或纯旋转相机移动。在一个实施例中，HSLAM可从有限特征估计6DOF姿势，且从无限特征估计3DOF姿势。跟踪全景相机移动可继续超过接收到的3D地图(例如，全局SLAM地图)的预存在边界。举例来说，所述实施例可使用全景SLAM来跟踪和映射新的区域，以添加到接收到的3D地图。全局SLAM地图可包含以下各项中的一者或一者以上：关键帧、经三角测量的特征点，以及关键帧与特征点(观察)之间的关联。

关键帧可由所捕获的图像(例如，装置相机114所捕获的图像帧)以及用来产生所捕获图像的相机参数组成。如本文所使用的相机参数包含相机位置和定向(姿势)。全局SLAM地图可包含有限和无限特征。在一个实施例中，当相机图像不满足充分的视差或转译阈值时，HSLAM可将因仅旋转运动而产生的相机图像并入到现有的3D地图中。

在一个实施例中，在检测到纯旋转相机运动后，HSLAM即刻选择第一全景关键帧作为参考关键帧(即，参考全景关键帧)。第一全景关键帧可相对于3D地图局部化。举例来说，在检测到从6DOF相机移动到全景相机移动的转变后，HSLAM可即刻选择第一接收到的关键帧。HSLAM可选择额外的可能未局部化的全景关键帧(例如，从属关键帧)。作为映射过程的部分，额外的全景关键帧后来可相对于所述额外的全景关键帧而局部化。HSLAM可通过创建与现有地图特征的对应性(例如，使用主动搜索和描述符匹配技术)来使额外关键帧局部化。在局部化之后，HSLAM可通过(a)使其与其它经局部化关键帧的特征匹配，以及(b)对所得的2D-2D对应性进行三角测量(例如，匹配无限特征)，来转换全景关键帧的无限特征(即，无限深度特征)，从而产生额外的3D地图特征。反过来，可用新的3D地图特征来使另外的未局部化全景关键帧局部化。

图3说明一个实施例中的关键帧与特征之间的混合SLAM地图表示的第一级。所述第一级说明6DOF关键帧320，其观察有限地图特征305。可经由具有有限305和无限特征310观察的参考全景关键帧330，将局部全景地图350寄存在3D地图(例如，全局SLAM地图)中，而剩余的从属全景关键帧315可观察无限特征310。

图4说明一个实施例中的关键帧与特征之间的混合SLAM地图表示的第二级。在第二级中，可从在(a)额外6DOF关键帧410与局部化的全景关键帧(例如，参考全景关键帧430)之间或(b)来自不同局部全景地区(例如，全景地图“A”440和全景地图“B”450)的局部化全景关键帧(例如，参考全景关键帧430)之间匹配的对应观察来对无限特征310进行三角测量。所述额外特征可实现另外的全景关键帧(例如，从属全景关键帧415)的局部化。

全景关键帧的文件局部化可为找出全景关键帧中的有限3D地图特征的新2D观察的反复过程。在建立对有限3D地图特征的充分2D观察后，可用完整的6DOF姿势来使全景帧局部化，并将其转换为常规(即，非全景)关键帧。在转换为正常关键帧后，HSLAM可即刻对额外无限特征点(例如，2D特征)进行三角测量，这再次可允许使其它全景关键帧局部化。

图5说明一个实施例中的混合SLAM初始化的流程图。在框505处，实施例(例如，HSLAM)可接收所捕获图像。举例来说，所捕获图像可源自相机图像或视频馈送。

在框510处，实施例可通过创建初始3D地图或将信息添加到现有的3D地图515来初始化HSLAM，且输出相机位置和定向(姿势)520。初始化HSLAM可包含处理一个或一个以上所捕获图像，以建构具有一致尺度的3D地图(例如，全局SLAM地图)。在一些实施例中，在开始启动装置100上的应用程序时，HSLAM可启动基于模型的检测器和跟踪器来创建初始地图。在检测到已知平面图像目标后，HSLAM可即刻创建第一6DOF关键帧。HSLAM可继续跟踪图像目标，且执行2D-2D对应性的帧到帧匹配。当可稳健地对充分对应性进行三角测量时，选择第二6DOF关键帧。因此，两个常规6DOF关键帧和所述所得的有限地图特征可构成初始3D地图。

3D地图可由具有常规6DOF和全景关键帧中的2D图像观察的有限和无限点特征组成。在相机捕获到相应图像时，每一所捕获图像可具有关联的相机姿势。在一个实施例中，HSLAM可扩展6DOF跟踪的能力，以在纯相机旋转期间轨道全局SLAM地图。在一个实施例中，HSLAM也可将纯相机旋转期间所产生的关键帧并入到全局SLAM地图中。

可通过简单的恒定衰减运动模型来预测当前相机姿势。HSLAM可通过对从所预测相机姿势可见的特征、当前全景地图(例如，全景地图)的无限特征进行滤波，且使特征再投射重叠(其中有限特征比无限特征优选)，来从所有的全局SLAM地图特征选择设定为匹配的特征。接下来，所述实施例可使用NCC作为评分功能，主动搜索当前帧中的每一选定特征。可将具有充分高的NCC得分的匹配添加到统一相对姿势细化器所处理的对应性集合。姿势细化器可输出经更新的6DOF或3DOF姿势。在递增姿势估计失败的情况下，进入可输出6DOF姿势的重新局部化。

图6说明一个实施例中的具有交替的一般和纯旋转相机运动的6DOF和全景映射和跟踪阶段。可从3D地图605(例如，全局SLAM地图)以6DOF跟踪相机运动(例如，一般相机运动)。可使用漏掉的关键帧来细化和扩展3D地图。通过切换到仅旋转相机运动625，使用漏掉的关键帧来建立局部全景地图610。可用全景和3D地图特征来执行相机跟踪。跟踪可能归因于一般相机运动而中断，从而导致6DOF相机姿势重新局部化635。一般相机运动可引回到3D地图上，且跟踪有限和无限特征允许平滑转变640。

图7说明映射期间的关键帧选择的不同状态的状态图。在HSLAM初始化510之后，系统开始以全6DOF映射模式755操作。如果检测到纯旋转运动760，那么创建新的全景地图(例如，3DOF映射765)。HSLAM可基于所跟踪的6DOF姿势的历史来检测纯旋转运动。所跟踪的6DOF姿势可按时间顺序存储在存储器中。HSLAM可计算当前姿势与所存储姿势之间的视差角度，并丢弃具有高视差(例如，大于5度)的所有姿势。6DOF测量770可将系统移回到全6DOF映射模式755。如果存在跟踪失败，那么重新局部化775可恢复全6DOF姿势。

图8是一个实施例中的包含跟踪和映射组件的混合SLAM系统的框图。组件可为实施为硬件或软件的线程、引擎或模块。在一个实施例中，HSLAM可从允许跟踪一般和纯旋转相机运动的充分的有限和无限特征估计6DOF姿势。在确定朝未映射场景区的纯旋转相机运动后，HSLAM可即刻继续混合3D与全景地图跟踪815，并将混合关键帧845指派给3D地图865。在确定朝未映射场景区确定纯旋转相机运动后，HSLAM可即刻切换到纯全景跟踪820，并将全景关键帧850指派给局部全景地图870。在确定朝经映射场景区的一般相机运动后，HSLAM可可转变回到全局SLAM地图(例如，3D地图865)上。在确定朝未映射场景区的一般相机运动后，跟踪可能失败且调用重新局部化，或可基于充分的视差和低覆盖范围而选择常规6DOF关键帧。在两种情况下，HSLAM可转变回到3D地图上，其中跟踪810且将6DOF关键帧840指派给3D地图865。

在一个实施例中，HSLAM姿势跟踪和关键帧选择组件825可处理单个经校准相机的所捕获图像(例如，视频流或馈送)，以相对于3D地图865(例如，全局SLAM地图)跟踪一般和仅旋转相机运动。

取决于用户所执行的当前运动，跟踪组件可在全6D与全景跟踪模式之间动态地且无缝地切换。跟踪组件可处置远离用户经常在实践中取得的场景的所映射部分的临时旋转。跟踪组件可检测这些选择，并选择用于建立局部全景地图的特殊“全景”关键帧。所述局部全景地图寄存在单个一致3D地图中。可相对于可包含有限和无限特征的全局SLAM地图来跟踪一般和仅旋转相机运动。在一个实施例中，HSLAM实现稳健的帧比率相机姿势跟踪和重新局部化。姿势估计可组合有限(已知3D位置)和无限特征两者的测量，且HSLAM可自动计算6DOF或3DOF姿势更新830。在一个实施例中，如果递增姿势跟踪将失败，那么HSLAM可基于小模糊图像而重新局部化。

HSLAM可从关键帧图像提取特征。如本文所使用，特征(例如，特征点或关注点)时作为图像的有趣或显著部分。从所捕获图像提取的特征可表示沿三维空间(例如，轴X、Y和Z上的坐标)的不同点，且每个特征点可具有关联的特征位置。关键帧中的特征与先前捕获的关键帧的特征匹配或未能匹配(即，相同或对应于所述特征)。特征探测可为图像处理操作，以检查每个像素来确定特定像素出是否存在特征。特征检测可处理整个所捕获图像，或者所捕获图像的某些部分。

对于每一所捕获图像或视频帧，一旦已检测到特征，就可提取所述特征周围的局部图像碎片。可使用众所周知的技术来提取特征，例如尺度不变特征变换(SIFT)，其使特征局部化，并产生其描述。如果需要，那么可使用其它技术，例如加速稳健特征(SURF)、梯度位置定向直方图(GLOH)、标准化交叉相关(NCC)或其它相当技术。当确定为图像提取的特征的数目超过阈值(例如，100个点特征或其它数目个点)时，可将所述图像和特征保存为关键帧。

映射组件875可通过数据关联855细化和束调整优化860来改进地图品质。HSLAM可执行关键帧选择来选择6DOF和全景关键帧840到850，以包含在3D地图865中。映射组件875可将3D地图数据835发送到跟踪组件825，以便辅助重新局部化。另外，HSLAM可使全景关键帧局部化，并对无限特征进行三角测量以扩展3D地图。

在一个实施例中，HSLAM可执行单独的映射组件(例如，线程、引擎或模块，例如上文所描述的映射组件875)，来改进全局SLAM地图(即，3D地图)的品质。举例来说，映射组件875可执行一种或一种以上类型的优化860(例如，3D束调整)。HSLAM还可估计全景关键帧的全6DOF姿势，并对无限特征进行三角测量以扩展3D地图。

作为数据联合细化855的一部分，HSLAM搜索新的关键帧特征观察，以进一步约束现有的特征位置和关键帧姿势。HSLAM可应用主动搜索和描述符匹配技术来建立2D-2D对应性。HSLAM还可检测和丢弃异常观察和特征。

HSLAM可相对于有限地图特征稳健地局部化全景关键帧。可用来自全景跟踪的被视为不可靠的姿势来初始化全景关键帧，因为无法从无限特征以全6DOF准确地估计姿势。然而，通过建立与现有的有限地图特征的对应性，HSLAM可估计全6DOF姿势。因此，HSLAM将全景关键帧有效地转换成常规6DOF关键帧。

HSLAM可通过对无限特征观察进行三角测量，来利用存储在局部全景地图中的信息进行3D映射。HSLAM可使用描述符匹配来找出例如检视相同场景区的单独局部全景地图中的经稳健局部化的关键帧之间的2D-2D对应性。通过检验测试的对应性构成额外的有限地图特征。因此，HSLAM可将无限特征有效地转换为有限特征。

HSLAM可通过束调整来执行地图的优化860。束调整更新经局部化关键帧的6DOF姿势，且通过基于关键帧特征观察最小化成本函数，来更新有限地图特征的3D位置。未经局部化的全景关键帧和无限特征可不是优化的部分。然而，HSLAM可通过调整全景地体在经优化3D地图内的寄存来维持地图一致性。

在一个实施例中，在确定可将相机姿势完全约束在6DOF中后，HSLAM可即刻将相应的关键帧标记或加标签为6DOF关键帧。举例来说，当足够的有限特征点是姿势估计的部分时，如下文关于姿势跟踪所述。此外，当关键帧产生与现有关键帧的足够视差，同时使所述场景的新部分成像时，HSLAM可选择常规6DOF关键帧。视差可用来确保稳健的特征三角测量。

视差是从两个相机视图(例如，当前相机视图、关键帧相机视图)观察到的3D点位置(例如，有限3D地图特征)的尺度独立三角测量角度。HSLAM可将当前相机视图的视差角度近似表示为平均场景深度(例如，在当前帧中观察到的有限地图特征的平均深度)与当前相机与退出关键帧相机位置之间的距离的函数。覆盖范围是以投射到相机视图(例如，当前相机视图、关键帧相机视图)中的有限地图特征覆盖的图像帧区域的比率。HSLAM可将图像帧划分为具有单元的整齐网格，并以所述相机姿势投射有限地图特征。具有最小数目的所含有特征的网格单元被视为被覆盖。覆盖范围是所覆盖网格单元与所有网格单元的数目的比率。

HSLAM可基于充分的视差和低覆盖范围来选择常规6DOF关键帧。稳健的特征三角测量需要视差。覆盖范围指示当前帧姿势是否以所投射的地图特征稳健地约束。低覆盖范围指示相机正观察未映射场景区。

当HSLAM检测到当前帧与现有关键帧之间的低覆盖范围但不足够的视差时，如果在当前帧中无法观察到更多的3D地图特征，那么跟踪可失败。如果相机运动接近纯旋转，那么HSLAM可触发经局部化全景关键帧的选择。低覆盖范围可指示相机指向未映射场景区。然而，归因于纯旋转相机运动的低视差，HSLAM可不创建常规6DOF关键帧。因此，HSLAM可创建相对于3D地图局部化的全景关键帧。

HSLAM可基于所跟踪的6DOF姿势的历史来检测纯旋转相机运动。所跟踪的6DOF姿势按时间顺序存储在历史中。HSLAM可计算当前姿势与历史之间的视差角度，并丢弃具有充分高的视差的所有姿势。其余历史姿势可具有与当前帧相似的3D位置。最后，如果HSLAM在历史中找到相对于当前帧具有低视差及大角度的姿势，那么HSLAM可计算检视方向之间的角度，并检测纯旋转。

HSLAM可继续基于低覆盖范围和充分旋转来选择全景关键帧。低覆盖范围可指示相机继续探索未映射场景区。HSLAM可将旋转计算为当前帧的检视方向与当前全景地图的关键帧姿势之间的差异角度。在再次观察到3D地图的部分后，HSLAM可即刻隐含地移回到较一般的操作。在一般操作中，HSLAM可应用相同准则，且创建新的6DOF关键帧。

如上文所述，装置100可为便携式电子装置(例如，智能电话、专用增强现实(AR)装置、游戏装置、例如眼镜等可穿戴装置，或其它具有AR处理和显示能力的装置)。实施本文所述的AR系统的装置可在多种环境中使用，例如购物中心、街道、房间或用户可携带便携式装置的任何地方。在AR上下文中，用户可使用装置100检视真实世界通过其装置的显示器的表示。用户可通过使用其装置的相机接收真实世界图像/视频并将额外或替代信息叠加或覆盖到装置上所显示的真实世界图像/视频上，来与其具AR能力的装置交互。当用户在其装置上检视AR实施例时，真实世界对象或场景可在装置显示器上被实时替换或更改。可将虚拟对象(例如，文本、图像、视频)插入装置显示器上所描绘的场景的表示中。

装置100和相机114的移动可致使显示器实时更新全局SLAM地图中的目标(例如，一个或一个以上对象或场景的扩增。随着装置移动远离初始参考图像位置，装置可从替代视图捕获额外图像。在从额外关键帧提取特征和进行三角侧脸之后，可实现增加的扩增准确度(例如，对象周围的边缘可更精确地配合，对象在场景中的表示将看起来更真实，且目标放置可相对于相机114姿势更准确)。

在一个实施例中，可将对象或图形插入或整合到相机114所捕获的且显示器112上所显示的视频流(或图像)中。HSLAM可任选地提示用户额外信息来扩增所述目标。举例来说，用户可能够添加用户内容来扩增所述目标的表示。用户内容可为可与所述目标的表示整合或被所述目标的表示覆盖或代替所述目标的表示的图像、3D对象、视频、文本或其它内容类型。

显示器可从原始场景以无缝跟踪来实时更新。举例来说，可用替代文本来代替标牌上的文本，或可战略上将3D对象放置在场景中且在装置100上显示。当用户改变相机114的位置和定向时，可调整或扩增图形或对象，以与相机114的相对移动匹配。举例来说，如果将虚拟对象插入增强现实显示中，那么远离所述虚拟对象的相机移动可相对于相机114所行进的距离而减小所述虚拟对象的大小。举例来说，在所有其它变量均相等的情况下，与从所述虚拟对象向后退半步相比，从虚拟对象向后退四步应导致虚拟对象的大小的较大减小。运动制图或动画可在HSLAM所表示的场景内动起来。举例来说，动起来的对象可在增强现实显示中所描绘的场景内“移动”。

所属领域的技术人员将认识到，可以不同于AR的方式(例如，机器人定位)来实施本文所述的实施例。

HSLAM可实施为软件、固件、硬件、模块或引擎。在一个实施例中，装置100中的通用处理器161可实施先前的HSLAM描述以实现先前所要的功能。在一个实施例中，HSLAM可实施为引擎或模块，其可包含图像处理模块171、6DOF模块173和全景模块175作为子组件。在其它实施例中，所描述的子组件中的一者或一者以上的特征可组合或分割成不同的个别组件、模块或引擎。

本文的教示可并入到多种设备(例如，装置)中(例如，在所述设备内实施或由所述设备执行)。在一个实施例中，ITC可实施为由处理器执行以接收图像或视频作为输入的引擎或模块。本文所教示的一个或一个以上方面可并入到电话(例如，蜂窝式电话)、个人数据助理(“PDA”)、平板计算机、移动计算机、膝上型计算机、平板计算机、娱乐装置(例如，音乐或视频装置)、头戴式耳机(例如，头戴耳机、耳机等)、医学装置(例如，生物统计传感器、心率监视器、计步器、EKG装置等)、用户I/O装置、计算机、服务器、销售点装置、娱乐装置、机顶盒，或任何其它合适装置中。这些装置可具有不同的电力和数据要求，且可导致针对每一特征或特征集合产生的不同电力分布。

在一些方面中，无线装置可包含用于通信系统的接入装置(例如，Wi-Fi接入点)。此接入装置可提供例如经由有线或无线通信链路，穿过收发器140(例如，广域网，例如因特网或蜂窝式网络)到另一网络的连接性。因此，所述接入装置可使另一装置(例如，Wi-Fi站)能够接入其它网络或某一其它功能性。另外，应了解，所述装置中的一者或两者可为便携式的，或在一些情况下，为相对非便携式的。

所属领域的技术人员将理解，可使用多种不同技术和技艺中的任一者来表示信息和信号。举例来说，贯穿以上描述可参考的数据、指令、命令、信息、信号、位、符合和码片可由电压、电流、电磁波、磁场或颗粒、光场或微粒，或其任何组合来表示。

技术人员将进一步了解，结合本文所描述的实施例而描述的各种例示性逻辑块、模块、引擎、电路，和算法步骤可实施为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件与软件的这种可互换性，上文已大体上按照其功能性描述了各种例示性组件、块、模块、引擎、电路和步骤。将此功能性实施为硬件还软件取决于特定应用，以及强加于整个系统上的设计约束。熟练的技术人员可针对每一特定应用，以不同方式来实施所描述的功能性，但此类实施决策不应被解释为导致脱离本发明的范围。

结合本文所揭示的实施例而描述的各种例示性逻辑块、模块和电路可用经设计以执行本文所描述的功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可为微处理器，但在替代方案中，所述处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的联合、结合DSP核的一个或一个以上微处理器，或任何其它此类配置。

结合本文所揭示的实施例而描述的方法或算法的步骤可直接在硬件中、在处理器所执行的软件模块中，或在两者的组合中实施。软件模块可驻存在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储媒体中。示例性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息，且将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器和存储媒体可驻存在ASIC中。ASIC可驻存在用户终端中。在替代方案中，处理器和存储媒体可作为离散组件驻存在用户终端中。

在一个或一个以上示例性实施例中，所描述的功能或模块可在硬件(例如，硬件162)、软件(例如，软件165)、固件(例如，固件163)或其任何组合中实施。如果在软件中实施为计算机程序产品，那么所述功能或模块可存储在非暂时性计算机可读媒体上或作为一个或一个以上指令或代码经由非暂时性计算机可读媒体传输。计算机可读媒体可包含计算机存储媒体和通信媒体两者，所述通信媒体包含促进计算机程序从一处传送到另一处的任何媒体。存储媒体可为可由计算机或数据处理装置/系统存取的任何可用媒体。作为实例，而不是限制，此非暂时性计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于以指令或数据结构的形式运载或存储所要程序代码且可由计算机存取的任何其它媒体。并且，任何连接均可适当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术，从网站、服务器或其它远程来源传输所述软件，那么所述同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。磁盘和光盘，如本文所使用，包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘以及蓝光光盘，，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。上述各项的组合也应包含在非暂时性计算机可读媒体的范围内。

提供所揭示实施例的先前描述，以使所属领域的技术人员能够制作或使用本发明。所属领域的技术人员将容易明白对这些实施例的各种修改，且在不脱离本发明的精神或范围的情况下，本文所界定的一般原理可应用于其它实施例。因此，本发明无意限于本文所展示的实施例，但将被赋予与本文所揭示的原理和新颖特征一致的最宽范围。

Claims

1.一种用于单眼视觉同时局部化和映射的机器实施的方法，所述方法包括：

接收环境的三维3D地图，其中所述3D地图包括：

在两个或两个以上关键帧中观察到的具有有限深度的特征，其中每一关键帧为全景关键帧或常规关键帧，以及

在一个或一个以上全景关键帧中观察到的具有无限深度的特征；以及

从在来自输入图像馈送的图像帧内观察到的所述3D地图的有限或无限深度特征，以六个自由度6DOF跟踪相机。

2.根据权利要求1所述的机器实施的方法，其进一步包括：

在从所述6DOF相机移动转变为朝未映射场景区的全景相机移动后，即刻选择参考全景关键帧；

通过将有限深度和无限深度特征观察添加到所述3D地图，将所述参考全景关键帧并入到所述3D地图中；以及

初始化寄存在所述3D地图内的局部全景地图，其中初始化所述局部全景地图包括：

将参考全景关键帧指派给所述局部全景地图，以及

以所述参考全景关键帧的6DOF姿势将所述局部全景地图寄存在所述3D地图内。

3.根据权利要求1所述的机器实施的方法，其进一步包括：

在朝未映射场景区的连续全景相机移动后，即刻选择一个或一个以上从属全景关键帧，其中所述一个或一个以上从属全景关键帧依赖于参考全景关键帧；

通过将无限深度特征观察添加到所述3D地图，将所述一个或一个以上从属全景关键帧并入到所述3D地图中；以及

通过将所述一个或一个以上从属全景关键帧添加到局部全景地图来扩展所述局部全景地图。

4.根据权利要求1所述的机器实施的方法，其进一步包括相对于所述3D地图来使所述一个或一个以上全景关键帧局部化，其中所述局部化包括：

找出所述一个或一个以上全景关键帧内的所述有限深度特征的二维2D观察；

确定所述3D地图观察与所述有限深度特征的所述2D观察之间的3D-2D对应性；以及

使用所述3D-2D对应性来估计所述一个或一个以上全景关键帧的所述6DOF相机位置和定向。

5.根据权利要求1所述的机器实施的方法，其进一步包括将来自第一经局部化全景关键帧的无限深度特征转换成所述3D地图的新的有限深度特征，其中所述转换包括：

找出第二经局部化关键帧内的所述无限深度特征的2D观察，其中所述第二经局部化关键帧是经局部化的全景关键帧或经局部化的常规关键帧；

从所述第二经局部化关键帧的所述2D观察确定2D-2D对应性；以及

对所述新的有限深度特征进行三角测量，其中所述对所述新的有限深度特征进行三角测量是基于所述2D-2D对应性，以及关键帧对的6DOF相机位置和定向。

6.根据权利要求1所述的机器实施的方法，其中所述跟踪进一步包括：

建立所述3D地图的所述有限深度和所述无限深度特征与来自输入图像馈送的图像帧之间的对应性；以及

基于所述所建立的对应性来估计6DOF相机位置和定向。

7.根据权利要求1所述的机器实施的方法，其中所述跟踪进一步包括：

在仅观察到来自输入图像馈送的图像帧内的无限深度特征后，即刻从6DOF相机移动跟踪切换到全景相机移动跟踪；以及

在观察到来自所述输入图像馈送的所述图像帧内的有限深度特征后，即刻从全景相机移动跟踪切换到6DOF相机移动跟踪。

8.一种含有可执行程序指令的机器可读非暂时性存储媒体，所述可执行程序指令致使数据处理装置执行用于单眼视觉同时局部化和映射的方法，所述方法包括：

接收环境的三维3D地图，其中所述3D地图包括：

在两个或两个以上关键帧中观察到的具有有限深度的特征，其中每一关键帧是全景关键帧或常规关键帧，以及

9.根据权利要求8所述的媒体，其进一步包括：

将参考全景关键帧指派给所述局部全景地图，以及

10.根据权利要求8所述的媒体，其进一步包括：

11.根据权利要求8所述的媒体，其进一步包括相对于所述3D地图来使所述一个或一个以上全景关键帧局部化，其中所述局部化包括：

12.根据权利要求8所述的媒体，其进一步包括将来自第一经局部化全景关键帧的无限深度特征转换成用于所述3D地图的新的有限深度特征，其中所述转换包括：

13.根据权利要求8所述的媒体，其中所述跟踪进一步包括：

基于所述所建立的对应性来估计6DOF相机位置和定向。

14.根据权利要求8所述的媒体，其中所述跟踪进一步包括：

15.一种用于单眼视觉同时局部化和映射的数据处理装置，其包括：

处理器；以及

存储装置，其耦合到所述处理器且可配置以用于存储指令，所述指令在由所述处理器执行时致使所述处理器：

接收环境的三维3D地图，其中所述3D地图包括：

16.根据权利要求15所述的装置，其进一步包括用以致使所述处理器进行以下动作的指令：

将参考全景关键帧指派给所述局部全景地图，以及

17.根据权利要求15所述的装置，其进一步包括用以致使所述处理器进行以下动作的指令：

18.根据权利要求15所述的装置，其进一步包括用以致使所述处理器相对于所述3D地图使所述一个或一个以上全景关键帧局部化的指令，其中所述局部化包括用以进行以下动作的指令：

19.根据权利要求15所述的装置，其进一步包括用以致使所述处理器将来自第一经局部化全景关键帧的无限深度特征转换成用于所述3D地图的新的有限深度特征的指令，其中所述转换包括用以进行以下动作的指令：

20.根据权利要求15所述的装置，其中所述跟踪进一步包括致使所述处理器进行以下动作的指令：

基于所述所建立的对应性来估计6DOF相机位置和定向。

21.根据权利要求15所述的装置，其中所述跟踪进一步包括致使所述处理器进行以下动作的指令：

22.一种用于单眼视觉同时局部化和映射的设备，其包括：

用于接收环境的三维3D地图的装置，其中所述3D地图包括：

用于从在来自输入图像馈送的图像帧内观察到的所述3D地图的有限或无限深度特征以六个自由度6DOF跟踪相机的装置。

23.根据权利要求22所述的设备，其进一步包括：

用于在从所述6DOF相机移动转变为朝未映射场景区的全景相机移动后，即刻选择参考全景关键帧的装置；

用于通过将有限深度和无限深度特征观察添加到所述3D地图，来将所述参考全景关键帧并入到所述3D地图中的装置；以及

用于初始化寄存在所述3D地图内的局部全景地图的装置，其中初始化所述局部全景地图包括：

用于将参考全景关键帧指派给所述局部全景地图的装置，以及

用于以所述参考全景关键帧的6DOF姿势将所述局部全景地图寄存在所述3D地图内的装置。

24.根据权利要求22所述的设备，其进一步包括：

用于在朝未映射场景区的连续全景相机移动后，即刻选择一个或一个以上从属全景关键帧的装置，其中所述一个或一个以上从属全景关键帧依赖于参考全景关键帧；

用于通过将无限深度特征观察添加到所述3D地图，将所述一个或一个以上从属全景关键帧并入到所述3D地图中的装置；以及

用于通过将所述一个或一个以上从属全景关键帧添加到局部全景地图来扩展所述局部全景地图的装置。

25.根据权利要求22所述的设备，其进一步包括用于相对于所述3D地图来使所述一个或一个以上全景关键帧局部化的装置，其中所述用于局部化的装置包括：

用于找出所述一个或一个以上全景关键帧内的所述有限深度特征的二维2D观察的装置；

用于确定所述3D地图观察与所述有限深度特征的所述2D观察之间的3D-2D对应性的装置；以及

用于使用所述3D-2D对应性来估计所述一个或一个以上全景关键帧的所述6DOF相机位置和定向的装置。

26.根据权利要求22所述的设备，其进一步包括用于将来自第一经局部化全景关键帧的无限深度特征转换成用于所述3D地图的新的有限深度特征的装置，其中所述用于转换的装置包括：

用于找出第二经局部化关键帧内的所述无限深度特征的2D观察的装置，其中所述第二经局部化关键帧是经局部化的全景关键帧或经局部化的常规关键帧；

用于从所述第二经局部化关键帧的所述2D观察确定2D-2D对应性的装置；以及

用于对所述新的有限深度特征进行三角测量的装置，其中所述对所述新的有限深度特征进行三角测量是基于所述2D-2D对应性，以及关键帧对的6DOF相机位置和定向。

27.根据权利要求22所述的设备，其中所述跟踪进一步包括：

用于建立所述3D地图的所述有限深度和所述无限深度特征与来自输入图像馈送的图像帧之间的对应性的装置；以及

用于基于所述所建立的对应性来估计6DOF相机位置和定向的装置。

28.根据权利要求22所述的设备，其中所述跟踪进一步包括：

用于在仅观察到来自输入图像馈送的图像帧内的无限深度特征后，即刻从6DOF相机移动跟踪切换到全景相机移动跟踪的装置；以及

用于在观察到来自所述输入图像馈送的所述图像帧内的有限深度特征后，即刻从全景相机移动跟踪切换到6DOF相机移动跟踪的装置。