CN115088244A

CN115088244A - 用于基于来自单目相机的数据进行定位的深度传感器激活

Info

Publication number: CN115088244A
Application number: CN202080096384.5A
Authority: CN
Inventors: J·阿劳约; A·塔希尔库斯塔尼; D·冈萨雷斯莫林; I·卡拉吉亚尼斯; A·穆杜克里希纳
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2020-02-12
Filing date: 2020-02-12
Publication date: 2022-09-20
Also published as: WO2021160257A1; CA3167578A1; US20230342972A1; EP4104430A1

Abstract

公开了一种设备，其被配置用于使用能够与该设备一起运输的单目相机(200)和深度传感器(202)中的一者或两者来执行定位。该设备包括至少一个处理器，其在操作上被连接到单目相机和深度传感器。该设备还包括至少一个存储器，其存储程序代码，该程序代码由至少一个处理器执行以执行操作，该操作用于：从单目相机接收图像数据。该操作基于图像数据，确定激活深度传感器以用于定位的益处级别；以及基于确定激活深度传感器的益处级别满足激活规则，激活深度传感器以用于定位。还公开了相关的方法和计算机程序产品。

Description

用于基于来自单目相机的数据进行定位的深度传感器激活

技术领域

本公开涉及一种用于使用能够与设备一起运输的单目相机和深度传感器中的一者或两者来执行定位的设备、一种由设备使用能够与设备一起运输的单目相机和深度传感器中的一者或两者来执行定位的方法、以及对应的计算机程序产品。

背景技术

同时定位与地图构建(SLAM)是一种允许设备在依赖于机载传感器(例如相机、距离传感器和惯性传感器等)时在环境中定位自身的基本技术。这对于机器人(例如无人机和自主车辆)导航并理解环境或执行任务以及能够在混合现实(MR)设备中显示真实和持久的内容至关重要。

例如，当前的MR头戴式设备和最先进的智能电话包含RGB相机、深度/3D相机(例如被动或主动立体、LIDAR等)和惯性传感器(作为惯性测量单元IMU的一部分)，并且对于室内和室外机器人(例如无人机和自主车辆)也是如此。已提出了几种SLAM算法，它们依赖于RGB和IMU传感器、深度传感器或所有这些传感器的组合。执行传感器的组合的原因是既要利用它们的优势，也要改进它们的局限性。

例如，RGB相机在黑暗或太亮的环境中表现不佳，而深度相机(例如LIDAR或主动立体相机)将在这样的场景中表现良好。此外，通过直接测量深度，除了其他益处以外，可以以更高的精度执行定位和地图构建，以及可以捕获更大量的环境信息(例如，构建密集地图而不是稀疏地图)。但是，深度相机通常具有更大的能耗和处理要求，并且在特定条件下可能表现不佳。例如，深度相机具有有限的测量范围，并且可能在低纹理环境(被动立体相机)和阳光直射或IR干扰的区域(主动立体相机和LIDAR)、降雨条件(LIDAR)等限制下表现不佳。

发明内容

使用传感器以用于定位的当前可用设备(例如Microsoft Hololens、Magic Leap、ARCore和ARKit)假设所有此类传感器始终活动(例如通电)，并且没有意识到需要以及能够执行个体传感器的选择性激活和去激活。

本公开的一些实施例涉及一种设备，其被配置用于使用能够与所述设备一起运输的单目相机和深度传感器中的一者或两者来执行定位。所述设备包括至少一个处理器，其在操作上被连接到所述单目相机和所述深度传感器。所述设备还包括至少一个存储器，其存储程序代码，所述程序代码由所述至少一个处理器执行以执行操作，所述操作用于：从所述单目相机接收图像数据。所述操作基于所述图像数据，确定激活所述深度传感器以用于定位的益处级别；以及基于确定激活所述深度传感器的所述益处级别满足激活规则，激活所述深度传感器以用于定位。

一些其他相关实施例涉及一种由设备使用能够与所述设备一起运输的单目相机和深度传感器中的一者或两者来执行定位的方法。所述方法包括：从所述单目相机接收图像数据；以及基于所述图像数据，确定激活所述深度传感器以用于定位的益处级别。所述方法基于确定激活所述深度传感器的所述益处级别满足激活规则，激活所述深度传感器以用于定位。

一些其他相关实施例涉及一种用于使用能够与设备一起运输的单目相机和深度传感器中的一者或两者来执行定位的计算机程序产品。所述计算机程序产品包括存储指令的非暂时性计算机可读介质，所述指令能够由所述设备的至少一个处理器执行以将所述设备配置为：从所述单目相机接收图像数据；基于所述图像数据，确定激活所述深度传感器以用于定位的益处级别；以及基于确定激活所述深度传感器的所述益处级别满足激活规则，激活所述深度传感器以用于定位。

这些实施例中的一个或多个的潜在优点能够包括：设备能够使用来自单目相机的图像数据来确定深度传感器何时可以提供足够的益处级别以使得深度传感器应当从去激活状态被激活以便随后在定位中使用。以这种方式，深度传感器不必已经激活以便以编程方式确定它是否将提供足够的益处级别以在定位中使用以证明它的激活和使用是合理的。这些操作能够在执行定位时降低设备的能耗和计算资源利用率。

附图说明

本公开的各方面通过示例方式被示出并且不受附图限制。在附图中：

图1示出了根据一些实施例的操作，这些操作将从单目相机获得的二维(2D)图像转换为三维(3D)数据，然后对三维(3D)数据进行处理以确定可以通过激活深度传感器以在定位中使用而获得的益处级别；

图2示出了根据本公开的一些实施例的用于定位的设备的系统图；

图3示出了包括保持移动电子设备的混合现实(MR)头戴式设备的MR系统，移动电子设备可以包括或在操作上被连接到一组传感器并且被配置为根据本公开的一些实施例进行操作；

图4示出了具有单目相机和深度传感器的正在沿着预测运动轨迹移动通过环境的设备的顶视图；

图5示出了根据本公开的一些实施例被配置的设备的组件的框图；以及

图6至图12示出了根据本公开的一些实施例的由设备控制单目相机的激活和深度传感器的去激活以用于定位的操作的流程图。

具体实施方式

现在将在下文中参考附图更全面地描述本发明的构思，在附图中示出了本发明的构思的实施例的示例。然而，本发明的构思可以以许多不同的形式来体现，并且不应被解释为限于本文阐述的实施例。相反，提供这些实施例使得本公开将是彻底和完整的，并且将各种当前的本发明构思的范围完整传达给本领域技术人员。还应当注意，这些实施例不是互相排斥的。来自一个实施例的组件可被默认地假定为存在于/用于另一实施例中。

公开了假设仅单目相机当前活动的情况下，确定深度传感器何时应当被激活的方法、设备和计算机程序产品。以这种方式，当单目相机已经被用于定位时，不必激活深度传感器以了解深度传感器是否有益于用于定位。一些其他实施例涉及在深度传感器已经变得激活之后确定单目相机何时应当被去激活。这些实施例能够在执行定位时降低设备的能耗和计算资源利用率。

如下面将解释的，基于来自单目相机的图像数据，例如基于在图像数据中识别的物理对象的结构信息，确定激活深度传感器以用于定位的益处级别。基于确定激活深度传感器的益处级别满足激活规则，激活深度传感器以用于定位。尽管在执行定位的上下文中描述了各种实施例，但是这些和其他实施例可以被用于执行组合的定位和地图构建操作，例如SLAM。因此，本文使用的术语“定位”可以互换地指仅被配置为执行定位功能的操作以及被配置为执行定位和地图构建功能的组合的操作，例如SLAM。

在包括单目相机(例如RGB相机)和深度传感器两者的设备的上下文中描述了本公开的各种实施例。该设备还可以包括惯性测量单元(IMU)。图1示出了以下操作：将从单目相机获得的2D图像数据100转换为3D数据102，然后对3D数据102进行处理以确定可以通过激活深度传感器以在定位中使用而获得的益处级别。被应用于捕获RGB和IMU信息的传感器上的典型视觉-惯性SLAM算法可以重构场景的深度，但是该3D数据102通常是稀疏的(例如，稀疏点云)，其中可以以更高的计算成本执行密集深度重构。2D图像100被示出为从被用于SLAM的单目相机接收的图像数据的点云形式。2D图像数据100上的点是从2D图像数据100中提取的视觉特征。3D数据102被示出为环境的稀疏重构。

尽管本文在使用来自深度传感器的3D深度数据和使用来自单目相机的2D图像数据的上下文中描述了各种实施例，但是将理解，可以使用任何维度(例如1D、2D、3D)数据。例如，术语“3D深度数据”指来自深度传感器的提供对环境对象的感测深度的三维指示的深度数据。相比之下，术语“深度数据”指来自深度传感器的提供对环境对象的感测深度的任何维度指示的深度数据。

基于机器学习的方法也可以被用于从单个RGB 2D图像数据100中提取深度信息，或者将RGB 2D图像100与来自通过深度传感器或SLAM算法收集的3D信息的3D数据102相组合。另一方面，使用深度传感器通常提供更好的估计和更密集的深度信息，但是消耗更多的能量并且利用更多的计算资源，因为深度传感器包含高功率的电路和高带宽的数据。深度传感器还具有有限的深度测量范围。

本文公开的一个或多个实施例的潜在优点能够包括：设备能够使用来自单目相机的图像数据来确定深度传感器何时可以提供足够的益处级别以使得深度传感器应当从去激活状态被激活以便随后在定位中使用。以这种方式，深度传感器不必已经激活以便以编程方式确定它是否将提供足够的益处级别以在定位中使用以证明它的激活和使用是合理的。这些操作能够在执行定位时降低设备的能耗和计算资源利用率。

在一些实施例中，可以执行以下操作以确定激活深度传感器的益处级别是否足以触发它的激活，以及还可以确定单目相机是否应当被去激活：

1.从单目数据接收图像数据；

2.基于来自单目数据的图像数据，确定激活深度传感器的益处级别；

3.基于所确定的益处级别，如果激活深度传感器是有益的，则激活深度传感器以用于定位；以及

4.(可选)在深度传感器的激活已经被执行之后，基于来自单目相机的图像数据并且基于来自深度传感器的深度数据，确定继续使用单目相机以用于定位的益处级别，以及基于确定继续使用单目相机以用于定位的益处级别满足去激活规则，去激活单目相机。

图5示出了根据本公开的一些实施例被配置的示例设备500的组件的框图。图6示出了根据本公开的一些实施例的可以由设备500执行的操作的流程图，这些操作用于基于确定激活深度传感器202以用于定位的益处级别满足激活规则，控制深度传感器202的激活以用于定位。

参考图5和图6，在一些实施例中，设备500包括：至少一个处理器510(以下称为“处理器”)，其在操作上被连接到单目相机200、深度传感器202；以及至少一个存储器520(以下称为“存储器”)，其存储程序代码，该程序代码由处理器510执行以执行操作以便从单目相机200接收600图像数据。这些操作基于图像数据，确定602激活深度传感器202以用于定位的益处级别，以及基于确定激活深度传感器202的益处级别满足激活规则，激活604深度传感器202以用于定位。存储器520可以包括地图和程序522(例如定位地图储存库)，其可以如下所述地使用。设备500可以包括无线收发机530，其被配置为通过无线接口进行通信。

深度传感器202和单目相机200能够与设备500一起运输，但不一定是设备500的一部分。例如，尽管图5示出了设备500包括深度传感器202、单目相机200、处理器510和存储器520，但是在一些实施例中，这些组件中的一个或多个可以与设备500分离并且通过无线收发机530和/或有线接口以通信方式与设备500连接。设备500可以是但不限于智能电话、可穿戴计算机、增强现实头戴式设备、虚拟现实头戴式设备、混合现实头戴式设备、半自主或自主车辆、无人机、飞机、机器人等中的任一个的组件。

尽管在激活和去激活个体传感器(例如，一个单目相机和一个深度传感器)的上下文中描述了各种实施例，但是这些实施例可以被用于激活和去激活传感器组。因此，例如，“单目相机”可以对应于一组单目相机，“深度传感器”可以对应于一组深度传感器。一组传感器可以包含同构或非同构类型的传感器。

图3示出了包括保持移动电子设备320的混合现实(MR)头戴式设备300的MR系统，移动电子设备320可以例如经由有线和/或无线通信接口在操作上被连接到至少一个单目相机200和至少一个深度传感器202。移动电子设备320可以包括或在操作上被连接到处理器510和存储程序代码的存储器，该程序代码将处理器510配置为激活和去激活单目相机200和深度传感器202中的个体单目相机和深度传感器，同时使用单目相机200和深度传感器202中的活动单目相机和深度传感器来执行定位。

MR头戴式设备300包括透镜310，通过透镜310，佩戴MR头戴式设备的用户能够观看真实世界特征。MR头戴式设备300还包括支架321，支架321被配置为将移动电子设备320可释放地保持在相对于透镜310的限定取向，以使得在移动电子设备320的显示设备上显示的图像被透镜310直接或间接地朝向用户的眼睛反射。尽管未被显示，但是MR头戴式设备300可以包括位于透镜310与用户的眼睛之间的中间镜(intervening mirror)，并且因此光可以被直接或间接地朝向用户的眼睛和/或相机202反射。

移动电子设备320可以包括但不限于智能电话、掌上电脑、平板电脑、游戏设备或其他计算设备。为了简洁起见，“移动电子设备”在本文中也被称为“移动设备”和“设备”。

图2示出了根据本公开的一些实施例的设备500的系统图，设备500被配置为使用深度传感器202和单目传感器200来执行定位操作和/或组合的定位和地图构建操作(例如SLAM)。参考图2，设备500包括传感器激活和去激活逻辑204，其被配置为：基于来自单目相机200的图像数据，确定激活深度传感器202以用于定位操作的益处级别；以及基于该确定，选择性地激活深度传感器202。传感器激活和去激活逻辑204还可以被配置为：基于确定继续使用单目相机200以用于定位的益处级别满足去激活规则(例如，当深度传感器202已经变得激活以用于定位时以及当继续使用单目相机200不提供足够的持续益处时)，去激活单目相机200。当单目相机200活动时，图像数据从单目相机200被提供给定位算法，例如定位和地图构建算法212。类似地，当深度传感器202活动时，深度数据从深度传感器202被提供给定位算法，例如定位和地图构建算法212。

传感器激活和去激活逻辑204控制切换逻辑208，切换逻辑208执行传感器200和202中的选定传感器的去激活和激活。切换逻辑208可以通过触发以下中的至少一项来执行传感器(即，深度传感器202或单目相机200)的激活：将传感器转变为高功率状态，将传感器通电，将感测环境的传感器的活动组件(例如LIDAR激光组件、红外发射器等)通电，将传感器或其组件的数据采样率增大到用于定位的级别，将传感器的分辨率增大到用于定位的级别，将光学参数(例如焦距、视场等)更改为被用于定位的参数，以及适配定位算法以使用传感器的参数(例如光学参数)。相反地，切换逻辑208可以通过触发以下中的至少一项来执行传感器的去激活：将传感器转变为低功率状态，将传感器断电，将感测环境的传感器的活动组件(例如LIDAR激光组件、红外发射器等)断电，将传感器或其活动组件的数据采样率降低到比被用于定位的级别低的级别，将传感器的分辨率降低到比被用于定位的级别低的级别，将光学参数(例如焦距、视场等)更改为不被用于定位的参数，以及适配定位算法以停止使用传感器的参数(例如光学参数)。因此，术语“切换”不限于关断-接通切换，而是替代地或附加地可以包括执行用于激活和去激活传感器的更复杂的上述活动中的一个或多个的控制逻辑。

在一个实施例中，适配定位算法以使用传感器的光学参数以用于定位的操作可以包括获得与传感器的光学参数相对应的算法参数。可以基于定位算法针对不同光学参数集的离线调谐，预先确定算法参数。然后，基于针对传感器定义的光学参数集，选择对应的预定算法参数以便使用。

如下面将更详细解释的，传感器激活和去激活逻辑204可以在操作上使用由能量预算206提供的信息和/或由定位地图210(其可以位于图5中的地图522中)提供的信息，以确定何时激活深度传感器202和/或何时去激活单目相机200。

为了使深度传感器202提供可以被用于定位操作和/或组合的定位和地图构建操作(例如SLAM)的深度数据，深度传感器202必须能够感测相关的环境特征。现在将解释可以基于定位算法(例如定位和地图构建算法212)的性能来确定激活深度传感器的益处级别的操作的各种替代实施例。

下面讨论用于量化使用深度传感器202的定位和地图构建性能的方法。

使用来自深度传感器202的深度数据的定位和地图构建的性能将依赖于深度传感器202以稳健方式从环境感测结构信息的能力。由深度传感器202感测的信息(例如在连续的深度数据帧中)被用于确定设备的运动属性，同时该信息还可以被存储为地图并且随后被用于定位，在定位中，执行地图与在线深度信息之间的匹配。

场景具有的物理结构越多，来自深度传感器202的越多信息将可能被感测并且在定位和地图构建算法中被使用。一些定位和地图构建算法依赖于识别不同的3D特征或结构形状(例如平面)，但是被用于定位和地图构建的结构的3D形状可能有所不同，并且被使用机器学习方法来训练。基于深度的定位和地图构建算法依赖于深度传感器202的程度及其稳健性可以与所检测的3D特征的存在或不存在或所检测的3D特征的数量直接相关。

深度传感器通常具有特定限制，这将降低关联的定位和地图构建性能。深度传感器的一些限制是：

a.在存在反射表面(例如镜子)的情况下难以感测结构元件；

b.取决于深度传感器的分辨率，小于该分辨率的结构元件可能无法被检测到；以及

c.有限的测量范围(就最小距离和最大距离两者而言)。

下面讨论了各种方法，其用于基于分析由单目相机200捕获的2D图像数据，确定深度传感器202是否能够在环境中捕获足够的相关对象特征以证明激活深度传感器2024以用于定位是合理的。下面讨论了用于确定使用深度传感器202以用于定位的益处级别的各种其他相关方法。

在一些实施例中，基于在转换为3D数据(例如图1中所示)之后对来自单目相机200的图像数据进行采样和分析，确定602(图6)激活深度传感器202以用于定位的益处级别。在图9中示出了对应的操作，这些操作根据本公开的一些实施例被配置。参考图9，基于通过定位算法来处理900来自单目相机200的图像数据以获得在由单目相机200感测的环境内的深度点，确定602(图6)激活深度传感器202以用于定位的益处级别。确定602益处级别还基于估计902在深度传感器202的范围内的深度点的密度。基于深度点的密度的估计来确定602益处级别。

在另一个实施例中，估计902在深度传感器的范围内的深度点的密度包括：在来自单目相机的图像数据内识别在环境内的具有确定的物理大小的对象；以及基于在图像数据内的对象的大小与对象的物理大小的比较，确定深度点的范围。

从在设备500中运行的仅使用来自单目相机200的图像的定位和地图构建算法，这些操作可以被配置为提取环境的稀疏深度点(参见图1的示例)。但是，仅当可以知道场景中的对象的大小时，才能提取来自单目相机200的图像数据的深度的标度(这是在视觉定位和地图构建系统中使用的典型方法)，或者如果设备500具有被用于执行定位和地图构建的惯性测量单元(IMU)(这可能是有利的，并且大多数移动设备具有IMU)，则可以估计或直接推断深度点的范围。例如，IMU可以测量在连续图像之间行进的距离，然后可以使用该距离来确定通过这些图像估计的深度点的标度。因此，给定深度传感器范围，操作能够确定如果深度传感器202将要被激活以用于定位，则使用深度传感器202将可能收集多少信息，即，激活深度传感器202以用于定位的益处级别为何。

在一个说明性实施例中，如果在最小和最大范围内以及在深度传感器202的视场内的数据(例如点云)中包含的深度点(体素(voxel))的数量(即，“点密度”)高于阈值X，则激活深度传感器202具有益处。阈值X可以使用离线方法被定义并且在运行时被适配。例如，在单目相机200和深度传感器202活动的情况下执行训练会话，因此点云(包括深度数据和图像数据)可以被收集并且可以被与IMU传感器信息组合，并且根据由深度传感器202捕获的点云的密度来确定定位和地图构建算法的性能(例如，合理性能需要最小密度d_min_depth)，这将对应于单目相机200的特定深度密度d_monocular，例如找到d_monocular的最小值，这确保深度传感器202的深度密度d_depth>d_min_depth(给定训练集)。还可以使用相同的训练序列在运行时适配阈值。

在另一个说明性实施例中，d_min_depth的值可以是20000，而在训练期间可以发现d_monocular>500以实现d_depth>20000。例如，市售深度传感器可以提供从320x240到640x480的深度分辨率，这产生在76,800与307,200点/体素之间的点云计数。

在一些实施例中，可以基于在转换为3D数据之后对来自单目相机200的图像数据进行采样和分析，确定602(图6)激活深度传感器202以用于定位的益处级别。参考针对一个实施例的在图10中所示的操作的流程图，确定602(图6)激活深度传感器202以用于定位的益处级别可以包括：通过定位算法来处理1000来自单目相机200的图像数据以获得在由单目相机200感测的环境内的深度点。确定602(图6)激活深度传感器202以用于定位的益处级别还可以包括：基于图像数据的帧序列和深度点，确定1002在用于环境的一部分的深度重构数据内的3D特征的数量。基于3D特征的数量，确定602(图6)益处级别。

在另一个实施例中，基于3D特征的数量满足最小阈值，激活深度传感器的益处级别被确定为满足激活规则。可以基于确定定位算法以至少阈值精度级别执行定位所需的3D特征的最小数量，确定最小阈值。

先前的选项可以与3D深度重构算法相组合，该3D深度重构算法基于来自单目相机200的图像数据，通过使用定位和地图构建算法提取稀疏点以及设备的姿态(设备的姿态也可以通过定位和地图构建算法来计算)来重构环境的深度部分。例如，使用这些操作，提供了多视图立体方法或基于纯机器学习的单目-深度重构方法。以这种方式，操作能够直接推断环境的结构属性是否向定位和地图构建算法提供了足够的信息，以使用深度传感器202和/或单目相机200来获得期望的性能和稳健性。可以通过以下方式执行这种推断：将基于深度的定位和地图构建算法应用于3D重构后的数据，以及基于这样的数据来获得成功定位和地图构建的指标(indicator)(例如，针对步骤序列检测到足够的3D特征(例如平面)等，这是定位和地图构建算法性能良好的指标)。例如，益处级别可以被定义为基于分析使用3D重构算法创建的点云而检测到的3D特征的数量，为此应当检测最小3D特征数量X以便定位和地图构建算法在使用深度传感器202时具有期望的性能。可以如在“SegMap:3D SegmentMapping Using Data-Driven Descriptors(SegMap：使用数据驱动的描述符的3D段地图构建)”(R.Dubé、A Cramariuc、D.Dugas、J.Nieto、R.Siegwart和C.Cadena，arXiv：1804.09557，DOI：10.15607/RSS.2018.XIV.003，2018年)中所述来检测3D特征。可以基于离线实验来确定阈值最小3D特征数量X(阈值X)，以在给定阈值X的不同值的情况下确定定位性能(例如精度)。

在另一个示例中，上述方法可以被直接应用于使用3D重构算法创建的点云，并且识别在深度传感器202的范围内有多少个体素，其中体素的数量定义了益处级别，如果体素的数量高于阈值X，则激活深度传感器202将是有益的。

在一些实施例中，基于在转换为3D数据之后对来自单目相机200的图像数据进行采样和分析，确定602激活深度传感器202以用于定位的益处级别。在图11中示出了对应的操作，这些操作根据本公开的一些实施例被配置。参考图11，基于通过对象识别算法和定位算法来处理1100来自单目相机200的图像数据以获得由单目相机200观看的物理对象(包括物理对象的尺寸和物理对象相对于设备的位置)，确定602(图6)激活深度传感器202以用于定位的益处级别。基于结构的类型和大小中的至少一个并且基于结构与设备之间的距离来确定602(图6)益处级别。

设备500可以应用常规对象识别算法，并且推断场景的物理结构(例如桌子、椅子、墙壁、书桌、壁橱等)以及这些结构的尺寸和它们相对于设备的位置。然后，该信息的益处级别可以与检测到的对象的类型和/或大小和/或它们相对于设备500的距离成比例。例如，假设在环境中存在在深度传感器202的范围内的A类对象(例如书桌)，则操作可以以离线方式评估基于深度的定位和地图构建算法的性能(例如，姿态不确定性、相对于已知地面实况测量的定位误差等)，并且因此可以创建表，在表中指示给定类型的对象的数量与它们的益处级别之间的对应关系。因此，如果在深度传感器202的范围和视场内发现定义类型的对象，则基于深度的定位和地图构建10使用深度传感器202表现良好。然后可以将该选项视为对象检测的组合，其中不是检查深度传感器范围内的体素数量，而是操作检查特定对象是否在深度传感器范围内。

作为另一个示例，益处级别可以被定义为检测到的对象的大小(例如本文提出的对象周围的3D边界框)或检测到的特定类型的对象的数量(例如所有家具对象)，并且如果对象的大小和/或检测到的对象的数量高于最小量X，则确定激活深度传感器202是有益的。再次地，可以通过执行离线实验来定义阈值X，其中根据对象的大小和/或类型来评估定位和地图构建性能(例如精度)。

在一些实施例中，基于在转换为3D数据之后对来自单目相机200的图像数据进行采样和分析，确定602激活深度传感器202以用于定位的益处级别。在图12中示出了对应的操作，这些操作根据本公开的一些实施例被配置。参考图12，基于根据来自单目相机200的图像数据确定1200深度传感器202的位置，确定602(图6)激活深度传感器202以用于定位的益处级别。益处级别还基于使用深度传感器的位置来访问1202历史定位地图储存库(例如图2中的地图210)以获得历史图像数据；以及基于历史图像数据来生成1204可以从深度传感器(如果被激活)获取的深度信息的近似物。基于深度信息的近似物来确定602益处级别。

图4示出了具有单目相机200和深度传感器202的正在沿着预测运动轨迹402移动通过环境的设备500的顶视图。预测运动轨迹402可以被用于从历史定位地图储存库(例如图2中的地图210)获得历史图像数据，以及基于历史图像数据来生成1204可以从深度传感器202(如果被激活)获得的深度信息的近似物。

因此，这些操作可以通过相对于历史定位地图(使用单目相机200和/或深度传感器202针对当前环境而构建)的定位来使用历史图像数据，以确定在深度传感器202在用于定位的当前位置处或在沿着设备500的预测运动轨迹402的另一个位置处被激活的情况下将被捕获的信息量。历史定位地图可以是稀疏点云或者可以是更密集的点云，其基于来自单目相机202的图像数据和/或来自深度传感器202的深度数据而构建。设备500可以以在线方式使用历史定位地图以便执行定位。

下面解释基于所确定的激活益处级别来激活深度传感器202以用于定位的各种操作。在一些实施例中，用于在益处级别满足激活规则时激活604深度传感器202以用于定位的操作包括：确定益处级别的值满足阈值。

益处级别满足用于激活深度传感器202的激活规则的示例操作确定可以包括以下中的任何一项或多项：

a.益处级别高于定义的阈值；

b.通过一组测量而获得的益处级别的函数(例如使用单目相机的最后N次测量的平均值)高于定义的阈值；以及

c.给定设备500的当前姿态的当前测量以及设备500的预测运动轨迹402两者，通过对来自定位地图的数据执行的一组测量而获得的益处级别的函数高于定义的阈值。

在深度传感器202被激活之后，设备500可以确定单目相机200应当保持激活还是被去激活。

上述操作实施例还可以与设备的能量预算相组合。例如，如果满足上述条件，则可以做出进一步确定以确认在深度传感器202变得活动之后，针对单目相机200剩余足够的能量预算以保持活动。如上所述，深度传感器通常比单目相机消耗更多的能量。如果在激活深度传感器202之后剩余足够的能量预算，则单目相机200可以保留，否则，当剩余能量预算不足时，在深度传感器202被激活之后，单目相机200被去激活。

可以通过使用来自单目相机200和深度传感器202两者的数据来改进定位算法的性能。可以通过定位算法结合来自深度传感器202的深度数据来处理由单目相机200捕获的场景的视觉信息。例如，在图像数据帧被用于确定场景中的特定对象的情况下，这可以帮助表征环境中的对象的空间排序和/或视觉特性(例如，您在商店X的前方，或者人Y在您的前方，或者今天是晴天)。在这种情况下，单目相机200可以被用于SLAM处理并且提供对环境的语义理解。

在激活深度传感器202之后单目相机200可以继续被用于定位的另一个示例原因是图像数据帧可以是一种优选方法，用于在操作上识别特定位置并且在给定该位置的情况下优化地图，这是SLAM框架的组成部分。以这种方式，单目相机200可以被用于执行完整的SLAM并且计算设备的姿态估计。当深度传感器202也被激活时，单目相机200仍然可以被用于位置识别和回路闭合(loop closure)，而深度传感器202除了位置识别和回路闭合之外还执行完整的SLAM。深度传感器202可以执行以构建环境地图并且根据该地图来计算设备的运动。这是在另一种流行框架RTAB-MAP中考虑的一种方法，如“RTAB-Map as an open-source lidar and visual simultaneous localization and mapping library forlarge-scale and long-term online operation(RTAB-Map作为用于大规模和长期在线操作的开源激光雷达和视觉同时定位和地图构建库)”(M.Labbé和F.Michaud，Journal ofField Robotics，第36卷，第2期，第416-446页，https://doi.org/10.1002/rob.21831，Wiley，2018年)中所述。

参考图7的实施例，由设备500执行的操作还包括：在激活604深度传感器202已经被执行之后，基于来自单目相机202的图像数据并且基于来自深度传感器202的深度数据，确定700使用单目相机200以用于定位的益处级别。根据图8的另一个实施例，当所确定的700使用单目相机以用于定位的益处级别满足去激活规则时，这些操作然后去激活800单目相机200。

在一些实施例中，用于确定700使用单目相机200以用于定位的益处级别满足去激活规则的操作包括：确定在来自单目相机200的图像数据中的特征描述符的数量，以及确定在深度传感器202和单目相机200两者的公共视场内的图像数据中的特征描述符的数量满足执行定位所需的特征描述符的阈值数量。

在另一个实施例中，在来自单目相机200的图像数据中的特征描述符的数量被限于仅包括满足特征质量阈值的特征描述符。

现在描述各种操作，这些操作可以基于分析定位和地图构建算法处理来自单目相机200的图像数据的性能来确定使用单目相机200的益处级别，以及这些操作可以基于确定特征的数量和/或在图像数据中检测到的特征的数量和质量来被执行。当益处级别满足去激活规则时，单目相机200可以被去激活(例如关闭)。否则，单目相机200可以保持活动并且被用于获得定位算法的优异性能/稳健性。

为了使单目相机200提供可以被用于定位操作和/或组合的定位和地图构建操作(例如SLAM)的图像数据，单目相机200必须能够捕获相关的环境特征。现在将描述可以基于使用来自单目相机200的图像数据的定位算法(例如定位和地图构建算法212)的性能来确定激活深度传感器202的益处级别的操作的各种替代实施例。

首先解释使用来自单目相机202的图像数据的定位算法的性能。性能可以直接取决于单目相机202对视觉特征的检测。如果不能以稳健的方式检测定位所需的视觉特征，则定位算法(例如定位和地图构建算法212)将在操作上失败。特征描述符(例如SIFT、BRISK、ORB、基于机器学习)通常描述图像的高对比度区域，例如边缘、角落等。并非定位和地图构建算法(例如SLAM)中的所有测量特征都有助于估计过程中的准确定位，因此本文中的操作可以仅利用有助于准确定位的特征。最终目标是能够基于场景的图像数据帧序列，以稳健的方式检测能够提供与单目相机202的运动有关的几何信息的特征。因此，可以基于对检测到的特征的数量和质量的评估，确定使用单目相机202的定位算法(例如定位和地图构建算法212)的性能。本文公开的各种实施例涉及基于根据对来自双目相机200的图像数据的分析来预测定位算法的性能，确定激活深度传感器202以用于定位的益处级别。然后基于所确定的益处级别是否满足激活规则，深度传感器202被选择性地激活以用于定位和/或组合的定位和地图构建(例如SLAM)。

上述实施例可以与使用设备500的能量预算206相结合以确定激活深度传感器202的益处级别是否满足激活规则和/或在激活深度传感器202之后继续使用单目相机200定位是否满足去激活原则。能量预算206的使用使设备500能够避免在单目相机200活动时激活深度传感器202将导致超过能量预算206的功耗的情况。设备500可以激活深度传感器202，但是然后去激活单目相机200以便避免超过能量预算206的长时间功耗。在对应的实施例中，确定700使用单目相机200以用于定位的益处级别满足去激活规则包括：确定使用深度传感器202和单目相机200两者以用于定位所消耗的能量处于比设备500的能量预算206大的水平。

在另一个实施例中，确定700使用单目相机200以用于定位的益处级别满足去激活规则包括：确定使用深度传感器202和单目相机200两者以用于定位所消耗的能量处于比设备500的能量预算206大的水平。

可以通过触发以下中的至少一项来执行本文的各种实施例中的传感器(例如单目相机200或深度传感器202)的去激活：将传感器转变为低功率状态，将传感器断电，将感测环境的传感器的活动组件(例如LIDAR激光组件、红外发射器等)断电，将传感器或其活动组件的数据采样率降低到比被用于定位的级别低的级别，将传感器的分辨率降低到比被用于定位的级别低的级别，将光学参数(例如焦距、视场等)更改为不被用于定位的参数，以及适配定位算法以停止使用传感器的参数(例如光学参数)。

如上所述，可以通过触发以下中的至少一项来执行传感器(即，深度传感器202或单目相机200)的激活：将深度传感器转变为高功率状态，将传感器通电，将感测环境的传感器的活动组件(例如LIDAR激光组件、红外发射器等)通电，将传感器或其活动组件的数据采样率增大到用于定位的级别，将传感器的分辨率增大到用于定位的级别，将光学参数(例如焦距、视场等)更改为被用于定位的参数，以及适配定位算法以使用传感器的参数(例如光学参数)。

因此，在一些实施例中，深度传感器202的激活604包括触发以下中的至少一项：将深度传感器202转变为高功率状态，将深度传感器202通电，将深度传感器202的数据采样率增大到用于定位的级别，将深度传感器202的分辨率增大到用于定位的级别，以及适配定位算法以使用深度传感器202的深度感测参数。

一些其他相关实施例涉及一种由设备使用能够与设备一起运输的单目相机和深度传感器中的一者或两者来执行定位的对应方法。该方法包括：从单目相机接收600图像数据；基于图像数据，确定602激活深度传感器以用于定位的益处级别；以及基于确定激活深度传感器的益处级别满足激活规则，激活604深度传感器以用于定位。在各种其他实施例中，该方法还包括执行上面在图1-12的上下文中描述的任何操作。

一些其他相关实施例涉及一种用于使用能够与设备500一起运输的单目相机200和深度传感器202中的一者或两者来执行定位的计算机程序产品。该计算机程序产品包括存储指令的非暂时性计算机可读介质520，该指令能够由设备的至少一个处理器510执行以将设备500配置为：从单目相机200接收图像数据；基于图像数据，确定激活深度传感器202以用于定位的益处级别；以及基于确定激活深度传感器202的益处级别满足激活规则，激活深度传感器202以用于定位。在各种其他实施例中，该指令还将设备500的至少一个处理器510配置为：还执行上面在图1-12的上下文中描述的任何操作。

下面解释其他定义和实施例。

在本发明构思的各种实施例的以上描述中，应理解，本文使用的术语仅出于描述特定实施例的目的，并不旨在限制本发明构思。除非另外定义，否则本文使用的所有术语(包括技术和科学术语)具有与本发明构思所属领域的普通技术人员通常理解的含义相同的含义。还将理解，诸如在常用词典中定义的术语应被解释为具有与其在本说明书和相关领域的上下文中的含义相一致的含义，并且将不以理想化或过度正式的意义来解释，除非在此明确定义。

当一个元件被称为“连接”、“耦接”到另一个元件或“响应于”(或其变型)另一个元件时，它可以直接连接、耦接到另一个元件或响应于另一个元件，或者可以存在中间元件。相比之下，当元件被称为“直接连接”、“直接耦接”到另一元件或“直接响应于”(或其变型)另一个元件时，不存在中间元件。相同的数字始终指代相同的元件。此外，本文使用的“耦接”、“连接”、“响应于”或其变型可以包括无线耦接、连接或响应。如本文所使用的，单数形式的“一”、“一个”和“该”旨在也包括复数形式，除非上下文另有明确说明。为简洁和/或清楚起见，可能未详细描述公知的功能或构造。术语“和/或”包括一个或多个相关联的所列项目的任何和所有组合。

应当理解，尽管本文可以使用术语第一、第二、第三等来描述各种元件/操作，但是这些元件/操作不应受这些术语的限制。这些术语仅用于将一个元件/操作与另一个元件/操作进行区分。因此，在不脱离本发明构思的教导的情况下，在一些实施例中的第一元件/操作可在其他实施例中被称为第二元件/操作。在整个说明书中，相同的附图标记或相同的附图指示符表示相同或相似的元件。

如本文所使用的，术语“包括”、“包含”、“具有”或其变型是开放的，并且包括一个或多个所声明的特征、整数、元件、步骤、组件或功能，但不排除一个或多个其他特征、整数、元件、步骤、组件、功能或其组合的存在或添加。此外，如本文所使用的，源自拉丁语短语“举例来说(exempli gratia)”的通用缩写“例如(e.g.)”可用于引入或指定先前提及的项目的一个或多个一般示例，并且不旨在限制这样的项目。源自拉丁短语“也就是(id est)”的通用缩写“即(i.e.)”可用于从更一般的叙述中指定特定项目。

本文参考计算机实现的方法、装置(系统和/或设备)和/或计算机程序产品的框图和/或流程图说明来描述示例实施例。应当理解，框图和/或流程图图示的一个框以及框图和/或流程图图示中的框的组合可以由一个或多个计算机电路执行的计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机电路、专用计算机电路和/或其他可编程数据处理电路的处理器电路以产生机器，以使得经由计算机和/或其他可编程数据处理装置的处理器执行的指令变换和控制晶体管、被存储在存储单元中的值、以及这种电路内的其他硬件组件，以实现在框图和/或一个或多个流程图框中指定的功能/动作，从而创建用于实现框图和/或一个或多个流程图框中指定的功能/动作的装置(功能)和/或结构。

这些计算机程序指令还可以被存储在有形计算机可读介质中，该有形计算机可读介质可以引导计算机或其他可编程数据处理装置以特定方式工作，以使得存储在计算机可读介质中的指令产生包括实现框图和/或一个或多个流程图框中指定的功能/动作的指令的制品。因此，本发明构思的实施例可以体现在诸如数字信号处理器的处理器上运行的硬件和/或软件(包括固件、驻留软件、微代码等)中，它们可以被统称为“电路”、“模块”或其变型。

还应注意，在一些替代实现中，框中提到的功能/动作可以不按照流程图中提到的顺序发生。例如，连续示出的两个框实际上可以基本上同时被执行，或者这些框有时可以以相反的顺序被执行，这取决于所涉及的功能/动作。此外，流程图和/或框图的给定框的功能可以被分成多个框和/或流程图和/或框图的两个或更多个框的功能可以至少部分地被集成。最后，可以在所图示的框之间添加/插入其他框，和/或可以省略框/操作而不脱离本发明构思的范围。此外，尽管一些图包括通信路径上的箭头以示出通信的主要方向，但是应当理解，通信可以在与所示箭头相反的方向上发生。

在基本上不脱离本发明构思的原理的情况下，可以对实施例进行许多变化和修改。所有这些变化和修改旨在被包括在本发明构思的范围内。因此，以上公开的主题应被认为是说明性的而非限制性的，并且实施例的所附示例旨在覆盖落入本发明构思的精神和范围内的所有这样的修改、增强和其他实施例。因此，在法律允许的最大程度上，本发明构思的范围将由包括实施例的以下示例及其等同物的本公开的最宽泛的允许解释来确定，并且不应受前述详细描述的束缚或限制。

Claims

1.一种设备(500)，被配置用于使用能够与所述设备一起运输的单目相机(200)和深度传感器(202)中的一者或两者来执行定位，所述设备(500)包括：

至少一个处理器(510)，其在操作上被连接到所述单目相机(200)和所述深度传感器(202)；

至少一个存储器(520)，其存储程序代码，所述程序代码由所述至少一个处理器(510)执行以执行操作，所述操作用于：

从所述单目相机接收(600)图像数据；

基于所述图像数据，确定(602)激活所述深度传感器以用于定位的益处级别；以及

基于确定激活所述深度传感器的所述益处级别满足激活规则，激活(604)所述深度传感器以用于定位。

2.根据权利要求1所述的设备(500)，其中，所述操作还将所述至少一个处理器配置为：在激活(604)所述深度传感器已经被执行之后，基于来自所述单目相机的所述图像数据并且基于来自所述深度传感器的深度数据，确定(700)使用所述单目相机以用于定位的益处级别。

3.根据权利要求2所述的设备(500)，其中，所述操作还将所述至少一个处理器配置为：基于确定使用所述单目相机以用于定位的所述益处级别满足去激活规则，去激活(800)所述单目相机。

4.根据权利要求3所述的设备(500)，其中，确定(700)使用所述单目相机以用于定位的所述益处级别满足所述去激活规则包括：

确定在来自所述单目相机的所述图像数据中的特征描述符的数量，以及

确定在所述深度传感器和所述单目相机两者的公共视场内的所述图像数据中的特征描述符的数量满足执行定位所需的特征描述符的阈值数量。

5.根据权利要求4所述的设备(500)，其中，在来自所述单目相机的所述图像数据中的特征描述符的数量被限于仅包括满足特征质量阈值的特征描述符。

6.根据权利要求3至5中任一项所述的设备(500)，其中，确定(700)使用所述单目相机以用于定位的所述益处级别满足所述去激活规则包括：确定使用所述深度传感器和所述单目相机两者以用于定位所消耗的能量处于比所述设备的能量预算大的水平。

7.根据权利要求2至6中任一项所述的设备(500)，其中，基于针对使用所述单目相机执行定位的所述设备而获得的硬件资源利用率，执行确定(700)使用所述单目相机以用于定位的所述益处级别满足所述去激活规则，其中，所述硬件资源利用率包括处理器利用率、存储器利用率、以及网络利用率中的至少一个。

8.根据权利要求1至7中任一项所述的设备(500)，其中，激活(604)所述深度传感器包括触发以下中的至少一项：将所述深度传感器转变为高功率状态，将所述深度传感器通电，将所述深度传感器的数据采样率增大到用于定位的级别，将所述深度传感器的分辨率增大到用于定位的级别，以及适配定位算法以使用所述深度传感器的深度感测参数。

9.根据权利要求1至8中任一项所述的设备(500)，其中，确定(602)激活所述深度传感器(202)以用于定位的所述益处级别包括：

通过定位算法来处理(900)来自所述单目相机的所述图像数据以获得在由所述单目相机感测的环境内的深度点；以及

估计(902)在所述深度传感器的范围内的所述深度点的密度，其中，基于所述深度点的所述密度的估计，确定(602)所述益处级别。

10.根据权利要求9所述的设备(500)，其中，估计在所述深度传感器的所述范围内的所述深度点的密度包括：

在来自所述单目相机的所述图像数据内识别在所述环境内的具有确定的物理大小的对象；以及

基于在所述图像数据内的所述对象的大小与所述对象的所述物理大小的比较，确定所述深度点的范围。

11.根据权利要求9至10中任一项所述的设备(500)，其中，基于在所述深度传感器的所述范围内的所述深度点的密度满足最小阈值，激活所述深度传感器的所述益处级别被确定为满足所述激活规则。

12.根据权利要求11所述的设备(500)，其中，基于确定所述定位算法以至少阈值精度级别执行定位所需的所述深度点的最小密度，确定所述最小阈值。

13.根据权利要求1至12中任一项所述的设备(500)，其中，确定(602)激活所述深度传感器以用于定位的所述益处级别包括：

通过定位算法来处理(1000)来自所述单目相机的所述图像数据以获得在由所述单目相机感测的环境内的深度点；以及

基于所述图像数据的帧序列和所述深度点，确定(1002)在用于所述环境的一部分的深度重构数据内的三维3D特征的数量，

其中，基于所述3D特征的数量来确定(602)所述益处级别。

14.根据权利要求13所述的设备(500)，其中，基于所述3D特征的数量满足最小阈值，激活所述深度传感器的所述益处级别被确定为满足所述激活规则。

15.根据权利要求14所述的设备(500)，其中，基于确定所述定位算法以至少阈值精度级别执行定位所需的所述3D特征的最小数量，确定所述最小阈值。

16.根据权利要求1至15中任一项所述的设备(500)，其中，确定(602)激活所述深度传感器(202)以用于定位的所述益处级别包括：

通过对象识别算法和定位算法来处理(1100)来自所述单目相机的所述图像数据以获得由所述单目相机观看的物理对象，包括获得所述物理对象的尺寸和所述物理对象相对于所述设备的位置，

其中，基于所述结构的类型和大小中的至少一个并且基于所述结构与所述设备之间的距离，确定(602)所述益处级别。

17.根据权利要求1至16中任一项所述的设备(500)，其中，确定(602)激活所述深度传感器以用于定位的所述益处级别是基于：

基于所述图像数据来确定(1200)所述深度传感器的位置；

使用所述深度传感器的所述位置来访问(1202)历史定位地图储存库以获得历史图像数据；以及

基于所述历史图像数据，生成(1204)如果所述深度传感器被激活则能够从所述深度传感器获得的深度信息的近似物，

其中，基于深度信息的所述近似物，确定(602)所述益处级别。

18.根据权利要求1至17中任一项所述的设备(500)，其中，基于确定激活所述深度传感器的所述益处级别满足所述激活规则，激活(604)所述深度传感器以用于定位包括：确定所述益处级别的值满足阈值。

19.一种由设备使用能够与所述设备一起运输的单目相机和深度传感器中的一者或两者来执行定位的方法，所述方法包括：

从所述单目相机接收(600)图像数据；

20.根据权利要求19所述的方法，还包括执行根据权利要求2至18中任一项所述的操作。

21.一种用于使用能够与设备一起运输的单目相机(200)和深度传感器(202)中的一者或两者来执行定位的计算机程序产品，所述计算机程序产品包括存储指令的非暂时性计算机可读介质，所述指令能够由所述设备的至少一个处理器执行以将所述设备配置为：

从所述单目相机接收(600)图像数据；

22.根据权利要求21所述的计算机程序产品，其中，所述指令还将所述设备的所述至少一个处理器配置为根据权利要求2至18中任一项来执行。