CN116964630A

CN116964630A - 一种用于估计相对于空间区域的可能位姿的方法和图像处理装置

Info

Publication number: CN116964630A
Application number: CN202180079718.2A
Authority: CN
Inventors: 奥纳伊·优厄法利欧格路
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2023-10-27
Also published as: WO2022174909A1; US20230401742A1; EP4233005A1

Abstract

提供了一种用于估计图像在空间区域中的位姿的方法以及一种图像处理装置(102)。所述图像处理装置耦合至成像捕获装置(104)，所述成像捕获装置(104)用于捕获所述空间区域内的场景的一个或多个2D图像。所述图像处理装置具有所述空间区域内的多个3D点位置的空间坐标。所述方法包括：识别2D图像中存在的关键特征；识别所述多个3D点位置中的聚类与所述2D图像中存在的关键特征点的对应关系；根据所述识别的对应关系，通过使用为每个3D点位置找到k个可能的2D关键特征点中最接近的2D特征点的多匹配似然函数，估计所述图像处理装置相对于所述空间区域的所述可能位姿，其中，k是大于1的整数。

Description

一种用于估计相对于空间区域的可能位姿的方法和图像处理装置

技术领域

本发明大体涉及图像处理，尤其涉及一种用于估计相对于空间区域的可能位姿的方法和图像处理装置。

背景技术

构建地图、在地图中定位以及使用地图进行规划是机器人、ADAS和自动驾驶系统等自主系统的重要任务。虽然映射与定位之间的相互依赖关系是众所周知的同时定位与地图构建(Simultaneous Localization And Mapping，SLAM)问题，但是在当代研究界，越来越多的人认识到，规划自主系统如何对未知环境进行地图构建和探索(以及随后在该环境中运行)可以规避退化条件并显著降低SLAM的复杂性。因此，探索新环境的任务结合了构建地图、在地图中定位以及使用地图进行规划这三个问题，因为自主系统必须能够找到降低地图构建和定位方面的不确定性的措施。

在基于位置的地图构建方面，其中一个最重要的传感器输入来自视觉传感器，如数字摄像头。此外，可以通过检测和匹配使用立体摄像头或从彼此具有已知位姿的摄像头中捕获的图像数据中的2D特征点，来确定3D特征点。相对于一组3D特征点，最成功的摄像头相对位姿估计方法依赖于在摄像头捕获的图像中检测2D特征点，并将这些2D特征点和3D特征点进行匹配以找到特征对应关系。

通常，基于特征描述符相似性来进行匹配。特征描述符通常是描述图像中特征点的局部环境的值的向量。使用这些匹配，可以通过透视n点(Perspective-n-Point，PnP)方法来估计摄像头的相对位姿。此外，至关重要的是，在图像的不同区域中找到足够的正确对应关系(称为内点)，以便能够准确地估计位姿。在所涉及的图像(例如，从朝向同一方向且空间上接近的摄像头中捕获)在内容和照明条件(无遮挡等)方面相似的情况下，匹配其它图像中的特征点可以提供足够的内点。

传统的位姿估计一般采用两种方法。在第一种位姿估计方法中，检测捕获的参考图像和目标图像这两者的特征点。然后执行特征点匹配以确定这两个图像中的特征点之间的对应关系，然后计算图像位姿。通常，在实时捕获图像的过程中，捕获的图像可能存在许多遮挡、照明差异、运动模糊等问题。这使得匹配特征与特征点非常困难。因此，可能存在多个不匹配，这反过来会使位姿估计变得困难。例如，如果由于错误匹配而遗漏任何重要的特征点，则无法正确估计位姿。

在另一种位姿估计方法中，一旦检测到参考图像和目标图像的特征点，则同时执行特征点与特征点之间的匹配以确定对应关系，然后执行位姿计算。虽然十分需要同时执行特征点的匹配与位姿估计，但是由于存在大量的可能匹配以及多模态的位姿参数空间，因此执行此类操作非常困难，这反过来需要大量计算资源。

虽然十分需要同时执行特征点的匹配与位姿估计，但是由于存在大量的可能匹配以及多模态的位姿参数空间，因此执行此类操作非常困难，这反过来需要大量计算资源。

因此，与现有方法相比，需要以高效方式解决在捕获内点方面存在的上述技术缺陷。

发明内容

本发明的目的在于提供一种改进的方法和改进的图像处理装置，用于估计相对于空间区域的可能位姿，同时避免现有技术方法的一个或多个缺点。

该目的通过独立权利要求的特征来实现。其它实现方式从从属权利要求、说明书和附图中是显而易见的。

本发明提供了一种改进的方法和图像处理装置，用于估计相对于空间区域的可能位姿。

根据第一方面，提供了一种用于估计图像处理装置相对于空间区域的可能位姿的方法。所述图像处理装置耦合至成像捕获装置，所述成像捕获装置用于捕获所述空间区域内的场景的一个或多个2D图像，其中，所述图像处理装置具有所述空间区域内的多个3D点位置的空间坐标。所述方法包括：识别所述一个或多个2D图像中存在的关键特征。所述方法包括：识别所述多个3D点位置中的一个或多个聚类与所述一个或多个2D图像中存在的关键特征点的对应关系。所述方法包括：根据所述识别的对应关系，通过使用为每个3D点位置找到k个可能的2D关键特征点中最接近的2D特征点的多匹配似然函数，估计所述图像处理装置相对于所述空间区域的所述可能位姿，其中，k是大于1的整数。

根据本文所述方法，确定参考特征点的多个最佳2D特征点匹配，而不是确定参考3D特征点的单个匹配。这反过来会创建多个匹配的集合。因此，使用多匹配以及从多个可能的匹配中识别最佳匹配，从而灵活地在所述图像的不同区域中捕获较大一组内点，以便能够准确估计可能的位姿。

可选地，所述方法包括：根据从相互不同的角度捕获的多个图像，确定所述空间区域内的多个3D点位置的空间坐标。

可选地，所述方法包括：将所述多匹配似然函数实现为基于采样的框架，以通过计算所述多匹配似然函数的最大值，来搜索所述可能位姿的最佳位姿。所述基于采样的框架可避免查找成本函数的局部最小值，并且可查找成本函数的最佳总体最小值。

可选地，所述方法包括：使用优化过程，所述优化过程用于在k个最佳匹配中自适应地选择最接近的2D关键特征点，以在所述2D图像中捕获更多内点。

可选地，所述方法包括：实现所述多匹配似然函数，如下所示：

其中，Q_i：第i个3D特征点；P(Θ)：由Θ参数化的反向摄像头位姿；P(Θ)Q_i：投射到目标图像中的所述3D特征点Q_i的点坐标；m_i：所述目标图像中可能对应于所述3D特征点Q_i的第i个2D特征点；ε：＝均匀离群距离分布的常数。选择位姿参数Θ，以便最大化多匹配似然函数L(Θ)，从而确定所述可能位姿。

所述多匹配似然函数可以实现为单匹配稳健似然函数，如下所示：

其中，指数k通常是小数，可选地在0到10的范围内；Q_i：第i个3D特征点；P(Θ)：由Θ参数化的反向摄像头位姿；P(Θ)Q_i：投射到目标图像中的所述3D特征点Q_i的点坐标；m_ij：所述目标图像中可能对应于所述3D特征点Q_i的第ij个2D特征点；ε：均匀离群距离分布的常数。对于每个给定的位姿参数P(Θ)，所述方法包括：首先在k m_ij(j＝1、……、k)中找到空间上最接近的点m_ij，然后基于所述最接近的点m_ij.计算多匹配似然函数L(Θ)。其中，N的值可以高达数千。

所述多匹配似然函数可以实现为多匹配稳健似然函数，如下所示：

对于全部i：

其中，Q_i：第i个3D特征点；P(Θ)：：由Θ参数化的反向摄像头位姿；isP(Θ)Q_i：投射到目标图像中以获取q_i的所述3D特征点Q_i的点坐标；m_ij：目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；ε:：均匀离群距离分布的常数；D_q,D_m：分别是q和m的描述符向量；用于根据所述描述符相似性以及所述3D点Q在所述图像中的投射q与所述图像的可能对应关系m之间的空间距离来确定距离的函数。对于每个给定的位姿参数P(Θ)，所述方法包括：首先在k m_ij(j＝1、……、k)(关于f())中找到最接近的点m_ij，然后基于所述最接近的点m_ij.计算多匹配似然函数L(Θ)。k通常是小数，例如在0到10的范围内。

对于全部i：

其中，函数f()定义为

其中，q在给定图像中的位置取决于摄像头位姿参数Θ和它们的3D位置Q，q_i＝P(Θ)Q_i；其中，对于给定的特征点q，存在k种可能的对应关系；m_ij：＝目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；ε：＝均匀离群距离分布的常数；D_q,D_m：＝分别是q和m的描述符向量。

根据第二方面，提供了一种用于估计相对于空间区域的可能位姿的图像处理装置。所述图像处理装置耦合至成像捕获装置，所述成像捕获装置用于捕获所述空间区域内的场景的一个或多个2D图像。所述图像处理装置具有所述空间区域内的多个3D点位置的空间坐标。所述图像处理装置用于：识别所述一个或多个2D图像中存在的关键特征。所述图像处理装置用于：识别所述多个3D点位置中的一个或多个聚类与所述一个或多个2D图像中存在的关键特征点的对应关系。所述图像处理装置用于：根据所述识别的对应关系，通过使用为每个3D点位置找到k个可能的2D关键特征点中最接近的2D特征点的多匹配似然函数，估计所述图像处理装置相对于所述空间区域的所述可能位姿。其中，k是大于1的整数。

本文所述图像处理装置用于同时确定图像中3D特征点与2D特征点的多个特征匹配，并对每个3D特征点进行识别。该方法不需要在执行任何优化过程之前确定一组固定的对应关系。此外，在所述优化过程中，可以自适应地在所述多个最佳匹配中选择所述最接近的2D特征点。由于使用所述特征点的所述多个匹配，可以高效地比较更大一组对应关系与传统方法。

可选地，所述图像处理装置用于：根据从相互不同的角度捕获的多个图像，确定所述空间区域内的多个3D点位置的空间坐标。

根据第三方面，提供了一种计算机程序，包括指令，所述指令在由计算机执行时，使所述计算机执行所述方法。

根据第四方面，提供了一种非瞬时性计算机可读介质，包含计算机可执行指令。所述计算机可执行指令在由计算机执行时，使所述计算机执行上述方法。

本发明解决了现有技术中的技术问题，即如何准确确定内点，以在图像的不同区域中执行位姿估计。

因此，在现有技术形成对比的是，根据本发明提供的图像处理装置以及用于估计图像处理装置相对于空间区域的可能位姿的方法，利用对应于参考图像和目标图像的特征点的多匹配，从多个合理匹配中识别最佳特征匹配。所述多匹配函数同时为每个3D特征点找到k个可能的2D特征点中最接近的2D特征点，并计算总体位姿的似然函数。该多匹配似然函数通常用于基于采样的框架中，以通过最大化所述似然函数来搜索最佳位姿。

根据下面描述的实现方式，本发明的这些方面和其它方面将变得显而易见。

附图说明

现在将结合以下附图，仅以举例的方式来描述本发明的实现方式，其中：

图1示出了本发明实现方式提供的用于估计相对于空间区域的可能位姿的图像处理装置的框图；

图2示出了本发明实现方式提供的特征点映射示例；

图3示出了本发明实现方式提供的位置的多匹配特征点的示例性说明；

图4示出了本发明实现方式提供的用于估计图像处理装置相对于空间区域的的可能位姿的方法的流程图。

具体实施方式

本发明实现方式提供了一种用于估计图像处理装置相对于空间区域的可能位姿的方法；此外，本发明实现方式提供了一种图像处理装置，用于通过识别图像的不同区域中的适当对应关系，以更高精度估计摄像头位姿。

为了使本领域技术人员更容易理解本发明的方案，结合附图描述本发明的以下实现方式。

本发明的说明书摘要、权利要求书和上述附图中的“第一”、“第二”、“第三”和“第四”(如有)等术语用于区分类似对象，而不一定用于描述特定序列或顺序。应当理解的是，在适当情况下，所使用的术语可以互换，因此，例如，本文中所描述的本发明实现方式能够以不同于本文所示或所述序列的序列来实现。此外，术语“包括”和“具有”及其任何变形意在涵盖非排他性包含。例如，包括一系列步骤或单元的过程、方法、系统、产品或设备不一定限于明确列出的步骤或单元，但可以包括其它未明确列出的步骤或单元，或此类过程、方法、产品或设备固有的步骤或单元。

术语说明：

图像：图像定义为使用单个摄像头采集的正常二维图片(RGB或色度-亮度)。

场景：场景是真实世界的特定感兴趣区域，由摄像头捕捉或捕获。

2D特征点：2D特征点是指图像中具有(x，y)坐标的点。

3D特征点：3D特征点是指3D场景中具有(X，Y，Z)坐标的点。

对应关系：对应关系是指一对特征点。在本文中，对应关系是指由3D特征点和相关的2D特征点组成的一对特征点。

内点对应关系或简单内点：内点对应关系或简单内点是指正确确定的对应关系，2D特征点是对应的3D特征点在图像上的投影。

位姿：位姿是指由图像捕获设备的3D位置坐标(x，y，z)和3个方向角度组成的6D向量。

相对位姿：从一个坐标系/位姿到另一个坐标系/位姿的欧几里德变换。

似然函数：评估模型估计与观察值拟合程度的函数。

损失：描述负似然函数结果的标量。

图1示出了本发明实现方式提供的用于估计相对于空间区域的可能位姿的图像处理装置102的框图。所述图像处理装置102耦合至成像捕获装置104，所述成像捕获装置104用于捕获所述空间区域内的场景的一个或多个2D图像。所述图像处理装置102具有所述空间区域内的多个3D点位置的空间坐标。所述图像处理装置102用于：识别所述一个或多个2D图像中存在的关键特征。所述图像处理装置102还用于：识别所述多个3D点位置中的一个或多个聚类与所述一个或多个2D图像中存在的关键特征点的对应关系。所述图像处理装置102用于：根据所述识别的对应关系，通过使用为每个3D点位置找到k个可能的2D关键特征点中最接近的2D特征点的多匹配似然函数，估计所述图像处理装置102相对于所述空间区域的所述可能位姿，其中，k是大于1的整数。其中，k是一个较小的整数，其值在0到10的范围内。

所述图像处理装置102用于同时确定图像中3D特征点与2D特征点的多个特征匹配，并对每个3D特征点进行识别。该方法不需要在执行任何优化过程之前确定一组固定的对应关系。此外，在所述优化过程中，可以自适应地在所述一个或多个最佳匹配中选择所述最接近的2D特征点。由于使用所述特征点的所述一个或多个匹配，可以高效地比较更大一组对应关系与传统方法。

可选地，所述图像处理装置102用于：根据从相互不同的角度捕获的一个或多个图像，确定所述空间区域内的多个3D点位置的空间坐标。

图2示出了本发明实现方式提供的特征点映射示例。根据图2，图像处理装置识别从第一摄像头接收的第一图像202中的一个或多个2D特征点p_11、p_12以及从第二摄像头接收的第二图像204中的一个或多个2D特征点p_21、p_22。所述图像处理装置将所述第一图像202的2D特征点p_11和所述第二图像204的2D特征点p_21进行匹配。所述图像处理装置将所述第一图像202的所述2D特征点p_11和所述第二图像204的所述2D特征点p_21进行匹配，并提取对应的3D特征点Q_1、Q_2。此外，所述图像处理装置从目标图像206中提取2D特征点q_1、q_2。其中，q_1＝PQ_1，q_2＝PQ_2。然后，所述图像处理装置将所述3D特征点Q_1、Q_2和所述目标图像206中的所述2D特征点q_1、q_2进行匹配，以确定所述图像202、204、206中的特征点之间的特征对应关系或简单对应关系。通常，基于某些特征描述符相似性来进行所述特征匹配。基于所述特征匹配，例如，可以通过透视n点(Perspective-n-Point，PnP)方法来估计所述第一摄像头和所述第二摄像头的所述位姿。

可选地，将多匹配似然函数实现为基于采样的框架，以通过计算所述多匹配似然函数的最大值，来搜索所述可能位姿的最佳位姿。对于每个给定的位姿参数P(Θ)，首先在km_ij(j＝1、……、k)中找到空间上最接近的点m_ij，然后基于所述最接近的点计算多匹配似然函数。m_ij.

所述图像处理装置用于实现多匹配似然函数，如下所示：

其中，Q_i：第i个3D特征点；P(Θ)：由Θ参数化的(反向)摄像头位姿；P(Θ)Q_i：投影到目标图像中的所述3D特征点Q_i的点坐标；m_i：目标图像中可能对应于3D特征点的第i个2D特征点；Q_i,ε：均匀离群距离分布的常数，其中，Q_i：第i个3D特征点；P(Θ)：由Θ参数化的反向摄像头位姿；P(Θ)Q_i：投射到目标图像中的所述3D特征点Q_i的点坐标；m_i：所述目标图像中可能对应于所述3D特征点Q_i的第i个2D特征点；ε：均匀离群距离分布的常数。选择位姿参数Θ，以便最大化多匹配似然函数L(Θ)，从而确定所述可能位姿。所述图像处理装置通过检测和匹配使用立体摄像头或从彼此具有已知位姿的摄像头中捕获的特征点(p_11、p_12、p_21、p_22)，来确定3D点。将图像中的3D特征点和2D特征点匹配可创建特征对应关系或简单对应关系。

对于每个给定的位姿参数P(Θ)，所述图像处理装置首先在k m_ij(j＝1、……、k)中找到空间上最接近的点m_ij，然后基于所述最接近的点m_ij.计算多匹配似然函数L(Θ)。

索引k通常是小数，可选地在0到10的范围内；Q_i：第i个3D特征点；P(Θ)is：由Θ参数化的反向摄像头位姿；P(Θ)Q_i：投射到目标图像中的所述3D特征点Q_i的点坐标；m_ij：所述目标图像中可能对应于所述3D特征点Q_i的第ij个2D特征点；ε：均匀离群距离分布的常数。

可选地，对于每个给定的位姿参数P(Θ)，首先在k m_ij(j＝1、……、k)(关于f())中确定最接近的点m_ij，然后基于所述最接近的点m_ij计算多匹配似然函数。对于全部i：所述多匹配稳健似然函数定义如下：

其中，Q_i：第i个3D特征点；P(Θ)：由Θ参数化的反向摄像头位姿；q_i＝P(Θ)Q_i：投影到目标图像中以获取q_i的所述3D特征点Q_i的点坐标；m_ij：目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；ε：均匀离群距离分布的常数；D_q,D_m：分别是q和m的描述符向量；用于根据所述描述符相似性以及所述3D点Q在所述图像中的投射q与所述图像的可能对应关系m之间的空间距离来确定距离的函数。

所述多匹配似然函数可以实现为多匹配稳健似然函数(如下所示)，对于全部i：

其中，函数f()定义为

或

其中，q在给定图像中的位置取决于摄像头位姿参数Θ和它们的3D位置Q：

q_i＝P(Θ)Q_i

对于给定的特征点q，存在k种可能的对应关系；其中，m_ij：目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；ε：均匀离群距离分布的常数；D_q,D_m分别是q和m的描述符向量。

图3示出了本发明实现方式提供的位置的多匹配特征点的示例性说明。图3包括第一图像302和第二图像304。所述第一图像302可以是参考图像，所述第二图像304可以是目标图像。图像处理装置检测所述第一图像302和所述第二图像304中的3D特征点和2D特征点，并将所述检测的3D特征点和2D特征点进行匹配，以在所述图像的不同区域中找到足够的正确对应关系(称为内点)，以便能够准确地估计位姿。

根据图3，在所述第一图像302与所述第二图像304之间，检测k个最佳2D特征点匹配，而不是确定参考3D特征点的单个匹配，从而创建多个匹配的集合。所述多匹配似然函数同时为每个3D特征点找到k个可能的2D特征点中最接近的2D特征点，并计算总体位姿的似然函数。该多匹配似然函数通常用于基于采样的框架中，以通过最大化所述似然函数来搜索最佳位姿。由于使用了图3所示的多个可能匹配/对应关系，使得所述透视n点(Perspective-n-Point，PnP)方法能够具有更高的内点率。这样可以提高最终结果的准确性和稳健性。遍历图像序列之后的误差统计306指示，所述多匹配PnP导致较小的位姿误差308，其为较小的最大误差以及较小的平均误差。

根据图3所示的方法，不需要在执行任何优化过程之前确定一组固定的对应关系，因为在所述优化过程中，可以自适应地在所述k个最佳匹配中选择所述最接近的2D特征点。与传统方法相比，通过这种方式，可以高效地捕获较大一组内点。

图4示出了本发明实现方式提供的用于估计图像处理装置相对于空间区域的的可能位姿的方法的流程图。所述图像处理装置耦合至图像捕获装置，所述成像捕获装置用于捕获所述空间区域内的场景的一个或多个2D图像。所述图像处理装置具有所述空间区域内的多个3D点位置的空间坐标。在步骤402中，识别所述一个或多个2D图像中存在的关键特征。在步骤404中，识别所述多个3D点位置中的一个或多个聚类与所述一个或多个2D图像中存在的关键特征点的对应关系。在步骤406中，根据所述对应关系，通过使用为每个3D点位置找到k个可能的2D关键特征点中最接近的2D特征点的多匹配似然函数，估计所述图像处理装置相对于所述空间区域的所述可能位姿，其中，k是大于1的整数。

可选地，所述方法包括：根据从相互不同的角度捕获的一个或多个图像，确定所述空间区域内的多个3D点位置的空间坐标。可选地，所述方法包括：将所述多匹配似然函数实现为基于采样的框架，以通过计算所述多匹配似然函数的最大值，来搜索所述可能位姿的最佳位姿。所述基于采样的框架方法可避免查找成本函数的局部最小值，并且可查找成本函数的最佳总体最小值。所述多匹配似然函数评估模型估计与观察值拟合程度的函数。

可选地，所述方法包括：使用优化过程，所述优化过程用于在k个最佳匹配中自适应地选择最接近的2D关键特征点，并在所述2D图像中捕获更多内点。

可选地，所述方法包括：使用以下表达式，实现所述多匹配似然函数：

其中

Q_i＝第i个3D特征点；

P(Θ)：＝由Θ参数化的反向摄像头位姿；

P(Θ)Q_i：＝投射到目标图像中的所述3D特征点Q_i的点坐标；

m_i：＝所述目标图像中可能对应于所述3D特征点Q_i的第i个2D特征点；

ε：＝均匀离群距离分布的常数，

其中，选择位姿参数Θ，以便最大化多匹配似然函数L(Θ)，从而确定所述可能位姿。

可选地，所述多匹配似然函数实现为单匹配稳健似然函数，如下所示：

其中，索引k通常是小数，可选地在0到10的范围内；

Q_i：第i个3D特征点；P(Θ)is：由Θ参数化的反向摄像头位姿；

P(Θ)Q_i：＝投射到目标图像中的所述3D特征点Q_i的点坐标；

m_ij：＝所述目标图像中可能对应于所述3D特征点Q_i的第ij个2D特征点；

ε：＝均匀离群距离分布的常数。对于每个给定的位姿参数P(Θ)，所述方法包括：首先在k m_ij(j＝1、……、k)中找到空间上最接近的点m_ij，然后基于所述最接近的点m_ij计算多匹配似然函数L(Θ)。

可选地，所述多匹配似然函数实现为多匹配稳健似然函数，如下所示：

对于全部i：

其中，Q_i：＝第i个3D特征点；

P(Θ)：＝由Θ参数化的反向摄像头位姿；

q_i＝P(Θ)Q_i：投射到目标图像中以获取q_i的所述3D特征点Q_i的点坐标；

m_ij：＝目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；

ε：＝均匀离群距离分布的常数；

D_q,D_m：＝分别是q和m的描述符向量；

＝用于根据所述描述符相似性以及所述3D点Q在所述图像中的投射q与所述图像的可能对应关系m之间的空间距离来确定距离的函数。

对于每个给定的位姿参数P(Θ)，所述方法包括：首先在k m_ij(j＝1、……、k)(关于f())中找到最接近的点m_ij，然后基于所述最接近的点m_ij计算多匹配似然函数L(Θ)。

对于全部i：

其中，函数f()定义为

或

q_i＝P(Θ)Q_i

对于给定的特征点q，存在k种可能的对应关系，

m_ij：＝目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；

ε：＝均匀离群距离分布的常数；

D_q,D_m：＝分别是q和m的描述符向量。

一种计算机程序，包括指令，所述指令在由计算机执行时，使所述计算机执行上述方法。

一种非瞬时性计算机可读介质，包含计算机可执行指令，所述计算机可执行指令在由计算机执行时，使所述计算机执行上述方法。

应当理解的是，所描述的图中示出的组件的布置是示例性的，并且可能有其它布置。还应当理解的是，由权利要求书界定的、下文描述的并且在各种框图中示出的各种系统组件(和装置)表示根据本文中所公开的主题配置的一些系统中的组件。例如，这些系统组件(和装置)中的一个或多个可以整体或部分地通过所描述的图中示出的布置中示出的至少部分组件实现。

另外，尽管这些组件中的至少一个至少部分地实现为电子硬件组件并因此构成机器，但是其它组件可以在软件中实现，当包含于执行环境中时所述组件构成机器、硬件或软件和硬件的组合。

尽管已经详细描述了本发明及其优点，但应理解，在不偏离所附权利要求所定义的公开内容精神和范围的情况下，本文可以进行各种改变、替换和修改。

Claims

1.一种用于估计图像处理装置(102)相对于空间区域的可能位姿的方法，其特征在于，所述图像处理装置(102)耦合至成像捕获装置(104)，所述成像捕获装置(104)用于捕获所述空间区域内的场景的一个或多个2D图像，其中，所述图像处理装置(102)具有所述空间区域内的多个3D点位置的空间坐标，所述方法包括：

(i)识别所述一个或多个2D图像中存在的关键特征；

(ii)识别所述多个3D点位置中的一个或多个聚类与所述一个或多个2D图像中存在的关键特征点的对应关系；

(iii)根据(ii)中的所述对应关系，通过使用为每个3D点位置找到k个可能的2D关键特征点中最接近的2D特征点的多匹配似然函数，估计所述图像处理装置(102)相对于所述空间区域的所述可能位姿，其中，k是大于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述方法包括：根据从相互不同的角度捕获的多个图像，确定所述空间区域内的多个3D点位置的空间坐标。

3.根据权利要求1或2所述的方法，其特征在于，所述方法包括：将所述多匹配似然函数实现为基于采样的框架，以通过计算所述多匹配似然函数的最大值，来搜索所述可能位姿的最佳位姿。

4.根据权利要求1、2或3所述的方法，其特征在于，所述方法包括：使用优化过程，所述优化过程用于在k个最佳匹配中自适应地选择最接近的2D关键特征点，以在所述2D图像中捕获更多内点。

5.根据上述权利要求中任一项所述的方法，其特征在于，所述方法包括：实现所述多匹配似然函数，如下所示：

其中，

Q_i＝第i个3D特征点；

P(Θ)：＝由Θ参数化的反向摄像头位姿；

P(Θ)Q_i：＝投射到目标图像中的所述3D特征点Q_i的点坐标；

ε：＝均匀离群距离分布的常数，

6.根据上述权利要求中任一项所述的方法，其特征在于，所述多匹配似然函数实现为单匹配稳健似然函数，如下所示：

其中，索引k通常是小数，可选地在0到10的范围内；

Q_i：＝第i个3D特征点；

P(Θ)：＝由Θ参数化的反向摄像头位姿；

P(Θ)Q_i：＝投射到目标图像中的所述3D特征点Q_i的点坐标；

ε：＝均匀离群距离分布的常数，

其中，对于每个给定的位姿参数P(Θ)，所述方法包括：首先在k m_ij(j＝1、……、k)中找到空间上最接近的点m_ij，然后基于所述最接近的点m_ij.计算多匹配似然函数L(Θ)。

7.根据上述权利要求中任一项所述的方法，其特征在于，所述多匹配似然函数实现为多匹配稳健似然函数，如下所示：

对于全部i：

其中，

Q_i：＝第i个3D特征点；

P(Θ)：＝由Θ参数化的反向摄像头位姿；

m_ij：＝目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；

ε：＝均匀离群距离分布的常数；

D_q,D_m：＝分别是q和m的描述符向量；

＝用于根据所述描述符相似性以及所述3D点Q在所述图像中的投射q与所述图像的可能对应关系m之间的空间距离来确定距离的函数；

其中，对于每个给定的位姿参数P(Θ)，所述方法包括：首先在k m_ij(j＝1、……、k)(关于f())中找到最接近的点m_ij，然后基于所述最接近的点m_ij计算多匹配似然函数L(Θ)。

8.根据上述权利要求中任一项所述的方法，其特征在于，所述多匹配似然函数实现为多匹配稳健似然函数，如下所示：

对于全部i：

其中，函数f()定义为

或

q_i＝P(Θ)Q_i

其中，对于给定的特征点q，存在k种可能的对应关系，

m_ij：＝目标图像中可能对应于3D特征点Q_i的第ij个2D特征点；

ε：＝均匀离群距离分布的常数；

D_q,D_m：＝分别是q和m的描述符向量。

9.一种用于估计相对于空间区域的可能位姿的图像处理装置(102)，其特征在于，所述图像处理装置(102)耦合至成像捕获装置(104)，所述成像捕获装置(104)用于捕获所述空间区域内的场景的一个或多个2D图像，其中，所述图像处理装置(102)具有所述空间区域内的多个3D点位置的空间坐标，所述图像处理装置(102)用于：

(i)识别所述一个或多个2D图像中存在的关键特征；

10.根据权利要求9所述的图像处理装置(102)，其特征在于，所述图像处理装置(102)用于：根据从相互不同的角度捕获的多个图像，确定所述空间区域内的多个3D点位置的空间坐标。

11.一种计算机程序，其特征在于，包括指令，所述指令在由计算机执行时，使所述计算机执行根据权利要求1至8中任一项所述的方法。

12.一种非瞬时性计算机可读介质，其特征在于，包含计算机可执行指令，所述计算机可执行指令在由计算机执行时，使所述计算机执行根据权利要求1至8中任一项所述的方法。