CN115409896A

CN115409896A - 位姿预测方法、装置、电子设备和介质

Info

Publication number: CN115409896A
Application number: CN202211073561.5A
Authority: CN
Inventors: 施文哲; 陆平; 盛斌; 孟子尧; 赵义成
Original assignee: Zte Nanjing Co ltd; ZTE Corp
Current assignee: Zte Nanjing Co ltd; ZTE Corp
Priority date: 2022-09-02
Filing date: 2022-09-02
Publication date: 2022-11-29

Abstract

本申请提出一种位姿预测方法、装置、电子设备和介质，涉及图像处理技术领域。该方法包括：确定与待查询图像的场景相似的多个参考图像；确定待查询图像与多个参考图像之间的位姿差异信息；将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息。通过缩小图像的处理范围，减少与应用场景的语义信息的相关性，并明确待查询图像与多个参考图像之间的位姿差异信息，进一步缩小图像的处理范围；将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息，以使用视觉定位网络对位姿差异信息进行处理，获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息，提升对目标的定位准确性。

Description

位姿预测方法、装置、电子设备和介质

技术领域

本申请涉及图像处理技术领域，具体涉及一种位姿预测方法、装置、电子设备和介质。

背景技术

目前，针对视觉定位的算法，多是与应用场景的语义信息相关，在不同的数据集上利用其语义信息对定位模型进行训练，可获得不同的视觉定位模型。

但是，在实际应用中，不同的视觉定位模型无法适用于多样性的应用场景中。例如，在在增强现实(Augmented Reality，AR)的导航过程中，通常采用云端服务器对图像特征进行匹配，但由于用户的位置是实时变化的，其所处场景具有多样性，若使用某种特定的应用场景的定位模型对用户进行定位，无法实现应用场景的泛化处理，降低了定位的准确性。

发明内容

本申请提供一种位姿预测方法、装置、电子设备和介质。

本申请实施例提供一种位姿预测方法，方法包括：确定与待查询图像的场景相似的多个参考图像；确定所述待查询图像与多个所述参考图像之间的位姿差异信息；将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息。

本申请实施例提供一种位姿预测装置，其包括：参考图像确定模块，被配置为确定与待查询图像的场景相似的多个参考图像；位姿差异信息确定模块，被配置为确定所述待查询图像与多个所述参考图像之间的位姿差异信息；预测模块，被配置为将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息。

本申请实施例提供一种电子设备，包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现本申请实施例中的任意一种位姿预测方法。

本申请实施例提供了一种可读存储介质，该可读存储介质存储有计算机程序，计算机程序被处理器执行时实现本申请实施例中的任意一种位姿预测方法。

根据本申请实施例的位姿预测方法、装置、电子设备和介质，通过确定与待查询图像的场景相似的多个参考图像，缩小图像的处理范围，减少与应用场景的语义信息的相关性；确定待查询图像与参考图像之间的位姿差异信息，能够明确待查询图像与多个参考图像之间的差异性，进一步缩小图像的处理范围；将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息，以使用视觉定位网络对位姿差异信息进行处理，获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息，提升对目标的定位准确性。

关于本申请的以上实施例和其他方面以及其实现方式，在附图说明、具体实施方式和权利要求中提供更多说明。

附图说明

图1示出本申请一实施例提供的位姿预测方法的流程示意图。

图2示出本申请实施例提供的位姿差异信息的确定方法的流程示意图。

图3示出本申请实施例提供的位姿预测装置的组成方框图。

图4示出本申请一实施例提供的位姿预测设备的组成方框图。

图5示出本申请实施例提供的使用视觉定位网络模型对待查询图的位姿进行预测的示意图。

图6示出能够实现根据本发明实施例的位姿预测方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

通常，对于给定的图像，需要获取该图像对应的参考场景，并基于该参考场景确定该图像对应的位置。对图像进行视觉定位的过程中，通常需要依赖于三维环境地图的重建，使用局部特征与待处理图像进行匹配，从而建立待处理图像和三维环境地图之间的对应关系。但是，不同的视觉定位模型无法适用于多样性的应用场景中，降低了定位准确性。

图1示出本申请一实施例提供的位姿预测方法的流程示意图。该方法可应用于位姿预测装置。如图1所示，本申请实施例中的位姿预测方法包括但不限于以下步骤。

步骤S101，确定与待查询图像的场景相似的多个参考图像。

其中，通过确定与待查询图像的场景相似的多个参考图像，可缩小图像的处理范围，减少与应用场景的语义信息的相关性。

步骤S102，确定待查询图像与多个参考图像之间的位姿差异信息。

其中，位姿差异信息用于表征待查询图像中的目标与多个参考图像中的目标之间的位姿区别信息。

例如，通过将待查询图像和多个参考图像进行对比，以明确待查询图像中的目标与多个参考图像中的目标之间的位姿差异性，从而可进一步缩小图像的处理范围，提升对图像的预测准确性。

步骤S103，将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息。

其中，视觉定位网络模型是基于多种不同应用场景的图像特征进行训练获得的网络模型。

例如，应用场景可以包括：基于室内环境的应用场景、基于室外环境的应用场景、以及基于不同环境的切换过程中的应用场景等。如，用户在博物馆中，基于该博物馆的地图进行导览的场景；用户在某大型商场或写字楼中进行的AR定位和/或导航等场景；用户在某公园或游乐场中的定位和导航等应用场景；用户从某商场出来进入公共露天场所的过程中的定位和/或导航等场景。

在本实施例中，通过确定与待查询图像的场景相似的多个参考图像，缩小图像的处理范围，减少与应用场景的语义信息的相关性；确定待查询图像与参考图像之间的位姿差异信息，能够明确待查询图像与多个参考图像之间的差异性，进一步缩小图像的处理范围；将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息，以使用视觉定位网络对位姿差异信息进行处理，获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息，提升对目标的定位准确性。

例如，其中的视觉定位网络模型可以基于深度神经网络(Deep Neural Network，DNN)确定二维像素位置和三维空间中的预设目标之间的对应关系，从而加快对待查询图像对应的目标位姿的估计速度。

又例如，视觉定位网络模型是基于端到端的视觉定位算法实现的网络模型。通过端到端的视觉定位算法，能够使获得的视觉定位网络模型较好地理解图像中的几何原则、鲁棒地应对目标物体的外观和结构变化系信息；而非简单的使视觉定位网络模型学习基本的几何关系，因此，在该端到端的视觉定位算法对差异信息进行处理的过程中，可实现对待查询图像中的目标进行与应用场景无关的位姿估计，提升对目标位姿估计的准确性。

可采用由粗到细的策略来进行位姿估计，并预测位姿对应的场景坐标。能够更好地对全局场景的上下文进行编码，并加块计算速度。例如，先生成一个粗略的场景坐标，作为粗略估计，然后基于端到端的视觉定位算法对待查询图像中的目标的位姿进行逐级迭代细化，以获得更精细的地图，从而获得更准确的待查询图像对应的目标位姿。

需要说明的是，在每次的迭代估计过程中，可基于场景特征金字塔中的场景特征对应的场景坐标进行插值计算，从而学习将每个待查询图像对应的图像特征的像素信息映射到三维场景空间中；通过将跨像素图像的上下文信息进行融合，能够规范每个像素信息的匹配准则，使获得的目标位姿更准确。

本申请实施例提供另一种实施方式，其中，步骤S101中的确定与待查询图像的场景相似的多个参考图像，可以采用如下方式实现：

依据待查询图像对图像数据库进行图像检索，获得多个与待查询图像在同一位置范围内的待处理图像；依据预设视觉聚类算法对多个待处理图像进行分析，获得多个与待查询图像对应的位置信息相似的图像，作为参考图像。

其中，预设视觉聚类算法用于对多个待处理图像进行分组，使相似的待处理图像归为一类，不相似的待处理图像归为不同类。例如，预设视觉聚类算法可以包括：原型聚类算法(例如，K均值算法、学习向量量化(Learning Vector Quantization，LVQ)算法和K最邻近(K-Nearest Neighbor，KNN)算法中的至少一种)、密度聚类算法、层次聚类算法、模型聚类算法和谱聚类算中的至少一种。待查询图像的类别可以包括：室内图像和/或室外图像。

通过将待查询图像与图像数据库中的多个图像进行比较，获取多个与待查询图像在同一位置范围内的待处理图像，通过仅考虑与待查询图像在同一位置范围内的多个参考图像，而不是所有可能性来减少搜索对图像的搜索范围，加快对图像的处理速度；并且，依据预设视觉聚类算法对多个待处理图像进行聚类分析，可获得多个与待查询图像对应的位置信息相似的图像，作为参考图像，进一步缩小图像处理的范围，以提升图像的处理准确性。

例如，待查询图像是用于表征室内应用场景的图像，则对应的，多个参考图像对应的应用场景也是室内的，以便于缩小对待查询图像的处理范围，提升对待查询图像的处理效率。

在一些具体实现中，依据待查询图像对图像数据库进行图像检索，获得多个与待查询图像在同一位置范围内的待处理图像，包括：依据预设图像提取算法，分别对待查询图像和数据库中的多个图像进行处理，获得与待查询图像对应的第一图像向量、以及多个与数据库中的图像对应的第二图像向量；分别计算第一图像向量与多个第二图像向量之间的距离，获得多个图像距离；依据预设距离阈值对多个图像距离进行筛选，获得多个参考距离、以及与参考距离对应的待处理图像。

其中，预设图像提取算法可以是基于网络(Net)的局部特征聚合描述符(Vectorof Locally Aggregated Descriptors，VLAD)算法实现的算法，通过Net-VLAD算法，能够实现对图像的局部特征进行提取，并基于提取后的特征表征图像向量，使第一图像向量和第二图像向量能够体现图像的局部特征。并且，待处理图像对应的图像向量与第一图像向量之间的距离满足预设距离阈值的要求。

例如，依据预设距离阈值对多个图像距离进行筛选，从而获得排序靠前的多个参考距离，进而获得与参考距离对应的待处理图像，其中，每个参考距离都小于或等于预设距离阈值。

又例如，可以分别计算第一图像向量与多个第二图像向量之间的欧几里德距离，并将该欧几里德距离作为图像距离；然后，对多个图像距离进行排序，获得小于或等于预设距离阈值的且排序靠前的多个参考距离；从而获得多个与参考距离对应的待处理图像。

通过明确第一图像向量与多个第二图像向量之间的图像距离，并依据预设距离阈值对多个图像距离进行筛选，能够排除数据库中的一些不符合预设距离阈值的图像，从而获得多个待处理图像，进一步缩小图像处理的范围，加快对图像的处理速度。

在一些具体实现中，待处理图像包括：多个待匹配点信息，待匹配点信息是三维空间中的预设目标在待处理图像中的二维投影坐标信息。依据预设视觉聚类算法对多个待处理图像进行分析，获得多个与待查询图像对应的位置信息相似的图像，作为参考图像，包括：

获取预设目标在待查询图像中的至少三个预设匹配点信息；分别获取每个待处理图像中的至少三个待匹配点信息；依据每个待处理图像中的至少三个待匹配点信息和待查询图像中的至少三个预设匹配点信息，确定每个待处理图像与待查询图像之间是否存在连通分量；在确定待处理图像与待查询图像之间存在连通分量的情况下，确定待处理图像为与待查询图像的类别相匹配的图像，并将待处理图像标记为参考图像。

其中，可以将每个待处理图像中的至少三个待匹配点信息，分别与待查询图像中的至少三个预设匹配点信息进行处理。

例如，将待查询图像中的至少三个预设匹配点信息基于映射的方式，确定至少三个预设匹配点是否能够在待处理图像中存在对应的映射点；在确定至少三个预设匹配点在某个待处理图像中存在对应的映射点，并且至少三个映射点与该待处理图像中的至少三个待匹配点是重合的情况下，可以确定该待处理图像与待查询图像之间存在连通分量，从而可以确定该待处理图像为与待查询图像的类别相匹配的图像(例如，该待处理图像与该待查询图像都对应三维空间中的同一个预设目标等)，然后将该待处理图像标记为参考图像。

通过采用坐标点信息的匹配方式，对多个待处理图像进行处理，能够明确哪些待处理图像是与待查询图像的类别相匹配的图像，筛选出这些类型相匹配的图像作为参考图像，能够去除掉因感知混淆而获得的待处理图像，从而使获得的多个参考图像能够更有效的辅助待查询图像进行位姿的定位，提升定位的准确性。

在一些具体实现中，目标位姿包括：平移自由度和/或旋转自由度；其中，平移自由度包括：基于世界坐标系中的X轴的前后移动自由度、Y轴的左右移动自由度和Z轴的上下移动自由度中的至少一种；旋转自由度包括纵摇自由度、横摇自由度和垂摇自由度中的至少一种。

通过多个不同的维度表征目标位姿，能够更全面准确的衡量目标的实时位置信息，提升对目标的定位准确性。

步骤S102中的确定待查询图像与多个参考图像之间的位姿差异信息，包括：以特征金字塔的方式，分别对待查询图像和多个参考图像进行特征提取，获得待查询图像的特征金字塔、以及多个与参考图像对应的场景特征金字塔；将待查询图像的特征金字塔中的图像特征，分别与多个场景特征金字塔中的场景特征进行对齐，确定位姿差异信息。

例如，图2示出本申请实施例提供的位姿差异信息的确定方法的流程示意图。该方法可应用于位姿预测装置。如图2所示，本申请实施例中的位姿差异信息的确定方法包括但不限于以下步骤。

步骤S201，以特征金字塔的方式，分别对待查询图像和多个参考图像进行特征提取，获得待查询图像的特征金字塔、以及多个与参考图像对应的场景特征金字塔。

其中，可以特征金字塔的方式，对待查询图像进行特征提取，获得待查询图像的特征金字塔；然后，分别对多个参考图像进行特征提取，获得多个与参考图像对应的场景特征金字塔。

需要说明的是，场景特征金字塔可以是与参考图像一一对应的金字塔，也可以是与参考图像中对应的场景特征一一对应的金字塔。例如，三个参考图像都对应一个场景特征(如，某建筑物内的某层场景特征)，则生成的场景特征金字塔是与该建筑物内的某层场景特征对应的金字塔，以体现该建筑物内的某层场景特征。

步骤S202，将待查询图像的特征金字塔中的图像特征，分别与多个场景特征金字塔中的场景特征进行对齐，确定位姿差异信息。

其中，位姿差异信息用于表征待查询图像中的目标与多个参考图像中的目标之间的区别信息，例如，待查询图像中的目标与多个参考图像中的目标之间的外观差异信息，可采用最小单位(如，像素，或特征元素等)表示的信息。

将待查询图像的特征金字塔中的图像特征，分别与多个场景特征金字塔中的场景特征进行对齐，可以采用稀疏对齐的方式实现，通过利用卷积神经网络(ConvolutionalNeural Networks，CNN)在不同层级的图像特征分别进行对齐处理，获得与特征金字塔中的每层图像特征对应的位姿差异信息；进而将每层图像特征对应的位姿差异信息进行综合分析，确定位姿差异信息。

例如，待查询图像的特征金字塔与场景特征金字塔具有相同层数的图像特征；可以对每层图像特征进行如下处理：将待查询图像的特征金字塔中的第i层图像特征与场景特征金字塔的第i层场景特征输入到CNN网络中进行分析，确定第i层的位姿差异信息，能够降低图像的分辨率，并逐渐丰富图像特征对应的语义信息，以获得更多的图像空间上下文信息。其中，i表示特征金字塔的层数，i为大于或等于1的整数。

然后，可以采用通道的方式，对第i层的位姿差异信息进行归一化处理，以提高第i层的位姿差异信息在数据集上的鲁棒性和泛化性。

在一些具体实现中，还可用采用几何优化的方式，将待查询图像的特征金字塔中的图像特征，分别与多个场景特征金字塔中的场景特征进行直接对齐，从而加快处理速度。

本申请实施例提供另一种实施方式，其中，位姿差异信息包括：平移向量信息和/或旋转矩阵信息，平移向量信息为用于表征平移自由度的信息，旋转矩阵信息为基于矩阵的方式表征旋转自由度的信息。步骤S103中的将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息，可以采用如下方式实现：依据非线性最小二乘算法对平移向量信息和/或旋转矩阵信息进行估计，获得目标位姿。

其中，非线性最小二乘算法是以误差的平方和最小为准则来估计非线性静态模型参数的一种参数估计方法。通过最小化误差的平方和，寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。

例如，非线性最小二乘算法可以包括：改进的牛顿算法(Levenberg Marquardt，LM)。采用循环迭代的方式，对差异信息中的平移向量信息和/或旋转矩阵信息进行估计，以使获得的目标的位姿信息(包括，平移向量信息和/或旋转矩阵信息)能够更贴近待查询图像中的目标的真实位姿，提升对目标位姿的确定准确性。

在一些具体实现中，步骤S202中的以特征金字塔的方式，分别对待查询图像和多个参考图像进行特征提取，获得待查询图像的特征金字塔、以及多个与参考图像对应的场景特征金字塔，可以采用如下方式实现：将待查询图像输入至深度残差网络中进行特征提取，获得待查询图像的特征金字塔；将多个参考图像分别输入至深度残差网络中进行特征提取，获得多个场景特征金字塔。

其中，场景特征金字塔包括室内场景特征金字塔和/或室外场景特征金字塔。深度残差网络包括多个分辨率不同的特征提取模块，分辨率的数量与特征金字塔的层数相同。

通过将待查询图像输入至深度残差网络中进行特征提取，能够通过深度残差网络对待查询图像中的图像特征进行更细致的提取，体现待处理查询图像中的不同维度的特征信息，提升对待查询图像的特征提取的准确性。

而通过将多个参考图像分别输入至深度残差网络中进行特征提取，可获得包括室内场景特征金字塔和/或室外场景特征金字塔，使不同场景中的场景特征能够被清晰的体现出来，从而在后续将待查询图像的特征金字塔中的图像特征与多个场景特征金字塔中的场景特征进行对齐时，可以更快捷的查找到位姿差异信息，提升对图像特征的处理效率。

在一些具体实现中，将待查询图像输入至深度残差网络中进行特征提取，获得待查询图像的特征金字塔，包括：采用预设数量的分辨率，分别对待查询图像进行特征提取，获得多个待处理特征；依据预设数量的分辨率，对预设场景坐标图像进行缩放，获得多个与待处理特征对应的场景特征向量；分别将每个待处理特征与其对应的场景特征向量进行向量连接，获得多个特征图像；依据多个特征图像，确定待查询图像的特征金字塔。

其中，每个待处理特征对应的分辨率不同。

例如，设置预设数量为5，则可基于五种不同的分辨率分别对待查询图像进行特征提取，获得五个待处理特征，每个待处理特征对应一个分辨率。

需要说明的是，其中依据预设数量的分辨率对预设场景坐标图像进行缩放，获得多个与待处理特征对应的场景特征向量，能够将预设场景坐标图像缩放成多个与待处理特征相匹配的场景特征向量，以使场景特征向量能够反应不同的分辨率的特征，方便后续处理。

例如，分别将每个待处理特征与其对应的场景特征向量进行向量连接，获得多个特征图像，可以采用如下方式实现：基于分辨率的不同级别，对每个待处理特征中能够体现三维空间坐标信息的像素进行提取，然后将提取到的像素与该待处理特征对应的场景特征向量进行向量连接，从而获得待处理特征对应的特征图像。

进一步地，基于多个具有不同分辨率的特征图像，构建待查询图像的特征金字塔。通过上述构建的待查询图像的特征金字塔，能够基于多个不同级别的分辨率，体现待查询图像的不同的特征，细化待查询图像的特征，方便后续对待查询图像进行处理，提升处理细节特征的准确性。

在一些具体实现中，在执行步骤S101中的确定与待查询图像的场景相似的多个参考图像之前，还包括：基于预设的训练集对卷积神经网络进行训练，获得视觉定位网络模型。

其中，训练集包括多种不同应用场景的图像特征。

需要说明的是，当采用多个第一应用场景的图像特性对卷积神经网络进行训练时，可以获得与第一应用场景对应的第一定位网络模型；当采用多个第二应用场景的图像特性对卷积神经网络进行训练时，可以获得与第二应用场景对应的第二定位网络模型；等等，不同的应用场景可以对应不同的定位网络模型。

进一步地，可以将多种不同的应用场景的图像特征，对卷积神经网络进行训练，该训练过程可以与采用视觉定位网络模型对待查询图像进行位姿估计的过程相同，从而获得能够体现多种应用场景的图像特征的视觉定位网络模型，以适用于多个不同的应用场景，实现对应用场景的泛化处理。

下面结合附图，详细介绍根据本申请实施例中的装置和设备。图3示出本申请实施例提供的位姿预测装置的组成方框图。如图3所示，位姿预测装置300包括但不限于如下模块。

参考图像确定模块301，被配置为确定与待查询图像的场景相似的多个参考图像。

位姿差异信息确定模块302，被配置为确定待查询图像与多个参考图像之间的位姿差异信息。

预测模块303，被配置为将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息。

需要说明的是，本实施例中的位姿预测装置能够实现本申请实施例中任一种位姿预测方法。

根据本申请实施例的位姿预测装置，通过参考图像确定模块确定与待查询图像的场景相似的多个参考图像，缩小图像的处理范围，减少与应用场景的语义信息的相关性；使用位姿差异信息确定模块确定待查询图像与参考图像之间的位姿差异信息，明确待查询图像与多个参考图像之间的差异性，进一步缩小图像的处理范围；使用预测模块将位姿差异信息输入至视觉定位网络中进行预测，确定待查询图像对应的目标位姿信息，以使用视觉定位网络对位姿差异信息进行处理，获得能够衡量待查询图像中的目标的实时位姿的目标位姿信息，提升对目标的定位准确性。

图4示出本申请一实施例提供的位姿预测设备的组成方框图。位姿预测设备可以应用于室内环境下的定位及导航服务场景，也可以应用于室外环境下的定位及导航服务场景，还可以应用于跨场景的定位及导航服务场景。

如图4所示，位姿预测设备400包括但不限于如下模块：图像检索模块410、视觉聚类模块420和视觉定位网络430。

其中，视觉定位网络430包括：特征金字塔构建模块431、图像对齐模块432和预测模块433。

图像检索模块410，用于通过基于CNN的方式，推断出图像数据库中的多个图像中与待查询图像具有相同的位置的多个待处理图像，并将多个待处理图像输出给视觉聚类模块420。

视觉聚类模块420，用于对依据预设视觉聚类算法对图像检索模块410输入的多个待处理图像进行聚类，获得与待查询图像的类别相匹配的多个参考图像。

视觉定位网络430，用于通过特征金字塔构建模块431采用多层次的图像特征来表征待查询图像和多个参考图像，从而获得待查询图像的特征金字塔、以及多个与参考图像对应的场景特征金字塔；并使用图像对齐模块432将待查询图像的特征金字塔中的图像特征，分别与多个场景特征金字塔中的场景特征进行对齐，确定位姿差异信息(即，最小化待查询图像与多个参考图像之间的外观差异)；在确定位姿差异信息存在的情况下，使用预测模块433依据非线性最小二乘算法对待查询图像中的目标进行位姿估计，获得待查询图像对应的目标位姿，从而减少场景的语义影响。

其中，目标位姿可以包括平移自由度和/或旋转自由度；其中，平移自由度包括：基于世界坐标系中的X轴的前后移动自由度、Y轴的左右移动自由度和Z轴的上下移动自由度中的至少一种；旋转自由度包括纵摇自由度、横摇自由度和垂摇自由度中的至少一种。

例如，图像检索模块410的工作方式可以采用如下方式实现：

基于Net-VLAD算法，确定图像表示提取器的函数F；使用该图像表示提取器的函数F对待查询图像进行处理，获得第一图像向量F₀；再使用该图像表示提取器的函数F对分别对数据库中的多个图像进行处理，获得多个与数据库中的图像对应的第二图像向量(可离线处理)，其中的第二图像向量可以表示为F_(q)，其中，q表示数据库中的图像的数量，q为大于或等于1的整数。

进一步地，分别计算第一图像向量F₀与多个第二图像向量F_(q)之间的距离(例如，可计算两个向量之间的欧几里德距离等)，获得多个图像距离d_(0，q)；对多个图像距离d_(0，q)进行排序，获得小于或等于预设距离阈值的且排序靠前的多个参考距离；从而获得多个与参考距离对应的待处理图像。

通过图像检索模块410对图像数据库中的图像进行检索，可获得与查询图像关系相近的多个待处理图像。但可能会产生感知混淆，即检索到的多个待处理图像可能并不对应于地图中的同一区域，但因为它们具有相同的视觉线索，因此很可能被一起检索出来；感知混淆会导致对待查询图像的定位不准确，或导致获得的映射结果产生误差。进一步地，还需要使用视觉聚类模块420对多个待处理图像进行分类，以筛选并去除掉因感知混淆而获得的待处理图像，从而使获得的多个参考图像更有效的辅助待查询图像进行位姿的定位。

例如，视觉聚类模块420的工作方式可以采用如下方式实现：

其中，待处理图像包括：多个待匹配点信息，待匹配点信息是三维空间中的预设目标在待处理图像中的二维投影坐标信息。

通过依据每个待处理图像中的至少三个待匹配点信息和待查询图像中的至少三个预设匹配点信息，确定每个待处理图像与待查询图像之间是否存在连通分量，从而明确待处理图像与待查询图像之间存在连通分量，即待查询图像中的目标与待处理图像中的目标是否对应三维空间中的同一个预设目标，准确确定待处理图像与待查询图像之间的关系，并在确定待处理图像与待查询图像之间存在连通分量的情况下，确定待处理图像为与待查询图像的类别相匹配的图像，并将待处理图像标记为参考图像，以提升后续对待查询图像的处理准确性。

图5示出本申请实施例提供的使用视觉定位网络模型对待查询图的位姿进行预测的示意图。如图5所示，通过对待查询图像进行特征金字塔的构建，获得待查询图像的特征金字塔；分别对多个参考图像进行特征金字塔的构建，获得多个与参考图像对应的场景特征金字塔。

然后，将三维空间中的预设目标的位姿信息(R₀，t₀)、待查询图像的特征金字塔和多个场景特征金字塔都输入到CNN网络中进行多次循环迭代预测，获得多个预测结果(如，第一视觉定位网络模型L1和第一预测位姿信息(R₁，t₁)；第二视觉定位网络模型L2和第二预测位姿信息(R₂，t₂)；第三视觉定位网络模型L3和第三预测位姿信息(R₃，t₃)等)。

其中，R_i表示第i次预测的视觉定位网络模型对预设目标预测的平移自由度，t_i表示第i次预测的视觉定位网络模型对预设目标预测的旋转自由度。例如，采用向量的方式表示平移自由度，采用矩阵的方式表征旋转自由度，从而使位姿信息可以具体的量化处理。

如图5所示，通过设置残差权重模块对预测过程中的残差权重进行设置，然后，采用预测模块对待查询图像中的目标的位姿进行预测，进而使用特征残差处理模块对预测模块输出的结果进行处理，从而获得预测结果。

其中，视觉定位网络模型中对每个图像的处理均是基于三维模型中的坐标信息确定的位置信息。并且，通过对图像进行特征金字塔的构建，而非通过在CNN网络参数中编码特定的场景信息的方式获得图像特征，能够使最终获得的视觉定位网络模型可以适用于多个不同的应用场景，提升视觉定位网络模型的应用范围。

需要说明的是，在场景特征金字塔中，通过将多个参考图像中包括的参考场景进行提取，获得多个场景特征，然后以不同的比例系数，对多个场景特征分别进行基于几何和外观信息的分类，从而获得不同层次场景特征，进而基于多个层次的场景特征构建场景特征金字塔，其中，每层场景特征都可以由一组三维点坐标信息构成，同时在每层场景特征中都包括通过CNN网络提取的图像特征。

例如，分别对多个参考图像进行特征金字塔的构建，获得多个与参考图像对应的场景特征金字塔的方法可以包括：

通过使用CNN网络(或，深度残差网络(Deep Residual Network，DRN))作为特征提取器，从每个参考图像中提取包括的场景特征。其中，在DRN中，可通过膨胀来替换其内部的下采样层的子集，以提高DRN网络输出的场景特征的分辨率，从而提高图像分类性能。

进一步地，移除所有膨胀，并基于分辨率的不同级别，在每个分辨率对应的第一个残差块(ResBlock)中应用步长为预设步长阈值(如，预设步长阈值为2等)的下采样，获得不同分辨率的场景特征，其中，多个参考图像可使用相同的DRN网络的权重，以保证输出的场景特征的一致性。使用具有2*2内核的平均池化过滤器，降低各个场景特征对应的分辨率。

然后，通过将获得的多个场景特征，基于分辨率的不同级别，提取所有具备有效场景坐标的像素，并将这些像素与对应的特征向量连接起来，从而获得场景特征金字塔。

其中，有效场景坐标用于表征在三维空间中的预设目标在参考图像中的二维投影坐标信息是真实存在的坐标。

类似的，对待查询图像进行特征金字塔的构建，获得待查询图像的特征金字塔的方法可以包括：

通过使用CNN网络或DRN网络作为特征提取器，待查询图像中提取图像特征。由于该特征提取器与对多个参考图像进行特征提取的特征提取器相同，因此，图像特征与场景特征具有相同的特征维度。

在DRN中，通过膨胀来替换其内部的下采样层的子集，以提高DRN网络输出的场景特征的分辨率，从而提高图像分类性能。移除所有膨胀，并基于分辨率的不同级别，在每个分辨率对应的第一个残差块中应用步长为2的下采样，获得不同分辨率的图像特征；使用具有2*2内核的平均池化过滤器，降低各个图像特征对应的分辨率；然后，基于分辨率的不同级别，将获得的多个图像特征，提取所有具备有效图像坐标的像素，并将这些像素与对应的特征向量连接起来，从而获得待查询图像的特征金字塔。

例如，图5中的预测模块可以采用LM算法实现。其中，LM算法是一种非线性最小二乘算法，即用于定位多元函数(例如，多元函数可表示为几个非线性实值函数的平方和)的局部最小值。

例如，采用LM算法对输入的待查询图像中的目标的平移向量信息和/或旋转矩阵信息进行估计，获得目标位姿。例如，采用循环迭代的方式，从目标的初始位姿信息(R₀，t₀)进行估计。如，将LM算法中的阻尼因子设置为预设阈值，并通过梯度下降的方式，将LM算法融合到CNN网络的训练过程中，从而获得目标视觉定位网络模型。以使目标视觉定位网络模型能够适用于位姿或特征残差的分布，降低应用场景的语义特征的影响。

其中，针对初始位姿信息(R₀，t₀)能够体现基于世界坐标系中的X轴的前后移动自由度、Y轴的左右移动自由度、Z轴的上下移动自由度、纵摇自由度、横摇自由度和垂摇自由度中的至少两个维度的位姿参数信息，能够针对不同维度的特征进行分别学习，以便于对各个位姿参数信息对应的曲率进行调整，使目标视觉定位网络模型能够适用于多个不同的应用场景，实现对应用场景的泛化处理。

为了最大化收敛域，在采用LM算法对输入的待查询图像中的目标的平移向量信息和/或旋转矩阵信息进行估计时，可以依次优化待查询图像的特征金字塔中的每层图像特征。例如，从初始第一层开始优化，获得第一层的优化结果；然后在对第二层图像特征进行优化事，可使用第一层的优化结果对第二层图像特征进行初始化；以此类推，直至将特征金字塔中的每层图像特征都进行优化。

需要说明的是，上述对图像的预测过程，与目标视觉定位网络模型的训练过程相同，在此不再赘述。

需要明确的是，本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图6所示，计算设备600包括输入设备601、输入接口602、中央处理器603、存储器604、输出接口605、以及输出设备606。其中，输入接口602、中央处理器603、存储器604、以及输出接口605通过总线607相互连接，输入设备601和输出设备606分别通过输入接口602和输出接口605与总线607连接，进而与计算设备600的其他组件连接。

具体地，输入设备601接收来自外部的输入信息，并通过输入接口602将输入信息传送到中央处理器603；中央处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器604中，然后通过输出接口605将输出信息传送到输出设备606；输出设备606将输出信息输出到计算设备600的外部供用户使用。

在一个实施例中，图6所示的计算设备可以被实现为一种电子设备，该电子设备可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的位姿预测方法。

在一个实施例中，图6所示的计算设备可以被实现为一种位姿预测系统，该位姿预测系统可以包括：存储器，被配置为存储程序；处理器，被配置为运行存储器中存储的程序，以执行上述实施例描述的位姿预测方法。

以上所述，仅为本申请的示例性实施例而已，并非用于限定本申请的保护范围。一般来说，本申请的多种实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实现。例如，一些方面可以被实现在硬件中，而其它方面可以被实现在可以被控制器、微处理器或其它计算装置执行的固件或软件中，尽管本申请不限于此。

本申请的实施例可以通过移动装置的处理器执行计算机程序指令来实现，例如在处理器实体中，或者通过硬件，或者通过软件和硬件的组合。计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码。

本申请附图中的任何逻辑流程的框图可以表示程序步骤，或者可以表示相互连接的逻辑电路、模块和功能，或者可以表示程序步骤与逻辑电路、模块和功能的组合。计算机程序可以存储在存储器上。存储器可以具有任何适合于本地技术环境的类型并且可以使用任何适合的数据存储技术实现，例如但不限于只读存储器(ROM)、随机访问存储器(RAM)、光存储器装置和系统(数码多功能光碟DVD或CD光盘)等。计算机可读介质可以包括非瞬时性存储介质。处理器可以是任何适合于本地技术环境的类型，例如但不限于通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑器件(FGPA)以及基于多核处理器架构的处理器。

通过示范性和非限制性的示例，上文已提供了对本申请的示范实施例的详细描述。但结合附图和权利要求来考虑，对以上实施例的多种修改和调整对本领域技术人员来说是显而易见的，但不偏离本发明的范围。因此，本发明的恰当范围将根据权利要求确定。

Claims

1.一种位姿预测方法，其特征在于，所述方法包括：

确定与待查询图像的场景相似的多个参考图像；

确定所述待查询图像与多个所述参考图像之间的位姿差异信息；

将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息。

2.根据权利要求1所述的方法，其中，所述确定与待查询图像的场景相似的多个参考图像，包括：

依据所述待查询图像对图像数据库进行图像检索，获得多个与所述待查询图像在同一位置范围内的待处理图像；

依据预设视觉聚类算法对多个所述待处理图像进行分析，获得多个与所述待查询图像对应的位置信息相似的图像，作为所述参考图像。

3.根据权利要求2所述的方法，其特征在于，所述确定所述待查询图像与多个所述参考图像之间的位姿差异信息，包括：

以特征金字塔的方式，分别对所述待查询图像和多个所述参考图像进行特征提取，获得所述待查询图像的特征金字塔、以及多个与所述参考图像对应的场景特征金字塔；

将所述待查询图像的特征金字塔中的图像特征，分别与多个所述场景特征金字塔中的场景特征进行对齐，确定所述位姿差异信息。

4.根据权利要求3所述的方法，其特征在于，所述目标位姿包括：平移自由度和/或旋转自由度；其中，所述平移自由度包括：基于世界坐标系中的X轴的前后移动自由度、Y轴的左右移动自由度和Z轴的上下移动自由度中的至少一种；所述旋转自由度包括纵摇自由度、横摇自由度和垂摇自由度中的至少一种；

所述差异位姿信息包括：平移向量信息和/或旋转矩阵信息，所述平移向量信息用于表征所述平移自由度的信息，所述旋转矩阵信息为基于矩阵的方式表征所述旋转自由度的信息；

所述将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息，包括：

依据非线性最小二乘算法对所述平移向量信息和/或所述旋转矩阵信息进行估计，获得所述目标位姿。

5.根据权利要求3所述的方法，其特征在于，所述以特征金字塔的方式，分别对所述待查询图像和多个所述参考图像进行特征提取，获得所述待查询图像的特征金字塔、以及多个与所述参考图像对应的场景特征金字塔，包括：

将所述待查询图像输入至深度残差网络中进行特征提取，获得所述待查询图像的特征金字塔，其中，所述深度残差网络包括多个分辨率不同的特征提取模块，所述分辨率的数量与所述特征金字塔的层数相同；

将多个所述参考图像分别输入至所述深度残差网络中进行特征提取，获得多个所述场景特征金字塔，其中，所述场景特征金字塔包括室内场景特征金字塔和/或室外场景特征金字塔。

6.根据权利要求5所述的方法，其特征在于，所述将所述待查询图像输入至深度残差网络中进行特征提取，获得所述待查询图像的特征金字塔，包括：

采用预设数量的分辨率，分别对所述待查询图像进行特征提取，获得多个待处理特征，其中，每个所述待处理特征对应的分辨率不同；

依据所述预设数量的分辨率，对预设场景坐标图像进行缩放，获得多个与所述待处理特征对应的场景特征向量；

分别将每个所述待处理特征与其对应的场景特征向量进行向量连接，获得多个特征图像；

依据多个所述特征图像，确定所述待查询图像的特征金字塔。

7.根据权利要求2所述的方法，其特征在于，所述依据所述待查询图像对图像数据库进行图像检索，获得多个与所述待查询图像在同一位置范围内的待处理图像，包括：

依据预设图像提取算法，分别对所述待查询图像和数据库中的多个图像进行处理，获得与所述待查询图像对应的第一图像向量、以及多个与所述数据库中的图像对应的第二图像向量；

分别计算所述第一图像向量与多个所述第二图像向量之间的距离，获得多个图像距离；

依据预设距离阈值对多个所述图像距离进行筛选，获得多个参考距离、以及与所述参考距离对应的所述待处理图像；

其中，所述待处理图像对应的图像向量与所述第一图像向量之间的距离满足所述预设距离阈值的要求。

8.根据权利要求2所述的方法，其特征在于，所述待处理图像包括：多个待匹配点信息，所述待匹配点信息是三维空间中的预设目标在所述待处理图像中的二维投影坐标信息；

所述依据预设视觉聚类算法对多个所述待处理图像进行分析，获得多个与所述待查询图像对应的位置信息相似的图像，作为所述参考图像，包括：

获取所述预设目标在所述待查询图像中的至少三个预设匹配点信息；

分别获取每个所述待处理图像中的至少三个待匹配点信息；

依据每个所述待处理图像中的至少三个待匹配点信息和所述待查询图像中的至少三个预设匹配点信息，确定每个所述待处理图像与所述待查询图像之间是否存在连通分量；

在确定所述待处理图像与所述待查询图像之间存在连通分量的情况下，确定所述待处理图像为与所述待查询图像的类别相匹配的图像，并将所述待处理图像标记为所述参考图像。

9.根据权利要求1所述的方法，其特征在于，所述确定与待查询图像的场景相似的多个参考图像之前，还包括：

基于预设的训练集对卷积神经网络进行训练，获得所述视觉定位网络模型，其中，所述训练集包括多种不同应用场景的图像特征。

10.一种位姿预测装置，其特征在于，其包括：

参考图像确定模块，被配置为确定与待查询图像的场景相似的多个参考图像；

位姿差异信息确定模块，被配置为确定所述待查询图像与多个所述参考图像之间的位姿差异信息；

预测模块，被配置为将所述位姿差异信息输入至视觉定位网络中进行预测，确定所述待查询图像对应的目标位姿信息。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的位姿预测方法。

12.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的位姿预测方法。