CN113240656B

CN113240656B - 视觉定位方法及相关装置、设备

Info

Publication number: CN113240656B
Application number: CN202110564566.7A
Authority: CN
Inventors: 章国锋; 鲍虎军; 黄昭阳; 周晗; 周晓巍; 李鸿升
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2023-04-07
Anticipated expiration: 2041-05-24
Also published as: TW202247108A; WO2022247126A1; CN113240656A

Abstract

本申请公开了一种视觉定位方法及相关装置、设备，其中，视觉定位方法包括：获取对预设场景拍摄到的待定位图像；对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。上述方案，能够提高视觉定位的准确性和鲁棒性。

Description

视觉定位方法及相关装置、设备

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种视觉定位方法及相关装置、设备。

背景技术

随着电子信息技术的发展，增强现实、混合现实等应用等到了越来越广泛的应用。诸如此类应用通常要求较优的视觉定位准确性和鲁棒性，以达到更好的视觉效果，增强用户体验。

目前，通常采用基于场景坐标回归方式或者基于特征的视觉定位框架，来构建密集的2D-3D点对，以基于稠密点对恢复相机位姿。然而，这些场景坐标中通常包含大量离群点，特别是在存在移动物体、照明变化等动态环境下，离群点比例也会随之提高，从而无法稳定且可靠地进行视觉定位。有鉴于此，如何提高视觉定位的准确性和鲁棒性成为亟待解决的问题。

发明内容

本申请提供一种视觉定位方法及相关装置、设备。

本申请第一方面提供了一种视觉定位方法，包括：获取对预设场景拍摄到的待定位图像；对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

因此，通过获取对预设场景拍摄到的待定位图像，并对待定位图像进行地标检测，得到待定位图像中目标地标点，且目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，若干地标点分别位于场景地图各个子区域的预设位置处，在此基础上，再基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数，由于若干地标点分别位于场景地图各个子区域的预设位置处，故地标点并非杂乱无章，其具有分布均匀的特性，而在待定位图像中所检测到的目标地标点为若干地标点中的至少一个，且后续视觉定位过程中，仅仅依赖于目标地标点在待定位图像中的二维位置和在场景地图中的三维位置所组成的点对，而不再依赖于其他与地标点无关的点对，从而能够在减少点对数量的同时提高点对质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

其中，若干子区域是对场景地图的表面进行划分得到的；和/或，预设位置包括子区域的中心位置；和/或，各个子区域之间的面积差异低于第一阈值。

因此，若干子区域是对场景地图的表面进行划分得到的，由于待定位图像通常是对预设场景表面的成像，故能够有利于提高在待定位图像中所检测的目标地标点的准确性；而将预设位置设置为包括子区域的中心位置，能够有利于进一步提高地标点分布均匀的特性，有利于提升点对质量；此外，将各个子区域之间的面积差异设置为低于第一阈值，能够有利于进一步提高地标点分布均匀的特性，有利于提升点对质量。

其中，对待定位图像进行地标检测，得到待定位图像中目标地标点，包括：利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像；对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点；其中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。

因此，通过利用地标检测模型处理待定位图像，得到第一地标预测图像和第一方向预测图像，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置，在此基础上，再对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点，由于第一地标预测图像包括各个像素点所对应的地标点，而第一方向预测图像包括各个像素点指向地标投影的方向信息，故能够大大降低动态环境影响，提高定位鲁棒性。

其中，对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点，包括：获取具有相同预测地标属性的像素点所构成的候选区域；统计候选区域中像素点的第一方向属性的一致性情况；在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。

因此，通过获取具有相同预测地标属性的像素点所构成的候选区域，并统计候选区域中像素点的第一方向属性的一致性情况，在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息，即在基于候选区域中像素点的预测地标属性确定目标地标点之前，先对候选区域中像素点的第一方向属性的一致性情况进行检测，从而能够有利于确保候选区域中像素点的第一方向属性的一致性，提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

其中，在统计候选区域中像素点的第一方向属性的一致性情况之前，方法还包括：在候选区域的区域面积小于第二阈值的情况下，过滤候选区域。

因此，在统计候选区域中像素点的第一方向属性的一致性情况之前，进一步先检测候选区域的区域面积，并在区域面积小于第二阈值的情况下，过滤该候选区域，通过预先过滤区域面积过小的候选区域，能够有利于预先滤除不稳定区域，有利于进一步提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

其中，第一方向信息包括第一方向矢量；统计候选区域中像素点的第一方向属性的一致性情况，包括：获取候选区域中像素点之间的第一方向矢量的交点；统计交点的外点率，得到一致性情况。

因此，第一方向信息包括第一方向矢量，通过获取候选区域中像素点之间的第一方向矢量的交点，并统计交点的外点率得到一致性情况，即一致性情况能够有效反映候选区域中像素点的第一方向属性的整体预测质量，有利于提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

其中，地标检测模型包括特征提取网络、地标预测图像和方向预测网络；利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像，包括：利用特征提取网络对待定位图像进行特征提取，得到特征图像；利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像；以及，利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。

因此，地标检测模型包括特征提取网络、地标预测网络和方向预测网络，从而利用特征提取网络对待定位图像进行特征提取，得到特征图像，并利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，以及利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像，即地标预测网络和方向预测网络分别负责预测地标和方向，且地标预测网络和方向预测网络共享特征提取所提取得到的特征图像，故能够有利于提高预测效率。

其中，利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，包括：利用地标预测网络对特征图像进行解码，得到第一特征预测图像；其中，第一特征预测图像包括待定位图像中像素点的第一特征表示；基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性；其中，地标特征表示是在地标检测模型训练收敛之后得到的；基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。

因此，通过利用地标预测网络对特征图像进行解码，得到第一特征预测图像，且第一特征预测图像包括待定位图像中像素点的第一特征表示，在此基础上，基于像素点的第一特征表示分别和各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性，且地标特征表示是地标检测模型训练收敛之后得到的，再基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像，由于地标检测模型训练收敛之后所得到的地标特征表示能够准确表征地标点特征，故通过预测像素点的第一特征表示，并基于第一特征表示分别和各个地标特征表示之间的相似度，得到像素点的预测地标属性，能够有利于提高预测地标属性的准确性。

其中，目标地标点是利用地标检测模型检测得到的，地标检测模型的训练步骤包括：分别确定子区域和地标点在样本图像的投影区域和投影位置；基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性；其中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息；分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像；其中，样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；利用样本图像、样本地标图像和样本方向图像训练地标检测模型。

因此，目标地标点是利用地标检测模型检测得到的，通过先分别确定子区域和地标点在样本图像的投影区域和投影位置，之后基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方属性，且样本地标属性用于标识样本像素点对应的样本地标点，样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息，在此基础上，再分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像，且样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性，从而可以精确构建训练样本，之后再利用样本图像、样本地标图像和样本方向图像训练地标检测模型，进而能够有利于提高地标检测模型的检测性能。

其中，利用样本图像、样本地标图像和样本方向图像训练地标检测模型，包括：利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像；其中，第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，且样本地标投影表示样本地标点在样本图像中的投影位置；基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失；基于第一损失、第二损失，优化地标检测模型的网络参数。

因此，利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像，且第二特征图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，样本地标投影表示样本地标点在样本图像中的投影位置，在此基础上，再基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失，从而基于第一损失、第二损失，优化地标检测模型的网络，进而能够通过预先构建的样本地标图像和样本方向图像监督地标检测模型的训练，有利于提升地标检测模型的检测性能。

其中，基于样本地标图像和第二特征预测图像，得到第一损失，包括：获取具有相同样本地标属性的样本像素点所构成的图像区域，并获取各个地标点的待优化特征表示；对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示，并选择一个参考特征表示作为样本像素点的负例特征表示，以及基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失；其中，参考特征表示包括除正例特征表示之外的待优化特征表示；基于样本图像中样本像素点的子损失，得到第一损失。

因此，获取具有相同样本地标属性的样本像素点所构成的图像区域，并获取各个地标点待优化特征表示，从而对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示，并选择一个参考特征表示作为样本像素点的负例特征表示，且参考特征表示包括除正例特征表示之外的待优化特征表示，进而基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失，以基于样本图像中样本像素点的子损失，得到第一损失，故此，一方面通过最小化第一损失，能够使得第二特征表示尽可能地趋近其正例特征表示并尽可能地疏离其负例特征表示，提高地标预测网络的预测性能，另一方面通过选择一个参考特征表示作为负例特征表示，避免计算第二特征表示与所有负样本类的损失，能够大大减少计算量和硬件消耗。

其中，选择一个参考特征表示作为样本像素点的负例特征表示，包括：统计图像区域中样本像素点的第二特征表示的平均特征表示；基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示；在候选特征表示中均匀采样，得到样本像素点的负例特征表示。

因此，统计图像区域中样本像素点的第二特表示的平均特征表示，并基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示，从而在候选特征表示中均匀采样，得到样本像素点的负例特征表示，由于平均特征表示能够表征图像区域整体的特征表示，故通过平均特征表示来选择图像区域中像素点可选的参考特征表示，之后在参考特征表示中均匀采样即可得到样本像素点的负例特征表示，一方面能够有利于提升参考特征表示的参考意义，另一方面能够有利于降低图像区域中每个样本像素点选择负例特征表示的复杂度。

其中，基于第一损失、第二损失，优化地标检测模型的网络参数，包括：基于第一损失和第二损失，优化各个地标点的待优化特征表示和地标检测模型的网络参数。

因此，基于第一损失和第二损失，优化各个地标点的待优化特征和地标检测模型的网络参数，故能够在训练过程中同时优化地标检测模型的网络参数和各个地标点的待优化特征表示，有利于提升地标检测的准确性和鲁棒性，从而能够有利于提高点对质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

本申请第二方面提供了一种视觉定位装置，包括：信息获取模块、地标检测模块和位姿确定模块，信息获取模块用于获取对预设场景拍摄到的待定位图像；地标检测模块用于对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；位姿确定模块用于基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的视觉定位方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的视觉定位方法。

上述方案，通过获取对预设场景拍摄到的待定位图像，并对待定位图像进行地标检测，得到待定位图像中目标地标点，且目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，若干地标点分别位于场景地图各个子区域的预设位置处，在此基础上，再基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数，由于若干地标点分别位于场景地图各个子区域的预设位置处，故地标点并非杂乱无章，其具有分布均匀的特性，而在待定位图像中所检测到的目标地标点为若干地标点中的至少一个，且后续视觉定位过程中，仅仅依赖于目标地标点在待定位图像中的二维位置和在场景地图中的三维位置所组成的点对，而不再依赖于其他与地标点无关的点对，从而能够在减少点对数量的同时提高点对质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

附图说明

图1是本申请视觉定位方法一实施例的流程示意图；

图2是场景地图一实施例的示意图；

图3是利用地标检测模型检测目标地标点一实施例的示意图；

图4是定位目标地标点一实施例的示意图；

图5是图1中步骤S12一实施例的流程示意图；

图6是利用SIFT特征进行视觉定位一实施例的示意图；

图7是利用地标点进行视觉定位一实施例的示意图；

图8是第一地标预测图像一实施例的示意图；

图9是第一方向预测图像一实施例的示意图；

图10是训练地标检测模型一实施例的流程示意图；

图11是计算第一损失一实施例的示意图；

图12是本申请视觉定位装置一实施例的框架示意图；

图13是本申请电子设备一实施例的框架示意图；

图14是本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请视觉定位方法一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S11：获取对预设场景拍摄到的待定位图像。

在一个实施场景中，预设场景可以根据实际应用需要进行设置。例如，在需要在景区实现视觉定位的情况下，预设场景可以包含景区；或者，在需要在商业街实现视觉定位的情况下，预设场景可以包括商业街；或者，在需要在工业园区实现视觉定位的情况下，预设场景可以包括工业园区。其他情况可以以此类推，在此不再一一举例。

在一个实施场景中，待定位图像可以是以任意视角拍摄预设场景而得到的。例如，待定位图像可以仰拍预设场景而得到的；或者，待定位图像可以是俯拍预设场景而得到的；或者，待定位图像可以是平拍预设场景而得到的。

在另一个实施场景中，为了提高视觉定位的准确性，在拍摄预设场景时相机光轴与水平面之间夹角应低于预设角度阈值，即待定位图像中应尽可能多地包含预设场景，而尽可能少地包含地面、天空等无效区域。

步骤S12：对待定位图像进行地标检测，得到待定位图像中目标地标点。

本公开实施例中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处。

在一个实施场景中，可以预先采集预设场景的拍摄视频，并利用三维重建算法对拍摄视频进行处理，得到预设场景的场景地图。三维重建算法可以包括但不限于：MultiView stereo、Kinect fusion等，在此不做限定。三维重建算法的具体过程，可以参阅其具体技术细节，在此不再赘述。

在一个实施场景中，若干子区域是对场景地图的表面进行划分得到的。具体地，可以通过三维过分割算法(如，supervoxel)将场景地图的表面划分为若干子区域。请结合参阅图2，图2是场景地图一实施例的示意图。如图2所示，不同灰度区域表示场景地图表面的不同子区域。

在一个实施场景中，预设位置可以包括子区域的中心位置。请继续结合参阅图2，如图2所示，子区域中黑点即表示在该子区域所确定的地标点。

在一个实施场景中，各个子区域之间的面积差异可以低于第一阈值，第一区域可以根据实际情况进行设置，如可以设置为：10像素点、15像素点、20像素点等等，在此不做限定。也就是说，各个子区域的具有相似尺寸。

上述方式，通过将场景地图表面均匀划分为若干子区域，并在若干子区域的中心位置选择得到地标点，故地标点均匀分布于场景地图表面，从而无论以何种视角对预设场景拍摄待定位图像，待定位图像中均含有足够的地标点，进而能够有利于提高视觉定位的鲁棒性。

在一个实施场景中，为了提高地标检测的效率和准确性，可以预先训练一个地标检测模型，从而可以利用地标检测模型对待定位图像进行检测分析，得到待定位图像中的目标地标点。为了便于描述，预设场景的若干地标点可以记为{q₁,q₂,L,q_n}，目标地标点可以为上述若干地标点{q₁,q₂,L,q_n}中的至少一个。

在另一个实施场景中，为了进一步提升地标检测的效率和准确性，利用地标检测模型处理待定位图像之后，可以得到第一地标预测图像和第一方向预测图像，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。在此基础上，再对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点。具体地，地标检测模型的训练过程，可以查阅下述相关公开实施例，在此暂不赘述。区别于前述方式，由于第一地标预测图像包括各个像素点所对应的地标点，而第一方向预测图像包括各个像素点指向地标投影的方向信息，故能够大大降低动态环境影响，提高定位鲁棒性。

在一个具体的实施场景中，请结合参阅图3，图3是利用地标检测模型检测目标地标点一实施例的示意图。如图3所示，地标检测模型可以包括特征提取网络、地标预测网络和方向预测网络，则可以利用特征提取网络对待定位图像进行特征提取，得到特征图像，并利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，以及利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像，，即地标预测网络和方向预测网络分别负责预测地标和方向，且地标预测网络和方向预测网络共享特征提取所提取得到的特征图像，故能够有利于提高预测效率。

在另一个具体的实施场景中，请继续结合参阅图3，为了便于描述，具有相同预测地标属性的像素点以相同灰度显示，也就是说，图3所示的第一地标预测图像中，以相同灰度显示的像素点其对应于相同地标点(如，前述若干地标点{q₁,q₂,L,q_n}中某一地标点)。进一步地，为了便于描述，在第一方向预测图像中可以通过不同灰度来表示像素点的方向预测属性。如图3中示例所示，0度方向、45度方向、90度方向、135度方向、180度方向、225度方向、270度方向以及315度方向分别以不同灰度表示。需要说明的是，图3所示的第一地标预测图像和第一方向预测图像仅仅是实际应用过程一种可能的表现形式，通过不同灰度来表示预测地标属性和预测方向属性，能够实现地标检测模型的预测可视化。在实际应用过程中，也可以直接以数字来表示地标预测网络和方向预测网络的输出结果，在此不做限定。

在又一个具体的实施场景中，请结合参阅图4，图4是定位目标地标点一实施例的示意图。如图4所示，图中空心圆表示在待定位图像中定位得到的目标地标点，右下角矩形框区域是对左上角矩形框区域的放大示意图，如右下角矩形框区域所示，相同灰度的像素点表示具有相同预测地标属性，方向箭头表示像素点的预测方向属性，因此可以基于该相同的预测地标属性，确定该预测地标属性所标识的目标地标点(如，{q₁,q₂,L,q_n}中某一地标点)，并基于这些具有相同预测地标属性的像素点的预测方向属性，确定该目标地标点在待定位图像中的位置信息(如，图中实心圆所示位置)，例如，可以通过确定图4所示方向箭头的交点，确定目标地标点在待定位图像中的位置信息。具体过程可以参阅下述公开实施例中相关描述，在此暂不赘述。

在又一个具体的实施场景中，第一地标预测图像和第一方向预测图像两者可以与待定位图像尺寸相同；或者，第一地标预测图像和第一方向预测图像至少一者也可以与待定位图像尺寸不同。

在又一个具体的实施场景中，具体可以将DeepLabV3作为地标检测模型的骨干网络，其能够通过空间金字塔池化来显著扩大感受野。

步骤S13：基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

需要说明的是，目标地标点在待定位图像中的第一位置信息可以是二维坐标，目标地标点在场景地图中的第二位置信息可以是三维坐标。此外，如前所述，地标点是从预设场景的场景地图中选择得到的，且场景地图是对预设场景进行三维建模得到的，故地标点在场景地图中的第二位置信息可以直接基于场景地图确定得到。在此基础上，可以基于目标地标点的标号以及场景地图中若干地标点的标号，确定若干地标点中标号与目标地标点对应的地标点，并将对应的地标点的第二位置信息，作为目标地标点的第二位置信息。请结合参阅图4，在检测得到若干目标地标点(即图中空心圆)的基础上，可以基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，可以建立若干2D-3D点对，基于若干2D-3D点对，可以恢复得到待定位图像的位姿参数(如，6自由度参数)。具体地，可以采用基于RANSAC(Random Sample Consensus，即随机抽样一致)PnP算法求取位姿参数。具体算法步骤可以参阅RANSAC PnP的技术细节，在此不再赘述。

请参阅图5，图5是图1中步骤S12一实施例的流程示意图。如图5所示，具体可以包括如下步骤：

步骤S51：利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像。

本公开实施例中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。此外，第一地标预测图像和第一方向预测图像两者可以与待定位图像尺寸相同，或者，第一地标预测图像和第一方向预测图像至少一者可以与待定位图像尺寸不同，具体可以参阅前述公开实施例中相关描述，在此不再赘述。

在一个实施场景中，如前述公开实施例所述，若干地标点可以记为{q₁,q₂,L,q_n}，则预测地标属性可以包括像素点对应的地标点的标号，即在预测地标属性包括i的情况下，像素点对应的地标点为q_i。

在一个实施场景中，第一方向信息具体可以包括第一方向矢量，该第一方向矢量指向地标投影。需要说明的是，在地标检测模型的检测性能极佳的情况下，地标检测模型所预测出来的第一方向矢量可能准确地指向地标投影，在实际应用过程中，地标检测模型的检测性能受限于各种因素可能无法达到极佳，在此情况下，地标检测模型所预测出来的第一方向矢量可能并非准确指向地标投影，如第一方向矢量所指向的位置与地标投影之间可以存在一定的角度偏差(如，1度、2度、3度等)，由于待定位图像中各个像素点均能够预测得到一个第一方向矢量，故通过多个像素点的第一方向矢量，能够修正单个第一方向矢量可能存在的方向偏差，具体过程可以参阅下述相关描述，在此暂不赘述。

在一个实施场景中，如前述公开实施例所述，地标检测模型可以包括特征提取网络、地标预测网络和方向预测网络，则可以利用特征提取网络对待定位图像进行特征提取，得到特征图像，并利用地标预测网络对特征图像进行地标预测，得到第一地标预测图像，以及利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。也就是说，地标预测网络和方向预测网络可以共享特征提取网络所提取得到的特征图像，具体可以参阅前述公开实施例相关描述，在此不再赘述。

在一个具体的实施场景中，如前所述，第一方向信息可以包括第一方向矢量，该第一方向矢量具体可以为一个模值为1的单位矢量。

在另一个具体的实施场景中，利用地标预测网络可以对特征图像进行解码，得到第一特征预测图像，且第一特征预测图像包括待定位图像中像素点的第一特征表示，在此基础上，可以基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性，且地标特征表示是在地标检测模型训练收敛之后得到的，并基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。具体地，在地标检测模型的训练过程中，可以维护并更新一个地标特征表示集合P，该地标特征表示集合P包含各个地标点(如，前述{q₁,q₂,L,q_n})的待优化特征表示，在地标检测模型训练收敛之后，即可学习到预设场景各个地标点的特征信息，这些特征信息即反映于各个地标点收敛之后的待优化特征表示中。为了便于区分，可以将训练收敛的待优化特征表示称之为地标特征表示。地标检测模型的训练过程，具体可以参阅下述公开实施例，在此暂不赘述。

此外，对于每一像素点，可以计算像素点的第一特征表示分别与各个地标点(如，前述{q₁,q₂,L,q_n})的地标特征表示之间的相似度，并选择最高相似度对应的地标点，作为像素点对应的地标点，从而可以采用该地标点标识像素点，得到像素点的预测地标属性。例如，可以计算像素点的第一特征表示分别与各个地标点的地标特征表示之间的内积，并选取最小内积对应的地标点在预设场景的若干地标点中的标号(如，1、2、……、n等)来标识该地标点，以得到预测地标属性。在得到待定位图像中每个像素点的预测地标属性之后，即可得到第一地标预测图像。

需要说明的是，若像素点的第一特征表示与各个地标点的地标特征表示之间的相似度均较低(如，均低于一个相似度阈值)，则可以认为该像素点为与预设场景无关的无效像素点(如，天空、地面等)，在此情况下，可以采用一个特殊标记(如，0)来进行标识。

步骤S52：对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点。

在一个实施场景中，可以获取具有相同预测地标属性的像素点所构成的候选区域，即可以通过像素点的预测地标属性，将对应于相同地标点的像素点所构成的图像区域，作为一个候选区域。在此基础上，可以统计候选区域中像素点的第一方向属性的一致性情况，也就是说，对于每一候选区域，可以统计该候选区域中像素点的第一方向属性的一致性情况，从而可以得到各个候选区域的一致性情况。故此，可以在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。上述方式，在基于候选区域中像素点的预测地标属性确定目标地标点之前，先对候选区域中像素点的第一方向属性的一致性情况进行检测，从而能够有利于确保候选区域中像素点的第一方向属性的一致性，提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在一个具体的实施场景中，为了进一步提升视觉定位的准确性和鲁棒性，在统计候选区域中像素点的第一方向属性的一致性情况之前，还可以先检测候选区域的区域面积是否小于第二阈值，若候选区域的区域面积小于第二阈值，则可以过滤该候选区域。上述方式，能够有利于预先滤除不稳定区域(如，草丛、树木等随自然条件而极易发生形态变化的区域)，有利于进一步提高后续所构建的点对的质量，进而能够有利于提高视觉定位的准确性和鲁棒性。

在另一个具体的实施场景中，如前所述，第一方向信息具体可以包括第一方向矢量，则对于每一候选区域，可以先获取该候选区域中像素点之间的第一方向矢量的交点，再统计交点的外点率，得到该候选区域的一致性情况。在此情况下，预设条件可以相应设置为外点率低于外点率阈值，即如前所述，地标检测模型所预测得到的第一方向矢量可能存在方向偏差，在此情况下，候选区域中各个像素点的第一方向矢量可能并不会准确相交于一点(即地标投影)，则可以预先设置一个外点率阈值，并利用基于直线求交模型的RANSAC算法(即RANSAC with a vote intersection model，具体可以参阅其相关技术细节，在此不再赘述)，计算外点率，若候选区域的外点率低于外点率阈值，则可以认为地标检测模型针对该候选区域所预测的方向一致性较好，反之，如候选区域的外点率不低于外点率阈值，则可以认为地标检测模型针对该候选区域的学习效果欠佳或者该候选区域本身存在较大噪声，为了防止后续影响视觉定位的准确性和鲁棒性，可以直接过滤该候选区域。

在又一个具体的实施场景中，以候选区域对应于地标点j为例，地标点j在待定位图像中的初始位置信息

可以由前述基于直线求交模型的RANSAC算法计算得到，这些初始位置信息可以通过类似于EM迭代算法进一步进行优化，以得到地标点j在待定位图像中的第一位置信息，具体优化过程，可以参阅EM迭代算法的技术细节，在此不再赘述。需要说明的是，如前所述，在迭代优化过程中，若候选区域的的一致性情况欠佳，则可以直接舍弃该候选区域。

请结合参阅图6、图7、图8和图9，图6是利用SIFT(Scale-Invariant FeatureTransform，尺度不变特征变换)特征进行视觉定位一实施例的示意图，图7是利用地标点进行视觉定位一实施例的示意图，图8是第一地标预测图像一实施例的示意图，图9是第一方向预测图像一实施例的示意图。基于图8所示的第一地标预测图像，可以统计到图7右侧箭头在图8所指候选区域的区域面积过小，故可以过滤该不稳定的候选区域(从图7可以看出该候选区域对应于树木)，并基于图9所示的第一方向预测图像，可以统计到图7左侧箭头在图9所指候选区域的一致性情况欠佳，故可以过滤该候选区域。在此基础上，可以基于过滤之后剩余的候选区域，得到目标地标点(如图7中X标记所示)。此外，关于图8所示的第一地标预测图像中不同灰度像素点的含义和图9所示的第一方向预测图像中不同灰度像素点的含义，可以参阅前述相关描述，在此不再赘述。与之不同的是，如图6所示，利用SIFT特征进行视觉定位，可以得到数量庞大的特征点(如图6中空心圆所示)，且这些特征点中存在诸如对应于树木等不稳定区域的干扰点，从而一方面由于特征点数量过于庞大，导致后续视觉定位计算量陡增，另一方面由于特征点中极易存在干扰点，影像后续视觉定位的准确性和鲁棒性。

上述方案，通过利用地标检测模型处理待定位图像，得到第一地标预测图像和第一方向预测图像，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置，在此基础上，再对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点，由于第一地标预测图像包括各个像素点所对应的地标点，而第一方向预测图像包括各个像素点指向地标投影的方向信息，故能够大大降低动态环境影响，提高定位鲁棒性。

请参阅图10，图10是训练地标检测模型一实施例的流程示意图。

具体而言，可以包括如下步骤：

步骤S101：分别确定子区域和地标点在样本图像的投影区域和投影位置。

本公开实施例中，子区域和地标点的含义可以参阅前述公开实施例中相关描述，在此不再赘述。

在一个实施场景中，样本图像是以样本位姿C对预设场景进行拍摄得到的。对于场景地图各个子区域而言，可以通过前述样本位姿C以及相机内参K投影到样本图像，以得到子区域在样本图像中的投影区域；类似地，对于各个地标点而言，也可以利用前述样本位姿C以及相机内参K投影到样本图像，以得到地标点在样本图像中的投影位置。以地标点投影为例，对于若干地标点{q₁,q₂,L,q_n}中的地标点q_j而言，可以通过下式得到其在样本图像中的投影位置l_j：

l_j＝f(q_j,K,C)……(1)

上述公式(1)中，f表示投影函数，具体可以参阅世界坐标系、相机坐标系、图像坐标系以及像素坐标系之间的转换过程，在此不再赘述。

步骤S102：基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性。

本公开实施例中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息。

对于样本地标属性，为了便于描述，以样本图像中像素点i为例，其在样本图像中位置坐标可以记为p_i＝(u_i,v_i)，像素点i被投影区域j覆盖，投影区域j是场景地图中子区域j在样本图像中的投影区域，且子区域j中包含地标点q_j，则像素点i的样本地标属性标识该地标点q_j，如像素点i的样本地标属性可以包括地标点q_j在若干地标点{q₁,q₂,L,q_n}中的地标点标签j。其他情况可以以此类推，在此不再一一举例。此外，若样本图像中某一像素点并未被投影区域覆盖，则可以认为该像素点对应于天空或某些远距离物体，在此情况下，该像素点的样本地标属性采用特殊标记来进行标识，如可以采用与若干地标点{q₁,q₂,L,q_n}的地标点标签无关的特殊标记(如，0)来进行标识，以此可以表示该像素点对于视觉定位并无作用。

对于样本方向属性，其所包含的样本方向信息具体可以为一个指向样本地标点的投影位置的样本方向矢量。此外，该样本方向矢量具体可以为一个单位矢量。为了便于描述，仍以样本图像中像素点i为例，如前所述，像素点i对应的样本地标点为地标点q_j，且地标点q_j在样本图像中投影位置可以通过上述公式(1)计算得到(即l_j)，则上述单位矢量d_i可以表示为：

d_i＝(l_j-p_i)/||l_j-p_i||₂……(2)

步骤S103：分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像。

在一个实施场景中，样本地标图像和样本方向图像两者可以与样本图像尺寸相同，即样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性。也就是说，样本地标图像中第i行第j列第一像素点标注有样本图像中第i行第j列样本像素点的样本地标属性，而样本方向图像中第i行第j列第二像素点标注有样本图像中第i行第j列样本像素点的样本方向属性。此外，在样本地标属性包括地标点标签的情况下，样本地标图像可以记为

即样本地标图像S的分辨率为H*W，且其中每一像素值均为整数；类似地，在样本方向属性以样本方向矢量表示的情况下，样本方向图像可以记为

即样本方向图像d的分辨率为H*W，且通道数为2，且通道图像中每一像素值均为实数，其中一个通道图像中像素值表示样本方向矢量的一个元素，另一个通道图像中像素值表示样本方向矢量的另一个元素。

步骤S104：利用样本图像、样本地标图像和样本方向图像训练地标检测模型。

具体地，可以利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像，且第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，样本地标投影表示样本地标点在样本图像中的投影位置。在此基础上，可以基于样本地标图像和第二特征预测图像，得到第一损失，并利用样本方向图像和第二方向预测图像之间的差异，得到第二损失，以基于第一损失和第二损失，优化地标检测模型的网络参数。故此，通过预先构建的样本地标图像和样本方向图像监督地标检测模型的训练，有利于提升地标检测模型的检测性能。

在一个实施场景中，与第一方向信息类似地，第二方向信息具体可以包括第二方向矢量，该第二方向矢量指向样本地标投影。需要说明的是，在地标检测模型的检测性能极佳的情况下，地标检测模型所预测出来的第二方向矢量可能准确地指向样本地标投影，而在训练过程中，地标检测模型的性能是逐渐趋优的，且受限于各种因素，地标检测模型的检测性能也可能无法达到理想状态(即100％的准确率)，在此情况下，地标检测模型所预测出来的第二方向矢量可能并非准确指向样本地标投影，如第二方向矢量所指向的位置与样本地标投影之间可以存在一定的角度偏差(如，1度、2度、3度等)。

在一个实施场景中，如前所述，可以在地标检测模型的训练过程中，可以维护并更新一个地标特征表示集合P，该地标特征表示集合P包含各个地标点(如，前述{q₁,q₂,L,q_n})的待优化特征表示。需要说明的是，在首次训练时，该地标特征表示集合P中各个地标点的待优化特征表示可以是通过随机初始化得到的。此外，为了便于描述，第二特征预测图像可以记为E，则样本图像中像素点i的第二特征表示可以记为E_i。为了降低计算第一损失的计算负荷以及资源消耗，可以获取具有相同样本地标属性的样本像素点所构成的图像区域，则对于图像区域中样本像素点i，可以将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点i的正例特征表示P_i+，并选择一个参考特征表示作为样本像素点i的负例特征表示P_i-，且参考特征表示包括除正例特征表示之外的待优化特征表示，也就是说，可以从地标特征表示集合P中选择处正例特征表示之外的待优化特征表示作为参考特征表示。在此基础上，可以基于样本像素点i的第二特征表示E_i和正例特征表示P_i+之间的第一相似度以及第二特征表示E_i和负例特征表示P_i-之间的第二相似度，得到子损失，并基于样本图像中样本像素点的子损失，得到第一损失。例如，可以对样本图像中各个像素点的子损失进行求和，得到第一损失。上述方式，一方面通过最小化第一损失，能够使得第二特征表示尽可能地趋近其正例特征表示并尽可能地疏离其负例特征表示，提高地标预测网络的预测性能，另一方面通过选择一个参考特征表示作为负例特征表示，避免计算第二特征表示与所有负样本类的损失，能够大大减少计算量和硬件消耗。

在一个具体的实施场景中，可以基于三元组损失函数处理上述第一相似度和第二相似度，以得到子损失，并对样本图像中各个样本像素点的子损失进行求和，得到第一损失

上述公式(3)中，m表示三元组损失的度量距离，sim表示余弦相似度函数，具体地，

在另一个具体的实施场景中，在计算上述第一相似度和第二相似度之前，可以先对各个样本像素点的第二特征表示通过L2进行归一化，在此基础上，可以计算归一化后的第二特征表示与正例特征表示之间的第一相似度以及归一化后的第二特征表示与负例特征表示之间的第二相似度。

在又一个具体的实施场景中，请结合参阅图11，图11是计算第一损失一实施例的示意图。如图11中虚线划分所示，样本图像包含4块分别具有相同样本地标属性的样本像素点所构成的图像区域，以右下角图像区域为例，该图像区域中样本像素点所对应的样本地标点均为地标点i+，则可以统计该图像区域中样本像素点的第二特征表示的平均特征表示，具体可以将该图像区域中样本像素点的第二特征表示取平均值，得到平均特征表示M_i+，之后可以基于平均特征表示M_i+分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为该图像区域的候选特征表示。例如，可以选择相似度按照从高到低排序位于前预设序位(如，前k位)的参考特征表示，作为该图像区域的候选特征表示(如图11中曲线箭头所指的三个待优化特征表示)。在此基础上，在获取该图像区域中各个样本像素点的负例特征表示时，可以在候选特征表示中均匀采样，得到样本像素点的负例特征表示。即由于相同图像区域中样本像素点在空间上是相互接近的，且应具有相似的特征表示，故也可以共享相似的负例特征表示，因此对于各个图像区域，仅需分别挖掘具有代表性的负例特征表示即可，从而图像区域中各个样本像素点仅需从这些具有代表性的负例特征表示中进行采样即可。例如，对于该图像区域中样本像素点1、样本像素点2、样本像素点3和样本像素点4，可以分别从前述三个待优化特征表示中均匀采样，得到对应的负例特征表示，如可以分别将加粗箭头所指的待优化特征表示作为各自的负例特征表示。对于其他图像区域，可以以此类推，在此不再一一举例。上述方式，一方面能够有利于提升参考特征表示的参考意义，另一方面能够有利于降低图像区域中每个样本像素点选择负例特征表示的复杂度。

在一个实施场景中，如前所述，第二方向属性包括指向样本地标投影的第二方向信息，如第二方向信息具体可以包括指向样本地标投影的第二方向矢量，为了便于描述，样本像素点i所标记的第二方向矢量可以记为

此外样本像素点i所标记的样本方向矢量可以记为d_i，则第一损失

上述公式(4)中，l表示指示函数，S_i≠0表示样本地标图像S中标识有对应样本地标点的样本像素点i(即排除表示天空或远距离物体而标记为诸如0的特殊标记的样本像素点)。

在一个实施场景中，在获取第一损失和第二损失之后，可以将第一损失和第二损失进行加权求和，得到总损失

上述公式(5)中，λ表示加权因子。在此基础上，可以基于总损失，优化地标检测模型的网络参数和待优化特征表示。

上述方案，通过先分别确定子区域和地标点在样本图像的投影区域和投影位置，之后基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方属性，且样本地标属性用于标识样本像素点对应的样本地标点，样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息，在此基础上，再分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像，且样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性，从而可以精确构建训练样本，之后再利用样本图像、样本地标图像和样本方向图像训练地标检测模型，进而能够有利于提高地标检测模型的检测性能。

请参阅图12，图12是本申请视觉定位装置1200一实施例的框架示意图。视觉定位装置1200包括：信息获取模块1210、地标检测模块1220和位姿确定模块1230，信息获取模块1210用于获取对预设场景拍摄到的待定位图像；地标检测模块1220用于对待定位图像进行地标检测，得到待定位图像中目标地标点；其中，目标地标点为预设场景的若干地标点中的至少一个，若干地标点是从预设场景的场景地图中选择得到的，场景地图是对预设场景进行三维建模得到的，且若干地标点分别位于场景地图各个子区域的预设位置处；位姿确定模块1230用于基于目标地标点在待定位图像中的第一位置信息和目标地标点在场景地图中的第二位置信息，得到待定位图像的位姿参数。

在一些公开实施例中，若干子区域是对场景地图的表面进行划分得到的；和/或，预设位置包括子区域的中心位置；和/或，各个子区域之间的面积差异低于第一阈值。

在一些公开实施例中，地标检测模块1220包括图像处理子模块，用于利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像，地标检测模块1220包括图像分析子模块，用于对第一地标预测图像和第一方向预测图像进行分析，得到目标地标点；其中，第一地标预测图像包括待定位图像中像素点的预测地标属性，第一方向预测图像包括待定位图像中像素点的第一方向属性，预测地标属性用于标识像素点对应的地标点，第一方向属性包括指向地标投影的第一方向信息，地标投影表示像素点对应的地标点在待定位图像中的投影位置。

在一些公开实施例中，图像分析子模块包括候选区域获取单元，用于获取具有相同预测地标属性的像素点所构成的候选区域；图像分析子模块包括一致性统计单元，用于统计候选区域中像素点的第一方向属性的一致性情况；图像分析子模块包括地标确定单元，用于在一致性情况满足预设条件的情况下，将候选区域中像素点的预测地标属性所标识的地标点作为目标地标点，并基于候选区域中像素点的第一方向属性，得到目标地标点在待定位图像中的第一位置信息。

在一些公开实施例中，图像分析子模块包括候选区域过滤单元，用于在候选区域的区域面积小于第二阈值的情况下，过滤候选区域。

在一些公开实施例中，第一方向信息包括第一方向矢量；一致性统计单元具体用于获取候选区域中像素点之间的第一方向矢量的交点，并统计交点的外点率，得到一致性情况。

在一些公开实施例中，地标检测模型包括特征提取网络、地标预测网络和方向预测网络；图像处理子模块包括特征提取单元，用于利用地标检测模型处理待定位图像，预测得到第一地标预测图像和第一方向预测图像，图像处理子模块包括地标预测单元，用于利用地标预测图像对特征图像进行地标预测，得到第一地标预测图像；图像处理子模块包括方向预测单元，用于利用方向预测网络对特征图像进行方向预测，得到第一方向预测图像。

在一些公开实施例中，方向预测单元具体用于利用地标预测网络对特征图像进行解码，得到第一特征预测图像，且第一特征预测图像包括待定位图像中像素点的第一特征表示，方向预测单元还具体用于基于像素点的第一特征表示分别与各个地标点的地标特征表示之间的相似度，得到像素点的预测地标属性，且地标特征表示是在地标检测模型训练收敛之后得到的，方向预测单元还具体用于基于待定位图像中各个像素点的预测地标属性，得到第一地标预测图像。

在一些公开实施例中，目标地标点是利用地标检测模型检测得到的，视觉定位转置1200还包括投影获取模块，用于分别确定子区域和地标点在样本图像的投影区域和投影位置；视觉定位转置1200还包括属性确定模块，用于基于投影区域和投影位置，确定样本图像中样本像素点的样本地标属性和样本方向属性；其中，样本地标属性用于标识样本像素点对应的样本地标点，且样本地标点为投影区域覆盖样本像素点的子区域所含的地标点，样本方向属性包括指向样本像素点对应的样本地标点的投影位置的样本方向信息；视觉定位转置1200还包括样本获取模块，用于分别基于样本地标属性和样本方向属性，得到样本图像的样本地标图像和样本方向图像；其中，样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；视觉定位转置1200还包括模型训练模块，用于利用样本图像、样本地标图像和样本方向图像训练地标检测模型。

在一些公开实施例中，模型训练模块包括图像预测子模块，用于利用地标检测模型对样本图像进行预测，得到样本图像的第二特征预测图像和第二方向预测图像；其中，第二特征预测图像包括样本像素点的第二特征表示，第二方向预测图像包括样本像素点的第二方向属性，第二方向属性包括指向样本地标投影的第二方向信息，且样本地标投影表示样本地标点在样本图像中的投影位置；模型训练模块包括第一损失计算子模块，用于基于样本地标图像和第二特征预测图像，得到第一损失；模型训练模块包括第二损失计算子模块，用于利用样本方向图像和第二方向预测图像之间的差异，得到第二损失；模型训练模块包括参数优化子模块，用于基于第一损失、第二损失，优化地标检测模型的网络参数。

在一些公开实施例中，第一损失计算子模块包括图像区域获取单元，用于获取具有相同样本地标属性的样本像素点所构成的图像区域；第一损失计算子模块包括特征表示获取单元，用于获取各个地标点的待优化特征表示；第一损失计算子模块包括正例表示获取单元，用于对于图像区域中样本像素点，将样本地标属性所标识的样本地标点的待优化特征表示作为样本像素点的正例特征表示；第一损失计算子模块包括负例表示获取单元，用于选择一个参考特征表示作为样本像素点的负例特征表示，中，参考特征表示包括除正例特征表示之外的待优化特征表示；第一损失计算子模块包括子损失计算单元，用于基于第二特征表示与正例特征表示之间的第一相似度和第二特征表示与负例特征表示之间的第二相似度，得到子损失；第一损失计算子模块包括损失统计单元，用于基于样本图像中样本像素点的子损失，得到第一损失。

在一些公开实施例中，负例表示获取单元具体用于统计图像区域中样本像素点的第二特征表示的平均特征表示；负例表示获取单元还具体用于基于平均特征表示分别与各个参考特征表示之间的相似度，选择若干参考特征表示作为图像区域的候选特征表示；负例表示获取单元还具体用于在候选特征表示中均匀采样，得到样本像素点的负例特征表示。

在一些公开实施例中，参数优化子模块具体用于基于第一损失和第二损失，优化各个地标点的待优化特征表示和地标检测模型的网络参数。

请参阅图13，图13是本申请电子设备130一实施例的框架示意图。电子设备130包括相互耦接的存储器131和处理器132，处理器132用于执行存储器131中存储的程序指令，以实现上述任一视觉定位方法实施例的步骤。在一个具体的实施场景中，电子设备130可以包括但不限于：微型计算机、服务器，此外，电子设备130还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器132用于控制其自身以及存储器131以实现上述任一视觉定位方法实施例的步骤。处理器132还可以称为CPU(Central Processing Unit，中央处理单元)。处理器132可能是一种集成电路芯片，具有信号的处理能力。处理器132还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器132可以由集成电路芯片共同实现。

上述方案，能够提高视觉定位的准确性和鲁棒性。

请参阅图14，图14为本申请计算机可读存储介质140一实施例的框架示意图。计算机可读存储介质140存储有能够被处理器运行的程序指令141，程序指令141用于实现上述任一视觉定位方法实施例的步骤。

上述方案，能够提高视觉定位的准确性和鲁棒性。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种视觉定位方法，其特征在于，包括：

获取对预设场景拍摄到的待定位图像；

利用地标检测模型对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点；其中，所述目标地标点为所述预设场景的若干地标点中的至少一个，所述若干地标点是从所述预设场景的场景地图中选择得到的，所述场景地图是对所述预设场景进行三维建模得到的，且所述若干地标点分别位于所述场景地图各个子区域的预设位置处；

基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在所述场景地图中的第二位置信息，得到所述待定位图像的位姿参数；

所述利用地标检测模型对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点，包括：利用所述地标检测模型中的特征提取网络对所述待定位图像进行特征提取，得到特征图像；利用所述地标检测模型中的地标预测网络对所述特征图像进行地标预测，得到第一地标预测图像；以及，利用所述地标检测模型中的方向预测网络对所述特征图像进行方向预测，得到第一方向预测图像；对所述第一地标预测图像和所述第一方向预测图像进行分析，得到所述目标地标点；其中，所述第一地标预测图像包括所述待定位图像中像素点的预测地标属性，所述第一方向预测图像包括所述待定位图像中像素点的第一方向属性，所述预测地标属性用于标识所述像素点对应的地标点，所述第一方向属性包括指向地标投影的第一方向信息，所述地标投影表示所述像素点对应的地标点在所述待定位图像中的投影位置；

和/或，所述地标检测模型的训练步骤包括：分别确定所述子区域和所述地标点在样本图像的投影区域和投影位置；基于所述投影区域和所述投影位置，确定所述样本图像中样本像素点的样本地标属性和样本方向属性；其中，所述样本地标属性用于标识所述样本像素点对应的样本地标点，且所述样本地标点为所述投影区域覆盖所述样本像素点的子区域所含的地标点，所述样本方向属性包括指向所述样本像素点对应的样本地标点的投影位置的样本方向信息；分别基于所述样本地标属性和所述样本方向属性，得到所述样本图像的样本地标图像和样本方向图像；其中，所述样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，所述样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；利用所述样本图像、所述样本地标图像和所述样本方向图像训练所述地标检测模型。

2.根据权利要求1所述的方法，其特征在于，所述各个子区域是对所述场景地图的表面进行划分得到的；

和/或，所述预设位置包括所述子区域的中心位置；

和/或，所述各个子区域之间的面积差异低于第一阈值。

3.根据权利要求1所述的方法，其特征在于，所述对所述第一地标预测图像和所述第一方向预测图像进行分析，得到所述目标地标点，包括：

获取具有相同所述预测地标属性的像素点所构成的候选区域；

统计所述候选区域中所述像素点的第一方向属性的一致性情况；

在所述一致性情况满足预设条件的情况下，将所述候选区域中所述像素点的预测地标属性所标识的地标点作为所述目标地标点，并基于所述候选区域中所述像素点的第一方向属性，得到所述目标地标点在所述待定位图像中的第一位置信息。

4.根据权利要求3所述的方法，其特征在于，在所述统计所述候选区域中所述像素点的第一方向属性的一致性情况之前，所述方法还包括：

在所述候选区域的区域面积小于第二阈值的情况下，过滤所述候选区域。

5.根据权利要求3所述的方法，其特征在于，所述第一方向信息包括第一方向矢量；所述统计所述候选区域中所述像素点的第一方向属性的一致性情况，包括：

获取所述候选区域中所述像素点之间的第一方向矢量的交点；

统计所述交点的外点率，得到所述一致性情况。

6.根据权利要求1所述的方法，其特征在于，所述利用所述地标预测网络对所述特征图像进行地标预测，得到所述第一地标预测图像，包括：

利用所述地标预测网络对所述特征图像进行解码，得到第一特征预测图像；其中，所述第一特征预测图像包括所述待定位图像中所述像素点的第一特征表示；

基于所述像素点的第一特征表示分别与各个所述地标点的地标特征表示之间的相似度，得到所述像素点的预测地标属性；其中，所述地标特征表示是在所述地标检测模型训练收敛之后得到的；

基于所述待定位图像中各个所述像素点的预测地标属性，得到所述第一地标预测图像。

7.根据权利要求1所述的方法，其特征在于，所述利用所述样本图像、所述样本地标图像和所述样本方向图像训练所述地标检测模型，包括：

利用所述地标检测模型对所述样本图像进行预测，得到所述样本图像的第二特征预测图像和第二方向预测图像；其中，所述第二特征预测图像包括所述样本像素点的第二特征表示，所述第二方向预测图像包括所述样本像素点的第二方向属性，所述第二方向属性包括指向样本地标投影的第二方向信息，且所述样本地标投影表示所述样本地标点在所述样本图像中的投影位置；

基于所述样本地标图像和所述第二特征预测图像，得到第一损失，并利用所述样本方向图像和所述第二方向预测图像之间的差异，得到第二损失；

基于所述第一损失、所述第二损失，优化所述地标检测模型的网络参数。

8.根据权利要求7所述的方法，其特征在于，所述基于所述样本地标图像和所述第二特征预测图像，得到第一损失，包括：

获取具有相同所述样本地标属性的样本像素点所构成的图像区域，并获取各个所述地标点的待优化特征表示；

对于所述图像区域中所述样本像素点，将所述样本地标属性所标识的样本地标点的待优化特征表示作为所述样本像素点的正例特征表示，并选择一个参考特征表示作为所述样本像素点的负例特征表示，以及基于所述第二特征表示与所述正例特征表示之间的第一相似度和所述第二特征表示与所述负例特征表示之间的第二相似度，得到子损失；其中，所述参考特征表示包括除所述正例特征表示之外的待优化特征表示；

基于所述样本图像中所述样本像素点的子损失，得到所述第一损失。

9.根据权利要求8所述的方法，其特征在于，所述选择一个参考特征表示作为所述样本像素点的负例特征表示，包括：

统计所述图像区域中样本像素点的第二特征表示的平均特征表示；

基于所述平均特征表示分别与各个所述参考特征表示之间的相似度，选择若干所述参考特征表示作为所述图像区域的候选特征表示；

在所述候选特征表示中均匀采样，得到所述样本像素点的负例特征表示。

10.根据权利要求7所述的方法，其特征在于，所述基于所述第一损失、所述第二损失，优化所述地标检测模型的网络参数，包括：

基于所述第一损失和所述第二损失，优化各个所述地标点的待优化特征表示和所述地标检测模型的网络参数。

11.一种视觉定位装置，其特征在于，包括：

信息获取模块，用于获取对预设场景拍摄到的待定位图像；

地标检测模块，用于利用地标检测模型对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点；其中，所述目标地标点为所述预设场景的若干地标点中的至少一个，所述若干地标点是从所述预设场景的场景地图中选择得到的，所述场景地图是对所述预设场景进行三维建模得到的，且所述若干地标点分别位于所述场景地图各个子区域的预设位置处；

位姿确定模块，用于基于所述目标地标点在所述待定位图像中的第一位置信息和所述目标地标点在所述场景地图中的第二位置信息，得到所述待定位图像的位姿参数；

所述地标检测模块，用于利用地标检测模型对所述待定位图像进行地标检测，得到所述待定位图像中目标地标点，包括：利用所述地标检测模型中的特征提取网络对所述待定位图像进行特征提取，得到特征图像；利用所述地标检测模型中的地标预测网络对所述特征图像进行地标预测，得到第一地标预测图像；以及，利用所述地标检测模型中的方向预测网络对所述特征图像进行方向预测，得到第一方向预测图像；对所述第一地标预测图像和所述第一方向预测图像进行分析，得到所述目标地标点；其中，所述第一地标预测图像包括所述待定位图像中像素点的预测地标属性，所述第一方向预测图像包括所述待定位图像中像素点的第一方向属性，所述预测地标属性用于标识所述像素点对应的地标点，所述第一方向属性包括指向地标投影的第一方向信息，所述地标投影表示所述像素点对应的地标点在所述待定位图像中的投影位置；

和/或，所述视觉定位装置还包括投影模块、属性确定模块、样本获取模块以及模型训练模块，所述投影模块，用于分别确定所述子区域和所述地标点在样本图像的投影区域和投影位置；所述属性确定模块，用于基于所述投影区域和所述投影位置，确定所述样本图像中样本像素点的样本地标属性和样本方向属性；其中，所述样本地标属性用于标识所述样本像素点对应的样本地标点，且所述样本地标点为所述投影区域覆盖所述样本像素点的子区域所含的地标点，所述样本方向属性包括指向所述样本像素点对应的样本地标点的投影位置的样本方向信息；所述样本获取模块，用于分别基于所述样本地标属性和所述样本方向属性，得到所述样本图像的样本地标图像和样本方向图像；其中，所述样本地标图像中第一像素点标注有对应的样本像素点的样本地标属性，所述样本方向图像中第二像素点标注有对应的样本像素点的样本方向属性；所述模型训练模块，用于利用所述样本图像、所述样本地标图像和所述样本方向图像训练所述地标检测模型。

12.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至10任一项所述的视觉定位方法。

13.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至10任一项所述的视觉定位方法。