CN115905607A

CN115905607A - 视觉定位中的图像检索方法、视觉定位方法、装置及设备

Info

Publication number: CN115905607A
Application number: CN202211419625.2A
Authority: CN
Inventors: 顾升宇; 王强; 张小军
Original assignee: Visionstar Information Technology Shanghai Co ltd
Current assignee: Visionstar Information Technology Shanghai Co ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2023-04-04

Abstract

本申请实施例提供一种视觉定位中的图像检索方法、视觉定位方法、装置及设备。该方法包括：获取位姿转换矩阵和当前图像的第一里程计位姿；其中，第一里程计位姿是所述当前图像在里程计坐标系中的位姿数据；第一里程计位姿包括第一旋转数据和第一位移数据；根据位姿转换矩阵，将第一里程计位姿转换为第二里程计位姿；其中，第二里程计位姿是第一里程计位姿在定位坐标系中的位姿数据，第二里程计数据包括第二旋转数据和第二位移数据；根据第二旋转数据和第二位移数据，从预设定位图像集合中确定出候选图像集合；从候选图像集合中确定出与当前图像的相似度最高的预设数量个图像作为目标候选图像。从而得到较为准确的目标候选图像，提高定位准确度。

Description

视觉定位中的图像检索方法、视觉定位方法、装置及设备

技术领域

本申请实施例涉及视觉定位技术领域，尤其涉及一种视觉定位中的图像检索方法、视觉定位方法、装置及设备。

背景技术

基于视觉的空间定位技术，常常利用设置有摄像头的设备拍摄图像，通过识别图像中的环境特征点，计算出当前设备的位置和姿态，实现对周围环境的自动识别，给用户带来交互式的视觉体验。

在相关技术中，服务器通常利用设备拍摄到的图像在预设数据库中进行全局图像检索，然后使用全局图像检索得到的相似度符合阈值的top N个候选图像，将设备拍摄到的图像与候选图像做匹配，得到匹配结果图像，进而根据匹配结果图像中对应的3D点求解出设备当前的位置和姿态，实现视觉定位。

然而，在相似度较高的场景下，如机场的各个等待区、地下车库各个位置、公园等，使用全局图像检索，常常会得到大量错误的候选图像，导致定位误差较大。

发明内容

鉴于上述问题，本申请实施例提供了一种视觉定位中的图像检索方法、视觉定位方法、装置及设备，能够得到较为准确的候选图像，进而提高了定位的准确度和鲁棒性。

第一方面，本申请实施例提供了一种视觉定位中的图像检索方法，包括：

获取位姿转换矩阵和当前图像的第一里程计位姿；其中，所述第一里程计位姿是所述当前图像在里程计坐标系中的位姿数据；所述第一里程计位姿包括第一旋转数据和第一位移数据；

根据所述位姿转换矩阵，将所述第一里程计位姿转换为第二里程计位姿；其中，所述第二里程计位姿是所述第一里程计位姿在定位坐标系中的位姿数据，所述第二里程计数据包括第二旋转数据和第二位移数据；

根据所述第二旋转数据和所述第二位移数据，从预设定位图像集合中确定出候选图像集合；

从所述候选图像集合中确定出与所述当前图像的相似度最高的预设数量个图像作为目标候选图像。

可选地，所述获取位姿转换矩阵，包括：

根据时序获取当前时刻之前的N个历史定位图像数据；其中，每个所述历史定位图像数据至少包括历史里程计位姿和历史视觉位姿；N为大于等于3的自然数；

根据所述N个历史定位图像数据，计算得到所述里程计坐标系和所述定位坐标系之间的位姿转换矩阵。

可选地，所述根据所述第二旋转数据和所述第二位移数据，从预设定位图像集合中确定出候选图像集合，包括：

获取所述预设定位图像集合中的每个定位图像对应的定位旋转数据和定位位移数据；

确定所述定位位移数据与所述第二位移数据之间的第一差值，以及所述定位旋转数据与所述第二旋转数据之间的第二差值；

将所述第一差值和所述第二差值均满足预设条件的定位图像，作为所述候选图像集合中的图像。

可选地，所述将所述第一差值和所述第二差值均满足预设条件的定位图像，作为所述候选图像集合中的图像，包括：

将所述第一差值小于预设距离阈值的定位图像，确定为待确定图像；

将所述第二差值小于预设角度阈值的待确定图像，确定为所述候选图像集合中的图像。

将所述第二差值小于预设角度阈值的定位图像，确定为待确定图像；

将所述第一差值小于预设距离阈值的待确定图像，确定为所述候选图像集合中的图像。

可选地，所述从所述候选图像集合中确定出与所述当前图像的相似度最高的预设数量个图像作为目标候选图像，包括：

基于预设算法，确定所述候选图像集合中的图像与所述当前图像的相似度；

按照相似度从高到低的顺序进行排序，将所述相似度最高的预设数量个图像确定为所述目标候选图像。

可选地，所述预设算法包括描述子匹配算法、词袋模型算法和深度学习算法中的任意一种。

第二方面，本申请实施例还提供一种视觉定位方法，包括：

获取当前图像；

基于所述当前图像，从预设定位图像集合中确定出用于定位的目标候选图像；

基于所述目标候选图像，确定待定位设备当前的位置和姿态；

其中，所述目标候选图像是根据获取的位姿转换矩阵将所述当前图像的第一里程计位姿转换为第二里程计位姿后，根据第二里程计位姿包括的第二旋转数据和第二位移数据从所述预设定位图像集合中确定出来的。

第三方面，本申请实施例还提供一种视觉定位中的图像检索装置，包括：

获取模块，用于获取位姿转换矩阵和当前图像的第一里程计位姿；其中，所述第一里程计位姿是所述当前图像在里程计坐标系中的位姿数据；所述第一里程计位姿包括第一旋转数据和第一位移数据；

转换模块，用于根据所述位姿转换矩阵，将所述第一里程计位姿转换为第二里程计位姿；其中，所述第二里程计位姿是所述第一里程计位姿在定位坐标系中的位姿数据，所述第二里程计数据包括第二旋转数据和第二位移数据；

确定模块，用于根据所述第二旋转数据和所述第二位移数据，从预设定位图像集合中确定出候选图像集合；从所述候选图像集合中确定出与所述当前图像的相似度最高的预设数量个图像作为图像检索结果。

第四方面，本申请实施例还提供一种视觉定位装置，包括：

获取模块，用于获取当前图像；

确定模块，用于基于所述当前图像，从预设定位图像集合中确定出用于定位的目标候选图像；基于所述目标候选图像，确定待定位设备当前的位置和姿态；

其中，所述目标候选图像是根据所述目标候选图像是根据获取的位姿转换矩阵将所述当前图像的第一里程计位姿转换为第二里程计位姿后，根据第二里程计位姿包括的第二旋转数据和第二位移数据从所述预设定位图像集合中确定出来的。

第五方面，本申请实施例还提供一种电子设备，包括：存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如本申请实施例第一方面中任一项所述的视觉定位中的图像检索方法的步骤；或者，所述处理器执行所述计算机程序时实现如本申请实施例第二方面所述的视觉定位方法的步骤。

第六方面，本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如本申请实施例第一方面中任一项所述的视觉定位中的图像检索方法的步骤；或者，所述计算机程序被处理器执行时实现如本申请实施例第二方面所述的视觉定位方法的步骤。

本申请实施例提供的视觉定位中的图像检索方法、视觉定位方法、装置、设备及计算机存储介质，其中，视觉定位中的图像检索方法包括：获取位姿转换矩阵和当前图像的第一里程计位姿；其中，第一里程计位姿是所述当前图像在里程计坐标系中的位姿数据；第一里程计位姿包括第一旋转数据和第一位移数据；根据位姿转换矩阵，将第一里程计位姿转换为第二里程计位姿；其中，第二里程计位姿是第一里程计位姿在定位坐标系中的位姿数据，第二里程计数据包括第二旋转数据和第二位移数据；根据第二旋转数据和第二位移数据，从预设定位图像集合中确定出候选图像集合；从候选图像集合中确定出与当前图像的相似度最高的预设数量个图像作为目标候选图像。根据本申请实施例的技术方案，可以得到较为准确的候选图像，进而提高了定位的准确度和鲁棒性。

上述说明仅是本申请实施例技术方案的概述，为了能够更清楚了解本申请实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本申请实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例的视觉定位中的图像检索方法的流程图。

图2是本申请实施例的视觉定位中的图像检索装置的结构示意图。

图3是本申请实施例的电子设备的结构示意图。

图4是本申请实施例的视觉定位方法的流程图。

图5是本申请实施例的视觉定位装置的结构示意图。

图6是本申请实施例的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语“实施例”并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：存在A，同时存在A和B，存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序，可以明示或者隐含地包括一个或者更多个该特征。

在本申请的描述中，除非另有说明，“多个”的含义是指两个以上(包括两个)，同理，“多组”指的是两组以上(包括两组)。

基于视觉的空间定位技术，是利用设置有摄像头的设备拍摄图像，通过识别图像中的环境特征点，计算出当前设备的位置和姿态，实现对周围环境的自动识别，给用户带来交互式的视觉体验。

在相关技术中，服务器通常利用设备拍摄到的图像在预设数据库中进行全局图像检索，例如使用词袋模型或者深度学习算法在已知的图库里做全局图像检索，得到的相似度符合阈值的top N个候选图像，将设备拍摄到的图像与候选图像做匹配，得到匹配结果图像，进而根据匹配结果图像中对应的3D点求解出设备当前的位置和姿态，实现视觉定位。然而，基于词袋模型或者深度学习算法的全局图像检索依赖于图像的纹理，而相似度较高的场景，如机场的各个等待区的建筑结构和纹理都是统一规格，地下车库各个位置没有明显区分度，商场两层楼的楼梯一模一样，公园或者景区里同类型的花草树木在各个道路重复出现，对于这些场景的图像，常常存在动态纹理、弱纹理、相似纹理或者相同纹理，极容易出现检索错误，得到大量错误的候选图像，导致定位误差较大。

基于此，为了减小图像检索时的误差，本申请实施例提供了一种视觉定位中的图像检索方法，先使用设备的里程计数据将图像候选范围大大缩小，然后再在该候选范围内使用全局图像检索方法，得到更为准确的候选图像，以提高定位精确度。

下面将结合附图和具体的例子，对本申请实施例的视觉定位中的图像检索方法进行详细说明。

<第一实施例>

<方法>

图1是本申请实施例的视觉定位中的图像检索方法的流程图。本实施例的视觉定位中的图像检索方法，具体可以由设置有里程计和摄像装置的电子设备执行。

如图1所示，本实施例的视觉定位中的图像检索方法可以包括如下步骤1100至步骤1400。

步骤1100，获取位姿转换矩阵和当前图像的第一里程计位姿；其中，第一里程计位姿是当前图像在里程计坐标系中的位姿数据；第一里程计位姿包括第一旋转数据和第一位移数据。

具体的，位姿转换矩阵用于将里程计坐标系对齐到定位坐标系中。本步骤中，在获取位姿转换矩阵时，可以根据时序获取当前时刻之前的N个历史定位图像数据；根据N个历史定位图像数据，计算得到里程计坐标系和定位坐标系之间的位姿转换矩阵。其中，该位姿转换矩阵包括旋转矩阵、平移矩阵和尺度；每个历史定位图像数据至少包括历史里程计位姿和历史视觉位姿；N为大于等于3的自然数。

在一个例子中，历史里程计位姿和历史视觉位姿都是6DoF位姿数据，本实施例中，使用随机抽样一致算法(Random Sample Consensus，RANSAC)的sim3求解方法，即，使用N对匹配点来进行相似变换的求解，进而解出两个坐标系之间的位姿转换矩阵Trans，该位姿变换矩阵Trans包括旋转矩阵R、平移矩阵t和尺度scale。其中，旋转矩阵R是3*3的矩阵，平移矩阵t是3*1的矩阵。

具体的，电子设备可以保存最近时间内的N个历史定位图像数据fusionFrame，每个历史定位图像数据fusionFrame包括时间戳，历史里程计位姿P1(6Dof位姿[R|t])和历史视觉位姿P2(6Dof位姿[R|t])。所保存的N个历史定位图像数据持续更新，新的一帧历史定位图像数据来临，老的一帧就丢掉。读取N个历史定位图像数据fusionFrame，每个历史定位图像数据fusionFrame的历史里程计位姿P1与历史视觉位姿P2组成一个位姿对。也就是说，N个历史定位图像数据fusionFrame提供了N个位姿对。

具体的，N个历史定位图像数据fusionFrame包含N个历史里程计位姿P1，对应的历史里程计位姿P1包括N个旋转矩阵R和平移矩阵t，在此表示为([R10|t10]，[R11|t11]，[R12|t12]，......)，其中R1n为第n个里程计位姿的3*3旋转矩阵，t1n为第n个里程计位姿的3*1平移矩阵。

N个历史定位图像数据fusionFrame包含N个历史视觉位姿P2，对应的历史视觉位姿P2包括N个旋转矩阵R和平移矩阵t，在此表示为([R20|t20]，[R21|t21]，[R22|t22]，......)，其中R2n为第n个历史视觉位姿的3*3旋转矩阵，t2n为第n个历史视觉位姿的3*1平移矩阵。历史里程计位姿P1的平移矩阵为p1(t10，t11，t12，......)，历史视觉位姿P2的平移矩阵为p2(t20，t21，t22，......)，N个数据组成了N个三维点对。

求解sim3变换的过程，可以理解为，求解两个坐标系的相似变换。其中，p2＝sR(p1)+t，通过RANSAC剔除外点后，只需要超过三张图像存在三维点对即可求解出坐标系的位姿转换矩阵Trans(4*4的矩阵)，其中包含尺度参数s，3*3旋转矩阵R，3*1平移矩阵t。

需要说明的是，第一里程计位姿可以由里程计获取，该里程计可以是视觉惯性里程计(Visual-Inertial Odometry，VIO)，视觉惯性同时定位与地图构建(Visual-InertialSimultaneous Localization and Mapping，VISLAM)里程计，视觉里程计(VisualOdometry，VO)，即时定位与地图构建(Simultaneous Localization and Mapping，SLAM)里程计，惯性测量单元(Inertial Measurement Unit，IMU)，全球定位系统(GlobalPositioning System，GPS)，基于实时动态RTK(Real-time kinematic，RTK)载波相位差分技术计算里程的方法等。本实施例对此不作具体限定。

本步骤中，当前图像是指当前时刻获取到的图像，第一里程计位姿中的第一旋转数据即为当前图像在里程计坐标系中的第一旋转矩阵，第一里程计位姿中的第一位移数据即为当前图像在里程计坐标系中的第一平移矩阵。

在获取到位姿转换矩阵和当前图像的第一里程计位姿后，执行步骤1200。

步骤1200，根据位姿转换矩阵，将第一里程计位姿转换为第二里程计位姿；其中，第二里程计位姿是第一里程计位姿在定位坐标系中的位姿数据，第二里程计数据包括第二旋转数据和第二位移数据。

具体的，电子设备可以通过位姿转换矩阵，将当前图像在里程计坐标系中的第一里程计位姿转换为定位坐标系中的第二里程计位姿，即，P3＝Trans*P1。其中，P1是4*4的第一里程计位姿，Trans是4*4的位姿转换矩阵，P3是定位坐标系下第二里程计位姿。

步骤1300，根据第二旋转数据和第二位移数据，从预设定位图像集合中确定出候选图像集合。

本步骤中，在从预设定位图像集合中确定出候选图像集合时，可以先获取预设定位图像集合中的每个定位图像对应的定位旋转数据和定位位移数据；然后确定定位位移数据与第二位移数据之间的第一差值，以及定位旋转数据与第二旋转数据之间的第二差值；最后将第一差值和第二差值均满足预设条件的定位图像，作为候选图像集合中的图像。

在一种可行的实现方式中，电子设备在将第一差值和第二差值均满足预设条件的定位图像，作为候选图像集合中的图像时，可以先将第一差值小于预设距离阈值的定位图像，确定为待确定图像；再将第二差值小于预设角度阈值的待确定图像，确定为候选图像集合中的图像。

在另一种可行的实现方式中，电子设备在将第一差值和第二差值均满足预设条件的定位图像，作为候选图像集合中的图像时，也可以先将第二差值小于预设角度阈值的定位图像，确定为待确定图像；再将第一差值小于预设距离阈值的待确定图像，确定为候选图像集合中的图像。

示例性的，假设预设定位图像集合中包含M个定位图像，将预设定位图像集合记为C0，其中，每个定位图像都有对应的6DoF位姿数据，即3DoF的定位旋转数据和3DoF的定位位移数据。

电子设备可以先将C0中，定位位移数据与当前图像的第二位移数据之间的第一差值小于预设距离阈值的定位图像确定为待确定图像，放入图像集合C1中；再将图像集合C1中，定位旋转数据与当前图像的第二旋转数据之间的第二差值小于预设角度阈值的定位图像，确定为候选图像集合C2中的图像。或者，电子设备也可以先将C0中，定位旋转数据与当前图像的第二旋转数据之间的第二差值小于预设角度阈值的定位图像确定为待确定图像，放入图像集合C1中；再将图像集合C1中，定位位移数据与当前图像的第二位移数据之间的第一差值小于预设距离阈值的定位图像，确定为候选图像集合C2中的图像。

可以看出，本步骤中，既可以先利用位移数据从预设定位图像集合中筛选出待确定图像，再利用旋转数据从待确定图像中筛选出候选图像，也可以先利用旋转数据从预设定位图像集合中筛选出待确定图像，再利用位移数据从待确定图像中筛选出候选图像，这样，通过里程计位姿作为先验，可以为下一次定位提供更准确的候选图像，从而将图像检索的精度精确到一个很小的范围，降低全局检索算法带来的误差。

在确定出候选图像集合后，执行步骤1400。

步骤1400，从候选图像集合中确定出与当前图像的相似度最高的预设数量个图像作为目标候选图像。

本步骤中，电子设备可以基于预设算法，确定候选图像集合中的图像与当前图像的相似度；按照相似度从高到低的顺序进行排序，将相似度最高的预设数量个图像确定为目标候选图像。其中，预设算法包括描述子匹配算法、词袋模型算法和深度学习算法中的任意一种。

继续上述示例，电子设备可以对候选图像集合C2里的候选图像，与当前图像的进行相似度排序，具体可以使用描述子匹配算法，包括但不限于ORB，SIFT，SuperPoint等，词袋模型算法，包括但不限于DBoW，或者深度学习算法，包括但不限于NetVLAD、GeM在候选图像集合C2里进行检索，得到相似度排序最高的前K个作为K个目标候选图像。

本实施例的视觉定位中的图像检索方法，通过获取位姿转换矩阵和当前图像的第一里程计位姿；其中，第一里程计位姿是当前图像在里程计坐标系中的位姿数据；第一里程计位姿包括第一旋转数据和第一位移数据；根据位姿转换矩阵，将第一里程计位姿转换为第二里程计位姿；其中，第二里程计位姿是第一里程计位姿在定位坐标系中的位姿数据，第二里程计数据包括第二旋转数据和第二位移数据；根据第二旋转数据和第二位移数据，从预设定位图像集合中确定出候选图像集合；从候选图像集合中确定出与当前图像的相似度最高的预设数量个图像作为目标候选图像。通过里程计位姿作为先验，可以为下一次定位提供更准确的候选图像，从而将图像检索的精度精确到一个很小的范围，降低全局检索算法带来的误差。另外，由于里程计位姿与视觉位姿的对齐使用的是RANSAC剔除外点后的sim3估计算法，可以剔除误差大的定位位姿数据，同时能够解决里程计位姿与视觉位姿的尺度不统一的问题。

<装置>

图2是本申请实施例的视觉定位中的图像检索装置的结构示意图。如图2所示，本实施例的视觉定位中的图像检索装置2000可以包括：获取模块2100，转换模块2200和确定模块2300。

其中，获取模块2100，用于获取位姿转换矩阵和当前图像的第一里程计位姿；其中，第一里程计位姿是当前图像在里程计坐标系中的位姿数据；第一里程计位姿包括第一旋转数据和第一位移数据。

转换模块2200，用于根据位姿转换矩阵，将第一里程计位姿转换为第二里程计位姿；其中，第二里程计位姿是第一里程计位姿在定位坐标系中的位姿数据，第二里程计数据包括第二旋转数据和第二位移数据。

确定模块2300，用于根据第二旋转数据和第二位移数据，从预设定位图像集合中确定出候选图像集合；从候选图像集合中确定出与当前图像的相似度最高的预设数量个图像作为图像检索结果。

在一个实施例中，获取模块2100具体可以用于：根据时序获取当前时刻之前的N个历史定位图像数据；其中，每个历史定位图像数据至少包括历史里程计位姿和历史视觉位姿；N为大于等于3的自然数；根据N个历史定位图像数据，计算得到里程计坐标系和定位坐标系之间的位姿转换矩阵。

在一个实施例中，确定模块2300具体可以用于：获取预设定位图像集合中的每个定位图像对应的定位旋转数据和定位位移数据；确定定位位移数据与第二位移数据之间的第一差值，以及定位旋转数据与第二旋转数据之间的第二差值；将第一差值和第二差值均满足预设条件的定位图像，作为候选图像集合中的图像。

在一个实施例中，确定模块2300在将第一差值和第二差值均满足预设条件的定位图像，作为候选图像集合中的图像时，具体可以用于：将第一差值小于预设距离阈值的定位图像，确定为待确定图像；将第二差值小于预设角度阈值的待确定图像，确定为候选图像集合中的图像。

在一个实施例中，确定模块2300在将第一差值和第二差值均满足预设条件的定位图像，作为候选图像集合中的图像时，具体可以用于：将第二差值小于预设角度阈值的定位图像，确定为待确定图像；将第一差值小于预设距离阈值的待确定图像，确定为候选图像集合中的图像。

在一个实施例中，确定模块2300具体用于：基于预设算法，确定候选图像集合中的图像与当前图像的相似度；按照相似度从高到低的顺序进行排序，将相似度最高的预设数量个图像确定为目标候选图像。其中，预设算法包括描述子匹配算法、词袋模型算法和深度学习算法中的任意一种。

本实施例的视觉定位中的图像检索装置，可用于执行上述图1所示方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

<电子设备>

图3是本申请实施例的电子设备的结构示意图。如图3所示，本实施例的电子设备3000可以包括：存储器3100和处理器3200，存储器3100中存储有计算机程序，处理器3200执行计算机程序时实现如上述方法实施例中所述的视觉定位中的图像检索方法的步骤。

<计算机存储介质>

本申请实施例还提供一种计算机存储介质。具体的，本实施例的计算机存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中的视觉定位中的图像检索方法的步骤。

<第二实施例>

<方法>

图4是本申请实施例的视觉定位方法的流程图。本实施例的视觉定位方法具体可以由设置有里程计和摄像装置的电子设备执行。

如图4所示，本实施例的视觉定位方法可以包括如下步骤4100至步骤4300。

步骤4100，获取当前图像。

其中，当前图像是指当前时刻通过摄像装置获取到的图像。

步骤4200，基于当前图像，从预设定位图像集合中确定出用于定位的目标候选图像。

其中，目标候选图像是根据获取的位姿转换矩阵将当前图像的第一里程计位姿转换为第二里程计位姿后，根据第二里程计位姿包括的第二旋转数据和第二位移数据从预设定位图像集合中确定出来的。其具体的确定方法可以参照如上述图1所示的视觉定位中的图像检索方法中的描述，在此不再赘述。

步骤4300，基于目标候选图像，确定待定位设备当前的位置和姿态。

本步骤中，电子设备可以将目标候选图像与当前图像进行匹配，得到匹配结果图像，然后根据匹配结果图像中对应的3D点求解出设备当前的位置和姿态，实现视觉定位。

本实施例的视觉定位方法，可以当前图像，以里程计位姿作为先验，从预设定位图像集合中确定出用于定位的目标候选图像，能够将图像检索的精度精确到一个很小的范围，降低了全局检索算法带来的误差，进而为计算为提供了良好的环境，可以有效提升视觉定位的成功率和准确度。

<装置>

图5是本申请实施例的视觉定位装置的结构示意图。如图5所示，本实施例的视觉定位装置5000可以包括：获取模块5100和确定模块5200。

其中，获取模块5100，用于获取当前图像。

确定模块5200，用于基于当前图像，从预设定位图像集合中确定出用于定位的目标候选图像；基于目标候选图像，确定待定位设备当前的位置和姿态。

其中，目标候选图像是根据目标候选图像是根据获取的位姿转换矩阵将当前图像的第一里程计位姿转换为第二里程计位姿后，根据第二里程计位姿包括的第二旋转数据和第二位移数据从预设定位图像集合中确定出来的。

本实施例的视觉定位装置，可用于执行上述图4所示方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

<电子设备>

图6是本申请实施例的电子设备的结构示意图。如图6所示，本实施例的电子设备6000可以包括：存储器6100和处理器6200，存储器6100中存储有计算机程序，处理器6200执行计算机程序时实现如上述方法实施例所述的视觉定位方法的步骤。

<计算机存储介质>

本申请实施例还提供一种计算机存储介质。具体的，本实施例的计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述方法实施例中的视觉定位方法的步骤。

在本申请各个实施例中的各功能单元或模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。本申请描述的“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了装置若干的单元权利要求中，这些装置中的若干个单元可以是通过同一个硬件项来具体体现。第一、第二、以及第三等的使用不表示任何顺序，可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种视觉定位中的图像检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取位姿转换矩阵，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述第二旋转数据和所述第二位移数据，从预设定位图像集合中确定出候选图像集合，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述第一差值和所述第二差值均满足预设条件的定位图像，作为所述候选图像集合中的图像，包括：

5.根据权利要求3所述的方法，其特征在于，所述将所述第一差值和所述第二差值均满足预设条件的定位图像，作为所述候选图像集合中的图像，包括：

6.根据权利要求1所述的方法，其特征在于，所述从所述候选图像集合中确定出与所述当前图像的相似度最高的预设数量个图像作为目标候选图像，包括：

7.根据权利要求6所述的方法，其特征在于，所述预设算法包括描述子匹配算法、词袋模型算法和深度学习算法中的任意一种。

8.一种视觉定位方法，其特征在于，包括：

获取当前图像；

9.一种视觉定位中的图像检索装置，其特征在于，包括：

10.一种视觉定位装置，其特征在于，包括：

获取模块，用于获取当前图像；

11.一种电子设备，其特征在于，包括：存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的视觉定位中的图像检索方法的步骤；或者，所述处理器执行所述计算机程序时实现如权利要求8所述的视觉定位方法的步骤。

12.一种计算机存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的视觉定位中的图像检索方法的步骤；或者，所述计算机程序被处理器执行时实现如权利要求8所述的视觉定位方法的步骤。