CN110211181B

CN110211181B - 视觉定位的方法、装置、存储介质和电子设备

Info

Publication number: CN110211181B
Application number: CN201910408034.7A
Authority: CN
Inventors: 黄建峰; 林义闽; 廉士国
Original assignee: Cloudminds Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-04-23
Anticipated expiration: 2039-05-15
Also published as: CN110211181A

Abstract

本公开涉及一种视觉定位的方法、装置、存储介质和电子设备，涉及无线定位技术领域，该方法包括：根据预设的训练图像集生成特征提取网络和定位网络，将当前时刻获取的目标图像作为特征提取网络的输入，以确定目标图像对应的特征图像，将特征图像作为定位网络的输入，以获取定位网络输出的位姿信息。通过提取目标图像中包含的特征来实现视觉定位，能够避免环境干扰，提高视觉定位的适应度和准确度。

Description

视觉定位的方法、装置、存储介质和电子设备

技术领域

本公开涉及无线定位技术领域，具体地，涉及一种视觉定位的方法、装置、存储介质和电子设备。

背景技术

随着终端技术的不断发展，越来越多的技术领域开始使用视觉定位技术来获得终端的准确定位，例如：智能机器人、无人驾驶、智能导航等领域。终端利用图像采集设备采集所处外界环境的视觉图像，并根据对视觉图像的分析来进行定位。对视觉图像的分析主要分为两类：SLAM(英文：Simultaneous Localization and Mapping，中文：即时定位与地图构建)方法和深度学习方法。SLAM方法计算量大，过程复杂，定位准确度较低，而深度学习方法通过设计一个定位网络，就能够利用视觉图像直接得到位姿信息，实现简单，准确度高。在现有技术中，深度学习方法中的定位网络，只适应于在比较稳定的环境中进行定位，而现实应用中，外界环境通常是复杂多变的，因此当外界环境发生变化时，终端很容易受到环境干扰，导致定位的准确度降低。

发明内容

本公开的目的是提供一种视觉定位的方法、装置、存储介质和电子设备，用以解决现有技术中存在的定位准确度低，适应度差点问题。

为了实现上述目的，根据本公开实施例的第一方面，提供一种视觉定位的方法，所述方法包括：

根据预设的训练图像集生成特征提取网络和定位网络；

将当前时刻获取的目标图像作为所述特征提取网络的输入，以确定所述目标图像对应的特征图像，所述特征图像包括所述目标图像的图像特征；

将所述特征图像作为所述定位网络的输入，以获取所述定位网络输出的位姿信息。

可选地，所述将当前时刻获取的目标图像作为所述特征提取网络的输入，以确定所述目标图像对应的特征图像，包括：

将所述目标图像作为所述特征提取网络的输入，以获取所述特征提取网络输出的预设数量个特征图；

按照所述预设数量个特征图中每个所述特征图对应的位置信息，将所述预设数量个特征图合成为所述特征图像。

可选地，所述根据训练图像集生成特征提取网络和定位网络，包括：

获取所述训练图像集，所述训练图像集中包括多个训练图像；

根据所述多个训练图像中每个所述训练图像中的环境信息，将所述多个训练图像分为第一图像集和第二图像集，所述环境信息包括：季节状态、天气状态、时间信息中的至少一种；

根据所述第一图像集和所述第二图像集，生成所述特征提取网络和所述定位网络。

可选地，所述根据所述第一图像集和所述第二图像集，生成所述特征提取网络和所述定位网络，包括：

根据所述第一图像集和所述第二图像集对初始特征提取网络进行训练，以获取所述特征提取网络，所述特征提取网络能够提取所述第一图像集和所述第二图像集共同具有的图像特征；

将第三图像集作为所述特征提取网络的输入，以确定所述第三图像集中每个所述训练图像对应的特征图像，所述第三图像集为所述多个训练图像中的全部所述训练图像或部分所述训练图像；

根据所述第三图像集中每个所述训练图像对应的特征图像和所述第三图像集中每个所述训练图像对应的位姿信息对初始定位网络进行训练，以获取所述定位网络。

可选地，所述将第三图像集作为所述特征提取网络的输入，以确定所述第三图像集中每个所述训练图像对应的特征图像，包括：

依次将所述第三图像集中每个所述训练图像作为所述特征提取网络的输入，以获取所述特征提取网络输出的预设数量个特征图；

依次按照所述预设数量个特征图中每个所述特征图对应的位置信息，将所述预设数量个特征图合成为所述第三图像集中每个所述训练图像对应的特征图像。

可选地，所述特征提取网络为卷积神经网络，所述根据所述第一图像集和所述第二图像集对初始特征提取网络进行训练，以获取所述特征提取网络，包括：

将所述第一图像集作为所述初始特征提取网络的输入，以获取所述初始特征提取网络的输出；

将所述初始特征提取网络的输出与所述第二图像集进行比较，以修正所述初始特征提取网络，并将所述初始特征提取网络更新为修正后的所述初始特征提取网络；

将所述第二图像集作为所述初始特征提取网络的输入，以获取所述初始特征提取网络的输出；

将所述初始特征提取网络的输出与所述第一图像集进行比较，以修正所述初始特征提取网络，并将所述初始特征提取网络更新为修正后的所述初始特征提取网络；

重复执行所述将所述第一图像集作为所述初始特征提取网络的输入，以获取所述初始特征提取网络的输出，至所述将所述初始特征提取网络的输出与所述第一图像集进行比较，以修正所述初始特征提取网络，并将所述初始特征提取网络更新为修正后的所述初始特征提取网络的步骤，直至所述初始特征提取网络满足第一预设条件；

将满足所述第一预设条件的所述初始特征提取网络作为所述特征提取网络。

可选地，所述根据所述第三图像集中每个所述训练图像对应的特征图像和所述第三图像集中每个所述训练图像对应的位姿信息对初始定位网络进行训练，以获取所述定位网络，包括：

依次将所述第三图像集中每个所述训练图像对应的特征图像作为所述初始定位网络的输入，以获取所述初始定位网络的输出；

依次将所述初始定位网络的输出与所述第三图像集中每个所述训练图像对应的位姿信息进行比较，以修正所述初始定位网络；

重复执行所述依次将所述第三图像集中每个所述训练图像对应的特征图像作为所述初始定位网络的输入，以获取所述初始定位网络的输出，至所述依次将所述初始定位网络的输出与所述第三图像集中每个所述训练图像对应的位姿信息进行比较，以修正所述初始定位网络的步骤，直至所述初始定位网络满足第二预设条件；

将满足所述第二预设条件的所述初始定位网络作为所述定位网络。

根据本公开实施例的第二方面，提供一种视觉定位的装置，所述装置包括：

生成模块，用于根据预设的训练图像集生成特征提取网络和定位网络；

特征提取模块，用于将当前时刻获取的目标图像作为所述特征提取网络的输入，以确定所述目标图像对应的特征图像，所述特征图像包括所述目标图像的图像特征；

定位模块，用于将所述特征图像作为所述定位网络的输入，以获取所述定位网络输出的位姿信息。

可选地，所述特征提取模块包括：

提取子模块，用于将所述目标图像作为所述特征提取网络的输入，以获取所述特征提取网络输出的预设数量个特征图；

合成子模块，用于按照所述预设数量个特征图中每个所述特征图对应的位置信息，将所述预设数量个特征图合成为所述特征图像。

可选地，所述生成模块包括：

获取子模块，用于获取所述训练图像集，所述训练图像集中包括多个训练图像；

分类子模块，用于根据所述多个训练图像中每个所述训练图像中的环境信息，将所述多个训练图像分为第一图像集和第二图像集，所述环境信息包括：季节状态、天气状态、时间信息中的至少一种；

生成子模块，用于根据所述第一图像集和所述第二图像集，生成所述特征提取网络和所述定位网络。

可选地，所述生成子模块用于：

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面提供的视觉定位的方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面提供的视觉定位的方法的步骤。

通过上述技术方案，本公开首先通过预设的训练图像集来生成特征提取网络和定位网络，之后将当前时刻获取的目标图像输入到特征提取网络中，从而得到包含了目标图像的图像特征的特征图像，最后将特征图像作为定位网络的输入，以获取定位网络输出的位姿信息。通过提取目标图像中包含的特征来实现视觉定位，能够避免环境干扰，提高视觉定位的适应度和准确度。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种视觉定位的方法的流程图；

图2是根据一示例性实施例示出的另一种视觉定位的方法的流程图；

图3是根据一示例性实施例示出的另一种视觉定位的方法的流程图；

图4是根据一示例性实施例示出的一种视觉定位的装置的框图；

图5是根据一示例性实施例示出的另一种视觉定位的装置的框图；

图6是根据一示例性实施例示出的另一种视觉定位的装置的框图；

图7是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本公开提供的视觉定位的方法、装置、存储介质和电子设备之前，首先对本公开各个实施例所涉及应用场景进行介绍。该应用场景中可以是任一种需要定位的终端(例如：机器人、车辆等)，该终端上可以设置有图像采集设备(例如：摄像头或相机)，用以采集终端所处外界环境的图像。

图1是根据一示例性实施例示出的一种视觉定位的方法的流程图，如图1所示，该方法包括以下步骤：

步骤101，根据预设的训练图像集生成特征提取网络和定位网络。

举例来说，由于终端所处环境复杂多变，可以通过终端上设置的图像采集设备预先采集终端位于同一区域范围(可以理解为终端的移动范围)在不同环境下的多个训练图像(例如可以是RGB图像)，以组成训练图像集。

首先根据训练图像集生成特征提取网络，使得特征提取网络能够提取训练图像集中多个训练图像共同具有的图像特征。再将训练图像集中的全部或部分训练图像输入到特征提取网络中，以获取训练图像对应的特征图像，最后根据训练图像对应的特征图像生成与特征提取网络匹配的定位网络。其中每个训练图像对应的特征图像中都包括了每个训练图像的图像特征。由于训练图像集中包含了不同环境下的多个训练图像，因此由训练图像集训练得到的特征提取网络能够适应不同环境。即特征提取网络能够去除图像中的环境信息(即由于环境的变化带来的干扰)，提取不同环境下的图像集具有的稳定的图像特征，可以理解为提取训练图像集中多个训练图像共同具有的图像特征。相应的，由训练图像集和特征提取网络确定的定位网络也能够适应不同环境，实现终端的定位。

步骤102，将当前时刻获取的目标图像作为特征提取网络的输入，以确定目标图像对应的特征图像，特征图像包括目标图像的图像特征。

步骤103，将特征图像作为定位网络的输入，以获取定位网络输出的位姿信息。

示例的，在步骤101中确定了特征提取网络和定位网络之后，将当前时刻获取的目标图像输入到特征提取网络中，特征提取网络输出目标图像对应的多个特征图(英文：Feature Map)，之后将多个特征图合并为一个特征图像，该特征图像中就包括了目标图像全部的图像特征。其中，图像特征可以包括：颜色特征、纹理特征、形状特征和空间关系特征中的一种或几种。然后再将特征图像输入到定位网络中，以获取定位网络输出的位姿信息，从而实现终端的定位。由于特征提取网络输出的特征图像中，能够去除目标图像中由于环境的变化带来的干扰，因此相比于现有技术中将目标图像作为定位网络的输入来获取位姿信息，本公开中将特征图像作为定位网络的输入，能够适应于不同的环境，提高了视觉定位的适应度和准确度。

综上所述，本公开首先通过预设的训练图像集来生成特征提取网络和定位网络，之后将当前时刻获取的目标图像输入到特征提取网络中，从而得到包含了目标图像的图像特征的特征图像，最后将特征图像作为定位网络的输入，以获取定位网络输出的位姿信息。通过提取目标图像中包含的特征来实现视觉定位，能够避免环境干扰，提高视觉定位的适应度和准确度。

图2是根据一示例性实施例示出的另一种视觉定位的方法的流程图，如图2所示，步骤102可以通过以下步骤来实现：

步骤1021，将目标图像作为特征提取网络的输入，以获取特征提取网络输出的预设数量个特征图。

步骤1022，按照预设数量个特征图中每个特征图对应的位置信息，将预设数量个特征图合成为特征图像。

举例来说，以特征提取网络为卷积神经网络(英文：Convolutional NeuralNetworks，缩写：CNN)，卷积神经网络中包括256个卷积核(即过滤器)为例。将目标图像输入卷积神经网络，卷积神经网络会输出256个大小为64*64的特征图，256个特征图中每个特征图都包含有相应的位置信息，位置信息可以理解为每个特征图对应在目标图像中的区域范围。之后将256个特征图按照对应的位置信息合成为一个特征图像。这个特征图像去除了目标图像中包含的环境信息，能够直观反映出目标图像中稳定的图像特征。

图3是根据一示例性实施例示出的另一种视觉定位的方法的流程图，如图3所示，步骤101包括：

步骤1011，获取训练图像集，训练图像集中包括多个训练图像。

示例的，可以通过终端上设置的图像采集设备按照预设频率采集一段时间内，同一区域范围内的多个训练图像来组成训练图像集，每个训练图像中都包含有环境信息，还可以包含对应的位姿信息。例如以一周为频率采集一年内终端移动范围内的图像，作为训练图像集，可以得到包含了春、夏、秋、冬四个季节对应的多个训练图像。或者以6小时为频率采集两个月内终端移动范围内的图像，作为训练图像集，可以得到包含了多种天气对应的多个训练图像。再或者以1小时为频率采集一周内终端移动范围内的图像，作为训练图像集，可以得到包含了白天、黑夜对应的多个训练图像。

步骤1012，根据多个训练图像中每个训练图像中的环境信息，将多个训练图像分为第一图像集和第二图像集，环境信息包括：季节状态、天气状态、时间信息中的至少一种。

步骤1013，根据第一图像集和第二图像集，生成特征提取网络和定位网络。

进一步的，按照每个训练图像中的环境信息对训练图像集进行分类，以将训练图像集分为两类：第一图像集和第二图像集。其中，环境信息包括：季节状态(春、夏、秋、冬)、天气状态(例如：晴天、多云、雨天、雪天、雾、霾或沙尘暴等)或者时间信息(例如：白天、黑夜)中的至少一种。比如，按照季节状态，可以将训练图像集中环境信息为春、夏、冬的训练图像分为第一图像集，将环境信息为秋的训练图像分为第二图像集。或者按照天气状态，将训练图像集中环境信息为晴天和多云的训练图像分为第一图像集，将环境信息为雨天、雪天、雾、霾、沙尘暴的训练图像分为第二图像集。还可以按照时间信息，将环境信息为白天的训练图像分为第一图像集，将环境信息为黑夜的训练图像分为第二图像集。之后，根据第一图像集和第二图像集来确定特征提取网络和与特征提取网络匹配的定位网络。

相比于现有技术中，针对不同环境设置不同的定位网络，本实施例能够根据不同环境下获取的多个训练图像来确定适应不同环境的特征提取网络，并生成相应的定位网络，因此只需要一个定位网络就能够实现不同环境中的定位，便于应用和操作，提高了视觉定位的适应度和准确度。

具体的，步骤1013的实现方式可以包括：

A)根据第一图像集和第二图像集对初始特征提取网络进行训练，以获取特征提取网络，特征提取网络能够提取第一图像集和第二图像集共同具有的图像特征。

具体的，步骤A)的实现可以通过以下步骤：

1)将第一图像集作为初始特征提取网络的输入，以获取初始特征提取网络的输出。

2)将初始特征提取网络的输出与第二图像集进行比较，以修正初始特征提取网络，并将初始特征提取网络更新为修正后的初始特征提取网络。

3)将第二图像集作为初始特征提取网络的输入，以获取初始特征提取网络的输出。

4)将初始特征提取网络的输出与第一图像集进行比较，以修正初始特征提取网络，并将初始特征提取网络更新为修正后的初始特征提取网络。

5)重复执行步骤1)至4)，直至初始特征提取网络满足第一预设条件。

6)将满足第一预设条件的初始特征提取网络作为特征提取网络。

举例来说，可以利用CycleGAN(英文：Cycle Generative Adversarial Networks，中文：环形生成式对抗网络)的框架来获取特征提取网络。CycleGAN是一种风格迁移网络，能够将两种不同风格的图像进行相互转换，可以理解为两个镜像对称的GAN(英文：Generative Adversarial Networks，中文：生成式对抗网络)构成的一个环形网络。需要说明的是，CycleGAN可以划分为编码模块、转换模块和解码模块三部分。其中，编码模块：可以理解为利用卷积神经网络从输入的图像中提取特征，将图像压缩成多个特征图。转换模块：可以理解为通过组合图像的不相近特征，将第一图像集中的特征图转换为第二图像集中的特征图。解码模块：可以理解为利用反卷积层(英文：Decovolution)根据多个特征图还原出图像。

首先将第一图像集输入到CycleGAN中，CycleGAN输出一个模仿第二图像集的风格的图像，之后将该图像与第二图像集进行比较，从而修正CycleGAN中卷积核的参数。再将第二图像集输入到修正后的CycleGAN中，得到一个模仿第二图像集的风格的图像，之后将该图像与第一图像集进行比较，再一次修正CycleGAN中卷积核的参数。重复执行以上步骤，直至CycleGAN满足第一预设条件，此时可以将CycleGAN中的编码模块(即CycleGAN中的卷积神经网络)作为适应于训练图像集的特征提取网络，以提取第一图像集和第二图像集共同具有的图像特征。其中，第一预设条件可以是CycleGAN的输出与预期输出之间的循环一致性损失小于预设阈值。

B)将第三图像集作为特征提取网络的输入，以确定第三图像集中每个训练图像对应的特征图像，第三图像集为多个训练图像中的全部训练图像或部分训练图像。

利用特征提取网络获取特征图像的实现包括：

7)依次将第三图像集中每个训练图像作为特征提取网络的输入，以获取特征提取网络输出的预设数量个特征图。

8)依次按照预设数量个特征图中每个特征图对应的位置信息，将预设数量个特征图合成为第三图像集中每个训练图像对应的特征图像。

举个例子，第三图像集为训练图像集中包含了位姿信息的训练图像(例如在步骤1011中获取训练图像集时确定的位姿信息)，可以是训练图像集中的全部训练图像，也可以是部分训练图像。将第三图像集输入到特征提取网络，得到第三图像集中每个训练图像对应的特征图像。

C)根据第三图像集中每个训练图像对应的特征图像和第三图像集中每个训练图像对应的位姿信息对初始定位网络进行训练，以获取定位网络。

以定位网络为PoseNet，对应的初始定位网络为初始PoseNet来举例，步骤C)中获取定位网络的训练步骤可以为：

9)依次将第三图像集中每个训练图像对应的特征图像作为初始定位网络的输入，以获取初始定位网络的输出。

10)依次将初始定位网络的输出与第三图像集中每个训练图像对应的位姿信息进行比较，以修正初始定位网络。

11)重复执行步骤9)至步骤10)，直至初始定位网络满足第二预设条件。

12)将满足第二预设条件的初始定位网络作为定位网络。

示例的，将第一图像对应的特征图像输入到初始PoseNet中，初始PoseNet输出一个初始位姿信息，之后将初始位姿信息与第一图像中对应的位姿信息进行比较，以修正初始PoseNet中卷积核的参数，其中，第一图像为第三图像集中任意一个训练图像。依次根据第三图像集中每个训练图像来训练初始PoseNet，不断修正初始PoseNet中卷积核的参数。重复执行以上步骤，直至初始PoseNet满足第二预设条件，此时可以将PoseNet作为与特征提取网络匹配的定位网络。其中，第二预设条件可以是初始PoseNet输出的位姿信息与预期输出的位姿信息之间的差值小于预设阈值。

图4是根据一示例性实施例示出的一种视觉定位的装置的框图，如图4所示，该装置200包括：

生成模块201，用于根据预设的训练图像集生成特征提取网络和定位网络。

特征提取模块202，用于将当前时刻获取的目标图像作为特征提取网络的输入，以确定目标图像对应的特征图像，特征图像包括目标图像的图像特征。

定位模块203，用于将特征图像作为定位网络的输入，以获取定位网络输出的位姿信息。

图5是根据一示例性实施例示出的另一种视觉定位的装置的框图，如图5所示，特征提取模块202可以包括：

提取子模块2021，用于将目标图像作为特征提取网络的输入，以获取特征提取网络输出的预设数量个特征图。

合成子模块2022，用于按照预设数量个特征图中每个特征图对应的位置信息，将预设数量个特征图合成为特征图像。

图6是根据一示例性实施例示出的另一种视觉定位的装置的框图，如图6所示，生成模块201可以包括：

获取子模块2011，用于获取训练图像集，训练图像集中包括多个训练图像。

分类子模块2012，用于根据多个训练图像中每个训练图像中的环境信息，将多个训练图像分为第一图像集和第二图像集，环境信息包括：季节状态、天气状态、时间信息中的至少一种。

生成子模块2013，用于根据第一图像集和第二图像集，生成特征提取网络和定位网络。

可选地，生成子模块2013可以用于执行以下步骤：

可选地，步骤A)可以包括以下步骤：

5)重复执行步骤1)至步骤4)，直至初始特征提取网络满足第一预设条件。

可选地，步骤B)可以包括以下步骤：

可选地，步骤C)可以包括以下步骤：

12)将满足第二预设条件的初始定位网络作为定位网络。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备300的框图。如图7所示，该电子设备300可以包括：处理器301，存储器302。该电子设备300还可以包括多媒体组件303，输入/输出(I/O)接口304，以及通信组件305中的一者或多者。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的视觉定位的方法中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件303可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件305发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口304为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件305用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件305可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的视觉定位的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的视觉定位的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器302，上述程序指令可由电子设备300的处理器301执行以完成上述的视觉定位的方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由所述可编程的装置执行时用于执行上述视觉定位的方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种视觉定位的方法，其特征在于，所述方法包括：

根据预设的训练图像集生成特征提取网络和定位网络；

将所述特征图像作为所述定位网络的输入，以获取所述定位网络输出的位姿信息；

所述根据训练图像集生成特征提取网络和定位网络，包括：

2.根据权利要求1所述的方法，其特征在于，所述将当前时刻获取的目标图像作为所述特征提取网络的输入，以确定所述目标图像对应的特征图像，包括：

3.根据权利要求1所述的方法，其特征在于，所述将第三图像集作为所述特征提取网络的输入，以确定所述第三图像集中每个所述训练图像对应的特征图像，包括：

4.根据权利要求1所述的方法，其特征在于，所述特征提取网络为卷积神经网络，所述根据所述第一图像集和所述第二图像集对初始特征提取网络进行训练，以获取所述特征提取网络，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述第三图像集中每个所述训练图像对应的特征图像和所述第三图像集中每个所述训练图像对应的位姿信息对初始定位网络进行训练，以获取所述定位网络，包括：

6.一种视觉定位的装置，其特征在于，所述装置包括：

定位模块，用于将所述特征图像作为所述定位网络的输入，以获取所述定位网络输出的位姿信息；

所述生成模块包括：

生成子模块，用于根据所述第一图像集和所述第二图像集对初始特征提取网络进行训练，以获取所述特征提取网络，所述特征提取网络能够提取所述第一图像集和所述第二图像集共同具有的图像特征；将第三图像集作为所述特征提取网络的输入，以确定所述第三图像集中每个所述训练图像对应的特征图像，所述第三图像集为所述多个训练图像中的全部所述训练图像或部分所述训练图像；根据所述第三图像集中每个所述训练图像对应的特征图像和所述第三图像集中每个所述训练图像对应的位姿信息对初始定位网络进行训练，以获取所述定位网络。

7.根据权利要求6所述的装置，其特征在于，所述特征提取模块包括：

8.根据权利要求6所述的装置，其特征在于，所述生成子模块用于：

9.根据权利要求6所述的装置，其特征在于，所述生成子模块用于：

10.根据权利要求6所述的装置，其特征在于，所述生成子模块用于：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-5中任一项所述方法的步骤。