CN110770758B

CN110770758B - 确定可移动的设备的位置

Info

Publication number: CN110770758B
Application number: CN201880020559.7A
Authority: CN
Inventors: 罗纳德·克拉克; 王森; 尼基·特里戈尼
Original assignee: Oxford University Innovation Ltd
Current assignee: Oxford University Innovation Ltd
Priority date: 2017-01-23
Filing date: 2018-01-17
Publication date: 2024-06-04
Anticipated expiration: 2038-01-17
Also published as: CN110770758A; US11348274B2; AU2018209336B2; US20210407122A1; EP3571664A1; JP7121017B2; JP2020505695A; WO2018134587A1; EP3571664B1; AU2018209336A1

Abstract

一种确定包括摄像头和至少一个惯性传感器的可移动的设备的位置的计算机执行的方法。在一段时间内捕获图像序列，并且第一神经网络从连续图像对确定表明设备的运动的特征。捕获表明设备的运动的数据，并且第二神经网络从数据确定表明设备的运动的特征。然后，第三神经网络从由第一神经网络确定的特征和第二神经网络确定的特征确定表明设备的位置的特征。设备的位置是从由第三神经网络确定的特征确定的。

Description

确定可移动的设备的位置

技术领域

本发明涉及确定可移动的设备的位置。更具体地但非排他地，本发明涉及使用神经网络从由可移动的设备的摄像头捕获的图像和由可移动的设备的惯性传感器捕获的运动信息的组合确定可移动的设备的位置。

本发明特别地但非排他地适用于可移动的设备是自主机器人的情况。然而，本发明还适用于其他类型的可移动的设备和可穿戴的设备，例如移动电话、智能手表等。

这里讨论的“位置”可以指绝对位置，例如可移动的设备位于由纬度和经度定义的地球上的位置，并且还可以指相对于另一位置的相对位置(例如，可移动的设备距离初始起始位置的距离和方向)。位置的确定还经常包括方向的确定，例如相对于地球磁场的绝对值，以及相对于初始方向一定量的旋转的相对值。

背景技术

期望能够在GPS信号不可用的情况下确定可移动的设备的位置。这对于自主机器人来说尤其如此，以允许精确的导航。已知的方法是使用来自摄像头的图像以便确定位置。然而，如果要可靠地确定位置，则这种系统往往需要非常精确的摄像头的校准。传统的视觉测程技术包括稀疏方法(包括若干步骤，该几个步骤包括特征的检测和匹配、运动估计和优化)，以及直接方法(包括运动估计和优化的步骤)。这种技术倾向于需要精确的摄像头校准，并且通常在纹理不良的环境中(即，具有很少特征的地方)或者当正在捕获图像的摄像头快速旋转时失败。另外，虽然这种系统通常能够确定行进的路径的形状，但是它们通常不能估计尺度，即行进的实际距离。

替代性地，已知使用神经网络来处理来自摄像头的图像以便确定位置。Mohanty等人的“DeepVO：A Deep Learning approach for Monocular Visual Odometry(用于单目视觉测程的深度学习方法)”(2016年11月18日发布于预印本网站(arXiv：1611.06069))公开了这样的系统。然而，使用神经网络的已知系统存在各种问题。它们往往需要针对将要使用它们的特定环境进行训练，因此无法在没有首先进行适当的训练的新环境中使用。

已知使用神经网络来学习摄像头姿势和惯性数据之间的关系。“Learning toFuse:A Deep Learning Approach to Visual-Inertial Camera Pose Estimation(视觉惯性摄像头姿势估计的深度学习方法)”(2016年12月15日发布于IEEE ISMAR)公开了这样的系统。然而，使用神经网络的已知方法存在各种问题。不利的是，它们需要使用传统方法处理摄像头数据以获得准确的姿势估计，并且需要标记来操作。此外，它们无法使用原始数据作为输入进行端到端的训练。

组合图像数据和运动数据以确定位置的系统是已知的。然而，这种系统的问题是图像数据和运动数据需要是时间同步的，使得这种系统难以建立，因为惯性传感器没有设计成以与摄像头捕获图像相同的间隔提供运动数据。此外，摄像头或惯性传感器的任何误校准都可能导致严重错误。

本发明寻求缓解上述问题。可选择地和/或附加地，本发明寻求提供确定可移动的设备的位置的改进方法。

发明内容

根据本发明的第一方面，提供了一种确定包括摄像头和至少一个惯性传感器的可移动的设备的位置的计算机执行的方法，该方法包括以下步骤：

使用摄像头捕获一段时间内的图像序列；

对于来自图像序列的连续图像对，使用第一神经网络确定表明设备的运动的特征，该设备的运动在捕获该图像对的第一图像的时间与捕获该图像对的第二图像的时间之间；

使用至少一个惯性传感器捕获表明设备的运动的数据；

使用第二神经网络从来自至少一个惯性传感器的表明设备的运动的数据确定表明设备的运动的特征；

对于连续图像序列，使用第三神经网络从由第一神经网络确定的特征和由第二神经网络确定的特征确定表明设备的位置的特征；以及

对于连续图像序列，从由第三神经网络确定的特征确定设备的位置。

通过使用第一神经网络和第二神经网络从图像和运动数据二者确定特征，然后使用第三神经网络从这些特征确定位置，已经发现更加稳健得多和更加可靠得多的位置确定是可能的。特别地，不需要单独地仔细校准摄像头和惯性传感器，特别是相互之间的校准，以及两者之间的时间同步。此外，通过训练整个系统，可以同时训练所有神经网络。这意味着特别地可以训练第一神经网络和第二神经网络以确定对于整个系统的操作是最好的任何运动特征，而不是训练第一神经网络和第二神经网络以确定具有预选属性的运动特征，这些具有预选属性的运动特征实际上可能不是要使用的最佳特征类型。此外，将训练第一神经网络和第二神经网络以确定最好彼此组合的特征，即，期望的来自第一神经网络的特征和来自第二神经网络的特征的任何同步将作为训练的部分被自动地处理。此外，当第三神经网络采用来自第一神经网络的特征和来自第二神经网络的特征时，第三神经网络将在同一时间被训练以最佳地处理可能存在的任何校准或同步的缺乏(第三神经网络将在多大程度上被训练以处理任何同步的缺乏将从训练自动产生；通常，如果同步导致更好的位置确定，那么第一神经网络和第二神经网络将被训练为同步，然而如果第三神经网络可以有效地处理同步的缺乏，那么第三神经网络将被训练这样做)。

优选地，除了确定设备的位置外，还确定设备的方向。因此，确定了设备的“姿势”。

优选地，图像序列的图像是单目图像。

至少一个惯性传感器包括加速度计和/或陀螺仪。至少一个惯性传感器可以可选择地或附加地包括磁力计或任何其他适当的惯性传感器。

有利地，第一神经网络是卷积神经网络。这种类型的神经网络特别适用于对具有大量参数的数据(例如图像数据)进行操作。

有利地，第二神经网络是递归神经网络。在这种情况下，优选地，第二神经网络是长短期记忆神经网络。

有利地，第三神经网络是递归神经网络。在这种情况下，优选地，第三神经网络是长短期记忆神经网络。递归神经网络，特别是长短期记忆类型，特别适合于对时间依赖性的数据进行操作。

优选地，该方法还包括针对每对连续捕获的图像，从由第二神经网络确定的特征确定设备的相对位置信息和方向信息的步骤。在这种情况下，优选地，确定设备的位置的步骤包括整合从由第二神经网络确定的特征确定的相对位置信息和方向信息。换句话说，从连续运动估计在测量上确定设备的位置。

有利地，该方法还包括针对每对连续捕获的图像，确定相对位置信息和方向信息的相应不确定性信息的步骤。不确定性信息可以与姿势信息一起用作即时定位与地图构建(Simultaneous Localisation And Mapping，SLAM)算法的输入。

图像序列的每个图像可以已经与其相应的位置信息相关联，并且该方法还可以包括使用相应的位置信息训练第一神经网络和第二神经网络的步骤。优选地，每个图像还已经与其方向信息相关联。

有利地，该方法还包括训练第一神经网络、第二神经网络和第三神经网络以最大化由第一神经网络确定的特征和由第二神经网络确定的特征之间的相关性的步骤。由于第一神经网络的特征和第二神经网络的特征二者都表明可移动的设备的运动，因此通常应该预期特征之间的相关性，并且因此最大化这种相关性的训练是有利的。

该设备可以是自主机器人。该设备可以替代性地是移动电话、可穿戴设备或任何其他合适的可移动的设备。

根据本发明的第二方面，提供了一种可移动的设备，该可移动的设备包括：

存储器；

处理器；

摄像头；

至少一个惯性传感器；

其中，该设备被布置为：

使用摄像头捕获一段时间内的图像序列；

使用由处理器提供的第一神经网络从来自图像序列的连续图像对确定表明设备的运动的特征，该设备的运动在捕获该图像对的第一图像的时间与捕获该图像对的第二图像的时间之间；

使用至少一个惯性传感器捕获表明设备的运动的数据；

对于连续图像序列，使用由处理器提供的第三神经网络从由第一神经网络确定的特征和由第二神经网络确定的特征确定表明设备的位置的特征；以及

对于连续图像序列，从由第二神经网络确定的特征确定设备的位置。

优选地，该设备被布置为除了确定设备的位置之外还确定设备的方向。

优选地，图像序列的图像是单目图像。

至少一个惯性传感器包括加速度计和/或陀螺仪。

有利地，第一神经网络是卷积神经网络。

有利地，第三神经网络是递归神经网络。在这种情况下，优选地，第三神经网络是长短期记忆神经网络。

优选地，该设备还被布置为针对每对连续捕获的图像，从由第二神经网络确定的特征确定设备的相对位置信息和方向信息。在这种情况下，优选地，该设备被布置为通过整合从由第二神经网络确定的特征确定的相对位置信息和方向信息确定设备的位置。

有利地，该设备还被布置为针对每对连续捕获的图像，确定相对位置信息和方向信息的相应不确定性信息。

根据本发明的第三方面，提供了一种计算机程序产品，该计算机程序产品被布置为当在可移动的设备上执行时，实施上述任何方法。

根据本发明的第四方面，提供了一种计算机程序产品，该计算机程序产品被布置为当在可移动的设备上执行时，提供上述任何可移动的设备。

当然可以理解，关于本发明的一个方面描述的特征可以结合到本发明的其他方面中。例如，本发明的方法可以结合参考本发明的可移动的设备描述的任何特征，反之亦然。

附图说明

现在将通过示例的方式仅参考所附的示意图来描述本发明的实施例，其中：

图1是根据本发明的实施例的自主机器人的示意图；

图2是示出图1的自主机器人估计其位置的操作的流程图；

图3是表示图2的过程的原理图；以及

图4是在图2和图3的过程中使用的LSTM的原理图。

具体实施方式

在图1中示出了根据本发明的实施例的自主机器人的示意图。自主机器人1包括处理器2。应当理解，在不同的实施例中，处理器2可以是单处理器系统、双处理器系统或任何其他合适的处理器系统。处理器2与摄像头3、惯性传感器5和存储器4通信，存储器4存储由摄像头3捕获的图像(以及其他内容)和由惯性传感器5捕获的运动数据。

惯性传感器5可以是陀螺仪、加速度计、磁力计或任何其他合适的惯性传感器，或实际上是这些装置的组合。

现在参考图2的流程图描述自主机器人1确定其位置的操作。该过程也在图3中示意性地示出。在每个时间步，自主机器人1基于当前对其可用的信息确定其位置。图3示出了三个连续的时间步t、t+1和t+2，其中对于每个时间步，确定自主机器人1的“姿势(pose)”，其分别为Pose_t、Pose_t+1和Pose_t+2，其中姿势是位置信息和朝向信息(即自主机器人面向的方向)的组合。

首先，获得由摄像头3连续捕获的图像对(步骤21，图3的部分31)。然后，通过从示例图像集中减去平均RGB通道值，对每个图像进行预处理(步骤22，图3的部分32)。该图像集可以是例如，如下面详细描述的训练自主机器人1的图像。此外，图像的尺寸调整为64的倍数。然而，这种预处理是可选的，并且在其他实施例中不会出现。在图3中可以看出，对于时间步t，初始图像对产生预处理图像RGB_t和RGB_t+1，而对于时间步t+1，预处理图像是RGB_t+1和RGB_t+2，对于其他时间步以此类推。

由处理器2和存储器4实现的卷积神经网络(Convolutional Neural Network，CNN)获取该预处理图像对并且使用该预处理图像对来确定特征(步骤23，图3的部分33)。CNN根据它的训练确定特征，该训练已经如以下所述执行。

CNN是一种在网络结构中结合卷积层的神经网络，因此，与在其他类型的神经网络中使用的完全连接层形成鲜明对比的是，CNN能够利用数据的空间规律性。这意味着CNN所需的参数数量显著减少，从而允许它们在高维输入(例如原始图像数据)上操作。在CNN中，在每个卷积层应用多重卷积运算，以从前一层的输出映射确定多个特征。在训练期间学习与映射进行卷积的滤波器内核，如例如在[38]中所描述的。

CNN将通过堆叠预处理的连续图像对而生成的张量作为输入。CNN由9个卷积层组成，除了最后一个卷积层以外，每个卷积层跟随有整流线性单元(Rectified Linear Unit，ReLU)非线性激活，总共给出17层。层配置如下：

层	感受野尺寸	补白(padding)	步幅	通道的数量
					Conv1	7×7	3	2	64
Conv2	5×5	2	2	128
					Conv3	5×5	2	2	256
Conv3_1	3×3	1	1	256
					Conv4	3×3	1	2	512
Conv4_1	3×3	1	1	512
					Conv5	3×3	1	2	512
Conv5_1	3×3	1	1	512
					Conv6	3×3	1	2	1024

网络中感受野的尺寸逐渐从7×7缩小到5×5，然后逐渐缩小到3×3，以捕捉小的感兴趣的特征。引入零补白要么以适应感受野的配置，要么以在卷积之后保持张量的空间维度。增加通道的数量(即用于特征检测的滤波器的数量)，以学习各种特征。

在本实施例中，CNN具有5500万可训练的权重，但是应当理解，在其他实施例中，可以使用不同数量的权重。

然后来自最终层(即Conv6)的特征是CNN的输出。

同时，第一递归神经网络(Recurrent Neural Network，RNN)从惯性传感器5获取运动数据，并使用运动数据来确定特征(步骤24，图3的部分34)。与CNN类似，第一RNN根据第一RNN的训练确定特征，该训练已经如以下所述执行。

RNN是各层对输入进行操作，但也对隐藏层和/或输出的延迟版本进行操作的一种神经网络。通过这种方式，RNN具有它们可以用作“记忆”的内部状态，以跟踪过去的输入和相应的决定。

在本实施例中，使用具有长短期记忆(Long Short-Term Memory，LTSM)架构的RNN(其中存在各种变化)，如图4所示，其中⊙表示逐个元素的乘积，并且⊕表示两个向量的加法。记忆单元的内容存储在c_t中。输入门对当前时间步输入如何进入记忆的内容进行控制。遗忘门f_t通过产生控制信号0到1来确定何时应该清空记忆单元，控制信号0到1根据需要清除记忆单元。最后，输出门o_t确定是否应该在当前时间步使用记忆细胞的内容。RNN的操作由以下等式描述：

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f)

z_t＝tanh(W_xcx_t+W_hch_t-1+b_c)

c_t＝f_t⊙c_t-1+i_t⊙z_t

o_t＝act(W_xox_t+W_hoh_t-1+W_coc_t+b_o)

h_t＝o_t⊙tanh(c_t)

参数W_i，j和b_i完全参数化RNN的操作，并且在训练期间学习。递归隐藏层允许网络利用输入数据的时间规律性来改善其性能。

在本实施例中，LSTM具有拥有2000个单元的细胞的两层，但是应当理解，在其他实施例中，可以使用不同数量的层和单元。

然后，由CNN确定的特征和由第一RNN确定的特征被传递到第二RNN，第二RNN使用它们来确定运动特征(步骤25，图3的部分35)。在本实施例中，将第二RNN以及从前一时间步延续的隐藏状态作为输入，前一时间步确定的姿势被直接馈送到RNN。这可以在图3中看到，其中时间步的姿势被馈送到LSTM框以用于下一个时间步。这样做的原因是，对于位置估计，输出本质上是在每个时间步处的连续替代的积分。所以，所确定的前一时间步的姿势是特别重要的。

接着，由(高维度的)RNN所确定的运动特征被传递到完全连接层(步骤26)，该完全连接层输出低维度的特征(对于姿势至少6个特征，对于不确定性至少6个特征，并且如果使用混合高斯模型来估计姿势和不确定性则对于每个可能有更多特征)。

接着，来自完全连接层的低维特征被传递到SE(3)层(步骤27，图3的部分34的SE3框)。SE(3)为每个时间步整合连续的运动特征，以便在每个时间步处确定自主机器人1的位置(实际上是姿势，例如时间步t的Pose_t)。

SE3是特殊的欧几里得群，其元素是变换矩阵，该变换矩阵由来自特殊正交群SO3的旋转和平移向量组成：

产生属于SE3的变换估计并不简单，因为SO3分量需要是正交矩阵。然而，SE3的李代数(Lie Algebra)se3可以由不受制于正交约束的分量来描述：

然后可以使用指数映射完成se3和SE3之间的转换：

exp：se3→SE3。

在替代实施例中，使用旋转的四元数表示来代替矩阵表示。特别地，ω分量被转换为向量：

ω_t＝[0，ω_x，ω_y，ω_z]

然后可以仅使用简单的线性代数运算来计算这些量的梯度。此外，避免了计算指数映射所需的昂贵的特征值失代偿(Eigenvalue Decompensation)。

因此，通过这种方式，自主机器人1使用来自摄像头3的图像来估计其位置，特别是估计其姿势。

从连续的传感器测量值估计位置(即测程法)不可避免地受制于漂移。因此，通常将其与环形闭合、地图匹配或姿势图优化方法结合使用以创建即时定位与地图构建(Simultaneous Localisation and Mapping，SLAM)系统。将测程法测量值集成到这样的系统中的关键方面是不确定性估计的可用性。

为了提供这样的估计，(在SE(3)层之前)使用完全连接层的输出。将由完全连接层产生的估计值与来自训练数据的地面实况姿势信息进行比较，从而导致姿势(位置和方向)中的误差分布。然后使用最大似然法来训练代表不确定性的高斯分布的混合的预测。

为了操作，当然需要训练神经网络，这通过提供测试数据和将要最小化的成本函数来完成。如现在描述的自主机器人1的CNN、第一RNN和第二RNN的训练，实际上，全部同时训练。

如上所述，本实施例的系统估计姿势和不确定性二者。测试数据将是图像序列，这些图像具有“地面实况”姿势(即正确的姿势)。训练的成本函数由两部分组成，第一部分涉及姿势估计，第二部分涉及不确定性估计。对于姿势估计，成本函数的第一部分训练系统以最小化估计的姿势和地面实况姿势之间的差异。对于不确定性估计，成本函数的第二部分通过将神经网络的输出与姿势标签进行比较来训练系统。然后由通过时间的反向传播来完成训练，以调整CNN的权重、第一RNN的权重和第二RNN的权重以最佳地最小化成本函数的结果。

通过这种方式，可以看出训练CNN和第一RNN二者以提供用于输入到第二RNN的最合适的特征，并且同时训练第二RNN以从这些特征(和先前的确定)中最准确地确定自主机器人1的姿势(及其不确定性)。特别地没有训练CNN和第一RNN以最好地提供任何特别的类型的特征或具有任何特定属性的特征；相反地，只是简单地训练它们以提供对整个系统的操作最好的特征。然而，在某些实施例中，为了加速初始训练过程，CNN最初被隔离地训练(或以其他方式提供有具有这种训练效果的权重)以提供表明连续图像之间的移动的特征。这为CNN提供了初始状态，然后CNN在系统作为整体训练时进一步优化训练。

在特别有利的实施例中，使用相关性来执行神经网络的无监督训练。特别地，由于来自摄像头3的图像和来自惯性传感器5的运动数据二者都应表明自主机器人1的相同移动，因此可以进行训练以最大化由CNN从图像确定的特征和由第一RNN从运动数据确定的特征之间的相关性。换句话说，在图像暗示大的移动的情况下，运动数据也是如此(反之亦然)，并且相反地，在图像暗示小的移动的情况下，运动数据也是如此(反之亦然)，因此通常在来自CNN和第一RNN的特征之间应该存在相关性，并且因此通过训练将相关性最大化是有利的。

虽然已经参考特定实施例描述和说明了本发明，但是本领域普通技术人员将理解，本发明本身有许多不同的变化，在此没有具体说明。

在前面的描述中，提及了具有已知的、明显的或可预见的等同物的整体或元素，则这些等同物在此并入，如同单独阐述一样。应该参考用于确定本发明的真实范围的权利要求，应当解释本发明的实际范围以包含任何这样的等同物。读者还将理解，被描述为优选的、有利的、方便的等的本发明的整体或特征是可选的，并且不限制独立权利要求的范围。此外，应当理解，在本发明的一些实施例中虽然可能有益的这些可选的整体或特征可能是不期望的，并且因此可能在其他实施例中不存在。

Claims

1.一种确定包括摄像头和至少一个惯性传感器的可移动的设备的位置的计算机执行的方法，包括以下步骤：

使用所述摄像头捕获一段时间内的图像序列；

对于来自所述图像序列的连续图像对，使用第一神经网络确定表明所述设备的运动的特征，所述设备的运动在捕获所述图像对的第一图像的时间与捕获所述图像对的第二图像的时间之间；

使用所述至少一个惯性传感器捕获表明所述设备的运动的数据；

使用第二神经网络从来自所述至少一个惯性传感器的表明所述设备的运动的数据确定表明所述设备的运动的特征；

使用第三神经网络从由所述第一神经网络确定的特征和由所述第二神经网络确定的特征确定表明所述设备的位置的特征；以及

从由所述第三神经网络确定的特征确定所述设备的位置，

其中，所述第一神经网络是卷积神经网络，所述第二神经网络是第一递归神经网络，所述第三神经网络是第二递归神经网络。

2.根据权利要求1所述的方法，其特征在于，除了确定所述设备的位置之外还确定所述设备的方向。

3.根据权利要求1所述的方法，其特征在于，所述图像序列的图像是单目图像。

4.根据权利要求1所述的方法，其特征在于，所述至少一个惯性传感器包括加速度计和/或陀螺仪。

5.根据权利要求1所述的方法，其特征在于，所述第二神经网络是长短期记忆神经网络。

6.根据权利要求1所述的方法，其特征在于，所述第三神经网络是长短期记忆神经网络。

7.根据权利要求1所述的方法，其特征在于，还包括以下步骤：针对每对连续捕获的图像，从由所述第二神经网络确定的特征确定所述设备的相对位置信息和方向信息。

8.根据权利要求7所述的方法，其特征在于，所述确定所述设备的位置的步骤包括：整合从由所述第三神经网络确定的特征确定的所述相对位置信息和所述方向信息。

9.根据权利要求7所述的方法，其特征在于，还包括：针对每对连续捕获的图像，确定所述相对位置信息和所述方向信息的相应不确定性信息。

10.根据权利要求1所述的方法，其特征在于，所述图像序列的每个图像已经与其相应的位置信息相关联，并且所述方法还包括以下步骤：使用所述相应的位置信息训练所述第一神经网络、所述第二神经网络和所述第三神经网络。

11.根据权利要求1所述的方法，其特征在于，还包括以下步骤：训练所述第一神经网络、所述第二神经网络和所述第三神经网络以最大化由所述第一神经网络确定的特征和由所述第二神经网络确定的特征之间的相关性。

12.根据权利要求1所述的方法，其特征在于，所述设备是自主机器人。

13.一种可移动的设备，其特征在于，包括：

存储器；

处理器；

摄像头；

至少一个惯性传感器；

其中所述设备被布置为：

使用摄像头捕获一段时间内的图像序列；

使用由所述处理器提供的第一神经网络从来自所述图像序列的连续图像对确定表明所述设备的运动的特征，所述设备的运动在捕获所述图像对的第一图像的时间与捕获所述图像对的第二图像的时间之间；

使用由所述处理器提供的第三神经网络从由所述第一神经网络确定的特征和由所述第二神经网络确定的特征确定表明所述设备的位置的特征；以及

从由所述第二神经网络确定的特征确定所述设备的位置，

14.根据权利要求13所述的设备，其特征在于，所述设备被布置为除了确定所述设备的位置之外还确定所述设备的方向。

15.根据权利要求13所述的设备，其特征在于，所述图像序列的图像是单目图像。

16.根据权利要求13所述的设备，其特征在于，所述至少一个惯性传感器包括加速度计和/或陀螺仪。

17.根据权利要求13所述的设备，其特征在于，所述第二神经网络是长短期记忆神经网络。

18.根据权利要求13所述的设备，其特征在于，所述第三神经网络是长短期记忆神经网络。

19.根据权利要求13所述的设备，其特征在于，还被布置为：针对每对连续捕获的图像，从由所述第二神经网络确定的特征确定所述设备的相对位置信息和方向信息。

20.根据权利要求19所述的设备，其特征在于，还被布置为：通过整合从由所述第二神经网络确定的特征确定的所述相对位置信息和所述方向信息确定所述设备的位置。

21.根据权利要求19所述的设备，其特征在于，还被布置为：针对每对连续捕获的图像，确定所述相对位置信息和所述方向信息的相应不确定性信息。

22.一种计算机程序产品，其被布置为当在可移动的设备上执行时，实施根据权利要求1所述的方法。

23.一种计算机程序产品，其被布置为当在可移动的设备上执行时提供根据权利要求13所述的可移动的设备。