CN109798888B

CN109798888B - 移动设备的姿态确定装置、方法和视觉里程计

Info

Publication number: CN109798888B
Application number: CN201910199169.7A
Authority: CN
Inventors: 査红彬; 薛飞; 方奕庚; 姜立
Original assignee: Peking University; BOE Technology Group Co Ltd
Current assignee: Peking University; BOE Technology Group Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2021-09-17
Anticipated expiration: 2039-03-15
Also published as: WO2020186943A1; CN109798888A

Abstract

本公开涉及一种移动设备的姿态确定装置、方法和视觉里程计。该装置包括一个或多个处理器，处理器被配置为：获取移动设备拍摄的视频流中当前帧与上一帧之间的图像差别特征；根据图像差别特征，利用第一机器学习模型，获取当前编码信息；根据当前编码信息和至少一个历史编码信息，利用第二机器学习模型确定移动设备的姿态。

Description

移动设备的姿态确定装置、方法和视觉里程计

技术领域

本公开涉及计算机技术领域，特别涉及一种移动设备的姿态确定装置、移动设备的姿态方法、视觉里程计和计算机可读存储介质。

背景技术

视觉里程计能够通过分析处理相关图像序列，确定机器人的位置和姿态，进而记录机器人行驶的整个轨迹。

在相关技术中，视觉里程计将视频流中相邻帧的图像信息联合起来，基于图像的几何特征利用局部地图优化确定对应帧的相机姿态；或者基于IMU(Inertial measurementunit，惯性测量单元)提供的信息，确定相机姿态。

发明内容

根据本公开实施例的第一方面，提供了一种移动设备的姿态确定装置，包括一个或多个处理器，所述处理器被配置为：获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征；根据所述图像差别特征，利用第一机器学习模型，获取当前编码信息；根据所述当前编码信息和至少一个历史编码信息，利用第二机器学习模型确定所述移动设备的姿态。

在一些实施例中，所述当前帧为第M帧，M为大于1的正整数；在所述移动设备的与第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下，存储第N帧的编码信息作为所述历史编码信息，N为小于M的正整数。

在一些实施例中，根据所述当前编码信息的各通道分量之间的相关性，对所述当前编码信息的各通道分量进行融合，得到融合后的当前编码信息；根据所述历史编码信息的各通道分量之间的相关性，对所述历史编码信息的各通道分量进行融合，得到融合后的历史编码信息；根据所述融合后的当前编码信息和所述融合后的历史编码信息，利用第二机器学习模型确定所述移动设备的姿态。

在一些实施例中，根据所述当前编码信息各通道分量之间的相关性，确定所述各通道分量的第一权重；根据所述第一权重，对所述各通道分量进行加权，得到所述融合后的当前编码信息。

在一些实施例中，根据每个历史编码信息的各通道分量之间的相关性，确定所述各通道分量的第二权重；根据所述第二权重，对所述各通道分量进行加权，得到所述融合后的历史编码信息。

在一些实施例中，根据各历史编码信息之间的相关性，对所述各历史编码信息进行融合，得到综合历史编码信息；根据所述综合历史编码信息和所述当前编码信息，利用第二机器学习模型确定所述移动设备的姿态。

在一些实施例中，根据各历史编码信息之间的相关性，确定所述各历史编码信息的第三权重；根据所述第三权重，对所述各历史编码信息进行加权求和，得到所述综合历史编码信息。

在一些实施例中，将所述当前编码信息和所述历史编码信息，按照通道维度方向拼接，生成输出编码信息；根据所述输出编码信息，利用所述第二机器学习模型确定所述移动设备的姿态。

在一些实施例中，所述图像差别特征通过光流网络模型获取；所述第一机器学习模型和所述第二机器学习模型中的至少一个为ConvLSTM(Convolutional Long Short-Term Memory Network，卷积长短期记忆网络)模型。

根据本公开实施例的第二方面，提供了一种移动设备的姿态确定方法，包括：获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征；根据所述图像差别特征，利用第一机器学习模型，获取当前编码信息；根据所述当前编码信息和至少一个历史编码信息，利用第二机器学习模型确定所述移动设备的姿态。

在一些实施例中，根据每个历史编码信息的各通道分量之间的相关性，确定所述各通道分量的第二权重；根据所述第二权重，对所述各通道分量进行加权，得到所述融合后的所述历史编码信息。

在一些实施例中，所述至少一个历史编码信息包括多个历史编码信息，根据各历史编码信息之间的相关性，对所述各历史编码信息进行融合，得到综合历史编码信息；根据所述综合历史编码信息和所述当前编码信息，利用第二机器学习模型确定所述移动设备的姿态。

在一些实施例中，所述图像差别特征通过光流网络模型获取；所述第一机器学习模型和所述第二机器学习模型中的至少一个为ConvLSTM模型。

根据本公开实施例的第三方面，提供了一种视觉里程计，包括：如前述任一实施例所述的姿态确定装置，用于根据移动设备拍摄的视频流确定所述移动设备的姿态。

在一些实施例中，所述的视觉里程计还包括图像传感器，用于获取所述视频流。

根据本公开实施例的第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前述任一实施例所述的姿态确定方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一个实施例的移动设备的姿态确定方法的流程图；

图2a是示出根据本公开一个实施例的移动设备的姿态确定方法的示意图；

图2b是示出根据本公开一个实施例的移动设备的姿态确定方法所用的ConvLSTM的示意图；

图3是示出图1中步骤130的一个实施例的流程图；

图4是示出图3中步骤1320的一个实施例的示意图；

图5是示出图1中步骤130的另一个实施例的流程图；

图6是示出图5中步骤1321的一个实施例的示意图；

图7是示出图1中步骤130的又一个实施例的流程图；

图8是示出根据本公开一个实施例的移动设备的姿态确定装置的框图；

图9是示出用于根据本公开另一个实施例的移动设备的姿态确定装置的框图；

图10是示出根据本公开一个实施例的视觉里程计的框图。

应当明白，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。此外，相同或类似的参考标号表示相同或类似的构件。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。对示例性实施例的描述仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。本公开可以以许多不同的形式实现，不限于这里所述的实施例。提供这些实施例是为了使本公开透彻且完整，并且向本领域技术人员充分表达本公开的范围。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置应被解释为仅仅是示例性的，而不是作为限制。

本公开使用的所有术语(包括技术术语或者科学术语)与本公开所属领域的普通技术人员理解的含义相同，除非另外特别定义。还应当理解，在诸如通用字典中定义的术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义，而不应用理想化或极度形式化的意义来解释，除非这里明确地这样定义。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

图1是示出根据本公开一个实施例的移动设备的姿态确定方法的流程图。

如图1所示，该方法包括：步骤110，获取图像差别特征；步骤120，获取当前编码信息；和步骤130，确定移动设备的姿态。

在步骤110中，获取移动设备所得视频流中当前帧与上一帧之间的图像差别特征。

例如，移动设备可以是机器人、无人驾驶车、无人机等可以移动的平台，通过基于CCD或CMOS等图像传感器的相机拍摄图像。

例如，可以通过卷积神经网络(CNN)获取图像差别特征。

例如，可以通过光流网络(Flownet：Learning Optical Flow withConvolutional Networks)模型获取图像差别特征。

例如，可以通过光流网络(FlowNet 2.0:Evolution of Optical FlowEstimation with Deep Networks)模型获取图像差别特征。

在一些实施例中，可以将相邻两帧图像重叠起来输入光流网络模型，利用光流网络的特征提取部分提取图像差别特征。图像差别特征为高维特征，高维特征的通道数(如1024个)可以根据当前帧图像的分辨率确定。例如，光流网络模型可以对重叠后的图像进行多次卷积处理，并根据卷积处理结果提取相邻两帧图像每个像素的偏移量作为图像差别特征。

这样，可以将高维冗余的图像信息转换为高层、抽象的语义特征，解决了基于几何特征的相关技术易受环境因素(如遮挡、光照变化、动态物体等)影响的问题，从而提高了姿态确定的准确性。

在步骤120中，根据图像差别特征，利用第一机器学习模型，获取当前编码信息。例如，第一机器学习模型可以为RNN(Recurrent Neural Network，循环神经网络)模型，如ConvLSTM模型。

在一些实施例中，可以从RNN模型的历史输出中筛选出对姿态确定具有重要影响的历史编码信息(即关键帧相应的编码信息)作为有效信息，以便与当前编码信息融合，共同确定移动设备的当前姿态。例如，在移动设备从第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下，确定第N帧为关键帧；存储RNN模型提取的第N帧的编码信息作为历史编码信息。

在步骤130中，根据当前编码信息和至少一个历史编码信息，利用第二机器学习模型，确定移动设备的姿态。例如，第二机器学习模型可以为RNN模型，如ConvLSTM模型。利用RNN模型对编码信息进行解码，可以确定移动设备的姿态。

这种基于当前编码信息和历史编码信息确定的当前姿态，是基于视频流的第一帧到当前帧的全局范围内，进行全局优化确定的姿态(即绝对姿态)。相比于相关技术仅基于当前帧和前一帧的局部范围内确定的局部优化姿态(即相对姿态)，绝对姿态更加准确。

另外，利用ConvLSTM模型可以不必依赖于IMU提供的信息，仅依赖视觉信息即可确姿态确定态，从而降低了姿态确定成本。

图2a是示出根据本公开一个实施例的移动设备的姿态确定方法的示意图。

如图2a所示，提取的1到T时刻的当前编码信息为为x₁到x_T。各时刻存储的历史编码信息为S²到S^T。将各时刻的当前编码信息和历史编码信息作为第一机器学习模型(如ConvLSTM)的输入，得到各时刻的输出编码信息O₁到O_T。将O₁到O_T输入第二机器学习模型(如ConvLSTM)，得到各时刻的移动设备的姿态P到P_T。

如图2b所示，显示了ConvLSTM的一个原理性实现。其中，X_t,h_t,o_t分别表示输入特征、状态变量和输出。

在一些实施例中，步骤130可以通过图2a中的步骤实现。

尽管本公开的实施例列举了ConvLSTM作为机器学习模型的一种实现，其它的机器学习模型也可以适用于本公开，例如FC-LSTM(Fully Connection LSTM)等。

如本领域技术人员所理解的，为了使得机器学习模型(例如神经网络等)具有所需的功能，在使用机器学习模型前，还包括利用多个样本，如样本图像、样本数据等对机器学习模型进行训练的步骤，将训练好的机器学习模型用于上述方法。例如，可以通过有监督的方式(样本和与样本对应的标注)训练并获得所需机器学习模型。

图3是示出图1中步骤130的一个实施例的流程图。

如图3所示，步骤130包括：步骤1310，融合当前编码信息的各通道分量；步骤1320，融合历史编码信息的各通道分量；和步骤1330，确定移动设备的姿态。

在步骤1310中，根据当前编码信息的各通道分量之间的相关性，对当前编码信息的各通道分量进行融合。

在一些实施例中，根据当前编码信息各通道分量之间的相关性，确定各通道分量的第一权重；根据第一权重，对各通道分量进行加权，得到融合后的当前编码信息。

例如，当前编码信息即为第一机器学习模型在当前时刻的输出O_t。O_t具有J个通道分量：O_t1、O_t2…O_tJ。计算O_t1、O_t2…O_tJ之间的相关性，并根据相关性确定O_t1、O_t2…O_tJ的相应权重。对O_t1、O_t2…O_tJ进行加权处理得到O’_t。

这样，相当于根据当前编码信息的空间信息，对各通道分量进行选择。增大了对姿态确定重要的通道分量，减小了不重要的通道分量，从而提高了姿态确定准确性。

在步骤1320中，根据历史编码信息的各通道分量之间的相关性，对历史编码信息的各通道分量进行融合。

在一些实施例中，根据每个历史编码信息的各通道分量之间的相关性，确定各通道分量的第二权重；根据第二权重，对各通道分量进行加权，得到融合后的历史编码信息。

例如，存储的历史编码信息(有效信息)的集合为S，S中包含I个历史编码信息S₁、S₂…S_i…S_I，i为小于I的正整数。任一个S_i具有J个通道分量：S_i1、S_i2…S_iJ。计算S_i1、S_i2…S_iJ之间的相关性，并根据相关性确定S_i1、S_i2…S_iJ的相应权重。对S_i1、S_i2…S_iJ进行加权处理得到S’_i，这些S’_i组成了融合后的历史编码信息集合S’。

这样，相当于根据历史编码信息的空间信息，对各通道分量进行选择。增大了对姿态确定重要的通道分量，减小了不重要的通道分量，从而提高了姿态确定准确性。

在步骤1330中，根据融合后的当前编码信息和历史编码信息，利用第二机器学习模型确定移动设备的姿态。

在一些实施例中，步骤1310和步骤1320没有执行顺序，也可以并行处理；还可以仅执行步骤1310或步骤1320。

图4是示出图3中步骤1320的一个实施例的示意图。

如图4所示，任一个储的历史编码信息S_i具有多个通道分量。根据各通道分量之间的相关系数，利用门函数计算各通道分量的权重。对通道分量进行加权处理得到融合后的S’_i。

在一些实施例中，130可以通过图3中的步骤实现。

图5是示出图1中步骤130的另一个实施例的流程图。

如图5所示，步骤130包括：步骤1321，融合各历史编码信息；和步骤1330'，确定移动设备的姿态。

在步骤1321中，根据各历史编码信息之间的相关性，对各历史编码信息进行融合，得到综合历史编码信息。

在一些实施例中，根据各历史编码信息之间的相关性，确定各历史编码信息的第三权重；根据第三权重，对各历史编码信息进行加权求和，得到综合历史编码信息。

例如，计算历史编码信息S₁、S₂…S_i…S_I之间的相关性，并根据相关性确定S₁、S₂…S_i…S_I的相应权重。对S₁、S₂…S_i…S_I进行加权求和得到综合历史编码信息

这样，利用各帧图像在时间上的连续性，基于时间信息对历史编码信息进行融合。增强了对姿态确定重要的历史编码信息，减弱了不重要的历史编码信息，从而提高了姿态确定准确性。

在一些实施例中，可以根据图2中的实施例，继续对综合历史编码信息

的各通道分量进行融合；也可以先根据图2中的实施例对各历史编码信息的各通道分量进行融合得到S’，然后根据图3中的实施例对S’中的各历史编码信息进行融合。也就是说，可以对历史编码信息先进行空间上的融合，也可以先进行时间上的融合。

在步骤1330'中，根据综合历史编码信息和当前编码信息，利用第二机器学习模型确定移动设备的姿态。

图6是示出图5中步骤1321的一个实施例的示意图。

如图6所示，存储的历史编码信息的集合S包括S₁、S₂…S_i…S_I。根据S₁、S₂…S_i…S_I之间的相关系数，利用门函数计算S₁、S₂…S_i…S_I的相应权重。对S₁、S₂…S_i…S_I进行加权后得到S’₁、S’₂…S’_i…S’_I。对S’₁、S’₂…S’_i…S’_I求和得到综合历史编码信息

在一些实施例中，步骤130可以通过图7中的步骤实现。

图7是示出图1中步骤130的又一个实施例的流程图。

如图7所示，步骤130包括：步骤1322，拼接当前编码信息和历史编码信息；和步骤1330”，确定移动设备的姿态。

在步骤1322中，将当前编码信息和历史编码信息，按照通道维度方向拼接，生成输出编码信息。也就是说，以当前编码信息和历史编码信息为特征矩阵，以矩阵的每一层(即每一通道)为一个部分进行拼接。例如，可以通过具有两层卷积层(如卷积核大小为3×3，卷积步长为1)的神经网络模型进行拼接。

在一些实施例中，可以对历史编码信息、当前编码信息进行时间上和空间上的融合后再拼接。

在步骤1330”中，根据输出编码信息，利用第二机器学习模型确定移动设备的姿态。

本公开实施例提供的姿态确定方法，在公开无人驾驶数据集KITTI上进行了测试，能达到平均旋转误差不超过3度/100m，平均平移误差不超过5％。

图8是示出根据本公开一个实施例的移动设备的姿态确定装置的框图。

如图8所示，移动设备的姿态确定装置8包括一个或多个处理器81。

处理器81被配置为获取移动设备拍摄的视频流中当前帧与上一帧之间的图像差别特征。例如，图像差别特征通过光流网络模型获取。

处理器81被配置为：根据图像差别特征，利用第一机器学习模型，获取当前编码信息；根据当前编码信息和至少一个历史编码信息，利用第二机器学习模型确定移动设备的姿态。例如，第一机器学习模型和第二机器学习模型中的至少一个为ConvLSTM模型。

在一些实施例中，姿态确定装置还包括存储器82。存储器82被配置为：在移动设备从第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下，存储第N帧的编码信息作为历史编码信息。

在一些实施例中，处理器81根据当前编码信息的各通道分量之间的相关性，对当前编码信息的各通道分量进行融合。处理器81根据历史编码信息的各通道分量之间的相关性，对历史编码信息的各通道分量进行融合。处理器81根据融合后的当前编码信息和历史编码信息，利用第二机器学习模型确定移动设备的姿态。

例如，处理器81根据当前编码信息各通道分量之间的相关性，确定各通道分量的第一权重。处理器81根据第一权重，对各通道分量进行加权，得到融合后的当前编码信息。

例如，处理器81根据每个历史编码信息的各通道分量之间的相关性，确定所述各通道分量的第二权重。处理器81根据第二权重，对各通道分量进行加权，得到融合后的历史编码信息。

在一些实施例中，处理器81根据各历史编码信息之间的相关性，对各历史编码信息进行融合，得到综合历史编码信息。处理器81根据综合历史编码信息，利用第二机器学习模型确定移动设备的姿态。

例如，处理器81根据各历史编码信息之间的相关性，确定各历史编码信息的第三权重。处理器81根据第三权重，对各历史编码信息进行加权求和，得到综合历史编码信息。

在一些实施例中，处理器81将当前编码信息和历史编码信息，按照通道维度方向拼接，生成输出编码信息。处理器81根据输出编码信息，利用第二机器学习模型确定移动设备的姿态。

图9是示出用于根据本公开另一个实施例的移动设备的姿态确定装置的框图。

如图9所示，姿态确定装置可以通用计算设备的形式表现。计算机系统包括存储器910、处理器920和连接不同系统组件的总线900。

存储器910例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行显示方法的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器920可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线900可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统还可以包括输入输出接口930、网络接口940、存储接口950等。这些接口930、940、950以及存储器910和处理器920之间可以通过总线900连接。输入输出接口930可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口940为各种联网设备提供连接接口。存储接口940为软盘、U盘、SD卡等外部存储设备提供连接接口。

图10是示出根据本公开一个实施例的视觉里程计的框图。

如图10所示，视觉里程计10包括上述任一个实施例中的姿态确定装置11，用于根据移动设备拍摄的视频流确定所述移动设备的姿态。

在一些实施例中，视觉里程计10还包括成像器件，例如图像传感器12，用于获取视频流。

在一些实施例中，成像器件可以通过无线，例如蓝牙、Wi-Fi等方式与姿态确定装置11中的处理器通讯连接；也可以通过有线，例如网线、线缆、走线等与姿态确定装置11中的处理器通讯连接。

至此，已经详细描述了本公开的各种实施例。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改或者对部分技术特征进行等同替换。本公开的范围由所附权利要求来限定。

Claims

1.一种移动设备的姿态确定装置，包括一个或多个处理器，所述处理器被配置为：

获取所述移动设备所得视频流中当前帧与上一帧之间的图像差别特征；

根据所述图像差别特征，利用第一机器学习模型，获取当前编码信息；

根据所述当前编码信息和至少一个历史编码信息，利用第二机器学习模型确定所述移动设备的姿态；

其中，所述当前编码信息根据当前的图像差别特征确定，所述历史编码信息根据历史的图像差别特征确定；

所述根据所述当前编码信息和至少一个历史编码信息，利用第二机器学习模型确定所述移动设备的姿态包括：

根据所述当前编码信息的各通道分量之间的相关性，对所述当前编码信息的各通道分量进行融合，得到融合后的当前编码信息；

根据所述历史编码信息的各通道分量之间的相关性，对所述历史编码信息的各通道分量进行融合，得到融合后的历史编码信息；

根据所述融合后的当前编码信息和所述融合后的历史编码信息，利用第二机器学习模型确定所述移动设备的姿态。

2.根据权利要求1所述的姿态确定装置，其中，所述当前帧为第M帧，M为大于1的正整数；

所述姿态确定装置还包括存储器，所述存储器被配置为：

在所述移动设备的与第N帧到第N-1帧对应的运动距离或者姿态变化中的至少一个超过阈值的情况下，存储第N帧的编码信息作为所述历史编码信息，N为小于M的正整数。

3.根据权利要求1所述的姿态确定装置，其中，对所述当前编码信息的各通道分量进行融合包括：

根据所述当前编码信息各通道分量之间的相关性，确定所述各通道分量的第一权重；

根据所述第一权重，对所述各通道分量进行加权，得到所述融合后的当前编码信息。

4.根据权利要求1所述的姿态确定装置，其中，对所述历史编码信息的各通道分量进行融合包括：

根据每个历史编码信息的各通道分量之间的相关性，确定所述各通道分量的第二权重；

根据所述第二权重，对所述各通道分量进行加权，得到所述融合后的历史编码信息。

5.根据权利要求1所述的姿态确定装置，其中，所述至少一个历史编码信息包括多个历史编码信息，利用第二机器学习模型确定所述移动设备的姿态包括：

根据各历史编码信息之间的相关性，对所述各历史编码信息进行融合，得到综合历史编码信息；

根据所述综合历史编码信息和所述当前编码信息，利用所述第二机器学习模型确定所述移动设备的姿态。

6.根据权利要求5所述的姿态确定装置，其中，对所述各历史编码信息进行融合包括：

根据各历史编码信息之间的相关性，确定所述各历史编码信息的第三权重；

根据所述第三权重，对所述各历史编码信息进行加权求和，得到所述综合历史编码信息。

7.根据权利要求1所述的姿态确定装置，其中，所述利用第二机器学习模型确定所述移动设备的姿态包括：

将所述当前编码信息和所述历史编码信息，按照通道维度方向拼接，生成输出编码信息；

根据所述输出编码信息，利用所述第二机器学习模型确定所述移动设备的姿态。

8.根据权利要求1-7任一项所述的姿态确定装置，其中，

所述图像差别特征通过光流网络模型获取；

所述第一机器学习模型和所述第二机器学习模型中的至少一个为卷积长短期记忆ConvLSTM模型。

9.一种移动设备的姿态确定方法，包括：

根据所述当前编码信息和至少一个历史编码信息，利用第二机器学习模型，确定所述移动设备的姿态；

根据所述融合后的当前编码信息和所述融合后的历史编码信息，利用所述第二机器学习模型确定所述移动设备的姿态。

10.根据权利要求9所述的姿态确定方法，其中，所述当前帧为第M帧，M为大于1的正整数，

所述的姿态确定方法还包括：

11.根据权利要求9所述的姿态确定方法，其中，对所述当前编码信息的各通道分量进行融合包括：

12.根据权利要求9所述的姿态确定方法，其中，对所述历史编码信息的各通道分量进行融合包括：

根据所述第二权重，对所述各通道分量进行加权，得到所述融合后的所述历史编码信息。

13.根据权利要求9所述的姿态确定方法，其中，所述至少一个历史编码信息包括多个历史编码信息，

利用第二机器学习模型确定所述移动设备的姿态包括：

根据所述综合历史编码信息和所述当前编码信息，利用第二机器学习模型确定所述移动设备的姿态。

14.根据权利要求13所述的姿态确定方法，其中，对所述各历史编码信息进行融合包括：

15.根据权利要求9所述的姿态确定方法，其中，所述利用第二机器学习模型确定所述移动设备的姿态包括：

16.根据权利要求9-15任一项所述的姿态确定方法，其中，

所述图像差别特征通过光流网络模型获取；

17.一种视觉里程计，包括：

权利要求1-8任一项所述的姿态确定装置，用于根据移动设备拍摄的视频流确定所述移动设备的姿态。

18.根据权利要求17所述的视觉里程计，还包括：

图像传感器，用于获取所述视频流。

19.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求9-16中任一项所述的姿态确定方法。