CN112648994B

CN112648994B - 基于深度视觉里程计和imu的相机位姿估计方法及装置

Info

Publication number: CN112648994B
Application number: CN202011476504.2A
Authority: CN
Inventors: 周宏伟; 陈利敏; 乔秀全; 赵鸿儒
Original assignee: Beijing National Speed Skating Hall Management Co ltd; Capinfo Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing National Speed Skating Hall Management Co ltd; Capinfo Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-12-14
Filing date: 2020-12-14
Publication date: 2023-12-05
Anticipated expiration: 2040-12-14
Also published as: CN112648994A

Abstract

本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法及装置，该方法包括：利用光流网络对相邻图像帧提取特征得到光流信息，并利用IMU获取相机加速度和角速度；将光流信息和相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将运动特征和时间特征融合后得到第一位姿向量；对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据第一位姿向量和第二位姿向量，得到融合后的位姿向量；根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿。该方法可分离性强、精度高、计算量低，能够适用于纹理缺失和实时性要求高等复杂场景。

Description

基于深度视觉里程计和IMU的相机位姿估计方法及装置

技术领域

本发明涉及空间定位技术领域，尤其涉及一种基于深度视觉里程计和IMU的相机位姿估计方法及装置。

背景技术

相机位姿估计是机器人定位和自动驾驶领域的一项基本技术，它通过各种传感器连续跟踪相机的自我运动估计位置和姿态。其中相机和IMU因为低成本、高性能的特点而被广泛结合使用，而且这两种传感器具有高度的互补性：相机捕捉场景的结构和外观信息，但纯相机传感器在光照变化大、纹理特征缺失、快速运动情况下会导致尺度模糊，这种单纯依靠相机获取图片序列得到位姿的方法被称为视觉里程计(Visual Odometry，简称VO)；相反，IMU完全不依赖于外部环境，能够提供绝对尺度估计。融合IMU的信息估计位姿的方法被称为视觉惯性里程计(Visual-Interial Odometry，简称VIO)，它不仅可以解决尺度缺失的问题，而且能够提高位姿估计的准确率。

目前的基于深度学习的方法可以直接从单目相机和IMU数据中回归得到位姿数据，无需调整系统参数。现有的基于深度学习的位姿估计方法(如VINet)主要利用卷积神经网络FlowNet直接从原始图像序列中学习几何特征和循环神经网络从IMU序列中提取时序特征，然后将这两种特征输入到长短期记忆LSTM网络中得到位姿，与传统融合方法相比，它在生成精确位姿估计结果的同时，无需相机与IMU紧密校准以获得绝对尺度估计。然而这种方法需要相机和IMU的紧密耦合、参数量多、计算复杂度高，难以应用于对实时性有较高要求和纹理缺失等复杂场景。

发明内容

本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法及装置，用以解决现有技术中的问题。

本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法，包括：每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到。

根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法，所述利用光流网络对所述相邻图像帧提取特征得到光流信息，包括：采用快速光流提取网络从相邻两帧中提取光流特征，得到每一像素的光流矢量图；将每一像素的光流矢量值投影到0-255区间，并将光流矢量图表示为彩色图像。

根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法，输入预设神经网络模型的空间卷积网络分支提取运动特征，包括：以滑动窗口形式组合经过预处理后的两帧图像帧，将两张图像的颜色通道进行堆叠，并根据空间卷积网络，获取堆叠后的帧图像的运动特征，并将所获运动特征输入到全连接层以减小维度息。

根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法，输入预设神经网络模型的时间卷积网络分支提取时间特征，包括：沿颜色通道以滑动窗口形式组合两帧图像的光流序列，将窗口内堆叠后的光流序列输入到时间卷积网络，通过卷积层提取时间特征，将提取到的时间特征输入到全连接层以减小维度。

根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法，所述将所述运动特征和所述时间特征融合后得到第一位姿向量，包括：将两个分支的全连接层提取的运动特征和时间特征拼接后，再输入到两个全连接层中，最终输出得到由三维平移分量和四元组姿态分类的自由度位姿向量。

根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法，将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征之前，还包括：获取多个已知位姿向量的视频帧，并采集视频帧在内的相邻图像帧；以相邻图像帧和相邻图像帧提取的光流信息作为样本输入，对应的已知位姿向量作为标签，对构建的具有空间卷积网络分支、时间卷积网络分支以及特征融合结构的神经网络模型进行训练，得到所述预设的神经网络模型。

根据本发明一个实施例的基于深度视觉里程计和IMU的相机位姿估计方法，所述根据当前时刻及以前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿，包括：将当前时刻及之前，多个连续时刻的融合后位姿向量，输入预设的卷积神经网络模型，输出当前时刻的位姿向量；其中，所述预设的卷积神经网络模型，根据已知位姿向量为标签，对应的多个连续时刻融合后位姿向量作为样本输入，进行训练后得到。

本发明实施例还提供一种基于深度视觉里程计和IMU的相机位姿估计装置，包括：采集模块，用于每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；第一处理模块，用于将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；第二处理模块，用于对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；综合处理模块，用于根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。

本发明实施例提供的基于深度视觉里程计和IMU的相机位姿估计方法及装置，将深度视觉里程计与IMU融合后，获得了比VINet更精确的结果。整个计算过程不需要相机和IMU的紧密校准，可分离性强、精度高、计算量低，能够适用于纹理缺失和实时性要求高等复杂场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计方法的流程示意图；

图2是本发明实施例提供的网络结构示意图；

图3是本发明实施例提供的融合操作示意图；

图4是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计装置的结构示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图5描述本发明实施例的基于深度视觉里程计和IMU的相机位姿估计方法及装置。图1是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计方法的流程示意图，如图1所示，本发明实施例提供一种基于深度视觉里程计和IMU的相机位姿估计方法，包括：

101、每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度。

首先，通过相机采集原始视频帧数据，通过惯性里程计获取加速度和角速度数据。新生成帧时，获取多个相邻帧，包括新生成帧，共同作为相邻图像帧。采用快速光流网络，如TV-Net，对相邻图像帧提取特征得到光流信息。

102、将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量。

将经过预处理的图像帧和计算得到的多张相邻帧的光流图分别输入到网络的两个分支中，通过一系列操作后将两个分支的输出结果融合得到初步位姿数据(即第一位姿向量)，初步位姿数据包括位姿向量a_i和姿态向量a_j。

深度视觉里程计包含两个独立分支：空间卷积网络和时间卷积网络。其中空间卷积网络可以为提取图片间运动特征的FlowNet网络，时间卷积网络可以为残差网络，用于提取多帧相邻帧光流的时间特征。该神经网络模型，是根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练后得到。

空间卷积网络分支可以由多个卷积层和一个全连接层构成；时间卷积网络分支，可由一个卷积层，若干bottleneck层和一个全连接层构成；特征融合结构，可由若干全连接层构成。

103、对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量。

相邻图像帧的开始时间到结束时间，对加速度和角速度数据进行积分，得到位置向量b_i和姿态向量b_j。将神经网络得到的位置向量a_i和姿态向量a_j与IMU积分得到的位置向量b_i和姿态向量b_j进行融合，进而得到融合后的位姿数据。

104、根据当前时刻及之前的多个连续时刻，每个时刻的融合后位姿向量，确定当前时刻的位姿。

每次产生新视频帧时，对应一个时刻。确定当前时刻的位姿，需要获取当前时刻之前的多个相邻时刻的位姿，根据所有相邻时刻的位姿，最终确定当前时刻的位姿。例如，分别根据101-103的步骤，得到1、2……T时刻的融合后位姿向量，再以此确定T时刻的位姿。

本发明实施例的方法，将深度视觉里程计与IMU融合后，获得了比VINet更精确的结果。整个计算过程不需要相机和IMU的紧密校准，可分离性强、精度高、计算量低，能够适用于纹理缺失和实时性要求高等复杂场景。

基于上述实施例的内容，作为一种可选实施例，所述利用光流网络对所述相邻图像帧提取特征得到光流信息，包括：采用快速光流提取网络从相邻两帧中提取光流特征，得到每一像素的光流矢量图；将每一像素的光流矢量值投影到0-255区间，并将光流矢量图表示为彩色图像。

采用快速光流提取网络。如TV-Net从相邻两张视频帧间提取光流特征，并将光流矢量图像中的光流特征，作为像素值投影到0-255区间内，用彩色图像形式对光流矢量图进行表示。

基于上述实施例的内容，作为一种可选实施例，输入预设神经网络模型的空间卷积网络分支提取运动特征，包括：以滑动窗口形式组合经过预处理后的两帧图像帧，将两张图像的颜色通道进行堆叠，并根据空间卷积网络，获取堆叠后的帧图像的运动特征，并将所获运动特征输入到全连接层以减小维度息。

将原始彩色图像尺寸裁剪为512*256*3，其中512为图片宽度分辨率，256为图片高度分辨率，3为颜色通道数。对每一帧图像减去数据集的平均RGB值，并除以RGB方差，得到标准化处理结果。

视频帧数据作为表述空间信息的载体，输入到空间卷积网络中提取相邻两张图片间运动特征，光流数据作为运动信息的载体被输入到时间卷积网络中提取时间特征，再对模型提取的不同信息进行融合。

具体是，以滑动窗口形式组合经过预处理后的两张图像帧，将T时刻图像和T+1时刻图像的颜色通道进行堆叠，并根据运动特征提取的空间卷积网络，获取堆叠后的两幅图像的运动特征信息，然后将所获运动信息输入到全连接层以减小维度。

基于上述实施例的内容，作为一种可选实施例，输入预设神经网络模型的时间卷积网络分支提取时间特征，包括：沿颜色通道以滑动窗口形式组合两帧图像的光流序列，将窗口内堆叠后的光流序列输入到时间卷积网络，通过卷积层提取时间特征，将提取到的时间特征输入到全连接层以减小维度。

基于上述实施例的内容，作为一种可选实施例，所述将运动特征和时间特征融合后得到第一位姿向量，包括：将两个分支的全连接层提取的运动特征和时间特征拼接后，再输入到两个全连接层中，最终输出得到由三维平移分量和四元组姿态分类的自由度位姿向量。

将深度视觉里程计网络的两个分支的全连接层提取的运动特征和时间特征拼接后再输入到两个全连接层中，最终输出得到由三维平移分量和四元组表示的7自由度位姿向量。

基于上述实施例的内容，作为一种可选实施例，将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征之前，还包括：获取多个已知位姿向量的视频帧，并采集视频帧在内的相邻图像帧；以相邻图像帧和相邻图像帧提取的光流信息作为样本输入，对应的已知位姿向量作为标签，对构建的具有空间卷积网络分支、时间卷积网络分支以及特征融合结构的神经网络模型进行训练，得到所述预设的神经网络模型。

基于上述实施例的内容，作为一种可选实施例，所述根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿，包括：

将当前时刻及以前，多个连续时刻的融合后位姿向量，输入预设的卷积神经网络模型，输出当前时刻的位姿向量；其中，所述预设的卷积神经网络模型，根据已知位姿向量为标签，对应的多个连续时刻融合后位姿向量作为样本输入，进行训练后得到。

在具体实施时，将视觉里程计得到的7自由度位姿和IMU经过与积分得到的由三维平移分量和四元组表示的7自由度位姿，即融合后位姿向量，送入时序缓存器中。每次得到当前时刻的融合后位姿向量，则从时序缓存器中取出当前时刻的融合后位姿向量，以及当前时刻以前，多个连续相邻的时刻的融合后位姿向量，输入预设的卷积神经网络模型。连续时刻的数量可以预设，相应地训练模型时数量也保持一致。例如，以当前时刻及之前连续的60个融合后位姿向量，估计当前时刻的位姿。该卷积网络模型是训练完成的，然后经过由若干层卷积和一个全连接层得到融合后的位姿数据，即得到当前时刻的位姿估计值。该预设的卷积神经网络模型，是根据已知位姿向量为标签，对应的多个连续时刻融合后位姿向量作为样本输入，进行训练后得到。预设的卷积神经网络模型，可以是由多个卷积层和全连接层构成。图2是本发明实施例提供的网络结构示意图，图3是本发明实施例提供的融合操作示意图，具体可参加图2(图中，frame表示帧，pose表示位姿)和图3。

下面对本发明实施例提供的基于深度视觉里程计和IMU的相机位姿估计装置进行描述，下文描述的基于深度视觉里程计和IMU的相机位姿估计装置与上文描述的基于深度视觉里程计和IMU的相机位姿估计方法可相互对应参照。

图4是本发明实施例提供的一种基于深度视觉里程计和IMU的相机位姿估计装置的结构示意图，如图4所示，该基于深度视觉里程计和IMU的相机位姿估计装置包括：采集模块401、第一处理模块402、第二处理模块403和综合处理模块404。其中，采集模块401用于每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；第一处理模块402用于将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；第二处理模块403用于对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；综合处理模块404用于根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到。

本发明实施例提供的装置实施例是为了实现上述各方法实施例的，具体流程和详细内容请参照上述方法实施例，此处不再赘述。

本发明实施例提供的基于深度视觉里程计和IMU的相机位姿估计装置，将深度视觉里程计与IMU融合后，获得了比VINet更精确的结果。整个计算过程不需要相机和IMU的紧密校准，可分离性强、精度高、计算量低，能够适用于纹理缺失和实时性要求高等复杂场景。

图5是本发明实施例提供的一种电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(Communications Interface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行基于深度视觉里程计和IMU的相机位姿估计方法，该方法包括：每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的基于深度视觉里程计和IMU的相机位姿估计方法，该方法包括：每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的基于深度视觉里程计和IMU的相机位姿估计方法，该方法包括：每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度视觉里程计和IMU的相机位姿估计方法，其特征在于，包括：

每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；

将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；

对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；

根据当前时刻及之前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；

其中，所述预设神经网络模型，根据已知位姿向量的相邻图像帧，提取光流信息后，将光流信息和图像帧作为输入，将已知位姿向量作为标签，进行训练得到；

所述将所述运动特征和所述时间特征融合后得到第一位姿向量，包括：

将两个分支的全连接层提取的运动特征和时间特征拼接后，再输入到两个全连接层中，最终输出得到由三维平移分量和四元组姿态分类表征的自由度位姿向量；

输入预设神经网络模型的空间卷积网络分支提取运动特征，包括：

以滑动窗口形式组合经过预处理后的两帧图像帧，将两张图像的颜色通道进行堆叠，并根据空间卷积网络，获取堆叠后的帧图像的运动特征，并将所获运动特征输入到全连接层以减小维度息；

输入预设神经网络模型的时间卷积网络分支提取时间特征，包括：

沿颜色通道以滑动窗口形式组合两帧图像的光流序列，将窗口内堆叠后的光流序列输入到时间卷积网络，通过卷积层提取时间特征，将提取到的时间特征输入到全连接层以减小维度。

2.根据权利要求1所述的基于深度视觉里程计和IMU的相机位姿估计方法，其特征在于，所述利用光流网络对所述相邻图像帧提取特征得到光流信息，包括：

采用快速光流提取网络从相邻两帧中提取光流特征，得到每一像素的光流矢量图；

将每一像素的光流矢量值投影到0-255区间，并将光流矢量图表示为彩色图像。

3.根据权利要求1所述的基于深度视觉里程计和IMU的相机位姿估计方法，其特征在于，将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征之前，还包括：

获取多个已知位姿向量的视频帧，并采集视频帧在内的相邻图像帧；

以相邻图像帧和相邻图像帧提取的光流信息作为样本输入，对应的已知位姿向量作为标签，对构建的具有空间卷积网络分支、时间卷积网络分支以及特征融合结构的神经网络模型进行训练，得到所述预设的神经网络模型。

4.根据权利要求1所述的基于深度视觉里程计和IMU的相机位姿估计方法，其特征在于，所述根据当前时刻及以前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿，包括：

将当前时刻及之前，多个连续时刻的融合后位姿向量，输入预设的卷积神经网络模型，输出当前时刻的位姿向量；

其中，所述预设的卷积神经网络模型，根据已知位姿向量为标签，对应的多个连续时刻融合后位姿向量作为样本输入，进行训练后得到。

5.一种基于深度视觉里程计和IMU的相机位姿估计装置，其特征在于，包括：

采集模块，用于每次产生新视频帧时，获取包括新视频帧在内的相邻图像帧，利用光流网络对所述相邻图像帧提取特征得到光流信息，并利用惯性里程计IMU获取相机加速度和角速度；

第一处理模块，用于将所述光流信息和所述相邻图像帧，分别输入预设神经网络模型的空间卷积网络分支提取运动特征，和时间卷积网络分支提取时间特征，并将所述运动特征和所述时间特征融合后得到第一位姿向量；

第二处理模块，用于对相邻图像帧对应时刻的加速度和角速度进行积分，得到第二位姿向量；根据所述第一位姿向量和所述第二位姿向量，得到融合后的位姿向量；

综合处理模块，用于根据当前时刻及以前，多个连续时刻的融合后位姿向量，确定当前时刻的位姿；

所述第一处理模块，具体用于：

所述第一处理模块，还用于：

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述基于深度视觉里程计和IMU的相机位姿估计方法的步骤。