CN111539988B

CN111539988B - 一种视觉里程计实现方法、装置和电子设备

Info

Publication number: CN111539988B
Application number: CN202010293582.2A
Authority: CN
Inventors: 查红彬; 李顺恺; 姜立; 方奕庚
Original assignee: Peking University; BOE Technology Group Co Ltd
Current assignee: Peking University; BOE Technology Group Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2024-04-09
Anticipated expiration: 2040-04-15
Also published as: CN111539988A

Abstract

本发明实施例提供一种视觉里程计实现方法、装置和电子设备，该方法包括：获取拍摄设备依次采集的第一图像、第二图像和第三图像；根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。利用两帧的光流图确定的向量对生成模型进行训练，可提高生成模型对拍摄设备的位姿估计的精度。

Description

一种视觉里程计实现方法、装置和电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种视觉里程计实现方法、装置和电子设备。

背景技术

视觉里程计(Visual Odometry，简称VO)是一种利用拍摄设备(例如相机)采集到的图像序列来估计出运动体(例如机器人)相对运动的计算机视觉方法。

目前的视觉里程计主要是通过学习法和几何法实现。对于学习法而言，其主要是结合深度学习的优势，使用网络来进行图像识别、检测与分割，进而估算相机的运动位置和姿态(简称位姿)；对于几何法而言，其主要是提取两幅连续图片中的特征，然后在两幅图片中通过匹配和计算的方式实现。

目前，视觉里程计的实现方法中，估计出的拍摄设备的位姿精准度低。

发明内容

本发明的目的在于提供一种视觉里程计实现方法、装置和电子设备，以解决现有的视觉里程计的实现方法中，估计出的拍摄设备的位姿精准度低的问题。

为了达到上述目的，本发明提供一种视觉里程计实现方法，包括：

获取拍摄设备依次采集的第一图像、第二图像和第三图像；

根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。

进一步的，所述根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，包括：

根据所述第一图像和所述第二图像获取第一光流图；

根据所述第二图像和所述第三图像获取第二光流图；

根据所述第一光流图和所述第二光流图，分别获得第一隐式向量和第二隐式向量；

根据所述长短时序记忆网络LSTM，对所述第一隐式向量和所述第二隐式向量进行更新，获得第一更新向量和第二更新向量；

将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中，获得所述拍摄设备的位姿。

进一步的，所述生成模型的训练过程包括：

获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像；

根据所述第一样本图像和所述第二样本图像获取第三光流图；

根据所述第二样本图像和所述第三样本图像获取第四光流图；

根据所述第三光流图和所述第四光流图，分别获得第三隐式向量和第四隐式向量；

根据所述长短时序记忆网络LSTM，对所述第三隐式向量和所述第四隐式向量进行更新，获得第一更新向量和第二更新向量；

将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中，获得所述拍摄设备的位姿；

根据所述拍摄设备的位姿和所述第二样本图像，获得合成样本图像；

将所述合成样本图像与所述第三样本图像输入至判别模型中，获得判别结果；

根据判别结果对所述基础模型进行优化。

进一步的，所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像，获得所述拍摄设备的位姿的过程，包括：

根据所述第一更新向量和所述第二样本图像，获得第一深度图像；

根据所述第二更新向量和所述第三样本图像，生成第二深度图像；

根据所述第一深度图像和所述第二样本图像，获得第一张量；

根据所述第二深度图像和所述第三样本图像，获得第二张量；

根据所述第一张量和所述第二张量，获得所述拍摄设备的位姿。

本发明实施例还提供一种视觉里程计实现装置，包括：

第一获取模块，用于获取拍摄设备依次采集的第一图像、第二图像和第三图像；

第二获取模，用于根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。

进一步的，所述第二获取模块，包括：

第一获取子模块，用于根据所述第一图像和所述第二图像获取第一光流图；

第二获取子模块，用于根据所述第二图像和所述第三图像获取第二光流图；

第三获取子模块，用于根据所述第一光流图和所述第二光流图，分别获得第一隐式向量和第二隐式向量；

第四获取子模块，用于根据所述长短时序记忆网络LSTM，对所述第一隐式向量和所述第二隐式向量进行更新，获得第一更新向量和第二更新向量；

第五获取子模块，用于将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中，获得所述拍摄设备的位姿。

进一步的，所述生成模型的训练过程包括：

根据判别结果对所述基础模型进行优化。

本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现本发明实施例提供的视觉里程计实现方法中的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的视觉里程计实现方法中的步骤。

本发明实施例中，获取拍摄设备依次采集的第一图像、第二图像和第三图像；根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。利用两帧的光流图确定的向量对生成模型进行训练，可提高生成模型对拍摄设备的位姿估计的精度。

附图说明

图1是本发明实施例提供的一种视觉里程计实现方法的流程图；

图2是本发明实施例提供的生成模型训练过程示意图；

图3是本发明实施例提供的一种视觉里程计实现装置的结构图；

图4是本发明实施例提供的一种电子设备的结构图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

请参见图1，图1是本发明实施例提供的一种视觉里程计实现方法的流程图，如图1所示，包括以下步骤：

步骤101、获取拍摄设备依次采集的第一图像、第二图像和第三图像。

拍摄设备可为相机或者摄像机等，第一图像、第二图像和第三图像为拍摄设备依次采集的，且采集顺序相邻的图像。

步骤102、根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。

本实施例中，生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。

本实施例中，获取拍摄设备依次采集的第一图像、第二图像和第三图像；根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。利用两帧的光流图确定的向量对生成模型进行训练，可提高生成模型对拍摄设备的位姿估计的精度。

进一步的，步骤102，具体包括：

根据所述第一图像和所述第二图像获取第一光流图；

根据所述第二图像和所述第三图像获取第二光流图；

首先利用LK算法对两张相邻帧I′_t,I′_t-1提取光流，t可理解为获取I′_t的时刻，t-1为获取I′_t-1的时刻，获得光流图F′_t-1→t，并通过编码网络(例如Encoder)将光流图压缩为一个128维的隐式表示，例如128维的向量。

c′_t＝C(F′_t-1→t)

其中，c′_t为隐式向量，C可表示编码网络处理。

利用LK算法对第一图像和第二图像提取光流，可获得第一光流图，然后将第一光流图通过编码网络，获得第一隐式向量；利用LK算法对第二图像和第三图像提取光流，可获得第二光流图，然后将第二光流图通过编码网络，获得第二隐式向量。

利用长短时序记忆网络(Long Short-Term Memory,简称LSTM)将多个隐式向量进行整合，进行数据的更新和计算，得到更新后的向量c″_t。对每一个隐式向量c′_t，其更新过程为：

c″_t,h_t＝LSTM(c′_t,h_t-1)

h_t-1,h_t分别是t-1和t时刻LSTM中的隐状态，本申请可采用标准的LSTM网络。采用LSTM网络分别对所述第一隐式向量和所述第二隐式向量进行更新，获得第一更新向量和第二更新向量。

将更新后的向量c″_t作为生成模型的输入，获得所述拍摄设备的位姿。

进一步的，所述生成模型的训练过程包括：

根据所述拍摄设备的位姿和所述第二样本图像，获得合成样本图像，具体的，可根据根据所述拍摄设备的位姿、第一深度图像和所述第二样本图像，获得合成样本图像。第一深度图像根据所述第一更新向量和所述第二样本图像获得。

根据判别结果对所述基础模型进行优化。

如图2所示，上述生成模型的训练过程具体如下：

首先利用LK算法对两张相邻帧I_t,I_t-1提取光流，t可理解为获取I_t的时刻，t-1为获取I_t-1的时刻，获得光流图F_t-1→t，并通过编码网络(例如Encoder)将光流图压缩为一个128维的隐式表示，例如128维的向量。

c_t＝C(F_t-1→t)

其中，c_t为隐式向量，C可表示编码网络处理。

利用LK算法对第一样本图像和第二样本图像提取光流，可获得第三光流图，然后将第三光流图通过编码网络，获得第三隐式向量；利用LK算法对第二样本图像和第三样本图像提取光流，可获得第四光流图，然后将第四光流图通过编码网络，获得第四隐式向量。

利用LSTM将多个隐式向量进行整合，进行数据的更新和计算，得到更新后的向量c′_t。对每一个隐式向量c_t，其更新过程为：

c′_t,h_t＝LSTM(c_t,h_t-1)

h_t-1,h_t分别是t-1和t时刻LSTM中的隐状态，本申请可采用标准的LSTM网络。采用LSTM网络分别对所述第三隐式向量和所述第四隐式向量进行更新，获得第一更新向量和第二更新向量。

如图2所示，基础模型包括深度网络和位姿掩膜网络。将更新后的向量c′_t作为视觉里程计生成器(即基础模型)的输入，基础模型输出合成样本图像。基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像，获得拍摄设备的位姿的过程，包括：

具体的，将更新后的向量c′_t作为视觉里程计生成器(即基础模型)的输入，通过深度网络(即DepthNet)生成深度图像

其中，D表示通过深度网络处理。DepthNet采用U-Net的结构，引入跳层连接，由低到高估计4个分辨率的深度图像，有助于U-Net网络得到精确的深度估计。

然后，将t-1和t时刻对应的第一深度图像第二深度图像/>第二样本图像I_t-1、第三样本图像I_t按特征通道堆叠在一起，组成张量/>和/>并将它们作为位姿掩膜估计网络(PoseMaskNet)的输入，通过PoseMaskNet生成两帧的位姿变换和不确定性掩膜/>

掩膜中各像素的取值范围为[0,1]，表明图像I_t各区域在视角合成时的置信度，利用该方法可自动过滤掉光照变化、动态物体、深度不确定性较高的边缘区域等情况，提高相机位姿估计的准确性。

利用估计的位姿和深度图像/>通过帧间变换(warping)用相邻图像I_t-1合成该位姿下的图像/>实现视角合成。Warping的表达式为：

K为相机的3×3的内参矩阵，p_t-1表示I_t-1中像素的二维坐标，p_t表示中像素的二维坐标。

将合成的图像和实际采集到的图像I_t一起作为判别器的输入，使判别器判断合成图像的真伪性s_t。通过无监督对抗学习的方式，让生成器估计的位姿和深度越来越准确，合成的图像越来越真实，足以以假乱真，即/>和I_t非常相似，此时判别器D无法准确判断其真伪性s_t。通过这种方式，训练出能准确估计深度/>和位姿/>的视觉里程计。

上述生成模型的训练过程，利用两帧的光流估计深度，解决了单张图片直接估计深度的病态问题，提高了深度估计的精度；将深度图像编码为隐式的低维表示，降低了深度图像在更新优化时的计算量；可以解决经典几何算法存在的遮挡、光照变化、动态物体等问题；将多帧信息联系起来，提高了位姿和深度估计的精度；通过施加轨迹尺度一致性约束，使各帧单目估计的位姿具有统一的尺度；通过对抗学习，解决了人为设计评价图像的损失函数的困难，让网络学出合适的损失函数；通过无监督、对抗学习的方式，摆脱了对真值数据的依赖，使该算法能应用于更多场景；利用历史信息进行预测，可以有效降低计算时间，提高实用能力。

本实施例中，生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得，利用两帧的光流估计深度，提高了深度(本申请中的深度均是指深度图像)估计的精度和拍摄设备的位姿的精度。

本发明中，通过对生成模型不断的优化，使得生成模型合成的合成样本图像无限接近真实图像，由于合成样本图像是基于估计出的位姿和深度确定的，在合成样本图像接近真实图像的情况下，位姿和深度的准确度也必然会更高，这样，在生成模型优化完成后，再利用生成模型来进行位姿估计，估计的位姿的精度必然较高。

请参见图3，图3是本发明实施例提供的一种视觉里程计实现装置的结构图，如图3所示，视觉里程计实现装置500包括：

第二获取模块，用于根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得。

进一步的，所述第二获取模块，包括：

进一步的，所述生成模型的训练过程包括：

根据判别结果对所述基础模型进行优化。

进一步的，所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像，获得所述拍摄设备的位姿，包括：

需要说明的是，本实施例中上述视觉里程计实现装置300可以实现图1所示实施例中方法实施例中任意实施方式，也就是说，图1所示实施例中方法实施例中的任意实施方式都可以被本实施例中的上述视觉里程计实现装置300所实现，以及达到相同的有益效果，此处不再赘述。

请参见图4，图4是本发明实施例提供的一种电子设备的结构图，如图4所示，电子设备400，包括：存储器401、处理器402及存储在所述存储器401上并可在所述处理器402上运行的计算机程序，其中，

所述处理器402用于读取存储器401中的计算程序，执行下列过程：

获取拍摄设备依次采集的第一图像、第二图像和第三图像；

进一步的，所述处理器402还用于执行：

根据所述第一图像和所述第二图像获取第一光流图；

根据所述第二图像和所述第三图像获取第二光流图；

进一步的，所述生成模型的训练过程包括：

根据判别结果对所述基础模型进行优化。

需要说明的是，本实施例中上述电子设备可以实现图1所示实施例中方法实施例中任意实施方式，也就是说，图1所示实施例中方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现，以及达到相同的有益效果，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例提供的视觉里程计实现方法(图1所示的视觉里程计实现方法)中的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视觉里程计实现方法，其特征在于，包括：

获取拍摄设备依次采集的第一图像、第二图像和第三图像；

根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得；

所述根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，包括：

根据所述第一图像和所述第二图像获取第一光流图；

根据所述第二图像和所述第三图像获取第二光流图；

根据长短时序记忆网络LSTM，对所述第一隐式向量和所述第二隐式向量进行更新，获得第一更新向量和第二更新向量；

2.根据权利要求1所述的方法，其特征在于，所述生成模型的训练过程包括：

根据长短时序记忆网络LSTM，对所述第三隐式向量和所述第四隐式向量进行更新，获得第一更新向量和第二更新向量；

根据判别结果对所述基础模型进行优化。

3.根据权利要求2所述的方法，其特征在于，所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像，获得所述拍摄设备的位姿的过程，包括：

4.一种视觉里程计实现装置，其特征在于，包括：

第二获取模块，用于根据所述第一图像、所述第二图像和所述第三图像，利用生成模型，获得所述拍摄设备的位姿，其中，所述生成模型的训练样本包括根据光流图确定的向量，所述光流图根据依次采集的三幅样本图像获得；

所述第二获取模块，包括：

第四获取子模块，用于根据长短时序记忆网络LSTM，对所述第一隐式向量和所述第二隐式向量进行更新，获得第一更新向量和第二更新向量；

5.根据权利要求4所述的装置，其特征在于，所述生成模型的训练过程包括：

根据判别结果对所述基础模型进行优化。

6.根据权利要求5所述的装置，其特征在于，所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像，获得所述拍摄设备的位姿的过程，包括：

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的视觉里程计实现方法中的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的视觉里程计实现方法中的步骤。