CN111539988B - 一种视觉里程计实现方法、装置和电子设备 - Google Patents
一种视觉里程计实现方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111539988B CN111539988B CN202010293582.2A CN202010293582A CN111539988B CN 111539988 B CN111539988 B CN 111539988B CN 202010293582 A CN202010293582 A CN 202010293582A CN 111539988 B CN111539988 B CN 111539988B
- Authority
- CN
- China
- Prior art keywords
- image
- vector
- sample image
- sample
- obtaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 230000000007 visual effect Effects 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 160
- 230000003287 optical effect Effects 0.000 claims abstract description 44
- 238000010586 diagram Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Length Measuring Devices By Optical Means (AREA)
Abstract
本发明实施例提供一种视觉里程计实现方法、装置和电子设备,该方法包括:获取拍摄设备依次采集的第一图像、第二图像和第三图像;根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。利用两帧的光流图确定的向量对生成模型进行训练,可提高生成模型对拍摄设备的位姿估计的精度。
Description
技术领域
本发明涉及图像处理技术领域,尤其涉及一种视觉里程计实现方法、装置和电子设备。
背景技术
视觉里程计(Visual Odometry,简称VO)是一种利用拍摄设备(例如相机)采集到的图像序列来估计出运动体(例如机器人)相对运动的计算机视觉方法。
目前的视觉里程计主要是通过学习法和几何法实现。对于学习法而言,其主要是结合深度学习的优势,使用网络来进行图像识别、检测与分割,进而估算相机的运动位置和姿态(简称位姿);对于几何法而言,其主要是提取两幅连续图片中的特征,然后在两幅图片中通过匹配和计算的方式实现。
目前,视觉里程计的实现方法中,估计出的拍摄设备的位姿精准度低。
发明内容
本发明的目的在于提供一种视觉里程计实现方法、装置和电子设备,以解决现有的视觉里程计的实现方法中,估计出的拍摄设备的位姿精准度低的问题。
为了达到上述目的,本发明提供一种视觉里程计实现方法,包括:
获取拍摄设备依次采集的第一图像、第二图像和第三图像;
根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。
进一步的,所述根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,包括:
根据所述第一图像和所述第二图像获取第一光流图;
根据所述第二图像和所述第三图像获取第二光流图;
根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
根据所述长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
进一步的,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据所述长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像;
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
进一步的,所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得所述拍摄设备的位姿的过程,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
本发明实施例还提供一种视觉里程计实现装置,包括:
第一获取模块,用于获取拍摄设备依次采集的第一图像、第二图像和第三图像;
第二获取模,用于根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。
进一步的,所述第二获取模块,包括:
第一获取子模块,用于根据所述第一图像和所述第二图像获取第一光流图;
第二获取子模块,用于根据所述第二图像和所述第三图像获取第二光流图;
第三获取子模块,用于根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
第四获取子模块,用于根据所述长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
第五获取子模块,用于将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
进一步的,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据所述长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像;
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
进一步的,所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得所述拍摄设备的位姿的过程,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
本发明实施例还提供一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现本发明实施例提供的视觉里程计实现方法中的步骤。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的视觉里程计实现方法中的步骤。
本发明实施例中,获取拍摄设备依次采集的第一图像、第二图像和第三图像;根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。利用两帧的光流图确定的向量对生成模型进行训练,可提高生成模型对拍摄设备的位姿估计的精度。
附图说明
图1是本发明实施例提供的一种视觉里程计实现方法的流程图;
图2是本发明实施例提供的生成模型训练过程示意图;
图3是本发明实施例提供的一种视觉里程计实现装置的结构图;
图4是本发明实施例提供的一种电子设备的结构图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
请参见图1,图1是本发明实施例提供的一种视觉里程计实现方法的流程图,如图1所示,包括以下步骤:
步骤101、获取拍摄设备依次采集的第一图像、第二图像和第三图像。
拍摄设备可为相机或者摄像机等,第一图像、第二图像和第三图像为拍摄设备依次采集的,且采集顺序相邻的图像。
步骤102、根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。
本实施例中,生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。
本实施例中,获取拍摄设备依次采集的第一图像、第二图像和第三图像;根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。利用两帧的光流图确定的向量对生成模型进行训练,可提高生成模型对拍摄设备的位姿估计的精度。
进一步的,步骤102,具体包括:
根据所述第一图像和所述第二图像获取第一光流图;
根据所述第二图像和所述第三图像获取第二光流图;
根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
根据所述长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
首先利用LK算法对两张相邻帧I′t,I′t-1提取光流,t可理解为获取I′t的时刻,t-1为获取I′t-1的时刻,获得光流图F′t-1→t,并通过编码网络(例如Encoder)将光流图压缩为一个128维的隐式表示,例如128维的向量。
c′t=C(F′t-1→t)
其中,c′t为隐式向量,C可表示编码网络处理。
利用LK算法对第一图像和第二图像提取光流,可获得第一光流图,然后将第一光流图通过编码网络,获得第一隐式向量;利用LK算法对第二图像和第三图像提取光流,可获得第二光流图,然后将第二光流图通过编码网络,获得第二隐式向量。
利用长短时序记忆网络(Long Short-Term Memory,简称LSTM)将多个隐式向量进行整合,进行数据的更新和计算,得到更新后的向量c″t。对每一个隐式向量c′t,其更新过程为:
c″t,ht=LSTM(c′t,ht-1)
ht-1,ht分别是t-1和t时刻LSTM中的隐状态,本申请可采用标准的LSTM网络。采用LSTM网络分别对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量。
将更新后的向量c″t作为生成模型的输入,获得所述拍摄设备的位姿。
进一步的,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据所述长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像,具体的,可根据根据所述拍摄设备的位姿、第一深度图像和所述第二样本图像,获得合成样本图像。第一深度图像根据所述第一更新向量和所述第二样本图像获得。
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
如图2所示,上述生成模型的训练过程具体如下:
首先利用LK算法对两张相邻帧It,It-1提取光流,t可理解为获取It的时刻,t-1为获取It-1的时刻,获得光流图Ft-1→t,并通过编码网络(例如Encoder)将光流图压缩为一个128维的隐式表示,例如128维的向量。
ct=C(Ft-1→t)
其中,ct为隐式向量,C可表示编码网络处理。
利用LK算法对第一样本图像和第二样本图像提取光流,可获得第三光流图,然后将第三光流图通过编码网络,获得第三隐式向量;利用LK算法对第二样本图像和第三样本图像提取光流,可获得第四光流图,然后将第四光流图通过编码网络,获得第四隐式向量。
利用LSTM将多个隐式向量进行整合,进行数据的更新和计算,得到更新后的向量c′t。对每一个隐式向量ct,其更新过程为:
c′t,ht=LSTM(ct,ht-1)
ht-1,ht分别是t-1和t时刻LSTM中的隐状态,本申请可采用标准的LSTM网络。采用LSTM网络分别对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量。
如图2所示,基础模型包括深度网络和位姿掩膜网络。将更新后的向量c′t作为视觉里程计生成器(即基础模型)的输入,基础模型输出合成样本图像。基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得拍摄设备的位姿的过程,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
具体的,将更新后的向量c′t作为视觉里程计生成器(即基础模型)的输入,通过深度网络(即DepthNet)生成深度图像
其中,D表示通过深度网络处理。DepthNet采用U-Net的结构,引入跳层连接,由低到高估计4个分辨率的深度图像,有助于U-Net网络得到精确的深度估计。
然后,将t-1和t时刻对应的第一深度图像第二深度图像/>第二样本图像It-1、第三样本图像It按特征通道堆叠在一起,组成张量/>和/>并将它们作为位姿掩膜估计网络(PoseMaskNet)的输入,通过PoseMaskNet生成两帧的位姿变换和不确定性掩膜/>
掩膜中各像素的取值范围为[0,1],表明图像It各区域在视角合成时的置信度,利用该方法可自动过滤掉光照变化、动态物体、深度不确定性较高的边缘区域等情况,提高相机位姿估计的准确性。
利用估计的位姿和深度图像/>通过帧间变换(warping)用相邻图像It-1合成该位姿下的图像/>实现视角合成。Warping的表达式为:
K为相机的3×3的内参矩阵,pt-1表示It-1中像素的二维坐标,pt表示中像素的二维坐标。
将合成的图像和实际采集到的图像It一起作为判别器的输入,使判别器判断合成图像的真伪性st。通过无监督对抗学习的方式,让生成器估计的位姿和深度越来越准确,合成的图像越来越真实,足以以假乱真,即/>和It非常相似,此时判别器D无法准确判断其真伪性st。通过这种方式,训练出能准确估计深度/>和位姿/>的视觉里程计。
上述生成模型的训练过程,利用两帧的光流估计深度,解决了单张图片直接估计深度的病态问题,提高了深度估计的精度;将深度图像编码为隐式的低维表示,降低了深度图像在更新优化时的计算量;可以解决经典几何算法存在的遮挡、光照变化、动态物体等问题;将多帧信息联系起来,提高了位姿和深度估计的精度;通过施加轨迹尺度一致性约束,使各帧单目估计的位姿具有统一的尺度;通过对抗学习,解决了人为设计评价图像的损失函数的困难,让网络学出合适的损失函数;通过无监督、对抗学习的方式,摆脱了对真值数据的依赖,使该算法能应用于更多场景;利用历史信息进行预测,可以有效降低计算时间,提高实用能力。
本实施例中,生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得,利用两帧的光流估计深度,提高了深度(本申请中的深度均是指深度图像)估计的精度和拍摄设备的位姿的精度。
本发明中,通过对生成模型不断的优化,使得生成模型合成的合成样本图像无限接近真实图像,由于合成样本图像是基于估计出的位姿和深度确定的,在合成样本图像接近真实图像的情况下,位姿和深度的准确度也必然会更高,这样,在生成模型优化完成后,再利用生成模型来进行位姿估计,估计的位姿的精度必然较高。
请参见图3,图3是本发明实施例提供的一种视觉里程计实现装置的结构图,如图3所示,视觉里程计实现装置500包括:
第一获取模块,用于获取拍摄设备依次采集的第一图像、第二图像和第三图像;
第二获取模块,用于根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。
进一步的,所述第二获取模块,包括:
第一获取子模块,用于根据所述第一图像和所述第二图像获取第一光流图;
第二获取子模块,用于根据所述第二图像和所述第三图像获取第二光流图;
第三获取子模块,用于根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
第四获取子模块,用于根据所述长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
第五获取子模块,用于将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
进一步的,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据所述长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像;
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
进一步的,所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得所述拍摄设备的位姿,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
需要说明的是,本实施例中上述视觉里程计实现装置300可以实现图1所示实施例中方法实施例中任意实施方式,也就是说,图1所示实施例中方法实施例中的任意实施方式都可以被本实施例中的上述视觉里程计实现装置300所实现,以及达到相同的有益效果,此处不再赘述。
请参见图4,图4是本发明实施例提供的一种电子设备的结构图,如图4所示,电子设备400,包括:存储器401、处理器402及存储在所述存储器401上并可在所述处理器402上运行的计算机程序,其中,
所述处理器402用于读取存储器401中的计算程序,执行下列过程:
获取拍摄设备依次采集的第一图像、第二图像和第三图像;
根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得。
进一步的,所述处理器402还用于执行:
根据所述第一图像和所述第二图像获取第一光流图;
根据所述第二图像和所述第三图像获取第二光流图;
根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
根据所述长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
进一步的,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据所述长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像;
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
进一步的,所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得所述拍摄设备的位姿,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
需要说明的是,本实施例中上述电子设备可以实现图1所示实施例中方法实施例中任意实施方式,也就是说,图1所示实施例中方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的视觉里程计实现方法(图1所示的视觉里程计实现方法)中的步骤。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (8)
1.一种视觉里程计实现方法,其特征在于,包括:
获取拍摄设备依次采集的第一图像、第二图像和第三图像;
根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得;
所述根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,包括:
根据所述第一图像和所述第二图像获取第一光流图;
根据所述第二图像和所述第三图像获取第二光流图;
根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
根据长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
2.根据权利要求1所述的方法,其特征在于,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像;
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
3.根据权利要求2所述的方法,其特征在于,所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得所述拍摄设备的位姿的过程,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
4.一种视觉里程计实现装置,其特征在于,包括:
第一获取模块,用于获取拍摄设备依次采集的第一图像、第二图像和第三图像;
第二获取模块,用于根据所述第一图像、所述第二图像和所述第三图像,利用生成模型,获得所述拍摄设备的位姿,其中,所述生成模型的训练样本包括根据光流图确定的向量,所述光流图根据依次采集的三幅样本图像获得;
所述第二获取模块,包括:
第一获取子模块,用于根据所述第一图像和所述第二图像获取第一光流图;
第二获取子模块,用于根据所述第二图像和所述第三图像获取第二光流图;
第三获取子模块,用于根据所述第一光流图和所述第二光流图,分别获得第一隐式向量和第二隐式向量;
第四获取子模块,用于根据长短时序记忆网络LSTM,对所述第一隐式向量和所述第二隐式向量进行更新,获得第一更新向量和第二更新向量;
第五获取子模块,用于将所述第一更新向量、所述第二更新向量、所述第二图像和所述第三图像输入至所述生成模型中,获得所述拍摄设备的位姿。
5.根据权利要求4所述的装置,其特征在于,所述生成模型的训练过程包括:
获取拍摄设备依次采集的第一样本图像、第二样本图像和第三样本图像;
根据所述第一样本图像和所述第二样本图像获取第三光流图;
根据所述第二样本图像和所述第三样本图像获取第四光流图;
根据所述第三光流图和所述第四光流图,分别获得第三隐式向量和第四隐式向量;
根据长短时序记忆网络LSTM,对所述第三隐式向量和所述第四隐式向量进行更新,获得第一更新向量和第二更新向量;
将所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像输入至基础模型中,获得所述拍摄设备的位姿;
根据所述拍摄设备的位姿和所述第二样本图像,获得合成样本图像;
将所述合成样本图像与所述第三样本图像输入至判别模型中,获得判别结果;
根据判别结果对所述基础模型进行优化。
6.根据权利要求5所述的装置,其特征在于,所述基础模型根据所述第一更新向量、所述第二更新向量、所述第二样本图像和所述第三样本图像,获得所述拍摄设备的位姿的过程,包括:
根据所述第一更新向量和所述第二样本图像,获得第一深度图像;
根据所述第二更新向量和所述第三样本图像,生成第二深度图像;
根据所述第一深度图像和所述第二样本图像,获得第一张量;
根据所述第二深度图像和所述第三样本图像,获得第二张量;
根据所述第一张量和所述第二张量,获得所述拍摄设备的位姿。
7.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的视觉里程计实现方法中的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的视觉里程计实现方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293582.2A CN111539988B (zh) | 2020-04-15 | 2020-04-15 | 一种视觉里程计实现方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010293582.2A CN111539988B (zh) | 2020-04-15 | 2020-04-15 | 一种视觉里程计实现方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539988A CN111539988A (zh) | 2020-08-14 |
CN111539988B true CN111539988B (zh) | 2024-04-09 |
Family
ID=71978497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010293582.2A Active CN111539988B (zh) | 2020-04-15 | 2020-04-15 | 一种视觉里程计实现方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539988B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658023A (zh) * | 2016-12-21 | 2017-05-10 | 山东大学 | 一种基于深度学习的端到端视觉里程计及方法 |
CN108537195A (zh) * | 2018-04-17 | 2018-09-14 | 深圳市唯特视科技有限公司 | 一种基于单帧表示模型的人类活动识别方法 |
CN110473254A (zh) * | 2019-08-20 | 2019-11-19 | 北京邮电大学 | 一种基于深度神经网络的位姿估计方法及装置 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN110595466A (zh) * | 2019-09-18 | 2019-12-20 | 电子科技大学 | 轻量级的基于深度学习的惯性辅助视觉里程计实现方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9083960B2 (en) * | 2013-01-30 | 2015-07-14 | Qualcomm Incorporated | Real-time 3D reconstruction with power efficient depth sensor usage |
US9607388B2 (en) * | 2014-09-19 | 2017-03-28 | Qualcomm Incorporated | System and method of pose estimation |
US20200041276A1 (en) * | 2018-08-03 | 2020-02-06 | Ford Global Technologies, Llc | End-To-End Deep Generative Model For Simultaneous Localization And Mapping |
-
2020
- 2020-04-15 CN CN202010293582.2A patent/CN111539988B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106658023A (zh) * | 2016-12-21 | 2017-05-10 | 山东大学 | 一种基于深度学习的端到端视觉里程计及方法 |
CN108537195A (zh) * | 2018-04-17 | 2018-09-14 | 深圳市唯特视科技有限公司 | 一种基于单帧表示模型的人类活动识别方法 |
CN110490928A (zh) * | 2019-07-05 | 2019-11-22 | 天津大学 | 一种基于深度神经网络的相机姿态估计方法 |
CN110473254A (zh) * | 2019-08-20 | 2019-11-19 | 北京邮电大学 | 一种基于深度神经网络的位姿估计方法及装置 |
CN110595466A (zh) * | 2019-09-18 | 2019-12-20 | 电子科技大学 | 轻量级的基于深度学习的惯性辅助视觉里程计实现方法 |
Non-Patent Citations (2)
Title |
---|
Monocular Depth Prediction using Generative Adversarial Networks;Kumar A C 等;IEEE;第413-421页 * |
基于三视图几何约束的摄像机相对位姿估计;张振杰;李建胜;赵漫丹;张小东;;浙江大学学报(工学版)(01);第156-164页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111539988A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | PDR-Net: Perception-inspired single image dehazing network with refinement | |
CN110610486B (zh) | 单目图像深度估计方法及装置 | |
CN109300151B (zh) | 图像处理方法和装置、电子设备 | |
CN113160294A (zh) | 图像场景深度的估计方法、装置、终端设备和存储介质 | |
Maslov et al. | Online supervised attention-based recurrent depth estimation from monocular video | |
CN110910437A (zh) | 一种复杂室内场景的深度预测方法 | |
CN115018888A (zh) | 一种基于Transformer的光流无监督估计方法 | |
CN114429555A (zh) | 由粗到细的图像稠密匹配方法、系统、设备及存储介质 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
CN112686952A (zh) | 一种图像光流计算系统、方法及应用 | |
CN116468769A (zh) | 一种基于图像的深度信息估计方法 | |
Yang et al. | SAM-Net: Semantic probabilistic and attention mechanisms of dynamic objects for self-supervised depth and camera pose estimation in visual odometry applications | |
CN112561979B (zh) | 一种基于深度学习的自监督单目深度估计方法 | |
CN113065506A (zh) | 一种人体姿态识别方法及系统 | |
CN111598927B (zh) | 一种定位重建方法和装置 | |
CN112270691A (zh) | 一种基于动态滤波器网络的单目视频结构和运动预测方法 | |
CN112115786A (zh) | 基于注意力U-net的单目视觉里程计方法 | |
CN111539988B (zh) | 一种视觉里程计实现方法、装置和电子设备 | |
CN108492308B (zh) | 一种基于相互结构引导滤波的变分光流的确定方法及系统 | |
CN113658231B (zh) | 光流预测方法、装置、电子设备及存储介质 | |
Babu V et al. | A deeper insight into the undemon: Unsupervised deep network for depth and ego-motion estimation | |
CN114743105A (zh) | 一种基于跨模态知识蒸馏的深度特权视觉里程计方法 | |
CN114119678A (zh) | 光流估计方法、计算机程序产品、存储介质及电子设备 | |
CN112634331A (zh) | 一种光流预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |