CN111311685A - 一种基于imu/单目图像的运动场景重构无监督方法 - Google Patents
一种基于imu/单目图像的运动场景重构无监督方法 Download PDFInfo
- Publication number
- CN111311685A CN111311685A CN202010395642.1A CN202010395642A CN111311685A CN 111311685 A CN111311685 A CN 111311685A CN 202010395642 A CN202010395642 A CN 202010395642A CN 111311685 A CN111311685 A CN 111311685A
- Authority
- CN
- China
- Prior art keywords
- estimation value
- network
- frames
- images
- inertial navigation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 230000000007 visual effect Effects 0.000 claims description 46
- 238000013528 artificial neural network Methods 0.000 claims description 29
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 239000002131 composite material Substances 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 2
- 230000006870 function Effects 0.000 description 27
- 238000004590 computer program Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20228—Disparity calculation for image-based rendering
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种基于IMU/单目图像的运动场景重构无监督方法。所述方法包括:根据视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值,根据惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,根据视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值,根据深度预测网络,得到原始图像的深度估计值,根据前后两帧图像之间相对位姿估计值与深度估计值的转换关系,构建用于网络训练的损失函数,根据损失函数,对视觉位姿预测网络、惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。采用本方法能够提高在特定场景下运动场景重构的准确率。
Description
技术领域
本申请涉及图像处理技术领域,特别是涉及一种基于IMU/单目图像的运动场景重构无监督方法和装置。
背景技术
同步定位与建图系统(SLAM)是AR、机器人和无人平台等领域的关键技术,主流的同步定位与建图系统基于多视觉几何开发相关算法获得当前场景的实时运动信息(空间位置与点云信息)。SLAM使用外接传感器结合相关算法得到视场内准确的空间点坐标,按照所采用传感器不同,分为激光雷达SLAM与视觉SLAM。基于激光雷达的SLAM具有精度高,实时性好,抗干扰性强等优点,但它的成本较高不适于大规模的使用。视觉SLAM使用特征点或者光流等信息构建时间轴上的位置约束来求解移动载体的位置信息,然而视觉SLAM容易受到外界光照条件的影响,不具有较强的鲁棒性。深度学习神经使用大数据训练的方式找到原始数据存在的高维度信息,在模式识别等领域得到广泛的关注。已有研究人员使用深度学习构建里程计或者深度估计网络来解析图像/惯导信息中的运动信息,以此来重构运动场景。然而主流的方法都是采用端对端的网络学习原始数据与标签之间的关系,需采集大量的数据标签,这大大降低了算法开发的效率。
为了得到光滑和精确的场景重构模型,需得到视场内物体表面空间点的全局坐标,双目视觉SLAM使用双目相机构建视差模型推算出视场内的物体表面特征点的全局坐标,然而双目相机在使用之前需进行精密的标定,并在使用过程中会产生较大的计算量增加系统的整体成本。因此使用单目相机进行运动信息估计受到学界的广泛关注,但使用单目相机图像无法得到全局一致的尺度,还需设计特定的算法进行尺度的恢复。国外学者(VitorGuizilini等,无监督单目深度估计,arXiv)提出了基于无监督学习的运动场景重构网络,网络分为位姿估计网络与深度估计网络,并设计了全局尺度一致性误差来训练网络,得到的场景重构模型较为光滑,然而此网络仅使用图像信息,在相机丢帧以及光线较暗的场景中,重构的效果并不理想。
发明内容
基于此,有必要针对上述技术问题,提供一种基于IMU/单目图像的运动场景重构无监督方法并在复杂环境下也能有较为理想的效果。
一种基于IMU/单目图像的运动场景重构无监督方法,所述方法包括:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
在其中一个实施例中,还包括:将两帧图像输入预先设置的视觉位姿预测网络,通过所述视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征;将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。
在其中一个实施例中,还包括:将所述高维语义特征分别输入卷积神经网络不同的作用域中,将不同作用域输出的结果按元素相加,得到所述预设维度的权重掩膜;将所述权重掩膜与所述高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。
在其中一个实施例中,所述惯导信息位姿估计网络为循环神经网络;还包括:将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。
在其中一个实施例中,还包括:将两帧图像之间的惯导信息分别输入到不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征;将所述多时域惯导特征输入全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
在其中一个实施例中,还包括:将原始图像输入预先设置的深度预测网络,通过所述深度预测网络的多层卷积层提取得到原始图像的隐层特征;根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的所述多层卷积层中,得到多尺度隐层特征;通过所述深度预测网络的回归器对所述多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
在其中一个实施例中,还包括:获取前后两帧图像之间所述相对位姿估计值与所述深度估计值之间的转换关系为:
其中,表示重投影误差,表示时刻的合成图像,表示时刻原始图像;利用所述深度预测网络得到与时刻的深度估计值与,将所述深度估计值与中每一个像素点的深度转换为全局坐标系下的深度,并得到匹配空间点坐标;将与时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
一种基于IMU/单目图像的运动场景重构无监督装置,所述装置包括:
视觉位姿获取模块,用于根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
惯导位姿获取模块,用于根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
相对位姿获取模块,用于根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
深度获取模块,用于根据预先设置的深度预测网络,得到原始图像的深度估计值;
场景重构模块,用于根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
上述基于IMU/单目图像的运动场景重构无监督方法和装置,通过位姿预测网络,预测两帧图像之间的视觉相对位姿估计值,以及通过构建的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,然后将视觉相对位姿估计值和惯导相对位姿估计值进行融合,可以得到包含惯导和视觉两方面信息的相对位姿估计值,然利用深度预测网络,得到原始图像的深度估计值,然后根据融合了惯导信息和视觉信息的相对位姿估计值与深度估计值之间的转换关系,构建深度学习的损失函数,根据损失函数对上述网络进行训练,可以进行对输入的图像序列进行运动场景重构。本发明实施例,利用了惯导信息,可以直接利用单目相机的图像,进行无标签的训练,提高了运动场景重构的准确性。
附图说明
图1为一个实施例中基于IMU/单目图像的运动场景重构无监督方法的流程示意图;
图2为一个实施例中相对位姿估计值计算的网络示意图;
图3为另一个实施例中深度预测网络的结构示意图;
图4为一个实施例中基于IMU/单目图像的运动场景重构无监督装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于IMU/单目图像的运动场景重构无监督方法,包括以下步骤:
步骤102,根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值。
视觉位姿预测网络可以由卷积神经网络、深度卷积网络等构成,通过视觉位姿预测网络可以提取图像的特征,通过特征之间的匹配、对比等方式,可以得到两帧图像之间的视觉相对位姿估计值。
步骤104,根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值。
惯导信息位姿估计网络可以采用循环神经网络实现,通过对不同时间输入的两帧图像输入循环神经网络,进行匹配、相加等操作之后,可以得到惯导相对位姿估计值。
步骤106,根据视觉相对位姿估计值和惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值。
将视觉相对位姿估计值和惯导相对位姿估计值采用松耦合的方式,可以将两种信息进行融合,得到两帧图像之间的相对位姿估计值。
步骤108,根据预先设置的深度预测网络,得到原始图像的深度估计值。
深度预测网络指的是预测原始图像深度估计值的网络,一般可以采用卷积层构建的深度网络实现,原始图像指的是单目相机拍摄的图像,深度估计值指的是针对于原始图像中的每个像素点,映射至深度对应的值。
步骤110,根据前后两帧图像之间相对位姿估计值与深度估计值的转换关系,构建用于网络训练的损失函数。
对于同一运动场景,时间前后的两幅图像,在相对位姿估计值和深度之间存在一定的内在联系,结合这部分联系,可以得到两幅图像的位姿信息与深度估计值的转换关系。损失函数指的是,通过深度学习时,预测值与实际值之间的差异信息,根据差异信息,利用学习器可以进行反向传播,对网络中的参数进行优化,从而提高预测的准确性,提高各种情况下重构运动场景的准确性。
步骤112,根据损失函数,对视觉位姿预测网络、惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
上述基于IMU/单目图像的运动场景重构无监督方法中,通过位姿预测网络,预测两帧图像之间的视觉相对位姿估计值,以及通过构建的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,然后将视觉相对位姿估计值和惯导相对位姿估计值进行融合,可以得到包含惯导和视觉两方面信息的相对位姿估计值,然利用深度预测网络,得到原始图像的深度估计值,然后根据融合了惯导信息和视觉信息的相对位姿估计值与深度估计值之间的转换关系,构建深度学习的损失函数,根据损失函数对上述网络进行训练,可以进行对输入的图像序列进行运动场景重构。本发明实施例,利用了惯导信息,可以直接利用单目相机的图像,进行无标签的深度学习,提高了运动场景重构的准确性。
对于步骤102,在其中一个实施例中,得到两帧图像之间的视觉相对位姿估计值的步骤包括:将两帧图像输入预先设置的视觉位姿预测网络,通过视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征,将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。本实施例中,通过多层神经网络,可以准确的提取图像的高维语义特征,从而提高预测的准确性。
具体的,还将高维语义特征分别输入到不同尺寸的卷积核作用域中,将不同作用域输出的结果按元素相加,得到预设维度的权重掩膜;将权重掩膜与高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。本实施例中,主要解决外界环境存在一些障碍物以及相对于移动载体静止的物体,这些噪声不利于相对位姿的求解,因此需要将上述噪声排除。
具体的,视觉位姿预测网络的工作原理如下:
其中,和分别表示第和层卷积层输出特征值,和代表第层卷积层的参数和偏置,代表卷积核后的激活函数,卷积神经网络的结构会影响整体网络的功能与运算效率,为了增强整体网络的解析能力,需设计层数较多的卷积神经网络,为了确保网络在训练过程中不出现梯度消失的现象,需使用多个残差块来构成网络的主体。
其中,、和分别代表尺寸为1、3和5的卷积核,上述卷积核均作用于第层卷积层的输出上,得到的特征图按元素相加得到与同维度的权重掩膜,在训练过程中抑制噪声特征的梯度,注意力网络输出的掩膜抑制噪声特征的过程如下:
对于步骤104,在其中一个实施例中,惯导信息位姿估计网络为循环神经网络,得到惯导相对位姿估计值的步骤包括:将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。本实施例中,利用循环神经网络,可以有效的提取出惯导信息中的位姿信息。
具体的,将两帧图像的惯导信息分别输入到不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征,将多时域惯导特征输入到全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
本实施例中,循环神经网络对于输入的惯导信息的响应可描述为:
由于单一长度的循环神经网络接受单一长度的惯导信息,从而限制了网络对于不同尺度数据的解析能力,为了确保网络的整体运算成本,可以设计不同长度的循环神经网络同时解析不同时间段的惯导数据,增强网络的解析能力,具体过程如下所示:
值得说明的是,为了便于计算,可以将预设维度设置为6。
对于步骤106,如图2所示,在其中一个实施例中,将视觉位姿预测网络输出的视觉相对位姿估计值与惯导信息位姿估计网络输出的惯导相对位姿估计值使用松耦合的方式进行融合得到最终的两帧图像之间的相对位姿估计值为:
对于步骤108,在其中一个实施例中,预测原始图像的深度估计值的步骤包括:将原始图像输入预先设置的深度预测网络,通过深度预测网络的多层卷积层提取得到原始图像的隐层特征;根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的多层卷积层中,得到多尺度隐层特征;通过深度预测网络的回归器对多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
具体的,如图3所示,提取隐层特征的步骤如下:
其中,表示深度预测网络的多层卷积层,和分别表示多层卷积层的参数和偏置。利用多层卷积层输出隐层特征h,可以构建特征金字塔,从而输出多尺度隐层特征,从而利用回归器解析得到原始图像尺寸相同的深度估计值,具体过程如下:
对于步骤110,在其中一个实施例中,构建损失函数的步骤包括:获取前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系为:
其中,表示重投影误差,表示时刻的合成图像,表示时刻原始图像;利用深度预测网络得到与时刻的深度估计值与,将深度估计值与中每一个像素点的深度转换为全局坐标系下,得到匹配空间点坐标;将与时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
在构建损失函数之后,可以通过Adam算法训练整体网络的参数与偏置:
训练好网络之后,视觉位姿预测网络、惯导信息位姿估计网络以及深度预测网络可以准确的输出预测值,从而可以得到准确的运动场景。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于IMU/单目图像的运动场景重构无监督装置,包括:视觉位姿获取模块402、惯导位姿获取模块404、相对位姿获取模块406、深度获取模块408和场景重构模块410,其中:
视觉位姿获取模块402,用于根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
惯导位姿获取模块404,用于根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
相对位姿获取模块406,用于根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
深度获取模块408,用于根据预先设置的深度预测网络,得到原始图像的深度估计值;
场景重构模块410,用于根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
在其中一个实施例中,视觉位姿获取模块402还用于将两帧图像输入预先设置的视觉位姿预测网络,通过所述视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征;将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。
在其中一个实施例中,视觉位姿获取模块402还用于将所述高维语义特征分别输入卷积神经网络不同的作用域中,将不同作用域输出的结果按元素相加,得到所述预设维度的权重掩膜;将所述权重掩膜与所述高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。
在其中一个实施例中,所述惯导信息位姿估计网络为循环神经网络;惯导位姿获取模块404还用于将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。
在其中一个实施例中,惯导位姿获取模块404还用于将两帧图像的惯导信息分别输入不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征;将所述多时域惯导特征输入全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
在其中一个实施例中,深度获取模块408还用于将原始图像输入预先设置的深度预测网络,通过所述深度预测网络的多层卷积层提取得到原始图像的隐层特征;根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的所述多层卷积层中,得到多尺度隐层特征;通过所述深度预测网络的回归器对所述多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
在其中一个实施例中,场景重构模块410还用于获取前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系为:
其中,表示重投影误差,表示时刻的合成图像,表示时刻原始图像;利用所述深度预测网络得到与时刻的深度估计值与,将所述深度估计值与中每一个像素点的深度转换为全局坐标系下,并得到匹配空间点坐标;将与时刻计算得到的空间点坐标的二范数作为尺度全局一致性误差为:
关于基于IMU/单目图像的运动场景重构无监督装置的具体限定可以参见上文中对于基于IMU/单目图像的运动场景重构无监督方法的限定,在此不再赘述。上述基于IMU/单目图像的运动场景重构无监督装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于IMU/单目图像的运动场景重构无监督方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述实施例中方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于IMU/单目图像的运动场景重构无监督方法,所述方法包括:
根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值;
根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值;
根据所述视觉相对位姿估计值和所述惯导相对位姿估计值,得到两帧图像之间的相对位姿估计值;
根据预先设置的深度预测网络,得到原始图像的深度估计值;
根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数;
根据所述损失函数,对所述视觉位姿预测网络、所述惯导信息位姿估计网络以及深度预测网络进行训练,利用训练完成后各个网络的输出来重构运动场景。
2.根据权利要求1所述的方法,其特征在于,所述根据预先设置的视觉位姿预测网络,得到两帧图像之间的视觉相对位姿估计值,包括:
将两帧图像输入预先设置的视觉位姿预测网络,通过所述视觉位姿预测网络的多层卷积神经网路,提取两帧图像的高维语义特征;
将两帧图像的高维语义特征进行均值池化操作至预设维度,得到两帧图像之间的视觉相对位姿估计值。
3.根据权利要求2所述的方法,其特征在于,在提取两帧图像的高维语义特征之后,所述方法还包括:
将所述高维语义特征分别输入卷积神经网络的不同作用域中,将不同作用域输出的结果按元素相加,得到所述预设维度的权重掩膜;
将所述权重掩膜与所述高维语义特征进行元素相乘,得到排除干扰噪声的高维语义特征。
4.根据权利要求1所述的方法,其特征在于,所述惯导信息位姿估计网络为循环神经网络;
所述根据预先设置的惯导信息位姿估计网络,得到两帧图像之间的惯导相对位姿估计值,包括:
将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值。
5.根据权利要求4所述的方法,其特征在于,所述将两帧图像的惯导信息输入所述循环神经网络,得到两帧图像之间的惯导相对位姿估计值,包括:
将两帧图像的惯导信息分别输入到不同长度的循环神经网络中,将不同长度的循环神经网络的输出结果进行元素相加,得到多时域惯导特征;
将所述多时域惯导特征输入全连接层,由全连接层输出预设维度的惯导相对位姿估计值。
6.根据权利要求1至5任一项所述的方法,其特征在于,根据预先设置的深度预测网络,得到原始图像的深度估计值,包括:
将原始图像输入预先设置的深度预测网络,通过所述深度预测网络的多层卷积层提取得到原始图像的隐层特征;
根据多层卷积层输出的隐层特征,构建特征金字塔,将特征金字塔输入对应的所述多层卷积层中,得到多尺度隐层特征;
通过所述深度预测网络的回归器对所述多尺度隐层特征进行解析,得到与原始图像尺寸相同的深度估计值。
7.根据权利要求1至5任一项所述的方法,其特征在于,根据前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系,构建用于网络训练的损失函数,包括:
获取前后两帧图像之间所述相对位姿估计值与所述深度估计值的转换关系为:
根据所述重投影误差和所述尺度全局一致性误差,构建用于网络训练的损失函数为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010395642.1A CN111311685B (zh) | 2020-05-12 | 2020-05-12 | 一种基于imu与单目图像的运动场景重构无监督方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010395642.1A CN111311685B (zh) | 2020-05-12 | 2020-05-12 | 一种基于imu与单目图像的运动场景重构无监督方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111311685A true CN111311685A (zh) | 2020-06-19 |
CN111311685B CN111311685B (zh) | 2020-08-07 |
Family
ID=71162794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010395642.1A Active CN111311685B (zh) | 2020-05-12 | 2020-05-12 | 一种基于imu与单目图像的运动场景重构无监督方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111311685B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111950599A (zh) * | 2020-07-20 | 2020-11-17 | 重庆邮电大学 | 一种动态环境下融合边缘信息的稠密视觉里程计方法 |
CN112184700A (zh) * | 2020-10-21 | 2021-01-05 | 西北民族大学 | 基于单目相机的农业无人车障碍物感知方法及装置 |
CN112344922A (zh) * | 2020-10-26 | 2021-02-09 | 中国科学院自动化研究所 | 单目视觉里程计定位方法及系统 |
CN112561978A (zh) * | 2020-12-18 | 2021-03-26 | 北京百度网讯科技有限公司 | 深度估计网络的训练方法、图像的深度估计方法、设备 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112837361A (zh) * | 2021-03-05 | 2021-05-25 | 浙江商汤科技开发有限公司 | 一种深度估计方法及装置、电子设备和存储介质 |
CN113160294A (zh) * | 2021-03-31 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 图像场景深度的估计方法、装置、终端设备和存储介质 |
CN113298860A (zh) * | 2020-12-14 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
CN113744301A (zh) * | 2021-08-05 | 2021-12-03 | 深圳供电局有限公司 | 移动机器人的运动轨迹估计方法、装置和存储介质 |
GB2596370A (en) * | 2020-06-26 | 2021-12-29 | Beijing Baidu Netcom Sci & Tech Co Ltd | Model training method and apparatus, and prediction method and apparatus |
CN113920165A (zh) * | 2021-10-29 | 2022-01-11 | 深圳供电局有限公司 | 一种基于多传感器特征融合的机器人位姿估计方法及系统 |
CN114526728A (zh) * | 2022-01-14 | 2022-05-24 | 浙江大学 | 一种基于自监督深度学习的单目视觉惯导定位方法 |
CN114993306A (zh) * | 2022-08-04 | 2022-09-02 | 中国人民解放军国防科技大学 | 一种尺度自恢复的视觉惯性组合导航方法和装置 |
WO2023050632A1 (zh) * | 2021-09-29 | 2023-04-06 | 深圳市慧鲤科技有限公司 | 定位方法及装置、设备、存储介质及计算机程序产品 |
WO2023155043A1 (zh) * | 2022-02-15 | 2023-08-24 | 中国科学院深圳先进技术研究院 | 一种基于历史信息的场景深度推理方法、装置及电子设备 |
WO2023165093A1 (zh) * | 2022-03-01 | 2023-09-07 | 上海商汤智能科技有限公司 | 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品 |
CN116758131A (zh) * | 2023-08-21 | 2023-09-15 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN117058430A (zh) * | 2023-10-12 | 2023-11-14 | 北京万龙精益科技有限公司 | 用于视场匹配的方法、装置、电子设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110238303A1 (en) * | 2005-12-15 | 2011-09-29 | Bruno Scherzinger | Land survey system |
CN104811683A (zh) * | 2014-01-24 | 2015-07-29 | 三星泰科威株式会社 | 用于估计位置的方法和设备 |
CN106446815A (zh) * | 2016-09-14 | 2017-02-22 | 浙江大学 | 一种同时定位与地图构建方法 |
CN106856566A (zh) * | 2016-12-16 | 2017-06-16 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种基于ar设备的信息同步方法及系统 |
CN109307508A (zh) * | 2018-08-29 | 2019-02-05 | 中国科学院合肥物质科学研究院 | 一种基于多关键帧的全景惯导slam方法 |
CN110047142A (zh) * | 2019-03-19 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 无人机三维地图构建方法、装置、计算机设备及存储介质 |
CN111156998A (zh) * | 2019-12-26 | 2020-05-15 | 华南理工大学 | 一种基于rgb-d相机与imu信息融合的移动机器人定位方法 |
-
2020
- 2020-05-12 CN CN202010395642.1A patent/CN111311685B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110238303A1 (en) * | 2005-12-15 | 2011-09-29 | Bruno Scherzinger | Land survey system |
CN104811683A (zh) * | 2014-01-24 | 2015-07-29 | 三星泰科威株式会社 | 用于估计位置的方法和设备 |
CN106446815A (zh) * | 2016-09-14 | 2017-02-22 | 浙江大学 | 一种同时定位与地图构建方法 |
CN106856566A (zh) * | 2016-12-16 | 2017-06-16 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 一种基于ar设备的信息同步方法及系统 |
CN109307508A (zh) * | 2018-08-29 | 2019-02-05 | 中国科学院合肥物质科学研究院 | 一种基于多关键帧的全景惯导slam方法 |
CN110047142A (zh) * | 2019-03-19 | 2019-07-23 | 中国科学院深圳先进技术研究院 | 无人机三维地图构建方法、装置、计算机设备及存储介质 |
CN111156998A (zh) * | 2019-12-26 | 2020-05-15 | 华南理工大学 | 一种基于rgb-d相机与imu信息融合的移动机器人定位方法 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2596370A (en) * | 2020-06-26 | 2021-12-29 | Beijing Baidu Netcom Sci & Tech Co Ltd | Model training method and apparatus, and prediction method and apparatus |
US11841921B2 (en) | 2020-06-26 | 2023-12-12 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Model training method and apparatus, and prediction method and apparatus |
GB2596370B (en) * | 2020-06-26 | 2023-05-24 | Beijing Baidu Netcom Sci & Tech Co Ltd | Model training method and apparatus, and prediction method and apparatus |
CN111950599B (zh) * | 2020-07-20 | 2022-07-01 | 重庆邮电大学 | 一种动态环境下融合边缘信息的稠密视觉里程计方法 |
CN111950599A (zh) * | 2020-07-20 | 2020-11-17 | 重庆邮电大学 | 一种动态环境下融合边缘信息的稠密视觉里程计方法 |
CN112184700A (zh) * | 2020-10-21 | 2021-01-05 | 西北民族大学 | 基于单目相机的农业无人车障碍物感知方法及装置 |
CN112184700B (zh) * | 2020-10-21 | 2022-03-18 | 西北民族大学 | 基于单目相机的农业无人车障碍物感知方法及装置 |
CN112344922A (zh) * | 2020-10-26 | 2021-02-09 | 中国科学院自动化研究所 | 单目视觉里程计定位方法及系统 |
CN113298860A (zh) * | 2020-12-14 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN112561978B (zh) * | 2020-12-18 | 2023-11-17 | 北京百度网讯科技有限公司 | 深度估计网络的训练方法、图像的深度估计方法、设备 |
CN112561978A (zh) * | 2020-12-18 | 2021-03-26 | 北京百度网讯科技有限公司 | 深度估计网络的训练方法、图像的深度估计方法、设备 |
CN112767373A (zh) * | 2021-01-27 | 2021-05-07 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112767373B (zh) * | 2021-01-27 | 2022-09-02 | 大连理工大学 | 一种基于单目相机的机器人室内复杂场景避障方法 |
CN112837361A (zh) * | 2021-03-05 | 2021-05-25 | 浙江商汤科技开发有限公司 | 一种深度估计方法及装置、电子设备和存储介质 |
CN113160294A (zh) * | 2021-03-31 | 2021-07-23 | 中国科学院深圳先进技术研究院 | 图像场景深度的估计方法、装置、终端设备和存储介质 |
CN113570658A (zh) * | 2021-06-10 | 2021-10-29 | 西安电子科技大学 | 基于深度卷积网络的单目视频深度估计方法 |
CN113744301A (zh) * | 2021-08-05 | 2021-12-03 | 深圳供电局有限公司 | 移动机器人的运动轨迹估计方法、装置和存储介质 |
WO2023050632A1 (zh) * | 2021-09-29 | 2023-04-06 | 深圳市慧鲤科技有限公司 | 定位方法及装置、设备、存储介质及计算机程序产品 |
CN113920165A (zh) * | 2021-10-29 | 2022-01-11 | 深圳供电局有限公司 | 一种基于多传感器特征融合的机器人位姿估计方法及系统 |
CN114526728A (zh) * | 2022-01-14 | 2022-05-24 | 浙江大学 | 一种基于自监督深度学习的单目视觉惯导定位方法 |
CN114526728B (zh) * | 2022-01-14 | 2023-12-05 | 浙江大学 | 一种基于自监督深度学习的单目视觉惯导定位方法 |
WO2023155043A1 (zh) * | 2022-02-15 | 2023-08-24 | 中国科学院深圳先进技术研究院 | 一种基于历史信息的场景深度推理方法、装置及电子设备 |
WO2023165093A1 (zh) * | 2022-03-01 | 2023-09-07 | 上海商汤智能科技有限公司 | 视觉惯性里程计模型的训练方法、位姿估计方法、装置、电子设备、计算机可读存储介质及程序产品 |
CN114993306B (zh) * | 2022-08-04 | 2022-10-28 | 中国人民解放军国防科技大学 | 一种尺度自恢复的视觉惯性组合导航方法和装置 |
CN114993306A (zh) * | 2022-08-04 | 2022-09-02 | 中国人民解放军国防科技大学 | 一种尺度自恢复的视觉惯性组合导航方法和装置 |
CN116758131A (zh) * | 2023-08-21 | 2023-09-15 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN116758131B (zh) * | 2023-08-21 | 2023-11-28 | 之江实验室 | 一种单目图像深度估计方法、装置和计算机设备 |
CN117058430A (zh) * | 2023-10-12 | 2023-11-14 | 北京万龙精益科技有限公司 | 用于视场匹配的方法、装置、电子设备和存储介质 |
CN117058430B (zh) * | 2023-10-12 | 2023-12-22 | 北京万龙精益科技有限公司 | 用于视场匹配的方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111311685B (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111311685B (zh) | 一种基于imu与单目图像的运动场景重构无监督方法 | |
Ming et al. | Deep learning for monocular depth estimation: A review | |
Li et al. | Building and optimization of 3D semantic map based on Lidar and camera fusion | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN111047548B (zh) | 姿态变换数据处理方法、装置、计算机设备和存储介质 | |
Tonioni et al. | Unsupervised domain adaptation for depth prediction from images | |
CN111898635A (zh) | 神经网络的训练方法、数据获取方法和装置 | |
Wang et al. | 3d lidar and stereo fusion using stereo matching network with conditional cost volume normalization | |
Yang et al. | Bayesian denet: Monocular depth prediction and frame-wise fusion with synchronized uncertainty | |
CN111539941B (zh) | 帕金森病腿部灵活性任务评估方法及系统、存储介质及终端 | |
CN111160294B (zh) | 基于图卷积网络的步态识别方法 | |
CN109272493A (zh) | 一种基于递归卷积神经网络的单目视觉里程计方法 | |
CN106295613A (zh) | 一种无人机目标定位方法及系统 | |
Huang et al. | Contrast-weighted dictionary learning based saliency detection for VHR optical remote sensing images | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN115661336A (zh) | 一种三维重建方法及相关装置 | |
CN115170628A (zh) | 基于光线隐式场的多视角建模方法、装置和建模设备 | |
Zhou et al. | A superior image inpainting scheme using Transformer-based self-supervised attention GAN model | |
CN115100294A (zh) | 基于直线特征的事件相机标定方法、装置及设备 | |
Sun et al. | Two-stage deep regression enhanced depth estimation from a single RGB image | |
CN117058474B (zh) | 一种基于多传感器融合的深度估计方法及系统 | |
Ge et al. | An improved U-net architecture for image dehazing | |
Li et al. | Unsupervised joint learning of depth, optical flow, ego-motion from video | |
CN115830707A (zh) | 一种基于超图学习的多视角人体行为识别方法 | |
CN114119757A (zh) | 图像处理方法、装置、设备、介质和计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |