CN112308918A - 一种基于位姿解耦估计的无监督单目视觉里程计方法 - Google Patents

一种基于位姿解耦估计的无监督单目视觉里程计方法 Download PDF

Info

Publication number
CN112308918A
CN112308918A CN202011151965.2A CN202011151965A CN112308918A CN 112308918 A CN112308918 A CN 112308918A CN 202011151965 A CN202011151965 A CN 202011151965A CN 112308918 A CN112308918 A CN 112308918A
Authority
CN
China
Prior art keywords
network
matrix
estimation
decoupling
pose
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011151965.2A
Other languages
English (en)
Other versions
CN112308918B (zh
Inventor
周文晖
王威盛
孙煨
张桦
戴国骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202011151965.2A priority Critical patent/CN112308918B/zh
Publication of CN112308918A publication Critical patent/CN112308918A/zh
Application granted granted Critical
Publication of CN112308918B publication Critical patent/CN112308918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/38Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation
    • G06F7/48Methods or arrangements for performing computations using exclusively denominational number representation, e.g. using binary, ternary, decimal representation using non-contact-making devices, e.g. tube, solid state device; using unspecified devices
    • G06F7/52Multiplying; Dividing
    • G06F7/523Multiplying only
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于位姿解耦估计的无监督单目视觉里程计方法。本发明包括如下步骤:S1:准备KITTI数据集并进行预处理;S2:基于位姿解耦估计公式,设计位姿解耦估计网络;S3:设计基于位姿解耦估计的无监督单目视觉里程计;S4:定义基于位姿解耦估计的无监督单目视觉里程计的损失函数;S5:使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计。本发明从相机位姿估计的级联解耦结构设计开始,以实现精确的位姿估计;并将其扩展到无监督单目视觉里程计,实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计;为提高旋转矩阵估计的鲁棒性,旋转矩阵采用单位四元数表示;最终在KITTI数据库上完成训练和测评。

Description

一种基于位姿解耦估计的无监督单目视觉里程计方法
技术领域
本发明是关于深度学习与计算机视觉领域,特别涉及了一种基于位姿解耦估计的无监督单目视觉里程计方法。
背景技术
深度学习是近年来人工智能领域中的一项重要突破,已在图像分类、图像理解、语音识别、自然语言处理等多个方向取得了突破性进展。相比于传统机器学习方法,深度学习方法的主要过程为:构建数据集;使用卷积层、全连接层、激活层等设计深度神经网络,设计损失函数;利用数据集训练深度神经网络,采用误差反传技术和梯度下降的优化方法更新深度神经网络中的参数,使得深度神经网络沿着损失函数最小的方向学习。训练完成的深度神经网络模型可拟合出高维复杂函数,实现网络输入到输出的期望映射,并在测试数据集上进行预测。卷积神经网络是深度学习方法中发展最成功的网络结构之一,它利用卷积层提取输入图像的低维和高维语义特征,然后利用这些语义特征完成分类、回归等任务。无监督学习是深度学习方法中的一类学习机制,可从无标记的训练数据中学习到语义特征。
基于视觉的定位方法通常有视觉里程计(Visual Odometry,VO) 和视觉同时定位与地图构建方法(Visual Simultaneous Localization and Mapping,V-SLAM)。视觉里程计由Nister提出,通过分析图像序列中前后帧图像来估计相机自运动。视觉里程计无需相机运动和场景的先验信息,并且能避免传统里程计中的缺点和局限。如果只使用一个相机进行定位估计,称为单目视觉里程计。如果使用立体视觉相机,则称为双目视觉里程计。一般使用立体视觉相机的情况时,根据两个相机在水平轴上的位置关系,称在左边的相机为左相机,在右边的相机为右相机。视觉里程计目标是根据相机拍摄的图像序列估计相机运动。相机运动表示为相邻图像帧间相机的空间位置变化,包括相机的平移距离和旋转角度。
发明内容
本发明的目的是提供一种基于位姿解耦估计的无监督单目视觉里程计方法。本发明具体实现包括如下步骤:
步骤S1:准备KITTI数据集并进行预处理;
步骤S2:基于位姿解耦估计公式,设计位姿解耦估计网络;
步骤S3:设计基于位姿解耦估计的无监督单目视觉里程计;
步骤S4:定义基于位姿解耦估计的无监督单目视觉里程计的损失函数;
步骤S5:使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计。
进一步的,所述步骤S2具体实现包括:
步骤S2-1:所述的位姿解耦估计公式是将两帧间的相机位姿矩阵分解为解耦平移矩阵和解耦旋转矩阵的级联相乘,从而将相机位姿估计分解为解耦平移矩阵和解耦旋转矩阵的级联估计;具体表述为:
对于相邻两帧图像It和Is,场景点在图像It上的投影像素点为gt,在图像Is上的投影像素点为gs,根据相机内参矩阵K、相机位姿矩阵 Pt→s、像素点gt在相机坐标系下的深度值zt和像素点gs在相机坐标系下的深度值zs,像素点gt和像素点gs满足刚性运动的投影公式,具体为:
Figure BDA0002741545090000021
其中Pt→s为相机从第t帧到第s帧的相机位姿矩阵,包含了一个 3×3的旋转矩阵R和一个3×1的平移矩阵T;采用四元数表示旋转矩阵R,即旋转矩阵R由一个四元素(q0,q1,q2,q3)表示,所述四元数表示旋转矩阵为成熟技术;平移矩阵T包含了3个平移量,分别是相机坐标系下x、y、z坐标的平移量Tx、Ty和Tz;根据矩阵乘法,相机位姿矩阵Pt→s可表示为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
Figure BDA0002741545090000031
其中PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵;
将公式(2)代入公式(1)中,有:
Figure BDA0002741545090000032
根据公式(3),可进一步将像素点gt和像素点gs的投影公式分解为两个投影公式的级联相乘,具体为:
Figure 100002_1
其中公式(4)的第一行为解耦平移矩阵PT的投影公式,公式(4)的第二行为解耦旋转矩阵PR的投影公式;公式(4)称为位姿解耦估计公式,将相机位姿矩阵Pt→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计;
步骤S2-2:所述的位姿解耦估计网络包含了一个平移估计网络T-Net和一个旋转估计网络R-Net;平移估计网络T-Net实现解耦平移矩阵PT中三个平移量Tx、Ty和Tz估计,旋转估计网络R-Net实现解耦旋转矩阵PR中四元素(q0,q1,q2,q3)估计。
进一步的,所述的平移估计网络T-Net具体表述为:网络输入为连续三帧的左相机图像It-1、It和It+1,输出为9个平移量,分别对应于It-1和It间的解耦平移矩阵PT(t-1→t)、It和It+1间的解耦平移矩阵PT(t→t+1)、以及It-1和It+1间的解耦平移矩阵PT(t+1→t-1);平移估计网络T-Net的网络结构如下所示:
第1网络层:采用卷积核为7×7,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第2网络层:采用卷积核为5×5,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第3~7网络层:每个网络层都采用卷积核为3×3,步长为[2,2]的卷积层,每个卷积层的输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第8网络层:采用卷积核为1×1,步长为[1,1]的卷积层,卷积层输出直接送入第9网络层;
第9网络层:对第8网络层输出特征的维度上进行求平均操作,第9网络层输出维度为N×9。
进一步的,所述的旋转估计网络R-Net具体表述为:根据平移估计网络T-Net输出结果,以及公式(4)中解耦平移矩阵PT的投影公式,将左相机图像It-1投影到It图像空间,生成新图像I′t-1,以及将左相机图像It+1投影到It图像空间,生成新图像I′t+1;将{I′t-1,It,I′t+1}作为旋转估计网络R-Net的输入;旋转估计网络R-Net的输出为3个四元数(12 个数值),分别对应于I′t-1和It间的解耦旋转矩阵PR(t-1→t)、It和I′t+1间的解耦旋转矩阵PR(t→t+1)、以及I′t-1和I′t+1间的解耦旋转矩阵PR (t+1→t-1);旋转估计网络R-Net的网络结构如下所示;
第1网络层:采用卷积核为7×7,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第2网络层:采用卷积核为5×5,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第3~7网络层:每个网络层都采用卷积核为3×3,步长为[2,2]的卷积层,每个卷积层的输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第8网络层:采用卷积核为1×1,步长为[1,1]的卷积层,卷积层输出直接送入第9网络层;
第9网络层:对第8网络层输出特征的(高度×宽度)维度上进行求平均操作,第9网络层输出维度为N×12。
进一步的,根据平移估计网络T-Net输出结果和旋转估计网络 R-Net输出结果,可得到连续三帧图像It-1、It和It+1间的相机位姿初始估计结果,包括It-1和It间的相机位姿矩阵Pinit(t-1→t)、It和It+1间的相机位姿矩阵Pinit(t→t+1)、以及It-1和It+1间的相机位姿矩阵Pinit(t+1 →t-1),具体公式为:
Figure BDA0002741545090000051
进一步的,所述步骤S3包括:
基于位姿解耦估计的无监督单目视觉里程计包含三个网络:视差估计网络DispNet、位姿解耦估计网络、位姿解耦修正网络;
所述的视差估计网络DispNet采用了与GeoNet中DepthNet相同的网络结构;
所述位姿解耦修正网络包含了一个平移修正网络T-RefineNet和一个旋转修正网络R-RefineNet。
进一步的,所述的平移修正网络T-RefineNet具体表述为:根据旋转估计网络R-Net输出结果,以及公式(4)中解耦旋转矩阵PR的投影公式,将图像I′t-1投影到It图像空间,生成新图像I″t-1,以及图像I′t+1投影到It图像空间,生成新图像I″t+1;将{I″t-1,It,I″t+1}作为平移修正网络 T-RefineNet的输入;平移修正网络T-RefineNet输出为9个平移量,分别对应于I″t-1和It间的解耦平移修正矩阵ΔPT(t-1→t)、It和I″t+1间的解耦平移修正矩阵ΔPT(t→t+1)、以及It-1和It+1间的解耦平移修正矩阵ΔPT(t+1→t-1);平移修正网络T-RefineNet的网络结构与平移估计网络T-Net的网络结构相同。
进一步的,所述的旋转修正网络R-RefineNet具体表述为:根据平移修正网络T-RefineNet输出结果,以及公式(4)中解耦平移矩阵PT的投影公式,将图像I″t-1投影到It图像空间,生成新图像I″′t-1,以及将图像I″t+1投影到It图像空间,生成新图像I″′t+1;将{I″′t-1,It,I″′t+1}作为旋转修正网络R-RefineNet的输入;旋转修正网络R-RefineNet输出为3个四元数(12个数值),分别对应于I″′t-1和It间的解耦旋转修正矩阵ΔPR(t-1→t)、It和I″′t+1间的解耦旋转修正矩阵ΔPR(t→t+1)、以及I″′t-1和I″′t+1间的解耦旋转修正矩阵ΔPR(t+1→t-1);旋转修正网络R-RefineNet的网络结构与旋转估计网络R-Net的网络结构相同。
进一步的,根据旋转修正网络R-RefineNet输出结果,以及公式(4) 中解耦旋转矩阵PR的投影公式,将图像I″′t-1投影到It图像空间,生成新图像
Figure BDA0002741545090000062
以及图像I″′t+1投影到It图像空间,生成新图像
Figure BDA0002741545090000063
根据步骤S2中的相机位姿初始估计结果和位姿解耦修正网络的输出结果,最终的相机位姿矩阵估计结果包括:It-1和It间的相机位姿矩阵P(t-1→t)、It和It+1间的相机位姿矩阵P(t→t+1)、以及It-1和It+1间的相机位姿矩阵P(t+1→t-1),具体公式为:
Figure BDA0002741545090000061
进一步的,所述步骤S4包括:
所述的基于位姿解耦估计的无监督单目视觉里程计的损失函数 Ltotal包括亮度一致性损失Llr、视差平滑损失Lsmooth、刚性一致性损失 Lrigid、位姿回环一致性损失Lloop,具体公式为:
Ltotal=λbLlrsLsmoothrLrigidlLloop (8)
其中λb、λs、λr和λl为权重,用于调整不同损失在整个损失函数中的作用,通常λb=λr=λl=1.0,λs=0.5;
所述的亮度一致性损失Llr为连续三帧左相机图像It-1、It和It+1与其右相机图像间的左右一致性程度,具体公式为:
Llr=Llr(It-1)+Llr(It)+Llr(It+1) (9)
其中Llr(It-1)表示为左相机图像It-1与其对应右相机图像间的左右一致性程度,Llr(It)表示为左相机图像It与其对应右相机图像间的左右一致性程度,Llr(It+1)表示为左相机图像It+1与其对应右相机图像间的左右一致性程度;
所述的左相机图像Il与其对应右相机图像Ir间的左右一致性程度计算公式为:
Figure BDA0002741545090000071
其中Il(u,v)为左相机图像中像素点(u,v)的像素值,Ir(u,v)为右相机图像中像素点(u,v)的像素值,d(u,v)像素点(u,v)的视差值,Lp(·)计算公式为:
Figure BDA0002741545090000072
其中β为权重,通常取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;||··||1为计算L1距离;
所述的视差平滑损失Lsmooth为连续三帧的视差图dt-1、dt和dt+1的平滑程度,具体公式为:
Lsmooth=Lsmooth(dt-1)+Lsmooth(dt)+Lsmooth(dt+1) (12)
其中Lsmooth(dt-1)为视差图dt-1的平滑程度,Lsmooth(dt)为视差图dt的平滑程度,Lsmooth(dt+1)为视差图dt+1的平滑程度;
所述的视差图d的平滑程度计算公式为:
Figure BDA0002741545090000073
其中
Figure BDA0002741545090000074
Figure BDA0002741545090000075
分别为水平方向和垂直方向的偏导数,Il为视差图d所对应的左相机图像;
所述的刚性一致性损失Lrigid表示为左相机图像It-1和It+1投影到It图像空间后,与左相机图像It的一致性程度,具体公式为:
Figure BDA0002741545090000076
根据步骤S3中得到最终的相机位姿矩阵估计结果,所述的位姿回环一致性损失Lloop表示为
Lloop=||P(t-1→t)·P(t→t+1)·P(t+1→t-1),E4×4||1 (15)
其中E4×4为4×4的单位矩阵。
本发明有益效果如下:
本发明从相机位姿估计的级联解耦结构设计开始,提出了一种位姿解耦估计网络和位姿解耦修正网络,以实现精确的位姿估计;并将其扩展到无监督单目视觉里程计,实现相邻帧间相机位姿的旋转矩阵和平移矩阵解耦估计;为提高旋转矩阵估计的鲁棒性,旋转矩阵采用单位四元数表示;最终在KITTI数据库上完成训练和测评。
附图说明
图1为位姿解耦估计网络框图
图2为基于位姿解耦估计的无监督单目视觉里程计框图
图3为本发明的主要步骤流程示意图
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
如图1-3所示,一种基于位姿解耦估计的无监督单目视觉里程计方法,包括如下步骤:
步骤S1:准备KITTI数据集并进行预处理;
步骤S2:基于位姿解耦估计公式,设计位姿解耦估计网络;
步骤S3:设计基于位姿解耦估计的无监督单目视觉里程计;
步骤S4:定义基于位姿解耦估计的无监督单目视觉里程计的损失函数;
步骤S5:使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计;
所述步骤S1包括:
步骤S1-1:采用德国卡尔斯鲁厄理工学院和丰田美国技术研究院发布的KITTI数据集作为训练集和测试集;KITTI数据集包含21个场景数据,每个场景数据为车载双目立体相机连续拍摄的道路场景图像序列,每帧双目立体图像包含了一幅左相机图像和一幅右相机图像;将第1到第8个场景数据作为训练集,第9和10个场景数据作为测试集。
步骤S1-2:从KITTI场景数据中提取连续三帧的双目立体图像,经数据增强后作为一次训练的输入数据;其中连续三帧的左相机图像作为网络输入,连续三帧的右相机图像仅用于训练时的损失函数计算;所述的数据增强方法为成熟技术,包括图像尺度缩放,随机裁剪和亮度调整等。
所述步骤S2包括:
步骤S2-1:所述的位姿解耦估计公式是将两帧间的相机位姿矩阵分解为解耦平移矩阵和解耦旋转矩阵的级联相乘,从而将相机位姿估计分解为解耦平移矩阵和解耦旋转矩阵的级联估计。具体表述为:
对于相邻两帧图像It和Is,场景点在图像It上的投影像素点为gt,在图像Is上的投影像素点为gs,根据相机内参矩阵K、相机位姿矩阵 Pt→s、像素点gt在相机坐标系下的深度值zt和像素点gs在相机坐标系下的深度值zs,像素点gt和像素点gs满足刚性运动的投影公式,具体为:
Figure BDA0002741545090000091
其中Pt→s为相机从第t帧到第s帧的相机位姿矩阵,包含了一个 3×3的旋转矩阵R和一个3×1的平移矩阵T;采用四元数表示旋转矩阵R,即旋转矩阵R由一个四元素(q0,q1,q2,q3)表示,所述四元数表示旋转矩阵为成熟技术;平移矩阵T包含了3个平移量,分别是相机坐标系下x、y、z坐标的平移量Tx、Ty和Tz;根据矩阵乘法,相机位姿矩阵Pt→s可表示为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
Figure BDA0002741545090000101
其中PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵, E3×3为3×3的单位矩阵。
将公式(2)代入公式(1)中,有:
Figure BDA0002741545090000102
根据公式(3),可进一步将像素点gt和像素点gs的投影公式分解为两个投影公式的级联相乘,具体为:
Figure 100002_2
其中公式(4)的第一行为解耦平移矩阵PT的投影公式,公式(4)的第二行为解耦旋转矩阵PR的投影公式。公式(4)称为位姿解耦估计公式,将相机位姿矩阵Pt→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计。
步骤S2-2:所述的位姿解耦估计网络包含了一个平移估计网络 T-Net和一个旋转估计网络R-Net,如图1所示;平移估计网络T-Net 实现解耦平移矩阵PT中三个平移量Tx、Ty和Tz估计,旋转估计网络 R-Net实现解耦旋转矩阵PR中四元素(q0,q1,q2,q3)估计。
所述的平移估计网络T-Net具体表述为:网络输入为连续三帧的左相机图像It-1、It和It+1,输出为9个平移量,分别对应于It-1和It间的解耦平移矩阵PT(t-1→t)、It和It+1间的解耦平移矩阵PT(t→t+1)、以及It-1和It+1间的解耦平移矩阵PT(t+1→t-1);平移估计网络T-Net 的网络结构如表1所示;
表1:平移估计网络结构图输入(批处理数×高度×宽度×通道):(N×H×W×9)
Figure BDA0002741545090000111
第1网络层:采用卷积核为7×7,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第2网络层:采用卷积核为5×5,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第3~7网络层:每个网络层都采用卷积核为3×3,步长为[2,2]的卷积层,每个卷积层的输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第8网络层:采用卷积核为1×1,步长为[1,1]的卷积层,卷积层输出直接送入第9网络层;
第9网络层:对第8网络层输出特征的(高度×宽度)维度上进行求平均操作,第9网络层输出维度为N×9。
所述的旋转估计网络R-Net具体表述为:根据平移估计网络T-Net 输出结果,以及公式(4)中解耦平移矩阵PT的投影公式,将左相机图像It-1投影到It图像空间,生成新图像I′t-1,以及将左相机图像It+1投影到It图像空间,生成新图像I′t+1;将{I′t-1,It,I′t+1}作为旋转估计网络 R-Net的输入;旋转估计网络R-Net的输出为3个四元数(12个数值),分别对应于I′t-1和It间的解耦旋转矩阵PR(t-1→t)、It和I′t+1间的解耦旋转矩阵PR(t→t+1)、以及I′t-1和I′t+1间的解耦旋转矩阵PR(t+1→t-1);旋转估计网络R-Net的网络结构如表2所示;
表2:旋转估计网络结构图
输入(批处理数×高度×宽度×通道):(N×H×W×9)
Figure BDA0002741545090000121
Figure BDA0002741545090000131
第1网络层:采用卷积核为7×7,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第2网络层:采用卷积核为5×5,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第3~7网络层:每个网络层都采用卷积核为3×3,步长为[2,2]的卷积层,每个卷积层的输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第8网络层:采用卷积核为1×1,步长为[1,1]的卷积层,卷积层输出直接送入第9网络层;
第9网络层:对第8网络层输出特征的(高度×宽度)维度上进行求平均操作,第9网络层输出维度为N×12。
根据平移估计网络T-Net输出结果和旋转估计网络R-Net输出结果,可得到连续三帧图像It-1、It和It+1间的相机位姿初始估计结果,包括It-1和It间的相机位姿矩阵Pinit(t-1→t)、It和It+1间的相机位姿矩阵Pinit(t→t+1)、以及It-1和It+1间的相机位姿矩阵Pinit(t+1→t-1),具体公式为:
Figure BDA0002741545090000132
所述步骤S3包括:
基于位姿解耦估计的无监督单目视觉里程计包含三个网络:视差估计网络DispNet、位姿解耦估计网络、位姿解耦修正网络,如图2 所示。
所述的视差估计网络DispNet采用了与GeoNet中DepthNet相同的网络结构(Zhichao Yin,Jianping Shi.GeoNet:Unsupervised Learning ofDense Depth,OpticalFlow and Camera Pose.in IEEE Conference on Computer Vision and PatternRecognition.2018);其结构为一个包含了编码子网和解码子网的U型网络;编码子网的输入为连续三帧的左相机图像It-1、It和It+1,通过卷积和下采样提取深层特征信息;解码子网通过卷积和上采样将深层特征信息图尺寸恢复到输入图像尺寸,并得到连续三帧的视差图dt-1、dt和dt+1。对于视差图d,u为图像空间的水平方向坐标,v为图像空间的垂直方向坐标,则像素点(u,v) 的视差值为d(u,v),其深度值z的计算公式为:
Figure BDA0002741545090000141
其中B为车载双目立体相机的基线,f为车载双目立体相机的焦距。
所述位姿解耦修正网络包含了一个平移修正网络T-RefineNet和一个旋转修正网络R-RefineNet;
所述的平移修正网络T-RefineNet具体表述为:根据旋转估计网络R-Net输出结果,以及公式(4)中解耦旋转矩阵PR的投影公式,将图像I′t-1投影到It图像空间,生成新图像I″t-1,以及图像I′t+1投影到It图像空间,生成新图像I″t+1;将{I″t-1,It,I″t+1}作为平移修正网络T-RefineNet 的输入;平移修正网络T-RefineNet输出为9个平移量,分别对应于I″t-1和It间的解耦平移修正矩阵ΔPT(t-1→t)、It和I″t+1间的解耦平移修正矩阵ΔPT(t→t+1)、以及It-1和It+1间的解耦平移修正矩阵ΔPT(t+1→t-1);平移修正网络T-RefineNet的网络结构与平移估计网络T-Net的网络结构相同;
所述的旋转修正网络R-RefineNet具体表述为:根据平移修正网络T-RefineNet输出结果,以及公式(4)中解耦平移矩阵PT的投影公式,将图像I″t-1投影到It图像空间,生成新图像I″′t-1,以及将图像I″t+1投影到 It图像空间,生成新图像I″′t+1;将{I″′t-1,It,I″′t+1}作为旋转修正网络 R-RefineNet的输入;旋转修正网络R-RefineNet输出为3个四元数(12 个数值),分别对应于I″′t-1和It间的解耦旋转修正矩阵ΔPR(t-1→t)、 It和I″′t+1间的解耦旋转修正矩阵ΔPR(t→t+1)、以及I″′t-1和I″′t+1间的解耦旋转修正矩阵ΔPR(t+1→t-1);旋转修正网络R-RefineNet的网络结构与旋转估计网络R-Net的网络结构相同;
根据旋转修正网络R-RefineNet输出结果,以及公式(4)中解耦旋转矩阵PR的投影公式,将图像I″′t-1投影到It图像空间,生成新图像
Figure BDA0002741545090000152
以及图像I″′t+1投影到It图像空间,生成新图像
Figure BDA0002741545090000153
根据步骤S2中的相机位姿初始估计结果和位姿解耦修正网络的输出结果,最终的相机位姿矩阵估计结果包括:It-1和It间的相机位姿矩阵P(t-1→t)、It和It+1间的相机位姿矩阵P(t→t+1)、以及It-1和It+1间的相机位姿矩阵P(t+1→t-1),具体公式为:
Figure BDA0002741545090000151
所述步骤S4包括:
所述的基于位姿解耦估计的无监督单目视觉里程计的损失函数 Ltotal包括亮度一致性损失Llr、视差平滑损失Lsmooth、刚性一致性损失 Lrigid、位姿回环一致性损失Lloop,具体公式为:
Ltotal=λbLlrsLsmoothrLrigidlLloop (8)
其中λb、λs、λr和λl为权重,用于调整不同损失在整个损失函数中的作用,通常λb=λr=λl=1.0,λs=0.5。
所述的亮度一致性损失Llr为连续三帧左相机图像It-1、It和It+1与其右相机图像间的左右一致性程度,具体公式为:
Llr=Llr(It-1)+Llr(It)+Llr(It+1) (9)
其中Llr(It-1)表示为左相机图像It-1与其对应右相机图像间的左右一致性程度,Llr(It)表示为左相机图像It与其对应右相机图像间的左右一致性程度,Llr(It+1)表示为左相机图像It+1与其对应右相机图像间的左右一致性程度。
所述的左相机图像Il与其对应右相机图像Ir间的左右一致性程度计算公式为:
Figure BDA0002741545090000161
其中Il(u,v)为左相机图像中像素点(u,v)的像素值,Ir(u,v)为右相机图像中像素点(u,v)的像素值,d(u,v)像素点(u,v)的视差值,Lp(·)计算公式为:
Figure BDA0002741545090000162
其中β为权重,通常取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;||·||1为计算L1距离。
所述的视差平滑损失Lsmooth为连续三帧的视差图dt-1、dt和dt+1的平滑程度,具体公式为:
Lsmooth=Lsmooth(dt-1)+Lsmooth(dt)+Lsmooth(dt+1) (12)
其中Lsmooth(dt-1)为视差图dt-1的平滑程度,Lsmooth(dt)为视差图dt的平滑程度,Lsmooth(dt+1)为视差图dt+1的平滑程度。
所述的视差图d的平滑程度计算公式为:
Figure BDA0002741545090000163
其中
Figure BDA0002741545090000164
Figure BDA0002741545090000165
分别为水平方向和垂直方向的偏导数,Il为视差图d 所对应的左相机图像。
所述的刚性一致性损失Lrigid表示为左相机图像It-1和It+1投影到It图像空间后,与左相机图像It的一致性程度,具体公式为:
Figure BDA0002741545090000166
根据步骤S3中得到最终的相机位姿矩阵估计结果,所述的位姿回环一致性损失Lloop表示为
Lloop=||P(t-1→t)·P(t→t+1)·P(t+1→t-1),E4×4||1 (15)
其中E4×4为4×4的单位矩阵。
所述步骤S5包括:
通过步骤S1得到的训练集,送入步骤S3中搭建的基于位姿解耦估计的无监督单目视觉里程计,根据步骤S4中设计的无监督损失函数Ltotal,采用误差反向传播和Adam优化算法(β1=0.9,β2=0.99) 进行无监督训练,初始学习率为2×10-4,经过一定的训练迭代次数,获取到最终的模型结果。
所述的误差反向传播和Adam优化算法为成熟技术。

Claims (10)

1.一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于包括如下步骤:
步骤S1:准备KITTI数据集并进行预处理;
步骤S2:基于位姿解耦估计公式,设计位姿解耦估计网络;
步骤S3:设计基于位姿解耦估计的无监督单目视觉里程计;
步骤S4:定义基于位姿解耦估计的无监督单目视觉里程计的损失函数;
步骤S5:使用KITTI数据集中的训练集训练基于位姿解耦估计的无监督单目视觉里程计。
2.根据权利要求1所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述步骤S2具体实现包括:
步骤S2-1:所述的位姿解耦估计公式是将两帧间的相机位姿矩阵分解为解耦平移矩阵和解耦旋转矩阵的级联相乘,从而将相机位姿估计分解为解耦平移矩阵和解耦旋转矩阵的级联估计;具体表述为:
对于相邻两帧图像It和Is,场景点在图像It上的投影像素点为gt,在图像Is上的投影像素点为gs,根据相机内参矩阵K、相机位姿矩阵Pt→s、像素点gt在相机坐标系下的深度值zt和像素点gs在相机坐标系下的深度值zs,像素点gt和像素点gs满足刚性运动的投影公式,具体为:
Figure FDA0002741545080000011
其中Pt→s为相机从第t帧到第s帧的相机位姿矩阵,包含了一个3×3的旋转矩阵R和一个3×1的平移矩阵T;采用四元数表示旋转矩阵R,即旋转矩阵R由一个四元素(q0,q1,q2,q3)表示,所述四元数表示旋转矩阵为成熟技术;平移矩阵T包含了3个平移量,分别是相机坐标系下x、y、z坐标的平移量Tx、Ty和Tz;根据矩阵乘法,相机位姿矩阵Pt→s可表示为解耦平移矩阵和解耦旋转矩阵的级联相乘,具体为:
Figure FDA0002741545080000021
其中PT为4×4的解耦平移矩阵,PR为4×4的解耦旋转矩阵,E3×3为3×3的单位矩阵;
将公式(2)代入公式(1)中,有:
Figure 1
根据公式(3),可进一步将像素点gt和像素点gs的投影公式分解为两个投影公式的级联相乘,具体为:
Figure 2
其中公式(4)的第一行为解耦平移矩阵PT的投影公式,公式(4)的第二行为解耦旋转矩阵PR的投影公式;公式(4)称为位姿解耦估计公式,将相机位姿矩阵Pt→s估计分解为解耦平移矩阵PT和解耦旋转矩阵PR的级联估计;
步骤S2-2:所述的位姿解耦估计网络包含了一个平移估计网络T-Net和一个旋转估计网络R-Net;平移估计网络T-Net实现解耦平移矩阵PT中三个平移量Tx、Ty和Tz估计,旋转估计网络R-Net实现解耦旋转矩阵PR中四元素(q0,q1,q2,q3)估计。
3.根据权利要求2所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述的平移估计网络T-Net具体表述为:网络输入为连续三帧的左相机图像It-1、It和It+1,输出为9个平移量,分别对应于It-1和It间的解耦平移矩阵PT(t-1→t)、It和It+1间的解耦平移矩阵PT(t→t+1)、以及It-1和It+1间的解耦平移矩阵PT(t+1→t-1);平移估计网络T-Net的网络结构如下所示:
第1网络层:采用卷积核为7×7,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第2网络层:采用卷积核为5×5,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第3~7网络层:每个网络层都采用卷积核为3×3,步长为[2,2]的卷积层,每个卷积层的输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第8网络层:采用卷积核为1×1,步长为[1,1]的卷积层,卷积层输出直接送入第9网络层;
第9网络层:对第8网络层输出特征的维度上进行求平均操作,第9网络层输出维度为N×9。
4.根据权利要求2或3所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述的旋转估计网络R-Net具体表述为:根据平移估计网络T-Net输出结果,以及公式(4)中解耦平移矩阵PT的投影公式,将左相机图像It-1投影到It图像空间,生成新图像I′t-1,以及将左相机图像It+1投影到It图像空间,生成新图像I′t+1;将{I′t-1,It,I′t+1}作为旋转估计网络R-Net的输入;旋转估计网络R-Net的输出为3个四元数(12个数值),分别对应于I′t-1和It间的解耦旋转矩阵PR(t-1→t)、It和I′t+1间的解耦旋转矩阵PR(t→t+1)、以及I′t-1和I′t+1间的解耦旋转矩阵PR(t+1→t-1);旋转估计网络R-Net的网络结构如下所示;
第1网络层:采用卷积核为7×7,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第2网络层:采用卷积核为5×5,步长为[2,2]的卷积层,卷积层输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第3~7网络层:每个网络层都采用卷积核为3×3,步长为[2,2]的卷积层,每个卷积层的输出经批归一化后,采用ReLU激活函数对批归一化结果进行激活;
第8网络层:采用卷积核为1×1,步长为[1,1]的卷积层,卷积层输出直接送入第9网络层;
第9网络层:对第8网络层输出特征的(高度×宽度)维度上进行求平均操作,第9网络层输出维度为N×12。
5.根据权利要求4所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于根据平移估计网络T-Net输出结果和旋转估计网络R-Net输出结果,可得到连续三帧图像It-1、It和It+1间的相机位姿初始估计结果,包括It-1和It间的相机位姿矩阵Pinit(t-1→t)、It和It+1间的相机位姿矩阵Pinit(t→t+1)、以及It-1和It+1间的相机位姿矩阵Pinit(t+1→t-1),具体公式为:
Figure FDA0002741545080000041
6.根据权利要求5所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述步骤S3包括:
基于位姿解耦估计的无监督单目视觉里程计包含三个网络:视差估计网络DispNet、位姿解耦估计网络、位姿解耦修正网络;
所述的视差估计网络DispNet采用了与GeoNet中DepthNet相同的网络结构;
所述位姿解耦修正网络包含了一个平移修正网络T-RefineNet和一个旋转修正网络R-RefineNet。
7.根据权利要求6所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述的平移修正网络T-RefineNet具体表述为:根据旋转估计网络R-Net输出结果,以及公式(4)中解耦旋转矩阵PR的投影公式,将图像I′t-1投影到It图像空间,生成新图像I″t-1,以及图像I′t+1投影到It图像空间,生成新图像I″t+1;将{I″t-1,It,I″t+1}作为平移修正网络T-RefineNet的输入;平移修正网络T-RefineNet输出为9个平移量,分别对应于I″t-1和It间的解耦平移修正矩阵ΔPT(t-1→t)、It和I″t+1间的解耦平移修正矩阵ΔPT(t→t+1)、以及It-1和It+1间的解耦平移修正矩阵ΔPT(t+1→t-1);平移修正网络T-RefineNet的网络结构与平移估计网络T-Net的网络结构相同。
8.根据权利要求6或7所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述的旋转修正网络R-RefineNet具体表述为:根据平移修正网络T-RefineNet输出结果,以及公式(4)中解耦平移矩阵PT的投影公式,将图像I″t-1投影到It图像空间,生成新图像I″′t-1,以及将图像I″t+1投影到It图像空间,生成新图像I″′t+1;将{I″′t-1,It,I″′t+1}作为旋转修正网络R-RefineNet的输入;旋转修正网络R-RefineNet输出为3个四元数(12个数值),分别对应于I″′t-1和It间的解耦旋转修正矩阵ΔPR(t-1→t)、It和I″′t+1间的解耦旋转修正矩阵ΔPR(t→t+1)、以及I″′t-1和I″′t+1间的解耦旋转修正矩阵ΔPR(t+1→t-1);旋转修正网络R-RefineNet的网络结构与旋转估计网络R-Net的网络结构相同。
9.根据权利要求8所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于根据旋转修正网络R-RefineNet输出结果,以及公式(4)中解耦旋转矩阵PR的投影公式,将图像I″′t-1投影到It图像空间,生成新图像
Figure FDA0002741545080000052
以及图像I″′t+1投影到It图像空间,生成新图像
Figure FDA0002741545080000053
根据步骤S2中的相机位姿初始估计结果和位姿解耦修正网络的输出结果,最终的相机位姿矩阵估计结果包括:It-1和It间的相机位姿矩阵P(t-1→t)、It和It+1间的相机位姿矩阵P(t→t+1)、以及It-1和It+1间的相机位姿矩阵P(t+1→t-1),具体公式为:
Figure FDA0002741545080000051
10.根据权利要求1或2或9所述的一种基于位姿解耦估计的无监督单目视觉里程计方法,其特征在于所述步骤S4包括:
所述的基于位姿解耦估计的无监督单目视觉里程计的损失函数Ltotal包括亮度一致性损失Llr、视差平滑损失Lsmooth、刚性一致性损失Lrigid、位姿回环一致性损失Lloop,具体公式为:
Ltotal=λbLlrsLsmoothrLrigidlLloop (8)
其中λb、λs、λr和λl为权重,用于调整不同损失在整个损失函数中的作用,通常λb=λr=λl=1.0,λs=0.5;
所述的亮度一致性损失Llr为连续三帧左相机图像It-1、It和It+1与其右相机图像间的左右一致性程度,具体公式为:
Llr=Llr(It-1)+Llr(It)+Llr(It+1) (9)
其中Llr(It-1)表示为左相机图像It-1与其对应右相机图像间的左右一致性程度,Llr(It)表示为左相机图像It与其对应右相机图像间的左右一致性程度,Llr(It+1)表示为左相机图像It+1与其对应右相机图像间的左右一致性程度;
所述的左相机图像Il与其对应右相机图像Ir间的左右一致性程度计算公式为:
Figure FDA0002741545080000061
其中Il(u,v)为左相机图像中像素点(u,v)的像素值,Ir(u,v)为右相机图像中像素点(u,v)的像素值,d(u,v)像素点(u,v)的视差值,Lp(·)计算公式为:
Figure FDA0002741545080000062
其中β为权重,通常取值为0.8;SSIM(·)为两幅图像的结构相似性计算函数,其计算方法为成熟方法;||·||1为计算L1距离;
所述的视差平滑损失Lsmooth为连续三帧的视差图dt-1、dt和dt+1的平滑程度,具体公式为:
Lsmooth=Lsmooth(dt-1)+Lsmooth(dt)+Lsmooth(dt+1) (12)
其中Lsmooth(dt-1)为视差图dt-1的平滑程度,Lsmooth(dt)为视差图dt的平滑程度,Lsmooth(dt+1)为视差图dt+1的平滑程度;
所述的视差图d的平滑程度计算公式为:
Figure FDA0002741545080000071
其中
Figure FDA0002741545080000073
Figure FDA0002741545080000074
分别为水平方向和垂直方向的偏导数,Il为视差图d所对应的左相机图像;
所述的刚性一致性损失Lrigid表示为左相机图像It-1和It+1投影到It图像空间后,与左相机图像It的一致性程度,具体公式为:
Figure FDA0002741545080000072
根据步骤S3中得到最终的相机位姿矩阵估计结果,所述的位姿回环一致性损失Lloop表示为
Lloop=||P(t-1→t)·P(t→t+1)·P(t+1→t-1),E4×4||1 (15)
其中E4×4为4×4的单位矩阵。
CN202011151965.2A 2020-10-26 2020-10-26 一种基于位姿解耦估计的无监督单目视觉里程计方法 Active CN112308918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011151965.2A CN112308918B (zh) 2020-10-26 2020-10-26 一种基于位姿解耦估计的无监督单目视觉里程计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011151965.2A CN112308918B (zh) 2020-10-26 2020-10-26 一种基于位姿解耦估计的无监督单目视觉里程计方法

Publications (2)

Publication Number Publication Date
CN112308918A true CN112308918A (zh) 2021-02-02
CN112308918B CN112308918B (zh) 2024-03-29

Family

ID=74330495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011151965.2A Active CN112308918B (zh) 2020-10-26 2020-10-26 一种基于位姿解耦估计的无监督单目视觉里程计方法

Country Status (1)

Country Link
CN (1) CN112308918B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489128A (zh) * 2020-12-14 2021-03-12 南通大学 基于无监督深度学习的rgb-d室内无人机定位实现方法
CN113012191A (zh) * 2021-03-11 2021-06-22 中国科学技术大学 一种基于点云多视角投影图的激光里程计算法
CN113436254A (zh) * 2021-06-29 2021-09-24 杭州电子科技大学 一种级联解耦的位姿估计方法
CN114034312A (zh) * 2021-11-05 2022-02-11 太原理工大学 一种轻量级多解耦的视觉里程计实现方法
CN114663509A (zh) * 2022-03-23 2022-06-24 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法
CN116681759A (zh) * 2023-04-19 2023-09-01 中国科学院上海微系统与信息技术研究所 一种基于自监督视觉惯性里程计的相机位姿估计方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法
CN111369608A (zh) * 2020-05-29 2020-07-03 南京晓庄学院 一种基于图像深度估计的视觉里程计方法
US20200273190A1 (en) * 2018-03-14 2020-08-27 Dalian University Of Technology Method for 3d scene dense reconstruction based on monocular visual slam

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200273190A1 (en) * 2018-03-14 2020-08-27 Dalian University Of Technology Method for 3d scene dense reconstruction based on monocular visual slam
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN111325797A (zh) * 2020-03-03 2020-06-23 华东理工大学 一种基于自监督学习的位姿估计方法
CN111369608A (zh) * 2020-05-29 2020-07-03 南京晓庄学院 一种基于图像深度估计的视觉里程计方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489128A (zh) * 2020-12-14 2021-03-12 南通大学 基于无监督深度学习的rgb-d室内无人机定位实现方法
CN113012191A (zh) * 2021-03-11 2021-06-22 中国科学技术大学 一种基于点云多视角投影图的激光里程计算法
CN113012191B (zh) * 2021-03-11 2022-09-02 中国科学技术大学 一种基于点云多视角投影图的激光里程计算法
CN113436254A (zh) * 2021-06-29 2021-09-24 杭州电子科技大学 一种级联解耦的位姿估计方法
CN113436254B (zh) * 2021-06-29 2022-07-05 杭州电子科技大学 一种级联解耦的位姿估计方法
CN114034312A (zh) * 2021-11-05 2022-02-11 太原理工大学 一种轻量级多解耦的视觉里程计实现方法
CN114034312B (zh) * 2021-11-05 2024-03-26 太原理工大学 一种轻量级多解耦的视觉里程计实现方法
CN114663509A (zh) * 2022-03-23 2022-06-24 北京科技大学 一种关键点热力图引导的自监督单目视觉里程计方法
CN116681759A (zh) * 2023-04-19 2023-09-01 中国科学院上海微系统与信息技术研究所 一种基于自监督视觉惯性里程计的相机位姿估计方法
CN116681759B (zh) * 2023-04-19 2024-02-23 中国科学院上海微系统与信息技术研究所 一种基于自监督视觉惯性里程计的相机位姿估计方法

Also Published As

Publication number Publication date
CN112308918B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112308918B (zh) 一种基于位姿解耦估计的无监督单目视觉里程计方法
CN111739078B (zh) 一种基于上下文注意力机制的单目无监督深度估计方法
CN109255831B (zh) 基于多任务学习的单视图人脸三维重建及纹理生成的方法
WO2019174377A1 (zh) 一种基于单目相机的三维场景稠密重建方法
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN111325794A (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN110503680B (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
CN106780543B (zh) 一种基于卷积神经网络的双框架估计深度和运动方法
CN110490928A (zh) 一种基于深度神经网络的相机姿态估计方法
CN108986136A (zh) 一种基于语义分割的双目场景流确定方法及系统
CN108876814B (zh) 一种生成姿态流图像的方法
CN110533724B (zh) 基于深度学习和注意力机制的单目视觉里程计的计算方法
CN111783582A (zh) 一种基于深度学习的无监督单目深度估计算法
CN112734890B (zh) 基于三维重建的人脸替换方法及装置
Zhang et al. Critical regularizations for neural surface reconstruction in the wild
CN113077505B (zh) 一种基于对比学习的单目深度估计网络的优化方法
CN112232134A (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
WO2024103890A1 (zh) 模型构建方法、重建方法、装置、电子设备及非易失性可读存储介质
CN113284173A (zh) 基于伪激光雷达的端到端的场景流、位姿联合学习方法
Zeng et al. Avatarbooth: High-quality and customizable 3d human avatar generation
CN113538569A (zh) 一种弱纹理物体位姿估计方法和系统
CN113436254B (zh) 一种级联解耦的位姿估计方法
CN116310146B (zh) 人脸图像重演方法、系统、电子设备、存储介质
Hara et al. Enhancement of novel view synthesis using omnidirectional image completion
CN117274501A (zh) 一种可驱动数字人建模方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant