CN110264526B - 一种基于深度学习的场景深度和摄像机位置姿势求解方法 - Google Patents

一种基于深度学习的场景深度和摄像机位置姿势求解方法 Download PDF

Info

Publication number
CN110264526B
CN110264526B CN201910530398.2A CN201910530398A CN110264526B CN 110264526 B CN110264526 B CN 110264526B CN 201910530398 A CN201910530398 A CN 201910530398A CN 110264526 B CN110264526 B CN 110264526B
Authority
CN
China
Prior art keywords
net
network
image
output
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910530398.2A
Other languages
English (en)
Other versions
CN110264526A (zh
Inventor
全红艳
姚铭炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201910530398.2A priority Critical patent/CN110264526B/zh
Publication of CN110264526A publication Critical patent/CN110264526A/zh
Application granted granted Critical
Publication of CN110264526B publication Critical patent/CN110264526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的场景深度和摄像机位置姿势求解方法,该方法利用卷积神经网络,使用图像序列作为输入,采用循环神经网络估计场景深度及相邻两幅图像的摄像机位置姿势参数。本发明采用多任务学习框架,利用序列中相邻两幅图像重建的三维场景几何信息的一致性定义网络的损失函数,以确保场景深度和摄像机位置姿势估计的准确性。

Description

一种基于深度学习的场景深度和摄像机位置姿势求解方法
技术领域
本发明涉及计算机视觉领域,具体涉及一种基于深度学习的场景深度和摄像机位置姿势求解方法,使用图像序列作为输入,采用循环神经网络估计场景深度及相邻两幅图像的摄像机运动参数。
背景技术
深度估计技术,是根据二维图像信息,计算每个像素对应的三维信息。大多数深度估计方法研究都是基于多幅图像,根据对极几何原理,结合拍摄时摄像机运动产生的视差信息来估计深度。而对于单幅图像,由于无法获取景物目标的视差信息,只能通过图像自身的一些特征和先验知识来获得有限的线索以完成深度估计,因此具有较高的技术难度。因为深度学习对于图像特征和先验知识的学习有着较大的优势,在现有的单目深度估计方法中,出现了一些基于深度学习的方法,并取得了良好的结果。基于深度学习的深度估计仍在发展之中,随着数据集的完善,基于深度学习的深度估计方法有很大的发展空间。
摄像机位置姿势估计技术,是通过分析图像,从计算机视觉的角度来实时对摄像机进行定位的技术。基于特征点法的视觉里程计技术是一种主流的实现方法。特征点法主要通过检测图像中的特征点,并与之前的帧进行匹配,然后利用这些特征点在一定的约束下计算摄像机位置的变换。此外,由光流法发展来的基于直接法,能够在不提特征(或不计算特征描述)的情况下,通过最小化光度误差来估计摄像机运动和像素的空间位置。在传统方法的基础上,也开始出现了一些基于深度学习的视觉里程计技术,这种方法基于卷积神经网络,以原始RGB图像为输入,实现端到端的摄像机位置姿势估计。但是该类方法主要依赖CNN,由于CNN不能对时序信息建模,因此该类方法没有将图像序列用于时序学习,限制了其位置姿势估计性能。
发明内容
本发明的目的是针对现有技术的不足,并针对场景深度估计和摄像机位置姿势估计的实际需求,提供一种有效的深度估计和摄像机位置姿势求解方法,利用深度学习策略,构建多任务网络,提出了三维一致性损失,同时实现深度估计任务和摄像机位置姿势计算任务。
实现本发明目的的具体技术方案是:一种基于深度学习的场景深度和摄像机位置姿势求解方法,该方法输入RGB的图像序列,分辨率N×N,其中N为224、448或者896,具体包括以下步骤:
步骤1:数据集构建
从网站https://vision.in.tum.de/data/datasets/rgbd-dataset的RGBD SLAMDataset数据集中筛选B个分辨率相同的图像序列,30≤B≤50,每个图像序列中图像个数为C幅,700≤C≤5000,每个图像样本包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵;
分别对B个图像序列的每个序列图像进行分组:每F个为一组,150≤F≤300,每个序列最后剩余的图像数量如果不足F个,则舍弃;
对于所有B个图像序列,得到G组图像的结果,235≤G≤480,由G组图像构建数据集A,A中每个样本是G的一组图像,每幅图像包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵;
步骤2:构建神经网络
网络采用多任务学习的网络框架,设置为深度估计子网络D-Net和摄像机位置姿势估计子网络T-Net,由D-Net和T-Net构成的整体网络具有一个输入端和两个输出端,D-Net和T-Net各自具有张量输出,并且,D-Net和T-Net之间不需要信息传输,D-Net和T-Net的输出共同用于网络损失的控制,D-Net和T-Net的输入是数据集A中任意一组样本中两幅相邻图像I1和I2,其张量形状为N×N×3,D-Net输出场景深度D,其张量形状为N×N×1,T-Net输出的是图像I2与图像I1之间相对的摄像机的位置姿势,其包括相对位移量T、旋转量R及缩放比例S,T的张量形状为3×1,R是归一化四元数形式,其张量形状为4×1,S的张量形状为1×1;
(1)D-Net结构设置
D-Net的编码器和解码器均包括L个单元,如果N为224,L为5;如果N为448,均L为6;如果N为896,L为7,编码器按照下列方式设置:
D-Net编码器是由相继连接相同结构的L个卷积编码单元组成,编码器的每个编码单元包含2个结构相同的卷积层,对于每个卷积层,都是采用3×3的卷积核,卷积步长为2,卷积时,对于图像边界进行补零处理,每一层卷积后的输出采用批归一化处理,然后采用Relu函数进行激活,在L个卷积编码单元中,第1个卷积编码单元的两个卷积层,卷积核的个数均为H,如果N为224,H取32,后面各编码单元的卷积核个数依次增加一倍,编码器的输出特征的尺寸为7×7;
D-Net解码器设置如下:解码器是由相继连接相同结构的L个转置卷积的解码单元组成,每个解码单元包括相继连接的一个转置卷积层和一个卷积层,采用相同的3×3卷积核结构,卷积步长为2,卷积时,对于图像边界进行补零处理,每一层卷积后的输出采用批归一化处理,然后采用Relu函数进行激活;
对于每个解码单元中,转置卷积层和卷积层均采用相同个数的卷积核进行处理,第1个解码单元中卷积核的个数设计为512,后面各解码单元的卷积核个数依次减半;解码器的最后一个解码单元连接着由一个1×1卷积核构成的特殊输出层,经过D-Net编码解码处理后输出图像的尺度与I1尺度相同;
编码器和解码器之间采用跨层连接,即编码器中的每个编码单元的输出与解码器中对应的解码单元,在对应卷积通道进行特征串接后,作为解码器下一个解码单元的输入,即编码器第L-1个编码单元的输出与解码器第1个解码单元输出的特征进行串接,将结果作为第2个解码单元的输入,编码器第L-2个编码单元的输出与解码器第2个解码单元输出的特征进行串接,将结果作为第3个解码单元的输入,以此类推,直到第1个编码单元的跨层连接;
(2)T-Net结构设置
T-Net网络是由编码器和循环神经网络构成,编码器采用孪生网络结构,图像I1和I2分别输入到孪生网络的不同分支中;孪生网络两个分支输出特征尺寸完全相同,都为7×7,将输出的两个特征进行串接,将串接后的特征输入到循环神经网络;
孪生网络设置两个结构相同的分支,并且共享网络参数,每个分支的结构与D-Net中的编码器结构相同,也是包括L个编码单元组成;
循环神经网络结构中,三个并列LSTM循环单元采用一个共同的输入,在每个循环单元的输出部分,连接着一个全连接层,分别为O1、O2和O3,三个LSTM循环单元结构相同:每个单元的第1层,结点个数设计为M个,M为256、512或者1024,第2层结点个数设计为J个,J为256、512或者1024,O1设置为3个神经元节点,输出3×1的张量,表示摄像机相对位移量,O2设置为4个神经元节点,输出4×1的张量,表示摄像机旋转量的四元数,O3设置为1个神经元节点,输出1×1的张量,表示缩放比例;
步骤3:神经网络的训练
将数据集A中的所有组样本按照40∶1∶1的比例划分为训练数据集,评估数据集和测试数据集,利用训练数据集训练网络模型,利用评估数据集评估训练过程中网络的性能,利用测试数据集对网络性能进行测试;
训练时,输入I1和I2,先单独训练D-Net 100个轮次,然后,再对整个网络参数进行训练75个轮次;
在D-Net训练时,网络损失定义如下:
Figure BDA0002099570010000041
n为I1中像素的个数N×N,Ei是I1中的第i个像素的深度标签,di是第i个像素网络输出的深度,Mi表示第i个像素的掩模,Mi利用下式产生:
Figure BDA0002099570010000042
同时训练D-Net和T-Net时,定义一致性损失:
Figure BDA0002099570010000043
U表示图像I2与图像I1之间摄像机相对的旋转量的标签,V表示图像I2与图像I1之间摄像机相对的平移量的标签,W表示缩放比例标签,Pi表示利用标签数据计算的I1中的第i个像素的三维重建点相对于I2图像视点的坐标,Qi表示利用网络输出的深度计算得到的I1中的第i个像素的三维重建点相对于I2图像视点的坐标,Pi和Qi利用下式产生:
Pi=K-1Eipi  (4)
Qi=K-1dipi  (5)
其中K为样本中摄像机内部参数矩阵的标签,pi为表示I1中的第i个像素二维坐标;步骤4:估计场景深度和摄像机位置姿势参数
输入I1和I2,利用步骤2构建的网络,并利用训练时得到的参数,通过网络预测出D和R、T及S。
本发明可以用于场景的三维重建,广泛应用于虚拟场景的构建、游戏场景漫游以及动漫效果中三维结构的获取,利用本发明可以依据场景深度计算出场景的点云数据,再根据求解的摄像机位置和姿势,就可以实现虚拟场景的漫游及三维场景的交互功能。
附图说明
图1为本发明D-Net场景深度估计结果图;
图2为本发明T-Net摄像机平移量的误差图;
图3为本发明T-Net摄像机旋转量的误差图;
图4为本发明T-Net缩放比例的误差图。
具体实施方式
实施例
下面结合附图对本发明进一步说明,本实施例在PC机上Windows10 64位操作系统下实施,其硬件配置为CPU i7-6700k,内存16G,GPU NVIDIA GeForce GTX 1070 8G。深度学习框架采用Keras 2.1.0,用Tensorflow 1.4.0作为后端。编程采用python语言。
基于深度学习的场景深度和摄像机位置姿势求解方法,该方法输入RGB的图像序列,分辨率N×N,其中N为224,具体包括以下步骤:
步骤1:数据集构建
从网站https://vision.in.tum.de/data/datasets/rgbd-dataset的RGBD SLAMDataset数据集中筛选B个分辨率相同的图像序列,B为48,每个图像序列中图像个数为C幅,700≤C≤5000,每个图像样本包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵;
分别对B个序列的每个序列图像进行分组:每F个为一组,F为300,每个序列最后剩余的图像数量如果不足F个,则舍弃;
对于所有B个图像序列,一共可以得到G组图像的结果,G取235,由G组图像构建数据集A,A中每个样本是G的一组图像,每幅图像包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵;
步骤2:构建神经网络
网络采用多任务学习的网络框架,设置为深度估计子网络D-Net和摄像机位置姿势求解子网络T-Net,由D-Net和T-Net构成的整体网络具有一个输入端和两个输出端,D-Net和T-Net各自具有张量输出,并且,D-Net和T-Net之间不需要信息传输,D-Net和T-Net的输出共同用于网络损失的控制,D-Net和T-Net的输入是数据集A中任意一组样本中两幅相邻图像I1和I2,其张量形状为N×N×3,D-Net输出场景深度D,其张量形状为N×N×1,T-Net输出的是图像I2与图像I1之间相对的摄像机的位置姿势,其包括相对位移量T、旋转量R及缩放比例S,T的张量形状为3×1,R是归一化四元数形式,其张量形状为4×1,S的张量形状为1×1;
(1)D-Net结构设置
D-Net结构包括编码器和解码器,均包括L个单元,L为5,编码器按照下列方案设计:
D-Net编码器是由相继连接相同结构的L个卷积编码单元组成,编码器的每个编码单元包含2个结构相同的卷积层,对于每个卷积层,都是采用3×3的卷积核,卷积步长为2,卷积时,对于图像边界进行补零处理,每一层卷积后的输出采用批归一化处理,然后采用Relu函数进行激活,在L个卷积编码单元中,第1个卷积编码单元的两个卷积层,卷积核的个数均为H,H取32,后面各编码单元的卷积核个数依次增加一倍,编码器的输出特征的尺寸为7×7;
D-Net解码器按照下列方案设置如下:解码器是由相继连接相同结构的L个转置卷积的解码单元组成,每个解码单元包括相继连接的一个转置卷积层和一个卷积层,它们采用相同的3×3卷积核结构,卷积步长为2,卷积时,对于图像边界进行补零处理,每一层卷积后的输出采用批归一化处理,然后采用Relu函数进行激活;
对于每个解码单元中,转置卷积层和卷积层均采用相同个数的卷积核进行处理,第1个解码单元中卷积核的个数设计为512,后面各解码单元的卷积核个数依次减半。解码器的最后一个解码单元连接着由一个1×1卷积核构成的特殊输出层,经过D-Net编码解码处理后输出图像的尺度与I1尺度相同;
编码器和解码器之间采用跨层连接,即编码器中的每个编码单元的输出与解码器中对应的解码单元,在对应卷积通道进行特征串接后,作为解码器下一个解码单元的输入。即编码器第L-1个编码单元的输出与解码器第1个解码单元输出的特征进行串接,将结果作为第2个解码单元的输入,编码器第L-2个编码单元的输出与解码器第2个解码单元输出的特征进行串接,将结果作为第3个解码单元的输入,以此类推,直到第1个编码单元的跨层连接;
(2)T-Net结构设置
T-Net网络是由编码器和循环神经网络构成,编码器采用孪生网络结构,图像I1和I2分别输入到孪生网络的不同分支中。孪生网络两个分支输出特征尺寸完全相同,都为7×7,将输出的两个特征进行串接,将串接后的特征输入到循环神经网络;
对于孪生网络的设置,两个分支结构相同,并且共享网络参数,每个分支的结构与D-Net中的编码器结构相同,也是包括L个编码单元组成;
循环神经网络结构采用三个并列的LSTM循环单元,均采用一个共同的输入,在每个循环单元的输出部分,连接着一个全连接层,分别为O1、O2和O3,三个LSTM循环单元结构相同:每个单元的第1层,结点个数设计为M个,M为512,第2层结点个数设计为J个,J为256,O1设置为3个神经元节点,输出3×1的张量,表示摄像机相对位移量,O2设置为4个神经元节点,输出4×1的张量,表示摄像机旋转量的四元数,O3设置为1个神经元节点,输出1×1的张量,表示缩放比例;
步骤3:神经网络的训练
将数据集A中的所有组样本按照40∶1∶1的比例划分为训练数据集,评估数据集和测试数据集,利用训练数据集训练网络模型,利用评估数据集评估训练过程中网络的性能,利用测试数据集对网络性能进行测试;
训练时,输入I1和I2,先单独训练D-Net 100个轮次,然后,再对整个网络参数进行训练75个轮次;
在D-Net训练时,网络损失定义如下:
Figure BDA0002099570010000071
n为I1中像素的个数N×N,Ei是I1中的第i个像素的深度标签,di是第i个像素网络输出的深度,Mi表示第i个像素的掩模,Mi利用下式产生:
Figure BDA0002099570010000072
同时训练D-Net和T-Net时,定义一致性损失:
Figure BDA0002099570010000073
U表示图像I2与图像I1之间摄像机相对的旋转量的标签,V表示图像I2与图像I1之间摄像机相对的平移量的标签,W表示缩放比例标签,Pi表示利用标签数据计算的I1中的第i个像素的三维重建点相对于I2图像视点的坐标,Qi表示利用网络输出的深度计算得到的I1中的第i个像素的三维重建点相对于I2图像视点的坐标,Pi和Qi利用下式产生:
Pi=K-1Eipi  (4)
Qi=K-1dipi  (5)
其中K为样本中摄像机内部参数矩阵的标签,pi为表示I1中的第i个像素二维坐标;步骤4:估计场景深度和摄像机位置姿势参数
输入I1和I2,利用步骤2构建的网络,并利用训练时得到的参数,通过网络可以预测出D和R、T及S;
实验过程中,使用的重要超参数如下:优化器采用Adam优化器,且各超参数取默认值;每个批次的样本数取4;D-Net网络的学习率取10-4,整体网络训练的学习率取10-4,动量系数全置为0.99;
本实施例在数据集上进行网络训练,并对训练结果进行测试;图1为利用本发明的D-Net网络得到的场景深度信息的估计结果图,每一行中,第一列为场景图像,第二列为深度标签,第三列为本发明方法的预测深度,每一行来自于A数据集中不同场景,从图中可以看出:D-Net网络的输出结果与实际场景相符,图2为本发明方法预测的摄像机平移量的误差图,图3为本发明方法预测的摄像机旋转量的误差图,图4为本发明方法预测的缩放比例的误差图,这三幅图都是利用网络输出和标签数据进行比对计算得到的,它们的水平轴是样本中图像对的编号,纵坐标表示误差的大小;从图2、图3和图4中可以看出,T-Net网络输出结果与标签数据非常接近,在整个序列上具有一定的精确性。

Claims (1)

1.一种基于深度学习的场景深度和摄像机位置姿势求解方法,其特征在于,该方法输入RGB的图像序列,分辨率N×N,其中N为224、448或者896,具体包括以下步骤:
步骤1:数据集构建
从网站https://vision.in.tum.de/data/datasets/rgbd-dataset的RGBD SLAMDataset数据集中筛选B个分辨率相同的图像序列,30≤B≤50,每个图像序列中图像个数为C幅,700≤C≤5000,每个图像样本包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵;
分别对B个图像序列的每个序列图像进行分组:每F个为一组,150≤F≤300,每个序列最后剩余的图像数量如果不足F个,则舍弃;
对于所有B个图像序列,得到G组图像的结果,235≤G≤480,由G组图像构建数据集A,A中每个样本是G的一组图像,每幅图像包含RGB三通道的图像数据、深度图、摄像机位置姿势及摄像机内部参数矩阵;
步骤2:构建神经网络
网络采用多任务学习的网络框架,设置为深度估计子网络D-Net和摄像机位置姿势估计子网络T-Net,由D-Net和T-Net构成的整体网络具有一个输入端和两个输出端,D-Net和T-Net各自具有张量输出,并且,D-Net和T-Net之间不需要信息传输,D-Net和T-Net的输出共同用于网络损失的控制,D-Net和T-Net的输入是数据集A中任意一组样本中两幅相邻图像I1和I2,其张量形状为N×N×3,D-Net输出场景深度D,其张量形状为N×N×1,T-Net输出的是图像I2与图像I1之间相对的摄像机的位置姿势,其包括相对位移量T、旋转量R及缩放比例S,T的张量形状为3×1,R是归一化四元数形式,其张量形状为4×1,S的张量形状为1×1;
(1)D-Net结构设置
D-Net的编码器和解码器均包括L个单元,如果N为224,L为5;如果N为448,均L为6;如果N为896,L为7,编码器按照下列方式设置:
D-Net编码器是由相继连接相同结构的L个卷积编码单元组成,编码器的每个编码单元包含2个结构相同的卷积层,对于每个卷积层,都是采用3×3的卷积核,卷积步长为2,卷积时,对于图像边界进行补零处理,每一层卷积后的输出采用批归一化处理,然后采用Relu函数进行激活,在L个卷积编码单元中,第1个卷积编码单元的两个卷积层,卷积核的个数均为H,如果N为224,H取32,后面各编码单元的卷积核个数依次增加一倍,编码器的输出特征的尺寸为7×7;
D-Net解码器设置如下:解码器是由相继连接相同结构的L个转置卷积的解码单元组成,每个解码单元包括相继连接的一个转置卷积层和一个卷积层,采用相同的3×3卷积核结构,卷积步长为2,卷积时,对于图像边界进行补零处理,每一层卷积后的输出采用批归一化处理,然后采用Relu函数进行激活;
对于每个解码单元中,转置卷积层和卷积层均采用相同个数的卷积核进行处理,第1个解码单元中卷积核的个数设计为512,后面各解码单元的卷积核个数依次减半;解码器的最后一个解码单元连接着由一个1×1卷积核构成的特殊输出层,经过D-Net编码解码处理后输出图像的尺度与I1尺度相同;
编码器和解码器之间采用跨层连接,即编码器中的每个编码单元的输出与解码器中对应的解码单元,在对应卷积通道进行特征串接后,作为解码器下一个解码单元的输入,即编码器第L-1个编码单元的输出与解码器第1个解码单元输出的特征进行串接,将结果作为第2个解码单元的输入,编码器第L-2个编码单元的输出与解码器第2个解码单元输出的特征进行串接,将结果作为第3个解码单元的输入,以此类推,直到第1个编码单元的跨层连接;
(2)T-Net结构设置
T-Net网络是由编码器和循环神经网络构成,编码器采用孪生网络结构,图像I1和I2分别输入到孪生网络的不同分支中;孪生网络两个分支输出特征尺寸完全相同,都为7×7,将输出的两个特征进行串接,将串接后的特征输入到循环神经网络;
孪生网络设置两个结构相同的分支,并且共享网络参数,每个分支的结构与D-Net中的编码器结构相同,也是包括L个编码单元组成;
循环神经网络结构中,三个并列LSTM循环单元采用一个共同的输入,在每个循环单元的输出部分,连接着一个全连接层,分别为O1、O2和O3,三个LSTM循环单元结构相同:每个单元的第1层,结点个数设计为M个,M为256、512或者1024,第2层结点个数设计为J个,J为256、512或者1024,O1设置为3个神经元节点,输出3×1的张量,表示摄像机相对位移量,O2设置为4个神经元节点,输出4×1的张量,表示摄像机旋转量的四元数,O3设置为1个神经元节点,输出1×1的张量,表示缩放比例;
步骤3:神经网络的训练
将数据集A中的所有组样本按照40∶1∶1的比例划分为训练数据集,评估数据集和测试数据集,利用训练数据集训练网络模型,利用评估数据集评估训练过程中网络的性能,利用测试数据集对网络性能进行测试;
训练时,输入I1和I2,先单独训练D-Net 100个轮次,然后,再对整个网络参数进行训练75个轮次;
在D-Net训练时,网络损失定义如下:
Figure FDA0002099568000000031
n为I1中像素的个数N×N,Ei是I1中的第i个像素的深度标签,di是第i个像素网络输出的深度,Mi表示第i个像素的掩模,Mi利用下式产生:
Figure FDA0002099568000000032
同时训练D-Net和T-Net时,定义一致性损失:
Figure FDA0002099568000000033
U表示图像I2与图像I1之间摄像机相对的旋转量的标签,V表示图像I2与图像I1之间摄像机相对的平移量的标签,W表示缩放比例标签,Pi表示利用标签数据计算的I1中的第i个像素的三维重建点相对于I2图像视点的坐标,Qi表示利用网络输出的深度计算得到的I1中的第i个像素的三维重建点相对于I2图像视点的坐标,Pi和Qi利用下式产生:
Pi=K-1Eipi    (4)
Qi=K-1dipi    (5)
其中K为样本中摄像机内部参数矩阵的标签,pi为表示I1中的第i个像素二维坐标;
步骤4:估计场景深度和摄像机位置姿势参数
输入I1和I2,利用步骤2构建的网络,并利用训练时得到的参数,通过网络预测出场景深度D、位移量T、旋转量R及缩放比例S。
CN201910530398.2A 2019-06-19 2019-06-19 一种基于深度学习的场景深度和摄像机位置姿势求解方法 Active CN110264526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910530398.2A CN110264526B (zh) 2019-06-19 2019-06-19 一种基于深度学习的场景深度和摄像机位置姿势求解方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910530398.2A CN110264526B (zh) 2019-06-19 2019-06-19 一种基于深度学习的场景深度和摄像机位置姿势求解方法

Publications (2)

Publication Number Publication Date
CN110264526A CN110264526A (zh) 2019-09-20
CN110264526B true CN110264526B (zh) 2023-04-07

Family

ID=67919337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910530398.2A Active CN110264526B (zh) 2019-06-19 2019-06-19 一种基于深度学习的场景深度和摄像机位置姿势求解方法

Country Status (1)

Country Link
CN (1) CN110264526B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325736B (zh) * 2020-02-27 2024-02-27 成都航空职业技术学院 一种基于人眼差分图像的视线角度估计方法
CN111401422B (zh) * 2020-03-09 2024-03-08 南京览笛信息科技有限公司 一种基于多角度深度推理的深度网络图像分类方法
EP3885970A1 (en) * 2020-03-23 2021-09-29 Toyota Jidosha Kabushiki Kaisha System for processing an image having a neural network with at least one static feature map
CN113822918B (zh) * 2020-04-28 2024-07-12 深圳市商汤科技有限公司 场景深度和相机运动预测方法及装置、电子设备和介质
CN111739158B (zh) * 2020-06-29 2023-04-25 成都信息工程大学 一种三维场景图像恢复方法
CN112734906B (zh) * 2020-12-30 2022-08-19 华东师范大学 一种基于知识蒸馏的超声或ct医学影像的三维重建方法
CN113344774A (zh) * 2021-06-16 2021-09-03 东南大学 一种基于深度卷积逆向图网络的非视域成像方法
CN116721151B (zh) * 2022-02-28 2024-09-10 腾讯科技(深圳)有限公司 一种数据处理方法和相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000752A1 (zh) * 2016-06-27 2018-01-04 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018000752A1 (zh) * 2016-06-27 2018-01-04 浙江工商大学 一种基于多尺度cnn和连续crf的单目图像深度估计方法
CN109461180A (zh) * 2018-09-25 2019-03-12 北京理工大学 一种基于深度学习的三维场景重建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王松 ; 刘复昌 ; 黄骥 ; 许威威 ; 董洪伟.基于卷积神经网络的深度图姿态估计算法研究.系统仿真学报.2017,(第011期),全文. *

Also Published As

Publication number Publication date
CN110264526A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN110264526B (zh) 一种基于深度学习的场景深度和摄像机位置姿势求解方法
Wu et al. Learning sheared EPI structure for light field reconstruction
Wei et al. Aa-rmvsnet: Adaptive aggregation recurrent multi-view stereo network
Guo et al. Learning monocular depth by distilling cross-domain stereo networks
CN110490919B (zh) 一种基于深度神经网络的单目视觉的深度估计方法
CN109461180A (zh) 一种基于深度学习的三维场景重建方法
CN111524068A (zh) 一种基于深度学习的变长输入超分辨率视频重建方法
WO2024051184A1 (zh) 一种基于光流遮罩的无监督单目深度估计方法
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN112767532B (zh) 一种基于迁移学习的超声或ct医学影像三维重建方法
CN111105432A (zh) 基于深度学习的无监督端到端的驾驶环境感知方法
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
Guo et al. Context-enhanced stereo transformer
Li et al. A lightweight depth estimation network for wide-baseline light fields
CN114663496A (zh) 一种基于卡尔曼位姿估计网络的单目视觉里程计方法
CN113313740B (zh) 一种基于平面连续性的视差图和表面法向量联合学习方法
CN115546442A (zh) 基于感知一致损失的多视图立体匹配重建方法及系统
CN116071412A (zh) 融合全尺度和相邻帧特征信息的无监督单目深度估计方法
CN117274446A (zh) 一种场景视频处理方法、装置、设备及存储介质
CN112541972B (zh) 一种视点图像处理方法及相关设备
CN116630366A (zh) 用于视图预测方法和计算机产品
CN116168162A (zh) 一种多视角加权聚合的三维点云重建方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN112734907B (zh) 一种超声或ct医学影像三维重建方法
CN112419283B (zh) 估计厚度的神经网络及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant