CN113160375B - 一种基于多任务学习算法的三维重建及相机位姿估计方法 - Google Patents

一种基于多任务学习算法的三维重建及相机位姿估计方法 Download PDF

Info

Publication number
CN113160375B
CN113160375B CN202110581983.2A CN202110581983A CN113160375B CN 113160375 B CN113160375 B CN 113160375B CN 202110581983 A CN202110581983 A CN 202110581983A CN 113160375 B CN113160375 B CN 113160375B
Authority
CN
China
Prior art keywords
matching
feature
views
view
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110581983.2A
Other languages
English (en)
Other versions
CN113160375A (zh
Inventor
郑健青
黄保茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202110581983.2A priority Critical patent/CN113160375B/zh
Publication of CN113160375A publication Critical patent/CN113160375A/zh
Application granted granted Critical
Publication of CN113160375B publication Critical patent/CN113160375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/80Analysis of captured images to determine intrinsic or extrinsic camera parameters, i.e. camera calibration
    • G06T7/85Stereo camera calibration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Graphics (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多任务学习算法的三维重建及相机位姿估计方法,是通过搭建一个基于端到端多任务深度学习算法,包含有特征提取及处理模块和特征匹配模块并具有多输入多输出功能的人工神经网络实现的。人工神经网络估计多视图对应的深度、视图间的像素匹配及相机运动,提高多个任务中的信息利用率和精度,对应各个视图和两两视图之间的参数共享,并由特征匹配模块匹配不同视图间各个尺度特征,结合匹配置信权重的估计,实现了不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播。相比现有的基于注意力机制的方法,本算法减少了计算次数并提高了匹配的准确性,实现了陌生场景中的自监督优化,从而极大提升了其实用价值。

Description

一种基于多任务学习算法的三维重建及相机位姿估计方法
技术领域
本发明涉及图像数据采集技术领域,特别是一种基于多任务学习算法的三维重建及相机位姿估计方法。
背景技术
在计算机视觉中,三维重建(3D Reconstruction)是指根据单视图或者多视图的图像重建视野内三维信息的过程。其中单视图三维重建需要用到先验信息、特殊光源或传感器,而多视图三维重建可以通过多张图像恢复观测场景或物体的三维信息而不需要额外的硬件辅助,因此具有广泛的应用,例如在增强现实、机器人和自动驾驶等领域。但是现有多视图三维重建通常需要各个视图曝光点已知的相机的位置姿态,来限制特征匹配搜索范围。因此相机位姿估计(Camera Pose Estimation)通常作为多视图三维重建的前置或同步部分,在运动恢复结构(Structure from Motion)、即时定位与地图构建(SimultaneousLocalization and Mapping)和视觉里程计(Visual Odometry)等任务中具有很强的可迁移性。
三维重建及相机位姿估计方法主要包括四个部分:1)提取二维图像特征;2)寻找同一特征点在多个视图图像中的对应关系;3)通过不同视图的一组对应的特征点来估测相机的运动参数和特征点的三维坐标;4)计算全局坐标系下的相机位姿,并通过曲面重建和纹理映射来实现最终的三维物体或场景表面重建。
在第1)部分中传统的特征提取方法(如尺度不变量特征变换SIFT、快速鲁棒特征SURF)一般需要根据场景进行相应调整,缺乏普适性。对于第2)部分和第3)部分,传统的图像特征匹配方法如随机样本一致性(RanSaC)算法组合奇异值分解方法需要迭代运算,在对稠密特征点的匹配情况下会严重增加时间成本,因此通常针对稀疏特征点进行匹配,然而这造成了场景中的遮挡或者图像噪声,故更容易影响特征跟踪的稳定性和寿命,进而对相机位姿估计和三维重建精度造成影响,并且容易导致重建漂移的现象。特别是对于大尺度场景的三维重建及相机位姿估计来说,这个问题尤为严重。另外对于第4)部分,稀疏的特征点推出的稀疏三维点云使得三维物体、场景的表面重建丢失了大量细节信息。
深度学习算法如卷积神经网络在第1)部分中可以根据不同场景数据来自适应调整,因而具有普适性,但是需要不同场景的数据进行训练;在第2)部分深度学习通常可以实现快速的特征点匹配,但是受限于搜索空间所带来的计算成本,现有的深度学习方法通常难实现大范围运动的两个视图之间的稠密匹配,或是需要观测物体、场景、拍摄过程的先验条件来限制搜索范围,如2018年ECCV会议所收录的MVSNet采用的代价体(Cost Volume)不仅需要相机标定还限制了视差范围;在第3)部分中现有深度学习方法基本能够实现相机运动的实时估计及稠密的深度预测,但是对于大范围的相机运动造成的低视野重合度同样存在困难。
从人工神经网络结构角度看,现有的基于卷积神经网络方法通常串联多个视图图像或特征图输入网络作为一整个特征图,造成输入视图数量无法灵活调整,同时其中卷积层无法有效提供图像空间中长距离相关特征信息,使得这种方法只能限于小幅度相机运动,而基于注意力(attention)机制的Transformer网络可以解决上述问题,却无法高效的提取和处理底层图像特征和空间信息。当下有部分工作正在尝试将两者结合各取所长,但是目前的大部分相关工作都采用前端卷积神经网络提取一个抽象特征向量输入后端Transformer网络处理,造成了高分辨率信息的丢失,同时也忽视了卷积层的空间不变性在深度估计等任务中的高效性。
从人工神经网络的任务设计考虑,目前基于深度学习的三维重建及相机位姿估计相关方法通常分别针对第2)和第3)部分中的特征点提取、匹配、三维坐标估计和相机运动估计一系列任务,需要分开设计、训练和使用不同的人工神经网络,从而造成了其中不同任务中所提取的信息无法相互使用,例如传统方法中的特征点匹配关系可以在三维坐标估计与相机运动参数估计中提供多个视图之间的几何结构信息,而当前基于深度学习的三维重建及相机位姿估计方法却无法对多个视图重合视野内的特征对应关系实现高效复用。
从人工神经网络的训练考虑,监督学习算法通常需要大量的标记数据进行训练而带来较大成本,并且限制了无标记数据情况的使用,从而限制了应用场景。目前有部分深度学习方法能实现半监督学习,例如基于已知相机运动情况通过图像重投影对深度估计约束优化,但是仍然无法被拓展到没有标记数据的场景中。
例如2018年CVPR会议所收录的GeoNet框架,实现了基于估计相机运动、深度图和光流图的自监督联合学习框架,可延伸应用于三维重建及相机位姿估计。但是其中采用了将多帧图像串联输入卷积神经网络结构的方法,使得输入图像数量被固定,并且网络无法在稀疏帧视图之间存在大幅度相机运动的情况下提取有效空间几何特征,造成可用数据中不同视图之间的视差小而精度低;另外该学习框架内分别采用三个网络,先估计深度和相机运动,再基于两者估计光流图,导致光流图中的像素匹配信息无法在框架内被深度图和相机运动估计网络所复用,进而限制其使用效果。
发明内容
本发明的目的是针对现有的三维重建及相机位姿估计方法所存在的不足,提供一种基于端到端多任务深度学习算法的多视图三维重建及相机位姿估计方法。
本发明的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于通过搭建一个基于端到端多任务深度学习算法、具有多输入多输出功能的人工神经网络实现的,主要流程如下:
步骤1.搭建一个多输入多输出的人工神经网络,通过输入多个视图的图像,估计对应视图的深度图、不同视图之间的相机运动参数、或相机位姿变换参数以及不同视图之间的像素和区域匹配;
步骤2.基于已有的图像或视频数据,对步骤1中搭建的所述人工神经网络模型进行训练;
步骤3.将步骤2中训练的人工神经网络模型部署使用,估计各个视图的深度图与不同视图变换时相机位姿的变化,并根据各深度图计算对应视图坐标系下的三维点云;
步骤4.计算全局坐标下相机位姿,将步骤3中得到的各个视图坐标系下的三维点云拼接,然后结合对应图像像素的光度色彩信息实现三维重建。
其中:
所述的人工神经网络中包含有特征提取及处理模块和特征匹配模块;
所述特征提取及处理模块中包括多个并行的分支神经网络,分别对应各个输入的视图图像,并由这些分支神经网络提取输入图像中对应的像素和区域的特征向量、组成特征图,从而通过学习特征向量的映射、输出该视图对应的深度图;
所述的特征提取及处理模块包含有多个并行、分别对应各个输入视图的图像并输出得到该视图对应的深度图功能的分支神经网络,用于提取图像对应像素或区域的特征向量,组成特征图,并通过学习特征向量的映射来获取深度信息;
所述的特征匹配模块具有输入由所述特征提取及处理模块从各个视图提取的若干个特征图,并对其中任意两个视图所提取特征图上每一区域或像素对应的特征向量进行匹配与加权融合的功能;
通过结合所述特征提取及处理模块得到的每个像素或区域的深度信息,与所述的特征匹配模块得到的不同视图间的像素或区域匹配关系,便能估计得到不同视图间对应的相机运动参数,由此实现:
仅用一个人工神经网络便能同时实现多个视图的深度估计、视图之间的像素或区域匹配,获得快速的三维重建与相机运动参数估计,从而显著提高人工神经网络对于信息的有效使用率,提升三维重建和运动估计的精度;
所述的特征匹配模块匹配视图间各个尺度特征,结合匹配置信权重的估计,通过不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播,简化了图像的匹配过程,有利于减少计算次数、降低内存消耗、提高特征匹配的准确性;
所述的人工神经网络模型的不同分支参数可供任意视图共享,从而使视图数量在同一组模型参数训练和使用中可以按需调整,并降低网络大小;
所述的特征提取及处理模块内采用卷积神经网络,可用于提取和处理具有空间不变性的特征和相对位置信息并估计稠密深度,所述的特征匹配模块与之并行,采用基于注意力机制的网络,可用于查找同一视图内长距离、多视图之间像素或区域的对应关系;
所述的特征匹配模块中任意一组特征图的特征匹配可以使用其他若干组特征图已计算的特征匹配结果,可用于限定该匹配过程的搜索范围或融合不同特征空间内的特征匹配关系,其中所述的特征匹配结果可以是两图之间非参数化的位移场、光流图、相似度矩阵,也可以是单应性变换、刚体变换、相似变换、仿射变换和透视变换的参数化对应关系;
所述的特征匹配模块可以通过任意两视图一组匹配后的特征向量,通过人工神经网络学习的映射变换,对任意两视图作为一组进行匹配后的特征向量进行映射,得到从其中一个视图到另外一个视图的特征空间变换;
可以基于所述人工神经网络输出的物理及数学意义的合理性及视图之间的约束关系构建损失函数,并在所述的人工神经网络的训练和部署使用过程中进行自监督学习训练;
所述的训练中损失函数可以包括:(1)同一种输出量的自洽性损失项,其特征在于根据同一种输出量在多个视图之间保持一致而设计的损失函数,例如相机运动对应的坐标系映射或其中视野重合部分特征点的匹配映射可逆,且一系列视图之间映射组成的复合映射与映射路径无关,以及通过像素或区域匹配重建图像与被映射视图原图像相似;(2)不同种类的输出量之间的兼容性损失项,其特征在于根据不同输出量在同一组输入视图中应当满足对应约束关系,例如通过对极线约束像素匹配映射与相机运动外参的“匹配-运动”兼容损失函数,以及两张视图间的相机运动参数对图像和深度的重投影与原图的相似度约束的“运动-深度”兼容性损失函数;(3)输出量的合理性损失项,其特征在于通过输出量的合理性而设计的损失项或正则项,例如深度图和匹配矩阵的光滑或连续程度,以及运动参数中旋转矩阵的标准正交约束;
在所述的步骤2或步骤3中,可以通过不同视图间所述像素或区域匹配关系,包括匹配矩阵与置信权重,对输入图像进行筛选;
在所述步骤4的全局相机位姿计算中,可以利用视图间像素或区域的匹配关系的置信权重,对不同相机运动路径加权或筛选得到每个视图相机在全局坐标系下的位姿,在拼接三维点云过程中,可以利用视图间相机运动及像素或区域的匹配关系,对视野重合区域筛选离群点。
基于上述构思的本发明基于多任务学习算法的三维重建及相机位姿估计方法,搭建了一个具有多输入多输出功能的基于端到端多任务深度学习算法的、包含有特征提取及处理模块和特征匹配模块的人工神经网络,实现了基于多任务学习算法的三维重建及相机位姿估计。与现有的基于深度学习的三维重建及相机位姿估计技术相比,本发明可以在应用场景中仅用同一个人工神经网络即可同时实现多个视图的深度估计、视图之间的像素或区域匹配,进而获得快速的三维重建与相机运动参数估计,显著提高了人工神经网络对于信息的有效使用率,从而提升了三维重建和运动估计的精度;且本发明步骤1中人工神经网络结构设计方法可以将特征提取及处理模块和特征匹配模块中对应不同视图图像输入的参数共享,使得人工神经网络训练和部署过程中视图数量可以按需改变,在融合不同视图之间信息的同时能够从并行运算中获得更高的收益,从而显著提高了本发明使用的灵活性和适用价值;此外,所述的特征匹配模块能为特征提取及处理模块中每两个视图对应的特征图进行特征匹配和融合,为人工神经网络加入空间几何信息,从而加强深度估计乃至三维重建与运动估计的可靠性和精确性;同时,所述的特征提取及处理模块采用卷积神经网络,相比于现有的基于特征点云的传统方法或依靠全连接层的Transformer网络的三维重建及相机位姿估计方法,本发明能够估计更稠密深度,并结合语义与结构信息在不同视图之间低视野重合度情况下保留更多细节;所述的特征匹配模块采用基于注意力机制的网络,相比于基于传统匹配方法或卷积神经网络的三维重建及相机位姿估计方法,本发明能够实现相机大幅度运动情况下的快速稠密特征匹配;另外,相比于现有的注意力机制,本发明中的特征匹配模块能匹配视图间各个尺度特征,并结合匹配置信权重的估计,通过不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播,从而显著减少了计算次数、内存消耗,提高了特征匹配的准确性;由上可见,本发明显著克服了现有的深度学习三维重建及相机位姿估计技术的不足,实现了自监督学习优化,从而使得本发明在陌生场景中的应用更具自适应性和实用性。
附图说明
图1是本发明实施例的工作原理示意图;
图2是本发明实施例中人工神经网络的结构示意图。
图3是图2中注意力模块内部与特征提取及处理模块交互的数据流及其对应的分支网络内部示意图。
图中:
1.特征提取及处理模块11.下采样模块12.上采样模块13.隐空间模块
2.特征匹配模块21.注意力模块211.分支注意力模块
具体实施方式
下面结合附图和典型实施例对本发明作进一步说明。
在图1、图2和图3中,本发明的一种基于多任务学习算法的三维重建及相机位姿估计方法是通过以下措施来实现的:
步骤1.搭建一个多输入多输出的人工神经网络,如图1所示,包括特征提取及处理模块1和特征匹配模块2,输入m个视图的图像,输出m个视图的深度图和不同视图之间m(m-1)个像素匹配映射及其置信权重与对应的相机运动参数,其中m>1作为一个整数变量可以在人工神经网络同一套参数的训练和部署使用中可按需调整;
所述特征提取及处理模块1输入多个视图的图像
Figure BDA0003083996750000081
Figure BDA0003083996750000082
提取图像特征,其提取的特征向量按图像像素排列组成特征图,输出一组多视图对应的深度图
Figure BDA0003083996750000083
如图2所示,其内部包括m个并行分支网络,其中并行分支间共享一套参数,使得视图数量改变不影响特征提取及处理模块1,同时降低网络大小并加快训练速度;
所述特征提取及处理模块1中每个并行分支的第s个特征图
Figure BDA0003083996750000091
Figure BDA0003083996750000092
被送入特征匹配模块2中对应的注意力模块21用以确定特征对应关系,并返回与其他视图匹配后的特征图
Figure BDA0003083996750000093
Figure BDA0003083996750000094
相加后的特征图
Figure BDA0003083996750000095
被送入特征提取及处理模块1中的下一个模块,其中cs、hs和ws分别是第s个被输出至特征匹配模块2的特征图的通道数、高和宽;
在该实例中所述特征提取及处理模块1的每个分支网络采用常见的编码器-解码器网络结构,包含四个下采样模块11组成的编码器、四个上采样模块12组成的解码器和一个隐空间模块13,其中:
所述的下采样模块11包括两个3×3卷积层和两个激活层交替排列后加入一个池化下采样层,用以提取每个图像更加抽象的特征图;所述的上采样模块12包括一个反卷积上采样层后接两个3×3卷积层和两个激活层交替排列;其中每个下采样后的特征图通过跃接连接串联至对应尺度的反卷积上采样层之前用以处理结构信息并恢复特征图的分辨率;所述的隐空间模块13包括两个3×3卷积层和两个激活层交替排列用以处理抽象特征;其中激活层采用线性整流函数(ReLU);
如图2和图3所示,所述特征匹配模块2包括一系列的注意力模块21,与特征提取及处理模块1中的下采样模块11、隐空间模块13和上采样模块12平行排列并相互对应传输特征图。在本示例中为了平衡分辨率精度和内存占用率,第一个注意力模块21并列对应第二个下采样模块11,而最后一个注意力模块21并列对应第三个上采样模块12,其中每个注意力模块21分别输入从特征提取及处理模块1里对应模块输出的特征图,共计使用S=7个注意力模块21,实现各个尺度上特征图之间的相似特征的匹配与融合,其中在每一个注意力模块21中包含m2个分支注意力模块211,同一个注意力模块21中的分支模块211共享参数,使得视图数量改变不影响特征匹配模块2,同时降低网络大小并加快训练速度;
在所述的第s个注意力模块21中的任意一个分支注意力模块211中,对两个并行网络分支的特征图向量组进行匹配可表达为映射:
Figure BDA0003083996750000101
通过训练该映射φs得到第s个序列下任意的第i个网络分支的特征图
Figure BDA0003083996750000102
中的特征向量到任意的第j个网络分支的特征图
Figure BDA0003083996750000103
中特征向量的匹配映射
Figure BDA0003083996750000104
及其对应的置信权重向量
Figure BDA0003083996750000105
其中第s′<s的注意力模块21得到的
Figure BDA0003083996750000106
Figure BDA0003083996750000107
作为前馈数据输入,用于限定该注意力模块匹配过程的搜索范围和继承之前特征图上已计算的匹配信息,以减小计算次数并提高精度,当s=1时忽略该输入,在本示例中计算两张图像或特征图匹配映射时采用两种策略,(a)当s≤4时,将前一次的匹配结果即相似度矩阵下采样,与该匹配模块中的相似度矩阵加权相加,(b)当s>4时,首先将搜索区域初始化为为低分辨率图像或特征图两张全图之间,对输入图像或特征图的低分辨率特征图在搜索范围内局部匹配,利用低分辨率匹配结果对高分辨率图像或特征图重采样,通过滑动窗口分割对应区域得到高分辨率图像或特征图的搜索范围,并将重采样后的高分辨图像或特征图上作为新的低分辨率图,重复上述过程直到得到稠密匹配映射后的对应图像或特征图;其中
Figure BDA0003083996750000108
的计算过程如下:
Figure BDA0003083996750000109
其中
Figure BDA00030839967500001010
是指之前的第t<s个注意力模块21已计算的匹配关系在当前第s个注意力模块21继承的对应关系:
Figure BDA00030839967500001011
Figure BDA0003083996750000111
是第s个注意力模块21中得出的位移向量场:
Figure BDA0003083996750000112
Figure BDA0003083996750000113
是第s个注意力模块21中计算的逐个像素对的相似度矩阵,包括由训练得到的
Figure BDA0003083996750000114
Figure BDA0003083996750000115
分别是对特征通道维度上的线性变换,可以等效为变维前原特征图上的1×1卷积操作,:
Figure BDA0003083996750000116
Figure BDA0003083996750000117
是第s个注意力模块21中计算的每个像素的匹配置信度权重:
Figure BDA0003083996750000118
其中diag是对角矩阵化函数,
Figure BDA0003083996750000119
是用于调整序列中当前注意力模块21中匹配映射受前一个注意力模块21的影响比重,
Figure BDA00030839967500001110
是批量(第一个维度)矩阵乘积,
Figure BDA00030839967500001111
是根据第二个位移坐标场对第一个输入图像的采样函数,通过2015年NeuIPS会议上MaxJaderberg发表的Spatial Transformer Network中的采样函数实现,
Figure BDA00030839967500001118
是针对不同尺度特征匹配关系的上采样或下采样操作,μ是第一个维度上的求均值函数,σ为倒数第二个维度上的softmax函数,σ′为指数函数,
Figure BDA00030839967500001112
表示复合映射,
Figure BDA00030839967500001113
Figure BDA00030839967500001114
分别是对h×w大小的特征图的分块和拼接变维操作,只在上采样模块12对应并列的注意力模块21(s>4)中使用,其目的是将两个特征图基于前一个注意力模块21的匹配结果进行低分辨率的全局匹配,在当前模块中实现多个局部区域的高分辨率匹配,并且更进一步,作为下一更高分辨率的精细匹配前的预先匹配,并不断重复这一过程实现高分辨率图像的快速匹配,其中Δh,Δw分别是局部区域的高和宽,设定为
Figure BDA00030839967500001115
而后通过训练映射χs,包括特征通道变换函数(s≤4)或两视图之间匹配后的特征图(s>4)计算两个视图之间第s个特征图的特征空间线性变换
Figure BDA00030839967500001116
Figure BDA00030839967500001117
Figure BDA0003083996750000121
其中包括在其中特征通道维度上串联像素对应的位置编码和特征通道维度的线性变换
Figure BDA0003083996750000122
Figure BDA0003083996750000123
Figure BDA0003083996750000124
其中[·,·]表示特征向量维度的串联操作,像素位置编码
Figure BDA0003083996750000125
在本实例中采用以特征图中心点为原点的笛卡尔坐标编码;
通过以上方式最终得到从特征匹配模块2返回特征提取及处理模块1的第j个网络分支的融合特征图
Figure BDA0003083996750000126
Figure BDA0003083996750000127
其中ws作为调整自注意力(selfattention)和交互注意力(mutual attention)所占比例的参数,所述融合特征向量组
Figure BDA0003083996750000128
被返回到特征提取及处理模块中,与所述的第j个分支网络的对应特征图相加、串联或类似方法实现特征融合;
所述特征匹配模块2中注意力模块21序列输出像素或区域匹配映射
Figure BDA0003083996750000129
和置信权重向量
Figure BDA00030839967500001210
经过以下操作得到多视图之间的像素或区域匹配
Figure BDA00030839967500001211
Figure BDA00030839967500001212
在本实施例中,最后一个注意力模块21输出得到像素或区域匹配,Ωi→j表示其置信权重向量的对角矩阵形式;
所述两视图之间运动参数,如第i个视图到第j个视图的运动
Figure BDA00030839967500001213
Figure BDA00030839967500001214
的预测在步骤3中可以直接通过深度图组得到的两组三维点云坐标Pi
Figure BDA00030839967500001215
和像素匹配映射
Figure BDA00030839967500001216
Ωi→j算得:
Figure BDA00030839967500001217
其中
Figure BDA0003083996750000131
是Pi的齐次坐标形式;
在所述人工神经网络搭建过程中,网络复杂度主要考虑视图数量m与图像大小h0w0;特征提取及处理模块的计算复杂度为
Figure BDA0003083996750000132
模型复杂度为
Figure BDA0003083996750000133
其中特征匹配模块2中固定直接由相似度权重确定匹配的注意力模块21(s<4)数量,通过增加递归化匹配的注意力模块21实现高分辨率匹配,并获得
Figure BDA0003083996750000134
的计算复杂度、与
Figure BDA0003083996750000135
的模型复杂度;
步骤2.利用步骤1中搭建的所述人工神经网络模型,通过若干张图像进行预先训练,先将多视图图像输入网络,输出对应的多视图深度图和多视图间像素匹配组,通过已知的多视图间的相机位姿参数,构建基于不同视图之间图像和深度图投影误差以及对极线约束的半监督学习损失函数,并通过优化该损失函数来预先训练所述人工神经网络的参数;
步骤3.将步骤2中预先训练的人工神经网络模型部署使用,输入若干张图像,估计稠密的深度图、像素或区域匹配以及相机运动参数。
其中可以基于深度图Di和图像像素坐标p生成该视图坐标系内的点云坐标Pi
在模型使用的过程中可以同时计算损失函数
Figure BDA0003083996750000136
并设定在高于特定阈值时通过自监督学习进行优化;
其中所述自监督学习流程为:先将若干图像输入网络,输出对应深度图和多视图间像素匹配及其置信权重,然后通过每张视图的置信权重矩阵阈值化后的迹(trace)tr(ReLU(Ωi→j-ε))来估计视野重合度,并用其加和∑jtr(ReLU(Ωi→j-ε))的排序筛选出一组视图,基于不同视图之间的像素匹配及其置信度与预测的深度图得到的三维点云坐标,估计对应的运动参数,计算损失函数
Figure BDA0003083996750000137
并通过优化该损失函数来实现自监督训练;
在步骤3所述的人工神经网络模型的训练过程中,可以针对没有标记数据的情况采用自监督学习模式,从而减少人工标记的成本,其中所述损失函数L包含:同一种输出预测量在不同视图之间的自洽性损失项
Figure BDA0003083996750000141
不同种类的输出预测量之间的兼容性损失项
Figure BDA0003083996750000142
和输出预测合理性损失项
Figure BDA0003083996750000143
Figure BDA0003083996750000144
所述自洽性损失项
Figure BDA0003083996750000145
可以包含:(1)视图变换一致性损失项,其特征在于根据匹配映射与相机运动参数对应映射的复合映射的路径无关性构造损失函数
Figure BDA0003083996750000146
Figure BDA0003083996750000147
在本实例中由以下公式计算:
Figure BDA0003083996750000148
Figure BDA0003083996750000149
其中(·)⊙2表示矩阵内逐个元素平方运算,
Figure BDA00030839967500001410
是4×4的单位矩阵,
Figure BDA00030839967500001411
是偏置后的置信权重对角化矩阵,∏(i→j)∈c(·)是以c为轨迹的连续乘积,
Figure BDA00030839967500001412
是Ti→j的齐次坐标变换形式;
(2)根据匹配映射重建图像与被匹配图像的相似性误差构造的损失函数,在本实例中由以下公式计算:
Figure BDA00030839967500001413
其中
Figure BDA00030839967500001414
是匹配映射前的变维操作;
所述兼容性损失项
Figure BDA00030839967500001415
可以包含:(1)通过对极线约束计算像素匹配映射与相机运动外参的“匹配-运动”兼容损失函数:
Figure BDA00030839967500001416
其中
Figure BDA00030839967500001417
是第i个视图里的二维像素坐标,Hi→j是第i个视图到第j个视图的单应性变换矩阵,由
Figure BDA0003083996750000151
其中ni是投影平面法向量,fi是射影中心离平面距离,ti→j是Ti→j中平移向量,R′i→j是Ti→j中旋转矩阵Ri→j经过格拉姆-施密特(Gram-Schmidt)正交化后的矩阵,Ki和Kj是投影矩阵;
(2)衡量根据匹配映射重建的深度图与被匹配视图预测的深度图之间误差的“匹配-深度”兼容损失函数,在本实例中由以下公式计算:
Figure BDA0003083996750000152
(3)通过两张视图间的相机运动参数将图像重投影至另外一张视图上,在本实例中由以下公式计算“运动-深度”兼容性误差:
Figure BDA0003083996750000153
其中
Figure BDA0003083996750000154
是基于预测的深度和内参外参的重投影函数,将第i个视图中的图像投影到第j个视图中;
所述合理性损失项
Figure BDA0003083996750000155
包含(1)匹配映射的连续性损失项在本实例中由以下公式计算:
Figure BDA0003083996750000156
其中
Figure BDA0003083996750000157
是一阶梯度差分算子,可以用横向和纵向两个索贝尔(Sobel)卷积核实现,⊙是元素逐个乘积;
(2)深度图的光滑度损失项计算每个视图所预测深度的光滑程度在本实例中由以下损失函数表达:
Figure BDA0003083996750000158
其中|·|是特征(第一个)维度上的L2标准化;
(3)相机运动的旋转矩阵正则化损失项在本实例中由以下公式计算:
Figure BDA0003083996750000161
在本实例的步骤2、3中,m∈{2,3,4}被交替使用训练同一套参数;在训练过程中匹配映射、深度估计和相机运动估计的梯度反向传播被交替锁定,针对训练另外两者,用以避免由于相互耦合引起的不稳定;
图3展示了注意力模块21内部与特征提取及处理模块1交互的数据流及其对应的分支网络,结合图2的分支结构,该人工神经网络网络m个权重相同的分支可以分布式部署于m个设备中,该情况下在本实施例中的一次人工神经网络运算中,每个设备的运算复杂度为
Figure BDA0003083996750000162
所需通信数据空间复杂度为
Figure BDA0003083996750000163
步骤4.通过各个视图之间相机位姿对不同视图预测的点云坐标拼接一个全局坐标下的完整点云,基于预测的三维点云坐标以及对应图像像素光度信息,通过曲面结构重建方法如三角网格化算法,和纹理映射实现三维曲面的重建。
其中可以利用匹配关系及其置信权重对不同相机运动路径加权或筛选得到每个视图相机的全局位姿:
Figure BDA0003083996750000164
Figure BDA0003083996750000165
其中ci是筛选的第i个视图到全局坐标系的估计相机位姿路径,Ti i→j是Ti→j中旋转矩阵经过格拉姆-施密特正交化后的相机位姿变化齐次矩阵,
Figure BDA0003083996750000166
是第i个视图在全局坐标系的相机位姿;
同时可以通过step(Ωi→j-ε′)计算第i到第j视图重合区域匹配关系的指标向量,其中
Figure BDA0003083996750000167
并通过以下不等式筛选出这一重合区域的离群点:
Figure BDA0003083996750000171
其中κ作为离群点阈值距离。
以上所述为本发明的一个实施例,但本发明范围并不局限于此,不仅可用于三维重建及相机位姿估计任务,还可用于包括其他基于多个视图的三维重建和视觉里程计等,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (8)

1.一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于通过搭建一个基于端到端多任务深度学习算法、具有多输入多输出功能的人工神经网络实现的,主要流程如下:
步骤1.搭建一个多输入多输出的人工神经网络,通过输入多个视图的图像,估计对应视图的深度图、不同视图之间的相机运动参数、相机位姿变换参数以及不同视图之间的像素和区域匹配;
步骤2.基于已有的图像或视频数据,对步骤1中搭建的所述人工神经网络模型进行训练;
步骤3.将步骤2中训练的人工神经网络模型部署使用,估计各个视图的深度图与不同视图变换时相机位姿的变化,并根据各深度图计算对应视图坐标系下的三维点云;
步骤4.计算全局坐标下相机位姿,将步骤3中得到的各个视图坐标系下的三维点云拼接,然后结合对应图像像素的光度色彩信息实现三维重建;
所述的人工神经网络中包含有特征提取及处理模块(1)和特征匹配模块(2),其中:
所述特征提取及处理模块(1)采用卷积神经网络,用于提取和处理具有空间不变性的特征和相对位置信息并估计稠密深度,其中包括多个并行的分支神经网络,分别对应各个输入的视图图像,并由这些分支神经网络提取输入图像中对应的像素和区域的特征向量、组成特征图,从而通过学习特征向量的映射、输出该视图对应的深度图;
所述特征匹配模块(2)具有输入由所述特征提取及处理模块(1)从各个视图提取的若干个特征图,并对其中任意两个视图所提取特征图上每一区域及像素对应的特征向量进行匹配与加权融合的功能,采用基于注意力机制的网络,与特征提取及处理模块(1)并行,用于查找同一视图内长距离、多视图之间像素及区域的对应关系;
通过结合所述的特征提取及处理模块(1)得到的每个像素及区域的深度信息,与所述的特征匹配模块(2)得到的不同视图间的像素及区域匹配关系,便估计得到不同视图间对应的相机运动参数。
2.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于所述的人工神经网络模型的不同分支参数可供任意视图共享,从而使视图数量在同一组模型参数训练和使用中可以按需调整,并降低网络大小。
3.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于在所述的特征匹配模块(2)中任意一组特征图的特征匹配使用其他若干组特征图已计算的特征匹配结果,用以限定该匹配过程的搜索范围和融合不同特征空间内的特征匹配关系,其中所述的特征匹配结果是两图之间非参数化的位移场、光流图、相似度矩阵、单应性变换、刚体变换、相似变换、仿射变换和透视变换的参数化对应关系。
4.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于所述的特征匹配模块(2)通过人工神经网络学习的映射变换,对任意两视图作为一组进行匹配后的特征向量进行映射,得到从其中一个视图到另外一个视图的特征空间变换。
5.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于基于所述人工神经网络输出的物理及数学意义的合理性及视图之间的约束关系构建损失函数,并在所述的人工神经网络的训练和部署使用过程中进行自监督学习训练。
6.根据权利要求5所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于所述的损失函数包括:1)同一种输出量的自洽性损失项,根据同一种输出量在多个视图之间投影物体保持一致而设计的损失函数,相机运动对应的坐标系映射或其中视野重合部分特征点的匹配映射可逆,且一系列视图之间映射组成的复合映射与映射路径无关,以及通过像素和区域匹配重建图像与被映射视图原图像相似;2)不同种类的输出量之间的兼容性损失项,根据不同输出量在同一组输入视图中应当满足对应约束关系,通过对极线约束像素匹配映射与相机运动外参的“匹配-运动”兼容损失函数,以及两张视图间的相机运动参数对图像和深度的重投影与原图的相似度约束的“运动-深度”兼容性损失函数;3)输出量的合理性损失项,通过输出量的合理性而设计的损失项或正则项,深度图和匹配矩阵的光滑和连续程度,以及运动参数中旋转矩阵的标准正交约束。
7.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于在所述的步骤2、步骤3中,通过不同视图间像素和区域匹配关系,包括匹配矩阵与置信权重,对输入图像进行筛选。
8.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法,其特征在于在步骤4的全局相机位姿计算中利用视图间像素和区域的匹配关系的置信权重,对不同相机运动路径加权和筛选得到每个视图相机在全局坐标系下的位姿,在拼接三维点云过程中也利用视图间相机运动及像素和区域的匹配关系,对视野重合区域筛选离群点。
CN202110581983.2A 2021-05-26 2021-05-26 一种基于多任务学习算法的三维重建及相机位姿估计方法 Active CN113160375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110581983.2A CN113160375B (zh) 2021-05-26 2021-05-26 一种基于多任务学习算法的三维重建及相机位姿估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110581983.2A CN113160375B (zh) 2021-05-26 2021-05-26 一种基于多任务学习算法的三维重建及相机位姿估计方法

Publications (2)

Publication Number Publication Date
CN113160375A CN113160375A (zh) 2021-07-23
CN113160375B true CN113160375B (zh) 2022-12-13

Family

ID=76877692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110581983.2A Active CN113160375B (zh) 2021-05-26 2021-05-26 一种基于多任务学习算法的三维重建及相机位姿估计方法

Country Status (1)

Country Link
CN (1) CN113160375B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114170304B (zh) * 2021-11-04 2023-01-03 西安理工大学 一种基于多头自注意力和置换注意力的相机定位方法
CN114066987B (zh) * 2022-01-12 2022-04-26 深圳佑驾创新科技有限公司 一种相机位姿估计方法、装置、设备及存储介质
CN114598575B (zh) * 2022-03-11 2024-01-09 中国科学技术大学 一种基于自注意机制的深度学习信道估计方法
CN115909741B (zh) * 2022-11-30 2024-03-26 山东高速股份有限公司 一种交通状态的判别方法、设备及介质
CN116051632B (zh) * 2022-12-06 2023-12-05 中国人民解放军战略支援部队航天工程大学 一种双通道transformer卫星六自由度姿态估计算法
CN116245961B (zh) * 2023-03-02 2023-09-01 之江实验室 一种基于多类传感器信息的融合感知方法及系统
CN116030285A (zh) * 2023-03-28 2023-04-28 武汉大学 基于关系感知注意力机制的两视图对应估计方法
CN116934970A (zh) * 2023-07-24 2023-10-24 天津大学 一种基于先验知识引导的医学单视图三维重建装置
CN117765084B (zh) * 2024-02-21 2024-05-03 电子科技大学 基于动态分支预测的迭代求解的面向视觉定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN111127538A (zh) * 2019-12-17 2020-05-08 武汉大学 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112085845B (zh) * 2020-09-11 2021-03-19 中国人民解放军军事科学院国防科技创新研究院 基于无人机影像的室外场景快速三维重建装置
CN112435325B (zh) * 2020-09-29 2022-06-07 北京航空航天大学 基于vi-slam和深度估计网络的无人机场景稠密重建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108416840A (zh) * 2018-03-14 2018-08-17 大连理工大学 一种基于单目相机的三维场景稠密重建方法
CN111127538A (zh) * 2019-12-17 2020-05-08 武汉大学 一种基于卷积循环编码-解码结构的多视影像三维重建方法
CN111696148A (zh) * 2020-06-17 2020-09-22 中国科学技术大学 基于卷积神经网络的端到端立体匹配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose";Zhichao Yin 等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20181216;摘要,第1983、1986-1987、1990页 *
"基于多任务学习的初始图像对选取方法";刘宇翔 等;《郑州大学学报(工学版)》;20210131;第42卷(第1期);第56-62页 *
"基于深度学习的多视图物体三维重建研究";陈秋敏;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20171015;第I138-1237页 *

Also Published As

Publication number Publication date
CN113160375A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN113160375B (zh) 一种基于多任务学习算法的三维重建及相机位姿估计方法
CN111325794B (zh) 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN112435325B (zh) 基于vi-slam和深度估计网络的无人机场景稠密重建方法
CN107564061B (zh) 一种基于图像梯度联合优化的双目视觉里程计算方法
Guo et al. Learning monocular depth by distilling cross-domain stereo networks
Park et al. High-precision depth estimation using uncalibrated LiDAR and stereo fusion
Park et al. High-precision depth estimation with the 3d lidar and stereo fusion
CN110009674B (zh) 基于无监督深度学习的单目图像景深实时计算方法
CN111311729B (zh) 一种基于双向投影网络的自然场景三维人体姿态重建方法
CN112767467B (zh) 一种基于自监督深度学习的双图深度估计方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN113313732A (zh) 一种基于自监督学习的前视场景深度估计方法
CN108648224A (zh) 一种基于人工神经网络的实时场景布局识别及重建的方法
US11948309B2 (en) Systems and methods for jointly training a machine-learning-based monocular optical flow, depth, and scene flow estimator
Alcantarilla et al. Large-scale dense 3D reconstruction from stereo imagery
Li et al. Two-stage adaptive object scene flow using hybrid cnn-crf model
CN114996814A (zh) 一种基于深度学习与三维重建的家具设计系统
Li et al. Deep learning based monocular depth prediction: Datasets, methods and applications
CN116188550A (zh) 一种基于几何约束的自监督深度视觉里程计
Fang et al. Self-supervised learning of depth and ego-motion from videos by alternative training and geometric constraints from 3-d to 2-d
Jin et al. Beyond learning: Back to geometric essence of visual odometry via fusion-based paradigm
CN113313740B (zh) 一种基于平面连续性的视差图和表面法向量联合学习方法
Lin et al. Efficient and high-quality monocular depth estimation via gated multi-scale network
Wang et al. Recurrent neural network for learning densedepth and ego-motion from video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant