CN113160375B

CN113160375B - 一种基于多任务学习算法的三维重建及相机位姿估计方法

Info

Publication number: CN113160375B
Application number: CN202110581983.2A
Authority: CN
Inventors: 郑健青; 黄保茹
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2022-12-13
Anticipated expiration: 2041-05-26
Also published as: CN113160375A

Abstract

本发明涉及一种基于多任务学习算法的三维重建及相机位姿估计方法，是通过搭建一个基于端到端多任务深度学习算法，包含有特征提取及处理模块和特征匹配模块并具有多输入多输出功能的人工神经网络实现的。人工神经网络估计多视图对应的深度、视图间的像素匹配及相机运动，提高多个任务中的信息利用率和精度，对应各个视图和两两视图之间的参数共享，并由特征匹配模块匹配不同视图间各个尺度特征，结合匹配置信权重的估计，实现了不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播。相比现有的基于注意力机制的方法，本算法减少了计算次数并提高了匹配的准确性，实现了陌生场景中的自监督优化，从而极大提升了其实用价值。

Description

一种基于多任务学习算法的三维重建及相机位姿估计方法

技术领域

本发明涉及图像数据采集技术领域，特别是一种基于多任务学习算法的三维重建及相机位姿估计方法。

背景技术

在计算机视觉中,三维重建(3D Reconstruction)是指根据单视图或者多视图的图像重建视野内三维信息的过程。其中单视图三维重建需要用到先验信息、特殊光源或传感器，而多视图三维重建可以通过多张图像恢复观测场景或物体的三维信息而不需要额外的硬件辅助，因此具有广泛的应用，例如在增强现实、机器人和自动驾驶等领域。但是现有多视图三维重建通常需要各个视图曝光点已知的相机的位置姿态，来限制特征匹配搜索范围。因此相机位姿估计(Camera Pose Estimation)通常作为多视图三维重建的前置或同步部分，在运动恢复结构(Structure from Motion)、即时定位与地图构建(SimultaneousLocalization and Mapping)和视觉里程计(Visual Odometry)等任务中具有很强的可迁移性。

三维重建及相机位姿估计方法主要包括四个部分：1)提取二维图像特征；2)寻找同一特征点在多个视图图像中的对应关系；3)通过不同视图的一组对应的特征点来估测相机的运动参数和特征点的三维坐标；4)计算全局坐标系下的相机位姿，并通过曲面重建和纹理映射来实现最终的三维物体或场景表面重建。

在第1)部分中传统的特征提取方法(如尺度不变量特征变换SIFT、快速鲁棒特征SURF)一般需要根据场景进行相应调整，缺乏普适性。对于第2)部分和第3)部分，传统的图像特征匹配方法如随机样本一致性(RanSaC)算法组合奇异值分解方法需要迭代运算，在对稠密特征点的匹配情况下会严重增加时间成本，因此通常针对稀疏特征点进行匹配，然而这造成了场景中的遮挡或者图像噪声，故更容易影响特征跟踪的稳定性和寿命，进而对相机位姿估计和三维重建精度造成影响，并且容易导致重建漂移的现象。特别是对于大尺度场景的三维重建及相机位姿估计来说，这个问题尤为严重。另外对于第4)部分，稀疏的特征点推出的稀疏三维点云使得三维物体、场景的表面重建丢失了大量细节信息。

深度学习算法如卷积神经网络在第1)部分中可以根据不同场景数据来自适应调整，因而具有普适性，但是需要不同场景的数据进行训练；在第2)部分深度学习通常可以实现快速的特征点匹配，但是受限于搜索空间所带来的计算成本，现有的深度学习方法通常难实现大范围运动的两个视图之间的稠密匹配，或是需要观测物体、场景、拍摄过程的先验条件来限制搜索范围，如2018年ECCV会议所收录的MVSNet采用的代价体(Cost Volume)不仅需要相机标定还限制了视差范围；在第3)部分中现有深度学习方法基本能够实现相机运动的实时估计及稠密的深度预测，但是对于大范围的相机运动造成的低视野重合度同样存在困难。

从人工神经网络结构角度看，现有的基于卷积神经网络方法通常串联多个视图图像或特征图输入网络作为一整个特征图，造成输入视图数量无法灵活调整，同时其中卷积层无法有效提供图像空间中长距离相关特征信息，使得这种方法只能限于小幅度相机运动，而基于注意力(attention)机制的Transformer网络可以解决上述问题，却无法高效的提取和处理底层图像特征和空间信息。当下有部分工作正在尝试将两者结合各取所长，但是目前的大部分相关工作都采用前端卷积神经网络提取一个抽象特征向量输入后端Transformer网络处理，造成了高分辨率信息的丢失，同时也忽视了卷积层的空间不变性在深度估计等任务中的高效性。

从人工神经网络的任务设计考虑，目前基于深度学习的三维重建及相机位姿估计相关方法通常分别针对第2)和第3)部分中的特征点提取、匹配、三维坐标估计和相机运动估计一系列任务，需要分开设计、训练和使用不同的人工神经网络，从而造成了其中不同任务中所提取的信息无法相互使用，例如传统方法中的特征点匹配关系可以在三维坐标估计与相机运动参数估计中提供多个视图之间的几何结构信息，而当前基于深度学习的三维重建及相机位姿估计方法却无法对多个视图重合视野内的特征对应关系实现高效复用。

从人工神经网络的训练考虑，监督学习算法通常需要大量的标记数据进行训练而带来较大成本，并且限制了无标记数据情况的使用，从而限制了应用场景。目前有部分深度学习方法能实现半监督学习，例如基于已知相机运动情况通过图像重投影对深度估计约束优化，但是仍然无法被拓展到没有标记数据的场景中。

例如2018年CVPR会议所收录的GeoNet框架，实现了基于估计相机运动、深度图和光流图的自监督联合学习框架，可延伸应用于三维重建及相机位姿估计。但是其中采用了将多帧图像串联输入卷积神经网络结构的方法，使得输入图像数量被固定，并且网络无法在稀疏帧视图之间存在大幅度相机运动的情况下提取有效空间几何特征，造成可用数据中不同视图之间的视差小而精度低；另外该学习框架内分别采用三个网络，先估计深度和相机运动，再基于两者估计光流图，导致光流图中的像素匹配信息无法在框架内被深度图和相机运动估计网络所复用，进而限制其使用效果。

发明内容

本发明的目的是针对现有的三维重建及相机位姿估计方法所存在的不足，提供一种基于端到端多任务深度学习算法的多视图三维重建及相机位姿估计方法。

本发明的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于通过搭建一个基于端到端多任务深度学习算法、具有多输入多输出功能的人工神经网络实现的，主要流程如下：

步骤1.搭建一个多输入多输出的人工神经网络，通过输入多个视图的图像，估计对应视图的深度图、不同视图之间的相机运动参数、或相机位姿变换参数以及不同视图之间的像素和区域匹配；

步骤2.基于已有的图像或视频数据，对步骤1中搭建的所述人工神经网络模型进行训练；

步骤3.将步骤2中训练的人工神经网络模型部署使用，估计各个视图的深度图与不同视图变换时相机位姿的变化，并根据各深度图计算对应视图坐标系下的三维点云；

步骤4.计算全局坐标下相机位姿，将步骤3中得到的各个视图坐标系下的三维点云拼接，然后结合对应图像像素的光度色彩信息实现三维重建。

其中：

所述的人工神经网络中包含有特征提取及处理模块和特征匹配模块；

所述特征提取及处理模块中包括多个并行的分支神经网络，分别对应各个输入的视图图像，并由这些分支神经网络提取输入图像中对应的像素和区域的特征向量、组成特征图，从而通过学习特征向量的映射、输出该视图对应的深度图；

所述的特征提取及处理模块包含有多个并行、分别对应各个输入视图的图像并输出得到该视图对应的深度图功能的分支神经网络，用于提取图像对应像素或区域的特征向量，组成特征图，并通过学习特征向量的映射来获取深度信息；

所述的特征匹配模块具有输入由所述特征提取及处理模块从各个视图提取的若干个特征图，并对其中任意两个视图所提取特征图上每一区域或像素对应的特征向量进行匹配与加权融合的功能；

通过结合所述特征提取及处理模块得到的每个像素或区域的深度信息，与所述的特征匹配模块得到的不同视图间的像素或区域匹配关系，便能估计得到不同视图间对应的相机运动参数，由此实现：

仅用一个人工神经网络便能同时实现多个视图的深度估计、视图之间的像素或区域匹配，获得快速的三维重建与相机运动参数估计，从而显著提高人工神经网络对于信息的有效使用率，提升三维重建和运动估计的精度；

所述的特征匹配模块匹配视图间各个尺度特征，结合匹配置信权重的估计，通过不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播，简化了图像的匹配过程，有利于减少计算次数、降低内存消耗、提高特征匹配的准确性；

所述的人工神经网络模型的不同分支参数可供任意视图共享，从而使视图数量在同一组模型参数训练和使用中可以按需调整，并降低网络大小；

所述的特征提取及处理模块内采用卷积神经网络，可用于提取和处理具有空间不变性的特征和相对位置信息并估计稠密深度，所述的特征匹配模块与之并行，采用基于注意力机制的网络，可用于查找同一视图内长距离、多视图之间像素或区域的对应关系；

所述的特征匹配模块中任意一组特征图的特征匹配可以使用其他若干组特征图已计算的特征匹配结果，可用于限定该匹配过程的搜索范围或融合不同特征空间内的特征匹配关系，其中所述的特征匹配结果可以是两图之间非参数化的位移场、光流图、相似度矩阵，也可以是单应性变换、刚体变换、相似变换、仿射变换和透视变换的参数化对应关系；

所述的特征匹配模块可以通过任意两视图一组匹配后的特征向量，通过人工神经网络学习的映射变换，对任意两视图作为一组进行匹配后的特征向量进行映射，得到从其中一个视图到另外一个视图的特征空间变换；

可以基于所述人工神经网络输出的物理及数学意义的合理性及视图之间的约束关系构建损失函数，并在所述的人工神经网络的训练和部署使用过程中进行自监督学习训练；

所述的训练中损失函数可以包括：(1)同一种输出量的自洽性损失项，其特征在于根据同一种输出量在多个视图之间保持一致而设计的损失函数，例如相机运动对应的坐标系映射或其中视野重合部分特征点的匹配映射可逆，且一系列视图之间映射组成的复合映射与映射路径无关，以及通过像素或区域匹配重建图像与被映射视图原图像相似；(2)不同种类的输出量之间的兼容性损失项，其特征在于根据不同输出量在同一组输入视图中应当满足对应约束关系，例如通过对极线约束像素匹配映射与相机运动外参的“匹配-运动”兼容损失函数，以及两张视图间的相机运动参数对图像和深度的重投影与原图的相似度约束的“运动-深度”兼容性损失函数；(3)输出量的合理性损失项，其特征在于通过输出量的合理性而设计的损失项或正则项，例如深度图和匹配矩阵的光滑或连续程度，以及运动参数中旋转矩阵的标准正交约束；

在所述的步骤2或步骤3中，可以通过不同视图间所述像素或区域匹配关系，包括匹配矩阵与置信权重，对输入图像进行筛选；

在所述步骤4的全局相机位姿计算中，可以利用视图间像素或区域的匹配关系的置信权重，对不同相机运动路径加权或筛选得到每个视图相机在全局坐标系下的位姿，在拼接三维点云过程中，可以利用视图间相机运动及像素或区域的匹配关系，对视野重合区域筛选离群点。

基于上述构思的本发明基于多任务学习算法的三维重建及相机位姿估计方法，搭建了一个具有多输入多输出功能的基于端到端多任务深度学习算法的、包含有特征提取及处理模块和特征匹配模块的人工神经网络，实现了基于多任务学习算法的三维重建及相机位姿估计。与现有的基于深度学习的三维重建及相机位姿估计技术相比，本发明可以在应用场景中仅用同一个人工神经网络即可同时实现多个视图的深度估计、视图之间的像素或区域匹配，进而获得快速的三维重建与相机运动参数估计，显著提高了人工神经网络对于信息的有效使用率，从而提升了三维重建和运动估计的精度；且本发明步骤1中人工神经网络结构设计方法可以将特征提取及处理模块和特征匹配模块中对应不同视图图像输入的参数共享，使得人工神经网络训练和部署过程中视图数量可以按需改变，在融合不同视图之间信息的同时能够从并行运算中获得更高的收益，从而显著提高了本发明使用的灵活性和适用价值；此外，所述的特征匹配模块能为特征提取及处理模块中每两个视图对应的特征图进行特征匹配和融合，为人工神经网络加入空间几何信息，从而加强深度估计乃至三维重建与运动估计的可靠性和精确性；同时，所述的特征提取及处理模块采用卷积神经网络，相比于现有的基于特征点云的传统方法或依靠全连接层的Transformer网络的三维重建及相机位姿估计方法，本发明能够估计更稠密深度，并结合语义与结构信息在不同视图之间低视野重合度情况下保留更多细节；所述的特征匹配模块采用基于注意力机制的网络，相比于基于传统匹配方法或卷积神经网络的三维重建及相机位姿估计方法，本发明能够实现相机大幅度运动情况下的快速稠密特征匹配；另外，相比于现有的注意力机制，本发明中的特征匹配模块能匹配视图间各个尺度特征，并结合匹配置信权重的估计，通过不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播，从而显著减少了计算次数、内存消耗，提高了特征匹配的准确性；由上可见，本发明显著克服了现有的深度学习三维重建及相机位姿估计技术的不足，实现了自监督学习优化，从而使得本发明在陌生场景中的应用更具自适应性和实用性。

附图说明

图1是本发明实施例的工作原理示意图；

图2是本发明实施例中人工神经网络的结构示意图。

图3是图2中注意力模块内部与特征提取及处理模块交互的数据流及其对应的分支网络内部示意图。

图中：

1.特征提取及处理模块11.下采样模块12.上采样模块13.隐空间模块

2.特征匹配模块21.注意力模块211.分支注意力模块

具体实施方式

下面结合附图和典型实施例对本发明作进一步说明。

在图1、图2和图3中，本发明的一种基于多任务学习算法的三维重建及相机位姿估计方法是通过以下措施来实现的：

步骤1.搭建一个多输入多输出的人工神经网络，如图1所示，包括特征提取及处理模块1和特征匹配模块2，输入m个视图的图像，输出m个视图的深度图和不同视图之间m(m-1)个像素匹配映射及其置信权重与对应的相机运动参数，其中m>1作为一个整数变量可以在人工神经网络同一套参数的训练和部署使用中可按需调整；

所述特征提取及处理模块1输入多个视图的图像

提取图像特征，其提取的特征向量按图像像素排列组成特征图，输出一组多视图对应的深度图

如图2所示，其内部包括m个并行分支网络，其中并行分支间共享一套参数，使得视图数量改变不影响特征提取及处理模块1，同时降低网络大小并加快训练速度；

所述特征提取及处理模块1中每个并行分支的第s个特征图

被送入特征匹配模块2中对应的注意力模块21用以确定特征对应关系,并返回与其他视图匹配后的特征图

相加后的特征图

被送入特征提取及处理模块1中的下一个模块,其中c_s、h_s和w_s分别是第s个被输出至特征匹配模块2的特征图的通道数、高和宽；

在该实例中所述特征提取及处理模块1的每个分支网络采用常见的编码器-解码器网络结构，包含四个下采样模块11组成的编码器、四个上采样模块12组成的解码器和一个隐空间模块13，其中：

所述的下采样模块11包括两个3×3卷积层和两个激活层交替排列后加入一个池化下采样层，用以提取每个图像更加抽象的特征图；所述的上采样模块12包括一个反卷积上采样层后接两个3×3卷积层和两个激活层交替排列；其中每个下采样后的特征图通过跃接连接串联至对应尺度的反卷积上采样层之前用以处理结构信息并恢复特征图的分辨率；所述的隐空间模块13包括两个3×3卷积层和两个激活层交替排列用以处理抽象特征；其中激活层采用线性整流函数(ReLU)；

如图2和图3所示，所述特征匹配模块2包括一系列的注意力模块21，与特征提取及处理模块1中的下采样模块11、隐空间模块13和上采样模块12平行排列并相互对应传输特征图。在本示例中为了平衡分辨率精度和内存占用率，第一个注意力模块21并列对应第二个下采样模块11，而最后一个注意力模块21并列对应第三个上采样模块12，其中每个注意力模块21分别输入从特征提取及处理模块1里对应模块输出的特征图，共计使用S＝7个注意力模块21，实现各个尺度上特征图之间的相似特征的匹配与融合，其中在每一个注意力模块21中包含m²个分支注意力模块211，同一个注意力模块21中的分支模块211共享参数，使得视图数量改变不影响特征匹配模块2，同时降低网络大小并加快训练速度；

在所述的第s个注意力模块21中的任意一个分支注意力模块211中，对两个并行网络分支的特征图向量组进行匹配可表达为映射：

通过训练该映射φ^s得到第s个序列下任意的第i个网络分支的特征图

中的特征向量到任意的第j个网络分支的特征图

中特征向量的匹配映射

及其对应的置信权重向量

其中第s′<s的注意力模块21得到的

和

作为前馈数据输入，用于限定该注意力模块匹配过程的搜索范围和继承之前特征图上已计算的匹配信息，以减小计算次数并提高精度，当s＝1时忽略该输入，在本示例中计算两张图像或特征图匹配映射时采用两种策略，(a)当s≤4时，将前一次的匹配结果即相似度矩阵下采样，与该匹配模块中的相似度矩阵加权相加，(b)当s>4时，首先将搜索区域初始化为为低分辨率图像或特征图两张全图之间，对输入图像或特征图的低分辨率特征图在搜索范围内局部匹配，利用低分辨率匹配结果对高分辨率图像或特征图重采样，通过滑动窗口分割对应区域得到高分辨率图像或特征图的搜索范围，并将重采样后的高分辨图像或特征图上作为新的低分辨率图，重复上述过程直到得到稠密匹配映射后的对应图像或特征图；其中

的计算过程如下：

其中

是指之前的第t<s个注意力模块21已计算的匹配关系在当前第s个注意力模块21继承的对应关系：

是第s个注意力模块21中得出的位移向量场：

是第s个注意力模块21中计算的逐个像素对的相似度矩阵，包括由训练得到的

和

分别是对特征通道维度上的线性变换，可以等效为变维前原特征图上的1×1卷积操作，：

是第s个注意力模块21中计算的每个像素的匹配置信度权重：

其中diag是对角矩阵化函数，

是用于调整序列中当前注意力模块21中匹配映射受前一个注意力模块21的影响比重，

是批量(第一个维度)矩阵乘积，

是根据第二个位移坐标场对第一个输入图像的采样函数，通过2015年NeuIPS会议上MaxJaderberg发表的Spatial Transformer Network中的采样函数实现，

是针对不同尺度特征匹配关系的上采样或下采样操作，μ是第一个维度上的求均值函数，σ为倒数第二个维度上的softmax函数，σ′为指数函数，

表示复合映射，

和

分别是对h×w大小的特征图的分块和拼接变维操作，只在上采样模块12对应并列的注意力模块21(s>4)中使用，其目的是将两个特征图基于前一个注意力模块21的匹配结果进行低分辨率的全局匹配，在当前模块中实现多个局部区域的高分辨率匹配，并且更进一步，作为下一更高分辨率的精细匹配前的预先匹配，并不断重复这一过程实现高分辨率图像的快速匹配，其中Δh，Δw分别是局部区域的高和宽，设定为

而后通过训练映射χ^s，包括特征通道变换函数(s≤4)或两视图之间匹配后的特征图(s>4)计算两个视图之间第s个特征图的特征空间线性变换

其中包括在其中特征通道维度上串联像素对应的位置编码和特征通道维度的线性变换

和

其中[·,·]表示特征向量维度的串联操作，像素位置编码

在本实例中采用以特征图中心点为原点的笛卡尔坐标编码；

通过以上方式最终得到从特征匹配模块2返回特征提取及处理模块1的第j个网络分支的融合特征图

其中w^s作为调整自注意力(selfattention)和交互注意力(mutual attention)所占比例的参数，所述融合特征向量组

被返回到特征提取及处理模块中，与所述的第j个分支网络的对应特征图相加、串联或类似方法实现特征融合；

所述特征匹配模块2中注意力模块21序列输出像素或区域匹配映射

和置信权重向量

经过以下操作得到多视图之间的像素或区域匹配

在本实施例中，最后一个注意力模块21输出得到像素或区域匹配，Ω_i→j表示其置信权重向量的对角矩阵形式；

所述两视图之间运动参数，如第i个视图到第j个视图的运动

的预测在步骤3中可以直接通过深度图组得到的两组三维点云坐标P_i、

和像素匹配映射

Ω_i→j算得：

其中

是P_i的齐次坐标形式；

在所述人工神经网络搭建过程中，网络复杂度主要考虑视图数量m与图像大小h₀w₀；特征提取及处理模块的计算复杂度为

模型复杂度为

其中特征匹配模块2中固定直接由相似度权重确定匹配的注意力模块21(s<4)数量，通过增加递归化匹配的注意力模块21实现高分辨率匹配，并获得

的计算复杂度、与

的模型复杂度；

步骤2.利用步骤1中搭建的所述人工神经网络模型，通过若干张图像进行预先训练，先将多视图图像输入网络，输出对应的多视图深度图和多视图间像素匹配组，通过已知的多视图间的相机位姿参数，构建基于不同视图之间图像和深度图投影误差以及对极线约束的半监督学习损失函数，并通过优化该损失函数来预先训练所述人工神经网络的参数；

步骤3.将步骤2中预先训练的人工神经网络模型部署使用，输入若干张图像，估计稠密的深度图、像素或区域匹配以及相机运动参数。

其中可以基于深度图D_i和图像像素坐标p生成该视图坐标系内的点云坐标P_i；

在模型使用的过程中可以同时计算损失函数

并设定在高于特定阈值时通过自监督学习进行优化；

其中所述自监督学习流程为：先将若干图像输入网络，输出对应深度图和多视图间像素匹配及其置信权重，然后通过每张视图的置信权重矩阵阈值化后的迹(trace)tr(ReLU(Ω_i→j-ε))来估计视野重合度，并用其加和∑_jtr(ReLU(Ω_i→j-ε))的排序筛选出一组视图，基于不同视图之间的像素匹配及其置信度与预测的深度图得到的三维点云坐标，估计对应的运动参数，计算损失函数

并通过优化该损失函数来实现自监督训练；

在步骤3所述的人工神经网络模型的训练过程中，可以针对没有标记数据的情况采用自监督学习模式，从而减少人工标记的成本，其中所述损失函数L包含：同一种输出预测量在不同视图之间的自洽性损失项

不同种类的输出预测量之间的兼容性损失项

和输出预测合理性损失项

所述自洽性损失项

可以包含：(1)视图变换一致性损失项，其特征在于根据匹配映射与相机运动参数对应映射的复合映射的路径无关性构造损失函数

和

在本实例中由以下公式计算：

其中(·)^⊙2表示矩阵内逐个元素平方运算，

是4×4的单位矩阵，

是偏置后的置信权重对角化矩阵，∏_(i→j)∈c(·)是以c为轨迹的连续乘积，

是T_i→j的齐次坐标变换形式；

(2)根据匹配映射重建图像与被匹配图像的相似性误差构造的损失函数，在本实例中由以下公式计算：

其中

是匹配映射前的变维操作；

所述兼容性损失项

可以包含：(1)通过对极线约束计算像素匹配映射与相机运动外参的“匹配-运动”兼容损失函数：

其中

是第i个视图里的二维像素坐标，H_i→j是第i个视图到第j个视图的单应性变换矩阵，由

其中n_i是投影平面法向量，f_i是射影中心离平面距离，t_i→j是T_i→j中平移向量，R′_i→j是T_i→j中旋转矩阵R_i→j经过格拉姆-施密特(Gram-Schmidt)正交化后的矩阵，K_i和K_j是投影矩阵；

(2)衡量根据匹配映射重建的深度图与被匹配视图预测的深度图之间误差的“匹配-深度”兼容损失函数，在本实例中由以下公式计算：

(3)通过两张视图间的相机运动参数将图像重投影至另外一张视图上，在本实例中由以下公式计算“运动-深度”兼容性误差:

其中

是基于预测的深度和内参外参的重投影函数，将第i个视图中的图像投影到第j个视图中；

所述合理性损失项

包含(1)匹配映射的连续性损失项在本实例中由以下公式计算：

其中

是一阶梯度差分算子，可以用横向和纵向两个索贝尔(Sobel)卷积核实现，⊙是元素逐个乘积；

(2)深度图的光滑度损失项计算每个视图所预测深度的光滑程度在本实例中由以下损失函数表达：

其中|·|是特征(第一个)维度上的L2标准化；

(3)相机运动的旋转矩阵正则化损失项在本实例中由以下公式计算：

在本实例的步骤2、3中，m∈{2,3,4}被交替使用训练同一套参数；在训练过程中匹配映射、深度估计和相机运动估计的梯度反向传播被交替锁定，针对训练另外两者，用以避免由于相互耦合引起的不稳定；

图3展示了注意力模块21内部与特征提取及处理模块1交互的数据流及其对应的分支网络，结合图2的分支结构，该人工神经网络网络m个权重相同的分支可以分布式部署于m个设备中，该情况下在本实施例中的一次人工神经网络运算中，每个设备的运算复杂度为

所需通信数据空间复杂度为

步骤4.通过各个视图之间相机位姿对不同视图预测的点云坐标拼接一个全局坐标下的完整点云，基于预测的三维点云坐标以及对应图像像素光度信息，通过曲面结构重建方法如三角网格化算法，和纹理映射实现三维曲面的重建。

其中可以利用匹配关系及其置信权重对不同相机运动路径加权或筛选得到每个视图相机的全局位姿：

其中c_i是筛选的第i个视图到全局坐标系的估计相机位姿路径，Tⁱ _i→j是T_i→j中旋转矩阵经过格拉姆-施密特正交化后的相机位姿变化齐次矩阵，

是第i个视图在全局坐标系的相机位姿；

同时可以通过step(Ω_i→j-ε′)计算第i到第j视图重合区域匹配关系的指标向量，其中

并通过以下不等式筛选出这一重合区域的离群点：

其中κ作为离群点阈值距离。

以上所述为本发明的一个实施例，但本发明范围并不局限于此，不仅可用于三维重建及相机位姿估计任务，还可用于包括其他基于多个视图的三维重建和视觉里程计等，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于通过搭建一个基于端到端多任务深度学习算法、具有多输入多输出功能的人工神经网络实现的，主要流程如下：

步骤1.搭建一个多输入多输出的人工神经网络，通过输入多个视图的图像，估计对应视图的深度图、不同视图之间的相机运动参数、相机位姿变换参数以及不同视图之间的像素和区域匹配；

步骤4.计算全局坐标下相机位姿，将步骤3中得到的各个视图坐标系下的三维点云拼接，然后结合对应图像像素的光度色彩信息实现三维重建；

所述的人工神经网络中包含有特征提取及处理模块(1)和特征匹配模块(2)，其中：

所述特征提取及处理模块(1)采用卷积神经网络，用于提取和处理具有空间不变性的特征和相对位置信息并估计稠密深度，其中包括多个并行的分支神经网络，分别对应各个输入的视图图像，并由这些分支神经网络提取输入图像中对应的像素和区域的特征向量、组成特征图，从而通过学习特征向量的映射、输出该视图对应的深度图；

所述特征匹配模块(2)具有输入由所述特征提取及处理模块(1)从各个视图提取的若干个特征图，并对其中任意两个视图所提取特征图上每一区域及像素对应的特征向量进行匹配与加权融合的功能，采用基于注意力机制的网络，与特征提取及处理模块(1)并行，用于查找同一视图内长距离、多视图之间像素及区域的对应关系；

通过结合所述的特征提取及处理模块(1)得到的每个像素及区域的深度信息，与所述的特征匹配模块(2)得到的不同视图间的像素及区域匹配关系，便估计得到不同视图间对应的相机运动参数。

2.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于所述的人工神经网络模型的不同分支参数可供任意视图共享，从而使视图数量在同一组模型参数训练和使用中可以按需调整，并降低网络大小。

3.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于在所述的特征匹配模块(2)中任意一组特征图的特征匹配使用其他若干组特征图已计算的特征匹配结果，用以限定该匹配过程的搜索范围和融合不同特征空间内的特征匹配关系，其中所述的特征匹配结果是两图之间非参数化的位移场、光流图、相似度矩阵、单应性变换、刚体变换、相似变换、仿射变换和透视变换的参数化对应关系。

4.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于所述的特征匹配模块(2)通过人工神经网络学习的映射变换，对任意两视图作为一组进行匹配后的特征向量进行映射，得到从其中一个视图到另外一个视图的特征空间变换。

5.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于基于所述人工神经网络输出的物理及数学意义的合理性及视图之间的约束关系构建损失函数，并在所述的人工神经网络的训练和部署使用过程中进行自监督学习训练。

6.根据权利要求5所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于所述的损失函数包括：1)同一种输出量的自洽性损失项，根据同一种输出量在多个视图之间投影物体保持一致而设计的损失函数，相机运动对应的坐标系映射或其中视野重合部分特征点的匹配映射可逆，且一系列视图之间映射组成的复合映射与映射路径无关，以及通过像素和区域匹配重建图像与被映射视图原图像相似；2)不同种类的输出量之间的兼容性损失项，根据不同输出量在同一组输入视图中应当满足对应约束关系，通过对极线约束像素匹配映射与相机运动外参的“匹配-运动”兼容损失函数，以及两张视图间的相机运动参数对图像和深度的重投影与原图的相似度约束的“运动-深度”兼容性损失函数；3)输出量的合理性损失项，通过输出量的合理性而设计的损失项或正则项，深度图和匹配矩阵的光滑和连续程度，以及运动参数中旋转矩阵的标准正交约束。

7.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于在所述的步骤2、步骤3中，通过不同视图间像素和区域匹配关系，包括匹配矩阵与置信权重，对输入图像进行筛选。

8.根据权利要求1所述的一种基于多任务学习算法的三维重建及相机位姿估计方法，其特征在于在步骤4的全局相机位姿计算中利用视图间像素和区域的匹配关系的置信权重，对不同相机运动路径加权和筛选得到每个视图相机在全局坐标系下的位姿，在拼接三维点云过程中也利用视图间相机运动及像素和区域的匹配关系，对视野重合区域筛选离群点。