CN113628104A

CN113628104A - 针对无序图像增量式SfM的初始图像对选取方法

Info

Publication number: CN113628104A
Application number: CN202111002152.1A
Authority: CN
Inventors: 彭杨; 刘宇翔; 颜深; 张茂军; 肖华欣; 刘煜
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-11-09
Anticipated expiration: 2041-08-30
Also published as: CN113628104B

Abstract

本发明公开了一种针对无序图像增量式SfM的初始图像对选取方法，包括以下：计算每对图像之间的重叠度、相对位移以及相对旋转；标记正例样本和负例样本；建立多任务卷积神经网络，包括相似性度量网络和图像空间位置预测网络；将两两图像进行卷积和池化操作编码为高维特征向量，并衡量两幅图像之间的相似度；将图像经卷积操作变为特征图后，由放射变换回归器对图像所在的相对位移回归预测；得到所有两两组合图像间的相似度与相对位移；求该对图像的最终初始对评分并排序，选取出得分最高的初始图像对。本发明选取速度大大提高，显著提升了在特殊场景中初始图像对选取的鲁棒性，保证特殊场景重建的完整性和稳定性。

Description

针对无序图像增量式SfM的初始图像对选取方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及针对无序图像增量式SfM的初始图像对选取方法。

技术背景

初始图像对选取是增量式从运动中恢复结构的一个关键环节，但传统方法中存在计算效率低、对特殊场景不鲁棒的问题。因此，提出基于多任务学习的初始图像对选取网络以提高该过程的效率，并针对某些特殊场景容易出现初始图像对位于场景边缘的问题，提出结合场景连接图的初始对选取策略，该策略首先构建图像间的拓扑结构，通过图像间连接的疏密程度判断初始图像对是否处于场景中心，从而避免初始图像对处于场景边缘导致重建不完整的问题。

近年来随着无人机与高清相机的广泛应用,基于图像的大规模三维场景重建技术得到了广泛关注,其主要运用多视图几何原理,通过不同视点所拍摄的图像计算出相机姿态和场景三维结构。从运动中恢复结构(Structure from Motion,SfM)则是基于图像的三维重建中一个关键环节,主要完成相机位姿的估计和稀疏点云的重建，其中增量式(Incremental)SfM是目前最普遍、最稳定的SfM方法。增量式SfM首先需要选取一对图像作为起点进行两视图重建，最开始选取的这一对图像就被称为初始图像对(Initial ImagePair,InitIP),它对三维重建的最终效果影响巨大,整个初始图像对选取过程如图1所示。

非专利文献1通过计算三维点所处空间区域的圆度,来衡量InitIP对于场景重建的稳定性，首次给出了增量式SfM中初始图像对的评价方法。之后,非专利文献2通过最小化每个相机到InitIP的距离来减小累积误差，该方法首次将InitIP与整个图像集之间的关系考虑到该选取过程之中。近年,一些三维重建开源系统例如非专利文献3、4则使用多尺度网格划分图像来计算特征点得分的方法,将匹配点的分布进行量化，一定程度上提高了InitIP的鲁棒性。但缺点在于面对大规模数据时，计算每幅图像多个尺度的特征分数也会额外增加计算开销。综上,现有的InitIP选取方法主要遵循两大原则：第一，足够多的匹配点；第二，两幅图像要具有足够的相对运动以保证不退化为单应模型。以上方法均需要进行大量的特征匹配导致效率较低，另一方面,特征点检测与匹配中的误差也会导致相机相对位置的估计不准确。

InitIP的选取需要建立大量图像间的连接关系，传统的做法是特征点提取与匹配。同时,选取InitIP还涉及两幅图像相对空间位置的计算,因此它是一个包含多任务、多输出的问题。近年,多任务学习作为深度学习中的一个分支,能够高效地在多个相关联任务中进行学习训练、共享特征,从而得到广泛应用。

参考文献

非专利文献

1.BEDER C,STEFFEN R.Determining an initial image pair for fixing thescale of a 3d reconstruction from an image sequence)[C]//Joint patternrecognition symposium.Berlin:Springer,2006:657-666.

2.HANER S,HEYDEN A.Covariance propagation and next best view planningfor 3d reconstruction[C]//European conference on computer vision.Florence:Springer,2012：545-556.

3.SCHONBERGER J L,FRAHM J-M.Structure-from-motion revisited[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.Las Vegas:IEEE,2016:4104-4113.

4.MOULON P,MONASSE P,MARLET R.Adaptive structure from motion with acontrario model estimation[C]//Asian conference on computer vision.Daejeon:Springer,2012：257-270.

5.KENDALL A,GRIMES M,CIPOLLA R.Posenet：a convolutional network forreal-time 6-dof camera re-localization[C]//Proceedings of the IEEEinternational conference on computer vision.Santiago:IEEE,2015:2938-2946.

6.SZEGEDY C,LIU W,JIA Y,et.al.Going deeper with convolutions[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.Boston:IEEE,2015:1-9.

7.AKENINE-MO&LLER T,HAINES E,HOFFMAN N.Real-time rendering[M].CrcPress,2019.

发明内容

鉴于初始图像对选取问题的特点,本发明通过整合相似性检测和相机姿态回归两个子网络实现了一种基于多任务学习的InitIP选取网络,以提高增量式SfM种初始堆选取过程的效率,并针对特殊重建场景提出结合场景连接图的选取策略,以提高重建的鲁棒性。本发明提出了针对无序图像增量式SfM的初始图像对选取方法，包括以下步骤：

步骤一：对于训练集中的图像，计算每对图像之间的重叠度、相对位移以及相对旋转；

步骤二：针对计算所得的重叠度大于阈值的两幅图像标记为正相关图像，得到一组正例样本，重叠度小于阈值的两幅图像标记为无关图像，得到一组负例样本；

步骤三：建立一个多任务卷积神经网络，所述多任务卷积神经网络由两个分支组成，其中一个分支为相似性度量网络，由全卷积网络组成，另一个分支为图像空间位置预测网络，由多个卷积层、全连接层和两个仿射变换回归器组成；

步骤四：整个图像集中，两两图像组成一组，输入到所述多任务卷积神经网络中，在所述相似性度量网络分支中，将两两图像进行卷积和池化操作编码为高维特征向量，并通过计算高维向量的距离来衡量两幅输入图像之间的相似度；在所述图像空间位置预测网络中，将图像经过卷积操作转换为特征图后，由放射变换回归器对图像所在的相对位移回归预测；

步骤五：重复步骤四，得到所有两两组合图像间的相似度S₁₂，…，S_{N-1 N}与相对位移，T₁₂，…，T_{N-1 N}；

步骤六：对步骤五中得到的每一组图像间的相似度S与相对位移T求商，得到该对图像的最终初始对评分Score，最后将所求得的Score进行排序，选取出得分最高的一组作为增量式SfM重建的初始图像对。

进一步的，所述步骤一中所述的训练图像，由多组拍摄自不同场景的、有一定重叠区域的图像组成，其中不包含运动场景和只有单一纹理的场景图像。

进一步的，所述步骤二中的重叠区域大于60％的一对图像，视为一对正例图像，重叠度小于20％的视为一对负例图像，同时将相对旋转角度超过60度的图像设置为负例图像。

进一步的，所述步骤三中构建的多任务卷积神经网络的过程为：建立两个子卷积神经网络，其中一个子网络中只含有多个卷积层，另一个子网络中包括多个层卷以及两个全连接层最后一个全连接层连接一个放射变换回归器。

进一步的，多任务网络的训练模块，将参考图像、正例图像、负例图像共三幅图像组成一组输入图像，输入到相似度量分支，神经网络通过三元损失函数如下所示，使得在训练过程中，正例图像的高维特征向量与参考图像逐渐接近，负例图像与参考图像的高维特征向量逐渐远离；在空间位置预测分支中，将图像经过卷积操作转换为特征图后，由放射变换回归器对图像所在的相对位移回归预测；

L_TL(a,p,n)＝[D⁺-D^-+α]₊ (1)

检测模块，将待检测的一对图像输入至训练好的所述多任务卷积神经网络，最终根据所述相似性度量网络与图像空间位置预测网络，输出该对图像的相似度与相对位移。

进一步的，所述步骤六中最终初始对评分Score的计算公式如下所示，其中d为两幅图像转换而成的高维特征向量之间的距离，距离越小越相似，T为两幅图像的相对距离；最终所选择的初始图像对，为具有足够相似重叠区域且相对位移最大的一对图像；

本发明对比传统SfM(stucture from Motion)中的初始图像对选取方法，所提出的方法在多种不同场景中的选取速度提升5倍以上。同时，提出的结合场景图的选取策略可使得特殊场景中重建的空间点数量增加10倍，且重投影误差下降0.05，显著提升了在特殊场景中初始图像对选取的鲁棒性，证明了所提方法的有效性，在提高了效率的同时，能够很好的保证特殊场景重建的完整性和稳定性。

附图说明

图1初始图像对选取流程图；

图2多任务初始对选区网络图；

图3图像相似性检测网络结构图；

图4 PoseNet的相机位置姿态回归模块；

图5交叉连接结构示意图；

图6两种交叉连接示意图；

图7三种方法所选InitIP对比图；

图8利用交叉网络中间输出建立的场景连接图；

图9无人机场景InitIP对比图；

图10无人机场景稀疏重建对比图。

具体实施方式

下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。

因此,本发明借鉴多任务学习的思想,提出基于多任务学习的初始图像对选取网络,以提高选取InitIP的效率。进一步,为了避免InitIP位于场景的稀疏区域而导致重建场景不完整的问题,提出了一种结合场景连接图的选取策略,以提高重建稳定性与完整性。

多任务学习针对不同但具有相关性的任务,同时对两个或以上任务进行学习,在一定程度上共享学习到的知识,以提升各自的性能。因此本发明提出使用多任务学习网络同时预测图像相似性和相机的位置姿态,进而加速在大规模场景下选取InitIP的整个过程。

首先选定两个特定的网络对应两个子任务,整个多任务网络框架如图2所示。上方分支为PoseNet,用来预测图像间的相对位移与旋转,下方分支为MatchNet,输出每一对图像间的相似度，然后联合相似度、相对位移与旋转进行图像对的整体评分,从选出得分最高的InitIP。

本发明公开了针对无序图像增量式SfM的初始图像对选取方法，该方法包括以下步骤：

S10：对于训练集中的图像，计算每对图像之间的重叠度、相对位移以及相对旋转；

S20：训练时网络的一组输入为三幅图像，参考图像、正例图像、负例图像。正例图像即与参考图像相似的图像，负例图像也就是与参考图像无关的图像。如图3所示，MatchNet采用图像检索网络作为主体结构，针对计算所得的重叠度大于阈值的两幅图像标记为正相关图像，得到一组正例样本，重叠度小于阈值的两幅图像标记为无关图像，得到一组负例样本。

重叠区域大于60％的一对图像，视为一对正例图像，重叠度小于20％的视为一对负例图像，同时将相对旋转角度超过60度的图像设置为负例图像。

S30：建立一个多任务卷积神经网络，所述多任务卷积神经网络由两个分支组成，其中一个分支为相似性度量网络，由全卷积网络组成，另一个分支为图像空间位置预测网络，由多个卷积层、全连接层和两个仿射变换回归器组成；

特征编码网络使用被广泛采用的卷积网络作为基础网络。该网络将卷积神经网络作为特征编码器，将输入图像编码成一个高维空间中的特征向量,使得包含相似场景或物体的图片经过编码后形成的向量在高维空间中尽可能接近，不包含相似场景的图像尽可能远离。因此,本发明用归一化后的特征向量之间的L2距离来度量相似度，如公式(1)所示。

式中:f(*)在这里表示深度神经网络；I_i、I_j为表示需要进行相似度量的两幅图像。

另一个分支则为相机位置姿态估计网络PoseNet，使用非专利文献5提出的PoseNet对输入的图像进行6自由度的位置和姿态估计。该网络以非专利文献6中的GoogLeNet作为基础，将原有的三个softmax分类器修改为输出两个向量的仿射变换回归器，如图4中标记为MaxPool和AvgPool的区域所示,t＝(x,y,z)表示位置的三维向量，R＝(w,a,b,c)表示相机旋转的四元数。图4整体为一个修改后的卷积模块。

S40：整个图像集中，两两图像组成一组，输入到所述多任务卷积神经网络中，在所述相似性度量网络分支中，将两两图像进行卷积和池化操作编码为高维特征向量，并通过计算高维向量的距离来衡量两幅输入图像之间的相似度；在所述图像空间位置预测网络中，将图像经过卷积操作转换为特征图后，由放射变换回归器对图像所在的相对位移回归预测；

卷积层输出的特征图经过平均池化层改变尺寸，接着经过1×1的卷积层改变通道数，然后进入仿射变换回归器。在回归器中，特征向量先通过1024维的全连接层,再分别经过维度为3和4的全连接层回归代表位置和旋转的两个向量,因此可以通过这个分支预测得到图像的位置和姿态,进而计算相对位移T_rel相对旋转R_rel通过非专利文献7中所提方法,R_rel最终由四元数转换为相对欧拉角度Rrel。

至此,通过网络的两个分支分别得到了图之间的特征向量距离和相对位移与旋转，然后,通过设计的评分公式(2)进行评分和排序,从而选取最终的InitIP。

式中：Score表示InitIP的最终评分；d表示公式(1)中所计算的特征向量之间的距离，根据航拍三维重建中采集图像的重叠度至少为60％，相机相对夹角小于45度的原则，将三个轴上相对旋转的阈值设定为45度。

S50：重复步骤四，得到所有两两组合图像间的相似度S12，…，SN-1N与相对位移，T12，…，TN-1N；

S60：对步骤五中得到的每一组图像间的相似度S与相对位移T求商，得到该对图像的最终初始对评分Score，最后将所求得的Score进行排序，选取出得分最高的一组作为增量式SfM重建的初始图像对。

交叉连接网络

在确定了多任务网络框架后,就需要确定多任务网络中特征共享的方式,本发明采用交叉连接单元将PoseNet与MatchNet进行连接，实现不同任务之间特征的共享,交叉单元如图5所示。

网络第n层的输入表示为

和

将原任务中的卷积层表示为

和

假设交叉连接中的卷积层学习到变换

和

则两个任务经过交叉连接的输出

和

由公式(3)计算得出)。

上面两个等式右边的第二项

和

表示另一个任务中有用的信息。如果将PoseNet与MatchNet所有卷积层都进行交叉连接会增加巨大的参数量和计算时间,并且两个网络在基本结构上存在许多差异,所以并不适合把两个网络进行全部交叉连接。因此,本发明采用了浅层交叉连接和深层交叉连接的两种思路,构建两种网络分别进行实验,以探索性能更好地交叉连接方式。如图6所示,矩形框标注区域为建立交叉连接的层级,其余层级为两个任务各自特征提取层,不参与特征的共享。

图6(a)中MatchNet的主干网络Resnet50的第2、3个残差块中的卷积层与PoseNet中inception3中的卷积层进行交叉连接，输出的特征图尺寸分别为56×56，28×28。图6(b)中MatchNet的4、5个残差块与PoseNet中的Inception4、5层中的卷积层之间构建交叉连接模块,输出特征图的尺寸分别为14×14和7×7。

联合损失函数

对整个网络框架的损失函数进行设计时,首先需要确定两个子网络各自的损失函数。对于相似检测网络采用如下三元损失函数：

L(a,p,n)＝[d⁺-min(d^-,d′^-)+α]₊ (4)

式中:a,p,n分别代表参考图像、正例图像、负例图像；d⁺＝d(f(a),f(p)),d^-＝d(f(a),f(n)),d'^-＝d(f(n),f(p))；d为公式(1)所述的两幅图像之间的距离；α为一个设定的边界参数使得两个距离的计算保持一定的界限。式(4)中[σ]₊表示为[σ]₊＝max(σ,0),即当正例距离远大于负例距离时，该组数据的损失值是需要被抑制的。

对于另一个分支的PoseNet,使用整体损失函数如公式(5)所示,

式中：x与q表示通过传统SfM得到的位置姿态的参考值；

与

为位置和姿态的预测值；β是用来保持位置和方向误差的期望值近似相等的尺度因子。

训练多任务网络时,可能出现梯度主导问题,导致无法收敛。主要是由于各任务输入数据的不平衡,以及反向传播中梯度数值相差过大。因此,本发明采用为多个损失函数动态赋予权重的方法设计联合损失函数，如下所示：

L_final＝W₁·L_similar+W₂·L_pose (6)

式中：L_similar为式(4)所表示的相似性检测网络中的三元损失函数；L_pose即为式(5)表示的位置姿态回归损失函数；权重W₁、W₂分别为

通过噪声参数σ1、σ2动态调整两个损失函数之间的平衡。

结合场景连接图的选取策略

传统的InitIP选取框架都是通过图像的外观特征和几何关系来进行筛选。然而,在某些实际场景中，这些方法选择的InitIP会出现与整个场景关联度较低，或者处于场景边缘的情况，导致场景重建不完整的问题。因此,利用多任务网络的中间输出建立一个场景连接图，在该连接图中选取处于场景稠密区域的InitIP。

场景图构建方法

首先，给出所使用符号的定义，I＝{I_i}代表图像集合,多任务网络的中间输出为图像特征向量间的距离集合D、相对位移集合T、相对旋转集合R。定义图像相似度集合为S,任意两幅图像I_i和I_j相似度为s_ij∈S,s_ij由式(7)计算得到：

式中：d_ij∈D为式(1)所求两特征向量间的距离。

类似的，定义两幅图像的相对位移t_ij∈T和相对旋转R_ij∈R,其中t_ij，R_ij即为前面所述的T_rel、R_rel。然后，定义场景连接图为节点和边缘的集合G＝(N,E)，其中N代表连接图中节点集合，任意n_i∈N对应I中一幅图像I_i，E则代表边缘的集合，初始时为空。当两图像之间的相似度、相对位移、相对旋转均处于所设定的取值范围时，则为两个节点n_i与n_j连接一条边缘e_ij∈E,边缘的权重被设置为相似度与相对位移的乘积,如公式(8)所示：

w_ij＝s_ij·t_ij (8)

该权重可以综合度量两图像的特征相似程度和几何关系，因此边缘的数据结构可表示为e_ij＝(n_i,n_j,w_ij)，建立场景连接图的完整算法具体步骤如下：

step 0初始化连接图：设定图像集合I、图像间的相似度集合S、图像间的相对姿态集合R、T,为I中的每一幅图像I_i生成一个节点n_i,组成节点集合N,生成一个空的边缘集合E。设置相似度阈值s₀、相对位移阈值t₀，相对旋转阈值R₀；

step 1访问N中任一未被访问的节点n_i,在S,T,R中查询n_i所对应图像I_i与其余图像I_j的相似度s_ij、相对位移t_ij与相对旋转R_ij；

step 2当s_ij≧s₀，且t_ij≦t₀、R_ij≦R₀时，为节点n_i与图像I_j所对应的节点n_j之间连接一条边缘e_ij,边缘权重w_ij.，然后将边缘e_ij＝(ni,n_j,w_ij)存储到集合E中；

step 3当N中所有节点都被访问，输出最终场景连接图G＝(N,E),否则返回step1。

基于场景图的选取方法

通过上面方法建立了场景连接图后,这里本发明提出基于场景连接图的初始图像对评分方法,首先计算每个节点的度deg,然后通过两幅图像度之和deg_i+deg_j来衡量候选InitIP与剩余图像的关联程度,判断该图像对是否位于场景稠密区域。但是，在将度的数量纳入参考指标时,可能出现InitIP中一幅图像的度较大,而另一幅图像的度很小的情况,这样仍有可能导致重建结果精度不高,甚至无法重建出完整场景的问题。因此,本发明将两幅图像度之间差的绝对值的指数函数

定义为度的平衡因子b_ij，以衡量两幅图像度的平衡程度,两幅图像度的差值越小，则平衡因子越小，最后计算的总评分也越高。

计算n_i,n_j两个节点所代表的图像的最终评分，令这两个节点的度的和为m_ij，度平衡因子为b_ij，则有公式(9)(10)所示：

m_ij＝deg_i+deg_j； (9)

评分的总体公式则如公式(11)所示：

式中：Gscore代表基于场景连接图方法的评分；w_ij由式(8)计算得出。

整个场景连接图的初始对选取算法具体步骤如下：

step 0初始化：以前述建立的场景连接图、图像集合I为输入，遍历连接图G的节点集合N中每一个节点n_i,计算每个节点的度deg_i并存储；

step 1访问E中任一未被访问的边缘e_ij,读取e_ij所连接的两个节点n_i和n_j,根据式(9)计算两节点间的度平衡因子b_ij与度的和m_ij；

step 2读取e_ij中的中w_ij，结合b_ij与m_ij,根据式(11)计算该对节点的Gscore_ij；

step3当E中所有边缘e_ij都被访问，对Gscore_ij排序，取得分最高的节点对(n_i，n_j)所对应的图像对(I_i,I_j)组成初始图像对I_pair＝(I_i,I_j)(InitIP)并输出,否则返回step 1。

总的来说，本方法更倾向于选择靠近场景中心的InitIP,旨在解决特殊场景中传统方法与多任务方法所选的InitIP容易陷入局部最优,而导致重建精度低、不完整等可题,相较于传统方法提升了计算效率的同时对特殊场景的鲁棒性更好,适用范围更广。

下面进行实验以验证本发明的技术效果。

实验环境及数据

本发明所有实验均在配备Intel i76700 K处理器和单个NVIDIA GTX 1080 Ti图形显卡的实验机上进行,采用的深度学习框架为TensorFlow,学习率的更新策略为每迭代10000步,将学习率调整为当前学习率的0.9倍直至完成训练。稀疏重建对比的传统方法为Alicevision。

实验中采用由香港科技大学的计算机科学与工程系建立的公开数据集GL3D作为训练数据集。其中，包含了90 630张涉及378个不同场景的高分辨率图像。在测试时,采用Cambridge Landmarks Dataset室外数据集，这是一个大型的城市数据集,包含来自剑桥大学周围的多个不同建筑场景。

多任务网络的实验

在测试数据集的五个场景的数据集上进行InitIP选取实验，图7为一个场景的InitIP示意图,图7(a)为Alicevision所选取的,图7(b)、图7(c)分别为浅层交叉网络与深层交叉网络的选取结果。从外观上看,交叉连接的两个网络所选择的InitIP也基本符合特征相似与空间位移的原则。

进一步定量对比传统方法与多任务方法所选InitIP作为起点进行稀疏重建时的表现，如表1所示。定量结果显示，两种交叉连接方式相较于Alicevision速度上都有较大提升。在相同的测试场景下,深层交叉连接网络因为在更深的层级中嵌入了通道数更多的卷积层，导致模型参数量上升,从而使得整体的推理时间略高于浅层连接。但深层交叉连接的网络的实验结果,在五个重建场景中的最终误差最低,其中2、3场景中的重投影误差有明显降低。综合来看深层交叉网络性能要高于浅层交叉。

表1 稀疏重建结果定量对比表

场景图方法的实验

进一步对IVRTC比赛中无人机采集的、更大范围的场景数据进行基于场景图方法的实验,该数据集包含498张5472×3648分辨率的航拍图像，多任务网络采用精度更高的深层交叉网络,所建立场景连接图如图8所示。

所选择的InitIP在场景连接图中使用节点标注，可以看出处于场景稠密区域，与Alicevision所选的InitIP,以及交叉网络直接选取的对比如图9所示。

使用以上三组图像作为稀疏重建的起始点进行增量SfM,重建结果如图10所示,图中方锥形代表的相机表示两幅初始图像，图10(a)中Alicevision所选的InitIP仅引导重建出整个场景外围的一部分,只完成了少量图像的注册。图10(b)为交叉网络+场景图方法所重建的场景,可见该方法所选InitIP(由图中矩形框标出)能引导出完整的重建场景,其位置也更靠近场景中心,达到了所提方法的预期。图10(c)中交叉网络直接选择的重建结果相对完整，但是InitIP(由矩形框标出)距离场景稠密区域还有一定距离。进一步,对比图10(b)中的稀疏点云该组实验结果仅重建出靠近InitIP中心区域的稀疏点云,在外侧树木部分还存在大量点云缺失的情况。

进一步定量的对比稀疏重建的结果，如表2所示，方法A、B、C分别为Alicevision、交叉网络+场景图方法、交叉网络直接选择。

表2稀疏场景重建数据对比表

方法	注册相机数	空间点个数	重投影误差
				A	15	17 607	1.182 42
B	445	198 906	1.139 76
				C	240	87 799	1.153 93

可以看出，多任务方法与Alicevision对比，场景完整度均大幅提升，结合场景图的方法所选的InitIP则能够引导重建出最完整的稀疏场景，拥有最多的注册相机数、空间点数目，重建的空间点数量增加约10倍，重投影误差下降了约0.05。总的来说，多任务学习结合场景连接图的选取策略能够高效的选取处于场景稠密区域的InitIP，从而引导重建出更完整、精度更高的稀疏点云。

本发明对比传统SfM(structure from Motion)中的初始图像对选取方法，所提出的方法在多种不同场景中的选取速度提升5倍以上。同时，提出的结合场景图的选取策略可使得特殊场景中重建的空间点数量增加10倍，且重投影误差下降0.05，显著提升了在特殊场景中初始图像对选取的鲁棒性，证明了所提方法的有效性，在提高了效率的同时，能够很好的保证特殊场景重建的完整性和稳定性。

上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种针对无序图像增量式SfM的初始图像对选取方法，其特征在于：包括以下步骤：

步骤五：重复步骤四，得到所有两两组合图像间的相似度S₁₂，…，S_N-1N与相对位移，T₁₂，…，T_N-1N；

2.根据权利要求1所述的针对无序图像增量式SfM的初始图像对选取方法，其特征在于：所述步骤一中所述的训练图像，由多组拍摄自不同场景的、有一定重叠区域的图像组成，其中不包含运动场景和只有单一纹理的场景图像。

3.根据权利要求1所述的针对无序图像增量式SfM的初始图像对选取方法，其特征在于：所述步骤二中的重叠区域大于60％的一对图像，视为一对正例图像，重叠度小于20％的视为一对负例图像，同时将相对旋转角度超过60度的图像设置为负例图像。

4.根据权利要求1所述的针对无序图像增量式SfM的初始图像对选取方法，其特征在于：所述步骤三中构建的多任务卷积神经网络的过程为：所述图像空间位置预测网络中最后一个全连接层连接一个仿射变换回归器。

5.根据权利要求1所述的针对无序图像增量式SfM的初始图像对选取方法，其特征在于：所述多任务卷积神经网络的训练模块，将参考图像、正例图像、负例图像共三幅图像组成一组输入图像，输入到相似度量分支，神经网络通过三元损失函数如下所示，使得在训练过程中，正例图像的高维特征向量与参考图像逐渐接近，负例图像与参考图像的高维特征向量逐渐远离；在空间位置预测分支中，将图像经过卷积操作转换为特征图后，由放射变换回归器对图像所在的相对位移回归预测；

L_TL(a,p,n)＝[D⁺-D^-+α]₊ (1)

所述多任务卷积神经网络的检测模块，将待检测的一对图像输入至训练好的所述多任务卷积神经网络，最终根据所述相似性度量网络与图像空间位置预测网络，输出该对图像的相似度与相对位移。

6.根据权利要求1所述的针对无序图像增量式SfM的初始图像对选取方法，其特征在于：所述步骤六中最终初始对评分Score的计算公式如下所示，

其中d为两幅图像转换而成的高维特征向量之间的距离，最终所选择的初始图像对为具有足够相似重叠区域且相对位移最大的一对图像。