CN113095371B

CN113095371B - 一种面向三维重建的特征点匹配方法及系统

Info

Publication number: CN113095371B
Application number: CN202110301050.3A
Authority: CN
Inventors: 李胜; 纪道明; 陈毅松; 汪国平
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2023-01-17
Anticipated expiration: 2041-03-22
Also published as: CN113095371A

Abstract

本发明公开了一种面向三维重建的特征点匹配方法及系统。本发明的特征点匹配方法步骤包括：1)输入待匹配的两视图图像或者多视图图像；对输入的每一图像执行特征点检测及语义特征提取，得到每幅图像对应的特征描述子；2)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选；3)采用RANSAC方法对步骤2)处理后保留的匹配对进行进一步的筛选，并得到最终的匹配对。本发明能够提升三维重建出的三维模型/场景的精度和质量。

Description

一种面向三维重建的特征点匹配方法及系统

技术领域

本发明属于计算机图形图像处理、虚拟现实、软件技术领域，涉及一种面向三维重建的特征点匹配方法及系统。

背景技术

特征点匹配是基于多图像的三维重建系统中的重要环节，特征点匹配的质量对系统后续其他环节影响很大。面对不断增长的大规模三维场景的重建应用需求以及日益复杂的三维重建场景，对于特征点匹配质量的要求也越来越高，因此设计更加鲁棒的特征点方法服务于三维重建系统十分有意义。

在三维重建应用中，为了得到三维场景的完整信息，经常需要对不同视角的图像进行特征点匹配。当出现视角变化较大的情况(也叫宽基线问题)时，SIFT、SURF等特征点往往表现欠佳，因为这类特征点在设计时没有考虑仿射变换不变性的问题。除了常见的视角变化、光照变化以外，还有很多困难场景的例子：城市高层建筑重复出现的纹理结构(比如窗户屋顶)、季节变换带来的地面景观巨大变化(比如雪前雪后)、图像中后期加入的噪声干扰(比如日期水印)、图像中移动的物体对背景的遮挡干扰(比如行人车辆)等。还有一些场景综合了以上多种情形，比如利用航拍图像进行三维重建时为了保证模型的完整度，需要利用地面视角拍摄的图像对航拍模型进行细节补充。而当对航拍-地面图像进行特征点匹配时，除了有较大的视角差异以外，可能同时存在光照差异、尺度差异等情况，因此很难找到合适的方法实现目标。此外，误匹配筛选是特征点匹配最后环节，对于匹配准确性有重大的影响。

经典的特征点匹配流程包括：在原始图像上检测特征点、生成特征描述子(向量)、特征点匹配(对特征描述向量进行匹配)、对错误匹配对进行筛选(RANSAC)。

在特征点匹配环节，传统的方法通常需要对错误匹配进行筛除。在经典流程中使用SIFT等特征具备良好的旋转不变性、尺度不变性，同时在匹配过程中采用ratio test和RANSAC很好地筛掉了错误的匹配点。尽管经典流程已经适用于大部分常见的场景，但是还远远谈不上完美，对于现实中很多复杂的场景(光照条件变化、视角差异较大、重复纹理等)依然无能为力。在复杂场景下的特征点匹配结果通常包含大量的错误匹配，需要更加鲁棒的匹配对筛选方法。RANSAC作为一个标准方法，也有了许多的改进，DSAC(E.Brachmann,A.Krull,S.Nowozin,J.Shotton,F.Michel,S.Gumhold,and C.Rother.DSAC:Differentiable RANSAC for Camera Localization.arXiv,2016.)是RANSAC的可微版本，但是不太适合两视图场景。(Kwang Moo Yi，Eduard Trulls，Yuki Ono，Vincent Lepetit，Mathieu Salzmann，and Pascal Fua.Learning to find good correspondences.InProceedings of the IEEE Conference on Computer Vision and PatternRecognition，2018.)首次提出了用深度神经网络进行匹配对筛选，通过和RANSAC结合，尽管特征点匹配的准确率可以得到很大提升，但是依然存在准确性不足的问题。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种面向三维重建的特征点匹配方法及系统。

本发明的技术方案为：

一种面向三维重建的特征点匹配方法，其步骤包括：

1)输入待匹配的两视图图像或者多视图图像；对输入的每一图像执行特征点检测及语义特征提取，得到每幅图像对应的特征描述子；

2)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选；

3)采用RANSAC方法对步骤2)处理后保留的匹配对进行进一步的筛选，并得到最终的匹配对。

进一步的，得到所述特征描述子的方法为：

1-1)利用高斯差分金字塔从输入图像中检测并提取出亚像素级别的特征点及其主方向；

1-2)训练一个L2-Net网络，用于将特征点所对应的局部图像区域映射成特征向量；

1-3)采用FCN语义特征提取网络，从输入图像中提取具有高层语义信息的特征向量；

1-4)将步骤1-1)所得特征向量与步骤1-3)所得特征向量进行融合，得到具备多尺度上下文信息的特征描述子。

进一步的，首先建立高斯图像金字塔并对高斯图像金字塔上相邻层图像相减得到所述高斯差分金字塔；然后根据所述高斯差分金字塔上的极值位置确定特征点的位置。

进一步的，确定特征点的位置的方法为：将高斯差分金字塔中每层图像上每个像素点的值与其邻接的像素值进行比较，得到图像尺度空间维度和位置空间维度上的极值；然后用曲线函数对所得极值进行拟合得到特征点的位置。

进一步的，所述匹配对筛选网络包括multi-KNN模块、由12个残差神经网络模块依次连接构成的网络基础架构和输出层，所述匹配对筛选网络对待配对图像的特征点进行筛选的方法为：

2-1)对于输入的两张图像中的N对匹配特征点的集合M＝{m₁，m₂，...，m_N}，所述multi-KNN模块对每一对匹配特征点(x₁，y₁，x₂，y₂)，计算向量(x₁，y₁，u，v)间的欧氏距离，并利用kd树来寻找K近邻，其中u＝x₂-x₁，v＝y₂-y₁；(x₁，y₁)与(x₂，y₂)分别是第一幅图像与第二幅图像中的特征点位置；然后将不同K近邻结果结合，得到一个特征融合向量并输入到所述网络基础架构；

2-2)所述网络基础架构根据所述特征融合向量对匹配特征点进行分类，输出N对匹配特征点的权重向量w＝(w₁，w₂，...，w_N)，当第i对匹配点的权重w_i＝0时，代表第i对匹配点是错误匹配；

2-2)所述输出层根据权重向量w得到正确匹配对的集合M_inlier。

进一步的，训练所述匹配对筛选网络的损失函数为Loss＝Loss_cls+λLoss_geo；其中，

为所述匹配对筛选网络根据集合M中的匹配对以及权重向量w预测得到的本质矩阵，E为本质矩阵的真实值；

S是与二元交叉熵H结合使用的Logistic函数，y_i∈{0，1}是第i匹配对的真实值标签，α_i是用来平衡第i对匹配特征点的权值，o_i是第i对匹配特征点的分类结果。

进一步的，K取值为{1，4，8，12}。

一种面向三维重建的特征点匹配系统，其特征在于，包括特征提取模块、匹配对筛选网络和匹配对确定模块；其中，

所述特征提取模块，用于对输入的每一图像执行特征点检测及语义特征提取，得到每幅图像对应的特征描述子；

所述匹配对筛选网络，用于对待配对图像的特征点进行匹配和筛选；

匹配对确定模块，用于采用RANSAC方法对所述匹配对筛选网络处理后保留的匹配对进行进一步的筛选，并得到最终的匹配对。

一种三维模型重建方法，其特征在于，基于上述方法得到的多张多视图图像的匹配对作为三维模型重建系统的输入，进行三维模型重建，得到重建后的三维模型。

与现有技术相比，本发明的积极效果为：

本发明设计了新型的基于深度神经网络的更加鲁棒的特征点匹配方法。针对实际的基于多视图图像的三维重建系统，本方法可以代替传统特征点匹配方法并且本发明中的特征点匹配、筛选方法具有更高的精度和鲁棒性，因此能够提升三维重建出的三维模型/场景的精度和质量，因为三维重建严重依赖于特征点定位精准度。本方法对于所拍摄场景中光照、视角变化等困难条件也具有良好的适用性。本方法中所设计的一个通用的匹配对筛选网络，对初始匹配对进行分类并输出正确的匹配结果，可以适用于与各种特征点提取方法结合使用。利用深度学习进行误匹配筛选具有很大的价值，通过和传统RANSAC方法结合，可以给整个特征点匹配流程带来更大收益。

附图说明

图1为本发明面向三维重建系统的特征点匹配筛选网络的流程图；

图2为语义特征点网络流程图；

图3为高斯差分金字塔(DOG)构建过程图；

图4为L2-Net采用的网络结构示意图；

图5为结合局部邻域信息的匹配对筛选网络图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本方法的基本流程如图1所示：

1)输入待匹配的两视图图像或者多视图图像；

2)对输入图像执行特征点检测及语义特征提取，每幅图像都得到1×128大小的特征描述子；(该步骤细节见第1节)；

3)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选；(该步骤细节见第2节)；

4)采用RANSAC方法对步骤3)处理后保留的匹配对进行进一步的筛选，并得到最终的匹配对；(该步骤细节见第3节)；

利用上述步骤，得到多张多视图图像的匹配对作为三维重建系统的输入，并执行三维重建系统则可得到重建后的三维模型。(该步骤不是本系统的核心内容，具体的三维重建方法不做讨论)。

1.特征点检测及语义特征提取

针对三维重建系统，所检测的特征点需要具有亚像素级别的定位准确性，同时需要鲁棒的特征描述。因此，本发明设计的语义特征点网络应用到三维重建系统中，必须解决特征点定位精准度的问题。传统方法在特征点检测阶段定位更加精确，而深度学习可以结合高层语义信息得到更加鲁棒的特征描述子。所以本发明将两者的优势进行结合，设计了如图2所示的语义特征点网络来进行单张图像的特征点的检测及语义特征点提取。

1)利用高斯差分金字塔(DOG)从输入图像中检测并提取出亚像素级别的特征点，以及特征点的主方向；(1.1部分)

2)训练一个L2-Net网络将特征点所对应的局部图像区域(patch)映射成128维的特征向量；(1.2部分)

3)采用FCN语义特征提取网络，从输入图像中提取具有高层语义信息的128维特征向量；(1.3部分)

4)将两个128维向量(1×128)进行融合，这样就得到了具备多尺度上下文信息的特征描述子。

上述语义特征点网络兼具特征点定位准确性和特征鲁棒性。

1.1DOG

本发明构建高斯差分金字塔(Difference of Gaussian，简称DOG)，在计算上就是对高斯图像金字塔上相邻层图像相减，如图3所示。

特征点的位置就是由高斯差分金字塔上的极值位置构成。为了寻找极值点，将高斯差分金字塔中每层图像上每个像素点的值和它上下左右邻接的26个像素进行比较，得到图像尺度空间维度和位置空间维度上的极值。同时，为了得到更为鲁棒的结果，还需要去除边缘响应。除此以外，由于像素点之间是离散的，得到的局部极值点并非真正的极值点，真正的极值点可能在“亚像素”的位置上，所以最后用曲线函数拟合得到特征点的精确位置。

通过尺度空间检测的特征点已经具备了一定的尺度不变性，为了使特征点面对旋转变化同样具备不变性，需要给每个特征点指定一个方向。具体方法就是统计以每一个特征点为中心，一定半径的邻域内的像素梯度信息，得到的梯度方向峰值就是特征点的主方向。

1.2L2-Net神经网络

采用L2-Net网络(Yurun Tian,Bin Fan,Fuchao Wu,et al.L2-Net:Deeplearning of discriminative patch descriptor in euclidean space.In Proceedingsof the IEEE Conference on Computer Vision and Pattern Recognition,2017,6.)(如图4所示)实现单个特征点局部patch到128维描述子向量的映射。输入的patch大小一般为32×32，也就是实现了把32×32图像patch转换为128维的特征向量的功能。

1.3FCN语义特征提取

从输入的一整张原始图像出发，通过FCN语义特征提取网络，提取出整张图像逐像素的语义信息。

全卷积神经网络FCN(J.Long,E.Shelhamer,and T.Darrell.Fullyconvolutional networks for semantic segmentation.In CVPR,2015.)：将卷积神经网络CNN最后阶段的全连接层全部替换成了卷积层。在初始阶段，FCN先对输入的图片(大小为H×W×C，其中H和W为图片的长和宽，而C是图片的通道数，输入图片的通道是RGB三维信息)进行常规的卷积和池化操作，使得特征图的长宽越来越小，而通道数越来越高，直至特征图的大小达到一定的程度(比如h＝H/16，w＝W/16，c＝1024)，此时特征图中每个像素都有足够的感受野包含邻域图像中的语义信息，同时长宽不至于太小影响最后的分割效果。在最后阶段，FCN则使用上采样操作将变小的特征图还原为原图大小(H×W×C)，并通过原图大小的卷积核输出逐像素的语义类别预测结果。

通过对上述的语义分类图不断地进行3×3的卷积，并使用最大值池化层进行下采样，可以得到不同尺度的特征图，最后输出的F_desc是一个长宽为H×W维度为128的3D张量，每个特征点也是128维的向量。

2.结合局部邻域信息的匹配对筛选网络

两个特征向量所表示的特征点之间的匹配方式有很多，最基本的有根据欧氏距离进行匹配，根据向量之间夹角的余弦值进行匹配。具体到两张图的所有特征点匹配问题，为了匹配图像I₁和I₂，我们可以采用最近邻的方式，即根据I₁中的特征描述子生成一个kd-tree，然后针对I₂中每一个待匹配特征点在kd-tree中查找其最邻近的值，从而完成整个图像之间的匹配，并得到匹配点的集合。上述方法皆为特征点匹配的经典方法。

为了得到良好的匹配结果，匹配对筛选是十分重要的步骤。由于光照、视角条件的变化以及场景中重复出现的纹理，错误的匹配通常是无法避免的。在经典的特征点匹配流程中，广泛采用RANSAC算法对错误匹配对进行筛除。给定初始匹配对集合，RANSAC通过估计几何模型对匹配进行一致性检验，最终输出符合条件的内点。然而面对很多复杂的情况，RANSAC也无法给出较好的结果。

2.1匹配对筛选神经网络基本原理

本发明将匹配对筛选看作一个特殊的点云分割问题。点云分割中的点主要由其空间坐标(x，y，z)来表示，针对不规则分布的空间点云，寻找特定的局部特征和分布规律，最终输出每个空间点的语义类别。如果将特征点匹配集合中的每一对匹配特征点(x₁，y₁，x₂，y₂)也看作一个特殊的四维点，其中x₁，y₁与x₂，y₂分别是第一幅图像与第二幅图像中的特征点位置，那么整个匹配对集合也可以看作不规则分布的点云。这样匹配对筛选过程就和点云分割一样，通过寻找特定的几何分布规律和局部特征，最终输出每个匹配点的类别——正确匹配/错误匹配。

本发明将所设计的神经网络简称为PointNet-CN。它在类似PointNet网络结构的基础上加入了上下文正则化模块(ContextNormalization，简称CN)。该网络输入初始匹配对集合，通过网络对每个匹配对进行分类，输出[0，1)范围内的值，其中取值为0代表该匹配对是错误匹配。匹配点的运动(u，v)被定义为第二幅图像中的特征点位置相对第一幅图像的偏移，即u＝x₂-x₁，v＝y₂-y₁，和计算机视觉中光流的概念有点相似。局部邻域内匹配点的运动应该是规律性的。

综合上述分析，本发明设计了可以结合局部邻域信息的匹配对筛选网络。输入两张图像中N对原始匹配的集合：

其中

和

分别是两张图像上第i个特征点的坐标，并利用相机内参对其进行规范化，以便于网络的优化。

利用匹配对筛选网络对M进行分类，网络最后一层的输出为o。最后输出N对匹配的权重向量w：

o＝f_CNN(M) (4.2)

w＝tanh(ReLU(o))，w＝(w₁，w₂，...，w_N) (4.3)其中w_i∈[0，1)，当w_i＝0时代表第i对匹配点是错误匹配，这样就可以得到正确匹配对的集合M_inlier∈M。

2.2网络结构

PointNet-CN网络的整体网络结构如图5所示，其中multi-KNN是本发明设计的结合邻域信息的模块。

K近邻是寻找邻近点最常见的方法。在匹配对筛选问题中，针对每一对匹配特征点(x₁，y₁，x₂，y₂)，本发明计算向量(x₁，y₁，u，v)间的欧氏距离，并利用kd树(kd-tree)来寻找K近邻，其中u＝x₂-x₁，v＝y₂-y₁是前面提到的匹配点坐标偏移。之所以采用u，v是为了更好地挖掘匹配点局部邻域信息一致性，也就是说邻域内的点不仅要在空间上相邻，也要在运动趋势上相近。

K大小的选择是K近邻中的关键。在实际测试中，如果K太小则难以获取足够的邻域信息，K太大会导致邻域内包含错误的信息。因此本发明设计了multi-KNN模块，将K＝{1，4，8，12}邻域信息结合到一起，其中K＝1是为了强调原始输入信息的重要性。具体到网络细节，对于N对匹配特征点，输入的是N×1×4向量，其中4代表构成匹配对的2个特征点，每个特征点的坐标是一个2维向量，所以构成4维向量。每对匹配结合K近邻信息后，获得N×K×4向量，再通过卷积层映射成N×1×32向量。最后再将不同K近邻结果结合，输出N×1×128向量。

网络的基础架构部分由12个残差神经网络模块组成，通过对特征进行整合实现匹配对的分类。每个模块由CN层，BN与ReLU层，以及卷积层组成。其中CN是上下文正则化模块(Context Normalization，简称CN)(Kwang Moo Yi，Eduard Trulls，Yuki Ono，VincentLepetit，Mathieu Salzmann，and Pascal Fua.Learning to find goodcorrespondences.In Proceedings of the IEEE Conference on ComputerVision andPattern Recognition，2018.)，在不同匹配对之间计算方差、均值进行规范化，从而建立彼此之间的联系。其他层都是卷积神经网络中常见的操作层。最后网络输出N×1的权重向量，以此确定正确匹配集合M_inlier。

2.3损失函数

基于求解基础矩阵或本质矩阵的八点法。给定匹配对集合M中的8对特征匹配，可以根据对极约束构建线性方程组，本质矩阵E就可以由该方程求解得到。为了更好地应用在深度学习中，采用加权八点法(Kwang Moo Yi，Eduard Trulls，Yuki Ono，VincentLepetit，MathieuSalzmann.and Pascal Fua.Learning to find goodcorrespondences.In Proceedings of the IEEE Conference on ComputerVision andPattern Recognition，2018.)，可以根据M中更多的匹配对以及网络输出的权重向量w得到预测的本质矩阵

如公式4.4所示。这样就可以用端到端的方式对本质矩阵进行回归预测了，而且由于考虑了M中每个匹配对的贡献，所以加权八点法面对错误匹配是比较鲁棒的。

根据预测的

以及本质矩阵E的真实值(ground truth)，可以构建几何损失函数，具体形式如公式4.5所示。

另一方面，针对网络输出的结果o，本发明可以定义分类损失函数，如公式4.6所示。其中S是与二元交叉熵H结合使用的Logistic函数，y_i∈{0，1}是第i对匹配的真实值标签(y_i＝1代表正确匹配)，α_i是用来平衡第i个匹配对的权值，o_i是第i个匹配对的分类结果。

最后，本发明的网络可以综合分类损失函数和几何损失函数进行训练，如公式4.7所示。

Loss＝Loss_cls+λLoss_geo (4.7)

2.4网络训练

针对光照、视角条件复杂的室外场景，本发明采用YFCC100M数据集(B.Thomee，D.Shamma，G.Friedland，B.Elizalde，K.Ni，D.Poland，D.Borth，and L.Li.YFCC100M：theNew Data in Multimedia Research.In CACM，2016.)作为训练数据集。YFCC100M包含1亿张可公开访问的互联网图片，并被后续工作整理成72个适用于三维重建的子集，每个子集包含从不同视角拍摄的同一个旅游地标场景的图片。本发明使用其中68个场景作为训练数据集，并按照0.6/0.2/0.2的比例划分为训练集/验证集/测试集，剩下的4个场景用于评测网络的实际泛化能力。为了在每个场景中选择有效的图像对，本发明随机抽取两幅图像，并检查它们在稀疏重建模型中是否有足够数量的重叠3D点。最后，本发明使用(J.Heinly，J.Schoenberger，E.Dunn，and J.-M.Frahm.Reconstructing the World in Six Days.InCVPR，2015.)提供的相机姿态和稀疏重建模型来生成图像对之间特征点匹配的真实值(ground truth)。

训练时输入的匹配数目N＝2000，是由SIFT得到的匹配对。而在实际使用中网络输入的匹配数目N可以取任意值。本发明采用Adam优化器对Loss进行优化。初始学习率设为10^-4，网络训练框架采用PyTorch。为了网络更好地收敛，几何损失函数Loss_geo的权重λ先设置为0，经过20k轮迭代之后，再将λ设置为0.1完成剩下的训练过程。

3.RANSAC

在得到了经过初步筛选的特征匹配点对的集合M₀，但是由于实际的图像中可能色彩纹理比较丰富，因此有很多相似的特征点被错误的匹配，所以M₀中还有部分误匹配存在，同时也有部分正确的匹配没有包含在M₀中。对于没有包含在M₀中的匹配对，本发明没有办法找回，但是可以对于M₀中的误匹配，本发明可以想办法将它们找出。

对匹配点进行筛选，保留正确稳定的匹配点对，对于后续的其他环节非常重要，比如三维重建中误匹配对于重建质量影响就很大。RANSAC(Martin A.Fischler，RobertC.Bones.Random sample consensus：a paradigm for model fitting withapplications to image analysis and automated cartography[J].Commun.ACM.1981，24(6)：381-395.)的思想是，对原始数据进行N次抽样，用每次抽样的数据样本去估计一个符合样本的模型，如果抽样次数N足够大的话，总会有某一次抽样的数据样本中不包含错误值，那么这次抽样估计的模型则是最符合整体数据的模型，再用该正确的模型对其他数据进行筛选，即可以找到所有的正确数据。RANSAC是一个算法框架，可以应用于很多场合，关键在于需要估计的模型该如何选择。在特征点匹配问题中，通常用对极几何中的基础矩阵F和单应矩阵H作为模型。用RANSAC进行匹配点对筛选的问题，利用基础矩阵F作为模型的RANSAC算法步骤如下：

(1)输入经过初步筛选后的特征匹配点对集合M₀；

(2)根据自适应方法对M₀进行N次随机抽样；

(3)用8对特征匹配点对计算基础矩阵F，得到两幅图像几何关系；

(4)对于其他的特征点对(p₁，p₂)，根据上一步求得的几何模型可以得到p₁在图像I₂中的极线，计算p₂极线的距离d，如果d小于一定的阈值则视为正确匹配；

(5)选择具有最大内点数的F，输出符合该几何一致性约束的匹配对M₁。

从M₀到M₁，本发明加入了几何一致性约束剔除了部分误匹配，对于后续的三维重建等效果有着较大的提升。

本发明针对三维重建的语义特征点匹配筛选网络兼具定位准确性和特征鲁棒性，在三维重建数据集中相比之前有了较大的提升，可以代替传统特征点算法应用在实际系统中。

特征点匹配与传统方法对比

本发明首先单独对比RANSAC算法与本发明的匹配对筛选网络，两者均输入原始特征点匹配，且不加任何后处理。如果不加ratio test对原始特征点匹配进行预处理，RANSAC算法的效果非常差。尽管匹配对筛选网络输出也有一些错误匹配，但是总体准确性要更高。

本发明接着对比完整的匹配对筛选流程，传统方法是ratio test和RANSAC的组合，本发明深度学习方法是匹配对筛选网络和RANSAC组合。在完整的匹配对筛选流程中，两者表现都比较好，其中传统方法经过筛选得到28对匹配，本发明的深度学习方法得到65对匹配。由此可见，在匹配准确性都比较高的前提下，本发明的方法可以保留更多的正确匹配。

三维重建单一目标场景对比结果

本发明先在单一目标场景的数据集进行测试，这是三维重建中最常见的场景之一。通常是对单一目标(小物体，雕像，建筑等)从各个角度进行拍摄，包含一定的视角、光照变化，能够比较直观地反映三维重建系统的能力。为了说明情况，本发明主要选取一些比较困难的重建场景进行对比测试。

对于雕像场景，拍摄方式主要是环绕拍摄。第一组场景包含16张图像，其中利用SIFT特征点的方法恢复了其中9个相机，稀疏点数量为1626，而本发明的方法恢复了所有16个相机，稀疏点数量为3699。第二组场景包含28张图像，其中利用SIFT特征点的方法恢复了其中22个相机，稀疏点数量为4891，而本发明的方法恢复了所有28个相机，稀疏点数量为7423。第三组场景包含44张图像，其中利用SIFT特征点的方法恢复了39个相机，稀疏点数量为10423，而本发明的方法恢复了41个相机，稀疏点数量为16477。总的来说对于一些困难的重建场景，本发明的方法可以注册更多的图像，从而使得最后得到的点云模型更加完整。

如果场景分别来自于室内和室外，且包含光照和视角差异较大的情况。传统SIFT特征点方法和本发明的方法都恢复出了大部分的相机，但是传统方法得到的点云模型出现了交错重叠的错误情况，而本发明的方法得到的点云模型则是完整一体的。由此可见，更加鲁棒的特征点匹配，可以更好地面对场景中光照和视角变化。

对于纹理复杂的场景。传统的SIFT特征点面对重复的纹理结构，出现了很多错误的匹配，导致最后的稀疏重建完全失败。而本发明的方法对于复杂纹理也有一定的鲁棒性，可以得到相对完整的点云模型。

对于路径规划良好的航拍场景，图片之间重叠面积较大，传统方法表现也比较好，但是本发明的方法得到的匹配点相对更加密集。对于重叠面积较小，视角差异较大的场景，本发明的方法比传统方法更加鲁棒一些。

由上述结果可知，通过结合传统方法的定位准确性和深度学习方法的鲁棒性，将语义特征点网络应用到三维重建任务，并在三维重建数据集中取得很好的效果。对于单一目标场景的重建任务，尤其是比较困难的场景，本发明的方法主要有以下两点优势：一是可以注册更多的图像，从而使最后得到的点云模型更加完整；二是可以更好地面对场景中光照和视角变化，对于重复纹理也有一定的鲁棒性。对于航拍场景的重建任务，当场景中同时存在俯视视角和倾斜视角时，本发明的方法面对这种较大的视角变化更为鲁棒，最后得到的点云模型兼具完整性和良好细节。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种面向三维重建的特征点匹配方法，其步骤包括：

2)采用结合局部邻域信息的匹配对筛选网络对待配对图像的特征点进行匹配和筛选；其中，所述匹配对筛选网络包括multi-KNN模块、由12个残差神经网络模块依次连接构成的网络基础架构和输出层，所述匹配对筛选网络对待配对图像的特征点进行筛选的方法为：2-1)对于输入的两张图像中的N对匹配特征点的集合M＝{m₁,m₂,…,m_N}，所述multi-KNN模块对每一对匹配特征点(x₁,y₁,x₂,y₂)，计算向量(x₁,y₁,u,v)间的欧氏距离，并利用kd树来寻找K近邻，其中u＝x₂-x₁,v＝y₂-y₁；(x₁,y₁)与(x₂,y₂)分别是第一幅图像与第二幅图像中的特征点位置；然后将不同K近邻结果结合，得到一个特征融合向量并输入到所述网络基础架构；2-2)所述网络基础架构根据所述特征融合向量对匹配特征点进行分类，输出N对匹配特征点的权重向量w＝(w₁,w₂,…,w_N)，当第i对匹配点的权重w_i＝0时，代表第i对匹配点是错误匹配；2-3)所述输出层根据权重向量w得到正确匹配对的集合M_inlier；

2.如权利要求1所述的方法，其特征在于，得到所述特征描述子的方法为：

3.如权利要求2所述的方法，其特征在于，首先建立高斯图像金字塔并对高斯图像金字塔上相邻层图像相减得到所述高斯差分金字塔；然后根据所述高斯差分金字塔上的极值位置确定特征点的位置。

4.如权利要求3所述的方法，其特征在于，确定特征点的位置的方法为：将高斯差分金字塔中每层图像上每个像素点的值与其邻接的像素值进行比较，得到图像尺度空间维度和位置空间维度上的极值；然后用曲线函数对所得极值进行拟合得到特征点的位置。

5.如权利要求1所述的方法，其特征在于，训练所述匹配对筛选网络的损失函数为Loss＝Loss_cls+λLoss_geo；其中，

S是与二元交叉熵H结合使用的Logistic函数，y_i∈{0,1}是第i匹配对的真实值标签，α_i是用来平衡第i对匹配特征点的权值，o_i是第i对匹配特征点的分类结果。

6.如权利要求1所述的方法，其特征在于，K取值为{1,4,8,12}。

7.一种面向三维重建的特征点匹配系统，其特征在于，包括特征提取模块、匹配对筛选网络和匹配对确定模块；其中，

所述匹配对筛选网络，用于对待配对图像的特征点进行匹配和筛选；其中，所述匹配对筛选网络包括multi-KNN模块、由12个残差神经网络模块依次连接构成的网络基础架构和输出层，所述匹配对筛选网络对待配对图像的特征点进行筛选的方法为：2-1)对于输入的两张图像中的N对匹配特征点的集合M＝{m₁,m₂,…,m_N}，所述multi-KNN模块对每一对匹配特征点(x₁,y₁,x₂,y₂)，计算向量(x₁,y₁,u,v)间的欧氏距离，并利用kd树来寻找K近邻，其中u＝x₂-x₁,v＝y₂-y₁；(x₁,y₁)与(x₂,y₂)分别是第一幅图像与第二幅图像中的特征点位置；然后将不同K近邻结果结合，得到一个特征融合向量并输入到所述网络基础架构；2-2)所述网络基础架构根据所述特征融合向量对匹配特征点进行分类，输出N对匹配特征点的权重向量w＝(w₁,w₂,…,w_N)，当第i对匹配点的权重w_i＝0时，代表第i对匹配点是错误匹配；2-3)所述输出层根据权重向量w得到正确匹配对的集合M_inlier；

8.一种三维模型重建方法，其特征在于，基于权利要求1所述方法得到的多张多视图图像的匹配对作为三维模型重建系统的输入，进行三维模型重建，得到重建后的三维模型。