CN113159043B

CN113159043B - 基于语义信息的特征点匹配方法及系统

Info

Publication number: CN113159043B
Application number: CN202110356592.0A
Authority: CN
Inventors: 李胜; 纪道明; 陈毅松; 汪国平
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2024-04-30
Anticipated expiration: 2041-04-01
Also published as: CN113159043A

Abstract

本发明涉及一种基于语义信息的特征点匹配方法及系统。本发明首先利用语义分割结果对特征点匹配进行约束，证明了语义信息可以提高特征点的稳定性；为了更好地在特征点中融入图像高层语义信息，本发明进一步设计了一个特征点提取网络，可以同时进行特征点检测和特征描述子生成。和传统特征点相比，本发明提取的特征点可以将图像多尺度的特征进行结合，面对复杂场景更加稳定。本发明与传统方法相比具有更高的准确率，利用深度神经网络提取的特征点在室外场景下具有很好的鲁棒性，可以代替传统算法集成到实际系统中，对于光照、视角变化等场景也具有适用性。

Description

基于语义信息的特征点匹配方法及系统

技术领域

本发明属于计算机图形图像技术、虚拟现实技术、计算机视觉、信息技术领域，具体涉及一种基于语义信息的特征点匹配方法及系统。

背景技术

特征点匹配是三维重建、全景拼接、视觉定位、增强现实等系统中的重要环节，初始特征点匹配阶段的质量对系统后续其他环节影响很大。在这些应用中，系统的整体性能在很大程度上取决于初始特征点匹配阶段的质量。近十几年来，手工设计的特征点(比如SIFT、SURF等)由于具备良好的尺度、旋转不变性，被许多的开源系统、商业软件所采用。随着增强现实、虚拟现实产业的飞速发展，以上应用的需求也在不断地增长。面对日益复杂的应用场景，对于特征点匹配鲁棒性的要求也越来越高。在三维重建应用中，为了得到三维场景的完整信息，经常需要对不同视角的图像进行特征点匹配。当出现视角变化较大的情况(也叫宽基线问题)时，SIFT、SURF等特征点往往表现欠佳，因为这类特征点在设计时没有考虑仿射变换不变性的问题。在视觉定位应用中，为了识别图像中场景的位置，经常需要对不同时期拍摄的图像进行匹配，由于光照条件不同，即使同一位置提取的特征描述子也不同。尤其是光照差异较大(比如白天和夜晚拍摄的图像)的情况下，SIFT、SURF等特征点基本无能为力。

除了常见的视角变化、光照变化以外，还可以举出很多困难场景的例子：城市高层建筑重复出现的纹理结构(比如窗户屋顶)、季节变换带来的地面景观巨大变化(比如雪前雪后)、图像中后期加入的噪声干扰(比如日期水印)、图像中移动的物体对背景的遮挡干扰(比如行人车辆)等。还有一些场景综合了以上多种情形，比如利用航拍图像进行三维重建时为了保证模型的完整度，需要利用地面视角拍摄的图像对航拍模型进行细节补充。而当对航拍-地面图像进行特征点匹配时，除了有较大的视角差异以外，可能同时存在光照差异、尺度差异等情况，因此很难找到合适的方法实现目标。面对不断增长的应用需求以及日益复杂的应用场景，对于特征点匹配质量的要求也越来越高，因此设计更加鲁棒的特征点方法十分有意义。

图像的特征点广泛应用于三维重建、视觉定位、图像拼接、增强现实等领域，是图像中最基础的特征信息之一。通常来说，特征点是图像中一些比较显著的位置，比如说角点、明暗区域中的反差点等。在实际应用中，同一个特征点会出现在两个以上的图像中，通过对不同图像中的特征点建立一一对应关系，可以实现它们之间的匹配。由于不同图像拍摄时的光照条件、视角、距离都可能不同，为了保证特征点在不同图像中的稳定性，特征点需要具备光照不变性，旋转不变性以及尺度不变性。将图像的特征点映射为一个能够量化的向量，称之为特征描述子。

在特征点提取完成之后，就需要对特征点进行匹配。匹配问题可以分成两个层面，第一个层面是两幅图像之间特征点的匹配，第二个层面是多幅图像之间的匹配。在经典流程中使用SIFT等特征具备良好的旋转不变性、尺度不变性，同时在匹配过程中采用ratiotest和RANSAC(Martin A.Fischler,Robert C.Bones.Random sample consensus:aparadigm for model fitting with applications to image analysis and automatedcartography[J].Commun.ACM.1981,24(6):381-395.)方法很好地筛掉了错误的匹配点。尽管经典流程已经适用于大部分常见的场景，但是还远远谈不上完美，对于现实中很多复杂的场景(光照条件变化、视角差异较大、重复纹理等)依然无能为力。

发明内容

本发明是基于深度学习的更加鲁棒的特征点匹配方法。针对室外场景的多幅图像之间的特征点匹配，本方法可以代替传统特征点匹配算法集成到实际的三维重建系统中，对于光照、视角变化等场景也具有适用性。

本发明的一种基于语义信息的特征点匹配方法，包括以下步骤：

对图像按照语义类别进行语义分割；

建立基于上下文语义信息的特征点提取网络，利用特征点提取网络对图像提取带上下文语义信息的特征点和特征描述子；

利用提取出的特征点和特征描述子进行特征点匹配，并基于语义分割的结果对特征点匹配进行约束。

进一步地，所述利用提取出的特征点和特征描述子进行特征点匹配，基于语义分割的结果对特征点匹配进行约束，包括以下方案中的一种：

方案A：特征点匹配在每个单独语义类别内进行；

方案B：在特征点匹配之后用语义进行误匹配筛选。

进一步地，所述方案A包括以下步骤：

(1)输入两张图像I_i(i＝1,2)，以及对应的语义分割图像S_i(i＝1,2)；

(2)利用所述基于上下文语义信息的特征点提取网络，在两张图像I_i上提取特征点，得到两个特征点集合F_i(i＝1,2)，特征点集合中包含了特征点和特征描述子；

(3)结合语义分割图像，每个特征点在对应的S_i上确定语义，两个特征点集合分别根据特征点的语义进行分类，得到按照语义划分的特征点子集F₁＝{F₁ ^C1，F₁ ^C2，...，F₁ ^Ck}，F₂＝{F₂ ^C1，F₂ ^C2，...，F₂ ^Ck}，假设有k个语义类，F₁ ^Ck代表F₁中属于语义C_k的特征点集合；

(4)对两个子集中具有相同语义的特征点进行特征点匹配，得到每个语义相应的匹配对集合M＝{M^C1，M^C2，...，M^Ck}，其中M^Ck是F₁ ^Ck和F₂ ^Ck之间的匹配结果；

(5)直接输出M作为最终特征点匹配结果，或者用RANSAC方法对M进行几何一致性验证，再输出最终结果，即匹配的特征点集合。

进一步地，所述方案B包括以下步骤：

(1)输入两张图像I_i(i＝1，2)，以及对应的语义分割图像S_i(i＝1，2)；

(2)利用所述基于上下文语义信息的特征点提取网络，在两张图像上提取特征点，每个特征点在对应的S_i上确定语义，得到带语义的特征点，并进行特征点匹配和误匹配筛选，得到总的匹配对集合M；

(3)对于集合M中的每一个匹配对m_i，检验m_i中的两个特征点的语义是否一致，只有属于相同的语义，才将其放入符合语义一致性的匹配对集合M₁中，最后输出M₁。

进一步地，所述基于上下文语义信息的特征点提取网络包括两个阶段：

第一个阶段是特征点检测f_det，对输入图像I进行特征提取得到图像浅层的特征图F_det＝f_det(I)，F_det∈R^H×W×C，其中H×W是特征图的长和宽，C是特征图的通道数，在F_det中检测特征点；

第二个阶段是特征描述f_desc，以F_det作为输入得到图像高层的特征图F_desc＝f_desc(F_det)，F_desc∈R^H×W×C，利用F_desc得到每个点处的特征描述子。

进一步地，所述第一个阶段采用以下步骤检测特征点：

首先，确定潜在特征点所属的层，对于特征图中的每个点(h，w)，先寻找它在该位置通道维度上的极值位置c，作为该点所属的层，即：

然后，在第c层上，再检查点(h，w)是否是该层上的局部极大值，即：

其中(i，j)是(h，w)邻域内9个点；如果满足条件就把(h，w)视为检测到的特征点。

进一步地，所述第二个阶段对F_det不断地进行3×3的卷积，并使用最大值池化层进行下采样，得到不同尺度的特征图，然后将不同分辨率的特征图进行融合，得到包含多尺度上下文信息的特征；所述将不同分辨率的特征图进行融合，包括：采用特征融合模块FFB，将Block2、Block3、Block4输出的三个特征图在通道维度上连接起来得到一个512维的特征图F_concat；然后对该特征图进行全局池化操作，得到一个512维的向量，这个向量经过卷积层和激活函数，成为一个512维的权重向量v_weight；这个权重向量对F_concat每一维通道重新加权，从而将来自不同分辨率的特征融合在一起；并且，采用通道改善模块CRB对Block3、Block4所输出特征图的各通道进行加权，这个操作在特征融合模块FFB之前进行。

进一步地，所述基于上下文语义信息的特征点提取网络的损失函数包括特征检测损失函数Loss_det和特征描述损失函数Loss_desc。

本发明还提供一种采用上述方法的基于语义信息的特征点匹配系统，其包括：

语义分割模块，用于对图像按照语义类别进行语义分割；

特征点提取模块，用于建立基于上下文语义信息的特征点提取网络，利用特征点提取网络对图像提取带上下文语义信息的特征点和特征描述子；

特征点匹配模块，用于利用提取出的特征点和特征描述子进行特征点匹配，并基于语义分割的结果对特征点匹配进行约束。

本发明基于深度神经网络设计了新的特征点匹配流程及相应的方法与系统。传统特征点提取图像局部区域内的浅层特征，面对光照、视角条件变化的场景不够稳定。本发明首先利用语义分割结果对特征点匹配进行约束，证明了语义信息可以提高特征点的稳定性。为了更好地在特征点中融入图像高层语义信息，本发明进一步设计了一个特征点提取网络，可以同时进行特征点检测和特征描述子生成。和传统特征点相比，网络提取的特征点可以将图像多尺度的特征进行结合，面对复杂场景更加稳定。本发明设计的特征点方法与传统方法相比具有更高的准确率。实验结果表明，利用深度神经网络提取的特征点在室外场景下具有很好的鲁棒性，可以代替传统算法集成到实际系统中，对于复杂场景也具有一定的适用性。而利用深度学习进行误匹配筛选同样具有较大的潜力，通过和传统RANSAC(Martin A.Fischler，Robert C.Bones.Random sample consensus：a paradigm formodel fitting with applications to image analysis and automated cartography[J].Commun.ACM.1981，24(6)：381-395.)方法结合，可以给整个特征点匹配流程带来很大收益。

附图说明

图1.经典的特征点匹配流程图。

图2.无人机航拍场景数据集的语义分割结果图(左侧为航拍图像，右侧为对应的语义分割结果，以不同灰度区分)。

图3.方案A的流程图。

图4.方案B的流程图。

图5.语义特征点网络SP-Net示意图。

图6.特征图F与得分图S。

图7.特征图F与特征描述子d。

图8.普通卷积(左)和空洞卷积(右)示意图。

图9.特征融合模块FFB与通道改善模块CRB示意图。

图10.负样本的选择策略。

图11.方案A和常规特征点匹配方法比较结果(例1)。其中，(a)常规特征点匹配；(b)语义分割特征点匹配-建筑子场景；(c)语义分割特征点匹配(左：植被子场景，右：路面子场景)。

图12.方案A和常规特征点匹配方法比较结果(例2)。其中，(a)常规特征点匹配；(b)语义分割特征点匹配-植被子场景。

图13.方案A和常规特征点匹配方法比较结果(例3)。其中，(a)常规特征点匹配；(b)语义分割特征点匹配。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

1.本发明的核心思想和工作贡献

经典的特征点匹配流程包括：在原始图像上检测特征点、生成特征描述向量、对描述向量进行匹配、对错误匹配进行筛选，概括来讲分为特征点提取和特征点匹配两个环节，如图1所示。在特征点提取环节，传统的方法通常提取特征点局部邻域范围内的浅层特征。然而在光照条件变化、视角差异较大的场景下，特征点局部邻域在图像中的外观可能发生很大的变化，因需要在特征点描述子中加入更多具有稳定性的信息，比如语义信息。一方面，直接利用现有语义分割成果，在特征点中加入语义约束对匹配结果进行改善。另一方面，受语义分割网络启发设计了一个特征点提取网络，使得最终得到的特征点包含高层语义信息。

直观上计算机视觉是对人类视觉的模拟，人类对世界的感知是具有多层次语义信息的。当人类对两幅图像进行特征点匹配的时候，不仅仅会考虑特征点的局部纹理，更会通过特征点所属的细分语义类别进行判断。尤其是在光照条件变化、视角差异较大的困难场景下，特征点的局部区域(patch)外观可能发生很大变化，如果能够知道特征点的语义信息(比如知道某些点属于建筑的窗户，某些点属于植被的叶子)，那么更有利于进行特征点的匹配。除了直观上的解释以外，ContextDesc方法(Zixin Luo,Tianwei Shen,Lei zhou,Jiahui Zhang,Yao Yao,Shiwei Li,Tian Fang and Long Quan.ContextDesc:LocalDescriptor Augmentation with Cross-Modality Context.In CVPR,2019.)也正是因为在局部特征中引入了图像上下文信息，才能够在特征点匹配数据集中取得目前最好的效果。但是ContextDesc的做法是简单地将局部特征描述子和从其他任务学习得到的图像特征直接进行相加，并没有很好地进行多尺度上下文信息的融合，也不方便进行端到端的训练，因此还有很大的提升空间。

关于“语义”有两个层次的含义，一个是在语义分割任务中有明确含义的语义，强调的是语义的类别的确定，另一个是上下文语义信息，强调是对图像各个层次特征的抽象理解。

因此，本发明的工作的核心思想包含了下述两个方面的内容，其区别如下：

(1)基于语义分割的特征点匹配。直接基于语义分割的结果对特征点匹配进行约束。利用语义分割的结果作为输入，给每个特征点确定一个语义类别，根据语义类别对特征点匹配过程进行一定的约束。

(2)基于语义信息的特征点网络。通过深度学习得到带上下文语义信息的特征描述子。根据语义分割的结果，设计一个能够融合多尺度上下文信息的特征点提取网络，使得最终生成的特征描述子包含语义信息。这样的话每个特征点都具有独特的细分语义，语义类别太多难以进行标注。所以不再需要像语义分割那样，给每个特征点指定一个语义标签，而是指出正确匹配对中的两个特征点属于相同语义即可。

本发明首先利用语义分割的结果对特征点匹配进行约束，使得特征点匹配在每个单独语义类别内进行，缩小匹配的范围从而减少干扰项，可以在一定程度上找到更多的匹配以及减少错误的匹配。语义分割只能给特征点匹配带来外部约束，无法使特征点本身包含更多的图像高层语义信息，所以本文参考语义分割网络的思路进一步设计了一个语义特征点网络。传统特征点算法在局部区域(patch)上提取浅层特征，容易受到光照、视角变化的影响。而语义特征点网络可以通过结合图像多尺度上下文信息，捕捉特征点邻域内的高层特征。本发明的方法在特征点匹配数据集中相比传统方法有了很大提升，对于光照条件变化的复杂场景也有更好的鲁棒性。

2.基础技术

本发明是基于图像所包含的语义信息的，因此这里首先介绍为了获取语义信息，需要实现的语义分割以及语义的分类两个基础技术内容。

2.1)语义分割

语义分割是计算机视觉的核心问题之一，即给图像的每个像素点进行分类，最后图像会按照不同的语义类别得到明确的分割结果。自从2015年全卷积神经网络(FullyConvolutional Network，简称FCN)被设计出来后，后续语义分割的工作都是基于它展开的。

顾名思义，全卷积神经网络FCN和卷积神经网络CNN的主要区别在于：将卷积神经网络CNN最后阶段的全连接层全部替换成了卷积层。在初始阶段，FCN先对输入的图片(大小为H×W×C，其中H和W为图片的长和宽，而C是图片的通道数，输入图片的通道是RGB三维信息)进行常规的卷积和池化操作，使得特征图的长宽越来越小，而通道数越来越高，直至特征图的大小达到一定的程度(比如h＝H/16,w＝W/16,c＝1024)，此时特征图中每个像素都有足够的感受野包含邻域图像中的语义信息，同时长宽不至于太小影响最后的分割效果。在最后阶段，FCN则使用上采样操作将变小的特征图还原为原图大小(H×W×C)，并通过原图大小的卷积核输出逐像素的语义类别预测结果。

语义分割的矛盾在于如何在保证分割结果的同时提升网络对语义信息的理解能力。最新的研究成果在全卷积神经网络的基础上，引入了结合多尺度上下文信息的结构，在各大数据集上比2015年FCN的都有较大的提升。可以直接使用目前在PASCAL VOC 2012数据集上效果最好的DeepLabv3⁺网络(Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.Encoder-decoder with atrous separableconvolution for semantic image segmentation.European Conference on ComputerVision,2018.)作为语义分割工具，并在无人机航拍场景数据集上进行训练。

2.2)语义的分类

针对场景的类别对场景的内容进行分类。由于主要面对的数据集为空中航拍的城市的影像，根据图像的内容，可以分类为植被、建筑、道路(路面)、机动车辆、其它。语义的分类可以多种多样，分类的数量也不受约束。由于语义分类并不是本发明的核心，而是所利用的基础信息，所以如何进行语义分类、具体指定分成什么语义、语义种类的数量，都不是需要详细叙述的内容。任意一种可行的语义分类方法、任意指定的语义类别、任意语义种类的数量都是本发明的技术所支持的。

针对无人机航拍场景，主要划分五种语义类别，如表1所示。得到的语义分割情况如图2所示。

表1.场景数据集的语义类别划分

语义类别	标签	可视化颜色
			植被	0	绿
建筑	1	红
			路面	2	蓝
车辆	3	黄
			其他	4	黑

3.本发明方案

直接利用语义分割的结果(上述基础技术)来辅助特征点匹配的工作。如何尽可能地利用语义信息，提升特征点匹配的质量，本发明设计了两种方案，下面分别详细介绍：

方案A：特征点匹配在每个单独语义类别内进行

分别在每个语义内部进行特征点匹配，最后再将不同语义的匹配结果进行汇总，该方法的流程图如图3所示。具体的算法流程如下：

(2)利用本发明的基于上下文语义信息的特征点提取网络，在两张图像I_i上提取特征点，得到两个特征点集合F_i(i＝1,2)，特征点集合中包含了特征点和特征描述子；

(3)结合语义分割图像，每个特征点在对应的S_i上确定语义，两个特征点集合分别根据特征点的语义进行分类，得到按照语义划分的特征点子集F₁＝{F₁ ^C1,F₁ ^C2,…,F₁ ^Ck}，F₂＝{F₂ ^C1,F₂ ^C2,…,F₂ ^Ck}，假设有k个语义类，F₁ ^Ck代表F₁中属于语义C_k的特征点集合；

(4)对两个子集中具有相同语义的特征点进行特征点匹配(可以采用常规方法进行特征点匹配)，得到每个语义相应的匹配对集合M＝{M^C1,M^C2,…,M^Ck}，其中M^Ck是F₁ ^Ck和F₂ ^Ck之间的匹配结果；

算法中步骤(5)可以根据实际情况选择两种方式输出匹配结果，直接输出M在语义分割较为准确的情况下比较节约时间，如果按原始方法进行匹配的时间复杂度是O(n²)，那么按语义类别进行匹配的时间复杂度为O(m²)，其中m＝n/语义类别数目；而加上RANSAC验证则可以得到统一的几何约束。

方案B：特征点匹配之后用语义进行误匹配筛选

该方案主要利用语义分割对特征点匹配结果进行误匹配筛选，即检查已有的匹配点对是否属于相同的语义，该方法的流程图如图4所示。具体的算法流程如下：

(2)利用本发明的基于上下文语义信息的特征点提取网络，在两张图像上提取特征点，每个特征点在对应的S_i上确定语义，得到带语义的特征点，并用常规方法(经典的特征点匹配方法)进行特征点匹配和误匹配筛选，得到总的匹配对集合M；

(3)对于集合M中的每一个匹配对m_i，检验m_i中的两个特征点的语义是否一致(即检验是否具有相同语义)，只有属于相同的语义，才将其放入符合语义一致性的匹配对集合M₁中。最后输出M₁。

4.基于上下文语义信息的特征点提取网络

为实现上述方案A和方案B，本发明设计一个能够提取特征点上下文语义信息的网络，同时实现特征点的提取和特征描述子的输出，实现端到端的训练。

目前应用最广泛的L2-Net网络(Yurun Tian，Bin Fan，Fuchao Wu，et a1.L2-Net：Deep learning of discriminative patch descriptor in euclidean space.InProceedings of the IEEEConference on Computer Vision and Pattern Recognition，2017，6.)主要是实现单个特征点局部区域(patch)到128维描述子向量的映射，而无法从整张图像中同时提取多个特征点。由于输入的局部区域(patch)大小一般为32×32，因此仅能得到特征点邻域内的浅层信息，而无法得到更大范围的高层语义信息。D2-Net实现了统一的特征点检测和描述网络框架，但是使用预训练的VGG16作为基准网络，无法将多尺度上下文信息进行结合。

为了得到更为鲁棒的特征点，既需要特征点邻域浅层特征，也需要更加抽象的高层特征。浅层特征主要集中在特征点邻域较小的范围内，但是有较高的定位精确度和外观辨识度，可以将两个靠得很近的特征点区分开。高层特征则取自于特征点附近较大范围的图像，包含更加抽象的语义信息，面对图像外观变化具有更高的稳定性。在语义分割等任务中早就已经引入了结合多尺度信息的模块，PSPNet采用了PSP模块将不同尺度的池化层结合在一起(Zhao，H.，Shi，J.，Qi，X.，Wang，X.，Jia，J.Pyramid scene parsing network.InCVPR，2017.)，(Chen，L.C.，Papandreou，G.，Kokkinos，I.，Murphy，K.，Yuille，A.L.Deeplab：Semantic image segmentation withdeep convolutional nets，atrousconvolution，and fully connected crfs.arXiv，2016.)设计了ASPP模块来融合图像上下文语义信息。

4.1)网络结构

受语义分割网络中结合多尺度信息模块的启发，本发明设计如图5所示的语义特征点网络(Semantic Feature Point Network，简称SP-Net)来提取特征点，图中Block N是由多个3×3的卷积和池化层组成的模块，FFB和CRB是特殊的特征融合模块，后面会详细介绍它们的功能。

整个网络由两个阶段(分别是特征点检测f_det和特征描述f_desc)组成，第一个阶段对输入图像I进行特征提取得到图像浅层的特征图F_det＝f_det(I)，F_det∈R^H×W×C，其中H×W是特征图的长和宽，而C则是特征图的通道数，在F_det中检测特征点。第二个阶段以F_det作为输入得到图像高层的特征图F_desc＝f_desc(F_det)，F_desc∈R^H×W×C，利用F_desc可以得到每个点处的特征描述子。本发明所设计的特征点网络和语义分割中的网络是类似的，都是全卷积神经网络的一种，并且能够融合多尺度特征，下面分别介绍这两个部分。

(1)特征点检测f_det

在传统SIFT算法中，通过对原始灰度图像进行高斯模糊降采样以及对相邻层作差，构建高斯差分金字塔DOG。在DOG中寻找极值点，便得到了特征点。虽然f_det是卷积神经网络，但是和手工设计的高斯差分金字塔有很多相似点。同样是对图像直接进行卷积操作，高斯模糊可以看作是一种特殊的卷积，而CNN可以通过学习的方法确定卷积核参数。得到的特征图F_det也和DOG一样，都是对图像浅层特征的表达。假设把F_det也看作一种图像特征金字塔(F_det∈R^H×W×C，这里的C＝64，因此金字塔共有64层，每层大小为H×W)，对于其中的第c层可以有以下表达形式：

L^c＝F_det[：，：，c]，c＝1，2，...，C (1)

其中“：”表示该通道的全部元素(这是神经网络的通用公知符号)。

同样通过在F_det中寻找极值来找到特征点，对于第c层中的第(h，w)点可以有以下表达形式：

在实际测试使用阶段，以下述的方法检测特征点。首先确定潜在特征点所属的层，对于特征图中的每个点(h，w)，先寻找它在该位置通道维度上的极值位置c，作为该点所属的层，即：

然后在第c层上，再检查点(h，w)是否是该层上的局部极大值，即：

如果满足条件就把(h，w)视为检测到的特征点。

而在网络训练阶段，由于公式(3)和公式(4)不可微，因此无法通过反向传播算法来进行优化。所以定义一个可微的参数来表示特征点。针对公式(3)，定义通道选择系数A为第c层上点(h，w)的值与该点所有通道上最大值的比值：

针对公式(4)，定义位置选择系数B为第c层上点(h，w)的指数值与该点邻域内所有点指数值的比值：

然后，为了达到极值检测的目的，需要将这两个系数结合起来，得到在(h，w)处的特征点得分s_hw以及归一化得分s′_hw，如公式(7)和公式(8)所示。

这样可以得到一个得分图S，如图6所示，S中每一个点的得分值s反映了图像中该点是特征点的可能性大小。这个得分图S主要用于构建损失函数进行网络训练，而当利用训练好的网络进行特征点检测时，还是直接使用公式(3)和公式(4)中的方法确定特征点。

(2)特征描述f_desc

在传统SIFT算法中，通过统计特征点局部区域(patch)内的梯度信息，得到128维的特征描述子。由于特征点在图像中是稀疏的，因此SIFT描述子也是稀疏的。而f_desc输出的特征图F_desc则是稠密的，也就是说图像中的每一个像素点(h，w)都有一个特征描述向量d_hw，如公式(9)所示。为了和传统的SIFT方法保持一致，f_desc网络最后输出的F_desc是一个长宽为H×W维度为128的3D张量，因此每个d_hw也是128维的。当然了，这里的维度也可以根据不同的任务进行调整。图7示意了特征图F与特征描述子d。

d_hw＝F_desc[h，w，：]，h＝1，2，...，H且w＝1，2，...，W (9)

其中“：”表示通道的全部元素。

在语义分割任务中，为了得到某一个像素的高级语义信息，需要将浅层特征和高层特征进行融合。受语义分割的启发，本发明在f_desc中设计了融合多尺度上下文信息的结构。通过对F_det不断地进行3×3的卷积，并使用最大值池化层进行下采样，可以得到不同尺度的特征图，图5中相对应的模块是Block1(64，64，1/2)、Block2(64，128，1/4)、Block3(128，128，1/8)和Block4(128，256，1/16)，括号中第一个数字是该模块输入通道数，第二个数字是输出通道数，第三个数字是相对于原始图像的分辨率。由此可见，特征图分辨率越低，每个点的感受野越大，所包含的特征越抽象，需要的通道数也越多。为了得到包含多尺度上下文信息的特征，需要将1/4、1/8和1/16这三个不同分辨率的特征图进行融合，输出1/4大小的特征图。然后再对融合后的结果进行4倍的上采样，这样就将特征图还原到原始图像大小。最后，为了得到128维的特征描述子，还需要使用Block5对输出通道进行调整，最终输出128维的F_desc。将Block3、Block4中的某些卷积替换为空洞卷积(F.Yu andV.Koltun.Multi-scale context aggregation by dilated convolutions.arXiv：1511.07122，2015.)，这样在保持特征图分辨率不变的同时，可以扩大感受野，具体方式如图8所示。

为了将不同分辨率的特征图融合，可以直接将它们逐元素相加，也可以在通道维度上直接将它们连接起来，但是这两者效果都不是很好。根据前面的介绍，不同分辨率的特征图在特征表达上是不同的，高分辨率特征图包含更多的浅层特征，外观辨识度和定位精确度都比较高，而低分辨率特征图包含更多的高层特征，对于语义信息的理解比较深。

本发明设计了一个专门的特征融合模块FFB(Feature Fusion Block)，如图9所示。对于Block2、Block3、Block4输出的三个特征图，首先将它们在通道维度上连接起来得到一个512维的特征图F_concat。然后对该特征图进行全局池化(global pool)操作，得到一个512维的向量，这个向量经过卷积层和激活函数，成为一个512维的权重向量v_weight。这个权重向量可以对F_concat每一维通道重新加权，这样来自不同分辨率的特征就可以更好地融合在一起了。另外，本发明还设计了专门的通道改善模块CRB(Channel Refinement Block)对Block3、Block4所输出特征图的各通道进行加权。这个操作在特征融合模块FFB之前进行。

图9的FFB中，concat表示将通道数合并的特征融合操作，mu1表示张量乘积操作，add表示特征图相加。图9的CRB中，bn表示批量归一化操作(Batch Normalization)，sigmoid表示一种激活函数，mul表示张量乘积操作，上述模块皆为神经网络的通用命名的模块。

4.2)损失函数

本发明设计的网络SP-Net可以同时进行特征点检测和描述子生成，需要一个合适的损失函数可以同时对两个阶段进行优化。一个良好的特征点应该具备的特点是：在检测阶段，特征点应该具备可重复性，这样面对视角和光照条件的变化，特征点可以重复出现多幅图像中。在描述阶段，特征点应该具备独特性，这样才能拥有较高的辨识度，可以轻松地对其进行匹配，而且和其它特征点区分开。为了最终结果的鲁棒性，损失函数应该同时考虑这两个重要特性。

(1)特征检测损失函数Loss_det

Loss_det的设计主要考虑特征点的可重复性。最直观的想法就是对于两张图像(I₁，I₂)中的所有匹配特征点，它们在得分图S₁和S₂中对应位置上的得分应该相同，因此可以通过优化S₁和S₂上匹配点之间的均方误差来实现这个目的。但是，这个方法在实际测试中效果并不是很好。

采用的解决方法是：首先，将两张图像(I₁，I₂)输入网络，分别产生两张得分图S₁，S₂。对于S₂可以根据相机位姿和相机内参将其进行投影变换(这个操作定义为w)，得到新的得分图。接着，从新的特征图中选出K个特征点(这个操作定义为t)。然后，用标准差0.5的高斯核对这些选出的位置进行处理，得到ground truth得分图G₁(这个操作定义为g)。通过计算S₁和G₁之间对应位置的均方误差，可以得到最终的特征检测损失函数Loss_det，具体形式如公式(10)和(11)所示。值得注意的是，如果变换后特征点落在图像外部，则不参与优化。

G₁＝g(t(w(S₂))) (10)

Loss_det＝|S₁-G₁|² (11)

(2)特征描述损失函数Loss_desc

Loss_desc的设计主要考虑特征点的独特性。如果从语义的角度来考虑，那么每个特征点都有一个独特的细分语义，正确匹配特征点属于相同语义，非正确匹配属于不同语义。如果用描述子之间的距离来衡量一对特征点之间的相似度，那么正确匹配对的描述子之间距离应该尽可能小，而非正确匹配的描述子之间距离则应该尽可能大。目前三元损失函数及其改进形式已经广泛应用于描述子优化工作中，比如在研究进展中介绍的HardNet等，这里的特征描述损失函数Loss_desc便采用三元损失函数的形式。

给定一对图像(I₁，I₂)和它们之间的匹配点对集合M，其中m是M中的一个匹配对(P₁∈I₁与P₂∈I₂之间的匹配)。假设d_P1和d_P2分别是特征点P₁和P₂的描述子，那么正样本距离l_pos可以定义为：

l_pos＝dist(d_P1，d_P2) (12)

这里的dist(u，v)＝||u-v||₂是两个向量的L2距离。负样本距离l_neg可以定义为：

l_neg＝min(dist(d_P1，d_N2)，dist(d_N1，d_P2)) (13)

这里的N₁和N₂是负样本，其中N₁是I₁中与P₂“最为接近”的非匹配点，N₂是I₂中与P₁“最为接近”的非匹配特征点，它们之间的关系由图10所示。因为邻近像素的感受野有较大的重叠，如果N₁的位置与P₁太过靠近，它们的描述子可能太过于相似，反而不利于优化。所以在实际选择N₁时，会将其限定在P₁周围的小方框外。N₂的选择同理。设t为边界阈值(t＝1)，那么三元损失函数的形式为：

Loss_triplet＝max(0，t+l_pos-l_neg) (14)

最终的Loss_desc还将特征点检测阶段的得分s纳入考虑，在原来的Loss_triplet加上了一个得分权重项，具体形式为：

其中和/>是特征点P₁和P₂(也就是匹配对m)在得分图S₁，S₂上相应的得分，M是所有匹配对的集合。如果P₁和P₂本身就有较高的得分，那么Loss_triplet就会得到较高的权重，使得匹配对P₁和P₂在优化过程中变得更加具有辨识度。简单来讲，越是显著的特征点对，它们的描述子就会越相似，更容易和其他特征点区分开。

4.3)训练数据

本发明设计的网络可以在整张图像中完成所有特征点的检测和描述工作，而不是像L2-Net(Yurun Tian，Bin Fan，Fuchao Wu，et al.L2-Net：Deep learning ofdiscriminative patch descriptor in euclidean space.In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，2017，6.)那样从单个特征点局部区域(patch)得到描述子，因此需要整张图像之间特征点匹配的ground truth作为训练数据集。

本发明采用2018年提出的MegaDepth数据集(Zhengqi Li and NoahSnavely.MegaDepth：Learning single-view depth prediction from internetphotos.In CVPR，2018.)进行网络训练，该数据集包含196个不同的场景，其中的100k张图像提供了相机内外参数和深度图，本发明用上面介绍的方法得到所需要的匹配图像对。最终按照9∶1的比例划分训练集和验证集，训练集和验证集中的图像取自于不同的场景。

4.4)网络训练

本发明采用端到端的形式对网络进行训练，比如采用联合损失函数Loss，见公式(16)，其中λ是损失函数的权重值。但是在实际训练时，联合损失函数收敛效果并不好。

Loss＝λLoss_det+Loss_desc (16)

所以采用分步训练的策略，先用Loss_det对特征点检测f_det部分进行预训练，再用Loss_desc训练整个网络。本发明可采用Adam优化器，预训练阶段的初始学习率设为0.1，完整训练阶段学习率设为10^-3。训练时输入图像统一裁剪为256×256的大小，而在测试时输入图像则没有大小限制。

5.本发明与传统方法对比结果

本发明首先和传统的特征点匹配方法进行对比。传统方法选择SIFT特征点，匹配过程中ratio test阈值选择0.8，并利用RANSAC进行几何一致性验证。本发明采用OpenCV作为实现工具，并根据一些文献中的建议对默认参数进行调整，使得匹配结果尽量的好。

(1)互联网图片数据测试结果

首先针对互联网图片数据进行测试，主要是一些旅游地标场景，这里展示了一些代表性的结果。和传统方法相比，本发明的方法有更密集的正确匹配和更少的错误匹配，并且比基于语义分割的方法效果更好，反映出本发明的方法通过融合图像多尺度特征学到了一定的高层语义信息。右边的示例图像分辨率相对较低，传统方法得到的误匹配较多，本发明的方法结果稍好，也存在部分误匹配。

(2)光照条件变化场景测试结果

针对一些复杂场景也进行了测试。在光照条件变化的场景中，本发明的方法鲁棒性更好。对顺光、逆光场景，传统方法在建筑主体部分匹配较好，但是在边缘区域有一些误匹配，而本发明的方法总体表现更好，并且出现了一些新的匹配点。

(3)视角差异较大场景测试结果

在视角差异较大的场景中，本发明的方法与传统的方法表现都很一般。但是总体上，本发明的方法表现更好。针对分别来自于地面拍摄和航空拍摄的图像，视角差异较大，传统方法基本得不到正确的匹配，而本发明的方法可以得到一些正确匹配。由于训练数据集中包含视角变化的情况，因此深度学习网络可以从中学习到部分仿射不变性。

(4)室内场景测试结果

除此以外还测试了一些手机拍摄的室内场景，和室外场景相比室内场景清晰度较低，而且容易因为曝光因素导致光照条件变化。本发明的方法在室内场景中也是适用的。

Matching Score是匹配内点数量与特征点总数的比值，可以作为匹配准确性的评价指标。除此以外，可以根据匹配内点估计相机位姿，计算旋转、平移向量估计值与groundtruth之间的夹角，通过角度阈值可以判断相机位姿是否准确。选取15°阈值下的mAP(meanAverage Precision)作为位姿估计的评价指标。根据评测结果，本发明的方法匹配准确率更高。同样是以端到端的方式进行特征点检测和描述，本发明的网络加入了多尺度上下文模块，因此提取的特征点能够包含更多的图像高层语义信息，所以在进行特征点匹配时比D2-Net(Mihai Dusmanu,Ignacio Rocco,Tomas Pajdla,Marc Pollefeys,Josef Sivic,Akihiko Torii and Torsten Sattler.D2-Net:A Trainable CNN for JointDescription and Detection of Local Features.In CVPR,2019.)更加鲁棒。

6.本发明所提出的两种方法的结果分析

6.1)方案A的测试结果：

对北大无人机航拍场景PDD数据集中的代表性图像进行语义分割，分别采用方案A中的算法和常规流程特征点匹配方法进行测试，两者均采用OpenCV中的SIFT实现特征点的提取。具体的测试结果参见图11、图12。

为了更好地对比结果，将方案A中的匹配结果按照不同的语义子场景分别展示。由图11可以得知，对于图中的建筑子场景，矩形框中的大厦区域在常规匹配方法中没有得到正确的匹配对，而在相应语义类别内部进行特征点匹配时，则出现了部分新的匹配点对M_new。同样的由图12可以得知，对于图中的植被子场景，矩形框中树木的部分区域在常规匹配方法中无正确结果，而使用语义分割的匹配方案则有部分新的正确匹配对M_new。对于以上的对比结果，可以给出两种解释：

第一种解释，M_new中的匹配在常规方法ratio test环节可能有较高的比值，因此被筛除了，而通过语义约束缩小匹配的范围，最近邻和次近邻的比值则可能符合阈值，因此得以保留。

第二种解释，用常规匹配方法时M_new中的匹配可能根本就不存在。良好的特征点应该有足够的区分度，而图11方框里的大厦区域由于视角变化比较大，因此特征点外观变化比较大，难以区分，图12方框中植被区域纹理比较接近，难以区分。当通过语义约束缩小匹配的范围时，这些区域的干扰项变少，也就是说很难出现植被上的特征点匹配到建筑的情况。

对于图11和图12中的例子，输出常规特征点匹配方法在ratio test阶段之前的匹配情况，发现M_new中的匹配是不存在的，因此第二种解释可能更符合这里的情况，但是不排除其他一些场景中第一种解释又是合理的。

包括航拍场景在内，对其他场景的图像进行了两种方法的对比，大部分情况下，除了速度的提升，加上语义分割后对匹配结果的提升不是很明显，特别是原本匹配结果就很好的情况下。但是在许多特殊情况下，还是可以有明显提升的，如图13所示。事实上由于匹配在单独的语义类别中进行，不同的语义子场景可以用不同的特征点检测和匹配方法，因此方案A中的算法可以根据实际情况进行定制，比如：建筑立面相比于地面视角变化大可以用更加密集的特征点提取参数，地面等平面场景可以用单应矩阵H代替基础矩阵F进行几何验证，移动的车辆属于干扰项可以不参与特征点匹配等。

6.2)方案B的测试结果：

同样对方案B进行了对比测试。方案B在常规特征点匹配的基础上加上了语义一致性约束，因此当原始匹配结果中存在不同语义误匹配的情况(比如建筑匹配到植被)时，可以起到筛除的效果。而对于同一语义内的误匹配情况则无法产生效果。

用准确率(式(17))和召回率(式(18))来衡量特征点匹配的结果，其中TP代表真正例，FN代表假反例，FP代表假正例，TN代表真反例：

综合以上测试结果以及分析可以得出结论：在语义分割结果完全准确的理想情况下，方案A有可能得到常规匹配方法无法得到的假反例，因此可能提高特征点匹配结果的召回率；方案B则可能筛除常规匹配方法遗留的假正例，因此可能提高特征点匹配结果的准确率。

值得注意的是，无论是方案A还是方案B都依赖于准确的语义分割结果，不准确的语义分割会影响算法的效果，而错误的分割结果则可能降低特征点匹配的准确率和召回率。因此，在使用语义分割辅助特征点匹配之前，必须提前确定系统中的语义分割网络是否适用于当前的任务场景。

基于同一发明构思，本发明的另一个实施例提供一种采用本发明的上述方法的基于语义信息的特征点匹配系统，其包括：

语义分割模块，用于对图像按照语义类别进行语义分割；

基于同一发明构思，本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上公开的本发明的具体实施例，其目的在于帮助理解本发明的内容并据以实施，本领域的普通技术人员可以理解，在不脱离本发明的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容，本发明的保护范围以权利要求书界定的范围为准。

Claims

1.一种基于语义信息的特征点匹配方法，其特征在于，包括以下步骤：

对图像按照语义类别进行语义分割；

利用提取出的特征点和特征描述子进行特征点匹配，并基于语义分割的结果对特征点匹配进行约束；

所述基于上下文语义信息的特征点提取网络包括两个阶段：

第一个阶段是特征点检测f_det，对输入图像I进行特征提取得到图像浅层的特征图F_det＝f_det(I),F_det∈R^H×W×C，其中H×W是特征图的长和宽，C是特征图的通道数，在F_det中检测特征点；

第二个阶段是特征描述f_desc，以F_det作为输入得到图像高层的特征图F_desc＝f_desc(F_det),F_desc∈R^H×W×C，利用F_desc得到每个点处的特征描述子；

所述第一个阶段采用以下步骤检测特征点：

首先，确定潜在特征点所属的层，对于特征图中的每个点(h,w)，先寻找它在位置通道维度上的极值位置c，作为该点所属的层，即：

然后，在第c层上，再检查点(h,w)是否是该层上的局部极大值，即：

其中(i,j)是(h,w)邻域内9个点；如果满足条件就把(h,w)视为检测到的特征点；

所述第二个阶段对F_det不断地进行3×3的卷积，并使用最大值池化层进行下采样，得到不同尺度的特征图，然后将不同分辨率的特征图进行融合，得到包含多尺度上下文信息的特征；

所述将不同分辨率的特征图进行融合，包括：采用特征融合模块FFB，将Block2、Block3、Block4输出的三个特征图在通道维度上连接起来得到一个512维的特征图F_concat；然后对该特征图进行全局池化操作，得到一个512维的向量，这个向量经过卷积层和激活函数，成为一个512维的权重向量v_weight；这个权重向量对F_concat每一维通道重新加权，从而将来自不同分辨率的特征融合在一起；并且，采用通道改善模块CRB对Block3、Block4所输出特征图的各通道进行加权，这个操作在特征融合模块FFB之前进行；

所述基于上下文语义信息的特征点提取网络的损失函数包括：

特征检测损失函数Loss_det：首先，将两张图像(I₁,I₂)输入网络，分别产生两张得分图S₁,S₂，对于S₂根据相机位姿和相机内参将其进行投影变换，得到新的得分图；接着，从新的特征图中选出K个特征点；然后，用高斯核对这些选出的位置进行处理，得到groundtruth得分图G₁；通过计算S₁和G₁之间对应位置的均方误差，得到最终的特征检测损失函数Loss_det；

特征描述损失函数Loss_desc：

Loss_triplet＝max(0,t+l_pos-L_neg)

其中，和/>是特征点P₁和P₂构成的匹配对m在得分图S₁,S₂上相应的得分，M是所有匹配对的集合；Loss_triplet是三元损失函数，t为边界阈值，l_pos为正样本距离；l_neg为负样本距离。

2.根据权利要求1所述的方法，其特征在于，所述利用提取出的特征点和特征描述子进行特征点匹配，基于语义分割的结果对特征点匹配进行约束，包括以下方案中的一种：

方案A：特征点匹配在每个单独语义类别内进行；

方案B：在特征点匹配之后用语义进行误匹配筛选。

3.根据权利要求2所述的方法，其特征在于，所述方案A包括以下步骤：

(4)对两个子集中具有相同语义的特征点进行特征点匹配，得到每个语义相应的匹配对集合M＝{M^C1,M^C2,…,M^Ck}，其中M^Ck是F₁ ^Ck和F₂ ^Ck之间的匹配结果；

4.根据权利要求2所述的方法，其特征在于，所述方案B包括以下步骤：

5.一种采用权利要求1～4中任一权利要求所述方法的基于语义信息的特征点匹配系统，其特征在于，包括：

语义分割模块，用于对图像按照语义类别进行语义分割；

6.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～4中任一权利要求所述方法的指令。