CN110659680A

CN110659680A - 一种基于多尺度卷积的图像patch匹配方法

Info

Publication number: CN110659680A
Application number: CN201910872936.6A
Authority: CN
Inventors: 王爽; 焦李成; 魏少玮; 方帅; 杨博武; 李彦锋; 权豆
Original assignee: Xian University of Electronic Science and Technology
Current assignee: Xian University of Electronic Science and Technology
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-01-07
Anticipated expiration: 2039-09-16
Also published as: CN110659680B

Abstract

本发明公开了一种基于多尺度卷积的图像patch匹配方法，通过准备数据集；制作数据集；数据预处理；设计三分支‑双通道网络结构；设计多尺度卷积模块；根据提取的特征计算相似性；网络训练；预测匹配概率；评估网络性能。本发明有效克服了现有技术中训练不充分、没有使用多尺度信息等问题，极大的提高了网络的性能，提升了网络的训练效率，增强了网络的鲁棒性。本发明可应用于图像配准、图像检索、图像追踪、多视角重建等领域。

Description

一种基于多尺度卷积的图像patch匹配方法

技术领域

本发明属于图像处理技术领域，具体涉及一种基于多尺度卷积的图像patch匹配方法。

背景技术

在图像patch之间建立一个精确的匹配对应关系在许多计算机视觉领域中起了至关重要的作用，例如：图像配准、图像检索、细粒度分类等。由于图像的外观容易受到视角变化、光照变化，遮挡，相机参数设定等很多方面的影响，图像匹配具有很大的挑战性，需要提取到的特征具有良好的不变性以及判别性。在本文中我们提出一个通用的方法，不仅仅在同源数据集上取得较好的匹配结果，并且在更加困难的异源数据集上也取得先进的性能。

在深度学习之前，在图像匹配领域普遍使用基于SIFT的方法来提取patch的描述子向量，然后根据两个patch之间的欧氏距离来判断给定的patch对是否匹配。深度学习在许多计算机视觉领域的任务中都取得了非常出色的效果，因此越来越多的研究者开始使用深度学习的方法来解决图像匹配问题。现阶段，基于深度学习的方法主要分成两大类。一种是Metric Learning，另一种是Descriptor Learning。Metric Learning利用卷积神经网络直接建模patch对的相似性度量函数，而Descriptor Learning先使用卷积神经网络提取patch的特征描述子，根据patch对特征描述子之间的欧式距离来判断给定的patch对是否匹配。

现有的数据采样策略是在一个mini-batch内穷尽的挖掘所有的困难负样本，极大的改进基于描述子学习方法的性能。但是这种方法并没有考虑使用patch的多尺度特征。

发明内容

本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于多尺度卷积的图像patch匹配方法，可用于图像检索、目标追踪、图像配准等，能有效的提高同源以及异源图像的匹配精度。

本发明采用以下技术方案：

一种基于多尺度卷积的图像patch匹配方法，包括以下步骤：

S1、准备数据集，使用公开的异源VIS-NIR数据集和同源UBC PhotoTour数据集；

S2、随机挑选2个匹配的patch以及一个不匹配的patch在深度方向级联，获得一个训练的Triplet；

S3、将每一个训练Triplet按照通道进行归一化；

S4、设计三分支-双通道网络结构，网络有三个相同的分支，三个分支共享参数，每个分支的输入是一个双通道图像patch对；

S5、利用多尺度卷积模块结构提取patch对的多尺度特征；

S6、将每个训练Triplet两两组合得到3个双通道patch对，分别输入到每个分支提取patch对的多尺度特征；

S7、将步骤S6中提取的多尺度特征输入全连接层得到每个patch对相似性得分；

S8、基于步骤S7获得的相似性得分，通过挖掘得到一个匹配对和一个困难的不匹配对的相似性得分，然后通过PNSigmoid loss以及Distribution loss联合优化整个网络；

S9、将步骤S8训练得到的权重载入网络，得到每一个输入patch对的相似性概率得分；

S10、分别在UBC PhotoTour以及VIS-NIR数据集上计算FPR95,通过FPR95评估网络在这2个数据集上的性能。

具体的，步骤S1中，VIS-NIR数据集共有9个子集，在Country子集上训练，在剩余8个子集上测试；UBC-PhotoTour数据集包含3个子集(Liberty、Notredame、Yosemite)，每次在一个子集上训练在另外二个子集上测试。

具体的，步骤S3具体为：

S301、对于每个patch块，计算每个通道的均值和标准差，然后将每个通道内的像素值减去其对应的均值和标准差进行通道归一化操作；

S302、对于每个patch块采用随机数据增强操作，包括随机上下翻转，随机镜像翻转和随机旋转。

进一步的，归一化操作，具体为：

其中，m，n表示每个通道的宽度和高度，i，j表示通道中每个元素的坐标，F表示当前通道，F_i,j表示当前像素点的像素值，μ是当前通道的均值，σ是当前通道的标准差，

是归一化之后的通道。

具体的，步骤S5中，多尺度卷积模块包含四个分支，一个1×1分支，一个3×3分支，一个5×5分支以及一个最大池化分支，通过汇聚由不同大小的卷积核得到的特征，输出patch对的多尺度特征。

具体的，步骤S8具体为：

S801、基于步骤S7中得到的Triplet相似性得分＜S_1,2,S_1,3,S_2,3＞挖掘困难负样本，S⁺＝S_1,2，S^-＝max(S_1,3,S_2,3)，S_1，2是一对匹配样本对的相似性得分，S_1,3、S_2,3分别是2个不匹配样本对的相似性得分，S^-表示挖掘得到的困难负样本对的相似性得分；

S802、建立PNSigmoid损失函数训练网络；

S803、建立Distribution loss损失函数缓解由于Triplet采样造成的梯度消失现象；

S804、联合优化PNSigmoid loss损失函数和Distribution loss损失函数，确定最终的损失函数。

进一步的，步骤S802中，PNSigmoid损失函数为：

其中y_i＝0或者1，y_i代表匹配的标签。

进一步的，步骤S803中，Distribution loss具体为：

L(D)＝λ(var_match+var_non-match)+max(0,m-mean_non-match+mean_match)

其中，var_match是匹配样本对相似性分布的方差，mean_match是匹配样本对相似性分布的均值，var_non-match是不匹配样本对相似性分布的方差，mean_non-match是不匹配样本对相似性分布的均值，m代表匹配以及不匹配样本对相似性分布均值之间的间隔，λ代表方差损失和均值损失之间的偏置项。

进一步的，步骤S804中，最终的损失函数为：

L＝L(T)+L(D)

其中，优化器使用Adam，学习率设置为0.001，学习率每过5个epoch衰减0.9。

具体的，步骤S9中，设定阈值为0.5，相似性概率得分大于0.5，则认为匹配，否者认为不匹配。

与现有技术相比，本发明至少具有以下有益效果：

本发明提供的基于多尺度卷积的图像patch匹配方法，利用Triplet采样方式缓解训练中正负样本质量不平衡的问题。并且利用多尺度卷积模块，提取patch的多尺度特征，最后将多尺度特征输入全连接层建模相似性度量函数。为了缓解在训练过程中由于Triplet采样方式导致的梯度消失现象，引入了一个简单高效的Distribution loss进一步提升了匹配性能。

进一步的，本发明在公有的同源数据集(UBCPhotoTour)和异源数据集(VIS-NIR)验证了其具有良好的鲁棒性和泛化能力。

进一步的，使用通道归一化技术，使网络在训练过程中更加稳定。并且通道归一化能够消除通道间特征的差异性，进一步提升学习到的描述子的鲁棒性。

进一步的，本发明提出了一种新颖的三分支-双通道度量学习网络架构，充分结合三分支网络以及双通道网络的优点。三分支-双通道网络具有更好的匹配性能以及更快的收敛速度。

进一步的，本发明提出了一种多尺度卷积模块自动的学习patch对的多尺度特征，这样使得提取的特征更加具有判别性以及不变性。

进一步的，本发明提出了一种能对够对困难样本程度进行自适应加权的PNSigmoid loss。为了缓解由于Triplet采样带来的梯度消失问题，本发明提出了Distribution loss。通过联合优化PNSigmoid loss和Distribution loss取得了先进的匹配性能。

进一步的，本发明利用已经训练好的网络权重，可以计算任意一对输入的patch对图像输出其相似性得分以判断其是否是匹配的。

综上所述，本发明有效克服了现有技术中训练不充分、没有使用多尺度信息等问题，极大的提高了网络的性能，提升了网络的训练效率，增强了网络的鲁棒性。本发明可应用于图像配准、图像检索、图像追踪、多视角重建等领域。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为发明的流程图；

图2为本发明在仿真实验中使用的UBC PhotoTour训练集数据；

图3为本发明在仿真实验中使用的VIS-NIR训练集数据；

图4为本发明三分支-双通道网络结构示意图；

图5为本发明多尺度卷积模块结构示意图；

图6为本发明匹配结果图，其中，(a)为正确的判断为匹配的样本对TP，(b)为正确的判断为不匹配的样本对TN，(c)为错误的判断为匹配的样本对FP，(d)为错误的判断为不匹配的样本对FN。

具体实施方式

基于patch的图像匹配是计算机视觉领域中一项重要的基础研究，其在图像配准、图像检索、多视角重构、图像分类等应用中发挥着重要的作用。当前的基于深度学习的图像匹配方法包括双分支结构、三分支结构、双通道结构，每种结构都有自己的优势，但是当前的方法都没有考虑将上述结构进行整合。此外，当前的方法几乎都没有考虑使用patch的多尺度特征。

本发明提供了一种基于多尺度卷积的图像patch匹配方法，通过准备数据集；制作数据集；数据预处理；设计三分支-双通道网络结构；设计多尺度卷积模块；根据提取的特征计算相似性；网络训练；预测匹配概率；评估网络性能。本发明有效克服了现有技术中训练不充分、没有使用多尺度信息等问题，极大的提高了网络的性能，提升了网络的训练效率，增强了网络的鲁棒性。本发明可应用于图像配准、图像检索、图像追踪、多视角重建等领域。

请参阅图1，本发明一种基于多尺度卷积的图像patch匹配方法，利用两个损失函数联合优化，不仅极大的提高了图像匹配的准确率，而且缩短了网络的训练周期，包括以下步骤：

S1、准备数据集

使用公开的异源VIS-NIR数据集和同源UBC PhotoTour数据集；VIS-NIR数据集共有9个子集，在Country子集上训练，在剩余8个子集上测试。UBC-PhotoTour数据集包含3个子集(Liberty、Notredame、Yosemite)，每次在一个子集上训练在另外二个子集上测试；

S2、制作数据集

随机挑选2个匹配的patch以及一个不匹配的patch在深度方向级联，获得一个训练的Triplet；

S3、数据预处理

将每一个训练Triplet按照通道进行归一化，防止训练过程中出现梯度消失或者梯度爆炸问题；

S4、三分支-双通道网络结构

设计一个三分支-双通道网络结构，网络有三个相同的分支，三个分支共享参数。每个分支的输入是一个双通道图像patch对；

S5、多尺度卷积模块结构

不同的卷积核具有不同的感受野，利用不同大小的卷积核提取patch对的多尺度特征；

S6、多尺度特征提取

将每个训练Triplet两两组合得到3个双通道patch对，分别输入到每个分支提取patch对的多尺度特征；

S7、建模相似性度量函数

将步骤S6中提取的多尺度特征输入全连接层得到每个patch对相似性得分；

S8、训练网络

基于步骤S7获得的相似性得分，通过挖掘得到一个匹配对和一个困难的不匹配对的相似性得分，然后通过PNSigmoid loss以及Distribution loss联合优化整个网络；

S9、预测匹配概率

将步骤S8、训练得到的权重载入网络，得到每一个输入patch对的相似性概率得分；

S10、评估网络性能

分别在UBC PhotoTour以及VIS-NIR数据集上计算FPR95,通过FPR95评估网络在这2个数据集上的性能。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中的描述和所示的本发明实施例的组件可以通过各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

S1、为了评估我们的方法的性能，我们在广泛使用的同源数据集UBC PhotoTour以及异源数据集VIS-NIR上进行验证。UBC PhotoTour包含三个子集分别是：Liberty、Yosemite、Notredame，三个子集分别含有450K、634K、468K独立的patch块和160K、230K、147K唯一的3D point。VIS-NIR包含9个子集，分别是：Country，Field，Forest，Indoor，Mountain，Oldbuilding，Street，Urban，Water，每个子集中匹配样本以及不匹配样本各占一半。在UBC PhotoTour数据集上我们分别在Liberty、Yosemite、Notredame上训练，然后在另外2个子集上测试。在VIS-NIR数据集上，我们在Country子集上训练，在另外8个子集上测试；

S2、UBC PhotoTour数据集上每一个独立的3D point含有2-5个patch，具有相同3Dpoint的2个patch构成一个匹配对。在UBC PhotoTour每个子集上对于每一个3D point随机挑选2个patch(T₁,T₂)构成一个匹配对，然后从另外一个不同的3D point包含的patch中随机挑选一个作为负样本patch(T₃)，T₃和T₁、T₂分别构成2个不匹配的patch对。将T₁、T₂、T₃在深度方向级联构成一个训练样本Triplet＜T₁,T₂,T₃＞，在VIS-NIR采用同样的方式制作训练数据集；

S3、为了防止在训练过程中出现梯度消失，梯度爆炸，以及过拟合现象，对数据预处理包括如下步骤：

S301、对于每个patch块，计算每个通道的均值和标准差，然后将每个通道内的像素值减去其对应的均值和标准差进行通道归一化操作，具体为：

其中，m，n表示每个通道的宽度和高度，i，j表示通道中每个元素的坐标，F表示当前通道，F_i,j表示当前像素点的像素值。μ是当前通道的均值，σ是当前通道的标准差，是归一化之后的通道。在本发明中，通过采取这种通道归一化的方式比直接归一化到[0,1]取得了更高的效果和更快的收敛速度。

S302、对于每个patch块采用随机数据增强操作，包括随机上下翻转，随机镜像翻转和随机旋转；

S4、三分支-双通道网络结构：

参考图3，我们设计了一个三分支-双通道网络结构，网络有三个相同的分支，三个分支共享参数。每个分支的输入是一个双通道图像patch，每个分支包含3个多尺度卷积模块，2个最大池化层，2个1×1卷积层，和2个全连接层，每个分支输出的是一个patch对的相似性概率得分；

S5、多尺度卷积模块结构：

参考图4和图5，多尺度卷积模块包含四个分支，一个1×1分支，一个3×3分支，一个5×5分支(由2个3×3卷积核堆叠得到5×5的感受)以及一个最大池化(maxpooling)分支。通过汇聚由不同大小的卷积核得到的特征，输出patch对的多尺度特征。

S6、多尺度特征提取：

将步骤S3中得到每一个训练Triplet＜T₁,T₂,T₃＞两两组合得到3个patch对，分别是：＜T₁,T₂＞、＜T₁,T₃＞、＜T₂,T₃＞。＜T₁,T₂＞是一个匹配样本对，＜T₁,T₃＞、＜T₂,T₃＞分别是2个不匹配样本对。将3个patch对分别输入每个分支中得到每个patch对的多尺度特征；

S7、将步骤S6中得到的多尺度特征送入每个分支后的2个全连接层计算每个patch对的相似性概率得分，最后网络输出一个Triplet相似性得分＜S_1,2,S_1,3,S_2,3＞；

S8、根据步骤S7中得到的Triplet相似性得分挖掘困难负样本，通过挖掘得到一组匹配样本的相似性概率得分和一组困难的不匹配样本的相似性概率得分。然后通过PNSigmoid loss计算相似性损失，由于Triplet采样方式会导致训练中出现梯度消失现象，引入Distribution loss约束网络，联合优化PNSigmoid loss和Distribution loss；

S802、为了对负样本的困难程度有一个自适应的加权惩罚，使网络能够充分的训练，我们提出了PNSigmoid损失函数：

其中y_i＝0或者1，y_i代表匹配的标签。PNSigmoid损失函数随着负样本对的困难程度的增大而增大，因此会对负样本对的困难程度进行自适应加权，从而使网络优化更加充分；

S803、为了缓解由于Triplet采样造成的梯度消失现象，提出Distribution loss：

L(D)＝λ(var_match+var_non-match)+max(0,m-mean_non-match+mean_match)

其中，var_match是匹配样本对相似性分布的方差，mean_match是匹配样本对相似性分布的均值，var_non-match是不匹配样本对相似性分布的方差，mean_non-match是不匹配样本对相似性分布的均值，m代表匹配以及不匹配样本对相似性分布均值之间的间隔，λ代表方差损失和均值损失之间的偏置项。Distribution loss在一个训练mini-batch内约束匹配以及不匹配样本对相似性分布，缓解了优化时由于采样方式带来的梯度消失问题；

S804、联合优化PNSigmoid loss和Distribution loss，最终的损失函数为：

L＝L(T)+L(D)

优化器使用Adam，学习率设置为0.001，学习率每过5个epoch衰减0.9。

S9、将步骤S8训练得到的权重载入网络，得到每一个输入patch对的相似性概率得分，该分支反应了输入的patch对相似程度，越大代表越相似。以0.5为阈值，相似性概率得分大于0.5，则认为匹配，否者认为不匹配；

S10、分别在UBC PhotoTour以及VIS-NIR数据集上计算FPR95，通过FPR95评估网络在这2个数据集上的性能。

仿真实验条件：

本发明仿真实验的硬件平台是：

戴尔计算机Intel(R)Core5处理器，主频3.20GHz，内存64GB；仿真软件平台是：Spyder软件(Python3.6)版。

仿真实验内容与结果分析：

本发明的仿真实验具体分为两个仿真实验。

请参阅图2和图3，本发明使用公开的UBC PhotoTour以及VIS-NIR数据集。UBCPhotoTour数据集包含3个子集，分别是：Liberty，Yosemite，Notredame。三个子集分别含有450K、634K、468K独立的patch块和160K、230K、147K唯一的3D point。VIS-NIR包含9个子集，分别是：Country，Field，Forest，Indoor，Mountain，Oldbuilding，Street，Urban，Water，每个子集中匹配样本以及不匹配样本各占一半。依照步骤(2)制作训练数据集，在UBCPhotoTour数据集上我们分别在Liberty、Yosemite、Notredame上训练，然后在另外2个子集上测试。在VIS-NIR数据集上，我们在Country子集上训练，在另外8个子集上测试。本发明使用训练好的网络权重预测测试集各组数据的匹配概率，得到的匹配结果参见图6。

仿真实验1

本发明与现有技术的在UBC PhotoTour基准数据集上的性能对比。采用本发明与现有技术中基于CNN的图像匹配方法，分别用相同训练集样本进行训练，再用相同测试集样本对各种方法进行评价。评价结果如表1所示，表中的数据为各方法在测试集各组别上FPR95的值，FPR95越小，表明网络准确率越高。

表1不同方法在UBC PhotoTour数据集上仿真实验测试集准确率

其中，MS-Net表示本发明的结果。从表1可以看出MS-Net在6个子集上的平均性能最好，在三个子集上取得了最优的结果并且可以看到性能增益比较大，分别为：16.2％，43.1％，40.2％。在另外三个子集上虽然没有取得最优结果，但是他们之间的差异非常小。表1说明了本发明在同源数据集上取得了先进的性能。

仿真实验2

本发明与现有技术的在VIS-NIR基准数据集上的性能对比。采用本发明与现有技术中基于CNN的图像匹配方法，分别在Country子集上进行训练，再其他8个子集上对各种方法进行评价。评价结果如表2所示，MS-Net代表本发明所提出的的方法，表中的数据为各方法在测试集各组别上FPR95的值，FPR95越小，表明网络准确率越高。

表2不同方法在VIS-NIR数据集上仿真实验测试集准确率

从表2可以看到，本发明在异源数据集上同样取得了最好的结果并且在异源数据集上取得了更大的性能提升。本发明在大多数子集上取得了最优结果。本发明取得性能高于其他对比算法的原因在于：

1、充分结合了三分支网络和双通道网络的优点具有更好的性能以及更快的收敛速度；

2、使用多尺度卷积模块提取patch对的多尺度特征，使得提取的特征更加具有判别性和不变性；

3、使用了对困难样本程度自适应加权的PNSigmoid loss以及约束相似性分布的Distribution loss。

本发明提出了一种通用的patch匹配算法，不仅仅在同源数据集上取得了很好的效果，在更加困难的异源数据集上依旧取得了先进的性能，本发明实际匹配结果请参见图6。

综上所述，本发明公开的一种基于多尺度卷积的图像patch匹配方法，本发明有效克服了现有技术中训练不充分、没有使用多尺度信息等问题，极大的提高了网络的性能，提升了网络的训练效率，增强了网络的鲁棒性。本发明可应用于图像配准、图像检索、图像追踪、多视角重建等领域。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于多尺度卷积的图像patch匹配方法，其特征在于，包括以下步骤：

S3、将每一个训练Triplet按照通道进行归一化；

S5、利用多尺度卷积模块结构提取patch对的多尺度特征；

2.根据权利要求1所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S1中，VIS-NIR数据集共有9个子集，在Country子集上训练，在剩余8个子集上测试；UBC-PhotoTour数据集包含3个子集(Liberty、Notredame、Yosemite)，每次在一个子集上训练在另外二个子集上测试。

3.根据权利要求1所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S3具体为：

4.根据权利要求3所述的基于多尺度卷积的图像patch匹配方法，其特征在于，归一化操作，具体为：

是归一化之后的通道。

5.根据权利要求1所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S5中，多尺度卷积模块包含四个分支，一个1×1分支，一个3×3分支，一个5×5分支以及一个最大池化分支，通过汇聚由不同大小的卷积核得到的特征，输出patch对的多尺度特征。

6.根据权利要求1所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S8具体为：

S802、建立PNSigmoid损失函数训练网络；

7.根据权利要求6所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S802中，PNSigmoid损失函数为：

其中y_i＝0或者1，y_i代表匹配的标签。

8.根据权利要求6所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S803中，Distribution loss具体为：

L(D)＝λ(var_match+var_non-match)+max(0,m-mean_non-match+mean_match)

9.根据权利要求6所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S804中，最终的损失函数为：

L＝L(T)+L(D)

10.根据权利要求1所述的基于多尺度卷积的图像patch匹配方法，其特征在于，步骤S9中，设定阈值为0.5，相似性概率得分大于0.5，则认为匹配，否者认为不匹配。