CN108537264A

CN108537264A - 基于深度学习的异源图像匹配方法

Info

Publication number: CN108537264A
Application number: CN201810277816.7A
Authority: CN
Inventors: 王爽; 焦李成; 方帅; 权豆; 王若静; 梁雪峰; 侯彪; 刘飞航
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2018-09-14
Anticipated expiration: 2038-03-30
Also published as: CN108537264B

Abstract

本发明提供的基于深度学习的异源图像匹配方法，首先制作异源图像块数据集；图像预处理；获取图像块特征图；通过特征图得到特征向量；特征图的融合并归一化；训练图像匹配网络；预测匹配概率；本发明有效克服了现有技术中异源图像块匹配过拟合的问题，极大的提高了网络的性能，提升了网络的训练效率，增强了网络的鲁棒性。本发明可应用于异源图像配准、图像追踪、多视角重建等领域。

Description

基于深度学习的异源图像匹配方法

技术领域

本发明属于图像处理技术领域，具体涉及基于深度学习的异源图像匹配方法。

背景技术

由于同一目标的不同设备所获取的图像，不仅可以提供更丰富的信息，还可以克服单一数据源自身固有的缺陷，因此多源图像研究越来越受到人们的欢迎。在本文中，我们重点研究多源数据库的相似性匹配问题，并用可见光和近红外公开数据集验证算法的有效性，部分数据请参见图1。由于可见光和近红外交叉谱图像对在同一目标像素值之间的非线性关系，导致此类问题要比同源可见光图像匹配问题更加复杂。

现阶段，基于深度学习的图像匹配问题大致分为两个方向。一种是使用深度卷积神经网络提取patch块的高级特征，再用全连接层对所提取的特征进行分类，判断图像块是否匹配。另一种是利用较浅卷集合提取图像块的轮廓边缘特征得到特征向量，最后通过计算特征向量之间的距离(如欧氏距离)来判断图像块是否匹配。

Xufeng Han等人发表的论文“MatchNet:Unifying Feature and MetricLearning for Patch-Based Matching”(Computer Vision and Pattern Recognition(CVPR),2015IEEE Conference on.IEEE,2015:3279-3286.)提出了一种基于深度卷积神经网络的图像匹配方法。该方法先由两个共享参数的卷积神经网络分别提取一对图像块的特征，然后将两个特征级联，最后由全连接层对级联后的特征向量进行二分类，进而判断该patch对是否匹配。但由于卷积神经网络提取的特征向量丧失了图像大量的空间信息，导致最终的图像块匹配准确率不高。

Cristhian A.Aguilera等人发表的论文“Cross-spectral local descriptorsvia quadruplet network”(Sensors,2017,17(4):873.)中提出了四分支共享参数的网络模型。网络每次输入两对不相同的图像块，两两组合可以得到四个负样本和两个正样本。该方法使用两层卷积层提取图像块的低级特征(如边缘、角点等)，将卷积神经网络所提取的特征视为图像块的特征描述子，并通过每对图像块对应特征向量之间的欧氏距离的比率来判断图像块是否匹配。但这种方法无法发挥深度网络的优秀性能，而且使用欧氏距离作为损失函数，会使网络不易收敛到最优解。

发明内容

本发明提供的基于深度学习的异源图像匹配方法，解决了现有异源图像匹配时存在，使用双分支结构不利于多源数据间的相互融合，此外，级联的特征向量丧失了大量的空间信息，准确率难以提升的问题。

为了达到上述目的，本发明采用的技术方案是：

本发明提供的基于深度学习的异源图像匹配方法，包括以下步骤：

步骤1)，采用VIS-NIR数据集将所需匹配的异源图像制作数据集，得到一组训练集和八组测试集；

步骤2)，将所有需要匹配的异源图像进行预处理，得到预处理后的异源图像；

步骤3)，获取图像块特征图：将预处理后的每对异源图像中的图像块A和图像块B进行左右拼接，拼接后采用改进的VGG网络提取特征，得到输入图像的特征图；接着将所得的特征图左右均分，则分别得到与图像块A对应的特征图V和与图像块B对应的特征图N；

步骤4)，特征图融合：将步骤3)所得的特征图V和特征图N进行做差运算，并将做差后的特征图进行归一化处理，得到融合后的特征图；

步骤5)，训练图像匹配网络：用全连接层和交叉熵损失函数对步骤4)中所得的融合后的特征图进行二分类，得到匹配网络的权重；

步骤6)，预测匹配概率：将步骤5)中训练好的匹配网络权重载入到模型中，并依次读取所有测试集数据，得到softmax分类器输出的异源图像匹配和不匹配的预测值。

优选地，将步骤3)所得的特征图V和特征图N分别进行全局平均池化，得到与图像A对应的特征向量v和与图像B对应的特征向量n；

同时，根据所得的特征向量v和特征向量n，使用对比损失函数来最大化不匹配图像块特征向量的平均欧式距离、以及最小化匹配图像块特征向量的平均欧氏距离。

优选地，所述的对比损失的计算过程，包括有如下步骤：

(6a1)：记特征图V和特征图N经过全局平均池化后的特征向量分别为v和n；则特征向量的平均欧氏距离D(n,v)为：

其中，k表示特征向量的维度；

(6a2)：采用对比损失函数式(1)来最大化不匹配图像块特征向量的平均欧式距离以及最小化匹配图像块特征向量的平均欧式距离：

其中，y表示输入数据的真实标签(当输入的异源图像块匹配时，y为1；不匹配时，y为0)，Q为一个常数，e的自然常数，L(y,n,v)为对比损失函数。

优选地，步骤4)中的特征图融合的方法，具体包括有如下步骤：

(4a)记单张图像块A对应的特征图为V，单张图像块B对应的特征图为N，则融合后的特征图为：F＝N-V；其中，V和N尺寸相同，且均为三维矩阵；

(4b)将每个批次的特征图β＝{F_1...m}进行归一化处理：

其中，m表示每个批次输入成对异源图像块的数量，F_i表示第i个输入数据对应的融合后的特征图，γ和λ分别表示缩放尺寸和偏移量，ε为一个常数，μ_β和σ_β ²分别表示每个批次的特征图β＝{F_1...m}的均值和方差，表示特征图F_i归一化后的值为了保证特征图的多样性，R_i为每个融合后的特征图F_i的归一化结果。

优选地，所述的交叉熵损失的计算方法，按如下步骤进行：

(5b1)：记融合后的特征图R_i经过全连接层和softmax分类器后，得到预测输入数据的正样本和负样本，其中，记正样本的概率为则负样本的概率为

(5b2)：对于单个样本交叉熵损失为：

其中，y为输入数据的真实标签，为网络预测输入数据为匹配样本的概率值。

与现有技术相比，本发明的有益效果是：

本发明提供的基于深度学习的异源图像匹配方法，首先将异源图像块拼接起来作为一个整体输入到网络中，这样不仅有利于异源图像块的信息融合进而提高网络的准确率，而且使网络结构更简单；同时，为了保留输入数据更多的特征，本发明是对异源图像块的融合后的特征图进行分类，而不是对级联的特征向量进行分类，这样有利于提高网络的性能；本发明提出的基于深度学习的异源图像匹配方法不仅在性能上优于其他方法，而且在训练效率上也优于其他方法。

进一步的，为了防止网络层数过深导致的过拟合，新增了一个对比损失函数，用于指导网络如何提取特征。

进一步的，本发明使用两个损失函数交替训练网络，其中对比损失函数用于指导网络如何提取图像特征，交叉熵损失函数用于对每对图像块分类。这样做，不仅能防止由于参数过多而导致的过拟合，而且还加快的网络收敛，提高了训练效率。

进一步的，本发明将每对异源图像块左右拼接在一起作为网络的输入，而不是使用双分支网络结构，即每个网络分支分别输入一个图像块。这样做不仅有利于异源数据的融合，而且使网络结构更简单。

进一步的，本发明使用全连接层和softmax分类器对融合后的特征图进行分类，而不是其他方法中级联的特征向量。从而保留了更多的空间信息，使最终网络预测更准确，网络性能更佳。

附图说明

图1是本发明的流程图；

图2是本发明在仿真实验中使用的标准数据集，其中，图2a、图2c、图2e、图2g为可见光图像块，图2b、图2d、图2f、图2h为近红外图像块，图2a与图2b、图2c与图2d是匹配样本，图2e与图2f、图2g与图2h是不匹配样本；

图3是本发明在八组测试集上产生的ROC曲线；

图4是本发明与其他方法训练效率的对比图。

具体实施方式

下面结合附图对本发明做详细描述。

基于图像块的图像匹配技术是计算机视觉领域里一项最基本的任务之一。它可以应用于图像配准、图像追踪、多视角重建等领域。而由于异源图像相对于同源图像，能提供更丰富的信息，因此异源图像匹配技术越来越受到人们的关注。目前针对基于卷积神经网络的图像块匹配技术大致都采用多分支网络结构，即每个分支输入一个图像块，分别提取两个图像块的特征向量，将两个特征向量级联，再用全连接层对级联后的特征向量进行二分类。首先，使用双分支结构不利于多源数据间的相互融合，此外，级联的特征向量丧失了大量的空间信息，准确率难以提升。

本发明提供的基于深度学习的异源图像匹配方法，如图1所示，包括以下步骤：

步骤1)，根据所需匹配的异源图像制作数据集，得到一组训练集和八组测试集；

步骤3)，获取图像块特征图：将预处理后的每对异源图像中的图像A和图像B进行左右拼接，拼接后采用改进的VGG网络提取特征，得到输入图像的特征图；接着将所得的特征图左右均分，则分别得到与图像A对应的特征图V和与图像B对应的特征图N；其中，改进的VGG网络参数为：

步骤5)，训练图像匹配网络：用全连接层和交叉熵损失函数对步骤4)中所得的融合后的特征图进行二分类，得到匹配网络的权重，其中，交叉熵损失函数用于更新全局网络参数；

步骤6)，预测匹配概率：将步骤5)中训练好的权重载入到模型中，并依次读取所有测试集数据，预测测试集中每对异源图像的匹配概率；

步骤7)，获取图像块特征向量：为了防止网络的过拟合，将步骤3)所得的特征图V和特征图N分别进行全局平均池化，得到与图像A对应的特征向量和与图像B对应的特征向量；

步骤8)，同时，根据步骤7)中所得的图像A对应的特征向量和图像B对应的特征向量，使用对比损失函数来最大化不匹配图像块特征向量的平均欧式距离、以及最小化匹配图像块特征向量的平均欧氏距离，其中，对比损失函数只更新特征提取过程中的参数；

步骤9)，评估网络性能：设置不同的阈值，得到ROC曲线，其中TPR纵坐标，FPR为横坐标。并以TPR＝95％时，FPR的值(即FPR95)作为网络性能的评价指标。

实施例1

本发明针对背景技术所述的现状，展开了研究与创新，提出一种新的基于深度学习的异源图像匹配方法，参见图1，包括有如下步骤：

(1)根据所需匹配的异源图像制作数据集：

为了使算法的效果更有说服力，本发明使用公开的VIS-NIR数据集；该数据集共有9组，分别为：Country、Field、Forest、Indoor、Mountain、Oldbuilding、Street、Urban和Water，其中，每组数据集中匹配的异源图像块和不匹配的异源图像块各占一半，同时，将匹配的异源图像块对应的标签记为1，不匹配的异源图像块对应的标签记为0。

各组数据集大小分布参见表1；与其他方法保持一致，我们用第一组Country作为训练集，剩余八组数据集作为测试集；

表1 VIS-NIR数据集

组别	数据量
		Country	277504
Field	240896
		Forest	376832
Indoor	60672
		Mountain	151296
Oldbuilding	101376
		Street	164608
Urban	147712
		water	143104

(2)将所有需要匹配的异源图像进行预处理，得到预处理后的异源图像，其中，所述预处理的方法为将所有图像块的像素值归一化至0～1之间，这样降低了计算量。

(3)获取图像块特征图：为了让异源数据能更好的融合，本发明将每对异源图像中的图像块A和图像块B左右拼接在一起作为网络的输入，记为A-B，并用改进的VGG网络提取特征，得到输入图像的特征图，再将特征图左右均分，则左半部分为图像块A对应的特征图V，右半部分为图像块B对应的特征图N，具体包括如下步骤：

(3a)将一对异源图像中的图像块A和图像块B左右拼接在一起作为输入数据；在本实施例中，左侧为可见光图像，右侧为近红外图像；

(3b)输入数据通过多层卷积得到特征图，并将特征图左右平均切开，则分别得到与图像A对应的特征图V和与图像B对应的特征图N；其中，在本实施例中，左侧为可见光图像块对应的特征图，右侧为近红外图像块对应的特征图；

(4)获取图像块特征向量：将步骤(3b)得到的特征图分别进行全局平均池化，分别得到可见光和近红外图像块对应的特征向量。

(5)特征图融合并归一化：将步骤(3b)得到的两个特征图进行做差运算，在本实施例中采用右边的特征图减去左边的特征图，并将做差后的特征图进行归一化作为融合后的特征图。

(6)训练图像匹配网络：为了防止网络层数过深导致的过拟合，我们在常规的交叉熵损失函数之外，又增加了一个对比损失函数，该损失函数用于指导网络如何提取特征，具体操作如下：

(6a)计算(4)中得到的两个特征向量的平均欧氏距离D，以欧氏距离为自变量，计算对比损失；

(6b)将(5)中得到的归一化后的特征图经过全连接层，再用softmax分类器进行二分类，并计算交叉熵损失；

(6c)交替重复优化(6a)和(6b)中的损失，直到各自的损失大小保持稳定；其中，6(a)中的对比损失用于更新特征提取过程中的参数，6(b)中的交叉熵损失用于更新全局参数。

(7)预测匹配概率：将步骤(6)中训练好的权重载入到模型中，并依次将所有测试集数据输入到网络中，得到softmax分类器的预测值；其中，softmax输出有两个值。在本实施例中，第一个值是预测输入的两张异源图像块不匹配的概率，第二个值是预测输入的两张异源图像块匹配的概率，我们取第二个值作为预测输入数据相似性的度量，第二个值越大，表明输入的两张异源图像越相似，即越有可能是匹配的。

(8)评估网络性能：通过(7)得到输入异源图像块的相似性后，设置不同的阈值(即若相似性的值高于此阈值，则判定输入的异源图像块匹配，否则不匹配)，即可得到不同阈值下TPR和FPR的值。以TPR纵坐标，FPR为横坐标可以得到一条曲线，叫做ROC曲线。我们以FPR95作为衡量网络性能的标准。

本发明没有采用多分支的网络结构，而是将异源图像块拼接起来作为一个整体输入到网络中，这样不仅有利于异源图像块的信息融合进而提高网络的准确率，而且使网络结构更简单；为了防止网络层数过深导致的过拟合，新增了一个对比损失函数，用于指导网络如何提取特征；同时，为了保留输入数据更多的特征，本发明是对异源图像块的融合后的特征图进行分类，而不是对级联的特征向量进行分类。

实施例2

基于深度学习的异源图像匹配方法同实施例1，本发明步骤(5)中的特征图融合的方法，具体包括有如下步骤：

(5a)记单张可见光图像块对应的特征图为V，单张近红外图像块对应的特征图为N，则融合后的特征图为：F＝N-V；其中，V和N尺寸相同，且均为三维矩阵；

(5b)为防止F中存在大量的0，而导致训练过程中梯度消失，我们将每个批次的特征图β＝{F_1...m}进行归一化处理：

其中，m表示每个批次输入成对异源图像块的数量，F_i表示第i个输入数据对应的融合后的特征图，γ和λ分别表示缩放尺寸和偏移量，ε为一个常数，μ_β和σ_β ²分别表示每个批次的特征图β＝{F_1...m}的均值和方差，表示特征图F_i归一化后的值为了保证特征图的多样性，我们通过γ和λ对进行随机扰动，最终得到每个融合后的特征图F_i归一化的结果R_i。在本实施例中m为500，γ服从均值为1，方差为0.02的高斯分布，λ为0，ε为0.00001。。

本发明先将异源图像块对应的特征图进行做差融合，然后，我们对特征图进行了归一化操作。这一操作可以防止融合后的特征图存在大量的0而导致梯度消失，而且还可以排除不同数据间的像素值差异造成的干扰。本发明奖融合后的特征图进行归一化操作之后送入全连接层进行二分类，而取代了以往使用级联的特征向量进行分类的方式。这是因为特征图相较于特征向量包含有更丰富的空间信息，有利于提高网络的性能。

实施例3

基于深度学习的异源图像匹配方法同实施例1-2，本发明步骤(6a)中的对比损失的计算过程，包括有如下步骤：

其中，k表示特征向量的维度，在本实施例中k为512。

(6a2)：为了让匹配的异源图像块对应的D(n,v)尽可能的小，不匹配的异源图像块对应的D(n,v)尽可能的大，则对于单个样本我们设计了一个对比损失函数：

其中，y表示输入数据的真实标签(当输入的异源图像块匹配时，y为1；不匹配时，y为0)，Q为一个常数，在本实施例中Q取2，e为自然常数，L(y,n,v)即为对比损失函数，用于衡量特征提取网络所提取特征的好坏。该损失函数最大化不匹配的异源图像块对应的D(n,v)，最小化匹配的异源图像块对应的D(n,v)，能够很好的防止网络过拟合。

实施例4

基于深度学习的异源图像匹配方法同实施例1-3，本发明步骤(6b)所述的交叉熵损失的计算方法，按如下步骤进行：

(6b1)：记步骤(5)中的特征图R_i经过全连接层和softmax分类器后，得到预测输入数据的匹配样本(正样本)和不匹配样本(负样本)，其中，记正样本的概率为则负样本的概率为

(6b2)：对于单个样本交叉熵损失为：

其中，y为输入数据的真实标签(当输入的异源图像块匹配时，y为1；不匹配时，y为0)，为网络预测输入数据为匹配样本的概率值(0～1之间)。该损失函数用于衡量网络分类的准确性，当y和越接近时，交叉熵损失约小。

实施例5

基于深度学习的异源图像匹配方法同实施例1-4，本发明步骤(6c)所述的交替迭代训练方法，按如下步骤进行：

(6c1)：根据(6a2)中的单个样本的对比损失函数，计算每个批次的对比损失：

(6c2)：根据(6b2)单个样本交叉熵损失函数，计算每个批次的交叉熵损失：

(6c3)：交替迭代(6c1)和(6c2)中的损失，在本实施例中，使用Adam优化器计算梯度并更新参数，且学习率为0.0001。

其中，yⁱ表示第i个输入数据的真实标签，表示网络预测第i个输入数据为匹配样本的概率值，D(nⁱ,vⁱ)表示nⁱ和vⁱ的平均欧氏距离。(6c1)中的对比损失用于更新特征提取过程中的参数，(6c2)中的交叉熵损失用于更新网络的全局参数。

下面结合仿真对本发明的技术效果再做说明。

实施例6

基于深度学习的异源图像匹配方法同实施例1-5。

仿真实验条件：

本发明仿真实验的硬件平台是：戴尔计算机Intel(R)Core5处理器，主频3.20GHz，内存64GB；仿真软件平台是：Spyder软件(Python3.5)版。

仿真实验内容与结果分析：

本发明的仿真实验具体分为两个仿真实验，所使用的异源图像如图2所示：

本发明使用公开的VIS-NIR数据集。该数据集共有9组，分别为：Country，Field，Forest，Indoor，Mountain，Oldbuilding，Street，Urban，Water，每组中匹配的和不匹配的图像块各占一半，匹配的异源图像块对应的标签记为1，步匹配的异源图像块对应的标签记为0，各组数据大小分布参见表1。与其他方法保持一致，我们用第一组Country作为训练集，剩余八类作为测试集。本发明使用训练好的网络权重预测测试集各组数据的匹配概率，得到的ROC曲线参见图3。

仿真实验1：本发明与现有技术的对比。采用本发明与现有技术中基于CNN的图像匹配方法，分别用相同训练集样本进行训练，再用相同测试集样本对各种方法进行评价。评价结果如表2所示，表中的数据为各方法在测试集各组别上FPR95的值，FPR95越小，表明网络准确率越高。为了衡量网络的鲁棒性，我们采用各组别FPR95的方差来衡量网络的稳定性，方差越小,表明网络越鲁棒。

表2不同方法仿真实验测试集准确率

其中，F-Net表示本发明方法，数据加粗的部分表示在对应组别中性能最佳。从表2中可以看出，无论是在平均准确率上还是在网络鲁棒性上均高于表2中列举的其他方法。对于测试集的大多数组别，本发明相比于表2中列举的其他方法准确率要高，FPR95指标的平均值至少提高近4％。本发明识别率高于其他两种算法的原因是，1.本发明将输入的两个异源图像块左右拼接成一个整体作为网络的输入，而不是采用多分支网络结构，有利于数据间的融合，2.本发明使用特征图融合再分类，相较于级联的特征向量保留了更多的空间信息。本发明的鲁棒性优于其他算法的原因是，本发明新引入了一个对比损失函数，用于指导网络如何提取特征，可以有效的防止过拟合。

实施例7

基于深度学习的异源图像匹配方法同实施例1-5，仿真条件和内容同实施例6。

仿真实验2：采用本发明方法，在训练集(Country组)上迭代不同的周期，并测试不同周期下在测试集上的准确率，用于衡量网络的训练效率。在本实施例中，使用测试集中的Field组来衡量不同训练周期下的FPR95的值，实验结果请参见图4。其中F-Net表示本发明方法。从图4中可以看出，本发明在训练10个周期即区域收敛，远远快于其他方法。这是由于本发明在训练网络的过程中新增了一个对比损失函数，可以有效指导网络如何产生正确的梯度下降方向，防止训练过程中产生的数据震荡。

本发明提出的基于深度学习的异源图像匹配方法不仅在性能上优于其他方法，而且在训练效率上也优于其他方法。

综上所述，本发明公开的一种基于深度学习的异源图像匹配方法，有效解决了异源图像像素值之间非线性关系导致的过拟合问题。

其步骤为：制作异源图像块数据集；图像预处理；获取图像块特征图；通过特征图得到特征向量；特征图的融合并归一化；训练图像匹配网络；预测匹配概率；评估网络性能。本发明有效克服了现有技术中异源图像块匹配过拟合的问题，极大的提高了网络的性能，提升了网络的训练效率，增强了网络的鲁棒性。本发明可应用于异源图像配准、图像追踪、多视角重建等领域。

Claims

1.基于深度学习的异源图像匹配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于深度学习的异源图像匹配方法，其特征在于，将步骤3)所得的特征图V和特征图N分别进行全局平均池化，得到与图像A对应的特征向量v和与图像B对应的特征向量n；

3.根据权利要求2所述的基于深度学习的异源图像匹配方法，其特征在于，所述的对比损失的计算过程，包括有如下步骤：

其中，k表示特征向量的维度；

其中，y表示输入数据的真实标签，Q为一个常数，e的自然常数，L(y,n,v)为对比损失函数。

4.根据权利要求1所述的基于深度学习的异源图像匹配方法，其特征在于，步骤4)中的特征图融合的方法，具体包括有如下步骤：

(4b)将每个批次的特征图β＝{F_1...m}进行归一化处理：

5.根据权利要求1所述的基于深度学习的异源图像匹配方法，其特征在于，所述的交叉熵损失的计算方法，按如下步骤进行：

(5b2)：对于单个样本交叉熵损失为：