CN112396089A

CN112396089A - 基于lfgc网络和压缩激励模块的图像匹配方法

Info

Publication number: CN112396089A
Application number: CN202011125890.0A
Authority: CN
Inventors: 陈珺; 顾越; 罗林波; 龚文平; 王永涛; 宋俊磊
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-02-23
Anticipated expiration: 2040-10-20
Also published as: CN112396089B

Abstract

本发明提供了一种基于LFGC网络和压缩激励模块的图像匹配方法，获取图像，所述图像中，一部分作为训练集，一部分作为验证集，剩下的一部分作为测试集；将压缩激励模块融入LFGC网络中，构建用于图像匹配的网络模型；利用作为训练集的图像对所述用于图像匹配的网络模型进行训练，获得训练好的用于图像匹配的网络模型；利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配，获得待匹配图像的匹配结果。本发明可以使用全局信息来有选择地强调信息丰富的特征，并抑制无用特征，并提高了网络的表征能力。

Description

基于LFGC网络和压缩激励模块的图像匹配方法

技术领域

本发明涉及图像匹配领域，尤其涉及一种基于LFGC网络和压缩激励模块的图像匹配方法。

背景技术

在两组图像点集间建立一组可靠的匹配关系是计算机视觉中的一项基本任务，在目标识别与跟踪(Target recognition and tracking)、医学图像分析(Medical imageanalysis)及遥感图像处理(Remote sensing image processing)等方面的广泛应用使得这一任务受到了研究者们的关注。从现有的研究成果来看，图像匹配通常采用两步法，即先建立初始匹配然后再剔除掉错误匹配(离群点)。建立初始匹配的过程通常是对一些局部特征描述子进行匹配，例如SIFT和LIFT。但是，由于关键点定位错误、局部描述子的局限性和视角变化等问题，初始匹配中通常都会不可避免地出现一些错误匹配。为了解决这个问题，研究者们通常采用离群点剔除方法作为后处理，以确保剔除掉更多错误匹配从而提高最终匹配结果的准确性。另外，离群点剔除算法对于精确的相机相对姿态估计也是必需的，在剔除掉离群点之后可以从内点中恢复出由本质矩阵编码的相机相对姿态。

图像匹配技术有着广泛的应用背景，其涉及的领域包括计算机视觉、医学图像分析以及遥感图像处理等。在计算机视觉领域中，图像匹配技术用于对目标进行三维形状重建、对监控视频进行实时监测以及对实时图像的模板进行匹配；医学图像分析中图像匹配技术的应用包括了对康复治疗及肿瘤变化的监控，以及对病人图像与数字化人体图像进行对比，从而能够为病人提供有效的治疗方案；在遥感图像处理中，土地使用监测、景观规划和航空卫星影像匹配等都使用到了图像匹配技术。另外，该技术还用于融合不同传感器获取的具有不同特征的信息，例如提供最佳空间分辨率的全色图像以及独立于云量和太阳光照的雷达图像等。在诸多领域中的应用无疑说明了图像匹配技术的重要性。从图像匹配技术在以上领域中的应用可以发现，不同领域的人们对匹配技术的要求越来越高。在这种需求下，如何才能使图像匹配算法达到匹配结果准确率高的同时又拥有较好的实时性、鲁棒性和抗干扰性成为了研究人员们首要的追求目标。另外，在实际应用过程中，待匹配的图像点集往往数量庞大且种类复杂多样，想要设计一个统一的通用算法来解决所有的图像匹配问题是非常困难的。因此，对图像匹配技术进行进一步的研究具有重要的意义。

发明内容

为了解决上述问题，本发明提供了一种基于LFGC网络和压缩激励模块的图像匹配方法，包括以下步骤：

S1、获取图像，所述图像中，一部分作为训练集，一部分作为验证集，剩下的一部分作为测试集；

S2、将压缩激励模块融入LFGC网络中，构建用于图像匹配的网络模型；

S3、利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练，获得训练好的用于图像匹配的网络模型；

S4、利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配，获得待匹配图像的匹配结果。

进一步地，在步骤S2中，所述用于图像匹配的网络模型的输入为一个H×D的张量P，输出为一个H×C的张量O；

所述用于图像匹配的网络模型包含M个SE-CNe模块，且M个残差网络模块从上到下依次连接；

每个SE-CNe模块中均包括：第一感知器、上下文标准化层、批量标准化层与ReLU激活函数、第二感知器和压缩激励模块；

其中，第一感知器用于生成特征图，并将张量P的维度从输入维度H×D转换为特征维度H×C，并将所述特征图输入到上下文标准化层；

上下文标准化层用于根据输入的特征图来获取全局上下文关系，并对所述全局上下文关系进行建模，得到上下标准化后的特征图，并将所述上下标准化后的特征图输入到批量标准化层与ReLU激活函数；

批量标准化层与ReLU激活函数用于对每个神经元的输入进行标准化，得到批量标准化并激活后的特征图，并将所述批量标准化并激活后的特征图输入到第二感知器；

第二感知器用于接收所述批量标准化并激活后的特征图，处理后得到合并上下文信息后的特征图，并将所述合并上下文信息后的特征图分别输入到压缩激励模块中的全局平均池化层和Scale层；其中，所述合并上下文信息后的特征图中包括多个特征通道；

所述合并上下文信息后的特征图输入到压缩激励模块中的全局平均池化层后，对所述合并上下文信息后的特征图进行挤压与激励操作，得到所述合并上下文信息后的特征图中各特征通道的权重，并将所述各特征通道的权重输入到Scale层；

Scale层用于接收所述合并上下文信息后的特征图和所述各特征通道权重，然后将所述合并上下文信息后的特征图与所述各通道权重进行逐通道相乘，得到重新标定后的特征图；

所述重新标定后的特征图与所述第一感知器生成的特征图进行相加后得到的结果即为当前SE-CNe模块的输出；

其中，第1个SE-CNe模块的输入为一个H×D的张量P，第m个SE-CNe模块的输入为：第m-1个SE-CNe模块的输出，m∈[2,M]；第M个SE-CNe模块的输出结果，即为用于图像匹配的网络模型的输出结果；

进一步地，步骤S3中，利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练，包括以下步骤：

S3-1、采用SIFT算法对步骤S1中作为训练集的图像进行特征点提取，并建立初始匹配集；

S3-2、将步骤S3-1中所述初始匹配集输入到所述用于图像匹配的网络模型，对所述用于图像匹配的网络模型进行训练；

进一步地，所述压缩激励模块包括：全局平均池化层、第一全连接层与ReLU激活函数、第二全连接层与Sigmoid激活函数和Scale层；

其中，全局平均池化层用来生成各特征通道的统计信息，得到描述全局空间信息的通道描述子，并将所述通道描述子输入到第一全连接层与ReLU激活函数；

第一全连接层与ReLU激活函数用来对所述通道描述子进行降维，得到降维后的通道描述子，并将所述降维后的通道描述子输入到第二全连接层与Sigmoid激活函数；

第二全连接层与Sigmoid激活函数用来对所述降维后的通道描述子进行升维，得到各特征通道的权重；

利用所述压缩激励模块来对各特征通道之间的依赖关系进行建模，并获得各特征通道的权重，具体包括：

1)将全局空间信息压缩到通道描述子中，采用全局平均池化来生成各特征通道的统计信息，具体如公式(1)：

其中，s_n表示第n个特征通道的统计信息，u_n表示第n个合并上下文信息后的特征图，G×R表示空间维度，F_sq()表示挤压操作，n∈[1,N]，N表示特征通道的总数，i表示合并上下文信息后的特征图的第i行，j表示合并上下文信息后的特征图的第j列，u_n(i,j)表示第n个合并上下文信息后的特征图中第i行第j列的元素；

2)采用一个门控机制来捕获各特征通道的权重信息，如公式(2)：

e＝F_ex(s，W)＝σ(W₂δ(W₁s)) (2)

其中，e＝{e₁,...,e_n,...,e_N}，e_n表示第n个特征通道的权重，F_ex()表示激励操作，σ()表示Sigmoid激活函数，s＝{s₁,...,s_n,...,s_N}，s_n表示第n个特征通道的统计信息，W表示全连接层的参数，W₁和W₂分别表示第一全连接层和第二全连接层的参数；

该门控机制中包括两个全连接层和一个ReLU激活函数，其中，所述两个全连接层中，一个具有参数W₁的降维层和一个具有参数W₂的升维层；

3)利用各特征通道的权重对第二感知器的输出进行缩放，来获得压缩激励模块的最终输出，该过程如公式(3)：

z_n＝F_scale(u_n,e_n)＝e_n·u_n (3)

其中，z_n表示第n个合并上下文信息后的特征图与第n个特征通道权重相乘后的特征图，F_scale()代表第n个合并上下文信息后的特征图u_n和第n个特征通道的权重e_n之间的逐通道乘法，所述第二感知器的输出即为所述合并上下文信息后的特征图；

进一步地，在步骤S4中，任意两张待匹配图像之间的匹配方法如下：

S41、采用SIFT算法提取两张待匹配图像中的特征点，并获取两张待匹配图像的初始匹配集合x＝[c₁,...,c_h,...,c_H]，其中，c_h＝[a_h,b_h,a'_h,b'_h]，c_h表示第h组初始匹配对，H表示初始匹配集中匹配对总数，(a_h,b_h)和(a'_h,b'_h)分别表示两张图像中对应特征点的坐标；

S42、将步骤S41中的初始匹配集合输入到所述用于图像匹配的网络模型中，剔除步骤S41中所述初始匹配集合中的离群点，得到两张待匹配图像的最终匹配集合，即为两张待匹配图像的匹配结果，如公式(4)和(5)：

f＝f_φ(x) (4)

w＝tanh(ReLU(z)) (5)

其中，f是用于分类的逻辑值，f_φ(·)表示用于图像匹配的网络模型，φ表示用于图像匹配的网络模型中的参数，tanh()和ReLU()为激活函数，w是赋予的初始匹配的权重，w＝[w₁...w_h...w_H]，w_h的值为0或1，w_h＝0表示c_h是一个离群点，即表示初始匹配对c_h是一个错误匹配，w_h＝1表示c_h是一个内点，即表示初始匹配对c_h是一个正确匹配，最终的匹配集合即为保留w_h＝1的所有初始匹配对构成的集合；

进一步地，用于图像匹配的网络模型的优化目标是最小化混合损失函数，该混合损失函数loss的计算公式如公式(6)所示：

其中，l_ess的计算公式如(7)所示:

的计算公式如(8)所示:

其中，L是匹配的地真标签，E是地真本质矩阵，

是用于图像匹配的网络模型所预测的本质矩阵，l_cls是分类项的二元交叉熵损失函数，l_ess是对于本质矩阵的回归损失函数，β是用来平衡两种损失的权重，g(w,x)是一个将初始匹配集合x与权重矩阵w作为输入并得到本质矩阵

的函数，||.||²表示范数的平方；

进一步地，M＝24。

本发明提供的技术方案带来的有益效果是：可以使用全局信息来有选择地强调信息丰富的特征，并抑制无用特征，并提高了网络的表征能力。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1是本发明实施例中基于LFGC网络和压缩激励模块的图像匹配方法的流程图；

图2是本发明实施例中用于图像匹配的网络模型的结构示意图；

图3是本发明实施例中压缩激励模块的结构示意图；

图4是本发明实施例中St.Peters数据集中不同阈值下的mAP比较结果；

图5是本发明实施例中Brown数据集中不同阈值下的mAP比较结果；

图6是本发明实施例中Reichstag数据集中不同阈值下的mAP比较结果；

图7是本发明实施例中精确率比较结果；

图8是本发明实施例中召回率比较结果；

图9是本发明实施例中F分数比较结果。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

本发明的实施例提供了一种基于LFGC网络和压缩激励模块的图像匹配方法。

请参考图1，图1是本发明实施例中基于LFGC网络和压缩激励模块的图像匹配方法的流程图，该方法包括以下步骤：

S1、获取图像，所述图像中，一部分作为训练集，一部分作为验证集，剩下的一部分作为测试集；其中，所述图像包括：室外数据集St.Peters和Reichstag以及室内数据集Brown；St.Peters和Brown数据集中分别包含有2506和841个图像对，内点比率分别为6.4％和9.4％，这些图像对中存在有视点变化、遮挡、深度变化、无纹理区域和重复区域等问题，能够有效的测试算法的性能；Reichstag则为图像未知数据集，内点比率为10.7％；本实施例中，将每个数据集中的图像拆分为三组，即60％的图像作为训练集，20％的图像作为验证集，以及20％的图像作为测试集；

S3、利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练，获得训练好的用于图像匹配的网络模型；其中，利用步骤S1中作为验证集和测试集的图像对用于图像匹配的网络模型进行验证；

利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练，包括以下步骤：

S4、利用所述训练好的用于图像匹配的网络模型对待匹配图像进行匹配，获得待匹配图像的匹配结果；

任意两张待匹配图像之间的匹配方法如下：

S42、将步骤S41中的初始匹配集合输入到所述用于图像匹配的网络模型中，剔除步骤S41中所述初始匹配集合中的离群点，得到两张待匹配图像的最终匹配集合，即为两张待匹配图像的匹配结果，如公式(1)和(2)：

f＝f_φ(x) (1)

w＝tanh(ReLU(z)) (2)

其中，f是用于分类的逻辑值，f_φ(·)表示用于图像匹配的网络模型，φ表示用于图像匹配的网络模型中的参数，tanh()和ReLU()为激活函数，w是赋予的初始匹配的权重，w＝[w₁...w_h...w_H]，w_h的值为0或1，w_h＝0表示c_h是一个离群点，即表示初始匹配对c_h是一个错误匹配，w_h＝1表示c_h是一个内点，即表示初始匹配对c_h是一个正确匹配，最终的匹配集合即为保留w_h＝1的所有初始匹配对构成的集合。

请参考图2，图2是本发明实施例中用于图像匹配的网络模型的结构示意图；如图所示，所述用于图像匹配的网络模型的输入为一个H×D的张量P，输出为一个H×C的张量O；其中，H表示初始匹配对的总数，D表示初始匹配集合的维度，C表示所述用于图像匹配的网络模型输出的特征图的特征维度；

所述用于图像匹配的网络模型包含M个SE-CNe模块，且M个SE-CNe模块从上到下依次连接，M＝24；

每个SE-CNe模块中均包括：第一感知器

上下文标准化层(ContextNorm)、批量标准化层(BatchNorm)与ReLU激活函数、第二感知器

和压缩激励模块；

其中，第1个SE-CNe模块的输入为一个H×D的张量P，第m个SE-CNe模块的输入为：第m-1个SE-CNe模块的输出，m∈[2,M]；第M个SE-CNe模块的输出结果，即为用于图像匹配的网络模型的输出结果。

用于图像匹配的网络模型的优化目标是最小化混合损失函数，该混合损失函数loss定义如下：

其中，l_ess的计算公式如(4):

的计算公式如(5):

其中，L是匹配的地真标签，E是地真本质矩阵，

的函数，||.||²表示范数的平方。

请参考图3，图3是本发明实施例中压缩激励模块的结构示意图；所述压缩激励模块包括：全局平均池化层(Global pooling)，第一全连接层(FC)与ReLU激活函数、第二全连接层(FC)与Sigmoid激活函数和Scale层；

其中，全局平均池化层用来生成各通道的统计信息，得到描述全局空间信息的通道描述子，并将所述通道描述子输入到第一全连接层与ReLU激活函数；

1)将全局空间信息压缩到通道描述子中，采用全局平均池化来生成各特征通道的统计信息，具体如公式(6)：

其中，s_n表示第n个特征通道的统计信息，u_n表示第n个合并上下文信息后的特征图，G×R表示空间维度，F_sq()表示挤压操作，n∈[1,N]，N表示通道的总数，i表示合并上下文信息后的特征图的第i行，j表示合并上下文信息后的特征图的第j列，u_n(i,j)表示第n个合并上下文信息后的特征图中第i行第j列的元素；

2)采用一个门控机制来捕获各特征通道的权重信息，如公式(7)：

e＝F_ex(s，W)＝σ(W₂δ(W₁s)) (7)

3)利用各特征通道的权重对第二感知器的输出进行缩放，来获得压缩激励模块的最终输出，该过程如公式(8)：

z_n＝F_scale(u_n,e_n)＝e_n·u_n (8)

其中，z_n表示第n个合并上下文信息后的特征图与第n个特征通道权重相乘后的特征图，F_scale()代表第n个合并上下文信息后的特征图u_n和第n个特征通道的权重e_n之间的逐通道乘法，所述第二感知器的输出即为所述合并上下文信息后的特征图。

本实施例中，为验证所提方法的优越性，从以下几个方面对所提方法进行评价：

(1)相机的相对姿态

将初始匹配标记为内点或离群点，从内点中恢复出本质矩阵

采用八点法估计出相机的相对姿态，相机的相对姿态由旋转和平移矢量表示以进行评估。

首先计算估计的向量和地真向量之间的误差，然后根据这些误差的直方图生成平均精确度的均值(mAP)。

相机姿态估计实验结果如表1所示，其中输入的初始匹配是用SIFT描述子进行最近邻匹配的结果，St.Peters/Reichstag则表示采用St.Peters数据集作为训练集并采用Reichstag数据集作为测试集。从表1中我们可以看到，我们的方法在St.Peters，Brown和Reichstag这三个数据集上都取得了最好的效果。

表1在图像数据集上的相机姿态估计实验比较结果

(2)在三个基本数据集上的效果

将所提方法在三个基本数据集上的效果与其他方法进行比较，并采用不同的前处理和后处理方法。在实验过程中加入了RANSAC后处理，以进一步提高性能。

将每个数据集中的图像拆分为三组，即60％的训练集，20％的验证集，以及20％的测试集。

为了研究传统手动提取的特征与最近提出的基于深度学习的特征之间的差异，使用SIFT和LIFT来提取特征，然后分别用这两种特征点在三个基本数据集上建立初始匹配。

图4-图6给出了三种数据集中在不同阈值下的mAP比较结果，从实验结果中可以看到：

1)基于学习的LIFT始终要比手动特征SIFT效果更好；

2)与LFGC相比，所提方法在室外数据集St.Peters上获得的实验结果有较大的提升，而在室外数据集Reichstag和室内数据集Brown上，利用所提方法获得的实验结果提高了大约五个百分点。

(3)精确率、召回率和F分数

本实施例中还计算了LFGC和所提方法的精确率(Precision)、召回率(Recall)和F分数(F-score)，其中，精确率定义为保留的内点数量与初始特征点总数的比值，召回率定义为保留的内点数量与初始内点数量的比值，F分数的定义如下所示：

如图7-图9所示，在三个基本数据集上，所提方法的精确率相比于LFGC提高了约有5到7个百分点，召回率有所下降，F-score则提升了4到6个百分点，总体而言，所提方法性能指标相比于LFGC有了一定的提升。

本发明的有益效果是：可以使用全局信息来有选择地强调信息丰富的特征，并抑制无用特征，并提高了网络的表征能力。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：在步骤S2中，所述用于图像匹配的网络模型的输入为一个H×D的张量P，输出为一个H×C的张量O；

所述用于图像匹配的网络模型包含M个SE-CNe模块，且M个SE-CNe模块从上到下依次连接；

3.如权利要求1所述的基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：步骤S3中，利用步骤S1中作为训练集的图像对所述用于图像匹配的网络模型进行训练，包括以下步骤：

S3-2、将步骤S3-1中所述初始匹配集输入到所述用于图像匹配的网络模型，对所述用于图像匹配的网络模型进行训练。

4.如权利要求2所述的基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：所述压缩激励模块包括全局平均池化层、第一全连接层与ReLU激活函数、第二全连接层与Sigmoid激活函数和Scale层；

e＝F_ex(s，W)＝σ(W₂δ(W₁s)) (2)

z_n＝F_scale(u_n,e_n)＝e_n·u_n (3)

5.如权利要求1所述的基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：在步骤S4中，任意两张待匹配图像之间的匹配方法如下：

f＝f_φ(x) (4)

w＝tanh(ReLU(z)) (5)

6.如权利要求5所述的基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：用于图像匹配的网络模型的优化目标是最小化混合损失函数，该混合损失函数loss的计算公式如公式(6)所示：

其中，l_ess的计算公式如(7)所示:

的计算公式如(8)所示:

其中，L是匹配的地真标签，E是地真本质矩阵，

的函数，||.||²表示范数的平方。

7.如权利要求2所述的基于LFGC网络和压缩激励模块的图像匹配方法，其特征在于：M＝24。