CN112489098B

CN112489098B - 一种基于空间通道注意力机制神经网络的图像匹配方法

Info

Publication number: CN112489098B
Application number: CN202011461803.9A
Authority: CN
Inventors: 代栾媛; 刘鑫; 陈日清; 杨长才; 魏丽芳
Original assignee: Fujian Agriculture and Forestry University
Current assignee: Fujian Agriculture and Forestry University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-04-09
Anticipated expiration: 2040-12-09
Also published as: CN112489098A

Abstract

本发明涉及一种基于空间通道注意力机制神经网络的图像匹配方法。该方法包括步骤：步骤1：根据SIFT方法得到初始匹配集合c；步骤2：通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；步骤3：对步骤2得到的结果通过加权8点算法进行计算得到本质矩阵；步骤4，根据本质矩阵信息得到准确的相机姿态（旋转和平移）。本发明的网络能够有效地剔除异常值（离群点），同时估计成图像对的相机姿态。本发明的一种基于空间通道注意力机制神经网络的图像匹配方法在mAP5°方法取得很大的提升。

Description

一种基于空间通道注意力机制神经网络的图像匹配方法

技术领域

本发明涉及图像匹配领域，具体涉及一种基于空间通道注意力机制神经网络的图像匹配方法。

背景技术

特征匹配在三维重建、同时定位和建图、图像拼接、双目立体匹配等计算机视觉任务中扮演着十分重要的角色，是处理计算机视觉任务中的一个基础且重要的步骤。通常，特征匹配包含四个步骤，即特征提取、特征描述，初始匹配获取和误匹配剔除。由于初始匹配存在大尺度的变化、光照变化、遮挡和模糊等情况，所以初始匹配集合中通常包含大量的异常值。因此，误匹配剔除作为一个关键的后处理步骤可以从初始匹配集合中寻找正确的内点并剔除离群点从而得到更加准确的匹配结果。所以，研究一种准确、鲁棒且高效的匹配算法对实现智能视觉有着极为重要的理论研究意义和实际应用价值。

在过去的几十年里许多学者提出了大量不同种类的匹配方法。根据最近的工作，特征匹配方法可分为四类，即采样方法、非参数插值方法、图匹配方法和基于深度学习的方法。其中前三类又可以总结为传统的方法，所以目前匹配的方法可以分为两大类，即传统的方法和基于深度学习的方法。传统的方法通常使用特征点检测算法，例如经典的尺度不变特征变换(SIFT)算法和随机抽样一致性算法(RANSAC)以及最近比较流行的基于网格的运动统计(GMS)和局部保持匹配(LPM)等算法。近年来，受海量数据的影响，基于深度学习的特征匹配算法开始流行起来，并且在大数据集上取得了很好的效果。例如，LFGC提出了一种类似PointNet的体系结构来推断每个匹配的为内点的概率，它主要利用多层感知器(MLPs)来处理每个单独的匹配。LFGC还在整个匹配集上引入了一个简单的非参数上下文正则化(CN)来捕获全局上下文信息。ACNE使用了基于学习的注意力机制上下文标准化(ACN)，以获得有用的上下文信息。然而，非参数归一化运算只利用匹配的均值和方差，不加区分地处理每个匹配对。其他基于学习的方法也等价地处理每个匹配对。然而，当异常值在初始对应集中占主导地位时，这种不区分匹配对权重的操作会严重限制网络的性能，影响到最终的匹配结果。因此如何确定匹配对为正确匹配的概率，是进一步提升匹配性能所需要解决的重点和难点问题。

发明内容

本发明的目的在于克服上述技术缺陷，提供一种基于空间通道注意力机制神经网络的图像匹配方法。

为实现上述目的，本发明的技术方案是：一种基于空间通道注意力机制神经网络的图像匹配方法，包括如下步骤：

步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C；

步骤S2、通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；

步骤S3、对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵；

步骤S4、根据本质矩阵信息得到准确的相机姿态。

在本发明一实施例中，步骤S1具体实现如下：

步骤S11、首先使用SIFT算法来提取两幅图像(I,I')的关键点坐标和其对应的描述子；

步骤S12、根据描述子的最近邻相似约束，得到一个初始匹配集合C：

其中，c_i表示第i个匹配对；N是匹配对的总数；和/>是给定两幅图像中匹配对的正则化坐标。

在本发明一实施例中，步骤S2具体实现如下：

步骤S21、由步骤S1得到一个2000×4的初始匹配集合C，即初始内点集合C作为输入，经过一个带有128个神经元的单层感知器，得到一个128维度的特征；

步骤S22、把步骤S21的结果作为输入，经过SCSABlock1模块的处理后，得到一个新的128维度的特征F_out∈R^128×2000×1；

其中SCSABlock1模块包含一个空间注意力机制模块、一个通道注意力机制模块和一个连接层；

步骤S23、将步骤S22的输出结果作为输入，依次经过3个PointCN块，得到一个128维度的特征；一个PointCN块由两个相同的PointCN模块组成，PointCN模块包括一个用来捕获全局信息的上下文正则化模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器；

步骤S24、将步骤S23的输出结果作为输入，经过DiffPool&DiffUnpool层学习得到一个128维度的特征，获得匹配的局部上下文信息；

步骤S25、将步骤S23和步骤S24输出的特征沿着通道维度连接起来作为输入，经过三个PointCN块捕获得到一个128维度的特征；

步骤S26、将步骤S25的输出特征作为输入，依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。

在本发明一实施例中，步骤S22具体实现如下：

步骤S221、设计一个空间注意力机制模块用来捕捉每对匹配的丰富上下文信息；所述空间注意力机制模块，首先，通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R^128×2000；然后，通过在Q和V的转置之间执行点乘操作来获得空间相似矩阵，并利用Softmax函数获得空间注意力矩阵SA；空间注意力矩阵的获取公式如下：

SA＝Soft max(D(Q^T,K))

其中，空间注意力矩阵SA∈R^2000×2000；D(·)是点乘操作；Soft max(·)是Softmax函数；

最后，在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作，来聚合所有匹配对的全局空间上下文信息，并将结果重塑为R^128×2000×1；用函数表示如下：

F_S＝SAtt(Q,K,V)＝D(V,SA^T)

其中，F_S∈R^128×2000×1是空间注意力机制模块的输出，集成了每个匹配的全局上下文信息，并提高了潜在内点的表示能力；SAtt(·)是空间注意力机制模块的函数；Q,K,V∈R^128×2000是三个不同的映射；D(·)是点乘操作；SA^T∈R^2000×2000表示空间注意力矩阵的转置；

步骤S222、设计一个通道注意力机制模块用来捕捉每个通道映射的丰富的全局上下文信息并且通道注意力机制模块能够着重关注重要的通道映射并提高其的表示能力；通道注意力机制矩阵的公式如下：

CA＝Soft max(D(F,F^T))

其中，CA∈R^128×128为通道注意力机制矩阵；Soft max(·)是Softmax函数；D(·)是点乘操作；F∈R^128×2000×1为输入特征；

在通道注意力机制矩阵CA∈R^128×128和输入特征F∈R^128×2000×1的重塑特征之间执行点乘操作，用来聚合所有通道的全局上下文信息，并将结果重塑为R^128×2000×1；操作的公式如下：

F_C＝CAtt(F)＝D(CA,F)

其中，F_C∈R^128×2000×1是通道注意力机制模块的输出特征映射；CAtt(·)是通道关注力机制模块的函数；D(·)是点乘操作；CA为通道注意力机制矩阵；F∈R^128×2000×1为输入特征映射；

步骤S223，结合两个注意力机制模块的输出，沿着它们的通道维度对两个模块的输出进行连接操作，然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射；连接操作的公式如下：

F'＝Point CN(Concat(F_S,F_C))

其中，F'∈R^128×2000×1是信息连接操作的输出结果；PointCN(·)表示PointCN模块的操作函数；Concat(·)连接操作函数；F_S∈R^C×N×1是空间注意力机制模块的输出；F_C∈R^C ^×N×1是通道注意力机制模块的输出；

在执行连接操作后的空间-通道注意力机制模块的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作；此过程用公式表示如下：

F_out＝F+αF'

其中，F_out是空间-通道注意力机制模块的输出特征映射；α是一个学习的超参数，它被初始化为0，逐渐学习更合适的权重；F∈R^128×2000×1为输入特征映射；F'∈R^128×2000×1是信息连接操作的输出结果。

在本发明一实施例中，步骤S24具体实现如下：

步骤S241、首先使用一个可微池化块映射2000对匹配到500个聚类，即特征映射从F_row∈R^128×2000×1到F_pool∈R^128×500×1；

步骤S242、将特征映射F_pool∈R^128×500×1输入空间-通道注意力机制块，捕获500个聚类丰富的全局上下文信息并增益重要聚类和通道的表示能力；

步骤S243、将步骤S242学习到的特征作为输入，经过三个Order-Aware过滤模块，可以捕获到新的特征；其中，Order-Aware过滤模块可以捕获聚类的全局上下文信息；

步骤S244、将步骤S243捕获到的特征作为输入，经过可微上池化模块将将特征由2000个匹配对映射到500个聚类；可微上池化模块是可微池化模块的逆过程，将特征由500个聚类重新映射回到2000个匹配对。

在本发明一实施例中，步骤S26具体实现如下：

步骤S261、将步骤S25的输出特征作为输入，经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o；函数表示如下：

o＝f_θ(C)

其中，o为逻辑值；f_θ(·)为我们网络的函数表示；θ是相关网络参数；

步骤S262、将步骤S261的逻辑值作为输入，依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率，相应的概率集合w＝{w₁,w₂,...,w_N}，其中w_i∈[0,1)；用函数表示如下：

w＝tanh(ReLU(o))

其中，w_i∈[0,1)为每个匹配作为内点的概率；tanh(·)表示tanh激活函数；ReLU(·)表示ReLU激活函数；

迭代使用两次SCSA-Net网络，将第一次得到的每个匹配作为内点的概率w_i∈[0,1)和残差信息作为输入再次经过我们的网络，得到每个匹配作为内点的新的概率w_i'∈[0,1)。

在本发明一实施例中，步骤S3中，对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵，其函数表示如下：

其中，为估计本质矩阵；g(·)是加权8点算法的函数；C为初始匹配集合；w'为概率集合。

相较于现有技术，本发明具有以下有益效果：

本发明提出了一种基于空间通道注意力机制神经网络的图像匹配方法，在该方法中，本发明引入了两种类型的注意力机制模块，即空间和通道注意力机制模块。这两种类型的注意力机制模块能够分别通过选择性地聚集空间维度和通道维度中的相互信息来捕获特征映射的复杂的全局上下文信息。同时，结合两个模块的输出获得丰富的全局上下文信息并得到具有较强代表性性的特征映射。本发明的网络能够有效地剔除离群点，同时估计匹配对的相机姿态。这些可靠的匹配和相机姿态对于许多计算机视觉任务至关重要，如SfM、SLAM和立体声匹配。在离群点剔除和姿态估计任务方面的很多实验表明，本发明SCSA-Net比目前最先进的方法在室外和室内数据集上有了很好的性能改进并且在mAP5°方面表现突出。

附图说明

图1为本发明实施例的方法流程示意图。

图2为为改进的OANet的整体的框架图。

图3为空间注意力机制模块图。

图4为通道注意力机制模块图。

图5为本发明实施例在YFCC100M数据集进行特征匹配的效果图；其中，(a)、(b)与(c)分别为三种场景示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明提供一种基于空间通道注意力机制神经网络的图像匹配方法，包括如下步骤：

步骤S1、根据SIFT方法得到图像对I和I'初始匹配集合C；

步骤S4、根据本质矩阵信息得到准确的相机姿态。

以下为本发明的具体实现过程。

需要指出的是，以下详细说明均为示例性的，旨在对本发明申请提供进一步的解释说明。除另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

参考附图1，本发明主要由四个步骤组成：步骤1：根据SIFT方法得到初始匹配集合C；步骤2：通过改进的OANet网络对输入数据进行处理从而得到匹配对为正确匹配的概率；步骤3：对步骤2得到的结果通过加权8点算法进行计算得到本质矩阵；步骤4，根据本质矩阵信息得到准确的相机姿态(旋转和平移)。

步骤1：根据SIFT方法得到图像对I和I'初始匹配集合C，包括以下步骤：

步骤1.1，首先使用传统的SIFT算法来提取两幅图像(I,I')的关键点坐标和其对应的描述子；

步骤1.2，根据描述子的最近邻相似约束，可以得到一个初始匹配集合C：

步骤2，如图2所示，通过改进的网络对输入数据进行处理从而得到匹配对为正确匹配的概率,具体如下：

步骤2.1,由步骤1得到了一个2000×4的初始内点集合C作为输入，经过一个带有128个神经元的单层感知器，可以得到一个128维度的特征。

步骤2.2，把步骤2.1的结果作为输入，经过SCSABlock1模块的处理后，得到一个新的128维度的特征F_out∈R^128×2000×1。

其中SCSABlock1模块包含一个空间注意力机制模块(SA)、一个通道注意力机制模块(CA)和一个连接层。

步骤2.2.1，设计了一个空间注意力机制(SA)模块用来捕捉每对匹配的丰富上下文信息，从而提高潜在内点的表示能力，并抑制潜在离群点的表示能力。其构成图3所示。该模块通过使用三个不同的PointCN模块来获取三个不同的特征映射Q,K,V∈R^128×2000。然后，通过在Q和V的转置之间执行点乘操作来获得空间相似矩阵，并利用Softmax函数获得空间注意力矩阵SA(SA∈R^2000×2000)。

空间注意力矩阵的获取公式如下：SA＝Soft max(D(Q^T,K))

其中，空间注意力矩阵SA∈R^2000×2000；D(·)是点乘操作；Soft max(·)是Softmax函数。

最后，在特征映射V和空间注意力矩阵SA的转置之间执行点乘操作，来聚合所有匹配对的全局空间上下文信息，并将结果重塑为R^128×2000×1。

用函数表示如下：F_S＝SAtt(Q,K,V)＝D(V,SA^T)

其中，F_S∈R^128×2000×1是空间注意力机制模块的输出,集成了每个匹配的全局上下文信息，并提高了潜在内点的表示能力；SAtt(·)是空间注意力机制模块的函数；Q,K,V∈R^128×2000是三个不同的映射；D(·)是点乘操作；SA^T∈R^2000×2000表示空间注意力矩阵的转置。

步骤2.2.2，设计了一个通道注意力机制(CA)模块用来捕捉每个通道映射的丰富的全局上下文信息并且的通道注意力机制(CA)模块能够着重关注一些重要的通道映射并提高其的表示能力。其构成图4所示。

通道注意力机制矩阵的公式如下：CA＝Soft max(D(F,F^T))

其中，CA∈R^128×128为通道注意力机制矩阵；Soft max(·)是Softmax函数；D(·)是点乘操作；F∈R^128×2000×1为输入特征。

最后，在通道注意力机制矩阵CA∈R^128×128和输入特征F∈R^128×2000×1之间执行点乘操作，用来聚合所有通道的全局上下文信息，并将结果重塑为R^128×2000×1。

一系列操作的公式如下：F_C＝CAtt(F)＝D(CA,F)

其中，F_C∈R^128×2000×1是通道注意力机制模块的输出特征映射；CAtt(·)是通道关注力机制模块的函数；D(·)是点乘操作；CA为通道注意力机制矩阵；F∈R^128×2000×1为输入特征映射。

步骤2.2.3，为了获得更强的特征映射，结合了两个注意力机制模块的输出。沿着它们的通道维度对两个模块的输出进行了连接操作。然后使用PointCN模块处理用于把特征映射恢复到128维通道的连接特征映射。

连接操作的公式如下：F'＝PointCN(Concat(F_S,F_C))

其中，F'∈R^128×2000×1是信息连接操作的输出结果；PointCN(·)表示PointCN模块的操作函数；Concat(·)连接操作函数；F_S∈R^C×N×1是空间注意力机制模块的输出；F_C∈R^C ^×N×1是通道注意力机制模块的输出特征映射。

然后在空间-通道注意力机制模块(SCSA)的输入特征映射F和信息融合输出特征F'之间进行逐元素求和操作。

此过程用公式表示如下：F_out＝F+αF'

其中，F_out是空间-通道注意力机制模块(SCSA)的输出特征映射；α是一个学习的超参数，它被初始化为0，逐渐学习更合适的权重；F∈R^128×2000×1为输入特征映射；F'∈R¹²⁸ ^×2000×1是信息连接操作的输出结果。

步骤2.3，将步骤2.2的输出结果作为输入，依次经过3个PointCN块，得到一个128维度的特征。

一个PointCN块由两个相同的PointCN模块(一个用来捕获全局信息的上下文正则化(CN)模块、一个Batch正则化模块、一个ReLU激活函数和一个具有128维的神经元的多层感知器)组成。

步骤2.4，将步骤2.3的输出结果作为输入，经过DiffPool&DiffUnpool层学习得到一个128维度的特征，获得匹配的局部上下文信息。

DiffPool&DiffUnpool层包括一个可微池化块、一个空间-通道自注意机制块(SCSA)、三个Order-Aware过滤块和一个可微上池化块。

步骤2.4.1，它首先使用一个可微池化块映射2000对匹配到500个聚类，即特征映射从F_row∈R^128×2000×1到F_pool∈R^128×500×1。

步骤2.4.2，将特征映射F_pool∈R^128×500×1输入空间-通道注意力机制块(SCSA)，捕获500个聚类丰富的全局上下文信息并增益重要聚类和通道的表示能力。

步骤2.4.3，将步骤2.4.2学习到的特征作为输入，经过三个Order-Aware过滤模块，可以捕获到新的特征。

其中，Order-Aware过滤模块可以捕获聚类的全局上下文信息。

步骤2.4.4，将步骤2.4.3捕获到的特征作为输入，经过可微上池化模块将将特征由2000个匹配对映射到500个聚类；可微上池化模块是可微池化模块的逆过程，将特征由500个聚类重新映射回到2000个匹配对。

步骤2.5，将步骤2.4的输出特征作为输入，经过三个PointCN块捕获得到一个128维度的特征。

步骤2.6，将步骤2.5的输出特征作为输入，依次经过带有一个神经元的单层感知器、ReLU和tanh的激活函数学习得到匹配对作为内点的概率。

步骤2.6.1，将步骤2.5的输出特征作为输入，经过带有一个神经元的单层感知器把128维的特征转换为1维的逻辑值o。

函数表示如下：o＝f_θ(C)

其中，o为逻辑值；f_θ(·)为网络的函数表示；θ是相关网络参数。

步骤2.6.2，将步骤2.6.1的逻辑值作为输入，依次经过ReLU和tanh的激活函数学习得到每个匹配作为内点的概率，相应的概率集合w＝{w₁,w₂,...,w_N}，其中w_i∈[0,1)。

用函数表示如下：w＝tanh(ReLU(o))

其中，w_i∈[0,1)为每个匹配作为内点的概率；tanh(·)表示tanh激活函数；ReLU(·)表示ReLU激活函数。

迭代使用两次SCSA-Net网络，将第一次得到的每个匹配作为内点的概率w_i∈[0,1)和残差信息作为输入再次经过的网络，得到每个匹配作为内点的新的概率w_i'∈[0,1)

步骤3，对步骤2得到的权重信息通过加权8点算法进行计算得到本质矩阵

函数表示如下：

其中，为的估计本质矩阵；g(·)是加权8点算法的函数；C为初始的匹配集合；w'为概率集合。

步骤4，根据本质矩阵信息得到准确的相机姿态(旋转和平移)

选取PointNet++、DFE、LFGC、ACNet、OANet、OANet++和的SCSA-Net算法分别在YFC100M和SUN3D数据集进行配准实验得到mAP5°的结果，如方法效果对比表1所示。在每个数据集上进行试验然后将获得最好的mAP5°的数值进行加粗。

方法效果对比表1

将本发明的方法在不同的数据集上进行实验，实验的结果显示，本发明在所有的对比方法上取得了最好的效果，其中在YFCC100M数据集上离群点剔除的可视化结果如图5所示。结合实际可知，本发明可以在三维重建和快速地实现无人机遥感图像的拼接等领域进行广泛的应用。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于空间通道注意力机制神经网络的图像匹配方法，其特征在于，包括如下步骤：

步骤S1、根据SIFT算法得到图像对I和I'初始匹配集合C；

步骤S4、根据本质矩阵信息得到准确的相机姿态；

步骤S1具体实现如下：

其中，c_i表示第i个匹配对；N是匹配对的总数；和/>是给定两幅图像中匹配对的正则化坐标；

步骤S2具体实现如下：

2.根据权利要求1所述的一种基于空间通道注意力机制神经网络的图像匹配方法，其特征在于，步骤S22具体实现如下：

SA＝Soft max(D(Q^T,K))

F_S＝SAtt(Q,K,V)＝D(V,SA^T)

其中，F_S∈R^128×2000×1是空间注意力机制模块的输出，集成了每个匹配的全局上下文信息，并提高了潜在内点的表示能力；SAtt(·)是空间注意力机制模块的函数；Q,K,V∈R¹²⁸ ^×2000是三个不同的映射；D(·)是点乘操作；SA^T∈R^2000×2000表示空间注意力矩阵的转置；

CA＝Soft max(D(F,F^T))

F_C＝CAtt(F)＝D(CA,F)

F'＝PointCN(Concat(F_S,F_C))

其中，F'∈R^128×2000×1是信息连接操作的输出结果；PointCN(·)表示PointCN模块的操作函数；Concat(·)连接操作函数；F_S∈R^C×N×1是空间注意力机制模块的输出；F_C∈R^C×N×1是通道注意力机制模块的输出；

F_out＝F+αF'

3.根据权利要求2所述的一种基于空间通道注意力机制神经网络的图像匹配方法，其特征在于，步骤S24具体实现如下：

4.根据权利要求1所述的一种基于空间通道注意力机制神经网络的图像匹配方法，其特征在于，步骤S26具体实现如下：

o＝f_θ(C)

w＝tanh(ReLU(o))

5.根据权利要求1所述的一种基于空间通道注意力机制神经网络的图像匹配方法，其特征在于，步骤S3中，对步骤S2得到的结果通过加权8点算法进行计算得到本质矩阵，其函数表示如下：