CN116188825A

CN116188825A - 一种基于并行注意力机制的高效特征匹配方法

Info

Publication number: CN116188825A
Application number: CN202310146914.8A
Authority: CN
Inventors: 杜松林; 芦晓勇
Original assignee: Shenzhen Institute Of Southeast University; Southeast University
Current assignee: Shenzhen Institute Of Southeast University; Southeast University
Priority date: 2023-02-22
Filing date: 2023-02-22
Publication date: 2023-05-30

Abstract

本发明公开了一种基于并行注意力机制的高效特征匹配方法，首先使用卷积神经网络提取图片关键点及其描述子；再使用并行注意力层对两组特征计算自注意力和交叉注意力，并使用可学习的神经网络自适应融合自注意力网络和交叉注意力网络，其中自注意力网络利用全局上下文信息加强描述子表征能力，交叉注意力网络用于寻找两图像描述子之间的对应关系；描述子经过并行注意力层加强后，使用Sinkhorn算法与互近邻准则计算匹配结果。本方法将自注意力和交叉注意力以并行的方式整合在一起，大幅减小了模型的计算量和参数量，提高模型效率，同时并行注意力层的自适应融合网络使得模型能够学习到最优的注意力融合方式，在性能和效率上实现双赢。

Description

一种基于并行注意力机制的高效特征匹配方法

技术领域

本发明属于基于深度学习的计算机视觉技术领域，主要涉及了一种基于并行注意力机制的高效特征匹配方法。

背景技术

基于视觉的人工智能系统，广泛用于引导机器感知和理解周围环境以更好地做出决策，在全球自动化和人工智能时代一直发挥着重要作用。然而，如何在处理感知的信息，并理解多个视觉目标之间的差异或关系是各个领域的关键课题。作为这些复杂任务中的一个关键和基本问题，图像匹配，也被称为图像对应，旨在识别然后对应两个或多个图像中相同或相似的结构/内容。这种技术被用于高维结构恢复以及信息识别和整合，如三维重建、即时定位与地图构建(SLAM)、图像融合、图像检索、目标识别和跟踪以及变化检测等，具有重要的理论意义与工程应用价值。

在现实应用场景中，用于匹配的图像通常取自相同或相似的场景/物体，但在不同的时间、不同的视角或成像方式下拍摄，因此会带来视角变化、光照变化、尺度变化、遮挡、模糊等挑战性问题。为了建立正确、鲁棒的匹配关系，优秀特征匹配技术应提取两图像的高质量特征，排除上述干扰找到特征间的中的不变性。尽管几十年来已经有许多优秀的特征匹配技术被提出，但是综合考虑考虑效率、鲁棒性和准确性三方面的表现，特征匹配仍然是一项具有挑战性的任务。

目前特征匹配流程可以被分为两类，分别是基于检测器的方法，即稀疏特征匹配，和无检测器方法，即稠密特征匹配。具体来说，基于检测器的方法首先从图像中检测关键点并计算描述子，然后匹配两组稀疏特征，可以理解为二阶段的匹配方法。而无检测器方法直接针对图像所有像素进行特征提取并进行稠密匹配，可以理解为一阶段匹配方法。

经典特征匹配方法通常属于基于检测器的特征匹配方法。对于检测器，一些出色的手工方法如SIFT、SURF、BRIEF和ORB等首先被提出并广泛用于各种3D计算机视觉任务。随着深度学习时代的到来，许多基于卷积神经网络的检测器，如R2D2、SuperPoint、D2-Net和LF-Net被提出以进一步提高关键点和描述子在光照变化和视角变化下的鲁棒性。除了检测器，其他工作还关注于更好的匹配算法，即如何处理检测器提取的关键点和描述子以获得更高质量的匹配。传统方法中最基本的匹配器为最近邻匹配器，其先计算描述子之间的欧氏距离，结合距离阈值将距离最近的描述子之间建立对应关系。SuperGlue是第一个提出基于注意力的特征匹配网络，该网络使用自注意力和交叉注意力提取全局上下文信息进行匹配。OETR通过重叠区域估计进一步将基于注意力的特征匹配限制于共视区域中。

对于无检测器的特征匹配方法，与SuperGlue不同，LoFTR直接在卷积神经网络(CNN)提取的特征图上应用自注意力和交叉注意力，并以从粗到细的方式产生匹配。MatchFormer在LoFTR的基础上进一步放弃了CNN主干网络，采用了一个完全基于注意力的分层框架以提取特征，同时利用注意力机制寻找相似性。SuperGlue和LoFTR中自我注意力和交叉注意力的排布是一种简单的交替策略，而MatchFormer进一步提出了一种交错策略，即在网络的浅层阶段注重自我注意，在深层阶段注重交叉注意。

受益于Transformer的全局建模能力，基于注意力的网络成为了基于检测器和无检测器网络中的主导方法。然而，基于注意力的网络尽管性能优秀，但基于注意力的网络往往会带来高训练成本、大内存需求和高推理延迟，特别是对于无检测器的方法，处理密集特征会加剧注意力机制的二次复杂度问题。因而，现有的基于注意力的方法都以串行方式人为地安排自注意力和交叉注意力，如图1(a)所示，这使基于注意力的特征匹配方法效率低下，且固定的注意力排列方式限制了自注意力和交叉注意力集成的多样性。

发明内容

本发明正是针对现有技术中存在的问题，提供一种基于并行注意力机制的高效特征匹配方法，首先使用卷积神经网络提取图片关键点及其描述子；再使用并行注意力层对两组特征计算自注意力和交叉注意力，并使用可学习的神经网络自适应融合自注意力网络和交叉注意力网络，其中自注意力网络利用全局上下文信息加强描述子表征能力，交叉注意力网络用于寻找两图像描述子之间的对应关系；描述子经过并行注意力层加强后，使用Si nkhorn算法与互近邻准则计算匹配结果。本方法将自注意力和交叉注意力以并行的方式整合在一起，大幅减小了模型的计算量和参数量，提高模型效率，同时并行注意力层的自适应融合网络使得模型能够学习到最优的注意力融合方式，在性能和效率上实现双赢。为了实现上述目的，本发明采取的技术方案是：一种基于并行注意力机制的高效特征匹配方法，包括以下步骤：

S1、输入单张图片，对输入图片进行随机单应变换并生成单应性矩阵，得到输入网络的两张图片和groundtruth单应性矩阵，使用深度卷积神经网络提取图片关键点及描述子；

S2、以步骤S1获得的关键点及描述子为输入，使用多层感知机作为位置编码器，将关键点的空间位置信息嵌入到描述子中；

S3、将步骤S2获得的描述子通过9层并行注意力层处理，每个并行注意力层中包括自注意力模块和交叉注意力模块，

所述自注意力模块中，采用标准注意力操作分别处理两图片描述子，加强描述子表征能力；

所述交叉注意力模块，按照注意力权重共享策略，寻找两图片的描述子之间的对应关系；

将自注意力模块网络输出和交叉注意力模块网络输出连接并通过多层感知机融合，融合结果用于更新描述子，新描述子作为下一层并行注意力层的输入；

S4、经过步骤S3利用并行注意力层加强描述子后，将两图片描述子点乘得到得分矩阵，并将其作为最优运输问题的成本矩阵，应用Si nkhorn算法迭代获得最优分配矩阵,基于最优分配矩阵，首先过滤值小于匹配阈值的匹配，最后使用互最近邻准则选择最终匹配；

S5、根据步骤S4的输出匹配结果和真实匹配计算损失，训练并行注意力网络和位置编码器,实现特征匹配。

作为本发明的一种改进，所述步骤S2中多层感知机有三层隐藏层，将关键点维度从2依次扩展为32、64、128，最后输出256维的位置编码向量，与描述子相加实现位置信息的融入。

作为本发明的一种改进，所述步骤S2中，使用多层感知机MLP_pc将关键点的空间位置信息嵌入到描述子中，具体为：

其中，pⁱ和dⁱ分别为第i个关键点的位置和和描述子；x⁽⁰⁾,y⁽⁰⁾为生成的初始特征。

作为本发明的另一种改进，所述步骤S3并行注意力层处理时，首先用三个共享权重的线性投影层将描述子投影为Q,K,V，即将x^(l)和y^(l)投影为

和

其中x^(l)和y^(l)为第l层注意力网络的输入，然后以并行的方式计算自注意力和交叉注意力。

作为本发明的又一种改进，所述步骤S3并行注意力层处理时，自注意力Self和交叉注意力Cross计算表示为:

其中d为描述子通道数,Self和Cross分别为自注意力和交叉注意力结果。

作为本发明的又一种改进，所述步骤S3并行注意力层处理时,在自注意力模块中，Q、K、V来自相同的输入，即

或/>

在交叉注意力模块中，输入来自不同图像的描述子，按照注意力权重共享策略，将/>

替换为(Q_xK_y ^T)^T。

作为本发明的进一步改进，所述步骤S4中，Sinkhorn算法迭代次数为20，匹配阈值为0.2。

作为本发明的更进一步改进，所述步骤S5的训练中，损失函数为最优分配矩阵上的负对数似然损失函数，即：

其中P为由两组描述子内积计算的得分矩阵，M_gt为真实匹配，注意力网络和位置编码器网络共同由此损失函数监督训练。

与现有技术相比，本发明提供了一种基于并行注意力机制的高效特征匹配方法，具有的有益效果：

1、本方法用深度卷积网络提取稀疏的关键点和描述子，而非提取密集的特征图，有效地改善了注意力机制有平方复杂度的缺点。

2、本方法使用深度注意力网络加强描述子，不同于深度卷积网络，此网络具有全局感受野，可以聚合来自所有节点的信息，使得描述子能够充分感知全局上下文信息，从而提高描述子之间的匹配质量。

3、本方法改善了基于注意力模型计算量大、效率低下的缺点，为自注意力和交叉注意力设计了并行计算结构和权重共享策略，有效降低了模型计算量和参数量。同时，自注意力和交叉注意力的动态融合网络可以自适应融合两种注意力，提高了模型性能。

4、本方法改进了基于注意力机制的特征匹配算法，实现了性能和效率的双赢，在图像配准、三维重建、视觉定位等领域有着广泛的应用前景。

附图说明

图1是串行注意力和并行注意力结构对比图，其中

图1(a)是串行注意力结构的示意图；

图1(b)是并行注意力结构的示意图；

图2是并行注意力层和位置编码器流程图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。

实施例1

一种基于并行注意力机制的高效特征匹配方法，如图1(b)所示，将自注意力和交叉注意力以并行的方式整合在一起，大幅减小了模型的计算量和参数量，提高模型效率，同时并行注意力层的自适应融合网络使得模型能够学习到最优的注意力融合方式，提高网络性能，具体包括以下步骤：

S1：读取图像灰度图，使用深度卷积神经网络提取图片关键点及描述子；不同于常规深度注意力网络处理密集的特征图，首先用深度卷积网络提取稀疏的关键点和描述子，再应用注意力机制加强描述子，有效地改善了注意力机制有平方复杂度的缺点。

S2、如图2所示，以步骤S1获得的关键点和描述子为输入，使用多层感知机作为位置编码器，将关键点的空间位置信息嵌入到描述子中；

由于注意力模块具有排列不变性，无法在空间上区分每个节点，因此有必要将位置信息嵌入到描述符中，使用多层感知机实现关键点的空间位置信息嵌入生成特征的初始表示。

设第i个关键点的位置和和描述子分别为p_i和d_i，本方法使用多层感知机MLP_pc将关键点的空间位置信息嵌入到描述子中，即：

S3、将步骤S2获得的描述子通过9层并行注意力层处理，利用全局上下文信息加强描述子。在每个并行注意力层中，首先用共享权重的线性投影层将描述子投影为Q,K,V，然后以并行的方式计算自注意力和交叉注意力，其中自注意力网络利用全局上下文信息加强描述子表征能力，交叉注意力网络寻找两图片的描述子之间的对应关系，两者均对图像的全局信息进行传递，然后用两层感知机融合自注意力和交叉注意力的结果，用于更新描述子。

设第l层两图像的描述子分别为x^(l)和y^(l)。首先用三个共享权重的线性投影层将x^(l)和y^(l)投影为

和/>

自注意力Self和交叉注意力Cross计算表示为:

其中d为描述子通道数,Self和Cross分别为自注意力和交叉注意力结果。自注意力层和交叉注意力层不同之处在于自注意力的输入来自于相同的描述子，如

或/>

而交叉注意力层的输入来自不同图像的描述子，并且应用注意力权重共享策略，注意力权重共享指用图像x到图像y的注意力权重替换从图像y到图像x的注意力权重，即用(Q_xK_y ^T)^T替换/>

分别用两个多层感知机MLP_x、MLP_y融合两图像的自注意力和交叉注意力结果，最后用融合结果更新描述子作为下一并行注意力层的输入，|表示连接操作，公式表示如下：

x^(l+1)＝x^(l)+MLP_x([x^(l)|Self_x|Cross_x])

y^(l+1)＝y^(l)+MLP_y([y^(l)|Self_y|Cross_y])

使用深度注意力网络加强描述子，不同于深度卷积网络，此网络具有全局感受野，善于捕捉长距离依赖关系，可以聚合来自所有节点的信息，此特点使得描述子能够充分感知全局上下文信息，从而提高描述子之间的匹配质量。

并行注意力层同步计算自注意力和交叉注意力，并让网络学习融合这两种注意力的最佳方式，而不是将两种注意的排列作为一个超参数调节。

S4、在进行9层并行注意力后，在匹配层两图片描述子内积计算得出得分矩阵S，作为最优运输问题的成本矩阵。然后应用Sinkhorn算法迭代获得最优分配矩阵P。基于最优分配矩阵P，首先排除值小于匹配阈值的匹配，然后使用互最近邻准则选择最终匹配M；

S5、根据输出匹配结果和真实匹配计算损失，训练并行注意力网络和位置编码器。

搭建PyTorch深度学习开发环境，将数据集划分为训练集、验证集和测试集。训练期间，根据单应性(单应性估计任务)或相机位置和深度(相机位姿估计任务)计算真实匹配M_gt。损失函数为最优分配矩阵上的负对数似然损失函数，即：

/>

其中P为由两组描述子内积计算的得分矩阵，M_gt为真实匹配。注意力网络和位置编码器网络共同由此损失函数监督训练，完成特征匹配。

实施例2

步骤S1、输入单张图片，对输入图片进行随机单应变换并生成单应性矩阵，得到输入网络的两张图片和groundtruth单应性矩阵。使用SuperPoint深度卷积网络对两张图片提取关键点p和描述子d，假设图像X和Y各有N和M个关键点，则两图像关键点位置向量p的维度分别为(M,3)、(N,3)，描述子d的维度分别为(M,256)、(N,256)。

实验数据集为R1M，R1M是包含1,001,001个高分辨率图片的图像检索数据集，它涵盖了全球各地超过20个地标的图片，具有复杂的视角变化、光照变化、模糊和遮挡等，非常适合用于训练和评估特征匹配网络。将R1M划分为训练集、验证集和测试集，分别包含1000000、501、500张图片。

步骤S2、以步骤S1获得的关键点p和描述子d为输入，使用多层感知机将关键点的空间位置信息嵌入到描述子中，其中多层感知机有三层隐藏层，将关键点维度从2依次扩展为32、64、128，最后输出256维的位置编码向量，与描述子相加实现位置信息的融入，两图像生成特征的初始表示分别为x⁽⁰⁾、y⁽⁰⁾。

步骤S3、用9层并行注意力层加强步骤二获得的特征初始表示x⁽⁰⁾、y⁽⁰⁾，自注意力网络加强描述子表征能力，交叉注意力网络寻找两图片的描述子之间的对应关系，两者均对图像的全局信息进行传递。设第l层注意力网络的输入为x^(l)和y^(l)，首先用三个共享权重的线性投影层将x^(l)和y^(l)投影为

和/>

在自注意力模块中，采用标准注意力计算/>

其中Q、K、V来自相同的输入，即

或/>

在交叉注意力模块中，按照注意力权重共享策略，即将/>

替换为(Q_xK_y ^T)^T，因此交叉注意力模块的输入为/>

所有中间特征具有相同的维度d＝256。最后，自注意力和交叉注意力输出由一个双层感知机融合，再通过残差连接更新描述子。

步骤S4、利用并行注意力层强化描述子后，将两图片描述子点乘获得得分矩阵S，其维度为(M,N)，将其作为最优运输问题的成本矩阵，然后应用Sinkhorn算法迭代获得最优分配矩阵P，其维度与S保持一致，本实施例中Sinkhorn算法迭代次数为20次。基于P，首先过滤小于匹配阈值的匹配，最后使用互最近邻准则选择最终匹配M，本实施例中匹配阈值为0.2；

步骤S5、本方法利用PyTorch进行训练，并参考工程参数设置经验来设置相关参数。设置batch size为8，代表每次加载16张样本图片进行匹配，设置AdamW作为优化器，初始学习率设置为0.0001，warm up epoch设置为1，应用余弦学习率衰减，momentum动量因子设置为0.9，weight_decay权重衰减因子设置为0.0001，训练总epoch为10。训练期间，根据groundtruth单应性矩阵和关键点计算真实匹配M_gt，若重投影误差小于3像素，则视匹配为groundtruth匹配。损失函数为最优分配矩阵上的负对数似然损失函数，并行注意力网络和位置编码器由此损失函数共同监督。

综上，本方法将自注意力和交叉注意力以并行的方式整合在一起，在性能和效率上实现双赢，在图像配准、三维重建、视觉定位等领域有着广泛的应用前景。

需要说明的是，以上内容仅仅说明了本发明的技术思想，不能以此限定本发明的保护范围，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于并行注意力机制的高效特征匹配方法，其特征在于，包括以下步骤：

S4、经过步骤S3利用并行注意力层加强描述子后，将两图片描述子点乘得到得分矩阵，并将其作为最优运输问题的成本矩阵，应用Sinkhorn算法迭代获得最优分配矩阵,基于最优分配矩阵，首先过滤值小于匹配阈值的匹配，最后使用互最近邻准则选择最终匹配；

2.如权利要求1所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S2中多层感知机有三层隐藏层，将关键点维度从2依次扩展为32、64、128，最后输出256维的位置编码向量，与描述子相加实现位置信息的融入。

3.如权利要求2所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S2中，使用多层感知机MLP_pc将关键点的空间位置信息嵌入到描述子中，具体为：

其中，pⁱ和dⁱ分别为第i个关键点的位置和和描述子；x⁽⁰⁾，y⁽⁰⁾为生成的初始特征。

4.如权利要求2或3所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S3并行注意力层处理时，首先用三个共享权重的线性投影层将描述子投影为Q，K，V，即将x^(l)和y^(l)投影为

和/>

5.如权利要求4所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S3并行注意力层处理时，自注意力Self和交叉注意力Cross计算表示为：

/>

其中，d为描述子通道数；Self和Cross分别为自注意力和交叉注意力结果。

6.如权利要求5所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S3并行注意力层处理时，在自注意力模块中，Q、K、V来自相同的输入，即

或/>

替换为(Q_xK_y ^T)^T。

7.如权利要求4所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S4中，Sinkhorn算法迭代次数为20，匹配阈值为0.2。

8.如权利要求6所述一种基于并行注意力机制的高效特征匹配方法，其特征在于：所述步骤S5的训练中，损失函数为最优分配矩阵上的负对数似然损失函数，即：

其中，P为由两组描述子内积计算的得分矩阵，M_gt为真实匹配，注意力网络和位置编码器网络共同由此损失函数监督训练。