CN115861664A

CN115861664A - 基于局部特征融合与自注意力机制的特征匹配方法及系统

Info

Publication number: CN115861664A
Application number: CN202211637956.3A
Authority: CN
Inventors: 江波; 罗书贤
Original assignee: Anhui University; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Anhui University; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-12-18
Filing date: 2022-12-18
Publication date: 2023-03-28

Abstract

本发明公开一种基于局部特征融合与自注意力机制的特征匹配方法及系统；通过图像处理模块对输入的图像进行提取觉描述符并添加位置信息获得图像点的特征；将源图像和目标图像中每个特征和随机采样的邻居点进行自注意力上下文特征融合，高效地结合了图像中的信息从而增强特征图的表示能力；将图像中的每一个点与另一图上的点计算欧式距离选取前k个点，再通过交叉注意力模型进行信息传递，得到具有跨图信息的特征表示，通过最终的特征信息计算两图中特征的相似度，并使用Sinkhorn算法迭代求解获得最终的匹配结果。

Description

基于局部特征融合与自注意力机制的特征匹配方法及系统

技术领域

本发明涉及图像匹配技术，具体涉及一种基于局部特征融合与自注意力机制的特征匹配方法及系统。

背景技术

特征匹配是计算机视觉和模式识别领域的一个基本问题，其目的是建立源图像和目标图像的特征(例如，点、区域)之间的对应关系。为了进行特征匹配，它首先需要用一个区分描述符来表示两幅图像中的每个特征。然后，利用度量学习模型获得两幅图像中特征点对之间的相关性/相似性。最后，进行线性分配算法以找到特征之间的对应关系。近年来，深度学习模型被探索用于特征匹配任务。这些方法可以以端到端的方式将特征表示、度量学习和最终对应估计集成在一起。

深度学习特征匹配的核心问题是如何学习(1)区分每个帧内图像中的特征点的表示，以及(2)一致跨两个帧间图像的特征点表示。

最近，人们利用自我和交叉注意力模型来解决这个问题，进而实现特征匹配；具体而言，自我注意力用于捕捉特征之间的关系，从而可以学习每个图像内特征单元的上下文感知表示，而交叉关注用于建模两个图像间特征之间的交互，从而可以跨图像进行信息通信。

综上，现有的特征匹配有以下问题：

(1)先前的自我/交叉注意力模型通常对所有原始特征进行信息混合导致冗余学习和高计算成本。

(2)特征聚合时融合过多多余、无关的特征干扰信息传递产生的特征嵌入表示。

发明内容

发明目的：本发明的目的在于解决现有技术中存在的不足，提供一种基于局部特征融合与自注意力机制的特征匹配方法及系统，本发明从信息融合的角度出发，对于图中的每一个特征点计算自注意力时使用邻居来聚合上下文信息，大大提高了信息交融的效率，并且能够结合到更加有用的信息摒除掉干扰信息。

技术方案：本发明的一种基于局部特征融合的特征匹配方法，包括以下步骤：

步骤(1)、输入待匹配的源图像和目标图像，将选择网络模型作为特征提取模块来获得源图像和目标图像的特征描述符，并结合位置信息生成初始的点特征；

步骤(2)、分别对源图像和目标图像中的每一个点单独选取邻居进行信息融合，通过邻居获得有效信息并得到增强后的图像特征表示；选取邻居的方法为：对每一个点先随机采样选取其前k个点作为邻居，再通过自注意力方式将该点自身与这k个邻居进行信息融合；

步骤(3)、对于步骤(2)所得增强后的两个图像上的每一个特征点，使用欧式距离计算跨图的与之最相近的k个点，通过交叉注意力网络对源图和目标图像进行跨图信息融合，获得具有跨图信息的图像的点特征；

步骤(4)、计算源图像和目标图像点特征表示的相似度，并使用sinkorn算法多次迭代训练得到最后的匹配结果。

进一步地，所述步骤(1)提取特征描述符时采用的方法是：通过sift或superpoint方法提取维度为128或256的特征描述符，并使用多层感知机将位置信息(x,y)映射到相同维度；两者结合即为初始的点特征。

进一步地，所述步骤(2)的详细方法为：

对源图像的每一个点

通过随机采样的方式获取k个邻居

如公式(1)对于点/>

计算k个邻居

然后通过三个线性映射层将F^s转换为

将A^s转换为/>

和/>

则信息交融公式(1)如下：

和/>

均是中间计算量，通过/>

和/>

计算权重，然后通过权重与/>

聚合图像信息，c表示特征维度，LN(·)表示层归一化；每个节点通过聚合来自邻居的消息来更新其表示；

对目标图像中的每一个点

通过余弦相似度获得各自与当前点最近的k个邻居/>

然后通过三个线性映射层将f_i ^t转换为/>

将A^t转换为/>

和/>

则信息交融公式(2)如下：

和/>

均是中间计算量，通过/>

和/>

计算权重，然后通过权重与/>

聚合图像信息。

进一步地，所述步骤(3)使用交叉注意力模块增强源图像和目标图像锚定特征之间的交互学习的具体方法为：

计算源图的每一个点

与目标图中每一个点/>

的欧式距离，如公式(3)所示：

其中

表示源图像中第1个节点与目标图像中第i个节点的欧式距离，并选取目标图中的距离前k个点/>

进行信息融合；

交叉注意力模块增强源图像的特征点f_i ^s和目标图像中选出的特征点

之间的交互学习的具体方法为：

通过三个线性映射层将F^s转换为

将B^t转换为/>

和/>

则跨图的信息传递如公式(4)所示：/>

目标图像使用相同方法选取源图像中的前k个点

以融合源图的信息，通过三个线性映射层将f_i ^t转换为/>

将B^s转换为/>

和/>

如公式(5)所示；

进一步地，所述步骤(4)的具体过程如下：

先使用步骤(3)具有跨图信息的点特征来计算源图及目标图像的相似性矩阵S；然后依据相似性矩阵S(度量S)使用线性分配算法来实现两幅图像的特征点之间的匹配预测；线性分配算法Sinkhorn如公式(6)所示进行迭代计算：

S＝Sinkhorn(S) (6)

Sinkhorm是可微分的，可以以端到端的方式与上述学习模块集成在一起；

设T表示跨图后的源特征和目标特征之间的基本真值对应集；

然后，在训练阶段使用的匹配预测损失函数表示为公式(7)：

L₁＝-∑_(i,j)∈TlogS_i,j (7)

此外，如果它们的对极距离小于阈值，则将特征对应标记为匹配对；

计算z个人处理单元中匹配和非匹配的二进制分类的交叉熵损失，并将其表示为L_z，其中z∈{1，2…Z}，Z是跨图信息融合模块的运行单元数；

因此，最终总损失表示为公式(8)：

其中a是平衡参数。

进一步地，所述步骤(4)中模型的学习率为0.0001，在30万次迭代之后应用学习速率衰减，衰减速率为0.999996，直到90万次迭代。

本发明还公开一种用于实现基于局部特征融合与自注意力机制的特征匹配方法的系统，包括特征提取模块、局部邻居特征融合模块、跨图信息融合模块和匹配求解模块，特征提取模块用于提取源图像和目标图像得到初始点特征，局部邻居特征融合分别融合源图像和目标图像自身图像信息得到各自增强后的图像特征；跨图信息融合模块将源图像和目标图像各自增强后的图像特征进行跨图融合；匹配求解模块根据特征信息计算相似度值并求解匹配结果。

有益效果：本发明可以高效的实现特征匹配；本发明同时对每个帧内图像中的特征点的区分表示和跨帧图像的特征点一致表示进行建模。本发明只随机选取k个节点进行自我注意力和交叉注意力的计算，而不是对所有特征点进行自我注意力的计算，从而有效地进行信息的交融。与现有技术相比，本发明具有以下优点：

(1)本发明可以捕捉图像内特征的相关性，并探索图像间的交互，以学习双图像的一致表示。

(2)本发明一种新的高效特征匹配网络，它以端到端的方式将基于局部特征表示、度量学习和对应预测结合在一起。

(3)本发明的局部特征融合模块(选k个点进行特征融合)可实现特征间的互补作用，突出有用信息，抑制冗余信息，进一步增强特征图的表征能力。

附图说明

图1为本发明的整体分类流程图；

图2为本发明的邻居信息聚合示意图。

具体实施方式

下面对本发明技术方案进行详细说明，但是本发明的保护范围不局限于所述实施例。

如图1所示，本发明的一种基于局部特征融合与自注意力机制的特征匹配方法，包括以下步骤：

步骤(1)、输入待匹配的源图像和目标图像，通过sift或superpoint方法提取维度为128或256的特征描述符，并使用多层感知机将位置信息(x,y)映射到相同维度；两者结合即为初始的点特征

步骤(2)、分别对源图像和目标图像中的每一个点选取邻居进行信息融合，通过邻居获得有效信息并得到增强后的图像特征表示；

对源图像的每一个点

通过随机采样的方式获取k个邻居

如公式(1)对于点/>

计算k个邻居

然后通过三个线性映射层将F^s转换为

将A^s转换为/>

和/>

则信息交融公式(1)如下：

和/>

均是中间计算量，通过/>

和/>

计算权重，然后通过权重与/>

对目标图像中的每一个点

通过余弦相似度获得各自与当前点最近的k个邻居/>

然后通过三个线性映射层将f_i ^t转换为/>

将A^t转换为/>

和/>

则信息交融公式(2)如下：

和/>

均是中间计算量，通过/>

和/>

计算权重，然后通过权重与/>

聚合图像信息。

步骤(3)、对于步骤(2)所得增强后的图像特征表示，跨图选取前k个点使用交叉注意力网络对源图和目标图像进行跨图信息融合，获得具有跨图信息的图像的点特征。

交叉注意力模块增强源图像和目标图像锚定特征之间的交互学习的具体方法为：

计算源图的每一个点

与目标图中每一个点/>

的欧式距离，如公式(3)所示：/>

其中

进行信息融合；

之间的交互学习的具体方法为：

通过三个线性映射层将F^s转换为

将B^t转换为/>

和/>

则跨图的信息传递如公式(4)所示：

目标图像使用相同方法选取源图像中的前k个点

以融合源图的信息，通过三个线性映射层将f_i ^t转换为/>

将B^s转换为/>

和/>

如公式(5)所示；

步骤(4)、计算源图像和目标图像点特征表示的相似度，并使用sinkorn算法多次迭代训练得到最后的匹配结果：

S＝Sinkhorn(S) (6)

设T表示源特征和目标特征之间的基本真值对应集

然后，在训练阶段使用的匹配预测损失函数表示为公式(7)：

L₁＝-∑_(i,j)∈TlogS_i,j (7)

计算r个处理单元中匹配和非匹配的二进制分类的交叉熵损失，并将其表示为L_z，其中z∈{1，2…Z}，Z是跨图信息融合模块的运行单元数；

因此，最终总损失表示为公式(8)：

其中a是平衡参数。本实施例迭代训练过程中使用Sinkhorn的方式进行迭代，模型的学习率设置为0.0001，在30万次迭代之后应用学习速率衰减，衰减速率为0.999996，直到90万次迭代。

本实施例在GL3D上进行训练，在yfcc、fm-bench、scannet数据集上进行测试模型的匹配结果。

本实施例的用于实现基于局部特征融合与自注意力机制的特征匹配方法的系统，包括特征提取模块、局部邻居特征融合模块、跨图信息融合模块和匹配求解模块，特征提取模块用于提取源图像和目标图像得到初始点特征，局部邻居特征融合分别融合源图像和目标图像自身图像信息得到各自增强后的图像特征；跨图信息融合模块将源图像和目标图像各自增强后的图像特征进行跨图融合；匹配求解模块根据特征信息计算相似度值并求解匹配结果。

Claims

1.一种基于局部特征融合与自注意力机制的特征匹配方法，其特征在于：包括以下步骤：

步骤(2)、分别对源图像和目标图像中的每一个点单独选取邻居进行信息融合，选取邻居的方法为：对每一个点先通过随机采样的方式选取k个点作为邻居，再通过自注意力方式将该点自身与这k个邻居进行信息融合；

2.根据权利要求1所述的基于局部特征融合与自注意力机制的特征匹配方法，其特征在于：所述步骤(1)提取特征描述符时采用的方法是：通过sift或superpoint方法提取维度为128或256的特征描述符，并使用多层感知机将位置信息(x,y)映射到相同维度；两者结合即为初始的点特征。

3.根据权利要求1所述的基于局部特征融合与自注意力机制的特征匹配方法，其特征在于：所述步骤(2)的详细方法为：

对源图像的每一个点

通过随机采样的方式获取k个邻居

对于点/>

计算k个邻居的交互信息，然后通过三个线性映射层将F^s转换为/>

将A^s转换为/>

和/>

则信息交融公式(1)如下：

和/>

均是中间计算量，通过/>

和/>

计算权重，然后通过权重与/>

对目标图像中的每一个点

通过余弦相似度获得各自与当前点最近的k个邻居/>

然后通过三个线性映射层将F^t转换为/>

将A^t转换为/>

和/>

则信息交融公式(2)如下：

和/>

均是中间计算量，通过/>

和/>

计算权重，然后通过权重与/>

聚合图像信息。

4.根据权利要求1所述的基于局部特征融合与自注意力机制的特征匹配方法，其特征在于：所述步骤(3)中计算源图的每一个点

与目标图中每一个点

的欧式距离，如公式(3)所示：/>

其中

进行信息融合；

交叉注意力模块增强源图像的特征点

和目标图像中选出的特征点/>

之间的交互学习的具体方法为：

通过三个线性映射层将F^s转换为

将B^t转换为/>

和/>

则跨图的信息传递如公式(4)所示：

目标图像使用相同方法选取源图像中的前k个点

以融合源图的信息，通过三个线性映射层将/>

转换为/>

将B^s转换为/>

和/>

如公式(5)所示；

5.根据权利要求1所述的基于局部特征融合与自注意力机制的特征匹配方法，其特征在于：所述步骤(4)的具体过程如下：

先使用步骤(3)具有跨图信息的点特征来计算源图及目标图像的相似性矩阵S；然后依据相似性矩阵S使用线性分配算法来实现两幅图像的特征点之间的匹配预测；线性分配算法Sinkhorn如公式(6)所示进行迭代计算：

S＝Sinkhorn(S) (6)

设T表示跨图后的源特征和目标特征之间的基本真值对应集；

然后，在训练阶段使用的匹配预测损失函数表示为公式(7)：

L₁＝-∑_(i,j)∈TlogS_i,j (7)

计算z个处理单元中匹配和非匹配的二进制分类的交叉熵损失，并将其表示为L_z，其中z∈{1，2…Z}，Z是跨图信息融合模块的运行单元数；

因此，最终总损失表示为公式(8)：

其中a是平衡参数。

6.根据权利要求1所述的基于局部特征融合与自注意力机制的特征匹配方法，其特征在于：所述步骤(4)中模型的学习率为0.0001，在30万次迭代之后应用学习速率衰减，衰减速率为0.999996，直到90万次迭代。

7.一种用于实现权利要求1至6任意一项所述基于局部特征融合与自注意力机制的特征匹配方法的系统，其特征在于：包括特征提取模块、局部邻居特征融合模块、跨图信息融合模块和匹配求解模块，特征提取模块用于提取源图像和目标图像得到初始点特征，局部邻居特征融合分别融合源图像和目标图像自身图像信息得到各自增强后的图像特征；跨图信息融合模块将源图像和目标图像各自增强后的图像特征进行跨图融合；匹配求解模块根据特征信息计算相似度值并求解匹配结果。