CN116188825A - 一种基于并行注意力机制的高效特征匹配方法 - Google Patents

一种基于并行注意力机制的高效特征匹配方法 Download PDF

Info

Publication number
CN116188825A
CN116188825A CN202310146914.8A CN202310146914A CN116188825A CN 116188825 A CN116188825 A CN 116188825A CN 202310146914 A CN202310146914 A CN 202310146914A CN 116188825 A CN116188825 A CN 116188825A
Authority
CN
China
Prior art keywords
attention
descriptors
parallel
self
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310146914.8A
Other languages
English (en)
Inventor
杜松林
芦晓勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute Of Southeast University
Southeast University
Original Assignee
Shenzhen Institute Of Southeast University
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute Of Southeast University, Southeast University filed Critical Shenzhen Institute Of Southeast University
Priority to CN202310146914.8A priority Critical patent/CN116188825A/zh
Publication of CN116188825A publication Critical patent/CN116188825A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于并行注意力机制的高效特征匹配方法,首先使用卷积神经网络提取图片关键点及其描述子;再使用并行注意力层对两组特征计算自注意力和交叉注意力,并使用可学习的神经网络自适应融合自注意力网络和交叉注意力网络,其中自注意力网络利用全局上下文信息加强描述子表征能力,交叉注意力网络用于寻找两图像描述子之间的对应关系;描述子经过并行注意力层加强后,使用Sinkhorn算法与互近邻准则计算匹配结果。本方法将自注意力和交叉注意力以并行的方式整合在一起,大幅减小了模型的计算量和参数量,提高模型效率,同时并行注意力层的自适应融合网络使得模型能够学习到最优的注意力融合方式,在性能和效率上实现双赢。

Description

一种基于并行注意力机制的高效特征匹配方法
技术领域
本发明属于基于深度学习的计算机视觉技术领域,主要涉及了一种基于并行注意力机制的高效特征匹配方法。
背景技术
基于视觉的人工智能系统,广泛用于引导机器感知和理解周围环境以更好地做出决策,在全球自动化和人工智能时代一直发挥着重要作用。然而,如何在处理感知的信息,并理解多个视觉目标之间的差异或关系是各个领域的关键课题。作为这些复杂任务中的一个关键和基本问题,图像匹配,也被称为图像对应,旨在识别然后对应两个或多个图像中相同或相似的结构/内容。这种技术被用于高维结构恢复以及信息识别和整合,如三维重建、即时定位与地图构建(SLAM)、图像融合、图像检索、目标识别和跟踪以及变化检测等,具有重要的理论意义与工程应用价值。
在现实应用场景中,用于匹配的图像通常取自相同或相似的场景/物体,但在不同的时间、不同的视角或成像方式下拍摄,因此会带来视角变化、光照变化、尺度变化、遮挡、模糊等挑战性问题。为了建立正确、鲁棒的匹配关系,优秀特征匹配技术应提取两图像的高质量特征,排除上述干扰找到特征间的中的不变性。尽管几十年来已经有许多优秀的特征匹配技术被提出,但是综合考虑考虑效率、鲁棒性和准确性三方面的表现,特征匹配仍然是一项具有挑战性的任务。
目前特征匹配流程可以被分为两类,分别是基于检测器的方法,即稀疏特征匹配,和无检测器方法,即稠密特征匹配。具体来说,基于检测器的方法首先从图像中检测关键点并计算描述子,然后匹配两组稀疏特征,可以理解为二阶段的匹配方法。而无检测器方法直接针对图像所有像素进行特征提取并进行稠密匹配,可以理解为一阶段匹配方法。
经典特征匹配方法通常属于基于检测器的特征匹配方法。对于检测器,一些出色的手工方法如SIFT、SURF、BRIEF和ORB等首先被提出并广泛用于各种3D计算机视觉任务。随着深度学习时代的到来,许多基于卷积神经网络的检测器,如R2D2、SuperPoint、D2-Net和LF-Net被提出以进一步提高关键点和描述子在光照变化和视角变化下的鲁棒性。除了检测器,其他工作还关注于更好的匹配算法,即如何处理检测器提取的关键点和描述子以获得更高质量的匹配。传统方法中最基本的匹配器为最近邻匹配器,其先计算描述子之间的欧氏距离,结合距离阈值将距离最近的描述子之间建立对应关系。SuperGlue是第一个提出基于注意力的特征匹配网络,该网络使用自注意力和交叉注意力提取全局上下文信息进行匹配。OETR通过重叠区域估计进一步将基于注意力的特征匹配限制于共视区域中。
对于无检测器的特征匹配方法,与SuperGlue不同,LoFTR直接在卷积神经网络(CNN)提取的特征图上应用自注意力和交叉注意力,并以从粗到细的方式产生匹配。MatchFormer在LoFTR的基础上进一步放弃了CNN主干网络,采用了一个完全基于注意力的分层框架以提取特征,同时利用注意力机制寻找相似性。SuperGlue和LoFTR中自我注意力和交叉注意力的排布是一种简单的交替策略,而MatchFormer进一步提出了一种交错策略,即在网络的浅层阶段注重自我注意,在深层阶段注重交叉注意。
受益于Transformer的全局建模能力,基于注意力的网络成为了基于检测器和无检测器网络中的主导方法。然而,基于注意力的网络尽管性能优秀,但基于注意力的网络往往会带来高训练成本、大内存需求和高推理延迟,特别是对于无检测器的方法,处理密集特征会加剧注意力机制的二次复杂度问题。因而,现有的基于注意力的方法都以串行方式人为地安排自注意力和交叉注意力,如图1(a)所示,这使基于注意力的特征匹配方法效率低下,且固定的注意力排列方式限制了自注意力和交叉注意力集成的多样性。
发明内容
本发明正是针对现有技术中存在的问题,提供一种基于并行注意力机制的高效特征匹配方法,首先使用卷积神经网络提取图片关键点及其描述子;再使用并行注意力层对两组特征计算自注意力和交叉注意力,并使用可学习的神经网络自适应融合自注意力网络和交叉注意力网络,其中自注意力网络利用全局上下文信息加强描述子表征能力,交叉注意力网络用于寻找两图像描述子之间的对应关系;描述子经过并行注意力层加强后,使用Si nkhorn算法与互近邻准则计算匹配结果。本方法将自注意力和交叉注意力以并行的方式整合在一起,大幅减小了模型的计算量和参数量,提高模型效率,同时并行注意力层的自适应融合网络使得模型能够学习到最优的注意力融合方式,在性能和效率上实现双赢。为了实现上述目的,本发明采取的技术方案是:一种基于并行注意力机制的高效特征匹配方法,包括以下步骤:
S1、输入单张图片,对输入图片进行随机单应变换并生成单应性矩阵,得到输入网络的两张图片和groundtruth单应性矩阵,使用深度卷积神经网络提取图片关键点及描述子;
S2、以步骤S1获得的关键点及描述子为输入,使用多层感知机作为位置编码器,将关键点的空间位置信息嵌入到描述子中;
S3、将步骤S2获得的描述子通过9层并行注意力层处理,每个并行注意力层中包括自注意力模块和交叉注意力模块,
所述自注意力模块中,采用标准注意力操作分别处理两图片描述子,加强描述子表征能力;
所述交叉注意力模块,按照注意力权重共享策略,寻找两图片的描述子之间的对应关系;
将自注意力模块网络输出和交叉注意力模块网络输出连接并通过多层感知机融合,融合结果用于更新描述子,新描述子作为下一层并行注意力层的输入;
S4、经过步骤S3利用并行注意力层加强描述子后,将两图片描述子点乘得到得分矩阵,并将其作为最优运输问题的成本矩阵,应用Si nkhorn算法迭代获得最优分配矩阵,基于最优分配矩阵,首先过滤值小于匹配阈值的匹配,最后使用互最近邻准则选择最终匹配;
S5、根据步骤S4的输出匹配结果和真实匹配计算损失,训练并行注意力网络和位置编码器,实现特征匹配。
作为本发明的一种改进,所述步骤S2中多层感知机有三层隐藏层,将关键点维度从2依次扩展为32、64、128,最后输出256维的位置编码向量,与描述子相加实现位置信息的融入。
作为本发明的一种改进,所述步骤S2中,使用多层感知机MLPpc将关键点的空间位置信息嵌入到描述子中,具体为:
Figure BDA0004089442800000041
Figure BDA0004089442800000042
其中,pi和di分别为第i个关键点的位置和和描述子;x(0),y(0)为生成的初始特征。
作为本发明的另一种改进,所述步骤S3并行注意力层处理时,首先用三个共享权重的线性投影层将描述子投影为Q,K,V,即将x(l)和y(l)投影为
Figure BDA0004089442800000043
Figure BDA0004089442800000044
其中x(l)和y(l)为第l层注意力网络的输入,然后以并行的方式计算自注意力和交叉注意力。
作为本发明的又一种改进,所述步骤S3并行注意力层处理时,自注意力Self和交叉注意力Cross计算表示为:
Figure BDA0004089442800000045
Figure BDA0004089442800000046
Figure BDA0004089442800000047
Figure BDA0004089442800000048
其中d为描述子通道数,Self和Cross分别为自注意力和交叉注意力结果。
作为本发明的又一种改进,所述步骤S3并行注意力层处理时,在自注意力模块中,Q、K、V来自相同的输入,即
Figure BDA0004089442800000049
或/>
Figure BDA00040894428000000410
在交叉注意力模块中,输入来自不同图像的描述子,按照注意力权重共享策略,将/>
Figure BDA0004089442800000051
替换为(QxKy T)T
作为本发明的进一步改进,所述步骤S4中,Sinkhorn算法迭代次数为20,匹配阈值为0.2。
作为本发明的更进一步改进,所述步骤S5的训练中,损失函数为最优分配矩阵上的负对数似然损失函数,即:
Figure BDA0004089442800000052
其中P为由两组描述子内积计算的得分矩阵,Mgt为真实匹配,注意力网络和位置编码器网络共同由此损失函数监督训练。
与现有技术相比,本发明提供了一种基于并行注意力机制的高效特征匹配方法,具有的有益效果:
1、本方法用深度卷积网络提取稀疏的关键点和描述子,而非提取密集的特征图,有效地改善了注意力机制有平方复杂度的缺点。
2、本方法使用深度注意力网络加强描述子,不同于深度卷积网络,此网络具有全局感受野,可以聚合来自所有节点的信息,使得描述子能够充分感知全局上下文信息,从而提高描述子之间的匹配质量。
3、本方法改善了基于注意力模型计算量大、效率低下的缺点,为自注意力和交叉注意力设计了并行计算结构和权重共享策略,有效降低了模型计算量和参数量。同时,自注意力和交叉注意力的动态融合网络可以自适应融合两种注意力,提高了模型性能。
4、本方法改进了基于注意力机制的特征匹配算法,实现了性能和效率的双赢,在图像配准、三维重建、视觉定位等领域有着广泛的应用前景。
附图说明
图1是串行注意力和并行注意力结构对比图,其中
图1(a)是串行注意力结构的示意图;
图1(b)是并行注意力结构的示意图;
图2是并行注意力层和位置编码器流程图。
具体实施方式
下面结合附图和具体实施方式,进一步阐明本发明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
实施例1
一种基于并行注意力机制的高效特征匹配方法,如图1(b)所示,将自注意力和交叉注意力以并行的方式整合在一起,大幅减小了模型的计算量和参数量,提高模型效率,同时并行注意力层的自适应融合网络使得模型能够学习到最优的注意力融合方式,提高网络性能,具体包括以下步骤:
S1:读取图像灰度图,使用深度卷积神经网络提取图片关键点及描述子;不同于常规深度注意力网络处理密集的特征图,首先用深度卷积网络提取稀疏的关键点和描述子,再应用注意力机制加强描述子,有效地改善了注意力机制有平方复杂度的缺点。
S2、如图2所示,以步骤S1获得的关键点和描述子为输入,使用多层感知机作为位置编码器,将关键点的空间位置信息嵌入到描述子中;
由于注意力模块具有排列不变性,无法在空间上区分每个节点,因此有必要将位置信息嵌入到描述符中,使用多层感知机实现关键点的空间位置信息嵌入生成特征的初始表示。
设第i个关键点的位置和和描述子分别为pi和di,本方法使用多层感知机MLPpc将关键点的空间位置信息嵌入到描述子中,即:
Figure BDA0004089442800000061
Figure BDA0004089442800000062
S3、将步骤S2获得的描述子通过9层并行注意力层处理,利用全局上下文信息加强描述子。在每个并行注意力层中,首先用共享权重的线性投影层将描述子投影为Q,K,V,然后以并行的方式计算自注意力和交叉注意力,其中自注意力网络利用全局上下文信息加强描述子表征能力,交叉注意力网络寻找两图片的描述子之间的对应关系,两者均对图像的全局信息进行传递,然后用两层感知机融合自注意力和交叉注意力的结果,用于更新描述子。
设第l层两图像的描述子分别为x(l)和y(l)。首先用三个共享权重的线性投影层将x(l)和y(l)投影为
Figure BDA0004089442800000071
和/>
Figure BDA0004089442800000072
自注意力Self和交叉注意力Cross计算表示为:
Figure BDA0004089442800000073
Figure BDA0004089442800000074
Figure BDA0004089442800000075
Figure BDA0004089442800000076
其中d为描述子通道数,Self和Cross分别为自注意力和交叉注意力结果。自注意力层和交叉注意力层不同之处在于自注意力的输入来自于相同的描述子,如
Figure BDA0004089442800000077
或/>
Figure BDA0004089442800000078
而交叉注意力层的输入来自不同图像的描述子,并且应用注意力权重共享策略,注意力权重共享指用图像x到图像y的注意力权重替换从图像y到图像x的注意力权重,即用(QxKy T)T替换/>
Figure BDA0004089442800000079
分别用两个多层感知机MLPx、MLPy融合两图像的自注意力和交叉注意力结果,最后用融合结果更新描述子作为下一并行注意力层的输入,|表示连接操作,公式表示如下:
x(l+1)=x(l)+MLPx([x(l)|Selfx|Crossx])
y(l+1)=y(l)+MLPy([y(l)|Selfy|Crossy])
使用深度注意力网络加强描述子,不同于深度卷积网络,此网络具有全局感受野,善于捕捉长距离依赖关系,可以聚合来自所有节点的信息,此特点使得描述子能够充分感知全局上下文信息,从而提高描述子之间的匹配质量。
并行注意力层同步计算自注意力和交叉注意力,并让网络学习融合这两种注意力的最佳方式,而不是将两种注意的排列作为一个超参数调节。
S4、在进行9层并行注意力后,在匹配层两图片描述子内积计算得出得分矩阵S,作为最优运输问题的成本矩阵。然后应用Sinkhorn算法迭代获得最优分配矩阵P。基于最优分配矩阵P,首先排除值小于匹配阈值的匹配,然后使用互最近邻准则选择最终匹配M;
S5、根据输出匹配结果和真实匹配计算损失,训练并行注意力网络和位置编码器。
搭建PyTorch深度学习开发环境,将数据集划分为训练集、验证集和测试集。训练期间,根据单应性(单应性估计任务)或相机位置和深度(相机位姿估计任务)计算真实匹配Mgt。损失函数为最优分配矩阵上的负对数似然损失函数,即:
Figure BDA0004089442800000081
/>
其中P为由两组描述子内积计算的得分矩阵,Mgt为真实匹配。注意力网络和位置编码器网络共同由此损失函数监督训练,完成特征匹配。
实施例2
步骤S1、输入单张图片,对输入图片进行随机单应变换并生成单应性矩阵,得到输入网络的两张图片和groundtruth单应性矩阵。使用SuperPoint深度卷积网络对两张图片提取关键点p和描述子d,假设图像X和Y各有N和M个关键点,则两图像关键点位置向量p的维度分别为(M,3)、(N,3),描述子d的维度分别为(M,256)、(N,256)。
实验数据集为R1M,R1M是包含1,001,001个高分辨率图片的图像检索数据集,它涵盖了全球各地超过20个地标的图片,具有复杂的视角变化、光照变化、模糊和遮挡等,非常适合用于训练和评估特征匹配网络。将R1M划分为训练集、验证集和测试集,分别包含1000000、501、500张图片。
步骤S2、以步骤S1获得的关键点p和描述子d为输入,使用多层感知机将关键点的空间位置信息嵌入到描述子中,其中多层感知机有三层隐藏层,将关键点维度从2依次扩展为32、64、128,最后输出256维的位置编码向量,与描述子相加实现位置信息的融入,两图像生成特征的初始表示分别为x(0)、y(0)
步骤S3、用9层并行注意力层加强步骤二获得的特征初始表示x(0)、y(0),自注意力网络加强描述子表征能力,交叉注意力网络寻找两图片的描述子之间的对应关系,两者均对图像的全局信息进行传递。设第l层注意力网络的输入为x(l)和y(l),首先用三个共享权重的线性投影层将x(l)和y(l)投影为
Figure BDA0004089442800000091
和/>
Figure BDA0004089442800000092
在自注意力模块中,采用标准注意力计算/>
Figure BDA0004089442800000093
其中Q、K、V来自相同的输入,即
Figure BDA0004089442800000094
或/>
Figure BDA0004089442800000095
在交叉注意力模块中,按照注意力权重共享策略,即将/>
Figure BDA0004089442800000096
替换为(QxKy T)T,因此交叉注意力模块的输入为/>
Figure BDA0004089442800000097
所有中间特征具有相同的维度d=256。最后,自注意力和交叉注意力输出由一个双层感知机融合,再通过残差连接更新描述子。
步骤S4、利用并行注意力层强化描述子后,将两图片描述子点乘获得得分矩阵S,其维度为(M,N),将其作为最优运输问题的成本矩阵,然后应用Sinkhorn算法迭代获得最优分配矩阵P,其维度与S保持一致,本实施例中Sinkhorn算法迭代次数为20次。基于P,首先过滤小于匹配阈值的匹配,最后使用互最近邻准则选择最终匹配M,本实施例中匹配阈值为0.2;
步骤S5、本方法利用PyTorch进行训练,并参考工程参数设置经验来设置相关参数。设置batch size为8,代表每次加载16张样本图片进行匹配,设置AdamW作为优化器,初始学习率设置为0.0001,warm up epoch设置为1,应用余弦学习率衰减,momentum动量因子设置为0.9,weight_decay权重衰减因子设置为0.0001,训练总epoch为10。训练期间,根据groundtruth单应性矩阵和关键点计算真实匹配Mgt,若重投影误差小于3像素,则视匹配为groundtruth匹配。损失函数为最优分配矩阵上的负对数似然损失函数,并行注意力网络和位置编码器由此损失函数共同监督。
综上,本方法将自注意力和交叉注意力以并行的方式整合在一起,在性能和效率上实现双赢,在图像配准、三维重建、视觉定位等领域有着广泛的应用前景。
需要说明的是,以上内容仅仅说明了本发明的技术思想,不能以此限定本发明的保护范围,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰均落入本发明权利要求书的保护范围之内。

Claims (8)

1.一种基于并行注意力机制的高效特征匹配方法,其特征在于,包括以下步骤:
S1、输入单张图片,对输入图片进行随机单应变换并生成单应性矩阵,得到输入网络的两张图片和groundtruth单应性矩阵,使用深度卷积神经网络提取图片关键点及描述子;
S2、以步骤S1获得的关键点及描述子为输入,使用多层感知机作为位置编码器,将关键点的空间位置信息嵌入到描述子中;
S3、将步骤S2获得的描述子通过9层并行注意力层处理,每个并行注意力层中包括自注意力模块和交叉注意力模块,
所述自注意力模块中,采用标准注意力操作分别处理两图片描述子,加强描述子表征能力;
所述交叉注意力模块,按照注意力权重共享策略,寻找两图片的描述子之间的对应关系;
将自注意力模块网络输出和交叉注意力模块网络输出连接并通过多层感知机融合,融合结果用于更新描述子,新描述子作为下一层并行注意力层的输入;
S4、经过步骤S3利用并行注意力层加强描述子后,将两图片描述子点乘得到得分矩阵,并将其作为最优运输问题的成本矩阵,应用Sinkhorn算法迭代获得最优分配矩阵,基于最优分配矩阵,首先过滤值小于匹配阈值的匹配,最后使用互最近邻准则选择最终匹配;
S5、根据步骤S4的输出匹配结果和真实匹配计算损失,训练并行注意力网络和位置编码器,实现特征匹配。
2.如权利要求1所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S2中多层感知机有三层隐藏层,将关键点维度从2依次扩展为32、64、128,最后输出256维的位置编码向量,与描述子相加实现位置信息的融入。
3.如权利要求2所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S2中,使用多层感知机MLPpc将关键点的空间位置信息嵌入到描述子中,具体为:
Figure FDA0004089442790000021
Figure FDA0004089442790000022
其中,pi和di分别为第i个关键点的位置和和描述子;x(0),y(0)为生成的初始特征。
4.如权利要求2或3所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S3并行注意力层处理时,首先用三个共享权重的线性投影层将描述子投影为Q,K,V,即将x(l)和y(l)投影为
Figure FDA0004089442790000023
和/>
Figure FDA0004089442790000024
其中x(l)和y(l)为第l层注意力网络的输入,然后以并行的方式计算自注意力和交叉注意力。
5.如权利要求4所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S3并行注意力层处理时,自注意力Self和交叉注意力Cross计算表示为:
Figure FDA0004089442790000025
Figure FDA0004089442790000026
Figure FDA0004089442790000027
/>
Figure FDA0004089442790000028
其中,d为描述子通道数;Self和Cross分别为自注意力和交叉注意力结果。
6.如权利要求5所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S3并行注意力层处理时,在自注意力模块中,Q、K、V来自相同的输入,即
Figure FDA0004089442790000029
或/>
Figure FDA00040894427900000210
在交叉注意力模块中,输入来自不同图像的描述子,按照注意力权重共享策略,将/>
Figure FDA00040894427900000211
替换为(QxKy T)T
7.如权利要求4所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S4中,Sinkhorn算法迭代次数为20,匹配阈值为0.2。
8.如权利要求6所述一种基于并行注意力机制的高效特征匹配方法,其特征在于:所述步骤S5的训练中,损失函数为最优分配矩阵上的负对数似然损失函数,即:
Figure FDA0004089442790000031
其中,P为由两组描述子内积计算的得分矩阵,Mgt为真实匹配,注意力网络和位置编码器网络共同由此损失函数监督训练。
CN202310146914.8A 2023-02-22 2023-02-22 一种基于并行注意力机制的高效特征匹配方法 Pending CN116188825A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310146914.8A CN116188825A (zh) 2023-02-22 2023-02-22 一种基于并行注意力机制的高效特征匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310146914.8A CN116188825A (zh) 2023-02-22 2023-02-22 一种基于并行注意力机制的高效特征匹配方法

Publications (1)

Publication Number Publication Date
CN116188825A true CN116188825A (zh) 2023-05-30

Family

ID=86440041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310146914.8A Pending CN116188825A (zh) 2023-02-22 2023-02-22 一种基于并行注意力机制的高效特征匹配方法

Country Status (1)

Country Link
CN (1) CN116188825A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116953653A (zh) * 2023-09-19 2023-10-27 成都远望科技有限责任公司 一种基于多波段天气雷达组网回波外推方法
CN117474963A (zh) * 2023-10-18 2024-01-30 南京国础科学技术研究院有限公司 多源卫星图像配准方法、系统、存储介质和电子设备
CN117825743A (zh) * 2024-03-04 2024-04-05 浙江大学 基于傅里叶特征增强和全局匹配的piv测速方法与装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116953653A (zh) * 2023-09-19 2023-10-27 成都远望科技有限责任公司 一种基于多波段天气雷达组网回波外推方法
CN116953653B (zh) * 2023-09-19 2023-12-26 成都远望科技有限责任公司 一种基于多波段天气雷达组网回波外推方法
CN117474963A (zh) * 2023-10-18 2024-01-30 南京国础科学技术研究院有限公司 多源卫星图像配准方法、系统、存储介质和电子设备
CN117474963B (zh) * 2023-10-18 2024-04-19 南京国础科学技术研究院有限公司 多源卫星图像配准方法、系统、存储介质和电子设备
CN117825743A (zh) * 2024-03-04 2024-04-05 浙江大学 基于傅里叶特征增强和全局匹配的piv测速方法与装置

Similar Documents

Publication Publication Date Title
Melekhov et al. Dgc-net: Dense geometric correspondence network
CN109598268B (zh) 一种基于单流深度网络的rgb-d显著目标检测方法
CN116188825A (zh) 一种基于并行注意力机制的高效特征匹配方法
CN107329962B (zh) 图像检索数据库生成方法、增强现实的方法及装置
CN111667535B (zh) 一种针对遮挡场景下的六自由度位姿估计方法
CN111126412B (zh) 基于特征金字塔网络的图像关键点检测方法
CN114937083B (zh) 一种应用于动态环境的激光slam系统及方法
CN110909591A (zh) 用编码向量的行人图像检测自适应非极大值抑制处理方法
CN111832484A (zh) 一种基于卷积感知哈希算法的回环检测方法
CN109389156B (zh) 一种图像定位模型的训练方法、装置及图像定位方法
EP3012781A1 (en) Method and apparatus for extracting feature correspondences from multiple images
CN111797688A (zh) 一种基于光流和语义分割的视觉slam方法
CN114758152A (zh) 一种基于注意力机制和邻域一致性的特征匹配方法
CN111105439A (zh) 一种使用残差注意力机制网络的同步定位与建图方法
GB2612029A (en) Lifted semantic graph embedding for omnidirectional place recognition
Zhao et al. Probabilistic spatial distribution prior based attentional keypoints matching network
Kuang et al. DenseGAP: graph-structured dense correspondence learning with anchor points
CN116097307A (zh) 图像的处理方法及相关设备
Kim et al. Self-supervised keypoint detection based on multi-layer random forest regressor
CN106845555A (zh) 基于Bayer格式的图像匹配方法及图像匹配装置
CN117132651A (zh) 一种融合彩色图像和深度图像的三维人体姿态估计方法
CN112668662A (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN116912804A (zh) 一种高效的无锚框3-d目标检测及跟踪方法及模型
Yu et al. A DenseNet feature-based loop closure method for visual SLAM system
CN114419102B (zh) 一种基于帧差时序运动信息的多目标跟踪检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination