CN117351246B - 一种误匹配对去除方法、系统及可读介质 - Google Patents
一种误匹配对去除方法、系统及可读介质 Download PDFInfo
- Publication number
- CN117351246B CN117351246B CN202311355526.7A CN202311355526A CN117351246B CN 117351246 B CN117351246 B CN 117351246B CN 202311355526 A CN202311355526 A CN 202311355526A CN 117351246 B CN117351246 B CN 117351246B
- Authority
- CN
- China
- Prior art keywords
- information
- feature
- layer
- matching
- pair
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000000605 extraction Methods 0.000 claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 62
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 230000008447 perception Effects 0.000 claims description 17
- 238000012512 characterization method Methods 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000009977 dual effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ZMYKITJYWFYRFJ-UHFFFAOYSA-N 4-oxo-4-(2-phenylethylamino)butanoic acid Chemical compound OC(=O)CCC(=O)NCCC1=CC=CC=C1 ZMYKITJYWFYRFJ-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/757—Matching configurations of points or features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/84—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using probabilistic graphical models from image or video features, e.g. Markov models or Bayesian networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像匹配领域,尤其涉及一种误匹配对去除方法、系统及可读介质。一种误匹配对去除方法,包括:获取初始匹配对集;基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。针对初始匹配对集基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;对所述多层次深度特征进行逐层融合操作得到所述初始匹配集中每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。可以有效去除离群点信息的干扰,增强模型的准确性和稳定性,在各种应用场景中表现更好。
Description
技术领域
本发明涉及图像匹配领域,尤其涉及一种误匹配对去除方法、系统及可读介质。
背景技术
双视图匹配是计算机视觉中的一项基本任务,旨在建立从两个不同视点捕获的图像中的特征点之间的对应关系。它与许多其他计算机视觉任务密切相关,例如运动结构、图像检索、3D重建和遥感图像和视觉同步定位和映射。双视图匹配的过程包括从同一场景的两幅不同视角图像中提取特征点,然后对这些特征点进行匹配以确定两幅图像之间的相对位置和姿态。然而,由于各种因素可能影响结果的准确性,例如旋转、平移、光照变化、环境因素、模糊和遮挡,因此这项任务具有挑战性。
为了应对这些挑战,人们开发了各种技术,包括特征点检测和描述、特征匹配、异常值去除和几何验证。近年来,基于深度学习的方法在双视图匹配方面也显示出了可喜的结果,因为它们可以从大规模数据中学习更鲁棒和更具辨别力的特征。给定两张图片,提取特征点并建立点对点对应关系并不是一个非常困难的问题。然而,匹配特征点通常会产生大量异常匹配对,从大量错误匹配中找到内部对应关系具有挑战性,特别是当异常对应比例高达90%时。
异常点去除对应学习方法包括以下三个步骤:首先,获取特征点及其描述符;其次,建立初始对应关系集;第三,删除不正确的对应集。一般来说,第一步是使用现有的方法来实现的,例如SIFT和SuperPoint。然后,使用最近邻法来构建初始对应集。然而,这个过程经常会产生大量的异常值,远远多于正常值。因此,去除异常值的网络就显得尤为重要。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种误匹配对去除方法、系统及可读介质,用于快速去除图像匹配过程中的误匹配对。
为了达到上述目的,本发明采取了以下技术方案:
一方面,本发明提供一种误匹配对去除方法,包括:
获取初始匹配对集;其中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集;
基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;
对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;
基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。
另一个方面,本发明还提供一种误匹配对去除系统,包括:
获取模块,用于获取初始匹配对集;其中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集;
特征提取网络,用于基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;
特征融合网络,用于对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。
另一方面,本发明还提供一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的误匹配对去除方法。
相较于现有技术,本发明提供的一种误匹配对去除方法、系统及可读介质,具有以下有益效果:
本发明提供一种误匹配对去除方法,针对初始匹配对集基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;对所述多层次深度特征进行逐层融合操作得到所述初始匹配集中每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。可以有效去除离群点信息的干扰,增强模型的准确性和稳定性,在各种应用场景中表现更好。
附图说明
图1是本发明提供的误匹配对去除方法流程图。
图2是本发明提供的特征提取网络的结构图。
图3是本发明提供的逐层通道融合模块的结构图。
图4是本发明提供的分层注意力融合模块的结构图。
图5是本发明提供的误匹配对去除系统的结构框图。
图6是本发明提供的系统总体框架图
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本领域技术人员应当理解,前面的一般描述和下面的详细描述是本发明的示例性和说明性的具体实施例,不意图限制本发明。
本文中术语“包括”,“包含”或其任何其他变体旨在覆盖非排他性包括,使得包括步骤列表的过程或方法不仅包括那些步骤,而且可以包括未明确列出或此类过程或方法固有的其他步骤。同样,在没有更多限制的情况下,以“包含...一个”开头的一个或多个设备或子系统,元素或结构或组件也不会没有更多限制,排除存在其他设备或其他子系统或其他元素或其他结构或其他组件或其他设备或其他子系统或其他元素或其他结构或其他组件。在整个说明书中,短语“在一个实施例中”,“在另一个实施例中”的出现和类似的语言可以但不一定都指相同的实施例。
除非另有定义,否则本文中使用的所有技术和科学术语具有与本发明所属领域的普通技术人员通常所理解的相同含义。
为了解决上述问题,本发明提出了一种新的高效的神经网络模型,称为基于注意力与逐层融合的双视图特征一致性学习方法。它采用迭代结构信息提取架构,防止被大量离群信息误导。本发明引入了一种新的逐层信道融合模块,以有效地融合信息。该方法在多级网络中逐步生成和合成信息,最大限度地保证了特征信息的丰富性。本发明设计了层次注意力模块提取不同层次的特征信息,并使用注意力机制将它们融合。该方法通过多次迭代,进一步筛选原始信息和冗余信息,逐步提高网络性能,增强网络模型的适应性和泛化能力。为了整合多个阶段的信息量,本发明提出了一个信息集成模块,结合每个阶段的信息,以获得更准确和全面的特征表示。通过这种方式,这种方法可以有效去除离群点信息的干扰,增强模型的准确性和稳定性,在各种应用场景中表现更好。
请参阅图1,本发明提供一种误匹配对去除方法,包括:
S1、获取初始匹配对集;其中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集;在本实施例中,获取两张图像的初始匹配对集的方式不作限定,本领域的技术人员可以根据实际需求选择合适的获取方法得到所述初始匹配对集。
作为优选方案,一些实施例中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集,具体包括:
S11、通过预定算法对两张图像分别提取关键点;
进一步的,在获取所述特征点前,还执行:
尺度空间构建:通过高斯差分金字塔构建图像的尺度空间,其中每一层都是通过对上一层图像进行高斯模糊后与原图像相减得到的。
极值点检测:在尺度空间中寻找局部极值点,这些点是在空间和尺度两个维度上都具有最大或最小值的点。
关键点定位:对于检测到的极值点,通过利用尺度空间的曲率信息和灰度变化来筛选出具有稳定特征的关键点。
方向分配:对于每个关键点,根据其周围的图像梯度方向来分配其主要方向,这样可以使得提取到关键点的特征信息具有旋转不变性。
S12、生成每个所述关键点的特征描述子;
特征描述:在每个关键点周围的邻域内构建特征描述子,一般采用16x16的窗口,并将其分成4x4个小区域。对于每个小区域,计算其梯度幅值和方向直方图,最后将这些直方图连接起来形成一个128维的特征向量。
S13、获取两张图像之间的特征描述子之间的距离度量;
建立候选点集合:将待匹配的关键点作为查询点,从目标关键点集合中选择一组候选点集合。
计算距离:对于每个查询点,计算其与候选点集合中每个点之间的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离、余弦相似度等。
S14、根据设定的阈值,筛选出距离度量最小的两个关键点对应作为匹配对,进而得到初始匹配集。
寻找最近邻:对于每个查询点,找到其距离最近的候选点,即找到与查询点距离最近的点。
匹配:将查询点与其最近邻点进行匹配得到所述匹配对。进而得到一个初始匹配对集S=[s1,s2,s3,…,sN]∈RN×4,其中si=(xi,yi,x′i,y′i),i=1、2、……、n,为一匹配对,其中(xi,yi),(x′i,y′i)代表产生特征对应的两关键点在各自图像中的坐标。
S2、基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;
S3、对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;
S4、基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。
使用本发明提供的误匹配对去除方法,针对初始匹配对集基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;对所述多层次深度特征进行逐层融合操作得到所述初始匹配集中每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。可以有效去除离群点信息的干扰,增强模型的准确性和稳定性,在各种应用场景中表现更好。
进一步的,在进行误匹配对去除完成后,则两张图像之间的匹配对集得到的均是正确匹配对。若是在相机的位姿调整场景中,此时根据匹配对集进行相机的位姿,则调整效果更佳。
请参阅图2-图4,作为优选方案,一些实施例中,基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征,具体包括:
S21、使用多层特征提取模块分别对所述初始匹配对集进行特征提取;其中,多层所述特征提取模块分别用于提取不同深度的特征信息,前一层所述特征提取模块的输出数据与原始匹配对特征信息融合作为后一层所述特征提取模块的输入数据;本实施例中,设计特征提取模块,并通过三个特征特征提取模块来提取不同深度的特征信息,且后一阶段的特征提取模块的输入是前一阶段特征提取模块输出的权重与特征的融合(即将原始匹配对与上一层所述特征提取模块的输出数据进行加权后得到综合数据作为当前层所述特征提取模块的输入数据)。
一般的,所述原始匹配对特征信息的生成过程为:首先通过最近邻算法会产生两幅图像的特征点匹配对,进而通过对特征点匹配对的坐标产生这个匹配对的128维的特征信息作为所述原始匹配对特征信息。
作为优选方案,一些实施例中,所述特征提取模块包括:
多个分层注意力融合模块,每层所述分层注意力融合模块基于逐层通道融合单元和分层注意力机制单元构建;其中,所述逐层通道融合单元对特征信息进行通道下采样,逐层捕获并保留每个阶段的特征通道信息,并将每个阶段的所述特征通道信息进行通道融合;所述分层注意力机制单元用于提取各个匹配对的全局感知信息和结构语义信息,并基于注意力机制进行融合;
聚类分析模块,对所有匹配对基于每个阶段的特征通道信息进行聚类,得到多个簇,每个簇都有各个匹配对的不同通道信息,实现簇内之间的信息交互,建立簇之间的相关性。
S22、集合每层所述特征提取模块的输出数据得到所述多层次深度特征。
特征提取模块主要作用于两个方向,特征通道信息的融合和特征信息的融合。对于特征通道信息的融合,本实施例提供逐层通道融合模块;对于特征语义信息的融合,本实施例提供分层注意力融合模块;此外,本实施例还通过聚类分析对特征点之间进行信息交互。
进一步的,作为优选方案,一些实施例中,对特征信息进行通道下采样,逐层捕获和保留每个阶段的特征通道信息,同时实现通道融合,具体包括:
对特征图通过下采样删除去除特征的冗余信息,将128维的匹配对信息特征表征降低至32维;
将32维的特征通过逐层生成,逐层融合的方式回复至128维,得到的特征通道信息囊括了每个阶段生成的通道信息;其中,每一阶段的输入信息都是在前的每个阶段的输出信息组合。
具体的,对于特征图Fin,本发明先通过下采样删除去除特征的冗余信息,将128维的信息特征表征降低至32维,既可以降低计算复杂度,也能够增强模型的泛化能力和抗干扰能力,提取更加鲁棒和具有判别性的特征。32维的特征通过逐层生成,逐层融合的方式回复至128维,保证每一阶段的信息都是过去每个阶段的信息组合而成。四个阶段的维度分别为32,32,64,128。通过逐层生成,逐层融合的方式实现维度先压缩,后扩充恢复至原维度。最后得到的特征通道信息囊括了每个阶段生成的通道信息,最大限度恢复特征表征能力,丰富特征信息。其中其中Concat是两个特征的拼接,/>和/>是第i个阶段的输入输出,PCNi是第i个阶段的PointCN模块,该模块用来提取特征信息。
作为优选方案,一些实施例中,提取特征信息的全局感知信息和结构语义信息,并基于注意力机制进行融合,具体包括:
获取特征的全局感知信息和结构语义信息;
通过注意力机制将进行全局感知信息和结构语义信息交互融合,得到具有不同层次语义信息的特征表征。
对于全局感知信息,通过全局评价池化来降低特征图的维度并提取全局信息。通过卷积来提升特征信息,实现特征图恢复。并通过批归一化来对每个批次的数据进行归一化处理,加速训练和提高模型性能,并使得网络更加稳定。整体公式可以表示如下Fglobal=B(CONV(GAP(F))。
对于结构语义信息,仅通过卷积来进行特征信息映射、特征信息提取,并通过批归一化处理。整体公式可以表示如下Fstruct=B(CONV(F))。
两者通过注意力机制进行交互融合,得到具有不同层次语义信息的特征表征。
在一些实施例中,所述交互融合具体包括:
将全局感知信息和结构语义信息进行注意力融合得到整体的注意力数据;所述注意力融合的计算公式为:
Fatt=Att(Fstruct+Fglobal);其中,Fatt为注意力数据;Fstruct为全局感知信息;Fglobal为结构语义信息。
将所述注意力数据与特征图F进行融合得到所述特征表征。本步骤中的融合公式为:
Fout=F·Fatt;其中,Fout为特征表征;F为特征图。
作为优选方案,一些实施例中,对特征点进行聚类分成簇,建立簇之间的相关性,具体包括:
特征图通过可微池化划分为簇,通过学习软分配矩阵可微池化对无序输入对应进行聚类,这些簇是规范的顺序并且对输入排列是不变的。通过可微逆池化将上下文编码的簇恢复到原始大小,进而将该特征信息分布到原始匹配对特征点。具体的,所述特征图为各个特征提取模块的输入数据。
作为优选方案,一些实施例中,基于所述综合特征表示获取每个匹配对的匹配概率,具体包括:
对所述综合特征表示进行特征降维和特征扩展,得到优化后的综合特征数据;
基于所述综合特征数据计算初始匹配对集中每个匹配对的匹配概率。
如图2所示,对特征提取架构提取的不同深度的信息特征进入融合,并生成完备的特征表征。以初始匹配点对应作为模型输入,依次通过特征提取架构,特征整合架构,输出匹配点对应是否为正确匹配的概率。并根据概率对其进行分类。
S3.1融合各特征提取块信息:在三阶段特征提取模块的特征提取后,本发明通过将三个阶段的特征拼接的方式组合得到具有三个种不同深度的特征信息。
S3.2生成完备特征表示:将融合后的特征信息通过池化和卷积的形式进行特征降维和特征扩展,保留最重要的信息,增加特征丰富性表示。
S3.3计算匹配对为正确匹配的概率:对完备特征表示(即特征图F)通过感知机制进行二分类任务,通过调整权重和阈值来使得模型正确分类训练样本;通过ReLU作为激活函数用于隐藏层,tanh作为激活函数作用于输出层。这种组合可以在隐藏层中使用ReLU来引入非线性,并且可以要通过修剪负值来稀疏激活,以增强网络的稀疏性和泛化能力。
在一些实施例中,所述激活函数为p=Relu(tanh(F))。
请参阅图5-图6,本发明还提供一种误匹配对去除系统,包括:
获取模块,用于获取初始匹配对集;其中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集;
特征提取网络,用于基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;
特征融合网络,用于对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对。
在一些实施例中,所述误匹配对去除系统还包括去除模块,用于基于所述匹配概率对去除错误匹配对。在此实施例中,所述特征融合网络不用于去除错误匹配对操作。
在一些实施例中,所述获取模块执行以下操作:
1、提取图像特征点:通过经典SIFT算法对图像进行特征点的提取。它的作用是在图像中检测关键点(如角点、边缘点等),并计算这些关键点的局部特征描述符,这些特征描述符可以用于在不同图像之间进行特征匹配。SIFT算法具有尺度不变性和旋转不变性的特点,能够在不同尺度和旋转角度下提取出稳定的特征点;
2、构建图像间特征点匹配:在图像特征匹配中,最近邻算法是一种常用的匹配算法。其基本思想是对于给定的特征点,设定合适的阈值,从另一个图像中寻找最相似的特征点作为匹配点,这种方法生成的正确匹配较错误匹配会少的多。
另外,在一些实施例中,所述特征提取网络和所述特征融合网络组合得到误匹配去除网络,通过对初始化的神经网络模型进行训练得到所述误匹配识别网络。所述初始化的网络模型基于所述特征提取网络和所述特征融合网络的架构构建得到,其中,所述特征提取网络为多层特征提取模块,多层所述特征提取模块依次串接,同时每层所述特征提取模块的输入端还与所述特征提取网络的输入端连接,均可以接收所述特征提取网络接入的原始特征数据,每层所述特征提取模块的输出端还与所述特征提取网络的输出端连接,进而实现每层所述特征提取模块的输出数据均多外输出。所述特征融合网络的输入端与所述特征提取网络的输出端连接,输出端输出每个匹配对的匹配概率。
进一步的,在一些实施例中,多层所述特征提取模块具有相同的架构,具体包括:
多个分层注意力融合模块,每层所述分层注意力融合模块基于逐层通道融合单元和分层注意力机制单元构建;其中,所述逐层通道融合单元对特征信息进行通道下采样,逐层捕获并保留每个阶段的特征通道信息,并将每个阶段的所述特征通道信息进行通道融合;所述分层注意力机制单元用于提取特征信息的全局感知信息和结构语义信息,并基于注意力机制进行融合;
聚类分析模块,对特征点进行聚类分成簇,建立簇之间的相关性。
通过对初始化的神经网络模型进行训练得到所述误匹配识别网络中,采用预定的训练数据进行训练。具体训练数据以及测试数据的获取过程为:通过两个经典误匹配去除数据集:户外数据集--YFCC、室内数据集--SUN3D。分别将数据集按照已有的实验选出具有代表性的场景,将整个数据集分成已知场景和未知场景。已知场景通过6:2:2的比例将其分成训练集、验证集和测试集,未知场景的数据则全部作为测试集。
通过对基于上述架构得到的误匹配识别网络进行训练后,使用上述测试集的数据对其实验验证,具体得到下表数据(其中同时参与测评的还有现有的其他误匹配识别方法,其中选择了RANSAC,Point-Net++、CNe-Net和DFE四个经典网络和目前有四个性能最佳的网络OA-Net,T-Net,PESA和MSA-Net作为基准值):
通过对误匹配去除精度(P)、召回率(R)和F1指标(F-score)来作为评价指标,可以发现本申请提供的误匹配识别网络的综合性能最佳。
本发明还提供一种计算机可读介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的误匹配对去除方法。
计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (7)
1.一种误匹配对去除方法,其特征在于,包括:
获取初始匹配对集;其中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集;
基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;
对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;
基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对;
基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征,具体包括:
使用多层特征提取模块分别对所述初始匹配对集进行特征提取;其中,多层所述特征提取模块分别用于提取不同深度的特征信息,前一层所述特征提取模块的输出数据与匹配对特征信息融合作为后一层所述特征提取模块的输入数据;
集合每层所述特征提取模块的输出数据得到所述多层次深度特征;
所述特征提取模块包括:
多个分层注意力融合模块,每层所述分层注意力融合模块基于逐层通道融合单元和分层注意力机制单元构建;其中,所述逐层通道融合单元对特征信息进行通道下采样,逐层捕获并保留每个阶段的特征通道信息,并将每个阶段的所述特征通道信息进行通道融合;所述分层注意力机制单元用于提取特征信息的全局感知信息和结构语义信息,并基于注意力机制进行融合;
聚类分析模块,对所有匹配对基于每个阶段的特征通道信息进行聚类,得到多个簇,每个簇都有各个匹配对的不同通道信息,实现簇内之间的信息交互,建立簇之间的相关性;
对特征信息进行通道下采样,逐层捕获和保留每个阶段的特征通道信息,同时实现通道融合,具体包括:
对特征图通过下采样删除去除特征的冗余信息,将128维的信息特征表征降低至32维;
将32维的特征通过逐层生成,逐层融合的方式恢复至128维,得到的特征通道信息囊括了每个阶段生成的通道信息;其中,每一阶段的输入信息都是在前的每个阶段的输出信息组合。
2.根据权利要求1所述的误匹配对去除方法,其特征在于,提取特征信息的全局感知信息和结构语义信息,并基于注意力机制进行融合,具体包括:
获取特征的全局感知信息和结构语义信息;
通过注意力机制将进行全局感知信息和结构语义信息交互融合,得到具有不同层次语义信息的特征表征。
3.根据权利要求1所述的误匹配对去除方法,其特征在于,对特征点进行聚类分成簇,建立簇之间的相关性,具体包括:
将特征点通过可微池化划分为簇,对每个簇进行信息提取与交互,提取每个簇内的局部特征信息并将其分布到原始特征点。
4.根据权利要求1所述的误匹配对去除方法,其特征在于,基于所述综合特征表示获取每个匹配对的匹配概率,具体包括:
对所述综合特征表示进行特征降维和特征扩展,得到优化后的综合特征数据;
基于所述综合特征数据计算初始匹配对集中每个匹配对的匹配概率。
5.根据权利要求1所述的误匹配对去除方法,其特征在于,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集,具体包括:
通过预定算法对两张图像分别提取关键点;
生成每个所述关键点的特征描述子;
获取两张图像之间的特征描述子之间的距离度量;
根据设定的阈值,筛选出距离度量最小的两个关键点对应作为匹配对,进而得到初始匹配集。
6.一种误匹配对去除系统,其特征在于,包括:
获取模块,用于获取初始匹配对集;其中,通过对两张图像提取其中的特征数据进行匹配得到所述初始匹配对集;
特征提取网络,用于基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征;
特征融合网络,用于对所述多层次深度特征执行特征融合操作,得到所述初始匹配集的综合特征表示;基于所述综合特征表示获取每个匹配对的匹配概率,进而基于所述匹配概率对去除错误匹配对;
基于注意力机制针对所述初始匹配对集进行特征提取得到多层次深度特征,具体包括:
使用多层特征提取模块分别对所述初始匹配对集进行特征提取;其中,多层所述特征提取模块分别用于提取不同深度的特征信息,前一层所述特征提取模块的输出数据与匹配对特征信息融合作为后一层所述特征提取模块的输入数据;
集合每层所述特征提取模块的输出数据得到所述多层次深度特征;
所述特征提取模块包括:
多个分层注意力融合模块,每层所述分层注意力融合模块基于逐层通道融合单元和分层注意力机制单元构建;其中,所述逐层通道融合单元对特征信息进行通道下采样,逐层捕获并保留每个阶段的特征通道信息,并将每个阶段的所述特征通道信息进行通道融合;所述分层注意力机制单元用于提取特征信息的全局感知信息和结构语义信息,并基于注意力机制进行融合;
聚类分析模块,对所有匹配对基于每个阶段的特征通道信息进行聚类,得到多个簇,每个簇都有各个匹配对的不同通道信息,实现簇内之间的信息交互,建立簇之间的相关性;
对特征信息进行通道下采样,逐层捕获和保留每个阶段的特征通道信息,同时实现通道融合,具体包括:
对特征图通过下采样删除去除特征的冗余信息,将128维的信息特征表征降低至32维;
将32维的特征通过逐层生成,逐层融合的方式恢复至128维,得到的特征通道信息囊括了每个阶段生成的通道信息;其中,每一阶段的输入信息都是在前的每个阶段的输出信息组合。
7.一种计算机可读介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的误匹配对去除方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311355526.7A CN117351246B (zh) | 2023-10-18 | 2023-10-18 | 一种误匹配对去除方法、系统及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311355526.7A CN117351246B (zh) | 2023-10-18 | 2023-10-18 | 一种误匹配对去除方法、系统及可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117351246A CN117351246A (zh) | 2024-01-05 |
CN117351246B true CN117351246B (zh) | 2024-04-09 |
Family
ID=89357159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311355526.7A Active CN117351246B (zh) | 2023-10-18 | 2023-10-18 | 一种误匹配对去除方法、系统及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117351246B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288011A (zh) * | 2020-10-30 | 2021-01-29 | 闽江学院 | 一种基于自注意力深度神经网络的图像匹配方法 |
CN114398972A (zh) * | 2022-01-07 | 2022-04-26 | 福建农林大学 | 一种基于联合表示注意力机制的深度学习图像匹配方法 |
CN115331021A (zh) * | 2022-07-19 | 2022-11-11 | 华中科技大学 | 基于多层特征自身差异融合的动态特征提取与描述方法 |
-
2023
- 2023-10-18 CN CN202311355526.7A patent/CN117351246B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288011A (zh) * | 2020-10-30 | 2021-01-29 | 闽江学院 | 一种基于自注意力深度神经网络的图像匹配方法 |
CN114398972A (zh) * | 2022-01-07 | 2022-04-26 | 福建农林大学 | 一种基于联合表示注意力机制的深度学习图像匹配方法 |
CN115331021A (zh) * | 2022-07-19 | 2022-11-11 | 华中科技大学 | 基于多层特征自身差异融合的动态特征提取与描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117351246A (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919920B (zh) | 基于卷积特征和空间视觉词袋模型的场景识别方法 | |
RU2668717C1 (ru) | Генерация разметки изображений документов для обучающей выборки | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
Guan et al. | On-device mobile landmark recognition using binarized descriptor with multifeature fusion | |
CN110163117B (zh) | 一种基于自激励判别性特征学习的行人重识别方法 | |
CN111680678B (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN111339343A (zh) | 图像检索方法、装置、存储介质及设备 | |
Tang et al. | Distinctive image features from illumination and scale invariant keypoints | |
US10943098B2 (en) | Automated and unsupervised curation of image datasets | |
WO2021169257A1 (zh) | 人脸识别 | |
Tian et al. | Scene Text Detection in Video by Learning Locally and Globally. | |
Liu et al. | Attentive cross-modal fusion network for RGB-D saliency detection | |
Raut | Facial emotion recognition using machine learning | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN114792372A (zh) | 一种基于多头两级注意力的三维点云语义分割方法及系统 | |
CN111079648A (zh) | 数据集清洗方法、装置和电子系统 | |
Liu et al. | Iris recognition in visible spectrum based on multi-layer analogous convolution and collaborative representation | |
Cai et al. | IOS-Net: An inside-to-outside supervision network for scale robust text detection in the wild | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
Liao et al. | Multi-scale saliency features fusion model for person re-identification | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
Gao et al. | Occluded person re-identification based on feature fusion and sparse reconstruction | |
CN117351246B (zh) | 一种误匹配对去除方法、系统及可读介质 | |
Dong et al. | Scene-oriented hierarchical classification of blurry and noisy images | |
CN111695526B (zh) | 网络模型生成方法、行人重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |