CN114492562A - 一种基于注意力机制的描述子不变性选择方法和系统 - Google Patents

一种基于注意力机制的描述子不变性选择方法和系统 Download PDF

Info

Publication number
CN114492562A
CN114492562A CN202111537515.1A CN202111537515A CN114492562A CN 114492562 A CN114492562 A CN 114492562A CN 202111537515 A CN202111537515 A CN 202111537515A CN 114492562 A CN114492562 A CN 114492562A
Authority
CN
China
Prior art keywords
descriptor
image
invariance
descriptors
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111537515.1A
Other languages
English (en)
Inventor
李佳鹏
李宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaoxing Beida Information Technology Innovation Center
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Original Assignee
Shaoxing Beida Information Technology Innovation Center
Advanced Institute of Information Technology AIIT of Peking University
Hangzhou Weiming Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaoxing Beida Information Technology Innovation Center, Advanced Institute of Information Technology AIIT of Peking University, Hangzhou Weiming Information Technology Co Ltd filed Critical Shaoxing Beida Information Technology Innovation Center
Priority to CN202111537515.1A priority Critical patent/CN114492562A/zh
Publication of CN114492562A publication Critical patent/CN114492562A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于注意力机制的描述子不变性选择方法和系统,包括如下步骤:预备数据序列,将图像输入多尺度特征提取模块,生成四种各异不变性的局部特征描述子;将上述局部特征描述子送入并行自注意力模块提取出四种各异不变性的元描述子;计算一对关键点的四种各异不变性元描述子的相似度,并将其经过softmax函数作为每种局部描述子的权值系数;最后加权计算出关键点最终的局部描述子距离,完成对局部描述子不变性选择的过程。

Description

一种基于注意力机制的描述子不变性选择方法和系统
技术领域
本发明属于计算机视觉领域,特别是一种基于注意力机制的描述子不变性选择方法和系统。
背景技术
局部特征检测和描述(Local feature detectors and descriptors)是计算机视觉中的一个基本问题,在视觉定位、三维重建、机器人、虚拟现实与增强现实领域获得了广泛关注。给定两幅图像,经典方法通常是采用一个两阶段流水线:首先从每个图像中检测关键点(兴趣点),然后从关键点周围提取对应的局部描述子,用于下游的定位任务等。
在现实世界中往往会存在着光照、旋转、尺度等外界因素的巨大变化,这会极大限制局部描述子的性能,使下游任务的精度受到严重影响。因此,近些年来出现的局部描述子方法通常是尽可能具备更多的不变性,如:光照不变性、旋转不变性、尺度不变性等。
然而,越多的不变性虽然会让局部描述子更鲁棒,但也会让局部描述子可提供的信息量更少,即在外界因素变化不剧烈的场景下,会限制定位精度的提高。为了在鲁棒性与准确性之间做一个权衡,近期就出现了一些局部描述子不变性选择的方法。但是,这些方法缺少对场景全局信息的捕捉与感知,因此在不变性选择时,往往无法获得合适的不变性。
发明内容
本发明要解决的是现有方法中,未能有效地为局部描述子选择合适的不变性的技术问题。
本发明所采用的技术方案是:一种基于注意力机制的描述子不变性选择方法,包括以下步骤:
S1,输入预备图像序列,从中随机抽取图像Ia,通过透视变换生成不变图像Ii、变换图像Iv
S2,将图像Ia、不变图像Ii和变换图像Iv输入多尺度特征提取模块,生成训练局部描述子,将得到的训练局部描述子输入并行自注意力模块得到训练元描述子;
S3,利用图像Ia、不变图像Ii和变换图像Iv构建三元组损失函数,通过三元组损失函数计算S2中训练局部描述子间的度量学习损失A以及S3中训练元描述子间的度量学习损失B,度量学习损失A和B相加后得到总损失函数;
S4,重复S1至S3,直到总损失函数收敛,得到训练网络;
S5,将待预测的图像序列输入训练网络中,得出待预测局部描述子和待预测元描述子;
S6,从待预测的序列中,挑出两张图像Iq、Ik,利用双方的元描述子对局部描述子进行不变性的选择,得到权值;
S7,计算S7中两图像的待预测局部描述子的L2距离,并以S7中的权值作为系数,加权获得描述符距离,完成对局部描述子不变性选择的过程。
进一步的,所述S1中,需先将图像大小缩放,然后进行图像增强。最后,还需利用关键点提取算法对每一张图片提取出关键点。
进一步的,所述多尺度特征提取模块包括特征金字塔模块和四头模块,通过特征金字塔模块提取多尺度特征,再经过四头模块,得到四个训练局部描述子,每个描述子都对应一种不变性的组合。
进一步的,所述S2中,并行自注意力模块包括四路并行的自注意力层,每一路自注意力层都会产生具有特异不变性的训练元描述子,如:旋转不变性、光照不变性。自注意力的全局感受野,可以充分挖掘图像的全局信息,使元描述子能更好地为局部描述子选择不变性。
进一步的,所述S5中的总损失函数L计算公式为:
Figure BDA0003412990730000021
其中,
Figure BDA0003412990730000031
为局部描述子度量损失函数,
Figure BDA0003412990730000032
为元描述子度量损失函数;
所述
Figure BDA0003412990730000033
的计算公式为:
Figure BDA0003412990730000034
其中,l为局部描述子,L是l的一个集合。
Figure BDA0003412990730000035
为不变性描述子损失函数,
Figure BDA0003412990730000036
为不具有不变性的描述子的损失函数,如果局部描述子对S1中的Ia与Ii都具有不变性,就使用
Figure BDA0003412990730000037
否则使用
Figure BDA0003412990730000038
所述
Figure BDA0003412990730000039
的计算公式为:
Figure BDA00034129907300000310
其中,f是所述S1中图像Ia与图像Ii的区别因子,M是边缘因子。
所述
Figure BDA00034129907300000311
的计算公式为:
Figure BDA00034129907300000312
其中,
Figure BDA00034129907300000313
为度量学习中常用的三元组边缘损失函数,la为图像la的局部描述子,li为图像Ii的局部描述子。
所述
Figure BDA00034129907300000314
的计算公式为:
Figure BDA00034129907300000315
其中,
Figure BDA00034129907300000316
为度量学习中常用的三元组边缘损失函数,ma为图像Ia的元描述子,mi为图像Ii的元描述子。
进一步的,所述S9中,需要求出S8中两图像Iq、Ik的四种局部描述子的L2距离,并以S8中的权值作为系数,加权获得这对关键点最终的描述符距离,具体公式为:
Figure BDA00034129907300000317
其中,
Figure BDA00034129907300000318
为图像Iq的元描述子,
Figure BDA00034129907300000319
为图像Ik元描述子,
Figure BDA00034129907300000320
为图像Iq的局部描述子,
Figure BDA00034129907300000321
为图像Ik的局部描述子。
一种基于注意力机制的描述子不变性选择系统,包含多尺度特征提取模块、并行自注意力模块;多尺度特征提取模块用于提取图像的多尺度特征,并产生四种各异不变性的局部描述子;并行自注意力模块用于提取出四种各异不变性的元描述子,用于为局部描述子选择合适的不变性。
优选的,多尺度特征提取模块由一个特征金字塔的模块和一个四头模块构成;并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。
本发明同现有技术相比具有以下优点及效果:
1.本发明模型涉及到的多尺度特征提取模块能够从图像中提取更多的有用信息,提升了局部描述子性能。
2.本发明模型涉及到的并行自注意力模块利用了自注意力的全局感受野,充分挖掘了图像的全局信息,得到的元描述子可以更加准确地为局部描述子选择合适的不变性,提升局部描述子的综合性能。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明模型示意图;
图2为多尺度特征提取模块;
图3为自注意力层结构;
图4为一对关键点匹配的过程示意图;
图5为本发明图像匹配的结果与其他方法的对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,下面将结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:
一种基于注意力机制的描述子不变性选择系统,包含多尺度特征提取模块、并行自注意力模块;多尺度特征提取模块用于提取图像的多尺度特征,并产生四种各异不变性的局部描述子;并行自注意力模块用于提取出四种各异不变性的元描述子,用于为局部描述子选择合适的不变性。多尺度特征提取模块由一个类似特征金字塔的模块(本实施例中称为MS模块)和一个四头模块(本实施例中称为4-head模块)构成;并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。
如图1所示,一种基于注意力机制的描述子不变性选择方法,包括以下步骤。
步骤1,数据准备,分成两步:
1.1,预备包含场景量充足的数据集。本实例使用了3个数据集作为训练数据集进行训练:微软的COCO、Multi-Illumination Images in the Wild数据集、VIDIT数据集。对这些图片进行了随机增强,比如:平移、缩放、旋转和透视失真。之后,本实例将图片分辨率缩放到240×320的大小。
1.2,利用关键点提取算法,对每一张图片提取出关键点。本实施例采用的是Superpoint关键点提取算法。
步骤2,局部描述子的获得。将步骤1.1中的图片输入到多尺度特征提取模块中。如图2所示,将图像先通过一个类似于特征金字塔的模块,提取出多尺度特征,每个特征图的输出大小为[H/8,W/8,256]。之后,将特征图经过一个四头模块,得到四个局部描述子,每个的输出大小为[H/8,W/8,128]。
步骤3,元描述子的获得。将步骤2得到的四个局部描述子送入并行自注意力模块得到元描述子。并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。该层的结构见图3,核心操作是scale dot-product attention,最终即可得到四个元描述子,每个的输出大小为[H/8,W/8,128]。
步骤4,计算局部描述子与元描述子的损失之和,作为网络训练的约束。
Figure BDA0003412990730000061
所述
Figure BDA0003412990730000062
的计算公式为:
Figure BDA0003412990730000063
其中,l为局部描述子,L是l的一个集合。
Figure BDA0003412990730000064
为不变性描述子损失函数,
Figure BDA0003412990730000065
为不具有不变性的描述子的损失函数,如果局部描述子对S1中的Ia与Ii都具有不变性,就使用
Figure BDA0003412990730000066
否则使用
Figure BDA0003412990730000067
所述
Figure BDA0003412990730000068
的计算公式为:
Figure BDA0003412990730000069
其中,f是所述S1中图像Ia与图像Ii的区别因子,M是边缘因子。
所述
Figure BDA00034129907300000610
的计算公式为:
Figure BDA00034129907300000611
其中,
Figure BDA00034129907300000612
为度量学习中常用的三元组边缘损失函数,la为图像Ia的局部描述子,li为图像Ii的局部描述子。
所述
Figure BDA00034129907300000613
的计算公式为:
Figure BDA00034129907300000614
其中,
Figure BDA00034129907300000615
为度量学习中常用的三元组边缘损失函数,ma为图像Ia的元描述子,mi为图像Ii的元描述子。
当损失之和趋于稳定后,即完成了对网络的训练。
步骤5,关键点匹配。本实施例采用的测试集是RDNIM数据集,与训练数据集毫无关系,以证明该算法的泛化性。首先利用关键点提取算法对测试集的两张图像中提取出关键点,具体实施例采用的是Superpoint关键点提取算法。对于提取出的一对关键点,按照图4的流程,对关键点的局部描述子进行不变性的选择。最终,一对关键点的描述子距离的具体公式为:
Figure BDA0003412990730000071
其中,
Figure BDA0003412990730000072
为图像Iq的元描述子,
Figure BDA0003412990730000073
为图像Ik的元描述子,
Figure BDA0003412990730000074
为图像Iq的局部描述子,
Figure BDA0003412990730000075
为图像Ik的局部描述子。
图5是本发明的图像匹配的结果与其他方法的对比,可以发现在RDNIM数据集上的两个赛道中,各项评价指标都优于当前的主流算法,这也证明出本发明的不变性选择算法能够大幅提升局部描述子的综合性能。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于注意力机制的描述子不变性选择方法和系统,其特征在于,包括以下步骤:
S1,输入预备图像序列,从中随机抽取图像Ia,通过透视变换生成不变图像Ii、变换图像Iv
S2,将图像Ia、不变图像Ii和变换图像Iv输入多尺度特征提取模块,生成训练局部描述子,将得到的训练局部描述子输入并行自注意力模块得到训练元描述子;
S3,利用图像Ia、不变图像Ii和变换图像Iv构建三元组损失函数,通过三元组损失函数计算S2中训练局部描述子间的度量学习损失A以及S3中训练元描述子间的度量学习损失B,度量学习损失A和B相加后得到总损失函数;
S4,重复S1至S3,直到总损失函数收敛,得到训练网络;
S5,将待预测的图像序列输入训练网络中,得出待预测局部描述子和待预测元描述子;
S6,从待预测的序列中,挑出两张图像Iq、Ik,利用双方的元描述子对局部描述子进行不变性的选择,得到权值;
S7,计算S6中两图像的待预测局部描述子的L2距离,并以S6中的权值作为系数,加权获得描述符距离,完成对局部描述子的不变性选择。
2.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S1中,先将预备图像缩放,然后进行图像增强,再利用关键点提取算法对图片提取关键点。
3.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S2中,所述多尺度特征提取模块包括特征金字塔模块和四头模块,通过特征金字塔模块提取多尺度特征,再经过四头模块,得到四个训练局部描述子。
4.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S2中,并行自注意力模块包括四路并行的自注意力层,每一路自注意力层都会产生具有特异不变性的训练元描述子。
5.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S3中的总损失函数L计算公式为:
Figure FDA0003412990720000021
其中,
Figure FDA0003412990720000022
为训练局部描述子度量损失函数,
Figure FDA0003412990720000023
为训练元描述子度量损失函数;
所述
Figure FDA0003412990720000024
的计算公式为:
Figure FDA0003412990720000025
其中,l为训练局部描述子,L是l的一个集合。
Figure FDA00034129907200000217
为不变性描述子损失函数,
Figure FDA0003412990720000026
为不具有不变性的描述子的损失函数,如果训练局部描述子对S1中的Ia与Ii都具有不变性,则使用
Figure FDA0003412990720000027
否则使用
Figure FDA0003412990720000028
所述
Figure FDA0003412990720000029
的计算公式为:
Figure FDA00034129907200000210
其中,f是所述S1中图像Ia与图像Ii的区别因子,M是边缘因子;
所述
Figure FDA00034129907200000211
的计算公式为:
Figure FDA00034129907200000212
其中,
Figure FDA00034129907200000213
为度量学习中常用的三元组边缘损失函数,la为图像Ia的局部描述子,li为图像Ii的局部描述子;
所述
Figure FDA00034129907200000214
的计算公式为:
Figure FDA00034129907200000215
其中,
Figure FDA00034129907200000216
为度量学习中常用的三元组边缘损失函数,ma为图像Ia的元描述子,mi为图像Ii的元描述子。
6.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S7中计算描述符距离的具体公式为:
Figure FDA0003412990720000031
其中,
Figure FDA0003412990720000032
为图像Iq的元描述子,
Figure FDA0003412990720000033
为图像Ik的元描述子,
Figure FDA0003412990720000034
为图像Iq的局部描述子,
Figure FDA0003412990720000035
为图像Ik的局部描述子。
7.根据权利要求2所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述图像增强包括修改亮度、对比度和饱和度,单应性变换。
8.一种基于注意力机制的描述子不变性选择系统,其特征在于,包含多尺度特征提取模块、并行自注意力模块;多尺度特征提取模块用于提取图像的多尺度特征,并产生四种各异不变性的局部描述子;并行自注意力模块用于提取出四种各异不变性的元描述子,用于为局部描述子选择合适的不变性。
9.根据权利要求8所述的基于注意力机制的描述子不变性选择系统,其特征在于,多尺度特征提取模块由一个特征金字塔的模块和一个四头模块构成;并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。
CN202111537515.1A 2021-12-15 2021-12-15 一种基于注意力机制的描述子不变性选择方法和系统 Pending CN114492562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111537515.1A CN114492562A (zh) 2021-12-15 2021-12-15 一种基于注意力机制的描述子不变性选择方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111537515.1A CN114492562A (zh) 2021-12-15 2021-12-15 一种基于注意力机制的描述子不变性选择方法和系统

Publications (1)

Publication Number Publication Date
CN114492562A true CN114492562A (zh) 2022-05-13

Family

ID=81494353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111537515.1A Pending CN114492562A (zh) 2021-12-15 2021-12-15 一种基于注意力机制的描述子不变性选择方法和系统

Country Status (1)

Country Link
CN (1) CN114492562A (zh)

Similar Documents

Publication Publication Date Title
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN109993072B (zh) 基于超分辨图像生成的低分辨率行人重识别系统和方法
CN109635883A (zh) 基于深度堆叠网络的结构信息指导的中文字库生成方法
CN104616247B (zh) 一种用于基于超像素sift航拍地图拼接的方法
CN114187450A (zh) 一种基于深度学习的遥感图像语义分割方法
CN103593677A (zh) 一种近似重复图像检测方法
CN113159232A (zh) 一种三维目标分类、分割方法
CN106355210B (zh) 基于深度神经元响应模式的绝缘子红外图像特征表达方法
CN110717978B (zh) 基于单张图像的三维头部重建方法
CN106203448A (zh) 一种基于非线性尺度空间的场景分类方法
CN115631513A (zh) 基于Transformer的多尺度行人重识别方法
CN112906675B (zh) 一种固定场景中的无监督人体关键点检测方法及系统
CN108090460B (zh) 基于韦伯多方向描述子的人脸表情识别特征提取方法
Yang et al. AI-Generated Images as Data Source: The Dawn of Synthetic Era
CN112668662B (zh) 基于改进YOLOv3网络的野外山林环境目标检测方法
CN110633706A (zh) 一种基于金字塔网络的语义分割方法
CN114332616A (zh) 基于正射影像和倾斜摄影数据的建筑物变化检测方法
AU2021104479A4 (en) Text recognition method and system based on decoupled attention mechanism
CN114492562A (zh) 一种基于注意力机制的描述子不变性选择方法和系统
CN113628349B (zh) 基于场景内容自适应的ar导航方法、设备及可读存储介质
CN103530656B (zh) 基于隐结构学习的图像摘要生成方法
Li et al. A method of inpainting moles and acne on the high‐resolution face photos
CN111553371A (zh) 一种基于多特征提取的图像语义描述方法及系统
CN114581690B (zh) 基于编码-解码端的图像对差异描述方法
Lokoč et al. MultiMedia Modeling: 27th International Conference, MMM 2021, Prague, Czech Republic, June 22–24, 2021, Proceedings, Part II

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination