CN114492562A - 一种基于注意力机制的描述子不变性选择方法和系统 - Google Patents
一种基于注意力机制的描述子不变性选择方法和系统 Download PDFInfo
- Publication number
- CN114492562A CN114492562A CN202111537515.1A CN202111537515A CN114492562A CN 114492562 A CN114492562 A CN 114492562A CN 202111537515 A CN202111537515 A CN 202111537515A CN 114492562 A CN114492562 A CN 114492562A
- Authority
- CN
- China
- Prior art keywords
- descriptor
- image
- invariance
- descriptors
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 15
- 238000010187 selection method Methods 0.000 title claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 9
- 230000001131 transforming effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 241000764238 Isis Species 0.000 claims 1
- 238000000844 transformation Methods 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 3
- 238000005286 illumination Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于注意力机制的描述子不变性选择方法和系统,包括如下步骤:预备数据序列,将图像输入多尺度特征提取模块,生成四种各异不变性的局部特征描述子;将上述局部特征描述子送入并行自注意力模块提取出四种各异不变性的元描述子;计算一对关键点的四种各异不变性元描述子的相似度,并将其经过softmax函数作为每种局部描述子的权值系数;最后加权计算出关键点最终的局部描述子距离,完成对局部描述子不变性选择的过程。
Description
技术领域
本发明属于计算机视觉领域,特别是一种基于注意力机制的描述子不变性选择方法和系统。
背景技术
局部特征检测和描述(Local feature detectors and descriptors)是计算机视觉中的一个基本问题,在视觉定位、三维重建、机器人、虚拟现实与增强现实领域获得了广泛关注。给定两幅图像,经典方法通常是采用一个两阶段流水线:首先从每个图像中检测关键点(兴趣点),然后从关键点周围提取对应的局部描述子,用于下游的定位任务等。
在现实世界中往往会存在着光照、旋转、尺度等外界因素的巨大变化,这会极大限制局部描述子的性能,使下游任务的精度受到严重影响。因此,近些年来出现的局部描述子方法通常是尽可能具备更多的不变性,如:光照不变性、旋转不变性、尺度不变性等。
然而,越多的不变性虽然会让局部描述子更鲁棒,但也会让局部描述子可提供的信息量更少,即在外界因素变化不剧烈的场景下,会限制定位精度的提高。为了在鲁棒性与准确性之间做一个权衡,近期就出现了一些局部描述子不变性选择的方法。但是,这些方法缺少对场景全局信息的捕捉与感知,因此在不变性选择时,往往无法获得合适的不变性。
发明内容
本发明要解决的是现有方法中,未能有效地为局部描述子选择合适的不变性的技术问题。
本发明所采用的技术方案是:一种基于注意力机制的描述子不变性选择方法,包括以下步骤:
S1,输入预备图像序列,从中随机抽取图像Ia,通过透视变换生成不变图像Ii、变换图像Iv;
S2,将图像Ia、不变图像Ii和变换图像Iv输入多尺度特征提取模块,生成训练局部描述子,将得到的训练局部描述子输入并行自注意力模块得到训练元描述子;
S3,利用图像Ia、不变图像Ii和变换图像Iv构建三元组损失函数,通过三元组损失函数计算S2中训练局部描述子间的度量学习损失A以及S3中训练元描述子间的度量学习损失B,度量学习损失A和B相加后得到总损失函数;
S4,重复S1至S3,直到总损失函数收敛,得到训练网络;
S5,将待预测的图像序列输入训练网络中,得出待预测局部描述子和待预测元描述子;
S6,从待预测的序列中,挑出两张图像Iq、Ik,利用双方的元描述子对局部描述子进行不变性的选择,得到权值;
S7,计算S7中两图像的待预测局部描述子的L2距离,并以S7中的权值作为系数,加权获得描述符距离,完成对局部描述子不变性选择的过程。
进一步的,所述S1中,需先将图像大小缩放,然后进行图像增强。最后,还需利用关键点提取算法对每一张图片提取出关键点。
进一步的,所述多尺度特征提取模块包括特征金字塔模块和四头模块,通过特征金字塔模块提取多尺度特征,再经过四头模块,得到四个训练局部描述子,每个描述子都对应一种不变性的组合。
进一步的,所述S2中,并行自注意力模块包括四路并行的自注意力层,每一路自注意力层都会产生具有特异不变性的训练元描述子,如:旋转不变性、光照不变性。自注意力的全局感受野,可以充分挖掘图像的全局信息,使元描述子能更好地为局部描述子选择不变性。
进一步的,所述S5中的总损失函数L计算公式为:
其中,f是所述S1中图像Ia与图像Ii的区别因子,M是边缘因子。
进一步的,所述S9中,需要求出S8中两图像Iq、Ik的四种局部描述子的L2距离,并以S8中的权值作为系数,加权获得这对关键点最终的描述符距离,具体公式为:
一种基于注意力机制的描述子不变性选择系统,包含多尺度特征提取模块、并行自注意力模块;多尺度特征提取模块用于提取图像的多尺度特征,并产生四种各异不变性的局部描述子;并行自注意力模块用于提取出四种各异不变性的元描述子,用于为局部描述子选择合适的不变性。
优选的,多尺度特征提取模块由一个特征金字塔的模块和一个四头模块构成;并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。
本发明同现有技术相比具有以下优点及效果:
1.本发明模型涉及到的多尺度特征提取模块能够从图像中提取更多的有用信息,提升了局部描述子性能。
2.本发明模型涉及到的并行自注意力模块利用了自注意力的全局感受野,充分挖掘了图像的全局信息,得到的元描述子可以更加准确地为局部描述子选择合适的不变性,提升局部描述子的综合性能。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明模型示意图;
图2为多尺度特征提取模块;
图3为自注意力层结构;
图4为一对关键点匹配的过程示意图;
图5为本发明图像匹配的结果与其他方法的对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,下面将结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1:
一种基于注意力机制的描述子不变性选择系统,包含多尺度特征提取模块、并行自注意力模块;多尺度特征提取模块用于提取图像的多尺度特征,并产生四种各异不变性的局部描述子;并行自注意力模块用于提取出四种各异不变性的元描述子,用于为局部描述子选择合适的不变性。多尺度特征提取模块由一个类似特征金字塔的模块(本实施例中称为MS模块)和一个四头模块(本实施例中称为4-head模块)构成;并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。
如图1所示,一种基于注意力机制的描述子不变性选择方法,包括以下步骤。
步骤1,数据准备,分成两步:
1.1,预备包含场景量充足的数据集。本实例使用了3个数据集作为训练数据集进行训练:微软的COCO、Multi-Illumination Images in the Wild数据集、VIDIT数据集。对这些图片进行了随机增强,比如:平移、缩放、旋转和透视失真。之后,本实例将图片分辨率缩放到240×320的大小。
1.2,利用关键点提取算法,对每一张图片提取出关键点。本实施例采用的是Superpoint关键点提取算法。
步骤2,局部描述子的获得。将步骤1.1中的图片输入到多尺度特征提取模块中。如图2所示,将图像先通过一个类似于特征金字塔的模块,提取出多尺度特征,每个特征图的输出大小为[H/8,W/8,256]。之后,将特征图经过一个四头模块,得到四个局部描述子,每个的输出大小为[H/8,W/8,128]。
步骤3,元描述子的获得。将步骤2得到的四个局部描述子送入并行自注意力模块得到元描述子。并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。该层的结构见图3,核心操作是scale dot-product attention,最终即可得到四个元描述子,每个的输出大小为[H/8,W/8,128]。
步骤4,计算局部描述子与元描述子的损失之和,作为网络训练的约束。
其中,f是所述S1中图像Ia与图像Ii的区别因子,M是边缘因子。
当损失之和趋于稳定后,即完成了对网络的训练。
步骤5,关键点匹配。本实施例采用的测试集是RDNIM数据集,与训练数据集毫无关系,以证明该算法的泛化性。首先利用关键点提取算法对测试集的两张图像中提取出关键点,具体实施例采用的是Superpoint关键点提取算法。对于提取出的一对关键点,按照图4的流程,对关键点的局部描述子进行不变性的选择。最终,一对关键点的描述子距离的具体公式为:
图5是本发明的图像匹配的结果与其他方法的对比,可以发现在RDNIM数据集上的两个赛道中,各项评价指标都优于当前的主流算法,这也证明出本发明的不变性选择算法能够大幅提升局部描述子的综合性能。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于注意力机制的描述子不变性选择方法和系统,其特征在于,包括以下步骤:
S1,输入预备图像序列,从中随机抽取图像Ia,通过透视变换生成不变图像Ii、变换图像Iv;
S2,将图像Ia、不变图像Ii和变换图像Iv输入多尺度特征提取模块,生成训练局部描述子,将得到的训练局部描述子输入并行自注意力模块得到训练元描述子;
S3,利用图像Ia、不变图像Ii和变换图像Iv构建三元组损失函数,通过三元组损失函数计算S2中训练局部描述子间的度量学习损失A以及S3中训练元描述子间的度量学习损失B,度量学习损失A和B相加后得到总损失函数;
S4,重复S1至S3,直到总损失函数收敛,得到训练网络;
S5,将待预测的图像序列输入训练网络中,得出待预测局部描述子和待预测元描述子;
S6,从待预测的序列中,挑出两张图像Iq、Ik,利用双方的元描述子对局部描述子进行不变性的选择,得到权值;
S7,计算S6中两图像的待预测局部描述子的L2距离,并以S6中的权值作为系数,加权获得描述符距离,完成对局部描述子的不变性选择。
2.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S1中,先将预备图像缩放,然后进行图像增强,再利用关键点提取算法对图片提取关键点。
3.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S2中,所述多尺度特征提取模块包括特征金字塔模块和四头模块,通过特征金字塔模块提取多尺度特征,再经过四头模块,得到四个训练局部描述子。
4.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S2中,并行自注意力模块包括四路并行的自注意力层,每一路自注意力层都会产生具有特异不变性的训练元描述子。
5.根据权利要求1所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述S3中的总损失函数L计算公式为:
其中,f是所述S1中图像Ia与图像Ii的区别因子,M是边缘因子;
7.根据权利要求2所述的基于注意力机制的描述子不变性选择方法和系统,其特征在于,所述图像增强包括修改亮度、对比度和饱和度,单应性变换。
8.一种基于注意力机制的描述子不变性选择系统,其特征在于,包含多尺度特征提取模块、并行自注意力模块;多尺度特征提取模块用于提取图像的多尺度特征,并产生四种各异不变性的局部描述子;并行自注意力模块用于提取出四种各异不变性的元描述子,用于为局部描述子选择合适的不变性。
9.根据权利要求8所述的基于注意力机制的描述子不变性选择系统,其特征在于,多尺度特征提取模块由一个特征金字塔的模块和一个四头模块构成;并行自注意力模块,有四路并行分支,每一路都是通过一个自注意力层来实现的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111537515.1A CN114492562A (zh) | 2021-12-15 | 2021-12-15 | 一种基于注意力机制的描述子不变性选择方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111537515.1A CN114492562A (zh) | 2021-12-15 | 2021-12-15 | 一种基于注意力机制的描述子不变性选择方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114492562A true CN114492562A (zh) | 2022-05-13 |
Family
ID=81494353
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111537515.1A Pending CN114492562A (zh) | 2021-12-15 | 2021-12-15 | 一种基于注意力机制的描述子不变性选择方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114492562A (zh) |
-
2021
- 2021-12-15 CN CN202111537515.1A patent/CN114492562A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858954B (zh) | 面向任务的文本生成图像网络模型 | |
CN109993072B (zh) | 基于超分辨图像生成的低分辨率行人重识别系统和方法 | |
CN109635883A (zh) | 基于深度堆叠网络的结构信息指导的中文字库生成方法 | |
CN104616247B (zh) | 一种用于基于超像素sift航拍地图拼接的方法 | |
CN114187450A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN103593677A (zh) | 一种近似重复图像检测方法 | |
CN113159232A (zh) | 一种三维目标分类、分割方法 | |
CN106355210B (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN110717978B (zh) | 基于单张图像的三维头部重建方法 | |
CN106203448A (zh) | 一种基于非线性尺度空间的场景分类方法 | |
CN115631513A (zh) | 基于Transformer的多尺度行人重识别方法 | |
CN112906675B (zh) | 一种固定场景中的无监督人体关键点检测方法及系统 | |
CN108090460B (zh) | 基于韦伯多方向描述子的人脸表情识别特征提取方法 | |
Yang et al. | AI-Generated Images as Data Source: The Dawn of Synthetic Era | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN110633706A (zh) | 一种基于金字塔网络的语义分割方法 | |
CN114332616A (zh) | 基于正射影像和倾斜摄影数据的建筑物变化检测方法 | |
AU2021104479A4 (en) | Text recognition method and system based on decoupled attention mechanism | |
CN114492562A (zh) | 一种基于注意力机制的描述子不变性选择方法和系统 | |
CN113628349B (zh) | 基于场景内容自适应的ar导航方法、设备及可读存储介质 | |
CN103530656B (zh) | 基于隐结构学习的图像摘要生成方法 | |
Li et al. | A method of inpainting moles and acne on the high‐resolution face photos | |
CN111553371A (zh) | 一种基于多特征提取的图像语义描述方法及系统 | |
CN114581690B (zh) | 基于编码-解码端的图像对差异描述方法 | |
Lokoč et al. | MultiMedia Modeling: 27th International Conference, MMM 2021, Prague, Czech Republic, June 22–24, 2021, Proceedings, Part II |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |