CN114492562A

CN114492562A - 一种基于注意力机制的描述子不变性选择方法和系统

Info

Publication number: CN114492562A
Application number: CN202111537515.1A
Authority: CN
Inventors: 李佳鹏; 李宏
Original assignee: Shaoxing Beida Information Technology Innovation Center; Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Shaoxing Beida Information Technology Innovation Center; Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-05-13

Abstract

一种基于注意力机制的描述子不变性选择方法和系统，包括如下步骤：预备数据序列，将图像输入多尺度特征提取模块，生成四种各异不变性的局部特征描述子；将上述局部特征描述子送入并行自注意力模块提取出四种各异不变性的元描述子；计算一对关键点的四种各异不变性元描述子的相似度，并将其经过softmax函数作为每种局部描述子的权值系数；最后加权计算出关键点最终的局部描述子距离，完成对局部描述子不变性选择的过程。

Description

一种基于注意力机制的描述子不变性选择方法和系统

技术领域

本发明属于计算机视觉领域，特别是一种基于注意力机制的描述子不变性选择方法和系统。

背景技术

局部特征检测和描述(Local feature detectors and descriptors)是计算机视觉中的一个基本问题，在视觉定位、三维重建、机器人、虚拟现实与增强现实领域获得了广泛关注。给定两幅图像，经典方法通常是采用一个两阶段流水线：首先从每个图像中检测关键点(兴趣点)，然后从关键点周围提取对应的局部描述子，用于下游的定位任务等。

在现实世界中往往会存在着光照、旋转、尺度等外界因素的巨大变化，这会极大限制局部描述子的性能，使下游任务的精度受到严重影响。因此，近些年来出现的局部描述子方法通常是尽可能具备更多的不变性，如：光照不变性、旋转不变性、尺度不变性等。

然而，越多的不变性虽然会让局部描述子更鲁棒，但也会让局部描述子可提供的信息量更少，即在外界因素变化不剧烈的场景下，会限制定位精度的提高。为了在鲁棒性与准确性之间做一个权衡，近期就出现了一些局部描述子不变性选择的方法。但是，这些方法缺少对场景全局信息的捕捉与感知，因此在不变性选择时，往往无法获得合适的不变性。

发明内容

本发明要解决的是现有方法中，未能有效地为局部描述子选择合适的不变性的技术问题。

本发明所采用的技术方案是：一种基于注意力机制的描述子不变性选择方法，包括以下步骤：

S1，输入预备图像序列，从中随机抽取图像I^a，通过透视变换生成不变图像Iⁱ、变换图像I^v；

S2，将图像I^a、不变图像Iⁱ和变换图像I^v输入多尺度特征提取模块，生成训练局部描述子，将得到的训练局部描述子输入并行自注意力模块得到训练元描述子；

S3，利用图像I^a、不变图像Iⁱ和变换图像I^v构建三元组损失函数，通过三元组损失函数计算S2中训练局部描述子间的度量学习损失A以及S3中训练元描述子间的度量学习损失B，度量学习损失A和B相加后得到总损失函数；

S4，重复S1至S3，直到总损失函数收敛，得到训练网络；

S5，将待预测的图像序列输入训练网络中，得出待预测局部描述子和待预测元描述子；

S6，从待预测的序列中，挑出两张图像I^q、I^k，利用双方的元描述子对局部描述子进行不变性的选择，得到权值；

S7，计算S7中两图像的待预测局部描述子的L2距离，并以S7中的权值作为系数，加权获得描述符距离，完成对局部描述子不变性选择的过程。

进一步的，所述S1中，需先将图像大小缩放，然后进行图像增强。最后，还需利用关键点提取算法对每一张图片提取出关键点。

进一步的，所述多尺度特征提取模块包括特征金字塔模块和四头模块，通过特征金字塔模块提取多尺度特征，再经过四头模块，得到四个训练局部描述子，每个描述子都对应一种不变性的组合。

进一步的，所述S2中，并行自注意力模块包括四路并行的自注意力层，每一路自注意力层都会产生具有特异不变性的训练元描述子，如：旋转不变性、光照不变性。自注意力的全局感受野，可以充分挖掘图像的全局信息，使元描述子能更好地为局部描述子选择不变性。

进一步的，所述S5中的总损失函数L计算公式为：

其中，

为局部描述子度量损失函数，

为元描述子度量损失函数；

所述

的计算公式为：

其中，l为局部描述子，L是l的一个集合。

为不变性描述子损失函数，

为不具有不变性的描述子的损失函数，如果局部描述子对S1中的I^a与Iⁱ都具有不变性，就使用

否则使用

所述

的计算公式为：

其中，f是所述S1中图像I^a与图像Iⁱ的区别因子，M是边缘因子。

所述

的计算公式为：

其中，

为度量学习中常用的三元组边缘损失函数，l^a为图像l^a的局部描述子，lⁱ为图像Iⁱ的局部描述子。

所述

的计算公式为：

其中，

为度量学习中常用的三元组边缘损失函数，m^a为图像I^a的元描述子，mⁱ为图像Iⁱ的元描述子。

进一步的，所述S9中，需要求出S8中两图像I^q、I^k的四种局部描述子的L2距离，并以S8中的权值作为系数，加权获得这对关键点最终的描述符距离，具体公式为：

其中，

为图像I^q的元描述子，

为图像Ik^的元描述子，

为图像I^q的局部描述子，

为图像I^k的局部描述子。

一种基于注意力机制的描述子不变性选择系统，包含多尺度特征提取模块、并行自注意力模块；多尺度特征提取模块用于提取图像的多尺度特征，并产生四种各异不变性的局部描述子；并行自注意力模块用于提取出四种各异不变性的元描述子，用于为局部描述子选择合适的不变性。

优选的，多尺度特征提取模块由一个特征金字塔的模块和一个四头模块构成；并行自注意力模块，有四路并行分支，每一路都是通过一个自注意力层来实现的。

本发明同现有技术相比具有以下优点及效果：

1.本发明模型涉及到的多尺度特征提取模块能够从图像中提取更多的有用信息，提升了局部描述子性能。

2.本发明模型涉及到的并行自注意力模块利用了自注意力的全局感受野，充分挖掘了图像的全局信息，得到的元描述子可以更加准确地为局部描述子选择合适的不变性，提升局部描述子的综合性能。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明模型示意图；

图2为多尺度特征提取模块；

图3为自注意力层结构；

图4为一对关键点匹配的过程示意图；

图5为本发明图像匹配的结果与其他方法的对比。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，下面将结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1：

一种基于注意力机制的描述子不变性选择系统，包含多尺度特征提取模块、并行自注意力模块；多尺度特征提取模块用于提取图像的多尺度特征，并产生四种各异不变性的局部描述子；并行自注意力模块用于提取出四种各异不变性的元描述子，用于为局部描述子选择合适的不变性。多尺度特征提取模块由一个类似特征金字塔的模块(本实施例中称为MS模块)和一个四头模块(本实施例中称为4-head模块)构成；并行自注意力模块，有四路并行分支，每一路都是通过一个自注意力层来实现的。

如图1所示，一种基于注意力机制的描述子不变性选择方法，包括以下步骤。

步骤1，数据准备，分成两步：

1.1，预备包含场景量充足的数据集。本实例使用了3个数据集作为训练数据集进行训练：微软的COCO、Multi-Illumination Images in the Wild数据集、VIDIT数据集。对这些图片进行了随机增强，比如：平移、缩放、旋转和透视失真。之后，本实例将图片分辨率缩放到240×320的大小。

1.2，利用关键点提取算法，对每一张图片提取出关键点。本实施例采用的是Superpoint关键点提取算法。

步骤2，局部描述子的获得。将步骤1.1中的图片输入到多尺度特征提取模块中。如图2所示，将图像先通过一个类似于特征金字塔的模块，提取出多尺度特征，每个特征图的输出大小为[H/8,W/8,256]。之后，将特征图经过一个四头模块，得到四个局部描述子，每个的输出大小为[H/8,W/8,128]。

步骤3，元描述子的获得。将步骤2得到的四个局部描述子送入并行自注意力模块得到元描述子。并行自注意力模块，有四路并行分支，每一路都是通过一个自注意力层来实现的。该层的结构见图3，核心操作是scale dot-product attention，最终即可得到四个元描述子，每个的输出大小为[H/8,W/8,128]。

步骤4，计算局部描述子与元描述子的损失之和，作为网络训练的约束。

所述

的计算公式为：

其中，l为局部描述子，L是l的一个集合。

为不变性描述子损失函数，

否则使用

所述

的计算公式为：

所述

的计算公式为：

其中，

为度量学习中常用的三元组边缘损失函数，l^a为图像I^a的局部描述子，lⁱ为图像Iⁱ的局部描述子。

所述

的计算公式为：

其中，

当损失之和趋于稳定后，即完成了对网络的训练。

步骤5，关键点匹配。本实施例采用的测试集是RDNIM数据集，与训练数据集毫无关系，以证明该算法的泛化性。首先利用关键点提取算法对测试集的两张图像中提取出关键点，具体实施例采用的是Superpoint关键点提取算法。对于提取出的一对关键点，按照图4的流程，对关键点的局部描述子进行不变性的选择。最终，一对关键点的描述子距离的具体公式为：

其中，

为图像I^q的元描述子，

为图像I^k的元描述子，

为图像I^q的局部描述子，

为图像I^k的局部描述子。

图5是本发明的图像匹配的结果与其他方法的对比，可以发现在RDNIM数据集上的两个赛道中，各项评价指标都优于当前的主流算法，这也证明出本发明的不变性选择算法能够大幅提升局部描述子的综合性能。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。