CN116342910A

CN116342910A - 用于三维几何引导的师生特征匹配(3dg-stfm)的系统

Info

Publication number: CN116342910A
Application number: CN202310168616.9A
Authority: CN
Inventors: 毛润钰; 白宸; 吕骋; 安亚通
Original assignee: Guangzhou Xiaopeng Autopilot Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Autopilot Technology Co Ltd
Priority date: 2022-03-17
Filing date: 2023-02-23
Publication date: 2023-06-27
Also published as: EP4246458A1; US20230298307A1

Abstract

本发明公开了一种用于三维几何引导的师生特征匹配的系统，包括多模态教师模型、单模态学生模型、粗级知识转移损失函数和细级知识转移损失函数。多模态教师模型用于确定一对RGB‑D图像之间的特征匹配，每个RGB‑D图像为RGB图像及其对应深度图像的组合。单模态学生模型用于从RGB图像对和教师模型中确定特征匹配，教师模型引导学生模型学习RGB诱导深度信息，以进行粗级和细级特征匹配。粗级知识转移损失函数用于确定将粗级匹配知识从教师模型转移到学生模型的损失。细级知识转移损失函数用于确定将细级匹配知识从教师模型转移到学生模型的损失，且引导学生模型优先学习细级预测分布。

Description

用于三维几何引导的师生特征匹配(3DG-STFM)的系统

技术领域

本发明涉及图像处理领域，特别涉及一种用于三维几何引导的师生特征匹配(3DG-STFM)的系统，以在重叠图像之间建立对应关系。

背景技术

建立重叠图像之间的对应关系对于许多计算机视觉任务至关重要，比如运动推断结构(SfM)、即时定位与地图构建(SLAM)、视觉定位等。

大多数解决该问题的现有技术遵循经典的三阶段流程，即特征检测、特征描述和特征匹配。为了生成不受光照或视角变化影响的鲁棒描述子，对传统的手动特征描述子，例如SIFT、SURF和BRISK，和深度网络表示特征进行了深入研究。通过基于最近邻搜索或可学习匹配策略的匹配算法可以产生点对点对应。

利用图形神经网络(GNN)，基于学习的匹配系统SuperGlue在两组关键点之间构建密集连接的图。使用自注意力和交叉注意力机制在GNN中集成和交换关键点的几何相关性及其视觉特征。然而，那些基于检测器的局部特征匹配算法只产生稀疏的关键点，尤其是在低纹理区域。

因此，在本领域仍需要解决上述缺陷和不足。

发明内容

基于上述现有技术中的缺陷与不足，本发明的一个目的在于提供一种框架/架构，利用RGB诱导的深度信息来提高局部特征匹配性能。本发明的另一个目的在于提供一种模型压缩系统，以训练出高效、轻权重的模型，从而消耗更少的计算资源，其匹配质量和准确性更高。特别地，本发明提供了一种三维几何引导的师生特征匹配(3DG-STFM)的系统，这是一种师生学习框架，可以将多模态教师模型学到的深度知识转移到单模态学生模型，从而对局部特征匹配进行改进。

在本发明的一个方面，该系统包括多模态教师模型和单模态学生模型。用于确定一对RGB-D图像之间的特征匹配，其中，每个RGB-D图像为RGB图像及其对应的深度图像的组合。深度图像为图像通道，该图像通道中的每个像素与RGB图像中图像平面与对应对象之间的距离有关。单模态学生模型用于从RGB图像对和教师模型中确定特征匹配，其中教师模型引导学生模型学习RGB诱导深度信息，以进行粗级和细级特征匹配。该系统还包括粗级知识转移损失函数和细级知识转移损失函数。粗级知识转移损失函数用于确定将粗级匹配知识从教师模型转移到学生模型的损失，细级知识转移损失函数用于确定将细级匹配知识从教师模型转移到学生模型的损失，且引导学生模型优先学习细级预测分布。

在一实施例中，每个教师模型和学生模型均包括特征金字塔网络(FPN)，用于从图像对中提取具有1/8原始图像分辨率的粗级局部特征和具有1/2原始图像分辨率的细级特征。

在一实施例中，教师模型的FPN为RGB-D图像的四通道输入，学生模型的FPN为RGB图像的三通道输入，其中D表示深度信息。

在一实施例中，每个教师模型和学生模型还包括粗级局部特征转换模块、粗级匹配模块和细级匹配模块。

在一实施例中，粗级局部特征转换模块用于：

将提取的粗级特征图展平为一维向量；

对展平的一维向量进行位置编码，以对每个特征条目分配一个正弦格式的唯一嵌入向量，从而对空间信息进行编码；以及

通过包含自注意力层和交叉注意力层的粗级匹配转换器处理已编码的局部特征向量，以生成包含相关矩阵的逻辑层。

在一实施例中，自注意力层和交叉注意力层以L_c的倍数交错在粗级匹配转换器中。

在一实施例中，粗级匹配模块用于：

通过在行方向和列方向上对相关矩阵S_c应用双重softmax操作来生成置信分数矩阵P_c，其中：

P_c(i,j)＝softmax(S_c(i,·)_j)*softmax(S_c(·,j)_i)

P_c(i,j)为匹配位置(i，j)处的匹配概率；以及

选择概率分数高于阈值θ_c的匹配对以生成粗级匹配预测。

在一实施例中，给定从对应标签导出的真值矩阵，通过下式计算衡量粗级局部特征转换模块和粗级匹配模块性能的交叉熵损失：

其中

为真值标签生成的对应集，具有预测概率p的FL为焦点损失项，用于解决匹配和不匹配对之间的不平衡。

在一实施例中，细级匹配模块用于：

将粗匹配位置(i,j)投影到细级特征图的位置

处，并从相邻的规格为w×w的窗口中提取其特征作为匹配候选；

对选定的粗级特征进行上样，并将已上样的粗级特征与细级特征相关联；以及

通过细级匹配转换器处理关联的细级特征，以预测子像素级的对应关系。

在一实施例中，细级匹配转换器包含L_f自注意力层和交叉注意力层，以聚合细级局部信息并生成用于位置细化的热图分布。

在一实施例中，按照下式计算基于直接监督的最终损失：

其中

为从图像解决方案包覆到细级热图图例的真值位置，/>

为与粗略位置相关联的预测，/>

为热图分布的总方差，/>

为模块预测的细匹配集。

在一实施例中，相似度分布的总方差随机向每个细级匹配分配权重，其中较大的总方差为与低权重相关联的未知预测。

在一实施例中，粗级知识转移损失函数用于将逻辑层分为多个独立查询分布，并引导学生模型学习这些分布。

在一实施例中，由粗级知识转移损失函数确定相互查询偏离(MQD)损失，MQD损失通过下述公式利用所有相互查询分布进行知识转移：

其中

和/>

分别为在温度T下提取的学生和教师的查询分布，将附加焦点损失权重FL添加进来以平衡匹配/不匹配的真值对。/>

为学生模型预测的标准置信分数。粗级别的总MQD损失/>

为所有n个分布的知识蒸馏(KD)损失的平均值，其中n等于2×hw。

在一实施例中，细级知识转移损失函数用于向教师模型的预测分配权重，同时具有更高确定性的预测被分配到更大的权重。

在一实施例中，教师模型和学生模型的热图分别为

和/>

的高斯分布。

在一实施例中，通过细级知识转移损失函数确定用于帮助学生模型学习高斯分布的注意损失

其中，

和/>

分别为学生和教师输出分布的期望值，与细级对应集/>

中的/>

对应匹配。

在一实施例中，注意损失为l₂距离损失，该l₂距离损失更加关注与高注意权重

相关联的预测。

在一实施例中，总方差较小的教师预测表明教师模型对于对应位置非常明确。在这种情况下，可以为损失赋予大权重，以引导学生模型优先从教师模型学习特定的预测。

在一实施例中，教师模型和学生模型的最终损失分别为：

和

结合以下附图和对优选实施例的描述，本发明的这些和其他方面将变得显而易见，尽管在不脱离本公开新颖概念的精神和范围前提下可以影响其中的变化和修改。

附图说明

附图用于说明本发明中的一个或多个实施例，并与说明书一起用于解释本发明的原理。相同的附图标记可以贯穿在整个附图中使用，以对实施例中的相同或相似的元件进行说明。

图1为本发明用于三维几何引导的师生特征匹配(3DG-STFM)的系统一实施例的示意图。

图2为本发明用于3DG-STFM的系统一实施例的示意图。

图3为本发明粗级可微分匹配机制一实施例的示意图。

图4为本发明粗级知识转换器一实施例的示意图。

图5为本发明细级注意力知识转换器一实施例的示意图。

图6为本发明用于3DG-STFM的系统一实施例的框图。

具体实施方式

现在将在下文中参考附图更全面地描述本发明，其中示出了本发明的示例性实施例。然而，本发明可以以许多不同的形式来体现，并且不应被解释为限于本文阐述的实施例。相反，提供这些实施例是为了使本发明更加透彻和完整，并将本发明的范围充分地传达给本领域的技术人员。相同的附图标记自始至终指代相同的元件。

在本说明书中使用的术语在本领域、在本发明的上下文中以及在使用每个术语的特定上下文中通常具有它们的普通含义。用于描述本发明的某些术语在下文或在说明书的其他地方讨论，以向实践者提供关于本发明的描述的额外指导。为方便起见，可以突出显示某些术语，例如使用斜体和/或引号。突出显示的使用对术语的范围和含义没有影响；在相同的上下文中，无论是否突出显示，术语的范围和含义都是相同的。可以理解，可以不止一种方式描述同样的事情。因此，备选语言和同义词可用于本文讨论的任何一个或多个术语，也不会对术语是否在本文中详细阐述或讨论具有任何特殊意义。提供了某些术语的同义词。一个或多个同义词的叙述不排除使用其他同义词。在本说明书中任何地方使用的示例包括本文讨论的任何术语的示例仅是说明性的，决不限制本发明或任何示例术语的范围和含义。同样，本发明不限于本说明书中给出的各种实施例。

应当理解，如本文的描述和随后的整个权利要求中所使用的，“一”、“一个”和“该”的含义包括复数指代，除非上下文另有明确规定。而且，应当理解，当一个元件被称为在另一个元件“上”时，它可以直接在另一个元件上或者它们之间可以存在中间元件。相反，当一个元件被称为“直接在”另一个元件上时，没有中间元件存在。如本文所用，术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

应当理解，尽管术语第一、第二、第三等可在本文中用于描述各种元件、组件、区域、层和/或部分，这些元件、组件、区域、层和/或部分不应受这些术语的限制。这些术语仅用于将一个元件、组件、区域、层或部分与另一元件、组件、区域、层或部分区分开来。因此，在不脱离本发明的教导的情况下，下面讨论的第一元件、组件、区域、层或部分可以被称为第二元件、组件、区域、层或部分。

将进一步理解，术语“包括(comprises)”和/或“包含(comprising)”或“包括(includes)”和/或“包括(including)”或“具有(has)”和/或“具有(having)”，或“携带(carry)”和/或“携带(carrying)”，或“包含(contain)”和/或“包含(containing)”或“涉及(involve)”和/或“涉及(involving)”等是开放式的，即意味着包括但不限于。当在本发明中使用时，它们指定所陈述的特征、区域、整数、步骤、操作、元件和/或组件的存在，但不排除存在或添加一个或多个其他特征、区域、整数、步骤、操作、元件、组件和/或其组。

除非另有定义，否则本文使用的所有术语(包括技术和科学术语)与本发明所属领域的普通技术人员所普遍理解的含义相同。还应当理解，诸如在常用词典中定义的那些术语，“术语”应被解释为具有与其在相关技术和本发明的上下文中的含义一致的含义，并且除非本文明确如此定义，否则不应以理想化或过于形式化的方式进行解释。

下面的描述本质上仅是说明性的，决不旨在限制本发明、其应用或用途。本发明的广泛教导可以多种形式实施。因此，尽管本发明包括特定示例，但本发明的真实范围不应受此限制，因为在研究附图、说明书和所附权利要求后，其他修改将变得显而易见。为了清楚起见，附图中将使用相同的附图标记来标识相同的元件。如本文所用，短语A、B和C中的至少一个应被解释为表示逻辑(A或B或C)，使用非排他性逻辑或。应当理解，在不改变本发明的原理的情况下，可以以不同顺序(或同时)执行方法中的一个或多个步骤。

如本文所用，术语模块可以指代、是其一部分、或包括专用集成电路(ASIC)；电子电路；组合逻辑电路；现场可编程门阵列(FPGA)；执行代码的处理器(共享、专用或组)；提供所述功能的其他合适的硬件组件；或以上部分或全部的组合，例如在片上系统中。术语模块可以包括存储由处理器执行的代码的存储器(共享、专用或组)。

这些装置和方法将在下面的详细说明中进行描述，并在附图中通过各种块、组件、电路、过程、算法等(统称为“元件”)来说明。这些元件可以使用电子硬件、计算机软件或其任何组合来实现。这些元件是作为硬件还是软件来实现取决于特定的应用程序和强加于整个系统的设计约束。举例来说，一个元件，或一个元件的任何部分，或元件的任何组合可以被实现为包括一个或多个处理器的“处理系统”。处理器的示例包括微处理器、微控制器、图形处理单元(GPU)、中央处理器(CPU)、应用处理器、数字信号处理器(DSP)、精简指令集计算(RISC)处理器、片上系统(SoC)、基带处理器、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、状态机、门控逻辑、分立硬件电路和其他配置为执行贯穿本公开描述的各种功能的合适硬件。处理系统中的一个或多个处理器可以执行软件。软件应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件组件、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、过程、函数等，无论是称为软件、固件、中间件、微代码、硬件描述语言还是其他名称。

因此，在一个或多个示例实施例中，所描述的功能可以以硬件、软件或其任意组合来实现。如果以软件实现，则功能可以存储在计算机可读介质上或编码为计算机可读介质上的一个或多个指令或代码。计算机可读介质包括计算机存储介质。存储介质可以是计算机可以访问的任何可用介质。作为示例而非限制，此类计算机可读介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、光盘存储、磁盘存储、其他磁存储设备、上述类型的计算机可读介质的组合，或任何其他可用于以计算机可访问的指令或数据结构形式存储计算机可执行代码的介质。

下面的描述本质上仅是说明性的，决不旨在限制本发明、其应用或用途。本发明的广泛教导可以多种形式实施。因此，尽管本发明包括特定示例，但本发明的真实范围不应受此限制，因为在研究附图、说明书和所附权利要求后，其他修改将变得显而易见。为了清楚起见，附图中将使用相同的附图标记来标识相同的元件。应当理解，在不改变本发明的原理的情况下，可以以不同顺序(或同时)执行方法中的一个或多个步骤。

一些现有技术尝试避免检测步骤，并通过考虑规则网格的所有点来建立完全监督的密集匹配。通过直接学习密集对应关系，NCNet提出了一种端到端方法，其列举了两个图像之间所有可能的匹配，并构建了一个4D相关张量图。4D共识社区网已学会识别可靠的匹配对，并相应地过滤掉不可靠的匹配。基于此概念，SparseNCNet通过子流形稀疏卷积来处理4D相关图，以提高NCNet的效率和性能。此外，DRC-Net提出了一种由粗到细的方法来形成更高精度的密集对应关系。

最近提出了一种局部特征转换器(LoFTR)的方法，通过转换器来学习图像对应关系之间的全局一致性。为了提高内存效率，首先由大LoFTR预测粗级匹配特征，然后馈送到小LoFTR以产生最终的细级匹配。得益于转换器的全局感受野，LoFTR大大提高了匹配性能。

上述所有的密集局部特征匹配方法都需要将密集真值对应关系作为监督。为了找到像素级真值对应关系，利用深度图、相机内在和外在矩阵来计算从一幅图像到另一幅图像的点重投影。另一方面，给定一组具有密集对应关系的图像，利用三角测量可以轻松重建3D场景和深度图。因此，深度信息可以由密集对应监督隐式提供。

然而，据我们所知，现有技术都没有对深度模态进行探索以进一步提高其匹配性能。与RGB图像不同，深度图提供的3D信息可以明确描述几何分布，文中引入的深度模态可以提供双重好处。

首先，即使深度信息的质量较低或稀疏，其仍可以消除2D图像空间中的许多模糊，并增强特征匹配的几何一致性，这在仅使用RGB输入的情况下是非常困难的，而且当图像对中存在多个相似对象时尤其如此。在这种情况下，大多数现有技术倾向于寻找不可信的匹配候选，因为它们纯粹区分2D描述子，而没有深度或大小知识。其次，在实施密集和一致匹配方面，单个对象的低纹理区域困扰着2D描述子。通过利用深度模态的识别，也可以很好地调整这种缺陷。

尽管有深度信息的优势，但高质量的RGB-D输入只能在控制良好的实验室环境中收集，并且很少，特别是低成本消费设备能够在真实场景中捕获类似的对齐良好的RGB-D对。大多数成像系统仅配备RGB传感器作为输入，并且不能承受由多模态推断引起的高计算成本。

这使得在推理和训练期间RGB和深度输入的朴素多模式融合成为限制性解决方案。因此，在实际场景中，考虑到硬件和计算负载的约束，需要一种将昂贵的RGB-D知识转换为RGB模态推理的好方法。

在包括模型压缩、加速和跨模态知识转移器在内的知识转移环境中，师生学习得到了积极的研究。给定一个训练有素的高权重教师模型，师生学习的目标为从教师处提炼和压缩知识，并引导轻权重学生模型获得更好的性能。另一方面，相比于单一模态数据，多模态数据通常可以提供更有价值的监督，且有利于模型性能。然而，由于在训练或测试期间某些模态缺乏数据或标签，因此在不同模态之间进行知识转移非常重要。

鉴于上述现有技术的缺陷与不足，本发明提供了一种系统/框架，相比于现有技术中使用密集对应关系真值作为对局部特征匹配训练的直接监督，本发明对3DG-STFM进行训练：三维几何引导的师生特征匹配的系统，一种多模态匹配模型(教师)，用于在3D密集对应监督下实施深度一致性，并将知识转移到2D单模态匹配模型(学生)。每个教师模型和学生模型都包含两个基于转换器的匹配模块，该基于转换器的匹配模块可以从粗到细获取密集对应关系。教师模型引导学生模型学习RGB诱导的深度信息，以便在粗分支和细分支上进行匹配。在一实施例中，基于模型压缩任务对3DG-STFM进行评估。据我们所知，该3DG-STFM为首个用于局部特征匹配任务的师生学习方法。实验表明，该方法在室内和室外相机姿态评估和单应性评估问题上优于最先进的方法。

请参考图1，该师生学习系统通常包括多模态教师模型和单模态学生模型。多模态教师模型用于确定RGB-D图像对之间的特征匹配，每个RGB-D图像为RGB图像及其对应的深度图像的组合，该深度图像为图像通道，其图像通道中的每个像素与RGB图像中图像平面与对应对象之间的距离有关。单模态学生模型用于从RGB图像对和教师模型中确定特征匹配，其中教师模型引导学生模型学习RGB诱导深度信息，以进行粗级和细级特征匹配。

在某些实施例中，每个教师模型和学生模型中包括特征金字塔网络(FPN)，用于从图像对中提取具有1/8原始图像分辨率的粗级局部特征和具有1/2原始图像分辨率的细级特征。

在某些实施例中，教师模型的FPN为RGB-D图像的四通道输入，学生模型的FPN为RGB图像的三通道输入，其中D表示为深度信息。

在某些实施例中，每个教师模型和学生模型还包括粗级局部特征转换模块、粗级匹配模块和细级匹配模块。该粗级局部特征转换模块包括用于粗级匹配的大转换器，该细级匹配模块包括用于细级匹配的小转换器。大转换器包括自注意力层和交叉注意力层，以聚合粗级局部信息，并生成用于粗级匹配预测的置信分数矩阵。高分数的粗级匹配被馈送到细级匹配模块进行细化。小转换器包括自注意力层和交叉注意力层，以聚合细级局部信息，并生成用于位置细化的热图分布。

该系统还包括粗级知识转移损失函数和细级知识转移损失函数。该粗级知识转移损失函数用于确定将粗级匹配知识从教师模型转移到学生模型的损失。该细级知识转移损失函数用于确定将细级匹配知识从教师模型转移到学生模型的损失，且引导学生模型优先学习细级预测分布。

在某些实施例中，将学生模型的粗级选择位置发送到教师分支以提取教师模型在相同位置的细级特征。

在某些实施例中，粗级知识转移损失函数中包括相互查询偏离(MQD)损失，以将粗级知识匹配从教师模型转移到学生模型。MQD损失将逻辑层分为多个独立的查询分布，并引导学生模型学习这些分布。

在某些实施例中，细级知识转移损失函数包括注意损失以将细级知识匹配从教师模型转移到学生模型。注意损失为教师模型的预测分配权重，具有更高确定性的预测被分配到更大的权重。该注意损失引导学生模型优先学习细级预测分布。

图2为本发明师生学习系统一实施例的示意图。

对于每个师生模型/分支，FPN用于从图像对中提取具有1/8原始图像分辨率的粗级局部特征

和具有1/2原始图像分辨率的细级特征/>

如图2所示，

为教师分支，/>

为学生分支。教师模型的FPN输入通道设有四个通道，用于探索附加的深度图。

出于匹配目的，粗级局部特征转换模块为基于转换器的粗级匹配模块。在一些实施例中，粗级特征维度为输入图像的1/8。例如，若输入RGB图像为640×640×3，则粗级特征为为80×80×c，其中c为特征图的通道数，取决于深度网络的结构。在一实施例中。展平(重塑)操作仅适用于前两个维度。由于其高性能，基于转换器的架构被应用在师生学习系统中。维度为h×w×c的粗级特征图被展平为hw×c，位置编码为每个特征条目分配一个正弦格式的唯一嵌入向量，以编码它们的空间信息。编码后的局部特征向量被馈送到粗级匹配转换器。与专注于自注意力的经典视觉转换器不同，匹配转换器通过添加交叉注意力层来考虑不同图像像素之间的关系。该自注意力层和交叉注意力层以Lc的倍数交错在粗级匹配转换器中。

如图2所示，采用由粗到细的模块来降低计算成本。选择具有高置信分数的粗级预测并将其映射到细级特征图。通过w×w大小的窗口收集位置

周围的特征，并将其馈送到具有L_f自注意力层和交叉注意力层的轻权重细级转换器。细级匹配模块用于预测子像素级的对应关系。

对于粗级匹配模块，图3展示了逻辑层的输出，大小为hw×hw的相关矩阵S_c，双重softmax操作用于生成置信分数矩阵Pc：

P_c(i,j)＝softmax(S_c(i,·)_j)*softmax(S_c(·,j)_i)

其中softmax应用于相关矩阵S_c的水平方向S_c(i,·)_j和垂直方向S_c(·,j)_i，两者相乘作为最终匹配概率。给定从对应标签导出的真值矩阵，交叉熵损失计算如下：

其中P_c为置信分数矩阵，

为真值标签生成的对应集。具有预测概率p的FL为焦点损失项，用于解决匹配和不匹配对之间的不平衡。

在某些实施例中，学生模型粗级选择的位置被发送到教师分支以提取教师模型相同位置处的细级特征。

对于细级匹配模块，基于置信分数矩阵Pc，细级匹配模块选择并细化概率分数高于阈值θ_c的匹配对。将粗匹配位置(i,j)投影到细级特征图的

位置上，并从相邻的大小为w×w窗口中提取其特征作为匹配候选。在传递给细级匹配转换器之前，对选定的粗级特征上样并将其与细级特征关联。细级匹配转换器为一种包含L_f注意层的轻权重转换器，用于聚合选定的语境信息并将其传递给可区分的匹配模块。细级匹配模块并不生成置信分数矩阵，而是选择/>

的中心特征并将其与/>

中的所有特征相关联。从而，生成相似性分布，且期望值μ视作为预测。基于直接监督的最终损失计算如下：

其中

为从图像解决方案包覆到细级热图比例的真值位置。/>

为与粗级位置

相关的预测，/>

为热图分布的总方差。/>

为模块预测的细匹配集。相似分布的总方差随机为每个细级匹配分配权重。较大的总方差表明其为与低权重相关联的未知预测。

对于粗级知识转移损失，采用基于响应的知识蒸馏策略来帮助学生在粗级水平上向教师学习。这种方法可以提炼出逻辑层的分布，并引导学生学习。图3展示了逻辑层输出，以及大小为hw×hw的相关矩阵Sc。每行或每列描述了一个像素与另一个图像的每个像素之间的关系。

双重softmax的操作可以看作为在两个方向上的查询过程。如图4所示，相关矩阵被分成两个匹配查询矩阵。相互查询偏离(MQD)损失采用所有大小为2×hw的相互查询分布进行知识转移：

其中

和/>

分别为在温度T下提取的学生和教师的查询分布。将附加焦点损失权重FL添加进来以平衡匹配/不匹配的真值对。/>

为学生模型预测的标准置信分数。粗级别的总MQD损失/>

对于细级知识转移损失，图5展示了细级知识转移。在师生学习过程中，教师和学生分支都可以生成热图。在一些实施例中，教师模型和学生模型的热图分别为

和/>

的高斯分布。注意损失/>

用于帮助学生学习分布：

其中

和/>

为学生和教师输出分布的期望值，与细级对应集/>

中的/>

相匹配。

因此，总损失为匹配集

中所有细级对l2损失的加权和的平均值。在一些实施例中，注意损失为l2距离损失，其更加关注与高注意权重/>

相关联的预测。总方差通常被视为确定性测量的度量标准。总方差较小的教师预测表明教师对于对应位置非常明确。在这种情况下，可以为损失赋予较大的权重，以引导学生模型优先从教师那里学习特定的预测。

教师和学生的训练过程均是在对应真值的直接监督下进行的。在学生模型训练期间，教师模型会进行额外的监督。教师模型和学生模型的最终损失分别为：

和

值得注意的是，师生学习系统还可以包括电子设备、至少一个可操作地耦合到电子设备的处理器、以及至少一个存储器。该存储器可操作地耦合到至少一个处理器中，并用于存储可执行指令的处理器。当该师生学习系统由至少一个处理器执行时，该系统执行3D几何引导的师生特征匹配。例如，通过多模态教师模型确定一对RGB-D图像之间的特征匹配，每个RGB-D图像为RGB图像及其对应的深度图像的组合。深度图像为图像通道，该图像通道中的每个像素与RGB图像中图像平面与对应对象之间的距离有关。通过单模态学生模型确定RGB图像对和教师模型中的特征匹配，其中教师模型引导学生模型学习用于粗级和细级特征匹配的RGB诱导深度信息。通过粗级知识转移损失函数确定将粗级匹配知识从教师模型转移到学生模型的损失。通过细级知识转移损失函数确定将细级匹配知识从教师模型转移到学生模型的损失，且引导学生模型优先学习细级预测分布。

进一步地，每个教师模型和学生模型本身还可以包括电子设备、一个或多个可操作地耦合到电子设备的处理器、以及一个或多个存储器。该存储器可操作地耦合到一个或多个处理器中，并用于存储可执行指令的处理器。当该师生学习系统由一个或多个处理器执行时，该一个或多个处理器进行特征提取、局部特征转换和匹配等。教师模型可以包括教师网络，学生模型可以包括学生网络。

此外，该系统可以与诸如移动设备、服务器、数据库或数据中心、云端等其他设备进行可操作地无线或有线通信。该系统还可以包括用于显示结果的显示器和/或图形用户界面(GUI)，用于用户和系统之间的交互。

图6为系统600的物理组件(即，硬件)的示例性框图，可以对实践本发明的实施例进行说明。然而，图6中所说明和讨论的设备和系统仅仅是出于示例和说明的目的，并不限制用于实践本发明的其他设备配置。在基本配置608中，系统600包括至少一个处理单元602和系统存储器604。在一些实施例中，系统存储器604包括但不限于易失性存储器(例如，随机存取存储器)、非易失性存储器(例如，只读存储器)、闪存或此类存储器的任意组合。系统存储器604可以包括操作系统605和适合于运行软件应用程序650的一个或多个程序模块606。系统存储器604还包括用于训练教师模型和学生模型的模型训练器620。此外，系统600可以具有附加特征或功能，并且可以包括附加数据存储设备610(可移动和/或不可移动的)，例如磁盘、光盘或磁带。

在一些实施例中，程序模块和数据文件可以存储在系统存储器604中。当在处理单元602上执行程序模块606时，程序模块606(例如，模型训练器620)执行如图2至图5所示的过程。

在一些实施例中，系统600还可以包括一个或多个输入设备612和输出设备614，如显示器。此外，系统600可以包括与其他设备进行无线和/或有线通信的通信协议616。

另一方面，本发明提供了一种存储指令的非暂时性有形计算机可读介质。当该非暂时性有形计算机可读介质被一个或多个处理器执行时，该师生系统能够实施三维几何引导的师生特征匹配(3DG-STFM)。计算机可执行指令或程序代码使得上述所揭露的装置或类似系统能够根据上述方法完成各种操作。存储介质/存储器可以包括但不限于：高速随机存取介质/存储器，例如DRAM、SRAM、DDRRAM或其他随机存取固态存储设备，以及非易失性存储器，例如一种或多种磁盘存储设备、光盘存储设备、闪存设备或其他非易失性固态存储设备。

下面将对本发明的这些和其他方面作进一步描述。在不限制本发明的范围的情况下，下面根据本发明实施例列举出示例性仪器、装置、方法及其相关结果。值得一提的是，为便于读者阅读，可以在示例中使用标题或副标题，这并不限制本发明的范围。而本文所提出并公开的某些理论，无论正确或是错误，其都不应限制本发明的范围，只要在不考虑任何特定理论或作用方案的情况下可以实施本发明即可。

实施例

以下示例/实验表明，该方法在室内和室外相机姿态评估和单应性评估问题上优于最先进的方法。具体来说，给定两个不同的相机A和B，相对相机姿态矩阵E描述了相机B在世界坐标中的3D相对方向和位置，此3D相对方向和位置为参考相机A定义。一旦我们评估这两个相机拍摄的两个图像之间有足够的对应关系，我们可以回归相机姿态矩阵。这对图像中的对应关系越可靠，所建立的姿势评估越准确。因此，相机姿态评估是针对局部特征匹配任务的一种很好的评估方法。这些实验数据表明，RGBD模型优于普通RGB模型，学生RGB模型可以从教师模型中学习并获得更好的性能。

在实施例中，本发明的一种新方法为：如表1所示，在室内和室外数据集上执行相机姿态评估任务。LoFTR[1]为当前最先进的方法，且被视为比较基线。结果显示了在阈值(5°，10°，20°)处的姿势误差AUC(曲线下的面积)。该姿态误差定义为：在旋转和平移中的最大角度误差。

表1：在室内和室外数据集上执行相机姿态评估任务

方法	数据集	AUC@5°	AUC@10°	AUC@20°
					LoFTR[1]	室内[2]	22.06％	40.80％	57.62％
本发明	室内[2]	23.58％	43.60％	61.17％
					LoFTR[1]	室外[3]	47.50％	64.50％	77.08％
本发明	室外[3]	47.98％	64.97％	77.77％

表2显示了处于室内/室外数据集上的教师(RGBD)模型、学生模型、普通RGB模型之间的比较结果。

表2：室内/室外数据集上的教师(RGBD)模型、学生模型、普通RGB模型之间的比较结果

方法	数据集	AUC@5°	AUC@10°	AUC@20°
					教师模型	室内[2]	27.93％	47.11％	63.47％
普通RGB模型	室内[2]	22.06％	40.80％	57.62％
					学生模型	室内[2]	23.58％	43.60％	61.17％
教师模型	室外[3]	50.05％	66.76％	79.21％
					普通RGB模型	室外[3]	47.50％	64.50％	77.08％
学生模型	室外[3]	47.98％	64.97％	77.77％

表2列出的结果表明，无论在室内还是室外数据集上，3DG-STFM教师模型和学生模型都比普通单模态竞争对手表现出更好的性能。深度模态可以消除2D图像空间中的许多模糊，并加强特征匹配的几何一致性。然而，在推理期间，深度模态并不总是可用的，因为大多数成像系统只配备了RGB传感器。表中的结果也证明，学生RGB模型从教师模型中进行学习并且优于普通RGB模型。

关于本发明的示例性实施例的前述描述仅出于说明和描述的目的，并不旨在穷举或将本发明限制为所公开的精确形式。根据以上启示，可以进行许多修改和变化。

所选择描述的实施例是为了解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够利用本发明和各种实施例进行符合期待且具有特定用途的各种修改。在不脱离本发明的精神和保护范围的前提下，对本发明作出适应性的替代实施例将对于本发明所属领域的技术人员来说是显而易见的。因此，本发明的保护范围由所附权利要求而不是由前述描述和所描述的示例性实施例限定。

在本发明的描述中所引用和讨论的参考文献，可以包括专利、专利申请和各种出版物。此类参考文献的引用和/或讨论仅为了对本发明进行清楚的描述，并不承认任何此类参考文献为本发明的“现有技术”。本说明书中引用和讨论的所有参考文献均通过整体引用包含在本文中，其程度与单独引用每篇参考文献的程度相同。

参考文献

[1].Sun,Jiaming等，“LoFTR：与转换器匹配的无检测器局部特征”，计算机视觉和模式识别的IEEE/CVF会议记录，2021。

[2].Dai,Angela等，“Scannet：大量标注的室内场景3d重建”，计算机视觉和模式识别的IEEE会议记录，2017。

[3].Li,Zhengqi和NoahSnavely，“Megadepth：从互联网照片中学习单视点深度预测”，计算机视觉和模式识别的IEEE会议记录，2018。

Claims

1.一种用于三维几何引导的师生特征匹配(3DG-STFM)的系统，包括：

多模态教师模型，用于确定一对RGB-D图像之间的特征匹配，其中，每个RGB-D图像为RGB图像及其对应深度图像的组合，所述深度图像为图像通道，所述图像通道中的每个像素与所述RGB图像中图像平面与对应对象之间的距离有关；

单模态学生模型，用于从所述RGB图像对和所述教师模型中确定特征匹配，其中，所述教师模型引导所述学生模型学习RGB诱导深度信息，以进行粗级和细级特征匹配；

粗级知识转移损失函数，用于确定将粗级匹配知识从所述教师模型转移到所述学生模型的损失；以及

细级知识转移损失函数，用于确定将细级匹配知识从所述教师模型转移到所述学生模型的损失，且引导所述学生模型优先学习细级预测分布。

2.如权利要求1所述的系统，其中，每个所述教师模型和所述学生模型均包括特征金字塔网络(FPN)，所述FPN用于从所述图像对中提取具有1/8原始图像分辨率的粗级局部特征和具有1/2原始图像分辨率的细级特征。

3.如权利要求2所述的系统，其中，所述教师模型的FPN为所述RGB-D图像的四通道输入，所述学生模型的FPN为所述RGB图像的三通道输入，其中D表示深度信息。

4.如权利要求2所述的系统，其中，每个所述教师模型和所述学生模型还包括粗级局部特征转换模块、粗级匹配模块和细级匹配模块。

5.如权利要求4所述的系统，其中，所述粗级局部特征转换模块用于：

将提取的粗级特征图展平为一维向量；

6.如权利要求5所述的系统，其中，所述自注意力层和所述交叉注意力层以L_c的倍数交错在所述粗级匹配转换器中。

7.如权利要求5所述的系统，其中，所述粗级匹配模块用于：

通过在行方向和列方向上对所述相关矩阵S_c应用双重softmax操作来生成置信分数矩阵P_c，其中：

P_c(i,j)＝softmax(S_c(i,·)_j)*softmax(S_c(·,j)_i)

P_c(i,j)为匹配位置(i，j)处的匹配概率；以及

选择概率分数高于阈值θ_c的匹配对以生成粗级匹配预测。

8.如权利要求7所述的系统，其中，给定从对应标签导出的真值矩阵，通过下式计算测量所述粗级局部特征转换模块和所述粗级匹配模块性能的交叉熵损失：

其中

9.如权利要求7所述的系统，其中，所述细级匹配模块用于：

将粗匹配位置(i,j)投影到细级特征图的位置

对选定的粗级特征进行上样，并将已上样的粗级特征与所述细级特征相关联；以及

10.如权利要求9所述的系统，其中，所述细级匹配转换器包含L_f自注意力层和交叉注意力层，以聚合细级局部信息并生成用于位置细化的热图分布。

11.如权利要求9所述的系统，其中，按照下式计算基于直接监督的最终损失：

其中

为从图像解决方案包覆到细级热图图例的真值位置，/>

为与粗略位置相关联的预测，/>

为热图分布的总方差，/>

为模块预测的细匹配集。

12.如权利要求11所述的系统，其中，相似度分布的总方差随机向每个细级匹配分配权重，其中较大的总方差为与低权重相关联的未知预测。

13.如权利要求7所述的系统，其中，所述粗级知识转移损失函数适用于将逻辑层分为多个独立查询分布，并引导所述学生模型学习这些分布。

14.如权利要求13所述的系统，其中，由所述粗级知识转移损失函数确定相互查询偏离(MQD)损失，所述MQD损失通过下述公式利用所有相互查询分布进行知识转移：

其中

和/>

分别为在温度T下提取的学生和教师的查询分布，通过添加附加焦点损失权重FL以平衡匹配/不匹配真值对，/>

为由所述学生模型预测的标准置信分数，粗级总MQD损失/>

15.如权利要求9所述的系统，其中，所述细级知识转移损失函数适用于向所述教师模型的预测分配权重，同时具有更高确定性的预测被分配到更大的权重。

16.如权利要求15所述的系统，其中，所述教师模型和所述学生模型的热图分别为

和/>

的高斯分布。

17.如权利要求16所述的系统，其中，通过所述细级知识转移损失函数确定用于帮助所述学生模型学习所述高斯分布的注意损失

其中，

和/>

分别为学生和教师输出分布的期望值，与细级对应集/>

中的/>

对应匹配。

18.如权利要求17所述的系统，其中，所述注意损失为l₂距离损失，所述l₂距离损失更加关注与高注意权重