CN115908879B

CN115908879B - 基于点引导注意力机制的自适应局部图像特征匹配方法

Info

Publication number: CN115908879B
Application number: CN202310218700.7A
Authority: CN
Inventors: 张天柱; 常家豪; 虞佳焕; 何建峰; 张哲�; 吴枫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-03-09
Filing date: 2023-03-09
Publication date: 2023-06-16
Anticipated expiration: 2043-03-09
Also published as: CN115908879A

Abstract

本申请提供了一种基于点引导注意力机制的自适应局部图像特征匹配方法、装置、设备及存储介质，可以应用于计算机视觉技术领域和局部图像特征匹配技术。该方法包括：利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互得到第一分辨率特征交互图像对和第二分辨率特征交互图像对；将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块得到第三分辨率特征图像对和第四分辨率特征图像对；根据第三分辨率特征图像对和第四分辨率特征图像对得到粗匹配结果；根据粗匹配结果得到每个匹配点对各自的深度信息；将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块得到目标匹配结果。

Description

基于点引导注意力机制的自适应局部图像特征匹配方法

技术领域

本申请涉及计算机视觉技术领域和局部图像特征匹配技术，尤其涉及一种基于点引导注意力机制的自适应局部图像特征匹配方法。

背景技术

局部特征匹配是计算机视觉中的一项基本任务，旨在为图像对之间的局部特征建立对应关系。作为许多3D（3-dimension，三维）计算机视觉任务的基础，局部特征匹配可应用于从运动中恢复结构（SfM，Structure from Motion）、3D重建、视觉定位和姿态估计。由于其广泛的应用，局部特征匹配引起了广泛的关注并促进了许多研究的发展。

相关技术中，通常采用基于注意力机制的方法进行局部特征匹配，但是基于注意力机制进行局部特征匹配，会产生针对连续密集预测任务的空间归纳偏差，导致局部匹配结果不一致，同时，缺乏对图片之间尺度变化的显著建模，在图片间的尺度变化过大的情况下，正确匹配点可能会超出精细匹配的查找范围，从而导致错误的匹配结果。

发明内容

鉴于上述问题，本申请提供了一种基于点引导注意力机制的自适应局部图像特征匹配方法、装置、设备和介质。

根据本申请的第一个方面，提供了一种基于点引导注意力机制的自适应局部图像特征匹配方法，包括：

提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像，其中，上述第一目标图像和上述第二目标图像为从不同视角拍摄同一画面的两个图像；

利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，其中，上述第一分辨率特征图像对包括分辨率相同的上述第一特征图像和上述第三特征图像，上述第二分辨率特征图像对包括分辨率相同的上述第二特征图像和上述第四特征图像；

将上述第一分辨率特征交互图像对和上述第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对；

根据上述第三分辨率特征图像对和上述第四分辨率特征图像对，得到上述第一目标图像和上述第二目标图像的粗匹配结果；

根据上述粗匹配结果，得到每个匹配点对各自的深度信息，其中，上述匹配点对包括上述第一目标图像中的像素点和上述第二目标图像中的与上述第一目标图像中的上述像素点相匹配的像素点；以及

将第五特征图像、第六特征图像和多个上述深度信息输入自适应尺度放缩模块，得到上述第一目标图像和上述第二目标图像的目标匹配结果，其中，上述第五特征图像是对上述第一目标图像进行特征提取得到的，上述第六特征图像是对上述第二目标图像进行特征提取得到的，上述第五特征图像和第六特征图像表征分辨率相同的特征图像，上述第六特征图像的分辨率大于上述第一特征图像和上述第二特征图像各自的分辨率。

根据本申请的实施例，上述第一分辨率特征交互图像对包括第一特征交互图像和第三特征交互图像，上述第二分辨率特征交互图像对包括第二特征交互图像和第四特征交互图像，

上述将上述第一分辨率特征交互图像对和上述第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对，包括重复执行以下操作直至满足预设条件：

在确定循环轮次不满足上述预设条件的情况下，

对上述第一特征交互图像和下采样后的第二特征交互图像进行特征融合，得到第一特征融合图像；

对上述第三特征交互图像和下采样后的第四特征交互图像进行特征融合，得到第三特征融合图像；

对上述第二特征交互图像和上采样后的第一特征交互图像进行特征融合，得到第二特征融合图像；

对上述第四特征交互图像和上采样后的第三特征交互图像进行特征融合，得到第四特征融合图像；

利用交叉注意力机制对第一分辨率特征融合图像对进行特征交互，得到新的第一特征交互图像和新的第三特征交互图像，其中，上述第一分辨率特征融合图像对包括上述第一特征融合图像和上述第三特征融合图像；

利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像，其中，上述第二分辨率特征融合图像包括上述第二特征融合图像和上述第四特征融合图像；

将在上述循环轮次满足上述预设条件的情况下得到的特征交互后的第一分辨率特征融合图像对和第二分辨率特征融合图像对分别确定为上述第三分辨率特征图像对和上述第四分辨率特征图像对。

根据本申请的实施例，上述利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像，包括：

在上述第二特征融合图像作为参考图像，上述第四特征融合图像作为源图像的情况下，利用点引导注意力机制对上述参考图像和上述源图像进行特征交互，得到第一参考图像，其中，上述第一参考图像表征上述新的第二特征交互图像；

在上述第四特征融合图像作为上述参考图像，上述第二特征融合图像作为源图像的情况下，利用点引导注意力机制对上述参考图像和上述源图像进行特征交互，得到第二参考图像，其中，上述第二参考图像表征上述新的第四特征交互图像。

根据本申请的实施例，上述利用点引导注意力机制对上述参考图像和上述源图像进行特征交互，得到第一参考图像，包括：

对上述参考图像和上述源图像进行匹配，得到跨图像的匹配矩阵；

针对上述参考图像中的每个第一目标像素点，确定以上述第一目标像素点为中心的第一目标区域；

确定上述第一目标区域中的每个第二目标像素点的相似度得分和置信度分数，其中，上述第一目标区域中的第二目标像素点为除上述第一目标像素点外的像素点，上述相似度得分表征上述第二目标像素点与上述第一目标像素点之间的相似度，上述置信度分数表征上述第二目标像素点与上述源图像中的第三目标像素点之间的相似度，上述第三目标像素点是基于上述匹配矩阵确定的；

基于上述第二目标像素点的相似度得分和置信度分数，确定上述第二目标像素点的选择分数；

根据多个上述选择分数，确定上述第一目标区域中上述选择分数最高的k个第二目标像素点，其中，k为大于0的整数；

根据上述匹配矩阵，确定上述源图像中的上述k个第二目标像素点和上述第一目标像素点各自对应的斑点区域，得到k+1个斑点区域；

利用交叉注意力机制对上述第一目标像素点和与上述第一目标像素点对应的上述k+1个斑点区域进行特征交互，得到参考子图像；

基于多个上述参考子图像，得到上述第一参考图像。

根据本申请的实施例，上述根据上述第三分辨率特征图像对和上述第四分辨率特征图像对，得到上述第一目标图像和上述第二目标图像的粗匹配结果，包括：

对上述第三分辨率特征图像对进行上采样，得到与上述第四分辨率特征图像对分辨率相同的特征图像对；

对得到的上述特征图像对和上述第四分辨率特征图像对进行特征融合，得到特征融合后的第四分辨率特征图像对；

对上述特征融合后的第四分辨率特征图像对中的第二特征图像和第四特征图像进行匹配，得到上述粗匹配结果。

根据本申请的实施例，上述根据上述粗匹配结果，得到每个匹配点对各自的深度信息，包括：

根据上述粗匹配结果，利用随机样本一致性算法得到上述第一目标图像和上述第二目标图像之间的相对位姿；以及

根据上述粗匹配结果中上述匹配点对各自的位置坐标和上述相对位姿，得到每个匹配点对各自的深度信息。

根据本申请的实施例，上述将第五特征图像、第六特征图像和多个上述深度信息输入自适应尺度放缩模块，得到上述第一目标图像和上述第二目标图像的目标匹配结果，包括：

根据每个匹配点对各自的深度信息和第二目标区域，确定上述第六特征图像中与上述第二目标区域对应的第三目标区域，其中，上述第二目标区域是根据匹配点在上述第五特征图像中确定的；以及

利用自注意力机制和交叉注意力机制对每个匹配点对的上述第二目标区域和上述第三目标区域进行特征交互，得到上述第一目标图像和上述第二目标图像的上述目标匹配结果。

本申请的第二方面提供了一种基于点引导注意力机制的自适应局部图像特征匹配装置，包括：提取模块、第一获得模块、第一输入模块、第二获得模块、第三获得模块和第二输入模块。提取模块，用于提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像，其中，上述第一目标图像和上述第二目标图像表征为不同视角拍摄同一画面的两个图像。第一获得模块，用于利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，其中，上述第一分辨率特征图像对包括分辨率相同的上述第一特征图像和上述第三特征图像，上述第二分辨率特征图像对包括分辨率相同的上述第二特征图像和上述第四特征图像。第一输入模块，用于将上述第一分辨率特征交互图像对和上述第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对。第二获得模块，用于根据上述第三分辨率特征图像对和上述第四分辨率特征图像对，得到上述第一目标图像和上述第二目标图像的粗匹配结果。第三获得模块，用于根据上述粗匹配结果，得到每个匹配点对各自的深度信息，其中，上述匹配点对包括上述第一目标图像中的像素点和上述第二目标图像中的与上述第一目标图像中的上述像素点相匹配的像素点。第二输入模块，用于将第五特征图像、第六特征图像和多个上述深度信息输入自适应尺度放缩模块，得到上述第一目标图像和上述第二目标图像的目标匹配结果，其中，上述第五特征图像是对上述第一目标图像进行特征提取得到的，上述第六特征图像是对上述第二目标图像进行特征提取得到的，上述第五特征图像和第六特征图像表征分辨率相同的特征图像，上述第六特征图像的分辨率大于上述第一特征图像和上述第二特征图像各自的分辨率。

本申请的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述方法。

本申请的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述方法。

根据本申请提供的基于点引导注意力机制的自适应局部图像特征匹配方法、装置、设备和介质，利用交叉注意力机制对提取的第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，可以得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，再将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，利用点引导聚合模块，可以得到第三分辨率特征图像对和第四分辨率特征图像对，能够使大多数像素点避免不相关区域的影响，使得在注意力交互的同时保持局部对应性；根据第三分辨率特征图像对和第四分辨率特征图像对，可以得到第一目标图像和第二目标图像的粗匹配结果，并根据粗匹配结果，能够得到每个匹配点对各自的深度，最后将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块，利用自适应尺度放缩模块，可以得到第一目标图像和第二目标图像的目标匹配结果，能够实现对第一目标图像和第二目标图像匹配关系的精细调整，使得在面对弱纹理、重复图案区域或是图片间尺度变化较大等挑战的情况下，都能快速高效获取精准、稳定的像素级目标匹配结果。

附图说明

通过以下参照附图对本申请实施例的描述，本申请的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示出了根据本申请实施例的基于点引导注意力机制的自适应局部图像特征匹配方法的应用场景图。

图2示出了根据本申请实施例的基于点引导注意力机制的自适应局部图像特征匹配方法的流程图。

图3示出了根据本申请实施例的得到第三分辨率特征图像对和第四分辨率特征图像对的流程图。

图4示出了根据本申请实施例的得到第一参考图像的流程图。

图5示出了根据本申请实施例的点引导注意力机制的结构示意图。

图6示出了根据本申请实施例的得到目标结果的流程图。

图7示出了根据本申请实施例的自适应尺度放缩策略的结构示意图。

图8示出了根据本申请实施例的基于点引导注意力机制的自适应局部图像特征匹配方法的示意图。

图9示出了根据本申请实施例的基于点引导注意力机制的自适应局部图像特征匹配装置的结构框图。

图10示出了根据本申请实施例的适于实现基于点引导注意力机制的自适应局部图像特征匹配方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本申请的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本申请的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本申请实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本申请的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本申请。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

在本申请的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本申请的技术方案中，对数据的获取、收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在实施本申请的过程中发现，近些年已经有许多匹配方法被提出，这些方法通常可分为两大类，基于检测器的匹配方法和无检测器匹配方法。基于检测器的匹配方法需要先设计一个关键点检测器来提取两幅图像之间的关键点，然后在这些提取的关键点之间建立匹配。检测到的关键点的质量将显著影响基于检测器的匹配方法的性能。因此，许多工作旨在通过多尺度检测、可重复和可靠的验证来改进关键点检测。由于检测到高质量的关键点，这些方法可以在保持高计算和内存效率的同时获得令人满意的性能。然而，这些基于检测器的匹配方法可能难以在无纹理区域找到可靠的匹配，因为在这些区域中关键点难以检测。不同的是，无检测器匹配方法不需要检测关键点并尝试在局部特征之间建立像素级匹配。以这种方式，可以在无纹理区域中建立匹配，但存在速度比较慢、实施性比较差的问题。最近，由于注意力机制在捕获长距离依赖方面的能力，近年来涌现出许多基于Transformer模型（基于注意力机制的特征提取网络）的方法。这些方法通常采用由粗到细的结构，其良好的性能证明了注意力机制对局部特征匹配是很有效的。但相关技术中，会缺乏针对连续密集预测任务的空间归纳偏差，导致局部匹配结果不一致，同时，还缺乏对图片之间尺度变化的显著建模，在图片间的尺度变化过大的情况下，正确匹配点可能会超出精细匹配的查找范围，从而导致错误的匹配结果。

为此，本申请的实施例提供了一种基于点引导注意力机制的自适应局部图像特征匹配方法，提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像；利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对；将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对；根据第三分辨率特征图像对和第四分辨率特征图像对，得到第一目标图像和第二目标图像的粗匹配结果；根据粗匹配结果，得到每个匹配点对各自的深度信息；以及将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块，得到第一目标图像和第二目标图像的目标匹配结果。

如图1所示，根据该实施例的应用场景100可以包括第一终端设备101、第二终端设备102、第三终端设备103、网络104和服务器105。网络104用以在第一终端设备101、第二终端设备102、第三终端设备103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用第一终端设备101、第二终端设备102、第三终端设备103通过网络104与服务器105交互，以接收或发送消息等。第一终端设备101、第二终端设备102、第三终端设备103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等（仅为示例）。

第一终端设备101、第二终端设备102、第三终端设备103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用第一终端设备101、第二终端设备102、第三终端设备103所浏览的网站提供支持的后台管理服务器（仅为示例）。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果（例如根据用户请求获取或生成的网页、信息、或数据等）反馈给终端设备。

例如，可以通过服务器105提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像，并利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，并将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对，并根据第三分辨率特征图像对和第四分辨率特征图像对，得到第一目标图像和第二目标图像的粗匹配结果，从而根据粗匹配结果，得到每个匹配点对各自的深度信息，最后将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块，得到第一目标图像和第二目标图像的目标匹配结果。

需要说明的是，本申请实施例所提供的基于点引导注意力机制的自适应局部图像特征匹配方法一般可以由服务器105执行。相应地，本申请实施例所提供的基于点引导注意力机制的自适应局部图像特征匹配装置一般可以设置于服务器105中。本申请实施例所提供的基于点引导注意力机制的自适应局部图像特征匹配方法也可以由不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群执行。相应地，本申请实施例所提供的基于点引导注意力机制的自适应局部图像特征匹配装置也可以设置于不同于服务器105且能够与第一终端设备101、第二终端设备102、第三终端设备103和/或服务器105通信的服务器或服务器集群中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2~图8对公开实施例的基于点引导注意力机制的自适应局部图像特征匹配方法进行详细描述。

如图2所示，该方法200包括操作S210~操作S260。

在操作S210，提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像。

根据本申请的实施例，第一目标图像和第二目标图像可以表征为从不同视角拍摄同一画面的两个图像。例如，可以通过CNN Backbone（Convolutional Neural NetworkBackbone，卷积神经网络的主干网络）对图像进行特征提取，也可以通过FPN（FeaturePyramid Network，特征金字塔网络）对图像进行特征提取。

在操作S220，利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对。

根据本申请的实施例，第一分辨率特征图像对可以包括分辨率相同的第一特征图像和第三特征图像，第二分辨率特征图像对可以包括分辨率相同的第二特征图像和第四特征图像。第一分辨率特征图像对的分辨率小于第二分辨率特征图像的分辨率。

根据本申请的实施例，交叉注意力机制可以包括一般交叉注意力机制和线性交叉注意力机制。可以利用一般交叉注意力机制对第一分辨率特征图像对进行特征交互，得到第一分辨率特征交互图像对。可以利用线性交叉注意力机制对第二分辨率特征图像对进行特征交互，得到第二分辨率特征交互图像对。第二分辨率特征图像对的分辨率较大，像素点多，计算量大，因此，利用线性交叉注意力机制，可以提高速度，而第一分辨率特征图像对的分辨率较小，像素点少，计算量较小，因此，利用一般交叉注意力机制即可。

根据本申请的实施例，特征交互可以表征针对第一目标图像的每个像素点特征，对每个像素点和第二目标图像内所有像素点，分别计算得到对应的相似性矩阵，以该相似形矩阵为权重，加权第二目标图像所有像素点的特征，得到新的特征，再与第一目标图像中每个对应像素点的特征加起来。同样地，针对第二目标图像的每个像素点特征，对每个像素点和第一目标图像内所有像素点，计算得到对应的相似性矩阵，以该相似形矩阵为权重，加权第一目标图像所有像素点的特征，得到新的特征，再与第二目标图像中每个对应像素点的特征相加起来。

在操作S230，将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对。

根据本申请的实施例，将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块中，使第一分辨率特征交互图像对和第二分辨率特征交互图像对先进行特征相互融合，再分别进行特征交互，可以分别得到第三分辨率特征图像对和第四分辨率特征图像对。

根据本申请的实施例，第三分辨率特征图像对与第一分辨率特征图像对的分辨率相同，第四分辨率特征图像对与第二分辨率特征图像对的分辨率相同。特征融合可以表征将分辨率相同的两个图像的特征相加得到新的特征。

在操作S240，根据第三分辨率特征图像对和第四分辨率特征图像对，得到第一目标图像和第二目标图像的粗匹配结果。

根据本申请的实施例，粗匹配结果可以表征跨图像的粗匹配矩阵，可以包括第一目标图像中像素点的位置坐标以及像素点在第二目标图像中粗匹配点的位置坐标。

在操作S250，根据粗匹配结果，得到每个匹配点对各自的深度信息。

根据本申请的实施例，匹配点对可以包括第一目标图像中的像素点和第二目标图像中的与第一目标图像中的像素点相匹配的像素点。深度信息可以包括第一目标图像中的像素点的深度信息和第二目标图像中的与第一目标图像中的像素点相匹配的像素点的深度信息。

在操作S260，将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块，得到第一目标图像和第二目标图像的目标匹配结果。

根据本申请的实施例，第五特征图像是对第一目标图像进行特征提取得到的，第六特征图像是对第二目标图像进行特征提取得到的，第五特征图像和第六特征图像可以表征分辨率相同的特征图像，第六特征图像的分辨率大于第一特征图像和第二特征图像各自的分辨率。

根据本申请的实施例，目标匹配结果可以包括第一目标图像中像素点的位置坐标以及像素点在第二目标图像中匹配点的位置坐标，能够准确预测出第一目标图像和第二目标图像之间像素点的一一对应性。

根据本申请的实施例，将得到的第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，利用点引导聚合模块，可以得到第三分辨率特征图像对和第四分辨率特征图像对，能够使大多数像素点避免不相关区域的影响，使得在注意力交互的同时保持局部对应性；将第五特征图像、第六特征图像和根据第三分辨率特征图像对和第四分辨率特征图像对得到的多个深度信息输入自适应尺度放缩模块，利用自适应尺度放缩模块，可以得到第一目标图像和第二目标图像的目标匹配结果，能够实现对第一目标图像和第二目标图像匹配关系的精细调整，使得在面对弱纹理、重复图案区域或是图片间尺度变化较大等挑战的情况下，都能快速高效获取精准、稳定的像素级目标匹配结果，准确预测第一目标图像和第二目标图像之间像素点的一一对应性，在图片间建立局部对应性。

如图3所示，该方法300包括操作S310~操作S380。

根据本申请的实施例，第一分辨率特征交互图像对可以包括第一特征交互图像和第三特征交互图像，第二分辨率特征交互图像对可以包括第二特征交互图像和第四特征交互图像。第一分辨率特征交互图像对的分辨率小于第二分辨率特征交互图像对的分辨率。

在操作S310，对第一特征交互图像和下采样后的第二特征交互图像进行特征融合，得到第一特征融合图像。

根据本申请的实施例，对第二特征交互图像进行下采样，使得第二特征交互图像的分辨率与第一特征交互图像的分辨率相同，再进行特征融合，将下采样后的第二特征交互图像中的特征加到第一特征交互图像中，可以得到第一特征融合图像。

在操作S320，对第三特征交互图像和下采样后的第四特征交互图像进行特征融合，得到第三特征融合图像。

根据本申请的实施例，对第四特征交互图像进行下采样，使得第四特征交互图像的分辨率与第三特征交互图像的分辨率相同，再进行特征融合，将下采样后的第四特征交互图像中的特征加到第三特征交互图像中，可以得到第三特征融合图像。

在操作S330，对第二特征交互图像和上采样后的第一特征交互图像进行特征融合，得到第二特征融合图像。

根据本申请的实施例，对第一特征交互图像进行上采样，使得第一特征交互图像的分辨率与第二特征交互图像的分辨率相同，再进行特征融合，将上采样后的第一特征交互图像中的特征加到第二特征交互图像中，可以得到第二特征融合图像。

在操作S340，对第四特征交互图像和上采样后的第三特征交互图像进行特征融合，得到第四特征融合图像。

根据本申请的实施例，对第三特征交互图像进行上采样，使得第三特征交互图像的分辨率与第四特征交互图像的分辨率相同，再进行特征融合，将上采样后的第三特征交互图像中的特征加到第四特征交互图像中，可以得到第四特征融合图像。

根据本申请的实施例，以分辨率为1/32和1/8的图像为例，对同一图像的不同分辨率进行融合。将同一图像的1/32分辨率下的特征F^1/32与1/8分辨率下的特征F^1/8进行相互融合，可以表示为如下公式（1）和（2）。

（1）

（2）

其中，

和/>

可以表征融合后的特征，Down(·)和Up(·)分别可以表示下采样和上采样。

根据本申请的实施例，在第一分辨率特征交互图像对的分辨率为1/32，第二分辨率特征交互图像对的分辨率为1/8的情况下，可以通过公式（1）执行上述操作S310和操作S320，可以通过公式（2）执行上述操作S330和操作S340。

在操作S350，利用交叉注意力机制对第一分辨率特征融合图像对进行特征交互，得到新的第一特征交互图像和新的第三特征交互图像。

根据本申请的实施例，第一分辨率特征融合图像对可以包括第一特征融合图像和第三特征融合图像。

在操作S360，利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像。

根据本申请的实施例，第二分辨率特征融合图像可以包括第二特征融合图像和第四特征融合图像。

根据本申请的实施例，在第一分辨率特征交互图像对的分辨率为1/32，第二分辨率特征交互图像对的分辨率为1/8的情况下，

可以通过一般注意力机制聚合跨图像的特征，/>

可以通过点引导注意力机制聚合跨图像的特征。

在操作S370，判断循环轮次是否满足预设条件。

根据本申请的实施例，在循环轮次满足预设条件的情况下，执行操作S380；在循环轮次不满足预设条件的情况下，执行操作S310~操作S360。

在操作S380，将在循环轮次满足预设条件的情况下得到的特征交互后的第一分辨率特征融合图像对和第二分辨率特征融合图像对分别确定为第三分辨率特征图像对和第四分辨率特征图像对。

根据本申请的实施例，预设条件可以表征循环次数，在循环次数为4次的情况下，使得在达到较好效果的同时处理时间尽可能的少。

根据本申请的实施例，将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，利用点引导聚合模块，可以得到第三分辨率特征图像对和第四分辨率特征图像对，能够使大多数像素点避免不相关区域的影响，例如噪声和重复区域，使得在注意力交互的同时保持局部对应性，以得到准确的匹配结果。

根据本申请的实施例，利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像，包括：在第二特征融合图像作为参考图像，第四特征融合图像作为源图像的情况下，利用点引导注意力机制对参考图像和源图像进行特征交互，得到第一参考图像，其中，第一参考图像表征新的第二特征交互图像；在第四特征融合图像作为参考图像，第二特征融合图像作为源图像的情况下，利用点引导注意力机制对参考图像和源图像进行特征交互，得到第二参考图像，其中，第二参考图像表征新的第四特征交互图像。

根据本公开的实施例，得到第一参考图像和第二参考图像的步骤是相同的，区别在于不同的特征融合图像作参考图像。

根据本申请的实施例，以第二特征融合图像作为参考图像，利用点引导注意力机制对参考图像和源图像进行特征交互，可以得到新的第二特征交互图像；以第四特征融合图像作为参考图像，利用点引导注意力机制对参考图像和源图像进行特征交互，可以得到新的第四特征交互图像，从而可以得到特征交互后的第二分辨率特征融合图像对，能够使第二特征融合图像和第四特征融合图像中大多数像素点避免不相关区域的影响，使得在注意力交互的同时保持局部对应性。

图4示出了根据本申请实施例的得到第一参考图像的流程图。

如图4所示，该方法400包括操作S410~操作S480。

在操作S410，对参考图像和源图像进行匹配，得到跨图像的匹配矩阵。

根据本申请的实施例，例如，先将参考图像和源图像展平成HW×C的特征图，再与把其中一个特征图转置得到C×HW的特征图相乘，可以得到一个HW×HW的匹配矩阵，其中，H可以表示特征图的高，W可以表示特征图的宽，C可以表示特征图的深度维度。

在操作S420，针对参考图像中的每个第一目标像素点，确定以第一目标像素点为中心的第一目标区域。

根据本申请的实施例，对于参考图像中的每个第一目标像素点p，可以确定以第一目标像素点p为中心的l×l区域为第一目标区域。

在操作S430，确定第一目标区域中的每个第二目标像素点的相似度得分和置信度分数。

根据本申请的实施例，第一目标区域中的第二目标像素点为除第一目标像素点外的像素点，相似度得分可以表征第二目标像素点与第一目标像素点之间的相似度，置信度分数可以表征第二目标像素点与源图像中的第三目标像素点之间的相似度，第三目标像素点是基于匹配矩阵确定的。

根据本申请的实施例，对于参考图像中每个第一目标像素点p，首先计算第一目标像素点p周围l×l区域（不包括p点）中像素点之间的相似度得分S_sim(p)。相似度得分计算方式可以表示为如下公式（3）。

（3）

其中，

可以表示内积，N(p)可以表示第一目标区域中的第二目标像素点的像素集，p_m可以表示像素集N(p)中的点。

根据本申请的实施例，对于每个

，置信度分数可以表征p_m与源图像上所有像素点之间的最高相似度。源图像中的第三目标像素点可以表征根据匹配矩阵确定的源图像上所有像素点与第二目标像素点之间最高相似度的像素点。置信度分数可以表示为如下公式（4）。

（4）

其中，P_s可以表示对参考图像和源图像进行匹配得到跨图像的匹配矩阵，S_conf(p)可以表示置信度分数。

根据本申请的实施例，将p_m在源图像中的匹配点位置，即第三目标像素点的位置，记为Loc(p_m)。Loc(p_m)的计算方式可以表示为如下公式（5）。

（5）

在操作S440，基于第二目标像素点的相似度得分和置信度分数，确定第二目标像素点的选择分数。

根据本申请的实施例，将第二目标像素点的相似度得分和置信度分数进行点乘，可以得到第二目标像素点的选择分数。

在操作S450，根据多个选择分数，确定第一目标区域中选择分数最高的k个第二目标像素点。

根据本申请的实施例，k为大于0的整数。

根据本申请的实施例，根据上述公式（4）和公式（5），选择第一目标像素点p和前k个点Topk(p)可以表示为如下公式（6）。

（6）

其中，Topk(p)可以表示包括第一目标像素点p和k个第二目标像素点的点集，topk可以表征确定第一目标区域中选择分数最高的k个第二目标像素点。

在操作S460，根据匹配矩阵，确定源图像中的k个第二目标像素点和第一目标像素点各自对应的斑点区域，得到k+1个斑点区域。

根据本申请的实施例，点集Topk(p)中的像素点在源图像上的匹配点可以用作种子点Seed(p)，可以表示为如下公式（7）。

（7）

其中，q可以表示点集Topk(p)中的点，Loc(q)可以表示根据匹配矩阵确定的像素点q在源图像上的位置。

根据本申请的实施例，在I_src源图像上扩展以这些种子点Seed(p)为中心的l×l区域，这些区域可以表示与第一目标像素点p在源图像上对应的斑点区域。

在操作S470，利用交叉注意力机制对第一目标像素点和与第一目标像素点对应的k+1个斑点区域进行特征交互，得到参考子图像。

在操作S480，基于多个参考子图像，得到第一参考图像。

根据本申请的实施例，针对参考图像中的每个第一目标像素点，都可以得到各自对应的参考子图像，因此，基于多个参考子图像，可以得到第一参考图像。

根据本申请的实施例，利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，可以得到新的第二特征交互图像和新的第四特征交互图像，能够使大多数像素点避免不相关区域的影响，例如噪声和重复区域，使得在注意力交互的同时保持局部对应性，以得到准确的匹配结果。

根据本公开的实施例，得到第一参考图像和第二参考图像的步骤是相同的，区别在于不同的特征融合图像作参考图像。在第四特征融合图像作为参考图像，第二特征融合图像作为源图像的情况下，执行操作S410~操作S470，可以得到第二参考图像。

如图5所示，为Spot-Guided Attention（点引导注意力机制）的结构示意图。如图5所示，以参考图像上的一个像素点为例，通过点引导注意力机制，得到对应的参考子图像，其中，图5中该点引导注意力机制500可以包括参考图像（Reference）510、源图像（Source）520、匹配矩阵（Matching Matrix）530、交叉注意力机制（Cross Attention）540和参考子图像550。

根据本申请的实施例，对参考图像510和源图像520进行Matching（匹配）操作，可以得到跨图像的匹配矩阵530。

根据本申请的实施例，对于参考图像510上的一个第一目标像素点p（即511），可以确定以第一目标像素点p（即511）为中心的l×l区域为第一目标区域510_1，例如，可以确定以第一目标像素点p（即511）为中心的3×3区域为第一目标区域510_1。并确定第一目标区域510_1中的每个第二目标像素点的相似度得分Sim.Scroce和置信度分数Conf.Scroce，其中，第一目标区域510_1中的第二目标像素点为除第一目标像素点外的像素点，相似度得分可以表征第二目标像素点与第一目标像素点之间的相似度，置信度分数可以表征根据匹配矩阵确定的第二目标像素点与源图像中所有像素点之间的最高相似度。再将第二目标像素点的相似度得分和置信度分数进行点乘（Element-wise Multiplication），可以得到第二目标像素点的选择分数Sel.Scroce。

根据多个选择分数，通过topk（取分数最高的k个点）操作，可以确定第一目标区域中选择分数最高的k个第二目标像素点，其中，k为大于0的整数。例如，在k为3的情况下，可以确定第一目标区域中选择分数最高的3个第二目标像素点，包括第二目标像素点512、513和514。

根据匹配矩阵530，对选择的k个第二目标像素点，进行select spot areas（选择斑点区域）操作，可以确定源图像520中的k个第二目标像素点和第一目标像素点各自对应的斑点区域，得到k+1个斑点区域。例如，在k为3的情况下，可以通过匹配矩阵530确定第二目标像素点512在源图像520中对应的匹配点522和斑点区域522_1；可以通过匹配矩阵530确定第二目标像素点513在源图像520中对应的匹配点523和斑点区域523_1；可以通过匹配矩阵530确定第二目标像素点514在源图像520中对应的匹配点524和斑点区域524_1；可以通过匹配矩阵530确定第一目标像素点511在源图像520中对应的匹配点521和斑点区域521_1。

根据本申请的实施例，利用交叉注意力机制540对第一目标像素点511和与第一目标像素点对应的k+1个斑点区域进行特征交互，可以得到参考子图像550。

根据本申请的实施例，根据第三分辨率特征图像对和第四分辨率特征图像对，得到第一目标图像和第二目标图像的粗匹配结果，包括：对第三分辨率特征图像对进行上采样，得到与第四分辨率特征图像对分辨率相同的特征图像对；对得到的特征图像对和第四分辨率特征图像对进行特征融合，得到特征融合后的第四分辨率特征图像对；对特征融合后的第四分辨率特征图像对中的第二特征图像和第四特征图像进行匹配，得到粗匹配结果。

根据本申请的实施例，第三分辨率特征图像对可以包括第一特征子图像和第三特征子图像，第四分辨率特征图像对可以包括第二特征子图像和第四特征子图像，其中，第三分辨率特征图像对可以表征特征交互后的第一分辨率特征融合图像对，第四分辨率特征图像对可以表征特征交互后的第二分辨率特征融合图像对。

根据本申请的实施例，将第一特征子图像经过上采样得到与第二特征子图像的分辨率相同的特征图像，再将上采样后的第一特征子图像的特征加到第二特征子图像中，可以得到新的第二特征子图像；将第三特征子图像经过上采样得到与第四特征子图像的分辨率相同的特征图像，再将上采样后的第三特征子图像的特征加到第四特征子图像中，可以得到新的第四特征子图像。

根据本申请的实施例，对新的第二特征子图像和新的第四特征子图像进行匹配，可以得到粗匹配结果。

根据本申请的实施例，以分辨率为1/32和1/8的图像为例，对同一图像的不同分辨率进行融合。可以通过上述公式（2），将分辨率为 1/32的第一特征子图像和第三特征子图像的特征分别融合到分辨率为1/8的第二特征子图像和第四特征子图像中。

根据本申请的实施例，将第三分辨率特征图像对中的特征与第四分辨率特征图像对中的特征进行融合，并对特征融合后的第四分辨率特征图像对中的第二特征图像和第四特征图像进行匹配，可以得到粗匹配结果，用于后续得到匹配点的深度信息。

根据本申请的实施例，根据粗匹配结果，得到每个匹配点对各自的深度信息，包括：根据粗匹配结果，利用随机样本一致性算法得到第一目标图像和第二目标图像之间的相对位姿；根据粗匹配结果中匹配点对各自的位置坐标和相对位姿，得到每个匹配点对各自的深度信息。

根据本申请的实施例，匹配点对可以包括第一目标图像中的像素点和第二目标图像中的与第一目标图像中的像素点相匹配的像素点。

根据本申请的实施例，利用粗匹配结果，可以通过RANSAC算法（随机样本一致性算法）获得第一目标图像和第二目标图像的相对位姿{R，T}，其中，R可以表示旋转量，T可以表示平移量，T具有尺度比例不确定性，即T_real=αT其中，α可以表示比例因子，T_real可以表示真实的平移量。

根据本申请的实施例，给定粗匹配结果中任意一对匹配点的图像坐标{x_i，x_j}，它们满足的等式可以表示为如下公式（8）。

（8）

其中，d_i和d_j可以分别表示x_i和x_j的深度值，i可以表示在第一目标图像上像素点，x_i可以表示像素点在第一目标图像上的位置，j可以表示在第二目标图像上像素点，x_j可以表示在第二目标图像中与第一目标图像中的像素点相匹配的像素点的位置，K_i和K_j可以分别表示获取第一目标图像和第二目标图像的相机内在函数。

根据本申请的实施例，令

和/>

，可以得到如下公式（9）。

（9）

根据本申请的实施例，对公式（9）进行推导，可以得到如下公式（10）和公式（11）。

（10）

（11）

其中，

可以表示外积，/>

可以表示两个向量之间的元素划分，mean(·)可以表征向量每个分量的标量平均值，/>

可以表示第一目标图像中像素点的深度信息，/>

可以表示第二目标图像中像素点的深度信息。

根据本申请的实施例，根据上述公式（11），就可以得到尺度不确定的x_i和x_j的深度信息。

根据本申请的实施例，根据粗匹配结果，可以得到第一目标图像和第二目标图像的相对位姿以及匹配点对各自的位置坐标，从而可以得到每个匹配点对各自的深度信息。

图6示出了根据本申请实施例的得到目标结果的流程图。

如图6所示，该方法600包括操作S610~操作S620。

在操作S610，根据每个匹配点对各自的深度信息和第二目标区域，确定第六特征图像中与第二目标区域对应的第三目标区域。

根据本申请的实施例，第二目标区域是根据匹配点在第五特征图像中确定的。第五特征图像是对第一目标图像进行特征提取得到的，第六特征图像是对第二目标图像进行特征提取得到的，第五特征图像和第六特征图像表征分辨率相同的特征图像，第六特征图像的分辨率大于第一特征图像和第二特征图像各自的分辨率。

根据本申请的实施例，以一对匹配点对为例，在第一特征图像的分辨率为1/32，第二特征图像的分辨率为1/8，第五特征图像的分辨率为1/2的情况下，分辨率为1/32对应到分辨率为1/2，就是一个5×5的区域，因此，在第五特征图像中可以确定以像素点为中心的5×5区域为第二目标区域。

根据本申请的实施例，根据匹配点对中各自的深度信息，可以得到一个深度值比值，根据该比值以及第二目标区域的区域大小，可以确定第六特征图像中与第二目标区域对应的第三目标区域，其中，第三目标区域是以匹配点对中另一像素点为中心的区域。

在操作S620，利用自注意力机制和交叉注意力机制对每个匹配点对的第二目标区域和第三目标区域进行特征交互，得到第一目标图像和第二目标图像的目标匹配结果。

根据本申请的实施例，自注意力机制可以包括一般注意力机制和线性自注意力机制。可以对得到的每个匹配点对的第二目标区域和第三目标区域先利用线性自注意力机制，再利用线性交叉注意力机制进行特征交互，从而可以得到第一目标图像和第二目标图像的目标匹配结果。

根据本申请的实施例，将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块，可以得到第一目标图像和第二目标图像的目标匹配结果，其中，为了更好地处理图像尺度大规模变化，通过计算得到的深度信息在自适应尺度放缩模块中，即精细阶段，自适应调整第三目标区域的网格大小，很大程度上解决了局部图像匹配任务中局部不一致和尺度变化的问题，准确、高效的实现了两张图片像素之间一一对应性的预测，准确地在图片间建立局部对应关系。

如图7所示，为自适应放缩策略的示意图，其中，x_i和x_j可以表示粗匹配结果中的一对匹配点的位置信息，X可以表示匹配点对在同一画面上对应的点，d_i和d_j可以分别表示x_i和x_j对应的深度值，即C_Ref和C_Src与X的距离，C_Ref可以表示从某一视角拍摄同一画面得到第一目标图像的相机的光心，C_Src可以表示从令一视角拍摄同一画面得到第二目标图像的相机的光心。

根据本申请的实施例，在第五特征图像（左图）中裁剪一个以x_i为中心的s_i×s_i区域，其中，s_i是预先设定的。当尺度变化太大时，在第六特征图像（右图）中对应的正确匹配点

可能会超出以x_j为中心的s_i×s_i区域。因为，所有东西在远处看起来很小，反之很大，那么，在第六特征图像中裁剪网格区域的s_j的大小应该满足如下公式（12）。

（12）

根据本申请的实施例，根据上述公式（12），可以根据尺度变化自适应地裁剪不同尺寸的网格，可以得到像素点x_i的最终匹配位置

。

如图8所示，基于点引导注意力机制的自适应局部图像特征匹配方法的示意图800主要包括特征提取模块810、点引导聚合模块（Spot-Guided Aggregation Module）820、粗匹配结果（Mactching Matrix）830和自适应尺度放缩模块（Adaptive Scaling Module）840。

根据本申请的实施例，将第一目标图像811和第二目标图像812输入特征提取模块810中，可以经过CNN Backbone对图像进行特征提取，也可以通过FPN（Feature PyramidNetwork，特征金字塔网络）对图像进行特征提取，得到第一目标图像811的第一特征图像811_1和第二特征图像811_2以及第二目标图像812的第三特征图像812_1和第四特征图像812_2，其中，第一特征图像811_1和第三特征图像812_1的尺度为

，分辨率为1/32，第二特征图像811_2和第四特征图像812_2的尺度为/>

，分辨率为1/8。

根据本申请的实施例，可以利用一般交叉注意力机制（Cross Attention）813对包括第一特征图像811_1和第三特征图像812_1的第一分辨率特征图像对进行特征交互，得到包括第一特征交互图像811_3和第三特征交互图像812_3的第一分辨率特征交互图像对。可以利用线性交叉注意力机制（Cross Attention (Linear)）814对包括第二特征图像811_2和第四特征图像812_2的第二分辨率特征图像对进行特征交互，得到包括第二特征交互图像811_4和第四特征交互图像812_4的第二分辨率特征交互图像对。

根据本申请的实施例，将包括第一特征交互图像811_3和第三特征交互图像812_3的第一分辨率特征交互图像对以及包括第二特征交互图像811_4和第四特征交互图像812_4的第二分辨率特征交互图像对输入点引导聚合模块820中，令预设条件为循环次数为4次，执行上述操作S310~操作S380，将第一分辨率特征交互图像对和第二分辨率特征交互图像对经过上采样（Up-sampling&Fuse）或者下采样（Down-sampling&Fuse）进行相互融合，并分别经过交叉注意力机制（Cross Attention）821和点引导注意力机制（Spot-GuidedAttention）822进行特征交互可以得到包括第一特征子图像811_5和第三特征子图像812_5的第三分辨率特征图像对和包括第二特征子图像811_6和第四特征子图像812_6的第四分辨率特征图像对。

根据本申请的实施例，将第一特征子图像811_5经过上采样得到与第二特征子图像811_6的分辨率相同的特征图像，再将上采样后的第一特征子图像811_5的特征加到第二特征子图像811_6中，可以得到新的第二特征子图像；将第三特征子图像812_5经过上采样得到与第四特征子图像812_6的分辨率相同的特征图像，再将上采样后的第三特征子图像812_5的特征加到第四特征子图像812_6中，可以得到新的第四特征子图像。

根据本申请的实施例，对新的第二特征子图像和新的第四特征子图像进行匹配，可以得到粗匹配结果830。根据粗匹配结果830，利用随机样本一致性算法可以得到第一目标图像811和第二目标图像812之间的相对位姿，并根据粗匹配结果830中匹配点对各自的位置坐标和相对位姿，得到每个匹配点对各自的深度信息，即第一目标图像811中像素点对应的深度信息可以表示为深度图831，第二目标图像812中像素点对应的深度信息可以表示为深度图832，其中，粗匹配结果830可以表征

的匹配矩阵，粗匹配结果830中一对匹配点 (i，j)中的i可以表示在第一目标图像中的像素点，j可以表示在第二目标图像中与在第一目标图像中的像素点对应的像素点，i对应的深度值可以表示为深度图（DepthMaps）831中的d_i，j对应的深度值可以表示为深度图832中的d_j。

根据本申请的实施例，将第一目标图像811和第二目标图像812输入特征提取模块810中进行特征提取可以分别得到分辨率为1/2的第五特征图像811_3和第六特征图像812_3。以一对匹配点为例，根据粗匹配结果830，可以得到该对匹配点(i，j)在第一目标图像811和第二目标图像812中的位置信息 (x_i，x_j)，再根据深度图831和深度图832，可以确定与该对匹配点对应的深度信息d_i和d_j，根据该对匹配点在第一目标图像811中的位置信息，在第五特征图像811_3中找到该像素点，并在第五特征图像811_3中裁剪一个以x_i为中心的s_i×s_i区域为第二目标区域841，其中，s_i是预先设定的。

根据本申请的实施例，根据与该对匹配点对应的深度信息d_i和d_j以及s_i的大小，根据公式（12），可以确定第六特征图像812_3中以x_j为中心的s_j×s_j区域为第三目标区域842。

根据本申请的实施例，将第二目标区域841和第三目标区域842，利用线性自注意力机制和线性交叉注意力机制（Self&Cross Attention（Linear））843进行特征交互，从而可以确定第二目标区域841中x_i在第三目标区域842中的最终匹配位置，其中，844 可以表示第二目标区域841 经过线性自注意力机制和线性交叉注意力机制处理后的区域，845 可以表示第三目标区域842 经过线性自注意力机制和线性交叉注意力机制处理后的区域，区域844 中的点可以表示x_i的位置，区域845 中点的位置可以表示x_i在区域845 中的最终匹配位置。

根据本申请的实施例，在训练基于点引导注意力机制的自适应局部图像匹配装置的过程中，损失函数主要包括点匹配损失、粗匹配损失和精细匹配损失。

根据本申请的实施例，点匹配损失可以表征在点引导注意力机制822期间监督匹配矩阵的交叉熵损失，可以表示为如下公式（13）。

（13）

其中，M_c ^gt可以表示粗分辨率下的地面真值匹配。

根据本申请的实施例，粗匹配损失可以表征监督粗匹配结果830的交叉熵损失，可以表示为如下公式（14）。

（14）

其中，P_c可以表示粗匹配结果矩阵。

根据本申请的实施例，精细匹配损失L_f是L₂损失，其中，L₂可以表征估计出来的匹配点的横坐标和纵坐标与正确匹配点的横坐标和纵坐标的差值，差值越小可以表示估计出来的匹配点越靠近正确匹配点。

根据本申请的实施例，训练过程中完整的损失函数L_total可以表示为如下公式（15）。

（15）

根据本申请的实施例，可以通过损失函数L_total来约束本申请的网络训练过程，使得在应用过程中得到的目标匹配结果更为准确。

根据本申请的实施例，本发明可被广泛应用于虚拟现实和增强现实等领域的系统中，在两张图像中建立像素级的精确对应。在实施上，可以以软件的方式安装于前端设备、机器人和AR（Augmented Reality，增强现实）/VR（Virtual Reality，虚拟现实）设备上，提供实时的图像匹配预测，作为后续的图像拼接，三维重建，同步定位与建图，变化检测，定位导航等许多具体大型视觉任务的首要步骤；也可以安装于后台服务器中，提供大批量的图片像素之间的对应结果，可以为图像检索等任务提供基础支撑。

基于上述基于点引导注意力机制的自适应局部图像特征匹配方法，本申请还提供了一种基于点引导注意力机制的自适应局部图像特征匹配装置。以下将结合图9对该装置进行详细描述。

如图9所示，该实施例的基于点引导注意力机制的自适应局部图像特征匹配装置900包括提取模块910、第一获得模块920、第一输入模块930、第二获得模块940、第三获得模块950和第二输入模块960。

提取模块910用于提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像，其中，第一目标图像和第二目标图像表征为不同视角拍摄同一画面的两个图像。在一实施例中，提取模块910可以用于执行前文描述的操作S210，在此不再赘述。

第一获得模块920用于利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，其中，第一分辨率特征图像对包括分辨率相同的第一特征图像和第三特征图像，第二分辨率特征图像对包括分辨率相同的第二特征图像和第四特征图像。在一实施例中，第一获得模块920可以用于执行前文描述的操作S220，在此不再赘述。

第一输入模块930用于将第一分辨率特征交互图像对和第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对。在一实施例中，第一输入模块930可以用于执行前文描述的操作S230，在此不再赘述。

第二获得模块940用于根据第三分辨率特征图像对和第四分辨率特征图像对，得到第一目标图像和第二目标图像的粗匹配结果。在一实施例中，第二获得模块940可以用于执行前文描述的操作S240，在此不再赘述。

第三获得模块950用于根据粗匹配结果，得到每个匹配点对各自的深度信息，其中，匹配点对包括第一目标图像中的像素点和第二目标图像中的与第一目标图像中的像素点相匹配的像素点。在一实施例中，第三获得模块950可以用于执行前文描述的操作S250，在此不再赘述。

第二输入模块960用于将第五特征图像、第六特征图像和多个深度信息输入自适应尺度放缩模块，得到第一目标图像和第二目标图像的目标匹配结果，其中，第五特征图像是对第一目标图像进行特征提取得到的，第六特征图像是对第二目标图像进行特征提取得到的，第五特征图像和第六特征图像表征分辨率相同的特征图像，第六特征图像的分辨率大于第一特征图像和第二特征图像各自的分辨率。在一实施例中，第二输入模块960可以用于执行前文描述的操作S260，在此不再赘述。

根据本申请的实施例，第一输入模块930包括第一融合子模块、第二融合子模块、第三融合子模块、第四融合子模块、第一获得子模块、第二获得子模块和第一确定子模块。

第一融合子模块，用于在确定循环轮次不满足预设条件的情况下，对第一特征交互图像和下采样后的第二特征交互图像进行特征融合，得到第一特征融合图像。

第二融合子模块，用于对第三特征交互图像和下采样后的第四特征交互图像进行特征融合，得到第三特征融合图像。

第三融合子模块，用于对第二特征交互图像和上采样后的第一特征交互图像进行特征融合，得到第二特征融合图像。

第四融合子模块，用于对第四特征交互图像和上采样后的第三特征交互图像进行特征融合，得到第四特征融合图像。

第一获得子模块，用于利用交叉注意力机制对第一分辨率特征融合图像对进行特征交互，得到新的第一特征交互图像和新的第三特征交互图像，其中，第一分辨率特征融合图像对包括第一特征融合图像和第三特征融合图像。

第二获得子模块，用于利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像，其中，第二分辨率特征融合图像包括第二特征融合图像和第四特征融合图像。

第一确定子模块，用于将在循环轮次满足预设条件的情况下得到的特征交互后的第一分辨率特征融合图像对和第二分辨率特征融合图像对分别确定为第三分辨率特征图像对和第四分辨率特征图像对。

根据本申请的实施例，第二获得子模块包括第一获得单元和第二获得单元。

第一获得单元，用于在第二特征融合图像作为参考图像，第四特征融合图像作为源图像的情况下，利用点引导注意力机制对参考图像和源图像进行特征交互，得到第一参考图像，其中，第一参考图像表征新的第二特征交互图像。

第二获得单元，用于在第四特征融合图像作为参考图像，第二特征融合图像作为源图像的情况下，利用点引导注意力机制对参考图像和源图像进行特征交互，得到第二参考图像，其中，第二参考图像表征新的第四特征交互图像。

根据本申请的实施例，第一获得单元和第二获得单元均包括匹配子单元、第一确定子单元、第二确定子单元、第三确定子单元、第四确定子单元、第五确定子单元、第一获得子单元和第二获得子单元。

匹配子单元，用于对参考图像和源图像进行匹配，得到跨图像的匹配矩阵。

第一确定子单元，用于针对参考图像中的每个第一目标像素点，确定以第一目标像素点为中心的第一目标区域。

第二确定子单元，用于确定第一目标区域中的每个第二目标像素点的相似度得分和置信度分数，其中，第一目标区域中的第二目标像素点为除第一目标像素点外的像素点，相似度得分表征第二目标像素点与第一目标像素点之间的相似度，置信度分数表征第二目标像素点与源图像中的第三目标像素点之间的相似度，第三目标像素点是基于匹配矩阵确定的。

第三确定子单元，用于基于第二目标像素点的相似度得分和置信度分数，确定第二目标像素点的选择分数。

第四确定子单元，用于根据多个选择分数，确定第一目标区域中选择分数最高的k个第二目标像素点，其中，k为大于0的整数。

第五确定子单元，用于根据匹配矩阵，确定源图像中的k个第二目标像素点和第一目标像素点各自对应的斑点区域，得到k+1个斑点区域。

第一获得子单元，用于利用交叉注意力机制对第一目标像素点和与第一目标像素点对应的k+1个斑点区域进行特征交互，得到参考子图像。

第二获得子单元，用于基于多个参考子图像，得到第一参考图像。

根据本申请的实施例，第二获得模块940包括第三获得子模块、第五融合子模块和第四获得子模块。

第三获得子模块，用于对第三分辨率特征图像对进行上采样，得到与第四分辨率特征图像对分辨率相同的特征图像对。

第五融合子模块，用于对得到的特征图像对和第四分辨率特征图像对进行特征融合，得到特征融合后的第四分辨率特征图像对。

第四获得子模块，用于对特征融合后的第四分辨率特征图像对中的第二特征图像和第四特征图像进行匹配，得到粗匹配结果。

根据本申请的实施例，第三获得模块950包括第五获得子模块和第六获得子模块。

第五获得子模块，用于根据粗匹配结果，利用随机样本一致性算法得到第一目标图像和第二目标图像之间的相对位姿。

第六获得子模块，用于根据粗匹配结果中匹配点对各自的位置坐标和相对位姿，得到每个匹配点对各自的深度信息。

根据本申请的实施例，第二输入模块960包括第二确定子模块和第七获得子模块。

第二确定子模块，用于根据每个匹配点对各自的深度信息和第二目标区域，确定第六特征图像中与第二目标区域对应的第三目标区域，其中，第二目标区域是根据匹配点在第五特征图像中确定的。

第七获得子模块，用于利用自注意力机制和交叉注意力机制对每个匹配点对的第二目标区域和第三目标区域进行特征交互，得到第一目标图像和第二目标图像的目标匹配结果。

根据本申请的实施例，提取模块910、第一获得模块920、第一输入模块930、第二获得模块940、第三获得模块950和第二输入模块960中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本申请的实施例，提取模块910、第一获得模块920、第一输入模块930、第二获得模块940、第三获得模块950和第二输入模块960中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列（FPGA）、可编程逻辑阵列（PLA）、片上系统、基板上的系统、封装上的系统、专用集成电路（ASIC），或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，提取模块910、第一获得模块920、第一输入模块930、第二获得模块940、第三获得模块950和第二输入模块960中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

如图10所示，根据本申请实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器（ROM）1002中的程序或者从存储部分1008加载到随机访问存储器（RAM）1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器（例如CPU）、指令集处理器和/或相关芯片组和/或专用微处理器（例如，专用集成电路（ASIC））等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本申请实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本申请实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本申请实施例的方法流程的各种操作。

根据本申请的实施例，电子设备1000还可以包括输入/输出（I/O）接口1005，输入/输出（I/O）接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管（CRT）、液晶显示器（LCD）等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本申请实施例的方法。

根据本申请的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本申请的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本申请的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本申请实施例所提供的物品推荐方法。

在该计算机程序被处理器1001执行时执行本申请实施例的系统/装置中限定的上述功能。根据本申请的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本申请实施例的系统中限定的上述功能。根据本申请的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本申请的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本申请的范围。

以上对本申请的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本申请的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本申请的范围由所附权利要求及其等同物限定。不脱离本申请的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本申请的范围之内。

Claims

1.一种基于点引导注意力机制的自适应局部图像特征匹配方法，其特征在于，包括：

提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像，其中，所述第一目标图像和所述第二目标图像为从不同视角拍摄同一画面的两个图像；

利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，其中，所述第一分辨率特征图像对包括分辨率相同的所述第一特征图像和所述第三特征图像，所述第二分辨率特征图像对包括分辨率相同的所述第二特征图像和所述第四特征图像；

将所述第一分辨率特征交互图像对和所述第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对；

根据所述第三分辨率特征图像对和所述第四分辨率特征图像对，得到所述第一目标图像和所述第二目标图像的粗匹配结果；

根据所述粗匹配结果，得到每个匹配点对各自的深度信息，其中，所述匹配点对包括所述第一目标图像中的像素点和所述第二目标图像中的与所述第一目标图像中的所述像素点相匹配的像素点；以及

将第五特征图像、第六特征图像和多个所述深度信息输入自适应尺度放缩模块，得到所述第一目标图像和所述第二目标图像的目标匹配结果，其中，所述第五特征图像是对所述第一目标图像进行特征提取得到的，所述第六特征图像是对所述第二目标图像进行特征提取得到的，所述第五特征图像和第六特征图像表征分辨率相同的特征图像，所述第六特征图像的分辨率大于所述第一特征图像和所述第二特征图像各自的分辨率。

2.根据权利要求1所述的方法，其特征在于，所述第一分辨率特征交互图像对包括第一特征交互图像和第三特征交互图像，所述第二分辨率特征交互图像对包括第二特征交互图像和第四特征交互图像，

所述将所述第一分辨率特征交互图像对和所述第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对，包括重复执行以下操作直至满足预设条件：

在确定循环轮次不满足所述预设条件的情况下，

对所述第一特征交互图像和下采样后的第二特征交互图像进行特征融合，得到第一特征融合图像；

对所述第三特征交互图像和下采样后的第四特征交互图像进行特征融合，得到第三特征融合图像；

对所述第二特征交互图像和上采样后的第一特征交互图像进行特征融合，得到第二特征融合图像；

对所述第四特征交互图像和上采样后的第三特征交互图像进行特征融合，得到第四特征融合图像；

利用交叉注意力机制对第一分辨率特征融合图像对进行特征交互，得到新的第一特征交互图像和新的第三特征交互图像，其中，所述第一分辨率特征融合图像对包括所述第一特征融合图像和所述第三特征融合图像；

利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像，其中，所述第二分辨率特征融合图像包括所述第二特征融合图像和所述第四特征融合图像；

将在所述循环轮次满足所述预设条件的情况下得到的特征交互后的第一分辨率特征融合图像对和第二分辨率特征融合图像对分别确定为所述第三分辨率特征图像对和所述第四分辨率特征图像对。

3.根据权利要求2所述的方法，其特征在于，所述利用点引导注意力机制对第二分辨率特征融合图像对进行特征交互，得到新的第二特征交互图像和新的第四特征交互图像，包括：

在所述第二特征融合图像作为参考图像，所述第四特征融合图像作为源图像的情况下，利用点引导注意力机制对所述参考图像和所述源图像进行特征交互，得到第一参考图像，其中，所述第一参考图像表征所述新的第二特征交互图像；

在所述第四特征融合图像作为所述参考图像，所述第二特征融合图像作为源图像的情况下，利用点引导注意力机制对所述参考图像和所述源图像进行特征交互，得到第二参考图像，其中，所述第二参考图像表征所述新的第四特征交互图像。

4.根据权利要求3所述的方法，其特征在于，所述利用点引导注意力机制对所述参考图像和所述源图像进行特征交互，得到第一参考图像，包括：

对所述参考图像和所述源图像进行匹配，得到跨图像的匹配矩阵；

针对所述参考图像中的每个第一目标像素点，确定以所述第一目标像素点为中心的第一目标区域；

确定所述第一目标区域中的每个第二目标像素点的相似度得分和置信度分数，其中，所述第一目标区域中的第二目标像素点为除所述第一目标像素点外的像素点，所述相似度得分表征所述第二目标像素点与所述第一目标像素点之间的相似度，所述置信度分数表征所述第二目标像素点与所述源图像中的第三目标像素点之间的相似度，所述第三目标像素点是基于所述匹配矩阵确定的；

基于所述第二目标像素点的相似度得分和置信度分数，确定所述第二目标像素点的选择分数；

根据多个所述选择分数，确定所述第一目标区域中所述选择分数最高的k个第二目标像素点，其中，k为大于0的整数；

根据所述匹配矩阵，确定所述源图像中的所述k个第二目标像素点和所述第一目标像素点各自对应的斑点区域，得到k+1个斑点区域；

利用交叉注意力机制对所述第一目标像素点和与所述第一目标像素点对应的所述k+1个斑点区域进行特征交互，得到参考子图像；

基于多个所述参考子图像，得到所述第一参考图像。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第三分辨率特征图像对和所述第四分辨率特征图像对，得到所述第一目标图像和所述第二目标图像的粗匹配结果，包括：

对所述第三分辨率特征图像对进行上采样，得到与所述第四分辨率特征图像对分辨率相同的特征图像对；

对得到的所述特征图像对和所述第四分辨率特征图像对进行特征融合，得到特征融合后的第四分辨率特征图像对；

对所述特征融合后的第四分辨率特征图像对中的第二特征图像和第四特征图像进行匹配，得到所述粗匹配结果。

6. 根据权利要求1所述的方法，其特征在于，所述根据所述粗匹配结果，得到每个匹配点对各自的深度信息，包括：

根据所述粗匹配结果，利用随机样本一致性算法得到所述第一目标图像和所述第二目标图像之间的相对位姿；以及

根据所述粗匹配结果中所述匹配点对各自的位置坐标和所述相对位姿，得到每个匹配点对各自的深度信息。

7. 根据权利要求1所述的方法，其特征在于，所述将第五特征图像、第六特征图像和多个所述深度信息输入自适应尺度放缩模块，得到所述第一目标图像和所述第二目标图像的目标匹配结果，包括：

根据每个匹配点对各自的深度信息和第二目标区域，确定所述第六特征图像中与所述第二目标区域对应的第三目标区域，其中，所述第二目标区域是根据匹配点在所述第五特征图像中确定的；以及

利用自注意力机制和交叉注意力机制对每个匹配点对的所述第二目标区域和所述第三目标区域进行特征交互，得到所述第一目标图像和所述第二目标图像的所述目标匹配结果。

8.一种基于点引导注意力机制的自适应局部图像特征匹配装置，包括：

提取模块，用于提取第一目标图像的第一特征图像和第二特征图像以及第二目标图像的第三特征图像和第四特征图像，其中，所述第一目标图像和所述第二目标图像表征为不同视角拍摄同一画面的两个图像；

第一获得模块，用于利用交叉注意力机制对第一分辨率特征图像对和第二分辨率特征图像对分别进行特征交互，得到第一分辨率特征交互图像对和第二分辨率特征交互图像对，其中，所述第一分辨率特征图像对包括分辨率相同的所述第一特征图像和所述第三特征图像，所述第二分辨率特征图像对包括分辨率相同的所述第二特征图像和所述第四特征图像；

第一输入模块，用于将所述第一分辨率特征交互图像对和所述第二分辨率特征交互图像对输入点引导聚合模块，得到第三分辨率特征图像对和第四分辨率特征图像对；

第二获得模块，用于根据所述第三分辨率特征图像对和所述第四分辨率特征图像对，得到所述第一目标图像和所述第二目标图像的粗匹配结果；

第三获得模块，用于根据所述粗匹配结果，得到每个匹配点对各自的深度信息，其中，所述匹配点对包括所述第一目标图像中的像素点和所述第二目标图像中的与所述第一目标图像中的所述像素点相匹配的像素点；以及

第二输入模块，用于将第五特征图像、第六特征图像和多个所述深度信息输入自适应尺度放缩模块，得到所述第一目标图像和所述第二目标图像的目标匹配结果，其中，所述第五特征图像是对所述第一目标图像进行特征提取得到的，所述第六特征图像是对所述第二目标图像进行特征提取得到的，所述第五特征图像和第六特征图像表征分辨率相同的特征图像，所述第六特征图像的分辨率大于所述第一特征图像和所述第二特征图像各自的分辨率。

9.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1~7中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1~7中任一项所述的方法。