CN114998600B

CN114998600B - 图像处理方法、模型的训练方法、装置、设备及介质

Info

Publication number: CN114998600B
Application number: CN202210695220.5A
Authority: CN
Inventors: 王香伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-07-25
Anticipated expiration: 2042-06-17
Also published as: CN114998600A

Abstract

本公开提供了图像处理方法、图神经模型的训练方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实等技术领域，可应用于三维感知、3D视觉等场景。具体实现方案为：对待处理图像进行特征提取，得到多个二维特征点向量；确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量；以及对多个二维特征点向量和多个三维特征点向量进行注意力处理，得到匹配结果，注意力处理依次包括自注意力处理和交叉注意力处理。

Description

图像处理方法、模型的训练方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、增强现实、虚拟现实等技术领域，可应用于三维感知、3D(Dimensions)视觉等场景。具体涉及图像处理方法、图神经模型的训练方法、装置、电子设备、存储介质以及程序产品。

背景技术

随着图像数据量爆炸式增长，海量的数据源以及丰富的数据层次，使得依靠人工来分析和处理这些图像信息变得越来越困难。计算机视觉技术为解放人力提供巨大潜力。计算机视觉是一门研究如何使用电子设备“看”的科学，即，利用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等的科学技术。

发明内容

本公开提供了一种图像处理方法、图神经模型的训练方法、装置、电子设备、存储介质以及程序产品。

根据本公开的一方面，提供了一种图像处理方法，包括：对待处理图像进行特征提取，得到多个二维特征点向量；确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量；以及对上述多个二维特征点向量和上述多个三维特征点向量进行注意力处理，得到匹配结果，其中，上述注意力处理依次包括自注意力处理和交叉注意力处理。

根据本公开的另一方面，提供了一种图神经模型的训练方法，包括：对样本图像进行特征提取，得到多个样本二维特征点向量；确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量；对上述多个样本二维特征点向量和上述多个样本三维特征点向量输入至图神经模型中，得到输出匹配结果，其中，上述图神经模型包括用于进行自注意力处理的自注意力模块和用于进行交叉注意力处理的交叉注意力模块；以及利用上述输出匹配结果和样本匹配结果训练上述图神经模型，得到经训练的图神经模型，其中，上述样本匹配结果为预先标注的，上述样本匹配结果用于表征与上述多个样本二维特征点向量相匹配的多个样本二维特征点、和上述多个样本三维特征点彼此之间的匹配关系。

根据本公开的另一方面，提供了一种图像处理装置，包括：第一提取模块，用于对待处理图像进行特征提取，得到多个二维特征点向量；第一确定模块，用于确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量；以及处理模块，用于对上述多个二维特征点向量和上述多个三维特征点向量进行注意力处理，得到匹配结果，其中，上述注意力处理依次包括自注意力处理和交叉注意力处理。

根据本公开的另一方面，提供了一种图神经模型的训练装置，包括：第二提取模块，用于对样本图像进行特征提取，得到多个样本二维特征点向量；第二确定模块，用于确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量；输出模块，用于对上述多个样本二维特征点向量和上述多个样本三维特征向量输入至图神经模型中，得到输出匹配结果，其中，上述图神经模型包括用于进行自注意力处理的自注意力模块和用于进行交叉注意力处理的交叉注意力模块；以及训练模块，用于利用上述输出匹配结果和样本匹配结果训练上述图神经模型，得到经训练的图神经模型，其中，上述样本匹配结果为预先标注的，上述样本匹配结果用于表征与上述多个样本二维特征点向量相匹配的多个样本二维特征点、和上述多个样本三维特征点彼此之间的匹配关系。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如本公开的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如本公开的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如本公开的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开实施例的可以应用图像处理方法及装置的示例性系统架构；

图2示意性示出了根据本公开实施例的图像处理方法的流程图；

图3示意性示出了根据本公开另一实施例的图像处理方法的流程图；

图4A示意性示出了根据本公开实施例的在三维特征点为观测稳定特征点的情况下，确定三维特征点向量的示意图；

图4B示意性示出了根据本公开实施例的在三维特征点为观测特异特征点的情况下，确定三维特征点向量的示意图；

图5示意性示出了根据本公开实施例的确定匹配结果的流程示意图；

图6示意性示出了根据本公开另一实施例的图神经模型的结构图；

图7示意性示出了根据本公开实施例的图神经模型的训练方法的流程图；

图8示意性示出了根据本公开实施例的图像处理装置的框图；

图9示意性示出了根据本公开实施例的图神经模型的训练装置的框图；以及

图10示意性示出了根据本公开实施例的适于实现图像处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本公开的一方面，提供了一种图像处理方法，包括：对待处理图像进行特征提取，得到多个二维特征点向量；确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量；以及对多个二维特征点向量和多个三维特征点向量进行注意力处理，得到匹配结果，其中，注意力处理依次包括自注意力处理和交叉注意力处理。

在本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

图1示意性示出了根据本公开实施例的可以应用图像处理方法及装置的示例性系统架构。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用图像处理方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的图像处理方法及装置。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的图像处理方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的图像处理装置也可以设置于终端设备101、102、或103中。

或者，本公开实施例所提供的图像处理方法一般也可以由服务器105执行。相应地，本公开实施例所提供的图像处理装置一般可以设置于服务器105中。本公开实施例所提供的图像处理方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的图像处理装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，终端设备101、102、103可以获取待处理图像，然后将待处理图像发送给服务器105，由服务器105对待处理图像进行特征提取，得到多个二维特征点向量；确定三维空间中的多个三维特征点的三维特征向量，得到多个三维特征点向量；对多个二维特征点向量和多个三维特征向量进行注意力处理，得到匹配结果。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群对待处理图像进行分析，并最终得到匹配结果。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

应注意，以下方法中各个操作的序号仅作为该操作的表示以便描述，而不应被看作表示该各个操作的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图2示意性示出了根据本公开实施例的图像处理方法的流程图。

如图2所示，该方法包括操作S210～S230。

在操作S210，对待处理图像进行特征提取，得到多个二维特征点向量。

在操作S220，确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量。

在操作S230，对多个二维特征点向量和多个三维特征点向量进行注意力处理，得到匹配结果。注意力处理依次包括自注意力处理和交叉注意力处理。

根据本公开的实施例，本公开实施例提供的图像处理方法，可以应用于视觉定位场景中。例如，机器人或者自动驾驶车辆，通过摄像采集装置采集待处理图像，利用本公开实施例提供的图像处理方法，将待处理图像中的二维特征点与三维空间例如点云地图中的三维特征点进行匹配，得到匹配结果。基于匹配结果，确定待处理图像中的目标对象的定位结果。

根据本公开的实施例，可以对待处理图像进行特征提取，得到多个二维特征点向量。确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量。可以对多个二维特征点向量和多个三维特征点向量，进行例如依次包括自注意力处理和交叉注意力处理的注意力处理。利用自注意力处理，对多个二维特征点进行关联学习，得到突出匹配特异性的二维特征点。利用自注意力处理，对多个三维特征点进行关联学习，得到突出匹配特异性的三维特征点。利用交叉注意力处理，将突出匹配特异性的二维特征点和突出匹配特异性的三维特征点进行关联学习，能更突出二维特征点和三维特征点之间的相配相似性的匹配结果。该匹配结果能够表征与多个二维特征点向量一一对应的多个二维特征点，和多个三维特征点彼此之间的匹配关系。由此使得经过注意力处理后得到的匹配结果能够平衡二维特征点和三维特征点匹配的效率和性能之间的矛盾，在保证效率的同时，提高匹配精度。

根据本公开的实施例，在操作S230之后，本公开实施例提供的图像处理方法，还可以包括操作：基于匹配结果，确定待处理图像中的二维特征点在三维空间中的位置信息。

根据本公开的实施例，该匹配结果可以为匹配数值，可以设置匹配阈值，将匹配数值大于匹配阈值特征点对，作为匹配成功的特征点对。特征点对可以包括待处理图像中的二维特征点和三维空间的三维特征点。

根据本公开的实施例，基于匹配结果，可以确定待处理图像中的目标对象的二维特征点，在三维空间中的目标三维特征点。基于三维空间中的目标三维特征点的位置信息，确定待处理图像中的二维特征点在三维空间中的位置信息，进而确定待处理图像中目标对象的在三维空间中的位置信息。由此确定待处理图像中的目标对象的定位结果。

根据本公开的其他实施例，确定待处理图像中二维特征点与三维空间中三维特征点之间的匹配关系，还可以采用2D-2D间接匹配的方法或者采用2D-3D直接匹配的方法。2D-2D间接匹配的方法可以包括：通过待处理图像的二维特征点与用于构建三维空间模型例如点云地图的多个基准图像的多个二维基准特征点之间的匹配关系，来确定待处理图像与三维空间中的三维特征点之间的匹配关系。在存储点云地图时，可以同时存储每张基准图像的基准特征点，以及基准特征点与三维特征点之间的对应关系。在匹配时，对待处理图像与基准图像通过二维特征点进行逐一匹配，确定待处理图像中的二维特征点与基准图像中的二维基准特征点之间的匹配关系，根据二维基准特征点与三维特征点的对应关系、以及待处理图像中的二维特征点与基准图像中的二维基准特征点之间的匹配关系来确定待处理图像中的二维特征点与三维特征点之间的匹配关系。2D-3D直接匹配方法可以包括：将待处理图像的二维特征点的描述符与三维特征点的描述符队列进行匹配，得到匹配关系。

根据本公开的实施例，与采用2D-2D间接匹配的方法或者采用2D-3D直接匹配的方法相比，利用本公开实施例提供的图像处理方法，可以兼顾匹配精度和匹配效率。进而基于匹配结果，应用于视觉定位场景中，能够提高定位结果的召回率、准确率以及精度。

根据本公开的另一实施例，如图2所示提供的操作S220，确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量，包括如下操作：确定多个三维特征点的观测稳定性，得到多个观测稳定性结果。基于多个观测稳定性结果，确定多个三维特征点的三维特征点向量，得到多个三维特征点向量。

根据本公开实施例的实施例，基于多个观测稳定性结果来确定多个三维特征点的三维特征点向量，得到多个三维特征点向量。能够使得三维特征点向量的确定与观测稳定性结果相匹配，进而使得得到的三维特征点向量精准，且有针对性。

图3示意性示出了根据本公开另一实施例的图像处理方法的流程图。

如图3所示，该方法包括操作S310～S370。

在操作S310，对待处理图像进行特征提取，得到多个二维特征点向量。

在操作S320，确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量。

在操作S330，确定多个三维特征点的观测稳定性，得到多个观测稳定性结果。

在操作S340，针对多个三维特征点中的每个三维特征点，确定三维特征点的观测稳定性结果是否表征三维特征点为观测稳定特征点。在确定观测稳定性结果表征三维特征点为观测稳定特征点的情况下，执行操作S350。在确定观测稳定性结果表征三维特征点不为观测稳定特征点，例如表征三维特征点为观测特异特征点的情况下，执行操作S360。

在操作S350，按照与观测稳定特征点相匹配的确定方式，确定三维特征点的三维特征点向量。

在操作S360，按照与观测特异特征点相匹配的确定方式，确定三维特征点的三维特征点向量。

在操作S370，对多个二维特征点向量和多个三维特征点向量进行注意力处理，得到匹配结果。

根据本公开的实施例，可以根据三维特征点的观测稳定性来确定三维特征点的确定方式，进而利用与三维特征点的观测稳定性相匹配的确定方式确定三维特征点的三维特征点向量，使得三维特征点的三维特征点向量确定精准的同时，本公开实施例提供的图像处理方法的应用具有普适性。

根据本公开的实施例，针对操作S330，确定多个三维特征点的观测稳定性，得到多个观测稳定性结果可以包括如下操作。

例如，针对多个三维特征点中的每个三维特征点，确定与三维特征点相匹配的描述符队列。确定描述符队列的方差。基于方差，确定三维特征点的观测稳定性，得到观测稳定性结果。

根据本公开的实施例，与三维特征点相匹配的描述符队列包括多个基准二维特征点各自的描述符，多个基准二维特征点中的每个基准二维特征点包括用于生成三维特征点的二维特征点。

例如，在利用二维图像进行三维重构的过程中，可以通过共同出现同一目标对象的多个基准二维图像来恢复得到该目标对象的三维空间模型。可以从多个基准二维图像中分别提取得到用于重构关于该目标对象的基准二维特征点，得到多个基准二维特征点，用于描述多个基准二维特征点各自的描述符，为描述符队列。

根据本公开的实施例，可以基于观测稳定性，将三维特征点确定为观测稳定特征点和观测特异特征点。观测稳定性特征点可以指：在三维空间中具有观测角位不变的特性的特征点。观测特异性特征点可以指：在三维空间中，针对不同的观测角位，具有不同的特性的特征点。观测角位可以包括观测视角和观测距离。

根据本公开的实施例，可以通过描述符队列的方差，来确定三维特征点的观测稳定性。例如，预定方差阈值，将描述符队列的方差大于或者等于预定方差阈值的三维特征点，确定为观测稳定特征点。将描述符队列的方差小于预定方差阈值的三维特征点，确定为观测特异特征点。

根据本公开的实施例，描述符队列中的每个二维描述符，可以为其中，a＝1，2，…，Y。二维描述符对列中有Y个二维描述符，每个二维描述符的维度为b。描述符队列的方差为/> 其中，c＝1，2，…，b。其中，/>

根据本公开的实施例，描述符队列的方法还可以采用其他类型的公式，例如可以根据二维特征点的排布来确定。只要是能够表征描述符队列的方差的公式即可。

根据本公开的其他实施例，还可以利用三维特征点的多个基准二维特征点各自的观测角位队列信息来确定三维特征点的观测稳定性。只要是能够确定三维特征点的观测稳定性的确定方式即可。

根据本公开的实施例，针对操作S350，与观测稳定特征点相匹配的确定方式包括：基于预定的稳定观测角位信息、描述符队列的均值和三维特征点的位置信息，确定三维特征点的三维特征点向量。

根据本公开的实施例，观测角位队列信息可以包括多个观测角位信息，描述符队列可以包括多个描述符。多个描述符与多个基准二维特征点一一对应，多个观测角位信息也与多个基准二维特征点一一对应。

根据本公开的实施例，预定的稳定观测角位信息可以是与观测角位队列信息中的任一观测角位信息不同的观测角位信息。基于多个观测稳定性结果，确定多个三维特征点各自的三维特征向量，得到多个三维特征点向量，还包括：确定与描述符队列相匹配的观测角位队列信息。基于观测角位队列信息，确定与观测角位队列信息中的任一观测角位信息不同的观测角位信息，作为预定的稳定观测角位信息。

根据本公开的实施例，三维特征点的三维特征向量中包括描述符队列的均值的信息、三维特征点的位置信息和预定的稳定观测角位信息，可以将多种与三维特征点相关联的信息进行融合，使得三维特征点向量中包括三维特征点的视觉外观信息、观测角位信息以及位置信息，以突出三维特征点的特异性，进而提高匹配结果的精准度。

根据本公开的实施例，描述符队列的均值，其中，

图4A示意性示出了根据本公开实施例的在三维特征点为观测稳定特征点的情况下，确定三维特征点向量的示意图。

如图4A所示，可以基于多个基准图像各自的基准二维特征点，例如基准图像M1的基准二维特征点、基准图像M2的基准二维特征点、基准图像M3的基准二维特征点和基准图像M4的基准二维特征点，利用三维重建的方法，确定三维空间中的三维特征点M。基准图像M1的基准二维特征点、基准图像M2的基准二维特征点、基准图像M3的基准二维特征点和基准图像M4的基准二维特征点各自的描述符，形成描述符队列。可以基于描述符队列，确定描述符队列的均值410和描述符队列的方差420。基于描述符队列的方差420，确定三维特征点M为观测稳定特征点。可以将三维特征点M的位置信息P(x，y，z)430进行编码得到第二三维特征点位置向量440。将预定的稳定观测角位信息V(m，n，l)450例如(0，0，0)进行编码，得到第二位角向量460。基于描述符队列的均值410、第二位角向量460和第二三维特征点位置向量440，得到三维特征点向量470。

根据本公开的实施例，在确定三维特征点为观测稳定特征点的情况下，可以将描述符队列的均值作为三维特征点的描述符，将预定的稳定观测角位信息作为三维特征点的观测角位信息，在保证三维特征向量的精度的同时，提高处理效率。

根据本公开的实施例，针对操作S360，与观测特异特征点相匹配的确定方式可以包括：基于描述符队列、与描述符队列相匹配的观测角位队列信息和三维特征点的位置信息，确定三维特征点的三维特征点向量队列。

根据本公开的实施例，三维特征点的三维特征点向量中包括描述符队列的信息、三维特征点的位置信息和与描述符队列相匹配的观测角位队列信息，可以将三维特征点拆分为与基准二维特征点相关的三维特征点队列，能够突出三维特征点的特异性的同时，保证三维特征点的多样性，进而提高匹配结果的精准度。

图4B示意性示出了根据本公开实施例的在三维特征点为观测特异特征点的情况下，确定三维特征点向量的示意图。

如图4B所示，可以基于多个基准图像各自的基准二维特征点，例如基准图像F1的基准二维特征点、基准图像F2的基准二维特征点、基准图像F3的基准二维特征点和基准图像F4的基准二维特征点，利用三维重建的方法，确定三维空间中的三维特征点F。基于基准图像F1的基准二维特征点、基准图像F2的基准二维特征点、基准图像F3的基准二维特征点和基准图像F4的基准二维特征点各自的描述符，形成描述符队列。可以基于描述符队列，确定描述符队列的均值410’和描述符队列的方差420’。基于描述符队列的方差420’，确定三维特征点F为观测特异特征点。在确定三维特征点F为观测特异特征点的情况下。将三维特征点F拆分为三维特征点队列，例如三维特征点F1、三维特征点F2、三维特征点F3、和三维特征点F4。以三维特征点F1的三维特征点向量的确定方式为例，即以描述符队列中的基准图像F1的基准二维特征点的描述符为例。从与描述符队列相匹配的观测角位队列信息中确定与基准图像F1的基准二维特征点的描述符例如F1描述符480’相匹配的观测角位信息F1 V(m，n，1)。对与F1描述符480’相匹配的观测角位信息450’进行编码，得到F1第一位角向量460’。对F1三维特征点的位置信息F1_P(x，y，z)430’进行编码，得到F1第一三维特征点位置向量440’。根据F1描述符480’、F1第一位角向量460’、和F1第一三维特征点位置向量440’，确定F1三维特征点向量470’。类似地，得到F2三维特征点向量、F3三维特征点向量、和F4三维特征点向量，由此确定三维特征点F的三维特征点向量队列。

根据本公开的实施例，针对操作S230或者操作S370，对多个二维特征点向量与多个三维特征点向量进行注意力处理，得到匹配结果，可以包括：对多个二维特征点向量与多个三维特征点向量进行多轮注意力处理，得到与待处理图像相匹配的第一匹配描述矩阵，和与多个三维特征点相匹配的第二匹配描述矩阵。基于第一匹配描述矩阵和第二匹配描述矩阵，得到匹配得分矩阵。基于匹配得分矩阵，得到匹配结果。

根据本公开的实施例，对多个二维特征点向量与多个三维特征点向量进行多轮注意力处理，可以增加结果的鲁棒性。循环轮数越多，越利于提高匹配精度，但是相应降低处理效率。循环轮数可以根据实际情况自行确定。

图5示意性示出了根据本公开实施例的确定匹配结果的流程示意图。

如图5所示，该方法包括操作S501～S508。

在操作S501，对待处理图像进行特征提取，得到多个二维特征点向量。

在操作S502，将第i-1轮经交叉注意力处理后得到的二维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始二维匹配描述矩阵。i大于或者等于2。

在操作S503，将第i-1轮经交叉注意力处理后得到的三维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始三维匹配描述矩阵。

在操作S504，将第i轮的初始二维匹配描述矩阵和第i轮的初始三维匹配描述矩阵进行第i轮交叉注意力处理，得到第i轮的二维匹配描述矩阵和第i轮的三维匹配描述矩阵。

在操作S505，确定是否满足预设条件。在满足预设条件的情况下，执行操作S506。在不满足预设条件的情况下，执行操作S502。

根据本公开的实施例，满足预设条件可以指：执行注意力处理操作的注意力处理轮次大于或者等于预设阈值。但是并不局限于此。满足预设条件还可以指：执行自注意力处理操作的自注意力处理轮次大于或者等于预设阈值。满足预设条件也可以指：执行交叉注意力处理的交叉注意力处理轮次大于或者等于预设阈值。

根据本公开的实施例，在不满足预设条件的情况下，令i＝i+1，即根据上一轮经交叉注意力处理后得到的二维匹配描述矩阵或三维匹配描述矩阵进行新一轮的自注意力处理。

在操作S506，将第i轮的二维匹配描述矩阵作为与待处理图像相匹配的第一匹配描述矩阵，将第i轮的三维匹配描述矩阵作为与多个三维特征点相匹配的第二匹配描述矩阵。

在操作S507，基于第一匹配描述矩阵和第二匹配描述矩阵，得到匹配得分矩阵。

在操作S508，基于匹配得分矩阵，得到匹配结果。

根据本公开的实施例，与对多个二维特征点向量和多个三维特征点向量进行单轮注意力处理相比，对多个二维特征点向量和多个三维特征点向量进行多轮注意力处理，每轮注意力处理包括自注意力处理和交叉注意力处理，能够使得具有特异性的二维特征点和具有特异性的三维特征点更为突出，更有利于确定二维特征点与三维特征点之间的匹配关系，使得鲁棒性更高。

根据本公开的实施例，针对操作S501，对待处理图像进行特征提取，得到多个二维特征点向量，包括操作：对待处理图像进行特征提取，得到多个二维特征点的位置信息和多个二维特征点的描述符。对多个二维特征点中的二维特征点进行编码，得到多个二维特征点位置向量。根据二维特征点位置向量与多个二维特征点的描述符，得到多个二维特征点向量。

根据本公开的实施例，可以利用Harris(角点检测)方法、SIFT(Scale-invariantfeature transform，尺度不变性特征变换)方法、SURF(Speeded Up RobustFeatures，SIFT改进版本)方法等从待处理图像中提取特征，得到多个二维特征点，多个二维特征点包括多个二维特征点各自的位置信息和描述符。

根据本公开的实施例，二维特征点向量是根据二维特征点位置向量和多个二维特征点的描述符确定的，二维特征点向量中包括二维特征点的位置信息和描述符，能够包含多维度信息，具有强的特征匹配特异性，能够在进行图像处理的过程中，使得匹配结果精准。

根据本公开的实施例，可以利用深度学习的方式来执行图像处理方法的操作，得到匹配结果。例如，将待处理图像的多个二维特征点向量和多个三维特征点向量输入至图神经模型中，输出匹配结果。下述将以图6所示的图神经模型为例，具体阐述图神经模型的网络结构。需要注意的是，注意力模块可以包括多轮，但是并不局限于此，还可以仅包括一轮，在此不再赘述。

图6示意性示出了根据本公开实施例的图神经模型的结构图。

如图6所示，将多个二维特征点向量610和多个三维特征点向量620输入至第一轮注意力模块630中，得到第一轮的二维匹配描述矩阵和第一轮的三维匹配描述矩阵。具体地，将多个二维特征点向量610输入至第一轮第一自注意力模块631中，得到第一轮的初始二维匹配描述矩阵。将多个三维特征点向量620输入至第一轮第二自注意力模块632，得到第一轮的初始三维匹配描述矩阵。将第一轮的初始二维匹配描述矩阵和第一轮的初始三维匹配描述矩阵输入至第一轮交叉注意力模块633中，得到第一轮的二维匹配描述矩阵和第一轮的三维匹配描述矩阵。类似的，将第i-1轮的二维匹配描述矩阵和第i-1轮的三维匹配描述矩阵输入至第i轮注意力处理模块640中，得到第i轮的二维匹配描述矩阵和第i轮的三维匹配描述矩阵。经过I轮的注意力处理模块处理后，得到第I轮的二维匹配描述矩阵和第I轮的三维匹配描述矩阵。可以将第I轮的二维匹配描述矩阵作为第一匹配描述矩阵，将第I轮的三维匹配描述矩阵作为第二匹配描述矩阵。I为大于或者等于2的整数，i小于或者等于I。将第一匹配描述矩阵和第二匹配描述矩阵输入至匹配层650，得到匹配得分矩阵。基于匹配得分矩阵，得到匹配结果660。

根据本公开的实施例，可以利用匹配层设置的内积计算公式来处理第一匹配描述矩阵和第二匹配描述矩阵，将第一匹配描述矩阵和第二匹配描述矩阵进行内积运算，得到匹配得分矩阵。可以通过Sinkhorn algorithm迭代算法对匹配得分矩阵进行解算，得到最优特征分配矩阵，例如匹配结果。该匹配结果用于表征多个二维特征点中的每个二维特征点与多个三维特征点各自之间的匹配关系。

如图6所示，多个二维特征点向量的确定方式可以以二维特征点A的确定方式为例进行说明。将二维特征点A的位置信息A P(x，y)611输入至图神经模型的第一编码模块671中，得到二维特征点A的二维特征点位置向量。将二维特征点A的A描述符612与二维特征点位置向量进行加和，例如将二维特征点A的二维特征点向量。类似的，可以得到与多个二维特征点一一对应的多个二维特征点向量。

如图6所示，多个三维特征点向量的确定方式可以以三维特征点B的确定方式为例进行说明。以三维特征点B为观测稳定特征点为例，将三维特征点B的位置信息B_P(x，y，z)621输入至第二编码模块672中，得到三维特征点位置向量。将三维特征点B的预定的观测角位信息B_V(m，n，1)622输入至第三编码模块673中，得到三维特征点B的角位向量。将三维特征点B的描述符623、角位向量和三维特征点位置向量进行加和，得到三维特征点向量。类似的，可以得到与多个三维特征点一一对应的多个三维特征点向量。

根据本公开的实施例，第一编码模块、第二编码模块、第三编码模块中的至少一项，可以包括级联编码层(Encoder)和多层感知机(Multilayer Perceptron，MLP)，可以利用多层感知机来对低维特征进行升维，使得角位向量、三维特征点位置向量的维度与三维特征点的描述符的维度一致，以及使得二维特征点位置向量的维度与二维特征点的描述符的维度一致。

根据本公开的实施例，可以利用训练样本训练图神经模型，使得图神经模型应用至本公开实施例提供的图像处理方法中，得到的匹配结果精准。其训练方法不做限定，可以利用如图7所示的方式进行训练。

图7示意性示出了根据本公开实施例的图神经模型的训练方法的流程图。

如图7所示，该方法包括操作S710～S740。

在操作S710，对样本图像进行特征提取，得到多个样本二维特征点向量。

在操作S720，确定三维空间中的多个样本三维特征点的样本三维特征向量，得到多个样本三维特征点向量。

在操作S730，对多个样本二维特征点向量和多个样本三维特征点向量输入至图神经模型中，得到输出匹配结果。

在操作S740，利用输出匹配结果和样本匹配结果训练图神经模型，得到经训练的图神经模型。样本匹配结果为预先标注的，样本匹配结果用于表征与多个样本三维特征点向量相匹配的多个样本二维特征点、和多个样本三维特征点彼此之间的匹配关系。

根据本公开的实施例，图神经模型包括用于进行自注意力处理的自注意力模块和用于进行交叉注意力处理的交叉注意力模块。

根据本公开的实施例，针对操作S740，可以利用反向传播方式来训练图神经模型，利用监督训练的方式，利用负对数似然函数作为损失函数进行训练。

例如，将样本匹配结果和输出匹配结果输入至损失函数中，得到损失值。基于损失值调整图神经模型的参数，直至损失值收敛。将损失值收敛时的模型作为经训练的图神经模型。

利用本公开实施例提供的图神经模型的训练方法，可以使得经训练的图神经模型应用于本公开实施例提供的图像处理方法中，兼顾匹配精度和匹配效率。进而基于匹配结果，应用于视觉定位场景中，能够提高定位结果的召回率、准确率以及精度。

根据本公开的实施例，针对操作S720，确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量，包括：确定多个样本三维特征点的观测稳定性，得到多个样本观测稳定性结果。基于多个样本观测稳定性结果，确定多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量。

根据本公开的实施例，确定多个样本三维特征点的观测稳定性，得到多个样本观测稳定性结果，包括：针对多个样本三维特征点中的每个样本三维特征点，确定与样本三维特征点相匹配的样本描述符队列。与样本三维特征点相匹配的样本描述符队列包括多个样本基准二维特征点各自的样本描述符，多个样本基准二维特征点中的每个样本基准二维特征点包括用于生成样本三维特征点的特征点。确定样本描述符队列的样本方差。基于样本方差，确定样本三维特征点的观测稳定性，得到多个样本观测稳定性结果。

根据本公开的实施例，基于多个样本观测稳定性结果，确定多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量，包括：针对多个样本三维特征点中的每个样本三维特征点，在确定与样本三维特征点相匹配的样本观测稳定性结果表征样本三维特征点为样本观测稳定特征点的情况下，基于样本预定的稳定观测角位信息、样本描述符队列的均值和样本三维特征点的位置信息，确定样本三维特征点的样本三维特征点向量。在确定与样本三维特征点相匹配的样本观测稳定性结果表征样本三维特征点为样本观测特异特征点的情况下，基于样本描述符队列、与样本描述符队列相匹配的样本观测角位队列信息和样本三维特征点的位置信息，确定样本三维特征点的样本三维特征点向量队列。

根据本公开的实施例，基于样本描述符队列、与样本描述符队列相匹配的样本观测角位队列信息和样本三维特征点的位置信息，确定样本三维特征点的样本三维特征点向量队列，包括：针对样本描述符队列中的每个样本描述符，从与样本描述符队列相匹配的样本观测角位队列信息中确定与样本描述符相匹配的样本观测角位信息。对与样本描述符相匹配的样本观测角位信息进行编码，得到样本第一角位向量。对样本三维特征点的位置信息进行编码，得到样本第一三维特征点位置向量。根据样本描述符、样本第一角位向量和样本第一三维特征点位置向量，确定样本描述符的样本三维特征点向量，确定样本三维特征点向量队列。

根据本公开的实施例，基于样本预定的稳定观测角位信息、样本描述符队列的均值和样本三维特征点的位置信息，确定样本三维特征点的样本三维特征点向量，包括：将样本预定的稳定观测角位信息进行编码，得到样本第二角位向量。将样本三维特征点的位置信息进行编码，得到样本第二三维特征点位置向量。根据样本描述符队列的均值、样本第二角位向量和样本第二三维特征点位置向量，得到样本三维特征点向量。

根据本公开的实施例，基于多个样本观测稳定性结果，确定多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量，还包括：确定与样本描述符队列相匹配的样本观测角位队列信息。基于样本观测角位队列信息，确定样本预定的稳定观测角位信息。样本预定的稳定观测角位信息与样本观测角位队列信息中的任一样本观测角位信息不同。

根据本公开的实施例，针对操作S730，对多个样本二维特征点向量和多个样本三维特征点向量输入至图神经模型中，得到输出匹配结果，包括：将多个样本二维特征点向量与多个三维特征点向量输入至多轮注意力处理模块中，得到与样本图像相匹配的样本第一匹配描述矩阵，和与多个样本三维特征点相匹配的样本第二匹配描述矩阵。基于样本第一匹配描述矩阵和样本第二匹配描述矩阵，得到样本匹配得分矩阵。基于样本匹配得分矩阵，得到输出匹配结果。

图8示意性示出了根据本公开实施例的图像处理装置的框图。

如图8所示，图像处理装置800包括：第一提取模块810、第一确定模块820、以及处理模块830。

第一提取模块810，用于对待处理图像进行特征提取，得到多个二维特征点向量。

第一确定模块820，用于确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量。

处理模块830，用于对多个二维特征点向量和多个三维特征点向量进行注意力处理，得到匹配结果。

根据本公开的实施例，注意力处理依次包括自注意力处理和交叉注意力处理。

根据本公开的实施例，第一确定模块包括：第一确定子模块、以及第二确定子模块。

第一确定子模块，用于确定多个三维特征点的观测稳定性，得到多个观测稳定性结果。

第二确定子模块，用于基于多个观测稳定性结果，确定多个三维特征点的三维特征点向量，得到多个三维特征点向量。

根据本公开的实施例，第一确定子模块包括：第一确定单元、第二确定单元、以及第三确定单元。

针对多个三维特征点中的每个三维特征点。

第一确定单元，用于确定与三维特征点相匹配的描述符队列，其中，与三维特征点相匹配的描述符队列包括多个基准二维特征点各自的描述符，多个基准二维特征点中的每个基准二维特征点包括用于生成三维特征点的特征点。

第二确定单元，用于确定描述符队列的方差。

第三确定单元，用于基于方差，确定三维特征点的观测稳定性，得到观测稳定性结果。

根据本公开的实施例，第二确定子模块包括：第四确定单元、以及第五确定单元。

针对多个三维特征点中的每个三维特征点。

第四确定单元，用于在确定与三维特征点相匹配的观测稳定性结果表征三维特征点为观测稳定特征点的情况下，基于预定的稳定观测角位信息、描述符队列的均值和三维特征点的位置信息，确定三维特征点的三维特征点向量。

第五确定单元，用于在确定与三维特征点相匹配的观测稳定性结果表征三维特征点为观测特异特征点的情况下，基于描述符队列、与描述符队列相匹配的观测角位队列信息和三维特征点的位置信息，确定三维特征点的三维特征点向量队列。

根据本公开的实施例，第五确定单元包括：第一确定子单元、第一编码子单元、第二编码子单元、以及第二确定子单元。

针对描述符队列中的每个描述符。

第一确定子单元，用于从与描述符队列相匹配的观测角位队列信息中确定与描述符相匹配的观测角位信息。

第一编码子单元，用于对与描述符相匹配的观测角位信息进行编码，得到第一角位向量。

第二编码子单元，用于对三维特征点的位置信息进行编码，得到第一三维特征点位置向量。

第二确定子单元，用于根据描述符、第一角位向量和第一三维特征点位置向量，确定描述符的三维特征点向量。

根据本公开的实施例，第四确定单元包括：第三编码子单元、第四编码子单元、以及第三确定子单元。

第三编码子单元，用于将预定的稳定观测角位信息进行编码，得到第二角位向量。

第四编码子单元，用于将三维特征点的位置信息进行编码，得到第二三维特征点位置向量。

第三确定子单元，用于根据描述符队列的均值、第二角位向量、和第二三维特征点位置向量，得到三维特征点向量。

根据本公开的实施例，第二确定子模块还包括：第六确定单元、以及第七确定单元。

第六确定单元，用于确定与描述符队列相匹配的观测角位队列信息。

第七确定单元，用于基于观测角位队列信息，确定预定的稳定观测角位信息，其中，预定的稳定观测角位信息与观测角位队列信息中的任一观测角位信息不同。

根据本公开的实施例，处理模块包括：第一处理子模块、第一匹配子模块、第二匹配子模块。

第一处理子模块，用于对多个二维特征点向量与多个三维特征点向量进行多轮注意力处理，得到与待处理图像相匹配的第一匹配描述矩阵，和与多个三维特征点相匹配的第二匹配描述矩阵。

第一匹配子模块，用于基于第一匹配描述矩阵和第二匹配描述矩阵，得到匹配得分矩阵。

第二匹配子模块，用于基于匹配得分矩阵，得到匹配结果。

根据本公开的实施例，第一处理子模块包括：第一处理单元、第二处理单元、第三处理单元、以及第八确定单元。根据本公开的实施例，每轮注意力处理包括自注意力处理和交叉注意力处理。

第一处理单元，用于将第i-1轮经交叉注意力处理后得到的二维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始二维匹配描述矩阵，其中，i大于或者等于2。

第二处理单元，用于将第i-1轮经交叉注意力处理后得到的三维匹配描述矩阵进行第i轮子自注意力处理，得到第i轮的初始三维匹配描述矩阵。

第三处理单元，用于将第i轮的初始二维匹配描述矩阵和第i轮的初始三维匹配描述矩阵进行第i轮交叉注意力处理，得到第i轮的二维匹配描述矩阵和第i轮的三维描述矩阵。

第八确定单元，用于在满足预设条件的情况下，将第i轮的二维匹配描述矩阵作为与所述待处理图像相匹配的第一匹配描述矩阵，将第i轮的三维匹配描述矩阵作为与所述多个三维特征点相匹配的第二匹配描述矩阵。

根据本公开的实施例，第一提取模块包括：二维提取子模块、二维编码子模块、以及二维确定子模块。

二维提取子模块，用于对待处理图像进行特征提取，得到多个二维特征点的位置信息和多个二维特征点的描述符。

二维编码子模块，用于对多个二维特征点中的二维特征点进行编码，得到多个二维特征点位置向量。

二维确定子模块，用于根据二维特征点位置向量与多个二维特征点的描述符，得到多个二维特征点向量。

根据本公开的实施例，还包括：定位模块。

定位模块，用于基于匹配结果，确定待处理图像中的二维特征点在三维空间中的位置信息。

图9示意性示出了根据本公开实施例的图神经模型的训练装置的框图。

如图9所示，图神经模型的训练装置900包括：第二提取模块910、第二确定模块920、输出模块930、以及训练模块940。

第二提取模块910，用于对样本图像进行特征提取，得到多个样本二维特征点向量。

第二确定模块920，用于确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量。

输出模块930，用于对多个样本二维特征点向量和多个样本三维特征向量输入至图神经模型中，得到输出匹配结果，其中，图神经模型包括用于进行自注意力处理的自注意力模块和用于进行交叉注意力处理的交叉注意力模块。

训练模块940，用于利用输出匹配结果和样本匹配结果训练图神经模型，得到经训练的图神经模型，其中，样本匹配结果为预先标注的，样本匹配结果用于表征与多个样本二维特征点向量相匹配的多个样本二维特征点、和多个样本三维特征点彼此之间的匹配关系。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如本公开实施例的方法。

根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如本公开实施例的方法。

根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如本公开实施例的方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如图像处理方法、或者图神经模型的训练方法。例如，在一些实施例中，图像处理方法、或者图神经模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的图像处理方法、或者图神经模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像处理方法、或者图神经模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像处理方法，包括：

对待处理图像进行特征提取，得到多个二维特征点向量；

确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量；以及

对所述多个二维特征点向量和所述多个三维特征点向量进行注意力处理，得到匹配结果，其中，所述注意力处理依次包括自注意力处理和交叉注意力处理；

其中，所述确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量，包括：

确定所述多个三维特征点的观测稳定性，得到多个观测稳定性结果，其中，所述观测稳定性用于表征所述三维特征点在三维空间中是否具有观测角位不变的特性；以及

基于所述多个观测稳定性结果，确定所述多个三维特征点的三维特征点向量，得到所述多个三维特征点向量；

其中，所述基于所述多个观测稳定性结果，确定所述多个三维特征点的三维特征点向量，得到所述多个三维特征点向量，包括：

针对所述多个三维特征点中的每个三维特征点，

确定与所述三维特征点相匹配的观测稳定性结果是否表征所述三维特征点为观测稳定特征点；

在确定所述观测稳定性结果表征所述三维特征点为观测稳定特征点的情况下，按照与所述观测稳定特征点相匹配的确定方式，确定所述三维特征点的三维特征点向量；以及

在确定所述观测稳定性结果表征所述三维特征点为观测特异特征点的情况下，按照与所述观测特异特征点相匹配的确定方式，确定所述三维特征点的三维特征点向量。

2.根据权利要求1所述的方法，其中，所述确定所述多个三维特征点的观测稳定性，得到多个观测稳定性结果，包括：

针对所述多个三维特征点中的每个三维特征点，

确定与所述三维特征点相匹配的描述符队列，其中，所述描述符队列包括多个基准二维特征点各自的描述符，所述多个基准二维特征点中的每个基准二维特征点包括用于生成所述三维特征点的特征点；

确定所述描述符队列的方差；以及

基于所述方差，确定所述三维特征点的观测稳定性，得到所述三维特征点的观测稳定性结果。

3.根据权利要求2所述的方法，其中，所述基于所述多个观测稳定性结果，确定所述多个三维特征点的三维特征点向量，得到所述多个三维特征点向量，包括：

针对所述多个三维特征点中的每个三维特征点，

在确定与所述三维特征点相匹配的观测稳定性结果表征所述三维特征点为观测稳定特征点的情况下，基于预定的稳定观测角位信息、所述描述符队列的均值和所述三维特征点的位置信息，确定所述三维特征点的三维特征点向量；以及

在确定与所述三维特征点相匹配的观测稳定性结果表征所述三维特征点为观测特异特征点的情况下，基于所述描述符队列、与所述描述符队列相匹配的观测角位队列信息和所述三维特征点的位置信息，确定所述三维特征点的三维特征点向量队列。

4.根据权利要求3所述的方法，其中，所述基于所述描述符队列、与所述描述符队列相匹配的观测角位队列信息和所述三维特征点的位置信息，确定所述三维特征点的三维特征点向量队列，包括：

针对所述描述符队列中的每个描述符，

从与所述描述符队列相匹配的观测角位队列信息中确定与所述描述符相匹配的观测角位信息；

对所述与所述描述符相匹配的观测角位信息进行编码，得到第一角位向量；

对所述三维特征点的位置信息进行编码，得到第一三维特征点位置向量；以及

根据所述描述符、所述第一角位向量和所述第一三维特征点位置向量，确定所述描述符的三维特征点向量。

5.根据权利要求3所述的方法，其中，所述基于预定的稳定观测角位信息、所述描述符队列的均值和所述三维特征点的位置信息，确定所述三维特征点的三维特征点向量，包括：

将所述预定的稳定观测角位信息进行编码，得到第二角位向量；

将所述三维特征点的位置信息进行编码，得到第二三维特征点位置向量；以及

根据所述描述符队列的均值、所述第二角位向量和所述第二三维特征点位置向量，得到所述三维特征点向量。

6. 根据权利要求3所述的方法，其中，所述基于所述多个观测稳定性结果，确定所述多个三维特征点的三维特征点向量，得到所述多个三维特征点向量，还包括：

确定与所述描述符队列相匹配的观测角位队列信息；以及

基于所述观测角位队列信息，确定所述预定的稳定观测角位信息，其中，所述预定的稳定观测角位信息与所述观测角位队列信息中的任一观测角位信息不同。

7.根据权利要求1所述的方法，其中，所述对所述多个二维特征点向量与所述多个三维特征点向量进行注意力处理，得到匹配结果，包括：

对所述多个二维特征点向量与所述多个三维特征点向量进行多轮注意力处理，得到与所述待处理图像相匹配的第一匹配描述矩阵，和与所述多个三维特征点相匹配的第二匹配描述矩阵；

基于所述第一匹配描述矩阵和所述第二匹配描述矩阵，得到匹配得分矩阵；以及

基于所述匹配得分矩阵，得到所述匹配结果。

8.根据权利要求7所述的方法，其中，每轮所述注意力处理包括自注意力处理和交叉注意力处理，所述对所述多个二维特征点向量与所述多个三维特征点向量进行多轮注意力处理，得到与所述待处理图像相匹配的第一匹配描述矩阵，和与所述多个三维特征点相匹配的第二匹配描述矩阵，包括：

将第i-1轮经所述交叉注意力处理后得到的二维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始二维匹配描述矩阵，其中， i大于或者等于2；

将第i-1轮经所述交叉注意力处理后得到的三维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始三维匹配描述矩阵；

将所述第i轮的初始二维匹配描述矩阵和所述第i轮的初始三维匹配描述矩阵进行第i轮交叉注意力处理，得到第i轮的二维匹配描述矩阵和第i轮的三维匹配描述矩阵；以及

在满足预设条件的情况下，将所述第i轮的二维匹配描述矩阵作为与所述待处理图像相匹配的第一匹配描述矩阵，将所述第i轮的三维匹配描述矩阵作为与所述多个三维特征点相匹配的第二匹配描述矩阵。

9.根据权利要求1至8中任一项所述的方法，其中，所述对待处理图像进行特征提取，得到多个二维特征点向量，包括：

对所述待处理图像进行特征提取，得到多个二维特征点的位置信息和多个二维特征点的描述符；

对所述多个二维特征点中的二维特征点进行编码，得到多个二维特征点位置向量；以及

根据所述二维特征点位置向量与所述多个二维特征点的描述符，得到所述多个二维特征点向量。

10.根据权利要求1至8中任一项所述的方法，还包括：

基于所述匹配结果，确定所述待处理图像中的二维特征点在所述三维空间中的位置信息。

11.一种图神经模型的训练方法，包括：

对样本图像进行特征提取，得到多个样本二维特征点向量；

确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量；

对所述多个样本二维特征点向量和所述多个样本三维特征点向量输入至图神经模型中，得到输出匹配结果，其中，所述图神经模型包括用于进行自注意力处理的自注意力模块和用于进行交叉注意力处理的交叉注意力模块；以及

利用所述输出匹配结果和样本匹配结果训练所述图神经模型，得到经训练的图神经模型，其中，所述样本匹配结果为预先标注的，所述样本匹配结果用于表征与所述多个样本二维特征点向量相匹配的多个样本二维特征点、和所述多个样本三维特征点彼此之间的匹配关系；

其中，所述确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量，包括：

确定所述多个样本三维特征点的观测稳定性，得到多个样本观测稳定性结果，其中，所述观测稳定性用于表征所述样本三维特征点在三维空间中是否具有观测角位不变的特性；以及

基于所述多个样本观测稳定性结果，确定所述多个样本三维特征点的样本三维特征点向量，得到所述多个样本三维特征点向量；

其中，所述基于所述多个样本观测稳定性结果，确定所述多个样本三维特征点的样本三维特征点向量，得到所述多个样本三维特征点向量，包括：针对所述多个样本三维特征点中的每个样本三维特征点，在确定与所述样本三维特征点相匹配的样本观测稳定性结果表征所述样本三维特征点为样本观测稳定特征点的情况下，基于样本预定的稳定观测角位信息、样本描述符队列的均值和所述样本三维特征点的位置信息，确定所述样本三维特征点的样本三维特征点向量；在确定与所述样本三维特征点相匹配的样本观测稳定性结果表征所述样本三维特征点为样本观测特异特征点的情况下，基于所述样本描述符队列、与所述样本描述符队列相匹配的样本观测角位队列信息和所述样本三维特征点的位置信息，确定所述样本三维特征点的样本三维特征点向量队列。

12.一种图像处理装置，包括：

第一提取模块，用于对待处理图像进行特征提取，得到多个二维特征点向量；

第一确定模块，用于确定三维空间中的多个三维特征点的三维特征点向量，得到多个三维特征点向量；以及

处理模块，用于对所述多个二维特征点向量和所述多个三维特征点向量进行注意力处理，得到匹配结果，其中，所述注意力处理依次包括自注意力处理和交叉注意力处理；其中，所述第一确定模块包括：

第一确定子模块，用于确定所述多个三维特征点的观测稳定性，得到多个观测稳定性结果，其中，所述观测稳定性用于表征所述三维特征点在三维空间中是否具有观测角位不变的特性；以及

第二确定子模块，用于基于所述多个观测稳定性结果，确定所述多个三维特征点的三维特征点向量，得到所述多个三维特征点向量；

其中，所述基于所述多个观测稳定性结果，确定所述多个三维特征点的三维特征点向量，得到所述多个三维特征点向量，用于：

针对所述多个三维特征点中的每个三维特征点，

13.根据权利要求12所述的装置，其中，所述第一确定子模块包括：

针对所述多个三维特征点中的每个三维特征点，

第一确定单元，用于确定与所述三维特征点相匹配的描述符队列，其中，所述与所述三维特征点相匹配的描述符队列包括多个基准二维特征点各自的描述符，所述多个基准二维特征点中的每个基准二维特征点包括用于生成所述三维特征点的特征点；

第二确定单元，用于确定所述描述符队列的方差；以及

第三确定单元，用于基于所述方差，确定所述三维特征点的观测稳定性，得到所述观测稳定性结果。

14.根据权利要求13所述的装置，其中，所述第二确定子模块包括：

针对所述多个三维特征点中的每个三维特征点，

第四确定单元，用于在确定与所述三维特征点相匹配的观测稳定性结果表征所述三维特征点为观测稳定特征点的情况下，基于预定的稳定观测角位信息、所述描述符队列的均值和所述三维特征点的位置信息，确定所述三维特征点的三维特征点向量；以及

第五确定单元，用于在确定与所述三维特征点相匹配的观测稳定性结果表征所述三维特征点为观测特异特征点的情况下，基于所述描述符队列、与所述描述符队列相匹配的观测角位队列信息和所述三维特征点的位置信息，确定所述三维特征点的三维特征点向量队列。

15.根据权利要求14所述的装置，其中，所述第五确定单元包括：

针对所述描述符队列中的每个描述符，

第一确定子单元，用于从与所述描述符队列相匹配的观测角位队列信息中确定与所述描述符相匹配的观测角位信息；

第一编码子单元，用于对所述与所述描述符相匹配的观测角位信息进行编码，得到第一角位向量；

第二编码子单元，用于对所述三维特征点的位置信息进行编码，得到第一三维特征点位置向量；以及

第二确定子单元，用于根据所述描述符、所述第一角位向量和所述第一三维特征点位置向量，确定所述描述符的三维特征点向量。

16.根据权利要求14所述的装置，其中，所述第四确定单元包括：

第三编码子单元，用于将所述预定的稳定观测角位信息进行编码，得到第二角位向量；

第四编码子单元，用于将所述三维特征点的位置信息进行编码，得到第二三维特征点位置向量；以及

第三确定子单元，用于根据所述描述符队列的均值、所述第二角位向量、和所述第二三维特征点位置向量，得到所述三维特征点向量。

17. 根据权利要求14所述的装置，其中，所述第二确定子模块还包括：

第六确定单元，用于确定与所述描述符队列相匹配的观测角位队列信息；以及

第七确定单元，用于基于所述观测角位队列信息，确定所述预定的稳定观测角位信息，其中，所述预定的稳定观测角位信息与所述观测角位队列信息中的任一观测角位信息不同。

18.根据权利要求12所述的装置，其中，所述处理模块包括：

第一处理子模块，用于对所述多个二维特征点向量与所述多个三维特征点向量进行多轮注意力处理，得到与所述待处理图像相匹配的第一匹配描述矩阵，和与所述多个三维特征点相匹配的第二匹配描述矩阵；

第一匹配子模块，用于基于所述第一匹配描述矩阵和所述第二匹配描述矩阵，得到匹配得分矩阵；以及

第二匹配子模块，用于基于所述匹配得分矩阵，得到所述匹配结果。

19.根据权利要求18所述的装置，其中，每轮所述注意力处理包括自注意力处理和交叉注意力处理，所述第一处理子模块包括：

第一处理单元，用于将第i-1轮经所述交叉注意力处理后得到的二维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始二维匹配描述矩阵，其中，i大于或者等于2；

第二处理单元，用于将第i-1轮经所述交叉注意力处理后得到的三维匹配描述矩阵进行第i轮自注意力处理，得到第i轮的初始三维匹配描述矩阵；

第三处理单元，用于将所述第i轮的初始二维匹配描述矩阵和所述第i轮的初始三维匹配描述矩阵进行第i轮交叉注意力处理，得到第i轮的二维匹配描述矩阵和第i轮的三维匹配描述矩阵；以及

第八确定单元，用于在满足预设条件的情况下，将所述第i轮的二维匹配描述矩阵作为与所述待处理图像相匹配的第一匹配描述矩阵，将所述第i轮的三维匹配描述矩阵作为与所述多个三维特征点相匹配的第二匹配描述矩阵。

20.根据权利要求12至19中任一项所述的装置，其中，所述第一提取模块包括：

二维提取子模块，用于对所述待处理图像进行特征提取，得到多个二维特征点的位置信息和多个二维特征点的描述符；

二维编码子模块，用于对所述多个二维特征点中的二维特征点进行编码，得到多个二维特征点位置向量；以及

二维确定子模块，用于根据所述二维特征点位置向量与所述多个二维特征点的描述符，得到所述多个二维特征点向量。

21.根据权利要求12至19中任一项所述的装置，还包括：

定位模块，用于基于所述匹配结果，确定所述待处理图像中的二维特征点在所述三维空间中的位置信息。

22.一种图神经模型的训练装置，包括：

第二提取模块，用于对样本图像进行特征提取，得到多个样本二维特征点向量；

第二确定模块，用于确定三维空间中的多个样本三维特征点的样本三维特征点向量，得到多个样本三维特征点向量；

输出模块，用于对所述多个样本二维特征点向量和所述多个样本三维特征点向量输入至图神经模型中，得到输出匹配结果，其中，所述图神经模型包括用于进行自注意力处理的自注意力模块和用于进行交叉注意力处理的交叉注意力模块；以及

训练模块，用于利用所述输出匹配结果和样本匹配结果训练所述图神经模型，得到经训练的图神经模型，其中，所述样本匹配结果为预先标注的，所述样本匹配结果用于表征与所述多个样本二维特征点向量相匹配的多个样本二维特征点、和所述多个样本三维特征点彼此之间的匹配关系；

其中，所述第二确定模块用于：

其中，所述基于所述多个样本观测稳定性结果，确定所述多个样本三维特征点的样本三维特征点向量，得到所述多个样本三维特征点向量，用于：针对所述多个样本三维特征点中的每个样本三维特征点，在确定与所述样本三维特征点相匹配的样本观测稳定性结果表征所述样本三维特征点为样本观测稳定特征点的情况下，基于样本预定的稳定观测角位信息、样本描述符队列的均值和所述样本三维特征点的位置信息，确定所述样本三维特征点的样本三维特征点向量；在确定与所述样本三维特征点相匹配的样本观测稳定性结果表征所述样本三维特征点为样本观测特异特征点的情况下，基于所述样本描述符队列、与所述样本描述符队列相匹配的样本观测角位队列信息和所述样本三维特征点的位置信息，确定所述样本三维特征点的样本三维特征点向量队列。

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至11中任一项所述的方法。