CN114882106A

CN114882106A - 位姿确定方法和装置、设备、介质

Info

Publication number: CN114882106A
Application number: CN202210325763.8A
Authority: CN
Inventors: 周晓巍; 王子豪; 孙佳明; 张思宇; 贺星毅; 章国锋; 赵洪城; 甄佳楠
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-08-09

Abstract

本申请公开了一种位姿确定方法和装置、设备、介质，位姿确定方法包括：对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征；将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果；基于目标匹配结果，确定目标设备与第一目标对象之间的目标相对位置关系。上述方案，能够提高位姿确定的便捷性。

Description

位姿确定方法和装置、设备、介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种位姿确定方法和装置、设备、介质。

背景技术

增强现实技术是一种将真实世界和虚拟世界信息结合的技术。通过设备将虚拟视觉信息在真实世界图像中显示出来。一般情况下，需要对真实世界中的物体进行虚实融合时，需要借助外部设备获取增强现实设备与该物体之间的相对位置关系，然后根据相对位置关系进行增强现实处理。这种通过借助外部设备获取增强现实设备与物体之间的相对位置关系的方式十分不便。

发明内容

本申请至少提供一种位姿确定方法和装置、设备、介质。

本申请提供了一种位姿确定方法，包括：对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征；将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果；基于目标匹配结果，确定目标设备与第一目标对象之间的目标相对位置关系。

因此，通过对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征，然后将目标二维点的特征与第一目标对象的预设三维点的特征进行匹配，即可根据该匹配结果确定目标设备与第一目标对象之间的目标相对位置关系，无需借助外部设备进行定位，使得整个位姿确定过程更为简便。

其中，在将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果之前，方法还包括：获取若干预设三维点的初始特征，初始特征是利用多个历史二维点的特征得到，多个历史二维点为若干张历史图像中与若干预设三维点对应的二维点；利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征；将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果，包括：将若干目标二维点的特征与预设三维点的目标特征进行匹配，得到目标匹配结果。

因此，通过使用目标二维点的特征对预设三维点的初始特征进行更新得到目标特征，然后使用预设三维点的目标特征与目标二维点的特征进行匹配，能够提高匹配准确度。

其中，利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征的步骤是由目标处理模型执行的。

因此，通过使用目标处理模型执行利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征的步骤，无需用户参与，能够提高更新效率。

其中，目标处理模型包括依序连接的若干组特征增强层；利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征，包括：对于每组特征增强层，利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征；以及，利用特征增强层对若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，得到若干预设三维点的候选特征，预设三维点的候选特征用于得到下一组特征增强层采用的预设三维点的待更新特征；其中，首组特征增强层采用的预设三维点的待更新特征是利用预设三维点的初始特征得到的，最后一组特征增强层得到的预设三维点的候选特征作为预设三维点的目标特征。

因此，通过利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，能够对目标二维点的特征和预设三维点的待更新特征进行增强，能够使得各二维点的特征能够用于在时序上的上下文信息。以及利用特征增强层对若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，能够对进阶特征进行增强，能提高相关二维点和三维点的特征相关性。

其中，在利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征之前，方法还包括：对于每一预设三维点，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征，历史二维点对应的特征融合权重与对应的预设三维点的参考特征相关，预设三维点的参考特征为预设三维点的初始特征或上一组特征增强层得到的预设三维点的候选特征。

因此，对于每一预设三维点，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征，并且预设三维点的参考特征为预设三维点的初始特征或上一组特征增强层得到的预设三维点的候选特征，能够自适应地保留与目标二维点的特征相关的历史二维点的特征，从而提高预设三维点的特征与目标二维点的特征之间的匹配准确度。

其中，在利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征之前，方法还包括：获取与预设三维点对应的至少一个历史二维点的特征和预设三维点的参考特征之间的相似度，其中，响应于特征增强层为首组特征增强层，参考特征为初始特征，响应于特征增强层为非首级特征增强层，参考特征为上一组特征增强层得到的候选特征；基于各历史二维点对应的相似度，确定本组特征增强层采用的各历史二维点对应的特征融合权重。

因此，通过与预设三维点对应的至少一个历史二维点的特征和预设三维点的参考特征之间的相似度，并基于该相似度，确定本组特征增强层采用的各历史二维点对应的特征融合权重，能够提高获取得到的预设三维点的特征与目标二维点的特征之间的相似度，从而提高匹配结果的准确度。

其中，获取若干预设三维点的初始特征，包括：对若干张历史图像进行特征提取，得到关于第一目标对象的若干个二维点的特征；基于若干个二维点的特征，对各二维点进行匹配，得到二维点匹配结果，二维点匹配结果包括若干组匹配二维点组，每组匹配二维点组包括至少两张历史图像中匹配的二维点；利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征。

因此，通过利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征，使得确定得到的预设三维点的初始特征能够具备一定二维点的特征。

其中，在利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征之前，方法还包括：获取各历史图像中关于第一目标对象的三维包围框的尺寸信息以及各历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系，每个相对位置关系对应一历史图像的拍摄时刻；利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征，包括：基于若干个相对位置关系以及三维包围框的尺寸信息，确定各组匹配二维点组对应的预设三维点的位置；以及利用每组匹配二维点组的特征，确定与匹配二维点组对应的预设三维点的初始特征。

因此，通过结合各历史图像中关于第一目标对象的三维包围框的尺寸信息以及各历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系，能够确定更为准确的预设三维点的位置。

其中，方法还包括目标处理模型的训练步骤，训练步骤包括：获取包含第二目标对象的若干第一样本图像以及包含第二目标对象的若干第二样本图像，若干第一样本图像中标注有第二目标对象的三维包围框的尺寸信息以及各第一样本图像拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系，第二目标对象和第一目标对象相同或不同；目标处理模型基于若干第一训练二维点的特征、第二目标对象的三维包围框的尺寸信息以及各第一样本图像拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系，确定若干训练三维点的特征，若干第一训练二维点为若干张第一样本图像中关于第二目标对象的二维点；目标处理模型将若干第二训练二维点的特征与训练三维点的特征进行匹配，得到训练匹配结果，若干第二训练二维点为若干张第二样本图像中关于第二目标对象的二维点；基于训练匹配结果对应的损失，调整目标处理模型的网络参数。

因此，使用包含第二目标对象的若干第一样本图像以及包含第二目标对象的若干第二样本图像对目标处理模型进行训练，而非只能使用包含第一目标对象的若干样本图像进行训练，能够提高目标处理模型的泛化能力。

其中，在基于目标匹配结果，确定目标设备与第一目标对象之间的目标相对位置关系之后，方法还包括：基于目标相对位置关系，确定第一目标对象对应的虚拟内容的显示位置；在显示位置，显示虚拟内容。

因此，通过目标相对位置关系，确定第一目标对象对应的虚拟内容的显示位置，并在显示位置显示虚拟内容，使得在进行增强现实融合的过程中，能够增强现实融合的过程更为简便。

本申请提供了一种位姿确定装置，包括：特征提取模块，用于对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征；特征匹配模块，用于将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果；定位模块，用于基于目标匹配结果，确定目标设备与第一目标对象之间的目标相对位置关系。

本申请提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述位姿确定方法。

本申请提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述位姿确定方法。

上述方案，通过对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征，然后将目标二维点的特征与第一目标对象的预设三维点的特征进行匹配，即可根据该匹配结果确定目标设备与第一目标对象之间的目标相对位置关系，无需借助外部设备进行定位，使得整个位姿确定过程更为简便。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请位姿确定方法一实施例的流程示意图；

图2是本申请位姿确定方法一实施例的另一流程示意图；

图3是本申请位姿确定方法一实施例示出第一目标对象的三维包围框示意图；

图4是本申请位姿确定方法一实施例示出自注意力子层的工作示意图；

图5是本申请位姿确定方法一实施例示出交叉注意力子层的工作示意图；

图6是本申请位姿确定方法一实施例示出特征融合子层的工作示意图；

图7是本申请位姿确定方法一实施例的又一流程示意图；

图8是本申请位姿确定方法一实施例示出目标处理模型的示意图；

图9是本申请位姿确定方法一实施例示出后处理的流程示意图；

图10是本申请位姿确定装置一实施例的结构示意图；

图11是本申请电子设备一实施例的结构示意图；

图12是本申请计算机可读存储介质一实施例的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1，图1是本申请位姿确定方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征。

其中，本公开实施例所述的若干可以是一个及以上。目标设备可以是本公开实施例提供的位姿确定方法的执行设备或与执行设备建立通信连接的拍摄设备。示例性地，目标设备为执行设备，例如目标设备可以是增强现实设备，例如AR眼镜、AR导览车、支持AR功能的手机等等。

第一目标对象可以是存在于定位场景下的任意物体。定位场景指的是目标设备所处环境，室内或室外均可，例如定位场景为室内，第一目标对象可以是放置于地面上的桌子。其中，进行特征提取的方式可以有很多，例如可以通过特征提取网络模型对目标图像进行特征提取，也可以是使用角点检测等方式进行特征提取，提取检测得到的关键点作为二维点，关键点的描述子作为二维点的特征，因此，关于特征提取的方式此处不做具体限定。

目标图像可以是可见光图像，也可以是红外图像。本公开实施例以目标图像为可见光图像为例。

步骤S12：将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果。

其中，关于第一目标对象的若干预设三维点可以是利用包含第一目标对象的历史图像中若干历史二维点经过三角化等方式重建得到。即，可以通过稀疏重建的方式获取第一目标对象的若干三维点，以及各三维点的特征。各三维点的特征可以是认为是第一目标对象的几何特征。包含第一目标对象的历史图像可以是由目标设备拍摄得到，也可以是由其他拍摄设备拍摄得到的。其中，由若干历史二维点经过三角化的方式重建关于第一目标对象的若干预设三维点的过程可以是由其他设备执行，也可以是由本公开实施例提供的位姿确定方法的执行设备执行。示例性地，由其他设备执行重建关于第一目标对象的若干预设三维点的步骤，然后基于该其他设备与执行设备之间的通信连接，接收其他设备发送的重建得到的关于第一目标对象的若干预设三维点的特征。

将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配的方式，可以是由网络模型执行。该网络模型可以是基于各目标二维点的特征与各预设三维点的特征之间的相似度，确定各目标二维点的特征与各预设三维点之间的匹配关系。

步骤S13：基于目标匹配结果，确定目标设备与第一目标对象之间的目标相对位置关系。

具体地，构建各目标二维点与各预设三维点之间的预设关系之后，根据N-视点(Perspectve-n-Point)算法，确定目标设备与第一目标对象之间的目标相对位置关系。示例性，目标相对位置关系可以是以目标设备的相机坐标系为原点，第一目标对象在相机坐标系下的位姿。第一目标对象在相机坐标系下的位姿具体为6自由度的位姿。

请同时参见图2，图2是本申请位姿确定方法一实施例的另一流程示意图。如图2所示，位姿确定方法还可包括以下步骤：

步骤S21：对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于第一目标对象的若干目标二维点的特征。

其中，步骤S21的实现方式具体可参见步骤S11，此处不再赘述。

步骤S22：获取若干预设三维点的初始特征。

其中，初始特征是利用多个历史二维点的特征得到。多个历史二维点为若干张历史图像中与若干预设三维点对应的二维点。其中，本公开实施例所述的多个具体可以是两个及以上。示例性地，若干张历史图像可以是对第一目标对象环绕一周拍摄得到的视频中抽取的部分或全部视频帧。即，若干张历史图像可以是覆盖第一目标对象所有结构的视图。其中，本公开实施例以若干张历史图像为时序图像序列为例，即若干张历史图像由对应拍摄设备先后拍摄得到。其中，假定第一目标对象在拍摄若干张历史图像的过程中保持静态。示例性地，历史图像可以是由移动设备(如手机、平板电脑)对第一目标对象进行视频扫描得到的视频帧。

可选地，获取若干预设三维点的初始特征的方式可以是：对若干张历史图像进行特征提取，得到关于第一目标对象的若干个二维点的特征。具体特征提取的方式可以是常见的目标检测算法，此处不做过多叙述。然后，基于若干个二维点的特征，对个二维点进行匹配，得到二维点匹配结果。其中，二维点匹配结果包括若干组匹配二维点组，每组匹配二维点组包括至少两张历史图像中匹配的二维点。即，在不同的历史图像之间进行特征匹配，得到二维点匹配结果。示例性地，每组匹配二维点组之间包括两个二维点，这两个二维点分别来自不同的历史图像。最后，利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征。其中，可以通过三角化的方式基于二维点匹配结果，重建各匹配二维点组对应的预设三维点的位置以及各预设三维点的初始特征。另一些公开实施例中，可以通过运动恢复结构的方法基于二维点匹配结果，重建关于第一目标对象的预设三维点云。具体通过运动恢复结构的方式基于二维点匹配结果重建关于物体的三维点云的方式可参见现有技术，此处不做过多叙述。

通过利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征，使得确定得到的预设三维点的初始特征能够具备一定二维点的特征。

其中，在利用二维点匹配结果，确定与各匹配二维点组对应的各预设三维点的初始特征之前，还可执行以下步骤：

获取各历史图像中关于第一目标对象的三维包围框的尺寸信息以及各历史图像的拍摄设备与第一目标对象之间的若干相对位置关系，每个相对位置关系对应一历史图像的拍摄时刻。其中，该三维包围框的尺寸信息和各历史图像的拍摄设备与第一目标对象之间的若干相对位置关系可以是预先标注在对应的历史图像上的。

可选地，在各历史图像中标注关于第一目标对象的三维包围框的尺寸信息的方式可以是：用户手动在各个历史图像上绘制关于第一目标对象的三维包围框，其中，该每张历史图像对应三维包围框需要完全覆盖该历史图像中的历史图像。三维包围框的尺寸可以用于表示第一目标对象在真实物理世界下的尺寸。其中，还可通过半自动化的方式确定各张历史图像中关于第一目标对象的包围框，例如接收用户为其中一张历史图像设置三维包围框，然后对其他历史图像进行跟踪，得到其他历史图像中关于第一目标对象的三维包围框。当然，若用户认为跟踪得到的三维包围框不太准确，可以手动对跟踪得到的三维包围框进行旋转或调整三维包围框的尺寸。或者，直接将可调节的三维包围框渲染到历史图像上，然后由用户调整三维包围框的角度和尺寸等信息。标注过程可以离线进行。标注后的结果需要包括一个能够完整包裹住第一目标对象的三维包围框。其中，标注的三维包围框可参见图3，图3是本申请位姿确定方法一实施例示出第一目标对象的三维包围框示意图。如图3所示，第一目标对象为杯子，三维包围框能够完全覆盖住杯子。并且还可以三维包围框的中心位置构建对象坐标系，构建对象坐标系如图3所示。

在各历史图像中标注各历史图像的拍摄设备与第一目标对象之间的相对位置关系之前，可以先执行获取各历史图像的拍摄设备与第一目标对象之间的相对位置关系的步骤。示例性地，利用二维点匹配结果，确定历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系。每个相对位置关系对应一历史图像的拍摄时刻。即，确定各历史图像的拍摄时刻下，拍摄设备与第一目标对象之间的相对位置关系。如上述，若干个相对位置关系均可以是以各拍摄时刻下拍摄设备的相机坐标系为原点，第一目标对象在相机坐标系下的位姿。该位姿可以为6自由度的位姿。具体根据利用二维点匹配结果，确定历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系可以由任意增强现实设备上的AR服务(ARCore或AR Kit)实现。关于具体的实现过程，此处不做过多叙述。标注过程可以离线进行。标注后的结果需要包括带有真实尺度的第一目标对象在相机坐标系下的位姿。

然后，基于若干相对位置关系以及三维包围框的尺寸信息，确定各组匹配二维点对应的预设三维点的位置。以及，利用每组匹配二维点组的特征，确定与匹配二维点组对应的预设三维点的初始特征。示例性地，通过随机抽样与预设三维点相关的多个二维点的特征，通过平均抽样得到的二维点的特征，得到预设三维点的初始特征。例如，从与预设三维点匹配的所有二维点中，选择8个二维点的特征，并通过平均这8个二维点的特征得到预设三维点的初始特征。

其中，运动恢复结构的方法基于二维点匹配结果，重建关于第一目标对象的预设三维点云过程中，可以参考三维包围框的尺寸信息，确定各预设三维点在相机坐标系下的绝对位置。另一些公开实施例中，根据三维包围框的位置和尺寸，可以对重建得到的预设三维点进行筛选，保留位置处于三维包围框以内的预设三维点。一些公开实施例中，三维包围框由其中心位置、尺寸以及绕预设坐标轴的旋转角度进行参数化，示例性地，绕z轴的旋转进行参数化，z轴为竖直方向上的坐标轴，绕z轴的旋转角度可以是偏航角。其中，各历史图像上三维包围框的中心位置相同，可以是建立以三维包围框的中心位置为原点的对象坐标系，进而基于各预设三维点的位置，可以得到各预设三维点在对象坐标系下的位置。从而建立得到关于第一目标对象的稀疏点云。并且，还可以使用三维包围框的尺寸，对预设三维点进行筛选。基于重建的结果，能够得到历史图像中各二维点与预设三维点之间的对应关系，即每个预设三维点与多个历史二维点之间的对应关系，可以形成2D-3D对应图。该对应图可以称之为特征轨迹。

通过结合各历史图像中关于第一目标对象的三维包围框的尺寸信息以及各历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系，能够确定更为准确的预设三维点的位置。

步骤S23：利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征。

一些公开实施例中，以二维点为关键点，二维点的特征为关键点对应的描述子为例。若干目标二维点的特征与若干预设三维点的特征进行匹配，可以认为是目标二维点的描述子与预设三维点的描述子之间的匹配。其中，可以认为二维点的描述子为二维特征，预设三维点的描述子为三维特征。由于每个预设三维点在2D-3D对应图与多个历史二维点的特征关联，故可以通过聚合操作得到预设三维点的描述子。因为聚合操作将多个描述符减少为一个，可能会导致信息丢失。本公开实施例提供的聚合操作，能够根据不同的目标图像中目标二维点的特征自适应地保留历史二维点中信息量最大的特征进行后续目标二维点的特征与预设三维点的特征之间的匹配。

其中，步骤S23可以由目标处理模型执行。其中，目标处理模型包括依序连接的若干组特征增强层。示例性地，特征增强层可以是两组及以上，例如4组。通过使用目标处理模型执行利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征的步骤，无需用户参与，能够提高更新效率。

其中，上述步骤S23可以进一步包括以下步骤：

对于每组特征增强层，利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征。以及，利用特征增强层对若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，得到若干预设三维点的候选特征。其中，预设三维点的候选特征用于得到下一组特征增强层采用的预设三维点的待更新特征。其中，首组特征增强层采用的预设三维点的待更新特征是利用预设三维点的初始特征得到的，最后一组特征增强层得到的预设三维点的候选特征作为预设三维点的目标特征。

具体地，特征增强层包括自注意力子层和交叉注意力子层。自注意力子层用于对输入自注意力子层的若干目标二维点的特征和若干预设三维点的待更新特征分别进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征。其中，输入每组自注意力子层的目标二维点的特征均可以是直接从目标图像中提取得到的。为更好地理解自注意力子层的工作过程，请参见图4，图4是本申请位姿确定方法一实施例示出自注意力子层的工作示意图。图4中，第一列圆圈表示历史二维点的特征，第二列方块表示预设三维点的特征，第三列圆圈表示目标二维点的特征。如图4所示，自注意力子层的工作涉及到第二列和第三列，即在自注意力子层中，对输入自注意力子层的若干目标二维点的特征和若干预设三维点的待更新特征分别进行自注意力处理，能够分别对目标二维点的特征和若干预设三维点的待更新特征进行特征增强。

交叉注意力子层用于对输入交叉注意力子层的若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，得到若干预设三维点的候选特征。可选地，交叉注意力子层还可在对输入交叉注意力子层的若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理后，得到若干目标二维点的目标特征。即，最后一组特征增强层输出的目标二维点的目标特征。为更好地理解交叉注意力子层的工作过程，请参见图5，图5是本申请位姿确定方法一实施例示出交叉注意力子层的工作示意图。图5中，第一列圆圈表示历史二维点的特征，第二列方块表示预设三维点的特征，第三列圆圈表示目标二维点的特征。如图5所示，在交叉注意力子层对输入交叉注意力子层的若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理。

通过利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，能够对目标二维点的特征和预设三维点的待更新特征进行增强，能够使得各二维点的特征能够用于在时序上的上下文信息。以及利用特征增强层对若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，能够对进阶特征进行增强，能提高相关二维点和三维点的特征相关性。

一些公开实施例中，在执行利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征的步骤之前，还可执行以下步骤：

对于每一预设三维点，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征。其中，历史二维点对应的特征融合权重与对应的预设三维点的参考特征相关。预设三维点的参考特征为预设三维点的初始特征或上一组特征增强层得到的预设三维点的候选特征。

通过对于每一预设三维点，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征，并且预设三维点的参考特征为预设三维点的初始特征或上一组特征增强层得到的预设三维点的候选特征，能够自适应地保留与目标二维点的特征相关的历史二维点的特征，从而提高预设三维点的特征与目标二维点的特征之间的匹配准确度。

其中，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征的方式可以包括以下步骤：

获取与预设三维点对应的至少一个历史二维点的特征和预设三维点的参考特征之间的相似度。其中，响应于特征增强层为首组特征增强层，参考特征为初始特征。响应于特征增强层为非首级特征增强层，参考特征为上一组特征增强层得到的候选特征。如上述，各特征增强层依序连接，没有上一级特征增强层的特征增强层为首组特征增强层，没有一下级连接的特征增强层为最后一组特征增强层。

基于各历史二维点对应的相似度，确定本组特征增强层采用的各历史二维点对应的特征融合权重。

一些公开实施例中，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征的步骤是由特征增强层中的特征融合子层执行。其中，特征融合子层可以是图注意力层。为更好地理解特征融合子层的工作过程，请参见图6，图6是本申请位姿确定方法一实施例示出特征融合子层的工作示意图。图6中，第一列圆圈表示历史二维点的特征，第二列方块表示预设三维点的特征，第三列圆圈表示目标二维点的特征。特征融合子层的工作涉及到第一列和第二列。如图6所示，特征融合子层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征。

其中，特征增强层中的所有注意力层均可使用线性注意。

其中，特征融合子层进行特征融合的公式可参见公式(1)和公式(2)：

其中，

表示历史二维点i^*的特征，

表示预设三维点j的参考特征，

表示特征融合后预设三维点j的待更新特征。

表示针对预设三维点j的特征融合处理。W表示每个历史二维点与预设三维点之间的对应关系的权值矩阵，该权值矩阵由目标处理模型训练得到，其中，W∈R^D×D,D用于表示对应特征的输入维度。sim(·,·)＝<R^D,R^D>，用于计算注意系数，该系数用于衡量聚合操作中历史二维点的描述子对预设三维点的描述子的重要性，即历史二维点与预设三维点之间的相似度。通过softmax函数，得到各历史二维点对应的特征融合权重a_i*。

在此基础上，自注意力子层和交叉自注意力子层对各自的输入特征进行处理的方式如下：

其中，

表示自注意力处理后的目标二维点的进阶特征，

表示自注意力处理后的预设三维点的进阶特征。

表示从目标图像中提取得到的目标二维点的特征。

表示预设三维点的待更新特征。

表示经过交叉注意力处理后的目标二维点的目标特征，

表示经过交叉注意力处理后的预设三维点的候选特征。

通过这种依序连接的若干组特征增强层的网络设置方式以及每组特征增强层中特征融合子层进行特征融合的方式，使得能够目标处理模型能够根据2D-3D对应图中历史二维点的特征与目标二维点的特征之间的相关性自适应地关注不同的历史二维点的特征，从而为后续目标二维点的特征与预设三维点的特征之间的匹配保留更多的判别信息。以及，通过特征融合子层与自注意力子层和交叉注意力子层的交织，使得各层之间能够相互交换信息，使得后续的目标二维点的特征与预设三维点的特征之间的匹配是全局一致的、上下文相关的。

通过与预设三维点对应的至少一个历史二维点的特征和预设三维点的参考特征之间的相似度，并基于该相似度，确定本组特征增强层采用的各历史二维点对应的特征融合权重，能够提高获取得到的预设三维点的特征与目标二维点的特征之间的相似度，从而提高匹配结果的准确度。

通过使用多组特征增强层，可以达到结合目标图像的二维特征点将历史图像中的特征有选择性的融合到预设三维点上，可以实现后续更佳的2D-3D特征点匹配。

步骤S24：将若干目标二维点的特征与预设三维点的目标特征进行匹配，得到目标匹配结果。

其中，目标二维点的特征可以是直接从目标图像中提取得到的特征，也可以是将从目标图像中提取得到的特征经过特征增强层处理得到的目标特征。其中，步骤S24可以由目标处理模型执行，即，目标处理模型包括特征匹配层，该特征匹配层的输入包括最后一组特征增强层输出的若干预设三维点的目标特征以及目标二维点的参考特征，特征匹配层输出目标匹配结果。目标二维点的参考特征可以是直接从目标图像中提取得到的特征，也可以是将从目标图像中提取得到的特征经过特征增强层处理得到的目标特征。其中，目标匹配结果可以包括各个目标二维点的参考特征与各个预设三维特征之间的匹配情况以及匹配情况的置信度。

一些公开实施例中，通过softmax算法提取目标二维点和目标三维点的特征匹配得到。首先，计算目标二维点的目标特征和预设三维点的目标特征之间的得分矩阵S：

其中，具体计算方式可以是依次将一个历史二维点的特征与多个预设三维点之间的特征进行爱因斯坦求和，以及依次将一个预设三维点的特征与多个历史二维点的特征进行爱因斯坦求和。

然后，确定各二维点的特征与三维点的特征之间的匹配置信度C_3D(q,j)。其中，C_3D(q,j)的计算公式请参见公式(6)：

C_3D(q,j)＝softmax(S(q,·))_j·softmax(S(·,j))_q (6)；

其中，在选择置信阈值后，C_3D成为一个置换矩阵M_3D，表示目标二维点的特征与预设三维点的特征之间的匹配结果。置信阈值指的是在某一目标二维点的特征与某一预设三维点的特征之间的匹配置信度大于或等于置信阈值的情况下，则表示目标二维点的特征与该预设三维点的特征匹配，否则表示该目标二维点的特征与该预设三维点的特征不匹配。该置信阈值可以由用户自定义，或选择出厂设置的参数。置换矩阵M_3D中相互匹配的目标二维点的特征与预设三维点的特征对应的矩阵位置为1，其余位置为0。其中，可以认为矩阵M_3D为目标匹配结果。通过矩阵M_3D能够清楚地展示相互匹配的目标二维点的特征和预设三维点的特征。

通过矩阵M_3D，第一目标对象与目标设备之间的目标相对位置关系，即第一目标对象在目标图像拍摄时刻下目标设备对应的相机坐标系下的位姿能够通过RANSAC的PnP算法得到。

通过使用目标二维点的特征对预设三维点的初始特征进行更新得到目标特征，然后使用预设三维点的目标特征与目标二维点的特征进行匹配，能够提高匹配准确度。

为更好地理解本公开实施例提供的位姿确定方法，请同时参见图7，图7是本申请位姿确定方法一实施例的又一流程示意图。如图7所示，第一步获取历史图像并进行标注，需要标注的内容可以包括各历史图像{I_i}的拍摄时刻下与第一目标对象之间的相对位姿{ξ_i}以及第一目标对象的三维包围框B。第二步，运动恢复结构。通过运动恢复结构方法能够对第一目标对象进行稀疏点云重建，得到关于第一目标对象的若干个预设三维点{P_j}。第三步，通过重建信息，得到2D-3D对应图。即，每一预设三维点匹配的若干个历史二维点之间的对应关系图{K_i}。第四步，使用目标处理模型进行2D-3D匹配，即将目标二维点的特征与预设三维点的特征进行匹配，得到目标匹配结果。第五步，通过PnP的方式基于目标匹配结果确定第一目标对象在目标图像拍摄时刻的相机坐标系下的位姿。

一些公开实施例中，可以仅通过目标图像的输入得到第一目标对象与目标设备之间的目标相对位置关系。为了进一步获取更为准确的第一目标对象与目标设备之间的目标相对位置关系，对第一目标对象基于特征的姿态跟踪。即，利用获取得到的若干张历史目标图像在线重建三维地图。并将若干张历史目标图像作为关键帧进行维护。历史目标图像为目标设备在拍摄目标图像以前拍摄得到的目标图像。在每一个时间步中，跟踪采用紧耦合方法，同时依赖于预先构建的三维地图和在线重建的三维地图，进行目标二维点的特征与预设三维点的特征之间的匹配，以获取第一目标对象与目标设备之间的目标相对位置关系。其中，在线重建的三维地图可以认为是对第一目标对象的预设三维点形成的点云进行丰富，使得能够拥有更多的关于第一目标对象的预设三维点进行后续的匹配，从而提高获取得到的目标相对位置关系的准确度。以及，因为进行姿态跟踪，能够保留用于在线重建的三维地图的历史目标图像中二维点的特征以及第一目标对象的预设三维点的特征，相比于基于单帧的目标图像进行位姿确定而言，前者确定的目标相对位置关系更为准确。

一些公开实施例中，位姿确定方法还包括目标处理模型的训练步骤。请同时参见图8，图8是本申请位姿确定方法一实施例示出目标处理模型的示意图。如图8所示，训练步骤包括：

步骤S31：获取包含第二目标对象的若干第一样本图像以及包括第二目标对象的若干第二样本图像，若干第一样本图像中标注有第二目标对象的三维包围框的尺寸信息以及各第一样本图像拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系。

其中，第二目标对象和第一目标对象可以相同，也可以不同。示例性地，第一目标对象可以是放置于桌面上的杯子，第二目标对象可以是放置于桌面上的电脑。其中，第一样本图像可以是时序图像，例如对第二目标对象环绕一周拍摄得到的视频中提取得到的部分或全部视频帧。一些公开实施例中，第一样本图像包括多个图像序列，不同图像序列是在不同的背景下收集的，每一图像序列能够包含第二目标对象的所有视图。每个图像序列的长度可以相同，也可以不同。同理，第二样本图像可以是时序图像，例如对第二目标对象环绕一周拍摄得到的视频中提取得到的部分或全部视频帧。例如，通过等距采样的方式从视频中提取若干张第二样本图像。其中，第一样本图像和第二样本图像中第二目标对象所处环境可以不同，即，拍摄第一样本图像时第二目标对象可以是放置在室内的桌面上，拍摄第二样本图像时第二目标对象可以是放置在室外的地面上。当然，第二图像也可以是非时序图像，也就是对处于不同环境下的第二目标对象拍摄得到。其中，若干第一样本图像和若干第二样本图像的拍摄设备可以相同，也可以不同。其中，若干第一样本图像用于重建第二目标对象的预设三维点云，若干第二样本图像用于对目标处理模型进行评估。

一些公开实施例中，若干第一样本图像上标注有对应第一样本图像的拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系，以及标注有第二目标对象对应的三维包围框的尺寸信息。第一样本图像可用于对第二目标对象进行稀疏点云的重建。该相对位置关系可以是第二目标对象在各拍摄时刻的相机坐标系下的位姿，各相机坐标系的原点为拍摄设备的相机所处位置。各拍摄时刻的相机坐标系指的是以拍摄设备的相机位置为坐标系原点建立的坐标系。具体获取若干第一样本图像和若干第二样本图像的拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系的方式可参见上述历史图像的拍摄时刻下历史图像的拍摄设备与第一目标对象之间的相对位置关系的方式，此处不再赘述。标注三维包围框的尺寸信息的方式可参见上述，此处不再赘述。

步骤S32：目标处理模型基于若干第一训练二维点的特征、第二目标对象的三维包围框的尺寸信息以及各第一样本图像拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系，确定若干训练三维点的特征。

其中，若干第一训练二维点为若干张第一样本图像中关于第二目标对象的二维点。其中，从若干第一训练图像中提取第一训练二维点的方式可参见上述从目标图像中提取关于第一目标对象的二维点的方式或从历史图像中提取关于第一目标对象的二维点的方式，此处不再赘述。

其中，在执行步骤S32之前，还可包括以下步骤：使用若干第一训练二维点的特征对第二目标对象进行重建，得到关于第二目标对象的若干训练三维点的初始特征。

然后，使用运动恢复结构的方式，对第二目标对象的三维点进行重建，得到关于第二目对象的三维点云。具体获取第二目标对象的训练三维点的初始特征的方式可参见上述获取第一目标对象的三维点的特征的方式，此处不再赘述。

一些公开实施例中，在对第二目标对象的三维点进行重建，得到关于第二目标对象的三维点云之前，还可对获取得到的若干第一样本图像的拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系进行后处理，减少位姿漂移误差，并确保不同图像序列之间的相对位置关系标注一致，具体可以包括尺度的一致。具体实现方式可以是将图像序列中待注释的三维包围框对齐，并使用COLMAP执行束调整，即BA优化。由于图像序列之间的背景环境不同，通过使用前景匹配和背景匹配的混合，例如在二维目标包围框内的所有匹配图像对之间提取前景进行匹配。背景匹配只在背景环境相同的图像序列中的图像之间进行。二维目标包围框指的是样本图像中包含第二目标对象的包围框，其代表第二目标对象在样本图像中所处区域。另一些公开实施例中，为保持快速的重建速度，直接使用若干第一样本图像的拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系以及三角剖分的方式重建关于第二目标对象的点云，无需通过束调整进一步优化该相对位置关系。

为更好地理解后处理过程，请同时参见图9，图9是本申请位姿确定方法一实施例示出后处理的流程示意图。如图9所示，先进行数据采集，得到若干组样本图像序列，例如图9示出了两个图像序列，分别是图像序列1和图像序列2，将图像序列1和图像序列2图像序列中待注释的三维包围框对齐，并执行束调整，以此减少位姿漂移误差。

上述步骤S32具体可以包括以下步骤：利用若干第二训练二维点的特征对若干训练三维点的初始特征进行更新，得到各训练三维点的目标特征。其中，具体利用若干第二训练二维点的特征对若干训练三维点的初始特征进行更新，得到各训练三维点的目标特征的方式可参考上述步骤S23中利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征的步骤，此处不再赘述。其中，在利用若干第二训练二维点的特征对若干训练三维点的初始特征进行更新，得到各训练三维点的目标特征时，也可得到若干第二训练二维点的目标特征，即最后一组特征增强层可以输出个训练三维点的目标特征以及各第二训练二维点的目标特征。

一些公开实施例中，为减少步骤S33的匹配过程中的错误匹配，在重建第二目标对象的三维点云阶段，只保留处于标注的三维包围框中的三维点，以及只使用第二样本图像中处于二维包围框中的第二训练二维点的特征进行匹配，得到训练匹配结果。同理，在应用过程中，也可以只使用目标图像中处于二维包围框中的目标二维点与处于标注的三维包围框中的预设三维点进行匹配，得到目标匹配结果。第二目标对象的二维包围框或第一目标对象的二维包围框可以通过二维对象检测器得到。即，通过对第二样本图像或目标图像进行对象检测，得到第二目标对象在第二样本图像中的位置，即可得到包含该第二目标对象的二维包围框，或得到第一目标对象在目标图像中的位置，即可得到包含第一目标对象的二维包围框。

步骤S33：目标处理模型将若干第二训练二维点的特征与训练三维点的特征进行匹配，得到训练匹配结果。

其中，可以是将直接从第二样本图像中得到的第二训练二维点的特征与训练三维点的目标特征进行匹配，也可以是将第二训练二维点的目标特征与训练三维点的目标特征进行匹配，得到训练匹配结果。

步骤S34：基于训练匹配结果对应的损失，调整目标处理模型的网络参数。

其中，损失的确定方式可以是基于匹配置信度C_3D计算焦点损失L。具体地计算方式可参见公式(7)：

其中，

为监督信号。

表示对应的二维点和对应的三维点匹配，

表示对应的二维点和对应的三维点不匹配。本公开实施例中，监督信号可以直接第二训练二维点与训练三维点之间的对应关系中获得。示例性地，对第二样本图像进行密集的三维重建，并对重建的网格进行渲染，获得监督信号。通过此种方式能够利用学习到的相对视点不变的局部特征，从而在保持精度的情况下推广到不可见的视图。

一些应用场景中，用于评估预测目标对象在相机坐标系下的姿态常用度量是5cm-5deg度量，如果误差低于5cm和5。，则认为确定的位姿是正确的。本公开实施例，进一步将标准缩小到1cm-1deg和3cm-3deg，从而为增强现实应用中的姿态估计建立一个更严格的度量。

通过使用包含第二目标对象的若干第一样本图像以及包含第二目标对象的若干第二样本图像对目标处理模型进行训练，而非只能使用包含第一目标对象的若干样本图像进行训练，能够提高目标处理模型的泛化能力。也就是通过使用A目标对象训练得到的目标处理模型，能够直接应用于B目标对象的定位过程。

一些公开实施例中，在执行步骤S13之后，还可执行以下步骤：基于目标相对位置关系，确定第一目标对象对应的虚拟内容的显示位置。然后，在显示位置，显示虚拟内容。其中，虚拟内容可以是虚拟图像和虚拟文字等任意能够进行增强现实的内容。示例性地，虚拟内容可以是在第一目标对象外表面增加标志物。也就是将第一目标对象作为增强现实效果的“虚拟锚点”。例如，预先建立虚拟内容与第一目标对象之间的相对位置关系，然后基于第一目标对象与目标设备之间的相对位置关系，确定虚拟内容与目标设备之间的相对位置关系。然后，基于虚拟内容与目标设备之间的相对位置关系以及目标设备的投影参数，确定虚拟内容在目标图像上的显示位置。然后，在目标图像上显示虚拟内容。通过目标相对位置关系，确定第一目标对象对应的虚拟内容的显示位置，并在显示位置显示虚拟内容，使得在进行增强现实融合的过程中，能够增强现实融合的过程更为简便。

即，本公开实施例提供的位姿确定方法针对输入的2D图像，先使用2D特征点检测算法检测出输入图像上的2D特征点。然后使用基于图注意力机制的目标处理模型将输入图像中的2D特征点与目标对象的3D特征点进行匹配，基于匹配的结果使用N-视点法(Perspectve-n-Point)算法估计出目标对象的6D姿态。

一些应用场景中，只需一段带目标对象在相机坐标系下的位姿和目标对象的三维包围框标注的序列，即可完成对目标对象的建模用于后续的姿态估计。以及，无需依赖物体三维模型，降低数据采集难度。另外，不需要物体的高精度三维CAD模型用于训练神经网络，能够更好的适用于日常生活中常见的物体。

另外，无需标注大量训练数据，无需对各个物体单独训练，提高应用效率。并且，还能降低时间、人力成本。该模型可以在预先采集的目标对象数据上进行训练，然后可以泛化到新的目标对象上，即无需额外训练模型即可应用到新物体，提高应用效率。

一些应用场景中，可以将本方法集成到有计算能力的数据采集设备中，使用移动设备对生活中的物体进行扫描和稀疏重建。或者，可以将本方法集成到有计算能力的移动设备中，能够实时估计生活中物体的6D姿态。示例性地，可以应用于物体6D姿态估计相关的手机程序以及可以搭载AR算法的移动设备。

其中，位姿确定方法的执行主体可以是位姿确定装置，例如，位姿确定装置可以应用于终端设备或服务器或其它处理设备。其中，终端设备可以为增强现实设备、用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该位姿确定方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

请参阅图10，图10是本申请位姿确定装置一实施例的结构示意图。位姿确定装置40包括特征提取模块41、特征匹配模块42以及定位模块43。特征提取模块41，用于对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于所述第一目标对象的若干目标二维点的特征；特征匹配模块42，用于将所述若干目标二维点的特征与关于所述第一目标对象的若干预设三维点的特征进行匹配，得到各所述目标二维点与各所述预设三维点之间的目标匹配结果；定位模块43，用于基于所述目标匹配结果，确定所述目标设备与所述第一目标对象之间的目标相对位置关系。

一些公开实施例中，在将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果之前，特征匹配模块42还用于：获取若干预设三维点的初始特征，初始特征是利用多个历史二维点的特征得到，多个历史二维点为若干张历史图像中与若干预设三维点对应的二维点；利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征；将若干目标二维点的特征与关于第一目标对象的若干预设三维点的特征进行匹配，得到各目标二维点与各预设三维点之间的目标匹配结果，包括：将若干目标二维点的特征与预设三维点的目标特征进行匹配，得到目标匹配结果。

上述方案，通过使用目标二维点的特征对预设三维点的初始特征进行更新得到目标特征，然后使用预设三维点的目标特征与目标二维点的特征进行匹配，能够提高匹配准确度。

一些公开实施例中，利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征的步骤是由目标处理模型执行的。

上述方案，通过使用目标处理模型执行利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征的步骤，无需用户参与，能够提高更新效率。

一些公开实施例中，目标处理模型包括依序连接的若干组特征增强层；特征匹配模块42利用若干目标二维点的特征对若干预设三维点的初始特征进行更新，得到各预设三维点的目标特征，包括：对于每组特征增强层，利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征；以及，利用特征增强层对若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，得到若干预设三维点的候选特征，预设三维点的候选特征用于得到下一组特征增强层采用的预设三维点的待更新特征；其中，首组特征增强层采用的预设三维点的待更新特征是利用预设三维点的初始特征得到的，最后一组特征增强层得到的预设三维点的候选特征作为预设三维点的目标特征。

上述方案，通过利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，能够对目标二维点的特征和预设三维点的待更新特征进行增强，能够使得各二维点的特征能够用于在时序上的上下文信息。以及利用特征增强层对若干目标二维点的进阶特征和若干预设三维点的进阶特征进行交叉注意力处理，能够对进阶特征进行增强，能提高相关二维点和三维点的特征相关性。

一些公开实施例中，在利用特征增强层分别对输入的若干目标二维点的特征和若干预设三维点的待更新特征进行自注意力处理，得到若干目标二维点的进阶特征以及若干预设三维点的进阶特征之前，特征匹配模块42还用于：对于每一预设三维点，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征，历史二维点对应的特征融合权重与对应的预设三维点的参考特征相关，预设三维点的参考特征为预设三维点的初始特征或上一组特征增强层得到的预设三维点的候选特征。

上述方案，对于每一预设三维点，利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征，并且预设三维点的参考特征为预设三维点的初始特征或上一组特征增强层得到的预设三维点的候选特征，能够自适应地保留与目标二维点的特征相关的历史二维点的特征，从而提高预设三维点的特征与目标二维点的特征之间的匹配准确度。

一些公开实施例中，在利用本组特征增强层将与预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组特征增强层采用的预设三维点的待更新特征之前，特征匹配模块42还用于：获取与预设三维点对应的至少一个历史二维点的特征和预设三维点的参考特征之间的相似度，其中，响应于特征增强层为首组特征增强层，参考特征为初始特征，响应于特征增强层为非首级特征增强层，参考特征为上一组特征增强层得到的候选特征；基于各历史二维点对应的相似度，确定本组特征增强层采用的各历史二维点对应的特征融合权重。

上述方案，通过与预设三维点对应的至少一个历史二维点的特征和预设三维点的参考特征之间的相似度，并基于该相似度，确定本组特征增强层采用的各历史二维点对应的特征融合权重，能够提高获取得到的预设三维点的特征与目标二维点的特征之间的相似度，从而提高匹配结果的准确度。

一些公开实施例中，特征匹配模块42获取若干预设三维点的初始特征，包括：对若干张历史图像进行特征提取，得到关于第一目标对象的若干个二维点的特征；基于若干个二维点的特征，对各二维点进行匹配，得到二维点匹配结果，二维点匹配结果包括若干组匹配二维点组，每组匹配二维点组包括至少两张历史图像中匹配的二维点；利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征。

上述方案，通过利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征，使得确定得到的预设三维点的初始特征能够具备一定二维点的特征。

一些公开实施例中，在利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征之前，方法还包括：获取各历史图像中关于第一目标对象的三维包围框的尺寸信息以及各历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系，每个相对位置关系对应一历史图像的拍摄时刻；利用二维点匹配结果，确定分别与各匹配二维点组对应的各预设三维点的初始特征，包括：基于若干个相对位置关系以及三维包围框的尺寸信息，确定各组匹配二维点组对应的预设三维点的位置；以及利用每组匹配二维点组的特征，确定与匹配二维点组对应的预设三维点的初始特征。

上述方案，通过结合各历史图像中关于第一目标对象的三维包围框的尺寸信息以及各历史图像的拍摄设备与第一目标对象之间的若干个相对位置关系，能够确定更为准确的预设三维点的位置。

一些公开实施例中，位姿确定装置40还包括训练模块(图未示)，训练模块用于执行目标处理模型的训练步骤，训练步骤包括：获取包含第二目标对象的若干第一样本图像以及包含第二目标对象的若干第二样本图像，若干第一样本图像中标注有第二目标对象的三维包围框的尺寸信息以及各第一样本图像拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系，第二目标对象和第一目标对象相同或不同；目标处理模型基于若干第一训练二维点的特征、第二目标对象的三维包围框的尺寸信息以及各第一样本图像拍摄时刻下对应拍摄设备与第二目标对象之间的相对位置关系，确定若干训练三维点的特征，若干第一训练二维点为若干张第一样本图像中关于第二目标对象的二维点；目标处理模型将若干第二训练二维点的特征与训练三维点的特征进行匹配，得到训练匹配结果，若干第二训练二维点为若干张第二样本图像中关于第二目标对象的二维点；基于训练匹配结果对应的损失，调整目标处理模型的网络参数。

上述方案，使用包含第二目标对象的若干第一样本图像以及包含第二目标对象的若干第二样本图像对目标处理模型进行训练，而非只能使用包含第一目标对象的若干样本图像进行训练，能够提高目标处理模型的泛化能力。

一些公开实施例中，位姿确定装置40还包括增强现实模块(图未示)，在基于目标匹配结果，确定目标设备与第一目标对象之间的目标相对位置关系之后，增强现实模块用于：基于目标相对位置关系，确定第一目标对象对应的虚拟内容的显示位置；在显示位置，显示虚拟内容。

上述方案，通过目标相对位置关系，确定第一目标对象对应的虚拟内容的显示位置，并在显示位置显示虚拟内容，使得在进行增强现实融合的过程中，能够增强现实融合的过程更为简便。

请参阅图11，图11是本申请电子设备一实施例的结构示意图。电子设备50包括存储器51和处理器52，处理器52用于执行存储器51中存储的程序指令，以实现上述任一位姿确定方法实施例中的步骤。在一个具体的实施场景中，电子设备50可以包括但不限于：任意能够支持人脸支付或人脸识别的设备、安防设备、微型计算机、台式电脑、服务器，此外，电子设备50还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器52用于控制其自身以及存储器51以实现上述任一位姿确定方法实施例中的步骤。处理器52还可以称为CPU(Central Processing Unit，中央处理单元)。处理器52可能是一种集成电路芯片，具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器52可以由集成电路芯片共同实现。

请参阅图12，图12是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质60存储有程序指令61，程序指令61被处理器执行时实现上述任一位姿确定方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种位姿确定方法，其特征在于，包括：

对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于所述第一目标对象的若干目标二维点的特征；

将所述若干目标二维点的特征与关于所述第一目标对象的若干预设三维点的特征进行匹配，得到各所述目标二维点与各所述预设三维点之间的目标匹配结果；

基于所述目标匹配结果，确定所述目标设备与所述第一目标对象之间的目标相对位置关系。

2.根据权利要求1所述的方法，其特征在于，在所述将所述若干目标二维点的特征与关于所述第一目标对象的若干预设三维点的特征进行匹配，得到各所述目标二维点与各所述预设三维点之间的目标匹配结果之前，所述方法还包括：

获取所述若干预设三维点的初始特征，所述初始特征是利用多个历史二维点的特征得到，所述多个历史二维点为所述若干张历史图像中与所述若干预设三维点对应的二维点；

利用所述若干目标二维点的特征对所述若干预设三维点的初始特征进行更新，得到各所述预设三维点的目标特征；

所述将所述若干目标二维点的特征与关于所述第一目标对象的若干预设三维点的特征进行匹配，得到各所述目标二维点与各所述预设三维点之间的目标匹配结果，包括：

将所述若干目标二维点的特征与所述预设三维点的目标特征进行匹配，得到所述目标匹配结果。

3.根据权利要求2所述的方法，其特征在于，所述利用所述若干目标二维点的特征对所述若干预设三维点的初始特征进行更新，得到各所述预设三维点的目标特征的步骤是由目标处理模型执行的。

4.根据权利要求3所述的方法，其特征在于，所述目标处理模型包括依序连接的若干组特征增强层；

所述利用所述若干目标二维点的特征对所述若干预设三维点的初始特征进行更新，得到各所述预设三维点的目标特征，包括：

对于每组所述特征增强层，利用所述特征增强层分别对输入的所述若干目标二维点的特征和所述若干预设三维点的待更新特征进行自注意力处理，得到若干所述目标二维点的进阶特征以及所述若干预设三维点的进阶特征；

以及，利用所述特征增强层对所述若干所述目标二维点的进阶特征和所述若干预设三维点的进阶特征进行交叉注意力处理，得到所述若干预设三维点的候选特征，所述预设三维点的候选特征用于得到下一组所述特征增强层采用的所述预设三维点的待更新特征；

其中，首组所述特征增强层采用的所述预设三维点的待更新特征是利用所述预设三维点的初始特征得到的，最后一组所述特征增强层得到的所述预设三维点的候选特征作为所述预设三维点的目标特征。

5.根据权利要求4所述的方法，其特征在于，在所述利用所述特征增强层分别对输入的所述若干目标二维点的特征和所述若干预设三维点的待更新特征进行自注意力处理，得到若干所述目标二维点的进阶特征以及所述若干预设三维点的进阶特征之前，所述方法还包括：

对于每一所述预设三维点，利用本组所述特征增强层将与所述预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组所述特征增强层采用的所述预设三维点的待更新特征，所述历史二维点对应的特征融合权重与对应的所述预设三维点的参考特征相关，所述预设三维点的参考特征为所述预设三维点的初始特征或上一组所述特征增强层得到的所述预设三维点的候选特征。

6.根据权利要求5所述的方法，其特征在于，在所述利用本组所述特征增强层将与所述预设三维点对应的至少一个历史二维点的特征进行加权融合，得到本组所述特征增强层采用的所述预设三维点的待更新特征之前，所述方法还包括：

获取与所述预设三维点对应的至少一个历史二维点的特征和所述预设三维点的参考特征之间的相似度，其中，响应于所述特征增强层为首组特征增强层，所述参考特征为所述初始特征，响应于所述特征增强层为非首级特征增强层，所述参考特征为上一组所述特征增强层得到的所述候选特征；

基于各所述历史二维点对应的所述相似度，确定本组所述特征增强层采用的各所述历史二维点对应的特征融合权重。

7.根据权利要求2至6任一项所述的方法，其特征在于，所述获取所述若干预设三维点的初始特征，包括：

对若干张所述历史图像进行特征提取，得到关于所述第一目标对象的若干个二维点的特征；

基于所述若干个二维点的特征，对各所述二维点进行匹配，得到二维点匹配结果，所述二维点匹配结果包括若干组匹配二维点组，每组所述匹配二维点组包括至少两张所述历史图像中匹配的二维点；

利用所述二维点匹配结果，确定分别与各所述匹配二维点组对应的各所述预设三维点的初始特征。

8.根据权利要求7所述的方法，其特征在于，在所述利用所述二维点匹配结果，确定分别与各所述匹配二维点组对应的各所述预设三维点的初始特征之前，所述方法还包括：

获取各所述历史图像中关于所述第一目标对象的三维包围框的尺寸信息以及各所述历史图像的拍摄设备与所述第一目标对象之间的若干个相对位置关系，每个所述相对位置关系对应一所述历史图像的拍摄时刻；

所述利用所述二维点匹配结果，确定分别与各所述匹配二维点组对应的各所述预设三维点的初始特征，包括：

基于所述若干个相对位置关系以及所述三维包围框的尺寸信息，确定各组匹配二维点组对应的所述预设三维点的位置；以及

利用每组匹配二维点组的特征，确定与所述匹配二维点组对应的所述预设三维点的初始特征。

9.根据权利要求3-8任一项所述的方法，其特征在于，所述方法还包括所述目标处理模型的训练步骤，所述训练步骤包括：

获取包含第二目标对象的若干第一样本图像以及包含所述第二目标对象的若干第二样本图像，所述若干第一样本图像中标注有所述第二目标对象的三维包围框的尺寸信息以及各所述第一样本图像拍摄时刻下对应拍摄设备与所述第二目标对象之间的相对位置关系，所述第二目标对象和所述第一目标对象相同或不同；

所述目标处理模型基于若干第一训练二维点的特征、所述第二目标对象的三维包围框的尺寸信息以及各所述第一样本图像拍摄时刻下对应拍摄设备与所述第二目标对象之间的相对位置关系，确定若干训练三维点的特征，所述若干第一训练二维点为所述若干张第一样本图像中关于所述第二目标对象的二维点；

所述目标处理模型将若干第二训练二维点的特征与所述训练三维点的特征进行匹配，得到训练匹配结果，所述若干第二训练二维点为所述若干张第二样本图像中关于所述第二目标对象的二维点；

基于所述训练匹配结果对应的损失，调整所述目标处理模型的网络参数。

10.根据权利要求1-9任一项所述的方法，其特征在于，在所述基于所述目标匹配结果，确定所述目标设备与所述第一目标对象之间的目标相对位置关系之后，所述方法还包括：

基于所述目标相对位置关系，确定所述第一目标对象对应的虚拟内容的显示位置；

在所述显示位置，显示所述虚拟内容。

11.一种位姿确定装置，其特征在于，包括：

特征提取模块，用于对目标设备拍摄的包含第一目标对象的目标图像进行特征提取，得到关于所述第一目标对象的若干目标二维点的特征；

特征匹配模块，用于将所述若干目标二维点的特征与关于所述第一目标对象的若干预设三维点的特征进行匹配，得到各所述目标二维点与各所述预设三维点之间的目标匹配结果；

定位模块，用于基于所述目标匹配结果，确定所述目标设备与所述第一目标对象之间的目标相对位置关系。

12.一种电子设备，其特征在于，包括存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至10任一项所述的方法。