CN111983635B

CN111983635B - 位姿确定方法及装置、电子设备和存储介质

Info

Publication number: CN111983635B
Application number: CN202010826704.XA
Authority: CN
Inventors: 刘浩敏; 杭蒙; 张壮; 章国锋
Original assignee: Zhejiang Shangtang Technology Development Co Ltd
Current assignee: Zhejiang Shangtang Technology Development Co Ltd
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2022-03-29
Anticipated expiration: 2040-08-17
Also published as: JP7236565B2; CN114814872A; JP2022548441A; TW202208879A; KR20220028042A; CN111983635A; WO2022036980A1

Abstract

本公开涉及一种位姿确定方法及装置、电子设备和存储介质。所述方法包括：获取目标场景中的第一终端采集的采集数据；获取包含所述目标场景的全局地图，其中，所述全局地图基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成，且所述全局地图满足精度条件；根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。通过上述过程，可以规模化采集大量的第一位姿数据，减小对目标场景的额外设备设置或是多个设备之间的额外标定同步等，且第一位姿的数据也具有较高精度。

Description

位姿确定方法及装置、电子设备和存储介质

技术领域

本公开涉及计算机视觉技术领域，尤其涉及一种位姿确定方法及装置、电子设备和存储介质。

背景技术

随着移动传感器、网络基础设施和云计算的快速发展，增强现实应用场景的规模正在从中小型扩展到大型环境。大规模环境下的定位是增强现实应用的关键需求。大多数常用的定位技术都需要大量的运动真值数据(比如设备在移动过程中的位姿数据等)和背景信息进行定位，以便进行算法基准测试或模型训练。因此，如何以较低的成本获取大量的运动真值数据，成为目前一个亟待解决的问题。

发明内容

本公开提出了一种位姿确定技术方案。

根据本公开的一方面，提供了一种位姿确定方法，包括：

获取目标场景中的第一终端采集的采集数据；获取包含所述目标场景的全局地图，其中，所述全局地图基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成，且所述全局地图满足精度条件；根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述全局地图包括至少一帧视觉点云，所述视觉点云包括所述全局场景中的至少一个三维特征点；所述采集数据包括第一采集图像；所述根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿，包括：将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据所述全局特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述全局地图包括所述目标场景中的至少一帧视觉点云；所述采集数据包括至少两帧第一采集图像；所述根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿，包括：将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据所述至少两帧第一采集图像，进行特征匹配，得到本地特征匹配结果；根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述采集数据还包括第一惯性测量IMU数据；所述根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿，包括：根据所述全局特征匹配结果和/或所述本地特征匹配结果，获取第一约束信息；根据所述第一IMU数据，获取第二约束信息；根据所述第一约束信息和所述第二约束信息中的至少一种，对所述全局特征匹配结果和所述本地特征匹配结果进行处理，得到所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述对所述全局特征匹配结果和所述本地特征匹配结果进行处理，包括：通过光束法平差对所述全局特征匹配结果和所述本地特征匹配结果进行处理。

在一种可能的实现方式中，所述将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果，包括：将所述第一采集图像中的二维特征点，与所述至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

在一种可能的实现方式中，所述方法还包括：根据所述第一终端在采集过程中的至少一个第一位姿，确定运动真值数据。

在一种可能的实现方式中，所述根据所述第一终端在采集过程中的至少一个第一位姿，确定运动真值数据，包括：将所述第一终端在采集过程中的至少一个第一位姿作为所述运动真值数据；和/或，将所述采集数据中的至少一种，以及所述第一终端在采集过程中的至少一个第一位姿，作为所述运动真值数据，其中，所述采集数据包括：无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。

在一种可能的实现方式中，所述运动真值数据用于以下操作中的至少一种：判断定位结果的精度、对神经网络进行训练以及与所述全局地图进行信息融合。

在一种可能的实现方式中，所述地图数据包括：所述全局场景中的激光点云、第二采集图像以及第二IMU数据；所述方法还包括：获取通过第二终端采集的所述全局场景的地图数据；根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图。

在一种可能的实现方式中，所述根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图，包括：根据所述第二IMU数据和所述激光点云，确定所述第二终端在数据采集过程中的至少一个第二位姿；根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云，其中，所述视觉点云包括所述全局场景中的至少一个三维特征点；根据所述至少一帧视觉点云，得到所述全局场景的全局地图。

在一种可能的实现方式中，所述根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云，包括：根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧初始视觉点云；根据所述激光点云和/或所述第二采集图像，获取视觉地图重建过程中的第三约束信息；根据所述第三约束信息，对所述至少一帧初始视觉点云进行优化，得到至少一帧视觉点云。

在一种可能的实现方式中，所述第二终端包括：雷达，用于获取所述全局场景中的激光点云；视觉传感器，用于获取所述全局场景中的第二采集图像；IMU传感器，用于获取所述全局场景中的第二IMU数据。

在一种可能的实现方式中，所述根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图之前，还包括：对所述视觉传感器与所述IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；对所述雷达与所述视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；根据所述第一标定结果和所述第二标定结果，对所述视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

在一种可能的实现方式中，所述方法还包括：在第二终端采集地图数据的过程中，根据所述地图数据对所述全局场景进行实时重建，生成所述全局场景的实时地图；向目标设备发送所述地图数据和/或所述实时地图，其中，所述目标设备用于显示对所述全局场景完成数据采集的地理范围。

根据本公开的一方面，提供了一种位姿确定装置，包括：

采集数据获取模块，用于获取目标场景中的第一终端采集的采集数据；全局地图获取模块，用于获取包含所述目标场景的全局地图，其中，所述全局地图基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成，且所述全局地图满足精度条件；位姿确定模块，用于根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述全局地图包括至少一帧视觉点云，所述视觉点云包括所述全局场景中的至少一个三维特征点；所述采集数据包括第一采集图像；所述位姿确定模块用于：将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据所述全局特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述全局地图包括所述目标场景中的至少一帧视觉点云；所述采集数据包括至少两帧第一采集图像；所述位姿确定模块用于：将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据所述至少两帧第一采集图像，进行特征匹配，得到本地特征匹配结果；根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述采集数据还包括第一惯性测量IMU数据；所述位姿确定模块进一步用于：根据所述全局特征匹配结果和/或所述本地特征匹配结果，获取第一约束信息；根据所述第一IMU数据，获取第二约束信息；根据所述第一约束信息和所述第二约束信息中的至少一种，对所述全局特征匹配结果和所述本地特征匹配结果进行处理，得到所述第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，所述位姿确定模块进一步用于：通过光束法平差对所述全局特征匹配结果和所述本地特征匹配结果进行处理。

在一种可能的实现方式中，所述位姿确定模块进一步用于：将所述第一采集图像中的二维特征点，与所述至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

在一种可能的实现方式中，所述装置还包括：运动真值数据获取模块，用于根据所述第一终端在采集过程中的至少一个第一位姿，确定运动真值数据。

在一种可能的实现方式中，所述运动真值数据获取模块用于：将所述第一终端在采集过程中的至少一个第一位姿作为所述运动真值数据；和/或，将所述采集数据中的至少一种，以及所述第一终端在采集过程中的至少一个第一位姿，作为所述运动真值数据，其中，所述采集数据包括：无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。

在一种可能的实现方式中，所述地图数据包括：所述全局场景中的激光点云、第二采集图像以及第二IMU数据；所述装置还包括：地图数据获取模块，用于获取通过第二终端采集的所述全局场景的地图数据；全局地图生成模块，用于根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图。

在一种可能的实现方式中，所述全局地图生成模块用于：根据所述第二IMU数据和所述激光点云，确定所述第二终端在数据采集过程中的至少一个第二位姿；根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云，其中，所述视觉点云包括所述全局场景中的至少一个三维特征点；根据所述至少一帧视觉点云，得到所述全局场景的全局地图。

在一种可能的实现方式中，所述全局地图生成模块进一步用于：根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧初始视觉点云；根据所述激光点云和/或所述第二采集图像，获取视觉地图重建过程中的第三约束信息；根据所述第三约束信息，对所述至少一帧初始视觉点云进行优化，得到至少一帧视觉点云。

在一种可能的实现方式中，所述装置还用于：对所述视觉传感器与所述IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；对所述雷达与所述视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；根据所述第一标定结果和所述第二标定结果，对所述视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

在一种可能的实现方式中，所述装置还用于：在第二终端采集地图数据的过程中，根据所述地图数据对所述全局场景进行实时重建，生成所述全局场景的实时地图；向目标设备发送所述地图数据和/或所述实时地图，其中，所述目标设备用于显示对所述全局场景完成数据采集的地理范围。

根据本公开的一方面，提供了一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述位姿确定方法。

根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述位姿确定方法。

在本公开实施例中，通过获取目标场景中第一终端采集的采集数据，以及获取包含目标场景的全局地图，并根据采集数据以及全局地图之间的特征对应关系，来确定第一终端在采集过程中的至少一个第一位姿。通过上述过程，可以重复利用全局场景的全局地图，在生成全局地图后即可规模化通过第一终端采集大量的第一位姿数据；而且获取用于生成第一位姿的采集数据的方式也较为简单，仅通过第一终端即可实现采集，减小了对目标场景的额外设备设置或是多个设备之间的额外标定同步等；另外由于全局地图满足精度条件，因此基于采集数据以及全局地图之间的特征对应关系所得到的第一位姿的数据也具有较高精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1示出根据本公开一实施例的位姿确定方法的流程图。

图2示出根据本公开一实施例的视觉点云优化前后的对比示意图。

图3示出根据本公开一实施例的第二终端的结构示意图。

图4示出根据本公开一应用示例的示意图。

图5示出根据本公开一实施例的位姿确定装置的框图。

图6示出根据本公开实施例的一种电子设备的框图。

图7示出根据本公开实施例的一种电子设备的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

另外，为了更好地说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的位姿确定方法的流程图，该方法可以应用于位姿确定装置，位置确定装置可以为终端设备、服务器或者其他处理设备等。其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。

在一些可能的实现方式中，该位姿确定方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图1所示，所述位姿确定方法可以包括：

步骤S11，获取目标场景中的第一终端采集的采集数据。

步骤S12，获取包含目标场景的全局地图，其中，全局地图基于第二终端对包含目标场景的全局场景进行数据采集所获得的地图数据生成，且全局地图满足精度条件。

步骤S13，根据采集数据以及全局地图之间的特征对应关系，确定第一终端在采集过程中的至少一个第一位姿。

其中，目标场景可以是第一终端获取采集数据的任意场景，其实现形式可以根据实际需求进行灵活决定，在本公开实施例中不做限制。在一种可能的实现方式中，目标场景可以包括室外场景，比如广场、街道或是空地等；在一种可能的实现方式中，目标场景可以包括室内场景，比如教室、办公楼或是住宅楼等；在一种可能的实现方式中，目标场景可以同时包含室外场景和室内场景等。

第一终端可以是具有数据采集功能的移动终端，第一终端的实现方式在本公开实施例中不做限定，任何具有移动以及数据采集功能的设备，均可以作为第一终端的实现方式。在一种可能的实现方式中，第一终端可以是增强现实(AR，Augmented Reality)设备，比如手机或是AR眼镜等。

采集数据可以是第一终端在目标场景中采集的数据，采集数据的实现形式及其包含的数据内容，均可以根据第一终端的数据采集方式，以及第一终端的实际实现形式所灵活决定，不局限于下述各公开实施例。在一种可能的实现方式中，在第一终端为AR设备的情况下，采集数据可以包括第一终端对目标场景进行图像采集所得到的第一采集图像等；在一种可能的实现方式中，在第一终端为AR设备的情况下，采集数据还可以包括第一终端中的惯性测量单元(IMU，Inertial measurement unit)对目标场景数据采集所得到的第一IMU数据等。

第一终端获取采集数据的方式在本公开实施例中同样不做限定，可以根据第一终端和目标场景的实际情况进行灵活选择，在一种可能的实现方式中，第一终端可以通过在目标场景中进行移动，来实现采集数据的采集。具体的移动过程和方式均可以根据实际情况灵活选择。

步骤S11中，获取采集数据的方式在本公开实施例中不做限定，在一种可能的实现方式中，可以通过从第一终端中读取采集数据，或是接收第一终端传输的采集数据的方式，来获取采集数据；在一种可能的实现方式中，本公开实施例中提出的位姿确定方法也可以应用于第一终端，在这种情况下，可以直接获取第一终端在目标场景中移动所采集的采集数据。

通过上述公开实施例可以看出，在一种可能的实现方式中，本公开实施例还可以通过步骤S12获取包含目标场景的全局地图，其中，全局地图可以基于地图数据所生成且满足精度条件，而地图数据可以通过第二终端对目标场景的全局场景进行数据采集所获得。

其中，全局场景可以是包含目标场景的任意场景，其包含的场景范围可以根据实际情况灵活决定，在本公开实施例中不做限制。如上述公开实施例所述，目标场景可以包括室外场景和/或室内场景，因此，全局场景同样可以根据目标场景的实际情况，包括室外场景和/或室内场景。举例来说，在一种可能的实现方式中，在目标场景为包含某一空地或广场的室外场景的情况下，全局场景可以是该空地或广场所在的辖区或是市区的场景，同时该全局场景既可以包括该辖区或是市区中的室外场景，也可以包括该辖区或是市区中的室内场景等。

地图数据可以是第二终端对全局场景进行数据采集所得到的相应数据，地图数据可以用于生成与全局场景所对应的全局地图。地图数据包含的数据内容可以根据实际需求灵活决定，在一种可能的实现方式中，地图数据可以包括对全局场景进行图像采集所得到的第二采集图像；在一种可能的实现方式中，地图数据可以包括对全局场景进行IMU数据采集所得到的第二IMU数据；在一种可能的实现方式中，地图数据还可以包括对全局场景进行雷达扫描所得到的激光点云数据等。地图数据的具体实现形式可以参考后续各公开实施例，在此先不做展开。

第二终端可以是具有地图数据采集功能的移动终端，第二终端的实现方式可以根据地图数据所需要包含的数据内容灵活选择。举例来说，在地图数据包含第二采集图像的情况下，第二终端可以包括用于图像采集的视觉传感器，在地图数据包含第二IMU数据的情况下，第二终端可以包括用于采集IMU数据的IMU传感器，在地图数据包含激光点云数据的情况下，第二终端可以包括用于采集激光点云的雷达等。第二终端包含的硬件结构以及连接方式同样可以详见后续各公开实施例，在此也先不做展开。

全局地图可以是基于地图数据所生成的地图，其实现形式可以根据全局场景的实际情况，以及地图数据的数据内容所共同决定。在一种可能的实现方式中，全局地图可以包含全局场景中各三维特征点的相关信息，具体包含哪些信息，以及这些信息如何体现，可以根据实际情况灵活决定。在一种可能的实现方式中，全局地图可以包含全局场景中各三维特征点的相关信息，在一种可能的实现方式中，全局场景中的三维特征点可以通过图像的形式进行观测，三维特征点的相关信息包含的信息内容可以根据实际情况灵活决定，比如包含三维特征点的坐标以及三维特征点的特征信息，其中三维特征点的特征信息可以包含有三维特征点对应的特征描述子、三维特征点对应的通信信号指纹或是语义信息中的一种或多种等与特征相关的信息。具体包含哪些相关信息，这些相关信息如何包含在全局地图中，以及上述各相关信息的具体含义是什么，可以详见后续各公开实施例，在此先不做展开。

全局地图的精度可以是全局地图中各三维特征点的位置精度，比如可以是全局地图中包含的三维特征点的坐标，与三维特征点在全局场景中的实际位置之间的位置差值。因此全局地图的精度条件可以反应全局地图中各三维特征点的位置是否达到精度要求，精度条件的具体值可以根据实际情况灵活设定。

在一种可能的实现方式中，直接判断全局地图中三维特征点的坐标与其实际位置之间的位置差值的难度可能较高，因此，可以通过地图数据的数据采集量是否达到一定的数据值，或是生成全局地图的方法精度是否达到要求等方式，来间接判断全局地图是否满足精度条件。举例来说，在一个示例中，可以通过判断采集的地图数据所对应的地理范围，与全局场景所覆盖的地理范围之间的比值是否达到预设阈值的方式，来间接推断全局地图是否满足精度条件。

获取全局地图的方式可以根据实际情况灵活选择，不局限于下述各公开实施例。在一种可能的实现方式中，可以通过获取第二终端采集的地图数据，从而根据地图数据来在位姿确定装置内生成全局地图；在一种可能的实现方式中，全局地图也可以在其他的装置或设备内进行生成，在这种情况下，获取全局地图的方式可以为直接从存储或生成全局地图的装置中，来读取全局地图。

第二终端对全局场景进行数据采集获得地图数据的过程在本公开实施例中不做限定，可以根据实际情况灵活决定。在一种可能的实现方式中，第二终端可以在全局场景中移动，从而采集相应的地图数据，具体如何移动，以及如何采集地图数据，可以详见后续各公开实施例，在此先不做展开。

进一步地，如何根据地图数据，生成全局场景的全局地图，这一生成过程可以根据地图数据包含的数据情况所灵活确定，详见后续各公开实施例，在此同样先不做展开。

上述公开实施例中，步骤S11和步骤S12的实现顺序在本公开实施例中不做限制，在一种可能的实现方式中，步骤S11与步骤S12可以按照一定顺序依次执行，在一种可能的实现方式中，步骤S11与步骤S12也可以同时执行。

在获取目标场景中的采集数据，以及包含目标场景的全局地图以后，可以根据采集数据以及全局地图之间的特征对应关系，来确定第一终端在采集过程中的至少一个第一位姿。

如上述各公开实施例所述，采集数据可以是对目标场景进行采集所得到的数据，可以反应目标场景的特征，而且全局地图对应的全局场景由于包含目标场景，所以也可以包含目标场景的特征，因此，在一种可能的实现方式中，采集数据以及全局地图之间的特征对应关系，可以包括采集数据与全局地图之间的特征对应关系。另外，由于第一终端在目标场景中移动可以采集大量的采集数据，采集数据之间也可以反应目标场景的特征，因此，在一种可能的实现方式中，采集数据以及全局地图之间的特征对应关系，也可以包括采集数据包含的数据内部之间的特征对应关系。具体根据哪些特征关系来确定至少一个第一位姿，可以根据实际情况灵活选择，详见后续各公开实施例，在此先不做展开。

第一位姿可以是第一终端在目标场景的移动过程中，进行数据采集的时刻所产生的一个或多个位姿，确定的第一位姿数量可以根据实际情况灵活决定。在一种可能的实现方式中，第一位姿可以与采集数据相对应，即确定的各第一位姿可以是第一终端在采集到各采集数据的时刻所产生的位姿。如何根据特征对应关系来确定第一位姿的过程，也可以根据实际情况灵活选择，详见后续各公开实施例，在此先不做展开。

如上述各公开实施例所述，地图数据的实现形式可以根据实际情况灵活决定，而基于地图数据生成全局地图的方式可以根据地图数据的实际情况灵活决定。因此，在一种可能的实现方式中，地图数据可以包括：全局场景中的激光点云、第二采集图像以及第二IMU数据；

本公开实施例中提出的位姿确定方法还包括：

获取通过第二终端采集的全局场景的地图数据；

根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图。

其中，激光点云可以是通过第二终端对全局场景进行雷达扫描所得到的多个激光点构成的点云，激光点云中包含的激光点数量可以根据第二终端的雷达扫描情况，以及第二终端在全局场景中的移动轨迹所共同灵活确定，在本公开实施例中不做限制。

第二采集图像可以是第二终端在全局场景内进行移动的过程中所采集到的多个图像，第二采集图像的数量可以根据第二终端在全局场景中的移动情况，以及第二终端包含的用于采集图像的硬件设备的数量所共同决定，在本公开实施例中不做限制。

第二IMU数据可以是第二终端在全局场景内进行移动的过程中所采集到的相关惯性测量数据，第二IMU数据的数量同样可以根据第二终端在全局场景中的移动情况，以及第二终端包含的用于采集IMU数据的硬件设备的数量所共同决定，在本公开实施例中不做限制。

通过上述公开实施例可以看出，在一种可能的实现方式中，本公开实施例提出的姿态确定方法，还可以包括根据获取的由第二终端采集的全局场景的地图数据，对全局场景进行离线重建，生成全局场景的全局地图。

其中，离线重建可以是在第二数据对全局场景中的地图数据完成采集后，根据采集到的地图数据来对全局场景的全局地图进行的重建过程。具体如何根据包含激光点云、第二采集图像以及第二IMU数据的地图数据，来对全局场景进行离线重建，这一重建过程可以根据实际情况灵活决定，详见后续各公开实施例，在此先不做展开。

在本公开实施例中，通过获取包括激光点云、第二采集图像以及第二IMU数据的地图数据，并根据获取的地图数据，对全局场景进行离线重建，生成全局场景的全局地图。通过上述过程，可以在对全局场景完成较为全面的地图数据采集以后，再综合采集到的大量地图数据，对全局场景进行全面地离线重建，从而使得生成的全局地图具有较高的精度，进而使得基于全局地图和采集数据来确定的至少一个第一位姿的结果较为准确；同时，由于地图数据包含激光点云、第二采集图像以及第二IMU数据，这些数据的获取方式较为容易且获取过程受空间制约的情况较少，因此，本公开实施例提出的姿态确定方法，获取地图数据以及全局地图的难度较小，从而大大提升了本公开实施例提出的姿态确定方法的应用范围。

如上述公开实施例所述，离线重建的过程可以根据实际情况灵活决定。在一种可能的实现方式中，根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图，包括：

根据第二IMU数据和激光点云，确定第二终端在数据采集过程中的至少一个第二位姿；

根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云，其中，视觉点云包括全局场景中的至少一个三维特征点；

根据至少一帧视觉点云，得到全局场景的全局地图。

其中，根据第二IMU数据和激光点云，确定第二终端在数据采集过程中的至少一个第二位姿的方式可以根据实际情况灵活决定，任何可以基于激光点云以及IMU数据来恢复第二终端位姿的方式均可以作为本公开实施例中的实现方式，不局限于下述各公开实施例。在一种可能的实现方式中，可以根据第二IMU数据，在第二终端在数据采集过程中的不同的时刻，将获取的激光点投影至该时刻下的激光雷达帧上，从而可以基于激光点的投影结果，来对第二终端在数据采集过程中不同时刻的第二位姿进行估算。

在确定第二终端在数据采集过程中的至少一个第二位姿以后，可以根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，来得到至少一帧视觉点云。视觉点云可以包括全局场景中的至少一个三维特征点，视觉点云的数量以及包含的三维特征点的数量在本公开实施例中不做限制，在一种可能的实现方式中，全局地图可以包括一帧或多帧视觉点云。如上述各公开实施例所述，全局地图可以包含全局场景中各三维特征点的相关信息，而且在一种可能的实现方式中，全局场景中的三维特征点可以通过图像的形式进行观测，因此，在一种可能的实现方式中，视觉点云可以通过视觉图像进行观测，在这种情况下，全局地图也还可以包括至少一帧或多帧用于观测视觉点云的视觉图像。

进一步地，视觉点云包括的三维特征点，其特征信息也可以存储在全局地图中，因此视觉点云也可以与三维特征点的特征信息进行对应，比如在一种可能的实现方式中，三维特征点的特征描述子可以根据第二采集图像中提取的特征所确定，因此，视觉点云可以与三维特征点的特征描述子进行对应；在一种可能的实现方式中，获取的地图数据中还可以包含与通信相关的信号数据，比如WiFi信号、蓝牙信号或是超宽带(UWB，Ultra WideBand)信号等，这些信号可以作为信号指纹，与三维特征点进行对应，从而作为三维特征点的特征信息，因此，视觉点云可以与三维特征点的通信信号指纹进行对应；在一种可能的实现方式中，第二采集图像中还可以包含一些语义信息，这些语义信息也可以与三维特征点之间建立对应关系，从而作为三维特征点的特征信息，在这种情况下，视觉点云可以与语义信息建立对应关系等。

根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建的过程可以通过相关技术实现，具体采取何种方式实现可以根据实际情况灵活选择，不局限于下述各公开实施例。在一种可能的实现方式中，可以通过尺度不变特征变换(SIFT，Scale-invariant feature transform)，对第二采集图像进行特征提取和匹配，从而生成至少一帧视觉点云，进一步地，根据通过激光点云和第二IMU数据所确定的至少一个第二位姿，还可以进一步得到至少一帧视觉点云中，观测到的各三维特征点的坐标等信息。

在通过视觉地图重建得到至少一帧视觉点云以后，可以根据至少一帧视觉点云，得到全局场景的全局地图。在一种可能的实现方式中，可以将得到的全部视觉点云，以及这些视觉点云所对应的三维特征点的特征信息等，共同作为全局地图；在一种可能的实现方式中，也可以从得到的视觉点云中选定一帧或多帧，并根据这一帧或多帧视觉点云对应的三维特征点的特征信息等，共同作为全局地图。

在本公开实施例中，通过根据第二IMU数据和激光点云，确定第二终端在数据采集过程中的至少一个第二位姿，并根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云，从而根据至少一帧视觉点云，得到全局场景的全局地图；通过上述过程，可以综合利用激光点云、第二IMU数据和第二采集图像，通过视觉点云来表征全局场景中各三维特征点的位置和特征等信息，利用较易获取的数据即可实现全局地图的重建，且重建的结果较为准确，提升了整个姿态确定过程的便捷性和确定精度。

在一种可能的实现方式中，根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云，包括：

根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧初始视觉点云；

根据激光点云和/或第二采集图像，获取视觉地图重建过程中的第三约束信息；

根据第三约束信息，对至少一帧初始视觉点云进行优化，得到至少一帧视觉点云。

在一种可能的实现方式中，由于根据激光点云确定的第二位姿，精度可能较低。在这种情况下，直接利用确定的第二位姿，结合第二采集图像进行视觉地图重建得到的视觉点云，可能包含较大的噪声。因此，在一种可能的实现方式中，在根据第二位姿和第二采集图像，对全局场景进行视觉地图重建后，可以将视觉地图重建得到的图像作为初始视觉点云，并根据激光点云和/或第二采集图像所产生的第三约束信息，对初始视觉点云进行进一步优化，从而降低初始视觉点云中的噪声，来得到具有较高精度的视觉点云。

其中，根据第二位姿以及第二采集图像进行视觉地图重建，得到至少一帧初始视觉点云的过程，可以参考上述公开实施例，在此不再赘述。

第三约束信息可以为根据激光点云和/或第二采集图像所确定的约束信息，具体如何根据激光点云和/或第二采集图像，得到第三约束信息，这一过程可以根据实际情况灵活选择，不局限于下述各公开实施例。

在一种可能的实现方式中，根据激光点云，获取视觉地图重建过程中的第三约束信息可以包括：

通过实时激光里程计与建图LOAM(Lidar Odometry and Mapping in real-time)方法，对激光点云进行特征提取，确定激光点云的平面特征以及边缘特征；

根据激光点云的平面特征，确定视觉地图重建过程中激光点云的平面约束；

根据激光点云的边缘特征，确定视觉地图重建过程中激光点云的边缘约束；

根据激光点云的平面约束和/或激光点云的边缘约束，获取视觉地图重建过程中的第三约束信息。

其中，激光点云的平面特征可以根据激光点云的实际情况灵活确定，基于激光点云的平面特征所确定的平面约束的具体形式，可以根据实际情况进行灵活选择，在一个示例中，平面约束可以通过下述公式(1)进行表示：

其中，n与m为两个不同的激光点云坐标系，^mn为坐标系m中特征点^mq处的平面特征法向量，^mn^T为^mn的转置，

为坐标系n与m之间的变换关系，ⁿp为坐标系n中的特征点，^mq为坐标系m中的特征点，

为依据

这一坐标变换关系对ⁿp执行的坐标变换，∑_p为激光点云平面特征的协方差矩阵，其中，∑_p的数值可以根据实际情况灵活设置，在一个示例中，∑_p可以设置为0.2㎡。

同理，激光点云的边缘特征也可以根据激光点云的实际情况灵活确定，基于激光点云的边缘特征所确定的边缘约束的具体形式，可以根据实际情况进行灵活选择，在一个示例中，边缘约束可以通过下述公式(2)进行表示：

其中，^mI为坐标系m中特征点^mq处的边缘特征方向向量，∑_e为激光点云边缘特征的协方差矩阵，其余参数的含义可以参考上述实施例，其中，Σ_e的数值可以根据实际情况灵活设置，在一个示例中，∑_e可以设置为0.5㎡。

在分别确定激光点云的平面约束以及激光点云的边缘约束以后，可以将平面约束和边缘约束均作为第三约束信息，也可以将平面约束或是边缘约束中的一种作为第三约束信息，具体如何选择可以根据实际情况灵活确定。

在一种可能的实现方式中，根据第二采集图像，获取视觉地图重建过程中的第三约束信息可以包括：

将与初始视觉点云对应的三维特征点投影至初始视觉点云，得到投影结果；

根据投影结果与初始视觉点云中二维特征点之间的误差，其中二维特征点是初始视觉点云中与三维特征点对应的二维特征点，获取视觉地图重建过程中的视觉约束；

根据视觉约束，获取视觉地图重建过程中的第三约束信息。

根据投影结果与初始视觉点云中与三维特征点对应的二维特征点之间的误差，获取视觉地图重建过程中的视觉约束的具体过程，可以根据实际情况灵活选择。在一个示例中，视觉约束可以通过下述公式(3)进行表示：

其中，X_j为与视觉点云对应的第j个三维特征点，x_ij为第i帧初始视觉点云中与三维特征点X_j对应的二维特征点，f(^WT_i,X_j)为将三维特征点X_j投影至第i帧初始视觉点云的投影结果，∑_v为图像特征约束的协方差矩阵，其中，∑_v的数值可以根据实际情况灵活设定，在一个示例中，∑_v可以设置为2像素平方。

第三约束信息具体包含哪些信息可以根据实际情况灵活选择，通过上述各公开实施例可以看出，第三约束信息可以包括激光点云的平面约束、激光点云的边缘约束以及视觉约束中的一种或多种。在一个示例中，第三约束信息可以同时包含激光点云的平面约束、激光点云的边缘约束和视觉约束，在这种情况下，根据第三约束信息，对至少一帧初始视觉点云进行优化，得到至少一帧视觉点云的过程可以通过下述公式(4)进行表示：

其中，L_p为激光点云中属于平面的点所构成的点云，L'p为L_p的集合，L_e为激光点云中属于边缘的点所构成的点云，L'e为L_e的集合，其余各参数的含义可以参考上述各公开实施例。

通过公式(4)可以看出，在一种可能的实现方式中，根据第三约束信息，对至少一帧初始视觉点云进行优化，可以包括对初始视觉点云包括的三维特征点进行优化，还可以包括对第二终端中采集第二采集图像的设备的位姿进行优化，在对第二终端中采集第二采集图像的设备的位姿进行优化的情况下，相应地，也可以对第二终端对应的第二位姿进行优化，从而减小了由于第二位姿的精确度较低所导致的视觉点云中包含的噪声较大的情况。进一步地，在对视觉点云进行优化后，还可以基于视觉点云的优化结果，再次获取视觉地图重建过程的第三约束信息，从而对视觉点云进行进一步的迭代优化，迭代的次数可以根据实际情况灵活选择，在本公开实施例中不做限制。图2示出根据本公开一实施例的视觉点云优化前后的对比示意图，其中针对同一场景，上方框中为优化前的视觉点云对应的视觉图像，下方框中为优化后的视觉点云对应的视觉图像，从图中可以看出，优化后视觉点云中的噪声点减少，因此优化后的视觉点云具有更高的精度，相应的，优化后的视觉点云对应的三维特征点的精度也进行了提高。

如上述各公开实施例所述，第二终端采集的地图数据可以包括第二采集图像、第二IMU数据以及激光点云，相应的，第二终端也可以包含具有上述数据采集功能的硬件结构。因此，在一种可能的实现方式中，第二终端可以包括：

雷达，用于获取全局场景中的激光点云；

视觉传感器，用于获取全局场景中的第二采集图像；

IMU传感器，用于获取全局场景中的第二IMU数据。

其中，雷达可以是具有激光点云采集功能的任意雷达，其实现形式在本公开实施例中不做任何限制，在一种可能的实现方式中，雷达可以为3D雷达。视觉传感器可以是具有图像采集功能的任意传感器，比如相机等，其具体实现形式同样可以灵活决定，在一种可能的实现方式中，第二终端可以同时包括具有360°图像采集功能的4阵列相机。IMU传感器的实现形式同样可以根据实际情况灵活决定，在本公开实施例中不做限制。

第二终端中雷达、视觉传感器以及IMU传感器之间的设置位置和连接关系可以根据实际情况灵活选择，不局限于下述公开实施例。在一种可能的实现方式中，雷达、视觉传感器与IMU传感器之间可以刚性连接，具体的连接顺序可以根据实际情况灵活选择。在一种可能的实现方式中，视觉传感器和IMU传感器可以固定连接并封装为一个固定结构单元，雷达可以设置在固定结构单元的上方。在一种可能的实现方式中，视觉传感器、IMU传感器和雷达还可以固定设置在一个背包中，图3示出根据本公开一实施例的第二终端的结构示意图，从图中可以看出，在一个示例中，视觉传感器和IMU传感器可以固定连接并封装为一个固定结构单元，该固定结构单元的下端可以设置在背包内从而便于携带，雷达可以设置在固定结构单元的上方。

通过包含雷达、视觉传感器和IMU传感器的第二终端，可以利用第二终端对全局场景中的地图数据进行全面采集，从而便于后续全局地图的生成。通过上述结构，可以利用较为简单且成本低的硬件设备，实现全局地图的生成，从而进一步基于全局地图获取第一终端的多个第一位姿，大大降低了获取第一位姿数据的硬件实现成本和难度。

由于第二终端可以包括雷达、视觉传感器以及IMU传感器等硬件设备，这些硬件设备在使用前可能需要进行标定或测量数据时间校准，进一步地，在对各硬件进行标定的同时，还可以对不同硬件之间的坐标变换关系进行标定，来提高生成的全局地图的精度。因此，在一种可能的实现方式中，根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图之前，还可以包括：

对视觉传感器与IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；

对雷达与视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；

根据第一标定结果和第二标定结果，对视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

其中，对视觉传感器与IMU传感器之间的坐标变换关系进行标定的方式可以根据实际情况灵活选择，在一个示例中，可以通过Kalibr工具实现视觉传感器和IMU传感器的标定；对雷达与视觉传感器之间的坐标变换关系进行标定的方式同样可以根据实际情况灵活选择，在一个示例中，可以通过AutoWare框架实现雷达与视觉传感器的标定。进一步地，由于在标定过程中还可能存在误差，因此在一种可能的实现方式中，还可以根据第一标定结果和第二标定结果，对视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定与优化，来使得不同硬件设备之间的坐标变换关系更加准确。

联合标定的实现形式可以根据实际情况灵活决定，不局限于下述各公开实施例，在一种可能的实现方式中，联合标定可以通过下述公式(5)进行表示：

其中，C_i为第二终端中的第i个视觉传感器，I为IMU传感器，L为雷达，

为第i个视觉传感器与IMU传感器之间的坐标变换关系，^IT_L为雷达与IMU传感器之间的坐标变换关系，

为雷达与第i个视觉传感器之间的坐标变换关系，协方差∑_c/∑_L分别代表IMU传感器和雷达各自标定过程中的误差，该误差的值可以根据实际情况进行灵活设定，在一个示例中，∑_c和∑_L的对角矩阵中所有旋转分量均可以设置为0.01弧度²，∑_c的所有转换分量均可以设置为0.03㎡，∑_L的所有转换分类可以设置为(0.03,0.03.0.15)㎡。

通过公式(5)以及上述标定过程可以看出，基于联合标定得到的视觉传感器和IMU传感器之间的坐标变换关系，以及雷达和IMU传感器之间的坐标变换关系，可以使得整体的标定误差较小，在标定后再进行全局地图的生成，可以大大提升全局地图的精度，从而提升整个位姿确定过程的精度。

在一种可能的实现方式中，本公开实施例提出的位姿确定方法还可以包括：

在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建，生成全局场景的实时地图。

向目标设备发送地图数据和/或实时地图，其中，目标设备用于显示对全局场景完成数据采集的地理范围。

上述各公开实施例中提到，在一种可能的实现方式中，可以根据地图数据，对全局场景进行离线重建，来生成全局场景的全局地图。

在一种可能的实现方式中，如果采集的地图数据不够全面，比如漏掉对全局场景中部分场景内地图数据的采集，将容易导致离线建立的全局地图精度降低，如果重新对全局场景进行地图数据的采集，既需要额外的人力劳动，还会加大计算量。在一些可能的实现方式中，也可能在地图数据的采集过程中，发生重复采集的情况。

因此，在一种可能的实现方式中，为了便于掌握地图数据的采集情况，还可以在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建，生成全局场景的实时地图。实时地图的实现形式可以参考全局地图，在此不再赘述，在一个示例中，实时地图中可以覆盖全局场景中，第二终端已经采集到的地图数据所对应的各场景。

实时重建的过程可以参考上述各公开实施例中离线重建的过程，在此不再详细描述。在一种可能的实现方式中，由于实时重建可以基于当前已采集的地图数据进行重建，相对于离线重建中基于采集完成后得到的大量地图数据进行重建来说，重建的数据量较小，因此可以具有更高的重建速度。在一种可能的实现方式中，实时重建可以省略离线重建中的一些优化过程来提高重建速度，比如在一个示例中，实时重建可以省略获取第三约束信息以及根据第三约束信息对视觉点云进行优化的过程。在一种可能的实现方式中，实时重建可以通过一些特定的3D雷达即时定位与地图构建(SLAM，simultaneous localizationand mapping),也称为CML(Concurrent Mapping and Localization)系统来实现，在一个示例中，可以通过开源的Cartographer库，来对全局场景进行实时重建，生成全局场景的实时地图。

在一种可能的实现方式中，通过上述公开实施例可以看出，本公开实施例提出的姿态确定方法，还可以包括向目标设备发送地图数据和/或实时地图。

其中，目标设备可以用于显示对全局场景完成数据采集的地理范围，即在一种可能的实现方式中，目标设备可以显示第二终端已采集到的地图数据所覆盖的地理范围，从而指示第二终端在全局场景中的后续移动方向和地图数据的采集需求。目标设备的实现形式在本公开实施例中不做限定，在一种可能的实现方式中，目标设备可以是如图3所示的进行地图数据采集的操作人员手中的手持设备，比如平板电脑或是手机等；在一种可能的实现方式中，如果第二终端放置在移动设备上(比如自动机器人等)进行地图数据的采集，在这种情况下，目标设备可以是移动设备的控制器或是显示屏等。

向目标设备发送的具体数据也可以根据情况进行灵活选择，如上述公开实施例所述，在一种可能的实现方式中，可以向目标设备发送已采集的地图数据，在一种可能的实现方式中，也可以向目标设备发送实时地图，在一种可能的实现方式中，也可以向目标设备同时发送地图数据和实时地图等。

通过在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建生成实时地图，并向目标设备发送地图数据和/或实时地图，通过上述过程，可以基于实时地图，对全局场景中已进行地图数据采集的区域进行实时预览，并可以随时把控地图的重建质量，从而提升地图数据的采集效率和成功率。

通过上述各公开实施例的各种组合形式可以生成全局地图，从而使得通过步骤S12获取全局地图具有实现的可能性。在获取到采集数据以及全局地图以后，如上述各公开实施例所述，可以通过步骤S13，来确定第一终端在采集过程中的至少一个第一位姿。

步骤S13的实现方式可以灵活确定，在一种可能的实现方式中，全局地图可以包括至少一帧视觉点云，视觉点云包括全局场景中的至少一个三维特征点；采集数据包括第一采集图像；在这种情况下，步骤S13可以包括：

将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

根据全局特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

其中，第一采集图像可以是第一终端在目标场景中进行数据采集过程中所采集到的图像，第一采集图像的数量可以根据实际情况灵活选择，可以为一帧，也可以为多帧，根据实际情况进行确定即可，在本公开实施例中不做限定。

全局特征匹配结果可以是至少一帧视觉点云中，与第一采集图像中的二维特征点相匹配的三维特征点，如何获取全局特征匹配结果，可以根据实际情况灵活选择，详见后续各公开实施例。

视觉点云的实现形式可以参考上述各公开实施例，在此不再赘述。

通过上述公开实施例可以看出，在一种可能的实现方式中，可以将第一采集图像与至少一帧视觉点云进行特征匹配，来得到全局特征匹配结果。其中，第一采集图像与视觉点云之间的特征匹配关系，可以根据实际情况灵活选择，任何可以实现图像之间特征匹配的方法，均可以作为第一采集图像和视觉点云之间的特征匹配方式，不局限于下述各公开实施例。在一种可能的实现方式中，可以采用SIFT，和/或采用稀疏光流跟踪方法(KLT，Kanade-Lucas-Tomasi Tracking Method)来实现特征匹配等。

在一种可能的实现方式中，将第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果，可以包括：

将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

如上述各公开实施例所述，视觉点云可以包括全局场景中的至少一个三维特征点，而这些三维特征点对应的各类特征信息也可以在全局地图中，因此，在一种可能的实现方式中，可以将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行特征匹配，来得到全局匹配结果。其中，用于特征匹配的特征信息可以是上述公开实施例中提到的特征描述子、通信信号指纹或是语义信息等各类特征信息的一种或多种，具体包含哪些特征信息，以及如何进行匹配，均可以根据实际情况灵活选择，不局限于下述各公开实施例。

在一种可能的实现方式中，将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果的方式，可以近似最近邻搜索ANN(Approximate Nearest Neighbor)的方式进行实现。在一个示例中，对于第一采集图像所包含的特征，可以在全局地图中寻找与该特征最接近的K个特征(K的数量可以根据实际情况进行灵活设定)。然后这K个特征可以对全局地图中的各帧视觉点云进行投票，来表明视觉点云是否与第一采集图像相对应，如果某帧或某几帧视觉点云的投票数超过设定的阈值，则可以认为某帧或某几帧视觉点云对应的视觉图像为第一采集图像的共视图像，则在共视图像中，与第一采集图像中的二维特征点匹配的各三维特征点，可以作为全局特征匹配结果。

通过ANN将第一采集图像中的二维特征点，与至少一帧视觉点云对应的三维特征点进行匹配，来得到全局特征匹配结果，可以减少特征匹配过程中误匹配的情况，提高全局特征匹配结果的精度，从而提升位姿确定的精度。

在得到全局特征匹配结果以后，可以根据全局特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿，这一过程的实现方式同样可以根据实际情况灵活选择，不局限于下述各公开实施例。在一种可能的实现方式中，可以将全局特征匹配结果，通过RANSAC(Random Sample Consensus)方法和透视N点定位(PnP)等方法进行位姿估算，并通过重投影误差的优化方式对估算的位姿进行优化，从而得到第一终端在采集过程中的至少一个第一位姿。

通过上述过程，可以利用全局地图中视觉点云所对应的特征，与第一采集图像之间的特征进行匹配，从而利用第一采集图像中匹配到的特征对第一终端的位姿进行估算，来获取第一终端的至少一个位姿，由于全局地图的精度满足精度条件，因此基于与全局地图特征匹配的结果所确定的第一位姿，也具有较高的精度，从而提升位姿确定这一过程的精度。

在一种可能的实现方式中，采集数据可以包括至少两帧第一采集图像，步骤S13可以包括：

步骤S131，将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

步骤S132，根据至少两帧第一采集图像，进行特征匹配，得到本地特征匹配结果；

步骤S133，根据全局特征匹配结果和本地特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

其中，将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果的方式，可以参考上述各公开实施例，在此不再赘述。

在一种可能的实现方式中，由于生成的全局地图可能无法实现对全局场景的完全覆盖，仅根据第一采集图像与视觉点云之间进行特征匹配所得到的全局特征匹配结果，确定第一位姿的方式，可能会由于视觉点云包括的三维特征点不全或是数量较少等原因，导致确定第一位姿的结果不准确或是无法确定第一位姿。因此，在一种可能的实现方式中，还可以在采集数据包括至少两帧第一采集图像的情况下，根据不同第一采集图像之间的特征匹配关系，来进一步得到本地特征匹配结果，从而根据全局特征匹配结果和本地特征匹配结果，共同确定第一终端在采集过程中的至少一个第一位姿。

本地特征匹配结果可以是不同第一采集图像帧之间相互匹配的二维特征点，根据至少两帧第一采集图像进行特征匹配的过程可以根据实际情况灵活选择，任何可以实现不同图像之间特征匹配的方式均可以作为相应的实现方式，不局限于下述各公开实施例。在一种可能的实现方式中，可以通过上述公开实施例中提到的KLT方法，利用不同的第一采集图像之间的光流特征，来进行特征匹配，从而得到本地特征匹配结果。

在得到全局特征匹配结果和本地特征匹配结果以后，可以通过步骤S133，根据全局特征匹配结果和本地特征匹配结果，共同确定第一终端在采集过程中的至少一个第一位姿，步骤S133的实现方式可以根据实际情况灵活确定。在一种可能的实现方式中，步骤S133的实现方式可以参考上述公开实施例中，基于全局特征匹配结果确定第一位姿的方式，比如可以将全局特征匹配结果和本地特征匹配结果，通过RANSAC和PnP的方法来进行位姿的估算以及进一步地优化等。

通过将第一采集图像与至少一帧视觉点云进行特征匹配得到全局特征匹配结果，根据至少两帧第一采集图像得到本地特征匹配结果，从而根据全局特征匹配结果和本地特征匹配结果，共同确定第一终端在采集过程中的至少一个第一位姿。通过上述过程，可以通过本地特征匹配结果，对全局特征匹配结果进行辅助，从而减小由于全局地图对全局场景覆盖不全面对位姿确定结果的影响，提高第一位姿的精度。

在一种可能的实现方式中，采集数据还可以包括第一IMU数据，在这种情况下，步骤S133可以包括：

根据全局特征匹配结果和/或本地特征匹配结果，获取第一约束信息；

根据第一IMU数据，获取第二约束信息；

根据第一约束信息和第二约束信息中的至少一种，对全局特征匹配结果和本地特征匹配结果进行处理，得到第一终端在采集过程中的至少一个第一位姿。

其中，第一IMU数据可以是第一终端在目标场景中进行数据采集的过程中，采集到的惯性测量数据。

通过上述公开实施例可以看出，在一种可能的实现方式中，在通过全局特征匹配结果和本地特征匹配结果确定第一位姿的过程中，还可以获取第一约束信息和第二约束信息，来对求取第一位姿的过程添加约束。

其中，第一约束信息可以是根据全局特征匹配结果和/或本地特征匹配结果所得到的约束信息。具体如何获取第一约束信息，其实现形式可以根据实际情况灵活选择，不局限于下述各公开实施例。

在一种可能的实现方式中，可以利用全局特征匹配结果中匹配的三维特征点和二维特征点的信息，来获取第一约束信息。在一个示例中，根据全局特征匹配结果，获取第一约束信息的过程可以通过下述公式(6)进行表述：

其中，^WT_i为第一终端中用于采集第一采集图像的设备在采集第i帧第一采集图像情况下的位姿，

为全局特征匹配结果中匹配的第j个三维特征点，

为全局特征匹配结果中与

匹配的二维特征点，

为将三维特征点

投影至第i帧第一采集图像上的投影结果。

在一种可能的实现方式中，可以利用本地特征匹配结果中匹配的三维特征点和二维特征点的信息，来获取第一约束信息。在一个示例中，根据本地特征匹配结果，获取第一约束信息的过程可以通过下述公式(7)进行表述：

其中，x_ij为本地特征匹配结果中匹配的第j个二维特征点，X_j为本地特征匹配结果中x_ij在目标场景中映射的三维特征点，f(^WT_i,X_j)为将三维特征点X_j投影至第i帧第一采集图像上的投影结果，其余参数的含义可以参考上述公开实施例。

公式(6)或者公式(7)的计算结果均可作为第一约束信息。在一种可能的实现方式中，还可以根据全局特征匹配结果和本地特征匹配结果，共同获取第一约束信息，在这种情况下，可以将公式(6)与公式(7)中获取第一约束信息的方式结合，来得到第一约束信息。

同理，第二约束信息可以是根据第一IMU数据所得到的约束信息。具体如何获取第二约束信息，其实现形式可以根据实际情况灵活选择，不局限于下述各公开实施例。

在一种可能的实现方式中，可以利用第一终端中采集第一采集图像以及采集第一IMU数据的设备的相关参数，来获取第二约束信息。在一个示例中，根据第一IMU数据，获取第二约束信息的过程可以通过下述公式(8)进行表述：

其中，C_i＝(^WT_i,^Wv_i,b_a,b_g)为采集第i帧第一采集图像的情况下第一终端的参数，^Wv_i为第一终端的速度，b_a为第一终端中测量第一IMU数据的设备的加速度偏置，b_g为第一终端中测量第一IMU数据的设备的陀螺仪测量偏置，h(·)为IMU成本函数，其余参数的含义可以参考上述各公开实施例。

公式(8)的计算结果均可作为第二约束信息。通过上述各公开实施例可以看出，在一种可能的实现方式中，可以根据第一终端在采集第一采集图像的过程中，第一IMU数据的变化情况，来确定第二约束信息。

在获取第一约束信息以及第二约束信息以后，可以根据第一约束信息和第二约束信息中的至少一种，对全局特征匹配结果和本地特征匹配结果进行处理，得到第一终端在采集过程中的至少一个第一位姿。

其中，根据第一约束信息和第二约束信息中的至少一种，对全局特征匹配结果和本地特征匹配结果进行处理的方式在本公开实施例中不做限制，任何可以基于约束信息对特征匹配结果进行处理从而得到位姿的计算方式，均可以作为本公开实施例中的实现方式。

在一种可能的实现方式中，对全局特征匹配结果和本地特征匹配结果进行处理，可以包括：通过光束法平差对全局特征匹配结果和本地特征匹配结果进行处理。

其中，光束法平差(BA，Bundle Adjustment)是一种位姿求解的实现方式。如通过BA对位姿进行求解的具体过程，可以根据实际情况灵活决定。在一个示例中，可以将公式(6)～公式(8)中的至少一种，作为求取第一位姿过程中的约束信息，并可以通过BA对约束信息进行求解，计算最小误差下的第一位姿。其中，具体将哪些数据作为约束信息在本公开实施例中不做限定，在一种可能的实现方式中，可以将第一约束信息和第二约束信息共同作为约束信息，在这种情况下，通过BA对约束信息进行求解的过程可以通过下述公式(9)进行表示：

其中各参数的含义可以参考上述各公开实施例，在此不再赘述。

通过BA对公式(9)进行求解来确定至少一个第一位姿的具体过程，在本公开实施例中不做限定，任何利用BA进行求解的方法均可以作为本公开实施例中应用的求解方法。在一种可能的实现方式中，在对公式(9)进行求解的过程中，可以利用关键帧求解以及增量BA(ICE-BA)的求解方法，来对公式(9)进行计算，从而确定第一终端在采集过程中的至少一个第一位姿。

通过基于第一约束信息和第二约束信息中的至少一种，通过光束法平差对全局特征匹配结果和本地特征匹配结果进行处理，来得到第一终端在采集过程中的至少一个第一位姿。通过上述过程，可以利用第一约束信息以及第二约束信息中的至少一种，对得到的第一位姿进行优化，从而使得最终确定的第一位姿整体更加平滑，减小抖动性。

进一步地，利用关键帧以及ICE-BA等方式对第一位姿进行求解，可以有效减小第一位姿确定过程中的计算量，从而提高位姿确定过程的效率。

如上述各公开实施例所述，本公开实施例中确定的第一位姿的精度较高，因此本公开实施例中提出的方法，可以应用于移动定位领域中的各类场景，具体应用于何种场景可以根据实际情况进行选择。

在一种可能的实现方式中，本公开实施例中提出的位姿确定方法，可以用于离线确定设备位姿。在一种可能的实现方式中，本公开实施例中提出的位姿确定方法，确定的位姿可以用作运动真值数据(groundtruth)，来对一些与移动定位相关的神经网络算法进行结果准确性的评估等。因此，在一种可能的实现方式中，本公开实施例提出的位姿确定方法还包括：

根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据，其中，运动真值数据用于以下操作中的至少一种：

判断定位结果的精度、对神经网络进行训练以及与全局地图进行信息融合。

其中，运动真值数据可以是神经网络训练中，认定其结果为真实值的数据，即神经网络算法中的groundtruth数据。由于本公开实施例中确定的第一位姿为第一终端在数据采集这一运动过程中的位姿数据，且精度较高，因此在一种可能的实现方式中，可以认为确定的第一位姿为真实的，因此可以将第一位姿作为运动真值数据。

根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据的过程在本公开实施例中的实现方式可以根据实际情况灵活决定，不局限于下述各公开实施例。

在一种可能的实现方式中，根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据，可以包括：

将第一终端在采集过程中的至少一个第一位姿作为所述运动真值数据；和/或，

将采集数据中的至少一种，以及第一终端在采集过程中的至少一个第一位姿，作为运动真值数据，其中，采集数据包括：

无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。

通过上述各公开实施例可以看出，在一种可能的实现方式中，可以直接将确定的至少一个第一位姿，作为运动真值数据。由于确定的第一位姿的数量在本公开实施例中不做限定，因此得到的运动真值数据的数量在本公开实施例中也不做限定，在一种可能的实现方式中，可以将确定的各第一位姿均作为运动真值数据；在一种可能的实现方式中，也可以随机或是按照一定的方式，从确定的多个第一位姿中选定一个或多个第一位姿来作为运动真值数据。

在一种可能的实现方式中，除了按照上述任意方式将第一位姿作为运动真值数据以外，还可以将采集数据中的至少一种来作为运动真值数据。采集数据的实现方式在本公开实施例中不做限定，如上述各公开实施例所述，在一种可能的实现方式中，采集数据可以包括第一采集图像和/或第一IMU数据；在一种可能的实现方式中，由于第一终端的实现方式不受限定，其采集的数据类型也可能灵活发生变化与扩展，因此在一种可能的实现方式中，采集数据还可以包括无线网络WiFi数据、蓝牙数据、地磁数据以及UWB数据中的一种或多种等。

由于不同类型的采集数据均可以由第一终端进行采集，因此这些采集数据均可以与确定的第一位姿之间具有相应的对应关系，也可以在位姿确定的过程提供相应的约束，来辅助进行位姿确定。因此在一种可能的实现方式中，可以将多种类型的采集数据也作为运动真值数据。

通过将至少一个第一位姿，以及采集数据中的至少一种作为运动真值数据，可以进一步增加运动真值数据的数据量，从而使得运动真值数据在不同场景下的应用具有更好的效果。

通过上述公开实施例还可以看出，运动真值数据可以用于不同的场景，在一种可能的实现方式中，运动真值数据可以用于判断定位结果的精度，具体如何判断在本公开实施例中不做限制。在一种可能的实现方式中，可以将运动真值数据作为神经网络评价算法中用于评判算法准确度的benchmark数据集中的数据，从而用于对定位结果精度的判断。

在一种可能的实现方式中，运动真值数据也可以用于对神经网络进行训练，具体如何应用在训练过程中在本公开实施例中不做限制。在一种可能的实现方式中，可以将运动真值数据作为神经网络中的训练数据和/或测试数据等，从而应用于神经网络的训练过程中。

在一种可能的实现方式中，运动真值数据还可以与全局地图进行信息融合，如上述各公开实施例所述，在一种可能的实现方式中，运动真值数据还可以包括如WiFi数据、蓝牙数据、地磁数据或是UWB数据等采集数据，而且这些采集数据与第一位姿之间存在对应关系，因此在一种可能的实现方式中，可以将这些采集数据作为额外的辅助数据，通过第一位姿与全局地图之间的对应关系，将这些采集数据也融合进全局地图中，从而进一步提升全局地图的数据精度和数据全面性，也可以进一步提升利用融合后的全局地图，进行其余的位姿确定的准确性。

应用场景示例

随着深度学习技术的快速发展，对运动真值数据的质量、数量、场景多样性等方面的需求愈加旺盛，而相关技术中往往需要昂贵的设备或是额外的场地布置才能对运动真值数据进行采集，因此，如何以较低的成本获取大量的运动真值数据，成为目前一个亟待解决的问题。

图4示出根据本公开一应用示例的示意图，如图所示，本公开实施例提出了一种运动真值数据的获取方法，具体过程可以包括：

如图所示，在一种可能的实现方式中，本公开应用示例中提出的运动真值数据的获取过程，可以分为全局地图重建以及运动真值数据定位两部分。

其中，全局地图重建可以包括如下过程：

通过第二终端对全局场景进行扫描，获取全局场景中的地图数据。其中，第二终端的结构如图所示，第二终端可以由雷达、视觉传感器以及IMU传感器所组成，且可以通过背包进行承载。如图所示，在一个示例中，可以通过操作人员背着第二终端在全局场景中进行移动，从而利用雷达对全局场景中的激光点云进行采集，利用视觉传感器对全局场景中的第二采集图像进行采集，以及利用IMU传感器对全局场景中的第二IMU数据进行采集。

在第二终端对全局场景进行扫描的过程中，可以利用已获取的激光点云、第二采集图像以及第二IMU数据对全局地图进行实时重建，得到实时地图。实时地图的建立过程可以参考上述各公开实施例，在此不再赘述。在一种可能的实现方式中，实时地图可以反应操作人员在全局场景中已经进行地图数据采集的范围，因此可以将实时地图发送至目标设备中，在一个示例中，目标设备可以是图中所示操作人员手中的手持设备。

在第二终端对全局场景进行扫描完成后，可以利用获取的全局场景中的激光点云、第二采集图像以及第二IMU数据对全局地图进行离线重建，得到全局地图。离线重建的过程如图所示，在一个示例中，激光点云和第二IMU数据可以通过雷达SLAM系统进行计算，从而确定雷达在地图数据采集过程中的至少一个位姿，而且可以通过雷达与视觉传感器之间的坐标变换关系，将雷达的位姿准换为视觉传感器的位姿，从而得到第二终端的至少一个第二位姿；同时，第二采集图像可以通过特征匹配的方式进行视觉地图重建来得到至少一帧初始视觉点云。进一步地，还可以利用确定的至少一个第二位姿作为初始位姿，以及第二采集图像中的特征为视觉地图重建过程提供第三约束信息，从而对得到的初始视觉点云进行视觉-雷达联合优化，优化的过程可以参考上述公开实施例中的公式(4)。通过上述过程，可以得到优化后的视觉点云，以及从视觉点云中包括的三维特征点的位置与特征信息。进一步地，可以将视觉点云以及三维特征点作为全局地图，从而实现全局地图的重建。

在完成全局地图重建后，可以进入到运动真值数据定位的过程，在一种可能的实现方式中，运动真值数据定位的过程如下：

如图所示，在一种可能的实现方式中，可以通过手机或是AR眼镜等第一终端，在全局场景中的某个目标场景内进行移动，来获取采集数据。其中，采集数据可以包括第一采集图像以及第一IMU数据。

一方面，第一采集图像可以与全局地图之间进行特征匹配，从而实现视觉定位，得到全局特征匹配结果(即图中的全局特征跟踪)。第一采集图像与全局地图之间的特征匹配过程可以参考上述各公开实施例，在此不再赘述。

另一方面，第一采集图像中的不同帧图像之间还可以进行特征匹配，从而得到本地特征匹配结果(即图中的本地特征跟踪)。第一采集图像中不同帧图像之间的特征匹配过程可以参考上述各公开实施例，在此不再赘述。

在得到全局特征匹配结果以及本地特征匹配结果以后，可以根据全局特征匹配结果、本地特征匹配结果以及采集的第一IMU数据，通过上述公开实施例中提到的公式(9)，来进行视觉-惯性的联合优化，从而确定第一终端在目标场景的移动过程中的至少一个第一位姿，联合优化的过程可以详见上述各公开实施例，在此不再赘述。

进一步地，在得到至少一个第一位姿以后，可以将得到的第一位姿作为运动真值数据，并存储于评价神经网络算法性能的benchmark的数据库中。

本公开应用示例中提出的运动真值数据的获取方法，设备成本主要为集成激光雷达、相机和IMU的高精地图采集设备，总体成本较低；且全局场景以及目标场景无需预先布置，尺度扩展性明显优于需预先布置场景的相关方案，尺度上限主要取决于离线算力，且现有算法和算力已可满足数十万平的场景，因此可用于大尺度场景；同时同一全局场景中的全局地图可重用，在采集和重建全局地图后即可规模化采集移动终端的海量数据；移动数据的采集只依赖移动设备的内置传感器，因此每次采集前无需进行和其他外部设备的标定、同步等局限规模化采集的额外操作；另外不受应用场景的限制，可以同时适用于室内外场景。

需要说明的是，本公开实施例获取的运动真值不仅限于用于神经网络的评价或训练中，也可以扩展应用于其他场景，本公开对此不作限定。

可以理解，本公开提及的上述各个方法实施例，在不违背原理逻辑的情况下，均可以彼此相互结合形成结合后的实施例，限于篇幅，本公开不再赘述。本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

此外，本公开还提供了图像处理装置、电子设备、计算机可读存储介质、程序，上述均可用来实现本公开提供的任一种图像处理方法，相应技术方案和描述和参见方法部分的相应记载，不再赘述。

图5示出根据本公开实施例的位姿确定装置的框图。该位姿确定装置可以为终端设备、服务器或者其他处理设备等。其中，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(Personal DigitalAssistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。

在一些可能的实现方式中，该图像处理装置可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

如图5所示，所述位姿确定装置20可以包括：

采集数据获取模块21，用于获取目标场景中的第一终端采集的采集数据。

全局地图获取模块22，用于获取包含目标场景的全局地图，其中，全局地图基于第二终端对包含目标场景的全局场景进行数据采集所获得的地图数据生成，且全局地图满足精度条件。

位姿确定模块23，用于根据采集数据以及全局地图之间的特征对应关系，确定第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，全局地图包括至少一帧视觉点云，视觉点云包括全局场景中的至少一个三维特征点；采集数据包括第一采集图像；位姿确定模块用于：将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据全局特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，全局地图包括目标场景中的至少一帧视觉点云；采集数据包括至少两帧第一采集图像；位姿确定模块用于：将第一采集图像与至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；根据至少两帧第一采集图像，进行特征匹配，得到本地特征匹配结果；根据全局特征匹配结果和本地特征匹配结果，确定第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，采集数据还包括第一惯性测量IMU数据；位姿确定模块进一步用于：根据全局特征匹配结果和/或本地特征匹配结果，获取第一约束信息；根据第一IMU数据，获取第二约束信息；根据第一约束信息和第二约束信息中的至少一种，对全局特征匹配结果和本地特征匹配结果进行处理，得到第一终端在采集过程中的至少一个第一位姿。

在一种可能的实现方式中，位姿确定模块进一步用于：通过光束法平差对全局特征匹配结果和本地特征匹配结果进行处理。

在一种可能的实现方式中，位姿确定模块进一步用于：将第一采集图像中的二维特征点，与至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

在一种可能的实现方式中，装置还包括：运动真值数据获取模块，用于根据第一终端在采集过程中的至少一个第一位姿，确定运动真值数据。

在一种可能的实现方式中，运动真值数据获取模块用于：将第一终端在采集过程中的至少一个第一位姿作为运动真值数据；和/或，将采集数据中的至少一种，以及第一终端在采集过程中的至少一个第一位姿，作为运动真值数据，其中，采集数据包括：无线网络WiFi数据、蓝牙数据、地磁数据、超宽带UWB数据、第一采集图像以及第一IMU数据中的一种或多种。

在一种可能的实现方式中，运动真值数据用于以下操作中的至少一种：判断定位结果的精度、对神经网络进行训练以及与全局地图进行信息融合。

在一种可能的实现方式中，地图数据包括：全局场景中的激光点云、第二采集图像以及第二IMU数据；装置还包括：地图数据获取模块，用于获取通过第二终端采集的全局场景的地图数据；全局地图生成模块，用于根据地图数据，对全局场景进行离线重建，生成全局场景的全局地图。

在一种可能的实现方式中，全局地图生成模块用于：根据第二IMU数据和激光点云，确定第二终端在数据采集过程中的至少一个第二位姿；根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧视觉点云，其中，视觉点云与全局场景中的多个三维特征点对应；根据至少一帧视觉点云，得到全局场景的全局地图。

在一种可能的实现方式中，全局地图生成模块进一步用于：根据至少一个第二位姿，结合第二采集图像，对全局场景进行视觉地图重建，得到至少一帧初始视觉点云；根据激光点云和/或第二采集图像，获取视觉地图重建过程中的第三约束信息；根据第三约束信息，对至少一帧初始视觉点云进行优化，得到至少一帧视觉点云。

在一种可能的实现方式中，第二终端包括：雷达，用于获取全局场景中的激光点云；视觉传感器，用于获取全局场景中的第二采集图像；IMU传感器，用于获取全局场景中的第二IMU数据。

在一种可能的实现方式中，装置还用于：对视觉传感器与IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；对雷达与视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；根据第一标定结果和第二标定结果，对视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

在一种可能的实现方式中，装置还用于：在第二终端采集地图数据的过程中，根据地图数据对全局场景进行实时重建，生成全局场景的实时地图；向目标设备发送地图数据和/或实时地图，其中，目标设备用于显示对全局场景完成数据采集的地理范围。

本公开实施例还提出一种计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现上述方法。计算机可读存储介质可以是非易失性计算机可读存储介质。

本公开实施例还提出一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行上述方法。

本公开实施例还提供了一种计算机程序产品，包括计算机可读代码，当计算机可读代码在设备上运行时，设备中的处理器执行用于实现如上任一实施例提供的图像处理方法的指令。

本公开实施例还提供了另一种计算机程序产品，用于存储计算机可读指令，指令被执行时使得计算机执行上述任一实施例提供的图像处理方法的操作。

电子设备可以被提供为终端、服务器或其它形态的设备。

图6示出根据本公开实施例的一种电子设备800的框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图6，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在电子设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为电子设备800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到电子设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器804，上述计算机程序指令可由电子设备800的处理器820执行以完成上述方法。

图7示出根据本公开实施例的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图7，电子设备1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

电子设备1900还可以包括一个电源组件1926被配置为执行电子设备1900的电源管理，一个有线或无线网络接口1950被配置为将电子设备1900连接到网络，和一个输入输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如Windows Server^TM，Mac OS X^TM，UnixTM,Linux^TM，FreeBSD^TM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由电子设备1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种位姿确定方法，其特征在于，所述方法包括：

获取目标场景中的第一终端采集的采集数据；

获取包含所述目标场景的全局地图，其中，所述全局地图基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成，且所述全局地图满足精度条件；

根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿；

其中，所述地图数据包括：所述全局场景中的激光点云、第二采集图像以及第二IMU数据；

所述方法还包括：

获取通过第二终端采集的所述全局场景的地图数据；

根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图。

2.根据权利要求1所述的方法，其特征在于，所述全局地图包括至少一帧视觉点云，所述视觉点云包括所述全局场景中的至少一个三维特征点；所述采集数据包括第一采集图像；

所述根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿，包括：

将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果；

根据所述全局特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿。

3.根据权利要求1或2所述的方法，其特征在于，所述全局地图包括所述目标场景中的至少一帧视觉点云；所述采集数据包括至少两帧第一采集图像；

根据所述至少两帧第一采集图像，进行特征匹配，得到本地特征匹配结果；

根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿。

4.根据权利要求3所述的方法，其特征在于，所述采集数据还包括第一惯性测量IMU数据；

所述根据所述全局特征匹配结果和所述本地特征匹配结果，确定所述第一终端在采集过程中的至少一个第一位姿，包括：

根据所述全局特征匹配结果和/或所述本地特征匹配结果，获取第一约束信息；

根据所述第一IMU数据，获取第二约束信息；

根据所述第一约束信息和所述第二约束信息中的至少一种，对所述全局特征匹配结果和所述本地特征匹配结果进行处理，得到所述第一终端在采集过程中的至少一个第一位姿；

其中，所述第一约束信息为视觉约束，所述第二约束信息为IMU约束。

5.根据权利要求4所述的方法，其特征在于，所述对所述全局特征匹配结果和所述本地特征匹配结果进行处理，包括：

通过光束法平差对所述全局特征匹配结果和所述本地特征匹配结果进行处理。

6.根据权利要求2所述的方法，其特征在于，所述将所述第一采集图像与所述至少一帧视觉点云进行特征匹配，得到全局特征匹配结果，包括：

将所述第一采集图像中的二维特征点，与所述至少一帧视觉点云包括的三维特征点进行匹配，得到全局特征匹配结果。

7.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述第一终端在采集过程中的至少一个第一位姿，确定运动真值数据。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一终端在采集过程中的至少一个第一位姿，确定运动真值数据，包括：

将所述第一终端在采集过程中的至少一个第一位姿作为所述运动真值数据；和/或，

将所述采集数据中的至少一种，以及所述第一终端在采集过程中的至少一个第一位姿，作为所述运动真值数据，其中，所述采集数据包括：

9.根据权利要求7所述的方法，其特征在于，所述运动真值数据用于以下操作中的至少一种：

判断定位结果的精度、对神经网络进行训练以及与所述全局地图进行信息融合。

10.根据权利要求1所述的方法，其特征在于，所述根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图，包括：

根据所述第二IMU数据和所述激光点云，确定所述第二终端在数据采集过程中的至少一个第二位姿；

根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云，其中，所述视觉点云包括所述全局场景中的至少一个三维特征点；

根据所述至少一帧视觉点云，得到所述全局场景的全局地图。

11.根据权利要求10所述的方法，其特征在于，所述根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧视觉点云，包括：

根据所述至少一个第二位姿，结合所述第二采集图像，对所述全局场景进行视觉地图重建，得到至少一帧初始视觉点云；

根据所述激光点云和/或所述第二采集图像，获取视觉地图重建过程中的第三约束信息；

根据所述第三约束信息，对所述至少一帧初始视觉点云进行优化，得到至少一帧视觉点云；

其中，所述第三约束信息包括下述至少一种：激光点云的平面约束、激光点云的边缘约束以及视觉约束。

12.根据权利要求1所述的方法，其特征在于，所述第二终端包括：

雷达，用于获取所述全局场景中的激光点云；

视觉传感器，用于获取所述全局场景中的第二采集图像；

IMU传感器，用于获取所述全局场景中的第二IMU数据。

13.根据权利要求12所述的方法，其特征在于，所述根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图之前，还包括：

对所述视觉传感器与所述IMU传感器之间的坐标变换关系进行标定，得到第一标定结果；

对所述雷达与所述视觉传感器之间的坐标变换关系进行标定，得到第二标定结果；

根据所述第一标定结果和所述第二标定结果，对所述视觉传感器、IMU传感器以及雷达之间的坐标变换关系进行联合标定。

14.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在第二终端采集地图数据的过程中，根据所述地图数据对所述全局场景进行实时重建，生成所述全局场景的实时地图；

向目标设备发送所述地图数据和/或所述实时地图，其中，所述目标设备用于显示对所述全局场景完成数据采集的地理范围。

15.一种位姿确定装置，其特征在于，包括：

采集数据获取模块，用于获取目标场景中的第一终端采集的采集数据；

全局地图获取模块，用于获取包含所述目标场景的全局地图，其中，所述全局地图基于第二终端对包含所述目标场景的全局场景进行数据采集所获得的地图数据生成，且所述全局地图满足精度条件；

位姿确定模块，用于根据所述采集数据以及所述全局地图之间的特征对应关系，确定所述第一终端在采集过程中的至少一个第一位姿；

所述装置还包括：

地图数据获取模块，用于获取通过第二终端采集的所述全局场景的地图数据；

全局地图生成模块，用于根据所述地图数据，对所述全局场景进行离线重建，生成所述全局场景的全局地图。

16.一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至14中任意一项所述的方法。

17.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至14中任意一项所述的方法。