CN113344981A

CN113344981A - 位姿数据处理方法、装置及电子设备

Info

Publication number: CN113344981A
Application number: CN202110741577.8A
Authority: CN
Inventors: 陈建冲; 陈仕创; 周毅
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-03

Abstract

本申请公开了一种位姿数据处理方法、装置及电子设备，方法包括：获得第一图像，所述第一图像为图像采集装置针对目标物体所采集到的二维图像；至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿；通过同步定位与建图SLAM的方式，对所述第一图像进行处理，以得到所述图像采集装置相对于目标坐标系的第二位姿；根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿。

Description

位姿数据处理方法、装置及电子设备

技术领域

本申请涉及定位技术领域，尤其涉及一种位姿数据处理方法、装置及电子设备。

背景技术

在一些应用场景中，需要对其中的物体进行定位，估计其在三维空间中的位姿，其中包含6个自由度上的姿态、旋转和平移。

目前多采用基于SLAM的技术方案对物体进行实时跟踪，以减少多次位姿识别所产生的运算量。

发明内容

有鉴于此，本申请提供一种位姿数据处理方法、装置及电子设备，包括：

一种位姿数据处理方法，包括：

获得第一图像，所述第一图像为图像采集装置针对目标物体所采集到的二维图像；

至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿；

通过同步定位与建图SLAM的方式，对所述第一图像进行处理，以得到所述图像采集装置相对于目标坐标系的第二位姿；

根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿。

上述方法，优选的，至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿，包括：

使用所述第一图像，对第三位姿进行处理，以得到所述目标物体相对于所述图像采集装置的第一位姿；

其中，所述第三位姿基于第二图像得到，所述第二图像为所述图像采集装置在采集所述第一图像的前一时刻针对所述目标物体所采集到的二维图像。

上述方法，优选的，所述第三位姿通过以下方式获得：

根据所述第二图像，获得所述目标物体的二维特征点；

将所述目标物体的三维特征点与所述二维特征点进行特征点进行匹配，以得到所述三维特征点和所述二维特征点之间的匹配关系；所述目标物体的三维特征点根据所述目标物体的三维扫描信息获得；

至少根据所述匹配关系和所述图像采集装置的采集参数，获得所述目标物体相对于所述图像采集装置的第三位姿。

上述方法，优选的，使用所述第一图像，对第三位姿进行处理，以得到所述目标物体相对于所述图像采集装置的第一位姿，包括：

获得所述第一图像中的二维特征点；

根据所述匹配关系，获得所述第一图像中的二维特征点对应的三维特征点；

根据所述第一图像中的二维特征点对应的三维特征点，对所述第三位姿数据进行调整，以得到所述目标物体相对于所述图像采集装置的第一位姿。

上述方法，优选的，在获得所述目标物体相对于所述目标坐标系的目标位姿之后，所述方法还包括：

对所述目标位姿使用卡尔曼滤波器进行处理，以得到新的目标位姿。

上述方法，优选的，所述卡尔曼滤波器至少根据所述第三位姿对所述目标位姿进行处理。

上述方法，优选的，所述方法还包括：

使用所述目标位姿对所述卡尔曼滤波器的滤波器参数进行更新，更新后的滤波器参数用于对第四位姿进行处理，所述第四位姿为下一时刻所述目标物体相对于所述目标坐标系的位姿。

上述方法，优选的，所述根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿，包括：

将所述第一位姿和所述第二位姿进行向量相乘处理，以得到所述目标物体相对于所述目标坐标系的目标位姿。

一种位姿数据处理装置，包括：

图像获得单元，用于获得第一图像，所述第一图像为图像采集装置针对目标物体所采集到的二维图像；

第一获得单元，用于至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿；

第二获得单元，用于通过SLAM的方式，对所述第一图像进行处理，以得到所述图像采集装置相对于目标坐标系的第二位姿；

目标获得单元，用于根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿。

一种电子设备，包括：

图像采集装置，用于采集图像；

处理器，用于获得第一图像，所述第一图像为所述图像采集装置针对目标物体所采集到的二维图像；至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿；通过同步定位与建图SLAM的方式，对所述第一图像进行处理，以得到所述图像采集装置相对于目标坐标系的第二位姿；根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿。

从上述技术方案可以看出，本申请公开的一种位姿数据处理方法、装置及电子设备中，在获得到图像采集装置针对目标物体所采集到的二维图像之后，利用该二维图像获得到目标物体相对于图像采集装置的第一位姿以及通过SLAM的方式所得到的图像采集装置相对于目标坐标系的第二位姿，进而基于这两个位姿获得到目标物体相对于目标坐标系的目标位姿。可见，本申请中融合基于二维图像所得到的位姿以及基于SLAM的方式所得到的位姿，不论目标物体是否处于运动状态，均可以得到目标物体在三维空间中的目标位姿，避免在单基于SLAM的方式进行物体的位姿获取时会因为物体移动而导致位姿偏差的情况，从而提高位姿的准确性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种位姿数据处理方法的流程图；

图2为本申请适用于AR应用场景的示例图；

图3为本申请实施例一提供的一种位姿数据处理方法的部分流程图；

图4为本申请实施例的一种实现方式示例图；

图5及图6分别为本申请实施例一提供的一种位姿数据处理方法的另一部分流程图；

图7及图8分别为本申请实施例一提供的一种位姿数据处理方法的另一流程图；

图9为本申请实施例二提供的一种位姿数据处理装置的结构示意图；

图10及图11分别为本申请实施例二提供的一种位姿数据处理装置的另一结构示意图；

图12为本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

随着技术的发展，物体位姿定位的需求也越来越大。在多种应用场景中，需要基于物体的位姿实现相应的场景功能。例如，在增强现实AR(Augmented Reality)眼镜中，需要对三维空间中的游戏玩家进行位姿获取；在幼儿监控视频中，需要对幼儿进行位姿获取，等等。

以AR的应用场景为例，需要识别场景中的三维物体，如游戏玩家或小动物等，需要获得其在三维空间中的位姿，而后叠加各种虚拟信息如模型、文字、视频等，以达到增强现实世界的显示效果。

本申请的发明人在对跟踪算法进行研究时发现：由于识别三维物体位姿的运算量比较大，而AR应用场景又需要实时的获取三维物体位姿，目前通常做法是在识别出三维物体后，采用可实时的跟踪算法去跟踪三维物体。而跟踪算法中，常用的有两种：第一种跟踪方案是采用纯视觉的三维物体跟踪算法，第二种跟踪方案是基于SLAM进行实时跟踪。其中的第一种跟踪方案虽然可以实时追踪视野中的三维物体，但由于仅依赖视觉信息，在相机快速移动或旋转时，图像易产生模糊，此时跟踪算法极易失败，导致AR体验不佳，而且，三维物体在移出视野之后再次进入视野，也需要重新进行位姿识别，因此，会导致识别延迟。而第二种跟踪方案是基于视觉和惯性测量单元IMU(Inertial Measurement Unit)信息，跟踪相机在真实世界中的位姿，可以解决纯视觉跟踪方案的缺点，但仅对静止的物体有效，一旦三维物体在三维空间中发生了位移，该跟踪方案无法感知到，从而导致了后续叠加虚拟信息时会产生偏差的情况。

基于以上缺陷，本申请的发明人提出一种融合视觉信息和SLAM的三维物体实时跟踪方案，用以避免基于SLAM的方式进行三维物体的位姿获取时会因为三维物体移动而导致位姿偏差的情况，从而提高位姿的准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参考图1，为本申请实施例一提供的一种位姿数据处理方法的实现流程图，该方法可以适用于具有图像采集设备的电子设备中，如AR眼镜等。本实施例中的技术方案主要用于提高位姿的准确性。

具体的，本实施例中的方法可以包含以下步骤：

步骤101：获得第一图像。

其中，第一图像为图像采集装置针对目标物体所采集到的二维图像。

例如，AR眼镜利用相机采集存在其他游戏玩家的视野内的二维图像，如图2中所示，相机可以为AR眼镜中的内置相机或者设置在AR眼镜外壳上的外置相机。

步骤102：至少根据第一图像，获得目标物体相对于图像采集装置的第一位姿。

其中，本实施例中可以通过基于第一图像对三维物体进行位姿识别，以得到第一位姿，或者，本实施例中可以基于第一图像对三维物体进行位姿跟踪，以得到第一位姿。

例如，AR眼镜对相机采集到的第一图像进行位姿识别，以得到视野中游戏玩家相对于AR眼镜的第一位姿；或者，AR眼镜利用相机采集到的第一图像在游戏玩家的历史位姿的基础上进行位姿跟踪，以得到视野中游戏玩家相对于AR眼镜的第一位姿。

步骤103：通过SLAM的方式，对第一图像进行处理，以得到图像采集装置相对于目标坐标系的第二位姿。

这里的目标坐标系可以为世界坐标系，为三维空间的坐标系。具体的，本实施例中可以采用SLAM算法结合IMU所采集到的数据对第一图像进行图像识别，以得到图像采集装置相对于目标坐标系的第二位姿。IMU设置在电子设备中。

例如，AR眼镜使用SLAM算法对相机采集到的第一图像进行位姿识别，以得到AR眼镜相对于世界坐标系中的第二位姿。

需要说明的是，步骤102和步骤103之间的执行顺序不受附图中所示的执行顺序限制，也可以先执行步骤103，再执行步骤102，或者，也可以同时执行步骤102和步骤103，所形成的不同的技术方案属于同一发明构思，均在本申请的保护范围内。

步骤104：根据第一位姿和第二位姿，获得目标物体相对于目标坐标系的目标位姿。

具体的，本实施例中可以采用位姿向量的融合算法，对第一位姿和第二位置进行位姿融合，以得到目标物体相对于目标坐标系的目标位置。例如，本实施例中将第一位姿和第二位姿进行向量相乘，以得到目标位姿。

例如，AR眼镜将视野中游戏玩家相对于AR眼镜的位姿与AR眼镜相对于世界坐标系中的位姿进行向量相乘，以得到视野中的游戏玩家相对于世界坐标系的位姿。

由上述方案可知，本申请实施例一提供的一种位姿数据处理方法中，在获得到图像采集装置针对目标物体所采集到的二维图像之后，利用该二维图像获得到目标物体相对于图像采集装置的第一位姿以及通过SLAM的方式所得到的图像采集装置相对于目标坐标系的第二位姿，进而基于这两个位姿获得到目标物体相对于目标坐标系的目标位姿。可见，本申请实施例中融合基于二维图像所得到的位姿以及基于SLAM的方式所得到的位姿，不论目标物体是否处于运动状态，均可以得到目标物体在三维空间中的目标位姿，避免在单基于SLAM的方式进行物体的位姿获取时会因为物体移动而导致位姿偏差的情况，从而提高位姿获取的准确性。

在一种实现方式中，步骤102中获得第一位姿时，具体可以通过以下方式实现，如图3中所示：

使用第一图像，对第三位姿进行处理，以得到目标物体相对于图像采集装置的第一位姿。

这里的第三位姿为基于第二图像得到的位姿，而第二图像为图像采集装置在采集第一图像的前一时刻针对目标物体所采集到的二维图像。

也就是说，本实施例中获得的第一位姿是在前一时刻目标物体的第三位姿的基础上，利用目标物体的二维图像进行位姿跟踪所得到。

在一种实现方式中，第三位姿可以是利用第二图像在更前一时刻的目标物体的位姿进行位姿跟踪所得到的位姿。例如，如图4中所示，第一时刻为当前时刻，即图像采集装置采集到第一图像的时刻，第二时刻为第一时刻的前一时刻，即图像采集装置采集到第二图像的时刻，第三时刻为第二时刻的前一时刻，在第三时刻上目标物体具有相应的历史位姿，在此基础上，结合第二时刻上采集到的第二图像对历史位姿进行位姿跟踪，得到第二时刻上目标物体相对于图像采集装置的第三位姿，再次基础上，结合第一时刻上所采集到的第一图像对第三位姿进行位姿跟踪，得到第一时刻上目标物体相对于图像采集装置的第一位姿。例如，AR眼镜在得到第三时刻上游戏玩家相对于AR眼镜的历史位姿之后，在第二时刻采集到第二图像之后，使用第二图像对历史位姿进行位姿跟踪，以得到第二时刻上游戏玩家相对于AR眼镜的第三位姿，在第一时刻采集到第一图像之后，使用第一图像对第三位姿进行位姿跟踪，以得到第一时刻即当前时刻上游戏玩家相对于AR眼镜的第一位姿。

在另一种实现方式中，第三位姿是利用第二图像对目标物体进行位姿识别所得到的位姿。而本实施例中在利用第二图像对目标物体进行位姿识别得到第三位姿时，具体可以通过以下方式实现，如图5中所示：

步骤501：根据第二图像，获得目标物体的二维特征点。

其中，第二图像为图像采集装置在采集到第一图像的前一时刻对目标物体所采集到的二维图像。基于此，对第二图像进行特征点识别之后，得到目标物体的二维特征点。

例如，AR眼镜中的相机在第二时刻(即相机采集第一图像的时刻的前一时刻)采集到第二图像，对第二图像进行特征点识别，得到目标物体在第二时刻上的二维特征点。

步骤502：将目标物体的三维特征点与二维特征点进行特征点进行匹配，以得到三维特征点和二维特征点之间的匹配关系。

其中，目标物体的三维特征点根据目标物体的三维扫描信息获得。具体的，本实施例中可以使用扫描仪对目标物体进行扫描，进而得到目标物体的三维扫描信息，基于此，对三维扫描信息进行特征点提取，以得到目标物体的三维特征点。三维特征点以向量表征。

例如，AR眼镜中配置扫描仪，使用该扫描仪对视野中的游戏玩家进行3D扫描，进而得到三维扫描信息，如在任意角度游戏玩家的姿态信息，继而对扫描到的3D信息进行特征点提取，如提取游戏玩家的五官、四肢等特征点，进而得到游戏玩家的三维特征点。

需要说明的是，本实施例中在第一次对目标物体进行三维扫描之后，可以将得到的目标物体的三维特征点进行缓存，以便于在后续需要时可以直接在缓存区域中读取三维特征点。

在一种实现方式中，本实施例中可以将二维特征点与扫描到的三维特征点进行一一匹配，具体为进行向量匹配，在匹配到对应的三维特征点之后，建立三维特征点和二维特征点之间的匹配关系。

其中，三维特征点和二维特征点之间的匹配关系可以以特征点的向量组表示。

例如，AR眼镜将第二图像中识别出的游戏玩家的二维特征点与扫描到的游戏玩家的三维特征点进行特征点匹配，形成关于游戏玩家的在三维特征点和二维特征点之间的匹配关系，每个相对应的三维特征点和二维特征点形成特征点组。

步骤503：至少根据匹配关系和图像采集装置的采集参数，获得目标物体相对于图像采集装置的第三位姿。

其中，图像采集装置的采集参数可以为图像采集装置的内部参数。如相机的内存等。其中可以包含有焦距等参数。

基于此，本实施例中在已知采集参数和三维特征点与二维特征点之间的匹配关系的基础上，通过相应的算法获得目标物体相对于图像采集装置的第三位姿。例如，AR眼镜在已知相机内参和匹配关系的基础上，使用估计相机姿态的算法如PNP(Perspective-n-Point)算法，计算出游戏玩家相对于AR眼镜中的相机也是相对于AR眼镜的位姿，即第三位姿。

在此基础上，图像采集装置在第一时刻(第二时刻的后一时刻，即当前时刻)采集到第一图像之后，使用第一图像在第二时刻所识别出的目标物体的第三位姿的基础上对目标物体相对于图像采集装置的位姿进行跟踪，参考图4，以得到第一时刻上目标物体相对于图像采集装置的第一位姿。也就是说，本实施例中在基于视觉信息进行位姿跟踪的基础上融合SLAM方式，对目标物体的位姿进行跟踪，达到提高位姿获取准确性的目的。

例如，在第一时刻(第二时刻的后一时刻，即当前时刻)采集到第一图像，AR眼镜利用第一图像在游戏玩家在第二时刻的第三位姿的基础上进行位姿跟踪，以得到第一时刻上视野中游戏玩家相对于AR眼镜的第一位姿，同时，AR眼镜使用SLAM算法对第一图像进行位姿识别，以得到AR眼镜相对于世界坐标系中的第二位姿，最后，AR眼镜将这两个位姿进行向量相乘，以得到第一时刻上视野中的游戏玩家相对于世界坐标系的位姿。

在具体实现方式中，本实施例中在使用第一图像，对第三位姿进行处理，以得到第一位姿时，可以使用视觉跟踪算法实现，视觉跟踪算法是以目标物体的二维特征点和三维特征点之间的匹配关系进行初始化之后的算法，具体可以有如下步骤，如图6中所示：

步骤601：获得第一图像中的二维特征点。

其中，本实施例中可以对第一图像进行特征点识别，以得到第一图像中的二维特征点。

例如，AR眼镜采用特征点识别算法对第一时刻即当前时刻上采集到的第一图像进行特征点识别，以得到游戏玩家在第一时刻上的二维特征点。

步骤602：根据匹配关系，获得第一图像中的二维特征点对应的三维特征点。

其中，匹配关系为前文中使用第二图像的二维特征点与扫描得到的目标物体的三维特征点之间的匹配关系，这一匹配关系被初始化到视觉跟踪算法中。这里的初始化，可以理解为将匹配关系存储到视觉跟踪算法所能够读取到的存储路径上。基于此，本实施例中可以使用该匹配关系，将第一图像中的二维特征点进行三维特征点的查找与匹配，进而得到第一图像中的二维特征点对应的三维特征点。

例如，AR眼镜在得到游戏玩家在第一时刻上的二维特征点之后，利用游戏玩家的二维特征点与三维特征点之间的匹配关系中，采集到第一时刻上游戏玩家的二维特征点所对应的三维特征点。

步骤603：根据第一图像中的二维特征点对应的三维特征点，对第三位姿数据进行调整，以得到目标物体相对于图像采集装置的第一位姿。

例如，AR眼镜在得到第一时刻上游戏玩家的二维特征点所对应的三维特征点之后，使用该三维特征点，对第二时刻上游戏玩家的第三位姿进行调整，以跟踪到游戏玩家在第一时刻即当前时刻上的第一位姿。

基于图1或图3中所示方案，在步骤104获得到目标位姿之后，本实施例中还可以包含如下步骤，如图7中所示：

步骤105：对目标位姿使用卡尔曼滤波器进行处理，以得到新的目标位姿。

其中，卡尔曼滤波器能够对目标位姿进行位姿平滑处理，使得在使用新的目标位姿能够避免因为位姿变动过大而存在目标物体跳跃的情况，进而提高用户使用电子设备的使用体验。

具体的，本实施例中的卡尔曼滤波器是基于前一时刻的目标物体的位姿为基础对目标物体的当前位姿进行平滑处理的。例如，本实施例中使用目标物体在第二时刻上的第三位姿对卡尔曼滤波器进行初始化或参数更新，基于此，卡尔曼滤波器可以至少在第三位姿的基础上对目标物体在第一时刻上的目标位姿进行平滑处理。

另外，在步骤104之后，本实施例中还可以包含如下步骤，如图8中所示：

步骤106：使用目标位姿对卡尔曼滤波器的滤波器参数进行更新。

更新后的滤波器参数用于对第四位姿进行处理，第四位姿为下一时刻目标物体相对于目标坐标系的位姿。例如，卡尔曼滤波器的滤波器参数被更新之后，在第四时刻即第一时刻的下一时刻获得到目标物体相对于目标坐标系的第四位姿之后，卡尔曼滤波器可以使用更新后的滤波器参数对第四位姿进行平滑处理。

基于以上实现方案，每个时刻上获得到目标物体相对于目标坐标系的位姿之后，均可以使用卡尔曼滤波器对位姿进行平滑处理，同时，还可以使用所得到的位姿对卡尔曼滤波器的滤波器参数进行更新，以便于卡尔曼滤波器以更新后的滤波器参数对下一时刻所获得到的位姿进行平滑处理。

具体实现中，本实施例中被更新的卡尔曼滤波器的滤波器参数可以包含有：卡尔曼滤波器在6个自由度上的可信度。本实施例中对滤波器参数进行更新可以包含有增加或降低等处理方式。例如，可以通过与卡尔曼滤波器在前一时刻的位姿与当前时刻的位姿之间的差异来增加或降低相应的滤波器参数。

参考图9，为本申请实施例二提供的一种位姿数据处理装置的结构示意图，该装置可以配置在具有图像采集设备的电子设备中，如AR眼镜等。本实施例中的技术方案主要用于提高位姿的准确性。

具体的，本实施例中的装置可以包含以下单元：

图像获得单元901，用于获得第一图像，所述第一图像为图像采集装置针对目标物体所采集到的二维图像；

第一获得单元902，用于至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿；

第二获得单元903，用于通过SLAM的方式，对所述第一图像进行处理，以得到所述图像采集装置相对于目标坐标系的第二位姿；

目标获得单元904，用于根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿。

由上述方案可知，本申请实施例二提供的一种位姿数据处理装置中，在获得到图像采集装置针对目标物体所采集到的二维图像之后，利用该二维图像获得到目标物体相对于图像采集装置的第一位姿以及通过SLAM的方式所得到的图像采集装置相对于目标坐标系的第二位姿，进而基于这两个位姿获得到目标物体相对于目标坐标系的目标位姿。可见，本申请实施例中融合基于二维图像所得到的位姿以及基于SLAM的方式所得到的位姿，不论目标物体是否处于运动状态，均可以得到目标物体在三维空间中的目标位姿，避免在单基于SLAM的方式进行物体的位姿获取时会因为物体移动而导致位姿偏差的情况，从而提高位姿的准确性。

在一种实现方式中，第一获得单元902具体用于：使用所述第一图像，对第三位姿进行处理，以得到所述目标物体相对于所述图像采集装置的第一位姿；其中，所述第三位姿基于第二图像得到，所述第二图像为所述图像采集装置在采集所述第一图像的前一时刻针对所述目标物体所采集到的二维图像。

可选的，所述第三位姿通过以下方式获得：根据所述第二图像，获得所述目标物体的二维特征点；将所述目标物体的三维特征点与所述二维特征点进行特征点进行匹配，以得到所述三维特征点和所述二维特征点之间的匹配关系；所述目标物体的三维特征点根据所述目标物体的三维扫描信息获得；至少根据所述匹配关系和所述图像采集装置的采集参数，获得所述目标物体相对于所述图像采集装置的第三位姿。

具体的，第一获得单元902具体用于：获得所述第一图像中的二维特征点；根据所述匹配关系，获得所述第一图像中的二维特征点对应的三维特征点；根据所述第一图像中的二维特征点对应的三维特征点，对所述第三位姿数据进行调整，以得到所述目标物体相对于所述图像采集装置的第一位姿。

在一种实现方式中，本实施例中的装置还可以包含如下单元，如图10中所示：

位姿处理单元905，用于：在目标获得单元904获得所述目标物体相对于所述目标坐标系的目标位姿之后，对所述目标位姿使用卡尔曼滤波器进行处理，以得到新的目标位姿。

可选的，所述卡尔曼滤波器至少根据所述第三位姿对所述目标位姿进行处理。

在一种实现方式中，本实施例中的装置还可以包含如下单元，如图11中所示：

参数更新单元906，用于：使用所述目标位姿对所述卡尔曼滤波器的滤波器参数进行更新，更新后的滤波器参数用于对第四位姿进行处理，所述第四位姿为下一时刻所述目标物体相对于所述目标坐标系的位姿。

在一种实现方式中，目标获得单元904具体用于：将所述第一位姿和所述第二位姿进行向量相乘处理，以得到所述目标物体相对于所述目标坐标系的目标位姿。

需要说明的是，本实施例中各单元的具体实现可以参考前文中的相应内容，此处不再详述。

参考图12，为本申请实施例三提供的一种电子设备的结构示意图，该电子设备可以为具有图像采集设备的电子设备，如AR眼镜等。本实施例中的技术方案主要用于提高位姿的准确性。

具体的，本实施例中的电子设备可以包含如下结构：

图像采集装置1201，用于采集图像；

处理器1202，用于获得第一图像，所述第一图像为图像采集装置1201针对目标物体所采集到的二维图像；至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置1201的第一位姿；通过同步定位与建图SLAM的方式，对所述第一图像进行处理，以得到所述图像采集装置1201相对于目标坐标系的第二位姿；根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿。

由上述方案可知，本申请实施例三提供的一种电子设备中，在获得到图像采集装置针对目标物体所采集到的二维图像之后，利用该二维图像获得到目标物体相对于图像采集装置的第一位姿以及通过SLAM的方式所得到的图像采集装置相对于目标坐标系的第二位姿，进而基于这两个位姿获得到目标物体相对于目标坐标系的目标位姿。可见，本申请实施例中融合基于二维图像所得到的位姿以及基于SLAM的方式所得到的位姿，不论目标物体是否处于运动状态，均可以得到目标物体在三维空间中的目标位姿，避免在单基于SLAM的方式进行物体的位姿获取时会因为物体移动而导致位姿偏差的情况，从而提高位姿的准确性。

需要说明的是，本实施例中的电子设备还可以包含其他部件，如存储器、显示屏、触摸屏、各种传感器等，而处理器的具体实现可以参考前文中的相应内容，此处不再详述。

具体实现中，本申请中的技术方案适用于各种需要对物体进行位姿定位的应用场景。本申请实施例中以AR眼镜的应用场景为例，对本申请中的技术方案进行说明，具体流程如下：

1、进入AR眼镜中需要对三维物体进行位姿定位的游戏应用后，开启线程，以运行SLAM算法，同时监听IMU传感器；

2、输入一帧图像，将其传入SLAM线程，如果已经运行过三维物体识别算法，那么可以确定处于跟踪模式，即使用图像进行位姿跟踪而无需进行位姿识别的模式，此时，跳转到步骤7，如果没有运行过三维物体识别算法，那么可以确定没有处于跟踪模式，需要进行三维物体的位姿识别，此时，执行步骤3；

3、采用三维物体识别算法识别场景中的三维物体，输出其在相机坐标系下的6DOF位姿P_tc；

4、获取当前SLAM算法结果，即相机在三维世界的位姿P_cw；

5、将获取的结果相乘，计算出三维物体在三维世界的位姿P_tw，同时，使用位姿P_tw初始化位姿卡尔曼滤波器。

6、开启新的线程，初始化视觉跟踪算法，具体可以使用步骤5中所得到的P_tw进行初始化，之后，切换为跟踪模式，进入步骤7，同时执行步骤12，以按照P_tw输出相应的画面，如叠加虚拟信息后的三维物体的画面；

7、将新采集到的图像传入视觉跟踪子线程；

8、同步SLAM线程和视觉跟踪线程，分别获取二者的输出结果P_tc和P_cw，此时的P_tc为在前一时刻的P_tc的基础上通过视觉跟踪算法进行位姿跟踪得到；

9、判断视觉跟踪算法是否执行失败，如果视觉跟踪算法失败，即P_tc无输出，则不更新三维物体在三维世界中的位姿，执行步骤12，如果没有失败，执行步骤10；

10、若SLAM线程和视觉跟踪线程二者皆有输出，则将二者的输出P_tc和P_cw相乘，计算出三维物体在三维世界的位姿P_tw；

11、以当前帧计算的P_tw为观测值，传入卡尔曼滤波器，使用卡尔曼滤波器进行平滑处理，并更新滤波器参数(状态)，同时输出三维物体在三维世界中的位姿。

12、将P_tw输出。

综上，本申请中提出了一种采用卡尔曼滤波器融合视觉跟踪和SLAM的三维物体实时跟踪算法，在本方案中以低帧率运行视觉跟踪算法，同时结合系统SLAM算法的实时输出，通过卡尔曼滤波器进行融合，可实现稳定跟踪静止与运动的物体，平稳输出物体在三维空间中的位姿。

基于此，本申请中的技术方案具有优点：首先，在三维物体静止时，即使相机剧烈晃动，跟踪算法依然可以正常工作；其次，三维物体自身存在运动时，本申请的技术方案也会及时更新三维物体在三维世界中的位姿；然后，在通过三维物体识别算法之后，通过视觉跟踪可以减少计算量；另外，在识别到三维物体后，即使其移除视野后再次进入视野，也无需重新识别，可快速进入跟踪模式；最后，对于一个视频流的输出场景，所输出的物体位姿非常平稳。当然，本申请的技术方案所具有的优点还可以通过以上各实施例的技术方案所表现，此处不再详述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种位姿数据处理方法，包括：

2.根据权利要求1所述的方法，至少根据所述第一图像，获得所述目标物体相对于所述图像采集装置的第一位姿，包括：

3.根据权利要求2所述的方法，所述第三位姿通过以下方式获得：

根据所述第二图像，获得所述目标物体的二维特征点；

4.根据权利要求3所述的方法，使用所述第一图像，对第三位姿进行处理，以得到所述目标物体相对于所述图像采集装置的第一位姿，包括：

获得所述第一图像中的二维特征点；

5.根据权利要求2所述的方法，在获得所述目标物体相对于所述目标坐标系的目标位姿之后，所述方法还包括：

6.根据权利要求5所述的方法，所述卡尔曼滤波器至少根据所述第三位姿对所述目标位姿进行处理。

7.根据权利要求5所述的方法，所述方法还包括：

8.根据权利要求1或2所述的方法，所述根据所述第一位姿和所述第二位姿，获得所述目标物体相对于所述目标坐标系的目标位姿，包括：

9.一种位姿数据处理装置，包括：

10.一种电子设备，包括：

图像采集装置，用于采集图像；