CN116430986A

CN116430986A - 一种估计手柄位姿的方法及虚拟显示设备

Info

Publication number: CN116430986A
Application number: CN202211183832.2A
Authority: CN
Inventors: 黄志明; 曾杰; 周祺晟
Original assignee: Hisense Electronic Technology Shenzhen Co ltd
Current assignee: Hisense Electronic Technology Shenzhen Co ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-07-14

Abstract

本申请涉及虚拟现实交互技术领域，提供一种估计手柄位姿的方法及虚拟显示设备，利用手柄上的IMU和虚拟显示设备上的多目相机，实现视觉惯导联合优化手柄与虚拟显示设备间的相对位姿。在位姿估计前，根据不同位置角度采集的多帧初始手柄图像中手柄上各发光器的标注结果，优化各发光器的3D空间结构，从而提高相对位姿计算的准确性；位姿估计过程中，若未初始化，则基于优化后的3D空间结构以及相机采集的目标手柄图像初始化手柄与虚拟显示设备间的相对位姿，若已初始化，则对当前手柄与虚拟显示设备间的相对位姿进行预测，结合IMU的观测数据，优化预测的相对位姿，从而得到当前平稳、准确的手柄与虚拟显示设备间的目标相对位姿。

Description

一种估计手柄位姿的方法及虚拟显示设备

技术领域

本申请涉及虚拟现实交互技术领域，提供一种估计手柄位姿的方法及虚拟显示设备。

背景技术

针对虚拟现实(Virtual Reality，VR)、增强现实(Augmented Reality，AR)等虚拟显示设备，通常使用手柄实现常规交互，就如同个人电脑(Personal Computer，PC)和鼠标间的控制关系。

然而，通过手柄实现与虚拟世界的交互，其前提是得到手柄与虚拟显示设备间的6DOF位姿，从而根据6DOF位姿实现手柄对虚拟显示设备显示画面的控制。因此，手柄相对于虚拟显示设备的位姿，直接影响了用户的沉浸式体验，具有重要的研究价值。

发明内容

本申请提供一种估计手柄位姿的方法及虚拟显示设备，用于提高手柄相对于虚拟显示设备位姿估计的准确性。

一方面，本申请提供一种估计手柄位姿的方法，所述手柄用于控制虚拟显示设备显示的画面，所述手柄上安装有IMU和多个发光器，所述虚拟显示设备安装有与所述发光器类型相匹配的多目相机，所述方法包括：

针对所述相机采集的首帧目标手柄图像，根据所述目标手柄图像、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿；其中，所述3D空间结构是根据不同位置角度采集的多帧初始手柄图像中各发光器的标注结果优化的；

针对所述相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的相对位姿，预测当前所述手柄与所述虚拟显示设备间的相对位姿结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。

另一方面，本申请提供一种虚拟显示设备，包括处理器、存储器、显示屏、通信接口和多目相机，所述显示屏用于显示画面，所述虚拟显示设备通过所述通信接口与手柄通信，所述手柄用于控制所述显示屏显示的画面，所述多目相机的类型与所述手柄上多个发光器的发光类型相匹配；

所述通信接口、所述多目相机、所述显示屏、所述存储器和所述处理器通过总线连接，所述存储器存储有计算机程序，所述处理器根据所述计算机程序，执行以下操作：

另一方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机设备执行本申请实施例提供的估计手柄位姿的方法。

本申请提供的估计手柄位姿的方法及虚拟显示设备中，手柄上安装有IMU和多个发光器，虚拟显示设备上安装有多目相机，且相机的类型与发光器类型相匹配，通过估计手柄与虚拟显示设备间的相对位姿，实现手柄对控制虚拟显示设备显示的画面的控制，完成与虚拟世界的交互。在估计手柄与虚拟显示设备间相对位姿前，从不同位置、角度采集多帧初始手柄图像，保证获取到手柄上完整数量的发光器，从而基于多帧初始手柄图像中的发光器来优化发光器的3D空间结构，提高后续相对位姿计算的准确性；进一步的，基于优化后的3D空间结构以及相机采集的首帧目标手柄图像，初始化手柄与虚拟显示设备间的相对位姿，初始化完成后，针对相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测当前目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，再结合IMU的观测数据，实现视觉惯导对相对位姿的联合优化，从而得到平稳、准确的当前手柄与虚拟显示设备间的目标相对位姿。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的VR设备与手柄的应用场景示意图；

图2A为本申请实施例提供的包含多目相机的虚拟显示设备示意图；

图2B为本申请实施例提供的包含多个LED白光灯的6DOF手柄示意图；

图2C为本申请实施例提供的包含多个LED红外灯的6DOF手柄示意图；

图3为本申请实施例提供的估计手柄位姿方法的整体架构图；

图4为本申请实施例提供的第一次优化手柄上各发光器的3D空间结构的方法流程图；

图5A为本申请实施例提供的标注前双目红外相机采集的手柄图像；

图5B为本申请实施例提供的标注后双目红外相机采集的手柄图像；

图6为本申请实施例提供的PnP原理示意图；

图7为本申请实施例提供的第二次优化手柄上各发光器的3D空间结构的方法流程图；

图8为本申请实施例提供的视觉惯导联合优化估计手柄位姿的架构图；

图9为本申请实施例提供的视觉惯导联合估计手柄位姿的方法流程图；

图10为本申请实施例提供的初始化手柄与虚拟显示设备间相对位姿的方法流程图；

图11为本申请实施例提供的实时估计手柄与虚拟显示设备间相对位姿的方法流程图；

图12为本申请实施例提供的实时确定手柄上各法官器的3D点与2D点对应关系的方法流程图；

图13为本申请实施例提供的虚拟显示设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

AR、VR等虚拟显示设备一般是指具备独立处理器的头戴式显示设备(简称为头显或者头盔，如VR眼镜、AR眼镜等)，具有独立运算、输入和输出的功能。虚拟显示设备可外接手柄，用户通过操作手柄来控制虚拟显示设备显示的虚拟画面，实现常规交互。

以游戏场景为例，参见图1，为本申请实施例提供的虚拟显示设备与手柄的应用场景示意图，如图1所示的游戏场景中，玩家通过手柄实现与虚拟世界的交互，利用手柄与虚拟显示设备的相对位姿，控制虚拟显示设备的游戏画面，并根据游戏场景的变化做出肢体上的反映，从而体验身临其境般的沉浸式体验，提升游戏的趣味性。特别的，利用电视的大屏优势，将虚拟显示设备的虚拟游戏画面投放到电视上，娱乐性更高。

一般的，根据输出位姿的不同，常用的手柄包括3DOF手柄和6DOF手柄，其中，3DOF输出3维的旋转姿态，6DOF手柄输出3维的平移位置和3维的旋转姿态，相对于3DOF手柄，6DOF手柄可以做出的游戏动作更加复杂，趣味性更强。

目前，常用的6DOF手柄上设置有多个发光器(如LED灯)，其中，发光器可以发不同类型的光(如红外光、白光等)，且虚拟显示设备上的多目相机(在图2A中用圆圈圈出)的类型，应与发光类型相适配。

例如，参见图2B，为本申请实施例提供的一种6DOF手柄的示意图，如图2B所示的，该6DOF手柄上设置的LED灯发射白光，白点孔洞就是每个LED灯的位置。此时，为通过手柄上LED灯的位置来估计手柄与虚拟显示设备间的位姿，虚拟显示设备上的多目相机应为RGB相机。

再例如，参见图2C，为本申请实施例提供的另一种6DOF手柄的示意图，如图2C所示的，该6DOF手柄上设置的LED灯发射红外光(人眼不可见)。此时，为通过手柄上LED灯的位置来估计手柄与虚拟显示设备间的位姿，虚拟显示设备上的多目相机应为红外相机。

在实际应用中，使用手柄与虚拟世界进行交互，其前提是得到手柄在虚拟世界中的位姿，从而根据6DOF位姿实现手柄对虚拟显示设备显示画面的控制。

目前，市面上的大多数产品中，定位手柄位姿的方法主要为：利用虚拟显示设备上的红外相机捕捉手柄上发光器的红外图像，通过图像识别、图像跟踪这些红外发光器，并结合手柄上发光器的3D空间结构进行发光器的匹配、3D坐标计算等操作，最终可以得到手柄与虚拟显示设备间的相对位姿。

然而，上述方法中，由于手柄上发光器的3D空间结构是基于手柄的设计图纸测量得到，精度较低，导致位姿估计误差较大；同时，通过手柄上发光器的3D空间结构以及发光器对应的2D投影点，可以计算当前帧手柄的位姿，但一方面相机采集的单帧图像内发光器的数目有限，导致位姿估计准确度不高，另一方面相机采集的连续多帧图像之间的发光器的观测没有相互关联，导致交互过程中位姿光滑度较差，影响视觉体验。

一般的，如图2B和图2C所示的手柄内部，还安装有惯性测量单元(Inertialmeasurement unit，IMU)，用于测量手柄的运动速度，包括加速度和角速度，而手柄的运动速度，也会影响手柄与虚拟显示设备间的相对位姿。

鉴于此，本申请实施例提供了一种估计手柄位姿的方法及虚拟显示设备，基于虚拟显示设备的多目相机在不同位置、角度采集的手柄图像中发光器的标注结果，优化手柄上发光器的3D空间结构，从而提高手柄位姿估计的准确性；并且，利用手柄上IMU采集的观测数据和虚拟显示设备上相机采集的手柄图像，采用视觉惯导联合优化的位姿估计方法，获得更加平滑、准确的手柄位姿。

参见图3，为本申请实施例提供的估计手柄位姿方法的整体架构图，主要包括预处理以及相对位姿估计两部分。其中，预处理部分主要是利用虚拟显示设备上多目相机在不同位置、角度采集的多帧初始手柄图像中各发光器的标注结果，优化手柄上发光器的3D空间结构，获得更加准确的发光器的3D坐标，从而提高手柄位姿估计的准确性。相对位姿估计部分主要是利用相机采集的目标手柄图像以及IMU采集的观测数据，采用视觉惯导联合优化方法，实时估计手柄与虚拟显示设备间的相对位姿。

考虑到手柄在出厂前，各发光器的3D空间结构可以根据手柄的设计图纸获得，包括每个发光器的位置(用3D坐标表示)以及第二标识(用数字编码的ID表示)，但由于生产工艺的不同，实际上各发光器的3D空间结构可能和设计图纸存在误差。若直接使用设计图纸对应的手柄上各发光器的3D空间结构进行位姿估计，可能造成估计误差，影响用户的沉浸式体验。

因此，本申请实施例在估计手柄与虚拟显示设备间相对位姿之前，根据采集的多帧不同初始手柄图像，优化各发光器的3D空间结构。其中，优化过程可使用虚拟显示设备上预先标定好的至少两台相机采集的手柄图像，还可以使用预先标定好的独立的多台相机采集的手柄图像，但无论使用哪种相机，该相机的类型是与手柄上发光器的发光类型相配的。

具体实施时，手柄上各发光器的3D空间结构的具体优化过程参见图4，主要包括以下几步：

S401：根据不同位置角度采集的多帧初始手柄图像上预先标注的发光器，获得相应初始手柄图像上每个发光器的2D坐标和第一标识。

本申请的实施例中，在手柄上各发光器亮起的状态下，使用与发光器的发光类型相匹配的多目相机，从不同位置、角度采集多帧初始手柄图像，保证手柄上的发光器全部被采集到。得到多帧初始手柄图像后，人工预先标注出各发光器的中心点在每帧初始手柄图像中的位置(用2D坐标表示)，以及每个发光器的第一标识(用数字编码的ID表示)。其中，各发光器的第一标识与各发光器的3D空间结构保持一致。

以手柄上的发光器为LED红外灯、采集相机为虚拟显示设备上的双目红外相机为例，此时，初始手柄图像为红外图像。如图5A所示，为双目红外相机采集的标注前的红外手柄图像，人工标注后，双目红外手柄图像如图5B所示。

由于双目红外相机相对于同一个手柄的位置和角度不同，因此，同步采集的单帧红外手柄图像中，手柄的发光器的位置和数量不同。例如，如图5A和图5B所示的，一个红外相机采集的手柄红外图像中，包含第一标识为2、3、4、5、7的5个LED红外灯，另一个红外相机采集的手柄红外图像中，包含第一标识为2、3、4、5、6、7、8、9的8个LED红外灯。

对多目相机在不同位置、角度采集的每帧初始手柄图像全部进行标注后，在S401中，可以根据各帧初始手柄图像的标注结果，可以获得相应初始手柄图像上每个发光器的2D坐标和第一标识。

进一步地，基于每个发光器的2D坐标和第一标识，采用从运动恢复结构(Structure from Motion，SFM)思想，对每个发光器的3D坐标进行优化，得到优化后的各发光器的3D空间结构，具体参见S402-S404。

S402：根据优化前各发光器的3D空间结构，获得每个发光器的3D坐标和第二标识。

在S402中，优化前各发光器的3D空间结构是由手柄的设计图纸确定的，通过测量手柄的设计图纸，可以得到优化前3D空间结构中手柄上各发光器的3D坐标，以及每个发光器的第二标识。

S403：针对各帧初始手柄图像，根据第一标识和第二标识相同的发光器的2D坐标和3D坐标，以及相应帧对应的IMU的观测数据，确定手柄与采集相机间的相对位姿。

在S403中，针对每一帧初始手柄图像，执行以下操作：根据2D图像中第一标识和3D空间中第二标识相同的发光器的2D坐标和3D坐标，采用PnP(Perspective-n-Points)算法，确定该帧对应的手柄与采集相机间第一相对位姿，以及通过对该帧对应的IMU的观测数据进行积分，得到手柄与采集相机间的第二相对位姿，通过对第一相对位姿和第二相对位姿进行融合，得到该帧对应的手柄与采集相机间的相对位姿。

PnP算法是指基于3D与2D点对解决物体运动定位问题，其原理如图6所示，O表示相机光心，3D空间中物体的若干个(如A、B、C、D)3D点通过相机投影在图像平面上，得到对应的2D点(如a、b、c、d)，在已知3D点的坐标和3D点与2D点的投影关系的情况下，可以估算相机与物体间的位姿。在本申请实施例中，3D点与2D点的投影关系可以通过发光器的第一标识和第二标识反映出来。

S404：构建重投影误差方程，根据重投影误差方程同时优化各个相对位姿和3D坐标，得到第一次优化后的3D空间结构。

由于各相机在使用前进行了标定，每个相机的投影参数(也称为内参数)，以及相机间的相对位姿是已知的。因此，在S404中，根据每个相机的投影参数、相机间的相对位姿、以及手柄上各发光器的3D坐标、各发光器在每个相机采集的初始手柄图像中2D坐标，构建重投影误差方程，公式表示如下：

在公式1中，K_n表示第n号相机的投影参数，

分别表示手柄与第0号相机间的旋转矩阵和平移向量，/>

分别表示第n号相机与第0号相机间的旋转矩阵和平移向量，/>

表示第一标识为m的发光器在手柄上的3D坐标，p_m，n表示第二标识为m的发光器投影到第n号相机采集的初始手柄图像上的2D坐标。

其中，

表示手柄与第0号相机间的相对位姿，/>

表示第n号相机与第0号相机间的相对位姿。

可选的。第0号相机可以为采集的手柄上发光器数量最多的相机，也称为主相机。例如，以图5B为例，右红外相机采集的手柄上发光器的数量多于左红外相机采集的手柄上发光器的数量，此时，右红外相机为第0号相机(主相机)。

进一步地，在S404中，通过使重投影误差最小，从而同时优化各帧初始手柄图像对应的手柄与采集相机间的相对位姿，以及手柄上各发光器的3D坐标，得到第一次优化后的3D空间结构。

第一次3D空间结构优化后，可以得到较为准确的各发光器的3D坐标，但优化后3D空间结构的原点与优化前3D空间结构的原点之间会有一定的漂移。在一些实施例中，为进一步提高各发光器3D坐标的准确性，采用3对点的相似变换(Similarity Transformation，SIM3)方法将优化前后手柄坐标系统一对齐，实现对各发光器的3D空间结构的二次优化。具体过程参见图7，主要包括以下几步：

S405：根据优化后3D空间结构对应的手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的手柄上各发光器组成的第二3D点云，确定优化前后第一3D点云和第二3D点云间的转换位姿。

在S405中，手柄上各发光器的3D空间结构第一次优化后，各发光器的3D点组成第一3D点云，手柄上各发光器的3D空间结构第一次优化前，各发光器的3D点组成第二3D点云。在第一3D点云和第二3D点云中，优化前后各发光器的3D点坐标是已知的，通过是优化前后各发光器的3D坐标间的漂移误差最小，求得第一3D点云和第二3D点云间的转换位姿，转换位姿的计算公式如下：

其中，

表示第一次优化后标识为m的发光器在手柄坐标系下的3D坐标，

表示第一次优化前标识为m的发光器在手柄坐标系下的3D坐标，s表示第一3D点云和第二3D点云的尺度变换系数，(R，t)表示第一3D点云和第二3D点云间的转换位姿，其中，R表示优化前后手柄坐标系间的旋转矩阵，t表示优化前后手柄坐标系间的平移向量。

S406：根据转换位姿，重新确定手柄上各发光器的3D坐标，得到第二次优化后的3D空间结构。

在S406中，根据3D空间结构第一次优化前后各发光器的第一3D点云和第二3D点云间的准换位姿，计算手柄上各发光器最终的3D坐标，记为

计算公式如下：

基于各发光器最终的3D坐标，可以得到第二次优化后的3D空间结构。通过优化手柄上各发光器的3D空间结构，从而提高位姿估计的准确性。

需要说明的是，同一批次的手柄是基于同一设计图纸生产的，因此，对于同一批次的手柄，只需要进行一次优化即可。

需要说明的是，上述优化手柄上各发光器的3D空间结构的方法，可以由虚拟显示设备执行，还可以由其他设备执行，如笔记本电脑、台式计算机等。

对手柄上各发光器的3D空间结构进行优化后可以得到各发光器更加准确的3D坐标，进而基于优化后各发光器的3D坐标，实时估计手柄与虚拟显示设备间的相对位姿。

参见图8，为本申请实施例提供的视觉惯导联合优化估计手柄位姿的架构图，在图8中，

分别表示第j(j＝1，2，...n)帧对应的手柄上IMU坐标系与世界坐标系间的相对位姿、手柄坐标系与世界坐标系间的相对位姿、相机(即虚拟显示设备)坐标系与世界坐标系间的相对位姿，/>

表示手柄坐标系与IMU坐标系间的相对位姿。

如图8示出的，通过IMU连续采集的多帧观测数据间的预积分约束，以及IMU和相机采集的同一帧数据(即观测数据和目标手柄图像的时间戳相同)间的重投影约束，实现视觉惯导对手柄与虚拟显示设备间相对位姿的联合优化。

参见图9，为本申请实施例提供的视觉惯导联合估计手柄位姿的方法流程图，该流程主要包括以下几步：

S901：确定是否对手柄和虚拟显示设备间的相对位姿进行了初始化操作，若否，则执行S902，若是，则执行S903。

实时估计手柄与虚拟显示设备间相对位姿的过程中，可对手柄与虚拟显示设备间的相对位姿进行预测，预测过程需要给定手柄与虚拟显示设备间相对位姿的初值，因此，位姿估计过程中，首先确定是否对手柄和虚拟显示设备间的相对位姿进行了初始化操作，若没有初始化，则初始化手柄和虚拟显示设备间的相对位姿，若已经初始化，则对手柄和虚拟显示设备间的相对位姿进行预测及优化。

S902：针对相机采集的首帧目标手柄图像，根据目标手柄图像、IMU同步采集的观测数据和手柄上各发光器优化后的3D空间结构，初始化手柄与虚拟显示设备间的相对位姿。

实时估计手柄与虚拟显示设备间相对位姿的过程中，当没有初始化手柄和虚拟显示设备间的相对位姿时，可利用虚拟显示设备上相机采集的首帧目标手柄图像、IMU同步采集的观测数据、以及手柄上各发光器优化后的3D空间结构进行初始化操作。初始化操作过程如图10所示，主要包括以下几步：

S9021：在目标手柄图像的全局范围内提取各发光器的2D点。

初始化过程中，由于手柄与虚拟显示设备间的相对位姿未知，3D空间中手柄上各发光器的3D点，投影到虚拟显示设备上相机采集的目标手柄图像中的2D点的位置也是未知的。因此，在S9021中，需要在目标手柄图像的全局范围内检测手柄上的各发光器，将检测出的各发光器的中心，作为图像中各发光器的2D点。

其中，本申请实施例对目标手柄图像中检测发光器的2D点的方法不做限制性要求，例如，可以采用图像处理中的轮廓提取算法(如HOG、Canny等)，还可以采用深度学习模型(如CNN、YOLO等)。

S9022：采用暴力匹配方法，确定3D空间结构上各发光器的3D点与目标手柄图像上各发光器的2D点间的一一对应关系。

目标手柄图像内提取的各发光器的2D点，是优化后3D空间结构中哪个发光器的3D点的投影是未知的，即2D点与3D点间的对应关系未知。因此，在S9022中，采用暴力匹配方法，将目标手柄图像内提取的各发光器的2D点的第一标识，分别与优化后3D空间结构中各发光器的3D点的第二标识一一匹配，将第一标识和第二标识相同的2D点与3D点建立一一对应关系。

S9023：根据存在对应关系的2D点和3D点的坐标，以及IMU同步采集的观测数据，初始化手柄与虚拟显示设备间的相对位姿。

在S9023中，根据目标手柄图像中提取的各发光器的2D点的像素坐标，以及3D空间结构优化后存在对应关系的相应发光器的3D点的3D坐标，采用PnP算法，可实现视觉对手柄与虚拟显示设备间的相对位姿的初始化结果，同时，通过对IMU同步采集的观测数据进行积分，可得到惯导对手柄与虚拟显示设备间的相对位姿的初始化结果，通过视觉与惯导融合，可以得到最终初始化后手柄与虚拟显示设备间的相对位姿。其中，IMU采集的观测参数，包括但不限于手柄的加速度和角速度，通过对加速度进行一次积分，可以得到手柄的运动速度。

一般的，IMU与相机的采集频率可能不同，位姿估计过程需要保证使用的IMU采集的观测数据与相机采集的目标手柄图像保持同步，观测数据与目标手柄图像的同步关系，可根据时间戳确定。

S903：针对相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测当前手柄与虚拟显示设备间的相对位姿，结合IMU连续采集的观测数据，确定当前手柄与虚拟显示设备间的目标相对位姿。

实时估计手柄与虚拟显示设备间相对位姿的过程中，当已经初始化手柄与虚拟显示设备间的相对位姿时，针对相机采集的非首帧目标手柄图像，根据初始化结果，预测当前手柄与虚拟显示设备间的相对位姿。

具体实施时，根据首帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测第二帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，再根据首帧目标手柄图像和第二帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测第三帧目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，依此类推。

本申请实施例中，位姿估计过程中，通过根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿进行预测，保证了连续多帧目标手柄图像间相对位姿的平滑性，这样，在实际交互过程中，使用手柄控制虚拟显示设备显示的画面时，保证了虚拟显示画面的流畅性，提升了用户的沉浸式体验。

得到当前手柄与虚拟显示设备间的相对位姿后，为进一步提高相对位姿的准确性，在S903中，根据预测的当前相对位姿以及IMU连续采集的观测数据，确定当前手柄与虚拟显示设备间的目标相对位姿。

目标相对位姿的确定过程参见图11，主要包括以下几步：

S9031：根据当前手柄与虚拟显示设备间的相对位姿，确定3D空间结构上各发光器的3D点与目标手柄图像上各发光器的2D点间的一一对应关系。

位姿估计过程中，通过预测得到了当前手柄与虚拟显示设备间的相对位姿，根据当前的相对位姿，可以确定3D空间中手柄上各发光器的3D点，投影到虚拟显示设备上相机采集的目标手柄图像中的2D点的大概位置，从而确定各发光器的2D点与3D点间的一一对应关系。具体过程参见图12，主要包括以下几步：

S9031_1：根据手柄上各发光器在优化后3D空间结构中的3D坐标，以及预测得到的当前手柄与虚拟显示设备间的相对位姿，确定各发光器在目标手柄图像的局部范围。

S9031_2：在目标手柄图像的局部范围内提取各发光器的2D点。

S9031_3：采用最近邻匹配方法，确定优化后3D空间结构上各发光器的3D点与目标手柄图像上各发光器的2D点间的一一对应关系。

由于当前手柄与虚拟显示设备间的相对位姿是已知的，可以预测出手柄上各发光器在优化后3D空间结构中的3D点，投影到当前目标手柄图像中的2D坐标。因此，在S9031_3中，针对每个发光器的3D点，可采用最近邻匹配方法，将目标手柄图像内提取的各发光器的2D点中与投影点最近的2D点，作为该3D点对应的2D点。

S9032：根据存在对应关系的3D点和2D点的坐标，以及观测数据和当前目标手柄图像同步时IMU与相机的位姿，建立重投影约束方程。

在S9032中，重投影约束方程如下：

在公式4中，

分别表示IMU采集的第j帧观测数据对应的IMU在世界坐标系下的旋转矩阵和平移向量，/>

分别表示IMU采集的第j帧观测数据对应的虚拟显示设备上的相机在世界坐标系下的旋转矩阵和平移向量，/>

分别表示IMU在手柄坐标系下的旋转矩阵和平移向量，/>

表示手柄上第二标识为m的发光器的3D坐标，p_m表示手柄上第一标识为m的发光器在当前目标手柄图像上的2D坐标，proj(·)表示相机的投影方程。其中，

为IMU与相机同步时IMU在世界坐标系下的位姿，/>

为IMU与相机同步时相机在世界坐标系下的位姿，/>

为IMU与相机同步时IMU与手柄间的相对位姿。

S9033：根据连续两帧观测数据对应的IMU的位姿和手柄的运动速度，建立预积分约束方程。

在S9033中，预积分约束方程如下：

在公式5中，

表示IMU采集的第j+1帧观测数据对应的IMU在世界坐标系下的平移向量，/>

分别表示第j帧和第j+1帧观测数据对应的IMU在世界坐标系下的运动速度，可通过分别对第j帧和第j+1帧观测数据中加速度进行积分得到，g^W表示重力加速度，Δt表示IMU采集的第j帧和第j+1帧观测数据之间的时间间隔，LOG(·)表示四元数组对应的李群(Special Orthometri，SO3)上的对数函数，/>

分别表示IMU的平移向量、运动速度和旋转矩阵的预积分变量。

S9034：联合预积分约束方程和重投影约束方程，求解出当前目标手柄图像对应的IMU的位姿、相机的位姿、以及IMU与手柄的相对位姿。

预积分约束方程和重投影约束方程联合后的公式表示如下：

其中，j表示IMU采集的观测数据的帧数，f_j表示预积分约束方程，g_j表示重投影约束方程。

通过求解公式6，可以得到当前目标手柄图像对应的IMU在世界坐标系下的位姿

相机(即虚拟显示设备)在世界坐标系下的位姿/>

以及IMU与手柄的相对位姿/>

S9035：根据IMU与手柄的相对位姿，以及当前IMU的位姿和相机的位姿，得到当前手柄与虚拟显示设备间的目标相对位姿。

在S9035中，根据IMU与手柄的相对位姿，以及当前IMU的位姿，得到视觉惯导联合优化后手柄在世界坐标系下的位姿，公式表示如下：

其中，

表示当前手柄在世界坐标系下的位姿，/>

表示IMU和手柄的相对位姿。

由于

和/>

均在同一世界坐标系下，可以得到当前手柄与虚拟显示设备间的目标相对位姿，从而通过操作手柄控制虚拟显示设备显示的画面。

需要说明的是，由相机位于虚拟显示设备上，因此，相机的位姿可以表示虚拟显示设备的位姿。而虚拟显示设备上一般由多个相机，各相机时同步采集的，本申请实施例中，可使用一个相机采集的目标手柄图像进行位姿估计。

本申请实施例提供的估计手柄位姿的方法中，利用手柄上的IMU的多个发光器，以及虚拟显示设备上的多目相机，实现视觉惯导联合优化手柄与虚拟显示设备间的相对位姿。在位姿估计前，通过对不同位置、角度采集的多帧初始手柄图像进行发光器的标注，从而根据各发光器的标注结果优化发光器的3D空间结构，提高后续相对位姿计算的准确性。位姿估计过程中，基于优化后的3D空间结构以及相机采集的首帧目标手柄图像，初始化手柄与虚拟显示设备间的相对位姿，初始化完成后，针对相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的手柄与虚拟显示设备间的相对位姿，预测当前手柄与虚拟显示设备间的相对位姿，再结合IMU的观测数据，实现视觉惯导对相对位姿的联合优化，从而得到平稳、准确的当前手柄与虚拟显示设备间的目标相对位姿。

基于相同的技术构思，本申请实施例提供一种虚拟显示设备，该虚拟显示设备可执行上述检测手柄上发光器的方法，且能达到相同的技术效果。

参见图13，该虚拟显示设备包括处理器1301、存储器1302、显示屏1303、通信接口1304和多目相机1305，所述显示屏1303用于显示画面，所述虚拟显示设备通过所述通信接口1304与手柄通信，所述手柄用于控制所述显示屏1303显示的画面，所述多目相机1305的类型与所述手柄上多个发光器的发光类型相匹配；

所述通信接口1304、所述多目相机1305、所述显示屏1303、所述存储器1302和所述处理器1301通过总线1306连接，所述存储器1302存储有计算机程序，所述处理器1301根据所述计算机程序，执行以下操作：

针对所述相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的相对位姿，预测当前所述手柄与所述虚拟显示设备间的相对位姿′结合所述IMU连续采集的观测数据c确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。

可选的，所述处理器1301通过以下方式优化所述手柄上各发光器的3D空间结构：

根据不同位置角度采集的多帧初始手柄图像上预先标注的发光器，获得相应初始手柄图像上每个发光器的2D坐标和第一标识；

根据优化前所述各发光器的3D空间结构，获得每个发光器的3D坐标和第二标识；

针对各帧所述初始手柄图像，根据所述第一标识和所述第二标识相同的发光器的2D坐标和3D坐标，以及相应帧对应的所述IMU的观测数据，确定所述手柄与采集相机间的相对位姿；

构建重投影误差方程，根据所述重投影误差方程同时优化各个相对位姿和各发光器的3D坐标，得到第一次优化后的3D空间结构。

可选的，得到第一优化后的3D空间结构之后，所述处理器1301还执行：

根据优化后3D空间结构对应的所述手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的所述手柄上各发光器组成的第二3D点云，确定优化前后所述第一3D点云和所述第二3D点云间的转换位姿；

根据所述转换位姿，重新确定所述手柄上各发光器的3D坐标，得到第二次优化后的3D空间结构。

可选的，所述重投影误差方程为：

其中，K_n表示第n号相机的投影参数，

分别表示所述手柄与第0号相机间的旋转矩阵和平移向量，/>

分别表示所述第n号相机与第0号相机间的旋转矩阵和平移向量，/>

表示第一标识为m的所述发光器在所述手柄上的3D坐标，p_m，n表示第二标识为m的所述发光器投影到所述第n号相机采集的初始手柄图像上的2D坐标。

可选的，所述处理器1301根据所述目标手柄图像、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿，具体操作为：

在所述目标手柄图像的全局范围内提取各发光器的2D点；

采用暴力匹配方法，确定所述3D空间结构上各发光器的3D点与所述目标手柄图像上各发光器的2D点间的一一对应关系；

根据存在所述对应关系的2D点和3D点的坐标，以及所述IMU同步采集的观测数据，初始化所述手柄与所述虚拟显示设备间的相对位姿。

可选的，所述处理器1301根据预测的当前所述手柄与所述虚拟显示设备间的相对位姿，以及所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿，具体操作为；

根据当前所述手柄与所述虚拟显示设备间的相对位姿，确定所述3D空间结构上各发光器的3D点与所述目标手柄图像上各发光器的2D点间的一一对应关系；

根据存在所述对应关系的2D点与3D点的坐标，以及所述观测数据和所述当前目标手柄图像同步时所述IMU与所述相机的位姿，建立重投影约束方程；

根据连续两帧观测数据对应的所述IMU的位姿和所述手柄的运动速度，建立预积分约束方程；

联合所述预积分约束方程和所述重投影约束方程，求解出所述当前目标手柄图像对应的所述IMU的位姿、所述相机的位姿、以及所述IMU与所述手柄的相对位姿；

根据所述IMU与所述手柄的相对位姿、所述IMU的位姿和所述相机的位姿，得到当前所述手柄与所述虚拟显示设备间的目标相对位姿。

可选的，所述处理器1301根据当前所述手柄与所述虚拟显示设备间的相对位姿，确定所述3D空间结构上各发光器的3D点与所述目标手柄图像上各发光器的2D点间的一一对应关系，具体操作为：

根据所述手柄上各发光器在优化后3D空间结构中的3D坐标，以及预测得到的当前所述手柄与所述虚拟显示设备间的相对位姿，确定所述各发光器在所述目标手柄图像的局部范围；

在所述目标手柄图像的局部范围内提取所述各发光器的2D点；

采用最近邻匹配方法，确定优化后3D空间结构上所述各发光器的3D点与所述目标手柄图像上所述各发光器的2D点间的一一对应关系。

可选的，所述预积分约束方程为：

所述重投影约束方程为：

其中，

分别表示所述IMU采集的第j帧观测数据对应的所述IMU在世界坐标系下的旋转矩阵和平移向量，/>

表示所述IMU采集的第j+1帧观测数据对应的所述IMU在所述世界坐标系下的平移向量，/>

分别表示第j帧和第j+1帧观测数据对应的所述IMU在所述世界坐标系下的运动速度，g^W表示重力加速度，Δt表示所述IMU采集的第j帧和第j+1帧观测数据之间的时间间隔，LOG(·)表示四元数组对应的李群SO3上的对数函数，

分别表示所述IMU的所述平移向量、所述运动速度和所述旋转矩阵的预积分变量，/>

分别表示所述IMU采集的第j帧观测数据对应的所述虚拟显示设备上的相机在世界坐标系下的旋转矩阵和平移向量，/>

分别表示所述IMU在手柄坐标系下的旋转矩阵和平移向量，/>

表示所述手柄上标识为m的发光器的3D坐标，p_m表示所述手柄上标识为m的发光器投影在所述当前目标手柄图像上的2D坐标，pro j(·)表示相机的投影方程。

可选的，联合所述预积分约束方程和所述重投影约束方程的结果为：

其中，

分别表示所述IMU采集的第j帧观测数据对应的所述IMU在世界坐标系下的旋转矩阵和平移向量，j表示所述IMU采集的观测数据的帧数，f_j表示所述预积分约束方程，g_j表示所述重投影约束方程。

需要说明的是，图13仅是一种示例，给出虚拟显示设备实现本申请实施例提供的估计手柄位姿的方法步骤所必要的硬件。未示出的，该虚拟显示设备还包括扬声器、听筒、镜片、电源接口等常规硬件。

本申请实施例图13中涉及的处理器可以是中央处理器(Central ProcessingUnit，CPU)，通用处理器，图形处理器(Graphics Processing Unit，GPU)数字信号处理器(Digital Signal Processor，DSP)，专用集成电路(Application-specific IntegratedCircuit，ASIC)，现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

本申请实施例还提供一种计算机可读存储介质，用于存储一些指令，这些指令被执行时，可以完成前述实施例中估计手柄位姿的方法。

本申请实施例还提供一种计算机程序产品，用于存储计算机程序，该计算机程序用于执行前述实施例中估计手柄位姿的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、装置、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种估计手柄位姿的方法，其特征在于，所述手柄用于控制虚拟显示设备显示的画面，所述手柄上安装有IMU和多个发光器，所述虚拟显示设备安装有与所述发光器类型相匹配的多目相机，所述方法包括：

针对所述相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的相对位姿，预测当前所述手柄与所述虚拟显示设备间的相对位姿，结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。

2.如权利要求1所述的方法，其特征在于，通过以下方式优化所述手柄上各发光器的3D空间结构：

3.如权利要求2所述的方法，其特征在于，优化所述手柄上各发光器的3D空间结构的方式还包括：

得到第一次优化后的3D空间结构之后，根据优化后3D空间结构对应的所述手柄上各发光器组成的第一3D点云，以及优化前3D空间结构对应的所述手柄上各发光器组成的第二3D点云，确定优化前后所述第一3D点云和所述第二3D点云间的转换位姿；

4.如权利要求2或3所述的方法，其特征在于，所述重投影误差方程为：

其中，K_n表示第n号相机的投影参数，

分别表示所述手柄与第0号相机间的旋转矩阵和平移向量，/>

5.如权利要求1所述的方法，其特征在于，所述根据所述目标手柄图像、所述IMU同步采集的观测数据和所述手柄上各发光器优化后的3D空间结构，初始化所述手柄与所述虚拟显示设备间的相对位姿，包括：

在所述目标手柄图像的全局范围内提取各发光器的2D点；

6.如权利要求1所述的方法，其特征在于，根据预测的当前所述手柄与所述虚拟显示设备间的相对位姿，以及所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿，包括；

7.如权利要求6所述的方法，其特征在于，其特征在于，所述根据当前所述手柄与所述虚拟显示设备间的相对位姿，确定所述3D空间结构上各发光器的3D点与所述目标手柄图像上各发光器的2D点间的一一对应关系，包括：

8.如权利要求6或7所述的方法，其特征在于，所述预积分约束方程为：

所述重投影约束方程为：

其中，

分别表示所述IMU在手柄坐标系下的旋转矩阵和平移向量，/>

9.如权利要求8所述的方法，其特征在于，联合所述预积分约束方程和所述重投影约束方程的结果为：

其中，

10.一种虚拟显示设备，其特征在于，包括处理器、存储器、显示屏、通信接口和多目相机，所述显示屏用于显示画面，所述虚拟显示设备通过所述通信接口与手柄通信，所述手柄用于控制所述显示屏显示的画面，所述多目相机的类型与所述手柄上多个发光器的发光类型相匹配；

针对所述相机采集的非首帧目标手柄图像，根据历史目标手柄图像对应的所述手柄与所述虚拟显示设备间的相对位姿，预测当前所述手柄与所述虚拟显示设备间的相对位姿，结合所述IMU连续采集的观测数据，确定当前所述手柄与所述虚拟显示设备间的目标相对位姿。