CN117455983B

CN117455983B - Vr手柄空间定位方法、装置、电子设备及存储介质

Info

Publication number: CN117455983B
Application number: CN202311802916.4A
Authority: CN
Inventors: 石庆; 胡小波; 许伟濠; 吴凯
Original assignee: Shenzhen Yijing Virtual Reality Technology Co ltd
Current assignee: Shenzhen Yijing Virtual Reality Technology Co ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-12
Anticipated expiration: 2043-12-26
Also published as: CN117455983A

Abstract

本申请公开了一种VR手柄空间定位方法、装置、电子设备及存储介质，涉及虚拟现实技术领域。所述VR手柄空间定位方法包括：通过目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；通过目标姿态预测模型对所述VR手柄进行姿态预测，得到预测坐标图和预测分割图像；将预测坐标图和预测分割图像进行逐像素相乘，得到稠密关键点；将稠密关键点输入投票模块，获得2D关键点和3D关键点；基于2D关键点和3D关键点确定VR手柄的初始位姿，并通过概率模型调整所述初始位姿，获得VR手柄的目标位姿。本技术方案相比传统红外相机结合IMU的空间定位方案采用了不同的思路，能充分释放相机性能，提升了VR手柄空间定位方案的稳定性。

Description

VR手柄空间定位方法、装置、电子设备及存储介质

技术领域

本申请涉及虚拟现实技术领域，尤其涉及一种VR手柄空间定位方法、装置、电子设备及计算机可读存储介质。

背景技术

目前的VR（Virtual Reality，虚拟现实）领域中，VR手柄的空间定位方案通常采用红外相机与IMU（InerTIal measurement unit，惯性传感器）结合的SLAM（SimultaneousLocalization and Mapping，即时定位与地图构建）方案。该方案具体包括：当VR手柄处于头显设备的相机视野下时，采用红外相机拍摄定位VR手柄的特制灯环；而当手柄部分或者全部不在头显前部相机视野内时，则通过手柄中自带的IMU提供定位信息以弥补视觉的缺失。但是这种方案中，头显设备的相机的输出帧率需要考虑红外相机曝光的时间，所以只能输出较低的帧率，例如，额定帧率为60Hz的相机最终输出只有30Hz，可能出现成像模糊、重影等影响视觉定位的现象，导致VR手柄空间定位方案的稳定性较差。

发明内容

本申请的主要目的在于提供一种VR手柄空间定位方法，旨在解决VR手柄空间定位方案的稳定性差的技术问题。

为实现上述目的，本申请提供一种VR手柄空间定位方法，所述VR手柄空间定位方法包括：

通过预设的目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；

基于所述目标图像，通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像，其中，所述姿态预测模型包括坐标图预测网络和分割图像网络；

将所述预测坐标图和所述预测分割图像进行逐像素相乘，得到稠密关键点；

将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点；

基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿。

可选地，所述通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像的步骤，包括：

将所述目标图像输入所述坐标图预测网络，通过所述坐标图预测网络对所述目标图像的坐标信息进行预测，输出预测坐标图，所述预测坐标图包括半径、坐标点、投票向量以及坐标点偏置；

将所述目标图像输入所述分割图像网络，通过所述分割图像网络对所述目标图像的分割图像进行预测，输出预测分割图像。

可选地，所述投票模块包括偏置层、向量层以及半径层；

所述将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点的步骤，包括：

通过偏置层预测所述稠密关键点对应的坐标偏置；

通过向量层提取所述稠密关键点对应的坐标方向；

通过半径层提取所述稠密关键点与所述坐标偏置对应的半径；

基于所述坐标偏置、坐标方向以及所述坐标半径，选取2D关键点和3D关键点。

可选地，所述通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿的步骤，包括：

通过所述概率模型根据所述初始位姿对应的3D模型渲染处多个视点并确定各所述视点对应的法向量；

对各所述法向量进行归一化，获得法向量图；

基于所述法向量图对应的颜色直方图概率分布情况，计算前景模型和背景模型分别对应的置信度；

根据所述前景模型和背景模型分别对应的置信度以及预设的概率估计公式，计算所述VR手柄对应的目标位姿。

可选地，在所述通过预设的目标姿态预测模型对所述VR手柄进行姿态预测的步骤之前，所述方法还包括：

获取样本图像数据以及所述样本图像数据分别对应的分割图真值和坐标图真值；

通过所述样本图像数据、所述分割图真值以及所述坐标图真值对预设的初始姿态预测模型中的坐标图预测网络和分割图像网络进行训练，得到目标姿态预测模型。

可选地，所述通过所述样本图像数据、所述分割图真值以及所述坐标图真值对预设的初始姿态预测模型中的坐标图预测网络和分割图像网络进行训练，得到目标姿态预测模型的步骤包括：

将所述样本图像数据中的各样本图像依次输入初始姿态预测模型中的目标检测网络，输出目标图像；

将所述目标图像分别输入初始姿态预测模型中的坐标图预测网络和分割图像网络，得到初始坐标图和初始分割图像；

根据预设的坐标图预测损失函数、初始坐标图、分割图像真值以及坐标图真值，确定所述坐标图预测网络的第一函数损失，并基于所述第一函数损失对所述坐标图预测网络的参数进行优化；

根据预设的分割图预测损失函数、初始分割图像和分割图像真值，计算所述分割图像网络的第二函数损失，并基于所述第二函数损失对所述分割图像网络的参数进行优化；

基于优化后的坐标图预测网络和分割图像网络，更新所述初始姿态预测模型，得到目标姿态预测模型。

可选地，所述根据预设的坐标图预测损失函数、初始坐标图、分割图像真值以及坐标图真值，确定所述坐标图预测网络的第一函数损失的步骤，包括：

将所述分割图像真值和所述初始坐标图进行逐像素相乘，得到稠密关键点；

将所述稠密关键点和所述坐标图真值输入预设的坐标图预测损失函数，获得所述坐标图预测网络的第一函数损失。

此外，为实现上述目的，本申请还提供一种VR手柄空间定位装置，所述VR手柄空间定位装置包括：

目标检测模块，用于通过预设的目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；

姿态预测模块，用于基于所述目标图像，通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像，其中，所述姿态预测模型包括坐标图预测网络和分割图像网络；

像素计算模块，用于将所述预测坐标图和所述预测分割图像进行逐像素相乘，得到稠密关键点；

投票模块，用于将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点；

位姿调整模块，用于基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿。

此外，为实现上述目的，本申请还提供一种电子设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的VR手柄空间定位程序，所述VR手柄空间定位程序配置为实现如上所述的VR手柄空间定位方法的步骤。

此外，为实现上述目的，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有VR手柄空间定位程序，所述VR手柄空间定位程序被处理器执行时实现如上所述的VR手柄空间定位方法的步骤。

本申请提出了一种VR手柄空间定位方法、装置、电子设备及计算机可读存储介质，首先通过预设的目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；基于所述目标图像，通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像，其中，所述姿态预测模型包括坐标图预测网络和分割图像网络；将所述预测坐标图和所述预测分割图像进行逐像素相乘，得到稠密关键点；将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点；基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿。

本申请的技术方案通过采用目标检测、姿态预测以及位姿调整等基于视觉的VR手柄的空间定位与跟踪方法来实现VR手柄的定位追踪，改进传统方案中头显视野中手柄定位与跟踪算法的设计思路，相比原有的红外相机结合IMU的SLAM方案，无需考虑相机的红外相机曝光时间，可以输出更高帧率的图像，能充分释放相机自身的性能，避免出现成像模糊、重影等影响视觉定位的现象，提高VR手柄空间定位方案的稳定性。

此外，由于本申请的技术方案主要是基于视觉识别进行目标检测和姿态预测，因此无需再VR手柄上安装灯环，能使VR手柄的设计思路更加灵活，更贴近用户的使用习惯，提高用户的VR设备沉浸式体验感受。

附图说明

图1为本申请实施例方案涉及的硬件运行环境的VR手柄空间定位设备的结构示意图；

图2为本申请VR手柄空间定位方法第一实施例的流程示意图；

图3为本申请VR手柄空间定位方法中一种总体发明构思示意图；

图4为本申请实施例方案中VR手柄空间定位方法中的坐标点投票原理示意图；

图5为本申请实施例方案中VR手柄空间定位方法中的离散视点示意图；

图6为本申请实施例方案中VR手柄空间定位方法中的法向量渲染示意图；

图7为本申请实施例方案中的一种CPT-PE网络训练流程示意图；

图8为本申请VR手柄空间定位装置的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明，本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

在本申请中，除非另有明确的规定和限定，术语“连接”、“固定”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

另外，在本申请中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

参照图1，图1为本申请实施例方案涉及的硬件运行环境的终端设备的结构示意图。

需要说明的是，本申请实施例终端设备可以是执行本申请VR手柄空间定位方法的VR设备（例如包括摄像头的VR头戴式显示设备）。

如图1所示，该终端设备可以包括：处理器1001，例如中央处理器（CentralProcessing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM）存储器，也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对终端设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及VR手柄空间定位程序。

在图1所示的终端设备中，网络接口1004主要用于与其他设备进行数据通信；用户接口1003主要用于与用户进行数据交互；本申请实施例中，处理器1001、存储器1005可以设置在终端设备中，基于此，终端设备可以通过处理器1001调用存储器1005中存储的VR手柄空间定位程序，并执行以下操作：

可选地，处理器1001可以用于调用存储器1005中存储的VR手柄空间定位程序，还执行以下操作：

将所述目标图像输入所述坐标图预测网络，通过所述坐标图预测网络对所述目标图像的坐标信息进行预测，输出预测坐标图，其中，所述预测坐标图包括半径、坐标点、投票向量以及坐标点偏置；

可选地，所述投票模块包括偏置层、向量层以及半径层，处理器1001还可以用于调用存储器1005中存储的VR手柄空间定位程序，还执行以下操作：

通过偏置层预测所述稠密关键点对应的坐标偏置；

通过向量层提取所述稠密关键点对应的坐标方向；

对各所述法向量进行归一化，获得法向量图；

可选地，处理器1001可以用于调用存储器1005中存储的VR手柄空间定位程序，在执行通过预设的目标姿态预测模型对所述VR手柄进行姿态预测的步骤之前，还执行以下操作：

基于上述的硬件结构，提出本申请VR手柄空间定位方法的整体构思。

目前，在VR领域中，头显与手柄之间的位姿求解的一般方法为红外相机与IMU结合的SLAM方案。即当VR手柄处于相机视野下，采用红外相机拍摄定位VR手柄的特制灯环；而且当手柄部分或者全部不在头显前部相机视野内时，手柄中自带的IMU将提供定位信息以弥补视觉的缺失。但是采用上述方案的缺陷包括：手柄设计时需要考虑灯环的外观设计和LED的电路布局；同时由于灯环的存在，用户不能沉浸式地体验VR世界；另外，相机的输出帧率由于需要考虑红外相机曝光的时间而降低，比如60Hz的相机最终输出只有30Hz，可能导致成像模糊、重影等影响视觉定位的情况；另一方面，VR手柄作为辅助性的工具，VR设备中是不可或缺的，例如VR运动所需的手柄握把，如果取出将降低需要球拍类的VR运动的体验感，若在VR手柄上安装灯环，则会影响VR手柄的设计布置。

本申请实施例的技术方案中采用了一种基于视觉的VR手柄空间定位方法，主要通过预先训练好的目标检测网络、目标姿态预测模型、投票模块以及概率模型等根据VR头显视野图像完成对VR手柄的检测、姿态预测、姿态调整等，最终获得准确的VR手柄位姿。这种方式改进了传统方案中头显视野中手柄定位与跟踪算法的设计思路，而且不会限制相机的性能，能够避免可能出现的模糊、重影等情况，提高系统稳定性。此外，本申请的技术方案无需依赖VR手柄上的灯环，因此在设计VR手柄时，不用考虑灯环的布局，能改进手柄的整体设计思路，提高用户沉浸式体验感受。另外，当手柄处于使用者正面半球形工作空间之外的情况时，并不需要IMU对手柄的定位与跟踪；正面半球形工作空间内的手柄定位与可以使用头显中富余的其他角度的相机，提高了手柄定位的灵活性。

本申请的一实施例中，首先通过预设的目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；基于所述目标图像，通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像，其中，所述姿态预测模型包括坐标图预测网络和分割图像网络；将所述预测坐标图和所述预测分割图像进行逐像素相乘，得到稠密关键点；将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点；基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿。本申请实施例的技术方案通过采用目标检测、姿态预测以及位姿调整等基于视觉的VR手柄的空间定位与跟踪方法来实现VR手柄的定位追踪，改进传统方案中头显视野中手柄定位与跟踪算法的设计思路，相比原有的红外相机结合IMU的SLAM方案，无需考虑相机的红外相机曝光时间，可以输出更高的帧率，充分释放相机自身的性能，避免出现成像模糊、重影等影响视觉定位的现象，提高VR手柄空间定位方案的稳定性较差。

基于上述本申请VR手柄空间定位方法的总体构思，提出本申请VR手柄空间定位方法的各个实施例。本申请VR手柄空间定位方法应用于上述的终端设备。为清楚的对本申请VR手柄空间定位方法进行说明，后文均以该终端设备中的一种带有摄像头的VR头戴式显示设备，作为本申请VR手柄空间定位方法的执行主体，来对本申请VR手柄空间定位方法的各个实施例进行阐述。

请参照图2，图2为本申请VR手柄空间定位方法第一实施例的流程示意图。需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请第一实施例提供一种VR手柄空间定位方法，所述VR手柄空间定位方法包括以下步骤：

步骤S10，通过预设的目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；

在本实施例中，需要说明的是，所述目标检测网络可以为任意目标检测网络。作为一种优选，本方案采用超轻量化网络的nanodet（目标检测模型）网络，其模型文件仅有980KB大小，运行在Android（安卓）设备端时最高能达到97FPS（帧率）的效果，能作为第一阶段网络从VR头显设备的摄像头所采集到的VR头显视野图像中准确识别出VR手柄，并裁切出VR手柄对应的目标图像。

步骤S20，基于所述目标图像，通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像，其中，所述姿态预测模型包括坐标图预测网络和分割图像网络；

本实施例中，可以理解的是，所述目标姿态预测模型由坐标图预测网络和分割图像网络组成，其中，所述坐标图预测网络和分割图像网络均为ResNet18改进而来的FCN（Fully Convolutional Networks,全卷积网络），每层网络有卷积层、BN（BatchNormalization，批量归一化）层以及ReLU（Rectified Linear Unit,线性整流函数）层组成。在本实施例的技术方案中，在将目标图像分别输入到坐标图预测网络和分割图像网络后，坐标图预测网络和分割图像网络分别对该目标图像的坐标图和和分割图像进行预测，从而输出对应的预测坐标图和预测分割图像。具体地，坐标图用于表征目标图像的三通道数据，通道一表示半径、通道二表示坐标点，通道三表示投票相邻和坐标点偏置，分割图像用于表示目标图像中的前景（即手柄）与背景，其中，图像中属于前景的区域用1表示，属于背景的区域用0表示，分割图像网络预测关于目标物体的分割图像，通道深度为1，表示逐像素的目标物体的置信度。本申请实施例中通过对坐标图和分割图像进行预测，能有效地获取关于当前VR手柄的位姿的相关信息，便于进一步确定VR手柄的真实位姿。

步骤S30，将所述预测坐标图和所述预测分割图像进行逐像素相乘，得到稠密关键点；

本实施例中，需要说明的是，在将所述预测坐标图和所述预测分割图像进行逐像素相乘的过程中，具体提取所述预测坐标图和所述预测分割图像每个像素点位置分别对应的2D点坐标和3D点坐标，再进行相乘，得到每个像素点位置分别对应的稠密关键点，其中，所述稠密关键点包括2D点和3D点，以供后续过程中通过PNP（Perspective-n-Point）匹配算法计算VR手柄的位姿。

步骤S40，将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点；

本实施例中，所述投票模块（voting模块）用于对稠密关键点进行筛选，从而从VR手柄对应的多个稠密关键点中选出均匀分布在VR手柄各个位置且能表征VR手柄的当前位姿的最终关键点。既能避免通过过多的稠密关键点计算位姿预测导致的计算量过大，又节约了算力资源，尽量选出更少的具有代表性的2D关键点和3D关键点。

步骤S50，基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿。

本实施例中，首先采用PNP关键点匹配算法利用2D关键点和3D关键点计算出VR手柄的初始位姿，再通过基于区域的概率模型，利用图像的统计方法区分目标物体和背景，对已得到的初始位姿进行进一步微调，提高位姿预测的精度，最终获得VR手柄的目标位姿。

可选地，在一些可行的实施例中，步骤S20中的通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像的步骤，可以包括：

步骤S21，将所述目标图像输入所述坐标图预测网络，通过所述坐标图预测网络对所述目标图像的坐标信息进行预测，输出预测坐标图，其中，所述预测坐标图包括半径、坐标点、投票向量以及坐标点偏置；

步骤S22，将所述目标图像输入所述分割图像网络，通过所述分割图像网络对所述目标图像的分割图像进行预测，输出预测分割图像。

在本申请实施例中，提供了一种对VR手柄进行姿态预测的详细执行步骤，具体地，需要分别将已获得的目标图像分别输入坐标图预测网络和分割图像网络，并通过所述坐标图预测网络和分割图像网络分别对目标图像的坐标图和分割图像进行预测，从而输出对应的预测坐标图和预测分割图像。具体地，预测坐标图位三通道的坐标图，通道一表示半径，通道二表示坐标点，通道三表示投票向量还有坐标点偏置。预测分割图像用于表示在目标图像中，前景与背景的分割情况，可以分别用1和0表示前景区域和背景区域。

本申请实施例中提出一种二阶段的定位与跟踪算法，参照图3，具体包括一种并联式的二阶段级联网络CPT-PE。第一阶段为任意目标检测网络，用于从输入的RGB图像中提取出目标图像；而第二阶段则为姿态预测网络（目标姿态预测模型）包括坐标图预测网络与分割图像网络（ResNet18），用于根据输入的目标图像输出预测坐标图和分割图像。

可选地，在一些可行的实施例中，所述投票模块包括偏置层、向量层以及半径层；进一步地，步骤S40中，将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点的步骤，包括：

步骤S41，通过偏置层预测所述稠密关键点对应的坐标偏置；

步骤S42，通过向量层提取所述稠密关键点对应的坐标方向；

步骤S43，通过半径层提取所述稠密关键点与所述坐标偏置对应的半径；

步骤S44，基于所述坐标偏置、坐标方向以及所述坐标半径，选取2D关键点和3D关键点。

在本申请实施例中，参照图3，在通过预测坐标图和预测分割图像进行逐像素相乘得到稠密关键点后，将稠密关键点输入Voting模块，然后通过Voting模块筛选出目标关键点。

示例性地，Voting模块共分为三个子模块，分别是偏置模块，用于预测个3D关键点坐标偏置/>；向量模块用于表示3D关键点坐标的方向/>；半径模块用于表示像素点/>到坐标偏置/>的半径/>。当/>个点以半径/>相交获得点/>落在/>则选择该关键点作为目标关键点。具体地，二维坐标点投票原理示意图如图4所示，其中，d1、d2和d3为半径，X1、X2和X3为交点，P1、P2和P3为关键点。本申请实施例中，可参照图4将其推广至三维。另外需要说明的是，该voting模块的圆球体素采用半整数圆心圆算法生成。

在一些可行的实施例中，步骤S50中，通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿的步骤，还可以包括：

步骤S51，通过所述概率模型根据所述初始位姿对应的3D模型渲染处多个视点并确定各所述视点对应的法向量；

步骤S52，对各所述法向量进行归一化，获得法向量图；

步骤S53，基于所述法向量图对应的颜色直方图概率分布情况，计算前景模型和背景模型分别对应的置信度；

步骤S54，根据所述前景模型和背景模型分别对应的置信度以及预设的概率估计公式，计算所述VR手柄对应的目标位姿。

在本申请实施例中具体提供了通过概率基于区域的概率模型是利用图像的统计方法区分目标物体和背景的方法以对已获得的初始位姿进行微调的详细步骤。在微调阶段，首先需要将采样目标物体（VR手柄）的3D模型渲染出个离散的视点q，如图5所示。同时估计视点的法向量/>，其中，法向量渲染图如图6所示。在已确定的法向量渲染图的基础上，采样的离散视点坐标为o，向量/>对应的线坐标为r，所以对应的图像坐标/>,然后利用图像坐标的计算公式，将法向量归一化为法向量图/>。另外，其中法向量图N服从基于颜色直方图的概率分布/>和/>。设一个像素的颜色为N，上述概率分布能够计算出前景和背景模型/>和/>的基于颜色的像素后验概率，如下式所示。

；

其中，i为前景f或背景b，为前景或后景的基于颜色的像素后验概率，为前景或后景基于颜色直方图的概率分布。

基于预测分割图突出前景和背景的逐像素后验概率，因此置信度和/>，其中，/>和/>为前景的逐像素后验概率，/>为背景的逐像素后验概率。

结合上述两公式，可得，其中，/>为前景或后景的基于颜色的像素后验概率。

然后将沿着边缘离散视点对应的向量结合单个像素的测量值，计算边缘所在位置d的概率，如下式所示。其中/>表示阶梯平滑函数。

；

其中，为边缘所在位置d的概率。设相机模型（头戴式设备的摄像头对应的模型）的表达式为/>，则位姿P可以表示为：/>，其中，/>表示位姿之间的变换。

具体地，位姿的概率估计公式如下所示：

；

其中是超参，表示标准差。/>表示均值，所述估计公式在正式应用前，需要进行一定的训练，以优化其中的超参，在具体对该估计公式进行训练有优化的过程中，可以使用带L2惩罚项的牛顿优化法优化公式进行迭代优化。

本申请实施例的技术方案通过采用目标检测、姿态预测以及位姿调整等基于视觉的VR手柄的空间定位与跟踪方法来实现VR手柄的定位追踪，改进传统方案中头显视野中手柄定位与跟踪算法的设计思路，相比原有的红外相机结合IMU的SLAM方案，无需考虑相机的红外相机曝光时间，可以输出更高的帧率，充分释放相机自身的性能，避免出现成像模糊、重影等影响视觉定位的现象，提高VR手柄空间定位方案的稳定性较差。

在另一种可行的实施例中，在S20通过预设的目标姿态预测模型对所述VR手柄进行姿态预测的步骤之前，所述方法还可以包括：

步骤A10，获取样本图像数据以及所述样本图像数据分别对应的分割图真值和坐标图真值；

步骤A20，通过所述样本图像数据、所述分割图真值以及所述坐标图真值对预设的初始姿态预测模型中的坐标图预测网络和分割图像网络进行训练，得到目标姿态预测模型。

在本申请实施例中，提供了一种对目标姿态预测模型中的坐标图预测网络和分割图像网络进行训练的方法，具体采用了样本图像数据和样本图像数据对应的分割图真值作为训练样本，对坐标图预测网络和分割图像网络中的超参数进行迭代优化。其中，所述样本图像数据包括多张头戴式显像设备在各种场景下采集的RGB图像，另外，还需要获取每个RGB图像分别对应的分割图真值和坐标图真值，即每个RGB图像对应的真实分割图和真实坐标图（可通过人工划分），这些样本数据用于在对坐标图预测网络和分割图像网络进行训练的过程中作为标准值衡量函数损失，以指导超参数的优化方向，最终获得预测精度和性能稳定的坐标图预测网络和分割图像网络以构成目标姿态预测模型。

另外需要说明的是，在步骤A10之前，需要对初始姿态预测模型进行初始化，即通过人工设计姿态预测模型中的坐标图预测网络和分割图像网络的层次结构，具体包括卷积层、归一化层以及ReLU层等，可根据工作人员的经验设计。另外，还需要初始化所述初始姿态预测模型中各项超参数的初始值，所述超参数可以包括学习率、正则化参数、网络层数以及偏置量等，也可以根据工作人员的经验设置或随机设置。

在一些可行的实施例中，所述通过所述样本图像数据、所述分割图真值以及所述坐标图真值对预设的初始姿态预测模型中的坐标图预测网络和分割图像网络进行训练，得到目标姿态预测模型的步骤还可以包括：

步骤A21，将所述样本图像数据中的各样本图像依次输入初始姿态预测模型中的目标检测网络，输出目标图像；

步骤A22，将所述目标图像分别输入初始姿态预测模型中的坐标图预测网络和分割图像网络，得到初始坐标图和初始分割图像；

步骤A23，根据预设的坐标图预测损失函数、初始坐标图、分割图像真值以及坐标图真值，确定所述坐标图预测网络的第一函数损失，并基于所述第一函数损失对所述坐标图预测网络的参数进行优化；

步骤A24，根据预设的分割图预测损失函数、初始分割图像和分割图像真值，计算所述分割图像网络的第二函数损失，并基于所述第二函数损失对所述分割图像网络的参数进行优化；

步骤A25，基于优化后的坐标图预测网络和分割图像网络，更新所述初始姿态预测模型，得到目标姿态预测模型。

本申请实施例具体提供了一种坐标图预测网络和分割图像网络进行训练的详细步骤，参照图7，首先需要将样本图像（RGB图像）输入目标检测网络（可以是任意目标检测网络），获得目标图像后，将所述目标图像分别输入坐标图预测网络和分割图像网络（ResNet18）中，得到预测坐标图（即初始坐标图）和分割图像（即初始分割图像）。然后根据预测坐标图和分割图像真值计算得到稠密关键点，依据稠密关键点与坐标图真值计算得到第一函数损失（Lcoord）；根据分割图像真值和分割图像计算得到第二函数损失（Lseg），最后根据第一函数损失和第二函数损失确定总体损失（LOSS）。

在一种可行的实施例中，可以对总体损失值进行观测，当总体损失下降到一定值、网络模型开始收敛或网络的预测精度达到预设值时，即可判定网络训练完成，而在对坐标图预测网络和分割图像网络训练完成后，即可使用训练完成后的坐标图预测网络和分割图像网络取代初始姿态预测模型中原有的坐标图预测网络和分割图像网络，得到目标姿态预测模型。

示例性地，在本申请实施例中，坐标图预测损失函数下式所示：

；

其中，为第一函数损失，N为训练次数或RGB图像数量，/>为坐标图真值，为初始坐标图。

示例性地，在本申请实施例中，分割图预测损失函数如下式所示：

；

其中，为第二函数损失，N为训练次数或RGB图像数量，/>为分割图像真值，为初始分割图像。

示例性地，总体损失函数的计算公式如下所示：

；

其中，为整个初始姿态预测模型的总体损失。

在一些可行的实施例中，所述根据预设的坐标图预测损失函数、初始坐标图、分割图像真值以及坐标图真值，确定所述坐标图预测网络的第一函数损失的步骤，还可以包括：

步骤A231，将所述分割图像真值和所述初始坐标图进行逐像素相乘，得到稠密关键点；

步骤A232，将所述稠密关键点和所述坐标图真值输入预设的坐标图预测损失函数，获得所述坐标图预测网络的第一函数损失。

本实施例中，参照图7，在获得预测坐标图（即初始坐标图）后，将预设的分割图像真值与预测坐标图进行逐像素相乘，从而得到稠密关键点，再将所述稠密关键点与预先准备的坐标图真值共同输入预设的坐标图预测损失函数，从而计算得到第一函数损失Lcoord。

本实施例中具体提供了一种对姿态预测模型中的坐标图预测网络和分割图像网络进行训练的方法，主要通过采用获取到的样本图像数据以及样本图像数据对应的分割图真值以及坐标图真值等作为样本数据，衡量其函数损失，从而实现对所述姿态预测模型中的坐标图预测网络和分割图像网络的迭代优化，最终获得符合使用要求，性能稳定，预测精度高的目标姿态预测模型。

此外，本申请实施例还提出一种VR手柄空间定位装置，本申请VR手柄空间定位装置应用于配置有倒车雷达的电子设备。

参照图8，图8为本申请VR手柄空间定位装置的结构示意图。

本申请还提供一种VR手柄空间定位装置，所述VR手柄空间定位装置包括：

目标检测模块10，用于通过预设的目标检测网络从VR头显视野图像裁切出VR手柄的目标图像；

姿态预测模块20，用于基于所述目标图像，通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像，其中，所述姿态预测模型包括坐标图预测网络和分割图像网络；

像素计算模块30，用于将所述预测坐标图和所述预测分割图像进行逐像素相乘，得到稠密关键点；

投票模块40，用于将所述稠密关键点输入预设的投票模块，获得2D关键点和3D关键点；

位姿调整模块50，用于基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿。

可选地，所述姿态预测模块20用于：

可选地，所述投票模块包括偏置层、向量层以及半径层；

所述投票模块40用于：

通过偏置层预测所述稠密关键点对应的坐标偏置；

通过向量层提取所述稠密关键点对应的坐标方向；

可选地，所述位姿调整模块50用于：

对各所述法向量进行归一化，获得法向量图；

可选地，所述VR手柄空间定位装置还包括模型训练模块，所述模型训练模块用于：

所述模型训练模块还用于：

本申请VR手柄空间定位装置的具体实施例与上述VR手柄空间定位方法各实施例基本相同，在此不作赘述。

此外，本申请还提供一种电子设备，所述电子设备包括VR手柄空间定位程序，所述VR手柄空间定位程序被处理器执行时实现如以上任一项实施例所述的VR手柄空间定位方法的步骤。

本申请电子设备的具体实施例与上述VR手柄空间定位方法各实施例基本相同，在此不作赘述。

此外，本申请还提供一种计算机存储介质，该计算机存储介质上存储有VR手柄空间定位程序，所述VR手柄空间定位程序被处理器执行时实现如以上任一项实施例所述的VR手柄空间定位方法的步骤。

本申请计算机存储介质的具体实施例与上述VR手柄空间定位方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种VR手柄空间定位方法，其特征在于，所述VR手柄空间定位方法包括：

基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿；

其中，所述投票模块包括偏置层、向量层以及半径层；

通过偏置层预测所述稠密关键点对应的坐标偏置；

通过向量层提取所述稠密关键点对应的坐标方向；

基于所述坐标偏置、坐标方向以及所述半径，选取2D关键点和3D关键点；

其中，所述通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿的步骤，包括：

通过所述概率模型根据所述初始位姿对应的3D模型渲染出多个视点并确定各所述视点对应的法向量；

对各所述法向量进行归一化，获得法向量图；

2.如权利要求1所述VR手柄空间定位方法，其特征在于，所述通过预设的目标姿态预测模型对所述VR手柄进行姿态预测，得到对应的预测坐标图和预测分割图像的步骤，包括：

3.如权利要求1-2任一项所述的VR手柄空间定位方法，其特征在于，在所述通过预设的目标姿态预测模型对所述VR手柄进行姿态预测的步骤之前，所述方法还包括：

4.如权利要求3所述VR手柄空间定位方法，其特征在于，所述通过所述样本图像数据、所述分割图真值以及所述坐标图真值对预设的初始姿态预测模型中的坐标图预测网络和分割图像网络进行训练，得到目标姿态预测模型的步骤包括：

5.如权利要求4所述的VR手柄空间定位方法，其特征在于，所述根据预设的坐标图预测损失函数、初始坐标图、分割图像真值以及坐标图真值，确定所述坐标图预测网络的第一函数损失的步骤，包括：

6.一种VR手柄空间定位装置，其特征在于，所述VR手柄空间定位装置，包括：

位姿调整模块，用于基于2D关键点和3D关键点确定所述VR手柄的初始位姿，并通过预设的概率模型调整所述初始位姿，获得所述VR手柄的目标位姿；

其中，所述投票模块包括偏置层、向量层以及半径层，所述投票模块还用于：通过偏置层预测所述稠密关键点对应的坐标偏置；通过向量层提取所述稠密关键点对应的坐标方向；通过半径层提取所述稠密关键点与所述坐标偏置对应的半径；基于所述坐标偏置、坐标方向以及所述半径，选取2D关键点和3D关键点；

其中，所述位姿调整模块还用于：通过所述概率模型根据所述初始位姿对应的3D模型渲染出多个视点并确定各所述视点对应的法向量；对各所述法向量进行归一化，获得法向量图；基于所述法向量图对应的颜色直方图概率分布情况，计算前景模型和背景模型分别对应的置信度；根据所述前景模型和背景模型分别对应的置信度以及预设的概率估计公式，计算所述VR手柄对应的目标位姿。

7.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至5中任一项所述的VR手柄空间定位方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有实现VR手柄空间定位方法的程序，所述实现VR手柄空间定位方法的程序被处理器执行以实现如权利要求1至5中任一项所述VR手柄空间定位方法的步骤。