CN112927259A

CN112927259A - 基于多相机的裸手追踪显示方法、装置及系统

Info

Publication number: CN112927259A
Application number: CN202110190108.1A
Authority: CN
Inventors: 吴涛
Original assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Current assignee: Qingdao Xiaoniao Kankan Technology Co Ltd
Priority date: 2021-02-18
Filing date: 2021-02-18
Publication date: 2021-06-08
Also published as: US11798177B2; US20220383523A1; WO2022174594A1

Abstract

本发明提供一种基于多相机的裸手追踪显示方法、装置及系统，其中的方法包括：确定与各追踪相机分别对应的当前帧的待检测帧图像；根据待检测帧图像、待检测帧图像的上一帧图像的跟踪信息，获取与待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标；根据二维坐标以及预先获取的与手部位置对应的头部位置的跟踪数据，确定预设个数的骨骼点的三维坐标；对骨骼点的三维坐标和上一帧图像中的历史三维坐标进行平滑滤波处理，获取处理后的稳定骨骼点；对稳定骨骼点和头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成手部位置的追踪和显示。利用上述发明能够高精度、高稳定性的还原裸手在虚拟场景中的姿态位置。

Description

基于多相机的裸手追踪显示方法、装置及系统

技术领域

本发明涉及图像检测技术领域，更为具体地，涉及一种基于多相机的裸手追踪显示方法、装置及系统。

背景技术

目前，VR/AR/MR一体机设备越来越多的进入到人们生活中，其主要的应用场景是当用户进行VR/AR/MR场景交互时，通过头戴上的多目追踪摄像头自动识别跟踪用户手一些行为轨迹信息，并通过手的一些行为轨迹检测手势指令，然后作为人造虚拟现实系统的输入信息，和虚拟场景进行交互。

其中，手势识别在VR/AR/MR领域非常关键，特别是在VR虚拟游戏交互中，对精度、延时和环境的兼容稳定性要求比较高，目前在VR/AR/MR领域的手势识别中，大都停留在通过红外双目相机，或者深度相机实现，例如，占据主流地位的Inside-Out追踪方案，即通过头戴上一个或者二个及以上的可见光Camera通过实时追踪和感知外部环境，而且实时估计头戴在空间中的位置和姿态信息，进行手势识别。一般为了提高头戴的位置和姿态信息估计的准确度，主流方案是通过2个或者多个可见光Camera实时追踪头部位姿进行进行实时高进度追踪。

可知，现有的头戴一体机需要额外增加手势识别追踪器，目前主要是单独添加2个红外双目相机，或者深度相机来实现手指追踪，但是在VR/AR/MR领域，这样会带来几个关键问题：

1.增加了额外的成本。2.增加了额外的功耗，现在主流的头戴都是一体机形式，主要通过电池自主供电，所以整个系统的功耗非常影响用户交互的时间长短。3.在增加功耗的同时，散热也会成为一个很大的挑战。4.增加了结构设计的复杂度和ID的挑战。头戴一体机主要发展方向目标就是头戴体积小巧，配戴轻便，用户长时间佩戴不觉得有不适感。5.目前比较成熟和流行的深度相机FOV一般比较小在80°左右，而头戴的FOV一般在110°左右，即手的一些运动轨迹很容易会追踪不到，影响用户体验。

发明内容

鉴于上述问题，本发明的目的是提供一种基于多相机的裸手追踪显示方法、装置及系统，以解决目前手势识别或追踪存在的成本高、功耗高、体积大，精测准确度低，影响用户体验等问题。

本发明提供的基于多相机的裸手追踪显示方法，包括：分别获取多个追踪相机的待检测视频的帧图像信息，并根据帧图像信息确定与各追踪相机分别对应的当前帧的待检测帧图像；根据待检测帧图像、待检测帧图像的上一帧图像的跟踪信息，以及预设的模块执行顺序，选择性的启动检测模块、跟踪模块和骨骼点识别模块，以获取与待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标；根据二维坐标，以及预先获取的与手部位置对应的头部位置的跟踪数据，确定预设个数的骨骼点的三维坐标；对骨骼点的三维坐标和上一帧图像中的同一手部位置的历史三维坐标进行平滑滤波处理，获取处理后的手部位置的稳定骨骼点；对稳定骨骼点和头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成手部位置的追踪和显示。

此外，优选的技术方案是，根据待检测帧图像以及待检测帧图像的上一帧图像的检测结果，选择性的启动检测模块、跟踪模块和骨骼点识别模块的过程包括：基于上一帧图像的跟踪信息，获取上一帧图像中检测到的手部位置的个数；其中，当手部位置的个数小于2时，同时启动检测模块、跟踪模块和骨骼点识别模块；否则，当手部位置的个数为2时，同时启动跟踪模块和骨骼点识别模块。

此外，优选的技术方案是，检测模块用于通过预训练的手部检测模型对待检测帧图像中的手进行检测定位，获取手部位置及与手部位置对应的ROI，并发送至跟踪模块和骨骼点识别模块；跟踪模块用于根据ROI及光流追踪算法，跟踪待检测帧图像的下一帧图像的预测ROI，并将与预测ROI对应的跟踪信息存储至手部跟踪队列中，以更新手部位置的跟踪信息；骨骼点识别模型用于从手部跟踪队列中获取手部位置的ROI，并通过预训练的骨骼点识别模型对获取的ROI进行预设个数的骨骼点识别。

此外，优选的技术方案是，头部位置的跟踪数据包括头部位置的位置数据和姿态数据的跟踪数据；其中，位置数据和姿态数据通过设置在头部的追踪相机采集的视频数据以及头部的位姿估计算法来确定。

此外，优选的技术方案是，确定预设个数的骨骼点的三维坐标的过程包括：确定当前帧的骨骼点中的任意一个骨骼点作为目标骨骼点，并获取目标骨骼点的三维坐标；基于目标骨骼点的三维坐标，确定所有骨骼点的三维坐标；其中，目标骨骼点的三维坐标的确定公式如下：

P2＝R*P1+T

其中，P2表示目标骨骼点的三维坐标，P1表示上一帧图像的目标骨骼点的历史三维坐标，R表示头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的旋转矩阵，T表示头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的转移矩阵。

此外，优选的技术方案是，目标骨骼点的三维坐标的推算公式如下：

其中，

表示当前帧的目标骨骼点的三维坐标P2；

表示当前帧的目标骨骼点的二维坐标；

表示上一帧图像的目标骨骼点的历史三维坐标P1；

表示上一帧图像的目标骨骼点的二维坐标；

表示获取待检测视频的追踪相机的标定参数；其中，fx和fy表示追踪相机的像素焦距，cx和cy表示追踪相机的光轴在待检测帧图像上的坐标位置；R表示头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的旋转矩阵，T表示头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的转移矩阵。

此外，优选的技术方案是，手部检测模型的预训练过程包括：对获取的训练图像数据中的目标区域进行标注，并获取标注的位置信息；其中，目标区域为手部区域；利用yolo模型对标注后的位置信息进行参数训练，直至yolo模型收敛在对应的预设范围内，以完成手部检测模型的训练。

此外，优选的技术方案是，骨骼点识别模型的预训练过程包括：基于训练图像数据训练基础神经网络模型，直至神经网络模型收敛在对应的预设范围内，以完成骨骼点识别模型；其中，基础神经网络模型包括：yolo模型、CNN模型、SSD模型或者FPN模型。

此外，本发明还提供一种电子装置，该电子装置包括：存储器、处理器及摄像装置，存储器中包括基于多相机的裸手追踪显示程序，基于多相机的裸手追踪显示程序被处理器执行时实现如上所示基于多相机的裸手追踪显示方法的步骤。

此外，本发明还提供一种基于多相机的裸手追踪显示系统，包括：待检测帧图像确定单元，用于分别获取多个追踪相机的待检测视频的帧图像信息，并根据帧图像信息确定与各追踪相机分别对应的当前帧的待检测帧图像；二维坐标获取单元，用于根据待检测帧图像、待检测帧图像的上一帧图像的跟踪信息，以及预设的模块执行顺序，选择性的启动检测模块、跟踪模块和骨骼点识别模块，以获取与待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标；三维坐标确定单元，用于根据二维坐标，以及预先获取的与手部位置对应的头部位置的跟踪数据，确定预设个数的骨骼点的三维坐标；稳定骨骼点获取单元，用于对骨骼点的三维坐标和上一帧图像中的同一手部位置的历史三维坐标进行平滑滤波处理，获取处理后的手部位置的稳定骨骼点；追踪显示单元，用于对稳定骨骼点和头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成手部位置的追踪和显示。

利用上述基于多相机的裸手追踪显示方法、装置及系统，能够基于头部的追踪相机进行裸手的三维手指姿态估计，能够高精度、高稳定性地还原用户手部在虚拟场景中的姿态位置信息并进行显示，成本低、体积小、用户体验效果明显。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的基于多相机的裸手追踪显示方法的流程图；

图2为根据本发明实施例的基于多相机的裸手追踪显示系统的方框图；

图3为根据本发明实施例的电子装置的逻辑图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

为详细描述本发明的基于多相机的裸手追踪显示方法、装置及系统，以下将结合附图对本发明的具体实施例进行详细描述。

图1示出了根据本发明实施例的基于多相机的裸手追踪显示方法的流程。

如图1所示，本发明实施例的基于多相机的裸手追踪显示方法，包括：

S110：分别获取多个追踪相机的待检测视频的帧图像信息，并根据帧图像信息确定与各追踪相机分别对应的当前帧的待检测帧图像。

作为具体示例，本发明所述多个追踪相机可包括头部追踪相机和多个鱼眼追踪相机，例如，在头戴一体机上设置4目单色鱼眼追踪相机，且4目单色鱼眼追踪相机在头戴式一体机上的位置摆放，考虑到能够保证头戴一体机在6DoF(degree of freedom，自由度)追踪范围和裸手交互的追踪范围(170°*160°以上)的前提下，尽可能得使4目单色鱼眼追踪相机之间的可视交集区域尽可能最大，4目单色鱼眼追踪相机两两之间的交集区域最小在95°*80°以上，4目可一起拼接为143°*120°以上的区域。

具体地，本发明提供的单色鱼眼追踪相机的参入如下：FOV：143°*107°*163°(H*V*D)；分辨率：640*480；帧率：30Hz；曝光方式：Global shutter(全局快门)；颜色通道：单色。

需要说明的是，上述鱼眼追踪相机的设置个数、设置位置以及具体的相机的参数可根据应用场景或者需求进行设置及调整，并不限于上述具体的参数数据。

S120：根据待检测帧图像、待检测帧图像的上一帧图像的跟踪信息，以及预设的模块执行顺序，选择性的启动检测模块、跟踪模块和骨骼点识别模块，以获取与待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标。

在该步骤中，根据待检测帧图像以及待检测帧图像的上一帧图像的检测结果，选择性的启动检测模块、跟踪模块和骨骼点识别模块的过程包括：基于上一帧图像的跟踪信息，获取上一帧图像中检测到的手部位置的个数；其中，当手部位置的个数小于2时，表明用户的两只手没有被检测到或者没有被同时检测到，此时需要同时启动检测模块、跟踪模块和骨骼点识别模块；否则，当手部位置的个数为2时，同时启动跟踪模块和骨骼点识别模块。

具体地，检测模块用于通过预训练的手部检测模型对待检测帧图像中的手进行检测定位，获取手部位置及与手部位置对应的ROI，并发送至跟踪模块和骨骼点识别模块，该ROI可发送至跟踪模块的跟踪消息队列中，以及骨骼点识别模块的跟踪消息队列中。

其中，跟踪模块用于根据ROI及光流追踪算法，跟踪待检测帧图像的下一帧图像的预测ROI，并将与预测ROI对应的跟踪信息存储至手部跟踪队列中，以更新手部位置的跟踪信息，在对下一帧图像的手部位置的三维骨骼点的识别提供跟踪信息；其中，光流跟踪算法是物理追踪领域一个比较经典的算法，其可参考现有技术中相关内容的描述。

其中，骨骼点识别模型用于从手部跟踪队列中获取手部位置的ROI，并通过预训练的骨骼点识别模型对获取的ROI进行预设个数的骨骼点识别。该骨骼点跟踪模块可采用跟踪模块的相关数据，也可以相互平行设置，即跟踪模块和骨骼点识别模块同步进行。

需要说明的是，骨骼点识别模型在获取手部位置的ROI时，其可以是从跟踪模块的跟踪消息队列中获取，也可以通过检测模块发送到骨骼点识别模块的跟踪消息队列中获取，跟踪模块获取ROI用于更新手部位置的跟踪信息，为下一帧图像提供相关数据，而该骨骼点识别模块用于利用该ROI，在对应区域的待检测帧图像数据上进行个点识别。

具体地，预设个数的骨骼点可以包括21个骨骼点，进一步地21个骨骼点包括手部的每个手指的3个骨骼点和1个指尖骨骼点，以及1个手掌点，即手的21个骨骼点分别分布在每一个手指的4个骨骼点(三个关节点以及一个手指尖端的骨骼点)和手掌的一个骨骼点。

此外，对识别出的21个骨骼点和历史对应的手部位置的骨骼点进行平滑滤波处理，解决某一帧某一个关节点识别不太稳定的问题，进而提高手指骨骼点识别的精度和稳定性。同时，实时统计每一帧帧图像的头的位和姿态追踪数据并实时存入跟踪消息队列中。另外，上述预设个数的骨骼点的具体个数及位置可根据具体的应用场景或者需求进行设置或调整。

S130：根据二维坐标，以及预先获取的与手部位置对应的头部位置的跟踪数据，确定预设个数的骨骼点的三维坐标。

其中，根据上述各步骤及模块的操作，对其他所有鱼眼追踪相机进行相应操作，获取手部在其他鱼眼追踪相机中的21个骨骼点的二维坐标，由于每一只手在头戴一体机前方的运动是不确定的，用户的每一只手在4目(鱼眼)追踪相机中对应的图像位置也是不确定的，可能存在手的21个骨骼点同时存在2个及以上相机的追踪图像中，也可能存在手的21个骨骼点的一部分点同时存在2个目的追踪相机图像中，其他点同时存在其它2个目的追踪相机图像中，也可能存在手的21个骨骼点一部分点同时存在3个目的追踪相机图像中，一部分点同时存在2个目的追踪相机图像中。

为此，需要对二维坐标进行三维骨骼点坐标的转换处理。

具体地，头部位置的跟踪数据包括头部位置的位置数据和姿态数据的跟踪数据；其中，位置数据和姿态数据通过设置在头部的追踪相机采集的视频数据以及头部的位姿估计算法来确定。

确定预设个数的骨骼点的三维坐标的过程包括：确定当前帧的骨骼点中的任意一个骨骼点作为目标骨骼点，并获取目标骨骼点的三维坐标；基于目标骨骼点的三维坐标，确定所有骨骼点的三维坐标；其中，目标骨骼点的三维坐标的确定公式如下：

P2＝R*P1+T

目标骨骼点的三维坐标的推算公式如下：

其中，

表示当前帧的目标骨骼点的三维坐标P2；

表示当前帧的目标骨骼点的二维坐标；

表示上一帧图像的目标骨骼点的历史三维坐标P1；

表示上一帧图像的目标骨骼点的二维坐标；

基于上述各公式的推导，可以获取手部位置的21个骨骼点在同一个追踪相机下的三维坐标位置，判断手部位置的21个骨骼点的每一个骨骼点有几个共视Camera图像的二维坐标数据，可知其有几个二维坐标(图像数据)，就可以计算出对应个数的三维坐标位置，然后通过所有的三维坐标位置进行求取平均值，可以增加三维位置的检测精度。骨骼点的共视Camera越多，骨骼点的三维坐标位置精度越准确，最多可达到四个三维坐标数据。

S140：对骨骼点的三维坐标和上一帧图像中的同一手部位置的历史三维坐标进行平滑滤波处理，获取处理后的手部位置的稳定骨骼点。

其中，利用上一步骤中的算法，依次对当前帧的待检测图像的每一只手的其他20个骨骼点进行三维位置获取，即可获取每一只手的21个三维骨骼点坐标信息，然后对每一只手的21个三维骨骼点坐标通过和历史对应的手部位置的三维骨骼点坐标进行平滑滤波处理，解决某一帧某一个关节点识别不太稳定的可能，提高手指三维骨骼点位置识别精度和稳定性。

S150：对稳定骨骼点和头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成手部位置的追踪和显示。

具体地，用平滑滤波处理之后的每一个手的21个骨骼点，和头戴一体机传过来的用户的头部位置的追踪数据进行融合，把相机坐标系下手的骨骼点信息转到头戴一体机坐标下手的骨骼点，然后把该数据传给Unity(用户界面)，通过渲染当前帧，再实时回传给头戴一体机，做显示处理。

在本发明的一个具体实施方式中，手部检测模型的预训练过程包括：对获取的训练图像数据中的目标区域进行标注，并获取标注的位置信息；其中，目标区域为手部区域；利用yolo模型对标注后的位置信息进行参数训练，直至yolo模型收敛在对应的预设范围内，以完成手部检测模型的训练。

可知，手部检测模型也可采用其他的神经网络模型进行训练，并不相遇上述的具体训练过程。

此外，骨骼点识别模型的预训练过程包括：基于训练图像数据训练基础神经网络模型，直至神经网络模型收敛在对应的预设范围内，以完成骨骼点识别模型；其中，基础神经网络模型包括：yolo模型、CNN模型、SSD模型或者FPN模型。

在上述两个模型的训练过程中，训练图像数据可通过头戴式一体机设备上的多个追踪鱼眼相机来获取，例如，图像数据可通过追踪鱼眼相机采集100个用户的共100万张图像数据，手部检测模型和维骨骼点识别模型的输入图像数据都是头戴式一体机的头部追踪相机的数据。如果头部用1个追踪相机进行头部位姿追踪，那么每一帧传入手部检测模型和骨骼点识别模型中就是一张图像数据，如果采用多个追踪相机进行头部位姿追踪，那么每一帧传入手部检测模型和维骨骼点识别模型的就是多张图像数据，本发明采用双目及多目相机解决手的三维骨骼点估计问题，进而提高手部位置的三维骨骼追踪稳定性和追踪精度。

与上述基于多相机的裸手追踪显示方法相对应，本发明还提供一种基于多相机的裸手追踪显示系统。

具体地，如图2所示，基于多相机的裸手追踪显示系统，包括：

待检测帧图像确定单元210，用于分别获取多个追踪相机的待检测视频的帧图像信息，并根据帧图像信息确定与各追踪相机分别对应的当前帧的待检测帧图像；二维坐标获取单元220，用于根据待检测帧图像、待检测帧图像的上一帧图像的跟踪信息，以及预设的模块执行顺序，选择性的启动检测模块、跟踪模块和骨骼点识别模块，以获取与待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标；三维坐标确定单元230，用于根据二维坐标，以及预先获取的与手部位置对应的头部位置的跟踪数据，确定预设个数的骨骼点的三维坐标；稳定骨骼点获取单元240，用于对骨骼点的三维坐标和上一帧图像中的同一手部位置的历史三维坐标进行平滑滤波处理，获取处理后的手部位置的稳定骨骼点；追踪显示单元250，用于对稳定骨骼点和头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成手部位置的追踪和显示。

对应地，本发明还提供一种电子装置，图3示出了根据本发明实施例的电子装置的示意结构。

如图3所示，本发明的电子装置1可以是VR/AR/MR头戴式一体机设备、服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。其中，该电子装置1包括：处理器12、存储器11、网络接口14及通信总线15。

其中，存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的基于多相机的裸手追踪显示程序10等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于多相机的裸手追踪显示程序10等。

网络接口14可选地可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该电子装置1与其他电子设备之间建立通信连接。

通信总线15用于实现这些组件之间的连接通信。

图1仅示出了具有组件11-15的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等，可选地用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。

在图1所示的装置实施例中，作为一种计算机存储介质的存储器11中可以包括操作系统以及基于多相机的裸手追踪显示程序10；处理器12执行存储器11中存储的基于多相机的裸手追踪显示程序10时实现如基于多相机的裸手追踪显示方法所示的步骤。

本发明之计算机可读存储介质的具体实施方式与上述捏合手势检测识别程序方法、装置、系统的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

如上参照附图以示例的方式描述根据本发明的基于多相机的裸手追踪显示方法、装置及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的基于多相机的裸手追踪显示方法、装置及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于多相机的裸手追踪显示方法，其特征在于，包括：

分别获取多个追踪相机的待检测视频的帧图像信息，并根据所述帧图像信息确定与各追踪相机分别对应的当前帧的待检测帧图像；

根据所述待检测帧图像、所述待检测帧图像的上一帧图像的跟踪信息，以及预设的模块执行顺序，选择性的启动检测模块、跟踪模块和骨骼点识别模块，以获取与所述待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标；

根据所述二维坐标，以及预先获取的与所述手部位置对应的头部位置的跟踪数据，确定所述预设个数的骨骼点的三维坐标；

对所述骨骼点的三维坐标和所述上一帧图像中的同一手部位置的历史三维坐标进行平滑滤波处理，获取处理后的所述手部位置的稳定骨骼点；

对所述稳定骨骼点和所述头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成所述手部位置的追踪和显示。

2.如权利要求1所述的基于多相机的裸手追踪显示方法，其特征在于，根据所述待检测帧图像以及所述待检测帧图像的上一帧图像的检测结果，选择性的启动检测模块、跟踪模块和骨骼点识别模块的过程包括：

基于所述上一帧图像的跟踪信息，获取所述上一帧图像中检测到的手部位置的个数；其中，

当所述手部位置的个数小于2时，同时启动所述检测模块、所述跟踪模块和所述骨骼点识别模块；

否则，当所述手部位置的个数为2时，同时启动所述跟踪模块和所述骨骼点识别模块。

3.如权利要求2所述的基于多相机的裸手追踪显示方法，其特征在于，

所述检测模块用于通过预训练的手部检测模型对所述待检测帧图像中的手进行检测定位，获取手部位置及与所述手部位置对应的ROI，并发送至所述跟踪模块和所述骨骼点识别模块；

所述跟踪模块用于根据所述ROI及光流追踪算法，跟踪所述待检测帧图像的下一帧图像的预测ROI，并将与所述预测ROI对应的跟踪信息存储至手部跟踪队列中，以更新所述手部位置的跟踪信息；

所述骨骼点识别模型用于从所述手部跟踪队列中获取所述手部位置的ROI，并通过预训练的骨骼点识别模型对获取的所述ROI进行预设个数的骨骼点识别。

4.如权利要求1所述的基于多相机的裸手追踪显示方法，其特征在于，

所述头部位置的跟踪数据包括所述头部位置的位置数据和姿态数据的跟踪数据；其中，

所述位置数据和所述姿态数据通过设置在头部的追踪相机采集的视频数据以及头部的位姿估计算法来确定。

5.如权利要求1所述的基于多相机的裸手追踪显示方法，其特征在于，所述确定所述预设个数的骨骼点的三维坐标的过程包括：

确定所述当前帧的骨骼点中的任意一个骨骼点作为目标骨骼点，并获取所述目标骨骼点的三维坐标；

基于所述目标骨骼点的三维坐标，确定所有骨骼点的三维坐标；其中，

所述目标骨骼点的三维坐标的确定公式如下：

P2＝R*P1+T

其中，P2表示所述目标骨骼点的三维坐标，P1表示所述上一帧图像的目标骨骼点的历史三维坐标，R表示所述头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的旋转矩阵，T表示所述头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的转移矩阵。

6.如权利要求5所述的基于多相机的裸手追踪显示方法，其特征在于，

所述目标骨骼点的三维坐标的推算公式如下：

其中，

表示所述当前帧的目标骨骼点的三维坐标P2；

表示所述当前帧的目标骨骼点的二维坐标；

表示所述上一帧图像的目标骨骼点的历史三维坐标P1；

表示所述上一帧图像的目标骨骼点的二维坐标；

表示获取所述待检测视频的追踪相机的标定参数；其中，fx和fy表示所述追踪相机的像素焦距，cx和cy表示所述追踪相机的光轴在所述待检测帧图像上的坐标位置；R表示所述头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的旋转矩阵，T表示所述头部位置的跟踪数据中的当前帧的头部位置相对上一帧图像的头部位置的转移矩阵。

7.如权利要求3所述的基于多相机的裸手追踪显示方法，其特征在于，

所述手部检测模型的预训练过程包括：

对获取的训练图像数据中的目标区域进行标注，并获取标注的位置信息；其中，所述目标区域为手部区域；

利用yolo模型对标注后的位置信息进行参数训练，直至所述yolo模型收敛在对应的预设范围内，以完成所述手部检测模型的训练。

8.如权利要求7所述的基于多相机的裸手追踪显示方法，其特征在于，所述骨骼点识别模型的预训练过程包括：

基于所述训练图像数据训练基础神经网络模型，直至所述神经网络模型收敛在对应的预设范围内，以完成所述骨骼点识别模型；其中，

所述基础神经网络模型包括：yolo模型、CNN模型、SSD模型或者FPN模型。

9.一种电子装置，其特征在于，该电子装置包括：存储器、处理器及摄像装置，所述存储器中包括基于多相机的裸手追踪显示程序，所述基于多相机的裸手追踪显示程序被所述处理器执行时实现如权利要求1至8任意一项基于多相机的裸手追踪显示方法的步骤。

10.一种基于多相机的裸手追踪显示系统，其特征在于，包括：

待检测帧图像确定单元，用于分别获取多个追踪相机的待检测视频的帧图像信息，并根据所述帧图像信息确定与各追踪相机分别对应的当前帧的待检测帧图像；

二维坐标获取单元，用于根据所述待检测帧图像、所述待检测帧图像的上一帧图像的跟踪信息，以及预设的模块执行顺序，选择性的启动检测模块、跟踪模块和骨骼点识别模块，以获取与所述待检测帧图像对应的手部位置的跟踪信息以及预设个数的骨骼点的二维坐标；

三维坐标确定单元，用于根据所述二维坐标，以及预先获取的与所述手部位置对应的头部位置的跟踪数据，确定所述预设个数的骨骼点的三维坐标；

稳定骨骼点获取单元，用于对所述骨骼点的三维坐标和所述上一帧图像中的同一手部位置的历史三维坐标进行平滑滤波处理，获取处理后的所述手部位置的稳定骨骼点；

追踪显示单元，用于对所述稳定骨骼点和所述头部位置的跟踪数据依次进行融合、渲染及显示处理，以完成所述手部位置的追踪和显示。