CN117420917B

CN117420917B - 基于手部骨架的虚拟现实控制方法、系统、设备及介质

Info

Publication number: CN117420917B
Application number: CN202311743426.1A
Authority: CN
Inventors: 刘兆伟; 李明亮; 姜丰; 卢喜郎; 苏航; 文志东
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-03-08
Anticipated expiration: 2043-12-19
Also published as: CN117420917A

Abstract

本发明公开一种基于手部骨架的虚拟现实控制方法、系统、设备及介质，涉及虚拟现实技术领域，包括：获取手势图像并进行实例分割，得到手部目标区域候选框，采用通道注意力机制对手部目标区域候选框进行修正后，得到手部目标区域；采用训练后的手部关键点检测模型，对手部目标区域提取骨骼点矩阵；通过样条插值方法对骨骼点矩阵进行重标定，得到更新后的骨骼点矩阵；根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息，由此控制操作虚拟对象。通过多视图图像训练模型，使其具有从2D推断三维信息的能力，同时通过对骨骼点矩阵进行重标定，达到防抖动与跳变的效果，提升识别准确性与稳定性。

Description

基于手部骨架的虚拟现实控制方法、系统、设备及介质

技术领域

本发明涉及虚拟现实技术领域，特别是涉及一种基于手部骨架的虚拟现实控制方法、系统、设备及介质。

背景技术

虚拟现实（Virtual Reality，VR）是一种让用户通过佩戴设备进入虚拟世界的技术。随着VR技术的不断发展，手势控制成为一种更加自然、直观的交互方式。通过手势控制，用户可以用手指点击、滑动、旋转等动作来操作虚拟世界中的物体，增强用户的沉浸感和参与感。与传统控制器相比，手势控制能够更好的模拟真实世界的交互。

在手势控制虚拟现实设备中，最常见的技术是基于摄像头的手势识别。通过摄像头捕捉用户的手势动作，并通过手势识别算法识别出不同的手势，从而实现对虚拟世界的控制。这种技术可以应用于各种虚拟现实设备，如头戴式显示器，手持设备等，用户只需简单的挥动手臂，握拳或伸出手指，就能够与虚拟世界进行交互；但是，由于人体动作的多样性和复杂性的影响，手势识别算法需要能够准确的识别用户的手势，避免误判和延迟，这就要求识别模型需要较高的精确度与实时性。

现有技术利用深度相机和Google的Mediapipe算法捕获手部的三维信息，并根据模型所需特征进行处理，通过关节点坐标变化以及关节之间的距离和方向表述手势动作；但是，这些方法重点在于处理全局特征与局部特征中的连接点信息，不能有效解决动态环境中的识别任务以及手掌存在遮挡问题导致的识别精准度降低问题。

发明内容

为了解决上述问题，本发明提出了一种基于手部骨架的虚拟现实控制方法、系统、设备及介质，通过多视图图像训练模型，使其具有从2D推断三维信息的能力，同时通过对骨骼点矩阵进行重标定，达到防抖动与跳变的效果，提升识别准确性与稳定性。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种基于手部骨架的虚拟现实控制方法，包括：

获取手势图像并进行实例分割，得到手部目标区域候选框，采用通道注意力机制对手部目标区域候选框进行修正后，得到手部目标区域；

采用训练后的手部关键点检测模型，对手部目标区域提取骨骼点矩阵；所述手部关键点检测模型为根据多视角下的手部位置，将其投影为2D图像，以此进行训练得到；

通过样条插值方法对骨骼点矩阵进行重标定，得到更新后的骨骼点矩阵；

根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息，由此控制操作虚拟对象。

作为可选择的实施方式，对手势图像提取不同深度的特征图，通过特征值大小计算表示手部目标在手势图像中位置的多个区域候选框。

作为可选择的实施方式，对手部目标区域候选框进行修正的过程包括：对区域候选框的中心横坐标、纵坐标、高和宽分别计算在相应通道下的注意力权重值，代表新手部目标区域候选框与原始手部目标区域候选框的中心横坐标、纵坐标、高和宽的修正值。

作为可选择的实施方式，训练手部关键点检测模型的过程包括：在多视角图像条件下构建多视角图像数据集，根据各视角对应的位姿构建三角坐标，得到手部目标的3D位置，并将其位置投影为2D图像，由此训练手部关键点检测模型。

作为可选择的实施方式，采用训练后的手部关键点检测模型得到骨骼点坐标，通过多层无监督神经网络提取骨骼点识别权重，由此通过加权后得到骨骼点矩阵。

作为可选择的实施方式，通过样条插值方法对骨骼点矩阵进行重标定的过程包括：将骨骼点矩阵中所有骨骼点坐标表示为集合I，对集合I进行三次样条插值，生成每两个相邻骨骼点之间的三次样条曲线，将所有相邻的三次样条曲线连接起来形成插值曲线，基于插值曲线的横坐标值计算对应的纵坐标值，从而得到更新后的骨骼点矩阵。

作为可选择的实施方式，根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息的过程包括：创建虚拟空间，在虚拟空间中生成待交互的虚拟对象，根据更新后的骨骼点矩阵中所有骨骼点坐标映射到虚拟空间中，计算骨骼点与虚拟对象的相对位置，实现对虚拟对象操作的控制。

第二方面，本发明提供一种基于手部骨架的虚拟现实控制系统，包括：

实例分割模块，被配置为获取手势图像并进行实例分割，得到手部目标区域候选框，采用通道注意力机制对手部目标区域候选框进行修正后，得到手部目标区域；

关键点检测模块，被配置为采用训练后的手部关键点检测模型，对手部目标区域提取骨骼点矩阵；所述手部关键点检测模型为根据多视角下的手部位置，将其投影为2D图像，以此进行训练得到；

重标定模块，被配置为通过样条插值方法对骨骼点矩阵进行重标定，得到更新后的骨骼点矩阵；

控制模块，被配置为根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息，由此控制操作虚拟对象。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

针对RGB相机不能获取深度信息的问题，本发明通过多视图图像数据集训练手部关键点检测模型，使其具有从2D推断三维信息的能力，提升从2D图像识别手势的稳定性。引入通道注意力机制，修正候选框信息，提升动态环境下手势识别任务的鲁棒性。通过样条插值方法对骨骼点矩阵进行重标定，减小手部抖动与跳变带来的识别精准度下降的影响，提升模型识别准确性与稳定性。

本发明通过通道注意力机制对候选框进行修正，提升对重要信息的关注度，减弱与手势无关的特征通道，降低对无关信息的敏感度，从而减弱对最终结果的影响，提高模型泛化能力；同时，通过对特定通道加权，有助于降低模型过拟合的风险，注重关键信息，减少对噪声或不相关信息的过度拟合，提升在复杂手势场景中的鲁棒性，提高模型对于多变环境的鲁棒性。

本发明在重标定步骤中使用样条插值方法对结果进行重新标定，相较于现有技术能够提供更加平滑和连续的结果；同时，如果手部骨骼点数据有缺失，样条插值方法能够估算缺失数据，生成平滑曲线；另外，样条插值可以更准确逼近离散数据点，特别是需要高度精确性的场景下，这对于手势识别关键骨骼点标定非常重要，能够确保插值结果与实际手部运动更为接近。

本发明提出一种基于手部骨架的虚拟现实控制方法，使用的模型采用轻量化手段来实现手势识别任务，在不增加计算成本的情况下，提升手势识别任务的精准度，同时提高识别任务的实时性，解决现有技术中手势识别模型的高计算成本以及高延迟的识别情况。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于手部骨架的虚拟现实控制方法流程图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“包含”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

本实施例提供一种基于手部骨架的虚拟现实控制方法，如图1所示，包括：

在本实施例中，采用RGB相机实时捕获手势图像，利用掩膜循环卷积神经网络（MASK R-CNN）对其进行实例分割，得到手部目标区域候选框，采用通道注意力机制对手部目标区域候选框进行修正后，得到手部目标区域。

具体地：

（1）对手势图像进行特征提取：针对手势关键点标定任务，选择21个残差网络，对输入的手势图像进行处理，以获得21个包含图像的不同深度信息的特征图，再利用FPN特征组合网络将不同深度的特征图进行重组，经过卷积、池化等基本操作重新生成特征图F。

（2）对重新生成的特征图F，通过区域推荐机制组成模型结构中的区域提交网络，根据图像特征值大小计算出表示手部目标在手势图像中位置的多个候选框，并通过通道注意力机制对候选框进行修正，得到精确的候选框。

（2-1）在进行修正时，对于输入的特征图F，它的每个通道包含一个特征向量，通道的维度为C；通道注意力机制通过引入权重来强化或者减弱每个通道的信息，从而产生新的特征图，该权重采用注意力分数A表示：，其中，/>为第个通道的权重，/>为第/>个通道的特征，/>是激活函数，/>是对整个特征图进行全局池化的操作，/>是与第/>个通道相关的可学习参数。

（2-2）根据权重对特征图F进行加权：，/>是加权特征图。

（2-3）对在相应通道上进行计算得到对应的修正值，分别为新候选框与原始候选框的中心横坐标修正值/>、纵坐标修正值/>、高修正值/>和宽修正值/>；各修正值为：

；

其中，分别代表区域候选框的中心横坐标、纵坐标、高和宽；/>、/>、/>、分别代表/>对应的加权特征图通道；/>分别代表每个修正值相关的可学习参数。

（3）基于修正后的手部目标区域候选框，利用ROI Align算法直接裁剪出候选框对应特征图，并进行双线性插值和池化处理后，将特征图变换为统一尺寸；采用Sigmoid激活函数和全局最大池化层，实现候选框与区域同一尺寸的特征一一对应，获得手部目标区域的实例分割结果。

在本实施例中，利用多视角图像数据集训练手部关键点检测模型，使其能够具备通过2D图像推断三维信息的能力，再基于训练后的手部关键点检测模型，对手部目标区域的图像进行识别，实时获取目标手部的骨骼点矩阵，并在原始手势图像中进行标定。

具体地：

基于多视角手势信息，训练手部关键点检测模型；即，在多视角图像条件下构建多视角图像数据集。同时，对多视角图像数据集进行旋转、平移、缩放以及添加噪声等操作，对多视角数据集进行泛化处理，使用泛化后的数据集与关键点标注数据集训练手部关键点检测模型；

对于每个样本，真实的骨骼点坐标集合为；手部关键点检测模型的输出为/>。

对于手部关键点检测模型的精准度，其损失函数设置为：；其中，/>和/>分别表示以位置/>为中心点的手的长度预测值和宽度预测值，/>和/>表示/>和/>相应的真值；/>为骨骼点数量。

手部关键点检测模型的识别效率，使用交叉熵损失进行计算：；其中，/>是手势类的个数，/>为手势样本/>的真实分布，/>为输出层生成的概率得分。

对手部关键点检测模型输出的骨骼点坐标，通过多层无监督神经网络（DNN）提取骨骼点识别权重，由此通过加权后得到骨骼点矩阵。

本实施例的骨骼点矩阵包括21个骨骼点，即为预先设定的手部关键点，分别为：5根手指每根手指具有3个关键点，分别为指尖、手指中间的关节，以及指缝；其余6个关键点分别是5根手指与手掌的连接位置，以及手掌与手腕的连接部分。

在本实施例中，通过样条插值方法对骨骼点矩阵进行重标定，减小手部抖动与跳变带来的识别精准度下降的影响，提升模型识别准确性与稳定性。

具体的：

（1）定义骨骼点坐标集合；将骨骼点矩阵中所有骨骼点坐标表示为集合，其中每个元素包含/>二维向量，/>。

（2）通过插值算法，对集合进行三次样条插值，生成每两个相邻骨骼点之间的三次样条曲线，/>；其中，/>是第/>段样条曲线，/>是插值点的横坐标，/>是插值系数。

（3）将所有相邻的三次样条曲线连接起来，形成插值曲线H，。

（4）基于插值曲线H的横坐标值，计算其对应的纵坐标值，即为重新处理后的手部骨骼点坐标集合，/>；并将其转存为骨骼点矩阵，其中每行包含骨骼点的三维坐标。

在本实施例中，虚拟对象控制过程包括：

利用虚拟现实引擎创建虚拟空间，将更新后的骨骼点矩阵中所有骨骼点坐标映射到虚拟空间中，并通过偏移、旋转和缩放等操纵对骨骼点坐标进行变换和校准，确保手部在虚拟环境中的位置和方向与实际手部相符；

在虚拟空间中生成待交互的虚拟对象，如箱子，按钮等；计算骨骼点与虚拟对象的相对位置，实现虚拟对象的抓取、移动、旋转等操作；其中，对于虚拟对象的抓取动作，通过检测手势动作，例如手指的张合和闭合，判断抓取操作，当抓取动作发生时，虚拟对象与手部骨架进行绑定，使其跟随手部移动；

在虚拟现实显示设备中实时渲染手部骨架，以提供用户对手部位置和姿态的视觉反馈。

实施例2

本实施例提供一种基于手部骨架的虚拟现实控制系统，包括：

此处需要说明的是，上述模块对应于实施例1中所述的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于手部骨架的虚拟现实控制方法，其特征在于，包括：

根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息，由此控制操作虚拟对象；

其中，采用训练后的手部关键点检测模型，对手部目标区域提取骨骼点矩阵；所述手部关键点检测模型为根据多视角下的手部位置，将其投影为2D图像，以此进行训练得到包括：

在多视角图像条件下构建多视角图像数据集，根据各视角对应的位姿构建三角坐标，得到手部目标的3D位置，并将其位置投影为2D图像，由此训练手部关键点检测模型；在多视角图像条件下构建多视角图像数据集，同时，对多视角数据集进行泛化处理，使用泛化后的数据集与关键点标注数据集训练手部关键点检测模型；

采用训练后的手部关键点检测模型得到骨骼点坐标，通过多层无监督神经网络提取骨骼点识别权重，由此通过加权后得到骨骼点矩阵。

2.如权利要求1所述的基于手部骨架的虚拟现实控制方法，其特征在于，对手势图像提取不同深度的特征图，通过特征值大小计算表示手部目标在手势图像中位置的多个区域候选框。

3.如权利要求1所述的基于手部骨架的虚拟现实控制方法，其特征在于，对手部目标区域候选框进行修正的过程包括：对区域候选框的中心横坐标、纵坐标、高和宽分别计算在相应通道下的注意力权重值，代表新手部目标区域候选框与原始手部目标区域候选框的中心横坐标、纵坐标、高和宽的修正值。

4.如权利要求1所述的基于手部骨架的虚拟现实控制方法，其特征在于，通过样条插值方法对骨骼点矩阵进行重标定的过程包括：将骨骼点矩阵中所有骨骼点坐标表示为集合I，对集合I进行三次样条插值，生成每两个相邻骨骼点之间的三次样条曲线，将所有相邻的三次样条曲线连接起来形成插值曲线，基于插值曲线的横坐标值计算对应的纵坐标值，从而得到更新后的骨骼点矩阵。

5.如权利要求1所述的基于手部骨架的虚拟现实控制方法，其特征在于，根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息的过程包括：创建虚拟空间，在虚拟空间中生成待交互的虚拟对象，根据更新后的骨骼点矩阵中所有骨骼点坐标映射到虚拟空间中，计算骨骼点与虚拟对象的相对位置，实现对虚拟对象操作的控制。

6.基于手部骨架的虚拟现实控制系统，其特征在于，包括：

控制模块，被配置为根据更新后的骨骼点矩阵在虚拟空间中映射为手势信息，由此控制操作虚拟对象；

7.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-5任一项所述的方法。