CN117409483A

CN117409483A - 基于自适应联合时空图卷积的虚拟现实交互方法及系统

Info

Publication number: CN117409483A
Application number: CN202311705047.3A
Authority: CN
Inventors: 刘兆伟; 刘文哲; 王占宇; 卢喜郎; 徐金东; 阎维青; 宋永超; 姜岸佐; 文志东
Original assignee: Yantai University
Current assignee: Yantai University
Priority date: 2023-12-13
Filing date: 2023-12-13
Publication date: 2024-01-16
Anticipated expiration: 2043-12-13
Also published as: CN117409483B

Abstract

本发明属于虚拟现实交互技术领域，提供了基于自适应联合时空图卷积的虚拟现实交互方法及系统，其使用RGB摄像头作为感知源，通过骨架估计算法实时提取人体骨架，提出了一种自适应图机制，替换原有骨架图，使得骨架图可以跟网络参数一同优化，提升了全局准确率，提出了一种跨时空的联合图卷积方法，跨时空聚合节点信息，提升识别准确率并降低网络参数量使实时化可行。

Description

基于自适应联合时空图卷积的虚拟现实交互方法及系统

技术领域

本发明属于虚拟现实交互技术领域，尤其涉及基于自适应联合时空图卷积的虚拟现实交互方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

虚拟现实技术利用电脑模拟产生一个三维空间的虚拟世界，提供用户关于视觉等感官的模拟。随着人工智能技术的发展，虚拟现实设备可以通过人工神经网络实时感知人类意图，实现人与虚拟世界的交互行为。

当前人类与虚拟现实技术交互通常需要使用手部辅助设备感知人体姿态。随着计算机计算水平的提高，外部设备也被应用与感知人体姿态，例如传感器和摄像头。与使用辅助设备相比，减少了外部设备的使用增加了用户对虚拟现实技术的沉浸感。

但目前基于摄像头进行虚拟现实与人类交互的方法还面临一些挑战。与传感器和外部设备相比，摄像头更加容易部署且成本较低，但识别能力和识别精度相对较低。人体骨架数据相对于单纯图像更能体现人体姿态的细节，并且对周围环境具有天然的鲁棒性。

现有的基于图卷积神经网络的骨架人体动作识别方法利用骨架的结构特性，将骨架构建为图数据结构，通过图卷积神经网络提取聚合相邻关节点之间的特征，获取人类动作。当前基于图神经卷积网络的骨架人体动作识别方法分开提取骨架时空关系，这忽略了跨时空关系导致部分动作难以被区别。此外，现有方法由于网络层数过深导致实时性较差，难以应用于现实场景。

发明内容

为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于自适应联合时空图卷积的虚拟现实交互方法及系统，其使用RGB摄像头作为感知源，通过骨架估计算法实时提取人体骨架，提出了一种自适应图机制，替换原有骨架图，使得骨架图可以跟网络参数一同优化，提升了全局准确率，提出了一种跨时空的联合图卷积方法，跨时空聚合节点信息，提升识别准确率并降低网络参数量使实时化可行。

为了实现上述目的，本发明采用如下技术方案：

本发明的第一个方面提供基于自适应联合时空图卷积的虚拟现实交互方法，包括如下步骤：

根据获取的视频流数据构建人体骨架图结构；

基于人体骨架图结构和训练后的人体姿态识别网络得到人体姿态类别；其中，所述人体姿态识别网络的构建过程包括：

结合人体骨架图结构，构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应骨架图；

基于自适应骨架图，采用图卷积神经网络对时间和空间维度特征联合聚合，得到时空联合聚合表示，根据时空联合聚合表示识别得到人体姿态类别；

根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹，基于该待响应运动轨迹做出动作，完成虚拟现实互动。

进一步地，所述根据获取的视频流数据构建人体骨架图结构，包括：

将人体的骨架表示为图数据结构，其中顶点集/>表示人体骨骼中的每个关节点，/>是骨骼图中所有关节点的数目，边集/>表示关节点之间的骨骼，骨骼图的邻接矩阵/>的计算公式为：如果节点/>和节点/>之间存在链接，则/>，否则为0。

进一步地，所述结合人体骨架图结构，构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应时空骨架图，包括：

根据每个动作的人体骨架图结构，建立关节点之间的额外链接，得到第一矩阵；

学习每个动作视频流数据相应的人体骨架图结构，衡量任意两个节点之间是否存在链接以及对应的链接强度，得到第二矩阵；

结合人体骨架图结构邻接矩阵、第一矩阵和第二矩阵得到自适应的时空骨架图的邻接矩阵。

进一步地，所述衡量任意两个节点之间是否存在链接以及对应的链接强度采用归一化的高斯函数衡量。

进一步地，所述图卷积神经网络的构建过程为：

获取所有帧自适应骨架图的邻接矩阵；

将自适应骨架图应用于自适应骨架图的邻接矩阵中，得到自适应的时空骨架图的邻接矩阵；

基于自适应的时空骨架图的邻接矩阵构建自适应学习时空图，选择性地聚合𝜏帧内的连接邻域，得到时间窗口的自适应联合图卷积。

进一步地，所述采用图卷积神经网络对时间和空间维度特征联合聚合时，具体包括：每个图卷积神经网络包括多个自适应时空联合图卷积块，每个自适应时空联合图卷积块包括一个自适应时空联合图卷积网络和一个时间卷积网络，通过自适应时空联合图卷积网络提取时空联合特征，随后输入时间卷积网络，对时间层面的特征进一步提取，得到最后的聚合特征向量。

进一步地，在得到人体姿态类别后，进行置信度计算，计算方法为：

，其中，Xi是人体骨架数据经过神经网络计算所获得的类别向量，/>是类别总数，/>是Xi预测类别下标的值。

本发明的第二个方面提供基于自适应联合时空图卷积的虚拟现实交互系统，包括姿态识别端和虚拟现实端；

所述姿态识别端，被配置为：根据获取的视频流数据构建人体骨架图结构；基于人体骨架图结构和训练后的人体姿态识别网络得到姿态类别；其中，所述人体姿态识别网络的构建过程包括：

所述虚拟现实端，被配置为：根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹；基于该待响应运动轨迹做出动作，完成虚拟现实互动。

进一步地，所述姿态识别端，还被配置为：所述结合人体骨架图结构，构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应时空骨架图，包括：

进一步地，所述姿态识别端，还被配置为：在得到人体姿态类别后，进行置信度计算。

与现有技术相比，本发明的有益效果是：

（1）针对现有方法使用大多使用外部设备和传感器的局限性，本发明使用RGB摄像头作为感知源，通过骨架估计算法实时提取人体骨架。

（2）针对现有基于图卷积神经网络的骨架人体动作识别方法部分动作难以被识别的问题，本发明提出了一种自适应图机制，替换原有骨架图，使得骨架图可以跟网络参数一同优化，提升了全局准确率。

（3）针对现有方法层数过深导致实时性较差难以部署至真实场景下的缺点，本发明提出了一种跨时空的联合图卷积方法，跨时空聚合节点信息，提升识别准确率并降低网络参数量使实时化可行。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例提供的基于自适应联合时空图卷积的虚拟现实交互方法流程图；

图2是本发明实施例提供的基于自适应联合时空图卷积的虚拟现实交互系统框图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

参照图1，本实施例提供基于自适应联合时空图卷积的虚拟现实交互方法，包括如下步骤：

步骤1：获取视频数据，基于视频流数据构建骨架图结构，根据骨架图结构建立统一的图结构用于神经网络训练。

所述人体骨架图机构构建具体方法：将人体的骨架表示为图数据结构，其中顶点集/>表示人体骨骼中的每个关节点，/>是骨骼图中所有关节点的数目，边集/>表示关节点之间的骨骼，骨骼图的邻接矩阵/>的计算公式为：如果节点/>和节点/>之间存在链接，则/>，否则为0。

步骤2：构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应骨架图；

所述自适应图机制操作具体为：将骨架图的邻接矩阵替换为自适应邻接矩阵/>，自适应邻接矩阵/>是由/>,/>,/>相加组成，为每个动作学习一套相应的骨架图结构，其中。

其中，部分与原始邻接矩阵/>相同，表示了人体骨骼的原始结构。

部分是一个/>的矩阵，用于建立关节点之间的额外链接；/>矩阵可以通过神经网络进行优化，完全根据输入数据动态调整和学习整个输入骨架图，并通过这种数据驱动的方法为特定动作学习相应的图结构。

为了保证矩阵的每个元素具有梯度，因此/>初始值，本实施中可以取0.03。

未经过训练的情况下，即原始的骨架结构，随着训练进行/>得到优化，得以建立新的连接关系。

部分用于学习每个样本的相应图，通过衡量任意两个节点之间是否存在链接以及链接强度。

本实施例中，使用归一化的高斯函数衡量两个节点之间的链接关系，任意两个关节点之间的高斯函数表示为：

，式中，/>是骨架图的关节点综述，项用于衡量两个节点进行嵌入后的相似度，/>和/>是两个卷积核大小为/>的二维卷积网络用于对关节点进行嵌入操作，分别得到两个维度为/>的嵌入矩阵，/>为嵌入后节点的维度，将其重新排列为/>和/>进行矩阵乘法运算，最后得到维数为/>的节点相似性矩阵，将其归一化后得到矩阵/>。

矩阵的获取方式可以被表示为：/>，其中，/>函数是归一化指数函数，/>是输入的数据，/>和/>分别是嵌入函数/>和/>的权重矩阵。

与直接使用和/>部分替换/>部分相比，使用三部分叠加的自适应图增加了图结构的稳定性和灵活性。

步骤3：采用图卷积神经网络，联合时间和空间进行特征聚合。

传统的基于图神经卷积网络的骨架人体动作识别方法分开提取骨架时空关系，包括：

人体骨架输入为一个矩阵，其中/>是视频流的帧数，/>是骨骼关节点的个数，/>是每个关节点的维度。

对于空间上的图卷积神经网络来说，时刻𝑡上的输入矩阵由邻接矩阵/>标准化，并通过每层的可学习权重矩阵/>聚合邻域信息，其中，/>为当前神经网络的层数。

因此，骨架序列空间上的每一层图卷积神经网络可以表示为：

，其中，/>是/>时刻神经网络第/>层的输出，也是第/>层的输入，/>，/>为原始邻接矩阵，/>为单位矩阵，/>是为了确保图结构同质性，添加了自环的邻接矩阵，/>是原始邻接矩阵/>的度矩阵；/>用来归一化邻接矩阵/>,项，表示聚合整个图中的邻居节点信息，/>表示激活函数，用于对结果的非线性变化。

在时间特征聚合方面，对于输入的骨架序列，使用卷积核为/>的二维卷积神经网络在每个节点聚合时间大小为/>的特征。

上述的聚合方式局限在于时间和空间的分别聚合，仅从时间或空间进行特征聚合，由于受到弱关联冗余信息的影响，所得到的特征将无法捕获序列的高阶特征，这忽略了深层次的时空联合关系。

为了捕获深层次的时空联合关系，本实施例通过基于步骤2得到的自适应骨架图，进行时空特征的联合聚合，具体为：

对于时间窗口的时空骨架图/>，其中/>是/>时间窗口中所有帧的关节点的集合，/>是/>时间窗口中所有帧的节点之间边的集合，对于时空骨架图/>的邻接矩阵/>由单帧的骨架图/>的邻接矩阵/>水平和垂直填充/>次构成。

时空骨架图的邻接矩阵可以表示为：/>；将自适应骨架图应用于时空骨架图的邻接矩阵中，自适应的时空骨架图的邻接矩阵/>可以表示为：；通过构建自适应学习时空图，选择性地聚合/>帧内的强连接邻域，这种聚合是远距离跨越的，可以大大增强每个节点的有效感知域。

在时间窗口的自适应联合图卷积可以被表示为：/>，其中，/>表示/>时刻/>时间窗口下第/>层的输出，也即第/>层的输入，/>是时空骨架图的自适应邻接矩阵，/>是第/>层的权重矩阵。

步骤4：对整个人体姿态识别网络进行构建，基于该人体姿态识别网络对采集的数据集进行训练。

所述自适应联合时空图卷积网络的构建具体操作为：针对骨架结构构建对应的图数据结构建立骨架图，构建自适应图卷积神经网络，其中网络包含6个自适应时空联合图卷积块，每个自适应时空联合图卷积块包含一个自适应时空联合图卷积网络和一个时间卷积网络。通过自适应时空联合图卷积网络将输入的视频数据映射到特征域中，并自适应的提取时空联合特征，随后输入时间卷积网络，对时间层面的特征进一步提取，通过这些操作得到最后的特征向量。

本实施例中，为了捕捉骨架结构的深层信息，在第1、3、5层分别将特征维度提升至96，192，384。经过全局池化层、全连接层和Softmax函数获取最终网络所判断的类别。

所述数据集采集和网络训练具体操作为：利用RGB摄像机拍摄多种类别的物品搬运动作并将视频通过处理算法统一化视频，随后使用骨架提取算法对所采集的视频提取人体骨架信息并进行分类标注，其中所有骨架均包含18个关节点用以后续网络的训练。最后将80%的数据作为训练集，20%的数据作为验证集构建完整的数据集。所有数据使用32的批量大小输入进网络，通过随机梯度下降方法优化网络中的所有可训练参数，优化方法的学习率为0.01，权重衰减为0.003。

步骤5：实时捕捉用户图像并经过骨架提取算法所获取的骨架信息输入至上述训练好的人体姿态识别网络中，实时给出姿态类别。

本实施例中，通过RGB摄像头实时捕捉用户图像。

步骤6：根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹；基于该待响应运动轨迹做出动作，完成虚拟现实互动。

实现虚拟现实与人类交互，虚拟现实系统主机运行订阅者节点，实时接收发布者所提供的虚拟人物手臂移动指令，部署人体姿态识别网络的主机运行发布者节点，根据所识别到的类别计算出虚拟人物手臂轨迹并发布给订阅者节点。虚拟人物接收手臂轨迹做出动作，拿取人类提供的物体完成虚拟现实中人机互动。

步骤7：置信度计算。

为了保证虚拟人物在识别到唯一的人体姿态后不会因其他原因导致识别结果错误，网络在每帧识别过程中对最终结果向量进行置信度计算，置信度计算方式为：

，其中，/>是人体骨架数据经过神经网络计算所获得的类别向量，/>是类别总数，/>是/>预测类别下标的值，因为预测向量/>中可能包含负值，为了保证置信度/>，/>中的负值取绝对值加入到分子。

对于置信度小于阈值的不发送给发布者节点。当有人体姿态被发布者发布时，将不再继续识别人体姿态。

经过实验验证，采用本发明的方法对于典型的8个交互动作的识别准确率均高于82%，单次推理所需时间为5.26ms，准确率和推理时间均优于当前最优方法。

实施例二

参照图2，本实施例提供基于自适应联合时空图卷积的虚拟现实交互系统，包括姿态识别端和虚拟现实端；

所述姿态识别端，被配置为：

获取视频流数据，对视频流数据预处理后，输入至构建好的人体骨架图结构；基于人体骨架图结构和训练后的人体姿态识别网络得到姿态类别；其中，所述人体姿态识别网络的构建过程包括：

基于自适应骨架图，采用图卷积神经网络对时间和空间维度特征联合聚合，得到时空联合聚合表示，根据时空联合聚合表示识别得到人体姿态类别；将人体姿态类别发送到发送者节点，发送者节点计算运动轨迹并广播；

所述虚拟现实端，被配置为：订阅者节点接收轨迹信息，根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹；虚拟人物根据轨迹信息做出动作，完成虚拟现实互动。

所述姿态识别端，还被配置为：所述结合人体骨架图结构，构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应时空骨架图，包括：

所述姿态识别端，还被配置为：在得到人体姿态类别后，进行置信度计算。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，包括如下步骤：

根据获取的视频流数据构建人体骨架图结构；

2.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，所述根据获取的视频流数据构建人体骨架图结构，包括：

3.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，所述结合人体骨架图结构，构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应时空骨架图，包括：

4.如权利要求3所述的基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，所述衡量任意两个节点之间是否存在链接以及对应的链接强度采用归一化的高斯函数衡量。

5.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，所述图卷积神经网络的构建过程为：

获取所有帧自适应骨架图的邻接矩阵；

6.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，所述采用图卷积神经网络对时间和空间维度特征联合聚合时，具体包括：每个图卷积神经网络包括多个自适应时空联合图卷积块，每个自适应时空联合图卷积块包括一个自适应时空联合图卷积网络和一个时间卷积网络，通过自适应时空联合图卷积网络提取时空联合特征，随后输入时间卷积网络，对时间层面的特征进一步提取，得到最后的聚合特征向量。

7.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法，其特征在于，在得到人体姿态类别后，进行置信度计算，计算方法为：

，

其中，Xi是人体骨架数据经过神经网络计算所获得的类别向量，是类别总数，/>是Xi预测类别下标的值。

8.基于自适应联合时空图卷积的虚拟现实交互系统，其特征在于，包括姿态识别端和虚拟现实端；

9.如权利要求8所述的基于自适应联合时空图卷积的虚拟现实交互系统，其特征在于，所述姿态识别端，还被配置为：所述结合人体骨架图结构，构建自适应图机制，为每个动作学习一套相应的骨架图结构，并聚合不同视频帧的相同节点的邻居信息，得到自适应时空骨架图，包括：

10.如权利要求8所述的基于自适应联合时空图卷积的虚拟现实交互系统，其特征在于，所述姿态识别端，还被配置为：在得到人体姿态类别后，进行置信度计算。