CN117409483A - 基于自适应联合时空图卷积的虚拟现实交互方法及系统 - Google Patents
基于自适应联合时空图卷积的虚拟现实交互方法及系统 Download PDFInfo
- Publication number
- CN117409483A CN117409483A CN202311705047.3A CN202311705047A CN117409483A CN 117409483 A CN117409483 A CN 117409483A CN 202311705047 A CN202311705047 A CN 202311705047A CN 117409483 A CN117409483 A CN 117409483A
- Authority
- CN
- China
- Prior art keywords
- adaptive
- time
- space
- skeleton diagram
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 138
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000003993 interaction Effects 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims description 61
- 230000003044 adaptive effect Effects 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 23
- 230000002776 aggregation Effects 0.000 claims description 21
- 238000004220 aggregation Methods 0.000 claims description 21
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000004931 aggregating effect Effects 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 210000000988 bone and bone Anatomy 0.000 claims description 3
- 238000006116 polymerization reaction Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明属于虚拟现实交互技术领域,提供了基于自适应联合时空图卷积的虚拟现实交互方法及系统,其使用RGB摄像头作为感知源,通过骨架估计算法实时提取人体骨架,提出了一种自适应图机制,替换原有骨架图,使得骨架图可以跟网络参数一同优化,提升了全局准确率,提出了一种跨时空的联合图卷积方法,跨时空聚合节点信息,提升识别准确率并降低网络参数量使实时化可行。
Description
技术领域
本发明属于虚拟现实交互技术领域,尤其涉及基于自适应联合时空图卷积的虚拟现实交互方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
虚拟现实技术利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟。随着人工智能技术的发展,虚拟现实设备可以通过人工神经网络实时感知人类意图,实现人与虚拟世界的交互行为。
当前人类与虚拟现实技术交互通常需要使用手部辅助设备感知人体姿态。随着计算机计算水平的提高,外部设备也被应用与感知人体姿态,例如传感器和摄像头。与使用辅助设备相比,减少了外部设备的使用增加了用户对虚拟现实技术的沉浸感。
但目前基于摄像头进行虚拟现实与人类交互的方法还面临一些挑战。与传感器和外部设备相比,摄像头更加容易部署且成本较低,但识别能力和识别精度相对较低。人体骨架数据相对于单纯图像更能体现人体姿态的细节,并且对周围环境具有天然的鲁棒性。
现有的基于图卷积神经网络的骨架人体动作识别方法利用骨架的结构特性,将骨架构建为图数据结构,通过图卷积神经网络提取聚合相邻关节点之间的特征,获取人类动作。当前基于图神经卷积网络的骨架人体动作识别方法分开提取骨架时空关系,这忽略了跨时空关系导致部分动作难以被区别。此外,现有方法由于网络层数过深导致实时性较差,难以应用于现实场景。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供基于自适应联合时空图卷积的虚拟现实交互方法及系统,其使用RGB摄像头作为感知源,通过骨架估计算法实时提取人体骨架,提出了一种自适应图机制,替换原有骨架图,使得骨架图可以跟网络参数一同优化,提升了全局准确率,提出了一种跨时空的联合图卷积方法,跨时空聚合节点信息,提升识别准确率并降低网络参数量使实时化可行。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供基于自适应联合时空图卷积的虚拟现实交互方法,包括如下步骤:
根据获取的视频流数据构建人体骨架图结构;
基于人体骨架图结构和训练后的人体姿态识别网络得到人体姿态类别;其中,所述人体姿态识别网络的构建过程包括:
结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应骨架图;
基于自适应骨架图,采用图卷积神经网络对时间和空间维度特征联合聚合,得到时空联合聚合表示,根据时空联合聚合表示识别得到人体姿态类别;
根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹,基于该待响应运动轨迹做出动作,完成虚拟现实互动。
进一步地,所述根据获取的视频流数据构建人体骨架图结构,包括:
将人体的骨架表示为图数据结构,其中顶点集/>表示人体骨骼中的每个关节点,/>是骨骼图中所有关节点的数目,边集/>表示关节点之间的骨骼,骨骼图的邻接矩阵/>的计算公式为:如果节点/>和节点/>之间存在链接,则/>,否则为0。
进一步地,所述结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应时空骨架图,包括:
根据每个动作的人体骨架图结构,建立关节点之间的额外链接,得到第一矩阵;
学习每个动作视频流数据相应的人体骨架图结构,衡量任意两个节点之间是否存在链接以及对应的链接强度,得到第二矩阵;
结合人体骨架图结构邻接矩阵、第一矩阵和第二矩阵得到自适应的时空骨架图的邻接矩阵。
进一步地,所述衡量任意两个节点之间是否存在链接以及对应的链接强度采用归一化的高斯函数衡量。
进一步地,所述图卷积神经网络的构建过程为:
获取所有帧自适应骨架图的邻接矩阵;
将自适应骨架图应用于自适应骨架图的邻接矩阵中,得到自适应的时空骨架图的邻接矩阵;
基于自适应的时空骨架图的邻接矩阵构建自适应学习时空图,选择性地聚合𝜏帧内的连接邻域,得到时间窗口的自适应联合图卷积。
进一步地,所述采用图卷积神经网络对时间和空间维度特征联合聚合时,具体包括:每个图卷积神经网络包括多个自适应时空联合图卷积块,每个自适应时空联合图卷积块包括一个自适应时空联合图卷积网络和一个时间卷积网络,通过自适应时空联合图卷积网络提取时空联合特征,随后输入时间卷积网络,对时间层面的特征进一步提取,得到最后的聚合特征向量。
进一步地,在得到人体姿态类别后,进行置信度计算,计算方法为:
,其中,Xi是人体骨架数据经过神经网络计算所获得的类别向量,/>是类别总数,/>是Xi预测类别下标的值。
本发明的第二个方面提供基于自适应联合时空图卷积的虚拟现实交互系统,包括姿态识别端和虚拟现实端;
所述姿态识别端,被配置为:根据获取的视频流数据构建人体骨架图结构;基于人体骨架图结构和训练后的人体姿态识别网络得到姿态类别;其中,所述人体姿态识别网络的构建过程包括:
结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应骨架图;
基于自适应骨架图,采用图卷积神经网络对时间和空间维度特征联合聚合,得到时空联合聚合表示,根据时空联合聚合表示识别得到人体姿态类别;
所述虚拟现实端,被配置为:根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹;基于该待响应运动轨迹做出动作,完成虚拟现实互动。
进一步地,所述姿态识别端,还被配置为:所述结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应时空骨架图,包括:
根据每个动作的人体骨架图结构,建立关节点之间的额外链接,得到第一矩阵;
学习每个动作视频流数据相应的人体骨架图结构,衡量任意两个节点之间是否存在链接以及对应的链接强度,得到第二矩阵;
结合人体骨架图结构邻接矩阵、第一矩阵和第二矩阵得到自适应的时空骨架图的邻接矩阵。
进一步地,所述姿态识别端,还被配置为:在得到人体姿态类别后,进行置信度计算。
与现有技术相比,本发明的有益效果是:
(1)针对现有方法使用大多使用外部设备和传感器的局限性,本发明使用RGB摄像头作为感知源,通过骨架估计算法实时提取人体骨架。
(2)针对现有基于图卷积神经网络的骨架人体动作识别方法部分动作难以被识别的问题,本发明提出了一种自适应图机制,替换原有骨架图,使得骨架图可以跟网络参数一同优化,提升了全局准确率。
(3)针对现有方法层数过深导致实时性较差难以部署至真实场景下的缺点,本发明提出了一种跨时空的联合图卷积方法,跨时空聚合节点信息,提升识别准确率并降低网络参数量使实时化可行。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例提供的基于自适应联合时空图卷积的虚拟现实交互方法流程图;
图2是本发明实施例提供的基于自适应联合时空图卷积的虚拟现实交互系统框图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例提供基于自适应联合时空图卷积的虚拟现实交互方法,包括如下步骤:
步骤1:获取视频数据,基于视频流数据构建骨架图结构,根据骨架图结构建立统一的图结构用于神经网络训练。
所述人体骨架图机构构建具体方法:将人体的骨架表示为图数据结构,其中顶点集/>表示人体骨骼中的每个关节点,/>是骨骼图中所有关节点的数目,边集/>表示关节点之间的骨骼,骨骼图的邻接矩阵/>的计算公式为:如果节点/>和节点/>之间存在链接,则/>,否则为0。
步骤2:构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应骨架图;
所述自适应图机制操作具体为:将骨架图的邻接矩阵替换为自适应邻接矩阵/>,自适应邻接矩阵/>是由/>,/>,/>相加组成,为每个动作学习一套相应的骨架图结构,其中。
其中,部分与原始邻接矩阵/>相同,表示了人体骨骼的原始结构。
部分是一个/>的矩阵,用于建立关节点之间的额外链接;/>矩阵可以通过神经网络进行优化,完全根据输入数据动态调整和学习整个输入骨架图,并通过这种数据驱动的方法为特定动作学习相应的图结构。
为了保证矩阵的每个元素具有梯度,因此/>初始值,本实施中可以取0.03。
未经过训练的情况下,即原始的骨架结构,随着训练进行/>得到优化,得以建立新的连接关系。
部分用于学习每个样本的相应图,通过衡量任意两个节点之间是否存在链接以及链接强度。
本实施例中,使用归一化的高斯函数衡量两个节点之间的链接关系,任意两个关节点之间的高斯函数表示为:
,式中,/>是骨架图的关节点综述,项用于衡量两个节点进行嵌入后的相似度,/>和/>是两个卷积核大小为/>的二维卷积网络用于对关节点进行嵌入操作,分别得到两个维度为/>的嵌入矩阵,/>为嵌入后节点的维度,将其重新排列为/>和/>进行矩阵乘法运算,最后得到维数为/>的节点相似性矩阵,将其归一化后得到矩阵/>。
矩阵的获取方式可以被表示为:/>,其中,/>函数是归一化指数函数,/>是输入的数据,/>和/>分别是嵌入函数/>和/>的权重矩阵。
与直接使用和/>部分替换/>部分相比,使用三部分叠加的自适应图增加了图结构的稳定性和灵活性。
步骤3:采用图卷积神经网络,联合时间和空间进行特征聚合。
传统的基于图神经卷积网络的骨架人体动作识别方法分开提取骨架时空关系,包括:
人体骨架输入为一个矩阵,其中/>是视频流的帧数,/>是骨骼关节点的个数,/>是每个关节点的维度。
对于空间上的图卷积神经网络来说,时刻𝑡上的输入矩阵由邻接矩阵/>标准化,并通过每层的可学习权重矩阵/>聚合邻域信息,其中,/>为当前神经网络的层数。
因此,骨架序列空间上的每一层图卷积神经网络可以表示为:
,其中,/>是/>时刻神经网络第/>层的输出,也是第/>层的输入,/>,/>为原始邻接矩阵,/>为单位矩阵,/>是为了确保图结构同质性,添加了自环的邻接矩阵,/>是原始邻接矩阵/>的度矩阵;/>用来归一化邻接矩阵/>,项,表示聚合整个图中的邻居节点信息,/>表示激活函数,用于对结果的非线性变化。
在时间特征聚合方面,对于输入的骨架序列,使用卷积核为/>的二维卷积神经网络在每个节点聚合时间大小为/>的特征。
上述的聚合方式局限在于时间和空间的分别聚合,仅从时间或空间进行特征聚合,由于受到弱关联冗余信息的影响,所得到的特征将无法捕获序列的高阶特征,这忽略了深层次的时空联合关系。
为了捕获深层次的时空联合关系,本实施例通过基于步骤2得到的自适应骨架图,进行时空特征的联合聚合,具体为:
对于时间窗口的时空骨架图/>,其中/>是/>时间窗口中所有帧的关节点的集合,/>是/>时间窗口中所有帧的节点之间边的集合,对于时空骨架图/>的邻接矩阵/>由单帧的骨架图/>的邻接矩阵/>水平和垂直填充/>次构成。
时空骨架图的邻接矩阵可以表示为:/>;将自适应骨架图应用于时空骨架图的邻接矩阵中,自适应的时空骨架图的邻接矩阵/>可以表示为:;通过构建自适应学习时空图,选择性地聚合/>帧内的强连接邻域,这种聚合是远距离跨越的,可以大大增强每个节点的有效感知域。
在时间窗口的自适应联合图卷积可以被表示为:/>,其中,/>表示/>时刻/>时间窗口下第/>层的输出,也即第/>层的输入,/>是时空骨架图的自适应邻接矩阵,/>是第/>层的权重矩阵。
步骤4:对整个人体姿态识别网络进行构建,基于该人体姿态识别网络对采集的数据集进行训练。
所述自适应联合时空图卷积网络的构建具体操作为:针对骨架结构构建对应的图数据结构建立骨架图,构建自适应图卷积神经网络,其中网络包含6个自适应时空联合图卷积块,每个自适应时空联合图卷积块包含一个自适应时空联合图卷积网络和一个时间卷积网络。通过自适应时空联合图卷积网络将输入的视频数据映射到特征域中,并自适应的提取时空联合特征,随后输入时间卷积网络,对时间层面的特征进一步提取,通过这些操作得到最后的特征向量。
本实施例中,为了捕捉骨架结构的深层信息,在第1、3、5层分别将特征维度提升至96,192,384。经过全局池化层、全连接层和Softmax函数获取最终网络所判断的类别。
所述数据集采集和网络训练具体操作为:利用RGB摄像机拍摄多种类别的物品搬运动作并将视频通过处理算法统一化视频,随后使用骨架提取算法对所采集的视频提取人体骨架信息并进行分类标注,其中所有骨架均包含18个关节点用以后续网络的训练。最后将80%的数据作为训练集,20%的数据作为验证集构建完整的数据集。所有数据使用32的批量大小输入进网络,通过随机梯度下降方法优化网络中的所有可训练参数,优化方法的学习率为0.01,权重衰减为0.003。
步骤5:实时捕捉用户图像并经过骨架提取算法所获取的骨架信息输入至上述训练好的人体姿态识别网络中,实时给出姿态类别。
本实施例中,通过RGB摄像头实时捕捉用户图像。
步骤6:根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹;基于该待响应运动轨迹做出动作,完成虚拟现实互动。
实现虚拟现实与人类交互,虚拟现实系统主机运行订阅者节点,实时接收发布者所提供的虚拟人物手臂移动指令,部署人体姿态识别网络的主机运行发布者节点,根据所识别到的类别计算出虚拟人物手臂轨迹并发布给订阅者节点。虚拟人物接收手臂轨迹做出动作,拿取人类提供的物体完成虚拟现实中人机互动。
步骤7:置信度计算。
为了保证虚拟人物在识别到唯一的人体姿态后不会因其他原因导致识别结果错误,网络在每帧识别过程中对最终结果向量进行置信度计算,置信度计算方式为:
,其中,/>是人体骨架数据经过神经网络计算所获得的类别向量,/>是类别总数,/>是/>预测类别下标的值,因为预测向量/>中可能包含负值,为了保证置信度/>,/>中的负值取绝对值加入到分子。
对于置信度小于阈值的不发送给发布者节点。当有人体姿态被发布者发布时,将不再继续识别人体姿态。
经过实验验证,采用本发明的方法对于典型的8个交互动作的识别准确率均高于82%,单次推理所需时间为5.26ms,准确率和推理时间均优于当前最优方法。
实施例二
参照图2,本实施例提供基于自适应联合时空图卷积的虚拟现实交互系统,包括姿态识别端和虚拟现实端;
所述姿态识别端,被配置为:
获取视频流数据,对视频流数据预处理后,输入至构建好的人体骨架图结构;基于人体骨架图结构和训练后的人体姿态识别网络得到姿态类别;其中,所述人体姿态识别网络的构建过程包括:
结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应骨架图;
基于自适应骨架图,采用图卷积神经网络对时间和空间维度特征联合聚合,得到时空联合聚合表示,根据时空联合聚合表示识别得到人体姿态类别;将人体姿态类别发送到发送者节点,发送者节点计算运动轨迹并广播;
所述虚拟现实端,被配置为:订阅者节点接收轨迹信息,根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹;虚拟人物根据轨迹信息做出动作,完成虚拟现实互动。
所述姿态识别端,还被配置为:所述结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应时空骨架图,包括:
根据每个动作的人体骨架图结构,建立关节点之间的额外链接,得到第一矩阵;
学习每个动作视频流数据相应的人体骨架图结构,衡量任意两个节点之间是否存在链接以及对应的链接强度,得到第二矩阵;
结合人体骨架图结构邻接矩阵、第一矩阵和第二矩阵得到自适应的时空骨架图的邻接矩阵。
所述姿态识别端,还被配置为:在得到人体姿态类别后,进行置信度计算。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,包括如下步骤:
根据获取的视频流数据构建人体骨架图结构;
基于人体骨架图结构和训练后的人体姿态识别网络得到人体姿态类别;其中,所述人体姿态识别网络的构建过程包括:
结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应骨架图;
基于自适应骨架图,采用图卷积神经网络对时间和空间维度特征联合聚合,得到时空联合聚合表示,根据时空联合聚合表示识别得到人体姿态类别;
根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹,基于该待响应运动轨迹做出动作,完成虚拟现实互动。
2.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,所述根据获取的视频流数据构建人体骨架图结构,包括:
将人体的骨架表示为图数据结构,其中顶点集/>表示人体骨骼中的每个关节点,/>是骨骼图中所有关节点的数目,边集/>表示关节点之间的骨骼,骨骼图的邻接矩阵/>的计算公式为:如果节点/>和节点/>之间存在链接,则/>,否则为0。
3.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,所述结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应时空骨架图,包括:
根据每个动作的人体骨架图结构,建立关节点之间的额外链接,得到第一矩阵;
学习每个动作视频流数据相应的人体骨架图结构,衡量任意两个节点之间是否存在链接以及对应的链接强度,得到第二矩阵;
结合人体骨架图结构邻接矩阵、第一矩阵和第二矩阵得到自适应的时空骨架图的邻接矩阵。
4.如权利要求3所述的基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,所述衡量任意两个节点之间是否存在链接以及对应的链接强度采用归一化的高斯函数衡量。
5.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,所述图卷积神经网络的构建过程为:
获取所有帧自适应骨架图的邻接矩阵;
将自适应骨架图应用于自适应骨架图的邻接矩阵中,得到自适应的时空骨架图的邻接矩阵;
基于自适应的时空骨架图的邻接矩阵构建自适应学习时空图,选择性地聚合𝜏帧内的连接邻域,得到时间窗口的自适应联合图卷积。
6.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,所述采用图卷积神经网络对时间和空间维度特征联合聚合时,具体包括:每个图卷积神经网络包括多个自适应时空联合图卷积块,每个自适应时空联合图卷积块包括一个自适应时空联合图卷积网络和一个时间卷积网络,通过自适应时空联合图卷积网络提取时空联合特征,随后输入时间卷积网络,对时间层面的特征进一步提取,得到最后的聚合特征向量。
7.如权利要求1所述的基于自适应联合时空图卷积的虚拟现实交互方法,其特征在于,在得到人体姿态类别后,进行置信度计算,计算方法为:
,
其中,Xi是人体骨架数据经过神经网络计算所获得的类别向量,是类别总数,/>是Xi预测类别下标的值。
8.基于自适应联合时空图卷积的虚拟现实交互系统,其特征在于,包括姿态识别端和虚拟现实端;
所述姿态识别端,被配置为:根据获取的视频流数据构建人体骨架图结构;基于人体骨架图结构和训练后的人体姿态识别网络得到姿态类别;其中,所述人体姿态识别网络的构建过程包括:
结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应骨架图;
基于自适应骨架图,采用图卷积神经网络对时间和空间维度特征联合聚合,得到时空联合聚合表示,根据时空联合聚合表示识别得到人体姿态类别;
所述虚拟现实端,被配置为:根据识别得到的人体姿态类别计算出虚拟人物的待响应运动轨迹;基于该待响应运动轨迹做出动作,完成虚拟现实互动。
9.如权利要求8所述的基于自适应联合时空图卷积的虚拟现实交互系统,其特征在于,所述姿态识别端,还被配置为:所述结合人体骨架图结构,构建自适应图机制,为每个动作学习一套相应的骨架图结构,并聚合不同视频帧的相同节点的邻居信息,得到自适应时空骨架图,包括:
根据每个动作的人体骨架图结构,建立关节点之间的额外链接,得到第一矩阵;
学习每个动作视频流数据相应的人体骨架图结构,衡量任意两个节点之间是否存在链接以及对应的链接强度,得到第二矩阵;
结合人体骨架图结构邻接矩阵、第一矩阵和第二矩阵得到自适应的时空骨架图的邻接矩阵。
10.如权利要求8所述的基于自适应联合时空图卷积的虚拟现实交互系统,其特征在于,所述姿态识别端,还被配置为:在得到人体姿态类别后,进行置信度计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311705047.3A CN117409483B (zh) | 2023-12-13 | 2023-12-13 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311705047.3A CN117409483B (zh) | 2023-12-13 | 2023-12-13 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117409483A true CN117409483A (zh) | 2024-01-16 |
CN117409483B CN117409483B (zh) | 2024-06-07 |
Family
ID=89496495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311705047.3A Active CN117409483B (zh) | 2023-12-13 | 2023-12-13 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117409483B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463837A (zh) * | 2021-12-28 | 2022-05-10 | 山东师范大学 | 基于自适应时空卷积网络的人体行为识别方法及系统 |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN115100574A (zh) * | 2022-07-19 | 2022-09-23 | 电子科技大学长三角研究院(衢州) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 |
US11495055B1 (en) * | 2021-11-10 | 2022-11-08 | Huazhong University Of Science And Technology | Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network |
CN116343334A (zh) * | 2023-03-27 | 2023-06-27 | 青岛科技大学 | 融合关节捕捉的三流自适应图卷积模型的动作识别方法 |
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116959094A (zh) * | 2023-04-07 | 2023-10-27 | 河海大学 | 一种基于时空图卷积网络的人体行为识别方法 |
-
2023
- 2023-12-13 CN CN202311705047.3A patent/CN117409483B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11495055B1 (en) * | 2021-11-10 | 2022-11-08 | Huazhong University Of Science And Technology | Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network |
CN114463837A (zh) * | 2021-12-28 | 2022-05-10 | 山东师范大学 | 基于自适应时空卷积网络的人体行为识别方法及系统 |
CN114882421A (zh) * | 2022-06-01 | 2022-08-09 | 江南大学 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
CN115100574A (zh) * | 2022-07-19 | 2022-09-23 | 电子科技大学长三角研究院(衢州) | 基于融合图卷积网络与Transformer网络的动作识别方法及系统 |
CN116343334A (zh) * | 2023-03-27 | 2023-06-27 | 青岛科技大学 | 融合关节捕捉的三流自适应图卷积模型的动作识别方法 |
CN116959094A (zh) * | 2023-04-07 | 2023-10-27 | 河海大学 | 一种基于时空图卷积网络的人体行为识别方法 |
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
Non-Patent Citations (2)
Title |
---|
Y. ZHU等: "Structure Learning of CP-nets Based on Constraint and Scoring Search", 2020 13TH INTERNATIONAL CONGRESS ON IMAGE AND SIGNAL PROCESSING, BIOMEDICAL ENGINEERING AND INFORMATICS, 25 November 2020 (2020-11-25) * |
王新恒;王倩云;王佳杰;赵国锋;靳文强;: "RW-MC:基于随机游走的自适应矩阵填充算法", 通信学报, no. 09, 25 September 2017 (2017-09-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN117409483B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
Tao et al. | Spatial information inference net: Road extraction using road-specific contextual information | |
CN110728209B (zh) | 一种姿态识别方法、装置、电子设备及存储介质 | |
CN110135249B (zh) | 基于时间注意力机制和lstm的人体行为识别方法 | |
WO2022000420A1 (zh) | 人体动作识别方法、人体动作识别系统及设备 | |
CN111985343A (zh) | 一种行为识别深度网络模型的构建方法及行为识别方法 | |
CN114582030B (zh) | 一种基于服务机器人的行为识别方法 | |
CN107301376B (zh) | 一种基于深度学习多层刺激的行人检测方法 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN106650617A (zh) | 一种基于概率潜在语义分析的行人异常识别方法 | |
CN113516005B (zh) | 一种基于深度学习和姿态估计的舞蹈动作评价系统 | |
CN112464844A (zh) | 一种基于深度学习与运动目标检测的人体行为动作识别方法 | |
CN113221663A (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN111898566B (zh) | 姿态估计方法、装置、电子设备和存储介质 | |
CN111353447A (zh) | 一种基于图卷积网络的人体骨架行为识别方法 | |
WO2024060978A1 (zh) | 关键点检测模型训练及虚拟角色驱动的方法和装置 | |
CN113312973A (zh) | 一种手势识别关键点特征提取方法及系统 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN110335299A (zh) | 一种基于对抗网络的单目深度估计系统实现方法 | |
CN113792712A (zh) | 动作识别方法、装置、设备及存储介质 | |
CN112446253A (zh) | 一种骨架行为识别方法及装置 | |
CN115018999A (zh) | 一种多机器人协作的稠密点云地图构建方法及装置 | |
Pang et al. | Dance video motion recognition based on computer vision and image processing | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
Du | The computer vision simulation of athlete’s wrong actions recognition model based on artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |