CN114821799B - 基于时空图卷积网络的动作识别方法、装置和设备 - Google Patents

基于时空图卷积网络的动作识别方法、装置和设备 Download PDF

Info

Publication number
CN114821799B
CN114821799B CN202210504340.2A CN202210504340A CN114821799B CN 114821799 B CN114821799 B CN 114821799B CN 202210504340 A CN202210504340 A CN 202210504340A CN 114821799 B CN114821799 B CN 114821799B
Authority
CN
China
Prior art keywords
topological structure
human body
structure diagram
space
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210504340.2A
Other languages
English (en)
Other versions
CN114821799A (zh
Inventor
李清
李婷伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202210504340.2A priority Critical patent/CN114821799B/zh
Publication of CN114821799A publication Critical patent/CN114821799A/zh
Application granted granted Critical
Publication of CN114821799B publication Critical patent/CN114821799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种基于时空图卷积网络的动作识别方法、装置和设备。该方法包括:获取目标对象的动作数据,根据动作数据生成多个尺度的拓扑结构图,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据;基于每一时空图卷积网络层,根据预设的卷积参数,对拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息;根据各特征信息,确定动作数据的动作类别;这个过程中,实现了动作数据的时间特征和空间特征的同时提取,保持了时间特征和空间特征的一致性,并且构造了不同尺度的拓扑结构图,可以获得更加丰富的特征信息,提高了动作识别的准确性。

Description

基于时空图卷积网络的动作识别方法、装置和设备
技术领域
本申请涉及动作识别领域,尤其涉及一种基于时空图卷积网络的动作识别方法、装置和设备。
背景技术
人体动作识别是一个热点问题,广泛应用在安防、教育、娱乐等行业。目前常见的动作识别是基于人体骨架数据进行的,基于人体骨架数据的动作识别方法可以分为手工构造特征方法和深度学习方法,基于深度学习的方法从精确度上优于基于手工设计特征的方法。
现有技术中,深度学习方法进行动作识别可以分为三类:循环神经网络(Recurrent Neural Network,简称RNN)将动作数据处理为一组时间序列,以获取动作在时间上的变化特征,根据动作在时间上的变化特征对动作进行识别;卷积神经网络(Convolution Neural Network,简称CNN)将动作数据处理为一张图片,以获得动作在空间上的变化特征,根据动作在空间上的变化特征对动作进行识别;图卷积网络(GraphConvolution Network,简称GCN)将人体看作由关节点连接成的若干张图结构,通过构造合适的卷积核对节点卷积获得动作空间特征,再经过一层时间卷积网络获得时间特征,进而根据动作在时间、空间上的变化特征对动作进行识别。
然而现有技术中,不能同时提取动作数据的时间特征和空间特征,不能保持时间特征和空间特征的一致性,并且不能获取到动作数据中没有直接相连的关节间点的空间特征,进而不能实现对动作类别的准确识别。
发明内容
本申请提供一种基于时空图卷积网络的动作识别方法、装置和设备,用以解决对动作数据的识别准确度低的问题。
第一方面,本申请提供一种基于时空图卷积网络的动作识别方法,所述时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,所述方法包括:
获取目标对象的动作数据,并根据所述动作数据生成拓扑结构图组,其中,所述拓扑结构图组中包括多个尺度的拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,所述人体关节点集合中包括每一人体关节点的时序数据;
基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,其中,所述特征信息包括所述拓扑结构图组中每一拓扑结构图的特征矩阵,拓扑结构图的特征矩阵包括所述拓扑结构图中每一人体关节点的时间特征和空间特征;
根据各所述特征信息,确定所述动作数据的动作类别。
在可选的一种实施方式中,所述拓扑结构图组包括全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图;获取目标对象的动作数据,并根据所述动作数据生成拓扑结构图组,包括:
获取目标对象的动作数据,并识别提取所述动作数据中的人体骨架数据;
确定所述人体骨架数据中的人体关节点,并选取不同的人体关节点,构造全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图。
在可选的一种实施方式中,选取不同的人体关节点,构造全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图,包括:
选取人体所有关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定全局尺度拓扑结构图;选取人体四肢和躯干中自由度大于预设自由度阈值的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定所述躯干尺度拓扑结构图;选取人体末端的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定所述核心尺度拓扑结构图。
在可选的一种实施方式中,所述全局尺度拓扑结构图用于获取所述动作数据的细节特征,所述躯干尺度拓扑结构图用于获取所述动作数据的局部特征,所述核心尺度拓扑结构图用于获取所述动作数据的全局特征;基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,包括:
基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图的每一人体关节点进行卷积处理和聚合处理,提取每一拓扑结构图中每一人体关节点的时间特征和空间特征,并对每一拓扑结构图中各人体关节点的时间特征和空间特征进行激活和归一化处理,确定每一拓扑结构图的特征矩阵;
对各拓扑结构图的特征矩阵进行特征融合处理,输出与每一时空图卷积网络层对应的特征信息,其中,所述特征融合处理包括特征拼接、特征相加以及集成学习方法中的一种或多种。
在可选的一种实施方式中,基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图的每一人体关节点进行卷积处理和聚合处理,提取每一拓扑结构图中每一人体关节点的时间特征和空间特征,包括:
根据每一拓扑结构图中的人体关节连接关系矩阵,获取所述拓扑结构图中的每一关节点的关联关节点集合,其中,所述关联关节点集合中的每一关节点都与对应的关节点具有空间关联关系;
根据预设卷积参数对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征。
在可选的一种实施方式中,所述方法还包括:
获取所述目标对象的动作视频,对所述动作视频进行预处理,生成预设个数的动作帧;
根据所述预设个数的动作帧,确定所述目标对象的动作数据。
第二方面,本申请提供一种基于时空图卷积网络的动作识别装置,所述时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,所述装置包括:
第一处理单元,用于获取目标对象的动作数据,并根据所述动作数据生成拓扑结构图组,其中,所述拓扑结构图组中包括多个尺度的拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,所述人体关节点集合中包括每一人体关节点的时序数据;
第二处理单元,用于基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,其中,所述特征信息包括所述拓扑结构图组中每一拓扑结构图的特征矩阵,拓扑结构图的特征矩阵包括所述拓扑结构图中每一人体关节点的时间特征和空间特征;
确定单元,用于根据各所述特征信息,确定所述动作数据的动作类别。
第三方面,本申请提供一种电子设备,所述电子设备包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行如第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的方法。
第五方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面所述的方法。
本申请提供的基于时空图卷积网络的动作识别方法、装置和设备,通过以下步骤:获取目标对象的动作数据,并根据动作数据生成拓扑结构图组,其中,拓扑结构图组中包括多个尺度的拓扑结构图,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据;基于每一时空图卷积网络层,根据预设的卷积参数,对拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息;根据各特征信息,确定动作数据的动作类别;这个过程中,实现了动作数据的时间特征和空间特征的同时提取,保持了时间特征和空间特征的一致性,并且构造了不同尺度的拓扑结构图,可以获得更加丰富的特征信息,提高了动作识别的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种基于时空图卷积网络的动作识别方法的流程图;
图2为本申请实施例提供的基于时空图卷积网络的动作识别方法的原理示意图;
图3为本申请实施例提供的另一种基于时空图卷积网络的动作识别方法的流程图;
图4a为本申请实施例提供的全局尺度拓扑结构图关节点示意图;
图4b为本申请实施例提供的躯干尺度拓扑结构图关节点示意图;
图4c为本申请实施例提供的核心尺度拓扑结构图关节点示意图;
图5为本申请实施例提供的一种基于时空图卷积网络的动作识别装置的结构示意图;
图6为本申请实施例提供的另一种基于时空图卷积网络的动作识别装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图;
图8是根据一示例性实施例示出的一种终端设备的框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
随着计算机应用技术的不断发展,动作识别已经广泛地应用于体育、游戏、电影、医疗仿真或动作技能培训等领域。例如,应用于体育、动作技能培训行业中:用户穿戴或持有智能可穿戴设备运动时,可穿戴设备采集到用户的运动数据并将其传送至智能终端中,智能终端对运动数据进行识别分析后,获取到用户运动时的位置和姿态信息等,从而可以为用户提供运动分析、动作指导。目前常见的动作识别是基于人体骨架数据进行的,基于人体骨架数据的动作识别方法可以分为手工构造特征方法和深度学习方法,而基于深度学习的方法从精确度上优于基于手工设计特征的方法。
现有技术中,深度学习方法进行动作识别可以分为三类:RNN将动作数据处理为一组时间序列,以获取动作在时间上的变化特征,根据动作在时间上的变化特征对动作进行识别;CNN将动作数据处理为一张图片,以获得动作在空间上的变化特征,根据动作在空间上的变化特征对动作进行识别;GCN将人体看作由关节点连接成的若干张图结构,通过构造合适的卷积核对节点卷积获得动作空间特征,再经过一层时间卷积网络获得时间特征,进而根据动作在时间、空间上的变化特征对动作进行识别。
然而现有技术中,RNN方法虽然能够获得关节点在时间维度上的相关性,但是无法很好地获得关节点内部的空间相关性,并且RNN方法在参数训练和参数调优上比较困难;CNN方法这种提取空间特征的方法固化了节点间的关系,只有节点相邻才能获得二者之间的空间特征;GCN逐帧进行卷积获取空间特征再逐节点获取时间特征的方式忽略了时间特征和空间特征的相依性。并且现有方法中,其节点之间关系反映的是人体关节点的物理结构关系,而动作的空间特征也存在于无物理关系的关节点之间,例如拍手动作,两只手关节点物理不相连,但是手之间的关系对于动作识别非常关键,因此现有技术不能实现对动作的准确识别。
本申请提供的基于时空图卷积网络的动作识别方法,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1为本申请实施例提供的一种基于时空图卷积网络的动作识别方法的流程图,时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,如图1所示,该方法包括:
101、获取目标对象的动作数据,并根据动作数据生成拓扑结构图组,其中,拓扑结构图组中包括多个尺度的拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据。
示例性地,获取目标对象的动作数据,例如动作图像、动作视频等,根据动作数据生成感受野大小不同的多个尺度的拓扑结构图,即拓扑结构图组,其中,每一拓扑结构图都由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据。
一个示例中,拓扑图可表示为G=(V,A),其中V为人体关节点集合,A为人体关节点连接关系矩阵,矩阵X={x}N*D表示人体关节点集合V的特征,其中N表示人体关节点数量,D表示每个人体关节点的特征数,即特征向量的维度,集合V中元素特征为Xv={x}D
102、基于每一时空图卷积网络层,根据预设的卷积参数,对拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,其中,特征信息包括拓扑结构图组中每一拓扑结构图的特征矩阵,拓扑结构图的特征矩阵包括拓扑结构图中每一人体关节点的时间特征和空间特征。
示例性地,基于时空图卷积网络中的每一时空图卷积网络层,根据每一时空图卷积网络层中预设的卷积参数,例如3×1卷积核,以及每一时空图卷积网络层各自的通道设置,对拓扑结构图组中每一拓扑结构图进行图卷积处理,得到每一拓扑结构图中每一人体关节点在不同维度下的时间特征和空间特征,构成每一拓扑结构图的特征矩阵,进而输出与每一时空图卷积网络层对应的特征信息。
一个示例中,时空卷积网络中包括有10层时空卷积网络层,其中前四层的时空卷积网络层的通道数设置为64;中间三层时空卷积网络层的通道数为128,后三层时空卷积网络层的通道数256。并且该时空卷积网络中,特征通道数翻一倍时,时间维度下采样2倍。
一个示例中,关节点的特征维度也可以表示为C×T,节点集V特征可以表示为X={x}N*C*T,N表示节点集节点数量,C是通道数,T为预设帧数,卷积过程中,任一节点V的特征表示为Xv={x}C×T
103、根据各特征信息,确定动作数据的动作类别。
示例性地,对每一时空图卷积网络层输出的特征信息进行全局池化处理并进行全连接处理,确定动作数据的类别分数,进而确定动作数据的动作类别。
一个示例中,图2为本申请实施例提供的基于时空图卷积网络的动作识别方法的原理示意图,首先根据待处理图像生成拓扑结构图组,基于时空卷积网络层对拓扑结构图组中的每一拓扑结构图进行图卷积处理、激活处理以及归一化处理,输出与每一时空图卷积网络层对应的特征信息,再对每一时空图卷积网络层输出的特征信息进行全局池化处理并进行全连接处理,确定动作数据的类别分数,进而确定动作数据的动作类别。
本实施例中,通过以下步骤:获取目标对象的动作数据,并根据动作数据生成拓扑结构图组,其中,拓扑结构图组中包括多个尺度的拓扑结构图,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据;基于每一时空图卷积网络层,根据预设的卷积参数,对拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息;根据各特征信息,确定动作数据的动作类别;这个过程中,实现了动作数据的时间特征和空间特征的同时提取,保持了时间特征和空间特征的一致性,并且构造了不同尺度的拓扑结构图,可以获得更加丰富的特征信息,提高了动作识别的准确性。
图3为本申请实施例提供的另一种基于时空图卷积网络的动作识别方法的流程图,时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,如图3所示,该方法包括:
201、获取目标对象的动作视频,对动作视频进行预处理,生成预设个数的动作帧。
示例性地,获取目标对象的动作视频,在输入时空图卷积网络之前,对动作视频进行预处理,生成预设个数的动作帧,例如将动作帧数调整为300帧,对缺失的动作帧进行预测补充,对多余的动作帧进行删除。
202、根据预设个数的动作帧,确定目标对象的动作数据。
示例性地,将预设个数的动作帧,确定为目标对象的动作数据,并将目标对象的动作数据输入到时空图卷积网络。
203、获取目标对象的动作数据,并识别提取动作数据中的人体骨架数据。
示例性地,时空图卷积网络获取目标对象的动作数据,并识别提取动作数据中的人体骨架数据。
一个示例中,每个人体关节点以关节的位置坐标表示,坐标可以为视频中的二维坐标也可以为真实空间下固定坐标系的三维坐标。
204、确定人体骨架数据中的人体关节点,并选取不同的人体关节点,生成拓扑结构图组,其中,拓扑结构图组中包括构造全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据。
一个示例中,步骤204包括以下步骤:
选取人体所有关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定全局尺度拓扑结构图;选取人体四肢和躯干中自由度大于预设自由度阈值的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定躯干尺度拓扑结构图;选取人体末端的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定核心尺度拓扑结构图。
一个示例中,图4a为本申请实施例提供的全局尺度拓扑结构图关节点示意图;图4b为本申请实施例提供的躯干尺度拓扑结构图关节点示意图;图4c为本申请实施例提供的核心尺度拓扑结构图关节点示意图。
一个示例中,全局尺度拓扑结构图用于获取动作数据的细节特征,躯干尺度拓扑结构图用于获取动作数据的局部特征,核心尺度拓扑结构图用于获取动作数据的全局特征。
示例性地,从识别的动作数据中的人体骨架数据中提取不同的人体关节点,构造具有不同感受野大小的不同尺度的拓扑结构图,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据。不同尺度的拓扑结构图包括全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图。其中,选取人体所有关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定全局尺度拓扑结构图,用于获取动作数据的细节特征;选取人体四肢和躯干中自由度大于预设自由度阈值的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定躯干尺度拓扑结构图,用于获取动作数据的局部特征;选取人体末端的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定核心尺度拓扑结构图,用于获取动作数据的全局特征。
205、根据每一拓扑结构图中的人体关节连接关系矩阵,获取拓扑结构图中的每一关节点的关联关节点集合,其中,关联关节点集合中的每一关节点都与对应的关节点具有空间关联关系。
示例性地,根据每一拓扑结构图中的人体关节连接关系矩阵,获取拓扑结构图中的每一关节点的关联关节点集合,其中,关联关节点集合中的每一关节点都与对应的关节点具有空间关联关系。
一个示例中,根据每一拓扑结构图中的人体关节连接关系矩阵A,获取拓扑结构图中的每一关节点的关联关节点集合,可以由下式表示:
Nv={nj|nj∈S(Xv,h)}
其中,S(Xv,h)是采样函数,Xv表示人体关节点v的特征,h为1时,表示一阶邻域,即与人体关节点v直接相连的人体关节点,采样函数用于获得与人体关节点v相关的k个人体关节点,也就是A中第v行不为0的对应的人体关节点集合,即获得关联关节点集合Nv
206、根据预设卷积参数对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征;并对每一拓扑结构图中各人体关节点的时间特征和空间特征进行激活和归一化处理,确定每一拓扑结构图的特征矩阵。
示例性地,根据预设卷积参数,例如3×1卷积核,根据卷积核中的参数,对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征;并对每一拓扑结构图中各人体关节点的时间特征和空间特征进行激活和归一化处理,确定每一拓扑结构图的特征矩阵。
一个示例中,对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征的过程,可以表达为以下公式:
其中,Fi是一个映射函数,对关联关节点集合Nv中的关节点j进行映射计算,输出关节点V的关联关节点集合Nv的特征向量,W(j)代表卷积参数,Fi(Nj)×w(j)表示卷积计算过程,表示聚合计算过程。
207、对各拓扑结构图的特征矩阵进行特征融合处理,输出与每一时空图卷积网络层对应的特征信息,其中,特征融合处理包括特征拼接、特征相加以及集成学习方法中的一种或多种。
示例性地,每一时空图卷积网络层对全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图的特征矩阵进行特征融合处理,输出与每一时空图卷积网络层对应的特征信息,其中,特征融合处理包括特征拼接、特征相加以及集成学习方法中的一种或多种。
208、根据各特征信息,确定动作数据的动作类别。
示例性地,本步骤参见步骤103,不再赘述。
本实施例中,通过识别人体骨架数据,选取不同的关节点构造了全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图,丰富了动作数据不同尺度的特征信息,并且根据预设卷积参数对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征,可以获取到动作数据中没有直接相连的关节间点的空间特征,提高了动作识别的准确性。
图5为本申请实施例提供的一种基于时空图卷积网络的动作识别装置的结构示意图,时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,如图5所示,该装置包括:
第一处理单元31,用于获取目标对象的动作数据,并根据动作数据生成拓扑结构图组,其中,拓扑结构图组中包括多个尺度的拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,人体关节点集合中包括每一人体关节点的时序数据。
第二处理单元32,用于基于每一时空图卷积网络层,根据预设的卷积参数,对拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,其中,特征信息包括拓扑结构图组中每一拓扑结构图的特征矩阵,拓扑结构图的特征矩阵包括拓扑结构图中每一人体关节点在不同维度下的时间特征和空间特征。
确定单元33,用于根据各特征信息,确定动作数据的动作类别。
图6为本申请实施例提供的另一种基于时空图卷积网络的动作识别装置的结构示意图,时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,在图5所示实施例的基础上,如图6所示,该装置包括:
一个示例中,拓扑结构图组包括全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图;第一处理单元31包括:
获取子单元311,用于获取目标对象的动作数据,并识别提取动作数据中的人体骨架数据。
第一处理子单元312,用于确定人体骨架数据中的人体关节点,并选取不同的人体关节点,构造全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图。
一个示例中,第一处理子单元312具体用于:
选取人体所有关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定全局尺度拓扑结构图;选取人体四肢和躯干中自由度大于预设自由度阈值的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定躯干尺度拓扑结构图;选取人体末端的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定核心尺度拓扑结构图。
一个示例中,全局尺度拓扑结构图用于获取动作数据的细节特征,躯干尺度拓扑结构图用于获取动作数据的局部特征,核心尺度拓扑结构图用于获取动作数据的全局特征;第二处理单元32包括:
第二处理子单元321,用于基于每一时空图卷积网络层,根据预设的卷积参数,对拓扑结构图组中每一拓扑结构图的每一人体关节点进行卷积处理和聚合处理,提取每一拓扑结构图中每一人体关节点的时间特征和空间特征,并对每一拓扑结构图中各人体关节点的时间特征和空间特征进行激活和归一化处理,确定每一拓扑结构图的特征矩阵。
第三处理子单元322,用于对各拓扑结构图的特征矩阵进行特征融合处理,输出与每一时空图卷积网络层对应的特征信息,其中,特征融合处理包括特征拼接、特征相加以及集成学习方法中的一种或多种。
一个示例中,第二处理子单元321具体用于:
根据每一拓扑结构图中的人体关节连接关系矩阵,获取拓扑结构图中的每一关节点的关联关节点集合,其中,关联关节点集合中的每一关节点都与对应的关节点具有空间关联关系。
根据预设卷积参数对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征。
一个示例中,该装置还包括:
第三处理单元41,用于获取目标对象的动作视频,对动作视频进行预处理,生成预设个数的动作帧。
第四处理单元42,用于根据预设个数的动作帧,确定目标对象的动作数据。
图7为本申请实施例提供的一种电子设备的结构示意图,如图7所示,电子设备包括:存储器51,处理器52。
存储器51;用于存储处理器52可执行指令的存储器。
其中,处理器52被配置为执行如上述实施例提供的方法。
图8是根据一示例性实施例示出的一种终端设备的框图,该设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800的打开/关闭状态,组件的相对定位,例如组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本申请实施例还提供了一种非临时性计算机可读存储介质,当该存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述实施例提供的方法。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (8)

1.一种基于时空图卷积网络的动作识别方法,其特征在于,所述时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,所述方法包括:
获取目标对象的动作数据,并根据所述动作数据生成拓扑结构图组,其中,所述拓扑结构图组中包括多个尺度的拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,所述人体关节点集合中包括每一人体关节点的时序数据;
基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,其中,所述特征信息包括所述拓扑结构图组中每一拓扑结构图的特征矩阵,拓扑结构图的特征矩阵包括所述拓扑结构图中每一人体关节点的时间特征和空间特征;
根据各所述特征信息,确定所述动作数据的动作类别;
所述拓扑结构图组包括全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图;获取目标对象的动作数据,并根据所述动作数据生成拓扑结构图组,包括:
获取目标对象的动作数据,并识别提取所述动作数据中的人体骨架数据;
确定所述人体骨架数据中的人体关节点,并选取不同的人体关节点,构造全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图;
选取不同的人体关节点,构造全局尺度拓扑结构图、躯干尺度拓扑结构图以及核心尺度拓扑结构图,包括:
选取人体所有关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定全局尺度拓扑结构图;选取人体四肢和躯干中自由度大于预设自由度阈值的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定所述躯干尺度拓扑结构图;选取人体末端的关节点构成人体关节点集合,并根据人体骨骼连接关系确定人体关节连接关系矩阵,确定所述核心尺度拓扑结构图。
2.根据权利要求1所述的方法,其特征在于,所述全局尺度拓扑结构图用于获取所述动作数据的细节特征,所述躯干尺度拓扑结构图用于获取所述动作数据的局部特征,所述核心尺度拓扑结构图用于获取所述动作数据的全局特征;基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,包括:
基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图的每一人体关节点进行卷积处理和聚合处理,提取每一拓扑结构图中每一人体关节点的时间特征和空间特征,并对每一拓扑结构图中各人体关节点的时间特征和空间特征进行激活和归一化处理,确定每一拓扑结构图的特征矩阵;
对各拓扑结构图的特征矩阵进行特征融合处理,输出与每一时空图卷积网络层对应的特征信息,其中,所述特征融合处理包括特征拼接、特征相加以及集成学习方法中的一种或多种。
3.根据权利要求2所述的方法,其特征在于,基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图的每一人体关节点进行卷积处理和聚合处理,提取每一拓扑结构图中每一人体关节点的时间特征和空间特征,包括:
根据每一拓扑结构图中的人体关节连接关系矩阵,获取所述拓扑结构图中的每一关节点的关联关节点集合,其中,所述关联关节点集合中的每一关节点都与对应的关节点具有空间关联关系;
根据预设卷积参数对每一关联关节点集合中的关节点进行卷积处理和聚合处理,获取对应关节点的时间特征和空间特征。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
获取所述目标对象的动作视频,对所述动作视频进行预处理,生成预设个数的动作帧;
根据所述预设个数的动作帧,确定所述目标对象的动作数据。
5.一种基于时空图卷积网络的动作识别装置,所述基于时空图卷积网络的动作识别装置用于执行上述权利要求1-4任一项所述的方法,其特征在于,所述时空图卷积网络包括预设个数的时空图卷积网络层,部分时空图卷积网络层特征通道数不同,所述装置包括:
第一处理单元,用于获取目标对象的动作数据,并根据所述动作数据生成拓扑结构图组,其中,所述拓扑结构图组中包括多个尺度的拓扑结构图,不同尺度的拓扑结构图具有不同大小的感受野,每一拓扑结构图由人体关节点集合和人体关节点连接关系矩阵构成,所述人体关节点集合中包括每一人体关节点的时序数据;
第二处理单元,用于基于每一时空图卷积网络层,根据预设的卷积参数,对所述拓扑结构图组中每一拓扑结构图进行图卷积处理,输出与每一时空图卷积网络层对应的特征信息,其中,所述特征信息包括所述拓扑结构图组中每一拓扑结构图的特征矩阵,拓扑结构图的特征矩阵包括所述拓扑结构图中每一人体关节点的时间特征和空间特征;
确定单元,用于根据各所述特征信息,确定所述动作数据的动作类别。
6.一种电子设备,其特征在于,所述电子设备包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-4任一项所述的方法。
8.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法。
CN202210504340.2A 2022-05-10 2022-05-10 基于时空图卷积网络的动作识别方法、装置和设备 Active CN114821799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210504340.2A CN114821799B (zh) 2022-05-10 2022-05-10 基于时空图卷积网络的动作识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210504340.2A CN114821799B (zh) 2022-05-10 2022-05-10 基于时空图卷积网络的动作识别方法、装置和设备

Publications (2)

Publication Number Publication Date
CN114821799A CN114821799A (zh) 2022-07-29
CN114821799B true CN114821799B (zh) 2024-08-09

Family

ID=82513136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210504340.2A Active CN114821799B (zh) 2022-05-10 2022-05-10 基于时空图卷积网络的动作识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN114821799B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797841B (zh) * 2022-12-12 2023-08-18 南京林业大学 基于自适应时空图注意力Transformer网络的四足动物行为识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统
CN112380955A (zh) * 2020-11-10 2021-02-19 浙江大华技术股份有限公司 动作的识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197116B (zh) * 2019-04-15 2023-05-23 深圳大学 一种人体行为识别方法、装置和计算机可读存储介质
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN113657349B (zh) * 2021-09-01 2023-09-15 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统
CN112380955A (zh) * 2020-11-10 2021-02-19 浙江大华技术股份有限公司 动作的识别方法及装置

Also Published As

Publication number Publication date
CN114821799A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN113569797B (zh) 关键点检测方法及装置、电子设备和存储介质
CN108121952B (zh) 人脸关键点定位方法、装置、设备及存储介质
CN109670397B (zh) 人体骨骼关键点的检测方法、装置、电子设备及存储介质
US20210117726A1 (en) Method for training image classifying model, server and storage medium
WO2020224479A1 (zh) 目标的位置获取方法、装置、计算机设备及存储介质
CN107832836B (zh) 无模型深度增强学习探索方法及装置
WO2021253777A1 (zh) 姿态检测及视频处理方法、装置、电子设备和存储介质
CN111368796B (zh) 人脸图像的处理方法、装置、电子设备及存储介质
CN109410276B (zh) 关键点位置确定方法、装置及电子设备
CN107133354B (zh) 图像描述信息的获取方法及装置
CN112115894B (zh) 手部关键点检测模型的训练方法、装置及电子设备
CN111178298A (zh) 人体关键点检测方法、装置、电子设备及存储介质
CN110929616B (zh) 一种人手识别方法、装置、电子设备和存储介质
CN114067085A (zh) 一种虚拟对象的显示方法及装置、电子设备和存储介质
CN114821799B (zh) 基于时空图卷积网络的动作识别方法、装置和设备
CN114581525A (zh) 姿态确定方法及装置、电子设备和存储介质
CN112767541B (zh) 三维重建方法及装置、电子设备和存储介质
CN112259122B (zh) 音频类型识别方法、装置及存储介质
CN113553946A (zh) 信息提示方法及装置、电子设备和存储介质
CN111046780A (zh) 神经网络训练及图像识别方法、装置、设备和存储介质
CN115035596B (zh) 行为检测的方法及装置、电子设备和存储介质
CN110765943A (zh) 网络训练、识别方法及装置、电子设备和存储介质
CN114898039A (zh) 三维模型构建方法、装置、电子设备及存储介质
CN112784700B (zh) 人脸图像显示的方法、装置及存储介质
US11308702B2 (en) Method and apparatus for displaying an image, electronic device and computer-readable storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant