CN114550308A - 基于时空图的人体骨骼动作识别方法 - Google Patents
基于时空图的人体骨骼动作识别方法 Download PDFInfo
- Publication number
- CN114550308A CN114550308A CN202210424128.5A CN202210424128A CN114550308A CN 114550308 A CN114550308 A CN 114550308A CN 202210424128 A CN202210424128 A CN 202210424128A CN 114550308 A CN114550308 A CN 114550308A
- Authority
- CN
- China
- Prior art keywords
- space
- information
- time
- data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010586 diagram Methods 0.000 title claims abstract description 94
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000009471 action Effects 0.000 title claims abstract description 32
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 49
- 238000013075 data extraction Methods 0.000 claims abstract description 14
- 238000000605 extraction Methods 0.000 claims abstract description 14
- 238000011176 pooling Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 abstract description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 230000009286 beneficial effect Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空图的人体骨骼动作识别方法,包括以下步骤:S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。本发明设计了时空图模块引入Transformer结构,可以更好捕捉若干帧内全局的时空关系,利用其注意力机制自适应的学习跨帧节点间关联性的强度,并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充,从而使得信息能够直接的跨时空交流。
Description
技术领域
本发明属于计算视觉及深度识别技术领域,具体涉及基于时空图的人体骨骼动作识别方法。
背景技术
动作识别是计算机视觉领域的一个重要细分领域, 在智能安防、人机交互、视频检索分类、虚拟现实、视频监控等领域有着广阔的应用前景. 而基于骨骼数据的动作识别方法在复杂背景和动态场景下具有很强的鲁棒性, 因此受到了很大的关注.
早期基于骨骼数据的动作识别模型采用手工提取特征的方法. 因为其效果不理想存在计算复杂度高、泛化能力弱等问题, 所以引入深度学习方法。目前基于深度学习的动作识别方法的研究已经成为主流. 而深度学习方法主要可以分为三类:基于卷积神经网(Convolutional Neural Network, CNN)、基于递归神经网络(Recurrent NeuralNetwork, RNN)和基于图神经网络(Graph Convolutional Network, GCN). 基于CNN的方法将骨骼数据按照人工设计的规则构建为伪图像; 基于RNN的方法是将骨骼数据构建为骨骼点坐标向量序列. 然而,人体骨骼本身就是拓扑图结构, 构建为伪图像和向量序列并不能充分表示出图结构的丰富信息, 这些方法的缺点是都忽略了人体骨骼点间的内在依赖关系. 基于GCN的方法能直接处理骨骼数据这类图结构信息,能充分发掘骨骼点间的内在依赖关系,因此基于GCN的方法成为当下该领域的研究热点。
发明内容
针对现有技术中的上述不足,本发明提供的基于时空图的人体骨骼动作识别方法解决了现有的人体骨骼动作识别方法无法使节点信息直接跨时空交流以至难以有效捕捉复杂动作的动态时空特征的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于时空图的人体骨骼动作识别方法,包括以下步骤:
S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。
进一步地:所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、将时空图每帧中相互连接的节点构成骨骼边,通过计算相连接的两节点位置得到骨骼边信息。
上述进一步方案的有益效果为:将骨骼数据处理成三种二阶数据信息有利于多分支网络提取骨骼数据的结构信息。
进一步地:所述步骤S11中,构建时空图的方法具体为:
以骨骼数据的关节点作为节点,进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点,构建时空图;其中,R为三维矩阵,C为通道数,T为骨骼数据的总帧数,V为节点集,且,v ti 为骨骼数据第t帧中第i节点,U为骨骼数据的第t帧中的关节点的总数。
进一步地:所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块(GCN)、时间卷积模块(TCN)和时空点注意力模块(ATT)。
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
其中,所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵;R为三维矩阵,C为通道数;每个分支网络的输出结果表示形式具体为,D为每个所述分支网络输出数据的通道数;骨骼数据提取信息的表示形式具体为。
上述进一步方案的有益效果为:多分支网络结构用于融合输入的二阶数据信息,能够提取更为丰富的骨骼数据结构信息以提高最终动作识别准确率,还可以大大降低整个模型的复杂度。
进一步地:所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块;
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。
进一步地:所述时空图模块包括并行的跨时空子模块和图卷积子模块;所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:
SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息。
进一步地:所述步骤SA1包括以下分步骤:
式中,Transformer(·)为Transformer编码公式,n为特征图的序号;
上述进一步方案的有益效果为:时空图模块通过跨时空子模块捕捉缺失的全局跨时空特征信息,并通过图卷积子模块捕捉局部的空间关系,最后通过相加混合局部特征和全局特征,达到捕捉更为丰富的时空特征关系。
进一步地:所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为:
SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y 1和输出特征Y 2;
SB2、将输出特征Y 1和输出特征Y 2进行特征融合,得到输出特征Z;
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
上述进一步方案的有益效果为:本发明提出了多尺度混合自卷积模块来替代原始的标准卷积,以此进一步增强模型对动态时空信息的捕捉能力,本发明使用了多尺度自卷积的方法,并使用了注意力特征融合来弥补自卷积不能通道间交互信息的影响。
进一步地:所述步骤S4具体为:
将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。
本发明的有益效果为:
(1)本发明设计了时空图模块引入Transformer结构,可以更好捕捉若干帧内全局的时空关系,利用其注意力机制自适应的学习跨帧节点间关联性的强度,并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充,从而使得信息能够直接的跨时空交流。
(2)本发明提出多尺度混合自卷积模块捕捉在时域上关节点的长期上下文依赖关系的方法,该方法在两个不同的大小的自卷积核上构建连续帧间的时间依赖关系,并使用特征融合的方式融合这两个尺度的时间消息。这个方法可以明显的降低参数量加并有效的捕捉时间相关性。
(3)本发明提出了的整体网络模型更为轻量,使用多分支网络不同于现有的方法如2sgcn在最后阶段融合分支特征。本发明的多分支网络在输入前就进行融合输入多分支网络的特征信息,大大降低了网络模型的复杂度。在更小参数量的情况下实现更高的准确率,综合性能优于现有的方法。
附图说明
图1为一种基于时空图的人体骨骼动作识别方法的流程图。
图2为本发明的整体网络示意图。
图3为跨时空子模块获取全局跨时空特征信息的示意图。
图4为多尺度混合自卷积模块(MSHI)获取时空特征信息的示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于时空图的人体骨骼动作识别方法,包括以下步骤:
S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。
所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、将时空图每帧中相互连接的节点构成骨骼边,通过计算相连接的两节点位置得到骨骼边信息。
在本实施例中,时空图的每个节点的信息由坐标参数和置信度组成,通过计算相连接的两节点的坐标参数可以得到骨骼边信息。
所述步骤S11中,构建时空图的方法具体为:
构建的时空图,以骨骼数据的关节点作为节点,进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点,将骨骼数据构造成时空图,V为节点集,且,v ti 为骨骼数据第t帧中第i节点,U为骨骼数据的第t帧中的关节点的总数。边集包含两个子集, 由单帧内人体自然结构的自然连接而成,由骨骼数据不同帧间对应关节点的连接而成,同时根据规则将图映射成伪图像的形式,将骨骼数据构建为时空图;其中,R为三维矩阵,C为通道数,T为骨骼数据的总帧数,V为节点集。
实施例2:
本实施例针对本发明中的多分支网络结构;
如图2所示,所述多分支网络结构包含两层STGCN子网络,第一层STGCN子网络的通道数为64,第二层STGCN子网络的通道数为48。
所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块(GCN)、时间卷积模块(TCN)和时空点注意力模块(ATT);
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
其中,所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵;R为三维矩阵,C为通道数;每个分支网络的输出结果表示形式具体为,D为每个所述分支网络输出数据的通道数;骨骼数据提取信息的表示形式具体为。
本实施例的有益效果为:本发明的多分支网络结构用于融合输入的二阶数据信息,能够提取更为丰富的骨骼数据结构信息以提高最终动作识别准确率,还可以大大降低整个模型的复杂度。
本发明的多分支网络结构中的每个分支包括相互连接的STGCN子网络,每个STGCN子网络均由经典ST-GCN模块和时空点注意力模块构成,经典ST-GCN模块包括图卷积模块和时间卷积模块;通过经典ST-GCN模块将骨骼数据构成的二阶数据信息的人体结构,在空间维度上使用图卷积模块在聚合空间信息,在时间维度上使用时间卷积模块聚合时间信息。通过交错堆叠上述两模块以达到学习时空信息。
实施例3:
本实施例针对时空特征提取网络的具体结构:
现有的方法都是先使用各类图卷积方法提取空间特征,再使用标准卷积(TCN)提取时间特征,如此循环堆叠以达到提取时空特征的效果。这种方法使得信息并不能直接的跨时空交流,而对动作识别来说跨帧节点间的直接时空依赖是十分重要的。为了解决上述问题,本发明使用时空图模块(STT)以实现直接跨帧节点间的时空特性。
如图2所示,时空特征提取网络包含三层STGT子网络,第一层STGT子网络的通道数为32,第二层STGT子网络的通道数为64,第三层STGT子网络的通道数为68。
所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块(STT)、多尺度混合自卷积模块(MSHI)和时空点注意力模块(ATT);
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。
如图2所示,所述时空图模块包括并行的跨时空子模块(TT)和图卷积子模块(GCN);所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:
SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息。
在本实施例中,时空图模块通过跨时空子模块捕捉缺失的全局跨时空特征信息,并通过图卷积子模块捕捉局部的空间关系,最后通过相加混合局部特征和全局特征,达到捕捉更为丰富的时空特征关系。
跨时空子模块获取全局跨时空特征信息的方法如图3所示,所述步骤SA1包括以下分步骤:
式中,Transformer(·)为Transformer编码公式,n为特征图的序号;
在本实施例中,时空图模块可以提取节点集和边集的局部空间关系,通过节点集和边集表示时空图,其中,边集包括第一子集和第二子集,第一子集由单帧内人体自然结构的自然连接而成,第二子集由骨骼数据不同帧间对应关节点的连接而成;
如图4所示,所述多尺度混合自卷积模块(MSHI)提取输入数据中连续帧间节点的上下文特征信息方法具体为:
SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y 1和输出特征Y 2;
SB2、将输出特征Y 1和输出特征Y 2进行特征融合,得到输出特征Z;
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
受限于标准卷积对获取关节点的长期上下文依赖关系不足。对此,本发明进一步提出了多尺度混合自卷积模块(MSHI) 来替代原始N*1的标准卷积,以此进一步增强模型对动态时空信息的捕捉能力,本发明使用了多尺度自卷积的方法,并使用了注意力特征融合来弥补自卷积不能通道间交互信息的影响。
所述步骤S4具体为:
将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。
在本实施例中,全局平均池化层和全连接层的通道数为128。
本发明方法的实施过程为:由人体姿态估计算法或深度摄像头获取骨骼数据,并根据骨骼数据构建时空图得到二阶数据信息,将二阶数据信息输入多分支网络,提取骨骼数据的二阶数据信息中更为丰富的结构信息,得到骨骼数据提取信息,将骨骼数据提取信息输入时空特征提取网络,时空特征提取网络设置三个依次连接的STGT子网络,通过其中的时空图模块和多尺度混合自卷积模块获取骨骼数据提取信息的混合时空特征信息和连续帧间节点的上下文特征信息,进一步提取骨骼数据的时空特征关系,得到骨骼数据的时空特征信息。将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,经过全局池化得到128维的特征向量,将其输入到全连接层降维动作类别数(60类或120类),将其中的动作类别置信度最高的作为识别结果。
为了验证本发明的技术效果,在相同条件下,与基准模型EfficientGCN-B0( 1ststage)进行对比实验。在只使用时空图模块时,本发明的方案提升了0.9%。在只使用多尺度混合自卷积模块的方法时,本发明的方案提升了0.8%。同时使用两个模块时,本发明模型的准确率提升了1.4%,达到了90.4%。在Xsub数据集上,相比于基于骨骼动作识别中经典ST-GCN模块,本发明的方法在其参数量1/7的情况下准确率提升了8.9%;对于最早的多流方法2s-GCN同样参数量缩小至1/15但准确率提升了2%。相比于目前的最好的方法MS-G3D,本发明的结果也处于同一水平,略低一点,但本发明整体网络结构的复杂度却远远低于MS-G3D的结构。相比SOTA方法,本发明更好实现了在平衡模型准确率和复杂度的权衡,表现的更为高效,其综合性能优于基于骨骼的动作识别现有的所有方法。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。
Claims (9)
1.一种基于时空图的人体骨骼动作识别方法,其特征在于,包括以下步骤:
S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。
2.根据权利要求1所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、将时空图每帧中相互连接的节点构成骨骼边,通过计算相连接的两节点位置得到骨骼边信息。
4.根据权利要求3所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块、时间卷积模块和时空点注意力模块;
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
5.根据权利要求4所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块;
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。
6.根据权利要求5所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述时空图模块包括并行的跨时空子模块和图卷积子模块;所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:
SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息。
7.根据权利要求6所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤SA1包括以下分步骤:
式中,Transformer(·)为Transformer编码公式,n为特征图的序号;
8.根据权利要求5所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为:
SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y 1和输出特征Y 2;
SB2、将输出特征Y 1和输出特征Y 2进行特征融合,得到输出特征Z;
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
9.根据权利要求1所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S4具体为:
将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424128.5A CN114550308B (zh) | 2022-04-22 | 2022-04-22 | 基于时空图的人体骨骼动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210424128.5A CN114550308B (zh) | 2022-04-22 | 2022-04-22 | 基于时空图的人体骨骼动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114550308A true CN114550308A (zh) | 2022-05-27 |
CN114550308B CN114550308B (zh) | 2022-07-05 |
Family
ID=81667348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210424128.5A Active CN114550308B (zh) | 2022-04-22 | 2022-04-22 | 基于时空图的人体骨骼动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114550308B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862150A (zh) * | 2023-01-06 | 2023-03-28 | 吉林大学 | 一种基于三维人体蒙皮的潜水员动作识别方法 |
CN117690190A (zh) * | 2024-01-31 | 2024-03-12 | 吉林大学 | 基于超图文本对比的水下动作识别方法、系统及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846348A (zh) * | 2018-06-07 | 2018-11-20 | 四川大学 | 一种基于三维骨骼特征的人体行为识别方法 |
CN109299702A (zh) * | 2018-10-15 | 2019-02-01 | 常州大学 | 一种基于深度时空图的人体行为识别方法及系统 |
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
CN110796110A (zh) * | 2019-11-05 | 2020-02-14 | 西安电子科技大学 | 一种基于图卷积网络的人体行为识别方法及系统 |
CN111476155A (zh) * | 2020-04-07 | 2020-07-31 | 南京邮电大学 | 基于时空图卷积神经网络与特征融合的人体动作分类方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
US20200394499A1 (en) * | 2019-06-12 | 2020-12-17 | Sri International | Identifying complex events from hierarchical representation of data set features |
CN112395945A (zh) * | 2020-10-19 | 2021-02-23 | 北京理工大学 | 基于骨骼关节点的图卷积行为识别方法及装置 |
CN113657349A (zh) * | 2021-09-01 | 2021-11-16 | 重庆邮电大学 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
CN113963202A (zh) * | 2021-10-19 | 2022-01-21 | 郑州大学 | 一种骨骼点动作识别方法、装置、电子设备及存储介质 |
CN113963435A (zh) * | 2021-10-07 | 2022-01-21 | 哈尔滨理工大学 | 一种基于图卷积神经网络的人体行为识别系统 |
CN113963201A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 骨骼动作识别方法、装置、电子设备及存储介质 |
CN114187653A (zh) * | 2021-11-16 | 2022-03-15 | 复旦大学 | 一种基于多流融合图卷积网络的行为识别方法 |
-
2022
- 2022-04-22 CN CN202210424128.5A patent/CN114550308B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846348A (zh) * | 2018-06-07 | 2018-11-20 | 四川大学 | 一种基于三维骨骼特征的人体行为识别方法 |
CN109299702A (zh) * | 2018-10-15 | 2019-02-01 | 常州大学 | 一种基于深度时空图的人体行为识别方法及系统 |
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
US20200394499A1 (en) * | 2019-06-12 | 2020-12-17 | Sri International | Identifying complex events from hierarchical representation of data set features |
CN110796110A (zh) * | 2019-11-05 | 2020-02-14 | 西安电子科技大学 | 一种基于图卷积网络的人体行为识别方法及系统 |
CN111476155A (zh) * | 2020-04-07 | 2020-07-31 | 南京邮电大学 | 基于时空图卷积神经网络与特征融合的人体动作分类方法 |
CN111476181A (zh) * | 2020-04-13 | 2020-07-31 | 河北工业大学 | 一种人体骨架动作的识别方法 |
CN112395945A (zh) * | 2020-10-19 | 2021-02-23 | 北京理工大学 | 基于骨骼关节点的图卷积行为识别方法及装置 |
CN113657349A (zh) * | 2021-09-01 | 2021-11-16 | 重庆邮电大学 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
CN113963435A (zh) * | 2021-10-07 | 2022-01-21 | 哈尔滨理工大学 | 一种基于图卷积神经网络的人体行为识别系统 |
CN113963201A (zh) * | 2021-10-18 | 2022-01-21 | 郑州大学 | 骨骼动作识别方法、装置、电子设备及存储介质 |
CN113963202A (zh) * | 2021-10-19 | 2022-01-21 | 郑州大学 | 一种骨骼点动作识别方法、装置、电子设备及存储介质 |
CN114187653A (zh) * | 2021-11-16 | 2022-03-15 | 复旦大学 | 一种基于多流融合图卷积网络的行为识别方法 |
Non-Patent Citations (4)
Title |
---|
CHIARA PLIZZARI, 等: "Spatial Temporal Transformer Network for Skeleton-Based Action Recognition", 《INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 * |
HUIFAN WAN,等: "Spatial Graph Convolutional and Temporal Involution Network for Skeleton-based Action Recognition", 《ACM TURC》 * |
MAOSEN LI,等: "Actional-Structural Graph Convolutional Networks for Skeleton-Based Action Recognition", 《2019 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
郑诗雨: "基于自适应时空融合图卷积网络的人体动作识别方法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115862150A (zh) * | 2023-01-06 | 2023-03-28 | 吉林大学 | 一种基于三维人体蒙皮的潜水员动作识别方法 |
CN117690190A (zh) * | 2024-01-31 | 2024-03-12 | 吉林大学 | 基于超图文本对比的水下动作识别方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114550308B (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115049936B (zh) | 一种面向高分遥感影像的边界增强型语义分割方法 | |
CN111462282B (zh) | 一种场景图生成方法 | |
CN106127684B (zh) | 基于双向递归卷积神经网络的图像超分辨率增强方法 | |
CN114550308B (zh) | 基于时空图的人体骨骼动作识别方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN112395945A (zh) | 基于骨骼关节点的图卷积行为识别方法及装置 | |
CN112488241B (zh) | 一种基于多粒度融合网络的零样本图片识别方法 | |
CN110544297A (zh) | 一种单幅图像的三维模型重建方法 | |
CN112884758B (zh) | 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统 | |
CN112967178B (zh) | 一种图像转换方法、装置、设备及存储介质 | |
CN113033570A (zh) | 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法 | |
CN111695523B (zh) | 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法 | |
CN112651360B (zh) | 一种小样本下骨架动作识别方法 | |
CN108090472A (zh) | 基于多通道一致性特征的行人重识别方法及其系统 | |
CN110135460A (zh) | 基于vlad卷积模块的图像信息强化方法 | |
CN112862015A (zh) | 一种基于超图神经网络的论文分类方法及系统 | |
CN110008819A (zh) | 一种基于图卷积神经网络的人脸表情识别方法 | |
Yue et al. | IENet: Internal and external patch matching ConvNet for web image guided denoising | |
CN113052254A (zh) | 多重注意力幽灵残差融合分类模型及其分类方法 | |
CN116030498A (zh) | 面向虚拟服装走秀的三维人体姿态估计方法 | |
CN115841438A (zh) | 基于改进gan网络的红外图像与可见光图像融合方法 | |
CN115546888A (zh) | 一种基于身体部位分组的对称语义图卷积姿态估计方法 | |
CN112508181A (zh) | 一种基于多通道机制的图池化方法 | |
CN116912804A (zh) | 一种高效的无锚框3-d目标检测及跟踪方法及模型 | |
CN116681592A (zh) | 基于多尺度自适应非局部注意力网络的图像超分辨率方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |