CN114550308B - 基于时空图的人体骨骼动作识别方法 - Google Patents

基于时空图的人体骨骼动作识别方法 Download PDF

Info

Publication number
CN114550308B
CN114550308B CN202210424128.5A CN202210424128A CN114550308B CN 114550308 B CN114550308 B CN 114550308B CN 202210424128 A CN202210424128 A CN 202210424128A CN 114550308 B CN114550308 B CN 114550308B
Authority
CN
China
Prior art keywords
space
information
time
data
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210424128.5A
Other languages
English (en)
Other versions
CN114550308A (zh
Inventor
邹茂扬
万辉帆
潘光晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202210424128.5A priority Critical patent/CN114550308B/zh
Publication of CN114550308A publication Critical patent/CN114550308A/zh
Application granted granted Critical
Publication of CN114550308B publication Critical patent/CN114550308B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于时空图的人体骨骼动作识别方法,包括以下步骤:S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。本发明设计了时空图模块引入Transformer结构,可以更好捕捉若干帧内全局的时空关系,利用其注意力机制自适应的学习跨帧节点间关联性的强度,并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充,从而使得信息能够直接的跨时空交流。

Description

基于时空图的人体骨骼动作识别方法
技术领域
本发明属于计算视觉及深度识别技术领域,具体涉及基于时空图的人体骨骼动作识别方法。
背景技术
动作识别是计算机视觉领域的一个重要细分领域, 在智能安防、人机交互、视频检索分类、虚拟现实、视频监控等领域有着广阔的应用前景。 而基于骨骼数据的动作识别方法在复杂背景和动态场景下具有很强的鲁棒性, 因此受到了很大的关注。
早期基于骨骼数据的动作识别模型采用手工提取特征的方法。因为其效果不理想存在计算复杂度高、泛化能力弱等问题, 所以引入深度学习方法。目前基于深度学习的动作识别方法的研究已经成为主流。 而深度学习方法主要可以分为三类:基于卷积神经网(Convolutional Neural Network, CNN)、基于递归神经网络(Recurrent NeuralNetwork,RNN)和基于图神经网络(Graph Convolutional Network, GCN)。 基于CNN的方法将骨骼数据按照人工设计的规则构建为伪图像;基于RNN的方法是将骨骼数据构建为骨骼点坐标向量序列。 然而, 人体骨骼本身就是拓扑图结构,构建为伪图像和向量序列并不能充分表示出图结构的丰富信息,这些方法的缺点是都忽略了人体骨骼点间的内在依赖关系。基于GCN的方法能直接处理骨骼数据这类图结构信息,能充分发掘骨骼点间的内在依赖关系,因此基于GCN的方法成为当下该领域的研究热点。
发明内容
针对现有技术中的上述不足,本发明提供的基于时空图的人体骨骼动作识别方法解决了现有的人体骨骼动作识别方法无法使节点信息直接跨时空交流以至难以有效捕捉复杂动作的动态时空特征的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于时空图的人体骨骼动作识别方法,包括以下步骤:
S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。
进一步地:所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、将时空图每帧中相互连接的节点构成骨骼边,通过计算相连接的两节点位置得到骨骼边信息。
上述进一步方案的有益效果为:将骨骼数据处理成三种二阶数据信息有利于多分支网络提取骨骼数据的结构信息。
进一步地:所述步骤S11中,构建时空图的方法具体为:
以骨骼数据的关节点作为节点,进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点,构建时空图
Figure 949685DEST_PATH_IMAGE001
;其中,R为三维矩阵,C为通道数,T为骨骼数据的总帧数,V为节点集,且
Figure 899186DEST_PATH_IMAGE002
v ti 为骨骼数据第t帧中第i节点,U为骨骼数据的第t帧中的关节点的总数。
进一步地:所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块(GCN)、时间卷积模块(TCN)和时空点注意力模块(ATT)。
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
其中,所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵
Figure 785103DEST_PATH_IMAGE003
R为三维矩阵,C为通道数;每个分支网络的输出结果表示形式具体为
Figure 376621DEST_PATH_IMAGE004
D为每个所述分支网络输出数据的通道数;骨骼数据提取信息的表示形式具体为
Figure 415116DEST_PATH_IMAGE005
上述进一步方案的有益效果为:多分支网络结构用于融合输入的二阶数据信息,能够提取更为丰富的骨骼数据结构信息以提高最终动作识别准确率,还可以大大降低整个模型的复杂度。
进一步地:所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块;
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。
进一步地:所述时空图模块包括并行的跨时空子模块和图卷积子模块;所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:
SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息。
进一步地:所述步骤SA1包括以下分步骤:
SA11、将输入数据通过1*1的标准卷积进行特征映射到高维空间,得到第一特征图
Figure 535518DEST_PATH_IMAGE006
其中,第一特征图
Figure 174310DEST_PATH_IMAGE007
SA12、将特征图
Figure 38361DEST_PATH_IMAGE008
在时间维度进行分割展开成N个第二特征图,得到第二特征图
Figure 636089DEST_PATH_IMAGE009
其中,第二特征图
Figure 317606DEST_PATH_IMAGE010
Figure 53481DEST_PATH_IMAGE011
为第二特征图中包括的帧数;
SA13、将每个第二特征图进行展平并转置,得到第三特征图
Figure 596589DEST_PATH_IMAGE012
其中,第三特征图
Figure 468730DEST_PATH_IMAGE013
,且
Figure 321148DEST_PATH_IMAGE014
为第三特征图的所有帧中包含的节点数;
SA14、通过Transformer编码公式捕捉第三特征图的跨时空关系,得到第四特征图
Figure 544319DEST_PATH_IMAGE015
其中,得到第四特征图
Figure 124074DEST_PATH_IMAGE016
的表达式具体为:
Figure 116301DEST_PATH_IMAGE017
式中,Transformer(·)为Transformer编码公式,n为特征图的序号;
SA15、将第四特征图
Figure 139620DEST_PATH_IMAGE018
合并,得到第五特征图
Figure 584508DEST_PATH_IMAGE019
,并将第五特征图通过1*1的标准卷积进行跨通道信息交互,得到输入数据的全局跨时空特征信息;
所述步骤SA2中,通过图卷积子模块提取输入数据的局部空间结构信息
Figure 469419DEST_PATH_IMAGE020
的表达式具体为:
Figure 581731DEST_PATH_IMAGE021
式中,
Figure 510373DEST_PATH_IMAGE022
为输入数据的第t帧内第i节点,
Figure 708136DEST_PATH_IMAGE023
为输入特性向量,
Figure 898202DEST_PATH_IMAGE024
为输出特性向量,
Figure 599442DEST_PATH_IMAGE025
为包含
Figure 698985DEST_PATH_IMAGE026
节点的邻居节点集,
Figure 384044DEST_PATH_IMAGE027
为映射函数,
Figure 610757DEST_PATH_IMAGE028
为权值函数,
Figure 432083DEST_PATH_IMAGE029
为邻居节点集的总数。
上述进一步方案的有益效果为:时空图模块通过跨时空子模块捕捉缺失的全局跨时空特征信息,并通过图卷积子模块捕捉局部的空间关系,最后通过相加混合局部特征和全局特征,达到捕捉更为丰富的时空特征关系。
进一步地:所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为:
SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y 1和输出特征Y 2
其中,所述输出特征
Figure 233686DEST_PATH_IMAGE030
,输出特征
Figure 140462DEST_PATH_IMAGE031
SB2、将输出特征Y 1和输出特征Y 2进行特征融合,得到输出特征Z
其中,输出特征
Figure 403822DEST_PATH_IMAGE032
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
其中,得到局部通道注意力
Figure 345233DEST_PATH_IMAGE033
的方法具体为:
通过1*1的标准卷积将输出特征Z的通道数降为
Figure 786579DEST_PATH_IMAGE034
,再通过1*1的标准卷积将输出特征Z的通道数升为C,得到局部通道注意力
Figure 180651DEST_PATH_IMAGE035
得到全局特征通道注意力
Figure 749166DEST_PATH_IMAGE036
的方法具体为:
将输出特征Z进行全局平均池化,得到中间特征,通过1*1的标准卷积将中间特征的通道数降为
Figure 545084DEST_PATH_IMAGE034
,再通过1*1的标准卷积将中间特征的通道数升为C,得到全局特征通道注意力
Figure 422910DEST_PATH_IMAGE036
SB4、将局部通道注意力和全局特征通道注意力相加,并通过Sigmoid激活函数得到注意力权重
Figure 304279DEST_PATH_IMAGE037
其中,所述注意力权重
Figure 912371DEST_PATH_IMAGE038
SB5、将输出特征Y 1
Figure 562795DEST_PATH_IMAGE037
逐点相乘,将输出特征Y 2
Figure 611523DEST_PATH_IMAGE039
逐点相乘,进而将两相乘结果相加,得到输入数据的时空特征信息。
上述进一步方案的有益效果为:本发明提出了多尺度混合自卷积模块来替代原始
Figure 980187DEST_PATH_IMAGE040
的标准卷积,以此进一步增强模型对动态时空信息的捕捉能力,本发明使用了多尺度自卷积的方法,并使用了注意力特征融合来弥补自卷积不能通道间交互信息的影响。
进一步地:所述步骤S4具体为:
将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。
本发明的有益效果为:
(1)本发明设计了时空图模块引入Transformer结构,可以更好捕捉若干帧内全局的时空关系,利用其注意力机制自适应的学习跨帧节点间关联性的强度,并且利用图卷积根据固定图结构捕捉局部的空间特征。两者信息相互补充,从而使得信息能够直接的跨时空交流。
(2)本发明提出多尺度混合自卷积模块捕捉在时域上关节点的长期上下文依赖关系的方法,该方法在两个不同的大小的自卷积核上构建连续帧间的时间依赖关系,并使用特征融合的方式融合这两个尺度的时间消息。这个方法可以明显的降低参数量加并有效的捕捉时间相关性。
(3)本发明提出了的整体网络模型更为轻量,使用多分支网络不同于现有的方法如2sgcn在最后阶段融合分支特征。本发明的多分支网络在输入前就进行融合输入多分支网络的特征信息,大大降低了网络模型的复杂度。在更小参数量的情况下实现更高的准确率,综合性能优于现有的方法。
附图说明
图1为一种基于时空图的人体骨骼动作识别方法的流程图。
图2为本发明的整体网络示意图。
图3为跨时空子模块获取全局跨时空特征信息的示意图。
图4为多尺度混合自卷积模块(MSHI)获取时空特征信息的示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1:
如图1所示,在本发明的一个实施例中,一种基于时空图的人体骨骼动作识别方法,包括以下步骤:
S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别。
所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、将时空图每帧中相互连接的节点构成骨骼边,通过计算相连接的两节点位置得到骨骼边信息。
在本实施例中,时空图的每个节点的信息由坐标参数和置信度组成,通过计算相连接的两节点的坐标参数可以得到骨骼边信息。
所述步骤S11中,构建时空图的方法具体为:
构建的时空图,以骨骼数据的关节点作为节点,进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点,将骨骼数据构造成时空图
Figure 890505DEST_PATH_IMAGE041
V为节点集,且
Figure 723332DEST_PATH_IMAGE002
v ti 为骨骼数据第t帧中第i节点,U为骨骼数据的第t帧中的关节点的总数。边集
Figure 818327DEST_PATH_IMAGE042
包含两个子集,
Figure 48189DEST_PATH_IMAGE043
由单帧内人体自然结构的自然连接而成,
Figure 621253DEST_PATH_IMAGE044
由骨骼数据不同帧间对应关节点的连接而成,同时根据规则将图映射成伪图像的形式,将骨骼数据构建为时空图
Figure 370903DEST_PATH_IMAGE001
;其中,R为三维矩阵,C为通道数,T为骨骼数据的总帧数,V为节点集。
在本实施例中,计算节点位置信息
Figure 636799DEST_PATH_IMAGE045
的表达式具体为:
Figure 589843DEST_PATH_IMAGE046
式中,c为中心节点,
Figure 232177DEST_PATH_IMAGE047
为时空图的第i节点位置信息,
Figure 836333DEST_PATH_IMAGE048
为时空图的第c节点位置信息。
计算运动向量信息
Figure 273131DEST_PATH_IMAGE049
的表达式具体为
Figure 203217DEST_PATH_IMAGE050
式中,
Figure 118083DEST_PATH_IMAGE051
为第t+1帧的位置信息,
Figure 842326DEST_PATH_IMAGE052
为第t帧的位置信息。
计算运动向量信息
Figure 450024DEST_PATH_IMAGE053
的表达式具体为:
Figure 377660DEST_PATH_IMAGE054
Figure 96218DEST_PATH_IMAGE055
式中,
Figure 940546DEST_PATH_IMAGE056
为第
Figure 719146DEST_PATH_IMAGE057
节点位置信息,第i节点与第
Figure 632613DEST_PATH_IMAGE057
节点相互连接,第
Figure 154861DEST_PATH_IMAGE057
节点表示与第i节点相邻的节点,
Figure 588117DEST_PATH_IMAGE058
为第i节点与第
Figure 616247DEST_PATH_IMAGE057
节点x轴上的距离,
Figure 377529DEST_PATH_IMAGE059
为第i节点与第
Figure 828102DEST_PATH_IMAGE060
节点y轴上的距离,
Figure 991230DEST_PATH_IMAGE061
为第i节点与第
Figure 488464DEST_PATH_IMAGE057
节点z轴上的距离。
实施例2:
本实施例针对本发明中的多分支网络结构;
如图2所示,所述多分支网络结构包含两层STGCN子网络,第一层STGCN子网络的通道数为64,第二层STGCN子网络的通道数为48。
所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块(GCN)、时间卷积模块(TCN)和时空点注意力模块(ATT);
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
其中,所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵
Figure 2622DEST_PATH_IMAGE003
R为三维矩阵,C为通道数;每个分支网络的输出结果表示形式具体为
Figure 991307DEST_PATH_IMAGE004
D为每个所述分支网络输出数据的通道数;骨骼数据提取信息的表示形式具体为
Figure 8941DEST_PATH_IMAGE005
本实施例的有益效果为:本发明的多分支网络结构用于融合输入的二阶数据信息,能够提取更为丰富的骨骼数据结构信息以提高最终动作识别准确率,还可以大大降低整个模型的复杂度。
本发明的多分支网络结构中的每个分支包括相互连接的STGCN子网络,每个STGCN子网络均由经典ST-GCN模块和时空点注意力模块构成,经典ST-GCN模块包括图卷积模块和时间卷积模块;通过经典ST-GCN模块将骨骼数据构成的二阶数据信息的人体结构,在空间维度上使用图卷积模块在聚合空间信息,在时间维度上使用时间卷积模块聚合时间信息。通过交错堆叠上述两模块以达到学习时空信息。
实施例3:
本实施例针对时空特征提取网络的具体结构:
现有的方法都是先使用各类图卷积方法提取空间特征,再使用标准卷积(TCN)提取时间特征,如此循环堆叠以达到提取时空特征的效果。这种方法使得信息并不能直接的跨时空交流,而对动作识别来说跨帧节点间的直接时空依赖是十分重要的。为了解决上述问题,本发明使用时空图模块(STT)以实现直接跨帧节点间的时空特性。
如图2所示,时空特征提取网络包含三层STGT子网络,第一层STGT子网络的通道数为32,第二层STGT子网络的通道数为64,第三层STGT子网络的通道数为68。
所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块(STT)、多尺度混合自卷积模块(MSHI)和时空点注意力模块(ATT);
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息。
如图2所示,所述时空图模块包括并行的跨时空子模块(TT)和图卷积子模块(GCN);所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:
SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息。
在本实施例中,时空图模块通过跨时空子模块捕捉缺失的全局跨时空特征信息,并通过图卷积子模块捕捉局部的空间关系,最后通过相加混合局部特征和全局特征,达到捕捉更为丰富的时空特征关系。
跨时空子模块获取全局跨时空特征信息的方法如图3所示,所述步骤SA1包括以下分步骤:
SA11、将输入数据通过1*1的标准卷积进行特征映射到高维空间,得到第一特征图
Figure 441191DEST_PATH_IMAGE006
其中,第一特征图
Figure 177065DEST_PATH_IMAGE007
SA12、将特征图
Figure 969441DEST_PATH_IMAGE008
在时间维度进行分割展开成N个第二特征图,得到第二特征图
Figure 107161DEST_PATH_IMAGE009
其中,第二特征图
Figure 208847DEST_PATH_IMAGE010
Figure 166439DEST_PATH_IMAGE011
为第二特征图中包括的帧数;
SA13、将每个第二特征图进行展平并转置,得到第三特征图
Figure 762505DEST_PATH_IMAGE012
其中,第三特征图
Figure 754732DEST_PATH_IMAGE013
,且
Figure 263205DEST_PATH_IMAGE014
为第三特征图的所有帧中包含的节点数;
SA14、通过Transformer编码公式捕捉第三特征图的跨时空关系,得到第四特征图
Figure 973672DEST_PATH_IMAGE015
其中,得到第四特征图
Figure 107850DEST_PATH_IMAGE016
的表达式具体为:
Figure 954583DEST_PATH_IMAGE017
式中,Transformer(·)为Transformer编码公式,n为特征图的序号;
SA15、将第四特征图
Figure 604264DEST_PATH_IMAGE018
合并,得到第五特征图
Figure 661082DEST_PATH_IMAGE019
,并将第五特征图通过1*1的标准卷积进行跨通道信息交互,得到输入数据的全局跨时空特征信息;
所述步骤SA2中,通过图卷积子模块提取输入数据的局部空间结构信息
Figure 474317DEST_PATH_IMAGE020
的表达式具体为:
Figure 316502DEST_PATH_IMAGE021
式中,
Figure 291411DEST_PATH_IMAGE022
为输入数据的第t帧内第i节点,
Figure 101104DEST_PATH_IMAGE023
为输入特性向量,
Figure 452451DEST_PATH_IMAGE024
为输出特性向量,
Figure 116520DEST_PATH_IMAGE025
为包含
Figure 386964DEST_PATH_IMAGE026
节点的邻居节点集,
Figure 293740DEST_PATH_IMAGE027
为映射函数,
Figure 589723DEST_PATH_IMAGE028
为权值函数,其根据映射函数进行分配;
Figure 265555DEST_PATH_IMAGE029
为邻居节点集的总数,用于平衡不同邻居节点的贡献。
在本实施例中,时空图模块可以提取节点集和边集的局部空间关系,通过节点集和边集表示时空图
Figure 972480DEST_PATH_IMAGE041
,其中,边集
Figure 366552DEST_PATH_IMAGE042
包括第一子集
Figure 436533DEST_PATH_IMAGE043
和第二子集
Figure 232451DEST_PATH_IMAGE044
,第一子集
Figure 110277DEST_PATH_IMAGE043
由单帧内人体自然结构的自然连接而成,第二子集
Figure 726066DEST_PATH_IMAGE044
由骨骼数据不同帧间对应关节点的连接而成;
如图4所示,所述多尺度混合自卷积模块(MSHI)提取输入数据中连续帧间节点的上下文特征信息方法具体为:
SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y 1和输出特征Y 2
其中,所述输出特征
Figure 98273DEST_PATH_IMAGE030
,输出特征
Figure 76593DEST_PATH_IMAGE031
SB2、将输出特征Y 1和输出特征Y 2进行特征融合,得到输出特征Z
其中,输出特征
Figure 687DEST_PATH_IMAGE032
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
其中,得到局部通道注意力
Figure 743252DEST_PATH_IMAGE033
的方法具体为:
通过1*1的标准卷积将输出特征Z的通道数降为
Figure 778204DEST_PATH_IMAGE034
,再通过1*1的标准卷积将输出特征Z的通道数升为C,得到局部通道注意力
Figure 407769DEST_PATH_IMAGE033
得到全局特征通道注意力
Figure 502764DEST_PATH_IMAGE036
的方法具体为:
将输出特征Z进行全局平均池化,得到中间特征,通过1*1的标准卷积将中间特征的通道数降为
Figure 968511DEST_PATH_IMAGE034
,再通过1*1的标准卷积将中间特征的通道数升为C,得到全局特征通道注意力
Figure 807154DEST_PATH_IMAGE036
SB4、将局部通道注意力和全局特征通道注意力相加,并通过Sigmoid激活函数得到注意力权重
Figure 822384DEST_PATH_IMAGE037
其中,所述注意力权重
Figure 88280DEST_PATH_IMAGE038
SB5、将输出特征Y 1
Figure 554507DEST_PATH_IMAGE037
逐点相乘,将输出特征Y 2
Figure 259158DEST_PATH_IMAGE039
逐点相乘,进而将两相乘结果相加,得到输入数据的时空特征信息。
受限于标准卷积对获取关节点的长期上下文依赖关系不足。对此,本发明进一步提出了多尺度混合自卷积模块(MSHI) 来替代原始N*1的标准卷积,以此进一步增强模型对动态时空信息的捕捉能力,本发明使用了多尺度自卷积的方法,并使用了注意力特征融合来弥补自卷积不能通道间交互信息的影响。
所述步骤S4具体为:
将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。
在本实施例中,全局平均池化层和全连接层的通道数为128。
本发明方法的实施过程为:由人体姿态估计算法或深度摄像头获取骨骼数据,并根据骨骼数据构建时空图得到二阶数据信息,将二阶数据信息输入多分支网络,提取骨骼数据的二阶数据信息中更为丰富的结构信息,得到骨骼数据提取信息,将骨骼数据提取信息输入时空特征提取网络,时空特征提取网络设置三个依次连接的STGT子网络,通过其中的时空图模块和多尺度混合自卷积模块获取骨骼数据提取信息的混合时空特征信息和连续帧间节点的上下文特征信息,进一步提取骨骼数据的时空特征关系,得到骨骼数据的时空特征信息。将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,经过全局池化得到128维的特征向量,将其输入到全连接层降维动作类别数(60类或120类),将其中的动作类别置信度最高的作为识别结果。
为了验证本发明的技术效果,在相同条件下,与基准模型EfficientGCN-B0( 1ststage)进行对比实验。在只使用时空图模块时,本发明的方案提升了0.9%。在只使用多尺度混合自卷积模块的方法时,本发明的方案提升了0.8%。同时使用两个模块时,本发明模型的准确率提升了1.4%,达到了90.4%。在Xsub数据集上,相比于基于骨骼动作识别中经典ST-GCN模块,本发明的方法在其参数量1/7的情况下准确率提升了8.9%;对于最早的多流方法2s-GCN同样参数量缩小至1/15但准确率提升了2%。相比于目前的最好的方法MS-G3D,本发明的结果也处于同一水平,略低一点,但本发明整体网络结构的复杂度却远远低于MS-G3D的结构。相比SOTA方法,本发明更好实现了在平衡模型准确率和复杂度的权衡,表现的更为高效,其综合性能优于基于骨骼的动作识别现有的所有方法。
在本发明的描述中,需要理解的是,术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此,限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims (3)

1.一种基于时空图的人体骨骼动作识别方法,其特征在于,包括以下步骤:
S1、获取骨骼数据,并对所述骨骼数据进行预处理,得到二阶数据信息;
S2、将二阶数据信息输入多分支网络,得到骨骼数据提取信息;
S3、将骨骼数据提取信息输入时空特征提取网络,得到骨骼数据的时空特征信息;
S4、将骨骼数据的时空特征信息依次输入全局平均池化层和全连接层,得到置信度最高的动作,完成人体骨骼动作识别;
所述步骤S1中,二阶数据信息包括节点位置信息、运动向量信息和骨骼信息;
所述步骤S1包括以下分步骤:
S11、通过人体姿态估计算法或深度摄像头获取骨骼数据,进而根据骨骼数据构建时空图;
S12、将时空图每帧中的节点位置信息减去其中心节点位置信息,得到节点相对位置信息;
S13、将时空图相邻两帧的节点位置信息相减,得到运动向量信息;
S14、基于时空图每帧中相互连接节点构成的骨骼边,通过计算相连接的两节点位置得到骨骼边信息;
所述步骤S2中,多分支网络包括三个并行的分支网络,每个分支网络均包括两个相互连接的STGCN子网络,所述STGCN子网络包括依次连接的图卷积模块、时间卷积模块和时空点注意力模块;
所述步骤S2具体为:将节点位置信息、运动向量信息和骨骼信息一一对应输入三个分支网络中,进而将三个分支网络的输出结果进行拼接,得到骨骼数据提取信息;
其中,所述节点位置信息、运动向量信息和骨骼信息的表示形式具体为时空图的三维矩阵
Figure 509468DEST_PATH_IMAGE001
R为三维矩阵,C为每个所述分支网络输入数据的通道数;每个分支网络的输出结果表示形式具体为
Figure 782186DEST_PATH_IMAGE002
D为每个所述分支网络输出数据的通道数;骨骼数据提取信息的表示形式具体为
Figure 72353DEST_PATH_IMAGE003
所述步骤S3中,时空特征提取网络包括三个依次连接的STGT子网络,每个所述STGT子网络均通过残差连接,每个所述STGT子网络均包括依次连接的时空图模块、多尺度混合自卷积模块和时空点注意力模块;
所述时空图模块用于提取输入数据混合时空特征信息,所述多尺度混合自卷积模块用于提取输入数据中连续帧间节点的上下文特征信息;
所述时空图模块包括并行的跨时空子模块和图卷积子模块;所述跨时空子模块用于提取输入数据的全局跨时空特征信息,所述图卷积子模块用于提取输入数据的局部空间特征信息;
所述时空图模块获取输入数据混合时空特征信息的方法具体为:
SA1、通过跨时空子模块提取输入数据的全局跨时空特征信息;
SA2、通过图卷积子模块提取输入数据的局部空间特征信息;
SA3、将得到的全局跨时空特征信息和局部空间特征信息相加混合,得到输入数据混合时空特征信息;
所述步骤SA1包括以下分步骤:
SA11、将输入数据通过1*1的标准卷积进行特征映射到高维空间,得到第一特征图
Figure 201852DEST_PATH_IMAGE004
其中,第一特征图
Figure 577470DEST_PATH_IMAGE005
SA12、将特征图
Figure 185037DEST_PATH_IMAGE006
在时间维度进行分割展开成N个第二特征图,得到第二特征图
Figure 595290DEST_PATH_IMAGE007
其中,第二特征图
Figure 898620DEST_PATH_IMAGE008
Figure 558271DEST_PATH_IMAGE009
为第二特征图中包括的帧数;
SA13、将每个第二特征图进行展平并转置,得到第三特征图
Figure 172792DEST_PATH_IMAGE010
其中,第三特征图
Figure 171972DEST_PATH_IMAGE011
Figure 643274DEST_PATH_IMAGE012
为第三特征图的所有帧中包含的节点数;
SA14、通过Transformer编码公式捕捉第三特征图的跨时空关系,得到第四特征图
Figure 993484DEST_PATH_IMAGE013
其中,得到第四特征图
Figure 208433DEST_PATH_IMAGE014
的表达式具体为:
Figure 327699DEST_PATH_IMAGE015
式中,TransformerTransformer编码公式,n为特征图的序号;
SA15、将第四特征图
Figure 695534DEST_PATH_IMAGE016
合并,得到第五特征图
Figure 533040DEST_PATH_IMAGE017
,并将第五特征图通过1*1的标准卷积进行跨通道信息交互,得到输入数据的全局跨时空特征信息;
所述步骤SA2中,通过图卷积子模块提取输入数据的局部空间结构信息
Figure 286101DEST_PATH_IMAGE018
的表达式具体为:
Figure 791032DEST_PATH_IMAGE019
式中,
Figure 338556DEST_PATH_IMAGE020
为输入数据的第t帧内第i节点,
Figure 663359DEST_PATH_IMAGE021
为输入特性向量,
Figure 220111DEST_PATH_IMAGE022
为输出特性向量,
Figure 376285DEST_PATH_IMAGE023
为包含
Figure 111023DEST_PATH_IMAGE024
节点的邻居节点集,
Figure 909740DEST_PATH_IMAGE025
为映射函数,
Figure 20915DEST_PATH_IMAGE026
为权值函数,
Figure 218547DEST_PATH_IMAGE027
为邻居节点集的总数;
所述多尺度混合自卷积模块提取输入数据中连续帧间节点的上下文特征信息方法具体为:
SB1、将输入数据通过1*1的标准卷积进行处理,并输出的结果分别通过1*9卷积核的自然卷积和1*5卷积核的自然卷积,分别得到输出特征Y 1和输出特征Y 2
其中,所述输出特征
Figure 124186DEST_PATH_IMAGE028
,输出特征
Figure 407269DEST_PATH_IMAGE029
SB2、将输出特征Y 1和输出特征Y 2进行特征融合,得到输出特征Z
其中,输出特征
Figure 977927DEST_PATH_IMAGE030
SB3、通过bottleneck结构的卷积块对输出特征Z进行特征提取,得到局部通道注意力和全局特征通道注意力;
其中,得到局部通道注意力
Figure 780798DEST_PATH_IMAGE031
的方法具体为:
通过1*1的标准卷积将输出特征Z的通道数降为
Figure 185235DEST_PATH_IMAGE032
,再通过1*1的标准卷积将输出特征Z的通道数升为C,得到局部通道注意力
Figure 958543DEST_PATH_IMAGE033
得到全局特征通道注意力
Figure 145942DEST_PATH_IMAGE034
的方法具体为:
将输出特征Z进行全局平均池化,得到中间特征,通过1*1的标准卷积将中间特征的通道数降为
Figure 318166DEST_PATH_IMAGE032
,再通过1*1的标准卷积将中间特征的通道数升为C,得到全局特征通道注意力
Figure 565608DEST_PATH_IMAGE034
SB4、将局部通道注意力和全局特征通道注意力相加,并通过Sigmoid激活函数得到注意力权重
Figure 823283DEST_PATH_IMAGE035
其中,所述注意力权重
Figure 814373DEST_PATH_IMAGE036
SB5、将输出特征Y 1
Figure 106683DEST_PATH_IMAGE035
逐点相乘,将输出特征Y 2
Figure 525026DEST_PATH_IMAGE037
逐点相乘,进而将两相乘结果相加,得到输入数据的时空特征信息。
2.根据权利要求1所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S11中,构建时空图的方法具体为:
以骨骼数据的关节点作为节点,进而根据人体自然结构的自然连接和连接骨骼数据不同帧间对应关节点,构建时空图
Figure 7347DEST_PATH_IMAGE038
;其中,R为三维矩阵,C为通道数,T为骨骼数据的总帧数,V为节点集,且
Figure 802128DEST_PATH_IMAGE039
v ti 为骨骼数据第t帧中第i节点,U为该帧关节点的总数。
3.根据权利要求1所述的基于时空图的人体骨骼动作识别方法,其特征在于,所述步骤S4具体为:
将骨骼数据的时空特征信息通过全局平均池化层,得到128维特征向量,并将所述特征向量输入全连接层,确定全连接层中置信度最高的动作作为人体骨骼动作的识别结果。
CN202210424128.5A 2022-04-22 2022-04-22 基于时空图的人体骨骼动作识别方法 Active CN114550308B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210424128.5A CN114550308B (zh) 2022-04-22 2022-04-22 基于时空图的人体骨骼动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210424128.5A CN114550308B (zh) 2022-04-22 2022-04-22 基于时空图的人体骨骼动作识别方法

Publications (2)

Publication Number Publication Date
CN114550308A CN114550308A (zh) 2022-05-27
CN114550308B true CN114550308B (zh) 2022-07-05

Family

ID=81667348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210424128.5A Active CN114550308B (zh) 2022-04-22 2022-04-22 基于时空图的人体骨骼动作识别方法

Country Status (1)

Country Link
CN (1) CN114550308B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862150B (zh) * 2023-01-06 2023-05-23 吉林大学 一种基于三维人体蒙皮的潜水员动作识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置
CN113657349A (zh) * 2021-09-01 2021-11-16 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846348B (zh) * 2018-06-07 2022-02-11 四川大学 一种基于三维骨骼特征的人体行为识别方法
CN109299702B (zh) * 2018-10-15 2020-10-27 常州大学 一种基于深度时空图的人体行为识别方法及系统
CN110059620B (zh) * 2019-04-17 2021-09-03 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
US11790213B2 (en) * 2019-06-12 2023-10-17 Sri International Identifying complex events from hierarchical representation of data set features
CN110796110B (zh) * 2019-11-05 2022-07-26 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统
CN111476155A (zh) * 2020-04-07 2020-07-31 南京邮电大学 基于时空图卷积神经网络与特征融合的人体动作分类方法
CN111476181B (zh) * 2020-04-13 2022-03-04 河北工业大学 一种人体骨架动作的识别方法
CN113963435A (zh) * 2021-10-07 2022-01-21 哈尔滨理工大学 一种基于图卷积神经网络的人体行为识别系统
CN113963201B (zh) * 2021-10-18 2022-06-14 郑州大学 骨骼动作识别方法、装置、电子设备及存储介质
CN113963202A (zh) * 2021-10-19 2022-01-21 郑州大学 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN114187653A (zh) * 2021-11-16 2022-03-15 复旦大学 一种基于多流融合图卷积网络的行为识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置
CN113657349A (zh) * 2021-09-01 2021-11-16 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法

Also Published As

Publication number Publication date
CN114550308A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
Cong et al. An iterative co-saliency framework for RGBD images
CN111325165B (zh) 考虑空间关系信息的城市遥感影像场景分类方法
CN113033570B (zh) 一种改进空洞卷积和多层次特征信息融合的图像语义分割方法
CN110728183A (zh) 一种基于注意力机制的神经网络的人体动作识别方法
CN112967178B (zh) 一种图像转换方法、装置、设备及存储介质
CN111695523B (zh) 基于骨骼时空及动态信息的双流卷积神经网络动作识别方法
CN112036260B (zh) 一种自然环境下多尺度子块聚合的表情识别方法及系统
CN114663593B (zh) 三维人体姿态估计方法、装置、设备及存储介质
CN112884758B (zh) 一种基于风格迁移方法的缺陷绝缘子样本生成方法及系统
CN114550308B (zh) 基于时空图的人体骨骼动作识别方法
CN113379771A (zh) 带有边缘约束的层次化人体解析语义分割方法
CN110363068A (zh) 一种基于多尺度循环生成式对抗网络的高分辨行人图像生成方法
CN111768354A (zh) 基于多尺度人脸部位特征字典的人脸图像复原系统
CN116030498A (zh) 面向虚拟服装走秀的三维人体姿态估计方法
CN113052254A (zh) 多重注意力幽灵残差融合分类模型及其分类方法
CN112651360A (zh) 一种小样本下骨架动作识别方法
CN115841438A (zh) 基于改进gan网络的红外图像与可见光图像融合方法
CN115546888A (zh) 一种基于身体部位分组的对称语义图卷积姿态估计方法
CN113255569A (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
CN112906549A (zh) 一种基于时空胶囊网络的视频行为检测方法
CN110197226B (zh) 一种无监督图像翻译方法及系统
WO2024040973A1 (zh) 一种基于堆叠沙漏网络的多尺度融合去雾方法
CN116563187A (zh) 一种基于图神经网络的多光谱图像融合
CN114937153B (zh) 弱纹理环境下基于神经网络的视觉特征处理系统及方法
CN116681592A (zh) 基于多尺度自适应非局部注意力网络的图像超分辨率方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant