CN116434347A - 一种基于掩码图自编码器的骨架序列识别方法及系统 - Google Patents

一种基于掩码图自编码器的骨架序列识别方法及系统 Download PDF

Info

Publication number
CN116434347A
CN116434347A CN202310688179.3A CN202310688179A CN116434347A CN 116434347 A CN116434347 A CN 116434347A CN 202310688179 A CN202310688179 A CN 202310688179A CN 116434347 A CN116434347 A CN 116434347A
Authority
CN
China
Prior art keywords
skeleton
encoder
joint
self
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310688179.3A
Other languages
English (en)
Other versions
CN116434347B (zh
Inventor
刘阳
严鸿
李冠彬
王青
林倞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202310688179.3A priority Critical patent/CN116434347B/zh
Publication of CN116434347A publication Critical patent/CN116434347A/zh
Application granted granted Critical
Publication of CN116434347B publication Critical patent/CN116434347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/34Smoothing or thinning of the pattern; Morphological operations; Skeletonisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Medical Informatics (AREA)
  • Social Psychology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于掩码图自编码器的骨架序列识别方法及系统,包括步骤如下:建立骨架动作识别模型,利用骨架动作识别模型识别骨架序列,实现预测动作类别;所述的骨架动作识别模型包括一个M层的空间‑时间表示学习模型和一层分类器;所述的空间‑时间表示学习模型包括两个并联连接的掩码图自编码器,且掩码图自编码器的输出端通过1×1卷积与输入端进行残差连接。本发明将一个M层的空间‑时间表示学习模型和一层分类器构建骨架动作识别模型,其利用不同骨架关节之间的细粒度依赖关系来训练学习,是一个高效的骨架序列学习模型,可以在不同的数据集上很好地泛化。

Description

一种基于掩码图自编码器的骨架序列识别方法及系统
技术领域
本发明涉及视频动作表示学习技术领域,更具体的,涉及一种基于掩码图自编码器的骨架序列识别方法及系统。
背景技术
人类动作识别在视频理解中引起了越来越多的关注,由于人类动作识别在人机交互、智能监控安全、虚拟现实等方面的广泛应用。在视觉感知方面,即使没有外观信息,人类也可以只通过观察关节的运动来识别动作类别。与RGB视频不同,骨架序列只包含人体关键关节的坐标信息,具有高层次、轻量级、对复杂背景和各种条件(包括视点、比例和运动速度)的鲁棒性。此外,随着人体姿态估计算法的发展,人体关节(即关键点)的定位方法有了很大的进步,获得准确的骨架序列是可行的。由于对人体运动的细粒度和大变化进行建模的能力潜力巨大且迅速发展,与RGB数据相比,骨架序列更适合区分具有细微差别的类似动作。为了捕捉具有鉴别力的时空运动模式,现有的基于骨架的动作识别方法都是完全监督的,通常需要大量的标记数据来训练精心设计的模型,这既费时又费力。为了缓解有限的标记训练数据的问题,基于自监督的骨架动作识别方法最近引起了越来越多的关注。一些对比性学习方法采用了数据增强的方法来产生正负样本对,但它们在很大程度上依赖于对比对的数量。随着编码器-解码器的普及,一些方法按照图编码器-解码器的范式,通过链接重构掩盖的骨架序列来鼓励拓扑的接近性。然而,这些方法通常在链接预测和节点聚类方面表现良好,但在节点和图的分类方面却不尽人意。
对于准确的动作识别,不同骨架关节之间的细粒度依赖关系(即图分类)是至关重要的。但是,以前基于自监督学习的方法往往忽略了不同骨架关节之间的细粒度依赖关系,这限制了自监督骨架表示的通用性。
发明内容
本发明为了解决以上现有技术忽略了不同骨架关节之间的细粒度依赖关系,限制了自监督骨架表示的通用性的问题,提供了一种基于掩码图自编码器的骨架序列识别方法及系统。
为实现上述本发明目的,采用的技术方案如下:
一种基于掩码图自编码器的骨架序列识别方法,所述的方法包括步骤如下:
建立骨架动作识别模型,利用骨架动作识别模型识别骨架序列,实现预测动作类别;
所述的骨架动作识别模型包括一个M层的空间-时间表示学习模型和一层分类器;
所述的空间-时间表示学习模型包括两个并联连接的掩码图自编码器,且掩码图自编码器的输出端通过1×1卷积与掩码图自编码器的输入端进行残差连接。
优选地,所述掩码图自编码器包括一个编码器
Figure SMS_1
和一个解码器/>
Figure SMS_2
,其中,编码器/>
Figure SMS_3
包括三层GIN,解码器/>
Figure SMS_4
包括一层GIN。
优选地,建立关于骨架关节和骨架关节的拓扑结构的图结构
Figure SMS_5
,将骨架关节的拓扑结构和骨架关节特征进行融合,得到骨架序列矩阵/>
Figure SMS_6
N表示骨架关节的数量,T表示骨架序列的数量;将骨架序列矩阵S转化为具有可学习参数的/>
Figure SMS_7
D表示对原始骨架序列矩阵S进行升维;
对于每个骨架关节特征矩阵
Figure SMS_9
,图结构/>
Figure SMS_10
表示一个骨架,其中,
Figure SMS_11
是包含所有骨架关节的节点集;/>
Figure SMS_12
是一个邻接矩阵,如果ij是物理连接的,则/>
Figure SMS_13
,否则为0;节点/>
Figure SMS_14
的骨架关节特征表示为/>
Figure SMS_15
,/>
Figure SMS_8
进一步地,利用被遮蔽的骨架关节特征训练掩码图自编码器重建骨架序列,具体地,所述掩码图自编码器基于建立的骨架关节掩码策略、重加权损失函数对被遮蔽的骨架关节特征进行重建训练。
再进一步地,建立骨架关节掩码策略,具体如下:
Figure SMS_16
按身体部位进行划分,每个部位对应一个第一关节子集,随机选择一个或多个第一关节子集,由一个或多个第一关节子集组成一个第二关节子集/>
Figure SMS_17
,用于掩盖。
然后,用一个可学习的掩码令牌向量
Figure SMS_18
对人体骨架序列的每个骨架关节特征进行掩码;因此,被屏蔽的骨架关节特征/>
Figure SMS_19
在被屏蔽的关节特征矩阵/>
Figure SMS_20
定义为:如果/>
Figure SMS_21
,则/>
Figure SMS_22
,否则/>
Figure SMS_23
将骨架关节特征矩阵
Figure SMS_24
作为掩码图自编码器的输入,骨架关节特征矩阵/>
Figure SMS_25
中的每个骨架关节特征定义为/>
Figure SMS_26
因此,被遮蔽的骨架被表述为
Figure SMS_27
再进一步地,所述的掩码图自编码器重建被遮蔽的骨架关节特征,定义为:
Figure SMS_28
其中,H表示编码器输出的中间层特征矩阵,Y表示解码器输出的骨架关节特征矩阵;
所述的掩码图自编码器的目标是最小化HY之间的差异。
再进一步地,所述重加权损失函数表示在所有被掩码的节点上,重建的骨架与输入的原始关节点之间的相似性差距的平均值,具体如下:
给定原始骨架关节特征矩阵
Figure SMS_29
和重建后的解码器输出的骨架关节特征
Figure SMS_30
,重加权损失函数定义为:
Figure SMS_31
式中,
Figure SMS_32
原始骨架关节特征,包含在/>
Figure SMS_33
中;/>
Figure SMS_34
表示重建的骨架关节特征,包含在/>
Figure SMS_35
中,/>
Figure SMS_36
表示缩放系数。
再进一步地,所述的骨架动作识别模型识别骨架序列,实现预测动作类别,具体如下:输入的骨架序列矩阵
Figure SMS_37
首先与可学习的时间位置嵌入PE相加,得到骨架序列特征矩阵/>
Figure SMS_38
Figure SMS_39
中得到两个人的单独特征/>
Figure SMS_40
和/>
Figure SMS_41
将节点表示
Figure SMS_42
和节点的先验知识/>
Figure SMS_43
送入一个掩码图自编码器,
Figure SMS_44
其中,
Figure SMS_45
是掩码图自编码器;SP(/>
Figure SMS_46
)表示求和池化;Repeat(/>
Figure SMS_47
;N)表示求和后将单个节点重复成N个节点表示,然后与/>
Figure SMS_48
残差连接,得到全局节点表示/>
Figure SMS_49
,掩码图自编码器通过单个节点表征获得全局信息,并通过所有节点表征约束一些节点特征;同样,获得/>
Figure SMS_50
得到的节点特征
Figure SMS_51
包含第0个人和第1个人之间的动作交互;根据图卷积的更新规则,从多层GCN中的/>
Figure SMS_52
得到/>
Figure SMS_53
,最终的骨架序列特征矩阵表示定义如下:
Figure SMS_54
其中
Figure SMS_55
表示第l层的可训练权重矩阵,/>
Figure SMS_56
表示ReLU激活函数。
然后,采用多尺度时空集合来得到最终的骨架序列特征矩阵;
最后,分类器根据最终的骨架序列预测动作类别。
优选地,在利用骨架动作识别模型识别骨架序列之前,将骨架动作识别数据集输入骨架动作识别模型,使用交叉熵损失对骨架动作识别模型进行微调。
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现如上所述的方法的步骤。
本发明的有益效果如下:
本发明将一个M层的空间-时间表示学习模型和一层分类器构建骨架动作识别模型,其利用不同骨架关节之间的细粒度依赖关系来训练学习,是一个高效的骨架序列学习模型,可以在不同的数据集上很好地泛化。
本发明骨架动作识别模型引入基于骨架掩码的掩码图自编码器,掩码图自编码器可以进行无监督训练。
本发明构建的掩码图自编码器,将骨架关节序列嵌入到图卷积网络中,并基于人体先验拓扑知识重构隐藏的骨骼关节和边缘,为了可靠地进行特征重建,引入了重加权余弦误差(RCE)。
附图说明
图1为本发明骨架动作识别模型的原理框架图。
图2为本发明掩码图自编码器的原理框架图。
图3为本发明掩码图自编码器的训练示意图。
图4为本发明与现有技术随机选择节点进行掩码的对比示意图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种基于掩码图自编码器的骨架序列识别方法,所述的方法包括步骤如下:
建立骨架动作识别模型,利用骨架动作识别模型识别骨架序列,实现预测动作类别;
所述的骨架动作识别模型(SSL)包括一个
Figure SMS_57
层的空间-时间表示学习模型(STRL)和一层分类器;
所述的空间-时间表示学习模型(STRL)包括两个并联连接的掩码图自编码器(SkeletonMAE,SM),且掩码图自编码器(SkeletonMAE,SM)的输出端通过1×1卷积与掩码图自编码器(SkeletonMAE)的输入端进行残差连接。
本发明将一个
Figure SMS_58
层的空间-时间表示学习模型(STRL)和一层分类器构建骨架动作识别模型,其利用不同骨架关节之间的细粒度依赖关系来训练学习,是一个高效的骨架序列学习模型,可以在不同的数据集上很好地泛化。
本发明骨架动作识别模型引入基于骨架掩码的掩码图自编码器,掩码图自编码器可以进行无监督训练。
在一个具体的实施例中,所述掩码图自编码器包括一个编码器
Figure SMS_59
和一个解码器/>
Figure SMS_60
,其中,编码器/>
Figure SMS_61
包括三层GIN,解码器/>
Figure SMS_62
包括一层GIN。
在一个具体的实施例中,对N个人体骨架关节和T个骨架序列进行预处理。建立关于骨架关节和骨架关节的拓扑结构的图结构
Figure SMS_63
,将骨架关节的拓扑结构和骨架关节特征进行融合,得到骨架序列矩阵/>
Figure SMS_64
N表示骨架关节的数量,T表示骨架序列的数量;将骨架序列矩阵S转化为具有可学习参数的/>
Figure SMS_65
,/>
Figure SMS_66
表示对原始骨架序列矩阵S进行升维。本实施例根据经验将TD设置为64。
对于每个骨架关节特征矩阵
Figure SMS_68
,图结构/>
Figure SMS_69
表示一个骨架,其中,
Figure SMS_70
是包含所有骨架关节的节点集;/>
Figure SMS_71
是一个邻接矩阵,如果ij是物理连接的,则/>
Figure SMS_72
,否则为0;节点/>
Figure SMS_73
的骨架关节特征表示为/>
Figure SMS_74
,/>
Figure SMS_67
。本实施例骨架关节的数量为N=17。
在一个具体的实施例中,利用被遮蔽的骨架关节特征训练掩码图自编码器重建骨架序列,具体地,所述掩码图自编码器基于建立的骨架关节掩码策略、重加权损失函数对被遮蔽的骨架关节特征进行重建训练。
再进一步地,建立骨架关节掩码策略,具体如下:
为了掩盖骨架关节特征,将
Figure SMS_75
按身体部位进行划分,划分为头部、四肢、躯干这6个部位对应V0,…,V5的第一关节子集,随机选择一个或多个第一关节子集,由一个或多个第一关节子集组成一个第二关节子集/>
Figure SMS_76
,用于掩盖。对于人体骨架序列,每个关节都与该关节的一些相邻的关节进行交流,以代表特定的动作类别。因此,对所有动作类别的所有关节集进行屏蔽是不可行的。
然后,用一个可学习的掩码令牌向量
Figure SMS_77
对人体骨架序列的每个骨架关节特征进行掩码;因此,被屏蔽的骨架关节特征/>
Figure SMS_78
在被屏蔽的骨架关节特征矩阵/>
Figure SMS_79
定义为:如果/>
Figure SMS_80
,则/>
Figure SMS_81
,否则/>
Figure SMS_82
将骨架关节特征矩阵
Figure SMS_83
作为掩码图自编码器的输入,骨架关节特征矩阵/>
Figure SMS_84
中的每个关节特征定义为/>
Figure SMS_85
因此,被遮蔽的骨架被表述为
Figure SMS_86
所述的掩码图自编码器,在给定的被屏蔽的骨架关节特征矩阵
Figure SMS_87
和邻接矩阵A的情况下,重建第二关节子集/>
Figure SMS_88
中被遮蔽的骨架关节特征。
其中,所述的掩码图自编码器重建被遮蔽的骨架关节特征,定义为:
Figure SMS_89
其中,H表示编码器输出的中间层特征矩阵,Y表示解码器输出的骨架关节特征矩阵;
所述的掩码图自编码器的目标是最小化HY之间的差异。
在一个具体的实施例中,在图像和视频任务中,掩码图自编码器的常见重建损失是平均平方误差(MSE)。对于骨架序列,节点特征的多维和连续性质使得平均平方误差难以进行可靠的特征重建,因为平均平方误差对特征的维度和矢量范式很敏感。余弦误差中的
Figure SMS_90
归一化将向量映射到一个单位超球面上,并极大改善了训练的稳定性,我们利用余弦误差作为重建的依据。
为了使重建标准在不平衡的简单和困难样本上倾向于较难的样本,为掩码图自编码器引入了重加权余弦误差函数(RCE)。重加权余弦误差函数是基于这样的方式:可以通过将余弦误差以
Figure SMS_91
的幂数进行缩放,来减轻简单样本在训练中的占比贡献。对于具有高置信度的预测,其相应的余弦误差通常小于1,并且当缩放系数/>
Figure SMS_92
时,会更快地衰减到零。
在本实施中,所述重加权损失函数表示在所有被掩码的节点上,重建的骨架关节特征与输入的原始骨架关节特征之间的相似性差距的平均值,具体如下:
给定原始骨架关节特征矩阵
Figure SMS_93
和重建后的解码器输出的骨架关节特征矩阵/>
Figure SMS_94
,重加权损失函数定义为:
Figure SMS_95
式中,
Figure SMS_96
原始关键点特征,包含在/>
Figure SMS_97
中;/>
Figure SMS_98
表示重建的关键点特征,包含在/>
Figure SMS_99
中,/>
Figure SMS_100
表示缩放系数;
重加权损失函数通过将余弦误差以
Figure SMS_101
的幂数进行缩放,来减轻简单样本在训练中的占比贡献;对于具有高置信度的预测,其相应的余弦误差通常小于1,并且当缩放系数/>
Figure SMS_102
时,会更快地衰减到零。
本实施例
Figure SMS_103
设定为2。通过训练掩码图自编码器来重建骨架序列,预训练的掩码图自编码器可以全面感知人体骨架结构并获得具有判断力的动作表示。经过预训练后,所述的掩码图自编码器可以嵌入到骨架动作识别模型中进行微调,如图3所示。
在一个具体的实施例中,为了评估掩码图自编码器对骨架动作识别的泛化能力,我们在预先训练好的掩码图自编码器的基础上,建立了一个完整的骨架动作识别模型,即骨架序列学习框架(SSL)。为了捕捉多人互动,我们整合了两个预先训练好的掩码图自编码器来建立空间-时间表示学习(STRL)模块,如图1、2所示。整个骨架动作识别模型由一个M层的STRL模型和一个分类器组成。最后,输入骨架动作识别数据集到骨架动作识别模型中,使用交叉熵损失来对骨架动作识别模型进行微调。
在本实施例中,所述的骨架动作识别模型识别骨架序列,实现预测动作类别,具体如下:输入的骨架序列矩阵
Figure SMS_104
首先与可学习的时间位置嵌入PE相加,得到骨架序列特征矩阵/>
Figure SMS_105
Figure SMS_106
中得到两个人(P= 2)的单独特征/>
Figure SMS_107
和/>
Figure SMS_108
这里,我们以第0个人的节点特征为例,第1个人的操作是类似实现的。将节点表示
Figure SMS_109
和节点的先验知识/>
Figure SMS_110
送入一个掩码图自编码器;
Figure SMS_111
其中,
Figure SMS_112
是掩码图自编码器;SP(/>
Figure SMS_113
)表示求和池化;Repeat(/>
Figure SMS_114
;N)表示求和后将单个节点重复成N个节点表示,然后与/>
Figure SMS_115
残差连接,得到全局节点表示/>
Figure SMS_116
,掩码图自编码器通过单个节点表征获得全局信息,并通过所有节点表征约束一些节点特征;
类似地,
Figure SMS_117
以同样的方式获得的。
Figure SMS_118
得到的节点特征
Figure SMS_119
包含第0个人和第1个人之间的动作交互;根据图卷积的更新规则,从多层GCN中的/>
Figure SMS_120
得到/>
Figure SMS_121
,最终的骨架序列特征矩阵表示定义如下:
Figure SMS_122
其中
Figure SMS_123
表示第l层的可训练权重矩阵,/>
Figure SMS_124
表示ReLU激活函数。
然后,采用多尺度时空集合来得到最终的骨架序列特征矩阵;
最后,分类器根据最终的骨架序列预测动作类别。
在一个具体的实施例中,在利用骨架动作识别模型识别骨架序列之前,在利用骨架动作识别模型识别骨架序列之前,将骨架动作识别数据集输入掩码图自编码器中进行无监督预训练,然后将掩码图自编码器在骨架动作识别模型上微调并用交叉熵损失对骨架动作识别模型来识别动作。
如图4所示,本发明与现有技术随机选择节点进行掩码的对比示意图首先本发明是对应的skeleton MAE,现有技术的是MAE,在图4中举例了两个细粒度的动作标签,图中的一个动作是后空翻,图中另一个动作是身体扭动的后空翻。本发明是对身体部位的掩码,因为我们将人体的17个关键点即关节点按身体部位划分,分成6个部分,分别是头部,四肢和躯干。本发明的掩码策略是对部位掩码。而现有的MAE是从人体的17个关键点中随机选取一些关键点进行掩码。本发明可以按照先验知识有选择的去掩码身体的哪个部位,从而能提升模型的性能。
实施例2
本实施例还提供了一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现如实施例1所述的方法的步骤。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
实施例3
一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现如实施例1所述的方法的步骤。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于掩码图自编码器的骨架序列识别方法,其特征在于:所述的方法包括步骤如下:
建立骨架动作识别模型,利用骨架动作识别模型识别骨架序列,实现预测动作类别;
所述的骨架动作识别模型包括一个M层的空间-时间表示学习模型和一层分类器;
所述的空间-时间表示学习模型包括两个并联连接的掩码图自编码器,且掩码图自编码器的输出端通过1×1卷积与掩码图自编码器的输入端进行残差连接。
2.根据权利要求1所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:所述掩码图自编码器包括一个编码器
Figure QLYQS_1
和一个解码器/>
Figure QLYQS_2
,其中,编码器/>
Figure QLYQS_3
包括三层GIN,解码器
Figure QLYQS_4
包括一层GIN。
3.根据权利要求1所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:建立关于骨架关节和骨架关节的拓扑结构的图结构
Figure QLYQS_5
,将骨架关节的拓扑结构和骨架关节特征进行融合,得到骨架序列矩阵/>
Figure QLYQS_6
N表示骨架关节的数量,T表示骨架序列的数量;将骨架序列矩阵S转化为具有可学习参数的/>
Figure QLYQS_7
D表示对原始骨架序列矩阵S进行升维;
对于每个骨架关节特征矩阵
Figure QLYQS_9
,图结构/>
Figure QLYQS_10
表示一个骨架,其中,
Figure QLYQS_11
是包含所有骨架关节的节点集;/>
Figure QLYQS_12
是一个邻接矩阵,如果ij是物理连接的,则/>
Figure QLYQS_13
,否则为0;节点/>
Figure QLYQS_14
的骨架关节特征表示为/>
Figure QLYQS_15
,/>
Figure QLYQS_8
4.根据权利要求2所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:利用被遮蔽的骨架关节特征训练掩码图自编码器重建骨架序列,具体地,所述掩码图自编码器基于建立的骨架关节掩码策略、重加权损失函数对被遮蔽的骨架关节特征进行重建训练。
5.根据权利要求4所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:建立骨架关节掩码策略,具体如下:
Figure QLYQS_16
按身体部位进行划分,每个部位对应一个第一关节子集,随机选择一个或多个第一关节子集,由一个或多个第一关节子集组成一个第二关节子集/>
Figure QLYQS_17
然后,用一个可学习的掩码令牌向量
Figure QLYQS_18
对人体骨架序列的每个骨架关节特征进行掩码;因此,被屏蔽的骨架关节特征/>
Figure QLYQS_19
在被屏蔽的关节特征矩阵/>
Figure QLYQS_20
定义为:如果
Figure QLYQS_21
,则/>
Figure QLYQS_22
,否则/>
Figure QLYQS_23
将骨架关节特征矩阵
Figure QLYQS_24
作为掩码图自编码器的输入,骨架关节特征矩阵/>
Figure QLYQS_25
中的每个骨架关节特征定义为/>
Figure QLYQS_26
因此,被遮蔽的骨架被表述为
Figure QLYQS_27
6.根据权利要求5所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:所述的掩码图自编码器重建被遮蔽的骨架关节特征,定义为:
Figure QLYQS_28
其中,H表示编码器输出的中间层特征矩阵,Y表示解码器输出的骨架关节特征矩阵;
所述的掩码图自编码器的目标是最小化HY之间的差异。
7.根据权利要求6所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:所述重加权损失函数表示在所有被掩码的节点上,重建的骨架关节特征与输入的原始骨架关节特征之间的相似性差距的平均值,具体如下:
给定原始骨架关节特征矩阵
Figure QLYQS_29
和重建后的解码器输出的骨架关节特征矩阵
Figure QLYQS_30
,重加权损失函数定义为:
Figure QLYQS_31
式中,
Figure QLYQS_32
原始骨架关节特征,包含在/>
Figure QLYQS_33
中;表示重/>
Figure QLYQS_34
建的骨架关节特征,包含在/>
Figure QLYQS_35
中,/>
Figure QLYQS_36
表示缩放系数。
8.根据权利要求3所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:所述的骨架动作识别模型识别骨架序列,实现预测动作类别,具体如下:输入的骨架序列矩阵
Figure QLYQS_37
首先与可学习的时间位置嵌入PE相加,得到骨架序列特征矩阵/>
Figure QLYQS_38
Figure QLYQS_39
中得到两个人的单独特征/>
Figure QLYQS_40
和/>
Figure QLYQS_41
将节点表示
Figure QLYQS_42
和节点的先验知识/>
Figure QLYQS_43
送入一个掩码图自编码器,
Figure QLYQS_44
其中,
Figure QLYQS_45
是掩码图自编码器;SP(/>
Figure QLYQS_46
)表示求和池化;Repeat(/>
Figure QLYQS_47
; N )表示求和后将单个节点重复成N个节点表示,然后与/>
Figure QLYQS_48
残差连接,得到全局节点表示/>
Figure QLYQS_49
,掩码图自编码器通过单个节点表征获得全局信息,并通过所有节点表征约束一些节点特征;同样,获得/>
Figure QLYQS_50
得到的节点特征
Figure QLYQS_51
包含第0个人和第1个人之间的动作交互;根据图卷积的更新规则,从多层GCN中的/>
Figure QLYQS_52
得到/>
Figure QLYQS_53
,最终的骨架序列特征矩阵表示定义如下:
Figure QLYQS_54
其中
Figure QLYQS_55
表示第l层的可训练权重矩阵,/>
Figure QLYQS_56
表示ReLU激活函数;
然后,采用多尺度时空集合来得到最终的骨架序列特征矩阵;
最后,分类器根据最终的骨架序列预测动作类别。
9.根据权利要求1所述的基于掩码图自编码器的骨架序列识别方法,其特征在于:在利用骨架动作识别模型识别骨架序列之前,将骨架动作识别数据集输入骨架动作识别模型,使用交叉熵损失对骨架动作识别模型进行微调。
10.一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述的处理器执行所述的计算机程序时,实现如权利要求 1~9任一项所述的方法的步骤。
CN202310688179.3A 2023-06-12 2023-06-12 一种基于掩码图自编码器的骨架序列识别方法及系统 Active CN116434347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310688179.3A CN116434347B (zh) 2023-06-12 2023-06-12 一种基于掩码图自编码器的骨架序列识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310688179.3A CN116434347B (zh) 2023-06-12 2023-06-12 一种基于掩码图自编码器的骨架序列识别方法及系统

Publications (2)

Publication Number Publication Date
CN116434347A true CN116434347A (zh) 2023-07-14
CN116434347B CN116434347B (zh) 2023-10-13

Family

ID=87087573

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310688179.3A Active CN116434347B (zh) 2023-06-12 2023-06-12 一种基于掩码图自编码器的骨架序列识别方法及系统

Country Status (1)

Country Link
CN (1) CN116434347B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474764A (zh) * 2023-12-27 2024-01-30 电子科技大学 一种针对复杂退化模型下遥感图像的高分辨率重建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084863A (zh) * 2019-04-25 2019-08-02 中山大学 一种基于生成对抗网络的多域图像转换方法与系统
CN110348330A (zh) * 2019-06-24 2019-10-18 电子科技大学 基于vae-acgan的人脸姿态虚拟视图生成方法
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
WO2022182265A1 (en) * 2021-02-25 2022-09-01 Huawei Technologies Co., Ltd Apparatus and method for coding pictures using a convolutional neural network
CN115461785A (zh) * 2020-04-30 2022-12-09 谷歌有限责任公司 生成非线性人类形状模型
CN115700589A (zh) * 2021-07-21 2023-02-07 国际商业机器公司 用于视频问题回答的神经符号动作变换器
US20230081908A1 (en) * 2021-09-10 2023-03-16 Milestone Systems A/S Method of training a machine learning algorithm to identify objects or activities in video surveillance data
WO2023050563A1 (zh) * 2021-09-29 2023-04-06 西安工程大学 一种基于自编码器的彩色纹理织物缺陷区域的检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110084863A (zh) * 2019-04-25 2019-08-02 中山大学 一种基于生成对抗网络的多域图像转换方法与系统
CN110348330A (zh) * 2019-06-24 2019-10-18 电子科技大学 基于vae-acgan的人脸姿态虚拟视图生成方法
CN111325099A (zh) * 2020-01-21 2020-06-23 南京邮电大学 一种基于双流时空图卷积神经网络的手语识别方法及系统
CN115461785A (zh) * 2020-04-30 2022-12-09 谷歌有限责任公司 生成非线性人类形状模型
WO2022182265A1 (en) * 2021-02-25 2022-09-01 Huawei Technologies Co., Ltd Apparatus and method for coding pictures using a convolutional neural network
CN115700589A (zh) * 2021-07-21 2023-02-07 国际商业机器公司 用于视频问题回答的神经符号动作变换器
US20230081908A1 (en) * 2021-09-10 2023-03-16 Milestone Systems A/S Method of training a machine learning algorithm to identify objects or activities in video surveillance data
WO2023050563A1 (zh) * 2021-09-29 2023-04-06 西安工程大学 一种基于自编码器的彩色纹理织物缺陷区域的检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
卞宇航: "基于图神经网络的人体骨骼行为识别", 《中国优秀硕士学位论文全文数据库》, pages 138 - 111 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117474764A (zh) * 2023-12-27 2024-01-30 电子科技大学 一种针对复杂退化模型下遥感图像的高分辨率重建方法
CN117474764B (zh) * 2023-12-27 2024-04-16 电子科技大学 一种针对复杂退化模型下遥感图像的高分辨率重建方法

Also Published As

Publication number Publication date
CN116434347B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
Zhang et al. Improved deep hashing with soft pairwise similarity for multi-label image retrieval
Liang et al. Symbolic graph reasoning meets convolutions
Gamboa Deep learning for time-series analysis
Alaslani Convolutional neural network based feature extraction for iris recognition
Pal et al. Soft computing for image processing
Liu et al. Multi-objective convolutional learning for face labeling
Baluja Probabilistic modeling for face orientation discrimination: Learning from labeled and unlabeled data
Wang et al. Spatially encoding temporal correlations to classify temporal data using convolutional neural networks
Taylor et al. Learning invariance through imitation
CN111310707A (zh) 基于骨骼的图注意力网络动作识别方法及系统
CN112307995B (zh) 一种基于特征解耦学习的半监督行人重识别方法
CN110751072B (zh) 基于知识嵌入图卷积网络的双人交互识别方法
CN117157678A (zh) 用于基于图的全景分割的方法和系统
CN116434347B (zh) 一种基于掩码图自编码器的骨架序列识别方法及系统
Li et al. Multiple VLAD encoding of CNNs for image classification
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
Zhu et al. Multilevel spatial–temporal excited graph network for skeleton-based action recognition
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Salem et al. Semantic image inpainting using self-learning encoder-decoder and adversarial loss
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN115392474B (zh) 一种基于迭代优化的局部感知图表示学习方法
CN112560712B (zh) 基于时间增强图卷积网络的行为识别方法、装置及介质
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
Zhang et al. A fast evolutionary knowledge transfer search for multiscale deep neural architecture
Chen et al. STA-GCN: Spatial Temporal Adaptive Graph Convolutional Network for Gait Emotion Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant