CN115273244A - 基于图神经网络的人体动作识别方法和系统 - Google Patents

基于图神经网络的人体动作识别方法和系统 Download PDF

Info

Publication number
CN115273244A
CN115273244A CN202211201978.5A CN202211201978A CN115273244A CN 115273244 A CN115273244 A CN 115273244A CN 202211201978 A CN202211201978 A CN 202211201978A CN 115273244 A CN115273244 A CN 115273244A
Authority
CN
China
Prior art keywords
joint
network
layer
loss
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211201978.5A
Other languages
English (en)
Other versions
CN115273244B (zh
Inventor
翟凯
欧阳波
杨善林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202211201978.5A priority Critical patent/CN115273244B/zh
Publication of CN115273244A publication Critical patent/CN115273244A/zh
Application granted granted Critical
Publication of CN115273244B publication Critical patent/CN115273244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于图神经网络的人体动作识别方法和系统,涉及图像处理技术领域。本发明通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。本发明设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。

Description

基于图神经网络的人体动作识别方法和系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于图神经网络的人体动作识别方法和系统。
背景技术
近年来,深度学习领域对人体动作识别的研究取得喜人进展,且在单目、多目的单帧静态图像及视频等各个方面进行了广泛且深入的研究。基于单帧的方法目的为以单张图片为输入,分析识别人的动作,而视频则包含了人体运动的整个时间流,包含了更多的信息,且可在时间上进行优化从而使得识别的动作更加平滑。以一个视频为例,动作识别算法首先有2D关节检测器识别每张图像中人关节的像素坐标,一般由卷积神经网络组成,部分方法直接采用集成好的OpenPose算法,然后输入到3D关节估计器估计每张图像中人关节的3D空间坐标,由于基于骨骼的人体关节数据的图结构特征,近年来基于图卷积的人体动作识别方法层出不穷,性能也优于基于卷积和全连接的方法。
目前的3D估计算法大部分采用时间序列输入,从人体动作时间流中寻找信息从而提高3D识别精度及采用光流等方法进行动作平滑,已有的算法如Spatial Temporal GraphConvolutional Networks for Skeleton-Based Action Recognition(用于骨骼的动作识别的时空图卷积网络)便采用时空图形式结合获取的视频的时间以及空间信息估计3D动作,但其采用OpenPose软件获得人体2D关键点,在输入精度有所欠缺,导致动作识别效果差。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于图神经网络的人体动作识别方法和系统,解决了现有方法动作识别效果差的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于图神经网络的人体动作识别方法,其特征在于,所述方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述人体动作识别网络的训练过程包括:
S1、获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络;
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图。
优选的,所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 993557DEST_PATH_IMAGE001
) d=1,2,3..
其中,
Figure 317222DEST_PATH_IMAGE002
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 628118DEST_PATH_IMAGE003
Figure 679119DEST_PATH_IMAGE003
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 759071DEST_PATH_IMAGE004
的进行分组融合得到融合后的融合特征图特征
Figure 988058DEST_PATH_IMAGE005
,即
Figure 51829DEST_PATH_IMAGE006
在融合特征图上进行一阶邻居聚合:
Figure 632153DEST_PATH_IMAGE007
然后预定义的分组规则
Figure 97769DEST_PATH_IMAGE008
其中,
Figure 497658DEST_PATH_IMAGE009
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 517567DEST_PATH_IMAGE010
为第d层邻居的权重;
Figure 910371DEST_PATH_IMAGE011
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 964914DEST_PATH_IMAGE012
的下标ii所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 801283DEST_PATH_IMAGE013
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 308488DEST_PATH_IMAGE014
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点
Figure 114770DEST_PATH_IMAGE015
的特征。
优选的,所述3D关节识别网络还包括:帧级自注意力层,所述帧级自注意力层位于除最后一个图卷积块的所有图卷积块后。
优选的,所述基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失包括:
Figure 414033DEST_PATH_IMAGE016
其中,x ij 为2D关节点热图的像素坐标值;
Figure DEST_PATH_IMAGE017
为关节2D真值坐标生成的高斯热图 的像素坐标值;X为热图横坐标像素数;Y为热图纵坐标像素数。
优选的,所述帧级关节点位置差损失loss1的计算方法包括:
Figure 421303DEST_PATH_IMAGE018
其中,V为预定义的关节数;T为设计的输入3D关节识别网络的视频帧数;
Figure 681383DEST_PATH_IMAGE019
为3D关 节识别网络;y ti 为第t帧第i个索引关节的3D相机坐标网络估计值;
Figure 415990DEST_PATH_IMAGE020
为第t帧第i个索引 关节的3D真值坐标。
优选的,所述帧级关节点位置差损失loss2的计算方法包括:
Figure 445126DEST_PATH_IMAGE021
其中,T为设计的输入3D关节识别网络的视频帧数;F为符号函数,如果值大于阈值 输出为1,否则为0;J为预定义的按骨连接的关节对索引;β为每个不合理骨骼误差惩罚;y tj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j 个关节索引对的第2个关节索引的3D相机坐标网络估计值,
Figure 623298DEST_PATH_IMAGE022
为第t帧第j个关节索引对 的第1个关节索引的3D相机坐标标签真值,
Figure 839515DEST_PATH_IMAGE023
为第t帧第j个关节索引对的第2个关节索 引的3D相机坐标标签真值。
第二方面,本发明提供一种基于图神经网络的人体动作识别系统,所述系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述预先训练的基于图神经网络模块包括:
数据集单元,用于获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
2D单元,用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
3D单元,用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
组合单元,用于将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
优化单元,用于将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
优选的,所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 253179DEST_PATH_IMAGE001
) d=1,2,3..
其中,
Figure 264385DEST_PATH_IMAGE002
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 738092DEST_PATH_IMAGE003
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 582551DEST_PATH_IMAGE004
的进行分组融合得到融合后的融合特征图特征
Figure 534326DEST_PATH_IMAGE024
,即
Figure 397109DEST_PATH_IMAGE006
在融合特征图上进行一阶邻居聚合:
Figure 41717DEST_PATH_IMAGE025
然后预定义的分组规则
Figure 373472DEST_PATH_IMAGE008
其中,
Figure 128939DEST_PATH_IMAGE009
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 456015DEST_PATH_IMAGE010
为第d层邻居的权重;
Figure 396158DEST_PATH_IMAGE011
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 339843DEST_PATH_IMAGE012
的下标ii所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 508787DEST_PATH_IMAGE013
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 221528DEST_PATH_IMAGE014
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点
Figure 66994DEST_PATH_IMAGE015
的特征。
第三方面,本发明提供一种计算机可读存储介质,其存储用于基于图神经网络的人体动作识别的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于图神经网络的人体动作识别方法。
第四方面,本发明提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于图神经网络的人体动作识别方法。
(三)有益效果
本发明提供了一种基于图神经网络的人体动作识别方法和系统。与现有技术相比,具备以下有益效果:
本发明通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。本发明设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。同时,2D关节识别网络和3D关节识别网络先分别训练,再组合训练,既能提高训练效率,又能提升动作识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于图神经网络的人体动作识别方法的框图;
图2为本发明实施例中2D关节识别网络的结构图;
图3为本发明实施例中3D关节识别网络的结构图;
图4和图5为多层级的骨架图,其中,图4为第一层级为人体16节点的骨架图,图5为第二层级为对称空间骨架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于图神经网络的人体动作识别方法和系统,解决了现有方法动作识别效果差的技术问题,实现精确的动作识别。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
现有的动作识别方法主要是利用OpenPose等算法对输入视频进行动作估计并由此构造出骨架的时空序列图,之后采用多层时空图卷积(ST-GCN),逐步在图上生成更高层次的特征图,最后采用标准的Softmax分类器将其分类为相应的动作类别。该方法直接采用现有的OpenPose等算法直接输出2D关节位置,因此缺少比较精确的2D关节信息从而导致3D动作识别效果差。同时,该方法的多层时空图卷积(ST-GCN)直接采用邻接矩阵,每一层当前节点只聚合当前节点的一阶邻居,而没有考虑高阶的邻居,感受野大小受限,需要堆叠较为多的图卷积层。
为解决现有的动作识别方法中的缺陷,本发明实施例提出多等级特征融合的2D关节识别网络,该2D关节识别网络能够识别浅层局部特征以及深层全局特征,并通过不同等级特征之间的融合从而精确识别2D关节点。并基于图神经网络构造时空图卷积时间序列的3D关节识别网络,在3D关节识别网络中预定义多层级人体骨骼关节节点,并设定了各层级之间的节点的转换以融合多层级信息,且在除最后一个图卷积块后的每个图卷积块后添加一个自注意力层以增强全局感受野下节点内时间特征信息的关注,修正边缘节点(双手双脚)识别位置的异常偏离,并采用时间卷积对预测的3D关节点特征信息进行聚合,最后通过分类层输出准确的动作分类结果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于图神经网络的人体动作识别方法,该方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。如图1所示,该人体动作识别网络的训练过程包括:
S1、获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图。
本发明实施例设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。同时,2D关节识别网络和3D关节识别网络先分别训练,再组合训练,既能提高训练效率,又能提升动作识别的精度。
下面对各个步骤进行详细描述:
在步骤S1中,获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作标签。具体实施过程如下:
在本发明实施例中,数据来源可以使自建数据集,也可以是开源数据集。
在步骤S2中,通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络。具体实施过程如下:
为了从视频中准确提取出时间序列2D关节点位置,提出了一种多等级特征融合的半密集2D关节识别网络(该网络为基于U-Net和ResNet神经网络的多层次特征融合网络2D关节识别网络),其输入为单张图片,输出为图片中人体的2D关节点的像素坐标系坐标x i ÎR
Figure 232396DEST_PATH_IMAGE026
,以f表示此2D关节识别网络,则网络的目标为最小化输出的每个关节的坐标x i 与2D真值坐标
Figure 470610DEST_PATH_IMAGE027
的差值和,表示为:
Figure 303437DEST_PATH_IMAGE028
其中,V为预定义的关节数,本发明实施例V=16。
2D关节识别网络的网络结构为编码器解码器结构,且编码器与解码器结构对称,其中编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征。2D关节识别网络的具体结构如图2所示。
编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图,特征等级排序为从低到高。同理,解码器上采样块对应特征为上采样图像特征图、上采样局部特征图、上采样提取特征图和全局特征图。
下采样与上采样提取的各等级特征经采样操作输出为下一等级特征,而下采样的尺寸减小操作会丢失部分信息,这些信息无法通过上采样恢复,因此,在上采样与下采样对应等级特征间搭建短连接以恢复下采样丢失信息。同时,为进一步提高精确度并尽可能减少计算量,设计低级底层特征融合,将网络的下采样对应低层特征图通过对应的卷积操作融合进上采样特征,特别的,对于每一个上采样特征图,本发明实施例只融合下采样多等级特征图中比之低等级的特征图,例如,对于上采样局部特征图,本发明实施例只融合下采样图像特征图与下采样局部特征图。
以一张3*224*224图片为例,2D关节识别网络首先进行下采样第一阶段,即两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至64的下采样图像特征图,进行最大池化下采样操作得到编码器第二阶段的输入,且下采样特征图复制下采样到当前尺寸一半及当前尺寸的1/4分别与上采样第一、二、三阶段的其他输入部分融合作为输入。然后进行下采样第二阶段,同样两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至128的下采样局部特征图,进行最大池化下采样操作得到编码器第三阶段的输入,且下采样特征图复制以及下采样到当前尺寸一半分别与上采样第一、二阶段的其他输入部分融合作为输入。然后进行下采样第三阶段,同样两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至256的下采样局部特征图,进行最大池化下采样操作得到编码器第四阶段的输入,且下采样特征图复制与上采样第一阶段的其他输入部分融合作为输入。最后进行下采样第四阶段,同样两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至512的全局特征图,作为解码器第一阶段的输入。
与4层下采样相同,构造除下采样第四阶段同等维度映射的3层上采样,并在每一级别的下采样的输入前构建一个卷积层,将多尺度的上采样信息分别卷积并融合乘当前尺度,再拼接起来送入当前上采样层作为输入,上采样的最后一层为所有关节对应的通道,按通道顺序表示索引顺序关节的2D关节位置热图。所得热图会与关节2D真值坐标生成的高斯热图进行计算热图损失,热图损失loss0的计算公式如下:
Figure 588312DEST_PATH_IMAGE016
其中,x ij 为2D关节点热图的像素坐标值;
Figure 506590DEST_PATH_IMAGE017
为关节2D真值坐标生成的高斯热图 的像素坐标值;X为热图横坐标像素数;Y为热图纵坐标像素数。
在具体实施过程中,第一预设阈值一般设置为65。
在步骤S3中,通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-α)loss2,直至loss小于第二预设阈值时,得到3D关节识别网络。具体实施过程如下:
在本发明实施例中,第二阈值设置为0.0001平方米。
经过2D关节识别网络识别,较快速精确地获得了所有帧的2D关节点位置,接下来通过3D关节识别网络将2D关节位置提升到3D关节位置。其目的是对给定的2D关节坐标序列
Figure 17337DEST_PATH_IMAGE029
进行3D位姿估计输出对应三维相机空间坐标
Figure 704670DEST_PATH_IMAGE030
,则3D关节识别网络的表示函数
Figure 157517DEST_PATH_IMAGE031
,并使得每个预测关节坐标
Figure 438457DEST_PATH_IMAGE032
3D真值坐标
Figure 143107DEST_PATH_IMAGE033
之间的误差最小表示为:
Figure 75160DEST_PATH_IMAGE034
整个3D关节识别网络由一些多层级图卷积编码器解码器块组成,其输入由图嵌入层将2D关节信息编码为高维潜特征向量,其输出经预测层输出3D关节坐标。本发明实施例的3D关节识别网络如图3所示,包括多个相同结构的图卷积块,每个图卷积块包括一个分层图卷积和一个时间卷积,除最后一个图卷积块,每个图卷积块后接批归一化BN和线性整流单元ReLU,并添加一个帧级自注意力层。在3D关节识别网络中,设计了如图4和图5所示的多层级骨架图,骨架图融合映射成下一等级的骨架图的规则如下:
0,7,8,9 →0
1,2,3 →1
4,5,6 →2
10,11,12 →3
13,14,15 →4
其中,0~15表示本发明实施例中本发明实施例中骨架图的节点数的标号。图4为第一层级为人体16节点的骨架图,图5为第二层级为对称空间骨架图。
帧级2D关节位置构建成时间序列骨架图在输入到3D关节识别网络的输入后,提取这一输入的全局特征。具体包括:
对所有原始输入的2D关节坐标进行信息提取,从而使后续每个图卷积块都能重新融合原始全局特征信息,具体操作为:将所有帧坐标拼接并通过全连接提取对应潜空间维度特征,得到2D全局特征信息
Figure 574275DEST_PATH_IMAGE014
Figure 76931DEST_PATH_IMAGE014
= Glo(concat(Flatten(x ij )))
其中,Glo为全连接函数,concat为拼接操作,Flatten为展开,将二维坐标展开为一个维度、长度均为2的张量Tensor(如像素坐标(x,y),在存储中的Tensor是[[x],[y]],展开成一个维度就是[[x,y]]),x ij 为第i帧第j个关节。
图卷积是定义为解决图结构数据无法有效进行卷积运算问题的网络结构,其输入数据一般为图G,其中G=(VA)表示一张图,V为预定义的N个关节数,本发明实施例中,N=16,
Figure 319694DEST_PATH_IMAGE035
为邻居矩阵,表示不同节点间的信息关联。给定第m层特征X m R N×C ,则图卷积网络会从邻居矩阵A中聚合关联邻居节点特征从而更新当前节点特征,表示为:
Figure 840674DEST_PATH_IMAGE036
其中,
Figure 510690DEST_PATH_IMAGE037
,为可学习的权重矩阵。R表示维度,该公式表示第m层的特征是N×CNC为两个维度,C为每个特征在当前层的特征维度,本发明实施例设置C=128。
本发明实施例的3D关节识别网络针对其中的权重W共享问题,采用节点级共享权重,即对每一个节点,都有其对应的W,表示为邻居节点更新权重
Figure 766222DEST_PATH_IMAGE038
,且对于不同层级邻居节点有不同的更新权重W,表示为第d层级邻居图邻居节点更新权重
Figure 674659DEST_PATH_IMAGE039
。本发明实施例将邻居矩阵图分为解耦层、一邻居层、二邻居层、三邻居层多层,更好的结合了其他节点的信息。且由于图卷积网络针对每个节点只聚合其邻居节点信息,只能通过逐层扩大感受野,而无法有效结合全局信息的问题,设计了分层全局信息与2D全局信息融合模块,从而有效结合全局信息,使网络较好收敛并消除抑制个别节点预测异常问题。
本发明实施例的3D关节识别网络的每个多层级图卷积编码器解码器块结构相同,且其中依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 456670DEST_PATH_IMAGE001
) d=1,2,3..
其中,
Figure 907375DEST_PATH_IMAGE002
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 509257DEST_PATH_IMAGE003
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 218456DEST_PATH_IMAGE004
的进行分组融合得到融合后的融合特征图特征
Figure 323815DEST_PATH_IMAGE024
,即
Figure 335634DEST_PATH_IMAGE040
在融合特征图上进行一阶邻居聚合:
Figure 300179DEST_PATH_IMAGE025
然后预定义的分组规则
Figure 422855DEST_PATH_IMAGE008
其中,
Figure 772934DEST_PATH_IMAGE009
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 690075DEST_PATH_IMAGE010
为第d层邻居的权重;
Figure 141916DEST_PATH_IMAGE011
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 68283DEST_PATH_IMAGE012
的下标ii所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 882656DEST_PATH_IMAGE013
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 626490DEST_PATH_IMAGE014
为2D全局特征信息。
进行不同层级特征聚合。再对所有节点特征维度按时间进行因果卷积聚合时间信息,依次堆叠多个此聚合块。更具体地,对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点
Figure 159102DEST_PATH_IMAGE015
的特征,且每个
Figure 764527DEST_PATH_IMAGE015
的更新都有自己的权重,就
Figure 698985DEST_PATH_IMAGE041
而言,具体为
Figure 628368DEST_PATH_IMAGE042
更新时对所有的
Figure 913856DEST_PATH_IMAGE042
的一二三邻居
Figure 57393DEST_PATH_IMAGE015
都以对应权重进行门控输出,并以一定权重将三层邻居特征与当前特征聚合得到更新后的特征,再将分组规则下映射的
Figure 111937DEST_PATH_IMAGE042
对应的分组特征、
Figure 807360DEST_PATH_IMAGE042
对应的分组特征更新后的特征以及对3D关节识别网络中输入的2D关节坐标序列融合的全局特征信息
Figure 439199DEST_PATH_IMAGE014
以一定权重聚合,得到层更新后的
Figure 245481DEST_PATH_IMAGE042
的特征。
本发明实施例中的3D关节识别网络由很多具有上述相同结构的图卷积块组成,其中包括几个由两个多层级图卷积编码器解码器块组成的残差连接块,除最后一个图卷积块,每个图卷积块后接批归一化BN和线性整流单元ReLU,并且添加一个帧级自注意力层进行肢体的自注意以提升肢体接触和遮挡的识别能力,即以8帧的节点信息为输入,计算帧节点间的信息相似度,进行帧级自注意。
loss1和loss2的计算公式如下:
Figure 295476DEST_PATH_IMAGE018
Figure 161801DEST_PATH_IMAGE021
其中,T为设计的输入3D关节识别网络的视频帧数;
Figure 546515DEST_PATH_IMAGE019
为3D关节识别网络;y ti 为第t 帧第i个索引关节的3D相机坐标网络估计值;
Figure 890908DEST_PATH_IMAGE020
为第t帧第i个索引关节的3D真值坐标;
F为符号函数,如果值大于阈值输出为1,否则为0;J为预定义的按骨连接的关节对 索引(即有骨连接的两个索引关节组成一个关节对索引,共17个关节索引对,每个索引对为 两个关节索引);β为超参,即每个不合理骨骼误差惩罚;y tj0 为第t帧第j个关节索引对的第 1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j个关节索引对的第2个关节索引的 3D相机坐标网络估计值,
Figure 920044DEST_PATH_IMAGE022
为第t帧第j个关节索引对的第1个关节索引的3D相机坐标标 签真值,
Figure 567057DEST_PATH_IMAGE023
为第t帧第j个关节索引对的第2个关节索引的3D相机坐标标签真值。
S4、将预训练好的2D关节识别网络、3D关节识别网络和全连接层组合,得到初始人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵损失,优化初始人体动作识别网络,得到人体动作识别网络。
本发明实施例的人体动作识别方法可运用在多个应用场景,如行为安全监测、健身评分、动作纠正、骨科肌力康复评估等。
本发明实施例还提供一种基于图神经网络的人体动作识别系统,该系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。预先训练的基于图神经网络模块包括:
数据集单元,用于获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
2D单元,用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
3D单元,用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
组合单元,用于将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
优化单元,用于将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
可理解的是,本发明实施例提供的基于图神经网络的人体动作识别系统与上述基于图神经网络的人体动作识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于图神经网络的人体动作识别方法中的相应内容,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其存储用于基于图神经网络的人体动作识别的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于图神经网络的人体动作识别方法。
本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于图神经网络的人体动作识别方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。
2、现有的基于深度学习的研究方法主要基于网络算法的改进而很少有损失函数的提出,且目前提出的一些损失函数无法较好的对网络识别的动作合理性进行约束,本发明实施例构造了动作合理性损失函数,提升了网络识别的3D动作的合理性从而提高了最终分类效果。
3、现有的基于图神经网络进行3D骨骼关键点识别方法很少会用到全局特征,而本发明实施例将空间图卷积更新后的节点特征与多层级骨骼特征更新后的骨骼层级特征以及3D识别网络中输入的视频的2D全局特征信息充分融合以学习全局动作从而更好推断关节相关信息。
4、现有的图神经网络方法虽然有部分结合了自注意力机制,但都是对整个身体进行自注意,而本发明实施例进行基于预定义的骨架图进行帧级自注意,从而提高了网络时间信息的获取能力,具有动作不合理、肢体位置异常等问题的鲁棒性。同时,本发明实施例设计了人体信息对称多层级骨架图,是人体所有关节骨架图的更优解,其中第一层级为人体16节点的骨架图,第二层级为对称空间骨架图。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于图神经网络的人体动作识别方法,其特征在于,所述方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述人体动作识别网络的训练过程包括:
S1、获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络;
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图。
2.如权利要求1所述的基于图神经网络的人体动作识别方法,其特征在于,所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure DEST_PATH_IMAGE002
) d=1,2,3..
其中,
Figure DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure DEST_PATH_IMAGE008
的进行分组融合得到融合后的融合特征图特征
Figure DEST_PATH_IMAGE010
,即
Figure DEST_PATH_IMAGE012
在融合特征图上进行一阶邻居聚合:
Figure DEST_PATH_IMAGE014
然后预定义的分组规则
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure DEST_PATH_IMAGE024
的下标ii所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure DEST_PATH_IMAGE028
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点
Figure DEST_PATH_IMAGE030
的特征。
3.如权利要求2所述的基于图神经网络的人体动作识别方法,其特征在于,所述3D关节识别网络还包括:帧级自注意力层,所述帧级自注意力层位于除最后一个图卷积块的所有图卷积块后。
4.如权利要求1所述的基于图神经网络的人体动作识别方法,其特征在于,所述基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失包括:
Figure DEST_PATH_IMAGE032
其中,x ij 为2D关节点热图的像素坐标值;
Figure DEST_PATH_IMAGE033
为关节2D真值坐标生成的高斯热图的像素 坐标值;X为热图横坐标像素数;Y为热图纵坐标像素数。
5.如权利要求1~4任一所述的基于图神经网络的人体动作识别方法,其特征在于,所述帧级关节点位置差损失loss1的计算方法包括:
Figure DEST_PATH_IMAGE035
其中,V为预定义的关节数;T为设计的输入3D关节识别网络的视频帧数;
Figure DEST_PATH_IMAGE036
为3D关节识 别网络;y ti 为第t帧第i个索引关节的3D相机坐标网络估计值;
Figure DEST_PATH_IMAGE037
为第t帧第i个索引关节 的3D真值坐标。
6.如权利要求1~4任一所述的基于图神经网络的人体动作识别方法,其特征在于,所述帧级关节点位置差损失loss2的计算方法包括:
Figure DEST_PATH_IMAGE039
其中,T为设计的输入3D关节识别网络的视频帧数;F为符号函数,如果值大于阈值输出 为1,否则为0;J为预定义的按骨连接的关节对索引;β为每个不合理骨骼误差惩罚;y tj0 为 第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j个关 节索引对的第2个关节索引的3D相机坐标网络估计值,
Figure DEST_PATH_IMAGE040
为第t帧第j个关节索引对的第 1个关节索引的3D相机坐标标签真值,
Figure DEST_PATH_IMAGE041
为第t帧第j个关节索引对的第2个关节索引的 3D相机坐标标签真值。
7.一种基于图神经网络的人体动作识别系统,其特征在于,所述系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述预先训练的基于图神经网络模块包括:
数据集单元,用于获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
2D单元,用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
3D单元,用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
组合单元,用于将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
优化单元,用于将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
8.如权利要求7所述的基于图神经网络的人体动作识别系统,其特征在于,所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 106732DEST_PATH_IMAGE002
) d=1,2,3..
其中,
Figure 492714DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 741292DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 402081DEST_PATH_IMAGE008
的进行分组融合得到融合后的融合特征图特征
Figure DEST_PATH_IMAGE043
,即
Figure DEST_PATH_IMAGE044
在融合特征图上进行一阶邻居聚合:
Figure 872245DEST_PATH_IMAGE014
然后预定义的分组规则
Figure DEST_PATH_IMAGE016A
其中,
Figure 851965DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 322260DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure 990002DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 924460DEST_PATH_IMAGE024
的下标ii所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 635933DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 593525DEST_PATH_IMAGE028
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点
Figure 799378DEST_PATH_IMAGE030
的特征。
9.一种计算机可读存储介质,其特征在于,其存储用于基于图神经网络的人体动作识别的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~6任一所述的基于图神经网络的人体动作识别方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~6任一所述的基于图神经网络的人体动作识别方法。
CN202211201978.5A 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统 Active CN115273244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211201978.5A CN115273244B (zh) 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211201978.5A CN115273244B (zh) 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统

Publications (2)

Publication Number Publication Date
CN115273244A true CN115273244A (zh) 2022-11-01
CN115273244B CN115273244B (zh) 2022-12-20

Family

ID=83758044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211201978.5A Active CN115273244B (zh) 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统

Country Status (1)

Country Link
CN (1) CN115273244B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409638A (zh) * 2022-11-02 2022-11-29 中国平安财产保险股份有限公司 基于人工智能的牲畜保险承保和理赔方法及相关设备
CN116524601A (zh) * 2023-06-21 2023-08-01 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116665312A (zh) * 2023-08-02 2023-08-29 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN117152670A (zh) * 2023-10-31 2023-12-01 江西拓世智能科技股份有限公司 一种基于人工智能的行为识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111444896A (zh) * 2020-05-09 2020-07-24 北京碧拓科技有限公司 一种远红外热成像人体经络关键点定位方法
CN113191243A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于相机距离的人手三维姿态估计模型建立方法及其应用
US20210350620A1 (en) * 2020-05-07 2021-11-11 Imperial College Innovations Limited Generative geometric neural networks for 3d shape modelling
CN114898467A (zh) * 2022-05-26 2022-08-12 华南师范大学 人体运动动作识别方法、系统及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
US20210350620A1 (en) * 2020-05-07 2021-11-11 Imperial College Innovations Limited Generative geometric neural networks for 3d shape modelling
CN111444896A (zh) * 2020-05-09 2020-07-24 北京碧拓科技有限公司 一种远红外热成像人体经络关键点定位方法
CN113191243A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN114898467A (zh) * 2022-05-26 2022-08-12 华南师范大学 人体运动动作识别方法、系统及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409638A (zh) * 2022-11-02 2022-11-29 中国平安财产保险股份有限公司 基于人工智能的牲畜保险承保和理赔方法及相关设备
CN115409638B (zh) * 2022-11-02 2023-03-24 中国平安财产保险股份有限公司 基于人工智能的牲畜保险承保和理赔方法及相关设备
CN116524601A (zh) * 2023-06-21 2023-08-01 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116524601B (zh) * 2023-06-21 2023-09-12 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116665312A (zh) * 2023-08-02 2023-08-29 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN116665312B (zh) * 2023-08-02 2023-10-31 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN117152670A (zh) * 2023-10-31 2023-12-01 江西拓世智能科技股份有限公司 一种基于人工智能的行为识别方法及系统

Also Published As

Publication number Publication date
CN115273244B (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN115273244B (zh) 基于图神经网络的人体动作识别方法和系统
WO2022001489A1 (zh) 一种无监督域适应的目标重识别方法
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110288555B (zh) 一种基于改进的胶囊网络的低照度增强方法
CN113361334B (zh) 基于关键点优化和多跳注意图卷积行人重识别方法及系统
CN111382686B (zh) 一种基于半监督生成对抗网络的车道线检测方法
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
WO2023134084A1 (zh) 多标签识别方法、装置、电子设备及存储介质
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN112070044B (zh) 一种视频物体分类方法及装置
WO2021243947A1 (zh) 对象再识别方法及装置、终端和存储介质
CN113255714A (zh) 图像聚类方法、装置、电子设备及计算机可读存储介质
CN110163060B (zh) 图像中人群密度的确定方法及电子设备
WO2024040973A1 (zh) 一种基于堆叠沙漏网络的多尺度融合去雾方法
CN111553296B (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN113393457A (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN114359631A (zh) 基于编码-译码弱监督网络模型的目标分类与定位方法
CN111241326B (zh) 基于注意力金字塔图网络的图像视觉关系指代定位方法
CN114596589A (zh) 一种基于交互级联轻量化transformers的域自适应行人重识别方法
CN112801107A (zh) 一种图像分割方法和电子设备
CN115544239A (zh) 一种基于深度学习模型的布局偏好预测方法
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN112417991A (zh) 基于沙漏胶囊网络的双注意力人脸对齐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant