CN115273244B - 基于图神经网络的人体动作识别方法和系统 - Google Patents

基于图神经网络的人体动作识别方法和系统 Download PDF

Info

Publication number
CN115273244B
CN115273244B CN202211201978.5A CN202211201978A CN115273244B CN 115273244 B CN115273244 B CN 115273244B CN 202211201978 A CN202211201978 A CN 202211201978A CN 115273244 B CN115273244 B CN 115273244B
Authority
CN
China
Prior art keywords
joint
network
layer
loss
human body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211201978.5A
Other languages
English (en)
Other versions
CN115273244A (zh
Inventor
翟凯
欧阳波
杨善林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202211201978.5A priority Critical patent/CN115273244B/zh
Publication of CN115273244A publication Critical patent/CN115273244A/zh
Application granted granted Critical
Publication of CN115273244B publication Critical patent/CN115273244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于图神经网络的人体动作识别方法和系统,涉及图像处理技术领域。本发明通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。本发明设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。

Description

基于图神经网络的人体动作识别方法和系统
技术领域
本发明涉及图像处理技术领域,具体涉及一种基于图神经网络的人体动作识别方法和系统。
背景技术
近年来,深度学习领域对人体动作识别的研究取得喜人进展,且在单目、多目的单帧静态图像及视频等各个方面进行了广泛且深入的研究。基于单帧的方法目的为以单张图片为输入,分析识别人的动作,而视频则包含了人体运动的整个时间流,包含了更多的信息,且可在时间上进行优化从而使得识别的动作更加平滑。以一个视频为例,动作识别算法首先有2D关节检测器识别每张图像中人关节的像素坐标,一般由卷积神经网络组成,部分方法直接采用集成好的OpenPose算法,然后输入到3D关节估计器估计每张图像中人关节的3D空间坐标,由于基于骨骼的人体关节数据的图结构特征,近年来基于图卷积的人体动作识别方法层出不穷,性能也优于基于卷积和全连接的方法。
目前的3D估计算法大部分采用时间序列输入,从人体动作时间流中寻找信息从而提高3D识别精度及采用光流等方法进行动作平滑,已有的算法如Spatial Temporal GraphConvolutional Networks for Skeleton-Based Action Recognition(用于骨骼的动作识别的时空图卷积网络)便采用时空图形式结合获取的视频的时间以及空间信息估计3D动作,但其采用OpenPose软件获得人体2D关键点,在输入精度有所欠缺,导致动作识别效果差。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于图神经网络的人体动作识别方法和系统,解决了现有方法动作识别效果差的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于图神经网络的人体动作识别方法,其特征在于,所述方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述人体动作识别网络的训练过程包括:
S1、获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络;
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图。
优选的,所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 266572DEST_PATH_IMAGE002
) d=1,2,3
其中,
Figure 892725DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 483106DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 446383DEST_PATH_IMAGE008
进行分组融合得到融合后的融合特征图特征
Figure 602558DEST_PATH_IMAGE010
,即
Figure 868454DEST_PATH_IMAGE012
在融合特征图上进行一阶邻居聚合:
Figure 805186DEST_PATH_IMAGE014
然后预定义的分组规则
Figure DEST_PATH_IMAGE016AAA
其中,
Figure 40996DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 520518DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure 754054DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 443661DEST_PATH_IMAGE024
是指第i节点所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 358527DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 817191DEST_PATH_IMAGE028
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点i的特征
Figure 221627DEST_PATH_IMAGE030
优选的,所述3D关节识别网络还包括:帧级自注意力层,所述帧级自注意力层位于除最后一个图卷积块的所有图卷积块后。
优选的,所述基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失包括:
Figure DEST_PATH_IMAGE032AA
其中,x uh 为2D关节点热图的像素坐标值;
Figure 870302DEST_PATH_IMAGE034
为关节2D真值坐标生成的高斯热图的像素坐标值;U为热图横坐标像素数;H为热图纵坐标像素数。
优选的,所述帧级关节点位置差损失loss1的计算方法包括:
Figure DEST_PATH_IMAGE036AA
其中,V为预定义的关节数;T为设计的输入3D关节识别网络的视频帧数;
Figure 385597DEST_PATH_IMAGE038
为3D关节识别网络;y ti 为第t帧第i个节点的3D相机坐标网络估计值;
Figure 636450DEST_PATH_IMAGE040
为第t帧第i个节点的3D真值坐标。
优选的,所述帧级关节点合理性损失loss2的计算方法包括:
Figure DEST_PATH_IMAGE042AA
其中,T为设计的输入3D关节识别网络的视频帧数;F为符号函数,如果值大于阈值输出为1,否则为0;J为预定义的按骨连接的关节对索引;Q为每个不合理骨骼误差惩罚;y tj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值,
Figure 336421DEST_PATH_IMAGE044
为第t帧第j个关节索引对的第1个关节索引的3D相机坐标标签真值,
Figure 672725DEST_PATH_IMAGE046
为第t帧第j个关节索引对的第2个关节索引的3D相机坐标标签真值。
第二方面,本发明提供一种基于图神经网络的人体动作识别系统,所述系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述预先训练的基于图神经网络模块包括:
数据集单元,用于获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
2D单元,用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
3D单元,用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
组合单元,用于将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
优化单元,用于将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
优选的,所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 194973DEST_PATH_IMAGE002
) d=1,2,3
其中,
Figure 362649DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 312150DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 870171DEST_PATH_IMAGE048
进行分组融合得到融合后的融合特征图特征
Figure 320744DEST_PATH_IMAGE050
,即
Figure 483872DEST_PATH_IMAGE012
在融合特征图上进行一阶邻居聚合:
Figure 463329DEST_PATH_IMAGE052
然后预定义的分组规则
Figure DEST_PATH_IMAGE016AAAA
其中,
Figure 39804DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 700592DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure 839931DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 396814DEST_PATH_IMAGE024
是指第i节点所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 257323DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 659485DEST_PATH_IMAGE028
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点i的特征
Figure 656260DEST_PATH_IMAGE030
第三方面,本发明提供一种计算机可读存储介质,其存储用于基于图神经网络的人体动作识别的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于图神经网络的人体动作识别方法。
第四方面,本发明提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于图神经网络的人体动作识别方法。
(三)有益效果
本发明提供了一种基于图神经网络的人体动作识别方法和系统。与现有技术相比,具备以下有益效果:
本发明通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。本发明设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。同时,2D关节识别网络和3D关节识别网络先分别训练,再组合训练,既能提高训练效率,又能提升动作识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于图神经网络的人体动作识别方法的框图;
图2为本发明实施例中2D关节识别网络的结构图;
图3为本发明实施例中3D关节识别网络的结构图;
图4和图5为多层级的骨架图,其中,图4为第一层级为人体16节点的骨架图,图5为第二层级为对称空间骨架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于图神经网络的人体动作识别方法和系统,解决了现有方法动作识别效果差的技术问题,实现精确的动作识别。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
现有的动作识别方法主要是利用OpenPose等算法对输入视频进行动作估计并由此构造出骨架的时空序列图,之后采用多层时空图卷积(ST-GCN),逐步在图上生成更高层次的特征图,最后采用标准的Softmax分类器将其分类为相应的动作类别。该方法直接采用现有的OpenPose等算法直接输出2D关节位置,因此缺少比较精确的2D关节信息从而导致3D动作识别效果差。同时,该方法的多层时空图卷积(ST-GCN)直接采用邻接矩阵,每一层当前节点只聚合当前节点的一阶邻居,而没有考虑高阶的邻居,感受野大小受限,需要堆叠较为多的图卷积层。
为解决现有的动作识别方法中的缺陷,本发明实施例提出多等级特征融合的2D关节识别网络,该2D关节识别网络能够识别浅层局部特征以及深层全局特征,并通过不同等级特征之间的融合从而精确识别2D关节点。并基于图神经网络构造时空图卷积时间序列的3D关节识别网络,在3D关节识别网络中预定义多层级人体骨骼关节节点,并设定了各层级之间的节点的转换以融合多层级信息,且在除最后一个图卷积块后的每个图卷积块后添加一个自注意力层以增强全局感受野下节点内时间特征信息的关注,修正边缘节点(双手双脚)识别位置的异常偏离,并采用时间卷积对预测的3D关节点特征信息进行聚合,最后通过分类层输出准确的动作分类结果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供一种基于图神经网络的人体动作识别方法,该方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。如图1所示,该人体动作识别网络的训练过程包括:
S1、获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图。
本发明实施例设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。同时,2D关节识别网络和3D关节识别网络先分别训练,再组合训练,既能提高训练效率,又能提升动作识别的精度。
下面对各个步骤进行详细描述:
在步骤S1中,获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作标签。具体实施过程如下:
在本发明实施例中,数据来源可以使自建数据集,也可以是开源数据集。
在步骤S2中,通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络。具体实施过程如下:
为了从视频中准确提取出时间序列2D关节点位置,提出了一种多等级特征融合的半密集2D关节识别网络(该网络为基于U-Net和ResNet神经网络的多层次特征融合网络2D关节识别网络),其输入为单张图片,输出为图片中人体的2D关节点的像素坐标系坐标x i ÎR
Figure 180782DEST_PATH_IMAGE054
,以f表示此2D关节识别网络,则网络的目标为最小化输出的每个关节的坐标x i 与2D真值坐标
Figure 403953DEST_PATH_IMAGE056
的差值和,表示为:
Figure DEST_PATH_IMAGE058A
其中,V为预定义的关节数,本发明实施例V=16。
2D关节识别网络的网络结构为编码器解码器结构,且编码器与解码器结构对称,其中编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征。2D关节识别网络的具体结构如图2所示。
编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图,特征等级排序为从低到高。同理,解码器上采样块对应特征为上采样图像特征图、上采样局部特征图、上采样提取特征图和全局特征图。
下采样与上采样提取的各等级特征经采样操作输出为下一等级特征,而下采样的尺寸减小操作会丢失部分信息,这些信息无法通过上采样恢复,因此,在上采样与下采样对应等级特征间搭建短连接以恢复下采样丢失信息。同时,为进一步提高精确度并尽可能减少计算量,设计低级底层特征融合,将网络的下采样对应低层特征图通过对应的卷积操作融合进上采样特征,特别的,对于每一个上采样特征图,本发明实施例只融合下采样多等级特征图中比之低等级的特征图,例如,对于上采样局部特征图,本发明实施例只融合下采样图像特征图与下采样局部特征图。
以一张3*224*224图片为例,2D关节识别网络首先进行下采样第一阶段,即两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至64的下采样图像特征图,进行最大池化下采样操作得到编码器第二阶段的输入,且下采样特征图复制下采样到当前尺寸一半及当前尺寸的1/4分别与上采样第一、二、三阶段的其他输入部分融合作为输入。然后进行下采样第二阶段,同样两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至128的下采样局部特征图,进行最大池化下采样操作得到编码器第三阶段的输入,且下采样特征图复制以及下采样到当前尺寸一半分别与上采样第一、二阶段的其他输入部分融合作为输入。然后进行下采样第三阶段,同样两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至256的下采样局部特征图,进行最大池化下采样操作得到编码器第四阶段的输入,且下采样特征图复制与上采样第一阶段的其他输入部分融合作为输入。最后进行下采样第四阶段,同样两层卷积且每层卷积维持尺寸不变,获得尺寸不变特征通道升至512的全局特征图,作为解码器第一阶段的输入。
与4层下采样相同,构造除下采样第四阶段同等维度映射的3层上采样,并在每一级别的下采样的输入前构建一个卷积层,将多尺度的上采样信息分别卷积并融合乘当前尺度,再拼接起来送入当前上采样层作为输入,上采样的最后一层为所有关节对应的通道,按通道顺序表示索引顺序关节的2D关节位置热图。所得热图会与关节2D真值坐标生成的高斯热图进行计算热图损失,热图损失loss0的计算公式如下:
Figure DEST_PATH_IMAGE032AAA
其中,x uh 为2D关节点热图的像素坐标值;
Figure 265599DEST_PATH_IMAGE034
为关节2D真值坐标生成的高斯热图的像素坐标值;U为热图横坐标像素数;H为热图纵坐标像素数。
在具体实施过程中,第一预设阈值一般设置为65。
在步骤S3中,通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-α)loss2,直至loss小于第二预设阈值时,得到3D关节识别网络。具体实施过程如下:
在本发明实施例中,第二阈值设置为0.0001平方米。
经过2D关节识别网络识别,较快速精确地获得了所有帧的2D关节点位置,接下来通过3D关节识别网络将2D关节位置提升到3D关节位置。其目的是对给定的2D关节坐标序列
Figure 116880DEST_PATH_IMAGE060
进行3D位姿估计输出对应三维相机空间坐标
Figure 15566DEST_PATH_IMAGE062
,则3D关节识别网络的表示函数
Figure 585088DEST_PATH_IMAGE064
,并使得每个预测关节坐标
Figure 391370DEST_PATH_IMAGE066
3D真值坐标
Figure 503682DEST_PATH_IMAGE040
之间的误差最小表示为:
Figure DEST_PATH_IMAGE068A
整个3D关节识别网络由一些多层级图卷积编码器解码器块组成,其输入由图嵌入层将2D关节信息编码为高维潜特征向量,其输出经预测层输出3D关节坐标。本发明实施例的3D关节识别网络如图3所示,包括多个相同结构的图卷积块,每个图卷积块包括一个分层图卷积和一个时间卷积,除最后一个图卷积块,每个图卷积块后接批归一化BN和线性整流单元ReLU,并添加一个帧级自注意力层。在3D关节识别网络中,设计了如图4和图5所示的多层级骨架图,骨架图融合映射成下一等级的骨架图的规则如下:
0,7,8,9 →0
1,2,3 →1
4,5,6 →2
10,11,12 →3
13,14,15 →4
其中,0~15表示本发明实施例中本发明实施例中骨架图的节点数的标号。图4为第一层级为人体16节点的骨架图,图5为第二层级为对称空间骨架图。
帧级2D关节位置构建成时间序列骨架图在输入到3D关节识别网络的输入后,提取这一输入的全局特征。具体包括:
对所有原始输入的2D关节坐标进行信息提取,从而使后续每个图卷积块都能重新融合原始全局特征信息,具体操作为:将所有帧坐标拼接并通过全连接提取对应潜空间维度特征,得到2D全局特征信息
Figure 231991DEST_PATH_IMAGE028
Figure 429755DEST_PATH_IMAGE028
= Glo(concat(Flatten(x ij )))
其中,Glo为全连接函数,concat为拼接操作,Flatten为展开,将二维坐标展开为一个维度、长度均为2的张量Tensor(如像素坐标(x,y),在存储中的Tensor是[[x],[y]],展开成一个维度就是[[x,y]]),x ij 为第i帧第j个关节。
图卷积是定义为解决图结构数据无法有效进行卷积运算问题的网络结构,其输入数据一般为图G,其中G=(VA)表示一张图,V为预定义的N个关节数,本发明实施例中,N=16,
Figure 774148DEST_PATH_IMAGE070
为邻居矩阵,表示不同节点间的信息关联。给定第m层特征X m R N×C ,则图卷积网络会从邻居矩阵A中聚合关联邻居节点特征从而更新当前节点特征,表示为:
Figure DEST_PATH_IMAGE072A
其中,
Figure 662339DEST_PATH_IMAGE074
,为可学习的权重矩阵。R表示维度,该公式表示第m层的特征是N×CNC为两个维度,C为每个特征在当前层的特征维度,本发明实施例设置C=128。
本发明实施例的3D关节识别网络针对其中的权重W共享问题,采用节点级共享权重,即对每一个节点,都有其对应的W,表示为邻居节点更新权重
Figure 433986DEST_PATH_IMAGE076
,且对于不同层级邻居节点有不同的更新权重W,表示为第d层级邻居图邻居节点更新权重
Figure 853466DEST_PATH_IMAGE078
。本发明实施例将邻居矩阵图分为解耦层、一邻居层、二邻居层、三邻居层多层,更好的结合了其他节点的信息。且由于图卷积网络针对每个节点只聚合其邻居节点信息,只能通过逐层扩大感受野,而无法有效结合全局信息的问题,设计了分层全局信息与2D全局信息融合模块,从而有效结合全局信息,使网络较好收敛并消除抑制个别节点预测异常问题。
本发明实施例的3D关节识别网络的每个多层级图卷积编码器解码器块结构相同,且其中依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 329446DEST_PATH_IMAGE002
) d=1,2,3
其中,
Figure 150772DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 358899DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 390309DEST_PATH_IMAGE048
进行分组融合得到融合后的融合特征图特征
Figure 14189DEST_PATH_IMAGE050
,即
Figure 80234DEST_PATH_IMAGE012
在融合特征图上进行一阶邻居聚合:
Figure 396945DEST_PATH_IMAGE052
然后预定义的分组规则
Figure DEST_PATH_IMAGE016_5A
其中,
Figure 384493DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 202276DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure 794932DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 548124DEST_PATH_IMAGE024
是指第i节点所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 574634DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 540316DEST_PATH_IMAGE028
为2D全局特征信息。
进行不同层级特征聚合。再对所有节点特征维度按时间进行因果卷积聚合时间信息,依次堆叠多个此聚合块。更具体地,对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点i的特征
Figure 315374DEST_PATH_IMAGE030
,且每个
Figure 36205DEST_PATH_IMAGE030
的更新都有自己的权重,就
Figure 404870DEST_PATH_IMAGE080
而言,具体为
Figure 298876DEST_PATH_IMAGE082
更新时对所有的
Figure 803807DEST_PATH_IMAGE082
的一二三邻居
Figure 695540DEST_PATH_IMAGE030
都以对应权重进行门控输出,并以一定权重将三层邻居特征与当前特征聚合得到更新后的特征,再将分组规则下映射的
Figure 676134DEST_PATH_IMAGE082
对应的分组特征、
Figure 983618DEST_PATH_IMAGE082
对应的分组特征更新后的特征以及对3D关节识别网络中输入的2D关节坐标序列融合的全局特征信息
Figure 733269DEST_PATH_IMAGE028
以一定权重聚合,得到层更新后的
Figure 795903DEST_PATH_IMAGE082
的特征。
本发明实施例中的3D关节识别网络由很多具有上述相同结构的图卷积块组成,其中包括几个由两个多层级图卷积编码器解码器块组成的残差连接块,除最后一个图卷积块,每个图卷积块后接批归一化BN和线性整流单元ReLU,并且添加一个帧级自注意力层进行肢体的自注意以提升肢体接触和遮挡的识别能力,即以8帧的节点信息为输入,计算帧节点间的信息相似度,进行帧级自注意。
loss1和loss2的计算公式如下:
Figure DEST_PATH_IMAGE036AAA
Figure DEST_PATH_IMAGE042AAA
其中,T为设计的输入3D关节识别网络的视频帧数;
Figure 732635DEST_PATH_IMAGE038
为3D关节识别网络;y ti 为第t帧第i个节点的3D相机坐标网络估计值;
Figure 499602DEST_PATH_IMAGE040
为第t帧第i个节点的3D真值坐标;
F为符号函数,如果值大于阈值输出为1,否则为0;J为预定义的按骨连接的关节对索引(即有骨连接的两个索引关节组成一个关节对索引,共15个关节索引对,每个索引对为两个关节索引);Q为每个不合理骨骼误差惩罚;y tj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值,
Figure 775863DEST_PATH_IMAGE044
为第t帧第j个关节索引对的第1个关节索引的3D相机坐标标签真值,
Figure 947081DEST_PATH_IMAGE046
为第t帧第j个关节索引对的第2个关节索引的3D相机坐标标签真值。
S4、将预训练好的2D关节识别网络、3D关节识别网络和全连接层组合,得到初始人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵损失,优化初始人体动作识别网络,得到人体动作识别网络。
本发明实施例的人体动作识别方法可运用在多个应用场景,如行为安全监测、健身评分、动作纠正、骨科肌力康复评估等。
本发明实施例还提供一种基于图神经网络的人体动作识别系统,该系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层。预先训练的基于图神经网络模块包括:
数据集单元,用于获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
2D单元,用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
3D单元,用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
组合单元,用于将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
优化单元,用于将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络。
可理解的是,本发明实施例提供的基于图神经网络的人体动作识别系统与上述基于图神经网络的人体动作识别方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于图神经网络的人体动作识别方法中的相应内容,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其存储用于基于图神经网络的人体动作识别的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于图神经网络的人体动作识别方法。
本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于图神经网络的人体动作识别方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例设计了一种基于图神经网络的人体动作识别网络,利用带有短连接的下采样和对应上采样层来实现数据的2D特征提取和关节点识别,以此输出作为图神经网络的骨架图输入,从而输出准确的3D动作从而从动作序列识别对应的动作分类,避免出现因缺少比较精确的2D关节信息从而导致3D动作识别效果差的技术问题,实现精确的动作识别。
2、现有的基于深度学习的研究方法主要基于网络算法的改进而很少有损失函数的提出,且目前提出的一些损失函数无法较好的对网络识别的动作合理性进行约束,本发明实施例构造了动作合理性损失函数,提升了网络识别的3D动作的合理性从而提高了最终分类效果。
3、现有的基于图神经网络进行3D骨骼关键点识别方法很少会用到全局特征,而本发明实施例将空间图卷积更新后的节点特征与多层级骨骼特征更新后的骨骼层级特征以及3D识别网络中输入的视频的2D全局特征信息充分融合以学习全局动作从而更好推断关节相关信息。
4、现有的图神经网络方法虽然有部分结合了自注意力机制,但都是对整个身体进行自注意,而本发明实施例进行基于预定义的骨架图进行帧级自注意,从而提高了网络时间信息的获取能力,具有动作不合理、肢体位置异常等问题的鲁棒性。同时,本发明实施例设计了人体信息对称多层级骨架图,是人体所有关节骨架图的更优解,其中第一层级为人体16节点的骨架图,第二层级为对称空间骨架图。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于图神经网络的人体动作识别方法,其特征在于,所述方法通过预先训练的基于图神经网络的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述人体动作识别网络的训练过程包括:
S1、获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
S2、通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
S3、通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
S4、将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
S5、将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络;
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图;
所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure DEST_PATH_IMAGE002
) d=1,2,3
其中,
Figure DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure DEST_PATH_IMAGE008
进行分组融合得到融合后的融合特征图特征
Figure DEST_PATH_IMAGE010
,即
Figure DEST_PATH_IMAGE012
在融合特征图上进行一阶邻居聚合:
Figure DEST_PATH_IMAGE014
然后预定义的分组规则
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure DEST_PATH_IMAGE024
是指第i节点所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure DEST_PATH_IMAGE028
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点的特征;
所述帧级关节点合理性损失loss2的计算方法包括:
Figure DEST_PATH_IMAGE030
其中,T为设计的输入3D关节识别网络的视频帧数;F为符号函数,如果值大于阈值输出为1,否则为0;
Figure DEST_PATH_IMAGE032
为3D关节识别网络;J为预定义的按骨连接的关节对索引;Q为每个不合理骨骼误差惩罚;y tj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值,
Figure DEST_PATH_IMAGE034
为第t帧第j个关节索引对的第1个关节索引的3D相机坐标标签真值,
Figure DEST_PATH_IMAGE036
为第t帧第j个关节索引对的第2个关节索引的3D相机坐标标签真值。
2.如权利要求1所述的基于图神经网络的人体动作识别方法,其特征在于,所述3D关节识别网络还包括:帧级自注意力层,所述帧级自注意力层位于除最后一个图卷积块的所有图卷积块后。
3.如权利要求1所述的基于图神经网络的人体动作识别方法,其特征在于,所述基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失包括:
Figure DEST_PATH_IMAGE038
其中,x uh 为2D关节点热图的像素坐标值;
Figure DEST_PATH_IMAGE040
为关节2D真值坐标生成的高斯热图的像素坐标值;U为热图横坐标像素数;H为热图纵坐标像素数。
4.如权利要求1~3任一所述的基于图神经网络的人体动作识别方法,其特征在于,所述帧级关节点位置差损失loss1的计算方法包括:
Figure DEST_PATH_IMAGE042
其中,V为预定义的关节数;T为设计的输入3D关节识别网络的视频帧数;
Figure 772492DEST_PATH_IMAGE032
为3D关节识别网络;y ti 为第t帧第i个节点的3D相机坐标网络估计值;
Figure DEST_PATH_IMAGE044
为第t帧第i节点的3D真值坐标。
5.一种基于图神经网络的人体动作识别系统,其特征在于,所述系统通过预先训练的基于图神经网络模块的人体动作识别网络对输入视频进行处理,输出动作分类,该人体动作识别网络包括2D关节识别网络、3D关节识别网络和全连接分类层,所述预先训练的基于图神经网络模块包括:
数据集单元,用于获取带有真值标签的数据集,所述真值标签包括:2D真值坐标、3D真值坐标和真实动作分类标签;
2D单元,用于通过预设的2D关节识别网络结构对数据集中的视频按帧进行2D关节点识别,得到2D关节点热图,基于2D关节点热图与关节2D真值坐标生成的高斯热图进行计算热图损失,优化预设的2D关节识别网络结构,直至热图损失小于第一预设阈值时,得到2D关节识别网络;
3D单元,用于通过2D关节识别网络对数据集中的视频按帧进行2D关节点识别并获取最大响应值位置,得到帧级2D关节位置,将所得到的帧级2D关节位置构建成时间序列骨架图并输入到3D关节识别网络中,得到3D关节位置,根据3D关节位置和3D真值坐标计算帧级关节点位置差损失loss1和帧级关节点合理性损失loss2,并计算loss=αloss1+(1-αloss2,直至loss小于第二预设阈值时,得到3D关节识别网络;
组合单元,用于将2D关节识别网络、3D关节识别网络和全连接分类层组合,得到人体动作识别网络;
优化单元,用于将数据集中的视频输入到人体动作识别网络,得到动作分类,根据动作分类和真实动作,计算多分类交叉熵误差,优化人体动作识别网络;
其中,所述预设的2D关节识别网络结构为编码器解码器结构,且编码器与解码器结构对称;其中,编码器为下采样层提取全局特征,解码器为上采样层恢复局部特征;编码器分为四个网络块,块之间进行下采样,块内进行卷积并维持尺寸以进行短连接,每个块的最后输出为当前等级的特征图,从输入到下采样的最后一个块的输出分别为下采样图像特征图、下采样局部特征图、下采样提取特征图和全局特征图;
所述3D关节识别网络包括多个相同结构的图卷积块,每个所述图卷积块包括一个分层图卷积和一个时间卷积;
其中,每个图卷积块的编码器解码器块结构相同,且依次进行空间与时间的信息更新,具体为首先对每帧图像进行多阶邻居空间信息聚合,其中:
Figure 890620DEST_PATH_IMAGE002
) d=1,2,3
其中,
Figure 286967DEST_PATH_IMAGE004
表示为更新后的第m+1层的d层邻居特征,A d 为第d层邻居骨架图,X m 为第m层的特征,M d 为第d层邻居的加权权重矩阵,W为特征更新矩阵,d=1,2,3,表示对应3层邻居层;
获得每一层级特征,通过
Figure 81616DEST_PATH_IMAGE006
聚合各层级特征输出更新后的节点特征,对获得的更新后的特征图进行融合节点图获取全局信息,具体为对更新后的节点特征
Figure 930624DEST_PATH_IMAGE008
进行分组融合得到融合后的融合特征图特征
Figure 711498DEST_PATH_IMAGE010
,即
Figure 837717DEST_PATH_IMAGE012
在融合特征图上进行一阶邻居聚合:
Figure 413055DEST_PATH_IMAGE014
然后预定义的分组规则
Figure DEST_PATH_IMAGE016A
其中,
Figure 933379DEST_PATH_IMAGE018
为第m+1层加权聚合各层信息后的第m+1层特征;
Figure 252365DEST_PATH_IMAGE020
为第d层邻居的权重;
Figure 498670DEST_PATH_IMAGE022
为第m+1层最终聚合更新后的第i个节点的特征;βδγ为权重,是超参;a为按对称空间骨架图分组规则聚合各组信息,
Figure 244909DEST_PATH_IMAGE024
是指第i节点所对应的组的特征;A 1为对称空间骨架图邻居图,
Figure 193142DEST_PATH_IMAGE026
分别为对称空间骨架图的加权权重矩阵和特征更新矩阵;
Figure 315819DEST_PATH_IMAGE028
为2D全局特征信息;
对于空间信息聚合,采用空域图卷积邻居节点聚合每个节点的特征;
所述帧级关节点合理性损失loss2的计算方法包括:
Figure DEST_PATH_IMAGE030A
其中,T为设计的输入3D关节识别网络的视频帧数;F为符号函数,如果值大于阈值输出为1,否则为0;J为预定义的按骨连接的关节对索引;Q为每个不合理骨骼误差惩罚;
Figure 213368DEST_PATH_IMAGE032
为3D关节识别网络;y tj0 为第t帧第j个关节索引对的第1个关节索引的3D相机坐标网络估计值,y tj1 为第t帧第j个关节索引对的第2个关节索引的3D相机坐标网络估计值,
Figure 130508DEST_PATH_IMAGE034
为第t帧第j个关节索引对的第1个关节索引的3D相机坐标标签真值,
Figure 831617DEST_PATH_IMAGE036
为第t帧第j个关节索引对的第2个关节索引的3D相机坐标标签真值。
6.一种计算机可读存储介质,其特征在于,其存储用于基于图神经网络的人体动作识别的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~4任一所述的基于图神经网络的人体动作识别方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~4任一所述的基于图神经网络的人体动作识别方法。
CN202211201978.5A 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统 Active CN115273244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211201978.5A CN115273244B (zh) 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211201978.5A CN115273244B (zh) 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统

Publications (2)

Publication Number Publication Date
CN115273244A CN115273244A (zh) 2022-11-01
CN115273244B true CN115273244B (zh) 2022-12-20

Family

ID=83758044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211201978.5A Active CN115273244B (zh) 2022-09-29 2022-09-29 基于图神经网络的人体动作识别方法和系统

Country Status (1)

Country Link
CN (1) CN115273244B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115409638B (zh) * 2022-11-02 2023-03-24 中国平安财产保险股份有限公司 基于人工智能的牲畜保险承保和理赔方法及相关设备
CN116524601B (zh) * 2023-06-21 2023-09-12 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116665312B (zh) * 2023-08-02 2023-10-31 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN117152670A (zh) * 2023-10-31 2023-12-01 江西拓世智能科技股份有限公司 一种基于人工智能的行为识别方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111444896A (zh) * 2020-05-09 2020-07-24 北京碧拓科技有限公司 一种远红外热成像人体经络关键点定位方法
CN113191243A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN114898467A (zh) * 2022-05-26 2022-08-12 华南师范大学 人体运动动作识别方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210350620A1 (en) * 2020-05-07 2021-11-11 Imperial College Innovations Limited Generative geometric neural networks for 3d shape modelling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209861A (zh) * 2020-01-06 2020-05-29 浙江工业大学 一种基于深度学习的动态手势动作识别方法
CN111444896A (zh) * 2020-05-09 2020-07-24 北京碧拓科技有限公司 一种远红外热成像人体经络关键点定位方法
CN113191243A (zh) * 2021-04-25 2021-07-30 华中科技大学 基于相机距离的人手三维姿态估计模型建立方法及其应用
CN114898467A (zh) * 2022-05-26 2022-08-12 华南师范大学 人体运动动作识别方法、系统及存储介质

Also Published As

Publication number Publication date
CN115273244A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN115273244B (zh) 基于图神经网络的人体动作识别方法和系统
Gosala et al. Bird’s-eye-view panoptic segmentation using monocular frontal view images
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN111382686B (zh) 一种基于半监督生成对抗网络的车道线检测方法
CN115063445B (zh) 基于多尺度层次化特征表示的目标跟踪方法与系统
CN111259786A (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN112307883B (zh) 训练方法、装置、电子设备以及计算机可读存储介质
CN112560865B (zh) 一种室外大场景下点云的语义分割方法
CN113361334A (zh) 基于关键点优化和多跳注意图卷积行人重识别方法及系统
CN112991350A (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN110163060B (zh) 图像中人群密度的确定方法及电子设备
CN113255714A (zh) 图像聚类方法、装置、电子设备及计算机可读存储介质
CN113393457A (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN111553296A (zh) 一种基于fpga实现的二值神经网络立体视觉匹配方法
Niu et al. Boundary-aware RGBD salient object detection with cross-modal feature sampling
CN114373224A (zh) 基于自监督学习的模糊3d骨架动作识别方法及装置
CN113393435B (zh) 一种基于动态上下文感知滤波网络的视频显著性检测方法
CN114758285B (zh) 基于锚自由和长时注意力感知的视频交互动作检测方法
CN116189306A (zh) 基于联合注意力机制的人体行为识别方法
CN113962846A (zh) 图像对齐方法及装置、计算机可读存储介质及电子设备
CN113936333A (zh) 一种基于人体骨架序列的动作识别算法
CN115757874B (zh) 人脸与人体协同检索方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant