CN111476181B - 一种人体骨架动作的识别方法 - Google Patents

一种人体骨架动作的识别方法 Download PDF

Info

Publication number
CN111476181B
CN111476181B CN202010282867.6A CN202010282867A CN111476181B CN 111476181 B CN111476181 B CN 111476181B CN 202010282867 A CN202010282867 A CN 202010282867A CN 111476181 B CN111476181 B CN 111476181B
Authority
CN
China
Prior art keywords
information
joint
skeleton
attention
stream data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202010282867.6A
Other languages
English (en)
Other versions
CN111476181A (zh
Inventor
于明
李�杰
郝小可
郭迎春
朱叶
刘依
阎刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Technology
Original Assignee
Hebei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Technology filed Critical Hebei University of Technology
Priority to CN202010282867.6A priority Critical patent/CN111476181B/zh
Publication of CN111476181A publication Critical patent/CN111476181A/zh
Application granted granted Critical
Publication of CN111476181B publication Critical patent/CN111476181B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明一种人体骨架动作的识别方法,涉及用于识别图形的方法,是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,充分挖掘不同特征信息的多样性和互补性,利用注意力机制自适应地调整空间结构各关节点的权重值和视频序列各帧的重要性,使用图卷积网络进行人体骨架的动作识别,克服了人体骨架的动作识别方法的现有技术,均存在无法更好地捕获时空特征信息,容易对人体较难动作的识别出现错误的缺陷。

Description

一种人体骨架动作的识别方法
技术领域
本发明的技术方案涉及用于识别图形的方法,具体地说是一种人体骨架动作的识别方法。
背景技术
近年来,随着视频采集传感器的广泛应用及人体姿态估计算法的不断发展,及其在智能视频监控、病人监护系统、人机交互和虚拟现实中的潜在应用,人的动作识别受到了越来越多的关注。基于机器视觉的人体动作识别是将包含人体动作的视频添加上动作类型的标签,其目的是分析理解视频中个人的动作和多人之间的交互行为。
根据输入数据的类型,人体动作识别分为基于RGB视频的方法和基于骨架视频的方法。与RGB图像相比,人体骨架数据具有轻巧、抗背景噪声及鲁棒性强的优点。目前针对人体动作识别的深度学习方法主要有递归神经网络、卷积神经网络和图卷积神经网络。其中,递归神经网络从原始骨架输入中识别人类动作,其中特征学习和时间动态建模由神经网络完成。卷积神经网络轻松构建深度网络,并具备出色的提取高级信息的能力。虽然这些方法显示出令人鼓舞的改进,但是不能推广到从任意形式的人体骨架中提取时空特征信息进行动作识别。因为人体骨架是关节自然连接的不规则的连通图,并不是2D或者3D的网格形式,这样就不能像先前的卷积神经网络一样直接从人体骨架中提取关键的特征信息。为了克服这些缺陷,需要一种新的方法,该方法能够捕获关节空间结构中的特征信息。最近,将卷积神经网络扩展为任意结构图的图卷积网络引起了重视,其明确考虑了非欧几里德空间中关节之间的相邻关系。
有关人体骨架动作识别方法现有技术的报道如下:2015年Yong Du在《The IEEEConference on Computer Vision and Pattern Recognition》上发表的论文“Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition”中,提出了一种用于动作识别的端到端分层RNN,它将整个人体分为五个部分,每个部分被馈送到不同的子网,并且子网的输出是分层融合的。2016年Jun Liu在《EuropeanConference on Computer Vision》上发表的论文“Spatio-Temporal LSTM with TrustGates for 3D Human Action Recognition”中,将LSTM扩展到空间-时间域,以明确建模关节之间的相关性,并引入新的门控机制来处理骨骼数据中的噪声和遮挡。上述这些方法忽略了人体骨架中各关节之间以及两相邻关节边的空间结构特征,从而无法有效利用人体骨架连通图的空间拓扑结构捕捉更重要的时空特征信息,进行动作识别的任务。同时,这些方法针对骨架连通图中各关节点对识别任务的贡献率以及动作视频序列中不同帧对识别任务的影响程度都没有进行充分的考虑。
2019年Bin Li在《The Thirty-Third AAAI Conference on ArtificialIntelligence》上发表的论文“Spatio-Temporal Graph Routing for Skeleton-BasedAction Recognition”中,提出了一种新的时空图路线方案,它自适应地学习物理上分开的骨架关节的内在高阶连通性关系。空间图路线旨在沿空间维度的子组聚类发现关节之间的连通性关系,而时间图路线通过测量时间关节节点轨迹之间的相关程度来探索结构信息,该方法存在忽略了运动中关键点和关键帧的重要性,无法更准确的提取时空特征信息的缺陷。2019年Maosen Li在《IEEE Conference on Computer Vision and PatternRecognition》上发表的论文“Actional-Structural Graph Convolutional Networks forSkeleton-based Action Recognition”中,提出了使用推断模块来捕获特定于动作的潜在依赖关系的动作连接,并将动作连接与结构连接组合为广义骨架图,该方法存在没有充分考虑视频时间序列关键帧的重要性和时空特征之间的相关关系的缺陷。CN110348395A公开了一种基于时空关系的骨架行为识别方法,该方法结合卷积神经网络和长短时记忆网络作为行为识别模型,自适应的提取人体骨架在时间空间上的动作行为特征,进行行为分类,该方法存在没有利用骨架数据的图形结构,并且难以推广到任意形式的骨架,进而不能有效捕捉人体骨架图中关节点之间的空间特征信息的缺陷。CN108764050A公开了一种基于角度无关性的骨架行为识别方法、系统及设备,该方法只在提高角度无关性骨架行为识别的准确率,其存在在空域注意力模块中忽略了周围邻居节点对中心节点的不同影响,不能更好提取重要的特征信息的缺陷。CN108304795A公开了一种基于深度强化学习的人体骨架行为识别方法及装置,该方法通过不断强化学习筛选关键帧,但存在没有考虑骨架图中各关节点在动作视频序列的不同重要程度的缺陷。CN110059620A公开了一种基于时空注意力的骨骼行为识别方法,该方法将计算方式类似的时间注意力模块和节点注意力模块串联,添加在卷积网络模块后,其存在不能分别对空间卷积和时间卷积操作赋予更准确的权重值的缺陷。CN110222611A公开了一种基于图卷积网络的人体骨架行为识别方法、系统、装置,该方法存在计算量较大,仅能具有低于文中阈值边的特征信息,其余边之间的相关关系没有被考虑,将会丢失一部分特征信息,从而影响动作识别准确性的提升的缺陷。CN110222653A公开了一种基于图卷积神经网络的骨架数据行为识别方法,该方法着重在于利用骨架数据的拓扑结构,提取空间结构信息,其存在而忽略了视频帧时间序列信息的重要性的缺陷。CN110210372A公开了一种基于注意增强图卷积网络的骨架行为识别方法、系统,该方法忽略了视频动作序列中不同帧之间同一关节的运动特征信息。(https://mp.weixin.qq.com/s?__biz=MzIyNjY3MjQ5NA==&mid=2247483930&idx=1&sn=0131c07a9ecefec691b478589fe5fbb5&chksm=e86da81bdf1a210d23f8415da25ac16159b211e59f3dc8cec9b2957af19960a6181dbc987a87&mpshare=1&scene=23&srcid=1215rG7OW0vUbnGdI3EYErFG#rd)报道“基于双流递归神经网络的人体骨架行为识别”,公开了一种基于双流递归神经网络的方法,该方法分别对骨架坐标的时间动态特性和空间相对关系建模,其存在无法完全表示人体骨架图的拓扑结构,不能有效提取骨架图的空间位置结构信息的缺陷。
总之,相关人体骨架的动作识别方法的现有技术,均存在无法更好地捕获时空特征信息,容易对人体较难动作的识别出现错误的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种人体骨架动作的识别方法,是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,充分挖掘不同特征信息的多样性和互补性,利用注意力机制自适应地调整空间结构各关节点的权重值和视频序列各帧的重要性,使用图卷积网络进行人体骨架的动作识别,克服了人体骨架的动作识别方法的现有技术,均存在无法更好地捕获时空特征信息,容易对人体较难动作的识别出现错误的缺陷。
本发明解决该技术问题所采用的技术方案是:一种人体骨架动作的识别方法,是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,具体步骤如下:
第一步,生成多角度骨架特征的训练数据:
所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据,
首先对于一组输入的人体骨架动作的视频序列,构建人体骨架的无向连通图,其中关节点作为图的顶点,关节点之间的自然连接作为图的边,定义骨架图G={V,E},其中,V是n个关节点的集合,E是m个骨架边的集合,由如下公式(1)得到骨架图的邻接矩阵Ak∈{0,1}n×n
Figure BDA0002447374140000031
再利用其关节点的坐标数据,通过在3D空间中旋转来获得任意视点的关节序列,使用旋转矩阵将给定视点的关节点坐标数据X转换为另一个视点的关节点坐标数据,即为生成的关节信息流数据
Figure BDA0002447374140000032
其计算公式(2)如下所示,
Figure BDA0002447374140000033
公式(2)中,RT为旋转矩阵,
根据生成的关节信息流数据
Figure BDA0002447374140000034
进一步生成骨骼信息流数据
Figure BDA0002447374140000035
和运动信息流数据
Figure BDA0002447374140000036
具体方法如下:
计算从骨骼边源关节点的三维坐标V1=(X1,Y1,Z1)指向目标关节点的三维坐标V2=(X2,Y2,Z2)的向量,得到骨骼边
Figure BDA0002447374140000037
过程如下公式(3)所示,
Figure BDA0002447374140000038
公式(3)中,X1,Y1,Z1为V1的三维坐标值,X2,Y2,Z2为V2的三维坐标值,
所有骨骼边
Figure BDA0002447374140000039
的集合即为骨骼信息流数据
Figure BDA00024473741400000310
由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标Vt=(Xt,Yt,Zt),前一帧的三维坐标Vt-1=(Xt-1,Yt-1,Zt-1)和后一帧的三维坐标Vt+1=(Xt+1,Yt+1,Zt+1),计算对应坐标差的向量,得到运动边
Figure BDA00024473741400000311
过程如下公式(4)所示,
Figure BDA00024473741400000312
所有运动边
Figure BDA00024473741400000313
的集合即为运动信息流数据
Figure BDA00024473741400000314
至此生成多角度骨架特征的训练数据;
第二步,在空间域提取空间特征信息Xsout
将上述第一步所得到关节信息流数据
Figure BDA0002447374140000041
骨骼信息流数据
Figure BDA0002447374140000042
和运动信息流数据
Figure BDA0002447374140000043
三种多角度骨架特征信息的训练数据,同时馈送到空间图卷积模块中进行训练,具体操作步骤如下:
第(2.1)步,进行图注意力模块操作,获得空间注意力Mk
根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值eij,计算公式(5)如下所示,
eij=LeakyReLU(XinW1)W2 (5),
公式(5)中,Xin为关节信息流数据
Figure BDA0002447374140000044
骨骼信息流数据
Figure BDA0002447374140000045
或运动信息流数据
Figure BDA0002447374140000046
三种信息流数据的训练数据中的任意一种,W1是特征维度上线性图层的参数,W2是时间维度上线性图层的参数,LeakyReLU是一个激活函数,
进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值αij,如下公式(6)所示,
Figure BDA0002447374140000047
公式(6)中,Ni为关节点i的邻居节点的集合,eik为关节点i与集合Ni中所有任一关节点的图注意力值,k为集合Ni中的任一关节点的索引,
相对图注意力值αij的矩阵为空间注意力Mk
第(2.2)步,提取空间特征信息Xsout
将关节信息流数据
Figure BDA0002447374140000048
骨骼信息流数据
Figure BDA0002447374140000049
和运动信息流数据
Figure BDA00024473741400000410
分别输入到每个信息流的空间图卷积模块中,其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略,即以人体所有关节点的坐标平均值作为人体骨架的重心,采用相邻节点的一阶邻域,比根节点距离重心更近的节点作为向心点,比根节点距离重心更远的节点作为离心点,进行空间图卷积模块操作提取空间特征信息Xsout,用如下所示公式(7)计算,
Figure BDA00024473741400000411
公式(7)中,Xsout为关节信息流数据的空间特征信息
Figure BDA00024473741400000412
骨骼信息流数据的空间特征信息
Figure BDA00024473741400000413
或运动信息流数据的空间特征信息
Figure BDA00024473741400000414
三种信息流数据的空间特征信息中的任意一种,K为空间维度的卷积核大小,使用上述的分区策略,K设置为3,
Figure BDA00024473741400000415
为如下公式(8)所示的归一化后的邻接矩阵,Wk为特征信息的重要性,Mk为一个N×N的相对图注意力值的矩阵,表示每条边的权重值,*为哈达玛积,
Figure BDA00024473741400000416
公式(8)中,Ak为一个N×N的邻接矩阵,Λk为一个对角矩阵,
对角元素的值为
Figure BDA00024473741400000417
其计算方法如下公式(9)所示,
Figure BDA0002447374140000051
公式(9)中,关节点j为关节点i所有相连接的任一关节点,
Figure BDA00024473741400000510
为邻接矩阵Ak中关节点i的对应值;
由此完成在空间域提取空间特征信息Xsout
第三步,在时间域提取时间特征信息Xtout
第(3.1)步,进行时间注意力模块操作,获得时间注意力Mt
调整上述第二步提取的空间特征信息Xsout的各帧之间的不同重要性,用如下所示公式(10)计算获得时间注意力值Tatt
Figure BDA0002447374140000052
公式(10)中,Sp为在第p帧经过空间图卷积模块后提取的空间特征信息,Sq为在第q帧经过空间图卷积模块后提取的空间特征信息,Z(S)为用于正则化的函数,g(·)为一个一元函数计算Sq的表示形式,成对函数f(Sp,Sq)定义了各帧之间的相关关系,其计算方法如下公式(11)所示,
Figure BDA0002447374140000053
公式(11)中,θ(·)和φ(·)为两个特征嵌入函数,θ(·)由如下公式(12)得到,φ(·)由如下公式(13)得到,T表示转置操作,
θ(Sp)=WθSp (12),
公式(12)中,Wθ是可学习的参数,在网络训练时动态变化,
φ(Sq)=WφSq (13),
公式(13)中,Wφ是可学习的参数,在网络训练时动态变化,
时间注意力值Tatt的矩阵为时间注意力Mt
第(3.2)步,提取时间特征信息Xtout
沿着时间维度,将关节信息流数据的空间特征信息
Figure BDA0002447374140000054
骨骼信息流数据的空间特征信息
Figure BDA0002447374140000055
和运动信息流数据的空间特征信息
Figure BDA0002447374140000056
分别输入到每个信息流的时间卷积模块中,进行时间卷积模块操作提取时间特征信息Xtout,用如下所示公式(14)计算,
Xtout=MtXsoutWo (14),
公式(14)中,Xtout为关节信息流数据的时间特征信息
Figure BDA0002447374140000057
骨骼信息流数据的时间特征信息
Figure BDA0002447374140000058
和运动信息流数据的时间特征信息
Figure BDA0002447374140000059
三种信息流数据的时间特征信息中的任意一种,Wo为一个能够学习的矩阵参数,
由此完成在时间域提取时间特征信息Xtout
第四步,在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout
将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起,称为图卷积网络,上述第二步中的空间注意力和第三步的时间注意力组合在一起,称为时空注意力,上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起,称为一个时空卷积模块,整体网络框架共有10个这样的时空卷积模块,其中第一个时空卷积模块的作用为批处理归一化,接下来的三个时空卷积模块的输出通道分别为64通道,再接下来的三个时空卷积模块的输出通道为128通道,最后三个时空卷积模块的输出通道为256通道,其中每个时空卷积模块都附有一个残差模块,保留之前的信息,增强重要的信息,在残差模块中,添加了改进的关节之间的共现特征的学习算法,该残差模块共五个卷积分支和一个上采样层,上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作,由此得到残差模块提取的残差特征信息F(Xtout),进一步用如下所示公式(15)计算最终特征信息Xout
Xout=Xtout+F(Xtout) (15),
公式(15)中,Xout为关节信息流数据的最终特征信息
Figure BDA0002447374140000061
骨骼信息流数据的最终特征信息
Figure BDA0002447374140000062
和运动信息流数据的最终特征信息
Figure BDA0002447374140000063
三种信息流数据的最终特征信息中的任意一种,F(Xtout)为关节信息流数据的残差特征信息
Figure BDA0002447374140000064
骨骼信息流数据的最终特征信息
Figure BDA0002447374140000065
和运动信息流数据的最终特征信息
Figure BDA0002447374140000066
三种信息流数据的残差特征信息中的任意一种,
由此完成在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout
第五步,三流动态融合后的预测类标签
Figure BDA0002447374140000067
将上述第四步获得的关节信息流数据的最终特征信息
Figure BDA0002447374140000068
骨骼信息流数据的最终特征信息
Figure BDA0002447374140000069
和运动信息流数据的最终特征信息
Figure BDA00024473741400000610
分别输入到每个信息流的softmax层,相应得到关节信息流的预测概率值为
Figure BDA00024473741400000611
骨骼信息流的预测概率值为
Figure BDA00024473741400000612
运动信息流的预测概率值为
Figure BDA00024473741400000613
将关节信息流的预测概率值
Figure BDA00024473741400000614
骨骼信息流的预测概率值
Figure BDA00024473741400000615
和运动信息流的预测概率值
Figure BDA00024473741400000616
进行动态地加权融合,得到三流动态融合后的预测类标签
Figure BDA00024473741400000617
如下公式(16)所示,
Figure BDA00024473741400000618
公式(16)中,Wj为关节信息流的动态融合变化的权重值,Wb为骨骼信息流的动态融合变化的权重值,Wm为运动信息流的动态融合变化的权重值,
至此,由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法;
第六步,结合时空注意力与图卷积网络的人体骨架动作识别方法的训练:
经过上述五个步骤的操作之后,使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示,
Figure BDA00024473741400000619
公式(17)中,Y为待测试动作真实标签,
通过随机梯度下降算法优化网络的参数,使交叉熵损失函数L达到最小化,
由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练;
第七步,结合时空注意力与图卷积网络的人体骨架动作识别方法的度量:
计算上述第五步所获得的三流动态融合后的预测类标签
Figure BDA0002447374140000071
与待测试动作真实标签Y之间的准确率,计算方法如下公式(18)所示,
Figure BDA0002447374140000072
公式(18)中,TP为动作被预测为相应类标签的数目,SP为各类标签的总数目;
由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量,
至此,完成人体骨架动作的识别。
一种人体骨架动作的识别方法,所述softmax层,上采样操作、所有的转置操作、双线性插值操作和随机梯度下降算法及关节之间的共现特征的学习算法均为本领域公知的技术。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明方法提出一种结合时空注意力与图卷积网络的人体骨架动作识别方法,对传统骨架图其固定的物理拓扑结构进行了调整,加入自适应邻接矩阵的方法,构建一种新的卷积核,提取更丰富的判别信息。在空间域中,使用图注意力模块,自适应地调整空间维度上节点之间的重要性。在时间域中,使用时间注意力模块,自适应地调整时间维度上各视频帧的重要性。在每个时空卷积模块,都添加一个残差模块,加入改进的共现特征,聚合局部的共现特征和全局的共现特征,以捕获动作中涉及的长期关节的相互影响。分别提取人体骨架的关节信息流,骨骼信息流和运动信息流的特征后,利用这三个信息流特征之间的互补性和多样性,将三流的预测概率值进行动态地融合,得到预测精度。本发明方法引入时空注意力机制更好地提取时空特征的判别信息,加入自适应邻接矩阵动态捕获学习新的拓扑结构,充分利用人体骨架的空间结构,解决了现有技术方法物理拓扑结构固定的缺陷,从而实现人体骨架动作的识别,提高识别的准确率。
(2)CN110348395A公开了一种基于时空关系的骨架行为识别方法,该方法结合卷积神经网络和长短时记忆网络作为行为识别模型,将人体骨架表示成矩阵的形式作为模型的输入,并将骨架序列进行分段处理,自适应的提取人体骨架在时间空间上的动作行为特征,进行行为分类,该方法没有利用骨架数据的图形结构,并且难以推广到任意形式的骨架,进而不能有效捕捉人体骨架图中关节点之间的空间特征信息。与CN110348395A相比,本发明方法是通过构建人体骨架无向图,采用图卷积的方法,更好地利用了骨架图的空间拓扑结构,提取高丰富的特征信息,提高了动作识别的准确性。
(3)CN108764050A公开了一种基于角度无关性的骨架行为识别方法、系统及设备,该方法只在提高角度无关性骨架行为识别的准确率,其在空域注意力模块中忽略了周围邻居节点对中心节点的不同影响,不能更好提取重要的特征信息。与CN110059620A相比,本发明方法采用图注意力模块,其遵循自我关注的方法,通过关注邻居节点来计算骨架图中每个节点的隐含表示,赋予更准确的权重值,提高了识别性能。
(4)CN108304795A公开了一种基于深度强化学习的人体骨架行为识别方法及装置,该方法通过不断挑选出来帧的判别性,去除冗余信息,降低测试阶段计算量,该方法存在没有考虑骨架图中各关节点在动作视频序列的不同重要程度的缺陷。与CN108304795A相比,本发明方法引入图注意力模块,充分利用人体骨架图关节之间的依赖性,赋予各关节点不同的权重,捕获更重要的信息,识别准确率进一步提高。
(5)CN110059620A公开了一种基于时空注意力的骨骼行为识别方法,该方法亦是结合了时空注意力机制,计算空间特征信息和时间特征信息的重要性,并把注意力单元模块嵌入到时间卷积网络和残差连接之间,该方法存在不能分别对空间卷积和时间卷积网络赋予更准确的权重值的缺陷。与CN110059620A相比,本发明在每一次卷积前分别赋予相应的权重值,其次在进行空间卷积或时间卷积提取特征信息,捕获更准确的语义特征,预测结果更加准确。
(6)CN110222611A公开了一种基于图卷积网络的人体骨架行为识别方法、系统、装置,该方法将人体关节自然连接图的自然连接边邻接矩阵与非自然连接边的邻接矩阵进行求和,得到各人体关节连接图的邻接矩阵以及相应的人体关节连接图,再进行时空特征信息的提取进而识别分类,该方法计算量较大,仅能具有低于文中阈值边的特征信息,其余边之间的相关关系没有被考虑,将会丢失一部分特征信息,从而影响动作识别准确性的提升。与CN110222611A相比,本发明方法是加入了自适应邻接矩阵,在网络训练过程中动态学习骨架图空间结构的拓扑结构,弥补了这一缺陷提高识别的准确率。
(7)CN110222653A公开了一种基于图卷积神经网络的骨架数据行为识别方法,是通过将骨架数据按其时间维度进行下采样,得到固定大小的骨架数据,接着将该数据按照三维坐标拆分成三个通道,并分别将每一个空间通道馈送到带有注意力的图卷积模块,将输出结果进行合并,再将其作时空卷积,得到分类结果,该方法着重在于利用骨架数据的拓扑结构,提取空间结构信息,而忽略了视频帧时间序列的重要性。与CN110222653A相比,本发明方法添加了时间注意力模块,给予关键帧更多的权重值,有利于提取更准确的时间信息,能够更精确的预测相应的动作类别。
(8)CN110210372A公开了一种基于注意增强图卷积网络的骨架行为识别方法、系统,该方法首先获取人体骨架序列作为待识别骨架序列,其次通过训练好的骨架行为识别网络,获取预设行为的概率,最后选择概率最高的预设行为作为所述待识别骨架序列的预测行为。该方法忽略了视频动作序列中不同帧之间同一关节的运动特征信息。与CN110210372A相比,本发明方法加入了运动信息流特征信息,能够更加全面地捕获各帧之间同一关节点的运动轨迹信息,有利于准确识别相应的动作。
(9)基于双流递归神经网络的人体骨架行为识别(https://mp.weixin.qq.com/s?__biz=MzIyNjY3MjQ5NA==&mid=2247483930&idx=1&sn=0131c07a9ecefec691b478589fe5fbb5&chksm=e86da81bdf1a210d23f8415da25ac16159b211e59f3dc8cec9b2957af19960a6181dbc987a87&mpshare=1&scene=23&srcid=1215rG7OW0vUbnGdI3EYErFG#rd)公开了一种基于双流递归神经网络的方法。该方法分别对骨架坐标的时间动态特性和空间相对关系建模。其无法完全表示人体骨架图的拓扑结构,不能有效提取骨架图的空间位置结构信息。与基于双流递归神经网络的人体骨架行为识别相比,本发明具有的突出的实质性特点和显著进步是将骨架数据建模为图形结构,在人体骨架图上进行卷积运算,而且三流信息同时训练,能够捕捉更具有判别力的空间信息和时间动态特征信息,有效的进行动作识别。
(10)本发明方法采用图卷积的方法,相比递归神经网络和卷积神经网络,更好地利用了骨架图的空间拓扑结构,提取更丰富的特征信息,提高了动作识别的准确性,使得该方法具有实际的应用价值。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明方法的流程示意框图。
具体实施方式
图1所示实施例表明,本发明方法的流程是:生成多角度骨架特征的训练数据→在空间域提取空间特征信息Xsout→在时间域提取时间特征信息Xtout→在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout→三流动态融合后的预测类标签
Figure BDA0002447374140000091
→结合时空注意力与图卷积网络的人体骨架动作识别方法的训练→结合时空注意力与图卷积网络的人体骨架动作识别方法的度量。
实施例
本实施例的结合时空注意力与图卷积网络的动作识别方法,具体步骤如下:
第一步,生成多角度骨架特征的训练数据:
所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据,
首先对于一组输入的人体骨架动作的视频序列,构建人体骨架的无向连通图,其中关节点作为图的顶点,关节点之间的自然连接作为图的边,定义骨架图G={V,E},其中,V是n个关节点的集合,E是m个骨架边的集合,由如下公式(1)得到骨架图的邻接矩阵Ak∈{0,1}n×n
Figure BDA0002447374140000092
再利用其关节点的坐标数据,通过在3D空间中旋转来获得任意视点的关节序列,使用旋转矩阵将给定视点的关节点坐标数据X转换为另一个视点的关节点坐标数据,即为生成的关节信息流数据
Figure BDA0002447374140000093
其计算公式(2)如下所示,
Figure BDA0002447374140000094
公式(2)中,RT为旋转矩阵,
根据生成的关节信息流数据
Figure BDA0002447374140000095
进一步生成骨骼信息流数据
Figure BDA0002447374140000096
和运动信息流数据
Figure BDA0002447374140000097
具体方法如下:
计算从骨骼边源关节点的三维坐标V1=(X1,Y1,Z1)指向目标关节点的三维坐标V2=(X2,Y2,Z2)的向量,得到骨骼边
Figure BDA0002447374140000098
过程如下公式(3)所示,
Figure BDA0002447374140000099
公式(3)中,X1,Y1,Z1为V1的三维坐标值,X2,Y2,Z2为V2的三维坐标值,
所有骨骼边
Figure BDA0002447374140000101
的集合即为骨骼信息流数据
Figure BDA0002447374140000102
由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标Vt=(Xt,Yt,Zt),前一帧的三维坐标Vt-1=(Xt-1,Yt-1,Zt-1)和后一帧的三维坐标Vt+1=(Xt+1,Yt+1,Zt+1),计算对应坐标差的向量,得到运动边
Figure BDA0002447374140000103
过程如下公式(4)所示,
Figure BDA0002447374140000104
所有运动边
Figure BDA0002447374140000105
的集合即为运动信息流数据
Figure BDA0002447374140000106
至此生成多角度骨架特征的训练数据;
第二步,在空间域提取空间特征信息Xsout
将上述第一步所得到关节信息流数据
Figure BDA0002447374140000107
骨骼信息流数据
Figure BDA0002447374140000108
和运动信息流数据
Figure BDA0002447374140000109
三种多角度骨架特征信息的训练数据,同时馈送到空间图卷积模块中进行训练,在空间维度上,不同节点之间的特征相互影响,并且相互影响是高度动态的,由此,先经过图注意力模块,自适应地调整空间维度上节点之间的相对图注意力值αij,其次在空间域提取空间特征信息Xsout,具体操作步骤如下:
第(2.1)步,进行图注意力模块操作,获得空间注意力Mk
遵循自我关注的方法,通过关注邻居节点来计算骨架图中每个节点的隐含表示,旨在根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值eij,计算公式(5)如下所示,
eij=LeakyReLU(XinW1)W2 (5),
公式(5)中,Xin为关节信息流数据
Figure BDA00024473741400001010
骨骼信息流数据
Figure BDA00024473741400001011
或运动信息流数据
Figure BDA00024473741400001012
三种信息流数据的训练数据中的任意一种,W1是特征维度上线性图层的参数,W2是时间维度上线性图层的参数,LeakyReLU是一个激活函数,
使权重值在不同关节点之间进行比较,对关节点i和与其所有相连接的任一关节点j的图注意力值eij进行标准化处理,进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值αij,如下公式(6)所示,
Figure BDA00024473741400001013
公式(6)中,Ni为关节点i的邻居节点的集合,eik为关节点i与集合Ni中所有任一关节点的图注意力值,k为集合Ni中的任一关节点的索引,
相对图注意力值αij的矩阵为空间注意力Mk
第(2.2)步,提取空间特征信息Xsout
将关节信息流数据
Figure BDA00024473741400001014
骨骼信息流数据
Figure BDA00024473741400001015
和运动信息流数据
Figure BDA00024473741400001016
分别输入到每个信息流的空间图卷积模块中,其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略,即以人体所有关节点的坐标平均值作为人体骨架的重心,采用相邻节点的一阶邻域,比根节点距离重心更近的节点作为向心点,比根节点距离重心更远的节点作为离心点,进行空间图卷积模块操作提取空间特征信息Xsout,用如下所示公式(7)计算,
Figure BDA0002447374140000111
公式(7)中,Xsout为关节信息流数据的空间特征信息
Figure BDA0002447374140000112
骨骼信息流数据的空间特征信息
Figure BDA0002447374140000113
或运动信息流数据的空间特征信息
Figure BDA0002447374140000114
三种信息流数据的空间特征信息中的任意一种,K为空间维度的卷积核大小,使用上述的分区策略,K设置为3,
Figure BDA0002447374140000115
为如下公式(8)所示的归一化后的邻接矩阵,Wk为特征信息的重要性,Mk为一个N×N的相对图注意力值的矩阵,表示每条边的权重值,*为哈达玛积,
Figure BDA0002447374140000116
公式(8)中,Ak为一个N×N的邻接矩阵,Λk为一个对角矩阵,
对角元素的值为
Figure BDA0002447374140000117
其计算方法如下公式(9)所示,
Figure BDA0002447374140000118
公式(9)中,关节点j为关节点i所有相连接的任一关节点,
Figure BDA0002447374140000119
为邻接矩阵Ak中关节点i的对应值;
由此完成在空间域提取空间特征信息Xsout
第三步,在时间域提取时间特征信息Xtout
在时间维度上,骨架视频序列不同时间帧对动作识别任务的影响程度不同。因此,将上一步提取的空间特征信息Xsout,先经过时间注意力模块,适应性地赋予不同帧不同的时间注意力值Tatt,其次在时间域提取时间特征信息Xtout,具体步骤如下:
第(3.1)步,进行时间注意力模块操作,获得时间注意力Mt
调整上述第二步提取的空间特征信息Xsout的各帧之间的不同重要性,用如下所示公式(10)计算获得时间注意力值Tatt
Figure BDA00024473741400001110
公式(10)中,Sp为在第p帧经过空间图卷积模块后提取的空间特征信息,Sq为在第q帧经过空间图卷积模块后提取的空间特征信息,Z(S)为用于正则化的函数,g(·)为一个一元函数计算Sq的表示形式,成对函数f(Sp,Sq)定义了各帧之间的相关关系,其计算方法如下公式(11)所示,
Figure BDA00024473741400001111
公式(11)中,θ(·)和φ(·)为两个特征嵌入函数,θ(·)由如下公式(12)得到,φ(·)由如下公式(13)得到,T表示转置操作,
θ(Sp)=WθSp (12),
公式(12)中,Wθ是可学习的参数,在网络训练时动态变化,
φ(Sq)=WφSq (13),
公式(13)中,Wφ是可学习的参数,在网络训练时动态变化,
时间注意力值Tatt的矩阵为时间注意力Mt
第(3.2)步,提取时间特征信息Xtout
沿着时间维度,将关节信息流数据的空间特征信息
Figure BDA0002447374140000121
骨骼信息流数据的空间特征信息
Figure BDA0002447374140000122
和运动信息流数据的空间特征信息
Figure BDA0002447374140000123
分别输入到每个信息流的时间卷积模块中,进行时间卷积模块操作提取时间特征信息Xtout,用如下所示公式(14)计算,
Xtout=MtXsoutWo (14),
公式(14)中,Xtout为关节信息流数据的时间特征信息
Figure BDA0002447374140000124
骨骼信息流数据的时间特征信息
Figure BDA0002447374140000125
和运动信息流数据的时间特征信息
Figure BDA0002447374140000126
三种信息流数据的时间特征信息中的任意一种,Wo为一个能够学习的矩阵参数,
由此完成在时间域提取时间特征信息Xtout
第四步,在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout
将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起,称为图卷积网络,上述第二步中的空间注意力和第三步的时间注意力组合在一起,称为时空注意力,上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起,称为一个时空卷积模块,整体网络框架共有10个这样的时空卷积模块,其中第一个时空卷积模块的作用为批处理归一化,接下来的三个时空卷积模块的输出通道分别为64通道,再接下来的三个时空卷积模块的输出通道为128通道,最后三个时空卷积模块的输出通道为256通道,其中每个时空卷积模块都附有一个残差模块,保留之前的信息,增强重要的信息,在残差模块中,添加了改进的关节之间的共现特征的学习算法,该残差模块共五个卷积分支和一个上采样层,上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作,由此得到残差模块提取的残差特征信息F(Xtout),进一步用如下所示公式(15)计算最终特征信息Xout
Xout=Xtout+F(Xtout) (15),
公式(15)中,Xout为关节信息流数据的最终特征信息
Figure BDA0002447374140000127
骨骼信息流数据的最终特征信息
Figure BDA0002447374140000128
和运动信息流数据的最终特征信息
Figure BDA0002447374140000129
三种信息流数据的最终特征信息中的任意一种,F(Xtout)为关节信息流数据的残差特征信息
Figure BDA00024473741400001210
骨骼信息流数据的最终特征信息
Figure BDA00024473741400001211
和运动信息流数据的最终特征信息
Figure BDA00024473741400001212
三种信息流数据的残差特征信息中的任意一种,
由此完成在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout
第五步,三流动态融合后的预测类标签
Figure BDA00024473741400001213
将上述第四步获得的关节信息流数据的最终特征信息
Figure BDA00024473741400001214
骨骼信息流数据的最终特征信息
Figure BDA00024473741400001215
和运动信息流数据的最终特征信息
Figure BDA00024473741400001216
分别输入到每个信息流的softmax层,相应得到关节信息流的预测概率值为
Figure BDA00024473741400001217
骨骼信息流的预测概率值为
Figure BDA00024473741400001218
运动信息流的预测概率值为
Figure BDA0002447374140000131
将关节信息流的预测概率值
Figure BDA0002447374140000132
骨骼信息流的预测概率值
Figure BDA0002447374140000133
和运动信息流的预测概率值
Figure BDA0002447374140000134
进行动态地加权融合,得到三流动态融合后的预测类标签
Figure BDA0002447374140000135
如下公式(16)所示,
Figure BDA0002447374140000136
公式(16)中,Wj为关节信息流的动态融合变化的权重值,Wb为骨骼信息流的动态融合变化的权重值,Wm为运动信息流的动态融合变化的权重值,
至此,由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法;
第六步,结合时空注意力与图卷积网络的人体骨架动作识别方法的训练:
经过上述五个步骤的操作之后,使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示,
Figure BDA0002447374140000137
公式(17)中,Y为待测试动作真实标签,
通过随机梯度下降算法优化网络的参数,使交叉熵损失函数L达到最小化,
由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练;
第七步,结合时空注意力与图卷积网络的人体骨架动作识别方法的度量:
计算上述第五步所获得的三流动态融合后的预测类标签
Figure BDA0002447374140000138
与待测试动作真实标签Y之间的准确率,计算方法如下公式(18)所示,
Figure BDA0002447374140000139
公式(18)中,TP为动作被预测为相应类标签的数目,SP为各类标签的总数目;
由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量,
至此,完成人体骨架动作的识别。
本实施例利用Pytorch平台实现,并在NTU-RGB+D数据集进行了实验,该数据集提供了相应动作中每个人的3维25个关节点的坐标,共计60类动作。为了验证本发明方法在人体骨架动作识别率上的优势,本实施例选取常用于骨架动作识别的循环神经网络,卷积神经网络和图卷积神经网络进行了比较,表1列出了人体骨架动作识别的实验结果。
表1不同算法下NTU-RGB+D数据集的动作识别率
Figure BDA00024473741400001310
从表1中可以看出,本实施例提出的结合时空注意力与图卷积网络的动作识别方法的识别率明显优于其它对比方法。
上述实施例中,所述softmax层,上采样操作、所有的转置操作、双线性插值操作和随机梯度下降算法及关节之间的共现特征的学习算法均为本领域公知的技术。

Claims (1)

1.一种人体骨架动作的识别方法,其特征在于:是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,具体步骤如下:
第一步,生成多角度骨架特征的训练数据:
所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据,
首先对于一组输入的人体骨架动作的视频序列,构建人体骨架的无向连通图,其中关节点作为图的顶点,关节点之间的自然连接作为图的边,定义骨架图G={V,E},其中,V是n个关节点的集合,E是m个骨架边的集合,由如下公式(1)得到骨架图的邻接矩阵Ak∈{0,1}n×n
Figure FDA0002447374130000011
再利用其关节点的坐标数据,通过在3D空间中旋转来获得任意视点的关节序列,使用旋转矩阵将给定视点的关节点坐标数据X转换为另一个视点的关节点坐标数据,即为生成的关节信息流数据
Figure FDA0002447374130000012
其计算公式(2)如下所示,
Figure FDA0002447374130000013
公式(2)中,RT为旋转矩阵,
根据生成的关节信息流数据
Figure FDA0002447374130000014
进一步生成骨骼信息流数据
Figure FDA0002447374130000015
和运动信息流数据
Figure FDA0002447374130000016
具体方法如下:
计算从骨骼边源关节点的三维坐标V1=(X1,Y1,Z1)指向目标关节点的三维坐标V2=(X2,Y2,Z2)的向量,得到骨骼边
Figure FDA0002447374130000017
过程如下公式(3)所示,
Figure FDA0002447374130000018
公式(3)中,X1,Y1,Z1为V1的三维坐标值,X2,Y2,Z2为V2的三维坐标值,
所有骨骼边
Figure FDA0002447374130000019
的集合即为骨骼信息流数据
Figure FDA00024473741300000110
由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标Vt=(Xt,Yt,Zt),前一帧的三维坐标Vt-1=(Xt-1,Yt-1,Zt-1)和后一帧的三维坐标Vt+1=(Xt+1,Yt+1,Zt+1),计算对应坐标差的向量,得到运动边
Figure FDA00024473741300000111
过程如下公式(4)所示,
Figure FDA00024473741300000112
所有运动边
Figure FDA00024473741300000113
的集合即为运动信息流数据
Figure FDA00024473741300000114
至此生成多角度骨架特征的训练数据;
第二步,在空间域提取空间特征信息Xsout
将上述第一步所得到关节信息流数据
Figure FDA0002447374130000021
骨骼信息流数据
Figure FDA0002447374130000022
和运动信息流数据
Figure FDA0002447374130000023
三种多角度骨架特征信息的训练数据,同时馈送到空间图卷积模块中进行训练,具体操作步骤如下:
第(2.1)步,进行图注意力模块操作,获得空间注意力Mk
根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值eij,计算公式(5)如下所示,
eij=LeakyReLU(Xin W1)W2 (5),
公式(5)中,Xin为关节信息流数据
Figure FDA0002447374130000024
骨骼信息流数据
Figure FDA0002447374130000025
或运动信息流数据
Figure FDA0002447374130000026
三种信息流数据的训练数据中的任意一种,W1是特征维度上线性图层的参数,W2是时间维度上线性图层的参数,LeakyReLU是一个激活函数,
进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值αij,如下公式(6)所示,
Figure FDA0002447374130000027
公式(6)中,Ni为关节点i的邻居节点的集合,eik为关节点i与集合Ni中所有任一关节点的图注意力值,k为集合Ni中的任一关节点的索引,
相对图注意力值αij的矩阵为空间注意力Mk
第(2.2)步,提取空间特征信息Xsout
将关节信息流数据
Figure FDA0002447374130000028
骨骼信息流数据
Figure FDA0002447374130000029
和运动信息流数据
Figure FDA00024473741300000210
分别输入到每个信息流的空间图卷积模块中,其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略,即以人体所有关节点的坐标平均值作为人体骨架的重心,采用相邻节点的一阶邻域,比根节点距离重心更近的节点作为向心点,比根节点距离重心更远的节点作为离心点,进行空间图卷积模块操作提取空间特征信息Xsout,用如下所示公式(7)计算,
Figure FDA00024473741300000211
公式(7)中,Xsout为关节信息流数据的空间特征信息
Figure FDA00024473741300000212
骨骼信息流数据的空间特征信息
Figure FDA00024473741300000213
或运动信息流数据的空间特征信息
Figure FDA00024473741300000214
三种信息流数据的空间特征信息中的任意一种,K为空间维度的卷积核大小,使用上述的分区策略,K设置为3,
Figure FDA00024473741300000218
为如下公式(8)所示的归一化后的邻接矩阵,Wk为特征信息的重要性,Mk为一个N×N的相对图注意力值的矩阵,表示每条边的权重值,*为哈达玛积,
Figure FDA00024473741300000215
公式(8)中,Ak为一个N×N的邻接矩阵,Λk为一个对角矩阵,
对角元素的值为
Figure FDA00024473741300000216
其计算方法如下公式(9)所示,
Figure FDA00024473741300000217
公式(9)中,关节点j为关节点i所有相连接的任一关节点,
Figure FDA0002447374130000031
为邻接矩阵Ak中关节点i的对应值;
由此完成在空间域提取空间特征信息Xsout
第三步,在时间域提取时间特征信息Xtout
第(3.1)步,进行时间注意力模块操作,获得时间注意力Mt
调整上述第二步提取的空间特征信息Xsout的各帧之间的不同重要性,用如下所示公式(10)计算获得时间注意力值Tatt
Figure FDA0002447374130000032
公式(10)中,Sp为在第p帧经过空间图卷积模块后提取的空间特征信息,Sq为在第q帧经过空间图卷积模块后提取的空间特征信息,Z(S)为用于正则化的函数,g(·)为一个一元函数计算Sq的表示形式,成对函数f(Sp,Sq)定义了各帧之间的相关关系,其计算方法如下公式(11)所示,
Figure FDA0002447374130000033
公式(11)中,θ(·)和φ(·)为两个特征嵌入函数,θ(·)由如下公式(12)得到,φ(·)由如下公式(13)得到,T表示转置操作,
θ(Sp)=WθSp (12),
公式(12)中,Wθ是可学习的参数,在网络训练时动态变化,
φ(Sq)=WφSq (13),
公式(13)中,Wφ是可学习的参数,在网络训练时动态变化,
时间注意力值Tatt的矩阵为时间注意力Mt
第(3.2)步,提取时间特征信息Xtout
沿着时间维度,将关节信息流数据的空间特征信息
Figure FDA0002447374130000034
骨骼信息流数据的空间特征信息
Figure FDA0002447374130000035
和运动信息流数据的空间特征信息
Figure FDA0002447374130000036
分别输入到每个信息流的时间卷积模块中,进行时间卷积模块操作提取时间特征信息Xtout,用如下所示公式(14)计算,
Xtout=Mt Xsout Wo (14),
公式(14)中,Xtout为关节信息流数据的时间特征信息
Figure FDA0002447374130000037
骨骼信息流数据的时间特征信息
Figure FDA0002447374130000038
和运动信息流数据的时间特征信息
Figure FDA0002447374130000039
三种信息流数据的时间特征信息中的任意一种,Wo为一个能够学习的矩阵参数,
由此完成在时间域提取时间特征信息Xtout
第四步,在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout
将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起,称为图卷积网络,上述第二步中的空间注意力和第三步的时间注意力组合在一起,称为时空注意力,上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起,称为一个时空卷积模块,整体网络框架共有10个这样的时空卷积模块,其中第一个时空卷积模块的作用为批处理归一化,接下来的三个时空卷积模块的输出通道分别为64通道,再接下来的三个时空卷积模块的输出通道为128通道,最后三个时空卷积模块的输出通道为256通道,其中每个时空卷积模块都附有一个残差模块,保留之前的信息,增强重要的信息,在残差模块中,添加了改进的关节之间的共现特征的学习算法,该残差模块共五个卷积分支和一个上采样层,上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作,由此得到残差模块提取的残差特征信息F(Xtout),进一步用如下所示公式(15)计算最终特征信息Xout
Xout=Xtout+F(Xtout) (15),
公式(15)中,Xout为关节信息流数据的最终特征信息
Figure FDA0002447374130000041
骨骼信息流数据的最终特征信息
Figure FDA0002447374130000042
和运动信息流数据的最终特征信息
Figure FDA0002447374130000043
三种信息流数据的最终特征信息中的任意一种,F(Xtout)为关节信息流数据的残差特征信息
Figure FDA0002447374130000044
骨骼信息流数据的最终特征信息
Figure FDA0002447374130000045
和运动信息流数据的最终特征信息
Figure FDA0002447374130000046
三种信息流数据的残差特征信息中的任意一种,
由此完成在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout
第五步,三流动态融合后的预测类标签
Figure FDA0002447374130000047
将上述第四步获得的关节信息流数据的最终特征信息
Figure FDA0002447374130000048
骨骼信息流数据的最终特征信息
Figure FDA0002447374130000049
和运动信息流数据的最终特征信息
Figure FDA00024473741300000410
分别输入到每个信息流的softmax层,相应得到关节信息流的预测概率值为
Figure FDA00024473741300000411
骨骼信息流的预测概率值为
Figure FDA00024473741300000412
运动信息流的预测概率值为
Figure FDA00024473741300000413
将关节信息流的预测概率值
Figure FDA00024473741300000414
骨骼信息流的预测概率值
Figure FDA00024473741300000415
和运动信息流的预测概率值
Figure FDA00024473741300000416
进行动态地加权融合,得到三流动态融合后的预测类标签
Figure FDA00024473741300000417
如下公式(16)所示,
Figure FDA00024473741300000418
公式(16)中,Wj为关节信息流的动态融合变化的权重值,Wb为骨骼信息流的动态融合变化的权重值,Wm为运动信息流的动态融合变化的权重值,
至此,由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法;
第六步,结合时空注意力与图卷积网络的人体骨架动作识别方法的训练:
经过上述五个步骤的操作之后,使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示,
Figure FDA00024473741300000419
公式(17)中,Y为待测试动作真实标签,
通过随机梯度下降算法优化网络的参数,使交叉熵损失函数L达到最小化,
由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练;
第七步,结合时空注意力与图卷积网络的人体骨架动作识别方法的度量:
计算上述第五步所获得的三流动态融合后的预测类标签
Figure FDA0002447374130000051
与待测试动作真实标签Y之间的准确率,计算方法如下公式(18)所示,
Figure FDA0002447374130000052
公式(18)中,TP为动作被预测为相应类标签的数目,SP为各类标签的总数目;
由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量,
至此,完成人体骨架动作的识别。
CN202010282867.6A 2020-04-13 2020-04-13 一种人体骨架动作的识别方法 Expired - Fee Related CN111476181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010282867.6A CN111476181B (zh) 2020-04-13 2020-04-13 一种人体骨架动作的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010282867.6A CN111476181B (zh) 2020-04-13 2020-04-13 一种人体骨架动作的识别方法

Publications (2)

Publication Number Publication Date
CN111476181A CN111476181A (zh) 2020-07-31
CN111476181B true CN111476181B (zh) 2022-03-04

Family

ID=71752388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010282867.6A Expired - Fee Related CN111476181B (zh) 2020-04-13 2020-04-13 一种人体骨架动作的识别方法

Country Status (1)

Country Link
CN (1) CN111476181B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111898576B (zh) * 2020-08-06 2022-06-24 电子科技大学 一种基于人体骨架时空关系的行为识别方法
CN111950485B (zh) * 2020-08-18 2022-06-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统
CN112069979B (zh) * 2020-09-03 2024-02-02 浙江大学 一种实时动作识别人机交互系统
CN112183464A (zh) * 2020-10-26 2021-01-05 天津大学 基于深度神经网络和图卷积网络的视频行人识别方法
CN112381004B (zh) * 2020-11-17 2023-08-08 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法
CN112906604B (zh) * 2021-03-03 2024-02-20 安徽省科亿信息科技有限公司 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统
CN112836824B (zh) * 2021-03-04 2023-04-18 上海交通大学 单目三维人体位姿无监督学习方法、系统及介质
CN113066022B (zh) * 2021-03-17 2022-08-16 天津大学 一种基于高效时空信息融合的视频比特增强方法
CN112926517B (zh) * 2021-03-26 2022-11-18 北京航空航天大学 一种人工智能监控方法
CN113408349B (zh) * 2021-05-17 2023-04-18 浙江大华技术股份有限公司 动作评价模型的训练方法、动作评价方法及相关设备
CN113378656B (zh) * 2021-05-24 2023-07-25 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN113343901A (zh) * 2021-06-28 2021-09-03 重庆理工大学 基于多尺度注意力图卷积网络的人体行为识别方法
CN113688765B (zh) * 2021-08-31 2023-06-27 南京信息工程大学 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN113887486A (zh) * 2021-10-20 2022-01-04 山东大学 基于时空注意力增强图卷积的异常步态识别方法及系统
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN114550308B (zh) * 2022-04-22 2022-07-05 成都信息工程大学 基于时空图的人体骨骼动作识别方法
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110390305A (zh) * 2019-07-25 2019-10-29 广东工业大学 基于图卷积神经网络的手势识别的方法及装置
CN110532874A (zh) * 2019-07-23 2019-12-03 深圳大学 一种物体属性识别模型的生成方法、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110222653A (zh) * 2019-06-11 2019-09-10 中国矿业大学(北京) 一种基于图卷积神经网络的骨架数据行为识别方法
CN110532874A (zh) * 2019-07-23 2019-12-03 深圳大学 一种物体属性识别模型的生成方法、存储介质及电子设备
CN110390305A (zh) * 2019-07-25 2019-10-29 广东工业大学 基于图卷积神经网络的手势识别的方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition";Maosen Li等;《arXiv》;20190426;1-12 *
"Graph Convolutional Networks with Motif-based Attention";John Boaz Lee等;《ACM》;20191231;499-508 *
"Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition";Sijie Yan等;《arXiv》;20180125;1-10 *
"基于人体关键点的人体行为识别";贺家灵;《中国优秀硕士学位论文全文数据库》;20200215(第02期);I138-1743 *

Also Published As

Publication number Publication date
CN111476181A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111476181B (zh) 一种人体骨架动作的识别方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN110097568B (zh) 一种基于时空双分支网络的视频对象检测与分割方法
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN109919122A (zh) 一种基于3d人体关键点的时序行为检测方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN110378281A (zh) 基于伪3d卷积神经网络的组群行为识别方法
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN113408455B (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
Ren et al. Learning with weak supervision from physics and data-driven constraints
CN113128424B (zh) 基于注意力机制的图卷积神经网络动作识别方法
Yue et al. Action recognition based on RGB and skeleton data sets: A survey
CN110827265B (zh) 基于深度学习的图片异常检测方法
CN111881731A (zh) 基于人体骨架的行为识别方法、系统、装置及介质
CN114613013A (zh) 一种基于骨骼节点的端到端人类行为识别方法与模型
CN114937066A (zh) 基于交叉偏移特征与空间一致性的点云配准系统及方法
Zhao et al. JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation
Gao et al. Road extraction using a dual attention dilated-linknet based on satellite images and floating vehicle trajectory data
CN115544239A (zh) 一种基于深度学习模型的布局偏好预测方法
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
Xu et al. Cross-modality online distillation for multi-view action recognition
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
Ehsan et al. An accurate violence detection framework using unsupervised spatial–temporal action translation network
CN113033283B (zh) 一种改进的视频分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220304

CF01 Termination of patent right due to non-payment of annual fee