CN113408455B - 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 - Google Patents

一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 Download PDF

Info

Publication number
CN113408455B
CN113408455B CN202110727644.0A CN202110727644A CN113408455B CN 113408455 B CN113408455 B CN 113408455B CN 202110727644 A CN202110727644 A CN 202110727644A CN 113408455 B CN113408455 B CN 113408455B
Authority
CN
China
Prior art keywords
skeleton
frame
information
graph convolution
joint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110727644.0A
Other languages
English (en)
Other versions
CN113408455A (zh
Inventor
周莉
孙士刚
马纪超
贾思敏
薛立晓
刘文睿
牟进正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110727644.0A priority Critical patent/CN113408455B/zh
Publication of CN113408455A publication Critical patent/CN113408455A/zh
Application granted granted Critical
Publication of CN113408455B publication Critical patent/CN113408455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质,包括:步骤1:获取人体动作的骨架序列;步骤2:提取关键骨架序列;步骤3:构建骨架时空图,并得到五种不同的骨架序列数据;步骤4:构建多流信息增强图卷积网络;步骤5:对多流信息增强图卷积网络进行训练,得到人体动作识别模型。步骤6:将人体骨骼序列数据输入到训练好的多流信息增强图卷积网络中,得到该动作的分类结果。本发明通过提取关键骨架序列减少神经网络计算量的前提下,扩展出五种骨架序列数据,构建具有更优时空特征提取能力的多流信息增强图卷积网络,与现有技术相比,提高了基于骨架关节点的动作识别方法的识别率和鲁棒性。

Description

一种基于多流信息增强图卷积网络的动作识别方法、系统及 存储介质
技术领域
本发明属于计算机视觉及深度学习技术领域,具体涉及了一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质。
背景技术
在计算机视觉中,动作识别在智能视频监控、人机交互和运动分析等许多应用中发挥着重要作用。骨骼序列是人类关节和骨骼在时空域中的集合,对尺度变化、背景干扰等具有很强的鲁棒性。最早的骨骼动作识别方法简单地利用身体关节在每一帧上的位置来形成模式学习的特征向量。显然,这些向量序列表示严重破坏了人体关节之间的自然全局依赖关系。不能充分利用骨架数据的图结构。图卷积网络将卷积从图像推广到图上,ST-GCN设计了一种时空图卷积网络,将人体的自然骨架结构通过骨架时空图表示,可以同时学习空间和时间特征。此外,根据骨架建模的具体要求,提出了卷积核的设计原则、子集划分的策略以及基于距离的采样函数构造图卷积层作为网络的基本模块,在后续工作中得到广泛应用。
然而对基于骨骼序列的动作识别任务,数据集通常包括很多帧,相邻帧之间动作变化差别不大,然而神经网络对于输入的骨架序列都需进行计算,当数据量较多时,神经网络的训练耗时较长。
ST-GCN使用的骨架图依赖于人体的物理结构,但人类的运动可能会打破自然骨骼连接的限制。例如,在“摸头”的动作中,手关节点和头关节点联系密切。但在基于人体物理结构的骨架图中,由于手和头彼此相距很远,很难捕捉它们之间的相关性。
已有的图卷积方案忽略了时序图卷积的优化。时间维度上仅局限于对连续帧上的同一关节点连接计算时间图卷积。这种方法不能直接提取骨架帧之间相邻关节点的时间特征。
除了由骨架序列提供的关节坐标之外,由关节坐标导出的高阶骨架信息对于动作识别来说具有更多信息性和辨别性的。已有的图卷积方案未能提取出这些的信息来进行动作识别。
发明内容
为了解决上述问题,本发明提供了一种结合关键骨架序列提取和多流信息增强图卷积网络的动作识别方法。
本发明还提供了一种计算机设备和存储介质。
本发明的技术方案为:
一种基于多流信息增强图卷积网络的动作识别方法,包括以下步骤:
步骤1:获取视频流中每一帧中人体骨架的关节点的坐标,预处理后形成人体动作的骨架序列;
步骤2:运用余弦向量来判别相邻两帧骨架的相似度,提取关键骨架序列;
步骤3:基于步骤2提取的关键骨架序列,构建骨架时空图,并由关节点坐标值计算骨骼、关节时间差、骨骼时间差、骨骼的时间旋转角度,得到关节点、骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种不同的骨架序列数据;
步骤4:构建多流信息增强图卷积网络,所述多流信息增强图卷积网络包括五路网络结构相同的信息增强图卷积网络IE-GCN;
步骤5:对多流信息增强图卷积网络进行训练,训练过程中采用随机梯度下降法作为优化策略,选择交叉熵作为梯度反向传播的损失函数;
步骤6:在动作类别的识别过程中,将人体骨骼序列数据输入到训练好的多流信息增强图卷积网络中,得到该动作的分类结果。
根据本发明优选的,所述步骤1中,使用开源姿态估计算法OpenPose提取视频流的每个视频帧中人体骨架,每个人体骨架包括关节点的二维坐标。
根据本发明优选的,所述步骤1中,预处理包括对人体骨架的关节点的缺失值进行填充,以及关节点坐标归一化,具体步骤如下:
(1)获取所有人体骨架的关节点的坐标,及每一人体骨架对应所述视频帧的序数;
(2)对缺失值点采用K最邻近帧加权预测填充:给定缺失值
Figure BDA0003138100580000021
Figure BDA0003138100580000022
表示第t帧的关节点i的坐标值,寻找与第t帧最邻近的关节点i坐标不发生缺失的K帧,分别为第t1、t2...tK帧,使用K最邻近帧的关节点坐标值加权预测得到缺失值,选取K为3,具体如式(Ⅰ)所示:
Figure BDA0003138100580000023
式(Ⅰ)中,|tj-t|为近邻
Figure BDA0003138100580000024
与待预测值
Figure BDA0003138100580000025
的距离;
(3)对关节点缺失值填充后的每一帧人体骨架的关节点的坐标值归一化处理,获得人体动作的骨架序列。
关节点坐标值归一化,一个优选实施例为:对于每一帧骨架,选择人体的脊柱关节点作为坐标系原点,然后将每个关节点的坐标减去脊柱关节点的坐标,获得以脊柱点为原点的新关节点坐标。
根据本发明优选的,步骤2中,运用余弦向量来判别相邻两帧骨架的相似度,提取关键骨架序列,以减少数据量,缩短神经网络训练时间。具体步骤包括:
将人体骨架信息转化为一个帧向量,将表示人体骨架信息的18个关节点二维坐标依次展开转化为一个36维的帧向量,计算相邻两帧的帧向量余弦相似度,判断其是否属于相似帧;
对于转化后的两个n维骨架帧向量a(x1,x2,x3...xn)与b(y1,y2,y3...yn),其之间的余弦相似度cos(θ)如式(Ⅱ)所示:
Figure BDA0003138100580000031
两个骨架帧向量的余弦值越接近于1,表明这两个向量夹角越近似于0度,两个帧向量相似度越高。设定骨骼帧间余弦相似度阈值为T,将初始帧设置为第一个关键帧,计算连续两帧之间骨骼帧向量余弦相似度,若当前帧和前一帧的余弦相似度小于设定的骨骼帧间余弦相似度阈值,则将当前帧定义为关键帧,直至最后一帧,最终得到的所有的关键帧为关键骨架序列。
进一步优选的,T=0.9964。
根据本发明优选的,步骤3中,遵循ST-GCN的设计构建骨架时空图,具体是指:将关节点表示为顶点,同一帧骨架每个关节点在人体中的自然连接表示为空间边,连续两帧的同一关节点的连接表示时间边,每个关节点的坐标值设置为对顶点的属性,得到构建的骨架时空图。图2为构建的骨架时空图的示意图
根据本发明优选的,步骤3中,所述骨骼,表示源关节点指向目标关节点的向量,表示自身的长度和方向;如关节点i的坐标值为(xj,yj),关节点j的坐标值为(xj,yj),则其之间的骨骼定义为ei,j=(xj-xi,yj-yi)。
所述关节时间差,是指连续两帧中相同关节点的坐标差;
所述骨骼时间差,是指连续两帧中相同骨骼的向量差;
所述骨骼的时间旋转角度,是指对于连续两帧的同一骨骼向量之间的夹角余弦值,计算公式如式(Ⅲ)所示:
Figure BDA0003138100580000032
式(Ⅲ)中,
Figure BDA0003138100580000033
分别表示第t帧、第t+1帧中关节点i与关节点j之间骨骼向量,
Figure BDA0003138100580000034
Figure BDA0003138100580000041
两骨骼向量的夹角余弦值;
根据本发明优选的,步骤4中,所述多流信息增强图卷积网络的构建,包括如下步骤:
A、构建信息增强空间图卷积层:
利用L阶多项式将关节点直接与相距L距离的关节点建立直接连接,以扩展ST-GCN定义的骨架时空图中骨架帧内关节点连接的空间边,构建信息增强空间图卷积层;
B、构建信息增强时序图卷积层:
扩展骨架时空图中骨架帧之间关节点连接的时间边,使当前帧的关节点连接到对应于前一帧的多个相邻关节点,有助于提取人体运动中多个相邻关节点的依赖关系,构建信息增强时序图卷积层;
C、构建信息增强图卷积单元:
信息增强图卷积单元采用ST-GCN类似的结构,包括信息增强空间图卷积层、Dropout层、信息增强时序图卷积层。并在信息增强空间卷积层和信息增强时序图卷积层后添加BN层和ReLU层。最后为每个信息增强图卷积单元增加残差连接;
D、构建信息增强图卷积网络(IE-GCN):
所述信息增强的图卷积网络包括依次连接的BN层、9层信息增强图卷积单元、全局平均池化层和Softmax层;
E、构建多流信息增强图卷积网络:
所述多流信息增强图卷积网络包括五路网络结构相同的信息增强图卷积网络IE-GCN。将关节点、骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种骨架序列数据分别送到对应的五路网络结构相同的信息增强图卷积网络IE-GCN中,并在输出层通过Softmax函数得到该骨架序列属于某一动作类别的概率,最后将五路Softmax层的输出结果加权平均融合,得到最终的动作分类结果。
进一步优选的,步骤A中,所述信息增强空间图卷积层输出如式(Ⅳ)所示:
Figure BDA0003138100580000042
式(Ⅳ)中,fout为信息增强空间图卷积层的输出;fin为输入的含有骨架序列数据的骨架时空图;表示为C×N×F张量,其中C表示通道的数量即骨架序列数据的维度,N和F分别表示关节点的数量和骨架序列的数量。L为多项式阶数;KS为信息增强空间图卷积层划分的子集数量,遵循ST-GCN骨架时空图子集分区策略,KS设定为3,将骨架时空图中骨架所有关节点的L邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集。⊙表示点积运算;
Figure BDA0003138100580000051
是可训练的大小为N×N的关节注意度权重参数矩阵;
Figure BDA0003138100580000052
是可训练的图卷积运算卷积核的权重参数矩阵;
Figure BDA0003138100580000053
为表示骨架帧内关节点连接的标准化邻接矩阵。
进一步优选的,步骤B中,所述的信息增强时序图卷积层如式(Ⅴ)所示:
Figure BDA0003138100580000054
式(Ⅴ)中,
Figure BDA0003138100580000055
表示对于第t帧关节点的信息增强时序图卷积层的输出,
Figure BDA0003138100580000056
等于第t-1帧的信息增强空间图卷积的输出fout,KT是信息增强时序图卷积层划分的子集数量,
Figure BDA0003138100580000057
Figure BDA0003138100580000058
同信息增强空间图卷积层的
Figure BDA0003138100580000059
Figure BDA00031381005800000510
为可训练的权重参数矩阵;
Figure BDA00031381005800000511
为表示连续两个帧之间关节点连接的标准化邻接矩阵。
根据本发明优选的,步骤5中,对多流信息增强图卷积网络进行训练,具体是指:
将关节点以及计算得到的骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种不同的骨架序列数据分别送入对应的五路网络结构相同的信息增强图卷积网络IE-GCN,对网络中的权重参数进行训练;
训练过程中采用随机梯度下降法作为学习优化策略;选择交叉熵作为梯度反向传播的损失函数;
根据本发明优选的,步骤6中,动作类别的识别,是指:
通过步骤1至步骤3,将人体动作的骨架序列(Skeleton sequence)拓展为五种不同的骨架序列数据,包括:关节点(Joint sequence)、关节点时间差(Joint temporaldifference sequence)、骨骼(Edge sequence)、骨骼时间差(Edge temporal differencesequence)、骨骼的时间旋转角度(Edge rotation angle sequence),分别输入到五路训练好的信息增强图卷积网络IE-GCN中,在输出层通过Softmax函数得到该骨架序列属于某一动作类别的概率,最后,将五路Softmax层的输出结果加权平均融合,得到最终的动作分类结果;
所述结果加权平均融合,是指将五路网络模型的输出结果取加权平均作为多流信息增强图卷积网络的最终输出结果,如式(Ⅵ)所示:
d=αd1+βd2+...+δdn (Ⅵ)
式(Ⅵ)中,d1,d2,…,dn为n路训练好的信息增强图卷积网络IE-GCN的输出结果,n=5,α,β,…,δ为权重参数,且α+β+...+δ=1。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于信息增强图卷积网络的人体动作识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于多流信息增强图卷积网络的人体动作识别方法的步骤。
本发明的有益效果为:
1、优化骨架时空图结构,提出信息增强空间图卷积层和信息增强时序图卷积层计算模型,并构建信息增强图卷积网络。信息增强空间图卷积层扩展了骨架帧内关节点空间边连接,使关节点可以聚合到更多的空间特征。信息增强时序图卷积层优化骨架帧之间相邻关节点的时间边连接,可以提取运动过程中更丰富的时间特征。结合关键骨架序列提取算法减少神经网络计算量的前提下,获得相比现有骨架图卷积网络更优的时空特征提取能力。
2、根据关节点的坐标,拓展出骨骼、关节点时间差、骨骼时间差、骨骼时间旋转角度四种骨架序列数据,通过引入多流结构使用丰富的骨架序列数据进行动作识别,与现有技术相比,提高了基于骨架关节点的行为识别方法的识别率和鲁棒性。
附图说明
图1为本发明多流信息增强图卷积网络的结构示意图;
图2为骨架时空图的示意图;
图3为骨架时空图拓展骨架帧内关节点连接的示意图;
图4为骨架时空图拓展骨架帧之间关节点连接的示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于多流信息增强图卷积网络的动作识别方法,包括以下步骤:
步骤1:获取视频流中每一帧中人体骨架的关节点的坐标,预处理后形成人体动作的骨架序列;
步骤2:运用余弦向量来判别相邻两帧骨架的相似度,提取关键骨架序列;
步骤3:基于步骤2提取的关键骨架序列,构建骨架时空图,并由关节点坐标值计算骨骼、关节时间差、骨骼时间差、骨骼的时间旋转角度,得到关节点、骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种不同的骨架序列数据;
步骤4:构建多流信息增强图卷积网络,多流信息增强图卷积网络包括五路网络结构相同的信息增强图卷积网络IE-GCN;
步骤5:对多流信息增强图卷积网络进行训练,训练过程中采用随机梯度下降法作为优化策略,选择交叉熵作为梯度反向传播的损失函数;
步骤6:在动作类别的识别过程中,将人体骨骼序列数据输入到训练好的多流信息增强图卷积网络中,得到该动作的分类结果。
实施例2
根据实施例1所述的一种基于多流信息增强图卷积网络的动作识别方法,其区别在于:
步骤1中,使用开源姿态估计算法OpenPose提取视频流的每个视频帧中人体骨架,每个人体骨架包括关节点的二维坐标。将每个关节点表示为特征向量[x,y,c]T,其中x,y表示关节点的二维像素坐标,c表示置信度。对于视频中出现多人,选择平均联合置信度最高的人。并将提取的人体骨架数据集划分为训练集和测试集。
步骤1中,预处理包括对人体骨架的关节点的缺失值进行填充,以及关节点坐标归一化,具体步骤如下:
(1)获取所有人体骨架的关节点的坐标,及每一人体骨架对应视频帧的序数;
(2)对缺失值点采用K最邻近帧加权预测填充:给定缺失值
Figure BDA0003138100580000071
Figure BDA0003138100580000072
表示第t帧的关节点i的坐标值,寻找与第t帧最邻近的关节点i坐标不发生缺失的K帧,分别为第t1、t2...tK帧,使用K最邻近帧的关节点坐标值加权预测得到缺失值,选取K为3,具体如式(Ⅰ)所示:
Figure BDA0003138100580000073
式(Ⅰ)中,|tj-t|为近邻
Figure BDA0003138100580000074
与待预测值
Figure BDA0003138100580000075
的距离;
(3)对关节点缺失值填充后的每一帧人体骨架的关节点的坐标值归一化处理,获得人体动作的骨架序列。
关节点坐标值归一化,一个优选实施例为:对于每一帧骨架,选择人体的脊柱关节点作为坐标系原点,然后将每个关节点的坐标减去脊柱关节点的坐标,获得以脊柱点为原点的新关节点坐标。
步骤2中,运用余弦向量来判别相邻两帧骨架的相似度,提取关键骨架序列,以减少数据量,缩短神经网络训练时间。具体步骤包括:
将人体骨架信息转化为一个帧向量,将表示人体骨架信息的18个关节点二维坐标依次展开转化为一个36维的帧向量,计算相邻两帧的帧向量余弦相似度,判断其是否属于相似帧;
对于转化后的两个n维骨架帧向量a(x1,x2,x3...xn)与b(y1,y2,y3...yn),其之间的余弦相似度cos(θ)如式(Ⅱ)所示:
Figure BDA0003138100580000081
两个骨架帧向量的余弦值越接近于1,表明这两个向量夹角越近似于0度,两个帧向量相似度越高。设定骨骼帧间余弦相似度阈值为T,T=0.9964,将初始帧设置为第一个关键帧,计算连续两帧之间骨骼帧向量余弦相似度,若当前帧和前一帧的余弦相似度小于设定的骨骼帧间余弦相似度阈值,则将当前帧定义为关键帧,直至最后一帧,最终得到的所有的关键帧为关键骨架序列。
步骤3中,遵循ST-GCN的设计构建骨架时空图,具体是指:将关节点表示为顶点,同一帧骨架每个关节点在人体中的自然连接表示为空间边,连续两帧的同一关节点的连接表示时间边,每个关节点的坐标值设置为对顶点的属性,得到构建的骨架时空图。图2为构建的骨架时空图的示意图。关节点表示为顶点,同一帧骨架关节点在人体中的自然连接表示为空间边,连续两帧的同一关节点的连接表示为时间边。
骨骼,表示源关节点指向目标关节点的向量,表示自身的长度和方向;如关节点i的坐标值为(xj,yj),关节点j的坐标值为(xj,yj),则其之间的骨骼定义为ei,j=(xj-xi,yj-yi)。
关节时间差,是指连续两帧中相同关节点的坐标差;
骨骼时间差,是指连续两帧中相同骨骼的向量差;
骨骼的时间旋转角度,是指对于连续两帧的同一骨骼向量之间的夹角余弦值,计算公式如式(Ⅲ)所示:
Figure BDA0003138100580000082
式(Ⅲ)中,
Figure BDA0003138100580000083
分别表示第t帧、第t+1帧中关节点i与关节点j之间骨骼向量,
Figure BDA0003138100580000084
Figure BDA0003138100580000085
两骨骼向量的夹角余弦值;
步骤4中,多流信息增强图卷积网络的构建,包括如下步骤:
A、构建信息增强空间图卷积层:
利用L阶多项式将关节点直接与相距L距离的关节点建立直接连接,以扩展ST-GCN定义的骨架时空图中骨架帧内关节点连接的空间边,构建信息增强空间图卷积层;图3为骨架时空图拓展骨架帧内关节点连接的示意图,手关节点通过4阶多项式与肘、肩、脖、头关节点建立直接连接。
步骤A中,信息增强空间图卷积层输出如式(Ⅳ)所示:
Figure BDA0003138100580000091
式(Ⅳ)中,fout为信息增强空间图卷积层的输出;fin为输入的含有骨架序列数据的骨架时空图;表示为C×N×F张量,其中C表示通道的数量即骨架序列数据的维度,N和F分别表示关节点的数量和骨架序列的数量。L为多项式阶数;KS为信息增强空间图卷积层划分的子集数量,遵循ST-GCN骨架时空图子集分区策略,KS设定为3,将骨架时空图中骨架所有关节点的L邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集。⊙表示点积运算;
Figure BDA0003138100580000092
是可训练的大小为N×N的关节注意度权重参数矩阵;
Figure BDA0003138100580000093
是可训练的图卷积运算卷积核的权重参数矩阵;
Figure BDA0003138100580000094
为表示骨架帧内关节点连接的标准化邻接矩阵。
B、构建信息增强时序图卷积层:
扩展骨架时空图中骨架帧之间关节点连接的时间边,使当前帧的关节点连接到对应于前一帧的多个相邻关节点,有助于提取人体运动中多个相邻关节点的依赖关系,构建信息增强时序图卷积层;
图4为骨架时空图拓展骨架帧之间关节点连接的示意图,第t帧的肘关节点可以连接到对应于第t-1帧的肘、手、肩多个相邻关节点。
步骤B中,信息增强时序图卷积层如式(Ⅴ)所示:
Figure BDA0003138100580000095
式(Ⅴ)中,
Figure BDA0003138100580000096
表示对于第t帧关节点的信息增强时序图卷积层的输出,
Figure BDA0003138100580000097
等于第t-1帧的信息增强空间图卷积的输出fout,KT是信息增强时序图卷积层划分的子集数量,根据ST-GCN骨架时空图子集分区策略,KT设定为3,即信息增强时序图卷积层的子集划分为三种,分别为对应于前一帧的根关节点自身、近重心相邻关节点和远重心相邻关节点。
图4给出信息增强图卷积层运算中第t帧肘关节点对应第t-1帧的肘关节点的1邻域子集划分示意图,第t-1帧的×标志重心,关节点中的数字代表子集的索引,0、1、2分别表示根关节点自身、近重心相邻关节点和远重心相邻关节点。
Figure BDA0003138100580000098
Figure BDA0003138100580000099
同信息增强空间图卷积层的
Figure BDA00031381005800000910
Figure BDA00031381005800000911
为可训练的权重参数矩阵;
Figure BDA00031381005800000912
为表示连续两个帧之间关节点连接的标准化邻接矩阵。
C、构建信息增强图卷积单元:
信息增强图卷积单元采用ST-GCN类似的结构,包括信息增强空间图卷积层、Dropout层、信息增强时序图卷积层。并在信息增强空间卷积层和信息增强时序图卷积层后添加BN层和ReLU层。最后为每个信息增强图卷积单元增加残差连接;
添加Dropout层以避免过度拟合
添加BN层将输入的骨架序列数据规范化,并实现了网络中层与层之间的解耦,有利于提高整个神经网络的学习速度
D、构建信息增强图卷积网络(IE-GCN):
信息增强的图卷积网络包括依次连接的BN层、9层信息增强图卷积单元、全局平均池化层和Softmax层;
信息增强图卷积网络IE-GCN包括9层信息增强图卷积单元,遵循ST-GCN相同的设计,前3层输出通道数为64,中间3层输出通道数为128,最后三层输出通道数为256;
在网络的开头添加BN层,以规范输入数据;通过多层时空图卷积操作,逐步生成更高级的特征;通过全局平均池化层减少网络参数,并对骨架序列的特征进一步融合得到固定大小的特征向量;最后送入Softmax分类器进行动作分类。
E、构建多流信息增强图卷积网络:
多流信息增强图卷积网络包括五路网络结构相同的信息增强图卷积网络IE-GCN。将关节点、骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种骨架序列数据分别送到对应的五路网络结构相同的信息增强图卷积网络IE-GCN中,并在输出层通过Softmax函数得到该骨架序列属于某一动作类别的概率,最后将五路Softmax层的输出结果加权平均融合,得到最终的动作分类结果。图1为多流信息增强图卷积网络的结构示意图;图1中,将人体骨架序列(Skeleton sequence)拓展为五种骨架序列数据:关节点(Jointsequence)、关节点时间差(Joint temporal difference sequence)、骨骼(Edgesequence)、骨骼时间差(Edge temporal difference sequence)、骨骼旋转角度(Edgerotation angle sequence),分别输入到五路信息增强图卷积网络(IE-GCN)中,得到该骨架序列属于某一动作类别的概率。之后将五路输出结果加权平均融合,得到多流信息增强图卷积网络的输出即该人体骨架序列的最终动作分类结果。图1中,⊕表示加权求和。
步骤5中,对多流信息增强图卷积网络进行训练,具体是指:
将关节点以及计算得到的骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种不同的骨架序列数据分别送入对应的五路网络结构相同的信息增强图卷积网络IE-GCN,对网络中的权重参数进行训练;
训练过程中采用随机梯度下降法作为学习优化策略;选择交叉熵作为梯度反向传播的损失函数;
步骤6中,动作类别的识别,是指:
通过步骤1至步骤3,将人体动作的骨架序列(Skeleton sequence)拓展为五种不同的骨架序列数据,包括:关节点(Joint sequence)、关节点时间差(Joint temporaldifference sequence)、骨骼(Edge sequence)、骨骼时间差(Edge temporal differencesequence)、骨骼的时间旋转角度(Edge rotation angle sequence),分别输入到五路训练好的信息增强图卷积网络IE-GCN中,在输出层通过Softmax函数得到该骨架序列属于某一动作类别的概率,最后,将五路Softmax层的输出结果加权平均融合,得到最终的动作分类结果;
结果加权平均融合,是指将五路网络模型的输出结果取加权平均作为多流信息增强图卷积网络的最终输出结果,如式(Ⅵ)所示:
d=αd1+βd2+...+δdn (Ⅵ)
式(Ⅵ)中,d1,d2,…,dn为n路训练好的信息增强图卷积网络IE-GCN得到的结果,n=5,α,β,…,δ为权重参数,且α+β+...+δ=1。
实施例3
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1或2所述基于信息增强图卷积网络的人体动作识别方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1或2所述基于多流信息增强图卷积网络的人体动作识别方法的步骤。

Claims (9)

1.一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,包括以下步骤:
步骤1:获取视频流中每一帧中人体骨架的关节点的坐标,预处理后形成人体动作的骨架序列;
步骤2:运用余弦向量来判别相邻两帧骨架的相似度,提取关键骨架序列;
步骤3:基于步骤2提取的关键骨架序列,构建骨架时空图,并由关节点坐标值计算骨骼、关节时间差、骨骼时间差、骨骼的时间旋转角度,得到关节点、骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种不同的骨架序列数据;关节点时间差,是指骨骼序列中同一关节点在连续两帧中的坐标差;骨骼时间差,是指骨骼序列中同一骨骼在连续两帧中的向量差;骨骼的时间旋转角度,是指骨骼序列中同一骨骼在连续两帧之间的夹角余弦值;
步骤4:构建多流信息增强图卷积网络,所述多流信息增强图卷积网络包括五路网络结构相同的信息增强图卷积网络IE-GCN;
步骤4中,所述多流信息增强图卷积网络的构建,包括如下步骤:
A、构建信息增强空间图卷积层:
利用L阶多项式将关节点直接与相距L距离的关节点建立直接连接,构建信息增强空间图卷积层;
B、构建信息增强时序图卷积层:
扩展骨架时空图中骨架帧之间关节点连接的时间边,使当前帧的关节点连接到对应于前一帧的多个相邻关节点,构建信息增强时序图卷积层;
C、构建信息增强图卷积单元:
信息增强图卷积单元包括信息增强空间图卷积层、Dropout层、信息增强时序图卷积层,并在信息增强空间卷积层和信息增强时序图卷积层后添加BN层和ReLU层,最后为每个信息增强图卷积单元增加残差连接;
D、构建信息增强图卷积网络:
所述信息增强的图卷积网络包括依次连接的BN层、9层信息增强图卷积单元、全局平均池化层和Softmax层;
E、构建多流信息增强图卷积网络:
所述多流信息增强图卷积网络包括五路网络结构相同的信息增强图卷积网络IE-GCN;将关节点、骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种骨架序列数据分别送到对应的五路网络结构相同的信息增强图卷积网络IE-GCN中,并在输出层通过Softmax函数得到该骨架序列属于某一动作类别的概率,最后将五路Softmax层的输出结果加权平均融合,得到最终的动作分类结果;
步骤5:对多流信息增强图卷积网络进行训练,训练过程中采用随机梯度下降法作为优化策略,选择交叉熵作为梯度反向传播的损失函数;
步骤6:在动作类别的识别过程中,将人体骨架序列数据输入到训练好的多流信息增强图卷积网络中,得到该动作的分类结果;
步骤2中,运用余弦向量来判别相邻两帧骨架的相似度,提取关键骨架序列,具体步骤包括:
将表示人体骨架信息的18个关节点二维坐标依次展开转化为一个36维的帧向量,计算相邻两帧的帧向量余弦相似度,判断其是否属于相似帧;
对于转化后的两个n维骨架帧向量a(x1,x2,x3...xn)与b(y1,y2,y3...yn),其之间的余弦相似度cos(θ)如式(II)所示:
Figure FDA0003878334540000021
设定骨骼帧间余弦相似度阈值为T,将初始帧设置为第一个关键帧,计算连续两帧之间骨骼帧向量余弦相似度,若当前帧和前一帧的余弦相似度小于设定的骨骼帧间余弦相似度阈值,则将当前帧定义为关键帧,直至最后一帧,最终得到的所有的关键帧为关键骨架序列。
2.根据权利要求1所述的一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,T=0.9964。
3.根据权利要求1所述的一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,所述步骤1中,预处理包括对人体骨架的关节点的缺失值进行填充,以及关节点坐标归一化,具体步骤如下:
(1)获取所有人体骨架的关节点的坐标,及每一人体骨架对应所述视频帧的序数;
(2)对缺失值点采用K最邻近帧加权预测填充:给定缺失值
Figure FDA0003878334540000022
Figure FDA0003878334540000023
表示第t帧的关节点i的坐标值,寻找与第t帧最邻近的关节点i坐标不发生缺失的K帧,分别为第t1、t2...tK帧,使用K最邻近帧的关节点坐标值加权预测得到缺失值,选取K为3,具体如式(Ⅰ)所示:
Figure FDA0003878334540000031
式(Ⅰ)中,|tj-t|为近邻
Figure FDA0003878334540000032
与待预测值
Figure FDA0003878334540000033
的距离;
(3)对关节点缺失值填充后的每一帧人体骨架的关节点的坐标值归一化处理,获得人体动作的骨架序列。
4.根据权利要求1所述的一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,
步骤3中,所述骨骼,表示源关节点指向目标关节点的向量,表示自身的长度和方向;所述关节时间差,是指骨骼序列中同一关节点在连续两帧中的坐标差;所述骨骼时间差,是指骨骼序列中同一骨骼在连续两帧中的向量差;所述骨骼的时间旋转角度,是指骨骼序列中同一骨骼在连续两帧之间的夹角余弦值,计算公式如式(Ⅲ)所示:
Figure FDA0003878334540000034
式(Ⅲ)中,
Figure FDA0003878334540000035
分别表示第t帧、第t+1帧中关节点i与关节点j之间骨骼向量,
Figure FDA0003878334540000036
Figure FDA0003878334540000037
两骨骼向量的夹角余弦值。
5.根据权利要求4所述的一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,步骤A中,所述信息增强空间图卷积层输出如式(Ⅳ)所示:
Figure FDA0003878334540000038
式(Ⅳ)中,fout为信息增强空间图卷积层的输出;fin为输入的含有骨架序列数据的骨架时空图;L为多项式阶数;KS为信息增强空间图卷积层划分的子集数量,⊙表示点积运算;
Figure FDA0003878334540000039
是可训练的大小为N×N的关节注意度权重参数矩阵;
Figure FDA00038783345400000310
是可训练的图卷积运算卷积核的权重参数矩阵;
Figure FDA00038783345400000311
为表示骨架帧内关节点连接的标准化邻接矩阵;
步骤B中,所述的信息增强时序图卷积层如式(Ⅴ)所示:
Figure FDA00038783345400000312
式(Ⅴ)中,
Figure FDA0003878334540000041
表示对于第t帧关节点的信息增强时序图卷积层的输出,
Figure FDA0003878334540000042
等于第t-1帧的信息增强空间图卷积的输出fout,KT是信息增强时序图卷积层划分的子集数量,
Figure FDA0003878334540000043
Figure FDA0003878334540000044
同信息增强空间图卷积层的
Figure FDA0003878334540000045
Figure FDA0003878334540000046
为可训练的权重参数矩阵;
Figure FDA0003878334540000047
表示骨架帧内关节点连接的标准化邻接矩阵。
6.根据权利要求3-5任一所述的一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,步骤5中,对多流信息增强图卷积网络进行训练,具体是指:
将关节点以及计算得到的骨骼、关节点时间差、骨骼时间差、骨骼的时间旋转角度五种不同的骨架序列数据分别送入对应的五路网络结构相同的信息增强图卷积网络IE-GCN,对网络中的权重参数进行训练。
7.根据权利要求3-5任一所述的一种基于多流信息增强图卷积网络的动作识别方法,其特征在于,步骤6中,动作类别的识别,是指:
通过步骤1至步骤3,将人体动作的骨架序列拓展为五种不同的骨架序列数据,包括:关节点、关节点时间差、骨骼、骨骼时间差、骨骼的时间旋转角度,分别输入到五路训练好的信息增强图卷积网络IE-GCN中,在输出层通过Softmax函数得到该骨架序列属于某一动作类别的概率,最后,将五路Softmax层的输出结果加权平均融合,得到最终的动作分类结果。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述的基于信息增强图卷积网络的人体动作识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一所述的基于多流信息增强图卷积网络的人体动作识别方法的步骤。
CN202110727644.0A 2021-06-29 2021-06-29 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 Active CN113408455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110727644.0A CN113408455B (zh) 2021-06-29 2021-06-29 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110727644.0A CN113408455B (zh) 2021-06-29 2021-06-29 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN113408455A CN113408455A (zh) 2021-09-17
CN113408455B true CN113408455B (zh) 2022-11-29

Family

ID=77680272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110727644.0A Active CN113408455B (zh) 2021-06-29 2021-06-29 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN113408455B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963201B (zh) * 2021-10-18 2022-06-14 郑州大学 骨骼动作识别方法、装置、电子设备及存储介质
CN113963202A (zh) * 2021-10-19 2022-01-21 郑州大学 一种骨骼点动作识别方法、装置、电子设备及存储介质
CN113989927B (zh) * 2021-10-27 2024-04-26 东北大学 一种基于骨骼数据的视频群体暴力行为识别方法及系统
CN114642858A (zh) * 2022-02-18 2022-06-21 上海大学 老年衰弱患者的康复训练装置
CN114821640B (zh) * 2022-04-12 2023-07-18 杭州电子科技大学 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN114882421B (zh) * 2022-06-01 2024-03-26 江南大学 一种基于时空特征增强图卷积网络的骨架行为识别方法
CN115035596B (zh) * 2022-06-05 2023-09-08 东北石油大学 行为检测的方法及装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110448870A (zh) * 2019-08-16 2019-11-15 深圳特蓝图科技有限公司 一种人体姿态训练方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112651360A (zh) * 2020-12-31 2021-04-13 福州大学 一种小样本下骨架动作识别方法
CN112733656A (zh) * 2020-12-30 2021-04-30 杭州电子科技大学 基于多流空间注意力图卷积sru网络的骨架动作识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276370B (zh) * 2008-01-14 2010-10-13 浙江大学 基于关键帧的三维人体运动数据检索方法
CN104038738B (zh) * 2014-06-04 2017-02-15 东北大学 一种提取人体关节点坐标的智能监控系统及方法
CN110427834A (zh) * 2019-07-10 2019-11-08 上海工程技术大学 一种基于骨架数据的行为识别系统及方法
CN110796110B (zh) * 2019-11-05 2022-07-26 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统
CN111985343B (zh) * 2020-07-23 2024-04-09 深圳大学 一种行为识别深度网络模型的构建方法及行为识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188599A (zh) * 2019-04-12 2019-08-30 哈工大机器人义乌人工智能研究院 一种人体姿态行为智能分析识别方法
CN110448870A (zh) * 2019-08-16 2019-11-15 深圳特蓝图科技有限公司 一种人体姿态训练方法
CN111652124A (zh) * 2020-06-02 2020-09-11 电子科技大学 一种基于图卷积网络的人体行为识别模型的构建方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112733656A (zh) * 2020-12-30 2021-04-30 杭州电子科技大学 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN112651360A (zh) * 2020-12-31 2021-04-13 福州大学 一种小样本下骨架动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-stream slowFast graph convolutional networks for skeleton-based action recognition;Ning Sun et al;《Image and Vision Computing 109 (2021)》;20210223;第1-9页 *
基于骨骼向量夹角的人体动作识别算法;顾军华等;《传感器与微系统》;20181231;第37卷(第2期);第120-123页 *

Also Published As

Publication number Publication date
CN113408455A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN113408455B (zh) 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
CN111476181B (zh) 一种人体骨架动作的识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
CN111428619B (zh) 基于有序回归和软标签的三维点云头部姿态估计系统和方法
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
Lee et al. 3-D human behavior understanding using generalized TS-LSTM networks
CN114419732A (zh) 基于注意力机制优化的HRNet人体姿态识别方法
CN108875456A (zh) 目标检测方法、目标检测装置和计算机可读存储介质
Patel et al. Contextualnet: Exploiting contextual information using lstms to improve image-based localization
Wu et al. Context-aware deep spatiotemporal network for hand pose estimation from depth images
Abiram et al. Identity preserving multi-pose facial expression recognition using fine tuned VGG on the latent space vector of generative adversarial network
CN117522990B (zh) 基于多头注意力机制和迭代细化的类别级位姿估计方法
Huynh-The et al. Learning action images using deep convolutional neural networks for 3D action recognition
CN110197226B (zh) 一种无监督图像翻译方法及系统
CN114529949A (zh) 一种基于深度学习的轻量级手势识别方法
CN114973305A (zh) 一种针对拥挤人群的精确人体解析方法
Sima et al. Action recognition algorithm based on skeletal joint data and adaptive time pyramid
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN113033283B (zh) 一种改进的视频分类系统
CN111507243B (zh) 一种基于格拉斯曼流形分析的人体行为识别方法
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
Chan et al. Using action classification for human-pose estimation
Sun et al. Few-shot partial multi-label learning with data augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant