CN113688765A - 一种基于注意力机制的自适应图卷积网络的动作识别方法 - Google Patents

一种基于注意力机制的自适应图卷积网络的动作识别方法 Download PDF

Info

Publication number
CN113688765A
CN113688765A CN202111011985.4A CN202111011985A CN113688765A CN 113688765 A CN113688765 A CN 113688765A CN 202111011985 A CN202111011985 A CN 202111011985A CN 113688765 A CN113688765 A CN 113688765A
Authority
CN
China
Prior art keywords
time
space
graph
convolution
graph convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111011985.4A
Other languages
English (en)
Other versions
CN113688765B (zh
Inventor
胡凯
金俊岚
王维西
李姚根
翁成航
宋磊
丁益武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202111011985.4A priority Critical patent/CN113688765B/zh
Publication of CN113688765A publication Critical patent/CN113688765A/zh
Application granted granted Critical
Publication of CN113688765B publication Critical patent/CN113688765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于注意力机制的自适应图卷积网络的动作识别方法,涉及动作识别技术领域。该动作识别方法将注意力机制加入自适应图卷积网络中,引入时间注意力模块来克服卷积算子的局部性,使每个单个关节被认为是独立的,并且通过比较同一身体关节沿着时间维度的嵌入变化来计算帧之间的相关性,来提高对时间信息提取;另外引入通道注意力模块,使网络更加关注重要的通道特征,进一步提高了网络的性能,使分类预测结果更加准确。

Description

一种基于注意力机制的自适应图卷积网络的动作识别方法
技术领域
本发明涉及动作识别技术领域,具体地,涉及一种基于注意力机制的自适应图卷积网络的动作识别方法。
背景技术
近年来,深度学习得到深入发展,在很多领域得到了应用。因为深度学习的原理是用大量神经元来模拟人类视听、思考等活动,与行为识别具有相同的机制,因此科研人员也尝试使用深度学习来解决行为识别问题,取得了一系列较好的成果。利用图卷积神经网络处理人体骨骼数据来学习人体行为,具有良好的泛化能力。其中基于时空图卷积的动作识别算法取得了较好的效果。
现有的基于图卷积网络的动作识别中,表示人体的图的拓扑结构对于所有层和所有动作都是固定的,尤其是如果图连接是定向的并且信息只能沿着预定义的路径传输时,可能会阻止对时间维度的骨架运动信息提取。其次,时间信息都是由标准的2D卷积提取的,它被限制在局部领域内操作,某种程度上受到卷积核大小的限制。另外,之前的图卷积网络忽视了对不同通道的重视程度,往往有的通道产生的特征对于动作识别是非常重要的,而有的通道中的特征却只有微小的作用,特征提取的过程应该更关注那些重要的通道特征,忽略不重要的通道信息。在“擦脸”和“摸头”这类动作中,手和头的联系应该更紧密一些,但在其他一些类中则不是这样的,如“跳起来”和“坐下”,由于没有对重要信息进行重点关注,最后的分类结果可能不够准确。这些问题的存在表明了现有方法仍没有充分提取数特征信息。
发明内容
针对现有技术中存在的问题,本发明提供了一种基于注意力机制的自适应图卷积网络的动作识别方法。本发明将注意力机制加入自适应图卷积网络中,引入时间注意力模块来克服卷积算子的局部性,使每个单个关节被认为是独立的,并且通过比较同一身体关节沿着时间维度的嵌入变化来计算帧之间的相关性,来提高对时间信息提取;另外引入通道注意力模块,使网络更加关注重要的通道特征,进一步提高了网络的性能,使分类预测结果更加准确。
为实现上述目的,本发明采用如下技术方案:一种基于注意力机制的自适应图卷积网络的动作识别方法,具体包括如下步骤:
(1)将人体运动视频使用姿态估计算提取骨架序列,通过骨架序列构建时空图G=(V,E),其中,V={vti|t=1,2,…,T,i=1,2,…,N}表示关节点信息,t表示帧数索引,i表示关节点索引,T表示总帧数,N表示人体关节点数量,E表示骨骼信息,由Es和Et组成,Es表示在相同帧上的关节点的自然连接,Et表示同一个关节点在相邻帧上的连接;
(2)构建基于注意力机制的自适应图卷积网络,所述自适应图卷积网络包括依次连接的空间图卷积模块、时间卷积模块、时间注意力模块、通道注意力模块、softmax分类器,所述空间图卷积模块用于获取时空图的空间图卷积输出特征图;所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息;所述时间注意力模块用于建立获取的时间特征信息的帧内相关性;所述通道注意力模块用于获取时空特征图,并通过残差连接的方式与输入的时空图进行合并;所述softmax分类器用于预测时空图的动作分类;
(3)将步骤(1)中构建的时空图输入至基于注意力机制的自适应图卷积网络中进行训练,以交叉熵作为损失函数来反向传播梯度,权重衰减为0.0001,训练64次后,完成对自适应图卷积网络的训练;
(4)再次将人体运动视频处理成时空图,输入到训练好的基于注意力机制的自适应图卷积网络中,得到动作的分类结果。
进一步地,所述空间图卷积模块用于获取时空图的空间特征图的具体过程为:
Figure BDA0003238722220000021
其中,fout1表示空间图卷积输出特征图,fin()表示输入的时空图,Ak为邻接矩阵,Bk为数据驱动图矩阵,Dk为图注意力矩阵,Wk为1×1卷积核权重,Kv表示空间维度的核大小,设置为3,k表示3种分区策略,k=0时,表示关节点本身;k=1时,表示距关节点距离为1的邻接关节点集;k=2,表示距关节点距离为2的邻接关节点集。
进一步地,所述空间图卷积模块由依次连接的空间卷积层、第一批处理标准化层、第一激活函数层、第一随机丢弃处理层组成,所述第一随机丢弃处理层的Dropout率设置为0.5。
进一步地,所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息的过程具体为:使用1×Kt的卷积核对空间图卷积输出特征图进行时间卷积操作,获取时间特征信息,其中Kt是内核感受野内考虑的帧数。
进一步地,所述时间卷积模块由时间卷积层、第二批处理标准化层、第二激活函数层、第二随机丢弃处理层组成,所述第二随机丢弃处理层的Dropout率设置为0.5。
进一步地,所述时间注意力模块用于建立获取的时间特征信息的帧内相关性的方法具体为:
Figure BDA0003238722220000022
其中,fout2表示输出的帧内相关性的特征图,t表示帧数,
Figure BDA0003238722220000031
表示与关节点vti相关联的查询矩阵,
Figure BDA0003238722220000032
表示与关节点vui相关联的键矩阵,
Figure BDA0003238722220000033
表示与关节点vui相关联的值矩阵,vti与vui分别代表不同帧的同一关节点,
Figure BDA0003238722220000034
表述矩阵相乘,softmax()表示softmax函数。
进一步地,所述通道注意力模块用于获取时空特征图的过程具体为:将帧内相关性的特征图进行挤压操作,然后依次经过第一全连接层、PReLU激活函数、第二个全连接层、Sigmoid激活函数,将得到的结果与帧内相关性的特征图相乘,并且通过残差连接的方式与时空图合并,或得时空特征图。
进一步地,所述softmax分类器用于预测时空图的动作分类的方法具体为:分别获取时空图中关节点信息的时空特征图的分数、骨骼信息的时空特征图的分数以及对应的权重,通过叠加每个动作的得分,得出每个动作的得分概率,得分概率最高的动作即为识别出的动作。
进一步地,所述基于注意力机制的自适应图卷积网络在训练过程中采用Nesterov动量为0.9的随机梯度下降法作为优化策略。
与现有技术相比,本发明具有如下有益效果:本发明基于注意力机制的自适应图卷积网络的动作识别方法通过加入时间注意力模块,克服了标准卷积的严格局部性,能够提取动作中每个关节的关节帧信息,并通过通道注意力模块有效的增强对更重要的特征信息提取能力,从而提取与动作更相关的特征,消除冗余特征的影响,从而提高动作识别的准确率。
附图说明
图1为本发明基于注意力机制的自适应图卷积网络的动作识别方法的流程图;
图2为公开数据集NTU+RCB+D定义的关节点示意图;
图3为时空图;
图4为本发明中分区策略示意图;
图5为本发明中邻接矩阵Dk的示意图;
图6为本发明中时间注意力模块示意图;
图7为本发明中通道注意力模块示意图;
图8为本发明中基于注意力机制的自适应图卷积网络的结构示意图。
具体实施方式
下面结合附图对本发明的技术方案作进一步地解释说明。
本发明基于现有的自适应图卷积神经网络模型,将时间注意力模块及通道注意力模块加入自适应图卷积网络中,引入注意力去计算每个节点的邻居节点对它的权重,同时通过堆叠这些隐藏自注意层来获取临近点的特征,从而避免大量的矩阵运算。由于只与相邻节点有关,则无需知道整张图结构,通过获取节点的重要性程度就可针对节点进行处理,增加节点表达的能力,提高了分类预测结果的准确性。如图1为本发明基于注意力机制的自适应图卷积网络的动作识别方法的流程图,该动作识别方法具体包括如下步骤:
(1)将人体运动视频使用姿态估计算提取骨架序列,骨架序列是用每帧中所有关节点的三维坐标表示,如图2为NTU+RCB+D数据集所定义的人体关节点,将人体定义为25个关节点,再通过骨架序列构建时空图G=(V,E),如图3所示,其中,V={vti|t=1,2,…,T,i=1,2,…,N}表示关节点信息,t表示帧数索引,i表示关节点索引,T表示总帧数,N表示人体关节点数量,每个节点信息由空间坐标(x,y,z)组成的特征向量表示,E表示骨骼信息,由Es和Et组成,Es表示在相同帧上的关节点的自然连接,是帧内连接;Et表示同一个关节点在相邻帧上的连接,是帧间连接。由于骨骼骼绑定了两个关节点,因此定义靠近骨骼重心(重心在人体骨架图的胸部)的关节为源关节,远离重心的关节为目标关节。每个骨骼都表示从其源关节指向其目标关节的向量,该向量包含长度信息和方向信息。例如给定一个带有源关节的骨头v1=(x1,y1,z1)和它的目标关节v2=(x2,y2,z2),则骨骼向量为
Figure BDA0003238722220000041
因为中心关节没有分配给任何骨骼,使得关节的数量比骨骼的数量多一个,因此向中心关节添加一个值为0的空骨骼,这样骨骼可以和关节使用相同的网络。
(2)构建基于注意力机制的自适应图卷积网络,如图8,该自适应图卷积网络包括依次连接的空间图卷积模块、时间卷积模块、时间注意力模块、通道注意力模块、softmax分类器,其中,空间图卷积模块用于获取时空图的空间图卷积输出特征图;时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息;时间注意力模块用于建立获取的时间特征信息的帧内相关性;通道注意力模块用于获取时空特征图,并通过残差连接的方式与输入的时空图进行合并;softmax分类器用于预测时空图的动作分类;具体包括如下子步骤:
(2.1)考虑到“行走”等动作,手和腿的联系很大,但是手和腿没有直接相连,导致最终动作识别任务结果不佳,所以要创造不存在的连接,因此搭建了空间图卷积模块,本发明中空间图卷积模块由依次连接的空间卷积层、第一批处理标准化层、第一激活函数层、第一随机丢弃处理层组成,第一随机丢弃处理层的Dropout率设置为0.5。将时空图输入至空间图卷积模块中,其中,输入的时空图fin的维度大小为Cin×T×N(Cin为通道数)。将计算过后的邻接矩阵Ak、数据驱动图矩阵Bk和图注意力矩阵Dk相加得到N×N的矩阵,再与维度变换成CinT×N的输入的时空图fin相乘,经过一个1×1卷积改变其通道数得到CoutT×N,并将其重新排列得到Cout×T×N的空间图卷积输出特征图fout1。为了使该层被加入到任何现有模型不丢失初始动作,将输入的时空图fin经过一个跳跃连接与空间图卷积输出特征图fout相加得到最终图卷积输出特征图,其维度为Cout×T×N。
Figure BDA0003238722220000051
其中,fout1表示空间图卷积输出特征图,fin()表示输入的时空图,Ak为邻接矩阵,Bk为数据驱动图矩阵,Dk为图注意力矩阵,Wk为1×1卷积核权重,Kv表示空间维度的核大小,设置为3,k表示3种分区策略,如图4所示,k=0时,表示关节点本身;k=1时,表示距关节点距离为1的邻接关节点集;k=2,表示距关节点距离为2的邻接关节点集。
Ak是N×N的邻接矩阵,它是表示节点之间相邻关系的矩阵,是单帧内关节的自然连接,通过关联节点与不同距离的邻居节点的联系从而加强身体各部分信息的关联,使对身体局部信息的感知更具敏感性,从而进一步提升识别精度。
Figure BDA0003238722220000052
其中
Figure BDA0003238722220000053
为单位矩阵表示关节点的自连接;
Figure BDA0003238722220000054
表示距关节点距离为1的邻接关节点与关节点的关联性矩阵;
Figure BDA0003238722220000055
表示距关节点距离为2的邻接关节点与关节点的关联性矩阵,即
Figure BDA0003238722220000056
Figure BDA0003238722220000057
为经过归一化的对角矩阵。
Bk=Ak·Mk,其中,Mk为可学习的权重矩阵,·为点积,Bk不仅能够充分利用初始的物理连接关系,还可以在训练过程中优化图的拓扑结构,更新骨骼信息的权重。
Dk能够针对每个样本进行动作建模,增强网络的个性化,如图5所示,
Figure BDA0003238722220000058
θ和
Figure BDA0003238722220000059
均为可知的嵌入函数,其嵌入系数为4,设置1×1卷积层作为两个嵌入函数θ(·)和
Figure BDA00032387222200000510
使用θ(·)将输入的时空图的输入通道数改变为Ce=输出通道数/嵌入系数,即fin的大小变为Ce×T×N的特征图。同理,
Figure BDA00032387222200000511
作用与θ(·)一样,也将fin的大小变为Ce×T×N。将上面的两个特征图重新排列和重塑为N×CeT矩阵和CeT×N矩阵,然后相乘经过一个归一化函数Softmax得到N×N的相似矩阵Dk,Wθ
Figure BDA00032387222200000512
分别是可知的1×1卷积层θ(·)和
Figure BDA00032387222200000513
的卷积核权重。
(2.2)本发明中时间卷积模块由时间卷积层、第二批处理标准化层、第二激活函数层、第二随机丢弃处理层组成。使用1×Kt的卷积核对空间图卷积输出特征图Cout×T×N中的T×N二维进行时间卷积操作,获取时间特征信息,其中Kt是内核感受野内考虑的帧数。时间卷积后经第二批处理标准化(BN)层,第二激活函数(ReLU)层和第二随机丢弃处理(Dropout)层,Dropout率设置为0.5。
(2.3)使用时间注意力模块沿着所有的帧分别研究每个关节的动力学,即每单个关节被认为是独立的,并且通过比较同一身体关节沿着时间维度的变化来计算帧之间的相关性。利用时间注意力模块来提取时间维度上的特征信息,如图6所示。将时间特征信息大小为Cout×Tout×N输入到时间注意力模块中,经过查询矩阵Q和键矩阵K的1×1卷积将通道数改变为
Figure BDA0003238722220000061
其中,F为卷积核大小,P为填充值,S为步长,并将经过空间图卷积和时间卷积的两个特征图进行重塑得到一个Tout×CaN矩阵和一个CaN×Tout矩阵,再经过矩阵相乘和归一化得到Tout×Tout的矩阵。值向量V将时间特征信息大小为Cout×Tout×N重新排列得到CoutN×Tout,与Tout×Tout相乘得到CoutN×Tout,再经过1×1卷积与fout2的一个跳跃连接相加得到输出的帧内相关性的特征图fout2维度为Cout×Tout×N:
Figure BDA0003238722220000062
其中,fout2表示输出的帧内相关性的特征图,t表示帧数,
Figure BDA0003238722220000063
表示与关节点vti相关联的查询矩阵,
Figure BDA0003238722220000064
表示与关节点vui相关联的键矩阵,
Figure BDA0003238722220000065
表示与关节点vui相关联的值矩阵,vti与vui分别代表不同帧的同一关节点,
Figure BDA0003238722220000066
表述矩阵相乘,softmax()表示softmax函数。
(2.4)为了能够获取更好的动作特征表示,本发明搭建了通道域的注意力机制(SE),在空间图卷积和带有时间注意力的时间卷积后添加了通道注意力模块,如图7所示。对将帧内相关性的特征图fout2进行挤压操作F1得到矩阵Z,实现全局信息嵌入,矩阵Z表示在时间和空间维度上进行平均池化操作,计算过程为:
Figure BDA0003238722220000067
其中u的维度是T×N是经过该步骤输出的矩阵Z的元素,m和n分别是T和N上的点,(m,n)是T×N的坐标点。将时间信息和空间信息压缩到通道进行处理。把Cout×Tout×N的帧内相关性的特征图fout2压缩为Cout×1×1的向量,即将Tout×N的二维特征通道变成一个实数,这个实数具有全局的感受野。为了利用在挤压操作中聚集的信息,接下来对矩阵Z进行变换:
S=σ(W2δ(W1Z)
其中,σ表示Sigmoid激活函数,δ表示PReLU激活函数;W1是维度为
Figure BDA0003238722220000068
的全连接层权重矩阵,W2是维度为
Figure BDA0003238722220000069
的全连接层权重矩阵,W1Z是第一全连接层操作,
Figure BDA00032387222200000610
是全连接层中的隐藏层,r是根据SE模块的大小和计算成本设置的超参数。再通过ReLU激活函数层,然后与W2相乘这步是第二全连接层操作,得到维度Cout×1×1,经过Sigmoid函数得到S。S为每个特征通道的重要性,最后将S与帧内相关性的特征图fout2相乘,并通过残差的方式与时空图相加,得到该通道注意力模块的时空特征图fout,维度为Cout×Tout×N。
本发明中空间图卷积层的通道数为64,第一批标准化层的通道数为64、第一激活函数层的通道数为64、第一随机丢弃处理层的通道数为128,时间卷积层的通道数为128,第二批处理标准化层的通道数为128,第二激活函数层的通道数为256,时间注意力模块的通道数为256,通道注意力模块的通道数为256。在开始时添加数据BN层以标准化输入数据,输入数据执行步骤(2.1)-(2.4)中的每个操作,然后执行全局平均池化层(GlobalAveragePooling)以将不同样本的特征映射池化为相同大小。
(2.5)分别获取时空图中关节点信息的时空特征图的分数、骨骼信息的时空特征图的分数以及对应的权重,通过叠加每个动作的得分,得出每个动作的得分概率,得分概率最高的动作即为识别出的动作。
(3)将步骤(1)中构建的时空图输入至基于注意力机制的自适应图卷积网络中进行训练,采用Nesterov动量为0.9的随机梯度下降法作为优化策略,以交叉熵作为损失函数来反向传播梯度,权重衰减为0.0001,训练64次后,完成对自适应图卷积网络的训练;
(4)再次将人体运动视频处理成时空图,输入到训练好的基于注意力机制的自适应图卷积网络中,得到动作的分类结果。
通过本发明基于注意力机制的自适应图卷积网络的动作识别方法,通过加入时间注意力模块克服了标准卷积的严格局部性,能够提取动作中每个关节的关节帧信息,并通过通道注意力模块有效的增强对更重要的特征信息提取能力。加入这个两个注意力帮助提取与动作更相关的特征,从而提高动作识别的准确率。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施方式,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.一种基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,具体包括如下步骤:
(1)将人体运动视频使用姿态估计算提取骨架序列,通过骨架序列构建时空图G=(V,E),其中,V={vti|t=1,2,…,T,i=1,2,…,N}表示关节点信息,t表示帧数索引,i表示关节点索引,T表示总帧数,N表示人体关节点数量,E表示骨骼信息,由Es和Et组成,Es表示在相同帧上的关节点的自然连接,Et表示同一个关节点在相邻帧上的连接;
(2)构建基于注意力机制的自适应图卷积网络,所述自适应图卷积网络包括依次连接的空间图卷积模块、时间卷积模块、时间注意力模块、通道注意力模块、softmax分类器,所述空间图卷积模块用于获取时空图的空间图卷积输出特征图;所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息;所述时间注意力模块用于建立获取的时间特征信息的帧内相关性;所述通道注意力模块用于获取时空特征图,并通过残差连接的方式与输入的时空图进行合并;所述softmax分类器用于预测时空图的动作分类;
(3)将步骤(1)中构建的时空图输入至基于注意力机制的自适应图卷积网络中进行训练,以交叉熵作为损失函数来反向传播梯度,权重衰减为0.0001,训练64次后,完成对自适应图卷积网络的训练;
(4)再次将人体运动视频处理成时空图,输入到训练好的基于注意力机制的自适应图卷积网络中,得到动作的分类结果。
2.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述空间图卷积模块用于获取时空图的空间特征图的具体过程为:
Figure FDA0003238722210000011
其中,fout1表示空间图卷积输出特征图,fin()表示输入的时空图,Ak为邻接矩阵,Bk为数据驱动图矩阵,Dk为图注意力矩阵,Wk为1×1卷积核权重,Kv表示空间维度的核大小,设置为3,k表示3种分区策略,k=0时,表示关节点本身;k=1时,表示距关节点距离为1的邻接关节点集;k=2,表示距关节点距离为2的邻接关节点集。
3.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述空间图卷积模块由依次连接的空间卷积层、第一批处理标准化层、第一激活函数层、第一随机丢弃处理层组成,所述第一随机丢弃处理层的Dropout率设置为0.5。
4.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述时间卷积模块用于获取空间图卷积输出特征图中的时间特征信息的过程具体为:使用1×Kt的卷积核对空间图卷积输出特征图进行时间卷积操作,获取时间特征信息,其中Kt是内核感受野内考虑的帧数。
5.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述时间卷积模块由时间卷积层、第二批处理标准化层、第二激活函数层、第二随机丢弃处理层组成,所述第二随机丢弃处理层的Dropout率设置为0.5。
6.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述时间注意力模块用于建立获取的时间特征信息的帧内相关性的方法具体为:
Figure FDA0003238722210000021
其中,fout2表示输出的帧内相关性的特征图,t表示帧数,
Figure FDA0003238722210000022
表示与关节点vti相关联的查询矩阵,
Figure FDA0003238722210000023
表示与关节点vui相关联的键矩阵,
Figure FDA0003238722210000024
表示与关节点vui相关联的值矩阵,vti与vui分别代表不同帧的同一关节点,
Figure FDA0003238722210000025
表述矩阵相乘,softmax()表示softmax函数。
7.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述通道注意力模块用于获取时空特征图的过程具体为:将帧内相关性的特征图进行挤压操作,然后依次经过第一全连接层、PReLU激活函数、第二个全连接层、Sigmoid激活函数,将得到的结果与帧内相关性的特征图相乘,并且通过残差连接的方式与时空图合并,或得时空特征图。
8.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述softmax分类器用于预测时空图的动作分类的方法具体为:分别获取时空图中关节点信息的时空特征图的分数、骨骼信息的时空特征图的分数以及对应的权重,通过叠加每个动作的得分,得出每个动作的得分概率,得分概率最高的动作即为识别出的动作。
9.根据权利要求1所述基于注意力机制的自适应图卷积网络的动作识别方法,其特征在于,所述基于注意力机制的自适应图卷积网络在训练过程中采用Nesterov动量为0.9的随机梯度下降法作为优化策略。
CN202111011985.4A 2021-08-31 2021-08-31 一种基于注意力机制的自适应图卷积网络的动作识别方法 Active CN113688765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111011985.4A CN113688765B (zh) 2021-08-31 2021-08-31 一种基于注意力机制的自适应图卷积网络的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111011985.4A CN113688765B (zh) 2021-08-31 2021-08-31 一种基于注意力机制的自适应图卷积网络的动作识别方法

Publications (2)

Publication Number Publication Date
CN113688765A true CN113688765A (zh) 2021-11-23
CN113688765B CN113688765B (zh) 2023-06-27

Family

ID=78584397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111011985.4A Active CN113688765B (zh) 2021-08-31 2021-08-31 一种基于注意力机制的自适应图卷积网络的动作识别方法

Country Status (1)

Country Link
CN (1) CN113688765B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN114979302A (zh) * 2022-04-22 2022-08-30 长江大学 一种自适应的基于熵的快速工人动作图像传输方法及系统
CN116246214A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN118015488A (zh) * 2024-04-09 2024-05-10 青岛理工大学 一种基于机器学习的卫星图像识别方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN111476181A (zh) * 2020-04-13 2020-07-31 河北工业大学 一种人体骨架动作的识别方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112381004A (zh) * 2020-11-17 2021-02-19 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置
CN112733656A (zh) * 2020-12-30 2021-04-30 杭州电子科技大学 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN113111760A (zh) * 2021-04-07 2021-07-13 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113239884A (zh) * 2021-06-04 2021-08-10 重庆能源职业学院 电梯轿厢内人体行为识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN111476181A (zh) * 2020-04-13 2020-07-31 河北工业大学 一种人体骨架动作的识别方法
CN111860128A (zh) * 2020-06-05 2020-10-30 南京邮电大学 一种基于多流快慢图卷积网络的人体骨骼行为识别方法
CN112395945A (zh) * 2020-10-19 2021-02-23 北京理工大学 基于骨骼关节点的图卷积行为识别方法及装置
CN112381004A (zh) * 2020-11-17 2021-02-19 华南理工大学 一种基于骨架的双流自适应图卷积网络行为识别方法
CN112733656A (zh) * 2020-12-30 2021-04-30 杭州电子科技大学 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN113111760A (zh) * 2021-04-07 2021-07-13 同济大学 基于通道注意力的轻量化图卷积人体骨架动作识别方法
CN113239884A (zh) * 2021-06-04 2021-08-10 重庆能源职业学院 电梯轿厢内人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HU, KAI等: "Skeleton motion recognition based on multi-scale deep spatio-temporal features", 《APPLIED SCIENCES》, vol. 12, no. 3, pages 1 - 19 *
RUI GUO等: "Sparse Adaptive Graph Convolutional Network for Leg Agility Assessment in Parkinson’s Disease", 《IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING》, vol. 28, no. 12, pages 2837 - 2848, XP011835087, DOI: 10.1109/TNSRE.2020.3039297 *
李扬志等: "基于时空注意力图卷积网络模型的人体骨架动作识别算法", 《 计算机应用》, vol. 41, no. 7, pages 1915 - 1921 *
郑诗雨等: "应用区域关联自适应图卷积的动作识别方法", 《计算机科学与探索》, pages 1 - 14 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN114979302A (zh) * 2022-04-22 2022-08-30 长江大学 一种自适应的基于熵的快速工人动作图像传输方法及系统
CN116246214A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN116246214B (zh) * 2023-05-08 2023-08-11 浪潮电子信息产业股份有限公司 视听事件定位方法、模型训练方法、装置及设备和介质
CN118015488A (zh) * 2024-04-09 2024-05-10 青岛理工大学 一种基于机器学习的卫星图像识别方法

Also Published As

Publication number Publication date
CN113688765B (zh) 2023-06-27

Similar Documents

Publication Publication Date Title
CN108717568B (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
WO2022036777A1 (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN113688765B (zh) 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN107358626B (zh) 一种利用条件生成对抗网络计算视差的方法
CN109902798A (zh) 深度神经网络的训练方法和装置
CN112597883A (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN107229904A (zh) 一种基于深度学习的目标检测与识别方法
CN109978021B (zh) 一种基于文本不同特征空间的双流式视频生成方法
CN115100574A (zh) 基于融合图卷积网络与Transformer网络的动作识别方法及系统
CN110378208B (zh) 一种基于深度残差网络的行为识别方法
CN114998525A (zh) 基于动态局部-全局图卷积神经网络的动作识别方法
CN113239897B (zh) 基于时空特征组合回归的人体动作评价方法
CN114529984A (zh) 一种基于可学习pl-gcn和eclstm的骨骼动作识别方法
CN113221663A (zh) 一种实时手语智能识别方法、装置及系统
CN109598732A (zh) 一种基于三维空间加权的医学图像分割方法
CN114581502A (zh) 基于单目图像的三维人体模型联合重建方法、电子设备及存储介质
WO2023226186A1 (zh) 神经网络训练方法、人体运动识别方法及设备、存储介质
CN114463837A (zh) 基于自适应时空卷积网络的人体行为识别方法及系统
CN114723784B (zh) 一种基于域适应技术的行人运动轨迹预测方法
CN112149645A (zh) 基于生成对抗学习和图神经网络的人体姿势关键点识别方法
Dong et al. Research on image classification based on capsnet
CN114743273A (zh) 基于多尺度残差图卷积网络的人体骨骼行为识别方法及系统
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Cao et al. QMEDNet: A quaternion-based multi-order differential encoder–decoder model for 3D human motion prediction
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant