CN111310707B - 基于骨骼的图注意力网络动作识别方法及系统 - Google Patents

基于骨骼的图注意力网络动作识别方法及系统 Download PDF

Info

Publication number
CN111310707B
CN111310707B CN202010128728.8A CN202010128728A CN111310707B CN 111310707 B CN111310707 B CN 111310707B CN 202010128728 A CN202010128728 A CN 202010128728A CN 111310707 B CN111310707 B CN 111310707B
Authority
CN
China
Prior art keywords
layer
network
attention
data
gat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010128728.8A
Other languages
English (en)
Other versions
CN111310707A (zh
Inventor
贺家凯
周风余
黄晴晴
赵阳
刘美珍
尹磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010128728.8A priority Critical patent/CN111310707B/zh
Publication of CN111310707A publication Critical patent/CN111310707A/zh
Application granted granted Critical
Publication of CN111310707B publication Critical patent/CN111310707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于骨骼的图注意力网络动作识别方法及系统,包括:对获取的动作数据集进行预处理,构建图数据;构建基于图注意力网络的骨骼动作识别神经网络,使用基于图注意力的方法对骨骼的时空信息进行建模,根据不同节点的重要性进行注意力标注,并提取骨骼数据的时空信息;用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;将测试集输入到优化后的网络进行预测,得到对应的动作类别。本发明基于使用基于图注意力的方法对骨骼的时空信息进行建模,有效的提高了动作的识别精度。

Description

基于骨骼的图注意力网络动作识别方法及系统
技术领域
本发明属于动作识别技术领域,尤其涉及基于骨骼的图注意力网络动作识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
人类动作的识别一直是计算机视觉领域中很重要也非常具有挑战性的问题。人类动作识别技术应用在多个领域,如视觉监控、人机交互、视频索引/检索、视频摘要和视频理解等。
根据输入数据的不同,动作识别可以分为基于RGB数据的方法和基于骨骼的方法,相比于RGB数据,骨骼数据有对光照、颜色等具有很强的鲁棒性,数据量小,可以表达动作的大部分特征等优点,所以现在越来越多的研究人员基于骨骼来研究动作识别。
发明人在研究中发现,基于骨骼的深度学习的动作识别方法主要有基于LSTM的方法,基于CNN的方法和基于图卷积的方法。由于以上方法没有对不同的关节给予不同的关注,不能充分的利用骨骼数据集的优点。
发明内容
为克服上述现有技术的不足,本发明提供了基于骨骼的图注意力网络动作识别方法,基于图注意力(GAT)的方法充分的考虑到不同关节点的重要性,并且很强的泛化能力。
相比于其他的基于注意力的方法,该方法拥有更简单的网络框架,更高效的对骨骼点的注意力进行了标注,同时提取了时空特征。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
基于骨骼的图注意力网络动作识别方法,包括:
对获取的动作数据集进行预处理,构建图数据;
构建基于图注意力网络的骨骼动作识别神经网络,使用基于图注意力的方法对骨骼的时空信息进行建模,根据不同节点的重要性进行注意力标注,并提取骨骼数据的时空信息;
用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;
将测试集输入到优化后的网络进行预测,得到对应的动作类别。
进一步的技术方案,对获取的动作数据集进行预处理,构建图数据,具体为:
从骨骼序列中获取原始身体数据;
从原始骨架序列中获取去噪数据;
为了利用时空相关性,将三个连续帧作为输入序列,每一帧之间根据人体的物理连接进行骨骼间的连接,相邻帧的连接,以同一个点进行时间上的连接。
进一步的技术方案,输入序列为P×T×N×3,其中T=T0-2,N=N0×3,T0为原始序列的帧数,N0为原始序列的关节数,P为每个序列中演员的数量,T为组合之后输入序列的帧数,N为每帧的关节数量,3为每个关节的特征数x,y,z。
进一步的技术方案,构建基于图注意力网络的骨骼动作识别神经网络:
网络由归一化层,第一GAT层,激活函数ELU1,第二GAT层,激活函数ELU2,第三GAT层,激活函数sigmoid,全局池化层,全连接层组成。
进一步的技术方案,所述网络训练、调优的方法为反向传播算法,选择交叉熵为损失函数,以top1、top5衡量准确率,使用Adam优化器为优化函数;
权重初始化,加载数据、模型、优化器,直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。
进一步的技术方案,3层GAT中,每层中的数据第一位数代表输入通道,第二位数代表输出通道,第三位数代表步长,将获取的时空特征连接到一个全连接层,再通过softmax进行动作分类。
进一步的技术方案,单层GAT的输入是节点特征的集合:
ht={ht,1,ht,2,...,ht,N},ht,i∈RF,t∈T,N是节点的数量,F是每个节点的特征数量,T是一个序列中视频帧的数量,;
输出结果节点特征的新集合:
Figure BDA0002395207980000031
计算公式如下:
Figure BDA0002395207980000032
其中,||代表连接,σ(·)是非线性激活函数,
Figure BDA0002395207980000033
是正则化的注意力系数,代表了节点j的特征对节点i的重要性,Wk是对应的输入线性变换的权矩阵,Ni是节点i的邻居节点的集合。
本发明还公开了基于骨骼的图注意力网络动作识别系统,包括数据采集设备及服务器,
数据采集设备:对动作数据集进行预处理,构建图数据;
所述服务器被配置为:
构建基于图注意力网络的骨骼动作识别神经网络,使用基于图注意力的方法对骨骼的时空信息进行建模,根据不同节点的重要性进行注意力标注,并提取骨骼数据的时空信息;
用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;
将测试集输入到优化后的网络进行预测,得到对应的动作类别。
以上一个或多个技术方案存在以下有益效果:
本发明基于使用基于图注意力的方法对骨骼的时空信息进行建模,有效的提高了动作的识别精度。
本发明提供一种基于骨骼的图注意力网络动作识别方法,能够解决图卷积网络不能进行注意力标注的问题,对于不同的动作不同的关节点的重要性是不同的,如果给所有的关节点同样的关注,不仅造成资源浪费动作分类的精度也不够高,而GAT模块在获取足够的空间信息的同时还可以进行注意力标注(每个点和每个点的一阶邻居节点计算相似性系数,最终得到每个邻居节点的注意力系数),考虑到动作序列的时间信息,本发明将连续的三帧视频组成一个输入序列,这样就兼顾了时间信息,而且图注意力网络还有很好的泛化能力,因此该网络能够实现对骨骼数据时间和空间信息的建模,从而提高了动作识别的准确率,在基于骨骼数据集的行为识别上具有通用性,有广阔的应用前景。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例基于骨骼的图注意力网络动作识别方法的流程图;
图2为本发明实施例基于骨骼的图注意力网络结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了基于骨骼的图注意力网络动作识别方法,包括以下步骤:
步骤1:对获取的动作数据集进行预处理,构建图数据;
步骤2:构建基于图注意力网络的骨骼动作识别神经网络;
步骤3:用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;
步骤4:把测试集输入到步骤3得到的网络进行预测,给出对应的动作类别。
具体实施例中,步骤1的具体步骤包括:
1.1从公用的数据集的骨骼序列中获取原始身体数据;
1.2从原始骨架序列中获取去噪数据;
1.3为了利用时空相关性,将去噪数据三个连续帧作为输入序列,每一帧之间根据人体的物理连接进行骨骼间的连接,相邻帧的连接,以同一个点进行时间上的连接。
具体的,输入序列为P×T×N×3,其中T=T0-2,N=N0×3,T0为原始序列的帧数,N0为原始序列的关节数,P为每个序列中演员的数量,T为组合之后输入序列的帧数,N为每帧的关节数量,3为每个关节的特征数x,y,z。
具体实施例中,步骤2的具体步骤包括:
2.1使用3层GAT模块构建一个基于图注意力的时空骨骼动作识别网络,单层GAT的输入是节点特征的集合ht={ht,1,ht,2,...,ht,N},ht,i∈RF,t∈T,ht是单个视频帧上所有节点的特征,ht,i是每一个节点特征,N是节点的数量,F是每个节点的特征数量,T是一个序列中视频帧的数量。
输出结果节点特征的新集合
Figure BDA0002395207980000051
计算公式如下:
Figure BDA0002395207980000061
其中,||代表连接,σ(·)是非线性激活函数,
Figure BDA0002395207980000062
是正则化的注意力系数,代表了节点j的特征对节点i的重要性,Wk是对应的输入线性变换的权矩阵,Ni是节点i的邻居节点的集合。
2.2所述网络由归一化层,GAT层1,激活函数ELU1,GAT层2,激活函数ELU2,GAT层3,激活函数sigmoid,全局池化层,全连接层组成,最终使用的总体网络结构总共有3层GAT,基本设置为3*64*1、64*128*1、128*256*1,其中第一位数代表输入通道,第二位数代表输出通道,第三位数代表步长,将获取的时空特征连接到一个全连接层,再通过softmax进行动作分类。
具体实施例中,步骤3的具体步骤包括:
3.1所述网络训练、调优的方法为反向传播算法,选择交叉熵为损失函数,以top1、top5衡量准确率,使用Adam优化器为优化函数;
3.2:权重初始化,加载数据、模型、优化器,直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。
在一更为详细的实施例子中,如图1,该方法包括以下步骤:
1对公共数据集获取的动作数据集进行预处理,使用公共的动作数据集中的NTU-RGB+D数据集作为动作识别数据集,该数据集是最大的动作数据集,提供了3D的骨骼坐标,包含60类不同的动作,包括交叉视角和交叉主体两个基准;
具体步骤包括:
1.1从NTU-RGB+D数据集的骨骼数据中获取原始身体数据,每个身体数据都是一个字典,包含原始三维关节、主体的帧索引等关键词;
1.2从原始骨架序列中获取去噪数据(关节位置),对于一个骨架序列的每一帧,一个演员的25个关节的3D位置(X,Y,Z三维坐标)通过一个2D数组(形状:25×3)表示出来,将每个3维(x,y,z)坐标按关节顺序沿行维连接成一个75维的向量;
1.3为了利用时空相关性,将三个连续帧作为输入序列,每一帧之间根据人体的物理连接进行骨骼间的连接,相邻帧的连接,以同一个点进行时间上的连接,输入序列为P×T×N×3,其中T=T0-2,N=N0×3,T0为原始序列的帧数设置为150,N0为原始序列的关节数为25,P为每个序列中演员的数量设置为2,T为组合之后输入序列的帧数为148,N为每帧的关节数量为75,3为每个关节的特征数x,y,z。
2构建基于图注意力网络的骨骼动作识别神经网络,网络结构如图2所示;具体步骤包括:
2.1使用3层GAT模块构建一个基于图注意力的时空骨骼动作识别网络,单层GAT的输入是节点特征的集合ht={ht,1,ht,2,...,ht,N},ht,i∈RF,t∈T,N是节点的数量为75,F是每个节点的特征数量为3,T是一个序列中视频帧的数为148,输出结果节点特征的新集合
Figure BDA0002395207980000071
计算公式如下:/>
Figure BDA0002395207980000072
其中,||代表连接,
Figure BDA0002395207980000073
是正则化的注意力系数,Wk是对应的输入线性变换的权矩阵,Ni是节点i的邻居节点的集合。
2.2所述网络由归一化层,GAT层1,激活函数ELU1,GAT层2,激活函数ELU2,GAT层3,激活函数sigmoid,全局池化层,全连接层组成。最终使用的总体网络结构总共有3层GAT,GAT层1的注意力头K=8,每个头输出特征为8,总输出维度为64;GAT层2的注意力头K=8,每个头输出特征为16,总输出维度为128;GAT层3的注意力头K=8,每个头输出特征为32,总输出维度为256;基本设置为3*64*1、64*128*1、128*256*1,其中第一位数代表输入通道,第二位数代表输出通道,第三位数代表步长,将获取的时空特征连接到一个全连接层输出维度为512维,再通过softmax进行动作分类;
3用训练集训练网络,优化参数,得到基于图注意力的时空骨骼动作识别网络;具体步骤包括:
3.1所述网络训练、调优的方法为反向传播算法,选择交叉熵为损失函数,以top1(预测结果中概率最大的那个分类正确,则预测正确,否则预测错误)、top5(预测结果中概率向量最大的前五个中,只要出现了正确的类别即为预测正确,否则预测错误)衡量准确率,使用Adam优化器来优化网络,采用概率为0.5的Dropout来避免数据集的过拟合,注意力头Dropout都为0.6,初始学习率设置为0.0005,并通过每10个周期乘以0.1来降低,数量样本的批处理大小为64;
3.2权重初始化,参数初始化时选择均值为0、方差为0.02的随机初始化,加载数据、模型、优化器,直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。
4把测试集输入到步骤3得到的网络进行预测,给出对应的动作类别,测试的批处理大小为64。
实施例二
本实施例的目的是提供一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例子一中的基于骨骼的图注意力网络动作识别方法步骤。
实施例三
本实施例的目的是提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行实施例子一中的基于骨骼的图注意力网络动作识别方法步骤。
实施例四
本发明实施例子还公开了基于骨骼的图注意力网络动作识别系统,包括数据采集设备及服务器,
数据采集设备:获取的动作数据集并进行预处理,构建图数据;
所述服务器被配置为:
构建基于图注意力网络的骨骼动作识别神经网络,使用基于图注意力的方法对骨骼的时空信息进行建模,根据不同节点的重要性进行注意力标注,并提取骨骼数据的时空信息;
用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;
将测试集输入到优化后的网络进行预测,得到对应的动作类别。
以上实施例二、三和四的装置中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (4)

1.基于骨骼的图注意力网络动作识别方法,其特征是,包括:
对获取的动作数据集进行预处理,构建图数据;具体为:
从骨骼序列中获取原始身体数据;
从原始骨架序列中获取去噪数据;
将三个连续帧作为输入序列,每一帧之间根据人体的物理连接进行骨骼间的连接,相邻帧的连接,以同一个点进行时间上的连接;
输入序列为P×T×N×3,其中T=T0-2,N=N0×3,T0为原始序列的帧数,N0为原始序列的关节数,P为每个序列中演员的数量,T为组合之后输入序列的帧数,N为每帧的关节数量,3为每个关节的特征数x,y,z;
构建基于图注意力网络的骨骼动作识别神经网络,网络由归一化层,第一GAT层,激活函数ELU1,第二GAT层,激活函数ELU2,第三GAT层,激活函数sigmoid,全局池化层,全连接层组成;3层GAT中,第一GAT层的注意力头K=8,每个头输出特征为8,总输出维度为64;GAT层2的注意力头K=8,每个头输出特征为16,总输出维度为128;GAT层3的注意力头K=8,每个头输出特征为32,总输出维度为256;基本设置为3*64*1、64*128*1、128*256*1,每层中的数据第一位数代表输入通道,第二位数代表输出通道,第三位数代表步长,将获取的时空特征连接到一个全连接层,再通过softmax进行动作分类;单层GAT的输入是节点特征的集合:
ht={ht,1,ht,2,...,ht,N},ht,i∈RF,t∈T,N是节点的数量,F是每个节点的特征数量,T是一个序列中视频帧的数量;
输出结果节点特征的新集合:
Figure FDA0004029665080000011
计算公式如下:
Figure FDA0004029665080000021
其中,||代表连接,
Figure FDA0004029665080000022
是正则化的注意力系数,Wk是对应的输入线性变换的权矩阵,Ni是节点i的邻居节点的集合;使用基于图注意力的方法对骨骼的时空信息进行建模,根据不同节点的重要性进行注意力标注,并提取骨骼数据的时空信息;
用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;
将测试集输入到优化后的网络进行预测,得到对应的动作类别;
所述网络训练、调优的方法为反向传播算法,选择交叉熵为损失函数,以top1、top5衡量准确率,使用Adam优化器为优化函数;
权重初始化,加载数据、模型、优化器,直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。
2.基于骨骼的图注意力网络动作识别系统,其特征是,包括数据采集设备及服务器;
数据采集设备:获取的动作数据集并进行预处理,构建图数据;具体为:
从骨骼序列中获取原始身体数据;
从原始骨架序列中获取去噪数据;
将三个连续帧作为输入序列,每一帧之间根据人体的物理连接进行骨骼间的连接,相邻帧的连接,以同一个点进行时间上的连接;
输入序列为P×T×N×3,其中T=T0-2,N=N0×3,T0为原始序列的帧数,N0为原始序列的关节数,P为每个序列中演员的数量,T为组合之后输入序列的帧数,N为每帧的关节数量,3为每个关节的特征数x,y,z;
所述服务器被配置为:
构建基于图注意力网络的骨骼动作识别神经网络,网络由归一化层,第一GAT层,激活函数ELU1,第二GAT层,激活函数ELU2,第三GAT层,激活函数sigmoid,全局池化层,全连接层组成;3层GAT中,第一GAT层的注意力头K=8,每个头输出特征为8,总输出维度为64;GAT层2的注意力头K=8,每个头输出特征为16,总输出维度为128;GAT层3的注意力头K=8,每个头输出特征为32,总输出维度为256;基本设置为3*64*1、64*128*1、128*256*1,每层中的数据第一位数代表输入通道,第二位数代表输出通道,第三位数代表步长,将获取的时空特征连接到一个全连接层,再通过softmax进行动作分类;单层GAT的输入是节点特征的集合:
ht={ht,1,ht,2,...,ht,N},ht,i∈RF,t∈T,N是节点的数量,F是每个节点的特征数量,T是一个序列中视频帧的数量;
输出结果节点特征的新集合:
Figure FDA0004029665080000031
计算公式如下:
Figure FDA0004029665080000032
其中,||代表连接,
Figure FDA0004029665080000033
是正则化的注意力系数,Wk是对应的输入线性变换的权矩阵,Ni是节点i的邻居节点的集合;
使用基于图注意力的方法对骨骼的时空信息进行建模,根据不同节点的重要性进行注意力标注,并提取骨骼数据的时空信息;
用训练集训练网络,优化参数,得到基于骨骼的图注意力动作识别网络;
将测试集输入到优化后的网络进行预测,得到对应的动作类别;
所述网络训练、调优的方法为反向传播算法,选择交叉熵为损失函数,以top1、top5衡量准确率,使用Adam优化器为优化函数;
权重初始化,加载数据、模型、优化器,直到所述分类层softmax输出的损失函数值下降并收敛时结束训练。
3.一种计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1所述的基于骨骼的图注意力网络动作识别方法步骤。
4.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行权利要求1所述的基于骨骼的图注意力网络动作识别方法步骤。
CN202010128728.8A 2020-02-28 2020-02-28 基于骨骼的图注意力网络动作识别方法及系统 Active CN111310707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010128728.8A CN111310707B (zh) 2020-02-28 2020-02-28 基于骨骼的图注意力网络动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010128728.8A CN111310707B (zh) 2020-02-28 2020-02-28 基于骨骼的图注意力网络动作识别方法及系统

Publications (2)

Publication Number Publication Date
CN111310707A CN111310707A (zh) 2020-06-19
CN111310707B true CN111310707B (zh) 2023-06-20

Family

ID=71160348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010128728.8A Active CN111310707B (zh) 2020-02-28 2020-02-28 基于骨骼的图注意力网络动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN111310707B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854305B2 (en) 2021-05-09 2023-12-26 International Business Machines Corporation Skeleton-based action recognition using bi-directional spatial-temporal transformer

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111967340B (zh) * 2020-07-27 2023-08-04 中国地质大学(武汉) 一种基于视觉感知的异常事件检测方法及系统
CN111950485B (zh) * 2020-08-18 2022-06-17 中科人工智能创新技术研究院(青岛)有限公司 一种基于人体骨架的人体行为识别方法及系统
CN111914807B (zh) * 2020-08-18 2022-06-28 太原理工大学 一种基于传感器和骨架信息的矿工行为识别方法
CN112070027B (zh) * 2020-09-09 2022-08-26 腾讯科技(深圳)有限公司 网络训练、动作识别方法、装置、设备及存储介质
CN112507940B (zh) * 2020-12-17 2023-08-25 华南理工大学 一种基于差分指导表示学习网络的骨骼动作识别方法
CN112784736B (zh) * 2021-01-21 2024-02-09 西安理工大学 一种多模态特征融合的人物交互行为识别方法
CN112818879A (zh) * 2021-02-05 2021-05-18 四川大学 一种基于部分序列的多动作早识别方法及系统
CN112836824B (zh) * 2021-03-04 2023-04-18 上海交通大学 单目三维人体位姿无监督学习方法、系统及介质
CN113158861B (zh) * 2021-04-12 2024-02-13 杭州电子科技大学 一种基于原型对比学习的运动分析方法
CN113065515B (zh) * 2021-04-22 2023-02-03 上海交通大学 基于相似度图神经网络的异常行为智能检测方法及系统
CN113420628B (zh) * 2021-06-16 2022-09-09 深圳大学 一种群体行为识别方法、装置、计算机设备及存储介质
CN113837005A (zh) * 2021-08-20 2021-12-24 广州杰赛科技股份有限公司 一种人体跌倒的检测方法、装置、存储介质及终端设备
CN113780129B (zh) * 2021-08-31 2023-07-04 同济大学 基于无监督图序列预测编码的动作识别方法及存储介质
CN114613011A (zh) * 2022-03-17 2022-06-10 东华大学 基于图注意力卷积神经网络的人体3d骨骼行为识别方法
CN114724254B (zh) * 2022-05-16 2022-12-30 北京百度网讯科技有限公司 确定动作类别的方法、装置、设备、存储介质
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110309514A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种语义识别方法及装置
CN110321761A (zh) * 2018-03-29 2019-10-11 中国科学院深圳先进技术研究院 一种行为识别方法、终端设备及计算机可读存储介质
CN110390259A (zh) * 2019-06-11 2019-10-29 中国科学院自动化研究所南京人工智能芯片创新研究院 图数据的识别方法、装置、计算机设备和存储介质
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321761A (zh) * 2018-03-29 2019-10-11 中国科学院深圳先进技术研究院 一种行为识别方法、终端设备及计算机可读存储介质
CN109460707A (zh) * 2018-10-08 2019-03-12 华南理工大学 一种基于深度神经网络的多模态动作识别方法
CN110059620A (zh) * 2019-04-17 2019-07-26 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110390259A (zh) * 2019-06-11 2019-10-29 中国科学院自动化研究所南京人工智能芯片创新研究院 图数据的识别方法、装置、计算机设备和存储介质
CN110309514A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种语义识别方法及装置
CN110796110A (zh) * 2019-11-05 2020-02-14 西安电子科技大学 一种基于图卷积网络的人体行为识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Graph Attention Networks";Petar Velickovic等;《arXiv》;20180204;1-12页 *
"Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition";Sijie Yan等;《arXiv》;20180125;1-10页 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854305B2 (en) 2021-05-09 2023-12-26 International Business Machines Corporation Skeleton-based action recognition using bi-directional spatial-temporal transformer

Also Published As

Publication number Publication date
CN111310707A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN111310707B (zh) 基于骨骼的图注意力网络动作识别方法及系统
Chen et al. Shallowing deep networks: Layer-wise pruning based on feature representations
CN107229757B (zh) 基于深度学习和哈希编码的视频检索方法
CN107492121B (zh) 一种单目深度视频的二维人体骨骼点定位方法
CN105095862B (zh) 一种基于深度卷积条件随机场的人体动作识别方法
CN109948475B (zh) 一种基于骨架特征和深度学习的人体动作识别方法
CN111339942B (zh) 基于视点调整的图卷积循环网络骨骼动作识别方法及系统
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
Zhu et al. Multilevel spatial–temporal excited graph network for skeleton-based action recognition
CN111339888B (zh) 基于关节点运动图的双人交互行为识别方法
CN113128424A (zh) 基于注意力机制的图卷积神经网络动作识别方法
Yuan et al. Compositional scene representation learning via reconstruction: A survey
CN116434347B (zh) 一种基于掩码图自编码器的骨架序列识别方法及系统
CN115546888A (zh) 一种基于身体部位分组的对称语义图卷积姿态估计方法
Ahmad et al. 3D capsule networks for object classification from 3D model data
CN114973418A (zh) 一种跨模态三维点云序列时空特征网络的行为识别方法
CN110348395B (zh) 一种基于时空关系的骨架行为识别方法
CN116502181A (zh) 基于通道扩展与融合的循环胶囊网络多模态情感识别方法
Qin et al. Depth estimation by parameter transfer with a lightweight model for single still images
CN114240999A (zh) 一种基于增强图注意力与时间卷积网络的运动预测方法
Li et al. HoloSeg: An efficient holographic segmentation network for real-time scene parsing
CN117671666A (zh) 一种基于自适应图卷积神经网络的目标识别方法
CN118038032A (zh) 基于超点嵌入和聚类的点云语义分割模型及其训练方法
Ye et al. See what you see: Self-supervised cross-modal retrieval of visual stimuli from brain activity
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant