CN115100574A - 基于融合图卷积网络与Transformer网络的动作识别方法及系统 - Google Patents

基于融合图卷积网络与Transformer网络的动作识别方法及系统 Download PDF

Info

Publication number
CN115100574A
CN115100574A CN202210851338.2A CN202210851338A CN115100574A CN 115100574 A CN115100574 A CN 115100574A CN 202210851338 A CN202210851338 A CN 202210851338A CN 115100574 A CN115100574 A CN 115100574A
Authority
CN
China
Prior art keywords
time
space
layer
skeleton
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210851338.2A
Other languages
English (en)
Inventor
袁国慧
王卓然
张文超
黄崇君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yangtze River Delta Research Institute of UESTC Huzhou
Original Assignee
Yangtze River Delta Research Institute of UESTC Huzhou
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yangtze River Delta Research Institute of UESTC Huzhou filed Critical Yangtze River Delta Research Institute of UESTC Huzhou
Priority to CN202210851338.2A priority Critical patent/CN115100574A/zh
Publication of CN115100574A publication Critical patent/CN115100574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于融合图卷积网络与Transformer网络的动作识别方法及系统,属于计算机视觉等技术领域,解决现有技术只浅层使用图卷积网络提取空间特征,其局部时空特征建模能力差的问题。本发明对获取的人体骨架序列数据进行预处理,并引入关节速度信息,得到引入关节速度信息的人体骨架序列;基于引入关节速度信息的人体骨架序列构建时空骨架图;构建时空骨架图的自适应时空图卷积单元模块并进行堆叠,堆叠后得到时空图卷积网络;通过融合层将时空图卷积网络和视觉Transformer网络进行融合得到动作识别模型并进行训练;将待预测的人体动作骨架序列处理后送入训练好的动作识别模型进行预测,预测得到动作类别。本发明用于动作识别。

Description

基于融合图卷积网络与Transformer网络的动作识别方法及 系统
技术领域
一种基于融合图卷积网络与Transformer网络的动作识别方法及系统,用于动作识别,属于计算机视觉、动作识别及深度学习技术领域。
背景技术
动作识别技术是计算机视觉领域中既基础又核心的研究领域之一,主要是对人体动作进行类别判断。动作识别技术在学术界及工业级等诸多领域均有着广泛的研究,发展及应用。由于RGB数据本身抗干扰能力弱,视觉遮挡、背景干扰和光照变化等问题一直限制着基于RGB视频的动作识别的发展。骨架数据去掉衣物及身形信息,重点包含人体关节的空间位置信息,相比图像信息,其具有更高级和准确的信息表达能力以及适应能力强等优势特性,因其数据本身不受视点变化、光照变化等问题影响,在动作识别任务中鲁棒性好。
骨架序列包含人体骨骼关节点的空间位置信息,通过对帧间人体骨骼关节的空间位置变化进行描述建模,提取动作过程中骨骼关节的时空变化特征实现动作识别。随着深度学习技术的发展,越来越多的深度学习中的网络模型被用于基于骨架数据的动作识别任务中。常见的算法可以分为以下三类:基于循环神经网络(Recurrent Neural Network,RNN)、基于卷积神经网络(Conventional Neural Network,CNN)和基于图卷积神经网络(Graph Convolutional Network,GCN)的方法,基于GCN的方法按拓扑图结构处理骨架数据,以成为主流。
现有技术中基于RNN的方法按时间向量处理动作序列,丢失了关节点空间结构信息,从而造成动作类别判断精准度差。基于CNN的方法以伪图片形式处理骨架序列,对关节间联系的建模表达存在缺失,从而造成动作类别判断精准度差。ST-GCN中将人体骨架按照生理结构构建固定结构的时空骨架图,由于图结构固定导致节点信息只能按照固定路径进行传播,路程较长的节点只能通过高阶卷积进行信息传递和交互,容易造成对骨骼空间结构特征的提取存在欠缺,未能准确表示动作特征,模型鲁棒性较差。ST-GCN、2s-AGCN方法均在整个模型中使用时间卷积网络在局部时间范围内进行时间卷积,基于时间卷积网络对时间维度信息进行提取会对整个动作过程中的时间动态信息表示不全面,方法存在计算复杂度大,且长时特征抽取不完整导致模型准确率低的问题。
CN113111760A-基于通道注意力的轻量化图卷积人体骨架动作识别方法虽然利用邻接矩阵以及引入通道注意力机制的残差GCN网络提取骨架序列的空间特征,再对空间特征池化聚合之后提取骨架序列的时间特征,来完成动作类别判断,但存在如下技术问题:
1.只浅层使用图卷积网络提取空间特征,其局部时空特征建模能力差,从而造成动作类别判断的准确性差的问题;
2.使用双层全连接层对骨架序列信息进行编码后内积求得邻接矩阵,未考虑骨架生理连接关系,使图卷积层对骨架图建模能力弱,从而造成动作类别判断的准确性差的问题;
3.使用一阶CNN网络提取骨架序列的时间特征,对长程时间特征建模能力差,从而造成动作类别判断的准确性差的问题。
发明内容
针对上述研究的问题,本发明的目的在于提供了一种基于融合图卷积网络与Transformer网络的动作识别方法及系统,解决现有技术只浅层使用图卷积网络提取空间特征,其局部时空特征建模能力差,从而造成动作类别判断的准确性差的问题。
为了达到上述目的,本发明采用如下技术方案:
一种基于融合图卷积网络与Transformer网络的动作识别方法,包括如下步骤:
S1:对获取的人体骨架序列数据进行预处理,基于预处理后得到的结果引入关节速度信息,得到引入关节速度信息的人体骨架序列,其中,人体骨架序列数据即为骨架的帧序列;
S2:基于引入关节速度信息的人体骨架序列构建时空骨架图;
S3:构建时空骨架图的自适应时空图卷积单元模块并进行堆叠,堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络;
S4:通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合,对融合后得到的动作识别模型进行训练,得到训练好的动作识别模型,其中,融合层基于局部时空特征得到伪图像特征图;
S5:将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测,预测得到动作类别。
进一步,所述步骤S1的具体步骤为:
S1.1:基于BN层对获取的人体骨架序列进行归一化处理;
S1.2:将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度;
S1.3:使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作,将裁剪后得到的人体骨架序列缩放到64帧长度,即得到缩放后的人体骨架序列;
S1.4:基于缩放后的人体骨架序列,对各关节点前后帧进行差分运算得到关节点对应的速度信息,对于t帧中第i个关节点vti及该关节点在t+1帧中对应的关节点v(t+1)i,其空间位置信息分别为(xti,yti,zti)和(x(t+1)i,y(t+1)i,z(t+l)i),则对于t帧中关节点vti,其速度信息为(x(t+1)i-xti,y(t+1)i-yti,z(t+1)i-zti),将位置信息和速度信息拼接,即得到预处理后的人体骨架序列,拼接后的关节点vti的信息可表示为:(x(t+1)i,y(t+1)i,z(t+1)i,x(t+1)i-xti,y(t+1)i-yti,z(t+1)i-zti),x,y,z表示三维坐标点。
进一步,所述步骤S2的具体步骤为:
S2.1:用无向图G=(V,E)表示预处理后的人体骨架序列,其中,人体骨架序列有T帧N个关节点,无向图G中的V表示关节点的集合,E表示边的集合,即骨骼连接的集合;
S2.2:V={vti|t=1,L,T,i=1,L,N}表示无向图G中所有关节点,t表示帧数索引标号,i表示关节点索引标号,T表示总帧数,N表示总关节点数;
S2.3:边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成,即E=(Es,Et),子集Es={vtivtj|(i,j)∈H}是每一帧空间维度上关节点之间的连接,属于帧内连接,其中,H是空间中人体的关节点连接的集合,子集Et={vtiv(t+1)i}是前后两帧之间同一关节点之间的连接,属于帧间连接;
S2.4:以空间p处为中心点,定义该点在该帧内空间上的邻点集合B(vti)={vtj|d(vtj,vti)≤D},d(vtj,vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离,D为给定的阈值,为1,对每个关节点的邻点集合进行标记,定义图卷积过程中的索引顺序,即将关节点vti的邻点集合B(vti)按照根节点子集、向心点子集、离心点子集划分为3个子集,划分规则和定义的索引顺序如下:
Figure BDA0003752197130000031
其中,ri为关节点i到骨架重心的距离,关节点i为邻点集合的中心关节点,骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置,rj为关节点j到骨架重心的距离;
划分、且定义索引顺序后,得到时空骨架图。
进一步,所述步骤S3的具体步骤为:
S3.1:根据3个子集,使用自适应图结构设计单层自适应图卷积层,计算公式如下:
Figure BDA0003752197130000041
其中,fin为空间图卷积层的输入,空间图卷积层即指单层自适应图卷积层,fout为空间图卷积层的输出,Wk为可训练的第k个子集的权重矩阵,根节点子集、向心点子集、离心点子集的分区数K为3,即时空骨架图的归一化邻接矩阵
Figure BDA0003752197130000042
分为3个部分Ak,A1为单位阵I,
Figure BDA0003752197130000043
为被分为两个不同的有向图A2和A3,A2指向人体骨架重心,A3远离人体骨架重心,
Figure BDA0003752197130000044
其中,度矩阵
Figure BDA0003752197130000045
对于同一个数值k,邻接矩阵Bk以Ak进行邻接矩阵参数初始化,在动作识别模型训练的过程中对邻接矩阵Bk的参数进行更新,邻接矩阵Ck依赖于不同的人体骨架序列样本数据本身生成图结构信息,使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉,得出两个关节点之间的关联依赖性,由于归一化高斯嵌入与softmax操作是等价的,所以邻接矩阵Ck计算公式如下:
Figure BDA0003752197130000046
其中,
Figure BDA0003752197130000047
表示第k个子集的可训练的线性层θ的参数矩阵的倒置,Wφk表示第k个子集的可训练的线性层φ的参数矩阵,
Figure BDA0003752197130000048
与Wφk用于与fin相乘实现数据变换。
S3.2:构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层,即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·),特征fout通道数为c维,得到c维向量S,将向量S送入两层全连接层进行激励操作Fex(·),得到新的c维权重向量EE,将向量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差连接,相加得到最后的输出特征f;
S3.3:使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征,卷积核尺寸为1×Γ,其中,Γ是时间卷积核跨越的帧数;
S3.4:依次连接自适应图卷积层、批标准化层、残差通道注意力层、ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块;
S3.5:依次连接3个自适应时空图卷积单元模块,每个时间卷积层的时间卷积步长均设为1,得到基于堆叠后的自适应时空图卷积单元模块,即时空图卷积网络。
进一步,所述步骤S3.2中的激励操作Fex(·)具体为:通过第一个全连接层得到C/r维向量,然后进行ReLu激活,再对其进行第二个全连接层,将C/r维向量变回C维向量,再次进行Sigmoid激活,使得数值位于0-1之间,最终得到c维权重向量EE。
进一步,所述步骤S4中,融合层的具体实现步骤为:
S4.1:在空间维度上,即在特征张量的节点维度上进行全局平均池化,将局部时空特征在关节点空间维度上进行聚合,使动作特征变为时间序列特征;
S4.2:将时间序列特征按时间先后顺序以从左到右、从上到下的方式进行数组变换得到时间序列特征在二维上的表示,且在通道方向上不变,最终生成伪图像特征图。
一种基于融合图卷积网络与Transformer网络的动作识别系统,包括:
数据处理模块:对获取的人体骨架序列数据进行预处理,基于预处理后得到的结果引入关节速度信息,得到引入关节速度信息的人体骨架序列,其中,人体骨架序列数据即为骨架的帧序列;
时空骨架图构建模块:基于引入关节速度信息的人体骨架序列构建时空骨架图;
时空图卷积网络构建模块:构建时空骨架图的自适应时空图卷积单元模块并进行堆叠,堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络;
融合模块:通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合,对融合后得到的动作识别模型进行训练,得到训练好的动作识别模型,其中,融合层基于局部时空特征得到伪图像特征图;
预测模块:将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测,预测得到动作类别。
进一步,所述步骤数据处理模块的具体实现步骤为:
S1.1:基于BN层对获取的人体骨架序列进行归一化处理;
S1.2:将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度;
S1.3:使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作,将裁剪后得到的人体骨架序列缩放到64帧长度,即得到缩放后的人体骨架序列;
S1.4:基于缩放后的人体骨架序列,对各关节点前后帧进行差分运算得到关节点对应的速度信息,对于t帧中第i个关节点vti及该关节点在t+1帧中对应的关节点v(t+1)i,其空间位置信息分别为(xti,yti,zti)和(x(t+1)i,y(t+1)i,z(t+1)i),则对于t帧中关节点vti,其速度信息为(x(t+1)i-xti,y(+1)i-yti,z(t+1)i-zti),将位置信息和速度信息拼接,即得到预处理后的人体骨架序列,拼接后的关节点vti的信息可表示为:(x(t+1)i,y(t+1)i,z(t+1)i,x(t+1)i-xti,y(t+l)i-yti,z(t+1)i-zti),x,y,z表示三维坐标点。
进一步,所述时空骨架图构建模块的具体实现步骤为:
S2.1:用无向图G=(V,E)表示预处理后的人体骨架序列,其中,人体骨架序列有T帧N个关节点,无向图G中的V表示关节点的集合,E表示边的集合,即骨骼连接的集合;
S2.2:V={vti|t=1,L,T,i=1,L,N}表示无向图G中所有关节点,t表示帧数索引标号,i表示关节点索引标号,T表示总帧数,N表示总关节点数;
S2.3:边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成,即E=(Es,Et),子集Es={vtivtj|(i,j)∈H}是每一帧空间维度上关节点之间的连接,属于帧内连接,其中,H是空间中人体的关节点连接的集合,子集Et={vtiv(t+l)i}是前后两帧之间同一关节点之间的连接,属于帧间连接;
S2.4:以空间p处为中心点,定义该点在该帧内空间上的邻点集合B(vti)={vtj|d(vtj,vti)≤D},d(vti,vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离,D为给定的阈值,为1,对每个关节点的邻点集合进行标记,定义图卷积过程中的索引顺序,即将关节点vti的邻点集合B(vti)按照根节点子集、向心点子集、离心点子集划分为3个子集,划分规则和定义的索引顺序如下:
Figure BDA0003752197130000061
其中,ri为关节点i到骨架重心的距离,关节点i为邻点集合的中心关节点,骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置,rj为关节点j到骨架重心的距离;
划分、且定义索引顺序后,得到时空骨架图;
所述时空图卷积网络构建模块的具体实现步骤为:
S3.1:根据3个子集,使用自适应图结构设计单层自适应图卷积层,计算公式如下:
Figure BDA0003752197130000062
其中,fin为空间图卷积层的输入,空间图卷积层即指单层自适应图卷积层,fout为空间图卷积层的输出,Wk为可训练的第k个子集的权重矩阵,根节点子集、向心点子集、离心点子集的分区数K为3,即时空骨架图的归一化邻接矩阵
Figure BDA0003752197130000071
分为3个部分Ak,A1为单位阵I,
Figure BDA0003752197130000072
为被分为两个不同的有向图A2和A3,A2指向人体骨架重心,A3远离人体骨架重心,
Figure BDA0003752197130000073
其中,度矩阵
Figure BDA0003752197130000074
对于同一个数值k,邻接矩阵Bk以Ak进行邻接矩阵参数初始化,在动作识别模型训练的过程中对邻接矩阵Bk的参数进行更新,邻接矩阵Ck依舶于不同的人体骨架序列样本数据本身生成图结构信息,使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉,得出两个关节点之间的关联依赖性,由于归一化高斯嵌入与softmax操作是等价的,所以邻接矩阵Ck计算公式如下:
Figure BDA0003752197130000075
其中,
Figure BDA0003752197130000076
表示第k个子集的可训练的线性层θ的参数矩阵的倒置,Wφk表示第k个子集的可训练的线性层φ的参数矩阵,
Figure BDA0003752197130000077
与Wφk用于与fin相乘实现数据变换。
S3.2:构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层,即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·),特征fout通道数为c维,得到c维向量S,将向量S送入两层全连接层进行激励操作Fex(·),得到新的c维权重向量EE,将向量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差连接,相加得到最后的输出特征f;其中,激励操作Fex(·)具体为:通过第一个全连接层得到C/r维向量,然后进行ReLu激活,再对其进行第二个全连接层,将C/r维向量变回C维向量,再次进行Sigmoid激活,使得数值位于0-1之间,最终得到c维权重向量EE;
S3.3:使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征,卷积核尺寸为1×Γ,其中,Γ是时间卷积核跨越的帧数;
S3.4:依次连接自适应图卷积层、批标准化层、残差通道注意力层、ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块;
S3.5:依次连接3个自适应时空图卷积单元模块,每个时间卷积层的时间卷积步长均设为1,得到基于堆叠后的自适应时空图卷积单元模块,即时空图卷积网络;
进一步,所述融合模块中,融合层的具体实现步骤为:
S4.1:在空间维度上,即在特征张量的节点维度上进行全局平均池化,将局部时空特征在关节点空间维度上进行聚合,使动作特征变为时间序列特征;
S4.2:将时间序列特征按时间先后顺序以从左到右、从上到下的方式进行数组变换得到时间序列特征在二维上的表示,且在通道方向上不变,最终生成伪图像特征图。
本发明同现有技术相比,其有益效果表现在:
一、本发明通过在网络模型训练过程中对依据人体生理结构设计的固定结构的邻接矩阵进行学习更新(即邻接矩阵Bk是在网络训练过程中进行学习更新),同时针对每一个样本数据自适应地依据节点特征计算节点之间的连接关系和连接强弱(邻接矩阵Ck是使用输入fin进行计算,两个线性层是在训练过程中进行学习的,使用是针对每一个样本数据自适应的调整连接关系和连接强弱),通过两个邻接矩阵组合(即邻接矩阵Bk和邻接矩阵Ck的组合)作用实现对每一个样本进行个性化的动作时空特征提取,提高基于骨架数据的动作识别鲁棒性。
二、本发明使用Transformer框架对长程时间特征进行提取,通过对时间序列特征的重新排列可使连续时刻及不连续时刻实现特征交互,整体提取动作序列长程时间特征,可使用通用的用于图像分类的视觉Transformer框架进行替换,方法使用更加简单。
三、本发明使用多层自适应时空图卷积单元对人体骨架序列所有关节点的局部时空特征进行抽取,进一步对局部时空特征在节点维度上池化压缩(聚合)后送入Transformer框架进行长程时间特征提取,整个方法中以较小的计算量实现对局部时空特征和长程时间特征的提取,模型更加轻量化的同时准确率,鲁棒性均较好。
附图说明
图1是本发明的流程图;
图2是本发明基于人体骨架序列构建的时空骨架图;
图3是本发明中时空骨架图的关节点的邻点集合的子集划分示意图;
图4是本发明中自适应空间图卷积层的示意图,图中,res 1×1代表使用1×1卷积进行残差连接;
图5是本发明中残差通道注意力层的示意图,图中,fout中的C、W、H分别表示fout的C维向量、W维向量、H维向量,f中的C、W、H分别表示f的C维向量、W维向量、H维向量;
图6是本发明中自适应时空图卷积单元模块的示意图,其中,GCN代表自适应图卷积层、BN代表批标准化层、RCAB代表残差通道注意力层、ReLU代表ReLu激活函数层、TCN代表时域卷积层;
图7是本发明融合时空图卷积网络与视觉Transformer网络的动作识别方法结构示意图,其中,N代表输入数据,BN代表BN层,GCN代表自适应图卷积层,TCN代表时域卷积层,Channel Attention代表残差通道注意力层,GAP代表全局均池化,Transformer代表视觉Transformer网络,FC代表全连接层,OUT为输出结果;
图8是本发明中所述的ViT模型的结构示意图,其中,Linear Projection ofFlatten Patches代表对展平的图像块进行线性投射,Patch+Positional Embedding代表对图像块进行块及位置编码,Transformer Encoder代表编码器,MLP Head代表多层感知机;
图9是Swin Transformer模型的结构示意图,其中,Images代表输入图像,3×H×W代表图像尺寸,Patch Partition代表图像块划分,Linear Embedding代表对图像块计算线性嵌入向量,
Figure BDA0003752197130000091
均表示特征图尺寸,×2、×6均代表不同个数模块的堆叠,Swin Transformer Block表示编码器块,Stage1、Stage2、Stage3、Stage4分别表示阶段1、2、3、4;
图10是本发明公开方法中Transformer网络使用Swin Transformer结构的动作识别方法的结构示意图,Reshape代表对特征图尺寸的形状变换,Pseudo lmages代表伪图像特征图,64×H×W、C×H×W、
Figure BDA0003752197130000092
均表示特征图尺寸,×n1、×n2、×n3均代表不同个数模块的堆叠,Skeleton Sequence表示动作序列,Patch merging表示图像块合并,Block表示图像块;
图11是本发明在NTU RGB+D数据集上x-view测试基准下测试结果的混淆矩阵;
图12是本发明在NTU RGB+D数据集上x-sub测试基准下测试结果的混淆矩阵。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
实施例1
如图1所示,本实施例提供一种基于融合时空图卷积网络与Transformer网络的动作识别方法,包括如下步骤:
一种基于融合图卷积网络与Transformer网络的动作识别方法,包括如下步骤:
S1:对获取的人体骨架序列数据进行预处理,基于预处理后得到的结果引入关节速度信息,得到引入关节速度信息的人体骨架序列,其中,人体骨架序列数据即为骨架的帧序列;
具体步骤为:
S1.1:基于BN层对获取的人体骨架序列进行归一化处理;
S1.2:将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度;
S1.3:使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作,将裁剪后得到的人体骨架序列缩放到64帧长度,即得到缩放后的人体骨架序列;
S1.4:基于缩放后的人体骨架序列,对各关节点前后帧进行差分运算得到关节点对应的速度信息,对于t帧中第i个关节点vti及该关节点在t+1帧中对应的关节点v(t+1)i,其空间位置信息分别为(xti,yti,zti)和(x(t+1)i,y(t+1)i,z(t+1)i),则对于t帧中关节点vti,其速度信息为(x(t+1)i-xti,y(t+l)i-yti,z(t+1)i-zti),将位置信息和速度信息拼接,即得到预处理后的人体骨架序列,拼接后的关节点vti的信息可表示为:(x(t+1)i,y(t+1)i,z(t+1)i,x(t+1)i-xti,y(t+1)i-yti,z(t+1)i-zti),x,y,z表示三维坐标点。
S2:基于引入关节速度信息的人体骨架序列构建时空骨架图;
具体步骤为:
S2.1:用无向图G=(V,E)表示预处理后的人体骨架序列,其中,人体骨架序列有T帧N个关节点,无向图G中的V表示关节点的集合,E表示边的集合,即骨骼连接的集合;
S2.2:V={vti|t=1,L,T,i=1,L,N}表示无向图G中所有关节点,t表示帧数索引标号,i表示关节点索引标号,T表示总帧数,N表示总关节点数;
S2.3:边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成,即E=(Es,Et),子集Es={vtivtj|(i,j)∈H}是每一帧空间维度上关节点之间的连接,属于帧内连接,其中,H是空间中人体的关节点连接的集合,子集Et={vtiv(t+l)i}是前后两帧之间同一关节点之间的连接,属于帧间连接;
S2.4:以空间p处为中心点,定义该点在该帧内空间上的邻点集合B(vti)={vtj|d(vtj,vti)≤D},d(vtj,vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离,D为给定的阈值,为1,对每个关节点的邻点集合进行标记,定义图卷积过程中的索引顺序,即将关节点vti的邻点集合B(vti)按照根节点子集、向心点子集、离心点子集划分为3个子集,划分规则和定义的索引顺序如下:
Figure BDA0003752197130000111
其中,ri为关节点i到骨架重心的距离,关节点i为邻点集合的中心关节点,骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置,rj为关节点j到骨架重心的距离;
划分、且定义索引顺序后,得到时空骨架图。
S3:构建时空骨架图的自适应时空图卷积单元模块并进行堆叠,堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络;
具体步骤为:
S3.1:根据3个子集,使用自适应图结构设计单层自适应图卷积层,计算公式如下:
Figure BDA0003752197130000112
其中,fin为空间图卷积层的输入,空间图卷积层即指单层自适应图卷积层,fout为空间图卷积层的输出,Wk为可训练的第k个子集的权重矩阵,根节点子集、向心点子集、离心点子集的分区数k为3,即时空骨架图的归一化邻接矩阵
Figure BDA0003752197130000113
分为3个部分Ak,A1为单位阵I,
Figure BDA0003752197130000114
为被分为两个不同的有向图A2和A3,A2指向人体骨架重心,A3远离人体骨架重心,
Figure BDA0003752197130000115
其中,度矩阵
Figure BDA0003752197130000116
对于同一个数值k,邻接矩阵Bk以Ak进行邻接矩阵参数初始化,在动作识别模型训练的过程中对邻接矩阵Bk的参数进行更新,邻接矩阵Ck依赖于不同的人体骨架序列样本数据本身生成图结构信息,使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉,得出两个关节点之间的关联依赖性,由于归一化高斯嵌入与softmax操作是等价的,所以邻接矩阵Ck计算公式如下:
Figure BDA0003752197130000117
其中,
Figure BDA0003752197130000118
表示第k个子集的可训练的线性层θ的参数矩阵的倒置,Wφk表示第k个子集的可训练的线性层φ的参数矩阵,
Figure BDA0003752197130000119
与Wφk用于与fin相乘实现数据变换。
S3.2:构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层,即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·),特征fout通道数为c维,得到c维向量S,将向量S送入两层全连接层进行激励操作Fex(·),得到新的c维权重向量EE,将向量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差连接,相加得到最后的输出特征f;其中,激励操作Fex(·)具体为:通过第一个全连接层得到C/r维向量,然后进行ReLu激活,再对其进行第二个全连接层,将C/r维向量变回C维向量,再次进行Sigmoid激活,使得数值位于0-1之间,最终得到c维权重向量EE。
S3.3:使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征,卷积核尺寸为1×Γ,其中,Γ是时间卷积核跨越的帧数;
S3.4:依次连接自适应图卷积层、批标准化层、残差通道注意力层、ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块;
S3.5:依次连接3个自适应时空图卷积单元模块,每个时间卷积层的时间卷积步长均设为1,得到基于堆叠后的自适应时空图卷积单元模块,即时空图卷积网络。
S4:通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合,对融合后得到的动作识别模型进行训练,得到训练好的动作识别模型,其中,融合层基于局部时空特征得到伪图像特征图;
融合层的具体实现步骤为:
S4.1:在空间维度上,即在特征张量的节点维度上进行全局平均池化,将局部时空特征在关节点空间维度上进行聚合,使动作特征变为时间序列特征;
S4.2:将时间序列特征按时间先后顺序以从左到右、从上到下的方式进行数组变换得到时间序列特征在二维上的表示,且在通道方向上不变,最终生成伪图像特征图。
使用视觉Transformer网络对伪图像特征图进行长程时间特征提取并进行动作分类的具体为:将伪图像特征图送入通图像分类的视觉Transformer网络,经过Transformer框架中的多个编码器层对时间序列特征进行特征提取,提取后将输出特征送入全连接层,接入softmax函数实现动作类别判断。
Transformer框架可使用诸多用于图像分类的视觉Transformer框架,如图8所示的ViT,如图9所示的Swin Transformer等。Swin MLP框架是使用Swin-Transformer网络模型的一个适配,使用一个MLP层(实际为一个组线性层)取代所有在窗口内进行注意力计算的MSA模块,实现Attention-free。如图10所示,将变化后的伪图像特征图送入Swin MLP框架对时间特征进行提取,其关于第一阶段隐藏层的通道数C和每个阶段层数的超参设置是:C=96,layer numbers={2,2,2},head numbers={3,6,3}。
对动作识别模型进行训练过程中采用带有Nesterov动量为0.9的随机梯度下降法进行训练,选择交叉熵作为损失函数进行梯度计算实现反向传播,权重衰减系数设置为l×e-4
S5:将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测,预测得到动作类别。为了支持及验证本发明提出的动作识别模型的性能,本实施例基于pytorch深度学习框架在NTU RGB+D公开标准数据集上进行仿真实验,实验其他参数设置如下:总训练轮次为epoch=150,初始学习率为0.15,在衰减位置(35,55,100)处将学习率衰减为之前的0.2倍,在模型训练前5个epoch使用warmup预热学习率。采用Top-1识别准确率作为评价指标,在跨表演人(x-sub)与跨视角(x-view)基准两个测试基准下进行模型训练及验证模型各个模块的有效性。实验结果显示,对于NTU RGB+D数据集,在x-view测试基准下,本发明公开方法的准确率为94.0%,在x-sub测试基准下,本发明公开方法的准确率为87.4%。在x-view测试基准和x-sub测试基准下测试结果的混淆矩阵分别如图11和图12所示。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (10)

1.一种基于融合图卷积网络与Transformer网络的动作识别方法,其特征在于,包括如下步骤:
S1:对获取的人体骨架序列数据进行预处理,基于预处理后得到的结果引入关节速度信息,得到引入关节速度信息的人体骨架序列,其中,人体骨架序列数据即为骨架的帧序列;
S2:基于引入关节速度信息的人体骨架序列构建时空骨架图;
S3:构建时空骨架图的自适应时空图卷积单元模块并进行堆叠,堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络;
S4:通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合,对融合后得到的动作识别模型进行训练,得到训练好的动作识别模型,其中,融合层基于局部时空特征得到伪图像特征图;
S5:将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测,预测得到动作类别。
2.根据权利要求1所述的一种基于融合图卷积网络与Transformer网络的动作识别方法,其特征在于,所述步骤S1的具体步骤为:
S1.1:基于BN层对获取的人体骨架序列进行归一化处理;
S1.2:将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度;
S1.3:使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作,将裁剪后得到的人体骨架序列缩放到64帧长度,即得到缩放后的人体骨架序列;
S1.4:基于缩放后的人体骨架序列,对各关节点前后帧进行差分运算得到关节点对应的速度信息,对于t帧中第i个关节点vti及该关节点在t+1帧中对应的关节点v(t+l)i,其空间位置信息分别为(xti,yti,zti)和(x(t+1)i,y(t+1)i,z(t+1)i),则对于t帧中关节点vti,其速度信息为(x(t+1)i-xti,y(+l)i-yti,z(t+1)i-zti),将位置信息和速度信息拼接,即得到预处理后的人体骨架序列,拼接后的关节点vti的信息可表示为:(x(t+1)i,y(t+l)i,z(t+l)i,x(t+1)i-xti,y(t+l)i-yti,z(t+1)i-zti),x,y,z表示三维坐标点。
3.根据权利要求2所述的一种基于融合图卷积网络与Transformer网络的动作识别方法,其特征在于,所述步骤S2的具体步骤为:
S2.1:用无向图G=(V,E)表示预处理后的人体骨架序列,其中,人体骨架序列有T帧N个关节点,无向图G中的V表示关节点的集合,E表示边的集合,即骨骼连接的集合;
S2.2:V={vti|t=1,L,T,i=1,L,N}表示无向图G中所有关节点,t表示帧数索引标号,i表示关节点索引标号,T表示总帧数,N表示总关节点数;
S2.3:边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成,即E=(Es,Et),子集Es={vtivtj|(i,j)∈H}是每一帧空间维度上关节点之间的连接,属于帧内连接,其中,H是空间中人体的关节点连接的集合,子集Et={vtiv(t+1)i}是前后两帧之间同一关节点之间的连接,属于帧间连接;
S2.4:以空间p处为中心点,定义该点在该帧内空间上的邻点集合B(vti)={vtj|d(vtj,vti)≤D},d(vtj,vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离,D为给定的阈值,为1,对每个关节点的邻点集合进行标记,定义图卷积过程中的索引顺序,即将关节点vti的邻点集合B(vti)按照根节点子集、向心点子集、离心点子集划分为3个子集,划分规则和定义的索引顺序如下:
Figure FDA0003752197120000021
其中,ri为关节点i到骨架重心的距离,关节点i为邻点集合的中心关节点,骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置,rj为关节点j到骨架重心的距离;
划分、且定义索引顺序后,得到时空骨架图。
4.根据权利要求3所述的一种基于融合图卷积网络与Transformer网络的动作识别方法,其特征在于,所述步骤S3的具体步骤为:
S3.1:根据3个子集,使用自适应图结构设计单层自适应图卷积层,计算公式如下:
Figure FDA0003752197120000022
其中,fin为空间图卷积层的输入,空间图卷积层即指单层自适应图卷积层,fout为空间图卷积层的输出,Wk为可训练的第k个子集的权重矩阵,根节点子集、向心点子集、离心点子集的分区数K为3,即时空骨架图的归一化邻接矩阵
Figure FDA0003752197120000023
分为3个部分Ak,A1为单位阵I,
Figure FDA0003752197120000024
为被分为两个不同的有向图A2和A3,A2指向人体骨架重心,A3远离人体骨架重心,
Figure FDA0003752197120000031
其中,度矩阵
Figure FDA0003752197120000032
对于同一个数值k,邻接矩阵Bk以Ak进行邻接矩阵参数初始化,在动作识别模型训练的过程中对邻接矩阵Bk的参数进行更新,邻接矩阵Ck依赖于不同的人体骨架序列样本数据本身生成图结构信息,使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉,得出两个关节点之间的关联依赖性,由于归一化高斯嵌入与softmax操作是等价的,所以邻接矩阵Ck计算公式如下:
Figure FDA0003752197120000033
其中,
Figure FDA0003752197120000034
表示第k个子集的可训练的线性层θ的参数矩阵的倒置,Wφk表示第k个子集的可训练的线性层φ的参数矩阵,
Figure FDA0003752197120000035
与Wφk用于与fin相乘实现数据变换。
S3.2:构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层,即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·),特征fout通道数为c维,得到c维向量S,将向量S送入两层全连接层进行激励操作Fex(·),得到新的c维权重向量EE,将向量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差连接,相加得到最后的输出特征f;
S3.3:使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征,卷积核尺寸为1×Γ,其中,Γ是时间卷积核跨越的帧数;
S3.4:依次连接自适应图卷积层、批标准化层、残差通道注意力层、ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块;
S3.5:依次连接3个自适应时空图卷积单元模块,每个时间卷积层的时间卷积步长均设为1,得到基于堆叠后的自适应时空图卷积单元模块,即时空图卷积网络。
5.根据权利要求4所述的一种基于融合图卷积网络与Transformer网络的动作识别方法,其特征在于,所述步骤S3.2中的激励操作Fex(·)具体为:通过第一个全连接层得到C/r维向量,然后进行ReLu激活,再对其进行第二个全连接层,将C/r维向量变回C维向量,再次进行Sigmoid激活,使得数值位于0-1之间,最终得到c维权重向量EE。
6.根据权利要求5所述的一种基于融合图卷积网络与Transformer网络的动作识别方法,其特征在于,所述步骤S4中,融合层的具体实现步骤为:
S4.1:在空间维度上,即在特征张量的节点维度上进行全局平均池化,将局部时空特征在关节点空间维度上进行聚合,使动作特征变为时间序列特征;
S4.2:将时间序列特征按时间先后顺序以从左到右、从上到下的方式进行数组变换得到时间序列特征在二维上的表示,且在通道方向上不变,最终生成伪图像特征图。
7.一种基于融合图卷积网络与Transformer网络的动作识别系统,其特征在于,包括:
数据处理模块:对获取的人体骨架序列数据进行预处理,基于预处理后得到的结果引入关节速度信息,得到引入关节速度信息的人体骨架序列,其中,人体骨架序列数据即为骨架的帧序列;
时空骨架图构建模块:基于引入关节速度信息的人体骨架序列构建时空骨架图;
时空图卷积网络构建模块:构建时空骨架图的自适应时空图卷积单元模块并进行堆叠,堆叠后得到提取时空骨架图的局部时空特征的时空图卷积网络;
融合模块:通过融合层将时空图卷积网络和对伪图像特征图进行长程时间特征提取并进行动作分类的视觉Transformer网络进行融合,对融合后得到的动作识别模型进行训练,得到训练好的动作识别模型,其中,融合层基于局部时空特征得到伪图像特征图;
预测模块:将待预测的人体动作骨架序列处理为时间骨架图后送入训练好的动作识别模型进行预测,预测得到动作类别。
8.根据权利要求7所述的一种基于融合图卷积网络与Transformer网络的动作识别系统,其特征在于,所述步骤数据处理模块的具体实现步骤为:
S1.1:基于BN层对获取的人体骨架序列进行归一化处理;
S1.2:将归一化处理后得到的人体骨架序列随机裁剪到大于64帧的长度;
S1.3:使用数组采样操作对裁剪后得到的人体骨架序列的空间位置数组在时间维度上进行上下采样操作,将裁剪后得到的人体骨架序列缩放到64帧长度,即得到缩放后的人体骨架序列;
S1.4:基于缩放后的人体骨架序列,对各关节点前后帧进行差分运算得到关节点对应的速度信息,对于t帧中第i个关节点vti及该关节点在t+1帧中对应的关节点v(t+1)i,其空间位置信息分别为(xti,yti,zti)和(x(t+1)i,y(t+1)i,z(t+l)i),则对于t帧中关节点vti,其速度信息为(x(t+1)i-xti,y(t+1)i-yti,z(t+1)i-zti),将位置信息和速度信息拼接,即得到预处理后的人体骨架序列,拼接后的关节点vti的信息可表示为:(x(t+1)i,y(t+1)i,z(t+1)i,x(t+1)i-xti,y(t+1)i-yti,z(t+1)i-zti),x,y,z表示三维坐标点。
9.根据权利要求8所述的一种基于融合图卷积网络与Transformer网络的动作识别系统,其特征在于,所述时空骨架图构建模块的具体实现步骤为:
S2.1:用无向图G=(V,E)表示预处理后的人体骨架序列,其中,人体骨架序列有T帧N个关节点,无向图G中的V表示关节点的集合,E表示边的集合,即骨骼连接的集合;
S2.2:V={vti|t=1,L,T,i=l,L,N}表示无向图G中所有关节点,t表示帧数索引标号,i表示关节点索引标号,T表示总帧数,N表示总关节点数;
S2.3:边的集合E由空间边的集合Es和时间边的集合Et两部分共同组成,即E=(Es,Et),子集Es={vtivtj|(i,j)∈H}是每一帧空间维度上关节点之间的连接,属于帧内连接,其中,H是空间中人体的关节点连接的集合,子集Et={vtiv(t+1)i}是前后两帧之间同一关节点之间的连接,属于帧间连接;
S2.4:以空间p处为中心点,定义该点在该帧内空间上的邻点集合B(vti)={vtj|d(vtj,vti)≤D},d(vtj,vti)表示t帧中第j个关节点vtj到第i个关节点vti的最短距离,D为给定的阈值,为1,对每个关节点的邻点集合进行标记,定义图卷积过程中的索引顺序,即将关节点vti的邻点集合B(vti)按照根节点子集、向心点子集、离心点子集划分为3个子集,划分规则和定义的索引顺序如下:
Figure FDA0003752197120000051
其中,ri为关节点i到骨架重心的距离,关节点i为邻点集合的中心关节点,骨架重心是单帧下整个人体骨架的所有关节点的坐标位置取均值后得到的坐标位置,rj为关节点j到骨架重心的距离;
划分、且定义索引顺序后,得到时空骨架图;
所述时空图卷积网络构建模块的具体实现步骤为:
S3.1:根据3个子集,使用自适应图结构设计单层自适应图卷积层,计算公式如下:
Figure FDA0003752197120000052
其中,fin为空间图卷积层的输入,空间图卷积层即指单层自适应图卷积层,fout为空间图卷积层的输出,Wk为可训练的第k个子集的权重矩阵,根节点子集、向心点子集、离心点子集的分区数K为3,即时空骨架图的归一化邻接矩阵
Figure FDA0003752197120000053
分为3个部分Ak,A1为单位阵I,
Figure FDA0003752197120000061
为被分为两个不同的有向图A2和A3,A2指向人体骨架重心,A3远离人体骨架重心,
Figure FDA0003752197120000062
其中,度矩阵
Figure FDA0003752197120000063
对于同一个数值k,邻接矩阵Bk以Ak进行邻接矩阵参数初始化,在动作识别模型训练的过程中对邻接矩阵Bk的参数进行更新,邻接矩阵Ck依赖于不同的人体骨架序列样本数据本身生成图结构信息,使用归一化高斯嵌入函数来对两个关节点之间的交互关系进行捕捉,得出两个关节点之间的关联依赖性,由于归一化高斯嵌入与softmax操作是等价的,所以邻接矩阵Ck计算公式如下:
Figure FDA0003752197120000064
其中,
Figure FDA0003752197120000065
表示第k个子集的可训练的线性层θ的参数矩阵的倒置,Wφk表示第k个子集的可训练的线性层φ的参数矩阵,
Figure FDA0003752197120000066
与Wφk用于与fin相乘实现数据变换。
S3.2:构建残差通道注意力层将空间图卷积层的输出特征送入引入的残差通道注意力层,即对空间图卷积网络输出的特征fout实施挤压操作Fsq(·),特征fout通道数为c维,得到c维向量S,将向量S送入两层全连接层进行激励操作Fex(·),得到新的c维权重向量EE,将向量EE与空间图卷积层输出特征fout进行相乘之后再与空间图卷积层输出特征fout进行残差连接,相加得到最后的输出特征f;其中,激励操作Fex(·)具体为:通过第一个全连接层得到C/r维向量,然后进行ReLu激活,再对其进行第二个全连接层,将C/r维向量变回C维向量,再次进行Sigmoid激活,使得数值位于0-1之间,最终得到c维权重向量EE;
S3.3:使用传统的卷积层作为时域卷积层提取人体骨架序列的局部时间特征,卷积核尺寸为1×Γ,其中,Γ是时间卷积核跨越的帧数;
S3.4:依次连接自适应图卷积层、批标准化层、残差通道注意力层、ReLu激活函数层、时域卷积层、批标准化层和ReLu激活函数层构成自适应时空图卷积单元模块;
S3.5:依次连接3个自适应时空图卷积单元模块,每个时间卷积层的时间卷积步长均设为1,得到基于堆叠后的自适应时空图卷积单元模块,即时空图卷积网络。
10.根据权利要求9所述的一种基于融合图卷积网络与Transformer网络的动作识别系统,其特征在于,所述融合模块中,融合层的具体实现步骤为:
S4.1:在空间维度上,即在特征张量的节点维度上进行全局平均池化,将局部时空特征在关节点空间维度上进行聚合,使动作特征变为时间序列特征;
S4.2:将时间序列特征按时间先后顺序以从左到右、从上到下的方式进行数组变换得到时间序列特征在二维上的表示,且在通道方向上不变,最终生成伪图像特征图。
CN202210851338.2A 2022-07-19 2022-07-19 基于融合图卷积网络与Transformer网络的动作识别方法及系统 Pending CN115100574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210851338.2A CN115100574A (zh) 2022-07-19 2022-07-19 基于融合图卷积网络与Transformer网络的动作识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210851338.2A CN115100574A (zh) 2022-07-19 2022-07-19 基于融合图卷积网络与Transformer网络的动作识别方法及系统

Publications (1)

Publication Number Publication Date
CN115100574A true CN115100574A (zh) 2022-09-23

Family

ID=83299068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210851338.2A Pending CN115100574A (zh) 2022-07-19 2022-07-19 基于融合图卷积网络与Transformer网络的动作识别方法及系统

Country Status (1)

Country Link
CN (1) CN115100574A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115798055A (zh) * 2023-02-10 2023-03-14 四川大学 一种基于cornersort跟踪算法的暴力行为检测方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116434339A (zh) * 2023-04-13 2023-07-14 江南大学 基于骨架数据时空特征差异性和相关性的行为识别方法
CN116524601A (zh) * 2023-06-21 2023-08-01 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116894973A (zh) * 2023-07-06 2023-10-17 北京长木谷医疗科技股份有限公司 一种基于集成学习的髋关节病变智能自标注方法及装置
CN117152670A (zh) * 2023-10-31 2023-12-01 江西拓世智能科技股份有限公司 一种基于人工智能的行为识别方法及系统
CN117409483A (zh) * 2023-12-13 2024-01-16 烟台大学 基于自适应联合时空图卷积的虚拟现实交互方法及系统
CN117409483B (zh) * 2023-12-13 2024-06-07 烟台大学 基于自适应联合时空图卷积的虚拟现实交互方法及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116246338B (zh) * 2022-12-20 2023-10-03 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN116246338A (zh) * 2022-12-20 2023-06-09 西南交通大学 一种基于图卷积和Transformer复合神经网络的行为识别方法
CN115798055B (zh) * 2023-02-10 2023-04-28 四川大学 一种基于cornersort跟踪算法的暴力行为检测方法
CN115798055A (zh) * 2023-02-10 2023-03-14 四川大学 一种基于cornersort跟踪算法的暴力行为检测方法
CN116434339A (zh) * 2023-04-13 2023-07-14 江南大学 基于骨架数据时空特征差异性和相关性的行为识别方法
CN116434339B (zh) * 2023-04-13 2023-10-27 江南大学 基于骨架数据时空特征差异性和相关性的行为识别方法
CN116524601B (zh) * 2023-06-21 2023-09-12 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116524601A (zh) * 2023-06-21 2023-08-01 深圳市金大智能创新科技有限公司 辅助养老机器人监控的自适应多阶段人体行为识别模型
CN116894973A (zh) * 2023-07-06 2023-10-17 北京长木谷医疗科技股份有限公司 一种基于集成学习的髋关节病变智能自标注方法及装置
CN116894973B (zh) * 2023-07-06 2024-05-03 北京长木谷医疗科技股份有限公司 一种基于集成学习的髋关节病变智能自标注方法及装置
CN117152670A (zh) * 2023-10-31 2023-12-01 江西拓世智能科技股份有限公司 一种基于人工智能的行为识别方法及系统
CN117409483A (zh) * 2023-12-13 2024-01-16 烟台大学 基于自适应联合时空图卷积的虚拟现实交互方法及系统
CN117409483B (zh) * 2023-12-13 2024-06-07 烟台大学 基于自适应联合时空图卷积的虚拟现实交互方法及系统

Similar Documents

Publication Publication Date Title
CN115100574A (zh) 基于融合图卷积网络与Transformer网络的动作识别方法及系统
CN110532859B (zh) 基于深度进化剪枝卷积网的遥感图像目标检测方法
CN108717568B (zh) 一种基于三维卷积神经网络的图像特征提取与训练方法
CN109063724B (zh) 一种增强型生成式对抗网络以及目标样本识别方法
CN109410917A (zh) 基于改进型胶囊网络的语音数据分类方法
CN110222718B (zh) 图像处理的方法及装置
CN110309835B (zh) 一种图像局部特征提取方法及装置
CN111080513A (zh) 一种基于注意力机制的人脸图像超分辨率方法
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN111311702B (zh) 一种基于BlockGAN的图像生成和识别模块及方法
CN109785409B (zh) 一种基于注意力机制的图像-文本数据融合方法和系统
CN108171249B (zh) 一种基于rgbd数据的局部描述子学习方法
CN113688765A (zh) 一种基于注意力机制的自适应图卷积网络的动作识别方法
CN113435520A (zh) 神经网络的训练方法、装置、设备及计算机可读存储介质
CN114998525A (zh) 基于动态局部-全局图卷积神经网络的动作识别方法
CN111400040A (zh) 基于深度学习和边缘计算的工业互联网系统及工作方法
CN111414875A (zh) 基于深度回归森林的三维点云头部姿态估计系统
CN114723784A (zh) 一种基于域适应技术的行人运动轨迹预测方法
CN113255543B (zh) 基于图卷积网络的面部表情识别方法
CN111612046B (zh) 特征金字塔图卷积神经网络及其在3d点云分类中的应用
CN112132207A (zh) 基于多分支特征映射目标检测神经网络构建方法
CN117079098A (zh) 一种基于位置编码的空间小目标检测方法
CN116229323A (zh) 一种基于改进的深度残差网络的人体行为识别方法
CN116797640A (zh) 一种面向智能伴行巡视器的深度及3d关键点估计方法
CN112488117B (zh) 一种基于方向诱导卷积的点云分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination