CN111476181B - 一种人体骨架动作的识别方法 - Google Patents
一种人体骨架动作的识别方法 Download PDFInfo
- Publication number
- CN111476181B CN111476181B CN202010282867.6A CN202010282867A CN111476181B CN 111476181 B CN111476181 B CN 111476181B CN 202010282867 A CN202010282867 A CN 202010282867A CN 111476181 B CN111476181 B CN 111476181B
- Authority
- CN
- China
- Prior art keywords
- information
- joint
- skeleton
- attention
- stream data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 230000009471 action Effects 0.000 title claims abstract description 62
- 230000033001 locomotion Effects 0.000 claims description 81
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000012549 training Methods 0.000 claims description 33
- 210000000988 bone and bone Anatomy 0.000 claims description 31
- 230000002123 temporal effect Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 21
- 210000001503 joint Anatomy 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000004927 fusion Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 10
- 230000005484 gravity Effects 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 4
- 230000017105 transposition Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 5
- 230000006399 behavior Effects 0.000 description 30
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 10
- 230000007547 defect Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明一种人体骨架动作的识别方法,涉及用于识别图形的方法,是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,充分挖掘不同特征信息的多样性和互补性,利用注意力机制自适应地调整空间结构各关节点的权重值和视频序列各帧的重要性,使用图卷积网络进行人体骨架的动作识别,克服了人体骨架的动作识别方法的现有技术,均存在无法更好地捕获时空特征信息,容易对人体较难动作的识别出现错误的缺陷。
Description
技术领域
本发明的技术方案涉及用于识别图形的方法,具体地说是一种人体骨架动作的识别方法。
背景技术
近年来,随着视频采集传感器的广泛应用及人体姿态估计算法的不断发展,及其在智能视频监控、病人监护系统、人机交互和虚拟现实中的潜在应用,人的动作识别受到了越来越多的关注。基于机器视觉的人体动作识别是将包含人体动作的视频添加上动作类型的标签,其目的是分析理解视频中个人的动作和多人之间的交互行为。
根据输入数据的类型,人体动作识别分为基于RGB视频的方法和基于骨架视频的方法。与RGB图像相比,人体骨架数据具有轻巧、抗背景噪声及鲁棒性强的优点。目前针对人体动作识别的深度学习方法主要有递归神经网络、卷积神经网络和图卷积神经网络。其中,递归神经网络从原始骨架输入中识别人类动作,其中特征学习和时间动态建模由神经网络完成。卷积神经网络轻松构建深度网络,并具备出色的提取高级信息的能力。虽然这些方法显示出令人鼓舞的改进,但是不能推广到从任意形式的人体骨架中提取时空特征信息进行动作识别。因为人体骨架是关节自然连接的不规则的连通图,并不是2D或者3D的网格形式,这样就不能像先前的卷积神经网络一样直接从人体骨架中提取关键的特征信息。为了克服这些缺陷,需要一种新的方法,该方法能够捕获关节空间结构中的特征信息。最近,将卷积神经网络扩展为任意结构图的图卷积网络引起了重视,其明确考虑了非欧几里德空间中关节之间的相邻关系。
有关人体骨架动作识别方法现有技术的报道如下:2015年Yong Du在《The IEEEConference on Computer Vision and Pattern Recognition》上发表的论文“Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition”中,提出了一种用于动作识别的端到端分层RNN,它将整个人体分为五个部分,每个部分被馈送到不同的子网,并且子网的输出是分层融合的。2016年Jun Liu在《EuropeanConference on Computer Vision》上发表的论文“Spatio-Temporal LSTM with TrustGates for 3D Human Action Recognition”中,将LSTM扩展到空间-时间域,以明确建模关节之间的相关性,并引入新的门控机制来处理骨骼数据中的噪声和遮挡。上述这些方法忽略了人体骨架中各关节之间以及两相邻关节边的空间结构特征,从而无法有效利用人体骨架连通图的空间拓扑结构捕捉更重要的时空特征信息,进行动作识别的任务。同时,这些方法针对骨架连通图中各关节点对识别任务的贡献率以及动作视频序列中不同帧对识别任务的影响程度都没有进行充分的考虑。
2019年Bin Li在《The Thirty-Third AAAI Conference on ArtificialIntelligence》上发表的论文“Spatio-Temporal Graph Routing for Skeleton-BasedAction Recognition”中,提出了一种新的时空图路线方案,它自适应地学习物理上分开的骨架关节的内在高阶连通性关系。空间图路线旨在沿空间维度的子组聚类发现关节之间的连通性关系,而时间图路线通过测量时间关节节点轨迹之间的相关程度来探索结构信息,该方法存在忽略了运动中关键点和关键帧的重要性,无法更准确的提取时空特征信息的缺陷。2019年Maosen Li在《IEEE Conference on Computer Vision and PatternRecognition》上发表的论文“Actional-Structural Graph Convolutional Networks forSkeleton-based Action Recognition”中,提出了使用推断模块来捕获特定于动作的潜在依赖关系的动作连接,并将动作连接与结构连接组合为广义骨架图,该方法存在没有充分考虑视频时间序列关键帧的重要性和时空特征之间的相关关系的缺陷。CN110348395A公开了一种基于时空关系的骨架行为识别方法,该方法结合卷积神经网络和长短时记忆网络作为行为识别模型,自适应的提取人体骨架在时间空间上的动作行为特征,进行行为分类,该方法存在没有利用骨架数据的图形结构,并且难以推广到任意形式的骨架,进而不能有效捕捉人体骨架图中关节点之间的空间特征信息的缺陷。CN108764050A公开了一种基于角度无关性的骨架行为识别方法、系统及设备,该方法只在提高角度无关性骨架行为识别的准确率,其存在在空域注意力模块中忽略了周围邻居节点对中心节点的不同影响,不能更好提取重要的特征信息的缺陷。CN108304795A公开了一种基于深度强化学习的人体骨架行为识别方法及装置,该方法通过不断强化学习筛选关键帧,但存在没有考虑骨架图中各关节点在动作视频序列的不同重要程度的缺陷。CN110059620A公开了一种基于时空注意力的骨骼行为识别方法,该方法将计算方式类似的时间注意力模块和节点注意力模块串联,添加在卷积网络模块后,其存在不能分别对空间卷积和时间卷积操作赋予更准确的权重值的缺陷。CN110222611A公开了一种基于图卷积网络的人体骨架行为识别方法、系统、装置,该方法存在计算量较大,仅能具有低于文中阈值边的特征信息,其余边之间的相关关系没有被考虑,将会丢失一部分特征信息,从而影响动作识别准确性的提升的缺陷。CN110222653A公开了一种基于图卷积神经网络的骨架数据行为识别方法,该方法着重在于利用骨架数据的拓扑结构,提取空间结构信息,其存在而忽略了视频帧时间序列信息的重要性的缺陷。CN110210372A公开了一种基于注意增强图卷积网络的骨架行为识别方法、系统,该方法忽略了视频动作序列中不同帧之间同一关节的运动特征信息。(https://mp.weixin.qq.com/s?__biz=MzIyNjY3MjQ5NA==&mid=2247483930&idx=1&sn=0131c07a9ecefec691b478589fe5fbb5&chksm=e86da81bdf1a210d23f8415da25ac16159b211e59f3dc8cec9b2957af19960a6181dbc987a87&mpshare=1&scene=23&srcid=1215rG7OW0vUbnGdI3EYErFG#rd)报道“基于双流递归神经网络的人体骨架行为识别”,公开了一种基于双流递归神经网络的方法,该方法分别对骨架坐标的时间动态特性和空间相对关系建模,其存在无法完全表示人体骨架图的拓扑结构,不能有效提取骨架图的空间位置结构信息的缺陷。
总之,相关人体骨架的动作识别方法的现有技术,均存在无法更好地捕获时空特征信息,容易对人体较难动作的识别出现错误的缺陷。
发明内容
本发明所要解决的技术问题是:提供一种人体骨架动作的识别方法,是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,充分挖掘不同特征信息的多样性和互补性,利用注意力机制自适应地调整空间结构各关节点的权重值和视频序列各帧的重要性,使用图卷积网络进行人体骨架的动作识别,克服了人体骨架的动作识别方法的现有技术,均存在无法更好地捕获时空特征信息,容易对人体较难动作的识别出现错误的缺陷。
本发明解决该技术问题所采用的技术方案是:一种人体骨架动作的识别方法,是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,具体步骤如下:
第一步,生成多角度骨架特征的训练数据:
所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据,
首先对于一组输入的人体骨架动作的视频序列,构建人体骨架的无向连通图,其中关节点作为图的顶点,关节点之间的自然连接作为图的边,定义骨架图G={V,E},其中,V是n个关节点的集合,E是m个骨架边的集合,由如下公式(1)得到骨架图的邻接矩阵Ak∈{0,1}n×n,
公式(2)中,RT为旋转矩阵,
公式(3)中,X1,Y1,Z1为V1的三维坐标值,X2,Y2,Z2为V2的三维坐标值,
由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标Vt=(Xt,Yt,Zt),前一帧的三维坐标Vt-1=(Xt-1,Yt-1,Zt-1)和后一帧的三维坐标Vt+1=(Xt+1,Yt+1,Zt+1),计算对应坐标差的向量,得到运动边过程如下公式(4)所示,
至此生成多角度骨架特征的训练数据;
第二步,在空间域提取空间特征信息Xsout:
第(2.1)步,进行图注意力模块操作,获得空间注意力Mk:
根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值eij,计算公式(5)如下所示,
eij=LeakyReLU(XinW1)W2 (5),
公式(5)中,Xin为关节信息流数据骨骼信息流数据或运动信息流数据三种信息流数据的训练数据中的任意一种,W1是特征维度上线性图层的参数,W2是时间维度上线性图层的参数,LeakyReLU是一个激活函数,
进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值αij,如下公式(6)所示,
公式(6)中,Ni为关节点i的邻居节点的集合,eik为关节点i与集合Ni中所有任一关节点的图注意力值,k为集合Ni中的任一关节点的索引,
相对图注意力值αij的矩阵为空间注意力Mk;
第(2.2)步,提取空间特征信息Xsout:
将关节信息流数据骨骼信息流数据和运动信息流数据分别输入到每个信息流的空间图卷积模块中,其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略,即以人体所有关节点的坐标平均值作为人体骨架的重心,采用相邻节点的一阶邻域,比根节点距离重心更近的节点作为向心点,比根节点距离重心更远的节点作为离心点,进行空间图卷积模块操作提取空间特征信息Xsout,用如下所示公式(7)计算,
公式(7)中,Xsout为关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息或运动信息流数据的空间特征信息三种信息流数据的空间特征信息中的任意一种,K为空间维度的卷积核大小,使用上述的分区策略,K设置为3,为如下公式(8)所示的归一化后的邻接矩阵,Wk为特征信息的重要性,Mk为一个N×N的相对图注意力值的矩阵,表示每条边的权重值,*为哈达玛积,
公式(8)中,Ak为一个N×N的邻接矩阵,Λk为一个对角矩阵,
由此完成在空间域提取空间特征信息Xsout;
第三步,在时间域提取时间特征信息Xtout:
第(3.1)步,进行时间注意力模块操作,获得时间注意力Mt:
调整上述第二步提取的空间特征信息Xsout的各帧之间的不同重要性,用如下所示公式(10)计算获得时间注意力值Tatt,
公式(10)中,Sp为在第p帧经过空间图卷积模块后提取的空间特征信息,Sq为在第q帧经过空间图卷积模块后提取的空间特征信息,Z(S)为用于正则化的函数,g(·)为一个一元函数计算Sq的表示形式,成对函数f(Sp,Sq)定义了各帧之间的相关关系,其计算方法如下公式(11)所示,
公式(11)中,θ(·)和φ(·)为两个特征嵌入函数,θ(·)由如下公式(12)得到,φ(·)由如下公式(13)得到,T表示转置操作,
θ(Sp)=WθSp (12),
公式(12)中,Wθ是可学习的参数,在网络训练时动态变化,
φ(Sq)=WφSq (13),
公式(13)中,Wφ是可学习的参数,在网络训练时动态变化,
时间注意力值Tatt的矩阵为时间注意力Mt;
第(3.2)步,提取时间特征信息Xtout:
沿着时间维度,将关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息和运动信息流数据的空间特征信息分别输入到每个信息流的时间卷积模块中,进行时间卷积模块操作提取时间特征信息Xtout,用如下所示公式(14)计算,
Xtout=MtXsoutWo (14),
由此完成在时间域提取时间特征信息Xtout;
第四步,在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout:
将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起,称为图卷积网络,上述第二步中的空间注意力和第三步的时间注意力组合在一起,称为时空注意力,上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起,称为一个时空卷积模块,整体网络框架共有10个这样的时空卷积模块,其中第一个时空卷积模块的作用为批处理归一化,接下来的三个时空卷积模块的输出通道分别为64通道,再接下来的三个时空卷积模块的输出通道为128通道,最后三个时空卷积模块的输出通道为256通道,其中每个时空卷积模块都附有一个残差模块,保留之前的信息,增强重要的信息,在残差模块中,添加了改进的关节之间的共现特征的学习算法,该残差模块共五个卷积分支和一个上采样层,上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作,由此得到残差模块提取的残差特征信息F(Xtout),进一步用如下所示公式(15)计算最终特征信息Xout,
Xout=Xtout+F(Xtout) (15),
公式(15)中,Xout为关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的最终特征信息中的任意一种,F(Xtout)为关节信息流数据的残差特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的残差特征信息中的任意一种,
由此完成在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout;
将上述第四步获得的关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息分别输入到每个信息流的softmax层,相应得到关节信息流的预测概率值为骨骼信息流的预测概率值为运动信息流的预测概率值为将关节信息流的预测概率值骨骼信息流的预测概率值和运动信息流的预测概率值进行动态地加权融合,得到三流动态融合后的预测类标签如下公式(16)所示,
公式(16)中,Wj为关节信息流的动态融合变化的权重值,Wb为骨骼信息流的动态融合变化的权重值,Wm为运动信息流的动态融合变化的权重值,
至此,由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法;
第六步,结合时空注意力与图卷积网络的人体骨架动作识别方法的训练:
经过上述五个步骤的操作之后,使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示,
公式(17)中,Y为待测试动作真实标签,
通过随机梯度下降算法优化网络的参数,使交叉熵损失函数L达到最小化,
由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练;
第七步,结合时空注意力与图卷积网络的人体骨架动作识别方法的度量:
公式(18)中,TP为动作被预测为相应类标签的数目,SP为各类标签的总数目;
由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量,
至此,完成人体骨架动作的识别。
一种人体骨架动作的识别方法,所述softmax层,上采样操作、所有的转置操作、双线性插值操作和随机梯度下降算法及关节之间的共现特征的学习算法均为本领域公知的技术。
本发明的有益效果是:与现有技术相比,本发明的突出的实质性特点和显著进步如下:
(1)本发明方法提出一种结合时空注意力与图卷积网络的人体骨架动作识别方法,对传统骨架图其固定的物理拓扑结构进行了调整,加入自适应邻接矩阵的方法,构建一种新的卷积核,提取更丰富的判别信息。在空间域中,使用图注意力模块,自适应地调整空间维度上节点之间的重要性。在时间域中,使用时间注意力模块,自适应地调整时间维度上各视频帧的重要性。在每个时空卷积模块,都添加一个残差模块,加入改进的共现特征,聚合局部的共现特征和全局的共现特征,以捕获动作中涉及的长期关节的相互影响。分别提取人体骨架的关节信息流,骨骼信息流和运动信息流的特征后,利用这三个信息流特征之间的互补性和多样性,将三流的预测概率值进行动态地融合,得到预测精度。本发明方法引入时空注意力机制更好地提取时空特征的判别信息,加入自适应邻接矩阵动态捕获学习新的拓扑结构,充分利用人体骨架的空间结构,解决了现有技术方法物理拓扑结构固定的缺陷,从而实现人体骨架动作的识别,提高识别的准确率。
(2)CN110348395A公开了一种基于时空关系的骨架行为识别方法,该方法结合卷积神经网络和长短时记忆网络作为行为识别模型,将人体骨架表示成矩阵的形式作为模型的输入,并将骨架序列进行分段处理,自适应的提取人体骨架在时间空间上的动作行为特征,进行行为分类,该方法没有利用骨架数据的图形结构,并且难以推广到任意形式的骨架,进而不能有效捕捉人体骨架图中关节点之间的空间特征信息。与CN110348395A相比,本发明方法是通过构建人体骨架无向图,采用图卷积的方法,更好地利用了骨架图的空间拓扑结构,提取高丰富的特征信息,提高了动作识别的准确性。
(3)CN108764050A公开了一种基于角度无关性的骨架行为识别方法、系统及设备,该方法只在提高角度无关性骨架行为识别的准确率,其在空域注意力模块中忽略了周围邻居节点对中心节点的不同影响,不能更好提取重要的特征信息。与CN110059620A相比,本发明方法采用图注意力模块,其遵循自我关注的方法,通过关注邻居节点来计算骨架图中每个节点的隐含表示,赋予更准确的权重值,提高了识别性能。
(4)CN108304795A公开了一种基于深度强化学习的人体骨架行为识别方法及装置,该方法通过不断挑选出来帧的判别性,去除冗余信息,降低测试阶段计算量,该方法存在没有考虑骨架图中各关节点在动作视频序列的不同重要程度的缺陷。与CN108304795A相比,本发明方法引入图注意力模块,充分利用人体骨架图关节之间的依赖性,赋予各关节点不同的权重,捕获更重要的信息,识别准确率进一步提高。
(5)CN110059620A公开了一种基于时空注意力的骨骼行为识别方法,该方法亦是结合了时空注意力机制,计算空间特征信息和时间特征信息的重要性,并把注意力单元模块嵌入到时间卷积网络和残差连接之间,该方法存在不能分别对空间卷积和时间卷积网络赋予更准确的权重值的缺陷。与CN110059620A相比,本发明在每一次卷积前分别赋予相应的权重值,其次在进行空间卷积或时间卷积提取特征信息,捕获更准确的语义特征,预测结果更加准确。
(6)CN110222611A公开了一种基于图卷积网络的人体骨架行为识别方法、系统、装置,该方法将人体关节自然连接图的自然连接边邻接矩阵与非自然连接边的邻接矩阵进行求和,得到各人体关节连接图的邻接矩阵以及相应的人体关节连接图,再进行时空特征信息的提取进而识别分类,该方法计算量较大,仅能具有低于文中阈值边的特征信息,其余边之间的相关关系没有被考虑,将会丢失一部分特征信息,从而影响动作识别准确性的提升。与CN110222611A相比,本发明方法是加入了自适应邻接矩阵,在网络训练过程中动态学习骨架图空间结构的拓扑结构,弥补了这一缺陷提高识别的准确率。
(7)CN110222653A公开了一种基于图卷积神经网络的骨架数据行为识别方法,是通过将骨架数据按其时间维度进行下采样,得到固定大小的骨架数据,接着将该数据按照三维坐标拆分成三个通道,并分别将每一个空间通道馈送到带有注意力的图卷积模块,将输出结果进行合并,再将其作时空卷积,得到分类结果,该方法着重在于利用骨架数据的拓扑结构,提取空间结构信息,而忽略了视频帧时间序列的重要性。与CN110222653A相比,本发明方法添加了时间注意力模块,给予关键帧更多的权重值,有利于提取更准确的时间信息,能够更精确的预测相应的动作类别。
(8)CN110210372A公开了一种基于注意增强图卷积网络的骨架行为识别方法、系统,该方法首先获取人体骨架序列作为待识别骨架序列,其次通过训练好的骨架行为识别网络,获取预设行为的概率,最后选择概率最高的预设行为作为所述待识别骨架序列的预测行为。该方法忽略了视频动作序列中不同帧之间同一关节的运动特征信息。与CN110210372A相比,本发明方法加入了运动信息流特征信息,能够更加全面地捕获各帧之间同一关节点的运动轨迹信息,有利于准确识别相应的动作。
(9)基于双流递归神经网络的人体骨架行为识别(https://mp.weixin.qq.com/s?__biz=MzIyNjY3MjQ5NA==&mid=2247483930&idx=1&sn=0131c07a9ecefec691b478589fe5fbb5&chksm=e86da81bdf1a210d23f8415da25ac16159b211e59f3dc8cec9b2957af19960a6181dbc987a87&mpshare=1&scene=23&srcid=1215rG7OW0vUbnGdI3EYErFG#rd)公开了一种基于双流递归神经网络的方法。该方法分别对骨架坐标的时间动态特性和空间相对关系建模。其无法完全表示人体骨架图的拓扑结构,不能有效提取骨架图的空间位置结构信息。与基于双流递归神经网络的人体骨架行为识别相比,本发明具有的突出的实质性特点和显著进步是将骨架数据建模为图形结构,在人体骨架图上进行卷积运算,而且三流信息同时训练,能够捕捉更具有判别力的空间信息和时间动态特征信息,有效的进行动作识别。
(10)本发明方法采用图卷积的方法,相比递归神经网络和卷积神经网络,更好地利用了骨架图的空间拓扑结构,提取更丰富的特征信息,提高了动作识别的准确性,使得该方法具有实际的应用价值。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明方法的流程示意框图。
具体实施方式
图1所示实施例表明,本发明方法的流程是:生成多角度骨架特征的训练数据→在空间域提取空间特征信息Xsout→在时间域提取时间特征信息Xtout→在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout→三流动态融合后的预测类标签→结合时空注意力与图卷积网络的人体骨架动作识别方法的训练→结合时空注意力与图卷积网络的人体骨架动作识别方法的度量。
实施例
本实施例的结合时空注意力与图卷积网络的动作识别方法,具体步骤如下:
第一步,生成多角度骨架特征的训练数据:
所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据,
首先对于一组输入的人体骨架动作的视频序列,构建人体骨架的无向连通图,其中关节点作为图的顶点,关节点之间的自然连接作为图的边,定义骨架图G={V,E},其中,V是n个关节点的集合,E是m个骨架边的集合,由如下公式(1)得到骨架图的邻接矩阵Ak∈{0,1}n×n,
公式(2)中,RT为旋转矩阵,
公式(3)中,X1,Y1,Z1为V1的三维坐标值,X2,Y2,Z2为V2的三维坐标值,
由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标Vt=(Xt,Yt,Zt),前一帧的三维坐标Vt-1=(Xt-1,Yt-1,Zt-1)和后一帧的三维坐标Vt+1=(Xt+1,Yt+1,Zt+1),计算对应坐标差的向量,得到运动边过程如下公式(4)所示,
至此生成多角度骨架特征的训练数据;
第二步,在空间域提取空间特征信息Xsout:
将上述第一步所得到关节信息流数据骨骼信息流数据和运动信息流数据三种多角度骨架特征信息的训练数据,同时馈送到空间图卷积模块中进行训练,在空间维度上,不同节点之间的特征相互影响,并且相互影响是高度动态的,由此,先经过图注意力模块,自适应地调整空间维度上节点之间的相对图注意力值αij,其次在空间域提取空间特征信息Xsout,具体操作步骤如下:
第(2.1)步,进行图注意力模块操作,获得空间注意力Mk:
遵循自我关注的方法,通过关注邻居节点来计算骨架图中每个节点的隐含表示,旨在根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值eij,计算公式(5)如下所示,
eij=LeakyReLU(XinW1)W2 (5),
公式(5)中,Xin为关节信息流数据骨骼信息流数据或运动信息流数据三种信息流数据的训练数据中的任意一种,W1是特征维度上线性图层的参数,W2是时间维度上线性图层的参数,LeakyReLU是一个激活函数,
使权重值在不同关节点之间进行比较,对关节点i和与其所有相连接的任一关节点j的图注意力值eij进行标准化处理,进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值αij,如下公式(6)所示,
公式(6)中,Ni为关节点i的邻居节点的集合,eik为关节点i与集合Ni中所有任一关节点的图注意力值,k为集合Ni中的任一关节点的索引,
相对图注意力值αij的矩阵为空间注意力Mk;
第(2.2)步,提取空间特征信息Xsout:
将关节信息流数据骨骼信息流数据和运动信息流数据分别输入到每个信息流的空间图卷积模块中,其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略,即以人体所有关节点的坐标平均值作为人体骨架的重心,采用相邻节点的一阶邻域,比根节点距离重心更近的节点作为向心点,比根节点距离重心更远的节点作为离心点,进行空间图卷积模块操作提取空间特征信息Xsout,用如下所示公式(7)计算,
公式(7)中,Xsout为关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息或运动信息流数据的空间特征信息三种信息流数据的空间特征信息中的任意一种,K为空间维度的卷积核大小,使用上述的分区策略,K设置为3,为如下公式(8)所示的归一化后的邻接矩阵,Wk为特征信息的重要性,Mk为一个N×N的相对图注意力值的矩阵,表示每条边的权重值,*为哈达玛积,
公式(8)中,Ak为一个N×N的邻接矩阵,Λk为一个对角矩阵,
由此完成在空间域提取空间特征信息Xsout;
第三步,在时间域提取时间特征信息Xtout:
在时间维度上,骨架视频序列不同时间帧对动作识别任务的影响程度不同。因此,将上一步提取的空间特征信息Xsout,先经过时间注意力模块,适应性地赋予不同帧不同的时间注意力值Tatt,其次在时间域提取时间特征信息Xtout,具体步骤如下:
第(3.1)步,进行时间注意力模块操作,获得时间注意力Mt:
调整上述第二步提取的空间特征信息Xsout的各帧之间的不同重要性,用如下所示公式(10)计算获得时间注意力值Tatt,
公式(10)中,Sp为在第p帧经过空间图卷积模块后提取的空间特征信息,Sq为在第q帧经过空间图卷积模块后提取的空间特征信息,Z(S)为用于正则化的函数,g(·)为一个一元函数计算Sq的表示形式,成对函数f(Sp,Sq)定义了各帧之间的相关关系,其计算方法如下公式(11)所示,
公式(11)中,θ(·)和φ(·)为两个特征嵌入函数,θ(·)由如下公式(12)得到,φ(·)由如下公式(13)得到,T表示转置操作,
θ(Sp)=WθSp (12),
公式(12)中,Wθ是可学习的参数,在网络训练时动态变化,
φ(Sq)=WφSq (13),
公式(13)中,Wφ是可学习的参数,在网络训练时动态变化,
时间注意力值Tatt的矩阵为时间注意力Mt;
第(3.2)步,提取时间特征信息Xtout:
沿着时间维度,将关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息和运动信息流数据的空间特征信息分别输入到每个信息流的时间卷积模块中,进行时间卷积模块操作提取时间特征信息Xtout,用如下所示公式(14)计算,
Xtout=MtXsoutWo (14),
由此完成在时间域提取时间特征信息Xtout;
第四步,在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout:
将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起,称为图卷积网络,上述第二步中的空间注意力和第三步的时间注意力组合在一起,称为时空注意力,上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起,称为一个时空卷积模块,整体网络框架共有10个这样的时空卷积模块,其中第一个时空卷积模块的作用为批处理归一化,接下来的三个时空卷积模块的输出通道分别为64通道,再接下来的三个时空卷积模块的输出通道为128通道,最后三个时空卷积模块的输出通道为256通道,其中每个时空卷积模块都附有一个残差模块,保留之前的信息,增强重要的信息,在残差模块中,添加了改进的关节之间的共现特征的学习算法,该残差模块共五个卷积分支和一个上采样层,上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作,由此得到残差模块提取的残差特征信息F(Xtout),进一步用如下所示公式(15)计算最终特征信息Xout,
Xout=Xtout+F(Xtout) (15),
公式(15)中,Xout为关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的最终特征信息中的任意一种,F(Xtout)为关节信息流数据的残差特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的残差特征信息中的任意一种,
由此完成在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout;
将上述第四步获得的关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息分别输入到每个信息流的softmax层,相应得到关节信息流的预测概率值为骨骼信息流的预测概率值为运动信息流的预测概率值为将关节信息流的预测概率值骨骼信息流的预测概率值和运动信息流的预测概率值进行动态地加权融合,得到三流动态融合后的预测类标签如下公式(16)所示,
公式(16)中,Wj为关节信息流的动态融合变化的权重值,Wb为骨骼信息流的动态融合变化的权重值,Wm为运动信息流的动态融合变化的权重值,
至此,由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法;
第六步,结合时空注意力与图卷积网络的人体骨架动作识别方法的训练:
经过上述五个步骤的操作之后,使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示,
公式(17)中,Y为待测试动作真实标签,
通过随机梯度下降算法优化网络的参数,使交叉熵损失函数L达到最小化,
由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练;
第七步,结合时空注意力与图卷积网络的人体骨架动作识别方法的度量:
公式(18)中,TP为动作被预测为相应类标签的数目,SP为各类标签的总数目;
由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量,
至此,完成人体骨架动作的识别。
本实施例利用Pytorch平台实现,并在NTU-RGB+D数据集进行了实验,该数据集提供了相应动作中每个人的3维25个关节点的坐标,共计60类动作。为了验证本发明方法在人体骨架动作识别率上的优势,本实施例选取常用于骨架动作识别的循环神经网络,卷积神经网络和图卷积神经网络进行了比较,表1列出了人体骨架动作识别的实验结果。
表1不同算法下NTU-RGB+D数据集的动作识别率
从表1中可以看出,本实施例提出的结合时空注意力与图卷积网络的动作识别方法的识别率明显优于其它对比方法。
上述实施例中,所述softmax层,上采样操作、所有的转置操作、双线性插值操作和随机梯度下降算法及关节之间的共现特征的学习算法均为本领域公知的技术。
Claims (1)
1.一种人体骨架动作的识别方法,其特征在于:是一种结合时空注意力与图卷积网络的人体骨架动作的识别方法,具体步骤如下:
第一步,生成多角度骨架特征的训练数据:
所述多角度骨架特征的训练数据包括关节信息流数据、骨骼信息流数据和运动信息流数据,
首先对于一组输入的人体骨架动作的视频序列,构建人体骨架的无向连通图,其中关节点作为图的顶点,关节点之间的自然连接作为图的边,定义骨架图G={V,E},其中,V是n个关节点的集合,E是m个骨架边的集合,由如下公式(1)得到骨架图的邻接矩阵Ak∈{0,1}n×n,
公式(2)中,RT为旋转矩阵,
公式(3)中,X1,Y1,Z1为V1的三维坐标值,X2,Y2,Z2为V2的三维坐标值,
由一个人体骨架动作的视频序列的三个相邻帧的三维坐标即中间帧的三维坐标Vt=(Xt,Yt,Zt),前一帧的三维坐标Vt-1=(Xt-1,Yt-1,Zt-1)和后一帧的三维坐标Vt+1=(Xt+1,Yt+1,Zt+1),计算对应坐标差的向量,得到运动边过程如下公式(4)所示,
至此生成多角度骨架特征的训练数据;
第二步,在空间域提取空间特征信息Xsout:
第(2.1)步,进行图注意力模块操作,获得空间注意力Mk:
根据边的输入来估计空间维度上关节点i与关节点j之间的图注意力值eij,计算公式(5)如下所示,
eij=LeakyReLU(Xin W1)W2 (5),
公式(5)中,Xin为关节信息流数据骨骼信息流数据或运动信息流数据三种信息流数据的训练数据中的任意一种,W1是特征维度上线性图层的参数,W2是时间维度上线性图层的参数,LeakyReLU是一个激活函数,
进一步计算获得空间维度上关节点i和与其所有相连接的任一关节点j之间的相对图注意力值αij,如下公式(6)所示,
公式(6)中,Ni为关节点i的邻居节点的集合,eik为关节点i与集合Ni中所有任一关节点的图注意力值,k为集合Ni中的任一关节点的索引,
相对图注意力值αij的矩阵为空间注意力Mk;
第(2.2)步,提取空间特征信息Xsout:
将关节信息流数据骨骼信息流数据和运动信息流数据分别输入到每个信息流的空间图卷积模块中,其中邻接矩阵使用根节点、向心点、离心点骨架图拓扑结构的分区策略,即以人体所有关节点的坐标平均值作为人体骨架的重心,采用相邻节点的一阶邻域,比根节点距离重心更近的节点作为向心点,比根节点距离重心更远的节点作为离心点,进行空间图卷积模块操作提取空间特征信息Xsout,用如下所示公式(7)计算,
公式(7)中,Xsout为关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息或运动信息流数据的空间特征信息三种信息流数据的空间特征信息中的任意一种,K为空间维度的卷积核大小,使用上述的分区策略,K设置为3,为如下公式(8)所示的归一化后的邻接矩阵,Wk为特征信息的重要性,Mk为一个N×N的相对图注意力值的矩阵,表示每条边的权重值,*为哈达玛积,
公式(8)中,Ak为一个N×N的邻接矩阵,Λk为一个对角矩阵,
由此完成在空间域提取空间特征信息Xsout;
第三步,在时间域提取时间特征信息Xtout:
第(3.1)步,进行时间注意力模块操作,获得时间注意力Mt:
调整上述第二步提取的空间特征信息Xsout的各帧之间的不同重要性,用如下所示公式(10)计算获得时间注意力值Tatt,
公式(10)中,Sp为在第p帧经过空间图卷积模块后提取的空间特征信息,Sq为在第q帧经过空间图卷积模块后提取的空间特征信息,Z(S)为用于正则化的函数,g(·)为一个一元函数计算Sq的表示形式,成对函数f(Sp,Sq)定义了各帧之间的相关关系,其计算方法如下公式(11)所示,
公式(11)中,θ(·)和φ(·)为两个特征嵌入函数,θ(·)由如下公式(12)得到,φ(·)由如下公式(13)得到,T表示转置操作,
θ(Sp)=WθSp (12),
公式(12)中,Wθ是可学习的参数,在网络训练时动态变化,
φ(Sq)=WφSq (13),
公式(13)中,Wφ是可学习的参数,在网络训练时动态变化,
时间注意力值Tatt的矩阵为时间注意力Mt;
第(3.2)步,提取时间特征信息Xtout:
沿着时间维度,将关节信息流数据的空间特征信息骨骼信息流数据的空间特征信息和运动信息流数据的空间特征信息分别输入到每个信息流的时间卷积模块中,进行时间卷积模块操作提取时间特征信息Xtout,用如下所示公式(14)计算,
Xtout=Mt Xsout Wo (14),
由此完成在时间域提取时间特征信息Xtout;
第四步,在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout:
将上述第二步中所有的空间卷积模块和第三步所有的时间卷积模块组合在一起,称为图卷积网络,上述第二步中的空间注意力和第三步的时间注意力组合在一起,称为时空注意力,上述第二步的图注意力模块及空间图卷积模块和第三步的时间注意力模块及时间卷积模块组合在一起,称为一个时空卷积模块,整体网络框架共有10个这样的时空卷积模块,其中第一个时空卷积模块的作用为批处理归一化,接下来的三个时空卷积模块的输出通道分别为64通道,再接下来的三个时空卷积模块的输出通道为128通道,最后三个时空卷积模块的输出通道为256通道,其中每个时空卷积模块都附有一个残差模块,保留之前的信息,增强重要的信息,在残差模块中,添加了改进的关节之间的共现特征的学习算法,该残差模块共五个卷积分支和一个上采样层,上采样层是应用双线性插值操作以帧数的二分之一和关节点数进行上采样操作,由此得到残差模块提取的残差特征信息F(Xtout),进一步用如下所示公式(15)计算最终特征信息Xout,
Xout=Xtout+F(Xtout) (15),
公式(15)中,Xout为关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的最终特征信息中的任意一种,F(Xtout)为关节信息流数据的残差特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息三种信息流数据的残差特征信息中的任意一种,
由此完成在残差模块提取残差特征信息F(Xtout),进一步获得最终的特征信息Xout;
将上述第四步获得的关节信息流数据的最终特征信息骨骼信息流数据的最终特征信息和运动信息流数据的最终特征信息分别输入到每个信息流的softmax层,相应得到关节信息流的预测概率值为骨骼信息流的预测概率值为运动信息流的预测概率值为将关节信息流的预测概率值骨骼信息流的预测概率值和运动信息流的预测概率值进行动态地加权融合,得到三流动态融合后的预测类标签如下公式(16)所示,
公式(16)中,Wj为关节信息流的动态融合变化的权重值,Wb为骨骼信息流的动态融合变化的权重值,Wm为运动信息流的动态融合变化的权重值,
至此,由上述五个步骤的操作过程构建了结合时空注意力与图卷积网络的人体骨架动作的识别方法;
第六步,结合时空注意力与图卷积网络的人体骨架动作识别方法的训练:
经过上述五个步骤的操作之后,使用如下公式(17)计算交叉熵损失函数L,如下公式(17)所示,
公式(17)中,Y为待测试动作真实标签,
通过随机梯度下降算法优化网络的参数,使交叉熵损失函数L达到最小化,
由此完成结合时空注意力与图卷积网络人体骨架动作识别方法的训练;
第七步,结合时空注意力与图卷积网络的人体骨架动作识别方法的度量:
公式(18)中,TP为动作被预测为相应类标签的数目,SP为各类标签的总数目;
由此完成结合时空注意力与图卷积网络的人体骨架动作识别方法的度量,
至此,完成人体骨架动作的识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282867.6A CN111476181B (zh) | 2020-04-13 | 2020-04-13 | 一种人体骨架动作的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010282867.6A CN111476181B (zh) | 2020-04-13 | 2020-04-13 | 一种人体骨架动作的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476181A CN111476181A (zh) | 2020-07-31 |
CN111476181B true CN111476181B (zh) | 2022-03-04 |
Family
ID=71752388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010282867.6A Expired - Fee Related CN111476181B (zh) | 2020-04-13 | 2020-04-13 | 一种人体骨架动作的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476181B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898576B (zh) * | 2020-08-06 | 2022-06-24 | 电子科技大学 | 一种基于人体骨架时空关系的行为识别方法 |
CN111950485B (zh) * | 2020-08-18 | 2022-06-17 | 中科人工智能创新技术研究院(青岛)有限公司 | 一种基于人体骨架的人体行为识别方法及系统 |
CN112069979B (zh) * | 2020-09-03 | 2024-02-02 | 浙江大学 | 一种实时动作识别人机交互系统 |
CN112183464A (zh) * | 2020-10-26 | 2021-01-05 | 天津大学 | 基于深度神经网络和图卷积网络的视频行人识别方法 |
CN112381004B (zh) * | 2020-11-17 | 2023-08-08 | 华南理工大学 | 一种基于骨架的双流自适应图卷积网络行为识别方法 |
CN112906604B (zh) * | 2021-03-03 | 2024-02-20 | 安徽省科亿信息科技有限公司 | 一种基于骨骼和rgb帧融合的行为识别方法、装置及系统 |
CN112836824B (zh) * | 2021-03-04 | 2023-04-18 | 上海交通大学 | 单目三维人体位姿无监督学习方法、系统及介质 |
CN113066022B (zh) * | 2021-03-17 | 2022-08-16 | 天津大学 | 一种基于高效时空信息融合的视频比特增强方法 |
CN112926517B (zh) * | 2021-03-26 | 2022-11-18 | 北京航空航天大学 | 一种人工智能监控方法 |
CN113408349B (zh) * | 2021-05-17 | 2023-04-18 | 浙江大华技术股份有限公司 | 动作评价模型的训练方法、动作评价方法及相关设备 |
CN113378656B (zh) * | 2021-05-24 | 2023-07-25 | 南京信息工程大学 | 一种基于自适应图卷积神经网络的动作识别方法和装置 |
CN113343901A (zh) * | 2021-06-28 | 2021-09-03 | 重庆理工大学 | 基于多尺度注意力图卷积网络的人体行为识别方法 |
CN113688765B (zh) * | 2021-08-31 | 2023-06-27 | 南京信息工程大学 | 一种基于注意力机制的自适应图卷积网络的动作识别方法 |
CN113887486A (zh) * | 2021-10-20 | 2022-01-04 | 山东大学 | 基于时空注意力增强图卷积的异常步态识别方法及系统 |
CN114613011A (zh) * | 2022-03-17 | 2022-06-10 | 东华大学 | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 |
CN114550308B (zh) * | 2022-04-22 | 2022-07-05 | 成都信息工程大学 | 基于时空图的人体骨骼动作识别方法 |
CN117475518B (zh) * | 2023-12-27 | 2024-03-22 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110222653A (zh) * | 2019-06-11 | 2019-09-10 | 中国矿业大学(北京) | 一种基于图卷积神经网络的骨架数据行为识别方法 |
CN110390305A (zh) * | 2019-07-25 | 2019-10-29 | 广东工业大学 | 基于图卷积神经网络的手势识别的方法及装置 |
CN110532874A (zh) * | 2019-07-23 | 2019-12-03 | 深圳大学 | 一种物体属性识别模型的生成方法、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366166B2 (en) * | 2017-09-07 | 2019-07-30 | Baidu Usa Llc | Deep compositional frameworks for human-like language acquisition in virtual environments |
-
2020
- 2020-04-13 CN CN202010282867.6A patent/CN111476181B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059620A (zh) * | 2019-04-17 | 2019-07-26 | 安徽艾睿思智能科技有限公司 | 基于时空注意力的骨骼行为识别方法 |
CN110119703A (zh) * | 2019-05-07 | 2019-08-13 | 福州大学 | 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法 |
CN110222653A (zh) * | 2019-06-11 | 2019-09-10 | 中国矿业大学(北京) | 一种基于图卷积神经网络的骨架数据行为识别方法 |
CN110532874A (zh) * | 2019-07-23 | 2019-12-03 | 深圳大学 | 一种物体属性识别模型的生成方法、存储介质及电子设备 |
CN110390305A (zh) * | 2019-07-25 | 2019-10-29 | 广东工业大学 | 基于图卷积神经网络的手势识别的方法及装置 |
Non-Patent Citations (4)
Title |
---|
"Actional-Structural Graph Convolutional Networks for Skeleton-based Action Recognition";Maosen Li等;《arXiv》;20190426;1-12 * |
"Graph Convolutional Networks with Motif-based Attention";John Boaz Lee等;《ACM》;20191231;499-508 * |
"Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition";Sijie Yan等;《arXiv》;20180125;1-10 * |
"基于人体关键点的人体行为识别";贺家灵;《中国优秀硕士学位论文全文数据库》;20200215(第02期);I138-1743 * |
Also Published As
Publication number | Publication date |
---|---|
CN111476181A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476181B (zh) | 一种人体骨架动作的识别方法 | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN110097568B (zh) | 一种基于时空双分支网络的视频对象检测与分割方法 | |
CN111310659B (zh) | 基于增进式图卷积神经网络的人体动作识别方法 | |
CN109919122A (zh) | 一种基于3d人体关键点的时序行为检测方法 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN110378281A (zh) | 基于伪3d卷积神经网络的组群行为识别方法 | |
CN107424161B (zh) | 一种由粗至精的室内场景图像布局估计方法 | |
CN113408455B (zh) | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 | |
Ren et al. | Learning with weak supervision from physics and data-driven constraints | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
Yue et al. | Action recognition based on RGB and skeleton data sets: A survey | |
CN110827265B (zh) | 基于深度学习的图片异常检测方法 | |
CN111881731A (zh) | 基于人体骨架的行为识别方法、系统、装置及介质 | |
CN114613013A (zh) | 一种基于骨骼节点的端到端人类行为识别方法与模型 | |
CN114937066A (zh) | 基于交叉偏移特征与空间一致性的点云配准系统及方法 | |
Zhao et al. | JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation | |
Gao et al. | Road extraction using a dual attention dilated-linknet based on satellite images and floating vehicle trajectory data | |
CN115544239A (zh) | 一种基于深度学习模型的布局偏好预测方法 | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
Saqib et al. | Intelligent dynamic gesture recognition using CNN empowered by edit distance | |
Xu et al. | Cross-modality online distillation for multi-view action recognition | |
Du et al. | Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles | |
Ehsan et al. | An accurate violence detection framework using unsupervised spatial–temporal action translation network | |
CN113033283B (zh) | 一种改进的视频分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220304 |
|
CF01 | Termination of patent right due to non-payment of annual fee |