CN114882421A - 一种基于时空特征增强图卷积网络的骨架行为识别方法 - Google Patents
一种基于时空特征增强图卷积网络的骨架行为识别方法 Download PDFInfo
- Publication number
- CN114882421A CN114882421A CN202210613367.5A CN202210613367A CN114882421A CN 114882421 A CN114882421 A CN 114882421A CN 202210613367 A CN202210613367 A CN 202210613367A CN 114882421 A CN114882421 A CN 114882421A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- space
- convolution
- graph
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000006399 behavior Effects 0.000 claims abstract description 71
- 238000012549 training Methods 0.000 claims abstract description 43
- 230000008569 process Effects 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 74
- 238000010586 diagram Methods 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 40
- 238000011176 pooling Methods 0.000 claims description 40
- 210000000988 bone and bone Anatomy 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 12
- 230000003068 static effect Effects 0.000 claims description 12
- 238000001125 extrusion Methods 0.000 claims description 11
- 230000002123 temporal effect Effects 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 230000002708 enhancing effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009471 action Effects 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101001132883 Homo sapiens Mitoregulin Proteins 0.000 description 1
- 102100033799 Mitoregulin Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于时空特征增强图卷积网络的骨架行为识别方法,其在图卷积过程中能充分提取丰富、有效的时空特征信息,提高了骨架行为识别的准确率。其结合空域特征增强模块、时域特征增强模块和通道注意力模块构建的时空特征增强图卷积模型,在多流网络下进行端到端的训练后得到的训练好的人体骨架行为识别支流模型,将每一个人体骨架行为识别支流模型的输出融合,得到最终的骨架行为识别结果;在对待识别时空图进行在图卷积过程中能充分提取丰富、有效的时空特征信息,使模型取得优异的识别准确率和良好的泛化性能。
Description
技术领域
本发明涉及计算机视觉技术领域,具体为一种基于时空特征增强图卷积网络的骨架行为识别方法。
背景技术
与使用RGB视频序列进行识别的传统过程相比,基于人体骨架的行为识别对光照、视角、颜色和遮挡等影响因素有很强的鲁棒性,更加简洁的数据包含了三维的时空信息,因此骨架行为识别研究能广泛的应用于视频监控、人机交互、视频理解等领域。早期深度学习的方法应用于人体骨架行为识别研究,通过卷积神经网络和循环神经网络分别对骨架数据的空域和时域建模,但这种输入方式对复杂的模型来说,其训练过程和推理过程会花费大量的精力。
也有技术人员基于图卷积网络进行骨架行为识别。图卷积网络以其优越的处理数据的能力,应用于骨架行为识别领域后取得了优异的成绩。然而,现有的基于图卷积网络的骨架行为识别技术在时空图卷积过程由于特征提取不充分和无关通道对模型性能影响等问题而不能充分挖掘时空特征,导致模型的识别准确率较低。
发明内容
为了解决现有技术中基于图卷积网络进行骨架行为识别,识别结果准确率较低的问题,本发明提供一种基于时空特征增强图卷积网络的骨架行为识别方法,其在图卷积过程中能充分提取丰富、有效的时空特征信息,提高了骨架行为识别的准确率。
本发明的技术方案是这样的:一种基于时空特征增强图卷积网络的骨架行为识别方法,其包括以下步骤:
S1:获取原始视频样本,对所述原始视频样本进行预处理,获取所述原始视频样本中骨架信息数据;
S2:构造表示所述骨架数据信息的时空图;
S3:构建时空特征增强图卷积网络模型;
S4:确定表示骨架行为的静态特征和动态特征的骨架行为特征数据的个数NM;
基于所述时空图获取训骨架模态特征训练数据,所述骨架模态特征训练数据包括NM个分支训练数据;其中,NM≥2;
基于多流网络的训练方式,分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型,得到 NM个训练好的人体骨架行为识别支流模型;
S5:获取待识别的视频数据,提取所述待识别视频数据组中的骨架信息数据,将骨架信息数据转化为待识别时空图;
S6:将所述待识别时空图分别输入到每一个训练好的所述人体骨架行为识别支流模型中,将每一个所述人体骨架行为识别支流模型的输出融合,得到最终的骨架行为识别结果。
其特征在于:步骤S3中,构建时空特征增强图卷积网络模型,包括以下步骤:
S3-1:将所述时空图中所有关节点的邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集,根据三个子集构建自适应的所述空域图卷积层;
S3-2:在所述空域图卷积层中采用空域上的图注意力机制,根据邻居节点的重要性程度分配不同的权重系数,生成注意力系数矩阵;通过非局部网络生成全局邻接矩阵;将所述注意力矩阵和所述全局邻接矩阵结合,生成空域自适应邻接矩阵参与图卷积,得到空域特征增强模块;
S3-3:基于所述时空图,采用9×1的卷积核提取时域特征,然后采用混合池化模型进行时域特征增强,构建时域图卷积层,记作:时域特征增强模块;
S3-4:通道采用ECA-Net网络进行注意力增强,得到通道注意力模块;
S3-5:将所述空域特征增强模块、所述时域特征增强模块和通道注意力相结合构建时空图卷积块;
所述时空图卷积块包括:依次连接的空域特征增强模块、BN层、RELU层、通道注意力模块和时域特征增强模块;
S3-6:所述时空特征增强图卷积网络模型,包括:依次连接的BN层、10个时空图卷积块、GAP层和softmax层。
其进一步特征在于:
步骤S1中,获取所述原始视频样本中所述骨架信息数据,详细包括以下步骤:
S1-1:对采集到的所述原始视频样本进行分帧处理,将连续视频片段分解为一个包括静态帧的图片序列;
S1-2:基于Openpose姿态估计算法进行计算;
设置Openpose算法的计算参数,将分解视频得到的所述静态帧的图片输入Openpose,得到所述静态帧中的对应关节数的人体骨架数据;
所述计算参数包括:人体关节数、人体个数;
S1-3:依据人体关节与Openpose算法中对于相应关节的编号,构建人体骨架数据的连接关系表示人体的形态特征,即获得所述骨架信息数据;
步骤S2中,构建表示骨架序列的时空图的步骤包括:
S2-1:记一个有N个关节点和T帧的骨骼序列的时空图为G=(V,E),其关节点集合为V={Vti|t= 1,…,T,i=1,...,N};
S2-2:将所述时空图G=(V,E)中同一帧的每个关节点连接成边;
S2-3:将所述时空图G=(V,E)中连续两帧相同的关节点连接成边;
步骤S3-2中,所述注意力系数矩阵的生成方法包括以下步骤:
S3201:对于当前节点i,计算它与它的邻居节点j∈Ni的注意力系数eij:
eij=(Concat(hiW,hjW))a
式中:
hi,hj=[1,in_channels],W=[in_channels,out_channels],a=[2*out_channels,1];
hi和hj分别为节点i和节点j的特征向量,W、a是模型需要训练的参数,Ni为节点i及其邻居节点集, in_channels和out_channels分别代表卷积块的输入维度和输出维度;
S3202:对eij使用LeakyReLU函数进行非线性激活,得到最终的节点i对节点j的图注意力系数αij:
S3203:基于相关注意力系数,构建得到矩阵A:
式中,i和j代表空间任意两个节点,若邻接,则矩阵元素αij;若不邻接,则矩阵元素置为负无穷;
S3204:通过softmax函数对矩阵A进行归一化处理,得到所述的注意力系数矩阵Aattention:
式中,M为空域所有节点的个数;
步骤S3-2中,构建所述空域特征增强模块,包括以下步骤:
S3211:使用归一化的嵌入高斯函数来计算两个顶点的相似度wij:
其中:M为空间所有节点的个数,Wθxi、Wφxj为节点i和节点j采用的嵌入式操作,为两个并行的1×1 卷积运算;
S3212:利用softmax函数来归一化全局邻接矩阵,得到全局邻接矩阵Ck的计算公式:
其中,Xin代表输入特征,Wθ、Wφ为嵌入高斯函数;
S3213:结合非局部网络和图注意力机制生成空域自适应邻接矩阵,进行图卷积操作;
第n层自适应图卷积操作表示为:
其中,Xn、Xn+1分别为第n层输入特征和输出特征,Wk为卷积核函数,Kmax代表最大距离;
Aattention是通过图注意力机制生成的注意力系数矩阵,Bk是一种增强数据掩码矩阵,Ck是通过非局部网络生成的全局邻接矩阵;
步骤S3-3中,混合池化模型结构包括以下步骤:
a1:特征输入;
输入的时域特征的尺寸为:N×C×T×V;
其中,N代表批次,C代表通道数,T代表帧数,V代表关节数;
a2:时域卷积;
时域采用9×1卷积核进行特征提取,再进行批标准化;
a3:混合池化;
将时域维度和通道维度进行置换后,采用全局平均池化和最大池化并行的方式进行时域特征提取,则:
混合池化的过程表示为:
式中,F和FT分别为混合池化前后的特征,MaxPool为最大池化操作,AvgPool为全局平均池化操作,Concat 为特征融合操作;
a4:时域特征增强,具体包括以下步骤:
a41:采用1×1的卷积来提取融合后的特征;
a42:通过softmax函数进行归一化处理;
a43:将处理后的特征利用expand函数扩展为混合池化前的特征尺寸;
a44:将通道和时域维度再次置换回来,并保证与输入维度相同,得到的特征记作:F2;
a45:时域特征增强部分表示为:
式中,k,i和j分别代表第k个通道,时域中第i帧和空域第j个节点;F1表示步骤a2中经过卷积和批标准化后的特征,F2表示步骤a44中将通道和时域维度置换后得到的特征,Fg表示时域特征增强的输出,表示矩阵相乘;
a5:构造残差连接,输出最终特征;
通过对特征F1引出残差途径,并与时域特征增强的输出Fg相加,实现残差连接的构建后作为最终时域特征的输出;最终的输出特征表示为:
Fout=Res(F1,Fg)=F1+Fg
式中,Fout表示时域特征的输出,Res表示残差连接;
步骤S3-4中,通道采用ECA-Net网络进行注意力增强,具体包括以下步骤:
S3401:挤压阶段;
通过全局平均池化将特征的维度压缩到通道所表示的维度;挤压过程表示为:
式中,T代表帧数,V代表关节数,i和j表示时域中第i帧和空域第j个节点,X为输入的特征,l为通道挤压后的特征图;
S3402:跨通道交互阶段的计算包括:通过卷积核大小为h的一维卷积进行卷积操作后,通过sigmoid 函数激活,然后进行矩阵相乘得到输出特征;
则,输出表示为:
步骤S4中,NM取值为4;所述骨架模态特征训练数据包括4个分支训练数据,分别为:关节、骨骼、关节运动和骨骼运动;
步骤S4中,对所述骨架行为特征数据进行建模的方法,包括以下步骤:
S4-1:以关节点自身建模作为关节信息,假设t帧的关节信息表示为Jt;
S4-3:关节运动和骨骼运动的表示为各自相邻两帧之间的坐标差,
步骤S4中,基于多流网络的训练方式,分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型时,采用随机梯度下降法作为优化策略,选择交叉熵作为梯度反向传播的损失函数。
本发明提供的一种基于时空特征增强图卷积网络的骨架行为识别方法,其构建NM个人体骨架行为识别支流模型,基于多流网络模型,将每一个人体骨架行为识别支流模型的输出融合,得到最终的骨架行为识别结果;其中,人体骨架行为识别支流模型基于时空特征增强图卷积网络模型构建,在时空特征增强图卷积网络模型的空域上采用图注意力机制,根据邻居节点的重要性程度分配不同的权重系数,生成可充分挖掘空域结构特征的注意力系数矩阵,并结合非局部网络生成的全局邻接矩阵,提出一种新的空域自适应邻接矩阵参与空间图卷积,增强人体空域结构特征的提取,提高了识别结果的准确性;在时空特征增强图卷积网络模型的时域上,采用混合池化模型提取时域关键动作特征和全局上下文特征,并结合时域卷积提取的特征,实现了行为信息中时域特征的充分提取,提高了识别结果的准确性;在时空特征增强图卷积网络模型的通道中,采用ECA-Net网络进行注意力增强,从而更有利于模型提取样本的时空特征;结合空域特征增强模块、时域特征增强模块和通道注意力模块构建的时空特征增强图卷积模型,在多流网络下进行端到端的训练后得到的训练好的人体骨架行为识别支流模型,在对待识别时空图进行在图卷积过程中能充分提取丰富、有效的时空特征信息,使模型取得优异的识别准确率和良好的泛化性能。
附图说明
图1为本发明中基于时空特征增强图卷积网络的骨架行为识别方法流程示意图;
图2为本发明中空域图卷积层中图注意力机制示意图;
图3为本发明中提出的空域自适应邻接矩阵的结构示意图;
图4为本发明中时域采用的混合池化模型示意图;
图5为本发明中通道采用的ECA-Net模型示意图;
图6为本发明中时空图卷积块的结构示意图;
图7为本发明中基于多流网络的时空特征增强图卷积网络模型结构示意图。
具体实施方式
如图1所示,本发明提供一种基于时空特征增强图卷积网络的骨架行为识别方法,其包括以下步骤。
S1:获取原始视频样本,对原始视频样本进行预处理,获取原始视频样本中骨架信息数据。
详细包括以下步骤:
S1-1:对采集到的原始视频样本进行分帧处理,将连续视频片段分解为一个包括静态帧的图片序列;
S1-2:基于Openpose姿态估计算法进行计算;
设置Openpose算法的计算参数,将分解视频得到的静态帧的图片输入Openpose,得到静态帧中的对应关节数的人体骨架数据;
计算参数包括:人体关节数、人体个数;
S1-3:依据人体关节与Openpose算法中对于相应关节的编号,构建人体骨架数据的连接关系表示人体的形态特征,即获得骨架信息数据。
S2:构造表示骨架数据信息的时空图。
构建表示骨架序列的时空图的步骤包括:
S2-1:记一个有N个关节点和T帧的骨骼序列的时空图为G=(V,E),其关节点集合为V={Vti|t= 1,…,T,i=1,...,N};
S2-2:将时空图G=(V,E)中同一帧的每个关节点连接成边;
S2-3:将时空图G=(V,E)中连续两帧相同的关节点连接成边。
S3:构建时空特征增强图卷积网络模型;包括以下步骤。
S3-1:将时空图中所有关节点的邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集,根据三个子集构建自适应的空域图卷积层。
S3-2:在空域图卷积层中采用空域上的图注意力机制,根据邻居节点的重要性程度分配不同的权重系数,生成注意力系数矩阵,通过非局部网络生成全局邻接矩阵;将所述注意力矩阵和所述全局邻接矩阵结合,生成空域自适应邻接矩阵参与图卷积,得到空域特征增强模块;
本发明技术方案中,根据邻居节点的重要性程度分配不同的权重系数,以体现关节与关节之间的连接的相关性,确保能够充分挖掘空域结构特征,进而提高骨架行为识别结果的准确性;通过构建注意力系数矩阵,结合非局部网络生成的全局邻接矩阵,提出一种新的空域自适应邻接矩阵参与图卷积,得到空域特征增强模块,增强对人体空域结构特征的提取,实现空域特征增强,进一步提高骨架行为识别结果的准确性。
步骤S3-2中,注意力系数矩阵的生成方法包括以下步骤:
S3201:对于当前节点i,计算它与它的邻居节点j∈Ni的注意力系数eij:
eij=(Concat(hiW,hjW))a
式中:
hi,hj=[1,in_channels],W=[in_channels,out_channels],a=[2*out_channels,1];
hi和hj分别为节点i和节点j的特征向量,W、a是模型需要训练的参数,Ni为节点i及其邻居节点集, in_channels和out_channels分别代表卷积块的输入维度和输出维度;
S3202:对eij使用LeakyReLU函数进行非线性激活,得到最终的节点i对节点j的图注意力系数αij:
如图2所示,为空域图卷积层中图注意力机制示意图;
基于节点i及其邻居节点的注意力系数αij实现节点i的特征更新:
式中,σ为sigmoid激活函数,hi′为节点i更新后的特征向量;
S3203:基于相关注意力系数,构建矩阵A:
式中,i和j代表空间任意两个节点,若邻接,则矩阵元素置为αij,若不邻接,则矩阵元素置为负无穷;
S3204:通过softmax函数对矩阵A进行归一化处理,得到所述的注意力系数矩阵Aattention:
式中,M为空域所有节点的个数。
步骤S3-2中,构建空域特征增强模块,包括以下步骤:
S3211:为了确定两个顶点之间是否存在连接以及连接的强度,本发明技术方中使用归一化的嵌入高斯函数来计算两个顶点的相似度wij:
其中:M为空间所有节点的个数,Wθxi、Wφxj为节点i和节点j采用的嵌入式操作,为两个并行的1×1 卷积运算;通过嵌入式操作实现表示节点间相似度的V×V矩阵计算。
S3212:利用softmax函数来归一化全局邻接矩阵,得到全局邻接矩阵Ck的计算公式:
其中,Xin代表输入特征,Wθ、Wφ为嵌入高斯函数;
S3213:结合非局部网络和图注意力机制生成空域自适应邻接矩阵,进行图卷积操作;
第n层自适应图卷积操作表示为:
其中,Xn、Xn+1分别为第n层输入特征和输出特征,Wk为卷积核函数,Kmax代表最大距离;本实施例中,Kmax设置为3;
Aattention是通过图注意力机制生成的注意力系数矩阵,用于建立节点与邻域的联系,增强节点对于邻域特征的提取,提高了模型的识别准确率;Bk是一种增强数据掩码矩阵,在训练过程中进行不断优化与更新,用于优化模型模型性能;Ck是通过非局部网络生成的全局邻接矩阵,用于建立节点与全局空域的联系,增强节点对于全局空域特征的提取,提高了模型的识别准确率。
如图3所示,为本发明技术方案中的空域自适应邻接矩阵,即中的Aattention+Bk+Ck。图3中的输入为表示骨架序列的时空图,尺寸为N×C×T×V,分别代表批次、通道数、帧数和关节数;θ(x)和φ(x)数代表非局部网络的高斯嵌入函数,作用为计算单一节点与空域所有节点的相关性,实现表示节点间相似度矩阵Ck的生成,用于建立节点与全局空域的联系,增强节点对于全局空域特征的提取。Ak为表征人体拓扑结构的邻接矩阵,本发明技术方案中通过图注意力机制对Ak进行改进,并通过softmax函数归一化为注意力系数矩阵Aattention,用于建立节点与邻域的联系,增强节点对于邻域特征的提取,相较于采用非0即1连接的表征人体拓扑结构邻接矩阵Ak,其更能表达空域节点与其邻域节点之间的连接关系,故更能体现人体骨架中关节与关节之间连接的相关性,从而在图卷积过程中更能挖掘人体空域的结构特征,提高了模型的识别准确率。Bk是一种增强数据的掩码矩阵,其在训练过程中不断更新,优化模型性能。即,图注意力机制针对节点的邻域,非局部网络针对的是全局空域,所以本发明技术方案中空域自适应邻接矩阵能增强对节点的邻域特征和全局空域特征的提取。
S3-3:基于时空图,采用9×1的卷积核提取时域特征,然后采用混合池化模型进行时域特征增强,构建时域图卷积层,记作:时域特征增强模块。
步骤S3-3中,混合池化模型结构如图4所示,具体包括以下步骤:
a1:特征输入;
输入的时域特征的尺寸为:N×C×T×V;
其中,N代表批次,C代表通道数,T代表帧数,V代表关节数;
a2:时域卷积;
时域采用9×1卷积核进行特征提取,再进行批标准化;仅仅通过时域卷积进行特征提取,无法达到较高的准确率,本发明技术方中通过混合池化操作提取更多的特征信息;
a3:混合池化;
将时域维度和通道维度进行置换后,采用全局平均池化和最大池化并行的方式进行时域特征提取,
其中,通过全局平均池化提取全局上下文特征,采用最大池化提取时域关键动作特征。因此,采用并行的混合池化能够更好的提取时域关键动作特征和全局上下文特征。
则,混合池化的过程表示为:
式中,F和FT分别为混合池化前后的特征,MaxPool为最大池化操作,AvgPool为全局平均池化操作,Concat 为特征融合操作;
a4:时域特征增强,具体包括以下步骤:
a41:采用1×1的卷积来提取融合后的特征;
a42:通过softmax函数进行归一化处理;
a43:将处理后的特征利用expand函数扩展为混合池化前的特征尺寸;
a44:将通道和时域维度再次置换回来,并保证与输入维度相同,得到的特征记作:F2;
a45:时域特征增强部分表示为:
式中,k,i和j分别代表第k个通道,时域中第i帧和空域第j个节点;F1表示步骤a2中经过卷积和批标准化后的特征,F2表示步骤a44中将通道和时域维度置换后得到的特征,Fg表示时域特征增强的输出,表示矩阵相乘;
a5:构造残差连接,输出最终特征;
通过对特征F1引出残差途径,并与时域特征增强的输出Fg相加,实现残差连接的构建后作为最终时域特征的输出;最终的输出特征表示为:
Fout=Res(F1,Fg)=F1+Fg
式中,Fout表示时域特征的输出,Res表示残差连接。
S3-4:通道采用ECA-Net网络进行注意力增强,得到通道注意力模块。
步骤S3-4中,本发明技术方案中采用ECA-Net网络进行通道注意力增强,具体包括以下步骤:
S3401:通过全局平均池化将特征的维度压缩到通道所表示的维度;挤压过程表示为:
式中,T代表帧数,V代表关节数,i和j表示时域中第i帧和空域第j个节点,X为输入的特征,l为通道挤压后的特征图;
如图5所示,在挤压阶段,假设特征X的输入为C×T×V,通过全局平均池化将特征的维度压缩到通道所表示的维度,即C×1×1;
S3402:跨通道交互阶段的计算包括:通过卷积核大小为h的一维卷积进行卷积操作后,通过sigmoid 函数激活,然后进行矩阵相乘得到输出特征;
则,输出表示为:
S3-5:将空域特征增强模块、时域特征增强模块和通道注意力相结合构建时空图卷积块;
时空图卷积块包括:依次连接的空域特征增强模块、BN层、RELU层、通道注意力模块和时域特征增强模块。
时空图卷积块具体如图6所示。在空域特征增强模块中,实线箭头代表当前节点通过图注意力机制与邻居节点建立联系来聚集邻域特征,虚线箭头代表通过非局部网络与全局空域节点建立联系来聚集全局空域特征,将两者结合起来构建空域自适应邻接矩阵,可聚集空域节点的局部邻域和全局空域特征,从而在图卷积过程中可增强对人体空间结构特征的提取;
经过ReLU激活函数激活和BatchNorm2d函数进行批标准化,将标准化后的特征通过ECA-Net网络进行通道注意力;
在时域特征增强模块中,将时域卷积后的特征通过混合池化模型达到时域特征增强的目的,增强了对行为信息中时域特征的提取,图中圆点代表在一段时序中对于判别动作行为相关性较大的节点给予特征增强;
最后,通过对输入进行Res选择性卷积,并将其与上述步骤的输出相加,实现了残差连接的构建。残差连接可增强模型的灵活性,而不会降低原始性能。
S3-6:时空特征增强图卷积网络模型,如图7所示,包括:依次连接的BN层、10个时空图卷积块、 GAP层和softmax层。
S4:确定表示骨架行为的静态特征和动态特征的骨架行为特征数据的个数NM;
基于时空图获取训骨架模态特征训练数据,骨架模态特征训练数据包括NM个分支训练数据;其中, NM≥2;
如图7所示,基于多流网络的训练方式,分别使用分支训练数据训练时空特征增强图卷积网络模型,得到NM个训练好的人体骨架行为识别支流模型。
本实施例中,NM取值为4;骨架模态特征训练数据包括4个分支训练数据,分别为:关节、骨骼、关节运动和骨骼运动。
对骨架行为特征数据进行建模的方法,包括以下步骤:
S4-1:以关节点自身建模作为关节信息,假设t帧的关节信息表示为Jt;
S4-3:关节运动和骨骼运动的表示为各自相邻两帧之间的坐标差,
S5:获取待识别的视频数据,提取待识别视频数据组中的骨架信息数据,将骨架信息数据转化为待识别时空图。
S6:将待识别时空图分别输入到每一个训练好的人体骨架行为识别支流模型中,将四支流输出进行融合,得到最终的骨架行为识别结果。
本发明技术方案中,对输入的时空图进行关节、骨骼、关节运动和骨骼运动四个信息支流分别训练,四个支流的输出进行融合作为多流图卷积网络的输出。基于多流网络方式训练时,分别使用分支训练数据训练时空特征增强图卷积网络模型时,采用随机梯度下降法作为优化策略,选择交叉熵作为梯度反向传播的损失函数。
模型训练具体实施时,基于pytorch深度学习框架下进行的。优化策略采用随机梯度下降(stochastic gradient descent,SGD),Nesterov动量设为0.9,迭代周期设为50,初始学习率设置为0.1,为克服训练时过拟合的问题,选择交叉熵作为损失函数并将权重衰减设置为0.0001,衰减周期设在第30和40个周期, batch size设为10。
选择交叉熵作为梯度反向传播的损失函数:
其中,i代表第i个样本,c代表类别,pic表示对于第i个样本属于类别c的预测概率,yic表示指示变量(0或1),如果该行为类别和训练集中样本i(即每一帧骨架序列)的类别相同就是1,否则是0;M表示行为类别的数量。
表1为时空特征增强图卷积网络模型结构的实施例,基于下面表1中的网络结构,将输入的数据,经过10个子网络结构块的处理之后,进入GAP层,在GAP层中将子网络结构块输出的3维数据转换成1 维数据,然后通过FC层将数据从480000降低维度到60(120)维,最后映射到60(120)维后进行预测。
表1:时空特征增强图卷积网络模型的结构
模型层 | 输入和输出通道数 | 步长(stride) | 输出数据尺寸 |
输入 | [3,300,25] | ||
1<sup>st</sup> | in_channels=3,out_channels=64 | 1 | [64,300,25] |
2<sup>nd</sup> | in_channels=64,out_channels=64 | 1 | [64,300,25] |
3<sup>rd</sup> | in_channels=64,out_channels=64 | 1 | [64,300,25] |
4<sup>th</sup> | in_channels=64,out_channels=64 | 1 | [64,300,25] |
5<sup>th</sup> | in_channels=64,out_channels=128 | 2 | [128,150,25] |
6<sup>th</sup> | in_channels=128,out_channels=128 | 1 | [128,150,25] |
7<sup>th</sup> | in_channels=128,out_channels=128 | 1 | [128,150,25] |
8<sup>th</sup> | in_channels=128out_channels=256 | 2 | [256,7525] |
9<sup>th</sup> | in_channels=256,out_channels=256 | 1 | [256,75,25] |
10<sup>th</sup> | in_channels=256,out_channels=256 | 1 | [256,75,25] |
GAP | [480000] | ||
FC | [480000,60]或[480000,120] | [60]或[120] |
为了验证本发明技术方案中的人体行为识别方法的有效性和实用性,选取NTU-RGB+D与 NTU-RGB+D120数据集作为实验数据集进行实验。
NTU-RGB+D用3个Microsoft Kinect v2传感器采集,这三个传感器分别放置的角度是-45°,0°,45°,一共包含60类动作。其中第1-49个动作是单人动作,第50-60个动作是双人交互动作。NTU-RGB+D数据集有两种评价方式:交叉对象(X-Sub)和交叉视角(X-View)。测试结果如表2所示。
表2:NTU-RGB+D数据集中X-View和X-Sub下的识别准确率(%)
情景 | Joint | Bone | Joint-motion | Bone-motion | Joint+Bone | STFA-GCN |
X-View | 94.4 | 94.3 | 92.8 | 93.0 | 95.6 | 96.0 |
X-Sub | 87.7 | 87.4 | 85.7 | 85.6 | 89.3 | 89.8 |
表2中,Joint、Bone、Joint-motion、Bone-motion、Joint+Bone分别表示关节、骨骼、关节运动、骨骼运动、关节和骨骼特征;STFA-GCN表示本发明技术方中的基于时空特征增强图卷积网络模型,对应的准确率为将四支流输出进行融合,得到最终的骨架行为识别结果。因为本实验是基于数据集验证模型的准确率,所以四个支流的输出结果定义为准确率,实际应用本发明技术方案进行骨骼行为识别时根据具体的需求,定义四个支流的输出结果,如:将输出结果定义为骨骼行为的概率。
同时,基于NTU-RGB+D数据集,将本发明技术放方案中的基于时空特征增强图卷积网络模型与其他的骨骼行为识别模型进行对比,对比结果如下面表3所示:
表3:基于NTU-RGB+D数据集,不同模型的识别准确率对比(%)
模型 | X-sub | X-view |
STA-LSTM | 73.4 | 81.2 |
VA-LSTM | 79.2 | 87.7 |
TCN | 74.3 | 83.1 |
ClipCNN+MTLN | 79.6 | 84.8 |
AS-GCN | 86.8 | 94.2 |
ST-GCN | 81.5 | 88.3 |
2s-AGCN | 88.5 | 95.1 |
AGC-LSTM | 89.2 | 95.0 |
STFE-GCN | 89.8 | 96.0 |
从表3中的数据可以看出:在以X-View与X-Sub两种方式划分的NTU数据集上,本发明技术方案均取得最高的识别准确率,分别为96.0%与89.8%,本发明技术方案能够提高骨架行为的识别准确率。
NTU-RGB+D120相比于NTU-RGB+D数据集,有更多的样本由更多主体在更多不同的摄像机视图中执行。该数据集包含120个动作,由106个不同的主体执行。NTU-RGB+D120数据集提供了两个基准来评估,即交叉对象(X-Sub)和交叉设置(X-Set)。基于NTU-RGB+D120数据集,将本发明技术放方案中的基于时空特征增强图卷积网络模型与其他的骨骼行为识别模型进行对比,对比结果如表4所示。
表4:基于NTU-RGB+D120数据集,不同模型的识别准确率对比(%)
模型 | X-sub | X-setup |
Soft RNN | 36.3 | 44.9 |
Dynamic Skeleton | 50.8 | 54.7 |
Spatio-Temporal LSTM | 55.7 | 57.9 |
GCA-LSTM | 58.3 | 59.2 |
SGN | 79.2 | 81.5 |
SkeleMotion | 67.7 | 66.9 |
2s-AGCN | 82.9 | 84.9 |
STFE-GCN(Bone) | 81.2 | 83.7 |
STFE-GCN(Joint+Bone) | 83.1 | 85.5 |
STFE-GCN | 84.1 | 86.3 |
从表4中的数据可以看出,在以X-sub与X-setup两种方式划分的NTU-RGB+D120数据集上,我们的发明技术方案取得最高的识别准确率,分别为84.1%与86.3%,进一步验证了模型良好的识别准确率和泛化性能。
Claims (10)
1.一种基于时空特征增强图卷积网络的骨架行为识别方法,其包括以下步骤:
S1:获取原始视频样本,对所述原始视频样本进行预处理,获取所述原始视频样本中骨架信息数据;
S2:构造表示所述骨架数据信息的时空图;
S3:构建时空特征增强图卷积网络模型;
S4:确定表示骨架行为的静态特征和动态特征的骨架行为特征数据的个数NM;
基于所述时空图获取训骨架模态特征训练数据,所述骨架模态特征训练数据包括NM个分支训练数据;其中,NM≥2;
基于多流网络的训练方式,分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型,得到NM个训练好的人体骨架行为识别支流模型;
S5:获取待识别的视频数据,提取所述待识别视频数据组中的骨架信息数据,将骨架信息数据转化为待识别时空图;
S6:将所述待识别时空图分别输入到每一个训练好的所述人体骨架行为识别支流模型中,将每一个所述人体骨架行为识别支流模型的输出融合,得到最终的骨架行为识别结果。
其特征在于:步骤S3中,构建时空特征增强图卷积网络模型,包括以下步骤:
S3-1:将所述时空图中所有关节点的邻域,划分为分别表示根关节点自身、近重心邻居关节点和远重心邻居关节点的三个子集,根据三个子集构建自适应的所述空域图卷积层;
S3-2:在所述空域图卷积层中采用空域上的图注意力机制,根据邻居节点的重要性程度分配不同的权重系数,生成注意力系数矩阵;通过非局部网络生成全局邻接矩阵;将所述注意力矩阵和所述全局邻接矩阵结合,生成空域自适应邻接矩阵参与图卷积,得到空域特征增强模块;
S3-3:基于所述时空图,采用9×1的卷积核提取时域特征,然后采用混合池化模型进行时域特征增强,构建时域图卷积层,记作:时域特征增强模块;
S3-4:通道采用ECA-Net网络进行注意力增强,得到通道注意力模块;
S3-5:将所述空域特征增强模块、所述时域特征增强模块和通道注意力相结合构建时空图卷积块;
所述时空图卷积块包括:依次连接的空域特征增强模块、BN层、RELU层、通道注意力模块和时域特征增强模块;
S3-6:所述时空特征增强图卷积网络模型,包括:依次连接的BN层、10个时空图卷积块、GAP层和softmax层。
2.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S1中,获取所述原始视频样本中所述骨架信息数据,详细包括以下步骤:
S1-1:对采集到的所述原始视频样本进行分帧处理,将连续视频片段分解为一个包括静态帧的图片序列;
S1-2:基于Openpose姿态估计算法进行计算;
设置Openpose算法的计算参数,将分解视频得到的所述静态帧的图片输入Openpose,得到所述静态帧中的对应关节数的人体骨架数据;
所述计算参数包括:人体关节数、人体个数;
S1-3:依据人体关节与Openpose算法中对于相应关节的编号,构建人体骨架数据的连接关系表示人体的形态特征,即获得所述骨架信息数据。
3.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S2中,构建表示骨架序列的时空图的步骤包括:
S2-1:记一个有N个关节点和T帧的骨骼序列的时空图为G=(V,E),其关节点集合为V={Vti|t=1,…,T,i=1,...,N};
S2-2:将所述时空图G=(V,E)中同一帧的每个关节点连接成边;
S2-3:将所述时空图G=(V,E)中连续两帧相同的关节点连接成边。
4.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S3-2中,所述注意力系数矩阵的生成方法包括以下步骤:
S3201:对于当前节点i,计算它与它的邻居节点j∈Ni的注意力系数eij:
eij=(Concat(hiW,hjW))a
式中:
hi,hj=[1,in_channels],W=[in_channels,out_channels],a=[2*out_channels,1];
hi和hj分别为节点i和节点j的特征向量,W、a是模型需要训练的参数,Ni为节点i及其邻居节点集,in_channels和out_channels分别代表卷积块的输入维度和输出维度;
S3202:对eij使用LeakyReLU函数进行非线性激活,得到最终的节点i对节点j的图注意力系数αij:
S3203:基于相关注意力系数,构建得到矩阵A:
式中,i和j代表空间任意两个节点,若邻接,则矩阵元素αij;若不邻接,则矩阵元素置为负无穷;
S3204:通过softmax函数对矩阵A进行归一化处理,得到所述的注意力系数矩阵Aattention:
式中,M为空域所有节点的个数。
5.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S3-2中,构建所述空域特征增强模块,包括以下步骤:
S3211:使用归一化的嵌入高斯函数来计算两个顶点的相似度wij:
其中:M为空间所有节点的个数,Wθxi、Wφxj为节点i和节点j采用的嵌入式操作,为两个并行的1×1卷积运算;
S3212:利用softmax函数来归一化全局邻接矩阵,得到全局邻接矩阵Ck的计算公式:
其中,Xin代表输入特征,Wθ、Wφ为嵌入高斯函数;
S3213:结合非局部网络和图注意力机制生成空域自适应邻接矩阵,进行图卷积操作;
第n层自适应图卷积操作表示为:
其中,Xn、Xn+1分别为第n层输入特征和输出特征,Wk为卷积核函数,Kmax代表最大距离;
Aattention是通过图注意力机制生成的注意力系数矩阵,Bk是一种增强数据掩码矩阵,Ck是通过非局部网络生成的全局邻接矩阵。
6.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S3-3中,混合池化模型结构包括以下步骤:
a1:特征输入;
输入的时域特征的尺寸为:N×C×T×V;
其中,N代表批次,C代表通道数,T代表帧数,V代表关节数;
a2:时域卷积;
时域采用9×1卷积核进行特征提取,再进行批标准化;
a3:混合池化;
将时域维度和通道维度进行置换后,采用全局平均池化和最大池化并行的方式进行时域特征提取,则:混合池化的过程表示为:
式中,F和FT分别为混合池化前后的特征,MaxPool为最大池化操作,AvgPool为全局平均池化操作,Concat为特征融合操作;
a4:时域特征增强,具体包括以下步骤:
a41:采用1×1的卷积来提取融合后的特征;
a42:通过softmax函数进行归一化处理;
a43:将处理后的特征利用expand函数扩展为混合池化前的特征尺寸;
a44:将通道和时域维度再次置换回来,并保证与输入维度相同,得到的特征记作:F2;
a45:时域特征增强部分表示为:
式中,k,i和j分别代表第k个通道,时域中第i帧和空域第j个节点;F1表示步骤a2中经过卷积和批标准化后的特征,F2表示步骤a44中将通道和时域维度置换后得到的特征,Fg表示时域特征增强的输出,表示矩阵相乘;
a5:构造残差连接,输出最终特征;
通过对特征F1引出残差途径,并与时域特征增强的输出Fg相加,实现残差连接的构建后作为最终时域特征的输出;最终的输出特征表示为:
Fout=Res(F1,Fg)=F1+Fg
式中,Fout表示时域特征的输出,Res表示残差连接。
7.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S3-4中,通道采用ECA-Net网络进行注意力增强,具体包括以下步骤:
S3401:挤压阶段;
通过全局平均池化将特征的维度压缩到通道所表示的维度;挤压过程表示为:
式中,T代表帧数,V代表关节数,i和j表示时域中第i帧和空域第j个节点,X为输入的特征,l为通道挤压后的特征图;
S3402:跨通道交互阶段的计算包括:通过卷积核大小为h的一维卷积进行卷积操作后,通过sigmoid函数激活,然后进行矩阵相乘得到输出特征;
则,输出表示为:
8.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S4中,NM取值为4;所述骨架模态特征训练数据包括4个分支训练数据,分别为:关节、骨骼、关节运动和骨骼运动。
10.根据权利要求1所述一种基于时空特征增强图卷积网络的骨架行为识别方法,其特征在于:步骤S4中,基于多流网络的训练方式,分别使用所述分支训练数据训练所述时空特征增强图卷积网络模型时,采用随机梯度下降法作为优化策略,选择交叉熵作为梯度反向传播的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210613367.5A CN114882421B (zh) | 2022-06-01 | 2022-06-01 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210613367.5A CN114882421B (zh) | 2022-06-01 | 2022-06-01 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114882421A true CN114882421A (zh) | 2022-08-09 |
CN114882421B CN114882421B (zh) | 2024-03-26 |
Family
ID=82679413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210613367.5A Active CN114882421B (zh) | 2022-06-01 | 2022-06-01 | 一种基于时空特征增强图卷积网络的骨架行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114882421B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731413A (zh) * | 2022-11-15 | 2023-03-03 | 北京师范大学 | 结合图像空间域和频谱域特征的图卷积网络表情识别方法 |
CN115798055A (zh) * | 2023-02-10 | 2023-03-14 | 四川大学 | 一种基于cornersort跟踪算法的暴力行为检测方法 |
CN116189281A (zh) * | 2022-12-13 | 2023-05-30 | 北京交通大学 | 基于时空自适应融合的端到端人体行为分类方法及系统 |
CN116434339A (zh) * | 2023-04-13 | 2023-07-14 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
CN116524601A (zh) * | 2023-06-21 | 2023-08-01 | 深圳市金大智能创新科技有限公司 | 辅助养老机器人监控的自适应多阶段人体行为识别模型 |
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116665308A (zh) * | 2023-06-21 | 2023-08-29 | 石家庄铁道大学 | 双人交互时空特征提取方法 |
CN117409483A (zh) * | 2023-12-13 | 2024-01-16 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
CN116631050B (zh) * | 2023-04-20 | 2024-02-13 | 北京电信易通信息技术股份有限公司 | 一种面向智能视频会议的用户行为识别方法及系统 |
CN117409483B (zh) * | 2023-12-13 | 2024-06-07 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN111814719A (zh) * | 2020-07-17 | 2020-10-23 | 江南大学 | 一种基于3d时空图卷积的骨架行为识别方法 |
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN113408455A (zh) * | 2021-06-29 | 2021-09-17 | 山东大学 | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 |
WO2022088176A1 (en) * | 2020-10-29 | 2022-05-05 | Hong Kong Applied Science and Technology Research Institute Company Limited | Actional-structural self-attention graph convolutional network for action recognition |
-
2022
- 2022-06-01 CN CN202210613367.5A patent/CN114882421B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169209A1 (zh) * | 2020-02-27 | 2021-09-02 | 平安科技(深圳)有限公司 | 一种基于语音及图像特征的异常行为识别方法、装置及设备 |
CN111652124A (zh) * | 2020-06-02 | 2020-09-11 | 电子科技大学 | 一种基于图卷积网络的人体行为识别模型的构建方法 |
CN111814719A (zh) * | 2020-07-17 | 2020-10-23 | 江南大学 | 一种基于3d时空图卷积的骨架行为识别方法 |
WO2022088176A1 (en) * | 2020-10-29 | 2022-05-05 | Hong Kong Applied Science and Technology Research Institute Company Limited | Actional-structural self-attention graph convolutional network for action recognition |
CN113408455A (zh) * | 2021-06-29 | 2021-09-17 | 山东大学 | 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质 |
Non-Patent Citations (1)
Title |
---|
管珊珊;张益农;: "基于残差时空图卷积网络的3D人体行为识别", 计算机应用与软件, no. 03, 12 March 2020 (2020-03-12) * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115731413A (zh) * | 2022-11-15 | 2023-03-03 | 北京师范大学 | 结合图像空间域和频谱域特征的图卷积网络表情识别方法 |
CN116189281A (zh) * | 2022-12-13 | 2023-05-30 | 北京交通大学 | 基于时空自适应融合的端到端人体行为分类方法及系统 |
CN116189281B (zh) * | 2022-12-13 | 2024-04-02 | 北京交通大学 | 基于时空自适应融合的端到端人体行为分类方法及系统 |
CN115798055A (zh) * | 2023-02-10 | 2023-03-14 | 四川大学 | 一种基于cornersort跟踪算法的暴力行为检测方法 |
CN115798055B (zh) * | 2023-02-10 | 2023-04-28 | 四川大学 | 一种基于cornersort跟踪算法的暴力行为检测方法 |
CN116434339A (zh) * | 2023-04-13 | 2023-07-14 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
CN116434339B (zh) * | 2023-04-13 | 2023-10-27 | 江南大学 | 基于骨架数据时空特征差异性和相关性的行为识别方法 |
CN116631050B (zh) * | 2023-04-20 | 2024-02-13 | 北京电信易通信息技术股份有限公司 | 一种面向智能视频会议的用户行为识别方法及系统 |
CN116524601B (zh) * | 2023-06-21 | 2023-09-12 | 深圳市金大智能创新科技有限公司 | 辅助养老机器人监控的自适应多阶段人体行为识别模型 |
CN116665308A (zh) * | 2023-06-21 | 2023-08-29 | 石家庄铁道大学 | 双人交互时空特征提取方法 |
CN116665308B (zh) * | 2023-06-21 | 2024-01-23 | 石家庄铁道大学 | 双人交互时空特征提取方法 |
CN116524601A (zh) * | 2023-06-21 | 2023-08-01 | 深圳市金大智能创新科技有限公司 | 辅助养老机器人监控的自适应多阶段人体行为识别模型 |
CN116665312B (zh) * | 2023-08-02 | 2023-10-31 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN117409483A (zh) * | 2023-12-13 | 2024-01-16 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
CN117409483B (zh) * | 2023-12-13 | 2024-06-07 | 烟台大学 | 基于自适应联合时空图卷积的虚拟现实交互方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114882421B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114882421B (zh) | 一种基于时空特征增强图卷积网络的骨架行为识别方法 | |
Li et al. | Semantic relationships guided representation learning for facial action unit recognition | |
Wang et al. | Predrnn: A recurrent neural network for spatiotemporal predictive learning | |
Li et al. | Actional-structural graph convolutional networks for skeleton-based action recognition | |
Hu et al. | Learning to reason: End-to-end module networks for visual question answering | |
CN111814719B (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN109948475B (zh) | 一种基于骨架特征和深度学习的人体动作识别方法 | |
CN108241854B (zh) | 一种基于运动和记忆信息的深度视频显著性检测方法 | |
CN113158723A (zh) | 一种端到端的视频动作检测定位系统 | |
Guo et al. | JointPruning: Pruning networks along multiple dimensions for efficient point cloud processing | |
CN112200266B (zh) | 基于图结构数据的网络训练方法、装置以及节点分类方法 | |
CN112949707B (zh) | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 | |
CN113033276B (zh) | 一种基于转换模块的行为识别方法 | |
CN113313173A (zh) | 基于图表示和改进Transformer的人体解析方法 | |
Gao et al. | Attention interactive graph convolutional network for skeleton-based human interaction recognition | |
CN116306780B (zh) | 一种动态图链接生成方法 | |
Zhao et al. | Human action recognition based on improved fusion attention CNN and RNN | |
CN116030537B (zh) | 基于多分支注意力图卷积的三维人体姿态估计方法 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN117197632A (zh) | 一种基于Transformer的电镜花粉图像目标检测方法 | |
CN113159007B (zh) | 一种基于自适应图卷积的步态情感识别方法 | |
CN114613011A (zh) | 基于图注意力卷积神经网络的人体3d骨骼行为识别方法 | |
Yin et al. | Spatiotemporal Progressive Inward-Outward Aggregation Network for skeleton-based action recognition | |
CN114240999A (zh) | 一种基于增强图注意力与时间卷积网络的运动预测方法 | |
Sun et al. | Real-time memory efficient large-pose face alignment via deep evolutionary network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |