CN115116139A - 基于图卷积网络的多粒度人体动作分类方法 - Google Patents

基于图卷积网络的多粒度人体动作分类方法 Download PDF

Info

Publication number
CN115116139A
CN115116139A CN202210816170.1A CN202210816170A CN115116139A CN 115116139 A CN115116139 A CN 115116139A CN 202210816170 A CN202210816170 A CN 202210816170A CN 115116139 A CN115116139 A CN 115116139A
Authority
CN
China
Prior art keywords
space
matrix
time
human body
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210816170.1A
Other languages
English (en)
Inventor
刘胜蓝
丁宇宁
李光哲
张津榕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202210816170.1A priority Critical patent/CN115116139A/zh
Publication of CN115116139A publication Critical patent/CN115116139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

基于图卷积网络的多粒度人体动作分类方法,属于视频动作识别领域,为了解决生成准确和高鲁棒性的动作分类结果的问题,要点是将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,在骨架拓扑的三个通道上,将输入数据通过卷积、不同维度的均值压缩和维度扩展处理,提取空间的特征矩阵和时间特征矩阵,同时,对输入数据进行卷积等,效果是可以对粗粒度的动作数据和细粒度的动作数据都进行准确分类。

Description

基于图卷积网络的多粒度人体动作分类方法
技术领域
本发明属于视频动作识别领域,涉及一种基于图卷积网络的多粒度动作分类方法。
背景技术
基于图卷积网络的多粒度人体动作分类是视频动作识别领域非常具有挑战性的一个研究方向。其中,对于骨骼点数据的分类方法的研究是最为热门和核心的研究内容。图卷积网络主要基于空间卷积-时间卷积模式构建,输入的信息是二维或三维的特征序列。
目前,动作识别领域中分类问题的研究已经取得了很多进展,各种方法层出不穷。所研究的数据模态从最初RGB数据扩展到了骨骼点数据,视频帧的选择策略从整段输入进阶为随机多帧抽取,提取的判别信息也逐渐细化到人体的时空位置信息。人体动作分类面向的是人体运动的视频数据,分类性能的好坏着力于空间尺度和时间尺度上信息的提取。空间尺度信息表现为单个视频帧中人体结构的空间分布,时间尺度信息表现为人体结构在时间轴上的变化。当前的主流方法大多只关注同一帧节点的空间连接信息,时间上的信息只通过时域卷积进行传播。但是,这些方法忽略了每个节点在不同帧中的差异性,丢失了时空层面上的高等级特征。主流的公开数据集也多为粗粒度数据集,与之相比,细粒度分类问题的研究较为缓慢。细粒度分类问题具有许多的实际应用场景,比如滑冰运动中的不同级别跳跃的判别,滑冰运动中的每种跳跃只有很细微的差别且都属于一个大类别跳跃。这些细粒度分类问题更加具有挑战性,也更加具有应用价值。
发明内容
本发明目的是提供一种基于图卷积网络的多粒度人体动作分类方法,通过在每个样本中提取时间维度和空间维度的特征,捕获骨骼点和骨骼点之间,帧与骨骼点之间,帧与帧之间的关系,进而生成准确和高鲁棒性的动作分类结果。
为实现上述目的,本发明提供如下技术方案:
一种基于图卷积网络的多粒度人体动作分类方法,包括
S1.获取目标动作的骨骼点数据集;
S2.将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,使用V表示骨骼点数量,每个子集是V×V的矩阵;
根据所述三个子集划分形状为3×V×V的所述三个子集的邻接矩阵,根据所述邻接矩阵划分骨架拓扑的三个通道;
对所述邻接矩阵标准化得到骨架拓扑矩阵A,用Ai表示第i个通道的骨架拓扑矩阵A的子集;
S3.对骨骼点数据集进行抽帧得到形状为C×T×V的输入数据Xin,C表示特征数量,T表示时间窗大小;
S4.在骨架拓扑的三个通道上,将输入数据Xin通过Cr维度的1×1卷积、不同维度的均值压缩和维度扩展处理,提取空间的特征矩阵X1、X2和时间特征矩阵X3,空间的特征矩阵X1形状为Cr×T×1、空间的特征矩阵X2形状为Cr×1×T、时间特征矩阵X3形状为Cr×T×1,同时,对输入数据Xin进行Cout维度的1×1卷积,得到形状为Cout×T×V的时空向量X4
S5.空间的特征矩阵X1和空间的特征矩阵X2通过减法运算进行空间关系建模,通过激活函数φ1和Cout维度的1×1卷积f1,生成空间向量X5
X5=f11(X1-X2)) (1)
空间的特征矩阵X2和时间特征矩阵X3通过乘法运算融合建立时空关系,通过激活函数φ2和Cout维度的1×1卷积f2,生成时空权重向量X6
X6=f22(X2·X3)) (2)
S6.空间向量X5和每个通道的骨架拓扑子集Ai通过融合函数
Figure BDA0003742495180000021
构建细化的空间向量X7,空间向量X5和每个通道的骨架拓扑子集Ai之间的数值关系是可学习的,权重系数为α;
Figure BDA0003742495180000022
时空权重向量X6通过融合函数
Figure BDA0003742495180000023
为时空向量X4提供权重,产生细化的时空向量X8
Figure BDA0003742495180000024
S7.将两个空间向量X7和X8在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑
Figure BDA0003742495180000025
S8.将所有通道的输出
Figure BDA0003742495180000026
相加进行融合,通过归一化和ReLu函数激活,得到通道细化拓扑Xc
S9.将通道细化拓扑Xc输入到时域卷积网络得到输出Xout
S10.输出Xout作为输入数据Xin循环若干次执行步骤S4~S9,将每一次循环执行步骤S4~S8所得输出Xout输入全连接层,进行最大池化得到特征fout,特征fout表示从输入骨骼点数据中提取的动作特征,最后将特征fout输入Softmax层得到多粒度人体动作分类标签。
在一种实施例中,输出Xout作为输入数据Xin循环八次执行步骤S4~S9。
在一种实施例中,最大池化得到维度为256的特征fout
在一种实施例中,每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成。
在一种实施例中,所述步骤S4~S7执行所构建的网络为时空细化图卷积网络。
在一种实施例中,所述步骤S8~S9执行所构建的网络为多维度细化图卷积网络。
在一种实施例中,所述多维度细化图卷积网络共有九层,前三层有64个输出通道,中间三层有128个输出通道,最后三层有256个输出通道,九层多维度细化图卷积网络的输出输入全连接层,进行最大池化得到特征fout
在一种实施例中,所述的基于图卷积网络的多粒度人体动作分类方法还包括
S11.通过特征fout和训练集的标签y计算角弦损失函数LAL,并根据损失函数结果进行优化,迭代训练,直到达到预设的迭代轮次;LAL由常规损失函数Ls、角度损失函数Lin、角度补偿损失函数Lout和弦长损失函数LL组成;LAL通过训练得到中心特征矩阵C,C的形状为类别数K×特征数F,类别y在C上的特征向量表示为Cy;IL和Lout通过权重常量λ与Ls和Lin联合作用得到LAL,通过如下公式表示:
Figure BDA0003742495180000031
Figure BDA0003742495180000032
Figure BDA0003742495180000033
LAL=Ls+Lin+λ(LL-Lout) (8)
Lin在角度上使得类内的分布比较集中,LL是在距离上使得类内的分布比较集中,Lout扩大类间的距离。
在一种实施例中,步骤S5所述的激活函数可以是tanh,sigmoid,hardswish的任一种。
在一种实施例中,上述步骤S11所述的常规损失函数是Softmax loss,sphereFace,Large margin cosine loss,arcFace中的任一种。
本发明的有益效果是在骨架拓扑的每个通道上,同时形成了时间维度和空间维度的细化,感受了时空高级特征,打破了传统方法只能利用空间连接信息和时间连接信息的局限。同时,角弦损失函数改善了特征在向量空间中的分布,使不同类别的分类边界更加清晰。通过多维度细化的图卷积机制和角弦损失函数,可以对粗粒度的动作数据和细粒度的动作数据都进行准确分类,满足了分类任务中对准确性的要求,该方法具有较大的发展前景。
附图说明
图1为多维度细化图卷积模块的结构图。
图2为一层多维度细化图卷积网络的结构图。
图3为完整的多维度细化图卷积的结构图。
具体实施方式
下面,将结合附图1~3进一步详细说明本发明的具体实施方式。
实施例1:如图1~3所示,一种基于图卷积网络的多粒度人体动作分类方法,包括
S1:通过深度传感器或骨骼点提取算法获取目标动作的骨骼点数据集,划分为训练集T1和测试集T2
S2:将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集;
使用V表示骨骼点数量,每个子集是V×V的矩阵,划分得到形状为3×V×V的邻接矩阵,再对该邻接矩阵进行标准化得到骨架拓扑矩阵A,不同的数据集提取的骨骼关键点不同,邻接关系不同,得到的邻接矩阵也不相同,为了给后续训练提供多种不同类型的特征。
现有分类方法中,输入数据是形状为C×t×V的输入数据,C特征数量,t是全部帧数,大小是不固定的,V骨骼点数量。在本发明中,根据三个不同的子集邻接矩阵划分为三个通道,用Ai表示第i个通道的骨架拓扑矩阵A的子集。S3:对训练集T1进行抽帧,抽帧策略与设定的时间窗大小T和视频的实际帧数有关,视频的实际帧数即为去除补0的视频帧后的含有有效数据的全部帧数;如果时间窗的长度大于或等于实际帧数,则随机选择起始点,将实际视频帧整体放入,其余位置补0;如果时间窗的长度比实际帧数小,则将视频划分为时间窗大小个区间,每个区间随机抽取,最终得到形状为C×T×V的输入数据Xin。该步骤的目的是将输入数据的时间窗大小固定。
S4:在骨架拓扑的每个通道上,三个子集对应的三个通道,将Xin通过Cr维度的1×1卷积、不同维度的均值压缩和维度扩展,提取空间的特征矩阵X1、X2和时间特征矩阵X3,其形状为Cr×T×1、Cr×1×T和Cr×T×1同时,对Xin进行Cout维度的1×1卷积,得到形状为Cout×T×V的时空向量X4
S5:X1和X2通过减法运算进行空间关系建模,通过激活函数φ1和Cout维度的1×1卷积f1,生成空间向量X5;X2和X3通过乘法运算融合建立时空关系,通过激活函数φ2和Cout维度的1×1卷积f2,生成时空权重向量X6。X5和X6通过如下公式计算;
X5=f11(X1-X2)) (1)
X6=f22(X2·X3)) (2)
S6:X5和每个通道的骨架拓扑子集Ai通过融合函数
Figure BDA0003742495180000051
构建细化的空间向量X7,X5和Ai之间的数值关系是可学习的,权重系数为α;X6通过
Figure BDA0003742495180000052
为样本本身的时空向量X4提供权重,产生细化的时空向量X8
Figure BDA0003742495180000053
Figure BDA0003742495180000054
由如下公式表示;
Figure BDA0003742495180000055
Figure BDA0003742495180000056
每个帧中每个关节点应该具有不同关注度,在每个帧中给不同的关节点提取不同的权重产生细化的时空向量。
对于多粒度系列动作只有一帧或几帧的差别,通过权重分配产生细化的时空向量能够对细微动作进行准确捕捉。
S7:将两个向量X7和X8在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑
Figure BDA0003742495180000058
S8.将所有通道的输出
Figure BDA0003742495180000057
相加进行融合,通过归一化和ReLu函数激活,得到通道细化拓扑Xc
S9:将Xc输入到时域卷积网络,每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成,以感受临近帧之间的相关性,时域卷积网络能够帮助捕捉相邻帧之间的关系,能够捕获动作的连贯过程。由此得到一层多维度细化图卷积网络的输出Xout,由上述,步骤S4-S8为构建多维度细化图卷积网络的步骤。
S10:将输出Xout作为下一层的多维度细化图卷积网络的输入(Xin),循环进行九层多维度细化图卷积网络,即循环执行步骤S4-S9共9轮,每轮循环的输入Xin是上一轮的输出Xout
其中前三层有64个输出通道;中间三层有128个输出通道。最后三层有256个输出通道;最后将九层多维度细化图卷积网络的输出输入全连接层,进行最大池化降低特征维度,得到维度为256的特征fout,表示从输入骨骼点数据中提取的动作特征,最后将特征fout输入Softmax层得到多粒度人体动作分类标签。层数选择在精度达到比较高,效率和精度在9层比较平衡。
S10:通过fout和训练集的标签y计算角弦损失函数LAL,并根据损失函数结果进行优化,迭代训练,直到达到预设的迭代轮次;LAL由常规损失函数Ls、角度损失函数Lin、角度补偿损失函数Lout和弦长损失函数LL组成;LAL通过训练得到中心特征矩阵C,C的形状为类别数K×特征数F,类别y在C上的特征向量表示为Cy;LL和Lout通过权重常量λ与Ls和Lin联合作用得到LAL,通过如下公式表示。
Figure BDA0003742495180000061
Figure BDA0003742495180000062
Figure BDA0003742495180000063
LAL=Ls+Lin+λ(LL-Lout) (8)
本发明使用所述损失函数,Lin在角度上使得类内的分布比较集中,LL是在距离上使得类内的分布比较集中,Lout扩大类间的距离。
进一步地,上述步骤S5所述的激活函数可以是tanh,sigmoid,hardswish的一种。
进一步地,上述步骤S10所述的常规损失函数可以是Softmax loss,sphereFace,Large margin cosine loss,arcFace的一种。
实施例2:本实施例使用具体花样滑冰动作数据集FSD-10对本发明的方法的具体实施进行详细说明,如图1~3所示,本发明基于图卷积网络的多粒度人体动作分类方法,具体实施步骤如下:
S1:使用openpose25骨骼点提取算法从花样滑冰动作数据集FSD-10中提取骨骼点数据集,划分为训练集T1和测试集T2
S2:将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,得到形状为3×25×25的邻接矩阵,再对该邻接矩阵进行标准化得到骨架拓扑矩阵A。
S3:对T1进行抽帧,抽帧策略与设定的时间窗大小T设定为256;时间窗的长度大于或等于实际帧数,则随机选择起始点,将实际视频帧整体放入,其余位置补0,最终得到形状为3×256×25的输入数据Xin
S4:在骨架拓扑的每个通道上,将Xin通过Cr维度的1×1卷积、不同维度的均值压缩和维度扩展,提取空间的特征矩阵X1、X2和时间特征矩阵X3,其形状为Cr×25×1、Cr×1×25和Cr×256×1同时,对Xin进行Cout维度的1×1卷积,得到形状为Cout×256×25的时空向量X4
S5:X1和X2通过减法运算进行空间关系建模,通过激活函数sigmoid和Cout维度的1×1卷积f1,生成空间向量X5;X2和X3通过乘法运算融合建立时空关系,通过激活函数tanh和Cout维度的1×1卷积f2,生成时空权重向量X6。X5和X6通过如下公式计算。
X5=f1(sigmoid(X1-X2)) (1)
X6=f2(tanh(X2·X3)) (2)
S6:X5和对应通道的骨架拓扑子集Ai通过融合函数
Figure BDA0003742495180000071
构建细化的空间向量X7,X5和Ai之间的数值关系是可学习的,权重系数为α;X6通过
Figure BDA0003742495180000072
为样本本身的时空向量X4提供权重,产生细化的时空向量X8
Figure BDA0003742495180000073
Figure BDA0003742495180000074
由如下公式表示。
Figure BDA0003742495180000075
Figure BDA0003742495180000076
S7:将两个向量X7和X8在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑
Figure BDA0003742495180000077
将所有通道的输出
Figure BDA0003742495180000078
相加进行融合,通过归一化和ReLu函数激活,得到通道细化拓扑Xc,完整的时空细化过程如图1所示。
S8:将Xc输入到时域卷积网络,每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成,以感受临近帧之间的相关性,得到一层多维度细化图卷积网络的输出Xout,一层多维度细化图卷积网络的过程如图2所示。
S9:将输出作为下一层的输入,循环进行九层多维度细化图卷积网络,其中前三层有64个输出通道;中间三层有128个输出通道。最后三层有256个输出通道;最后将特征输入全连接层,进行最大池化降低特征维度,得到维度为256的特征fout,完整的模型结构如图3所示。
S10:通过fout和训练集的标签y计算角弦损失函数LAL,并根据损失函数结果进行优化,迭代训练,直到达到预设的迭代轮次;LAL由常规损失函数Ls、角度损失函数Lin、角度补偿损失函数Lout和弦长损失函数LL组成;LAL通过训练得到中心特征矩阵C,C的形状为10×256,类别y在C上的特征向量表示为Cy;LL和Lout通过权重常量λ与Ls和Lin联合作用得到LAL,λ设定为0.1,LAL通过如下公式表示。
Figure BDA0003742495180000079
Figure BDA00037424951800000710
Figure BDA00037424951800000711
LAL=Ls+Lin+λ(LL-Lout) (8)
S11:保存训练的参数,将测试集T2输入模型,得到预测的分类结果,以分类的准确率为评价标准,和标签进行对比,并和其他主流方法进行对比,经过反复测试,具体结果如表1所示。
表1本发明与其他对比算法的测试结果
算法 准确率
算法1 84.24%
算法2 88.72%
算法3 90.58%
实施例1 92.94%
实施例2 93.17%
附:算法1:ST-GCN;算法2:MS-G3D;算法3:CTR-GCN;实施例1:sigmoid+tanh;实施例2:tanh+tanh;
与对比算法相比,本发明所提出的实施例2对应的方法在分类精度上明显提高,基本符合多粒度动作数据的分类准确性要求。
实施例3:本实施例与实施例1或2的区别仅在于,使用了不同的激活函数,即步骤S5中激活函数φ1和φ2都使用了tanh。本实施例S11:仍使用分类准确率精度作为指标对所提方法进行了验证,测试结果如表1。与对比算法相比,本本发明所提出的实施例2对应的方法具有较高的精度,较好地满足了多粒度动作数据的分类准确性要求。

Claims (10)

1.一种基于图卷积网络的多粒度人体动作分类方法,其特征在于,包括
S1.获取目标动作的骨骼点数据集;
S2.将骨骼点划分为骨骼点本身、靠近重心的一近邻节点、远离重心的一近邻节点三个子集,使用V表示骨骼点数量,每个子集是V×V的矩阵;
根据所述三个子集划分形状为3×V×V的所述三个子集的邻接矩阵,根据所述邻接矩阵划分骨架拓扑的三个通道;
对所述邻接矩阵标准化得到骨架拓扑矩阵A,用Ai表示第i个通道的骨架拓扑矩阵A的子集;
S3.对骨骼点数据集进行抽帧得到形状为C×T×V的输入数据Xin,C表示特征数量,T表示时间窗大小;
S4.在骨架拓扑的三个通道上,将输入数据Xin通过Cr维度的1×1卷积、不同维度的均值压缩和维度扩展处理,提取空间的特征矩阵X1、X2和时间特征矩阵X3,空间的特征矩阵X1形状为Cr×T×1、空间的特征矩阵X2形状为Cr×1×T、时间特征矩阵X3形状为Cr×T×1,同时,对输入数据Xin进行Cout维度的1×1卷积,得到形状为Cout×T×V的时空向量X4
S5.空间的特征矩阵X1和空间的特征矩阵X2通过减法运算进行空间关系建模,通过激活函数φ1和Cout维度的1×1卷积f1,生成空间向量X5
X5=f11(X1-X2)) (1)
空间的特征矩阵X2和时间特征矩阵X3通过乘法运算融合建立时空关系,通过激活函数φ2和Cout维度的1×1卷积f2,生成时空权重向量X6
X6=f22(X2·X3)) (2)
S6.空间向量X5和每个通道的骨架拓扑子集Ai通过融合函数
Figure FDA0003742495170000011
构建细化的空间向量X7,空间向量X5和每个通道的骨架拓扑子集Ai之间的数值关系是可学习的,权重系数为α;
Figure FDA0003742495170000012
时空权重向量X6通过融合函数
Figure FDA0003742495170000013
为时空向量X4提供权重,产生细化的时空向量X8
Figure FDA0003742495170000014
S7.将两个空间向量X7和X8在每个通道上进行矩阵乘法运算和通道拼接得到时空细化的拓扑
Figure FDA0003742495170000015
S8.将所有通道的输出
Figure FDA0003742495170000016
相加进行融合,通过归一化和ReLu函数激活,得到通道细化拓扑Xc
S9.将通道细化拓扑Xc输入到时域卷积网络得到输出Xout
S10.输出Xout作为输入数据Xin循环若干次执行步骤S4~S9,将每一次循环执行步骤S4~S8所得输出Xout输入全连接层,进行最大池化得到特征fout,特征fout表示从输入骨骼点数据中提取的动作特征,最后将特征fout输入Sofimax层得到多粒度人体动作分类标签。
2.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,输出Xout作为输入数据Xin循环八次执行步骤S4~S9。
3.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,最大池化得到维度为256的特征fout
4.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,每个时域卷积网络由卷积核为3和卷积核为5的两个时间卷积模块构成。
5.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,所述步骤S4~S7执行所构建的网络为时空细化图卷积网络。
6.根据权利要求1或5所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,所述步骤S8~S9执行所构建的网络为多维度细化图卷积网络。
7.根据权利要求6所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,所述多维度细化图卷积网络共有九层,前三层有64个输出通道,中间三层有128个输出通道,最后三层有256个输出通道,九层多维度细化图卷积网络的输出输入全连接层,进行最大池化得到特征fout
8.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,还包括
S11.通过特征fout和训练集的标签y计算角弦损失函数LAL,并根据损失函数结果进行优化,迭代训练,直到达到预设的迭代轮次;LAL由常规损失函数Ls、角度损失函数Lin、角度补偿损失函数Lout和弦长损失函数LL组成;LAL通过训练得到中心特征矩阵C,C的形状为类别数K×特征数F,类别y在C上的特征向量表示为Cy;LL和Lout通过权重常量λ与Ls和Lin联合作用得到LAL,通过如下公式表示:
Figure FDA0003742495170000021
Figure FDA0003742495170000022
Figure FDA0003742495170000023
LAL=Ls+Lin+λ(LL-Lout) (8)
Lin在角度上使得类内的分布比较集中,LL是在距离上使得类内的分布比较集中,Lout扩大类间的距离。
9.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,步骤S5所述的激活函数可以是tanh,sigmoid,hardswish的任一种。
10.根据权利要求1所述的基于图卷积网络的多粒度人体动作分类方法,其特征在于,上述步骤S11所述的常规损失函数是Sofimax loss,sphereFace,Large margin cosineloss,arcFace中的任一种。
CN202210816170.1A 2022-07-12 2022-07-12 基于图卷积网络的多粒度人体动作分类方法 Pending CN115116139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210816170.1A CN115116139A (zh) 2022-07-12 2022-07-12 基于图卷积网络的多粒度人体动作分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210816170.1A CN115116139A (zh) 2022-07-12 2022-07-12 基于图卷积网络的多粒度人体动作分类方法

Publications (1)

Publication Number Publication Date
CN115116139A true CN115116139A (zh) 2022-09-27

Family

ID=83333008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210816170.1A Pending CN115116139A (zh) 2022-07-12 2022-07-12 基于图卷积网络的多粒度人体动作分类方法

Country Status (1)

Country Link
CN (1) CN115116139A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401308A (zh) * 2023-04-10 2023-07-07 晟盾科技股份有限公司 用于移动控制端的数据展示切换方法及系统
CN117423032A (zh) * 2023-10-20 2024-01-19 大连理工大学 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401308A (zh) * 2023-04-10 2023-07-07 晟盾科技股份有限公司 用于移动控制端的数据展示切换方法及系统
CN116401308B (zh) * 2023-04-10 2023-11-07 晟盾科技股份有限公司 用于移动控制端的数据展示切换方法及系统
CN117423032A (zh) * 2023-10-20 2024-01-19 大连理工大学 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质
CN117423032B (zh) * 2023-10-20 2024-05-10 大连理工大学 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111325155B (zh) 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法
Gao et al. Multiple discrimination and pairwise CNN for view-based 3D object retrieval
CN113011499B (zh) 一种基于双注意力机制的高光谱遥感图像分类方法
Zuo et al. Learning contextual dependence with convolutional hierarchical recurrent neural networks
CN109670528B (zh) 面向行人重识别任务的基于成对样本随机遮挡策略的数据扩充方法
Zuo et al. Convolutional recurrent neural networks: Learning spatial dependencies for image representation
CN111696137B (zh) 一种基于多层特征混合与注意力机制的目标跟踪方法
CN115116139A (zh) 基于图卷积网络的多粒度人体动作分类方法
Jiang et al. Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network
CN111625667A (zh) 一种基于复杂背景图像的三维模型跨域检索方法及系统
CN110781928B (zh) 一种提取图像多分辨率特征的图像相似度学习方法
CN113807176B (zh) 一种基于多知识融合的小样本视频行为识别方法
Hua et al. Depth estimation with convolutional conditional random field network
Dong et al. A combined deep learning model for the scene classification of high-resolution remote sensing image
CN111311702A (zh) 一种基于BlockGAN的图像生成和识别模块及方法
Liu et al. Pose-adaptive hierarchical attention network for facial expression recognition
Kim et al. Hierarchy of alternating specialists for scene recognition
Tan et al. Deep adaptive fuzzy clustering for evolutionary unsupervised representation learning
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
Xu et al. Adaptive feature selection with reinforcement learning for skeleton-based action recognition
Yan et al. A parameter-free framework for general supervised subspace learning
CN110334226B (zh) 融合特征分布熵的深度图像检索方法
Zhao et al. Glimpse and zoom: Spatio-temporal focused dynamic network for skeleton-based action recognition
CN116844004A (zh) 一种面向数字孪生场景的点云自动语义化建模方法
Zhang et al. Tree-shaped multiobjective evolutionary CNN for hyperspectral image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination