CN113657349A - 一种基于多尺度时空图卷积神经网络的人体行为识别方法 - Google Patents
一种基于多尺度时空图卷积神经网络的人体行为识别方法 Download PDFInfo
- Publication number
- CN113657349A CN113657349A CN202111020275.8A CN202111020275A CN113657349A CN 113657349 A CN113657349 A CN 113657349A CN 202111020275 A CN202111020275 A CN 202111020275A CN 113657349 A CN113657349 A CN 113657349A
- Authority
- CN
- China
- Prior art keywords
- skeleton
- time
- joint
- module
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于多尺度时空图卷积神经网络的人体行为识别方法,属于神经网络技术领域。该方法包括提取待识别的人体骨骼序列创建数据集并进行预处理;创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型,使模型更好的提取人体骨骼的空间特征和骨骼序列的时序特征;训练和测试所述深度神经网络,得到人体行为识别神经网络模型;利用训练好的模型对待识别的视频图像进行分类,输出分类结果。本发明提供的人体行为识别方法,能够使神经网络模型更好的提取骨骼序列的时空特征,实现人体行为的自动识别,提高人体行为识别准确率。
Description
技术领域
本发明属于神经网络技术领域,涉及一种基于多尺度时空图卷积神经网络的人体行为识别方法。
背景技术
计算机进行人体行为识别有着多种模态,例如RGB图像、深度图、光流和骨骼等。其中通过骨骼的人体行为识别方法具有背景适应性强、对光照变化鲁棒性强、计算量小等优点。基于循环神经网络(RNN)的方法,骨骼序列是关节坐标位置的自然时间序列,可以看作是序列向量,而RNN本身由于其独特的结构适合处理时间序列数据。但是基于RNN方法的空间建模能力弱,且随着网络层数加深其反向传播时梯度容易消失,变得难以训练,从而难以提取到具有语义丰富的深层特征。基于卷积神经网络(CNN)的方法可以高效的学习空间特征,然而基于CNN的方法是将骨骼数据构造成二维网格结构的图像,并不能直接有效的利用人体本身的拓扑结构信息。基于图卷积神经网络(GCN)的方法能够直接有效的利用骨骼本身的拓扑结构信息,但是骨骼序列之间存在长时间距离依赖问题。
明显的,当前人体行为识别技术还存在以下问题:(1)由于同一行为在不同视角以及不同对象下将表现出不同的形状,可能会导致算法在提取人体的底层特征时产生较大的差异;(2)对于相同的行为,在执行时不一定会表现出相同的处理方式。同时,对于不同的行为,可能存在两个行为在执行过程中子行为是相同的,两个行为中会产生很多相似的帧,导致识别过程中产生混淆。(3)一个完整的行为是由一系列子行为组成,不同的子行为对完整的行为具有不同权重,而传统的时间卷积通过固定的卷积核来提取时间特征,不能够充分利用骨骼序列的时间特征。
发明内容
有鉴于此,本发明的目的在于提供一种基于多尺度时空图卷积神经网络的人体行为识别方法。
为达到上述目的,本发明提供如下技术方案:
一种基于多尺度时空图卷积神经网络的人体行为识别方法,该方法包括以下步骤:
S1:提取人体骨骼序列并创建数据集;
S2:对数据集进行预处理;
S3:创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型;
S4:使用创建好的数据集来训练和测试深度神经网络模型;
S5:利用训练好的模型对待识别的视频图像进行分类。
可选的,所述S1具体为:
首先使用深度相机录制各类动作的视频,包括单人动作和双人交互动作,得到包含人体的关键关节点的特征信息的骨骼视频,并对视频中的动作类别进行标注,保证样例和标注一一对应,将标记后的数据按一定比例划分为训练集和测试集。
可选的,所述S2具体为:
将数据集中的关节的特征信息中的坐标信息作为第一特征,骨骼的方向和长度信息作为第二特征;将所有关节特征信息中的坐标信息的平均坐标设为骨骼重心,根据重心和各关节点之间的距离远近,定义靠近人体骨骼重心的关节为源关节,远离重心的关节为目标关节,每段骨骼表示为一个从源关节指向目标关节的向量;给定源关节坐标V1=(x1,y1,z1)和目标关节坐标V2=(x2,y2,z2)的一段骨骼,则其矢量计算为:
由于骨骼的图结构没有环状,每段骨骼分配一个唯一指定的目标关节,故关节数比骨骼数多1个,在人体骨骼重心处添加一个零向量代表一段骨骼,使关节数与骨骼数相等;最后将骨骼序列的第一特征和第二特征的两个特征张量在张量的通道维度上进行拼接,其中通道为人体关节的特征维度,拼接后的张量作为模型的输入。
可选的,所述S3具体为:
S31:确定所述的深度神经网络模型,以ST-GCN神经网络模型作为主干网络的基础结构,将ST-GCN中的图卷积网络模块变成多尺度图卷积网络模块,由此模块来提取待识别人体骨骼的空间特征,时间卷积网络模块变成多时长特征融合模块,由此模块来提取待识别骨骼序列的时序特征;
S32:所述网络的多尺度图卷积网络模块由四个并行的图卷积网络分支组成;根据数据集中骨骼帧给定的人体关节序列,构造人体关节连接关系图;其中,人体的关节对应图的节点,关节间的连通性对应图的边;将骨骼帧中的人体骨骼视为一个整体构造一个人体关节连接关系图G(x,A),其中x为N个关节的特征信息,A为一个N×N的骨骼关节点连接矩阵;四个并行的图卷积网络支路对应的人体关节连接关系图的骨骼关节点连接矩阵分别为邻接矩阵的1、2、3、4次幂,且分别表示为A1,A2,A3,A4;各分支对人体关节连接关系图和人体关节的特征信息进行图卷积操作,方法为:
对各支路人体关节连接关系图的骨骼关节点连接矩阵加上单位矩阵,并进行归一化操作,各支路的归一化操作定义为:
其中Ai表示人体关节连接关系图的骨骼关节点连接矩阵,I表示单位矩阵;假设网络模型已经由H层构成,则第h+1层各分支的输入为上一层的输出且对于每个归一化操作的矩阵加上一个偏置矩阵,则各分支的图卷积操作定义为:
其中M(h+1)∈RN×N表示偏置矩阵,M(h+1)初始化为全1的矩阵,W(h+1)∈RN×N表示权重矩阵,使用Kaiming初始化对W(h+1)进行初始化;定义第一层的输入最后将四个并行支路的输出特征图在通道维度上进行拼接,再经过一个1x1卷积、Batch Normalization批标准化层以及ReLU激活函数,得到第h+1层的多尺度图卷积网络模块的输出
S33:网络的多时长特征融合模块为四个时间卷积网络并行分支和一个注意力模块支路组成的一个模块,其中四个时间卷积网络分支采用不同感受野的卷积核,不同的感受野对应不同时长的特征;另外一个注意力模块支路使用了压缩和激励网络,支路由空间多尺度模块的输出经过全局平均池化后,通过全连接层,最后将Softmax函数输出的概率分别作用到四个时间卷积网络分支上,并将四个支路输出的特征图进行拼接,则拼接定义为:
其中x(h+1)为输入特征图即第h+1层的多尺度图卷积网络模块的输出,w(x(h+1))表示注意力模块的输出,且M表示时间卷积网络的总支路数,Convm(x(h +1))表示时间卷积网络的输出;最后经过1x1卷积、Batch Normalization批标准化层以及ReLU激活函数,得到多时长特征融合模块的输出;
S34:根据所述的多尺度图卷积网络模块和多时长特征模块组成多尺度时空图卷积网络模块,且在该模块中添加残差网络结构,经过若干个多尺度时空图卷积网络模块提取骨骼序列的时空特征信息,再通过全连接层,最后通过Softmax函数进行输出类别的概率分布计算,然后按概率大小进行分类。
可选的,所述S4具体为:
根据S31、S32、S33和S34构建的深度神经网络,利用训练集训练深度神经网络,通过反向传播算法不断优化神经网络的参数,使网络达到最优,实现端到端的训练。
可选的,所述S5具体为:
用训练好的人体行为识别模型对待识别的视频图像进行分类,输出分类结果。
本发明的有益效果在于:
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明一种多尺度时空图神经网络的人体行为识别方法的流程图;
图2为本发明一实施例的微软Kinect v2深度相机采集的人体关键点的示意图;
图3为本发明一实施例的多尺度图卷积模块图;
图4为本发明一实施例的多时长特征融合模块图;
图5为本发明一实施例的深度神经网络模型流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示,一种基于图神经网络的人体行为识别方法,包括以下步骤:
S1、提取人体骨骼序列并创建数据集。
首先使用深度相机录制各类动作的视频,可包括单人动作和双人交互动作,得到包含人体的关键关节点的特征信息的骨骼视频,并对视频中的动作类别进行标注,保证样例和标注一一对应,将标记后的数据按一定比例划分为训练集和测试集。介绍本发明验证算法的公共数据集NTU-RGB+D,该数据集包含60个种类的动作,共56880个样本,其中有40类为日常行为动作,9类为与健康相关的动作,11类为双人相互动作。该数据集由微软Kinectv2深度相机采集得到,并且使用了三个不同角度的摄像机,采集的数据形式包括深度信息、3D骨骼信息、RGB帧以及红外序列。本发明实施例中对NTU-RGB+D数据集在划分训练集和测试集采取两种不同的划分标准。第一种为交叉受试者(Cross Subject),按照人物ID来划分训练集和测试集,训练集40320个样本,测试集16560个样本,其中将人物ID为1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38的20人作为训练集,剩余的作为测试集;第二种为交叉视角(Cross View),按相机来划分训练集和测试集,相机1采集的样本作为测试集,相机2和3采集的样本作为训练集,样本数分别为18960和37920。数据集中人体骨骼关键点具体细节如图2所示。
S2、对数据集进行预处理。
本发明实例中采用的数据集进行预处理的步骤为将所述的数据集中的关节的特征信息中的坐标信息作为第一特征,骨骼的方向和长度信息作为第二特征。将所有关节特征信息中的坐标信息的平均坐标设为骨骼重心,根据重心和各关节点之间的距离远近,定义靠近人体骨骼重心的关节为源关节,远离重心的关节为目标关节,每段骨骼表示为一个从源关节指向目标关节的向量。由于骨骼的图结构没有环状,每段骨骼可以分配一个唯一指定的目标关节,故关节数比骨骼数多1个,在人体骨骼重心处添加一个零向量代表一段骨骼,使关节数与骨骼数相等。最后将骨骼序列的第一特征和第二特征的两个特征张量在张量的通道维度上进行拼接,其中通道为人体关节的特征维度,拼接后的张量作为模型的输入。
S3、创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型。
本发明实例中所采用的深度神经网络模型是以ST-GCN神经网络模型作为主干网络的基础结构,将ST-GCN中的图卷积网络变成多尺度图卷积网络模块,时间卷积网络变成多时长特征融合模块,由此网络来提取待识别骨骼序列的时空特征。具体细节参照图3多尺度图卷积模块和图4多时长特征融合模块。
本发明通过多尺度图卷积模块来提取人体骨骼序列的空间结构特征,该模块由四个并行的图卷积网络分支组成。根据数据集中骨骼帧给定的人体关节序列,可以构造人体关节连接关系图。其中,人体的关节对应图的节点,关节间的连通性对应图的边。因此将骨骼帧中的人体骨骼视为一个整体构造一个人体关节连接关系图G(x,A),其中x为N个关节的特征信息,A为一个N×N的骨骼关节点连接矩阵。四个并行的图卷积网络支路对应的人体关节连接关系图的骨骼关节点连接矩阵分别为邻接矩阵的1、2、3、4次幂,且分别表示为A1,A2,A3,A4。本实施例中将骨骼关节划分为3个子集合,子集合划分的根据为关节点及其相邻关节点距离骨骼重心距离的远近划分,3个子集具体为:(1)关节点本身;(2)比关节点更接近骨骼重心的相邻关节点;(3)关节点剩余的相邻关节点。本实施例中的人体关节连接关系图的骨骼关节点连接矩阵划分为3个子矩阵,分别对应骨骼关节划分的3个集合。各分支对人体关节连接关系图和人体关节的特征信息进行图卷积操作,其方法为:
对各支路人体关节连接关系图的骨骼关节点连接矩阵加上单位矩阵,并进行归一化操作,各支路的归一化操作定义为:
其中Ai表示人体关节连接关系图的骨骼关节点连接矩阵,I表示单位矩阵。假设网络模型已经由H层构成,则第h+1层各分支的输入为上一层的输出且对于每个归一化操作的矩阵加上一个偏置矩阵,则各分支的图卷积操作定义为:
其中M(h+1)∈RN×N表示偏置矩阵,M(h+1)初始化为全1的矩阵,W(h+1)∈RN×N表示权重矩阵,使用Kaiming初始化对W(h+1)进行初始化。定义第一层的输入最后将四个并行支路的输出特征图在通道维度上进行拼接,再经过一个1x1卷积、Batch Normalization批标准化层以及ReLU激活函数,得到第h+1层的多尺度图卷积网络模块的输出
多时长特征融合模块用来提取人体骨骼序列的时序特征,四个不同卷积核大小的时间卷积网络并行分支和一个注意力模块支路组成的一个模块,其中四个时间卷积网络分支不同感受野的卷积核的大小分别为3x1、5x1、7x1、9x1,不同的感受野对应不同时长的特征。另外一个注意力模块支路使用了压缩和激励网络(Squeeze-and-ExcitationNetworks),该支路由空间多尺度模块的输出经过全局平均池化后,通过全连接层,最后将Softmax函数输出的概率分别作用到四个时间卷积网络分支上,并将四个支路输出的特征图进行拼接,则拼接可以定义为:
其中x(h+1)为输入特征图即第h+1层的多尺度图卷积网络模块的输出,w(x(h+1))表示注意力模块的输出,且M表示时间卷积网络的总支路数,Convm(x(h +1))表示时间卷积网络的输出。最后经过1x1卷积、Batch Normalization批标准化层以及ReLU激活函数,得到多时长特征融合模块的输出。
由多尺度图卷积网络模块和多时长特征模块组成多尺度时空图卷积网络模块,且在该模块中添加残差网络结构,将该模块作为深度神经网络中的一层,本实施例中经过若9个多尺度时空图卷积网络模块提取骨骼序列的时空特征信息,通过全连接层后经过Softmax函数输出分类结果,并直接与分类标签进行有监督学习,总体的网络模型结果参考图5。
S4、使用创建好的数据集来训练和测试深度卷积神经网络模型;
本发明选择的深度神经网络的训练策略为:所述神经网络中代价函数的选择为交叉熵函数,激活函数使用非线性的Relu。同时在训练中加入了Batch Normalization批标准化层,通过规范化手段把每层神经网络任意神经元的输入值的分布拉回到均值为0方差为1的标准正态分布,避免训练过程中产生梯度消失问题,加快学习收敛速度和训练速度。所述神经网络的优化方法采用随机梯度下降SGD,采用的深度学习框架为Pytorch,通过训练不断降低目标函数的函数值来学习和确定深度神经网络的参数。
S5、利用训练好的模型对待识别的视频图像进行分类。
对输出结果进行评估。根据S1所述的数据集的两种不同的划分标准,本发明对两种不同划分标准交叉受试者(Cross Subiect)和交叉视角(Cross View)都以行为分类准确率作为选取的评价指标:
其中Ncurrent是该行为识别正确的样本总数,Ntotal是该行为样本总数。
本发明在NTU-RGB+D数据集上的实验情况如表1所示:
表1在NTU-RGB+D数据集实验结果准确率(%)对比表
模型指标 | Cross Subject | Cross View |
ST-GCN | 81.5 | 88.3 |
OURS | 87.0 | 94.2 |
与未改进的ST-GCN基线模型相比,本发明的各项指标都有了改好的提升,证明了:
采用多尺度图卷积模块和多时长特征融合模块能更好的获取骨骼序列的空间结构特征和时序特征,能较好的提升模型的整体性能。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (6)
1.一种基于多尺度时空图卷积神经网络的人体行为识别方法,其特征在于:该方法包括以下步骤:
S1:提取人体骨骼序列并创建数据集;
S2:对数据集进行预处理;
S3:创建包含多尺度图卷积模块、多时长特征融合模块的深度神经网络模型;
S4:使用创建好的数据集来训练和测试深度神经网络模型;
S5:利用训练好的模型对待识别的视频图像进行分类。
2.根据权利要求1所述的一种基于多尺度时空图卷积神经网络的人体行为识别方法,其特征在于:所述S1具体为:
首先使用深度相机录制各类动作的视频,包括单人动作和双人交互动作,得到包含人体的关键关节点的特征信息的骨骼视频,并对视频中的动作类别进行标注,保证样例和标注一一对应,将标记后的数据按一定比例划分为训练集和测试集。
3.根据权利要求2所述的一种基于多尺度时空图卷积神经网络的人体行为识别方法,其特征在于:所述S2具体为:
将数据集中的关节的特征信息中的坐标信息作为第一特征,骨骼的方向和长度信息作为第二特征;将所有关节特征信息中的坐标信息的平均坐标设为骨骼重心,根据重心和各关节点之间的距离远近,定义靠近人体骨骼重心的关节为源关节,远离重心的关节为目标关节,每段骨骼表示为一个从源关节指向目标关节的向量;给定源关节坐标V1=(x1,y1,z1)和目标关节坐标V2=(x2,y2,z2)的一段骨骼,则其矢量计算为:
由于骨骼的图结构没有环状,每段骨骼分配一个唯一指定的目标关节,故关节数比骨骼数多1个,在人体骨骼重心处添加一个零向量代表一段骨骼,使关节数与骨骼数相等;最后将骨骼序列的第一特征和第二特征的两个特征张量在张量的通道维度上进行拼接,其中通道为人体关节的特征维度,拼接后的张量作为模型的输入。
4.根据权利要求3所述的一种基于多尺度时空图卷积神经网络的人体行为识别方法,其特征在于:所述S3具体为:
S31:确定所述的深度神经网络模型,以ST-GCN神经网络模型作为主干网络的基础结构,将ST-GCN中的图卷积网络模块变成多尺度图卷积网络模块,由此模块来提取待识别人体骨骼的空间特征,时间卷积网络模块变成多时长特征融合模块,由此模块来提取待识别骨骼序列的时序特征;
S32:所述网络的多尺度图卷积网络模块由四个并行的图卷积网络分支组成;根据数据集中骨骼帧给定的人体关节序列,构造人体关节连接关系图;其中,人体的关节对应图的节点,关节间的连通性对应图的边;将骨骼帧中的人体骨骼视为一个整体构造一个人体关节连接关系图G(x,A),其中x为N个关节的特征信息,A为一个N×N的骨骼关节点连接矩阵;四个并行的图卷积网络支路对应的人体关节连接关系图的骨骼关节点连接矩阵分别为邻接矩阵的1、2、3、4次幂,且分别表示为A1,A2,A3,A4;各分支对人体关节连接关系图和人体关节的特征信息进行图卷积操作,方法为:
对各支路人体关节连接关系图的骨骼关节点连接矩阵加上单位矩阵,并进行归一化操作,各支路的归一化操作定义为:
其中Ai表示人体关节连接关系图的骨骼关节点连接矩阵,I表示单位矩阵;假设网络模型已经由H层构成,则第h+1层各分支的输入为上一层的输出且对于每个归一化操作的矩阵加上一个偏置矩阵,则各分支的图卷积操作定义为:
其中M(h+1)∈RN×N表示偏置矩阵,M(h+1)初始化为全1的矩阵,W(h+1)∈RN×N表示权重矩阵,使用Kaiming初始化对W(h+1)进行初始化;定义第一层的输入最后将四个并行支路的输出特征图在通道维度上进行拼接,再经过一个1x1卷积、Batch Normalization批标准化层以及ReLU激活函数,得到第h+1层的多尺度图卷积网络模块的输出
S33:网络的多时长特征融合模块为四个时间卷积网络并行分支和一个注意力模块支路组成的一个模块,其中四个时间卷积网络分支采用不同感受野的卷积核,不同的感受野对应不同时长的特征;另外一个注意力模块支路使用了压缩和激励网络,支路由空间多尺度模块的输出经过全局平均池化后,通过全连接层,最后将Softmax函数输出的概率分别作用到四个时间卷积网络分支上,并将四个支路输出的特征图进行拼接,则拼接定义为:
其中x(h+1)为输入特征图即第h+1层的多尺度图卷积网络模块的输出,w(x(h+1))表示注意力模块的输出,且M表示时间卷积网络的总支路数,Convm(x(h+1))表示时间卷积网络的输出;最后经过1x1卷积、Batch Normalization批标准化层以及ReLU激活函数,得到多时长特征融合模块的输出;
S34:根据所述的多尺度图卷积网络模块和多时长特征模块组成多尺度时空图卷积网络模块,且在该模块中添加残差网络结构,经过若干个多尺度时空图卷积网络模块提取骨骼序列的时空特征信息,再通过全连接层,最后通过Softmax函数进行输出类别的概率分布计算,然后按概率大小进行分类。
5.根据权利要求4所述的一种基于多尺度时空图卷积神经网络的人体行为识别方法,其特征在于:所述S4具体为:
根据S31、S32、S33和S34构建的深度神经网络,利用训练集训练深度神经网络,通过反向传播算法不断优化神经网络的参数,使网络达到最优,实现端到端的训练。
6.根据权利要求5所述的一种基于多尺度时空图卷积神经网络的人体行为识别方法,其特征在于:所述S5具体为:
用训练好的人体行为识别模型对待识别的视频图像进行分类,输出分类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111020275.8A CN113657349B (zh) | 2021-09-01 | 2021-09-01 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111020275.8A CN113657349B (zh) | 2021-09-01 | 2021-09-01 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657349A true CN113657349A (zh) | 2021-11-16 |
CN113657349B CN113657349B (zh) | 2023-09-15 |
Family
ID=78492572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111020275.8A Active CN113657349B (zh) | 2021-09-01 | 2021-09-01 | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657349B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114550308A (zh) * | 2022-04-22 | 2022-05-27 | 成都信息工程大学 | 基于时空图的人体骨骼动作识别方法 |
CN114582030A (zh) * | 2022-05-06 | 2022-06-03 | 湖北工业大学 | 一种基于服务机器人的行为识别方法 |
CN114724254A (zh) * | 2022-05-16 | 2022-07-08 | 北京百度网讯科技有限公司 | 确定动作类别的方法、装置、设备、存储介质及程序产品 |
CN114821799A (zh) * | 2022-05-10 | 2022-07-29 | 清华大学 | 基于时空图卷积网络的动作识别方法、装置和设备 |
CN114821640A (zh) * | 2022-04-12 | 2022-07-29 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
CN114863556A (zh) * | 2022-04-13 | 2022-08-05 | 上海大学 | 一种基于骨骼姿态的多神经网络融合连续动作识别方法 |
CN114863325A (zh) * | 2022-04-19 | 2022-08-05 | 上海人工智能创新中心 | 动作识别方法、装置、设备和计算机可读存储介质 |
CN115719518A (zh) * | 2023-01-10 | 2023-02-28 | 浙江壹体科技有限公司 | 一种基于嵌入式平台的行为识别方法、系统、设备及介质 |
CN116473514A (zh) * | 2023-03-29 | 2023-07-25 | 西安电子科技大学广州研究院 | 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测 |
CN116665308A (zh) * | 2023-06-21 | 2023-08-29 | 石家庄铁道大学 | 双人交互时空特征提取方法 |
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363140A (zh) * | 2019-07-15 | 2019-10-22 | 成都理工大学 | 一种基于红外图像的人体动作实时识别方法 |
CN111160277A (zh) * | 2019-12-31 | 2020-05-15 | 深圳中兴网信科技有限公司 | 行为识别分析方法和系统、计算机可读存储介质 |
WO2021129064A1 (zh) * | 2019-12-24 | 2021-07-01 | 腾讯科技(深圳)有限公司 | 姿态获取方法、关键点坐标定位模型的训练方法和装置 |
CN113221663A (zh) * | 2021-04-16 | 2021-08-06 | 南京邮电大学 | 一种实时手语智能识别方法、装置及系统 |
-
2021
- 2021-09-01 CN CN202111020275.8A patent/CN113657349B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110363140A (zh) * | 2019-07-15 | 2019-10-22 | 成都理工大学 | 一种基于红外图像的人体动作实时识别方法 |
WO2021129064A1 (zh) * | 2019-12-24 | 2021-07-01 | 腾讯科技(深圳)有限公司 | 姿态获取方法、关键点坐标定位模型的训练方法和装置 |
CN111160277A (zh) * | 2019-12-31 | 2020-05-15 | 深圳中兴网信科技有限公司 | 行为识别分析方法和系统、计算机可读存储介质 |
CN113221663A (zh) * | 2021-04-16 | 2021-08-06 | 南京邮电大学 | 一种实时手语智能识别方法、装置及系统 |
Non-Patent Citations (2)
Title |
---|
HAILUN XIA: "Multi-Scale Mixed Dense Graph Convolution Network for Skeleton-Based Action Recognition", 《 IEEE ACCESS》 * |
王鑫: "基于深度学习的视频异常行为事件检测方法研究", 《硕士电子期刊出版》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821640B (zh) * | 2022-04-12 | 2023-07-18 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
CN114821640A (zh) * | 2022-04-12 | 2022-07-29 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
CN114863556A (zh) * | 2022-04-13 | 2022-08-05 | 上海大学 | 一种基于骨骼姿态的多神经网络融合连续动作识别方法 |
CN114863325A (zh) * | 2022-04-19 | 2022-08-05 | 上海人工智能创新中心 | 动作识别方法、装置、设备和计算机可读存储介质 |
CN114863325B (zh) * | 2022-04-19 | 2024-06-07 | 上海人工智能创新中心 | 动作识别方法、装置、设备和计算机可读存储介质 |
CN114550308B (zh) * | 2022-04-22 | 2022-07-05 | 成都信息工程大学 | 基于时空图的人体骨骼动作识别方法 |
CN114550308A (zh) * | 2022-04-22 | 2022-05-27 | 成都信息工程大学 | 基于时空图的人体骨骼动作识别方法 |
CN114582030A (zh) * | 2022-05-06 | 2022-06-03 | 湖北工业大学 | 一种基于服务机器人的行为识别方法 |
CN114582030B (zh) * | 2022-05-06 | 2022-07-22 | 湖北工业大学 | 一种基于服务机器人的行为识别方法 |
CN114821799A (zh) * | 2022-05-10 | 2022-07-29 | 清华大学 | 基于时空图卷积网络的动作识别方法、装置和设备 |
CN114724254A (zh) * | 2022-05-16 | 2022-07-08 | 北京百度网讯科技有限公司 | 确定动作类别的方法、装置、设备、存储介质及程序产品 |
CN114724254B (zh) * | 2022-05-16 | 2022-12-30 | 北京百度网讯科技有限公司 | 确定动作类别的方法、装置、设备、存储介质 |
CN115719518A (zh) * | 2023-01-10 | 2023-02-28 | 浙江壹体科技有限公司 | 一种基于嵌入式平台的行为识别方法、系统、设备及介质 |
CN115719518B (zh) * | 2023-01-10 | 2023-06-20 | 浙江壹体科技有限公司 | 一种基于嵌入式平台的行为识别方法、系统、设备及介质 |
CN116473514A (zh) * | 2023-03-29 | 2023-07-25 | 西安电子科技大学广州研究院 | 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测 |
CN116473514B (zh) * | 2023-03-29 | 2024-02-23 | 西安电子科技大学广州研究院 | 基于足底压力的自适应有向时空图神经网络的帕金森疾病检测方法 |
CN116665308A (zh) * | 2023-06-21 | 2023-08-29 | 石家庄铁道大学 | 双人交互时空特征提取方法 |
CN116665308B (zh) * | 2023-06-21 | 2024-01-23 | 石家庄铁道大学 | 双人交互时空特征提取方法 |
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116665312B (zh) * | 2023-08-02 | 2023-10-31 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113657349B (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657349B (zh) | 一种基于多尺度时空图卷积神经网络的人体行为识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN106920243A (zh) | 改进的全卷积神经网络的陶瓷材质件序列图像分割方法 | |
CN107145836B (zh) | 基于栈式边界辨别自编码器的高光谱图像分类方法 | |
CN104462494B (zh) | 一种基于无监督特征学习的遥感图像检索方法及系统 | |
CN104408469A (zh) | 基于图像深度学习的烟火识别方法及系统 | |
CN105678284A (zh) | 一种固定位人体行为分析方法 | |
CN111476806B (zh) | 图像处理方法、装置、计算机设备和存储介质 | |
CN104298974A (zh) | 一种基于深度视频序列的人体行为识别方法 | |
CN112949740B (zh) | 一种基于多级度量的小样本图像分类方法 | |
CN112489119B (zh) | 一种增强可靠性的单目视觉定位方法 | |
CN107992850A (zh) | 一种室外场景三维彩色点云分类方法 | |
CN113988147B (zh) | 基于图网络的遥感图像场景多标签分类方法及装置、多标签检索方法及装置 | |
CN113435520A (zh) | 神经网络的训练方法、装置、设备及计算机可读存储介质 | |
CN115311186B (zh) | 一种红外与可见光图像跨尺度注意力对抗融合方法及终端 | |
CN113269224A (zh) | 一种场景图像分类方法、系统及存储介质 | |
CN109919246A (zh) | 基于自适应特征聚类和多重损失融合的行人重识别方法 | |
CN109740539A (zh) | 基于超限学习机和融合卷积网络的3d物体识别方法 | |
CN111739037B (zh) | 一种针对室内场景rgb-d图像的语义分割方法 | |
CN115966010A (zh) | 一种基于注意力和多尺度特征融合的表情识别方法 | |
CN113743417A (zh) | 语义分割方法和语义分割装置 | |
CN116524189A (zh) | 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法 | |
Sjahputera et al. | Clustering of detected changes in high-resolution satellite imagery using a stabilized competitive agglomeration algorithm | |
CN109583406B (zh) | 基于特征关注机制的人脸表情识别方法 | |
CN113011506B (zh) | 一种基于深度重分形频谱网络的纹理图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |