CN114821640A - 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 - Google Patents

基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 Download PDF

Info

Publication number
CN114821640A
CN114821640A CN202210381360.5A CN202210381360A CN114821640A CN 114821640 A CN114821640 A CN 114821640A CN 202210381360 A CN202210381360 A CN 202210381360A CN 114821640 A CN114821640 A CN 114821640A
Authority
CN
China
Prior art keywords
skeleton
frame
bone
joint
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210381360.5A
Other languages
English (en)
Other versions
CN114821640B (zh
Inventor
张海平
刘旭
马琮皓
胡泽鹏
管力明
施月玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
School of Information Engineering of Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
School of Information Engineering of Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University, School of Information Engineering of Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210381360.5A priority Critical patent/CN114821640B/zh
Publication of CN114821640A publication Critical patent/CN114821640A/zh
Application granted granted Critical
Publication of CN114821640B publication Critical patent/CN114821640B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,包括:获取人体行为视频并预处理;从预处理后的视频中提取每帧图像的人体骨架数据形成骨架序列;填充骨架序列形成新的骨架序列;基于新的骨架序列获取每帧图像的二阶信息数据;基于二阶信息数据的类别和新的骨架序列分别对应建立训练集和标签;建立膨胀时空图卷积网络模型;将各类训练集和标签输入膨胀时空图卷积网络模型进行训练;将待识别的视频建立训练集后输入预训练好的模型,获取的融合结果即为最终预测结果。该方法可更好地获取网络不同层的语义信息,并在不增加计算量的情况下结合数量更多、特征更明显的关节数据实现人体行为预测,大大提高人体行为的预测精确度。

Description

基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
技术领域
本发明属于计算机视觉和深度学习领域,具体涉及基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法。
背景技术
行为识别技术广泛应用在智能监控、虚拟现实、人机交互、公共安全、医疗健康等众多领域,具有十分优秀的应用前景,为计算机视觉等领域的重要研究课题。人体行为识别的目的简单来说就是根据输入数据来自动判断有什么人在什么样的场景中做了怎样的事情。识别系统的一般处理流程是:通过分析处理输入数据,提取数据特征,将聚合的特征作为一种特定模式,根据这种模式来对应某类人体行为活动。对人体行为的识别不同于姿态估计,单纯一张图片并不能判断出人体活动的类型,因为,行为是个持续性的动作。例如,一张“抬着腿”的图片,并不知道图片中的人下一步是要将腿放下还是继续抬起,必须通过追踪数据中长期的动态信息才能感知到不同行为的运动特征。
骨架数据是包含多个人体骨骼关节的二维或者三维坐标位置的时间序列,可以利用传感器设备直接采集或者使用姿态估计方法从图像中提取出来。相比于传统的RGB视频识别方法,基于骨架数据的动作识别能很好地减少识别过程中光照变化、环境背景、遮挡等干扰因素的影响,对动态环境和复杂背景具有较强的适应性。
目前,将人体骨架数据拓扑为时空图,并利用图卷积网络(GCNs)进行处理被证实有着良好的识别效果。然而,目前的主流基于GCN的模型还存在如下不足:(1)接收域(尤其是在时间图上)不灵活。神经网络模型是多层的,不同的层次存在着不同的语义信息,为了更好地提取信息感受野必须是要灵活多变的;(2)特征提取能力有限。一般来说,结合数量越多或者特征更明显的关节点数据,行为特征信息也就越复杂,越利于行为预测,通常采用更大的卷积核或者加大网络深度的方法,但这些都会带来更大的计算量;(3)多流融合特定行为模式的方法简单。目前,经典的多流框架模型通常直接将各流的softmax分数相加获得最终的预测结果,但实际上各个流的预测效果是有明显差异的,单纯的分数相加难以获得精确的预测结果。
发明内容
本发明的目的在于针对上述问题,提出一种基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,可更好地获取网络不同层的语义信息,并在不增加计算量的情况下结合数量更多、特征更明显的关节数据实现人体行为预测,大大提高人体行为的预测精确度。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,包括如下步骤:
S1、获取人体行为视频并进行预处理;
S2、从预处理后的人体行为视频中提取每帧图像的人体骨架数据,人体骨架数据包括各关节对应的元组(X,Y,Z),所有图像的人体骨架数据按照时间排序形成骨架序列
Figure BDA0003591945130000021
其中,X为对应关节的X坐标值,Y为对应关节的Y坐标值,Z为对应关节的置信度或Z坐标值,v为关节向量,C为坐标维度,T为时间,N为关节点数;
S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V’,新的骨架序列V’具有连续的预设帧数的人体骨架数据;
S4、基于新的骨架序列V’获取每帧图像的二阶信息数据,二阶信息数据包括eti、ati、mjoint,tj、mbone,ti、mjoint2,tj和mbone2,ti,计算公式如下:
eti=vti′-vti
Figure BDA0003591945130000022
mjoint,tj=v(t+1)j-vtj
mbone,ti=e(t+1)i-eti
mjoint2,tj=v(t+2)j-vtj
mbone2,ti=e(t+2)i-eti
其中,eti为第t帧第i个骨骼的骨骼向量,vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标,vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标,atic为第t帧第i个骨骼的骨骼向量在c方向分量上的角度,c∈{x,y,z},ati=(atix,atiy,atiz),etic为第t帧第i个骨骼的骨骼向量在c方向分量的值,etix为第t帧第i个骨骼的骨骼向量在x方向分量的值,etiy为第t帧第i个骨骼的骨骼向量在y方向分量的值,etiz为第t帧第i个骨骼的骨骼向量在z方向分量的值,mjoint,tj为第j个关节在第t+1帧和第t帧的向量差,mbone,ti为第i个骨骼在第t+1帧和第t帧的向量差,mjoint2,tj为第j个关节在第t+2帧和第t帧的向量差,mbone2,ti为第i个骨骼在第t+2帧和第t帧的向量差,vtj为第t帧第j个关节的坐标,v(t+1)j为第t+1帧第j个关节的坐标,v(t+2)j为第t+2帧第j个关节的坐标,e(t+1)i为第t+1帧第i个骨骼的骨骼向量,e(t+2)i为第t+2帧第i个骨骼的骨骼向量;
S5、基于获取的
Figure BDA0003591945130000031
Figure BDA0003591945130000032
Figure BDA0003591945130000033
和新的骨架序列V’七类数据分别对应建立七类训练集和标签,其中,e为每个骨骼的骨骼向量,a为每个骨骼的骨骼向量在x,y,z方向分量上的角度,mjoint为每个关节在相邻帧图像的向量差,mjoint2为每个关节在间隔一帧图像的向量差,mbone为每个骨骼在相邻帧图像的向量差,mbone2为每个骨骼在间隔一帧图像的向量差;
S6、建立膨胀时空图卷积网络模型,膨胀时空图卷积网络模型包括七个第一图卷积网络和一个多分支特征融合单元,第一图卷积网络包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层、Dropout层和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块,各层特征提取模块包括依次连接的自适应空间域图卷积单元、注意力单元和时间域图卷积单元,膨胀时空图卷积网络模型还执行如下操作;
S61、利用各第一图卷积网络获取对应的初始预测结果和softmax分数;
S62、利用多分支特征融合单元计算各第一图卷积网络输出的初始预测结果的权重系数αs,公式如下:
Figure BDA0003591945130000041
Figure BDA0003591945130000042
其中,
Figure BDA0003591945130000043
表示每流初始预测结果组成的数组,每流初始预测结果的取值范围为0~1,Acu[n]表示第n流识别准确度,Acu[s]表示第s流识别准确度,γ为0.001;
S63、将各softmax分数进行加权融合获取融合结果Result,计算公式如下:
Figure BDA0003591945130000044
其中,rs为第s流的softmax分数;
S7、将各类训练集和标签一一对应输入膨胀时空图卷积网络模型的第一图卷积网络进行训练,获取预训练好的膨胀时空图卷积网络模型;
S8、将待识别的人体行为视频建立七类训练集后输入预训练好的膨胀时空图卷积网络模型,获取的融合结果Result即为最终预测结果。
优选地,步骤S1中,预处理为将人体行为视频的分辨率调整为340×256,帧率转换为30FPS。
优选地,步骤S2中,人体骨架数据基于Openpose姿态估计工具箱提取。
优选地,步骤S3中,预设帧数为300帧。
优选地,时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、Concat函数和第二特征提取单元,第一残差模块和第一特征提取单元的输入端与注意力单元连接,第一残差模块的输出端与第二特征提取单元连接,第二特征提取单元用于执行相加操作,第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元,第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷积层和第二BN层,第二分支单元包括依次连接的第二瓶颈层、最大池化层和第三BN层,第三分支单元包括依次连接的第二卷积层和第四BN层。
优选地,各瓶颈层包括依次连接的第三卷积层、第六BN层和Relu函数,第一残差模块包括依次连接的第四卷积层和第七BN层。
优选地,特征提取模块还包括第二残差模块、第一激活函数、第二激活函数、第三激活函数、第五BN层和第三特征提取单元,自适应空间域图卷积单元、第一激活函数、注意力单元、时间域图卷积单元、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第三特征提取单元连接,第三特征提取单元用于执行相加操作。
优选地,自适应空间域图卷积单元满足如下公式:
Figure BDA0003591945130000051
其中,fin为自适应空间域图卷积单元的输入,fout为自适应空间域图卷积单元的输出,k=0,1,…,K,K为空间维度的核心大小,Wk为1×1卷积操作的权重向量,Bk为针对多尺度图卷积模块各层的数据驱动的可学习邻接矩阵,Ck为针对每个样本的邻接矩阵,β为自适应系数。
与现有技术相比,本发明的有益效果为:该方法采用多流多尺度的膨胀时空图卷积网络模型将获取的人体行为信息(包括静态信息和运动信息)结合实现准确预测,通过时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系,通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据,更好地获取网络不同层的语义信息,采用瓶颈层降维可以有效减少模型的计算量,并使用残差连接增强模型的稳定性;通过结合特征更加突出的骨架数据的高阶信息建立多流框架,多流之间结果相互补充,同时使用新的加权方式将各流的softmax分数进行加权融合,有效提高人体行为的最终预测精确度。
附图说明
图1为本发明基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法的流程图;
图2为本发明膨胀时空图卷积网络模型的结构示意图;
图3为本发明第一图卷积网络的结构示意图;
图4为本发明特征提取模块的结构示意图;
图5为本发明时间域图卷积单元的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-5所示,基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,包括如下步骤:
S1、获取人体行为视频并进行预处理。
在一实施例中,步骤S1中,预处理为将人体行为视频的分辨率调整为340×256,帧率转换为30FPS。
其中,人体行为视频为使用摄像头拍摄的RGB视频,为便于后续处理,将人体行为视频进行分辨率调整和帧率转换操作。
S2、从预处理后的人体行为视频中提取每帧图像的人体骨架数据,人体骨架数据包括各关节对应的元组(X,Y,Z),所有图像的人体骨架数据按照时间排序形成骨架序列
Figure BDA0003591945130000061
其中,X为对应关节的X坐标值,Y为对应关节的Y坐标值,Z为对应关节的置信度或Z坐标值,v为关节向量,C为坐标维度,T为时间,N为关节点数。
在一实施例中,步骤S2中,人体骨架数据基于Openpose姿态估计工具箱提取。
其中,人体骨架数据可由Openpose姿态估计工具箱提取,或由深度传感器直接获得,当由Openpose姿态估计工具箱提取时,各关节对应的元组(X,Y,Z)为2D坐标(X,Y)和置信度Z;当由深度传感器直接获得时,各关节对应的元组(X,Y,Z)为3D坐标。本实施例中,基于Openpose姿态估计工具箱提取,在每帧图像中,每一个人体骨架都有18个关节,每个关节都有2D坐标(X,Y)和置信度Z。因此,用(X,Y,Z)元组来表示每个关节,一个骨架被记录为18元组的数组。一个剪辑视频就转化为这些元组的骨架序列。需要说明的是,Openpose姿态估计工具箱还可替换为现有技术中的其他姿态估计工具。
S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V’,新的骨架序列V’具有连续的预设帧数的人体骨架数据。
在一实施例中,步骤S3中,预设帧数为300帧。
为便于准确识别人体行为,通过从开始重放序列来填充每个剪辑视频到预设帧数为300帧。
S4、基于新的骨架序列V’获取每帧图像的二阶信息数据,二阶信息数据包括eti、ati、mjoint,tj、mbone,ti、mjoint2,tj和mbone2,ti,计算公式如下:
eti=vti′-vti
Figure BDA0003591945130000071
mjoint,tj=v(t+1)j-vtj
mbone,ti=e(t+1)i-eti
mjoint2,tj=v(t+2)j-vtj
mbone2,ti=e(t+2)i-eti
其中,eti为第t帧第i个骨骼的骨骼向量,vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标,vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标,atic为第t帧第i个骨骼的骨骼向量在c方向分量上的角度,c∈{x,y,z},ati=(atix,atiy,atiz),etic为第t帧第i个骨骼的骨骼向量在c方向分量的值,etix为第t帧第i个骨骼的骨骼向量在x方向分量的值,etiy为第t帧第i个骨骼的骨骼向量在y方向分量的值,etiz为第t帧第i个骨骼的骨骼向量在z方向分量的值,mjoint,tj为第j个关节在第t+1帧和第t帧的向量差,mbone,ti为第i个骨骼在第t+1帧和第t帧的向量差,mjoint2,tj为第j个关节在第t+2帧和第t帧的向量差,mbone2,ti为第i个骨骼在第t+2帧和第t帧的向量差,vtj为第t帧第j个关节的坐标,v(t+1)j为第t+1帧第j个关节的坐标,v(t+2)j为第t+2帧第j个关节的坐标,e(t+1)i为第t+1帧第i个骨骼的骨骼向量,e(t+2)i为第t+2帧第i个骨骼的骨骼向量。
其中,从新的骨架序列V’中提取出具有高阶信息的二次数据(二阶信息数据)。每一个骨骼可以表示为从其源关节指向其目标关节的向量,当然,这些骨骼向量都是符合人体自然骨架连接的。处理出来的骨骼数据包含着二阶信息,如骨骼的方向和长度。除了静态信息骨骼向量和角度,运动信息也极为重要,通过计算两个连续帧和相隔一帧的同一个关节或骨骼的差异,便于获得更加准确的识别结果。
S5、基于获取的
Figure BDA0003591945130000081
Figure BDA0003591945130000082
Figure BDA0003591945130000083
和新的骨架序列V’七类数据分别对应建立七类训练集和标签,其中,e为每个骨骼的骨骼向量,a为每个骨骼的骨骼向量在x,y,z方向分量上的角度,mjoint为每个关节在相邻帧图像的向量差,mjoint2为每个关节在间隔一帧图像的向量差,mbone为每个骨骼在相邻帧图像的向量差,mbone2为每个骨骼在间隔一帧图像的向量差。
其中,将300帧图像对应的七类数据(包括E、A、Mjoint、Mjoint2、Mbone、Mbone2和V’),分别建立训练集和标签。容易理解的是,根据时间T和关节点数N,e、a、mjoint、mjoint2、mbone、mbone2依次对应eti、ati、mjoint,tj、mjoint2,tj、mbone,ti和mbone2,ti
S6、建立膨胀时空图卷积网络模型,膨胀时空图卷积网络模型包括七个第一图卷积网络和一个多分支特征融合单元,第一图卷积网络包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层、Dropout层和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块,各层特征提取模块包括依次连接的自适应空间域图卷积单元、注意力单元和时间域图卷积单元,膨胀时空图卷积网络模型还执行如下操作;
S61、利用各第一图卷积网络获取对应的初始预测结果和softmax分数;
S62、利用多分支特征融合单元计算各第一图卷积网络输出的初始预测结果的权重系数αs,公式如下:
Figure BDA0003591945130000091
Figure BDA0003591945130000092
其中,
Figure BDA0003591945130000093
表示每流初始预测结果组成的数组,每流初始预测结果的取值范围为0~1,Acu[n]表示第n流识别准确度,Acu[s]表示第s流识别准确度,γ为0.001;
S63、将各softmax分数进行加权融合获取融合结果Result,计算公式如下:
Figure BDA0003591945130000094
其中,rs为第s流的softmax分数。
在一实施例中,特征提取模块还包括第二残差模块、第一激活函数、第二激活函数、第三激活函数、第五BN层和第三特征提取单元,自适应空间域图卷积单元、第一激活函数、注意力单元、时间域图卷积单元、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第三特征提取单元连接,第三特征提取单元用于执行相加操作。
在一实施例中,自适应空间域图卷积单元满足如下公式:
Figure BDA0003591945130000095
其中,fin为自适应空间域图卷积单元的输入,fout为自适应空间域图卷积单元的输出,k=0,1,…,K,K为空间维度的核心大小,Wk为1×1卷积操作的权重向量,Bk为针对多尺度图卷积模块各层的数据驱动的可学习邻接矩阵,Ck为针对每个样本的邻接矩阵,β为自适应系数。
在一实施例中,时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、Concat函数和第二特征提取单元,第一残差模块和第一特征提取单元的输入端与注意力单元连接,第一残差模块的输出端与第二特征提取单元连接,第二特征提取单元用于执行相加操作,第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元,第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷积层和第二BN层,第二分支单元包括依次连接的第二瓶颈层、最大池化层和第三BN层,第三分支单元包括依次连接的第二卷积层和第四BN层。
在一实施例中,各瓶颈层包括依次连接的第三卷积层、第六BN层和Relu函数,第一残差模块包括依次连接的第四卷积层和第七BN层。
其中,膨胀时空图卷积网络模型如图2所示,包括七个第一图卷积网络(分别对应J-Stream、B-Stream、J-M-Stream、B-M-Stream、J-M2-Stream、B-M2-Stream、A-Stream)和多分支特征融合单元(Multi-branch Feature Fusion),Skeleton Data即为划分训练集后的骨架数据。第一图卷积网络如图3所示,包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层(GAP)、Dropout层和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块(分别为L1-L10)。每个第一图卷积网络处理一类数据,得到对应的初始预测结果和softmax分数。
特征提取模块如图4所示,包括第二残差模块(Residual connection)和依次连接的自适应空间域图卷积单元(Convs)、第一激活函数、注意力单元(STC)、时间域图卷积单元(Convt)、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第三特征提取单元连接,第三特征提取单元用于执行相加操作,第一激活函数、第二激活函数和第三激活函数均为Relu函数。
自适应空间域图卷积单元(Convs)构建过程为:根据输入的特征图得到邻接矩阵Bk和Ck,利用自适应系数β对Ck加权后再与Bk相加,然后与输入的特征图相乘,叠加通道后经过1×1空间域图卷积得到输出特征图,公式表示如下:
Figure BDA0003591945130000111
其中,Bk以符合人体骨架自然连接的邻接矩阵初始化,可以学习完全针对识别任务的图,并针对不同层中包含的不同信息更加个性化,Ck通过相似函数判断两个顶点是否连通以及连接强度,为每个样本学习一个唯一的图,β为随着训练迭代更新的自适应系数。
注意力单元(STC)构建过程为:将输入分别经过空间注意力模块、时间注意力模块和通道注意力模块,每一个模块都将输入进行平均池化后得到的相应维度的注意力矩阵,然后与输入进行对应元素相乘相加得到输出。需要说明的是,自适应空间域图卷积单元和注意力单元为本领域技术人员熟知技术,在此不再赘述。
时间域图卷积单元(Convt)构建过程为:如图5所示,第一残差模块表示为Residual,各瓶颈层表示为Bottleneck,将输入降维分为8个分支单元分别处理,各第一分支单元分别使用7×1和9×1的卷积核并结合1、2、3三种不同的膨胀率(dilation)组成6种膨胀卷积分支,第二分支单元使用最大池化层处理,8个分支单元的输出按通道维度合并再与残差模块输出相加从而得到最终输出。时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系,通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据,更好地获取网络不同层的语义信息,采用瓶颈层降维可以有效减少模型的计算量,并使用残差连接进一步增强模型的稳定性。
多分支特征融合单元(Multi-branch Feature Fusion)构建过程为:将各第一图卷积网络输出的初始预测结果与初始预测结果中的最小值计算差值,获取每一个差值在差值和的比例,该比例即为输出的权重系数。
S7、将各类训练集和标签一一对应输入膨胀时空图卷积网络模型的第一图卷积网络进行训练,获取预训练好的膨胀时空图卷积网络模型。
其中,将七类数据的训练集和标签输入膨胀时空图卷积网络模型的第一图卷积网络进行训练,迭代一定次数后得到预训练好的膨胀时空图卷积网络模型。在本实施例中训练参数如下:初始学习率设置为0.05,权重衰减设置为0.0001,采用Nesterov动量为0.9的随机梯度下降(SGD)来调整参数,最大训练次数设置为65次,在第45和第55次训练阶段将学习率除以10。对模型进行训练为本领域技术人员熟知技术,在此不再赘述。
S8、将待识别的人体行为视频建立七类训练集后输入预训练好的膨胀时空图卷积网络模型,获取的融合结果Result即为最终预测结果。
其中,将待识别的人体行为视频采用步骤S1~S5建立七类训练集后,输入到预训练好的膨胀时空图卷积网络模型,即可获得待识别的人体行为视频的最终预测结果。
该方法采用多流多尺度的膨胀时空图卷积网络模型将获取的人体行为信息(包括静态信息和运动信息)结合实现准确预测,通过时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系,通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据,更好地获取网络不同层的语义信息,采用瓶颈层降维可以有效减少模型的计算量,并使用残差连接增强模型的稳定性;通过结合特征更加突出的骨架数据的高阶信息建立多流框架,多流之间结果相互补充,同时使用新的加权方式将各流的softmax分数进行加权融合,有效提高人体行为的最终预测精确度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:所述基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法包括如下步骤:
S1、获取人体行为视频并进行预处理;
S2、从预处理后的人体行为视频中提取每帧图像的人体骨架数据,所述人体骨架数据包括各关节对应的元组(X,Y,Z),所有图像的人体骨架数据按照时间排序形成骨架序列
Figure FDA0003591945120000011
其中,X为对应关节的X坐标值,Y为对应关节的Y坐标值,Z为对应关节的置信度或Z坐标值,v为关节向量,C为坐标维度,T为时间,N为关节点数;
S3、将在先获得的人体骨架数据填充至骨架序列V形成新的骨架序列V’,所述新的骨架序列V’具有连续的预设帧数的人体骨架数据;
S4、基于新的骨架序列V’获取每帧图像的二阶信息数据,所述二阶信息数据包括eti、ati、mjoint,tj、mbone,ti、mjoint2,tj和mbone2,ti,计算公式如下:
eti=vti′-vti
Figure FDA0003591945120000012
mjoint,tj=v(t+1)j-vtj
mbone,ti=e(t+1)i-eti
mjoint2,tj=v(t+2)j-vtj
mbone2,ti=e(t+2)i-eti
其中,eti为第t帧第i个骨骼的骨骼向量,vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标,vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标,atic为第t帧第i个骨骼的骨骼向量在c方向分量上的角度,c∈{x,y,z},ati=(atix,atiy,atiz),etic为第t帧第i个骨骼的骨骼向量在c方向分量的值,etix为第t帧第i个骨骼的骨骼向量在x方向分量的值,etiy为第t帧第i个骨骼的骨骼向量在y方向分量的值,etiz为第t帧第i个骨骼的骨骼向量在z方向分量的值,mjoint,tj为第j个关节在第t+1帧和第t帧的向量差,mbone,ti为第i个骨骼在第t+1帧和第t帧的向量差,mjoint2,tj为第j个关节在第t+2帧和第t帧的向量差,mbone2,ti为第i个骨骼在第t+2帧和第t帧的向量差,vtj为第t帧第j个关节的坐标,v(t+1)j为第t+1帧第j个关节的坐标,v(t+2)j为第t+2帧第j个关节的坐标,e(t+1)i为第t+1帧第i个骨骼的骨骼向量,e(t+2)i为第t+2帧第i个骨骼的骨骼向量;
S5、基于获取的
Figure FDA0003591945120000021
Figure FDA0003591945120000022
Figure FDA0003591945120000023
和新的骨架序列V’七类数据分别对应建立七类训练集和标签,其中,e为每个骨骼的骨骼向量,a为每个骨骼的骨骼向量在x,y,z方向分量上的角度,mjoint为每个关节在相邻帧图像的向量差,mjoint2为每个关节在间隔一帧图像的向量差,mbone为每个骨骼在相邻帧图像的向量差,mbone2为每个骨骼在间隔一帧图像的向量差;
S6、建立膨胀时空图卷积网络模型,所述膨胀时空图卷积网络模型包括七个第一图卷积网络和一个多分支特征融合单元,所述第一图卷积网络包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层、Dropout层和softmax分类器,所述多尺度图卷积模块包括输出通道依次为64、64、64、64、128、128、128、256、256、256的十层特征提取模块,各层所述特征提取模块包括依次连接的自适应空间域图卷积单元、注意力单元和时间域图卷积单元,所述膨胀时空图卷积网络模型还执行如下操作;
S61、利用各所述第一图卷积网络获取对应的初始预测结果和softmax分数;
S62、利用所述多分支特征融合单元计算各所述第一图卷积网络输出的初始预测结果的权重系数αs,公式如下:
Figure FDA0003591945120000024
Figure FDA0003591945120000025
其中,
Figure FDA0003591945120000026
表示每流初始预测结果组成的数组,每流初始预测结果的取值范围为0~1,Acu[n]表示第n流识别准确度,Acu[s]表示第s流识别准确度,γ为0.001;
S63、将各softmax分数进行加权融合获取融合结果Result,计算公式如下:
Figure FDA0003591945120000031
其中,rs为第s流的softmax分数;
S7、将各类所述训练集和标签一一对应输入所述膨胀时空图卷积网络模型的第一图卷积网络进行训练,获取预训练好的膨胀时空图卷积网络模型;
S8、将待识别的人体行为视频建立七类训练集后输入预训练好的膨胀时空图卷积网络模型,获取的融合结果Result即为最终预测结果。
2.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:步骤S1中,所述预处理为将人体行为视频的分辨率调整为340×256,帧率转换为30FPS。
3.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:步骤S2中,所述人体骨架数据基于Openpose姿态估计工具箱提取。
4.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:步骤S3中,所述预设帧数为300帧。
5.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:所述时间域图卷积单元包括第一残差模块和依次连接的第一特征提取单元、Concat函数和第二特征提取单元,所述第一残差模块和第一特征提取单元的输入端与注意力单元连接,所述第一残差模块的输出端与第二特征提取单元连接,所述第二特征提取单元用于执行相加操作,所述第一特征提取单元包括并行的六个第一分支单元、一个第二分支单元和一个第三分支单元,所述第一分支单元包括依次连接的第一瓶颈层、第一膨胀卷积层和第二BN层,所述第二分支单元包括依次连接的第二瓶颈层、最大池化层和第三BN层,所述第三分支单元包括依次连接的第二卷积层和第四BN层。
6.如权利要求5所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:各所述瓶颈层包括依次连接的第三卷积层、第六BN层和Relu函数,所述第一残差模块包括依次连接的第四卷积层和第七BN层。
7.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:所述特征提取模块还包括第二残差模块、第一激活函数、第二激活函数、第三激活函数、第五BN层和第三特征提取单元,所述自适应空间域图卷积单元、第一激活函数、注意力单元、时间域图卷积单元、第五BN层、第二激活函数、第三特征提取单元和第三激活函数依次连接,所述第二残差模块的输入端与所述自适应空间域图卷积单元的输入端连接,输出端与所述第三特征提取单元连接,所述第三特征提取单元用于执行相加操作。
8.如权利要求1所述的基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法,其特征在于:所述自适应空间域图卷积单元满足如下公式:
Figure FDA0003591945120000041
其中,fin为自适应空间域图卷积单元的输入,fout为自适应空间域图卷积单元的输出,k=0,1,…,K,K为空间维度的核心大小,Wk为1×1卷积操作的权重向量,Bk为针对多尺度图卷积模块各层的数据驱动的可学习邻接矩阵,Ck为针对每个样本的邻接矩阵,β为自适应系数。
CN202210381360.5A 2022-04-12 2022-04-12 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 Active CN114821640B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210381360.5A CN114821640B (zh) 2022-04-12 2022-04-12 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210381360.5A CN114821640B (zh) 2022-04-12 2022-04-12 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

Publications (2)

Publication Number Publication Date
CN114821640A true CN114821640A (zh) 2022-07-29
CN114821640B CN114821640B (zh) 2023-07-18

Family

ID=82535294

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210381360.5A Active CN114821640B (zh) 2022-04-12 2022-04-12 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法

Country Status (1)

Country Link
CN (1) CN114821640B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012950A (zh) * 2023-02-15 2023-04-25 杭州电子科技大学信息工程学院 一种基于多重心时空注意图卷积网络的骨架动作识别方法
CN116665312A (zh) * 2023-08-02 2023-08-29 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN116740752A (zh) * 2023-04-11 2023-09-12 深圳市凌壹科技有限公司 基于arm工控主板的运动监控方法及装置
CN117423032A (zh) * 2023-10-20 2024-01-19 大连理工大学 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117854155A (zh) * 2024-03-07 2024-04-09 华东交通大学 一种人体骨骼动作识别方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111460928A (zh) * 2020-03-17 2020-07-28 中国科学院计算技术研究所 一种人体动作识别系统及方法
US20210000404A1 (en) * 2019-07-05 2021-01-07 The Penn State Research Foundation Systems and methods for automated recognition of bodily expression of emotion
CN112733656A (zh) * 2020-12-30 2021-04-30 杭州电子科技大学 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN113378656A (zh) * 2021-05-24 2021-09-10 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN113408455A (zh) * 2021-06-29 2021-09-17 山东大学 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN113657349A (zh) * 2021-09-01 2021-11-16 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210000404A1 (en) * 2019-07-05 2021-01-07 The Penn State Research Foundation Systems and methods for automated recognition of bodily expression of emotion
CN111460928A (zh) * 2020-03-17 2020-07-28 中国科学院计算技术研究所 一种人体动作识别系统及方法
WO2022000420A1 (zh) * 2020-07-02 2022-01-06 浙江大学 人体动作识别方法、人体动作识别系统及设备
CN112733656A (zh) * 2020-12-30 2021-04-30 杭州电子科技大学 基于多流空间注意力图卷积sru网络的骨架动作识别方法
CN113378656A (zh) * 2021-05-24 2021-09-10 南京信息工程大学 一种基于自适应图卷积神经网络的动作识别方法和装置
CN113408455A (zh) * 2021-06-29 2021-09-17 山东大学 一种基于多流信息增强图卷积网络的动作识别方法、系统及存储介质
CN113657349A (zh) * 2021-09-01 2021-11-16 重庆邮电大学 一种基于多尺度时空图卷积神经网络的人体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
M. AMSAPRABHAAY. NANCY JANEH. KHANNA NEHEMIAH: ""A survey on spatio-temporal framework for kinematic gait analysis in RGB videos"", 《JOURNAL OF VISUAL COMMUNICATION AND IMAGE REPRESENTATION》 *
N SUN,L LENG,J LIU,G HAN: ""Multi-stream slowFast graph convolutional networks for skeleton-based action recognition"", 《IMAGE AND VISION COMPUTING》 *
张聪聪;何宁;: ""基于关键帧的双流卷积网络的人体动作识别方法"", 《南京信息工程大学学报(自然科学版)》, no. 06 *
李扬志,袁家政,刘宏哲: ""基于时空注意力图卷积网络模型的人体骨架动作识别算法"", 《计算机应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116012950A (zh) * 2023-02-15 2023-04-25 杭州电子科技大学信息工程学院 一种基于多重心时空注意图卷积网络的骨架动作识别方法
CN116012950B (zh) * 2023-02-15 2023-06-30 杭州电子科技大学信息工程学院 一种基于多重心时空注意图卷积网络的骨架动作识别方法
CN116740752A (zh) * 2023-04-11 2023-09-12 深圳市凌壹科技有限公司 基于arm工控主板的运动监控方法及装置
CN116665312A (zh) * 2023-08-02 2023-08-29 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN116665312B (zh) * 2023-08-02 2023-10-31 烟台大学 一种基于多尺度图卷积神经网络的人机协作方法
CN117423032A (zh) * 2023-10-20 2024-01-19 大连理工大学 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质
CN117423032B (zh) * 2023-10-20 2024-05-10 大连理工大学 时空细粒度人体动作时序分割方法、电子设备和计算机可读存储介质
CN117475518A (zh) * 2023-12-27 2024-01-30 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117475518B (zh) * 2023-12-27 2024-03-22 华东交通大学 一种同步人体运动识别与预测方法及系统
CN117854155A (zh) * 2024-03-07 2024-04-09 华东交通大学 一种人体骨骼动作识别方法及系统
CN117854155B (zh) * 2024-03-07 2024-05-14 华东交通大学 一种人体骨骼动作识别方法及系统

Also Published As

Publication number Publication date
CN114821640B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN110222653B (zh) 一种基于图卷积神经网络的骨架数据行为识别方法
CN111814719A (zh) 一种基于3d时空图卷积的骨架行为识别方法
CN111160164B (zh) 基于人体骨架和图像融合的动作识别方法
CN116012950B (zh) 一种基于多重心时空注意图卷积网络的骨架动作识别方法
CN108932500A (zh) 一种基于深度神经网络的动态手势识别方法及系统
Sincan et al. Using motion history images with 3d convolutional networks in isolated sign language recognition
CN110232361B (zh) 基于三维残差稠密网络的人体行为意图识别方法与系统
CN111461063B (zh) 一种基于图卷积和胶囊神经网络的行为识别方法
CN109858407A (zh) 一种基于多种信息流特征和异步融合的视频行为识别方法
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
Yu et al. Deep object detector with attentional spatiotemporal LSTM for space human–robot interaction
CN113255602A (zh) 基于多模态数据的动态手势识别方法
CN111833400B (zh) 一种相机位姿定位方法
CN114708649A (zh) 基于集成学习方法融合时间注意力图卷积的行为识别方法
CN112906520A (zh) 一种基于姿态编码的动作识别方法及装置
CN111401116B (zh) 基于增强卷积和空时lstm网络的双模态情感识别方法
CN115205903A (zh) 一种基于身份迁移生成对抗网络的行人重识别方法
CN114492634A (zh) 一种细粒度装备图片分类识别方法及系统
CN116665300A (zh) 基于时空自适应特征融合图卷积网络的骨架动作识别方法
CN107085700A (zh) 一种基于稀疏表示与单隐层神经网络技术相结合的人脸识别方法
CN113255514B (zh) 基于局部场景感知图卷积网络的行为识别方法
Özbay et al. 3D Human Activity Classification with 3D Zernike Moment Based Convolutional, LSTM-Deep Neural Networks.
CN114550047B (zh) 一种行为速率引导的视频行为识别方法
CN112446253A (zh) 一种骨架行为识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant