CN116012950A - 一种基于多重心时空注意图卷积网络的骨架动作识别方法 - Google Patents
一种基于多重心时空注意图卷积网络的骨架动作识别方法 Download PDFInfo
- Publication number
- CN116012950A CN116012950A CN202310117822.7A CN202310117822A CN116012950A CN 116012950 A CN116012950 A CN 116012950A CN 202310117822 A CN202310117822 A CN 202310117822A CN 116012950 A CN116012950 A CN 116012950A
- Authority
- CN
- China
- Prior art keywords
- attention
- convolution
- unit
- skeleton
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000009471 action Effects 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims description 63
- 210000000988 bone and bone Anatomy 0.000 claims description 51
- 238000010586 diagram Methods 0.000 claims description 49
- 230000005484 gravity Effects 0.000 claims description 43
- 230000004913 activation Effects 0.000 claims description 40
- 230000003044 adaptive effect Effects 0.000 claims description 33
- 238000011176 pooling Methods 0.000 claims description 29
- 238000005096 rolling process Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 16
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 230000002123 temporal effect Effects 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 210000001015 abdomen Anatomy 0.000 claims description 4
- 210000001217 buttock Anatomy 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 45
- 230000006399 behavior Effects 0.000 description 34
- 230000000694 effects Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多重心时空注意图卷积网络的骨架动作识别方法,包括:对预处理后的人体行为视频进行一阶骨骼信息提取并形成第一骨架序列;将第一骨架序列转换为第二骨架序列;获取每帧图像的二阶骨骼信息;根据四种流态数据对应建立四类训练集和标签;建立多重心时空注意图卷积网络模型并训练;将待识别的人体行为视频输入训练好的模型,获取对应的初始预测结果和softmax分数;根据初始预测结果利用多重心特征融合单元计算对应权重系数;采用特征融合模块将各softmax分数进行加权融合获得骨架动作识别结果。该方法可结合数量更多、特征更明显的关节数据以实现人体行为预测,提高预测精确度。
Description
技术领域
本发明属于计算机视觉和深度学习领域,具体涉及一种基于多重心时空注意图卷积网络的骨架动作识别方法。
背景技术
行为识别技术广泛应用在智能监控、虚拟现实、人机交互、公共安全、医疗健康等众多领域,具有十分广阔的应用前景,为计算机视觉等领域的重要研究课题。人体行为识别的目的简单来说就是根据输入视频或数据来自动判断有什么人在什么样的场景中做了怎样的动作。识别系统的一般处理流程是:通过分析处理输入数据,提取数据特征,将聚合的特征作为一种特定模式,根据这种模式来对应某类人体行为活动。对人体行为的识别不同于姿态估计,单纯一张图片并不能判断出人体活动的类型,因为行为是个持续性的动作。例如,一张“抬着手”的图片,并不知道图片中的人下一步是要将手放下还是继续抬起,必须通过追踪数据中长期的动态信息才能感知到不同行为的运动特征。
骨架数据是包含多个人体骨骼关节的二维或三维坐标位置的时间序列,可以使用姿态估计方法从视频图像中提取或者利用传感器设备直接采集。相比于传统的RGB视频识别方法,基于骨架数据的动作识别能有效地减少识别过程中由于光照变化、环境背景、遮挡等干扰因素的影响,对动态环境和复杂背景具有较强的适应性。
目前,将人体骨架数据拓扑为时空图,并利用图卷积网络(GCNs)进行处理被证实有着良好的识别效果。然而,目前基于GCN的主流模型还存在如下不足:(1)特征提取能力有限。一般来说,特征明显或者结合数量越多的关节点数据,行为特征信息也就更加复杂,越利于行为预测,通常采用更大的卷积核或加大网络深度的方法,但这些都会带来更大的计算量;(2)多流融合特定行为模式的方法简单。目前,经典的多流框架模型通常直接将各流的softmax分数相加获得最终的预测结果,但实际上各个流的预测效果是有明显差异的,单纯的分数相加难以获得精确的预测结果,并且参数计算量较大。(3)生成具有语义意义的边的邻接矩阵在此任务中尤为重要,传统的空间拓扑图受物理连接性影响,边的提取仍是一个具有挑战性的问题。
发明内容
本发明的目的在于针对上述问题,提出一种基于多重心时空注意图卷积网络的骨架动作识别方法,可更充分地提取不同重心下的拓扑图信息,并在不增加计算量的情况下,结合数量更多、特征更明显的关节数据以实现人体行为预测,有助于提高人体行为的预测精确度。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的一种基于多重心时空注意图卷积网络的骨架动作识别方法,包括如下步骤:
S1、对预处理后的人体行为视频进行一阶骨骼信息提取,一阶骨骼信息包括对应关节的位置和置信度;
S2、将每批预处理后的人体行为视频表示为五维矩阵(N,C,T,K,M),并将全部图像帧中的一阶骨骼信息按照时间排序形成第一骨架序列其中,N代表每批人体行为视频的数量,C代表关节的特征维度,T代表每个人体行为视频中图像帧的数量,K代表人体关节数量,M代表每帧图像中的人数,v为关节向量;
S3、将第一骨架序列V从相机坐标转换为身体坐标形成第二骨架序列V′;
S4、基于第二骨架序列V′获取每帧图像的二阶骨骼信息,二阶骨骼信息包括eti、mjoint,tj和mbone,ti,公式如下:
eti=vti′-vti
mjoint,tj=v(t+1)j-vtj
mbone,ti=e(t+1)i-eti
其中,eti为第t帧第i个骨骼的骨骼向量,vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标,vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标,mjoint,tj为第j个关节在第t+1帧和第t帧的向量差,mbone,ti为第i个骨骼在第t+1帧和第t帧的向量差,vtj为第t帧第j个关节的坐标,v(t+1)j为第t+1帧第j个关节的坐标,e(t+1)i为第t+1帧第i个骨骼的骨骼向量;
S5、根据四种流态数据对应建立四类训练集和标签,四种流态数据包括关节流V′、骨骼流关节运动流和骨骼运动流其中,e为每个骨骼的骨骼向量,mjoint为每个关节在相邻帧图像的向量差,mbone为每个骨骼在相邻帧图像的向量差;
S6、建立多重心时空注意图卷积网络模型,多重心时空注意图卷积网络模型包括并行的十二个时空图卷积网络模型,且每四个时空图卷积网络模型处于同一重心下,重心包括腹部重心b、臀部重心h和胸部重心c;
S7、分别将四类训练集和标签一一对应输入对应重心下的时空图卷积网络模型进行训练,获取训练好的时空图卷积网络模型;
S8、将待识别的人体行为视频形成四种流态数据,并输入训练好的时空图卷积网络模型,获取对应的初始预测结果和softmax分数;
S9、根据各时空图卷积网络模型的初始预测结果利用多重心特征融合单元计算对应的权重系数αns,公式如下:
S10、根据计算出的权重系数αns采用特征融合模块将各时空图卷积网络模型的softmax分数进行加权融合,获得的融合结果Result即为骨架动作识别结果,公式如下:
其中,rns为第n个重心第s流的softmax分数。
优选地,时空图卷积网络模型包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、128、128、128、256、256、256的九层特征提取模块。
优选地,各层特征提取模块包括第二残差模块、以及依次连接的自适应空间域图卷积单元、第一激活函数、注意力模块、时间域图卷积单元、第二BN层、第二激活函数和第一特征提取单元,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第一特征提取单元连接,第一特征提取单元用于执行相加操作。
优选地,自适应空间域图卷积单元,满足如下公式:
其中,Hin为自适应空间域图卷积单元的输入,Hout为自适应空间域图卷积单元的输出,p=0,1,…,Pv,Pv为根据空间结构划分的邻接矩阵数量,Wp为1×1卷积操作的权重函数,Bp为K×K大小的邻接矩阵,Cp表示每帧图像中关节间是否连接及连接强度的邻接矩阵,β为自适应系数。
优选地,时间域图卷积单元包括第二特征提取单元、第二残差模块、第一Concat函数和第三特征提取单元,并执行如下操作:
将注意力模块的输出特征输入第二特征提取单元获得第一特征,第二特征提取单元包括并行的四个第一分支单元、一个第二分支单元和一个第三分支单元,第一分支单元包括依次连接的第一卷积层和第一膨胀卷积层,第二分支单元包括依次连接的第二卷积层和最大池化层,第三分支单元包括第三卷积层,第一特征为各分支单元的输出特征;
将各分支单元的输出特征通过第一Concat函数进行聚合,获得第一聚合特征;
将注意力模块的输出特征输入第二残差模块获得第二特征,第二残差模块包括第四卷积层;
将第一聚合特征和第二特征通过第三特征提取单元进行相加操作,获得第三特征即为时间域图卷积单元的输出特征。
优选地,注意力模块包括空间注意力单元、时间注意力单元、通道注意力单元、第二Concat函数和第四特征提取单元,并执行如下操作:
将自适应空间域图卷积单元的输出特征分别输入空间注意力单元、时间注意力单元和通道注意力单元,对应获得空间注意力图、时间注意力图和通道注意力图;
将空间注意力图、时间注意力图和通道注意力图通过第二Concat函数进行聚合,获得第二聚合特征;
将自适应空间域图卷积单元的输出特征和第二聚合特征通过第四特征提取单元进行相加操作,获得第四特征即为注意力模块的输出特征。
优选地,空间注意力单元包括第五卷积层、第五特征提取单元、以及依次连接的第一平均池化层、第一空间卷积层和第三激活函数,第五卷积层和第一平均池化层均与自适应空间域图卷积单元连接,第五卷积层的输出特征和第三激活函数的输出特征通过第五特征提取单元进行相乘操作,获得空间注意力图;
时间注意力单元包括第六卷积层、第六特征提取单元、以及依次连接的第二平均池化层、第二空间卷积层和第四激活函数,第六卷积层和第二平均池化层均与自适应空间域图卷积单元连接,第六卷积层的输出特征和第四激活函数的输出特征通过第六特征提取单元进行相乘操作,获得时间注意力图;
通道注意力单元包括第七卷积层、第七特征提取单元、以及依次连接的第三平均池化层、第一线性全连接层、第五激活函数、第二线性全连接层和第六激活函数,第七卷积层和第三平均池化层均与自适应空间域图卷积单元连接,第七卷积层的输出特征和第六激活函数的输出特征通过第七特征提取单元进行相乘操作,获得通道注意力图。
优选地,预处理为将人体行为视频的分辨率调整为340×256,帧率转换为30FPS。
优选地,一阶骨骼信息采用人体姿态识别算法提取,人体姿态识别算法为Openpose。
优选地,第一骨架序列V具有连续的预设帧数的一阶骨骼信息。
与现有技术相比,本发明的有益效果为:该方法采用多重心多尺度时空注意图卷积网络模型,将获取的人体行为信息(包括静态信息和运动信息)结合实现动作预测,通过时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系,通过注意力模块确定哪些边和关节在识别中更重要,更好地获取网络不同层的语义信息,并使用残差连接增强模型的稳定性;且通过结合特征更加突出的不同重心的骨架数据建立多重心多流框架,可更充分地提取不同重心下的拓扑图信息,多流之间结果相互补充,同时使用新的加权方式将各流的softmax分数进行加权融合,在不增加计算量的情况下,结合数量更多、特征更明显的关节数据以实现人体行为预测,有效提高人体行为的最终预测精确度。
附图说明
图1为本发明基于多重心时空注意图卷积网络的骨架动作识别方法流程图;
图2为本发明多重心时空注意图卷积网络模型、多重心特征融合单元和特征融合模块的结构示意图;
图3为本发明时空图卷积网络模型的结构示意图;
图4为本发明特征提取模块的结构示意图;
图5为本发明时间域图卷积单元的结构示意图;
图6为本发明注意力模块的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,当组件被称为与另一个组件“连接”时,它可以直接与另一个组件连接或者也可以存在居中的组件。除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
如图1-6所示,一种基于多重心时空注意图卷积网络的骨架动作识别方法,包括如下步骤:
S1、对预处理后的人体行为视频进行一阶骨骼信息提取,一阶骨骼信息包括对应关节的位置和置信度。
在一实施例中,预处理为将人体行为视频的分辨率调整为340×256,帧率转换为30FPS。人体行为视频为采用摄像头拍摄的RGB视频,为便于后续处理,将人体行为视频进行分辨率调整和帧率转换操作预处理。
在一实施例中,一阶骨骼信息采用人体姿态识别算法提取,人体姿态识别算法为Openpose。采用Openpose算法将预处理后的人体行为视频进行一阶骨骼信息提取,算法的输入是RGB image或video sequence,输出是人体关节的特征:位置和置信度,如每个关节表示为(X,Y,ACC)3个特征(如果是三维骨骼还有Z坐标,就是4个特征),其中,X为对应关节的X坐标值,Y为对应关节的Y坐标值,Z为对应关节的Z坐标值,ACC为对应关节的置信度。或还可采用现有技术中的其他人体姿态识别算法,如采用深度传感器直接获得,在此不做限定。
S2、将每批预处理后的人体行为视频表示为五维矩阵(N,C,T,K,M),并将全部图像帧中的一阶骨骼信息按照时间排序形成第一骨架序列其中,N代表每批人体行为视频的数量,C代表关节的特征维度,T代表每个人体行为视频中图像帧的数量,K代表人体关节数量,M代表每帧图像中的人数,v为关节向量。
在一实施例中,第一骨架序列V具有连续的预设帧数的一阶骨骼信息。如预设帧数为300帧,具体可根据实际需求调整。
具体地,在一个人体行为视频中,会有很多帧图像,每帧图像中可能会有多个人,每个人会有多个关节,每个关节会有不同的特征(位置、置信度)。所以,对于一个batch的人体行为视频,可以用一个五维矩阵(N,C,T,K,M)来表示。通常一个batch有2的指数个人体行为视频,K代表人体关节数量,通常一个人标注18个关节,M代表一帧中的人数,一般选择平均置信度最高的2个人。
S3、将第一骨架序列V从相机坐标转换为身体坐标形成第二骨架序列V′。因为第一骨架序列中的原始一阶骨骼信息存在噪声干扰,通过将人体关节的原始一阶骨骼信息从相机坐标系转换为身体坐标系以消除噪声干扰。
S4、基于第二骨架序列V′获取每帧图像的二阶骨骼信息,二阶骨骼信息包括eti、mjoint,tj和mbone,ti,公式如下:
eti=vti′-vti
mjoint,tj=v(t+1)j-vtj
mbone,ti=e(t+1)i-eti
其中,eti为第t帧第i个骨骼的骨骼向量,vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标,vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标,mjoint,tj为第j个关节在第t+1帧和第t帧的向量差,mbone,ti为第i个骨骼在第t+1帧和第t帧的向量差,vtj为第t帧第j个关节的坐标,v(t+1)j为第t+1帧第j个关节的坐标,e(t+1)i为第t+1帧第i个骨骼的骨骼向量。
对于骨架的动作识别任务,一阶骨骼信息(关节的坐标)和二阶骨骼信息(骨骼的方向和长度)以及它们的运动信息都对动作识别有帮助,通过结合数量更多、特征更明显的数据有助于提高动作识别准确度。
S5、根据四种流态数据对应建立四类训练集和标签,四种流态数据包括关节流V′、骨骼流关节运动流和骨骼运动流其中,e为每个骨骼的骨骼向量,mjoint为每个关节在相邻帧图像的向量差,mbone为每个骨骼在相邻帧图像的向量差。
S6、建立多重心时空注意图卷积网络模型,多重心时空注意图卷积网络模型包括并行的十二个时空图卷积网络模型,且每四个时空图卷积网络模型处于同一重心下,重心包括腹部重心b、臀部重心h和胸部重心c。
在一实施例中,时空图卷积网络模型包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、128、128、128、256、256、256的九层特征提取模块。
其中,如图2所示,多重心时空注意图卷积网络模型包括并行的十二个时空图卷积网络模型,每四个时空图卷积网络模型(分别对应J-Stream、B-Stream、J-M-Stream、B-M-Stream)为一组,即分别对应四个流态数据,Skeleton Data即为划分训练集后的骨架数据,人体不同动作会导致重心变化,选取三个重心,分别为腹部重心b、臀部重心h和胸部重心c。时空图卷积网络模型如图3所示,包括依次连接的第一BN层(BN)、多尺度图卷积模块、全局平均池化层(GAP)和softmax分类器,多尺度图卷积模块包括输出通道依次为64、64、64、128、128、128、256、256、256的九层特征提取模块(分别为H1-H9)。每个时空图卷积网络模型处理一类数据,得到对应的初始预测结果和softmax分数。
在一实施例中,各层特征提取模块包括第二残差模块、以及依次连接的自适应空间域图卷积单元、第一激活函数、注意力模块、时间域图卷积单元、第二BN层、第二激活函数和第一特征提取单元,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第一特征提取单元连接,第一特征提取单元用于执行相加操作。
特征提取模块如图4所示,包括第二残差模块(Residual connection)和依次连接的自适应空间域图卷积单元(GCN)、第一激活函数(Relu)、注意力单元(ASTC)、时间域图卷积单元(TCN)、第二BN层(BN)、第二激活函数(Relu)和第一特征提取单元依次连接,第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第一特征提取单元连接,第一特征提取单元用于执行相加操作,第一激活函数、第二激活函数均为Relu函数。
在一实施例中,自适应空间域图卷积单元,满足如下公式:
其中,Hin为自适应空间域图卷积单元的输入,Hout为自适应空间域图卷积单元的输出,p=0,1,…,Pv,Pv为根据空间结构划分的邻接矩阵数量,Wp为1×1卷积操作的权重函数,Bp为K×K大小的邻接矩阵,Cp表示每帧图像中关节间是否连接及连接强度的邻接矩阵,β为自适应系数。
自适应空间域图卷积单元(GCN)根据输入特征得到邻接矩阵Bp和Cp,利用自适应系数β对Cp加权后再与Bp相加,然后与输入特征相乘,叠加通道后经过1×1空间域图卷积得到输出特征。其中,Bp为符合人体骨架自然连接的自学习邻接矩阵,可根据训练数据学习完全针对识别任务的图,并针对不同层中包含的不同信息更加个性化,Cp通过相似函数判断两个顶点是否连接以及连接强度,为每个样本学习一个唯一的图,β为训练迭代更新的自适应系数。
在一实施例中,时间域图卷积单元包括第二特征提取单元、第二残差模块、第一Concat函数和第三特征提取单元,并执行如下操作:
将注意力模块的输出特征输入第二特征提取单元获得第一特征,第二特征提取单元包括并行的四个第一分支单元、一个第二分支单元和一个第三分支单元,第一分支单元包括依次连接的第一卷积层和第一膨胀卷积层,第二分支单元包括依次连接的第二卷积层和最大池化层,第三分支单元包括第三卷积层,第一特征为各分支单元的输出特征;
将各分支单元的输出特征通过第一Concat函数进行聚合,获得第一聚合特征;
将注意力模块的输出特征输入第二残差模块获得第二特征,第二残差模块包括第四卷积层;
将第一聚合特征和第二特征通过第三特征提取单元进行相加操作,获得第三特征即为时间域图卷积单元的输出特征。
时间域图卷积单元(TCN),如图5所示,第二残差模块表示为Residual,将输入降维分为6个分支单元分别处理,各第一分支单元分别使用3×1和5×1的卷积核,结合1和2两种不同的膨胀率(dilation)组成4种膨胀卷积分支,第二分支单元使用第二卷积层和最大池化层处理,第三分支单元采用第三卷积层,6个分支单元的输出按通道维度合并再与第二残差模块输出相加从而得到时间域图卷积单元的最终输出。时间域图卷积单元能够灵活有效地捕获人体骨架上的时间域关节关系,通过多尺度膨胀卷积可结合数量更多、特征更明显的节点数据,更好地获取网络不同层的语义信息,使用残差连接进一步增强模型的稳定性。
在一实施例中,注意力模块包括空间注意力单元、时间注意力单元、通道注意力单元、第二Concat函数和第四特征提取单元,并执行如下操作:
将自适应空间域图卷积单元的输出特征分别输入空间注意力单元、时间注意力单元和通道注意力单元,对应获得空间注意力图、时间注意力图和通道注意力图;
将空间注意力图、时间注意力图和通道注意力图通过第二Concat函数进行聚合,获得第二聚合特征;
将自适应空间域图卷积单元的输出特征和第二聚合特征通过第四特征提取单元进行相加操作,获得第四特征即为注意力模块的输出特征。
在一实施例中,空间注意力单元包括第五卷积层、第五特征提取单元、以及依次连接的第一平均池化层、第一空间卷积层和第三激活函数,第五卷积层和第一平均池化层均与自适应空间域图卷积单元连接,第五卷积层的输出特征和第三激活函数的输出特征通过第五特征提取单元进行相乘操作,获得空间注意力图;
时间注意力单元包括第六卷积层、第六特征提取单元、以及依次连接的第二平均池化层、第二空间卷积层和第四激活函数,第六卷积层和第二平均池化层均与自适应空间域图卷积单元连接,第六卷积层的输出特征和第四激活函数的输出特征通过第六特征提取单元进行相乘操作,获得时间注意力图;
通道注意力单元包括第七卷积层、第七特征提取单元、以及依次连接的第三平均池化层、第一线性全连接层、第五激活函数、第二线性全连接层和第六激活函数,第七卷积层和第三平均池化层均与自适应空间域图卷积单元连接,第七卷积层的输出特征和第六激活函数的输出特征通过第七特征提取单元进行相乘操作,获得通道注意力图。
如图6所示,注意力模块(ASTC)包括三个部分,分别是空间注意力单元、时间注意力单元和通道注意力单元。通过将自适应空间域图卷积单元的输出特征y同时并行输入空间注意力单元、时间注意力单元和通道注意力单元。空间注意力单元将输入依次经过对时间维度的第一平均池化层AvgPool、第一空间卷积层Conv1d和第三激活函数Sigmoid,得到相应维度的空间注意力矩阵,然后空间注意力矩阵与经过第五卷积层的输出特征y进行对应元素相乘得到空间注意力图y1;类似地,时间注意力单元将输入依次经过对空间维度的第二平均池化层AvgPool、第二空间卷积层Conv1d和第四激活函数Sigmoid,得到相应维度的时间注意力矩阵,然后时间注意力矩阵与经过第六卷积层的输出特征y进行对应元素相乘得到时间注意力图y2;通道注意力单元将输入依次经过对空间维度和时间维度的第三平均池化层AvgPool、第一线性全连接层Fc1、第五激活函数Relu、第二线性全连接层Fc2和第六激活函数Sigmoid,得到相应维度的通道注意力矩阵,然后通道注意力矩阵与经过第七卷积层的输出特征y进行对应元素相乘得到通道注意力图y3。y1、y2和y3通过Concat函数进行特征聚合输出,并与自适应空间域图卷积单元的输出特征y残差相加作为注意力模块的输出特征。第三激活函数、第四激活函数和第六激活函数均为Sigmoid函数,第五激活函数为Relu激活函数。或还可根据实际需求调整。
S7、分别将四类训练集和标签一一对应输入对应重心下的时空图卷积网络模型进行训练,获取训练好的时空图卷积网络模型。
其中,将四类训练集和标签一一对应输入对应重心下的时空图卷积网络模型进行训练,即每个重心下的四个时空图卷积网络模型的输入分别对应四类训练集和标签,每个流态数据的训练集和标签作为一个时空图卷积网络模型的输入,迭代预设次数后得到训练好的时空图卷积网络模型。在本实施例中训练参数如下:初始学习率设置为0.05,权重衰减设置为0.0001,采用Nesterov动量为0.9的随机梯度下降(SGD)来调整参数,最大训练次数设置为65次,在第45和第55次训练阶段将学习率除以10。对模型进行训练为本领域技术人员熟知技术,在此不再赘述。
S8、将待识别的人体行为视频形成四种流态数据,并输入训练好的时空图卷积网络模型,获取对应的初始预测结果和softmax分数。
其中,将待识别的人体行为视频采用步骤S1~S5建立四类流态数据后,输入到训练好的时空图卷积网络模型,如分别输入训练好的三种重心下的时空图卷积网络模型,即可获得对应的初始预测结果和softmax分数。
S9、根据各时空图卷积网络模型的初始预测结果利用多重心特征融合单元计算对应的权重系数αns,公式如下:
其中,表示每流初始预测结果组成的数组,每流初始预测结果的取值范围为0~1,Acu[ns]表示第n个重心第s流识别准确度,Acu[nm]表示第n个重心第m流识别准确度,γ为非零常数。为了避免Acu为0的情况出现,γ为非零常数,如γ为0.02,或还可根据实际需求调整γ的数值。
多重心特征融合单元(Multi-centric Feature Fusion)将各流态数据下时空图卷积网络模型输出的初始预测结果与初始预测结果中的最小值计算差值,获取每一个差值在差值和的比例,该比例即为输出的权重系数。
S10、根据计算出的权重系数αns采用特征融合模块将各时空图卷积网络模型的softmax分数进行加权融合,获得的融合结果Result即为骨架动作识别结果,公式如下:
其中,rns为第n个重心第s流的softmax分数。
该方法采用多重心多尺度时空注意图卷积网络模型,将获取的人体行为信息(包括静态信息和运动信息)结合实现动作预测,通过时间域图卷积单元能够灵活有效地捕获人体骨架上的图域关节关系,通过注意力模块确定哪些边和关节在识别中更重要,更好地获取网络不同层的语义信息,并使用残差连接增强模型的稳定性;且通过结合特征更加突出的不同重心的骨架数据建立多重心多流框架,可更充分地提取不同重心下的拓扑图信息,多流之间结果相互补充,同时使用新的加权方式将各流的softmax分数进行加权融合,在不增加计算量的情况下,结合数量更多、特征更明显的关节数据以实现人体行为预测,有效提高人体行为的最终预测精确度。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请描述较为具体和详细的实施例,但并不能因此而理解为对申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述基于多重心时空注意图卷积网络的骨架动作识别方法包括如下步骤:
S1、对预处理后的人体行为视频进行一阶骨骼信息提取,所述一阶骨骼信息包括对应关节的位置和置信度;
S2、将每批预处理后的人体行为视频表示为五维矩阵(N,C,T,K,M),并将全部图像帧中的一阶骨骼信息按照时间排序形成第一骨架序列其中,N代表每批人体行为视频的数量,C代表关节的特征维度,T代表每个人体行为视频中图像帧的数量,K代表人体关节数量,M代表每帧图像中的人数,v为关节向量;
S3、将第一骨架序列V从相机坐标转换为身体坐标形成第二骨架序列V′;
S4、基于第二骨架序列V′获取每帧图像的二阶骨骼信息,所述二阶骨骼信息包括eti、mjoint,tj和mbone,ti,公式如下:
eti=vti′-vti
mjoint,tj=v(t+1)j-vtj
mbone,ti=e(t+1)i-eti
其中,eti为第t帧第i个骨骼的骨骼向量,vti为第t帧第i个骨骼上靠近骨架重心的源关节坐标,vti′为第t帧第i个骨骼上远离骨架重心的目标关节坐标,mjoint,tj为第j个关节在第t+1帧和第t帧的向量差,mbone,ti为第i个骨骼在第t+1帧和第t帧的向量差,vtj为第t帧第j个关节的坐标,v(t+1)j为第t+1帧第j个关节的坐标,e(t+1)i为第t+1帧第i个骨骼的骨骼向量;
S5、根据四种流态数据对应建立四类训练集和标签,所述四种流态数据包括关节流V′、骨骼流关节运动流和骨骼运动流其中,e为每个骨骼的骨骼向量,mjoint为每个关节在相邻帧图像的向量差,mbone为每个骨骼在相邻帧图像的向量差;
S6、建立多重心时空注意图卷积网络模型,所述多重心时空注意图卷积网络模型包括并行的十二个时空图卷积网络模型,且每四个时空图卷积网络模型处于同一重心下,所述重心包括腹部重心b、臀部重心h和胸部重心c;
S7、分别将四类训练集和标签一一对应输入对应重心下的时空图卷积网络模型进行训练,获取训练好的时空图卷积网络模型;
S8、将待识别的人体行为视频形成四种流态数据,并输入训练好的时空图卷积网络模型,获取对应的初始预测结果和softmax分数;
S9、根据各时空图卷积网络模型的初始预测结果利用多重心特征融合单元计算对应的权重系数αns,公式如下:
S10、根据计算出的权重系数αns采用特征融合模块将各时空图卷积网络模型的softmax分数进行加权融合,获得的融合结果Result即为骨架动作识别结果,公式如下:
其中,rns为第n个重心第s流的softmax分数。
2.如权利要求1所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述时空图卷积网络模型包括依次连接的第一BN层、多尺度图卷积模块、全局平均池化层和softmax分类器,所述多尺度图卷积模块包括输出通道依次为64、64、64、128、128、128、256、256、256的九层特征提取模块。
3.如权利要求2所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:各层所述特征提取模块包括第二残差模块、以及依次连接的自适应空间域图卷积单元、第一激活函数、注意力模块、时间域图卷积单元、第二BN层、第二激活函数和第一特征提取单元,所述第二残差模块的输入端与自适应空间域图卷积单元的输入端连接,输出端与第一特征提取单元连接,所述第一特征提取单元用于执行相加操作。
5.如权利要求3所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述时间域图卷积单元包括第二特征提取单元、第二残差模块、第一Concat函数和第三特征提取单元,并执行如下操作:
将注意力模块的输出特征输入第二特征提取单元获得第一特征,所述第二特征提取单元包括并行的四个第一分支单元、一个第二分支单元和一个第三分支单元,所述第一分支单元包括依次连接的第一卷积层和第一膨胀卷积层,所述第二分支单元包括依次连接的第二卷积层和最大池化层,所述第三分支单元包括第三卷积层,所述第一特征为各分支单元的输出特征;
将各分支单元的输出特征通过第一Concat函数进行聚合,获得第一聚合特征;
将注意力模块的输出特征输入第二残差模块获得第二特征,所述第二残差模块包括第四卷积层;
将第一聚合特征和第二特征通过第三特征提取单元进行相加操作,获得第三特征即为时间域图卷积单元的输出特征。
6.如权利要求3所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述注意力模块包括空间注意力单元、时间注意力单元、通道注意力单元、第二Concat函数和第四特征提取单元,并执行如下操作:
将自适应空间域图卷积单元的输出特征分别输入空间注意力单元、时间注意力单元和通道注意力单元,对应获得空间注意力图、时间注意力图和通道注意力图;
将空间注意力图、时间注意力图和通道注意力图通过第二Concat函数进行聚合,获得第二聚合特征;
将自适应空间域图卷积单元的输出特征和第二聚合特征通过第四特征提取单元进行相加操作,获得第四特征即为注意力模块的输出特征。
7.如权利要求6所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:
所述空间注意力单元包括第五卷积层、第五特征提取单元、以及依次连接的第一平均池化层、第一空间卷积层和第三激活函数,所述第五卷积层和第一平均池化层均与自适应空间域图卷积单元连接,所述第五卷积层的输出特征和第三激活函数的输出特征通过第五特征提取单元进行相乘操作,获得空间注意力图;
所述时间注意力单元包括第六卷积层、第六特征提取单元、以及依次连接的第二平均池化层、第二空间卷积层和第四激活函数,所述第六卷积层和第二平均池化层均与自适应空间域图卷积单元连接,所述第六卷积层的输出特征和第四激活函数的输出特征通过第六特征提取单元进行相乘操作,获得时间注意力图;
所述通道注意力单元包括第七卷积层、第七特征提取单元、以及依次连接的第三平均池化层、第一线性全连接层、第五激活函数、第二线性全连接层和第六激活函数,所述第七卷积层和第三平均池化层均与自适应空间域图卷积单元连接,所述第七卷积层的输出特征和第六激活函数的输出特征通过第七特征提取单元进行相乘操作,获得通道注意力图。
8.如权利要求1所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述预处理为将人体行为视频的分辨率调整为340×256,帧率转换为30FPS。
9.如权利要求1所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述一阶骨骼信息采用人体姿态识别算法提取,所述人体姿态识别算法为Openpose。
10.如权利要求1所述的基于多重心时空注意图卷积网络的骨架动作识别方法,其特征在于:所述第一骨架序列V具有连续的预设帧数的一阶骨骼信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310117822.7A CN116012950B (zh) | 2023-02-15 | 2023-02-15 | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310117822.7A CN116012950B (zh) | 2023-02-15 | 2023-02-15 | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116012950A true CN116012950A (zh) | 2023-04-25 |
CN116012950B CN116012950B (zh) | 2023-06-30 |
Family
ID=86026936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310117822.7A Active CN116012950B (zh) | 2023-02-15 | 2023-02-15 | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116012950B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116935203A (zh) * | 2023-09-18 | 2023-10-24 | 吉林大学 | 一种基于声光融合的潜水员智能监控方法和系统 |
CN117475518A (zh) * | 2023-12-27 | 2024-01-30 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
CN117854155A (zh) * | 2024-03-07 | 2024-04-09 | 华东交通大学 | 一种人体骨骼动作识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170137469A (ko) * | 2016-06-03 | 2017-12-13 | 국민대학교산학협력단 | 전방착용 기립보조로봇 |
CN114708665A (zh) * | 2022-05-10 | 2022-07-05 | 西安交通大学 | 一种基于多流融合的骨骼图人体行为识别方法及系统 |
CN114821640A (zh) * | 2022-04-12 | 2022-07-29 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
-
2023
- 2023-02-15 CN CN202310117822.7A patent/CN116012950B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170137469A (ko) * | 2016-06-03 | 2017-12-13 | 국민대학교산학협력단 | 전방착용 기립보조로봇 |
CN114821640A (zh) * | 2022-04-12 | 2022-07-29 | 杭州电子科技大学 | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 |
CN114708665A (zh) * | 2022-05-10 | 2022-07-05 | 西安交通大学 | 一种基于多流融合的骨骼图人体行为识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
QINGYU SONG: "Graph Attention Convolutional Network: Spatiotemporal Modeling for Urban Traffic Prediction", 《IEEE》, pages 1 - 6 * |
高猛: "基于时空多残差图卷积的3D骨骼点动作识别", 《小型微型计算机系统》, pages 2570 - 2574 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116665312A (zh) * | 2023-08-02 | 2023-08-29 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116665312B (zh) * | 2023-08-02 | 2023-10-31 | 烟台大学 | 一种基于多尺度图卷积神经网络的人机协作方法 |
CN116935203A (zh) * | 2023-09-18 | 2023-10-24 | 吉林大学 | 一种基于声光融合的潜水员智能监控方法和系统 |
CN116935203B (zh) * | 2023-09-18 | 2023-11-21 | 吉林大学 | 一种基于声光融合的潜水员智能监控方法和系统 |
CN117475518A (zh) * | 2023-12-27 | 2024-01-30 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
CN117475518B (zh) * | 2023-12-27 | 2024-03-22 | 华东交通大学 | 一种同步人体运动识别与预测方法及系统 |
CN117854155A (zh) * | 2024-03-07 | 2024-04-09 | 华东交通大学 | 一种人体骨骼动作识别方法及系统 |
CN117854155B (zh) * | 2024-03-07 | 2024-05-14 | 华东交通大学 | 一种人体骨骼动作识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116012950B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116012950B (zh) | 一种基于多重心时空注意图卷积网络的骨架动作识别方法 | |
CN114821640B (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
CN107492121B (zh) | 一种单目深度视频的二维人体骨骼点定位方法 | |
CN110472604B (zh) | 一种基于视频的行人与人群行为识别方法 | |
CN107808131B (zh) | 基于双通路深度卷积神经网络的动态手势识别方法 | |
CN112395945A (zh) | 基于骨骼关节点的图卷积行为识别方法及装置 | |
CN111274954A (zh) | 基于改进姿态估计算法的嵌入式平台实时跌倒检测方法 | |
CN111814719A (zh) | 一种基于3d时空图卷积的骨架行为识别方法 | |
CN109886225A (zh) | 一种基于深度学习的图像手势动作在线检测与识别方法 | |
CN104281853A (zh) | 一种基于3d卷积神经网络的行为识别方法 | |
CN113205595B (zh) | 一种3d人体姿态估计模型的构建方法及其应用 | |
CN112434655A (zh) | 一种基于自适应置信度图卷积网络的步态识别方法 | |
CN107680116A (zh) | 一种监测视频图像中运动目标的方法 | |
CN110232361B (zh) | 基于三维残差稠密网络的人体行为意图识别方法与系统 | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN115661246A (zh) | 一种基于自监督学习的姿态估计方法 | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN114492634A (zh) | 一种细粒度装备图片分类识别方法及系统 | |
CN116665300A (zh) | 基于时空自适应特征融合图卷积网络的骨架动作识别方法 | |
CN114882493A (zh) | 一种基于图像序列的三维手部姿态估计与识别方法 | |
CN112446253A (zh) | 一种骨架行为识别方法及装置 | |
CN113192186B (zh) | 基于单帧图像的3d人体姿态估计模型建立方法及其应用 | |
CN113255514A (zh) | 基于局部场景感知图卷积网络的行为识别方法 | |
CN113128425A (zh) | 基于骨架序列的人类动作识别的语义自适应图网络方法 | |
Tong et al. | SG-Grasp: Semantic Segmentation Guided Robotic Grasp Oriented to Weakly Textured Objects Based on Visual Perception Sensors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |