CN113128424B - 基于注意力机制的图卷积神经网络动作识别方法 - Google Patents
基于注意力机制的图卷积神经网络动作识别方法 Download PDFInfo
- Publication number
- CN113128424B CN113128424B CN202110442519.5A CN202110442519A CN113128424B CN 113128424 B CN113128424 B CN 113128424B CN 202110442519 A CN202110442519 A CN 202110442519A CN 113128424 B CN113128424 B CN 113128424B
- Authority
- CN
- China
- Prior art keywords
- attention
- joint
- joints
- graph
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 28
- 230000007246 mechanism Effects 0.000 title claims abstract description 18
- 238000010586 diagram Methods 0.000 claims abstract description 30
- 230000033001 locomotion Effects 0.000 claims description 64
- 210000001503 joint Anatomy 0.000 claims description 55
- 230000006870 function Effects 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 16
- 210000000988 bone and bone Anatomy 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 210000004394 hip joint Anatomy 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 4
- 210000003414 extremity Anatomy 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 230000003993 interaction Effects 0.000 abstract description 5
- 230000010365 information processing Effects 0.000 abstract description 2
- 239000010410 layer Substances 0.000 description 18
- 238000013527 convolutional neural network Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 238000005286 illumination Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001680 brushing effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 210000002310 elbow joint Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000000323 shoulder joint Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
- 210000003857 wrist joint Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于注意力机制的图卷积神经网络动作识别方法,涉及人机交互动作识别领域;包括:利用残差注意网络标记完成动作参与度最高的N个注意关节,N可以为16,也可以根据实际情况设定其他数值;构建三维骨骼空时图,并对所述注意关节进行空时特征编码;通过图卷积神经网络GCN学习所述三维骨骼空时图进行动作识别。本发明中,由于基于残差注意网络选取完成特定动作高参与度的关节,从而可降低信息处理冗余度,摒弃无助于动作识别的关节信息;基于关节间空时约束,构建关于注意关节的空时特征编码以更为有效地表征注意关节的空时特征;基于人体空间结构自然图表示,利用图卷积神经网络获取关于三维骨骼空时图的深度表示以有效识别动作。
Description
技术领域
本发明涉及人机交互动作识别领域,具体涉及一种基于注意力机制的图卷积神经网络动作识别方法。
背景技术
作为替代诸如键盘、按键、触摸屏等传统接触式人机交互方式的无接触交互重要途径之一,基于视觉的动作识别已成为计算机视觉领域的研究热点。尽管人们对基于视觉的动作识别业已研究经年,然而仍然无法大规模实际应用,其中主要面临以下技术难点:光照变化和杂乱背景等因素使得动作识别方法鲁棒性较差;深度图像信息冗余度较大,增加了算法计算复杂度,进而限制了动作识别方法的应用;深度传感器所捕获原始骨骼信息含有噪声且关节间空时信息模糊,如何经由三维骨骼数据有效提取运动信息以识别人体动作仍面临巨大挑战。
现有技术中基于手工提取特征的识别动作方法所提取特征较为单一,因而识别精度较为有限且普适性较差;基于RNN良好的时间序列建模能力,利用RNN构建动作识别模型,但是其无法有效表达关节间空域关系;基于CNN强大的空域特征提取能力,利用CNN从骨架序列编码图像中抽取动作特征,但是其无法有效表达关节间动态特征以及各关节对特定动作完成的参与度。与图像或视频等规则网格定义的模态不同,三维人体骨架是由一系列人体关节坐标组成的非欧几里德几何数据。基于RNN及CNN固定的网络结构,无法充分利用骨架拓扑结构。针对此问题,研究人员提出一种骨架自然表示方式—图,图中各关节皆被视为节点,关节间关系由加权边表示。由于图卷积神经网络(Graph convolutional NeuralNetworks,GCN)适用于任意节点连接的非欧几里得数据,且随机初始化双层GCN所提取网络节点特征已较为出色。近些年来,GCN已在图像及文本分类、物体识别等领域广泛应用。Yan等人首先提出基于图的骨架表示,而后将其输入GCN,由数据自动学习空时模式。Tang等提出一种深度渐进强化学习(DPRL)方法以选择输入序列中信息较丰富的帧,并利用GCN学习关节间依赖关系,但是其忽略了骨骼时间信息。Bin等提出一种时空图轨迹(STGR)方法研究基于骨骼的动作识别,该方法学习空时连续性,但是其图学习计算复杂度较高,空间图则构建于群集之上,且各群集皆仅具有单个权值,因而无法捕捉节点间细微的空间关系。
发明内容
针对上述问题,本发明提出一种基于注意力机制的图卷积神经网络动作识别方法,在具有视角变化、噪声、主体多样化及同类动作多样化等复杂场景下具有较高识别率。
为实现上述目的,本发明采用以下技术方案:一种基于注意力机制的图卷积神经网络动作识别方法,包括:
利用残差注意网络标记完成动作参与度最高的N个注意关节;
构建三维骨骼空时图,并对所述注意关节进行空时特征编码;
通过图卷积神经网络GCN学习所述三维骨骼空时图进行动作识别。
进一步的,利用残差注意网络标记完成动作参与度最高的N个注意关节,具体为:采用残差注意网络提取三维骨骼信息中的注意关节;残差注意力网络核心部分为多层叠加的注意力模块;每个注意力模块包括掩膜分支和主干分支;所述主干分支进行特征处理,残差注意网络以与骨骼信息相对应的原始RGB图像作为输入,生成注意掩膜;通过注意掩膜与原始RGB图像的元素相乘来标记注意关节。
进一步的,注意掩模与原始RGB图像的元素相乘的定义如下:
Hi,c(x)=Mi,c(x)×Ti,c(x)
其中,i表示空间索引,c表示掩膜中像素的通道索引,Ti,c(x)为主干分支输出的特征图,掩膜分支采用自上而下和自下而上注意力相结合的方式,学习得到与主干输出大小相同的掩膜Mi,c(x);残差注意网络突出RGB图像中的重点区域,同时抑制与动作低相关度区域,从而标记出重要关节的位置。
进一步的,所述掩膜分支在正向传播时作为特征选择器,在反向传播时作为梯度更新滤波器:
其中,θ为掩膜分支参数,φ为主干分支参数,表示函数T(x,φ)对变量φ求导。
进一步的,将残差注意网络输出的注意力特征图与主干分支输出的特征图进行元素叠加,表示为:
Hi,c(x)=(1+Mi,c(x))×Fi,c(x)
其中,Fi,c(x)是神经网络输出的一个抽象特征,Mi,c(x)的取值在[0,1]区间内,Mi,c(x)作为Fi,c(x)的特征选择器以增强输出特征图有效特征。
更进一步的,利用空间注意力对各通道特征图归一化以获得与空间信息相关的软掩模,所述注意力表示为:
其中,xi表示第i个空间位置的特征向量,μc和δc分别表示通道c的特征图均值和标准差。
更进一步的,构建三维骨骼空时图,并对所述注意关节进行空时特征编码,具体为:将所有关节坐标信息组合,把每帧关节信息转换为单个特征向量或编码成单个时空信息图;利用所述时空信息图分层表示骨骼序列;在具有N个关节,T帧的三维骨架坐标上构造无向图G(V,E),其中V={vit|i=1,…,N;t=1,…,T}表示关节集合,E表示关节间自然连接集合;残差注意网络提取与动作相关的N个注意关节,并将其标记为“1”,其余关节标记为“0”。
更进一步的,所述注意关节构建三种特征信息,分别为加权距离Dwei,相邻关节距离Dnei及关节运动轨迹Ttra;
加权距离Dwei为注意关节与髋关节间的欧式距离,对于某个给定关节三维坐标Pi'f=(px,py,pz),其与髋关节P1'f=(px,py,pz)的加权距离Dwei表示为:
其中,λ为加权权重,将人体关节视为树状结构,身体为树干,四肢即为树枝,根据该关节与所在树枝根结点距离确定λ;
相邻关节距离Dnei为注意关节与相邻关节间的欧式距离;相邻关节距离Dnei表示为其中,l表示与注意关节相连的第l个关节;
关节运动轨迹Ttra为不同时间步长下注意关节运动轨迹;所述关节运动轨迹包含整个运动时间信息;选取三个时间步长,分别为两帧、三帧及五帧,运动速度较快关节在2-3帧之间运动轨迹变换明显,而运动速度较慢关节在3-5帧之间运动轨迹变换明显;
Ttra={T2F,T3F,T5F}
其中,帧间轨迹由运动方向θ及距离d组成;
d2F=||Pi'f-Pi'f-1||
每个注意节点特征向量包含Dwei、Dnei和Ttra;特征向量只针对注意节点编码;输入帧的骨架包含所有节点和边的信息;注意节点输出标记为“1”,节点特征仅与注意节点相关。
作为更进一步的,通过图卷积神经网络GCN学习所述三维骨骼空时图进行动作识别,具体为:
将各帧关节表示为邻接矩阵A,自连接表示为单位矩阵I,各层之间传播方式为:
其中, 为/>的度矩阵,H为各层特征,W为上一层权重矩阵,σ为非线性函数;
图采样函数p为:
其中,为采样区间,/>为关节/>与/>的最小距离;根据采样函数定义权重函数,将采样区间划分为固定的K个子集,得到映射关系:
因此,权重函数表示为:
采用多尺度聚类方法以获得层次结构,并基于聚类结果实现最大池化或平均池化;
由上述可得,第t帧第i个关节输出值表示为:
其中,表示t时刻第i个关节与采样区间/>内其他关节的相对距离,⊙表示矩阵或矢量间逐元素相乘。
作为更进一步的,所述图卷积神经网络GCN包括5个卷积池化层及一个SoftMax层;卷积核尺寸分别为5×5,5×5,5×5,3×3,3×3,池化层采用平均池化,前3层输出为32,后两层输出为64,初始学习率为0.005,每迭代3次学习率下降10%;γ=0.99,权重衰减值0.00001;Dropout=0.5;损失函数优化方法为随机梯度下降法,动量为0.9;采用交叉熵损失作为损失函数梯度。
本发明由于采用以上技术方案,能够取得如下的技术效果:本发明提出基于注意力机制的图卷积神经网络动作识别方法,所提方法首先利用残差注意网络标记完成动作参与度最高的16个注意关节;其次,构建三维骨骼空时图,并对注意关节进行空时特征编码;最后,通过图卷积神经网络(GCN)学习所构建的三维骨骼空时图进行动作识别。本发明中,由于基于残差注意网络选取完成特定动作高参与度的关节,从而可降低信息处理冗余度,摒弃无助于动作识别的关节信息;基于关节间空时约束,构建关于注意关节的空时特征编码以更为有效地表征注意关节的空时特征;基于人体空间结构自然图表示,利用图卷积神经网络获取关于三维骨骼空时图的深度表示以有效识别动作。与主流人体动作识别方法相比,本发明在具有视角变化、噪声、主体多样化及同类动作多样化等复杂场景下具有较高识别率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法主要框架流程示意图;
图2为注意关节标记图;
图3为注意关节编码图;
图4为图上池化操作示意图;
图5为基于NTU RGB-D数据集所得跨视图验证混淆矩阵图表。
具体实施方式
以下结合附图对本发明作进一步说明。
本发明中,基于注意力机制的图卷积神经网络动作识别方法的流程如附图1所示,其实现步骤如下:
步骤1.利用残差注意网络标记完成动作参与度最高的N个注意关节,N可以为16,也可以根据实际情况设定其他数值:
采用残差注意网络提取三维骨骼信息中的注意关节。残差注意力网络核心部分为多层叠加的注意力模块。每个注意力模块包括掩膜分支(maskbranch)和主干分支(trunkbranch)。主干分支进行特征处理,可使用任何网络模型。残差注意网络以与骨骼信息相对应的原始RGB图像作为输入,生成注意掩膜。这些注意掩膜与原始RGB图像的元素相乘来标记注意关节。注意掩模与原始RGB图像的元素相乘定义如下:
Hi,c(x)=Mi,c(x)×Ti,c(x)
其中,i表示空间索引,c表示掩膜中像素的通道索引,Ti,c(x)为主干分支输出的特征图,掩膜分支采用自上而下和自下而上注意力相结合的方式,学习得到与主干输出大小相同的掩膜Mi,c(x)。残差注意网络突出RGB中的重点区域,同时抑制图像中与动作低相关度区域,从而标记出重要关节的位置。
掩膜分支是残差注意网络在动作识别领域中表现出色的一个重要原因,其在正向传播时作为特征选择器,在反向传播时作为梯度更新滤波器:
其中,θ为掩膜分支参数,φ为主干分支参数,表示函数T(x,φ)对变量φ求导。其参数可使注意力模块对噪声的鲁棒性更强,能有效减少噪声对梯度更新的影响。
掩膜分支后添加Sigmoid作为激活函数,得到权重归一化特征信息,然而将输出特征归一化并主干分支进行数量积,将导致特征图输出能力变弱,且加上掩膜分支为多层叠加的结构,导致输出的特征图上每个点的值不断减小。因此,掩膜分支所提取的特征图会间接导致主干分支的输出性能降低,使得较为深层的网络结构,在梯度反向传播时逐渐丢失。针对上述问题,本发明使用类似残差学习的方式,将所得注意力特征图与主干特征图元素叠加,可表示为:
Hi,c(x)=(1+Mi,c(x))×Fi,c(x)
其中,Fi,c(x)是神经网络输出的一个抽象特征,Mi,c(x)的取值在[0,1]区间内,与1相加之后可以较好解决特征值降退化问题。Mi,c(x)可作为Fi,c(x)的选择器以增强输出特征图有效特征,进而抑制噪声。最终,不断叠加注意力模块可使网络模型表达能力逐渐提升。
残差注意力网络中,主干分支提取特征可自适应地改变掩码分支注意力。利用空间注意力对各通道特征图归一化以获得与空间信息相关的软掩模。本发明中注意力可表示为:
其中,xi表示第i个空间位置的特征向量,μc和δc分别表示通道c的特征图均值和标准差。
步骤2.构建三维骨骼空时图,并对所述注意关节进行空时特征编码;
骨骼序列通常表示为每帧各关节二维或三维坐标。之前工作使用卷积神经网络进行三维骨骼动作识别,本发明将所有关节坐标信息组合,将每帧关节信息转换为单个特征向量或编码成单个时空信息图。本发明利用时空图分层表示骨骼序列。在具有N个关节,T帧的三维骨架坐标上构造无向图G(V,E),其中V={vit|i=1,…,N;t=1,…,T}表示关节集合,E表示关节间自然连接集合。
人体在完成某个动作时,只有部分关节参与运动,且各关节运动参与度不同,因此,整个骨架序列中存在关节冗余信息。以人脑为例,判别某动作时只关注其运动明显的极少关节,便可辨认其动作类型。基于此事实,为减少计算复杂度以提升系统响应,本实施例在注意力机制中重点标记16个关节。注意关节的标记如附图2所示。输入骨架序列为25个关节点三维坐标,残差注意网络提取与动作相关的16个注意关节点,并将其标记为“1”,其余关节标记为“0”。
本发明对注意关节构建三种特征信息,分别为加权距离Dwei,相邻关节距离Dnei及关节运动轨迹Ttra。其中,加权距离Dwei为注意关节与髋关节间的欧式距离。人体动作皆为各关节围绕髋关节做定向圆周运动,因此,各动作参与运动关节与髋关间相对距离对动作识别有较好的判别作用,此外,人体结构为铰链式分级连接,如附图2所示,腕关节运动依赖肘关节运动,而二者运动又依赖于肩关节,因此各关节对动作完成的贡献不同。由于各关节在动作完成过程中参与度不同,因此,本发明基于人体结构约束的运动能量,给予注意关节不同的权重。
对于某个给定关节三维坐标Pi'f=(px,py,pz),其与髋关节P1'f=(px,py,pz)的加权距离Dwei可表示为:
其中,λ为加权权重,将人体关节视为树状结构,身体为树干,四肢即为树枝,根据该关节与所在树枝根结点距离确定λ。
相邻关节距离Dnei为注意关节与相邻关节间的欧式距离。由于人体骨架为铰链结构,相邻关节间有直接连接,关节间相对位置,是动作种类识别的重要特征。相邻关节距离Dnei表示为其中,l表示与注意关节相连的第l个关节。
关节运动轨迹Ttra为不同时间步长下注意关节运动轨迹。关节运动轨迹包含整个运动时间信息。本发明选取三个时间步长,分别为两帧、三帧及五帧,其包含大部分运动速度区间,运动速度较快关节在2-3帧之间运动轨迹变换明显,而运动速度较慢关节在3-5帧之间运动轨迹变换明显。
Ttra={T2F,T3F,T5F}
其中,帧间轨迹由运动方向θ及距离d组成。
d2F=||Pi'f-Pi'f-1||
上述特征的编码如附图3所示,其中每个注意节点特征向量包含Dwei、Dnei和Ttra。特征向量只针对注意节点编码。输入帧的骨架包含所有节点和边的信息。注意节点输出标记为“1”,节点特征仅与注意节点相关。
步骤3.通过图卷积神经网络GCN学习所述三维骨骼空时图进行动作识别;
与欧几里德二维卷积神经网络相比,基于几何图的卷积神经网络的实现具有挑战性。为了在人体骨架上实现图卷积,将各帧关节表示为邻接矩阵A,自连接表示为单位矩阵I,各层之间传播方式为:
其中, 为/>的度矩阵,H为各层特征,W为上一层权重矩阵,σ为非线性函数。
图像中,可以在中心像素固定邻域定义采样函数,类似的,本发明定义图采样函数p为:
其中,为采样区间,/>为关节/>与/>的最小距离。根据采样函数定义权重函数,将采样区间划分为固定的K个子集,得到映射关系:
因此,权重函数可表示为:
GCN可采用多尺度聚类方法以获得层次结构,如附图4所示,并基于聚类结果实现最大池化或平均池化。
由上述可得,第t帧第i个关节输出值可表示为:
其中,表示t时刻第i个关节与采样区间/>内其他关节的相对距离,⊙表示矩阵或矢量间逐元素相乘。
本发明所设计网络结构包含5个卷积池化层及一个SoftMax层。卷积核尺寸分别为5×5,5×5,5×5,3×3,3×3,池化层采用平均池化,前3层输出为32,后两层输出为64,初始学习率为0.005,每迭代3次学习率下降10%,γ=0.99,权重衰减值0.00001,dropout=0.5。损失函数优化方法为随机梯度下降法(SGD),动量为0.9。采用交叉熵损失作为损失函数梯度。
本实施例首先利用残差注意网络标记特定动作参与度较高的16个注意关节;其次,构建三维骨骼空时图,并对注意关节进行空时特征编码;最后,通过图卷积神经网络抽取所构建三维骨骼空时图的高可分深度特征以实现有效动作识别。仿真表明,与主流人体动作识别方法相比,本发明在具有视角变化、噪声、主体多样化及同类动作多样化等复杂场景下具有较高识别准确率。
本发明的效果可通过以下仿真进一步说明:
为验证所提方法的有效性,分别在STANFORD 40-ACTIONS、PKU-MMD、NTU-RGBD三个个公开数据上进行实验仿真,并与现有主流算法对比。
PKU-MMD是一个用于动作识别和理解的大规模3D人体动作数据集。该数据集包含深度图、骨骼信息、红外序列和RGB视频。数据集有20,000个动作样本,由66个不同主体在三个不同摄像机视角采集。数据集包含51个动作类别。与交叉主体(CS)和交叉视角(CV)设置,本发明只对交叉学科设置的方法进行评估。在交叉主体中,该数据集划分57个主体用于训练和9个主体用于测试的数据。训练集共有944个视频,测试集共有132个视频。
表1为现有主流识别方法基于该数据集的识别率。由表1可知,与Li C等提出的端到端卷积提取特征学习相比较,本发明所提方法识别率高2.9%;Ardianto S等基于不同模式RGB深度和红外数据扩展时间段网络且该方法需要预训练,而本发明无需预训练,性能比其高0.9%。
表1PKU-MDD数据集实验结果
NTU-RGBD是一个大型数据集,包含来自60个不同动作类的56,000个动作视频。为了捕捉每个动作,分别用三个高度相同,角度分别为-45°、0°、+45°的摄像机拍摄。数据包含Kinect深度传感器所检测关节三维坐标,每帧各主体采集25个关节点,本实施例仅使用16个重要关节。NTU-RGBD数据集提供了交叉视图和交叉主体标准,其中交叉主体设置包括39889个训练样本和16.390个测试样本。
附图5为所提动作识别算法在NTU RGB-D数据集上交叉视图实验规则的总体识别率,每一行为该动作实际类别,每一列为所提算法对应该动作的识别结果,主对角线上元素表示该动作识别准确率,其余为识别为其它动作错误率。由附图5所示混淆矩阵可知,基于注意力机制标记注意关节并编码关节加权距离、相邻关节距离及关节运动轨迹的方法有效利用三维骨骼中的运动信息,因此在大部分动作上皆有较高识别率;此外,由于加入注意力机制及加权距离,突出完成动作参与度高的关节,使得部分动作(如:扔、摇头、拍打等)的识别率高于总体识别率5.2%。由此可知,在具有视角变化、丰富噪声以及细微差别动作等复杂场景下,所提方法具有较好的动作识别性能。
由表2可知,本发明所提方法较Xiang G所提方法所得准确率高出3.3%,这是由于本发明利用连接流作为注意节点特征以积累时间细节而非通过在图中使用复杂时间边合并时间信息,而Xiang G等基于时空图卷积网络将数据时空模式嵌入图中;与Yan S等所提方法类似,ZhangX等提出一种基于骨架动作识别的两流图边缘卷积和节点卷积并将时序信息通过时序图嵌入到图中,Xiang G等采用基于图回归的卷积神经网络融合时空细节,本发明方法比该方法高出3.3%。Shi L利用关节的有向图结构,并通过双流网络融合空时信息,而本发明所提方法仅基于简单的无向图结构,并利用关节的空时约束,可获得较Shi L所提方法高出1%的准确率。
表2NTU-RGBD数据集实验结果
斯坦福大学动作数据集包含40种不同类别的人体动作,共9532张图像,包括刷牙、钓鱼、修车、拿雨伞等。各动作类别包含来自谷歌,必应和Flicker数据库所获得约180-300张图像。数据集中,由于身体姿态、外观和背景杂波的变化,各动作都有显著的类内差异。
由表3可知,Yao B等通过使用稀疏基(包含有意义的语义信息用于动作识别)联合模型属性和结构,其识别准确率仅为65.1%;ZhangY等基于最小标注以提升识别准确率至82.6%;Zhao Z等利用关节蕴含动作识别重要特征,基于关节单图像识别动作,准确率达到83.4%;上述动作识别方法皆基于基于卷积神经网络,本发明所提方法则基于注意关节的图卷积神经网络识别动作,准确率达到84.8%,由以上所述可知,所提方法在光照变化,形变以及背景变化等复杂场景下皆可获得较高的动作识别精度。
表3STANFORD 4-ACTION数据集实验结果
综上所述,本发明提出一种基于注意力机制的图卷积神经网络动作识别方法。所提方法基于注意关节及图卷积神经网络抽取骨骼图像中具有高可分的抽象特征以实现有效动作识别,所提方法可有效抑制由于考虑所有图节点和边所产生的噪声和伪细节。基于STANFORD40-ACTIONS、PKU-MMD、NTU-RGBD三种公开数据集所选包含光照变化、背景变化及形变等因素的视频序列,通过与Multi-modalities、Raw-skeleton coordinate+motion、Convolutional Co-occurrence、TSN on RGB+depth+IR、Raw-skeleton coordinate+motion、Convolutional Co-occurrence、Spatial-temporal GCN、Two-stream GNNRegreesion based GCN、Directed edge GCN、Attributes-Parts based、Minimumannotation effort、Boyparts based等主流动作识别方法对比验证了所提方法的有效性。基于定量分析可知,相较于对比算法,多数测试场景下,所提算法动作识别准确率较高,表明所提方法整体跟踪性能较优。由此,本发明所提算法可以为复杂场景下人机交互动作识别提供坚实的理论与工程实现依据。
本发明的实施例有较佳的实施性,并非是对本发明任何形式的限定。本发明实施例中描述的技术特征或技术特征的组合不应当被认为是孤立的,它们可以被互相组合从而达到更好的技术效果。本发明优选实施方式的范围也可以包括另外的实现,且这应被发明实施例所属技术领域的技术人员所理解。
Claims (6)
1.一种基于注意力机制的图卷积神经网络动作识别方法,其特征在于,包括:
利用残差注意网络标记完成动作参与度最高的N个注意关节,N为16;
构建三维骨骼空时图,并对所述注意关节进行空时特征编码;
通过图卷积神经网络GCN学习所述三维骨骼空时图进行动作识别;
利用残差注意网络标记完成动作参与度最高的N个注意关节,具体为:采用残差注意网络提取三维骨骼信息中的注意关节;残差注意力网络核心部分为多层叠加的注意力模块;每个注意力模块包括掩膜分支和主干分支;所述主干分支进行特征处理,残差注意网络以与骨骼信息相对应的原始RGB图像作为输入,生成注意掩膜;通过注意掩膜与原始RGB图像的元素相乘来标记注意关节;
注意掩膜与原始RGB图像的元素相乘的定义如下:
Hi,c(x)=Mi,c(x)×Ti,c(x)
其中,i表示空间索引,c表示掩膜中像素的通道索引,Ti,c(x)为主干分支输出的特征图,掩膜分支采用自上而下和自下而上注意力相结合的方式,学习得到与主干输出大小相同的掩膜Mi,c(x);残差注意网络突出RGB图像中的重点区域,同时抑制与动作低相关度区域,从而标记出重要关节的位置;
利用空间注意力对各通道特征图归一化以获得与空间信息相关的软掩膜,所述注意力表示为:
其中,xi表示第i个空间位置的特征向量,μc和δc分别表示通道c的特征图均值和标准差;
所述注意关节构建三种特征信息,分别为加权距离Dwei,相邻关节距离Dnei及关节运动轨迹Ttra;
加权距离Dwei为注意关节与髋关节间的欧式距离,对于某个给定关节三维坐标其与髋关节/>的加权距离Dwei表示为:
其中,λ为加权权重,将人体关节视为树状结构,身体为树干,四肢即为树枝,根据该关节与所在树枝根结点距离确定λ;
相邻关节距离Dnei为注意关节与相邻关节间的欧式距离;相邻关节距离Dnei表示为其中,l表示与注意关节相连的第l个关节;
关节运动轨迹Ttra为不同时间步长下注意关节运动轨迹;所述关节运动轨迹包含整个运动时间信息;选取三个时间步长,分别为两帧、三帧及五帧,运动速度较快关节在2-3帧之间运动轨迹变换明显,而运动速度较慢关节在3-5帧之间运动轨迹变换明显;
Ttra={T2F,T3F,T5F}
其中,帧间轨迹由运动方向θ及距离d组成;
每个注意节点特征向量包含Dwei、Dnei和Ttra;特征向量只针对注意节点编码;输入帧的骨架包含所有节点和边的信息;注意节点输出标记为“1”,节点特征仅与注意节点相关。
2.根据权利要求1所述一种基于注意力机制的图卷积神经网络动作识别方法,其特征在于,所述掩膜分支在正向传播时作为特征选择器,在反向传播时作为梯度更新滤波器:
其中,θ为掩膜分支参数,φ为主干分支参数,表示函数T(x,φ)对变量φ求导。
3.根据权利要求1所述一种基于注意力机制的图卷积神经网络动作识别方法,其特征在于,将残差注意网络输出的注意力特征图与主干分支输出的特征图进行元素叠加,表示为:
Hi,c(x)=(1+Mi,c(x))×Fi,c(x)
其中,Fi,c(x)是神经网络输出的一个抽象特征,Mi,c(x)的取值在[0,1]区间内,Mi,c(x)作为Fi,c(x)的特征选择器以增强输出特征图有效特征。
4.根据权利要求1所述一种基于注意力机制的图卷积神经网络动作识别方法,其特征在于,构建三维骨骼空时图,并对所述注意关节进行空时特征编码,具体为:将所有关节坐标信息组合,把每帧关节信息转换为单个特征向量或编码成单个时空信息图;利用所述时空信息图分层表示骨骼序列;在具有N个关节,T帧的三维骨架坐标上构造无向图G(V,E),其中V={vit|i=1,…,N;t=1,…,T}表示关节集合,E表示关节间自然连接集合;残差注意网络提取与动作相关的N个注意关节,并将其标记为“1”,其余关节标记为“0”。
5.根据权利要求1所述一种基于注意力机制的图卷积神经网络动作识别方法,其特征在于,通过图卷积神经网络GCN学习所述三维骨骼空时图进行动作识别,具体为:
将各帧关节表示为邻接矩阵A,自连接表示为单位矩阵I,各层之间传播方式为:
其中, 为/>的度矩阵,H为各层特征,W为上一层权重矩阵,σ为非线性函数;
图采样函数p为:
其中,为采样区间,/>为关节/>与/>的最小距离;根据采样函数定义权重函数,将采样区间划分为固定的K个子集,得到映射关系:
因此,权重函数表示为:
采用多尺度聚类方法以获得层次结构,并基于聚类结果实现最大池化或平均池化;
由上述可得,第t帧第i个关节输出值表示为:
其中,表示t时刻第i个关节与采样区间/>内其他关节的相对距离,⊙表示矩阵或矢量间逐元素相乘。
6.根据权利要求5所述一种基于注意力机制的图卷积神经网络动作识别方法,其特征在于,所述图卷积神经网络GCN包括5个卷积池化层及一个SoftMax层;卷积核尺寸分别为5×5,5×5,5×5,3×3,3×3,池化层采用平均池化,前3层输出为32,后两层输出为64,初始学习率为0.005,每迭代3次学习率下降10%;γ=0.99,权重衰减值0.00001;
Dropout=0.5;损失函数优化方法为随机梯度下降法,动量为0.9;采用交叉熵损失作为损失函数梯度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442519.5A CN113128424B (zh) | 2021-04-23 | 2021-04-23 | 基于注意力机制的图卷积神经网络动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110442519.5A CN113128424B (zh) | 2021-04-23 | 2021-04-23 | 基于注意力机制的图卷积神经网络动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113128424A CN113128424A (zh) | 2021-07-16 |
CN113128424B true CN113128424B (zh) | 2024-05-03 |
Family
ID=76779490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110442519.5A Active CN113128424B (zh) | 2021-04-23 | 2021-04-23 | 基于注意力机制的图卷积神经网络动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128424B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113505751B (zh) * | 2021-07-29 | 2022-10-25 | 同济大学 | 一种基于差异图卷积神经网络的人体骨骼动作识别方法 |
CN113643212B (zh) * | 2021-08-27 | 2024-04-05 | 复旦大学 | 一种基于图神经网络的深度图降噪方法 |
CN113887419B (zh) * | 2021-09-30 | 2023-05-12 | 四川大学 | 一种基于提取视频时空信息的人体行为识别方法及系统 |
CN114724254B (zh) * | 2022-05-16 | 2022-12-30 | 北京百度网讯科技有限公司 | 确定动作类别的方法、装置、设备、存储介质 |
CN116030537B (zh) * | 2023-03-28 | 2023-05-23 | 山东科技大学 | 基于多分支注意力图卷积的三维人体姿态估计方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007031946A1 (de) * | 2007-07-06 | 2009-01-08 | Charité-Universitätsmedizin Berlin | Verfahren zum Ermitteln von für die Charakterisierung von Gelenkbewegungen relevanten Informationen |
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN110072205A (zh) * | 2019-03-25 | 2019-07-30 | 南京邮电大学 | 一种用于无线传感网异常数据检测的分层聚合方法 |
CN110458085A (zh) * | 2019-08-06 | 2019-11-15 | 中国海洋大学 | 基于注意力增强三维时空表征学习的视频行为识别方法 |
CN111401106A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种行为识别方法、装置及设备 |
CN111694974A (zh) * | 2020-06-12 | 2020-09-22 | 桂林电子科技大学 | 一种融合注意力机制的深度哈希车辆图像检索方法 |
CN112101176A (zh) * | 2020-09-09 | 2020-12-18 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
-
2021
- 2021-04-23 CN CN202110442519.5A patent/CN113128424B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102007031946A1 (de) * | 2007-07-06 | 2009-01-08 | Charité-Universitätsmedizin Berlin | Verfahren zum Ermitteln von für die Charakterisierung von Gelenkbewegungen relevanten Informationen |
WO2017133009A1 (zh) * | 2016-02-04 | 2017-08-10 | 广州新节奏智能科技有限公司 | 一种基于卷积神经网络的深度图像人体关节定位方法 |
CN111401106A (zh) * | 2019-01-02 | 2020-07-10 | 中国移动通信有限公司研究院 | 一种行为识别方法、装置及设备 |
CN110072205A (zh) * | 2019-03-25 | 2019-07-30 | 南京邮电大学 | 一种用于无线传感网异常数据检测的分层聚合方法 |
CN110458085A (zh) * | 2019-08-06 | 2019-11-15 | 中国海洋大学 | 基于注意力增强三维时空表征学习的视频行为识别方法 |
CN111694974A (zh) * | 2020-06-12 | 2020-09-22 | 桂林电子科技大学 | 一种融合注意力机制的深度哈希车辆图像检索方法 |
CN112101176A (zh) * | 2020-09-09 | 2020-12-18 | 元神科技(杭州)有限公司 | 一种结合用户步态信息的用户身份识别方法及系统 |
Non-Patent Citations (5)
Title |
---|
Action Recognition Using Attention-Joints Graph Convolutional Neural Networks;TASWEER AHMAD;《IEEE》;第305-313页 * |
Graph convolutional network with structure pooling and joint-wise channel attention for action recognition;Yuxin Chen;《Pattern Recognition》;20200229;全文 * |
TASWEER AHMAD.Action Recognition Using Attention-Joints Graph Convolutional Neural Networks.《IEEE》.2020,第305-313页. * |
基于残差时空图卷积网络的3D人体行为识别;管珊珊;张益农;;计算机应用与软件(03);全文 * |
许春杰 ; 吴蒙 ; 杨立君 ; .一种基于分层聚合的分布式异常数据检测方案.计算机工程.2019,(04),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN113128424A (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN110147743B (zh) | 一种复杂场景下的实时在线行人分析与计数系统及方法 | |
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN110458844B (zh) | 一种低光照场景的语义分割方法 | |
CN110472604B (zh) | 一种基于视频的行人与人群行为识别方法 | |
CN107391709A (zh) | 一种基于新型注意模型进行图像字幕生成的方法 | |
CN110222580A (zh) | 一种基于三维点云的人手三维姿态估计方法和装置 | |
CN112131908A (zh) | 基于双流网络的动作识别方法、装置、存储介质及设备 | |
CN110728183A (zh) | 一种基于注意力机制的神经网络的人体动作识别方法 | |
Yue et al. | Action recognition based on RGB and skeleton data sets: A survey | |
CN106355210B (zh) | 基于深度神经元响应模式的绝缘子红外图像特征表达方法 | |
CN112036260A (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
Banzi et al. | Learning a deep predictive coding network for a semi-supervised 3D-hand pose estimation | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
Pikoulis et al. | Leveraging semantic scene characteristics and multi-stream convolutional architectures in a contextual approach for video-based visual emotion recognition in the wild | |
CN104268592A (zh) | 基于协同表示和判别准则的多视角联合动作词典学习方法 | |
CN114973418A (zh) | 一种跨模态三维点云序列时空特征网络的行为识别方法 | |
CN112990154B (zh) | 一种数据处理方法、计算机设备以及可读存储介质 | |
CN110163095A (zh) | 回环检测方法、回环检测装置及终端设备 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
Tusor et al. | Circular fuzzy neural network based hand gesture and posture modeling | |
CN116129051A (zh) | 一种基于图和注意力交织的三维人体姿态估计方法及系统 | |
Zhou et al. | Regional Self-Attention Convolutional Neural Network for Facial Expression Recognition | |
Shi et al. | Occlusion-aware graph neural networks for skeleton action recognition | |
CN113158870A (zh) | 2d多人姿态估计网络的对抗式训练方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |