CN113688672B - 一种基于深度关节与手工表观特征融合的动作识别方法 - Google Patents
一种基于深度关节与手工表观特征融合的动作识别方法 Download PDFInfo
- Publication number
- CN113688672B CN113688672B CN202110800365.2A CN202110800365A CN113688672B CN 113688672 B CN113688672 B CN 113688672B CN 202110800365 A CN202110800365 A CN 202110800365A CN 113688672 B CN113688672 B CN 113688672B
- Authority
- CN
- China
- Prior art keywords
- joint
- joints
- frame
- fusion
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009471 action Effects 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000004927 fusion Effects 0.000 title claims abstract description 25
- 230000007246 mechanism Effects 0.000 claims abstract description 21
- 210000000988 bone and bone Anatomy 0.000 claims abstract description 12
- 210000001503 joint Anatomy 0.000 claims description 39
- 239000013598 vector Substances 0.000 claims description 31
- 230000033001 locomotion Effects 0.000 claims description 30
- 230000004913 activation Effects 0.000 claims description 11
- 210000004394 hip joint Anatomy 0.000 claims description 11
- 238000013139 quantization Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 8
- 230000008859 change Effects 0.000 abstract description 7
- 230000000007 visual effect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 239000013589 supplement Substances 0.000 description 5
- 238000000605 extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005286 illumination Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 101001138022 Homo sapiens La-related protein 1 Proteins 0.000 description 2
- 101000650621 Homo sapiens Septin-1 Proteins 0.000 description 2
- 102100020859 La-related protein 1 Human genes 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度关节与手工表观特征融合的动作识别方法,首先将关节空域位置及约束输入至具有时空注意力机制的LSTM网络,以获取时空加权且高可分的深度关节特征;而后引入热图以定位表观序列关键帧及关节,可作为深度关节特征有效补充的关键关节周围表观特征;最后基于双流网络融合手工提取表观特征及LSTM网络所获取深度骨骼特征从而实现相似动作有效判别进而提升动作识别能力。针对视角变化、噪声、主体多样化等复杂场景下所提算法可有效区分相似动作从而提升动作识别精度。
Description
技术领域
本发明涉及机器视觉领域中的动作识别方法,具体涉及一种基于深度关节与手工表观特征融合的动作识别方法。
背景技术
作为计算机视觉领域的研究热点,人体动作识别在智能监控、人机交互、自动驾驶、医疗保障等行业发挥重要作用。其中主要面临以下几个技术难点:由于光照、尺度、背景变化等因素影响,使得此类识别性能较差。深度图所含信息冗余度较大因而计算复杂度较高,从而限制了此类算法的实际应用。基于三维骨架实时捕捉系统获得的低冗余度且高可分关节信息及环境强鲁棒性可显著提升动作识别性能,然而利用3D骨架关节坐标分析运动模式忽略了关节间空域关系从而导致识别精度有限;基于相对距离及角度编码关节以改善识别精度,然其仅依赖手工特征因而识别结果难以令人满意;基于CNN优良的空域特征提取能将骨骼序列编码为伪图像抽取其深度特征以提升动作识别精度,然而所得编码图像缺失序列时域信息,因而识别精度提升有限;基于RNN良好的时间建模以较高精度识别动作,然而RNN所固有的梯度弥散缺陷使其难以学习较长历史信息;基于LSTM重构RNN时序信息传递结构从而获得优异的长时依赖关系刻画能力进而可有效应用于动作识别,然而,基于深度网络的识别方法逐帧处理各幅图像,缺乏对关键图像及部位的挖掘,而动作序列通常存在较大信息冗余,从而使相关方法实时性较差且所获取高可分信息匮乏进而导致识别精度提升有限。基于空时注意力机制的LSTM模型赋予关节相应权重以增强关键图像及部位影响,从而提升动作识别精度,但是,该方法仅考虑关节坐标而忽略关节间空域拓扑信息,因而识别精度改善有限。此外,上述基于3D骨骼的相关算法仅考虑骨骼深度信息,而忽略了相当程度上亦可有效表达动作的人体外观特征。
发明内容
针对现有技术存在上述问题,本发明提出了一种基于骨骼关节及表观特征融合的双流网络动作识别方法,其能实现复杂场景下人体动作有效识别。
为实现上述目的,本申请的技术方案为:一种基于深度关节与手工表观特征融合的动作识别方法,包括:
基于人体特有关节空域关系构建关节空间约束,所述关节空间约束包括关节相对距离约束和高相关度关节对约束;
构建具有空间和时间注意力机制的LSTM网络以得到关节特征;
通过热图定位重要关节并抽取附近外观特征;
将关节特征、外观特征融合后给出动作识别结果。
进一步的,基于人体特有关节空域关系构建关节空间约束,具体为:
所有关节坐标表示为Xt=(Xt,1,...,Xt,K),其中Xt,k=(xt,k,yt,k,zt,k)表示第t(t=1,2,...,T)帧内关节k坐标,且具有K个关节点的人体骨骼结构;
构造关节相对距离约束,取髋关节Xt,1=(x1,y1,z1)坐标为中心,髋关节与其它关节之间欧式距离表示如下:
其中,j=2,3,...,K。
对dt,j_1进行归一化得到如下相对距离:
其中,dt,21_1为锁骨及髋关节的距离;第t帧内关节相对距离表示为:
Bt=[lt,2_1,lt,3_1...,lt,K_1] (3)
构造高相关度关节对约束,关节相对位置由下式获得:
Ct,i_j=Xt,i-Xt,j (4)
其中,Ct,i_j表示第t帧内第j个关节相对第i个关节的坐标,即二者空域拓扑信息;
只选取相关度较高的一、二级相关信息,分别如下式所示:
R1=[Ch_k,Cm_n,…,Co_p],R2=[Cq_r,Cu_v,…,Cx_y] (5)
其中,h,k;m,n;o,p表示仅由一条边相连的关节对,q,r;u,v;x,y表示由两条边相连的关节对;
某动作的关节序列空时信息表示如下:
ft=[Xt;Bt;R1;R2] (6)。
进一步的,构建具有空间注意力机制的LSTM网络,具体为:
设t时刻所有关节权重表示为αt=(αt,1,…,αt,l),l为输入特征ft维数,对应得分st=(st,1,...,st,l)表示为:
st=tanh(wfft+whht-1+b) (7)
采用tanh激活函数,wf、wh分别为输入数据ft及上层LSTM隐藏变量ht-1的加权矢量,b为偏差矢量;
经由Softmax激活函数获取表征关节空域重要性的权值:
输入主LSTM网络的空域加权特征为:
ft′=αt⊙ft (9)
其中,⊙为Hadamard积算子,表示矢量相应元素相乘。
进一步的,构建具有时间注意力机制的LSTM网络,具体为:
各帧权重βt表示如下:
式中,采用ReLU非线性激活函数,为上一帧隐藏变量,/> 为待学习参数,/>为时空注意力偏差向量;空域加权特征ft′经由主LSTM网络后输出为ht′,对ht′加以时间注意力机制,所得输出特征向量表示为ot=βt·ht′,而后输入至全连接层得到:
其中,i=1,…,C,C表示不同动作类别骨骼流的向量,wo为权值矩阵,bo为偏置向量。
进一步的,通过热图定位重要关节并抽取附近外观特征,具体为:提取序列帧片段中权重最大帧以表征相似帧片段,时间权重βi(1≤i≤T)的序列帧i与参考帧(参考帧为各片段首帧,1≤i*≤N)之间权重差值为βc,即:
设定相似帧权重差阈值为δ,当βc≥δ则帧i*为新参考帧,提取所有参考帧N构成表征动作时域特征的关键帧;同时对关键帧各关节周围抽取半径为R的圆形区域外观特征(颜色纹理特征)加以关节点权重
更进一步的,所述外观特征包括LBP纹理,为获取LBP纹理设nc为中心点灰度值,n0,n1,n2,n3,n4,n5,n6,n7为邻域点灰度值;以中心像素为阈值依次比较邻域像素点,若像素灰度值大于阈值将该点标记为1,否则为0;将结果采用顺时针构成二进制序列,作为该中心点LBP值,公式如下:
其中,为第i*(i*=1,2,…,N)关键帧圆形区域对应纹理直方图向量。
更进一步的,所述外观特征包括HSV颜色特征,其HSV量化级为:
将上述H、S和V分量的非均匀量化结果合成分量G为:
G=HQsQv+SQv+V (18)
式中,Qs、Qv分别为SV分量量化级数;为各圆形子块对应颜色直方图向量。
作为更进一步的,热图所指示关键关节周围提取纹理分布直方图及颜色直方图,并串接为向量先拼接单个圆形区域,再将表观序列圆形区域乘以对应关节点权重依次连接获得最终颜色纹理特征向量:
作为更进一步的,将关节特征、外观特征融合后给出动作识别结果,具体为:
将关节特征与外观特征以不同权重占比λ1与λ2进行融合,其中λ1+λ2=1,其融合特征表示为:
将其映射至全连接层并基于Softmax激活函数识别动作:
正则化损失函数如下:
其中,第一项基于交叉熵y=(y1,...,yC)T表示真实动作,为第i类动作预测概率;第二项为模型参数正则化约束以抑制过拟合,λ为损失函数平衡因子,W为模型参数。
本发明由于采用以上技术方案,能够取得如下的技术效果:在本发明中,由于构建关节空域拓扑约束以增强关节特征表达有效性。其次,构造具有时空注意力的LSTM网络以定位具有动作高可分性的重要帧及关节,可降低冗余信息极大提高动作的识别率;此外,基于热图提取关键关节周围颜色纹理等表观特征以作为关节深度特征的有效补充,使得重要信息充分利用;最后,融合关节深度及外观特征以获得高可分的动作有效表达,从而实现相似动作有效判别进而提升动作识别能力。本发明在视角变化、噪声、主体多样化等复杂场景下可有效区分相似动作从而提升动作识别精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明动作识别方法的原理框图。
图2为人体25个关节点标注图。
图3为基于空间和时间注意力的LSTM网络模型图。
图4为基于热图定位重要关节示意图。
图5为颜色纹理直方图融合示意图。
具体实施方式
本发明的实施例是在以本发明技术方案为前提下进行实施的,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述实施例。
如图1所示,本实施例提供一种基于深度关节与手工表观特征融合的动作识别方法,具体可以包括:
(1)基于人体特有关节空域关系构建关节空间约束,所述关节空间约束包括关节相对距离约束和高相关度关节对约束;
具体的,具有K(本实施例中K=25)个关节点的人体骨骼结构如图2所示,令Xt,k=(xt,k,yt,k,zt,k)表示第t(t=1,2,…,T)帧内关节k坐标,则所有关节坐标可表示为Xt=(Xt,1,...,Xt,K),其中T为序列帧数。
(1.1)构造关节相对距离约束。无论静止或运动状态,关节间始终具有特定范围内距离关系,运动过程中髋关节Xt,1=(x1,y1,z1)变化幅度较小,且其余关节均围绕髋关节做定向圆周运动,可将其取为坐标中心。髋关节与其它关节之间欧式距离可表示如下:
其中,j=2,3,...,K。
为避免个体间身高差异,归一化dt,j_1可得如下相对距离:
其中,dt,21_1为锁骨及髋关节的距离。由此动作序列中第t帧内关节相对距离可表示为:
Bt=[lt,2_1,lt,3_1...,lt,K_1] (25)
(1.2)构造高相关度关节对约束。本发明只选取相关度较高的一、二(即只有一或两条边相连关节对)级相关信息构建关节空域相关约束以降低计算复杂度,其中关节相对位置由下式获得:
Ct,i_j=Xt,i-Xt,j (26)
其中,Ct,i_j表示第t帧内第j个关节相对第i个关节的坐标,即二者空域拓扑信息。
一、二级相关信息分别如下式所示:
R1=[Ch_k,Cm_n,…,Co_p],R2=[Cq_r,Cu_v,…,Cx_y] (27)
其中,h,k;m,n;o,p等表示仅由一条边相连的关节对,q,r;u,v;x,y等表示由两条边相连的关节对。
有效表征某动作的关节序列空时信息可表示如下:
ft=[Xt;Bt;R1;R2] (28)
(2)构建具有空间和时间注意力机制的LSTM网络以得到关节特征;
步骤(2.1):构建具有空间注意力机制的LSTM网络;
具体的,视频帧及各关节对动作识别影响不同,基于空间注意力机制加权各关节以反应其重要程度从而增强动作可区分度。设t时刻所有关节权重可表示为αt=(αt,1,…,αt,l),l为输入特征ft维数,对应得分st=(st,1,...,st,l)可表示为:
st=tanh(wfft+whht-1+b) (29)
式中为避免前向传播数值上溢问题采用tanh激活函数,wf、wh分别为输入数据ft及上层LSTM隐藏变量ht-1的加权矢量,b为偏差矢量。
经由Softmax计算可得如下可有效表征关节空域重要性的权值:
进而得到如下输入主LSTM网络的空域加权特征:
ft′=αt⊙ft (31)
其中,⊙为Hadamard积算子,表示矢量相应元素相乘。
步骤(2.2):构建具有时间注意力机制的LSTM网络;
具体的,动作识别过程中视频序列存在大量冗余帧,利用时间注意力机制加权序列以突出关键帧同时降低信息冗余度从而提升动作识别精度。各帧权重βt可表示如下:
式中采用具有良好收敛性能的ReLU非线性激活函数,为上一帧隐藏变量,为待学习参数,/>为时空注意力偏差向量。
如图3所示,ft′经由主LSTM网络后的输出为ht′,对其加以时间注意力机制,所得输出特征向量可表示为ot=βt·ht′,而后输入至全连接层可得:
其中,i=1,…,C,C表示不同动作类别骨骼流的向量,wo为权值矩阵,bo为偏置向量。
(3)通过热图定位重要关节并抽取附近外观特征,以作为关节深度特征的有效补充;
具体的,对整幅图像提取外观特征,难以直观反映动作间细微差异。利用热图定位关键帧重要关节,如图4所示,并在其附近半径为R的圆形区域提取颜色纹理直方图,作为关节深度特征的有效补充。
由于关键帧通常处于稳定状态且相邻帧差异较小,因此应避免提取大量相似帧以降低计算复杂度。以各帧时间注意力权重差值为相似帧区分准则以划分相似帧片段,并提取片段中权重最大帧以表征相似帧片段。相邻越相似,权重值越相近,则其差值越小。因此,权重βi(1≤i≤T)的序列帧i与参考帧(参考帧为各片段首帧,1≤i*≤N)之间权重差值为βc,即:
设定相似帧权重差阈值为δ,当βc<δ表明后续帧和当前参考帧类似,而当βc≥δ则帧i*为新参考帧,最终提取所有参考帧N构成表征动作时域特征的关键帧。
需要注意的是,关键内不同权重关节可影响相似动作判别,由各关节权重所得热图则表征了重要关节运动趋势,如图4所示相似动作中具有代表性的三帧,其手部周围区域体现相似动作细微差异。基于此,通过提取手部颜色纹理特征,并加以关节点权重以增强外观信息,从而可有效获取手物信息以为关节特征的有力补充。
由于局部二值模式(Local Binary Pattern,LBP)具有灰度不变及旋转不变性,光照变化鲁棒性较好。重要关节附近纹理可基于LBP表达。设nc为中心点灰度值,n0,n1,n2,n3,n4,n5,n6,n7为邻域点灰度值。以中心像素为阈值依次比较邻域像素点,若像素灰度值大于阈值将该点标记为1,否则为0。将结果采用顺时针构成二进制序列,作为该中心点LBP值,计算公式如下:
其中,为第i*(i*=1,2,…,N)关键帧圆形区域对应纹理直方图向量。
颜色直方图可有效描述各色彩所占比例,选取HSV颜色空间模型将亮度色度分离,因而不易受光照变化等因素干扰。其量化等级:
将上述H、S和V分量的非均匀量化结果合成分量G为:
G=HQsQv+SQv+V (40)
式中,Qs、Qv分别为SV分量量化级数。
由式(37)~式(39)可知,H、S和V分别量化为8级、3级和3级,则Qs=3,Qv=3。同时H、S和V分别取最大值7、2和2,则G的取值范围为[0,71]。可将HSV空间表述为包含72个颜色级别的特征向量,统计该颜色级别出现频率以获得HSV颜色直方图。则为各圆形子块对应颜色直方图向量。
热图所指示关键关节周围提取纹理分布直方图及颜色直方图,并串接为向量为保证局部区域性质,可先拼接单个圆形区域,再将表观序列圆形区域乘以对应关节点权重依次连接即可获得最终颜色纹理特征向量,如图5所示:
(4)将关节特征、外观特征融合后给出动作识别结果;
具体的,通过具有空间约束的时空注意力机制LSTM网络提取运动变化关键关节特征,基于热图定位关键帧及重要关节以手动提取重要关节周围颜色纹理等表观细节信息,所提动作识别模型基于双流网络融合所得深度关节及表观特征。
具体地,将关节特征与表观颜色纹理特征以不同权重占比λ1与λ2进行融合,其中λ1+λ2=1,基于仿真设定其权重λ1=0.6,λ2=0.4,其融合特征可表示为:
将其映射至全连接层并基于Softmax激活函数识别动作:
为进一步提升训练效果,正则化损失函数如下:
其中,第一项基于交叉熵y=(y1,...,yC)T表示真实动作,为第i类动作预测概率;第二项为模型参数正则化约束以抑制过拟合,λ为损失函数平衡因子,W为模型参数。
本发明的效果可通过以下仿真进一步说明:
仿真条件:本实验基于TensorFlow深度学习框架,处理器Intel Core(TM)i7-7700,主频3.60GHz,32GB内存、NVIDIA GeForce GTX 1070。选取4层LSTM作为主网络,时空注意力分别基于单个LSTM,每层神经元个数均为128,表观帧提取半径为5像素点,初始学习率为0.002,训练过程中每经过30个训练次数学习率缩小至10%,采用动量为0.8的随机梯度下降法作为优化函数Adam,平衡因子λ为10-5,批处理大小为64,Dropout=0.45以防止过拟合。
仿真1:由表1可知,基于可变参数关联骨架的LARP与基于3D几何关系建模的Dynamic skeletons没有考虑深层次空时域信息因而识别精度不高;而基于CNN的Multitemporal 3D CNN算法将骨骼关节映射到3D坐标空间以编码为伪图像,通过3DCNN提取深度特征可有效提升精度达到66.85%、72.58%,然而其没有考虑骨骼时域信息;基于RNN的ST-LSTM+Trust Gate与Two-Stream RNN算法分别以相关关节作为RNN输入及利用双流RNN以充分利用空时信息,然而所输入时序存在较大信息冗余从而影响识别效果;基于此,STA-LSTM基于时空注意力机制以识别关键帧及关节从而将精度提升至73.40%、81.20%,然而该方法只考虑关节特征而忽略拓扑关系,故精度改善有限;所提DS-LSTM考虑骨骼帧间与帧内关节链接相对运动趋势,所提Fuzzy fusion+CNN编码关节间空间关系以提升识别精度,然而二者外观特征缺乏,从而限制识别能力;本发明所提方法则将空间约束条件输入具有时空注意力机制的LSTM以抽取高可分关节深度空时特征,并基于热图抽取表观特征以为有效补充从而提升识别精度至88.73%、90.01%,表明复杂场景下所提方法具有较高识别精度。
表1 NTURGB-D数据集各模型所得交叉主体及视角精度对比
仿真2:如表2所示,基于骨骼特征手工提取的HOJ3D方法假设骨骼皆垂直于地面以投影聚类判别动作,而忽略了骨骼之间关系从而导致准确率较低;LARP则基于可变参数关联骨架以表征动作因而性能优于HOJ3D,然其忽略骨骼间动态信息;所提HBRNN-L方法考虑关节序列时域特征,从而获得78.52%的识别率,但缺乏外观信息难以区分相似动作;所提Multi-view dynamics+CNN模型,提取多视角动态图像表征动作以应对空域变化影响,考虑外观特征然缺乏时序特征;本发明所提方法基于具有空时注意力机制的LSTM以有效表征重要关节动态信息并基于热图抽取颜色纹理等外观信息从而获得动作高可分表达进而将识别精度提升至85.73%,分别比HBRNN-L、Multi-view dynamics+CNN提高7.21%,1.53%,表明不同视角及主题多样化条件下所提方法具有较高识别能力。
表2 Northwestern-UCLA数据集实验结果
仿真3:所提方法及对比算法所得准确率如表3所示。由表3可知,所提算法识别率可达95.46%,分别比STA-LSTM、ST-LSTM+Trust Gate、Two-Stream RNN提升3.96%、2.16%、0.66%及0.56%,表明小样本数据集下所提方法识别精度较高。
表3 SBUInteractionDataset数据集实验结果
综上所述,本发明的基于深度关节与手工表观特征融合的动作识别方法,首先将关节空域位置及约束输入至具有时空注意力机制的LSTM网络,以获取时空加权且高可分的深度关节特征;而后引入热图以定位表观序列关键帧及关节,可作为深度关节特征有效补充的关键关节周围表观特征;最后基于双流网络融合手工提取表观特征及LSTM网络所获取深度骨骼特征从而实现相似动作有效判别进而提升动作识别能力。针对视角变化、噪声、主体多样化等复杂场景下所提算法可有效区分相似动作从而提升动作识别精度。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (6)
1.一种基于深度关节与手工表观特征融合的动作识别方法,其特征在于,包括:
基于人体特有关节空域关系构建关节空间约束,所述关节空间约束包括关节相对距离约束和高相关度关节对约束;
构建具有空间和时间注意力机制的LSTM网络以得到关节特征;
通过热图定位重要关节并抽取附近外观特征;
将关节特征、外观特征融合后给出动作识别结果;
基于人体特有关节空域关系构建关节空间约束,具体为:
所有关节坐标表示为Xt=(Xt,1,...,Xt,K),其中Xt,k=(xt,k,yt,k,zt,k)表示第t帧内关节k坐标,且具有K个关节点的人体骨骼结构;
构造关节相对距离约束,取髋关节Xt,1=(x1,y1,z1)坐标为中心,髋关节与其它关节之间欧式距离表示如下:
其中,j=2,3,...,K;
对dt,j_1进行归一化得到如下相对距离为:
其中,dt,21_1为锁骨及髋关节的距离;第t帧内关节相对距离表示为:
Bt=[lt,2_1,lt,3_1...,lt,K_1] (3)
构造高相关度关节对约束,关节相对位置由下式获得:
Ct,i_j=Xt,i-Xt,j (4)
其中,Ct,i_j表示第t帧内第j个关节相对第i个关节的坐标,即二者空域拓扑信息;
只选取相关度较高的一、二级相关信息,分别如下式所示:
R1=[Ch_k,Cm_n,…,Co_p],R2=[Cq_r,Cu_v,…,Cx_y] (5)
其中,h,k;m,n;o,p表示仅由一条边相连的关节对,q,r;u,v;x,y表示由两条边相连的关节对;
某动作的关节序列空时信息表示如下:
ft=[Xt;Bt;R1;R2] (6)
通过热图定位重要关节并抽取附近外观特征,具体为:提取序列帧片段中权重最大帧以表征相似帧片段,时间权重βi的序列帧i与参考帧之间权重差值为βc,即:
设定相似帧权重差阈值为δ,当βc≥δ则帧i*为新参考帧,提取所有参考帧N构成表征动作时域特征的关键帧;同时对关键帧各关节周围抽取半径为R的圆形区域外观特征加以关节权重;
将关节特征、外观特征融合后给出动作识别结果,具体为:
将关节特征与外观特征以不同权重占比λ1与λ2进行融合,其中λ1+λ2=1,其融合特征表示为:
将其映射至全连接层并基于Softmax激活函数识别动作:
正则化损失函数如下:
其中,第一项基于交叉熵y=(y1,...,yC)T表示真实动作,为第i类动作预测概率;第二项为模型参数正则化约束以抑制过拟合,λ为损失函数平衡因子,W为模型参数。
2.根据权利要求1所述一种基于深度关节与手工表观特征融合的动作识别方法,其特征在于,构建具有空间注意力机制的LSTM网络,具体为:
设t时刻所有关节权重表示为αt=(αt,1,...,αt,l),l为输入特征ft维数,对应得分st=(st,1,...,st,l)表示为:
st=tanh(wfft+whht-1+b) (7)
采用tanh激活函数,wf、wh分别为输入数据ft及上层LSTM隐藏变量ht-1的加权矢量,b为偏差矢量;
经由Softmax激活函数获取表征关节空域重要性的权值:
输入主LSTM网络的空域加权特征为:
ft′=αt⊙ft (9)
其中,⊙为Hadamard积算子,表示矢量相应元素相乘。
3.根据权利要求1所述一种基于深度关节与手工表观特征融合的动作识别方法,其特征在于,构建具有时间注意力机制的LSTM网络,具体为:
各帧权重βt表示如下:
式中,采用ReLU非线性激活函数,为上一帧隐藏变量,/> 为待学习参数,/>为时空注意力偏差向量;空域加权特征ft′经由主LSTM网络后输出为ht′,对ht′加以时间注意力机制,所得输出特征向量表示为ot=βt·ht′,而后输入至全连接层得到:
其中,i=1,…,C,C表示不同动作类别骨骼流的向量,wo为权值矩阵,bo为偏置向量。
4.根据权利要求1所述一种基于深度关节与手工表观特征融合的动作识别方法,其特征在于,所述外观特征包括LBP纹理,为获取LBP纹理设nc为中心点灰度值,n0,n1,n2,n3,n4,n5,n6,n7为邻域点灰度值;以中心像素为阈值依次比较邻域像素点,若像素灰度值大于阈值将该邻域像素点标记为1,否则为0;将结果采用顺时针构成二进制序列,作为该中心像素LBP值,公式如下:
其中,为第i*(i*=1,2,…,N)关键帧圆形区域对应纹理直方图向量。
5.根据权利要求1所述一种基于深度关节与手工表观特征融合的动作识别方法,其特征在于,所述外观特征包括HSV颜色特征,其HSV量化级为:
将H、S和V分量的非均匀量化结果合成分量G为:
G=HQsQv+SQv+V (18)
式中,Qs、Qv分别为SV分量量化级数;为各圆形子块对应颜色直方图向量。
6.根据权利要求1所述一种基于深度关节与手工表观特征融合的动作识别方法,其特征在于,热图所指示关键关节周围提取纹理分布直方图及颜色直方图,并串接为向量先拼接单个圆形区域,再将表观序列圆形区域乘以对应关节权重依次连接获得最终颜色纹理特征向量:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800365.2A CN113688672B (zh) | 2021-07-15 | 2021-07-15 | 一种基于深度关节与手工表观特征融合的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800365.2A CN113688672B (zh) | 2021-07-15 | 2021-07-15 | 一种基于深度关节与手工表观特征融合的动作识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113688672A CN113688672A (zh) | 2021-11-23 |
CN113688672B true CN113688672B (zh) | 2023-11-28 |
Family
ID=78577105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110800365.2A Active CN113688672B (zh) | 2021-07-15 | 2021-07-15 | 一种基于深度关节与手工表观特征融合的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113688672B (zh) |
-
2021
- 2021-07-15 CN CN202110800365.2A patent/CN113688672B/zh active Active
Non-Patent Citations (2)
Title |
---|
"Enhanced skeleton visualization for view invariant human action recognition".Pattern Recognition.2017,1-17. * |
"Spatio-Temporal Attention-Based LSTM Networks for 3D Action Recognition and Detection";Sijie Song et al.;IEEE TRANSACTIONS ON IMAGE PROCESSING;第27卷(第7期);3459-3471 * |
Also Published As
Publication number | Publication date |
---|---|
CN113688672A (zh) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135375B (zh) | 基于全局信息整合的多人姿态估计方法 | |
CN108537743B (zh) | 一种基于生成对抗网络的面部图像增强方法 | |
CN111325155B (zh) | 基于残差式3d cnn和多模态特征融合策略的视频动作识别方法 | |
US11232286B2 (en) | Method and apparatus for generating face rotation image | |
WO2020108362A1 (zh) | 人体姿态检测方法、装置、设备及存储介质 | |
CN105869178B (zh) | 一种基于多尺度组合特征凸优化的复杂目标动态场景无监督分割方法 | |
CN109711416B (zh) | 目标识别方法、装置、计算机设备和存储介质 | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
CN112036260B (zh) | 一种自然环境下多尺度子块聚合的表情识别方法及系统 | |
CN112991350B (zh) | 一种基于模态差异缩减的rgb-t图像语义分割方法 | |
WO2021218238A1 (zh) | 图像处理方法和图像处理装置 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN114758288A (zh) | 一种配电网工程安全管控检测方法及装置 | |
CN113706581B (zh) | 基于残差通道注意与多层次分类回归的目标跟踪方法 | |
CN114596520A (zh) | 一种第一视角视频动作识别方法及装置 | |
CN113963032A (zh) | 一种融合目标重识别的孪生网络结构目标跟踪方法 | |
CN112101262B (zh) | 一种多特征融合手语识别方法及网络模型 | |
CN115908517B (zh) | 一种基于对应点匹配矩阵优化的低重叠点云配准方法 | |
Li et al. | Detailed 3D human body reconstruction from multi-view images combining voxel super-resolution and learned implicit representation | |
CN112906520A (zh) | 一种基于姿态编码的动作识别方法及装置 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
Yuan et al. | A novel deep pixel restoration video prediction algorithm integrating attention mechanism | |
CN111325221B (zh) | 基于图像深度信息的图像特征提取方法 | |
CN117576149A (zh) | 一种基于注意力机制的单目标跟踪方法 | |
CN110197226B (zh) | 一种无监督图像翻译方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |