CN111310659A - 基于增进式图卷积神经网络的人体动作识别方法 - Google Patents

基于增进式图卷积神经网络的人体动作识别方法 Download PDF

Info

Publication number
CN111310659A
CN111310659A CN202010094821.1A CN202010094821A CN111310659A CN 111310659 A CN111310659 A CN 111310659A CN 202010094821 A CN202010094821 A CN 202010094821A CN 111310659 A CN111310659 A CN 111310659A
Authority
CN
China
Prior art keywords
video
human body
training
frame
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010094821.1A
Other languages
English (en)
Other versions
CN111310659B (zh
Inventor
柯逍
柯力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202010094821.1A priority Critical patent/CN111310659B/zh
Publication of CN111310659A publication Critical patent/CN111310659A/zh
Application granted granted Critical
Publication of CN111310659B publication Critical patent/CN111310659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Abstract

本发明公开了一种基于增进式图卷积神经网络的人体动作识别方法,首先提取与类别无关的时空对象和计算不同对象提取的特征,并对动作信息检测单元进行定义和表示;其次计算每帧表示的信息熵,选取熵小的帧作为整个视频的关键帧动作;然后将选取的关键动作帧图像输入到人体姿态估计模型;接着通过微小的变换、修剪和对齐的方法自动选择感兴趣的区域方面;最后在检测器检测人体动作的时候产生的冗余检测信息采用非极大值抑制算法来消除,通过适当的数据增强,以便让对称空间变换网络加上单人姿态估计网络适应不完美的人体区域定位结果。本发明可以有效的提高人体动作识别的准确率。

Description

基于增进式图卷积神经网络的人体动作识别方法
技术领域
本发明涉及模式识别与计算机视觉领域,尤其涉及一种基于增进式图卷积神经网络的人体动作识别方法。
背景技术
在计算机视觉和机器学习领域,人体动作识别是一个极具有挑战性的研究课题。目前,人体动作识别中有许多关键问题尚未解决。强大的人体动作建模和特征表示是人体动作识别成功的关键。特征表示和选择是计算机视觉和机器学习中的经典问题,与图像空间中的特征表示不同,视频中的人体动作不仅描述了人类在图像空间中的出现,而且还必须提取外观和姿势的变化。特征表示的问题从二维空间扩展到了三维时空。
从数据集类型的角度来看,对人类动作识别的研究可分为基于颜色(RGB)数据的方法和结合颜色深度数据(RGBD)的方法。随着计算机视觉研究的进展,针对这些数据的人体动作识别方法可以归类为具有机器学习方法的手动设计功能或端到端深度学习算法。无论数据类型和计算方法如何,其核心目标都是提取可靠的人类动作特征。针对RGB数据已经提出了许多动作特征,例如基于时空体的特征,时空兴趣点特征和联合轨迹特征。但是,诸如照相机移动,遮挡,复杂场景以及人体检测和姿势估计方法的局限性等因素限制了基于手工特征的人体动作表示和识别的性能。
基于骨架的人体动作识别的困难之处包括:
(1)传统的骨架建模人体动作识别模型在人体骨架信息提取能力上较弱,特别在实际的真实场景中,由于摄像头的偏移和目标遮挡等因素的影响,会导致几乎提取不到人体的骨架信息特征。
(2)在动作视频中,任何一个表演者对同一个动作类别的表现会产生不一样的肢体动作,即冗余动作。在人体动作识别模型中,冗余动作对识别的准确率有较大的误差影响。
(3)传统的动作识别模型在动作表达能力上较弱,如何提升动作的表达的能力对模型的性能和鲁棒性都有着至关重要的作用。
发明内容
针对上述问题,本发明提供一种基于增进式图卷积神经网络的人体动作识别方法,解决传统的骨架建模人体动作识别模型在人体骨架信息提取能力上较弱,动作信息冗余和动作表达能力弱等问题。其首先提取与类别无关的时空对象和计算不同对象提取的特征,并对动作信息检测单元进行定义和表示;其次计算每帧表示的信息熵,选取熵小的帧作为整个视频的关键帧动作;然后将选取的关键动作帧图像输入到人体姿态估计模型;接着通过微小的变换、修剪和对齐的方法自动选择感兴趣的区域方面;最后在检测器检测人体动作的时候产生的冗余检测信息采用非极大值抑制算法来消除,通过适当的数据增强,以便让对称空间变换网络加上单人姿态估计网络适应不完美的人体区域定位结果。
为实现上述目的,本发明具体采用以下技术方案:
一种基于增进式图卷积神经网络的人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:对每一训练视频提取与类别无关的时空对象,获得与活动相关的时空视频片段构成的训练集和验证集,并对不同对象提取外观和运动特征;
步骤S2:对训练集生成动作信息检测单元,用于定义每一对的时空视频片段的相似程度;
步骤S3:对获取的和增强的数据集利用注意力机制进行关键帧筛选;计算每帧表示的信息熵,选取熵小的帧作为训练视频的关键帧动作;
步骤S4:对筛选出来的关键帧视频利用人体姿态估计模型进行转码和标注;
步骤S5:采用高于重合度的阈值的边界框,进行姿态的精确估计,同时采用对称空间变换网络对人体姿态估计模型进行微调;
步骤S6:构建时空骨骼图卷积神经网络模型,处理人体姿态估计模型的输出结果;
步骤S7:使用训练集进行训练,并在训练的过程中对数据进行增强处理。
进一步地,步骤S1对每一训练视频具体执行以下步骤:
步骤S11:采用高斯混合模型分割每帧视频中的前景区域;
步骤S12:在每个视频中生成对象候选区域,从每个所述对象候选区域中提取外观和运动特征;
步骤S13:将属于同一运动过程的相邻相似目标通过谱聚类进行时间链接,形成时空分割;获得与活动相关的时空视频片段。
进一步地,步骤S2具体包括:
步骤S21:采用兴趣点特征和稠密轨迹描述每个时空视频片段:对于兴趣点的检测,使用长方形检测器,采用可分离线性滤波器计算视频序列的响应;对于局部特征描述,采用光流直方图和方向梯度直方图,分别描述兴趣点周围的物体的运动和外观信息;
步骤S22:对所有训练集的兴趣点特征进行K-means聚类,得到多个视觉单词的词汇,则每个时空视频片段都由该片段中出现的可视词直方图表示;
步骤S23:在对时空视频片段进行描述的基础上,利用标准光谱聚类方法生成动作信息检测单元M(vi,vj);用于定义每一对的时空视频片段vi和vj的相似程度:
Figure BDA0002384602800000031
其中,dstip表示在词带模型上时空兴趣点特征的欧式距离,dtraj是稠密轨迹特征的欧氏距离,ω是权重系数,i和j是表示时空视频片段的编号的参数;
步骤S24:将所有训练视频通过步骤S23生成的动作单元标签表示为A={a1,a2,···,an}。
进一步地,步骤S3具体包括:
步骤S31:以动作单元的共现性作为基本帧的特征fj∈Fi,其中Fi表示从视频Vi中提取的基于帧的特征集;
步骤S32:重复步骤S31,构造特征集F=F1∪F2···∪FN,该特征集从属于不同类别的N个训练视频中提取;
步骤S33:计算每个基于帧的fj特征的信息熵E(fj,T):
E(fj,T)=-ΣcPc(fj,T)log2(pc(fj,T))
其中T为训练视频的集合,yi为视频Vi的动作类别,Pc(fj,T)为动作类别c占所有类别中的视频特征数目,具体计算公式如下:
Figure BDA0002384602800000041
其中,该式的分子是在动作类别c中包含基于帧的特征fj的训练视频的数目,分母是在所有类别训练集中包含特征fj视频的数目;
步骤S34:所有训练视频经过步骤S31-步骤S33提取视频关键帧之后,构造字典F′=F1′∪F2′∪···Fi′···FN′,其中Fi′代表含有动作视频Vi中关键帧的特征。
进一步地,在步骤S4中,所述人体姿态估计模型采用YOLO-V3构建,进行对象位置的预测;根据所述人体姿态估计模型对每个锚盒进行预测四个坐标的偏移ux,uy,uw,uh,生成预测坐标bx,by,bw,bh;在训练期间,采用平方误差损失计算坐标的损失;并根据当前预测获得的边界框相对于真实标签对象重合度的阈值预测每个边界框对象得分。
进一步地,步骤S5具体包括:
采用对称空间变换网络将估计的人体姿态反映射回原始图像的坐标中;所述对称空间变换网络转换和生成网格计算公式如下:
Figure BDA0002384602800000042
其中β1,β2和β3为二维空间向量,
Figure BDA0002384602800000043
表示转换之前的坐标,
Figure BDA0002384602800000044
表示转换之后的坐标;由于对称空间变换网络是空间变换网络的逆过程,得到:
Figure BDA0002384602800000045
Figure BDA0002384602800000046
其中,
Figure BDA0002384602800000047
Figure BDA0002384602800000048
是二维空间向量。
进一步地,步骤S6具体包括:
步骤S61:定义第v个人的姿态Pv,有N′个关节点记为:
Figure BDA0002384602800000051
其中
Figure BDA0002384602800000052
表示姿态Pv的第v′个关节点部位的坐标,
Figure BDA0002384602800000053
表示该坐标位置的置信度的分数;
步骤S62:选取最大置信的姿态作为参考,利用消去法则将靠近参考的区域框进行消除;重复这一过程,直至消除多余的姿势并且最后只有唯一的姿势标识;所述消去法则根据姿态的距离衡量姿态之间的相似度,记为d(Pv,Pv′|Λ),其中的Λ表示函数d的一个参数的集合,采用阈值ε作为消除标准;所述消去法则g(Pv,Pv′|Λ,ε)具体定义为:
g(Pv,Pv′|Λ,ε)=I[d(Pv,Pv′)|Λ,θ≤ε]
其中,Pv和Pv′表示不同人的姿态,θ表示姿态之间的角度,I表示指示函数;,用B代表一个集合,t表示集合B的某一个元素,定义为:
Figure BDA0002384602800000054
如果姿态距离相似度d(Pv,Pv′|Λ)小于阈值ε,则g(Pv,Pv′|Λ,ε)输出为0;
步骤S63:设姿态Pv的区域框为Hv,定义姿态距离函数dpose(Pv,Pv′)以及软匹配函数:
Figure BDA0002384602800000055
其中,
Figure BDA0002384602800000056
表示姿态Pv的第n个关节点部位的坐标,
Figure BDA0002384602800000057
表示该
Figure BDA0002384602800000058
坐标位置的置信度的分数;
Figure BDA0002384602800000059
表示身体部位v的区域位置;σ1表示集合参数Λ里的一个参数。
进一步地,步骤S7具体包括:
步骤S71:构建分布函数G(μg|J)模拟不同姿态之间的真实值和实际预测值存在的相对偏移量分布,其中μg代表由检测器检测到人体位置坐标和标注实际人体坐标之间的偏移量,J代表一个人对应的姿态;
步骤S72:构建分布函数G(μg|atom(J)),其中atom(J)代表姿态J根据关节点部位分解获得的原子部位;对齐所有姿态,并按具有相同的长度肢体进行排列;
步骤S73:采用k-means聚类得到的聚类中心作为人体姿态的原子姿态,对于每一个共享原子姿态,用α表示,首先计算真实值和检测区域边框的偏移量,接着使用该方向上的真实边框的边长进行归一化处理;处理后,偏移量形成一个频率分布,最后将数据拟合成高斯混合分布;对于不同的原子姿态,得到不同的高斯混合分布;
步骤S74:在训练网络的过程中,对于每一个在训练集中标注的姿态J,首先找到对应的原子姿态α,然后通过密集采样计算G(μg|α)得到增强的训练建议。
本发明及其优选方案可以有效的提高人体动作识别的准确率,其解决了传统的骨架建模人体动作识别模型在人体骨架信息提取能力上较弱,动作信息冗余和动作表达能力弱等问题。
附图说明
图1是本发明实施例整体流程示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,一种基于增进式图卷积神经网络的人体动作识别方法,包括以下步骤:
步骤S1:对每一训练视频提取与类别无关的时空对象,获得与活动相关的时空视频片段构成的训练集和验证集,并对不同对象提取外观和运动特征;
在本实施例中,步骤S1具体包括:
步骤S11:使用了高斯混合模型来分割前景区域,并把它作为预处理步骤,以达到分割视频每帧中的背景的目的;
步骤S12:采用了在每个视频中生成对象(包括整个人体和身体部位)候选区域,从每个对象候选区域中提取外观和运动特征,比如外观的相似性、空间重叠、轨迹链接程度等;
步骤S13:将属于同一运动过程的相邻相似目标通过谱聚类进行时间链接,形成时空分割。针对所有训练视频重复上述过程。通过这种方法,可以构造大量与活动相关的时空视频片段。
步骤S2:对训练集生成动作信息检测单元,用于定义每一对的时空视频片段的相似程度;
在本实施例中,步骤S2具体包括:
步骤S21:使用兴趣点特征和稠密轨迹来描述每个时空段,对于兴趣点的检测,使用的是长方形检测器,它采用可分离线性滤波器来计算视频序列的响应。对于局部特征描述,使用的是光流直方图(HOF)和方向梯度直方图(HOG),分别描述了兴趣点周围的物体的运动和外观信息;
步骤S22:对所有训练集的兴趣点特征进行K-means聚类,得到1000个视觉单词的词汇,则每个时空视频片段都由该片段中出现的可视词直方图表示;
步骤S23:在对时空视频片段进行描述的基础上,利用其标准光谱聚类方法生成中层动作单元M(vi,vj)。定义每一对的视频片段vi和vj相似,采用公式:
Figure BDA0002384602800000071
其中,dstip表示在词带模型上时空兴趣点特征的欧式距离,dtraj是稠密轨迹特征的欧氏距离,ω是权重系数,i和j是参数,表示视频片段的编号;
步骤S24:将所有训练视频生成的动作单元标签表示为A={a1,a2,···,an}。这样,由数百个低级特征组成的活动视频由几十个动作单元表示,每个动作单元表征一个部分或整个对象的简单运动过程。显然,基于动作单元的表示更加简洁,语义也更加丰富。
步骤S3:对获取的和增强的数据集利用注意力机制进行关键帧筛选;计算每帧表示的信息熵,选取熵小的帧作为训练视频的关键帧动作;
在本实施例中,步骤S3具体包括:
步骤S31:具有不同动作单元的时空片段在同一帧中重叠,则认为这些动作单元同时在执行。使用这些动作单元的共现性作为基本帧的特征fj∈Fi,其中Fi表示从视频Vi中提取的基于帧的特征集;
步骤S32:通过步骤S31的方法,构造了一个特征集F=F1∪F2···∪FN,该特征集从属于不同类别的N个训练视频中提取;
步骤S33:通过上述步骤,可以从每个动作类中获得相对大量的特征。但实验证明只有一部分是有助于分类的。为了提取每个动作类中的关键帧,则需要计算每个基于帧的fj特征的信息熵E(fj,T):
E(fj,T)=-∑cPc(fj,T)log2(pc(fj,T))
其中T为训练集视频,yi为视频Vi的动作类别。Pc(fj,T)为动作类别c占所有类别中的视频特征数目,具体计算公式如下:
Figure BDA0002384602800000081
其中,分子是在动作类别c中包含基于帧的特征fj的训练视频的数目,分母是在所有类别训练集中包含特征fj视频的数目;
步骤S34:所有的视频经过上述步骤提取视频关键帧之后,接着构造了一个字典F′=F1′∪F2′∪···Fi′···FN′,其中Fi′代表含有动作视频Vi中关键帧的特征。
步骤S4:对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注,为训练人体动作检测与识别模型做好准备。
在本实施例中,步骤S4具体包括以下内容:
由于YOLO-V3采用不同卷积层的特征图进行对象位置的预测,针对小目标的定位会更加好一点,预测的框数会比较多;神经网络对每个锚盒进行预测四个坐标的偏移ux,uy,uw,uh。假如特征图在某一单元的偏移图片左上角的坐标为(ox,oy),锚盒的预选框长和宽大小分别为uw和uh,那么生成的预测坐标bx,by,bw,bh为:
Figure BDA0002384602800000091
Figure BDA0002384602800000092
Figure BDA0002384602800000093
Figure BDA0002384602800000094
在训练期间,采用的是平方误差损失来计算坐标的损失。假如预测坐标的真实标签是
Figure BDA0002384602800000095
预测值为u*,则可以得到效应梯度就是真实标签和预测值的差,即:
Figure BDA0002384602800000096
YOLO-V3预测每个边界框对象得分采用的是逻辑回归。假设当前预测出来的边界框相对与真实标签对象有更接近的重合,则它的得分就是1。假设当前预测出来的边界框效果无法达到最好,即使它与真实标签对象重合达到了一定的阈值,该模型也会对这个预测结果忽视。
步骤S5:采用高于重合度的阈值的边界框,进行姿态的精确估计,同时采用对称空间变换网络对人体姿态估计模型进行微调;
在本实施例中,步骤S5具体包括以下内容:
在数学中,空间变换网络(STN)采用二维仿射,可表示为:
Figure BDA0002384602800000097
其中,
Figure BDA0002384602800000098
Figure BDA0002384602800000099
是属于二维空间向量,
Figure BDA00023846028000000910
表示转换之前的坐标,
Figure BDA00023846028000000911
表示转换之后的坐标;
步骤S51:在单人姿态估计网络之后,生成的姿势会被映射到原始的人体区域框中,即把姿态标记线绘制到对应的人体区域框中。所以,对称空间变换网络应该将估计的人体姿态反映射回原始图像的坐标中。对称空间变换网络中需要为反向转换和生成网格计算公式如下:
Figure BDA00023846028000000912
其中β1,β2和β3是属于二维空间向量,与上述S51一样,
Figure BDA0002384602800000101
表示转换之前的坐标,
Figure BDA0002384602800000102
表示转换之后的坐标;
步骤S52:由于对称空间变换网络是空间变换网络的逆过程,可以得到:
Figure BDA0002384602800000103
Figure BDA0002384602800000104
步骤S53:在提取出高质量的人体区域检测框之后,采用单人姿态估计网络进行姿态的精确估计。在训练中,把对称空间变换网络和单人姿态估计网络结合在一起进行微调。
步骤S6:构建时空骨骼图卷积神经网络模型,处理人体姿态估计模型的输出结果。
在本实施例中,步骤S6具体包括:
步骤S61:对于第v个人的姿态Pv,有N′个关节点记为:
Figure BDA0002384602800000105
其中
Figure BDA0002384602800000106
表示姿态Pv的第v′个关节点部位的坐标,
Figure BDA0002384602800000107
表示该坐标位置的置信度的分数;
步骤S62:选取最大置信的姿态作为参考,利用消去法则将靠近参考的区域框进行消除。这个过程多次重复,直到消除多余的姿势并且最后只有唯一的姿势标识;步骤S63:定义消去法则,需要定义姿态相似度来消除那些离的比较近并且比较相似的姿态。提出了一种姿态的距离来衡量姿态之间的相似度,记为d(Pv,Pv′|Λ),其中的Λ表示函数d的一个参数的集合,采用阈值ε来作为消除标准。消去法则g(Pv,Pv′|Λ,ε)具体可以定义为:
g(Pv,Pv′|Λ,ε)=I[d(Pv,Pv′)|Λ,θ≤ε]
其中,Pv和Pv′表示不同人的姿态,θ表示姿态之间的角度,I代表指示函数,有时候也称为特征函数。
步骤S64:用B代表一个集合,t表示集合B的某一个元素可以定义为:
Figure BDA0002384602800000108
如果姿态距离相似度d(Pv,Pv′|Λ)小于阈值ε,则g(Pv,Pv′|Λ,ε)输出为0。因为对于参考的姿态Pv′来说Pv是冗余的,即表示应该把Pv姿态消去。
步骤S65:现在假设姿态Pv的区域框为Hv,定义一个姿态距离函数dpose(Pv,Pv′)。接着可以定义一个软匹配函数:
Figure BDA0002384602800000111
其中,
Figure BDA0002384602800000112
表示姿态Pv的第n个关节点部位的坐标,
Figure BDA0002384602800000113
表示该坐标位置的置信度的分数。则
Figure BDA0002384602800000114
表示身体部位v的区域位置并且在维度上大约是原来的整体图像的十分之一。σ1表示集合参数Λ里面的一个参数。双曲正切函数tanh可以过消去置信度较低的姿态,并且当两个姿态的置信度都比较高的时候,Fsim函数的输出在1附近。
步骤S7:使用验证集进行神经网络模型的准确率预测。
在本实施例中,步骤S7具体包括:
步骤S71:在检测到的不同姿态之间的真实值和实际预测值的存在相对偏移量分布。采用公式来进一步明确过程,假设存在一个分布函数G(μg|J),其中μg代表由检测器检测到人体位置坐标和标注实际人体坐标之间的偏移量,J是在真实情况下的一个人的姿态。通过模拟这个分布,就可以根据目标检测得到的推荐位置生成一些训练数据;
步骤S72:使用了G(μg|atom(J)),其中atom(J)代表原子部位的组成,这里的J是一个姿态,包含了多个关节点部位。为了得到姿态的原子结构,对齐好所有的姿态,并按具有相同的长度肢体进行排列;
步骤S73:采用k-means聚类得到的聚类中心作为人体姿态的原子姿态。对于每一个共享原子姿态,用α表示,首先计算真实值和检测区域边框的偏移量,接着使用该方向上的真实边框的边长进行归一化处理。处理后,偏移量会形成一个频率分布,最后将数据拟合成高斯混合分布。对于不同的原子姿态,会得到不同的高斯混合分布。
步骤S74:在训练网络的时候,对于每一个在训练集中标注的姿态,首先找到对应的原子姿态α,然后通过密集采样计算G(μg|α)来得到增强的训练建议。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种基于增进式图卷积神经网络的人体动作识别方法,其特征在于,包括以下步骤:
步骤S1:对每一训练视频提取与类别无关的时空对象,获得与活动相关的时空视频片段构成的训练集和验证集,并对不同对象提取外观和运动特征;
步骤S2:对训练集生成动作信息检测单元,用于定义每一对的时空视频片段的相似程度;
步骤S3:对获取的和增强的数据集利用注意力机制进行关键帧筛选;计算每帧表示的信息熵,选取熵小的帧作为训练视频的关键帧动作;
步骤S4:对筛选出来的关键帧视频利用人体姿态估计模型进行转码和标注;
步骤S5:采用高于重合度的阈值的边界框,进行姿态的精确估计,同时采用对称空间变换网络对人体姿态估计模型进行微调;
步骤S6:构建时空骨骼图卷积神经网络模型,处理人体姿态估计模型的输出结果;
步骤S7:使用训练集进行训练,并在训练的过程中对数据进行增强处理。
2.根据权利要求1所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,步骤S1对每一训练视频具体执行以下步骤:
步骤S11:采用高斯混合模型分割每帧视频中的前景区域;
步骤S12:在每个视频中生成对象候选区域,从每个所述对象候选区域中提取外观和运动特征;
步骤S13:将属于同一运动过程的相邻相似目标通过谱聚类进行时间链接,形成时空分割;获得与活动相关的时空视频片段。
3.根据权利要求2所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,步骤S2具体包括:
步骤S21:采用兴趣点特征和稠密轨迹描述每个时空视频片段:对于兴趣点的检测,使用长方形检测器,采用可分离线性滤波器计算视频序列的响应;对于局部特征描述,采用光流直方图和方向梯度直方图,分别描述兴趣点周围的物体的运动和外观信息;
步骤S22:对所有训练集的兴趣点特征进行K-means聚类,得到多个视觉单词的词汇,则每个时空视频片段都由该片段中出现的可视词直方图表示;
步骤S23:在对时空视频片段进行描述的基础上,利用标准光谱聚类方法生成动作信息检测单元M(vi,vj);用于定义每一对的时空视频片段vi和vj的相似程度:
Figure FDA0002384602790000021
其中,dstip表示在词带模型上时空兴趣点特征的欧式距离,dtraj是稠密轨迹特征的欧氏距离,ω是权重系数,i和j是表示时空视频片段的编号的参数;
步骤S24:将所有训练视频通过步骤S23生成的动作单元标签表示为A={a1,a2,…,an}。
4.根据权利要求3所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,步骤S3具体包括:
步骤S31:以动作单元的共现性作为基本帧的特征fj∈Fi,其中Fi表示从视频Vi中提取的基于帧的特征集;
步骤S32:重复步骤S31,构造特征集F=F1∪F2…∪FN,该特征集从属于不同类别的N个训练视频中提取;
步骤S33:计算每个基于帧的fj特征的信息熵E(fj,T):
E(fj,T)=-∑cPc(fj,T)log2(pc(fj,T))
其中T为训练视频的集合,yi为视频Vi的动作类别,Pc(fj,T)为动作类别c占所有类别中的视频特征数目,具体计算公式如下:
Figure FDA0002384602790000022
其中,该式的分子是在动作类别c中包含基于帧的特征fj的训练视频的数目,分母是在所有类别训练集中包含特征fj视频的数目;
步骤S34:所有训练视频经过步骤S31-步骤S33提取视频关键帧之后,构造字典F′=F1′∪F2′∪…Fi′…FN′,其中Fi′代表含有动作视频Vi中关键帧的特征。
5.根据权利要求4所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,在步骤S4中,所述人体姿态估计模型采用YOLO-V3构建,进行对象位置的预测;根据所述人体姿态估计模型对每个锚盒进行预测四个坐标的偏移ux,uy,uw,uh,生成预测坐标bx,by,bw,bh;在训练期间,采用平方误差损失计算坐标的损失;并根据当前预测获得的边界框相对于真实标签对象重合度的阈值预测每个边界框对象得分。
6.根据权利要求5所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,步骤S5具体包括:
采用对称空间变换网络将估计的人体姿态反映射回原始图像的坐标中;所述对称空间变换网络转换和生成网格计算公式如下:
Figure FDA0002384602790000031
其中β1,β2和β3为二维空间向量,
Figure FDA0002384602790000032
表示转换之前的坐标,
Figure FDA0002384602790000033
表示转换之后的坐标;由于对称空间变换网络是空间变换网络的逆过程,得到:
Figure FDA0002384602790000034
Figure FDA0002384602790000035
其中,
Figure FDA0002384602790000036
Figure FDA0002384602790000037
是二维空间向量。
7.根据权利要求6所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,步骤S6具体包括:
步骤S61:定义第v个人的姿态Pv,有N′个关节点记为:
Figure FDA0002384602790000038
其中
Figure FDA0002384602790000039
表示姿态Pv的第v′个关节点部位的坐标,
Figure FDA00023846027900000310
表示该坐标位置的置信度的分数;
步骤S62:选取最大置信的姿态作为参考,利用消去法则将靠近参考的区域框进行消除;重复这一过程,直至消除多余的姿势并且最后只有唯一的姿势标识;
所述消去法则根据姿态的距离衡量姿态之间的相似度,记为d(Pv,Pv′|Λ),其中的Λ表示函数d的一个参数的集合,采用阈值ε作为消除标准;所述消去法则g(Pv,Pv′|Λ,ε)具体定义为:
g(Pv,Pv′|Λ,ε)=I[d(Pv,Pv′)|Λ,θ≤ε]
其中,Pv和Pv′表示不同人的姿态,θ表示姿态之间的角度,I表示指示函数;,用B代表一个集合,t表示集合B的某一个元素,定义为:
Figure FDA0002384602790000041
如果姿态距离相似度d(Pv,Pv′|Λ)小于阈值ε,则g(Pv,Pv′|Λ,ε)输出为0;
步骤S63:设姿态Pv的区域框为Hv,定义姿态距离函数dpose(Pv,Pv′)以及软匹配函数:
Figure FDA0002384602790000042
其中,
Figure FDA0002384602790000043
表示姿态Pv的第n个关节点部位的坐标,
Figure FDA0002384602790000044
表示该
Figure FDA0002384602790000045
坐标位置的置信度的分数;
Figure FDA0002384602790000046
表示身体部位v的区域位置;σ1表示集合参数Λ里的一个参数。
8.根据权利要求7所述的基于增进式图卷积神经网络的人体动作识别方法,其特征在于,步骤S7具体包括:
步骤S71:构建分布函数G(μg|J)模拟不同姿态之间的真实值和实际预测值存在的相对偏移量分布,其中μg代表由检测器检测到人体位置坐标和标注实际人体坐标之间的偏移量,J代表一个人对应的姿态;
步骤S72:构建分布函数G(μg|atom(J)),其中atom(J)代表姿态J根据关节点部位分解获得的原子部位;对齐所有姿态,并按具有相同的长度肢体进行排列;
步骤S73:采用k-means聚类得到的聚类中心作为人体姿态的原子姿态,对于每一个共享原子姿态,用α表示,首先计算真实值和检测区域边框的偏移量,接着使用该方向上的真实边框的边长进行归一化处理;处理后,偏移量形成一个频率分布,最后将数据拟合成高斯混合分布;对于不同的原子姿态,得到不同的高斯混合分布;
步骤S74:在训练网络的过程中,对于每一个在训练集中标注的姿态J,首先找到对应的原子姿态α,然后通过密集采样计算G(μg|α)得到增强的训练建议。
CN202010094821.1A 2020-02-14 2020-02-14 基于增进式图卷积神经网络的人体动作识别方法 Active CN111310659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010094821.1A CN111310659B (zh) 2020-02-14 2020-02-14 基于增进式图卷积神经网络的人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010094821.1A CN111310659B (zh) 2020-02-14 2020-02-14 基于增进式图卷积神经网络的人体动作识别方法

Publications (2)

Publication Number Publication Date
CN111310659A true CN111310659A (zh) 2020-06-19
CN111310659B CN111310659B (zh) 2022-08-09

Family

ID=71147142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010094821.1A Active CN111310659B (zh) 2020-02-14 2020-02-14 基于增进式图卷积神经网络的人体动作识别方法

Country Status (1)

Country Link
CN (1) CN111310659B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914759A (zh) * 2020-08-04 2020-11-10 苏州市职业大学 一种基于视频片段的行人重识别方法、装置、设备及介质
CN112686153A (zh) * 2020-12-30 2021-04-20 西安邮电大学 一种用于人体行为识别的三维骨架关键帧选择方法
CN112818929A (zh) * 2021-02-26 2021-05-18 济南博观智能科技有限公司 一种人员斗殴检测方法、装置、电子设备及存储介质
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN113095196A (zh) * 2021-04-02 2021-07-09 山东师范大学 基于图结构姿态聚类的人体异常行为检测方法及系统
CN113158833A (zh) * 2021-03-31 2021-07-23 电子科技大学 一种基于人体姿态的无人车控制指挥方法
CN113343774A (zh) * 2021-05-13 2021-09-03 东南大学 一种细粒度的工程力学跳水动作模拟与评估方法
CN113486771A (zh) * 2021-06-30 2021-10-08 福州大学 基于关键点检测的视频动作整齐度评估方法及系统
CN113554131A (zh) * 2021-09-22 2021-10-26 四川大学华西医院 医学图像处理和分析方法、计算机设备、系统和存储介质
CN113673327A (zh) * 2021-07-14 2021-11-19 南京邮电大学 一种基于人体姿态估计的罚球命中预测方法
CN114979302A (zh) * 2022-04-22 2022-08-30 长江大学 一种自适应的基于熵的快速工人动作图像传输方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108304795A (zh) * 2018-01-29 2018-07-20 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110084201A (zh) * 2019-04-29 2019-08-02 福州大学 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110647991A (zh) * 2019-09-19 2020-01-03 浙江大学 一种基于无监督领域自适应的三维人体姿态估计方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017133009A1 (zh) * 2016-02-04 2017-08-10 广州新节奏智能科技有限公司 一种基于卷积神经网络的深度图像人体关节定位方法
CN108304795A (zh) * 2018-01-29 2018-07-20 清华大学 基于深度强化学习的人体骨架行为识别方法及装置
CN109101896A (zh) * 2018-07-19 2018-12-28 电子科技大学 一种基于时空融合特征和注意力机制的视频行为识别方法
CN109858390A (zh) * 2019-01-10 2019-06-07 浙江大学 基于端到端时空图学习神经网络的人体骨架的行为识别方法
CN110084201A (zh) * 2019-04-29 2019-08-02 福州大学 一种监控场景下基于特定目标跟踪的卷积神经网络的人体动作识别方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110647991A (zh) * 2019-09-19 2020-01-03 浙江大学 一种基于无监督领域自适应的三维人体姿态估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XIKUN ZHANG ET AL.: "Graph Edge Convolutional Neural Networks for Skeleton-Based Action Recognition", 《IEEE》 *
董安等: "基于图卷积的骨架行为识别", 《现代计算机》 *
陈星宏: "基于3D骨架的肢体动作识别研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914759A (zh) * 2020-08-04 2020-11-10 苏州市职业大学 一种基于视频片段的行人重识别方法、装置、设备及介质
CN111914759B (zh) * 2020-08-04 2024-02-13 苏州市职业大学 一种基于视频片段的行人重识别方法、装置、设备及介质
CN112686153A (zh) * 2020-12-30 2021-04-20 西安邮电大学 一种用于人体行为识别的三维骨架关键帧选择方法
CN112686153B (zh) * 2020-12-30 2023-04-18 西安邮电大学 一种用于人体行为识别的三维骨架关键帧选择方法
CN112818929A (zh) * 2021-02-26 2021-05-18 济南博观智能科技有限公司 一种人员斗殴检测方法、装置、电子设备及存储介质
CN112926453A (zh) * 2021-02-26 2021-06-08 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN112818929B (zh) * 2021-02-26 2023-04-18 济南博观智能科技有限公司 一种人员斗殴检测方法、装置、电子设备及存储介质
CN113158833B (zh) * 2021-03-31 2023-04-07 电子科技大学 一种基于人体姿态的无人车控制指挥方法
CN113158833A (zh) * 2021-03-31 2021-07-23 电子科技大学 一种基于人体姿态的无人车控制指挥方法
CN113095196A (zh) * 2021-04-02 2021-07-09 山东师范大学 基于图结构姿态聚类的人体异常行为检测方法及系统
CN113343774B (zh) * 2021-05-13 2022-11-01 东南大学 一种细粒度的工程力学跳水动作模拟与评估方法
CN113343774A (zh) * 2021-05-13 2021-09-03 东南大学 一种细粒度的工程力学跳水动作模拟与评估方法
CN113486771A (zh) * 2021-06-30 2021-10-08 福州大学 基于关键点检测的视频动作整齐度评估方法及系统
CN113486771B (zh) * 2021-06-30 2023-07-07 福州大学 基于关键点检测的视频动作整齐度评估方法及系统
CN113673327A (zh) * 2021-07-14 2021-11-19 南京邮电大学 一种基于人体姿态估计的罚球命中预测方法
CN113673327B (zh) * 2021-07-14 2023-08-18 南京邮电大学 一种基于人体姿态估计的罚球命中预测方法
CN113554131A (zh) * 2021-09-22 2021-10-26 四川大学华西医院 医学图像处理和分析方法、计算机设备、系统和存储介质
CN114979302A (zh) * 2022-04-22 2022-08-30 长江大学 一种自适应的基于熵的快速工人动作图像传输方法及系统

Also Published As

Publication number Publication date
CN111310659B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN111310659B (zh) 基于增进式图卷积神经网络的人体动作识别方法
CN110147743B (zh) 一种复杂场景下的实时在线行人分析与计数系统及方法
CN110135375B (zh) 基于全局信息整合的多人姿态估计方法
CN111476181B (zh) 一种人体骨架动作的识别方法
Gall et al. Optimization and filtering for human motion capture: A multi-layer framework
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
Yang et al. Extraction of 2d motion trajectories and its application to hand gesture recognition
Sminchisescu et al. Learning joint top-down and bottom-up processes for 3D visual inference
Li et al. Adaptive deep convolutional neural networks for scene-specific object detection
US8311954B2 (en) Recovery of 3D human pose by jointly learning metrics and mixtures of experts
CN108052896A (zh) 基于卷积神经网络与支持向量机的人体行为识别方法
Rout A survey on object detection and tracking algorithms
KR102462934B1 (ko) 디지털 트윈 기술을 위한 영상 분석 시스템
CN107424161B (zh) 一种由粗至精的室内场景图像布局估计方法
CN110533048A (zh) 基于全景区域场景感知的组合语义层次连接模型的实现方法及系统
CN111191630B (zh) 适用于智能交互观演场景的演艺动作识别方法
CN114758288A (zh) 一种配电网工程安全管控检测方法及装置
CN110688965A (zh) 基于双目视觉的ipt模拟训练手势识别方法
CN110348321A (zh) 基于骨骼时空特征及长短时记忆网络的人体动作识别方法
CN113312973A (zh) 一种手势识别关键点特征提取方法及系统
CN113362341A (zh) 基于超像素结构约束的空地红外目标跟踪数据集标注方法
Xu et al. Robust hand gesture recognition based on RGB-D Data for natural human–computer interaction
Zhang et al. Robust head tracking based on multiple cues fusion in the kernel-bayesian framework
CN108009512A (zh) 一种基于卷积神经网络特征学习的人物再识别方法
Sheu et al. Improvement of human pose estimation and processing with the intensive feature consistency network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant