CN110119707B - 一种人体动作识别方法 - Google Patents

一种人体动作识别方法 Download PDF

Info

Publication number
CN110119707B
CN110119707B CN201910387635.4A CN201910387635A CN110119707B CN 110119707 B CN110119707 B CN 110119707B CN 201910387635 A CN201910387635 A CN 201910387635A CN 110119707 B CN110119707 B CN 110119707B
Authority
CN
China
Prior art keywords
sub
scale
feature set
feature
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910387635.4A
Other languages
English (en)
Other versions
CN110119707A (zh
Inventor
杨剑宇
黄瑶
朱晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201910387635.4A priority Critical patent/CN110119707B/zh
Publication of CN110119707A publication Critical patent/CN110119707A/zh
Application granted granted Critical
Publication of CN110119707B publication Critical patent/CN110119707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Abstract

本发明提出一种人体动作识别方法,提取动作样本每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征;对动态特征进行空间多尺度划分,得到各个子特征集;对于每个子特征集,将同一帧所有骨骼关节点的运动特征组成向量;提取所有训练样本的该子特征集的帧特征向量,进行聚类,得到聚类中心;将动作样本所有帧的特征向量输入至各个子特征集构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到直方图表达;对该子特征集进行时间多尺度划分,得到时间多尺度直方图;组成时空多尺度软量化直方图;构成时空多尺度软量化网络;训练时空多尺度软量化网络,将测试样本输入至训练好的网络模型中,实现动作识别。

Description

一种人体动作识别方法
技术领域
本发明涉及一种人体动作识别方法,属于人体动作识别技术领域。
背景技术
人体动作识别是机器视觉领域的一个重要研究方向,在人机交互、虚拟现实、视频检索和安防监控等领域中有着十分广泛的应用。随着深度相机及人体骨架提取算法的发展,人们可以便捷地获取人体骨骼关节点信息。由于人体可以被视为刚性骨骼关节点之间相互连接构建的系统,基于人体骨骼关节点的动作识别相较于基于图像的动作识别有着显著的优越性。
近年来,有许多基于聚类与统计模型的方法被提出,用于动作识别任务。通过聚类所有样本的特征获得码本,各个聚类中心作为码字,用直方图的形式进行量化实现动作描述。然而,传统的硬量化方法难以衡量和优化聚类结果,特征只能单一地属于某一个聚类中心,使得动作描述不够灵活。此外,聚类和直方图量化过程是分开的两个阶段,使得这类型方法不是端到端的,训练过程没法受到样本标签的监督,这也降低了动作描述的有效性和区分度。因此,动作识别方法应当能较为灵活地量化特征,将其按一定权重分配至不同的聚类中心,也应当使用端到端的训练过程,充分利用样本标签的监督。
针对上述动作识别算法的问题,提出一种人体动作识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,技术方案如下,
一种人体动作识别方法,该方法包括以下步骤:
步骤一、提取动作样本的每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征;
步骤二、对动态特征进行空间多尺度划分,得到各个子特征集;
步骤三、对于每个子特征集,将同一帧的所有骨骼关节点的运动特征组成向量;
步骤四、提取所有训练样本的各子特征集下每一帧的特征向量,按各子特征集进行聚类,得到聚类中心;
步骤五、针对各子特征集构建对应的概率分布神经元组,根据聚类结果进行参数初始化;将动作样本的各子特征集下每一帧的特征向量输入至对应的概率分布神经元组,并进行归一化;
步骤六、将每一子特征集中所有帧的特征向量输入至对应概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到直方图表达;
步骤七、对每一子特征集进行时间多尺度划分,不同时间尺度上共享该子特征集对应的概率分布神经元组,得到时间多尺度直方图;
步骤八、将所有子特征集的时间多尺度直方图结合,组成时空多尺度软量化直方图;
步骤九、将时空多尺度软量化直方图作为向量输入至多层感知器,构成完整的时空多尺度软量化网络;
步骤十、训练时空多尺度软量化网络,将测试样本输入至训练好的时空多尺度软量化网络模型中,实现动作识别。
优选的,所述步骤一中,提取动作样本的动态特征的方法为:
每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成,对于任一动作样本A来说,
Figure GDA0002769993830000021
其中,
Figure GDA0002769993830000022
为骨骼关节点j在第f帧的三维坐标,J是骨骼关节点总数,F是动作样本A的总帧数;
骨骼关节点j在第f帧至第f+1帧的动态特征
Figure GDA0002769993830000023
表示为:
Figure GDA0002769993830000024
则动作样本A的动态特征M表示为:
Figure GDA0002769993830000025
进一步的,所述步骤二中,对动态特征进行空间多尺度划分,得到各个子特征集的具体方法为:
对动作样本A的动态特征M进行空间多尺度划分,共分为三级:
在第一级空间尺度中,动作特征R1为整个人体所有骨骼关节点的动态特征:
Figure GDA0002769993830000031
在第一级空间尺度中的动态特征集合M1为:
M1=R1
在第二级空间尺度中,将全部骨骼关节点按身体部位分为五组,分别为四肢的骨骼关节点以及躯干的骨骼关节点,各个分组的骨骼关节点标号的集合分别为P1,P2,P3,P4,P5
五个身体部位的动态特征分别为:
Figure GDA0002769993830000032
Figure GDA0002769993830000033
Figure GDA0002769993830000034
Figure GDA0002769993830000035
Figure GDA0002769993830000036
则在第二级空间尺度中的动作特征集合M2为:
M2={G1,G2,G3,G4,G5};
在第三级空间尺度中,每个骨骼关节点单独作为一组,则第j个骨骼关节点的运动特征为:
Figure GDA0002769993830000041
则在第三级空间尺度中的动作特征集合M3为:
M3={Q1,Q2,…,QJ};
对初始动态特征M(所有骨骼关节点特征)进行空间多尺度划分后,将其重新表示为三层动态特征,其中第一层特征即为所有骨骼关节点特征,因此R1=M1,并且与初始的M相同,第二层为五个肢体部位的特征,第三层为各个骨骼关节点的特征。
至此,将动作样本A的动态特征M划分为空间多尺度动态特征集合T:
T={Ms|s∈[1,S]},
其中,S为空间多尺度划分的总级别数,S的值为3,空间多尺度动态特征T可以表示为所有空间尺度上各个子特征集的组合:
T={R1,G1,…,G5,Q1,…,QJ}。
进一步的,所述步骤三中,对于每个子特征集R1,G1,…,G5,Q1,…,QJ,将同一帧的所有骨骼关节点的运动特征组成向量,对于子特征集R1来说,第f帧的特征向量vf为全部J个骨骼关节点的动态特征:
Figure GDA0002769993830000042
其中,
Figure GDA0002769993830000043
对于子特征集G1,…,G5来说,第f帧的特征向量vf为各个身体部位的J/5个骨骼关节点的动态特征,则第二级空间尺度中第p个子特征集Gp第f帧的特征向量vf为:
Figure GDA0002769993830000044
其中,
Figure GDA0002769993830000045
p∈[1,5];
对于子特征集Q1,…,QJ来说,第f帧的特征向量vf为单个骨骼关节点的动态特征,则第三级空间尺度中第j个子特征集Qj第f帧的特征向量vf为:
Figure GDA0002769993830000051
其中,
Figure GDA0002769993830000052
j∈[1,J];
所述步骤四中,提取所有训练样本的各子特征集R1,G1,…,G5,Q1,…,QJ下每一帧的特征向量,按各子特征集进行聚类,得到聚类中心的方法为:
提取所有训练样本的子特征集R1,G1,…,G5,Q1,…,QJ的所有帧的特征向量,使用K-means算法按各子特征集进行聚类,对于子特征集R1来说,得到KR个聚类中心:{ck|k∈[1,KR]},对于子特征集G1,…,G5来说,分别得到KG个聚类中心:{ck|k∈[1,KG]},对于子特征集Q1,…,QJ来说,得到KQ个聚类中心:{ck|k∈[1,KQ]},所有聚类中心的维度与对应子特征集中的特征向量vf的维度相等。
进一步的,所述步骤五中,概率分布神经元组的概率分布神经元的初始化参数包括尺度缩放系数,所述尺度缩放系数是指对于一个聚类中心所在的簇,其中所有特征向量之间的平均距离;对于子特征集R1来说,尺度缩放系数为:{σk|k∈[1,KR]},共有KR个概率分布神经元,构建成一个概率分布神经元组,对于第k个簇来说,第k个簇中的所有特征向量集合为Ek,其中包含Nk个向量:
Figure GDA0002769993830000054
计算向量间的欧式距离dt,n
Figure GDA0002769993830000053
其中,[et]l表示向量et的第l维数据,t∈[1,Nk-1],n∈[t+1,Nk];则第k个簇的尺度缩放系数σk为:
Figure GDA0002769993830000061
对于特征向量vf,将其输入至第k个概率分布神经元得到的输出Wk(vf)为:
Wk(vf)=exp(-||vf-ck||2k),
对特征向量vf输入至第k个概率分布神经元得到的输出进行归一化:
Figure GDA0002769993830000062
对于各子特征集G1,…,G5,Q1,…,QJ来说,尺度缩放系数与归一化的计算方法与子特征集R1的相同;对于各子特征集G1,…,G5,分别构建成五个概率分布神经元祖,每组概率分布神经元的数量相同,都为KG;对于各子特征集Q1,…,QJ,分别构建成J个概率分布神经元组,每组概率分布神经元的数量相同,都为KQ
进一步的,所述步骤六中,得到直方图表达的方法为:对于子特征集R1来说,将子特征集R1中每一帧的特征向量都输入至对应的第k个概率分布神经元中,并对该概率分布神经元的输出进行累加,得到:
Figure GDA0002769993830000063
所有概率分布神经元的累加值构成了动作特征的软量化直方图表达H:
Figure GDA0002769993830000064
对于各子特征集G1,…,G5,Q1,…,QJ来说,构成直方图表达的方法与子特征集R1的相同。
进一步的,所述步骤七中,对每一子特征集进行时间多尺度划分,得到时间多尺度直方图的方法为:
对于子特征集R1,进一步对其进行时间多尺度划分,共分为3级,不同时间尺度上共享该子特征集的概率分布神经元组:
在第一级时间尺度中,将子特征集R1所有帧的特征向量输入至概率分布神经元组并进行累加,得到直方图表达H1(R1):
Figure GDA0002769993830000071
其中,
Figure GDA0002769993830000072
在第二级时间尺度中,将子特征集R1所有帧的特征向量按时间顺序均分为两组,分别输入至概率分布神经元组并进行累加,得到直方图表达H2(R1)和H3(R1):
Figure GDA0002769993830000073
Figure GDA0002769993830000074
其中,
Figure GDA0002769993830000075
Figure GDA0002769993830000076
在第三级时间尺度中,将动作特征R1所有帧的特征向量按时间顺序均分为四组,分别输入至概率分布神经元组并进行累加,得到直方图表达H4(R1)、H5(R1)、H6(R1)和H7(R1):
Figure GDA0002769993830000081
Figure GDA0002769993830000082
Figure GDA0002769993830000083
Figure GDA0002769993830000084
其中,
Figure GDA0002769993830000085
Figure GDA0002769993830000086
Figure GDA0002769993830000087
Figure GDA0002769993830000088
至此,将直方图H1(R1)、H2(R1)、H3(R1)、H4(R1)、H5(R1)、H6(R1)和H7(R1)相连,组成子特征集R1的时间多尺度软量化直方图表达H(R1):
H(R1)=(H1(R1),H2(R1),H3(R1),H4(R1),H5(R1),H6(R1),H7(R1));
对于各子特征集G1,…,G5,Q1,…,QJ来说,组成时间多尺度软量化直方图表达的方法与子特征集R1的相同,分别对应得到时间多尺度软量化直方图表达H(G1)、…、H(G5)、H(Q1)、…、H(QJ)。
进一步的,所述步骤八中,时空多尺度软量化直方图是将各子特征集对应的时间多尺度软量化直方图表达组合构成的,时空多尺度软量化直方图B:
Figure GDA0002769993830000091
其中,NK=KR+KG×5+KQ×J。
进一步的,所述步骤九中的多层感知器包括全连接层、隐层和输出层,所述隐层共有ND个神经元,与时空多尺度软量化直方图B所在的累加层的所有输出单元通过全连接层全连接,多层感知器的输出层有NC个神经元,表示动作类别号;累加层与隐层间的权重表示为
Figure GDA0002769993830000092
隐层与输出层间的权重表示为
Figure GDA0002769993830000093
隐层神经元的输出D的计算方式如下:
Figure GDA0002769993830000094
其中,φelu是elu激活函数,
Figure GDA0002769993830000095
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure GDA0002769993830000096
其中,φsoftmax为softmax激活函数,
Figure GDA0002769993830000097
是输出层的偏置向量,每一个输出层的神经元都表示对应的一个动作类别;
时空多尺度软量化网络的损失函数L为:
Figure GDA0002769993830000098
其中,
Figure GDA0002769993830000099
是多层感知器的输出向量,
Figure GDA00027699938300000910
是期望的输出向量,其中第t维数据定义为:
Figure GDA00027699938300000911
其中,I是总样本数量,li是第i个样本的标签值。
进一步的,所述步骤十中实现动作识别的具体方法为:将所有训练样本输入至时空多尺度软量化网络,对时空多尺度软量化网络模型进行训练,将测试样本输入进已训练好的时空多尺度软量化网络模型中,输出向量中最大值对应的动作类别即判断为该测试样本的动作类型,实现动作识别。
本发明提出了一种新的时空多尺度软量化方法,可以学习得到动作特征的灵活表示;提出的时空多尺度软量化网络是端到端的神经网络,样本标签可以监督整个网络;在三个空间尺度和三个时间尺度上对骨骼关节点的运动特征进行软量化,捕获了足够多的动作信息,有效增加人体动作描述的区分度;在时间尺度上共享概率分布神经元,减少了参数的数量,提高了方法的效率。
附图说明
图1是本发明一种人体动作识别方法的工作流程图。
图2是本发明动作样本的动态特征提取示意图。
图3是本发明动作样本的第二级空间尺度中骨骼关节点分组示意图。
图4是本发明动作样本的第三级空间尺度中骨骼关节点分组示意图。
图5是本发明时空多尺度软量化网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种人体动作识别方法,包括如下流程:
1、动作样本集总样本数为200,共10个动作类别,每个动作类别有20个样本。每个动作类别中随机选取四分之三的样本划入训练集,剩下的四分之一划入测试集,得到共150个训练样本,50个测试样本。每一个动作样本由人体所有骨骼关节点所有帧的三维坐标组成,以第一个动作样本A为例:
Figure GDA0002769993830000101
其中,
Figure GDA0002769993830000111
为骨骼关节点j在第f帧的三维坐标,该动作样本共有40帧,每帧包含20个骨骼关节点的三维坐标。
2、如图2所示,提取每个骨骼关节点在相邻帧之间的运动作为动作的动态特征,以骨骼关节点j为例,其在第f帧至第f+1帧的动态特征
Figure GDA0002769993830000112
表示为:
Figure GDA0002769993830000113
则动作样本A的动态特征M表示为:
Figure GDA0002769993830000114
3、对动作样本A的动态特征M进行空间多尺度划分,共分为三级:
在第一级空间尺度中,动作特征R1为整个人体所有骨骼关节点的动态特征:
Figure GDA0002769993830000115
在第一级空间尺度中的动态特征集合M1为:
M1=R1
在第二级空间尺度中,将全部骨骼关节点按身体部位分为五组,分别为四肢的骨骼关节点以及躯干的骨骼关节点,如图3所示。各个分组的骨骼关节点标号的集合分别为P1={1,2,3,4},P2={5,6,7,8},P3={9,10,11,12},P4={13,14,15,16},P5={17,18,19,20}。
五个身体部位的动态特征分别为:
Figure GDA0002769993830000116
Figure GDA0002769993830000117
Figure GDA0002769993830000118
Figure GDA0002769993830000119
Figure GDA00027699938300001110
则在第二级空间尺度中的动作特征集合M2为:
M2={G1,G2,G3,G4,G5}。
在第三级空间尺度中,每个骨骼关节点单独作为一组,如图4所示,则第j个骨骼关节点的运动特征为:
Figure GDA0002769993830000121
则在第三级空间尺度中的动作特征集合M3为:
M3={Q1,Q2,…,Q20}。
至此,将动作样本A的动态特征M划分为空间多尺度动态特征T:
T={Ms|s∈[1,S]},
其中,S为空间多尺度划分的总级别数,S的值为3,空间多尺度动态特征T可以表示为所有空间尺度上各个子特征集的组合:
T={R1,G1,…,G5,Q1,…,Q20}。
4、对于空间多尺度动态动作特征集合T的每一个子特征集,构建一组概率分布神经元,形成一个概率分布神经元组,以子特征集R1为例:
第一步:将子特征集R1中的同一帧的特征组成特征向量,以第f帧的特征向量vf为例:
Figure GDA0002769993830000122
其中,
Figure GDA0002769993830000123
第二步:提取所有150个训练样本的子特征集R1的所有帧的特征向量,共5850帧,使用K-means算法进行聚类,得到256个聚类中心:{ck|k∈[1,256]},所有聚类中心的维度与特征向量vf的维度相等,都是60维。
对于每一个聚类中心所在的簇,计算其中所有特征向量之间的平均距离作为尺度缩放系数:{σk|k∈[1,256]}。
以第1个簇中的所有特征向量的集合E1为例,其中包含45个向量:
E1={e1,e2,…,e45}。
计算向量间的欧式距离,以e1和e2间的欧式距离d1,2为例:
Figure GDA0002769993830000131
其中,[e1]l表示向量e1的第l维数据。
则第1个簇的尺度缩放系数σ1为:
Figure GDA0002769993830000132
第三步:构建一组概率分布神经元,共256个,以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数。
第四步:对于特征向量vf,将其输入至第k个概率分布神经元得到的输出Wk(vf)为:
Wk(vf)=exp(-||vf-ck||2k)。
第五步:对特征向量vf输入至第k个概率分布神经元的输出进行归一化:
Figure GDA0002769993830000133
第六步:将子特征集R1中每一帧的特征向量都输入至概率分布神经元组中,对于第k个概率分布神经元,将所有帧的特征向量输入至该神经元的输出进行累加,得到:
Figure GDA0002769993830000134
所有概率分布神经元的累加值构成了动作特征的软量化直方图表达H:
H=(h1(R1),h2(R1),…,h256(R1))。
5、对于子特征集R1,进一步对其进行时间多尺度划分,共分为3级,不同时间尺度上共享该子特征集的概率分布神经元组:
在第一级时间尺度中,将动作特征R1所有帧的特征向量输入至概率分布神经元组并进行累加,得到直方图表达H1(R1):
Figure GDA0002769993830000141
其中,
Figure GDA0002769993830000142
在第二级时间尺度中,将动作特征R1所有帧的特征向量按时间顺序均分为两组,分别输入至概率分布神经元组并进行累加,得到直方图表达H2(R1)和H3(R1):
Figure GDA0002769993830000143
Figure GDA0002769993830000144
其中,
Figure GDA0002769993830000145
Figure GDA0002769993830000146
在第三级时间尺度中,将动作特征R1所有帧的特征向量按时间顺序均分为四组,分别输入至概率分布神经元组并进行累加,得到直方图表达H4(R1)、H5(R1)、H6(R1)和H7(R1):
Figure GDA0002769993830000147
Figure GDA0002769993830000148
Figure GDA0002769993830000149
Figure GDA00027699938300001410
其中,
Figure GDA00027699938300001411
Figure GDA00027699938300001412
Figure GDA0002769993830000151
Figure GDA0002769993830000152
在以上累加概率分布神经元输出的公式中,当计算求和符号上下的数字,也即累加的起始帧和结束帧标号出现小数时,选择向上取整。
至此,将直方图H1(R1)、H2(R1)、H3(R1)、H4(R1)、H5(R1)、H6(R1)和H7(R1)相连,组成子特征集R1的时间多尺度软量化直方图表达H(R1):
H(R1)=(H1(R1),H2(R1),H3(R1),H4(R1),H5(R1),H6(R1),H7(R1))。
6、对于空间多尺度动态动作特征集合M的每一个子特征集,重复步骤4与步骤5,得到各个子特征集的时间多尺度软量化直方图表达:H(R1)、H(G1)、…、H(G5)、H(Q1)、…、H(Q20)。
将以上各个直方图表达组合,构成时空多尺度软量化直方图B:
Figure GDA0002769993830000153
其中,NK=2176=256+128×5+64×20。第二级别空间尺度中的五个特征子集(G1、G2、G3、G4、G5)对应的5组概率分布神经元的数量相同,都为128。第三级别空间尺度中的20个特征子集(Q1、Q2、…、Q20)对应的20组概率分布神经元的数量相同,都为64。
7、如图5所示,将时空多尺度软量化直方图B作为向量输入至具有单隐层的多层感知器,组成时空多尺度软量化网络。
隐层共有512个神经元,与时空多尺度软量化直方图B所处的累加层的所有输出单元通过全连接层全连接,多层感知器的输出层有10个神经元,表示动作类别号。累加层与隐层间的权重表示为
Figure GDA0002769993830000154
隐层与输出层间的权重表示为
Figure GDA0002769993830000155
隐层神经元组的输出D的计算方式如下:
Figure GDA0002769993830000156
其中,φelu是elu激活函数,
Figure GDA0002769993830000161
是隐层的偏置向量。
多层感知器的输出层输出O为:
Figure GDA0002769993830000162
其中,φsoftmax为softmax激活函数,
Figure GDA0002769993830000163
是输出层的偏置向量,每一个输出层的神经元都表示对应的一个动作类别。
网络的损失函数L为:
Figure GDA0002769993830000164
其中,
Figure GDA0002769993830000165
是多层感知器的输出向量,
Figure GDA0002769993830000166
是期望的输出向量,其中第t维数据定义为:
Figure GDA0002769993830000167
其中,训练样本总数量为150,li是第i个样本的标签值。
8、将所有训练样本输入至时空多尺度软量化网络,对时空多尺度软量化网络模型进行训练。将测试样本输入进已训练好的网络模型中,输出向量中最大值对应的动作类别即判断为该测试样本的动作类型,实现动作识别。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种人体动作识别方法,其特征在于:该方法包括以下步骤:
步骤一、提取动作样本的每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征;
步骤二、对动态特征进行空间多尺度划分,得到各个子特征集;
步骤三、对于每个子特征集,将同一帧的所有骨骼关节点的运动特征组成向量;
步骤四、提取所有训练样本的各子特征集下每一帧的特征向量,按各子特征集进行聚类,得到聚类中心;
步骤五、针对各子特征集构建对应的概率分布神经元组,根据聚类结果进行参数初始化;将动作样本的各子特征集下每一帧的特征向量输入至对应的概率分布神经元组,并进行归一化;
步骤六、将每一子特征集中所有帧的特征向量输入至对应概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到直方图表达;
步骤七、对每一子特征集进行时间多尺度划分,不同时间尺度上共享该子特征集对应的概率分布神经元组,得到时间多尺度直方图;
步骤八、将所有子特征集的时间多尺度直方图结合,组成时空多尺度软量化直方图;
步骤九、将时空多尺度软量化直方图作为向量输入至多层感知器,构成完整的时空多尺度软量化网络;
步骤十、训练时空多尺度软量化网络,将测试样本输入至训练好的时空多尺度软量化网络模型中,实现动作识别。
2.根据权利要求1所述的一种人体动作识别方法,其特征在于:所述步骤一中,提取动作样本的动态特征的方法为:
每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成,对于任一动作样本A来说:
Figure FDA0002769993820000011
其中,
Figure FDA0002769993820000021
为骨骼关节点j在第f帧的三维坐标,J是骨骼关节点总数,F是动作样本A的总帧数;
骨骼关节点j在第f帧至第f+1帧的动态特征
Figure FDA0002769993820000022
表示为:
Figure FDA0002769993820000023
则动作样本A的动态特征M表示为:
Figure FDA0002769993820000024
3.根据权利要求2所述的一种人体动作识别方法,其特征在于:所述步骤二中,对动态特征进行空间多尺度划分,得到各个子特征集的具体方法为:
对动作样本A的动态特征M进行空间多尺度划分,共分为三级:
在第一级空间尺度中,动作特征R1为整个人体所有骨骼关节点的动态特征:
Figure FDA0002769993820000025
在第一级空间尺度中的动态特征集合M1为:
M1=R1
在第二级空间尺度中,将全部骨骼关节点按身体部位分为五组,分别为四肢的骨骼关节点以及躯干的骨骼关节点,各个分组的骨骼关节点标号的集合分别为P1,P2,P3,P4,P5
五个身体部位的动态特征分别为:
Figure FDA0002769993820000026
Figure FDA0002769993820000027
Figure FDA0002769993820000028
Figure FDA0002769993820000031
Figure FDA0002769993820000032
则在第二级空间尺度中的动作特征集合M2为:
M2={G1,G2,G3,G4,G5};
在第三级空间尺度中,每个骨骼关节点单独作为一组,则第j个骨骼关节点的运动特征为:
Figure FDA0002769993820000033
则在第三级空间尺度中的动作特征集合M3为:
M3={Q1,Q2,…,QJ};
至此,将动作样本A的动态特征M划分为空间多尺度动态特征集合T:
T={Ms|s∈[1,S]},
其中,S为空间多尺度划分的总级别数,S的值为3,空间多尺度动态特征T可以表示为所有空间尺度上各个子特征集的组合:
T={R1,G1,…,G5,Q1,…,QJ}。
4.根据权利要求3所述的一种人体动作识别方法,其特征在于:所述步骤三中,对于每个子特征集R1,G1,…,G5,Q1,…,QJ,将同一帧的所有骨骼关节点的运动特征组成向量,对于子特征集R1来说,第f帧的特征向量vf为全部J个骨骼关节点的动态特征:
Figure FDA0002769993820000034
其中,
Figure FDA0002769993820000035
对于子特征集G1,…,G5来说,第f帧的特征向量vf为各个身体部位的J/5个骨骼关节点的动态特征,则第二级空间尺度中第p个子特征集Gp第f帧的特征向量vf为:
Figure FDA0002769993820000041
其中,
Figure FDA0002769993820000042
p∈[1,5];
对于子特征集Q1,…,QJ来说,第f帧的特征向量vf为单个骨骼关节点的动态特征,则第三级空间尺度中第j个子特征集Qj第f帧的特征向量vf为:
Figure FDA0002769993820000043
其中,
Figure FDA0002769993820000044
j∈[1,J];
所述步骤四中,提取所有训练样本的各子特征集R1,G1,…,G5,Q1,…,QJ下每一帧的特征向量,按各子特征集进行聚类,得到聚类中心的方法为:
提取所有训练样本的子特征集R1,G1,…,G5,Q1,…,QJ的所有帧的特征向量,使用K-means算法按各子特征集进行聚类,对于子特征集R1来说,得到KR个聚类中心:{ck|k∈[1,KR]},对于子特征集G1,…,G5来说,分别得到KG个聚类中心:{ck|k∈[1,KG]},对于子特征集Q1,…,QJ来说,得到KQ个聚类中心:{ck|k∈[1,KQ]},所有聚类中心的维度与对应子特征集中的特征向量vf的维度相等。
5.根据权利要求4所述的一种人体动作识别方法,其特征在于:所述步骤五中,概率分布神经元组的概率分布神经元的初始化参数包括尺度缩放系数,所述尺度缩放系数是指对于一个聚类中心所在的簇,其中所有特征向量之间的平均距离;对于子特征集R1来说,尺度缩放系数为:{σk|k∈[1,KR]},共有KR个概率分布神经元,构建成一个概率分布神经元组,对于第k个簇来说,第k个簇中的所有特征向量集合为Ek,其中包含Nk个向量:
Figure FDA0002769993820000051
计算向量间的欧式距离dt,n
Figure FDA0002769993820000052
其中,[et]l表示向量et的第l维数据,t∈[1,Nk-1],n∈[t+1,Nk];则第k个簇的尺度缩放系数σk为:
Figure FDA0002769993820000053
对于特征向量vf,将其输入至第k个概率分布神经元得到的输出Wk(vf)为:
Wk(vf)=exp(-||vf-ck||2k),
对特征向量vf输入至第k个概率分布神经元得到的输出进行归一化:
Figure FDA0002769993820000054
对于各子特征集G1,…,G5,Q1,…,QJ来说,尺度缩放系数与归一化的计算方法与子特征集R1的相同;对于各子特征集G1,…,G5,分别构建成五个概率分布神经元祖,每组概率分布神经元的数量相同,都为KG;对于各子特征集Q1,…,QJ,分别构建成J个概率分布神经元组,每组概率分布神经元的数量相同,都为KQ
6.根据权利要求5所述的一种人体动作识别方法,其特征在于:所述步骤六中,得到直方图表达的方法为:对于子特征集R1来说,将子特征集R1中每一帧的特征向量都输入至对应的第k个概率分布神经元中,并对该概率分布神经元的输出进行累加,得到:
Figure FDA0002769993820000061
所有概率分布神经元的累加值构成了动作特征的软量化直方图表达H:
Figure FDA0002769993820000062
对于各子特征集G1,…,G5,Q1,…,QJ来说,构成直方图表达的方法与子特征集R1的相同。
7.根据权利要求6所述的一种人体动作识别方法,其特征在于:所述步骤七中,对每一子特征集进行时间多尺度划分,得到时间多尺度直方图的方法为:
对于子特征集R1,进一步对其进行时间多尺度划分,共分为3级,不同时间尺度上共享该子特征集的概率分布神经元组:
在第一级时间尺度中,将子特征集R1所有帧的特征向量输入至概率分布神经元组并进行累加,得到直方图表达H1(R1):
Figure FDA0002769993820000063
其中,
Figure FDA0002769993820000064
在第二级时间尺度中,将子特征集R1所有帧的特征向量按时间顺序均分为两组,分别输入至概率分布神经元组并进行累加,得到直方图表达H2(R1)和H3(R1):
Figure FDA0002769993820000065
Figure FDA0002769993820000066
其中,
Figure FDA0002769993820000071
Figure FDA0002769993820000072
在第三级时间尺度中,将动作特征R1所有帧的特征向量按时间顺序均分为四组,分别输入至概率分布神经元组并进行累加,得到直方图表达H4(R1)、H5(R1)、H6(R1)和H7(R1):
Figure FDA0002769993820000073
Figure FDA0002769993820000074
Figure FDA0002769993820000075
Figure FDA0002769993820000076
其中,
Figure FDA0002769993820000077
Figure FDA0002769993820000078
Figure FDA0002769993820000079
Figure FDA00027699938200000710
至此,将直方图H1(R1)、H2(R1)、H3(R1)、H4(R1)、H5(R1)、H6(R1)和H7(R1)相连,组成子特征集R1的时间多尺度软量化直方图表达H(R1):
H(R1)=(H1(R1),H2(R1),H3(R1),H4(R1),H5(R1),H6(R1),H7(R1));
对于各子特征集G1,…,G5,Q1,…,QJ来说,组成时间多尺度软量化直方图表达的方法与子特征集R1的相同,分别对应得到时间多尺度软量化直方图表达H(G1)、…、H(G5)、H(Q1)、…、H(QJ)。
8.根据权利要求7所述的一种人体动作识别方法,其特征在于:所述步骤八中,时空多尺度软量化直方图是将各子特征集对应的时间多尺度软量化直方图表达组合构成的,时空多尺度软量化直方图B:
Figure FDA0002769993820000081
其中,NK=KR+KG×5+KQ×J。
9.根据权利要求8所述的一种人体动作识别方法,其特征在于:所述步骤九中的多层感知器包括全连接层、隐层和输出层,所述隐层共有ND个神经元,与时空多尺度软量化直方图B所在的累加层的所有输出单元通过全连接层全连接,多层感知器的输出层有NC个神经元,表示动作类别号;累加层与隐层间的权重表示为
Figure FDA0002769993820000082
隐层与输出层间的权重表示为
Figure FDA0002769993820000083
隐层神经元的输出D的计算方式如下:
Figure FDA0002769993820000084
其中,φelu是elu激活函数,
Figure FDA0002769993820000085
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure FDA0002769993820000086
其中,φsoftmax为softmax激活函数,
Figure FDA0002769993820000087
是输出层的偏置向量,每一个输出层的神经元都表示对应的一个动作类别;
时空多尺度软量化网络的损失函数L为:
Figure FDA0002769993820000091
其中,
Figure FDA0002769993820000092
是多层感知器的输出向量,
Figure FDA0002769993820000093
是期望的输出向量,其中第t维数据定义为:
Figure FDA0002769993820000094
其中,I是总样本数量,li是第i个样本的标签值。
10.根据权利要求9所述的一种人体动作识别方法,其特征在于:所述步骤十中实现动作识别的具体方法为:将所有训练样本输入至时空多尺度软量化网络,对时空多尺度软量化网络模型进行训练,将测试样本输入进已训练好的时空多尺度软量化网络模型中,输出向量中最大值对应的动作类别即判断为该测试样本的动作类型,实现动作识别。
CN201910387635.4A 2019-05-10 2019-05-10 一种人体动作识别方法 Active CN110119707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910387635.4A CN110119707B (zh) 2019-05-10 2019-05-10 一种人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910387635.4A CN110119707B (zh) 2019-05-10 2019-05-10 一种人体动作识别方法

Publications (2)

Publication Number Publication Date
CN110119707A CN110119707A (zh) 2019-08-13
CN110119707B true CN110119707B (zh) 2021-02-02

Family

ID=67522140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910387635.4A Active CN110119707B (zh) 2019-05-10 2019-05-10 一种人体动作识别方法

Country Status (1)

Country Link
CN (1) CN110119707B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199216B (zh) * 2020-01-07 2022-10-28 上海交通大学 面向人体骨架的运动预测方法及系统
CN111274908B (zh) * 2020-01-16 2023-04-14 苏州大学 一种人体动作识别方法
CN111339980B (zh) * 2020-03-04 2020-10-09 镇江傲游网络科技有限公司 基于时空直方图的动作识别方法及装置
CN111986255B (zh) * 2020-09-07 2024-04-09 凌云光技术股份有限公司 一种图像检测模型的多尺度anchor初始化方法与装置
CN113221693B (zh) * 2021-04-29 2023-07-28 苏州大学 一种动作识别方法
CN113221694B (zh) * 2021-04-29 2023-08-01 苏州大学 一种动作识别方法
CN113283400B (zh) * 2021-07-19 2021-11-12 成都考拉悠然科技有限公司 一种基于选择性超图卷积网络的骨架动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799873A (zh) * 2012-07-23 2012-11-28 青岛科技大学 一种人体异常行为识别方法
CN103473530A (zh) * 2013-08-30 2013-12-25 天津理工大学 基于多视图和多模态特征的自适应动作识别方法
CN108629301A (zh) * 2018-04-24 2018-10-09 重庆大学 一种基于运动边界稠密采样和运动梯度直方图的人体动作识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955682B (zh) * 2014-05-22 2018-01-26 深圳市赛为智能股份有限公司 基于surf兴趣点的行为识别方法及装置
US9792531B2 (en) * 2015-09-16 2017-10-17 Siemens Healthcare Gmbh Intelligent multi-scale medical image landmark detection
CN107463949B (zh) * 2017-07-14 2020-02-21 北京协同创新研究院 一种视频动作分类的处理方法及装置
US10356341B2 (en) * 2017-10-13 2019-07-16 Fyusion, Inc. Skeleton-based effects and background replacement
CN108681700B (zh) * 2018-05-04 2021-09-28 苏州大学 一种复杂行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799873A (zh) * 2012-07-23 2012-11-28 青岛科技大学 一种人体异常行为识别方法
CN103473530A (zh) * 2013-08-30 2013-12-25 天津理工大学 基于多视图和多模态特征的自适应动作识别方法
CN108629301A (zh) * 2018-04-24 2018-10-09 重庆大学 一种基于运动边界稠密采样和运动梯度直方图的人体动作识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Depth Pooling Based Large-scale 3D Action Recognition with Convolutional Neural Networks;Pichao Wang et al;《arXiv》;20180317;第1-12页 *

Also Published As

Publication number Publication date
CN110119707A (zh) 2019-08-13

Similar Documents

Publication Publication Date Title
CN110119707B (zh) 一种人体动作识别方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN107526785B (zh) 文本分类方法及装置
Bo et al. Multipath sparse coding using hierarchical matching pursuit
Rifai et al. The manifold tangent classifier
CN109344731B (zh) 基于神经网络的轻量级的人脸识别方法
Coates et al. The importance of encoding versus training with sparse coding and vector quantization
CN111898621B (zh) 一种轮廓形状识别方法
CN112784929B (zh) 一种基于双元组扩充的小样本图像分类方法及装置
CN110321862B (zh) 一种基于紧致三元损失的行人再识别方法
CN107704924B (zh) 同步自适应时空特征表达学习模型的构建方法及相关方法
CN110084211B (zh) 一种动作识别方法
CN113221694A (zh) 一种动作识别方法
Liu et al. Viewpoint invariant action recognition using rgb-d videos
Da et al. Brain CT image classification with deep neural networks
CN112257741A (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN112036511A (zh) 基于注意力机制图卷积神经网络的图像检索方法
Zhao et al. Multi‐mode neural network for human action recognition
Listyalina et al. Accurate and low-cost fingerprint classification via transfer learning
CN110070070B (zh) 一种动作识别方法
CN111274908B (zh) 一种人体动作识别方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN114863572A (zh) 一种多通道异构传感器的肌电手势识别方法
Guzzi et al. Distillation of a CNN for a high accuracy mobile face recognition system
Hao et al. Improved bags-of-words algorithm for scene recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant