CN111274908A - 一种人体动作识别方法 - Google Patents

一种人体动作识别方法 Download PDF

Info

Publication number
CN111274908A
CN111274908A CN202010046088.6A CN202010046088A CN111274908A CN 111274908 A CN111274908 A CN 111274908A CN 202010046088 A CN202010046088 A CN 202010046088A CN 111274908 A CN111274908 A CN 111274908A
Authority
CN
China
Prior art keywords
motion
probability distribution
joint point
body part
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010046088.6A
Other languages
English (en)
Other versions
CN111274908B (zh
Inventor
杨剑宇
黄瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202010046088.6A priority Critical patent/CN111274908B/zh
Publication of CN111274908A publication Critical patent/CN111274908A/zh
Application granted granted Critical
Publication of CN111274908B publication Critical patent/CN111274908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种人体动作识别方法,获取动作样本的动态特征;获取每个骨骼关节点的运动特征并进行聚类;将每个动作样本分成N1个片段;得到每个片段的直方图表达;关节点按身体部位分为五组,获取每个部位在同一时间片段的运动特征;提取所有动作样本每个部位的初始运动特征序列,并对运动特征进行聚类;将每个动作样本的每个部位的运动特征序列分成N2个片段;得到每个部位每个片段的直方图表达;将五个身体部位同一时间片段的直方图连接,作为该时间片段的身体特征;提取所有动作样本的初始身体特征序列,对身体特征进行聚类;得到身体特征的直方图表达;构成并训练时空层级软量化网络,将测试样本输入至网络模型,实现动作识别。

Description

一种人体动作识别方法
技术领域
本发明涉及一种人体动作识别方法,属于人体动作识别技术领域。
背景技术
动作识别是计算机视觉和多媒体领域的一个重要研究课题。它在视频监控、人机交互、病人监护和机器人等领域有着广泛的应用。和基于RGB视频和光流的方法相比,基于骨骼的方法计算效率更高,具有视角不变性,对遮挡不敏感,对杂乱的背景鲁棒。随着对深度视频以及RGB视频中的骨骼进行估计的方法的发展,动作视频中人体骨骼关节点的3D位置能够很容易的被实时获取。
大部分现有的动作识别方法尝试对骨骼序列中的空间关系进行建模,忽略了关节点之间的协作关系。但是,在日常生活中,人们依靠手和身体各部分协作完成特定动作。这些身体部分之间的协作关系是区分不同动作的重要线索。
因此,针对上述动作识别算法的问题,提出一种人体动作识别方法。
发明内容
本发明是为解决现有技术中的问题而提出的,技术方案如下,
一种人体动作识别方法,该方法包括以下步骤:
步骤一、提取动作样本的每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征;
步骤二、获取每个骨骼关节点的运动特征,对所有训练样本的每个骨骼关节点的运动特征进行聚类,得到聚类中心;
步骤三、将每个动作样本分成N1个片段;对于每个骨骼关节点,将每个骨骼关节点的每个片段中所有帧的特征向量输入至对应的每个骨骼关节点构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个骨骼关节点的每个片段的直方图表达;
步骤四、将全部骨骼关节点按身体部位分为五组,对于每个身体部位的每个片段,连接每个身体部位中的每个骨骼关节点的同一时间片段的直方图表达,作为每个身体部位在该时间片段的运动特征;
步骤五、提取所有动作样本每个身体部位的初始运动特征序列,对每个身体部位的初始运动特征序列的所有运动特征进行聚类;
步骤六、将每个动作样本的每个身体部位的运动特征序列分成N2个片段;将每个身体部位的每个片段的所有特征向量输入至构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个身体部位的每个片段的直方图表达;
步骤七、将五个身体部位同一时间片段的直方图连接,作为该时间片段的身体特征,同时获得每个动作样本的每个身体部位在所有时间片段的身体特征序列;提取所有动作样本的初始身体特征序列,对所有动作样本的初始身体特征序列的所有身体特征进行聚类;
步骤八、将每个动作样本的身体特征序列中的特征向量输入至构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个动作样本的身体特征的直方图表达;
步骤九、构成时空层级软量化网络;训练时空层级软量化网络,将测试样本输入至训练好的网络模型中,实现动作识别。
优选的,所述步骤一中,提取动作样本的动态特征的方法为:
每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成,对于任一动作样本A来说:
Figure BDA0002369437000000021
其中,
Figure BDA0002369437000000022
为骨骼关节点j在第f帧的三维坐标,J是骨骼关节点总数,F是动作样本A的总帧数;
骨骼关节点j在第f帧至第f+1帧的动态特征
Figure BDA0002369437000000023
表示为:
Figure BDA0002369437000000024
则动作样本A的动态特征M表示为:
Figure BDA0002369437000000031
进一步的,所述步骤二中,获取每个骨骼关节点的运动特征,对所有训练样本的每个骨骼关节点的运动特征进行聚类,得到聚类中心的方法为:
获取每个骨骼关节点的运动特征,第j个骨骼关节点的运动特征为:
Figure BDA0002369437000000032
提取所有训练样本每个骨骼关节点的所有帧的运动特征,使用K-means算法进行聚类;对于第j个骨骼关节点来说,得到
Figure BDA0002369437000000033
个聚类中心:
Figure BDA0002369437000000034
一共J个骨骼关节点,则一共有
Figure BDA0002369437000000035
个聚类中心。
进一步的,所述步骤三中,将动作样本分成N1个片段的方法为:
对每个动作样本,使用长度为
Figure BDA0002369437000000036
的窗口以步长为
Figure BDA0002369437000000037
将每个动作样本沿时间顺序分成N1个片段,第n1个片段的第j个骨骼关节点的运动特征
Figure BDA0002369437000000038
表示为:
Figure BDA0002369437000000039
第j个骨骼关节点的运动特征Qj可表示为:
Figure BDA00023694370000000310
对于每个骨骼关节点,将每个骨骼关节点的每个片段中所有帧的特征向量输入至每个骨骼关节点对应构建的概率分布神经元,首先要对每个骨骼关节点构建对应的概率分布神经元组,构建方法如下:
根据每个骨骼关节点的运动特征的聚类结果进行参数初始化,需要初始化的参数包括尺度缩放系数,尺度缩放系数是指对于一个聚类中心所在的簇,其中所有特征向量之间的平均距离;以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数;
对于第j个骨骼关节点来说,尺度缩放系数为
Figure BDA00023694370000000311
共有
Figure BDA00023694370000000312
个概率分布神经元,构建成一个概率分布神经元组;对于第k1个簇来说,第k1个簇中的所有特征向量集合为
Figure BDA0002369437000000041
其中包含
Figure BDA0002369437000000042
个向量:
Figure BDA0002369437000000043
计算特征向量间的欧式距离dt,n
Figure BDA0002369437000000044
其中,[et]l表示向量et的第l维数据,
Figure BDA0002369437000000045
L表示特征向量的维度;则第k1个簇的尺度缩放系数
Figure BDA0002369437000000046
为:
Figure BDA0002369437000000047
对于特征向量v,将其输入至第k1个概率分布神经元得到的输出
Figure BDA0002369437000000048
为:
Figure BDA0002369437000000049
对特征向量v输入至第k1个概率分布神经元得到的输出进行归一化:
Figure BDA00023694370000000410
对于第j个骨骼关节点的第n1个片段来说,将第j个骨骼关节点的第n1个片段中的每一帧的特征向量都输入至对应的第k1个概率分布神经元中,并对该概率分布神经元的输出进行累加,得到:
Figure BDA00023694370000000411
所有概率分布神经元的累加值构成了第j个骨骼关节点在第n1个片段中的动作特征的软量化直方图表达
Figure BDA0002369437000000051
Figure BDA0002369437000000052
则动作样本A关于第j个骨骼关节点的直方图表达可表示成
Figure BDA0002369437000000053
所有骨骼关节点的概率分布元组以及对概率分布元组的输出进行累加的累加层构成了骨骼关节点特征软量化层,骨骼关节点特征软量化层的输入为动作样本每个骨骼关节点的每个片段中的所有帧的特征向量,输出为每个骨骼关节点的直方图表达。
进一步的,所述步骤四中,全部骨骼关节点按身体部位分为五组,分别为四肢的骨骼关节点以及躯干的骨骼关节点;对于每个身体部位,将组成每个身体部位的骨骼关节点的同一时间片段的直方图表达连接,作为每个身体部位在该片段的运动特征;对于第n1个片段的第p个身体部位,设该身体部位由kp个关节点组成,则该身体部位在第n1个片段的运动特征表示为
Figure BDA0002369437000000054
则N1个片段的第p个身体部位的运动特征可组成动作样本关于该身体部位的运动特征序列
Figure BDA0002369437000000055
进一步的,所述步骤五中,所有动作样本每个身体部位的初始运动特征序列是根据骨骼关节点特征软量化层初始的尺度缩放系数和概率分布神经元提取的,对每个身体部位的初始运动特征序列的所有运动特征使用K-means算法进行聚类;对于第p个身体部位来说,得到
Figure BDA0002369437000000056
个聚类中心:
Figure BDA0002369437000000057
一共5个身体部位,则一共有
Figure BDA0002369437000000058
个聚类中心。
进一步的,所述步骤六中,将动作样本分成N2个片段的方法为:
对每个动作样本的每个身体部位的运动特征序列,使用长度为
Figure BDA0002369437000000061
的窗口以步长为
Figure BDA0002369437000000062
将该身体部位的运动特征序列分成N2个片段,第p个身体部位在第n2个片段的特征
Figure BDA0002369437000000063
表示为:
Figure BDA0002369437000000064
对每个身体部位构建对应的概率分布神经元组,构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同;对于第p个身体部位来说,尺度缩放系数为
Figure BDA0002369437000000065
共有
Figure BDA0002369437000000066
个概率分布神经元,构建成一个概率分布神经元组;
将每个身体部位的每个片段的所有特征向量输入至对应概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个身体部位的每个片段的直方图表达;记第p个身体部位的第n2个片段的直方图表达为
Figure BDA0002369437000000067
则动作样本A关于第p个身体部位的直方图表达可表示成
Figure BDA0002369437000000068
所有身体部位概率分布元组以及对概率分布元组的输出进行累加的累加层构成了身体部位特征软量化层,身体部位特征软量化层的输入为动作样本每个身体部位的每个片段中的所有特征向量,输出为每个身体部位的直方图表达。
进一步的,所述步骤七中,第n2个同一时间片段的身体特征可表示为
Figure BDA0002369437000000069
则动作样本A的身体特征序列可表示成
Figure BDA00023694370000000610
根据骨骼关节点特征软量化层和身体部位特征软量化层初始的尺度缩放系数和概率分布神经元,提取所有动作样本的初始身体特征序列,对所有的身体特征使用K-means算法进行聚类,得到
Figure BDA00023694370000000611
个聚类中心:
Figure BDA00023694370000000612
进一步的,所述步骤八中,将每个动作样本的身体特征序列中的特征向量输入至构建的概率分布神经元,首先要对身体特征构建对应的概率分布神经元组,构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同;尺度缩放系数为
Figure BDA00023694370000000613
共有个概率分布神经元,构建成一个概率分布神经元组;
将每个动作样本的身体特征序列中的特征向量输入至概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个动作样本的身体特征的直方图表达;记第k3个概率分布神经元的输出累加值为
Figure BDA0002369437000000071
则动作样本A的身体特征的直方图表达可表示成
Figure BDA0002369437000000072
身体特征概率分布元组以及对身体特征概率分布元组的输出进行累加的累加层构成了身体特征软量化层,身体特征软量化层的输入为动作样本身体特征序列中的特征向量,输出为身体特征的直方图表达。
进一步的,所述步骤九中,时空层级软量化网络包括关节点特征软量化层、身体部位特征软量化层、身体特征软量化层、多层感知器,可根据具体问题调整软量化层的层数,皆在本发明保护范围之内;多层感知器包括全连接层、隐层和输出层,隐层共有ND个神经元,与身体特征直方图C所在的累加层的所有输出单元通过全连接层全连接,多层感知器的输出层有NO个神经元,表示动作类别号;累加层与隐层间的权重表示为
Figure BDA0002369437000000073
隐层与输出层间的权重表示为
Figure BDA0002369437000000074
隐层神经元的输出D的计算方式如下:
Figure BDA0002369437000000075
其中,φelu是elu激活函数,
Figure BDA0002369437000000076
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure BDA0002369437000000077
其中,φsoftmax为softmax激活函数,
Figure BDA0002369437000000078
是输出层的偏置向量,每一个输出层的神经元都表示对应的一个动作类别;
时空层级软量化网络的损失函数L为:
Figure BDA0002369437000000081
其中,
Figure BDA0002369437000000082
是多层感知器的输出向量,
Figure BDA0002369437000000083
是期望的输出向量,其中第t维数据定义为:
Figure BDA0002369437000000084
其中,I是训练样本总数量,li是第i个样本的标签值;
将所有训练样本输入至时空层级软量化网络,对时空层级软量化网络模型进行训练,将测试样本输入进已训练好的时空层级软量化网络模型中,输出向量中最大值对应的动作类别即判断为该测试样本的动作类型,实现动作识别。
本发明提出的时空层级软量化网络是端到端的神经网络,样本标签可以监督整个网络。每一层得到的特征是可解释的,反映了骨骼关节点之间、身体部位之间的协作关系。网络中的训练参数较少,降低了计算成本。
附图说明
图1是本发明一种人体动作识别方法的工作流程图。
图2是本发明动作样本的动态特征提取示意图。
图3是本发明时空层级软量化网络示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种人体动作识别方法,包括如下流程:
1、动作样本集总样本数为200,共10个动作类别,每个动作类别有20个样本。每个动作类别中随机选取四分之三的样本划入训练集,剩下的四分之一划入测试集,得到共150个训练样本,50个测试样本。每一个动作样本由人体所有骨骼关节点所有帧的三维坐标组成,以第一个动作样本A为例:
Figure BDA0002369437000000091
其中,
Figure BDA0002369437000000092
为骨骼关节点j在第f帧的三维坐标,该动作样本共有40帧,每帧包含20个骨骼关节点的三维坐标。
如图2所示,提取每个骨骼关节点在相邻帧之间的运动作为动作的动态特征,以骨骼关节点j为例,其在第f帧至第f+1帧的动态特征
Figure BDA0002369437000000093
表示为:
Figure BDA0002369437000000094
则动作样本A的动态特征M表示为:
Figure BDA0002369437000000095
2、获取每个骨骼关节点的运动特征,第j个骨骼关节点的运动特征为:
Figure BDA0002369437000000096
对每个骨骼关节点的运动特征分别进行聚类,得到聚类中心的方法为:
提取所有训练样本每个骨骼关节点的所有帧的运动特征,使用K-means算法进行聚类。对于第j个骨骼关节点来说,得到512个聚类中心:
Figure BDA0002369437000000097
3、对每个动作样本,使用长度为4的窗口以步长为2将该动作样本沿时间顺序分成19个片段,第n1个片段的第j个骨骼关节点的运动特征
Figure BDA0002369437000000098
表示为:
Figure BDA0002369437000000099
第j个骨骼关节点的运动特征Qj可表示为:
Figure BDA00023694370000000910
对每个骨骼关节点构建对应的概率分布神经元组。以第一个骨骼关节点为例,该骨骼关节点聚类得到512个聚类中心:
Figure BDA00023694370000000911
对于每一个聚类中心所在的簇,计算其中所有特征向量之间的平均距离作为尺度缩放系数:
Figure BDA0002369437000000101
特征向量即运动特征向量。
以第1个簇中的所有特征向量的集合E1为例,其中包含45个向量:
E1={e1,e2,…,e45}。
计算特征向量间的欧式距离,以e1和e2间的欧式距离d1,2为例:
Figure BDA0002369437000000102
其中,[e1]l表示特征向量e1的第l维数据。
则第1个簇的尺度缩放系数σ1为:
Figure BDA0002369437000000103
概率分布神经元共512个,以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数。
对于特征向量v,将其输入至第k1个概率分布神经元得到的输出
Figure BDA0002369437000000104
为:
Figure BDA0002369437000000105
对特征向量v输入至第k1个概率分布神经元得到的输出进行归一化:
Figure BDA0002369437000000106
将每个骨骼关节点的每个片段中的所有帧的运动特征向量输入至对应概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个骨骼关节点的每个片段的直方图表达。
对于骨骼关节点j的第n1个片段来说,将骨骼关节点j的第n1个片段中的每一帧的运动特征向量都输入至对应的第k1个概率分布神经元中,并对该概率分布神经元的输出进行累加,得到:
Figure BDA0002369437000000111
所有概率分布神经元的累加值构成了骨骼关节点j在第n1个片段中的动作特征的软量化直方图表达
Figure BDA0002369437000000112
Figure BDA0002369437000000113
则动作样本A关于骨骼关节点j的直方图表达可表示成
Figure BDA0002369437000000114
所有骨骼关节点概率分布元组以及对概率分布元组的输出进行累加的累加层构成了关节点特征软量化层,关节点特征软量化层的输入为动作样本每个骨骼关节点的每个片段中的所有帧的运动特征向量,输出为每个骨骼关节点的直方图表达。
4、将J个骨骼关节点按身体部位分为五组,分别为四肢的骨骼关节点以及躯干的骨骼关节点。对于每个身体部位,将组成每个身体部位的骨骼关节点的同一时间片段的直方图表达连接,作为每个身体部位的该片段的运动特征。对于第n1个片段的第p个身体部位,假设每个身体部位由kp个骨骼关节点组成,则每个身体部位在第n1个片段的运动特征表示为
Figure BDA0002369437000000115
则512个片段的第p个身体部位的运动特征可组成动作样本关于该身体部位的运动特征序列
Figure BDA0002369437000000116
5、根据骨骼关节点特征软量化层初始的尺度缩放系数和概率分布神经元,提取所有动作样本每个身体部位的初始特征序列,对每个身体部位的所有运动特征使用K-means算法进行聚类。对于第p个身体部位来说,得到256个聚类中心:
Figure BDA0002369437000000117
一共5个身体部位,则一共有5×256个聚类中心。
6、对每个动作样本的每个身体部位的运动特征序列,使用长度为2的窗口以步长为1将每个身体部位运动特征序列分成18个片段,第p个身体部位在第n2个片段的运动特征
Figure BDA0002369437000000121
表示为:
Figure BDA0002369437000000122
对每个身体部位构建对应的概率分布神经元组,构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同。对于第p个身体部位来说,尺度缩放系数为
Figure BDA0002369437000000123
共有256个概率分布神经元,构建成一个概率分布神经元组。
将每个身体部位的每个片段的所有特征向量输入至对应概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个身体部位的每个片段的直方图表达。记第p个身体部位的第n2个片段的直方图表达为
Figure BDA0002369437000000124
则动作样本A关于第p个身体部位的直方图表达可表示成
Figure BDA0002369437000000125
所有身体部位概率分布元组以及对概率分布元组的输出进行累加的累加层构成了身体部位特征软量化层,身体部位特征软量化层的输入为动作样本每个身体部位的每个片段中的所有特征向量,输出为每个身体部位的直方图表达。
7、将五个身体部位同一时间片段的直方图连接,作为该时间片段的身体特征。对于第n2个片段,身体特征可表示成
Figure BDA0002369437000000126
则动作样本A的身体特征序列可表示成
Figure BDA0002369437000000127
根据骨骼关节点特征软量化层和身体部位特征软量化层初始的尺度缩放系数和概率分布神经元,提取所有动作样本的初始身体特征序列,对所有的身体特征使用K-means算法进行聚类,得到128个聚类中心:
Figure BDA0002369437000000128
对身体特征构建对应的概率分布神经元组,构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同。尺度缩放系数为
Figure BDA0002369437000000129
共有128个概率分布神经元,构建成一个概率分布神经元组。
8、将身体特征序列中的特征向量输入至概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到身体特征的直方图表达。记第k3个概率分布神经元的输出累加值为
Figure BDA0002369437000000131
则动作样本A的身体特征的直方图表达可表示成C=(C1,C2,…,C128)。
身体特征概率分布元组以及对概率分布元组的输出进行累加的累加层构成了身体特征软量化层,身体特征软量化层的输入为动作样本身体特征序列中的特征向量,输出为身体特征的直方图表达。
9.如图3所示,将身体特征直方图作为向量输入至具有单隐层的多层感知器,构成时空层级软量化网络。隐层共有512个神经元,与身体特征直方图C所在的累加层的所有输出单元通过全连接层全连接,多层感知器的输出层有10个神经元,表示动作类别号;累加层与隐层间的权重表示为
Figure BDA0002369437000000132
隐层与输出层间的权重表示为
Figure BDA0002369437000000133
隐层神经元的输出D的计算方式如下:
Figure BDA0002369437000000134
其中,φelu是elu激活函数,
Figure BDA0002369437000000135
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure BDA0002369437000000136
其中,φsoftmax为softmax激活函数,
Figure BDA0002369437000000137
是输出层的偏置向量,每一个输出层的神经元都表示对应的一个动作类别;
时空层级软量化网络的损失函数L为:
Figure BDA0002369437000000138
其中,
Figure BDA0002369437000000139
是多层感知器的输出向量,
Figure BDA00023694370000001310
是期望的输出向量,其中第t维数据定义为:
Figure BDA0002369437000000141
其中,训练样本总数量为150,li是第i个样本的标签值。
将所有训练样本输入至时空层级软量化网络,对时空层级软量化网络模型进行训练,将测试样本输入进已训练好的时空层级软量化网络模型中,输出向量中最大值对应的动作类别即判断为该测试样本的动作类型,实现动作识别。
尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种人体动作识别方法,其特征在于:该方法包括以下步骤:
步骤一、提取动作样本的每个骨骼关节点在相邻帧之间的运动作为该动作样本的动态特征;
步骤二、获取每个骨骼关节点的运动特征,对所有训练样本的每个骨骼关节点的运动特征进行聚类,得到聚类中心;
步骤三、将每个动作样本分成N1个片段;对于每个骨骼关节点,将每个骨骼关节点的每个片段中所有帧的特征向量输入至对应的每个骨骼关节点构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个骨骼关节点的每个片段的直方图表达;
步骤四、将全部骨骼关节点按身体部位分为五组,对于每个身体部位的每个片段,连接每个身体部位中的每个骨骼关节点的同一时间片段的直方图表达,作为每个身体部位在该时间片段的运动特征;
步骤五、提取所有动作样本每个身体部位的初始运动特征序列,对每个身体部位的初始运动特征序列的所有运动特征进行聚类;
步骤六、将每个动作样本的每个身体部位的运动特征序列分成N2个片段;将每个身体部位的每个片段的所有特征向量输入至构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个身体部位的每个片段的直方图表达;
步骤七、将五个身体部位同一时间片段的直方图连接,作为该时间片段的身体特征,同时获得每个动作样本的每个身体部位在所有时间片段的身体特征序列;提取所有动作样本的初始身体特征序列,对所有动作样本的初始身体特征序列的所有身体特征进行聚类;
步骤八、将每个动作样本的身体特征序列中的特征向量输入至构建的概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个动作样本的身体特征的直方图表达;
步骤九、构成时空层级软量化网络;训练时空层级软量化网络,将测试样本输入至训练好的网络模型中,实现动作识别。
2.根据权利要求1所述的一种人体动作识别方法,其特征在于:所述步骤一中,提取动作样本的动态特征的方法为:
每一个动作样本是由人体所有骨骼关节点所有帧的三维坐标组成,对于任一动作样本A来说:
Figure FDA0002369436990000021
其中,
Figure FDA0002369436990000022
为骨骼关节点j在第f帧的三维坐标,J是骨骼关节点总数,F是动作样本A的总帧数;
骨骼关节点j在第f帧至第f+1帧的动态特征
Figure FDA0002369436990000023
表示为:
Figure FDA0002369436990000024
则动作样本A的动态特征M表示为:
Figure FDA0002369436990000025
3.根据权利要求2所述的一种人体动作识别方法,其特征在于:所述步骤二中,获取每个骨骼关节点的运动特征,对所有训练样本的每个骨骼关节点的运动特征进行聚类,得到聚类中心的方法为:
获取每个骨骼关节点的运动特征,第j个骨骼关节点的运动特征为:
Figure FDA0002369436990000026
提取所有训练样本每个骨骼关节点的所有帧的运动特征,使用K-means算法进行聚类;对于第j个骨骼关节点来说,得到
Figure FDA0002369436990000027
个聚类中心:
Figure FDA0002369436990000028
一共J个骨骼关节点,则一共有
Figure FDA0002369436990000029
个聚类中心。
4.根据权利要求3所述的一种人体动作识别方法,其特征在于:所述步骤三中,将动作样本分成N1个片段的方法为:
对每个动作样本,使用长度为
Figure FDA00023694369900000210
的窗口以步长为
Figure FDA00023694369900000211
将每个动作样本沿时间顺序分成N1个片段,第n1个片段的第j个骨骼关节点的运动特征
Figure FDA0002369436990000031
表示为:
Figure FDA0002369436990000032
第j个骨骼关节点的运动特征Qj可表示为:
Figure FDA0002369436990000033
对于每个骨骼关节点,将每个骨骼关节点的每个片段中所有帧的特征向量输入至每个骨骼关节点对应构建的概率分布神经元,首先要对每个骨骼关节点构建对应的概率分布神经元组,构建方法如下:
根据每个骨骼关节点的运动特征的聚类结果进行参数初始化,需要初始化的参数包括尺度缩放系数,尺度缩放系数是指对于一个聚类中心所在的簇,其中所有特征向量之间的平均距离;以聚类得到的各个聚类中心向量以及尺度缩放系数作为各个神经元的初始参数;
对于第j个骨骼关节点来说,尺度缩放系数为
Figure FDA0002369436990000034
共有
Figure FDA0002369436990000035
个概率分布神经元,构建成一个概率分布神经元组;对于第k1个簇来说,第k1个簇中的所有特征向量集合为
Figure FDA0002369436990000036
其中包含
Figure FDA0002369436990000037
个向量:
Figure FDA0002369436990000038
计算特征向量间的欧式距离dt,n
Figure FDA0002369436990000039
其中,[et]l表示向量et的第l维数据,
Figure FDA00023694369900000310
L表示特征向量的维度;则第k1个簇的尺度缩放系数
Figure FDA00023694369900000311
为:
Figure FDA00023694369900000312
对于特征向量v,将其输入至第k1个概率分布神经元得到的输出
Figure FDA0002369436990000041
为:
Figure FDA0002369436990000042
对特征向量v输入至第k1个概率分布神经元得到的输出进行归一化:
Figure FDA0002369436990000043
对于第j个骨骼关节点的第n1个片段来说,将第j个骨骼关节点的第n1个片段中的每一帧的特征向量都输入至对应的第k1个概率分布神经元中,并对该概率分布神经元的输出进行累加,得到:
Figure FDA0002369436990000044
所有概率分布神经元的累加值构成了第j个骨骼关节点在第n1个片段中的动作特征的软量化直方图表达
Figure FDA0002369436990000045
Figure FDA0002369436990000046
则动作样本A关于第j个骨骼关节点的直方图表达可表示成
Figure FDA0002369436990000047
所有骨骼关节点的概率分布元组以及对概率分布元组的输出进行累加的累加层构成了骨骼关节点特征软量化层,骨骼关节点特征软量化层的输入为动作样本每个骨骼关节点的每个片段中的所有帧的特征向量,输出为每个骨骼关节点的直方图表达。
5.根据权利要求4所述的一种人体动作识别方法,其特征在于:所述步骤四中,全部骨骼关节点按身体部位分为五组,分别为四肢的骨骼关节点以及躯干的骨骼关节点;对于每个身体部位,将组成每个身体部位的骨骼关节点的同一时间片段的直方图表达连接,作为每个身体部位在该片段的运动特征;对于第n1个片段的第p个身体部位,设该身体部位由kp个关节点组成,则该身体部位在第n1个片段的运动特征表示为
Figure FDA0002369436990000051
则N1个片段的第p个身体部位的运动特征可组成动作样本关于该身体部位的运动特征序列
Figure FDA0002369436990000052
6.根据权利要求5所述的一种人体动作识别方法,其特征在于:所述步骤五中,所有动作样本每个身体部位的初始运动特征序列是根据骨骼关节点特征软量化层初始的尺度缩放系数和概率分布神经元提取的,对每个身体部位的初始运动特征序列的所有运动特征使用K-means算法进行聚类;对于第p个身体部位来说,得到
Figure FDA0002369436990000053
个聚类中心:
Figure FDA0002369436990000054
一共5个身体部位,则一共有
Figure FDA0002369436990000055
个聚类中心。
7.根据权利要求6所述的一种人体动作识别方法,其特征在于:所述步骤六中,将动作样本分成N2个片段的方法为:
对每个动作样本的每个身体部位的运动特征序列,使用长度为
Figure FDA0002369436990000056
的窗口以步长为
Figure FDA0002369436990000057
将该身体部位的运动特征序列分成N2个片段,第p个身体部位在第n2个片段的特征
Figure FDA0002369436990000058
表示为:
Figure FDA0002369436990000059
对每个身体部位构建对应的概率分布神经元组,构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同;对于第p个身体部位来说,尺度缩放系数为
Figure FDA00023694369900000510
共有
Figure FDA00023694369900000511
个概率分布神经元,构建成一个概率分布神经元组;
将每个身体部位的每个片段的所有特征向量输入至对应概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个身体部位的每个片段的直方图表达;记第p个身体部位的第n2个片段的直方图表达为
Figure FDA00023694369900000512
则动作样本A关于第p个身体部位的直方图表达可表示成
Figure FDA0002369436990000061
所有身体部位概率分布元组以及对概率分布元组的输出进行累加的累加层构成了身体部位特征软量化层,身体部位特征软量化层的输入为动作样本每个身体部位的每个片段中的所有特征向量,输出为每个身体部位的直方图表达。
8.根据权利要求7所述的一种人体动作识别方法,其特征在于:所述步骤七中,第n2个同一时间片段的身体特征可表示为
Figure FDA0002369436990000062
则动作样本A的身体特征序列可表示成
Figure FDA0002369436990000063
根据骨骼关节点特征软量化层和身体部位特征软量化层初始的尺度缩放系数和概率分布神经元,提取所有动作样本的初始身体特征序列,对所有的身体特征使用K-means算法进行聚类,得到
Figure FDA0002369436990000064
个聚类中心:
Figure FDA0002369436990000065
9.根据权利要求8所述的一种人体动作识别方法,其特征在于:所述步骤八中,将每个动作样本的身体特征序列中的特征向量输入至构建的概率分布神经元,首先要对身体特征构建对应的概率分布神经元组,构建的方法与对每个骨骼关节点构建对应的概率分布神经元组方法相同;尺度缩放系数为
Figure FDA0002369436990000066
共有
Figure FDA0002369436990000067
个概率分布神经元,构建成一个概率分布神经元组;
将每个动作样本的身体特征序列中的特征向量输入至概率分布神经元组的各个概率分布神经元,累加每个概率分布神经元上的所有输出,得到每个动作样本的身体特征的直方图表达;记第k3个概率分布神经元的输出累加值为
Figure FDA0002369436990000068
则动作样本A的身体特征的直方图表达可表示成
Figure FDA0002369436990000069
身体特征概率分布元组以及对身体特征概率分布元组的输出进行累加的累加层构成了身体特征软量化层,身体特征软量化层的输入为动作样本身体特征序列中的特征向量,输出为身体特征的直方图表达。
10.根据权利要求9所述的一种人体动作识别方法,其特征在于:所述步骤九中,时空层级软量化网络包括关节点特征软量化层、身体部位特征软量化层、身体特征软量化层、多层感知器;多层感知器包括全连接层、隐层和输出层,隐层共有ND个神经元,与身体特征直方图C所在的累加层的所有输出单元通过全连接层全连接,多层感知器的输出层有NO个神经元,表示动作类别号;累加层与隐层间的权重表示为
Figure FDA0002369436990000071
隐层与输出层间的权重表示为
Figure FDA0002369436990000072
隐层神经元的输出D的计算方式如下:
Figure FDA0002369436990000073
其中,φelu是elu激活函数,
Figure FDA0002369436990000074
是隐层的偏置向量;
多层感知器的输出层输出O为:
Figure FDA0002369436990000075
其中,φsoftmax为softmax激活函数,
Figure FDA0002369436990000076
是输出层的偏置向量,每一个输出层的神经元都表示对应的一个动作类别;
时空层级软量化网络的损失函数L为:
Figure FDA0002369436990000077
其中,
Figure FDA0002369436990000078
是多层感知器的输出向量,
Figure FDA0002369436990000079
是期望的输出向量,其中第t维数据定义为:
Figure FDA00023694369900000710
其中,I是训练样本总数量,li是第i个样本的标签值;
将所有训练样本输入至时空层级软量化网络,对时空层级软量化网络模型进行训练,将测试样本输入进已训练好的时空层级软量化网络模型中,输出向量中最大值对应的动作类别即判断为该测试样本的动作类型,实现动作识别。
CN202010046088.6A 2020-01-16 2020-01-16 一种人体动作识别方法 Active CN111274908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010046088.6A CN111274908B (zh) 2020-01-16 2020-01-16 一种人体动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010046088.6A CN111274908B (zh) 2020-01-16 2020-01-16 一种人体动作识别方法

Publications (2)

Publication Number Publication Date
CN111274908A true CN111274908A (zh) 2020-06-12
CN111274908B CN111274908B (zh) 2023-04-14

Family

ID=70997248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010046088.6A Active CN111274908B (zh) 2020-01-16 2020-01-16 一种人体动作识别方法

Country Status (1)

Country Link
CN (1) CN111274908B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221694A (zh) * 2021-04-29 2021-08-06 苏州大学 一种动作识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902614A (zh) * 2019-02-25 2019-06-18 重庆邮电大学 一种基于局部时空特征的人体行为识别方法
CN110119707A (zh) * 2019-05-10 2019-08-13 苏州大学 一种人体动作识别方法
CN110348364A (zh) * 2019-07-05 2019-10-18 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902614A (zh) * 2019-02-25 2019-06-18 重庆邮电大学 一种基于局部时空特征的人体行为识别方法
CN110119707A (zh) * 2019-05-10 2019-08-13 苏州大学 一种人体动作识别方法
CN110348364A (zh) * 2019-07-05 2019-10-18 北京工业大学 一种无监督聚类与时空域深度网络相结合的篮球视频群体行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁重阳;刘凯;李光;闫林;陈博洋;钟育民;: "基于时空权重姿态运动特征的人体骨架行为识别研究" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113221694A (zh) * 2021-04-29 2021-08-06 苏州大学 一种动作识别方法
CN113221694B (zh) * 2021-04-29 2023-08-01 苏州大学 一种动作识别方法

Also Published As

Publication number Publication date
CN111274908B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN110532900B (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN108596039B (zh) 一种基于3d卷积神经网络的双模态情感识别方法及系统
CN107341452B (zh) 基于四元数时空卷积神经网络的人体行为识别方法
Esser et al. Cognitive computing systems: Algorithms and applications for networks of neurosynaptic cores
CN110119707B (zh) 一种人体动作识别方法
CN109993100B (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN107609460A (zh) 一种融合时空双重网络流和attention机制的人体行为识别方法
CN109117864A (zh) 基于异构特征融合的冠心病风险预测方法、模型及系统
CN110222140A (zh) 一种基于对抗学习和非对称哈希的跨模态检索方法
Arif et al. Automated body parts estimation and detection using salient maps and Gaussian matrix model
CN106909938B (zh) 基于深度学习网络的视角无关性行为识别方法
CN110188653A (zh) 基于局部特征聚合编码和长短期记忆网络的行为识别方法
CN110321862B (zh) 一种基于紧致三元损失的行人再识别方法
CN109886072B (zh) 基于双向Ladder结构的人脸属性分类系统
CN104063719A (zh) 基于深度卷积网络的行人检测方法及装置
CN110084211B (zh) 一种动作识别方法
Bu Human motion gesture recognition algorithm in video based on convolutional neural features of training images
CN104063721B (zh) 一种基于语义特征自动学习与筛选的人类行为识别方法
CN107330412B (zh) 一种基于深度稀疏表示的人脸年龄估计方法
CN110929558B (zh) 一种基于深度学习的行人重识别方法
CN107169117A (zh) 一种基于自动编码器和dtw的手绘图人体运动检索方法
CN110490109A (zh) 一种基于单目视觉的在线人体康复动作识别方法
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
KR20200010672A (ko) 딥러닝을 이용한 스마트 상품 검색 방법 및 시스템
CN110163156A (zh) 一种基于卷积自编码模型的唇部特征提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant