CN112101243A - 一种基于关键姿势和dtw的人体动作识别方法 - Google Patents
一种基于关键姿势和dtw的人体动作识别方法 Download PDFInfo
- Publication number
- CN112101243A CN112101243A CN202010982823.4A CN202010982823A CN112101243A CN 112101243 A CN112101243 A CN 112101243A CN 202010982823 A CN202010982823 A CN 202010982823A CN 112101243 A CN112101243 A CN 112101243A
- Authority
- CN
- China
- Prior art keywords
- action
- sequence
- distance
- posture
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 153
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 46
- 230000003068 static effect Effects 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000036544 posture Effects 0.000 description 43
- 210000003414 extremity Anatomy 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 210000003141 lower extremity Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 210000001364 upper extremity Anatomy 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及动作识别相关技术领域,尤其为一种基于关键姿势和DTW的人体动作识别方法,包括以下步骤,S10、利用深度传感器采集得到人体动作3D骨架关节坐标数据后,再利用特征关节相对距离描述静态姿势;S20、利用基于时间约束X‑Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述。本发明针对利用聚类算法提取关键帧存在的关键帧个数难以自动确定,朴素聚类会破坏动作时序的问题,提出了一种基于3D骨架关节点空间距离特征和时间约束X‑Means聚类的动作关键帧的提取方法;实验结果表明,该方法能根据动作姿势序列的内容自动确定关键帧数目,并能保存动作的时序特征,提取出的动作关键姿势帧,在视觉上能有效的表征动作姿势序列的内容。
Description
技术领域
本发明涉及动作识别相关技术领域,尤其涉及一种基于关键姿势和DTW的人体动作识别方法。
背景技术
人体动作识别是人体动作分析研究的重要工作,是实现自然人机交互的前提;当前人体动作识别研究主要是围绕着视角受限或不受限的、实时的或者离线的、已分割的或者连续的、单人或多人的动作模式识别;人体动作识别研究属于模式识别范畴,在对动作姿势特征进行数学模型描述后,主要包括标准动作分类器设计和动作分类识别两个基本任务。
人体动作可以看作是多个姿势在时间轴上的组合,姿势序列的长度取决于用户动作空间的复杂度和动作的持续时间;一个持续时间较长的动作将会产生大量的姿势数据,如果直接采用深度传感器获取得到的25个骨架关节点坐标数据描述姿势,不仅计算量大,而且也破坏了人体动作关节点之间固有的联系,所以需要将原始关节点的坐标数据转换为人体结构特征描述量;在人体运动过程中,四肢关节是整个身体变化最为明显的部分,所以利用人体四肢(左上肢、右上肢、左下肢、右下肢)关节点的变化特征来描述动作姿态是一种合理和有效的方式;考虑到四肢边缘关节点的坐标数据易受噪声等因素的影响,所以选择运动过程中肢体中变化最为稳定的10个关节点作为特征关节点,如图1所示。
动作关键帧提取技术是动作抽象描述的主要方法,三维人体动作关键姿势帧,是指动作中最能体现动作变化的,且利用3D骨架关节坐标数据表示的姿势;其中的关键姿势帧序列能对动作姿势序列进行摘要表示,对于连续动作的压缩、检索、编辑以及语义分析起着重要的作用;当前3D动作数据的关键帧提取方法主要分为两类,均匀采样提取和自适应采样提取;其中适应采样提取中的聚类提取方法是将该方法将每一个动作姿势序列当做一个待聚类的样本,样本元素根据特征相似度进行划分集合,通常将聚类得到类中心点或者聚类簇的首帧作为关键帧,这种方法提取关键帧最大的优点就是可以很好的表示原始样本的内容;然而原始聚类方法缺少考虑样本之间的时序性,容易导致动作分析序列失真,并且对动作数据的长度敏感;此外,聚类算法大多需要人为设定聚类中心的个数,即动作姿势序列关键帧的个数,这种方式受人为主观性影响较大。
发明内容
本发明的目的在于提供一种基于关键姿势和DTW的人体动作识别方法,以解决上述背景技术中提出的现有的原始聚类方法缺少考虑样本之间的时序性,容易导致动作分析序列失真,并且对动作数据的长度敏感;此外,聚类算法大多需要人为设定聚类中心的个数,即动作姿势序列关键帧的个数,这种方式受人为主观性影响较大的问题。
为了实现以上目的,本发明采用的技术方案为:一种基于关键姿势和DTW的人体动作识别方法,包括以下步骤,
S10、利用深度传感器采集得到人体动作3D骨架关节坐标数据后,再利用特征关节相对距离描述静态姿势;
S20、利用基于时间约束X-Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述;
S30、建立标准动作模板库,基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离,将待识别的动作划分为与之相似度距离最小的动作类型;
其中,由所述S10借助深度传感器深度传感器跟踪和捕获人体动作关节点的3D空间坐标数据,采用特征关节相对空间距离对动作姿势进行描述;然后利用所述S20中基于时间约束的X-Means算法对动作姿势序列进行聚类筛选,得到最终的关键帧姿势序列组合;最后由所述S30,建立标准动作模板库,基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离,将待识别的动作划分为与之相似度距离最小的动作类型。
进一步的,所述S10中获取3D人体骨架序列和特征姿势包括:
S101、由于基于深度传感器获取得到的人体骨架关节数据是在设备笛卡尔坐标系下的,并且在运动过程中,人体也很难保持与设备空间平面垂直,因此需要将人体运动原始骨架关节坐标数据从深度传感器空间坐标系O′X′Y′Z′映射到人体空间坐标系OXYZ,如图2中所示;
S102、考虑到四肢边缘关节点的坐标数据易受噪声等因素的影响,所以选择运动过程中肢体中变化最为稳定的10个关节点作为特征关节点,如图1中所示;
S103、将动作骨架序列中每一个静态姿势的特征向量可以按照S102的方法获得,即一个姿势使用10个特征距离进行描述,则将整个动作姿势序列可以看做是如下公式矩阵的数据集。
进一步的,所述S20中利用基于时间约束X-Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述包括:
S201、通过S10获得动作姿势特征数据集后,将动作姿势的时序属性当做一个姿势特征,参与到聚类中,即一个姿势Pose采用1个时间特征和10个距离特征进行描述;
S202、在X-Means算法步骤中,每次利用K-Means算法聚类时,进行三点限制:1)选择动作数据序列K均等分后的各个部分的时序中心点作为聚类簇的初始中心点;2)在每一次使用K-Means聚类后,在各个簇内使用距离特征与中心点欧式距离最近的一个姿势代表该聚类簇;3)在计算每个姿势帧样本与聚类中心的距离时,仅仅计算与该姿势帧时序相邻的两个聚类中心的距离,并将该姿势帧样本划分到满足距离最近的簇中去,从而能够保证动作姿势的时序性;
S203、对原始动作姿势序列使用限制X-Means算法来提取关键姿势帧。
进一步的,所述S30中利用DTW进行动作识别包括:
S301、建立标准动作模板;当前动作标准模板建立主要有2种方法:方法一,以某一个动作姿势序列样本作为标准,该方法受人为主观性影响比较大,但能够快速建立动作模板;方法二,利用DTW计算同一语义的多个样本中各个样本同其他动作样本的距离,然后利用与其他动作样本距离之和最小的一个作为标准动作模板,该方法相对于方法一充分考虑了动作的类内差异,但往往需要大量的动作样本;本发明利用S20的X-Means聚类算法提取关键帧,然后利用方法二建立动作标准库;
S302、用DTW算法进行动作匹配识别。
进一步的,所述S302、用DTW算法进行动作匹配识别包括:
S3021、输入待识别的姿势序列S和标准的动作姿势模板库T;
S3022、初始化相似度阀值τ,并按照S3023~S3024分别计算S与T中参考动作姿势序列R(i)的距离d(i)并构成识别距离集合D={d(1),d(2),…,d(M)};
S3023、分别计算S中每一个元素si与R(i)中的每一个元素rj的欧式距离d(si,rj)构造一个n*m的距离矩阵Matrix=(d(si,rj)),i∈[1,m],j∈[1,n];
S3024、基于距离矩阵Matrix,采用局部最优找到一条代价最小的规整路径W={W1,W2,…,WK},且K∈[max(m,n),m+n-1],K为路径的长度,路径代价函数见下式,
此时式中Wk=d(si,rj)k为路径上的第k个元素,且d(si,rj)为Matrix矩阵中第i行和第j列的元素(i,j)值。假设γ(i,j)是从起点(1,1)到Matrix中元素(i,j)的累加距离,则可通过d(si,rj)求累加距离见下式:
γ(i,j)=d(si,rj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}
则S与R(i)的相似度距离d(i)=γ(m,n),即W1到WK的距离,将d(i)加入识别距离集合D;
S3025、查找出集合D的最小值d(i) min,如果d(i) min<θ,则将动作S归类为模板库T中的第i种动作,否则将S视为未知动作类型;
S3026、输出S的动作类型,动作识别完毕。
本发明的有益效果为:
本发明针对利用聚类算法提取关键帧存在的关键帧个数难以自动确定,朴素聚类会破坏动作时序的问题,提出了一种基于3D骨架关节点空间距离特征和时间约束X-Means聚类的动作关键帧的提取方法;实验结果表明,该方法能根据动作姿势序列的内容自动确定关键帧数目,并能保存动作的时序特征,提取出的动作关键姿势帧,在视觉上能有效的表征动作姿势序列的内容。
并且本发明还针对利用原始姿势序列和DTW匹配的动作识别方法存在的识别率低、识别速率慢、鲁棒性弱的问题,提出了基于关键姿势和DTW的人体动作识别方法,实验结果表明,该方法相比于基于原始姿势序列的DTW识别方法具有更高的识别准确率,更快的识别速率和更好的鲁棒性。
附图说明
图1为一种基于关键姿势和DTW的人体动作识别方法的10个人体动作姿势特征结构示意图。
图2为一种基于关键姿势和DTW的人体动作识别方法的Kinect空间坐标系与人体空间坐标系的转换结构示意图。
图3为一种基于关键姿势和DTW的人体动作识别方法的DTW算法的算法原理结构示意图。
图4为一种基于关键姿势和DTW的人体动作识别方法的3D人体骨架模型结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本发明的技术方案,下面结合附图对本发明进行详细描述,本部分的描述仅是示范性和解释性,不应对本发明的保护范围有任何的限制作用。
如图1-图4所示,本发明的具体结构为:一种基于关键姿势和DTW的人体动作识别方法,包括以下步骤,
S10、利用深度传感器采集得到人体动作3D骨架关节坐标数据后,再利用特征关节相对距离描述静态姿势;
S20、利用基于时间约束X-Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述;
S30、建立标准动作模板库,基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离,将待识别的动作划分为与之相似度距离最小的动作类型;
其中,由所述S10借助深度传感器深度传感器跟踪和捕获人体动作关节点的3D空间坐标数据,采用特征关节相对空间距离对动作姿势进行描述;然后利用所述S20中基于时间约束的X-Means算法对动作姿势序列进行聚类筛选,得到最终的关键帧姿势序列组合;最后由所述S30,建立标准动作模板库,基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离,将待识别的动作划分为与之相似度距离最小的动作类型。
优选的,所述S10中获取3D人体骨架序列和特征姿势包括:
S101、由于基于深度传感器获取得到的人体骨架关节数据是在设备笛卡尔坐标系下的,并且在运动过程中,人体也很难保持与设备空间平面垂直,因此需要将人体运动原始骨架关节坐标数据从深度传感器空间坐标系O′X′Y′Z′映射到人体空间坐标系OXYZ,如图2中所示;
S102、考虑到四肢边缘关节点的坐标数据易受噪声等因素的影响,所以选择运动过程中肢体中变化最为稳定的10个关节点作为特征关节点,如图1中所示;
S103、将动作骨架序列中每一个静态姿势的特征向量可以按照S102的方法获得,即一个姿势使用10个特征距离进行描述,则将整个动作姿势序列可以看做是如下公式矩阵的数据集。
具体的,在S101中,两个空间坐标的具体转换过程如下:
考虑到人体重心是整个身体位置变化最稳定的点,所以人体坐标系0XYZ以人体重心,即如图4的“SpineBase”节点作为原点0,并以右手方向为X轴正方向,以头部正上方为Y轴正方向,以人体正前方为Z轴正方向;设P′(x′,y′,z′)为关节点在设备空间坐标系O′X′Y′Z′下的3D坐标,P(x,y,z)为P′对应在人体空间坐标系OXYZ下的坐标,则根据3D图形空间坐标的平移和旋转变换:
得到:
式中x0′,y0′,z0′分别对应“SpineBase”节点O在深度传感器空间坐标系下的坐标量,α表示人体相对XOY平面的旋转角度,且α∈[-70,+70],可通过标定特定关节点获取,由于“HipLeft”和“HipRight”相对Y轴对称,所以选择这两个点为标定点,假设它们在O′X′Y′Z′坐标系下的坐标分别为(x1′,z1′)和(xr′,zr′),则α=arctan((xr′-x1′)/(zr′-z1′))。
优选的,所述S20中利用基于时间约束X-Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述包括:
S201、通过S10获得动作姿势特征数据集后,将动作姿势的时序属性当做一个姿势特征,参与到聚类中,即一个姿势Pose采用1个时间特征和10个距离特征进行描述;
S202、在X-Means算法步骤中,每次利用K-Means算法聚类时,进行三点限制:1)选择动作数据序列K均等分后的各个部分的时序中心点作为聚类簇的初始中心点;2)在每一次使用K-Means聚类后,在各个簇内使用距离特征与中心点欧式距离最近的一个姿势代表该聚类簇;3)在计算每个姿势帧样本与聚类中心的距离时,仅仅计算与该姿势帧时序相邻的两个聚类中心的距离,并将该姿势帧样本划分到满足距离最近的簇中去,从而能够保证动作姿势的时序性;
S203、对原始动作姿势序列使用限制X-Means算法来提取关键姿势帧。
具体的,在S20中提到的X-Means是一种针对K-Means存在的计算规模受限、聚类的个数K必须由人为指定等问题改进得到的聚类算法;它根据贝叶斯信息准则(BayesianInformationCriterion,BIC)确定聚类的个数:通过反复使用K-Means进行聚类,每次聚类完成后根据BIC评分值决定聚类后得到簇是否为了更好的适应这个数据集而继续进行划分,此外,该算法通过嵌入树型的数据集以及将节点存储为统计变量的方式来大幅度提高算法的执行速度。
优选的,所述S30中利用DTW进行动作识别包括:
S301、建立标准动作模板;当前动作标准模板建立主要有2种方法:方法一,以某一个动作姿势序列样本作为标准,该方法受人为主观性影响比较大,但能够快速建立动作模板;方法二,利用DTW计算同一语义的多个样本中各个样本同其他动作样本的距离,然后利用与其他动作样本距离之和最小的一个作为标准动作模板,该方法相对于方法一充分考虑了动作的类内差异,但往往需要大量的动作样本;本发明利用S20的X-Means聚类算法提取关键帧,然后利用方法二建立动作标准库;
S302、用DTW算法进行动作匹配识别。
具体的,S30中的DTW算法是一种把时间规整和距离测量相结合的非线性规整技术,常用于测量两个长度不相等的时间序列数据的相似度;算法原理如图3所示,采用动态规划(DP)的思想,DTW通过特定的时间弯折函数在测试序列T与参考序列R之间查找一条非线性弯折路径,沿着该路径两个序列之间的距离最小,则相似度最高;DTW算法是现有技术。
优选的,所述S302、用DTW算法进行动作匹配识别包括:
S3021、输入待识别的姿势序列S和标准的动作姿势模板库T;
S3022、初始化相似度阀值τ,并按照S3023~S3024分别计算S与T中参考动作姿势序列R(i)的距离d(i)并构成识别距离集合D={d(1),d(2),…,d(M)};
S3023、分别计算S中每一个元素si与R(i)中的每一个元素rj的欧式距离d(si,rj)构造一个n*m的距离矩阵Matrix=(d(si,rj)),i∈[1,m],j∈[1,n];
S3024、基于距离矩阵Matrix,采用局部最优找到一条代价最小的规整路径W={W1,W2,…,WK},且K∈[max(m,n),m+n-1],K为路径的长度,路径代价函数见下式,
此时式中Wk=d(si,rj)k为路径上的第k个元素,且d(si,rj)为Matrix矩阵中第i行和第j列的元素(i,j)值。假设γ(i,j)是从起点(1,1)到Matrix中元素(i,j)的累加距离,则可通过d(si,rj)求累加距离见下式:
γ(i,j)=d(si,rj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}
则S与R(i)的相似度距离d(i)=γ(m,n),即W1到WK的距离,将d(i)加入识别距离集合D;
S3025、查找出集合D的最小值d(i) min,如果d(i) min<θ,则将动作S归类为模板库T中的第i种动作,否则将S视为未知动作类型;
S3026、输出S的动作类型,动作识别完毕。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
Claims (5)
1.一种基于关键姿势和DTW的人体动作识别方法,其特征在于:包括以下步骤,
S10、利用深度传感器采集得到人体动作3D骨架关节坐标数据后,再利用特征关节相对距离描述静态姿势;
S20、利用基于时间约束X-Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述;
S30、建立标准动作模板库,基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离,将待识别的动作划分为与之相似度距离最小的动作类型;
其中,由所述S10借助深度传感器深度传感器跟踪和捕获人体动作关节点的3D空间坐标数据,采用特征关节相对空间距离对动作姿势进行描述;然后利用所述S20中基于时间约束的X-Means算法对动作姿势序列进行聚类筛选,得到最终的关键帧姿势序列组合;最后由所述S30,建立标准动作模板库,基于DTW算法计算组成待识别动作的关键姿势帧序列与标准动作模板库中的动作关键姿势帧序列之间的相似度距离,将待识别的动作划分为与之相似度距离最小的动作类型。
2.根据权利要求1所述的一种基于关键姿势和DTW的人体动作识别方法,其特征在于:所述S10中获取3D人体骨架序列和特征姿势包括:
S101、由于基于深度传感器获取得到的人体骨架关节数据是在设备笛卡尔坐标系下的,并且在运动过程中,人体也很难保持与设备空间平面垂直,因此需要将人体运动原始骨架关节坐标数据从深度传感器空间坐标系O′X′Y′Z′映射到人体空间坐标系OXYZ,如图2中所示;
S102、考虑到四肢边缘关节点的坐标数据易受噪声等因素的影响,所以选择运动过程中肢体中变化最为稳定的10个关节点作为特征关节点,如图1中所示;
S103、将动作骨架序列中每一个静态姿势的特征向量可以按照S102的方法获得,即一个姿势使用10个特征距离进行描述,则将整个动作姿势序列可以看做是如下公式矩阵的数据集。
3.根据权利要求1所述的一种基于关键姿势和DTW的人体动作识别方法,其特征在于:所述S20中利用基于时间约束X-Means聚类算法,对原始动作姿势序列提取关键姿势帧进行描述包括:
S201、通过S10获得动作姿势特征数据集后,将动作姿势的时序属性当做一个姿势特征,参与到聚类中,即一个姿势Pose采用1个时间特征和10个距离特征进行描述;
S202、在X-Means算法步骤中,每次利用K-Means算法聚类时,进行三点限制:1)选择动作数据序列K均等分后的各个部分的时序中心点作为聚类簇的初始中心点;2)在每一次使用K-Means聚类后,在各个簇内使用距离特征与中心点欧式距离最近的一个姿势代表该聚类簇;3)在计算每个姿势帧样本与聚类中心的距离时,仅仅计算与该姿势帧时序相邻的两个聚类中心的距离,并将该姿势帧样本划分到满足距离最近的簇中去,从而能够保证动作姿势的时序性;
S203、对原始动作姿势序列使用限制X-Means算法来提取关键姿势帧。
4.根据权利要求1和3所述的一种基于关键姿势和DTW的人体动作识别方法,其特征在于:所述S30中利用DTW进行动作识别包括:
S301、建立标准动作模板;当前动作标准模板建立主要有2种方法:方法一,以某一个动作姿势序列样本作为标准,该方法受人为主观性影响比较大,但能够快速建立动作模板;方法二,利用DTW计算同一语义的多个样本中各个样本同其他动作样本的距离,然后利用与其他动作样本距离之和最小的一个作为标准动作模板,该方法相对于方法一充分考虑了动作的类内差异,但往往需要大量的动作样本;本发明利用S20的X-Means聚类算法提取关键帧,然后利用方法二建立动作标准库;
S302、用DTW算法进行动作匹配识别。
5.根据权利要求4所述的一种基于关键姿势和DTW的人体动作识别方法,其特征在于:所述S302、用DTW算法进行动作匹配识别包括:
S3021、输入待识别的姿势序列S和标准的动作姿势模板库T;
S3022、初始化相似度阀值τ,并按照S3023~S3024分别计算S与T中参考动作姿势序列R(i)的距离d(i)并构成识别距离集合D={d(1),d(2),…,d(M)};
S3023、分别计算S中每一个元素si与R(i)中的每一个元素rj的欧式距离d(si,rj)构造一个n*m的距离矩阵Matrix=(d(si,rj)),i∈[1,m],j∈[1,n];
S3024、基于距离矩阵Matrix,采用局部最优找到一条代价最小的规整路径W={W1,W2,…,WK},且K∈[max(m,n),m+n-1],K为路径的长度,路径代价函数见下式,
此时式中Wk=d(si,rj)k为路径上的第k个元素,且d(si,rj)为Matrix矩阵中第i行和第j列的元素(i,j)值。假设γ(i,j)是从起点(1,1)到Matrix中元素(i,j)的累加距离,则可通过d(si,rj)求累加距离见下式:
γ(i,j)=d(si,rj)+min{γ(i-1,j-1),γ(i-1,j),γ(i,j-1)}
则S与R(i)的相似度距离d(i)=γ(m,n),即W1到WK的距离,将d(i)加入识别距离集合D;
S3025、查找出集合D的最小值d(i) min,如果d(i) min<θ,则将动作S归类为模板库T中的第i种动作,否则将S视为未知动作类型;
S3026、输出S的动作类型,动作识别完毕。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982823.4A CN112101243A (zh) | 2020-09-17 | 2020-09-17 | 一种基于关键姿势和dtw的人体动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010982823.4A CN112101243A (zh) | 2020-09-17 | 2020-09-17 | 一种基于关键姿势和dtw的人体动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101243A true CN112101243A (zh) | 2020-12-18 |
Family
ID=73758867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010982823.4A Pending CN112101243A (zh) | 2020-09-17 | 2020-09-17 | 一种基于关键姿势和dtw的人体动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101243A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562657A (zh) * | 2021-02-23 | 2021-03-26 | 成都启英泰伦科技有限公司 | 一种基于深度神经网络的个性语言离线学习方法 |
CN112949544A (zh) * | 2021-03-17 | 2021-06-11 | 上海大学 | 一种基于3d卷积网络的动作时序检测方法 |
CN112989121A (zh) * | 2021-03-08 | 2021-06-18 | 武汉大学 | 一种基于关键帧偏好的时序动作评估方法 |
CN114393607A (zh) * | 2021-12-17 | 2022-04-26 | 重庆特斯联智慧科技股份有限公司 | 面向轮式物流机器人的无障碍化辅助设备 |
CN114393575A (zh) * | 2021-12-17 | 2022-04-26 | 重庆特斯联智慧科技股份有限公司 | 基于用户姿势高效能识别的机器人控制方法和系统 |
-
2020
- 2020-09-17 CN CN202010982823.4A patent/CN112101243A/zh active Pending
Non-Patent Citations (1)
Title |
---|
赵思蕊: ""面向人机交互的三维人体动作分析关键技术研究与应用"", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562657A (zh) * | 2021-02-23 | 2021-03-26 | 成都启英泰伦科技有限公司 | 一种基于深度神经网络的个性语言离线学习方法 |
CN112989121A (zh) * | 2021-03-08 | 2021-06-18 | 武汉大学 | 一种基于关键帧偏好的时序动作评估方法 |
CN112989121B (zh) * | 2021-03-08 | 2023-07-28 | 武汉大学 | 一种基于关键帧偏好的时序动作评估方法 |
CN112949544A (zh) * | 2021-03-17 | 2021-06-11 | 上海大学 | 一种基于3d卷积网络的动作时序检测方法 |
CN114393607A (zh) * | 2021-12-17 | 2022-04-26 | 重庆特斯联智慧科技股份有限公司 | 面向轮式物流机器人的无障碍化辅助设备 |
CN114393575A (zh) * | 2021-12-17 | 2022-04-26 | 重庆特斯联智慧科技股份有限公司 | 基于用户姿势高效能识别的机器人控制方法和系统 |
CN114393575B (zh) * | 2021-12-17 | 2024-04-02 | 重庆特斯联智慧科技股份有限公司 | 基于用户姿势高效能识别的机器人控制方法和系统 |
CN114393607B (zh) * | 2021-12-17 | 2024-04-02 | 重庆特斯联智慧科技股份有限公司 | 面向轮式物流机器人的无障碍化辅助设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101243A (zh) | 一种基于关键姿势和dtw的人体动作识别方法 | |
Zhang et al. | Chinese sign language recognition with adaptive HMM | |
CN106682598B (zh) | 一种基于级联回归的多姿态的人脸特征点检测方法 | |
CN108304829B (zh) | 人脸识别方法、装置及系统 | |
CN111339990B (zh) | 一种基于人脸特征动态更新的人脸识别系统和方法 | |
US6256033B1 (en) | Method and apparatus for real-time gesture recognition | |
CN109086706B (zh) | 应用于人机协作中的基于分割人体模型的动作识别方法 | |
CN108363973B (zh) | 一种无约束的3d表情迁移方法 | |
CN106599810B (zh) | 一种基于栈式自编码的头部姿态估计方法 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN112800892B (zh) | 一种基于openpose的人体姿态识别方法 | |
CN111028319A (zh) | 一种基于面部运动单元的三维非真实感表情生成方法 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
CN107346207B (zh) | 一种基于隐马尔科夫模型的动态手势切分识别方法 | |
CN112381047A (zh) | 一种人脸表情图像的增强识别方法 | |
Lai et al. | Visual speaker identification and authentication by joint spatiotemporal sparse coding and hierarchical pooling | |
CN110442736B (zh) | 一种基于二次判别分析的语义增强子空间跨媒体检索方法 | |
CN105678348B (zh) | 一种手写汉字规范性评价方法及系统 | |
John et al. | Audio and video-based emotion recognition using multimodal transformers | |
CN111091040A (zh) | 基于全局轮廓和脸型结构分类的人脸吸引力数据处理方法 | |
CN110516638B (zh) | 一种基于轨迹和随机森林的手语识别方法 | |
Pan et al. | Online human action recognition based on improved dynamic time warping | |
Bandera et al. | Fast gesture recognition based on a two-level representation | |
Dawod et al. | Novel technique for isolated sign language based on fingerspelling recognition | |
Axyonov et al. | Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201218 |
|
RJ01 | Rejection of invention patent application after publication |