CN112949419A - 一种基于肢体层次结构的动作识别方法 - Google Patents

一种基于肢体层次结构的动作识别方法 Download PDF

Info

Publication number
CN112949419A
CN112949419A CN202110167337.1A CN202110167337A CN112949419A CN 112949419 A CN112949419 A CN 112949419A CN 202110167337 A CN202110167337 A CN 202110167337A CN 112949419 A CN112949419 A CN 112949419A
Authority
CN
China
Prior art keywords
limb
limbs
norm
action
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110167337.1A
Other languages
English (en)
Inventor
邵展鹏
刘鹏
胡超群
周小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110167337.1A priority Critical patent/CN112949419A/zh
Publication of CN112949419A publication Critical patent/CN112949419A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于肢体层次结构的动作识别方法,包括以下步骤:1)将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;2)将肢体假设为刚体,然后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;3)使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示;4)构建分层肢体学习框架,实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合,在处理复杂环境下人体动作识别任务中实现了较好的效果。本发明在仅使用人体骨架的单个特征模态时,就可实现卓越的性能;有效地降低了计算复杂度,并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。

Description

一种基于肢体层次结构的动作识别方法
技术领域
本发明涉及到计算机视觉中动作识别任务,具体地涉及一种基于肢体层次结构的动作识别方法。
背景技术
人体动作识别一直是计算机视觉,模式识别和机器人技术等各个领域活跃的研究领域。尽管在基于RGB视频的传统动作识别领域已有了较多的研究成果,但3D视觉信息(例如深度图和人体骨架)可以提供获取更好的人体动作特征,并且对光照变化和杂乱的背景具有更好的鲁棒性。然而,现有基于3D视觉信息的方法多使用单个3D视觉模态。在涉及视点变化、遮挡和噪声的情况下,这种基于单个3D视觉模态的动作识别系统无法获取较高的识别性能。虽然,一些现有方法可以通过融合异构多模态视觉数据(RGB视频,深度图视频,人体骨架序列)来克服上述局限性,但融合多模态特征会带来较高的的计算成本。
根据使用的视觉特征,从3D视觉信息中识别现有动作的方法可以分为两类:基于深度图的方法和基于骨架的方法。在基于深度图的方法类别中,通常从深度图中提取动作特征,例如深度HoG、深度STIP和超法向矢量描述。虽然这些方法可以取得较好的识别性能,但与基于骨架的方法相比,它们对人体位置和外观的变化不具有鲁棒性。基于骨架的方法通常是是从组成人体骨架的3D关节位置提取时空几何特征。例如,一些方法通过计算当前帧的骨架的关节成对距离、当前帧的骨架与先前帧骨架之间的关节距离以及当前帧的骨架与特定参考骨架之间的关节距离。进一步,通过组合上述三种距离来表示人体姿势特征。
为了获得更丰富的视觉特征,一些方法将基于骨架的特征和基于深度图的特征融合在一起,以形成更加丰富的人体动作特征表示。例如将关节的成对位置和深度LOP描述组合一起形成一种有效的动作特征表示。还有通过多核学习MKL 框架同时地挖掘不同模态特征之间的共享特征分量与各个模态特征内在的特定分量,其中多模态特征分别是从人体骨架关节,深度图和RGB序列中提取的异构特征。但是,这些基于多模态特征的融合方法带来了较高的计算成本,不利于动作识别的实时性要求。
近年来,很多基于深度学习模型(例如3D CNN和时空LSTM)的方法取得了较高的动作识别准确性。然而,基于深度学习模型的动作识别方法具有一定的局限性。首先,深度模型具有大量的参数,在较小规模的动作识别数据上易于过拟合。其次,大多数用于动作识别的深度学习模型都具有复杂的拓扑结构设计,因此模型并不容易训练。而且,这些深度模型同样不能很好地推广到具有较小规模的动作数据场景。
发明内容
为了解决上述动作识别的技术问题,本发明提出了一种基于肢体层次结构的动作识别方法,该方法将人体动作视为在人体骨架的多个肢体上的一组并发运动,其中肢体被定义为人体骨架的相邻关节之间的连接部件。基于此,将人体骨架分解为不同尺度的肢体,其中在更小尺度上,人体骨架可被分解为更多的运动肢体。为了表示肢体的这种层次结构,该方法相应的构建了分层旋转和相对速度(HRRV) 描述符,并提出一种分层肢体学习框架,以实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合,在处理复杂环境下人体动作识别任务中实现了较好的效果。
本发明解决其技术问题所采用的技术方案是:
一种基于肢体层次结构的动作识别方法,所述方法包括以下步骤:
1)建立肢体的层次结构:
将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;
2)构建HRRV描述符:
将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;
3)计算分层动作表示:
使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;
4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:
通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。
进一步,所述步骤1)中,人体骨架可以分解为许多肢体,人体动作则可以视为这些肢体关节运动的组合,不同动作的主要区分在于肢体运动不同,所以该方法提出了肢体的层次结构,并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体,其中在更高层上,人体骨架可以以更小的尺度被分解得到更多的肢体。
设人体骨架为P,本发明将其分为三个层次,即P={p1,...,pL},,此处L=3。在每一层上,骨架可被分解为一组运动肢体pl
Figure BDA0002936215580000031
其中Kl=|pl|是集合pl的基数,表示当前l层的肢体个数。
再进一步,所述步骤2)中,构建HRRV描述符的过程为:
首先,人体肢体被合理地假设为运动刚体。为了在三维空间参数化刚体的运动轨迹,在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点;令刚体的运动轨迹为m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量。更具体地说,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,通常由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:
Figure BDA0002936215580000041
其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],
Figure BDA0002936215580000042
表示肢体沿时间的旋转量。 {R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
Figure BDA0002936215580000043
根据欧拉旋转定理,一组连续的旋转量等效于围绕某一单位矢量
Figure BDA0002936215580000044
旋转一个角度β的单个旋转量,因此,四元数提供一种简单的方法来编码这种轴角表示方法:
Figure BDA0002936215580000045
这种四元数表示参数通过肢体的旋转矩阵来求解,给定旋转矩阵
Figure BDA0002936215580000046
单位矢量w通过下面的公式计算:
Figure BDA0002936215580000047
其中
Figure BDA0002936215580000048
和trace(R)是指矩阵R的对角元素总和,向量q,
Figure BDA0002936215580000051
标量β和矩阵R都为时间序列,这里为了表示方便,只是忽略了变量t的标示;
最后,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:
Figure BDA0002936215580000052
所述步骤3)中,构建分层动作表示的过程如下:
使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示,FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示,令
Figure BDA0002936215580000053
表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:
Figure BDA0002936215580000054
Figure BDA0002936215580000055
其中θ={πkkk,k=1,...,K}表示GMM模型的混合权重,均值和对角协方差参数。K是GMM模型中混合高斯分布成分的数量,
Figure BDA0002936215580000056
是相对于均值μkk)的梯度向量;梯度向量描述了每个模型参数如何作用于X的生成,γn(k)是局部描述符xn对第k个高斯分布成分的软分配,最终的FV编码向量是所有
Figure BDA0002936215580000057
Figure BDA0002936215580000058
的串联,其总维数为2K D;
将时间金字塔方法引入到FV编码过程中以进行动作表示,将一个动作序列递归地划分为从0到Z尺度的金字塔结构,其中在第z尺度上具有有2z个时间分段;此后,利用FV技术可对每个时间分段的特征描述进行编码,因此,任一肢体的FV编码
Figure BDA0002936215580000059
是其所有时间分段的局部FV编码的串联,从而得到最终的分层动作表示u,它是各个层次上每个肢体的
Figure BDA00029362155800000510
编码的组合向量:
Figure BDA0002936215580000061
其中
Figure BDA0002936215580000062
Figure BDA0002936215580000063
维向量,u是
Figure BDA0002936215580000064
维向量。
所述步骤4)的过程如下:
通过在线性回归模型中构造一个基于混合范数的正则化来实现同一尺度下显著肢体的选择和不同尺度(多层次)下各肢体组的特征融合,基于肢体的分层结构,在该正则化项中,具有稀疏性的范数和耦合效应的范数被组织成为一个层次化结构的混合范数,因此,在该模型的优化中可自动地约束模型权重的学习,实现多层次肢体的学习框架。
人体动作识别问题被视为一种基于多二元回归的分类问题,有n个训练样本
Figure BDA0002936215580000065
其中
Figure BDA0002936215580000066
Figure BDA0002936215580000067
其中
Figure BDA0002936215580000068
是每个肢体的特征维数;这些样本具有C个不同类别,其对应类标签为
Figure BDA0002936215580000069
yc∈{0,1}n,其中yc∈{0,1}n,并且
Figure BDA00029362155800000610
基于上述训练样本与其对应的类别标签,多二元回归模型的目标是通过最小化一个凸损失函数
Figure BDA00029362155800000611
求取相应的特征权重矩阵
Figure BDA00029362155800000612
使用平方误差的总和作为每个类的损失函数,即
Figure BDA00029362155800000613
同时在权重wc上添加一个基于
Figure BDA00029362155800000614
范数的正则化惩罚项防止训练样本的过拟合,将所有动作类的
Figure BDA00029362155800000615
损失函数和
Figure BDA00029362155800000616
范数分别累加,得到总的目标损失函数:
Figure BDA00029362155800000617
对于矩阵W(resp.Y),其第i行和第j列分别用wi和wj表示,
Figure BDA00029362155800000618
代表矩阵W的(i,j)中的单个元素。此外,λ是正则化因子,在回归模型中应用
Figure BDA00029362155800000619
范数或
Figure BDA00029362155800000620
范数会忽略肢体层次中的结构信息,所以,通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中;
令第c类的相应权重
Figure BDA0002936215580000071
为了通过学习自动地选择每一层中少数的活动肢体,在每一层的肢体特征组中应用稀疏性,用来在回归模型中执行肢体的稀疏选择;在回归模型的权重惩罚项中应用混合范数
Figure BDA0002936215580000072
此外,由于不同尺度的肢体运动在动作分类中起着相同程度的重要作用,所以将
Figure BDA0002936215580000073
范数正则化应用于所有层的特征组,以连接和融合不同尺度的肢体组,所以,有:
Figure BDA0002936215580000074
其中
Figure BDA0002936215580000075
在每一层上强制了同一尺度肢体之间的稀疏性,同时在每个肢体的特征内部应用
Figure BDA0002936215580000076
范数,但是,采用
Figure BDA0002936215580000077
范数通常会在各个维度上导致信息被抑制,所以使用
Figure BDA0002936215580000078
范数来鼓励动作表示中每个肢体特征内的“多样性”;因此,公式(9)中的组稀疏范数可使用混合范数
Figure BDA0002936215580000079
此时最终形成一个具有三个层次的混合规范
Figure BDA00029362155800000710
首先,最里层的
Figure BDA00029362155800000711
提供了更多的“特征多样性”来规范每个肢体的特征;其次,
Figure BDA00029362155800000712
范数对
Figure BDA00029362155800000713
应用是基于稀疏的正则化,以期在每一层(尺度)上实现肢体的稀疏选择;最后,外部
Figure BDA00029362155800000714
范数则对
Figure BDA00029362155800000715
施加一般正则化以链接和融合多个层,所以,遵循此分层混合范数,则有:
Figure BDA00029362155800000716
对于所有动作类,将具有相同正则化项的(10)相加,以矩阵格式形成优化问题:
Figure BDA00029362155800000717
然后,在该学习框架中添加一个多任务正则化,用以发现不同动作类中的共享特征,因此,在跨类的每种特征对应的权重上应用l2范数正则化,然后应用
Figure BDA00029362155800000718
范数正则化;基于这种
Figure BDA00029362155800000719
范数正则化,所有类的共享隐式特征可以被选择,同时所有类中大多数特征都是稀疏的,通过将该多任务学习项添加到(11)中,则有:
Figure BDA0002936215580000081
由于公式(12)的问题是一个连续的微分多元函数,优化步骤通过利用L-BFGS 算法完成,此后,通过如下学习到的分类器来预测动作类别:
Figure BDA0002936215580000082
经过上述步骤的操作,即实现基于肢体层次结构的动作识别。
本发明的有益效果主要表现在:本发明通过将人体运动视为人体骨架各部分的肢体运动,并且构建了相应的HRRV描述符和分层学习框架来进行动作识别,该方法在仅使用人体骨架的单个特征模态时,就可实现卓越的性能。同时,在分层模型中使用HRRV描述符有效地降低了计算复杂度,并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。
附图说明
图1是本发明技术方案的总体流程示意图;
图2是欧氏空间中刚体运动轨迹的6自由度表示;
图3是虚拟刚体的示意图,(a)左臂中多个刚体的铰接连接表示形式;(b)使用给定的根关节和端关节构造虚拟刚体,并将关节点端设置为参考点;(c)虚拟刚体的旋转和参考点的速度;(d)左臂肢体中其他可能的虚拟刚体;
图4是人体骨架的肢体层次结构,以及用于多层次肢体学习框架的分层混合范数的三个层级正则化。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于肢体层次结构的动作识别方法,包括以下步骤:
1)构建肢体的层次结构,过程如下:
人体骨架可以分解为许多肢体,人体动作则可以视为这些肢体关节运动的组合。不同动作的主要区分在于肢体运动不同,所以该方法提出了肢体的层次结构,并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体,其中在更高层上,人体骨架可以以更小的尺度被分解得到更多的肢体。设人体骨架为P,本发明将其分为三个层次,即P={p1,...,pL},,此处L=3。在每一层上,骨架可被分解为一组运动肢体pl
Figure BDA0002936215580000091
其中Kl=|pl|是集合pl的基数,表示当前l层的肢体个数。
2)构建HRRV描述符,过程如下:
首先,人体肢体被合理地假设为运动刚体,为了在三维空间参数化刚体的运动轨迹,我们在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点,如图2所示。令刚体的运动轨迹为 m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量;更具体地说,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:
Figure BDA0002936215580000092
其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],
Figure BDA0002936215580000093
表示肢体沿时间的旋转量。 {R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
Figure BDA0002936215580000094
根据欧拉旋转定理,一组连续的旋转量可以等效于围绕某一单位矢量
Figure BDA0002936215580000095
旋转一个角度β的单个旋转量。因此,四元数可以提供一种简单的方法来编码这种轴角表示方法:
Figure BDA0002936215580000101
这种四元数表示参数可以通过肢体的旋转矩阵来求解,具体地说,给定旋转矩阵
Figure BDA0002936215580000102
单位矢量w通过下面的公式计算:
Figure BDA0002936215580000103
其中
Figure BDA0002936215580000104
和trace(R)是指矩阵R的对角元素总和,需要注意的是向量q,
Figure BDA0002936215580000105
标量β和矩阵R都为时间序列,这里为了表示方便,只是忽略了变量t的标示;
在人体骨架的每个肢体(刚体)上都有两个参考点,即根参考点Jroot和终点参考点Jend,如图3所示。肢体的旋转矩阵描述的是相邻帧间肢体的方位变换,该旋转矩阵可以从相邻帧间肢体主轴bx(t)和bx(t+1)确定,其中bx表示Jroot到 Jend的向量。令a1=bx(t)/||bx(t)||和a2=bx(t+1)/||bx(t+1)||为单位向量,这两个向量的叉积为c=a1×a2,然后旋转矩阵可由以下公式得到:
Figure BDA0002936215580000106
其中[c]×是c=[c1,c2,c3]T反对称叉积,利用旋转矩阵R,可以根据(2),(3)直接获取对应的四元数q;
对于包含两个以上关节的肢体如图3(a),本发明将其处理为虚拟刚体,在计算RRV描述符的过程中,将其视为具有根关节和端关节的刚体,而忽略可能的长度变化如图3(b),对于{R}vl(t),根据(1)计算参考节点Jend的相对速度,
基于上述肢体的RRV计算步骤,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:
Figure BDA0002936215580000107
3)构建分层动作表示,过程如下:
使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示。FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示。令
Figure BDA0002936215580000111
表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:
Figure BDA0002936215580000112
Figure BDA0002936215580000113
其中θ={πkkk,k=1,...,K}表示GMM模型的混合权重,均值和对角协方差参数,K是GMM模型中混合高斯分布成分的数量,
Figure BDA0002936215580000114
是相对于均值μkk)的梯度向量;实质上,梯度向量描述了每个模型参数如何作用于X的生成,γn(k)是局部描述符xn对第k个高斯分布成分的软分配,最终的FV编码向量是所有
Figure BDA0002936215580000115
Figure BDA0002936215580000116
的串联,其总维数为2K D;
为了考虑时间信息,进一步将时间金字塔方法引入到FV编码过程中以进行动作表示;具体地说,将一个动作序列递归地划分为从0到Z尺度的金字塔结构,其中在第z尺度上具有有2z个时间分段;此后,利用FV技术可对每个时间分段的特征描述进行编码,因此,任一肢体的FV编码
Figure BDA0002936215580000117
是其所有时间分段的局部 FV编码的串联,从而得到最终的分层动作表示u,它是各个层次上每个肢体的
Figure BDA0002936215580000118
编码的组合向量:
Figure BDA0002936215580000119
其中
Figure BDA00029362155800001110
Figure BDA00029362155800001111
维向量,u是
Figure BDA00029362155800001112
维向量;
4)构建分层肢体学习框架,用于同一尺度下显著性肢体的挖掘和不同尺度肢体的特征融合,过程如下:
人体动作识别问题可以被视为一种基于多二元回归的分类问题,设有n个训练样本
Figure BDA0002936215580000121
其中
Figure BDA0002936215580000122
Figure BDA0002936215580000123
其中
Figure BDA0002936215580000124
是每个肢体的特征维数;这些样本具有C个不同类别,其对应类标签为
Figure BDA0002936215580000125
yc∈{0,1}n,其中yc∈{0,1}n,并且
Figure BDA0002936215580000126
基于上述训练样本与其对应的类别标签,多二元回归模型的目标是通过最小化一个凸损失函数
Figure BDA0002936215580000127
求取相应的特征权重矩阵
Figure BDA0002936215580000128
使用平方误差的总和作为每个类的损失函数,即
Figure BDA0002936215580000129
同时在权重wc上添加一个基于
Figure BDA00029362155800001210
范数的正则化惩罚项防止训练样本的过拟合,将所有动作类的
Figure BDA00029362155800001211
损失函数和
Figure BDA00029362155800001212
范数分别累加,得到总的目标损失函数:
Figure BDA00029362155800001213
对于矩阵W(resp.Y),其第i行和第j列分别用wi和wj表示,
Figure BDA00029362155800001214
代表矩阵W的(i,j)中的单个元素;此外,λ是正则化因子,第c类的相应权重
Figure BDA00029362155800001215
通常,在回归模型中应用
Figure BDA00029362155800001216
范数或
Figure BDA00029362155800001217
范数会忽略肢体层次中的结构信息,所以,通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中。
在公式(9)中的范数惩罚项中使用具有三个层次结构的混合范数
Figure BDA00029362155800001218
首先,最里层的
Figure BDA00029362155800001219
提供了更多的“特征多样性”来规范每个肢体的特征,其次,
Figure BDA00029362155800001220
范数对
Figure BDA00029362155800001221
应用是基于稀疏的正则化,以期在每一层(尺度)上实现肢体的稀疏选择。最后,外部
Figure BDA00029362155800001222
范数则对
Figure BDA00029362155800001223
施加一般正则化以链接和融合多个层,所以,遵循此分层混合范数,则有:
Figure BDA00029362155800001224
对于所有动作类,我们将具有相同正则化项的(11)相加,以矩阵格式形成优化问题:
Figure BDA0002936215580000131
然后,在该学习框架中添加一个多任务正则化,用以发现不同动作类中的共享特征,因此,在跨类的每种特征对应的权重上应用l2范数正则化,然后应用
Figure BDA0002936215580000132
范数正则化,基于这种
Figure BDA0002936215580000133
范数正则化,所有类的共享隐式特征可以被选择,同时所有类中大多数特征都是稀疏的,通过将该多任务学习项添加到(12)中,则有:
Figure BDA0002936215580000134
由于公式(12)的问题是一个连续的微分多元函数,优化步骤通过利用L-BFGS 算法完成,此后,通过如下学习到的分类器来预测动作类别:
Figure BDA0002936215580000135
经过上述步骤的操作,即实现基于肢体层次结构的动作识别。
以上结合插图所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于肢体层次结构的动作识别方法,其特征在于,所述方法包括以下步骤:
1)建立肢体的层次结构:
将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;
2)构建HRRV描述符:
将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;
3)计算分层动作表示:
使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;
4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:
通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。
2.如权利要求1所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤1)中,设人体骨架为P,将其分为三个层次,即P={p1,...,pL},此处L=3,在每一层上,骨架可被分解为一组运动肢体pl
Figure FDA0002936215570000011
其中Kl=|pl|是集合pl的基数,表示当前l层的肢体个数。
3.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤2)中,构建HRRV描述符的过程为:
首先,人体肢体被合理地假设为运动刚体,为了在三维空间参数化刚体的运动轨迹,在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点;令刚体的运动轨迹为m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:
Figure FDA0002936215570000012
其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],
Figure FDA0002936215570000013
表示肢体沿时间的旋转量,{R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
Figure FDA0002936215570000021
根据欧拉旋转定理,一组连续的旋转量等效于围绕某一单位矢量
Figure FDA0002936215570000022
旋转一个角度β的单个旋转量,因此,四元数提供一种简单的方法来编码这种轴角表示方法:
Figure FDA0002936215570000023
这种四元数表示参数通过肢体的旋转矩阵来求解,给定旋转矩阵
Figure FDA0002936215570000024
单位矢量w通过下面的公式计算:
Figure FDA0002936215570000025
其中
Figure FDA0002936215570000026
和trace(R)是指矩阵R的对角元素总和,向量q,
Figure FDA0002936215570000027
标量β和矩阵R都为时间序列,这里为了表示方便,只是忽略了变量t的标示;
最后,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:
Figure FDA0002936215570000028
4.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤3)中,构建分层动作表示的过程如下:
使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示,FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示,令
Figure FDA0002936215570000029
表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:
Figure FDA00029362155700000210
Figure FDA00029362155700000211
其中θ={πkkk,k=1,...,K}表示GMM模型的混合权重,均值和对角协方差参数。K是GMM模型中混合高斯分布成分的数量,
Figure FDA00029362155700000212
是相对于均值μkk)的梯度向量;梯度向量描述了每个模型参数如何作用于X的生成,γn(k)是局部描述符xn对第k个高斯分布成分的软分配,最终的FV编码向量是所有
Figure FDA00029362155700000213
Figure FDA00029362155700000214
的串联,其总维数为2K D;
将时间金字塔方法引入到FV编码过程中以进行动作表示,将一个动作序列递归地划分为从0到Z尺度的金字塔结构,其中在第z尺度上具有有2z个时间分段;此后,利用FV技术可对每个时间分段的特征描述进行编码,因此,任一肢体的FV编码
Figure FDA00029362155700000215
是其所有时间分段的局部FV编码的串联,从而得到最终的分层动作表示u,它是各个层次上每个肢体的
Figure FDA0002936215570000031
编码的组合向量:
Figure FDA0002936215570000032
其中
Figure FDA0002936215570000033
Figure FDA0002936215570000034
维向量,u是
Figure FDA0002936215570000035
维向量。
5.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤4)的过程如下:
人体动作识别问题被视为一种基于多二元回归的分类问题,有n个训练样本
Figure FDA0002936215570000036
其中
Figure FDA0002936215570000037
Figure FDA0002936215570000038
其中
Figure FDA0002936215570000039
是每个肢体的特征维数;这些样本具有C个不同类别,其对应类标签为
Figure FDA00029362155700000310
yc∈{0,1}n,其中yc∈{0,1}n,并且
Figure FDA00029362155700000311
基于上述训练样本与其对应的类别标签,多二元回归模型的目标是通过最小化一个凸损失函数
Figure FDA00029362155700000312
求取相应的特征权重矩阵
Figure FDA00029362155700000313
使用平方误差的总和作为每个类的损失函数,即
Figure FDA00029362155700000314
同时在权重wc上添加一个基于
Figure FDA00029362155700000329
范数的正则化惩罚项防止训练样本的过拟合,将所有动作类的
Figure FDA00029362155700000315
损失函数和
Figure FDA00029362155700000330
范数分别累加,得到总的目标损失函数:
Figure FDA00029362155700000316
对于矩阵W(resp.Y),其第i行和第j列分别用wi和wj表示,
Figure FDA00029362155700000317
代表矩阵W的(i,j)中的单个元素,此外,λ是正则化因子,在回归模型中应用
Figure FDA00029362155700000331
范数或
Figure FDA00029362155700000332
范数会忽略肢体层次中的结构信息,所以,通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中;
令第c类的相应权重
Figure FDA00029362155700000318
为了通过学习自动地选择每一层中少数的活动肢体,在每一层的肢体特征组中应用稀疏性,用来在回归模型中执行肢体的稀疏选择;在回归模型的权重惩罚项中应用混合范数
Figure FDA00029362155700000319
此外,由于不同尺度的肢体运动在动作分类中起着相同程度的重要作用,所以将
Figure FDA00029362155700000320
范数正则化应用于所有层的特征组,以连接和融合不同尺度的肢体组,所以,有:
Figure FDA00029362155700000321
其中
Figure FDA00029362155700000322
在每一层上强制了同一尺度肢体之间的稀疏性,同时在每个肢体的特征内部应用
Figure FDA00029362155700000323
范数,但是,采用
Figure FDA00029362155700000324
范数通常会在各个维度上导致信息被抑制,所以使用
Figure FDA00029362155700000325
范数来鼓励动作表示中每个肢体特征内的“多样性”;因此,公式(9)中的组稀疏范数可使用混合范数
Figure FDA00029362155700000326
此时最终形成一个具有三个层次的混合规范
Figure FDA00029362155700000327
首先,最里层的
Figure FDA00029362155700000328
提供了更多的“特征多样性”来规范每个肢体的特征;其次,
Figure FDA0002936215570000041
范数对
Figure FDA0002936215570000042
应用是基于稀疏的正则化,以期在每一层上实现肢体的稀疏选择;最后,外部
Figure FDA0002936215570000043
范数则对
Figure FDA0002936215570000044
施加一般正则化以链接和融合多个层,所以,遵循此分层混合范数,则有:
Figure FDA0002936215570000045
对于所有动作类,将具有相同正则化项的(10)相加,以矩阵格式形成优化问题:
Figure FDA0002936215570000046
然后,在该学习框架中添加一个多任务正则化,用以发现不同动作类中的共享特征,因此,在跨类的每种特征对应的权重上应用l2范数正则化,然后应用
Figure FDA0002936215570000047
范数正则化;基于这种
Figure FDA0002936215570000048
范数正则化,所有类的共享隐式特征可以被选择,同时所有类中大多数特征都是稀疏的,通过将该多任务学习项添加到(11)中,则有:
Figure FDA0002936215570000049
由于公式(12)的问题是一个连续的微分多元函数,优化步骤通过利用L-BFGS算法完成,此后,通过如下学习到的分类器来预测动作类别:
Figure FDA00029362155700000410
经过上述步骤的操作,即实现基于肢体层次结构的动作识别。
CN202110167337.1A 2021-02-05 2021-02-05 一种基于肢体层次结构的动作识别方法 Pending CN112949419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167337.1A CN112949419A (zh) 2021-02-05 2021-02-05 一种基于肢体层次结构的动作识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167337.1A CN112949419A (zh) 2021-02-05 2021-02-05 一种基于肢体层次结构的动作识别方法

Publications (1)

Publication Number Publication Date
CN112949419A true CN112949419A (zh) 2021-06-11

Family

ID=76243095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167337.1A Pending CN112949419A (zh) 2021-02-05 2021-02-05 一种基于肢体层次结构的动作识别方法

Country Status (1)

Country Link
CN (1) CN112949419A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821639A (zh) * 2022-04-11 2022-07-29 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHANPENG SHAO等: "A Hierarchical Model for Human Action Recognition from Body-Parts", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 29, no. 10, pages 2986 - 2998 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821639A (zh) * 2022-04-11 2022-07-29 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置

Similar Documents

Publication Publication Date Title
Starke et al. Neural state machine for character-scene interactions
Zhang et al. On geometric features for skeleton-based action recognition using multilayer lstm networks
CN110222653B (zh) 一种基于图卷积神经网络的骨架数据行为识别方法
CN100543775C (zh) 基于多目相机的三维人体运动跟踪的方法
Ghezelghieh et al. Learning camera viewpoint using CNN to improve 3D body pose estimation
Yamane et al. Human motion database with a binary tree and node transition graphs
Guo et al. DSRF: A flexible trajectory descriptor for articulated human action recognition
CN106066996A (zh) 人体动作的局部特征表示方法及其在行为识别的应用
CN111274909B (zh) 一种基于深度学习的人体点云骨架提取方法
CN109508686B (zh) 一种基于层次化特征子空间学习的人体行为识别方法
CN109934881A (zh) 图像编码方法、动作识别的方法及计算机设备
CN114821640A (zh) 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法
CN111476155A (zh) 基于时空图卷积神经网络与特征融合的人体动作分类方法
CN111204476A (zh) 一种基于强化学习的视触融合精细操作方法
CN113051420B (zh) 一种基于文本生成视频机器人视觉人机交互方法及系统
Men et al. A quadruple diffusion convolutional recurrent network for human motion prediction
CN113221726A (zh) 一种基于视觉与惯性信息融合的手部姿态估计方法及系统
CN110007754B (zh) 手与物体交互过程的实时重建方法及装置
Angelini et al. Actionxpose: A novel 2d multi-view pose-based algorithm for real-time human action recognition
CN111462274A (zh) 一种基于smpl模型的人体图像合成方法及系统
CN114170353B (zh) 一种基于神经网络的多条件控制的舞蹈生成方法及系统
CN113987285B (zh) 基于隐藏状态的运动特征数据库生成方法、检索方法
Xu et al. Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction
CN112949419A (zh) 一种基于肢体层次结构的动作识别方法
Liu et al. Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination