CN112949419A - 一种基于肢体层次结构的动作识别方法 - Google Patents
一种基于肢体层次结构的动作识别方法 Download PDFInfo
- Publication number
- CN112949419A CN112949419A CN202110167337.1A CN202110167337A CN112949419A CN 112949419 A CN112949419 A CN 112949419A CN 202110167337 A CN202110167337 A CN 202110167337A CN 112949419 A CN112949419 A CN 112949419A
- Authority
- CN
- China
- Prior art keywords
- limb
- limbs
- norm
- action
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000009471 action Effects 0.000 title claims abstract description 58
- 230000033001 locomotion Effects 0.000 claims abstract description 60
- 230000004927 fusion Effects 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 59
- 239000011159 matrix material Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 239000000203 mixture Substances 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000001808 coupling effect Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- KNHUKKLJHYUCFP-UHFFFAOYSA-N clofibrate Chemical compound CCOC(=O)C(C)(C)OC1=CC=C(Cl)C=C1 KNHUKKLJHYUCFP-UHFFFAOYSA-N 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000009412 basement excavation Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 101100049727 Arabidopsis thaliana WOX9 gene Proteins 0.000 description 1
- 101150059016 TFIP11 gene Proteins 0.000 description 1
- 102100032856 Tuftelin-interacting protein 11 Human genes 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
一种基于肢体层次结构的动作识别方法,包括以下步骤:1)将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;2)将肢体假设为刚体,然后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;3)使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示;4)构建分层肢体学习框架,实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合,在处理复杂环境下人体动作识别任务中实现了较好的效果。本发明在仅使用人体骨架的单个特征模态时,就可实现卓越的性能;有效地降低了计算复杂度,并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。
Description
技术领域
本发明涉及到计算机视觉中动作识别任务,具体地涉及一种基于肢体层次结构的动作识别方法。
背景技术
人体动作识别一直是计算机视觉,模式识别和机器人技术等各个领域活跃的研究领域。尽管在基于RGB视频的传统动作识别领域已有了较多的研究成果,但3D视觉信息(例如深度图和人体骨架)可以提供获取更好的人体动作特征,并且对光照变化和杂乱的背景具有更好的鲁棒性。然而,现有基于3D视觉信息的方法多使用单个3D视觉模态。在涉及视点变化、遮挡和噪声的情况下,这种基于单个3D视觉模态的动作识别系统无法获取较高的识别性能。虽然,一些现有方法可以通过融合异构多模态视觉数据(RGB视频,深度图视频,人体骨架序列)来克服上述局限性,但融合多模态特征会带来较高的的计算成本。
根据使用的视觉特征,从3D视觉信息中识别现有动作的方法可以分为两类:基于深度图的方法和基于骨架的方法。在基于深度图的方法类别中,通常从深度图中提取动作特征,例如深度HoG、深度STIP和超法向矢量描述。虽然这些方法可以取得较好的识别性能,但与基于骨架的方法相比,它们对人体位置和外观的变化不具有鲁棒性。基于骨架的方法通常是是从组成人体骨架的3D关节位置提取时空几何特征。例如,一些方法通过计算当前帧的骨架的关节成对距离、当前帧的骨架与先前帧骨架之间的关节距离以及当前帧的骨架与特定参考骨架之间的关节距离。进一步,通过组合上述三种距离来表示人体姿势特征。
为了获得更丰富的视觉特征,一些方法将基于骨架的特征和基于深度图的特征融合在一起,以形成更加丰富的人体动作特征表示。例如将关节的成对位置和深度LOP描述组合一起形成一种有效的动作特征表示。还有通过多核学习MKL 框架同时地挖掘不同模态特征之间的共享特征分量与各个模态特征内在的特定分量,其中多模态特征分别是从人体骨架关节,深度图和RGB序列中提取的异构特征。但是,这些基于多模态特征的融合方法带来了较高的计算成本,不利于动作识别的实时性要求。
近年来,很多基于深度学习模型(例如3D CNN和时空LSTM)的方法取得了较高的动作识别准确性。然而,基于深度学习模型的动作识别方法具有一定的局限性。首先,深度模型具有大量的参数,在较小规模的动作识别数据上易于过拟合。其次,大多数用于动作识别的深度学习模型都具有复杂的拓扑结构设计,因此模型并不容易训练。而且,这些深度模型同样不能很好地推广到具有较小规模的动作数据场景。
发明内容
为了解决上述动作识别的技术问题,本发明提出了一种基于肢体层次结构的动作识别方法,该方法将人体动作视为在人体骨架的多个肢体上的一组并发运动,其中肢体被定义为人体骨架的相邻关节之间的连接部件。基于此,将人体骨架分解为不同尺度的肢体,其中在更小尺度上,人体骨架可被分解为更多的运动肢体。为了表示肢体的这种层次结构,该方法相应的构建了分层旋转和相对速度(HRRV) 描述符,并提出一种分层肢体学习框架,以实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合,在处理复杂环境下人体动作识别任务中实现了较好的效果。
本发明解决其技术问题所采用的技术方案是:
一种基于肢体层次结构的动作识别方法,所述方法包括以下步骤:
1)建立肢体的层次结构:
将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;
2)构建HRRV描述符:
将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;
3)计算分层动作表示:
使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;
4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:
通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。
进一步,所述步骤1)中,人体骨架可以分解为许多肢体,人体动作则可以视为这些肢体关节运动的组合,不同动作的主要区分在于肢体运动不同,所以该方法提出了肢体的层次结构,并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体,其中在更高层上,人体骨架可以以更小的尺度被分解得到更多的肢体。
再进一步,所述步骤2)中,构建HRRV描述符的过程为:
首先,人体肢体被合理地假设为运动刚体。为了在三维空间参数化刚体的运动轨迹,在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点;令刚体的运动轨迹为m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量。更具体地说,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,通常由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:
其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],表示肢体沿时间的旋转量。 {R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
最后,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:
所述步骤3)中,构建分层动作表示的过程如下:
使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示,FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示,令表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:
其中θ={πk,μk,δk,k=1,...,K}表示GMM模型的混合权重,均值和对角协方差参数。K是GMM模型中混合高斯分布成分的数量,是相对于均值μk (δk)的梯度向量;梯度向量描述了每个模型参数如何作用于X的生成,γn(k)是局部描述符xn对第k个高斯分布成分的软分配,最终的FV编码向量是所有和的串联,其总维数为2K D;
将时间金字塔方法引入到FV编码过程中以进行动作表示,将一个动作序列递归地划分为从0到Z尺度的金字塔结构,其中在第z尺度上具有有2z个时间分段;此后,利用FV技术可对每个时间分段的特征描述进行编码,因此,任一肢体的FV编码是其所有时间分段的局部FV编码的串联,从而得到最终的分层动作表示u,它是各个层次上每个肢体的编码的组合向量:
所述步骤4)的过程如下:
通过在线性回归模型中构造一个基于混合范数的正则化来实现同一尺度下显著肢体的选择和不同尺度(多层次)下各肢体组的特征融合,基于肢体的分层结构,在该正则化项中,具有稀疏性的范数和耦合效应的范数被组织成为一个层次化结构的混合范数,因此,在该模型的优化中可自动地约束模型权重的学习,实现多层次肢体的学习框架。
人体动作识别问题被视为一种基于多二元回归的分类问题,有n个训练样本其中 其中是每个肢体的特征维数;这些样本具有C个不同类别,其对应类标签为yc∈{0,1}n,其中yc∈{0,1}n,并且基于上述训练样本与其对应的类别标签,多二元回归模型的目标是通过最小化一个凸损失函数求取相应的特征权重矩阵使用平方误差的总和作为每个类的损失函数,即同时在权重wc上添加一个基于范数的正则化惩罚项防止训练样本的过拟合,将所有动作类的损失函数和范数分别累加,得到总的目标损失函数:
对于矩阵W(resp.Y),其第i行和第j列分别用wi和wj表示,代表矩阵W的(i,j)中的单个元素。此外,λ是正则化因子,在回归模型中应用范数或范数会忽略肢体层次中的结构信息,所以,通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中;
令第c类的相应权重为了通过学习自动地选择每一层中少数的活动肢体,在每一层的肢体特征组中应用稀疏性,用来在回归模型中执行肢体的稀疏选择;在回归模型的权重惩罚项中应用混合范数此外,由于不同尺度的肢体运动在动作分类中起着相同程度的重要作用,所以将范数正则化应用于所有层的特征组,以连接和融合不同尺度的肢体组,所以,有:
其中在每一层上强制了同一尺度肢体之间的稀疏性,同时在每个肢体的特征内部应用范数,但是,采用范数通常会在各个维度上导致信息被抑制,所以使用范数来鼓励动作表示中每个肢体特征内的“多样性”;因此,公式(9)中的组稀疏范数可使用混合范数此时最终形成一个具有三个层次的混合规范首先,最里层的提供了更多的“特征多样性”来规范每个肢体的特征;其次,范数对应用是基于稀疏的正则化,以期在每一层(尺度)上实现肢体的稀疏选择;最后,外部范数则对施加一般正则化以链接和融合多个层,所以,遵循此分层混合范数,则有:
对于所有动作类,将具有相同正则化项的(10)相加,以矩阵格式形成优化问题:
然后,在该学习框架中添加一个多任务正则化,用以发现不同动作类中的共享特征,因此,在跨类的每种特征对应的权重上应用l2范数正则化,然后应用范数正则化;基于这种范数正则化,所有类的共享隐式特征可以被选择,同时所有类中大多数特征都是稀疏的,通过将该多任务学习项添加到(11)中,则有:
由于公式(12)的问题是一个连续的微分多元函数,优化步骤通过利用L-BFGS 算法完成,此后,通过如下学习到的分类器来预测动作类别:
经过上述步骤的操作,即实现基于肢体层次结构的动作识别。
本发明的有益效果主要表现在:本发明通过将人体运动视为人体骨架各部分的肢体运动,并且构建了相应的HRRV描述符和分层学习框架来进行动作识别,该方法在仅使用人体骨架的单个特征模态时,就可实现卓越的性能。同时,在分层模型中使用HRRV描述符有效地降低了计算复杂度,并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。
附图说明
图1是本发明技术方案的总体流程示意图;
图2是欧氏空间中刚体运动轨迹的6自由度表示;
图3是虚拟刚体的示意图,(a)左臂中多个刚体的铰接连接表示形式;(b)使用给定的根关节和端关节构造虚拟刚体,并将关节点端设置为参考点;(c)虚拟刚体的旋转和参考点的速度;(d)左臂肢体中其他可能的虚拟刚体;
图4是人体骨架的肢体层次结构,以及用于多层次肢体学习框架的分层混合范数的三个层级正则化。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种基于肢体层次结构的动作识别方法,包括以下步骤:
1)构建肢体的层次结构,过程如下:
人体骨架可以分解为许多肢体,人体动作则可以视为这些肢体关节运动的组合。不同动作的主要区分在于肢体运动不同,所以该方法提出了肢体的层次结构,并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体,其中在更高层上,人体骨架可以以更小的尺度被分解得到更多的肢体。设人体骨架为P,本发明将其分为三个层次,即P={p1,...,pL},,此处L=3。在每一层上,骨架可被分解为一组运动肢体pl,其中Kl=|pl|是集合pl的基数,表示当前l层的肢体个数。
2)构建HRRV描述符,过程如下:
首先,人体肢体被合理地假设为运动刚体,为了在三维空间参数化刚体的运动轨迹,我们在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点,如图2所示。令刚体的运动轨迹为 m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量;更具体地说,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:
其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],表示肢体沿时间的旋转量。 {R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
在人体骨架的每个肢体(刚体)上都有两个参考点,即根参考点Jroot和终点参考点Jend,如图3所示。肢体的旋转矩阵描述的是相邻帧间肢体的方位变换,该旋转矩阵可以从相邻帧间肢体主轴bx(t)和bx(t+1)确定,其中bx表示Jroot到 Jend的向量。令a1=bx(t)/||bx(t)||和a2=bx(t+1)/||bx(t+1)||为单位向量,这两个向量的叉积为c=a1×a2,然后旋转矩阵可由以下公式得到:
其中[c]×是c=[c1,c2,c3]T反对称叉积,利用旋转矩阵R,可以根据(2),(3)直接获取对应的四元数q;
对于包含两个以上关节的肢体如图3(a),本发明将其处理为虚拟刚体,在计算RRV描述符的过程中,将其视为具有根关节和端关节的刚体,而忽略可能的长度变化如图3(b),对于{R}vl(t),根据(1)计算参考节点Jend的相对速度,
基于上述肢体的RRV计算步骤,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:
3)构建分层动作表示,过程如下:
使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示。FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示。令表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:
其中θ={πk,μk,δk,k=1,...,K}表示GMM模型的混合权重,均值和对角协方差参数,K是GMM模型中混合高斯分布成分的数量,是相对于均值μk (δk)的梯度向量;实质上,梯度向量描述了每个模型参数如何作用于X的生成,γn(k)是局部描述符xn对第k个高斯分布成分的软分配,最终的FV编码向量是所有和的串联,其总维数为2K D;
为了考虑时间信息,进一步将时间金字塔方法引入到FV编码过程中以进行动作表示;具体地说,将一个动作序列递归地划分为从0到Z尺度的金字塔结构,其中在第z尺度上具有有2z个时间分段;此后,利用FV技术可对每个时间分段的特征描述进行编码,因此,任一肢体的FV编码是其所有时间分段的局部 FV编码的串联,从而得到最终的分层动作表示u,它是各个层次上每个肢体的编码的组合向量:
4)构建分层肢体学习框架,用于同一尺度下显著性肢体的挖掘和不同尺度肢体的特征融合,过程如下:
人体动作识别问题可以被视为一种基于多二元回归的分类问题,设有n个训练样本其中 其中是每个肢体的特征维数;这些样本具有C个不同类别,其对应类标签为yc∈{0,1}n,其中yc∈{0,1}n,并且基于上述训练样本与其对应的类别标签,多二元回归模型的目标是通过最小化一个凸损失函数求取相应的特征权重矩阵
对于矩阵W(resp.Y),其第i行和第j列分别用wi和wj表示,代表矩阵W的(i,j)中的单个元素;此外,λ是正则化因子,第c类的相应权重通常,在回归模型中应用范数或范数会忽略肢体层次中的结构信息,所以,通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中。
在公式(9)中的范数惩罚项中使用具有三个层次结构的混合范数首先,最里层的提供了更多的“特征多样性”来规范每个肢体的特征,其次,范数对应用是基于稀疏的正则化,以期在每一层(尺度)上实现肢体的稀疏选择。最后,外部范数则对施加一般正则化以链接和融合多个层,所以,遵循此分层混合范数,则有:
对于所有动作类,我们将具有相同正则化项的(11)相加,以矩阵格式形成优化问题:
然后,在该学习框架中添加一个多任务正则化,用以发现不同动作类中的共享特征,因此,在跨类的每种特征对应的权重上应用l2范数正则化,然后应用范数正则化,基于这种范数正则化,所有类的共享隐式特征可以被选择,同时所有类中大多数特征都是稀疏的,通过将该多任务学习项添加到(12)中,则有:
由于公式(12)的问题是一个连续的微分多元函数,优化步骤通过利用L-BFGS 算法完成,此后,通过如下学习到的分类器来预测动作类别:
经过上述步骤的操作,即实现基于肢体层次结构的动作识别。
以上结合插图所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例,用于解释本发明,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于肢体层次结构的动作识别方法,其特征在于,所述方法包括以下步骤:
1)建立肢体的层次结构:
将人体骨架分为三层,人体骨架分解成肢体,并使用RRV描述符描述了每个肢体;
2)构建HRRV描述符:
将肢体假设为刚体,并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹,然后使用RRV描述符对每个肢体进行运动表示,最后逐层顺序地将所有肢体的RRV描述符进行连接,构建一个单向量作为人体动作的HRRV描述符;
3)计算分层动作表示:
使用FV编码技术对HRRV描述符的统计特性进行编码,形成分层模型的动作表示,FV编码利用生成模型GMM拟合特征,然后对GMM模型的对数似然性相对于其模型参数的导数进行编码;
4)构建多层次肢体学习框架,挖掘同尺度下的显著性肢体和融合不同尺度下的特征:
通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合,在回归模型中,该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。
3.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤2)中,构建HRRV描述符的过程为:
首先,人体肢体被合理地假设为运动刚体,为了在三维空间参数化刚体的运动轨迹,在刚体上附加一个局部三维坐标系{B},并将局部坐标系的原点定义为刚体上的运动参考点;令刚体的运动轨迹为m(t)=[Γ(t),Θ(t)],t∈[1,...N],其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量,其中Γ(t)=[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量,Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量,由3×3的旋转矩阵R表示;
RRV描述符是一个由四元数和相对速度的组合向量,用于描述每个时刻肢体的旋转和平移:
其中四元数q(t)=[qw(t),qx(t),qy(t),qz(t)],表示肢体沿时间的旋转量,{R}vl(t)=R(t)Rvg(t)表示局部相对速度,是通过将世界坐标系中肢体参考点的平方根速度矢量vg(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度,其定义为
最后,逐层地将所有肢体的RRV描述符进行连接,从而构建成一个向量,作为人体动作的HRRV描述符,如下所示:
4.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤3)中,构建分层动作表示的过程如下:
使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码,形成一个有效的动作表示,FV编码利用生成模型GMM(高斯混合模型)拟合描述特征,此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示,令表示从动作序列中提取的N个局部特征描述符,基于以上FV编码,此动作被表示为:
其中θ={πk,μk,δk,k=1,...,K}表示GMM模型的混合权重,均值和对角协方差参数。K是GMM模型中混合高斯分布成分的数量,是相对于均值μk(δk)的梯度向量;梯度向量描述了每个模型参数如何作用于X的生成,γn(k)是局部描述符xn对第k个高斯分布成分的软分配,最终的FV编码向量是所有和的串联,其总维数为2K D;
将时间金字塔方法引入到FV编码过程中以进行动作表示,将一个动作序列递归地划分为从0到Z尺度的金字塔结构,其中在第z尺度上具有有2z个时间分段;此后,利用FV技术可对每个时间分段的特征描述进行编码,因此,任一肢体的FV编码是其所有时间分段的局部FV编码的串联,从而得到最终的分层动作表示u,它是各个层次上每个肢体的编码的组合向量:
5.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法,其特征在于,所述步骤4)的过程如下:
人体动作识别问题被视为一种基于多二元回归的分类问题,有n个训练样本其中 其中是每个肢体的特征维数;这些样本具有C个不同类别,其对应类标签为yc∈{0,1}n,其中yc∈{0,1}n,并且基于上述训练样本与其对应的类别标签,多二元回归模型的目标是通过最小化一个凸损失函数求取相应的特征权重矩阵使用平方误差的总和作为每个类的损失函数,即同时在权重wc上添加一个基于范数的正则化惩罚项防止训练样本的过拟合,将所有动作类的损失函数和范数分别累加,得到总的目标损失函数:
对于矩阵W(resp.Y),其第i行和第j列分别用wi和wj表示,代表矩阵W的(i,j)中的单个元素,此外,λ是正则化因子,在回归模型中应用范数或范数会忽略肢体层次中的结构信息,所以,通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中;
令第c类的相应权重为了通过学习自动地选择每一层中少数的活动肢体,在每一层的肢体特征组中应用稀疏性,用来在回归模型中执行肢体的稀疏选择;在回归模型的权重惩罚项中应用混合范数此外,由于不同尺度的肢体运动在动作分类中起着相同程度的重要作用,所以将范数正则化应用于所有层的特征组,以连接和融合不同尺度的肢体组,所以,有:
其中在每一层上强制了同一尺度肢体之间的稀疏性,同时在每个肢体的特征内部应用范数,但是,采用范数通常会在各个维度上导致信息被抑制,所以使用范数来鼓励动作表示中每个肢体特征内的“多样性”;因此,公式(9)中的组稀疏范数可使用混合范数此时最终形成一个具有三个层次的混合规范首先,最里层的提供了更多的“特征多样性”来规范每个肢体的特征;其次,范数对应用是基于稀疏的正则化,以期在每一层上实现肢体的稀疏选择;最后,外部范数则对施加一般正则化以链接和融合多个层,所以,遵循此分层混合范数,则有:
对于所有动作类,将具有相同正则化项的(10)相加,以矩阵格式形成优化问题:
然后,在该学习框架中添加一个多任务正则化,用以发现不同动作类中的共享特征,因此,在跨类的每种特征对应的权重上应用l2范数正则化,然后应用范数正则化;基于这种范数正则化,所有类的共享隐式特征可以被选择,同时所有类中大多数特征都是稀疏的,通过将该多任务学习项添加到(11)中,则有:
由于公式(12)的问题是一个连续的微分多元函数,优化步骤通过利用L-BFGS算法完成,此后,通过如下学习到的分类器来预测动作类别:
经过上述步骤的操作,即实现基于肢体层次结构的动作识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110167337.1A CN112949419A (zh) | 2021-02-05 | 2021-02-05 | 一种基于肢体层次结构的动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110167337.1A CN112949419A (zh) | 2021-02-05 | 2021-02-05 | 一种基于肢体层次结构的动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112949419A true CN112949419A (zh) | 2021-06-11 |
Family
ID=76243095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110167337.1A Pending CN112949419A (zh) | 2021-02-05 | 2021-02-05 | 一种基于肢体层次结构的动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112949419A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821639A (zh) * | 2022-04-11 | 2022-07-29 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
-
2021
- 2021-02-05 CN CN202110167337.1A patent/CN112949419A/zh active Pending
Non-Patent Citations (1)
Title |
---|
ZHANPENG SHAO等: "A Hierarchical Model for Human Action Recognition from Body-Parts", IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, vol. 29, no. 10, pages 2986 - 2998 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821639A (zh) * | 2022-04-11 | 2022-07-29 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Starke et al. | Neural state machine for character-scene interactions | |
Zhang et al. | On geometric features for skeleton-based action recognition using multilayer lstm networks | |
CN110222653B (zh) | 一种基于图卷积神经网络的骨架数据行为识别方法 | |
CN100543775C (zh) | 基于多目相机的三维人体运动跟踪的方法 | |
Ghezelghieh et al. | Learning camera viewpoint using CNN to improve 3D body pose estimation | |
Yamane et al. | Human motion database with a binary tree and node transition graphs | |
Guo et al. | DSRF: A flexible trajectory descriptor for articulated human action recognition | |
CN106066996A (zh) | 人体动作的局部特征表示方法及其在行为识别的应用 | |
CN111274909B (zh) | 一种基于深度学习的人体点云骨架提取方法 | |
CN109508686B (zh) | 一种基于层次化特征子空间学习的人体行为识别方法 | |
CN109934881A (zh) | 图像编码方法、动作识别的方法及计算机设备 | |
CN114821640A (zh) | 基于多流多尺度膨胀时空图卷积网络的骨架动作识别方法 | |
CN111476155A (zh) | 基于时空图卷积神经网络与特征融合的人体动作分类方法 | |
CN111204476A (zh) | 一种基于强化学习的视触融合精细操作方法 | |
CN113051420B (zh) | 一种基于文本生成视频机器人视觉人机交互方法及系统 | |
Men et al. | A quadruple diffusion convolutional recurrent network for human motion prediction | |
CN113221726A (zh) | 一种基于视觉与惯性信息融合的手部姿态估计方法及系统 | |
CN110007754B (zh) | 手与物体交互过程的实时重建方法及装置 | |
Angelini et al. | Actionxpose: A novel 2d multi-view pose-based algorithm for real-time human action recognition | |
CN111462274A (zh) | 一种基于smpl模型的人体图像合成方法及系统 | |
CN114170353B (zh) | 一种基于神经网络的多条件控制的舞蹈生成方法及系统 | |
CN113987285B (zh) | 基于隐藏状态的运动特征数据库生成方法、检索方法 | |
Xu et al. | Motion recognition algorithm based on deep edge-aware pyramid pooling network in human–computer interaction | |
CN112949419A (zh) | 一种基于肢体层次结构的动作识别方法 | |
Liu et al. | Key algorithm for human motion recognition in virtual reality video sequences based on hidden markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |