CN112949419A

CN112949419A - 一种基于肢体层次结构的动作识别方法

Info

Publication number: CN112949419A
Application number: CN202110167337.1A
Authority: CN
Inventors: 邵展鹏; 刘鹏; 胡超群; 周小龙
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-06-11

Abstract

一种基于肢体层次结构的动作识别方法，包括以下步骤：1)将人体骨架分为三层，人体骨架分解成肢体，并使用RRV描述符描述了每个肢体；2)将肢体假设为刚体，然后逐层顺序地将所有肢体的RRV描述符进行连接，构建一个单向量作为人体动作的HRRV描述符；3)使用FV编码技术对HRRV描述符的统计特性进行编码，形成分层模型的动作表示；4)构建分层肢体学习框架，实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合，在处理复杂环境下人体动作识别任务中实现了较好的效果。本发明在仅使用人体骨架的单个特征模态时，就可实现卓越的性能；有效地降低了计算复杂度，并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。

Description

一种基于肢体层次结构的动作识别方法

技术领域

本发明涉及到计算机视觉中动作识别任务，具体地涉及一种基于肢体层次结构的动作识别方法。

背景技术

人体动作识别一直是计算机视觉，模式识别和机器人技术等各个领域活跃的研究领域。尽管在基于RGB视频的传统动作识别领域已有了较多的研究成果，但3D视觉信息(例如深度图和人体骨架)可以提供获取更好的人体动作特征，并且对光照变化和杂乱的背景具有更好的鲁棒性。然而，现有基于3D视觉信息的方法多使用单个3D视觉模态。在涉及视点变化、遮挡和噪声的情况下，这种基于单个3D视觉模态的动作识别系统无法获取较高的识别性能。虽然，一些现有方法可以通过融合异构多模态视觉数据(RGB视频，深度图视频，人体骨架序列)来克服上述局限性，但融合多模态特征会带来较高的的计算成本。

根据使用的视觉特征，从3D视觉信息中识别现有动作的方法可以分为两类：基于深度图的方法和基于骨架的方法。在基于深度图的方法类别中，通常从深度图中提取动作特征，例如深度HoG、深度STIP和超法向矢量描述。虽然这些方法可以取得较好的识别性能，但与基于骨架的方法相比，它们对人体位置和外观的变化不具有鲁棒性。基于骨架的方法通常是是从组成人体骨架的3D关节位置提取时空几何特征。例如，一些方法通过计算当前帧的骨架的关节成对距离、当前帧的骨架与先前帧骨架之间的关节距离以及当前帧的骨架与特定参考骨架之间的关节距离。进一步，通过组合上述三种距离来表示人体姿势特征。

为了获得更丰富的视觉特征，一些方法将基于骨架的特征和基于深度图的特征融合在一起，以形成更加丰富的人体动作特征表示。例如将关节的成对位置和深度LOP描述组合一起形成一种有效的动作特征表示。还有通过多核学习MKL 框架同时地挖掘不同模态特征之间的共享特征分量与各个模态特征内在的特定分量，其中多模态特征分别是从人体骨架关节，深度图和RGB序列中提取的异构特征。但是，这些基于多模态特征的融合方法带来了较高的计算成本，不利于动作识别的实时性要求。

近年来，很多基于深度学习模型(例如3D CNN和时空LSTM)的方法取得了较高的动作识别准确性。然而，基于深度学习模型的动作识别方法具有一定的局限性。首先，深度模型具有大量的参数，在较小规模的动作识别数据上易于过拟合。其次，大多数用于动作识别的深度学习模型都具有复杂的拓扑结构设计，因此模型并不容易训练。而且，这些深度模型同样不能很好地推广到具有较小规模的动作数据场景。

发明内容

为了解决上述动作识别的技术问题，本发明提出了一种基于肢体层次结构的动作识别方法，该方法将人体动作视为在人体骨架的多个肢体上的一组并发运动，其中肢体被定义为人体骨架的相邻关节之间的连接部件。基于此，将人体骨架分解为不同尺度的肢体，其中在更小尺度上，人体骨架可被分解为更多的运动肢体。为了表示肢体的这种层次结构，该方法相应的构建了分层旋转和相对速度(HRRV) 描述符，并提出一种分层肢体学习框架，以实现同一尺度下显著性肢体的挖掘和不同尺度下的特征融合，在处理复杂环境下人体动作识别任务中实现了较好的效果。

本发明解决其技术问题所采用的技术方案是：

一种基于肢体层次结构的动作识别方法，所述方法包括以下步骤：

1)建立肢体的层次结构：

将人体骨架分为三层，人体骨架分解成肢体，并使用RRV描述符描述了每个肢体；

2)构建HRRV描述符：

将肢体假设为刚体，并且在刚体上附加一个局部三维坐标系来参数化其运动轨迹，然后使用RRV描述符对每个肢体进行运动表示，最后逐层顺序地将所有肢体的RRV描述符进行连接，构建一个单向量作为人体动作的HRRV描述符；

3)计算分层动作表示：

使用FV编码技术对HRRV描述符的统计特性进行编码，形成分层模型的动作表示，FV编码利用生成模型GMM拟合特征，然后对GMM模型的对数似然性相对于其模型参数的导数进行编码；

4)构建多层次肢体学习框架，挖掘同尺度下的显著性肢体和融合不同尺度下的特征：

通过在回归模型中构造混合范数正则化来实现同一尺度显著性肢体和不同尺度肢体的分组融合，在回归模型中，该混合范数同时在分层肢体特征相对应的权重中加入稀疏性和耦合效应。

进一步，所述步骤1)中，人体骨架可以分解为许多肢体，人体动作则可以视为这些肢体关节运动的组合，不同动作的主要区分在于肢体运动不同，所以该方法提出了肢体的层次结构，并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体，其中在更高层上，人体骨架可以以更小的尺度被分解得到更多的肢体。

设人体骨架为P，本发明将其分为三个层次，即P＝{p¹,...,p^L}，，此处L＝3。在每一层上，骨架可被分解为一组运动肢体p^l，

其中K_l＝|p_l|是集合p^l的基数，表示当前l层的肢体个数。

再进一步，所述步骤2)中，构建HRRV描述符的过程为：

首先，人体肢体被合理地假设为运动刚体。为了在三维空间参数化刚体的运动轨迹，在刚体上附加一个局部三维坐标系{B}，并将局部坐标系的原点定义为刚体上的运动参考点；令刚体的运动轨迹为m(t)＝[Γ(t),Θ(t)],t∈[1,...N]，其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量。更具体地说，其中Γ(t)＝[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量，Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量，通常由3×3的旋转矩阵R表示；

RRV描述符是一个由四元数和相对速度的组合向量，用于描述每个时刻肢体的旋转和平移：

其中四元数q(t)＝[q_w(t),q_x(t),q_y(t),q_z(t)]，

表示肢体沿时间的旋转量。 {R}v_l(t)＝R(t)^Rv_g(t)表示局部相对速度，是通过将世界坐标系中肢体参考点的平方根速度矢量v_g(t)投影到局部坐标系中相对速度矢量而获得的局部相对速度，其定义为

根据欧拉旋转定理，一组连续的旋转量等效于围绕某一单位矢量

旋转一个角度β的单个旋转量，因此，四元数提供一种简单的方法来编码这种轴角表示方法：

这种四元数表示参数通过肢体的旋转矩阵来求解，给定旋转矩阵

单位矢量w通过下面的公式计算：

其中

和trace(R)是指矩阵R的对角元素总和，向量q，

标量β和矩阵R都为时间序列，这里为了表示方便，只是忽略了变量t的标示；

最后，逐层地将所有肢体的RRV描述符进行连接，从而构建成一个向量，作为人体动作的HRRV描述符，如下所示：

所述步骤3)中，构建分层动作表示的过程如下：

使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码，形成一个有效的动作表示，FV编码利用生成模型GMM(高斯混合模型)拟合描述特征，此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示，令

表示从动作序列中提取的N个局部特征描述符，基于以上FV编码，此动作被表示为：

其中θ＝{π_k,μ_k,δ_k,k＝1,...,K}表示GMM模型的混合权重，均值和对角协方差参数。K是GMM模型中混合高斯分布成分的数量，

是相对于均值μ_k (δ_k)的梯度向量；梯度向量描述了每个模型参数如何作用于X的生成，γ_n(k)是局部描述符x_n对第k个高斯分布成分的软分配，最终的FV编码向量是所有

和

的串联，其总维数为2K D；

将时间金字塔方法引入到FV编码过程中以进行动作表示，将一个动作序列递归地划分为从0到Z尺度的金字塔结构，其中在第z尺度上具有有2^z个时间分段；此后，利用FV技术可对每个时间分段的特征描述进行编码，因此，任一肢体的FV编码

是其所有时间分段的局部FV编码的串联，从而得到最终的分层动作表示u，它是各个层次上每个肢体的

编码的组合向量：

其中

是

维向量，u是

维向量。

所述步骤4)的过程如下：

通过在线性回归模型中构造一个基于混合范数的正则化来实现同一尺度下显著肢体的选择和不同尺度(多层次)下各肢体组的特征融合，基于肢体的分层结构，在该正则化项中，具有稀疏性的范数和耦合效应的范数被组织成为一个层次化结构的混合范数，因此，在该模型的优化中可自动地约束模型权重的学习，实现多层次肢体的学习框架。

人体动作识别问题被视为一种基于多二元回归的分类问题，有n个训练样本

其中

其中

是每个肢体的特征维数；这些样本具有C个不同类别，其对应类标签为

y_c∈{0,1}ⁿ，其中y_c∈{0,1}ⁿ，并且

基于上述训练样本与其对应的类别标签，多二元回归模型的目标是通过最小化一个凸损失函数

求取相应的特征权重矩阵

使用平方误差的总和作为每个类的损失函数，即

同时在权重w_c上添加一个基于

范数的正则化惩罚项防止训练样本的过拟合，将所有动作类的

损失函数和

范数分别累加，得到总的目标损失函数：

对于矩阵W(resp.Y)，其第i行和第j列分别用w_i和w_j表示，

代表矩阵W的(i,j)中的单个元素。此外，λ是正则化因子，在回归模型中应用

范数或

范数会忽略肢体层次中的结构信息，所以，通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中；

令第c类的相应权重

为了通过学习自动地选择每一层中少数的活动肢体，在每一层的肢体特征组中应用稀疏性，用来在回归模型中执行肢体的稀疏选择；在回归模型的权重惩罚项中应用混合范数

此外，由于不同尺度的肢体运动在动作分类中起着相同程度的重要作用，所以将

范数正则化应用于所有层的特征组，以连接和融合不同尺度的肢体组，所以，有：

其中

在每一层上强制了同一尺度肢体之间的稀疏性，同时在每个肢体的特征内部应用

范数，但是，采用

范数通常会在各个维度上导致信息被抑制，所以使用

范数来鼓励动作表示中每个肢体特征内的“多样性”；因此，公式(9)中的组稀疏范数可使用混合范数

此时最终形成一个具有三个层次的混合规范

首先，最里层的

提供了更多的“特征多样性”来规范每个肢体的特征；其次，

范数对

应用是基于稀疏的正则化，以期在每一层(尺度)上实现肢体的稀疏选择；最后，外部

范数则对

施加一般正则化以链接和融合多个层，所以，遵循此分层混合范数，则有：

对于所有动作类，将具有相同正则化项的(10)相加，以矩阵格式形成优化问题:

然后，在该学习框架中添加一个多任务正则化，用以发现不同动作类中的共享特征，因此，在跨类的每种特征对应的权重上应用l2范数正则化，然后应用

范数正则化；基于这种

范数正则化，所有类的共享隐式特征可以被选择，同时所有类中大多数特征都是稀疏的，通过将该多任务学习项添加到(11)中，则有：

由于公式(12)的问题是一个连续的微分多元函数，优化步骤通过利用L-BFGS 算法完成，此后，通过如下学习到的分类器来预测动作类别：

经过上述步骤的操作，即实现基于肢体层次结构的动作识别。

本发明的有益效果主要表现在：本发明通过将人体运动视为人体骨架各部分的肢体运动，并且构建了相应的HRRV描述符和分层学习框架来进行动作识别，该方法在仅使用人体骨架的单个特征模态时，就可实现卓越的性能。同时,在分层模型中使用HRRV描述符有效地降低了计算复杂度，并且对于多个关节上的遮挡和干扰具有一定的鲁棒性。

附图说明

图1是本发明技术方案的总体流程示意图；

图2是欧氏空间中刚体运动轨迹的6自由度表示；

图3是虚拟刚体的示意图，(a)左臂中多个刚体的铰接连接表示形式；(b)使用给定的根关节和端关节构造虚拟刚体，并将关节点端设置为参考点；(c)虚拟刚体的旋转和参考点的速度；(d)左臂肢体中其他可能的虚拟刚体；

图4是人体骨架的肢体层次结构，以及用于多层次肢体学习框架的分层混合范数的三个层级正则化。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图4，一种基于肢体层次结构的动作识别方法，包括以下步骤：

1)构建肢体的层次结构，过程如下：

人体骨架可以分解为许多肢体，人体动作则可以视为这些肢体关节运动的组合。不同动作的主要区分在于肢体运动不同，所以该方法提出了肢体的层次结构，并使用RRV描述符描述了每个肢体。该方法将人体骨架在三个层次上分解为不同尺度的肢体，其中在更高层上，人体骨架可以以更小的尺度被分解得到更多的肢体。设人体骨架为P，本发明将其分为三个层次，即P＝{p¹,...,p^L}，，此处L＝3。在每一层上，骨架可被分解为一组运动肢体p^l，

其中K_l＝|p_l|是集合p^l的基数，表示当前l层的肢体个数。

2)构建HRRV描述符，过程如下：

首先，人体肢体被合理地假设为运动刚体，为了在三维空间参数化刚体的运动轨迹，我们在刚体上附加一个局部三维坐标系{B}，并将局部坐标系的原点定义为刚体上的运动参考点，如图2所示。令刚体的运动轨迹为 m(t)＝[Γ(t),Θ(t)],t∈[1,...N]，其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量；更具体地说，其中Γ(t)＝[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量，Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量，由3×3的旋转矩阵R表示；

其中四元数q(t)＝[q_w(t),q_x(t),q_y(t),q_z(t)]，

根据欧拉旋转定理，一组连续的旋转量可以等效于围绕某一单位矢量

旋转一个角度β的单个旋转量。因此，四元数可以提供一种简单的方法来编码这种轴角表示方法：

这种四元数表示参数可以通过肢体的旋转矩阵来求解，具体地说，给定旋转矩阵

单位矢量w通过下面的公式计算：

其中

和trace(R)是指矩阵R的对角元素总和，需要注意的是向量q，

在人体骨架的每个肢体(刚体)上都有两个参考点，即根参考点J_root和终点参考点J_end，如图3所示。肢体的旋转矩阵描述的是相邻帧间肢体的方位变换，该旋转矩阵可以从相邻帧间肢体主轴b_x(t)和b_x(t+1)确定，其中b_x表示J_root到 J_end的向量。令a₁＝b_x(t)/||b_x(t)||和a₂＝b_x(t+1)/||b_x(t+1)||为单位向量，这两个向量的叉积为c＝a₁×a₂，然后旋转矩阵可由以下公式得到：

其中[c]_×是c＝[c₁,c₂,c₃]^T反对称叉积，利用旋转矩阵R，可以根据(2)，(3)直接获取对应的四元数q；

对于包含两个以上关节的肢体如图3(a)，本发明将其处理为虚拟刚体，在计算RRV描述符的过程中，将其视为具有根关节和端关节的刚体，而忽略可能的长度变化如图3(b)，对于{R}v_l(t)，根据(1)计算参考节点J_end的相对速度，

基于上述肢体的RRV计算步骤，逐层地将所有肢体的RRV描述符进行连接，从而构建成一个向量，作为人体动作的HRRV描述符，如下所示：

3)构建分层动作表示，过程如下：

使用Fisher Vector(FV)技术对HRRV描述符的统计特性进行编码，形成一个有效的动作表示。FV编码利用生成模型GMM(高斯混合模型)拟合描述特征，此后通过计算该模型的对数似然性相对于模型参数的梯度得到基于FV编码的动作表示。令

其中θ＝{π_k,μ_k,δ_k,k＝1,...,K}表示GMM模型的混合权重，均值和对角协方差参数，K是GMM模型中混合高斯分布成分的数量，

是相对于均值μ_k (δ_k)的梯度向量；实质上，梯度向量描述了每个模型参数如何作用于X的生成，γ_n(k)是局部描述符x_n对第k个高斯分布成分的软分配，最终的FV编码向量是所有

和

的串联，其总维数为2K D；

为了考虑时间信息，进一步将时间金字塔方法引入到FV编码过程中以进行动作表示；具体地说，将一个动作序列递归地划分为从0到Z尺度的金字塔结构，其中在第z尺度上具有有2^z个时间分段；此后，利用FV技术可对每个时间分段的特征描述进行编码，因此，任一肢体的FV编码

是其所有时间分段的局部 FV编码的串联，从而得到最终的分层动作表示u，它是各个层次上每个肢体的

编码的组合向量：

其中

是

维向量，u是

维向量；

4)构建分层肢体学习框架，用于同一尺度下显著性肢体的挖掘和不同尺度肢体的特征融合，过程如下：

人体动作识别问题可以被视为一种基于多二元回归的分类问题，设有n个训练样本

其中

其中

y_c∈{0,1}ⁿ，其中y_c∈{0,1}ⁿ，并且

求取相应的特征权重矩阵

使用平方误差的总和作为每个类的损失函数，即

同时在权重w_c上添加一个基于

损失函数和

范数分别累加，得到总的目标损失函数：

对于矩阵W(resp.Y)，其第i行和第j列分别用w_i和w_j表示，

代表矩阵W的(i,j)中的单个元素；此外，λ是正则化因子，第c类的相应权重

通常，在回归模型中应用

范数或

范数会忽略肢体层次中的结构信息，所以，通过结构化的混合范式可将肢体层次之间的特征结构化关系嵌入到模型学习过程中。

在公式(9)中的范数惩罚项中使用具有三个层次结构的混合范数

首先，最里层的

提供了更多的“特征多样性”来规范每个肢体的特征，其次，

范数对

应用是基于稀疏的正则化，以期在每一层(尺度)上实现肢体的稀疏选择。最后，外部

范数则对

对于所有动作类，我们将具有相同正则化项的(11)相加，以矩阵格式形成优化问题：

范数正则化，基于这种

范数正则化，所有类的共享隐式特征可以被选择，同时所有类中大多数特征都是稀疏的，通过将该多任务学习项添加到(12)中，则有：

以上结合插图所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于肢体层次结构的动作识别方法，其特征在于，所述方法包括以下步骤：

1)建立肢体的层次结构：

2)构建HRRV描述符：

3)计算分层动作表示：

2.如权利要求1所述的一种基于肢体层次结构的动作识别方法，其特征在于，所述步骤1)中，设人体骨架为P，将其分为三个层次，即P＝{p¹,...,p^L}，此处L＝3，在每一层上，骨架可被分解为一组运动肢体p^l，

其中K_l＝|p_l|是集合p^l的基数，表示当前l层的肢体个数。

3.如权利要求1或2所述的一种基于肢体层次结构的动作识别方法，其特征在于，所述步骤2)中，构建HRRV描述符的过程为：

首先，人体肢体被合理地假设为运动刚体，为了在三维空间参数化刚体的运动轨迹，在刚体上附加一个局部三维坐标系{B}，并将局部坐标系的原点定义为刚体上的运动参考点；令刚体的运动轨迹为m(t)＝[Γ(t),Θ(t)],t∈[1,...N]，其表示的是刚体参考点的一组位置向量和局部坐标系{B}的一组方位向量，其中Γ(t)＝[x(t),y(t),z(t)]表示在t时刚体参考点在世界坐标{O}中的位置向量，Θ(t)代表局部坐标系{B}在t时相对于世界坐标的方位向量，由3×3的旋转矩阵R表示；