CN113239897B

CN113239897B - 基于时空特征组合回归的人体动作评价方法

Info

Publication number: CN113239897B
Application number: CN202110666807.9A
Authority: CN
Inventors: 王正友; 王佳辉; 张志涛; 孙鑫; 杨桂懿; 庄珊娜
Original assignee: Shijiazhuang Tiedao University
Current assignee: Shijiazhuang Tiedao University
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2023-08-18
Anticipated expiration: 2041-06-16
Also published as: CN113239897A

Abstract

本发明公开了一种基于时空特征组合回归的人体动作评价方法，涉及人体动作识别方法技术领域。所述方法包括如下步骤：三维坐标动作序列提取：根据现有基于骨骼坐标的动作识别方法或者数据集，获取到已识别的三维坐标动作序列；特征编码提取：对获取到的已识别的动作序分别从时间特征、空间特征和时空特征三个方面进行特征编码；特征码融合：根据自注意力网络融合时间特征、空间特征和时空特征三个方面的特征编码信息；动作回归评分：将融合后的特征送入回归评价模块进行处理，给出动作的最终得分。所述方法通过人体特征编码提取以及特征码融合，使得具有评分准确度更高的优点。

Description

基于时空特征组合回归的人体动作评价方法

技术领域

本发明涉及人体动作识别方法技术领域，尤其涉及一种基于时空特征组合回归的人体动作评价方法。

背景技术

人体动作的相似性研究仍处于初级阶段，人体动作评价是动作执行状态的评估。对于动作评价任务，现阶段工作主要通过三种方式进行建模：1)将问题转化为分类任务，将测试者分为新手和专家；2)将问题转化为成对排序任务；

3)利用专家评委给出的可靠得分指导训练过程，最后利用训练好的参数将动作评价表述为回归任务。

将动作评价转化为分类任务方法仅仅是为了确定测试者的熟练级别，并不能得到测试者的具体得分。而且设定的级别过于粗糙，不能定量评价动作优劣。现有方法并不能将动作进行全局时空解耦分析。动作评价是时空序列综合评价，时间特征和空间特征分别决定了测试者的动作标准度和动作熟练度。

发明内容

本发明所要解决的技术问题是如何提供一种评分准确度高的基于时空特征组合回归的人体动作评价方法。

为解决上述技术问题，本发明所采取的技术方案是：一种基于时空特征组合回归的人体动作评价方法，其特征在于包括如下步骤：

三维坐标动作序列提取：根据现有基于骨骼坐标的动作识别方法或者数据集，获取到已识别的三维坐标动作序列；

特征编码提取：对获取到的已识别的动作序分别从时间特征、空间特征和时空特征三个方面进行特征编码；

特征码融合：根据自注意力网络融合时间特征、空间特征和时空特征三个方面的特征编码信息；

动作回归评分：将融合后的特征送入回归评价模块进行处理，给出动作的最终得分。

采用上述技术方案所产生的有益效果在于：所述方法通过对已识别的三维坐标动作序列进行时间特征值、空间特征和时空特征三个方面的特征编码，并通过自注意力网络融合三个特征编码信息，将融合后的特征送入回归模块，给出动作的最终得分。本方法充分考虑时空特征以及全局和局部特征，计算准确度高。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例所述方法的流程图；

图2是本发明实施例所述方法的处理流程图；

图3是本发明实施例所述方法中获取到的三维人体坐标图；

图4是本发明实施例所述方法中多层感知机模型图；

图5是本发明实施例所述方法中自适应空间结构特征融合块图；

图6是本发明实施例所述方法中时空结构特征自适应融合图卷积网络图；

图7是本发明实施例所述方法中自注意力机制网络方法图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1-图2所示，本发明实施例公开了基于时空特征组合回归的人体动作评价方法，包括如下步骤：

三维坐标动作序列提取：根据现有基于骨骼坐标的动作识别方法或者数据集，获取到已识别的三维坐标动作序列，人体动作三维骨骼节点数据可由Kinect摄像机或人体坐标数据集或OpenPose等现有方法提取获得，获得三维坐标数据如图3所示；

下面结合具体的技术方案对以上内容进行说明：

对动作序列进行时间特征编码：

时空建模中，时间依赖性学习能力是评估模型的标准，基于CNN的TCN方法，TCN可以将任意长度序列映射为等长输入序列，继承了CNN优势，具有稳定梯度等优点，一定程度上避免了过拟合出现，所以时间卷积被广泛的应用于时空建模中。采用门控激活单元(Gated Activation Unit)优化TCN，利用Sigmoid和Tanh激活函数计算元素乘积，并且增加了残差连接以加速收敛，并使梯度下降能在更深的网络模型中传播。Gated TCN模块充分考虑了时间卷积单元之间关系，增强了时间网络非局部性。门控激活单元表达式如下：

h＝tanh(Θ₁x+b)⊙σ(Θ₂x+c) (1)

其中，⊙表示哈达玛积，tanh(·)代表输出层激活函数，σ(·)表示Sigmoid函数，控制信息输出到下一层的比率。

对动作序列进行空间特征编码：

人体关节点坐标包含了人体位置信息，是动作识别重要数据来源，因此对关节点特征提取具有重要意义；GCN在非欧几里得域中处理节点信息，特征和邻接矩阵输入嵌入图中，GCN分层更新规则如下：

其中是增加了节点自身(self-loops)以保持恒等特征的邻接矩阵，I表示单位阵，/>是/>的度矩阵，σ(·)表示激活函数。

通过GCN提取骨架的结构信息，表达式如下：

其中，S₁是骨架结构特征。

MLP使用不同节点集进行线性组合，具有较强全局推理能力。

训练多层感知机模型更新规则如下：

其中w_k是参数权重，b_l是参数偏置，η是超参数学习速率，m是后一层的输出节点个数，C_Xj是后一层的输入节点。

通过下采样操作，解决了非局部单元(NL-block)复杂度较高问题，下采样操作表达式如下：

S₂＝σ(fc(ReLU(fc(GAP(X)))) (5)

其中，X是节点特征矩阵，ReLU(·)和σ(·)表示激活函数，GAP(·)表示全局平均池化，fc(·)表示全连接层。

多层感知机模型如图4所示，f_in表示输入矩阵，N×C_in×T×V表示矩阵维度，经过多级下采样输出矩阵f_mlp，维度为N×C_out×1×1。

自适应空间结构特征融合块融合方法：

采用参数聚合来减少参数数量，如图5所示。通过元素乘积融合多个分支(GCN和MLP提取的特征流)，其中F_sq,F_ex分别表示压缩(squeeze)和激励(excitation)操作。人体动作识别不仅关注骨架关节点之间结构信息，还关注空间位置信息。

由于没有先验知识判断结构特征重要程度，需要利用加权求和方法学习不同分支的时空权重，得到注意力系数：

其中A,B为压缩后的特征向量。最终输出融合向量S_fusion：

其中(:)表示S₁,S₂级联，softmax()是归一化指数函数。

对动作序列进行时空特征编码：

采用关节点和骨骼双流网络叠加以及多个基础网络模型迭代，结构特征自适应融合图卷积网络：

空间模块和时间模块交替处理维度为C×T×N的特征映射，如图6所示。基本块由门控TCN、结构特征空间卷积网络以及自适应融合模块组成。为了稳定训练以及保留特征数据完整性，在每个块之间增加一个跳接(skip connection)。最后利用一维卷积变换调整输出维度，将结果与残差求和送入下一个单元中。

自注意力网络实现时空特征编码融合:

自注意力机制从全局信息中寻找与自身联系较大关键信息，可以很好地利用图像的全局像素特征。同时，自注意力机制还可以学习输入的上下文信息，能够更好的处理图像中长距离和多层次依赖关系。自注意力机制流程如图7所示。

时空特征进行了提取和编码，映射为相同维度的数据。为了保留时空特征信息，时空特征编码融合过程：

其中，代表矩阵乘法，/>表示级联运算，/>和/>分别表示时空特征、时间特征和空间特征编码信息，W^(t)表示注意力参数。

其中softmax(·)表示softmax函数，FC_key(·)表示学习输入映射的全连接层。

经过特征提取编码和融合，得到了评分依据信息，最后一步需要将融合特征送入回归模块得到动作的最终得分，回归模块预测动作得分如式：

其中，S代表动作预测分数，表示注意力融合特征，T表示骨骼序列的长度，/>表示回归模块。

损失函数选用均方误差，定义为其中y_i和/>表示标签值和预测值，C表示样本数。

从时空角度分析人体动作，分别得到时间和空间得分以及总分，所以损失函数需要综合分析，损失函数时空表示如下：

L＝L_st+θL_s+(1-θ)L_t (11)

其中，L_st,L_s,L_t分别表示时空动作评价总分，空间得分和时间得分。θ表示可学习权重。

回归评价模块方法不但可以求出人体动作总分，而且分别得到了时间和空间得分。这样做可以让测试者更好的从空间得分中判断自己动作是否标准，从时间得分中判断自己的熟练度是否符合要求。

Claims

1.一种基于时空特征组合回归的人体动作评价方法，其特征在于包括如下步骤：

动作回归评分：将融合后的特征送入回归评价模块进行处理，给出动作的最终得分；

采用结构特征空间卷积网络图卷积GCN和多层感知机模型MLP分别对骨架节点和关节点特征进行提取，并利用自适应空间结构特征融合块进行融合，实现空间特征提取编码信息；

使用结构特征空间卷积网络图卷积GCN对骨架节点特征进行提取的方法如下：

通过GCN分层规则进行更新：

其中是增加了节点自身以保持恒等特征的邻接矩阵，I表示单位阵，/>是/>的度矩阵，σ(·)表示激活函数；

通过GCN提取骨架的结构信息，表达式如下：

其中S₁是骨架结构特征；

使用多层感知机模型MLP对关节点特征进行提取的方法如下：

训练多层感知机模型MLP更新规则如下：

其中w_k是参数权重，b_l是参数偏置，η是超参数学习速率，m是后一层的输出节点个数，是后一层的输入节点；

通过下采样操作解决复杂度较高问题，表达式如下：

S₂＝σ(fc(ReLU(fc(GAP(X)))) (5)

其中X是节点特征矩阵，ReLU(·)和σ(·)表示激活函数，GAP(·)表示全局平均池化，fc(·)表示全连接层；

利用自适应空间结构特征融合块进行融合的方法如下：

学习不同分支的时空权重，得到注意力系数：

其中A,B为压缩后的特征向量，最终输出融合向量S_fusion：

其中(:)表示S₁,S₂级联，softmax()是归一化指数函数；

所述自注意力网络进行融合的方法如下：

时空特征编码融合过程：

其中代表矩阵乘法，/>表示级联运算，/>f_t ^(t)和f_s ^(t)分别表示时空特征、时间特征和空间特征编码信息，W^(t)表示注意力参数；

其中softmax(·)表示softmax函数，FC_key(·)表示学习输入映射的全连接层；

使用回归评价模块进行评价的方法如下：

回归评价模块预测动作得分如下式：

其中S代表动作预测分数，表示注意力融合特征，T表示骨骼序列的长度，/>表示回归模块；

损失函数选用均方误差，定义为其中y_i和/>表示标签值和预测值，C表示样本数；

其中分别表示时空动作评价总分，空间评价得分和时间评价得分，θ表示可学习权重；

采用门控TCN对时间特征进行特征编码提取；采用门控TCN对时间特征进行特征编码提取的方法如下：

采用门控激活单元优化TCN，利用Sigmoid和Tanh激活函数计算元素乘积，门控激活单元表达式如下：

h＝tanh(Θ₁x+b)⊙σ(Θ₂x+c) (1)

其中⊙表示哈达玛积，tanh(·)代表输出层激活函数，σ(·)表示Sigmoid函数，控制信息输出到下一层的比率。

2.如权利要求1所述的基于时空特征组合回归的人体动作评价方法，其特征在于，所述方法还包括根据现有基于骨骼坐标的动作识别方法或者数据集，获取到已识别的三维坐标动作序列的步骤。