CN113158861A

CN113158861A - 一种基于原型对比学习的运动分析方法

Info

Publication number: CN113158861A
Application number: CN202110390222.9A
Authority: CN
Inventors: 吴子朝; 李佳昕; 王昊然; 王毅刚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2021-07-23
Anticipated expiration: 2041-04-12
Also published as: CN113158861B

Abstract

本发明公开了一种基于原型对比学习的运动分析方法。该方法包括获取与处理人体3D骨骼关节点位置数据集、定义算法目标；构建特征提取网络；构建原型以及原型密度；以及原型对比学习。采用基于原型对比学习的带注意力机制的双向长短期记忆网络提取骨骼关节点位置特征编码，将原型作为潜在变量，并在基于期望最大化的框架中执行迭代聚类和表示学习。通过原型噪声对比估计损失进行训练，学习到对骨架关节点序列编码的嵌入空间。本发明避免了有监督学习的具有标签的数据集稀缺所带来无法对庞大的动作类别进行完全分类的问题，在无监督学习的范围下有效地结合了聚类与对比学习的优点，无监督学习范围内表现良好，提高了分类精度。

Description

一种基于原型对比学习的运动分析方法

技术领域

本发明涉及人体运动动作分析领域，特别涉及一种基于原型对比学习的运动分析方法。

背景技术

近年来随着计算机视觉相关技术的发展和应用，基于骨骼关节点序列的人体动作分析技术迅速兴起并得到了广泛的关注。基于人体骨架的行为识别问题通常根据包含多帧的一组人体骨架关节点位置序列，预测序列对应的行为类别。当前基于骨骼关节点序列的人体动作分析仍是计算机视觉中一个极具挑战性的课题，在智能监控，人机交互，体育训练等领域有着广泛的应用场景。

传统的动作分析技术通常以关节位置之间的距离或者相应关节角度的平均差异作为目标函数训练模型。当在一组时间序列上比较人体姿势时，评估两个姿势或运动序列之间的相似性就成了一个不小的问题。这样的技术在单张图像通常可以得到较好的对比效果，但在增加了时序信息的多帧动作分析上匹配效果往往不准确。

现有的基于骨骼关节点的人体动作分析，大多是有监督的，这些方法通常在训练中使用一组带标签的动作。这样的方法虽然在训练时表现较好，但由于带标签的数据集较少，难以在现实应用中分类庞大的动作类别库，因而在实际使用中受到了一定的限制。

发明内容

针对现有技术的不足，本发明提出了一种基于原型对比学习的运动分析方法，提出了对骨骼关节点时序信息新的聚类方法，可以适应数据多样性的特点，实现无监督的带有时序信息的数据处理方式。

一种基于原型对比学习的运动分析方法，具体包括以下步骤：

S1、数据获取及处理

获取用于训练的人体3D骨骼关节点位置数据集，并进行预处理。

所述预处理方法为对数据集进行下采样并统一关节维度。

S2、获取骨骼关节点特征编码

使用带有注意力机制的双向长短期记忆网络对骨骼关节点序列数据进行处理，将步骤S1预处理后的T帧骨骼关节点运动序列X输入双向长短期记忆网络，S＝(s₁,s₂,…,s_n)是层级标准化长短期记忆网络的后向和前向通路的级联输出，完成正向、反向以及相加后，经过批处理规范化层的输出转发到注意力机制层，产生固定大小的输出。随后经过几次批标准化和全连接后求得所需的骨骼关节点特征编码θ。

S3、构建原型以及原型密度

对步骤S2获取的骨骼关节点特征编码进行k均值聚类得到相应的m种聚类原型，并计算m种聚类的原型密度

使用与原型c相同的聚类簇的特征编码

计算原型密度

z是与原型c同一聚类簇的数量，α是一个平滑参数，用于保证分母不为0。原型密度

的值越小，该簇内的数据相似性越大。

S4、原型对比学习

利用S2和S3中的骨骼关节点特征编码与原型，定义目标函数原型噪声对比估计，反向传播更新特征学习网络的参数，使S2的网络学习到更好的表征，具体步骤为：

S4.1、使用步骤S2获取的初始骨骼关节点特征编码θ，复制生成动态骨骼关节点特征编码θ′。

S4.2、对动态骨骼关节点特征编码θ′进行原型聚类，定义原型噪声对比估计的目标函数L_ProtoNce为：

其中v_i是获取的初始编码v_i＝f_θ(x_i)，v′_j是获取的动态编码其中包括1正例v′_i与r反例，c是聚类中心，M代表的是不同数量的簇的次数

代表的是第m次聚类原型，

代表的是原型密度。

是获取的动态编码其中包括1正例原型v′_i与r反例原型。τ是温度系数。

S4.3、使用随机梯度下降法寻找目标函数L_ProtoNce的最优值对动态骨骼关节点特征编码θ′进行更新，更新方式为：

θ_p′＝0.999*θ_p-1′+0.001*θ (3)

其中θ_p′表示第p次更新后得到的动态骨骼关节点特征编码，p＝1，2...P，θ₀′＝θ′。

S4.4、重复步骤S4.2、S4.3，进行多次迭代训练。

作为优选，迭代训练目标函数L_ProtoNce的次数为200个epoch。

S5、输出结果

通过S4的原型对比学习，最终输出不同运动的聚类簇，相似的运动属于同一簇，不同的运动属于不同簇。新的序列运动也可以通过S4训练得到的网络，聚类到该运动所属的簇。

本发明具有以下有益效果：

1、使用具有双向的长短期记忆网络，有效地利用不同帧之间过去时序联系和未来时序联系，充分利用时序信息，大大地提高了人体运动分析的效果；

2、应用自注意力机制，保留了运动方式，使不同时间长度的帧序列经过长短期记忆网络的可变大小的输出编码，转换为固定大小的输出；

3、使用原型对比学习的方法，在无监督学习的范围下有效地结合了聚类与对比学习的优点，分类效果更加的准确；并且可以对大量动作数据进行更加多元的聚合，大幅减少获得数据的代价。

4、不要求输入序列具有任何显示同步和对齐的特性，可以自然的处理不同大小的输入，具有良好的聚类效果。

附图说明

图1为人体骨骼关节点示意图；

图2为带注意力机制的双向长短期记忆网络的网络结构图；

图3为原型对比学习的流程图。

具体实施方式

为避免有监督学习的具有标签的数据集稀缺所带来无法对庞大的动作类别进行完全分类的问题，以及为解决过往人体动作识别未充分利用数据本身所带有的时序信息的问题，设计了一种基于原型对比学习的运动分析方法。下面结合附图和具体实例，来对本发明进行详细且完整地说明。

S1、选择三个主流的姿态相关数据集CMU、Human3.6m和NTU-RGBD作为训练用的人体3D骨骼关节点位置数据集。其中CMU数据集由mocap动作捕捉系统记录，包含144个不同的主题，每个主题执行自然动作，如行走，跳舞和跳跃，骨架序列使用36个关节。Human3.6M由15个不同的动作组成，每个动作由七个不同的专业演员执行。这些动作大多选自日常活动，如散步，吸烟，讨论，拍照和打电话等，骨架序列使用17个关节。NTU-RGBD是目前最大和最广泛使用的室内捕捉动作识别数据集，包含60个动作类别中的56,000个动作片段，骨架序列使用25个关节。

对上述三个数据集中的骨架序列下采样至30Hz，并相对于躯干调整姿态，为避免万向锁定效应，在指数映射中表示这些姿势。处理后的骨骼关节点如图1所示。其中每个骨架包含17个关节点坐标，将17个关节点坐标由0到16编号，每个关节点编号与对应的人体位置关系为：0-臀部，1-右臀部，2-右膝，3-右脚，4-左臀部，5-左膝，6-左脚，7-脊椎，8-胸部，9-脖子，10-头，11-左肩膀，12-左肘，13-左手腕，14-右肩膀，15-右肘，16-右手腕。

S2、图2为带注意力机制的双向长短期记忆网络的网络结构图，包含双向长短期记忆网络、注意力机制层、多个标准化层以及全连接层。将T帧的骨骼关节点运动序列X按时间顺序依次输入正向长短期记忆网路层的神经元中，同时将X输入反向长短期网路中，将正向和反向的长短期网络的输出相加，将相加的结果进行批标准化与随机失活，再将其计算结果输入至注意力机制层。长短期记忆网络中同层之间有信息上的传递，正向输入能够获取更多的时序信息，减少编码过程中的损失。反向输入可以防止其训练过程中丢失来自未来的信息。最后将结果相加，可以防止网络梯度爆炸。

批处理规范化层的输出被转发到注意力机制层，产生固定大小的输出。随后经过几次批标准化和全连接后求得所需的骨骼关节点特征编码。

直觉上，由于在一系列的人体动作中，有些姿势比其他姿势更能提供运动信息。因此，我们使用如图2所示的自注意力机制来为每个运动序列中的每个姿势分配分数。具体来说，假设状态序列S＝(s₁，s₂，...，s_n)由n个时间步长组成的长短期网络结构对运动序列计算而得，通过公式4，公式5可以有效的计算出它们中的每一个的状态分数。

r＝W_s2tanh(W_s1S^T) (4)

其中，r是求解公式5的中间变量，r_i是r的第i的元素，W_s1和W_s2分别是大小为k×l和l×1网络的权重矩阵。a_i是计算得到的状态序列中的第i个状态的指定分数。因此，通过分数A＝[a₁，a₂，...，a_n]和S，可以将最终嵌入E表示为E＝AS。

最终嵌入E的大小仅取决于长短期记忆网络和W_s2中隐藏状态的数量。这允许我们将可变大小的长短期记忆网络的输出编码转换为固定大小的输出，而无需受到不同时间长度的动作信息所带来的问题，即嵌入空间编码信息不一致所导致的无监督分类不准确的问题。

将自注意力机制层计算得到的输出，再经过两次批标准化和随机丢弃、全连接层，降低数据维度，再经过L₂标准化，得到所需的骨骼关节点特征编码。

S3、构建原型以及原型密度，对S2所述的提取的骨骼关节点编码，利用k均值聚类算法获取不同聚类簇的原型以及原型密度。其原型密度公式如公式6所示：

其中使用与原型c相同的聚类簇的特征编码

计算原型密度

α是一个平滑参数，保证其分母不为0。原型密度

的值越小，簇内的数据相关性越大。利用原型密度

可以将松散的簇(

较大)中的相似性缩小，将嵌入拉的更加接近原型；相反，紧密的簇(

较小)中的嵌入具有更大的相似性，因此不鼓励接近原型。原型密度

的设置在效果上为我们提供了差距较大的聚类中心，在嵌入空间编码空间交叉附近得到更加清晰合理的分类结果。

S4、使用步骤S2获取的初始骨骼关节点特征编码θ，复制生成动态骨骼关节点特征编码θ′。通过步骤S3的原型聚类后，得到原型密度

适宜的原型，再分小批量的输入X计算原型噪声对比估计的目标函数L_ProtoNce：

代表的是第m次聚类原型，

代表的是原型密度。

使用随机梯度下降法寻找目标函数L_ProtoNce的最优值随即对动态骨骼关节点特征编码θ′进行更新，更新方式为：

θ_p′＝0.999*θ_p-1′+0.001*θ (8)

图3提供了原型对比学习的流程图，以及搭建原型对比学习训练的方法，具体步骤为：首先获取数据，并对数据进行预处理，对初始的骨骼关节点特征编码，并将其初始状体赋给动态编码，这里的编码是由步骤S2提供的带注意力机制的双向长短期记忆网络完成。将一个epoch下的骨骼关节点序列全部使用动态编码表示，利用步骤S3的方法得到聚类簇为m的不同原型和原型密度，获取小批量的数据，使用特征编码与动态编码方法对数据进行编码，通过原型噪声对比估计获取的目标函数训练更新特征编码与动态编码。

步骤S4是一种期望最大化算法，其核心可以分为两步：1.期望步骤(Expectation-Step)；2.最大化步骤(Maximization-Step)。第一步通过观察数据和现有模型来估计参数，即通过S3的构建原型和原型密度作为估计参数；第二步是寻找似然函数最大化时对应的参数，即通过S4中的原型噪声对比估计的目标函数取得最大化的对应参数。

重复更新动态骨骼关节点特征编码，直到训练达到200个epoch时停止迭代，完成模型的训练。

训练完成后，在测试阶段可以使用VideoPose3D对输入的视频数据进行三维的关节点信息的提取，将提取出的三维骨骼关节点信息送入所述的基于原型对比学习的运动分析方法，即可得到该输入的视频数据所属聚类的类别。VideoPose3等3D骨骼关节点信息的识别方法的出现使得本方法可以在无监督领域获得更加多样的聚类效果，也在实用性上得到很大提高。

以上所述的具体实施例，对本发明的目的，技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。在不脱离本发明之精神和范围内，所作的任何修改，等同替换，改进等，同样属于本发明的保护范围。