CN114565972B

CN114565972B - 骨架动作识别方法、系统、设备与存储介质

Info

Publication number: CN114565972B
Application number: CN202210167790.7A
Authority: CN
Inventors: 王子磊; 刘钦颖
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2024-04-02
Anticipated expiration: 2042-02-23
Also published as: CN114565972A

Abstract

本发明公开了一种骨架动作识别方法、系统、设备与存储介质，该方案中：一方面，利用在有标签源数据上的有监督学习方法来获取对动作具有判别力的信息，并且利用在无标签的目标数据上的无监督学习方法来提取目标数据自身的属性，从而充分利用了源数据和目标数据各自的优势，即使这些源数据和目标数据来自不同的分布甚至不同的动作类别，依然可以提供对动作类别有判别力的信息；另一方面，融合了两个支路的知识，通过在两个支路之间互相交换正负对的划分来实现两个支路的伪标签信息传递，以充分发挥两个模型互补的优势，实现相互促进学习；通过以上方式提升了模型训练效果，进而提升了骨架动作识别效果。

Description

骨架动作识别方法、系统、设备与存储介质

技术领域

本发明涉及动作识别领域，尤其涉及一种骨架动作识别方法、系统、设备与存储介质。

背景技术

随着深度估计设备和姿态检测算法的发展，骨架动作识别技术受到了越来越多的关注。骨架动作识别任务的目的是对由人体骨架组成的序列按照动作类别进行分类。与一般的视频动作识别不同，骨架动作识别受遮挡、光照等环境因素的干扰更小，这使得该任务更具研究价值。

在骨架识别任务中，主流的研究是利用有动作标签的源数据来训练一个分类模型，然后使用训练的分类模型对一个无标签的目标数据进行分类识别。在专利《一种基于图卷积的骨架动作识别方法》中，根据人体节点的几何关系构造了一个图卷积网络，建模了各个节点在时间和空间这两个维度上的关系。然而，这类方法需要假设存在一个有标签的源数据和目标数据来自同一个分布而且包含同样的动作类别，这在现实中是难以满足的。

因此一些研究方法开始转向无监督的训练方式，它们针对无标签的目标数据采用自监督的学习技术来训练模型，从而挖掘目标数据内在的语义特性。然而，由于没有任何动作标签的引导，这些模型难以学习到对动作的判别能力，因此，分类识别效果不佳。

发明内容

本发明的目的是提供一种骨架动作识别方法、系统、设备与存储介质，能够充分利用了源数据和目标数据各自的优势，提升模型训练效果，进而提升骨架动作识别效果。

本发明的目的是通过以下技术方案实现的：

一种骨架动作识别方法，包括：

构建包含左右两个并行支路的网络框架，并获取源数据与目标数据；所述源数据为有标签数据，目标数据为无标签数据，所述源数据与目标数据均为骨架序列数据；

训练阶段：所述目标数据通过两种不同数据增强方式处理，处理结果称为第一增强数据与第二增强数据，左支路输入源数据、第一增强数据与第二增强数据，右支路输入第一增强数据与第二增强数据；左支路中，通过共享的特征提取器F₀分别对源数据与第一增强数据进行特征提取，并结合源数据的标签计算所述源数据的分类损失；右支路中，设有两个特征提取器记为F₁与特征提取器F₁的输入为所述第一增强数据，所述特征提取器/>的输入为所述第二增强数据，利用所述特征提取器F₁与/>提取的特征计算对比损失；左支路中还设有一个特征提取器/>用来提取所述第二增强数据的特征，并设有两个目标分类器，记为/>与/>其中，目标分类器/>输入为所述共享的特征提取器F₀提取的所述第一增强数据的特征，目标分类器/>输入为所述特征提取器/>提取的所述第二增强数据的特征，将所述共享的特征提取器F₀与目标分类器/>作为第一学生模型，将所述特征提取器/>与目标分类器/>作为第一教师模型；右支路中，两个特征提取器F₁与/>各自连接一个目标分类器，记为/>与/>将特征提取器F₁与目标分类器/>作为第二学生模型，将特征提取器/>与目标分类器/>作为第二教师模型；利用两个教师模型各自产生的伪标签作为监督信号对应的计算与相应学生模型的分类损失；之后，对于两个不同目标数据构成的目标数据对，每一支路单独利用其内部教师模型预测的相应两个第二增强数据的伪标签之间的关系进行正负对的划分，并且利用学生模型获得的相应两个第一增强数据的预测概率分数，计算两个第一增强数据相似度；两个支路相互交换各自的正负对的划分结果，每一支路将自身计算的两个第一增强数据相似度与来自另一支路相同目标数据对对应的两个第二增强数据的正负对划分结果进行有监督的对比损失的计算；利用计算出的所有损失构建总损失函数对左右支路进行训练；

训练完毕后，对于待分类的目标数据，使用左支路中的第一学生模型，或者右支路中的第二学生模型进行分类。

一种骨架动作识别系统，包括：

网络框架构建与数据获取单元，用于构建包含左右两个并行支路的网络框架，并获取源数据与目标数据；所述源数据为有标签数据，目标数据为无标签数据，所述源数据与目标数据均为骨架序列数据；

训练单元，应用于训练阶段，训练阶段：所述目标数据通过两种不同数据增强方式处理，处理结果称为第一增强数据与第二增强数据，左支路输入源数据、第一增强数据与第二增强数据，右支路输入第一增强数据与第二增强数据；左支路中，通过共享的特征提取器F₀分别对源数据与第一增强数据进行特征提取，并结合源数据的标签计算所述源数据的分类损失；右支路中，设有两个特征提取器记为F₁与特征提取器F₁的输入为所述第一增强数据，特征提取器/>的输入为所述第二增强数据，利用所述特征提取器F₁与/>提取的特征计算对比损失；左支路中还设有一个特征提取器/>用来提取所述第二增强数据的特征，并设有两个目标分类器，记为/>与/>其中，目标分类器/>输入为所述共享的特征提取器F₀提取的所述第一增强数据的特征，目标分类器/>输入为所述特征提取器/>提取的所述第二增强数据的特征，将所述共享的特征提取器F₀与目标分类器/>作为第一学生模型，将所述特征提取器/>与目标分类器/>作为第一教师模型；右支路中，两个特征提取器F₁与/>各自连接一个目标分类器，记为/>与/>将特征提取器F₁与目标分类器/>作为第二学生模型，将特征提取器/>与目标分类器/>作为第二教师模型；利用两个教师模型各自产生的伪标签作为监督信号对应的计算与相应学生模型的分类损失；之后，对于两个不同目标数据构成的目标数据对，每一支路单独利用其内部教师模型预测的相应两个第二增强数据的伪标签之间的关系进行正负对的划分，并且利用学生模型获得的相应两个第一增强数据的预测概率分数，计算两个第一增强数据相似度；两个支路相互交换各自的正负对的划分结果，每一支路将自身计算的两个第一增强数据相似度与来自另一支路相同目标数据对对应的两个第二增强数据的正负对划分结果进行有监督的对比损失的计算；利用计算出的所有损失构建总损失函数对左右支路进行训练；

识别单元，用于在训练完毕后，对于待分类的目标数据，使用左支路中的第一学生模型，或者右支路中的第二学生模型进行分类。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，一方面，利用在有标签源数据上的有监督学习方法来获取对动作具有判别力的信息，并且利用在无标签的目标数据上的无监督学习方法来提取目标数据自身的属性，从而充分利用了源数据和目标数据各自的优势，即使这些源数据和目标数据来自不同的分布甚至不同的动作类别，依然可以提供对动作类别有判别力的信息；另一方面，融合了两个支路的知识，通过在两个支路之间互相交换正负对的划分来实现两个支路的伪标签信息传递，以充分发挥两个模型互补的优势，实现相互促进学习；通过以上方式提升了模型训练效果，进而提升了骨架动作识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的骨架动作识别方法的核心思想示意图；

图2为本发明实施例提供的一种骨架动作识别方法的网络框架示意图；

图3为本发明实施例提供的使用不同模块后目标特征的聚类效果可视化示意图；

图4为本发明实施例提供的一种骨架动作识别系统的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等)，应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的骨架动作识别方案进行详细描述，本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种骨架动作识别方法，它是一种基于多模型协同训练的骨架动作识别方法，其核心思想如图1所示。该方法包含两个平行的支路。其中一个支路对有标签的源数据(Labeled Source Data)采用有监督的方式(Supervised Learning)进行训练，使用交叉熵损失(Cross-Entropy Loss)作为优化目标。另外一个支路对无标注的目标数据(Unlabeled Target Data)采用对比学习的方式(Contrastive Learning)进行训练，使用对比损失(Contrastive Loss)作为优化目标。最后以协作训练(co-training)的方式联合这两个支路，对目标数据进行聚类(Clustering Target Data)。

基于上述的核心思想，本发明提出了一个名为CoDT(Collaborating Domain-shared and Target-specific Feature Clustering)的网络框架。如图2所示，网络框架包含左右两个并行的支路；并且，训练之前，还需要源数据与目标数据；所述源数据为有标签数据，目标数据为无标签数据，所述源数据与目标数据均为骨架序列数据。

训练阶段的流程主要包括：对每一目标数据通过两种不同数据增强方式处理，处理结果称为第一增强数据(Strong Aug)与第二增强数据(Weak Aug)，左支路输入源数据、第一增强数据与第二增强数据，右支路输入第一增强数据与第二增强数据。左支路输入源数据、第一增强数据与第二增强数据，右支路输入第一增强数据与第二增强数据；左支路中，通过共享的特征提取器F₀分别对源数据与第一增强数据进行特征提取，并结合源数据的标签计算所述源数据的分类损失；右支路中，设有两个特征提取器记为F₁与特征提取器F₁的输入为所述第一增强数据，特征提取器/>的输入为所述第二增强数据，利用所述特征提取器F₁与/>提取的特征计算对比损失；左支路中还设有一个特征提取器/>用来提取所述第二增强数据的特征，并设有两个目标分类器，记为/>与/>其中，目标分类器/>输入为所述共享的特征提取器F₀提取的所述第一增强数据的特征，目标分类器/>输入为所述特征提取器/>提取的所述第二增强数据的特征，将所述共享的特征提取器F₀与目标分类器/>作为第一学生模型，将所述特征提取器/>与目标分类器/>作为第一教师模型；右支路中，两个特征提取器F₁与/>各自连接一个目标分类器，记为/>与/>将特征提取器F₁与目标分类器/>作为第二学生模型，将特征提取器/>与目标分类器/>作为第二教师模型；利用两个教师模型各自产生的伪标签作为监督信号对应的计算与相应学生模型的分类损失；之后，对于两个不同目标数据构成的目标数据对，每一支路单独利用其内部教师模型预测的相应两个第二增强数据的伪标签之间的关系进行正负对的划分，并且利用学生模型获得的相应两个第一增强数据的预测概率分数，计算两个第一增强数据相似度；两个支路相互交换各自的正负对的划分结果，每一支路将自身计算的两个第一增强数据相似度与来自另一支路相同目标数据对对应的两个第二增强数据的正负对划分结果进行有监督的对比损失的计算；利用计算出的所有损失构建总损失函数对左右支路进行训练；

为了便于理解本发明，下面针对整个网络框架以及训练流程做进一步的介绍。

一、网络框架结构。

如图2所示，整个网络框架包含左右两个支路，每个支路上主要包含了基础模块(Base Module，BM)、在线聚类模块(Online Clustering Module，OCM)、协同聚类模块(Collaborative Clustering Module，CCM)这三种模块。图2中两个支路从上至下使用三种不同灰度标记的部分依次为基础模块、在线聚类模块、协同聚类模块。

具体而言，两支路上都设置一个基础模块，分别通过源数据上的有监督学习和目标数据上的无监督学习方式来优化各自的特征提取器(包括F₀，F₁，/>)；之后，两支路各放置一个在线聚类模块，用以对目标数据的特征进行聚类，特别地，本发明使用了一种在线生成伪标签的方式来引导并优化特征的聚类过程；最后，两支路各放置一个协同聚类模块，用于对两支路的知识互相交换并互相学习，从而以合作的方式来优化各个支路的聚类结果。

二、训练阶段流程。

1、基础模块部分。

基础模块部分在两个支路上起到了特征提取器的作用。在左支路的基础模块中，主要是通过源数据的有监督学习训练特征提取器。在右支路的基础模块中，将自监督领域的对比学习应用到无标签的目标数据中。

1)左支路部分。

源数据和第一增强数据都会通过一个共享特征提取器F₀转变为特征；之后，源数据的特征会经过一个源分类器并根据源数据的标签计算交叉熵损失(Cross-EntropyLoss)，这种有监督的训练方式使得提取到的特征具有对不同类别动作的判别力。

优选的，为了提高特征的在不同数据之间迁移能力，本发明在左支路中还设有解码器D₀，所述解码器D₀利用所述共享的特征提取器F₀提取的源数据与第一增强数据的特征重构相应的源数据与第一增强数据，并计算重建损失(Reconstruction Loss)，具体的，通过MSE损失来计算重建的骨架和真实的骨架之间的位置差异。最小化MSE损失，能够约束源数据和第一增强数据的特征都尽量保留两种骨架共享的结构信息，进而增强这些特征的通用性。

2)右支路部分。

右支路中，采用了对比学习的方式，对比学习的目的是让同一个样本进行不同的数据增强后特征尽可能一致，而与其它样本的特征尽可能远离。

具体来说，右支路中，特征提取器F₁为正常更新的特征提取器，特征提取器为滑动平均更新(EMA)的特征提取器；所述滑动平均更新是指特征提取器/>的参数/>在特征提取器F₁的参数θ₁的基础上通过下述方式进行更新：

其中，ω为常数，用来控制滑动平均更新的快慢；示例性的，可以设置为0.999，以保证在训练过程中是缓慢更新的。

本发明实施例中，所述右支路中还设有一个实时更新的存储库M(memory bank)，用来存放特征提取器提取的所有第二增强数据的特征；每一次输入至特征提取器F₁与/>的第一增强数据与第二增强数据都由同一个目标数据通过数据增强方式处理得到，使用对比损失将特征提取器F₁输出的特征和特征提取器/>输出的特征拉近，同时，将特征提取器F₁输出的特征和实时更新的存储库M存储的其它第二增强数据的特征远离。

对于第i个目标数据x_i，对比损失的计算方式表示为：

其中，z_i表示特征提取器F₁提取第i个目标数据x_i对应的第一增强数据的特征，表示特征提取器/>提取的第i个目标数据x_i对应的第二增强数据的特征，/>表示特征提取器提取的第j个目标数据x_j对应的第二增强数据的特征(存放在实时更新的存储库M中)，N表示目标数据的数目，cos表示计算两个特征的余弦距离，ρ为预设定的常数，用来控制输出的平滑性。

2、在线聚类模块部分。

在线聚类模块主要用来对目标样本的特征聚类结果进行优化。本发明在左右两个支路上都安置了一个在线聚类模块。

此部分左右支路所涉及的原理是相同的，因此，一并进行介绍。

如图2所示，左支路共享的特征提取器F₀和右支路的特征提取器F₁后各自连接一个目标分类器(分别记为和/>)构成了两个对目标数据的分类模型(F₀，/>)和(F₁，/>)。由于没有真实的标签训练这两个分类模型，因此本发明通过引入教师模型来生成伪标签，每个分类模型(也称为学生模型)都对应一个结构和它完全一样的教师模型，但是教师模型的参数是由学生模型的参数滑动平均更新而得的(具体原理可参见前文)。两个学生模型(F₀，)和(F₁，/>)对应的教师模型分别记为/>和/>如图2所示，两个教师模块中特征提取器/>与/>的输入均为第二增强数据，同时，左支路中也设有实时更新的存储库用来存放特征提取器/>提取的所有第二增强数据的特征。

同一目标数据对应的第一增强数据与第二增强数据，对应于相同的伪标签，确定伪标签最直接的方式就是选择教学模型预测的置信度最高的类别，然而在实验中发现，这种方式会导致生成的绝大部分伪标签是相同的，这显然不符合真实标签的分布。针对这一问题，本发明实施例采用约束生成伪标签是均匀分布的方法，即每个伪标签所包含的目标数据数目是一致的；首先将伪标签的生成问题作为是一个最优传输问题(OptimalTransport)，即生成伪标签的过程是将N个目标数据的特征以最小的传输代价分配给K个类中心，其中，N表示目标数据的数目，K表示目标数据的类别数目；使用N个目标数据的特征(存放在实时更新的存储库中)和K个类中心之间的距离来衡量传输代价，类中心使用相应目标分类器的权重表示。本领域技术人员可以理解，权重是目标分类器的参数，本发明实施例中，目标分类器都是线性分类器。对于一个K类的线性分类器，它的参数是由K个向量组成，每个向量则代表一个类别的中心，类别的中心，就是指所有属于此类别的数据的特征的中心点。

本发明实施例中，使用Sinkhorn-Knopp算法求解最优传输问题；具体的：将N个目标数据的伪标签表示为其中的元素Q_kn(即矩阵中第k行第n列元素)代表第n个目标数据分配给第k个类中心的概率，/>表示实数集，通过Sinkhorn-Knopp算法中，将伪标签Q转化为：

Q＝diag(α)P^λdiag(β)

其中，是教师模型对N个目标数据的预测概率，所述的教师模型为第一教师模型或第二教师模型，其中的元素P_kn代表第n个目标数据预测为第k个类中心的概率，λ为预定义的常数，用来控制算法的收敛性，/>和/>是两个向量，它们通过如下公式迭代更新：

其中，k是单个类中心的序号，i是目标数据的序号，α_k、β_i代表α的第k元素和β的第i个元素；每一次都同时更新α和β，上一次更新获得的K个α_k组成α，用于下一次β_i的更新，上一次更新获得的N个β_i组成β，用于下一次α_k的更新。上述公式表示的是α_k、β_i的更新过程(对每个α_k、β_i都更新实质上就是对α，β的更新)。在每次更新过程中，通过来更新α_k，这里β是指(上一次更新)的β，通过更新后的α_k组成新的α。同样的，通过式子/>更新β_i，上述更新过程会迭代多次直至收敛。

经过若干次的迭代后，得到最优的向量α和β，利用最优的向量α和β计算出伪标签Q。最后用得到的Q作为伪标签去监督学生模型(包含左右支路的两个学生模型)的训练，具体的，可以计算教师模块产生的伪标签与相应学生模型预测结果之间的交叉熵损失。

3、协同聚类模块部分。

所述的协作聚类模块主要用于促进两个支路之间的信息共享和互利共赢。具体的：对于两个不同目标数据构成的目标数据对，每一支路单独利用其内部教师模型预测的相应两个第二增强数据的伪标签之间的关系进行正负对的划分，如果两个第二增强数据的伪标签相同，则构成正对，反之为负对；这样每个支路都有一套自己的正负对的划分方式。对于所有目标数据，左右支路各自进行了正负对的划分后，相互交换正负对的划分结果。同时，每一支路中，利用学生模型获得的相应两个第一增强数据的预测概率分数，计算两个第一增强数据相似度；相似度可以表示对应两个目标数据属于相同类别的概率，相似度越高表明二者为正对，反之为负对。

每一支路的目标是：对于同一目标数据对，自身学生模型对于两个第一增强数据预测概率分数的相似度与另一支路正负对的划分结果相对应；即当另一支路将相应两个第二增强数据划分为正对，则应该尽量增大相似度，当另一个支路将相应两个第二增强数据划分为负对时，则应该尽量减少相似度；其中，使用学生模型中两个第一增强数据预测概率分数之间的内积值来代表两个第一增强数据预测的类别相同的可能性，因为内积值越大，则这两个第一增强数据的预测概率分布更接近，进而它们更可能被预测为同一类别。因此，将目标转为最大化正对的预测概率分数的内积值并最小化负对的预测概率分数的内积值。

本发明实施例中，采用有监督的对比损失(Supervised Contrastive Loss)作为损失函数，第i个目标数据x_i，与同一batch中第l个目标数据x_l构成目标数据对，每一支路有监督的对比损失的计算方式表示为：

其中，N_b是每个batch的目标数据的数目(小于等于前文定义的N)，q_i和q_l分别为另一支路的教师模型对第i和第l个目标数据对应的第二增强数据预测的伪标签，δ函数是指示函数，当q_i-q_j＝0(第i和第l个目标数据对应的第二增强数据预测属于正对)时输出为1，否则输出为0；分别表示当前支路的学生模型对第i和l个目标数据对应的第一增强数据的预测概率分数。

由分析易知，最小化L_i的条件是，当第i，l个样本是正对时，它们的概率内积尽可能大于其它负对/>的概率内积。最理想的情况下，正对的概率内积达到最大值为1，此时p_i，p_l均为one-hot形式(即只有一个值为1，其它值为0)且p_i＝p_l，这也意味着p_i和p_l给出了一致的类别预测。同时负对的概率内积达到最小值为0，此时p_i，p_h仍然为one-hot形式，但是p_i≠p_h，即p_i和p_h的类别预测不一样。综上可见，L_i可以非常契合本发明的目标。

上述训练阶段还涉及的其他训练流程均可参照常规技术，本发明不做赘述。

通过上述介绍可知本发明至少具备如下优点：

1)充分利用了源数据和目标数据各自的优势，通过有监督学习的方式从有标签的源数据获取判别力的特征，同时利用对比学习从无标签的目标数据中提取目标数据的语义特性。

2)能够实现非常鲁棒的聚类，利用Sinkhorn-Knopp算法产生均匀分布的伪标签，避免了目标数据大部分聚集到少数类中，从而获得更符合实际分布的聚类效果。

3)融合两个支路的模型，通过在两个支路之间互相交换正负对的划分来实现两个支路的伪标签信息传递，实现了两个支路互相交换各自的分类结果来训练对方模型，从而可以利用这两个支路的互补性来互相提升它们的分类精度。

4)本发明可以轻易地利用现有的有标签数据参与训练，而且也无需知道目标数据的类别信息，因而具有广阔的应用前景。

基于上述介绍，下面提供一个完整的实施流程，主要包括：收集数据集、构建网络框架、网络训练以及网络测试四个部分。

一、准备数据集。

首先需要指定目标数据的训练集，包含骨架序列但是不包含对应类别标签。然后准备一个有完整标签的源数据集，包含骨架序列和对应的类别标签。

二、构建网络框架。

按照图2搭建网络结构和模型。具体来说，部分可以使用ST-GCN作为特征提取器(包括F₀，F₁，/>)，因为ST-GCN在最近有监督的骨架动作识别方法表现卓越，而且已经被广泛用于骨架的特征提取。使用一层的线性层作为分类器(包括/> )，使用两层的感知器(MLP)作为解码器(D₀)。具体的网络结构参数由数据集的特点来确定。

三、网络训练。

首先，对两个支路的基础模块进行预先训练，此时损失函数包括了左支路上源数据进行有监督训练的交叉熵损失，解码器计算的MSE损失以及右支路的对比学习损失。预训练后，加入在线聚类模块和协同聚类模块并和基础模块一起微调。此时网络中除了上述预先训练中三项损失，还增加了在线聚类模块的损失和协同聚类模块的损失。在线聚类模块的损失是学生模型的预测以及教师模型生成的伪标签之间的交叉熵损失。协同聚类模块的损失即为交换划分方式后各自计算的有监督的对比损失。

在预训练和微调阶段，均使用SGD作为优化器以使损失函数最小化，但是学习率分别为0.1和0.01。

如图3所示，展示了使用不同模块后目标特征的聚类效果可视化示意图，B₀、B₁分别对应左支路、右支路。

四、网络测试。

准备一个含有真实标签的目标测试集，依次输入到训练后的网络中，取分类器的输出分别作为两个支路的类别预测概率，并各自取概率最大的类别作为各支路的类别预测结果。这样就能给左右支路都能给每个测试样本分配一个类别标签，因此也就实现了对目标样本的聚类。在实际应用中，可以任意使用其中一个支路的聚类结果，因为协同聚类模块的存在会使得两个支路的聚类性能非常接近。

实施例二

本发明还提供一种骨架动作识别系统，其主要基于前述实施例一提供的方法实现，如图4所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

此外，系统各部分所涉及的主要技术细节在之前的实施例一中已经做了详细的介绍，故不再赘述。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器(Random Access Memory，RAM)，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种骨架动作识别方法，其特征在于，包括：

训练阶段：所述目标数据通过两种不同数据增强方式处理，处理结果称为第一增强数据与第二增强数据，左支路输入源数据、第一增强数据与第二增强数据，右支路输入第一增强数据与第二增强数据；左支路中，通过共享的特征提取器F₀分别对源数据与第一增强数据进行特征提取，并结合源数据的标签计算所述源数据的分类损失；右支路中，设有两个特征提取器记为F₁与特征提取器F₁的输入为所述第一增强数据，特征提取器/>的输入为所述第二增强数据，利用所述特征提取器F₁与/>提取的特征计算对比损失；左支路中还设有一个特征提取器/>用来提取所述第二增强数据的特征，并设有两个目标分类器，记为/>与其中，目标分类器/>输入为所述共享的特征提取器F₀提取的所述第一增强数据的特征，目标分类器/>输入为所述特征提取器/>提取的所述第二增强数据的特征，将所述共享的特征提取器F₀与目标分类器/>作为第一学生模型，将所述特征提取器/>与目标分类器/>作为第一教师模型；右支路中，两个特征提取器F₁与/>各自连接一个目标分类器，记为/>与/>将特征提取器F₁与目标分类器/>作为第二学生模型，将特征提取器/>与目标分类器/>作为第二教师模型；利用两个教师模型各自产生的伪标签作为监督信号对应的计算与相应学生模型的分类损失；之后，对于两个不同目标数据构成的目标数据对，每一支路单独利用其内部教师模型预测的相应两个第二增强数据的伪标签之间的关系进行正负对的划分，并且利用学生模型获得的相应两个第一增强数据的预测概率分数，计算两个第一增强数据相似度；两个支路相互交换各自的正负对的划分结果，每一支路将自身计算的两个第一增强数据相似度与来自另一支路相同目标数据对对应的两个第二增强数据的正负对划分结果进行有监督的对比损失的计算；利用计算出的所有损失构建总损失函数对左右支路进行训练；

2.根据权利要求1所述的一种骨架动作识别方法，其特征在于，所述左支路中还设有解码器D₀，所述解码器D₀利用所述共享的特征提取器F₀提取的源数据与第一增强数据的特征重构相应的源数据与第一增强数据，并计算重建损失。

3.根据权利要求1所述的一种骨架动作识别方法，其特征在于，所述右支路中，特征提取器F₁为正常更新的特征提取器，特征提取器为滑动平均更新的特征提取器；所述滑动平均更新是指特征提取器/>的参数/>在特征提取器F₁的参数θ₁的基础上通过下述方式进行更新：

其中，ω为常数。

4.根据权利要求1所述的一种骨架动作识别方法，其特征在于，所述利用所述特征提取器F₁与提取的特征计算对比损失包括：

所述右支路中设有一个实时更新的存储库M，用来存放特征提取器提取的所有第二增强数据的特征；每一次输入至特征提取器F₁与/>的第一增强数据与第二增强数据都由同一个目标数据通过数据增强方式处理得到，使用对比损失将特征提取器F₁输出的特征和特征提取器/>输出的特征拉近，同时，将特征提取器F₁输出的特征和实时更新的存储库M存储的其它第二增强数据的特征远离；

对于第i个目标数据x_i，对比损失的计算方式表示为：

其中，z_i表示特征提取器F₁提取第i个目标数据x_i对应的第一增强数据的特征，表示特征提取器/>提取的第i个目标数据x_i对应的第二增强数据的特征，/>表示特征提取器/>提取的第j个目标数据x_j对应的第二增强数据的特征，N表示目标数据的数目，cos表示计算两个特征的余弦距离，ρ为预设定的常数，用来控制输出的平滑性。

5.根据权利要求1所述的一种骨架动作识别方法，其特征在于，所述第一教师模型与第二教师模型的参数由相应的第一学生模型与第二学生模型的参数滑动平均更新得到；

同一目标数据对应的第一增强数据与第二增强数据，对应于相同的伪标签，采用约束生成伪标签是均匀分布的方法，即每个伪标签所包含的目标数据数目是一致的；首先将伪标签的生成问题作为是一个最优传输问题，即生成伪标签的过程是将N个目标数据的特征以最小的传输代价分配给K个类中心，其中，N表示目标数据的数目，K表示目标数据的类别数目；使用N个目标数据的特征和K个类中心之间的距离来衡量传输代价，类中心使用相应目标分类器的权重表示，使用Sinkhorn-Knopp算法求解最优传输问题。

6.根据权利要求5所述的一种骨架动作识别方法，其特征在于，将N个目标数据的伪标签表示为其中的元素Q_kn代表第n个目标数据分配给第k个类中心的概率，通过Sinkhorn-Knopp算法中，将伪标签Q转化为：

Q＝diag(α)P^λdiag(β)

其中，k是单个类中心的序号，i是目标数据的序号，α_k、β_i代表α的第k元素和β的第i个元素；每一次都同时更新α和β，上一次更新获得的K个α_k组成α，用于下一次β_i的更新，上一次更新获得的N个β_i组成β，用于下一次α_k的更新；

经过若干次的迭代后，得到最优的向量α和β，利用最优的向量α和β计算出伪标签Q。

7.根据权利要求1所述的一种骨架动作识别方法，其特征在于，每一支路各自进行有监督的对比损失的计算，计算公式表示为：

其中，N_b是每个batch的目标数据的数目，q_i和q_l分别为另一支路的教师模型对第i和第l个目标数据对应的第二增强数据预测的伪标签，δ函数是指示函数，当q_i-q_j＝0时输出为1，否则输出为0，即第i和第l个目标数据对应的第二增强数据为正对时输出为1，为负对时输出为0；分别表示当前支路的学生模型对第i和l个目标数据对应的第一增强数据的预测概率分数。

8.一种骨架动作识别系统，其特征在于，基于权利要求1～7任一项所述的方法实现，该系统包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1～7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1～7任一项所述的方法。