CN113033495B

CN113033495B - 一种基于k-means算法的弱监督行为识别方法

Info

Publication number: CN113033495B
Application number: CN202110480621.4A
Authority: CN
Inventors: 杨绪祺; 秦荣; 张甲; 葛永新
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2022-08-02
Anticipated expiration: 2041-04-30
Also published as: CN113033495A

Abstract

本发明涉及一种基于k‑means算法的弱监督行为识别方法，包括如下步骤：选择公开数据集；构建行为识别模型，所述行为识别模型，包括预测簇模块、权重生成模块和分类模块；分别针对预测簇模块、权重生成模块和分类模块进行训练，得到训练好的行为识别模型；将待预测行为样本输入训练好的行为识别模型，输出为待预测行为样本的预测结果。本发明所构建的行为识别模块，创造性的加入了权重元素，可以有效的提升行为识别的准确性。

Description

一种基于k-means算法的弱监督行为识别方法

技术领域

本发明涉及识别方法领域，特别涉及一种基于k-means算法的弱监督行为识别方法。

背景技术

人体动作识别在视频理解中起着重要的作用，因此近年来成为一个活跃的研究领域。一种有效的方法是利用GCN图卷积网络构建时空人体骨架拓扑进行行为识别。这种方法的权重生成模块生成人体关节在动作中的权重，以区别行动中的不同关节的重要性，如人体局部动作中，参与该动作的关节的重要性肯定远远大于未参与该动作的关节。然而，从人体视频中提取人体关节进行行为识别的准确性仍有待提高，这是因为仅仅根据分类的损失反向传播优化权重生成模块，导致人体关节在视频中的重要性没有得到更准确的表示。

网络分别在空间和时间上构造时空人体骨架拓扑进行行为识别，这种方法要求网络学习人体关节在动作中的权重，以了解每个关节在动作中的重要性。现有的方法只使用标签信息来训练权重生成模块，但实际上，动作的权重与标签信息的相关性有限，对于两种不同的行为可能存在相似的权重矩阵，或者存在非常不同的权重矩阵。因此，目前的算法在精度和精确度上仍有一定的提高空间。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是：通过确定最优的聚簇数数量和解决聚类后数据分散的等问题，提高对行为识别的准确性。

为解决上述技术问题，本发明采用如下技术方案：一种基于k-means算法的弱监督行为识别方法，包括如下步骤：

S100：选择人体动作数据集，该数据集包括M个训练样本，每个训练样本包括该样本的人体关节坐标点向量和该样本的真实行为标签；

S200：构建和训练行为识别模型，所述行为识别模型包括预测簇模块、权重生成模块和分类模块；

行为识别模型的三个构成模块需要分别训练，具体如下：

S210：使用k-means聚类算法对M个训练样本进行聚类处理，并选出最佳聚类X，最佳聚类X包含了K个簇，每个簇具有簇标签；

S220：针对权重生成模块，所述权重生成模块采用全连接神经网络B₁，将第k个簇中的第i个训练样本作为全连接神经网络B₁的输入，输出为第k个簇相对应的权重矩阵；

S230：自定义初始关节邻接矩阵，所述初始关节邻接矩阵规模与每个簇相对应的权重矩阵相同，将步骤S220中得到第k个簇相对应的权重矩阵和该初始关节邻接矩阵相乘，得到第k个簇相对应的权重关节矩阵；

S240：针对分类模块，所述分类模块采用stgcn分类网络，将第k个簇中的第i个训练样本和第k个簇相对应的权重关节矩阵作为stgcn分类网络的输入，输出得到第i个训练样本的预测分类得分p和预测行为标签q；

S241：将第i个训练样本的预测分类得分p和预测行为标签q做交叉熵代入损失函数得到损失，并反向传播更新stgcn分类网络和全连接神经网络B₁的参数，交叉熵损失函数表示如下：

其中，H表示交叉熵损失；

S242：针对第k个簇中的所有训练样本重复步骤S220-S241，并预设最大迭代次数M₁，当训练达到最大迭代次数时停止，此时得到训练好的第k个簇对应的权重生成模块；

S243：针对所有簇都重复S220-S242，得到训练好的K个簇对应的权重生成模块，当最后一个簇训练完成后，此时的分类模块即为训练好的分类模块；

S300：针对预测簇模块，所述预测簇模块采用全连接神经网络B₂，从M个训练样本中选择第j个训练样本，将第j个训练样本作为全连接神经网络B₂的输入，输出为第j个训练样本的多个预测所属簇；

所述第j个训练样本的多个预测所属簇属于步骤S210中所述K个簇；

S310：将步骤S300得到的第j个训练样本的多个预测所属簇中的第t个簇输入S242训练好的第t个簇对应的权重生成模块中，得到相对应的权重矩阵，在将所述权重矩阵与初始关节邻接矩阵相乘得到第j个训练样本属于第t个簇时的权重关节矩阵；

S320：将S310得到的第j个训练样本和第j个训练样本属于第t个簇时的权重关节矩阵作为训练好的分类模块的输入，得到第j个训练样本属于第t个簇的得分；

S330：将第j个训练样本的所有预测所属簇均执行S310和S320，则得到第j个训练样本属于每个预测所属簇的得分，将得分最高的预测所属簇作为第j个训练样本的最终预测簇，并对第j个训练样本打上簇标签；

S340：预设最大迭代次数M₂，将M个训练样本中的所有训练样本均执行S310-S330，则得到，当训练达到最大迭代次数时停止，得到最终训练好的簇预测模块；

S400：将待预测样本输入步骤S300训练好的簇预测网络，输出该待预测样本的预测簇分类；

选定与所述预测簇分类对应的训练好的权重生成模块，再将待预测样本和其预测簇分类输入选定的训练好的权重生成模块，得到待预测样本的权重关节矩阵，再将预测样本的权重关节矩阵作为训练好的stgcn分类网络的输入，得到预测样本的预测行为标签。

作为优选，所述S210中选出最佳聚类X的具体步骤为：

S211：使用k-means聚类算法对数据集中所有数据进行聚类处理，其中，第k个聚类中包含了k个簇d_i，i＝1,2,…,k；

S212：计算每一个簇的轮廓系数sc和每个聚类的总轮廓系数SC；

每一个簇的轮廓系数sc具体表达式如下：

其中，a表示人体关节坐标点向量到同一簇内其他点不相似程度的平均值，b表示人体关节坐标点向量到其他簇的平均不相似程度的最小值；

每个聚类的总轮廓系数SC具体表达式如下：

其中，N表示该聚类中所有簇的数量；

S213：从K个聚类中选出评价值y最大的聚类作为最佳聚类X，评价值y的表达式如下：

y＝sc*t

其中，sc表示轮廓系数，t表示聚类中最小聚类的样本量。

网络的输入数据是人体姿态信息，即人体关节坐标点向量。人体姿态信息很容易获得，并且可以通过将视频剪辑馈送到相应的卷积网络(例如开放姿态)来提取。k-Means是最常用的聚类算法，理解简单，速度快，聚类前须手动指定类的数量。轮廓系数是评价聚类效果的一种方法，该系数可有效地评估不同算法或不同算法运行方式对基于相同原始数据的聚类结果的影响。轮廓系数在[-1，1]范围内，值越接近1，聚类性能越好，反之，值越接近-1，聚类性能越差。

相对于现有技术，本发明至少具有如下优点：

1.本发明提出了一个相对优化的评价标准，可以相对全面的解决多少个聚类可以得到最好或者更好的结果的问题。

2.本发明解决了聚类导致训练数据分散的问题，创新性地为每个聚类使用一个权重生成模块，并共享时空图卷积网络的权重，取得了良好的效果。

附图说明

图1为该专利的总体流程，依次经过预测簇模块，权重生成模块和STGCN分类模块得到分类结果。

图2为确定最佳分簇方法的流程。

图3-a为最佳分簇方法中，每个簇独立训练自己的权重生成模块。

图3-b为结局数据分散问题，所有簇共同训练STGCN分类模块。

图4为预测簇模块的具体训练过程。

图5为对应于Kinetics数据集中不同聚类数的前1名结果的比较。

图6为对应于Kinetics数据集中不同聚类数的前5名结果的比较。

图7为在X-SUBNTU-RGB+D数据集上对应于不同聚类数的结果的比较。

图8为在x-view和-NTU-RGB+D数据集上对应于不同聚类数的结果的比较。

具体实施方式

下面对本发明作进一步详细说明。

本文提出了一种基于无监督K均值聚类算法的时空图卷积网络，该网络具有多个矩阵权重生成模块。本发明首先对输入的关节向量利用Kmeans聚类算法进行聚类，然后根据轮廓系数和相关数学公式确定最优聚类数，通过自适应的邻接矩阵权重生成模块和时空卷积图网络继续得到相应的最优多矩阵权重生成模块时空卷积图网络，再与未聚类和其他聚类数对应的网络进行比较。在测试和应用中，首先根据训练好的分类网络确定数据所属于的簇，然后使用相应的网络进行处理，采用无监督k-means聚类算法，根据节点向量对视频数据进行聚类和分类，得到空间上的粗粒度分类作为空间上的弱标签，分别训练相应的矩阵图权重生成网络模块，再利用无监督算法得到的粗粒度标签对权重生成模块进行约束，形成弱监督学习，有效地提高识别的准确性和训练的稳定性。

本发明以STGCN为骨干网络，由预测簇模块,权重生成模块和stgcn分类模块构成。首先，经过k-means算法聚类并且选出最好的聚类方法X后，X的每个簇的人体关节点向量都将输入全连接神经网络，输出生成自己对应的可学习权重生成模块。其次，考虑到该方法的目的主要是提高权重生成模块的准确性，减少聚类带来的数据分散的影响，我们让每个聚类共享一个stgcn分类模块。由于stgcn是一个经典的行为识别网络，它使用图卷积分别在空间和时间上构造时空人体骨架拓扑，然后对行为识别进行分类。

参见图1，一种基于k-means算法的弱监督行为识别方法，包括如下步骤：

行为识别模型的三个构成模块需要分别训练，具体如下：

S210：使用k-means聚类算法对M个训练样本进行聚类处理，并选出最佳聚类X，最佳聚类X包含了K个簇，每个簇具有簇标签；基于深度学习的动作识别一方面是在一个通用的动作识别网络中设计的，该网络本质上是一个视频任务分类网络，关注网络的近似空间信息和时间序列的降噪。基于深度学习的动作识别方法主要分为时空网络、多流网络、深度生成网络和时间一致性网络。我们的工作是基于时空网络，但进一步结合联合特征向量进行了k-均值聚类算法，以帮助模型理解复杂的人类行为。

具体实施时，选出最佳聚类X的具体步骤为：

每一个簇的轮廓系数sc具体表达式如下：

每个聚类的总轮廓系数SC具体表达式如下：

其中，N表示该聚类中所有簇的数量；

参见图2，S213：从K个聚类中选出评价值y最大的聚类作为最佳聚类X，评价值y的表达式如下：

y＝sc*t

其中，sc表示轮廓系数，t表示聚类中最小聚类的样本量。

具体实施时，如果对每种聚类数目进行训练测试，以暴力方式找到最佳聚类，将面临一个非常大的计算问题，即暴力求解训练的计算量过于庞大，在现实应用中价值不大。所以必须直接利用聚类得到的结果中判断最好的聚类，本发明尝试提出评价准则y，取y值最大的聚类X为最佳聚类，因为轮廓系数的值越大，聚类后同一聚类中数据的相似度越大，不同聚类中数据的差异越大，越有利于加权模块的训练。同时合理的训练数据越多，模型就会越好。通过实验可以看出，随着聚类数量的增加，最小聚类中样本量减少的比例与轮廓系数增长的比例大致在同一数量级。因此，本发明提出了这个相对最优的评价标准：y＝轮廓系数*聚类中最小聚类的样本量。用此评价标准，y越大的聚类代表着训练效果越好，我们在此后的实验中验证了其可靠性和有效性。

S220：针对权重生成模块，所述权重生成模块采用全连接神经网络B₁，将第k个簇中的第i个训练样本作为全连接神经网络B₁的输入，此处所使用的全连接神经网络为现有技术，输出为第k个簇相对应的权重矩阵；通过遵循空间流方法，创新权重生成模块，并将其与时空卷积图网络的工作相结合，提出一种弱监督多权重模块时空卷积图网络。基于时空卷积图网络，使权重生成模块被进一步优化以提高识别精度。

S230：自定义初始关节邻接矩阵，所述初始关节邻接矩阵规模与每个簇相对应的权重矩阵相同，初始关节邻接矩阵代表着关节之间是否相邻，相邻为1，不相邻为0，相邻会提高簇的权重，不相邻会降低簇的权重，将步骤S220中得到第k个簇相对应的权重矩阵和该初始关节邻接矩阵相乘，得到第k个簇相对应的权重关节矩阵；

参见图3-a和图3-b，

S240：针对分类模块，所述分类模块采用stgcn分类网络，将第k个簇中的第i个训练样本和第k个簇相对应的权重关节矩阵作为stgcn分类网络的输入，stgcn分类网络为现有技术，输出得到第i个训练样本的预测分类得分p和预测行为标签q；stgcn网络是一个相对经典的动作识别神经网络，它使用图形卷积进行行为识别分类。本文中，我们把stgcn作为骨干网络，并在此基础上提出了一种基于无监督聚类算法的改进方法。

其中，H表示交叉熵损失；

S242：针对第k个簇中的所有训练样本重复步骤S220-S241，并预设最大迭代次数M₁，第k个簇中的所有训练样本用完一次表示迭代一次当训练达到最大迭代次数时停止，此时得到训练好的第k个簇对应的权重生成模块；

S243：针对所有簇都重复S220-S242，得到训练好的K个簇对应的权重生成模块，当最后一个簇训练完成后，此时的分类模块即为训练好的分类模块；每个簇训练开始前都需要进行参数初始化。而因此分类模块只有一个，针对每个簇进行训练时，分类模块也一起训练，当一个簇训练完成，进行下一个簇训练时，此时分类模块继续训练，因此分类模块只有在第一个簇进行训练是进行参数初始化。

参见图4，S300：针对预测簇模块，所述预测簇模块采用全连接神经网络B₂，从M个训练样本中选择第j个训练样本，将第j个训练样本作为全连接神经网络B₂的输入，输出为第j个训练样本的多个预测所属簇；将第j个训练样本输入全连接神经网络B₂会得到多个预测结果，即会得到第j个训练样本的多个预测所属簇，这主要是因为，我们对于全连接神经网络B₂的预测结果选取一个可容忍的范围，而非只取一个，此处可容忍的范围可根据经验值设定。

实验验证

在这一部分中，本发明评估了基于k-均值聚类算法实验的弱监督动作识别的性能。因为只在k-means聚类算法后给了关节向量粗粒度标签，是弱监督学习中的不确切监督，本发明在基于骨骼的动作识别实验[11]-Kinetics和NTU RGB+D中跟踪由ST-GCN处理和使用的两个主要数据集，并测试本发明模型对它们的影响，然后将实验结果与该领域其他方法的有效性进行比较。参见图5-图8。

数据集

Kinetics人体动作数据集(Kinetics)是2017年最大的无约束动作识别数据集，包括400个人体动作类别，每个类别至少有400个视频剪辑，每个剪辑取自不同的Y outube视频，持续大约10秒钟。数据集中的动作类别包括人与对象的交互，如演奏乐器，以及人与人的交互，如握手。但是，该数据集中仅提供原始视频剪辑，没有附加相应的骨架数据。在基于骨架的动作识别实验中，本发明使用了圣GCN处理后的数据集，该数据集具有由OpenPose工具箱估计的骨架数据，在这个处理过的数据集中，每个剪辑被编辑到T＝300帧。对于每一帧，估计的18个关节的x，y坐标位置和置信度得分c(x，y，c)由Openpose工具箱给出。因此，剪辑用(3；t；18；2)尺寸，该数据集提供了240，000个视频的训练集和20，000个视频的验证集，在训练集上训练模型，并记录验证集的准确性。NTU RGB+D.NTU-RGB+D是2016人体动作识别任务中最大的3D联合标注数据集，由56880个动作样本组成，每个样本包含RGB视频、深度图序列、3D骨架数据和红外视频，骨架序列中每个身体有25个关节，提供的数据标签包含所有关节点(X，Y，Z)的3D位置，该数据集的作者推荐了两个基准：交叉主题(XSub)有40，320和16，560个剪辑用于培训和评估。交叉视图基准有37，920和18，960个剪辑。两者中的每一个片段也已经被处理并且用(3；t；25；2)尺寸。

训练细节

首先，使用k-均值算法对Kinetics和NTU-RGB+D数据集中的样本数据进行分类。因为轮廓系数越高意味着同一聚类中样本之间的距离越小，不同聚类中样本之间的距离越大，即同一聚类中的数据越相似，即越有利于模型训练。模型效果与训练数据的数量也呈正相关。考虑到聚类将减少每个聚类中的样本数量，同时增加轮廓系数，导致数据分散，我们采用评估标准y＝轮廓系数*聚类中最小聚类中的样本数量来找到最佳聚类x。最后，我们得到Kinetics人体动作数据集的最佳聚类数量x为7，NTU-RGB+D的最佳聚类数量x为4。对于每个数据集上的最佳子聚类，这里取统一的批量大小64，学习率0.001，将样本放入其中每一个作为网络输入，在一个Tesla V100 gpu上训练相应的自适应邻接矩阵生成网络和公共stgcn网络。对于测试集，以批量为1，预测每组测试数据对应的聚类，以对应聚类的自适应邻接矩阵生成网络和stgcn网络作为处理网络，输入测试数据得到输出，并与它的标签进行比较得到测试的准确性。

消融学习

在消融学习中，本发明的主要目标是验证基于聚类的多权重模块方法对于stgcn是否有效，以及本发明提出的标准是否具有适用性，因此，需要改变集群的数量来重新训练测试。考虑到计算量，对5、10、15、20、25和30个聚类重复该实验，并且在每个数据集上训练对应于每个聚类和公共stgcn的权重生成网络，并且按照上述步骤获得对应于测试集上不同数量聚类的模型的精度；最后，比较x的测试结果、其他数目簇对应的测试结果、原始stgcn对应的测试数据。通过实验数据发现x对应的结果大多数时候是最好的，即使有时候不是最好的结果，但是x对应的结果和最好的结果差不多，总是比原来stgcn的结果高。消融学习的实验结果证明了本发明提出的基于聚类的多权重生成模块方法的有效性，以及基于最小聚类数和轮廓系数的评价标准的更好适用性。

本文提出了一种基于k-means算法的弱监督行为识别方法。该方法利用分簇后得到的不确切标签对每个簇的权重生成模块进行了约束，学习到了标签之外的信息，形成弱监督学习。共享的stgcn分类模块解决了分簇导致的数据分散的问题。此外，我们提出基于轮廓系数的聚簇效果得分作为聚类好坏的评价标准，最大化的利用了标签的不确切性，学习到了更多的信息。参见表1和表2。

表1.其他方法和本发明方法在NTU-RGB+D数据集上的动作识别性能

表二：其他方法和本发明方法在Kinetics数据集上的动作识别性能.

最终的模型在两个大规模的动作识别数据集上进行了评估，NTU-RGBD和Kinetics，并在这两个数据集上取得了较为先进的性能。

本发明可以在不增加计算机操作复杂性的情况下获得更准确、更稳定的结果。每个簇对应的可学习邻接矩阵的权值生成网络分别训练，而stgcn是共享权值的；由于最终的总数据量不会因聚类而改变，权重生成模块的添加也不会修改主网络，因此可以在不增加计算量和不改变stgcn本身的主要结构的情况下获得更准确和稳定的结果。该方法可以推广到类似的使用图形卷积进行骨架信息建模的行为识别方法，具有较强的推广性。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于k-means算法的弱监督行为识别方法，其特征在于：包括如下步骤：

行为识别模型的三个构成模块需要分别训练，具体如下：

其中，H表示交叉熵损失；

2.如权利要求1所述的一种基于k-means算法的弱监督行为识别方法，其特征在于：所述S210中选出最佳聚类X的具体步骤为：

每一个簇的轮廓系数sc具体表达式如下：

每个聚类的总轮廓系数SC具体表达式如下：

其中，N表示该聚类中所有簇的数量；

y＝sc*t

其中，sc表示轮廓系数，t表示聚类中最小聚类的样本量。