CN114596590A

CN114596590A - 一种用于具有长尾分布特性的单猴视频动作分类方法

Info

Publication number: CN114596590A
Application number: CN202210254527.1A
Authority: CN
Inventors: 朱磊; 范文萱
Original assignee: Beijing Xinzhiwen Technology Co ltd
Current assignee: Beijing Xinzhiwen Technology Co ltd
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-06-07

Abstract

本发明提出一种用于具有长尾分布特性的单猴视频动作分类方法，包括步骤一：建立猴子动作数据集；步骤二：构建单猴视频动作分类模型，利用训练集在深度神经网络训练一个包含两个阶段的网络模型，第一阶段提取特征，第二阶段进行分类，然后固定特征提取参数，对分类学习参数进行归一化，学习放缩调节因子以调节分类器参数；步骤三：利用测试集对训练的模型进行评估，确定模型性能；步骤四：将上述训练和验证好的模型进行部署，在实际场景中对视频数据进行分类。本发明通过固定特征提取网络参数，仅对分类学习参数调节来重新平衡分类器的决策边界，以实现长尾分布数据准确性的目的。这种分类方法不需要额外的重训练或重采样或设计特别的损失函数。

Description

一种用于具有长尾分布特性的单猴视频动作分类方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种用于具有长尾分布特性的单猴视频动作分类方法。

背景技术

自然界中各种真实的数据通常呈现出不平衡的长尾分布的形态，比如本数据集中猴子蹲坐的频次很高，而向上跳跃和向下跳跃的频次则很低。自然场景中只有少部分类别有大量样本，而其余大本部类别只有少量样本。类别的极度不平衡给深度学习和视觉识别带来极大的挑战，导致基于数据的模型学习被“头部”即样本数量多的类别主导而过拟合，而“尾部”即样本数量少的类别欠拟合，模型结果欠佳且泛化能力很差。因此，解决长尾分布数据的不平衡问题有重要应用前景。

目前主要解决长尾分布不平衡问题的方法主要包括三类：(1)数据重采样，通过“尾部”类别的过采样或“头部”类别的欠采样人工平衡数据后再进行训练学习。(2)类平衡损失，通过给不同类别设定不同的损失函数或设计特别的损失函数解决数据不平衡问题。(3)迁移学习，将在“头部”学习到的特征迁移到“尾部”。现有方法多是针对图像分类，还未有提出针对视频分类的方法，另外现有方法步骤较繁琐，很依赖于平衡后的数据质量或损失函数的设计，且数据重采样后“尾部”类性能的提升往往以牺牲“头部”类的性能为代价，而迁移学习可能会进一步加强不平衡。

因此需要提出一种简单、不需要额外的重采样或重训练且对图像和视频分类都适用的分类方法，使得在长尾分布数据上得到头尾部分类准确性都很高的结果。

发明内容

本发明是为了解决对数据不均衡的猴子的动作视频分类结果不理想问题，提出一种基于分类学习参数归一化的对长尾分布特性的单猴视频数据的分类方法。

具体的，提供了一种用于具有长尾分布特性的单猴视频动作分类方法，其特征在于，所述单猴视频动作分类方法包括以下步骤：

步骤1，构建猴子的动作数据集；

步骤2，通过数据集对深度神经网络进行训练，构建单猴视频动作分类模型；

步骤3：对模型进行评估，判定模型的稳定性和泛化能力；

步骤4：分析分类效果，如果效果不理想可以回到步骤2中进一步训练以得到性能更好的模型；

在步骤S2中，还包括以下步骤：

步骤21，输入符合长尾分布的动作数据集，不进行类平衡采样，直接输入深度神经网络训练进行特征提取；

步骤22，深度神经网络通过线性分类器进行分类；

步骤23，对分类器的参数进行归一化得到最终的分类模型。

更进一步地，在步骤1中，所述动作数据集中第i个数据为X_i＝{x_i，y_i}，其中，x_i为第i个视频，y_i为第i个视频的标签即类别，记n_k为第k类视频的个数，

是所有类别视频的总数。

更进一步地，在步骤S21中，所述特征为：

f(x；θ)＝z

其中x为输入的视频数据，θ为深度神经网络参数，z为提取的特征向量。

更进一步地，在步骤S22中，所述线性分类器为：

g(z)＝W^Tz+b

其中，W为分类器的参数，b为偏置，g(z)表示预测结果，z为提取的特征向量。

更进一步地，在步骤S23中，所述分类器的参数为：

W＝{w_j}∈R^d×C

其中，w_j是第j类视频数据的权重参数，C表示视频类型的总数量，模型分类器类别的数量与视频类型的数量相同；

对W进行归一化得到：

其中，τ是归一化参数的超参量，取值在0～1之间，||·||指L2范数。

更进一步地，在步骤S3中，对模型头部、中部和尾部类别的均值平均精度mAP进行估计：

其中，C表示视频类型的总数量，AP_i为第i类视频的PR曲线下的面积。头部类别指样本数超过500的类别，中部类别指样本数超过100少于500的类别，尾部类别指样本数少于100的类别。

更进一步地，在步骤S3中，对模型中预测结果排名第一的类别与实际结果相符的准确率进行评估：

其中，Num_{top1_correct}为预测结果排名第一且正确预测的视频样本数目，Num_all为测试的样本总数目。

本发明的有益效果包括：

本发明通过固定特征提取网络参数，仅对分类学习参数进行归一化来实现重新平衡分类器的决策边界，达到了同时提高头部和尾部分类准确性的目的，处理方法简单，通用于视频数据和图片数据。

本发明采用的分类方法针对长尾分布不平衡的问题，不需要额外的重训练、重采样或设计特别的损失函数，节省了额外处理数据的时间，同时不增加训练样本降低识别系统的负荷，提升模型的分类性能。

附图说明

图1是本发明实施例提供的一种用于具有长尾分布特性的单猴视频动作分类方法的流程示意图；

图2是发明实施例提供的一种用于具有长尾分布特性的单猴视频动作分类模型示意图。

具体实施方式

下面结合附图对本发明的技术方案进行更详细的说明，本发明包括但不仅限于下述实施例。

如附图1所示，本发明公开一种用于具有长尾分布特性的单猴视频动作分类方法，包括：

步骤1，构建猴子的动作数据集。

所述步骤1中，包括对数据的采集、分类、处理、标注和统计。

采集：首先使用摄像设备对笼中的食蟹猴进行视频采集，得到猴子的视频数据，由于模型的训练需要大量的数据，数据较少会影响模型的稳定性和泛化能力，因此要尽量多得采集数据。

分类：然后对猴子的动作的区分九类：卧倒、蹲坐、行走、向上移动、向下移动、悬挂、直立、攀附、进食。

处理：人工地浏览所有视频，如果猴子发生上述指定动作，则将动作开始和结束时间记录下来。

标注：根据记录截取猴子视频动作片段，得到标注单猴动作视频数据集，将数据集分为训练集和测试集；

统计：对各类动作视频进行统计；

在一种实施例中，数据集中共有3849段视频，九类动作各有154、267、1061、546、583、100、195、446、497段，可以看出来第3类即猴子行走的视频数量最多多大1000多段，而第1、6、7类即卧倒、悬挂和直立的视频数量却很少，仅有100多段。因此可以确定数据集存在数据不平衡的长尾分布现象，将样本数量在1000段以上的记为头部多类，1000～200段的记为中部类，200段以下的记为尾部少类。

记数据集中第i个数据为X_i＝{x_i，y_i}，其中，x_i为第i个视频，y_i为第i个视频的标签即类别，记n_k为第k类视频的个数，

是所有类别视频的总数。

步骤2，通过数据集对深度神经网络进行训练，构建单猴视频动作分类模型。该模型包含两个阶段：第一阶段提取特征，第二阶段进行分类。然后固定特征提取backbone的参数，对分类学习的参数进行归一化，学习缩放调节参数。本实例中训练时帧采样率为1，切片长度为30，学习率为0.001。

具体的，在步骤2中，还包括以下步骤：

步骤21，首先利用合适的backbone网络对数据进行特征提取，训练时输入的数据是原始的长尾分布数据，不进行类平衡采样，直接输入长尾分布的视频数据进行训练，使得网络可以充分学习到数据的特征。本实例中可以选择在SlowFast-ResNet34网络作为backbone网络，记作f(x；θ)＝z，其中x为输入的视频数据，f(x；θ)为参数为θ的backbone，z为提取的特征向量。SlowFast网络将输入的视频数据在Slow Pathway和Fast Pathway两个分支分别进行低帧率和高帧率的处理，并同过侧向连接lateral connections进行融合，在将融合的特征中输入到全连接分类器中。

步骤22，使用线性分类器进行分类，记作g(z)＝W^Tz+b，其中，g(z)表示线性分类器的预测结果，W为分类器的参数，b为偏置；

步骤23，对分类器的参数进行归一化得到最终的分类模型。记W＝{w_j}∈R^d×C，其中w_j∈R^d是第j类视频数据的权重参数，C表示视频类型的总数量，模型分类器类别的数量与视频类型的数量相同；对W进行归一化得到

的计算公式为

其中τ是归一化参数的超参量，取值在0～1之间，||·||指L2范数。为了方便模型训练并获得更好的性能结果，在训练时，模型的归一化可以视为原分类器参数乘一个缩放调节因子

即：

网络训练中固定参数直接学习缩放调节因子。由于偏差对预测结果的影响远小于权重参数的影响，因此不对偏差进一步处理。

步骤3，对按着上述方式训练的模型进行评估，在训练集上测试模型的准确率，判定模型的稳定性和泛化能力。

在步骤3中，对模型头部、中部和尾部类别的均值平均精度mAP以及模型中预测结果排名第一的类别与实际结果相符的准确率Topl-Accuracy进行评估。

为了更好的评估专利方法对解决长尾分布问题的效果，计算各类别头部、中部和尾部类别的均值平均精度mAP，表示为：

其中，C表示视频类型的总数量，AP_i为第i类视频的PR曲线下的面积。

预测结果排名第一的类别与实际结果相符的准确率Top1-Accuracy表示为：

其中，Num_{top1_correct}为正确预测的视频样本数目，Num_all为测试的样本总数目。

步骤4，将上述训练和验证好的模型进行部署，在实际场景中对视频数据进行分类，分析分类效果，如果效果不理想可以回到步骤2中进一步训练以得到性能更好的模型。

具体地，本实例在SlowFast-ResNet34网络上对9类动作进行训练、测试，最终实验准确率Top1-Accuracy为94.53％，各类别准确率由样本数量最多到样本数量最少的分别为：99.46％，95.34％，93.66％，88.11％，87.45％，82.3％，80.57％，79.27％，77.82％。可以计算头部、中部和尾部的mAP分别为：99.46％，89.372％，79.22％。效果明显好于其他视频分类方法，充分证明了本实例提供的用于具有长尾分布特性的单猴视频动作分类方法的有效性。

为了验证上述模型的有效性，进行了消融实验证明对分类器参数进一步进行放缩学习的有效性，在没有进行参数归一化，学习缩放调节因子，直接进行分类时，准确率Top1-Accuracy为92.19％，各类别准确率由样本数量最多到样本数量最少的分别为：99.46％，96.54％，89.86％，89.77％，83.94％，80.87％，80.37％，74.35％，63.03％。可以计算头部、中部和尾部的mAP分别为：99.46％，88.196％，72.583％。可以看出增加了分类器参数归一化处理后尾部类别的准确率有大幅增加，增加了6.637％；中部类别的准确率小幅度增加，增加了1.176％；与此同时，头部类别的准确率也没有下降。总类别的准确率Top1-Accuracy也有所上升，上升了2.34％。通过消融实验充分验证了分类器参数归一化的有效性和本实例提供的用于具有长尾分布特性的单猴视频动作分类方法的有效性。

如附图2所示，本发明公开一种基于分类学习参数归一化的对长尾分布特性的不平衡数据的分类方法，主要包三个模块：构建数据集模块，训练模型模块和评价部署模型模块。

所述构建数据集模块，主要是构建一个可以用于训练和测试模型的数据集，包括采集数据、进行分类、

处理数据、标注数据和统计数据分布。如果数据分布是长尾分布的不均衡分布则进行下面的操作。

所述训练模型模块，主要是用来训练一个两阶段的分类模型，第一阶段backbone提取特征，第二阶段分类器分类学习。训练结束后，backbone参数固定不变，分类器参数进行归一化，得到最终的分类模型。

所述评价部署模型模块，主要用于评价和部署分类模型。在测试集上对模型进行评估，如果效果较好，就可以部署到实际的应用场景中使用。

本发明提出了一种基于分类学习参数归一化的对长尾分布特性的单猴视频数据的分类方法，该方法主要用于解决分类任务中数据呈现长尾分布的不平衡问题。在不改变数据原始分布，不进行重采样和重训练的情况下，仅对分类器参数进行归一化就可以很好地解决分类任务中的长尾分布问题。

针对自然界中真实数据的长尾分布情况，对分类器参数归一化以得到一个对长尾分布数据预测效果更好的模型，解决了样本数量不平衡的问题，是一个简单、有效通用的方法。

以上实施例不以任何方式限定本发明，凡是对以上实施例以等效变换方式作出的其它改进与应用，都属于本发明的保护范围。本发明不仅局限于上述具体实施方式，本领域一般技术人员根据实施例和附图公开内容，可以采用其它多种具体实施方式实施本发明，因此，凡是采用本发明的设计结构和思路，做一些简单的变换或更改的设计，都落入本发明保护的范围。