CN114596590A - 一种用于具有长尾分布特性的单猴视频动作分类方法 - Google Patents

一种用于具有长尾分布特性的单猴视频动作分类方法 Download PDF

Info

Publication number
CN114596590A
CN114596590A CN202210254527.1A CN202210254527A CN114596590A CN 114596590 A CN114596590 A CN 114596590A CN 202210254527 A CN202210254527 A CN 202210254527A CN 114596590 A CN114596590 A CN 114596590A
Authority
CN
China
Prior art keywords
video
model
monkey
classification
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210254527.1A
Other languages
English (en)
Inventor
朱磊
范文萱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinzhiwen Technology Co ltd
Original Assignee
Beijing Xinzhiwen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinzhiwen Technology Co ltd filed Critical Beijing Xinzhiwen Technology Co ltd
Priority to CN202210254527.1A priority Critical patent/CN114596590A/zh
Publication of CN114596590A publication Critical patent/CN114596590A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种用于具有长尾分布特性的单猴视频动作分类方法,包括步骤一:建立猴子动作数据集;步骤二:构建单猴视频动作分类模型,利用训练集在深度神经网络训练一个包含两个阶段的网络模型,第一阶段提取特征,第二阶段进行分类,然后固定特征提取参数,对分类学习参数进行归一化,学习放缩调节因子以调节分类器参数;步骤三:利用测试集对训练的模型进行评估,确定模型性能;步骤四:将上述训练和验证好的模型进行部署,在实际场景中对视频数据进行分类。本发明通过固定特征提取网络参数,仅对分类学习参数调节来重新平衡分类器的决策边界,以实现长尾分布数据准确性的目的。这种分类方法不需要额外的重训练或重采样或设计特别的损失函数。

Description

一种用于具有长尾分布特性的单猴视频动作分类方法
技术领域
本发明涉及计算机视觉技术领域,具体涉及一种用于具有长尾分布特性的单猴视频动作分类方法。
背景技术
自然界中各种真实的数据通常呈现出不平衡的长尾分布的形态,比如本数据集中猴子蹲坐的频次很高,而向上跳跃和向下跳跃的频次则很低。自然场景中只有少部分类别有大量样本,而其余大本部类别只有少量样本。类别的极度不平衡给深度学习和视觉识别带来极大的挑战,导致基于数据的模型学习被“头部”即样本数量多的类别主导而过拟合,而“尾部”即样本数量少的类别欠拟合,模型结果欠佳且泛化能力很差。因此,解决长尾分布数据的不平衡问题有重要应用前景。
目前主要解决长尾分布不平衡问题的方法主要包括三类:(1)数据重采样,通过“尾部”类别的过采样或“头部”类别的欠采样人工平衡数据后再进行训练学习。(2)类平衡损失,通过给不同类别设定不同的损失函数或设计特别的损失函数解决数据不平衡问题。(3)迁移学习,将在“头部”学习到的特征迁移到“尾部”。现有方法多是针对图像分类,还未有提出针对视频分类的方法,另外现有方法步骤较繁琐,很依赖于平衡后的数据质量或损失函数的设计,且数据重采样后“尾部”类性能的提升往往以牺牲“头部”类的性能为代价,而迁移学习可能会进一步加强不平衡。
因此需要提出一种简单、不需要额外的重采样或重训练且对图像和视频分类都适用的分类方法,使得在长尾分布数据上得到头尾部分类准确性都很高的结果。
发明内容
本发明是为了解决对数据不均衡的猴子的动作视频分类结果不理想问题,提出一种基于分类学习参数归一化的对长尾分布特性的单猴视频数据的分类方法。
具体的,提供了一种用于具有长尾分布特性的单猴视频动作分类方法,其特征在于,所述单猴视频动作分类方法包括以下步骤:
步骤1,构建猴子的动作数据集;
步骤2,通过数据集对深度神经网络进行训练,构建单猴视频动作分类模型;
步骤3:对模型进行评估,判定模型的稳定性和泛化能力;
步骤4:分析分类效果,如果效果不理想可以回到步骤2中进一步训练以得到性能更好的模型;
在步骤S2中,还包括以下步骤:
步骤21,输入符合长尾分布的动作数据集,不进行类平衡采样,直接输入深度神经网络训练进行特征提取;
步骤22,深度神经网络通过线性分类器进行分类;
步骤23,对分类器的参数进行归一化得到最终的分类模型。
更进一步地,在步骤1中,所述动作数据集中第i个数据为Xi={xi,yi},其中,xi为第i个视频,yi为第i个视频的标签即类别,记nk为第k类视频的个数,
Figure BDA0003548042120000021
是所有类别视频的总数。
更进一步地,在步骤S21中,所述特征为:
f(x;θ)=z
其中x为输入的视频数据,θ为深度神经网络参数,z为提取的特征向量。
更进一步地,在步骤S22中,所述线性分类器为:
g(z)=WTz+b
其中,W为分类器的参数,b为偏置,g(z)表示预测结果,z为提取的特征向量。
更进一步地,在步骤S23中,所述分类器的参数为:
W={wj}∈Rd×C
其中,wj是第j类视频数据的权重参数,C表示视频类型的总数量,模型分类器类别的数量与视频类型的数量相同;
对W进行归一化得到:
Figure BDA0003548042120000031
Figure BDA0003548042120000032
其中,τ是归一化参数的超参量,取值在0~1之间,||·||指L2范数。
更进一步地,在步骤S3中,对模型头部、中部和尾部类别的均值平均精度mAP进行估计:
Figure BDA0003548042120000033
其中,C表示视频类型的总数量,APi为第i类视频的PR曲线下的面积。头部类别指样本数超过500的类别,中部类别指样本数超过100少于500的类别,尾部类别指样本数少于100的类别。
更进一步地,在步骤S3中,对模型中预测结果排名第一的类别与实际结果相符的准确率进行评估:
Figure BDA0003548042120000034
其中,Numtop1_correct为预测结果排名第一且正确预测的视频样本数目,Numall为测试的样本总数目。
本发明的有益效果包括:
本发明通过固定特征提取网络参数,仅对分类学习参数进行归一化来实现重新平衡分类器的决策边界,达到了同时提高头部和尾部分类准确性的目的,处理方法简单,通用于视频数据和图片数据。
本发明采用的分类方法针对长尾分布不平衡的问题,不需要额外的重训练、重采样或设计特别的损失函数,节省了额外处理数据的时间,同时不增加训练样本降低识别系统的负荷,提升模型的分类性能。
附图说明
图1是本发明实施例提供的一种用于具有长尾分布特性的单猴视频动作分类方法的流程示意图;
图2是发明实施例提供的一种用于具有长尾分布特性的单猴视频动作分类模型示意图。
具体实施方式
下面结合附图对本发明的技术方案进行更详细的说明,本发明包括但不仅限于下述实施例。
如附图1所示,本发明公开一种用于具有长尾分布特性的单猴视频动作分类方法,包括:
步骤1,构建猴子的动作数据集。
所述步骤1中,包括对数据的采集、分类、处理、标注和统计。
采集:首先使用摄像设备对笼中的食蟹猴进行视频采集,得到猴子的视频数据,由于模型的训练需要大量的数据,数据较少会影响模型的稳定性和泛化能力,因此要尽量多得采集数据。
分类:然后对猴子的动作的区分九类:卧倒、蹲坐、行走、向上移动、向下移动、悬挂、直立、攀附、进食。
处理:人工地浏览所有视频,如果猴子发生上述指定动作,则将动作开始和结束时间记录下来。
标注:根据记录截取猴子视频动作片段,得到标注单猴动作视频数据集,将数据集分为训练集和测试集;
统计:对各类动作视频进行统计;
在一种实施例中,数据集中共有3849段视频,九类动作各有154、267、1061、546、583、100、195、446、497段,可以看出来第3类即猴子行走的视频数量最多多大1000多段,而第1、6、7类即卧倒、悬挂和直立的视频数量却很少,仅有100多段。因此可以确定数据集存在数据不平衡的长尾分布现象,将样本数量在1000段以上的记为头部多类,1000~200段的记为中部类,200段以下的记为尾部少类。
记数据集中第i个数据为Xi={xi,yi},其中,xi为第i个视频,yi为第i个视频的标签即类别,记nk为第k类视频的个数,
Figure BDA0003548042120000051
是所有类别视频的总数。
步骤2,通过数据集对深度神经网络进行训练,构建单猴视频动作分类模型。该模型包含两个阶段:第一阶段提取特征,第二阶段进行分类。然后固定特征提取backbone的参数,对分类学习的参数进行归一化,学习缩放调节参数。本实例中训练时帧采样率为1,切片长度为30,学习率为0.001。
具体的,在步骤2中,还包括以下步骤:
步骤21,首先利用合适的backbone网络对数据进行特征提取,训练时输入的数据是原始的长尾分布数据,不进行类平衡采样,直接输入长尾分布的视频数据进行训练,使得网络可以充分学习到数据的特征。本实例中可以选择在SlowFast-ResNet34网络作为backbone网络,记作f(x;θ)=z,其中x为输入的视频数据,f(x;θ)为参数为θ的backbone,z为提取的特征向量。SlowFast网络将输入的视频数据在Slow Pathway和Fast Pathway两个分支分别进行低帧率和高帧率的处理,并同过侧向连接lateral connections进行融合,在将融合的特征中输入到全连接分类器中。
步骤22,使用线性分类器进行分类,记作g(z)=WTz+b,其中,g(z)表示线性分类器的预测结果,W为分类器的参数,b为偏置;
步骤23,对分类器的参数进行归一化得到最终的分类模型。记W={wj}∈Rd×C,其中wj∈Rd是第j类视频数据的权重参数,C表示视频类型的总数量,模型分类器类别的数量与视频类型的数量相同;对W进行归一化得到
Figure BDA0003548042120000061
的计算公式为
Figure BDA0003548042120000062
其中τ是归一化参数的超参量,取值在0~1之间,||·||指L2范数。为了方便模型训练并获得更好的性能结果,在训练时,模型的归一化可以视为原分类器参数乘一个缩放调节因子
Figure BDA0003548042120000063
即:
Figure BDA0003548042120000064
网络训练中固定参数直接学习缩放调节因子。由于偏差对预测结果的影响远小于权重参数的影响,因此不对偏差进一步处理。
步骤3,对按着上述方式训练的模型进行评估,在训练集上测试模型的准确率,判定模型的稳定性和泛化能力。
在步骤3中,对模型头部、中部和尾部类别的均值平均精度mAP以及模型中预测结果排名第一的类别与实际结果相符的准确率Topl-Accuracy进行评估。
为了更好的评估专利方法对解决长尾分布问题的效果,计算各类别头部、中部和尾部类别的均值平均精度mAP,表示为:
Figure BDA0003548042120000065
其中,C表示视频类型的总数量,APi为第i类视频的PR曲线下的面积。
预测结果排名第一的类别与实际结果相符的准确率Top1-Accuracy表示为:
Figure BDA0003548042120000071
其中,Numtop1_correct为正确预测的视频样本数目,Numall为测试的样本总数目。
步骤4,将上述训练和验证好的模型进行部署,在实际场景中对视频数据进行分类,分析分类效果,如果效果不理想可以回到步骤2中进一步训练以得到性能更好的模型。
具体地,本实例在SlowFast-ResNet34网络上对9类动作进行训练、测试,最终实验准确率Top1-Accuracy为94.53%,各类别准确率由样本数量最多到样本数量最少的分别为:99.46%,95.34%,93.66%,88.11%,87.45%,82.3%,80.57%,79.27%,77.82%。可以计算头部、中部和尾部的mAP分别为:99.46%,89.372%,79.22%。效果明显好于其他视频分类方法,充分证明了本实例提供的用于具有长尾分布特性的单猴视频动作分类方法的有效性。
为了验证上述模型的有效性,进行了消融实验证明对分类器参数进一步进行放缩学习的有效性,在没有进行参数归一化,学习缩放调节因子,直接进行分类时,准确率Top1-Accuracy为92.19%,各类别准确率由样本数量最多到样本数量最少的分别为:99.46%,96.54%,89.86%,89.77%,83.94%,80.87%,80.37%,74.35%,63.03%。可以计算头部、中部和尾部的mAP分别为:99.46%,88.196%,72.583%。可以看出增加了分类器参数归一化处理后尾部类别的准确率有大幅增加,增加了6.637%;中部类别的准确率小幅度增加,增加了1.176%;与此同时,头部类别的准确率也没有下降。总类别的准确率Top1-Accuracy也有所上升,上升了2.34%。通过消融实验充分验证了分类器参数归一化的有效性和本实例提供的用于具有长尾分布特性的单猴视频动作分类方法的有效性。
如附图2所示,本发明公开一种基于分类学习参数归一化的对长尾分布特性的不平衡数据的分类方法,主要包三个模块:构建数据集模块,训练模型模块和评价部署模型模块。
所述构建数据集模块,主要是构建一个可以用于训练和测试模型的数据集,包括采集数据、进行分类、
处理数据、标注数据和统计数据分布。如果数据分布是长尾分布的不均衡分布则进行下面的操作。
所述训练模型模块,主要是用来训练一个两阶段的分类模型,第一阶段backbone提取特征,第二阶段分类器分类学习。训练结束后,backbone参数固定不变,分类器参数进行归一化,得到最终的分类模型。
所述评价部署模型模块,主要用于评价和部署分类模型。在测试集上对模型进行评估,如果效果较好,就可以部署到实际的应用场景中使用。
本发明提出了一种基于分类学习参数归一化的对长尾分布特性的单猴视频数据的分类方法,该方法主要用于解决分类任务中数据呈现长尾分布的不平衡问题。在不改变数据原始分布,不进行重采样和重训练的情况下,仅对分类器参数进行归一化就可以很好地解决分类任务中的长尾分布问题。
针对自然界中真实数据的长尾分布情况,对分类器参数归一化以得到一个对长尾分布数据预测效果更好的模型,解决了样本数量不平衡的问题,是一个简单、有效通用的方法。
以上实施例不以任何方式限定本发明,凡是对以上实施例以等效变换方式作出的其它改进与应用,都属于本发明的保护范围。本发明不仅局限于上述具体实施方式,本领域一般技术人员根据实施例和附图公开内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变换或更改的设计,都落入本发明保护的范围。

Claims (7)

1.一种用于具有长尾分布特性的单猴视频动作分类方法,其特征在于,所述单猴视频动作分类方法包括以下步骤:
步骤1,构建猴子的动作数据集;
步骤2,通过数据集对深度神经网络进行训练,构建单猴视频动作分类模型;
步骤3:对模型进行评估,判定模型的稳定性和泛化能力;
步骤4:分析分类效果,如果效果不理想可以回到步骤2中进一步训练以得到性能更好的模型;
在步骤S2中,还包括以下步骤:
步骤21,输入符合长尾分布的动作数据集,不进行类平衡采样,直接输入深度神经网络训练进行特征提取;
步骤22,深度神经网络通过线性分类器进行分类;
步骤23,对分类器的参数进行归一化得到最终的分类模型。
2.根据如权利要求1所述单猴视频动作分类方法,其特征在于,在步骤1中,所述动作数据集中第i个数据为Xi={xi,yi},其中,xi为第i个视频,yi为第i个视频的标签即类别,记nk为第k类视频的个数,
Figure FDA0003548042110000011
是所有类别视频的总数。
3.根据如权利要求1所述单猴视频动作分类方法,其特征在于,在步骤S21中,所述特征为:
f(x;θ)=z
其中x为输入的视频数据,θ为深度神经网络参数,z为提取的特征向量。
4.根据如权利要求3所述单猴视频动作分类方法,其特征在于,在步骤S22中,所述线性分类器为:
g(z)=WTz+b
其中,W为分类器的参数,b为偏置,g(z)表示预测结果,z为提取的特征向量。
5.根据如权利要求4所述单猴视频动作分类方法,其特征在于,在步骤S23中,所述分类器的参数为:
W={wj}∈Rd×c
其中,wj是第j类视频数据的权重参数,C表示视频类型的总数量,模型分类器类别的数量与视频类型的数量相同;
对W进行归一化得到:
Figure FDA0003548042110000021
Figure FDA0003548042110000022
其中,τ是归一化参数的超参量,取值在0~1之间,‖·‖指L2范数。
6.根据如权利要求1所述单猴视频动作分类方法,其特征在于,在步骤S3中,对模型头部、中部和尾部类别的均值平均精度mAP进行估计:
Figure FDA0003548042110000023
其中,C表示视频类型的总数量,APi为第i类视频的PR曲线下的面积。头部类别指样本数超过500的类别,中部类别指样本数超过100少于500的类别,尾部类别指样本数少于100的类别。
7.根据如权利要求1所述单猴视频动作分类方法,其特征在于,在步骤S3中,对模型中预测结果排名第一的类别与实际结果相符的准确率进行评估:
Figure FDA0003548042110000024
其中,Numtop1_correct为预测结果排名第一且正确预测的视频样本数目,Numall为测试的样本总数目。
CN202210254527.1A 2022-03-15 2022-03-15 一种用于具有长尾分布特性的单猴视频动作分类方法 Pending CN114596590A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210254527.1A CN114596590A (zh) 2022-03-15 2022-03-15 一种用于具有长尾分布特性的单猴视频动作分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210254527.1A CN114596590A (zh) 2022-03-15 2022-03-15 一种用于具有长尾分布特性的单猴视频动作分类方法

Publications (1)

Publication Number Publication Date
CN114596590A true CN114596590A (zh) 2022-06-07

Family

ID=81817993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210254527.1A Pending CN114596590A (zh) 2022-03-15 2022-03-15 一种用于具有长尾分布特性的单猴视频动作分类方法

Country Status (1)

Country Link
CN (1) CN114596590A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863193A (zh) * 2022-07-07 2022-08-05 之江实验室 基于混合批归一化的长尾学习图像分类、训练方法及装置
CN115953631A (zh) * 2023-01-30 2023-04-11 南开大学 基于深度迁移学习的长尾小样本声纳图像分类方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101544A (zh) * 2020-08-21 2020-12-18 清华大学 适用于长尾分布数据集的神经网络的训练方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112101544A (zh) * 2020-08-21 2020-12-18 清华大学 适用于长尾分布数据集的神经网络的训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BINGYI KANG: "DECOUPLING REPRESENTATION AND CLASSIFIER__FOR LONG-TAILED RECOGNITION", 《COMPUTER VISION AND PATTERN RECOGNITION》, pages 3 - 5 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863193A (zh) * 2022-07-07 2022-08-05 之江实验室 基于混合批归一化的长尾学习图像分类、训练方法及装置
CN115953631A (zh) * 2023-01-30 2023-04-11 南开大学 基于深度迁移学习的长尾小样本声纳图像分类方法及系统
CN115953631B (zh) * 2023-01-30 2023-09-15 南开大学 基于深度迁移学习的长尾小样本声纳图像分类方法及系统

Similar Documents

Publication Publication Date Title
CN108388927B (zh) 基于深度卷积孪生网络的小样本极化sar地物分类方法
CN108830188B (zh) 基于深度学习的车辆检测方法
CN108345911B (zh) 基于卷积神经网络多级特征的钢板表面缺陷检测方法
CN106997475B (zh) 一种基于并行卷积神经网络的害虫图像识别方法
CN110717554B (zh) 图像识别方法、电子设备及存储介质
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
CN114596590A (zh) 一种用于具有长尾分布特性的单猴视频动作分类方法
CN103136504B (zh) 人脸识别方法及装置
CN108509976A (zh) 动物的识别装置和方法
CN105469376B (zh) 确定图片相似度的方法和装置
CN108090508A (zh) 一种分类训练方法、装置及存储介质
CN107392251B (zh) 一种使用分类图片提升目标检测网络性能的方法
CN109919252A (zh) 利用少数标注图像生成分类器的方法
CN110826462A (zh) 一种非局部双流卷积神经网络模型的人体行为识别方法
CN112966767A (zh) 一种特征提取和分类任务分离的数据不均衡处理方法
Karunasena et al. Tea bud leaf identification by using machine learning and image processing techniques
CN112633257A (zh) 基于改良卷积神经网络的马铃薯病害识别方法
CN109086657B (zh) 一种基于机器学习的耳朵检测方法、系统及模型
CN108734145A (zh) 一种基于密度自适应人脸表征模型的人脸识别方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN111340019A (zh) 基于Faster R-CNN的粮仓害虫检测方法
CN110363218A (zh) 一种胚胎无创评估方法及装置
CN110096976A (zh) 基于稀疏迁移网络的人体行为微多普勒分类方法
CN113850311A (zh) 一种基于分组和多样性增强的长尾分布图像识别方法
CN109509188A (zh) 一种基于hog特征的输电线路典型缺陷识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination