CN113435480B - 通道顺序切换自监督提升长尾分布视觉识别能力的方法 - Google Patents

通道顺序切换自监督提升长尾分布视觉识别能力的方法 Download PDF

Info

Publication number
CN113435480B
CN113435480B CN202110634205.5A CN202110634205A CN113435480B CN 113435480 B CN113435480 B CN 113435480B CN 202110634205 A CN202110634205 A CN 202110634205A CN 113435480 B CN113435480 B CN 113435480B
Authority
CN
China
Prior art keywords
pictures
self
channel
supervision
long tail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110634205.5A
Other languages
English (en)
Other versions
CN113435480A (zh
Inventor
范峻植
徐行
沈复民
邵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110634205.5A priority Critical patent/CN113435480B/zh
Publication of CN113435480A publication Critical patent/CN113435480A/zh
Application granted granted Critical
Publication of CN113435480B publication Critical patent/CN113435480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及计算机视觉领域,具体是通道顺序切换自监督提升长尾分布视觉识别能力的方法,包括两个阶段,自监督训练和有监督训练。准备数据集;将数据集中的图片进行预处理,包括对图片进行重采样处理和对图片进行随机通道顺序的变换;将预处理后的图片用于通道切换自监督训练,将通道顺序名称作为真实的标签计算损失函数,不断迭代网络直至收敛,保存模型;将数据集中的图片进行预处理,包括对图片进行重采样处理和对图片进行数据增强;初始化有监督训练网络,将保存的模型作为有监督训练过程的预训练模型,将预处理后的图片输入模型中进行训练;不断迭代训练网络,计算损失函数,直至模型达到预期的识别分类效果;解决了长尾分布带来的问题。

Description

通道顺序切换自监督提升长尾分布视觉识别能力的方法
技术领域
本发明涉及计算机视觉领域,具体是指通道顺序切换自监督提升长尾分布视觉识别能力的方法。
背景技术
随着科技不断地飞速发展,图像分类的效果已经取得了足够好的成果,这一成果和越来越丰富的数据集密不可分,在大部分理想情况下,所用的数据集的类别标签数量分布几乎都是均匀的,但是,真实世界中的数据大部分却是不均匀的,甚至呈现出长尾分布的情况,即少部分类占据了大部分样本数量,这部分类别称为头部类,而剩下的类别只占有很少的样本数量,这部分类别称为尾部类。
现有的比较常用的处理长尾分布视觉识别的方法包含重采样和重权重,重采样本质是对不同类别的图片采样频率根据样本数量进行反向加权,如果属于当前类的图片数量越多,则赋予当前类的图片的采样概率就越低,相反的情况下,对应的采样概率就越高;重权重则主要体现在分类的损失上,即给头部类的损失更低的权重,给尾部类的损失更高的权重。
上述两种方法,尽管都能得到更好的预测结果,但这些方法仍会产生不良影响,即会在一定程度上损害深度特征的表征能力,现有的一些方法都存在一些缺陷,具体缺陷如下:
1.当不对长尾分布视觉识别问题采取任何措施的时候,长尾分布视觉识别就会表现出对头部类的分类效果较好,而对尾部类的效果较差,并且头部类和尾部类的图片数量的最大比例相差越大,模型对尾部类的分类识别效果就会越差。
2.当对长尾分布视觉识别数据集使用重采样策略时,即降低头部类别的采样概率,增加尾部类别的采样概率,这样虽然能缓解长尾分布视觉识别带来的问题,但是也会产生另外一个问题,尾部样本图片的采样概率变高,就会改变特征空间数据的分布,影响模型的识别分类效果。
发明内容
基于以上问题,本发明提供了通道顺序切换自监督提升长尾分布视觉识别能力的方法,解决了长尾分布带来的问题。
为解决以上技术问题,本发明采用的技术方案如下:
通道顺序切换自监督提升长尾分布视觉识别能力的方法,包括第一阶段的通道切换自监督训练过程和第二阶段的有监督训练过程,其中:
通道切换自监督训练过程包括:
步骤11、准备数据集;
步骤12、将数据集中的图片进行预处理,预处理包括对图片进行重采样处理和对图片进行随机通道顺序的变换;
步骤13、将步骤12预处理后的图片输入通道切换自监督网络,将通道顺序名称作为真实的标签计算损失函数,不断迭代通道切换自监督网络直至收敛,保存模型;
有监督训练过程包括:
步骤21、将步骤11中数据集中的图片进行预处理,预处理包括对图片进行重采样处理和对图片进行数据增强;
步骤22、初始化有监督训练网络,将步骤13保存的模型作为有监督训练过程的预训练模型;
步骤22、将步骤21中预处理后的图片输入有监督训练网络;
步骤23、不断迭代有监督训练网络,计算损失函数,直至有监督训练网络达到预期的识别分类效果。
进一步,所述步骤12和步骤22采用的重采样处理过程相同,其重采样处理的过程为,对数据集进行统计,计算出每个类别所对应的图片数量,若某个类别拥有的图片数量最多,记录该类别的图片数量为Nmax,则每个类别的采样率概率公式为:
Figure BDA0003104414750000021
其中,N表示数据集的图片总数,Ni表示第i个类别拥有的图片数量。
进一步,所述步骤12中,通道顺序为RGB或RBG或BGR或BRG或GBR或GRB。
进一步,所述通道切换自监督训练过程使用Cross Entropy作为损失函数,公式为:
Figure BDA0003104414750000022
其中,m表示总的类别总数,yi表示当前图片属于第i类的概率,
Figure BDA0003104414750000023
表示通道切换自监督网络自监督模型预测出当前图片属于第i个类别的概率。
进一步,所述步骤13中,迭代次数为200。
进一步,所述步骤21中,数据增强包括对图片进行左右翻转或上下翻转或随机裁剪或随机缩放。
进一步,所述步骤23中,有监督训练过程使用Cross Entropy作为损失函数,公式为:
Figure BDA0003104414750000031
其中,m表示总的类别总数,yj表示当前图片属于第j个类别的概率,
Figure BDA0003104414750000032
表示有监督训练网络预测出当前图片属于第i个类别的概率。
进一步,所述步骤23中,迭代次数为200。
与现有技术相比,本发明的有益效果是:
通过两阶段的设计,第一阶段自监督模型的训练,在自监督训练好的模型上淡化了长尾分布带来的影响,自监督的类别变为了RGB、RBG、BGR、BRG、GBR、GRB这六个类别,这六个类别在数量上是相等的,在这六个类别的分布上就不存在长尾分布的问题,自监督的时候再进行重采样,就能减弱长尾分布对自监督带来的问题,通过重采样自监督学习就能保证得到足够好的预训练模型;第二阶段,再将自监督模型作为有监督训练的预训练模型,再在有监督训练的时候进行重采样就能进一步减弱长尾分布带来的问题。
附图说明
图1为本实施例的流程图;
图2为本实施例的结构示意图;
图3为未采用本实施例对特征空间分布的优化的示意图;
图4为采用本实施例对特征空间分布的优化的示意图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
通道顺序切换自监督提升长尾分布视觉识别能力的方法,包括第一阶段的通道切换自监督训练过程和第二阶段的有监督训练过程,其中:
通道切换自监督训练过程包括:
步骤11、准备数据集;
步骤12、将数据集中的图片进行预处理,预处理包括对图片进行重采样处理和对图片进行随机通道顺序的变换;
步骤13、将步骤12预处理后的图片输入通道切换自监督网络,将通道顺序名称作为真实的标签计算损失函数,不断迭代通道切换自监督网络直至收敛,保存模型;
有监督训练过程包括:
步骤21、将步骤11中数据集中的图片进行预处理,预处理包括对图片进行重采样处理和对图片进行数据增强;
步骤22、初始化有监督训练网络,将步骤13保存的模型作为有监督训练过程的预训练模型;
步骤22、将步骤21中预处理后的图片输入有监督训练网络;
步骤23、不断迭代有监督训练网络,计算损失函数,直至有监督训练网络达到预期的识别分类效果。
进一步的是,步骤12和步骤22采用的重采样处理过程相同,其重采样处理的过程为,对数据集进行统计,计算出每个类别所对应的图片数量,若某个类别拥有的图片数量最多,记录该类别的图片数量为Nmax,则每个类别的采样率概率公式为:
Figure BDA0003104414750000041
其中,N表示数据集的图片总数,Ni表示第i个类别拥有的图片数量,这样,使用每个类别的采样概率相同。
进一步的是,步骤12中,对输入的图片进行通道顺序变换,将通道顺序名称作为图片的标签,通道顺序为RGB或RBG或BGR或BRG或GBR或GRB,不同的通道顺序对应不同的类别,以上六个通道顺序分别对应类别一至类别六,图片经过通道顺序变换,即将原来的数据转换为六个类别的数据集。
进一步的是,步骤13中,将通道顺序名称作为真实的便签计算损失函数,通道切换自监督训练过程采用的损失函数为Cross Entropy,公式为:
Figure BDA0003104414750000042
其中,m表示总的类别总数,yi表示当前图片属于第i类的概率,
Figure BDA0003104414750000043
表示通道切换自监督网络预测出当前图片属于第i个类别的概率。
进一步的是,步骤13中,迭代次数为200,将通道切换自监督训练200次迭代中最好的模型保存下来,将保存下来的模型作为有监督训练过程的预训练模型。
进一步的是,步骤21中,数据增强包括对图片进行左右翻转或上下翻转或随机裁剪或随机缩放。
进一步的是,步骤23中,有监督训练过程使用Cross Entropy作为损失函数,公式为:
Figure BDA0003104414750000051
其中,m表示总的类别总数,yj表示当前图片属于第j个类别的概率,
Figure BDA0003104414750000052
表示有监督训练网络预测出当前图片属于第i个类别的概率。
进一步的是,步骤23中,迭代次数为200,损失函数依然使用Cross Entropy,不断地计算当前迭代的损失函数并且优化网络,保存识别分类效果最好的模型。
实施例
为了更好的验证本实施例模型的分类效果,现利用CIFAR-10数据集进行验证,具体见表1以及图3和图4:
表1
方法|数据集 CIFAR-10 CIFAR-10 CIFAR-10
长尾率 100 50 10
不做任何处理 60.560 74.45 86.29
本发明 62.000 75.350 86.73
表格中长尾率表示头部类别的图片数量与尾部类别的图片数量的比值的最大值,从上表可以看出,本实施例展示了通道切换重采样自监督架构在长尾数据任务上的稳定提升,表明了本发明能提升模型的识别分类效果,并且具有更好的泛化能力,从图3中也可看出,在未使用任何方法的的时候,从特征分布空间可以看出存在误分类的情况,即网络对分类的效果不是很好,特别是尾部类别,从图4可看出,当使用本发明的方案过后,从特征分布空间可以看出分界面能正确的进行分类,无论是对头部类还是尾部类,都能正确的分类。
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (8)

1.通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:包括第一阶段的通道切换自监督训练过程和第二阶段的有监督训练过程,其中:
通道切换自监督训练过程包括:
步骤11、准备数据集;
步骤12、将数据集中的图片进行预处理,预处理包括对图片进行重采样处理和对图片进行随机通道顺序的变换;
步骤13、将步骤12预处理后的图片输入通道切换自监督网络,将通道顺序名称作为真实的标签计算损失函数,不断迭代通道切换自监督网络直至收敛,保存模型;
有监督训练过程包括:
步骤21、将步骤11中数据集中的图片进行预处理,预处理包括对图片进行重采样处理和对图片进行数据增强;
步骤22、初始化有监督训练网络,将步骤13保存的模型作为有监督训练过程的预训练模型;
步骤22、将步骤21中预处理后的图片输入有监督训练网络;
步骤23、不断迭代有监督训练网络,计算损失函数,直至有监督训练网络达到预期的识别分类效果。
2.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤12和步骤22采用的重采样处理过程相同,其重采样处理的过程为,对数据集进行统计,计算出每个类别所对应的图片数量,若某个类别拥有的图片数量最多,记录该类别的图片数量为Nmax,则每个类别的采样率概率公式为:
Figure FDA0003104414740000011
其中,N表示数据集的图片总数,Ni表示第i个类别拥有的图片数量。
3.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤12中,通道顺序为RGB或RBG或BGR或BRG或GBR或GRB。
4.根据权利要求2所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤13中,通道切换自监督训练过程使用Cross Entropy作为损失函数,公式为:
Figure FDA0003104414740000021
其中,m表示总的类别总数,yi表示当前图片属于第i个类别的概率,
Figure FDA0003104414740000023
表示通道切换自监督网络预测出当前图片属于第i个类别的概率。
5.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤13中,迭代次数为200。
6.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤21中,数据增强包括对图片进行左右翻转或上下翻转或随机裁剪或随机缩放。
7.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤23中,有监督训练过程使用Cross Entropy作为损失函数,公式为:
Figure FDA0003104414740000022
其中,m表示总的类别总数,yj表示当前图片属于第j个类别的概率,
Figure FDA0003104414740000024
表示有监督训练网络预测出当前图片属于第i个类别的概率。
8.根据权利要求1所述的通道顺序切换自监督提升长尾分布视觉识别能力的方法,其特征在于:所述步骤23中,迭代次数为200。
CN202110634205.5A 2021-06-07 2021-06-07 通道顺序切换自监督提升长尾分布视觉识别能力的方法 Active CN113435480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110634205.5A CN113435480B (zh) 2021-06-07 2021-06-07 通道顺序切换自监督提升长尾分布视觉识别能力的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110634205.5A CN113435480B (zh) 2021-06-07 2021-06-07 通道顺序切换自监督提升长尾分布视觉识别能力的方法

Publications (2)

Publication Number Publication Date
CN113435480A CN113435480A (zh) 2021-09-24
CN113435480B true CN113435480B (zh) 2022-06-21

Family

ID=77803980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110634205.5A Active CN113435480B (zh) 2021-06-07 2021-06-07 通道顺序切换自监督提升长尾分布视觉识别能力的方法

Country Status (1)

Country Link
CN (1) CN113435480B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915555A (zh) * 2020-06-19 2020-11-10 杭州深睿博联科技有限公司 一种3d网络模型预训练方法、系统、终端及存储介质
CN112381116A (zh) * 2020-10-21 2021-02-19 福州大学 基于对比学习的自监督图像分类方法
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475277B2 (en) * 2019-05-16 2022-10-18 Google Llc Accurate and interpretable classification with hard attention
US11436725B2 (en) * 2019-11-15 2022-09-06 Arizona Board Of Regents On Behalf Of Arizona State University Systems, methods, and apparatuses for implementing a self-supervised chest x-ray image analysis machine-learning model utilizing transferable visual words

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111915555A (zh) * 2020-06-19 2020-11-10 杭州深睿博联科技有限公司 一种3d网络模型预训练方法、系统、终端及存储介质
CN112381116A (zh) * 2020-10-21 2021-02-19 福州大学 基于对比学习的自监督图像分类方法
CN112465008A (zh) * 2020-11-25 2021-03-09 电子科技大学 一种基于自监督课程学习的语音和视觉关联性增强方法
CN112686898A (zh) * 2021-03-15 2021-04-20 四川大学 一种基于自监督学习的放疗靶区自动分割方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Anurag Dwarakanath."Identifying Implementation Bugs in Machine Learning Based Image Classifiers using Metamorphic Testing".《ISSTA 2018: Proceedings of the 27th ACM SIGSOFT International Symposium on Software Testing and Analysis》.2018,第118-128页. *
Chuanxing Geng."A Multi-view Perspective of Self-supervised Learning".《arXiv:2003.00877v2》.2020,第1-7页. *
Priya Goyal."Scaling and Benchmarking Self-Supervised Visual Representation Learning".《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》.2019,第6391-6400页. *
Yuzhe Yang."Rethinking the Value of Labels for Improving Class-Imbalanced Learning".《NeurIPS 2020》.2020,第1-22页. *
新智元."长尾问题太严重?半监督和自监督就可以有效缓解!".《https://zhuanlan.zhihu.com/p/281229420》.2020,网页全文. *

Also Published As

Publication number Publication date
CN113435480A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
CN108985317B (zh) 一种基于可分离卷积和注意力机制的图像分类方法
CN108171209B (zh) 一种基于卷积神经网络进行度量学习的人脸年龄估计方法
CN108256482B (zh) 一种基于卷积神经网络进行分布学习的人脸年龄估计方法
CN109948692B (zh) 基于多颜色空间卷积神经网络及随机森林的计算机生成图片检测方法
CN107330480B (zh) 手写字符计算机识别方法
CN110287777B (zh) 一种自然场景下的金丝猴躯体分割算法
CN109359608B (zh) 一种基于深度学习模型的人脸识别方法
CN113591866B (zh) 基于db与crnn的特种作业证件检测方法及系统
CN111222457B (zh) 一种基于深度可分离卷积的鉴别视频真伪性的检测方法
CN112800876A (zh) 一种用于重识别的超球面特征嵌入方法及系统
CN111783841A (zh) 基于迁移学习和模型融合的垃圾分类方法、系统及介质
CN112232395B (zh) 一种基于联合训练生成对抗网络的半监督图像分类方法
CN112750129A (zh) 一种基于特征增强位置注意力机制的图像语义分割模型
CN114841244A (zh) 一种基于鲁棒采样和混合注意力金字塔的目标检测方法
CN115410059B (zh) 基于对比损失的遥感图像部分监督变化检测方法及设备
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN115240259A (zh) 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统
CN114882278A (zh) 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置
CN111160491B (zh) 一种卷积神经网络中的池化方法和池化模型
CN113435480B (zh) 通道顺序切换自监督提升长尾分布视觉识别能力的方法
CN110136098B (zh) 一种基于深度学习的线缆顺序检测方法
CN110349119B (zh) 基于边缘检测神经网络的路面病害检测方法和装置
CN111242131A (zh) 一种智能阅卷中图像识别的方法、存储介质及装置
CN111126173A (zh) 一种高精度人脸检测方法
CN114387524B (zh) 基于多层级二阶表征的小样本学习的图像识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant