CN115512150A - 一种基于Mixup的类别不平衡训练样本采样方法 - Google Patents

一种基于Mixup的类别不平衡训练样本采样方法 Download PDF

Info

Publication number
CN115512150A
CN115512150A CN202210965375.6A CN202210965375A CN115512150A CN 115512150 A CN115512150 A CN 115512150A CN 202210965375 A CN202210965375 A CN 202210965375A CN 115512150 A CN115512150 A CN 115512150A
Authority
CN
China
Prior art keywords
class
training
samples
sampling
mixup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210965375.6A
Other languages
English (en)
Inventor
杨钊
李嘉壕
胡陆宇
罗名凯
丰帅龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou University
Original Assignee
Guangzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou University filed Critical Guangzhou University
Priority to CN202210965375.6A priority Critical patent/CN115512150A/zh
Publication of CN115512150A publication Critical patent/CN115512150A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Mixup的类别不平衡训练样本采样方法,包括如下步骤:准备用于图像分类训练的长尾分布数据集;使用两个独立的采样器,用于两种不同形式的采样,得到两组样本;将采样得到的两组样本进行相互混合,得到一组新的混合样本,提出新的线性衰减函数替代原Mixup公式中的混合系数以防止模型对尾部类产生过拟合,线性衰减函数按照具体的训练次数给样本分配混合权重,随着训练进行,类平衡采样器的权重逐渐增大,生成更平衡的混合样本以提高对尾部类的关注;使用混合样本训练网络模型,在Mixup正则化作用基础上,提高模型对尾部类的关注。本发明在Mixup的基础上,创造一个平衡的样本分布,带来更好的分类效果。

Description

一种基于Mixup的类别不平衡训练样本采样方法
技术领域
本发明涉及深度学习中的计算机视觉图像分类技术领域,具体为一种基于Mixup的类别不平衡训练样本采样方法。
背景技术
近年来,随着大规模数据的广泛使用,深度卷积神经网络在图像分类领域表现出了先进的性能。在深度学习中,训练数据是影响分类器模型性能的重要因素之一,一个高质量的数据集能够提高模型训练的性能和预测的准确率,然而现实数据的类别分布往往存在着高度不平衡的现象,即小部分的类别占据着绝大部分的样本,导致训练样本分布偏移,总体呈现出一种长尾形状的分布。在这种不平衡分布中,样本数目占优势的类别称为头部类,而样本数目占劣势的类别则称为尾部类。当训练样本分布极端不均衡时,由于训练样本被头部类样本所主导使得模型对尾部类样本学习不充分,可能会导致分类器模型对尾部类的性能较差,进而影响整体分类性能。
现有在目前长尾分布图像分类的相关技术中,解决类别不平衡问题的经典方法主要包括重采样(re-sampling)和重加权(re-weighting)。重采样通过对尾部类上采样或者对头部类下采样,使样本分布变得相对平衡。重加权则通过为各个类别分配不同的权重来调整模型对不同类别的关注度。这两种经典的重平衡策略虽然有效,但仍存在一些不足。例如在重采样中,随机上采样通过复制尾部类样本增加样本数量,这可能造成模型对尾部类的过拟合。随机下采样会删除头部类样本从而影响头部类的特征学习。重加权通常涉及复杂的算法设计来抵消类别不平衡。此外,当重加权处理极端不平衡的大规模数据时,它还会导致优化困难。
Mixup作为一种常见的数据增强方法,它主要通过对随机样本对进行线性插值来生成新的混合样本。这个方法已经被证明可以极大地提高模型的泛化能力和鲁棒性。然而,Mixup采用随机采样和随机混合的方法,没有考虑到混合过程中尾部类样本出现的频率。当将Mixup应用到长尾分布的数据时,由于采样批次中的样本也存在着类别不平衡,大多数混合样本将完全或部分由头部类样本分配,这可能会进一步加剧类别不平衡的问题。对此,有相关研究针对Mixup在长尾分布场景下的不平衡问题,通过调整混合样本的标签分布来加强对尾部类的关注。
发明内容
本发明的目的在于提供一种新的基于Mixup的类别不平衡训练样本采样方法,基于Mixup技术下的不平衡数据图像分类算法,能够通过结合类平衡采样和Mixup创造一个更为平衡的样本分布,以解决长尾分布问题。
为实现上述目的,本发明提供如下技术方案:
一种基于Mixup的长尾图像分类方法,包括以下步骤:
S1、准备用于图像分类训练的长尾分布数据集;
S2、使用两个独立的采样器,用于两种不同形式的采样;其中一个采样器使用传统的均匀采样器,即基于实例的采样(instance-based sampling)。另一个采样器使用类平衡采样器,即基于类别的采样(class-based sampling)。得到两组不同标签分布的样本。
S3、将采样得到的两组样本进行相互混合,得到一组新的混合样本。提出一个新的线性衰减函数替代原Mixup公式中的λ~beta(α,α)混合系数以防止模型对尾部类产生过拟合。线性衰减函数按照具体的训练次数给样本分配混合权重,即训练前期,在进行混合操作时,给来自均匀采样器的样本提供更大的权重以学习特征。随着训练进行,类平衡采样器的权重逐渐增大,生成更平衡的混合样本以提高对尾部类的关注。
S4、使用混合样本训练网络模型,在Mixup正则化作用基础上,使用类平衡采样器提高尾部类标签的出现频率,提高模型对尾部类的分类准确率。
优选的,步骤S2中设置两种采样策略,即基于实例的采样和基于类别的采样,这两种采样策略可以通过以下公式来描述:
Figure BDA0003794680390000021
其中,j代表类别索引;pj代表从j类中抽样的采样频率;nj代表j类的样本总数;K代表训练样本类别总数;q是一个参数设置,当q=1,在这种情况下采样频率等于样本在训练集上出现的频率,即基于实例的采样(instance-based sampling);当q=0,从每个类中抽样的概率
Figure BDA0003794680390000031
即基于类别的采样(class-based sampling)。
优选的,步骤S3将独立采样的两组数据进行混合:
Figure BDA0003794680390000032
其中,(xI,yI)指在均匀采样器SI中采样的样本对;(xC,yC)指在类平衡采样器SC中采样的样本对;β指线性衰减系数,具体公式如下:
Figure BDA0003794680390000033
其中,Tepoch指的是当前训练次数;Tmax指的是总的训练次数;随着训练次数的增加,β的值逐渐减少。
优选的,步骤S4将生成的混合样本输入网络进行训练,对于每个类i∈{1,2…,K},通过softmax函数计算预测概率:
Figure BDA0003794680390000034
其中
Figure BDA0003794680390000035
为输出的概率;z为预测输出分数。输出概率分别对两组采样器的样本标签求损失,加权交叉熵分类损失如下:
Figure BDA0003794680390000036
其中,
Figure BDA0003794680390000037
表示为交叉熵损失。
与现有技术相比,本发明的有益效果是:
该基于Mixup的类别不平衡训练样本采样方法,用于解决长尾图像分类问题。首先,这种方法主要从数据层面执行训练样本的均匀采样和类平衡采样以提高尾部类标签出现概率。由此产生的两组样本进行相互混合,创建一个更平衡的训练分布,减轻头部类对尾部类的压倒性抑制作用,神经网络可以有效地进行模型参数学习而不会导致尾部类的欠拟合。同时,我们引入一个简单有效的线性衰减系数β替代原Mixup中的λ~beta(α,α),衰减系数β可以根据训练的次数自适应地调整混合权重,在训练前期,为均匀采样器样本提供较大的权重,供分类器更好地学习特征。随着训练的进行,逐渐将混合重心转向类平衡采样器样本,生成标签占比平衡的混合样本,供分类器学习尾部类特征。通过实验表明,本发明能够在Mixup的基础上,创造一个平衡的样本分布,进一步解决长尾分布问题,与现有的基于Mixup的正则化技术相比,能够带来更好的分类效果。
附图说明
图1为本发明实施例的不平衡数据的双采样器示意图;
图2为本发明实施例的线性衰减系数β的取值示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明实施例提供的基于Mixup的训练样本采样方法,能够通过结合类平衡采样和Mixup创造一个更为平衡的样本分布去解决长尾分布问题,其包括以下步骤:
S1、准备用于图像分类的长尾分布数据集;
S2、使用两个独立的采样器,用于两种不同形式的采样;其中一个采样器使用传统的均匀采样器,即基于实例的采样(instance-based sampling)。另一个采样器使用类平衡采样器,即基于类别的采样(class-based sampling)。得到两组不同标签分布的样本。
S3、将采样得到的两组样本进行相互混合,得到一组新的混合样本。提出一个新的线性衰减函数替代原Mixup公式中的λ~beta(α,α)混合系数以防止模型对尾部类产生过拟合。线性衰减函数按照具体的训练次数给样本分配混合权重,即训练前期,在进行混合操作时,给来自均匀采样器的样本提供更大的权重以学习特征。随着训练进行,类平衡采样器的权重逐渐增大,生成更平衡的混合样本以提高对尾部类的关注。
S4、使用混合样本训练网络模型,在Mixup正则化作用基础上,使用类平衡采样器提高尾部类标签的出现频率,提高模型对尾部类的分类准确率;
进一步的,步骤S2中设置两种采样策略,即基于实例的采样和基于类别的采样,这两种采样策略可以通过以下公式来描述:
Figure BDA0003794680390000051
其中,j代表类别索引;pj代表从j类中抽样的采样频率;nj代表j类的样本总数;K代表训练样本类别总数;q是一个参数设置,当q=1,在这种情况下采样频率等于样本在训练集上出现的频率,即基于实例的采样(instance-based sampling);当q=0,从每个类中抽样的概率
Figure BDA0003794680390000052
即基于类别的采样(class-based sampling)。
进一步的,步骤S3将独立采样的两组数据进行混合:
Figure BDA0003794680390000053
其中,(xI,yI)指在均匀采样器SI中采样的样本对;(xC,yC)指在类平衡采样器SC中采样的样本对;β指线性衰减系数,具体公式如下:
Figure BDA0003794680390000054
其中,Tepoch指的是当前训练次数;Tmax指的是总的训练次数;随着训练次数的增加,β的值逐渐减少。
进一步的,步骤S4将生成的混合样本输入网络进行训练,对于每个类i∈{1,2,...,K},通过softmax函数计算预测概率:
Figure BDA0003794680390000055
其中
Figure BDA0003794680390000056
为输出的概率;z为预测输出分数。输出概率分别对两组采样器的样本标签求损失,加权交叉熵分类损失如下:
Figure BDA0003794680390000057
其中,
Figure BDA0003794680390000061
表示为交叉熵损失。
本发明提出的一种基于Mixup的训练样本采样方法来解决长尾图像分类问题。首先,这种方法主要从数据层面执行训练样本的均匀采样和类平衡采样以提高尾部类标签出现概率。由此产生的两组样本进行相互混合,创建一个更平衡的训练分布,减轻头部类对尾部类的压倒性抑制作用,神经网络可以有效地进行模型参数学习而不会导致尾部类的欠拟合。同时,我们引入一个简单有效的线性衰减系数β替代原Mixup中的beta(α,α),衰减系数β可以根据训练的次数自适应地调整混合权重,在训练前期,为均匀采样器样本提供较大的权重,供分类器更好地学习特征。随着训练的进行,逐渐将混合重心转向类平衡采样器样本,生成标签占比平衡的混合样本,供分类器学习尾部类特征。通过实验表明,本发明能够在Mixup的基础上,创造一个平衡的样本分布,进一步解决长尾分布问题,与现有的基于Mixup的正则化技术相比,能够带来更好的分类效果。
综上,本发明重点是在Mixup的基础上,创造一个平衡的样本分布,进一步解决长尾分布问题,与现有技术相比,能够带来更好的分类效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (4)

1.一种基于Mixup的类别不平衡训练样本采样方法,其特征在于,包括以下步骤:
S1、准备用于图像分类训练的长尾分布数据集;
S2、使用两个独立的采样器,用于两种不同形式的采样,其中一个采样器使用传统的均匀采样器,即基于实例的采样(instance-based sampling),另一个采样器使用类平衡采样器,即基于类别的采样(class-based sampling),得到两组不同标签分布的样本;
S3、将采样得到的两组样本进行相互混合,得到一组新的混合样本,提出一个新的线性衰减函数替代原Mixup公式中的λ~beta(α,α)混合系数以防止模型对尾部类产生过拟合,线性衰减函数按照具体的训练次数给样本分配混合权重,即训练前期,在进行混合操作时,给来自均匀采样器的样本提供更大的权重以学习特征,随着训练进行,类平衡采样器的权重逐渐增大,生成更平衡的混合样本以提高对尾部类的关注;
S4、使用混合样本训练网络模型,在Mixup正则化作用基础上,使用类平衡采样器提高尾部类标签的出现频率,提高模型对尾部类的分类准确率。
2.根据权利要求1所述的基于Mixup的类别不平衡训练样本采样方法,其特征在于,所述步骤S2中设置两种采样策略,即基于实例的采样和基于类别的采样,这两种采样策略可以通过以下公式来描述:
Figure FDA0003794680380000011
其中,j代表类别索引;pj代表从j类中抽样的采样频率;nj代表j类的样本总数;K代表训练样本类别总数;q是一个参数设置,当q=1,在这种情况下采样频率等于样本在训练集上出现的频率,即基于实例的采样(instance-based sampling);当q=0,从每个类中抽样的概率
Figure FDA0003794680380000012
即基于类别的采样(class-based sampling)。
3.根据权利要求1所述的基于Mixup的类别不平衡训练样本采样方法,其特征在于,所述步骤S3将独立采样的两组数据进行混合:
Figure FDA0003794680380000013
其中,(xI,yI)指在均匀采样器SI中采样的样本对;(xC,yC)指在类平衡采样器SC中采样的样本对;β指线性衰减系数,具体公式如下:
Figure FDA0003794680380000021
其中,Tepoch指的是当前训练次数;Tmax指的是总的训练次数;随着训练次数的增加,β的值逐渐减少。
4.根据权利要求1所述的基于Mixup的类别不平衡训练样本采样方法,其特征在于,所述步骤S4将生成的混合样本输入网络进行训练,对于每个类i∈{1,2...,K},通过softmax函数计算预测概率:
Figure FDA0003794680380000022
其中
Figure FDA0003794680380000023
为输出的概率;z为预测输出分数,输出概率分别对两组采样器的样本标签求损失,加权交叉熵分类损失如下:
Figure FDA0003794680380000024
其中,
Figure FDA0003794680380000025
表示为交叉熵损失。
CN202210965375.6A 2022-08-12 2022-08-12 一种基于Mixup的类别不平衡训练样本采样方法 Pending CN115512150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210965375.6A CN115512150A (zh) 2022-08-12 2022-08-12 一种基于Mixup的类别不平衡训练样本采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210965375.6A CN115512150A (zh) 2022-08-12 2022-08-12 一种基于Mixup的类别不平衡训练样本采样方法

Publications (1)

Publication Number Publication Date
CN115512150A true CN115512150A (zh) 2022-12-23

Family

ID=84502605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210965375.6A Pending CN115512150A (zh) 2022-08-12 2022-08-12 一种基于Mixup的类别不平衡训练样本采样方法

Country Status (1)

Country Link
CN (1) CN115512150A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433989A (zh) * 2023-06-08 2023-07-14 深圳大学 特征增强方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433989A (zh) * 2023-06-08 2023-07-14 深圳大学 特征增强方法、装置、计算机设备和存储介质
CN116433989B (zh) * 2023-06-08 2023-12-01 深圳大学 特征增强方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
CN109086799A (zh) 一种基于改进卷积神经网络模型AlexNet的作物叶片病害识别方法
Liu et al. Factor allocation, economic growth and unbalanced regional development in China
CN113610219B (zh) 一种基于动态残差的多源域自适应方法
CN114155436B (zh) 长尾分布的遥感图像目标识别逐步蒸馏学习方法
CN115512150A (zh) 一种基于Mixup的类别不平衡训练样本采样方法
CN111191685A (zh) 一种损失函数动态加权的方法
CN110929958A (zh) 基于深度学习参数优化的短时交通流量预测方法
CN109284662B (zh) 一种基于迁移学习的水下声音信号分类方法
CN106875028A (zh) 一种辅助择校的信息筛选方法和系统
CN115205594A (zh) 一种基于混合样本的长尾图像数据分类方法
CN113743474A (zh) 基于协同半监督卷积神经网络的数字图片分类方法与系统
CN116030302A (zh) 基于表征数据增强和损失再平衡的长尾图像识别方法
CN115409157A (zh) 一种基于学生反馈的无数据知识蒸馏方法
CN108920477A (zh) 一种基于二叉树结构的不平衡数据处理方法
CN114596590A (zh) 一种用于具有长尾分布特性的单猴视频动作分类方法
CN114048838A (zh) 一种基于知识迁移的混合联邦学习方法
CN111028086A (zh) 基于聚类与lstm网络的增强指数跟踪方法
CN115392344A (zh) 一种具有难样本感知的强弱双分支网络的长尾识别方法
CN107944553A (zh) 一种cnn模型的微调方法及装置
CN111950619A (zh) 一种基于双重生成对抗网络的主动学习方法
Zeng et al. Evaluation and analysis model of wine quality based on mathematical model
CN116561622A (zh) 一种面向类不平衡数据分布的联邦学习方法
Xu et al. Coarse-to-fine knowledge transfer based long-tailed classification via bilateral-sampling network
CN114862337A (zh) 基于改进k均值算法的异常项目筛选方法
CN115908949B (zh) 基于类平衡编码器的长尾图像识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination