CN115512150A

CN115512150A - 一种基于Mixup的类别不平衡训练样本采样方法

Info

Publication number: CN115512150A
Application number: CN202210965375.6A
Authority: CN
Inventors: 杨钊; 李嘉壕; 胡陆宇; 罗名凯; 丰帅龙
Original assignee: Guangzhou University
Current assignee: Guangzhou University
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-12-23

Abstract

本发明公开了一种基于Mixup的类别不平衡训练样本采样方法，包括如下步骤：准备用于图像分类训练的长尾分布数据集；使用两个独立的采样器，用于两种不同形式的采样，得到两组样本；将采样得到的两组样本进行相互混合，得到一组新的混合样本，提出新的线性衰减函数替代原Mixup公式中的混合系数以防止模型对尾部类产生过拟合，线性衰减函数按照具体的训练次数给样本分配混合权重，随着训练进行，类平衡采样器的权重逐渐增大，生成更平衡的混合样本以提高对尾部类的关注；使用混合样本训练网络模型，在Mixup正则化作用基础上，提高模型对尾部类的关注。本发明在Mixup的基础上，创造一个平衡的样本分布，带来更好的分类效果。

Description

一种基于Mixup的类别不平衡训练样本采样方法

技术领域

本发明涉及深度学习中的计算机视觉图像分类技术领域，具体为一种基于Mixup的类别不平衡训练样本采样方法。

背景技术

近年来，随着大规模数据的广泛使用，深度卷积神经网络在图像分类领域表现出了先进的性能。在深度学习中，训练数据是影响分类器模型性能的重要因素之一，一个高质量的数据集能够提高模型训练的性能和预测的准确率，然而现实数据的类别分布往往存在着高度不平衡的现象，即小部分的类别占据着绝大部分的样本，导致训练样本分布偏移，总体呈现出一种长尾形状的分布。在这种不平衡分布中，样本数目占优势的类别称为头部类，而样本数目占劣势的类别则称为尾部类。当训练样本分布极端不均衡时，由于训练样本被头部类样本所主导使得模型对尾部类样本学习不充分，可能会导致分类器模型对尾部类的性能较差，进而影响整体分类性能。

现有在目前长尾分布图像分类的相关技术中，解决类别不平衡问题的经典方法主要包括重采样(re-sampling)和重加权(re-weighting)。重采样通过对尾部类上采样或者对头部类下采样，使样本分布变得相对平衡。重加权则通过为各个类别分配不同的权重来调整模型对不同类别的关注度。这两种经典的重平衡策略虽然有效，但仍存在一些不足。例如在重采样中，随机上采样通过复制尾部类样本增加样本数量，这可能造成模型对尾部类的过拟合。随机下采样会删除头部类样本从而影响头部类的特征学习。重加权通常涉及复杂的算法设计来抵消类别不平衡。此外，当重加权处理极端不平衡的大规模数据时，它还会导致优化困难。

Mixup作为一种常见的数据增强方法，它主要通过对随机样本对进行线性插值来生成新的混合样本。这个方法已经被证明可以极大地提高模型的泛化能力和鲁棒性。然而，Mixup采用随机采样和随机混合的方法，没有考虑到混合过程中尾部类样本出现的频率。当将Mixup应用到长尾分布的数据时，由于采样批次中的样本也存在着类别不平衡，大多数混合样本将完全或部分由头部类样本分配，这可能会进一步加剧类别不平衡的问题。对此，有相关研究针对Mixup在长尾分布场景下的不平衡问题，通过调整混合样本的标签分布来加强对尾部类的关注。

发明内容

本发明的目的在于提供一种新的基于Mixup的类别不平衡训练样本采样方法，基于Mixup技术下的不平衡数据图像分类算法，能够通过结合类平衡采样和Mixup创造一个更为平衡的样本分布，以解决长尾分布问题。

为实现上述目的，本发明提供如下技术方案：

一种基于Mixup的长尾图像分类方法，包括以下步骤：

S1、准备用于图像分类训练的长尾分布数据集；

S2、使用两个独立的采样器，用于两种不同形式的采样；其中一个采样器使用传统的均匀采样器，即基于实例的采样(instance-based sampling)。另一个采样器使用类平衡采样器，即基于类别的采样(class-based sampling)。得到两组不同标签分布的样本。

S3、将采样得到的两组样本进行相互混合，得到一组新的混合样本。提出一个新的线性衰减函数替代原Mixup公式中的λ～beta(α，α)混合系数以防止模型对尾部类产生过拟合。线性衰减函数按照具体的训练次数给样本分配混合权重，即训练前期，在进行混合操作时，给来自均匀采样器的样本提供更大的权重以学习特征。随着训练进行，类平衡采样器的权重逐渐增大，生成更平衡的混合样本以提高对尾部类的关注。

S4、使用混合样本训练网络模型，在Mixup正则化作用基础上，使用类平衡采样器提高尾部类标签的出现频率，提高模型对尾部类的分类准确率。

优选的，步骤S2中设置两种采样策略，即基于实例的采样和基于类别的采样，这两种采样策略可以通过以下公式来描述：

其中，j代表类别索引；p_j代表从j类中抽样的采样频率；n_j代表j类的样本总数；K代表训练样本类别总数；q是一个参数设置，当q＝1，在这种情况下采样频率等于样本在训练集上出现的频率，即基于实例的采样(instance-based sampling)；当q＝0，从每个类中抽样的概率

即基于类别的采样(class-based sampling)。

优选的，步骤S3将独立采样的两组数据进行混合：

其中，(x_I，y_I)指在均匀采样器S_I中采样的样本对；(x_C，y_C)指在类平衡采样器S_C中采样的样本对；β指线性衰减系数，具体公式如下：

其中，T_epoch指的是当前训练次数；T_max指的是总的训练次数；随着训练次数的增加，β的值逐渐减少。

优选的，步骤S4将生成的混合样本输入网络进行训练，对于每个类i∈{1，2…，K}，通过softmax函数计算预测概率：

其中

为输出的概率；z为预测输出分数。输出概率分别对两组采样器的样本标签求损失，加权交叉熵分类损失如下：

其中，

表示为交叉熵损失。

与现有技术相比，本发明的有益效果是：

该基于Mixup的类别不平衡训练样本采样方法，用于解决长尾图像分类问题。首先，这种方法主要从数据层面执行训练样本的均匀采样和类平衡采样以提高尾部类标签出现概率。由此产生的两组样本进行相互混合，创建一个更平衡的训练分布，减轻头部类对尾部类的压倒性抑制作用，神经网络可以有效地进行模型参数学习而不会导致尾部类的欠拟合。同时，我们引入一个简单有效的线性衰减系数β替代原Mixup中的λ～beta(α，α)，衰减系数β可以根据训练的次数自适应地调整混合权重，在训练前期，为均匀采样器样本提供较大的权重，供分类器更好地学习特征。随着训练的进行，逐渐将混合重心转向类平衡采样器样本，生成标签占比平衡的混合样本，供分类器学习尾部类特征。通过实验表明，本发明能够在Mixup的基础上，创造一个平衡的样本分布，进一步解决长尾分布问题，与现有的基于Mixup的正则化技术相比，能够带来更好的分类效果。

附图说明

图1为本发明实施例的不平衡数据的双采样器示意图；

图2为本发明实施例的线性衰减系数β的取值示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明实施例提供的基于Mixup的训练样本采样方法，能够通过结合类平衡采样和Mixup创造一个更为平衡的样本分布去解决长尾分布问题，其包括以下步骤：

S1、准备用于图像分类的长尾分布数据集；

S4、使用混合样本训练网络模型，在Mixup正则化作用基础上，使用类平衡采样器提高尾部类标签的出现频率，提高模型对尾部类的分类准确率；

进一步的，步骤S2中设置两种采样策略，即基于实例的采样和基于类别的采样，这两种采样策略可以通过以下公式来描述：

即基于类别的采样(class-based sampling)。

进一步的，步骤S3将独立采样的两组数据进行混合：

进一步的，步骤S4将生成的混合样本输入网络进行训练，对于每个类i∈{1，2，...，K}，通过softmax函数计算预测概率：

其中

其中，

表示为交叉熵损失。

本发明提出的一种基于Mixup的训练样本采样方法来解决长尾图像分类问题。首先，这种方法主要从数据层面执行训练样本的均匀采样和类平衡采样以提高尾部类标签出现概率。由此产生的两组样本进行相互混合，创建一个更平衡的训练分布，减轻头部类对尾部类的压倒性抑制作用，神经网络可以有效地进行模型参数学习而不会导致尾部类的欠拟合。同时，我们引入一个简单有效的线性衰减系数β替代原Mixup中的beta(α，α)，衰减系数β可以根据训练的次数自适应地调整混合权重，在训练前期，为均匀采样器样本提供较大的权重，供分类器更好地学习特征。随着训练的进行，逐渐将混合重心转向类平衡采样器样本，生成标签占比平衡的混合样本，供分类器学习尾部类特征。通过实验表明，本发明能够在Mixup的基础上，创造一个平衡的样本分布，进一步解决长尾分布问题，与现有的基于Mixup的正则化技术相比，能够带来更好的分类效果。

综上，本发明重点是在Mixup的基础上，创造一个平衡的样本分布，进一步解决长尾分布问题，与现有技术相比，能够带来更好的分类效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于Mixup的类别不平衡训练样本采样方法，其特征在于，包括以下步骤:

S1、准备用于图像分类训练的长尾分布数据集；

S2、使用两个独立的采样器，用于两种不同形式的采样，其中一个采样器使用传统的均匀采样器，即基于实例的采样(instance-based sampling)，另一个采样器使用类平衡采样器，即基于类别的采样(class-based sampling)，得到两组不同标签分布的样本；

S3、将采样得到的两组样本进行相互混合，得到一组新的混合样本，提出一个新的线性衰减函数替代原Mixup公式中的λ～beta(α，α)混合系数以防止模型对尾部类产生过拟合，线性衰减函数按照具体的训练次数给样本分配混合权重，即训练前期，在进行混合操作时，给来自均匀采样器的样本提供更大的权重以学习特征，随着训练进行，类平衡采样器的权重逐渐增大，生成更平衡的混合样本以提高对尾部类的关注；

2.根据权利要求1所述的基于Mixup的类别不平衡训练样本采样方法，其特征在于，所述步骤S2中设置两种采样策略，即基于实例的采样和基于类别的采样，这两种采样策略可以通过以下公式来描述：

即基于类别的采样(class-based sampling)。

3.根据权利要求1所述的基于Mixup的类别不平衡训练样本采样方法，其特征在于，所述步骤S3将独立采样的两组数据进行混合：

4.根据权利要求1所述的基于Mixup的类别不平衡训练样本采样方法，其特征在于，所述步骤S4将生成的混合样本输入网络进行训练，对于每个类i∈{1，2...，K}，通过softmax函数计算预测概率：

其中

为输出的概率；z为预测输出分数，输出概率分别对两组采样器的样本标签求损失，加权交叉熵分类损失如下：

其中，

表示为交叉熵损失。