CN113076438A

CN113076438A - 一种不平衡数据集下基于多数类转化为少数类的分类方法

Info

Publication number: CN113076438A
Application number: CN202110470271.3A
Authority: CN
Inventors: 何克晶; 王高山
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-06
Anticipated expiration: 2041-04-28
Also published as: CN113076438B

Abstract

本发明公开了一种不平衡数据集下基于多数类转化为少数类的分类方法，包括如下步骤：对整体训练数据进行预处理；对每个少数类样在多数类中挑选出一定数量的样本作为伙伴，确定这个数量的取值范围；从多数类中挑选出合适的样本，形成新的样本集合；对集合中样本的标签进行更改；采用新的损失函数对前向加法模型对弱分类器进行提升训练；训练过程中，将最终分类器分布求解，每一步都对目标函数求解最优基分类器和改基分类器的权重；利用分类器进行相关预训练，确定多数类转化为少数类的最终数量。本发明不仅可以应用在图像分类，图像识别，也可以应用在自然语言处理等其他需要分类的场景。

Description

一种不平衡数据集下基于多数类转化为少数类的分类方法

技术领域

本发明涉及一种分类方法，更具体的说，涉及一种不平衡数据集下基于多数类转化为少数类的分类方法。

背景技术

在图片分类或者识别中，很多算法都有一个基本假设，那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时，例如医疗、诈骗，大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀，都会存在“长尾现象”，这就是不平衡分类问题。通常而言,一个数据集称为不平衡数据集需要具备两个条件:类别数量的不平衡和错分代价的不平衡。以二分类问题为例，假设负类的样本数量远大于正类的样本数量，我们将负类称作为大类，正类称作小类。

不平衡数据集的处理方法主要分为两个方面：一是从数据的角度出发，主要方法为采样，分为欠采样和过采样以及对应的一些改进方法；这些方法都是用来改变数据的分布，使得数据更加平衡。从算法的角度出发，主要是基于代价敏感学习算法(Cost-Sensitive Learning)，代表的算法有adacost；另外可以将不平衡数据集的问题考虑为一分类(One Class Learning)或者异常检测(Novelty Detection)问题，代表的算法有One-class SVM。在《Neighbourhood-based undersampling approach for handlingimbalanced and overlapped data》文中明确提出，数据层面的改进方法虽然思路简单，但是增加了计算开销；算法层面的改进方法虽然更加快捷，但缺少灵活性，难以在不同的数据集之间迁移。

鉴于以上这些方法的局限性，因此，提出一种新的方法，可以更加高效地在训练数据不充分不平衡的情况下进行分类，本方法。

发明内容

本发明的目的旨在解决分类问题中的长尾问题，特别是二分类中的不平衡分类问题，本方法不仅可以应用在图像分类，图像识别，也可以应用在自然语言处理等其他需要分类的场景。

本发明至少通过如下技术方案之一实现。

一种不平衡数据集下基于多数类转化为少数类的分类方法，包括以下步骤：

(1)对训练数据进行预处理，提炼出用于训练的样本特征；

(2)对每个少数类样在多数类中挑选出样本作为伙伴，通过不平衡率确定挑选的数量的取值范围；

(3)根据样本特征，通过目标函数从多数类中挑选出样本，形成新的样本集合；

(4)对新的样本集合中样本的标签进行更改，将选中的多数类中的样本，改变标签为少数类，变更后的数据称为假少数类；

(5)采用损失函数，并利用前向加法模型对弱分类器进行训练；训练过程中，将最终分类器分别求解，每一步都对目标函数求解最优基分类器和该基分类器的权重；

(6)利用分类器进行预训练，确定多数类转化为少数类的最终数量；

(7)根据最终数量，确定损失函数中的假少数类的权重数类，利用确定好参数的模型进行数据分类。

优选的，所述预处理包括但不限于去重、降噪；数据的信息以矩阵或者向量的形式给出；若是向量的形式，则将数个向量合并为矩阵，进行主成分分析，选取合适的特征分量组成新的特征向量；若是矩阵形式，则求出特征向量后，多个样本的特征向量合并，进行主成分分析，选取合适的分量形成新的样本数据。

优选的，步骤(2)中，对于少数类样本D_p和多数类D_n，需要从D_n中挑选样本的数量为R×|D_p|，其中|D_p|表示少数类集合的样本数量，R∈[0,R_max]，R_max如下式所示：

其中，IR是不平衡率，即多数类数量与少数类样本数量的比值，

表示向上取整，最终形成伙伴集合D_n2p，也就是假少数类样本的集合，R_max是R的取值上限。

优选的，步骤(3)挑选的目标函数如下：

其中，f(D_n2p)是关于D_n2p的函数；s_i是少数类集合D_p中的样本，s_j是伙伴集合D_n2p中的样本；s_j是s_i的伙伴，每个s_i对应不止一个s_j，distacne(·)是距离函数。

优选的，所述距离函数distacne(·)包括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离函数。

优选的，所述前向加法模型为：

其中，M是迭代总步数，一般由经验决定，G_m(x)是每一步中采用的基分类器，α_m是其权重。

优选的，所述损失函数如下：

其中，λ是假少数类样本的权重参数，y表示样本标签的集合，f(x_i)是最终分类器，x_i表示D_n2p中的样本，x_j表示除去D_n2p外的样本，y_i是样本的标签，L(y,f(x))是关于y和f(x)的损失函数。

优选的，步骤(5)中，在每一步求解中，最优基分类器G_m由下式给出：

其中，w_mi＝exp(-y_if_m-1(x_i))，w_mj＝exp(-y_jf_m-1(x_i))，G是待定解，其中最优的解就是G_m，i、j分别表示D_n2p中的样本和除去D_n2p外的样本，f_m-1是第m-1次迭代中的分类器。

优选的，步骤(5)中，在每一步的求解中，最优基分类器的权重α_m由下式给出：

l_m＝w_mI(y_i≠G_m(x_i))

其中，w_m是每次迭代伙伴集合样本所占权重的和，l_m是每次迭代过程中伙伴集合的加权误差，e_m是总体样本的加权误差。

优选的，步骤(6)，根据分类器对R从0递增到R_max的表现，找出效果最好的分类器和最好的R值，作为最终的数量。

与现有的技术相比，本发明的有益效果为：

1、集合了数据层面和算法层面在处理不平衡分类问题上的优势，同时拥有良好可抑制性和针对不同数据的权重参数特异性；

2、本方法不仅可以用在图像分类识别中，也可以用在其他需要进行分类的人工智能场景；

3、本发明不仅可以应用在图像分类，图像识别，也可以应用在自然语言处理等其他需要分类的场景，根据本发明能够有效解决不平衡分类问题，能够对金融、医疗、工业生产等方面提供巨大帮助。

附图说明

图1为实施例的一种不平衡数据集下基于多数类转化为少数类的分类方法流程示意图；

图2为实施例的模型框架图；

图3为实施例采用多数类转少数类方法前的效果图；

图4为实施例采用多数类转少数类方法后的效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不限定本发明。

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1、图2所示，一种不平衡数据集下基于多数类转化为少数类的分类方法，包括以下步骤：

(1)对整体训练数据进行预处理，根据已有的数据信息精炼出用于训练的样本特征；

对数据的预处理包括但不限于去重、降噪。数据的信息一般是以矩阵或者向量的形式给出；若是向量的形式，则将数个向量合并为矩阵，进行主成分分析，选取合适的特征分量组成新的特征向量；若是矩阵形式，则求出特征向量后，多个样本的特征向量合并，进行主成分分析，选取合适的分量形成新的样本数据。

作为一个实施例，当对图像进行分类训练的时候，先对图像进行放缩，使其长和宽相等，在本实施例中，将放缩图像的长宽都为600，然后对图像进行灰度处理获得灰度矩阵，求取特征向量，再将600个样本的向量合并为一个矩阵进行主成分分析，选举合适的分量，构造图像的表达向量。

(2)对每个少数类样在多数类中挑选出一定数量的样本作为伙伴，确定这个数量的取值范围；

对于少数类D_p和多数类D_n，为D_p中的每个样本，需要从D_n中挑选样本的数量R×|D_p|，其中|D_p|表示少数类集合的样本数量，R∈[0,R_max]，R_max下式所示：

表示向上取整，最终形成伙伴集合D_n2p，R_max是R的取值上限。

作为另一个实施列，可以采用：

其中，

表示向下取整。

(3)从多数类中挑选出合适的样本，形成新的样本集合；

对每个少数类样本需要从多数类D_n中挑选出对整体最合适的样本，挑选的目标函数如下：

其中，f(D_n2p)是关于D_n2p的函数；s_i少数类集合D_p中的样本，s_j是伙伴集合D_n2p中的样本；s_j是s_i的伙伴，每个s_i可能对应不止一个s_j，distacne(·)是距离函数；也就是说，对所有的少数类样本，要在多数类中找到一个集合D_n2p，它能够使得少数类样本与其在D_n2p中的伙伴之间的距离总和，在所有可能的D_n2p中最小。

本步骤中所述的距离函数括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离等用于计算距离的函数。

作为另一个实施例，可以采用：

distacne(s_i,s_j)＝|s_i-s_j|

即，两样本之间的距离等于其向量相减之后的模长。

(4)对新的样本集合中样本的标签进行更改；具体的，遍历每个D_n2p中的每个样本，将其样本标签由原来的多数类改为少数类(大类全部改为小类)，即从D_n2p中的样本的标签从大类全部改为小类，这一部分数据可以称为假少数类，这样一来，用于分类训练的多数类样本就变少了，少数类样本变多了，即减少了多数类样本的冗余，由增加了少数类样本的数量，并能够很好地清晰少数类样本的边界。

(5)采用损失函数，并利用前向加法模型对弱分类器进行提升训练；

一般地，对于不平衡分类问题采用前向加法模型有利于挖掘被误分类样本的有效信息。所述前向加法模型为：

其中，M是迭代总步数，一般由经验决定，G_m(x)是每一步中采用的基分类器，α_m是其权重；

采用的损失函数如下：

其中，λ是控制参数，y表示样本标签的集合，f(x)是最终分类器，x_i表示D_n2p中的样本，x_j表示除去D_n2p外的样本，y_i是样本的标签。L(y,f(x))是关于y和f(x)的损失函数。

(6)利用分类器进行相关预训练，训练过程中，将最终分类器分别求解，每一步都对目标函数求解最优基分类器和改基分类器的权重；

求得最优基分类器的方法如下，对损失函数进行变形可得每一步的损失函数为：

式子表示，在第m次迭代中，损失函数L_m与G_m、α_m的关系，其中：f_m-1是第m-1次迭代中的分类器，如下式：

则每一步的目变函数为：

其中，α是待定解，其中最优的解就是α_m。

由于α_m、G_m相对独立，所以可以先求G_m，在每一步求解中，最优基分类器G_m由下式给出：

其中

求得最优基分类器权重α_m的方法如下，目变函数对α_m进行求导可得：

其中：

l_m＝w_mI(y_i≠G_m(x_i))

w_m是每次迭代伙伴集合样本所占权重的和，l_m是每次迭代过程中伙伴集合的加权误差，e_m是总体样本的加权误差。

最终可求得α_m的表达式：

其中，λ是控制参数，调节损失函数中少数类样本的权重，w_m是每次迭代伙伴集合样本所占权重的和，l_m是每次迭代过程中伙伴集合的加权误差，e_m是总体样本的加权误差。

(7)利用分类器进行相关预训练，确定多数类转化为少数类的最终数量。针对每个用于训练的数据集，可以挑选其中20％用于预训练，根据分类器对R从0按步长1递增到R_max的表现，找出分类器效果最好的R值，作为最终的转化数量。图3、图4展示了实施例采用多数类转少数类方法前后结果对比结果。

作为另一个实施例，可以从样本中挑选其中50％用于预训练，根据分类器对R从0按步长5递增到R_max的表现，找出分类器效果最好的R值

(8)在确定少数类转为多数类的最终数量后，再对整体样本做一次与训练，寻找最优的损失函数控制参数λ。

作为另一个实施例，可以从训练样本中挑选其中30％用于预训练，根据分类器对λ从0按步长0.1递增到1.5的表现，找出在R值不变的情况下，分类器效果最好的λ值所在区间，再在这个区间内，采用更小的步长0.01来寻找更加合适的λ值。

(8)根据最终数量，确定损失函数中的假少数类的权重数类，利用已经确定的参数和训练好的模型来进行数据分类。

在确定所有的参数之后，最终只需把所得到的每一步中采用的基分类器G_m，权重α_m代入模型，再对新样本根据步骤(1)提取特征，即可在短时间内判别新样本的类别属性。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，包括以下步骤：

(1)对训练数据进行预处理，提炼出用于训练的样本特征；

2.如权利1所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，所述预处理包括但不限于去重、降噪；数据的信息以矩阵或者向量的形式给出；若是向量的形式，则将数个向量合并为矩阵，进行主成分分析，选取合适的特征分量组成新的特征向量；若是矩阵形式，则求出特征向量后，多个样本的特征向量合并，进行主成分分析，选取合适的分量形成新的样本数据。

3.如权利要求2所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(2)中，对于少数类样本D_p和多数类D_n，需要从D_n中挑选样本的数量为R×|D_p|，其中|D_p|表示少数类集合的样本数量，R∈[0,R_max]，R_max如下式所示：

4.如权利要求3所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(3)挑选的目标函数如下：

5.如权利要求4所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，所述距离函数distacne(·)包括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离函数。

6.如权利要求5所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，所述前向加法模型为：

7.如权利要求6所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，所述损失函数如下：

8.如权利要求7所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(5)中，在每一步求解中，最优基分类器G_m由下式给出：

9.如权利要求8所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(5)中，在每一步的求解中，最优基分类器的权重α_m由下式给出：

l_m＝w_mI(y_i≠G_m(x_i))

10.如权利要求9所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(6)，根据分类器对R从0递增到R_max的表现，找出效果最好的分类器和最好的R值，作为最终的数量。