CN109784496A

CN109784496A - 一种面向不平衡数据集的分类方法

Info

Publication number: CN109784496A
Application number: CN201811638488.5A
Authority: CN
Inventors: 张仲楠; 杨杰
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-05-21

Abstract

一种面向不平衡数据集的分类方法，涉及类别失衡。针对数据源中存在类别不平衡的问题，大部分方法对多数类样本进行下采样，造成大量有用信息的损失，提供基于集成学习与逻辑回归充分合理地使用多数类样本，从而进一步提升分类效果的一种面向不平衡数据集的分类方法。包括数据准备和模型训练。每个弱学习器使用完全不同的多数类样本进行学习，相比传统的欠采样方法能让多数类样本信息能够被充分的利用；每个弱学习器使用不同的多数类样本、特征集合、训练参数势必会提高它们的多样性，从而提升集成效果；利用逻辑回归自适应的结合各个弱学习器的输出，相比传统的简单平均输出更加合理且抗干扰。

Description

一种面向不平衡数据集的分类方法

技术领域

本发明涉及类别失衡，尤其是涉及一种面向不平衡数据集的分类方法。

背景技术

类别失衡是指分类任务中不同类别的训练样例数目差别很大的情况，现实中，大多数分类任务面向的数据集都是不平衡的。目前，针对二分类数据集中类别失衡问题主要有两类缓解方法：第一类是直接对训练集的多数类样例进行“欠采样”，即去除一些多数类样例使得类别数目接近^[1-4]，然后再进行学习；第二类是对训练集里的少数类样例进行“过采样”^[5-6]，即增加少数类样例使得类别数目接近，然后再进行学习。过采样方法很容易产生过度拟合，尤其在类别严重失衡时此问题更为严重。欠采样方法时间开销远小于过采样方法，虽然相比过采样方法更加常用，但是这种方法会使得大量潜在的信息被丢弃。尤其是在总体样本数量本就不多的情况下，忽略潜在信息会带来更严重的问题。

在机器学习领域，集成学习^[7-10]是一个强有力的工具，它将多个弱学习器组合成一个强学习器，这个强学习器的表现远远优于单个弱学习器。根据误差-分歧分解理论^[11]，弱学习器的准确性越高，多样性越大，则最终集成的效果越好。

参考文献：

[1]Ming W,Zhang Z,Niu S,et al.Deep-Learning-Based Drug–TargetInteraction Prediction[J].Journal of Proteome Research,2017,16(4):1401.

[2]Yu H,Chen J,Xu X,et al.A Systematic Prediction of Multiple Drug-Target Interactions from Chemical,Genomic,and Pharmacological Data[J].PlosOne,2012,7(5):e37608.

[3]Xie L,Zhang Z,He S,et al.Drug—target interaction prediction witha deep-learning-based model[C]//IEEE International Conference onBioinformatics and Biomedicine.IEEE Computer Society,2017:469-476.

[4]Zheng X,He S,Song X,et al.DTI-RCNN:New Efficient Hybrid NeuralNetwork Model to Predict Drug–Target Interactions[C]//InternationalConference on Artificial Neural Networks.Springer,Cham,2018:104-114.

[5]Xiao X,Min J L,Lin W Z,et al.iDrug-Target:predicting theinteractions between drug compounds and target proteins in cellularnetworking via benchmark dataset optimization approach[J].Journal ofBiomolecular Structure&Dynamics,2015,33(10):2221-2233.

[6]Blagus R,Lusa L.SMOTE for high-dimensional class-imbalanced data.[J].Bmc Bioinformatics,2013,14(1):1-16.

[7]Krawczyk B,Minku L L,Gama J,et al.Ensemble learning for datastream analysis:A survey[J].Information Fusion,2017,37(C):132-156.

[8]Oza N C.Online Ensemble Learning[C]//Seventeenth NationalConference on Artificial Intelligence&Twelfth Conference on on InnovativeApplications of Artificial Intelligence.2000.

[9]Dietterich T G.Ensemble Methods in Machine Learning[J].ProcInternational Workshgp on Multiple Classifier Systems,2000,1857(1):1-15.

[10]Kuncheva L I,Whitaker C J.Measures of Diversity in ClassifierEnsembles and Their Relationship with the Ensemble Accuracy[J].MachineLearning,2003,51(2):181-207.

[11]Zhou Z H.Ensemble Methods:Foundations and Algorithms[M].Taylor&Francis,2012.

[12]Wang S,Yao X.Theoretical Study of the Relationship betweenDiversity and Single-Class Measures for Class Imbalance Learning[C]//IEEEInternational Conference on Data Mining Workshops.IEEE,2009:76-81.

发明内容

本发明的目的在于针对数据源中存在类别不平衡的问题，大部分方法对多数类样本进行下采样，造成大量有用信息的损失，提供基于集成学习与逻辑回归充分合理地使用多数类样本，从而进一步提升分类效果的一种面向不平衡数据集的分类方法。

本发明包括以下步骤：

1)数据准备，具体方法如下：在数据准备阶段主要完成相关数据的准备；根据模型所使用的弱学习器数量准备相应数量的多数类样本子集，训练超参数组合和特征集合；对于每个弱学习器，先对多数类样本随机不放回采样，并将采得的多数类样本与完整少数类样本组合作为所述弱学习器的训练样本；再增大各个弱学习器间的多样性，为各个弱学习器准备不同的特征集合和不同的训练超参数；所述弱学习器包括决策树等；

2)模型训练，具体方法如下：使用数据准备阶段准备的多个多数类样本子集、超参数组合、特征集合分别训练每一个弱学习器；由于加入样本、特征、参数扰动，使得弱学习器间差异性较大，使用简单平均法结合所述弱学习器的输出则不能发挥最佳性能，因此采用一个逻辑回归(LR)模型，利用逻辑回归模型来自适应地结合多个弱学习器，具体做法是将弱学习器的输出值作为逻辑回归模型的训练输入，逻辑回归模型综合各个弱学习器的输出值修正给出最终的预测结果；可以将弱学习器的预测结果作为对样本抽取的高级特征，增加弱学习器的多样性是为了抽取不同方面的特征，在逻辑回归中使用所述高级特征使得学习更加全面；基于这样的方式训练得到的多个弱学习器和逻辑回归模型可以用于预测未知样本。

在样本集存在显著类间不平衡时，利用集成学习机制，将多数类划分为若干个不相交集合供不同的弱学习器使用，这样对每个弱学习器来看都就进行了下采样，但全局来看却不会丢失重要信息^[11]。此外，文献^[12]指出，提高集成学习中弱学习器的多样性对于缓解类别不平衡分类问题有重要作用。以上研究为本发明提供了设计指导思想，本发明使用多个二分类别不平衡数据集所做的实验证明了方法的可行性和可靠性。

本发明的技术效果在于：

1.每个弱学习器使用完全不同的多数类样本进行学习，相比传统的欠采样方法能让多数类样本信息能够被充分的利用；

2.每个弱学习器使用不同的多数类样本、特征集合、训练参数势必会提高它们的多样性，从而提升集成效果；

3.利用逻辑回归自适应的结合各个弱学习器的输出，相比传统的简单平均输出更加合理且抗干扰。

附图说明

图1为模型构建过程图。在图1中，包括数据准备和模型训练两个步骤。

图2为模型训练过程图。

图3为模型中一轮训练的过程图。

图4为弱学习器数量以及弱学习器结合策略对分类效果的影响图。在图4中，(a)为PC3数据集，(b)为A375数据集。

图5为模型迭代轮数对分类效果的影响图。

图6为对未知样本的分类预测结果的分布图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。不失一般性，在介绍具体实施方式时以负样本作为多数类样本，正样本作为少数类样本。

图1展示了本发明的构建流程。流程包括两步：数据准备与模型训练。在数据准备阶段，主要完成相关数据的准备。根据模型所使用的弱学习器数量准备相应数量的负样本集，超参数组合和特征集合。在模型训练阶段，主要完成模型中的多个弱学习器与逻辑回归分类器的训练。

本发明使用的数据变量及其参数分别如表1和2所示：

表1

表2

本发明实施例包括以下步骤：

1)数据准备：

为增加不同弱学习器的差异，在本发明中设计了一个超参数容器hprarm_set，它包含了多个超参数的不同取值的组合。在训练每个弱学习器时只需从中随机获取某一组合即可。通过这种方式，既丰富了模型的多样性，又可以避免超参数选取不合理。

算法1数据准备参见表3。

表3

算法1展示了为每一个弱学习器准备数据集，特征集合和超参数组合的过程。对完整负样本集进行不放回采样，从而为每一个弱学习器生成一个负样本集，如行3～4所示。行5～6则表示为每一个弱学习器随机选取特征集合以及超参数组合。算法1最终返回M个弱学习的hprarm_i,F_i,N_i{i＝1,2,3,...,M}用于模型的训练。

2)模型训练：

由前一步骤生成的hprarm_i,F_i,N_i结合P分别训练每一个弱学习器则会产生差异性较大的M个弱学习器{i＝1,2,3,...,M}。在本发明中采用LR结合这些弱学习器。

将所有弱学习器对某个原始样本的预测输出组合为一个新样本作为LR的训练输入特征，而原始样本的类别标记仍然作为该新样本的类别标记。然而，如直接使用弱学习器对其训练数据的预测输出去训练LR，则过拟合将会很严重。因此，在本发明中将训练数据划分为两部分，一部分用于训练弱学习器，另一部分输入弱学习器进行预测以产生LR的训练数据。

图2展示了模型的训练过程，通过k轮对弱学习器的训练与预测来获得LR的训练数据，再利用产生的训练数据对LR进行训练。图3展示了模型一轮训练的过程图，具体过程如下：首先随机生成一个取值范围在[1,M]的变量neg_test；然后将P和N_i各自划分成k份不重叠的数据，得到P₁,P₂,...,P_k,N_i,1,N_i,2,...,N_i,k{i＝1,2,3,...,M}。在每一轮训练的过程中，对于每一个弱学习器，使用对应的超参数和k-1份数据(经过特征选取)进行训练，并将剩下的那一份正样本和neg_test所决定的那一份负样本合并作为M个弱学习器的测试数据；最后组合这些测试结果得到LR的训练样本。如在Epoch e{e＝1,2,3,...,k},使用正样本P中的{P₁,...,P_e-1,P_e+1,...,P_k}和负样本N_i对应的{N_i,1,...,N_i,e-1,N_i,e+1,...,N_i,k}组成弱学习器的训练数据，经过特征提取后训练弱学习器i{i＝1,2,3,...,M}。使用P_e和N_{neg_test,e}组成测试数据，经过特征提取后输入弱学习器i进行预测，横向拼接这M个弱学习器的预测结果为一个((1+λ)*|P|/k)行M列的矩阵。经过k轮对弱学习器的训练与预测后，将每一轮得到的预测结果进行纵向拼接，会得到完整的LR训练数据(一个((1+λ)*|P|)行M列的矩阵)，最后用这个生成的训练集训练得到模型的LR。

3)新样本预测：

对未知样本X的预测过程如下：通过F₁对X选择特征集合，再分别输入到Epoch 1,Epoch 2,Epoch3,…,Epoch k过程得到的弱学习器1中预测得到结果Z_1,1,Z_1,2,Z_1,3,...,Z_1,k。将这k个值取均值得到Z₁；通过F₂选择特征子集，再分别输入到Epoch 1,Epoch 2,Epoch3,…,Epoch k过程得到的弱学习器2中预测得到结果Z_2,1,Z_2,2,Z_2,3,...,Z_2,k。将这k个值取均值得到Z₂。以此类推，可以得到Z₃,Z₄,...,Z_M。最后拼接Z₁,Z₂,Z₃,...,Z_M得到M维向量Z，把Z输入LR得到最终结果。

为了说明本发明的有效性，使用本发明方法在多个不平衡的二分类数据集进行了实验。

如图4所示，比较了LR结合与简单平均法结合对分类效果的影响。可以看出，本发明使用的LR结合策略优于简单平均法，这是因为LR能有效综合各个弱学习器的输出从而给出最终结果。

此外，从图4可以看出弱学习器的数量M对分类效果的影响。当M很小时，分类效果较差。当M逐渐增大时，分类效果迅速提升，这是因为集成规模越大，学习效果越好。当M继续增大时，分类效果不再明显变化而是小范围波动，这表明方法效果已达到饱和状态。

图5表明了模型迭代轮数k对分类效果的影响。k＝1表示直接用弱学习器对其训练数据的预测输出来训练LR，可以看出此时分类效果最差，这是因为此时过度拟合较为严重。随着k增大，分类效果逐渐提升直至最终趋于饱和，这表明将训练数据划分为多份，避免用弱学习器的训练数据来生成LR的训练数据能让分类效果得到提升，这是因为过度拟合得到缓解。

如图6所示为使用本发明方法对未知样本的预测结果的分布，本发明方法对绝大多数正样本均有很高的预测分数，对几乎所有的负样本都有较低的预测分数(数值表示样本是正样本的置信度。因此，越多正样本位于上方，越多负样本位于下方，则方法分类效果越好。通常以0.5作为阈值)。

Claims

1.一种面向不平衡数据集的分类方法，其特征在于包括以下步骤：

1)数据准备，具体方法如下：在数据准备阶段主要完成相关数据的准备；根据模型所使用的弱学习器数量准备相应数量的多数类样本子集，训练超参数组合和特征集合；对于每个弱学习器，先对多数类样本随机不放回采样，并将采得的多数类样本与完整少数类样本组合作为所述弱学习器的训练样本；再增大各个弱学习器间的多样性，为各个弱学习器准备不同的特征集合和不同的训练超参数；所述弱学习器包括决策树；

2)模型训练，具体方法如下：使用数据准备阶段准备的多个多数类样本子集、超参数组合、特征集合分别训练每一个弱学习器；由于加入样本、特征、参数扰动，使得弱学习器间差异性较大，使用简单平均法结合所述弱学习器的输出则不能发挥最佳性能，因此采用一个逻辑回归模型，利用逻辑回归模型来自适应地结合多个弱学习器，具体做法是将弱学习器的输出值作为逻辑回归模型的训练输入，逻辑回归模型综合各个弱学习器的输出值修正给出最终的预测结果；将弱学习器的预测结果作为对样本抽取的高级特征，增加弱学习器的多样性是为了抽取不同方面的特征，在逻辑回归中使用所述高级特征使得学习更加全面；基于这样的方式训练得到的多个弱学习器和逻辑回归模型用于预测未知样本。