CN109800810A

CN109800810A - 一种基于不平衡数据的少样本学习分类器构建方法

Info

Publication number: CN109800810A
Application number: CN201910059629.6A
Authority: CN
Inventors: 赵林畅; 尚赵伟; 赵灵; 龙祎萌; 任柏行
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-01-22
Filing date: 2019-01-22
Publication date: 2019-05-24

Abstract

本发明涉及一种基于不平衡数据的少样本学习分类器构建方法，属于计算机数据分类技术领域。该方法：首先，根据孪生神经网络的一次学习和少样本学习特性设计了孪生平行全连接网络用于输入样本对的特征学习；然后，利用成本敏感优化器来处理输入样本对的不平衡问题，同时根据不同的误分类代价设计期望误分类成本函数，并将其融入网络参数优化算法中用于调节类不平衡分类权重。本发明能够在不平衡的、高维的和有限的目标数据集下，取得更好的分类结果，分类性能更加稳定。

Description

一种基于不平衡数据的少样本学习分类器构建方法

技术领域

本发明属于计算机数据分类技术领域，涉及一种基于不平衡数据的少样本学习分类器构建方法。

背景技术

数据分类是数据挖掘重点研究内容之一，它通过有价值的可用数据来对未知数据进行归纳分类，旨在探究变量和类之间的隐藏关系。目前基于数据驱动的机器学习分类算法大多都假设目标数据的每类样本比例相同，但在实际的二分类任务中，目标数据往往是不平衡的、高维的和有限的，在这种情况下，常规的机器学习分类算法很难获得良好的分类结果。

针对类不平衡数据，Piri等人在文章“S.Piri,D.Delen,T.Liu,A syntheticinformative minority over-sampling(simo)algorithm leveraging support vectormachine toenhance learning from imbalanced datasets,Decision Support Systems106(2018)15–29”中提出通过综合少样本信息提出了上采样算法，Sun等人在文章“B.Sun,H.Chen,J.Wang,H.Xie,Evolutionary under-sampling based bagging ensemble methodfor imbalanced data classification,Frontiers of Computer Science 12(2)(2018)331–350”中基于Bag集成技术提出了数据下采样算法，虽然这些基于数据级的重采样方法解决了类不平衡问题，但其效果取决于采样的数据在多大程度上代表真实的分布数据；Tavares等人在文章“T.R.Tavares,A.L.I.Oliveira,G.G.Cabral,S.S.Mattos,R.Grigorio,Preprocessing unbalanced data using weighted support vectormachines for prediction of heart disease in children,in:International JointConference on Neural Networks,2014,pp.1-8”中提出在模型训练机制中引入不同的权重，使训练的分类器更加关注少样本数据的学习，但该方法的成功取决于模型训练过程中的微调和参数设置；Zheng在文章“J.Zheng,Cost-sensitive boosting neural networksfor software defect prediction,Expert Systems with Applications 37(6)(2010)4537–4543”中建议通过代价敏感学习技术来处理类不平衡问题，认为错误分类的少数类样本的代价远远高于错误分类的多数类样本的代价。

针对高维数据，Jolliffe等人在文章“I.T.Jolliffe,Principal componentanalysis,Journal of Marketing Research 87(100)(2002)513”中提出线性映射的主成分分析(PCA)的降维方法，它通过线性投影将高维数据映射到低维空间进行表示，以此减少数据维度同时保留较多的原数据特征。但PCA将目标数据作为一个整体对待，忽略了类别属性，容易丢弃重要的分类信息。Thakur等人在文章“S.Thakur,J.K.Sing,D.K.Basu,M.Nasipuri,Face recognition using fisher linear discriminant analysis andsupport vector machine,in:Interna-tional Conference,2009,pp.19–26”中提出使用线性鉴别分析(LDA)将高维的数据投影到最佳鉴别矢量空间，以达到抽取分类信息和压缩特征维数的目的。但LDA是特定类投影方法，局限性大，受样本种类限制。Wang等人在文章“J.Wang,Locally linear embedding,Geometric Structure of High-Dimensional Dataand Dimensionality Reduction 12(01)(2012)203–220”中提出非线性映射的局部线性嵌入(LLE)算法，它能够使降维的数据较好地保持原有数据的局部特征和流形结构，但算法复杂度高，对局部近邻数据的选择较为敏感。

针对有限的数据，Fei等人在文章“F.-F.L,F.R,P.P,One-shot learning ofobject categories,IEEE Transactions on Pattern Analysis and MachineIntelligence 28(4)(2006)594–611”中类比人的概念学习提出了基于少样本的一次学习算法；Koch等人在文章“G.Koch,Siamese Neural Networks for One-shot ImageRecognition,University of Toronto,2015”中针对仅有的几个样本设计了用于少样本学习的孪生卷积神经网络；Wang等人在文章“Q.Wang,J.Gao,Y.Yuan,Embedding structuredcontour and location prior in siamesed fully convolutional networks for roaddetection,IEEE Transactions on Intelligent Transportation Systems 19(1)(2017)230–241”中根据少量可用数据设计了孪生全连接网络用于道路检测，Shih等人在文章“C.H.Shih,B.C.Yan,S.H.Liu,B.Chen,Investigating siamese lstm networks for textcategorization,in:Asia-Pacific Signal and Information Processing AssociationSummit and Conference,2018,pp.641–646”中设计了孪生LSTM网络对有限文本进行分类。然而分类自然伴随着成本，因此一个有效的数据分类器需在分类算法中考虑错误分类成本。2017年，Huang等人在文章“K.H.Huang,H.T.Lin,Cost-sensitive label embeddingfor multi-label classification,Machine Learning 106(9-10)(2017)1725–1746”中提出了利用成本敏感学习技术来处理数据分类过程中类不平衡与误分类代价问题，但是传统的机器学习分类算法却较少考虑数据误分类代价不均衡等问题。

基于上述文献分析，现有技术主要存在如下几个问题：1)在高维不平衡的少样本数据集上的分类效果不佳；2)算法复杂性高，性能依赖于数据数量和质量；3)较少考虑数据分类过程中的误分类代价问题，且不存在有效的二分类器能同时处理不平衡的、高维的和有限的目标分类数据。

发明内容

有鉴于此，本发明的目的在于提供一种基于不平衡数据的少样本学习分类器构建方法，用于解决不平衡的、高维的和有限的目标数据无法统一进行二分类处理的问题，使得在不平衡的、高维的和有限的目标数据集下，取得更好的分类结果。

为达到上述目的，本发明提供如下技术方案：

一种基于不平衡数据的少样本学习分类器构建方法：首先，根据孪生神经网络的一次学习和少样本学习特性设计了孪生平行全连接网络用于输入样本对的特征学习。然后，从算法级出发利用成本敏感学习技术来处理输入样本对的不平衡问题，同时根据不同的误分类代价设计期望误分类成本函数，并将其融入网络参数优化算法中用于调节类不平衡分类权重。该方法具体包括以下步骤：

S1：构建基于孪生平行网络(Siamese Parallel networks)的深度学习网络(Siamese parallel fully-connected neural networks,SPFCNN)，即孪生平行全连接网络；

S2：输入样本数据；

S3：利用一对孪生平行全连接网络从高维属性的数据中提取深度表征用于SPFCNN分类器训练和学习，并在AdamW函数基础上融入期望误分类成本函数用于类不平衡学习，使其对不同的误分类代价进行成本敏感学习。

进一步，步骤S3中，所述AdamW函数用来优化SPFCNN分类器参数，在其权值衰减基础上融入期望误分类成本函数(NECM)，并根据期望误分类成本函数的变化来调节类不平衡权重参数，使得基于AdamW优化的孪生平行全连接网络获得最优权重设置，进而消除数据类不平衡对本发明分类器性能的影响。

进一步，步骤S3中，所述期望误分类成本函数具体包括：

在不平衡数据的二分类过程中通常会遇到两种误分类错误，一种是将感兴趣的少数类误分为多数类，另一种是将多数类误分为少数类，这两种误分类定义如下：

其中，FP表示分类为正样本，实际为负样本；TN表示分类为负样本，实际为负样本；TP表示分类为正样本，实际为正样本；FN表示分类为负样本，实际为正样本；由于第一类误分类成本和第二类误分类成本不同，因此使用期望误分类成本函数来统一处理不同的误分类代价，其函数定义如下：

其中，C_FN/C_FP为成本比例，C_FN为FN的成本，C_FP是FP的成本；ρ_nf和ρ_f分别表示多数类与少数类的先验百分比。

进一步，步骤S3中，融入所述期望误分类成本函数的权值衰减方程定义如下：

其中，θ_t为权值衰减函数，w_t为权重初始化参数；则融入期望误分类成本函数(NECM)的优化器AdamW定义如下：

p_t＝β₁*p_t-1+(1-β₁)v_t

q_t＝β₂*q_t-1+(1-β₂)v_t ²

其中，p_t为偏值的一级阶矩，q_t为偏值的二级阶矩，v_t表示迭代优化梯度，β₁和β₂分别表示权重的衰减系数；i_t和j_t分别表示偏值修正后的值；u和α分别表示优化器调节系数；

该优化器解耦了学习速率和权重衰减间的关系，允许用户根据实际的分类任务设置优化器的学习率和权重衰减率。因此，本发明可以在不同的误分类成本比例下调节各分类数据的权重参数，使得基于AdamW优化器的各分类数据获得最优参数设置，实现SPFCNN分类器的代价敏感学习。

本发明的有益效果在于：本发明所述方法与现有技术相比，能够在不平衡的、高维的和有限的目标数据集下，取得更好的分类结果，优于现有技术；而且实证研究的结果还表明，本发明所提出的方法在各种不平衡率下的分类性能更加稳定。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1为本发明所述方法流程框架图；

图2为本发明所述的SPFCNN网络结构图；

图3为实施例中采用的所有方法在基准数据集上关于AUC和PF的箱形图。

具体实施方式

下面将结合附图，对本发明的优选实施例进行详细的描述。

如图1所示，本发明所述的一种基于不平衡数据的少样本学习分类器构建方法：首先，根据孪生神经网络的一次学习和少样本学习特性设计了孪生平行全连接网络用于输入样本对的特征学习。然后，从算法级出发利用成本敏感学习技术来处理输入样本对的不平衡问题，同时根据不同的误分类代价设计期望误分类成本函数，并将其融入网络参数优化算法中用于调节类不平衡分类权重。该方法具体包括以下步骤：

S1：构建基于孪生平行网络的深度学习网络SPFCNN，即孪生平行全连接网络。

数据分类目的是学习变量与类之间的关系，根据有标签的可用数据来训练一个分类器，并利用该分类器去识别和预测未知数据，对未知数据进行分类，此为一个有监督的学习过程。而开发一个好的分类器通常需要大量已标注的类平衡数据，但在实际的数据分类过程中，目标数据往往是不平衡的、有限的和高维的，为了在这种条件下建构一个有效的分类器，本发明利用代价敏感学习技术来处理类不平衡，用孪生平行全连接网络(SPFCNN)作为二分类器，网络结构图见图2。SPFCNN由两个完全相同的孪生平行全连接网络组成，每个孪生全连接网络分别处理各自的数据对，网络参数由含有期望误分类成本函数(NECM)的AdamW优化算法进行优化。

如图2所示，Dense-C₁和Dense-C₂是一对相同的孪生平行全连接网络，它们具有相同的结构和参数设置，唯一不同的是Dense-C₂孪生全连接网络要比Dense-C₁孪生全连接网络深度更深，前者有8个隐藏层，后者是2个隐藏层，这种“深与浅”的结合能更好的适应不同维度和不同情形的数据分类。其中，(1)y_d(x)表示深孪生全连接网络学得的特征，y_s(x)表示浅孪生全连接网络学得的特征，并通过非线性函数∑f(x)将y_d(x)和y_s(x)组合起来作为网络最终学得的特征。(2)通过对比损失函数d(x)对学得的向量特征进行比较学习并最终输出概率值S，同时通过含有期望误分类成本函数的AdamW优化器来对SPFCNN分类器进行参数优化和迭代训练使其具有代价敏感学习能力。(3)效果评估，用了五个评价指标(PF、AUC、ACC、MCC、MDM)对本发明的二分类器性能进行了全面评估。

S2：输入样本数据；

S3：利用一对孪生平行全连接网络从高维属性的数据中提取深度表征用于SPFCNN二分类器训练和学习，并在AdamW函数基础上融入期望误分类成本函数用于类不平衡学习，使其对不同的误分类代价进行成本敏感学习。

所述AdamW函数用来优化SPFCNN二分类器参数，在其权值衰减基础上融入期望误分类成本函数(NECM)，并根据期望误分类成本函数的变化来调节类不平衡权重参数，使得基于AdamW优化的孪生平行全连接网络获得最优权重设置，进而消除数据类不平衡对本发明分类器性能的影响。

所述期望误分类成本函数具体包括：

在不平衡数据的二分类过程中通常会遇到两种误分类错误，一种是将感兴趣的少数类误分为多数类，另一种是将多数类误分为少数类，而通常第二种误分类的代价远高于第一种误分类代价。如在不平衡的癌症数据集中，健康者数量远高于患癌症者人数，分类过程中若将癌症患者归类为健康人比将健康人归类为癌症者的代价大得多，因为前者的错误可能导致生命的损失。这两种误分类定义如下：

融入所述期望误分类成本函数的权值衰减方程定义如下：

p_t＝β₁*p_t-1+(1-β₁)v_t

q_t＝β₂*q_t-1+(1-β₂)v_t ²

实施例：

1)实验数据：

KEEL和NASA是开源的机器学习数据仓库，实验从这两个机器学习仓库中随机抽取了14个数据集进行分析，它们分别是CM1,Appendicitis(Appe),Bupa,KC1,Ionosphere(Iono),Mammographic(Mamm),MW1,Phoneme(Phon),PC1,Ring,Sonar,Twonorm(Twon),Spambase(Spam)和Wisconsin(Wisc)。它们具有不同的特征维度，最小特征属性是5，最大特征属性是60；它们的类不平衡比也不相同，最小的类不平衡比是2，最大的类不平衡比是16。并且每个数据集的实例个数有限，最小的实例个数为106，最大的实例为7400个。所以，传统的机器学习分类算法很难从以上的数据集中训练出有效的数据分类模型。

2)对比方法：

实验的基准对比方法是近三年来分类性能最好的方法，分别为2016年基于成本敏感学习提出的BEE-miner和MEPAR-miner方法、2017年基于数据驱动的RIPPER-miner方法以及2018年基于局部数据挖掘的PART-miner分类方法。它们与本发明所述的SPFCNN-miner方法在五个评价指标(PF、AUC、ACC、MCC、MDM)上进行对比实验。

3)评价指标：

PF(Probability of False alarm)分类误报率，测量多数类被误分类所占总的多数类之比。

AUC(Area Under ROC Curve)是一种广泛应用于非平衡数据集的性能指标，它代表的是ROC曲线下的面积，返回的是一个数值结果，其值在0到1之间。它描述的是PD和PF之间的一种权衡，其值越大，代表分类器的性能越好。

ACC(Accuracy)代表正确分类的样本与所有样本的比值，是对分类器整体上的正确率评价，其值越高，分类器越好。

MCC(Matthews Correlation Coefficient)是衡量类不平衡分类质量最常用的一个综合指标，它考虑了所有正负分类情形，其返回值在-1到1之间，其值越大，分类质量越好。

MDM(Minimum Deviation Method)代表的是最小偏差用于衡量分类准确性与误分类之间的关系，对PF、AUC、ACC和NECM这四个值进行综合考量，旨在寻找最佳解决方案，最大限度地减轻人为的和客观的分析偏差，其值越小代表分类器性能越好。

4)实验：

首先，根据不同的平衡率验证本发明所述方法SPFCNN-miner在少样本数据上的性能，主要考察PF和AUC两个指标，与四个对比方法在14个数据集上的对比实验结果如表1和图3。

表1所有方法在实验数据集上的平均AUC和PF

从表1可知，本发明方法在14个数据集的获得了最大AUC均值和最小PF均值，图3的箱形图也验证了本发明方法的最优性，它在AUC和PF方面均具有最优的中位数，进一步证明了本发明方法在各种类不平衡下的分类性能更加稳定。

其次，根据最小化期望误分类成本函数(NECM)值来对比研究所发明的方法SPFCNN-mine与四个基准方法在14个数据集上关于ACC和MCC的性能指标，实验结果如表2所示。

表2所有方法在实验数据集上的ACC、MCC和NECM

从表2数据可以得出，本发明所述方法的ACC和MCC均值最大，而NECM均值最小，再次证明了本发明方法相对于基准方法能够在更低的误分类成本代价下获得更好的分类结果。

最后，利用最小偏差法(MDM)来衡量分类准确性与误分类之间的关系，综合考量了PF、ACC、MCC和NECM四个指标，最大限度地减轻人为和客观分析带来的偏差，分析结果如表3所示。

表3所有方法在实验数据集上的MDM及其排名

从表3可知，SPFCNN-miner的MDM值在十一个数据集上的排名均是第一，仅在Appe,Bupa和Phon三个数据集的排名是第二，并且在14个数据集上的总体平均排名也是第一，需注意是的MDM值越小则排名越靠前，同时也表明对应方法在相关数据集的分类性能越好。因此，本发明所述方法相较于对比的基准方法在11个数据集上均获得了最好的分类性能，并且总体的分类性能也最优。

最后说明的是，以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种基于不平衡数据的少样本学习分类器构建方法，其特征在于，该方法具体包括以下步骤：

S1：构建基于孪生平行网络(Siamese Parallel networks)的深度学习网络(Siameseparallel fully-connected neural networks,SPFCNN)，即孪生平行全连接网络；

S2：输入样本数据；

2.根据权利要求1所述的基于不平衡数据的少样本学习分类器构建方法，其特征在于，步骤S3中，所述AdamW函数用来优化SPFCNN分类器参数，在其权值衰减基础上融入期望误分类成本函数，并根据期望误分类成本函数的变化来调节类不平衡权重参数，使得基于AdamW优化的孪生平行全连接网络获得最优权重设置，进而消除数据类不平衡对本发明分类器性能的影响。

3.根据权利要求1所述的基于不平衡数据的少样本学习分类器构建方法，其特征在于，步骤S3中，所述期望误分类成本函数具体包括：

4.根据权利要求3所述的基于不平衡数据的少样本学习分类器构建方法，其特征在于，步骤S3中，融入所述期望误分类成本函数的权值衰减方程定义如下：

其中，θ_t为权值衰减函数，w_t为权重初始化参数；则融入期望误分类成本函数的优化器AdamW定义如下：

p_t＝β₁*p_t-1+(1-β₁)v_t

q_t＝β₂*q_t-1+(1-β₂)v_t ²

在不同的误分类成本比例下调节各分类数据的权重参数，使得基于AdamW优化器的各分类数据获得最优参数设置，实现SPFCNN分类器的代价敏感学习。