CN105975993A

CN105975993A - 一种基于边界升采样的不平衡数据分类方法

Info

Publication number: CN105975993A
Application number: CN201610332471.1A
Authority: CN
Inventors: 李喆; 吕卫; 褚晶辉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-09-28

Abstract

本发明涉及一种基于边界升采样的不平衡数据分类方法，包括：对于不平衡数据集中的每个正样本以欧氏距离作为距离度量，取不平衡数据集中距其最近的K个样本点，比对各个样本的类别标签，给出这K个样本点中负样本的数目，记为k_i，若k_i≥K/2，则可判定该正样本点位于正负样本的真实判决边界附近，反之则该正样本点远离边界；对选中的正样本，在其K个最近邻正样本中随机选取一个，在二者之间生成一个新的正样本点，此过程迭代执行多次，直至正负样本数目相同，以此构建平衡数据集；运用Bagging算法对生成的平衡数据集进行训练，得到最终的分类模型。本发明可以在不平衡数据集上获得更好的分类效果。

Description

一种基于边界升采样的不平衡数据分类方法

技术领域

本发明涉及模式识别技术，具体涉及一种针对不平衡数据集的分类器。

背景技术

随着社会的发展与科学技术的进步，以机器学习及模式识别技术为基础的计算机自动分类人们的日常生活中正在扮演愈发重要的角色。在此情况下，建立合适的数据分类模型和设定可信的性能评价标准成为目前的一大研究热点。

然而，诸如支持向量机、决策树及极限学习机等当前主流的分类器在设计时均以整体错分率作为训练数据模型的主要指标，而这一方法有效的前提建立在训练分类器所用的样本中各类数据基本平衡(即各类数目大致相等)。但在实际问题中，这一假设往往难以满足。例如，在信用卡欺诈检测中，具有欺诈行为的交易明显少于正常交易，若以降低总体分类错误率作为学习目标，则易导致具有欺诈行为的交易被误判定为正常交易。但是，考虑到欺诈行为对银行造成的巨大代价，欺诈行为的分类准确度才是实际应用中更受关注的部分，将欺诈行为误判为正常交易所付出的代价会远高于将正常交易误判为欺诈交易。在此情况下，针对不平衡数据集的研究得到了越来越多的关注。根据现有成果，不平衡分类主要可以在数据层面和算法层面进行操作。

数据层面的操作主要通过对数据进行重采样来改变数据分布，在构建分类器时使正样本(少数类样本)数量增加和负样本(多数类样本)数量减少，最终使正负样本的数目基本相同，以此实现数据平衡。专利“基于有监督上采样学习的蛋白质-核苷酸绑定位点预测方法”(CN104077499A)通过增加正样本的数量构建平衡数据集，最终用平衡数据集训练支持向量机用于分类。然而，在该发明中，正样本经简单复制后相当于被多次用于训练，这一问题易导致过拟合现象，从而影响最终的分类性能。专利“基于欠抽样面向不平衡数据集的交通事件自动检测方法”(CN103927874A)采用随机降采样方法，负集中的一部分样本(通常接近全体正样本的数量)被抽取并与全体正样本组成训练集对支持向量机进行训练。但该发明无法保证抽取出的负样本对原负集的代表性，因此分类性能也不够理想。

算法层面的操作则在分类器训练的过程中引入代价敏感计算或投票算法，通过不同改变分类器或样本的权重来解决数据不平衡问题。根据错误率来调节权值以降低分类错误率的Boosting算法和通过重复均匀采样以降低模型错误方差的Bagging算法均为常用的算法级方法。然而，单独的算法级方法无法对数据进行处理，其性能因此受到限制。

发明内容

本发明的目的是，提供一种基于升采样的集成学习方法，并对其中用于改变数据分布的升采样部分进行优化，以在不平衡数据集上获得更好的分类效果。

一种基于边界升采样的不平衡数据分类方法，设不平衡数据集中正样本数目为n_p，负样本数目为n_n，该方法包括以下几个技术步骤：

(1)对于不平衡数据集中的每个正样本x_i,以欧氏距离作为距离度量，取不平衡数据集中距其最近的K个样本点，比对各个样本的类别标签，给出这K个样本点中负样本的数目，记为k_i，若k_i≥K/2，则可判定该正样本点位于正负样本的真实判决边界附近，反之则该正样本点远离边界，对于所有位于边界附近的正样本点，作下述步骤处理，其余样本不作处理；

(2)对于所有在步骤(1)中选中的正样本，在其K个最近邻正样本中随机选取一个，在二者之间生成一个新的正样本点，此过程迭代执行多次，直至正负样本数目相同，以此构建平衡数据集。

(3)设有放回取样次数为T，每次取样的样本个数为n’，运用Bagging算法对生成的平衡数据集进行训练，得到最终的分类模型。

本发明针对不平衡数据集提出一种集成学习方法，将边界升采样同Bagging算法相结合，减小了噪声点与过拟合对分类结果造成的影响的同时减小了分类错误方差。经实验比较，本发明在多个分类器评价指标上具有明显优势。

附图说明

图1是Bagging算法的流程图。

图2是本发明的流程图。

具体实施方式

本发明受边界升采样算法和图1所示的Bagging算法启发，将二者进行组合，形成一个集成分类器。下面结合附图对本发明作进一步详细的说明。

(1)取得测试和训练数据：本发明选择KEEL数据库中的酵母菌数据库，主要表征酵母菌内蛋白质所处位置。正类表示蛋白质位于即将裂解细胞膜上，负类表示蛋白质位于胞浆或细胞骨架中。数据集共包含514个样本，其中正样本共51个，负样本共463个，即n_p＝51，n_n＝463。数据库中共包含8维特征，从细胞液ph值、细胞膜形态等多个方面对酵母菌进行描述。训练与测试过程均选择C4.5决策树作为基分类器。其中，设置每个属性中至少包含两个样本，置信度为0.25，决策树训练完成后进行后剪枝处理。所有数据在进入分类器前均进行归一化处理，将所有特征取值投影到0至1之间。正样本数据标签为+1，负样本数据标签为-1。

(2)在数据边界升采样部分，设最近邻取值个数K＝5，对正样本执行边界升采样处理。设新生成的样本点为new_i，初始正样本为x_i，被选中的最近邻正样本为x_ni，λ为一取值介于0至1之间的随机数，则新生成的正样本数据可按如下公式进行计算：

new_i＝x_i+λ(x_ni-x_i) (1)

经多轮迭代后使正负样本数目均为463，达到平衡。

(3)本发明采取五折交叉验证对完成边界升采样的平衡数据集进行训练与测试，可知在每一轮交叉验证中，训练集中应包含正负样本各360个，而其余样本均作为测试集。训练与测试均选择C4.5决策树作为基分类器的Bagging分类算法。其中，设C4.5决策树的最小叶节点数为2，置信度为0.25，树训练完成后需进行剪枝处理。所有数据在进入分类器前均完成归一化处理，即数据最小值为0，最大值为1。正样本数据标签为+1，负样本数据标签为-1。

(3)本发明中，取Bagging算法中每轮随机取样个数为训练集的一半，即360个，有放回取样过程共进行T＝9次。每折验证均用上述训练集训练得到9个独立的C4.5子分类器，测试集中样本经测试输出分类结果后进行简单多数投票，若有至少5个子分类器判定该样本属于正类，则该样本最终分类结果为正类，反之则分入负类。

表1比较了直接运用C4.5决策树对酵母菌数据集进行分类、对正样本作随机升采样得到平衡数据集后用C4.5决策树进行分类及本发明所使用的方法(边界升采样Bagging)进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价：

表1分类算法结果与比较(同一指标下最好的结果用黑体标出)

由表1数据可以看出，不作任何处理直接分类虽然可以得到最高的整体准确率和特异性，但灵敏度性能最差。此时，不平衡的数据集导致判决边界向正样本倾斜，导致大量正样本被误分为负样本，引起分类器整体性能下降。而只使用随机升采样的方法与本发明均获得了更好的不平衡分类性能，且相比于只改变数据分布，本发明采用的集成学习方法对灵敏度和特异性的折中效果更好，在正负样本上均可获得更理想的分类性能。

综上所述，本发明在不平衡分类问题上得到了良好的分类性能。

Claims

1.一种基于边界升采样的不平衡数据分类方法，设不平衡数据集中正样本数目为n_p，负样本数目为n_n，该方法包括以下几个技术步骤：