CN106056130A

CN106056130A - 针对不平衡数据集的组合降采样线性判别分类方法

Info

Publication number: CN106056130A
Application number: CN201610331710.1A
Authority: CN
Inventors: 李喆; 吕卫; 褚晶辉
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2016-10-26

Abstract

本发明涉及一种针对不平衡数据集的组合降采样线性判别分类方法，包括以下步骤：得到原始数据的不平衡数据集的不平衡率IR；将全部的负样本进行不放回随机抽样，均匀生成IR个不相交的负样本子集，各子集中均包含约个负样本；对于每一个负样本子集，将其分别与全部正样本集组合，此时各子训练集中正负样本数目基本相同，得到IR个平衡的子训练集；分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA。本发明在获得更好的分类性能的同时保持了极高的分类器训练效率。

Description

针对不平衡数据集的组合降采样线性判别分类方法

技术领域

本发明涉及模式识别技术，具体涉及一种针对不平衡数据集的分类器。

背景技术

机器学习是研究如何使计算机通过经验累积来学习的技术。近年来，随着计算机及人工智能技术的迅速发展，机器学习已在多个领域得到广泛应用。分类是机器学习技术重要的研究领域与应用方向，诸如支持向量机、极限学习机、决策树等多种分类算法在人工智能技术的发展中均扮演了重要角色。然而，这些算法在设计时均假定正样本(样本数量较小的一类样本)和负样本(样本数量较多的一类样本)两类的样本空间大小接近。然而，在实际应用中，包括医学诊断、信用卡欺诈检测在内的大量的应用场合无法满足这一假设。在这些场景中，正负样本数量往往差距很大，若使用传统分类技术，为提高分类的整体准确率，判决边界会向正样本方向倾斜，导致部分正样本区域被误判为负样本区域，最终使得正样本的检出率受到严重影响。为解决这一问题，致力于将分类器进行级联、并行等操作以用于解决数据不平衡问题的集成学习技术得到了广泛关注。

专利“基于不平衡分类指标与集成学习的不平衡数据分类方法”(CN104951809A)将多个分类器进行级联，通过加大错分样本在下一分类器中权重的方式提高分类器准确率，从而减小数据不平衡带来的分类性能损失。然而，该方法并未改变数据分布，仅通过对不同样本的权值进行调整以提升分类性能，其效果较为有限。专利“组合降采样极限学习机”(CN104573708A)受到经典的组合降采样支持向量机方法启发，将负样本划分为多个子集分别与全体正样本组成子训练，最后通过子分类器投票方式给出分类结果。组合降采样极限学习机在获得与组合降采样支持向量机相近的分类准确率的同时，省去了大量参数调节时间，大幅提高了分类器的训练效率，具有良好的应用前景。然而，由于其省去参数调节过程，不设置训练停止准则直接通过广义逆得到分类结果，分类模型易陷入过拟合，故极限学习机分类器本身的分类性能不够理想，从而导致组合降采样学习机的整体性能仍有提升空间。

从上述分析可以看出，当前，集成学习方法虽然已经在不平衡数据分类方面得到应用并取得较好的效果，但其性能依然有待进一步提高。

发明内容

本发明的目的是克服现有方法的不足，对经典集成学习算法进行改进，提供一种针对不平衡数据集的组合降采样线性判别分类方法，在维持较高运算效率的同时取得更高的准确率。本发明的技术方案如下：

一种针对不平衡数据集的组合降采样线性判别分类方法，设原始数据集中正样本数目为n_p，负样本数目为n_n，该方法具体包括以下几个技术步骤：

(1)对原始数据集的n_n和n_p求四舍五入整数商，得到不平衡数据集的不平衡率IR；

(2)将全部的负样本进行不放回随机抽样，均匀生成IR个不相交的负样本子集，各子集中均包含约n_p个负样本；

(3)对于每一个负样本子集，将其分别与全部正样本集组合，此时各子训练集中正负样本数目基本相同，得到IR个平衡的子训练集；

(4)分别使用上述的子训练集训练得到IR个相互独立的线性判别分类器LDA；

(5)对新样本进行分类，方法如下：将待分类样本输入训练完成后的每一个LDA分类器中，每个LDA分类器对这一样本给出分类结果，通过预先设定决策阈值th来改变分类系统对正负类的关注程度，确定为该样本的最终分类结果。

本发明受组合降采样支持向量机和组合降采样极限学习机启发，继承组合降采样结构，使用线性判别分类器作为基分类器，在获得更好的分类性能的同时保持了极高的分类器训练效率。经实验比较，本发明在多个分类器评价指标上具有明显优势。

具体实施方式

下面结合实施例对本发明作进一步详细的说明：

(1)取得测试和训练数据：提取自数字乳腺X线图像数据库(Digital Databasefor Screening Mammography)的感兴趣区域共1950个。该数据集用于考察分类器对于肿瘤是否存在的分类准确度，数据集中正负样本(即有肿瘤与无肿瘤样本)数目不平衡，共有正样本401个，负样本1549个，即n_p＝401，n_n＝1549。根据下式计算不平衡率

IR＝round(n_n/n_p) (1)

其中，round为四舍五入取整函数，确保最终得到的不平衡率为以整数值，可知不平衡率IR＝4。对每个样本提取形态及纹理特征用于分类，包括是圆度、径向长度的平均值和标准差、灰度熵、灰度均值、灰度标准差、肿块面积、平均分形维数、分形维数标准差、光度惯性动力、各向异性、轮廓梯度熵、平滑度、偏度和峰度等共34维，进行归一化处理。

(2)将正负样本按十折交叉验证划分出训练集与测试集，用于对分类器进行训练与测试。每一折应由360个正样本和1495个负样本组成训练集，其余样本构成测试集。

(3)将训练集中的负样本平均分为容量基本相同的4部分，将此4部分分别与训练集中的全体正样本相结合，得到4个基本平衡的训练集。

(4)用上述得到的4个平衡训练集分别训练线性判别分类器，训练过程如下：

假设给定一组n个d维的样本{x₁,x₂,…x_n}，其中有n₁个样本属于类别χ₁，而剩余的n₂个样本属于类别χ₂。取各自的类内均值为LDA的目标即为确定最佳的直线方向w,使分类效果最好。两类中，各自可得到类内均值LDA算法的目标即为找到使(2)式结果最大(max(J(w)))的w:

J (w) = \frac{w^{T} S_{B} w}{w^{T} S_{W} w} - - - (2)

(2)式中，S_B＝(m₁-m₂)(m₁-m₂)^T为类间散布矩阵，用于表征两类样本之间的离散程度；

为总类内散布矩阵，表示两类样本内各样本点之间的离散程度的总和。当J(w)取得最大时，即可搜索到一个方向w并由此得到一个判决边界，使各样本点的投影在此方向上满足类间离散度最大的同时两类各自的类内方差之和最小，即取得最高的类内耦合度和最低的类间耦合度。

对于一个新输入的样本x，在对其进行分类时，首先计算判别函数y＝w^Tx，将其与判决边界进行比较，从而完成分类。

由于该种算法的目标是将高维模式样本投影以将所有样本分成两类，因此具有非常良好的降维效果，可大大提升分类效率。LDA更多依赖数据分布的均值信息，在两类均值具备投影可分的性质时可表现出良好的分类性能。

有关LDA的更详细内容，还可以参考下列两篇文献：

1)Welling M.Fisher linear discriminant analysis[J].Department ofComputer Science,University of Toronto,2005,3.

2)Scholkopft B,Mullert K R.Fisher discriminant analysis with kernels[J].Neural networks for signal processing IX,1999,1(1):1.

(5)将测试集中的样本输入组合降采样线性判别分类器中，每个子分类器均输出一个分类结果。对分类结果进行简单多数投票，若正类得票大于等于2，则将该样本分入正类，反之则分入负类。

表1给出了直接运用线性判别分类器对不平衡数据集进行分类、用组合降采样极限学习机进行分类及本发明所使用的方法进行分类分别得到的测试结果。本发明采用以下几个指标对分类器性能进行评价：

在实际应用中，执行效率也是衡量算法性能的非常重要的指标，执行效率越高的算法在实际应用中越有可能得到广泛应用。因此，也对各算法的执行效率进行比较与讨论，对于每种算法进行十折交叉验证并测试所需要的时间进行统计和比较。

表1分类算法结果与比较(同一指标下最好的结果用黑体标出)

由表1可以看出，组合降采样LDA在灵敏度和特异性两项指标上取得了最好的折中效果，同时顾及到了良性肿瘤和恶性肿瘤的检测准确率，且整体性能比简单LDA和组合降采样极限学习机均有提升。

在实际应用中，执行效率也是衡量算法性能的非常重要的指标，执行效率越高的算法在实际应用中越有可能得到广泛应用，此处也将对各算法的执行效率进行比较与讨论。耗时越长的算法执行效率越低，反之则执行效率越高。十折交叉验证的训练与分类总耗时如表2所示。

表2十折交叉验证执行时间

可以看出，组合降采样LDA的执行效率与简单LDA接近，且比组合降采样极限学习机效率更高。

综合表1和表2可以看出，本发明不仅在分类性能上比原先的集成学习算法有所提高，且可以保证较高的执行效率。

Claims

1.一种针对不平衡数据集的组合降采样线性判别分类方法，设原始数据集中正样本数目为n_p，负样本数目为n_n，该方法具体包括以下几个技术步骤：