CN114841241A

CN114841241A - 一种基于聚类和距离加权的不平衡数据分类方法

Info

Publication number: CN114841241A
Application number: CN202210346871.3A
Authority: CN
Inventors: 张奕; 蔡钢生
Original assignee: Guilin University of Technology
Current assignee: Guilin University of Technology
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-08-02

Abstract

本发明公开了一种基于聚类和距离加权的不平衡数据分类方法，主要解决现有技术在少数类类内分布不连续的不平衡数据上分类精度低的问题。其实现步骤为：(1)采集不平衡数据集并分为多数类、少数类样本集；(2)对多数类、少数类样本集进行非重叠划分；(3)基于类簇间距离计算样本权重；(4)多数类边界样本降权；(5)使用样本及其权重训练加权支持向量机分类器；(6)对待测样本进行分类。本发明能有效描述两类样本在特征空间中的相对分布关系，并在此基础上根据样本的相对重要性赋予样本权重，有利于构建正确的分类边界并提高少数类分类精度，可用于分布情况复杂的不平衡数据的分类。

Description

一种基于聚类和距离加权的不平衡数据分类方法

技术领域

本发明属于数据挖掘和机器学习领域，具体涉及一种基于聚类和距离加权的不平衡数据分类方法。

背景技术

传统分类算法中，通常假定数据集中类分布均衡或类误分代价相同。如果数据集中某一类样本的数量远少于其他类样本的数量，则将此类数据集称为不平衡数据集，其中样本数量较多的类称为多数类(负类)，样本数量较少的类称为少数类(正类)。对于不平衡数据集，致力于学习数据一般化规律的传统分类算法由于难以发现或归纳少数类的分类规则而轻视甚至忽视少数类，导致少数类识别率较低。此外，类间重叠或类内不连续分布会进一步加剧分类难度。在一些实际应用中，如欺诈检测、故障检测、癌症诊断等，收集到的数据集往往是不平衡且分布复杂的，而且相比于多数类，这些应用更加关注少数类。因此，针对此类应用，如何应对类不平衡和复杂分布的情况，提高少数类识别率是目前所面临的一个难题，需要重点关注。

现有的针对不平衡数据集的分类方法大致分为数据级和算法级两大类：a) 数据级方法通常涉及数据预处理，包括重采样(分为欠采样和过采样)、特征选择和特征提取等；b)算法级方法主要包括单类学习、集成学习和代价敏感学习等。上述两类方法中，数据级方法较为简单，但存在明显缺点，如采取从多数类样本中抽样与少数类样本组成数量均衡的新数据集的欠采样方法会丢失一部分多数类的基本信息；通过合成少数类新样本使多数类和少数类两类样本相对均衡的过采样方法可能会导致少数类过拟合。特征选择、特征提取方法则较少单独使用，一般采取与其他方法结合的方式进行应用。因此，近年来许多学者也试图从算法级方法提出新的解决方案。

支持向量机是基于统计学习理论和结构风险最小化原则的广义二元分类器。支持向量机在平衡数据集中有很好的分类性能，但面对偏斜数据时，往往由于不平衡的正负类样本比例和正负类支持向量比例，导致决策边界向少数类偏移，使得分类结果假阴性偏高。

发明内容

本发明的目的在于针对支持向量机在不平衡数据分类上由于类不平衡和少数类样本类内分布不连续造成的识别率低的问题，提出一种基于聚类和距离加权的不平衡数据分类方法(CDW-SVM)，在保持整体分类精度的前提下，提高少数类分类精度。

本发明的技术方案具体包括以下步骤：

步骤一、数据采集与预处理

采集不平衡数据，将数据分为多数类样本集和少数类样本集，并计算少数类样本与多数类样本之间的不平衡率。

步骤二、非重叠的样本划分

对多数类样本集使用K均值聚类算法进行聚类，对少数类样本集使用基于多数类簇中心的层次聚类算法(HC-MCC)进行聚类。

步骤三、基于类簇间距离计算样本权重

分别对步骤二中所得多数类簇和少数类簇，计算簇内样本与所有不同类类簇中心的总距离，并对簇内各样本的计算距离进行归一化处理，再计算各个类簇样本数量在本类样本中所占的比例作为簇密度，将样本的簇内归一化距离和簇密度相乘即得到样本权重。

步骤四、多数类边界样本降权

利用K近邻算法寻找各少数类簇质心的K个近邻多数类样本，组成一个多数类边界样本集合，然后对该集合内样本的权重乘上一个降权因子，以降低其对少数类边界的影响。

步骤五、训练加权支持向量机

使用样本及其权重训练能处理样本权重的支持向量机分类器。

步骤六、数据分类

使用训练好的支持向量机分类器对待测样本进行分类。

本发明具有以下有益效果：

1、非重叠的样本划分考虑了多数类与少数类样本的类内、类间分布，尽量避免不同类类簇间产生重叠区域，有效描述了两类样本在特征空间中的相对分布关系，这为正确学习类边界提供了前提条件。

2、对于每个类簇，根据类簇间距离和簇密度计算样本权重，可以提高代表性强的样本的重要性，而降低代表性弱的样本的重要性。

3、考虑类不平衡性所提出的多数类边界样本降权策略，能进一步有针对性地扩展少数类边界，提高少数类泛化性能。

附图说明

图1为本发明所述基于聚类和距离加权的不平衡数据分类方法的实现流程图。

图2为本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标F-measure对比图。

图3为本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标G- mean对比图。

具体实施方式

为使本发明的目的、技术方案和技术效果更加清楚明白，下面结合具体实施方式和仿真实验，对本发明做进一步详细说明。

如图1所示，一种基于聚类和距离加权的不平衡数据分类方法，具体包括以下步骤：

步骤一、数据采集与预处理

从UCI机器学习数据库收集现实不平衡数据集 T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，其中

y_i∈{+1，-1}，i＝1，2，...N，N为数据集总样本数量。按照目标类标签将数据集分为少数类样本集X_MN和多数类样本集X_MX，并通过下式计算数据集不平衡率：

上式中，N^-为多数类(负类)的样本数量，N⁺为少数类(正类)的样本数量。

步骤二、非重叠的样本划分

设定k值，使用k-means聚类算法对多数类样本集进行聚类，得到多数类簇集合S_MX，以及相应的多数类簇中心E_MX。设定距离阈值TH，对少数类样本集使用基于多数类簇中心的层次聚类算法进行聚类，包括以下步骤：

(1)初始化少数类簇集合S_MN＝X_MN、少数类簇中心集合E_MN＝X_MN、少数类簇间最小距离D＝0。

(2)当D小于距离阈值TH，循环执行以下步骤：寻找S_MN中相距最近的两个类簇i，j，更新簇间最小距离D；对每一个多数类簇中心e∈E_MX，分别计算i、j两个少数类簇中心与e的距离

如果存在

同时小于D，则禁止合并i、j类簇，否则合并i、j类簇。

(3)经过上述步骤得到层次聚类后的少数类簇集合S_MN。

步骤三、基于类簇间距离计算样本权重

分别对步骤二中所得多数类簇和少数类簇中的样本，计算类簇间距离，以类簇s∈S_MN为例，簇内样本的类簇间距离的计算公式如下：

上式中，n为样本特征的维数，

代表样本p的第i个特征，k代表多数类簇的数量，

代表第j个多数类簇中心的第i个特征。

对簇内样本的类簇间距离进行归一化处理，再计算各个类簇样本数量在本类样本中所占的比例作为簇密度，将样本的簇内归一化距离和簇密度相乘即得到样本权重，如下式所示：

上式中，

表示类簇s中样本p的权重，N_s表示类簇s中样本的数量，N⁺表示与类簇s相同类别的总样本数量，即少数类样本数量。

步骤四、多数类边界样本降权

利用K近邻算法寻找各少数类簇中心的K个近邻多数类样本，组成一个多数类边界样本集合B，然后对该集合内样本的权重乘上一个降权因子u，以降低其对少数类边界的影响，因此，多数类样本q的最终权重，如下式所示：

上式中，W_q代表多数类样本q经过步骤三计算得到的权重，u为降权因子，取值范围为[0,1]，此处取为数据集不平衡率的倒数。

步骤五、训练加权支持向量机

使用样本及其权重训练加权支持向量机分类器。

步骤六、数据分类

使用训练好的支持向量机分类器对待测样本进行分类。

将本发明标记为CDW-SVM，CDW-SVM的技术效果可以通过以下仿真实验进一步说明：

一、实验数据与实验方法

从UCI机器学习数据库中收集了10组现实不平衡数据作为实验数据集，包含医学相关数据集pima、haberman、wpbc、spect，生物相关数据集ecoli、 yeast以及文档相关数据集pageblocks。表1列出了10组实验数据集的具体情况。

表1实验不平衡数据集

实验选取SVM、CSSVM、WCC-SVM、ACFSVM四种经典算法作为本文 CDW-SVM的对比算法，选取F-measure和G-mean两个指标来评价不平衡数据集下分类算法的性能，采用5折交叉验证进行评估。实验算法均采用Python编程语言实现，SVM核函数选用高斯径向基函数，惩罚参数C和核函数参数γ采用网格搜索法确定最优值。

二、实验结果与分析

CDW-SVM与其他四种算法在实验数据集上的实验结果指标如表2、表3 所示，为了直观对比各算法的分类效果，将实验结果指标以柱状图的形式显示，如图2、图3所示。

表2各算法在不同数据集上的F-measure指标

表3各算法在不同数据集上的G-mean指标

表2、表3中的数据显示，在10个数据集的分类实验中，CDW-SVM在F- measure指标上取得9次最优值，在G-mean指标上取得8次最优值，而且相比于SVM、CSSVM、WCC-SVM、ACFSVM，在F-measure指标总平均值上，分别提高了11.69％、2.87％、4.64％、0.91％，在G-mean指标总平均值上，分别提高了11.48％、1.89％、2.68％、1.01％。

通过图2、图3可以观察到，在总样本量较小的前六组数据中，CDW- SVM除了G-mean值在spect略低于CSSVM、ACFSVM算法外，均取得最优值，在总样本量较大的后四组数据中，除了F-measure在pageblocks1略低于ACFSVM和G-mean在yeast2低于WCC-SVM外，也均取得最优值。但通过对比WCC-SVM在yeast2上的F-measure和G-mean，可以注意到WCC-SVM的较大G-mean值是通过牺牲部分少数类的分类精度达到的。此外，在复杂程度较高的医学数据集上，如pima、haberman、wpbc、spect，或者在不平衡程度较高的大数据集上，如yeast2、pageblocks1/2，传统的SVM相比其他算法在大部分情况下都表现出较大的性能差距，这说明传统SVM在处理复杂或高度不平衡数据时分类性能极易恶化。而在这些数据集上，CDW-SVM大部分情况下均取得了最优值。

通过与其他算法的对比，CDW-SVM无论是在F-measure或G-mean上都表现良好，证实了CDW-SVM算法的先进性和有效性。此外，在面对复杂程度较高、不平衡率较大、样本数量较多的数据集的分类实验上仍能保持领先排名，表明算法具有不错的鲁棒性。

综上所述，基于聚类和距离加权的不平衡数据分类方法中，所采用非重叠样本划分考虑了多数类与少数类样本的类内、类间分布，尽量避免不同类类簇间产生重叠区域，有效描述了两类样本在特征空间中的相对分布关系，这为正确学习类边界提供了前提条件。进一步地，对于每个类簇，根据类簇间距离和簇密度计算样本权重，可以提高代表性强的样本的重要性，而降低代表性弱的样本的重要性。进一步地，考虑类不平衡性所提出的多数类边界样本降权策略，能进一步有针对性地扩展少数类边界，提高少数类泛化性能。

以上所述，仅为本发明用于说明技术效果的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于聚类和距离加权的不平衡数据分类方法，其特征在于，包括以下步骤：

步骤一：数据采集与预处理；采集不平衡数据，将数据分为多数类样本集和少数类样本集，并通过多数类样本数与少数类样本数之比计算不平衡率；

步骤二：非重叠的样本划分；对多数类样本集使用K均值聚类算法进行聚类，对少数类样本集使用基于多数类簇中心的层次聚类算法进行聚类；

步骤三：基于类簇间距离计算样本权重；

步骤四：多数类边界样本降权；

步骤五：训练加权支持向量机；

步骤六：数据分类。

2.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法，其特征在于，所述基于多数类簇中心的层次聚类算法通过计算少数类样本与每个多数类簇中心的距离，并限制部分类簇合并的方式对少数类样本进行层次聚类，其类簇合并的判断公式为：

上式中，D为相距最近的两个少数类簇i、j的类簇中心间的距离，

为类簇i、j的中心与多数类簇中心e的距离，F为禁止合并的类簇集合，S_MN为少数类簇集合，forbid_merge和merge分别代表禁止合并和合并类簇的函数。

3.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法，其特征在于，步骤三中，分别对步骤二中所得多数类簇和少数类簇中的样本，计算类簇间距离，计算公式为：

上式中，

表示类簇s中样本p的类簇间距离，n为样本特征的维数，

代表样本p的第i个特征，k代表与样本p不同类类簇的数量，

代表第j个不同类类簇中心的第i个特征。

4.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法，其特征在于，步骤三中，对簇内样本的类簇间距离进行归一化处理，再计算各个类簇样本数量在本类样本中所占的比例作为簇密度，将样本的簇内归一化距离和簇密度相乘得到样本权重，计算公式为：

上式中，

表示类簇s中样本p的权重，N_s表示类簇s中样本的数量，N_ho表示与类簇s相同类别的总样本数量。

5.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法，其特征在于，步骤四中，多数类边界样本降权策略利用K近邻算法寻找各少数类簇中心的K个近邻多数类样本，组成一个多数类边界样本集合B，然后对该集合内样本的权重乘上一个降权因子u，以降低其对少数类边界的影响。

多数类样本q的最终权重，计算公式为：

上式中，W_q代表多数类样本q经过步骤三计算得到的权重，u为降权因子，取值范围为[0,1]。