CN114841241A - 一种基于聚类和距离加权的不平衡数据分类方法 - Google Patents

一种基于聚类和距离加权的不平衡数据分类方法 Download PDF

Info

Publication number
CN114841241A
CN114841241A CN202210346871.3A CN202210346871A CN114841241A CN 114841241 A CN114841241 A CN 114841241A CN 202210346871 A CN202210346871 A CN 202210346871A CN 114841241 A CN114841241 A CN 114841241A
Authority
CN
China
Prior art keywords
samples
cluster
class
sample
majority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210346871.3A
Other languages
English (en)
Inventor
张奕
蔡钢生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Technology
Original Assignee
Guilin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Technology filed Critical Guilin University of Technology
Priority to CN202210346871.3A priority Critical patent/CN114841241A/zh
Publication of CN114841241A publication Critical patent/CN114841241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类和距离加权的不平衡数据分类方法,主要解决现有技术在少数类类内分布不连续的不平衡数据上分类精度低的问题。其实现步骤为:(1)采集不平衡数据集并分为多数类、少数类样本集;(2)对多数类、少数类样本集进行非重叠划分;(3)基于类簇间距离计算样本权重;(4)多数类边界样本降权;(5)使用样本及其权重训练加权支持向量机分类器;(6)对待测样本进行分类。本发明能有效描述两类样本在特征空间中的相对分布关系,并在此基础上根据样本的相对重要性赋予样本权重,有利于构建正确的分类边界并提高少数类分类精度,可用于分布情况复杂的不平衡数据的分类。

Description

一种基于聚类和距离加权的不平衡数据分类方法
技术领域
本发明属于数据挖掘和机器学习领域,具体涉及一种基于聚类和距离加权的不平衡数据分类方法。
背景技术
传统分类算法中,通常假定数据集中类分布均衡或类误分代价相同。如果数据集中某一类样本的数量远少于其他类样本的数量,则将此类数据集称为不平衡数据集,其中样本数量较多的类称为多数类(负类),样本数量较少的类称为少数类(正类)。对于不平衡数据集,致力于学习数据一般化规律的传统分类算法由于难以发现或归纳少数类的分类规则而轻视甚至忽视少数类,导致少数类识别率较低。此外,类间重叠或类内不连续分布会进一步加剧分类难度。在一些实际应用中,如欺诈检测、故障检测、癌症诊断等,收集到的数据集往往是不平衡且分布复杂的,而且相比于多数类,这些应用更加关注少数类。因此,针对此类应用,如何应对类不平衡和复杂分布的情况,提高少数类识别率是目前所面临的一个难题,需要重点关注。
现有的针对不平衡数据集的分类方法大致分为数据级和算法级两大类:a) 数据级方法通常涉及数据预处理,包括重采样(分为欠采样和过采样)、特征选择和特征提取等;b)算法级方法主要包括单类学习、集成学习和代价敏感学习等。上述两类方法中,数据级方法较为简单,但存在明显缺点,如采取从多数类样本中抽样与少数类样本组成数量均衡的新数据集的欠采样方法会丢失一部分多数类的基本信息;通过合成少数类新样本使多数类和少数类两类样本相对均衡的过采样方法可能会导致少数类过拟合。特征选择、特征提取方法则较少单独使用,一般采取与其他方法结合的方式进行应用。因此,近年来许多学者也试图从算法级方法提出新的解决方案。
支持向量机是基于统计学习理论和结构风险最小化原则的广义二元分类器。支持向量机在平衡数据集中有很好的分类性能,但面对偏斜数据时,往往由于不平衡的正负类样本比例和正负类支持向量比例,导致决策边界向少数类偏移,使得分类结果假阴性偏高。
发明内容
本发明的目的在于针对支持向量机在不平衡数据分类上由于类不平衡和少数类样本类内分布不连续造成的识别率低的问题,提出一种基于聚类和距离加权的不平衡数据分类方法(CDW-SVM),在保持整体分类精度的前提下,提高少数类分类精度。
本发明的技术方案具体包括以下步骤:
步骤一、数据采集与预处理
采集不平衡数据,将数据分为多数类样本集和少数类样本集,并计算少数类样本与多数类样本之间的不平衡率。
步骤二、非重叠的样本划分
对多数类样本集使用K均值聚类算法进行聚类,对少数类样本集使用基于多数类簇中心的层次聚类算法(HC-MCC)进行聚类。
步骤三、基于类簇间距离计算样本权重
分别对步骤二中所得多数类簇和少数类簇,计算簇内样本与所有不同类类簇中心的总距离,并对簇内各样本的计算距离进行归一化处理,再计算各个类簇样本数量在本类样本中所占的比例作为簇密度,将样本的簇内归一化距离和簇密度相乘即得到样本权重。
步骤四、多数类边界样本降权
利用K近邻算法寻找各少数类簇质心的K个近邻多数类样本,组成一个多数类边界样本集合,然后对该集合内样本的权重乘上一个降权因子,以降低其对少数类边界的影响。
步骤五、训练加权支持向量机
使用样本及其权重训练能处理样本权重的支持向量机分类器。
步骤六、数据分类
使用训练好的支持向量机分类器对待测样本进行分类。
本发明具有以下有益效果:
1、非重叠的样本划分考虑了多数类与少数类样本的类内、类间分布,尽量避免不同类类簇间产生重叠区域,有效描述了两类样本在特征空间中的相对分布关系,这为正确学习类边界提供了前提条件。
2、对于每个类簇,根据类簇间距离和簇密度计算样本权重,可以提高代表性强的样本的重要性,而降低代表性弱的样本的重要性。
3、考虑类不平衡性所提出的多数类边界样本降权策略,能进一步有针对性地扩展少数类边界,提高少数类泛化性能。
附图说明
图1为本发明所述基于聚类和距离加权的不平衡数据分类方法的实现流程图。
图2为本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标F-measure对比图。
图3为本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标G- mean对比图。
具体实施方式
为使本发明的目的、技术方案和技术效果更加清楚明白,下面结合具体实施方式和仿真实验,对本发明做进一步详细说明。
如图1所示,一种基于聚类和距离加权的不平衡数据分类方法,具体包括以下步骤:
步骤一、数据采集与预处理
从UCI机器学习数据库收集现实不平衡数据集 T={(x1,y1),(x2,y2),...,(xN,yN)},其中
Figure RE-GDA0003687049020000031
yi∈{+1,-1},i=1,2,...N,N为 数据集总样本数量。按照目标类标签将数据集分为少数类样本集XMN和多数类 样本集XMX,并通过下式计算数据集不平衡率:
Figure BDA0003576799690000031
上式中,N-为多数类(负类)的样本数量,N+为少数类(正类)的样本数量。
步骤二、非重叠的样本划分
设定k值,使用k-means聚类算法对多数类样本集进行聚类,得到多数类簇集合SMX,以及相应的多数类簇中心EMX。设定距离阈值TH,对少数类样本集使用基于多数类簇中心的层次聚类算法进行聚类,包括以下步骤:
(1)初始化少数类簇集合SMN=XMN、少数类簇中心集合EMN=XMN、少数类簇间最小距离D=0。
(2)当D小于距离阈值TH,循环执行以下步骤:寻找SMN中相距最近的两个类簇i,j,更新簇间最小距离D;对每一个多数类簇中心e∈EMX,分别计算i、j两个少数类簇中心与e的距离
Figure BDA0003576799690000032
如果存在
Figure BDA0003576799690000033
同时小于D,则禁止合并i、j类簇,否则合并i、j类簇。
(3)经过上述步骤得到层次聚类后的少数类簇集合SMN
步骤三、基于类簇间距离计算样本权重
分别对步骤二中所得多数类簇和少数类簇中的样本,计算类簇间距离,以类簇s∈SMN为例,簇内样本的类簇间距离的计算公式如下:
Figure BDA0003576799690000041
上式中,n为样本特征的维数,
Figure BDA0003576799690000042
代表样本p的第i个特征,k代表多数类簇的数量,
Figure BDA0003576799690000043
代表第j个多数类簇中心的第i个特征。
对簇内样本的类簇间距离进行归一化处理,再计算各个类簇样本数量在本类样本中所占的比例作为簇密度,将样本的簇内归一化距离和簇密度相乘即得到样本权重,如下式所示:
Figure BDA0003576799690000044
上式中,
Figure BDA0003576799690000045
表示类簇s中样本p的权重,Ns表示类簇s中样本的数量,N+表示与类簇s相同类别的总样本数量,即少数类样本数量。
步骤四、多数类边界样本降权
利用K近邻算法寻找各少数类簇中心的K个近邻多数类样本,组成一个多数类边界样本集合B,然后对该集合内样本的权重乘上一个降权因子u,以降低其对少数类边界的影响,因此,多数类样本q的最终权重,如下式所示:
Figure BDA0003576799690000046
上式中,Wq代表多数类样本q经过步骤三计算得到的权重,u为降权因子,取值范围为[0,1],此处取为数据集不平衡率的倒数。
步骤五、训练加权支持向量机
使用样本及其权重训练加权支持向量机分类器。
步骤六、数据分类
使用训练好的支持向量机分类器对待测样本进行分类。
将本发明标记为CDW-SVM,CDW-SVM的技术效果可以通过以下仿真实验进一步说明:
一、实验数据与实验方法
从UCI机器学习数据库中收集了10组现实不平衡数据作为实验数据集,包含医学相关数据集pima、haberman、wpbc、spect,生物相关数据集ecoli、 yeast以及文档相关数据集pageblocks。表1列出了10组实验数据集的具体情况。
表1实验不平衡数据集
Figure BDA0003576799690000051
实验选取SVM、CSSVM、WCC-SVM、ACFSVM四种经典算法作为本文 CDW-SVM的对比算法,选取F-measure和G-mean两个指标来评价不平衡数据集下分类算法的性能,采用5折交叉验证进行评估。实验算法均采用Python编程语言实现,SVM核函数选用高斯径向基函数,惩罚参数C和核函数参数γ采用网格搜索法确定最优值。
二、实验结果与分析
CDW-SVM与其他四种算法在实验数据集上的实验结果指标如表2、表3 所示,为了直观对比各算法的分类效果,将实验结果指标以柱状图的形式显示,如图2、图3所示。
表2各算法在不同数据集上的F-measure指标
Figure BDA0003576799690000052
Figure BDA0003576799690000061
表3各算法在不同数据集上的G-mean指标
Figure BDA0003576799690000062
表2、表3中的数据显示,在10个数据集的分类实验中,CDW-SVM在F- measure指标上取得9次最优值,在G-mean指标上取得8次最优值,而且相比于SVM、CSSVM、WCC-SVM、ACFSVM,在F-measure指标总平均值上,分别提高了11.69%、2.87%、4.64%、0.91%,在G-mean指标总平均值上,分别提高了11.48%、1.89%、2.68%、1.01%。
通过图2、图3可以观察到,在总样本量较小的前六组数据中,CDW- SVM除了G-mean值在spect略低于CSSVM、ACFSVM算法外,均取得最优 值,在总样本量较大的后四组数据中,除了F-measure在pageblocks1略低于ACFSVM和G-mean在yeast2低于WCC-SVM外,也均取得最优值。但通过对 比WCC-SVM在yeast2上的F-measure和G-mean,可以注意到WCC-SVM的 较大G-mean值是通过牺牲部分少数类的分类精度达到的。此外,在复杂程度 较高的医学数据集上,如pima、haberman、wpbc、spect,或者在不平衡程度较 高的大数据集上,如yeast2、pageblocks1/2,传统的SVM相比其他算法在大部 分情况下都表现出较大的性能差距,这说明传统SVM在处理复杂或高度不平 衡数据时分类性能极易恶化。而在这些数据集上,CDW-SVM大部分情况下均 取得了最优值。
通过与其他算法的对比,CDW-SVM无论是在F-measure或G-mean上都表现良好,证实了CDW-SVM算法的先进性和有效性。此外,在面对复杂程度较高、不平衡率较大、样本数量较多的数据集的分类实验上仍能保持领先排名,表明算法具有不错的鲁棒性。
综上所述,基于聚类和距离加权的不平衡数据分类方法中,所采用非重叠样本划分考虑了多数类与少数类样本的类内、类间分布,尽量避免不同类类簇间产生重叠区域,有效描述了两类样本在特征空间中的相对分布关系,这为正确学习类边界提供了前提条件。进一步地,对于每个类簇,根据类簇间距离和簇密度计算样本权重,可以提高代表性强的样本的重要性,而降低代表性弱的样本的重要性。进一步地,考虑类不平衡性所提出的多数类边界样本降权策略,能进一步有针对性地扩展少数类边界,提高少数类泛化性能。
以上所述,仅为本发明用于说明技术效果的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1.一种基于聚类和距离加权的不平衡数据分类方法,其特征在于,包括以下步骤:
步骤一:数据采集与预处理;采集不平衡数据,将数据分为多数类样本集和少数类样本集,并通过多数类样本数与少数类样本数之比计算不平衡率;
步骤二:非重叠的样本划分;对多数类样本集使用K均值聚类算法进行聚类,对少数类样本集使用基于多数类簇中心的层次聚类算法进行聚类;
步骤三:基于类簇间距离计算样本权重;
步骤四:多数类边界样本降权;
步骤五:训练加权支持向量机;
步骤六:数据分类。
2.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法,其特征在于,所述基于多数类簇中心的层次聚类算法通过计算少数类样本与每个多数类簇中心的距离,并限制部分类簇合并的方式对少数类样本进行层次聚类,其类簇合并的判断公式为:
Figure FDA0003576799680000011
上式中,D为相距最近的两个少数类簇i、j的类簇中心间的距离,
Figure FDA0003576799680000012
为类簇i、j的中心与多数类簇中心e的距离,F为禁止合并的类簇集合,SMN为少数类簇集合,forbid_merge和merge分别代表禁止合并和合并类簇的函数。
3.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法,其特征在于,步骤三中,分别对步骤二中所得多数类簇和少数类簇中的样本,计算类簇间距离,计算公式为:
Figure FDA0003576799680000013
上式中,
Figure FDA0003576799680000014
表示类簇s中样本p的类簇间距离,n为样本特征的维数,
Figure FDA0003576799680000015
代表样本p的第i个特征,k代表与样本p不同类类簇的数量,
Figure FDA0003576799680000016
代表第j个不同类类簇中心的第i个特征。
4.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法,其特征在于,步骤三中,对簇内样本的类簇间距离进行归一化处理,再计算各个类簇样本数量在本类样本中所占的比例作为簇密度,将样本的簇内归一化距离和簇密度相乘得到样本权重,计算公式为:
Figure FDA0003576799680000021
上式中,
Figure FDA0003576799680000022
表示类簇s中样本p的权重,Ns表示类簇s中样本的数量,Nho表示与类簇s相同类别的总样本数量。
5.根据权利要求1所述的一种基于聚类和距离加权的不平衡数据分类方法,其特征在于,步骤四中,多数类边界样本降权策略利用K近邻算法寻找各少数类簇中心的K个近邻多数类样本,组成一个多数类边界样本集合B,然后对该集合内样本的权重乘上一个降权因子u,以降低其对少数类边界的影响。
多数类样本q的最终权重,计算公式为:
Figure FDA0003576799680000023
上式中,Wq代表多数类样本q经过步骤三计算得到的权重,u为降权因子,取值范围为[0,1]。
CN202210346871.3A 2022-03-31 2022-03-31 一种基于聚类和距离加权的不平衡数据分类方法 Pending CN114841241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210346871.3A CN114841241A (zh) 2022-03-31 2022-03-31 一种基于聚类和距离加权的不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210346871.3A CN114841241A (zh) 2022-03-31 2022-03-31 一种基于聚类和距离加权的不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN114841241A true CN114841241A (zh) 2022-08-02

Family

ID=82564210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210346871.3A Pending CN114841241A (zh) 2022-03-31 2022-03-31 一种基于聚类和距离加权的不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN114841241A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质
CN118173271A (zh) * 2024-05-14 2024-06-11 青岛益生康健科技股份有限公司 一种健康管理在线咨询方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质
CN116862078B (zh) * 2023-09-04 2023-12-12 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质
CN118173271A (zh) * 2024-05-14 2024-06-11 青岛益生康健科技股份有限公司 一种健康管理在线咨询方法及系统

Similar Documents

Publication Publication Date Title
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
Chen et al. Fast: a roc-based feature selection metric for small samples and imbalanced data classification problems
Nguyen et al. Learning pattern classification tasks with imbalanced data sets
CN110266672B (zh) 基于信息熵和置信度下采样的网络入侵检测方法
Tan An improved KNN text classification algorithm based on K-medoids and rough set
CN114841241A (zh) 一种基于聚类和距离加权的不平衡数据分类方法
Bouguessa et al. Mining projected clusters in high-dimensional spaces
CN113408605A (zh) 基于小样本学习的高光谱图像半监督分类方法
Ling et al. How many clusters? A robust PSO-based local density model
Yang et al. Density clustering with divergence distance and automatic center selection
Kianmehr et al. Fuzzy clustering-based discretization for gene expression classification
Cai et al. ARIS: a noise insensitive data pre-processing scheme for data reduction using influence space
Potharaju An unsupervised approach for selection of candidate feature set using filter based techniques
CN111275127B (zh) 基于条件互信息的动态特征选择方法
Gyoten et al. Imbalanced data classification procedure based on SMOTE
Brucker et al. An empirical comparison of flat and hierarchical performance measures for multi-label classification with hierarchy extraction
Zhang et al. A new outlier detection algorithm based on fast density peak clustering outlier factor.
Li et al. High-dimensional imbalanced biomedical data classification based on P-AdaBoost-PAUC algorithm
CN111860591A (zh) 基于间隔自适应特征选择融合的宫颈细胞图像分类方法
Ren et al. Slack-Factor-Based Fuzzy Support Vector Machine for Class Imbalance Problems
Li An improved K-nearest neighbor algorithm using tree structure and pruning technology
Aizhang et al. Based on rough sets and the associated analysis of KNN text classification research
CN112861974A (zh) 文本分类方法、装置、电子设备及存储介质
Zhang et al. Unbalanced data classification based on oversampling and integrated learning
CN115841110B (zh) 一种获取科学知识发现的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination