CN111931853A - 基于层次聚类和改进smote的过采样方法 - Google Patents

基于层次聚类和改进smote的过采样方法 Download PDF

Info

Publication number
CN111931853A
CN111931853A CN202010806035.XA CN202010806035A CN111931853A CN 111931853 A CN111931853 A CN 111931853A CN 202010806035 A CN202010806035 A CN 202010806035A CN 111931853 A CN111931853 A CN 111931853A
Authority
CN
China
Prior art keywords
samples
sample
cluster
minority
clusters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010806035.XA
Other languages
English (en)
Inventor
王鑫
杨悦
覃琴
卢雨琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010806035.XA priority Critical patent/CN111931853A/zh
Publication of CN111931853A publication Critical patent/CN111931853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:1)划分少数类簇;2)确定采样权重和概率分布;3)限制合成样本的生成区域;这种方法在不平衡数据处理上,能降低噪音干扰、减少合成重叠样本,对容易错分的边缘样本加以选择,兼顾类内不平衡及生成样本点的分布,最终提升分类性能。

Description

基于层次聚类和改进SMOTE的过采样方法
技术领域
本发明涉及不平衡数据的分类技术,具体是一种基于层次聚类和改进SMOTE的过采样方法。
背景技术
在现实生活中有很多不平衡数据的分类应用场景,如信用卡欺诈检测、信息检索和过滤、市场分析等场景。采用传统分类算法对不平衡数据进行分类,分类结果会倾向于多数类,出现分类失误的情况,数据集的不平衡状态又细分为两种:类间不平衡和类内不平衡,都会对模型性能造成影响。传统分类算法中过采样方法中存在合成样本重叠以及样本分布“边缘化”的问题也是分类性能下降的原因。因此如何改进传统算法解决数据集不平衡分类问题并提高分类性能是数据挖掘和机器学习的研究热点。
最常用的过采样方法是Chawla等2002年提出的SMOTE算法,算法思路是通过寻找样本的近邻集,在样本点与其近邻集随机选择的样本连线上合成新的样本点。Han Hui等人在2005年提出了Borderline-SMOTE算法,该算法将少数类样本分为边界区域、安全区域、危险区域,通过选择边界区域的样本点进行样本合成,避免了SMOTE不加区别地选择少数类样本而导致大量的冗余新样本的合成;He等人提出了ADASYN合成是根据数据分布自动确定每个少数类样本需要生成的样本数量,近邻多数类样本多的少数类样本生成更多的样本,相比于SMOTE,对样本分布进行了细致的划分;Cluster-SMOTE利用K-means算法对少数类样本进行聚类,找到少数类簇,然后分别应用SMOTE算法,但该方法没有确定最佳类簇个数且没有计算出每类簇该生成的样本数目;Kmeans-SMOTE将K-means聚类算法与SMOTE算法相结合,相比Cluster-SMOTE,Kmeans-SMOTE是对整个数据集进行聚类,发现重叠的类区域且避免在不安全区域中进行过度采样,并将合成样本限制在目标区域内,消除了类间和类内不平衡,同时避免了产生噪音样本,效果较好;CBSO将聚类与现有的合成过采样技术的数据生成机制相结合,确保生成的合成样本始终位于少数类区域,避免了错误样本的生成。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于层次聚类和改进SMOTE的过采样方法。这种方法在不平衡数据处理上,能降低噪音干扰、减少合成重叠样本,对容易错分的边缘样本加以选择,兼顾类内不平衡及生成样本点的分布,最终提升分类性能。
实现本发明目的的技术方案是:
一种基于层次聚类和改进SMOTE的过采样方法,包括如下步骤:
1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,AGNES是一种层次聚类算法,该算法将每个样本点来看成一个类簇,然后将这些簇根据某种规则做合并,直到达到预设类簇个数或设定阈值,与传统质心方式聚合样本点的方法对比,AGNES算法可以不受样本点周围分布的形状限制,同时可以将特征空间范围不同的样本点聚合到一起,更好地解决类内不平衡问题,在确定类簇是否合并时采用平均距离计算方法,直到类簇间距离超过设定阈值,停止聚类,为了避免重叠样本的生成,还需要考虑多数类样本的分布,采用AGNES算法对少数类样本进行聚类前,先对多数类样本进行聚类,如果某一多数类簇到两少数类簇的距离小于两少数类簇的最小距离,则表明合并后的少数类簇合成样本时会产生重叠样本,不应该将两类簇做合并,包括:
1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;
2-1)对样本集合I′中的多数类样本先进行聚类,将每个样本看成单独的类簇,采用公式(1)计算簇间距离,合并距离最近的两类簇,重复上述过程直到达到预设阈值Th,得到若干多数类簇集合
Figure BDA0002629156150000021
Figure BDA0002629156150000022
其中,x和y分别为类簇Ca和Cb中的样本点,|Ca|和|Cb|表示类簇中总的样本数目;
3-1)再根据得到的多数类簇集合划分少数类样本,同样将少数类样本看成一个个单独的类簇,得到少数类簇集合
Figure BDA0002629156150000023
4-1)由公式(1)计算两两少数簇间的距离,令Dmin=d(Ca,Cb)并记录下最小距离Dmin及其对应的类簇编号a和b;
5-1)遍历多数类簇集合,找到多数簇
Figure BDA0002629156150000024
满足
Figure BDA0002629156150000025
到少数类簇
Figure BDA0002629156150000026
Figure BDA0002629156150000027
的距离均小于两少数类簇最小距离Dmin,将这些多数类簇加入集合B中;
6-1)如果
Figure BDA0002629156150000028
则少数类簇
Figure BDA0002629156150000029
Figure BDA00026291561500000210
不进行合并,并将集合B中元素清空,否则,将少数类簇
Figure BDA00026291561500000211
Figure BDA00026291561500000212
合并成少数类簇
Figure BDA00026291561500000213
则少数类簇集合A中将减少一个元素;
7-1)重新依据公式(1)计算集合A中少数类簇
Figure BDA00026291561500000214
与剩余少数类簇间的距离,重复步骤3-1)至步骤6-1),直到距离最近的少数类簇间的欧式距离大于阈值Th,停止少数类簇的合并,得到最终的少数类簇集合
Figure BDA00026291561500000215
设置距离阈值Th,判断是否做类簇合并,先定义一个值distavg
Figure BDA0002629156150000031
其中,xp和xq同为少数类簇
Figure BDA0002629156150000032
中的样本点,
Figure BDA0002629156150000033
为该类簇中总的样本数目,distavg表示某一少数类簇中两两样本的距离的中位距离总和的平均值,选取样本距离的中位距离可以减少噪音样本的干扰,再定义阈值Th如公式(3)所示:
Th=distavg*f (3)
参数f用于调整聚类算法的输出,增大f值,可增大类簇包含的数目大小,减小f值,则减小类簇包含的数目大小;
2)确定采样权重和概率分布:通过AGNES聚类获得若干样本数目不同的少数类簇,类簇内的密集程度也不同,需要考虑类内不平衡对分类性能的影响,于是对所有少数类簇根据样本数目赋予不同权重,不仅可以保证所有的少数类簇都进行过采样,不会忽略孤立的小类簇,而且有利于避免过拟合现象,因此根据少数类簇中样本数目分配不同的采样权重,记作W(i)如公式(4)所示:
Figure BDA0002629156150000034
其中,N表示少数类簇的总数,num(i)表示第i个少数类簇中的样本数目,由公式(4)可知,少数类簇中样本数目越多,则W(i)越小,即分配的权重越小,合成样本数目越小,最终实现类内平衡,由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额Nmaj-Nmin,可以确定每个少数类簇的采样数目num(i)如公式(5)所示:
num(i)=(Nmaj-Nmin)*W(i) (5)
此外,在分类任务中,通常越靠近决策边界的少数类样本越容易被错分,从而增加了少数类样本的学习难度,为此还需要筛选进行过采样的样本,这里引入少数类簇的概率分布,根据概率分布挑选难以学习的包含重要信息的少数类样本作为“种子样本”,以保证样本的合成质量,每个样本被选中的概率设置为D(i)公式(6)所示:
Figure BDA0002629156150000035
少数类簇的概率分布为公式(7)所示:
Figure BDA0002629156150000041
其中,ya是x的第a个多数类样本近邻,1≤a≤k,
Figure BDA0002629156150000042
表示少数类子簇中样本x与多类样本ya的欧式距离,i表示少数类簇中的某一样本,n表示某一少数类簇中的样本数目,k为近邻样本的数目,由公式(6)(7)可知,每个样本被选中的概率是依据该样本与多数类边界的距离所确定的,距离多数类边界越近的少数类样本被选择的概率高于距离较远的样本,再由每个样本被选中的概率构成少数类簇的概率分布,这样子不仅考虑了样本的分布特性,并且有效地扩展了少数类决策边界;
3)限制合成样本的生成区域:确定了每个少数类簇合成数目,并根据各少数类簇的概率分布选取“种子样本”,还需考虑合成样本的生成区域,进一步提高分类器的性能,防止合成样本分布“边缘化”,因此在进行样本合成时,需要将新生成的样本点分布考虑进去,在“种子样本”中随机选取一个样本,然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本,将这三个样本组成一个三角形,样本本身作为三角形顶点,三个顶点分别到其质心的连线上随机生成一个样本,一个三角形产生3个合成样本,采用质心方式来限制样本点的生成区域,假设三个样本点分布为x1,x2,x3,该样本点生成质心区域计算公式如公式(8)所示:
Figure BDA0002629156150000043
其中,xi代表三个顶点横坐标,yi代表三个顶点纵坐标,按照该方式生成样本点向样本点质心方向靠拢,在三个样本点到其质心的连线上合成新样本,再将合成样本添加到合成样本集中。
本技术方案为AGNES-SMOTE方法:首先采用K近邻思想对原数据集做噪音样本剔除,然后采用AGNES算法对多数类样本进行聚类,划分成若干个多数类簇,再对少数类样本进行聚类,并根据得到的多数类簇合并相近少数类簇,直到超出设定阈值则停止聚类,得到少数类簇,为每个少数类簇分配权重,同时计算出每个少数类簇的概率分布,结合两者对少数类簇中的样本进行过采样,合成过程中采用质心方式对合成样本限制生成区域。
这种方法在不平衡数据处理上,能降低噪音干扰、减少合成重叠样本,对容易错分的边缘样本加以选择,兼顾类内不平衡及生成样本点的分布,最终提升分类性能。
附图说明
图1为实施例中方法的流程示意图;
图2为实施例中原始数据分布示意图;
图3为实施例中采用SMOTE算法采样后的数据分布示意图;
图4为实施例中本例方法采样后的数据分布示意图。
具体实施方式
下面结合附图和实施例对本发明的内容作进一步的阐述,但不是对本发明的限定。
实施例:
一种基于层次聚类和改进SMOTE的过采样方法,包括如下步骤:
1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,AGNES是一种层次聚类算法,该算法将每个样本点来看成一个类簇,然后将这些簇根据某种规则做合并,直到达到预设类簇个数或设定阈值,与传统质心方式聚合样本点的方法对比,AGNES算法可以不受样本点周围分布的形状限制,同时可以将特征空间范围不同的样本点聚合到一起,更好地解决类内不平衡问题,本例在确定类簇是否合并时采用平均距离计算方法,直到类簇间距离超过设定阈值,停止聚类,为了避免重叠样本的生成,还需要考虑多数类样本的分布,采用AGNES算法对少数类样本进行聚类前,先对多数类样本进行聚类,如果某一多数类簇到两少数类簇的距离小于两少数类簇的最小距离,则表明合并后的少数类簇合成样本时会产生重叠样本,不应该将两类簇做合并,包括:
1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;
2-1)对样本集合I′中的多数类样本先进行聚类,将每个样本看成单独的类簇,采用公式(1)计算簇间距离,合并距离最近的两类簇,重复上述过程直到达到预设阈值Th,得到若干多数类簇集合
Figure BDA0002629156150000051
Figure BDA0002629156150000052
其中,x和y分别为类簇Ca和Cb中的样本点,|Ca|和|Cb|表示类簇中总的样本数目;
3-1)再根据得到的多数类簇集合划分少数类样本,同样将少数类样本看成一个个单独的类簇,得到少数类簇集合
Figure BDA0002629156150000053
4-1)由公式(1)计算两两少数簇间的距离,令Dmin=d(Ca,Cb)并记录下最小距离对应的类簇编号a和b;
5-1)遍历多数类簇集合,找到多数簇
Figure BDA0002629156150000054
满足
Figure BDA0002629156150000055
到少数类簇
Figure BDA0002629156150000056
Figure BDA0002629156150000057
的距离均小于两少数类簇最小距离Dmin,将这些多数类簇加入集合B中;
6-1)如果
Figure BDA0002629156150000061
则少数类簇
Figure BDA0002629156150000062
Figure BDA0002629156150000063
不进行合并,并将集合B中元素清空,否则,将少数类簇
Figure BDA0002629156150000064
Figure BDA0002629156150000065
合并成少数类簇
Figure BDA0002629156150000066
则少数类簇集合A中将减少一个元素;
7-1)重新依据公式(1)计算集合A中少数类簇
Figure BDA0002629156150000067
与剩余少数类簇间的距离,重复步骤3-1)至步骤6-1),直到距离最近的少数类簇间的欧式距离大于阈值Th,停止少数类簇的合并,得到最终的少数类簇集合
Figure BDA0002629156150000068
设置距离阈值Th,判断是否做类簇合并,先定义一个值distavg
Figure BDA0002629156150000069
其中,xp和xq同为少数类簇
Figure BDA00026291561500000610
中的样本点,
Figure BDA00026291561500000611
为该类簇中总的样本数目,distavg表示某一少数类簇中两两样本的距离的中位距离总和的平均值,选取样本距离的中位距离可以减少噪音样本的干扰,再定义阈值Th如公式(3)所示:
Th=distavg*f (3)
参数f用于调整聚类算法的输出,增大f值,可增大类簇包含的数目大小,减小f值,则减小类簇包含的数目大小;
2)确定采样权重和概率分布:通过AGNES聚类获得若干样本数目不同的少数类簇,类簇内的密集程度也不同,需要考虑类内不平衡对分类性能的影响,于是对所有少数类簇根据样本数目赋予不同权重,不仅可以保证所有的少数类簇都进行过采样,不会忽略孤立的小类簇,而且有利于避免过拟合现象,因此根据少数类簇中样本数目分配不同的采样权重,记作W(i)如公式(4)所示:
Figure BDA00026291561500000612
其中,N表示少数类簇的总数,num(i)表示第i个少数类簇中的样本数目,由公式(4)可知,少数类簇中样本数目越多,则W(i)越小,即分配的权重越小,合成样本数目越小,最终实现类内平衡,由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额Nmaj-Nmin,可以确定每个少数类簇的采样数目num(i)如公式(5)所示:。
num(i)=(Nmaj-Nmin)*W(i) (5)
此外,在分类任务中,通常越靠近决策边界的少数类样本越容易被错分,从而增加了少数类样本的学习难度,为此还需要筛选进行过采样的样本,这里引入少数类簇的概率分布,根据概率分布挑选难以学习的包含重要信息的少数类样本作为“种子样本”,以保证样本的合成质量,每个样本被选中的概率设置为D(i)公式(6)所示:
Figure BDA0002629156150000071
少数类簇的概率分布为公式(7)所示:
Figure BDA0002629156150000072
其中,ya是x的第a个多数类样本近邻,1≤a≤k,
Figure BDA0002629156150000073
表示少数类子簇中样本x与多类样本ya的欧式距离,i表示少数类簇中的某一样本,n表示某一少数类簇中的样本数目,k为近邻样本的数目,由公式(6)(7)可知,每个样本被选中的概率是依据该样本与多数类边界的距离所确定的,距离多数类边界越近的少数类样本被选择的概率高于距离较远的样本,再由每个样本被选中的概率构成少数类簇的概率分布,这样子不仅考虑了样本的分布特性,并且有效地扩展了少数类决策边界;
3)限制合成样本的生成区域:确定了每个少数类簇合成数目,并根据各少数类簇的概率分布选取“种子样本”,还需考虑合成样本的生成区域,进一步提高分类器的性能,防止合成样本分布“边缘化”,因此在进行样本合成时,需要将新生成的样本点分布考虑进去,在“种子样本”中随机选取一个样本,然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本,将这三个样本组成一个三角形,样本本身作为三角形顶点,三个顶点分别到其质心的连线上随机生成一个样本,一个三角形产生3个合成样本,采用质心方式来限制样本点的生成区域,假设三个样本点分布为x1,x2,x3,该样本点生成质心区域计算如公式(8)所示:
Figure BDA0002629156150000074
其中,xi代表三个顶点横坐标,yi代表三个顶点纵坐标,按照该方式生成样本点向样本点质心方向靠拢,在三个样本点到其质心的连线上合成新样本,再将合成样本添加到合成样本集中。
合成数据分布结果分析:本例采用人工数据集进行验证,对比本例方法与SMOTE算法合成样本的分布情况,结果如图2、图3、图4所示,其中圆点代表多数类样本,星号代表少数类样本及其合成样本,如图2所示,可以看出经SMOTE算法采样后的合成样本较多分布在边缘区域,甚至混入多数类样本区域而产生样本重叠,且新合成样本间高度相似、重复并没有改变原数据集中的类内不平衡,与图3相比,本例方法则有效过滤了噪音样本,聚类过程中考虑多数类样本的分布来划分少数类簇,避免了新生成样本混入多数类样本区域,降低了噪声的影响,对少数类簇分配采样权重以实现了少数类类内平衡,又根据概率分布对边缘容易错分的样本进行较多的采样,让两类样本形成明显的划分边界,针对样本分布边缘化问题,采用质心方式限制样本生成区域,进一步保证了样本合成质量,且合成样本具有多样性,数据分布如图4所示。
实际数据集结果分析:本例方法与SMOTE、Kmeans-SMOTE、Cluster-SMOTE进行对比实验,从下表1得到的实验结果可以发现,AGNES-SMOTE算法在数据集Ecoli、Libra、Yeast1、Optical_digits、Abalone和Us_crime上得到AUC值均优于其他采样算法,数据集Libra、Optical_digits和Spectrometer取得的AUC值较大,原因是这些数据集不平衡比例较大且包含较多的特征数,需要合成更多的样本,而AGNES-SMOTE算法考虑了类内不平衡,对样本加以选择并限制生成区域,减少了样本重叠的可能,进一步保证了样本的合成质量,为分类器提供了多样的样本信息,而数据集Haberman和Yeast1因为其数据集特征数较少且不平衡比例较小,则取得较低的AUC值。
本例方法在大部分数据集上取得较好的F-measure值和G-mean值,在数据集Ecoli、Yeast1、Haberman、Optical_digits和Abalone上F-measure值和G-mean值提升幅度较大,F-measure值最高达到了96.70%,G-mean值最高达到了97.53%,在数据集Libra中本文算法的G-mean值虽得到大幅提升,但其结果还是略低于Cluster-SMOTE上取得的结果,而其F-measure值则最高提高了14.25%,数据集Us_crime和Spectrometer上取得的F-measure值和G-mean值均低于其他算法,是因为其数据集包含较多的特征数,数据结构表现的较为复杂,总体来看,本例方法在不平衡数据处理上,降低了噪音干扰,减少了合成重叠样本,对容易错分的边缘样本加以选择,考虑了类内不平衡及生成样本点的分布,最终提升了分类性能。
Figure BDA0002629156150000081
Figure BDA0002629156150000091
表1数据集在不同算法下评价指标的值。

Claims (1)

1.一种基于层次聚类和改进SMOTE的过采样方法,其特征在于,包括如下步骤:
1)划分少数类簇:采用AGNES算法对样本进行聚类,将数据集划分成类簇,包括:
1-1)给定原始数据集I,采用K近邻的思想过滤数据集I中的噪声样本,设定K=5,遍历I中的样本,若I中样本的K个近邻中超过4/5的样本为该选取样本的相反样本类别,则判定该样本为噪声样本,剔除该噪声样本,将剩下的样本点组成样本集合I′;
2-1)对样本集合I′中的多数类样本先进行聚类,将每个样本看成单独的类簇,采用公式(1)计算簇间距离,合并距离最近的两类簇,重复上述过程直到达到预设阈值Th,得到若干多数类簇集合
Figure FDA0002629156140000011
Figure FDA0002629156140000012
其中,x和y分别为类簇Ca和Cb中的样本点,|Ca|和|Cb|表示类簇中总的样本数目;
3-1)再根据得到的多数类簇集合划分少数类样本,同样将少数类样本看成一个个单独的类簇,得到少数类簇集合
Figure FDA0002629156140000013
4-1)由公式(1)计算两两少数簇间的距离,令Dmin=d(Ca,Cb)并记录下最小距离Dmin及对应的类簇编号a和b;
5-1)遍历多数类簇集合,找到多数簇
Figure FDA0002629156140000014
满足
Figure FDA0002629156140000015
到少数类簇
Figure FDA0002629156140000016
Figure FDA0002629156140000017
的距离均小于两少数类簇最小距离Dmin,将这些多数类簇加入集合B中;
6-1)如果
Figure FDA0002629156140000018
则少数类簇
Figure FDA0002629156140000019
Figure FDA00026291561400000110
不进行合并,并将集合B中元素清空,否则,将少数类簇
Figure FDA00026291561400000111
Figure FDA00026291561400000112
合并成少数类簇
Figure FDA00026291561400000113
则少数类簇集合A中将减少一个元素;
7-1)重新依据公式(1)计算集合A中少数类簇
Figure FDA00026291561400000114
与剩余少数类簇间的距离,重复步骤3-1)至步骤6-1),直到距离最近的少数类簇间的欧式距离大于阈值Th,停止少数类簇的合并,得到最终的少数类簇集合
Figure FDA00026291561400000115
设置距离阈值Th,判断是否做类簇合并,先定义一个值distavg
Figure FDA00026291561400000116
其中,xp和xq同为少数类簇
Figure FDA00026291561400000117
中的样本点,
Figure FDA00026291561400000118
为该类簇中总的样本数目,distavg表示某一少数类簇中两两样本的距离的中位距离总和的平均值,再定义阈值Th如公式(3)所示:
Th=distavg*f (3)
参数f用于调整聚类算法的输出;
2)确定采样权重和概率分布:根据少数类簇中样本数目分配不同的采样权重,记作W(i)如公式(4)所示:
Figure FDA0002629156140000021
其中,N表示少数类簇的总数,num(i)表示第i个少数类簇中的样本数目,由各类簇的采样权重W(i)与剔除噪声样本后剩余的多数类样本与少数类样本的差额Nmaj-Nmin,可以确定每个少数类簇的采样数目num(i)如公式(5)所示:
num(i)=(Nmaj-Nmin)*W(i) (5)
引入少数类簇的概率分布,根据概率分布挑选难以学习的包含重要信息的少数类样本作为“种子样本”,每个样本被选中的概率设置为D(i)公式(6)所示:
Figure FDA0002629156140000022
少数类簇的概率分布为公式(7)所示:
Figure FDA0002629156140000023
其中,ya是x的第a个多数类样本近邻,1≤a≤k,
Figure FDA0002629156140000024
表示少数类子簇中样本x与多类样本ya的欧式距离,i表示少数类簇中的某一样本,n表示某一少数类簇中的样本数目,k为近邻样本的数目,由公式(6)(7)可知,每个样本被选中的概率是依据该样本与多数类边界的距离所确定的,距离多数类边界越近的少数类样本被选择的概率高于距离较远的样本,再由每个样本被选中的概率构成少数类簇的概率分布;
3)限制合成样本的生成区域:在进行样本合成时,在“种子样本”中随机选取一个样本,然后从该样本在同一少数类簇中的近邻少数类样本中再随机选择两个样本,将这三个样本组成一个三角形,样本本身作为三角形顶点,三个顶点分别到其质心的连线上随机生成一个样本,一个三角形产生3个合成样本,采用质心方式来限制样本点的生成区域,假设三个样本点分布为x1,x2,x3,该样本点生成质心区域计算如公式(8)所示:
Figure FDA0002629156140000031
其中,xi代表三个顶点横坐标,yi代表三个顶点纵坐标,在三个样本点到其质心的连线上合成新样本,再将合成样本添加到合成样本集中。
CN202010806035.XA 2020-08-12 2020-08-12 基于层次聚类和改进smote的过采样方法 Pending CN111931853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010806035.XA CN111931853A (zh) 2020-08-12 2020-08-12 基于层次聚类和改进smote的过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010806035.XA CN111931853A (zh) 2020-08-12 2020-08-12 基于层次聚类和改进smote的过采样方法

Publications (1)

Publication Number Publication Date
CN111931853A true CN111931853A (zh) 2020-11-13

Family

ID=73311554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010806035.XA Pending CN111931853A (zh) 2020-08-12 2020-08-12 基于层次聚类和改进smote的过采样方法

Country Status (1)

Country Link
CN (1) CN111931853A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379823A (zh) * 2021-06-03 2021-09-10 上海电机学院 基于构造等边平衡三角形smote算法的少数类样本生成方法
CN113792765A (zh) * 2021-08-24 2021-12-14 西安理工大学 一种基于三角质心权重的过采样方法
CN114595742A (zh) * 2022-01-18 2022-06-07 国网浙江省电力有限公司电力科学研究院 一种燃料电池故障数据采样方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379823A (zh) * 2021-06-03 2021-09-10 上海电机学院 基于构造等边平衡三角形smote算法的少数类样本生成方法
CN113379823B (zh) * 2021-06-03 2022-05-27 上海电机学院 基于构造等边平衡三角形smote算法的少数类样本生成方法
CN113792765A (zh) * 2021-08-24 2021-12-14 西安理工大学 一种基于三角质心权重的过采样方法
CN114595742A (zh) * 2022-01-18 2022-06-07 国网浙江省电力有限公司电力科学研究院 一种燃料电池故障数据采样方法及系统
CN114595742B (zh) * 2022-01-18 2023-09-08 国网浙江省电力有限公司电力科学研究院 一种燃料电池故障数据采样方法及系统

Similar Documents

Publication Publication Date Title
CN111931853A (zh) 基于层次聚类和改进smote的过采样方法
CN110443281B (zh) 基于hdbscan聚类的文本分类自适应过采样方法
CN111967520A (zh) 一种基于改进的smote算法的不平衡数据处理方法
CN106599935B (zh) 基于Spark大数据平台的三支决策不平衡数据过采样方法
CN103136504B (zh) 人脸识别方法及装置
WO2019041629A1 (zh) 基于svm的高维不平衡数据分类方法
CN101853389A (zh) 多类目标的检测装置及检测方法
CN111861103B (zh) 一种基于多特征与多分类器的鲜茶叶分类方法
CN109359704A (zh) 一种基于自适应平衡集成与动态分层决策的多分类方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN113344075A (zh) 基于特征学习与集成学习的高维不平衡数据分类方法
CN115048988B (zh) 基于高斯混合模型的不平衡数据集分类融合方法
CN111259924A (zh) 一种边界合成、混合采样、异常检测算法及数据分类方法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN110222747A (zh) 一种优化的聚类方法
CN113936185A (zh) 一种基于局部密度信息的软件缺陷数据自适应过采样方法
CN114418034A (zh) 一种类别不平衡样本的处理方法和系统
Wang et al. AGNES‐SMOTE: An Oversampling Algorithm Based on Hierarchical Clustering and Improved SMOTE
CN105512675A (zh) 一种基于记忆性多点交叉引力搜索的特征选择方法
Cao et al. Imbalanced data classification using improved clustering algorithm and under-sampling method
CN113269200A (zh) 一种基于少数类样本空间分布的不平衡数据过采样方法
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
Lin et al. A new density-based scheme for clustering based on genetic algorithm
CN112465245A (zh) 一种针对不平衡数据集的产品质量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201113

RJ01 Rejection of invention patent application after publication