CN111062425B - 基于c-k-smote算法的不平衡数据集处理方法 - Google Patents

基于c-k-smote算法的不平衡数据集处理方法 Download PDF

Info

Publication number
CN111062425B
CN111062425B CN201911259004.0A CN201911259004A CN111062425B CN 111062425 B CN111062425 B CN 111062425B CN 201911259004 A CN201911259004 A CN 201911259004A CN 111062425 B CN111062425 B CN 111062425B
Authority
CN
China
Prior art keywords
cluster
data set
clustering
algorithm
canopy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911259004.0A
Other languages
English (en)
Other versions
CN111062425A (zh
Inventor
郭朝有
许喆
曹蒙蒙
马砚堃
姚乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN201911259004.0A priority Critical patent/CN111062425B/zh
Publication of CN111062425A publication Critical patent/CN111062425A/zh
Application granted granted Critical
Publication of CN111062425B publication Critical patent/CN111062425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于C‑K‑SMOTE算法的不平衡数据集处理方法,先利用Canopy算法对少数类样本进行快速近似聚类,得到一系列canopy簇;然后再利用K‑means聚类算法对canopy簇再聚类,得到精准聚类簇,最后再利用SMOTE算法基于精准聚类簇进行插值处理,从而增加少数类样本数量使数据样本趋向平衡。本发明中基于C‑K‑SMOTE算法的不平衡数据集处理方法可有效平衡不平衡数据集,既保证了新生成的样本的有效性也保留了原数据分布模式且不存在边界模糊问题,利用修正的SMOTE算法插值公式还避免了近邻样本选择盲目性问题;本发明实现了Canopy算法和K‑means算法有机融合,利用K‑means再聚类解决了Canopy算法聚类精度低的问题,同时利用Canopy聚类克服了K‑means算法聚类簇数难以确定以及初始中心过于随机的问题。

Description

基于C-K-SMOTE算法的不平衡数据集处理方法
技术领域
本发明涉及数据集的处理方法优化领域,尤其涉及基于C-K-SMOTE算法的不平衡数据集处理方法。
背景技术
在类别数量上分布不均衡的数据集称为不平衡数据集,一般将类别数量多的数据样本称为多数类,类别数量少的数据样本称为少数类。不平衡数据集在信用卡诈骗、医疗诊断、网络入侵、故障诊断等领域均广泛存在,如何利用现有分类算法对不平衡数据进行有效分类是数据挖掘领域面临的挑战之一。
目前,主要从两个方面解决不平衡数据集的分类问题:一是从数据层面出发,利用数据平衡化方法使数据集达到平衡,如过采样或欠采样技术等;二是从算法层面出发,通过改进现有算法使其能够针对性地处理不平衡数据,如代价敏感学习、集成学习和单类学习等。
过采样或欠采样技术通过人为地增加或减少原始不平衡数据集中的少数类或多数类样本以改变数据样本的不平衡分布,从而使新的数据集在类别数量上达到平衡。Chawla等人提出的SMOTE(Synthetic Minority Over-Sampling Technique,SMOTE)算法是最为经典的启发式过采样技术,该算法在少数类样本和其近邻样本之间利用随机线性插值的方法合成新的少数类样本。但因对少数类样本进行无差别地选择,导致其合成样本质量不高。为此,Han等人提出了Borderline-SMOTE算法;Yen等人提出了先聚类再抽样的数据平衡化方法;曹正凤提出了C_SMOTE算法;陈斌等提出了KM-SMOTE算法,该方法先利用K-means算法聚类,然后再运用SMOTE算法进行过采样。虽然上述改进方法在一定程度上改善了数据集的不平衡分布,但也存在着一些不足,如数据样本分布模式改变、数据样本重叠导致合成样本有效性不足等。
发明内容
针对上述存在的问题,本发明旨在提供一种基于C-K-SMOTE算法的不平衡数据集处理方法,采用先聚类后插值的处理方法,既保证了新生成的样本的有效性也保留了原数据分布模式且不存在边界模糊问题。
为了实现上述目的,本发明所采用的技术方案如下:
基于C-K-SMOTE算法的不平衡数据集处理方法,其特征在于,包括以下步骤:
S1:利用Canopy算法对不平衡数据集的少数类样本进行快速近似聚类,得到一系列canopy簇;
S2:利用K-means聚类算法对canopy簇再次进行聚类,得到精准聚类簇;
S3:利用SMOTE算法在每一个精准聚类簇内进行插值处理,增加少数类样本数量使不平衡数据集趋向平衡。
进一步的,步骤S1的具体操作过程为:
S11:根据不平衡数据集的特征或者通过多次交叉实验确定距离阈值T1和T2,其中T1>T2
S12:在数据集中任取一点A,若无canopy簇存在,则把A点当作第一个canopy簇;若数据集中已经存在有canopy簇,计算A点与各个canopy簇簇心间距离D,则D={D1,D2,···,Dk},其中,k为canopy聚类簇的簇数;
S13:比较D与T1和T2的大小,若T2<D≤T1,则点A归入相应的canopy簇,并根据canopy簇中各点几何平均值重新调整canopy簇的簇心;若D≤T2,则将点A从数据集中剔除;若D>T1,则将生成一个新的canopy簇,并以点A作为该canopy簇的簇心;
S14:重复执行步骤S12和S13,直至数据集为空,聚类结束,得到一系列canopy簇,每个canopy簇对应一个簇心。
进一步的,步骤S2的具体操作过程为:
S21:选取步骤S1中canopy簇簇心以外的任一数据,计算其到k个簇心的距离,并将它重新划分至距离最近的簇中;
S22:计算每个聚类簇中所有数据样本的平均值,将其作为新的聚类簇簇心,并计算目标函数E的值;
S23:重复步骤S21和S22,直至聚类簇簇心不再变化或者E的值达到收敛条件,聚类结束,得到k个精准聚类簇。
进一步的,所述目标函数E的计算公式为
Figure BDA0002311091920000031
式中,xi表示数据集中第i个数据样本,ωj表示第j个聚类簇,zj表示第j个聚类簇的簇心。
进一步的,所述E值的收敛条件为|E2-E1|<ε,其中,ε取0.001,E1和E2分别代表前后两次迭代的目标函数值。
进一步的,步骤S3的具体操作过程为:
S31:在每个精准聚类簇内,以簇心与该精准聚类簇内的少数类样本进行随机线性插值处理,经过插值后可以得到一个新的合成样本;
S32:将插值得到的新样本放入不平衡数据集中,得到新的不平衡数据集,计算新的数据集的平衡度;
S33:若平衡度达不到要求,在S32得到的新的不平衡数据集的基础上重复S31和S32的操作,直至平衡度达到要求。
进一步的,所述随机线性插值采用的随机插值公式为Pj=Xi+rand(0,1)×(ut-Xi),式中,Xi为少数类样本,i=1,2,…n,n为少数类样本的总数;ut为精准聚类簇簇心,t=1,2,…k;Pj为合成的新数据,j=1,2,…m,m为新合成数据的总数;rand(0,1)表示(0,1)区间的随机数。
进一步的,所述平衡度达到[0.6,1.0]即为达到要求。
本发明的有益效果是:
1、本发明基于C-K-SMOTE算法的不平衡数据集处理方法采用“先聚类后插值”的方法,可有效平衡不平衡数据集,既保证了新生成的样本的有效性也保留了原数据分布模式且不存在边界模糊问题;
2、本发明利用修正的SMOTE算法插值公式避免了近邻样本选择盲目性问题;
3、本发明实现了Canopy算法和K-means算法有机融合,利用K-means再聚类解决了Canopy算法聚类精度低的问题,同时利用Canopy聚类克服了K-means算法聚类簇数难以确定以及初始中心过于随机的问题。
附图说明
图1为本发明C-K-SMOTE算法的流程图;
图2a为本发明实施例一中原始数据样本图;
图2b为本发明实施例一中Canopy聚类生成Canopy簇图;
图2c为本发明实施例一中K-means聚类生成K-means算法聚类图;
图2d为本发明实施例一中基于Canopy和K-means算法对少数类样本聚类最终输出的聚类图;
图2e为本发明实施例一中基于C-K-SMOTE算法合成新样本图;
图2f为本发明实施例一中聚类中心C2合成少数类样本过程示意图;
图3为本发明实施例二的实验G-means指标柱状图;
图4为本发明实施例二的实验F-value指标柱状图;
图5为本发明实施例二的TP/FP散点图。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
结合附图1所示,基于C-K-SMOTE算法的不平衡数据集处理方法,包括以下步骤:
步骤S1:利用Canopy算法对不平衡数据集的少数类样本进行快速近似聚类,得到一系列canopy簇;
具体的,包括以下步骤:
S11:根据不平衡数据集的特征或者通过多次交叉实验确定距离阈值T1和T2,其中T1>T2
S12:在数据集中任取一点A,若无canopy簇存在,则把A点当作第一个canopy簇;若数据集中已经存在有canopy簇,计算A点与各个canopy簇簇心间距离D,则D={D1,D2,···,Dk},其中,k为canopy聚类簇的簇数;
S13:比较D与T1和T2的大小,若T2<D≤T1,则点A归入相应的canopy簇,并根据canopy簇中各点几何平均值重新调整canopy簇的簇心;若D≤T2,则将点A从数据集中剔除;若D>T1,则将生成一个新的canopy簇,并以点A作为该canopy簇的簇心;
S14:重复执行步骤S12和S13,直至数据集为空,聚类结束,得到一系列canopy簇,每个canopy簇对应一个簇心。
进一步的,步骤S2:利用K-means聚类算法对canopy簇再次进行聚类,得到精准聚类簇;
具体的,包括以下步骤S21:选取步骤S1中canopy簇簇心以外的任一数据,计算其到k个簇心的距离,并将它重新划分至距离最近的簇中;
S22:计算每个聚类簇中所有数据样本的平均值,将其作为新的聚类簇簇心,并计算目标函数E的值;目标函数E的计算公式为
Figure BDA0002311091920000071
式中,xi表示数据集中第i个数据样本,ωj表示第j个聚类簇,zj表示第j个聚类簇的簇心。
S23:重复步骤S21和S22,直至聚类簇簇心不再变化或者E的值达到收敛条件,聚类结束,得到k个精准聚类簇;所述E值的收敛条件为|E2-E1|<ε,其中,ε为0.001,E1和E2分别代表前后两次迭代的目标函数值。
进一步的,步骤S3:利用SMOTE算法在每一个精准聚类簇内进行插值处理,增加少数类样本数量使不平衡数据集趋向平衡。
具体的,包括以下步骤:
S31:在每个精准聚类簇内,以簇心与该精准聚类簇内的少数类样本进行随机线性插值处理,经过插值后可以得到一个新的合成样本;
所述随机线性插值采用的随机插值公式为Pj=Xi+rand(0,1)×(ut-Xi),式中,xi为少数类样本,i=1,2,…n,n为少数类样本的总数;ut为精准聚类簇簇心,t=1,2,…k;Pj为合成的新数据,j=1,2,…m,m为新合成数据的总数;rand(0,1)表示(0,1)区间的随机数。
S32:将插值得到的新样本放入不平衡数据集中,得到新的不平衡数据集,计算新的数据集的平衡度;所述平衡度为少数类样本与多数类样本的数量之比;
S33:若平衡度达不到要求,在S32得到的新的不平衡数据集的基础上重复S31和S32的操作,直至平衡度达到要求。所述平衡度达到要求的标准为平衡度值的范围在[0.6,1.0]中。
实施例一:
结合附图2所示,原始少数类样本分布如附图2a所示,运用Canopy算法实现粗聚类,生成以A、B和C为簇心的三个canopy簇,如附图2b所示,运用K-means算法对canopy簇进行再聚类,得到三个精准簇,如图2c所示;经过不断的划分和初始中心优化调整之后,三个精准簇的中心分别为C1、C2和C3,如附图2d所示。
运用K-means算法实现精聚类的过程中,聚类簇数k的值为Canopy聚类输出的canopy簇的个数,并以canopy簇的簇心作为初始聚类中心;该方法实现了Canopy算法和K-means算法有机融合,利用K-means再聚类解决了Canopy算法聚类精度低的问题,同时利用Canopy聚类克服了K-means算法聚类簇数难以确定以及初始中心过于随机的问题。此外,可基于Canopy的聚类结果甄别边界危险点。
基于上述精准簇,运用SMOTE过采样算法,随机插值即可合成新样本,如附图2e所示;其中,精准簇C2的SMOTE算法过采样过程如附图2f所示。
如附图2f所示,以聚类中心C2与该精准簇内所有少数类样本采用随机线性插值的方法生成新样本,所有的新样本全部位于精准簇内,且都位于相应的聚类中心附近,保证了新生成的样本的有效性、保留了原数据分布模式,不存在边界模糊问题,因此有效地解决了传统SMOTE算法存在的问题。
实施例二:
从公开数据集KEEL(Knowledge Extraction on Evolutionary Learning)数据库中的不平衡数据集中,选取Yeast、Ecoli和Page-blocks三组不同不平衡度的数据集,采用10倍5-折交叉验证方法将数据集划分为训练集和测试集,利用本发明中的基于C-K-SMOTE算法对测试数据集进行分类处理,测试数据集如表1所示;
表1测试数据集表
Figure BDA0002311091920000091
为了对比SMOTE算法和C-K-SMOTE算法的数据平衡化性能,设计三组实验方案,如表2所示。其中随机森林的决策树数目设定为100,SMOTE算法的最近邻值设定为3。
表2 C-K-SMOTE算法数据平衡化对比实验方案设计表
Figure BDA0002311091920000101
其中方案一,原始不平衡数据不做平衡化处理,直接运用随机森林算法对其进行分类。
方案二,采用传统SMOTE过采样算法平衡化原始不平衡数据集,得到相对平衡的数据集,然后再基于随机森林算法对处理后的数据集进行分类。
方案三,采用CKSMOTE改进算法对原始不平衡数据集进行平衡化操作,再使用随机森林算法对平衡后的数据集进行分类。
按照上述实验方案对表1中的8个不平衡数据集进行实验,并以G-means值、F-value值和TP/FP散点图等分类性能指标进行综合评价。
G-means值计算结果如表3所述,转换为柱状图如附图3(参照实质审查参考资料中图3)所示。
表3实验G-means指标值
Figure BDA0002311091920000111
由表3和附图3分析可得:
1)CKSMOTE+RF模型在8个数据集上的G-means值均高于SMOTE+RF模型,平均提高了8%左右,这表明CKSMOTE算法相比于传统的SMOTE算法在处理不平衡数据时的平衡效果更好,在提升随机森林算法分类效果上更为显著。
2)数据集的不平衡度越高,C-K-SMOTE算法的数据平衡化性能更好。以Yeast数据集为例,相比于SMOTE算法,Yeast1、Yeast3和Yeast4数据集C-K-SMOTE算法的G-means分别提高了5.66%、5.78%和26.47%。
实验F-value指标值如表4所示,转换为柱状图如附图4(参照实质审查参考资料中图4)所示。
表4实验F-value指标值
序号 数据集 数据集类型 RF SMOTE+RF CKSMOTE+RF
1 Yeast1 低不平衡 0.5342 0.6066 0.5893
2 Yeast3 低不平衡 0.7569 0.7692 0.7615
3 Yeast4 高不平衡 0.1774 0.3430 0.3432
4 Ecoli2 低不平衡 0.8240 0.8279 0.8594
5 Ecoli3 低不平衡 0.5691 0.6331 0.5993
6 Ecoli4 高不平衡 0.7848 0.8528 0.8487
7 Page-blocks0 低不平衡 0.6211 0.6421 0.6826
8 Page-blocks1 高不平衡 0.5526 0.6213 0.6845
由表4和附图4分析可得:
(1)C-K-SMOTE+RF算法在8个数据集下的F-value值比RF算法均有提高,平均提升了约10%,其中Yeast4数据集F-value值提高了将近一倍,在Page-blocks1数据集上也提高了24%左右,即经C-K-SMOTE改进算法平衡化处理后,原始数据集不平衡性得到显著改善,随机森林的分类效果得到明显提升。
(2)对于同一类别不同平衡度数据集,不平衡度越高,C-K-SMOTE+RF算法的平衡化效果越显著。以Ecoli数据集为例,经C-K-SMOTE改进算法平衡化处理后,数据集Ecoli2、Ecoli3和Ecoli4的F-value值相比于RF算法分别提高了4.29%、5.31%和8.15%。
实验TPrate指标值和FPrate指标值分别如表5和表6所示,转换为TP/FP散点图如附图5(参照实质审查参考资料中图5)所示。
表5实验TPrate指标值
序号 数据集 RF SMOTE+RF CKSMOTE+RF
1 Yeast1 0.4801 0.6898 0.6911
2 Yeast3 0.7545 0.8773 0.8769
3 Yeast4 0.4121 0.4727 0.5525
4 Ecoli2 0.7745 0.8309 0.8691
5 Ecoli3 0.5143 0.7714 0.7822
6 Ecoli4 0.7 0.85 0.86
7 Page-blocks0 0.7633 0.7832 0.8122
8 Page-blocks1 0.7821 0.7922 0.8523
表6试验FPrate指标值
序号 数据集 RF SMOTE+RF CKSMOTE+RF
1 Yeast1 0.2115 0.2370 0.1337
2 Yeast3 0.0295 0.0500 0.0333
3 Yeast4 0.0462 0.0440 0.0129
4 Ecoli2 0.0302 0.0316 0.0281
5 Ecoli3 0.0571 0.0763 0.0566
6 Ecoli4 0 0.0095 0.0088
7 Page-blocks0 0.1257 0.1166 0.1053
8 Page-blocks1 0.2213 0.2015 0.1842
由表5、表6和附图5分析可得:
1)C-K-SMOTE+RF模型在8个数据集下的TPrate值均比SMOTE+RF算法有提升,平均提高了约4.48%,同时FPrate值均有所降低,平均降低了约22.02%。即相比于SMOTE+RF模型,C-K-SMOTE+RF模型平衡化不平衡数据性能更优,随机森林分类效果提升程度更高。
2)数据集的不平衡度越高,C-K-SMOTE+RF模型的平衡化效果越显著。以Page-blocks数据集为例,由TP/FP散点图可以看出,经C-K-SMOTE改进算法平衡化处理后,数据集Page-blocks0和Page-blocks1Ecoli4的坐标位置相比于SMOTE+RF算法更趋近于左上角(0,1)的位置,这直观地表明了C-K-SMOTE改进算法能够更好地平衡不平衡数据集,同时也能改善随机森林的分类效果。
综合上述G-means值和TP/FP散点图的分析,本文所设计的C-K-SMOTE算法在平衡化处理不平衡数据集时效果更优,C-K-SMOTE+RF分类模型对少数类样本识别准确率更高,特别是对于不平衡度较大的数据集,其效果更加显著。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.基于C-K-SMOTE算法的不平衡数据集处理方法,其特征在于,包括以下步骤:
S1:利用Canopy算法对不平衡数据集的少数类样本进行快速近似聚类,得到一系列canopy簇;
S2:利用K-means聚类算法对canopy簇再次进行聚类,得到精准聚类簇;
S3:利用SMOTE算法在每一个精准聚类簇内进行插值处理,增加少数类样本数量使不平衡数据集趋向平衡;
步骤S1的具体操作过程为:
S11:根据不平衡数据集的特征或者通过多次交叉实验确定距离阈值T1和T2,其中T1>T2
S12:在数据集中任取一点A,若无canopy簇存在,则把A点当作第一个canopy簇;若数据集中已经存在有canopy簇,计算A点与各个canopy簇簇心间距离D,则D={D1,D2,…,Dk},其中,k为canopy聚类簇的簇数;
S13:比较D与T1和T2的大小,若T2<D≤T1,则点A归入相应的canopy簇,并根据canopy簇中各点几何平均值重新调整canopy簇的簇心;若D≤T2,则将点A从数据集中剔除;若D>T1,则将生成一个新的canopy簇,并以点A作为该canopy簇的簇心;
S14:重复执行步骤S12和S13,直至数据集为空,聚类结束,得到一系列canopy簇,每个canopy簇对应一个簇心;
步骤S2的具体操作过程为:
S21:选取步骤S1中canopy簇簇心以外的任一数据,计算其到k个簇心的距离,并将它重新划分至距离最近的簇中;
S22:计算每个聚类簇中所有数据样本的平均值,将其作为新的聚类簇簇心,并计算目标函数E的值;
所述目标函数E的计算公式为
Figure FDA0003748566890000021
式中,xi表示数据集中第i个数据样本,ωj表示第j个聚类簇,zj表示第j个聚类簇的簇心;
S23:重复步骤S21和S22,直至E的值达到收敛条件,聚类结束,得到k个精准聚类簇;
所述E值的收敛条件为|E2-E1|<ε,其中,ε取0.001,E1和E2分别代表前后两次迭代的目标函数值;
步骤S3的具体操作过程为:
S31:在每个精准聚类簇内,以簇心与该精准聚类簇内的少数类样本进行随机线性插值处理,经过插值后可以得到一个新的合成样本;
所述随机线性插值采用的随机插值公式为Pj=Xi+rand(0,1)×(ut-Xi),式中,Xi为少数类样本,i=1,2,…n,n为少数类样本的总数;ut为精准聚类簇簇心,t=1,2,…k;Pj为合成的新数据,j=1,2,…m,m为新合成数据的总数;rand(0,1)表示(0,1)区间的随机数;
S32:将插值得到的新样本放入不平衡数据集中,得到新的不平衡数据集,计算新的数据集的平衡度;
S33:若平衡度达不到要求,在S32得到的新的不平衡数据集的基础上重复S31和S32的操作,直至平衡度达到[0.6,1.0]要求。
CN201911259004.0A 2019-12-10 2019-12-10 基于c-k-smote算法的不平衡数据集处理方法 Active CN111062425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911259004.0A CN111062425B (zh) 2019-12-10 2019-12-10 基于c-k-smote算法的不平衡数据集处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911259004.0A CN111062425B (zh) 2019-12-10 2019-12-10 基于c-k-smote算法的不平衡数据集处理方法

Publications (2)

Publication Number Publication Date
CN111062425A CN111062425A (zh) 2020-04-24
CN111062425B true CN111062425B (zh) 2022-10-28

Family

ID=70300494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911259004.0A Active CN111062425B (zh) 2019-12-10 2019-12-10 基于c-k-smote算法的不平衡数据集处理方法

Country Status (1)

Country Link
CN (1) CN111062425B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626336B (zh) * 2020-04-29 2023-08-22 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN112165464B (zh) * 2020-09-15 2021-11-02 江南大学 一种基于深度学习的工控混合入侵检测方法
CN112861928A (zh) * 2021-01-19 2021-05-28 苏州大学 一种面向不均衡语音数据集的数据生成方法及系统
CN113591896A (zh) * 2021-05-18 2021-11-02 广西电网有限责任公司电力科学研究院 一种电网攻击事件分类检测方法
CN114595742B (zh) * 2022-01-18 2023-09-08 国网浙江省电力有限公司电力科学研究院 一种燃料电池故障数据采样方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN110309202A (zh) * 2019-06-30 2019-10-08 哈尔滨理工大学 一种改进的过采样smote算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220732B (zh) * 2017-05-31 2021-01-29 福州大学 一种基于梯度提升树的停电投诉风险预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095266A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 一种基于Canopy算法的聚类优化方法及系统
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN110309202A (zh) * 2019-06-30 2019-10-08 哈尔滨理工大学 一种改进的过采样smote算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于KM-SMOTE和随机森林的不平衡数据分类;陈 斌;《计算机技术与发展》;20150930;全文 *

Also Published As

Publication number Publication date
CN111062425A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN106570178B (zh) 一种基于图聚类的高维文本数据特征选择方法
CN107292350A (zh) 大规模数据的异常检测方法
CN108846259A (zh) 一种基于聚类和随机森林算法的基因分类方法及系统
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN110751121B (zh) 基于聚类与sofm的无监督雷达信号分选方法
CN111382797B (zh) 一种基于样本密度和自适应调整聚类中心的聚类分析方法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN107832456B (zh) 一种基于临界值数据划分的并行knn文本分类方法
CN113344019A (zh) 一种决策值选取初始聚类中心改进的K-means算法
CN112633337A (zh) 一种基于聚类和边界点的不平衡数据处理方法
CN110377605B (zh) 一种结构化数据的敏感属性识别与分类分级方法
CN105389480A (zh) 多类不平衡基因组学数据迭代集成特征选择方法及系统
CN107579846A (zh) 一种云计算故障数据检测方法及系统
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN111275132A (zh) 一种基于sa-pfcm++算法的目标分群方法
CN106055928A (zh) 一种宏基因组重叠群的分类方法
CN110245692B (zh) 一种用于集合数值天气预报成员的层次聚类方法
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN111782904B (zh) 一种基于改进smote算法的非平衡数据集处理方法及系统
CN110706004B (zh) 一种基于层次聚类的农田重金属污染物溯源方法
CN110837853A (zh) 一种快速分类模型构建方法
CN116564409A (zh) 基于机器学习的转移性乳腺癌转录组测序数据识别方法
CN113434401B (zh) 基于样本分布特征和spy算法的软件缺陷预测方法
CN114334033B (zh) 抗乳腺癌候选药物分子描述符的筛选方法、系统及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant