CN110674846A - 基于遗传算法和k-means聚类的不平衡数据集过采样方法 - Google Patents

基于遗传算法和k-means聚类的不平衡数据集过采样方法 Download PDF

Info

Publication number
CN110674846A
CN110674846A CN201910806287.XA CN201910806287A CN110674846A CN 110674846 A CN110674846 A CN 110674846A CN 201910806287 A CN201910806287 A CN 201910806287A CN 110674846 A CN110674846 A CN 110674846A
Authority
CN
China
Prior art keywords
samples
data set
sample
cluster
genetic algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910806287.XA
Other languages
English (en)
Inventor
张永
方立超
李世博
张鑫鑫
戴旺
邢宗义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tech University
Original Assignee
Nanjing Tech University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tech University filed Critical Nanjing Tech University
Priority to CN201910806287.XA priority Critical patent/CN110674846A/zh
Publication of CN110674846A publication Critical patent/CN110674846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于遗传算法和k‑means聚类的不平衡数据集过采样方法,包括以下内容:输入原不平衡数据集,并将不平衡数据集划分为训练数据集和测试数据集;将训练数据集分为正类样本集和负类样本集;利用k‑means聚类算法对正类样本集进行聚类,得到若干不同的簇;对每个簇中的样本的数量分配对应的采样权重;计算各个簇中样本数据的马氏距离,并根据马氏距离的大小划分为两组父类样本数据集;根据遗传算法中的交叉算子,利用父类样本数据集合成新的正类样本;将新合成的正类样本和原始训练数据集合并成一个平衡的数据集;利用平衡数据集训练分类器模型;利用测试数据集对分类器模型的性能进行评估。本发明能够有效提高分类器模型对不平衡数据集中正类样本的分类准确率。

Description

基于遗传算法和k-means聚类的不平衡数据集过采样方法
技术领域
本发明属于计算机数据挖掘领域,涉及一种不平衡数据集的过采样分类方法,特别涉及一种基于遗传算法和k-means聚类的不平衡数据集过采样方法。
背景技术
在数据分类领域存在这样一种情形:在数据集中,不同类别样本的数量相差很大,其中数量较多的样本称为多类样本,数量较少的样本称为少类样本,多类样本被称作负类,少类样本被称作正类。通常,采用不平衡率(Imbalance Rate,IR)衡量一个数据集的不平衡程度,它是指数据集中负类样本数量与正类样本数量的比值。在很多实际应用领域,获取正类样本数据的代价往往更大,并且对不平衡数据集正类样本的正确分类通常比负类样本的正确分类具有更大的研究意义和实际应用价值。
这样的不平衡数据集广泛地存在于现实世界中,例如:疾病医疗诊断、物体异常检测、网络入侵预防和信用卡欺诈侦测等。传统的分类算法在设计之初都是假设数据集是平衡数据集,将这些算法直接应用于不平衡数据集分类时,很容易忽略那些更为更要的正类样本,导致正类样本的识别率很低。
目前,解决不平衡数据集分类问题的方法可分为算法层面和数据层面。算法层面通过对已有的分类算法进行改进,使算法在分类时更加偏向正类样本,如代价敏感算法、集成学习算法等,但是它们没有改变样本的分布,改进的算法通常仅适用于某一特定数据集。数据层面使用重采样技术使数据集达到平衡,根据采样对象的不同,重采样可以分为:1)过采样:通过遵循某种策略增加正类样本的数量使数据集平衡的技术;2)欠采样:通过减少负类样本的数量使数据集平衡的技术;3)混合采样:增加正类样本数量的同时减少负类样本的数量,使数据集平衡的技术。比较经典的采样算法有SMOTE、Borderline-SMOTE、MWMOTE等,但是这些算法是基于数据样本的距离对所有样本进行无区别的采样,没有考虑到正类样本的分布特征,导致采样的样本边界模糊重叠,容易使模型过拟合,导致预测精度降低。
发明内容
本发明的目的在于提供一种不平衡数据过采样处理方法,能够在保证整体正确率的同时,有效地提高模型对正类样本的识别精度。
实现本发明目的的技术解决方案为:一种基于遗传算法和k-means聚类的不平衡数据集过采样方法,该方法包括以下步骤:
步骤1、从不平衡数据集分类领域常用的数据库KEEL Dataset中获取不平衡数据集D;
步骤2、将不平衡数据集D划分为训练数据集DTrain和测试数据集DTest
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,并计算使得不平衡数据集能够平衡的待采样样本的数量T;
步骤4、利用k-means聚类算法对正类样本集Nmin进行聚类,获得k个簇Ci,i=1,2,...,k;
步骤5、为每个簇分配相应的采样权重,并根据采样权重计算每个簇需要采样的样本数量;
步骤6、计算各个簇中样本的马氏距离,并根据马氏距离的大小对样本进行排序分组,划分为两组父类数据集;
步骤7、根据遗传算法的交叉算子,利用步骤6中的父类数据集,不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量;
步骤8、将步骤7合成的所有簇的新的正类样本和原始不平衡数据集D合并构成一个平衡数据集,并利用该数据集对分类器模型进行训练;
步骤9、利用测试数据集对步骤8训练好的模型进行性能评估。
进一步地,步骤4所述利用k-means聚类算法对正类样本集Nmin进行聚类,获得k个簇,具体为:
步骤4-1、将正类样本数据集Nmin和待聚类簇的个数k作为输入数据;
步骤4-2、随机产生k个初始簇心:c1,c2,...,ck
步骤4-3、对于正类样本集Nmin中的每个数据样本,分别计算其距离步骤4-2中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
步骤4-4、待将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
步骤4-5、重复步骤4-3和步骤4-4直至簇心不再发生变化或者达到指定的迭代次数,完成聚类。
进一步地,步骤6所述计算各个簇中样本的马氏距离,所用公式为:
Figure BDA0002183765550000031
式中,Dj表示第i个簇Ci中第j个样本的马氏距离,∑-1为第i个簇Ci中所有样本的协方差矩阵,μ为样本的均值,xj为第i个簇Ci中的第j个样本;
根据Dj的大小,对簇Ci中样本进行升序排序,将排序后的样本从中间分为两组,分别作为父类数据集
Figure BDA0002183765550000032
进一步地,步骤7所述根据遗传算法的交叉算子,利用步骤6中的父类数据集,不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量,具体为:
步骤7-1、按对应的位置分别从父类数据集
Figure BDA0002183765550000033
中依次取出两个样本,利用遗传算法的交叉算子规则合成新的子代样本;其中,遗传算法的交叉算子公式为:
Figure BDA0002183765550000034
式中,
Figure BDA0002183765550000035
Figure BDA0002183765550000036
为第g代进行交叉的两个数据样本,l为样本的特征数,
Figure BDA0002183765550000037
为第g+1代对应的数据样本,λ为0到1的随机数;
步骤7-2、判断是否达到该簇需要采样的样本数量,若是,则终止采样;否则,利用新的子代样本和其父代样本继续合成新样本。
本发明与现有技术相比,其显著优点为:1)采用k-means聚类算法,充分考虑到正类样本原始分布特征,避免了新合成的正类样本侵入负类样本分布空间的问题;2)利用马氏距离作为衡量数据样本之间相似性的度量标准,避免了样本不同属性之间量纲的影响;3)将遗传算法的交叉算子引入样本的采样过程,使新样本的特征更具代表性,分布更加均匀,有效的提高了正类样本的识别率,减轻了模型过拟合的风险。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于遗传算法和k-means聚类的不平衡数据集过采样方法的流程图。
图2为本发明整体结构原理图。
图3为本发明实施例在公共数据集上取得的AUC值结果图;其中,图(a)~(d)分别为数据集vehicle0、glass2、glass4和pocker-8-9_vs_6的结果。
图4为本发明实施例在公共数据集上取得的g-means值结果;其中,图(a)~(d)分别为数据集vehicle0、glass2、glass4和pocker-8-9_vs_6的结果。
具体实施方式
结合图1、图2,本发明基于遗传算法和k-means聚类的不平衡数据集过采样方法,包括以下步骤:
步骤1、从不平衡数据集分类领域常用的数据库KEEL Dataset中获取不平衡数据集D;
步骤2、将不平衡数据集D划分为训练数据集DTrain和测试数据集DTest
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,并计算使得不平衡数据集能够平衡的待采样样本的数量T;
步骤4、利用k-means聚类算法对正类样本集Nmin进行聚类,获得k个簇Ci,i=1,2,...,k;
步骤5、为每个簇分配相应的采样权重,并根据采样权重计算每个簇需要采样的样本数量;
步骤6、计算各个簇中样本的马氏距离,并根据马氏距离的大小对样本进行排序分组,划分为两组父类数据集;
步骤7、根据遗传算法的交叉算子,利用步骤6中的父类数据集,不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量;
步骤8、将步骤7合成的所有簇的新的正类样本和原始不平衡数据集D合并构成一个平衡数据集,并利用该数据集对分类器模型进行训练;
步骤9、利用测试数据集对步骤8训练好的模型进行性能评估。
进一步地,步骤3中计算使得不平衡数据集能够平衡的待采样样本的数量T,所用公式为:
T=Mmaj-Mmin
式中,Mmaj为负类样本集Nmaj中的样本数,Mmin为正类样本集Nmin中的样本数。
进一步地,步骤4中利用k-means聚类算法对正类样本集Nmin进行聚类,获得k个簇,具体为:
步骤4-1、将正类样本数据集Nmin和待聚类簇的个数k作为输入数据;
步骤4-2、随机产生k个初始簇心:c1,c2,...,ck
步骤4-3、对于正类样本集Nmin中的每个数据样本,分别计算其距离步骤4-2中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
步骤4-4、待将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
步骤4-5、重复步骤4-3和步骤4-4直至簇心不再发生变化或者达到指定的迭代次数,完成聚类。
进一步地,步骤5中为每个簇分配相应的采样权重,所用公式为:
Figure BDA0002183765550000051
式中,Wi为第i个簇分配的采样权重,Num<Ci>表示第i个簇中数据样本的数量,Num<Nmin>表示正类样本的数量;
根据采样权重计算每个簇应该采样的样本数量:
Ti=Wi*T
式中,Ti表示第i个簇应该采样的样本数量。
进一步地,步骤6所述计算各个簇中样本的马氏距离,所用公式为:
Figure BDA0002183765550000052
式中,Dj表示第i个簇Ci中第j个样本的马氏距离,∑-1为第i个簇Ci中所有样本的协方差矩阵,μ为样本的均值,xj为第i个簇Ci中的第j个样本;
根据Dj的大小,对簇Ci中样本进行升序排序,将排序后的样本从中间分为两组,分别作为父类数据集
Figure BDA0002183765550000053
进一步地,步骤7所述根据遗传算法的交叉算子,利用步骤6中的父类数据集,不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量,具体为:
步骤7-1、按对应的位置分别从父类数据集
Figure BDA0002183765550000061
中依次取出两个样本,利用遗传算法的交叉算子规则合成新的子代样本;其中,遗传算法的交叉算子公式为:
Figure BDA0002183765550000062
式中,
Figure BDA0002183765550000063
Figure BDA0002183765550000064
为第g代进行交叉的两个数据样本,l为样本的特征数,
Figure BDA0002183765550000065
为第g+1代对应的数据样本,λ为0到1的随机数;
步骤7-2、判断是否达到该簇需要采样的样本数量,若是,则终止采样;否则,利用新的子代样本和其父代样本继续合成新样本。
进一步地,步骤8中分类器采用C4.5、AdaC2-I、AdaBoost.NC-I三种分类算法。
进一步地,步骤8中模型训练采用5-fold交叉验证法,即将数据集平均分为5份,每次实验取其中一份作为测试集,而其它四份作为训练集,以五次实验结果的平均值作为最终的结果。
进一步地,步骤9所述的模型评估,采用的评价指标为AUC值和g-mean值,计算公式为:
Figure BDA0002183765550000067
Figure BDA0002183765550000068
Figure BDA0002183765550000069
式中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数,具体可由下面的二分类混淆矩阵表示。
Figure BDA00021837655500000610
下面结合实施例对本发明作进一步详细的描述。
实施例
1、仿真环境
本实施例采用Python 3.5编程语言和KEEL软件进行测试,实验环境为64位Windows操作系统,硬件配置为Intel(R)Core i5-7300HQ CPU@2.50GHz,8G内存。
2、仿真内容与结果分析
本实施例中所使用的数据集均来自KEEL数据库中的不平衡数据集,它们的特征维度和不平衡率各不相同,具体信息如下表1所示。
表1实验数据集
Figure BDA0002183765550000071
实验中,与本发明进行对比试验的采样方法分别为:SMOTE、Borderline-SMOTE和Safe-Level SMOTE,采用的三种分类方法分别为:C4.5、AdaC2-I、AdaBoost.NC-I,中,C4.5为常规分类算法,AdaBoost.NC-I和AdaC2-I为集成分类算法。在仿真实验的过程中,设置k-means聚类算法中超参数k的值为1~4不等,以便寻找最好的聚类个数。模型的评估指标采用AUC值和g-means,具体的仿真结果如下表2-5所示。将下表2-5中的结果以可视化的方式显示为曲线图如图3和图4所示。
表2 glass2实验结果
Figure BDA0002183765550000072
备注:加粗数据为对应分类算法在该指标上取得的最大值
表3 vehicle0实验结果
Figure BDA0002183765550000073
备注:加粗数据为对应分类算法在该指标上取得的最大值
表4 glass4实验结果
Figure BDA0002183765550000081
备注:加粗数据为对应分类算法在该指标上取得的最大值
表5 poker-8-9_vs_6实验结果
Figure BDA0002183765550000082
备注:加粗数据为对应分类算法在该指标上取得的最大值
综合表2-5和图3、图4的结果可以看出,本发明基于遗传算法和k-means聚类的不平衡数据集过采样方法通过聚类技术充分考虑到样本的空间分布特征,在遗传算法交叉算子规则的指导下,合成的样本分布更加均匀,可以有效提高正类样本的识别率。实验证明,在与不同的分类算法结合时,在指标AUC值和g-mean值上均优于其它三种过采样算法,这证明了本发明的稳定性及性能的优越性。

Claims (9)

1.一种基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,该方法包括以下步骤:
步骤1、从不平衡数据集分类领域常用的数据库KEEL Dataset中获取不平衡数据集D;
步骤2、将不平衡数据集D划分为训练数据集DTrain和测试数据集DTest
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,并计算使得不平衡数据集能够平衡的待采样样本的数量T;
步骤4、利用k-means聚类算法对正类样本集Nmin进行聚类,获得k个簇Ci,i=1,2,...,k;
步骤5、为每个簇分配相应的采样权重,并根据采样权重计算每个簇需要采样的样本数量;
步骤6、计算各个簇中样本的马氏距离,并根据马氏距离的大小对样本进行排序分组,划分为两组父类数据集;
步骤7、根据遗传算法的交叉算子,利用步骤6中的父类数据集,不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量;
步骤8、将步骤7合成的所有簇的新的正类样本和原始不平衡数据集D合并构成一个平衡数据集,并利用该数据集对分类器模型进行训练;
步骤9、利用测试数据集对步骤8训练好的模型进行性能评估。
2.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤3所述计算使得不平衡数据集能够平衡的待采样样本的数量T,所用公式为:
T=Mmaj-Mmin
式中,Mmaj为负类样本集Nmaj中的样本数,Mmin为正类样本集Nmin中的样本数。
3.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤4所述利用k-means聚类算法对正类样本集Nmin进行聚类,获得k个簇,具体为:
步骤4-1、将正类样本数据集Nmin和待聚类簇的个数k作为输入数据;
步骤4-2、随机产生k个初始簇心:c1,c2,...,ck
步骤4-3、对于正类样本集Nmin中的每个数据样本,分别计算其距离步骤4-2中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
步骤4-4、待将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
步骤4-5、重复步骤4-3和步骤4-4直至簇心不再发生变化或者达到指定的迭代次数,完成聚类。
4.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤5所述为每个簇分配相应的采样权重,所用公式为:
Figure FDA0002183765540000021
式中,Wi为第i个簇分配的采样权重,Num<Ci>表示第i个簇中数据样本的数量,Num<Nmin>表示正类样本的数量;
根据采样权重计算每个簇应该采样的样本数量:
Ti=Wi*T
式中,Ti表示第i个簇应该采样的样本数量。
5.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤6所述计算各个簇中样本的马氏距离,所用公式为:
Figure FDA0002183765540000022
式中,Dj表示第i个簇Ci中第j个样本的马氏距离,∑-1为第i个簇Ci中所有样本的协方差矩阵,μ为样本的均值,xj为第i个簇Ci中的第j个样本;
根据Dj的大小,对簇Ci中样本进行升序排序,将排序后的样本从中间分为两组,分别作为父类数据集
Figure FDA0002183765540000023
6.根据权利要求5所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤7所述根据遗传算法的交叉算子,利用步骤6中的父类数据集,不断合成新的正类样本直至样本数量达到该簇需要采样的样本数量,具体为:
步骤7-1、按对应的位置分别从父类数据集
Figure FDA0002183765540000031
中依次取出两个样本,利用遗传算法的交叉算子规则合成新的子代样本;其中,遗传算法的交叉算子公式为:
Figure FDA0002183765540000032
式中,
Figure FDA0002183765540000033
Figure FDA0002183765540000034
为第g代进行交叉的两个数据样本,l为样本的特征数,
Figure FDA0002183765540000035
为第g+1代对应的数据样本,λ为0到1的随机数;
步骤7-2、判断是否达到该簇需要采样的样本数量,若是,则终止采样;否则,利用新的子代样本和其父代样本继续合成新样本。
7.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤8所述分类器采用C4.5、AdaC2-I、AdaBoost.NC-I三种分类算法。
8.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤8所述模型训练采用5-fold交叉验证法,即将数据集平均分为5份,每次实验取其中一份作为测试集,而其它四份作为训练集,以五次实验结果的平均值作为最终的结果。
9.根据权利要求1所述的基于遗传算法和k-means聚类的不平衡数据集过采样方法,其特征在于,步骤9所述的模型评估,采用的评价指标为AUC值和g-mean值,计算公式为:
Figure FDA0002183765540000036
Figure FDA0002183765540000037
Figure FDA0002183765540000038
式中,TP表示正类样本被正确分类为正类的样本个数,FN表示正类样本被错误分类为负类的样本个数,TN表示负类样本被正确分类为负类的样本个数,FP表示负类样本被错误分类为正类的样本个数。
CN201910806287.XA 2019-08-29 2019-08-29 基于遗传算法和k-means聚类的不平衡数据集过采样方法 Pending CN110674846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910806287.XA CN110674846A (zh) 2019-08-29 2019-08-29 基于遗传算法和k-means聚类的不平衡数据集过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910806287.XA CN110674846A (zh) 2019-08-29 2019-08-29 基于遗传算法和k-means聚类的不平衡数据集过采样方法

Publications (1)

Publication Number Publication Date
CN110674846A true CN110674846A (zh) 2020-01-10

Family

ID=69075673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910806287.XA Pending CN110674846A (zh) 2019-08-29 2019-08-29 基于遗传算法和k-means聚类的不平衡数据集过采样方法

Country Status (1)

Country Link
CN (1) CN110674846A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080442A (zh) * 2019-12-21 2020-04-28 湖南大学 信用评分模型的构建方法、装置、设备及存储介质
CN111259964A (zh) * 2020-01-17 2020-06-09 上海海事大学 一种不平衡数据集的过采样方法
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN112217822A (zh) * 2020-10-13 2021-01-12 浙江工商大学 一种针对入侵数据的检测方法
CN112906832A (zh) * 2021-04-30 2021-06-04 南京理工大学 基于类别激活映射的不平衡数据采样方法及系统
CN113206307A (zh) * 2021-05-06 2021-08-03 福建工程学院 结合K-means聚类的遗传算法的冗余均衡锂电池管理电路和方法
WO2021189830A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN113706285A (zh) * 2021-07-08 2021-11-26 长江大学 一种信用卡欺诈检测方法
CN114706751A (zh) * 2022-03-09 2022-07-05 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080442A (zh) * 2019-12-21 2020-04-28 湖南大学 信用评分模型的构建方法、装置、设备及存储介质
CN111259964A (zh) * 2020-01-17 2020-06-09 上海海事大学 一种不平衡数据集的过采样方法
CN111259964B (zh) * 2020-01-17 2023-04-07 上海海事大学 一种不平衡数据集的过采样方法
WO2021189830A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN111626336A (zh) * 2020-04-29 2020-09-04 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN111626336B (zh) * 2020-04-29 2023-08-22 南京理工大学 一种基于不平衡数据集的地铁故障数据分类方法
CN112217822B (zh) * 2020-10-13 2022-05-27 浙江工商大学 一种针对入侵数据的检测方法
CN112217822A (zh) * 2020-10-13 2021-01-12 浙江工商大学 一种针对入侵数据的检测方法
CN112906832A (zh) * 2021-04-30 2021-06-04 南京理工大学 基于类别激活映射的不平衡数据采样方法及系统
CN113206307A (zh) * 2021-05-06 2021-08-03 福建工程学院 结合K-means聚类的遗传算法的冗余均衡锂电池管理电路和方法
CN113206307B (zh) * 2021-05-06 2022-08-09 福建工程学院 结合K-means聚类的遗传算法的冗余均衡锂电池管理电路和方法
CN113706285A (zh) * 2021-07-08 2021-11-26 长江大学 一种信用卡欺诈检测方法
CN114706751A (zh) * 2022-03-09 2022-07-05 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN114706751B (zh) * 2022-03-09 2023-09-15 南京理工大学紫金学院 一种基于改进smote的软件缺陷预测方法
CN116862078A (zh) * 2023-09-04 2023-10-10 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质
CN116862078B (zh) * 2023-09-04 2023-12-12 杭州宇谷科技股份有限公司 一种换电套餐用户逾期的预测方法、系统、装置及介质

Similar Documents

Publication Publication Date Title
CN110674846A (zh) 基于遗传算法和k-means聚类的不平衡数据集过采样方法
Zhang et al. Integrating feature selection and feature extraction methods with deep learning to predict clinical outcome of breast cancer
Pomerat et al. On neural network activation functions and optimizers in relation to polynomial regression
CN111626336B (zh) 一种基于不平衡数据集的地铁故障数据分类方法
Strauss Discriminating groups of organisms
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
CN114093515A (zh) 一种基于肠道菌群预测模型集成学习的年龄预测方法
CN109447118A (zh) 一种基于Adaboost和欠采样的不平衡学习方法
Zhang et al. An improved MAHAKIL oversampling method for imbalanced dataset classification
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN110276395A (zh) 基于正则化动态集成的不平衡数据分类方法
Peignier et al. Data-driven gene regulatory networks inference based on classification algorithms
Zuk et al. Ranking under uncertainty
Gil et al. Fusion of feature selection methods in gene recognition
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN111709440B (zh) 基于FSA-Choquet模糊积分的特征选择方法
Cong et al. Big data driven oriented graph theory aided tagsnps selection for genetic precision therapy
Pristyanto et al. Extreme Gradient Boosting Algorithm to Improve Machine Learning Model Performance on Multiclass Imbalanced Dataset
JP5852902B2 (ja) 遺伝子間相互作用解析システム、その方法及びプログラム
CN111488903A (zh) 基于特征权重的决策树特征选择方法
Isnanto et al. Classification of Heart Disease Using Linear Discriminant Analysis Algorithm
Rosyid et al. Classification of lexile level reading load using the k-means clustering and random forest method
CN111383716A (zh) 基因对的筛选方法、装置、计算机设备和存储介质
CN111383708A (zh) 基于化学基因组学的小分子靶标预测算法及其应用
CN112862000B (zh) 一种基于协同表示的样本不平衡分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200110