CN110852388A - 基于K-means改进的SMOTE算法 - Google Patents

基于K-means改进的SMOTE算法 Download PDF

Info

Publication number
CN110852388A
CN110852388A CN201911104691.9A CN201911104691A CN110852388A CN 110852388 A CN110852388 A CN 110852388A CN 201911104691 A CN201911104691 A CN 201911104691A CN 110852388 A CN110852388 A CN 110852388A
Authority
CN
China
Prior art keywords
sample
samples
data
algorithm
neighbors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911104691.9A
Other languages
English (en)
Inventor
刘明山
于艳玲
周原
石伟诚
杜渐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN201911104691.9A priority Critical patent/CN110852388A/zh
Publication of CN110852388A publication Critical patent/CN110852388A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于K‑means改进的SMOTE算法,该改进算法改进了现有SMOTE算法不能消除噪声样本、无法确定建模效果的偏差、无法解决非平衡数据的分布问题、容易产生分布边缘化问题、对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,使得正负样本的边界越来越模糊的上述问题,为处理不平衡数据集提供了新的方法。

Description

基于K-means改进的SMOTE算法
技术领域
本发明涉及SMOTE算法、K-means算法、不平衡数据集的处理及其应用技术领域,尤其是用来实现不平衡数据集的基于K-means改进的SMOTE算法。
背景技术
SMOTE算法的出现,改进了处理非平衡数据中传统的随机过采样算法,可以有效地对非平衡数据进行纠偏,整体上提高了模型的精度,同时还很大程度上降低了模型的误识率,这是SMOTE算法的优点。其缺陷是没有消除噪声样本,无法确定建模效果的偏差,无法解决非平衡数据的分布问题,容易产生分布边缘化问题,对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,这会使得正负样本的边界越来越模糊,加大样本分类的难度。
发明内容
本发明是为了解决SMOTE算法无法消除噪声样本,容易产生分布边缘化问题,对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,这会使得正负样本的边界越来越模糊,加大样本分类的难度。
实现本发明目的的具体技术方案是:
首先使用K-mean使用算法通过对少数类数据进行聚类操作,选取每个聚类的簇心。这样相当于对少数类数据进行了一个数据的划分,使每个聚类中间的数据相似度最高,且分布均匀,接着修正SMOTE算法的过采样公式。修正后的过采样公式不需要对每一个数据样本选取它的K个最近邻,只需要以每一个簇心为核,每一个聚类内的数据样本为点,进行随机插值。由于在处理不同属性的数据时欧氏距离可能会受到变量量纲的影响,影响距离远近的判断。在本部分使用该方法时,首先对所有变量先进行标准化(即取值减去均值后除以标准差),然后运用该抽样方法得到抽样结果,最后再通过反向标准化(乘以标准差加上均值)进行数据还原,这样能够帮助模型更好地适应原始数据。··
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明专利的更全面理解,本发明专利的其它目的及结果将更加明白及易于理解。在附图中:
图1为基于K-means算法改进的SMOTE算法流程图;
图2为不同算法对相同数据集处理的召回率对比图
具体实施方式
1、对少数类样本运用基于K-means的聚类算法进行分析,由于基于密度的聚类算法能够很容易识别噪声样本,这样每个样本得到一个类别标签;··
2、剔除基于密度聚类算法识别出来的噪声样本,得到剰余少数类样本;
3、对得到的所有变量先进行标准化(即取值减去均值后除以标准差),通过计算x到该类样本集所有样本的欧式距离,利用KNN算法,选出离样本x最近的k个同类样本点,得到其K近邻。
4、根据正负样本比例确定采样倍率为N,对每一个样本x分别随机从K近邻中选取N个样本,假设选择的近邻为x1,x2,…,xN
5、对每个少数类中的每一个样本xi,确定其最近邻样本的集合,记为Smin-NN,并且Smin-NN∈S;
6、针对每个样本xi,获得其最近邻样本中归到多数类Smax的个数,根据公式
|Smin-NN∩Smax|
7、选出满足的xi
8、对于样本xi的每一个随机选出的K近邻
Figure BDA0002270929580000031
(i=1,2,…,N),新样本计算公式:
式中:xi表示少数类别中的一个样本点;(i=1,2,…,N)表示从K近邻中随机挑选的样本点;rand(0,1)表示生成0~1之间的随机数。
9、再通过反向标准化(乘以标准差加上均值)进行数据还原
不断进行上述过程,当少数类和多数类样本数量几乎差不多停止。并将改进的算法应用于信用卡欺诈检测中,并通过在信用卡检测数据集上的实验,进一步验证了本发明的可用性。

Claims (3)

1.基于K-means改进的SMOTE算法,其特征在于:通过K-means算法改进的SMOTE算法可以有效地改进不平衡数据集,提升少数类样本的分类精度,改进效果明显。
2.根据权利要求1所述的基于K-means改进的SMOTE算法,其特征在于:首先使用K-mean使用算法通过对少数类数据进行聚类操作,选取每个聚类的簇心;这样相当于对少数类数据进行了一个数据的划分,使每个聚类中间的数据相似度最高,且分布均匀,接着修正SMOTE算法的过采样公式;修正后的过采样公式不需要对每一个数据样本选取它的K个最近邻,只需要以每一个簇心为核,每一个聚类内的数据样本为点,进行随机插值;由于在处理不同属性的数据时欧氏距离可能会受到变量量纲的影响,影响距离远近的判断;在本部分使用该方法时,首先对所有变量先进行标准化(即取值减去均值后除以标准差),然后运用该抽样方法得到抽样结果,最后再通过反向标准化(乘以标准差加上均值)进行数据还原,这样能够帮助模型更好地适应原始数据。
3.根据权利要求2所述的基于K-means改进的SMOTE算法,其特征在于:
(1)、对少数类样本运用基于K-means的聚类算法进行分析,由于基于密度的聚类算法能够很容易识别噪声样本,这样每个样本得到一个类别标签;
(2)、剔除基于密度聚类算法识别出来的噪声样本,得到剰余少数类样本;
(3)、对得到的所有变量先进行标准化(即取值减去均值后除以标准差),通过计算x到该类样本集所有样本的欧式距离,利用KNN算法,选出离样本x最近的k个同类样本点,得到其K近邻;
(4)、根据正负样本比例确定采样倍率为N,对每一个样本x分别随机从K近邻中选取N个样本,假设选择的近邻为x1,x2,…,xN
(5)、对于每个少数类中的每一个样本xi,确定其最近邻样本的集合,记为Smin-NN,并且Smin-NN∈S;
(6)、针对每个样本xi,获得其最近邻样本中归到多数类Smax的个数,根据公式
|Smin-NN∩Smax|
(7)、选出满足
Figure FDA0002270929570000011
的xi
(8)、对于样本xi的每一个随机选出的K近邻
Figure FDA0002270929570000012
新样本计算公式:
式中:xi表示少数类别中的一个样本点;
Figure FDA0002270929570000014
表示从K近邻中随机挑选的样本点;rand(0,1)表示生成0~1之间的随机数;
(9)、再通过反向标准化(乘以标准差加上均值)进行数据还原不断进行上述过程,当少数类和多数类样本数量几乎差不多停止。
CN201911104691.9A 2019-11-13 2019-11-13 基于K-means改进的SMOTE算法 Pending CN110852388A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911104691.9A CN110852388A (zh) 2019-11-13 2019-11-13 基于K-means改进的SMOTE算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911104691.9A CN110852388A (zh) 2019-11-13 2019-11-13 基于K-means改进的SMOTE算法

Publications (1)

Publication Number Publication Date
CN110852388A true CN110852388A (zh) 2020-02-28

Family

ID=69601423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911104691.9A Pending CN110852388A (zh) 2019-11-13 2019-11-13 基于K-means改进的SMOTE算法

Country Status (1)

Country Link
CN (1) CN110852388A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN113052136A (zh) * 2021-04-22 2021-06-29 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN113159137A (zh) * 2021-04-01 2021-07-23 北京市燃气集团有限责任公司 一种燃气负荷聚类方法及装置
CN114254997A (zh) * 2021-12-07 2022-03-29 苏州大学 基于密度自适应过采样的垃圾邮件分类系统及方法
CN116777325A (zh) * 2023-07-07 2023-09-19 上海福贝宠物用品股份有限公司 一种基于大数据分析的宠食供应链管理系统和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN107330477A (zh) * 2017-07-24 2017-11-07 南京邮电大学 一种针对非均衡数据分类的改进smote再抽样方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111695626A (zh) * 2020-06-10 2020-09-22 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN111695626B (zh) * 2020-06-10 2023-10-31 湖南湖大金科科技发展有限公司 基于混合采样与特征选择的高维度不平衡数据分类方法
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN113159137A (zh) * 2021-04-01 2021-07-23 北京市燃气集团有限责任公司 一种燃气负荷聚类方法及装置
CN113052136A (zh) * 2021-04-22 2021-06-29 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN113052136B (zh) * 2021-04-22 2023-10-10 南京工业大学 一种基于改进Faster RCNN的行人检测方法
CN114254997A (zh) * 2021-12-07 2022-03-29 苏州大学 基于密度自适应过采样的垃圾邮件分类系统及方法
CN116777325A (zh) * 2023-07-07 2023-09-19 上海福贝宠物用品股份有限公司 一种基于大数据分析的宠食供应链管理系统和方法

Similar Documents

Publication Publication Date Title
CN110852388A (zh) 基于K-means改进的SMOTE算法
Bana et al. Fingerprint recognition using image segmentation
CN110826618A (zh) 一种基于随机森林的个人信用风险评估方法
CN102708364B (zh) 基于分级分类器的指纹图像分类方法
CN104537673A (zh) 基于多阈值和自适应模糊聚类的红外图像分割方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
Bhuyan et al. An effective method for fingerprint classification
CN101114335A (zh) 全角度快速指纹识别方法
CN113850281A (zh) 一种基于meanshift优化的数据处理方法和装置
Boussellaa et al. Unsupervised block covering analysis for text-line segmentation of Arabic ancient handwritten document images
CN111275127B (zh) 基于条件互信息的动态特征选择方法
CN111428701B (zh) 小面积指纹图像特征提取方法、系统、终端及存储介质
Mishra et al. A novel technique for fingerprint classification based on naive bayes classifier and support vector machine
CN103246877A (zh) 基于图像轮廓的人脸识别新方法
CN114861760A (zh) 一种基于密度峰值聚类算法的改进研究
CN111127407B (zh) 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法
Bhargava et al. Fingerprint matching using ridge-end and bifurcation points
CN112801113A (zh) 基于多尺度可靠聚类的数据去噪方法
CN111062418A (zh) 一种基于最小生成树的无参数化聚类算法及系统
CN110942089B (zh) 一种基于多级决策的击键识别方法
CN112862767B (zh) 基于度量学习的解决难分不平衡样本的表面缺陷检测方法
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
Manjunatha et al. Interval-valued writer-dependent global features for off-line signature verification
Khodadoust et al. A novel indexing algorithm for latent palmprints leveraging minutiae and orientation field
CN106933805B (zh) 一种大数据集中生物事件触发词的识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200228