CN110852388A - 基于K-means改进的SMOTE算法 - Google Patents
基于K-means改进的SMOTE算法 Download PDFInfo
- Publication number
- CN110852388A CN110852388A CN201911104691.9A CN201911104691A CN110852388A CN 110852388 A CN110852388 A CN 110852388A CN 201911104691 A CN201911104691 A CN 201911104691A CN 110852388 A CN110852388 A CN 110852388A
- Authority
- CN
- China
- Prior art keywords
- sample
- samples
- data
- algorithm
- neighbors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于K‑means改进的SMOTE算法,该改进算法改进了现有SMOTE算法不能消除噪声样本、无法确定建模效果的偏差、无法解决非平衡数据的分布问题、容易产生分布边缘化问题、对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,使得正负样本的边界越来越模糊的上述问题,为处理不平衡数据集提供了新的方法。
Description
技术领域
本发明涉及SMOTE算法、K-means算法、不平衡数据集的处理及其应用技术领域,尤其是用来实现不平衡数据集的基于K-means改进的SMOTE算法。
背景技术
SMOTE算法的出现,改进了处理非平衡数据中传统的随机过采样算法,可以有效地对非平衡数据进行纠偏,整体上提高了模型的精度,同时还很大程度上降低了模型的误识率,这是SMOTE算法的优点。其缺陷是没有消除噪声样本,无法确定建模效果的偏差,无法解决非平衡数据的分布问题,容易产生分布边缘化问题,对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,这会使得正负样本的边界越来越模糊,加大样本分类的难度。
发明内容
本发明是为了解决SMOTE算法无法消除噪声样本,容易产生分布边缘化问题,对于边缘的少类样本,对其进行K近邻生成样本也位于边缘且会越来越边缘化,这会使得正负样本的边界越来越模糊,加大样本分类的难度。
实现本发明目的的具体技术方案是:
首先使用K-mean使用算法通过对少数类数据进行聚类操作,选取每个聚类的簇心。这样相当于对少数类数据进行了一个数据的划分,使每个聚类中间的数据相似度最高,且分布均匀,接着修正SMOTE算法的过采样公式。修正后的过采样公式不需要对每一个数据样本选取它的K个最近邻,只需要以每一个簇心为核,每一个聚类内的数据样本为点,进行随机插值。由于在处理不同属性的数据时欧氏距离可能会受到变量量纲的影响,影响距离远近的判断。在本部分使用该方法时,首先对所有变量先进行标准化(即取值减去均值后除以标准差),然后运用该抽样方法得到抽样结果,最后再通过反向标准化(乘以标准差加上均值)进行数据还原,这样能够帮助模型更好地适应原始数据。··
附图说明
通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明专利的更全面理解,本发明专利的其它目的及结果将更加明白及易于理解。在附图中:
图1为基于K-means算法改进的SMOTE算法流程图;
图2为不同算法对相同数据集处理的召回率对比图
具体实施方式
1、对少数类样本运用基于K-means的聚类算法进行分析,由于基于密度的聚类算法能够很容易识别噪声样本,这样每个样本得到一个类别标签;··
2、剔除基于密度聚类算法识别出来的噪声样本,得到剰余少数类样本;
3、对得到的所有变量先进行标准化(即取值减去均值后除以标准差),通过计算x到该类样本集所有样本的欧式距离,利用KNN算法,选出离样本x最近的k个同类样本点,得到其K近邻。
4、根据正负样本比例确定采样倍率为N,对每一个样本x分别随机从K近邻中选取N个样本,假设选择的近邻为x1,x2,…,xN。
5、对每个少数类中的每一个样本xi,确定其最近邻样本的集合,记为Smin-NN,并且Smin-NN∈S;
6、针对每个样本xi,获得其最近邻样本中归到多数类Smax的个数,根据公式
|Smin-NN∩Smax|
7、选出满足的xi
式中:xi表示少数类别中的一个样本点;(i=1,2,…,N)表示从K近邻中随机挑选的样本点;rand(0,1)表示生成0~1之间的随机数。
9、再通过反向标准化(乘以标准差加上均值)进行数据还原
不断进行上述过程,当少数类和多数类样本数量几乎差不多停止。并将改进的算法应用于信用卡欺诈检测中,并通过在信用卡检测数据集上的实验,进一步验证了本发明的可用性。
Claims (3)
1.基于K-means改进的SMOTE算法,其特征在于:通过K-means算法改进的SMOTE算法可以有效地改进不平衡数据集,提升少数类样本的分类精度,改进效果明显。
2.根据权利要求1所述的基于K-means改进的SMOTE算法,其特征在于:首先使用K-mean使用算法通过对少数类数据进行聚类操作,选取每个聚类的簇心;这样相当于对少数类数据进行了一个数据的划分,使每个聚类中间的数据相似度最高,且分布均匀,接着修正SMOTE算法的过采样公式;修正后的过采样公式不需要对每一个数据样本选取它的K个最近邻,只需要以每一个簇心为核,每一个聚类内的数据样本为点,进行随机插值;由于在处理不同属性的数据时欧氏距离可能会受到变量量纲的影响,影响距离远近的判断;在本部分使用该方法时,首先对所有变量先进行标准化(即取值减去均值后除以标准差),然后运用该抽样方法得到抽样结果,最后再通过反向标准化(乘以标准差加上均值)进行数据还原,这样能够帮助模型更好地适应原始数据。
3.根据权利要求2所述的基于K-means改进的SMOTE算法,其特征在于:
(1)、对少数类样本运用基于K-means的聚类算法进行分析,由于基于密度的聚类算法能够很容易识别噪声样本,这样每个样本得到一个类别标签;
(2)、剔除基于密度聚类算法识别出来的噪声样本,得到剰余少数类样本;
(3)、对得到的所有变量先进行标准化(即取值减去均值后除以标准差),通过计算x到该类样本集所有样本的欧式距离,利用KNN算法,选出离样本x最近的k个同类样本点,得到其K近邻;
(4)、根据正负样本比例确定采样倍率为N,对每一个样本x分别随机从K近邻中选取N个样本,假设选择的近邻为x1,x2,…,xN;
(5)、对于每个少数类中的每一个样本xi,确定其最近邻样本的集合,记为Smin-NN,并且Smin-NN∈S;
(6)、针对每个样本xi,获得其最近邻样本中归到多数类Smax的个数,根据公式
|Smin-NN∩Smax|
(9)、再通过反向标准化(乘以标准差加上均值)进行数据还原不断进行上述过程,当少数类和多数类样本数量几乎差不多停止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911104691.9A CN110852388A (zh) | 2019-11-13 | 2019-11-13 | 基于K-means改进的SMOTE算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911104691.9A CN110852388A (zh) | 2019-11-13 | 2019-11-13 | 基于K-means改进的SMOTE算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110852388A true CN110852388A (zh) | 2020-02-28 |
Family
ID=69601423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911104691.9A Pending CN110852388A (zh) | 2019-11-13 | 2019-11-13 | 基于K-means改进的SMOTE算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110852388A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN112115992A (zh) * | 2020-09-10 | 2020-12-22 | 西北工业大学 | 基于聚类过采样与实例硬度阈值的数据重采样方法 |
CN113052136A (zh) * | 2021-04-22 | 2021-06-29 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113159137A (zh) * | 2021-04-01 | 2021-07-23 | 北京市燃气集团有限责任公司 | 一种燃气负荷聚类方法及装置 |
CN114254997A (zh) * | 2021-12-07 | 2022-03-29 | 苏州大学 | 基于密度自适应过采样的垃圾邮件分类系统及方法 |
CN116777325A (zh) * | 2023-07-07 | 2023-09-19 | 上海福贝宠物用品股份有限公司 | 一种基于大数据分析的宠食供应链管理系统和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN107330477A (zh) * | 2017-07-24 | 2017-11-07 | 南京邮电大学 | 一种针对非均衡数据分类的改进smote再抽样方法 |
-
2019
- 2019-11-13 CN CN201911104691.9A patent/CN110852388A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930856A (zh) * | 2016-03-23 | 2016-09-07 | 深圳市颐通科技有限公司 | 基于改进dbscan-smote算法的分类方法 |
CN107330477A (zh) * | 2017-07-24 | 2017-11-07 | 南京邮电大学 | 一种针对非均衡数据分类的改进smote再抽样方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695626A (zh) * | 2020-06-10 | 2020-09-22 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN111695626B (zh) * | 2020-06-10 | 2023-10-31 | 湖南湖大金科科技发展有限公司 | 基于混合采样与特征选择的高维度不平衡数据分类方法 |
CN112115992A (zh) * | 2020-09-10 | 2020-12-22 | 西北工业大学 | 基于聚类过采样与实例硬度阈值的数据重采样方法 |
CN113159137A (zh) * | 2021-04-01 | 2021-07-23 | 北京市燃气集团有限责任公司 | 一种燃气负荷聚类方法及装置 |
CN113052136A (zh) * | 2021-04-22 | 2021-06-29 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN113052136B (zh) * | 2021-04-22 | 2023-10-10 | 南京工业大学 | 一种基于改进Faster RCNN的行人检测方法 |
CN114254997A (zh) * | 2021-12-07 | 2022-03-29 | 苏州大学 | 基于密度自适应过采样的垃圾邮件分类系统及方法 |
CN116777325A (zh) * | 2023-07-07 | 2023-09-19 | 上海福贝宠物用品股份有限公司 | 一种基于大数据分析的宠食供应链管理系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852388A (zh) | 基于K-means改进的SMOTE算法 | |
Bana et al. | Fingerprint recognition using image segmentation | |
CN110826618A (zh) | 一种基于随机森林的个人信用风险评估方法 | |
CN102708364B (zh) | 基于分级分类器的指纹图像分类方法 | |
CN104537673A (zh) | 基于多阈值和自适应模糊聚类的红外图像分割方法 | |
CN111062425B (zh) | 基于c-k-smote算法的不平衡数据集处理方法 | |
Bhuyan et al. | An effective method for fingerprint classification | |
CN101114335A (zh) | 全角度快速指纹识别方法 | |
CN113850281A (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
Boussellaa et al. | Unsupervised block covering analysis for text-line segmentation of Arabic ancient handwritten document images | |
CN111275127B (zh) | 基于条件互信息的动态特征选择方法 | |
CN111428701B (zh) | 小面积指纹图像特征提取方法、系统、终端及存储介质 | |
Mishra et al. | A novel technique for fingerprint classification based on naive bayes classifier and support vector machine | |
CN103246877A (zh) | 基于图像轮廓的人脸识别新方法 | |
CN114861760A (zh) | 一种基于密度峰值聚类算法的改进研究 | |
CN111127407B (zh) | 一种基于傅里叶变换的风格迁移伪造图像检测装置及方法 | |
Bhargava et al. | Fingerprint matching using ridge-end and bifurcation points | |
CN112801113A (zh) | 基于多尺度可靠聚类的数据去噪方法 | |
CN111062418A (zh) | 一种基于最小生成树的无参数化聚类算法及系统 | |
CN110942089B (zh) | 一种基于多级决策的击键识别方法 | |
CN112862767B (zh) | 基于度量学习的解决难分不平衡样本的表面缺陷检测方法 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
Manjunatha et al. | Interval-valued writer-dependent global features for off-line signature verification | |
Khodadoust et al. | A novel indexing algorithm for latent palmprints leveraging minutiae and orientation field | |
CN106933805B (zh) | 一种大数据集中生物事件触发词的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200228 |