CN113379823B - 基于构造等边平衡三角形smote算法的少数类样本生成方法 - Google Patents
基于构造等边平衡三角形smote算法的少数类样本生成方法 Download PDFInfo
- Publication number
- CN113379823B CN113379823B CN202110619809.2A CN202110619809A CN113379823B CN 113379823 B CN113379823 B CN 113379823B CN 202110619809 A CN202110619809 A CN 202110619809A CN 113379823 B CN113379823 B CN 113379823B
- Authority
- CN
- China
- Prior art keywords
- minority
- sample
- samples
- distance
- equilateral
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000010276 construction Methods 0.000 title description 4
- 239000013598 vector Substances 0.000 claims abstract description 9
- 238000000513 principal component analysis Methods 0.000 claims description 3
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Geometry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,其包括:从数据集中获取少数类样本集S,确定参与生成少数类样本的最近邻样本的个数k,并确定距离阈值ε;计算少数类样本集S的均值向量μ0;计算各少数类样本与均值向量μ0的巴氏距离,获取巴氏距离最小的少数类样本Xj;搜寻少数类样本集S中其他少数类样本,将与少数类样本Xj的巴氏距离Bki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G;将样本集G中的各样本之间两两连线,以各连接线为边分别构造等边三角形,并以各等边三角形的中点为新生成的少数类样本。该方法能够更全面地利用多数类和少数类的样本空间,使生成的新样本所携带的信息更加丰富多元。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法。
背景技术
SMOTE过采样技术广泛运用于不平衡数据集以合成新少数类样本,该算法对少数类分析后进行过采样,其主要思想是取每一个少数类样本点x1,计算出该少数类样本点与剩余少数类样本的欧式距离,根据欧式距离最终选择出k个最近邻样本点,在x1与其k个最近邻样本点的连线中以0~1之间的采样倍率线性插值,从而产生新的合成数据(synthesized data),其合成原理如下公式:合成示意图如附图1。自从经典的SMOTE过采样技术被提出以来,衍生出一系列基于SMOTE变体的改进技术,这些改进技术大体上着眼于SMOTE最近邻的选取(Borderline-SMOTE)、对SMOTE线性插值的改进(TheImbalanced Triangle Synthetic Data Method)、以及非线性数据集的核映射(NKSMOTE)。
现有基于SMOTE的改进技术主要存在两点的不足:其一主要体现在对最近邻样本选取的时候往往都是采用最简单的欧式距离来度量两个样本点之间的距离,虽然欧式距离简单明了,能直观地描述了两个样本间的距离及他们与其他剩余样本间的差异,但是实际应用中采集到的数据集各个类别之间的样本的分布之间总是存在些许联系,单纯孤立地计算两个样本之间的欧式距离,再根据计算得出的数值进行大小的比较进而推断两个样本间的相似度并不能准确地表达出两个样本间的真实差异,因而以欧式距离选择出来的参与生成少数类样本的k个最近邻样本并不能很好的代表少数类这一类别;其二主要是SMOTE在对两个样本间合成新样本的时候采用的是线性插值的方式,线性插值合成的新样本往往只是利用了少数类样本间的信息,因而忽略了多数类中对分类结果造成影响的潜在有用信息。分类问题是综合了多个类别的样本信息而进行的处理分类任务,因此在合成新样本的时候不能单一地只考虑一类样本的信息。
综上所述,现有SMOTE过采样技术及其变体在合成新样本时普遍存在的未能综合考虑样本间的类分布结构、简单的计算样本间欧式距离后进行线性插值使得新合成的样本所包含的信息单一化、片面化、缺乏代表性,造成不平衡数据集分类的结果达不到预期效果的问题。
发明内容
本发明的目的是根据上述现有技术的不足之处,提供一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,通过采用巴氏距离替代欧氏距离,并采用构造三角形的方式进行插值替代线性插值,解决了现有技术中存在的不足。
本发明目的实现由以下技术方案完成:
一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,其包括:
(S1)从数据集中获取少数类样本集S,确定参与生成少数类样本的最近邻样本的个数k,并确定距离阈值ε;
(S2)计算少数类样本集S中各少数类样本的均值向量μ0;
(S3)计算少数类样本集S中各少数类样本与均值向量μ0的巴氏距离,获取巴氏距离最小的少数类样本Xj;
(S4)搜寻少数类样本集S中其他少数类样本,将与少数类样本Xj的巴氏距离Bki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G,直到样本集G中的样本个数等于k或者少数类样本集S搜寻完成;
(S5)将样本集G中的各样本之间两两连线,以各连接线为边分别构造等边三角形,并以各等边三角形的中点为新生成的少数类样本。
本发明的进一步改进在于,步骤(S5)中以连接线为边分别构造等边三角形的过程中,若样本的维度大于二,使用主成分分析技术将样本降维至二维,并在二维情况下构造等边三角形性并生成新的少数类样本。
本发明的优点是:本发明的方法选取基于样本间的巴氏距离为边长构造的等边三角形的中心点,能够较为全面地利用多数类和少数类的样本空间,使得生成的新样本所携带的信息更加丰富、多元,也能够综合反映类别之间的真实分布结构。
附图说明
图1是现有的SMOTE算法合成原理图;
图2是本发明的改进SMOTE算法的流程图;
图3是原始SMOTE算法合成原理图;
图4是本发明的SMOTE算法合成原理图;
图5是原始SMOTE算法与本发明的SMOTE算法的对比图。
具体实施方式
实施例:如图2所示,本发明的实施例包括一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,该方法综合分析了SMOTE算法尚存在的不足,结合不平衡数据集中少数类和多数类样本间的分布特征,建立了基于SMOTE改进的构造等边平衡三角形合成少数类模型,以合成的少数类样本所含信息更富有代表性,能综合地反映多数类和少数类的样本信息为目标,设计了以巴氏距离替代欧式距离、样本间连线为边长构造等边平衡三角形并以其中点为插值点代替线性插值点两种方案。
具体的,如图2所示,本发明实施例包括以下步骤:
(S1)从数据集中获取少数类样本集S,确定参与生成少数类样本的最近邻样本的个数k,并确定距离阈值ε;距离阈值ε是根据初始的少数类样本集S的均值的大小所决定的,其取值范围在样本均值上下波动,用户可以根据新合成少数类样本的质量,来对阈值的大小进行调整。最近邻k值的选取是由用户根据自己所需要合成少数类数量自行确定的,所以k是一个大于0的超参数,是用户根据多数类和少数类的不平衡比值,为了确定想要合成的少数类数量而选择的一个参数。少数类样本集S的形式为:S={xi|i=1,2,…,p}
(S2)计算少数类样本集S中各少数类样本的均值向量μ0;
(S3)计算少数类样本集S中各少数类样本与均值向量μ0的巴氏距离,获取巴氏距离最小的少数类样本Xj。样本间的巴氏距离的定义为:在n维特征空间中,先验概率相同的ij两类正态分布时的巴氏距离与Bayes最小错误率上界εij的关系是:
其中巴氏距离:
n维空间中类i的类内散布矩阵:
Swi=E[(X-Mi)(X-Mi)t]
n维空间中类j的类内散布矩阵:
Swj=E[(X-Mj)(X-Mj)t]
n维空间中类ij的平均类内散布矩阵:
n维空间中类ij的类间散布矩阵:
Sbij=(Mi-Mj)(Mi-Mj)t
n维空间中类ij均值向量分别是Mi和Mj。
从巴氏距离的计算公式中我们很明显可以看出,相对与欧式距离,巴氏距离既可以考虑到样本中的均值,也考虑到了样本间的类分布特征,可以更全面的考虑样本之间的关系,有效地避免了单一计算欧式距离选择样本的盲目性,降低了生成新样本进行训练时过拟合的风险。而且可以更好的提高新生成样本的质量、降低边界元素生成新样本后对分类结果产生负面消极影响。
(S4)搜寻少数类样本集S中其他少数类样本(除了巴氏距离最小的少数类样本Xj),将与少数类样本Xj的巴氏距离Bki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G,直到样本集G中的样本个数等于k或者少数类样本集S搜寻完成。在初始情况下,样本集G为空集。
(S5)将样本集G中的各样本之间两两连线,以各连接线为边分别构造等边三角形,并以各等边三角形的中点为新生成的少数类样本。
图3、4、5直观地描述了原始SMOTE算法和基于SMOTE算法改进的构造等边平衡三角形算法的对比合成原理。如附图4所示,将上述步骤(S1)至(S4)所选出的参与少数类样本生成的样本集G间的样本两两连线,并以它们之间连线的长度为边构造等边三角形,取等边三角形的中心点代替原始SMOTE技术采用的线性插值点来生成新样本。直接在两个样本间进行线性插值易导致新生成的样本所含信息单一且增大了过拟合的风险。因而选取基于样本间的巴氏距离为边长构造的等边三角形的中心点,能够较为全面地利用多数类和少数类的样本空间,使得生成的新样本所携带的信息更加丰富、多元,也能够综合反映类别之间的真实分布结构。
具体的,以连接线为边分别构造等边三角形的过程中,若样本的维度大于二,使用主成分分析技术将样本降维至二维,并在二维情况下构造等边三角形性并生成新的少数类样本。在二维情况下,每两个样本可构件两个三角形,每个三角形可得到一个新的样本。
本技术方案主要是通过对原始的SMOTE算法进行两点的改进和完善来使得运用SMOTE变体生成少数类样本更加具有代表性和泛化性。其一考虑到SMOTE在计算少数类样本间的距离时狭隘地使用欧式距离度量样本间的物理距离,导致在生成新样本的时候极大地忽略了样本间的类分布结构,生成的样本不具有代表性;其二SMOTE简单的在两个样本的连线处进行线性插值,使得生成的少数类样本包含的信息过于匮乏,不仅易造成过拟合的想象,还最小化了多数类所携带的潜在有用信息对分类的影响。针对现有处理不平衡数据集技术存在的这两点的不足,用巴氏距离代替欧式距离,所选择出参与新样本生成的少数类样本综合考虑了少数类分布的均值,使得合成的新样本能够较好地反映类的分布结构特征。等边三角形的特殊性赋予了其中心点与众不同地含义,因而以多数类和少数类之间的类分布特征为例,以样本间连线的直线为边构造等边三角形,可以综合考虑多数类和少数类之间的分布内在结构,其中心点是两个类别信息的交汇点和集中点,能更好的反映少数类和多数类之间的分布特征。
以上的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、同替换和改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,其包括:
(S1)从数据集中获取少数类样本集S,确定参与生成少数类样本的最近邻样本的个数k,并确定距离阈值ε;
(S2)计算少数类样本集S中各少数类样本的均值向量μ0;
(S3)计算少数类样本集S中各少数类样本与均值向量μ0的巴氏距离,获取巴氏距离最小的少数类样本Xj;
(S4)搜寻少数类样本集S中其他少数类样本,将与少数类样本Xj的巴氏距离Bki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G,直到样本集G中的样本个数等于k或者少数类样本集S搜寻完成;
(S5)将样本集G中的各样本之间两两连线,以各连接线为边分别构造等边三角形,并以各等边三角形的中点为新生成的少数类样本。
2.根据权利要求1所述的一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法,其特征在于,步骤(S5)中以连接线为边分别构造等边三角形的过程中,若样本的维度大于二,使用主成分分析技术将样本降维至二维,并在二维情况下构造等边三角形并生成新的少数类样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110619809.2A CN113379823B (zh) | 2021-06-03 | 2021-06-03 | 基于构造等边平衡三角形smote算法的少数类样本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110619809.2A CN113379823B (zh) | 2021-06-03 | 2021-06-03 | 基于构造等边平衡三角形smote算法的少数类样本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113379823A CN113379823A (zh) | 2021-09-10 |
CN113379823B true CN113379823B (zh) | 2022-05-27 |
Family
ID=77575592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110619809.2A Active CN113379823B (zh) | 2021-06-03 | 2021-06-03 | 基于构造等边平衡三角形smote算法的少数类样本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113379823B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942153A (zh) * | 2019-11-11 | 2020-03-31 | 西北工业大学 | 基于重复编辑最近邻与聚类过采样的数据重采样方法 |
CN111931853A (zh) * | 2020-08-12 | 2020-11-13 | 桂林电子科技大学 | 基于层次聚类和改进smote的过采样方法 |
CN111967520A (zh) * | 2020-08-18 | 2020-11-20 | 黑龙江大学 | 一种基于改进的smote算法的不平衡数据处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11392846B2 (en) * | 2019-05-24 | 2022-07-19 | Canon U.S.A., Inc. | Local-adapted minority oversampling strategy for highly imbalanced highly noisy dataset |
-
2021
- 2021-06-03 CN CN202110619809.2A patent/CN113379823B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110942153A (zh) * | 2019-11-11 | 2020-03-31 | 西北工业大学 | 基于重复编辑最近邻与聚类过采样的数据重采样方法 |
CN111931853A (zh) * | 2020-08-12 | 2020-11-13 | 桂林电子科技大学 | 基于层次聚类和改进smote的过采样方法 |
CN111967520A (zh) * | 2020-08-18 | 2020-11-20 | 黑龙江大学 | 一种基于改进的smote算法的不平衡数据处理方法 |
Non-Patent Citations (5)
Title |
---|
Predicting Customers Churn in Telecom Industry using Centroid Oversampling method and KNN classifier;Pragya Joshi等;《International Research Journal of Engineering and Technology (IRJET)》;20190430;第6卷(第4期);全文 * |
Using Imbalanced Triangle Synthetic Data for Machine Learning Anomaly Detection;Menghua Luo等;《CMC》;20191231;第58卷(第1期);全文 * |
不平衡数据中基于异类k距离的边界混合采样;于艳丽等;《计算机应用与软件》;20210228;第38卷(第2期);全文 * |
改进SMOTE的非平衡数据集分类算法研究;赵清华等;《计算机工程与应用》;20181231;第54卷(第18期);全文 * |
面向不平衡数据集的机器学习分类策略;徐玲玲等;《计算机工程与应用》;20201231;第56卷(第24期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113379823A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443281B (zh) | 基于hdbscan聚类的文本分类自适应过采样方法 | |
Meinshausen | Node harvest | |
CN105760889A (zh) | 一种高效的不均衡数据集分类方法 | |
CN109033172B (zh) | 一种深度学习与近似目标定位的图像检索方法 | |
CN109993236A (zh) | 基于one-shot Siamese卷积神经网络的少样本满文匹配方法 | |
CN113378959B (zh) | 一种基于语义纠错下生成对抗网络的零样本学习方法 | |
Yang et al. | Prototype-based image search reranking | |
CN108171012B (zh) | 一种基因分类方法与装置 | |
Anukrishna et al. | A review on feature selection for high dimensional data | |
JP5322111B2 (ja) | 類似画像検索装置 | |
Moitra et al. | Cluster-based data reduction for persistent homology | |
Nayini et al. | A novel threshold-based clustering method to solve K-means weaknesses | |
Yu et al. | Deep metric learning with dynamic margin hard sampling loss for face verification | |
JP6680956B1 (ja) | 検索ニーズ評価装置、検索ニーズ評価システム、及び検索ニーズ評価方法 | |
CN114663770A (zh) | 一种基于集成聚类波段选择的高光谱图像分类方法及系统 | |
Kayo | Locally linear embedding algorithm: extensions and applications | |
CN111027609B (zh) | 一种图像数据加权分类方法和系统 | |
CN113379823B (zh) | 基于构造等边平衡三角形smote算法的少数类样本生成方法 | |
CN117371511A (zh) | 图像分类模型的训练方法、装置、设备及存储介质 | |
CN110929801A (zh) | 一种基于改进的Euclid距离KNN分类方法和系统 | |
Pereira et al. | Assessing active learning strategies to improve the quality control of the soybean seed vigor | |
CN109614581A (zh) | 基于对偶局部学习的非负矩阵分解聚类方法 | |
Zhang et al. | Divide and retain: a dual-phase modeling for long-tailed visual recognition | |
CN114219522A (zh) | 客户消费行为预测方法、装置、电子设备及存储介质 | |
US20060155394A1 (en) | Method and apparatus for order-preserving clustering of multi-dimensional data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |