CN113379823B

CN113379823B - 基于构造等边平衡三角形smote算法的少数类样本生成方法

Info

Publication number: CN113379823B
Application number: CN202110619809.2A
Authority: CN
Inventors: 徐玲玲; 迟东祥; 支文俊; 徐迁凤; 黄彦乾
Original assignee: Shanghai Dianji University
Current assignee: Shanghai Dianji University
Priority date: 2021-06-03
Filing date: 2021-06-03
Publication date: 2022-05-27
Anticipated expiration: 2041-06-03
Also published as: CN113379823A

Abstract

本发明公开了一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法，其包括：从数据集中获取少数类样本集S，确定参与生成少数类样本的最近邻样本的个数k，并确定距离阈值ε；计算少数类样本集S的均值向量μ₀；计算各少数类样本与均值向量μ₀的巴氏距离，获取巴氏距离最小的少数类样本X_j；搜寻少数类样本集S中其他少数类样本，将与少数类样本X_j的巴氏距离B_ki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G；将样本集G中的各样本之间两两连线，以各连接线为边分别构造等边三角形，并以各等边三角形的中点为新生成的少数类样本。该方法能够更全面地利用多数类和少数类的样本空间，使生成的新样本所携带的信息更加丰富多元。

Description

基于构造等边平衡三角形SMOTE算法的少数类样本生成方法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法。

背景技术

SMOTE过采样技术广泛运用于不平衡数据集以合成新少数类样本，该算法对少数类分析后进行过采样，其主要思想是取每一个少数类样本点x₁，计算出该少数类样本点与剩余少数类样本的欧式距离，根据欧式距离最终选择出k个最近邻样本点，在x₁与其k个最近邻样本点的连线中以0～1之间的采样倍率线性插值，从而产生新的合成数据(synthesized data)，其合成原理如下公式：

合成示意图如附图1。自从经典的SMOTE过采样技术被提出以来，衍生出一系列基于SMOTE变体的改进技术，这些改进技术大体上着眼于SMOTE最近邻的选取(Borderline-SMOTE)、对SMOTE线性插值的改进(TheImbalanced Triangle Synthetic Data Method)、以及非线性数据集的核映射(NKSMOTE)。

现有基于SMOTE的改进技术主要存在两点的不足：其一主要体现在对最近邻样本选取的时候往往都是采用最简单的欧式距离来度量两个样本点之间的距离，虽然欧式距离简单明了，能直观地描述了两个样本间的距离及他们与其他剩余样本间的差异，但是实际应用中采集到的数据集各个类别之间的样本的分布之间总是存在些许联系，单纯孤立地计算两个样本之间的欧式距离，再根据计算得出的数值进行大小的比较进而推断两个样本间的相似度并不能准确地表达出两个样本间的真实差异，因而以欧式距离选择出来的参与生成少数类样本的k个最近邻样本并不能很好的代表少数类这一类别；其二主要是SMOTE在对两个样本间合成新样本的时候采用的是线性插值的方式，线性插值合成的新样本往往只是利用了少数类样本间的信息，因而忽略了多数类中对分类结果造成影响的潜在有用信息。分类问题是综合了多个类别的样本信息而进行的处理分类任务，因此在合成新样本的时候不能单一地只考虑一类样本的信息。

综上所述，现有SMOTE过采样技术及其变体在合成新样本时普遍存在的未能综合考虑样本间的类分布结构、简单的计算样本间欧式距离后进行线性插值使得新合成的样本所包含的信息单一化、片面化、缺乏代表性，造成不平衡数据集分类的结果达不到预期效果的问题。

发明内容

本发明的目的是根据上述现有技术的不足之处，提供一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法，通过采用巴氏距离替代欧氏距离，并采用构造三角形的方式进行插值替代线性插值，解决了现有技术中存在的不足。

本发明目的实现由以下技术方案完成：

一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法，其包括：

(S1)从数据集中获取少数类样本集S，确定参与生成少数类样本的最近邻样本的个数k，并确定距离阈值ε；

(S2)计算少数类样本集S中各少数类样本的均值向量μ₀；

(S3)计算少数类样本集S中各少数类样本与均值向量μ₀的巴氏距离，获取巴氏距离最小的少数类样本X_j；

(S4)搜寻少数类样本集S中其他少数类样本，将与少数类样本X_j的巴氏距离B_ki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G，直到样本集G中的样本个数等于k或者少数类样本集S搜寻完成；

(S5)将样本集G中的各样本之间两两连线，以各连接线为边分别构造等边三角形，并以各等边三角形的中点为新生成的少数类样本。

本发明的进一步改进在于，步骤(S5)中以连接线为边分别构造等边三角形的过程中，若样本的维度大于二，使用主成分分析技术将样本降维至二维，并在二维情况下构造等边三角形性并生成新的少数类样本。

本发明的优点是：本发明的方法选取基于样本间的巴氏距离为边长构造的等边三角形的中心点，能够较为全面地利用多数类和少数类的样本空间，使得生成的新样本所携带的信息更加丰富、多元，也能够综合反映类别之间的真实分布结构。

附图说明

图1是现有的SMOTE算法合成原理图；

图2是本发明的改进SMOTE算法的流程图；

图3是原始SMOTE算法合成原理图；

图4是本发明的SMOTE算法合成原理图；

图5是原始SMOTE算法与本发明的SMOTE算法的对比图。

具体实施方式

实施例：如图2所示，本发明的实施例包括一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法，该方法综合分析了SMOTE算法尚存在的不足，结合不平衡数据集中少数类和多数类样本间的分布特征，建立了基于SMOTE改进的构造等边平衡三角形合成少数类模型，以合成的少数类样本所含信息更富有代表性，能综合地反映多数类和少数类的样本信息为目标，设计了以巴氏距离替代欧式距离、样本间连线为边长构造等边平衡三角形并以其中点为插值点代替线性插值点两种方案。

具体的，如图2所示，本发明实施例包括以下步骤：

(S1)从数据集中获取少数类样本集S，确定参与生成少数类样本的最近邻样本的个数k，并确定距离阈值ε；距离阈值ε是根据初始的少数类样本集S的均值的大小所决定的，其取值范围在样本均值上下波动，用户可以根据新合成少数类样本的质量，来对阈值的大小进行调整。最近邻k值的选取是由用户根据自己所需要合成少数类数量自行确定的，所以k是一个大于0的超参数，是用户根据多数类和少数类的不平衡比值，为了确定想要合成的少数类数量而选择的一个参数。少数类样本集S的形式为：S＝{x_i|i＝1,2,…,p}

(S2)计算少数类样本集S中各少数类样本的均值向量μ₀；

(S3)计算少数类样本集S中各少数类样本与均值向量μ₀的巴氏距离，获取巴氏距离最小的少数类样本X_j。样本间的巴氏距离的定义为：在n维特征空间中，先验概率相同的ij两类正态分布时的巴氏距离

与Bayes最小错误率上界ε_ij的关系是：

其中巴氏距离：

n维空间中类i的类内散布矩阵：

S_wi＝E[(X-M_i)(X-M_i)^t]

n维空间中类j的类内散布矩阵：

S_wj＝E[(X-M_j)(X-M_j)^t]

n维空间中类ij的平均类内散布矩阵：

n维空间中类ij的类间散布矩阵：

S_bij＝(M_i-M_j)(M_i-M_j)^t

n维空间中类ij均值向量分别是M_i和M_j。

从巴氏距离的计算公式中我们很明显可以看出，相对与欧式距离，巴氏距离既可以考虑到样本中的均值，也考虑到了样本间的类分布特征，可以更全面的考虑样本之间的关系，有效地避免了单一计算欧式距离选择样本的盲目性，降低了生成新样本进行训练时过拟合的风险。而且可以更好的提高新生成样本的质量、降低边界元素生成新样本后对分类结果产生负面消极影响。

(S4)搜寻少数类样本集S中其他少数类样本(除了巴氏距离最小的少数类样本X_j)，将与少数类样本X_j的巴氏距离B_ki小于距离阈值ε的少数类样本添加至待定参与少数类样本生成的样本集G，直到样本集G中的样本个数等于k或者少数类样本集S搜寻完成。在初始情况下，样本集G为空集。

图3、4、5直观地描述了原始SMOTE算法和基于SMOTE算法改进的构造等边平衡三角形算法的对比合成原理。如附图4所示，将上述步骤(S1)至(S4)所选出的参与少数类样本生成的样本集G间的样本两两连线，并以它们之间连线的长度为边构造等边三角形，取等边三角形的中心点代替原始SMOTE技术采用的线性插值点来生成新样本。直接在两个样本间进行线性插值易导致新生成的样本所含信息单一且增大了过拟合的风险。因而选取基于样本间的巴氏距离为边长构造的等边三角形的中心点，能够较为全面地利用多数类和少数类的样本空间，使得生成的新样本所携带的信息更加丰富、多元，也能够综合反映类别之间的真实分布结构。

具体的，以连接线为边分别构造等边三角形的过程中，若样本的维度大于二，使用主成分分析技术将样本降维至二维，并在二维情况下构造等边三角形性并生成新的少数类样本。在二维情况下，每两个样本可构件两个三角形，每个三角形可得到一个新的样本。

本技术方案主要是通过对原始的SMOTE算法进行两点的改进和完善来使得运用SMOTE变体生成少数类样本更加具有代表性和泛化性。其一考虑到SMOTE在计算少数类样本间的距离时狭隘地使用欧式距离度量样本间的物理距离，导致在生成新样本的时候极大地忽略了样本间的类分布结构，生成的样本不具有代表性；其二SMOTE简单的在两个样本的连线处进行线性插值，使得生成的少数类样本包含的信息过于匮乏，不仅易造成过拟合的想象，还最小化了多数类所携带的潜在有用信息对分类的影响。针对现有处理不平衡数据集技术存在的这两点的不足，用巴氏距离代替欧式距离，所选择出参与新样本生成的少数类样本综合考虑了少数类分布的均值，使得合成的新样本能够较好地反映类的分布结构特征。等边三角形的特殊性赋予了其中心点与众不同地含义，因而以多数类和少数类之间的类分布特征为例，以样本间连线的直线为边构造等边三角形，可以综合考虑多数类和少数类之间的分布内在结构，其中心点是两个类别信息的交汇点和集中点，能更好的反映少数类和多数类之间的分布特征。

以上的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法，其包括：

(S2)计算少数类样本集S中各少数类样本的均值向量μ₀；

2.根据权利要求1所述的一种基于构造等边平衡三角形SMOTE算法的少数类样本生成方法，其特征在于，步骤(S5)中以连接线为边分别构造等边三角形的过程中，若样本的维度大于二，使用主成分分析技术将样本降维至二维，并在二维情况下构造等边三角形并生成新的少数类样本。