CN110443281A

CN110443281A - 基于hdbscan聚类的自适应过采样方法

Info

Publication number: CN110443281A
Application number: CN201910605272.7A
Authority: CN
Inventors: 董宏成; 赵学华; 刘颖; 解如风; 范荣妹
Original assignee: Chongqing Institute Of Quality And Standardization; CHONGQING XINKE DESIGN Co Ltd
Current assignee: Chongqing Institute Of Quality And Standardization; CHONGQING XINKE DESIGN Co Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-11-12
Anticipated expiration: 2039-07-05
Also published as: CN110443281B

Abstract

本发明请求保护一种基于HDBSCAN聚类的自适应过采样方法，主要解决现有方法中利用完整数据信息的不平衡数据分类问题。所述技术的步骤为：(1)输入训练数据集；(2)对训练集中的少数类样本进行聚类得到不同规模且互不相交的集群；(3)计算每个少数类集群中需要合成的样本数量；(4)根据每个集群需要合成的样本数量自适应地合成新的样本得到新的少数类数据集；(5)多数类数据集和新的少数类数据集形成新的平衡数据集；(6)利用新的平衡数据集训练并测试分类器。本技术可有效避免不平衡数据集中噪声的产生并同时克服类间和类内不平衡问题，为不平衡学习提供了一种全新的过采样策略。

Description

基于HDBSCAN聚类的自适应过采样方法

技术领域

本发明属于计算机人工智能领域，具体涉及不平衡数据的重采样技术和聚类相结合的集成分类方法。

背景技术

近年来研究人员所提出来的绝大部分标准机器学习算法都是建立在数据集分布平衡或者是错误代价相等的假设之上，但是在现实生活中,我们往往会碰到很多数据分布极其不平衡或者错误分类代价严重不等的情景。比如现行的很多分类学习算法在信用卡欺诈检测、癌症风险预测、文本分类、软件缺陷预测和生物信息等领域难以达到精准预测效果，因为这些分类学习算法由于训练数据集的分布不平衡、噪声、数据重叠等问题难以准确建立学习规则，因此提出一个新的数据采样方法使数据平衡化，对提升现有的标准学习算法的分类能力有着重大的推动作用。

不平衡数据集的分类主要包括数据层面的方法和算法层面的方法。数据层面上的方法主要对原始数据集进行处理，目的是使类分布更加平衡。算法层面方法主要是指代价敏感的方法，代价敏感的方法旨在为每个类别提供具有不同误分类成本的分类算法，该方法很多时候只能应用特定的算法中，泛化能力不强，所以当下的不平衡数据学习研究主要方向是数据层面方法。研究表明，分类器在平衡后的数据上的整体分类性能比在原始数据上的性能好很多，所以近年来有很多旨在改善不平衡学习问题的研究，但目前数据层面上的方法存在很多的局限性：如随机过采样Random Oversampling是随机复制少数类样本使类分布达到平衡，该方法可有效提高分类器的分类性能但容易导致过拟合。José等人提出了一种改进型的SMOTE过采样方法，该方法简单有效但其合成样本机制是盲目的。Annisa等人采用一种改进型的自适应过采样方法ADNSYN来重新平衡数据集。该算法虽然可有效提升分类器的分类性能，但忽略了类内不平衡问题。为了解决类内不平衡，Georgios等人提出一种K-SMOTE算法，该算法采用K-means聚类方法先对整个输入空间进行聚类，然后对过滤的集群进行随机过采样。该方法可同时解决类间和类内不平衡问题，但其无法加强分类器对一些重要少数类样本的学习。

综上所述，虽然大多数算法都能克服现有过采样算法的一些缺点，但很少有算法能够在避免产生噪声的同时并减轻类间和类内不平衡问题。此外，许多技术都是比较盲目的合成新的样本，并不能根据数据的分布特征进行合理的抽样处理。

发明内容

本发明旨在解决以上现有技术的问题。提供一种将聚类与重采样技术融合的不平衡数据集成分类方法(HD-SMOTE)，最终获得一个平滑的平衡数据集，大幅提升主流的分类学习算法在不平衡学习问题上的分类效果。本发明的技术方案如下：

一种基于HDBSCAN聚类的自适应过采样方法，其包括以下步骤：

首先，将不平衡数据集分为训练集和测试集，选取数据集的70％作为训练集；

其次，利用HDBSCAN(基于分层密度的噪声应用空间聚类)聚类技术对训练集中的少数类样本进行聚类，得到互不相交且不同规模的集群；

随后，计算每个集群的稀疏度和对应的采样样本数量；

然后，根据每个集群的稀疏度和采样数量自适应地合成新的样本，在合成样本的时候，选择在集群中隶属度高的样本邻域中进行插值合成新的样本，用于保证新的样本点靠近集群中心，在稀疏度高的集群中自适应合成更多的样本，相应的越密集的集群合成更少的样本；

最后，多数类数据集和新的少数类数据集组成平衡训练数据集，使用K-NN分类算法在此平衡训练数据集进行学习，利用测试数据集对学习后的分类器进行测试，并统计预测标签的准确率。

进一步的，所述将不平衡数据集分为训练集和测试集，选取数据集的70％作为训练集，具体包括：输入一个不平衡的据集为T，少数类集合为P，多数类集合为N，P＝{p₁,p₂,...,p_pnum}，N＝{n₁,n₂,…n_nnum}，其中pnum和nnum分别是少数类样本数量和多数类样本数量，将数据集T随机划分为70％的训练集和30％的测试集。

进一步的，所述利用HDBSCAN(基于分层密度的噪声应用空间聚类)聚类技术对训练集中的少数类样本进行聚类，得到互不相交且不同规模的集群，具体包括：

HDBCAN(基于分层密度的噪声应用空间聚类)首先根据密度对数据集P空间进行变换，求出所有样本点的最小生成树，然后对变换后的空间进行单连锁聚类，最后在不同高度对树进行切割，根据集群的稳定性选择不同密度的集群。由此得到不同规模的集群c₁,c₂,…,c_m和噪声集群N，并且得到每个集群的成员隶属度矩阵w_ij，0＜i≤m，0＜j≤|c_i|，删除噪声集群N并计算剩余少数类样本总数，N_min＝pnum-|N|。

进一步的，所述计算每个集群的稀疏度具体包括：

遍历所有的集群c₁,c₂,…,c_m，根据以下公式计算出每个集群的稀疏度Sparsity(c_k)；

首先对每个少数类集群c_k构建一个欧式距离矩阵D_k，1≤k≤m，其中d_ij表示集群中少数类样本x_i到x_j的欧式距离，然后利用距离矩阵计算每个集群c_k的平均距离，计算公式如下：

其中n为每个集群的样本总个数，这里只需要用到距离矩阵D_k中的下对角线元素，因为d_ij和d_ji表示的距离是一样的，最后利用集群的平均距离计算出该集群的稀疏度，计算公式如下：

根据上式可以发现Sparsity(c_k)越大，表示集群c_k越稀疏，Sparsity(c_k)越小表示集群c_k越密集。

进一步的，所述计算集群的稀疏度对应的采样样本数量，具体包括：计算所有集群的稀疏度之和；计算每个集群的采样权重；根据采样权重和多数类样本数与少数类样本数的差值，计算每个少数类集群需要合成的样本量。

进一步的，所述计算每个少数类集群的稀疏度之和、采样权重、合成的样本总数的步骤是：首先利用从步骤3a)得到的每个少数类集群c_k的稀疏度计算出所有集群的稀疏度之和，计算公式如下：

其中，numf表示集群的数量；

然后利用得到的稀疏度之和计算出每个集群的采样权重，计算公式如下：

最后利用多数类样本与少数类样本之间的差值N和得到每个集群的采样权重，分别计算出每个集群需要合成的样本数量，计算公式如下：

N＝N_maj-N_min

Samples(c_k)＝N×Sample weight(c_k)

其中，N_maj为多数类样本数，N_min为少数类样本数。

进一步的，所述根据每个集群的稀疏度和采样数量自适应地合成新的样本，在合成样本的时候，选择在集群中隶属度高的样本邻域中进行插值合成新的样本，用于保证新的样本点靠近集群中心，在稀疏度高的集群中自适应合成更多的样本，相应的越密集的集群合成更少的样本，具体包括：

首先对集群c_i,0＜i≤m，选择隶属度大于0.3的样本并在它k个邻居中选择一个样本根据差值公式合成新样本x_new，公式如下：

其中w∈[0,1]，将新样本x_new添加到新的集合c′_i，循环这个过程直到每个少数类集群合成的样本数量达到Samples(c_k)，最终得到新的少数类集合c′₁,c′₂,…,c′_m。

进一步的，所述使用K-NN分类算法在此平衡训练数据集进行学习的步骤是：

多数类数据集P＝{p₁,p₂,…,p_pnum}和新的少数类数据集c′₁,c′₂,…,c′_m形成平衡训练数据集；

首先定义新的平衡之后的数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中，为实例的特征向量，χ表示数据集T中所有特征向量的集合，Rⁿ表示n维实数向量空间。y_i∈γ＝{c_p,c_n}为实例的类别，c_p表示少数类，c_n表示多数类，根据给定的距离度量，在训练集T中找出与x最近邻的k个点，涵盖这k个点的x的邻域记作N_k(x)，然后在N_k(x)中根据分类决策规则来预测x的类别y。公式如下：

其中，I为指示函数，即当y_i＝c_j时I为1，否则I为0。

本发明的优点及有益效果如下：

本发明与传统不平衡数据分类算法相比，具有如下创新点：第一，本发明提出的技术采用高效的HDBSCA聚类算法结合改进的SMOTE过采样来重新平衡倾斜数据集，它只在安全地区进行过采样可以有效识别训练数据集中的噪声并在合成新样本的过程中避免产生噪声。类似的聚类技术与过采样有机的融合方法有很多，但现有的很多算法所融合的聚类方法参数难以调优，或者难以发现任意形状的集群(如K-means等)局限性较大，但本发明不存在这些局限。第二，本发明与相关方法的不同之处在于它的新颖性和有效合成样本的方法。样本分布以聚类密度为基础，在稀疏的少数类地区比在稠密的少数类地区合成更多的样本，这样可以有效地克服数据集中存在的小分离、类内和类间不平衡问题，但传统方法很少有可以同时改善这些问题的技术。第三，传统分类算法通常是优化分类器的训练过程来取得更好的分类效果，但本发明是在数据层面上对训练数据集进行重平衡，得到的平衡数据可以应用到绝大部分的分类学习算法，具有更好、更强的泛化能力和鲁棒性。与传统单一的不平衡数据分类算法相比，本发明大幅提升分类器的准确性、鲁棒性和稳定性。

附图说明

图1是本发明提供优选实施例一种基于HDBSCAN聚类的自适应过采样技术流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

本发明实现上述目标的基本思路是：首先，将不平衡数据集分为训练集和测试集，其中考虑到数据的特征和标签，选取数据集的70％作为训练集。其次，利用HDBSCAN聚类技术对训练集中的少数类样本进行聚类，得到互不相交且不同规模的集群。随后，计算每个集群的稀疏度和对应的采样样本数量。然后，根据每个集群的稀疏度和采样数量自适应地合成新的样本，在合成样本的时候，本技术会选择在集群中隶属度高的样本邻域中进行插值合成新的样本，这样可以保证新的样本点靠近集群中心，避免噪声的产生。同时，本技术会自适应在稀疏度高的集群中合成更多的样本，相应的越密集的集群合成更少的样本，这样可以有效解决类内不平衡和类间不平衡问题。最后，利用重采样后的数据集和原来的多数类样本组成新的训练数据集，使用K-NN分类算法在此新的数据集进行学习，利用测试数据集对学习后的分类器进行测试，并统计预测标签的准确率。

如图1所示，本实施例提供了一种基于HDBSCAN聚类的自适应过采样技术，流程图，包括以下步骤：

步骤1、输入训练数据集

输入一个不平衡的据集为T，少数类集合为P，多数类集合为N，P＝{p₁,p₂,…,p_pnum}，N＝{n₁,n₂,…n_nnum}，其中pnum和nnum分别是少数类样本数量和多数类样本数量。将数据集T随机划分为70％的训练集和30％的测试集。

步骤2、对训练集中的少数类样本进行聚类得到不同规模的少数类集群

利用HDBCAN对数据集P进行聚类，得到不同规模的集群c₁,c₂,…,c_m和噪声集群N，并且得到每个集群的成员隶属度矩阵w_ij，0＜i≤m，0＜j≤|c_i|。删除噪声集群N并计算剩余少数类样本总数，N_min＝pnum-|N|。

步骤3、计算每个少数类集群中需要合成的样本数量

首先遍历所有的集群c₁,c₂,…,c_m，根据以下公式计算出每个集群的稀疏度Sparsity(c_k)。

其中对每个少数类集群c_k构建一个欧式距离矩阵D_k，1≤k≤m，其中d_ij表示集群中少数类样本x_i到x_j的欧式距离。然后利用距离矩阵计算每个集群c_k的平均距离，计算公式如下：

其中n为每个集群的样本总个数，这里只需要用到距离矩阵D_k中的下对角线元素，因为d_ij和d_ji表示的距离是一样的。接着利用集群的平均距离计算出该集群的稀疏度，计算公式如下：

根据上面得到每个少数类集群c_k的稀疏度计算出所有集群的稀疏度之和，计算公式如下：

其中，numf表示集群的数量。然根据稀疏度计算出每个集群的采样权重，计算公式如下：

根据上式可以发现，若集群c_k的稀疏度越大，则该集群的采样权重会越大，相反的，若稀疏度越小则采样权重越小。

最后利用多数类样本与少数类样本的差值N和上一步得到每个集群的采样权重，分别计算出每个集群需要合成的样本数量，计算公式如下：

N＝N_maj-N_min

Samples(c_k)＝N×Sample weight(c_k)

其中，N_maj为多数类样本数，N_min为少数类样本数。

步骤4、根据需要合成的样本数量对相应少数类集群自适应地合成新的样本，得到新的少数类数据集。首先对集群c_i,0＜i≤m，选择隶属度大于0.3的样本并在它k个邻居中选择一个样本根据差值公式合成新样本x_new，公式如下：

其中w∈[0,1]，将新样本x_new添加到新的集合c_i′。循环这个过程直到每个少数类集群合成的样本数量达到Samples(c_k)，最终得到新的少数类集合c′₁,c′₂,…,c′_m。

步骤5、多数类数据集P＝{p₁,p₂,…,p_pnum}和新的少数类数据集c′₁,c′₂,…,c′_m形成平衡训练数据集。

步骤6、利用平衡后的训练集训练分类器

首先定义新的平衡之后的数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中，为实例的特征向量，y_i∈γ＝{c_p,c_n}为实例的类别，c_p表示少数类，c_n表示多数类。根据给定的距离度量，在训练集T中找出与x最近邻的k个点，涵盖这k个点的x的邻域记作N_k(x)。然后在N_k(x)中根据分类决策规则(如多数类表决)来预测x的类别y。公式如下：

I为指示函数，即当y_i＝c_j时I为1，否则I为0。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，包括以下步骤：

其次，利用HDBSCAN基于分层密度的噪声应用空间聚类技术对训练集中的少数类样本进行聚类，得到互不相交且不同规模的集群；

随后，计算每个集群的稀疏度和对应的采样样本数量；

2.根据权利要求1所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述将不平衡数据集分为训练集和测试集，选取数据集的70％作为训练集，具体包括：输入一个不平衡的据集为T，少数类集合为P，多数类集合为N，P＝{p₁,p₂,…,p_pnum}，N＝{n₁,n₂,…n_nnum}，其中pnum和nnum分别是少数类样本数量和多数类样本数量，将数据集T随机划分为70％的训练集和30％的测试集。

3.根据权利要求2所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述利用HDBSCAN基于分层密度的噪声应用空间聚类技术对训练集中的少数类样本进行聚类，得到互不相交且不同规模的集群，具体包括：

HDBCAN(基于分层密度的噪声应用空间聚类)首先根据密度对数据集P空间进行变换，求出所有样本点的最小生成树，然后对变换后的空间进行单连锁聚类，最后在不同高度对树进行切割，根据集群的稳定性选择不同密度的集群；由此得到不同规模的集群c₁,c₂,…,c_m和噪声集群N，并且得到每个集群的成员隶属度矩阵w_ij，0＜i≤m，0＜j≤|c_i|，删除噪声集群N并计算剩余少数类样本总数，N_min＝pnum-|N|。

4.根据权利要求3所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述计算每个集群的稀疏度具体包括：

遍历所有的集群c₁,c₂,...,c_m，根据以下公式计算出每个集群的稀疏度Sparsity(c_k)；

5.根据权利要求4所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述计算集群的稀疏度对应的采样样本数量，具体包括：计算所有集群的稀疏度之和；计算每个集群的采样权重；根据采样权重和多数类样本数与少数类样本数的差值，计算每个少数类集群需要合成的样本量。

6.根据权利要求5所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述计算每个少数类集群的稀疏度之和、采样权重、合成的样本总数的步骤是：首先利用从步骤3a)得到的每个少数类集群c_k的稀疏度计算出所有集群的稀疏度之和，计算公式如下：

其中，numf表示集群的数量；

N＝N_maj-N_min

Samples(c_k)＝N×Sample weight(c_k)

其中，N_maj为多数类样本数，N_min为少数类样本数。

7.根据权利要求6所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述根据每个集群的稀疏度和采样数量自适应地合成新的样本，在合成样本的时候，选择在集群中隶属度高的样本邻域中进行插值合成新的样本，用于保证新的样本点靠近集群中心，在稀疏度高的集群中自适应合成更多的样本，相应的越密集的集群合成更少的样本，具体包括：

其中w∈[0,1]，将新样本x_new添加到新的集合c′_i，循环这个过程直到每个少数类集群合成的样本数量达到Samples(c_k)，最终得到新的少数类集合c′₁,c′₂,...,c′_m。

8.根据权利要求7所述的一种基于HDBSCAN聚类的自适应过采样方法，其特征在于，所述使用K-NN分类算法在此平衡训练数据集进行学习的步骤是：

多数类数据集P＝{p₁,p₂,...,p_pnum}和新的少数类数据集c′₁,c′₂,...,c′_m形成平衡训练数据集；

首先定义新的平衡之后的数据集T＝{(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中，为实例的特征向量，χ表示数据集T中所有特征向量的集合，Rⁿ表示n维实数向量空间，y_i∈γ＝{c_p,c_n}为实例的类别，c_p表示少数类，c_n表示多数类，根据给定的距离度量，在训练集T中找出与x最近邻的k个点，涵盖这k个点的x的邻域记作N_k(x)，然后在N_k(x)中根据分类决策规则来预测x的类别y。公式如下：

其中，I为指示函数，即当y_i＝c_j时I为1，否则I为0。