CN110443281A - 基于hdbscan聚类的自适应过采样方法 - Google Patents

基于hdbscan聚类的自适应过采样方法 Download PDF

Info

Publication number
CN110443281A
CN110443281A CN201910605272.7A CN201910605272A CN110443281A CN 110443281 A CN110443281 A CN 110443281A CN 201910605272 A CN201910605272 A CN 201910605272A CN 110443281 A CN110443281 A CN 110443281A
Authority
CN
China
Prior art keywords
cluster
sample
class
degree
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910605272.7A
Other languages
English (en)
Other versions
CN110443281B (zh
Inventor
董宏成
赵学华
刘颖
解如风
范荣妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Institute Of Quality And Standardization
CHONGQING XINKE DESIGN Co Ltd
Original Assignee
Chongqing Institute Of Quality And Standardization
CHONGQING XINKE DESIGN Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Institute Of Quality And Standardization, CHONGQING XINKE DESIGN Co Ltd filed Critical Chongqing Institute Of Quality And Standardization
Priority to CN201910605272.7A priority Critical patent/CN110443281B/zh
Publication of CN110443281A publication Critical patent/CN110443281A/zh
Application granted granted Critical
Publication of CN110443281B publication Critical patent/CN110443281B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明请求保护一种基于HDBSCAN聚类的自适应过采样方法,主要解决现有方法中利用完整数据信息的不平衡数据分类问题。所述技术的步骤为:(1)输入训练数据集;(2)对训练集中的少数类样本进行聚类得到不同规模且互不相交的集群;(3)计算每个少数类集群中需要合成的样本数量;(4)根据每个集群需要合成的样本数量自适应地合成新的样本得到新的少数类数据集;(5)多数类数据集和新的少数类数据集形成新的平衡数据集;(6)利用新的平衡数据集训练并测试分类器。本技术可有效避免不平衡数据集中噪声的产生并同时克服类间和类内不平衡问题,为不平衡学习提供了一种全新的过采样策略。

Description

基于HDBSCAN聚类的自适应过采样方法
技术领域
本发明属于计算机人工智能领域,具体涉及不平衡数据的重采样技术和聚类相结合的集成分类方法。
背景技术
近年来研究人员所提出来的绝大部分标准机器学习算法都是建立在数据集分布平衡或者是错误代价相等的假设之上,但是在现实生活中,我们往往会碰到很多数据分布极其不平衡或者错误分类代价严重不等的情景。比如现行的很多分类学习算法在信用卡欺诈检测、癌症风险预测、文本分类、软件缺陷预测和生物信息等领域难以达到精准预测效果,因为这些分类学习算法由于训练数据集的分布不平衡、噪声、数据重叠等问题难以准确建立学习规则,因此提出一个新的数据采样方法使数据平衡化,对提升现有的标准学习算法的分类能力有着重大的推动作用。
不平衡数据集的分类主要包括数据层面的方法和算法层面的方法。数据层面上的方法主要对原始数据集进行处理,目的是使类分布更加平衡。算法层面方法主要是指代价敏感的方法,代价敏感的方法旨在为每个类别提供具有不同误分类成本的分类算法,该方法很多时候只能应用特定的算法中,泛化能力不强,所以当下的不平衡数据学习研究主要方向是数据层面方法。研究表明,分类器在平衡后的数据上的整体分类性能比在原始数据上的性能好很多,所以近年来有很多旨在改善不平衡学习问题的研究,但目前数据层面上的方法存在很多的局限性:如随机过采样Random Oversampling是随机复制少数类样本使类分布达到平衡,该方法可有效提高分类器的分类性能但容易导致过拟合。José等人提出了一种改进型的SMOTE过采样方法,该方法简单有效但其合成样本机制是盲目的。Annisa等人采用一种改进型的自适应过采样方法ADNSYN来重新平衡数据集。该算法虽然可有效提升分类器的分类性能,但忽略了类内不平衡问题。为了解决类内不平衡,Georgios等人提出一种K-SMOTE算法,该算法采用K-means聚类方法先对整个输入空间进行聚类,然后对过滤的集群进行随机过采样。该方法可同时解决类间和类内不平衡问题,但其无法加强分类器对一些重要少数类样本的学习。
综上所述,虽然大多数算法都能克服现有过采样算法的一些缺点,但很少有算法能够在避免产生噪声的同时并减轻类间和类内不平衡问题。此外,许多技术都是比较盲目的合成新的样本,并不能根据数据的分布特征进行合理的抽样处理。
发明内容
本发明旨在解决以上现有技术的问题。提供一种将聚类与重采样技术融合的不平衡数据集成分类方法(HD-SMOTE),最终获得一个平滑的平衡数据集,大幅提升主流的分类学习算法在不平衡学习问题上的分类效果。本发明的技术方案如下:
一种基于HDBSCAN聚类的自适应过采样方法,其包括以下步骤:
首先,将不平衡数据集分为训练集和测试集,选取数据集的70%作为训练集;
其次,利用HDBSCAN(基于分层密度的噪声应用空间聚类)聚类技术对训练集中的少数类样本进行聚类,得到互不相交且不同规模的集群;
随后,计算每个集群的稀疏度和对应的采样样本数量;
然后,根据每个集群的稀疏度和采样数量自适应地合成新的样本,在合成样本的时候,选择在集群中隶属度高的样本邻域中进行插值合成新的样本,用于保证新的样本点靠近集群中心,在稀疏度高的集群中自适应合成更多的样本,相应的越密集的集群合成更少的样本;
最后,多数类数据集和新的少数类数据集组成平衡训练数据集,使用K-NN分类算法在此平衡训练数据集进行学习,利用测试数据集对学习后的分类器进行测试,并统计预测标签的准确率。
进一步的,所述将不平衡数据集分为训练集和测试集,选取数据集的70%作为训练集,具体包括:输入一个不平衡的据集为T,少数类集合为P,多数类集合为N,P={p1,p2,...,ppnum},N={n1,n2,…nnnum},其中pnum和nnum分别是少数类样本数量和多数类样本数量,将数据集T随机划分为70%的训练集和30%的测试集。
进一步的,所述利用HDBSCAN(基于分层密度的噪声应用空间聚类)聚类技术对训练集中的少数类样本进行聚类,得到互不相交且不同规模的集群,具体包括:
HDBCAN(基于分层密度的噪声应用空间聚类)首先根据密度对数据集P空间进行变换,求出所有样本点的最小生成树,然后对变换后的空间进行单连锁聚类,最后在不同高度对树进行切割,根据集群的稳定性选择不同密度的集群。由此得到不同规模的集群c1,c2,…,cm和噪声集群N,并且得到每个集群的成员隶属度矩阵wij,0<i≤m,0<j≤|ci|,删除噪声集群N并计算剩余少数类样本总数,Nmin=pnum-|N|。
进一步的,所述计算每个集群的稀疏度具体包括:
遍历所有的集群c1,c2,…,cm,根据以下公式计算出每个集群的稀疏度Sparsity(ck);
首先对每个少数类集群ck构建一个欧式距离矩阵Dk,1≤k≤m,其中dij表示集群中少数类样本xi到xj的欧式距离,然后利用距离矩阵计算每个集群ck的平均距离,计算公式如下:
其中n为每个集群的样本总个数,这里只需要用到距离矩阵Dk中的下对角线元素,因为dij和dji表示的距离是一样的,最后利用集群的平均距离计算出该集群的稀疏度,计算公式如下:
根据上式可以发现Sparsity(ck)越大,表示集群ck越稀疏,Sparsity(ck)越小表示集群ck越密集。
进一步的,所述计算集群的稀疏度对应的采样样本数量,具体包括:计算所有集群的稀疏度之和;计算每个集群的采样权重;根据采样权重和多数类样本数与少数类样本数的差值,计算每个少数类集群需要合成的样本量。
进一步的,所述计算每个少数类集群的稀疏度之和、采样权重、合成的样本总数的步骤是:首先利用从步骤3a)得到的每个少数类集群ck的稀疏度计算出所有集群的稀疏度之和,计算公式如下:
其中,numf表示集群的数量;
然后利用得到的稀疏度之和计算出每个集群的采样权重,计算公式如下:
最后利用多数类样本与少数类样本之间的差值N和得到每个集群的采样权重,分别计算出每个集群需要合成的样本数量,计算公式如下:
N=Nmaj-Nmin
Samples(ck)=N×Sample weight(ck)
其中,Nmaj为多数类样本数,Nmin为少数类样本数。
进一步的,所述根据每个集群的稀疏度和采样数量自适应地合成新的样本,在合成样本的时候,选择在集群中隶属度高的样本邻域中进行插值合成新的样本,用于保证新的样本点靠近集群中心,在稀疏度高的集群中自适应合成更多的样本,相应的越密集的集群合成更少的样本,具体包括:
首先对集群ci,0<i≤m,选择隶属度大于0.3的样本并在它k个邻居中选择一个样本根据差值公式合成新样本xnew,公式如下:
其中w∈[0,1],将新样本xnew添加到新的集合c′i,循环这个过程直到每个少数类集群合成的样本数量达到Samples(ck),最终得到新的少数类集合c′1,c′2,…,c′m
进一步的,所述使用K-NN分类算法在此平衡训练数据集进行学习的步骤是:
多数类数据集P={p1,p2,…,ppnum}和新的少数类数据集c′1,c′2,…,c′m形成平衡训练数据集;
首先定义新的平衡之后的数据集T={(x1,y1),(x2,y2),…,(xN,yN)},其中,为实例的特征向量,χ表示数据集T中所有特征向量的集合,Rn表示n维实数向量空间。yi∈γ={cp,cn}为实例的类别,cp表示少数类,cn表示多数类,根据给定的距离度量,在训练集T中找出与x最近邻的k个点,涵盖这k个点的x的邻域记作Nk(x),然后在Nk(x)中根据分类决策规则来预测x的类别y。公式如下:
其中,I为指示函数,即当yi=cj时I为1,否则I为0。
本发明的优点及有益效果如下:
本发明与传统不平衡数据分类算法相比,具有如下创新点:第一,本发明提出的技术采用高效的HDBSCA聚类算法结合改进的SMOTE过采样来重新平衡倾斜数据集,它只在安全地区进行过采样可以有效识别训练数据集中的噪声并在合成新样本的过程中避免产生噪声。类似的聚类技术与过采样有机的融合方法有很多,但现有的很多算法所融合的聚类方法参数难以调优,或者难以发现任意形状的集群(如K-means等)局限性较大,但本发明不存在这些局限。第二,本发明与相关方法的不同之处在于它的新颖性和有效合成样本的方法。样本分布以聚类密度为基础,在稀疏的少数类地区比在稠密的少数类地区合成更多的样本,这样可以有效地克服数据集中存在的小分离、类内和类间不平衡问题,但传统方法很少有可以同时改善这些问题的技术。第三,传统分类算法通常是优化分类器的训练过程来取得更好的分类效果,但本发明是在数据层面上对训练数据集进行重平衡,得到的平衡数据可以应用到绝大部分的分类学习算法,具有更好、更强的泛化能力和鲁棒性。与传统单一的不平衡数据分类算法相比,本发明大幅提升分类器的准确性、鲁棒性和稳定性。
附图说明
图1是本发明提供优选实施例一种基于HDBSCAN聚类的自适应过采样技术流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
本发明实现上述目标的基本思路是:首先,将不平衡数据集分为训练集和测试集,其中考虑到数据的特征和标签,选取数据集的70%作为训练集。其次,利用HDBSCAN聚类技术对训练集中的少数类样本进行聚类,得到互不相交且不同规模的集群。随后,计算每个集群的稀疏度和对应的采样样本数量。然后,根据每个集群的稀疏度和采样数量自适应地合成新的样本,在合成样本的时候,本技术会选择在集群中隶属度高的样本邻域中进行插值合成新的样本,这样可以保证新的样本点靠近集群中心,避免噪声的产生。同时,本技术会自适应在稀疏度高的集群中合成更多的样本,相应的越密集的集群合成更少的样本,这样可以有效解决类内不平衡和类间不平衡问题。最后,利用重采样后的数据集和原来的多数类样本组成新的训练数据集,使用K-NN分类算法在此新的数据集进行学习,利用测试数据集对学习后的分类器进行测试,并统计预测标签的准确率。
如图1所示,本实施例提供了一种基于HDBSCAN聚类的自适应过采样技术,流程图,包括以下步骤:
步骤1、输入训练数据集
输入一个不平衡的据集为T,少数类集合为P,多数类集合为N,P={p1,p2,…,ppnum},N={n1,n2,…nnnum},其中pnum和nnum分别是少数类样本数量和多数类样本数量。将数据集T随机划分为70%的训练集和30%的测试集。
步骤2、对训练集中的少数类样本进行聚类得到不同规模的少数类集群
利用HDBCAN对数据集P进行聚类,得到不同规模的集群c1,c2,…,cm和噪声集群N,并且得到每个集群的成员隶属度矩阵wij,0<i≤m,0<j≤|ci|。删除噪声集群N并计算剩余少数类样本总数,Nmin=pnum-|N|。
步骤3、计算每个少数类集群中需要合成的样本数量
首先遍历所有的集群c1,c2,…,cm,根据以下公式计算出每个集群的稀疏度Sparsity(ck)。
其中对每个少数类集群ck构建一个欧式距离矩阵Dk,1≤k≤m,其中dij表示集群中少数类样本xi到xj的欧式距离。然后利用距离矩阵计算每个集群ck的平均距离,计算公式如下:
其中n为每个集群的样本总个数,这里只需要用到距离矩阵Dk中的下对角线元素,因为dij和dji表示的距离是一样的。接着利用集群的平均距离计算出该集群的稀疏度,计算公式如下:
根据上面得到每个少数类集群ck的稀疏度计算出所有集群的稀疏度之和,计算公式如下:
其中,numf表示集群的数量。然根据稀疏度计算出每个集群的采样权重,计算公式如下:
根据上式可以发现,若集群ck的稀疏度越大,则该集群的采样权重会越大,相反的,若稀疏度越小则采样权重越小。
最后利用多数类样本与少数类样本的差值N和上一步得到每个集群的采样权重,分别计算出每个集群需要合成的样本数量,计算公式如下:
N=Nmaj-Nmin
Samples(ck)=N×Sample weight(ck)
其中,Nmaj为多数类样本数,Nmin为少数类样本数。
步骤4、根据需要合成的样本数量对相应少数类集群自适应地合成新的样本,得到新的少数类数据集。首先对集群ci,0<i≤m,选择隶属度大于0.3的样本并在它k个邻居中选择一个样本根据差值公式合成新样本xnew,公式如下:
其中w∈[0,1],将新样本xnew添加到新的集合ci′。循环这个过程直到每个少数类集群合成的样本数量达到Samples(ck),最终得到新的少数类集合c′1,c′2,…,c′m
步骤5、多数类数据集P={p1,p2,…,ppnum}和新的少数类数据集c′1,c′2,…,c′m形成平衡训练数据集。
步骤6、利用平衡后的训练集训练分类器
首先定义新的平衡之后的数据集T={(x1,y1),(x2,y2),…,(xN,yN)},其中,为实例的特征向量,yi∈γ={cp,cn}为实例的类别,cp表示少数类,cn表示多数类。根据给定的距离度量,在训练集T中找出与x最近邻的k个点,涵盖这k个点的x的邻域记作Nk(x)。然后在Nk(x)中根据分类决策规则(如多数类表决)来预测x的类别y。公式如下:
I为指示函数,即当yi=cj时I为1,否则I为0。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (8)

1.一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,包括以下步骤:
首先,将不平衡数据集分为训练集和测试集,选取数据集的70%作为训练集;
其次,利用HDBSCAN基于分层密度的噪声应用空间聚类技术对训练集中的少数类样本进行聚类,得到互不相交且不同规模的集群;
随后,计算每个集群的稀疏度和对应的采样样本数量;
然后,根据每个集群的稀疏度和采样数量自适应地合成新的样本,在合成样本的时候,选择在集群中隶属度高的样本邻域中进行插值合成新的样本,用于保证新的样本点靠近集群中心,在稀疏度高的集群中自适应合成更多的样本,相应的越密集的集群合成更少的样本;
最后,多数类数据集和新的少数类数据集组成平衡训练数据集,使用K-NN分类算法在此平衡训练数据集进行学习,利用测试数据集对学习后的分类器进行测试,并统计预测标签的准确率。
2.根据权利要求1所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述将不平衡数据集分为训练集和测试集,选取数据集的70%作为训练集,具体包括:输入一个不平衡的据集为T,少数类集合为P,多数类集合为N,P={p1,p2,…,ppnum},N={n1,n2,…nnnum},其中pnum和nnum分别是少数类样本数量和多数类样本数量,将数据集T随机划分为70%的训练集和30%的测试集。
3.根据权利要求2所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述利用HDBSCAN基于分层密度的噪声应用空间聚类技术对训练集中的少数类样本进行聚类,得到互不相交且不同规模的集群,具体包括:
HDBCAN(基于分层密度的噪声应用空间聚类)首先根据密度对数据集P空间进行变换,求出所有样本点的最小生成树,然后对变换后的空间进行单连锁聚类,最后在不同高度对树进行切割,根据集群的稳定性选择不同密度的集群;由此得到不同规模的集群c1,c2,…,cm和噪声集群N,并且得到每个集群的成员隶属度矩阵wij,0<i≤m,0<j≤|ci|,删除噪声集群N并计算剩余少数类样本总数,Nmin=pnum-|N|。
4.根据权利要求3所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述计算每个集群的稀疏度具体包括:
遍历所有的集群c1,c2,...,cm,根据以下公式计算出每个集群的稀疏度Sparsity(ck);
首先对每个少数类集群ck构建一个欧式距离矩阵Dk,1≤k≤m,其中dij表示集群中少数类样本xi到xj的欧式距离,然后利用距离矩阵计算每个集群ck的平均距离,计算公式如下:
其中n为每个集群的样本总个数,这里只需要用到距离矩阵Dk中的下对角线元素,因为dij和dji表示的距离是一样的,最后利用集群的平均距离计算出该集群的稀疏度,计算公式如下:
根据上式可以发现Sparsity(ck)越大,表示集群ck越稀疏,Sparsity(ck)越小表示集群ck越密集。
5.根据权利要求4所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述计算集群的稀疏度对应的采样样本数量,具体包括:计算所有集群的稀疏度之和;计算每个集群的采样权重;根据采样权重和多数类样本数与少数类样本数的差值,计算每个少数类集群需要合成的样本量。
6.根据权利要求5所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述计算每个少数类集群的稀疏度之和、采样权重、合成的样本总数的步骤是:首先利用从步骤3a)得到的每个少数类集群ck的稀疏度计算出所有集群的稀疏度之和,计算公式如下:
其中,numf表示集群的数量;
然后利用得到的稀疏度之和计算出每个集群的采样权重,计算公式如下:
最后利用多数类样本与少数类样本之间的差值N和得到每个集群的采样权重,分别计算出每个集群需要合成的样本数量,计算公式如下:
N=Nmaj-Nmin
Samples(ck)=N×Sample weight(ck)
其中,Nmaj为多数类样本数,Nmin为少数类样本数。
7.根据权利要求6所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述根据每个集群的稀疏度和采样数量自适应地合成新的样本,在合成样本的时候,选择在集群中隶属度高的样本邻域中进行插值合成新的样本,用于保证新的样本点靠近集群中心,在稀疏度高的集群中自适应合成更多的样本,相应的越密集的集群合成更少的样本,具体包括:
首先对集群ci,0<i≤m,选择隶属度大于0.3的样本并在它k个邻居中选择一个样本根据差值公式合成新样本xnew,公式如下:
其中w∈[0,1],将新样本xnew添加到新的集合c′i,循环这个过程直到每个少数类集群合成的样本数量达到Samples(ck),最终得到新的少数类集合c′1,c′2,...,c′m
8.根据权利要求7所述的一种基于HDBSCAN聚类的自适应过采样方法,其特征在于,所述使用K-NN分类算法在此平衡训练数据集进行学习的步骤是:
多数类数据集P={p1,p2,...,ppnum}和新的少数类数据集c′1,c′2,...,c′m形成平衡训练数据集;
首先定义新的平衡之后的数据集T={(x1,y1),(x2,y2),…,(xN,yN)},其中,为实例的特征向量,χ表示数据集T中所有特征向量的集合,Rn表示n维实数向量空间,yi∈γ={cp,cn}为实例的类别,cp表示少数类,cn表示多数类,根据给定的距离度量,在训练集T中找出与x最近邻的k个点,涵盖这k个点的x的邻域记作Nk(x),然后在Nk(x)中根据分类决策规则来预测x的类别y。公式如下:
其中,I为指示函数,即当yi=cj时I为1,否则I为0。
CN201910605272.7A 2019-07-05 2019-07-05 基于hdbscan聚类的文本分类自适应过采样方法 Active CN110443281B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910605272.7A CN110443281B (zh) 2019-07-05 2019-07-05 基于hdbscan聚类的文本分类自适应过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910605272.7A CN110443281B (zh) 2019-07-05 2019-07-05 基于hdbscan聚类的文本分类自适应过采样方法

Publications (2)

Publication Number Publication Date
CN110443281A true CN110443281A (zh) 2019-11-12
CN110443281B CN110443281B (zh) 2023-09-26

Family

ID=68429468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910605272.7A Active CN110443281B (zh) 2019-07-05 2019-07-05 基于hdbscan聚类的文本分类自适应过采样方法

Country Status (1)

Country Link
CN (1) CN110443281B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909890A (zh) * 2019-12-04 2020-03-24 腾讯科技(深圳)有限公司 游戏人工智能训练方法、装置及服务器和存储介质
CN111259964A (zh) * 2020-01-17 2020-06-09 上海海事大学 一种不平衡数据集的过采样方法
CN111539451A (zh) * 2020-03-26 2020-08-14 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN111783995A (zh) * 2020-06-12 2020-10-16 海信视像科技股份有限公司 分类规则获取方法及装置
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN112381161A (zh) * 2020-11-18 2021-02-19 厦门市美亚柏科信息股份有限公司 一种神经网络训练方法
CN112733960A (zh) * 2021-01-25 2021-04-30 大连交通大学 一种基于人工合成数据过采样技术的不平衡物体识别方法
CN112800917A (zh) * 2021-01-21 2021-05-14 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN112861928A (zh) * 2021-01-19 2021-05-28 苏州大学 一种面向不均衡语音数据集的数据生成方法及系统
CN112949938A (zh) * 2021-03-29 2021-06-11 哈尔滨工业大学 改善训练样本类别不均衡的风电爬坡事件直接预报方法
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法
CN113673575A (zh) * 2021-07-26 2021-11-19 浙江大华技术股份有限公司 一种数据合成方法、图像处理模型的训练方法及相关装置
CN114004266A (zh) * 2020-07-27 2022-02-01 中国电信股份有限公司 非均衡工业数据分类方法和装置、计算机可读存储介质
CN114254997A (zh) * 2021-12-07 2022-03-29 苏州大学 基于密度自适应过采样的垃圾邮件分类系统及方法
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114626483A (zh) * 2022-03-30 2022-06-14 北京爱奇艺科技有限公司 一种地标图像生成方法及装置
CN115130619A (zh) * 2022-08-04 2022-09-30 中建电子商务有限责任公司 一种基于聚类选择集成的风险控制方法
CN116051288A (zh) * 2023-03-30 2023-05-02 华南理工大学 一种基于重采样的金融信用评分数据增强方法
CN118131029A (zh) * 2023-12-29 2024-06-04 广东电网有限责任公司江门供电局 一种高压断路器故障诊断系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
RU2656708C1 (ru) * 2017-06-29 2018-06-06 Самсунг Электроникс Ко., Лтд. Способ разделения текстов и иллюстраций в изображениях документов с использованием дескриптора спектра документа и двухуровневой кластеризации
US20190005324A1 (en) * 2017-06-29 2019-01-03 Samsung Electronics Co., Ltd. Method and apparatus for separating text and figures in document images
US20200357487A1 (en) * 2017-11-03 2020-11-12 Cambridge Enterprise Limited Computer-implemented method and system for determining a disease status of a subject from immune-receptor sequencing data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930856A (zh) * 2016-03-23 2016-09-07 深圳市颐通科技有限公司 基于改进dbscan-smote算法的分类方法
RU2656708C1 (ru) * 2017-06-29 2018-06-06 Самсунг Электроникс Ко., Лтд. Способ разделения текстов и иллюстраций в изображениях документов с использованием дескриптора спектра документа и двухуровневой кластеризации
US20190005324A1 (en) * 2017-06-29 2019-01-03 Samsung Electronics Co., Ltd. Method and apparatus for separating text and figures in document images
CN107545275A (zh) * 2017-07-27 2018-01-05 华南理工大学 重采样与代价敏感学习融合的不平衡数据集成分类方法
US20200357487A1 (en) * 2017-11-03 2020-11-12 Cambridge Enterprise Limited Computer-implemented method and system for determining a disease status of a subject from immune-receptor sequencing data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王继业等: "基于HDBSCAN动态跟踪客户用电行为模式", 《供用电》, pages 10 - 16 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909890A (zh) * 2019-12-04 2020-03-24 腾讯科技(深圳)有限公司 游戏人工智能训练方法、装置及服务器和存储介质
CN111259964A (zh) * 2020-01-17 2020-06-09 上海海事大学 一种不平衡数据集的过采样方法
CN111259964B (zh) * 2020-01-17 2023-04-07 上海海事大学 一种不平衡数据集的过采样方法
CN111539451B (zh) * 2020-03-26 2023-08-15 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN111539451A (zh) * 2020-03-26 2020-08-14 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质
CN111783995A (zh) * 2020-06-12 2020-10-16 海信视像科技股份有限公司 分类规则获取方法及装置
CN114004266A (zh) * 2020-07-27 2022-02-01 中国电信股份有限公司 非均衡工业数据分类方法和装置、计算机可读存储介质
CN112115992A (zh) * 2020-09-10 2020-12-22 西北工业大学 基于聚类过采样与实例硬度阈值的数据重采样方法
CN112381161A (zh) * 2020-11-18 2021-02-19 厦门市美亚柏科信息股份有限公司 一种神经网络训练方法
CN112381161B (zh) * 2020-11-18 2022-08-30 厦门市美亚柏科信息股份有限公司 一种神经网络训练方法
CN112861928A (zh) * 2021-01-19 2021-05-28 苏州大学 一种面向不均衡语音数据集的数据生成方法及系统
CN112800917A (zh) * 2021-01-21 2021-05-14 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN112800917B (zh) * 2021-01-21 2022-07-19 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN112733960A (zh) * 2021-01-25 2021-04-30 大连交通大学 一种基于人工合成数据过采样技术的不平衡物体识别方法
CN112733960B (zh) * 2021-01-25 2023-06-20 大连交通大学 一种基于人工合成数据过采样技术的不平衡物体识别方法
CN112949938A (zh) * 2021-03-29 2021-06-11 哈尔滨工业大学 改善训练样本类别不均衡的风电爬坡事件直接预报方法
CN113469251A (zh) * 2021-07-02 2021-10-01 南京邮电大学 不平衡数据的分类方法
CN113673575A (zh) * 2021-07-26 2021-11-19 浙江大华技术股份有限公司 一种数据合成方法、图像处理模型的训练方法及相关装置
CN114254997A (zh) * 2021-12-07 2022-03-29 苏州大学 基于密度自适应过采样的垃圾邮件分类系统及方法
CN114579631A (zh) * 2022-01-26 2022-06-03 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114579631B (zh) * 2022-01-26 2023-04-07 苏州大学 基于概率加权过采样的社区矫正率预测系统及方法
CN114626483A (zh) * 2022-03-30 2022-06-14 北京爱奇艺科技有限公司 一种地标图像生成方法及装置
CN115130619A (zh) * 2022-08-04 2022-09-30 中建电子商务有限责任公司 一种基于聚类选择集成的风险控制方法
CN116051288A (zh) * 2023-03-30 2023-05-02 华南理工大学 一种基于重采样的金融信用评分数据增强方法
CN118131029A (zh) * 2023-12-29 2024-06-04 广东电网有限责任公司江门供电局 一种高压断路器故障诊断系统

Also Published As

Publication number Publication date
CN110443281B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN110443281A (zh) 基于hdbscan聚类的自适应过采样方法
CN104463128B (zh) 用于人脸识别的眼镜检测方法及系统
CN106599935B (zh) 基于Spark大数据平台的三支决策不平衡数据过采样方法
CN110852288B (zh) 一种基于两阶段卷积神经网络的细胞图像分类方法
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN104573013A (zh) 结合类别权重的集成学习分类方法
CN109492673A (zh) 一种基于谱聚类采样的不平衡数据预测方法
CN105005789B (zh) 一种基于视觉词汇的遥感图像地物分类方法
CN110969191A (zh) 基于相似性保持度量学习方法的青光眼患病概率预测方法
CN109871901A (zh) 一种基于混合采样和机器学习的不平衡数据分类方法
CN101980251A (zh) 二叉树多类支持向量机遥感分类方法
CN110321968A (zh) 一种超声图像分类装置
CN109800810A (zh) 一种基于不平衡数据的少样本学习分类器构建方法
Cao et al. Detection of microalgae objects based on the Improved YOLOv3 model
Chen et al. PCCT: Progressive class-center triplet loss for imbalanced medical image classification
CN109919320B (zh) 基于语义层次结构的Triplet网络学习方法
CN110276395A (zh) 基于正则化动态集成的不平衡数据分类方法
Abbas et al. Multi-cell type and multi-level graph aggregation network for cancer grading in pathology images
Park Classification of audio signals using Fuzzy c-Means with divergence-based Kernel
CN109389172A (zh) 一种基于无参数网格的无线电信号数据聚类方法
Zhihao et al. Comparison of the different sampling techniques for imbalanced classification problems in machine learning
Fernández-Carrobles et al. Bagging tree classifier and texture features for tumor identification in histological images
CN107480718A (zh) 一种基于视觉词袋模型的高分辨率遥感图像分类方法
CN115859115A (zh) 一种基于高斯分布的智能重采样技术
CN109947945A (zh) 基于词向量和集成svm的文本数据流分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant