CN108763283A - 一种不平衡数据集过采样方法 - Google Patents

一种不平衡数据集过采样方法 Download PDF

Info

Publication number
CN108763283A
CN108763283A CN201810330218.1A CN201810330218A CN108763283A CN 108763283 A CN108763283 A CN 108763283A CN 201810330218 A CN201810330218 A CN 201810330218A CN 108763283 A CN108763283 A CN 108763283A
Authority
CN
China
Prior art keywords
data sample
sample
data
core
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810330218.1A
Other languages
English (en)
Inventor
徐小龙
陈稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201810330218.1A priority Critical patent/CN108763283A/zh
Publication of CN108763283A publication Critical patent/CN108763283A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及一种不平衡数据集过采样方法,将传统过采样方法,与优化后基于密度的聚类算法相结合,有效解决了不平衡数据的分类问题,其中,利用优化的聚类算法去除了少数类的噪声样本,使得合成的样本更加合理有效,为了充分利用了边界样本和核心样本的信息,对核心样本和边界样本采用了不同策略进行过采样。

Description

一种不平衡数据集过采样方法
技术领域
本发明涉及一种不平衡数据集过采样方法,属于数据预处理技术领域。
背景技术
不平衡数据分类问题是机器学习领域内一个重要的研究课题,引起国内外学者的广泛关注。不平衡数据集是指在多类别的数据集中,某些类别样本的数目远小于其他类别样本的数目,各个类别样本的数目存在着严重的不平衡现象。不平衡数据集广泛存在于人们的现实生活和工业生产之中,比如垃圾邮件过滤、文本分类、医疗诊断等都存在数据不平衡问题,在这些领域,相比多数类样本,我们更加关心少数类样本。
目前对不平衡数据集分类的研究,主要集中在算法层面和数据层面。基于算法层面,大都是针对非平衡数据特点提出新的算法或者改进现有的算法,包括集成方法、代价敏感学习方法。虽然能够提高少数类样本的分类准确率,但仍然有局限性,对于不同特征的数据集,其适用的分类算法不一样,即每种分类算法有其最适合的情况。基于数据层面,大都是基于K邻近思想,计算量大,容易受到噪声数据影响。
发明内容
本发明所要解决的技术问题是提供一种采用全新架构设计,能够有效提高数据分类准确性的不平衡数据集过采样方法。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种不平衡数据集过采样方法,基于已知各数据样本所属类别,完成数据的过采样,其特征在于,包括如下步骤:
步骤A.针对目标数据样本集中的各个数据样本,进行维度空间坐标转换,获得各个数据样本分别所对应的维度空间坐标,然后进入步骤B;
步骤B.针对目标数据样本集,删除其中与任意数据样本之间不存在密度相连关系的数据样本,更新目标数据样本集,并构建指定少数类核心数据样本集合,以及指定少数类边界数据样本集合,然后进入步骤C;
步骤C.分别针对指定少数类核心数据样本集合中的各个核心数据样本,执行过采样操作,更新目标数据样本集,然后进入步骤D;
步骤D.分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行过采样操作,更新目标数据样本集。
作为本发明的一种优选技术方案,所述步骤B包括如下步骤:
步骤B1.针对目标数据样本集中,除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外的各个数据样本,任意选取一个数据样本,判断以该数据样本维度空间坐标为球心,预设Eps领域内其它数据样本的数量是否小于预设核心判断数量阈值MinPts,是则定义该数据样本为噪声数据样本,并进入步骤B3;否则定义该数据样本为核心数据样本,并进入步骤B2;
步骤B2.构建本次循环中所获核心数据样本所对应的簇,将该核心数据样本划分至该簇中,并针对目标数据样本集中、除被定义为核心数据样本、待定边界数据样本以外的各个数据样本,选择与该核心数据样本之间存在密度相连关系的各个数据样本,将其定义为待定边界数据样本,然后进入步骤B3;
步骤B3.判断目标数据样本集中,除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外,是否存在其它数据样本,是则返回步骤B1;否则进入步骤B4;
步骤B4.分别针对各个待定边界数据样本,首先获得以待定边界数据样本维度空间坐标为球心,预设Eps领域内的各个核心数据样本,接着获得该各个核心数据样本分别所对应簇的簇中心,然后获得该待定边界数据样本分别至该各簇中心的欧式距离,最后将该待定边界数据样本划分至最短欧式距离所对应的簇中,进而完成各个待定边界数据样本向各个簇的划分,然后进入步骤B5;
步骤B5.删除被定义为噪声数据样本,更新目标数据样本集,并基于已知各数据样本所属类别,选择指定少数类所包括的各个核心数据样本,并构建指定少数类核心数据样本集合,以及选择指定少数类所包括的各个边界数据样本,并构建指定少数类边界数据样本集合。
作为本发明的一种优选技术方案,其特征在于,所述步骤B2中,针对目标数据样本集中、除划分至簇中数据样本以外的各个数据样本,若其中任意数据样本p与核心数据样本q之间满足如下关系:
p∈NEps(q)
|NEps(q)|≥MinPts
则该数据样本p与核心数据样本q之间存在直接密度可达关系,其中,NEps(q)表示以核心数据样本q维度空间坐标为球心,预设领域Eps内数据样本的集合,|NEps(q)|表示集合NEps(q)中元素的数量,MinPts表示预设核心判断数量阈值。
作为本发明的一种优选技术方案,所述步骤C中,分别针对指定少数类核心数据样本集合中的各个核心数据样本,执行如下步骤C1至步骤C4,实现过采样操作,更新目标数据样本集;
步骤C1.基于目标数据样本集,在以核心数据样本维度空间坐标为球心,预设领域范围内随机选择预设数量N1个随机数据样本,并进入步骤C2;
步骤C2.分别针对该N1个随机数据样本,获得随机数据样本各个特征值分别与该核心数据样本相应特征值之间的向量差,进而获得各随机数据样本分别所对应的向量差,并进入步骤C3;
步骤C3.从0至1之间选取随机数,并获得该随机数分别与该各随机数据样本所对应向量差的乘积,进而获得该各随机数据样本分别所对应的乘积值,然后进入步骤C4;
步骤C4.获得各随机数据样本所对应乘积值分别与该核心数据样本之和,进而获得该核心数据样本所对应的N1个合成样本,加入至目标数据样本集当中。
作为本发明的一种优选技术方案,所述步骤D中,首先将属于指定少数类的各个数据样本归为一簇,并获得该簇的簇中心,作为少数类样本簇中心样本,然后分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行如下步骤D1至步骤D4,实现过采样操作,更新目标数据样本集;
步骤D1.获得边界数据样本各个特征值分别与少数类样本簇中心样本相应特征值之间的向量差,即作为该边界数据样本所对应的向量差,然后进入步骤D2;
步骤D2.从0至1之间选取N1个随机数,并获得该各个随机数分别与该边界数据样本所对应向量差的乘积,作为该边界数据样本所对应的N1个乘积值,然后进入步骤D3;
步骤D3.获得该边界数据样本所对应N1个乘积值分别与少数类样本簇中心样本之和,进而获得该边界数据样本所对应的N1个合成样本,加入至目标数据样本集当中。
本发明所述一种不平衡数据集过采样方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明设计的不平衡数据集过采样方法,将传统过采样方法,与优化后基于密度的聚类算法相结合,有效解决了不平衡数据的分类问题,其中,利用优化的聚类算法去除了少数类的噪声样本,使得合成的样本更加合理有效,为了充分利用了边界样本和核心样本的信息,对核心样本和边界样本采用了不同策略进行过采样。
附图说明
图1是本发明所设计不平衡数据集过采样方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
如图1所示,本发明设计了一种不平衡数据集过采样方法,基于已知各数据样本所属类别,完成数据的过采样,其思想是首先,从原始数据集T中任取一个未处理的样本p;若p是核心样本,即生成一个新的簇,然后对这个核心点进行扩充,即寻找从这个核心点出发的所有密度相连的样本点,将核心样本归到该簇中,将所有的非核心样本标记为待定边界样本。若p不是核心样本,将p标记为噪声。重新扫描数据集,重复以上步骤直到所有的样本都标记为止。然后我们待定的边界样本进行划分,将待定的边界样本划分到距离其最近的簇中心所属的簇。然后删除标记为噪声的少数类数据,使得合成的新样本更加合理有效。最后我们分别对核心样本和边界样本进行过采样,对每个核心样本,我们随机选取其邻域内的样本,然后在它们的连线上合成新的样本,对每个边界样本,我们在边界样本和簇中心的连线上合成新样本。
在实际应用当中,本发明所设计一种不平衡数据集过采样方法,具体包括如下步骤:
步骤A.针对目标数据样本集中的各个数据样本,进行维度空间坐标转换,获得各个数据样本分别所对应的维度空间坐标,然后进入步骤B。
步骤B.针对目标数据样本集,删除其中与任意数据样本之间不存在密度相连关系的数据样本,更新目标数据样本集,并构建指定少数类核心数据样本集合,以及指定少数类边界数据样本集合,然后进入步骤C。
针对上述步骤B的操作,具体可以包括如下步骤进行实现:
步骤B1.针对目标数据样本集中,除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外的各个数据样本,任意选取一个数据样本,判断以该数据样本维度空间坐标为球心,预设Eps领域内其它数据样本的数量是否小于预设核心判断数量阈值MinPts,是则定义该数据样本为噪声数据样本,等价的可以定义为从任何一个核心数据样本出发都是密度不可达的,并进入步骤B3;否则定义该数据样本为核心数据样本,并进入步骤B2。
步骤B2.构建本次循环中所获核心数据样本所对应的簇,将该核心数据样本划分至该簇中,并针对目标数据样本集中、除被定义为核心数据样本、待定边界数据样本以外的各个数据样本,若其中任意数据样本p与核心数据样本q之间满足如下关系:
p∈NEps(q)
|NEps(q)|≥MinPts
则该数据样本p与核心数据样本q之间存在直接密度可达关系,即选择与该核心数据样本之间存在密度相连关系的各个数据样本,将其定义为待定边界数据样本,然后进入步骤B3。其中,NEps(q)表示以核心数据样本q维度空间坐标为球心,预设领域Eps内数据样本的集合,|NEps(q)|表示集合NEps(q)中元素的数量,MinPts表示预设核心判断数量阈值。
步骤B3.判断目标数据样本集中,除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外,是否存在其它数据样本,是则返回步骤B1;否则进入步骤B4。
步骤B4.分别针对各个待定边界数据样本,首先获得以待定边界数据样本维度空间坐标为球心,预设Eps领域内的各个核心数据样本,接着获得该各个核心数据样本分别所对应簇的簇中心,然后获得该待定边界数据样本分别至该各簇中心的欧式距离,最后将该待定边界数据样本划分至最短欧式距离所对应的簇中,进而完成各个待定边界数据样本向各个簇的划分,然后进入步骤B5。
步骤B5.删除被定义为噪声数据样本,更新目标数据样本集,并基于已知各数据样本所属类别,选择指定少数类所包括的各个核心数据样本,并构建指定少数类核心数据样本集合,以及选择指定少数类所包括的各个边界数据样本,并构建指定少数类边界数据样本集合。
步骤C.分别针对指定少数类核心数据样本集合中的各个核心数据样本,执行如下步骤C1至步骤C4,实现过采样操作,更新目标数据样本集,然后进入步骤D。
步骤C1.基于目标数据样本集,在以核心数据样本维度空间坐标为球心,预设领域范围内随机选择预设数量N1个随机数据样本,并进入步骤C2。
步骤C2.分别针对该N1个随机数据样本,获得随机数据样本各个特征值分别与该核心数据样本相应特征值之间的向量差,进而获得各随机数据样本分别所对应的向量差,并进入步骤C3。
步骤C3.从0至1之间选取随机数,并获得该随机数分别与该各随机数据样本所对应向量差的乘积,进而获得该各随机数据样本分别所对应的乘积值,然后进入步骤C4。
步骤C4.获得各随机数据样本所对应乘积值分别与该核心数据样本之和,进而获得该核心数据样本所对应的N1个合成样本,加入至目标数据样本集当中。
步骤D.分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行过采样操作,更新目标数据样本集。
针对上述步骤D的操作,首先将属于指定少数类的各个数据样本归为一簇,并获得该簇的簇中心,作为少数类样本簇中心样本,然后分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行如下步骤D1至步骤D4,实现过采样操作,更新目标数据样本集。
步骤D1.获得边界数据样本各个特征值分别与少数类样本簇中心样本相应特征值之间的向量差,即作为该边界数据样本所对应的向量差,然后进入步骤D2。
步骤D2.从0至1之间选取N1个随机数,并获得该各个随机数分别与该边界数据样本所对应向量差的乘积,作为该边界数据样本所对应的N1个乘积值,然后进入步骤D3。
步骤D3.获得该边界数据样本所对应N1个乘积值分别与少数类样本簇中心样本之和,进而获得该边界数据样本所对应的N1个合成样本,加入至目标数据样本集当中。
将上述所述不平衡数据集过采样方法,应用到实际当中,以Diabetes数据集为例,首先对原始数据集进行聚类,去除噪声,然后分别对核心样本和边界样本进行过采样,具体算法流程如下。
上述步骤A至步骤B,具体执行过程中,设置领域Eps为0.6,MinPts为5,即数据样本p领域内不少于5个数据样本的就是核心数据样本,若p是核心数据样本,即生成一个新的簇,然后对簇进行扩充,即寻找从这个核心数据样本出发的所有密度相连的数据样本,将核心数据样本归到该簇中,将所有的非核心数据样本标记为待定边界数据样本。
进入步骤C,即分别针对指定少数类核心数据样本集合中的各个核心数据样本,执行如下步骤C1至步骤C4,实现过采样操作,更新目标数据样本集,具体执行步骤C1至步骤C4.
上述步骤C在实际应用中,比如核心数据样本为c1,在其邻域Eps内随机选择一个数据样本c2,c1=[15,136,70,32,110,37.1,0.153,43,1],c2=[9,145,88,34,165,30.3,0.771,53,1],首先我们计算c1和c2的差距d,d=[-6,9,18,2,55,-6.8,0.618,10],然后从0到1之间选取随机数,该随机数乘上差距d再加上核心数据样本c1就得到了合成数据样本[14.38,139.19,76.16,33.23,137.75,34.01,0.48,45.21,1]。
最后执行步骤D,即分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行过采样操作,更新目标数据样本集,应用中,首先将属于指定少数类的各个数据样本归为一簇,并获得该簇的簇中心,作为少数类样本簇中心样本,然后分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行如下步骤D1至步骤D4,实现过采样操作。
上述步骤D在具体的实际应用中,比如少数类数据样本的簇中心Ccenter,边界数据样本b,Ccenter=[4.96,143.5,70.82,22.42,102.7,35.23,0.53,36.95,1],b=[0,180,78,63,14,59.4,2.42,25,1],我们对b进行过采样,计算Ccenter和b的差距d,d=[-4.96,36.5,7.18,40.58,-88.7,24.17,1.89,-11.95],然后从0到1之间选取随机数,将随机数乘上差距d再加上簇中心Ccenter就得到了合成数据样本[3.82,156.28,76.28,27.7,64.56,49.49,2.08,25.48,1]。
综上,本发明为解决了不平衡数据的分类问题,提出了一种不平衡数据集过采样方法,利用优化的聚类算法将少数类数据分为核心数据样本、边界数据样本、噪声;然后去除少数类的噪声数据,使得合成的数据样本更加有效;最后利用核心数据样本和边界数据样本的信息,针对核心数据样本和边界数据样本采用了不同的策略进行过采样。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种不平衡数据集过采样方法,基于已知各数据样本所属类别,完成数据的过采样,其特征在于,包括如下步骤:
步骤A.针对目标数据样本集中的各个数据样本,进行维度空间坐标转换,获得各个数据样本分别所对应的维度空间坐标,然后进入步骤B;
步骤B.针对目标数据样本集,删除其中与任意数据样本之间不存在密度相连关系的数据样本,更新目标数据样本集,并构建指定少数类核心数据样本集合,以及指定少数类边界数据样本集合,然后进入步骤C;
步骤C.分别针对指定少数类核心数据样本集合中的各个核心数据样本,执行过采样操作,更新目标数据样本集,然后进入步骤D;
步骤D.分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行过采样操作,更新目标数据样本集。
2.根据权利要求1所述一种不平衡数据集过采样方法,其特征在于,所述步骤B包括如下步骤:
步骤B1.针对目标数据样本集中,除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外的各个数据样本,任意选取一个数据样本,判断以该数据样本维度空间坐标为球心,预设Eps领域内其它数据样本的数量是否小于预设核心判断数量阈值MinPts,是则定义该数据样本为噪声数据样本,并进入步骤B3;否则定义该数据样本为核心数据样本,并进入步骤B2;
步骤B2.构建本次循环中所获核心数据样本所对应的簇,将该核心数据样本划分至该簇中,并针对目标数据样本集中、除被定义为核心数据样本、待定边界数据样本以外的各个数据样本,选择与该核心数据样本之间存在密度相连关系的各个数据样本,将其定义为待定边界数据样本,然后进入步骤B3;
步骤B3.判断目标数据样本集中,除被定义为核心数据样本、待定边界数据样本、噪声数据样本以外,是否存在其它数据样本,是则返回步骤B1;否则进入步骤B4;
步骤B4.分别针对各个待定边界数据样本,首先获得以待定边界数据样本维度空间坐标为球心,预设Eps领域内的各个核心数据样本,接着获得该各个核心数据样本分别所对应簇的簇中心,然后获得该待定边界数据样本分别至该各簇中心的欧式距离,最后将该待定边界数据样本划分至最短欧式距离所对应的簇中,进而完成各个待定边界数据样本向各个簇的划分,然后进入步骤B5;
步骤B5.删除被定义为噪声数据样本,更新目标数据样本集,并基于已知各数据样本所属类别,选择指定少数类所包括的各个核心数据样本,并构建指定少数类核心数据样本集合,以及选择指定少数类所包括的各个边界数据样本,并构建指定少数类边界数据样本集合。
3.根据权利要求2所述一种不平衡数据集过采样方法,其特征在于,所述步骤B2中,针对目标数据样本集中、除划分至簇中数据样本以外的各个数据样本,若其中任意数据样本p与核心数据样本q之间满足如下关系:
p∈NEps(q)
|NEps(q)|≥MinPts
则该数据样本p与核心数据样本q之间存在直接密度可达关系,其中,NEps(q)表示以核心数据样本q维度空间坐标为球心,预设领域Eps内数据样本的集合,|NEps(q)|表示集合NEps(q)中元素的数量,MinPts表示预设核心判断数量阈值。
4.根据权利要求1所述一种不平衡数据集过采样方法,其特征在于,所述步骤C中,分别针对指定少数类核心数据样本集合中的各个核心数据样本,执行如下步骤C1至步骤C4,实现过采样操作,更新目标数据样本集;
步骤C1.基于目标数据样本集,在以核心数据样本维度空间坐标为球心,预设领域范围内随机选择预设数量N1个随机数据样本,并进入步骤C2;
步骤C2.分别针对该N1个随机数据样本,获得随机数据样本各个特征值分别与该核心数据样本相应特征值之间的向量差,进而获得各随机数据样本分别所对应的向量差,并进入步骤C3;
步骤C3.从0至1之间选取随机数,并获得该随机数分别与该各随机数据样本所对应向量差的乘积,进而获得该各随机数据样本分别所对应的乘积值,然后进入步骤C4;
步骤C4.获得各随机数据样本所对应乘积值分别与该核心数据样本之和,进而获得该核心数据样本所对应的N1个合成样本,加入至目标数据样本集当中。
5.根据权利要求1所述一种不平衡数据集过采样方法,其特征在于,所述步骤D中,首先将属于指定少数类的各个数据样本归为一簇,并获得该簇的簇中心,作为少数类样本簇中心样本,然后分别针对指定少数类边界数据样本集合中的各个边界数据样本,执行如下步骤D1至步骤D4,实现过采样操作,更新目标数据样本集;
步骤D1.获得边界数据样本各个特征值分别与少数类样本簇中心样本相应特征值之间的向量差,即作为该边界数据样本所对应的向量差,然后进入步骤D2;
步骤D2.从0至1之间选取N1个随机数,并获得该各个随机数分别与该边界数据样本所对应向量差的乘积,作为该边界数据样本所对应的N1个乘积值,然后进入步骤D3;
步骤D3.获得该边界数据样本所对应N1个乘积值分别与少数类样本簇中心样本之和,进而获得该边界数据样本所对应的N1个合成样本,加入至目标数据样本集当中。
CN201810330218.1A 2018-04-13 2018-04-13 一种不平衡数据集过采样方法 Pending CN108763283A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810330218.1A CN108763283A (zh) 2018-04-13 2018-04-13 一种不平衡数据集过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810330218.1A CN108763283A (zh) 2018-04-13 2018-04-13 一种不平衡数据集过采样方法

Publications (1)

Publication Number Publication Date
CN108763283A true CN108763283A (zh) 2018-11-06

Family

ID=63981825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810330218.1A Pending CN108763283A (zh) 2018-04-13 2018-04-13 一种不平衡数据集过采样方法

Country Status (1)

Country Link
CN (1) CN108763283A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN110825644A (zh) * 2019-11-11 2020-02-21 南京邮电大学 一种跨项目软件缺陷预测方法及其系统
CN113191431A (zh) * 2021-04-29 2021-07-30 武汉工程大学 一种细粒度车型识别方法、装置及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635839A (zh) * 2018-11-12 2019-04-16 国家电网有限公司 一种基于机器学习的非平衡数据集的处理方法和装置
CN110825644A (zh) * 2019-11-11 2020-02-21 南京邮电大学 一种跨项目软件缺陷预测方法及其系统
CN110825644B (zh) * 2019-11-11 2021-06-11 南京邮电大学 一种跨项目软件缺陷预测方法及其系统
CN113191431A (zh) * 2021-04-29 2021-07-30 武汉工程大学 一种细粒度车型识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Yu et al. An improved ensemble learning method for classifying high-dimensional and imbalanced biomedicine data
Zhou et al. Fuzziness parameter selection in fuzzy c-means: The perspective of cluster validation
CN109409400A (zh) 基于k近邻和多类合并密度峰值聚类方法、图像分割系统
CN108763283A (zh) 一种不平衡数据集过采样方法
CN104217015B (zh) 基于互为共享最近邻的层次聚类方法
CN106096727A (zh) 一种基于机器学习的网络模型构造方法及装置
CN110264454B (zh) 基于多隐藏层条件随机场的宫颈癌组织病理图像诊断方法
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
Huang et al. AML, ALL, and CML classification and diagnosis based on bone marrow cell morphology combined with convolutional neural network: A STARD compliant diagnosis research
CN108509996A (zh) 基于Filter和Wrapper选择算法的特征选择方法
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN105046323B (zh) 一种正则化rbf网络多标签分类方法
CN109213926A (zh) 一种基于社区划分和多源信息融合的地点推荐方法
CN108074025A (zh) 基于表面缺陷分布特征的钢卷表面缺陷判定方法
CN113505239A (zh) 一种结合图注意力和属性聚类的实体对齐方法
Ai-jun et al. Research on unbalanced data processing algorithm base tomeklinks-smote
Lv et al. Density peaks clustering based on geodetic distance and dynamic neighbourhood
Danaher et al. Insitutype: likelihood-based cell typing for single cell spatial transcriptomics
CN110399917A (zh) 一种基于超参数优化cnn的图像分类方法
CN105989005B (zh) 一种信息的推送方法及装置
Lin et al. A new density-based scheme for clustering based on genetic algorithm
Wang et al. RAILS: A robust adversarial immune-inspired learning system
CN117195027A (zh) 基于成员选择的簇加权聚类集成方法
CN108268876A (zh) 一种基于聚类的近似重复记录的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181106

RJ01 Rejection of invention patent application after publication