CN111259964A - 一种不平衡数据集的过采样方法 - Google Patents

一种不平衡数据集的过采样方法 Download PDF

Info

Publication number
CN111259964A
CN111259964A CN202010052607.XA CN202010052607A CN111259964A CN 111259964 A CN111259964 A CN 111259964A CN 202010052607 A CN202010052607 A CN 202010052607A CN 111259964 A CN111259964 A CN 111259964A
Authority
CN
China
Prior art keywords
positive
sample
new
samples
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010052607.XA
Other languages
English (en)
Other versions
CN111259964B (zh
Inventor
程陈
孙伟
余盖青
费若岚
王长静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202010052607.XA priority Critical patent/CN111259964B/zh
Publication of CN111259964A publication Critical patent/CN111259964A/zh
Application granted granted Critical
Publication of CN111259964B publication Critical patent/CN111259964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/66Analysis of geometric attributes of image moments or centre of gravity

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种不平衡数据集的过采样方法,首先,将获取的不平衡数据集划分为正类样本集和负类样本集;其次,求解正类样本集的质心以及距离质心最远的三个正类样本,以所求的三个正类样本为顶点建立三角形;其次,随机选取其中一个三角形顶点与质心连线,并在所述连线上随机生成新的正类样本;其次,利用CCA和GAN思想评估新生正类样本合理性,对正类样本集进行更新;最后,更新的正类样本集的样本量远小于负类样本集时,需要继续补充正类样本集,直到更新的正类样本集与负类样本集的样本量平衡。本发明提供的不平衡数据集的过采样方法算法简便和数据集分布合理,显著提高了不平衡数据分类准确性,并通过实验证明具有良好应用效果。

Description

一种不平衡数据集的过采样方法
技术领域
本发明涉及数据挖掘和机器学习领域,具体涉及一种不平衡数据集的过采样方法。
背景技术
近些年,分类算法取得了长足的发展,但是随着数据来源的扩大,人们获得的不平衡数据越来越多。现有分类算法对不平衡数据敏感,直接采用现有分类算法难以对不平衡数据进行准确分类。
在二分类问题中,不平衡样本数据集是指某一类的样本数量明显少于另一类样本数量,数量占优势的类别通常称为负类或多数类,数量稀少的分类通常称为正类或少数类。相关学者通过大量实验总结了不平衡数据集异常点、噪声和某一类样本数量稀少等问题,得出了分类器在分类预测不平衡数据集时,结果倾向于多数类,造成很大的预测误差。实际数据集如癌症诊断、血液样本中心、网络信息安全等数据集通常是不平衡的,所以需要改进传统算法解决数据集不平衡分类问题。
有的学者以随机向上抽样为核心思想提出了SMOTE算法(合成少数过采样技术),通过人为构造正类样本使得数据集中负类样本和正类样本的数量趋于平衡;也有学者提出了将boosting机器学习思想与样本构造结合起来,对原始正类样本中错误分类的样本加大权值,将训练的许多弱分类器组合成强分类器,减少了对正类样本的预测误差;还有学者提出代价敏感学习算法,其核心思想是赋予正类样本错判更大的惩罚,正类较负类错判代价高迫使模型对稀少的正类具有更高的预测正确率。以上算法存在无法控制正类样本生成区域和样本生成个数,样本分布容易边缘化,算法计算复杂度大,以及耗费时间、效率较低等问题。
发明内容
为了提高对不平衡数据分类准确性,优化算法计算和数据集分布,本发明提出了一种不平衡数据集的过采样方法。
本发明提出的不平衡数据集的过采样方法包含以下过程:
步骤S1将获取的不平衡数据集划分为正类样本集和负类样本集;
步骤S2求解正类样本集的质心以及距离质心最远的三个正类样本,以所求的三个正类样本为顶点建立三角形;
步骤S3随机选取其中一个三角形顶点与质心连线,并在所述连线上随机生成新的正类样本;
步骤S4评估新生正类样本合理性,将评估合理的新生正类样本加入正类样本集实现对正类样本集的更新;
步骤S5更新的正类样本集与负类样本集的样本量不等时重复步骤3和步骤4生成新的正类样本继续补充正类样本集,直到更新的正类样本集与负类样本集的样本量平衡。
可选地,步骤S1通过样本的Class字段值对不平衡数据集X进行划分,Class字段值为1的样本划入正类样本集Xpositive,Class字段值为0的样本划入负类样本集Xnegative
可选地,步骤S2进一步包含以下过程:
设定正类样本集Xpositive中的正类样本为N个,每一个正类样本表示为:
xi=(xi1,xi2,xi3,...,xin) (1)
其中,n表示每个正样本数据的维数,i∈[1,N];
设定y为正类样本集Xpositive的质心,y表示为:
y=(y1,y2,y3,...,yn) (2)
其中,
Figure BDA0002371727230000021
遍历所有正类样本xi,选出到质心y距离最大的三个样本,并根据距离,由大到小依次表示为xfmax、xsmax、xtmax
可选地,正类样本xi到质心y距离采用欧式距离公式进行计算,可表示为:
Figure BDA0002371727230000031
可选地,步骤S3中,新生正类样本表示为xnew,计算公式为:
xnew=y+rand(0,1)×(xm-y) (4)
其中,xm={xfmax,xsmax,xtmax},rand(0,1)表示随机生成的(0,1)之间小数。
可选地,步骤S4中利用CCA初步评估新生正类样本xnew的合理性,包含以下过程:
步骤H1根据K-means算法对新生正类样本xnew进行聚类,得到K个类簇;
步骤H2在各类簇中,分别采用欧式距离公式计算每两个样本之间的距离;
步骤H3在各类簇中排序筛选出最大距离,并将K个最大距离各自对应的样本成对删除,实现对新生正类样本xnew的清洗,完成初步评估。
可选地,步骤S4中利用GAN进一步评估xnew合理性包含以下过程:
步骤E1将不平衡数据集X划分成训练集XA和预测集XB,正类样本、负类样本在训练集XA中的比例以及在预测集XB中的比例,都与正类样本、负类样本在不平衡数据集X中的比例一致;
步骤E2使用训练集XA对随机森林分类模型进行模型训练,通过训练完成的模型对预测集XB进行分类,得到不平衡数据集X的评估指标Accuracy、F-measure和G-mean数值;
步骤E3将清洗过的新生正类样本xnew加入不平衡数据集X中生成新的数据集X',对新的数据集X'进行划分生成新的训练集X'A和预测集X'B,正类样本、负类样本在训练集X'A中的比例以及在预测集X'B中的比例,都与正类样本、负类样本在新的数据集X'中的比例保持一致;
步骤E4使用新的训练集X'A对随机森林分类模型进行模型训练,通过训练完成的模型对新的预测集X'B进行分类,得到新的数据集X'的评估指标Accuracy'、F-measure'和G-mean'数值;
步骤E5对比分析评估指标,相较于不平衡数据集X的三个评估指标,新的数据集X'的三个评估指标分别得到提高,则评估新生正类样本xnew合理,否则评估其不合理。
可选地,所述评估指标中Accuracy、F-measure以及G-mean的计算公式如下:
Figure BDA0002371727230000041
Figure BDA0002371727230000042
Figure BDA0002371727230000043
其中,Accuracy为准确率,反应对样本判定能力;TP、FN分别为预测集XB中样本真实类别为正类,预测结果分别为正类、负类的样本数量;FP、TN分别为新的预测集XB中样本真实类别为负类,预测结果分别为正类、负类的样本数量;查准率
Figure BDA0002371727230000044
查全率
Figure BDA0002371727230000045
β为查全率与查准率的权重参数,F-measure为查准率和查全率的调和平均数,当β=1时查准率和查全率同样重要,当β>1时查全率更重要,当β<1时查准率更重要;G-mean用于综合考察正类预测分类准确率和负类预测准确率。
与现有技术相比,本发明所述不平衡数据集的过采样方法通过正类样本的质心和正类样本进行新的正类样本的生成,具体的,根据欧式距离计算公式求解出到质心距离最远的三个样本建立三角形,在质心与任意三角形顶点的连线上随机产生大量正类样本,从而降低了算法方面的复杂度,并优化了数据集分布。同时,本发明创造性地采用GAN(生成对抗网络)思想,提出了一套评估判断生成样本合理性的完整方法,提高了对不平衡数据分类准确性。
附图说明
图1为本发明所述不平衡数据集的过采样方法流程简图;
图2为本发明所述方法的具体执行流程示意图。
具体实施方式
不平衡样本数据集是生活中常见的一种数据形式,如医院的癌症诊断数据集中诊断患癌的数据要远远少于健康的数据,工厂的工业零件质检数据中质检不合格的数据要明显小于合格的数据,交通队的交通车辆违规数据集中违规的车辆数据也要远远小于遵守交规的车辆数据。在二分类问题中,这类不平衡样本数据集的一类样本量明显少于另一类样本量,将样本量多的一类称为负类或多数类,样本量稀少的一类称为正类或少数类,而正类或少数类样本往往需要特别关注,准确识别,因此本发明提供了一种不平衡数据集的过采样方法用于提高不平衡数据分类的准确性。
首先,获取不平衡数据集,将不平衡数据集划分为正类样本集和负类样本集;其次,计算正类样本集的质心,在正类样本集中找到距离质心最远的三个正类样本,并以之为顶点建立三角形;其次,随机选取其中一个三角形顶点与质心进行连线,在顶点与质心的连线上随机生成新的正类样本;其次,利用CCA和GAN思想评估新生成的正类样本合理性,并将评估合理的样本加入正类样本集实现对正类样本集的更新;最后,比较更新的正类样本集与负类样本集的样本量,样本量差值大时重复步骤3和步骤4生成新的正类样本继续补充正类样本集,直到更新的正类样本集与负类样本集的样本量平衡。本发明所述不平衡数据集的过采样方法流程如图1所示。
以下通过附图,结合较佳的具体实施例对本发明方法作详细阐述。
不平衡数据集用X表示,在实际应用中不平衡数据集通常可以通过人工现场进行采集或由需求方提供,需求方包括医院、工厂、交通队等。每个样本都有一个Class字段,值为1或0,根据Class字段值将样本分为正类样本和负类样本,将不平衡数据集X划分为正类样本集Xpositive和负类样本集Xnegative,其中,Class字段值为1的样本为正类样本,划入正类样本集Xpositive;Class字段值为0的样本为负类样本,划入负类样本集Xnegative
本实例设定正类样本集Xpositive中的正类样本量为N个,每个正类样本表示为:
xi=(xi1,xi2,xi3,...,xin) (1)
其中,n表示每个正样本数据的维数,i∈[1,N];
设定y为正类样本集Xpositive的质心,y表示为:
y=(y1,y2,y3,...,yn) (2)
其中,
Figure BDA0002371727230000061
遍历所有正类样本xi,选出到质心y距离最大的三个样本,并根据距离,由大到小依次表示为xfmax、xsmax、xtmax
正类样本xi到质心y距离采用欧式距离公式进行计算,计算公式可表示为:
Figure BDA0002371727230000062
将根据公式(3)求得的三个正类样本xfmax、xsmax、xtmax作为顶点,建立三角形。
随机选取三角形的一个顶点与质心y进行连线,并在所述连线上随机生成新的正类样本,新生正类样本表示为xnew,计算公式为:
xnew=y+rand(0,1)×(xm-y) (4)
其中,xm={xfmax,xsmax,xtmax},rand(0,1)表示随机生成的(0,1)之间小数。
本发明所述方法通过欧式距离公式计算距离选取样本降低了算法复杂度;通过建立三角形,随机选取三角形顶点与质心进行连线,并且在连线上随机生成新的正类样本来提高新生正类样本的多样性,实现多个方向上随机生成正类样本,优化了数据集的分布。
在本实施例中,采用CCA(典型相关分析)对新生正类样本xnew的合理性进行初步评估,具体包含以下步骤:
步骤H1根据K-means算法即K均值聚类算法,对新生正类样本xnew进行聚类,得到K个类簇。
步骤H2在各类簇中,分别采用欧式距离公式计算每两个样本之间的距离。
采用欧氏距离计算公式对每一类簇中的样本进行合理性判断,对于欧氏距离越远的样本,其稀疏性越高、聚集度越低,从而合理性越低。
步骤H3在各类簇中排序筛选出最大距离,并将K个最大距离各自对应的样本成对删除,实现对新生正类样本xnew的清洗,完成初步评估。
通过成对删除各类簇中合理性较低的样本,留下的聚集度、合理性较高的样本,实现对新生正类样本xnew的清洗,然后采用GAN(生成对抗网络)思想对清洗后的新生正类样本xnew的合理性进行进一步的评估。
所述GAN(生成对抗网络)思想即在训练过程中,生成网络尽量生成真实的样本去欺骗判别网络,而判别网络则尽量把生成网络生成的样本和真实样本进行区分辨别,生成网络和判别网络构成一个动态的“博弈过程”。
本实施例中,采用GAN思想对清洗后的新生正类样本xnew的合理性进行进一步的评估,具体包含以下步骤:
步骤E1将不平衡数据集X划分成训练集XA和预测集XB,正类样本、负类样本在训练集XA中的比例以及在预测集XB中的比例,都与正类样本、负类样本在不平衡数据集X中的比例保持一致。
步骤E2使用训练集XA对随机森林分类模型进行模型训练,通过训练完成的模型对预测集XB进行分类,得到不平衡数据集X的评估指标Accuracy、F-measure和G-mean数值。
所述评估指标Accuracy、F-measure以及G-mean的计算公式如下:
Figure BDA0002371727230000081
Figure BDA0002371727230000082
Figure BDA0002371727230000083
随机森林分类模型通过Accuracy表示预测的准确率,即对样本的判定能力,能将正类样本的判定为正类样本、负类样本判定为负类样本的能力;TP、FN分别为预测集XB中样本真实类别为正类,预测结果分别为正类、负类的样本数量;FP、TN分别为新的预测集XB中样本真实类别为负类,预测结果分别为正类、负类的样本数量;查准率Precision表示预测为正类样本的样本中真正的正类样本的比例,
Figure BDA0002371727230000084
查全率Recall表示样本的正类样本中被准确预测的样本比例,
Figure BDA0002371727230000085
β为查全率与查准率的权重参数,F-measure为查准率和查全率的调和平均数,当β=1时查准率和查全率同样重要,当β>1时查全率更重要,当β<1时查准率更重要;G-mean用于综合考察正类预测分类准确率和负类预测准确率,只有正类样本预测正确率与负类样本预测正确率都高的时候,G-mean值才会增加。
步骤E3将清洗过的新生正类样本xnew加入不平衡数据集X中生成新的数据集X',对新的数据集X'进行划分生成新的训练集X'A和预测集X'B,正类样本、负类样本在训练集X'A中的比例以及在预测集X'B中的比例,都与正类样本、负类样本在新的数据集X'中的比例保持一致。
步骤E4使用新的训练集X'A对随机森林分类模型进行模型训练,通过训练完成的模型对新的预测集X'B进行分类,得到新的数据集X'的评估指标Accuracy'、F-measure'和G-mean'数值。
所述评估指标Accuracy'、F-measure'和G-mean'的计算方法可参考评估指标Accuracy、F-measure以及G-mean。
步骤E5对比分析评估指标,相较于不平衡数据集X的三个评估指标,新的数据集X'的三个评估指标分别得到提高,则评估新生正类样本xnew合理,否则评估其不合理。
将评估合理的新生正类样本加入正类样本集Xpositive实现对正类样本集Xpositive的更新。
比较更新的正类样本集Xpositive与负类样本集Xnegative的样本量,当更新的正类样本集Xpositive远远小于负类样本集Xnegative的样本量时,再次随机选取一个三角形顶点与质心进行连线,并在连线上随机生成新的正类样本;同时利用CCA和GAN思想评估新生正类样本合理性并将评估合理的新生正类样本加入更新的正类样本集Xpositive中,重复上述操作直到更新的正类样本集与负类样本集的样本量平衡,图2为本发明所述不平衡数据集的过采样方法的具体执行流程示意图。
本发明所述不平衡数据集的过采样方法通过采用CCA和GAN思想评估新生正类样本合理性,提高了了对不平衡数据分类准确性;本发明所述不平衡数据集的过采样方法适用于需要对稀少类数据进行关注的不平衡数据集。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (8)

1.一种不平衡数据集的过采样方法,其特征在于,包含以下过程:
步骤S1将获取的不平衡数据集划分为正类样本集和负类样本集;
步骤S2求解正类样本集的质心以及距离质心最远的三个正类样本,以所求的三个正类样本为顶点建立三角形;
步骤S3随机选取其中一个三角形顶点与质心连线,并在所述连线上随机生成新的正类样本;
步骤S4评估新生正类样本合理性,将评估合理的新生正类样本加入正类样本集实现对正类样本集的更新;
步骤S5更新的正类样本集与负类样本集的样本量不等时重复步骤3和步骤4生成新的正类样本继续补充正类样本集,直到更新的正类样本集与负类样本集的样本量平衡。
2.如权利要求1所述过采样方法,其特征在于,步骤S1通过样本的Class字段值对不平衡数据集X进行划分,Class字段值为1的样本划入正类样本集Xpositive,Class字段值为0的样本划入负类样本集Xnegative
3.如权利要求1所述过采样方法,其特征在于,步骤S2进一步包含以下过程:
设定正类样本集Xpositive中的正类样本为N个,每一个正类样本表示为:
xi=(xi1,xi2,xi3,...,xin) (1)
其中,n表示每个正样本数据的维数,i∈[1,N];
设定y为正类样本集Xpositive的质心,y表示为:
y=(y1,y2,y3,...,yn) (2)
其中,
Figure FDA0002371727220000011
遍历所有正类样本xi,选出到质心y距离最大的三个样本,并根据距离,由大到小依次表示为xfmax、xsmax、xtmax
4.如权利要求3所述过采样方法,其特征在于,正类样本xi到质心y距离采用欧式距离公式进行计算,可表示为:
Figure FDA0002371727220000021
5.如权利要求3所述过采样方法,其特征在于,步骤S3中,新生正类样本表示为xnew,计算公式为:
xnew=y+rand(0,1)×(xm-y) (4)
其中,xm={xfmax,xsmax,xtmax},rand(0,1)表示随机生成的(0,1)之间小数。
6.如权利要求1或3所述过采样方法,其特征在于,步骤S4中利用CCA初步评估新生正类样本xnew的合理性,包含以下过程:
步骤H1根据K-means算法对新生正类样本xnew进行聚类,得到K个类簇;
步骤H2在各类簇中,分别采用欧式距离公式计算每两个样本之间的距离;
步骤H3在各类簇中排序筛选出最大距离,并将K个最大距离各自对应的样本成对删除,实现对新生正类样本xnew的清洗,完成初步评估。
7.如权利要求6所述过采样方法,其特征在于,步骤S4中进一步评估xnew合理性包含以下过程:
步骤E1将不平衡数据集X划分成训练集XA和预测集XB,正类样本、负类样本在训练集XA中的比例以及在预测集XB中的比例,都与正类样本、负类样本在不平衡数据集X中的比例一致;
步骤E2使用训练集XA对随机森林分类模型进行模型训练,通过训练完成的模型对预测集XB进行分类,得到不平衡数据集X的评估指标Accuracy、F-measure和G-mean数值;
步骤E3将清洗过的新生正类样本xnew加入不平衡数据集X中生成新的数据集X',对新的数据集X'进行划分生成新的训练集X'A和预测集X'B,正类样本、负类样本在训练集X'A中的比例以及在预测集X'B中的比例,都与正类样本、负类样本在新的数据集X'中的比例保持一致;
步骤E4使用新的训练集X'A对随机森林分类模型进行模型训练,通过训练完成的模型对新的预测集X'B进行分类,得到新的数据集X'的评估指标Accuracy'、F-measure'和G-mean'数值;
步骤E5对比分析评估指标,相较于不平衡数据集X的三个评估指标,新的数据集X'的三个评估指标分别得到提高,则评估新生正类样本xnew合理,否则评估其不合理。
8.如权利要求7所述过采样方法,其特征在于,所述评估指标中Accuracy、F-measure以及G-mean的计算公式如下:
Figure FDA0002371727220000031
Figure FDA0002371727220000032
Figure FDA0002371727220000033
其中,Accuracy为准确率,反应对样本判定能力;TP、FN分别为预测集XB中样本真实类别为正类,预测结果分别为正类、负类的样本数量;FP、TN分别为新的预测集XB中样本真实类别为负类,预测结果分别为正类、负类的样本数量;查准率
Figure FDA0002371727220000034
查全率
Figure FDA0002371727220000035
β为查全率与查准率的权重参数,F-measure为查准率和查全率的调和平均数,当β=1时查准率和查全率同样重要,当β>1时查全率更重要,当β<1时查准率更重要;G-mean用于综合考察正类预测分类准确率和负类预测准确率。
CN202010052607.XA 2020-01-17 2020-01-17 一种不平衡数据集的过采样方法 Active CN111259964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010052607.XA CN111259964B (zh) 2020-01-17 2020-01-17 一种不平衡数据集的过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010052607.XA CN111259964B (zh) 2020-01-17 2020-01-17 一种不平衡数据集的过采样方法

Publications (2)

Publication Number Publication Date
CN111259964A true CN111259964A (zh) 2020-06-09
CN111259964B CN111259964B (zh) 2023-04-07

Family

ID=70949337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010052607.XA Active CN111259964B (zh) 2020-01-17 2020-01-17 一种不平衡数据集的过采样方法

Country Status (1)

Country Link
CN (1) CN111259964B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800917A (zh) * 2021-01-21 2021-05-14 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN113553430A (zh) * 2021-07-20 2021-10-26 中国工商银行股份有限公司 一种数据分类方法、装置及设备
CN113792765A (zh) * 2021-08-24 2021-12-14 西安理工大学 一种基于三角质心权重的过采样方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609074A (zh) * 2017-09-02 2018-01-19 西安电子科技大学 基于融合Boost模型的不平衡数据采样方法
CN108647728A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类过采样方法、装置、设备及介质
US20190236412A1 (en) * 2016-10-18 2019-08-01 Tencent Technology (Shenzhen) Company Limited Data processing method and device, classifier training method and system, and storage medium
WO2019169704A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN110309881A (zh) * 2019-07-02 2019-10-08 邢国政 一种非平衡数据集的分类方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190236412A1 (en) * 2016-10-18 2019-08-01 Tencent Technology (Shenzhen) Company Limited Data processing method and device, classifier training method and system, and storage medium
CN107609074A (zh) * 2017-09-02 2018-01-19 西安电子科技大学 基于融合Boost模型的不平衡数据采样方法
WO2019169704A1 (zh) * 2018-03-08 2019-09-12 平安科技(深圳)有限公司 一种数据分类方法、装置、设备及计算机可读存储介质
CN108647728A (zh) * 2018-05-10 2018-10-12 广州大学 不平衡数据分类过采样方法、装置、设备及介质
CN110309881A (zh) * 2019-07-02 2019-10-08 邢国政 一种非平衡数据集的分类方法
CN110443281A (zh) * 2019-07-05 2019-11-12 重庆信科设计有限公司 基于hdbscan聚类的自适应过采样方法
CN110674846A (zh) * 2019-08-29 2020-01-10 南京理工大学 基于遗传算法和k-means聚类的不平衡数据集过采样方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡小生等: "两层聚类的类别不平衡数据挖掘算法", 《计算机科学》 *
赵清华等: "改进SMOTE的非平衡数据集分类算法研究", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112800917A (zh) * 2021-01-21 2021-05-14 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN112800917B (zh) * 2021-01-21 2022-07-19 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN113553430A (zh) * 2021-07-20 2021-10-26 中国工商银行股份有限公司 一种数据分类方法、装置及设备
CN113792765A (zh) * 2021-08-24 2021-12-14 西安理工大学 一种基于三角质心权重的过采样方法

Also Published As

Publication number Publication date
CN111259964B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111259964B (zh) 一种不平衡数据集的过采样方法
CN107122594B (zh) 一种新能源车辆电池的健康预测方法和系统
CN105740651B (zh) 一种特定癌症差异表达基因调控网络的构建方法
CN109977943A (zh) 一种基于yolo的图像目标识别方法、系统和存储介质
Li et al. IBEA-SVM: an indicator-based evolutionary algorithm based on pre-selection with classification guided by SVM
CN106228389A (zh) 基于随机森林算法的网络潜力用户挖掘方法及系统
CN105069470A (zh) 分类模型训练方法及装置
CN106845536B (zh) 一种基于图像缩放的并行聚类方法
CN108280236A (zh) 一种基于LargeVis的随机森林可视化数据分析方法
CN110532946A (zh) 一种基于卷积神经网络识别绿通车车辆轴型的方法
CN112800115B (zh) 数据处理方法及数据处理装置
CN111291822A (zh) 基于模糊聚类最优k值选择算法的设备运行状态判断方法
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
Wu et al. Fuzzy clustering based pseudo-swept volume decomposition for hexahedral meshing
CN105306438B (zh) 基于模糊粗糙集的网络安全态势评估方法
CN113989291A (zh) 一种基于PointNet与RANSAC算法的建筑物屋顶平面分割方法
CN115546525A (zh) 多视图聚类方法、装置、电子设备及存储介质
Samson Mineral resource estimates with machine learning and geostatistics
Cao et al. Froth image clustering with feature semi-supervision through selection and label information
CN111062418A (zh) 一种基于最小生成树的无参数化聚类算法及系统
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN112288571B (zh) 一种基于快速构建邻域覆盖的个人信用风险评估方法
CN114185956A (zh) 基于canopy、k-means算法的数据挖掘方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN110533098A (zh) 一种基于卷积神经网络识别绿通车车厢装载类型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant