CN108460421A - 不平衡数据的分类方法 - Google Patents

不平衡数据的分类方法 Download PDF

Info

Publication number
CN108460421A
CN108460421A CN201810203520.0A CN201810203520A CN108460421A CN 108460421 A CN108460421 A CN 108460421A CN 201810203520 A CN201810203520 A CN 201810203520A CN 108460421 A CN108460421 A CN 108460421A
Authority
CN
China
Prior art keywords
sample
cost
subset
value
unbalanced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810203520.0A
Other languages
English (en)
Inventor
邓晓衡
吴佳祺
漆华妹
钟维坚
陈凌驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201810203520.0A priority Critical patent/CN108460421A/zh
Publication of CN108460421A publication Critical patent/CN108460421A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种不平衡数据的分类方法,包括获取需要分类的不平衡数据集;对数据样本权重进行初始化;抽取若干个样本构成代价敏感度高的样本集合并设置代价值;构成代价敏感度低的样本集合并设置代价值;采用基本分类器在样本上进行训练得到弱分类器;更新所有样本的权重值;对不平衡数据集的所有子集进行分裂和权重值更新;输出最终的集成分类器,完成不平衡数据分类。本发明提供的这种不平衡数据的分类方法提出了一种基于信息熵的子集分割方式来将多数类样本进行聚类,具有更高的分类精确度。

Description

不平衡数据的分类方法
技术领域
本发明具体涉及一种不平衡数据的分类方法。
背景技术
随着人类互联网技术的不断发展,不平衡数据处理成为了一个极具挑战性的问题。越来越多的噪声数据和复杂的数据发布存在于很多实际应用中。比如医疗诊断,文本分类以及卫星雷达对原油泄漏的检测。在这些应用中,正样本数量远小于负样本,但往往在分类中扮演重要地位。例如,在交通事故数据中,造成事故的男性驾驶员占绝大多数,而女性驾驶员的数量通常要小很多。但在分析交通事故成因时,他们占同样的重要地位。如果不平衡数据集得不到很好的处理,少数类数据很容易被忽略,甚至直接被当做噪声处理掉。
针对不平衡数据分类问题,研究者进行了大量研究,提出了许多解决方案。大致可以分为二种方法。
第一种方法是基于数据层的分类方法。基于数据层的分类方法分为欠采样和SMOTE方法。欠采样方法按照一定的抽样规则和抽样比例抽取多数类样本(负样本),将剩余的多数类样本与少数类样本结合形成新的平衡数据集。SMOTE采用过采样方法,该方法按照一定规则人工合成一定比例的少数类样本,与多数类样本组成平衡数据集。但是欠采样方法在去掉一部分多数类样本的同时会丢失相应的样本信息,同时SMOTE方法人工合成的少数类样本也不能很好的代表其样本特征,并可能会导致过拟合。
第二种方法是代价敏感学习方法。代价敏感学习方法是基于算法层的学习方法。它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。在不平衡数据集处理中,通过加大分类错误的少数类样本的权重增加力度,减缓分正确的少数类样本的权重减少,来提高错分的少数类样本的被识别率。但是代价敏感学习方法可能会增加一些噪声数据,并在调整样本权重时造成信息丢失。
发明内容
本发明的目的在于提供一种对于不平衡数据能够提高其分类准确率的不平衡数据的分类方法。
本发明提供的这种不平衡数据的分类方法,包括如下步骤:
S1.获取需要分类的不平衡数据集;
S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化;
S3.从不平衡数据集的各个子集中抽取若干个样本,和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置代价敏感度高的样本集合中每一个样本的代价值;
S4.将没有被抽取的样本集构成代价敏感度低的样本集合,并设置代价敏感度低的样本集合中每一个样本的代价值;
S5.采用事先选定的弱分类算法作为基本分类器,在步骤S3和步骤S4得到的样本上进行训练,从而得到一个弱分类器;
S6.根据步骤S5得到的弱分类器,更新所有样本的权重值;
S7.对不平衡数据集的所有子集进行分裂和权重值的更新;
S8.输出最终的集成分类器,从而完成不平衡数据的分类。
步骤S2所述的对不平衡数据集中的数据样本权重进行初始化,具体为设置簇分裂的步数和簇的最大数量,并将不平衡数据集中的每一个数据样本权重值均设置为1/N,N为不平衡数据集中数据样本的个数。
步骤S3所述的抽取样本构成代价敏感度高的样本集合并设置代价值,具体为采用如下步骤构成集合并设置代价值:
(1)从各个子集中抽取若干个样本,抽取样本的数量采用如下公式计算:
式中SNCj为抽取样本的数量,B为采样总数,wk为第j个子集中的样本权重,Cj为第j个子集,W为不平衡数据集中的多数类样本集合的权重总和,wi为不平衡数据集中的多数类样本集合的第i个数据样本的权重;
(2)步骤(1)中抽取的样本和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置每一个样本的代价值Ci
步骤(1)中所述的所述的抽取若干个样本,具体为在每个子集中采用Top-k算法进行样本的抽取,选取top-k个权重最大的样本点。
步骤S5所述的得到一个弱分类器,具体为采用事先选定的弱分类算法作为基本分类器,根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集,训练得到一个弱分类器ht
步骤S6所述的根据弱分类器更新所有样本的权重值,具体为采用如下步骤更新所有样本的权重值:
1)采用如下公式计算步骤S5得到的弱分类器的分类误差:
式中εt为分类误差,t为迭代次数,Ht(xi)为第t次迭代基分类器对于样本xi的分类结果,yi为样本xi的类别,wti为第t次迭代时样本xi的权重;分类误差εt为被分类器错误分类的样本权重之和;I(Ht(xi)≠yi)的取值规则为:若Ht(xi)≠yi则I(Ht(xi)≠yi)的取值为1,否则I(Ht(xi)≠yi)取值为0;
2)采用如下公式计算弱分类器的权重:
式中αt为弱分类器的权重;
3)采用如下公式更新所有样本的权重值:
式中Dt+1(i)为第i个样本在t+1时刻的权重分布,Dt(i)为第i个样本在t时刻的权重分布,αt为弱分类器的权重,yi为xi的类别,ht(xi)为为第t次迭代基分类器对于xi的分类结果,βi为样本xi代价敏感值,Zt为归一化因子;其中,当样本被正确分类时βi取值为β+,样本被错误分类时βi取值为β-,正确分类定义为ht(xi)=yi,错误分类定义为ht(xi)≠yi;β+=-0.5Ci+0.5,β-=0.5Ci+0.5,Ci为代价敏感因子,且若样本为代价敏感度高的样本则0<Ci<1,若样本为代价敏感度低的样本则-1<Ci<0。
步骤S7所述的对不平衡数据集的所有子集进行分裂和权重值的更新,具体为采用如下步骤进行分裂和更新:
A.若当前的迭代步数t对簇分裂步数step取余为0且当前子集数目NS小于所设的子集的最大数量MN时,采用如下公式计算子集的信息熵:
式中Hw为子集的信息熵,M为该子集中桶的数量,j为桶的编号且j为1~M之间的的自然数,dj为第j号桶标签且w为样本权重,min()为取最小值函数,max()为取最大值函数,p(dj)为第j号桶样本权重之和占子集所有样本权重之和的比例,且p(dj)=size(dj)/nc,nc为该子集中所有样本的数量,size(A)表示集合A桶中样本的数量;
B.根据步骤A得到的子集的信息熵,采用如下规则对子集进行分割:
采用如下公式计算分割后子集的信息熵大小,并得到可以获得最大信息增益的集合分割点:
max(gainj=(info(S)-infoj))
式中Hsw(C1,C2)为集合划分为C1,C2时该集合的信息熵大小,size(A)表示集合A的样本个数,Hw(C1)表示子集C1的信息熵大小,Hw(C2)表示子集C2的信息熵大小,max()表示取最大值,info(S)表示为划分前集合信息熵大小,infoj表示以第j个桶划分时,集合信息熵Hsw(C1,C2)的大小;
C.若步骤B得到的集合分割点所得到的最大增益与集合信息熵的比值大于事先设定的阈值,则将该集合分割点将该子集进行分割;
D.重复步骤S4~S7直至当前的迭代步数t对簇分裂步数step取余为0且当前子集数目NS小于簇的最大数量MN。
步骤S8所述的输出最终的集成分类器并完成不平衡数据的分类,具体为采用如下步骤输出最终的集成分类器并完成分类:
a.重复步骤S5~S7,直至当前的迭代步数t大于或等于事先设定的迭代次数T;
b.采用如下公式输出最终的集成分类器:
式中H(x)为最终的集成分类器,argmax(f(x))是求取f(x)的最大值函数,ht(x,y)为各个弱分类器,εt为弱分类器的分类误差;
c.采用步骤b得到的集成分类器对不平衡数据集进行分类。
本发明提供的这种不平衡数据的分类方法,提出一种基于信息熵的子集分割方式来将多数类样本进行聚类,并通过欠采样方法抽取一部分多数类样本点与少数类样本组成代价敏感度高的训练样本,采用欠采样的原因在于抽取的这一部分更能代表整体的多数类样本;在Adacost算法训练迭代过程中,考虑代价敏感不同对错误分类的样本权重进行更新,此方法的不同点在于Adacost算法中的训练数据为整体的不平衡数据集;实验结果证明,本发明方法相对于现有方法,具有更高的分类精确度。
附图说明
图1为本发明方法的方法流程图。
图2为本发明方法在22个不平衡数据集下和其他算法的AUC指标比较示意图。
具体实施方式
如图1所示为本发明方法的方法流程图:本发明提供的这种不平衡数据的分类方法,包括如下步骤:
S1.获取需要分类的不平衡数据集;
S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化,具体为设置簇分裂的步数和簇的最大数量,并将不平衡数据集中的每一个数据样本权重值均设置为1/N,N为不平衡数据集中数据样本的个数;
S3.从不平衡数据集的各个子集中抽取若干个样本,和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置代价敏感度高的样本集合中每一个样本的代价值,具体为采用如下步骤构成集合并设置代价值:
(1)从各个子集中抽取若干个样本,即在每个子集中采用Top-k算法抽取k个权重最大样本,采用如下公式进行计算:
式中SNCj为抽取样本的数量,B为采样总数,wk为第j个子集中的样本权重,Cj为第j个子集,W为不平衡数据集中的多数类样本集合的权重总和,wi为不平衡数据集中的多数类样本集合的第i个数据样本的权重;
(2)步骤(1)中抽取的样本和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置每一个样本的代价值Ci
S4.将没有被抽取的样本集构成代价敏感度低的样本集合,并设置代价敏感度低的样本集合中每一个样本的代价值;
S5.采用事先选定的弱分类算法作为基本分类器,在步骤S3和步骤S4得到的样本上进行训练,从而得到一个弱分类器,具体为采用事先选定的弱分类算法作为基本分类器,根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集,训练得到一个弱分类器ht
S6.根据步骤S5得到的弱分类器,更新所有样本的权重值,具体为采用如下步骤更新所有样本的权重值:
1)采用如下公式计算步骤S5得到的弱分类器的分类误差:
式中εt为分类误差,t为迭代次数,Ht(xi)为第t次迭代基分类器对于样本xi的分类结果,yi为样本xi的类别,wti为第t次迭代时样本xi的权重;所以分类误差εt为被分类器错误分类的样本权重之和;I(Ht(xi)≠yi)的取值规则为:若Ht(xi)≠yi则I(Ht(xi)≠yi)的取值为1,否则I(Ht(xi)≠yi)取值为0,即若Ht(xi)为第t次迭代基分类器对于样本xi的分类结果与样本xi的类别yi相同,则视为分类正确,此时I(Ht(xi)≠yi)取值为0,若Ht(xi)为第t次迭代基分类器对于样本xi的分类结果与样本xi的类别yi不相同,则认定此时分类错误,则其相应的样本权重计入分类误差εt
2)采用如下公式计算弱分类器的权重:
式中αt为弱分类器的权重;
3)采用如下公式更新所有样本的权重值:
式中Dt+1(i)为第i个样本在t+1时刻的权重分布,Dt(i)为第i个样本在t时刻的权重分布,αt为弱分类器的权重,yi为xi的类别,ht(xi)为为第t次迭代基分类器对于xi的分类结果,βi为样本xi代价敏感值,Zt为归一化因子;其中,当样本被正确分类时βi取值为β+,样本被错误分类时βi取值为β-,正确分类定义为ht(xi)=yi,错误分类定义为ht(xi)≠yi;β+=-0.5Ci+0.5,β-=0.5Ci+0.5,Ci为代价敏感因子,且若样本为代价敏感度高的样本则0<Ci<1,若样本为代价敏感度低的样本则-1<Ci<0。
S7.对不平衡数据集的所有子集进行分裂和权重值的更新,具体为采用如下步骤进行分裂和更新:
A.若当前的迭代次数t对簇分裂步数step取余为0且NS(子集数目)小于子集的最大数量MN时,采用如下公式计算子集的信息熵:
式中Hw为子集的信息熵,M为子集中桶的数目,j为桶的编号且j为1~M之间的的自然数,dj为第j号桶标签且w为样本权重,min()为取最小值函数,max()为取最大值函数,p(dj)为第j号桶样本权重之和占子集所有样本权重之和的比例,所以p(dj)=size(dj)/nc,p(dj)=size(dj)/nc,nc为所有样本的数量,size(A)表示集合A中样本的数量;
B.根据步骤A得到的子集的信息熵,采用如下规则对子集进行分割:
采用如下公式计算分割后子集的信息熵大小,并得到可以获得最大信息增益的集合分割点:
max(gainj=(info(S)-infoj))
式中Hsw(C1,C2)为集合划分为C1,C2时,该集合的信息熵大小,size(A)表示集合A的样本个数,Hw(C1)表示子集C1的信息熵大小,Hw(C2)表示子集C2的信息熵大小,max()表示取最大值,info(S)表示为划分前集合信息熵大小,infoj表示以第j个桶划分时,集合信息熵Hsw(C1,C2)的大小;
C.若步骤B得到的集合分割点所得到的最大增益与集合信息熵的比值大于事先设定的阈值,则将该集合分割点将该子集进行分割;
D.重复步骤S4~S7直至当前的迭代次数t对簇分裂步数step取余不为0或NS(子集数目)小于簇的最大数量MN;
S8.输出最终的集成分类器,从而完成不平衡数据的分类,具体为采用如下步骤输出最终的集成分类器并完成分类:
a.重复步骤S5~S7,直至当前的迭代次数t大于或等于事先设定的迭代次数T;
b.采用如下公式输出最终的集成分类器:
式中H(x)为最终的集成分类器,argmax(f(x))是使得f(x)取最大值,ht(x,y)为各个弱分类器,εt为弱分类器的分类误差;
c.采用步骤b得到的集成分类器对不平衡数据集进行分类。
如图2所示为本发明方法在22个不平衡数据集下和其他算法的AUC指标比较示意图:在该实施例中,选择22组具有不同实际应用背景的KEEL数据作为实验测试数据。所选取的数据集中,最小的多数类和少数类数量比为9.09,最大的为128。对于含有多个类别的数据,合并某些类别或只取两个类别。为了使结果更加可靠,实验对每个数据集的每次验证进行5次实验并取AUC结果的平均值。图2显示了各个对比算法和本文提出算法在22个不平衡数据集上的实验结果,其中,第一竖行是KEEL里开源的不平衡数据集名称,IR是不平衡度,CEU是基于K-means聚类和Adaboost集成算法的不平衡数据分类方法,EHCU是基于层次聚类聚类和Adaboost集成算法的不平衡数据分类方法,ECUS-Adacost为本发明的方法。
结果显示,本发明提出的算法在较多数据集上比其他算法有更好的表现,且综合平均AUC值最大。

Claims (8)

1.一种不平衡数据的分类方法,包括如下步骤:
S1.获取需要分类的不平衡数据集;
S2.对步骤S1获取的不平衡数据集中的数据样本权重进行初始化;
S3.从不平衡数据集的各个子集中抽取若干个样本,和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置代价敏感度高的样本集合中每一个样本的代价值;
S4.将没有被抽取的样本集构成代价敏感度低的样本集合,并设置代价敏感度低的样本集合中每一个样本的代价值;
S5.采用事先选定的弱分类算法作为基本分类器,在步骤S3和步骤S4得到的样本上进行训练,从而得到一个弱分类器;
S6.根据步骤S5得到的弱分类器,更新所有样本的权重值;
S7.对不平衡数据集的所有子集进行分裂和权重值的更新;
S8.输出最终的集成分类器,从而完成不平衡数据的分类。
2.根据权利要求1所述的不平衡数据的分类方法,其特征在于步骤S2所述的对不平衡数据集中的数据样本权重进行初始化,具体为设置簇分裂的步数和簇的最大数量,并将不平衡数据集中的每一个数据样本权重值均设置为1/N,N为不平衡数据集中数据样本的个数。
3.根据权利要求2所述的不平衡数据的分类方法,其特征在于步骤S3所述的抽取样本构成代价敏感度高的样本集合并设置代价值,具体为采用如下步骤构成集合并设置代价值:
(1)从各个子集中抽取若干个样本,抽取样本的数量采用如下公式计算:
式中SNCj为抽取样本的数量,B为采样总数,wk为第j个子集中的样本权重,Cj为第j个子集,W为不平衡数据集中的多数类样本集合的权重总和,wi为不平衡数据集中的多数类样本集合的第i个数据样本的权重;
(2)步骤(1)中抽取的样本和不平衡数据集中的少数类数据样本构成代价敏感度高的样本集合,并设置每一个样本的代价值Ci
4.根据权利要求3所述的不平衡数据的分类方法,其特征在于步骤(1)中所述的所述的抽取若干个样本,具体为在每个子集中采用Top-k算法进行样本的抽取,选取top-k个权重最大的样本点。
5.根据权利要求4所述的不平衡数据的分类方法,其特征在于步骤S5所述的得到一个弱分类器,具体为采用事先选定的弱分类算法作为基本分类器,根据步骤S3得到的代价敏感度高的样本集合S’和步骤S4得到的代价敏感度低的样本集合w’一起作为新的不平衡数据集,训练得到一个弱分类器ht
6.根据权利要求5所述的不平衡数据的分类方法,其特征在于步骤S6所述的根据弱分类器更新所有样本的权重值,具体为采用如下步骤更新所有样本的权重值:
1)采用如下公式计算步骤S5得到的弱分类器的分类误差:
式中εt为分类误差,t为迭代次数,Ht(xi)为第t次迭代基分类器对于样本xi的分类结果,yi为样本xi的类别,wti为第t次迭代时样本xi的权重;分类误差εt为被分类器错误分类的样本权重之和;I(Ht(xi)≠yi)的取值规则为:若Ht(xi)≠yi则I(Ht(xi)≠yi)的取值为1,否则I(Ht(xi)≠yi)取值为0;
2)采用如下公式计算弱分类器的权重:
式中αt为弱分类器的权重;
3)采用如下公式更新所有样本的权重值:
式中Dt+1(i)为第i个样本在t+1时刻的权重分布,Dt(i)为第i个样本在t时刻的权重分布,αt为弱分类器的权重,yi为xi的类别,ht(xi)为为第t次迭代基分类器对于xi的分类结果,βi为样本xi代价敏感值,Zt为归一化因子;其中,当样本被正确分类时βi取值为β+,样本被错误分类时βi取值为β-,正确分类定义为ht(xi)=yi,错误分类定义为ht(xi)≠yi;β+=-0.5Ci+0.5,β-=0.5Ci+0.5,Ci为代价敏感因子,且若样本为代价敏感度高的样本则0<Ci<1,若样本为代价敏感度低的样本则-1<Ci<0。
7.根据权利要求6所述的不平衡数据的分类方法,其特征在于步骤S7所述的对不平衡数据集的所有子集进行分裂和权重值的更新,具体为采用如下步骤进行分裂和更新:
A.若当前的迭代步数t对簇分裂步数step取余为0且当前子集数目NS小于所设的子集的最大数量MN时,采用如下公式计算子集的信息熵:
式中Hw为子集的信息熵,M为该子集中桶的数量,j为桶的编号且j为1~M之间的的自然数,dj为第j号桶标签且w为样本权重,min()为取最小值函数,max()为取最大值函数,p(dj)为第j号桶样本权重之和占子集所有样本权重之和的比例,且p(dj)=size(dj)/nc,nc为该子集中所有样本的数量,size(A)表示集合A桶中样本的数量;
B.根据步骤A得到的子集的信息熵,采用如下规则对子集进行分割:
采用如下公式计算分割后子集的信息熵大小,并得到可以获得最大信息增益的集合分割点:
max(gainj=(info(S)-infoj))
式中Hsw(C1,C2)为集合划分为C1,C2时该集合的信息熵大小,size(A)表示集合A的样本个数,Hw(C1)表示子集C1的信息熵大小,Hw(C2)表示子集C2的信息熵大小,max()表示取最大值,info(S)表示为划分前集合信息熵大小,infoj表示以第j个桶划分时,集合信息熵Hsw(C1,C2)的大小;
C.若步骤B得到的集合分割点所得到的最大增益与集合信息熵的比值大于事先设定的阈值,则将该集合分割点将该子集进行分割;
D.重复步骤S4~S7直至当前的迭代步数t对簇分裂步数step取余为0且当前子集数目NS小于簇的最大数量MN。
8.根据权利要求7所述的不平衡数据的分类方法,其特征在于步骤S8所述的输出最终的集成分类器并完成不平衡数据的分类,具体为采用如下步骤输出最终的集成分类器并完成分类:
a.重复步骤S5~S7,直至当前的迭代步数t大于或等于事先设定的迭代次数T;
b.采用如下公式输出最终的集成分类器:
式中H(x)为最终的集成分类器,argmax(f(x))是求取f(x)的最大值函数,ht(x,y)为各个弱分类器,εt为弱分类器的分类误差;
c.采用步骤b得到的集成分类器对不平衡数据集进行分类。
CN201810203520.0A 2018-03-13 2018-03-13 不平衡数据的分类方法 Pending CN108460421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810203520.0A CN108460421A (zh) 2018-03-13 2018-03-13 不平衡数据的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810203520.0A CN108460421A (zh) 2018-03-13 2018-03-13 不平衡数据的分类方法

Publications (1)

Publication Number Publication Date
CN108460421A true CN108460421A (zh) 2018-08-28

Family

ID=63219836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810203520.0A Pending CN108460421A (zh) 2018-03-13 2018-03-13 不平衡数据的分类方法

Country Status (1)

Country Link
CN (1) CN108460421A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344257A (zh) * 2018-10-24 2019-02-15 平安科技(深圳)有限公司 文本情感识别方法及装置、电子设备、存储介质
CN109447158A (zh) * 2018-10-31 2019-03-08 中国石油大学(华东) 一种基于不平衡数据的Adaboost有利储层发育区预测方法
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN110045197A (zh) * 2019-02-27 2019-07-23 国网福建省电力有限公司 一种配网故障预警方法
CN110266672A (zh) * 2019-06-06 2019-09-20 华东理工大学 基于信息熵和置信度下采样的网络入侵检测方法
CN110674865A (zh) * 2019-09-20 2020-01-10 燕山大学 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN111046891A (zh) * 2018-10-11 2020-04-21 杭州海康威视数字技术股份有限公司 车牌识别模型的训练方法、车牌识别方法和装置
CN111291818A (zh) * 2020-02-18 2020-06-16 浙江工业大学 一种面向云掩膜的非均匀类别的样本均衡化方法
CN111507504A (zh) * 2020-03-18 2020-08-07 中国南方电网有限责任公司 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
US20210158078A1 (en) * 2018-09-03 2021-05-27 Ping An Technology (Shenzhen) Co., Ltd. Unbalanced sample data preprocessing method and device, and computer device
WO2021189830A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941087B2 (en) * 2018-09-03 2024-03-26 Ping An Technology (Shenzhen) Co., Ltd. Unbalanced sample data preprocessing method and device, and computer device
US20210158078A1 (en) * 2018-09-03 2021-05-27 Ping An Technology (Shenzhen) Co., Ltd. Unbalanced sample data preprocessing method and device, and computer device
CN111046891A (zh) * 2018-10-11 2020-04-21 杭州海康威视数字技术股份有限公司 车牌识别模型的训练方法、车牌识别方法和装置
CN109344257B (zh) * 2018-10-24 2024-05-24 平安科技(深圳)有限公司 文本情感识别方法及装置、电子设备、存储介质
WO2020082734A1 (zh) * 2018-10-24 2020-04-30 平安科技(深圳)有限公司 文本情感识别方法、装置、电子设备及计算机非易失性可读存储介质
CN109344257A (zh) * 2018-10-24 2019-02-15 平安科技(深圳)有限公司 文本情感识别方法及装置、电子设备、存储介质
CN109447158A (zh) * 2018-10-31 2019-03-08 中国石油大学(华东) 一种基于不平衡数据的Adaboost有利储层发育区预测方法
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN110045197A (zh) * 2019-02-27 2019-07-23 国网福建省电力有限公司 一种配网故障预警方法
CN110045197B (zh) * 2019-02-27 2022-12-13 国网福建省电力有限公司 一种配网故障预警方法
CN110266672A (zh) * 2019-06-06 2019-09-20 华东理工大学 基于信息熵和置信度下采样的网络入侵检测方法
CN110266672B (zh) * 2019-06-06 2021-09-28 华东理工大学 基于信息熵和置信度下采样的网络入侵检测方法
CN110674865A (zh) * 2019-09-20 2020-01-10 燕山大学 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN110674865B (zh) * 2019-09-20 2023-04-07 燕山大学 面向软件缺陷类分布不平衡的规则学习分类器集成方法
CN111291818A (zh) * 2020-02-18 2020-06-16 浙江工业大学 一种面向云掩膜的非均匀类别的样本均衡化方法
CN111507504A (zh) * 2020-03-18 2020-08-07 中国南方电网有限责任公司 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
WO2021189830A1 (zh) * 2020-03-26 2021-09-30 平安科技(深圳)有限公司 样本数据优化方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108460421A (zh) 不平衡数据的分类方法
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN106778853A (zh) 基于权重聚类和欠抽样的不平衡数据分类方法
CN105760888B (zh) 一种基于属性聚类的邻域粗糙集集成学习方法
Shen et al. Multilabel machine learning and its application to semantic scene classification
CN110717554B (zh) 图像识别方法、电子设备及存储介质
CN108764366A (zh) 针对非均衡数据的特征选择和聚类抽样集成二分类方法
CN108776774A (zh) 一种基于复杂度感知分类算法的面部表情识别方法
CN110795564B (zh) 一种缺少负例的文本分类方法
CN103632168A (zh) 一种机器学习中的分类器集成方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN105045913B (zh) 基于WordNet以及潜在语义分析的文本分类方法
CN107977670A (zh) 决策树和贝叶斯算法的突发事件分类分级方法、装置及系统
CN105975611A (zh) 自适应组合降采样增强学习机
CN110413791A (zh) 基于cnn-svm-knn组合模型的文本分类方法
CN109034281A (zh) 加速基于卷积神经网络的中文手写体识别的方法
CN109711433A (zh) 一种基于元学习的细粒度分类方法
CN105005789A (zh) 一种基于视觉词汇的遥感图像地物分类方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN109933619A (zh) 一种半监督分类预测方法
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法
CN109800790A (zh) 一种面向高维数据的特征选择方法
CN106250913A (zh) 一种基于局部典型相关分析的分类器集成车牌识别方法
CN104200134A (zh) 一种基于局部线性嵌入算法的肿瘤基因表数据特征选择方法
CN106203508A (zh) 一种基于Hadoop平台的图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180828

RJ01 Rejection of invention patent application after publication