CN105243394A - 一种类不平衡对分类模型性能影响程度的评价方法 - Google Patents

一种类不平衡对分类模型性能影响程度的评价方法 Download PDF

Info

Publication number
CN105243394A
CN105243394A CN201510732754.0A CN201510732754A CN105243394A CN 105243394 A CN105243394 A CN 105243394A CN 201510732754 A CN201510732754 A CN 201510732754A CN 105243394 A CN105243394 A CN 105243394A
Authority
CN
China
Prior art keywords
disaggregated model
data set
class
variation
new data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510732754.0A
Other languages
English (en)
Other versions
CN105243394B (zh
Inventor
于巧
姜淑娟
张艳梅
王兴亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN201510732754.0A priority Critical patent/CN105243394B/zh
Publication of CN105243394A publication Critical patent/CN105243394A/zh
Application granted granted Critical
Publication of CN105243394B publication Critical patent/CN105243394B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种类不平衡对分类模型性能影响程度的评价方法,包括下列步骤:(1)分类模型库构建;(2)新数据集构造;(3)分类模型对新数据集进行预测;(4)分类模型性能评价;(5)影响程度等级评定。本发明首先采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度,对于类不平衡问题的研究具有指导意义。针对不同的分类模型,本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。

Description

一种类不平衡对分类模型性能影响程度的评价方法
技术领域
本发明属于数据挖掘和机器学习领域,涉及一种分类模型的评价方法,且特别是关于一种类不平衡对分类模型性能影响程度的评价方法。
背景技术
分类是数据挖据领域中的重要技术,是指在已知类别的数据上,通过学习构建一个分类模型,然后对其他未知类别的数据进行预测的过程。在构建分类模型的过程中,往往需要结合机器学习中的算法或模型来提高分类的准确度。
随着数据挖掘和机器学习领域的不断发展,类不平衡问题也逐步成为这些领域的研究热点。一般地,类不平衡是指不同类别间样本数量分布的不均衡现象。对于二分类问题,数据集中往往包含正类样本和负类样本,且一般情况下,正类样本属于少数类,而负类样本属于多数类,其中正类样本(少数类)为待检测类。因此,当负类样本数远远高于正类样本数时,就表现出类不平衡问题。
在实际应用中,类不平衡问题是普遍存在的,如文本分类、欺诈检测和医学诊断等领域。然而,因类不平衡问题的存在,传统分类模型的性能可能会受到一定的影响。目前,解决类不平衡问题的方法也有很多,主要分为两大类:一类是从数据集分布角度,通过改变数据集的样本分布状态来降低类不平衡产生的影响,主要通过采样法来实现;另一类是从学习算法角度,针对不同算法在处理类不平衡问题时的不足加以改进,从而取得更好的分类性能,这类方法主要有代价敏感学习和集成学习等。然而,在解决分类不平衡问题的同时,往往需要与特定的分类模型相结合或者在某些分类模型下进行验证,上述方法未充分考虑到类不平衡问题对分类模型本身产生的影响。在类不平衡情况下,不同分类模型的性能可能会受到不同程度的影响,即有的分类模型的性能极易受到影响,而有的分类模型的性能保持相对稳定。因此,掌握不同分类模型在类不平衡情况下的稳定性,可在实际应用中有针对性地选择合理的分类模型,对类不平衡问题的研究具有指导意义。
发明内容
为了探究类不平衡对不同分类模型性能的影响程度,本发明提供一种类不平衡对分类模型性能影响程度的评价方法。首先,采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度。
为了达成上述目的,本发明提供一种类不平衡对分类模型性能影响程度的评价方法。具体步骤如下。
(1) 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,包括C4.5、K近邻、朴素贝叶斯和RIPPER四种基本模型,其中C4.5是一种典型的决策树算法,而RIPPER是一种基于规则的分类方法,同时还包括AdaBoost和Bagging两种集成模型。初始化分类模型并对各模型的运行参数进行设置。特别地,该分类模型库并不仅包含以上6种分类模型,其具有可更新性,可实现分类模型的增加、修改和删除等功能。
(2) 新数据集构造,选取类不平衡数据集作为基准数据集。对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率(Imbalance Ratio, IR),其计算如公式①所示:
IR = ⌊ n 2 / n 1⌋ ①
其中,n 1表示正类样本数,n 2表示负类样本数,且n 2远远大于n 1
设计一种新数据集构造算法,通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD
(3) 分类模型对新数据集进行预测,假设原始数据集的不平衡率IR的值为r。在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集newD分别进行分类和预测,并采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果,从而得到一组不同不平衡率下的AUC值,记为集合S={AUC i },i=1,2,…,r。其中,AUC指标是评价分类模型性能的最常用指标,AUC值越大,说明该分类模型的性能越好,预测结果也越准确。特别地,为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值。
(4) 分类模型性能评价,根据步骤(3)得到的预测结果,计算集合S={AUC i }中所有AUC值的平均值μ和标准差σ,计算过程如公式②③所示。同时,采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度。变异系数CV计算如公式④所示:
平均值
标准差
变异系数 (μ>0) ④
变异系数CV值越大,说明在类不平衡情况下,该分类模型性能的变异程度越大。
在步骤(1)构建的分类模型库基础上,选取Camel-1.0和JEdit-4.3这两个类不平衡数据集作为基准数据集进行实验,这两个数据集的不平衡率IR分别为25和43。通过实验得到各分类模型的平均值μ、标准差σ和变异系数CV值,如表1所示:
表1 各分类模型的平均值μ、标准差σ和变异系数CV
由表1中的结果可得,变异系数CV值是不同的,说明类不平衡对不同分类模型性能的影响程度是不同的,也就是说,在类不平衡情况下,不同分类模型性能的稳定程度是有差异的。
(5) 影响程度等级评定,变异系数CV值越大,说明类不平衡问题对该分类模型性能的影响程度越大。根据步骤(4)中的实验结果划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% <CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响。
由表1中各分类模型的变异系数CV值和步骤(5)中的等级划分可得,类不平衡问题对K近邻算法、朴素贝叶斯、AdaBoost和Bagging这四种分类模型的性能基本无影响,即在类不平衡情况下这四种模型的性能相对稳定,对RIPPER模型的性能有一定的影响,而对C4.5模型的性能有明显影响。
本发明方法不仅能够评价分类模型库中列举的6种分类模型的稳定程度,同样地,对于其他分类模型也是普遍适用的。因此,对于不同的分类模型来说,本发明方法具有较高的普适性。
综上所述,本发明提供并实施了一种类不平衡对分类模型性能影响程度的评价方法,有效地衡量了类不平衡情况下不同分类模型性能的稳定性,从而在实际应用中可以有针对性地选择合理的分类模型,对于类不平衡问题的研究具有指导意义。
进一步,其中上述步骤(1)的具体步骤如下:
步骤(1) -1:起始状态;
步骤(1) -2:选取一个待评定的分类模型;
步骤(1) -3:初始化分类模型,并对各模型的运行参数进行设置;
步骤(1) -4:继续增加分类模型,重复步骤(1) -2和步骤(1) -3,直至所有分类模型增加完毕;
步骤(1) -5:分类模型库构建完毕。
进一步,其中上述步骤(2)的具体步骤如下:
步骤(2) -1:起始状态;
步骤(2) -2:选取类不平衡数据集作为基准数据集;
步骤(2) -3:对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率IR= ⌊ n 2 / n 1⌋,n 1表示正类样本数,n 2表示负类样本数;
步骤(2) -4:设计一种新数据集构造算法,具体算法如图3所示。通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增(即IR=1,2,…,r)的新数据集newD
步骤(2) -5:新数据集构造完毕。
进一步,其中上述步骤(3)的具体步骤如下:
步骤(3) -1:起始状态;
步骤(3) -2:在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集进行分类和预测;
步骤(3) -3:采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果,并取100次重复实验的平均值作为最终的预测结果,记为集合S={AUC i };;
步骤(3) -4:分类模型对新数据集进行预测完毕。
进一步,其中上述步骤(4)的具体步骤如下:
步骤(4) -1:起始状态;
步骤(4) -2:根据步骤(3)得到的预测结果,计算集合S={AUC i }中所有AUC值的的平均值μ和标准差σ,计算过程如公式②③所示:
平均值
标准差
步骤(4) -3:采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度。计算过程如公式④所示:
变异系数 (μ>0) ④
步骤(4) -4:分类模型性能评价完毕。
进一步,其中上述步骤(5)的具体步骤如下:
步骤(5) -1:起始状态;
步骤(5) -2:等级划分,根据变异系数CV值划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% < CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响;
步骤(5) -3:根据变异系数CV值来评定类不平衡对不同分类模型性能的影响程度;
步骤(5) -4:影响程度等级划分完毕。
本发明通过构建分类模型库以及在类不平衡数据集上构建新数据集,然后选取不同的分类模型对所有的新数据集分别进行分类和预测,并采用变异系数来评价分类模型的性能变异程度,最后根据不同分类模型在新数据集上的性能变异程度划分等级,从而更好地探究类不平衡情况下不同分类模型性能的变化趋势。同时,针对不同的分类模型,本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。
附图说明
图1为本发明实施例的一种类不平衡对分类模型性能影响程度的评价方法的整体框架图。
图2为图1中S1所示的分类模型库构建流程图。
图3为图1中S2所示的新数据集构造的具体算法。
图4为图1中S3、S4和S5所示的影响程度评定流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实例并配合所附图式说明如下。
图1为本发明实施例的一种类不平衡对分类模型性能影响程度的评价方法的整体框架图。
一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,包括下列步骤。
S1 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置。同时,分类模型库具有可更新性,可实现分类模型的增加、修改和删除等功能。
S2 新数据集构造,对于一个原始的类不平衡数据集,即基准数据集,采用本发明设计的新数据集构造算法将其转化为一组不平衡率依次递增的新数据集。
S3 分类模型对新数据集进行预测,在S1中的分类模型库中选取待评价的分类模型,对S2中得到的每个新数据集进行分类和预测,并采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果,且AUC值取100次重复实验的平均值。
S4 分类模型性能评价,根据S3中得到的预测结果,计算不同类不平衡率下AUC值的平均值μ和标准差σ,然后计算标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),从而更好地衡量各分类模型在不同不平衡率下性能的变异程度。
S5 影响程度等级评定,根据变异系数CV值来划分等级,从而评定类不平衡对不同分类模型性能的影响程度。
图2为图1中S1所示的分类模型库构建流程图。具体步骤如下:
步骤 1:起始状态;
步骤 2:选取一个待评定的分类模型;
步骤 3:分类模型初始化并设置运行参数;
步骤 4:继续增加分类模型,重复步骤 2和步骤 3,直至所有分类模型增加完毕;
步骤 5:分类模型库构建完毕。
图3为图1中S2所示的新数据集构造的具体算法。具体步骤如下:
步骤 1:起始状态;
步骤 2:根据分类特征将原始的类不平衡数据集D分为正类样本集D 1和负类样本集D 2(行1),并分别统计D 1D 2包含的样本数,记为n 1n 2 (行2-行3),则原始数据集D的不平衡率r =⌊ n 2 / n 1⌋ (行4);
步骤 3:创建两个数据集newDrestD(行5-行6);
步骤 4:对数据集restD进行随机化处理,然后采用随机采样法从数据集restD中无放回地选取n 1个样本,并把选取的样本保存到数据集newD中构成新的数据集,同时将选取的样本从数据集restD中删除,从而保证选取的样本不重复(行9-行11);
步骤 5:记录新数据集newD(行16);
步骤 6:重复执行步骤4和步骤5,直至数据集restD为空(行7-行17);
步骤 7:返回所有构造的数据集newD(行18),且这些新数据集的不平衡率依次递增,即IR=1,2,…,r
实际上,该算法主要是通过随机采样法来实现的,且保证不重复采样,最终将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD,从而更好地探究分类模型性能在类不平衡情况下的变化趋势。
图4为图1中S3、S4和S5所示的影响程度评定流程图。具体步骤如下:
步骤1:起始状态;
步骤2:从S1构建的分类模型库中选取一个待评价的分类模型;
步骤3:利用该分类模型对S2构造的新数据集分别进行预测;
步骤4:采用AUC指标来评价分类模型的预测结果,并取100次重复实验的平均值;
步骤5:根据不同类不平衡率下的AUC值计算平均值μ、标准差σ和变异系数CV
步骤6:根据变异系数CV值来评定影响程度等级;
步骤7:影响程度评定完毕。

Claims (6)

1.一种类不平衡对分类模型性能影响程度的评价方法,其特性在于,首先,采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度;具体包括下列步骤:
(1) 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置;同时,该分类模型库具有可更新性,可实现分类模型的增加、修改和删除等功能;
(2) 新数据集构造,选取类不平衡数据集作为基准数据集,对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率(Imbalance Ratio, IR),其计算如公式①所示:
IR = ⌊ n 2 / n 1⌋ ①
其中,n 1表示正类样本数,n 2表示负类样本数,且n 2远远大于n 1
设计一种新数据集构造算法,并通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD
(3) 分类模型对新数据集进行预测,假设原始数据集D的不平衡率IR的值为r,在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集newD分别进行分类和预测,并采用AUC(Area Under the Curve)指标来评价各个分类模型的性能,从而得到一组不同不平衡率下的AUC值,记为集合S={AUC i },i=1,2,…,r;特别地,为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值;
(4) 分类模型性能评价,根据步骤(3)得到的预测结果,计算集合S={AUC i }中所有AUC值的平均值μ和标准差σ,如公式②③所示;同时,采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度,变异系数CV计算如公式④所示:
平均值
标准差
变异系数 (μ>0) ④
(5) 影响程度等级评定,变异系数CV值越大,说明类不平衡问题对该分类模型性能的影响程度越大;根据变异系数CV值划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% < CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响;
最后,根据变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。
2.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(1)中,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置;同时,该分类模型库具有可更新性,可实现分类模型的增加、修改和删除等功能。
3.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(2)中,定义不平衡率 (Imbalance Ratio, IR),并设计一种新数据集构造算法,通过该算法将原始的类不平衡数据集转化为一组不平衡率依次递增的新数据集。
4.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(3)中,假设原始数据集的不平衡率IR的值为r,在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集分别进行分类和预测,并采用AUC(Area Under the Curve)指标来评价各个分类模型的性能,从而得到一组不同不平衡率下的AUC值,记为集合S={AUC i },i=1,2,…,r;特别地,为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值。
5.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(4)中,根据步骤(3)得到的预测结果,计算S={AUC i }中所有AUC值的平均值μ和标准差σ;同时,采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度。
6.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(5)中,根据变异系数CV值的范围划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% < CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响;
最后,根据各分类模型的变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。
CN201510732754.0A 2015-11-03 2015-11-03 一种类不平衡对分类模型性能影响程度的评价方法 Expired - Fee Related CN105243394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510732754.0A CN105243394B (zh) 2015-11-03 2015-11-03 一种类不平衡对分类模型性能影响程度的评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510732754.0A CN105243394B (zh) 2015-11-03 2015-11-03 一种类不平衡对分类模型性能影响程度的评价方法

Publications (2)

Publication Number Publication Date
CN105243394A true CN105243394A (zh) 2016-01-13
CN105243394B CN105243394B (zh) 2019-03-19

Family

ID=55041035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510732754.0A Expired - Fee Related CN105243394B (zh) 2015-11-03 2015-11-03 一种类不平衡对分类模型性能影响程度的评价方法

Country Status (1)

Country Link
CN (1) CN105243394B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930680A (zh) * 2016-05-27 2016-09-07 大连楼兰科技股份有限公司 损伤等级模型验证方法及系统
CN106066935A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 损伤等级模型的性能分析方法及系统
CN106201897A (zh) * 2016-07-26 2016-12-07 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN107704869A (zh) * 2017-09-01 2018-02-16 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法
CN109520461A (zh) * 2018-10-29 2019-03-26 绍兴文理学院 系列尺寸岩体结构面粗糙度试样的统计样本数确定方法
CN110007343A (zh) * 2019-04-18 2019-07-12 中国矿业大学 一种区域地质构造复杂程度的评价方法
CN112288013A (zh) * 2020-10-30 2021-01-29 中南大学 基于元度量学习的小样本遥感场景分类方法
CN112816366A (zh) * 2021-01-20 2021-05-18 武汉理工大学 一种沥青材料表面能测试中化学试剂的选取方法及系统
CN113590710A (zh) * 2021-06-30 2021-11-02 南京财经大学 一种基于Spark内存计算的粮食质量分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LOPEZ V等: "An insight into classification with imlalanced data:empirical results and current trends on using data intrinstic characteristics", 《INFORMATION SCIENCES》 *
张宏莉: "分类不平衡协议流的机器学习算法评估比较", 《软件学报》 *
李勇等: "不平衡数据的集成分类算法综述", 《计算机应用研究》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930680A (zh) * 2016-05-27 2016-09-07 大连楼兰科技股份有限公司 损伤等级模型验证方法及系统
CN106066935A (zh) * 2016-05-27 2016-11-02 大连楼兰科技股份有限公司 损伤等级模型的性能分析方法及系统
CN106201897A (zh) * 2016-07-26 2016-12-07 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN106201897B (zh) * 2016-07-26 2018-08-24 南京航空航天大学 基于主成分分布函数的软件缺陷预测不平衡数据处理方法
CN107704869A (zh) * 2017-09-01 2018-02-16 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法
CN107704869B (zh) * 2017-09-01 2020-09-18 厦门快商通科技股份有限公司 一种语料数据抽样方法及模型训练方法
CN109520461A (zh) * 2018-10-29 2019-03-26 绍兴文理学院 系列尺寸岩体结构面粗糙度试样的统计样本数确定方法
CN110007343A (zh) * 2019-04-18 2019-07-12 中国矿业大学 一种区域地质构造复杂程度的评价方法
CN112288013A (zh) * 2020-10-30 2021-01-29 中南大学 基于元度量学习的小样本遥感场景分类方法
CN112816366A (zh) * 2021-01-20 2021-05-18 武汉理工大学 一种沥青材料表面能测试中化学试剂的选取方法及系统
CN113590710A (zh) * 2021-06-30 2021-11-02 南京财经大学 一种基于Spark内存计算的粮食质量分类方法

Also Published As

Publication number Publication date
CN105243394B (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN105243394A (zh) 一种类不平衡对分类模型性能影响程度的评价方法
Shastry et al. Prediction of crop yield using regression techniques
CN103257921B (zh) 一种基于改进随机森林算法的软件故障预测系统及其方法
CN109446430A (zh) 产品推荐的方法、装置、计算机设备及可读存储介质
CN106611052A (zh) 文本标签的确定方法及装置
CN105354198B (zh) 一种数据处理方法及装置
CN107944559A (zh) 一种实体关系自动识别方法及系统
CN107077489A (zh) 用于多维数据的自动洞察
CN102072922A (zh) 基于粒子群优化神经网络模型的木材含水率检测方法
CN104376434B (zh) 卷烟多点加工质量的综合评价方法
Ma et al. Decomposition-based multiobjective evolutionary algorithm for community detection in dynamic social networks
CN110473592A (zh) 基于图卷积网络的有监督的多视角人类协同致死基因预测方法
CN102841985B (zh) 一种基于结构域特征的关键蛋白质识别方法
CN109271427A (zh) 一种基于近邻密度和流形距离的聚类方法
CN109508498A (zh) 基于bp人工神经网络的橡胶减振器配方设计系统及方法
Phate et al. Clustered ANFIS weighing models for sweet lime (Citrus limetta) using computer vision system
Doumpos et al. Regularized estimation for preference disaggregation in multiple criteria decision making
CN111723858A (zh) 基于svm的料堆质量估算方法、装置、电子设备和介质
Jia et al. Improve the performance of link prediction methods in citation network by using H-index
CN111026661B (zh) 一种软件易用性全面测试方法及系统
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法
CN106503273A (zh) 一种iOS设备数据分析系统
CN106021929A (zh) 基于子类问题分类能力度量的Filter特征选取方法
Bogdan et al. On the Empirical Bayes approach to the problem of multiple testing
Tan Using supervised attribute selection for unsupervised learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190319

Termination date: 20191103