CN105243394A - 一种类不平衡对分类模型性能影响程度的评价方法 - Google Patents
一种类不平衡对分类模型性能影响程度的评价方法 Download PDFInfo
- Publication number
- CN105243394A CN105243394A CN201510732754.0A CN201510732754A CN105243394A CN 105243394 A CN105243394 A CN 105243394A CN 201510732754 A CN201510732754 A CN 201510732754A CN 105243394 A CN105243394 A CN 105243394A
- Authority
- CN
- China
- Prior art keywords
- classification model
- data set
- imbalance
- classification
- variation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 140
- 238000011156 evaluation Methods 0.000 title claims abstract description 16
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000007635 classification algorithm Methods 0.000 claims abstract description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 4
- 238000011160 research Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000007418 data mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- METKIMKYRPQLGS-UHFFFAOYSA-N atenolol Chemical compound CC(C)NCC(O)COC1=CC=C(CC(N)=O)C=C1 METKIMKYRPQLGS-UHFFFAOYSA-N 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种类不平衡对分类模型性能影响程度的评价方法,包括下列步骤:(1)分类模型库构建;(2)新数据集构造;(3)分类模型对新数据集进行预测;(4)分类模型性能评价;(5)影响程度等级评定。本发明首先采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度,对于类不平衡问题的研究具有指导意义。针对不同的分类模型,本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。
Description
技术领域
本发明属于数据挖掘和机器学习领域,涉及一种分类模型的评价方法,且特别是关于一种类不平衡对分类模型性能影响程度的评价方法。
背景技术
分类是数据挖据领域中的重要技术,是指在已知类别的数据上,通过学习构建一个分类模型,然后对其他未知类别的数据进行预测的过程。在构建分类模型的过程中,往往需要结合机器学习中的算法或模型来提高分类的准确度。
随着数据挖掘和机器学习领域的不断发展,类不平衡问题也逐步成为这些领域的研究热点。一般地,类不平衡是指不同类别间样本数量分布的不均衡现象。对于二分类问题,数据集中往往包含正类样本和负类样本,且一般情况下,正类样本属于少数类,而负类样本属于多数类,其中正类样本(少数类)为待检测类。因此,当负类样本数远远高于正类样本数时,就表现出类不平衡问题。
在实际应用中,类不平衡问题是普遍存在的,如文本分类、欺诈检测和医学诊断等领域。然而,因类不平衡问题的存在,传统分类模型的性能可能会受到一定的影响。目前,解决类不平衡问题的方法也有很多,主要分为两大类:一类是从数据集分布角度,通过改变数据集的样本分布状态来降低类不平衡产生的影响,主要通过采样法来实现;另一类是从学习算法角度,针对不同算法在处理类不平衡问题时的不足加以改进,从而取得更好的分类性能,这类方法主要有代价敏感学习和集成学习等。然而,在解决分类不平衡问题的同时,往往需要与特定的分类模型相结合或者在某些分类模型下进行验证,上述方法未充分考虑到类不平衡问题对分类模型本身产生的影响。在类不平衡情况下,不同分类模型的性能可能会受到不同程度的影响,即有的分类模型的性能极易受到影响,而有的分类模型的性能保持相对稳定。因此,掌握不同分类模型在类不平衡情况下的稳定性,可在实际应用中有针对性地选择合理的分类模型,对类不平衡问题的研究具有指导意义。
发明内容
为了探究类不平衡对不同分类模型性能的影响程度,本发明提供一种类不平衡对分类模型性能影响程度的评价方法。首先,采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度。
为了达成上述目的,本发明提供一种类不平衡对分类模型性能影响程度的评价方法。具体步骤如下。
(1) 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,包括C4.5、K近邻、朴素贝叶斯和RIPPER四种基本模型,其中C4.5是一种典型的决策树算法,而RIPPER是一种基于规则的分类方法,同时还包括AdaBoost和Bagging两种集成模型。初始化分类模型并对各模型的运行参数进行设置。特别地,该分类模型库并不仅包含以上6种分类模型,其具有可更新性,可实现分类模型的增加、修改和删除等功能。
(2) 新数据集构造,选取类不平衡数据集作为基准数据集。对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率(Imbalance
Ratio, IR),其计算如公式①所示:
IR = ⌊ n 2 /
n 1⌋
①
其中,n 1表示正类样本数,n 2表示负类样本数,且n 2远远大于n 1。
设计一种新数据集构造算法,通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD。
(3) 分类模型对新数据集进行预测,假设原始数据集的不平衡率IR的值为r。在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集newD分别进行分类和预测,并采用AUC(Area
Under the Curve)指标来评价各个分类模型的预测结果,从而得到一组不同不平衡率下的AUC值,记为集合S={AUC i },i=1,2,…,r。其中,AUC指标是评价分类模型性能的最常用指标,AUC值越大,说明该分类模型的性能越好,预测结果也越准确。特别地,为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值。
(4) 分类模型性能评价,根据步骤(3)得到的预测结果,计算集合S={AUC i }中所有AUC值的平均值μ和标准差σ,计算过程如公式②③所示。同时,采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient
of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度。变异系数CV计算如公式④所示:
平均值
②
标准差
③
变异系数 (μ>0) ④
变异系数CV值越大,说明在类不平衡情况下,该分类模型性能的变异程度越大。
在步骤(1)构建的分类模型库基础上,选取Camel-1.0和JEdit-4.3这两个类不平衡数据集作为基准数据集进行实验,这两个数据集的不平衡率IR分别为25和43。通过实验得到各分类模型的平均值μ、标准差σ和变异系数CV值,如表1所示:
表1 各分类模型的平均值μ、标准差σ和变异系数CV值
由表1中的结果可得,变异系数CV值是不同的,说明类不平衡对不同分类模型性能的影响程度是不同的,也就是说,在类不平衡情况下,不同分类模型性能的稳定程度是有差异的。
(5) 影响程度等级评定,变异系数CV值越大,说明类不平衡问题对该分类模型性能的影响程度越大。根据步骤(4)中的实验结果划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% <CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响。
由表1中各分类模型的变异系数CV值和步骤(5)中的等级划分可得,类不平衡问题对K近邻算法、朴素贝叶斯、AdaBoost和Bagging这四种分类模型的性能基本无影响,即在类不平衡情况下这四种模型的性能相对稳定,对RIPPER模型的性能有一定的影响,而对C4.5模型的性能有明显影响。
本发明方法不仅能够评价分类模型库中列举的6种分类模型的稳定程度,同样地,对于其他分类模型也是普遍适用的。因此,对于不同的分类模型来说,本发明方法具有较高的普适性。
综上所述,本发明提供并实施了一种类不平衡对分类模型性能影响程度的评价方法,有效地衡量了类不平衡情况下不同分类模型性能的稳定性,从而在实际应用中可以有针对性地选择合理的分类模型,对于类不平衡问题的研究具有指导意义。
进一步,其中上述步骤(1)的具体步骤如下:
步骤(1) -1:起始状态;
步骤(1) -2:选取一个待评定的分类模型;
步骤(1) -3:初始化分类模型,并对各模型的运行参数进行设置;
步骤(1) -4:继续增加分类模型,重复步骤(1)
-2和步骤(1) -3,直至所有分类模型增加完毕;
步骤(1) -5:分类模型库构建完毕。
进一步,其中上述步骤(2)的具体步骤如下:
步骤(2) -1:起始状态;
步骤(2) -2:选取类不平衡数据集作为基准数据集;
步骤(2) -3:对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率IR= ⌊ n 2 / n 1⌋,n 1表示正类样本数,n 2表示负类样本数;
步骤(2) -4:设计一种新数据集构造算法,具体算法如图3所示。通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增(即IR=1,2,…,r)的新数据集newD;
步骤(2) -5:新数据集构造完毕。
进一步,其中上述步骤(3)的具体步骤如下:
步骤(3) -1:起始状态;
步骤(3) -2:在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集进行分类和预测;
步骤(3) -3:采用AUC(Area
Under the Curve)指标来评价各个分类模型的预测结果,并取100次重复实验的平均值作为最终的预测结果,记为集合S={AUC i };;
步骤(3) -4:分类模型对新数据集进行预测完毕。
进一步,其中上述步骤(4)的具体步骤如下:
步骤(4) -1:起始状态;
步骤(4) -2:根据步骤(3)得到的预测结果,计算集合S={AUC i }中所有AUC值的的平均值μ和标准差σ,计算过程如公式②③所示:
平均值
②
标准差
③
步骤(4) -3:采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient
of Variation),来衡量不同不平衡率下AUC值的变异程度。计算过程如公式④所示:
变异系数 (μ>0) ④
步骤(4) -4:分类模型性能评价完毕。
进一步,其中上述步骤(5)的具体步骤如下:
步骤(5) -1:起始状态;
步骤(5) -2:等级划分,根据变异系数CV值划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% < CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响;
步骤(5) -3:根据变异系数CV值来评定类不平衡对不同分类模型性能的影响程度;
步骤(5) -4:影响程度等级划分完毕。
本发明通过构建分类模型库以及在类不平衡数据集上构建新数据集,然后选取不同的分类模型对所有的新数据集分别进行分类和预测,并采用变异系数来评价分类模型的性能变异程度,最后根据不同分类模型在新数据集上的性能变异程度划分等级,从而更好地探究类不平衡情况下不同分类模型性能的变化趋势。同时,针对不同的分类模型,本发明提供的类不平衡对分类模型性能影响程度的评价方法具有较高的普适性。
附图说明
图1为本发明实施例的一种类不平衡对分类模型性能影响程度的评价方法的整体框架图。
图2为图1中S1所示的分类模型库构建流程图。
图3为图1中S2所示的新数据集构造的具体算法。
图4为图1中S3、S4和S5所示的影响程度评定流程图。
具体实施方式
为了更了解本发明的技术内容,特举具体实例并配合所附图式说明如下。
图1为本发明实施例的一种类不平衡对分类模型性能影响程度的评价方法的整体框架图。
一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,包括下列步骤。
S1 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置。同时,分类模型库具有可更新性,可实现分类模型的增加、修改和删除等功能。
S2 新数据集构造,对于一个原始的类不平衡数据集,即基准数据集,采用本发明设计的新数据集构造算法将其转化为一组不平衡率依次递增的新数据集。
S3 分类模型对新数据集进行预测,在S1中的分类模型库中选取待评价的分类模型,对S2中得到的每个新数据集进行分类和预测,并采用AUC(Area Under the Curve)指标来评价各个分类模型的预测结果,且AUC值取100次重复实验的平均值。
S4 分类模型性能评价,根据S3中得到的预测结果,计算不同类不平衡率下AUC值的平均值μ和标准差σ,然后计算标准差σ与平均值μ的比值,即变异系数CV (Coefficient
of Variation),从而更好地衡量各分类模型在不同不平衡率下性能的变异程度。
S5 影响程度等级评定,根据变异系数CV值来划分等级,从而评定类不平衡对不同分类模型性能的影响程度。
图2为图1中S1所示的分类模型库构建流程图。具体步骤如下:
步骤 1:起始状态;
步骤 2:选取一个待评定的分类模型;
步骤 3:分类模型初始化并设置运行参数;
步骤 4:继续增加分类模型,重复步骤 2和步骤 3,直至所有分类模型增加完毕;
步骤 5:分类模型库构建完毕。
图3为图1中S2所示的新数据集构造的具体算法。具体步骤如下:
步骤 1:起始状态;
步骤 2:根据分类特征将原始的类不平衡数据集D分为正类样本集D 1和负类样本集D 2(行1),并分别统计D 1和D 2包含的样本数,记为n 1和n 2 (行2-行3),则原始数据集D的不平衡率r =⌊ n 2 / n 1⌋ (行4);
步骤 3:创建两个数据集newD和restD(行5-行6);
步骤 4:对数据集restD进行随机化处理,然后采用随机采样法从数据集restD中无放回地选取n 1个样本,并把选取的样本保存到数据集newD中构成新的数据集,同时将选取的样本从数据集restD中删除,从而保证选取的样本不重复(行9-行11);
步骤 5:记录新数据集newD(行16);
步骤 6:重复执行步骤4和步骤5,直至数据集restD为空(行7-行17);
步骤 7:返回所有构造的数据集newD(行18),且这些新数据集的不平衡率依次递增,即IR=1,2,…,r;
实际上,该算法主要是通过随机采样法来实现的,且保证不重复采样,最终将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD,从而更好地探究分类模型性能在类不平衡情况下的变化趋势。
图4为图1中S3、S4和S5所示的影响程度评定流程图。具体步骤如下:
步骤1:起始状态;
步骤2:从S1构建的分类模型库中选取一个待评价的分类模型;
步骤3:利用该分类模型对S2构造的新数据集分别进行预测;
步骤4:采用AUC指标来评价分类模型的预测结果,并取100次重复实验的平均值;
步骤5:根据不同类不平衡率下的AUC值计算平均值μ、标准差σ和变异系数CV;
步骤6:根据变异系数CV值来评定影响程度等级;
步骤7:影响程度评定完毕。
Claims (6)
1.一种类不平衡对分类模型性能影响程度的评价方法,其特性在于,首先,采用机器学习中典型的分类算法构建分类模型库;然后,选取类不平衡数据集作为基准数据集,并在此基础上构建一组不平衡率依次递增的新数据集,选取不同的分类模型对这组新数据集分别进行分类和预测;最后,采用变异系数来评价分类模型的性能变异程度并划分等级,从而评价类不平衡对不同分类模型性能的影响程度;具体包括下列步骤:
(1) 分类模型库构建,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置;同时,该分类模型库具有可更新性,可实现分类模型的增加、修改和删除等功能;
(2) 新数据集构造,选取类不平衡数据集作为基准数据集,对于一个原始的类不平衡数据集D,即基准数据集D,定义不平衡率(Imbalance Ratio, IR),其计算如公式①所示:
IR = ⌊ n 2 / n 1⌋
①
其中,n 1表示正类样本数,n 2表示负类样本数,且n 2远远大于n 1;
设计一种新数据集构造算法,并通过该算法将原始的类不平衡数据集D转化为一组不平衡率依次递增的新数据集newD;
(3) 分类模型对新数据集进行预测,假设原始数据集D的不平衡率IR的值为r,在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集newD分别进行分类和预测,并采用AUC(Area Under the
Curve)指标来评价各个分类模型的性能,从而得到一组不同不平衡率下的AUC值,记为集合S={AUC i },i=1,2,…,r;特别地,为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值;
(4) 分类模型性能评价,根据步骤(3)得到的预测结果,计算集合S={AUC i }中所有AUC值的平均值μ和标准差σ,如公式②③所示;同时,采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度,变异系数CV计算如公式④所示:
平均值
②
标准差
③
变异系数 (μ>0) ④
(5) 影响程度等级评定,变异系数CV值越大,说明类不平衡问题对该分类模型性能的影响程度越大;根据变异系数CV值划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% < CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响;
最后,根据变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。
2.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(1)中,采用机器学习中典型的分类算法来构建分类模型库,初始化分类模型并对各模型的运行参数进行设置;同时,该分类模型库具有可更新性,可实现分类模型的增加、修改和删除等功能。
3.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(2)中,定义不平衡率 (Imbalance Ratio, IR),并设计一种新数据集构造算法,通过该算法将原始的类不平衡数据集转化为一组不平衡率依次递增的新数据集。
4.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(3)中,假设原始数据集的不平衡率IR的值为r,在步骤(1)中的分类模型库中选取待评价的分类模型,对步骤(2)中得到的每个新数据集分别进行分类和预测,并采用AUC(Area
Under the Curve)指标来评价各个分类模型的性能,从而得到一组不同不平衡率下的AUC值,记为集合S={AUC i },i=1,2,…,r;特别地,为了降低步骤(2)中新数据集构造带来的随机误差,集合S中每个AUC取100次重复实验的平均值。
5.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(4)中,根据步骤(3)得到的预测结果,计算S={AUC i }中所有AUC值的平均值μ和标准差σ;同时,采用标准差σ与平均值μ的比值,即变异系数CV (Coefficient of Variation),来衡量不同不平衡率下AUC值的变异程度,消除了平均值不同对变异程度比较的影响,从而更好地评价类不平衡对不同分类模型性能的影响程度。
6.根据权利要求1所述的一种类不平衡对分类模型性能影响程度的评价方法,其特征在于,在步骤(5)中,根据变异系数CV值的范围划分为A,B,C,D四个等级:
A. 0% < CV <= 5%,基本无影响;
B. 5% < CV <= 10%,有一定影响;
C. 10% < CV <= 20%,有明显影响;
D. CV > 20%,有强烈影响;
最后,根据各分类模型的变异系数CV值来评价类不平衡对不同分类模型性能的影响程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510732754.0A CN105243394B (zh) | 2015-11-03 | 2015-11-03 | 一种类不平衡对分类模型性能影响程度的评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510732754.0A CN105243394B (zh) | 2015-11-03 | 2015-11-03 | 一种类不平衡对分类模型性能影响程度的评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105243394A true CN105243394A (zh) | 2016-01-13 |
CN105243394B CN105243394B (zh) | 2019-03-19 |
Family
ID=55041035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510732754.0A Expired - Fee Related CN105243394B (zh) | 2015-11-03 | 2015-11-03 | 一种类不平衡对分类模型性能影响程度的评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105243394B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930680A (zh) * | 2016-05-27 | 2016-09-07 | 大连楼兰科技股份有限公司 | 损伤等级模型验证方法及系统 |
CN106066935A (zh) * | 2016-05-27 | 2016-11-02 | 大连楼兰科技股份有限公司 | 损伤等级模型的性能分析方法及系统 |
CN106201897A (zh) * | 2016-07-26 | 2016-12-07 | 南京航空航天大学 | 基于主成分分布函数的软件缺陷预测不平衡数据处理方法 |
CN107704869A (zh) * | 2017-09-01 | 2018-02-16 | 厦门快商通科技股份有限公司 | 一种语料数据抽样方法及模型训练方法 |
CN109520461A (zh) * | 2018-10-29 | 2019-03-26 | 绍兴文理学院 | 系列尺寸岩体结构面粗糙度试样的统计样本数确定方法 |
CN110007343A (zh) * | 2019-04-18 | 2019-07-12 | 中国矿业大学 | 一种区域地质构造复杂程度的评价方法 |
CN112288013A (zh) * | 2020-10-30 | 2021-01-29 | 中南大学 | 基于元度量学习的小样本遥感场景分类方法 |
CN112816366A (zh) * | 2021-01-20 | 2021-05-18 | 武汉理工大学 | 一种沥青材料表面能测试中化学试剂的选取方法及系统 |
CN113590710A (zh) * | 2021-06-30 | 2021-11-02 | 南京财经大学 | 一种基于Spark内存计算的粮食质量分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
-
2015
- 2015-11-03 CN CN201510732754.0A patent/CN105243394B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980202A (zh) * | 2010-11-04 | 2011-02-23 | 西安电子科技大学 | 不平衡数据的半监督分类方法 |
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
Non-Patent Citations (3)
Title |
---|
LOPEZ V等: "An insight into classification with imlalanced data:empirical results and current trends on using data intrinstic characteristics", 《INFORMATION SCIENCES》 * |
张宏莉: "分类不平衡协议流的机器学习算法评估比较", 《软件学报》 * |
李勇等: "不平衡数据的集成分类算法综述", 《计算机应用研究》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930680A (zh) * | 2016-05-27 | 2016-09-07 | 大连楼兰科技股份有限公司 | 损伤等级模型验证方法及系统 |
CN106066935A (zh) * | 2016-05-27 | 2016-11-02 | 大连楼兰科技股份有限公司 | 损伤等级模型的性能分析方法及系统 |
CN106201897A (zh) * | 2016-07-26 | 2016-12-07 | 南京航空航天大学 | 基于主成分分布函数的软件缺陷预测不平衡数据处理方法 |
CN106201897B (zh) * | 2016-07-26 | 2018-08-24 | 南京航空航天大学 | 基于主成分分布函数的软件缺陷预测不平衡数据处理方法 |
CN107704869A (zh) * | 2017-09-01 | 2018-02-16 | 厦门快商通科技股份有限公司 | 一种语料数据抽样方法及模型训练方法 |
CN107704869B (zh) * | 2017-09-01 | 2020-09-18 | 厦门快商通科技股份有限公司 | 一种语料数据抽样方法及模型训练方法 |
CN109520461A (zh) * | 2018-10-29 | 2019-03-26 | 绍兴文理学院 | 系列尺寸岩体结构面粗糙度试样的统计样本数确定方法 |
CN110007343A (zh) * | 2019-04-18 | 2019-07-12 | 中国矿业大学 | 一种区域地质构造复杂程度的评价方法 |
CN112288013A (zh) * | 2020-10-30 | 2021-01-29 | 中南大学 | 基于元度量学习的小样本遥感场景分类方法 |
CN112816366A (zh) * | 2021-01-20 | 2021-05-18 | 武汉理工大学 | 一种沥青材料表面能测试中化学试剂的选取方法及系统 |
CN113590710A (zh) * | 2021-06-30 | 2021-11-02 | 南京财经大学 | 一种基于Spark内存计算的粮食质量分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105243394B (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243394B (zh) | 一种类不平衡对分类模型性能影响程度的评价方法 | |
CN110135167B (zh) | 一种随机森林的边缘计算终端安全等级评估方法 | |
Lichtnwalter et al. | Link prediction: fair and effective evaluation | |
Wei et al. | New nonlinear conjugate gradient formulas for large-scale unconstrained optimization problems | |
Li et al. | The flare package for high dimensional linear regression and precision matrix estimation in R | |
CN107423217B (zh) | 基于变异树的黑盒模糊测试方法及系统 | |
CN106228389A (zh) | 基于随机森林算法的网络潜力用户挖掘方法及系统 | |
CN110674865B (zh) | 面向软件缺陷类分布不平衡的规则学习分类器集成方法 | |
CN111079283B (zh) | 对信息饱和度不均衡数据的处理方法 | |
Ueno et al. | Computerized adaptive testing based on decision tree | |
Yin et al. | Asymptotic quantization of exponential random graphs | |
Yanghua et al. | Improving classification accuracy of a machine learning approach for fpga timing closure | |
Bruzzese et al. | DESPOTA: DEndrogram slicing through a pemutation test approach | |
Schmid et al. | Machine Learning for Multi-Output Regression: When should a holistic multivariate approach be preferred over separate univariate ones? | |
Liefooghe et al. | Pareto local optimal solutions networks with compression, enhanced visualization and expressiveness | |
Zeng et al. | Decision tree classification model for popularity forecast of Chinese colleges | |
Rivers et al. | A problem configuration study of the robustness of a black-box search algorithm hyper-heuristic | |
Yuan et al. | Automatic legal judgment prediction via large amounts of criminal cases | |
CN110008975B (zh) | 基于免疫危险理论的社交网络水军检测方法 | |
Ravichandran et al. | Comparative study on decision tree techniques for mobile call detail record | |
Liu et al. | Similarity-based common neighbor and sign influence model for link prediction in signed social networks | |
Zhang et al. | A Novel Negative Sample Generating Method for Knowledge Graph Embedding. | |
Cho et al. | Regression trees for cumulative incidence functions | |
Roux et al. | Inferring the demographic history of tetraploid species from genomic data | |
Dhivya et al. | Weighted particle swarm optimization algorithm for randomized unit testing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190319 Termination date: 20191103 |