CN104951809A - 基于不平衡分类指标与集成学习的不平衡数据分类方法 - Google Patents

基于不平衡分类指标与集成学习的不平衡数据分类方法 Download PDF

Info

Publication number
CN104951809A
CN104951809A CN201510413029.7A CN201510413029A CN104951809A CN 104951809 A CN104951809 A CN 104951809A CN 201510413029 A CN201510413029 A CN 201510413029A CN 104951809 A CN104951809 A CN 104951809A
Authority
CN
China
Prior art keywords
class
training
sample
training sample
represent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510413029.7A
Other languages
English (en)
Inventor
张向荣
焦李成
宋润青
李阳阳
白静
马文萍
侯彪
马晶晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201510413029.7A priority Critical patent/CN104951809A/zh
Publication of CN104951809A publication Critical patent/CN104951809A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于不平衡分类指标与集成学习的不平衡数据分类方法,主要解决现有技术在不平衡数据上少数类分类精度低的问题。其实现步骤为:(1)选定训练集和测试集;(2)初始化训练样本权重;(3)根据训练样本权重选取部分训练样本对弱分类器进行训练,并用训练好的弱分类器对所有训练样本进行分类;(4)计算弱分类器在训练集上的分类错误率,将错误率与设定的阈值进行比较,并优化错误率;(5)根据错误率计算弱分类器投票权重,并更新训练样本权重;(6)判断弱分类器的训练是否达到最大迭代次数,若达到最大迭代次数,根据弱分类器及其投票权重计算强分类器;否则,返回(3)。本发明提高了少数类的分类精度,可用于不平衡数据的分类。

Description

基于不平衡分类指标与集成学习的不平衡数据分类方法
技术领域
本发明属于数据处理领域,涉及集成学习分类方法,具体是一种基于不平衡分类指标与集成学习的不平衡数据分类方法,可用于不平衡数据的分类与识别。
背景技术
伴随着全球信息技术的飞速发展,功能强大的计算机、数据收集设备和存储设备为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量特别大,但是对人们有用的数据往往只占全部数据的一小部分。这种某类样本数据数量明显少于其他类样本的数据集被称作不平衡数据集,不平衡数据集的分类问题大量存在于现实生活之中。例如,检测公民的信用申请是否存在欺诈,一般情况下欺诈申请要远少于合法申请;利用诊疗数据诊断病人的疾病,如心脏病患者要远少于健康的人。在这些实际应用中,人们更关心的是数据集中的少数类,即样本数目远少于其他类样本的一类样本,而且这些少数类的错分代价往往非常大,因此需要有效提高少数类的分类精度。
近几年来,不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的关注,国内外学者对不平衡数据的研究主要有两个方面:一是基于数据采样的方法,其主要目的是通过对数据进行预处理降低数据的不平衡度,如模拟增加少数类样本的少数类样本合成过采样技术SMOTE;二是基于分类算法的方法,Veropoulos等人提出的不同惩罚参数的支持向量机Biased-SVM,为各类样本指派不同的惩罚参数,从一定程度上抵消了数据不平衡度对支持向量机的影响。
面对不平衡数据集的学习问题,研究的困难主要来自于不平衡数据本身的特点:不平衡数据集中的少数类样本不足,样本的分布并不能很好的反映整个类的实际分布;多数类通常会夹杂噪声数据,使得两类样本往往会出现不同程度的重叠。此外,传统的机器学习领域的分类方法,在直接应用于不平衡数据时,如果没有考虑数据的不平衡性,容易将少数类样本错分为多数类,尽管整体的分类精度比较高,但对少数类的分类精度非常低。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于不平衡分类指标与集成学习的不平衡数据分类方法,以提高分类器对少数类的分类精度。
为实现上述目的,本发明技术方案包括如下步骤:
(1)输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余的样本作为测试样本,并设定最大迭代次数T;
(2)设训练样本初始权重服从均匀分布,即每一个(xi,yi)∈S,其中i=1,2,...,N,t=1,N表示训练样本的个数,S表示训练集,xi表示第i个训练样本,yi表示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重;
(3)根据第t轮中训练样本的样本权重Dt选取第t轮生成的弱分类器的训练样本,用选取的训练样本对支持向量机进行训练,获得第t轮生成的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本的预测类标ht(xi),其中i=1,2,...,N;
(4)计算第t轮生成的弱分类器ht在训练集上的错误率:其中,Dt(xi,yi)表示第t轮中训练样本xi的样本权重,ht(xi)表示第t轮训练后生成的弱分类器ht对第i个训练样本xi的预测类标,yi表示第i个训练样本的类别标识;
(5)将错误率εt与设定的阈值k=0.5进行比较:若εt≥k,令最大迭代次数T=t-1,转到步骤(9);若εt<k,则执行步骤(6);
(6)计算不平衡问题的评价指标G,用G优化εt,得到优化后的错误率εt *=εt×(1-G)λ,其中λ是惩罚参数;
(7)根据优化后的错误率εt *计算第t轮生成的弱分类器ht的投票权重: α t = 1 2 × l o g ( 1 - ϵ t * ϵ t * ) ;
(8)计算第t+1轮中训练样本权重:其中, D t + 1 * ( x i ) = D t ( x i ) × exp ( - α t ) , h t ( x i ) = y i 1 , h t ( x i ) ≠ y i 为中间变量,式中Dt(xi)表示第t轮中训练样本xi的样本权重,αt表示第t轮生成的弱分类器的投票权重,ht(xi)表示第t轮训练后生成的弱分类器ht对训练样本xi的预测类标,yi表示第i个训练样本xi的类别标识,N表示训练样本的个数;
(9)判断t是否达到最大迭代次数T:若t<T,则t加1,返回步骤(3);若t≥T,输出强分类器:其中,αt表示第t轮生成的弱分类器的投票权重,xj表示第j个测试样本,yj表示测试样本xj的类别标识,ht(xj)表示第t轮生成的弱分类器ht对测试样本xj的预测类标。
本发明与现有技术相比具有如下优点:
1)本发明由于在集成算法中,通过不平衡问题评价指标G来优化弱分类器在训练集上错误率,并将优化后的错误率用到训练样本权重的更新和弱分类器投票权重的求取中,提高了分类器对少数类的分类精度,使集成算法更适合用于解决不平衡分类问题。
2)本发明由于根据训练样本权重选取部分训练样本对支持向量机进行训练,避免了过拟合,减少了计算量,提高了计算速度。
以下结合附图对本发明的实施例及效果作进一步详细描述。
附图说明
图1是本发明的实现流程图;
图2是本发明与现有技术在不平衡数据集上得到的不平衡问题评价指标F对比图。
具体实施方式
参照图1,本发明的具体实现步骤如下:
步骤1,选定训练集和测试集,并设定最大迭代次数T。
输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余的样本作为测试样本,并设定最大迭代次数T。
步骤2,初始化训练样本的权重。
设训练样本初始权重服从均匀分布,即每一个(xi,yi)∈S,其中i=1,2,...,N,t=1,N表示训练样本的个数,S表示训练集,xi表示第i个训练样本,yi表示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重。
步骤3,从训练集中选取部分训练样本训练支持向量机。
(3a)对第t轮中训练样本的样本权重Dt进行排序,选择前n个权重较大的样本作为第t轮生成的弱分类器的训练样本;
(3b)用选取的训练样本对支持向量机进行训练,其目标函数为: m i n ( 1 2 | | w t | | 2 + C Σ i ξ i ) , s . t . y i ( w t · x i + b t ) ≥ 1 - ξ i , ξ i ≥ 0 , 其中,C是惩罚参数,wt表示通过第t轮训练支持向量机得到的最优分类平面的权值向量,bt表示其偏置向量,ξi为松弛项,xi表示第i个训练样本;
(3c)通过求解上述的目标函数,得到第t轮生成的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本xi的预测类标ht(xi)=sgn(wt·xi+bt),其中,sgn(·)是符号函数,wt表示通过第t轮训练支持向量机得到的最优分类平面的权值向量,bt表示其偏置向量。
步骤4,利用下式计算第t轮生成的弱分类器ht在训练集上的错误率εt
ϵ t = Σ i = 1 , h t ( x i ) ≠ y i N D t ( x i , y i )
其中,Dt(xi,yi)表示第t轮中第i个训练样本xi的样本权重,ht(xi)表示第t轮训练后生成的弱分类器ht对第i个训练样本xi的预测类标,yi表示第i个训练样本的类别标识。
步骤5,将错误率εt与设定的阈值k=0.5进行比较:若εt≥k,令最大迭代次数T=t-1,转到步骤10;若εt<k,则执行步骤6。
步骤6,计算不平衡问题的评价指标G,用G优化εt
(6a)计算少数类的分类精度和多数类的分类精度其中,TP表示预测类标为少数类且实际类标也为少数类的样本数目,FP表示预测类标为少数类但实际类标为多数类的样本数目,FN表示预测类标为多数类但实际类标为少数类的样本数目,TN表示预测类标为多数类且实际类标为多数类的样本数目;
(6b)依据上述计算得到的Se和Sp,计算Se和Sp的几何均值该几何均值是不平衡问题的评价指标;
(6c)依据上述计算得到的不平衡问题评价指标G,优化错误率εt,即εt *=εt×(1-G)λ,其中λ的数值根据交叉验证方法确定,优化后的错误率不仅与被分错的样本的权重有关,还充分考虑到了不平衡问题的特性,更适合评价不平衡问题分类结果。
步骤7,根据优化后的错误率计算第t轮生成的弱分类器ht的投票权重αt
α t = 1 2 × l o g ( 1 - ϵ t * ϵ t * )
这个式子表示错误率越大,投票权重αt就越小,以确保分类结果更好的弱分类器有更大的投票权重。
步骤8,计算第t+1轮中训练样本权重Dt+1(xi):
D t + 1 ( x i ) = D t + 1 * ( x i ) Σ i = 1 N D t + 1 * ( x i )
其中, D t + 1 * ( x i ) = D t ( x i ) × exp ( - α t ) , h t ( x i ) = y i 1 , h t ( x i ) ≠ y i 为中间变量,式中Dt(xi)表示第t轮中训练样本xi的样本权重,αt表示第t轮生成的弱分类器的投票权重,ht(xi)表示第t轮训练后生成的弱分类器ht对训练样本xi的预测类标,yi表示第i个训练样本xi的类别标识,N表示训练样本的个数。这个式子表示被弱分类器ht分对的训练样本权重会减小,被弱分类器ht分错的训练样本权重不变,以确保被弱分类器ht分错的样本被选中的可能性更大。
步骤9,用第t轮生成的弱分类器ht对测试样本xj进行预测,得到第t轮生成的弱分类器ht对测试样本xj的预测类标ht(xj):
ht(xj)=sgn(wt·xj+bt)
其中,sgn(·)是符号函数,wt表示通过第t轮训练支持向量机得到的最优分类平面的权值向量,bt表示其偏置向量,xj表示第j个测试样本。
步骤10,判断t是否达到最大迭代次数T。
若t<T,则t加1,返回步骤(3);若t≥T,输出强分类器:其中,αt表示第t轮生成的弱分类器的投票权重,ht(xj)表示第t轮训练后生成的弱分类器ht对测试样本xj的预测类标,yj是测试样本xj的类别标识。
本发明的效果可以通过以下仿真实验进一步说明:
一、实验条件和参数设置
在MATLAB仿真环境下,基于支持向量机LibSVM工具箱,设置参数如表1-3所示,其中:
表1是SVM参数设置;
表2是弱分类器支持向量机的训练样本个数;
表3是本发明参数λ的取值,并设置最大迭代次数T=20。
表1:SVM参数设置
UCI标准数据集 pima car ionophere wdbc
SVM核函数 高斯核 高斯核 线性核 线性核
SVM惩罚参数c 8000 30 10 1000
SVM高斯核参数g 3 10 -- --
表2:弱分类器的训练样本个数
UCI标准数据集 pima car ionophere wdbc
弱分类器的训练样本个数 553 323 158 87
表3:本发明参数λ的取值
UCI标准数据集 pima car ionophere wdbc
本发明参数λ 0.2 3 8 0.8
二、实验内容与结果分析
表4是实验中使用的4个UCI标准数据集。pima数据集描述了皮马印度人得糖尿病的情况,针对只有少数人得糖尿病的特点,本发明可以帮助医生减小糖尿病的误检率。car数据集描述了汽车的部分特征与用户满意度的关系,针对只有少部分汽车令客户不满意的特点,本发明可以帮助汽车制造商更好地设计汽车。ionosphere数据集是雷达对电离层的检测数据,针对少部分雷达会返回错误数据的情况,本发明可以帮助研究人员更好地识别出返回错误数据的雷达。wdbc数据集是美国威斯康辛州的人得乳腺癌是否是恶性的情况,针对只有少数人得恶性乳腺癌的特点,本发明可以帮助医生减小恶性乳腺癌的误检率。
表4:4个UCI标准数据集
UCI标准数据集 总样本数 特征维数 少数类样本数 多数类样本数
pima 768 8 268 500
car 449 6 69 1210
ionophere 351 34 126 225
wdbc 569 32 212 357
用本发明和现有技术支持向量机SVM、集成算法AdaBoost对表4中4个UCI标准数据集分别进行分类对比实验,并对分类结果用不同的评价指标进行评价,评价结果如表5-7和图2所示,其中:
表5是少数类的分类精度Se;
表6是不平衡分类问题的评估指标G;
表7是不平衡分类问题的评估指标F;
将表7的实验结果绘制成柱状图,如图2所示。
表5:少数类的分类精度Se对比实验结果
数据集 SVM AdaBoost 本发明
pima 0.5426 0.5429 0.5494
car 0.8991 0.9082 0.9082
ionophere 0.8373 0.8342 0.8485
wdbc 0.8636 0.8751 0.8801
表6:不平衡分类问题的评估指标G对比实验结果
数据集 SVM AdaBoost 本发明
pima 0.6457 0.6520 0.6564
car 0.9418 0.9471 0.9475
ionophere 0.9021 0.9059 0.9137
wdbc 0.9119 0.9157 0.9168
表7:不平衡分类问题的评估指标F对比实验结果
数据集 SVM AdaBoost 本发明
pima 0.5408 0.5566 0.5603
car 0.8435 0.8541 0.8653
ionophere 0.8841 0.894 0.9021
wdbc 0.8934 0.8987 0.8990
从表5可以看出,本发明方法相比现有技术取得了更高的少数类的分类精度。从图2和表6-7可以看出,本发明方法相比现有技术取得了更高的F值和G值。
综上实验所述,本发明针对不平衡数据分类问题,提出了一种基于集成学习的不平衡数据分类方法,通过在4个UCI标准数据集上对本发明方法和现有技术实施分类对比实验,验证了本发明方法相比现有技术,提高了少数类的分类精度,对不平衡数据能够获得更好的分类精度。

Claims (3)

1.基于不平衡分类指标与集成学习的不平衡数据分类方法,包括如下步骤:
(1)输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余的样本作为测试样本,并设定最大迭代次数T;
(2)设训练样本初始权重服从均匀分布,即每一个(xi,yi)∈S,其中i=1,2,...,N,t=1,N表示训练样本的个数,S表示训练集,xi表示第i个训练样本,yi表示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重;
(3)根据第t轮中训练样本的样本权重Dt选取第t轮生成的弱分类器的训练样本,用选取的训练样本对支持向量机进行训练,获得第t轮生成的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本的预测类标ht(xi),其中i=1,2,...,N;
(4)计算第t轮生成的弱分类器ht在训练集上的错误率:其中,Dt(xi,yi)表示第t轮中训练样本xi的样本权重,ht(xi)表示第t轮训练后生成的弱分类器ht对第i个训练样本xi的预测类标,yi表示第i个训练样本的类别标识;
(5)将错误率εt与设定的阈值k=0.5进行比较:若εt≥k,令最大迭代次数T=t-1,转到步骤(9);若εt<k,则执行步骤(6);
(6)计算不平衡问题的评价指标G,用G优化εt,得到优化后的错误率εt *=εt×(1-G)λ,其中λ是惩罚参数;
(7)根据优化后的错误率计算第t轮生成的弱分类器ht的投票权重: α t = 1 2 × log ( 1 - ϵ t * ϵ t * ) ;
(8)计算第t+1轮中训练样本权重:其中, D t + 1 * ( x i ) = D t ( x i ) × exp ( - α t ) , h t ( x i ) = y i 1 , h t ( x i ) ≠ y i 为中间变量,式中Dt(xi)表示第t轮中训练样本xi的样本权重,αt表示第t轮生成的弱分类器的投票权重,ht(xi)表示第t轮训练后生成的弱分类器ht对训练样本xi的预测类标,yi表示第i个训练样本xi的类别标识,N表示训练样本的个数;
(9)判断t是否达到最大迭代次数T:若t<T,则t加1,返回步骤(3);若t≥T,输出强分类器:其中,αt表示第t轮生成的弱分类器的投票权重,xj表示第j个测试样本,yj表示测试样本xj的类别标识,ht(xj)表示第t轮生成的弱分类器ht对测试样本xj的预测类标。
2.根据权利要求1所述的基于不平衡分类指标与集成学习的不平衡数据分类方法,其中步骤(3)所述的用选取的训练样本对支持向量机进行训练,按如下步骤进行:
(3a)对第t轮训练样本的样本权重Dt进行排序,选择前n个权重较大的样本作为第t轮弱分类器的训练样本;
(3b)用选取的训练样本对支持向量机进行训练,获得第t轮的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本xi的预测类标ht(xi)=sgn(wt·xi+bt),其中,sgn(·)是符号函数,wt表示通过第t轮训练支持向量机得到的最优分类平面的权值向量,bt表示其偏置向量。
3.根据权利要求1所述的基于不平衡分类指标与集成学习的不平衡数据分类方法,其中步骤(6)所述的计算不平衡问题的评价指标G,按如下步骤进行:
(6a)计算少数类的分类精度和多数类的分类精度其中,TP表示预测类标为少数类且实际类标也为少数类的样本数目,FP表示预测类标为少数类但实际类标为多数类的样本数目,FN表示预测类标为多数类但实际类标为少数类的样本数目,TN表示预测类标为多数类且实际类标为多数类的样本数目;
(6b)依据上述计算得到的Se和Sp,计算Se和Sp的几何均值该几何均值是不平衡问题的评价指标。
CN201510413029.7A 2015-07-14 2015-07-14 基于不平衡分类指标与集成学习的不平衡数据分类方法 Pending CN104951809A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510413029.7A CN104951809A (zh) 2015-07-14 2015-07-14 基于不平衡分类指标与集成学习的不平衡数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510413029.7A CN104951809A (zh) 2015-07-14 2015-07-14 基于不平衡分类指标与集成学习的不平衡数据分类方法

Publications (1)

Publication Number Publication Date
CN104951809A true CN104951809A (zh) 2015-09-30

Family

ID=54166449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510413029.7A Pending CN104951809A (zh) 2015-07-14 2015-07-14 基于不平衡分类指标与集成学习的不平衡数据分类方法

Country Status (1)

Country Link
CN (1) CN104951809A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106548136A (zh) * 2016-10-19 2017-03-29 中科院成都信息技术股份有限公司 一种无线信道场景分类方法
CN107038330A (zh) * 2016-10-27 2017-08-11 北京郁金香伙伴科技有限公司 一种数据缺失的补偿方法和装置
CN107239789A (zh) * 2017-05-09 2017-10-10 浙江大学 一种基于k‑means的不平衡数据工业故障分类方法
CN107316067A (zh) * 2017-05-27 2017-11-03 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
WO2017190527A1 (zh) * 2016-05-06 2017-11-09 华为技术有限公司 一种文本数据分类方法及服务器
CN107391370A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于数据过采样和集成学习的软件缺陷数目预测方法
CN107728476A (zh) * 2017-09-20 2018-02-23 浙江大学 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN108900332A (zh) * 2018-06-27 2018-11-27 北京邮电大学 一种潜在不满意客户识别方法及系统
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN109308545A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
WO2019033636A1 (zh) * 2017-08-16 2019-02-21 哈尔滨工业大学深圳研究生院 基于最小化损失学习的不平衡样本分类方法
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN109871889A (zh) * 2019-01-31 2019-06-11 内蒙古工业大学 突发事件下大众心理评估方法
CN109871901A (zh) * 2019-03-07 2019-06-11 中南大学 一种基于混合采样和机器学习的不平衡数据分类方法
CN109945900A (zh) * 2019-03-11 2019-06-28 南京智慧基础设施技术研究院有限公司 一种分布式的光纤传感方法
CN110363223A (zh) * 2019-06-20 2019-10-22 华南理工大学 工业流量数据处理方法、检测方法、系统、装置和介质
CN110458204A (zh) * 2019-07-23 2019-11-15 上海交通大学 基于信息增益和LightGBM模型的汽车故障预测方法
CN110596490A (zh) * 2019-09-11 2019-12-20 天津科技大学 铁路道岔故障的智能检测方法
CN110688983A (zh) * 2019-08-22 2020-01-14 中国矿业大学 基于多模态优化和集成学习的微震信号识别方法
CN111028945A (zh) * 2019-11-26 2020-04-17 佛山科学技术学院 一种基于数据融合的分类预测方法、装置及存储介质
CN111291818A (zh) * 2020-02-18 2020-06-16 浙江工业大学 一种面向云掩膜的非均匀类别的样本均衡化方法
CN111507504A (zh) * 2020-03-18 2020-08-07 中国南方电网有限责任公司 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
CN111582350A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于距离加权LSSVM的过滤因子优化AdaBoost方法及系统
CN112052900A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN112465040A (zh) * 2020-12-01 2021-03-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112989207A (zh) * 2021-04-27 2021-06-18 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质
CN113723622A (zh) * 2021-08-10 2021-11-30 中国科学院计算机网络信息中心 一种烟叶感官质量预测方法
CN114637620A (zh) * 2022-03-10 2022-06-17 南京开特信息科技有限公司 一种基于svm算法的数据库系统异常分类预测方法
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101980202A (zh) * 2010-11-04 2011-02-23 西安电子科技大学 不平衡数据的半监督分类方法
CN102521656A (zh) * 2011-12-29 2012-06-27 北京工商大学 非平衡样本分类的集成迁移学习方法
CN104239516A (zh) * 2014-09-17 2014-12-24 南京大学 一种不平衡数据分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁兴梅等: "一种面向不平衡数据的结构化SVM集成分类器", 《模式识别与人工智能》 *

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017190527A1 (zh) * 2016-05-06 2017-11-09 华为技术有限公司 一种文本数据分类方法及服务器
CN105975992A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于自适应升采样的不平衡数据集分类方法
CN106548136A (zh) * 2016-10-19 2017-03-29 中科院成都信息技术股份有限公司 一种无线信道场景分类方法
CN107038330A (zh) * 2016-10-27 2017-08-11 北京郁金香伙伴科技有限公司 一种数据缺失的补偿方法和装置
CN107038330B (zh) * 2016-10-27 2020-09-08 北京郁金香伙伴科技有限公司 一种数据缺失的补偿方法和装置
CN107239789A (zh) * 2017-05-09 2017-10-10 浙江大学 一种基于k‑means的不平衡数据工业故障分类方法
CN107316067B (zh) * 2017-05-27 2019-11-15 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
CN107316067A (zh) * 2017-05-27 2017-11-03 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
CN107391370A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于数据过采样和集成学习的软件缺陷数目预测方法
CN107391370B (zh) * 2017-07-13 2020-05-12 武汉大学 一种基于数据过采样和集成学习的软件缺陷数目预测方法
WO2019033636A1 (zh) * 2017-08-16 2019-02-21 哈尔滨工业大学深圳研究生院 基于最小化损失学习的不平衡样本分类方法
CN107766875B (zh) * 2017-09-14 2020-09-08 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107766875A (zh) * 2017-09-14 2018-03-06 中山大学 一种为有向有序多类不平衡数据分类的样本合成方法
CN107728476A (zh) * 2017-09-20 2018-02-23 浙江大学 一种基于SVM‑forest的从非平衡类数据中提取敏感数据的方法
CN107728476B (zh) * 2017-09-20 2020-05-22 浙江大学 一种基于SVM-forest的从非平衡类数据中提取敏感数据的方法
CN108900332A (zh) * 2018-06-27 2018-11-27 北京邮电大学 一种潜在不满意客户识别方法及系统
CN109086412A (zh) * 2018-08-03 2018-12-25 北京邮电大学 一种基于自适应加权Bagging-GBDT的不平衡数据分类方法
CN109308545A (zh) * 2018-08-21 2019-02-05 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
CN109308545B (zh) * 2018-08-21 2023-07-07 中国平安人寿保险股份有限公司 预测患糖尿病几率的方法、装置、计算机设备及存储介质
CN109784496A (zh) * 2018-12-29 2019-05-21 厦门大学 一种面向不平衡数据集的分类方法
CN109871889A (zh) * 2019-01-31 2019-06-11 内蒙古工业大学 突发事件下大众心理评估方法
CN109871901A (zh) * 2019-03-07 2019-06-11 中南大学 一种基于混合采样和机器学习的不平衡数据分类方法
CN109945900A (zh) * 2019-03-11 2019-06-28 南京智慧基础设施技术研究院有限公司 一种分布式的光纤传感方法
CN110363223A (zh) * 2019-06-20 2019-10-22 华南理工大学 工业流量数据处理方法、检测方法、系统、装置和介质
CN110458204A (zh) * 2019-07-23 2019-11-15 上海交通大学 基于信息增益和LightGBM模型的汽车故障预测方法
CN110688983A (zh) * 2019-08-22 2020-01-14 中国矿业大学 基于多模态优化和集成学习的微震信号识别方法
CN110596490A (zh) * 2019-09-11 2019-12-20 天津科技大学 铁路道岔故障的智能检测方法
CN111028945A (zh) * 2019-11-26 2020-04-17 佛山科学技术学院 一种基于数据融合的分类预测方法、装置及存储介质
CN111028945B (zh) * 2019-11-26 2023-08-11 佛山科学技术学院 一种基于数据融合的分类预测方法、装置及存储介质
CN111291818A (zh) * 2020-02-18 2020-06-16 浙江工业大学 一种面向云掩膜的非均匀类别的样本均衡化方法
CN111507504A (zh) * 2020-03-18 2020-08-07 中国南方电网有限责任公司 基于数据重采样的Adaboost集成学习电网故障诊断系统及方法
CN111582350B (zh) * 2020-04-30 2022-12-27 上海电力大学 一种基于AdaBoost的复合材料损伤识别方法及系统
CN111582350A (zh) * 2020-04-30 2020-08-25 上海电力大学 一种基于距离加权LSSVM的过滤因子优化AdaBoost方法及系统
CN112052900A (zh) * 2020-09-04 2020-12-08 京东数字科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN112052900B (zh) * 2020-09-04 2024-05-24 京东科技控股股份有限公司 机器学习样本权重调整方法和装置、存储介质
CN112560900A (zh) * 2020-09-08 2021-03-26 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112560900B (zh) * 2020-09-08 2023-01-20 同济大学 一种面向样本不均衡的多疾病分类器设计方法
CN112465040B (zh) * 2020-12-01 2024-02-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法
CN112465040A (zh) * 2020-12-01 2021-03-09 杭州电子科技大学 一种基于类不平衡学习算法的软件缺陷预测方法
CN112989207B (zh) * 2021-04-27 2021-08-27 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质
CN112989207A (zh) * 2021-04-27 2021-06-18 武汉卓尔数字传媒科技有限公司 一种信息推荐方法及装置、电子设备、存储介质
CN113723622A (zh) * 2021-08-10 2021-11-30 中国科学院计算机网络信息中心 一种烟叶感官质量预测方法
CN114637620A (zh) * 2022-03-10 2022-06-17 南京开特信息科技有限公司 一种基于svm算法的数据库系统异常分类预测方法
CN114637620B (zh) * 2022-03-10 2024-04-16 南京开特信息科技有限公司 一种基于svm算法的数据库系统异常分类预测方法
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法

Similar Documents

Publication Publication Date Title
CN104951809A (zh) 基于不平衡分类指标与集成学习的不平衡数据分类方法
Xu et al. A novel twin support-vector machine with pinball loss
CN105300693B (zh) 一种基于迁移学习的轴承故障诊断方法
Ford Practical implementation of random forest-based mineral potential mapping for porphyry Cu–Au mineralization in the Eastern Lachlan Orogen, NSW, Australia
CN101587155B (zh) 一种油浸式变压器的故障诊断方法
Huang et al. Identification of vehicle suspension shock absorber squeak and rattle noise based on wavelet packet transforms and a genetic algorithm-support vector machine
CN106204246A (zh) 一种基于主成分分析法的bp神经网络信用评估方法
CN105159948A (zh) 一种基于多特征的医疗保险欺诈检测方法
CN105653450A (zh) 基于改进遗传算法与Adaboost结合的软件缺陷数据特征选择方法
CN106202952A (zh) 一种基于机器学习的帕金森疾病诊断方法
CN101980202A (zh) 不平衡数据的半监督分类方法
CN104832418B (zh) 一种基于局部均值变换和Softmax的液压泵故障诊断方法
Nguyen et al. Breast cancer prediction using feature selection and ensemble voting
CN104298999B (zh) 基于递归自动编码的高光谱特征学习方法
CN102163239B (zh) 一种基于浮动分类阈值的分类器集成方法
CN103886336A (zh) 基于稀疏自动编码器的极化sar图像分类方法
CN105938523A (zh) 一种基于特征辨识度和独立性的特征选择方法及应用
Peker et al. Application of Chi-square discretization algorithms to ensemble classification methods
CN103150303A (zh) 汉语语义格分层识别方法
CN104809476A (zh) 一种基于分解的多目标进化模糊规则分类方法
Yao et al. Estimation of ROC curve with complex survey data
CN105184297A (zh) 基于张量和稀疏自编码器的极化sar图像分类方法
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
Fang et al. Comparison of general kernel, multiple kernel, infinite ensemble and semi-supervised support vector machines for landslide susceptibility prediction
CN106250913A (zh) 一种基于局部典型相关分析的分类器集成车牌识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150930