CN112382382A - 一种代价敏感的集成学习分类方法及系统 - Google Patents
一种代价敏感的集成学习分类方法及系统 Download PDFInfo
- Publication number
- CN112382382A CN112382382A CN202011143487.0A CN202011143487A CN112382382A CN 112382382 A CN112382382 A CN 112382382A CN 202011143487 A CN202011143487 A CN 202011143487A CN 112382382 A CN112382382 A CN 112382382A
- Authority
- CN
- China
- Prior art keywords
- classifier
- cost
- classification
- samples
- positive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012360 testing method Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 38
- 230000010354 integration Effects 0.000 claims abstract description 15
- 238000009826 distribution Methods 0.000 claims abstract description 10
- 238000007477 logistic regression Methods 0.000 claims description 21
- 238000003066 decision tree Methods 0.000 claims description 20
- 238000012706 support-vector machine Methods 0.000 claims description 20
- 238000011156 evaluation Methods 0.000 claims description 11
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 206010006187 Breast cancer Diseases 0.000 description 17
- 208000026310 Breast neoplasm Diseases 0.000 description 17
- 230000006870 function Effects 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 10
- 201000010099 disease Diseases 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000007636 ensemble learning method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000013145 classification model Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000001931 thermography Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种代价敏感的集成学习分类方法及系统,该方法包括:获取样本数据集,并将样本数据集分成训练样本集和测试样本集;基于训练样本集对多个不同类型的分类器分别进行训练,并基于测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;基于各分类器的分类结果为每一分类器分配对应的权重;基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;利用集成分类器对待测样本进行分类,得到相应的分类结果。本发明使集成学习模型具有各个基学习器的优点,弱化各个基学习器的缺点。并通过权重分配和调整集成学习的门限,改善了集成分类器的分类效果。
Description
技术领域
本发明涉及集成学习分类技术领域,特别涉及一种代价敏感的集成学习分类方法及系统。
背景技术
乳腺癌是严重威胁女性健康的疾病之一。根据医生的长期临床经验,乳腺癌是可以预防和治愈的。预防和治愈乳腺癌的关键点在于癌症的及时检查和治疗,常见的乳腺癌检测方法包括X放射、CT、热成像、超声显像等等方法,但上述方法不仅需要极高的检查费用,也会给患者身体带来较大的损害和痛苦。
对此,有学者提出依赖合理的特征和分类模型建立乳腺癌诊断模型用于早期诊断,以降低患者的痛苦和减少其经济支出;但单个分类器都有各自的缺点,所以一般使用集成学习把他们集成在一起,使集成学习模型具有各个基学习器的优点,弱化各个基学习器的缺点。但是现有的集成学习模型也有一些问题:
现有的集成学习方法使用的指标都是传统机器学习的指标,如准确率,精确率和召回率等,主要关注分类正确的对象,没有考虑乳腺癌这类疾病数据的特殊性,而将得病人群误判成未得病人群造成的代价与将未得病数据误判成得病数据代价是不同的,将得病人群误判成未得病人群造成的代价十分巨大,将会耽误患者的早期治疗,增加治疗成本和治愈难度,甚至会威胁到生命。另外,传统的集成学习方法直接认为所有的基学习器权重都是相同的,通过少数服从多数的原则进行投票得出结论。但实际上各个基学习器的性能不同,每一种方法在每个数据集上都有自己的优缺点,因此,传统的集成学习方法并不准确。
发明内容
本发明提供了一种代价敏感的集成学习分类方法及系统,以解决传统的集成学习分类方法分类结果不够准确,性能不够理想的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:
一方面,本发明提供一种代价敏感的集成学习分类方法,该方法包括:
获取样本数据集,并将所述样本数据集分成训练样本集和测试样本集;
基于所述训练样本集对多个不同类型的分类器分别进行训练,并基于所述测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
基于各分类器的分类结果为每一分类器分别分配对应的权重;
基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;
利用所述集成分类器对待测样本进行分类,得到待测样本的分类结果。
其中,基于各分类器的分类结果为每一分类器分别分配对应的权重,包括:
基于各分类器的分类结果,分别统计得到每一分类器的召回率Recall、准确率Accuracy以及精确率Precision;
通过下列公式计算各分类器的评价指标C_cost:
其中,TP表示实际为正被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,FP表示实际为负但被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量,C_FN和C_FP均为预设的常数;
对各分类器对应的C_cost进行归一化处理作为每一分类器各自的权重。
其中,所述C_FN的取值为300,所述C_FP的取值为1。
其中,所述多个不同类型的分类器包括:支持向量机、神经网络、决策树和逻辑回归模型。
其中,利用所述集成分类器对待测样本进行分类,得到待测样本的分类结果,包括:
利用所述集成分类器对待测样本进行分类,并调低集成分类器的门限阈值,使得当集成分类器中有至少一个分类器的输出结果为正时,分类结果为正。
另一方面,本发明还提供一种代价敏感的集成学习分类系统,该系统包括:
样本数据集获取模块,用于获取样本数据集,并将所述样本数据集分成训练样本集和测试样本集;
分类器训练及测试模块,用于基于样本数据集获取模块得到的训练样本集对多个不同类型的分类器分别进行训练,并基于样本数据集获取模块得到的测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
分类器权重分配及集成模块,用于基于所述分类器训练及测试模块得到的各分类器的分类结果为每一分类器分别分配对应的权重;并基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;
分类模块,用于利用所述分类器权重分配及集成模块所得到的集成分类器对待测样本进行分类,得到待测样本的分类结果。
其中,所述分类器权重分配及集成模块具体用于:
基于各分类器的分类结果,分别统计得到每一分类器的召回率Recall、准确率Accuracy以及精确率Precision;
通过下列公式计算各分类器的评价指标C_cost:
其中,TP表示实际为正被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,FP表示实际为负但被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量,C_FN和C_FP均为预设的常数;
对各分类器对应的C_cost进行归一化处理作为每一分类器各自的权重。
其中,所述C_FN的取值为300,所述C_FP的取值为1。
其中,所述多个不同类型的分类器包括:支持向量机、神经网络、决策树和逻辑回归模型。
其中,所述分类模块具体用于:
利用所述集成分类器对待测样本进行分类,并调低集成分类器的门限阈值,使得当集成分类器中有至少一个分类器的输出结果为正时,分类结果为正。
再一方面,本发明还提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
又一方面,本发明还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现上述方法。
本发明提供的技术方案带来的有益效果至少包括:
本发明使用逻辑回归,决策树,神经网络,支持向量机作为分类模型的基学习器,使集成学习模型具有各个基学习器的优点,弱化各个基学习器的缺点。针对乳腺癌这类疾病数据的特殊性,更关注FN的数量,本发明还建立专门的评估体系C_cost指导权重分配,并通过调整集成学习的门限使所得的模型结果在一定条件下FN尽可能少,从而利用权重更好的发挥效果好的基学习器的作用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的代价敏感的集成学习分类方法的流程示意图;
图2为本发明实施例提供的单分类器系统模型图;
图3为本发明实施例提供的集成分类器的系统模型图;
图4为SVM+MLP的集成分类器在不同门限下的C_cost折线图;
图5为SVM+DT的集成分类器在不同门限下的C_cost折线图;
图6为SVM+LR的集成分类器在不同门限下的C_cost折线图;
图7为MLP+DT的集成分类器在不同门限下的C_cost折线图;
图8为MLP+LR的集成分类器在不同门限下的C_cost折线图;
图9为DT+LR的集成分类器在不同门限下的C_cost折线图;
图10为SVM+MLP+DT的集成分类器在不同门限下的C_cost折线图;
图11为SVM+MLP+LR的集成分类器在不同门限下的C_cost折线图;
图12为SVM+DT+LR的集成分类器在不同门限下的C_cost折线图;
图13为MLP+DT+LR的集成分类器在不同门限下的C_cost折线图;
图14为SVM+MLP+DT+LR的集成分类器在不同门限下的C_cost折线图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
第一实施例
本实施例提供了一种代价敏感的集成学习分类方法,该代价敏感的集成学习分类方法可以由电子设备实现,该电子设备可以是终端或者服务器。该代价敏感的集成学习分类方法的执行流程如图1所示,包括以下步骤:
S101,获取样本数据集,并将样本数据集分成训练样本集和测试样本集;
S102,基于训练样本集对多个不同类型的分类器分别进行训练,并基于测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
S103,基于各分类器的分类结果为每一分类器分别分配对应的权重;
S104,基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;
S105,利用集成分类器对待测样本进行分类,得到待测样本的分类结果。
具体地,在本实施例中,基于各分类器的分类结果为每一分类器分别分配对应的权重,包括以下步骤:
1、基于各分类器的分类结果,分别统计得到每一分类器的召回率Recall、准确率Accuracy以及精确率Precision;
2、通过下列公式计算各分类器的评价指标C_cost:
其中,TP表示实际为正被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,FP表示实际为负但被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量,C_FN和C_FP为预设常数;C_cost用于评价分类器好坏,C_cost越大,表示分类器越好。本实施例的目标是得到更大的C_cost。
3、对各分类器对应的C_cost进行归一化处理作为每一分类器各自的权重。
进一步地,本实施例所集成的分类器包括:支持向量机、神经网络、决策树和逻辑回归模型。当然还可以包括其他分类器,对此,本实施例不作限定。
而且,在本实施例中,利用集成分类器对待测样本进行分类,得到待测样本的分类结果,还包括:调低集成分类器的门限阈值,使得当集成分类器中有至少一个分类器的输出结果为正时,则判定最终的分类结果为正。
下面,结合具体的应用实例对本实施例方法的实现原理进行进一步的说明。
本实施例以乳腺癌检测为例,假设用到的对乳腺癌有影响的特征数为m,使特征的集合为T={T1,T2,…,Tm}。假设有nr个训练样本和ne个测试样本,将训练样本集表示为同理测试样本集表示为总数据集Data=YTrain+YTest,每个样本都包含所有的特征值,即:
并且
显然,可以得到
评价指标:建立一个混淆矩阵表示两类分类问题,如表1所示。假设正类样本表示乳腺癌患者,负类样本表示普通人,TP和TN分别表示被正确分类的患者与普通人数量,而FN和FP分别表示被误分类的两类样本数量。
表1二分类问题混淆矩阵
混淆矩阵中的P表示Positive,即正例或者阳性,N表示Negative,即负例或者阴性。表1中的FP表示实际为负但被预测为正的样本数量,TN表示实际为负被预测为负的样本的数量,TP表示实际为正被预测为正的样本数量,FN表示实际为正但被预测为负的样本的数量。另外,TP+FP=P’表示所有被预测为正的样本数量,同理FN+TN为所有被预测为负的样本数量,TP+FN为实际为正的样本数量,FP+TN为实际为负的样本数量。
分类模型使用以下几种参数进行评估:
1、召回率:实际为正的样本中被预测为正的样本占实际为正的样本的比例。
2、准确率:分类正确的样本占总样本个数的比例。
其中,correct为被正确分类的样本个数,total为总样本个数。
结合上面的混淆矩阵,公式还可以这样写:
3、精确率:模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例。
4、F1-score:精确率和召回率的调和平均值。
其中,Precision体现了模型对负样本的区分能力,Precision越高,模型对负样本的区分能力越强;Recall体现了模型对正样本的识别能力,Recall越高,模型对正样本的识别能力越强。F1是两者的综合,F1越高,说明模型越稳健。
可以计算出各分类器的C_cost,单分类器系统模型图如图2所示。
输入数据DataTrain,DataTest,STrain,让单分类器进行学习,得到通过STest和得到该分类器的准确率Accuracy,精确率Precision,召回率Recall和F1-score,由准确率Accuracy,精确率Precision,召回率Recall,结合上文记载的C_cost的计算公式,可以得到该分类器的C_cost。根据单分类器得到的每个C_cost,可以得到如图3所示的集成分类器的系统模型。
首先进行分类器的选择,选定分类器的组合形式后分别计算出选中的分类器各自的C_cost,对C_cost进行归一化处理作为每个基学习器各自的权重。其中,需要说明的是,由于将得病样本误判成未得病样本FN的成本会远大于将未得病样本误判成得病样本FP。因为将未得病样本误判成得病样本FP的代价是患者会花费一定的时间和金钱进行进一步的诊断,而将得病样本误判成未得病样本FN将会耽误患者的早期治疗,增加治疗成本和治愈难度,甚至会威胁到生命,所以本实施例更关注FN的数量。因此本实施例引入一个参数C,令C_FN=300,C_FP=1,C越大表示越重要。
本实施例将数据DataTrain,DataTest,STrain放进不同数量组合的集成学习分类器中,再对投票系统赋予不同的门限,得到通过STest和得到该集成分类器的准确率Accuracy,精确率Precision,召回率Recall和F1-score,由准确率Accuracy,精确率Precision,召回率Recall可以得到该分类器的C_cost。本实施例主要使用支持向量机,神经网络,决策树和逻辑回归四种基分类器进行实验。
为了证明本实施例方法的有效性,本实施例使用了WDBC数据集进行验证。WDBC数据集来自UCI机器学习库,广泛被应用到诊断乳腺癌中。其实例数量是568,其中有357个健康样本和211个乳腺癌样本。实例中包括诊断类和属性,帮助预测的属性是30,各属性包括为radius半径(从中心到边缘上点的距离的平均值),texture纹理(灰度值的标准偏差)等等,类包括:WDBC-Malignant恶性和WDBC-Benign良性。实验使用4折分层交叉验证,先将数据集打乱,然后再将打乱后的数据集均匀分成4份,轮流选择其中的3份作为训练集,剩下的一份作验证。每个数据在验证集中出现一次,并且在训练中出现3次,这将显著减少欠拟合,因为使用了数据集中的大多数的数据进行训练;同时也降低了过拟合的可能,因为也使用了大多数的数据进行模型的验证。最后本实施例将4次实验得到的组合到一起进行后续的评估指标计算。
使用sklearn的neural_network.MLPClassifier,tree.DecisionTreeClassifier,linear_model.LogisticRegression,svm.svc算法进行实验。
逻辑回归算法当中,一般概率判定边界为0.5,这里本实施例通过把阈值设定低一些,来提高模型的"敏感度",把阈值设定为0.3。本实施例使用L1正则化进行建模,对逻辑回归损失函数的优化方法本实施例使用开源的liblinear库实现,内部使用梯度下降法来迭代优化损失函数。
决策树算法参数方面,将splitter='best'选择最优的切分特征和切分点。通过遍历树的深度,筛选出树的最佳深度为3。
支持向量机,其关键是对核函数进行选择,本实施例选取rbf高斯核函数作为建模模型,通过反复实验发现目标函数的惩罚系数C=1.5,g=auto为最优。
多层感知机神经网络,本实施例建立的是最简单的MLP模型,只包含一层隐藏层,层中节点数与特征数相同,值为30。需要调的参数有隐藏层激活函数和权重优化算法选择。经过网格搜索,本实施例使用logistic作为隐藏层激活函数,adam作为权重优化算法,最大迭代次数为200时,建立的模型效果最好。
最后使用集成学习来解决乳腺癌分类问题。本实施例尝试了不同数量的分类器进行组合,包括两两组合,三三组合,四四组合。首先,本实施例用每个基学习器单独进行分类,得到每个基学习器的C_cost值。在组合时,本实施例根据使用的分类器的C_cost进行归一化处理,得到的结果作为该分类器的权重赋给分类器,同时对相同的集成分类器进行不同的门限设置,对比实验结果,实验证明降低门限,使用加权的集成分类器C_cost要比传统的投票集成分类器要好,集成分类器内基学习器多的C_cost要比少的好。
具体地,在表2中,本实施例计算了单独使用决策树模型,支持向量机模型,支持回归模型和神经网络模型进行的混淆矩阵,本实施例计算了准确率、精确率、召回率、F1-score,C_cost用于比较算法的可行性。
表2 SVM算法,MLP算法,DT算法,LR算法对WDBC数据处理的混淆矩阵
在表3中,本实施例计算了由两种学习器组成的集成分类器在不同门限Threshold下对WDBC数据处理的混淆矩阵,每一方案都使用传统集成学习方法作为对照。计算了准确率、精确率、召回率、F1-score,C_cost用于比较算法的可行性。并画出对应的集成分类器在不同门限下的C_cost折线图(图4至图9)。
表3由两种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵
在表4中,本实施例计算了由三种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵,每一种方案都使用传统的集成学习方法作为对照。根据每个基分类器的C_cost不同,在集成分类器中的权重也不完全相同,本实施例根据其权重选取有代表性的不同门限进行实验。本实施例同样计算了准确率、精确率、召回率、F1-score,C_cost用于比较算法的可行性。并画出对应的集成分类器在不同门限下的C_cost折线图(图10至图13)。
表4由三种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵
在表5中,本实施例计算了由四种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵,每一种方案都使用传统的集成学习方法作为对照。根据每个基分类器的C_cost不同,在集成分类器中的权重也不完全相同,本实施例根据其权重选取有代表性的不同门限进行实验。本实施例同样计算了准确率、精确率、召回率、F1-score,C_cost用于比较算法的可行性。并画出对应的集成分类器在不同门限下的C_cost折线图(图14)。
表5 SVM+MLP+DT+LR的集成分类器在不同门限下对WDBC数据处理的混淆矩阵
实验结果证明降低门限,使用加权的集成分类器C_cost要比传统的投票集成分类器要好,集成分类器内基学习器多的C_cost要比少的好。
综上,本实施例提出了一种代价敏感的集成学习分类方法。以乳腺癌数据为实验数据。主要使用逻辑回归(LR),决策树(DT),神经网络(MLP),支持向量机(SVM)作为集成学习的基学习器,使集成学习模型具有各个基学习器的优点,弱化各个基学习器的缺点。同时针对乳腺癌这类疾病数据分类器提出了一种新的评估指标C_cost,根据C_cost对分类器进行评价,同时作为权重分配的依据,对集成模型的每个子模型进行权重分配;并考虑到分类代价不同,因此调低了门限阈值,当至少有一个分类器输出结果为得病,本实施例就判断结果为得病,从而降低了将得病数据判断为未得病数据的误诊率,得到了较高的召回率;可用于乳腺癌检测,并对辅助医生进行临床决策具有一定的参考价值。
第二实施例
本实施例提供了一种代价敏感的集成学习分类系统,该系统包括以下模块:
样本数据集获取模块,用于获取样本数据集,并将所述样本数据集分成训练样本集和测试样本集;
分类器训练及测试模块,用于基于样本数据集获取模块得到的训练样本集对多个不同类型的分类器分别进行训练,并基于样本数据集获取模块得到的测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
分类器权重分配及集成模块,用于基于所述分类器训练及测试模块得到的各分类器的分类结果为每一分类器分别分配对应的权重;并基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;
分类模块,用于利用所述分类器权重分配及集成模块所得到的集成分类器对待测样本进行分类,得到待测样本的分类结果。
本实施例的代价敏感的集成学习分类系统与上述第一实施例的代价敏感的集成学习分类方法相对应;其中,本集成学习分类系统中的各功能模块所实现的功能与上述集成学习分类方法中的各流程步骤一一对应;故,在此不再赘述。
第三实施例
本实施例提供一种电子设备,其包括处理器和存储器;其中,存储器中存储有至少一条指令,所述指令由处理器加载并执行,以实现第一实施例的方法。
该电子设备可因配置或性能不同而产生较大差异,可以包括一个或一个以上处理器(central processing units,CPU)和一个或一个以上的存储器,其中,存储器中存储有至少一条指令,该指令由处理器加载并执行第一实施例的方法。
第四实施例
本实施例提供一种计算机可读存储介质,该存储介质中存储有至少一条指令,该指令由处理器加载并执行,以实现上述方法。其中,该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备。其内存储的指令可由终端中的处理器加载并执行第一实施例的方法。
此外,需要说明的是,本发明可提供为方法、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
最后需要说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
Claims (10)
1.一种代价敏感的集成学习分类方法,其特征在于,所述方法包括:
获取样本数据集,并将所述样本数据集分成训练样本集和测试样本集;
基于所述训练样本集对多个不同类型的分类器分别进行训练,并基于所述测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
基于各分类器的分类结果为每一分类器分别分配对应的权重;
基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;
利用所述集成分类器对待测样本进行分类,得到待测样本的分类结果。
3.如权利要求2所述的代价敏感的集成学习分类方法,其特征在于,所述C_FN的取值为300,所述C_FP的取值为1。
4.如权利要求1所述的代价敏感的集成学习分类方法,其特征在于,所述多个不同类型的分类器包括:支持向量机、神经网络、决策树和逻辑回归模型。
5.如权利要求1所述的代价敏感的集成学习分类方法,其特征在于,利用所述集成分类器对待测样本进行分类,得到待测样本的分类结果,包括:
利用所述集成分类器对待测样本进行分类,并调低集成分类器的门限阈值,使得当集成分类器中有至少一个分类器的输出结果为正时,分类结果为正。
6.一种代价敏感的集成学习分类系统,其特征在于,所述系统包括:
样本数据集获取模块,用于获取样本数据集,并将所述样本数据集分成训练样本集和测试样本集;
分类器训练及测试模块,用于基于样本数据集获取模块得到的训练样本集对多个不同类型的分类器分别进行训练,并基于样本数据集获取模块得到的测试样本集对训练好的各分类器分别进行分类测试,得到各分类器的分类结果;
分类器权重分配及集成模块,用于基于所述分类器训练及测试模块得到的各分类器的分类结果为每一分类器分别分配对应的权重;并基于各分类器的权重,对各分类器进行加权集成,得到集成分类器;
分类模块,用于利用所述分类器权重分配及集成模块所得到的集成分类器对待测样本进行分类,得到待测样本的分类结果。
8.如权利要求7所述的代价敏感的集成学习分类系统,其特征在于,所述C_FN的取值为300,所述C_FP的取值为1。
9.如权利要求6所述的代价敏感的集成学习分类系统,其特征在于,所述多个不同类型的分类器包括:支持向量机、神经网络、决策树和逻辑回归模型。
10.如权利要求6所述的代价敏感的集成学习分类系统,其特征在于,所述分类模块具体用于:
利用所述集成分类器对待测样本进行分类,并调低集成分类器的门限阈值,使得当集成分类器中有至少一个分类器的输出结果为正时,分类结果为正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011143487.0A CN112382382B (zh) | 2020-10-23 | 2020-10-23 | 一种代价敏感的集成学习分类方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011143487.0A CN112382382B (zh) | 2020-10-23 | 2020-10-23 | 一种代价敏感的集成学习分类方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112382382A true CN112382382A (zh) | 2021-02-19 |
CN112382382B CN112382382B (zh) | 2024-04-12 |
Family
ID=74581757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011143487.0A Active CN112382382B (zh) | 2020-10-23 | 2020-10-23 | 一种代价敏感的集成学习分类方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112382382B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115019916A (zh) * | 2022-05-27 | 2022-09-06 | 山东大学 | 血流感染致病菌预测方法及系统 |
CN115147138A (zh) * | 2021-03-31 | 2022-10-04 | 阿里巴巴新加坡控股有限公司 | 数据处理方法及系统、客户关系管理系统、电子设备 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140257122A1 (en) * | 2013-03-08 | 2014-09-11 | Singapore Health Services Pte Ltd | System and method of determining a risk score for triage |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
CN105843971A (zh) * | 2016-06-08 | 2016-08-10 | 哈尔滨工程大学 | 一种基于rlid3的增量集成学习的数据分类方法 |
CN105975611A (zh) * | 2016-05-18 | 2016-09-28 | 天津大学 | 自适应组合降采样增强学习机 |
CN107256245A (zh) * | 2017-06-02 | 2017-10-17 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及系统 |
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
CN108023876A (zh) * | 2017-11-20 | 2018-05-11 | 西安电子科技大学 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
CN108090510A (zh) * | 2017-12-15 | 2018-05-29 | 北京大学 | 一种基于间隔优化的集成学习方法及装置 |
CN108228716A (zh) * | 2017-12-05 | 2018-06-29 | 华南理工大学 | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 |
CN108304884A (zh) * | 2018-02-23 | 2018-07-20 | 华东理工大学 | 一种基于特征逆映射的代价敏感堆叠集成学习框架 |
CN108766559A (zh) * | 2018-05-22 | 2018-11-06 | 合肥工业大学 | 用于智能疾病筛查的临床决策支持方法及系统 |
CN109359193A (zh) * | 2018-09-25 | 2019-02-19 | 济南大学 | 基于pca降维的堆积两层框架的异常电话识别方法及系统 |
CN110232400A (zh) * | 2019-04-30 | 2019-09-13 | 冶金自动化研究设计院 | 一种梯度提升决策神经网络分类预测方法 |
CN110580268A (zh) * | 2019-08-05 | 2019-12-17 | 西北大学 | 一种基于深度学习的信用评分集成分类系统和方法 |
US20200082165A1 (en) * | 2016-12-16 | 2020-03-12 | Peking University Shenzhen Graduate School | Collaborative deep network model method for pedestrian detection |
CN111028945A (zh) * | 2019-11-26 | 2020-04-17 | 佛山科学技术学院 | 一种基于数据融合的分类预测方法、装置及存储介质 |
CN111181939A (zh) * | 2019-12-20 | 2020-05-19 | 广东工业大学 | 一种基于集成学习的网络入侵检测方法及装置 |
CN111209977A (zh) * | 2020-01-16 | 2020-05-29 | 北京百度网讯科技有限公司 | 分类模型的训练和使用方法、装置、设备和介质 |
-
2020
- 2020-10-23 CN CN202011143487.0A patent/CN112382382B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140257122A1 (en) * | 2013-03-08 | 2014-09-11 | Singapore Health Services Pte Ltd | System and method of determining a risk score for triage |
US20160078359A1 (en) * | 2014-09-12 | 2016-03-17 | Xerox Corporation | System for domain adaptation with a domain-specific class means classifier |
CN105975611A (zh) * | 2016-05-18 | 2016-09-28 | 天津大学 | 自适应组合降采样增强学习机 |
CN105843971A (zh) * | 2016-06-08 | 2016-08-10 | 哈尔滨工程大学 | 一种基于rlid3的增量集成学习的数据分类方法 |
US20200082165A1 (en) * | 2016-12-16 | 2020-03-12 | Peking University Shenzhen Graduate School | Collaborative deep network model method for pedestrian detection |
CN107256245A (zh) * | 2017-06-02 | 2017-10-17 | 河海大学 | 面向垃圾短信分类的离线模型改进与选择方法 |
CN107545275A (zh) * | 2017-07-27 | 2018-01-05 | 华南理工大学 | 重采样与代价敏感学习融合的不平衡数据集成分类方法 |
CN107480474A (zh) * | 2017-08-01 | 2017-12-15 | 山东师范大学 | 基于肠道菌群丰度的分类器建模评价校验方法及系统 |
CN108023876A (zh) * | 2017-11-20 | 2018-05-11 | 西安电子科技大学 | 基于可持续性集成学习的入侵检测方法及入侵检测系统 |
CN108228716A (zh) * | 2017-12-05 | 2018-06-29 | 华南理工大学 | 基于加权极限学习机的SMOTE_Bagging集成污水处理故障诊断方法 |
CN108090510A (zh) * | 2017-12-15 | 2018-05-29 | 北京大学 | 一种基于间隔优化的集成学习方法及装置 |
CN108304884A (zh) * | 2018-02-23 | 2018-07-20 | 华东理工大学 | 一种基于特征逆映射的代价敏感堆叠集成学习框架 |
CN108766559A (zh) * | 2018-05-22 | 2018-11-06 | 合肥工业大学 | 用于智能疾病筛查的临床决策支持方法及系统 |
CN109359193A (zh) * | 2018-09-25 | 2019-02-19 | 济南大学 | 基于pca降维的堆积两层框架的异常电话识别方法及系统 |
CN110232400A (zh) * | 2019-04-30 | 2019-09-13 | 冶金自动化研究设计院 | 一种梯度提升决策神经网络分类预测方法 |
CN110580268A (zh) * | 2019-08-05 | 2019-12-17 | 西北大学 | 一种基于深度学习的信用评分集成分类系统和方法 |
CN111028945A (zh) * | 2019-11-26 | 2020-04-17 | 佛山科学技术学院 | 一种基于数据融合的分类预测方法、装置及存储介质 |
CN111181939A (zh) * | 2019-12-20 | 2020-05-19 | 广东工业大学 | 一种基于集成学习的网络入侵检测方法及装置 |
CN111209977A (zh) * | 2020-01-16 | 2020-05-29 | 北京百度网讯科技有限公司 | 分类模型的训练和使用方法、装置、设备和介质 |
Non-Patent Citations (2)
Title |
---|
ZHANG, TIEXU: "Development of Machine Learning Tools for Predicting Coronary Artery Disease in the Chinese Population.", DISEASE MARKERS, vol. 2022, pages 6030254 * |
刘丽倩;董东;: "基于代价敏感集成分类器的长方法检测", 计算机科学, vol. 45, no. 11, pages 507 - 510 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115147138A (zh) * | 2021-03-31 | 2022-10-04 | 阿里巴巴新加坡控股有限公司 | 数据处理方法及系统、客户关系管理系统、电子设备 |
CN115019916A (zh) * | 2022-05-27 | 2022-09-06 | 山东大学 | 血流感染致病菌预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112382382B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hussain et al. | A comparison of SVM kernel functions for breast cancer detection | |
CN112381178B (zh) | 一种基于多损失特征学习的医学影像分类方法 | |
CN109558896B (zh) | 基于超声组学和深度学习的疾病智能化分析方法及系统 | |
CN111161879B (zh) | 一种基于大数据的疾病预测系统 | |
CN110111888A (zh) | 一种XGBoost疾病概率预测方法、系统及存储介质 | |
CN109410204B (zh) | 一种基于cam的皮质白内障图像处理及增强方法 | |
CN109948680B (zh) | 病历数据的分类方法及系统 | |
CN110604550A (zh) | 一种肿瘤放疗后正常组织器官并发症的预测方法 | |
CN116226629B (zh) | 一种基于特征贡献的多模型特征选择方法及系统 | |
CN108847285A (zh) | 基于机器学习的孕前期及孕中期唐氏综合征筛查方法 | |
CN110175697A (zh) | 一种不良事件风险预测系统及方法 | |
CN112382382A (zh) | 一种代价敏感的集成学习分类方法及系统 | |
CN116705325B (zh) | 一种伤口感染风险评估方法及其系统 | |
CN110503155A (zh) | 一种信息分类的方法及相关装置、服务器 | |
CN112052874B (zh) | 一种基于生成对抗网络的生理数据分类方法及系统 | |
CN113539460A (zh) | 用于远程医疗平台的智能导诊方法和装置 | |
CN117315380B (zh) | 一种基于深度学习的肺炎ct图像分类方法及系统 | |
Dhar | An adaptive intelligent diagnostic system to predict early stage of parkinson's disease using two-stage dimension reduction with genetically optimized lightgbm algorithm | |
CN113361653A (zh) | 基于数据样本增强的深度学习模型去偏方法和装置 | |
CN117219127A (zh) | 认知状态识别方法以及相关设备 | |
Hameed et al. | Eye diseases classification using back propagation with parabola learning rate | |
CN115392582B (zh) | 基于增量模糊粗糙集属性约简的作物产量预测方法 | |
Singh et al. | Pneumonia detection with game-theoretic rough sets | |
Lowongtrakool et al. | Noise filtering in unsupervised clustering using computation intelligence | |
Guo et al. | AD diagnosis assistant system based on convolutional network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |