CN112382382A

CN112382382A - 一种代价敏感的集成学习分类方法及系统

Info

Publication number: CN112382382A
Application number: CN202011143487.0A
Authority: CN
Inventors: 皇甫伟; 沈一佳; 刘娅汐
Original assignee: University of Science and Technology Beijing USTB
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2021-02-19
Anticipated expiration: 2040-10-23
Also published as: CN112382382B

Abstract

本发明公开了一种代价敏感的集成学习分类方法及系统，该方法包括：获取样本数据集，并将样本数据集分成训练样本集和测试样本集；基于训练样本集对多个不同类型的分类器分别进行训练，并基于测试样本集对训练好的各分类器分别进行分类测试，得到各分类器的分类结果；基于各分类器的分类结果为每一分类器分配对应的权重；基于各分类器的权重，对各分类器进行加权集成，得到集成分类器；利用集成分类器对待测样本进行分类，得到相应的分类结果。本发明使集成学习模型具有各个基学习器的优点，弱化各个基学习器的缺点。并通过权重分配和调整集成学习的门限，改善了集成分类器的分类效果。

Description

一种代价敏感的集成学习分类方法及系统

技术领域

本发明涉及集成学习分类技术领域，特别涉及一种代价敏感的集成学习分类方法及系统。

背景技术

乳腺癌是严重威胁女性健康的疾病之一。根据医生的长期临床经验，乳腺癌是可以预防和治愈的。预防和治愈乳腺癌的关键点在于癌症的及时检查和治疗，常见的乳腺癌检测方法包括X放射、CT、热成像、超声显像等等方法，但上述方法不仅需要极高的检查费用，也会给患者身体带来较大的损害和痛苦。

对此，有学者提出依赖合理的特征和分类模型建立乳腺癌诊断模型用于早期诊断，以降低患者的痛苦和减少其经济支出；但单个分类器都有各自的缺点，所以一般使用集成学习把他们集成在一起，使集成学习模型具有各个基学习器的优点，弱化各个基学习器的缺点。但是现有的集成学习模型也有一些问题：

现有的集成学习方法使用的指标都是传统机器学习的指标，如准确率，精确率和召回率等，主要关注分类正确的对象，没有考虑乳腺癌这类疾病数据的特殊性，而将得病人群误判成未得病人群造成的代价与将未得病数据误判成得病数据代价是不同的，将得病人群误判成未得病人群造成的代价十分巨大，将会耽误患者的早期治疗，增加治疗成本和治愈难度，甚至会威胁到生命。另外，传统的集成学习方法直接认为所有的基学习器权重都是相同的，通过少数服从多数的原则进行投票得出结论。但实际上各个基学习器的性能不同，每一种方法在每个数据集上都有自己的优缺点，因此，传统的集成学习方法并不准确。

发明内容

本发明提供了一种代价敏感的集成学习分类方法及系统，以解决传统的集成学习分类方法分类结果不够准确，性能不够理想的技术问题。

为解决上述技术问题，本发明提供了如下技术方案：

一方面，本发明提供一种代价敏感的集成学习分类方法，该方法包括：

获取样本数据集，并将所述样本数据集分成训练样本集和测试样本集；

基于所述训练样本集对多个不同类型的分类器分别进行训练，并基于所述测试样本集对训练好的各分类器分别进行分类测试，得到各分类器的分类结果；

基于各分类器的分类结果为每一分类器分别分配对应的权重；

基于各分类器的权重，对各分类器进行加权集成，得到集成分类器；

利用所述集成分类器对待测样本进行分类，得到待测样本的分类结果。

其中，基于各分类器的分类结果为每一分类器分别分配对应的权重，包括：

基于各分类器的分类结果，分别统计得到每一分类器的召回率Recall、准确率Accuracy以及精确率Precision；

通过下列公式计算各分类器的评价指标C_cost：

其中，TP表示实际为正被预测为正的样本数量，TN表示实际为负被预测为负的样本的数量，FP表示实际为负但被预测为正的样本数量，FN表示实际为正但被预测为负的样本的数量，C_FN和C_FP均为预设的常数；

对各分类器对应的C_cost进行归一化处理作为每一分类器各自的权重。

其中，所述C_FN的取值为300，所述C_FP的取值为1。

其中，所述多个不同类型的分类器包括：支持向量机、神经网络、决策树和逻辑回归模型。

其中，利用所述集成分类器对待测样本进行分类，得到待测样本的分类结果，包括：

利用所述集成分类器对待测样本进行分类，并调低集成分类器的门限阈值，使得当集成分类器中有至少一个分类器的输出结果为正时，分类结果为正。

另一方面，本发明还提供一种代价敏感的集成学习分类系统，该系统包括：

样本数据集获取模块，用于获取样本数据集，并将所述样本数据集分成训练样本集和测试样本集；

分类器训练及测试模块，用于基于样本数据集获取模块得到的训练样本集对多个不同类型的分类器分别进行训练，并基于样本数据集获取模块得到的测试样本集对训练好的各分类器分别进行分类测试，得到各分类器的分类结果；

分类器权重分配及集成模块，用于基于所述分类器训练及测试模块得到的各分类器的分类结果为每一分类器分别分配对应的权重；并基于各分类器的权重，对各分类器进行加权集成，得到集成分类器；

分类模块，用于利用所述分类器权重分配及集成模块所得到的集成分类器对待测样本进行分类，得到待测样本的分类结果。

其中，所述分类器权重分配及集成模块具体用于：

通过下列公式计算各分类器的评价指标C_cost：

其中，所述C_FN的取值为300，所述C_FP的取值为1。

其中，所述分类模块具体用于：

再一方面，本发明还提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

又一方面，本发明还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现上述方法。

本发明提供的技术方案带来的有益效果至少包括：

本发明使用逻辑回归，决策树，神经网络，支持向量机作为分类模型的基学习器，使集成学习模型具有各个基学习器的优点，弱化各个基学习器的缺点。针对乳腺癌这类疾病数据的特殊性，更关注FN的数量，本发明还建立专门的评估体系C_cost指导权重分配，并通过调整集成学习的门限使所得的模型结果在一定条件下FN尽可能少，从而利用权重更好的发挥效果好的基学习器的作用。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的代价敏感的集成学习分类方法的流程示意图；

图2为本发明实施例提供的单分类器系统模型图；

图3为本发明实施例提供的集成分类器的系统模型图；

图4为SVM+MLP的集成分类器在不同门限下的C_cost折线图；

图5为SVM+DT的集成分类器在不同门限下的C_cost折线图；

图6为SVM+LR的集成分类器在不同门限下的C_cost折线图；

图7为MLP+DT的集成分类器在不同门限下的C_cost折线图；

图8为MLP+LR的集成分类器在不同门限下的C_cost折线图；

图9为DT+LR的集成分类器在不同门限下的C_cost折线图；

图10为SVM+MLP+DT的集成分类器在不同门限下的C_cost折线图；

图11为SVM+MLP+LR的集成分类器在不同门限下的C_cost折线图；

图12为SVM+DT+LR的集成分类器在不同门限下的C_cost折线图；

图13为MLP+DT+LR的集成分类器在不同门限下的C_cost折线图；

图14为SVM+MLP+DT+LR的集成分类器在不同门限下的C_cost折线图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

第一实施例

本实施例提供了一种代价敏感的集成学习分类方法，该代价敏感的集成学习分类方法可以由电子设备实现，该电子设备可以是终端或者服务器。该代价敏感的集成学习分类方法的执行流程如图1所示，包括以下步骤：

S101，获取样本数据集，并将样本数据集分成训练样本集和测试样本集；

S102，基于训练样本集对多个不同类型的分类器分别进行训练，并基于测试样本集对训练好的各分类器分别进行分类测试，得到各分类器的分类结果；

S103，基于各分类器的分类结果为每一分类器分别分配对应的权重；

S104，基于各分类器的权重，对各分类器进行加权集成，得到集成分类器；

S105，利用集成分类器对待测样本进行分类，得到待测样本的分类结果。

具体地，在本实施例中，基于各分类器的分类结果为每一分类器分别分配对应的权重，包括以下步骤：

1、基于各分类器的分类结果，分别统计得到每一分类器的召回率Recall、准确率Accuracy以及精确率Precision；

2、通过下列公式计算各分类器的评价指标C_cost：

其中，TP表示实际为正被预测为正的样本数量，TN表示实际为负被预测为负的样本的数量，FP表示实际为负但被预测为正的样本数量，FN表示实际为正但被预测为负的样本的数量，C_FN和C_FP为预设常数；C_cost用于评价分类器好坏，C_cost越大，表示分类器越好。本实施例的目标是得到更大的C_cost。

3、对各分类器对应的C_cost进行归一化处理作为每一分类器各自的权重。

进一步地，本实施例所集成的分类器包括：支持向量机、神经网络、决策树和逻辑回归模型。当然还可以包括其他分类器，对此，本实施例不作限定。

而且，在本实施例中，利用集成分类器对待测样本进行分类，得到待测样本的分类结果，还包括：调低集成分类器的门限阈值，使得当集成分类器中有至少一个分类器的输出结果为正时，则判定最终的分类结果为正。

下面，结合具体的应用实例对本实施例方法的实现原理进行进一步的说明。

本实施例以乳腺癌检测为例，假设用到的对乳腺癌有影响的特征数为m，使特征的集合为T＝{T₁,T₂,…,T_m}。假设有n_r个训练样本和n_e个测试样本，将训练样本集表示为

同理测试样本集表示为

总数据集Data＝Y^Train+Y^Test，每个样本都包含所有的特征值，即：

并且

显然，可以得到

令训练疾病状态集和测试疾病状态集分别为

和

可以根据样本的疾病状态判断样本是否患有乳腺癌，判断标准如下:

接下来开始利用训练集数据Y^Train，测试数据集Y^Test和疾病状态集S^Train进行训练。基于各分类器得到预测疾病状态集

设预测疾病状态集为

所以在每个分类器中，所得到的最终值就是

接下来再根据所得到的

与S^Test进行比较得到各个评价指标。

评价指标：建立一个混淆矩阵表示两类分类问题，如表1所示。假设正类样本表示乳腺癌患者，负类样本表示普通人，TP和TN分别表示被正确分类的患者与普通人数量，而FN和FP分别表示被误分类的两类样本数量。

表1二分类问题混淆矩阵

混淆矩阵中的P表示Positive，即正例或者阳性，N表示Negative，即负例或者阴性。表1中的FP表示实际为负但被预测为正的样本数量，TN表示实际为负被预测为负的样本的数量，TP表示实际为正被预测为正的样本数量，FN表示实际为正但被预测为负的样本的数量。另外，TP+FP＝P’表示所有被预测为正的样本数量，同理FN+TN为所有被预测为负的样本数量，TP+FN为实际为正的样本数量，FP+TN为实际为负的样本数量。

分类模型使用以下几种参数进行评估：

1、召回率：实际为正的样本中被预测为正的样本占实际为正的样本的比例。

2、准确率：分类正确的样本占总样本个数的比例。

其中，correct为被正确分类的样本个数，total为总样本个数。

结合上面的混淆矩阵，公式还可以这样写：

3、精确率：模型预测为正的样本中实际也为正的样本占被预测为正的样本的比例。

4、F₁-score：精确率和召回率的调和平均值。

其中，Precision体现了模型对负样本的区分能力，Precision越高，模型对负样本的区分能力越强；Recall体现了模型对正样本的识别能力，Recall越高，模型对正样本的识别能力越强。F₁是两者的综合，F₁越高，说明模型越稳健。

可以计算出各分类器的C_cost，单分类器系统模型图如图2所示。

输入数据Data^Train，Data^Test，S^Train，让单分类器进行学习，得到

通过S^Test和

得到该分类器的准确率Accuracy，精确率Precision，召回率Recall和F₁-score，由准确率Accuracy，精确率Precision，召回率Recall，结合上文记载的C_cost的计算公式，可以得到该分类器的C_cost。根据单分类器得到的每个C_cost，可以得到如图3所示的集成分类器的系统模型。

首先进行分类器的选择，选定分类器的组合形式后分别计算出选中的分类器各自的C_cost，对C_cost进行归一化处理作为每个基学习器各自的权重。其中，需要说明的是，由于将得病样本误判成未得病样本FN的成本会远大于将未得病样本误判成得病样本FP。因为将未得病样本误判成得病样本FP的代价是患者会花费一定的时间和金钱进行进一步的诊断，而将得病样本误判成未得病样本FN将会耽误患者的早期治疗，增加治疗成本和治愈难度，甚至会威胁到生命，所以本实施例更关注FN的数量。因此本实施例引入一个参数C，令C_FN＝300，C_FP＝1，C越大表示越重要。

本实施例将数据Data^Train，Data^Test，S^Train放进不同数量组合的集成学习分类器中，再对投票系统赋予不同的门限，得到

通过S^Test和

得到该集成分类器的准确率Accuracy，精确率Precision，召回率Recall和F₁-score，由准确率Accuracy，精确率Precision，召回率Recall可以得到该分类器的C_cost。本实施例主要使用支持向量机，神经网络，决策树和逻辑回归四种基分类器进行实验。

为了证明本实施例方法的有效性，本实施例使用了WDBC数据集进行验证。WDBC数据集来自UCI机器学习库，广泛被应用到诊断乳腺癌中。其实例数量是568，其中有357个健康样本和211个乳腺癌样本。实例中包括诊断类和属性，帮助预测的属性是30，各属性包括为radius半径(从中心到边缘上点的距离的平均值)，texture纹理(灰度值的标准偏差)等等，类包括:WDBC-Malignant恶性和WDBC-Benign良性。实验使用4折分层交叉验证，先将数据集打乱，然后再将打乱后的数据集均匀分成4份，轮流选择其中的3份作为训练集，剩下的一份作验证。每个数据在验证集中出现一次，并且在训练中出现3次，这将显著减少欠拟合，因为使用了数据集中的大多数的数据进行训练；同时也降低了过拟合的可能，因为也使用了大多数的数据进行模型的验证。最后本实施例将4次实验得到的

组合到一起进行后续的评估指标计算。

使用sklearn的neural_network.MLPClassifier，tree.DecisionTreeClassifier，linear_model.LogisticRegression,svm.svc算法进行实验。

逻辑回归算法当中，一般概率判定边界为0.5，这里本实施例通过把阈值设定低一些，来提高模型的"敏感度"，把阈值设定为0.3。本实施例使用L1正则化进行建模，对逻辑回归损失函数的优化方法本实施例使用开源的liblinear库实现，内部使用梯度下降法来迭代优化损失函数。

决策树算法参数方面，将splitter＝'best'选择最优的切分特征和切分点。通过遍历树的深度，筛选出树的最佳深度为3。

支持向量机，其关键是对核函数进行选择，本实施例选取rbf高斯核函数作为建模模型，通过反复实验发现目标函数的惩罚系数C＝1.5，g＝auto为最优。

多层感知机神经网络，本实施例建立的是最简单的MLP模型，只包含一层隐藏层，层中节点数与特征数相同，值为30。需要调的参数有隐藏层激活函数和权重优化算法选择。经过网格搜索，本实施例使用logistic作为隐藏层激活函数，adam作为权重优化算法，最大迭代次数为200时，建立的模型效果最好。

最后使用集成学习来解决乳腺癌分类问题。本实施例尝试了不同数量的分类器进行组合，包括两两组合，三三组合，四四组合。首先，本实施例用每个基学习器单独进行分类，得到每个基学习器的C_cost值。在组合时，本实施例根据使用的分类器的C_cost进行归一化处理，得到的结果作为该分类器的权重赋给分类器，同时对相同的集成分类器进行不同的门限设置，对比实验结果，实验证明降低门限，使用加权的集成分类器C_cost要比传统的投票集成分类器要好，集成分类器内基学习器多的C_cost要比少的好。

具体地，在表2中，本实施例计算了单独使用决策树模型，支持向量机模型，支持回归模型和神经网络模型进行的混淆矩阵，本实施例计算了准确率、精确率、召回率、F₁-score，C_cost用于比较算法的可行性。

表2 SVM算法,MLP算法,DT算法,LR算法对WDBC数据处理的混淆矩阵

在表3中，本实施例计算了由两种学习器组成的集成分类器在不同门限Threshold下对WDBC数据处理的混淆矩阵，每一方案都使用传统集成学习方法作为对照。计算了准确率、精确率、召回率、F₁-score，C_cost用于比较算法的可行性。并画出对应的集成分类器在不同门限下的C_cost折线图(图4至图9)。

表3由两种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵

在表4中，本实施例计算了由三种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵，每一种方案都使用传统的集成学习方法作为对照。根据每个基分类器的C_cost不同，在集成分类器中的权重也不完全相同，本实施例根据其权重选取有代表性的不同门限进行实验。本实施例同样计算了准确率、精确率、召回率、F₁-score，C_cost用于比较算法的可行性。并画出对应的集成分类器在不同门限下的C_cost折线图(图10至图13)。

表4由三种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵

在表5中，本实施例计算了由四种学习器组成的集成分类器在不同门限下对WDBC数据处理的混淆矩阵，每一种方案都使用传统的集成学习方法作为对照。根据每个基分类器的C_cost不同，在集成分类器中的权重也不完全相同，本实施例根据其权重选取有代表性的不同门限进行实验。本实施例同样计算了准确率、精确率、召回率、F₁-score，C_cost用于比较算法的可行性。并画出对应的集成分类器在不同门限下的C_cost折线图(图14)。

表5 SVM+MLP+DT+LR的集成分类器在不同门限下对WDBC数据处理的混淆矩阵

实验结果证明降低门限，使用加权的集成分类器C_cost要比传统的投票集成分类器要好，集成分类器内基学习器多的C_cost要比少的好。

综上，本实施例提出了一种代价敏感的集成学习分类方法。以乳腺癌数据为实验数据。主要使用逻辑回归(LR)，决策树(DT)，神经网络(MLP)，支持向量机(SVM)作为集成学习的基学习器，使集成学习模型具有各个基学习器的优点，弱化各个基学习器的缺点。同时针对乳腺癌这类疾病数据分类器提出了一种新的评估指标C_cost，根据C_cost对分类器进行评价，同时作为权重分配的依据，对集成模型的每个子模型进行权重分配；并考虑到分类代价不同，因此调低了门限阈值，当至少有一个分类器输出结果为得病，本实施例就判断结果为得病，从而降低了将得病数据判断为未得病数据的误诊率，得到了较高的召回率；可用于乳腺癌检测，并对辅助医生进行临床决策具有一定的参考价值。

第二实施例

本实施例提供了一种代价敏感的集成学习分类系统，该系统包括以下模块：

本实施例的代价敏感的集成学习分类系统与上述第一实施例的代价敏感的集成学习分类方法相对应；其中，本集成学习分类系统中的各功能模块所实现的功能与上述集成学习分类方法中的各流程步骤一一对应；故，在此不再赘述。

第三实施例

本实施例提供一种电子设备，其包括处理器和存储器；其中，存储器中存储有至少一条指令，所述指令由处理器加载并执行，以实现第一实施例的方法。

该电子设备可因配置或性能不同而产生较大差异，可以包括一个或一个以上处理器(central processing units，CPU)和一个或一个以上的存储器，其中，存储器中存储有至少一条指令，该指令由处理器加载并执行第一实施例的方法。

第四实施例

本实施例提供一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器加载并执行，以实现上述方法。其中，该计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备。其内存储的指令可由终端中的处理器加载并执行第一实施例的方法。

此外，需要说明的是，本发明可提供为方法、装置或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需要说明的是，以上所述是本发明优选实施方式，应当指出，尽管已描述了本发明优选实施例，但对于本技术领域的技术人员来说，一旦得知了本发明的基本创造性概念，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。