CN113569995A

CN113569995A - 一种基于集成学习的伤情多分类方法

Info

Publication number: CN113569995A
Application number: CN202111005230.3A
Authority: CN
Inventors: 徐肖攀; 卢虹冰; 刘洋; 郝晓硕; 刘健; 李俊杰
Original assignee: Fourth Military Medical University FMMU
Current assignee: Fourth Military Medical University FMMU
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2021-10-29

Abstract

本发明公开了一种利用基于集成学习的多分类技术来对伤情进行分类方法，包括：采集待处理伤员的生理数据，采用随机森林分类器、逻辑回归、朴素贝叶斯分类器和决策树分类器的集成学习策略构建基于DAG拆分策略的预测模型，将新伤员生理数据输入预测模型，输出伤情预测结果，在伤情计分规则的基础上，运用机器学习的方法，设计多分类模型，来代替人工打分的方式。首先，根据多分类器模型的特点进行设计模型，然后运用西京医院急诊数据进行模型训练，最后在进行模型测试。该方法充分发挥了集成分类器的特点，融合多种分类器的优点。通过测试表明，本模型设计具有良好的准确率，可以在大规模伤员救治时给予参考。

Description

一种基于集成学习的伤情多分类方法

技术领域

本发明涉及伤情自动分类技术领域，更具体的涉及一种基于集成学习的伤情多分类方法。

背景技术

在机器学习的有监督学习算法中，我们的目标是学习出一个稳定的且在各个方面表现都较好的模型，但实际情况往往不这么理想，有时我们只能得到多个有偏好的模型(弱监督模型，在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型，集成学习潜在的思想是即便某一个弱分类器得到了错误的预测，其他的弱分类器也可以将错误纠正回来。

集成方法是将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差、偏差或改进预测的效果。

发明内容

本发明实施例提供一种基于集成学习的伤情多分类方法，包括：

采集待处理伤员的生理数据；

采用随机森林分类器、逻辑回归分类器、朴素贝叶斯分类器和决策树分类器，通过简单投票法合并，构造基于DAG策略的多类别集成分类器预测模型；

利用基于DAG策略的多类别与集成分类器预测模型，对伤员的生理数据进行分类识别。

进一步，采集待处理伤员的生理数据包括：病人的体温、脉搏、呼吸频率、血压、神智。

进一步，还包括：对基于DAG拆分策略的多类别与集成分类器预测模型的训练：

选取样本分别作为阳性样本、阴性样本；

采用机器学习方法构建第一级分类器；

将该分类器预测的阳性样本与剩余其他类样本放在一起作为新阳性样本；

从剩余其他类样本中选择一类作为阴性样本；

采用机器学习方法构建第二级分类器；

将第一级分类器预测为阴性样本与剩余其他类样本放在一起，并将其继续作为阴性样本；

从剩余其他样本中选择一类作为阴性样本；

采用特定的机器学习方法构建第二级分类器；

重复以上操作，直到所有类别的样本都被预测，得到输出结果。

进一步，随机森林分类器、逻辑回归分类器、朴素贝叶斯分类器和决策树分类器各自设计6个二分类器。

本发明实施例提供一种基于集成学习的伤情多分类方法，与现有技术相比，其有益效果如下：

1、可充分利用多种二分类器的各自优势，采用投票决策原则，实现更准确的多类别伤情预测；

2、提出了四种基于集成学习与多类别分类策略的伤情预测模型，可横向比较不同模型的准确性差异，实现模型优选以提升预测准确性。

3、该伤情预测技术能够与可穿戴物联网伤员体征监测设备有机结合，实现伤员的连续监护与伤情的实时预测。

附图说明

图1为本发明实施例提供的一种基于集成学习的伤情多分类方法的流程图。

图2为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于OVO(OneVersus One)的多类别与集成分类器预测模型各类别ROC评估曲线图；

图3为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于OVA(OneVersusAll)的多类别与集成分类器预测模型各类别ROC评估曲线图；

图4为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于DAG(DirectedAcyclic Graph)的多类别与集成分类器预测模型各类别ROC评估曲线图；

图5为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于ECOC(Error Correcting Output Code)的多类别与集成分类器预测模型各类别ROC评估曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1～5，本发明实施例提供一种基于集成学习的伤情多分类方法，该方法包括：

采集待处理伤员的生理数据；

采用随机森林分类器、逻辑回归、朴素贝叶斯分类器和决策树分类器的集成学习策略构建基于DAG拆分策略的多类别与集成分类器预测模型；

将新伤员生理数据输入预测模型，输出伤情预测结果。

实施例1：

参见图2，本发明公开的基于OVO(One Versus One)的多类别与集成分类器预测模型评估曲线，包括下述步骤：

(1)根据分类标准选择设计多种分类器；

(2)将数据进行综合采样划分为测试集和训练集；

(3)对模型进行训练；

(4)进行模型测试，得出模型估计参数，并画出图一曲线；

上述方法中，步骤(1)所述采用的是随机森林多分类器、K近邻算法分类器、支持向量机分类器三种分类器，运用sklearn包进行设计处理，在不同分类器得出结果后运用投票的方式得出最终结果。

基于OVO策略的多分类预测的基本原理是在模型训练时，每次抽取训练集中一类样本作为阳性样本，其他样本中依次抽取其中一类作为阴性样本，采用特定的机器学习方法构建分类器。之后，排除刚才被作为阳性的样本，在剩余样本中任选一类作为阳性样本，其他样本中再依次抽取一类作为阴性样本，构建一个独立分类器。如果有k类样本，采用特定的机器学习方法将构建

个独立分类器。

基于OVO策略模型构建中，采用了集成学习的策略。集成学习与传统学习方法训练一个学习器不同，集成学习采用多个学习器并且结合它们来解决一个问题，可以集成多种分类器的优点，比学习器具有更好的泛化能力。最终预测结果则采用相对多数投票的方式进行决策。在本模型中共设计三种独立分类器——随机森林多分类器、K近邻算法分类器、支持向量机分类器

步骤(2)所述的数据采用的是西京医院急诊数据，由于数据不均衡，采用综合采样处理。

步骤(3)运用训练集训练数据。

步骤(4)运用测试集进行模型评估，计算出相关指标，画出曲线。

实施例2：

参照图3，本发明公开的基于OVA(OneVersusAll)的多类别与集成分类器预测模型评估曲线，包括下述步骤：

(1)根据分类标准选择设计多种分类器；

(2)将数据进行综合采样划分为测试集和训练集；

(3)对模型进行训练；

(4)进行模型测试，得出模型估计参数，并画出图2曲线；

基于OVA策略的多分类预测的基本原理是将多分类问题看成是若干个二分类问题，在模型训练时，每次抽取训练集中一个类别的样本作为阳性样本，其他样本作为阴性样本，采用某一个特定的机器学习方法构建一个独立分类器。有多少个待预测类别，就构建相应数目的独立分类器，最终得出的结果便是最终预测结果。

基于OVA策略模型构建中，同样采用了集成学习的策略。在本模型中共设计三种模型——随机森林分类器、K近邻算法、支持向量机分类器。

步骤(3)运用训练集训练数据。

实施例3：

参照图4，本发明公开的基于DAG(DirectedAcyclic Graph)的多类别与集成分类器预测模型评估曲线，包括下述步骤：

(1)根据分类标准选择设计多种分类器；

(2)将数据进行综合采样划分为测试集和训练集；

(3)对模型进行训练；

(4)进行模型测试，得出模型估计参数，并画出图3曲线；

上述方法中，步骤(1)所述采用的是随机森林分类器、逻辑回归、朴素贝叶斯分类器、决策树分类器这四种分类器。已知数据集类别为4，故构建4个节点即6个分类器，则这四种分类器各自设计6个二分类器。

基于DAG的多类别与集成分类器预测模型的基本原理是采用有向无环的概念解决多分类问题。在模型训练时，首先选取最容易区分的两类样本分别作为阳性、阴性样本，采用特定的机器学习方构建第一级分类器。将该分类器预测为阳性样本与剩余其他类样本放在一起，并将其继续作为阳性样本，从剩余其他样本中选择一类作为阴性样本，构建第二级分类器。同样的，将第一级分类器预测为阴性样本与剩余其他类样本放在一起，并将其继续作为阴性样本，从剩余其他样本中选择一类作为阴性样本，构建第二级分类器。这样，重复以上操作，直到所有类别的样本都被预测，并得到输出结果。

在基于DAG策略模型构建中，也采用了集成学习的策略。在DAG模型中设计了随机森林分类器、逻辑回归、朴素贝叶斯分类器、决策树分类器这四种分类器。根据DAG模型基本原理以及多分类任务可得，每种模型需要构建六个分类器，并且需要逐级决策。因此每种分类器设计四个节点即六个分类器，每种分类器设计一个函数，分别调用，最终在运用投票相对多数投票法进行最终决策。

步骤(3)运用训练集训练数据。

实施例4：

参照图5本发明公开的基于ECOC(Error Correcting Output Code)的多类别与集成分类器预测模型评估曲线，包括下述步骤：

(1)根据分类标准选择设计多种分类器，为每一类别赋予特定的编码；

(2)将数据进行综合采样划分为测试集和训练集；

(3)对模型进行训练；

(4)进行模型测试，得出模型估计参数，并画出图4曲线；

上述方法中，步骤(1)所述采用的是基于纠错输出码设计的多分类模型，并采用朴素贝叶斯分类器、随机森林分类器、K进邻算法、支持向量机分类器。运用sklearn包来设计。

基于ECOC的多类别与集成分类器预测模型构建原理是首先将训练集随机平均分为m个子训练集，分别对应m个分类器算法。然后，根据每个子集中对每类样本重新设定的类别编码重新划分类别标签，然后训练分类器。利用该策略，最终将构建出与分类器算法等同数目的独立分类器。

在本项目基于ECOC策略模型构建中，同样采用集成学习的策略。在ECOC模型构建中共设计了朴素贝叶斯分类器、随机森林分类器、K进邻算法、支持向量机分类器。根据ECOC模型基本原理以及多分类任务可知，每种类别class都会表示为二值0或1编码的形式，样本数据输入也会由分类器赋予一组二值编码，计算汉明距离得出最终预测结果。scikit-learn同样单独封装了实现该模型的函数，在每种分类器进行计算后进行多分类转换得到每种模型的预测值，最终由相对多数投票法投出最终预测结果。

步骤(3)运用训练集训练数据。

以上公开的仅为本发明的几个具体实施例，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims

1.一种基于集成学习的伤情多分类方法，其特征在于，包括：

采集待处理伤员的生理数据；

2.如权利要求1所述的一种基于集成学习的伤情多分类方法，其特征在于，所述采集待处理伤员的生理数据包括：病人的体温、脉搏、呼吸频率、血压、神智。

3.如权利要求1所述的一种基于集成学习的伤情多分类方法，其特征在于，还包括：对基于DAG拆分策略的多类别与集成分类器预测模型的训练：

选取样本分别作为阳性样本、阴性样本；

采用机器学习方法构建第一级分类器；

从剩余其他类样本中选择一类作为阴性样本；

采用机器学习方法构建第二级分类器；

从剩余其他样本中选择一类作为阴性样本；

采用特定的机器学习方法构建第二级分类器；

4.如权利要求1所述的一种基于集成学习的伤情多分类方法，其特征在于，所述随机森林分类器、所述逻辑回归分类器、所述朴素贝叶斯分类器和所述决策树分类器各自设计6个二分类器。