CN113569995A - 一种基于集成学习的伤情多分类方法 - Google Patents

一种基于集成学习的伤情多分类方法 Download PDF

Info

Publication number
CN113569995A
CN113569995A CN202111005230.3A CN202111005230A CN113569995A CN 113569995 A CN113569995 A CN 113569995A CN 202111005230 A CN202111005230 A CN 202111005230A CN 113569995 A CN113569995 A CN 113569995A
Authority
CN
China
Prior art keywords
classifier
model
samples
integrated
wounded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111005230.3A
Other languages
English (en)
Inventor
徐肖攀
卢虹冰
刘洋
郝晓硕
刘健
李俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Air Force Medical University of PLA
Original Assignee
Air Force Medical University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Air Force Medical University of PLA filed Critical Air Force Medical University of PLA
Priority to CN202111005230.3A priority Critical patent/CN113569995A/zh
Publication of CN113569995A publication Critical patent/CN113569995A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种利用基于集成学习的多分类技术来对伤情进行分类方法,包括:采集待处理伤员的生理数据,采用随机森林分类器、逻辑回归、朴素贝叶斯分类器和决策树分类器的集成学习策略构建基于DAG拆分策略的预测模型,将新伤员生理数据输入预测模型,输出伤情预测结果,在伤情计分规则的基础上,运用机器学习的方法,设计多分类模型,来代替人工打分的方式。首先,根据多分类器模型的特点进行设计模型,然后运用西京医院急诊数据进行模型训练,最后在进行模型测试。该方法充分发挥了集成分类器的特点,融合多种分类器的优点。通过测试表明,本模型设计具有良好的准确率,可以在大规模伤员救治时给予参考。

Description

一种基于集成学习的伤情多分类方法
技术领域
本发明涉及伤情自动分类技术领域,更具体的涉及一种基于集成学习的伤情多分类方法。
背景技术
在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督模型,集成学习潜在的思想是即便某一个弱分类器得到了错误的预测,其他的弱分类器也可以将错误纠正回来。
集成方法是将几种机器学习技术组合成一个预测模型的元算法,以达到减小方差、偏差或改进预测的效果。
发明内容
本发明实施例提供一种基于集成学习的伤情多分类方法,包括:
采集待处理伤员的生理数据;
采用随机森林分类器、逻辑回归分类器、朴素贝叶斯分类器和决策树分类器,通过简单投票法合并,构造基于DAG策略的多类别集成分类器预测模型;
利用基于DAG策略的多类别与集成分类器预测模型,对伤员的生理数据进行分类识别。
进一步,采集待处理伤员的生理数据包括:病人的体温、脉搏、呼吸频率、血压、神智。
进一步,还包括:对基于DAG拆分策略的多类别与集成分类器预测模型的训练:
选取样本分别作为阳性样本、阴性样本;
采用机器学习方法构建第一级分类器;
将该分类器预测的阳性样本与剩余其他类样本放在一起作为新阳性样本;
从剩余其他类样本中选择一类作为阴性样本;
采用机器学习方法构建第二级分类器;
将第一级分类器预测为阴性样本与剩余其他类样本放在一起,并将其继续作为阴性样本;
从剩余其他样本中选择一类作为阴性样本;
采用特定的机器学习方法构建第二级分类器;
重复以上操作,直到所有类别的样本都被预测,得到输出结果。
进一步,随机森林分类器、逻辑回归分类器、朴素贝叶斯分类器和决策树分类器各自设计6个二分类器。
本发明实施例提供一种基于集成学习的伤情多分类方法,与现有技术相比,其有益效果如下:
1、可充分利用多种二分类器的各自优势,采用投票决策原则,实现更准确的多类别伤情预测;
2、提出了四种基于集成学习与多类别分类策略的伤情预测模型,可横向比较不同模型的准确性差异,实现模型优选以提升预测准确性。
3、该伤情预测技术能够与可穿戴物联网伤员体征监测设备有机结合,实现伤员的连续监护与伤情的实时预测。
附图说明
图1为本发明实施例提供的一种基于集成学习的伤情多分类方法的流程图。
图2为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于OVO(OneVersus One)的多类别与集成分类器预测模型各类别ROC评估曲线图;
图3为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于OVA(OneVersusAll)的多类别与集成分类器预测模型各类别ROC评估曲线图;
图4为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于DAG(DirectedAcyclic Graph)的多类别与集成分类器预测模型各类别ROC评估曲线图;
图5为本发明实施例提供的一种基于集成学习的伤情多分类方法的基于ECOC(Error Correcting Output Code)的多类别与集成分类器预测模型各类别ROC评估曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1~5,本发明实施例提供一种基于集成学习的伤情多分类方法,该方法包括:
采集待处理伤员的生理数据;
采用随机森林分类器、逻辑回归、朴素贝叶斯分类器和决策树分类器的集成学习策略构建基于DAG拆分策略的多类别与集成分类器预测模型;
将新伤员生理数据输入预测模型,输出伤情预测结果。
实施例1:
参见图2,本发明公开的基于OVO(One Versus One)的多类别与集成分类器预测模型评估曲线,包括下述步骤:
(1)根据分类标准选择设计多种分类器;
(2)将数据进行综合采样划分为测试集和训练集;
(3)对模型进行训练;
(4)进行模型测试,得出模型估计参数,并画出图一曲线;
上述方法中,步骤(1)所述采用的是随机森林多分类器、K近邻算法分类器、支持向量机分类器三种分类器,运用sklearn包进行设计处理,在不同分类器得出结果后运用投票的方式得出最终结果。
基于OVO策略的多分类预测的基本原理是在模型训练时,每次抽取训练集中一类样本作为阳性样本,其他样本中依次抽取其中一类作为阴性样本,采用特定的机器学习方法构建分类器。之后,排除刚才被作为阳性的样本,在剩余样本中任选一类作为阳性样本,其他样本中再依次抽取一类作为阴性样本,构建一个独立分类器。如果有k类样本,采用特定的机器学习方法将构建
Figure BDA0003236863220000041
个独立分类器。
基于OVO策略模型构建中,采用了集成学习的策略。集成学习与传统学习方法训练一个学习器不同,集成学习采用多个学习器并且结合它们来解决一个问题,可以集成多种分类器的优点,比学习器具有更好的泛化能力。最终预测结果则采用相对多数投票的方式进行决策。在本模型中共设计三种独立分类器——随机森林多分类器、K近邻算法分类器、支持向量机分类器
步骤(2)所述的数据采用的是西京医院急诊数据,由于数据不均衡,采用综合采样处理。
步骤(3)运用训练集训练数据。
步骤(4)运用测试集进行模型评估,计算出相关指标,画出曲线。
实施例2:
参照图3,本发明公开的基于OVA(OneVersusAll)的多类别与集成分类器预测模型评估曲线,包括下述步骤:
(1)根据分类标准选择设计多种分类器;
(2)将数据进行综合采样划分为测试集和训练集;
(3)对模型进行训练;
(4)进行模型测试,得出模型估计参数,并画出图2曲线;
上述方法中,步骤(1)所述采用的是随机森林多分类器、K近邻算法分类器、支持向量机分类器三种分类器,运用sklearn包进行设计处理,在不同分类器得出结果后运用投票的方式得出最终结果。
基于OVA策略的多分类预测的基本原理是将多分类问题看成是若干个二分类问题,在模型训练时,每次抽取训练集中一个类别的样本作为阳性样本,其他样本作为阴性样本,采用某一个特定的机器学习方法构建一个独立分类器。有多少个待预测类别,就构建相应数目的独立分类器,最终得出的结果便是最终预测结果。
基于OVA策略模型构建中,同样采用了集成学习的策略。在本模型中共设计三种模型——随机森林分类器、K近邻算法、支持向量机分类器。
步骤(2)所述的数据采用的是西京医院急诊数据,由于数据不均衡,采用综合采样处理。
步骤(3)运用训练集训练数据。
步骤(4)运用测试集进行模型评估,计算出相关指标,画出曲线。
实施例3:
参照图4,本发明公开的基于DAG(DirectedAcyclic Graph)的多类别与集成分类器预测模型评估曲线,包括下述步骤:
(1)根据分类标准选择设计多种分类器;
(2)将数据进行综合采样划分为测试集和训练集;
(3)对模型进行训练;
(4)进行模型测试,得出模型估计参数,并画出图3曲线;
上述方法中,步骤(1)所述采用的是随机森林分类器、逻辑回归、朴素贝叶斯分类器、决策树分类器这四种分类器。已知数据集类别为4,故构建4个节点即6个分类器,则这四种分类器各自设计6个二分类器。
基于DAG的多类别与集成分类器预测模型的基本原理是采用有向无环的概念解决多分类问题。在模型训练时,首先选取最容易区分的两类样本分别作为阳性、阴性样本,采用特定的机器学习方构建第一级分类器。将该分类器预测为阳性样本与剩余其他类样本放在一起,并将其继续作为阳性样本,从剩余其他样本中选择一类作为阴性样本,构建第二级分类器。同样的,将第一级分类器预测为阴性样本与剩余其他类样本放在一起,并将其继续作为阴性样本,从剩余其他样本中选择一类作为阴性样本,构建第二级分类器。这样,重复以上操作,直到所有类别的样本都被预测,并得到输出结果。
在基于DAG策略模型构建中,也采用了集成学习的策略。在DAG模型中设计了随机森林分类器、逻辑回归、朴素贝叶斯分类器、决策树分类器这四种分类器。根据DAG模型基本原理以及多分类任务可得,每种模型需要构建六个分类器,并且需要逐级决策。因此每种分类器设计四个节点即六个分类器,每种分类器设计一个函数,分别调用,最终在运用投票相对多数投票法进行最终决策。
步骤(2)所述的数据采用的是西京医院急诊数据,由于数据不均衡,采用综合采样处理。
步骤(3)运用训练集训练数据。
步骤(4)运用测试集进行模型评估,计算出相关指标,画出曲线。
实施例4:
参照图5本发明公开的基于ECOC(Error Correcting Output Code)的多类别与集成分类器预测模型评估曲线,包括下述步骤:
(1)根据分类标准选择设计多种分类器,为每一类别赋予特定的编码;
(2)将数据进行综合采样划分为测试集和训练集;
(3)对模型进行训练;
(4)进行模型测试,得出模型估计参数,并画出图4曲线;
上述方法中,步骤(1)所述采用的是基于纠错输出码设计的多分类模型,并采用朴素贝叶斯分类器、随机森林分类器、K进邻算法、支持向量机分类器。运用sklearn包来设计。
基于ECOC的多类别与集成分类器预测模型构建原理是首先将训练集随机平均分为m个子训练集,分别对应m个分类器算法。然后,根据每个子集中对每类样本重新设定的类别编码重新划分类别标签,然后训练分类器。利用该策略,最终将构建出与分类器算法等同数目的独立分类器。
在本项目基于ECOC策略模型构建中,同样采用集成学习的策略。在ECOC模型构建中共设计了朴素贝叶斯分类器、随机森林分类器、K进邻算法、支持向量机分类器。根据ECOC模型基本原理以及多分类任务可知,每种类别class都会表示为二值0或1编码的形式,样本数据输入也会由分类器赋予一组二值编码,计算汉明距离得出最终预测结果。scikit-learn同样单独封装了实现该模型的函数,在每种分类器进行计算后进行多分类转换得到每种模型的预测值,最终由相对多数投票法投出最终预测结果。
步骤(2)所述的数据采用的是西京医院急诊数据,由于数据不均衡,采用综合采样处理。
步骤(3)运用训练集训练数据。
步骤(4)运用测试集进行模型评估,计算出相关指标,画出曲线。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims (4)

1.一种基于集成学习的伤情多分类方法,其特征在于,包括:
采集待处理伤员的生理数据;
采用随机森林分类器、逻辑回归分类器、朴素贝叶斯分类器和决策树分类器,通过简单投票法合并,构造基于DAG策略的多类别集成分类器预测模型;
利用基于DAG策略的多类别与集成分类器预测模型,对伤员的生理数据进行分类识别。
2.如权利要求1所述的一种基于集成学习的伤情多分类方法,其特征在于,所述采集待处理伤员的生理数据包括:病人的体温、脉搏、呼吸频率、血压、神智。
3.如权利要求1所述的一种基于集成学习的伤情多分类方法,其特征在于,还包括:对基于DAG拆分策略的多类别与集成分类器预测模型的训练:
选取样本分别作为阳性样本、阴性样本;
采用机器学习方法构建第一级分类器;
将该分类器预测的阳性样本与剩余其他类样本放在一起作为新阳性样本;
从剩余其他类样本中选择一类作为阴性样本;
采用机器学习方法构建第二级分类器;
将第一级分类器预测为阴性样本与剩余其他类样本放在一起,并将其继续作为阴性样本;
从剩余其他样本中选择一类作为阴性样本;
采用特定的机器学习方法构建第二级分类器;
重复以上操作,直到所有类别的样本都被预测,得到输出结果。
4.如权利要求1所述的一种基于集成学习的伤情多分类方法,其特征在于,所述随机森林分类器、所述逻辑回归分类器、所述朴素贝叶斯分类器和所述决策树分类器各自设计6个二分类器。
CN202111005230.3A 2021-08-30 2021-08-30 一种基于集成学习的伤情多分类方法 Pending CN113569995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005230.3A CN113569995A (zh) 2021-08-30 2021-08-30 一种基于集成学习的伤情多分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005230.3A CN113569995A (zh) 2021-08-30 2021-08-30 一种基于集成学习的伤情多分类方法

Publications (1)

Publication Number Publication Date
CN113569995A true CN113569995A (zh) 2021-10-29

Family

ID=78173139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005230.3A Pending CN113569995A (zh) 2021-08-30 2021-08-30 一种基于集成学习的伤情多分类方法

Country Status (1)

Country Link
CN (1) CN113569995A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751182A (zh) * 2015-04-02 2015-07-01 中国人民解放军空军工程大学 基于ddag的svm多类分类主动学习算法
CN111000553A (zh) * 2019-12-30 2020-04-14 山东省计算中心(国家超级计算济南中心) 一种基于投票集成学习的心电数据智能分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751182A (zh) * 2015-04-02 2015-07-01 中国人民解放军空军工程大学 基于ddag的svm多类分类主动学习算法
CN111000553A (zh) * 2019-12-30 2020-04-14 山东省计算中心(国家超级计算济南中心) 一种基于投票集成学习的心电数据智能分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JOHN C. PLATT: "Large margin DAGs for multiclass classification", 《NIPS\'99: PROCEEDINGS OF THE 12TH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》, pages 547 - 553 *
侯小丽: "基于支持向量机的多目标分类和识别", 《火力与指挥控制》, pages 189 - 192 *
单丹丹: "基于多分类器集成的"北京一号"小卫星遥感影像分类研究", 《遥感信息》, pages 69 - 78 *
王丹: "智能检伤分类系统的设计与研究", 《军事医学》, pages 651 - 655 *

Similar Documents

Publication Publication Date Title
Paul et al. Genetic algorithm based fuzzy decision support system for the diagnosis of heart disease
Norgaard et al. Synthetic sensor data generation for health applications: A supervised deep learning approach
Pradhan et al. Diabetes mellitus prediction and classifier comparitive study
US20220392636A1 (en) Electronic device and method of training classification model for age-related macular degeneration
Pradhan Cardiovascular disease prediction using various machine learning algorithms
Ali et al. Spike2signal: Classifying coronavirus spike sequences with deep learning
Chandra et al. Application of machine learning k-nearest neighbour algorithm to predict diabetes
Alotaibi et al. Stroke in-patients' transfer to the ICU using ensemble based model
Adeli et al. New hybrid hepatitis diagnosis system based on genetic algorithm and adaptive network fuzzy inference system
CN113345581A (zh) 一种基于集成学习的脑卒中溶栓后出血概率预测方法
Soni Detection of heart disease using machine learning techniques
CN113569995A (zh) 一种基于集成学习的伤情多分类方法
Rollins et al. Discrete conditional phase-type model utilising a multiclass support vector machine for the prediction of retinopathy of prematurity
Alotaibi et al. Tree-based ensemble models for predicting the ICU transfer of stroke in-patients
Jader et al. An Intelligent Gestational Diabetes Mellitus Recognition System Using Machine Learning Algorithms
El-Shafiey et al. Heart-Disease Prediction Method Using Random Forest and Genetic Algorithms
EP4099279A1 (en) Electronic device and method of training classification model for age-related macular degeneration
Ganachari et al. Stroke Disease Prediction Using Adaboost Ensemble Learning Technique
Masruriyah et al. Thorough Evaluation of the Effectiveness of SMOTE and ADASYN Oversampling Methods in Enhancing Supervised Learning Performance for Imbalanced Heart Disease Datasets
Ganachari et al. Stroke Disease Prediction Using Adaboost Ensemble Learning Technique Check for updates
Mehta et al. A Survey on Diabetes Prediction using Supervised Learning
García-Jiménez et al. Automatic definition of robust microbiome sub-states in longitudinal data
Dwinnie et al. Application of the Supervised Learning Algorithm for Classification of Pregnancy Risk Levels
Kaur et al. Extrapolation of the autism spectrum disorder with several machine learning algorithm in children
Rathore et al. Detection of Parkinson's Disease Using Machine Learning: A Case Study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211029