CN109300545B - 一种基于rf的地中海贫血病的风险预警方法 - Google Patents

一种基于rf的地中海贫血病的风险预警方法 Download PDF

Info

Publication number
CN109300545B
CN109300545B CN201810985835.5A CN201810985835A CN109300545B CN 109300545 B CN109300545 B CN 109300545B CN 201810985835 A CN201810985835 A CN 201810985835A CN 109300545 B CN109300545 B CN 109300545B
Authority
CN
China
Prior art keywords
data
thalassemia
sample
data set
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810985835.5A
Other languages
English (en)
Other versions
CN109300545A (zh
Inventor
宋耀莲
刘艳菲
王慧东
徐文林
武双新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810985835.5A priority Critical patent/CN109300545B/zh
Publication of CN109300545A publication Critical patent/CN109300545A/zh
Application granted granted Critical
Publication of CN109300545B publication Critical patent/CN109300545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu

Abstract

本发明涉及一种基于RF的地中海贫血病的风险预警方法,属于数据挖掘预测技术领域。先建立一个电子台账数据记录的数据库,将受检者的血样编号作为标识符ID,对应检验记录作为一个样例T,所有样例的集合;对样例数据集进行数据预处理,得到算法适用数据集DataSet;对DataSet进行Boostrap重采样,随机生成训练样本Traindata,并采用CART算法的基尼指数方法选择特征,构建随机森林算法RF模型;然后,将每棵决策树DT的分类结果进行投票,投票众数作为风险评估结果;最后,将袋外数据Oob_dataset作为模型输入,输出预警结果,作为临床诊断参考。本发明提供了RF算法对地中海贫血病的风险进行预警,提高地贫患儿临床诊断的准确性与高效性,能有效避免地贫患儿出生,并起到降低医疗资源浪费的作用。

Description

一种基于RF的地中海贫血病的风险预警方法
技术领域
本发明涉及一种基于RF的地中海贫血病的风险预警方法,属于数据挖掘预测技术领域。
背景技术
地中海贫血病(Thalassemia Disease,TD)是一种海洋性、珠蛋白基因缺陷且隐性遗传的病,多发于地中海沿岸,在我国云南(10%)、广东等地高发。其中重型的地贫患儿有立即夭折或者六岁前夭折的危险,这对患儿家庭造成了沉重打击。
基于随机森林算法的预警方法可以辅助诊断,有助于降低误诊率、节省医学资源等,进一步指导其后续的诊断及治疗过程。目前,已有骨髓干细胞移植案例,但治后效果欠佳。另外,在地中海贫血的研究方面基本停留在数据的累积分析上,在地中海贫血预警方面的研究更是欠缺。RF算法基于以上的组成加快整个挖掘预警过程。而且算法已经被广泛的应用到商业、网络安全等各个领域,但还没有应用到地中海贫血领域。
发明内容
本发明要解决的技术问题是提供一种基于RF的地中海贫血病的风险预警方法,将RF算法应用到对地中海贫血病的风险预警上,起到降低医疗资源浪费的作用,提高临床诊断的准确性与高效性。
本发明的技术方案是:一种基于RF的地中海贫血病的风险预警方法,将受检者的血样编号作为标识符ID,对应检验记录作为一个样例T,所有样例的集合;对样例数据集进行数据预处理,得到算法适用数据集DataSet;对DataSet进行Boostrap重采样,随机生成训练样本Traindata,并采用信息增益方法选择特征,构建随机森林算法RF模型;然后,将每棵决策树DT的分类结果进行投票,投票众数作为风险评估结果;最后,将袋外数据Oob_dataset作为模型输入,输出预警结果,作为临床诊断参考。
包括如下步骤:
Step1、建立数据库。根据电子台账数据,建立一个受检者记录的数据库,将受检者血样编号作为标识符ID,对应检验记录作为一条样例S,每个样例S包含地中海贫血病受检者的血液及电泳检查结果,对应列为受检属性值集合TZset;
Step2、数据预处理。对数据库中的样例数据集进行清洗、挖掘及填充后得到建模数据集DataSet,该数据集包含N条样例,M个特征;
Step3、构建模型。首先对数据集DataSet采用Boostrap重采样的方法采样,每次随机采样N个样本作为单棵决策树的训练数据集TrainData,剩余样例组成袋外数据Oob_dataset;在每个节点,算法首先随机选取m(m<<M)个变量,从中找出能够提供最佳分割效果的预警属性;算法在不剪枝的情况下生成单棵决策树,重复该步骤生成多棵CART决策树ntree,构建随机森林RF;
Step4、风险评估。将每棵决策树得到的分类结果进行投票,算法取类别预测众数作为最终分类表,并得出对地中海贫血病影响较大的因子,并输出因子重要性排序;
Step5、模型预警。对RF预警模型进行袋外数据Oob_dataset预测,得到一个地中海贫血病的混淆矩阵Conf_Matrix,并根据该混淆矩阵Conf_Matrix计算模型性能。
具体地,所述步骤Step1中,受检者记录数据库中每条信息包含受检者血常规及电泳检验结果字段,受检者血样编号作为标识符ID,对应血常规及电泳检验集合的编号作为属性集TZset,检验中的每一个属性作为一个项。
具体地,所述步骤Step2中,数据预处理包括电子台帐数据采集、数据挖掘及特征选择。所述数据挖掘是将获得的数据库数据经过数据清洗、数据转换以及贝叶斯算法初步填充等,得到最终的建模数据集DataSet,数据集包含N条样例,M个特征。
具体地,所述步骤Step3中,通过随机选择样本,保证每次学习的决策树使用不同的训练集。
具体地,所述步骤Step3中,地贫属性分割度量采用CART算法的基尼指数方法,其计算公式如(1)所示;特征属性的优先选择公式如(2)所示:
Figure BDA0001779683590000021
Figure BDA0001779683590000022
其中,T为样本数据集,Pj为类别j在样本T中出现的频率;Nj为样本T中类别j出现的个数;S为样本数据集中样本个数;T1,T2为特征属性;S1,S2为不同划分方式。
本发明的有益效果是:提供了RF算法对地中海贫血病的风险进行预警,提高地贫患儿临床诊断的准确性与高效性,能有效避免地贫患儿出生,并起到降低医疗资源浪费的作用。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于RF的地中海贫血病的风险预警方法,将受检者的血样编号作为标识符ID,对应检验记录作为一个样例T,所有样例的集合;对样例数据集进行数据预处理,得到算法适用数据集DataSet;对DataSet进行Boostrap重采样,随机生成训练样本Traindata,并采用信息增益方法选择特征,构建随机森林算法RF模型;然后,将每棵决策树DT的分类结果进行投票,投票众数作为风险评估结果;最后,将袋外数据Oob_dataset作为模型输入,输出预警结果,作为临床诊断参考。
包括如下步骤:
Step1、建立数据库。根据电子台账数据,建立一个受检者记录的数据库,将受检者血样编号作为标识符ID,对应检验记录作为一条样例S,每个样例S包含地中海贫血病受检者的血液及电泳检查结果,对应列为受检属性值集合TZset;
Step2、数据预处理。对数据库中的样例数据集进行清洗、挖掘及填充后得到建模数据集DataSet,该数据集包含N条样例,M个特征;
Step3、构建模型。首先对数据集DataSet采用Boostrap重采样的方法采样,每次随机采样N个样本作为单棵决策树的训练数据集TrainData,剩余样例组成袋外数据Oob_dataset;在每个节点,算法首先随机选取m(m<<M)个变量,从中找出能够提供最佳分割效果的预警属性;算法在不剪枝的情况下生成单棵决策树,重复该步骤生成多棵CART决策树ntree,构建随机森林RF;
Step4、风险评估。将每棵决策树得到的分类结果进行投票,算法取类别预测众数作为最终分类表,并得出对地中海贫血病影响较大的因子,并输出因子重要性排序;
Step5、模型预警。对RF预警模型进行袋外数据Oob_dataset预测,得到一个地中海贫血病的混淆矩阵Conf_Matrix,并根据该混淆矩阵Conf_Matrix计算模型性能。
具体地,所述步骤Step1中,受检者记录数据库中每条信息包含受检者血常规及电泳检验结果字段,受检者血样编号作为标识符ID,对应血常规及电泳检验集合的编号作为属性集TZset,检验中的每一个属性作为一个项。
具体地,所述步骤Step2中,数据预处理包括电子台帐数据采集、数据挖掘及特征选择。所述数据挖掘是将获得的数据库数据经过数据清洗、数据转换以及贝叶斯算法初步填充等,得到最终的建模数据集DataSet,数据集包含N条样例,M个特征。
具体地,所述步骤Step3中,通过随机选择样本,保证每次学习的决策树使用不同的训练集。
具体地,所述步骤Step3中,地贫属性分割度量采用CART算法的基尼指数方法,其计算公式如(1)所示;特征属性的优先选择公式如(2)所示:
Figure BDA0001779683590000041
Figure BDA0001779683590000042
其中,T为样本数据集,Pj为类别j在样本T中出现的频率;Nj为样本T中类别j出现的个数;S为样本数据集中样本个数;T1,T2为特征属性;S1,S2为不同划分方式。
实施例1:如图1所示,一种基于RF的地中海贫血病的风险预警方法,所述方法的具体步骤如下:
Step1、建立数据库。根据电子台账数据,建立一个受检者记录的数据库,将受检者血样编号作为标识符ID,对应检验记录作为一条样例S,每个样例S包含地中海贫血病受检者的血液及电泳检查结果,对应列为受检属性值集合TZset;具体地:
为方便阐述本发明,假设本发明中对地中海贫血病预警的综合属性中部分属性集合如下表1所示:
Figure BDA0001779683590000043
Step2、数据预处理。对数据库中的样例数据集进行清洗、挖掘及填充后得到建模数据集DataSet,该数据集包含N条样例,M个特征;具体地:该数据集包含1300条样例,7个特征,具体特征如表1所示。
Step3、构建模型。首先对数据集DataSet采用Boostrap重采样的方法采样,每次随机采样N个样本作为单棵决策树的训练数据集TrainData,剩余样例组成袋外数据Oob_dataset;在每个节点,算法首先随机选取m(m<<M)个变量,从中找出能够提供最佳分割效果的预警属性;算法在不剪枝的情况下生成单棵决策树,重复该步骤生成多棵CART决策树ntree,构建随机森林RF;具体地:随机重采样生成样本集样例数为910条,袋外数据样例为390条。
Step4、通过随机选择样本,保证每次学习的决策树使用不同的训练集。
Step5、所述步骤Step3中,地贫属性分割度量采用CART算法的基尼指数方法,其计算公式如(1)所示;特征属性的优先选择公式如(2)所示:
Figure BDA0001779683590000051
Figure BDA0001779683590000052
其中,T为样本数据集,Pj为类别j在样本T中出现的频率;Nj为样本T中类别j出现的个数;S为样本数据集中样本个数;T1,T2为特征属性;S1,S2为不同划分方式;具体地:
本案例数据集包含910条样例,袋外数据包括390条样例,则得到的模型参数及结果如下表2所示:
Figure BDA0001779683590000053
390条袋外数据的预警结果指标计算如下表3所示:
Figure BDA0001779683590000054
特异度和灵敏度如下表4所示:
Figure BDA0001779683590000061
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于RF的地中海贫血病的风险预警方法,其特征在于:包括如下步骤:
Step1、建立数据库:根据电子台账数据,建立一个受检者记录的数据库,将受检者血样编号作为标识符ID,对应检验记录作为一条样例S,每个样例S包含地中海贫血病受检者的血液及电泳检查结果,对应列为受检属性值集合TZset;
Step2、数据预处理:对数据库中的样例数据集进行清洗、挖掘及填充后得到建模数据集DataSet,该数据集包含N条样例,M个特征;
Step3、构建模型:首先对数据集DataSet采用Boostrap重采样的方法采样,每次随机采样N个样本作为单棵决策树的训练数据集TrainData,剩余样例组成袋外数据Oob_dataset;在每个节点,算法首先随机选取m(m<<M)个变量,从中找出能够提供最佳分割效果的预警属性;算法在不剪枝的情况下生成单棵决策树,进而生成多棵CART决策树ntree,构建随机森林RF;
Step4、风险评估:将每棵决策树得到的分类结果进行投票,算法取类别预测众数作为最终分类表,并得出对地中海贫血病影响较大的因子,且输出因子重要性排序;
Step5、模型预警:对RF预警模型进行袋外数据Oob_dataset预测,得到一个地中海贫血病的混淆矩阵Conf_Matrix,并根据该混淆矩阵Conf_Matrix计算模型性能。
2.根据权利要求1所述的基于RF的地中海贫血病的风险预警方法,其特征在于:所述步骤Step1中,受检者记录数据库中每条信息包含受检者血常规及电泳检验结果字段,受检者血样编号作为标识符ID,对应血常规及电泳检验集合的编号作为属性集TZset,检验中的每一个属性作为一个项。
3.根据权利要求1所述的基于RF的地中海贫血病的风险预警方法,其特征在于:所述步骤Step2中,数据预处理包括电子台帐数据采集、数据挖掘及特征选择;所述数据挖掘是将获得的数据库数据经过数据清洗、数据转换以及贝叶斯算法初步填充,得到最终的建模数据集DataSet,数据集包含N条样例,M个特征。
4.根据权利要求1所述的基于RF的地中海贫血病的风险预警方法,其特征在于:所述步骤Step3中,通过随机选择样本,保证每次学习的决策树使用不同的训练集。
5.根据权利要求1所述的基于RF的地中海贫血病的风险预警方法,其特征在于:
所述步骤Step3中,地贫属性分割度量采用CART算法的基尼指数方法,其计算公式如(1)所示;特征属性的优先选择公式如(2)所示:
Figure FDA0003010129790000021
Figure FDA0003010129790000022
其中,T为样本数据集,pj为类别j在样本T中出现的频率;nj为样本T中类别j出现的个数;s为样本数据集中样本个数;T1,T2为特征属性;s1、s2为不同划分方式。
CN201810985835.5A 2018-08-28 2018-08-28 一种基于rf的地中海贫血病的风险预警方法 Active CN109300545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810985835.5A CN109300545B (zh) 2018-08-28 2018-08-28 一种基于rf的地中海贫血病的风险预警方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810985835.5A CN109300545B (zh) 2018-08-28 2018-08-28 一种基于rf的地中海贫血病的风险预警方法

Publications (2)

Publication Number Publication Date
CN109300545A CN109300545A (zh) 2019-02-01
CN109300545B true CN109300545B (zh) 2021-06-18

Family

ID=65165602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810985835.5A Active CN109300545B (zh) 2018-08-28 2018-08-28 一种基于rf的地中海贫血病的风险预警方法

Country Status (1)

Country Link
CN (1) CN109300545B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612624A (zh) * 2020-05-28 2020-09-01 深圳博普科技有限公司 一种数据特征重要性的分析方法及系统
CN111710423A (zh) * 2020-06-17 2020-09-25 上海市精神卫生中心(上海市心理咨询培训中心) 基于回归模型测定心境障碍发病风险概率的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102858985A (zh) * 2009-07-24 2013-01-02 西格马-奥尔德里奇有限责任公司 基因组编辑方法
BR112013025492A2 (pt) * 2011-04-06 2019-09-24 Koninklijke Philips Nv molécula de ácido nucleico isolado selecionado do grupo, ácido nucleico, ácido nucleico isolado ou grupo de ácidos nucleicos, método para detectar ou diagnosticar talassemia beta, preferencialmente talassemia beta menor e uso de uma molécula de ácido nucleico
WO2013170147A1 (en) * 2012-05-11 2013-11-14 Yale University Compounds useful for promoting protein degradation and methods using same
WO2018129413A1 (en) * 2017-01-08 2018-07-12 The Henry M. Jackson Foundation For The Advancement Of Military Medicine, Inc. Systems and methods for using supervised learning to predict subject-specific bacteremia outcomes
CN107563425A (zh) * 2017-08-24 2018-01-09 长安大学 一种基于随机森林的隧道运营状态感知模型的建立方法
CN108062977A (zh) * 2017-12-18 2018-05-22 广东祥岳生物技术有限公司 一种新生儿地中海贫血筛查结果自动判断系统
CN108376564A (zh) * 2018-02-06 2018-08-07 天津艾登科技有限公司 基于随机森林算法的疾病诊断并发症识别方法及系统

Also Published As

Publication number Publication date
CN109300545A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109350032B (zh) 一种分类方法、系统、电子设备及存储介质
Peter et al. An empirical study on prediction of heart disease using classification data mining techniques
US20220254493A1 (en) Chronic disease prediction system based on multi-task learning model
Guo et al. Using bayes network for prediction of type-2 diabetes
EP3306500A1 (en) Method for analysing medical treatment data based on deep learning, and intelligent analyser thereof
Karthiga et al. Early prediction of heart disease using decision tree algorithm
CN107582037A (zh) 基于脉搏波设计医疗产品的方法
CN112951413B (zh) 一种基于决策树和改进smote算法的哮喘病诊断系统
CN108492877B (zh) 一种基于ds证据理论的心血管病辅助预测方法
CN107169284A (zh) 一种生物医学关键属性选择方法
CN107595249B (zh) 基于脉搏波的怀孕女性筛查方法
CN108511056A (zh) 基于脑卒中患者相似性分析的治疗方案推荐方法及系统
CN111243736A (zh) 一种生存风险评估方法及系统
Zhao et al. Early prediction of sepsis based on machine learning algorithm
CN109300545B (zh) 一种基于rf的地中海贫血病的风险预警方法
CN107610771A (zh) 一种基于决策树的医学检测指标筛选方法
Pal et al. Data mining approach for coronary artery disease screening
Muslim et al. Application of the pessimistic pruning to increase the accuracy of C4. 5 algorithm in diagnosing chronic kidney disease
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
Li et al. Research on massive ECG data in XGBoost
CN109346182B (zh) 一种基于cs-rf的地中海贫血病的风险预警方法
Wang et al. A classification and prediction hybrid model construction with the IQPSO-SVM algorithm for atrial fibrillation arrhythmia
Donisi et al. Bidimensional and tridimensional Poincaré maps in cardiology: a multiclass machine learning study
CN113855038B (zh) 基于多模型集成的心电信号危急值的预测方法及装置
CN115221926A (zh) 基于cnn-gru网络模型的心拍信号分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant