CN112185555A - 基于stacking算法的妊娠糖尿病预测方法 - Google Patents

基于stacking算法的妊娠糖尿病预测方法 Download PDF

Info

Publication number
CN112185555A
CN112185555A CN202010947618.4A CN202010947618A CN112185555A CN 112185555 A CN112185555 A CN 112185555A CN 202010947618 A CN202010947618 A CN 202010947618A CN 112185555 A CN112185555 A CN 112185555A
Authority
CN
China
Prior art keywords
model
prediction
gestational diabetes
fusion
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010947618.4A
Other languages
English (en)
Inventor
高玛娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010947618.4A priority Critical patent/CN112185555A/zh
Publication of CN112185555A publication Critical patent/CN112185555A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了基于stacking算法的妊娠糖尿病预测方法,涉及妊娠糖尿病预测技术领域,具体为基于stacking算法的妊娠糖尿病预测方法,包括以下步骤:S1、患病数据收集;S2、数据处理;S3、特征分析与特征构造;S4、构造最优子集;S5、单集成预测模型构建;S6、模型融合;S7、融合模型与单模型预测性能分析与对比。该基于stacking算法的妊娠糖尿病预测方法基于集成学习建立一个有效的妊娠糖尿病预测糖尿病患病风险的模型,帮助医护人员预测处于妊娠糖尿病的患者,及时并准确的对高危人群采取针对性的措施,这将有助于妊娠期糖尿病的辅助诊断和预防,为智能诊断和减少不良妊娠作出贡献。

Description

基于stacking算法的妊娠糖尿病预测方法
技术领域
本发明涉及妊娠糖尿病预测技术领域,具体为基于stacking算法的妊娠糖尿病预测方法。
背景技术
妊娠期糖尿病是导致二型糖尿病及其综合症蔓延全球的重要原因之一,根据研究表明,截止2019年我国患有妊娠期糖尿病的人数排名世界第二。妊娠期糖尿病(GDM)指的是孕妇在妊娠期表现的糖代谢异常,此类型的糖尿病是由于妊娠导致的暂时性病症,会影响到孕妇和胎儿的人身安全。妊娠期糖尿病患者容易患有高血压,原因是人体内的胰岛素分泌不足,血糖含量过高,从而影响到血管的弹性。除此之外,高浓度的血糖会促进孕妇分泌的羊水增加,并刺激到子宫内膜,容易使胎儿早产和窒息。高血糖还会影响到免疫系统,影响白细胞的吞噬能力,导致免疫能力下降,进而发生胎盘早剥的情况,目前的研究发现妊娠期糖尿病是导致孕妇不正常妊娠的原因之一,包括胎儿巨大症、胎儿肩难产。妊娠期糖尿病的影响不止于此,GDM会对母体和胎儿带来长期影响,有研究结果说明,患有GDM的孕妇在产后五年内,有13%-63%的概率患有二型糖尿病且糖耐量异常。
近年来,机器学习算法在医疗领域的应用频率和研究深度增长迅速,已经有学者应用机器学习算法实现对部分疾病患病率的预测,且效果显著,集成学习是机器学习算法中较有特点的一类,它是按照将弱分类器集成为强分类器的思路来组合基础模型,集成学习模型除了在稳定性和泛化能力上相比传统模型表现突出,在最终的预测准确率上也相对较高。
疾病预测在根据真实数据建模的过程中,往往会遇到数据质量差、缺失值较多、正负样本有偏等问题,在数据预处理过程中,选择怎样的处理方式将使预测精度最高的问题;使用stacking集成学习框架并加以改进,以解决样本标签不足可能会产生的过拟合问题,并使融合后的模型较单模型性能表现更好的缺点。
发明内容
针对现有技术的不足,本发明提供了基于stacking算法的妊娠糖尿病预测方法,解决了上述背景技术中提出疾病预测在根据真实数据建模的过程中,往往会遇到数据质量差、缺失值较多、正负样本有偏等问题,在数据预处理过程中,选择怎样的处理方式将使预测精度最高的问题;使用stacking集成学习框架并加以改进,以解决样本标签不足可能会产生的过拟合问题,并使融合后的模型较单模型性能表现更好的问题。
为实现以上目的,本发明通过以下技术方案予以实现:基于stacking算法的妊娠糖尿病预测方法,包括以下步骤:
S1、患病数据收集;
S2、数据处理;
S3、特征分析与特征构造;
S4、构造最优子集;
S5、单集成预测模型构建;
S6、模型融合;
S7、融合模型与单模型预测性能分析与对比。
可选的,所述步骤S1、患病数据收集中,收集便携式计算机,通过便携式计算机登录阿里云医疗数据库,收集阿里云医疗真实数据,记录患病数据备份。
可选的,所述步骤S2、数据处理中,选用合适的数据预处理方法处理缺失值,处理和选择特征来构成特征子集,使构成的特征子集能在算法上表现更好的效果,以及构造有效的特征子集,选出对妊娠糖尿病有影响的特征变量作为模型的输入变量,使计算的复杂度简化并提升模型的预测效果。
可选的,所述步骤S3、特征分析与特征构造中,分别对比步骤S2、数据处理中异常值处理和缺失值处理,对数据进行数据处理及分析。
可选的,所述步骤S4、构造最优子集中,选取S3、特征分析与特征构造中,最优数据构建子集。
可选的,所述步骤S5、单集成预测模型构建中,用集成学习算法构建预测模型来预测妊娠糖尿病,以及根据数据集特点对模型参数进行调优,分别建立XGBoost、随机森林、catboost、逻辑回归四个单集成妊娠糖尿病预测模型,并通过实验调参使单集成模型的预测效果达到最佳。
可选的,所述步骤S6、模型融合中,结合步骤S5、单集成预测模型构建中XGBoost、随机森林、catboost、逻辑回归四者的优点,弥补不足,选择两层stacking集成学习框架进行模型融合,选取XGBoost、随机森林与catboost这三种模型当做模型融合的基模型作为训练,并得出预测结果,将预测结果作为特征,应用到逻辑回归模型中进行训练,训练出最终预测模型。
可选的,所述步骤S7、融合模型与单模型预测性能分析与对比中,将步骤S6、模型融合中的预测结果与步骤S5、单集成预测模型构建中四种单集成预测模型预测结果进行汇总,对AUC值进行比较,验证融合模型的预测表现是否优于其他模型。
本发明提供了基于stacking算法的妊娠糖尿病预测方法,具备以下有益效果:
1、该基于stacking算法的妊娠糖尿病预测方法基于集成学习建立一个有效的妊娠糖尿病预测糖尿病患病风险的模型,帮助医护人员预测处于妊娠糖尿病的患者,及时并准确的对高危人群采取针对性的措施,这将有助于妊娠期糖尿病的辅助诊断和预防,为智能诊断和减少不良妊娠作出贡献。
2、该基于stacking算法的妊娠糖尿病预测方法,将缺失值及冗余值进行处理,选出对妊娠糖尿病影响较大的特征变量,得到一个特征子集;利用stacking集成学习框架得到一个妊娠糖尿病的预测模型,并通过实验验证融合后的妊娠糖尿病预测模型是否比单模型预测的预测性能更好,泛化能力更强。
3、该基于stacking算法的妊娠糖尿病预测方法,基于stacking算法建立妊娠糖尿病预测模型,集成学习算法是机器学习众多算法的一种,它构建了特征之间非线性的关系,集成学习算法是一种将弱分类器提升为强分类器的算法,特点是每次计算的弱分类器都能被下次构建的弱分类利用,从而在这样的不断学习改进中将弱分类器改造成了强分类器,本课题拟采用的单集成模型xgboost,catboost,随机森林都是基于类似的弱变强原理,这三种集成模型的原理在细节处有不同的特色,且和本次研究的样本特点契合,即小样本,多分类且数据缺失情况较严重。此外,根据模型优化思路,本课题拟将stacking集成框架融合分为两层,第一层为三种单集成模型的基模型训练过程,第二层将基模型融合到逻辑回归模型中,之所以采用逻辑回归模型,是因第一层已经使用了复杂的非线性变换,所以在输出层采用了简单的分类模型来学习基分类器的权重从而降低过拟合的现象,而逻辑回归是一个很合适的选择,故融合模型的第二层使用逻辑回归。
附图说明
图1为本发明主视结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1,本发明提供一种技术方案:基于stacking算法的妊娠糖尿病预测方法,包括以下步骤:
S1、患病数据收集;
S2、数据处理;
S3、特征分析与特征构造;
S4、构造最优子集;
S5、单集成预测模型构建;
S6、模型融合;
S7、融合模型与单模型预测性能分析与对比。
步骤S1、患病数据收集中,收集便携式计算机,通过便携式计算机登录阿里云医疗数据库,收集阿里云医疗真实数据,记录患病数据备份。
步骤S2、数据处理中,选用合适的数据预处理方法处理缺失值,处理和选择特征来构成特征子集,使构成的特征子集能在算法上表现更好的效果,以及构造有效的特征子集,选出对妊娠糖尿病有影响的特征变量作为模型的输入变量,使计算的复杂度简化并提升模型的预测效果。
步骤S3、特征分析与特征构造中,分别对比步骤S2、数据处理中异常值处理和缺失值处理,对数据进行数据处理及分析。
步骤S4、构造最优子集中,选取S3、特征分析与特征构造中,最优数据构建子集。
步骤S5、单集成预测模型构建中,用集成学习算法构建预测模型来预测妊娠糖尿病,以及根据数据集特点对模型参数进行调优,分别建立XGBoost、随机森林、catboost、逻辑回归四个单集成妊娠糖尿病预测模型,并通过实验调参使单集成模型的预测效果达到最佳。
步骤S6、模型融合中,结合步骤S5、单集成预测模型构建中XGBoost、随机森林、catboost、逻辑回归四者的优点,弥补不足,选择两层stacking集成学习框架进行模型融合,选取XGBoost、随机森林与catboost这三种模型当做模型融合的基模型作为训练,并得出预测结果,将预测结果作为特征,应用到逻辑回归模型中进行训练,训练出最终预测模型。
步骤S7、融合模型与单模型预测性能分析与对比中,将步骤S6、模型融合中的预测结果与步骤S5、单集成预测模型构建中四种单集成预测模型预测结果进行汇总,对AUC值进行比较,验证融合模型的预测表现是否优于其他模型。
以上,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (8)

1.基于stacking算法的妊娠糖尿病预测方法,其特征在于,所述包括以下步骤:
S1、患病数据收集;
S2、数据处理;
S3、特征分析与特征构造;
S4、构造最优子集;
S5、单集成预测模型构建;
S6、模型融合;
S7、融合模型与单模型预测性能分析与对比。
2.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S1、患病数据收集中,收集便携式计算机,通过便携式计算机登录阿里云医疗数据库,收集阿里云医疗真实数据,记录患病数据备份。
3.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S2、数据处理中,选用合适的数据预处理方法处理缺失值,处理和选择特征来构成特征子集,使构成的特征子集能在算法上表现更好的效果,以及构造有效的特征子集,选出对妊娠糖尿病有影响的特征变量作为模型的输入变量,使计算的复杂度简化并提升模型的预测效果。
4.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S3、特征分析与特征构造中,分别对比步骤S2、数据处理中异常值处理和缺失值处理,对数据进行数据处理及分析。
5.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S4、构造最优子集中,选取S3、特征分析与特征构造中,最优数据构建子集。
6.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S5、单集成预测模型构建中,用集成学习算法构建预测模型来预测妊娠糖尿病,以及根据数据集特点对模型参数进行调优,分别建立XGBoost、随机森林、catboost、逻辑回归四个单集成妊娠糖尿病预测模型,并通过实验调参使单集成模型的预测效果达到最佳。
7.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S6、模型融合中,结合步骤S5、单集成预测模型构建中XGBoost、随机森林、catboost、逻辑回归四者的优点,弥补不足,选择两层stacking集成学习框架进行模型融合,选取XGBoost、随机森林与catboost这三种模型当做模型融合的基模型作为训练,并得出预测结果,将预测结果作为特征,应用到逻辑回归模型中进行训练,训练出最终预测模型。
8.根据权利要求1所述的基于stacking算法的妊娠糖尿病预测方法,其特征在于:所述步骤S7、融合模型与单模型预测性能分析与对比中,将步骤S6、模型融合中的预测结果与步骤S5、单集成预测模型构建中四种单集成预测模型预测结果进行汇总,对AUC值进行比较,验证融合模型的预测表现是否优于其他模型。
CN202010947618.4A 2020-09-10 2020-09-10 基于stacking算法的妊娠糖尿病预测方法 Pending CN112185555A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010947618.4A CN112185555A (zh) 2020-09-10 2020-09-10 基于stacking算法的妊娠糖尿病预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010947618.4A CN112185555A (zh) 2020-09-10 2020-09-10 基于stacking算法的妊娠糖尿病预测方法

Publications (1)

Publication Number Publication Date
CN112185555A true CN112185555A (zh) 2021-01-05

Family

ID=73921773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010947618.4A Pending CN112185555A (zh) 2020-09-10 2020-09-10 基于stacking算法的妊娠糖尿病预测方法

Country Status (1)

Country Link
CN (1) CN112185555A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927795A (zh) * 2021-02-23 2021-06-08 山东大学 基于bagging算法的乳腺癌预测方法
CN113096814A (zh) * 2021-05-28 2021-07-09 哈尔滨理工大学 一种基于多分类器融合的阿尔兹海默症分类预测方法
CN113178261A (zh) * 2021-06-04 2021-07-27 福州大学 基于机器学习的糖尿病预测模型构建方法及系统
CN113535694A (zh) * 2021-06-18 2021-10-22 北方民族大学 一种基于Stacking框架的特征选择方法
CN116884631A (zh) * 2023-09-06 2023-10-13 杭州生奥信息技术有限公司 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150289823A1 (en) * 2014-04-10 2015-10-15 Dexcom, Inc. Glycemic urgency assessment and alerts interface
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109599177A (zh) * 2018-11-27 2019-04-09 华侨大学 一种基于病历的深度学习预测医疗轨迹的方法
CN111145912A (zh) * 2019-12-23 2020-05-12 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150289823A1 (en) * 2014-04-10 2015-10-15 Dexcom, Inc. Glycemic urgency assessment and alerts interface
CN106415556A (zh) * 2014-04-10 2017-02-15 德克斯康公司 血糖紧迫性评估和警告界面
CN109448855A (zh) * 2018-09-17 2019-03-08 大连大学 一种基于cnn和模型融合的糖尿病血糖预测方法
CN109599177A (zh) * 2018-11-27 2019-04-09 华侨大学 一种基于病历的深度学习预测医疗轨迹的方法
CN111145912A (zh) * 2019-12-23 2020-05-12 浙江大学 一种基于机器学习的个性化超促排卵方案的预测装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927795A (zh) * 2021-02-23 2021-06-08 山东大学 基于bagging算法的乳腺癌预测方法
CN113096814A (zh) * 2021-05-28 2021-07-09 哈尔滨理工大学 一种基于多分类器融合的阿尔兹海默症分类预测方法
CN113178261A (zh) * 2021-06-04 2021-07-27 福州大学 基于机器学习的糖尿病预测模型构建方法及系统
CN113535694A (zh) * 2021-06-18 2021-10-22 北方民族大学 一种基于Stacking框架的特征选择方法
CN116884631A (zh) * 2023-09-06 2023-10-13 杭州生奥信息技术有限公司 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统
CN116884631B (zh) * 2023-09-06 2023-12-12 杭州生奥信息技术有限公司 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统

Similar Documents

Publication Publication Date Title
CN112185555A (zh) 基于stacking算法的妊娠糖尿病预测方法
CN109378072A (zh) 一种基于集成学习融合模型的异常空腹血糖值预警方法
CN111261282A (zh) 一种基于机器学习的脓毒症早期预测方法
CN111626114B (zh) 基于卷积神经网络的心电信号心律失常分类系统
CN110246577B (zh) 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法
CN103116707A (zh) 一种基于案例推理的心脏病智能诊断方法
CN106339593A (zh) 基于医疗数据建模的川崎病分类预测方法
CN109448855A (zh) 一种基于cnn和模型融合的糖尿病血糖预测方法
CN113229825A (zh) 一种基于深度神经网络的多标签多导联心电图分类方法
CN111968748A (zh) 一种糖尿病并发症预测模型的建模方法
CN115331803A (zh) 预测卵巢低反应和部署个体化卵巢刺激策略模型的构建方法和系统
EP4108164A1 (en) Blood pressure prediction method and device
CN105868532B (zh) 一种智能评估心脏衰老程度的方法及系统
CN115831364B (zh) 基于多模态特征融合的2型糖尿病风险分层预测方法
CN113470816A (zh) 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置
CN106295229A (zh) 一种基于医疗数据建模的川崎病分级预测方法
CN109346179A (zh) 一种冠心病介入术后复发预测模型及其建模方法、装置
CN114038564A (zh) 一种糖尿病无创风险预测方法
CN112117004A (zh) 一种基于多源医学数据的糖尿病风险预测模型
CN114974585A (zh) 一种妊娠期代谢综合征早期风险预测评估模型构建方法
CN114882218A (zh) 一种基于嵌入残差卷积和注意力模块的u型糖尿病视网膜渗出物分割算法
CN112712895B (zh) 针对2型糖尿病并发症的多模态大数据的数据分析方法
CN112927795B (zh) 基于bagging算法的乳腺癌预测系统
CN115083005B (zh) 一种基于深度学习的rop图像分类系统及方法
CN116246788A (zh) 基于体检报告整合分析的无创风险糖尿病预测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105

RJ01 Rejection of invention patent application after publication