CN112117006A - 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统 - Google Patents

基于集成学习的2型糖尿病肾脏疾病患病风险评估系统 Download PDF

Info

Publication number
CN112117006A
CN112117006A CN202011011930.9A CN202011011930A CN112117006A CN 112117006 A CN112117006 A CN 112117006A CN 202011011930 A CN202011011930 A CN 202011011930A CN 112117006 A CN112117006 A CN 112117006A
Authority
CN
China
Prior art keywords
module
index data
data
influence index
influence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011011930.9A
Other languages
English (en)
Inventor
向天雨
刘小株
王惠来
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Medical University
Original Assignee
Chongqing Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Medical University filed Critical Chongqing Medical University
Priority to CN202011011930.9A priority Critical patent/CN112117006A/zh
Publication of CN112117006A publication Critical patent/CN112117006A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,包括数据收集模块、影响指标数据提取模块和集成学习模块,数据收集模块从医院数据库中获取待评估病人的一组临床指标数据;影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据;集成学习模块将所述影响指标数据输入集成学习模型,集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。该系统能够简便、有价值的获得是否患2型糖尿病肾脏疾病的判断结果,有助于筛选出糖尿病肾脏疾病的高危人群,帮助医生进行辅助诊断,对早期诊断、预防与延缓DKD对降低心血管事件的发生,提高患者存活率,改善生活质量具有重要意义。

Description

基于集成学习的2型糖尿病肾脏疾病患病风险评估系统
技术领域
本发明涉及医学数据分析和集成学习领域,特别是涉及一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统。
背景技术
糖尿病肾脏疾病(diabetic kidney disease,DKD)是慢性肾脏疾病(CKD)的重要病因,现已成为终末期肾脏疾病(ESRD)和糖尿病患者死亡的主要病因之一。研究显示,我国约20%到40%的糖尿病患者合并糖尿病肾脏疾病,且糖尿病肾脏疾病DKD的知晓率不足20%,治疗率不足50%。糖尿病肾脏疾病DKD起病不明显,当病情发展到一定阶段以后,主要临床表现为蛋白尿、高血压、水肿、肾病综合征和肾功能异常。目前糖尿病肾脏疾病DKD的诊断主要依靠肾活检病理检查,但肾活检病理检查一般用于糖尿病肾脏疾病和其他肾脏疾病的鉴别,无法对糖尿病肾脏疾病DKD进行早期筛查和诊断,且创伤性较大、部分人群无法应用此技术进行检测、容易引起并发症、增加病人痛苦和费用较高。
糖尿病肾脏疾病发病机制不明显,其危险因素尚不明确。与不合并糖尿病肾脏疾病DKD的糖尿病患者相比,糖尿病肾脏疾病DKD患者死亡率更高,且大部分死亡是由于心血管事件导致。患者缺乏具有糖尿病肾脏疾病DKD进展倾向有效的金标准,容易导致患者的漏诊和误诊。因此早期诊断、预防与延缓DKD对降低心血管事件的发生,提高患者存活率,改善生活质量具有重要意义。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统。
为了实现本发明的上述目的,本发明提供了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,包括数据收集模块、影响指标数据提取模块和集成学习模块,所述数据收集模块的输出端与影响指标数据提取模块的第一输入端连接,影响指标数据提取模块的输出端与集成学习模块的输入端连接;所述数据收集模块从医院数据库中获取待评估病人的一组临床指标数据;所述影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据;所述集成学习模块将所述影响指标数据输入集成学习模型,集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。
上述技术方案,该系统能够简便、有价值的获得是否患2型糖尿病肾脏疾病的判断结果,有助于筛选出糖尿病肾脏疾病的高危人群,帮助医生进行辅助诊断,对早期诊断、预防与延缓DKD对降低心血管事件的发生,提高患者存活率,改善生活质量具有重要意义。本系统基于XGBoost模型实现的单纯2型糖尿病和2型糖尿病肾脏疾病鉴别诊断模型,解决了临床特征和诊断结果的非线性关系,诊断准确率高于随机分类模型和logistic回归分类模型,对2型糖尿病肾脏疾病具有很好的判别效果。XGBoost模型的敏感度和特异度较高,很大程度上克服了主观因素的影响,有助于尽早发现隐藏病情,具有潜在的临床价值。
在本发明一种优选实施方式中,还包括显示模块,所述显示模块的输入端与集成学习模块的输出端连接。
上述技术方案:通过显示模块对判断结果进行显示,便于用户直观获得结果。
在本发明一种优选实施方式中,还包括影响指标生成模块,所述影响指标生成模块的输入端与数据收集模块的输出端连接,影响指标生成模块的输出端与影响指标数据提取模块的第二输入端连接;所述影响指标生成模块通过数据收集模块从医院数据库中获取多组包含单纯2型糖尿病和2型糖尿病肾脏病人的临床指标数据,对多组临床指标数据进行单因素回归分析获得各指标的单因素回归分析P值,将单因素回归分析P值小于第一阈值的指标记为影响指标,将所有影响指标输入影响指标数据提取模块中存储。
上述技术方案:能够对临床指标进行有效筛选,筛选出影响较大的指标进行后续机器学习处理,提高了机器学习处理速度和准确性。
在本发明一种优选实施方式中,所述集成学习模块还执行以下步骤:对于影响指标数据中的每个影响指标,按照设定比例改变所述影响指标数值,其余影响指标数值不变,将改变后的影响指标数据输入集成学习模型获得第二判断结果,设原影响指标数据输入集成学习模型获得的判断结果为第一判断结果,获取第二判断结果与第一判断结果的差异度;按照差异度从大到小的顺序对影响指标进行排序,将排序结果作为影响指标重要度排序输出。
上述技术方案:能够获得重要的影响指标,并按照重要度排序,便于用户研究。
在本发明一种优选实施方式中,还包括集成学习模型获取模块,所述集成学习模型获取模块执行以下步骤:步骤一,选择一个以上初始机器学习模型;步骤二,通过数据收集模块从医院数据库中提取多组包含单纯2型糖尿病人和2型糖尿病肾脏病人的临床指标数据,并为每组数据打上是否患2型糖尿病肾脏疾病的标签,基于多组临床指标数据构建训练集和验证集;步骤三,分别通过训练集和验证集对各机器学习初始模型进行训练、验证以及参数更新获得优化后的机器学习模型,比较各优化后的机器学习模型的评估指标,选择评估指标最优的优化后的学习模型进行内部验证并作为集成学习模型;步骤四,输出集成学习模型至集成学习模块。
上述技术方案:从多个机器学习模型中选择一个评估指标最好的作为集成学习模型,能有效提高本系统的判定结果准确率。
在本发明一种优选实施方式中,所述初始机器学习模型为随机森林模型或XGBoost模型。
在本发明一种优选实施方式中,还包括设于数据收集模块的输出端与影响指标数据提取模块的输入端之间的预处理模块;所述预处理模块对数据收集模块输出的指标数据进行数据清洗、数据填补、数据集成和数据规约处理。
上述技术方案,通过预处理模块能够滤除指标数据中的杂质,使指标数据更完整,便于后续处理。
附图说明
图1是本发明一具体实施方式中的系统框图;
图2是本发明另一具体实施方式中影响指标重要度排序示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明公开了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,如图1所示,在一种优选实施方式中,系统包括数据收集模块、影响指标数据提取模块和集成学习模块,数据收集模块的输出端与影响指标数据提取模块的第一输入端连接,影响指标数据提取模块的输出端与集成学习模块的输入端连接;数据收集模块从医院数据库中获取待评估病人的一组临床指标数据;影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据;集成学习模块将影响指标数据输入集成学习模型,集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。
在本实施方式中,数据收集模块收集的临床指标数据优选但不限于包括人口学资料、抽烟史、饮酒史、检查指标和实验室指标等57项临床指标,临床指标具体可包括性别、年龄、吸烟史、饮酒史、收缩压、舒张压、脉搏、呼吸频率、住院天数、γ谷氨酰基转移酶、丙氨酸氨基转移酶、中性粒细胞百分比、中性粒细胞数目、低密度脂蛋白胆固醇、凝血酶原时间、凝血酶时间、单核细胞百分比、单核细胞数目、嗜碱性粒细胞数目、嗜碱性粒细胞百分比、嗜酸性粒细胞数目、嗜酸性粒细胞百分比、大血小板比率、天门冬氨酸氨基转移酶、尿素、尿酸、平均红细胞体积、平均血红蛋白浓度、平均血红蛋白含量、总胆固醇、总蛋白、活化部分凝血活酶时间、淋巴细胞百分比、淋巴细胞数目、甘油三酯、白细胞数目、白蛋白、直接胆红素、碱性磷酸酶、磷、糖化血红蛋白、红细胞分布宽度(SD)、红细胞分布宽度(CV)、红细胞数目、红细胞压积、纤维蛋白原、肌酐、葡萄糖、血小板分布宽度、平均血小板体积、血小板数目、载脂蛋白A1、载脂蛋白B、间接胆红素、高密度脂蛋白胆固醇、尿微量白蛋白和ACR。
在本实施方式中,影响指标数据提取模块中存储有至少一个影响指标,从数据收集模块收集的临床指标数据中提取出影响指标对应的数据作为后续处理数据。
在一种优选实施方式中,如图1所示,还包括显示模块,显示模块的输入端与集成学习模块的输出端连接。
在本实施方式中,显示模块优选但不限于为LED显示屏、电脑显示器。
在一种优选实施方式中,如图1所示,还包括影响指标生成模块,影响指标生成模块的输入端与数据收集模块的输出端连接,影响指标生成模块的输出端与影响指标数据提取模块的第二输入端连接;影响指标生成模块通过数据收集模块从医院数据库中获取多组包含单纯2型糖尿病和2型糖尿病肾脏病人的临床指标数据,对多组临床指标数据进行单因素回归分析获得各指标的单因素回归分析P值,将单因素回归分析P值小于第一阈值的指标记为影响指标,将所有影响指标输入影响指标数据提取模块中存储。
在本实施方式中,影响指标生成模块通过对收集的多组数据进行单因素分析获得单因素回归分析P值,单因素回归分析P值为单因素分析拒绝域的概率,P值越小,表明结果越显著。找出有差异有统计学意义的指标作为影响指标,并将单因素分析结果以百分比表示每组数据中各指标的重要性,数据组间比较采用χ2分布(即卡方分布)。每组临床指标数据采用k-s检验进行正态性检验,符合正态分布的计量资料用
Figure BDA0002696250660000071
表示,组间比较采用t检验,不满足正态分布的计量资料用M(P25,P75)表示,组间比较采用Wilcoxon符号秩和检验,单因素回归分析P值小于第一阈值认为差异有统计学意义,第一阈值优选但不限于为0.05。有统计学意义的做为影响指标的共44项,包括:性别,年龄,收缩压,舒张压,脉搏,住院天数,γ谷氨酰基转移酶,丙氨酸氨基转移酶,中性粒细胞百分比,中性粒细胞数目,低密度脂蛋白胆固醇,凝血酶原时间,凝血酶时间,单核细胞数目,嗜碱性粒细胞数目,嗜碱性粒细胞百分比,大血小板比率,天门冬氨酸氨基转移酶,尿素,尿酸,平均血红蛋白浓度,总蛋白,活化部分凝血活酶时间,淋巴细胞百分比,淋巴细胞数目,白细胞数目,白蛋白,直接胆红素,磷,糖化血红蛋白,红细胞分布宽度,红细胞分布宽度,红细胞数目,红细胞压积,纤维蛋白原,肌酐,葡萄糖,平均血小板体积,血小板数目,载脂蛋白A1,载脂蛋白B,间接胆红素,ACR,尿微量白蛋白。
在一种优选实施方式中,集成学习模块还执行以下步骤:对于影响指标数据中的每个影响指标,按照设定比例改变该影响指标数值,其余影响指标数值不变,将改变后的影响指标数据输入集成学习模型获得第二判断结果,设原影响指标数据输入集成学习模型获得的判断结果为第一判断结果,获取第二判断结果与第一判断结果的差异度;按照差异度从大到小的顺序对影响指标进行排序,将排序结果作为影响指标重要度排序输出。
在本实施方式中,差异度优选但不限于为第二判断结果与第一判断结果的差值,如当集成学习模型为随机森林模型时,第一判断结果和第二判断结果均为病人患2型糖尿病肾脏疾病的概率。设定的比例优选但不限于为0.1%到20%。
在本实施方式中,如图2所示,横坐标表示差异度与第一判断结果的比值,将选出的指标(XGBoost模型)进行指标重要性排序,将排名靠前的指标和影响因素进行比较分析。结果显示尿微量白蛋白,收缩压、尿素、凝血酶时间、年龄、凝血酶原时间、住院天数、天门冬氨酸氨基转移酶、尿酸是重要度排前10的影响因素,这些指标在二元logistic回归分析中差异也有统计学意义。
在一种优选实施方式中,还包括集成学习模型获取模块,集成学习模型获取模块执行以下步骤:步骤一,选择一个以上初始机器学习模型;步骤二,通过数据收集模块从医院数据库中提取多组包含单纯2型糖尿病人和2型糖尿病肾脏病人的临床指标数据,并为每组数据打上是否患2型糖尿病肾脏疾病的标签,基于多组临床指标数据构建训练集和验证集;步骤三,分别通过训练集和验证集对各机器学习初始模型进行训练、验证以及参数更新获得优化后的机器学习模型,比较各优化后的机器学习模型的评估指标,选择评估指标最优的优化后的学习模型进行内部验证并作为集成学习模型,通过比较准确度、灵敏度、特异度、ROC曲线下面积(AUC)四个评估指标,选出最优风险评估模型并进行5折交叉验证;步骤四,输出集成学习模型至集成学习模块。
在本实施方式中,优选的,在步骤二中,从医院数据库通过纳入标准和排除标准获取了3640例2型糖尿病住院患者的临床数据,作为原始训练集,其中数据信息包括人口学资料、抽烟史、饮酒史、检查指标和实验室指标等57项临床指标。其中纳入标准和排除标准包括:2型糖尿病肾脏疾病:纳入标准:病案首页中主诊断为2型糖尿病肾脏疾病;住院时间为2014年1月到2020年5月;符合《中国糖尿病肾脏疾病防治临床指南》诊断标准;排除标准:合并其他可能引起并发症如尿路感染、恶性肿瘤、免疫性疾病如系统性红斑狼疮和血管炎;其他疾病导致的肾炎,如肾小球肾炎;其他糖尿病并发症,如糖尿病足。单纯2型糖尿病:纳入标准:首次出院诊断为2型糖尿病;住院时间为2014年1月到2020年5月;排除标准:同一患者住院次数≥2次的只选择第一次;其他感染性炎症、恶性肿瘤、系统性疾病;其他内分泌疾病和糖尿病并发症;1型糖尿病、妊娠期糖尿病以及其他分类不明确的糖尿病;年龄小于18岁以及住院天数≤1。
在一种优选实施方式中,初始机器学习模型为随机森林模型或XGBoost模型。
在本实施方式中,随机森林模型的建立过程包括:步骤一:假如有N个样本,则有放回的随机选择N个样本。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。步骤二:当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m<<M。然后从这m个属性中采用某种策略来选择1个属性作为该节点的分裂属性。步骤三:决策树形成过程中每个节点都要按照步骤二来分裂,一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。按照步骤一到步骤三建立大量的决策树,这样就构成了随机森林。
在本实施方式中,XGBoost模型的建立过程包括:不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数f(x),去拟合上次预测的残差。当训练完成得到k棵树,我们要预测一个样本的分数,其实就是根据这个样本的特征,在每棵树中会落到对应的一个叶子节点,每个叶子节点就对应一个分数,最后只需要将每棵树对应的分数加起来就是该样本的预测值。
在本实施方式中,优选的,数据收集模块从医院数据库中提取的多组临床指标数据还需经过影响指标数据提取模块处理,优选但不限于按7:3的比例将影响指标数据提取模块输出的多组数据分成训练集和验证集,训练集训练机器学习模型,验证集进行机器学习模型验证,并分别对各机器学习模型进行优化。具体的,对随机森林模型优化结果为:mtry=6,ntree=400;XGBoost模型优化结果为:
nrounds=100,max_depth=3,eta=0.1,gamma=0.25,colsample_bytree=1,min_child_weight=1,subsample=0.5。
在一种优选实施方式中,内部验证采用的方法为X折交叉验证方法,X为正整数,优选的,X为5。
在一种优选实施方式中,还包括设于数据收集模块的输出端与影响指标数据提取模块的输入端之间的预处理模块;预处理模块对数据收集模块输出的指标数据进行数据清洗、数据填补、数据集成和数据规约处理。
在本实施方式中,数据清洗主要是在纳入标准和排除标准从医院数据库导出单纯2型糖尿病肾病和2型糖尿病肾脏疾病的原始数据中清除可读性不强、缺失严重的数据以及异常值,可手动删除或设置阈值过滤自动清除。数据填补主要是对于由于病历和数据库的问题导致缺失的数据,优选但不限于采用多重插补法进行填补。数据集成主要是合并来自病历和检验表格存储的数据,有助于减少数据集的冗余和不一致;数据规约主要采用维规约的方法,将数据集中不相关、弱相关、或冗余的属性删除,使数据更容易分析。
在本发明的一种应用场景中,对本系统和传统的二元logistic回归方法获得2型糖尿病肾脏疾病患病风险评估结果进行了比较。
二元logistic回归方法以是否患2型糖尿病肾脏疾病为因变量,临床指标为自变量,使用逐步向前方法筛选出混杂因素,得出患2型糖尿病肾脏疾病的影响指标,这里记作影响因素,见下表1:
表1
Figure BDA0002696250660000111
Figure BDA0002696250660000121
在本应用场景中,二元logistic回归方法、随机森林模型和XGBoost模型的评估指标比较结果如下表2所示:
表2
Figure BDA0002696250660000122
上表2显示三个模型的诊断参数。logistic回归、随机森林和XGBoost模型的准确率分别为0.782、0.828和0.864;ROC曲线下面积分别为0.86、0.913和0.936。从结果看,XGBoost模型各方面性能都要优于logistic回归和随机森林,表现最优异。
在本应用场景中,5折交叉验证后评价指标结果见下表3:
表3
Figure BDA0002696250660000123
从表3可看出logistic回归、随机森林和XGBoost模型的交叉验证的准确度分别为0.774、0.833、0.852,AUC分别为0.850、0.904、0.930,和表2验证集结果类似,表明XGBoost模型有较好的拟合度,结果比较准确。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (8)

1.一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,包括数据收集模块、影响指标数据提取模块和集成学习模块,所述数据收集模块的输出端与影响指标数据提取模块的第一输入端连接,影响指标数据提取模块的输出端与集成学习模块的输入端连接;
所述数据收集模块从医院数据库中获取待评估病人的一组临床指标数据;
所述影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据;
所述集成学习模块将所述影响指标数据输入集成学习模型,集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。
2.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,还包括显示模块,所述显示模块的输入端与集成学习模块的输出端连接。
3.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,还包括影响指标生成模块,所述影响指标生成模块的输入端与数据收集模块的输出端连接,影响指标生成模块的输出端与影响指标数据提取模块的第二输入端连接;
所述影响指标生成模块通过数据收集模块从医院数据库中获取多组包含单纯2型糖尿病和2型糖尿病肾脏病人的临床指标数据,对多组临床指标数据进行单因素回归分析获得各指标的单因素回归分析P值,将单因素回归分析P值小于第一阈值的指标记为影响指标,将所有影响指标输入影响指标数据提取模块中存储。
4.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,所述集成学习模块还执行以下步骤:
对于影响指标数据中的每个影响指标,按照设定比例改变所述影响指标数值,其余影响指标数值不变,将改变后的影响指标数据输入集成学习模型获得第二判断结果,设原影响指标数据输入集成学习模型获得的判断结果为第一判断结果,获取第二判断结果与第一判断结果的差异度;
按照差异度从大到小的顺序对影响指标进行排序,将排序结果作为影响指标重要度排序输出。
5.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,还包括集成学习模型获取模块,所述集成学习模型获取模块执行以下步骤:
步骤一,选择一个以上初始机器学习模型;
步骤二,通过数据收集模块从医院数据库中提取多组包含单纯2型糖尿病人和2型糖尿病肾脏病人的临床指标数据,并为每组数据打上是否患2型糖尿病肾脏疾病的标签,基于多组临床指标数据构建训练集和验证集;
步骤三,分别通过训练集和验证集对各机器学习初始模型进行训练、验证以及参数更新获得优化后的机器学习模型,比较各优化后的机器学习模型的评估指标,选择评估指标最优的优化后的学习模型进行内部验证并作为集成学习模型;
步骤四,输出集成学习模型至集成学习模块。
6.如权利要求5所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,所述初始机器学习模型为随机森林模型或XGBoost模型。
7.如权利要求5所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,所述内部验证采用的方法为X折交叉验证方法,X为正整数。
8.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统,其特征在于,还包括设于数据收集模块的输出端与影响指标数据提取模块的输入端之间的预处理模块;
所述预处理模块对数据收集模块输出的指标数据进行数据清洗、数据填补、数据集成和数据规约处理。
CN202011011930.9A 2020-09-23 2020-09-23 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统 Pending CN112117006A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011011930.9A CN112117006A (zh) 2020-09-23 2020-09-23 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011011930.9A CN112117006A (zh) 2020-09-23 2020-09-23 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统

Publications (1)

Publication Number Publication Date
CN112117006A true CN112117006A (zh) 2020-12-22

Family

ID=73801665

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011011930.9A Pending CN112117006A (zh) 2020-09-23 2020-09-23 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统

Country Status (1)

Country Link
CN (1) CN112117006A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768057A (zh) * 2021-01-14 2021-05-07 重庆医科大学 鉴别儿童发热待查病因的系统
CN112786203A (zh) * 2021-03-03 2021-05-11 天津医科大学 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
CN112786204A (zh) * 2021-03-03 2021-05-11 天津医科大学 一种机器学习糖尿病发病风险预测方法及应用
CN112992343A (zh) * 2021-03-10 2021-06-18 重庆医科大学 一种对2型糖尿病患者的冠心病辅助诊断系统
CN113035357A (zh) * 2021-04-06 2021-06-25 昆明医科大学第一附属医院 一种糖尿病肾脏疾病风险评估系统
CN113096815A (zh) * 2021-05-28 2021-07-09 齐齐哈尔大学 一种基于logistic回归的慢性肾病预测方法
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN114091671A (zh) * 2021-12-01 2022-02-25 西南石油大学 一种改进随机森林相似性度量的患病风险预测方法
CN114613510A (zh) * 2022-03-08 2022-06-10 深圳市第二人民医院(深圳市转化医学研究院) 一种狼疮性肾炎患者肾小球微血栓形成的模型构建方法
CN115954102A (zh) * 2023-03-14 2023-04-11 中山大学附属第一医院 一种人工关节假体周围感染诊断模型及诊断系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046377A (zh) * 2015-09-06 2015-11-11 河海大学 基于bp神经网络筛选水库防洪调度方案优选指标的方法
CN106446595A (zh) * 2016-12-16 2017-02-22 上海尚戴科技发展有限公司 一种机器学习妊娠期糖尿病发病风险及病情程度预测系统
CN107133690A (zh) * 2017-04-21 2017-09-05 中国水利水电科学研究院 一种河湖水系连通工程方案优选排序方法
CN107194607A (zh) * 2017-06-09 2017-09-22 清华大学 一种生态修复关键对象判定方法
CN109192306A (zh) * 2018-09-21 2019-01-11 广东工业大学 一种糖尿病的判断装置、设备及计算机可读存储介质
CN109524118A (zh) * 2018-11-01 2019-03-26 上海海事大学 一种基于机器学习和体检数据的妊娠期糖尿病筛查方法
CN110197728A (zh) * 2019-03-12 2019-09-03 平安科技(深圳)有限公司 糖尿病的预测方法、装置及计算机设备
CN110634563A (zh) * 2019-06-21 2019-12-31 中国人民解放军总医院 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
CN111368404A (zh) * 2020-02-25 2020-07-03 绍兴文理学院 考虑雨型量化的降雨型滑坡影响因素敏感性分析方法
CN111508598A (zh) * 2020-05-06 2020-08-07 万达信息股份有限公司 一种呼吸系统疾病门诊量预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046377A (zh) * 2015-09-06 2015-11-11 河海大学 基于bp神经网络筛选水库防洪调度方案优选指标的方法
CN106446595A (zh) * 2016-12-16 2017-02-22 上海尚戴科技发展有限公司 一种机器学习妊娠期糖尿病发病风险及病情程度预测系统
CN107133690A (zh) * 2017-04-21 2017-09-05 中国水利水电科学研究院 一种河湖水系连通工程方案优选排序方法
CN107194607A (zh) * 2017-06-09 2017-09-22 清华大学 一种生态修复关键对象判定方法
CN109192306A (zh) * 2018-09-21 2019-01-11 广东工业大学 一种糖尿病的判断装置、设备及计算机可读存储介质
CN109524118A (zh) * 2018-11-01 2019-03-26 上海海事大学 一种基于机器学习和体检数据的妊娠期糖尿病筛查方法
CN110197728A (zh) * 2019-03-12 2019-09-03 平安科技(深圳)有限公司 糖尿病的预测方法、装置及计算机设备
CN110634563A (zh) * 2019-06-21 2019-12-31 中国人民解放军总医院 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
CN111368404A (zh) * 2020-02-25 2020-07-03 绍兴文理学院 考虑雨型量化的降雨型滑坡影响因素敏感性分析方法
CN111508598A (zh) * 2020-05-06 2020-08-07 万达信息股份有限公司 一种呼吸系统疾病门诊量预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚军 等: ""基于机器学习算法的原发性高血压并发冠心病的患病风险研究"", 《解放军医学杂志》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112768057A (zh) * 2021-01-14 2021-05-07 重庆医科大学 鉴别儿童发热待查病因的系统
CN112786203A (zh) * 2021-03-03 2021-05-11 天津医科大学 一种机器学习糖尿病视网膜病变发病风险预测方法及应用
CN112786204A (zh) * 2021-03-03 2021-05-11 天津医科大学 一种机器学习糖尿病发病风险预测方法及应用
CN112992343A (zh) * 2021-03-10 2021-06-18 重庆医科大学 一种对2型糖尿病患者的冠心病辅助诊断系统
CN113035357A (zh) * 2021-04-06 2021-06-25 昆明医科大学第一附属医院 一种糖尿病肾脏疾病风险评估系统
CN113096815A (zh) * 2021-05-28 2021-07-09 齐齐哈尔大学 一种基于logistic回归的慢性肾病预测方法
CN113555118A (zh) * 2021-07-26 2021-10-26 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN113555118B (zh) * 2021-07-26 2023-03-31 内蒙古自治区人民医院 一种病症程度的预测方法、装置、电子设备及存储介质
CN114091671A (zh) * 2021-12-01 2022-02-25 西南石油大学 一种改进随机森林相似性度量的患病风险预测方法
CN114613510A (zh) * 2022-03-08 2022-06-10 深圳市第二人民医院(深圳市转化医学研究院) 一种狼疮性肾炎患者肾小球微血栓形成的模型构建方法
CN115954102A (zh) * 2023-03-14 2023-04-11 中山大学附属第一医院 一种人工关节假体周围感染诊断模型及诊断系统

Similar Documents

Publication Publication Date Title
CN112117006A (zh) 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统
Grundy et al. Pathways from fertility history to later life health: Results from analyses of the English Longitudinal Study of Ageing
CN110827993A (zh) 基于集成学习的早期死亡风险评估模型建立方法及装置
WO2021190300A1 (zh) Ai慢性肾病风险筛查建模方法、慢性肾病风险筛查方法及系统
CN112002427A (zh) 失代偿期肝硬化合并感染危险预测模型的构建方法
CN110634563A (zh) 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置
CN111968748A (zh) 一种糖尿病并发症预测模型的建模方法
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN113470816A (zh) 一种基于机器学习的糖尿病肾病预测方法、系统和预测装置
CN114023441A (zh) 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法
CN117116477A (zh) 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
Friedman et al. Education of children and differential mortality of parents: Do parents benefit from their children’s attainments?
CN114023440A (zh) 可解释分层老年mods早期死亡风险评估模型、装置及其建立方法
CN117198532A (zh) 一种基于机器学习的icu患者脓毒症风险预测方法及系统
Sparrow et al. The influence of age on peripheral lymphocyte count in men: a cross-sectional and longitudinal study
CN115691788A (zh) 一种基于异构数据的双重注意力耦合网络糖尿病分类系统
CN116030963A (zh) 一种甲胎蛋白阴性原发性肝细胞癌列线图诊断模型及其构建方法和应用
CN113782197B (zh) 基于可解释性机器学习算法的新冠肺炎患者转归预测方法
Cao et al. A bibliometric analysis of publications on burn sepsis using VOSviewer
Wickrama et al. Couple BMI trajectory patterns during mid-later years: Socioeconomic stratification and later-life physical health outcomes.
CN113744825A (zh) 一种肿瘤患者革兰阴性杆菌血流感染预后的模型及构建方法
CN113436745A (zh) 一种基于数据库分析的人工智能辅助诊断方法
CN112837826A (zh) 一种基于机器学习的重症序贯性脏器衰竭评分方法及系统
Alam Identification of malignant mesothelioma risk factors through association rule mining
Lu et al. Hemodialysis key features mining and patients clustering technologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222