CN112117006A

CN112117006A - 基于集成学习的2型糖尿病肾脏疾病患病风险评估系统

Info

Publication number: CN112117006A
Application number: CN202011011930.9A
Authority: CN
Inventors: 向天雨; 刘小株; 王惠来
Original assignee: Chongqing Medical University
Current assignee: Chongqing Medical University
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-22

Abstract

本发明公开了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，包括数据收集模块、影响指标数据提取模块和集成学习模块，数据收集模块从医院数据库中获取待评估病人的一组临床指标数据；影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据；集成学习模块将所述影响指标数据输入集成学习模型，集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。该系统能够简便、有价值的获得是否患2型糖尿病肾脏疾病的判断结果，有助于筛选出糖尿病肾脏疾病的高危人群，帮助医生进行辅助诊断，对早期诊断、预防与延缓DKD对降低心血管事件的发生，提高患者存活率，改善生活质量具有重要意义。

Description

基于集成学习的2型糖尿病肾脏疾病患病风险评估系统

技术领域

本发明涉及医学数据分析和集成学习领域，特别是涉及一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统。

背景技术

糖尿病肾脏疾病(diabetic kidney disease，DKD)是慢性肾脏疾病(CKD)的重要病因，现已成为终末期肾脏疾病(ESRD)和糖尿病患者死亡的主要病因之一。研究显示，我国约20％到40％的糖尿病患者合并糖尿病肾脏疾病，且糖尿病肾脏疾病DKD的知晓率不足20％，治疗率不足50％。糖尿病肾脏疾病DKD起病不明显，当病情发展到一定阶段以后，主要临床表现为蛋白尿、高血压、水肿、肾病综合征和肾功能异常。目前糖尿病肾脏疾病DKD的诊断主要依靠肾活检病理检查，但肾活检病理检查一般用于糖尿病肾脏疾病和其他肾脏疾病的鉴别，无法对糖尿病肾脏疾病DKD进行早期筛查和诊断，且创伤性较大、部分人群无法应用此技术进行检测、容易引起并发症、增加病人痛苦和费用较高。

糖尿病肾脏疾病发病机制不明显，其危险因素尚不明确。与不合并糖尿病肾脏疾病DKD的糖尿病患者相比，糖尿病肾脏疾病DKD患者死亡率更高，且大部分死亡是由于心血管事件导致。患者缺乏具有糖尿病肾脏疾病DKD进展倾向有效的金标准，容易导致患者的漏诊和误诊。因此早期诊断、预防与延缓DKD对降低心血管事件的发生，提高患者存活率，改善生活质量具有重要意义。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，特别创新地提出了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统。

为了实现本发明的上述目的，本发明提供了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，包括数据收集模块、影响指标数据提取模块和集成学习模块，所述数据收集模块的输出端与影响指标数据提取模块的第一输入端连接，影响指标数据提取模块的输出端与集成学习模块的输入端连接；所述数据收集模块从医院数据库中获取待评估病人的一组临床指标数据；所述影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据；所述集成学习模块将所述影响指标数据输入集成学习模型，集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。

上述技术方案，该系统能够简便、有价值的获得是否患2型糖尿病肾脏疾病的判断结果，有助于筛选出糖尿病肾脏疾病的高危人群，帮助医生进行辅助诊断，对早期诊断、预防与延缓DKD对降低心血管事件的发生，提高患者存活率，改善生活质量具有重要意义。本系统基于XGBoost模型实现的单纯2型糖尿病和2型糖尿病肾脏疾病鉴别诊断模型，解决了临床特征和诊断结果的非线性关系，诊断准确率高于随机分类模型和logistic回归分类模型，对2型糖尿病肾脏疾病具有很好的判别效果。XGBoost模型的敏感度和特异度较高，很大程度上克服了主观因素的影响，有助于尽早发现隐藏病情，具有潜在的临床价值。

在本发明一种优选实施方式中，还包括显示模块，所述显示模块的输入端与集成学习模块的输出端连接。

上述技术方案：通过显示模块对判断结果进行显示，便于用户直观获得结果。

在本发明一种优选实施方式中，还包括影响指标生成模块，所述影响指标生成模块的输入端与数据收集模块的输出端连接，影响指标生成模块的输出端与影响指标数据提取模块的第二输入端连接；所述影响指标生成模块通过数据收集模块从医院数据库中获取多组包含单纯2型糖尿病和2型糖尿病肾脏病人的临床指标数据，对多组临床指标数据进行单因素回归分析获得各指标的单因素回归分析P值，将单因素回归分析P值小于第一阈值的指标记为影响指标，将所有影响指标输入影响指标数据提取模块中存储。

上述技术方案：能够对临床指标进行有效筛选，筛选出影响较大的指标进行后续机器学习处理，提高了机器学习处理速度和准确性。

在本发明一种优选实施方式中，所述集成学习模块还执行以下步骤：对于影响指标数据中的每个影响指标，按照设定比例改变所述影响指标数值，其余影响指标数值不变，将改变后的影响指标数据输入集成学习模型获得第二判断结果，设原影响指标数据输入集成学习模型获得的判断结果为第一判断结果，获取第二判断结果与第一判断结果的差异度；按照差异度从大到小的顺序对影响指标进行排序，将排序结果作为影响指标重要度排序输出。

上述技术方案：能够获得重要的影响指标，并按照重要度排序，便于用户研究。

在本发明一种优选实施方式中，还包括集成学习模型获取模块，所述集成学习模型获取模块执行以下步骤：步骤一，选择一个以上初始机器学习模型；步骤二，通过数据收集模块从医院数据库中提取多组包含单纯2型糖尿病人和2型糖尿病肾脏病人的临床指标数据，并为每组数据打上是否患2型糖尿病肾脏疾病的标签，基于多组临床指标数据构建训练集和验证集；步骤三，分别通过训练集和验证集对各机器学习初始模型进行训练、验证以及参数更新获得优化后的机器学习模型，比较各优化后的机器学习模型的评估指标，选择评估指标最优的优化后的学习模型进行内部验证并作为集成学习模型；步骤四，输出集成学习模型至集成学习模块。

上述技术方案：从多个机器学习模型中选择一个评估指标最好的作为集成学习模型，能有效提高本系统的判定结果准确率。

在本发明一种优选实施方式中，所述初始机器学习模型为随机森林模型或XGBoost模型。

在本发明一种优选实施方式中，还包括设于数据收集模块的输出端与影响指标数据提取模块的输入端之间的预处理模块；所述预处理模块对数据收集模块输出的指标数据进行数据清洗、数据填补、数据集成和数据规约处理。

上述技术方案，通过预处理模块能够滤除指标数据中的杂质，使指标数据更完整，便于后续处理。

附图说明

图1是本发明一具体实施方式中的系统框图；

图2是本发明另一具体实施方式中影响指标重要度排序示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，除非另有规定和限定，需要说明的是，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明公开了一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，如图1所示，在一种优选实施方式中，系统包括数据收集模块、影响指标数据提取模块和集成学习模块，数据收集模块的输出端与影响指标数据提取模块的第一输入端连接，影响指标数据提取模块的输出端与集成学习模块的输入端连接；数据收集模块从医院数据库中获取待评估病人的一组临床指标数据；影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据；集成学习模块将影响指标数据输入集成学习模型，集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。

在本实施方式中，数据收集模块收集的临床指标数据优选但不限于包括人口学资料、抽烟史、饮酒史、检查指标和实验室指标等57项临床指标，临床指标具体可包括性别、年龄、吸烟史、饮酒史、收缩压、舒张压、脉搏、呼吸频率、住院天数、γ谷氨酰基转移酶、丙氨酸氨基转移酶、中性粒细胞百分比、中性粒细胞数目、低密度脂蛋白胆固醇、凝血酶原时间、凝血酶时间、单核细胞百分比、单核细胞数目、嗜碱性粒细胞数目、嗜碱性粒细胞百分比、嗜酸性粒细胞数目、嗜酸性粒细胞百分比、大血小板比率、天门冬氨酸氨基转移酶、尿素、尿酸、平均红细胞体积、平均血红蛋白浓度、平均血红蛋白含量、总胆固醇、总蛋白、活化部分凝血活酶时间、淋巴细胞百分比、淋巴细胞数目、甘油三酯、白细胞数目、白蛋白、直接胆红素、碱性磷酸酶、磷、糖化血红蛋白、红细胞分布宽度(SD)、红细胞分布宽度(CV)、红细胞数目、红细胞压积、纤维蛋白原、肌酐、葡萄糖、血小板分布宽度、平均血小板体积、血小板数目、载脂蛋白A1、载脂蛋白B、间接胆红素、高密度脂蛋白胆固醇、尿微量白蛋白和ACR。

在本实施方式中，影响指标数据提取模块中存储有至少一个影响指标，从数据收集模块收集的临床指标数据中提取出影响指标对应的数据作为后续处理数据。

在一种优选实施方式中，如图1所示，还包括显示模块，显示模块的输入端与集成学习模块的输出端连接。

在本实施方式中，显示模块优选但不限于为LED显示屏、电脑显示器。

在一种优选实施方式中，如图1所示，还包括影响指标生成模块，影响指标生成模块的输入端与数据收集模块的输出端连接，影响指标生成模块的输出端与影响指标数据提取模块的第二输入端连接；影响指标生成模块通过数据收集模块从医院数据库中获取多组包含单纯2型糖尿病和2型糖尿病肾脏病人的临床指标数据，对多组临床指标数据进行单因素回归分析获得各指标的单因素回归分析P值，将单因素回归分析P值小于第一阈值的指标记为影响指标，将所有影响指标输入影响指标数据提取模块中存储。

在本实施方式中，影响指标生成模块通过对收集的多组数据进行单因素分析获得单因素回归分析P值，单因素回归分析P值为单因素分析拒绝域的概率，P值越小，表明结果越显著。找出有差异有统计学意义的指标作为影响指标，并将单因素分析结果以百分比表示每组数据中各指标的重要性，数据组间比较采用χ²分布(即卡方分布)。每组临床指标数据采用k－s检验进行正态性检验，符合正态分布的计量资料用

表示，组间比较采用t检验，不满足正态分布的计量资料用M(P25，P75)表示，组间比较采用Wilcoxon符号秩和检验，单因素回归分析P值小于第一阈值认为差异有统计学意义，第一阈值优选但不限于为0.05。有统计学意义的做为影响指标的共44项，包括：性别，年龄，收缩压，舒张压，脉搏，住院天数，γ谷氨酰基转移酶，丙氨酸氨基转移酶，中性粒细胞百分比，中性粒细胞数目，低密度脂蛋白胆固醇，凝血酶原时间，凝血酶时间，单核细胞数目，嗜碱性粒细胞数目，嗜碱性粒细胞百分比，大血小板比率，天门冬氨酸氨基转移酶，尿素，尿酸，平均血红蛋白浓度，总蛋白，活化部分凝血活酶时间，淋巴细胞百分比，淋巴细胞数目，白细胞数目，白蛋白，直接胆红素，磷，糖化血红蛋白，红细胞分布宽度，红细胞分布宽度，红细胞数目，红细胞压积，纤维蛋白原，肌酐，葡萄糖，平均血小板体积，血小板数目，载脂蛋白A1，载脂蛋白B，间接胆红素，ACR，尿微量白蛋白。

在一种优选实施方式中，集成学习模块还执行以下步骤：对于影响指标数据中的每个影响指标，按照设定比例改变该影响指标数值，其余影响指标数值不变，将改变后的影响指标数据输入集成学习模型获得第二判断结果，设原影响指标数据输入集成学习模型获得的判断结果为第一判断结果，获取第二判断结果与第一判断结果的差异度；按照差异度从大到小的顺序对影响指标进行排序，将排序结果作为影响指标重要度排序输出。

在本实施方式中，差异度优选但不限于为第二判断结果与第一判断结果的差值，如当集成学习模型为随机森林模型时，第一判断结果和第二判断结果均为病人患2型糖尿病肾脏疾病的概率。设定的比例优选但不限于为0.1％到20％。

在本实施方式中，如图2所示，横坐标表示差异度与第一判断结果的比值，将选出的指标(XGBoost模型)进行指标重要性排序，将排名靠前的指标和影响因素进行比较分析。结果显示尿微量白蛋白，收缩压、尿素、凝血酶时间、年龄、凝血酶原时间、住院天数、天门冬氨酸氨基转移酶、尿酸是重要度排前10的影响因素，这些指标在二元logistic回归分析中差异也有统计学意义。

在一种优选实施方式中，还包括集成学习模型获取模块，集成学习模型获取模块执行以下步骤：步骤一，选择一个以上初始机器学习模型；步骤二，通过数据收集模块从医院数据库中提取多组包含单纯2型糖尿病人和2型糖尿病肾脏病人的临床指标数据，并为每组数据打上是否患2型糖尿病肾脏疾病的标签，基于多组临床指标数据构建训练集和验证集；步骤三，分别通过训练集和验证集对各机器学习初始模型进行训练、验证以及参数更新获得优化后的机器学习模型，比较各优化后的机器学习模型的评估指标，选择评估指标最优的优化后的学习模型进行内部验证并作为集成学习模型，通过比较准确度、灵敏度、特异度、ROC曲线下面积(AUC)四个评估指标，选出最优风险评估模型并进行5折交叉验证；步骤四，输出集成学习模型至集成学习模块。

在本实施方式中，优选的，在步骤二中，从医院数据库通过纳入标准和排除标准获取了3640例2型糖尿病住院患者的临床数据，作为原始训练集，其中数据信息包括人口学资料、抽烟史、饮酒史、检查指标和实验室指标等57项临床指标。其中纳入标准和排除标准包括：2型糖尿病肾脏疾病：纳入标准：病案首页中主诊断为2型糖尿病肾脏疾病；住院时间为2014年1月到2020年5月；符合《中国糖尿病肾脏疾病防治临床指南》诊断标准；排除标准：合并其他可能引起并发症如尿路感染、恶性肿瘤、免疫性疾病如系统性红斑狼疮和血管炎；其他疾病导致的肾炎，如肾小球肾炎；其他糖尿病并发症，如糖尿病足。单纯2型糖尿病：纳入标准：首次出院诊断为2型糖尿病；住院时间为2014年1月到2020年5月；排除标准：同一患者住院次数≥2次的只选择第一次；其他感染性炎症、恶性肿瘤、系统性疾病；其他内分泌疾病和糖尿病并发症；1型糖尿病、妊娠期糖尿病以及其他分类不明确的糖尿病；年龄小于18岁以及住院天数≤1。

在一种优选实施方式中，初始机器学习模型为随机森林模型或XGBoost模型。

在本实施方式中，随机森林模型的建立过程包括：步骤一：假如有N个样本，则有放回的随机选择N个样本。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本。步骤二：当每个样本有M个属性时，在决策树的每个节点需要分裂时，随机从这M个属性中选取出m个属性，满足条件m＜＜M。然后从这m个属性中采用某种策略来选择1个属性作为该节点的分裂属性。步骤三：决策树形成过程中每个节点都要按照步骤二来分裂，一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。按照步骤一到步骤三建立大量的决策树，这样就构成了随机森林。

在本实施方式中，XGBoost模型的建立过程包括：不断地添加树，不断地进行特征分裂来生长一棵树，每次添加一个树，其实是学习一个新函数f(x)，去拟合上次预测的残差。当训练完成得到k棵树，我们要预测一个样本的分数，其实就是根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后只需要将每棵树对应的分数加起来就是该样本的预测值。

在本实施方式中，优选的，数据收集模块从医院数据库中提取的多组临床指标数据还需经过影响指标数据提取模块处理，优选但不限于按7：3的比例将影响指标数据提取模块输出的多组数据分成训练集和验证集，训练集训练机器学习模型，验证集进行机器学习模型验证，并分别对各机器学习模型进行优化。具体的，对随机森林模型优化结果为：mtry＝6，ntree＝400；XGBoost模型优化结果为：

nrounds＝100，max＿depth＝3，eta＝0.1，gamma＝0.25，colsample＿bytree＝1，min＿child＿weight＝1，subsample＝0.5。

在一种优选实施方式中，内部验证采用的方法为X折交叉验证方法，X为正整数，优选的，X为5。

在一种优选实施方式中，还包括设于数据收集模块的输出端与影响指标数据提取模块的输入端之间的预处理模块；预处理模块对数据收集模块输出的指标数据进行数据清洗、数据填补、数据集成和数据规约处理。

在本实施方式中，数据清洗主要是在纳入标准和排除标准从医院数据库导出单纯2型糖尿病肾病和2型糖尿病肾脏疾病的原始数据中清除可读性不强、缺失严重的数据以及异常值，可手动删除或设置阈值过滤自动清除。数据填补主要是对于由于病历和数据库的问题导致缺失的数据，优选但不限于采用多重插补法进行填补。数据集成主要是合并来自病历和检验表格存储的数据，有助于减少数据集的冗余和不一致；数据规约主要采用维规约的方法，将数据集中不相关、弱相关、或冗余的属性删除，使数据更容易分析。

在本发明的一种应用场景中，对本系统和传统的二元logistic回归方法获得2型糖尿病肾脏疾病患病风险评估结果进行了比较。

二元logistic回归方法以是否患2型糖尿病肾脏疾病为因变量，临床指标为自变量，使用逐步向前方法筛选出混杂因素，得出患2型糖尿病肾脏疾病的影响指标，这里记作影响因素，见下表1：

表1

在本应用场景中，二元logistic回归方法、随机森林模型和XGBoost模型的评估指标比较结果如下表2所示：

表2

上表2显示三个模型的诊断参数。logistic回归、随机森林和XGBoost模型的准确率分别为0.782、0.828和0.864；ROC曲线下面积分别为0.86、0.913和0.936。从结果看，XGBoost模型各方面性能都要优于logistic回归和随机森林，表现最优异。

在本应用场景中，5折交叉验证后评价指标结果见下表3：

表3

从表3可看出logistic回归、随机森林和XGBoost模型的交叉验证的准确度分别为0.774、0.833、0.852，AUC分别为0.850、0.904、0.930，和表2验证集结果类似，表明XGBoost模型有较好的拟合度，结果比较准确。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，包括数据收集模块、影响指标数据提取模块和集成学习模块，所述数据收集模块的输出端与影响指标数据提取模块的第一输入端连接，影响指标数据提取模块的输出端与集成学习模块的输入端连接；

所述数据收集模块从医院数据库中获取待评估病人的一组临床指标数据；

所述影响指标数据提取模块从所述数据收集模块获取的一组临床指标数据中提取出影响指标数据；

所述集成学习模块将所述影响指标数据输入集成学习模型，集成学习模型输出待评估病人是否患2型糖尿病肾脏疾病的判断结果。

2.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，还包括显示模块，所述显示模块的输入端与集成学习模块的输出端连接。

3.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，还包括影响指标生成模块，所述影响指标生成模块的输入端与数据收集模块的输出端连接，影响指标生成模块的输出端与影响指标数据提取模块的第二输入端连接；

所述影响指标生成模块通过数据收集模块从医院数据库中获取多组包含单纯2型糖尿病和2型糖尿病肾脏病人的临床指标数据，对多组临床指标数据进行单因素回归分析获得各指标的单因素回归分析P值，将单因素回归分析P值小于第一阈值的指标记为影响指标，将所有影响指标输入影响指标数据提取模块中存储。

4.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，所述集成学习模块还执行以下步骤：

对于影响指标数据中的每个影响指标，按照设定比例改变所述影响指标数值，其余影响指标数值不变，将改变后的影响指标数据输入集成学习模型获得第二判断结果，设原影响指标数据输入集成学习模型获得的判断结果为第一判断结果，获取第二判断结果与第一判断结果的差异度；

按照差异度从大到小的顺序对影响指标进行排序，将排序结果作为影响指标重要度排序输出。

5.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，还包括集成学习模型获取模块，所述集成学习模型获取模块执行以下步骤：

步骤一，选择一个以上初始机器学习模型；

步骤二，通过数据收集模块从医院数据库中提取多组包含单纯2型糖尿病人和2型糖尿病肾脏病人的临床指标数据，并为每组数据打上是否患2型糖尿病肾脏疾病的标签，基于多组临床指标数据构建训练集和验证集；

步骤三，分别通过训练集和验证集对各机器学习初始模型进行训练、验证以及参数更新获得优化后的机器学习模型，比较各优化后的机器学习模型的评估指标，选择评估指标最优的优化后的学习模型进行内部验证并作为集成学习模型；

步骤四，输出集成学习模型至集成学习模块。

6.如权利要求5所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，所述初始机器学习模型为随机森林模型或XGBoost模型。

7.如权利要求5所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，所述内部验证采用的方法为X折交叉验证方法，X为正整数。

8.如权利要求1所述的基于集成学习的2型糖尿病肾脏疾病患病风险评估系统，其特征在于，还包括设于数据收集模块的输出端与影响指标数据提取模块的输入端之间的预处理模块；

所述预处理模块对数据收集模块输出的指标数据进行数据清洗、数据填补、数据集成和数据规约处理。