CN114242245A

CN114242245A - 一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置

Info

Publication number: CN114242245A
Application number: CN202111585916.4A
Authority: CN
Inventors: 董哲毅; 王倩; 柯雨景; 苏仕斌; 陈香美
Original assignee: First Medical Center of PLA General Hospital
Current assignee: First Medical Center of PLA General Hospital
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-25

Abstract

本发明提供了一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，包括：步骤一，初步筛选候选预测变量；步骤二，二次筛选确定预测变量；步骤三，模型建立；步骤四，模型测试和验证，对基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统进行测试和验证。能够对有可能发展为DKD的患者进行丰富的试验，可以减少样本量要求，并导致更短、更有效的临床试验，能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。

Description

一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置

技术领域

本发明涉及生物检测技术领域，尤其是涉及基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置。

背景技术

目前有资料显示，糖尿病进展为DN(糖尿斌肾病diabetic nephropathy，DN)的发生率为40％左右，一旦发生DN，除了导致ESRD(终末期肾脏病End stage renal disease，ESRD)，同时也增加冠心病的风险及全因死亡率的增加。糖尿病和CKD是COVID-19感染不良结局的危险因素。早期发现DN高风险的患者也许可以改变流行病学趋势。因此，DN的预测和风险因素控制是重要且必要的。

如果在生活中引入频繁的AER测量、血压和血糖监测、精确的GFR测量、糖尿病视网膜病变评估和血脂水平都可以增加DN预测的准确性。但是，现实世界中，对大人群糖尿病患者进行定期纵向调查和长期随访是一项挑战。在临床实践中，对肾脏病无选择性筛查是不符合成本效益，很多人根本做不到，更需要提高预测单个患者DN风险的能力。因为一级预防策略可能是最具成本效益的，因此，在微蛋白尿症发生之前就进行糖尿病患者的CKD发生率的预测显得尤为重要，且迫在眉睫，因此，目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。

目前，关于预测糖尿病如何进展为糖尿病肾病的研究较少，多以筛选危险因素为研究目的，预测模型的建立方法仍是传统逻辑回归模型，并且数据基于临床试验数据还没有基于电子病历记录数据的研究。

应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些技术方案在本发明的技术背景部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本发明的目的在于提供一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置，能够对有可能发展为DKD的患者进行丰富的试验，可以减少样本量要求，并导致更短、更有效的临床试验，能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。

为实现上述目的，本发明提供了以下技术方案：

本发明提供了一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，包括：

步骤一，初步筛选候选预测变量，根据电子病历记录数据中的信息，通过初步筛选选择若干个临床变量作为候选预测变量；

步骤二，二次筛选确定预测变量，对所述步骤一初步筛选的候选预测变量进行二次筛选，筛选出7个候选预测变量，将二次筛选的所述7个候选预测变量和LDL作为预测变量；

步骤三，模型建立，建立基于电子病历记录数据预测糖尿病肾病发生风险的机器学习模型，将步骤二中二次筛选确定的8个预测变量作为输入变量来预测糖尿病肾病发生风险；

步骤四，模型测试和验证，对所述基于电子病历记录数据预测糖尿病肾病发生风险的机器学习模型进行测试和验证。

可选地，步骤一中根据电子病历记录数据中的信息，通过初步筛选选择46个临床变量作为候选预测变量。

可选地，46个临床变量包括性别，年龄，身高，体重，BMI，尿比重，尿红细胞，血红蛋白，红细胞比积测定，平均红细胞体积，平均红细胞血红蛋白浓度，白细胞计数，中性粒细胞，淋巴细胞，中性粒细胞与淋巴细胞比率，血小板计数，平均血小板体积测定，血浆活化部分凝血活酶时间测定，血浆纤维蛋白原测定，随机血糖，糖化血红蛋白，尿素，血肌酐，血尿酸，eGFR，总胆红素，直接胆红素，血清白蛋白，γ-谷氨酰胺转移酶，总胆固醇，甘油三酯，高密度脂蛋白，低密度脂蛋白，钾，钠，钙，磷，二氧化碳，同型半胱氨酸，高血压，冠心病，周围神经病变，DR，脑血管病，合并症的数量，是否出现合并症。

可选地，所述二次筛选过程采用递归特征消除的方法，传入递归特征消除的模型评估估算器选用随机森林，并通过五折交叉验证，筛选出7个候选预测变量，所述筛选出7个候选预测变量包括年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳，所述7个候选预测变量和LDL作为预测变量。

可选地，所述模型应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法。

可选地，所述模型测试和验证包括：

步骤A，获取待预测人员的基本信息；

步骤B，对所述待预测人员进行体检，获得体检数据结果；

步骤C，将所述体检数据结果输入所述模型，判断是否得出所述待预测人员的预测结果；

如果是，则输出所述待预测人员发生糖尿病肾病的风险值；

如果不是，则重复所述步骤C。

本发明还提供一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，包括：

初步筛选候选预测变量模块，所述初步筛选候选预测变量模块用于根据电子病历记录数据中的信息，通过初步筛选选择若干个临床变量作为候选预测变量；

二次筛选确定预测变量模块，所述二次筛选确定预测变量模块用于对经过所述初步筛选候选预测变量模块进行初步筛选后的候选预测变量进行二次筛选，筛选出7个候选预测变量，将二次筛选的所述7个候选预测变量和LDL作为预测变量；

模型建立模块，所述模型建立模块用于建立基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，将二次筛选确定预测变量模块确定的8个预测变量作为输入变量来预测糖尿病肾病发生风险；

模型测试和验证模块，所述模型测试和验证模块用于对所述基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统进行测试和验证；

所述初步筛选候选预测变量模块、二次筛选确定预测变量模块、模型建立模块与模型测试和验证模块依次连接。

可选地，所述模型建立模块包括：

特征模块，所述特征模块用于分析采集的电子病历记录数据的特征信息。

训练集模块，所述训练集模块用于根据所述采集的电子病历记录数据的特征信息建立训练集，所述训练集的标签包括3年后是否判定为糖尿病肾病。

模型构建模块：基于机器学习方法，通过所述训练集进行训练，获得预测模型。

所述模型测试和验证模块包括：

预测模块，所述预测模块通过所述预测模型，对待预测数据进行预测，获得标签值。

SHAP分析模块，所述SHAP分析模块用于获得预测模型中特征的SHAP值，根据待预测数据中特征的SHAP值，预测糖尿病肾病的个体和总体发生概率；

所述特征模块、训练集模块、模型构建模块、所述模型测试和验证模块依次连接。

可选地，所述模型构建模块应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法。

本发明还一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习装置，所述装置包括处理器以及存储器，所述存储器用于存储指令，所述处理器用于执行所述指令，以实现如上述权利要求中任一项所述的机器学习方法。

本发明是一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，本发明提供的技术方案中，包括：

步骤四，模型测试和验证，对所述基于电子病历记录数据预测糖尿病肾病发生风险的机器学习模型进行测试和验证。通过本发明电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，使得电子病历记录数据预测糖尿病肾病发生风险的机器学习系统能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。根据一些资料记载，糖尿病进展为DN(糖尿斌肾病diabeticnephropathy，DN)的发生率为40％左右，一旦发生DN，除了导致ESRD(终末期肾脏病Endstage renal disease，ESRD)，同时也增加冠心病的风险及全因死亡率的增加。糖尿病和CKD是COVID-19感染不良结局的危险因素。早期发现DN高风险的患者也许可以改变流行病学趋势。因此，DN的预测和风险因素控制是重要且必要的。如果在生活中引入频繁的AER测量、血压和血糖监测、精确的GFR测量、糖尿病视网膜病变评估和血脂水平都可以增加DN预测的准确性。但是，现实世界中，对大人群糖尿病患者进行定期纵向调查和长期随访是一项挑战。在临床实践中，对肾脏病无选择性筛查是不符合成本效益，很多人根本做不到，更需要提高预测单个患者DN风险的能力。因为一级预防策略可能是最具成本效益的，因此，在微蛋白尿症发生之前就进行糖尿病患者的CKD发生率的预测显得尤为重要，且迫在眉睫，因此，目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。但是，目前，关于预测糖尿病如何进展为糖尿病肾病的研究较少，多以筛选危险因素为研究目的，预测模型的建立方法仍是传统逻辑回归模型，并且数据基于临床试验数据还没有基于电子病历记录数据的研究。本发明的电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，使用7种机器学习方法：LightGBM，XGBoost，AdaBoost，神经网络，决策树，支持向量机，逻辑回归，建立电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并可以将该模型应用于医院病历系统场景中使用，它可以用作个性化DKD监测工具，通过可视化方法帮助临床医生和护士管理高风险DKD患者，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

在本发明的优选方案中，步骤一中根据电子病历记录数据中的信息，通过初步筛选选择46个临床变量作为候选预测变量。在模型构建的过程中，利用电子病历记录数据中的信息，我们测量了基线和3年后的特征，所有变量均来自易于普遍实施的实验室检查：血常规、血生化等结果，步骤一中，本发明人根据医学和文献报道选择46个临床变量被用作预测模型的预测指标，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据，由此得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。

在本发明的优选方案中，选择了多个临床变量作为指征，具体的，该临床变量的数量为46个，46个临床变量包括性别，年龄，身高，体重，BMI，尿比重，尿红细胞，血红蛋白，红细胞比积测定，平均红细胞体积，平均红细胞血红蛋白浓度，白细胞计数，中性粒细胞，淋巴细胞，中性粒细胞与淋巴细胞比率，血小板计数，平均血小板体积测定，血浆活化部分凝血活酶时间测定，血浆纤维蛋白原测定，随机血糖，糖化血红蛋白，尿素，血肌酐，血尿酸，eGFR，总胆红素，直接胆红素，血清白蛋白，γ-谷氨酰胺转移酶，总胆固醇，甘油三酯，高密度脂蛋白，低密度脂蛋白，钾，钠，钙，磷，二氧化碳，同型半胱氨酸，高血压，冠心病，周围神经病变，DR，脑血管病，合并症的数量，是否出现合并症。所有的变量均来自于普通实施的实验室检查结果：血常规、血生化等结果，为了更精准的预测糖尿病肾病的发生几率，受试者的基线尿蛋白均为正常数值，为了更好地提高模型的预测精准程度，未将蛋白尿作为预测变量指标，缺失值采用随机森林法填补，最初根据医学和文献报道相关资料，初步确定以上46个临床变量被用作预测模型的预测指标，大大提高了模型的预测精准程度。

在本发明的优选方案中，所述二次筛选过程采用递归特征消除的方法，传入递归特征消除的模型评估估算器选用随机森林，并通过五折交叉验证，筛选出7个候选预测变量，所述筛选出7个候选预测变量包括年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳，在本发明的优选方案中，LDL作为DKD常见的危险因素，因此，被选为预测指标之一，最终，将所述7个候选预测变量：年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳和LDL，共计8个指标作为预测变量。

在本发明的优选方案中，所述模型应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法，通过比较不同学习算法的性能，能够识别出最有效的算法，从而最能预测DN发生的特征。Python3.8.3软件包评估了7种ML算法：LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归，通过比较LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归不同学习算法的性能，以便识别出最有效的算法，以及最能预测DN发生的特征。

LightGBM是boosting集合模型中的新进成员，它和XGBoost一样是对GBDT的高效实现，都采用损失函数的负梯度作为当前决策树的残差近似值，去拟合新的决策树。相比XGBoost，其优点在于训练效率更快、低内存高精确率，支持大规模数据同时支持使用类别特征。AdaBoost算法是一种提升方法，将多个弱分类器，组合成强分类器。神经网络模型代表了逻辑回归方法的(显着)增强。支持向量机(SVM)算法是一种二进制分类器，它通过非线性变换(也称为内核技巧)将输入数据映射到非常高维的特征空间中。logistic回归算法在属性选择中建立线性模型。

在本发明的优选方案中，预测模型的二元结果定义为糖尿病肾病的发生或不发生。数据的每个子集都包括先前提到的特征的基线值(在患者登记时)以及直到3年后的观察值。数据被随机分配到单独的训练和测试数据集，使用python软件包的scikit-learn。80％数据用于训练模型，其余20％用于测试和验证模型的预测性能。

可选地，所述模型测试和验证包括：

步骤A，获取待预测人员的基本信息；

步骤B，对所述待预测人员进行体检，获得体检数据结果；

如果是，则输出所述待预测人员发生糖尿病肾病的风险值；

如果不是，则重复所述步骤C。通过对待预测人员进行体检，即可将体检结果自动输入预测模型从而进行数据分析，得出预测结果，简单、方便、快捷且得出的预测结果是基于LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归等算法的，因此，得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。

本发明还提供一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，包括初步筛选候选预测变量模块、二次筛选确定预测变量模块、模型建立模块、模型测试和验证模块几个模块，具体介绍如下：

初步筛选候选预测变量模块，初步筛选候选预测变量模块用于根据电子病历记录数据中的信息，通过初步筛选选择若干个临床变量作为候选预测变量；

二次筛选确定预测变量模块，二次筛选确定预测变量模块用于对经过初步筛选候选预测变量模块进行初步筛选后的候选预测变量进行二次筛选，筛选出7个候选预测变量，将二次筛选的所述7个候选预测变量和LDL作为预测变量，即，通过初步筛选候选预测变量模块和二次筛选确定预测变量模块的两次筛选过程，确定预测变量为8个。

模型建立模块，模型建立模块用于建立基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，将二次筛选确定预测变量模块确定的8个预测变量作为输入变量来预测糖尿病肾病发生风险；

模型测试和验证模块，模型测试和验证模块用于对基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统进行测试和验证；

基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统中的初步筛选候选预测变量模块、二次筛选确定预测变量模块、模型建立模块与模型测试和验证模块依次连接。目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。但是，目前，关于预测糖尿病如何进展为糖尿病肾病的研究较少，多以筛选危险因素为研究目的，预测模型的建立方法仍是传统逻辑回归模型，并且数据基于临床试验数据还没有基于电子病历记录数据的研究，通过本发明基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使得该模型能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。本发明的电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使用7种机器学习方法：LightGBM，XGBoost，AdaBoost，神经网络，决策树，支持向量机，逻辑回归，从而来建立电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并可以将该模型应用于医院病历系统场景中使用，它可以用作个性化DKD监测工具，通过可视化方法帮助临床医生和护士管理高风险DKD患者，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

在本发明的优选方案中，模型建立模块包括：

特征模块，特征模块用于分析采集的电子病历记录数据的特征信息。

训练集模块，训练集模块用于根据采集的电子病历记录数据的特征信息建立训练集，训练集的标签包括3年后是否判定为糖尿病肾病。

模型构建模块：基于机器学习方法，通过训练集进行训练，获得预测模型。

模型测试和验证模块包括：

预测模块，预测模块通过预测模型，对待预测数据进行预测，获得标签值。

SHAP分析模块，SHAP分析模块用于获得预测模型中特征的SHAP值，根据待预测数据中特征的SHAP值，预测糖尿病肾病的个体和总体发生概率；

模型建立模块中的特征模块、训练集模块、模型构建模块、模型测试和验证模块依次连接，通过本发明基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使得该模型能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。

在本发明的优选方案中，模型构建模块应用LightGBM，XGBoost，AdaptiveBoosting，神经网络，决策树，支持向量机或逻辑回归算法。通过比较不同学习算法的性能，能够识别出最有效的算法，从而最能预测DN发生的特征。Python3.8.3软件包评估了7种ML算法：LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归，通过比较LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归不同学习算法的性能，以便识别出最有效的算法，以及最能预测DN发生的特征。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法流程图；

图2是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法模型测试和验证流程图；

图3是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统结构示意图；

图4是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统中模型建立模块结构示意图；

图5是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中7种机器学习算法在测试数据集中的AUC、灵敏度、阳性预测值和阴性预测值示意图；

图6是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中对于LightGBM模型对危险因素按照对结局的影响程度排序示意图；

图7是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中SHAP总结示意图；

图8是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素年龄Age的SHAP依赖图；

图9是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素年龄同型半胱氨酸Hcy的SHAP依赖图；

图10是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素糖化血红蛋白HbA1c的SHAP依赖图；

图11是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素BMI的SHAP依赖图；

图12是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素血清白蛋白ALB的SHAP依赖图；

图13是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素eGFR的SHAP依赖图；

图14是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素二氧化碳的SHAP依赖图；

图15是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中危险因素LDL的SHAP依赖图；

图16是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统中三年后发展为DKD的72岁女性患者的时间概率的示意图；

图17是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统中61岁女性患者发生DKD事件的可能性示意图；

图18是本发明实施例中基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统中三年后发生DKD的总体风险示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

糖尿病肾病是由于长时间患糖尿病而导致的蛋白尿以及肾小球滤过率(GFR)进行性降低。糖尿病肾病是糖尿病病人最重要的合并症之一。我国的发病率亦呈上升趋势，已成为终末期肾脏病的第二位原因，仅次于各种肾小球肾炎。由于其存在复杂的代谢紊乱，一旦发展到终末期肾脏病，往往比其他肾脏疾病的治疗更加棘手，因此及时防治对于延缓糖尿病肾病的意义重大。糖尿病肾病通常是根据UACR增高或eGFR下降、同时排除其他CKD而做出的临床诊断。糖尿病病人临床上出现肾脏损害应考虑糖尿病肾病，家族中有肾脏病者、明显高血压、胰岛素抵抗，GFR明显过高或伴严重高血压者为发生糖尿病肾病的高危因素。微量白蛋白尿是诊断糖尿病肾病的标志。微量白蛋白尿指UAE持续升高20～200μg/min，或尿白蛋白30～300mg/24h，尿肌酐为30～300μg/mg。

微量白蛋白尿与糖尿病的其他多种并发症有关，包括高血压、高脂血症、动脉粥样硬化和心血管疾病等。因此出现微量白蛋白尿不一定就代表发生了糖尿病肾病，其出现以后是否必然进展到明显蛋白尿进而慢性肾衰退尚存在争议。在几个较大系列的长期观察中发现有微量白蛋白尿的糖尿病病人，10年中仅有30％～45％转为临床显性蛋白尿，另有30％微量白蛋白尿消失，这在2型糖尿病中更明显。因此应多次检查、连续随访才可判定。2型糖尿病伴有蛋白尿的糖尿病病人，在诊断糖尿病肾病之前必须仔细排除其他可能引起蛋白尿的原因，尤其对于不能明确发病时间的2型糖尿病病人。临床上出现下列情况应考虑糖尿病合并了其他肾脏病：①有明显蛋白尿但无明显糖尿病视网膜病变；②急性肾损伤；③肾炎性血尿，尿沉渣以畸形红细胞为主或有红细胞管型；④不伴高血压的肾病综合征；⑤短期内蛋白尿明显增加等。出现上述情况应考虑肾活检以除外其他原因的肾小球病。

现实世界中，对大人群糖尿病患者进行定期纵向调查和长期随访是一项挑战。在临床实践中，对肾脏病无选择性筛查是不符合成本效益，很多人根本做不到，更需要提高预测单个患者DN风险的能力。因为一级预防策略可能是最具成本效益的，因此，在微蛋白尿症发生之前就进行糖尿病患者的CKD发生率的预测显得尤为重要，且迫在眉睫，因此，目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。

目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。但是，目前，关于预测糖尿病如何进展为糖尿病肾病的研究较少，多以筛选危险因素为研究目的，预测模型的建立方法仍是传统逻辑回归模型，并且数据基于临床试验数据还没有基于电子病历记录数据的研究，通过本发明基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使得该模型能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。本发明的电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使用7种机器学习方法：LightGBM，XGBoost，AdaBoost，神经网络，决策树，支持向量机，逻辑回归，从而来建立电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并可以将该模型应用于医院病历系统场景中使用，它可以用作个性化DKD监测工具，通过可视化方法帮助临床医生和护士管理高风险DKD患者，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

本发明提供一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，如图1-图18所示，包括以下几个步骤：

步骤二，二次筛选确定预测变量，对步骤一初步筛选的候选预测变量进行二次筛选，筛选出7个候选预测变量，将二次筛选的7个候选预测变量和LDL作为预测变量；

步骤四，模型测试和验证，对基于电子病历记录数据预测糖尿病肾病发生风险的机器学习模型进行测试和验证。

通过步骤一和步骤二的初步筛选过程和二次筛选过程，从而使得根据电子病历记录数据中的信息，筛选出8个预测变量，从而建立基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并进行测试和验证，通过本发明电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，使得电子病历记录数据预测糖尿病肾病发生风险的机器学习系统能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。根据一些资料记载，糖尿病进展为DN(糖尿斌肾病diabetic nephropathy，DN)的发生率为40％左右，一旦发生DN，除了导致ESRD(终末期肾脏病End stage renal disease，ESRD)，同时也增加冠心病的风险及全因死亡率的增加。糖尿病和CKD是COVID-19感染不良结局的危险因素。早期发现DN高风险的患者也许可以改变流行病学趋势。因此，DN的预测和风险因素控制是重要且必要的。如果在生活中引入频繁的AER测量、血压和血糖监测、精确的GFR测量、糖尿病视网膜病变评估和血脂水平都可以增加DN预测的准确性。但是，现实世界中，对大人群糖尿病患者进行定期纵向调查和长期随访是一项挑战。在临床实践中，对肾脏病无选择性筛查是不符合成本效益，很多人根本做不到，更需要提高预测单个患者DN风险的能力。因为一级预防策略可能是最具成本效益的，因此，在微蛋白尿症发生之前就进行糖尿病患者的CKD发生率的预测显得尤为重要，且迫在眉睫，因此，目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。但是，目前，关于预测糖尿病如何进展为糖尿病肾病的研究较少，多以筛选危险因素为研究目的，预测模型的建立方法仍是传统逻辑回归模型，并且数据基于临床试验数据还没有基于电子病历记录数据的研究。本发明的电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，使用7种机器学习方法：LightGBM，XGBoost，AdaBoost，神经网络，决策树，支持向量机，逻辑回归，建立电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并可以将该模型应用于医院病历系统场景中使用，它可以用作个性化DKD监测工具，通过可视化方法帮助临床医生和护士管理高风险DKD患者，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

于本发明的具体实施例中，步骤一中根据电子病历记录数据中的信息，通过初步筛选选择若干个临床变量作为候选预测变量。该过程只是一个初步筛选过程，在模型构建的过程中，利用电子病历记录数据中的信息，我们测量了基线和3年后的特征，所有变量均来自易于普遍实施的实验室检查：血常规、血生化等结果，步骤一中，本发明人根据医学和文献报道选择46个临床变量被用作预测模型的预测指标，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据，由此得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。具体的，步骤一中根据电子病历记录数据中的信息，通过初步筛选选择46个临床变量作为候选预测变量。

需要说明的是，初步筛选过程中临床变量的数量为46个，但是并不局限于46个，这只是本发明人在试验过程中，根据经验、资料和初步试验得到的比较满意的结果，这只是本发明的一个具体实施例，其他数量也是在本发明的保护范围之内。

于本发明的具体实施例中，46个临床变量包括性别，年龄，身高，体重，BMI，尿比重，尿红细胞，血红蛋白，红细胞比积测定，平均红细胞体积，平均红细胞血红蛋白浓度，白细胞计数，中性粒细胞，淋巴细胞，中性粒细胞与淋巴细胞比率，血小板计数，平均血小板体积测定，血浆活化部分凝血活酶时间测定，血浆纤维蛋白原测定，随机血糖，糖化血红蛋白，尿素，血肌酐，血尿酸，eGFR，总胆红素，直接胆红素，血清白蛋白，γ-谷氨酰胺转移酶，总胆固醇，甘油三酯，高密度脂蛋白，低密度脂蛋白，钾，钠，钙，磷，二氧化碳，同型半胱氨酸，高血压，冠心病，周围神经病变，DR，脑血管病，合并症的数量，是否出现合并症。所有的变量均来自于普通实施的实验室检查结果：血常规、血生化等结果，为了更精准的预测糖尿病肾病的发生几率，受试者的基线尿蛋白均为正常数值，为了更好地提高模型的预测精准程度，未将蛋白尿作为预测变量指标，缺失值采用随机森林法填补，随机森林指的是利用多棵树对样本进行训练并预测的一种分类器，随机森林是一种很灵活实用的方法，它有如下几个特点：

在当前所有算法中，具有极好的准确率；

能够有效地运行在大数据集上；

能够处理具有高维特征的输入样本，而且不需要降维；

能够评估各个特征在分类问题上的重要性；

在生成过程中，能够获取到内部生成误差的一种无偏估计；

对于缺省值问题也能够获得很好得结果。

最初根据医学和文献报道相关资料，初步确定以上46个临床变量被用作预测模型的预测指标，大大提高了模型的预测精准程度。

于本发明的具体实施例，采用随机森林来进行数据缺失的填补，具体的，给缺失值预设一些估计值，比如数值型特征，选择其余数据的中位数或众数作为当前的估计值，然后，根据估计的数值，建立随机森林，把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径，然后来判断哪组数据和缺失数据路径最相似，引入一个相似度矩阵，来记录数据之间的相似度，比如有N组数据，相似度矩阵大小就是N*N，如果缺失值是类别变量，通过权重投票得到新估计值，如果是数值型变量，通过加权平均得到新的估计值，如此迭代，直到得到稳定的估计值，能够提前打好基础，大大提高基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统的准确率，提高预测精准性。

于本发明的具体实施例中，二次筛选过程采用递归特征消除的方法，传入递归特征消除的模型评估估算器选用随机森林，并通过五折交叉验证，筛选出7个候选预测变量，其中，7个候选预测变量包括年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳，并将7个候选预测变量和LDL作为预测变量。筛选出的7个候选预测变量包括年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳，由于LDL作为DKD常见的危险因素，因此，于本发明的具体实施例中LDL被选为预测指标之一，最终，将7个候选预测变量：年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳和LDL，共计8个指标作为预测变量。由于指标数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据，另外，基于上述两次筛选过程最终确立了少量的候选预测变量，由此得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。

于本发明的具体实施例中，模型应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法等。通过比较不同学习算法的性能，能够识别出最有效的算法，从而最能预测DN发生的特征。于本发明的具体实施例中，本发明人在模型模块应用了上述多种算法，需要说明的是，LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法仅仅是本发明模型简历过程中应用的几种实施例，并不局限于此，LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法等其他类型的算法也在本发明的保护范围之内。

GBDT(Gradient Boosting Decision Tree)是机器学习中一个长盛不衰的模型，其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型，该模型具有训练效果好、不易过拟合等优点。GBDT通常被用于多分类、点击率预测、搜索排序等任务；在各种数据挖掘竞赛中也是致命武器，据统计Kaggle上的比赛有一半以上的冠军方案都是基于GBDT。LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。

如图5所示，于本发明的具体实施例中，横坐标为False Positive Rate，纵坐标为True Positive Rate，关于Validation Cohort ROC，Python3.8.3软件包评估了7种ML算法：LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归。比较了不同学习算法的性能，以便识别出最有效的算法，以及最能预测DN发生的特征。将年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳、LDL8个变量作为输入变量来预测DKD的发生，在7种机器学习算法中，LightGBM在测试数据集中显示出最大的AUC(0.815，95％CI 0.747-0.882)、灵敏度、阳性预测值和阴性预测值。

如表1所示，AUC值＞0.7反映了分类器的良好预测性能，很明显的能够看出，LightGBM、XGBoost、AdaBoost、神经网络、决策树、支持向量机、逻辑回归分别为0.747、0.706、0.738、0.730、0.503、0.720、0.728，由此可见，数值均大于0.7，可见均具有良好的预测性能。简单决策树表现出最小的AUC(0.579，95％CI 0.503-0.655)。下表1显示了7种ML模型的预测性能，LightGBM、XGBoost、AdaBoost、神经网络、决策树、支持向量机、逻辑回归。

表1

表1中，各表头含义如下：

AUC：ROC曲线下面积

CI：置信区间

SE(sensitivity/recall)：灵敏度/召回率

SP(specificity)：特异度

AC(accuracy)：准确度

PPV(positive predictive value)：阳性预测值

NPV(negative predictive value)：阴性预测值

其中，由表1中可以明显的看出，LightGBM在测试数据集中显示出最大的AUC，数值为0.815。其次，AUC比较大的为AdaBoost，数值为0.805。

Python3.8.3软件包评估了7种ML算法：LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归，本发明具体实施例中，通过比较LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归不同学习算法的性能，从而能够识别出最有效的算法，以及最能预测DN发生的特征。目前已报道的机器学习建模方法包括J48决策树(J48)，随机森林(RF)，简单逻辑(SL)，顺序最小优化(SMO)，C统计，Akaike和朴素贝叶斯(NB)等。但仍以传统回归模型多见，真正使用机器学习方法进行建模、验证的实例还没有，本发明应用LightGBM，XGBoost，AdaptiveBoosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归等多种算法，能够大幅度提高模型预测的精准度。

于本发明的具体实施例中，基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法中模型测试和验证包括以下几个步骤，如图2所示：

步骤A，获取待预测人员的基本信息；

步骤B，对待预测人员进行体检，获得体检数据结果；

步骤C，将体检数据结果输入模型，判断是否得出待预测人员的预测结果；

如果是，则输出待预测人员发生糖尿病肾病的风险值；

如果不是，则重复步骤C。通过对待预测人员进行体检，即可将体检结果自动输入预测模型从而进行数据分析，得出预测结果，简单、方便、快捷且得出的预测结果是基于LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归等算法的，因此，得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。

本发明还提供一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，包括如下几个模块：

初步筛选候选预测变量模块1，初步筛选候选预测变量模块1用于根据电子病历记录数据中的信息，通过初步筛选选择若干个临床变量作为候选预测变量；

二次筛选确定预测变量模块2，二次筛选确定预测变量模块2用于对经过初步筛选候选预测变量模块1进行初步筛选后的候选预测变量进行二次筛选，筛选出7个候选预测变量，将二次筛选的7个候选预测变量和LDL作为预测变量；

模型建立模块3，模型建立模块用于建立基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，将二次筛选确定预测变量模块2确定的8个预测变量作为输入变量来预测糖尿病肾病发生风险；

模型测试和验证模块4，模型测试和验证模块4用于对基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统进行测试和验证；

初步筛选候选预测变量模块1、二次筛选确定预测变量模块2、模型建立模块3与模型测试和验证模块4依次连接。

初步筛选候选预测变量模块1和二次筛选确定预测变量模块2的初步筛选过程和二次筛选过程，从而使得根据电子病历记录数据中的信息，筛选出8个预测变量基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统进行测试和验证，通过本发明电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使得电子病历记录数据预测糖尿病肾病发生风险的机器学习系统能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。根据一些资料记载，糖尿病进展为DN(糖尿斌肾病diabetic nephropathy，DN)的发生率为40％左右，一旦发生DN，除了导致ESRD(终末期肾脏病End stage renal disease，ESRD)，同时也增加冠心病的风险及全因死亡率的增加。糖尿病和CKD是COVID-19感染不良结局的危险因素。早期发现DN高风险的患者也许可以改变流行病学趋势。因此，DN的预测和风险因素控制是重要且必要的。如果在生活中引入频繁的AER测量、血压和血糖监测、精确的GFR测量、糖尿病视网膜病变评估和血脂水平都可以增加DN预测的准确性。但是，现实世界中，对大人群糖尿病患者进行定期纵向调查和长期随访是一项挑战。在临床实践中，对肾脏病无选择性筛查是不符合成本效益，很多人根本做不到，更需要提高预测单个患者DN风险的能力。因为一级预防策略可能是最具成本效益的，因此，在微蛋白尿症发生之前就进行糖尿病患者的CKD发生率的预测显得尤为重要，且迫在眉睫，因此，目前迫切需要精确的预测模型，一方面可以进行大规模人群的DN风险筛查，另一方面可以指导糖尿病患者避免发生DN。但是，目前，关于预测糖尿病如何进展为糖尿病肾病的研究较少，多以筛选危险因素为研究目的，预测模型的建立方法仍是传统逻辑回归模型，并且数据基于临床试验数据还没有基于电子病历记录数据的研究。本发明的电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，使用7种机器学习方法：LightGBM，XGBoost，AdaBoost，神经网络，决策树，支持向量机，逻辑回归，建立电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并可以将该模型应用于医院病历系统场景中使用，它可以用作个性化DKD监测工具，通过可视化方法帮助临床医生和护士管理高风险DKD患者，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

初步筛选候选预测变量模块1中根据电子病历记录数据中的信息，通过初步筛选选择46个临床变量作为候选预测变量。在模型构建的过程中，利用电子病历记录数据中的信息，我们测量了基线和3年后的特征，所有变量均来自易于普遍实施的实验室检查：血常规、血生化等结果，步骤一中，本发明人根据医学和文献报道选择46个临床变量被用作预测模型的预测指标，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据，由此得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。

于本发明的具体实施例中，在模型建立中，择了多个临床变量作为指征，具体的，该临床变量的数量为46个，46个临床变量包括性别，年龄，身高，体重，BMI，尿比重，尿红细胞，血红蛋白，红细胞比积测定，平均红细胞体积，平均红细胞血红蛋白浓度，白细胞计数，中性粒细胞，淋巴细胞，中性粒细胞与淋巴细胞比率，血小板计数，平均血小板体积测定，血浆活化部分凝血活酶时间测定，血浆纤维蛋白原测定，随机血糖，糖化血红蛋白，尿素，血肌酐，血尿酸，eGFR，总胆红素，直接胆红素，血清白蛋白，γ-谷氨酰胺转移酶，总胆固醇，甘油三酯，高密度脂蛋白，低密度脂蛋白，钾，钠，钙，磷，二氧化碳，同型半胱氨酸，高血压，冠心病，周围神经病变，DR，脑血管病，合并症的数量，是否出现合并症。所有的变量均来自于普通实施的实验室检查结果：血常规、血生化等结果，为了更精准的预测糖尿病肾病的发生几率，受试者的基线尿蛋白均为正常数值，为了更好地提高模型的预测精准程度，未将蛋白尿作为预测变量指标，缺失值采用随机森林法填补，最初根据医学和文献报道相关资料，初步确定以上46个临床变量被用作预测模型的预测指标，大大提高了模型的预测精准程度。

在该机器学习装置中，二次筛选过程采用递归特征消除的方法，传入递归特征消除的模型评估估算器选用随机森林，并通过五折交叉验证，筛选出7个候选预测变量，筛选出7个候选预测变量包括年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳，在本发明的优选方案中，LDL作为DKD常见的危险因素，因此，被选为预测指标之一，最终，将7个候选预测变量：年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳和LDL，共计8个指标作为预测变量。模型应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法，通过比较不同学习算法的性能，能够识别出最有效的算法，从而最能预测DN发生的特征。Python3.8.3软件包评估了7种ML算法：LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归，通过比较LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归不同学习算法的性能，以便识别出最有效的算法，以及最能预测DN发生的特征。于本发明的具体实施例中，预测模型的二元结果定义为糖尿病肾病的发生或不发生。数据的每个子集都包括先前提到的特征的基线值(在患者登记时)以及直到3年后的观察值。数据被随机分配到单独的训练和测试数据集，使用python软件包的scikit-learn。80％数据用于训练模型，其余20％用于测试和验证模型的预测性能。

如图6所示，我们选择LightGBM模型作为代表进行分析，通过为每个变量分配0到1之间的权重来量化相对重要性，从而绘制了图6来表示每个变量的重要性，对危险因素按照对结局的影响程度从上到下进行排序，依次包括基线时的年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳、LDL，由此可见，基线时的年龄对于结局的影响的重要性最大，LDL对于结局的影响的重要性最小。

如图7所示，为了识别特征是如何影响DKD的发生结局，我们描绘了SHAP总结图，每个患者的每个特征用一个点表示，点的颜色深浅不一，由浅灰色到黑色，颜色越深代表特征的值越高，颜色越浅代表特征的值越低。如果特征的SHAP值小于0则为DKD保护性因素，反之为危险性因素。由图可以明显的看出，年龄和eGFR为例，患者年龄越小、eGFR越高，3年后发生DKD的风险越低。

SHAP依赖图也可以用来理解单个特征如何影响结局。如图8到图15所示，分别为8个危险因素的SHAP依赖图，同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳、LDL，8个危险因素。图8为基线时的年龄SHAP依赖图、图9为同型半胱氨酸SHAP依赖图、图10为糖化血红蛋白SHAP依赖图、图11为BMI的SHAP依赖图、图12为血清白蛋白SHAP依赖图、图13为eGFR的SHAP依赖图、图14为二氧化碳SHAP依赖图、图15为LDL的SHAP依赖图。每个黑点代表一个患者，从而可以想象出特征的属性重要性如何随着其值在情节中的变化而变化。特定特征的SHAP值超过零表示AKI发展的风险增加，图中的横线表示零所在的位置，观察每个黑点的分布区间，如果分布在横线以上，则表示该特定特征的SHAP值超过零，以为这该特征的AKI发展的风险增加，如图9所示，可知，随着Hcy的增加，黑点基本趋于零以上，可见高Hcy与DKD发生的高风险相关，以下图10到15，可以看出高Hcy、HbA1c，低eGFR与DKD发生的高风险相关，过高或过低的BMI都可能有更高的DKD发生风险。

在模型测试和验证过程中，通过以下步骤来进行预测：

步骤A，获取待预测人员的基本信息；

步骤B，对待预测人员进行体检，获得体检数据结果；

步骤C，将体检数据结果输入所述模型，判断是否得出待预测人员的预测结果；

如果是，则输出待预测人员发生糖尿病肾病的风险值；

于本发明的具体实施例中，模型建立和预测中，训练集人群，应符合以下特征：诊断为2型糖尿病还未发生CKD，年龄≥18岁来院就诊的门诊和住院患者，该方法还可用作临床试验中患者纳入/排除的筛选工具。对有可能发展为DKD的患者进行丰富的试验可以减少样本量要求，并导致更短、更有效的临床试验。

基于电子病历记录数据预测糖尿病肾病发生风险的机器学习装置模型应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法等。通过比较不同学习算法的性能，能够识别出最有效的算法，从而最能预测DN发生的特征。于本发明的具体实施例中，本发明人在模型模块应用了上述多种算法，需要说明的是，LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法仅仅是本发明模型简历过程中应用的几种实施例，并不局限于此，LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法等其他类型的算法也在本发明的保护范围之内。

于本发明的具体实施例中，结合多个临床变量的LightGBM方法可以比传统逻辑回归方法和其他机器学习方法更好地预测DKD，因此使用LightGBM风险预测模型分析了2个观察期为3年的案例。图16患者预测为DKD，根据权重由高到底，依次依据同型半胱氨酸Hcy(26.29μmol/L)，估算的肾小球滤过率eGFR(64.97ml/min/1.73m²)，二氧化碳(29.5mmol/L)，年龄age(72years)，身体质量指数BMI(33.06kg/m²)，糖化血清蛋白HbA1c(7.1％)，血清白蛋白ALB(40.3g/L)，其中前六个特征为深灰色，最后一个特征为浅灰色，深灰色越多提示该患者3年后发生DKD的风险越高。图16显示出了对于3年后发展为DKD的72岁女性患者的事件概率的图，发生DKD的概率为92.4％，危险因素用条形图表示，条形图长度越长危险程度越高，深灰色的危险因素越多患病风险越高。该患者如能降低Hcy、BMI、HbA1c等危险因素，可能降低3年后的DKD发生风险，该图能够帮助医生对患者进行个体化的管理。

图17患者预测为非DKD，根据权重由高到低，依次依据身体质量指数BMI(23.63kg/m²)，二氧化碳(28.8mmol/L)，同型半胱氨酸Hcy(13.03μmol/L)，血清白蛋白ALB(41.4g/L)，年龄age(61years)，估算的肾小球滤过率eGFR(90.23ml/min/1.73m²)，图17展示出了在61岁的女性患者发生该事件的可能性，5年后未经历发展为DKD，事件发生的可能性31.7％，其中前两个特征为深灰色，后边五个特征为浅灰色，深灰色的危险因素越多患病风险越高，条形图长度越长危险程度越高，危险因素条形图长度和颜色含义同图16。

图18训练集人群总体DKD的发生率SHAP值，横坐标表示每一例患者，纵坐标表示SHAP值，能够展示整体患病风险，该人群3年后发生DKD的总体风险为49.6％。其中，深灰色的纵坐标数值明显低于浅灰色的纵坐标数值，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

本发明的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，其中，模型建立模块3包括：

特征模块301，特征模块301用于分析采集的电子病历记录数据的特征信息；

训练集模块302，训练集模块302用于根据采集的电子病历记录数据的特征信息建立训练集，训练集的标签包括3年后是否判定为糖尿病肾病；

模型构建模块303：基于机器学习方法，通过训练集进行训练，获得预测模型；模型建立模块中的特征模块、训练集模块、模型构建模块、模型测试和验证模块依次连接，通过本发明基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使得该模型能够实现在医院病历系统场景中使用，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，具有重要的研究意义和使用价值。

于本发明的具体实施例中，模型测试和验证模块4包括：

SHAP分析模块，SHAP分析模块用于获得预测模型中特征的SHAP值，根据待预测数据中特征的SHAP值，预测糖尿病肾病的个体和总体发生概率；特征模块301、训练集模块302、模型构建模块303、模型测试和验证模块4依次连接。本发明的电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，使用7种机器学习方法：LightGBM，XGBoost，AdaBoost，神经网络，决策树，支持向量机，逻辑回归，从而来建立电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，并可以将该模型应用于医院病历系统场景中使用，它可以用作个性化DKD监测工具，通过可视化方法帮助临床医生和护士管理高风险DKD患者，并有针对性的控制DKD的危险因素，模型能够展示研究对象整体患病风险，对DKD风险高的人群总体的预测会更好地为卫生资源的分配提供信息，由于数据来源于电子病历记录数据，比来自临床试验的数据更能代表2型糖尿病患者的真实世界数据。

于本发明的具体实施例中，模型构建模块应用LightGBM，XGBoost，AdaptiveBoosting，神经网络，决策树，支持向量机或逻辑回归算法。通过比较不同学习算法的性能，能够识别出最有效的算法，从而最能预测DN发生的特征。Python3.8.3软件包评估了7种ML算法：LightGBM，XGBoost，Adaptive Boosting(AdaBoost)，神经网络，决策树，支持向量机，逻辑回归。比较了不同学习算法的性能，以便识别出最有效的算法，以及最能预测DN发生的特征。得到的预测糖尿病肾病发生风险几率的准确性会更加准确，具有重要的研究价值和使用价值。

本发明提供了一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习装置，装置包括处理器以及存储器，存储器用于存储指令，处理器用于执行所述指令，以实现上述任一项所机器学习方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，其特征在于，包括：

2.根据权利要求1所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，其特征在于，步骤一中根据电子病历记录数据中的信息，通过初步筛选选择46个临床变量作为候选预测变量。

3.根据权利要求2所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，其特征在于，46个临床变量包括性别，年龄，身高，体重，BMI，尿比重，尿红细胞，血红蛋白，红细胞比积测定，平均红细胞体积，平均红细胞血红蛋白浓度，白细胞计数，中性粒细胞，淋巴细胞，中性粒细胞与淋巴细胞比率，血小板计数，平均血小板体积测定，血浆活化部分凝血活酶时间测定，血浆纤维蛋白原测定，随机血糖，糖化血红蛋白，尿素，血肌酐，血尿酸，eGFR，总胆红素，直接胆红素，血清白蛋白，γ-谷氨酰胺转移酶，总胆固醇，甘油三酯，高密度脂蛋白，低密度脂蛋白，钾，钠，钙，磷，二氧化碳，同型半胱氨酸，高血压，冠心病，周围神经病变，DR，脑血管病，合并症的数量，是否出现合并症。

4.根据权利要求3所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，其特征在于，所述二次筛选过程采用递归特征消除的方法，传入递归特征消除的模型评估估算器选用随机森林，并通过五折交叉验证，筛选出7个候选预测变量，所述7个候选预测变量包括年龄、同型半胱氨酸、糖化血红蛋白、BMI、血清白蛋白、eGFR、二氧化碳，所述7个候选预测变量和LDL作为预测变量。

5.根据权利要求4所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，其特征在于，所述模型应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法。

6.根据权利要求5所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法，其特征在于，所述模型测试和验证包括：

步骤A，获取待预测人员的基本信息；

步骤B，对所述待预测人员进行体检，获得体检数据结果；

如果是，则输出所述待预测人员发生糖尿病肾病的风险值；

如果不是，则重复所述步骤C。

7.一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，其特征在于，包括：

初步筛选候选预测变量模块(1)，所述初步筛选候选预测变量模块(1)用于根据电子病历记录数据中的信息，通过初步筛选选择若干个临床变量作为候选预测变量；

二次筛选确定预测变量模块(2)，所述二次筛选确定预测变量模块(2)用于对经过所述初步筛选候选预测变量模块(1)进行初步筛选后的候选预测变量进行二次筛选，筛选出7个候选预测变量，将二次筛选的所述7个候选预测变量和LDL作为预测变量；

模型建立模块(3)，所述模型建立模块用于建立基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，将二次筛选确定预测变量模块(2)确定的8个预测变量作为输入变量来预测糖尿病肾病发生风险；

模型测试和验证模块(4)，所述模型测试和验证模块(4)用于对所述基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统进行测试和验证；

所述初步筛选候选预测变量模块(1)、二次筛选确定预测变量模块(2)、模型建立模块(3)与模型测试和验证模块(4)依次连接。

8.根据权利要求7所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，其特征在于，

所述模型建立模块(3)包括：

特征模块(301)，所述特征模块(301)用于分析采集的电子病历记录数据的特征信息；

训练集模块(302)，所述训练集模块(302)用于根据所述采集的电子病历记录数据的特征信息建立训练集，所述训练集的标签包括3年后是否判定为糖尿病肾病；

模型构建模块(303)：基于机器学习方法，通过所述训练集进行训练，获得预测模型；

所述模型测试和验证模块(4)包括：

所述特征模块(301)、训练集模块(302)、模型构建模块(303)、所述模型测试和验证模块(4)依次连接。

9.根据权利要求8所述的基于电子病历记录数据预测糖尿病肾病发生风险的机器学习系统，其特征在于，所述模型构建模块应用LightGBM，XGBoost，Adaptive Boosting，神经网络，决策树，支持向量机或逻辑回归算法。

10.一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习装置，所述装置包括处理器以及存储器，所述存储器用于存储指令，所述处理器用于执行所述指令，以实现如权利要求1至6中任一项所述的机器学习方法。