CN114220540A

CN114220540A - 一种糖尿病肾病风险预测模型的构建方法及应用

Info

Publication number: CN114220540A
Application number: CN202111505494.5A
Authority: CN
Inventors: 赵冬; 崔庆华; 张宁; 樊锐; 柯静
Original assignee: Peking University; Beijing Luhe Hospital
Current assignee: Peking University; Beijing Luhe Hospital
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-03-22

Abstract

本发明提供了糖尿病肾病风险预测模型的构建方法及应用，构建方法包括S1、收集糖尿病患者的临床数据，并进行初步的数据筛选和过滤，确认受试者入选，构建数据集；S2、利用信息熵方法对数据集进行特征筛选，将最终筛选出的指标作为风险因素；S3、利用步骤S2最终筛选出的指标进行机器学习建模，并进行性能评估；S4、构建危险因素对个人贡献的计算方法，用于进一步分析S3模型的结果；S5、构建在线工具，利用S3、S4模型进行预测和解释。通过本发明构建的模型，可以预测DKD的风险，并建议每个人的每个指标的风险贡献程度，这对早期干预和预防有一定的临床意义。

Description

一种糖尿病肾病风险预测模型的构建方法及应用

技术领域

本发明属于医学技术领域，具体涉及一种糖尿病肾病风险预测模型的构建方法及应用。

背景技术

糖尿病肾病(DKD)是2型糖尿病(T2DM)的微血管并发症之一，包含了遗传和环境等多因素的复杂病理生理机制。DKD是一种慢性疾病，主要表现为蛋白尿、肾小球肥大、肾小球滤过率下降和肾脏纤维化，并伴有肾功能丧失。它已成为终末期肾病(ESRD)的主要原因。现有研究表明，高达40％的糖尿病患者最终会发展成DKD。在发达国家，肾脏疾病主要是由糖尿病引起的，随着糖尿病患者人口的增加，糖尿病肾脏疾病的发病率可能会提高。

DKD的早期诊断取决于对微白蛋白尿的监测，微白蛋白尿表现为尿白蛋白与肌酐的比率(UACR)，以及对糖尿病患者5年或更长时间的肾小球滤过率(eGFR)的估计。在临床上，长期以来，微量白蛋白尿被认为是DKD的诊断标准。然而，微量白蛋白尿往往容易受到血糖波动、身体活动、药物治疗和其他因素的影响。因此，许多研究侧重于检测基因、蛋白质甚至临床指标，作为诊断或筛查DKD的新指标，并对其进行统计分析。

目前关于DKD风险预测模型的研究并不完全一致。关于DKD风险因素的研究涉及不同种族的遗传学与临床实践，而且样本量从一百到一千不等。探索适合2型糖尿病患者并与当地医疗条件相匹配的风险预测模型，可以早期发现和识别潜在的DKD患者。在发明的研究中，旨在通过常用的临床指标研究汉族T2DM人群的DKD风险，并构建T2DM患者的DKD风险预测模型。

发明内容

为了解决上述技术问题，本发明提供一种糖尿病肾病风险预测模型的构建方法。

为实现上述目的，本发明采用以下的技术方案为：

一种糖尿病肾病风险预测模型的构建方法，其包括如下步骤：

S1、收集糖尿病患者的临床体检数据，并进行初步的数据筛选和过滤，确认受试者入选，构建数据集；

S2、利用信息熵方法对数据集进行特征筛选，将最终筛选出的指标作为风险因素；

S3、利用步骤S2最终筛选出的指标进行机器学习建模，并进行性能评估；

S4、构建危险因素对个人贡献的计算方法，用于进一步分析S3模型的结果；

S5、构建在线工具，利用S3、S4模型进行预测和解释。

如上所述的构建方法，优选地，在步骤S1中，所述糖尿病患者的临床数据包括身高、体重、身体质量指数(BMI)、腰围、臀围、腰臀比(W/H)、吸烟史、饮酒史、医疗史、高血压史和病程、2型糖尿病史、高脂血症史、白细胞计数、红细胞、血小板、甘油三酯、总胆固醇(TC)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、空腹血糖(FBG)、糖化血红蛋白(HbA1c)、血清肌酐(SCr)、尿酸(UA)、促甲状腺激素(TSH)、三碘甲状腺原氨酸(T3)、游离三碘甲状腺原氨酸(FT3)、四碘甲状腺原氨酸(T4)、游离四碘甲状腺原氨酸(FT4)、血沉(ESR)、空腹血糖(FBG)。

如上所述的构建方法，优选地，在步骤S1中，确认受试者入选的标准为排除标准包括任何癌症、免疫疾病、怀孕或哺乳期的病史或积极治疗，且1)非DKD组：随机尿UACR<30mg/g；

2)DKD组：包括30mg/g≤UACR<300mg/g，定义为微量白蛋白尿噬菌体，UACR≥300mg/g，定义为巨蛋白尿噬菌体。

如上所述的构建方法，优选地，在步骤S2中，基于信息熵的特征选择模型采用随机森林模型，通过网格搜索策略搜索超参数，将信息熵函数设置为基尼不纯度函数，最终通过训练的随机森林模型的特征重要性排序进行特征筛选。

如上所述的构建方法，优选地，在步骤S2中，最终筛选出的指标包括血沉(ESR)、肌酐、收缩压(SBP)、年龄、高血压病程、FT3和T3共7项。

如上所述的构建方法，优选地，在步骤S3中，根据步骤S2最终筛选出的7种指标进行机器学习建模，机器学习模型采用随机森林模型，并将树数设置为200；在每一颗决策树的构建过程中，采用基尼不纯度函数作为分支标准；在数据集D上的基尼不纯度定义为

其中，p_i是在数据集D中属于第i类的概率，C是类别的总数量；在一个决策树节点上，数据集D将依据最小基尼增益点标准A＝a分割为D₁和D₂ 2个子集，其中，最小基尼增益点定义为

其中，D_i是应用分割后的子集A＝a(D₁＝{d∈D|d≤a}，D₂＝{d∈D|d＞a})，而2个子集D₁和D₂将递归地执行相同的过程；当递归达到收敛条件后，该决策树训练完成；当规定数量的决策树训练完成后，最终模型概率通过单个决策树投票生成，最终模型预测的样本k属于类别C_i的概率，定义为RF(F^k)＝n_i/N其中，F^k代表第k个样本的指标，即

是第k个样本的第i个特征的值，m是最终筛选出特征的总数，N为决策树的数量，n_i为预测为类别C_i的决策树数量；

预测模型训练完成后，使用pickle持久化保存为可重复使用的二进制模型文件；使用时可通过先加载二进制模型文件，并输入特征向量F^k，通过运算便可输出对应属于某一类别的概率。

如上所述的构建方法，优选地，在步骤S4中，构建危险因素对个人贡献的计算方法是

C_i＝RF(F^k)-RF(F_i ^k)

其中，

是第k个样本的第i个特征的值，m是最终筛选出特征的总数；因此，

是虚拟特征向量，其中第i个特征为零，F^k是原始特征向量，RF代表S3步骤中训练好的预测模型；

当计算危险因素贡献时，应先加载S3步骤中保存的二进制模型文件，再构建如上所述的特征向量

和F^k，将两个向量输入到加载的模型中即可得到对应于两个向量的患病概率，再相减得到风险贡献度Ci。

如上所述的构建方法，优选地，在步骤S5中，构建在线工具使用传统的网页构建框架，前端使用JQuery、Bootstrap、JavaScript、HTML编写了基本的交互逻辑和用户界面，使用echarts作图并可视化，后端使用Python3的Djiango框架编写了网络请求的预处理和模型的预测；其中，

在模型训练过程中，数据使用Pandas进行读取和预处理，使用scikit-leam进行特征筛选、预测模型构建和风险因素对个人贡献的计算，最终模型使用pickle模块进行持久化；

在模型使用过程中，网络请求数据通过Djiango接受和预处理，模型使用pickle加载，最终将得到的结果可视化返回前端。

根据如上所述的构建方法构建的糖尿病肾病风险预测模型。

根据如上所述的构建方法构建的模型在糖尿病肾病风险预测中的应用。本发明的有益效果在于：

本发明提供的糖尿病肾病风险预测模型的构建方法，构建模型所筛选出的指标都是临床上十分容易获得的指标，简单易于使用，根据构建的预测模型可以提供个性化的治疗指导。通过本发明构建的模型，可以预测DKD的风险，并建议每个人的每个指标的风险贡献程度，这对早期干预和预防有一定的临床意义。

附图说明

图1为从基于信息熵的特征选择模型中提取的前10个特征的特征重要性得分。

图2为从整个数据集构建模型的预测模型效率。

图3为从特征选择数据集构建模型的预测模型效率。

图4为预测的DKD风险(红色条)或非DKD风险(绿色条)的结果。

图5为输入个体的预测特征风险贡献。

图6为糖尿病肾病风险预测模型的构建过程的示意图。

具体实施方式

以下实施例用于进一步说明本发明，但不应理解为对本发明的限制。在不背离本发明精神和实质的前提下，对本发明所作的修饰或者替换，均属于本发明的范畴。

若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段，除另有规定，本方法所用试剂均为分析纯或以上规格。

实施例1

S1、收集糖尿病患者的健康数据，并进行初步的数据筛选和过滤，确认受试者入选，构建数据集；

具体操作：

在2017年2月至2019年4月，从北京潞河医院内分泌科收集1378名患者，经完全知情同意后，排除标准包括任何癌症、免疫疾病、怀孕或哺乳期的病史或积极治疗，也包括那些根据采访者判断患有认知障碍或有任何严重疾病，可能会阻碍参与的受试者，最终纳入1239名受试者。包括478名DKD患者和761名非DKD患者，定量地预测DKD的发病风险。从患者访谈中获得临床数据。收集吸烟史、饮酒史、医疗史、高血压史和病程、2型糖尿病史、高脂血症史。还进行了身高、体重、体重指数(BMI)、腰围、臀围、腰臀比(W/H)的体检。使用Pandas2.4加载和预处理数据，Pandas 2.4是Python 3.7中的一个包。遗漏值和明显错误数据被替换为平均值。将数据集按4:1的比例划分为训练集和测试集，并对训练集进行5次交叉验证，以构建更稳健的模型。采用基于信息熵的特征选择方法，筛选出DKD的风险因素。

诊断标准：排除标准包括任何癌症、免疫疾病、怀孕或哺乳期的病史或积极治疗，符合中国2型糖尿病防治指南的2型糖尿病诊断标准。高血压被诊断为至少两倍的血压，收缩压大于或等于140mmHg，舒张压大于或等于90mmHg，或使用抗高血压药物。DKD的诊断和分类基于UACR的比率。指南中建议对UACR进行随机尿液测量。根据以下诊断标准对DKD进行分级，最后接受2组：1)非DKD组：随机尿UACR<30mg/g；2)DKD组：包括30mg/g≤UACR<300mg/g，定义为微量白蛋白尿噬菌体，UACR≥300mg/g，定义为巨蛋白尿噬菌体。

生化测量：所有受试者在采集血样前均需进行夜间禁食。采集血样测定指标有：白细胞计数、红细胞、血小板、甘油三酯、总胆固醇(TC)、低密度脂蛋白胆固醇(LDL-C)、高密度脂蛋白胆固醇(HDL-C)、空腹血糖(FBG)、糖化血红蛋白(HbA1c)、血清肌酐(SCr)、尿酸(UA)、促甲状腺激素(TSH)、三碘甲状腺原氨酸(T3)、游离三碘甲状腺原氨酸(FT3)、四碘甲状腺原氨酸(T4)、游离四碘甲状腺原氨酸(FT4)、血沉(ESR)、空腹血糖(FBG)，均通过中心实验室统一检测获得结果。在内分泌实验室通过生化测试评估患者口服葡萄糖耐量试验(OGTT)时0、1、2、3小时的胰岛素和C肽水平。通过随机收集尿液，通过电化学发光检测UACR。

获得的数据，集中全体人口的所有特征如表1所示。T检验适用于正态分布特征(表1中的项目包含±表示95％CI)，Wilcoxon/Kruskal-Wallis秩和检验适用于非正态分布特征(表1中的平均值(第一个四分位，第三个四分位)。研究人群在性别、吸烟史和饮酒史方面没有差异。糖尿病、高血压病程、腰臀比、T3、FT3、ESR、胰岛素0h、c肽0h、2h、3h积分差异有统计学意义(p<0.05)。

表1 数据集在不同功能和不同组中的一般描述

S2、利用信息熵方法对数据集(S1)进行特征筛选，最终筛选出7项风险因素；

基于信息熵的特征选择模型采用随机森林模型，例如可优选使用scikit-learn0.22实现，通过网格搜索策略搜索超参数，发现将信息熵函数设置为基尼不纯度函数，并将树数设置为200时，效果最优，最终通过训练的随机森林模型的特征重要性排序进行特征筛选。

具体地：基于信息熵的特征选择方法

信息熵是信息论中的一个概念，它可以定量地定义一系列数据所具有的信息，信息熵得分可以用于特征选择。也就是说，熵分数越高的特征包含更多关于正确分类样本的信息。在本发明中使用了基尼杂质函数，它是信息熵函数的一个变体，并为评估数据中包含的信息熵提供了近似的结果。

为了使最终预测模型更简洁易于使用，并且避免数据集中的噪声，申请人使用全数据集按照上述方法进行了特征筛选。在训练完成后，使用了scikit-learn中的feature_importance函数查看了各个特征对于预测性能的贡献程度，如图1所示。其中数值越大代表其更有可能为风险因素。

为了更好地权衡模型的复杂性和诊断的准确性，申请人测试了模型测试的前几个特征变量，发现当模型使用前7个特征进行训练时，测试AUC达到峰值。因此，本发明选择了前7个特征，即血沉(ESR)、肌酐、收缩压(SBP)、年龄、高血压病程、FT3和T3(三碘甲状腺原氨酸)。每个特征都能解释总信息的2.7％以上。也就是说，这些特征是影响DKD的主要特征，其他特征可能包含更多的噪声或受DKD的影响较小。

S3、利用筛选出的7项指标进行机器学习建模，并进行性能评估；

在比较了多层感知器、逻辑回归、支持向量机、随机森林等的性能之后，通过使用筛选出的7个指标特征选择模型，根据所选择的特征来选择和重新训练随机森林模型，以构建更稳健和精确的预测分类器。

随机森林预测法

随机森林模型是一个决策树袋式集合模型。它使用数据集的信息熵来对不同的样本进行分类。在这里，使用Python 3.7中的scikit-learn 0.22构建了这个模型。通过对超参数使用网格搜索策略，将信息熵函数设置为基尼杂质函数，并将树的数量设置为200棵，以达到准确性和效率的平衡。具有数据集的决策树节点的基尼杂质函数D定义为

其中，p_i是在数据集中属于类的概率，i是在数据集中属于D和C是类的总数。数据集D将根据标准在树节点上分为2组，即D1和D2，A＝a是定义为的最小基尼增益点，定义为

其中，D_i是应用除法后的子集A＝a(D₁＝{d∈D|d≤a}，D₂＝{d∈D|d＞a}).及2个子集D₁和D₂将递归地执行相同的过程。

当递归达到收敛条件后，该决策树训练完成；当规定数量的决策树训练完成后，最终模型概率通过单个决策树投票生成，最终模型预测的样本k属于类别C_i的概率，定义为

RF(F^k)＝n_i/N

其中，F^k代表第k个样本的7个指标，即

是第k个样本的第i个特征的值，m是所选特征的总数，N为决策树的数量，n_i为预测为类别C_i的决策树数量；

预测模型训练完成后，使用pickle持久化保存为可重复使用的二进制模型文件；使用时可通过先加载二进制模型文件，并输入特征向量F^k，通过运算便可输出对应属于某一类别的概率。采用AUC值、准确率(ACC)、真阳性率(TPR)、假阳性率(FPR)、精确率(PREC)和F1分数等进行性能评估。

随机森林模型在验证集上的平均AUC为0.72，在测试集上的平均AUC为0.71，与图2中验证集上的AUC为0.73的全特征模型相比略有下降。结果见图2和图3。

这里，通常定义一个典型的度量列联表来度量分类模型。真阳性(TP)和真阴性(TN)分别被正确分类为DKD和正常；假阴性(FN)表示被错误分类为非DKD的DKD；被错误分类为DKD的正常样本被定义为假阳性(FP)。然后应用几个标准性能指标来描述以下基于之前指标的模型性能，包括准确率(ACC)、真阳性率(TPR)也称为召回率、假阳性率(FPR)、精确率(PREC)和F1分数，定义如下等式。

通过使用这些指标，表2中列出了具有不同阈值的预测模型的各种得分情况。

表2

风险贡献模型

风险特征贡献法，明确规定了每个特征对糖尿病肾病的贡献。每个贡献率都是用以下公式计算的

C_i＝RF(F^k)-RF(F_i ^k)

其中

是第k个样本的第i个特征的值，m是所选特征的总数。因此，

是虚拟特征向量，其中第i个特征为零，F^k是原始特征向量，RF代表S3步骤中训练好的预测模型。

需要注意的是，每个特征的贡献可以是负的，也就是说，这个特征在诊断中产生了积极的作用。

S5、构建在线工具，利用S3、S4模型进行预测和解释。

在线工具使用传统的网页构建框架，前端使用JQuery、Bootstrap、JavaScript、HTML编写了基本的交互逻辑和用户界面，使用echarts作图并可视化，后端使用Python3的Djiango框架编写了网络请求的预处理和模型的预测。在模型训练过程中，数据使用Pandas进行读取和预处理，使用scikit-learn进行特征筛选(即步骤S2)、预测模型构建(即步骤S3)和风险因素对个人贡献(即步骤S4)的计算，最终模型使用pickle模块进行持久化。在模型使用过程中，筛选出患者的7项的特征通过网络请求的方式发送至服务器端的Djiango并进行预处理，构建出患者的特征向量F^k；预测模型使用pickle加载后，按照步骤S3构建的模型预测出该患者的发病概率；按照步骤S4预测出7项筛选出的特征的风险贡献度，最终将得到的结果返回前端并可视化展示。

风险贡献是基于预测模型而应用的，它可以很容易地分析一个特定特征的风险贡献。例如一名2型糖尿病患者的血沉为95mm/h，肌酐为237umol/L，收缩压(SBP)为145mmHg，年龄为58岁，高血压病程为5年，每年体检的TF3为1.66pg/ml，T3为0.5ng/ml。将这些指标输入构建的预测模型中，这人将被预测为患有DKD的高风险，概率为97％，按模型给出的每个特征的风险贡献分数计算如下：血沉：0.045，肌酐：0.05，收缩压：0.0，年龄：-0.005，高血压病程：0.0，TF3：0.095，T3：0.07。因此，所有的结果都将在网络服务器上以文字和数字的形式进行说明结果见图4和图5。图4为预测的DKD风险(左侧的为红条)或非DKD风险(右侧的为绿条)。图5为预测输入个体的特征风险贡献。

结果说明预测结果与风险与实际情况相符合，说明本模型构建成功，构建模型的过程如图6所示。

Claims

1.一种糖尿病肾病风险预测模型的构建方法，其特征在于，其包括如下步骤：

S5、构建在线工具，利用S3、S4模型进行预测和解释。

2.根据权利要求1所述的构建方法，其特征在于，在步骤S1中，所述糖尿病患者的临床体检数据包括身高、体重、身体质量指数、腰围、臀围、腰臀比、吸烟史、饮酒史、医疗史、高血压史和病程、2型糖尿病史、高脂血症史、白细胞计数、红细胞、血小板、甘油三酯、总胆固醇、低密度脂蛋白胆固醇、高密度脂蛋白胆固醇、空腹血糖、糖化血红蛋白、血清肌酐、尿酸、三碘甲状腺原氨酸、游离三碘甲状腺原氨酸、四碘甲状腺原氨酸、游离四碘甲状腺原氨酸、血沉、空腹血糖。

3.根据权利要求1所述的构建方法，其特征在于，在步骤S1中，确认受试者入选的标准为排除标准包括任何癌症、免疫疾病、怀孕或哺乳期的病史或积极治疗，且1)非DKD组：随机尿UACR<30mg/g；

4.根据权利要求1所述的构建方法，其特征在于，在步骤S2中，基于信息熵的特征选择模型采用随机森林模型，通过网格搜索策略搜索超参数，将信息熵函数设置为基尼不纯度函数，最终通过训练的随机森林模型的特征重要性排序进行特征筛选。

5.根据权利要求1所述的构建方法，其特征在于，在步骤S2中，最终筛选出的指标包括血沉、肌酐、收缩压、年龄、高血压病程、游离三碘甲胺和三碘甲状腺原氨酸共7项。

6.根据权利要求5所述的构建方法，其特征在于，在步骤S3中，根据步骤S2最终筛选出的7种指标进行机器学习建模，机器学习模型采用随机森林模型，并将树数设置为200；在每一颗决策树的构建过程中，采用基尼不纯度函数作为分支标准；在数据集D上的基尼不纯度定义为

其中，p_i是在数据集D中属于第i类的概率，C是类别的总数量；在一个决策树节点上，数据集D将依据最小基尼增益点标准A＝a分割为D₁和D₂2个子集，其中，最小基尼增益点定义为

其中，D_i是应用分割后的子集A＝a(D₁＝{d∈D|d≤a}，D₂＝{d∈D|d＞a})，而2个子集D₁和D₂将递归地执行相同的过程；当递归达到收敛条件后，该决策树训练完成；当规定数量的决策树训练完成后，最终模型概率通过单个决策树投票生成，最终模型预测的样本k属于类别C_i的概率，定义为RF(F^k)＝n_i/N

其中，F^k代表第k个样本的指标，即

7.根据权利要求6所述的构建方法，其特征在于，在步骤S4中，构建危险因素对个人贡献的计算方法是

其中，

8.根据权利要求1所述的构建方法，其特征在于，在步骤S5中，建在线工具使用传统的网页构建框架，前端使用JQuery、Bootstrap、JavaScript、HTML编写了基本的交互逻辑和用户界面，使用echarts作图并可视化，后端使用Python3的Djiango框架编写了网络请求的预处理和模型的预测，其中，

在模型训练过程中，数据使用Pandas进行读取和预处理，使用scikit-learn进行特征筛选、预测模型构建和风险因素对个人贡献的计算，最终模型使用pickle模块进行持久化；

在模型使用过程中，网络请求数据通过Diiango接受和预处理，模型使用pickle加载，最终将得到的结果可视化返回前端。

9.权利要求1-8中任一项所述的构建方法构建的糖尿病肾病风险预测模型。

10.根据权利要求9所述的糖尿病肾病风险预测模型在预测糖尿病肾病风险中的应用。