CN112768073B

CN112768073B - 一种肾小球滤过率估计模型的构建方法

Info

Publication number: CN112768073B
Application number: CN202110053409.XA
Authority: CN
Inventors: 刘迅; 刘翔; 张卓
Original assignee: Guangzhou Zhihuiyun Technology Co ltd; Third Affiliated Hospital Sun Yat Sen University
Current assignee: Guangzhou Zhihuiyun Technology Co ltd; Third Affiliated Hospital Sun Yat Sen University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2023-04-18
Anticipated expiration: 2041-01-15
Also published as: CN112768073A

Abstract

本发明公开了一种肾小球滤过率估计模型的构建方法，包括：获取数位肾小球滤过率真实值对应的患者信息，并随机拆分成训练集和测试集；对训练集的患者信息进行中心化处理，以肾小球滤过率真实值为因变量，且以中心化处理的患者信息为自变量；构建Ensemble的树模型；在Ensemble的树模型的目标函数中添加惩罚项控制模型的复杂度；对添加惩罚项的Ensemble的树模型进行逐步训练；利用二阶展开近似逼近原目标函数；优化并去掉常数项；根据贪婪算法求得任一次分叉后的损失函数；以完成肾小球滤过率估计模型的构建；对Ensemble的树模型的预测输出进行加总求平均，得到肾小球滤过率。

Description

一种肾小球滤过率估计模型的构建方法

技术领域

本发明涉及智能医疗技术领域，尤其是一种肾小球滤过率估计模型的构建方法。

背景技术

肾小球滤过率(GFR)是指单位时间(通常为1min)内两肾生成滤液的量，正常成人为80-120ml/min左右。肾小球滤过率与肾血浆流量的比值称为滤过分数。每分钟肾血浆流量约660ml，故滤过分数为125/660×100％≈19％。这一结果表明，流经肾的血浆约有1/5由肾小球滤入囊腔生成原尿。肾小球滤过率和滤过分数是衡量肾功能的指标。在本行业内，一方面，美国肾脏病基金会一直以来推荐将肾小球滤过率作为最重要的定义、分期以及监控慢性肾脏病人的指标。另一方面，肾小球滤过率是临床医生评估病人用药量尤其是中老年慢性肾病病人用药量的重要指标。临床上常用的测量患者GFR的方法包括菊粉和同位素清除法由于过程比较繁杂且费用较高以及放射性的原因，无法在流行病学研究上开展大范围的测量。在过去的几十年间，人们利用肾脏代谢物指标诸如肌酐值等以及患者身体指标诸如BMI、年龄、性别等，开发了多种用于估算患者GFR的模型。

现有技术中临床上所广泛使用的CKD-EPI方程就是基于患者的年龄、性别、种族和肌酐值所建立的一种线性模型。由于线性模型在自变量与因变量之间存在非线性影响时效果不佳，Inker等人基于样条回归的方法建立了修正的CKD-EPI方程来改善非线性性所带来的的模型误差，模型的准确性有了一定程度的改善。然而，自修正的CKD-EPI方程在2012年提出后，在GFR的估计方程领域并没有实质性的进展。GFR的估计本质上是采集患者的人口学特征、身体指标、以及肾脏代谢物指标来建立GFR与上述指标的线性、非线性的拟合模型。该类型的公式有根据不同数据集建立的诸多其他形式，但均是基于现行模型假设得到的回归模型。案例如专利申请号为“201811228080.0”、名称为“获取肾小球滤过率的模型的建立方法及应用”的中国发明专利。

目前，现有技术中的GFR估计存在以下问题：

第一，临床上患者GFR的测量过程复杂、费用高的问题，不便于大范围人群的临床研究和调查，另一方面，现有的一些GFR估计工具均是依赖线性模型假设构建的回归模型，无法有效捕捉GFR与其他临床指标上的非线性关系。

第二，现有的CDK-EPI方程是基于国外数据进行研发，并不十分适用于中国人群；另外，各种评价模型往往用到了不同的模型参数，然而临床上往往要面对患者某些检查、检验等指标项的缺失情况，导致某些模型无法使用；不仅如此，即使是被临床最为广泛接受的CKD-EPI方程，由于是采用线性统计模型的基本架构，很难考虑到变量之间的相互作用，以及潜在的非线性性对模型准确度的影响；不仅如此，传统的GFR评估模型在使用上较为繁琐，需要手工将符合要求的患者指标带入计算公式，进行计算得出，在广泛开展临床研究时费时费力。

因此，急需要提出一种准确可靠、操作简便的肾小球滤过率估计模型的构建方法。

发明内容

针对上述问题，本发明的目的在于提供一种肾小球滤过率估计模型的构建方法，本发明采用的技术方案如下：

一种肾小球滤过率估计模型的构建方法，包括以下步骤：

获取数位肾小球滤过率真实值对应的患者信息，并随机拆分成训练集和测试集；

对训练集的患者信息进行中心化处理，以肾小球滤过率真实值为因变量，且以中心化处理的患者信息为自变量，并获得数据空间

所述n表示训练集的患者的样本数量；所述m表示患者信息的特征数量；所述R表示实数集，x_i表示第i个样本，y_i表示第i个样本的标签；

构建Ensemble的树模型，其表达式为：

其中，f_k表示第k个树模型，

表示所有树模型构成的空间，K表示所有参与模型集成的树模型的集合；

在Ensemble的树模型的目标函数中添加惩罚项，其表达式为：

其中，

表示损失函数，Ω(f_k)表示惩罚项，惩罚项表达式为：

其中，γ表示树模型数量的惩罚系数，T表示树模型f_k的节点个数，w表示树模型的预测结果，λ表示树模型的预测结果w对应的惩罚系数；公式(3)的引入是为了控制模型的总体复杂度。

对添加惩罚项的Ensemble的树模型进行逐步训练，其表达为：

其中，t表示当前的步数，

表示第t-1步的树模型预测结果，f_t(x_i)表示当前的树模型，Ω(f_t)表示当前树模型对应的惩罚项；

利用二阶展开近似逼近原目标函数，其表达式为：

其中，g_i和h_i分别表示损失函数的一阶导数和二阶导数；

优化并去掉常数项，其表达式为：

预设I_j＝{iq(x_i)＝j}为数据空间的第j个叶子的事件集，q(x_i)表示输入样本x_i经过树模型的分叉进入到第j个叶子的映射；对公式(6)进行优化：

其中，w_j表达第j个叶子的权重值；

求得任一叶子的最优权重值，其表达式为：

根据贪婪算法求得任一次分叉后的损失函数，其表达式为：

其中，I_L表示树模型中分叉的左边的事件集，I_R表示表示树模型中分叉的右边的事件集，I表示一个树模型在展开新的节点之前的总事件集合；

以完成肾小球滤过率估计模型的构建；对Ensemble的树模型的预测输出进行加总求平均，得到肾小球滤过率。

进一步地，所述患者信息包括年龄、性别、身高、体重、肌酐、尿酸、尿素氮。

优选地，所述训练集和测试集的样本量比例为7:3。

进一步地，利用所述身高和体重求得患者的身体质量指数。

优选地，对所述身体质量指数、年龄、肌酐、尿酸、尿素氮进行中心化处理。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过在树模型的目标函数中添加惩罚项，其好处在于，有效地避免树模型中有过多的分支，从而减少过拟合；

(2)本发明在训练时每次贪婪地加上最大提升模型的树，其好处在于，快速得到趋近于最佳回归树的模型。

(3)本发明巧妙地采用非线性的机器学习方法拟合GFR，其好处在于，能够发现患者大量数据中存在的非线性关系，估计更为精准。

综上所述，本发明具有准确可靠、操作简便等优点，在智能医疗技术领域具有很高的实用价值和推广价值。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需使用的附图作简单介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对保护范围的限定，对于本领域技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的树模型案例图。

图2为本发明的原理图。

图3为本发明的场景使用选择图。

图4为本发明的GFR计算中CKD-KPI方程中最优插值节点的选择示意图。

图5为本发明的患者输入指标的选择过程中以RMSE最低对应的变量最优组合示意图。

图6为本发明的GFR计算过程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更为清楚，下面结合附图和实施例对本发明作进一步说明，本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例

如图1至图6所示，本实施例提供了肾小球滤过率计算工具，其含有CKD-EPI方程、XGboost模型、随机森林模型等。操作者将患者病历信息和检验信息中的GFR计算所用的参数进行采集；采集到的参数被传送至GFR计算工具，未被采集到的参数可以进行手工补充；操作者在GFR计算工具中选择自己所需要的GFR计算模型进行计算。

在本实施例中，肾小球滤过率估计模型的构建过程，包括以下步骤：

第一步，获取数位肾小球滤过率真实值对应的患者信息，并随机拆分成训练集和测试集；所述训练集和测试集的样本量比例为7:3.

第二步，收集患者的基本信息，具体包括年龄、性别、身高和体重信息，通过身高体重计算患者BMI(身体质量指数)；收集患者检验数据，具体包括肌酐、尿酸、尿素氮。

第三步，将患者性别转换为0、1哑变量；将年龄、BMI、肌酐、尿酸、尿素氮做中心化处理，即通过减去均值，除以标准差的方式将各变量转化为均值为0，标准差为1的分布。

第四步，以患者真实GFR为因变量，以经过中心化的患者年龄、性别、BMI、肌酐、尿酸以及尿素氮为自变量，在建模组上拟合XGboost和随机森林模型。具体的，XGboost模型是一种基于梯度提升的树的Ensemble模型；

(1)给定含有n个样本和m个特征的数据空间

(2)构建Ensemble的树模型，其表达式为：

其中，f_k表示第k个树模型，

(3)在Ensemble的树模型的目标函数中添加惩罚项，其表达式为：

其中，

表示损失函数，Ω(f_k)表示惩罚项，惩罚项表达式为：

其中，γ表示树模型数量的惩罚系数，T表示树模型f_k的节点个数，w表示树模型的预测结果，λ表示树模型的预测结果w对应的惩罚系数；

(4)对添加惩罚项的Ensemble的树模型进行逐步训练，其表达为：

其中，t表示当前的步数，

(5)利用二阶展开近似逼近原目标函数，其表达式为：

其中，g_i和h_i分别表示损失函数的一阶导数和二阶导数；

(6)优化并去掉常数项，其表达式为：

(7)预设I_j＝{iq(x_i)＝j}为数据空间的第j个叶子的事件集，q(x_i)表示输入样本x_i经过树模型的分叉进入到第j个叶子的映射；对公式(6)进行优化：

其中，w_j表达第j个叶子的权重值；

(8)求得任一叶子的最优权重值，其表达式为：

(9)根据贪婪算法求得任一次分叉后的损失函数，其表达式为：

其中，I_L表示树模型中分叉的左边的事件集，I_R表示表示树模型中分叉的右边的事件集，I表示一个树模型在展开新的节点之前的总事件集合。

(10)以完成肾小球滤过率估计模型的构建；对Ensemble的树模型的预测输出进行加总求平均，得到肾小球滤过率。

第五步，模型参数由五折交叉验证结合Grid-Search方法寻找，该方法是机器学习领域常用的模型调参方法。其中随机森林面模型的参数有(考虑Python Sklearn包)：max_depth，max_features,min_samples_leaf，min_samples_split，n_estimators。XGboost模型考虑的参数有：eta(等效于learning_rate)，min_child_weight，max_depth。其他参数取sklearn提供的默认值。

第六步，经过参数调整的模型，在验证集上检验模型的准确性，准确性高的模型将被保存并且在后续的计算过程中被GFR计算工具调用。

另外，本实施例的CKD-EPI方程的构建过程如下：

在肾小球滤过率估计模型的构建过程的前三步的基础上，以患者真实GFR为因变量，将患者肌酐值划分为从小到大的等分小区间；以每一个区间节点为插值节点建立CKD-EPI方程所采用的插值样条回归。最优插值节点的选择由五折交叉验证方法寻找，参考标准是模型的RMSE值。经过节点选择的模型，在验证集上检验模型的准确性，准确性高的模型将被保存并且在后续的计算过程中被GFR计算工具调用。

上述实施例仅为本发明的优选实施例，并非对本发明保护范围的限制，但凡采用本发明的设计原理，以及在此基础上进行非创造性劳动而作出的变化，均应属于本发明的保护范围之内。