CN112768073B - 一种肾小球滤过率估计模型的构建方法 - Google Patents
一种肾小球滤过率估计模型的构建方法 Download PDFInfo
- Publication number
- CN112768073B CN112768073B CN202110053409.XA CN202110053409A CN112768073B CN 112768073 B CN112768073 B CN 112768073B CN 202110053409 A CN202110053409 A CN 202110053409A CN 112768073 B CN112768073 B CN 112768073B
- Authority
- CN
- China
- Prior art keywords
- model
- tree model
- representing
- filtration rate
- glomerular filtration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Medical Informatics (AREA)
- Engineering & Computer Science (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种肾小球滤过率估计模型的构建方法,包括:获取数位肾小球滤过率真实值对应的患者信息,并随机拆分成训练集和测试集;对训练集的患者信息进行中心化处理,以肾小球滤过率真实值为因变量,且以中心化处理的患者信息为自变量;构建Ensemble的树模型;在Ensemble的树模型的目标函数中添加惩罚项控制模型的复杂度;对添加惩罚项的Ensemble的树模型进行逐步训练;利用二阶展开近似逼近原目标函数;优化并去掉常数项;根据贪婪算法求得任一次分叉后的损失函数;以完成肾小球滤过率估计模型的构建;对Ensemble的树模型的预测输出进行加总求平均,得到肾小球滤过率。
Description
技术领域
本发明涉及智能医疗技术领域,尤其是一种肾小球滤过率估计模型的构建方法。
背景技术
肾小球滤过率(GFR)是指单位时间(通常为1min)内两肾生成滤液的量,正常成人为80-120ml/min左右。肾小球滤过率与肾血浆流量的比值称为滤过分数。每分钟肾血浆流量约660ml,故滤过分数为125/660×100%≈19%。这一结果表明,流经肾的血浆约有1/5由肾小球滤入囊腔生成原尿。肾小球滤过率和滤过分数是衡量肾功能的指标。在本行业内,一方面,美国肾脏病基金会一直以来推荐将肾小球滤过率作为最重要的定义、分期以及监控慢性肾脏病人的指标。另一方面,肾小球滤过率是临床医生评估病人用药量尤其是中老年慢性肾病病人用药量的重要指标。临床上常用的测量患者GFR的方法包括菊粉和同位素清除法由于过程比较繁杂且费用较高以及放射性的原因,无法在流行病学研究上开展大范围的测量。在过去的几十年间,人们利用肾脏代谢物指标诸如肌酐值等以及患者身体指标诸如BMI、年龄、性别等,开发了多种用于估算患者GFR的模型。
现有技术中临床上所广泛使用的CKD-EPI方程就是基于患者的年龄、性别、种族和肌酐值所建立的一种线性模型。由于线性模型在自变量与因变量之间存在非线性影响时效果不佳,Inker等人基于样条回归的方法建立了修正的CKD-EPI方程来改善非线性性所带来的的模型误差,模型的准确性有了一定程度的改善。然而,自修正的CKD-EPI方程在2012年提出后,在GFR的估计方程领域并没有实质性的进展。GFR的估计本质上是采集患者的人口学特征、身体指标、以及肾脏代谢物指标来建立GFR与上述指标的线性、非线性的拟合模型。该类型的公式有根据不同数据集建立的诸多其他形式,但均是基于现行模型假设得到的回归模型。案例如专利申请号为“201811228080.0”、名称为“获取肾小球滤过率的模型的建立方法及应用”的中国发明专利。
目前,现有技术中的GFR估计存在以下问题:
第一,临床上患者GFR的测量过程复杂、费用高的问题,不便于大范围人群的临床研究和调查,另一方面,现有的一些GFR估计工具均是依赖线性模型假设构建的回归模型,无法有效捕捉GFR与其他临床指标上的非线性关系。
第二,现有的CDK-EPI方程是基于国外数据进行研发,并不十分适用于中国人群;另外,各种评价模型往往用到了不同的模型参数,然而临床上往往要面对患者某些检查、检验等指标项的缺失情况,导致某些模型无法使用;不仅如此,即使是被临床最为广泛接受的CKD-EPI方程,由于是采用线性统计模型的基本架构,很难考虑到变量之间的相互作用,以及潜在的非线性性对模型准确度的影响;不仅如此,传统的GFR评估模型在使用上较为繁琐,需要手工将符合要求的患者指标带入计算公式,进行计算得出,在广泛开展临床研究时费时费力。
因此,急需要提出一种准确可靠、操作简便的肾小球滤过率估计模型的构建方法。
发明内容
针对上述问题,本发明的目的在于提供一种肾小球滤过率估计模型的构建方法,本发明采用的技术方案如下:
一种肾小球滤过率估计模型的构建方法,包括以下步骤:
获取数位肾小球滤过率真实值对应的患者信息,并随机拆分成训练集和测试集;
对训练集的患者信息进行中心化处理,以肾小球滤过率真实值为因变量,且以中心化处理的患者信息为自变量,并获得数据空间所述n表示训练集的患者的样本数量;所述m表示患者信息的特征数量;所述R表示实数集,xi表示第i个样本,yi表示第i个样本的标签;
构建Ensemble的树模型,其表达式为:
在Ensemble的树模型的目标函数中添加惩罚项,其表达式为:
其中,γ表示树模型数量的惩罚系数,T表示树模型fk的节点个数,w表示树模型的预测结果,λ表示树模型的预测结果w对应的惩罚系数;公式(3)的引入是为了控制模型的总体复杂度。
对添加惩罚项的Ensemble的树模型进行逐步训练,其表达为:
利用二阶展开近似逼近原目标函数,其表达式为:
其中,gi和hi分别表示损失函数的一阶导数和二阶导数;
优化并去掉常数项,其表达式为:
预设Ij={iq(xi)=j}为数据空间的第j个叶子的事件集,q(xi)表示输入样本xi经过树模型的分叉进入到第j个叶子的映射;对公式(6)进行优化:
其中,wj表达第j个叶子的权重值;
求得任一叶子的最优权重值,其表达式为:
根据贪婪算法求得任一次分叉后的损失函数,其表达式为:
其中,IL表示树模型中分叉的左边的事件集,IR表示表示树模型中分叉的右边的事件集,I表示一个树模型在展开新的节点之前的总事件集合;
以完成肾小球滤过率估计模型的构建;对Ensemble的树模型的预测输出进行加总求平均,得到肾小球滤过率。
进一步地,所述患者信息包括年龄、性别、身高、体重、肌酐、尿酸、尿素氮。
优选地,所述训练集和测试集的样本量比例为7:3。
进一步地,利用所述身高和体重求得患者的身体质量指数。
优选地,对所述身体质量指数、年龄、肌酐、尿酸、尿素氮进行中心化处理。
与现有技术相比,本发明具有以下有益效果:
(1)本发明通过在树模型的目标函数中添加惩罚项,其好处在于,有效地避免树模型中有过多的分支,从而减少过拟合;
(2)本发明在训练时每次贪婪地加上最大提升模型的树,其好处在于,快速得到趋近于最佳回归树的模型。
(3)本发明巧妙地采用非线性的机器学习方法拟合GFR,其好处在于,能够发现患者大量数据中存在的非线性关系,估计更为精准。
综上所述,本发明具有准确可靠、操作简便等优点,在智能医疗技术领域具有很高的实用价值和推广价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需使用的附图作简单介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对保护范围的限定,对于本领域技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的树模型案例图。
图2为本发明的原理图。
图3为本发明的场景使用选择图。
图4为本发明的GFR计算中CKD-KPI方程中最优插值节点的选择示意图。
图5为本发明的患者输入指标的选择过程中以RMSE最低对应的变量最优组合示意图。
图6为本发明的GFR计算过程示意图。
具体实施方式
为使本申请的目的、技术方案和优点更为清楚,下面结合附图和实施例对本发明作进一步说明,本发明的实施方式包括但不限于下列实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例
如图1至图6所示,本实施例提供了肾小球滤过率计算工具,其含有CKD-EPI方程、XGboost模型、随机森林模型等。操作者将患者病历信息和检验信息中的GFR计算所用的参数进行采集;采集到的参数被传送至GFR计算工具,未被采集到的参数可以进行手工补充;操作者在GFR计算工具中选择自己所需要的GFR计算模型进行计算。
在本实施例中,肾小球滤过率估计模型的构建过程,包括以下步骤:
第一步,获取数位肾小球滤过率真实值对应的患者信息,并随机拆分成训练集和测试集;所述训练集和测试集的样本量比例为7:3.
第二步,收集患者的基本信息,具体包括年龄、性别、身高和体重信息,通过身高体重计算患者BMI(身体质量指数);收集患者检验数据,具体包括肌酐、尿酸、尿素氮。
第三步,将患者性别转换为0、1哑变量;将年龄、BMI、肌酐、尿酸、尿素氮做中心化处理,即通过减去均值,除以标准差的方式将各变量转化为均值为0,标准差为1的分布。
第四步,以患者真实GFR为因变量,以经过中心化的患者年龄、性别、BMI、肌酐、尿酸以及尿素氮为自变量,在建模组上拟合XGboost和随机森林模型。具体的,XGboost模型是一种基于梯度提升的树的Ensemble模型;
(2)构建Ensemble的树模型,其表达式为:
(3)在Ensemble的树模型的目标函数中添加惩罚项,其表达式为:
其中,γ表示树模型数量的惩罚系数,T表示树模型fk的节点个数,w表示树模型的预测结果,λ表示树模型的预测结果w对应的惩罚系数;
(4)对添加惩罚项的Ensemble的树模型进行逐步训练,其表达为:
(5)利用二阶展开近似逼近原目标函数,其表达式为:
其中,gi和hi分别表示损失函数的一阶导数和二阶导数;
(6)优化并去掉常数项,其表达式为:
(7)预设Ij={iq(xi)=j}为数据空间的第j个叶子的事件集,q(xi)表示输入样本xi经过树模型的分叉进入到第j个叶子的映射;对公式(6)进行优化:
其中,wj表达第j个叶子的权重值;
(8)求得任一叶子的最优权重值,其表达式为:
(9)根据贪婪算法求得任一次分叉后的损失函数,其表达式为:
其中,IL表示树模型中分叉的左边的事件集,IR表示表示树模型中分叉的右边的事件集,I表示一个树模型在展开新的节点之前的总事件集合。
(10)以完成肾小球滤过率估计模型的构建;对Ensemble的树模型的预测输出进行加总求平均,得到肾小球滤过率。
第五步,模型参数由五折交叉验证结合Grid-Search方法寻找,该方法是机器学习领域常用的模型调参方法。其中随机森林面模型的参数有(考虑Python Sklearn包):max_depth,max_features,min_samples_leaf,min_samples_split,n_estimators。XGboost模型考虑的参数有:eta(等效于learning_rate),min_child_weight,max_depth。其他参数取sklearn提供的默认值。
第六步,经过参数调整的模型,在验证集上检验模型的准确性,准确性高的模型将被保存并且在后续的计算过程中被GFR计算工具调用。
另外,本实施例的CKD-EPI方程的构建过程如下:
在肾小球滤过率估计模型的构建过程的前三步的基础上,以患者真实GFR为因变量,将患者肌酐值划分为从小到大的等分小区间;以每一个区间节点为插值节点建立CKD-EPI方程所采用的插值样条回归。最优插值节点的选择由五折交叉验证方法寻找,参考标准是模型的RMSE值。经过节点选择的模型,在验证集上检验模型的准确性,准确性高的模型将被保存并且在后续的计算过程中被GFR计算工具调用。
上述实施例仅为本发明的优选实施例,并非对本发明保护范围的限制,但凡采用本发明的设计原理,以及在此基础上进行非创造性劳动而作出的变化,均应属于本发明的保护范围之内。
Claims (5)
1.一种肾小球滤过率估计模型的构建方法,其特征在于,包括以下步骤:
获取数位肾小球滤过率真实值对应的患者信息,并随机拆分成训练集和测试集;
对训练集的患者信息进行中心化处理,以肾小球滤过率真实值为因变量,且以中心化处理的患者信息为自变量,并获得数据空间;所述表示训练集的患者的样本数量;所述表示患者信息的特征数量;所述表示实数集,表示第个样本,表示第个样本的标签;
构建Ensemble的树模型,其表达式为:
其中,表示第个树模型,表示所有树模型构成的空间,表示所有参与模型集成的树模型的集合;
在Ensemble的树模型的目标函数中添加惩罚项,其表达式为:
其中,表示损失函数,表示惩罚项,惩罚项表达式为:
其中,表示树模型数量的惩罚系数,表示树模型的节点个数,表示树模型的预测结果,表示树模型的预测结果对应的惩罚系数;
对添加惩罚项的Ensemble的树模型进行逐步训练,其表达为:
其中,表示当前的步数,表示第步的树模型预测结果,表示当前的树模型,表示当前树模型对应的惩罚项;
利用二阶展开近似逼近原目标函数,其表达式为:
其中,和分别表示损失函数的一阶导数和二阶导数;
优化并去掉常数项,其表达式为:
预设为数据空间的第个叶子的事件集,表示输入样本经过树模型的分叉进入到第个叶子的映射;对公式(6)进行优化:
其中,表达第个叶子的权重值;
求得任一叶子的最优权重值,其表达式为:
根据贪婪算法求得任一次分叉后的损失函数,其表达式为:
其中,表示树模型中分叉的左边的事件集,表示表示树模型中分叉的右边的事件集,表示一个树模型在展开新的节点之前的总事件集合;
以完成肾小球滤过率估计模型的构建;对Ensemble的树模型的预测输出进行加总求平均,得到肾小球滤过率。
2.根据权利要求1所述的一种肾小球滤过率估计模型的构建方法,其特征在于,所述患者信息包括年龄、性别、身高、体重、肌酐、尿酸、尿素氮。
3.根据权利要求1所述的一种肾小球滤过率估计模型的构建方法,其特征在于,所述训练集和测试集的样本量比例为7:3。
4.根据权利要求2所述的一种肾小球滤过率估计模型的构建方法,其特征在于,利用所述身高和体重求得患者的身体质量指数。
5.根据权利要求4所述的一种肾小球滤过率估计模型的构建方法,其特征在于,对所述身体质量指数、年龄、肌酐、尿酸、尿素氮进行中心化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053409.XA CN112768073B (zh) | 2021-01-15 | 2021-01-15 | 一种肾小球滤过率估计模型的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053409.XA CN112768073B (zh) | 2021-01-15 | 2021-01-15 | 一种肾小球滤过率估计模型的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112768073A CN112768073A (zh) | 2021-05-07 |
CN112768073B true CN112768073B (zh) | 2023-04-18 |
Family
ID=75700818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110053409.XA Active CN112768073B (zh) | 2021-01-15 | 2021-01-15 | 一种肾小球滤过率估计模型的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112768073B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10796802B1 (en) * | 2015-05-01 | 2020-10-06 | Cerner Innovations, Inc. | Computer decision support for determining surgery candidacy in stage four chronic kidney disease |
CN111936859A (zh) * | 2018-01-19 | 2020-11-13 | 马斯公司 | 用于猫中慢性肾脏病的生物标志物和分类算法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015035155A1 (en) * | 2013-09-05 | 2015-03-12 | Idexx Laboratories, Inc. | Methods for detecting renal disease |
US20160001000A1 (en) * | 2014-07-01 | 2016-01-07 | Michael Sabry Awadalla | Systems and methods using estimated glomerular filtration rates of the kidneys in the non-steady state |
CN110070941A (zh) * | 2019-03-20 | 2019-07-30 | 杭州电子科技大学 | 一种基于wasp-bas的肾小球滤过率估计方法 |
CN110634563A (zh) * | 2019-06-21 | 2019-12-31 | 中国人民解放军总医院 | 一种糖尿病肾病-非糖尿病肾病鉴别诊断装置 |
-
2021
- 2021-01-15 CN CN202110053409.XA patent/CN112768073B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10796802B1 (en) * | 2015-05-01 | 2020-10-06 | Cerner Innovations, Inc. | Computer decision support for determining surgery candidacy in stage four chronic kidney disease |
CN111936859A (zh) * | 2018-01-19 | 2020-11-13 | 马斯公司 | 用于猫中慢性肾脏病的生物标志物和分类算法 |
Also Published As
Publication number | Publication date |
---|---|
CN112768073A (zh) | 2021-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112121250B (zh) | 用于血液透析的脱水量预测方法与使用该方法的电子装置 | |
CN108601566B (zh) | 一种精神压力评测方法和装置 | |
CN110246577B (zh) | 一种基于人工智能辅助妊娠期糖尿病遗传风险预测的方法 | |
CN107045876A (zh) | 一种基于语音的帕金森症严重程度诊断方法 | |
CN113053535B (zh) | 一种医疗信息预测系统及医疗信息预测方法 | |
CN113239279B (zh) | 一种慢性病医疗数据采集分析管理方法及云平台 | |
CN114220540A (zh) | 一种糖尿病肾病风险预测模型的构建方法及应用 | |
CN110897634A (zh) | 一种基于生成对抗网络的心电信号生成方法 | |
CN112768073B (zh) | 一种肾小球滤过率估计模型的构建方法 | |
CN113456033A (zh) | 生理指标特征值数据处理方法、系统及计算机设备 | |
CN112826507A (zh) | 一种感音神经性耳聋的脑功能网络演化建模方法 | |
CN114470719B (zh) | 一种全自动姿态矫正训练方法及系统 | |
CN113903470A (zh) | 一种血液透析后患者的生活智能提醒方法及系统 | |
CN109192306A (zh) | 一种糖尿病的判断装置、设备及计算机可读存储介质 | |
CN114530228A (zh) | 基于平滑处理及融合的血糖预测方法、系统及医疗设备 | |
CN114864086A (zh) | 一种基于肺功能报告模板的疾病预测方法 | |
CN109192315B (zh) | 基于加权核回归和封装式偏差搜索的综合年龄检测系统 | |
CN111345814B (zh) | 一种心电信号中心拍的分析方法、装置、设备和存储介质 | |
CN112205974A (zh) | 一种基于lstm模型的智能血压管理分析系统 | |
CN112485162A (zh) | 一种使用血液标志物预测性别的方法 | |
CN117727458B (zh) | 基于在线学习的befast卒中筛查系统和方法 | |
CN104706373A (zh) | 一种基于心音的心脏活力指数计算方法 | |
CN117243569B (zh) | 一种基于多源信息融合的认知功能评估方法和系统 | |
CN117238492A (zh) | 饮水量和导尿量的预测方法、装置、设备及存储介质 | |
CN117542483A (zh) | 一种智能化中医辨证论治方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |