CN117542504A - 一种慢性肾脏病预测模型的构建方法、预测系统和应用 - Google Patents
一种慢性肾脏病预测模型的构建方法、预测系统和应用 Download PDFInfo
- Publication number
- CN117542504A CN117542504A CN202311485203.XA CN202311485203A CN117542504A CN 117542504 A CN117542504 A CN 117542504A CN 202311485203 A CN202311485203 A CN 202311485203A CN 117542504 A CN117542504 A CN 117542504A
- Authority
- CN
- China
- Prior art keywords
- model
- sua
- chronic kidney
- kidney disease
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000020832 chronic kidney disease Diseases 0.000 title claims abstract description 70
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 17
- 238000003066 decision tree Methods 0.000 claims abstract description 12
- 108010010234 HDL Lipoproteins Proteins 0.000 claims description 21
- 102000015779 HDL Lipoproteins Human genes 0.000 claims description 21
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims description 18
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims description 18
- 229940116269 uric acid Drugs 0.000 claims description 18
- 239000008280 blood Substances 0.000 claims description 16
- 210000004369 blood Anatomy 0.000 claims description 16
- 230000002503 metabolic effect Effects 0.000 claims description 15
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 13
- 206010020772 Hypertension Diseases 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000012795 verification Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 6
- 208000001145 Metabolic Syndrome Diseases 0.000 claims description 5
- 201000000690 abdominal obesity-metabolic syndrome Diseases 0.000 claims description 5
- 210000001596 intra-abdominal fat Anatomy 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000006372 lipid accumulation Effects 0.000 claims description 3
- 208000026106 cerebrovascular disease Diseases 0.000 claims description 2
- 235000012000 cholesterol Nutrition 0.000 claims description 2
- 230000036541 health Effects 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000012544 monitoring process Methods 0.000 abstract 1
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 description 12
- 238000012937 correction Methods 0.000 description 5
- 238000013058 risk prediction model Methods 0.000 description 5
- 108010023302 HDL Cholesterol Proteins 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 230000035622 drinking Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 208000024172 Cardiovascular disease Diseases 0.000 description 1
- 108010028554 LDL Cholesterol Proteins 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000037237 body shape Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 229940109239 creatinine Drugs 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 235000008242 dietary patterns Nutrition 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013213 extrapolation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 208000017169 kidney disease Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 230000009245 menopause Effects 0.000 description 1
- 230000003821 menstrual periods Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001850 reproductive effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开了一种慢性肾脏病预测模型的构建方法、预测系统和应用。本发明的构建方法包括:数据获取,数据筛选和模型构建。本发明未采用传统的模型构建方法,而是将决策树算法,广义线性模型等作为辅助手段,立足于临床的可操作性,将预测因子简单赋值为0或者1构建评分模型,使得患者本人通过简单计算即可自行评估未来慢性肾脏病的发生风险;且能够得到适用于各个场所的目标事件预测的预测评分,而且得到的预测评分具有对应于目标事件发生的风险比,可以获得对目标事件发生与否的风险强度,以预警慢性肾脏病的发生。基于本发明的预测模型,可以使得预警信息能够通过HIS、手机APP及PC端传递给临床医务人员或者社区健康监测人员。
Description
技术领域
本发明涉及一种慢性肾脏病预测模型的构建方法、预测系统和应用,属于生物医学技术领域。
背景技术
近20年间,中国人群传统生活方式和饮食模式发生了巨大改变,慢性肾脏病的病因谱变正向继发代谢性肾病模式转变。利用代谢性指标构建灵敏度高、特异性强的系统评分体系对肺癌早期诊断具有重要意义。世界范围内已经开发出了二十多项慢性肾脏病发病风险预测模型,CKD发病风险预测模型研究最早开始于欧美国家,随后泰国、日本和韩国等亚洲国家也陆续开展了一系列模型预测研究。我国学者也陆续开发出了4项适用于中国人群的慢性肾脏病风险预测模型,分别为Chien模型,美兆模型,邯郸模型,上海高峰模型。Chien模型仅纳入5个预测因子(年龄、BMI、DBP、2型糖尿病、心血管病),但建模队列中的Harrell's C指数为0.768,但在外验证队列中出现明显下降(仅为0.667)。美兆健康体检人群中建立了CKD的5年发病风险预测模型(美兆模型)。除年龄、文化程度、糖尿病和高血压外,美兆模型还纳入了LDL-C、TG和血清肌酐,在外验证队列中模型AUC为0.768,区分度较高。上述两个预测模型均是在自愿参加健康体检的人群中建立的,长期参加健康体检者与很少或从不参加者可能存在社会人口学等特征方面的差异,限制了模型的外推能力。2021年,上海市“高峰计划”人群队列与生物标本库中分性别构建了3年CKD发病风险预测模型(上海高峰模型),研究人群年龄在20~74岁间,这项研究将女性生殖因素(包括初潮年龄、经期长度、怀孕次数和绝经状态)纳入预测模型,结果显示初潮年龄与女性慢性肾脏病发病风险升高有关。上海高峰模型区分度很高,在女性中的Harrell's C指数达到0.951,男性中则为0.934,但其纳入的预测因子多为临床检验指标,一定程度上限制了其应用场所和可推广性。目前的临床指南中尚未推荐使用任何专门的CKD风险预测模型。
发明内容
针对现有技术中的不足,本发明旨在提供一种慢性肾脏病预测评分体系构建方法和应用,本发明使用代谢型指标、人体测量学参数结合传统人口学指标构建和应用慢性肾脏病风险预测的系统评分体系,识别高危人群,开展分级管理,进而促进慢性肾脏病的预防关口前移。
为了实现上述目的,本发明采取了以下技术方案:
本发明的第一方面,提供一种慢性肾脏病预测模型的构建方法,包括以下步骤:
S1:获取临床慢性肾脏病样本数据,并按比例随机将样本分为训练集和验证集;
S2:从样本中获取预测因子数据,分别建立各预测因子与慢性肾脏病发生的关联;并筛选出与慢性肾脏病发病的危险因素作为特定预测因子;
S3:建立特定预测因子与慢性肾脏病发生的决策树模型,进一步筛选出具有潜力的预测因子;
S4:分别绘制具有潜力的预测因子识别慢性肾脏病发生的ROC曲线,计算ROC曲线下AUC面积,评估所述具有潜力的预测因子早期识别慢性肾脏病发生的预测效能,从而进一步确定纳入模型构建的预测因子;
S5:基于上述预测因子的筛选和评估,采用Logistic回归构建预测慢性肾脏病发生的评分模型;
S6:在验证集中验证模型效能。
优选地,所述步骤S2中获取的预测因子数据包括代谢性指标:内脏脂肪指数(VFI)、脂质蓄积指数(LAP)、身体形态指数(BSI)、身体圆度指数(BRI)、胆固醇(TG)水平、高密度脂蛋白(HDL)水平、代谢综合征和血尿酸(SUA)水平;
和/或,所述步骤S2中,采用Logistic回归分析筛选代谢性指标。
优选地,所述S3中的决策树模型包括分别针对男性和女性的决策树模型,所述决策树模型中纳入的预测因子包括血尿酸水平、高密度脂蛋白水平和是否高血压。
优选地,所述步骤S5中还包括进一步筛选纳入模型构建的预测因子:计算预测因子间相关系数,剔除高度相关即相关系数>0.80的预测因子;
经过筛选后最终纳入模型构建的预测因子包括:针对男性的SUA四分位数、TG水平、有无CVD病史、HDL水平和BRI,针对女性的SUA四分位数、有无高血压和BRI;
和/或,所述步骤S5中的评分模型具体包括:
针对男性的评分模型:SUAQ1-Q2得分为0,SUA Q3得分为1,SUA Q4分期得分为2;有脑血管疾病史得分为1,无则得分为0;胆固醇水平TG≥150mg/dL得分为1,<150mg/dL则得分为0;高密度脂蛋白水平HDL≤40mg/dL得分为1,>40mg/dL则得分为0;身体圆度指数BRI≥3.50则得分为1,<3.50则得分为0;将各项得分相加后计算总得分,总得分为0~2为低风险组,总得分为3~4为中风险组,总得分为5~6为高风险组;
其中,SUAQ1-Q2指的是血尿酸水平:SUA<5.25mg/dL,SUA Q3指的是血尿酸水平:5.25≤SUA≤6.35mg/dL,SUA Q4指的是血尿酸水平:SUA>6.35mg/dL。
及针对女性的评分模型:SUAQ1-Q2分期得分为0,SUA Q3得分为1,SUA Q4分期得分为2;有高血压史得分为1,无则得分为0;身体圆度指数BRI≥4.34得分为1,<4.34则得分为0;将各项得分相加后计算总得分,总得分0~1为低风险组,总得分2~3为中风险组,总得分4为高风险组;
其中,SUAQ1-Q2指的是血尿酸水平:SUA<3.95mg/dL,SUA Q3指的是血尿酸水平:3.95≤SUA≤5.63mg/dL,SUA Q4指的是血尿酸水平:SUA>5.63mg/dL。
优选地,所述模型还经过多因素矫正(矫正年龄、住址、教育程度、BMI、吸烟情况和饮酒情况)。
本发明的第二方面,提供一种用于构建慢性肾脏病预测模型的计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现本发明第一方面所述的构建方法。
本发明的第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;
其中,在所述计算机程序运行时控制所述计算机可读存储介质实现本发明第一方面所述的构建方法。
本发明的第四方面,提供一种用于预测慢性肾脏病的系统或设备,所述系统或设备包括:
数据获取模块,用于获取待测受试者的性别和临床数据,所述临床数据根据受试者性别分为:男性的SUA四分位数、TG水平、有无CVD病史、HDL水平和BRI,女性的SUA四分位数、有无高血压和BRI;
预测模块,用于将所述数据获取模块得到的临床数据输入预先构建好的预测模型,获得所述预测模型输出的预测结果;所述预测模型为纳入所述临床数据和基于Logistic回归构建的评分模型。
优选地,所述系统或设备还包括模型构建模块,用于:
获取患者的临床数据;
对获取的临床数据进行预测因子的筛选;
将筛选出的预测因子纳入模型构建,并验证模型预测效能。
本发明的第五方面,提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现如下方法:
获取待测受试者的临床数据,所述临床数据根据受试者性别分为:男性的SUA四分位数、TG水平、有无CVD病史、HDL水平和BRI,女性的SUA四分位数、有无高血压和BRI;
将所述数据获取模块得到的临床数据输入预先构建好的预测模型,所述预测模型为纳入所述临床数据和基于Logistic回归构建的评分模型;
根据上述评分模型所得到的结果,输出待测受试者慢性肾脏病发生的预测结果。
本发明的第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;
其中,在所述计算机程序运行时控制所述计算机可读存储介质本发明第五方面中所述的方法。
本发明与现有技术相比,具有如下有益效果:
(1)模型构建简易,可调节性强:本发明未采用传统的模型构建方法,而是将决策树算法,广义线性模型等作为辅助手段,立足于临床的可操作性,将预测因子简单赋值为0或者1构建评分模型,使得患者本人通过简单计算即可自行评估未来慢性肾脏病的发生风险;此外,基于本发明方法,可根据目标对象的不同或者人群背景的差异定义预测因子和评分权重,预测评分的可调节性强;能够得到适用于各个场所的目标事件的预测评分,而且得到的预测评分具有对应于目标事件发生的风险比,可以获得对目标事件发生与否的风险强度,以预警目标事件的发生;
(2)操作简单,使用人群广泛:尤其适用于医院体检人群,代谢综合征人群或社区中老年人群慢性肾脏病事件的预测和预警时,能够对患者是否发生慢性肾脏病时间进行早期识别,以使得治疗时间窗前移,避免重要器官功能不全的发生,节约医疗资源。
附图说明
图1为本发明实施例中慢性肾脏病预测模型的构建方法的流程图;
图2为本发明实施例中慢性肾脏病预测模型的代谢型指标筛选示意图;
图3为本发明实施例中代谢型指标介导慢性肾脏病发生的系统决策树;
图4为本发明实施例中代谢型指标识别慢性肾脏病发生的ROC曲线下面积;
图5为本发明实施例中用于男性人群慢性肾脏病预测模型构建的结构框图;
图6为本发明实施例中用于女性人群慢性肾脏病预测模型构建的结构框图;
图7为本发明实施例中用于慢性肾脏病预测模型验证的结构框图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
实施例
本实施例提供了一种慢性肾脏病预测模型的构建方法,示意性流程如图1所示,构建模型所需的样本包括训练集和验证集1~5,图1中显示了样本纳入标准训练集的构建可基于全人群或者N:1随机抽样的基础上。之后重新建立了N个内部队列,按照N:1随机抽取,构建N倍交叉验证队列。将预测模型开发队列作为验证集评价模型性能重复此过程N次。从而比较预测模型训练集和验证集在预测准确性表现的一致性和稳定性;模型构建方法具体包括以下步骤:
S101:获取慢性肾脏病事件发生前预测因子数据,并按比例随机将人群分为训练集和验证集(样本纳入标准见图1)。
预测因子为与慢性肾脏病事件的发生相关联的因素。具体的,上述预测因子数据可以是通过问卷调查所得,病案系统摘录所得,也可以是通过公开数据库导入的数据。本实施例数据来源于中国健康与养老追踪调查(CHARLS)数据库。
S102:按所获取的预测因子数据,分别建立固定时间节点下的预测因子与慢性肾脏病发生的关联。本实施例中我们采用传统Logistic回归模型开展代谢性指标的筛选,传统代谢组分的基础上,首次评估了内脏脂肪指数(VFI)、脂质蓄积指数(LAP)、身体形态指数(BSI)、身体圆度指数(BRI)对慢性肾脏病发病的作用。初步筛选矫正混杂因素的Logistic回归模型中,高水平甘油三酯(TG)(TG≥1.7mmol/L)、低水平高密度脂蛋白(HDL)(男性HDL-C<40mg/dL;女性HDL<50mg/dL)、代谢综合征、高水平血尿酸(SUA)(SUA水平在第二分位数以上)、高水平内脏脂肪指数(VFI)(男性VFI≥1.15;女性VFI≥1.88)、身体形状指数(BSI)(男性BSI≥0.082;女性BSI≥0.083)和身体圆度指数(BRI)(男性BRI≥3.50;女性BRI≥4.34)均是男性人群慢性肾脏病发病的危险因素。而女性人群中,代谢综合征、高水平SUA和BRI是慢性肾脏病发病的危险因素。
S103:按前期所获取的存在与慢性肾脏病发生关联的特定预测因子,分别建立预测因子与慢性肾脏病发生的决策树模型,进一步探究代谢性指标诱导慢性肾脏病发生的联合作用,最终发现男性:同时存在SUA Q2~Q4(SUA ≥4.25mg/dL)和HDL-C降低(HDL-C<40mg/dL)人群慢性肾脏病发生风险最高;女性:同时存在高血压,SUA Q4(SUA≥5.64mg/dL)人群慢性肾脏病发病风险最高,如图3所示。
S104:分别绘制代谢型指标识别慢性肾脏病发生的ROC曲线,计算ROC曲线下AUC面积,评估各项预测因子早期识别慢性肾脏病发生的预测效能,SUA在的曲线下面积均为代谢性指标中最高,如图4所示。
S105:基于上述变量筛选和评估,构建预测慢性肾脏病发生的综合评分系统。首先计算预测因子间相关系数,考虑到高度相关的变量同时纳入可能会导致模型过拟合,剔除高度相关的预测因子(相关系数均>0.80)。此处也可计算方差膨胀因子等。相关系数显示,WC、BRI、TG、LAP、VFI之间高度相关。考虑到高度相关的变量同时纳入可能会导致模型过拟合,在复合人体测量学指标中我们仅选择了BRI。根据这样的思路,我们将CVD史、SUA、TG、HDL-C、BRI纳入男性人群CKD发病评分系统,并进行赋值,给尿酸赋值0~3分。最终得到0~6分的主要以代谢指标和人体测量学参数构成的CKD评分系统。它包括男性的SUA四分位数、以及女性的SUA四分位数、高血压和BRI。男性的ROC曲线下面积(AUC)为0.807,预测效能较高。此外,我们根据评分系统将人群分为分为低组(评分0~2)、中组(评分3~4)和高危组(评分5~6),三组人群CKD的发生率分别为1.9%、3.4%和10.3%,经三组模型校正后(模型1:未矫正;模型2:矫正年龄;模型3:矫正年龄、住址、教育程度、BMI、吸烟情况和饮酒情况),多因素矫正结果(模型3)显示,中危组CKD发生的风险比(RR)为2.0(95% CI:1.0~3.9),高危组为6.3(95% CI:2.5~15.5),过程和结果如图5~6所示。
S106:女性人群慢性肾脏病发生的评分体系同S105(图6)。
S107:本实施例将研究对象打乱按4:1随机抽取,重新建立了5个内部队列,构成5倍交叉验证队列。其中,内部验证的实施采用Bootstrap方法,即通过在预测模型开发队列中进行有放回抽样,构造一个相同样本量大小的Bootstrap重抽样样本,并将此样本作为训练集,将预测模型开发队列作为验证集评分系统在验证集的预测效能,重复此过程N次。男性曲线下面积为0.785~0.822,女性为0.737~0.781。且低,中,高评分分组下慢性肾脏病事件显著上升,如图7所示。
以上所述,仅为本发明的较佳实施例,并非对本发明任何形式上和实质上的限制,应当指出,对于本技术领域的普通技术人员,在不脱离本发明的前提下,还将可以做出若干改进和补充,这些改进和补充也应视为本发明的保护范围。
Claims (10)
1.一种慢性肾脏病预测模型的构建方法,其特征在于,包括以下步骤:
S1:获取临床慢性肾脏病样本数据,并按比例随机将样本分为训练集和验证集;
S2:从样本中获取预测因子数据,分别建立各预测因子与慢性肾脏病发生的关联;并筛选出与慢性肾脏病发病的危险因素作为特定预测因子;
S3:建立特定预测因子与慢性肾脏病发生的决策树模型,进一步筛选出具有潜力的预测因子;
S4:分别绘制具有潜力的预测因子识别慢性肾脏病发生的ROC曲线,计算ROC曲线下AUC面积,评估所述具有潜力的预测因子早期识别慢性肾脏病发生的预测效能,从而进一步确定纳入模型构建的预测因子;
S5:基于上述预测因子的筛选和评估,采用Logistic回归构建预测慢性肾脏病发生的评分模型;
S6:在验证集中验证模型效能。
2.如权利要求1所述的慢性肾脏病预测模型的构建方法,其特征在于,所述步骤S2中获取的预测因子数据包括代谢性指标:内脏脂肪指数(VFI)、脂质蓄积指数(LAP)、身体形态指数(BSI)、身体圆度指数(BRI)、胆固醇(TG)水平、高密度脂蛋白(HDL)水平、代谢综合征和血尿酸(SUA)水平;
和/或,所述步骤S2中,采用Logistic回归分析筛选代谢性指标。
3.如权利要求1所述的慢性肾脏病预测模型的构建方法,其特征在于,所述S3中的决策树模型包括分别针对男性和女性的决策树模型,所述决策树模型中纳入的预测因子包括血尿酸水平、高密度脂蛋白水平和是否高血压。
4.如权利要求1所述的慢性肾脏病预测模型的构建方法,其特征在于,所述S5中还包括进一步筛选纳入模型构建的预测因子:计算预测因子间相关系数,剔除高度相关即相关系数>0.80的预测因子;
经过筛选后最终纳入模型构建的预测因子包括:针对男性的SUA四分位数、TG水平、有无CVD病史、HDL水平和BRI,针对女性的SUA四分位数、有无高血压和BRI;
和/或,所述步骤S5中的评分模型具体包括:
针对男性的评分模型:SUAQ1-Q2得分为0,SUA Q3得分为1,SUA Q4分期得分为2;有脑血管疾病史得分为1,无则得分为0;胆固醇水平TG≥150mg/dL得分为1,<150mg/dL则得分为0;高密度脂蛋白水平HDL≤40mg/dL得分为1,>40mg/dL则得分为0;身体圆度指数BRI≥3.50则得分为1,<3.50则得分为0;将各项得分相加后计算总得分,总得分为0~2为低风险组,总得分为3~4为中风险组,总得分为5~6为高风险组;
其中,SUAQ1-Q2指的是血尿酸水平:SUA<5.25mg/dL,SUA Q3指的是血尿酸水平:5.25≤SUA≤6.35mg/dL,SUA Q4指的是血尿酸水平:SUA>6.35mg/dL。
及针对女性的评分模型:SUAQ1-Q2分期得分为0,SUA Q3得分为1,SUA Q4分期得分为2;有高血压史得分为1,无则得分为0;身体圆度指数BRI≥4.34得分为1,<4.34则得分为0;将各项得分相加后计算总得分,总得分0~1为低风险组,总得分2~3为中风险组,总得分4为高风险组;
其中,SUAQ1-Q2指的是血尿酸水平:SUA<3.95mg/dL,SUA Q3指的是血尿酸水平:3.95≤SUA≤5.63mg/dL,SUA Q4指的是血尿酸水平:SUA>5.63mg/dL。
5.一种用于构建慢性肾脏病预测模型的计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现权利要求1~4中任意一项所述的构建方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;
其中,在所述计算机程序运行时控制所述计算机可读存储介质实现权利要求1~4中任意一项所述的构建方法。
7.一种用于预测慢性肾脏病的系统或设备,其特征在于,所述系统或设备包括:
数据获取模块,用于获取待测受试者的性别和临床数据,所述临床数据根据受试者性别分为:男性的SUA四分位数、TG水平、有无CVD病史、HDL水平和BRI,女性的SUA四分位数、有无高血压和BRI;
预测模块,用于将所述数据获取模块得到的临床数据输入预先构建好的预测模型,获得所述预测模型输出的预测结果;所述预测模型为纳入所述临床数据及基于Logistic回归构建的评分模型。
8.如权利要求7所述的系统或设备,其特征在于,所述系统或设备还包括模型构建模块,用于:
获取患者的临床数据;
对获取的临床数据进行预测因子的筛选;
将筛选出的预测因子纳入模型构建,并验证模型预测效能。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有程序,所述处理器执行所述程序时实现如下方法:
获取待测受试者的临床数据,所述临床数据根据受试者性别分为:男性的SUA四分位数、TG水平、有无CVD病史、HDL水平和BRI,女性的SUA四分位数、有无高血压和BRI;
将所述数据获取模块得到的临床数据输入预先构建好的预测模型,所述预测模型为纳入所述临床数据和基于Logistic回归构建的评分模型;
根据上述评分模型所得到的结果,输出待测受试者慢性肾脏病发生的预测结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;
其中,在所述计算机程序运行时控制所述计算机可读存储介质实现权利要求9中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311485203.XA CN117542504A (zh) | 2023-11-08 | 2023-11-08 | 一种慢性肾脏病预测模型的构建方法、预测系统和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311485203.XA CN117542504A (zh) | 2023-11-08 | 2023-11-08 | 一种慢性肾脏病预测模型的构建方法、预测系统和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117542504A true CN117542504A (zh) | 2024-02-09 |
Family
ID=89795035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311485203.XA Pending CN117542504A (zh) | 2023-11-08 | 2023-11-08 | 一种慢性肾脏病预测模型的构建方法、预测系统和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117542504A (zh) |
-
2023
- 2023-11-08 CN CN202311485203.XA patent/CN117542504A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021190300A1 (zh) | Ai慢性肾病风险筛查建模方法、慢性肾病风险筛查方法及系统 | |
CN107153774A (zh) | 慢性病风险评估双曲线模型的构建及应用该模型的疾病预测系统 | |
CN114464322B (zh) | 女性盆底功能障碍性疾病风险预警模型及其构建方法和系统 | |
JP2009535644A (ja) | バイオマーカーを使用して疾患状況を同定するための方法および装置 | |
KR20160086730A (ko) | 심혈관질환 위험 인자를 사용한 심혈관질환 위험의 예측 방법 | |
US20100185573A1 (en) | Method and Apparatus for Diagnosing an Allergy of the Upper Respiratory Tract Using a Neural Network | |
CN115602325A (zh) | 一种基于多模型算法的慢性病风险评估方法及其系统 | |
Martín‐Rodríguez et al. | Accuracy of prehospital point‐of‐care lactate in early in‐hospital mortality | |
Hammoudeh et al. | Prospective cohort studies in medical research | |
CN112967803A (zh) | 基于集成模型的急诊患者早期死亡率预测方法及系统 | |
Coutts et al. | Psychotic disorders as a framework for precision psychiatry | |
CN112331340B (zh) | 育龄夫妇妊娠概率的智能预测方法及系统 | |
CN114360728A (zh) | 一种用于糖尿病轻度认知功能障碍的预测模型和诺模图的构建方法 | |
CN113128654A (zh) | 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 | |
CN117373675A (zh) | 一种基于smote算法的慢性阻塞性肺疾病再入院风险预测系统 | |
RU2523661C1 (ru) | Способ скрининга заболеваний печени и система для реализации способа | |
Lee et al. | Nonalcoholic fatty liver disease and early prediction of gestational diabetes mellitus using machine learning methods | |
CN115602327A (zh) | 一种肺结节发生肺癌风险的预测模型的构建方法 | |
US20070161868A1 (en) | Method and system for determining whether additional laboratory tests will yield values beyond a threshold level | |
EP4179961A1 (en) | Voice characteristic-based method and device for predicting alzheimer's disease | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理系统 | |
CN118136254A (zh) | 基于胸部ct参数构建慢性阻塞性肺疾病前期模型的方法 | |
CN116705286B (zh) | 基于代谢相关脂肪性肝病的预测方法、电子设备及存储介质 | |
KR20050050768A (ko) | 개인별 맞춤 건강증진서비스 제공장치 및 그 방법 | |
CN116913550A (zh) | 一种ppi相关糖尿病风险预测模型的建模方法和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |