CN114121285A - 肾损伤风险数据预测系统、预测方法、计算机设备及介质 - Google Patents

肾损伤风险数据预测系统、预测方法、计算机设备及介质 Download PDF

Info

Publication number
CN114121285A
CN114121285A CN202111458211.6A CN202111458211A CN114121285A CN 114121285 A CN114121285 A CN 114121285A CN 202111458211 A CN202111458211 A CN 202111458211A CN 114121285 A CN114121285 A CN 114121285A
Authority
CN
China
Prior art keywords
data
injury risk
medical record
variables
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111458211.6A
Other languages
English (en)
Inventor
徐光勇
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
QINGDAO SIXTH PEOPLE'S HOSPITAL
Original Assignee
QINGDAO SIXTH PEOPLE'S HOSPITAL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by QINGDAO SIXTH PEOPLE'S HOSPITAL filed Critical QINGDAO SIXTH PEOPLE'S HOSPITAL
Priority to CN202111458211.6A priority Critical patent/CN114121285A/zh
Publication of CN114121285A publication Critical patent/CN114121285A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Public Health (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于模型构建技术领域,公开了一种肾损伤风险数据预测系统、预测方法、计算机设备及介质,肾损伤风险数据预测系统包括:数据筛选模块、数据的提取与分类模块、变量提取模块、变量筛选模块、模型构建模块以及验证模块。本发明创新性的提供了评估PLWH中TDF引起的肾毒性风险的机器学习预测模型,能够有效地识别PLWH在TDF治疗中存在肾损伤风险的情况。本发明模型中的变量很容易重现,能够应用于临床实践,并突出了前瞻性机器学习的前景。本发明模型中使用的预测变量在临床随访期间很容易评估,可轻松识别有风险的数据并指导预后。

Description

肾损伤风险数据预测系统、预测方法、计算机设备及介质
技术领域
本发明属于模型构建技术领域,尤其涉及一种肾损伤风险数据预测系统、预测方法、计算机设备及介质。
背景技术
目前,抗逆转录病毒疗法(ART)可提供有效的病毒抑制和加速CD4+T淋巴细胞恢复并延长寿命,但与ART相关的长期副作用显着降低了人类免疫缺陷病毒(HIV)感染者(PLWH)的生活质量。
非获得性免疫缺陷综合征(AIDS)定义的疾病正在获得认可,数据表明接受长期ART的PLWH具有显着的非传染性疾病负担。慢性肾病的发病率来自PLWH中与药物相关的肾毒性和与年龄相关的肾功能下降值得关注。PLWH中慢性肾病的患病率为2-30%。现有技术已经确定了传统的危险因素,例如糖尿病和高血压,在有肾脏问题的PLWH中。抗HIV药物不良事件数据收集研究调查了ART对肾功能的影响,表明富马酸替诺福韦二吡呋酯(TDF)可能通过降低估计的肾小球滤过率(eGFR)导致慢性肾功能损害。现有技术1表明每使用一年TDF,蛋白尿、肾损伤和慢性肾病的风险分别增加30%、11%和33%。
TDF相关肾功能损害的严重程度取决于eGFR,eGFR是根据血清肌酐水平计算得出的;然而,肌酐水平可能受膳食摄入量、肌肉质量和某些药物的影响,可能导致特定人群的eGFR不准确。现有技术已经检验了胱抑素C是否可以作为肾功能的替代内源性标志物,因为它由所有核酸细胞产生并且受肌肉质量的影响最小。然而,正如已经证明肾功能不能即使在检测到损伤时暂时停止使用TDF也完全康复。以前的研究调查了其他可能的肾损伤生物标志物,但发现是有限的,因为单独检查了生物标志物,随访数据很差,或难以纳入临床实践。
尽管有显着的副作用,TDF仍然是HIV-1感染的一线治疗方法,并作为乙型肝炎病毒合并感染的暴露前后治疗。TDF在发达国家和发展中国家也被广泛使用。
研究表明,即使在TDF停用后,一些长期接受TDF治疗的PLWH仍会出现肾功能持续下降的情况。TDF引起的肾毒性也可能表现为范可尼综合征和其他以钙磷失衡为特征的综合征,导致骨病、尿崩症和肾小球活性降低。TDF停用后早期TDF诱导的肾毒性可能是可逆的,开发一个模型来识别高危患者是很重要的TDF引起的肾毒性。
现有技术虽然也有公开部分与TDF相关性肾病有关的因素或变量,然而,这些变量中没有一个被整合到专门为PLWH设计的模型中。同时现有技术已经确定了有或没有ART的PLWH中CD4+T淋巴细胞计数与肾脏疾病之间的关系,而现有技术2则表明CD4+T淋巴细胞之间没有相关性。现有技术3公开了与现有技术2相似的结果,但现有技术3表明较低的基线CD4+T淋巴细胞计数可能与较低的基线eGFR相关。虽然对比文件2与对比文件3都检查了CD4+T淋巴细胞计数与肾功能损害之间的关系,还调查了基线肾功能不同的患者和未接受ART的患者,并报告了样本量小和随访时间短的情况。然而其方案本身的差异可能会限制其研究结果在临床环境中的应用。
尿β2MG已被确定为TDF相关肾功能障碍的预测因子;然而,大部分技术没有对其进行评估。
同时,现有文献指出,应将胱抑素C水平纳入计算有和无HIV感染人群的eGFR。特别是在基于肌酐的eGFR准确性可能受到干扰的情况下;例如,dolutegravir与TDF一起服用可能会增加血清肌酐、胱抑素的水平基于C的eGFR可能是一个不错的选择。此外,胱抑素C在肾移植、慢性肾病和糖尿病的情况下,比肌酐更早发现肾损伤。
使用肌酐计算eGFR有几个限制。在正常参考范围内,较低的肌酐水平与更好的肾功能相关,并且基线肌酐清除率低于90mL/min被认为是肾功能衰退的良好指标。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术没有针对PLWH中TDF引起的肾毒性风险的预测或评估模型。
(2)同时现有的风险分析技术选择的变量单一,且数据不准确,无法应用于实际场景中。
发明内容
针对现有技术存在的问题,本发明提供了一种肾损伤风险数据预测系统、预测方法、计算机设备及介质。
本发明是这样实现的,一种肾损伤风险数据预测系统,包括:
数据筛选模块,用于获取多个艾滋病毒感染者病历数据,并对所述病历数据进行筛选;
数据的提取与分类模块,用于从筛选后的病历数据中进行临床数据的提取、分析与计算;并将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;
变量提取模块,用于基于筛选、提取的数据确定多个预测变量;对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
变量筛选模块,用于构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
模型构建模块,用于基于所述10种变量指标构建艾滋病毒感染者肾损伤风险预测模型;
验证模块,用于利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,即可得到训练好的艾滋病毒感染者肾损伤风险预测模型。
本发明的另一目的在于提供一种应用于所述肾损伤风险数据预测系统的肾损伤风险数据预测方法,所述肾损伤风险数据预测方法包括:
获取艾滋病毒感染者的相关数据,利用随机森林算法和套索回归对获取的数据进行变量分析;并利用ROC曲线比较训练和测试数据集,使用不可靠性U检验评估校准,得到10种变量指标;基于得到的10种变量指标构建艾滋病毒感染者肾损伤风险预测模型。
进一步,所述10种变量指标包括:性别、年龄、体重、身高、血红蛋白、β2-微球蛋白、胱抑素C、血清肌酐水平、TDF使用的持续时间、CD4+T淋巴细胞计数。
进一步,所述肾损伤风险数据预测方法包括以下步骤:
步骤一,获取多个艾滋病毒感染者病历数据,并对所述病历数据进行筛选;从筛选后的病历数据中进行临床数据的提取、分析与计算;
步骤二,将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;并基于筛选、提取的数据确定多个预测变量;
步骤三,对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
步骤四,构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
步骤五,基于所述10种变量指标构建艾滋病毒感染者肾损伤风险预测模型,并利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,即可得到训练好的艾滋病毒感染者肾损伤风险预测模型。
进一步,步骤一中,所述对病历数据进行筛选包括:
排除获取的病历数据中高血压患者、慢性肾病患者、慢性肝病患者、有心脏病或糖尿病病史的患者的病历数据;排除病历数据中未满18周岁的患者的病历数据;排除病历数据中未接受TDF抗病毒治疗的患者、未正常基线eGFR的患者的病历数据;
排除病历数据中处于孕期或哺乳期的患者的数据;排除实验室检查数据不完全的病历数据;排除非TDF相关原因的病历数据。
进一步,所述从筛选后的病历数据中进行临床数据的提取、分类与计算包括:
每3个月从所述筛选后的病历数据中提取一次包含病史数据、体格数据和实验室检查数据以及治疗方案的临床数据;所述实验室检查数据包括血常规、血脂和CD4+T淋巴细胞计数、生化指标、eGFR和血糖、转肽酶、胱抑素C、β2微球蛋白即β2MG水平;
基于所述提取的临床数据,绘制TDF肾损伤发展曲线;所述TDF肾损伤发展曲线即从基线eGFR降低25%或eGFR<90mL/min/1.73m2
并基于提取的临床数据利用慢性肾脏病流行病学公式计算eGFR。
进一步,所述对各个预测变量对应的数据进行统计学分析包括:
连续变量表示为均值+标准差,采用Kolmogorov-Smirnov检验来检验分布的正态性;对正态分布变量进行独立t检验,对所有其他变量进行Mann-Whitney U检验;分类变量表示为带有百分比的频率,并利用卡方检验或Fisher精确检验进行分析。
进一步,所述肾损伤风险数据预测方法还包括:
利用ROC曲线下的面积量化区分,利用曲线下面积、准确性、敏感性、特异性、阳性预测值和阴性预测值作为评估工具,通过训练数据集和测试数据集进行艾滋病毒感染者肾损伤风险预测模型的训练与验证:使用不可靠性U检验评估校准曲线;利用逻辑回归识别每个选定的优势比值变量;利用统计学分析软件进行统计分析。
本发明的另一目的在于提供一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行所述肾损伤风险数据预测方法,包括下列步骤:
步骤一,获取多个艾滋病毒感染者病历数据,并对所述病历数据进行筛选;从筛选后的病历数据中进行临床数据的提取、分析与计算;
步骤二,将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;并基于筛选、提取的数据确定多个预测变量;
步骤三,对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
步骤四,构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
步骤五,基于所述10种变量指标构建艾滋病毒感染者肾损伤风险预测模型,并利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,即可得到训练好的艾滋病毒感染者肾损伤风险预测模型。
本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品,包括计算机可读程序,供于电子装置上执行时,提供用户输入接口以实施所述肾损伤风险数据预测方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明创新性的提供了评估PLWH中TDF引起的肾毒性风险的机器学习预测模型,能够有效地识别PLWH on TDF治疗中存在肾损伤风险的情况。本发明模型中的变量很容易重现,能够应用于临床实践,并突出了前瞻性机器学习的前景。
本发明模型中使用的预测变量在临床随访期间很容易评估,可轻松识别有风险的患者并指导预后。本发明将选定的变量整合到多变量风险预测模型中,变量容易获取,模型容易个体化。本发明通过内部验证队列评估确定模型的准确性。
同时,本发明的模型能够在血清肌酐正常范围内预测肾损伤。
附图说明
图1是本发明实施例提供的肾损伤风险数据预测系统结构示意图;
图中:1、数据筛选模块;2、数据的提取与分类模块;3、变量提取模块;4、变量筛选模块;5、模型构建模块;6、验证模块。
图2是本发明实施例提供的肾损伤风险数据预测方法流程图。
图3是本发明实施例提供的符合标准的使用含TDF方案的HIV感染者的病历数据筛选流程图。
图4(a)是本发明实施例提供的基于随机森林的特征选择与排序所有属性加上最小、平均和最大阴影分数的箱线图。
图4(b)是本发明实施例提供的基于随机森林的特征选择与排序100次Boruta函数运行中随机林拒绝或接受特征的决策历史示意图。
图5(a)是本发明实施例提供的临床特征的Lasso系数曲线示意图。
图5(b)是本发明实施例提供的LASSO模型中的调谐参数(λ)选择通过最小标准使用10倍交叉验证示意图。
图6是本发明实施例提供的ROC评估模型在训练和测试队列中的辨别性能示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种肾损伤风险数据预测系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的肾损伤风险数据预测系统包括:
数据筛选模块1,用于获取多个艾滋病毒感染者病历数据,并对所述病历数据进行筛选;
数据的提取与分类模块2,用于从筛选后的病历数据中进行临床数据的提取、分析与计算;并将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;
变量提取模块3,用于基于筛选、提取的数据确定多个预测变量;对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
变量筛选模块4,用于构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
模型构建模块5,用于基于所述10种变量指标构建艾滋病毒感染者肾损伤风险预测模型;
验证模块6,用于利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,即可得到训练好的艾滋病毒感染者肾损伤风险预测模型。
本发明实施例提供的肾损伤风险数据预测方法包括:
获取艾滋病毒感染者的相关数据,利用随机森林算法和套索回归对获取的数据进行变量分析;并利用ROC曲线比较训练和测试数据集,使用不可靠性U检验评估校准,得到10种变量指标;基于得到的10种变量指标构建艾滋病毒感染者肾损伤风险预测模型。
本发明实施例提供的10种变量指标包括:性别、年龄、体重、身高、血红蛋白、β2-微球蛋白、胱抑素C、血清肌酐水平、TDF使用的持续时间、CD4+T淋巴细胞计数。
如图2所示,本发明实施例提供的肾损伤风险数据预测方法包括以下步骤:
S101,获取多个艾滋病毒感染者病历数据,并对所述病历数据进行筛选;从筛选后的病历数据中进行临床数据的提取、分析与计算;
S102,将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;并基于筛选、提取的数据确定多个预测变量;
S103,对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
S104,构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
S105,基于所述10种变量指标构建艾滋病毒感染者肾损伤风险预测模型,并利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,即可得到训练好的艾滋病毒感染者肾损伤风险预测模型。
本发明实施例提供的对病历数据进行筛选包括:
排除获取的病历数据中高血压患者、慢性肾病患者、慢性肝病患者、有心脏病或糖尿病病史的患者的病历数据;排除病历数据中未满18周岁的患者的病历数据;排除病历数据中未接受TDF抗病毒治疗的患者、未正常基线eGFR的患者的病历数据;
排除病历数据中处于孕期或哺乳期的患者的数据;排除实验室检查数据不完全的病历数据;排除非TDF相关原因的病历数据。
本发明实施例提供的从筛选后的病历数据中进行临床数据的提取、分类与计算包括:
每3个月从所述筛选后的病历数据中提取一次包含病史数据、体格数据和实验室检查数据以及治疗方案的临床数据;所述实验室检查数据包括血常规、血脂和CD4+T淋巴细胞计数、生化指标、eGFR和血糖、转肽酶、胱抑素C、β2微球蛋白即β2MG水平;
基于所述提取的临床数据,绘制TDF肾损伤发展曲线;所述TDF肾损伤发展曲线即从基线eGFR降低25%或eGFR<90mL/min/1.73m2
并基于提取的临床数据利用慢性肾脏病流行病学公式计算eGFR。
本发明实施例提供的对各个预测变量对应的数据进行统计学分析包括:
连续变量表示为均值+标准差,采用Kolmogorov-Smirnov检验来检验分布的正态性;对正态分布变量进行独立t检验,对所有其他变量进行Mann-Whitney U检验;分类变量表示为带有百分比的频率,并利用卡方检验或Fisher精确检验进行分析。
本发明实施例提供的肾损伤风险数据预测方法还包括:
利用ROC曲线下的面积量化区分,利用曲线下面积、准确性、敏感性、特异性、阳性预测值和阴性预测值作为评估工具,通过训练数据集和测试数据集进行艾滋病毒感染者肾损伤风险预测模型的训练与验证:使用不可靠性U检验评估校准曲线;利用逻辑回归识别每个选定的优势比值变量;利用统计学分析软件进行统计分析。
下面结合具体实施例对本发明的技术方案做进一步说明。
实施例1:
1.方法
1.1人群和筛选法则
本发明招募了2014.07.08-2019.07.30期间在青岛市第六人民医院就诊和治疗的PLWH,研究人群需年龄≥18岁、接受TDF抗病毒治疗的患者、正常基线eGFR。有高血压、慢性肾病、慢性肝病、心脏病或糖尿病病史的患者;孕妇和/或哺乳期妇女;实验室检查资料不全者;或那些因非TDF相关原因而失去随访的人被排除在本发明之外。实验室检查数据包括血常规、血脂和CD4+T淋巴细胞计数、生化指标、eGFR和血糖、转肽酶、胱抑素C、β2微球蛋白(β2MG)水平。本发明经青岛市第六人民医院伦理委员会批准(2014014)。所有患者在ART开始时签署知情同意书。
1.2数据收集和分类
人口统计学和临床数据来自医疗记录。每3个月收集一次临床数据,包括每位患者的病史、体格和实验室检查结果以及治疗方案。主要结果是TDF相关肾损伤的发展,其定义为从基线eGFR降低25%或eGFR<90mL/min/1.73m2。在每次随访时计算eGFR慢性肾脏病流行病学公式。根据以往研究的标准,将患者按7:3的比例随机分为训练组和测试组。本发明还比较了患者组的特征有无肾损伤。
1.3风险因素确定
根据之前的研究,本发明确定了22个预测变量,如年龄、性别、体重、身高、HIV感染持续时间、世界卫生组织分期、TDF治疗持续时间和实验室检查结果。
1.4统计学方法
连续变量表示为均值+标准差,采用Kolmogorov-Smirnov检验来检验分布的正态性。对正态分布变量进行独立t检验,而对所有其他变量进行Mann-Whitney U检验。分类变量表示为带有百分比的频率,并根据需要使用卡方检验或Fisher精确检验进行分析。
随机森林是机器学习的经典算法,在预测疾病进展方面具有很高的准确性。分类或回归算法分析多个决策树的投票结果。构建了五百棵决策树,从每个决策树节点中随机选取了三个变量。袋外(OOB)数据占所有数据的17.6%,不适合训练模型;OOB错误决定了被测试模型的普遍性。随机森林根据计算的重要性选择或排除变量。
虽然过滤变量用于创建模型,但该模型并未考虑所有可能的变量。本发明将随机森林分析的结果与Lasso回归的结果进行了比较。
套索回归分析同步特征和正则化。超参数λ的最佳值用于确定本发明中的筛选变量。
使用接收者操作特征(ROC)曲线下的面积量化区分,并通过训练和测试数据集验证模型。以下参数用作评估工具:曲线下面积(AUC)、准确性、敏感性、特异性、阳性预测值(PPV)和阴性预测值(NPV)。使用不可靠性U检验评估校准曲线。还进行了逻辑回归以识别每个选定的优势比值变量。使用R版本4.0.3(R Foundation for Statistical Computing,Vienna,Austria)进行统计分析。R包“randomforest”、“Boruta”和“caret”用于开发和验证随机森林模型,“glmnet”和“rms”包分别用于套索回归和校准曲线。所有统计检验都是双面的,P值<0.05被认为具有统计学意义。
2.结果
在本发明的研究期间,青岛市第六人民医院治疗了1,063名感染者。共有575名患者符合本发明的研究标准,97名(16.9%)患者在随访期间出现肾损伤。详细信息如图3所示。患者以7:3的比例随机分配到训练(n=408)和测试(n=167)队列。在训练和测试队列中分别记录了65和32名患者的肾脏损伤。详情如表2所示。
2.1临床特征
患者的基线特征如表1所示。中位年龄为30.2岁(四分位距[IQR],26-36.8),96.9%(557/575)为男性。中位基线血清肌酐水平为75μmol/L(IQR,66-84),中位基线CD4+T淋巴细胞计数为354个细胞/mm3(IQR,239-465)。在训练和测试队列中分别记录了65和32名患者的肾脏损伤。在肾损伤组中,中位年龄为32.8岁(IQR,27.8_39.4),97.9%(n=97)为男性。在非肾损伤组中,中位年龄为29.8岁(IQR,25.5-36.1),96.7%(n=478)为男性。肾损伤组和非肾损伤组的基线血清肌酐水平显着不同(60mg/dL[IQR,60–69]vs.77mg/dL[IQR,69–85];P<0.001)。根据单变量分析,与TDF相关肾损伤显着相关的临床特征包括年龄(P=0.002);WHO分期(P=0.003);CD4+T淋巴细胞计数(P=0.001);和血红蛋白(P<0.001)、总胆红素(P=0.047)、血清肌酐(P<0.001)和β2MG(P=0.021)水平。根据逻辑回归,胱抑素C的优势比为2.743mg/L(P=0.001)。逻辑回归的结果见补充材料表1。
表1总患者的特征
Figure BDA0003388628180000141
Figure BDA0003388628180000151
Figure BDA0003388628180000161
表2培训和测试队列中患者的特征
Figure BDA0003388628180000162
Figure BDA0003388628180000171
2.2变量选择
用随机森林模型分析了十个变量(年龄;性别;体重;身高;CD4+T淋巴细胞计数;血红蛋白、β2MG、胱抑素C和血清肌酐水平以及TDF使用的持续时间)。图4说明了随机森林过程和结果。套索回归用于测试随机森林的结果并确定最终变量。选择了11个变量(年龄;性别;HIV感染持续时间;WHO分期;CD4+T淋巴细胞计数;总胆红素、碱性磷酸酶、血清肌酐、血尿素氮和胱抑素C水平以及TDF使用持续时间)超参数λ的最优值。随机森林和套索回归分析之间有六个变量重叠;如图5。
2.3预测模型的开发和验证
本发明利用随机森林确定的变量来开发适合临床实践的预测模型。与随机森林的OOB偏差为15.93%,表明泛化性误差较低。训练队列在ROC分析中表现出完美的区分,AUC值为0.845,而独立测试队列的AUC值为0.875。验证显示出良好的辨别力。训练队列的准确性、敏感性、特异性、PPV和NPV均为100%,而测试队列的准确性、敏感性、特异性、PPV和NPV分别为83.8%、98.5%、21.9%、84.2%和分别为77.8%。详细信息如图6所示。在训练数据集中,TDF相关肾损伤的校准曲线表明预测和观察结果之间具有良好的一致性。验证数据集证实,使用TDF与肾损伤的可能性增加有关。
3.讨论
本发明检验了10种变量模型(性别、年龄、体重、身高、TDF使用持续时间;血红蛋白、β2MG、胱抑素C和血清肌酐水平以及CD4+T细胞计数)的作用)用于预测接受ART的PLWH中TDF相关肾损伤的风险。据本发明所知,这是第一个评估PLWH中TDF引起的肾毒性风险的机器学习预测模型。本发明的模型有几个优点。首先,模型中使用的预测变量在临床随访期间很容易评估,这可以轻松识别有风险的患者并指导预后。其次,将选定的变量整合到多变量风险预测模型中,变量容易获取,模型容易个体化。第三,在内部验证队列评估后,该模型保持了其准确性。这是临床预测模型发展的一个重要里程碑,因为它表明该模型显示出与现实世界设置的良好拟合。
本发明选择在本发明的变量选择过程中使用血清β2MG,因为血清β2MG与急性和慢性肾病之间存在有希望的关系。此外,本发明的随机森林对数将血清β2MG鉴定为TDF-的预测因素PLWH相关的肾损伤。
在本发明中,基线血清肾损伤组肌酐水平低于非肾损伤组。本发明推测,两组之间肌肉质量的差异可能影响了血清肌酐水平。肌肉萎缩与HIV-AIDS之间的关联已被记录,还发现两者在WHO分期存在显着差异。
非肾损伤组总体情况良好(表1)。本发明无法测量所有患者的肌肉质量,这种情况凸显了血清肌酐水平在预测肾损伤的局限性。虽然现有技术报告了当基线肌酐清除率低于90mL/min时预测下降的能力;然而,本发明的模型仍然能够在血清肌酐正常范围内预测肾损伤。同时需要进一步调查PLWH中肌肉质量、血清肌酐水平和WHO分期之间的关系。虽然肾损伤患者的基线肌酐水平显着降低,但本发明的模型成功识别出TDF相关肾损伤高风险患者。
4本发明的模型有效地识别了PLWH on TDF治疗中存在肾损伤风险的患者。本发明模型中的变量很容易重现,这有助于将本发明的模型应用于临床实践,并突出了前瞻性机器学习的前景。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种肾损伤风险数据预测系统,其特征在于,所述肾损伤风险数据预测系统包括:
数据筛选模块,用于获取艾滋病毒感染病历数据,并对所述病历数据进行筛选;
数据的提取与分类模块,用于从筛选后的病历数据中进行临床数据的提取、分析与计算;并将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;
变量提取模块,用于基于筛选、提取的数据确定多个预测变量;对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
变量筛选模块,用于构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
模型构建模块,用于基于所述10种变量指标构建艾滋病毒感染的肾损伤风险预测模型;
验证模块,用于利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,得到训练好的艾滋病毒感染的肾损伤风险预测模型。
2.一种应用于如权利要求1所述肾损伤风险数据预测系统的肾损伤风险数据预测方法,其特征在于,所述肾损伤风险数据预测方法包括:
获取艾滋病毒感染者的相关数据,利用随机森林算法和套索回归对获取的数据进行变量分析;并利用ROC曲线比较训练和测试数据集,使用不可靠性U检验评估校准,得到10种变量指标;基于得到的10种变量指标构建艾滋病毒感染者肾损伤风险预测模型。
3.如权利要求2所述肾损伤风险数据预测方法,其特征在于,所述10种变量指标包括:性别、年龄、体重、身高、血红蛋白、β2-微球蛋白、胱抑素C、血清肌酐水平、TDF使用的持续时间、CD4+T淋巴细胞计数。
4.如权利要求2所述肾损伤风险数据预测方法,其特征在于,所述肾损伤风险数据预测方法包括以下步骤:
步骤一,获取多个艾滋病毒感染病历数据,并对所述病历数据进行筛选;从筛选后的病历数据中进行临床数据的提取、分析与计算;
步骤二,将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;并基于筛选、提取的数据确定多个预测变量;
步骤三,对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
步骤四,构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
步骤五,基于所述10种变量指标构建艾滋病毒感染的肾损伤风险预测模型,并利用训练数据集与验证数据集对所述艾滋病毒感染的肾损伤风险预测模型进行训练与验证,得到训练好的艾滋病毒感染的肾损伤风险预测模型。
5.如权利要求4所述肾损伤风险数据预测方法,其特征在于,步骤一中,所述对病历数据进行筛选包括:
排除获取的病历数据中高血压、慢性肾病、慢性肝病、有心脏病或糖尿病病史的病历数据;排除病历数据中未满18周岁的病历数据;排除病历数据中未接受TDF抗病毒治疗的、未正常基线eGFR的病历数据;
排除病历数据中处于孕期或哺乳期的数据;排除实验室检查数据不完全的病历数据;排除非TDF相关原因的病历数据。
6.如权利要求4所述肾损伤风险数据预测方法,其特征在于,所述从筛选后的病历数据中进行临床数据的提取、分类与计算包括:
每3个月从所述筛选后的病历数据中提取一次包含病史数据、体格数据和实验室检查数据以及治疗方案的临床数据;所述实验室检查数据包括血常规、血脂和CD4+T淋巴细胞计数、生化指标、eGFR和血糖、转肽酶、胱抑素C、β2微球蛋白即β2MG水平;
基于所述提取的临床数据,绘制TDF肾损伤发展曲线;所述TDF肾损伤发展曲线即从基线eGFR降低25%或eGFR<90mL/min/1.73m2
并基于提取的临床数据利用慢性肾脏病流行病学公式计算eGFR。
7.如权利要求4所述肾损伤风险数据预测方法,其特征在于,所述对各个预测变量对应的数据进行统计学分析包括:
连续变量表示为均值+标准差,采用Kolmogorov-Smirnov检验来检验分布的正态性;对正态分布变量进行独立t检验,对所有其他变量进行Mann-Whitney U检验;分类变量表示为带有百分比的频率,并利用卡方检验或Fisher精确检验进行分析。
8.如权利要求4所述肾损伤风险数据预测方法,其特征在于,所述肾损伤风险数据预测方法还包括:
利用ROC曲线下的面积量化区分,利用曲线下面积、准确性、敏感性、特异性、阳性预测值和阴性预测值作为评估工具,通过训练数据集和测试数据集进行艾滋病毒感染的肾损伤风险预测模型的训练与验证:使用不可靠性U检验评估校准曲线;利用逻辑回归识别每个选定的优势比值变量;利用统计学分析软件进行统计分析。
9.一种接收用户输入程序存储介质,所存储的计算机程序使电子设备执行权利要求2-8任意一项所述肾损伤风险数据预测方法,包括下列步骤:
步骤一,获取多个艾滋病毒感染者病历数据,并对所述病历数据进行筛选;从筛选后的病历数据中进行临床数据的提取、分析与计算;
步骤二,将提取的数据按照7:3的比例随机划分为训练数据集与测试数据集;并基于筛选、提取的数据确定多个预测变量;
步骤三,对各个预测变量对应的数据进行统计学分析,从多个预测变量中筛选具备统计学意义的变量;
步骤四,构建随机森林模型,并利用构建的随机森林模型对具备统计学意义的变量进行分析;利用套索回归测试随机森林的分析结果,基于超参数的最优值确定最终10种变量指标;
步骤五,基于所述10种变量指标构建艾滋病毒感染者肾损伤风险预测模型,并利用训练数据集与验证数据集对所述艾滋病毒感染者肾损伤风险预测模型进行训练与验证,即可得到训练好的艾滋病毒感染者肾损伤风险预测模型。
10.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如下权利要求2-8任意一项所述肾损伤风险数据预测方法。
CN202111458211.6A 2021-12-02 2021-12-02 肾损伤风险数据预测系统、预测方法、计算机设备及介质 Pending CN114121285A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111458211.6A CN114121285A (zh) 2021-12-02 2021-12-02 肾损伤风险数据预测系统、预测方法、计算机设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111458211.6A CN114121285A (zh) 2021-12-02 2021-12-02 肾损伤风险数据预测系统、预测方法、计算机设备及介质

Publications (1)

Publication Number Publication Date
CN114121285A true CN114121285A (zh) 2022-03-01

Family

ID=80365321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111458211.6A Pending CN114121285A (zh) 2021-12-02 2021-12-02 肾损伤风险数据预测系统、预测方法、计算机设备及介质

Country Status (1)

Country Link
CN (1) CN114121285A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115349495A (zh) * 2022-08-18 2022-11-18 江西中洪博元生物技术有限公司 一种颅脑损伤合并急性肾损伤模型及其构建方法与应用
CN117373584A (zh) * 2023-12-08 2024-01-09 北京大学第一医院 一种急性肾损伤的动态预测方法及系统
CN117476231A (zh) * 2023-11-09 2024-01-30 中山大学孙逸仙纪念医院 基于机器学习的药物性肝损伤风险预测方法、系统
CN117672503A (zh) * 2024-01-31 2024-03-08 中国医学科学院北京协和医院 一种基于DKI评估IgG4-RKD风险的方法、系统及可存储介质
CN117912700A (zh) * 2024-02-02 2024-04-19 暨南大学附属第一医院(广州华侨医院) 肾透析预测方法、装置、设备以及存储介质
CN115349495B (zh) * 2022-08-18 2024-07-02 江西中洪博元生物技术有限公司 一种颅脑损伤合并急性肾损伤模型及其构建方法与应用

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115349495A (zh) * 2022-08-18 2022-11-18 江西中洪博元生物技术有限公司 一种颅脑损伤合并急性肾损伤模型及其构建方法与应用
CN115349495B (zh) * 2022-08-18 2024-07-02 江西中洪博元生物技术有限公司 一种颅脑损伤合并急性肾损伤模型及其构建方法与应用
CN117476231A (zh) * 2023-11-09 2024-01-30 中山大学孙逸仙纪念医院 基于机器学习的药物性肝损伤风险预测方法、系统
CN117373584A (zh) * 2023-12-08 2024-01-09 北京大学第一医院 一种急性肾损伤的动态预测方法及系统
CN117373584B (zh) * 2023-12-08 2024-03-12 北京大学第一医院 一种急性肾损伤的动态预测方法及系统
CN117672503A (zh) * 2024-01-31 2024-03-08 中国医学科学院北京协和医院 一种基于DKI评估IgG4-RKD风险的方法、系统及可存储介质
CN117672503B (zh) * 2024-01-31 2024-05-03 中国医学科学院北京协和医院 一种基于DKI评估IgG4-RKD风险的方法、系统及可存储介质
CN117912700A (zh) * 2024-02-02 2024-04-19 暨南大学附属第一医院(广州华侨医院) 肾透析预测方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN114121285A (zh) 肾损伤风险数据预测系统、预测方法、计算机设备及介质
US20210041440A1 (en) Methods and apparatus for identifying disease status using biomarkers
RU2640568C2 (ru) Способы и системы для оценки риска рака желудочно-кишечного тракта
CN112017791B (zh) 一种基于人工神经网络模型确定肝癌患者预后情况的系统
Szabo et al. A prognostic tool to predict severe acute pancreatitis in pediatrics
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN114724716A (zh) 进展为2型糖尿病的风险预测的方法、模型训练及装置
Talreja et al. Predicting kidney transplantation outcomes using proteinuria ascertained from spot urine samples versus timed urine collections
CN115295151A (zh) 脓毒症预测系统、预测模型构建方法及系统、试剂盒
US20230154626A1 (en) Predicting tolerability in aggressive non-hodgkin lymphoma
Zhou et al. A novel laboratory-based model to predict the presence of obstructive coronary artery disease comparison to coronary artery disease consortium 1/2 score, duke clinical score and diamond-forrester score in china
Wang et al. Development and validation of a prediction model for irreversible worsened cardiac function in patients with acute decompensated heart failure
WO2016103390A1 (ja) インスリン分泌能分析装置、当該装置を備えるインスリン分泌能分析システム及びインスリン分泌能分析方法
CN113488170B (zh) 急性前葡萄膜炎复发风险预测模型构建方法及相关设备
Sathe et al. Biomarker signatures of severe acute kidney injury in a critically ill cohort of COVID-19 and non-COVID-19 acute respiratory illness
Bermúdez-López et al. Development and validation of a personalized, sex-specific prediction algorithm of severe atheromatosis in middle-aged asymptomatic individuals: the ILERVAS study
Du et al. A diagnostic model for Kawasaki disease based on immune cell characterization from blood samples
Amathieu et al. Definitions of acute-on-chronic liver failure: the past, the present, and the future
Nastiti et al. Logistic Regression Using Hyperparameter Optimization on COVID-19 Patients’ Vital Status
Sarkhosh et al. Identification and prioritisation of diabetic nephropathy risk factors in diabetes patients using machine learning approach
WO2022210606A1 (ja) 認知症の将来の発症リスクの評価方法
WO2023102840A1 (zh) 基因标志物在预测孕妇子痫前期风险中的应用
Mboko et al. Prevalence of chronic kidney disease among HIV-infected adults on antiretroviral therapy in northern Namibia: a cross-sectional study
Lobbedez et al. A Machine Learning Algorithm to Identify Patients with Possible Non-Dialysis-Dependent CKD: PO2340
Muntner et al. Development and validation of a self-assessment tool for albuminuria: results from the reasons for geographic and racial differences in stroke (REGARDS) study

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination