CN116612889A - 一种慢性肾病辅助筛查模型构建方法、筛查方法及系统 - Google Patents

一种慢性肾病辅助筛查模型构建方法、筛查方法及系统 Download PDF

Info

Publication number
CN116612889A
CN116612889A CN202310578817.6A CN202310578817A CN116612889A CN 116612889 A CN116612889 A CN 116612889A CN 202310578817 A CN202310578817 A CN 202310578817A CN 116612889 A CN116612889 A CN 116612889A
Authority
CN
China
Prior art keywords
chronic kidney
kidney disease
training
machine learning
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310578817.6A
Other languages
English (en)
Inventor
宋娜娜
陆雨菲
赵栓
张伟东
张健
杨炎
陈威泽
颜芷昕
陈安南
孙滢雪
孙凯璘
林静
袁敏
丁小强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Hospital Fudan University
Original Assignee
Zhongshan Hospital Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Hospital Fudan University filed Critical Zhongshan Hospital Fudan University
Priority to CN202310578817.6A priority Critical patent/CN116612889A/zh
Publication of CN116612889A publication Critical patent/CN116612889A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供一种慢性肾病的辅助筛查模型构建方法、筛查方法及筛查系统。所述构建方法包括:从经病理证实患有慢性肾病患者的电子病历中提取预训练样本,并从所述预训练样本中筛选重要性高的医学评估指标参数以及诊断结果构成训练样本,所述诊断结果为患慢性肾病的风险等级;将训练样本用于训练多种机器学习模型,对训练后的多个机器学习模型进行验证后进行模型融合得到慢性肾病辅助筛查模型。通过本发明的技术方案得到的慢性肾病辅助筛查模型,能够准确地、高效地辅助医生,基于待诊患者在检测过程中已经得到的医学评估指标数据提前给出该待诊患者患慢性肾病的风险等级,而不用等待该待诊患者24小时尿蛋白定量的检测结果完全给出。

Description

一种慢性肾病辅助筛查模型构建方法、筛查方法及系统
技术领域
本发明所属的技术领域为智慧医疗领域,具体涉及一种慢性肾病(CKD)辅助筛查模型构建方法、筛查方法及系统。
背景技术
现今慢性肾脏病(chronic kidney disease,CKD)已成为世界上一个突出的公共卫生问题;其具有高发病率与高死亡率等临床特点,并且通常治疗费用高昂、带给患者相当大的经济负担。24小时尿蛋白定量是评估CKD严重程度主要方法之一,医生需要根据就诊者24小时尿蛋白检测结果判断其患CKD的风险以及严重程度。但是24小时尿蛋白定量需要就诊者在一天中持续多次进行相关指标的检测,显然这样会增加了门诊随访的难度。
在Asif等人的研究中利用K最近邻(k-Nearest Neighbor,kNN)分类算法、随机森林(Random Forests,RF)和神经网络(Neural Network,NN)构建了检测CKD的模型,并提出了一种新的CKD检测方法(诊断是否有CKD)。Chih-Yin Ho等人提出了一种基于超声图像分析的计算机辅助诊断系统,从CKD患者中收集数千个超声图像数据集,并应用所挑选的典型CKD图像进行预分析处理和训练以进行评估,为医生提供CKD识别和分类的可视化辅助诊断工具。Chase等人使用除肾小球滤过率(estimated glomerular filtration rate,EGFR)之外的6项实验室数据,分别利用朴素贝叶斯(Naive Bayes,NB)、逻辑回归(LogisticRegression,LR)模型对CKD患者由3期向4期进展的概率进行预测。Chase所构建的预测模型的敏感性(sensitivity)表现最高仅72%,且其构建模型所使用训练样本数据大多来源于年龄较大的女性,所获得模型的预测适应性不强。并且目前的CKD预测模型缺乏可靠、稳定且透明的全局解释框架。
另外,Khannara等人通过分析共同风险因素,利用NN、k-NN、NB构建模型,研究了高血压、糖尿病对CKD进展的影响。但此类研究更多的是使用基于数据挖掘或者单一的统计模型和机器学习算法来对CKD患者进行分析预测。但是由于分析数据的多样性以及样本的异质性,单一的统计模型或者机器学习算法无法充分挖掘出数据中所隐含的信息。
发明内容
本发明的目的在于提供一种预测适应能力强,能够充分挖掘出数据之间的所隐含的信息的慢性肾病辅助筛查模型构建方法、筛查方法及系统。并且通过本发明提供的方法构建的慢性肾病辅助筛查模型能够解释其在CKD预测过程中的风险因素,其预测结果有助于指导治疗决策以减缓肾脏疾病的进展并预防其并发症,指导制定透析和肾脏移植计划。
本发明的第一方面提供一种慢性肾病筛查模型的构建方法,所述构建方法包括以下步骤:
S1,从经病理证实患有慢性肾病患者的电子病历中,提取慢性肾病相关的医学评估指标参数值组和诊断结果构成预训练样本,经病理证实患有慢性肾病患者、电子病历、预训练样本为一一对应关系,所述诊断结果为慢性肾病的风险等级;慢性肾病高风险对应的确诊标准为24小时尿蛋白定量大于1g,慢性肾病低风险对应的确诊标准为24小时尿蛋白定量小于/等于1g;
S2,对所述预训练样本进行特征数据标准化及特征数据清洗处理;
S3,基于步骤S2处理后的预训练样本进行医学评估指标筛选;
S4,从每条预处理后的预训练样本中提取步骤S3筛选得到的医学评估指标对应的参数值、并按序存储构成对应的一条训练样本;
S5,基于所述训练样本构成的数据集对多个机器学习模型进行训练;
S6,对训练后的多个机器学习模型进行模型融合得到慢性肾病辅助筛查模型。
进一步地,所述步骤S2具体实现为:
步骤S2.1,将预训练样本进行编码,并对编码后的预训练样本进行归一化处理;
步骤S2.2,对归一化处理后的预训练样本,采用KMeans聚类算法检测异常值并剔除极端离群值;
步骤S2.3,对剔除极端离群值的预训练样本进行SMOTE处理,并基于随机森林算法对预训练样本中缺失的数据进行填充。
进一步地,所述步骤S3实现为:采用基于逻辑回归的递归特征消除改进算法计算出每个医学评估指标对应慢性肾病筛查的重要性;从预处理后的预训练样本中选择所述重要性靠前的若干医学评估指标以及对应的诊断结果构成训练样本。这一步主要是由于跟CKD相关的医学评估指标比较多,但是每个风险参考因素参考权重是不一样的,通过基于逻辑回归的递归特征消除改进算法对相关医学评估指标进行重要性排序,仅选择重要性权重之和大于一定阈值的医学评估指标构成训练样本。这样做不仅能减少训练样本的数据量,而且还能排除一些不重要的医学评估指标对预测的干扰。例如,仅选择重要性权重之和大于95%的前N个医学评估指标构成训练样本,N为大于1的正整数。
进一步地,所述S5中基于所述训练样本构成的数据集对多个机器学习模型进行训练,包括:基于交叉验证方法将训练样本构成的样本数据集划分为训练样本集和测试数据集;利用所述训练样本集分别对所述多个机器学习模型进行训练,并采用所述测试样本集对训练好的机器学习模型进行测试验证。优选地,所述训练样本集和所述测试样本集的训练样本数的比例为5:1。
在所述步骤S6中,采用所述测试样本集对训练好的机器学习哦模型进行测试验证,从所述训练好的多个机器学习模型中选取ROC曲线下面积(AUC)得分最高的两个或三个机器学习模型,基于投票法进行模型融合得到所述慢性肾病辅助筛查模型。
进一步地,所述构建方法还包括:步骤S7,采用机器学习可解释性工具(ShapleyAdditive exPlanations,SHAP)解析所述慢性肾病辅助筛查模型对慢性肾病的预测过程。所述解析包括:通过计算SHAP值解释每个医学评估指标对CKD风险预测的贡献。
本发明的第二方面提供一种慢性肾病的辅助筛查方法。所述辅助筛查方法包括:采集筛查者的相关医学评估指标并处理成慢性肾病辅助筛查模型预测时所需要的输入序列,将所述输入序列输入到所述性肾病辅助筛查模型进行慢性肾病风险预测;所述慢性肾病辅助筛查模型通过上述慢性肾病辅助筛查模型的构建方法构建。
本发明的第三方面提供一种慢性肾病的辅助筛查系统。所述辅助筛选系统包括运行在虚拟机上的慢性肾病辅助筛查模型,所述慢性肾病辅助筛查模型基于上述慢性肾病辅助筛查模型的构建方法构建。
另外,与上述构建方法相对应,本发明还提供一种计算机可读存储介质,其指标在于,所述计算机可读存储介质上存储有程序代码,所述程序代码在被处理器执行时,实现上述慢性肾病辅助筛查模型的构建方法。
通过本发明的提供的慢性肾病辅助筛查模型的构建方法构建的慢性肾病辅助筛查模型,不仅能在精简医学评估指标的前提下,实现准确地、高效地基于待诊患者在检测过程中已经得到的医学评估指标数据提前给出该待诊患者患慢性肾病的风险等级(不用等待该待诊患者24小时尿蛋白定量的检测结果完全给出);还能充分发挥不同机器学习模型对数据中隐藏信息的挖掘能力、提高CKD辅助筛查模型的适应性。
附图说明
图1为本发明提供的慢性肾病筛查模型构建方法的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明提供的一种慢性肾病筛查模型构建方法包括图1所示的步骤。所述构建方法包括以下步骤:
S1,从经病理证实患有慢性肾病患者的电子病历中,提取慢性肾病相关的医学评估指标参数值组和诊断结果构成预训练样本,经病理证实患有慢性肾病患者、电子病历、预训练样本为一一对应关系,所述诊断结果为慢性肾病的风险等级;慢性肾病高风险对应的确诊标准为24小时尿蛋白定量大于1g,慢性肾病低风险对应的确诊标准为24小时尿蛋白定量小于/等于1g;
S2,对所述预训练样本进行特征数据标准化及特征数据清洗处理;
S3,基于步骤S2处理后的预训练样本进行医学评估指标筛选;
S4,从每条预处理后的预训练样本中提取步骤S3筛选得到的医学评估指标对应的参数值、并按序存储构成对应的一条训练样本;
S5,基于所述训练样本构成的数据集对多个机器学习模型进行训练;
S6,对训练后的多个机器学习模型进行模型融合得到慢性肾病辅助筛查模型。
在一个实施例中,所述步骤S1从经病理证实患有慢性肾病患者的电子病历中提取的医学评估指标参数组(对应的参数值只显示统计结果)和诊断结果,如下表格所示。如表1所示,提取医学评估指标和诊断结果的、经病理证实患有慢性肾病患者的总数为1358人,该表中第一列加粗字体为用于诊断CKD的医学评估指标(血液检测指标),其中mean为测量值、括号内的SD代表均值-方差值,“Miss”指代数据缺失的情况;风险等级分为“Mild CKD”---低风险,“Advance CKD”---高风险,“P value”为判定假设检验的参数。将提取出的医学评估指标参数组以及诊断结果按照规定的顺序存储构成预训练样本(对于缺失的医学评估指标参数用0代替)。
表1.慢性肾病者的诊断基线特征
/>
在从每份经病理证实患有慢性肾病患者提取出对应的预训练样本以后,进入到步骤S2,对全体所述预训练样本进行特征数据标准化及特征数据清洗处理以适应机器学习训练样本的数值要求:
步骤S2.1,将预训练样本进行编码,并对编码后的预训练样本进行归一化处理;
步骤S2.2,对归一化处理后的预训练样本,采用KMeans聚类算法检测异常值并剔除极端离群值;
步骤S2.3,对剔除极端离群值后的预训练样本进行SMOTE处理,并基于随机森林算法对预训练样本中缺失的数据进行填充。
从表1可以知道,用于CKD风险评估的医学评估指标过多,若是将这些医学评估指标对应的参数值均用于训练机器学习模型,不仅会造成模型训练过程耗时长、训练过程复杂化,还会由于重要性低的部分指标干扰导致训练后的模型预测/评估精度差。为此,本发明提供的方案在上述步骤S2以后,进入到步骤S3中的基于步骤S2处理后的预训练样本进行医学评估指标筛选环节。
进一步地,步骤S3实现为:采用基于逻辑回归的递归特征消除改进算法计算出每个医学评估指标对应慢性肾病筛查的重要性;从预处理后的预训练样本中选择所述重要性靠前的若干医学评估指标以及对应的诊断结果构成训练样本。由于跟CKD相关的医学评估指标比较多,每个风险参考因素参考权重是不一样的,通过基于逻辑回归的递归特征消除改进算法对相关医学评估指标进行重要性排序,仅选择重要性权重之和大于一定阈值的医学评估指标构成训练样本。这样做不仅能减少训练样本的数据量,而且还能排除一些不重要的医学评估指标对预测的干扰。例如,仅选择重要性权重之和大于95%的前N个医学评估指标构成训练样本,N为大于1的正整数。
在完成步骤S3的医学评估指标筛选后,进入步骤S4:从每条预处理后的预训练样本中提取步骤S3筛选得到的医学评估指标对应的参数值、并按序存储构成对应的一条训练样本。这样训练样本中就只包括筛选出的医学评估指标对应的参数值,而丢弃了其他医学评估指标,减小了训练样本的维度。
在一个实施例中,经过步骤S3筛选的CKD医学评估指标为以下17项血液检查指标:25羟基维生素D、白蛋白、性别、胱抑素C、糖化血清白蛋白、估算的肾小球滤过率、视黄醇结合蛋白、非高密度脂蛋白、免疫球蛋白轻链性LAM、转铁蛋白、肌酸磷酸激酶、血清蛋白电泳白蛋白区带、载脂蛋白A1、血清蛋白电泳beta、血尿酸、血清总蛋白、血清蛋白电泳alpha2。基于上述17项血液检查指标对应的参数值构建用于训练CKD辅助筛查模型的训练样本。
在步骤S5中,基于所述训练样本构成的数据集对多个机器学习模型进行训练,包括:基于交叉验证方法将训练样本构成的样本数据集划分为训练样本集和测试数据集;利用所述训练样本集分别对所述多个机器学习模型进行训练,并采用所述测试样本集对训练好的机器学习模型进行测试验证。优选地,所述训练样本集和所述测试样本集的训练样本数的比例为5:1。在一个实施例中,所述多个机器学习模型包括:LR、NN、SVM、GNB、Ridge和XGBoost学习分类器。这些机器学习的训练过程属于本领域的公知常识,这里不再赘述。
在所述多个机器学习模型训练完成以后,进入到在步骤S6进行模型的融合以得到慢性肾病辅助筛查模型。所述步骤S6具体实现为:采用所述测试样本集对训练好的机器学习模型进行测试验证,从所述训练好的多个机器学习模型中选取ROC曲线下面积(AUC)得分最高的两个或三个机器学习模型,基于投票法进行模型融合得到所述慢性肾病辅助筛查模型。显然,通过上述模型融合得到的CKD辅助筛查模型的预测准确率将比单一模型要高,而且兼具不同模型的对数据之间隐藏信息的挖掘优点。
进一步地,为了使慢性肾病辅助筛查模型能够解析其对CKD风险等级的预测过程,所述构建方法还包括:步骤S7,采用机器学习可解释性工具(Shapley AdditiveexPlanations,SHAP)解析所述慢性肾病辅助筛查模型对慢性肾病的预测过程。所述解析包括:通过计算SHAP值解释每个医学评估指标对CKD风险预测的贡献。
本发明的第二方面提供一种慢性肾病的辅助筛查方法。所述辅助筛查方法包括:采集筛查者的相关医学评估指标并处理成慢性肾病辅助筛查模型预测时所需要的输入序列,将所述输入序列输入到所述性肾病辅助筛查模型进行慢性肾病风险预测;所述慢性肾病辅助筛查模型通过上述慢性肾病辅助筛查模型的构建方法构建。
利用本发明提供的上述构建方法构建的慢性肾病辅助筛查模型进行CKD风险辅助识别,有助于加强高危人群的肾脏管理。例如、使用更高剂量的肾素-血管紧张素系统抑制剂对患者进行抗凝治疗,强化血糖、血压、尿酸盐和降脂药物的使用。此外,对慢性肾病辅助筛查模型的预测过程进行解析,有助于指导治疗决策,以减缓肾脏疾病的进展并预防其并发症,指导透析和肾脏移植计划的制定。
本发明的第三方面提供一种慢性肾病的辅助筛查系统。所述辅助筛选系统包括运行在虚拟机上的慢性肾病辅助筛查模型,所述慢性肾病辅助筛查模型基于上述的慢性肾病辅助筛查模型的构建方法构建。
另外,与上述构建方法相对应,本发明还提供一种计算机可读存储介质,其指标在于,所述计算机可读存储介质上存储有程序代码,所述程序代码在被处理器执行时,实现上述慢性肾病辅助筛查模型的构建方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种慢性肾病筛查模型构建方法,其特征在于,所述构建方法包括:
S1,从经病理证实患有慢性肾病患者的电子病历中,提取慢性肾病相关的医学评估指标参数值组和诊断结果构成预训练样本;经病理证实患有慢性肾病患者、电子病历、预训练样本为一一对应关系;所述诊断结果为慢性肾病的风险等级;
S2,对所述预训练样本进行特征数据标准化及特征数据清洗处理;
S3,基于步骤S2处理后的预训练样本进行医学评估指标筛选;
S4,从每条预处理后的预训练样本中提取步骤S3筛选得到的医学评估指标对应的参数值、并按序存储构成对应的一条训练样本;
S5,基于所述训练样本构成的数据集对多个机器学习模型进行训练;
S6,对训练后的多个机器学习模型进行模型融合得到慢性肾病辅助筛查模型。
2.如权利要求1所述的构建方法,其特征在于,所述慢性肾病的风险等级分为高风险和低风险;其中,高风险对应的确诊标准为24小时尿蛋白定量大于1g,慢性肾病低风险对应的确诊标准为24小时尿蛋白定量小于/等于1g。
3.如权利要求2所述的构建方法,其特征在于,所述步骤S2中对所述预训练样本进行预处理,包括:
步骤S2.1,将预训练样本进行编码,并对编码后的预训练样本进行归一化处理;
步骤S2.2,对归一化处理后的预训练样本,采用KMeans聚类算法检测异常值并剔除极端离群值;
步骤S2.3,对剔除极端离群值的预训练样本进行SMOTE处理,并基于随机森林算法对预训练样本中缺失的数据进行填充。
4.如权利要求3所述的构建方法,其特征在于,所述步骤S4实现为:采用基于逻辑回归的递归特征消除改进算法计算出每个医学评估指标对应慢性肾病筛查的重要性;从预处理后的预训练样本中选择所述重要性靠前的若干医学评估指标以及对应的诊断结果构成训练样本。
5.如权利要求4所述的构建方法,其特征在于,所述S5中基于所述训练样本构成的数据集对多个机器学习模型进行训练,包括:基于交叉验证方法将训练样本构成的样本数据集划分为训练样本集和测试数据集;利用所述训练样本集分别对所述多个机器学习模型进行训练,并采用所述测试样本集对训练好的机器学习模型进行测试验证。
6.如权利要求5所述的构建方法,其特征在于,所述步骤S6实现为:采用所述测试样本集对训练好的机器学习模型进行测试;从所述训练好的多个机器学习模型中选取ROC曲线下面积(AUC)得分最高的两个或三个机器学习模型,基于投票法进行模型融合得到所述慢性肾病辅助筛查模型。
7.如权利要求6所述的构建方法,其特征在于,所述构建方法还包括:
S7,增加机器学习可解释性工具,用于解析所述慢性肾病辅助筛查模型对慢性肾病的预测过程。
8.一种慢性肾病的辅助筛查方法,其特征在于,所述辅助筛查方法包括:采集筛查者的相关医学评估指标并处理成慢性肾病辅助筛查模型预测时所需要的输入序列,将所述输入序列输入到所述性肾病辅助筛查模型进行慢性肾病风险预测;所述慢性肾病辅助筛查模型基于权利要求1-7中任一项所述的慢性肾病辅助筛查模型的构建方法构建。
9.一种慢性肾病的辅助筛查系统,其特征在于,所述辅助筛选系统包括运行在虚拟机上的慢性肾病辅助筛查模型,所述慢性肾病辅助筛查模型基于权利要求1-6中任一项所述的慢性肾病辅助筛查模型的构建方法构建。
10.一种计算机可读存储介质,其指标在于,所述计算机可读存储介质上存储有程序代码,所述程序代码在被处理器执行时,实现权利要求1-7中任一项所述的慢性肾病辅助筛查模型的构建方法。
CN202310578817.6A 2023-05-22 2023-05-22 一种慢性肾病辅助筛查模型构建方法、筛查方法及系统 Pending CN116612889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310578817.6A CN116612889A (zh) 2023-05-22 2023-05-22 一种慢性肾病辅助筛查模型构建方法、筛查方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310578817.6A CN116612889A (zh) 2023-05-22 2023-05-22 一种慢性肾病辅助筛查模型构建方法、筛查方法及系统

Publications (1)

Publication Number Publication Date
CN116612889A true CN116612889A (zh) 2023-08-18

Family

ID=87683061

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310578817.6A Pending CN116612889A (zh) 2023-05-22 2023-05-22 一种慢性肾病辅助筛查模型构建方法、筛查方法及系统

Country Status (1)

Country Link
CN (1) CN116612889A (zh)

Similar Documents

Publication Publication Date Title
CN111081381B (zh) 院内致命性消化道再出血预测关键指标的智能筛选方法
CN110991536B (zh) 原发性肝癌的早期预警模型的训练方法
CN113327679A (zh) 一种肺栓塞临床风险及预后评分方法与系统
CN114242245A (zh) 一种基于电子病历记录数据预测糖尿病肾病发生风险的机器学习方法、系统和装置
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN112991320B (zh) 脑出血患者血肿扩大风险预测系统及方法
US20220172805A1 (en) System and method for automatically determining serious adverse events
CN114023441A (zh) 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法
CN113539470A (zh) 一种糖尿病肾病及非糖尿病性肾脏疾病鉴别诊断预测模型及构建方法
US20210082565A1 (en) Method and system for predicting neurological treatment
CN117612703A (zh) 一种基于医学检验指标的糖尿病视网膜病变分类方法
CN117116477A (zh) 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统
CN113838018B (zh) 基于Cnn-former的肝纤维化病变检测模型训练方法与系统
US20190221309A1 (en) Coronary Artery Disease Screening Method by Using Cardiovascular Markers and Machine Learning Algorithms
Samet et al. Predicting and staging chronic kidney disease using optimized random forest algorithm
Vidhya et al. Alzheimer’s disease detection using residual neural network with LSTM hybrid deep learning models
US20030191732A1 (en) Online learning method in a decision system
CN116612889A (zh) 一种慢性肾病辅助筛查模型构建方法、筛查方法及系统
Mareeswari et al. Predicting Chronic Kidney Disease Using KNN Algorithm
CN114512240A (zh) 一种痛风预测模型系统、设备及存储介质
WO2022130006A1 (en) A prognosis and early diagnosis method and system and choosing the best treatment based on data fusion and information analysis by artificial intelligence, with the ability to modify and improve information and results according to machine learning
Ceh-Varela et al. Machine learning analysis of factors contributing to Diabetes Development
Muthulakshmi et al. Big Data Analytics for Heart Disease Prediction using Regularized Principal and Quadratic Entropy Boosting
CN116469540B (zh) 基于双阈值的去噪方法及系统
CN115064267B (zh) 一种胆道闭锁风险评估系统及其建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination