CN116884631B - 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统 - Google Patents
基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统 Download PDFInfo
- Publication number
- CN116884631B CN116884631B CN202311143606.6A CN202311143606A CN116884631B CN 116884631 B CN116884631 B CN 116884631B CN 202311143606 A CN202311143606 A CN 202311143606A CN 116884631 B CN116884631 B CN 116884631B
- Authority
- CN
- China
- Prior art keywords
- model
- feature set
- prediction
- data
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 206010019663 Hepatic failure Diseases 0.000 title claims abstract description 29
- 208000007903 liver failure Diseases 0.000 title claims abstract description 29
- 231100000835 liver failure Toxicity 0.000 title claims abstract description 29
- 238000011282 treatment Methods 0.000 title claims abstract description 27
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000012216 screening Methods 0.000 claims abstract description 47
- 238000007477 logistic regression Methods 0.000 claims abstract description 34
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 238000003066 decision tree Methods 0.000 claims abstract description 15
- 238000007637 random forest analysis Methods 0.000 claims abstract description 15
- 238000013480 data collection Methods 0.000 claims abstract description 6
- 238000003745 diagnosis Methods 0.000 claims abstract description 6
- 201000010099 disease Diseases 0.000 claims abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 7
- 230000002068 genetic effect Effects 0.000 claims description 5
- 208000000419 Chronic Hepatitis B Diseases 0.000 claims description 4
- 208000002672 hepatitis B Diseases 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 10
- 102100027378 Prothrombin Human genes 0.000 description 8
- 108010094028 Prothrombin Proteins 0.000 description 8
- 229940039716 prothrombin Drugs 0.000 description 8
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 4
- 108010082126 Alanine transaminase Proteins 0.000 description 4
- 238000008050 Total Bilirubin Reagent Methods 0.000 description 4
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 4
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 4
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 4
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 210000004185 liver Anatomy 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 102000003914 Cholinesterases Human genes 0.000 description 2
- 108090000322 Cholinesterases Proteins 0.000 description 2
- 102000008857 Ferritin Human genes 0.000 description 2
- 238000008416 Ferritin Methods 0.000 description 2
- 108050000784 Ferritin Proteins 0.000 description 2
- DGAQECJNVWCQMB-PUAWFVPOSA-M Ilexoside XXIX Chemical compound C[C@@H]1CC[C@@]2(CC[C@@]3(C(=CC[C@H]4[C@]3(CC[C@@H]5[C@@]4(CC[C@@H](C5(C)C)OS(=O)(=O)[O-])C)C)[C@@H]2[C@]1(C)O)C)C(=O)O[C@H]6[C@@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O.[Na+] DGAQECJNVWCQMB-PUAWFVPOSA-M 0.000 description 2
- 102000007584 Prealbumin Human genes 0.000 description 2
- 108010071690 Prealbumin Proteins 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001772 blood platelet Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 229940048961 cholinesterase Drugs 0.000 description 2
- 229940109239 creatinine Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000007386 hepatic encephalopathy Diseases 0.000 description 2
- MOFVSTNWEDAEEK-UHFFFAOYSA-M indocyanine green Chemical compound [Na+].[O-]S(=O)(=O)CCCCN1C2=CC=C3C=CC=CC3=C2C(C)(C)C1=CC=CC=CC=CC1=[N+](CCCCS([O-])(=O)=O)C2=CC=C(C=CC=C3)C3=C2C1(C)C MOFVSTNWEDAEEK-UHFFFAOYSA-M 0.000 description 2
- 229960004657 indocyanine green Drugs 0.000 description 2
- 235000014655 lactic acid Nutrition 0.000 description 2
- 239000004310 lactic acid Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 229910052708 sodium Inorganic materials 0.000 description 2
- 239000011734 sodium Substances 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000002759 z-score normalization Methods 0.000 description 2
- 208000007788 Acute Liver Failure Diseases 0.000 description 1
- 206010000804 Acute hepatic failure Diseases 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010053159 Organ failure Diseases 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 231100000836 acute liver failure Toxicity 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000002054 transplantation Methods 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,包含:数据收集模块;第一筛选模块,筛选第一特征集;第二筛选模块,筛选第二特征集,通过第二特征集和对应的已知发生概率对基于多层stacking的预测模型进行训练,通过患者的已有的疾病诊断数据、第二特征集和已知发生概率对相似患者模型进行训练;预测模块,通过基于多层stacking的预测模型接收待诊断的患者的相关特征数据输出发生概率;相似匹配模块,输出相似患者的治疗方案。本发明提供的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,通过采集全面的患者数据,运用复杂的数据分析和机器学习方法,包括logistic回归,随机森林,决策树和XGBoost算法等,极大提高了预测结果的准确性。
Description
技术领域
本发明涉及一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统。
背景技术
慢加急性肝衰竭(HBV-ACLF)是在慢性乙型肝炎基础上因各种诱因暴发的急性肝脏和/或肝外器官衰竭的复杂综合征,病死率高达50%-90%。早期预测患者ACLF发生风险,实施精准救治,实现治疗关口前移,将有效改善患者预后。《肝衰竭诊治指南(2018年版)》中提出单因素指标如年龄、肝性脑病的发生、TBiL、凝血酶原(PT)或国际标准化比值(INR)、血肌酐、前白蛋白、胆碱酯酶、甲胎蛋白(AFP)、乳酸、血糖、血清钠、血小板等对肝衰竭预后评估有一定价值,临床可参考应用。吲哚菁绿(ICG)清除试验可动态观察受试者有效肝功能或肝储备功能,对肝衰竭及肝移植前后预后评估有重要价值。现有的预测及评估方法,存在评估结果不够精确的缺陷。
发明内容
本发明提供了一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统解决上述提到的技术问题,具体采用如下的技术方案:
一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,包含:
数据收集模块,用于收集若干慢性乙型肝炎患者的个人数据,所述个人数据包含若干单因素指标以及对应的未来7/14/28天内发生ACLF的概率;
第一筛选模块,用于通过logistic回归模型对若干所述单因素指标进行初步筛选得到第一特征集,所述第一特征集包含经过筛选后的若干所述单因素指标;
第二筛选模块,通过基于多层stacking的预测模型对所述第一筛选模块筛选出的所述第一特征集进行多特征筛选得到第二特征集,所述第二特征集包含经过筛选后的若干所述单因素指标;
通过所述第二筛选模块筛选出的所述第二特征集和对应的已知发生概率对所述基于多层stacking的预测模型进行训练,通过患者的已有的疾病诊断数据、所述第二筛选模块筛选出的所述第二特征集和对应的已知发生概率对相似患者模型进行训练;
预测模块,用于通过训练好的所述基于多层stacking的预测模型接收待诊断的患者的对应所述第二特征集的相关特征数据输出7/14/28天内ACLF的发生概率;
相似匹配模块,用于通过训练好的所述相似患者模型接收待诊断的患者的对应所述第二特征集的相关特征数据和所述预测模块预测出的对应的7/14/28天内ACLF的发生概率输出相似患者的治疗方案。
进一步地,所述个人数据包含基本信息、病史、生活习惯、遗传信息以及检查结果。
进一步地,所述第一筛选模块进行初步筛选的具体方法为:
对所述个人数据进行预处理;
对预处理后的所述个人数据中的数值类型的指标进行数据标准化;
针对每一个所述单因素指标分别建立一个logistic回归模型,利用已有的数据,估计模型的参数;
对于每一个建立的logistic回归模型进行模型评估,确定模型是否合适;
对于每个logistic回归模型的结果,根据其参数的估计值和统计显著性进行解释;
根据每个logistic回归模型的评估结果和结果解释, 筛选出对肝衰竭的发生有显著影响的若干所述单因素指标构成所述第一特征集。
进一步地,对预处理后的所述个人数据中的数值类型的指标使用z-score标准化处理方法进行数据标准化。
进一步地,所述评估指标为模型的拟合优度和模型的准确度。
进一步地,所述基于多层stacking的预测模型的基础模型包含logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型。
进一步地,所述第二筛选模块进行再次筛选的具体方法为:
将所述第一筛选模块筛选出的所述第一特征集分别输入logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型,通过feature_importances_属性获得每个特征的重要性,从所述第一特征集中删除不重要的特征得到所述第二特征集。
进一步地,所述基于多层stacking的预测模型的层数为两层,使用筛选过的第二特征集作为第一层的输入,使用第一层的logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型分别对第二特征集进行训练,得到第一次层的输出;
将各个基础模型的输出与所述第二特征集合并作为第二层的输入,使用第二层的logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型分别对合并的数据进行训练,得到第二层的输出;
将第二层的输出输入到一个线性模型中进行训练,得到最终的输出。
进一步地,所述线性模型为Logistic回归模型。
进一步地,所述相似患者模型基于K-近邻算法搭建。
本发明的有益之处在于所提供的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,通过采集全面的患者数据,运用复杂的数据分析和机器学习方法,包括logistic回归,随机森林,决策树和XGBoost算法等,预测结果的准确性相比传统方法有显著提高。
本发明的有益之处还在于所提供的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,通过找到与当前患者情况相似的历史患者及其治疗方案,提供给医生参考,能够在短时间内给出更有针对性的治疗方案。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统的示意图;
图2是本发明的多层stacking模型的示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
如图1所示,本申请公开一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,包含:数据收集模块、第一筛选模块、第二筛选模块、预测模块和相似匹配模块。
其中,数据收集模块用于收集若干慢性乙型肝炎患者的个人数据,个人数据包含若干单因素指标以及对应的未来7/14/28天内发生ACLF的概率。在本申请的实施方式中,个人数据包含基本信息(如年龄、性别等)、病史(如肝性脑病的发生)、生活习惯(如饮食、睡眠、运动)、遗传信息以及检查结果(包括TBiL、凝血酶原(PT)或国际标准化比值(INR)、血肌酐、前白蛋白、胆碱酯酶、甲胎蛋白(AFP)、乳酸、血糖、血清钠、血小板等)。这些数据都是后续模型训练和预测的基础。
具体地,数据收集模块可以通过连接医疗数据系统、使用API或者查询数据库等方式获取。
第一筛选模块用于通过logistic回归模型对若干单因素指标进行初步筛选得到第一特征集。其中,第一特征集包含经过筛选后的若干单因素指标。
具体地,对每个单变量和7/14/28天内ACLF的发生概率建立模型,用于筛选哪些单变量和7/14/28天内ACLF的发生概率有影响。
通过第一筛选模块进行初步筛选的具体方法为:
对个人数据进行预处理。首先,需要收集到所有的单因素指标数据,如患者的基本信息(如年龄、性别等)、病史、生活习惯、遗传信息,以及实验室检查结果等。对数据进行预处理,如缺失值的填充(比如用未知来填充无值的性别)、异常值的处理(身高、年龄等超出人类正常范围)等。
对预处理后的个人数据中的数值类型的指标进行数据标准化。在本申请的实施方式中,对预处理后的个人数据中的数值类型的指标使用z-score标准化处理方法进行数据标准化。以消除不同指标间的量纲和量级影响,使得它们可以在同一尺度下比较。
针对每一个单因素指标分别建立一个logistic回归模型,利用已有的数据,估计模型的参数。其中,因变量是肝衰竭的发生情况(0表示未发生,1表示已发生),解释变量则是该单因素指标。利用已有的数据,估计模型的参数。
对于每一个建立的logistic回归模型进行模型评估,确定模型是否合适。具体地,评估指标为模型的拟合优度和模型的准确度。
对于每个logistic回归模型的结果,根据其参数的估计值和统计显著性进行解释。如果一个单因素指标的系数为正且统计显著,那么认为该指标与肝衰竭的发生是正相关的,即该指标的值越高,肝衰竭的发生概率也越高。如筛选出总胆红素(TB)、国际标准化比值(INR)、丙氨酸转氨酶(ALT)、铁蛋白(SF)、凝血酶原(PT)、TBiL等多种因素组合。
根据每个logistic回归模型的评估结果和结果解释, 筛选出对肝衰竭的发生有显著影响的若干单因素指标构成第一特征集。具体地,选择那些在模型中表现优秀(拟合优度高、准确度高等)、且与肝衰竭发生有显著关系的指标。
第二筛选模块通过基于多层stacking的预测模型对第一筛选模块筛选出的第一特征集进行多特征筛选得到第二特征集。第二特征集包含经过筛选后的若干单因素指标。在本申请的实施方式中,基于多层stacking的预测模型的基础模型包含logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型。第二筛选模块进行再次筛选的具体方法为:将第一筛选模块筛选出的第一特征集分别输入logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型,通过feature_importances_属性获得每个特征的重要性,从第一特征集中删除不重要的特征得到第二特征集。
在通过第二筛选模块筛选出的第二特征集后,通过第二特征集和对应的已知发生概率对基于多层stacking的预测模型进行训练。具体地,如图2所示,在本申请的实施方式中,基于多层stacking的预测模型的层数为两层,使用筛选过的第二特征集作为第一层的输入,使用第一层的logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型分别对第二特征集进行训练,得到第一次层的输出。将各个基础模型的输出与第二特征集合并作为第二层的输入,使用第二层的logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型分别对合并的数据进行训练,得到第二层的输出。将第二层的输出输入到一个线性模型中进行训练,得到最终的输出。作为一种优选的实施方式,线性模型为Logistic回归模型。
接着,再通过患者的已有的疾病诊断数据、第二筛选模块筛选出的第二特征集和对应的已知发生概率对相似患者模型进行训练。相似患者模型的核心作用是通过计算和分析,从大量历史患者数据中找出与当前患者病情最相似的案例,进而为医生提供更具参考价值的诊断和治疗建议。医生可以参考与当前患者病情最相似的历史患者的诊断和治疗方案,为当前患者提供更个性化的医疗服务。在本申请的实施方式中,相似患者模型基于K-近邻算法搭建。该算法基于患者的特征,找出具有相似特征的患者。
具体地,首先,收集到患者的一些特征数据,例如总胆红素(TB)、国际标准化比值(INR)、丙氨酸转氨酶(ALT)、铁蛋白(SF)、凝血酶原(PT)、TBiL等,以及“未来7/14/28天内发生ACLF的概率预测模型”的预测值。然后,将这些数据视为特征空间中的点,每个特征对应一个坐标轴。对于待预测的患者,我们也会得到他的这些特征数据。接着,使用某种距离度量(如欧氏距离)来计算待预测患者与数据库中所有患者的距离。
欧氏距离的计算公式为:对于两个n维向量a=(a1, a2, ... , an)和b=(b1, b2,... , bn),他们的欧氏距离d为:
d = sqrt[(a1-b1)2+ (a2-b2)2+ ... + (an-bn)2]
此处a,b分别表示不同患者。a1,a2...an为a患者特征数据的空间向量。然后,选出距离最近的k个点,也就是说找到与待预测患者最相似的k个已知患者。
预测模块用于通过训练好的基于多层stacking的预测模型接收待诊断的患者的对应第二特征集的相关特征数据输出7/14/28天内ACLF的发生概率。相似匹配模块用于通过训练好的相似患者模型接收待诊断的患者的对应第二特征集的相关特征数据和预测模块预测出的对应的7/14/28天内ACLF的发生概率输出相似患者的治疗方案。
综上所述,本申请的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统通过采集全面的患者数据,不仅使用基本的病人信息和实验室检查结果,还考虑了病史、生活习惯和遗传信息等多因素,提高了预测的准确性和全面性。该系统采用单因素logistic回归筛选各个单因素指标,使得每个因素都能得到充分的考虑。该系统还使用多层stacking的多特征筛选融合预测模型,采用多种机器学习算法,包括logistic回归、随机森林、决策树和XGBoost算法,提高了预测的准确性和稳定性。该系统可以预测7/14/28天内ACLF的发生概率,提供了更具体、更灵活的预测结果。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (7)
1.一种基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,包含:
数据收集模块,用于收集若干慢性乙型肝炎患者的个人数据,所述个人数据包含若干单因素指标以及对应的未来7/14/28天内发生ACLF的概率;
第一筛选模块,用于通过logistic回归模型对若干所述单因素指标进行初步筛选得到第一特征集,所述第一特征集包含经过筛选后的若干所述单因素指标;
第二筛选模块,通过基于多层stacking的预测模型对所述第一筛选模块筛选出的所述第一特征集进行多特征筛选得到第二特征集,所述第二特征集包含经过筛选后的若干所述单因素指标;
通过所述第二筛选模块筛选出的所述第二特征集和对应的已知发生概率对所述基于多层stacking的预测模型进行训练,通过患者的已有的疾病诊断数据、所述第二筛选模块筛选出的所述第二特征集和对应的已知发生概率对相似患者模型进行训练;
预测模块,用于通过训练好的所述基于多层stacking的预测模型接收待诊断的患者的对应所述第二特征集的相关特征数据输出7/14/28天内ACLF的发生概率;
相似匹配模块,用于通过训练好的所述相似患者模型接收待诊断的患者的对应所述第二特征集的相关特征数据和所述预测模块预测出的对应的7/14/28天内ACLF的发生概率输出相似患者的治疗方案;
所述基于多层stacking的预测模型的基础模型包含logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型;
所述第二筛选模块进行再次筛选的具体方法为:
将所述第一筛选模块筛选出的所述第一特征集分别输入logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型,通过feature_importances_属性获得每个特征的重要性,从所述第一特征集中删除不重要的特征得到所述第二特征集;
所述基于多层stacking的预测模型的层数为两层,使用筛选过的第二特征集作为第一层的输入,使用第一层的logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型分别对第二特征集进行训练,得到第一次层的输出;
将各个基础模型的输出与所述第二特征集合并作为第二层的输入,使用第二层的logistic回归模型、随机森林模型、决策树模型和XGBoost算法模型分别对合并的数据进行训练,得到第二层的输出;
将第二层的输出输入到一个线性模型中进行训练,得到最终的输出。
2.根据权利要求1所述的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,
所述个人数据包含基本信息、病史、生活习惯、遗传信息以及检查结果。
3.根据权利要求1所述的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,
所述第一筛选模块进行初步筛选的具体方法为:
对所述个人数据进行预处理;
对预处理后的所述个人数据中的数值类型的指标进行数据标准化;
针对每一个所述单因素指标分别建立一个logistic回归模型,利用已有的数据,估计模型的参数;
对于每一个建立的logistic回归模型进行模型评估,确定模型是否合适;
对于每个logistic回归模型的结果,根据其参数的估计值和统计显著性进行解释;
根据每个logistic回归模型的评估结果和结果解释,筛选出对肝衰竭的发生有显著影响的若干所述单因素指标构成所述第一特征集。
4.根据权利要求3所述的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,
对预处理后的所述个人数据中的数值类型的指标使用z-score标准化处理方法进行数据标准化。
5.根据权利要求3所述的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,
所述评估指标为模型的拟合优度和模型的准确度。
6.根据权利要求1所述的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,
所述线性模型为Logistic回归模型。
7.根据权利要求6所述的基于AI和相似患者分析的综合肝衰竭预测与治疗参考系统,其特征在于,
所述相似患者模型基于K-近邻算法搭建。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311143606.6A CN116884631B (zh) | 2023-09-06 | 2023-09-06 | 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311143606.6A CN116884631B (zh) | 2023-09-06 | 2023-09-06 | 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116884631A CN116884631A (zh) | 2023-10-13 |
CN116884631B true CN116884631B (zh) | 2023-12-12 |
Family
ID=88255389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311143606.6A Active CN116884631B (zh) | 2023-09-06 | 2023-09-06 | 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116884631B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613334A (zh) * | 2020-06-01 | 2020-09-01 | 广东省心血管病研究所 | 主动脉弓置换术后急性肾损伤概率预测模型的建立方法 |
CN112002427A (zh) * | 2020-10-09 | 2020-11-27 | 重庆医科大学 | 失代偿期肝硬化合并感染危险预测模型的构建方法 |
CN112185555A (zh) * | 2020-09-10 | 2021-01-05 | 北京工业大学 | 基于stacking算法的妊娠糖尿病预测方法 |
CN113012817A (zh) * | 2021-05-07 | 2021-06-22 | 四川大学华西医院 | 一种肝衰竭预测系统及方法 |
KR20210097511A (ko) * | 2020-01-30 | 2021-08-09 | 연세대학교 원주산학협력단 | 딥러닝 기반 심전도 분석데이터를 이용한 일반인의 간질환 보유 가능성 예측 방법 |
CN113409939A (zh) * | 2021-07-01 | 2021-09-17 | 重庆医科大学 | Copd急性加重并发呼吸衰竭的预测系统及监测装置 |
CN113624976A (zh) * | 2020-05-08 | 2021-11-09 | 勤浩医药(苏州)有限公司 | 一种与肝衰竭相关的新型分子诊断标志物组合及其用途 |
CN113705110A (zh) * | 2021-09-03 | 2021-11-26 | 玉溪矿业有限公司 | 一种基于双重随机森林回归方法的爆破振动速度预测方法 |
CN115101164A (zh) * | 2022-06-24 | 2022-09-23 | 杭州华卓信息科技有限公司 | 一种药物推荐方法和系统 |
CN115376002A (zh) * | 2022-08-29 | 2022-11-22 | 上海海洋大学 | 一种基于stacking集成模型的多光谱卫星遥感测深方法 |
CN115458176A (zh) * | 2022-09-02 | 2022-12-09 | 中山市中医院 | 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统 |
CN115691807A (zh) * | 2022-10-28 | 2023-02-03 | 山东第一医科大学附属省立医院(山东省立医院) | 一种慢加急性肝衰竭感染风险预警模型及其构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI662422B (zh) * | 2018-04-23 | 2019-06-11 | 國家中山科學研究院 | Air quality prediction method based on machine learning model |
-
2023
- 2023-09-06 CN CN202311143606.6A patent/CN116884631B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210097511A (ko) * | 2020-01-30 | 2021-08-09 | 연세대학교 원주산학협력단 | 딥러닝 기반 심전도 분석데이터를 이용한 일반인의 간질환 보유 가능성 예측 방법 |
CN113624976A (zh) * | 2020-05-08 | 2021-11-09 | 勤浩医药(苏州)有限公司 | 一种与肝衰竭相关的新型分子诊断标志物组合及其用途 |
CN111613334A (zh) * | 2020-06-01 | 2020-09-01 | 广东省心血管病研究所 | 主动脉弓置换术后急性肾损伤概率预测模型的建立方法 |
CN112185555A (zh) * | 2020-09-10 | 2021-01-05 | 北京工业大学 | 基于stacking算法的妊娠糖尿病预测方法 |
CN112002427A (zh) * | 2020-10-09 | 2020-11-27 | 重庆医科大学 | 失代偿期肝硬化合并感染危险预测模型的构建方法 |
CN113012817A (zh) * | 2021-05-07 | 2021-06-22 | 四川大学华西医院 | 一种肝衰竭预测系统及方法 |
CN113409939A (zh) * | 2021-07-01 | 2021-09-17 | 重庆医科大学 | Copd急性加重并发呼吸衰竭的预测系统及监测装置 |
CN113705110A (zh) * | 2021-09-03 | 2021-11-26 | 玉溪矿业有限公司 | 一种基于双重随机森林回归方法的爆破振动速度预测方法 |
CN115101164A (zh) * | 2022-06-24 | 2022-09-23 | 杭州华卓信息科技有限公司 | 一种药物推荐方法和系统 |
CN115376002A (zh) * | 2022-08-29 | 2022-11-22 | 上海海洋大学 | 一种基于stacking集成模型的多光谱卫星遥感测深方法 |
CN115458176A (zh) * | 2022-09-02 | 2022-12-09 | 中山市中医院 | 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统 |
CN115691807A (zh) * | 2022-10-28 | 2023-02-03 | 山东第一医科大学附属省立医院(山东省立医院) | 一种慢加急性肝衰竭感染风险预警模型及其构建方法 |
Non-Patent Citations (2)
Title |
---|
NeuroPpred-SVM: A New Model for Predicting Neuropeptides Based on Embeddings of BERT;Liu, YF等;《JOURNAL OF PROTEOME RESEARCH》;第22卷(第3期);718-728 * |
重症化慢性乙型肝炎患者进展为慢加急性肝衰竭预警模型的建立与验证;任艺;《中国优秀硕士论文电子期刊网 医药卫生科技辑》(第10期);第E061-10页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116884631A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021120936A1 (zh) | 一种基于多任务学习模型的慢病预测系统 | |
CN111261282A (zh) | 一种基于机器学习的脓毒症早期预测方法 | |
CN110051324B (zh) | 一种急性呼吸窘迫综合征死亡率预测方法及系统 | |
CN114639479A (zh) | 一种基于医疗知识图谱的智能诊断辅助系统 | |
Khan et al. | A Comparative Study of Machine Learning classifiers to analyze the Precision of Myocardial Infarction prediction | |
Singla et al. | A Novel Fuzzy Logic‐Based Medical Expert System for Diagnosis of Chronic Kidney Disease | |
Akerman et al. | Automated echocardiographic detection of heart failure with preserved ejection fraction using artificial intelligence | |
CN114023441A (zh) | 基于可解释机器学习模型的严重aki早期风险评估模型、装置及其开发方法 | |
CN113128654B (zh) | 一种用于冠心病预诊断中的改进型随机森林模型及其预诊断系统 | |
CN113838577B (zh) | 便捷化分层老年mods早期死亡风险评估模型、装置及建立方法 | |
CN112967803A (zh) | 基于集成模型的急诊患者早期死亡率预测方法及系统 | |
CN111553478A (zh) | 基于大数据的社区老年人心血管疾病预测系统与方法 | |
KR20060009861A (ko) | 질환 예후 모델의 작성 방법, 이 모델을 이용한 질환 예후예측 방법, 이 모델에 의한 예후 예측 장치, 및 그의프로그램ㆍ기억 매체 | |
CN117116477A (zh) | 基于随机森林和XGBoost的前列腺癌患病风险预测模型的构建方法及系统 | |
CN116884631B (zh) | 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统 | |
Ashley et al. | Exercise testing scores as an example of better decisions through science | |
Ieki et al. | Deep learning-based chest X-ray age serves as a novel biomarker for cardiovascular aging | |
Nasrabadi et al. | Predicting heart attacks in patients using artificial intelligence methods | |
CN114783587A (zh) | 严重急性肾损伤智能预测系统 | |
CN114898859A (zh) | 急性主动脉夹层院内预后预测系统 | |
WO2023128780A1 (ru) | Способ ранней диагностики хронических заболеваний пациента | |
CN114566284A (zh) | 疾病预后风险预测模型训练方法、装置及电子设备 | |
Plati et al. | Machine learning techniques for predicting and managing heart failure | |
Rajmohan et al. | G-Sep: A deep learning algorithm for detection of long-term sepsis using bidirectional gated recurrent unit | |
Zhao et al. | External validation of a deep learning prediction model for in-hospital mortality among ICU patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |