CN112992346A - 重症脊髓损伤预后的预测模型的建立方法 - Google Patents
重症脊髓损伤预后的预测模型的建立方法 Download PDFInfo
- Publication number
- CN112992346A CN112992346A CN202110384018.6A CN202110384018A CN112992346A CN 112992346 A CN112992346 A CN 112992346A CN 202110384018 A CN202110384018 A CN 202110384018A CN 112992346 A CN112992346 A CN 112992346A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- machine learning
- feature selection
- features
- classification algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 208000020431 spinal cord injury Diseases 0.000 title claims abstract description 32
- 238000004393 prognosis Methods 0.000 title claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 79
- 238000007635 classification algorithm Methods 0.000 claims abstract description 73
- 238000010801 machine learning Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims abstract description 50
- 238000010187 selection method Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 claims abstract description 9
- 210000003743 erythrocyte Anatomy 0.000 claims description 46
- WCUXLLCKKVVCTQ-UHFFFAOYSA-M Potassium chloride Chemical compound [Cl-].[K+] WCUXLLCKKVVCTQ-UHFFFAOYSA-M 0.000 claims description 33
- 102000001554 Hemoglobins Human genes 0.000 claims description 24
- 108010054147 Hemoglobins Proteins 0.000 claims description 24
- 238000003066 decision tree Methods 0.000 claims description 24
- 210000004369 blood Anatomy 0.000 claims description 23
- 239000008280 blood Substances 0.000 claims description 23
- 238000007637 random forest analysis Methods 0.000 claims description 22
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 19
- 239000001301 oxygen Substances 0.000 claims description 19
- 229910052760 oxygen Inorganic materials 0.000 claims description 19
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 claims description 16
- 239000001103 potassium chloride Substances 0.000 claims description 16
- 235000011164 potassium chloride Nutrition 0.000 claims description 16
- 238000012795 verification Methods 0.000 claims description 16
- 238000007477 logistic regression Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 claims description 14
- 238000004820 blood count Methods 0.000 claims description 14
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- JVTAAEKCZFNVCJ-UHFFFAOYSA-M Lactate Chemical compound CC(O)C([O-])=O JVTAAEKCZFNVCJ-UHFFFAOYSA-M 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 238000002790 cross-validation Methods 0.000 claims description 11
- 229960004715 morphine sulfate Drugs 0.000 claims description 11
- GRVOTVYEFDAHCL-RTSZDRIGSA-N morphine sulfate pentahydrate Chemical compound O.O.O.O.O.OS(O)(=O)=O.O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O.O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O GRVOTVYEFDAHCL-RTSZDRIGSA-N 0.000 claims description 11
- 102000009027 Albumins Human genes 0.000 claims description 10
- 108010088751 Albumins Proteins 0.000 claims description 10
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 10
- PNNCWTXUWKENPE-UHFFFAOYSA-N [N].NC(N)=O Chemical compound [N].NC(N)=O PNNCWTXUWKENPE-UHFFFAOYSA-N 0.000 claims description 10
- 239000008103 glucose Substances 0.000 claims description 10
- 210000000265 leukocyte Anatomy 0.000 claims description 10
- 238000005399 mechanical ventilation Methods 0.000 claims description 10
- 230000035488 systolic blood pressure Effects 0.000 claims description 10
- PGOHTUIFYSHAQG-LJSDBVFPSA-N (2S)-6-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-4-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-1-[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-1-[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]propanoyl]pyrrolidine-2-carbonyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-methylpentanoyl]amino]acetyl]amino]-3-hydroxypropanoyl]amino]-4-methylpentanoyl]amino]-3-sulfanylpropanoyl]amino]-4-methylsulfanylbutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-hydroxybutanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-hydroxypropanoyl]amino]-3-hydroxypropanoyl]amino]-3-(1H-imidazol-5-yl)propanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]-5-oxopentanoyl]amino]-3-hydroxybutanoyl]amino]-3-hydroxypropanoyl]amino]-3-carboxypropanoyl]amino]-3-hydroxypropanoyl]amino]-5-oxopentanoyl]amino]-5-oxopentanoyl]amino]-3-phenylpropanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-4-carboxybutanoyl]amino]-5-oxopentanoyl]amino]hexanoic acid Chemical compound CSCC[C@H](N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](Cc1ccccc1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCCN)C(O)=O PGOHTUIFYSHAQG-LJSDBVFPSA-N 0.000 claims description 9
- BVKZGUZCCUSVTD-UHFFFAOYSA-M Bicarbonate Chemical compound OC([O-])=O BVKZGUZCCUSVTD-UHFFFAOYSA-M 0.000 claims description 9
- 108010000499 Thromboplastin Proteins 0.000 claims description 9
- 102000002262 Thromboplastin Human genes 0.000 claims description 9
- 210000001772 blood platelet Anatomy 0.000 claims description 9
- MLYYVTUWGNIJIB-BXKDBHETSA-N cefazolin Chemical compound S1C(C)=NN=C1SCC1=C(C(O)=O)N2C(=O)[C@@H](NC(=O)CN3N=NN=C3)[C@H]2SC1 MLYYVTUWGNIJIB-BXKDBHETSA-N 0.000 claims description 9
- 229960001139 cefazolin Drugs 0.000 claims description 9
- SFLSHLFXELFNJZ-QMMMGPOBSA-N (-)-norepinephrine Chemical compound NC[C@H](O)C1=CC=C(O)C(O)=C1 SFLSHLFXELFNJZ-QMMMGPOBSA-N 0.000 claims description 8
- UCTWMZQNUQWSLP-VIFPVBQESA-N (R)-adrenaline Chemical compound CNC[C@H](O)C1=CC=C(O)C(O)=C1 UCTWMZQNUQWSLP-VIFPVBQESA-N 0.000 claims description 8
- 229930182837 (R)-adrenaline Natural products 0.000 claims description 8
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 claims description 8
- 230000035487 diastolic blood pressure Effects 0.000 claims description 8
- 229960003638 dopamine Drugs 0.000 claims description 8
- 229960005139 epinephrine Drugs 0.000 claims description 8
- 239000003862 glucocorticoid Substances 0.000 claims description 8
- 229960002748 norepinephrine Drugs 0.000 claims description 8
- SFLSHLFXELFNJZ-UHFFFAOYSA-N norepinephrine Natural products NCC(O)C1=CC=C(O)C(O)=C1 SFLSHLFXELFNJZ-UHFFFAOYSA-N 0.000 claims description 8
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 claims description 7
- JRWZLRBJNMZMFE-UHFFFAOYSA-N Dobutamine Chemical compound C=1C=C(O)C(O)=CC=1CCNC(C)CCC1=CC=C(O)C=C1 JRWZLRBJNMZMFE-UHFFFAOYSA-N 0.000 claims description 7
- DGAQECJNVWCQMB-PUAWFVPOSA-M Ilexoside XXIX Chemical compound C[C@@H]1CC[C@@]2(CC[C@@]3(C(=CC[C@H]4[C@]3(CC[C@@H]5[C@@]4(CC[C@@H](C5(C)C)OS(=O)(=O)[O-])C)C)[C@@H]2[C@]1(C)O)C)C(=O)O[C@H]6[C@@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O.[Na+] DGAQECJNVWCQMB-PUAWFVPOSA-M 0.000 claims description 7
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 claims description 7
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 claims description 7
- 108010094028 Prothrombin Proteins 0.000 claims description 7
- 102100027378 Prothrombin Human genes 0.000 claims description 7
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 7
- 150000001450 anions Chemical class 0.000 claims description 7
- 230000004872 arterial blood pressure Effects 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 210000003651 basophil Anatomy 0.000 claims description 7
- 239000011575 calcium Substances 0.000 claims description 7
- 229910052791 calcium Inorganic materials 0.000 claims description 7
- 239000001569 carbon dioxide Substances 0.000 claims description 7
- 229910002092 carbon dioxide Inorganic materials 0.000 claims description 7
- 229940109239 creatinine Drugs 0.000 claims description 7
- 229960001089 dobutamine Drugs 0.000 claims description 7
- 210000003979 eosinophil Anatomy 0.000 claims description 7
- 238000005534 hematocrit Methods 0.000 claims description 7
- GPRLSGONYQIRFK-UHFFFAOYSA-N hydron Chemical compound [H+] GPRLSGONYQIRFK-UHFFFAOYSA-N 0.000 claims description 7
- 210000004698 lymphocyte Anatomy 0.000 claims description 7
- 239000011777 magnesium Substances 0.000 claims description 7
- 229910052749 magnesium Inorganic materials 0.000 claims description 7
- 210000001616 monocyte Anatomy 0.000 claims description 7
- 210000000440 neutrophil Anatomy 0.000 claims description 7
- 239000011591 potassium Substances 0.000 claims description 7
- 229910052700 potassium Inorganic materials 0.000 claims description 7
- 229960002816 potassium chloride Drugs 0.000 claims description 7
- 229940039716 prothrombin Drugs 0.000 claims description 7
- 239000011734 sodium Substances 0.000 claims description 7
- 229910052708 sodium Inorganic materials 0.000 claims description 7
- 229940037128 systemic glucocorticoids Drugs 0.000 claims description 7
- 229910019142 PO4 Inorganic materials 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 239000010452 phosphate Substances 0.000 claims description 6
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 claims description 6
- 230000036387 respiratory rate Effects 0.000 claims description 6
- 229940079593 drug Drugs 0.000 claims description 4
- 239000003814 drug Substances 0.000 claims description 4
- 230000000474 nursing effect Effects 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 3
- XJFDLPAAAIBWID-UHFFFAOYSA-N 5-[2-(2,5-dimethoxyphenyl)ethyl]thieno[2,3-d]pyrimidine-2,4-diamine Chemical compound COC1=CC=C(OC)C(CCC=2C3=C(N)N=C(N)N=C3SC=2)=C1 XJFDLPAAAIBWID-UHFFFAOYSA-N 0.000 claims description 2
- ZAMOUSCENKQFHK-UHFFFAOYSA-N Chlorine atom Chemical compound [Cl] ZAMOUSCENKQFHK-UHFFFAOYSA-N 0.000 claims description 2
- 239000000460 chlorine Substances 0.000 claims description 2
- 229910052801 chlorine Inorganic materials 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 238000002483 medication Methods 0.000 claims 1
- 230000008447 perception Effects 0.000 claims 1
- 150000003016 phosphoric acids Chemical class 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 3
- 230000010354 integration Effects 0.000 description 5
- 229960003975 potassium Drugs 0.000 description 5
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 4
- BQJCRHHNABKAKU-KBQPJGBKSA-N morphine Chemical compound O([C@H]1[C@H](C=C[C@H]23)O)C4=C5[C@@]12CCN(C)[C@@H]3CC5=CC=C4O BQJCRHHNABKAKU-KBQPJGBKSA-N 0.000 description 4
- 230000036772 blood pressure Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 239000004310 lactic acid Substances 0.000 description 2
- 235000014655 lactic acid Nutrition 0.000 description 2
- 229960005181 morphine Drugs 0.000 description 2
- 229910001415 sodium ion Inorganic materials 0.000 description 2
- 102100040401 DNA topoisomerase 3-alpha Human genes 0.000 description 1
- 101000611068 Homo sapiens DNA topoisomerase 3-alpha Proteins 0.000 description 1
- -1 ceftizolin Chemical compound 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000036391 respiratory frequency Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000008733 trauma Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了重症脊髓损伤预后的预测模型的建立方法,其特征在于包括下列步骤:提取诊断为脊髓损伤患者病例的临床数据,1)纳入以下临床特征;2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据;3)纳入特征选择方法*机器学习分类算法的算法组合:所述特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法;4)从步骤3)中的算法组合在训练数据集的预测表现,选出micro平均曲线下面积AUC最大的算法组合,利用堆叠法集成所述算法组合,得到预测模型。本发明用于预测重症脊髓损伤患者预后具有准确客观性能。
Description
技术领域
本发明涉及重症脊髓损伤预后的预测模型的建立方法。
背景技术
脊髓损伤患者常常因为重大创伤或者严重并发症住进重症监护室(ICU),因此其预后是临床医生和患者家属非常关心的问题。然而,如何准确预测重症脊髓损伤的预后是个临床难题。临床上,医生常常根据经验来判断患者的预后以制定诊治方案。然而,在与患者家属交代患者病情时常常不能给出一个客观可量化的预后判断概率。因此,需要一种准确客观的预测重症脊髓损伤患者预后的系统以辅助临床医生,而这种预测重症脊髓损伤患者预后的系统如何建立预测模型是核心技术。
发明内容
为了克服现有技术的缺陷,本发明的目的是提供一种重症脊髓损伤预后的预测模型的建立方法,用于预测重症脊髓损伤患者预后的系统中,具有准确客观性能。
本发明通过以下技术路线来实现:
一种重症脊髓损伤预后的预测模型的建立方法,其特征在于包括下列步骤:提取诊断为脊髓损伤患者病例的临床数据,
1)纳入以下临床特征:人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长等;生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压;实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖等;药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素;
2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据,连续变量特征运用预测均值匹配方法填补,二元变量特征运用逻辑回归方法填补,多分类变量特征运用多项式回归方法填补,在步骤1)中缺失病例占总病例比重大于等于50%的临床特征,直接删除该临床特征,包括红细胞分布宽度RDW、氧分压PaO2,缺失病例数占总病例数比重大于0且小于50%的特征有种族、红细胞平均体积MCV、乳酸盐、硫酸吗啡,所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压、舒张压、平均动脉压、ICU时长、出ICU后住院时长、氧浓度分数FiO2、是连续变量特征,所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征,所述种族、性别、ICU类型、入院来源等多分类变量特征转化为虚拟变量的形式;最终获得不同的特征,并按照合理的比例,随机划分为训练数据集验证数据集、和测试数据集;
3)纳入特征选择方法*机器学习分类算法的数量个算法组合:所述特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法,所述特征选择方法包括最大互信息系数MIC、随机森林RF、递归特征消除REF、嵌入线性支持向量分类器即嵌入LSVC、嵌入逻辑回归器即嵌入LR、嵌入树和最小冗余-最大相关度mRMR,所述机器学习分类算法包括逻辑回归、线性判别分析LDA、支持向量机SVM、K最近邻KNN、高斯朴素贝叶斯NB、决策树、额外决策树、随机森林、装袋算法Bagging、自适应增强AdaBoost、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器MLP和深度神经网络DNN;
4)从步骤3)中的算法组合在验证数据集的预测表现,对micro平均曲线下面积AUC进行排序,选出micro平均曲线下面积AUC最佳的算法组合,利用堆叠法集成所述算法组合,得到预测模型,所述预测表现是指micro平均曲线下面积AUC的大小,越大说明预测表现越好,越小说明预测表现越差。
步骤4)中得到的预测模型称为第一集成模型,第一集成模型的特征数量大于10时,采用以下方法构建具有更高实用性的精简版集成模型,简称第二集成模型:基于测试数据集,采用置换特征重要性法评估第一集成模型所纳入的每一个特征的重要性,从大到小排序特征的重要性,仅保留第一集成模型中重要性最大的10个特征,抛弃其余特征,采用训练数据集重新训练,从而获得第二集成模型。
步骤2)中训练数据集验证数据集、和测试数据集占比分别是60%、、20%、20%。
选出患者出院终点的micro平均曲线下面积AUC的最佳三个算法组合进行构建最终预测模型,所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting;患者出院终点为预测目标,即构建的最终预测模型为出院终点模型,可一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率,该模型由所述最佳三个算法组合构建。
步骤(3)中的筛选具有显著预测价值的临床特征,对于任意一种不限定特征选择数量的特征选择方法,设置一定的特征选择数量,用特征选择方法在训练数据集上筛选出的特征,以交叉验证的方式训练基础分类算法,获得基础分类算法在该组特征的预测表现,遍历设置不同的特征选择数量,重复以上操作,获得基础分类算法在不同特征选择数量情况下的预测表现,选出最佳特征选择数量,使得基础算法在该特征选择数量下具有最佳表现,此最佳特征选择数量,即设置为该特征选择方法的特征选择数量,所述预测表现是指micro平均曲线下面积AUC的大小,越大说明预测表现越好,越小说明预测表现越差。
所述基础分类算法是机器学习分类算法中的逻辑回归。
步骤3)中的训练机器学习分类算法中,对于任意一种特征选择算法和任一机器学习分类算法组合,机器学习分类算法的训练分为以下三个步骤:a)采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习分类算法的最优超参数组合;b)根据所找到的最优超参数组合赋值给相应的机器学习分类算法,确定机器学习分类算法的结构;c)采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现;
a)中各个机器学习分类算法的待搜索参数及其取值范围组合见如下表
注释:LR=逻辑回归,LDA=线性判别分析,SVM=支持向量机,KNN=k最近邻算法,Gaussian NB=高斯朴素贝叶斯,DT=决策树,ET=额外决策树,RF=随机森林,AdaBoost=自适应增强算法,袋装法=bagging,梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,MLP=多层次感知,DNN=深度神经网络,clf=分类器,invscaling=反比例级联,relu=整流线性单元。
步骤3)中建立AUC矩阵,即所述训练数据集通过用特征选择算法选择且交叉验证后得到验证数据集的AUC矩阵,AUC矩阵的纵坐标是特征选择方法,横坐标是机器学习分类算法,然后构成(特征选择方法*机器学习分类算法)的数量个算法组合模型;根据(特征选择方法*机器学习分类算法)的数量个算法组合模型在验证数据集的预测表现,选出micro平均曲线下面积AUC最大的三个算法组合,利用所述堆叠法集成这三个算法组合,得到所述最终的预测模型。
本发明具有以下优点:
通过本发明所述技术方案,即通过特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法,因此可以构建精准的预测重症脊髓损伤患者预后的机器学习模型。
本发明通过建立机器学习分类算法在训练数据集上的预测表现即建立AUC矩阵,可以一次性展示105个模型的预测准确性。
本发明由于是基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型,故可以以此建立一种准确客观的预测重症脊髓损伤患者预后的系统,用于辅助临床医生针对于重症脊髓损伤患者预后预测的判断概率。
附图说明
图1为本发明获得机器学习分类算法在训练数据集上的预测表现即AUC矩阵图。
具体实施方式
本发明是基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型的方法。
本发明重症脊髓损伤预后预测模型的建立方法,在于提供基于重症脊髓损伤患者的临床数据而构建的新型预后预测模型,包括如下步骤:
(1)纳入患者具有潜在预测价值的临床特征:人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长等;生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压;实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖等;药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素;
(2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据。具体地,对于任意临床特征,当缺失病例占总病例比重大于50%时,直接删除该项临床特征。对于缺失病例占总病例比重小于50%以下的临床特征,根据临床特征的类型,采取R语言的拓展包“mice”进行填补,其中对于连续变量特征,运用预测均值匹配法(为现有技术)进行填补;对于二元变量特征,运用逻辑回归法(为现有技术)进行填补;对于分类变量特征,运用多项式回归法(为现有技术)填补。
(3)将填补后的特征数据中的所有多分类变量特征均转化为虚拟变量的形式,其中虚拟变量举例来说,例如,反映性别的虚拟变量可取为:男=(0,0);女=(1,0);不详=(0,1)。
(4)将预处理的临床数据集随机划分为训练数据集(占比60%)、验证数据集(占比20%)和测试数据集(占比20%)。
(5)纳入N*M的数量个算法组合:进行了N种常用特征选择方法,以筛选具有显著预测价值的临床特征。特征选择方法包括最大互信息系数(MIC),嵌入随机森林(RF),递归特征消除(REF),嵌入线性支持向量分类器(嵌入LSVC),嵌入逻辑回归器(嵌入LR),嵌入树和最小冗余-最大相关度(mRMR)。然后,将选定的特征用于训练M种机器学习分类算法,即逻辑回归,线性判别分析(LDA),支持向量机(SVM),K最近邻(KNN),高斯朴素贝叶斯(NB),决策树,额外决策树,随机森林,装袋算法(Bagging),自适应增强(AdaBoost),梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,多层感知器(MLP)和深度神经网络(DNN)等,各特征选择方法均为现有技术,上述N为7,M为15,N*M的数量个算法组合即为105个算法组合。
初步集成学习构建最终模型:根据N*M个算法组合在验证数据集的预测表现,选出曲线下面积(AUC)最大的三个算法组合,利用堆叠法构建组合这三个模型的算法组合,得到一个而初步的集成模型(以下简称第一集成模型)。(堆叠法https://www.jianshu.com/p/7fc9aa03ec11)。所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting;患者出院终点为预测目标,即构建的集成模型为出院终点模型,可一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率,该模型由所述最佳三个算法组合构建。
本发明流程实施例是:大量重症脊髓损伤患者的临床数据,经过预处理,将临床数据集随机划分为训练数据集(占比60%)、验证数据集(占比20%)和测试数据集(占比20%),训练数据集通过用特征选择算法选择且交叉验证后(该操作也称为P次K折交叉验证),对验证数据集建立AUC矩阵,对所述测试数据集建立AUC矩阵,AUC矩阵的纵坐标是七种特征选择方法,横坐标是15种机器学习分类算法,然后构成算法组合模型;在验证数据集和测试数据集中的预测表现,选出micro平均曲线下面积AUC最大的三个算法组合即TOP3算法组合,利用堆叠法集成这三个算法组合,得到最终预测模型。前述选出micro平均曲线下面积AUC最大的三个算法组合,利用堆叠法集成这三个算法组合,得到预测模型,更精确地说,是最初的105个模型中micro平均曲线下面积AUC最大的三个模型(这三个模型即嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting),然后将这三个表现最好的堆叠成最终预测模型;
当上一步所获得的集成模型纳入的特征数量大于10时,采用以下方法构建具有更高实用性的精简版集成模型(以下简称第二集成模型):基于测试数据集,采用置换特征重要性法评估步骤(5)的集成模型所纳入的每一个特征的重要性。从大到小排序特征的重要性,仅保留第一集成模型中重要性最大的10个特征,抛弃其余特征,采用训练数据集重新训练,从而获得第二集成模型。该模型仅纳入最重要的前十个特征,因此具有实用性高的优点。其中保留的10个特征为:住院时长、格拉斯总分、年龄、氧浓度分数FiO2、血糖、心率、红细胞分布宽度RDW、白蛋白、血尿素氮、诊断总数。抛弃的特征:血氯离子、乳酸、血糖、PTT凝血激活酶时间、动脉平均血压、白细胞、血小板、钠离子、心率、动脉收缩压、血红蛋白、机械通气、吗啡、头孢唑琳、氯化钾、ICU时长等。
所述步骤(3)中的筛选具有显著预测价值的临床特征:对于任意一种不限定特征选择数量的特征选择方法,设置一定的特征选择数量,用特征选择方法即前面提及的至少7种常用的特征选择方法:最大互信息系数(MIC),嵌入随机森林(RF),递归特征消除(REF),嵌入线性支持向量分类器(嵌入LSVC),嵌入逻辑回归器(嵌入LR),嵌入树和最小冗余-最大相关度(mRMR))在训练数据集上筛选出的特征,以交叉验证的方式训练基础分类算法(交叉验证是常用方法https://zhuanlan.zhihu.com/p/24825503refer=rdatamining),获得基础分类算法在该组特征的预测表现,该预测表现的技术内容就是看AUC的高低,越高说明预测表现越好,越低说明预测表现越差;遍历(遍历具体的技术过程就是每个环节都处理的意思)设置不同的特征选择数量,重复以上步骤,获得基础分类算法在不同特征选择数量情况下的预测表现,选出最佳的特征选择数量,使得基础算法在该特征选择数量下具有最佳表现。此最佳特征选择数量,即设置为该特征选择算法的特征选择数量。优选地,以逻辑回归算法作为基础分类算法。
所述步骤(3)中的训练M种机器学习分类算法,具体如下。对于任意一种特征选择算法和任一机器学习分类算法组合,其中机器学习分类算法的训练分为以下三个步骤:首先采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习算法的最优超参数组合;然后根据所找到的最优超参数组合,确定机器学习分类算法的结构;最后,采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现。
下面是进一步该处三个步骤的描述:
a:各个分类算法的待搜索参数及其取值范围组合见如下表。采用网格搜索或者随机搜索,在该组合限定范围内,寻找最优的参数取值组合。
超参数定义:超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。
超参数的优化:1、定义关于模型的更高层次的概念,如复杂性或学习能力;2、不能直接从标准模型培训过程中的数据中学习,需要预先定义;3、可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定。
LR=逻辑回归,LDA=线性判别分析,SVM=支持向量机,KNN=k最近邻算法,Gaussian NB=高斯朴素贝叶斯,DT=决策树,ET=额外决策树,RF=随机森林,AdaBoost=自适应增强算法,梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,MLP=多层次感知,DNN=深度神经网络,clf=分类器,invscaling=反比例级联,relu=整流线性单元。
b:确定机器学习分类算法的结构:将步骤a找到的最优参数取值组合赋值给相应的机器学习分类算法,从而确定了相应的机器学习分类算法的结构。
c:获得该机器学习分类算法在验证数据集上的预测表现,即构成一个AUC矩阵。如图1,纵坐标是7种特征选择方法,横坐标是15种机器学习算法,然后构成了105个模型,这105个模型的AUC值是图1里面每个空格对应的数值,AUC矩阵,其作用就是一次性展示105个模型的预测准确性,即AUC值大小体现。
本发明的提取或建立的诊断为脊髓损伤患者病例的临床数据是从公开的MIMIC-III-v1.4、MIMIC-IV-v0.4数据库和EICU-v2.0数据库中提取,患者病例共1566例。预测目标为患者出院去向,包括三个类别:在家休养、进一步医疗处理、死亡。
本发明在家休养即是回家,或称为回家休养,进一步医疗处理即是继续专业康复护理治疗。
下面更加详细描述:
针对于前述步骤1)中所述临床特征,根据临床特征的类型,通过不同的填补方法处理缺失的数据。其中缺失病例占总病例比重大于等于50%的特征,包括:红细胞分布宽度(RDW)、氧分压(PaO2),直接删除该临床特征。缺失病例数占总病例数比重大于0且小于50%的特征有种族、红细胞平均体积(MCV)、乳酸盐、硫酸吗啡。其中红细胞平均体积(MCV)、乳酸盐是连续变量特征,运用预测均值匹配方法填补;硫酸吗啡、多巴胺是二元变量特征,运用逻辑回归方法填补;种族是多分类变量特征,运用多项式回归方法填补,所述填补就是把空缺的数值填充上,该空缺的数值是机器学习训练不可或缺的信息。
前述步骤1)中所述临床特征中所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分亚PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压和舒张压、平均动脉压、ICU时长、出ICU后住院时长、氧浓度分数FiO2是连续变量特征,所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征。其中种族、性别、ICU类型、入院来源,将这些变量特征转化为虚拟变量的形式。最终获得共70个不同的特征:人口统计信息包括种族,性别,年龄,体重指数等;生命体征包括呼吸频率,心率,收缩压和舒张压,平均动脉压;实验室数据包括白细胞计数,红细胞计数(RBC),血小板计数,嗜碱性粒细胞,嗜酸性粒细胞,嗜中性粒细胞,淋巴细胞,单核细胞,红细胞分布宽度(RDW),血红蛋白,血细胞比容,平均红细胞血红蛋白量(MCH),红细胞平均血红蛋白浓度(MCHC),红细胞平均体积(MCV),凝血酶原时间(PT),活化部分凝血活酶时间(APTT),国际标准化比值(INR),氧分压(PaO2),二氧化碳分亚(PaCO2),氢离子浓度指数(PH),碳酸氢盐,乳酸盐,碱过量(BE),阴离子间隙,钾,钠,钙,镁,氯,磷酸盐,血尿素氮(BUN),肌酐,白蛋白,血糖等;药物的使用和治疗情况包括机械通气,硫酸吗啡,头孢唑林,氯化钾(Kcl),糖皮质激素,多巴胺,多巴酚丁胺,肾上腺素和去甲肾上腺素。
将预处理后的整个临床数据集,按照60%:20%:20%的比例随机划分为训练数据集、验证数据集和测试数据集。
如前述,特征选择方法包括最大互信息系数(MIC),嵌入随机森林(RF)、递归特征消除(RFE)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树和最小冗余-最大相关度(mRMR)。对于上述特征选择方法中的随机森林(RF)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树等特征选择算法,无需设定特征数量,算法均可选择出最佳的特征组合。因此,直接用这些特征选择算法选出最有特征组合即可。最终,随机森林(RF)、嵌入线性支持向量分类器(嵌入LSVC)、嵌入逻辑回归器(嵌入LR)、嵌入树分别选出了14、23、17、18、26个不同特征。对于上述特征选择方法中的最大互信息系数(MIC)、递归特征消除(RFE)、最小冗余-最大相关度(mRMR)这三种特征选择算法,均是不限定特征选择数量。因此,对于这三种特征选择方法,设置的特征选择数量为范围为5到70,从k=5开始,用特征选择算法在训练数据集上筛选出的k个特征,以逻辑回归作为基础分类算法,以交叉验证的方式训练基础分类算法,获得基础分类算法在该组k个特征的预测表现;遍历设置不同的特征选择数量,即分别令k=5,6,...70,重复以上步骤,获得基础分类算法在不同特征选择数量情况下的预测表现。选出最佳的特征选择数量kbest,使得基础算法在该特征选择数量下具有最佳表现。此最佳特征选择数量,即设置为该特征选择算法的特征选择数量。最终,最大互信息系数(MIC)、递归特征消除(RFE)、最小冗余-最大相关度(mRMR)的最佳特征数量分别是28、26、19。
将上一步骤将选定的特征用于训练13种机器学习分类算法,即逻辑回归、线性判别分析(LDA)、支持向量机(SVM)、K最近邻(KNN)、高斯朴素贝叶斯(NB)、决策树、额外决策树、随机森林、装袋算法(Bagging)、自适应增强(AdaBoost)、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器(MLP)和深度神经网络(DNN)等。对于上述任意一种特征选择算法和上述任一机器学习分类算法组合,其中机器学习分类算法的训练分为以下三个步骤:首先采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习算法的最优超参数组合;然后根据所找到的最优超参数组合,确定机器学习分类算法的结构;最后,采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现。
集成学习构建最终模型:根据7个特征选择算法*15个机器学习分类算法组合在验证数据集的预测表现,选出micro平均曲线下面积(AUC)最佳三个组合分别为:
最佳算法组合1:嵌入树*梯度提升决策树GBDT;
最佳算法组合2:嵌入树*极端梯度提升XGBoosting;
最佳算法组合3:嵌入LSVC*极端梯度提升XGBoosting;
其中:
嵌入树筛选出来的特征包括:格拉斯总分、住院时长、机械通气、收缩压、舒张压、ICU时长、出ICU后住院时长、白蛋白、心率、头孢唑林、乳酸、碳酸氢盐、红细胞分布宽度RDW、动脉平均压、血红蛋白、年龄、HR心率、氯化钾、血尿素氮、诊断总数、吗啡、血氯离子、血糖、RBC白细胞、钠离子、氧浓度分数FiO2;
嵌入LSVC筛选出来的特征包含:肾上腺素、去甲肾上腺素、氧浓度分数FiO2、收缩压、头孢唑林、糖皮质激素、碳酸氢盐、格拉斯总分、住院时长、机械通气、血红蛋白、年龄、HR心率、白蛋白、氯化钾、血尿素氮、诊断总数、血氯离子、乳酸、凝血激活酶时间、动脉平均压、WBC白细胞、红细胞、血小板、血糖。
利用堆叠法方式集成以上三个算法组合,构建最终的预测模型。本发明中,micro平均曲线下面积AUC的大小就是AUC数值,从图形上看就是曲线下面积最大,从文字上理解就是AUC数值最大。
测试最终的预测模型在测试数据集上的预测表现即AUC的高低,AUC的高低是指AUC数值由大到小的排列,从图形上看就是曲线下面积的多少。
Claims (8)
1.一种重症脊髓损伤预后的预测模型的建立方法,其特征在于包括下列步骤:提取诊断为脊髓损伤患者病例的临床数据,
1)纳入以下临床特征:人口统计信息包括种族、性别、年龄、体重指数、入院类型、ICU类型、入院来源、ICU时长、出ICU后住院时长;生命体征包括呼吸频率、心率、收缩压和舒张压、平均动脉压;实验室数据包括白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧浓度分数FiO2、氧分压PaO2、二氧化碳分压PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖;药物的使用和治疗情况包括机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素;
2)预处理临床特征:根据临床特征的类型,通过不同的填补方法处理缺失的数据,连续变量特征运用预测均值匹配方法填补,二元变量特征运用逻辑回归方法填补,多分类变量特征运用多项式回归方法填补,在步骤1)中缺失病例占总病例比重大于等于50%的临床特征,直接删除该临床特征,包括红细胞分布宽度RDW、氧分压PaO2,缺失病例数占总病例数比重大于0且小于50%的特征有种族、红细胞平均体积MCV、乳酸盐、硫酸吗啡,所述年龄、体重指数、白细胞计数、红细胞计数RBC、血小板计数、嗜碱性粒细胞、嗜酸性粒细胞、嗜中性粒细胞、淋巴细胞、单核细胞、红细胞分布宽度RDW、血红蛋白、血细胞比容、平均红细胞血红蛋白量MCH、红细胞平均血红蛋白浓度MCHC、红细胞平均体积MCV、凝血酶原时间PT、活化部分凝血活酶时间APTT、国际标准化比值INR、氧分压PaO2、二氧化碳分压PaCO2、氢离子浓度指数PH、碳酸氢盐、乳酸盐、剩余碱BE、阴离子间隙、钾、钠、钙、镁、氯、磷酸盐、血尿素氮BUN、肌酐、白蛋白、血糖、呼吸频率、心率、收缩压、舒张压、平均动脉压ICU时长、出ICU后住院时长、氧浓度分数FiO2是连续变量特征,所述机械通气、硫酸吗啡、头孢唑林、氯化钾KCl、糖皮质激素、多巴胺、多巴酚丁胺、肾上腺素和去甲肾上腺素是二元变量特征,其中所述种族、性别、ICU类型、入院来源转化为虚拟变量的形式;最终获得不同的特征,并按照合理的比例,随机划分为训练数据集、验证数据集和测试数据集;
3)纳入特征选择方法*机器学习分类算法的数量个算法组合:所述特征选择方法用于筛选具有显著预测价值的临床特征,将选定的临床特征用于训练机器学习分类算法,所述特征选择方法包括最大互信息系数MIC、嵌入随机森林RF、递归特征消除REF、嵌入线性支持向量分类器即嵌入LSVC、嵌入逻辑回归器即嵌入LR、嵌入树和最小冗余-最大相关度mRMR,所述机器学习分类算法包括逻辑回归、线性判别分析LDA、支持向量机SVM、K最近邻KNN、高斯朴素贝叶斯NB、决策树、额外决策树、随机森林、装袋算法Bagging、自适应增强AdaBoost、梯度提升决策树GBDT、极端梯度提升XGBoosting、轻型梯度提升机lightGBM、多层感知器MLP和深度神经网络DNN;
4)从步骤3)中的算法组合在验证数据集的预测表现,对micro平均曲线下面积AUC进行排序组合,选出micro平均曲线下面积AUC最佳的算法组合,利用堆叠法集成所述算法组合,得到预测模型,所述预测表现是指micro平均曲线下面积AUC的大小,越大说明预测表现越好,越小说明预测表现越差,其中所述验证数据集是训练数据集通过用特征选择算法选择且交叉验证后而得到。
2.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤4)中得到的预测模型称为第一集成模型,第一集成模型的特征数量大于10时,采用以下方法构建具有更高实用性的精简版集成模型,简称第二集成模型:基于测试数据集,采用置换特征重要性法评估第一集成模型所纳入的每一个特征的重要性,从大到小排序特征的重要性,仅保留第一集成模型中重要性最大的10个特征,抛弃其余特征,采用训练数据集重新训练,从而获得第二集成模型。
3.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤2)中训练数据集、验证数据集和测试数据集分别是60%、20%、20%。
4.根据权利要求1或2或3所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,选出患者出院终点的micro平均曲线下面积AUC的最佳三个算法组合进行构建最终预测模型,所述最佳三个算法组合是嵌入树*梯度提升决策树GBDT、嵌入树*极端梯度提升XGBoosting、嵌入LSVC*极端梯度提升XGBoosting;患者出院终点为最终预测模型的预测目标,即构建的最终预测模型为出院终点模型,用于一次性预测死亡、回家休养、继续专业康复护理治疗三个类别的概率。
5.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤(3)中的筛选具有显著预测价值的临床特征,对于任意一种不限定特征选择数量的特征选择方法,设置一定的特征选择数量,用特征选择方法在训练数据集上筛选出的特征,以交叉验证的方式训练基础分类算法,获得基础分类算法在该组特征的预测表现,遍历设置不同的特征选择数量,重复以上操作,获得基础分类算法在不同特征选择数量情况下的预测表现,选出最佳特征选择数量,使得基础算法在该特征选择数量下具有最佳表现,此最佳特征选择数量,即设置为该特征选择方法的特征选择数量。
6.根据权利要求5所述重症脊髓损伤预后的预测模型的建立方法,其特征在于所述基础分类算法是机器学习分类算法中的逻辑回归。
7.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤3)中的训练机器学习分类算法中,对于任意一种特征选择算法和任一机器学习分类算法组合,机器学习分类算法的训练分为以下三个步骤:a)采用特征选择算法在训练数据集上筛选出的特征,通过网格搜索方法或者随机搜索方法,找出机器学习分类算法的最优超参数组合;b)根据所找到的最优超参数组合赋值给相应的机器学习分类算法,确定机器学习分类算法的结构;c)采用交叉验证方式训练该机器学习分类算法,获得该机器学习分类算法在训练数据集上的预测表现;
a)中各个机器学习分类算法的待搜索参数及其取值范围组合见如下表
注释:LR=逻辑回归,LDA=线性判别分析,SVM=支持向量机,KNN=k最近邻算法,Gaussian NB=高斯朴素贝叶斯,DT=决策树,ET=额外决策树,RF=随机森林,AdaBoost=自适应增强算法,袋装法=bagging,梯度提升决策树GBDT,极端梯度提升XGBoosting,轻型梯度提升机lightGBM,MLP=多层次感知,DNN=深度神经网络,clf=分类器,invscaling=反比例级联,relu=整流线性单元。
8.根据权利要求1所述重症脊髓损伤预后的预测模型的建立方法,其特征在于,步骤3)中建立AUC矩阵,即所述训练数据集通过用特征选择算法选择且交叉验证后得到验证数据集的AUC矩阵,AUC矩阵的纵坐标是特征选择方法,横坐标是机器学习分类算法,然后构成特征选择方法*机器学习分类算法的数量个算法组合模型;根据特征选择方法*机器学习分类算法的数量个算法组合模型在验证数据集的预测表现,选出micro平均曲线下面积AUC最大的三个算法组合,利用所述堆叠法集成这三个算法组合,得到所述最终的预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110384018.6A CN112992346B (zh) | 2021-04-09 | 2021-04-09 | 重症脊髓损伤预后的预测模型的建立方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110384018.6A CN112992346B (zh) | 2021-04-09 | 2021-04-09 | 重症脊髓损伤预后的预测模型的建立方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992346A true CN112992346A (zh) | 2021-06-18 |
CN112992346B CN112992346B (zh) | 2023-05-09 |
Family
ID=76339668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110384018.6A Active CN112992346B (zh) | 2021-04-09 | 2021-04-09 | 重症脊髓损伤预后的预测模型的建立方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992346B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114188018A (zh) * | 2021-11-30 | 2022-03-15 | 中山大学附属口腔医院 | 一种显微根尖手术预后的预测方法及装置 |
CN114209334A (zh) * | 2021-11-02 | 2022-03-22 | 中山大学附属第三医院(中山大学肝脏病医院) | 一种利用多模态方法输入心电图与临床数据判断心肌梗死的方法 |
CN114420298A (zh) * | 2022-01-27 | 2022-04-29 | 首都医科大学附属北京天坛医院 | 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备 |
CN114419619A (zh) * | 2022-03-29 | 2022-04-29 | 北京小蝇科技有限责任公司 | 红细胞检测分类方法、装置、计算机存储介质及电子设备 |
CN115240854A (zh) * | 2022-07-29 | 2022-10-25 | 中国医学科学院北京协和医院 | 一种胰腺炎预后数据的处理方法及其系统 |
CN115249543A (zh) * | 2022-08-01 | 2022-10-28 | 中日友好医院(中日友好临床医学研究所) | 一种预测ards患者预后的人工智能模型的建立方法 |
CN115374858A (zh) * | 2022-08-24 | 2022-11-22 | 东北大学 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
CN115409834A (zh) * | 2022-10-30 | 2022-11-29 | 四川大学华西医院 | 一种用于跟腱病诊断的特征提取方法、系统和存储介质 |
CN115512780A (zh) * | 2022-11-23 | 2022-12-23 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种PaCO2实时预警模型建立方法及系统 |
CN115662613A (zh) * | 2022-09-28 | 2023-01-31 | 中日友好医院(中日友好临床医学研究所) | 一种气压伤的预测方法及装置 |
CN116564421A (zh) * | 2023-06-08 | 2023-08-08 | 苏州卫生职业技术学院 | 一种急性髓系白血病患者铜死亡相关预后模型构建方法 |
CN116580831A (zh) * | 2023-04-03 | 2023-08-11 | 南通大学 | 基于机器学习的环境金属暴露下2型糖尿病诊断方法 |
CN117079059A (zh) * | 2023-10-13 | 2023-11-17 | 云南师范大学 | 一种基于多源卫星图像的树种自动分类方法 |
CN117174313A (zh) * | 2023-09-03 | 2023-12-05 | 南通市康复医院(南通市第二人民医院) | 一种脑出血患者神经功能预后预测模型的建立方法及系统 |
CN117373584A (zh) * | 2023-12-08 | 2024-01-09 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
CN117577214A (zh) * | 2023-05-19 | 2024-02-20 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
CN118095925A (zh) * | 2024-01-26 | 2024-05-28 | 南京航空航天大学 | 一种机坪管制员实时累计工作负荷评估方法 |
CN118645251A (zh) * | 2024-08-16 | 2024-09-13 | 上海孪心医疗科技有限公司 | 心衰合并房颤的预后和导管消融的风险分层方法及系统 |
CN119252335A (zh) * | 2024-12-05 | 2025-01-03 | 济南大学 | 一种玉米微生物标记物筛选及表型预测方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527435B1 (en) * | 2003-07-01 | 2013-09-03 | Cardiomag Imaging, Inc. | Sigma tuning of gaussian kernels: detection of ischemia from magnetocardiograms |
CN109119167A (zh) * | 2018-07-11 | 2019-01-01 | 山东师范大学 | 基于集成模型的脓毒症死亡率预测系统 |
CN110051324A (zh) * | 2019-03-14 | 2019-07-26 | 深圳大学 | 一种急性呼吸窘迫综合征死亡率预测方法及系统 |
CN111243751A (zh) * | 2020-01-17 | 2020-06-05 | 河北工业大学 | 一种基于双重特征选择和XGBoost算法的心脏病预测方法 |
CN111370126A (zh) * | 2020-03-17 | 2020-07-03 | 杭州妞诺科技有限公司 | 基于惩罚集成模型的icu死亡率预测方法及系统 |
CN111640518A (zh) * | 2020-06-02 | 2020-09-08 | 山东大学齐鲁医院 | 一种宫颈癌术后生存预测方法、系统、设备及介质 |
CN112185549A (zh) * | 2020-09-29 | 2021-01-05 | 郑州轻工业大学 | 基于临床表型和逻辑回归分析的食管鳞癌风险预测方法 |
-
2021
- 2021-04-09 CN CN202110384018.6A patent/CN112992346B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8527435B1 (en) * | 2003-07-01 | 2013-09-03 | Cardiomag Imaging, Inc. | Sigma tuning of gaussian kernels: detection of ischemia from magnetocardiograms |
CN109119167A (zh) * | 2018-07-11 | 2019-01-01 | 山东师范大学 | 基于集成模型的脓毒症死亡率预测系统 |
CN110051324A (zh) * | 2019-03-14 | 2019-07-26 | 深圳大学 | 一种急性呼吸窘迫综合征死亡率预测方法及系统 |
CN111243751A (zh) * | 2020-01-17 | 2020-06-05 | 河北工业大学 | 一种基于双重特征选择和XGBoost算法的心脏病预测方法 |
CN111370126A (zh) * | 2020-03-17 | 2020-07-03 | 杭州妞诺科技有限公司 | 基于惩罚集成模型的icu死亡率预测方法及系统 |
CN111640518A (zh) * | 2020-06-02 | 2020-09-08 | 山东大学齐鲁医院 | 一种宫颈癌术后生存预测方法、系统、设备及介质 |
CN112185549A (zh) * | 2020-09-29 | 2021-01-05 | 郑州轻工业大学 | 基于临床表型和逻辑回归分析的食管鳞癌风险预测方法 |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114209334A (zh) * | 2021-11-02 | 2022-03-22 | 中山大学附属第三医院(中山大学肝脏病医院) | 一种利用多模态方法输入心电图与临床数据判断心肌梗死的方法 |
CN114188018A (zh) * | 2021-11-30 | 2022-03-15 | 中山大学附属口腔医院 | 一种显微根尖手术预后的预测方法及装置 |
CN114420298B (zh) * | 2022-01-27 | 2023-08-25 | 首都医科大学附属北京天坛医院 | 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备 |
CN114420298A (zh) * | 2022-01-27 | 2022-04-29 | 首都医科大学附属北京天坛医院 | 一种多阶段的急性缺血性卒中血管内治疗无效再通预测系统、设备 |
CN114419619A (zh) * | 2022-03-29 | 2022-04-29 | 北京小蝇科技有限责任公司 | 红细胞检测分类方法、装置、计算机存储介质及电子设备 |
CN115240854A (zh) * | 2022-07-29 | 2022-10-25 | 中国医学科学院北京协和医院 | 一种胰腺炎预后数据的处理方法及其系统 |
CN115240854B (zh) * | 2022-07-29 | 2023-10-03 | 中国医学科学院北京协和医院 | 一种胰腺炎预后数据的处理方法及其系统 |
CN115249543A (zh) * | 2022-08-01 | 2022-10-28 | 中日友好医院(中日友好临床医学研究所) | 一种预测ards患者预后的人工智能模型的建立方法 |
CN115249543B (zh) * | 2022-08-01 | 2023-06-23 | 中日友好医院(中日友好临床医学研究所) | 一种预测ards患者预后的人工智能模型的建立方法 |
CN115374858A (zh) * | 2022-08-24 | 2022-11-22 | 东北大学 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
CN115374858B (zh) * | 2022-08-24 | 2024-05-14 | 东北大学 | 基于混合集成模型的流程工业生产品质的智能诊断方法 |
CN115662613A (zh) * | 2022-09-28 | 2023-01-31 | 中日友好医院(中日友好临床医学研究所) | 一种气压伤的预测方法及装置 |
CN115409834A (zh) * | 2022-10-30 | 2022-11-29 | 四川大学华西医院 | 一种用于跟腱病诊断的特征提取方法、系统和存储介质 |
CN115409834B (zh) * | 2022-10-30 | 2023-02-28 | 四川大学华西医院 | 一种用于跟腱病诊断的特征提取方法、系统和存储介质 |
CN115512780A (zh) * | 2022-11-23 | 2022-12-23 | 山东未来网络研究院(紫金山实验室工业互联网创新应用基地) | 一种PaCO2实时预警模型建立方法及系统 |
CN116580831A (zh) * | 2023-04-03 | 2023-08-11 | 南通大学 | 基于机器学习的环境金属暴露下2型糖尿病诊断方法 |
CN116580831B (zh) * | 2023-04-03 | 2024-09-20 | 南通大学 | 基于机器学习的环境金属暴露下2型糖尿病诊断方法 |
CN117577214A (zh) * | 2023-05-19 | 2024-02-20 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
CN117577214B (zh) * | 2023-05-19 | 2024-04-12 | 广东工业大学 | 一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法 |
CN116564421B (zh) * | 2023-06-08 | 2024-01-30 | 苏州卫生职业技术学院 | 一种急性髓系白血病患者铜死亡相关预后模型构建方法 |
CN116564421A (zh) * | 2023-06-08 | 2023-08-08 | 苏州卫生职业技术学院 | 一种急性髓系白血病患者铜死亡相关预后模型构建方法 |
CN117174313A (zh) * | 2023-09-03 | 2023-12-05 | 南通市康复医院(南通市第二人民医院) | 一种脑出血患者神经功能预后预测模型的建立方法及系统 |
CN117174313B (zh) * | 2023-09-03 | 2024-05-10 | 南通市康复医院(南通市第二人民医院) | 一种脑出血患者神经功能预后预测模型的建立方法及系统 |
CN117079059B (zh) * | 2023-10-13 | 2023-12-19 | 云南师范大学 | 一种基于多源卫星图像的树种自动分类方法 |
CN117079059A (zh) * | 2023-10-13 | 2023-11-17 | 云南师范大学 | 一种基于多源卫星图像的树种自动分类方法 |
CN117373584A (zh) * | 2023-12-08 | 2024-01-09 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
CN117373584B (zh) * | 2023-12-08 | 2024-03-12 | 北京大学第一医院 | 一种急性肾损伤的动态预测方法及系统 |
CN118095925A (zh) * | 2024-01-26 | 2024-05-28 | 南京航空航天大学 | 一种机坪管制员实时累计工作负荷评估方法 |
CN118645251A (zh) * | 2024-08-16 | 2024-09-13 | 上海孪心医疗科技有限公司 | 心衰合并房颤的预后和导管消融的风险分层方法及系统 |
CN119252335A (zh) * | 2024-12-05 | 2025-01-03 | 济南大学 | 一种玉米微生物标记物筛选及表型预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112992346B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112992346A (zh) | 重症脊髓损伤预后的预测模型的建立方法 | |
CN112992368B (zh) | 重症脊髓损伤预后的预测模型系统及存储介质 | |
Hashi et al. | An expert clinical decision support system to predict disease using classification techniques | |
Suha et al. | Exploring the dominant features and data-driven detection of polycystic ovary syndrome through modified stacking ensemble machine learning technique | |
CN111612278A (zh) | 生命状态预测方法、装置、电子设备及存储介质 | |
US20230298751A1 (en) | Prognosis Prediction Device and Program | |
CN111370126B (zh) | 基于惩罚集成模型的icu死亡率预测方法及系统 | |
CN114358169B (zh) | 一种基于XGBoost的结直肠癌检测系统 | |
Rout et al. | Prediction of diabetes risk based on machine learning techniques | |
Popkes et al. | Interpretable outcome prediction with sparse Bayesian neural networks in intensive care | |
Li et al. | Real-time sepsis severity prediction on knowledge graph deep learning networks for the intensive care unit | |
Zhang et al. | Machine learning prediction models for postoperative stroke in elderly patients: analyses of the MIMIC database | |
CN111883258B (zh) | 一种构建ohss分度分型预测模型的方法 | |
Srimedha et al. | A comprehensive machine learning based pipeline for an accurate early prediction of sepsis in ICU | |
Coşkun et al. | Evaluation of performance of classification algorithms in prediction of heart failure disease | |
David | Impact of ensemble learning algorithms towards accurate heart disease prediction | |
CN118969245A (zh) | 一种基于机器学习的重症糖尿病的临床预测模型构建方法 | |
KR20220005791A (ko) | 섬망 예측 방법 및 이의 장치 | |
CN117476242A (zh) | 一种脓毒症急性肾损伤患者icu病死风险预警的可解释机器学习模型构建方法及应用 | |
Sathya et al. | Real Time Prediction of Diabetes by using Artificial Intelligence | |
Renuka et al. | Adaboost Machine Learning Based Modelling to Predict Chronic Kidney Disease Staging | |
PermankiGuthu et al. | Early knowledge-driven prognostic reasoning model using effective data analytics approach | |
Yuan et al. | Interpretable Machine Learning-Based Risk Scoring with Individual and Ensemble Model Selection for Clinical Decision Making | |
Shirvaikar et al. | Prediction of cardiovas-cular disease by applying a combination of principal component analysis with machine learning techniques | |
Tsehay et al. | Failure Patients Using Machine Learning and Hyper-parameter Optimization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |