CN115019916A - 血流感染致病菌预测方法及系统 - Google Patents
血流感染致病菌预测方法及系统 Download PDFInfo
- Publication number
- CN115019916A CN115019916A CN202210587105.6A CN202210587105A CN115019916A CN 115019916 A CN115019916 A CN 115019916A CN 202210587105 A CN202210587105 A CN 202210587105A CN 115019916 A CN115019916 A CN 115019916A
- Authority
- CN
- China
- Prior art keywords
- classifier
- features
- prediction model
- input
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 206010040047 Sepsis Diseases 0.000 title claims abstract description 34
- 208000037815 bloodstream infection Diseases 0.000 title claims abstract description 32
- 244000052616 bacterial pathogen Species 0.000 title claims abstract description 25
- 238000003066 decision tree Methods 0.000 claims abstract description 30
- 241000894006 Bacteria Species 0.000 claims abstract description 23
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 9
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 14
- 241000233866 Fungi Species 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 241000192125 Firmicutes Species 0.000 claims description 8
- 230000017531 blood circulation Effects 0.000 claims description 8
- 244000052769 pathogen Species 0.000 claims description 6
- 230000001717 pathogenic effect Effects 0.000 claims description 6
- 208000015181 infectious disease Diseases 0.000 claims description 5
- 239000000523 sample Substances 0.000 description 49
- 238000012545 processing Methods 0.000 description 15
- 238000005457 optimization Methods 0.000 description 10
- 230000010354 integration Effects 0.000 description 8
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 description 6
- 102000004420 Creatine Kinase Human genes 0.000 description 6
- 108010042126 Creatine kinase Proteins 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 101000917858 Homo sapiens Low affinity immunoglobulin gamma Fc region receptor III-A Proteins 0.000 description 5
- 101000917839 Homo sapiens Low affinity immunoglobulin gamma Fc region receptor III-B Proteins 0.000 description 5
- 102100029185 Low affinity immunoglobulin gamma Fc region receptor III-B Human genes 0.000 description 5
- 238000009640 blood culture Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 5
- 230000037430 deletion Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 238000007619 statistical method Methods 0.000 description 5
- QGZKDVFQNNGYKY-UHFFFAOYSA-N Ammonia Chemical compound N QGZKDVFQNNGYKY-UHFFFAOYSA-N 0.000 description 4
- 102100024222 B-lymphocyte antigen CD19 Human genes 0.000 description 4
- 101000980825 Homo sapiens B-lymphocyte antigen CD19 Proteins 0.000 description 4
- 239000003242 anti bacterial agent Substances 0.000 description 4
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 210000000265 leukocyte Anatomy 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 239000000427 antigen Substances 0.000 description 3
- 102000036639 antigens Human genes 0.000 description 3
- 108091007433 antigens Proteins 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000003752 polymerase chain reaction Methods 0.000 description 3
- 235000018102 proteins Nutrition 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 108010088751 Albumins Proteins 0.000 description 2
- 102000009027 Albumins Human genes 0.000 description 2
- 102100022749 Aminopeptidase N Human genes 0.000 description 2
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 239000003154 D dimer Substances 0.000 description 2
- 108010087819 Fc receptors Proteins 0.000 description 2
- 102000009109 Fc receptors Human genes 0.000 description 2
- 102000008857 Ferritin Human genes 0.000 description 2
- 108050000784 Ferritin Proteins 0.000 description 2
- 238000008416 Ferritin Methods 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 2
- 102000001554 Hemoglobins Human genes 0.000 description 2
- 108010054147 Hemoglobins Proteins 0.000 description 2
- 102100026122 High affinity immunoglobulin gamma Fc receptor I Human genes 0.000 description 2
- DGAQECJNVWCQMB-PUAWFVPOSA-M Ilexoside XXIX Chemical compound C[C@@H]1CC[C@@]2(CC[C@@]3(C(=CC[C@H]4[C@]3(CC[C@@H]5[C@@]4(CC[C@@H](C5(C)C)OS(=O)(=O)[O-])C)C)[C@@H]2[C@]1(C)O)C)C(=O)O[C@H]6[C@@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O.[Na+] DGAQECJNVWCQMB-PUAWFVPOSA-M 0.000 description 2
- 108060003951 Immunoglobulin Proteins 0.000 description 2
- 102100025306 Integrin alpha-IIb Human genes 0.000 description 2
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 2
- JVTAAEKCZFNVCJ-UHFFFAOYSA-M Lactate Chemical compound CC(O)C([O-])=O JVTAAEKCZFNVCJ-UHFFFAOYSA-M 0.000 description 2
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 2
- FYYHWMGAXLPEAU-UHFFFAOYSA-N Magnesium Chemical compound [Mg] FYYHWMGAXLPEAU-UHFFFAOYSA-N 0.000 description 2
- 101800001904 NT-proBNP Proteins 0.000 description 2
- 102400001263 NT-proBNP Human genes 0.000 description 2
- 108091000080 Phosphotransferase Proteins 0.000 description 2
- 102100037422 Receptor-type tyrosine-protein phosphatase C Human genes 0.000 description 2
- 206010040070 Septic Shock Diseases 0.000 description 2
- AUYYCJSJGJYCDS-LBPRGKRZSA-N Thyrolar Chemical compound IC1=CC(C[C@H](N)C(O)=O)=CC(I)=C1OC1=CC=C(O)C(I)=C1 AUYYCJSJGJYCDS-LBPRGKRZSA-N 0.000 description 2
- 238000008050 Total Bilirubin Reagent Methods 0.000 description 2
- 102100026144 Transferrin receptor protein 1 Human genes 0.000 description 2
- 102000013529 alpha-Fetoproteins Human genes 0.000 description 2
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 2
- 229910021529 ammonia Inorganic materials 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 229940109239 creatinine Drugs 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 108010052295 fibrin fragment D Proteins 0.000 description 2
- 239000008103 glucose Substances 0.000 description 2
- 102000018358 immunoglobulin Human genes 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 229910052744 lithium Inorganic materials 0.000 description 2
- 210000004698 lymphocyte Anatomy 0.000 description 2
- 239000011777 magnesium Substances 0.000 description 2
- 229910052749 magnesium Inorganic materials 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 244000000010 microbial pathogen Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 102000020233 phosphotransferase Human genes 0.000 description 2
- 230000036303 septic shock Effects 0.000 description 2
- 239000011734 sodium Substances 0.000 description 2
- 229910052708 sodium Inorganic materials 0.000 description 2
- 238000000528 statistical test Methods 0.000 description 2
- 229940035722 triiodothyronine Drugs 0.000 description 2
- PGOHTUIFYSHAQG-LJSDBVFPSA-N (2S)-6-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-4-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-5-amino-2-[[(2S)-2-[[(2S)-2-[[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-5-amino-2-[[(2S)-1-[(2S,3R)-2-[[(2S)-2-[[(2S)-2-[[(2R)-2-[[(2S)-2-[[(2S)-2-[[2-[[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-1-[(2S)-2-[[(2S)-2-[[(2S)-2-[[(2S)-2-amino-4-methylsulfanylbutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]propanoyl]pyrrolidine-2-carbonyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-methylpentanoyl]amino]acetyl]amino]-3-hydroxypropanoyl]amino]-4-methylpentanoyl]amino]-3-sulfanylpropanoyl]amino]-4-methylsulfanylbutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-hydroxybutanoyl]pyrrolidine-2-carbonyl]amino]-5-oxopentanoyl]amino]-3-hydroxypropanoyl]amino]-3-hydroxypropanoyl]amino]-3-(1H-imidazol-5-yl)propanoyl]amino]-4-methylpentanoyl]amino]-3-hydroxybutanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-5-carbamimidamidopentanoyl]amino]-5-oxopentanoyl]amino]-3-hydroxybutanoyl]amino]-3-hydroxypropanoyl]amino]-3-carboxypropanoyl]amino]-3-hydroxypropanoyl]amino]-5-oxopentanoyl]amino]-5-oxopentanoyl]amino]-3-phenylpropanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-methylbutanoyl]amino]-4-methylpentanoyl]amino]-4-oxobutanoyl]amino]-5-carbamimidamidopentanoyl]amino]-3-(1H-indol-3-yl)propanoyl]amino]-4-carboxybutanoyl]amino]-5-oxopentanoyl]amino]hexanoic acid Chemical compound CSCC[C@H](N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CS)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(=O)N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](Cc1ccccc1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](Cc1c[nH]c2ccccc12)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCCN)C(O)=O PGOHTUIFYSHAQG-LJSDBVFPSA-N 0.000 description 1
- JWUBBDSIWDLEOM-XHQRYOPUSA-N (3e)-3-[(2e)-2-[1-(6-hydroxy-6-methylheptan-2-yl)-7a-methyl-2,3,3a,5,6,7-hexahydro-1h-inden-4-ylidene]ethylidene]-4-methylidenecyclohexan-1-ol Chemical compound C1CCC2(C)C(C(CCCC(C)(C)O)C)CCC2\C1=C\C=C1/CC(O)CCC1=C JWUBBDSIWDLEOM-XHQRYOPUSA-N 0.000 description 1
- QZDDFQLIQRYMBV-UHFFFAOYSA-N 2-[3-nitro-2-(2-nitrophenyl)-4-oxochromen-8-yl]acetic acid Chemical compound OC(=O)CC1=CC=CC(C(C=2[N+]([O-])=O)=O)=C1OC=2C1=CC=CC=C1[N+]([O-])=O QZDDFQLIQRYMBV-UHFFFAOYSA-N 0.000 description 1
- 102100031585 ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Human genes 0.000 description 1
- 108010062271 Acute-Phase Proteins Proteins 0.000 description 1
- 102000011767 Acute-Phase Proteins Human genes 0.000 description 1
- 102100036475 Alanine aminotransferase 1 Human genes 0.000 description 1
- 108010082126 Alanine transaminase Proteins 0.000 description 1
- 102000002260 Alkaline Phosphatase Human genes 0.000 description 1
- 108020004774 Alkaline Phosphatase Proteins 0.000 description 1
- 102100035248 Alpha-(1,3)-fucosyltransferase 4 Human genes 0.000 description 1
- 102100038080 B-cell receptor CD22 Human genes 0.000 description 1
- 101710187595 B-cell receptor CD22 Proteins 0.000 description 1
- BVKZGUZCCUSVTD-UHFFFAOYSA-M Bicarbonate Chemical compound OC([O-])=O BVKZGUZCCUSVTD-UHFFFAOYSA-M 0.000 description 1
- 108010074051 C-Reactive Protein Proteins 0.000 description 1
- 102100032752 C-reactive protein Human genes 0.000 description 1
- 108010049990 CD13 Antigens Proteins 0.000 description 1
- 102100022002 CD59 glycoprotein Human genes 0.000 description 1
- 235000021318 Calcifediol Nutrition 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- VEXZGXHMUGYJMC-UHFFFAOYSA-M Chloride anion Chemical compound [Cl-] VEXZGXHMUGYJMC-UHFFFAOYSA-M 0.000 description 1
- 102100025680 Complement decay-accelerating factor Human genes 0.000 description 1
- 238000008789 Direct Bilirubin Methods 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 108010019236 Fucosyltransferases Proteins 0.000 description 1
- 102000006471 Fucosyltransferases Human genes 0.000 description 1
- 102100021260 Galactosylgalactosylxylosylprotein 3-beta-glucuronosyltransferase 1 Human genes 0.000 description 1
- 102000017011 Glycated Hemoglobin A Human genes 0.000 description 1
- 102000006354 HLA-DR Antigens Human genes 0.000 description 1
- 108010058597 HLA-DR Antigens Proteins 0.000 description 1
- 102100031573 Hematopoietic progenitor cell antigen CD34 Human genes 0.000 description 1
- 101710182312 High affinity immunoglobulin gamma Fc receptor I Proteins 0.000 description 1
- 101000777636 Homo sapiens ADP-ribosyl cyclase/cyclic ADP-ribose hydrolase 1 Proteins 0.000 description 1
- 101001022185 Homo sapiens Alpha-(1,3)-fucosyltransferase 4 Proteins 0.000 description 1
- 101000757160 Homo sapiens Aminopeptidase N Proteins 0.000 description 1
- 101000897400 Homo sapiens CD59 glycoprotein Proteins 0.000 description 1
- 101000856022 Homo sapiens Complement decay-accelerating factor Proteins 0.000 description 1
- 101000894906 Homo sapiens Galactosylgalactosylxylosylprotein 3-beta-glucuronosyltransferase 1 Proteins 0.000 description 1
- 101000777663 Homo sapiens Hematopoietic progenitor cell antigen CD34 Proteins 0.000 description 1
- 101000913074 Homo sapiens High affinity immunoglobulin gamma Fc receptor I Proteins 0.000 description 1
- 101001078143 Homo sapiens Integrin alpha-IIb Proteins 0.000 description 1
- 101000946889 Homo sapiens Monocyte differentiation antigen CD14 Proteins 0.000 description 1
- 101000934338 Homo sapiens Myeloid cell surface antigen CD33 Proteins 0.000 description 1
- 101000581981 Homo sapiens Neural cell adhesion molecule 1 Proteins 0.000 description 1
- 101000738771 Homo sapiens Receptor-type tyrosine-protein phosphatase C Proteins 0.000 description 1
- 101000835093 Homo sapiens Transferrin receptor protein 1 Proteins 0.000 description 1
- 102100022297 Integrin alpha-X Human genes 0.000 description 1
- 102000003855 L-lactate dehydrogenase Human genes 0.000 description 1
- 108700023483 L-lactate dehydrogenases Proteins 0.000 description 1
- 101710197063 Lectin-3 Proteins 0.000 description 1
- 108010013709 Leukocyte Common Antigens Proteins 0.000 description 1
- 102100035877 Monocyte differentiation antigen CD14 Human genes 0.000 description 1
- 101000868474 Mus musculus Sialoadhesin Proteins 0.000 description 1
- 102100025243 Myeloid cell surface antigen CD33 Human genes 0.000 description 1
- 102100027347 Neural cell adhesion molecule 1 Human genes 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 108010035030 Platelet Membrane Glycoprotein IIb Proteins 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 102100027378 Prothrombin Human genes 0.000 description 1
- 108010094028 Prothrombin Proteins 0.000 description 1
- 108010000499 Thromboplastin Proteins 0.000 description 1
- 102100030859 Tissue factor Human genes 0.000 description 1
- 108050003222 Transferrin receptor protein 1 Proteins 0.000 description 1
- 102000013394 Troponin I Human genes 0.000 description 1
- 108010065729 Troponin I Proteins 0.000 description 1
- 102000004987 Troponin T Human genes 0.000 description 1
- 108090001108 Troponin T Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- SQVRNKJHWKZAKO-UHFFFAOYSA-N beta-N-Acetyl-D-neuraminic acid Natural products CC(=O)NC1C(O)CC(O)(C(O)=O)OC1C(O)C(O)CO SQVRNKJHWKZAKO-UHFFFAOYSA-N 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 238000004820 blood count Methods 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000035475 disorder Diseases 0.000 description 1
- 239000003792 electrolyte Substances 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007636 ensemble learning method Methods 0.000 description 1
- 210000003979 eosinophil Anatomy 0.000 description 1
- 210000003743 erythrocyte Anatomy 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 108010012204 glutamate aminotransferase Proteins 0.000 description 1
- 108091005995 glycated hemoglobin Proteins 0.000 description 1
- 229940099472 immunoglobulin a Drugs 0.000 description 1
- 229940027941 immunoglobulin g Drugs 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 102000006495 integrins Human genes 0.000 description 1
- 108010044426 integrins Proteins 0.000 description 1
- 229910052742 iron Inorganic materials 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000003908 liver function Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 229940039716 prothrombin Drugs 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 210000001995 reticulocyte Anatomy 0.000 description 1
- 208000013223 septicemia Diseases 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- SQVRNKJHWKZAKO-OQPLDHBCSA-N sialic acid Chemical compound CC(=O)N[C@@H]1[C@@H](O)C[C@@](O)(C(O)=O)OC1[C@H](O)[C@H](O)CO SQVRNKJHWKZAKO-OQPLDHBCSA-N 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及血流感染致病菌预测方法及系统,包括以下步骤:获取输入特征并预处理,输入特征为体检数据;从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。通过血流感染患者体检数据与致病菌中的阳性和阴性菌间的联系构建预测模型,在不增加额外成本的同时,实现对样本中血流感染致病菌的预测。
Description
技术领域
本发明涉及数据分类技术领域,具体为血流感染致病菌预测方法。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
血流感染是败血症和感染性休克的主要病因,选择适当的抗菌剂能够应对血流感染带来的危害,随着微生物对抗菌剂的耐药性日益增加,目前采用在实验室条件下对采集到的样本进行血培养(BC)的方式,通过鉴定阳性的致病性微生物来选择适当的抗菌剂,但该种方式耗时较高,且鉴定出的阳性准确率不高,而基于PCR(聚合酶链反应)的检测虽然检测耗时相对更短,但受到PCR探针数量和样本数量的限制,难以大规模应用在血流感染革兰氏阳性菌检测上。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供血流感染致病菌预测方法及系统,通过挖掘血流感染患者体检数据指标与致病菌间的联系,旨在不增加额外成本的同时,以机器学习的方式实现对样本数据中血流感染致病菌中的阳性菌、阴性菌及真菌的准确筛选。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供血流感染致病菌预测方法,包括以下步骤:
获取输入特征并预处理,输入特征为体检数据;
从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;
其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。
第一分类器为AdaBoost分类器。
获取输入特征并预处理,输入特征为体检数据包括,根据预处理之后的特征判断是否具有完整的模型输入指标,且这些指标是否为设定时间段内获得,若满足则将预处理之后的特征输入预测模型得到预测结果。
预处理包括,删除数据缺失比率超过设定值的特征和具有缺失值的样本;通过特征的箱体图或散点图,将离群点视为异常值并删除。
预测模型输入特征为筛选出的所有最优特征。
预测模型的训练过程包括:
获取血流感染患者体检数据并进行预处理,删除在血流感染革兰氏阳性菌、阴性菌和真菌之间没有差异的的特征;
检验并删除所选择的特征组间存在差异系数大于设定值的连续特征;
检验并删除在两组别间的差异系数大于设定值的性别特征;
检验并删除特征间相关系数|γ|>0.8的特征;
将检验后的剩余特征数据数据分布缩放为标准正态分布并划分为训练集和测试集;
输入训练集和测试集完成预测模型的训练。
本发明的第二个方面提供实现上述方法的系统,包括:
预处理模块,配置为:获取输入特征并预处理,输入特征为体检数据;
预测输出模块,配置为:从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;
其中,其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积,第一分类器为AdaBoost分类器。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的血流感染致病菌预测方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的血流感染致病菌预测方法中的步骤。
与现有技术相比,以上一个或多个技术方案存在以下有益效果:
1、通过血流感染患者体检数据与致病菌中的阴性菌、阳性菌和真菌间的联系构建预测模型,在不增加额外成本的同时,实现对样本数据中血流感染致病菌的阳性菌、阴性菌和真菌的预测,进而实现样本中致病菌的筛查。
2、利用集成模型作为预测模型,多个并联的AdaBoost分类器作为预测模型的基分类器形成第一层模型的集成,样本中的数据采样后先输入到多个并联的AdaBoost分类器中,而每一个AdaBoost分类器自身又是一个集成模型,其基分类器为代价敏感的决策树,也就形成了第二层集成,经预处理后的全部特征输入集成的模型后,使得得到的结果更加完善且准确率更高,能够预测出样本数据中的阳性菌、阴性菌和真菌,从而以机器学习的方式实现对样本中致病菌的筛查。
3、预测模型处理特征剔除后的各个数据集时,分别由每一个Ad aBoost分类器来处理,该分类器会根据分类结果调节样本权重,直至获得较好的结果,并且每一个AdaBoost分类器的基分类器为代价敏感的决策树,会根据各类输入样本数量生成各类的权重,其误分类的代价将根据在基分类器中的样本权重计算,随后根据分类结果调节样本权重,从而获得更加准确的结果。
4、为提高模型性能,采用网格搜索对模型的超参数进行优化,并对输入的特征进行选择,从而降低特征维度,提高了模型的泛化能力,达到了更好的预测效果。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明一个或多个实施例提供的血流感染致病菌阳性菌、阴性菌和真菌的预测方法流程图;
图2是本发明一个或多个实施例提供的预测方法中特征相关性热力图;
图3是本发明一个或多个实施例提供的预测方法中模型训练的流程图;
图4是本发明一个或多个实施例提供的利用训练完毕的模型实现预测的流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
正如背景技术中所描述的,目前采用在实验室条件下对采集到的样本进行血培养(BC)的方式,通过鉴定阳性的致病性微生物来选择适当的抗菌剂,样本来自于血流感染患者体内,其中具有的血细胞计数,急性期蛋白以及电解质等参数是实验环境下容易获得的数据,这些数据中包含着有关败血症和感染性休克的特征,利用机器学习的方式,能够将样本中引发败血症和感染性休克的阳性菌、阴性菌和真菌进行预测和分类,从而加快致病性微生物的检出速度。
预后是指预测疾病的可能病程和结局,血流感染患者的样本中,同样能够可以以机器学习的方式,来预测疾病的可能病程和结局。
因此,以下实施例给出了对样本中引发血流感染的革兰氏阳性菌、阴性菌和真菌的预测方法及系统,通过挖掘血流感染患者体检数据指标与致病菌种间的联系,选取了预测模型,旨在不增加额外成本的同时,以机器学习的方式实现对样本中阳性菌、阴性菌和真菌的预测。
实施例一:
如图1-4所示,血流感染三种菌类的预测方法,包括以下步骤:
步骤1:接收输入特征,输入特征为患者的体检数据;
步骤2:对输入特征进行数据清洗、显著性与相关性检测及数据标准化预处理;
步骤3:从预处理的输入特征中筛选出各层最优输入特征并形成输入特征集,经预测模型输出预测结果;
具体的:
预测模型的输入特征为筛选出的所有最优特征,本实施例的预测模型的优化过程同时进行超参数优化。
在优化分类器之前,采集样本数据,样本数据包括血培养特征、肝功能特征等,研究对象选取的血流感染患者;将提取的特征数据进行处理,构建数据队列;对分类器采用10次十折交叉验证评估模型的性能。
关于预测模型如下:
1.获取研究对象的指标信息
研究对象均为血流感染患者;本实施例共采用2118个样本,均来源于MIMIC数据库。
指标信息包括BaseExcess(碱剩余),FreeCalcium(游离钙),Lactate(乳酸盐),pCO2(二氧化碳分压),pH,pO2(氧分压),%HemoglobinA1c(糖化血红蛋白),25-OHVitaminD(25羟维生素D),AlanineAminotransferase(ALT丙氨酸氨基转移酶),Albumin(白蛋白),AlkalinePhosphatase(碱性磷酸酶),Alpha-Fetoprotein(甲胎蛋白),Ammonia(氨),AsparateAminotransferase(AST谷草转氨酶),Bicar bonate(碳酸氢盐),BilirubinDirect(直接胆红素),BilirubinInd irect(间接胆红素),BilirubinTotal(总胆红素),C-ReactiveProtei n(C-反应蛋白),C3(β1C-球蛋白),C4(β1E-球蛋白),Calciu m Total(总钙),Chloride(氯化物),CholesterolTotal(总胆固醇),CreatineKinase(CK肌酸激酶),CreatineKinaseMBIsoenzyme(肌酸激酶MB同工酶),Creatinine(肌氨酸酐),D-Dimer(D-二聚体),Ferritin(铁蛋白),Glucose(葡萄糖),HIVAntibody(HIV抗体),ImmunoglobulinA(免疫球蛋白A),ImmunoglobulinG(免疫球蛋白G),ImmunoglobulinM(免疫球蛋白M),Iron,LactateDehydrogen ase(LD乳酸脱氢酶),Lithium(锂),Magnesium(镁),NTproBNP(N末端前脑钠肽),Phosphate(磷酸盐),Potassium(钾),Sodi um(钠),Thyroxine(T4)Free(脱甲氧嘧啶),Triglycerides(三甘油三酯),Triiodothyronine(T3三碘甲状腺氨酸),TroponinI(肌钙蛋白I),TroponinT(肌钙蛋白T),UreaNitrogen(尿素氮),Vitami nB12(维生素B12),AbsoluteCD3Count(CD3绝对计数),Absolut eCD4Count(CD4绝对计数),AbsoluteCD8Count(CD8绝对计数),AbsoluteLymphocyteCount(绝对淋巴细胞计数),Antithrombin(抗凝血酶),Basophils(嗜碱粒细胞),CD10(脑啡肽酶),CD103,CD117,CD11c(整合素αX),CD13(氨肽酶N),CD138,CD14(LPS和LBP复合物的受体),CD15(岩藻糖基转移酶),CD16/56,CD16(低亲和力Fc受体),CD16/56AbsoluteCount(CD16/56绝对计数),CD16/56%(CD16/56百分比),CD19(B淋巴细胞表面抗原B4),CD19%(B淋巴细胞表面抗原B4百分比),CD19AbsoluteCount(B淋巴细胞表面抗原B4绝对计数),CD2(绵羊红细胞受体),CD20(B淋巴细胞表面抗原B1),CD20%(CD20百分比),CD20AbsoluteCount(CD20绝对计数),CD22(T细胞表面抗原Leu-14),CD23(低亲和免疫球蛋白εFc受体),CD25(TAC抗原),CD3%(CD3百分比),CD3AbsoluteCount(CD3绝对计数),CD3CellsPercent(CD3细胞百分比),CD33(唾液酸结合性免疫球蛋白样凝集素3),CD34,CD38(ADP核糖环化酶1),CD4CellsPercent(CD4细胞百分比),CD4/CD8Ratio(CD4与CD8bilv),CD41(整合素α-IIb),CD45(白细胞共同抗原),CD5,CD5%(CD5百分比),CD5AbsoluteCount(CD5绝对计数),CD55(补体衰变加速因子),CD56,CD57(人类自然杀伤细胞1),CD59(MAC-抑制蛋白),CD64(IgG Fc受体I),CD7,CD71(转铁蛋白受体蛋白1),Eosinophils(嗜酸性细胞),HLA-DR(人白细胞DR抗原),INR(PT),Lymphocytes(淋巴细胞),MCH(红细胞平均血红蛋白量),MCHC(红细胞平均血红蛋白浓度),MCV(红细胞平均体积),MonocyteCount(单核细胞计数),Neutrophils(中性粒(白)细胞),PlateletCount(血小板计数),PT(血浆凝血酶原时间),PTT(部分凝血活酶时间),RedBloodCells(红细胞),ReticulocyteCountAbsolute(网细胞绝对计数),WBCCount(白细胞计数),WhiteBloodCells(白血球)。其中的CD为白细胞分类抗原。
2.将获取的数据进行处理,确定模型的输入参数。
特征处理主要包括数据清洗和统计学分析。检验所选择的特征组间存在差异的连续特征,检验性别特征在两组别间的差异性,检验判断特征间的相关性;将检验后的剩余特征数据数据分布缩放为标准正态分布,采用随机森林分类器得到分类结果。
检验判断特征间的相关性,包括删除特征间相关系数|γ|>0.8的全部特征。
具体的:
获取的数据除性别外均为连续特征,用0、1分别表示女性、男性。
数据清洗主要包括缺失值处理和异常值处理;对缺失比率超过40%的特征和具有缺失值的样本做删除处理;通过绘制特征的箱体图或散点图查看特征值的分布情况,将离群点视为异常值并做删除处理。本实施例中,有80个特征样本缺失率超过40%,故选取剩余的27个特征。
采用统计学方法剔除三类间无显著差异及特征间高度相关的特征,特征相关性如图2所示,从而降低输入特征的空间维度,降低模型过拟合的风险。
本实施例中,27个特征统计学检验信息如表1所示:
表1:27个特征的统计学检验信息
通过统计学差异性分析可以得出体检数据与阴阳性菌的联系,即表1的p值,采用Kruskal-Wallis H检验方法,检验选择组间存在显著差异的连续特征。采用卡方检验方法,检验性别特征在两组别间是否有显著差异,显著性水平p=0.05。采用Pearson相关性检验判断特征间的相关性,特征间Pearson相关系数|γ|>0.8的特征全部删除。经统计学检验后,特征数降为13。
其中,Xnew、X、μ、σ分别表示转换后的特征值、原特征值、特征总体均值、特征总体标准差。
对离散型特征采用OneHot编码,避免对无序特征进行排序。
3.使用分类器,得到预测结果。
选取代价敏感的随机森林、EasyEnsemble、RUSBoost、AdaBoos t(AdaptiveBoosting)分类器和本实施例中的预测模型进行对比,分类器的优化是使用网格搜索法同时进行模型超参数优化,根据模型的分类效果选择最优参数。
随机森林是一种基于决策树的集成学习方法,可以解决非线性分类问题。代价敏感是指不同类的错分类代价不同,以纠正模型对于多数样本类的预测倾向。随机森林需要优化的参数包括决策树的个数、最大特征数、决策树最大深度、节点最小可分样本数。决策树的个数太小容易欠拟合,太大不能显著的提升模型。最大特征数太小导致性能差,太大导致计算量过大。决策树深度、节点最小可分样本数的设定不当都会导致欠拟合或过拟合。本实施例设定决策树的个数范围为[50,400],精度为50;最大特征数的范围为1到样本特征数取根号,精度为1;决策树最大深度的范围为[5,20],精度为2;节点最小可分样本数对样本量的百分比范围为[0.01,0.02],精度为0.002。
Easyensemble是一种针对不平衡数据的集成学习方法,先对数据量大的类进行有放回的欠采样,形成许多个数据集,使得数据集的各类数据样本量均衡,每个数据集都用于对AdaBoost模型的训练,最后对多个模型的输出结果进行投票操作,确定最后的预测结果。需要优化的参数包括模型数量和学习率。模型数量过多或学习率过小都会导致训练时间过长,模型数量过少或学习率过大会导致准确率的降低。本实施例设定模型的个数范围为[10,100],精度为10;学习率的范围为0.1到1,精度为0.1。
RUSBoost是一种针对不平衡数据的集成学习方法,先对数据进行随机欠抽样,随机从数据集中抽取一定量的多数类样本和少数类组成平衡分布的训练数据集,每个数据集都用于对AdaBoost.M2模型的训练,最后对多个模型的输出结果进行投票操作,确定最后的预测结果。需要优化的参数包括模型数量和学习率。模型数量过多或学习率过小都会导致训练时间过长,模型数量过少或学习率过大会导致准确率的降低。本实施例设定模型的个数范围为[10,100],精度为10;学习率的范围为0.1到1,精度为0.1。
AdaBoost是集成学习模型,通过不断修改样本权重,对基分类器进行增强,本实施例采用决策树作为基分类器,需要调整的超参数为学习率和基模型数量。学习率过大训练速度很快,但是误差会变大,学习率过小误差小但是训练速度很慢。本实施例设定学习率范围为[0.2,0.7],基模型数量为[10,100].
本实施例的预测模型为集成模型,具体的:
预测模型为,以多个并联的AdaBoost分类器作为预测模型的基分类器,每一个AdaBoost分类器的基分类器为代价敏感的决策树,单个样本的错分类权重为AdaBoost分类器的样本权重与在决策树中错分类的类权重之间的乘积。
其中,预测模型具有多个并联的基分类器,如图3所示,也就是多个并联的AdaBoost分类器形成第一层模型的集成,样本中的数据采样后先输入到多个并联的AdaBoost分类器中;而每一个AdaBoost分类器自身又是一个集成模型,其基分类器为代价敏感的决策树,也就形成了第二层集成,AdaBoost分类器如图4所示。
具体如下:
首先对输入的不平衡的类别数据样本做有放回的采样,该采样过程不区分各类样本,生成若干个数据集,然后一一验证采样后的数据集各类比例,若采样后的某一数据集不平衡问题加重(多数类的样本数量/少数类的样本数量变大),则去除该数据集并重新采样,最后生成指定数量(该数量可调节)的数据集。
然后对新生成的各个数据集进行随机特征剔除,该过程只剔除少量特征,保留的特征比例在70%以上,避免丢失过多信息,最后保留的特征数量可根据最后的准确率调节。上述两个抽样环节增加了数据的多样性,有利于集成模型性能的提升。
将特征剔除后的各个数据集分别输入到每一个AdaBoost分类器中,初始样本权重都为1,该分类器会根据分类结果调节样本权重,直至获得较好的结果。
每一个AdaBoost分类器的基分类器为代价敏感的决策树,该基分类器会根据各类输入样本数量生成各类的权重,针对每个样本来说,其在基分类器中的样本权重=其在AdaBoost分类器中的样本权重*该样本对应的类权重,其误分类的代价将根据在基分类器中的样本权重计算,随后根据分类结果调节样本权重。
在各个AdaBoost分类器训练完成后,将这些分类结果的分类概率取均值,即软投票,获取最终的预测结果。
整个模型的样本采样比例为1,特征保留数量为11,数据集数量为50,该模型需要进行超参数优化,上述参数为根据验证集使用网格搜索法优化后的结果。
每个Adaboost分类器都需要进行超参数优化,采用网格搜索法进行超参数优化,优化过程中对分类器采用10次十折交叉验证评估模型的性能。每个分类器优化后的超参数都可能不相同。
使用代价敏感的决策树作为基分类器,为了防止过拟合,设置决策树最大深度为2。由于最大深度设置很小,故不对其它剪枝的超参数做限制。代价敏感是指不同类的错分类代价不同,以纠正模型对于多数样本类的预测倾向。各类错分类代价根据输入各类的样本数量比例计算得来。单个样本的权重等于AdaBoost分类器的样本权重乘上该类的错分类权重。
决策树是一种经典的机器学习有监督分类算法,是非线性分类器,代表的是对象属性与对象值之间的一种映射关系。具有预测时执行效率高、可解释性强的优点,受数据不平衡的影响较小,常被用于不平衡集成模型的基分类器。
使用网格搜索法进行超参数优化,网格搜索法是指定参数值的一种穷举搜索方法,通过将估计函数的参数通过交叉验证的方法进行优化来得到最优的学习算法。
对样本中的阳性菌和阴性菌实现预测的过程是针对不平衡数据的分类过程,因此使用的模型适用于不平衡数据的情况。
十折交叉验证是机器学习中常用的一种避免模型过拟合的方法,该方法将训练集划分成样本量相等的十份,并依次选择其中的九份进行模型的训练,剩余的一份作为测试,重复十次,保证所有的样本都用于了一次且仅一次的测试;取十次测试的结果作为模型的评价。
为了确定最优超参数,需要定义一个指标来定义模型效果的优劣;在医疗诊断中,最常见的评价指标是敏感性(sensitivity)和特异性(specificity),为了综合衡量两者的大小,本实施例使用AUC面积作为指标,敏感性、特异性和score的定义是如下式所示:
其中,TN、TP、FN、FP分别表示真阴性、真阳性、假阴性、假阳性,是由混淆矩阵得出,混淆矩阵如表3所示:
表3:模型分类的混淆矩阵
准确率(accuracy)的定义如下式所示:
ROC分析也是一种常用的评价指标,以假阳性率(False Positive Rate,FPR)为横轴,以真阳性率(True Positive Rate,TPR)为纵轴,通过不断地降低分类阈值,描绘出一条曲线;为客观的评价ROC的效果,以ROC曲线的面积(Area Under Curve,AUC)来表示。真阳性率和假阳性率的定义式如下式所示:
F1-score是分类问题的一个衡量指标,它是精确率和召回率的调和平均数,最大为1,最小为0。
G分数是另一种统一精确率和的召回率系统性能评估标准,G分数被定义为召回率和精确率的几何平均数。
G=√precision·recall
其中,精准度(precision):指被分类器判定正例中的正样本的比重
召回率(recall):指的是被预测为正例的占总的正例的比重
对于三分类问题,上述指标也同样适用,对某一类,计算该类与非该类的二分类指标,再将三类的指标平均就得到最终的指标。
本实例通过上述步骤使用分类器对革兰氏阳性阴性菌进行分类进而实现样本中阳性菌阴性菌的预测;同时,为避免样本顺序对分类器的影响,将数据集随机打乱十次,选取在十个数据集上平均分类性能最优的个体作为模型的最优解。
对比四种算法的指标与集成模型的指标,发现集成模型的性能优于其它分类器。
5.使用参数优化和特征选择的分类器,得到分类结果。参数优化的过程如上述采用网格搜索法进行超参数优化的过程相同。
本实施例通过挖掘体检数据中的有效信息,在不增加额外费用的条件下实了对阳性菌、阴性菌和真菌菌种的筛查。
预测模型采用集成模型,输入特征是经预处理后的全部特征,更加完善使得准确率更高,从而能够预测出血流感染致病菌中的阳性、阴性和真菌。
实施例二
本实施例提供了一种血流感染革兰氏阳性阴性菌、真菌预测系统,其包括:
(1)输入特征接收模块,其用于接收输入特征,输入特征分别为个体信息和实验室检查指标。
个体信息包括年龄、性别。
实验室检查指标为实施例一的指标信息。
(2)预处理模块,其用于对输入特征进行数据清洗、显著性与相关性检测及数据标准化预处理。
具体地,对提取特征的处理主要包括缺失值和异常值处理,以及采用统计学方法选择在革兰氏阳性、阴性间和真菌样本间有显著差异的特征;具体方法是分别采用用Kruskal-Wallis H检验方法和卡方检验分别比较连续特征和类别特征在两组间的差异,采用Pearson相关性检验检测连续特征间的相关性;显著性水平p=0.05,Pearson相关系数|γ|=0.8;对类别特征进行OneHot编码,避免对无序特征进行排序;对连续特征做标准化处理,将特征数据转化为标准正态分布。
特征处理主要包括数据清洗和统计学分析。
获取的数据除性别外均为连续特征,用0、1分别表示女性、男性。
数据清洗主要包括缺失值处理和异常值处理;对缺失比率超过40%的特征和具有缺失值的样本做删除处理;通过绘制特征的箱体图或散点图查看特征值的分布情况,将离群点视为异常值并做删除处理。
采用统计学方法剔除在三类之间无显著差异及特征间高度相关的特征,从而降低输入特征的空间维度,降低模型过拟合的风险。
(3)预测输出模块,其用于从预处理的输入特征中筛选出最优输入特征并形成输入特征集,经预测模型输出预测结果;
预测模型为,以多个并联的AdaBoost分类器作为预测模型的基分类器,每一个AdaBoost分类器的基分类器为代价敏感的决策树,单个样本的错分类权重为AdaBoost分类器的样本权重与在决策树中错分类的类权重之间的乘积。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一中提出的血流感染致病菌预测方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述程序时实现如上述实施例一提出的血流感染致病菌预测方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.血流感染致病菌预测方法,其特征在于:包括以下步骤:
获取输入特征并预处理,输入特征为体检数据;
从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;
其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积。
2.如权利要求1所述的血流感染致病菌预测方法,其特征在于:所述第一分类器为AdaBoost分类器。
3.如权利要求1所述的血流感染致病菌预测方法,其特征在于:预测模型输入特征为筛选出的所有最优特征。
4.如权利要求1所述的血流感染致病菌预测方法,其特征在于:预处理的过程,包括:
删除数据缺失比率超过设定值的特征和具有缺失值的样本;
通过特征的箱体图或散点图,将离群点视为异常值并删除。
5.如权利要求4所述的血流感染致病菌预测方法,其特征在于:预处理的过程,还包括:
根据预处理之后的特征判断是否具有完整的模型输入指标,且这些指标是否为设定时间段内获得,若满足则将预处理之后的特征输入预测模型得到预测结果。
6.如权利要求1所述的血流感染致病菌预测方法,其特征在于:预测模型的训练过程包括:
获取血流感染患者体检数据,删除在血流感染革兰氏阳性菌、阴性菌和真菌之间没有差异的的特征;
检验并删除所选择的特征组间存在差异系数大于设定值的连续特征。
7.如权利要求6所述的血流感染致病菌预测方法,其特征在于:预测模型的训练过程还包括:
检验并删除在两组别间的差异系数大于设定值的性别特征;
检验并删除特征间相关系数|γ|>0.8的特征;
将检验后的剩余特征数据数据分布缩放为标准正态分布并划分为训练集和测试集;
输入训练集和测试集完成预测模型的训练。
8.一种血流感染致病菌预测系统,其特征在于:包括:
预处理模块,配置为:获取输入特征并预处理,输入特征为体检数据;
预测输出模块,配置为:从预处理的输入特征中筛选出最优输入特征形成输入特征集,经预测模型输出预测结果;
预处理包括,删除数据缺失比率超过设定值的特征和具有缺失值的样本;通过特征的箱体图或散点图,将离群点视为异常值并删除;
其中,预测模型为,以多个并联的第一分类器作为预测模型的基分类器,以代价敏感的决策树作为每一个第一分类器的基分类器,单个样本的错分类权重为第一分类器的样本权重与在决策树中错分类的类权重之间的乘积;第一分类器为AdaBoost分类器。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的血流感染致病菌预测方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的血流感染致病菌预测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587105.6A CN115019916A (zh) | 2022-05-27 | 2022-05-27 | 血流感染致病菌预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210587105.6A CN115019916A (zh) | 2022-05-27 | 2022-05-27 | 血流感染致病菌预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019916A true CN115019916A (zh) | 2022-09-06 |
Family
ID=83070844
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210587105.6A Pending CN115019916A (zh) | 2022-05-27 | 2022-05-27 | 血流感染致病菌预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019916A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133459A (zh) * | 2023-09-12 | 2023-11-28 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于机器学习的术后颅内感染预测方法及系统 |
CN118098623A (zh) * | 2024-04-26 | 2024-05-28 | 菏泽医学专科学校 | 基于大数据的医疗信息数据智能化管理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN110010248A (zh) * | 2019-04-17 | 2019-07-12 | 电子科技大学 | 一种基于代价敏感集成学习模型的再入院风险预测方法 |
CN111755129A (zh) * | 2020-06-30 | 2020-10-09 | 山东大学 | 多模态骨质疏松分层预警方法及系统 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112819045A (zh) * | 2021-01-20 | 2021-05-18 | 国家卫生健康委科学技术研究所 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
CN113140325A (zh) * | 2020-01-20 | 2021-07-20 | 柳州市人民医院 | Hiv患者马尔尼菲篮状菌病发病概率预测模型的建立方法 |
CN113191407A (zh) * | 2021-04-19 | 2021-07-30 | 桂林电子科技大学 | 一种基于代价敏感的学生经济状况等级分类方法 |
CN113539473A (zh) * | 2021-05-12 | 2021-10-22 | 内蒙古卫数数据科技有限公司 | 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统 |
-
2022
- 2022-05-27 CN CN202210587105.6A patent/CN115019916A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921604A (zh) * | 2018-06-22 | 2018-11-30 | 华南理工大学 | 一种基于代价敏感分类器集成的广告点击率预测方法 |
CN110010248A (zh) * | 2019-04-17 | 2019-07-12 | 电子科技大学 | 一种基于代价敏感集成学习模型的再入院风险预测方法 |
CN113140325A (zh) * | 2020-01-20 | 2021-07-20 | 柳州市人民医院 | Hiv患者马尔尼菲篮状菌病发病概率预测模型的建立方法 |
CN111755129A (zh) * | 2020-06-30 | 2020-10-09 | 山东大学 | 多模态骨质疏松分层预警方法及系统 |
CN112382382A (zh) * | 2020-10-23 | 2021-02-19 | 北京科技大学 | 一种代价敏感的集成学习分类方法及系统 |
CN112819045A (zh) * | 2021-01-20 | 2021-05-18 | 国家卫生健康委科学技术研究所 | 用于用户生理状态分类的方法、装置、电子设备及介质 |
CN113191407A (zh) * | 2021-04-19 | 2021-07-30 | 桂林电子科技大学 | 一种基于代价敏感的学生经济状况等级分类方法 |
CN113539473A (zh) * | 2021-05-12 | 2021-10-22 | 内蒙古卫数数据科技有限公司 | 一种仅使用血常规检验数据诊断布氏杆菌病的方法及系统 |
Non-Patent Citations (1)
Title |
---|
李刘杰: ""基于过采样与集成学习的不平衡数据分类方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 February 2020 (2020-02-15), pages 2 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117133459A (zh) * | 2023-09-12 | 2023-11-28 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于机器学习的术后颅内感染预测方法及系统 |
CN117133459B (zh) * | 2023-09-12 | 2024-04-09 | 江苏省人民医院(南京医科大学第一附属医院) | 一种基于机器学习的术后颅内感染预测方法及系统 |
CN118098623A (zh) * | 2024-04-26 | 2024-05-28 | 菏泽医学专科学校 | 基于大数据的医疗信息数据智能化管理方法及系统 |
CN118098623B (zh) * | 2024-04-26 | 2024-07-23 | 菏泽医学专科学校 | 基于大数据的医疗信息数据智能化管理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115019916A (zh) | 血流感染致病菌预测方法及系统 | |
US11319571B2 (en) | Red blood cell dynamics for gastrointestinal evaluation | |
Wang et al. | Which biomarkers reveal neonatal sepsis? | |
Moraes et al. | A decision-tree approach for the differential diagnosis of chronic lymphoid leukemias and peripheral B-cell lymphomas | |
Duetz et al. | Computational flow cytometry as a diagnostic tool in suspected‐myelodysplastic syndromes | |
CN114220540A (zh) | 一种糖尿病肾病风险预测模型的构建方法及应用 | |
CN112652361A (zh) | 一种基于gbdt模型的骨髓瘤高风险筛查方法及其应用 | |
US20150025812A1 (en) | Method and apparatus for discovery, development and clinical application of multiplex assays based on patterns of cellular response | |
CN114373544A (zh) | 一种基于机器学习的预测膜性肾病的方法、系统和装置 | |
CN115132348A (zh) | 一种预测脓毒血症患者发生急性肾损伤的概率预测系统 | |
CN109585011A (zh) | 胸痛患者的病症诊断方法及机器可读存储介质 | |
Cai et al. | Predicting acute kidney injury risk in acute myocardial infarction patients: an artificial intelligence model using medical information mart for intensive care databases | |
KR20230063354A (ko) | 섬망 예측 방법 및 이의 장치 | |
Chadaga et al. | COVID-19 diagnosis using clinical markers and multiple explainable artificial intelligence approaches: a case study from Ecuador | |
Haghbayan et al. | Increasing the Efficacy of Umbilical Cord Blood Banking Using Machine Learning Algorithms: A Case Study from Royan Cord Blood Bank | |
CN116825195A (zh) | 一种利用转录组评估免疫年龄和状态的方法和系统 | |
Deng et al. | Characterizing risk of in-hospital mortality following subarachnoid hemorrhage using machine learning: a retrospective study | |
Da Silva Filho et al. | Disease trajectories in hospitalized COVID-19 patients are predicted by clinical and peripheral blood signatures representing distinct lung pathologies | |
Myradov | Challenges of Machine Learning for Covid-19 Diagnosis based on Blood Tests | |
CN114550832A (zh) | 蛋白组临床生物标志物整体筛选方法、系统和介质 | |
Chen‐Liang et al. | An increased percentage of myeloid CD 34+ bone marrow cells stratifies intermediate IPSS‐R myelodysplastic syndrome patients into prognostically significant groups | |
Hoffmann et al. | Identification of Critical Hemodilution by Artificial Intelligence in Bone Marrow Assessed for MRD Analysis in Acute Myeloid Leukemia: The Cinderella Method | |
Pascual-Fontanilles et al. | Iterative update of a random forest classifier for diabetic retinopathy | |
Mcfadden | Supervised machine learning and hematology parameters for blood culture classification | |
Orhanbulucu et al. | Investigation of Covid-19 Infection with Clinical Data Using Decision Trees |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |