CN116453699A - 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 - Google Patents
基于代谢组学双平台的人体深静脉血栓诊断模型的构建 Download PDFInfo
- Publication number
- CN116453699A CN116453699A CN202310291674.0A CN202310291674A CN116453699A CN 116453699 A CN116453699 A CN 116453699A CN 202310291674 A CN202310291674 A CN 202310291674A CN 116453699 A CN116453699 A CN 116453699A
- Authority
- CN
- China
- Prior art keywords
- model
- acid
- metabolite
- differential
- platform
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010051055 Deep vein thrombosis Diseases 0.000 title claims abstract description 37
- 206010047249 Venous thrombosis Diseases 0.000 title claims abstract description 30
- 238000003745 diagnosis Methods 0.000 title claims abstract description 22
- 238000010276 construction Methods 0.000 title abstract description 14
- 239000002207 metabolite Substances 0.000 claims abstract description 92
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 claims abstract description 62
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims abstract description 58
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000002503 metabolic effect Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 11
- 238000007477 logistic regression Methods 0.000 claims description 10
- 210000002966 serum Anatomy 0.000 claims description 9
- QIAFMBKCNZACKA-UHFFFAOYSA-N N-benzoylglycine Chemical compound OC(=O)CNC(=O)C1=CC=CC=C1 QIAFMBKCNZACKA-UHFFFAOYSA-N 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 239000002253 acid Substances 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 7
- UGAGPNKCDRTDHP-UHFFFAOYSA-N 16-hydroxyhexadecanoic acid Chemical compound OCCCCCCCCCCCCCCCC(O)=O UGAGPNKCDRTDHP-UHFFFAOYSA-N 0.000 claims description 4
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 claims description 4
- BPYKTIZUTYGOLE-IFADSCNNSA-N Bilirubin Chemical compound N1C(=O)C(C)=C(C=C)\C1=C\C1=C(C)C(CCC(O)=O)=C(CC2=C(C(C)=C(\C=C/3C(=C(C=C)C(=O)N\3)C)N2)CCC(O)=O)N1 BPYKTIZUTYGOLE-IFADSCNNSA-N 0.000 claims description 4
- ZDXPYRJPNDTMRX-VKHMYHEASA-N L-glutamine Chemical compound OC(=O)[C@@H](N)CCC(N)=O ZDXPYRJPNDTMRX-VKHMYHEASA-N 0.000 claims description 4
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 claims description 4
- UCMIRNVEIXFBKS-UHFFFAOYSA-N beta-alanine Chemical compound NCCC(O)=O UCMIRNVEIXFBKS-UHFFFAOYSA-N 0.000 claims description 4
- CVSVTCORWBXHQV-UHFFFAOYSA-N creatine Chemical compound NC(=[NH2+])N(C)CC([O-])=O CVSVTCORWBXHQV-UHFFFAOYSA-N 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- POULHZVOKOAJMA-UHFFFAOYSA-N dodecanoic acid Chemical compound CCCCCCCCCCCC(O)=O POULHZVOKOAJMA-UHFFFAOYSA-N 0.000 claims description 4
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 claims description 4
- 229960000310 isoleucine Drugs 0.000 claims description 4
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 claims description 4
- 238000001819 mass spectrum Methods 0.000 claims description 4
- BDJRBEYXGGNYIS-UHFFFAOYSA-N nonanedioic acid Chemical compound OC(=O)CCCCCCCC(O)=O BDJRBEYXGGNYIS-UHFFFAOYSA-N 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- TYFQFVWCELRYAO-UHFFFAOYSA-N suberic acid Chemical compound OC(=O)CCCCCCC(O)=O TYFQFVWCELRYAO-UHFFFAOYSA-N 0.000 claims description 4
- RZRNAYUHWVFMIP-KTKRTIGZSA-N 1-oleoylglycerol Chemical compound CCCCCCCC\C=C/CCCCCCCC(=O)OCC(O)CO RZRNAYUHWVFMIP-KTKRTIGZSA-N 0.000 claims description 3
- ONIBWKKTOPOVIA-BYPYZUCNSA-N L-Proline Chemical compound OC(=O)[C@@H]1CCCN1 ONIBWKKTOPOVIA-BYPYZUCNSA-N 0.000 claims description 3
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 claims description 3
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 claims description 3
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 claims description 3
- RZRNAYUHWVFMIP-HXUWFJFHSA-N glycerol monolinoleate Natural products CCCCCCCCC=CCCCCCCCC(=O)OC[C@H](O)CO RZRNAYUHWVFMIP-HXUWFJFHSA-N 0.000 claims description 3
- 229960003136 leucine Drugs 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- PLVPPLCLBIEYEA-AATRIKPKSA-N (E)-3-(indol-3-yl)acrylic acid Chemical compound C1=CC=C2C(/C=C/C(=O)O)=CNC2=C1 PLVPPLCLBIEYEA-AATRIKPKSA-N 0.000 claims description 2
- PHIQHXFUZVPYII-ZCFIWIBFSA-O (R)-carnitinium Chemical compound C[N+](C)(C)C[C@H](O)CC(O)=O PHIQHXFUZVPYII-ZCFIWIBFSA-O 0.000 claims description 2
- AKVBCGQVQXPRLD-UHFFFAOYSA-N 2-aminooctanoic acid Chemical compound CCCCCCC(N)C(O)=O AKVBCGQVQXPRLD-UHFFFAOYSA-N 0.000 claims description 2
- BHNHHSOHWZKFOX-UHFFFAOYSA-N 2-methyl-1H-indole Chemical compound C1=CC=C2NC(C)=CC2=C1 BHNHHSOHWZKFOX-UHFFFAOYSA-N 0.000 claims description 2
- JVGVDSSUAVXRDY-UHFFFAOYSA-N 3-(4-hydroxyphenyl)lactic acid Chemical compound OC(=O)C(O)CC1=CC=C(O)C=C1 JVGVDSSUAVXRDY-UHFFFAOYSA-N 0.000 claims description 2
- AXFYFNCPONWUHW-UHFFFAOYSA-N 3-hydroxyisovaleric acid Chemical compound CC(C)(O)CC(O)=O AXFYFNCPONWUHW-UHFFFAOYSA-N 0.000 claims description 2
- VOXXWSYKYCBWHO-UHFFFAOYSA-N 3-phenyllactic acid Chemical compound OC(=O)C(O)CC1=CC=CC=C1 VOXXWSYKYCBWHO-UHFFFAOYSA-N 0.000 claims description 2
- AWQSAIIDOMEEOD-UHFFFAOYSA-N 5,5-Dimethyl-4-(3-oxobutyl)dihydro-2(3H)-furanone Chemical compound CC(=O)CCC1CC(=O)OC1(C)C AWQSAIIDOMEEOD-UHFFFAOYSA-N 0.000 claims description 2
- ODHCTXKNWHHXJC-VKHMYHEASA-N 5-oxo-L-proline Chemical compound OC(=O)[C@@H]1CCC(=O)N1 ODHCTXKNWHHXJC-VKHMYHEASA-N 0.000 claims description 2
- QGXBDMJGAMFCBF-HLUDHZFRSA-N 5α-Androsterone Chemical compound C1[C@H](O)CC[C@]2(C)[C@H]3CC[C@](C)(C(CC4)=O)[C@@H]4[C@@H]3CC[C@H]21 QGXBDMJGAMFCBF-HLUDHZFRSA-N 0.000 claims description 2
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 claims description 2
- KWIUHFFTVRNATP-UHFFFAOYSA-N Betaine Natural products C[N+](C)(C)CC([O-])=O KWIUHFFTVRNATP-UHFFFAOYSA-N 0.000 claims description 2
- 239000002126 C01EB10 - Adenosine Substances 0.000 claims description 2
- YTBSYETUWUMLBZ-UHFFFAOYSA-N D-Erythrose Natural products OCC(O)C(O)C=O YTBSYETUWUMLBZ-UHFFFAOYSA-N 0.000 claims description 2
- WQZGKKKJIJFFOK-IVMDWMLBSA-N D-allopyranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@H](O)[C@@H]1O WQZGKKKJIJFFOK-IVMDWMLBSA-N 0.000 claims description 2
- YTBSYETUWUMLBZ-IUYQGCFVSA-N D-erythrose Chemical compound OC[C@@H](O)[C@@H](O)C=O YTBSYETUWUMLBZ-IUYQGCFVSA-N 0.000 claims description 2
- AEMOLEFTQBMNLQ-AQKNRBDQSA-N D-glucopyranuronic acid Chemical compound OC1O[C@H](C(O)=O)[C@@H](O)[C@H](O)[C@H]1O AEMOLEFTQBMNLQ-AQKNRBDQSA-N 0.000 claims description 2
- JPIJQSOTBSSVTP-GBXIJSLDSA-N D-threonic acid Chemical compound OC[C@@H](O)[C@H](O)C(O)=O JPIJQSOTBSSVTP-GBXIJSLDSA-N 0.000 claims description 2
- 206010056474 Erythrosis Diseases 0.000 claims description 2
- QGXBDMJGAMFCBF-UHFFFAOYSA-N Etiocholanolone Natural products C1C(O)CCC2(C)C3CCC(C)(C(CC4)=O)C4C3CCC21 QGXBDMJGAMFCBF-UHFFFAOYSA-N 0.000 claims description 2
- 229930091371 Fructose Natural products 0.000 claims description 2
- RFSUNEUAIZKAJO-ARQDHWQXSA-N Fructose Chemical compound OC[C@H]1O[C@](O)(CO)[C@@H](O)[C@@H]1O RFSUNEUAIZKAJO-ARQDHWQXSA-N 0.000 claims description 2
- 239000005715 Fructose Substances 0.000 claims description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 claims description 2
- PLVPPLCLBIEYEA-WAYWQWQTSA-N Indole-3-acrylic acid Natural products C1=CC=C2C(\C=C/C(=O)O)=CNC2=C1 PLVPPLCLBIEYEA-WAYWQWQTSA-N 0.000 claims description 2
- LKDRXBCSQODPBY-AMVSKUEXSA-N L-(-)-Sorbose Chemical compound OCC1(O)OC[C@H](O)[C@@H](O)[C@@H]1O LKDRXBCSQODPBY-AMVSKUEXSA-N 0.000 claims description 2
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 claims description 2
- 229930182844 L-isoleucine Natural products 0.000 claims description 2
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 claims description 2
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 claims description 2
- JPIJQSOTBSSVTP-STHAYSLISA-N L-threonic acid Chemical compound OC[C@H](O)[C@@H](O)C(O)=O JPIJQSOTBSSVTP-STHAYSLISA-N 0.000 claims description 2
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 claims description 2
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 claims description 2
- KWIUHFFTVRNATP-UHFFFAOYSA-O N,N,N-trimethylglycinium Chemical compound C[N+](C)(C)CC(O)=O KWIUHFFTVRNATP-UHFFFAOYSA-O 0.000 claims description 2
- KTHDTJVBEPMMGL-VKHMYHEASA-N N-acetyl-L-alanine Chemical compound OC(=O)[C@H](C)NC(C)=O KTHDTJVBEPMMGL-VKHMYHEASA-N 0.000 claims description 2
- YPIGGYHFMKJNKV-UHFFFAOYSA-N N-ethylglycine Chemical compound CC[NH2+]CC([O-])=O YPIGGYHFMKJNKV-UHFFFAOYSA-N 0.000 claims description 2
- ODHCTXKNWHHXJC-GSVOUGTGSA-N Pyroglutamic acid Natural products OC(=O)[C@H]1CCC(=O)N1 ODHCTXKNWHHXJC-GSVOUGTGSA-N 0.000 claims description 2
- KDYFGRWQOYBRFD-UHFFFAOYSA-N Succinic acid Natural products OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 claims description 2
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 claims description 2
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 claims description 2
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 claims description 2
- ODHCTXKNWHHXJC-UHFFFAOYSA-N acide pyroglutamique Natural products OC(=O)C1CCC(=O)N1 ODHCTXKNWHHXJC-UHFFFAOYSA-N 0.000 claims description 2
- 229960005305 adenosine Drugs 0.000 claims description 2
- 150000001408 amides Chemical class 0.000 claims description 2
- 229940024606 amino acid Drugs 0.000 claims description 2
- 235000001014 amino acid Nutrition 0.000 claims description 2
- 229940061641 androsterone Drugs 0.000 claims description 2
- 229960001230 asparagine Drugs 0.000 claims description 2
- 235000009582 asparagine Nutrition 0.000 claims description 2
- WQZGKKKJIJFFOK-VFUOTHLCSA-N beta-D-glucose Chemical compound OC[C@H]1O[C@@H](O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-VFUOTHLCSA-N 0.000 claims description 2
- 229940000635 beta-alanine Drugs 0.000 claims description 2
- 229960003237 betaine Drugs 0.000 claims description 2
- KDYFGRWQOYBRFD-NUQCWPJISA-N butanedioic acid Chemical compound O[14C](=O)CC[14C](O)=O KDYFGRWQOYBRFD-NUQCWPJISA-N 0.000 claims description 2
- 229960004203 carnitine Drugs 0.000 claims description 2
- OEYIOHPDSNJKLS-UHFFFAOYSA-N choline Chemical compound C[N+](C)(C)CCO OEYIOHPDSNJKLS-UHFFFAOYSA-N 0.000 claims description 2
- 229960001231 choline Drugs 0.000 claims description 2
- GTZCVFVGUGFEME-HNQUOIGGSA-N cis-Aconitic acid Natural products OC(=O)C\C(C(O)=O)=C/C(O)=O GTZCVFVGUGFEME-HNQUOIGGSA-N 0.000 claims description 2
- GTZCVFVGUGFEME-IWQZZHSRSA-N cis-aconitic acid Chemical compound OC(=O)C\C(C(O)=O)=C\C(O)=O GTZCVFVGUGFEME-IWQZZHSRSA-N 0.000 claims description 2
- 229960003624 creatine Drugs 0.000 claims description 2
- 239000006046 creatine Substances 0.000 claims description 2
- -1 cyclic amino acid Chemical class 0.000 claims description 2
- 239000008103 glucose Substances 0.000 claims description 2
- 229940097042 glucuronate Drugs 0.000 claims description 2
- 150000002402 hexoses Chemical class 0.000 claims description 2
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 claims description 2
- 229940056902 l- threonic acid Drugs 0.000 claims description 2
- SXQFCVDSOLSHOQ-UHFFFAOYSA-N lactamide Chemical compound CC(O)C(N)=O SXQFCVDSOLSHOQ-UHFFFAOYSA-N 0.000 claims description 2
- 239000004310 lactic acid Substances 0.000 claims description 2
- 235000014655 lactic acid Nutrition 0.000 claims description 2
- 229960000448 lactic acid Drugs 0.000 claims description 2
- KKSDGJDHHZEWEP-UHFFFAOYSA-N m-hydroxycinnamic acid Natural products OC(=O)C=CC1=CC=CC(O)=C1 KKSDGJDHHZEWEP-UHFFFAOYSA-N 0.000 claims description 2
- 229930182817 methionine Natural products 0.000 claims description 2
- 235000010270 methyl p-hydroxybenzoate Nutrition 0.000 claims description 2
- 239000004292 methyl p-hydroxybenzoate Substances 0.000 claims description 2
- LXCFILQKKLGQFO-UHFFFAOYSA-N methylparaben Chemical compound COC(=O)C1=CC=C(O)C=C1 LXCFILQKKLGQFO-UHFFFAOYSA-N 0.000 claims description 2
- FATBGEAMYMYZAF-KTKRTIGZSA-N oleamide Chemical compound CCCCCCCC\C=C/CCCCCCCC(N)=O FATBGEAMYMYZAF-KTKRTIGZSA-N 0.000 claims description 2
- FATBGEAMYMYZAF-UHFFFAOYSA-N oleicacidamide-heptaglycolether Natural products CCCCCCCCC=CCCCCCCCC(N)=O FATBGEAMYMYZAF-UHFFFAOYSA-N 0.000 claims description 2
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 claims description 2
- 229960005190 phenylalanine Drugs 0.000 claims description 2
- XNGIFLGASWRNHJ-UHFFFAOYSA-L phthalate(2-) Chemical compound [O-]C(=O)C1=CC=CC=C1C([O-])=O XNGIFLGASWRNHJ-UHFFFAOYSA-L 0.000 claims description 2
- YQUVCSBJEUQKSH-UHFFFAOYSA-N protochatechuic acid Natural products OC(=O)C1=CC=C(O)C(O)=C1 YQUVCSBJEUQKSH-UHFFFAOYSA-N 0.000 claims description 2
- KKSDGJDHHZEWEP-SNAWJCMRSA-N trans-3-coumaric acid Chemical compound OC(=O)\C=C\C1=CC=CC(O)=C1 KKSDGJDHHZEWEP-SNAWJCMRSA-N 0.000 claims description 2
- GTZCVFVGUGFEME-UHFFFAOYSA-N trans-aconitic acid Natural products OC(=O)CC(C(O)=O)=CC(O)=O GTZCVFVGUGFEME-UHFFFAOYSA-N 0.000 claims description 2
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 claims description 2
- 229940116269 uric acid Drugs 0.000 claims description 2
- WKOLLVMJNQIZCI-UHFFFAOYSA-N vanillic acid Chemical compound COC1=CC(C(O)=O)=CC=C1O WKOLLVMJNQIZCI-UHFFFAOYSA-N 0.000 claims description 2
- TUUBOHWZSQXCSW-UHFFFAOYSA-N vanillic acid Natural products COC1=CC(O)=CC(C(O)=O)=C1 TUUBOHWZSQXCSW-UHFFFAOYSA-N 0.000 claims description 2
- 229940075420 xanthine Drugs 0.000 claims description 2
- 235000014113 dietary fatty acids Nutrition 0.000 claims 1
- 229930195729 fatty acid Natural products 0.000 claims 1
- 239000000194 fatty acid Substances 0.000 claims 1
- 150000004665 fatty acids Chemical class 0.000 claims 1
- 238000012353 t test Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 13
- 230000006870 function Effects 0.000 description 8
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 208000025174 PANDAS Diseases 0.000 description 4
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 4
- 240000004718 Panda Species 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 4
- 238000004220 aggregation Methods 0.000 description 4
- IJOOHPMOJXWVHK-UHFFFAOYSA-N chlorotrimethylsilane Chemical compound C[Si](C)(C)Cl IJOOHPMOJXWVHK-UHFFFAOYSA-N 0.000 description 4
- 239000006228 supernatant Substances 0.000 description 4
- YMWUJEATGCHHMB-UHFFFAOYSA-N Dichloromethane Chemical compound ClCCl YMWUJEATGCHHMB-UHFFFAOYSA-N 0.000 description 3
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- AYFVYJQAPQTCCC-GBXIJSLDSA-N L-threonine Chemical compound C[C@@H](O)[C@H](N)C(O)=O AYFVYJQAPQTCCC-GBXIJSLDSA-N 0.000 description 2
- IMNFDUFMRHMDMM-UHFFFAOYSA-N N-Heptane Chemical compound CCCCCCC IMNFDUFMRHMDMM-UHFFFAOYSA-N 0.000 description 2
- MSPCIZMDDUQPGJ-UHFFFAOYSA-N N-methyl-N-(trimethylsilyl)trifluoroacetamide Chemical compound C[Si](C)(C)N(C)C(=O)C(F)(F)F MSPCIZMDDUQPGJ-UHFFFAOYSA-N 0.000 description 2
- 208000010378 Pulmonary Embolism Diseases 0.000 description 2
- JUJWROOIHBZHMG-UHFFFAOYSA-N Pyridine Chemical compound C1=CC=NC=C1 JUJWROOIHBZHMG-UHFFFAOYSA-N 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004108 freeze drying Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 230000006920 protein precipitation Effects 0.000 description 2
- 239000013062 quality control Sample Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 239000005051 trimethylchlorosilane Substances 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- GMPKIPWJBDOURN-UHFFFAOYSA-N Methoxyamine Chemical compound CON GMPKIPWJBDOURN-UHFFFAOYSA-N 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 239000004098 Tetracycline Substances 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 230000001154 acute effect Effects 0.000 description 1
- 125000003525 allosyl group Chemical group 0.000 description 1
- 238000000889 atomisation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 239000012159 carrier gas Substances 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000000132 electrospray ionisation Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 239000001307 helium Substances 0.000 description 1
- 229910052734 helium Inorganic materials 0.000 description 1
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 239000012046 mixed solvent Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 235000018102 proteins Nutrition 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- UMJSCPRVCHMLSP-UHFFFAOYSA-N pyridine Natural products COC1=CC=CN=C1 UMJSCPRVCHMLSP-UHFFFAOYSA-N 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000007921 spray Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000004885 tandem mass spectrometry Methods 0.000 description 1
- 229960002180 tetracycline Drugs 0.000 description 1
- 229930101283 tetracycline Natural products 0.000 description 1
- 235000019364 tetracycline Nutrition 0.000 description 1
- 150000003522 tetracyclines Chemical class 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 229960002898 threonine Drugs 0.000 description 1
- 230000002537 thrombolytic effect Effects 0.000 description 1
- 238000006227 trimethylsilylation reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 208000019553 vascular disease Diseases 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 239000003643 water by type Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明临床医学诊断技术领域,涉及一种基于代谢组学双平台的人体深静脉血栓诊断模型的构建。主要获取GC‑MS和LC‑MS两种平台深静脉血栓患者和健康人体小分子代谢谱;PLS‑DA及t检验筛选差异性特征;差异特征二级谱与在线数据库标准二级谱比对确定差异代谢物;构建筛选GC‑MS及LC‑MS最优基础模型;元学习器堆叠整合两平台最优基础模型似然概率输出,构建平台代谢组人体DVT诊断模型;利用SHAP特征选择流程,在不损失性能的前提下剔除模型中冗余代谢物特征,极大提高模型经济性;发明所构建的DM‑HDDM的经济性、鲁棒性及稳定性得到有效提升。
Description
技术领域
本发明临床医学诊断技术领域,尤其涉及一种基于代谢组学双平台的人体深静脉血栓诊断模型的构建。
背景技术
深静脉血栓(DVT)是一种血管疾病,可引发急性肺栓塞(PE),致死致残率极高。因为DVT症状和体征与其他常见疾病重叠导致深静脉血栓诊断较为困难,误诊、漏诊患者可能会错过溶栓窗口期,导致患者治愈率低,预后不良等情况发生。因此对DVT的早期诊断及有效治疗措施的选取是临床技术更好服务于患者的必然要求。但DVT本身发病隐匿性、临床医师判断主观性和单一局限的辅助诊断技术及指标给DVT诊断带来了很大的困难。因此需要探索客观且多元的DVT诊断指标体系。通过联合应用以多平台代谢组学技术作为发现以及解释小分子代谢物与DVT疾病机制内在联系的新兴手段,以Stacking集成机器学习技术作为拟合庞杂数据并做出合理统计推断的数据处理手段,可以有效克服当前DVT诊断方法所存在的局限性,并实现临床快速推广应用。
发明内容
为了解决DVT本身发病隐匿性、临床医师判断主观性和单一局限的辅助诊断技术及指标给DVT诊断带来了很大的困难,本发明提供了一种基于代谢组学双平台的人体深静脉血栓诊断模型的构建。
本发明是通过以下技术方案实现的:基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,包括以下步骤:
①通过GC-MS和LC-MS两种代谢物分析平台获取深静脉血栓患者与健康人体的小分子代谢谱;
②通过SERRF(随机森林系统误差消除算法)来缩小GC-MS与LC-MS分析过程中不同批次引起的小分子代谢谱系统误差并进行数据归一化;
③PLS-DA算法分别构建GC-MS和LC-MS判别模型筛选血清GC-MS代谢谱或LC-MS代谢谱,筛选VIP>1且q<0.05的差异性代谢物特征;
④将GC-MS和LC-MS分析过程中记录的差异代谢物特征二级谱与在线数据库中标准二级质谱图比对分析确定差异代谢物特征对应为相应差异代谢物;
⑤第一层模型为基学习器,选择GC-MS最优基础模型和LC-MS最优基础模型;第二层为元学习器,元学习器堆叠整合GC-MS和LC-MS最优基础模型似然概率输出,构建双平台代谢组人体DVT诊断模型。
作为本发明构建方法技术方案的进一步改进,在步骤④中,所述GC-MS的差异代谢物为阿洛糖、九烷脂肪酸、甘油单油酸酯、马尿酸、己糖、L-山梨糖、L-苏糖酸、果糖、3-羟基异戊酸、3-苯基乳酸、β-丙氨酸、赤藓糖、乳酰胺、天冬酰胺、胞苷-(3,5)-胞苷-(3,5)-腺苷、庚酸、眼酸、琥珀酸、顺乌头酸、葡萄糖、对羟基苯甲酸甲酯、谷氨酰胺;所述LC-MS的差异代谢物为脯氨酸、色氨酸、吲哚-3-丙烯酸、苯基丙氨酸、异亮氨酸、亮氨酸、L-异亮氨酸、乳酸、甜菜碱、肌酸、尿酸、肉毒碱、油酰胺、马尿酸、胆碱、酪氨酸、邻苯二甲酸酯、3-羟基肉桂酸、十六烷酰胺、谷氨酰胺、苏糖酸、14,15-环氧乙烷三烯酸、4-羟基苯乳酸、胆红素、焦谷氨酸、3-羟基葵酸、乙基甘氨酸、甲硫氨酸、壬二酸、α-氨基辛酸、雄酮葡萄糖醛酸酯、甲基吲哚、环氨酸、16-羟基十六烷酸、十二烷酸、辛二酸、香草酸、黄嘌呤、乙酰丙氨酸。
作为本发明构建方法技术方案的进一步改进,在步骤⑤中,构建基学习器时,是从多种机器学习算法中通过交叉验证比较选取出GC-MS最优基础模型和LC-MS最优基础模型。
作为本发明构建方法技术方案的进一步改进,在步骤⑤中,Logistic回归作为元学习器。
作为本发明构建方法技术方案的进一步改进,多种机器学习算法包括Logistic回归、支持向量机、多层感知机、随机森林、梯度提升树。
本发明进一步提供了基于合作博弈论机器学习模型解释器SHAP的模型优化方法,包括以下步骤:
(Ⅰ)计算GC-MS差异代谢物对GC-MS最优基础模型的平均绝对SHAP值,以此衡量GC-MS差异代谢物的模型贡献度;
(Ⅱ)计算LC-MS差异代谢物对LC-MS最优基础模型的平均绝对SHAP值,以此衡量LC-MS差异代谢物的模型贡献度;
(Ⅲ)根据GC-MS、LC-MS差异代谢物对各自最优基础模型的贡献度大小降序排序并重排差异代谢物数据集;
(Ⅳ)从前向后逐步加入差异代谢物组成新的数据集,并训练不同数量差异代谢物特征的基础模型;
(Ⅴ)应用交叉验证算法评估基础模型准确率随差异代谢物数量变化的趋势,并绘制变化曲线,曲线拐点所对应的特征即为最终保留的差异代谢物;
(Ⅵ)构建最终保留的差异代谢物数据表,重新筛选新的GC-MS和LC-MS最优基础模型,再建立Stacking双平台集成模型即为经SHAP特征选择优化后的DM-HDDM。
作为本发明模型优化方法技术方案的进一步改进,在步骤(Ⅴ)中,绘制变化曲线时,将新的数据集切分为包括连续个数差异代谢物数量的子集,而后对这些子集均用最优基础模型所对应的机器学习算法进行拟合和准确率评估,并通过matplolib模块绘制出模型准确率随引入代谢物数量之间关系的曲线图。
本发明所述基于代谢组学双平台的人体深静脉血栓诊断模型的构建,与现有技术相比,具有如下有益效果:
主要获取GC-MS和LC-MS两种平台深静脉血栓患者和健康人体小分子代谢谱;PLS-DA及t检验筛选差异性特征;差异特征二级谱与在线数据库标准二级谱比对确定差异代谢物;构建筛选GC-MS及LC-MS最优基础模型;元学习器堆叠整合两平台最优基础模型似然概率输出,构建平台代谢组人体DVT诊断模型(DM-HDDM,Double-platformMetabolomic—Human DVT Diagnosis Model);利用SHAP特征选择流程,在不损失性能的前提下剔除模型中冗余代谢物特征,极大提高模型经济性,拓展了DVT诊断指标检测范围,克服了现有DVT诊断技术普遍存在主观性强、依赖临床医师长期临床经验及辅助诊断指标和技术局限单一等局限。本发明所构建的DM-HDDM外部测试准确率达到92.6%以上,因此本发明所构建的DM-HDDM的经济性、鲁棒性及稳定性得到有效提升。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为血清代谢组分析流程图。
图2为差异代谢物筛选图流程图。
图3为SERRF标准化前后样本主成分分析(PCA)聚集趋势分布图。
图4为VIP>1和q<0.05差异代谢物象限分布图。
图5为Stacking集成模型结构图。
图6为SHAP特征选择流程示意图:左图为差异代谢物平均绝对SHAP值排序,右图为逐步特征筛选曲线,拐点横坐标代表筛选累积准确率贡献度占比时用于模型构建所需的差异代谢物。
图7为LC-MS特征选择流程示意图:左图为差异代谢物平均绝对SHAP值排序,右图为逐步特征筛选曲线,拐点横坐标代表筛选累积准确率贡献度占比时用于模型构建所需的差异代谢物。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将对本发明的方案进行进一步描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但本发明还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本发明的一部分实施例,而不是全部的实施例。
下面对本发明的具体实施例进行详细说明。
1.人体样本收集:
募集60例DVT患者及60例健康对照人员。空腹抽取5毫升受试者的静脉血,放入真空采血管中,静置30分钟,以3000转/分的速度离心5分钟,将上清液分装到冷冻管中,储存在-80℃冰箱中,如图1所示。
2.人体血清代谢组分析流程:
(1)GC-MS平台分析流程
①蛋白沉淀:将200μL血清样品在800μL二氯甲烷/甲醇/水的混合溶剂中匀浆,比例为20:50:20(v/v/v),然后在4℃下以13000rpm离心10分钟。
②冷冻干燥:将600μL上清液转移到新的小瓶中,并浓缩冷冻至完全干燥(SCIENTZ-1LS,宁波科恩茨生物技术有限公司,宁波,中国)。
③衍生化:向干燥后残留物中加入50μL吡啶中的甲氧基胺(15mg/mL),混合物在70℃下振荡60分钟;然后加入50μL混有1%三甲基氯矽烷(TMCS)的N-三甲硅基-N-甲基三氟乙酰胺(MSTFA),在40℃下进行90分钟的三甲基硅化。
④复溶上机:加入600μL庚烷中的四环素(0.1mg/mL),并涡旋混合2分钟。随后将样品在13000rpm下离心10分钟,然后将500μL的上清液转移到小瓶中进行GC-MS分析。
⑤质量控制样品制备。从每个样品中取等量的10μL放入2mL玻璃瓶中作为混合样品。
⑥上机检测及质谱条件:每个样品1μL,以无分裂模式注入GC-MS(Agilent7890B/7000C)系统。在毛细管柱DB-MS(30米×0.25毫米×0.25微米,美国安捷伦科技公司)上进行GC分离。进样器温度控制在250℃,进样器的分流比设定为1:10。氦气作为载气,流速为1.0mL/min。烘箱初始温度保持在60℃3分钟,以10℃/min的速度升至180℃,保持6分钟,再以10℃/min的速度升至280℃,保持5分钟。质谱仪在电子冲击(EI)电离模式下运行,电压为70eV,温度控制在230℃。数据采集采用全扫描模式,从m/z 50到650,扫描时间为0.5s,溶剂延迟时间为3.5min。
⑦仪器分析数据导出:所有血清样品的GC-MS原始文件(.D格式)用ProteoWizard3.0软件转换为"mzXML"格式,然后用ABF转换器转换为"abf"格式。然后用配备有Fiehn库的MS-DIAL软件对abf数据进行分析,进行原始峰排除、峰对齐、去卷积分析和鉴定等。
(2)LC-MS平台分析流程
①蛋白沉淀:在200μL血清中加入800μL冷的乙腈以沉淀蛋白质。涡旋混合1分钟后,离心(12000rpm,20分钟,4℃)。
②冷冻干燥:提取600μL上清液,在冷冻浓缩离心干燥器中冷冻干燥。
③复溶上机:用200μL乙腈/水(4:1)溶液溶解干燥后残留物,用0.22μm膜过滤,进行LC-MS分析。
④质控样本制备:从每个样品中取等量的10μL放入2mL玻璃瓶中作为混合样品。所有测试样品以随机顺序注入LC-MS,我们每10个样品插入一个QC样品,以测试仪器分析过程中分析方法和系统的稳定性。
⑤上机检测及质谱条件:色谱分析和质谱分析采用Ultimate 3000UPLC,与QExtraction Orbitrap HRMS(Thermo Scientific,美国)联用,电喷雾离子化(ESI,ThermoFisher,美国)。采用ACQUITY UPLCTM HSS T3柱(1.8μm,2.1mm×100mm,Waters,USA)。柱温为45℃,进样量为5μL。ESI收集正负离子,正负喷射电压分别为3.0kV和2.7kV。毛细管和加热器的温度分别为320℃和300℃,气体流速为11L/min。雾化压力为40psi,扫描模式为全扫描/dd-MS2,采集范围为m/z 80-1200Da。
⑥仪器分析数据导出:LC-MS的原始数据被导入Compound Discoverer 3.0(CD)软件,进行数据提取和自动预处理,如峰识别、峰对齐和基线校正等,最终输出的数据包括化合物名称、保留时间、精确质荷比和峰面积等。然后,将没有二次质谱鉴定的数据集导入Microsoft excel,对峰面积进行标准化处理。
3.差异代谢物筛选:
(1)消除实验批次误差及数据归一化:应用系统误差去除随机森林算法(SERRF)在实验中减少了系统偏差,并对数据进行了规范化处理。SERRF通过将数据导入在线网站服务端(https://slfan2013.github.io/SERRF-online)进行应用。
(2)SERRF处理前后数据模式比较:应用SERRF内置PCA分析显示SERRF处理前后数据空间分布趋势,QC质控样本聚集趋势更趋良好(如图3所示,(a)、(b)分别GC-MS SERRF处理前、后的PCA样本聚集趋势对比图,(c)、(d)分别为LC-MS SERRF处理前、后PCA样本聚集趋势对比图)。
(3)PLS-DA数据模式识别:将GC-MS和LC-MS的归一化数据集分别导入SIMCA-P14.1软件进行多变量统计分析。PLS-DA VIP>1和单变量统计分析q<0.05的变量被认为是GC-MS数据的差异性代谢物或LC-MS数据集的差异性特征。(如图4所示,图内两条虚线分别表示VIP=1与q=0.05的界值,以此将图划分为四个象限,图(a)象限点表示GC-MS筛选到的差异性代谢物特征,图(b)象限点表示LC-MS筛选到的差异代谢物特征)。
(4)LC-MS差异特征二级谱比对:在MzCloud(http://www.mzcloud.org)、METLIN(http://metlin.scripps.edu)和人类代谢组数据库(HMDB)的数据库中检索标准串联质谱和化合物来源信息以此确定LC-MS差异代谢物信息(经二级谱比对后得到的GC-MS、LC-MS差异代谢物相关信息分别在表1和表2中展示)。
表1GC-MS差异代谢物信息汇总
表2LC-MS差异代谢物信息汇总
4.DM-HDDM构建(建模流程如图5所示)
(1)数据集准备:以每个患者作为一个观测值,以GC-MS及LC-MS所测得差异代谢物表达量为特征,构建结构化二维数据表。按照8:2比例分割将数据集分割为训练集和验证集。数据集划分通过sklearn模块train_test_split函数实现。
(2)GC-MS最优基础模型选择:从五种机器学习算法(Logistic回归、支持向量机、多层感知机、随机森林、梯度提升树)中选取GC-MS最优基础模型(通过综合评估经训练后的机器学习算法对验证集数据进行预测的五种指标——分别为准确率、召回率、精确度、ROC曲线下面积、F1分数得出最优基础模型)。该步骤中5种机器学习算法通过从sklearn模块中导入svm,LogisticRegression,RandomForest,GradientBoostingClassifier,MLPClassifier函数实现。模型通过model.fit函数进行训练和拟合。模型评估通过从sklearn模块的metrics子模块中导入相应指标函数实现。结果如表3所示,经过5种指标综合评估,随机森林模型性能优于其余几种机器学习模型,因此选取随机森林模型作为GC-MS最优基础模型。
表3 GC-MS各基础模型内部验证性能指标对比
(3)LC-MS最优基础模型选择:同GC-MS最优基础模型选取方式(结果如表4所示)。
表4 LC-MS各基础模型内部验证性能指标对比
(4)Logistic回归作为元学习器堆叠整合LC-MS和GC-MS最优基础模型似然概率输出,并预测最终分类。该步骤首先从sklearn模块linear_model子模块导入LogisticRegression函数。而后利用mlxtend模块classifier子模块下的StackingClassifier函数,向此函数中传入GC-MS和LC-MS最优基础模型和Logistic回归元模型作为参数,构建双平台代谢组人体DVT辅助诊断模型(DM-HDDM)。
其中GC-MS和LC-MS最优基础模型与双平台代谢组人体DVT辅助诊断模型内部验证的性能指标如下所示:
表5各平台最优基础模型与双平台集成模型内部验证性能指标对比
5.SHAP机器学习解释器辅助建模特征选择提升DM-HDDM经济性
(1)计算GC-MS差异代谢物对GC-MS最优基础模型的平均绝对SHAP值,以此衡量GC-MS差异代谢物的模型贡献度。步骤为首先在Python环境中导入shap模块,而后运用Explainer函数定义SHAP解释器。并将GC-MS最优基础模型和GC-MS数据集传入解释器作为参数以方便解释器对其进行解释,输出数据集中差异代谢物特征的模型贡献度,并加以排序(如图6(a)所示,应用SHAP解释器计算GC-MS的22种差异代谢物对相应最优基础模型的贡献度并加以排序)。
(2)计算LC-MS差异代谢物对LC-MS最优基础模型的平均绝对SHAP值,以此衡量LC-MS差异代谢物的模型贡献度。步骤与(1)类似,可以获得LC-MS差异代谢物对GC-MS最优基础模型的贡献度。
(3)根据各平台差异代谢物对各自平台最优基础模型的贡献度大小降序排序并重排差异代谢物数据集。具体步骤为首先Python环境中导入pandas模块,并利用pandas模块导入excel数据表文件。而后创建排序后代谢物名称列表sort_name_list,并以列表索引方式取出每个代谢物所对应的列。最后以通过pandas.concat循环堆叠取出的每个列组成新的数据表即为根据SHAP贡献度重排后差异代谢物数据集。
(4)从重排后差异代谢物数据表中由前向后逐步加入差异代谢物组成新的数据集,并训练不同数量差异代谢物特征的基础模型。应用交叉验证算法评估基础模型准确率随差异代谢物数量变化的趋势,并绘制变化曲线(GC-MS基础模型准确率随引入代谢物个数变化趋势曲线如图6(b)所示)。具体步骤是利用for循环和pandas数据集切片操作,将重排差异代谢物数据集切分为包括连续个数差异代谢物数量的子集,而后对这些子集均用最优基础模型所对应的机器学习算法进行拟合和准确率评估,并通过matplolib模块绘制出模型准确率随引入代谢物数量之间关系的曲线图。曲线拐点所对应的特征数量即为最终保留的差异代谢物数量(如图6中方框框选出的代谢物即为GC-MS最终保留的差异代谢物)。
(5)与前述(4)相似,确定LC-MS最终保留差异代谢物,结果如图7所示。确定最终保留差异代谢物数据特征集合包括5种代谢物(GC-MS:L-苏氨酸、阿洛糖、甘油单油酸酯;LC-MS:脯氨酸、亮氨酸),相比之前61种代谢物,极大地降低建模所需的代谢物特征数量。
(6)重新训练新的GC-MS和LC-MS基础模型,再用Logistic回归元模型间将其组合为新的DM-HDDM并保存为后缀为.pkl的可存储文件。具体步骤为基于步骤(5)所指的最终保留差异代谢物数据集,重复应用DM-HDDM构建方法,重新筛选新的LC-MS和GC-MS最优基础模型,而后再经过元模型堆叠整合概率输出,建立Stacking双平台集成模型即为经SHAP特征选择优化后的DM-HDDM。
6.优化前后DM-HDDM测试比较:
(1)新招募7名DVT组志愿者与7名健康对照志愿者。通过前述方法(步骤1.-2.)采集其血清并进行GC-MS和LC-MS代谢组学分析,构建外部测试数据集。
(2)运用优化前和优化后的DM-HDDM分别对此14例人体血清代谢物中差异代谢物进行诊断分析,具体通过python环境下model.predict函数进行模型预测,记录模型预测准确率、召回率、精确度、ROC曲线下面积和F1分数信息。如表6所示,优化后模型只需最终5种差异代谢物进行建模就可以达到与优化前模型性能相近的水平(仅AUC指标降低)。这会极大节约模型运用的算力成本,提升模型预测效率,具体如表6所示。
表6优化前后双平台Stacking集成模型性能指标对比
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。尽管参照前述各实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离各实施例技术方案的范围,其均应涵盖权利要求书的保护范围中。
Claims (7)
1.基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,包括以下步骤:
①通过GC-MS和LC-MS两种代谢物分析平台获取深静脉血栓患者与健康人体的小分子代谢谱;
②通过SERRF来缩小GC-MS与LC-MS分析过程中不同批次引起的小分子代谢谱系统误差并进行数据归一化;
③PLS-DA算法分别构建GC-MS和LC-MS判别模型筛选血清GC-MS代谢谱或LC-MS代谢谱,筛选VIP>1且q<0.05的差异性代谢物特征;
④将GC-MS和LC-MS分析过程中记录的差异代谢物特征二级谱与在线数据库中标准二级质谱图比对分析确定差异代谢物特征对应为相应差异代谢物;
⑤第一层模型为基学习器,选择GC-MS最优基础模型和LC-MS最优基础模型;第二层为元学习器,元学习器堆叠整合GC-MS和LC-MS最优基础模型似然概率输出,构建双平台代谢组人体DVT诊断模型。
2.根据权利要求1所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,在步骤④中,所述GC-MS的差异代谢物为阿洛糖、九烷脂肪酸、甘油单油酸酯、马尿酸、己糖、L-山梨糖、L-苏糖酸、果糖、3-羟基异戊酸、3-苯基乳酸、β-丙氨酸、赤藓糖、乳酰胺、天冬酰胺、胞苷-(3,5)-胞苷-(3,5)-腺苷、庚酸、眼酸、琥珀酸、顺乌头酸、葡萄糖、对羟基苯甲酸甲酯、谷氨酰胺;所述LC-MS的差异代谢物为脯氨酸、色氨酸、吲哚-3-丙烯酸、苯基丙氨酸、异亮氨酸、亮氨酸、L-异亮氨酸、乳酸、甜菜碱、肌酸、尿酸、肉毒碱、油酰胺、马尿酸、胆碱、酪氨酸、邻苯二甲酸酯、3-羟基肉桂酸、十六烷酰胺、谷氨酰胺、苏糖酸、14,15-环氧乙烷三烯酸、4-羟基苯乳酸、胆红素、焦谷氨酸、3-羟基葵酸、乙基甘氨酸、甲硫氨酸、壬二酸、α-氨基辛酸、雄酮葡萄糖醛酸酯、甲基吲哚、环氨酸、16-羟基十六烷酸、十二烷酸、辛二酸、香草酸、黄嘌呤、乙酰丙氨酸。
3.根据权利要求1所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,在步骤⑤中,构建基学习器时,是从多种机器学习算法中通过交叉验证比较选取出GC-MS最优基础模型和LC-MS最优基础模型。
4.根据权利要求1所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,在步骤⑤中,Logistic回归作为元学习器。
5.根据权利要求3所述的基于Stacking集成学习构建双平台代谢组人体DVT诊断模型的方法,其特征在于,多种机器学习算法包括Logistic回归、支持向量机、多层感知机、随机森林、梯度提升树。
6.基于合作博弈论机器学习模型解释器SHAP的模型优化方法,其特征在于,包括以下步骤:
(Ⅰ)计算GC-MS差异代谢物对GC-MS最优基础模型的平均绝对SHAP值,以此衡量GC-MS差异代谢物的模型贡献度;
(Ⅱ)计算LC-MS差异代谢物对LC-MS最优基础模型的平均绝对SHAP值,以此衡量LC-MS差异代谢物的模型贡献度;
(Ⅲ)根据GC-MS、LC-MS差异代谢物对各自最优基础模型的贡献度大小降序排序并重排差异代谢物数据集;
(Ⅳ)从前向后逐步加入差异代谢物组成新的数据集,并训练不同数量差异代谢物特征的基础模型;
(Ⅴ)应用交叉验证算法评估基础模型准确率随差异代谢物数量变化的趋势,并绘制变化曲线,曲线拐点所对应的特征即为最终保留的差异代谢物;
(Ⅵ)构建最终保留的差异代谢物数据表,重新筛选新的GC-MS和LC-MS最优基础模型,再建立Stacking双平台集成模型即为经SHAP特征选择优化后的DM-HDDM。
7.根据权利要求6所述的基于合作博弈论机器学习模型解释器SHAP的模型优化方法,其特征在于,在步骤(Ⅴ)中,绘制变化曲线时,将新的数据集切分为包括连续个数差异代谢物数量的子集,而后对这些子集均用最优基础模型所对应的机器学习算法进行拟合和准确率评估,并通过matplolib模块绘制出模型准确率随引入代谢物数量之间关系的曲线图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310291674.0A CN116453699A (zh) | 2023-03-23 | 2023-03-23 | 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310291674.0A CN116453699A (zh) | 2023-03-23 | 2023-03-23 | 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116453699A true CN116453699A (zh) | 2023-07-18 |
Family
ID=87128045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310291674.0A Pending CN116453699A (zh) | 2023-03-23 | 2023-03-23 | 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116453699A (zh) |
-
2023
- 2023-03-23 CN CN202310291674.0A patent/CN116453699A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112881547B (zh) | 一种肝硬化及肝炎人群早期肝癌诊断标志物的筛选方法 | |
CN110057955B (zh) | 乙型肝炎特异性血清标志物的筛选方法 | |
Szymańska et al. | Chemometrics for ion mobility spectrometry data: recent advances and future prospects | |
CN112509702A (zh) | 基于医疗大数据的疾病预测方法及系统 | |
CN110057954B (zh) | 血浆代谢标志物在诊断或监测hbv的应用 | |
CN113484511A (zh) | 妊娠期糖尿病的孕早期血液脂质生物标志物的筛选及应用 | |
CN109307764B (zh) | 一组代谢标志物在制备胶质瘤诊断试剂盒方面的应用 | |
CN104713970B (zh) | 一种血清代谢组学分析模型的构建方法 | |
CN115932277A (zh) | 一种乳腺癌诊断标志物及其筛选方法、定量方法、诊断模型的构建方法及应用 | |
WO2020199866A1 (zh) | 生物代谢组学数据处理方法、分析方法及装置和应用 | |
CN116453699A (zh) | 基于代谢组学双平台的人体深静脉血栓诊断模型的构建 | |
CN110583573A (zh) | 一种血虚小鼠模型的构建及评价方法 | |
CN115714013A (zh) | 一种肺炎诊断的临床预测模型构建方法 | |
CN114354827A (zh) | 代谢标志物及其在制备2型糖尿病的风险预测试剂盒中的应用和试剂盒 | |
CN108318573B (zh) | 检测胰岛素抵抗的质谱模型的制备方法 | |
CN112630330B (zh) | 小分子物质在脑梗死诊断中的应用 | |
CN109444277B (zh) | 代谢标志物在制备胶质瘤诊断试剂盒方面的应用 | |
CN112630344A (zh) | 代谢标志物在脑梗死中的用途 | |
CN114566292B (zh) | 应用内源性物质预测肾移植药物剂量的模型的构建方法 | |
US20170227528A1 (en) | Biomarker compositions specific to coronary heart disease patients and uses thereof | |
CN112305120A (zh) | 代谢物在动脉粥样硬化性脑梗死中的应用 | |
CN114428139A (zh) | 代谢标志物及在制备高尿酸血症的风险预测试剂盒方面中的应用和试剂盒 | |
CN112599240B (zh) | 代谢物在脑梗死中的应用 | |
US20240102977A1 (en) | Sample quantification consistency and classification workflow | |
CN112147344A (zh) | 动脉粥样硬化性脑梗死的代谢标志物及其在诊疗中的应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |