CN117517532B - 基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用 - Google Patents
基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用 Download PDFInfo
- Publication number
- CN117517532B CN117517532B CN202410011452.3A CN202410011452A CN117517532B CN 117517532 B CN117517532 B CN 117517532B CN 202410011452 A CN202410011452 A CN 202410011452A CN 117517532 B CN117517532 B CN 117517532B
- Authority
- CN
- China
- Prior art keywords
- lung adenocarcinoma
- early
- acid
- diagnosis
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 title claims abstract description 121
- 201000005249 lung adenocarcinoma Diseases 0.000 title claims abstract description 121
- 238000003745 diagnosis Methods 0.000 title claims abstract description 43
- 239000003550 marker Substances 0.000 title claims abstract description 35
- 238000005516 engineering process Methods 0.000 title abstract description 17
- 238000013473 artificial intelligence Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000013399 early diagnosis Methods 0.000 claims abstract description 17
- 238000010276 construction Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims abstract description 6
- 210000002381 plasma Anatomy 0.000 claims description 50
- 239000002207 metabolite Substances 0.000 claims description 46
- FDGQSTZJBFJUBT-UHFFFAOYSA-N hypoxanthine Chemical compound O=C1NC=NC2=C1NC=N2 FDGQSTZJBFJUBT-UHFFFAOYSA-N 0.000 claims description 45
- KRKNYBCHXYNGOX-UHFFFAOYSA-N citric acid Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O KRKNYBCHXYNGOX-UHFFFAOYSA-N 0.000 claims description 39
- LCTONWCANYUPML-UHFFFAOYSA-N Pyruvic acid Chemical compound CC(=O)C(O)=O LCTONWCANYUPML-UHFFFAOYSA-N 0.000 claims description 38
- IPCSVZSSVZVIGE-UHFFFAOYSA-N hexadecanoic acid Chemical compound CCCCCCCCCCCCCCCC(O)=O IPCSVZSSVZVIGE-UHFFFAOYSA-N 0.000 claims description 38
- GVJHHUAWPYXKBD-IEOSBIPESA-N α-tocopherol Chemical compound OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C GVJHHUAWPYXKBD-IEOSBIPESA-N 0.000 claims description 26
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 claims description 25
- UGQMRVRMYYASKQ-UHFFFAOYSA-N Hypoxanthine nucleoside Natural products OC1C(O)C(CO)OC1N1C(NC=NC2=O)=C2N=C1 UGQMRVRMYYASKQ-UHFFFAOYSA-N 0.000 claims description 21
- CKLJMWTZIZZHCS-REOHCLBHSA-N L-aspartic acid Chemical compound OC(=O)[C@@H](N)CC(O)=O CKLJMWTZIZZHCS-REOHCLBHSA-N 0.000 claims description 20
- XUJNEKJLAYXESH-REOHCLBHSA-N L-Cysteine Chemical compound SC[C@H](N)C(O)=O XUJNEKJLAYXESH-REOHCLBHSA-N 0.000 claims description 19
- 235000021314 Palmitic acid Nutrition 0.000 claims description 19
- 235000003704 aspartic acid Nutrition 0.000 claims description 19
- OQFSQFPPLPISGP-UHFFFAOYSA-N beta-carboxyaspartic acid Natural products OC(=O)C(N)C(C(O)=O)C(O)=O OQFSQFPPLPISGP-UHFFFAOYSA-N 0.000 claims description 19
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 claims description 19
- 235000018417 cysteine Nutrition 0.000 claims description 19
- WQEPLUUGTLDZJY-UHFFFAOYSA-N n-Pentadecanoic acid Natural products CCCCCCCCCCCCCCC(O)=O WQEPLUUGTLDZJY-UHFFFAOYSA-N 0.000 claims description 19
- 229940107700 pyruvic acid Drugs 0.000 claims description 19
- 229960005261 aspartic acid Drugs 0.000 claims description 17
- 229960002433 cysteine Drugs 0.000 claims description 17
- 229940098695 palmitic acid Drugs 0.000 claims description 17
- LEVWYRKDKASIDU-QWWZWVQMSA-N D-cystine Chemical compound OC(=O)[C@H](N)CSSC[C@@H](N)C(O)=O LEVWYRKDKASIDU-QWWZWVQMSA-N 0.000 claims description 14
- AEMRFAOFKBGASW-UHFFFAOYSA-N Glycolic acid Chemical compound OCC(O)=O AEMRFAOFKBGASW-UHFFFAOYSA-N 0.000 claims description 13
- 229940087168 alpha tocopherol Drugs 0.000 claims description 13
- 229960004106 citric acid Drugs 0.000 claims description 13
- 229960003067 cystine Drugs 0.000 claims description 13
- 229960000984 tocofersolan Drugs 0.000 claims description 13
- 239000002076 α-tocopherol Substances 0.000 claims description 13
- 235000004835 α-tocopherol Nutrition 0.000 claims description 13
- BJEPYKJPYRNKOW-REOHCLBHSA-N (S)-malic acid Chemical compound OC(=O)[C@@H](O)CC(O)=O BJEPYKJPYRNKOW-REOHCLBHSA-N 0.000 claims description 12
- BJEPYKJPYRNKOW-UHFFFAOYSA-N alpha-hydroxysuccinic acid Natural products OC(=O)C(O)CC(O)=O BJEPYKJPYRNKOW-UHFFFAOYSA-N 0.000 claims description 12
- 235000015165 citric acid Nutrition 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 12
- 229940099690 malic acid Drugs 0.000 claims description 12
- 239000001630 malic acid Substances 0.000 claims description 12
- 235000011090 malic acid Nutrition 0.000 claims description 12
- 230000002503 metabolic effect Effects 0.000 claims description 12
- 229940075420 xanthine Drugs 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 11
- DFPAKSUCGFBDDF-UHFFFAOYSA-N Nicotinamide Chemical compound NC(=O)C1=CC=CN=C1 DFPAKSUCGFBDDF-UHFFFAOYSA-N 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 10
- 239000003153 chemical reaction reagent Substances 0.000 claims description 9
- 230000004060 metabolic process Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 claims description 6
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 claims description 6
- 235000009582 asparagine Nutrition 0.000 claims description 6
- 229960001230 asparagine Drugs 0.000 claims description 6
- 229960004275 glycolic acid Drugs 0.000 claims description 6
- SQUHHTBVTRBESD-UHFFFAOYSA-N Hexa-Ac-myo-Inositol Natural products CC(=O)OC1C(OC(C)=O)C(OC(C)=O)C(OC(C)=O)C(OC(C)=O)C1OC(C)=O SQUHHTBVTRBESD-UHFFFAOYSA-N 0.000 claims description 5
- CDAISMWEOUEBRE-GPIVLXJGSA-N inositol Chemical compound O[C@H]1[C@H](O)[C@@H](O)[C@H](O)[C@H](O)[C@@H]1O CDAISMWEOUEBRE-GPIVLXJGSA-N 0.000 claims description 5
- 229960000367 inositol Drugs 0.000 claims description 5
- 229960003966 nicotinamide Drugs 0.000 claims description 5
- 235000005152 nicotinamide Nutrition 0.000 claims description 5
- 239000011570 nicotinamide Substances 0.000 claims description 5
- 239000000047 product Substances 0.000 claims description 5
- CDAISMWEOUEBRE-UHFFFAOYSA-N scyllo-inosotol Natural products OC1C(O)C(O)C(O)C(O)C1O CDAISMWEOUEBRE-UHFFFAOYSA-N 0.000 claims description 5
- 238000004817 gas chromatography Methods 0.000 claims description 4
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 3
- 238000009007 Diagnostic Kit Methods 0.000 claims description 2
- 102100027893 Homeobox protein Nkx-2.1 Human genes 0.000 claims description 2
- 239000012502 diagnostic product Substances 0.000 claims description 2
- 101710114425 Homeobox protein Nkx-2.1 Proteins 0.000 claims 1
- 101710088547 Thyroid transcription factor 1 Proteins 0.000 claims 1
- 101710159262 Transcription termination factor 1 Proteins 0.000 claims 1
- 230000035945 sensitivity Effects 0.000 abstract description 23
- 238000001514 detection method Methods 0.000 abstract description 20
- 239000000090 biomarker Substances 0.000 abstract description 9
- 206010058467 Lung neoplasm malignant Diseases 0.000 abstract description 8
- 238000011282 treatment Methods 0.000 abstract description 7
- 201000005202 lung cancer Diseases 0.000 abstract description 6
- 208000020816 lung neoplasm Diseases 0.000 abstract description 6
- 238000001574 biopsy Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003384 imaging method Methods 0.000 abstract description 4
- 230000005855 radiation Effects 0.000 abstract description 3
- 238000010241 blood sampling Methods 0.000 abstract description 2
- 238000013170 computed tomography imaging Methods 0.000 abstract description 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000002349 favourable effect Effects 0.000 abstract description 2
- 208000014674 injury Diseases 0.000 abstract description 2
- 230000008733 trauma Effects 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 23
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 21
- 150000001875 compounds Chemical class 0.000 description 17
- 239000000243 solution Substances 0.000 description 13
- 238000010200 validation analysis Methods 0.000 description 11
- 108010020382 Hepatocyte Nuclear Factor 1-alpha Proteins 0.000 description 9
- 102100022057 Hepatocyte nuclear factor 1-alpha Human genes 0.000 description 9
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 8
- 102100025475 Carcinoembryonic antigen-related cell adhesion molecule 5 Human genes 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 206010028980 Neoplasm Diseases 0.000 description 6
- JUJWROOIHBZHMG-UHFFFAOYSA-N Pyridine Chemical compound C1=CC=NC=C1 JUJWROOIHBZHMG-UHFFFAOYSA-N 0.000 description 6
- 150000002500 ions Chemical class 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- IMNFDUFMRHMDMM-UHFFFAOYSA-N N-Heptane Chemical compound CCCCCCC IMNFDUFMRHMDMM-UHFFFAOYSA-N 0.000 description 5
- 208000009956 adenocarcinoma Diseases 0.000 description 5
- 238000002347 injection Methods 0.000 description 5
- 239000007924 injection Substances 0.000 description 5
- 230000003902 lesion Effects 0.000 description 5
- 238000003908 quality control method Methods 0.000 description 5
- 230000004083 survival effect Effects 0.000 description 5
- 210000001519 tissue Anatomy 0.000 description 5
- ZAZKJZBWRNNLDS-UHFFFAOYSA-N methyl tetradecanoate Chemical compound CCCCCCCCCCCCCC(=O)OC ZAZKJZBWRNNLDS-UHFFFAOYSA-N 0.000 description 4
- 239000012452 mother liquor Substances 0.000 description 4
- 239000012086 standard solution Substances 0.000 description 4
- IHQAFRJLFMJBPU-UHFFFAOYSA-N O-methylhydroxylamine pyridine Chemical compound CON.C1=CC=NC=C1 IHQAFRJLFMJBPU-UHFFFAOYSA-N 0.000 description 3
- MUBZPKHOEPUJKR-UHFFFAOYSA-N Oxalic acid Chemical compound OC(=O)C(O)=O MUBZPKHOEPUJKR-UHFFFAOYSA-N 0.000 description 3
- 201000011510 cancer Diseases 0.000 description 3
- IJOOHPMOJXWVHK-UHFFFAOYSA-N chlorotrimethylsilane Chemical compound C[Si](C)(C)Cl IJOOHPMOJXWVHK-UHFFFAOYSA-N 0.000 description 3
- 239000007789 gas Substances 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- UMJSCPRVCHMLSP-UHFFFAOYSA-N pyridine Natural products COC1=CC=CN=C1 UMJSCPRVCHMLSP-UHFFFAOYSA-N 0.000 description 3
- 239000013062 quality control Sample Substances 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000003260 vortexing Methods 0.000 description 3
- WHBMMWSBFZVSSR-UHFFFAOYSA-N 3-hydroxybutyric acid Chemical compound CC(O)CC(O)=O WHBMMWSBFZVSSR-UHFFFAOYSA-N 0.000 description 2
- MSPCIZMDDUQPGJ-UHFFFAOYSA-N N-methyl-N-(trimethylsilyl)trifluoroacetamide Chemical compound C[Si](C)(C)N(C)C(=O)C(F)(F)F MSPCIZMDDUQPGJ-UHFFFAOYSA-N 0.000 description 2
- 206010038111 Recurrent cancer Diseases 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 2
- 238000011394 anticancer treatment Methods 0.000 description 2
- YZXBAPSDXZZRGB-DOFZRALJSA-N arachidonic acid Chemical compound CCCCC\C=C/C\C=C/C\C=C/C\C=C/CCCC(O)=O YZXBAPSDXZZRGB-DOFZRALJSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 239000012159 carrier gas Substances 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000005350 fused silica glass Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000001307 helium Substances 0.000 description 2
- 229910052734 helium Inorganic materials 0.000 description 2
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 2
- 206010020718 hyperplasia Diseases 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- JVTAAEKCZFNVCJ-UHFFFAOYSA-N lactic acid Chemical compound CC(O)C(O)=O JVTAAEKCZFNVCJ-UHFFFAOYSA-N 0.000 description 2
- 210000004072 lung Anatomy 0.000 description 2
- 201000005296 lung carcinoma Diseases 0.000 description 2
- 238000001819 mass spectrum Methods 0.000 description 2
- 230000001394 metastastic effect Effects 0.000 description 2
- 206010061289 metastatic neoplasm Diseases 0.000 description 2
- -1 methyl myristate heptane Chemical compound 0.000 description 2
- 238000006146 oximation reaction Methods 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 235000018102 proteins Nutrition 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 230000002685 pulmonary effect Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 150000003384 small molecules Chemical class 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- KDYFGRWQOYBRFD-UHFFFAOYSA-N succinic acid Chemical compound OC(=O)CCC(O)=O KDYFGRWQOYBRFD-UHFFFAOYSA-N 0.000 description 2
- 239000006228 supernatant Substances 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- WRIDQFICGBMAFQ-UHFFFAOYSA-N (E)-8-Octadecenoic acid Natural products CCCCCCCCCC=CCCCCCCC(O)=O WRIDQFICGBMAFQ-UHFFFAOYSA-N 0.000 description 1
- NRKYWOKHZRQRJR-UHFFFAOYSA-N 2,2,2-trifluoroacetamide Chemical compound NC(=O)C(F)(F)F NRKYWOKHZRQRJR-UHFFFAOYSA-N 0.000 description 1
- LQJBNNIYVWPHFW-UHFFFAOYSA-N 20:1omega9c fatty acid Natural products CCCCCCCCCCC=CCCCCCCCC(O)=O LQJBNNIYVWPHFW-UHFFFAOYSA-N 0.000 description 1
- QSBYPNXLFMSGKH-UHFFFAOYSA-N 9-Heptadecensaeure Natural products CCCCCCCC=CCCCCCCCC(O)=O QSBYPNXLFMSGKH-UHFFFAOYSA-N 0.000 description 1
- GSXOAOHZAIYLCY-UHFFFAOYSA-N D-F6P Natural products OCC(=O)C(O)C(O)C(O)COP(O)(O)=O GSXOAOHZAIYLCY-UHFFFAOYSA-N 0.000 description 1
- 208000033962 Fontaine progeroid syndrome Diseases 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- DHMQDGOQFOQNFH-UHFFFAOYSA-N Glycine Chemical compound NCC(O)=O DHMQDGOQFOQNFH-UHFFFAOYSA-N 0.000 description 1
- AHLPHDHHMVZTML-BYPYZUCNSA-N L-Ornithine Chemical compound NCCC[C@H](N)C(O)=O AHLPHDHHMVZTML-BYPYZUCNSA-N 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- AGPKZVBTJJNPAG-WHFBIAKZSA-N L-isoleucine Chemical compound CC[C@H](C)[C@H](N)C(O)=O AGPKZVBTJJNPAG-WHFBIAKZSA-N 0.000 description 1
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 1
- COLNVLDHVKWLRT-QMMMGPOBSA-N L-phenylalanine Chemical compound OC(=O)[C@@H](N)CC1=CC=CC=C1 COLNVLDHVKWLRT-QMMMGPOBSA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- OYHQOLUKZRVURQ-HZJYTTRNSA-N Linoleic acid Chemical compound CCCCC\C=C/C\C=C/CCCCCCCC(O)=O OYHQOLUKZRVURQ-HZJYTTRNSA-N 0.000 description 1
- WJAJPNHVVFWKKL-UHFFFAOYSA-N Methoxamine Chemical compound COC1=CC=C(OC)C(C(O)C(C)N)=C1 WJAJPNHVVFWKKL-UHFFFAOYSA-N 0.000 description 1
- YGRFXPCHZBRUKP-UHFFFAOYSA-N Methoxamine hydrochloride Chemical compound Cl.COC1=CC=C(OC)C(C(O)C(C)N)=C1 YGRFXPCHZBRUKP-UHFFFAOYSA-N 0.000 description 1
- 239000005642 Oleic acid Substances 0.000 description 1
- ZQPPMHVWECSIRJ-UHFFFAOYSA-N Oleic acid Natural products CCCCCCCCC=CCCCCCCCC(O)=O ZQPPMHVWECSIRJ-UHFFFAOYSA-N 0.000 description 1
- AHLPHDHHMVZTML-UHFFFAOYSA-N Orn-delta-NH2 Natural products NCCCC(N)C(O)=O AHLPHDHHMVZTML-UHFFFAOYSA-N 0.000 description 1
- UTJLXEIPEHZYQJ-UHFFFAOYSA-N Ornithine Natural products OC(=O)C(C)CCCN UTJLXEIPEHZYQJ-UHFFFAOYSA-N 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 108010026552 Proteome Proteins 0.000 description 1
- 206010056342 Pulmonary mass Diseases 0.000 description 1
- 101001091368 Rattus norvegicus Glandular kallikrein-7, submandibular/renal Proteins 0.000 description 1
- 101000898773 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) Saccharopepsin Proteins 0.000 description 1
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 1
- 235000021355 Stearic acid Nutrition 0.000 description 1
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 1
- 239000004473 Threonine Substances 0.000 description 1
- 108010057966 Thyroid Nuclear Factor 1 Proteins 0.000 description 1
- LEHOTFFKMJEONL-UHFFFAOYSA-N Uric Acid Chemical compound N1C(=O)NC(=O)C2=C1NC(=O)N2 LEHOTFFKMJEONL-UHFFFAOYSA-N 0.000 description 1
- TVWHNULVHGKJHS-UHFFFAOYSA-N Uric acid Natural products N1C(=O)NC(=O)C2NC(=O)NC21 TVWHNULVHGKJHS-UHFFFAOYSA-N 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- JINBYESILADKFW-UHFFFAOYSA-N aminomalonic acid Chemical compound OC(=O)C(N)C(O)=O JINBYESILADKFW-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 229940114079 arachidonic acid Drugs 0.000 description 1
- 235000021342 arachidonic acid Nutrition 0.000 description 1
- 150000001508 asparagines Chemical class 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- BGWGXPAPYGQALX-ARQDHWQXSA-N beta-D-fructofuranose 6-phosphate Chemical compound OC[C@@]1(O)O[C@H](COP(O)(O)=O)[C@@H](O)[C@@H]1O BGWGXPAPYGQALX-ARQDHWQXSA-N 0.000 description 1
- UCMIRNVEIXFBKS-UHFFFAOYSA-N beta-alanine Chemical compound NCCC(O)=O UCMIRNVEIXFBKS-UHFFFAOYSA-N 0.000 description 1
- 239000004202 carbamide Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 150000001860 citric acid derivatives Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 150000001944 cysteine derivatives Chemical class 0.000 description 1
- 230000034994 death Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- ZDXPYRJPNDTMRX-UHFFFAOYSA-N glutamine Natural products OC(=O)C(N)CCC(N)=O ZDXPYRJPNDTMRX-UHFFFAOYSA-N 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- XNXVOSBNFZWHBV-UHFFFAOYSA-N hydron;o-methylhydroxylamine;chloride Chemical compound Cl.CON XNXVOSBNFZWHBV-UHFFFAOYSA-N 0.000 description 1
- 238000011065 in-situ storage Methods 0.000 description 1
- 150000004001 inositols Chemical class 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 229960000310 isoleucine Drugs 0.000 description 1
- AGPKZVBTJJNPAG-UHFFFAOYSA-N isoleucine Natural products CCC(C)C(N)C(O)=O AGPKZVBTJJNPAG-UHFFFAOYSA-N 0.000 description 1
- QXJSBBXBKPUZAA-UHFFFAOYSA-N isooleic acid Natural products CCCCCCCC=CCCCCCCCCC(O)=O QXJSBBXBKPUZAA-UHFFFAOYSA-N 0.000 description 1
- 239000004310 lactic acid Substances 0.000 description 1
- 235000014655 lactic acid Nutrition 0.000 description 1
- OYHQOLUKZRVURQ-IXWMQOLASA-N linoleic acid Natural products CCCCC\C=C/C\C=C\CCCCCCCC(O)=O OYHQOLUKZRVURQ-IXWMQOLASA-N 0.000 description 1
- 235000020778 linoleic acid Nutrition 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 150000004701 malic acid derivatives Chemical class 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 230000006371 metabolic abnormality Effects 0.000 description 1
- 230000004066 metabolic change Effects 0.000 description 1
- 208000030159 metabolic disease Diseases 0.000 description 1
- 238000002705 metabolomic analysis Methods 0.000 description 1
- 230000001431 metabolomic effect Effects 0.000 description 1
- 229930182817 methionine Natural products 0.000 description 1
- 229960005192 methoxamine Drugs 0.000 description 1
- 229960004269 methoxamine hydrochloride Drugs 0.000 description 1
- CAAULPUQFIIOTL-UHFFFAOYSA-N methyl dihydrogen phosphate Chemical compound COP(O)(O)=O CAAULPUQFIIOTL-UHFFFAOYSA-N 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 150000005480 nicotinamides Chemical class 0.000 description 1
- QIQXTHQIDYTFRH-UHFFFAOYSA-N octadecanoic acid Chemical compound CCCCCCCCCCCCCCCCCC(O)=O QIQXTHQIDYTFRH-UHFFFAOYSA-N 0.000 description 1
- OQCDKBAXFALNLD-UHFFFAOYSA-N octadecanoic acid Natural products CCCCCCCC(C)CCCCCCCCC(O)=O OQCDKBAXFALNLD-UHFFFAOYSA-N 0.000 description 1
- ZQPPMHVWECSIRJ-KTKRTIGZSA-N oleic acid Chemical compound CCCCCCCC\C=C/CCCCCCCC(O)=O ZQPPMHVWECSIRJ-KTKRTIGZSA-N 0.000 description 1
- 229960003104 ornithine Drugs 0.000 description 1
- 235000006408 oxalic acid Nutrition 0.000 description 1
- 150000002942 palmitic acid derivatives Chemical class 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- COLNVLDHVKWLRT-UHFFFAOYSA-N phenylalanine Natural products OC(=O)C(N)CC1=CC=CC=C1 COLNVLDHVKWLRT-UHFFFAOYSA-N 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 150000004728 pyruvic acid derivatives Chemical class 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000002444 silanisation Methods 0.000 description 1
- 238000006884 silylation reaction Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000001384 succinic acid Substances 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 229910021642 ultra pure water Inorganic materials 0.000 description 1
- 239000012498 ultrapure water Substances 0.000 description 1
- 229940116269 uric acid Drugs 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 150000003772 α-tocopherols Chemical class 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
- G01N30/12—Preparation by evaporation
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
- G01N30/7206—Mass spectrometers interfaced to gas chromatograph
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8675—Evaluation, i.e. decoding of the signal into analytical information
- G01N30/8686—Fingerprinting, e.g. without prior knowledge of the sample components
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/86—Signal analysis
- G01N30/8696—Details of Software
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N2030/042—Standards
- G01N2030/047—Standards external
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/04—Preparation or injection of sample to be analysed
- G01N30/06—Preparation
- G01N2030/067—Preparation by reaction, e.g. derivatising the sample
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioethics (AREA)
- Biophysics (AREA)
- Primary Health Care (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用。本发明通过运用血浆代谢组学技术和人工智能数据分析技术,确定适用于早期肺腺癌辅助诊断的生物标志物和早期肺癌辅助诊断模型。本发明的生物标志物筛选方法操作性强,模型构建方法简便,所获得的诊断模型效果优秀,灵敏度高,特异性优良,适用于肺腺癌的早期辅助诊断。本发明只需通过取血检测即可完成诊断,无需额外的组织样本采集,也无需CT影像学数据辅助判断,极大地降低了创伤和辐射风险。本发明能够有效替代现有的组织活检和影像学诊断方式,且诊断过程简洁迅速,有利于肺腺癌的早期发现和及时治疗,具有很高的临床应用和推广价值。
Description
技术领域
本发明属于临床检验诊断领域,具体涉及基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用。
背景技术
肺腺癌患者的生存率主要取决于诊断时的肿瘤分期,晚期肺腺癌患者(III-IV期)的五年生存率长期低于 15%,而早期肺腺癌的五年生存率则超过 60%。鉴于晚期肺腺癌治疗的困难,提高早期病例的有效诊断和治疗可能是改善预后的最有希望途径。CT 技术的临床应用能够显著提高肺结节的检测率,降低肺癌死亡率。然而,CT 技术的应用受到其高假阳性率、辐射暴露以及高成本的限制。因此,寻找稳定、可重复且非侵入性的生物标志物,以建立一种有效的早期肺腺癌检测方法和高危人群筛查方法,是一项重要的临床挑战。
代谢组学是基因组学、转录组学和蛋白组学之后发展起来的一门学科。与其他组学不同,代谢组学是通过考察生物体系(细胞、组织或生物体)受到刺激或扰动后(如将某个特定的基因变异或环境改变后),其代谢产物的变化或其随时间的变化,来研究生物体系的一门学科。代谢组是基因组和蛋白质组的下游产物也是最终产物,是一些参与生物体新陈代谢、维持生物体正常功能和生长发育的小分子化合物的集合,主要是相对分子质量小于1000的内源性小分子。基因组的变化不一定能够得到表达,蛋白质的变化可能由于基因或其他蛋白质的功能补偿作用而使得最后反应的净结果为零。而小分子的产生和代谢才是这一系列事件的最终结果,它能够更准确地反映生物体系的状态。代谢组学对生物标志物评估的有着巨大潜力,已是系统生物学领域最常用的方法之一。
目前肺癌的发病机制尚未完全清楚,但吸烟和环境暴露等因素是其主要病因。因此,使用代谢组学技术寻找肺癌早期出现时的代谢物变化特征是符合其发病规律的。有研究发现,代谢异常可能在癌前病变的早期已经出现,为癌症发展提供重要信号。例如,Me4FDG可以用于鉴别非典型腺瘤性增生和早期肺腺癌。一项大规模的靶向代谢组学分析,破译了从非典型腺瘤性增生到原位腺癌、微创腺癌和浸润性腺癌的代谢轨迹,揭示了代谢紊乱在肺腺癌癌前病变的早期阶段便已出现。肺腺癌的早期,甚至是癌前病变阶段,就已经出现了代谢改变。通过监测代谢状态,可以了解肺腺癌的发生和发展,这是可行的。但这些研究大多仅选择小量样本,而且没有报告所筛选代谢物筛查/诊断肺腺癌的灵敏度和特异性,实际临床意义十分有限。因此,采用大规模临床样本进行血浆代谢组学研究,寻找灵敏度高、特异性好且安全经济的肺腺癌早期诊断血浆代谢标志物,并建立一种可靠有效的肺腺癌早期分子诊断模型仍具有重要的临床应用价值。
人工智能(Artificial Intelligence,AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,它可利用算法和统计模型,在计算机系统上执行预测和决策任务。机器学习作为人工智能的重要分支,具有高准确性、高自动化和整合电子医疗数据进行快速预测结果等特点。此外,机器学习方法还能够解决传统建模方法如逻辑回归模型无法处理的高阶非线性相互作用问题。基于人工智能/机器学习的这些优势,已经开发出各种软件系统,广泛应用于生命科学的不同领域。目前,应用代谢组学技术发现生物标志物的一个瓶颈在于其检测灵敏度高且数据特征多、数据量庞大。传统主成分分析方法会为了减少特征数量而忽略许多对区分两类样本有一定影响的特征。因此,将代谢组学技术与人工智能机器学习方法相结合,有可能更加快速、精准地找到更为有效可靠的诊断标志物。
发明内容
针对肺腺癌早期诊断方法较为有限,且缺乏有效的液体诊断方法的现状,本发明提供了一组肺腺癌早期辅助诊断标志物。该标志物对于早期肺腺癌具有较高的灵敏度和特异性,可用于肺腺癌的早期辅助诊断。这对于改善肺腺癌的预后,提高患者的生存率具有重要意义。
本发明还提供了一种肺腺癌早期辅助诊断标志物的筛选方法。通过该方法获得的标志物对于早期肺腺癌的辅助诊断具有很好的灵敏度和特异性,尤其适用于肺腺癌的早期诊断,对于肺腺癌的治疗具有重要意义。
本发明亦提供了一种肺腺癌早期诊断模型的构建方法。该模型构建方法简便,针对早期肺腺癌具有较高的灵敏度和特异性,为肺腺癌的早期诊断和及时治疗提供了有力的技术保障。
本发明的目的可以通过以下技术方案实现:
第一方面,本发明请求保护一种肺腺癌早期辅助诊断标志物,该标志物为以下 14种血浆代谢物中的至少一种:次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺。
进一步的:所述的标志物为以下(1)或(2)或(3)或(4):
(1)血浆代谢物次黄嘌呤;
(2)由5 种血浆代谢物次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸组成的组合;
(3)由 10 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸组成的组合;
(4)由14 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺组成的组合。
第二方面,本发明请求保护上述的肺腺癌早期辅助诊断标志物在制备肺腺癌早期辅助诊断产品中的应用。
第三方面,本发明请求保护检测上肺腺癌早期辅助诊断标志物的物质在制备肺腺癌早期辅助诊断产品中的应用。
进一步的:所述的物质为用于检测血浆中诊断标志物含量的物质。该物质可以为试剂、装置或仪器。
更进一步的:所述的物质为检测肺腺癌早期诊断标志物的气相色谱质谱联用仪所需仪器和/或试剂。
进一步的:所述的产品为试剂或试剂盒。
第四方面,本发明请求保护一种肺腺癌早期辅助诊断试剂盒,该试剂盒包含有用于检测上述肺腺癌早期诊断标志物的物质。所述的物质为检测肺腺癌早期辅助诊断标志物的气相色谱质谱联用仪所需仪器和/或试剂。更进一步,该试剂盒还可以包含记载有模型的载体或者负载有模型的装置。
第五方面,本发明请求保护一种肺腺癌早期辅助诊断标志物的筛选方法,该方法包含以下步骤:
(1)收集不同受试者群体的早期肺腺癌患者和健康人群的血浆样本作为分析样品;
(2)采用气相色谱质谱联用技术对每个分析样本进行代谢组学分析,得到各血浆样本的原始代谢指纹图谱;
(3)使用岛津的 GC-MS Postrun Analysis 软件对早期肺腺癌患者和健康人的血浆样本进行原始代谢指纹图谱处理,得到一个二维矩阵,其中每行为代谢物信息,每列为分析样本;此外,该软件对矩阵中的代谢物峰进行鉴定和面积积分,获得各代谢物的半定量数据,以便进行进一步的统计分析;
(4)利用数据统计软件 SPSS 对所获得的各代谢物的半定量数据进行统计分析,筛选出早期肺腺癌患者与健康对照人群之间存在差异的代谢物,接着,将不同受试者群体中所检测到的差异代谢物取交集,从而得到稳定且可靠的早期肺腺癌血浆标志物;
(5)对上述稳定可靠的早期肺腺癌血浆标志物进行ROC分析,同时对其灵敏度和特异性进行评估,最终筛选出诊断性能最佳的代谢物。
研究过程中,本发明对来自三个临床中心的 1200 例受试者的血浆样本进行了分析。其中,临床中心 1 包括 754 例受试者(415 例早期肺腺癌患者和 339 例健康对照组),临床中心 2 包括 337 例受试者(215 例早期肺腺癌患者和 122 例健康对照组),临床中心 3 包括 109 例受试者(65 例早期肺腺癌患者和 44 例健康对照组)。我们把临床中心 1 的受试者随机分为训练集(352 例早期肺腺癌患者和 229 例健康对照组)和验证集(63 例早期肺腺癌患者和 110 例健康对照组)。训练集用于筛选和分析早期肺腺癌相关的血浆代谢物,验证集用于内部验证,而临床中心 2 和临床中心 3 被设定为外部验证。我们使用气相色谱质谱联用仪(GC-MS)获取了所有样本的代谢物半定量数据。通过统计分析早期肺腺癌患者和健康受试者的代谢物数据,并在多临床中心进行验证,我们发现了适合于肺腺癌早期诊断的诊断标志物。此外,我们利用机器学习方法对检测数据进行了建模,得到了肺腺癌诊断模型。该模型能够快速诊断出是否为肺腺癌,尤其是能够诊断出早期肺腺癌,具有准确、高灵敏度和普适性等特点,具有临床应用和推广价值。
在本发明中,所述的肺腺癌患者是指 2016-2022 年间通过组织学或细胞学确诊的新发病例,排除了曾接受过手术、化疗、放疗或其他抗癌治疗的患者。此外,我们还排除了转移性肺腺癌、家族性肺癌、复发性癌症或多发性原发性肿瘤的患者。从肺腺癌患者招募期间访问同一医院健康检查中心的健康个体中随机选择无癌症对照。
本发明的诊断标志物和诊断模型能够有效地检测出无症状或症状不明显的早期肺腺癌,其方法简便、快捷且非侵入性,能够减轻受检者的痛苦和辐射暴露。这对于肺腺癌的早期诊断和治疗以及改善患者预后、提高患者生存率具有极其重要的意义。
上述筛选方法中,所述早期肺腺癌患者为经影像学检查和组织活检确认的单发肺腺癌癌变的病人。所述的健康人群为经体检无肺部病变的健康人群。
在以上的筛选方法中,使用 GC-MS 血浆代谢组学技术进行分析时,每 15 个分析样本中添加一个质量控制样品,以实时监测从样品进样预处理到分析过程中的质量控制状况。这些质量控制样品是由所有血浆样本混合而成的。
上述筛选方法中,所述分析样本和质量控制样品按以下方式进行预处理:
(1)取血浆50.0 μL,加入200.0 μL含有1, 2-13C2-肉蔻酸的甲醇溶液(5.0 μg/mL),涡旋振荡5.0 min,在4℃下以20000×g离心10.0 min;
(2)取100.0 μL上清液于GC进样瓶中,使用SpeedVac 真空浓缩仪挥干溶剂;
(3)将30.0 μL甲氧胺吡啶溶液(10.0 mg/mL)加入至浓缩的血浆样本,涡旋振荡5.0 min,室温静置 16.0 h 进行肟化;
(4)然后加入30.0 μL衍生化试剂MSTFA(含1%TMCS,v/v),涡旋振荡5.0 min,室温静置 1.0 h 进行硅烷化;
(5)最后加入30.0 μL外标溶液(甲基肉蔻酸酯庚烷溶液,15.0 μg/mL),涡旋振荡5.0 min后即可进行GC-MS检测。
上述筛选方法中,对原始代谢指纹图谱进行图谱处理是指:使用岛津的 GC-MSPostrun Analysis 软件读取原始代谢指纹图谱,进行包括保留时间校正、峰识别、峰匹配、峰对齐和对峰面积积分的处理操作,得到二维矩阵。
上述筛选方法中,对每个分析样本采用GC-MS血浆代谢组学技术进行分析时,气相色谱柱为 RTx-5MS 熔凝石英毛细管柱(0.25 mm × 30 m × 0.25 µm,Restek,PA,USA)。进样量为0.5 μL,采用分流进样模式(分流比为8:1)。氦气作为载气,流速为1.5 mL/min。采用程序升温模式:初始温度为80℃保持3.0 min,然后以20℃/min的速度升至300℃,并保持5.0 min。质谱仪的离子源温度和传输管温度均为220℃,采用电子流轰击模式, 能量为 −70 eV,电流为3.2 mA。质谱系统采用全扫描方式进行数据采集(2500 Hz), 扫描范围为 50~700 m/z, 每次运行时间为19.0 min。为减少系统误差,所有样本都是随机乱序进样。
将各色谱峰的质谱碎片、峰强度和保留时间等信息与文献和数据库(包括2017版NIST标准化合物谱库和Wiley 9标准化合物谱图库)所采集谱图中的化合物进行对照,还利用一些标准化合物来鉴定代谢物。对比测定化合物和对照标准化合物质谱图, 确定各色谱峰/化合物特征定量离子, 取得各色谱峰/化合物峰面积的半定量数据。
本发明的优选方案中,共有14种代谢物在三中心的早期肺腺癌和健康人中均有显著性差异,主要为次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺。
本发明的优选方案中,共10种代谢物在三中心的早期肺腺癌和健康人中含量变化趋势一致,包括4种含量升高的代谢物(次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸)和6种含量降低的代谢物(α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸)。
本发明的优选方案中,次黄嘌呤在三个临床中心的样本中均表现出非常好的诊断性能(临床中心1-训练集:AUC=0.93,灵敏度=0.901,特异性=0.834;临床中心1-验证集:AUC=0.94,灵敏度=0.889,特异性=0.891临床中心2:AUC=0.99,灵敏度=0.967,特异性=0.992;临床中心3:AUC=0.99,灵敏度=0.969,特异性=1.000)。
第六方面,本发明请求保护一种肺腺癌AI诊断模型的构建方法,包含以下步骤:
(1)以早期肺腺癌和健康人中含量变化趋势一致的十种代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸作为预测因子,通过基于机器学习的特征筛选过程,采用XGBoost算法构建模型并计算特征重要性评分;不断累加重要特征,形成待测模型,并评估模型的分类准确度以展示不同模型的分类效能;最后,确定相对最优的特征数和组合方式,确定相对最优的特征数和组合方式的标准为:当增加特征数时,模型准确度不再提升,所得到的血浆代谢标志物的组合即可作为适合于肺腺癌早期诊断的诊断标志物,可用于构建预测模型;
(2)根据筛选出的血浆代谢标志物组合,使用机器学习XGBoost算法构建分类模型,建模参数如下:学习率为0.3,估计器数量为800,树的最大深度为4,α为2,λ为1,得到早期肺腺癌的诊断模型;
(3)使用准确度、特异性、召回率、阳性预测值、阴性预测值、F1 分数和Kappa 系数等评估XGBoost预测模型的预测性能;
(4)与肺腺癌的临床诊断金标准TTF-1、Napsin A和CEA进行比较,对比XGBoost预测模型和这些金标准的诊断性能。
本发明的优选方案中,最终用于构建XGBoost分类模型的5种血浆代谢物为:次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸。所得的XGBoost诊断模型在训练集和验证集的ROC曲线下面积AUC值为0.994 和0.968。
本发明的优选方案中,所构建的XGBoost分类模型在三个临床中心均展现出了极为出色的预测性能。具体而言,其准确度高于 0.89,特异性和召回率均高于 0.89,阳性预测值大于 0.82,阴性预测值大于 0.86,F1 分数高于 0.86,以及 Kappa 系数大于 0.85。这些数据充分证明了该模型在多个独立中心样本中具有稳定的预测效果和较高的准确性。
本发明的优选方案中,所构建的XGBoost分类模型的诊断灵敏度优于常规肺腺癌诊断标志物CEA(XGBoost vs. CEA = 98.81% : 52.38%),TTF-1(XGBoost vs. TTF-1 =97.92% : 94.79%)和Napsin A(XGBoost vs. Napsin A = 98.15% : 92.62%)。
本发明的有益效果为:通过运用血浆代谢组学技术和人工智能数据分析技术,确定适用于早期肺腺癌诊断的生物标志物和早期肺癌诊断模型。本发明的生物标志物筛选方法操作性强,模型构建方法简便,所获得的诊断模型效果优秀,灵敏度高,特异性优良,适用于肺腺癌的早期诊断。本发明只需通过取血检测即可完成诊断,无需额外的组织样本采集,也无需 CT 影像学数据辅助判断,极大地降低了创伤和辐射风险。本发明能够有效替代现有的组织活检和影像学诊断方式,且诊断过程简洁迅速,有利于肺腺癌的早期发现和及时治疗,具有很高的临床应用和推广价值。
附图说明
图1. 肺腺癌和健康对照人群血浆样本GC-MS的总离子色谱图(TICs)。
其中,1、丙酮酸;2、乳酸;3、乙醇酸;4、丙氨酸;5、草酸;6、3-羟丁酸;7、磷酸一甲酯;8、缬氨酸;9、尿素;10、磷酸盐; 11、异亮氨酸; 12、脯氨酸; 13、甘氨酸; 14、琥珀酸;15、丝氨酸; 16、苏氨酸; 17、β-丙氨酸; 18、氨基丙二酸; 19、天门冬氨酸; 20、蛋氨酸;21、半胱氨酸; 22、鸟氨酸; 23、谷氨酸; 24、苯丙氨酸; 25、天冬酰胺; 26、外标; 27、谷氨酰胺; 28、柠檬酸; 29、内标; 30、葡萄糖; 31、酪氨酸; 32、棕榈酸; 33、尿酸; 34、亚油酸; 35、油酸; 36、十八酸; 37、胱氨酸; 38、6-磷酸果糖; 39、花生四烯酸; 40、α-生育酚;41、胆固醇。
图2. 三中心均有显著性差异的14种代谢物的韦恩图。
图3. 三中心均有显著性差异的次黄嘌呤代谢物的相对含量图。
图4. 三中心均有显著性差异的天冬氨酸代谢物的相对含量图。
图5. 三中心均有显著性差异的半胱氨酸代谢物的相对含量图。
图6. 三中心均有显著性差异的丙酮酸代谢物的相对含量图。
图7. 三中心均有显著性差异的棕榈酸代谢物的相对含量图。
图8. 三中心均有显著性差异的苹果酸代谢物的相对含量图。
图9. 三中心均有显著性差异的柠檬酸代谢物的相对含量图。
图10. 三中心均有显著性差异的胱氨酸代谢物的相对含量图。
图11. 三中心均有显著性差异的α-生育酚代谢物的相对含量图。
图12. 三中心均有显著性差异的黄嘌呤代谢物的相对含量图。
图13. 三中心均有显著性差异的天冬酰胺代谢物的相对含量图。
图14. 三中心均有显著性差异的乙醇酸代谢物的相对含量图。
图15. 三中心均有显著性差异的肌醇代谢物的相对含量图。
图16. 三中心均有显著性差异的烟酰胺代谢物的相对含量图。
图17. 次黄嘌呤在三中心样本中的ROC曲线图。
图18. 使用5个血浆代谢标志物构建的肺腺癌早期诊断模型的ROC曲线图。
具体实施方式
下面结合具体实施实例,进一步阐释本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
实施例1 肺腺癌早期辅助诊断标志物的筛选
1.研究对象
本发明对来自三个临床中心的 1200 例受试者的血浆样本进行了分析。其中,中心 1 包括 754 例受试者(415 例早期肺腺癌患者和 339 例健康对照组),中心 2 包括337 例受试者(215 例早期肺腺癌患者和 122 例健康对照组),中心 3 包括 109 例受试者(65 例早期肺腺癌患者和 44 例健康对照组)。我们把中心 1 的受试者随机分为训练集(352 例早期肺腺癌患者和 229 例健康对照组)和验证集(63 例早期肺腺癌患者和 110例健康对照组)。训练集用于筛选和分析早期肺腺癌相关的血浆代谢物,验证集用于内部验证,而中心 2 和中心 3 被设定为外部验证。
肺腺癌患者是指 2016-2022 年间通过组织学或细胞学确诊的新发病例,排除了曾接受过手术、化疗、放疗或其他抗癌治疗的患者。此外,我们还排除了转移性肺腺癌、家族性肺癌、复发性癌症或多发性原发性肿瘤的患者。从肺腺癌患者招募期间访问同一医院健康检查中心的健康个体中随机选择无癌症对照。
所述早期肺腺癌患者为经影像学检查和组织活检确认的单发肺腺癌癌变的病人。所述健康人群为经体检无肺部病变的健康人群。这些研究对象的基本信息见表1。
表1.三中心的早期肺腺癌和健康对照人群基线及病理特征
。
2. 应用GC-MS技术的血浆代谢组学分析
首先,将所有血浆样本进行离心处理,然后将其保存在 -80℃的冰箱中。在开展研究时,取出血浆样本,经过样品预处理后,运用 GC-MS 技术进行代谢组学分析。这样,我们可以得到各血浆样本中的代谢物基本信息。具体的操作步骤如下。
2.1仪器和试剂
实验仪器包括:高速冷冻离心机(Thermo,美国);超低温冰箱(Thermo,美国);多管涡旋混匀仪(杭州奥盛仪器有限公司);MixMate多用途混匀仪(Eppendorf,德国);SpeedVac真空浓缩仪套装(Thermo,美国); GCMS-QP2010 Ultra气质联用仪(岛津,日本)、4℃冷藏冰箱、纯水仪(Millipore)。
实验试剂包括:1, 2-13C2-肉蔻酸(99%)、盐酸甲氧胺(98%)、甲基肉蔻酸酯、吡啶(≥99.8%,GC级)、N-甲基-N-三甲基硅烷三氟乙酰胺(含1%TMCS,v/v)、色谱级甲醇、正庚烷、超纯水。
溶液配制:
(1)GC-MS用含内标甲醇溶液:称取50.0 mg 1, 2-13C2-肉蔻酸,使用甲醇定容至5.0 mL,得GC-MS内标母液(10.0 mg/mL)。实验时以甲醇为稀释溶液将GC-MS内标母液稀释成5.0 μg/mL,即得到实验所需含内标甲醇溶液。
(2)甲氧胺吡啶溶液:称取盐酸甲氧胺100.0 mg,使用吡啶定容至10.0 mL,即得实验用甲氧胺吡啶溶液(10.0 mg/mL)。
(3) GC-MS用外标溶液:称取30.0 mg 甲基肉蔻酸酯,使用庚烷定容至5.0 mL,得GC-MS外标母液(6.0 mg/mL)。实验时以庚烷为稀释溶液将GC-MS外标母液稀释成15.0 μg/mL,即得到实验所需含GC-MS用外标溶液。
2.2血浆样本预处理
取血浆50.0 μL,加入200.0 μL含有1, 2-13C2-肉蔻酸的甲醇溶液(5.0 μg/mL),涡旋振荡5.0 min,在4℃下以20000×g离心10.0 min。取100.0 μL上清液于GC进样瓶中,使用SpeedVac 真空浓缩仪挥干溶剂。将30.0 μL甲氧胺吡啶溶液(10.0 mg/mL)加入至浓缩的血浆样本,涡旋振荡5.0 min,室温静置 16.0 h 进行肟化。然后加入30.0 μL衍生化试剂MSTFA(含1%TMCS),涡旋振荡5.0 min,室温静置 1.0 h 进行硅烷化,最后加入30.0 μL外标溶液(甲基肉蔻酸酯庚烷溶液,15.0 μg/mL),涡旋振荡5.0 min后即可进行GC-MS检测。
2.3 GC-MS数据采集
气相色谱柱为 RTx-5MS 熔凝石英毛细管柱(0.25 mm × 30 m × 0.25 µm,Restek,PA,USA)。进样量为0.5 μL,采用分流进样模式(分流比为8:1)。氦气作为载气,流速为1.5 mL/min。采用程序升温模式:初始温度为80℃保持3.0 min,然后以20℃/min的速度升至300℃,并保持5.0 min。质谱仪的离子源温度和传输管温度均为220℃,采用电子流轰击模式, 能量为 −70 eV,电流为3.2 mA。质谱系统采用全扫描方式进行数据采集(2500Hz), 扫描范围为 50~700 m/z, 每次运行时间为19.0 min。质量控制样品(QC样品)由上述血浆样本混合得到,其准备过程与上述相同。为减少系统误差,所有样本都是随机乱序进样。
3. 血浆代谢标志物筛选及鉴定
按照上述色谱质谱条件对样本进行分析,获得所有样本的原始代谢指纹图谱,其中各组样本的典型总离子流色谱图(TICs)见图1。随后对原始代谢指纹图谱进行分析,以筛选能够区分早期肺腺癌患者与健康人群的生物标志物,具体操作如下。
3.1 代谢物的鉴定和积分
使用岛津的 GC-MS Postrun Analysis 软件读取原始代谢指纹图谱,将各色谱峰的质谱碎片、峰强度和保留时间等信息与文献和数据库(包括2017版NIST标准化合物谱库和Wiley 9标准化合物谱图库)所采集谱图中的化合物进行对照,还利用一些标准化合物来鉴定代谢物。对比测定化合物和对照标准化合物质谱图, 确定各色谱峰/化合物特征定量离子, 取得各色谱峰/化合物峰面积的半定量数据。
3.2 GC-MS实验质量控制
在进行 GC-MS 血浆代谢组学分析时,将制备的 QC 样品按每 15 个分析样本安排一个 QC 样品的顺序均匀地插入分析样本中。这样做的目的是为了实时监测分析样本从进样预处理到分析检测过程中的质量控制情况。经过 GC-MS Postrun Analysis 软件预处理后,计算每个代谢物在 QC 样本中的变异系数 (%RSD)。绝大多数代谢物的变异系数都控制在 30%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3早期肺腺癌血浆生物标志物的筛选
利用数据统计软件 SPSS 对上述各代谢物的半定量数据进行统计分析,筛选出早期肺腺癌患者与健康对照人群之间存在差异的代谢物。接着,将三个中心受试者中所检测到的差异代谢物取交集,从而得到稳定且可靠的早期肺腺癌血浆标志物。结果如图2~图16所示,我们发现存在14种代谢物在三个中心的样本中均表现出显著性差异(次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺),其中10种代谢物含量变化趋势一致,包括4种含量升高的代谢物(次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸)和6种含量降低的代谢物(α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸)。
对上述稳定可靠的早期肺腺癌血浆标志物进行ROC分析,以筛选出对早期肺腺癌诊断性能最佳的代谢物,同时对其灵敏度和特异性进行评估。最终筛选出诊断性能最佳的代谢物。我们筛选出次黄嘌呤适合作为早期肺腺癌的诊断标志物。结果如图17所示。次黄嘌呤在三个中心的样本中均表现出非常好的诊断性能(中心1-训练集:AUC=0.93,灵敏度=0.901,特异性=0.834;中心1-验证集:AUC=0.94,灵敏度=0.889,特异性=0.891中心2:AUC=0.99,灵敏度=0.967,特异性=0.992;中心3:AUC=0.99,灵敏度=0.969,特异性=1.000)。
实施例2 肺腺癌早期诊断模型的构建
1.研究对象和实验方法
本实施例与实施例1的研究对象、检测分析方法相同。
2.机器学习XGBoost建模与性能评估
以上述在三中心的早期肺腺癌和健康人中含量变化趋势一致的十种代谢物(次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸)为预测因子,通过基于机器学习的特征筛选过程,采用XGBoost算法构建模型并计算特征重要性评分。不断累加重要特征,形成待测模型,并评估模型的分类准确度以展示不同模型的分类效能。最后,确定相对最优的特征数和组合方式,其标准为:当增加特征数时,模型准确度不再提升。所得到的血浆代谢标志物的组合即可作为适合于肺腺癌早期诊断的诊断标志物,可用于构建预测模型。
我们对构建模型所需的变量数和模型预测准确度进行了分析,结果发现,当变量数为5时,模型的预测准确度达到最佳,并且随着变量数的增加并不会有大的改变。将各代谢物按照模型重要性排序,我们发现排名前五的代谢物分别为:次黄嘌呤、天冬氨酸、半胱氨酸、丙酮酸和棕榈酸。
根据筛选出的血浆代谢标志物组合,使用机器学习XGBoost算法构建分类模型,得到早期肺腺癌的诊断模型。构建XGBoost分类模型时,建模参数如下:学习率为0.3,估计器数量为800,树的最大深度为4,α为2,λ为1。所获模型的准确度、特异性、召回率、阳性预测值、阴性预测值、F1 分数和Kappa、灵敏度、特异度以及ROC曲线分析结果见图18和表2,所得的XGBoost诊断模型在训练集和验证集的ROC曲线下面积AUC值为0.994 和0.968。本发明的优选方案中,所构建的XGBoost分类模型在三个临床中心均展现出了极为出色的预测性能。具体而言,其准确度高于 0.89,特异性和召回率均高于 0.89,阳性预测值大于 0.82,阴性预测值大于 0.86,F1 分数高于 0.86,以及 Kappa 系数大于 0.85。这些数据充分证明了该模型在多个独立中心样本中具有稳定的预测效果和较高的准确性。
表2. 基于XGBoost算法构建的早期肺腺癌诊断模型的分类性能
。
实施例3 肺腺癌早期诊断模型与肺腺癌诊断标志物诊断性能对比
1.研究对象和实验方法
我们收集具有甲状腺转录因子-1(TTF-1)或新天冬氨酸蛋白酶 A(Napsin A)或癌胚抗原(CEA)检测结果的早期肺腺癌患者的血浆样本,采用与实施例1中相同的检测分析方法,获得每个样本中次黄嘌呤、天冬氨酸、半胱氨酸、丙酮酸和棕榈酸的半定量数据,再构建与实施例2相同的XGBoost分类模型,获得每个样本预测结果,并与TTF-1、Napsin A和CEA检测结果做比较,结果如表3所示。我们收集到288例具有TTF-1检测结果的早期肺腺癌样本,271例具有Napsin A检测结果的早期肺腺癌样本,84例具有CEA检测结果的早期肺腺癌样本。
最终,我们所构建的XGBoost分类模型的诊断灵敏度优于常规肺腺癌诊断标志物CEA(XGBoost vs. CEA = 98.81% : 52.38%),TTF-1(XGBoost vs. TTF-1 = 97.92% :94.79%)和Napsin A(XGBoost vs. Napsin A = 98.15% : 92.62%)。我们构建的预测模型显示出更高的阳性检出率、更低的假阴性率和更好的灵敏度。
表3. XGBoost分类模型与TTF-1、Napsin A和CEA诊断性能比较
。
Claims (8)
1.一种肺腺癌早期辅助诊断标志物,其特征在于:该标志物为以下(1)或(2)或(3):
(1)由5 种血浆代谢物次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸组成的组合;
(2)由 10 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸组成的组合;
(3)由14 种血浆代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸、丙酮酸、乙醇酸、天冬酰胺、肌醇和烟酰胺组成的组合。
2.权利要求1所述的肺腺癌早期辅助诊断标志物在制备肺腺癌早期辅助诊断产品中的应用。
3.检测权利要求1所述肺腺癌早期辅助诊断标志物的物质在制备肺腺癌早期辅助诊断产品中的应用。
4.根据权利要求 3所述的应用,其特征在于:所述的物质为用于检测血浆中诊断标志物含量的物质。
5.根据权利要求 4所述的应用,其特征在于:所述的物质为检测肺腺癌早期辅助诊断标志物的气相色谱质谱联用仪所需仪器和/或试剂。
6.一种肺腺癌早期辅助诊断试剂盒,其特征在于:该试剂盒包含有用于检测权利要求1中所述肺腺癌早期辅助诊断标志物的物质。
7.根据权利要求6所述的肺腺癌早期辅助诊断试剂盒,其特征在于:该试剂盒还包含记载有模型的载体或者负载有模型的装置。
8.一种肺腺癌AI诊断模型的构建方法,其特征在于:包含以下步骤:
(1)以早期肺腺癌和健康人中含量变化趋势一致的十种代谢物次黄嘌呤、天冬氨酸、黄嘌呤、胱氨酸、α-生育酚、柠檬酸、苹果酸、棕榈酸、半胱氨酸和丙酮酸作为预测因子,通过基于机器学习的特征筛选过程,采用XGBoost算法构建模型并计算特征重要性评分;不断累加重要特征,形成待测模型,并评估模型的分类准确度以展示不同模型的分类效能;最后,确定相对最优的特征数和组合方式,确定相对最优的特征数和组合方式的标准为:当增加特征数时,模型准确度不再提升,所得到的血浆代谢标志物的组合即可作为适合于肺腺癌早期诊断的诊断标志物,可用于构建预测模型;
(2)根据筛选出的血浆代谢标志物组合次黄嘌呤、天冬氨酸、棕榈酸、半胱氨酸和丙酮酸,使用机器学习XGBoost算法构建分类模型,建模参数如下:学习率为0.3,估计器数量为800,树的最大深度为4,α为2,λ为1,得到早期肺腺癌的诊断模型;
(3)使用准确度、特异性、召回率、阳性预测值、阴性预测值、F1 分数和Kappa 系数评估XGBoost预测模型的预测性能;
(4)与肺腺癌的临床诊断金标准TTF-1、Napsin A和CEA进行比较,对比XGBoost预测模型和这些金标准的诊断性能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410011452.3A CN117517532B (zh) | 2024-01-04 | 2024-01-04 | 基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410011452.3A CN117517532B (zh) | 2024-01-04 | 2024-01-04 | 基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117517532A CN117517532A (zh) | 2024-02-06 |
CN117517532B true CN117517532B (zh) | 2024-05-03 |
Family
ID=89757021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410011452.3A Active CN117517532B (zh) | 2024-01-04 | 2024-01-04 | 基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117517532B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200095159A (ko) * | 2019-01-31 | 2020-08-10 | 중앙대학교 산학협력단 | 폐암 전이 예측용 바이오마커 조성물 |
WO2022242779A1 (zh) * | 2021-05-21 | 2022-11-24 | 深圳市绘云生物科技有限公司 | 用于评估腺瘤及结直肠癌风险的生物标志物组合及其应用 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116381073A (zh) * | 2020-10-10 | 2023-07-04 | 中山大学肿瘤防治中心(中山大学附属肿瘤医院、中山大学肿瘤研究所) | 生物标志物在制备肺癌检测试剂中的用途和方法 |
-
2024
- 2024-01-04 CN CN202410011452.3A patent/CN117517532B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200095159A (ko) * | 2019-01-31 | 2020-08-10 | 중앙대학교 산학협력단 | 폐암 전이 예측용 바이오마커 조성물 |
WO2022242779A1 (zh) * | 2021-05-21 | 2022-11-24 | 深圳市绘云生物科技有限公司 | 用于评估腺瘤及结直肠癌风险的生物标志物组合及其应用 |
Also Published As
Publication number | Publication date |
---|---|
CN117517532A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109884302B (zh) | 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用 | |
Calderón-Santiago et al. | Human sweat metabolomics for lung cancer screening | |
Monteiro et al. | Metabolomics analysis for biomarker discovery: advances and challenges | |
Diamandis | Mass spectrometry as a diagnostic and a cancer biomarker discovery tool: opportunities and potential limitations | |
Wang et al. | Analytical approaches to metabolomics and applications to systems biology | |
CN108414660B (zh) | 一组与肺癌早期诊断相关的血浆代谢小分子标志物的应用 | |
CN109884300B (zh) | 结肠癌诊断标志物及其应用 | |
Kim et al. | Metabolomic screening and star pattern recognition by urinary amino acid profile analysis from bladder cancer patients | |
CN111562338B (zh) | 透明肾细胞癌代谢标志物在肾细胞癌早期筛查和诊断产品中的应用 | |
US20130023056A1 (en) | Early detection of recurrent breast cancer using metabolite profiling | |
Delgado-Povedano et al. | Recent advances in human sweat metabolomics for lung cancer screening | |
CN109307764B (zh) | 一组代谢标志物在制备胶质瘤诊断试剂盒方面的应用 | |
CN114373510A (zh) | 用于肺癌诊断或监测的代谢标志物及其筛选方法和应用 | |
CN112305121B (zh) | 代谢标志物在动脉粥样硬化性脑梗死中的应用 | |
Jain et al. | Bioanalytical methods for metabolomic profiling: detection of head and neck cancer, including oral cancer | |
CN114965801A (zh) | 代谢标志物在口腔癌诊断试剂盒制备中的应用 | |
CN117388495B (zh) | 用于诊断肺癌分期的代谢标志物的应用及试剂盒 | |
CN113567585A (zh) | 一种基于外周血的食管鳞癌筛查标志物及试剂盒 | |
CN117517532B (zh) | 基于代谢组学和人工智能技术的肺腺癌早期诊断标志物及其应用 | |
CN112183616A (zh) | 一种脑胶质瘤诊断的诊断标志物、试剂盒及筛选方法和脑胶质瘤诊断模型的构建方法 | |
Lee et al. | Experimental design in metabolomics | |
CN114047263A (zh) | 代谢标志物在制备用于诊断ais的检测试剂或检测物的用途及试剂盒 | |
CN117929567A (zh) | 一种泛肿瘤和癌胚循环代谢物标志物及其应用 | |
CN110794054A (zh) | 尿液中髓母细胞瘤的代谢标志物及其用途 | |
CN117789993B (zh) | 基于舌苔代谢物的胃癌预测模型的建立和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |