CN116413432A - 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 - Google Patents
基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 Download PDFInfo
- Publication number
- CN116413432A CN116413432A CN202310439323.XA CN202310439323A CN116413432A CN 116413432 A CN116413432 A CN 116413432A CN 202310439323 A CN202310439323 A CN 202310439323A CN 116413432 A CN116413432 A CN 116413432A
- Authority
- CN
- China
- Prior art keywords
- phosphatidylcholine
- pancreatic cancer
- phosphatidylethanolamine
- sphingomyelin
- plasma
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010061902 Pancreatic neoplasm Diseases 0.000 title claims abstract description 152
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 title claims abstract description 152
- 201000002528 pancreatic cancer Diseases 0.000 title claims abstract description 152
- 208000008443 pancreatic carcinoma Diseases 0.000 title claims abstract description 152
- 238000003745 diagnosis Methods 0.000 title claims abstract description 75
- 239000003550 marker Substances 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 title claims abstract description 40
- 230000000968 intestinal effect Effects 0.000 title claims abstract description 4
- 238000004458 analytical method Methods 0.000 claims abstract description 62
- 230000002503 metabolic effect Effects 0.000 claims abstract description 52
- 239000002207 metabolite Substances 0.000 claims abstract description 37
- 238000010801 machine learning Methods 0.000 claims abstract description 30
- 238000005516 engineering process Methods 0.000 claims abstract description 17
- 238000002705 metabolomic analysis Methods 0.000 claims abstract description 7
- 230000001431 metabolomic effect Effects 0.000 claims abstract description 7
- 244000005709 gut microbiome Species 0.000 claims abstract 7
- WTJKGGKOPKCXLL-RRHRGVEJSA-N phosphatidylcholine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCCCCCCC=CCCCCCCCC WTJKGGKOPKCXLL-RRHRGVEJSA-N 0.000 claims description 133
- RYCNUMLMNKHWPZ-SNVBAGLBSA-N 1-acetyl-sn-glycero-3-phosphocholine Chemical compound CC(=O)OC[C@@H](O)COP([O-])(=O)OCC[N+](C)(C)C RYCNUMLMNKHWPZ-SNVBAGLBSA-N 0.000 claims description 72
- JZNWSCPGTDBMEW-UHFFFAOYSA-N Glycerophosphorylethanolamin Natural products NCCOP(O)(=O)OCC(O)CO JZNWSCPGTDBMEW-UHFFFAOYSA-N 0.000 claims description 67
- 150000008104 phosphatidylethanolamines Chemical class 0.000 claims description 49
- 150000002500 ions Chemical class 0.000 claims description 37
- 238000012706 support-vector machine Methods 0.000 claims description 30
- GOMVPVRDBLLHQC-VEJNOCSESA-N 1-[(8Z,11Z,14Z,17Z)-icosatetraenoyl]-sn-glycero-3-phosphocholine Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/CCCCCCC(=O)OC[C@@H](O)COP([O-])(=O)OCC[N+](C)(C)C GOMVPVRDBLLHQC-VEJNOCSESA-N 0.000 claims description 18
- CWRILEGKIAOYKP-SSDOTTSWSA-M [(2r)-3-acetyloxy-2-hydroxypropyl] 2-aminoethyl phosphate Chemical compound CC(=O)OC[C@@H](O)COP([O-])(=O)OCCN CWRILEGKIAOYKP-SSDOTTSWSA-M 0.000 claims description 18
- 238000001819 mass spectrum Methods 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 18
- YAMUFBLWGFFICM-PTGWMXDISA-N 1-O-oleoyl-sn-glycero-3-phosphocholine Chemical compound CCCCCCCC\C=C/CCCCCCCC(=O)OC[C@@H](O)COP([O-])(=O)OCC[N+](C)(C)C YAMUFBLWGFFICM-PTGWMXDISA-N 0.000 claims description 17
- ASWBNKHCZGQVJV-HSZRJFAPSA-N 1-hexadecanoyl-sn-glycero-3-phosphocholine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@@H](O)COP([O-])(=O)OCC[N+](C)(C)C ASWBNKHCZGQVJV-HSZRJFAPSA-N 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 17
- VXUOFDJKYGDUJI-OAQYLSRUSA-N 1-myristoyl-sn-glycero-3-phosphocholine Chemical compound CCCCCCCCCCCCCC(=O)OC[C@@H](O)COP([O-])(=O)OCC[N+](C)(C)C VXUOFDJKYGDUJI-OAQYLSRUSA-N 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 14
- 230000004060 metabolic process Effects 0.000 claims description 10
- 238000013145 classification model Methods 0.000 claims description 8
- 235000014113 dietary fatty acids Nutrition 0.000 claims description 8
- 229930195729 fatty acid Natural products 0.000 claims description 8
- 239000000194 fatty acid Substances 0.000 claims description 8
- 150000003905 phosphatidylinositols Chemical class 0.000 claims description 8
- 238000001228 spectrum Methods 0.000 claims description 8
- TZCPCKNHXULUIY-RGULYWFUSA-N 1,2-distearoyl-sn-glycero-3-phosphoserine Chemical compound CCCCCCCCCCCCCCCCCC(=O)OC[C@H](COP(O)(=O)OC[C@H](N)C(O)=O)OC(=O)CCCCCCCCCCCCCCCCC TZCPCKNHXULUIY-RGULYWFUSA-N 0.000 claims description 7
- ZWZWYGMENQVNFU-UHFFFAOYSA-N Glycerophosphorylserin Natural products OC(=O)C(N)COP(O)(=O)OCC(O)CO ZWZWYGMENQVNFU-UHFFFAOYSA-N 0.000 claims description 7
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 claims description 7
- 230000006399 behavior Effects 0.000 claims description 6
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- -1 fatty acid ester Chemical class 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 101100029138 Mycobacterium tuberculosis (strain ATCC 25618 / H37Rv) PE16 gene Proteins 0.000 claims description 4
- 150000004665 fatty acids Chemical class 0.000 claims description 4
- 239000012634 fragment Substances 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 abstract description 3
- 238000000589 high-performance liquid chromatography-mass spectrometry Methods 0.000 abstract description 3
- 210000002381 plasma Anatomy 0.000 description 86
- 239000000523 sample Substances 0.000 description 53
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 30
- 230000035945 sensitivity Effects 0.000 description 23
- 238000001514 detection method Methods 0.000 description 20
- BDAGIHXWWSANSR-UHFFFAOYSA-N methanoic acid Natural products OC=O BDAGIHXWWSANSR-UHFFFAOYSA-N 0.000 description 20
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 15
- 238000010276 construction Methods 0.000 description 13
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 12
- 206010028980 Neoplasm Diseases 0.000 description 11
- 238000003908 quality control method Methods 0.000 description 11
- OSWFIVFLDKOXQC-UHFFFAOYSA-N 4-(3-methoxyphenyl)aniline Chemical compound COC1=CC=CC(C=2C=CC(N)=CC=2)=C1 OSWFIVFLDKOXQC-UHFFFAOYSA-N 0.000 description 10
- 201000011510 cancer Diseases 0.000 description 10
- 238000013399 early diagnosis Methods 0.000 description 10
- 235000019253 formic acid Nutrition 0.000 description 10
- 238000002347 injection Methods 0.000 description 9
- 239000007924 injection Substances 0.000 description 9
- 238000004949 mass spectrometry Methods 0.000 description 8
- 239000013062 quality control Sample Substances 0.000 description 8
- 208000024891 symptom Diseases 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- 238000004811 liquid chromatography Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 201000008129 pancreatic ductal adenocarcinoma Diseases 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- 108090000623 proteins and genes Proteins 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 4
- 238000007664 blowing Methods 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000010828 elution Methods 0.000 description 4
- 239000007788 liquid Substances 0.000 description 4
- 230000007170 pathology Effects 0.000 description 4
- 230000002980 postoperative effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 150000003384 small molecules Chemical class 0.000 description 4
- 230000004083 survival effect Effects 0.000 description 4
- 239000003643 water by type Substances 0.000 description 4
- 102100025475 Carcinoembryonic antigen-related cell adhesion molecule 5 Human genes 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000004807 desolvation Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000005468 ion implantation Methods 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 210000002966 serum Anatomy 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000006228 supernatant Substances 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 2
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 108700042658 GAP-43 Proteins 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerol Natural products OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 210000001015 abdomen Anatomy 0.000 description 2
- 238000009098 adjuvant therapy Methods 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 239000012472 biological sample Substances 0.000 description 2
- 238000010241 blood sampling Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 210000001808 exosome Anatomy 0.000 description 2
- 210000001035 gastrointestinal tract Anatomy 0.000 description 2
- 238000004128 high performance liquid chromatography Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 239000004816 latex Substances 0.000 description 2
- 229920000126 latex Polymers 0.000 description 2
- 230000036210 malignancy Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 102220013334 rs368367224 Human genes 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000000391 smoking effect Effects 0.000 description 2
- 239000002904 solvent Substances 0.000 description 2
- 206010000087 Abdominal pain upper Diseases 0.000 description 1
- 206010052747 Adenocarcinoma pancreas Diseases 0.000 description 1
- 108010008629 CA-125 Antigen Proteins 0.000 description 1
- 102000007269 CA-125 Antigen Human genes 0.000 description 1
- 206010006895 Cachexia Diseases 0.000 description 1
- 208000000668 Chronic Pancreatitis Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000022072 Gallbladder Neoplasms Diseases 0.000 description 1
- 208000012895 Gastric disease Diseases 0.000 description 1
- 102000010956 Glypican Human genes 0.000 description 1
- 108050001154 Glypican Proteins 0.000 description 1
- 108050007238 Glypican-1 Proteins 0.000 description 1
- 101000658574 Homo sapiens Transmembrane 4 L6 family member 1 Proteins 0.000 description 1
- 208000006083 Hypokinesia Diseases 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 206010033649 Pancreatitis chronic Diseases 0.000 description 1
- 208000005718 Stomach Neoplasms Diseases 0.000 description 1
- 108091046869 Telomeric non-coding RNA Proteins 0.000 description 1
- 102100034902 Transmembrane 4 L6 family member 1 Human genes 0.000 description 1
- 206010047700 Vomiting Diseases 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 150000001450 anions Chemical class 0.000 description 1
- 230000001093 anti-cancer Effects 0.000 description 1
- 238000011319 anticancer therapy Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 230000004709 cell invasion Effects 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 238000000701 chemical imaging Methods 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 230000001684 chronic effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 230000001447 compensatory effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 206010061428 decreased appetite Diseases 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 239000000104 diagnostic biomarker Substances 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 150000005690 diesters Chemical class 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 208000026500 emaciation Diseases 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 210000003499 exocrine gland Anatomy 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 201000010175 gallbladder cancer Diseases 0.000 description 1
- 206010017758 gastric cancer Diseases 0.000 description 1
- 235000009200 high fat diet Nutrition 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 201000002094 pancreatic adenocarcinoma Diseases 0.000 description 1
- 230000004796 pathophysiological change Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 210000005259 peripheral blood Anatomy 0.000 description 1
- 239000011886 peripheral blood Substances 0.000 description 1
- 206010036067 polydipsia Diseases 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012847 principal component analysis method Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 201000011549 stomach cancer Diseases 0.000 description 1
- 208000018556 stomach disease Diseases 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57484—Immunoassay; Biospecific binding assay; Materials therefor for cancer involving compounds serving as markers for tumor, cancer, neoplasia, e.g. cellular determinants, receptors, heat shock/stress proteins, A-protein, oligosaccharides, metabolites
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57438—Specifically defined cancers of liver, pancreas or kidney
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N2030/022—Column chromatography characterised by the kind of separation mechanism
- G01N2030/027—Liquid chromatography
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A50/00—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE in human health protection, e.g. against extreme weather
- Y02A50/30—Against vector-borne diseases, e.g. mosquito-borne, fly-borne, tick-borne or waterborne diseases whose impact is exacerbated by climate change
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Immunology (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Urology & Nephrology (AREA)
- Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Hematology (AREA)
- Theoretical Computer Science (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Medical Informatics (AREA)
- Cell Biology (AREA)
- Microbiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Food Science & Technology (AREA)
- Hospice & Palliative Care (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Oncology (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Medicinal Chemistry (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Gastroenterology & Hepatology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
Abstract
本发明公开了基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法,所述诊断标志物包含31种血浆代谢标志物的任意一种或多种的组合。本发明还提供了使用所述基于肠道菌群代谢组学的胰腺癌诊断标志物构建诊断模型的方法及其在诊断试剂盒中的应用。本发明通过高效液相色谱质谱联用技术对患者血浆进行非靶标代谢组学分析,通过人工智能数据分析技术发现胰腺癌患者与正常人群之间的差异代谢物,进一步通过靶标代谢组学分析及机器学习建模验证所述特异性差异代谢物即胰腺癌诊断标志物在胰腺癌诊断中的诊断能力。
Description
技术领域
本发明属于临床检验诊断领域,具体涉及基于代谢组学和机器学习分析技术的胰腺癌诊断标志物,所述诊断标志物的筛选方法、应用所述诊断标志物构建诊断模型的方法及所述诊断标志物在胰腺癌诊断中的应用。
背景技术
胰腺癌(pancreatic cancer)是一种恶性程度很高、诊断和治疗都很困难的消化道恶性疾病,其发病率近年来呈快速上升趋势。根据中国国家癌症中心在2019年1月发布的全国癌症统计数据,胰腺癌位居我国恶性肿瘤发病第十位,且死亡率排名第七,诊治现状不容乐观。长期吸烟、高脂饮食、体重指数超标、过量饮酒、伴发糖尿病或慢性胰腺炎等是胰腺癌的发病危险因素。近年来在肿瘤学新理念的推动下,胰腺癌的临床诊疗水平取得了明显进步,但胰腺癌作为外分泌腺发生的腺癌,恶性程度高,病程短,发展和恶化速度快,预后差,死亡率极高。患者的五年生存率极低(不足5%),被称为“癌王”。因此,若能在无症状或症状不明显的早期发现胰腺癌,及时进行针对性治疗,能够极大地提高胰腺癌病人的生存率和治愈率。
胰腺癌早期患者症状不典型,最多见的为食欲不振,伴有恶心,呕吐,消瘦,乏力,常常按其他疾病治疗,延误病情治疗。多数胰腺癌患者确诊时已是晚期。究其原因,一方面,胰腺位于人体腹部深处,若非专门做相关影像学检查,很难在早期确诊;另一方面,胰腺癌早期症状不典型,有时仅表现为轻度上腹部非特异性症状,与胃痛等症状相似,易误诊为慢性胃病。因此,开发出一种简单便捷的新型胰腺癌早期诊断方法将具有重大的临床意义和社会经济意义。
根据中国抗癌协会胰腺癌专业委员会在2018年发布的胰腺癌综合诊治指南(2018版),目前主要以糖类抗原CA19-9作为最常用的胰腺癌诊断标志物,其临床特征为:将血清CA19-9>37U/ml作为阳性指标,诊断胰腺癌的灵敏度和特异度分别达到78.2%和82.8%(Poruk KE,Gay DZ,Brown K,et al.The clinical utility of CA 19-9inpancreaticadenocarcinoma:Diagnostic and prognostic updates.Curr Mol Med,2013,13(3):340-351)。约10%的胰腺癌患者Lewis抗原阴性,CA19-9不升高,此时还需结合其他肿瘤标志物如CA125和(或)癌胚抗原(carcinoembryonic antigen,CEA)等辅助诊断(LuoG,Liu C,GuoM,et al.CA 19-9-Low&Lewis(+)pancreatic cancer:A uniquesubtype.Cancer Lett,2017,385:46-50)。虽然此标志物已在临床应用,但其特异性并不高,在消化道恶性肿瘤如胰腺癌、胆囊癌、结肠癌、胃癌、肝癌等病人中均有增高,并且其早期诊断价值不大,主要作为病情监测和预示复发的指标。此外,如外周血内microRNA、ctDNA、外泌体内Glypican-1等也具有潜在临床应用前景,但基本停留在实验室研究阶段,仍存在假阳性率高、花费多等缺点,尚待高级别循证医学证据的证实(Xu J,Cao Z,Liu W,et al.Plasma miRNAseffectively distinguish patients with pancreatic cancerfrom controls:Amulticenter study.Ann Surg.2016,263(6):1173-1179;Xu L,Li Q,XuD,et al.has-miR-141downregulates TM4SF1 to inhibit pancreatic cancer cellinvasion anmigration.Int J Oncol,2014,44(2):459-466;Melo SA,Luecke LB,KahlertC,etal.Glypican-1identifies cancer exosomes and detects earlypancreaticcancer.Nature,2015,523(7559):177-182;Cohen JD,Javed AA,Thoburn C,etal.Combined circulating tumor DNA and protein biomarker-based liquidbiopsyfor the earlier detection of pancreatic cancers.Proc Natl Acad Sci U SA,2017,114(38):10202-10207;Ma L,Tian X,Guo H,et al.Long noncoding RNAH19derived miR-675regulates cell proliferation by down-regulating E2F-1inhuman pancreatic ductal adenocarcinoma.J Cancer,2018,9(2):389-399;Li W,ZhangX,Lu X,et al.5-Hydroxymethylcytosine signatures in circulating cell-freeDNAas diagnostic biomarkers for human cancers.Cell Res,2017,27(10):1243-1257)。
代谢组学是对生物样品(如血浆、血清、尿液、粪便、唾液等)或细胞内所有小分子代谢物(如氨基酸、脂肪酸、脂质等)进行定性定量分析,并寻找代谢物与病理生理变化的相对关系的一门科学。由于生物体内的信息传递是按照DNA、mRNA、蛋白质、代谢物、细胞、组织、器官、个体的方向逐级上升的,所以可以将代谢组学看作基因组学和蛋白质组学的延伸和体现。基因组学和蛋白质组学虽然可以揭示生物体的内在差异,但得益于生物体强大的代偿机制,这些差异并不一定会导致表型差异。而小分子的产生和代谢既可反映生物体的先天内在差异,又可能体现出外来因素对生物体的干扰与影响。目前胰腺癌的发病机制尚未完全阐明,但吸烟、喝酒等外界因素及内分泌失调等内部因素均与胰腺癌的发生发展有一定关系。普遍认为胰腺癌的发生绝非单一因素作用,而可能是多种因素协同作用的结果。因此,使用代谢组学技术寻找胰腺癌早期出现时的代谢物变化特征是符合其发病规律的。
目前已有研究者利用代谢组学技术对胰腺癌进行了研究,例如Fest等(Fest J,Vijfhuizen LS,Goeman JJ,et al.Search for early pancreatic cancerbloodbiomarkers in five European prospective population biobanksusingmetabolomics.Endocrinology,2019,160(7):1731-1742)、Dutta等(Dutta P,PerezMR,Lee J,et al.Combining hyperpolarized real-time metabolic imaging andNMRspectroscopy to identify metabolic biomarkers in pancreatic cancer.2019,18(7):2826-2834)、Gaiser等(Gaiser RA,Pessia A,Ateeb Z,et al.Integratedtargetedmetabolomics and lipidomic analysis:a novel approach to classifyingearlycystic precursors to invasive pancreatic cancer.Sci Rep.2019,9(1):10208)、Tao等(Tao L,Zhou J,Yuan C,et al.Metabolomics identifies serum andexosomesmetabolite markers of pancreatic cancer.Metabolomics.2019,15(6):86)分别使用核磁共振技术(NMR)、液相色谱质谱联用技术(LC-MS)技术分析血清、胰腺囊内液(cystfluid)、外泌体样本,通过传统统计学方法如主成分分析法(PCA)对所获数据进行分析,以寻找胰腺癌相关生物标志物。但这些研究大多仅选择小量样本,使用普适性色谱方法,并且没有报告所筛选代谢物筛查/诊断胰腺癌的灵敏度和特异性,实际临床意义十分有限。因此,采用大规模临床样本进行血浆代谢组学研究,寻找灵敏度高、特异性好且安全经济的胰腺癌诊断血浆代谢标志物,并建立一种可靠有效的胰腺癌早期分子诊断模型仍具有重要的临床应用价值。
机器学习是人工智能的一个重要分支,它指代数据分析及有效模型的建立。在过去的几年,人工智能及机器学习迎来迅速发展。人工智能已经在一些生物医学应用,特别是对疾病的诊断方面展现了良好的表现,成为该领域的热门研究方向,因此也被视作未来医学发展的重要方向及辅助手段。目前应用代谢组学技术发现生物标志物的一个瓶颈即在于其检测灵敏度高且数据特征多、数据量庞大,传统主成分分析方法会为了减少特征数量而忽略许多对区分两类样本有一定影响的特征。因此将代谢组学技术与人工智能机器学习方法相结合,有可能更加快速、精准地找到更为有效可靠的诊断标志物。
发明内容
针对胰腺癌起病隐匿,早期诊断困难,尚无简便易行且有实用价值的筛查方法这一现状,本发明提供了一种适合于胰腺癌诊断的诊断标志物。该标志物对于胰腺癌具有较好的灵敏性和特异性,可用于胰腺癌诊断,对于改善胰腺癌的预后,提高胰腺癌患者的生存率具有重要意义。
本发明还提供了上述适合于胰腺癌诊断的诊断标志物的筛选方法,通过该方法所得标志物对于胰腺癌具有很好的灵敏性和特异性,尤其适合于胰腺癌的早期诊断,对于胰腺癌的治疗具有重要意义。
本发明还提供了一种胰腺癌诊断模型及诊断模型的构建方法,该模型构建方法简单,对于胰腺癌具有较高的灵敏度和特异性,为胰腺癌早诊早治提供了有效的技术支持。
本发明还提供了一种采用该诊断模型诊断胰腺癌的方法,采用本发明模型仅通过取血就能进行诊断,方便快捷无内创,对于胰腺癌灵敏度高、特异性好,具有很好的临床应用价值。
本发明还提供了一种含有上述适合于胰腺癌诊断的诊断标志物的试剂盒,可用于胰腺癌诊断
本发明对333例胰腺癌患者的血浆样本,与262例健康对照血浆样本进行分析,使用高效液相色谱质谱联用仪(LC-MS)分别获得了正负离子模式下1416个及669个小分子代谢物的指纹图谱,经过对胰腺癌患者及健康正常对照的小分子代谢物的指纹图谱进行基于机器学习支持向量机的分析与特征筛选,并结合基于质谱的优化筛选,得到适合于胰腺癌诊断的诊断标志物,针对这些诊断标志物进行靶向代谢组方法的建立,并利用机器学习对检测数据构建模型,得到胰腺癌诊断模型,利用该模型可以快速的诊断出是否为胰腺癌,尤其是可以诊断出早期胰腺癌,具有准确、高灵敏度、普适性强,具有临床使用和推广价值。
本发明中,所述胰腺癌患者血浆是指,2016-18年间,经术后病理确诊胰腺导管腺癌患者的术前血浆。除外有其他系统恶性肿瘤,术前接受过抗癌治疗,或其他新辅助治疗。
本发明的诊断标志物和诊断模型可以将症状尚不明显的胰腺癌诊断出来,方法简便快捷并且没有内创,对于胰腺癌的早诊早治以及改善患者预后、提高患者生存率具有十分重要的意义。实现本发明的具体技术方案如下:
一种适合于胰腺癌诊断的诊断标志物,为以下31种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 16:2、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、磷脂酰胆碱PC 16:0e/18:2、磷脂酰胆碱PC 38:3e、磷脂酰胆碱PC 46:1e、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE16:0-18:2、磷脂酰乙醇胺PE 16:3e/2:0、磷脂酰乙醇胺PE 22:4e/4:0、磷脂酰乙醇胺PE22:6e/4:0、磷脂酰乙醇胺PE 26:0e/8:0、磷脂酰乙醇胺PE 22:5e/20:3、磷脂酰丝氨酸PS18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1、甘油三酯TG 8:0-8:0-8:0、甘油三酯TG 8:0-8:0-10:0、羟脂肪酸支链脂肪酸酯FAHFA 4:0/20:4。
进一步的,上述诊断标志物可以为以下19种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1。
进一步的,上述诊断标志物可以为以下17种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1。
进一步的,上述诊断标志物可以为以下14种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE22:4、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG18:1-18:1。
本发明还提供了上述各种适合于胰腺癌诊断的诊断标志物的筛选方法,包括以下步骤:
(1)收集胰腺癌患者和健康人群的血浆样本作为分析样品;
(2)采用液相色谱质谱联用技术对每个分析样本进行非靶向代谢组学分析,得到各血浆样本的原始代谢指纹图谱;
(3)使用MS-Dial软件对胰腺癌血浆样本和健康血浆样本的原始代谢指纹图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习;
(4)使用机器学习支持向量机(support vector machine,SVM)算法学习步骤(3)的二维矩阵数据,将495例上述胰腺癌及健康对照血浆样本数据作为训练集,100例作为测试集。对训练集采用随机四折学习模型,即随机选取两种血浆的3/4样本作为训练集,1/4的样本作为交叉验证集,并随机循环迭代5000次,生成在交叉验证集上的最优分类模型。最终在100例的测试集上进行验证及分析,通过统计最终模型准确度的平均值,该SVM模型可有效对早期胰腺癌患者与健康人群的代谢组数据进行分类;
(5)根据上述得到的SVM模型,通过基于机器学习贪心算法的特征筛选,借助SVM建模的特征重要性评分并不断累加对分类性能提高有益的新特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
(7)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于胰腺癌诊断的血浆代谢标志物。不同血浆代谢标志物的组合即可作为适合于胰腺癌诊断的诊断标志物。
上述筛选方法中,所述胰腺癌患者为经术后病理确诊的胰腺导管腺癌患者,并未接受新辅助治疗,并无其他系统肿瘤。
上述筛选方法中,所述健康人群为经体检无胰腺病变的健康人群。
上述筛选方法中,进行LC-MS血浆非靶向代谢组学技术分析时,每20个分析样本中加入一个质量控制样品,用于实时监测分析样本从进样预处理到分析过程中的质量控制情况,所述质量控制样品为333份早期胰腺癌血浆样本和262份健康血浆样本的混合样品。
上述筛选方法中,所述分析样本和质量控制样品在进样前进行以下预处理:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入150μl甲醇提取,振摇5分钟以沉淀蛋白;
(3)然后在高速离心机中于4℃下以12000转/分离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
上述筛选方法中,对原始代谢指纹图谱进行图谱处理是指:用MS-Dial软件读取原始代谢指纹图谱,进行包括保留时间校正、峰识别、峰匹配和峰对齐的处理操作,得到二维矩阵。
上述筛选方法中,对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时,液相色谱使用的色谱柱为Waters XSelect CSH C18色谱柱,规格为100×4.6mm,3.5μm;进样温度为4℃,进样体积为10μL;色谱流动相包含两种溶剂A和B,A为0.1%甲酸、乙腈60%、水40%溶液;B为0.1%甲酸、乙腈10%、异丙醇90%溶液;色谱梯度洗脱条件为:0分钟为40%B,2分钟升至43%B,2.1分钟迅速升至50%B,2.1-12分钟为50%B-60%B逐渐递增,12.1分钟迅速升至75%B,12.1-18分钟为75%B至99%B逐渐递增,18-19分钟为保持99%B,19-20分钟迅速减为40%B,然后40%B持续5分钟;流速为0.5ml/min。
上述筛选方法中,对每个分析样本采用LC-MS血浆非靶向代谢组学技术进行分析时,质谱检测使用四极杆-静电场轨道阱质谱仪Q-Exactive,并采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3kV和-3kV,锥孔电压均为0V;图谱数据采集的质荷比范围为200~1200m/z,采集的模式为数据依赖模式(DDA)。
本发明的优选方案中,筛选时所用的胰腺癌患者为333人,健康人群262人。
本发明的优选方案中,构建SVM分类模型时,对训练集采用随机四折学习模型,建模参数C=5。
本发明的优选方案中,筛选过程中SVM建模随机循环迭代5000次,最终模型准确度的平均值大于0.9。
本发明还提供了一种胰腺癌诊断模型的构建方法,包括以下步骤:
(1)收集胰腺癌患者和健康人群的血浆样本作为分析样品;
(2)采用液相色谱质谱联用技术对每个分析样本进行靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱;
(3)使用MS-Dial软件对胰腺癌血浆样本和健康血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
(4)根据该诊断标志物二维矩阵,使用机器学习SVM构建分类模型,得到胰腺癌诊断模型。
上述构建方法中,所述胰腺癌患者是经术后病理确诊的胰腺导管腺癌患者,并未接受新辅助治疗,并无其他系统肿瘤。
上述构建方法中,步骤(2)中所述的靶向代谢组学分析是指对按照本发明诊断标志物的筛选方法筛选得到的能够作为诊断标志物的代谢物进行靶向检测。
上述构建方法中,对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时,液相色谱使用的色谱柱为Waters XSelect CSH C18色谱柱,规格为100×4.6mm,3.5μm;进样温度为4℃,进样体积为10μL;色谱流动相包含两种溶剂A和B,A为0.1wt%甲酸、乙腈60%、水40%溶液;B为0.1wt%甲酸、乙腈10%、异丙醇90%溶液;色谱梯度洗脱条件为:0-l分钟为40%B,1-5分钟为40%B-50%B逐渐递增,5-15分钟为50%B至100%B逐渐递增,15-18分钟为保持100%B,18-19分钟迅速减为40%B,然后40%B持续5分钟;流速为0.5ml/min。
上述构建方法中,对每个分析样本采用LC-MS血浆靶向代谢组学技术进行分析时,质谱检测使用四极杆-静电场轨道阱质谱仪Q-Exactive,并采用电喷雾离子源的正离子模式ESI+,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;毛细管电压为+3kV,锥孔电压为0V;采集模式为平行反应监测模式(PRM)。
本发明的优选方案中,模型构建时,是基于以下的样本数目构建的:所用的胰腺癌患者333人,健康人群262人。
本发明的优选方案中,构建SVM分类模型时,建模参数C=15。
本发明的优选方案中,当适合于胰腺癌诊断的诊断标志物为19种血浆代谢标志物的组合(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)时,所得的诊断模型的ROC曲线下面积AUC值可达0.9657。
本发明还提供了一种胰腺癌诊断模型,该诊断模型按照上述胰腺癌诊断模型的构建方法构建而得。同上,在本发明优选方案中,当诊断模型所用的诊断标志物为19种血浆代谢标志物的组合(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)时,诊断模型的ROC曲线下面积AUC值可达0.9657。
本发明的优点是采用血浆代谢组学技术以及人工智能数据分析技术得到适合于胰腺癌诊断的诊断标志物和胰腺癌诊断模型。本发明诊断标志物筛选方法可操作性强,模型构建方法简单,所得诊断模型效果良好,灵敏度高,特异性好,适合于胰腺癌的诊断,特别是症状不明显的早期胰腺癌的诊断。本发明仅通过取血检测就能实现诊断,无需额外采集组织样本,能够很好地替代现有血液检测及影像学诊断模式,并且本发明诊断简单快速,有利于胰腺癌的早诊早治,具有很好的临床使用和推广价值。
附图说明
图1.原始代谢指纹图谱的总离子色谱图(TICs),其中ESI+为正离子模式,ESI-为负离子模式,横轴为保留时间,纵轴为代谢物相对浓度。
图2.机器学习支持向量机(SVM)分类模型图,其中specificity为特异度,sensitivity为灵敏度,accuracy为准确度,training为训练集,validation为交叉验证集,test为测试集。
图3.SVM模型的特征选择得分图,其中横轴为特征数目,纵轴为准确度,training为训练集,validation为交叉验证集,test为测试集。
图4.靶向代谢组图谱的典型选择离子色谱图(EIC),其中横轴为保留时间,纵轴为代谢物响应强度。
图5.使用19个血浆代谢标志物构建的胰腺癌早期诊断模型的ROC曲线图,其中Training set为训练集结果,Test set为测试集结果。
具体实施方式
下面结合具体实施实例,进一步阐释本发明,本发明的实施例仅用于解释本发明,并不意味着限制本发明的保护范围。
实施例1:胰腺癌诊断标志物的筛选
1.研究对象
本研究共包含来自于4个独立医学中心的333例胰腺癌患者血浆样本以及262例体检正常的健康对照血浆样本。其中胰腺癌的诊断标准是经术后病理确诊的胰腺导管腺癌。
2.应用液相色谱质谱联用技术的血浆非靶向代谢组学分析
所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本,经样品预处理后,使用高效液相色谱质谱联用仪进行代谢组学分析,获得包含色谱和质谱信息的样本原始代谢指纹图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(U3000/QEaxctive,Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters Xselect CSH C18色谱柱(规格为100×4.6mm,3.5μm)、2mlEP管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、、异丙醇(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血浆样本预处理
进行血浆样本预处理之前,制备30份质量控制样品(QC)(自每份胰腺癌血浆样本和健康血浆样本中分别取出10μl进行混合然后分装)。将所有胰腺癌血浆样本和健康血浆样本与质量控制样品一起进行样品预处理,具体操作如下:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入150μl甲醇提取,振摇5分钟以沉淀蛋白;
(3)然后在高速离心机中于4℃下以12000rpm离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血浆非靶向代谢组学检测
将处理后的所有胰腺癌血浆样本和健康血浆样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔20个分析样本加入一个质量控制样品。
所用液相色谱、质谱方法如下:
流动相:A为0.1%甲酸、乙腈60%、水40%溶液,B为0.1%甲酸、乙腈10%、异丙醇90%溶液;
流速:0.5ml/min;柱温:30℃;进样体积:10μl;
色谱梯度洗脱条件:0分钟为40%B,2分钟升至43%B,2.1分钟迅速升至50%B,2.1-12分钟为50%B-60%B逐渐递增,12.1分钟迅速升至75%B,12.1-18分钟为75%B至99%B逐渐递增,18-19分钟为保持99%B,19-20分钟迅速减为40%B,然后40%B持续5分钟。
质谱方法:采用电喷雾离子源的正离子模式ESI+和负离子模式ESI-,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3kV和-3kV,锥孔电压均为0V;采集的模式为数据依赖模式(DDA);一级质谱图谱数据采集的质荷比范围为200~1200m/z,采集分辨率为35000,目标离子数目为1x10 6,最大离子注入时间为80ms;二级质谱采集分辨率为17500,目标离子数目为1x10 5,最大离子注入时间为50ms,循环次数为5次,隔离窗口为4.0m/z,碰撞能量为10、20、30。3.血浆代谢标志物筛选
按照上述色谱质谱条件对样本进行分析,获得所有样本的原始代谢指纹图谱,其中各组样本的典型总离子流色谱图(EICs)见图1。随后采用人工智能分析技术对原始代谢指纹图谱进行学习,以筛选能够区分胰腺癌患者与健康人群的生物标志物,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+和负离子ESI-下分别检测获得血浆样本的原始代谢指纹图谱后,使用Reifycs file converter软件将图谱转换为ABF格式文件,然后使用MS-Dial软件进行包括保留时间校正、峰识别、峰匹配、峰对齐、过滤噪声、数据标准化等在内的预处理。参数设置为:一级质谱质量偏差设置为0.01Da,二级质谱质量偏差设置为0.025Da,其他参数为默认值。处理后得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵。其中每个代谢物峰使用保留时间和质荷比进行定性,对其进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分。图谱预处理后,共得到正离子模式下1416个和负离子模式下669个小分子代谢物峰,可用于进一步的机器学习。
3.2LC-MS实验质量控制
进行LC-MS血浆非靶向代谢组学分析时,将制备的QC样品按每20个分析样本安排一个QC样品的顺序均匀地插入分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,所得原始代谢指纹图谱经MS-Dial软件预处理后,计算每个代谢物在QC样本中的变异系数(%RSD),绝大多数代谢物的变异系数控制在30%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模
使用机器学习支持向量机(support vector machine,SVM)算法学习图谱预处理得到的二维矩阵数据,随机将372例上述胰腺癌及健康对照血浆样本数据作为训练集trainset,123例作为交叉验证集cross-validation set,100例来源于另一中心的样本作为测试集test set,采用随机四折学习模型,并随机循环迭代5000次,生成在交叉验证集上的最优分类模型,并最终在100例的测试集上进行验证。获得的模型见图2,特异度(specificity)、灵敏度(sensitivity)和准确度(accuracy)的平均值(mean)均在0.89以上。表明该SVM模型对胰腺癌患者与健康人群的代谢组数据分类很好,可准确区分胰腺癌患者与健康人群。
3.4血浆代谢标志物筛选及鉴定
根据上述得到的SVM模型,通过基于机器学习贪心算法的特征筛选,借助SVM建模的特征重要性评分并不断累加对模型分类效能有益的新特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式的筛选,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升。我们最终选择了正离子模式下17个特征及负离子模式下14个特征作为差异代谢物。见图3,使用这31个特征单独进行模型分类即可获得50%以上的准确度,随着特征数量增加,准确度大幅上升。
随后根据这些潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库(LipidBlast)中的谱图信息进行比对,从而对代谢物进行鉴定。
根据上述鉴定方法,我们成功鉴定出31个血浆代谢标志物作为适合于胰腺癌早期诊断的诊断标志物。见表1,这些标志物是溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC16:0、溶血磷脂酰胆碱LPC 16:2、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、磷脂酰胆碱PC 16:0e/18:2、磷脂酰胆碱PC 38:3e、磷脂酰胆碱PC 46:1e、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰乙醇胺PE 16:3e/2:0、磷脂酰乙醇胺PE 22:4e/4:0、磷脂酰乙醇胺PE 22:6e/4:0、磷脂酰乙醇胺PE 26:0e/8:0、磷脂酰乙醇胺PE 22:5e/20:3、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1、甘油三酯TG8:0-8:0-8:0、甘油三酯TG 8:0-8:0-10:0、羟脂肪酸支链脂肪酸酯FAHFA 4:0/20:4。经查阅已发表文献,这31个血浆代谢标志物均为首次在胰腺癌诊断中发现,对于胰腺癌的诊断与治疗具有十分重要的意义。在使用这些血浆代谢标志物作为诊断标志物构建诊断模型和进行诊断应用时,可以将其单独使用或是组合使用。
表1.31种血浆代谢标志物
实施例2:使用19个血浆代谢标志物进行的胰腺癌诊断模型的构建
1.研究对象
本研究共包含来自于4个独立医学中心的333例胰腺癌患者血浆样本以及262例体检正常的健康对照血浆样本,与特征筛选样本(595例)同一来源。其中495例胰腺癌患者和健康对照用于训练集,100例用于测试集。其中胰腺癌的诊断标准是经影像学检查和组织活检确认存在直径小于3厘米的单发或多发胰腺癌。
2.应用液相色谱质谱联用技术的血浆靶向代谢组学分析
所有血浆样本离心后置于-80℃冰箱内保存。研究时取出血浆样本,经样品预处理后,使用高效液相色谱质谱联用仪进行靶向代谢组学分析,获得包含色谱和质谱信息的样本靶向代谢组图谱。具体操作如下:
2.1仪器和试剂
实验仪器包括:高效液相色谱质谱联用仪(U3000/QEaxctive,Thermo Fisher)、高速低温离心机(Beckman)、振动涡旋仪、离心浓缩仪、4℃冷藏冰箱、纯水仪(Millipore)。
实验耗材包括:Waters Xselect CSH C18色谱柱(规格为100×4.6mm,3.5μm)、2mlEP管、1.5ml进样瓶、300μl内插管、移液器、1000μl枪头、200μl枪头、记号笔、乳胶手套、口罩。
实验试剂包括:甲醇(Thermo Fisher,质谱级纯)、乙腈(Thermo Fisher,质谱级纯)、、异丙醇(Thermo Fisher,质谱级纯)、甲酸(Sigma)、纯水(TOC<10ppb)。
2.2血浆样本预处理
进行血浆样本预处理之前,制备30份质量控制样品(QC)(自每份胰腺癌血浆样本和健康血浆样本中分别取出10μl进行混合然后分装)。将所有胰腺癌血浆样本和健康血浆样本与质量控制样品一起进行样品预处理,具体操作如下:
(1)用移液器吸取50μl分析样本或质量控制样品,置于2.0ml EP(eppendorf)管中;
(2)加入150μl甲醇提取,振摇5分钟以沉淀蛋白;
(3)然后在高速离心机中于4℃下以12000rpm离心10分钟;
(4)将步骤(3)的上清液转移入LC-MS进样瓶中,保存在-80℃下以备LC-MS检测。
2.3血浆靶向代谢组学检测
将处理后的所有胰腺癌血浆样本和健康血浆样本作为分析样本,打乱顺序后随机化排序进样,以排除进样顺序带来的偏倚。每隔20个分析样本加入一个质量控制样品。所用液相色谱、质谱方法如下:
流动相:A为0.1%甲酸、乙腈60%、水40%溶液,B为0.1%甲酸、乙腈10%、异丙醇90%溶液;
流速:0.5ml/min;柱温:30℃;进样体积:10μl;
色谱梯度洗脱条件:0-l分钟为40%B,1-5分钟为40%B-50%B逐渐递增,5-15分钟为50%B至100%B逐渐递增,15-18分钟为保持100%B,18-19分钟迅速减为40%B,然后40%B持续5分钟。
质谱方法:采用电喷雾离子源的正离子模式ESI+,离子源温度为320℃,反吹气设置为2,脱溶剂气温为300℃,鞘气和辅气分别设置为40和10;在正离子和负离子模式下毛细管电压分别为+3kV,锥孔电压均为0V;采集模式为平行反应监测模式(PRM);采集的质荷比为表2中所列31种血浆代谢标志物的质荷比,采集分辨率为17500,目标离子数目为1x10 5,最大离子注入时间为50ms,隔离窗口为4.0m/z,碰撞能量为30。
3.诊断模型构建
按照上述色谱质谱条件对样本进行分析,获得所有样本的靶向代谢组图谱,典型选择离子色谱图(EIC)见图4。随后使用机器学习SVM学习靶向代谢组图谱数据,构建能够区分胰腺癌患者与健康人群的胰腺癌诊断模型,具体操作如下:
3.1图谱数据预处理
使用高效液相色谱质谱联用仪在正离子ESI+下检测获得血浆样本的靶向代谢组图谱后,使用Reifycs file converter软件将图谱转换为ABF格式文件,然后使用MS-Dial软件根据2.3步骤的质谱方法中采集的质荷比列表提取所有血浆代谢标志物的峰面积信息,得到每行为代谢物,每列为分析样本,中值为相应代谢物浓度的二维矩阵,以用于进一步的机器学习。
3.2LC-MS实验质量控制
进行LC-MS血浆靶向代谢组学分析时,将制备的QC样品按每20个分析样本安排一个QC样品的顺序均匀地插入分析样本中,用于实时监测分析样本从进样预处理到分析检测过程中的质量控制情况,所得靶向代谢组图谱数据经MS-Dial软件预处理后,计算每个血浆代谢标志物在QC样本中的变异系数(%RSD),所有血浆代谢标志物的变异系数控制在15%以下,说明样本在进样预处理到分析检测过程中的质量控制情况良好,所获得的代谢组学数据真实可信。
3.3机器学习SVM建模与诊断性能测试
使用机器学习支持向量机(support vector machine,SVM)算法学习图谱预处理得到的二维矩阵数据,将495例胰腺癌患者及健康对照作为训练集training set学习以构建模型,建模参数C=15,将100例胰腺癌患者及健康对照作为测试集test set进行外部验证。当学习的二维矩阵数据为19个血浆代谢标志物(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)的数据时,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及ROC曲线分析结果见图5和表2,可以看出构建的诊断模型对胰腺癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值。
表2.使用19个血浆代谢标志物构建的胰腺癌诊断模型的分类性能
实施例3:使用17个血浆代谢标志物进行的胰腺癌诊断模型的构建
本实施例与实施例2的研究对象、检测分析方法相同,仅在步骤3.3机器学习SVM建模时,使用17种血浆代谢标志物(包含溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE22:4、磷脂酰乙醇胺PE 16:0-18:2、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)的二维矩阵数据进行机器学习和建模,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表3,可以看出构建的诊断模型对早期胰腺癌具有很高的灵敏度、特异度、准确度和ROC曲线下面积AUC值。
表3.使用17个血浆代谢标志物构建的胰腺癌诊断模型的分类性能
实施例4:使用14个血浆代谢标志物进行的胰腺癌诊断模型的构建
本实施例与实施例2的研究对象、检测分析方法相同,仅在步骤3.3机器学习SVM建模时,使用14个血浆代谢标志物(包含溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PCO-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、鞘磷脂SM d18:1/18:0、鞘磷脂SM d18:2/24:1、鞘磷脂SM d18:2/24:2、甘油二酯DG 18:1-18:1)的二维矩阵数据进行机器学习和建模,所获模型的灵敏度(sensitivity)、特异度(specificity)和准确度(accuracy)以及AUC值见表4,可以看出构建的诊断模型对早期胰腺癌具有很高的灵敏度、特异度准确度和ROC曲线下面积AUC值。
表4.使用14个血浆代谢标志物构建的胰腺癌诊断模型的分类性能
根据上述实施例,基于本发明所选取的代谢标志物构建的诊断模型的各项指标大都高于0.85,AUC值更是达到0.92以上,远高于现有诊断方法。因此,本发明的代谢标志物及据其构建的诊断模型可以有效地诊断出胰腺癌,降低胰腺癌漏检率,非常有利于胰腺癌的早诊早治,对于改善胰腺癌预后,降低胰腺癌的死亡率有很大帮助,具有良好的临床使用和推广价值。
在实际应用中,可以按照本发明建模方法选取更多的样本进行建模,增加模型的准确度。
上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,基于本发明专利思想的其他实施方式也将落入本发明权利要求的保护范围内。
Claims (10)
1.一种基于肠道菌群代谢组学的胰腺癌诊断的诊断标志物,其特征在于:该标志物为以下31种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC16:2、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、磷脂酰胆碱PC16:0e/18:2、磷脂酰胆碱PC 38:3e、磷脂酰胆碱PC 46:1e、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE16:0-18:2、磷脂酰乙醇胺PE 16:3e/2:0、磷脂酰乙醇胺PE 22:4e/4:0、磷脂酰乙醇胺PE 22:6e/4:0、磷脂酰乙醇胺PE 26:0e/8:0、磷脂酰乙醇胺PE 22:5e/20:3、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG 18:1-18:1、甘油三酯TG8:0-8:0-8:0、甘油三酯TG 8:0-8:0-10:0、羟脂肪酸支链脂肪酸酯FAHFA 4:0/20:4。
2.根据权利要求1所述的诊断标志物,其特征在于:该标志物包括以下19种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG 18:1-18:1。
3.根据权利要求1或权利要求2所述的诊断标志物,其特征在于该标志物包括以下17种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC
18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE22:4、磷脂酰乙醇胺PE 16:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG 18:1-18:1。
4.根据权利要求1或权利要求2或权利要求3所述的诊断标志物,其特征在于:该标志物包括以下14种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG
18:1-18:1。
5.一种基于肠道菌群代谢组学的胰腺癌诊断标志物的筛选方法,其特征在于:包含以下步骤:
(1)收集胰腺癌患者和健康人群的血浆样本作为分析样品;
(2)采用液相色谱质谱联用技术对每个分析样本进行非靶向代谢组学分析,得到各血浆样本的原始代谢指纹图谱;
(3)使用MS-Dial软件对胰腺癌血浆样本和健康血浆样本的原始代谢指纹图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的二维矩阵;并且对二维矩阵进行包括同位素峰、加合物和碎片离子在内的代谢物峰标识及峰面积积分,用于进一步的机器学习;
(4)使用机器学习支持向量机(support vector machine,SVM)算法学习步骤(3)的二维矩阵数据,将上述胰腺癌及健康对照血浆样本数据的3/4作为训练集,1/4作为测试集,对训练集采用随机四折学习模型,即随机选取3/4样本作为训练集,1/4样本作为交叉验证集,并随机循环迭代5000次,生成在交叉验证集上的最优分类模型,最终在测试集上进行验证及分析,通过统计最终模型准确度的平均值,该SVM模型可有效对胰腺癌患者与健康人群的代谢组数据进行分类;
(5)根据上述得到的SVM模型,通过基于机器学习的特征筛序,借助SVM建模的特征重要性评分并不断累加重要特征形成待测模型,评估模型分类准确度以显示不同模型的分类效能,并最终展示相对最优特征数及组合方式,筛选最优特征数及组合方式的标准为:增加特征数时模型准确度不再上升;
(6)将上述筛选得到的最优特征即目标差异代谢物进行基于质谱的优化筛选,使用MS-Dial软件根据色谱峰型及二级质谱图数据质量筛选并获得潜在代谢标志物;
(7)根据上述潜在代谢标志物的一级和二级质谱信息,推测标志物的分子质量和分子式,并且与代谢物谱图数据库中的谱图信息进行比对,从而对代谢物进行鉴定,得到适合于胰腺癌诊断的血浆代谢标志物。
6.一种基于肠道菌群代谢组学的胰腺癌诊断模型的构建方法,其特征在于:包含以下步骤:
(2)采用液相色谱质谱联用技术对每个分析样本进行诊断标志物的靶向代谢组学分析,得到各血浆样本的靶向代谢组图谱;
(3)使用MS-Dial软件对胰腺癌血浆样本和健康血浆样本的靶向代谢组图谱进行图谱处理,得到每行为代谢物信息,每列为分析样本的标志物二维矩阵,用于进一步的机器学习;
(4)根据该诊断标志物的二维矩阵,使用机器学习SVM构建分类模型,得到胰腺癌诊断模型。
7.根据权利要求6所述的基于肠道菌群代谢组学的胰腺癌诊断模型的构建方法,其特征在于:步骤(2)中所述诊断标志物为以下31种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 16:2、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC 16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、磷脂酰胆碱PC 16:0e/18:2、磷脂酰胆碱PC 38:3e、磷脂酰胆碱PC 46:1e、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰乙醇胺PE 16:3e/2:0、磷脂酰乙醇胺PE 22:4e/4:0、磷脂酰乙醇胺PE 22:6e/4:0、磷脂酰乙醇胺PE 26:0e/8:0、磷脂酰乙醇胺PE 22:5e/20:3、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI 18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG
18:1-18:1、甘油三酯TG8:0-8:0-8:0、甘油三酯TG 8:0-8:0-10:0、羟脂肪酸支链脂肪酸酯FAHFA 4:0/20:4。
8.根据权利要求6所述的基于肠道菌群代谢组学的胰腺癌诊断模型的构建方法,其特征在于:步骤(2)中所述诊断标志物为以下19种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、磷脂酰丝氨酸PS 18:0-18:1、磷脂酰肌醇PI18:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG
18:1-18:1。
9.根据权利要求6所述的基于肠道菌群代谢组学的胰腺癌诊断模型的构建方法,其特征在于:步骤(2)中所述诊断标志物为以下17种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 14:0、溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC16:0-16:0、磷脂酰胆碱PC 16:0-18:1、磷脂酰胆碱PC 18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、磷脂酰乙醇胺PE 16:0-18:2、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG 18:1-18:1。
10.根据权利要求6所述的基于肠道菌群代谢组学的胰腺癌诊断模型的构建方法,其特征在于:步骤(2)中所述诊断标志物为以下14种血浆代谢标志物的任意一种或多种:溶血磷脂酰胆碱LPC 16:0、溶血磷脂酰胆碱LPC 18:1、溶血磷脂酰胆碱LPC 20:4、磷脂酰胆碱PC16:0-18:1、磷脂酰胆碱PC18:0-18:2、磷脂酰胆碱PC 18:0-20:3、磷脂酰胆碱PC 16:0-22:5、磷脂酰胆碱PC 18:0-22:5、磷脂酰胆碱PC O-16:0-18:2、溶血磷脂酰乙醇胺LPE 22:4、鞘磷脂SMd18:1/18:0、鞘磷脂SMd18:2/24:1、鞘磷脂SMd18:2/24:2、甘油二酯DG 18:1-18:1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310439323.XA CN116413432A (zh) | 2023-04-23 | 2023-04-23 | 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310439323.XA CN116413432A (zh) | 2023-04-23 | 2023-04-23 | 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116413432A true CN116413432A (zh) | 2023-07-11 |
Family
ID=87054466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310439323.XA Pending CN116413432A (zh) | 2023-04-23 | 2023-04-23 | 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116413432A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117347643A (zh) * | 2023-12-05 | 2024-01-05 | 成都泰莱生物科技有限公司 | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 |
CN117825480A (zh) * | 2023-12-27 | 2024-04-05 | 武汉大学 | 基于广靶代谢组学和机器学习的生物标志物筛选方法及其所选慢性肾病生物标志物组、应用 |
-
2023
- 2023-04-23 CN CN202310439323.XA patent/CN116413432A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117347643A (zh) * | 2023-12-05 | 2024-01-05 | 成都泰莱生物科技有限公司 | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 |
CN117347643B (zh) * | 2023-12-05 | 2024-02-06 | 成都泰莱生物科技有限公司 | 用于判断肺部结节良恶性的代谢标志物组合及其筛选方法和应用 |
CN117825480A (zh) * | 2023-12-27 | 2024-04-05 | 武汉大学 | 基于广靶代谢组学和机器学习的生物标志物筛选方法及其所选慢性肾病生物标志物组、应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110646554B (zh) | 基于代谢组学的胰腺癌诊断标志物及其筛选方法和应用 | |
CN109884302B (zh) | 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用 | |
CN108414660B (zh) | 一组与肺癌早期诊断相关的血浆代谢小分子标志物的应用 | |
CN103038644B (zh) | 用于在受试者中诊断胰腺癌的工具和方法 | |
CN116413432A (zh) | 基于肠道菌群代谢组学的胰腺癌诊断标志物及其筛选方法和应用 | |
CN105044361A (zh) | 一种适合于食管鳞状细胞癌早期诊断的诊断标记物及其筛选方法 | |
CN112151121B (zh) | 一种食管癌诊断的诊断标志物、试剂盒及筛选方法和食管癌诊断模型的构建方法 | |
CN112183616B (zh) | 一种脑胶质瘤诊断的诊断标志物、试剂盒及筛选方法和脑胶质瘤诊断模型的构建方法 | |
CN109307764B (zh) | 一组代谢标志物在制备胶质瘤诊断试剂盒方面的应用 | |
CN113406226B (zh) | 一种基于非靶向代谢组学检测gist患者血浆中伊马替尼代谢物的方法 | |
CN113567585A (zh) | 一种基于外周血的食管鳞癌筛查标志物及试剂盒 | |
CN112986441A (zh) | 一种从组织代谢轮廓筛选的肿瘤标志物及其应用和辅助诊断方法 | |
CN105044240B (zh) | 一种适合于食管鳞状细胞癌早期诊断的诊断标记物 | |
CN113484518B (zh) | 一种区分肺部疾病的诊断生物标志物 | |
CN110954607B (zh) | 用于诊断结核性胸膜炎的胸水外泌体代谢物组合、试剂盒及方法 | |
CN109444277B (zh) | 代谢标志物在制备胶质瘤诊断试剂盒方面的应用 | |
CN110954605B (zh) | 用于诊断结核性胸膜炎的胸水微颗粒代谢物组合、试剂盒及方法 | |
CN111413447A (zh) | 鹅去氧胆酸或/和牛磺酸鹅去氧胆酸在胆管癌诊断方面的应用 | |
CN105044343B (zh) | 一种食管鳞状细胞癌诊断模型的构建方法、所得诊断模型及模型的使用方法 | |
CN117388495B (zh) | 用于诊断肺癌分期的代谢标志物的应用及试剂盒 | |
CN112834652B (zh) | 急性主动脉夹层患者特异性生物标志组合物及其用途 | |
CN105044342A (zh) | 一种适合于食管癌早期诊断的诊断标记物 | |
CN117929749A (zh) | 一种结直肠癌诊断生物标志物及其应用 | |
CN118033023A (zh) | 肺癌生物标志物及其用途 | |
CN118243923A (zh) | 一种用于膀胱癌诊断或监测的尿液代谢标志物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |