CN114758719A - 一种结直肠癌预测系统及其应用 - Google Patents
一种结直肠癌预测系统及其应用 Download PDFInfo
- Publication number
- CN114758719A CN114758719A CN202210658811.5A CN202210658811A CN114758719A CN 114758719 A CN114758719 A CN 114758719A CN 202210658811 A CN202210658811 A CN 202210658811A CN 114758719 A CN114758719 A CN 114758719A
- Authority
- CN
- China
- Prior art keywords
- colorectal cancer
- acid
- biomarker
- biomarkers
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 165
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 160
- 239000000090 biomarker Substances 0.000 claims abstract description 132
- 210000002700 urine Anatomy 0.000 claims abstract description 41
- WGNAKZGUSRVWRH-UHFFFAOYSA-N p-cresol sulfate Chemical compound CC1=CC=C(OS(O)(=O)=O)C=C1 WGNAKZGUSRVWRH-UHFFFAOYSA-N 0.000 claims description 34
- IWDCLRJOBJJRNH-UHFFFAOYSA-N p-cresol Chemical compound CC1=CC=C(O)C=C1 IWDCLRJOBJJRNH-UHFFFAOYSA-N 0.000 claims description 28
- 238000001514 detection method Methods 0.000 claims description 24
- -1 5-hydroxyindole glucoside Chemical class 0.000 claims description 21
- 238000007637 random forest analysis Methods 0.000 claims description 21
- JFLIEFSWGNOPJJ-JTQLQIEISA-N N(2)-phenylacetyl-L-glutamine Chemical compound NC(=O)CC[C@@H](C(O)=O)NC(=O)CC1=CC=CC=C1 JFLIEFSWGNOPJJ-JTQLQIEISA-N 0.000 claims description 18
- KKADPXVIOXHVKN-UHFFFAOYSA-N 4-hydroxyphenylpyruvic acid Chemical compound OC(=O)C(=O)CC1=CC=C(O)C=C1 KKADPXVIOXHVKN-UHFFFAOYSA-N 0.000 claims description 17
- AEMOLEFTQBMNLQ-AQKNRBDQSA-N D-glucopyranuronic acid Chemical compound OC1O[C@H](C(O)=O)[C@@H](O)[C@H](O)[C@H]1O AEMOLEFTQBMNLQ-AQKNRBDQSA-N 0.000 claims description 17
- 229940097042 glucuronate Drugs 0.000 claims description 17
- AOKCDAVWJLOAHG-UHFFFAOYSA-N 4-(methylamino)butyric acid Chemical compound C[NH2+]CCCC([O-])=O AOKCDAVWJLOAHG-UHFFFAOYSA-N 0.000 claims description 16
- XUWHAWMETYGRKB-UHFFFAOYSA-N piperidin-2-one Chemical compound O=C1CCCCN1 XUWHAWMETYGRKB-UHFFFAOYSA-N 0.000 claims description 16
- OZQCZEAFOVHVSC-NSHDSACASA-N (2s)-4-methylsulfanyl-2-[(2-phenylacetyl)amino]butanoic acid Chemical compound CSCC[C@@H](C(O)=O)NC(=O)CC1=CC=CC=C1 OZQCZEAFOVHVSC-NSHDSACASA-N 0.000 claims description 15
- FDWFFCURSPACFQ-QMMMGPOBSA-N (2s)-2-[(2-phenylacetyl)amino]propanoic acid Chemical compound OC(=O)[C@H](C)NC(=O)CC1=CC=CC=C1 FDWFFCURSPACFQ-QMMMGPOBSA-N 0.000 claims description 14
- ZTAVORUYXADUPD-KCJUWKMLSA-N (2s,3r)-3-hydroxy-2-[(2-phenylacetyl)amino]butanoic acid Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)CC1=CC=CC=C1 ZTAVORUYXADUPD-KCJUWKMLSA-N 0.000 claims description 14
- 238000007477 logistic regression Methods 0.000 claims description 14
- QBRBSVCIHKXBNP-UHFFFAOYSA-N 2-(diaminomethylideneamino)-2,3-dimethylpentanoic acid Chemical compound CC(C(C(=O)O)(NC(=N)N)C)CC QBRBSVCIHKXBNP-UHFFFAOYSA-N 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 12
- LRFVTYWOQMYALW-UHFFFAOYSA-N 9H-xanthine Chemical compound O=C1NC(=O)NC2=C1NC=N2 LRFVTYWOQMYALW-UHFFFAOYSA-N 0.000 claims description 10
- ZCRPDIISGMDRTM-LBPRGKRZSA-N (2s)-3-(1h-imidazol-5-yl)-2-[(2-phenylacetyl)amino]propanoic acid Chemical compound C([C@@H](C(=O)O)NC(=O)CC=1C=CC=CC=1)C1=CNC=N1 ZCRPDIISGMDRTM-LBPRGKRZSA-N 0.000 claims description 9
- DTVCHTPRFHXPKU-UHFFFAOYSA-N 1h-indol-3-ol;sulfuric acid Chemical compound OS(O)(=O)=O.C1=CC=C2C(O)=CNC2=C1 DTVCHTPRFHXPKU-UHFFFAOYSA-N 0.000 claims description 9
- PTSRBZOZSRJCKX-JTQLQIEISA-N N-Phenylacetylglutamic acid Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)CC1=CC=CC=C1 PTSRBZOZSRJCKX-JTQLQIEISA-N 0.000 claims description 9
- PYUSHNKNPOHWEZ-YFKPBYRVSA-N N-formyl-L-methionine Chemical compound CSCC[C@@H](C(O)=O)NC=O PYUSHNKNPOHWEZ-YFKPBYRVSA-N 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 9
- FFOQSERFAKGHPB-UHFFFAOYSA-N 1H-indol-6-ol sulfuric acid Chemical compound S(=O)(=O)(O)O.OC1=CC=C2C=CNC2=C1 FFOQSERFAKGHPB-UHFFFAOYSA-N 0.000 claims description 8
- BVZASAZPMFMKCN-UHFFFAOYSA-N 3-(hydroxyamino)benzoic acid Chemical compound ONC1=CC=CC(C(O)=O)=C1 BVZASAZPMFMKCN-UHFFFAOYSA-N 0.000 claims description 8
- 229930182478 glucoside Natural products 0.000 claims description 8
- UYPYRKYUKCHHIB-UHFFFAOYSA-N trimethylamine N-oxide Chemical compound C[N+](C)(C)[O-] UYPYRKYUKCHHIB-UHFFFAOYSA-N 0.000 claims description 8
- DFPAKSUCGFBDDF-ZQBYOMGUSA-N [14c]-nicotinamide Chemical compound N[14C](=O)C1=CC=CN=C1 DFPAKSUCGFBDDF-ZQBYOMGUSA-N 0.000 claims description 6
- HXXOZPLLGYOEMB-UHFFFAOYSA-N n-(1-aminopentyl)acetamide Chemical compound CCCCC(N)NC(C)=O HXXOZPLLGYOEMB-UHFFFAOYSA-N 0.000 claims description 6
- 229960003966 nicotinamide Drugs 0.000 claims description 6
- 239000011570 nicotinamide Substances 0.000 claims description 6
- FNHVSHKKUKMXJJ-VIFPVBQESA-N (2s)-3-hydroxy-2-[(2-phenylacetyl)amino]propanoic acid Chemical compound OC[C@@H](C(O)=O)NC(=O)CC1=CC=CC=C1 FNHVSHKKUKMXJJ-VIFPVBQESA-N 0.000 claims description 5
- CYRKYXZJUIBBJX-UHFFFAOYSA-N N-4-hydroxyphenylacetylglutamic acid Chemical compound OC(=O)CCC(C(O)=O)NC(=O)CC1=CC=C(O)C=C1 CYRKYXZJUIBBJX-UHFFFAOYSA-N 0.000 claims description 5
- USSFUVKEHXDAPM-UHFFFAOYSA-N Nicotinamide N-oxide Chemical compound NC(=O)C1=CC=C[N+]([O-])=C1 USSFUVKEHXDAPM-UHFFFAOYSA-N 0.000 claims description 5
- PIEPQKCYPFFYMG-UHFFFAOYSA-N tris acetate Chemical compound CC(O)=O.OCC(N)(CO)CO PIEPQKCYPFFYMG-UHFFFAOYSA-N 0.000 claims description 5
- 229940075420 xanthine Drugs 0.000 claims description 5
- MQWMHIZABNPALP-UHFFFAOYSA-N CC(C1=CC=CC=C1)(NC(C)=O)S(O)(=O)=O Chemical compound CC(C1=CC=CC=C1)(NC(C)=O)S(O)(=O)=O MQWMHIZABNPALP-UHFFFAOYSA-N 0.000 claims description 4
- HZPMSKASVBBGIP-UHFFFAOYSA-N 1-[(2-phenylacetyl)amino]ethanesulfonic acid Chemical compound C1(=CC=CC=C1)CC(=O)NC(C)S(=O)(=O)O HZPMSKASVBBGIP-UHFFFAOYSA-N 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 20
- 239000002207 metabolite Substances 0.000 abstract description 17
- 238000003745 diagnosis Methods 0.000 abstract description 9
- 230000009467 reduction Effects 0.000 description 65
- 239000000523 sample Substances 0.000 description 22
- 239000003153 chemical reaction reagent Substances 0.000 description 12
- 238000011160 research Methods 0.000 description 9
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 8
- 239000004473 Threonine Substances 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 238000012216 screening Methods 0.000 description 8
- 238000001294 liquid chromatography-tandem mass spectrometry Methods 0.000 description 7
- 238000002705 metabolomic analysis Methods 0.000 description 7
- 230000001431 metabolomic effect Effects 0.000 description 7
- DFPAKSUCGFBDDF-UHFFFAOYSA-N Nicotinamide Chemical compound NC(=O)C1=CC=CN=C1 DFPAKSUCGFBDDF-UHFFFAOYSA-N 0.000 description 6
- 208000029742 colonic neoplasm Diseases 0.000 description 5
- 238000012706 support-vector machine Methods 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 239000013068 control sample Substances 0.000 description 4
- 210000002966 serum Anatomy 0.000 description 4
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 3
- 238000010811 Ultra-Performance Liquid Chromatography-Tandem Mass Spectrometry Methods 0.000 description 3
- 150000001413 amino acids Chemical group 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 230000002503 metabolic effect Effects 0.000 description 3
- 235000005152 nicotinamide Nutrition 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 239000000107 tumor biomarker Substances 0.000 description 3
- 125000003088 (fluoren-9-ylmethoxy)carbonyl group Chemical group 0.000 description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 102100024504 Bone morphogenetic protein 3 Human genes 0.000 description 2
- KHEUJAKHWLIQCV-UHFFFAOYSA-N CC(C(CC1=CC=CC=C1)=O)(N)S(O)(=O)=O Chemical compound CC(C(CC1=CC=CC=C1)=O)(N)S(O)(=O)=O KHEUJAKHWLIQCV-UHFFFAOYSA-N 0.000 description 2
- 206010064571 Gene mutation Diseases 0.000 description 2
- 101000762375 Homo sapiens Bone morphogenetic protein 3 Proteins 0.000 description 2
- 101000995332 Homo sapiens Protein NDRG4 Proteins 0.000 description 2
- 101150105104 Kras gene Proteins 0.000 description 2
- 208000015634 Rectal Neoplasms Diseases 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004949 mass spectrometry Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- QKFJKGMPGYROCL-UHFFFAOYSA-N phenyl isothiocyanate Chemical compound S=C=NC1=CC=CC=C1 QKFJKGMPGYROCL-UHFFFAOYSA-N 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 206010038038 rectal cancer Diseases 0.000 description 2
- 201000001275 rectum cancer Diseases 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- CCEKAJIANROZEO-UHFFFAOYSA-N sulfluramid Chemical group CCNS(=O)(=O)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)C(F)(F)F CCEKAJIANROZEO-UHFFFAOYSA-N 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- HSINOMROUCMIEA-FGVHQWLLSA-N (2s,4r)-4-[(3r,5s,6r,7r,8s,9s,10s,13r,14s,17r)-6-ethyl-3,7-dihydroxy-10,13-dimethyl-2,3,4,5,6,7,8,9,11,12,14,15,16,17-tetradecahydro-1h-cyclopenta[a]phenanthren-17-yl]-2-methylpentanoic acid Chemical compound C([C@@]12C)C[C@@H](O)C[C@H]1[C@@H](CC)[C@@H](O)[C@@H]1[C@@H]2CC[C@]2(C)[C@@H]([C@H](C)C[C@H](C)C(O)=O)CC[C@H]21 HSINOMROUCMIEA-FGVHQWLLSA-N 0.000 description 1
- HCQNSJKEUUTUJW-UHFFFAOYSA-N CC(C(CC1=CC=CC=C1)=O)S(O)(=O)=O Chemical compound CC(C(CC1=CC=CC=C1)=O)S(O)(=O)=O HCQNSJKEUUTUJW-UHFFFAOYSA-N 0.000 description 1
- 108010015031 Glycochenodeoxycholic Acid Proteins 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 125000002015 acyclic group Chemical group 0.000 description 1
- 150000003862 amino acid derivatives Chemical class 0.000 description 1
- 125000003277 amino group Chemical group 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003613 bile acid Substances 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000001647 drug administration Methods 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 150000008131 glucosides Chemical class 0.000 description 1
- GHCZAUBVMUEKKP-GYPHWSFCSA-N glycochenodeoxycholic acid Chemical compound C([C@H]1C[C@H]2O)[C@H](O)CC[C@]1(C)[C@@H]1[C@@H]2[C@@H]2CC[C@H]([C@@H](CCC(=O)NCC(O)=O)C)[C@@]2(C)CC1 GHCZAUBVMUEKKP-GYPHWSFCSA-N 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000004811 liquid chromatography Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000001819 mass spectrum Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
- G16B5/20—Probabilistic models
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/64—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving ketones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6806—Determination of free amino acids
- G01N33/6812—Assays for specific amino acids
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6803—General methods of protein analysis not limited to specific proteins or families of proteins
- G01N33/6806—Determination of free amino acids
- G01N33/6812—Assays for specific amino acids
- G01N33/6815—Assays for specific amino acids containing sulfur, e.g. cysteine, cystine, methionine, homocysteine
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/82—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving vitamins or their receptors
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/50—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Urology & Nephrology (AREA)
- Immunology (AREA)
- Hematology (AREA)
- Chemical & Material Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Pathology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Cell Biology (AREA)
- Analytical Chemistry (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Primary Health Care (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physiology (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
Abstract
本发明提供了一种结直肠癌预测系统及其应用,利用代谢组学的方法,通过分析结直肠癌症患者和正常人的尿液中具有显著性差异的代谢物,筛选出系列能早期预示结直肠癌发生风险的生物标志物,并从中进一步筛选出一组生物标志物构建结直肠癌的诊断模型,可用于便捷、无创、高效地预测个体是否患结直肠癌,满足临床所需。
Description
技术领域
本发明涉及医学领域,具体而言,涉及利用代谢组学筛选结直肠癌的生物标志物并用于结直肠癌的诊断,尤其涉及一种通过检测尿液样本来预测结直肠癌发生风险的预测系统及其应用。
背景技术
代谢组学(Metabolomics)是对机体中相对分子量小于1000的小分子代谢物进行定性和定量分析的一门学科。通过代谢组学分析可以反映机体的生理和病理状况,也可以区分不同个体间的差异。随着质谱技术的发展,液相色谱与质谱联用技术(LC-MS)已成为代谢组学研究中最主要的研究工具。目前,代谢组学已经广泛应用与临床诊断领域,主要是发现与疾病诊断与治疗相关的代谢标志物。
结直肠癌(CRC)在全球和我国都是最常见的恶性肿瘤之一。2018年中国癌症统计报告显示,我国结直肠癌发病率、死亡率在全部恶性肿瘤中分别位居第3位和第5位,其中新发病例37.6万,死亡病例19.1万。而根据2020年《中国结直肠癌早诊早治专家共识》,我国结直肠癌的发病率已跃居城市恶性肿瘤发病率第2位(33.17/10万),死亡率第4位(15.98/10万)。农村地区恶性肿瘤发病率(19.71/10万)和死亡率(9.68/10万)第5位。几乎全国所有肿瘤登记地区的结直肠癌发病率均在逐年上升。结直肠癌的防治经历长期基础研究和临床实践已经取得一定的进步,但总的五年生存率仍较低,原因包括缺乏有效的能早期预示CRC发生风险的生物标记物。因此提高结直肠癌总体生存率的关键还是在于早发现和早治疗。
目前,对结直肠癌的诊断主要还是基于肠镜和影像学。在癌症生物标记物的研究发现过程中,基于系统生物学的各种组学(Omics)技术也发挥着重要的作用。基于基因组学和蛋白质组学研究结果发现的生物标志物在癌症研究中已有应用,比如针对结直肠癌的KRAS基因突变及BMP3/NDRG4基因甲基化检测的基因诊断体外诊断试剂盒“KRAS基因突变及BMP3/NDRG4基因甲基化和便隐血联合检测试剂盒(PCR荧光探针法-胶体金法)”已于2020年11月9日获得国家药监局批准上市,应用于对肠镜依从性差的结直肠癌高风险人群的筛查。
近年来代谢组学研究产生的大量研究成果正越来越广泛地见诸于各种学术期刊中。2014年,Cross et al.对254例结直肠癌病人和匹配的254例无病对照人群进行了血清的代谢组学研究。从鉴定到的447个血清代谢物中没有筛选到具体确定哪些血清代谢物和直肠癌风险有直接的关联,但是一个有趣的发现是,女性群体中,胆汁酸中的甘氨鹅脱氧胆酸(glycochenodeoxycholate)的含量和直肠癌的风险呈显著正相关。在另外一个针对结直肠癌的代谢组学研究中,Long et al.首先对30例CRC患者和30例健康对照人的血清进行了非靶向的代谢组学研究。以上这些为数不多针对CRC的早期发现和预警的研究从理论上证明了通过代谢组学技术发现CRC相关代谢生物标志物的可行性。但目前已经报道的针对结直肠的代谢生物标记物所需样品类型都是血样,而针对结直肠癌风险的基因检测则需用到粪便样品,在样品收集的无创性和简易性方面都不具备优势。
因此急需找到一种能方便快捷地无创取样,并能早期预测个体是否具结直肠癌风险的生物标记物,从而能够实现更高效地评估结直肠癌风险。
发明内容
针对现有技术中存在的问题,本发明提供了一种结直肠癌检测的生物标志物,利用代谢组学的方法,通过分析结直肠癌症患者和正常人的尿液中具有显著性差异的代谢物,筛选出一系列能早期预示结直肠癌(CRC)发生风险的生物标记物,并从中进一步筛选出一组生物标志物构建结直肠癌的诊断模型,可用于便捷、无创、高效地预测个体是否患结直肠癌,满足临床所需。
一方面,本发明提供了一种生物标志物在制备预测个体是否是结直肠癌试剂中的用途,所述生物标志物选自如下的一种或多种:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、N-乙酰-戊二胺、N-甲酰甲硫氨酸、烟酰胺、烟酰胺-N-氧化物、N-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-N-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
本发明通过非靶向代谢组学研究,用UPLC-MS/MS高效液相色谱-串联质谱联用方法分析健康组和结直肠癌病人组两组尿液样品,再通过random forest、PLS-DA、差异检验和SVM四种统计学方法分别筛选在结直肠癌样品和对照样品之间有显著差异的代谢物,选取在四种统计分析方法中都被筛选到的显著差异代谢物,最终得到26个尿液代谢物,作为生物标志物,可用于高效预测个体是否结直肠癌。
在一些方式中,所述可用于预测个体是否是结直肠癌试剂的生物标志物,可以生物标志物为检测目标制备检测试剂,例如样品前处理试剂、抗原或抗体等适用于所述生物标志物检测的生物试剂及试剂盒;也可以开发成适用于所述生物标志物LC-UV或LC-MS检测的标准化试剂或试剂盒等。
在一些方式中,本发明的所述生物标志物是通过尿液样本筛选获得的,尤其适于开发成用于结直肠癌预测的尿液检测试剂或试剂盒等。
在一些方式中,当选取的生物标志物为氨基酸或氨基酸衍生物或含有氨基时,如4-羟基苯乙酰谷氨酰胺、N-乙酰-戊二胺、N-甲酰甲硫氨酸、N-甲基-4-氨基丁酸、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸,可结合PITC法或AQC法或OPA法或FMOC法等氨基酸分析法制备适用于氨基酸分析仪使用或LC-UV使用的用于检测这些生物标志物的试剂或试剂盒。
进一步地,所述检测尿液中的生物标志物为检测个体的尿液样本中生物标志物的有无或相对丰度或浓度。
在一些方式中,优选采用相对丰度来表示,所述相对丰度为高效液相色谱-串联质谱获得的检测图谱中该生物标志物的色谱峰面积。比如某个生物标志物在对照样品(未患结肠癌的个体)里测出的平均峰面积是500,在大肠癌样品里测出的平均峰面积是3000,那么就认为该生物标志物在大肠癌样本中的丰度是对照样本中的6倍。
进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、N-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
通过考察生物标志物在结直肠癌症患者和正常人的尿液中的浓度差异,根据差异的倍数进行排序,从26个生物标志物中进一步选出结直肠癌症患者和正常对照之间变化倍数最大的10个生物标志物(理论上这些变化倍数大的化合物可能会是最有效的标志物),可用于更有效地区分或预测结直肠癌的风险,或用于构建结直肠癌的诊断模型。
进一步地,所述试剂用于检测尿液中的生物标志物。
本发明从尿液筛选到结直肠癌的生物标志物,这些生物标志物在结肠癌患者和非结肠癌患者的尿液中存在显著性差异,通过收集尿液样本,即可通过检测个体尿液中这些生物标志物来预测或辅助诊断该个体是否有结直肠癌或患有结直肠癌的可能性,或者可以检测某一群体尿液中的这些生物标志物,进而将该群体分为结直肠癌组或非结直肠癌组。相对于血液和粪便,尿液收集具有无创和简便的特点,将尿液生物标志物用于制备结直肠癌的诊断试剂中或结直肠癌的诊断时会具有更大的优势和前景。
另一方面,本发明提供了一种用于预测个体是否是结直肠癌的试剂盒或芯片,该试剂盒或芯片中包括如上所述的生物标志物的检测试剂。
进一步地,所述试剂用于检测尿液中的生物标志物。
再一方面,本发明提供了一种用于预测个体是否是结直肠癌的生物标志物组合,所述生物标志物组合包括如下的生物标志物:4-羟苯基丙酮酸、二甲基胍戊酸、N-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
进一步地,所述生物标志物组合,包括如下的生物标志物:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、N-乙酰-戊二胺、N-甲酰甲硫氨酸、烟酰胺、烟酰胺-N-氧化物、N-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-N-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
再一方面,本发明提供了一种预测个体是否是结直肠癌的系统,所述系统包括数据分析模块;所述数据分析模块用于分析生物标志物的检测值,所述生物标志物为选自如下的一种或多种:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、N-乙酰-戊二胺、N-甲酰甲硫氨酸、烟酰胺、烟酰胺-N-氧化物、N-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-N-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、N-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸、3-羟氨苯甲酸、5-羟基吲哚葡糖苷、苯乙酰谷氨酸、苯乙酰组氨酸、2-哌啶酮、N-甲酰甲硫氨酸、苯乙酰氨基乙磺酸、3-羟基吲哚硫酸盐、6-羟基吲哚硫酸盐、三甲胺-N-氧化物。
进一步地,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、N-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
进一步地,所述生物标志物的检测值为检测尿液中的生物标志物的检测值。
进一步地,所述生物标志物的检测值为检测个体的尿液样本中生物标志物的有无或相对丰度或浓度。
进一步地,所述数据分析模块采用随机森林或逻辑回归方程来构建模型进行分析。
进一步地,所述数据分析模块通过将生物标志物的检测值代入逻辑回归方程,计算预测个体是否是结直肠癌的预测值,从而评估个体是否是结直肠癌。
进一步地,所述逻辑回归方程为:
z=4-羟苯基丙酮酸*0.037986+二甲基胍戊酸*0.4818-N-甲基-4-氨基丁酸*1.0077-烟酰胺*1.525-对甲酚葡萄糖醛酸盐*0.0353-对甲酚硫酸盐*0.021798-苯乙酰丙氨酸*0.1902+苯乙酰谷氨酰胺*0.858-苯乙酰甲硫氨酸*0.118805+苯乙酰苏氨酸*0.59727+0.7486;
其中,e为自然对数之底数;p表示预测个体是否是结直肠癌的预测值。
其中,生物标志物名称代表尿液样本中相应生物标志物的相对丰度,也就是经高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。
进一步地,当P大于0.5,预测个体是结直肠癌的可能性高;当p小于0.5,预测个体是结直肠癌的可能性低。
再一方面,本发明提供了如上所述的系统用于构建预测个体是否是结直肠癌的概率值的检测模型的用途。
本发明的有益效果为:
1、筛选到26个全新的能早期预示结直肠癌(CRC)发生风险的生物标记物;
2、筛选出2、3、5、10、20、26种生物标志物构建结直肠癌的随机森林诊断模型,发现采用10种生物标志物构建结直肠癌的模型最优;
3、比较采用10种生物标志物构建的随机森林模型和逻辑回归模型,发现逻辑回归模型能进一步提高检测准确率,可用于更高效地预测个体是否患结直肠癌,AUC值达到0.957;
4、仅需通过尿液收集样本进行检测,无创且更便捷,相比通过血清或粪便样本检测,具有更大的优势和前景。
附图说明
图1为实施例1中的通过代谢组学筛选尿液中生物标志物的流程图;
图2为实施例1中的3-羟基吲哚硫酸盐的结构式;
图3为实施例1中的4-羟基苯乙酰谷氨酰胺的结构式;
图4为实施例1中的5-羟基吲哚葡糖苷的结构式;
图5为实施例1中的苯乙酰谷氨酸的结构式;
图6为实施例1中的苯乙酰组氨酸的结构式;
图7为实施例1中的苯乙酰甲硫氨酸的结构式;
图8为实施例1中的苯乙酰苏氨酸的结构式;
图9为实施例2中从26种生物标志物中的分别选择2、3、5、10、20、26种生物标志物来构建结直肠癌诊断模型的预测准确性比较示意图;
图10为实施例2中构建的预测是否结直肠癌的随机森林模型的ROC曲线;
图11为实施例2中预测是否结直肠癌的随机森林模型的分析图谱;
图12为实施例2中构建的预测是否结直肠癌的逻辑回归模型的ROC曲线;
图13为实施例2中预测是否结直肠癌的逻辑回归模型的分析图谱;
图14为实施例3中预测是否结直肠癌模型的准确性评估结果。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。本实施例中使用的试剂均为已知产品,通过购买市售产品获得。
实施例1 利用代谢组学筛选尿液中结直肠癌的生物标志物
本实施例首先通过非靶向代谢组学研究,用UPLC-MS/MS超高效液相色谱-串联质谱联用方法分析健康组和结直肠癌病人组两组尿液样品。其次,通过random forest、PLS-DA、volcano和SVM四种统计学方法分别筛选在结直肠癌样品和对照样品之间有显著差异的代谢物,选取在四种统计分析方法中都被筛选到的显著差异代谢物,最终得到26个尿液代谢物,作为生物标志物,并验证这些生物标志物在结直肠癌诊断或区分中的作用(流程图见图1)。
具体步骤如下:
1、实验方法
①样本收集
收集结直肠癌病人和对照个体(非结直肠癌个体)的尿液样品,各50例。其中,结直肠癌病人是经过肠镜检确认患有结直肠癌的个体。
②样本处理
按照1:4的比例,向尿液样品中加入甲醇,振荡3分钟混匀后,于20℃ 4000×g离心10分钟。从每个样品中取4份各100μL上清至4个样品板中,氮气吹干,加入复溶液用于后续LC-MS/MS检测。
③LC-MS/MS检测及数据处理
从LC-MS/MS检测得到的原始质谱数据提取m/z离子,搜索数据库检索鉴定代谢物,检查代谢物色谱峰积分得到峰面积,并进行数据归一化和缺失值填充,得到的数据矩阵进行后续生信分析,包括random forest(随机森林),PLS-DA(偏最小二乘法),volcano(火山图)和SVM(支持向量机)四种统计学方法,分别筛选在结直肠癌样品和对照样品之间对样本分组最有效的差异代谢物排名名单。最后,再选取在四种方法中都被筛选到的代谢物作为结直肠癌的生物标志物。
2、实验结果
通过random forest,PLS-DA,差异检验和SVM四种统计学方法分别筛选到32、41、35、52种差异代谢物,其中在四种数据分析方法中都被筛选到的代谢物有26种,即26种生物标志物,如表1所示。
表1、25种结直肠癌生物标志物
实施例2:结直肠癌预测模型
本实施例利用实施例1中筛选出的单个生物标志物或多个生物标志物的组合建立结直肠癌的预测或诊断模型。这些模型用于区分结直肠癌和非结直肠癌,或者从群体中筛选出结直肠癌患者,或者用于预测个体是否是结直肠癌患者或个体得结直肠癌的可能性,具体模型如下。
、单一生物标志物
应用R语言软件处理数据。根据结直肠癌患者和非结直肠癌人群分组,判断结直肠癌患者和非结直肠癌人群的尿液样本中26种生物标志物的浓度变化,将所有检测结果进行LASSO回归分析建立预测个体是否结直肠癌的数学模型,采用校准曲线及ROC曲线法评价回归模型效能。
分析结果证明,26种生物标志物与是否患结直肠癌具有明显相关性,分析结果如表2和表3所示。
表2、26种生物标志物与是否患结直肠癌相关性检测结果比较
表3、单一生物标志物ROC分析结果
26种生物标志物的浓度变化与是否患结直肠癌的关联性的高低,可以通过表2中的OR值、p-value等来区分,也可以通过表3的AUC值等来区分,其中OR值和AUC值最为直观和明显。OR值越高,代表患结直肠癌人群相对于非结直肠癌人群,对该指标的影响越大,指标暴露约明显。AUC值越高,表示该生物标志物越能准确区分结直肠癌人群和非结直肠癌人群。
由表2可以看出,26种生物标志物与的浓度变化与是否患结直肠癌都具有明显的关联性,其中苯乙酰谷氨酰胺的关联性最高,OR值达到2.36,其次为苯乙酰苏氨酸,OR值达到1.82。
由表3可以看出,单独采用26种生物标志物中的任意一种的浓度变化,用于区分结直肠癌人群和非结直肠癌人群,其AUC值都能达到0.63以上,都具有较高的准确性,其中AUC值最高的为苯乙酰谷氨酰胺,AUC值达到0.7876,其次为对甲酚葡萄糖醛酸盐,AUC值达到0.7836。
、多种生物标志物的组合
利用单一的生物标志物虽然也能区分结直肠癌与非结直肠癌尿液样本或进行结直肠癌的预测,但一般来说将多种生物标志物进行组合,其区分或预测的准确性更高。
但是,预测结直肠癌准确性更高的单一生物标志物,在与其他一种或多种生物标志物组合后,其在该组合中起的作用不一定越大,同时也并非生物标志物的个数越多,其组合的预测准确性(AUC值)就越高,因此还需要进行大量验证实验。
由于生物标志物的AUC和OR值偏向于评估变量在统计模型中的相对重要性,并不适合用于优选变量来构建模型,因此本实施例优选采用结直肠癌与非结直肠癌尿液样本中浓度差异倍数最高的2、3、5、10、20、26种生物标志物用于构建结直肠癌的诊断模型,26种生物标志物在结直肠癌与非结直肠癌尿液样本中的浓度差异倍数(Fold Change,FoldChange=疾病样本的表达均值除以正常样本的表达均值),由高到低进行排名,结果如表4所示。
表4、26种生物标志物在结直肠癌与非结直肠癌尿液样本中的浓度差异倍数排名
根据表4提供的26种生物标志物在结直肠癌与非结直肠癌尿液样本中的浓度差异倍数,本实施例分别选取26种生物标志物中的2、3、5、10、20、26种生物标志物,通过随机森林来构建结直肠癌的诊断模型。
其中,2种生物标志物为表4中的排名第1和第2的两种生物标志物(对甲酚硫酸盐和苯乙酰苏氨酸),构建的随机森林模型中,对甲酚硫酸盐的信息增益比(GINI系数)为25.31,平均下降精度(MeanDecreaseAccuracy)为21.17;苯乙酰苏氨酸的GINI系数为24.22,平均下降精度为16.71。
3种生物标志物为表4中的排名第1到第3的三种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的GINI系数为15.43,平均下降精度为16.37;苯乙酰苏氨酸的GINI系数为15.75,平均下降精度为15.04;N-甲基-4-氨基丁酸的GINI系数为18.33,平均下降精度为24.42。
5种生物标志物为表4中的排名第1到第5的五种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的GINI系数为7.86,平均下降精度为10.99;苯乙酰苏氨酸的GINI系数为6.39,平均下降精度为5.58;N-甲基-4-氨基丁酸的GINI系数为13.73,平均下降精度为25.36;4-羟苯基丙酮酸的GINI系数为10.43,平均下降精度为45.38;苯乙酰甲硫氨酸的GINI系数为11.05,平均下降精度为18.74。
10种生物标志物为表4中的排名第1到第10的十种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的GINI系数为3.64,平均下降精度为7.56;苯乙酰苏氨酸的GINI系数为2.46,平均下降精度为4.80;N-甲基-4-氨基丁酸的GINI系数为8.04,平均下降精度为18.60;4-羟苯基丙酮酸的GINI系数为6.25,平均下降精度为12.60;苯乙酰甲硫氨酸的GINI系数为6.26,平均下降精度为12.85;对甲酚葡萄糖醛酸盐的GINI系数为5.20,平均下降精度为11.07;烟酰胺的GINI系数为6.56,平均下降精度为12.51;苯乙酰丙氨酸的GINI系数为3.18,平均下降精度为6.30;苯乙酰谷氨酰胺的GINI系数为4.47,平均下降精度为6.83;二甲基胍戊酸的GINI系数为3.43,平均下降精度为9.16。
20种生物标志物为表4中的排名第1到第20的20种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的GINI系数为2.36,平均下降精度为6.21;苯乙酰苏氨酸的GINI系数为1.73,平均下降精度为4.02;N-甲基-4-氨基丁酸的GINI系数为5.92,平均下降精度为16.23;4-羟苯基丙酮酸的GINI系数为4.10,平均下降精度为9.28;苯乙酰甲硫氨酸的GINI系数为3.79,平均下降精度为10.13;对甲酚葡萄糖醛酸盐的GINI系数为3.77,平均下降精度为9.49;烟酰胺的GINI系数为4.67,平均下降精度为11.61;苯乙酰丙氨酸的GINI系数为2.26,平均下降精度为5.84;苯乙酰谷氨酰胺的GINI系数为2.67,平均下降精度为7.71;二甲基胍戊酸的GINI系数为2.00,平均下降精度为7.77;3-羟氨苯甲酸的GINI系数为2.03,平均下降精度为4.32;5-羟基吲哚葡糖苷的GINI系数为2.69,平均下降精度为5.66;苯乙酰谷氨酸的GINI系数为1.59,平均下降精度为4.38;苯乙酰组氨酸的GINI系数为1.62,平均下降精度为4.96;2-哌啶酮的GINI系数为1.57,平均下降精度为1.85;N-甲酰甲硫氨酸的GINI系数为1.45,平均下降精度为2.81;苯乙酰氨基乙磺酸的GINI系数为1.28,平均下降精度为0.79;3-羟基吲哚硫酸盐的GINI系数为1.41,平均下降精度为3.51;6-羟基吲哚硫酸盐的GINI系数为1.57,平均下降精度为1.93;三甲胺-N-氧化物的GINI系数为1.02,平均下降精度为2.61。
26种生物标志物为表4中的排名第1到第26的26种生物标志物,构建的随机森林模型中,对甲酚硫酸盐的GINI系数为1.69,平均下降精度为7.04;苯乙酰苏氨酸的GINI系数为1.04,平均下降精度为2.80;N-甲基-4-氨基丁酸的GINI系数为3.57,平均下降精度为12.93;4-羟苯基丙酮酸的GINI系数为2.45,平均下降精度为5.50;苯乙酰甲硫氨酸的GINI系数为2.68,平均下降精度为7.68;对甲酚葡萄糖醛酸盐的GINI系数为2.61,平均下降精度为8.31;烟酰胺的GINI系数为2.56,平均下降精度为8.02;苯乙酰丙氨酸的GINI系数为1.47,平均下降精度为4.84;苯乙酰谷氨酰胺的GINI系数为1.83,平均下降精度为5.74;二甲基胍戊酸的GINI系数为1.34,平均下降精度为3.76;3-羟氨苯甲酸的GINI系数为1.14,平均下降精度为4.11;5-羟基吲哚葡糖苷的GINI系数为1.76,平均下降精度为4.39;苯乙酰谷氨酸的GINI系数为0.88,平均下降精度为3.11;苯乙酰组氨酸的GINI系数为1.00,平均下降精度为4.79;2-哌啶酮的GINI系数为1.20,平均下降精度为1.80;N-甲酰甲硫氨酸的GINI系数为0.79,平均下降精度为2.15;苯乙酰氨基乙磺酸的GINI系数为0.58,平均下降精度为2.70;3-羟基吲哚硫酸盐的GINI系数为0.96,平均下降精度为3.64;6-羟基吲哚硫酸盐的GINI系数为0.73,平均下降精度为2.70;三甲胺-N-氧化物的GINI系数为0.74,平均下降精度为2.33;4-羟基苯乙酰谷氨酰胺的GINI系数为0.83,平均下降精度为4.61;N-乙酰-戊二胺的GINI系数为2.22,平均下降精度为7.72;三羟甲基氨基甲烷醋酸盐的GINI系数为2.48,平均下降精度为8.06;黄嘌呤的GINI系数为2.70,平均下降精度为8.67;烟酰胺-N-氧化物的GINI系数为8.21,平均下降精度为16.94;苯乙酰丝氨酸的GINI系数为2.01,平均下降精度为7.16。
分别计算如上所述的采用2、3、5、10、20、26种生物标志物构建的6种随机森林诊断模型的AUC值和95%CL置信区间,结果如图9所示。
由图9可以看出,从26种生物标志物中选择排名最靠前的两种生物标志物构建模型,其AUC值仅能达到0.922,95%CL置信区间为0.718-0.999,随着选取生物标志物的数量升高,AUC值逐渐上升,95%CL置信区间逐步缩小,当选取10种生物标志物来构建结直肠癌的诊断模型时,AUC值达到了0.935,95%CL置信区间为0.842-0.998,而当生物标志物种类数进一步上升到20或26时,AUC继续上升的空间非常有限,且置信区间变大;另外,相比20、26种生物标志物,采用10种生物标志物来构建模型,能够减少变量的个数,降低模型的复杂度。因此优选采用表4中排名最靠前的10种生物标志物来构建结直肠癌的诊断模型,不仅能达到非常好的预测准确性,而且模型更简单、便利。
以临床已知的42例结直肠癌病人和42例非结直肠癌病人作为总的数据集,检测其尿液样本的生物标志物检测值,通过10种生物标志物的random forest(随机森林)模型进行分析,分析图谱如图11所示,由图11可以看出,采用10种生物标志物构建的randomforest(随机森林)模型用于预测结直肠癌时,会存在一定的误差(当然误差是难以避免的),42例结直肠癌病人中,有37例被检出,42例非结直肠癌病人中,有5例被归到结直肠癌病人区,准确率为88%。图11可以看出当预测值P大于0.5,预测个体是结直肠癌的可能性高;当预测值p小于0.5,预测个体是结直肠癌的可能性低。
采用Fold Change排名前10的10种生物标志物,进行多因素回归分析,建立预测个体是否结直肠癌的逻辑回归评估模型:
z=4-羟苯基丙酮酸*0.037986+二甲基胍戊酸*0.4818-N-甲基-4-氨基丁酸*1.0077-烟酰胺*1.525-对甲酚葡萄糖醛酸盐*0.0353-对甲酚硫酸盐*0.021798-苯乙酰丙氨酸*0.1902+苯乙酰谷氨酰胺*0.858-苯乙酰甲硫氨酸*0.118805+苯乙酰苏氨酸*0.59727+0.7486;
其中,e为自然对数之底数;p表示预测个体是否是结直肠癌的预测值;生物标志物名称代表尿液样本中相应生物标志物的相对丰度,也就是经高效液相色谱-串联质谱获得的检测图谱中该生物标志物的峰面积。
本实施例提供的预测个体是否结直肠癌的逻辑回归模型的ROC曲线如图12所示,AUC值达到0.957,相比10种生物标志物的随机森林模型有明显提高。
采用该预测个体是否结直肠癌的逻辑回归模型,以临床已知的50例结直肠癌病人和50例非结直肠癌病人作为总的数据集进行分析,分析结果如图13和表5所示,其中
表5、预测个体是否结直肠癌模型分析结果
由图13和表5可以看出,采用10种生物标志物构建的预测个体是否结直肠癌的逻辑回归评估模型进行分析,50例结直肠癌病人中,有45例被检出,50例非结直肠癌病人中,有5例被归到结直肠癌病人区,准确率达到90%以上,准确性有所提高。
由图13也可以看出,P为0.5时可作为判断的分界点,当P大于0.5,预测个体是结直肠癌的可能性高;当p小于0.5,预测个体是结直肠癌的可能性低。
实施例3:预测是否结直肠癌模型的评估
本实施例针对实施例2构建的预测是否结直肠癌模型进行临床应用准确性评估,将上述42例结直肠癌病人和42例非结直肠癌病人作为总的数据集,从中随机抽取8例CRC病人和正常人(非CRC病人),取尿液样本,按实施例1中的样本处理方法,测定模型中10种生物标志物的相对丰度,从而通过模型计算预测值P,预测个体是否结直肠癌,结果如图14所示。
由图14可以看出,8例结直肠癌患者全部被检出,8例正常人中有一例被预测为结直肠癌,准确率为93.75%。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种预测个体是否是结直肠癌的系统,其特征在于,所述系统包括数据分析模块;所述数据分析模块用于分析生物标志物的检测值,所述生物标志物为选自如下的一种或多种:2-哌啶酮、3-羟氨苯甲酸、3-羟基吲哚硫酸盐、4-羟基苯乙酰谷氨酰胺、4-羟苯基丙酮酸、5-羟基吲哚葡糖苷、6-羟基吲哚硫酸盐、二甲基胍戊酸、N-乙酰-戊二胺、N-甲酰甲硫氨酸、烟酰胺、烟酰胺-N-氧化物、N-甲基-4-氨基丁酸、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酸、苯乙酰谷氨酰胺、苯乙酰组氨酸、苯乙酰甲硫氨酸、苯乙酰丝氨酸、苯乙酰氨基乙磺酸、苯乙酰苏氨酸、三甲胺-N-氧化物、黄嘌呤、三羟甲基氨基甲烷醋酸盐。
2.如权利要求1所述的系统,其特征在于,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、N-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸、3-羟氨苯甲酸、5-羟基吲哚葡糖苷、苯乙酰谷氨酸、苯乙酰组氨酸、2-哌啶酮、N-甲酰甲硫氨酸、苯乙酰氨基乙磺酸、3-羟基吲哚硫酸盐、6-羟基吲哚硫酸盐、三甲胺-N-氧化物。
3.如权利要求2所述的系统,其特征在于,所述生物标志物选自如下的一种或多种:4-羟苯基丙酮酸、二甲基胍戊酸、N-甲基-4-氨基丁酸、烟酰胺、对甲酚葡萄糖醛酸盐、对甲酚硫酸盐、苯乙酰丙氨酸、苯乙酰谷氨酰胺、苯乙酰甲硫氨酸、苯乙酰苏氨酸。
4.如权利要求3所述的系统,其特征在于,所述生物标志物的检测值为检测尿液中的生物标志物的检测值。
5.如权利要求4所述的系统,其特征在于,所述生物标志物的检测值为检测个体的尿液样本中生物标志物的有无或相对丰度或浓度。
6.如权利要求5所述的系统,其特征在于,所述数据分析模块采用随机森林或逻辑回归方程来构建模型进行分析。
7.如权利要求6所述的系统,其特征在于,所述数据分析模块通过将生物标志物的检测值代入逻辑回归方程,计算预测个体是否是结直肠癌的预测值,从而评估个体是否是结直肠癌。
9.如权利要求8所述的系统,其特征在于,当P大于0.5,预测个体是结直肠癌的可能性高;当p小于0.5,预测个体是结直肠癌的可能性低。
10.如权利要求1~9任一项所述的系统用于构建预测个体是否是结直肠癌的的概率值的检测模型的用途。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210658811.5A CN114758719B (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
CN202211073050.3A CN115440375A (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
US18/073,834 US20230402131A1 (en) | 2022-06-10 | 2022-12-02 | Biomarker and diagnosis system for colorectal cancer detection |
US18/656,302 US20240290431A1 (en) | 2022-06-10 | 2024-05-06 | Biomarker and diagnosis system for colorectal cancer detection |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210658811.5A CN114758719B (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211073050.3A Division CN115440375A (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114758719A true CN114758719A (zh) | 2022-07-15 |
CN114758719B CN114758719B (zh) | 2022-10-21 |
Family
ID=82336377
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211073050.3A Pending CN115440375A (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
CN202210658811.5A Active CN114758719B (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211073050.3A Pending CN115440375A (zh) | 2022-06-10 | 2022-06-10 | 一种结直肠癌预测系统及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115440375A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116519954A (zh) * | 2023-06-28 | 2023-08-01 | 杭州广科安德生物科技有限公司 | 一种结直肠癌检测模型构建方法、系统及生物标志物 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104204798A (zh) * | 2011-11-11 | 2014-12-10 | 梅塔博隆公司 | 膀胱癌的生物标志物和使用所述生物标志物的方法 |
CN107064508A (zh) * | 2017-04-21 | 2017-08-18 | 深圳大学 | 辅助结直肠癌早期诊断及预后监测的分子标志物及其应用 |
CN109557311A (zh) * | 2018-12-13 | 2019-04-02 | 中南大学湘雅医院 | 结直肠癌诊断标志物及结直肠癌的检测产品及其应用 |
US20210189499A1 (en) * | 2019-12-23 | 2021-06-24 | Metabolomic Technologies Inc. | Urinary metabolomic biomarkers for detecting colorectal cancer and polyps |
KR20210120474A (ko) * | 2020-03-27 | 2021-10-07 | 서울대학교산학협력단 | 대장암 환자에서 세툭시맙에 대한 내성 예측용 바이오마커 조성물 |
CN113711044A (zh) * | 2019-12-28 | 2021-11-26 | 中精普康(北京)医药科技有限公司 | 一种用于检测结直肠癌或腺瘤的生物标志物及其方法 |
-
2022
- 2022-06-10 CN CN202211073050.3A patent/CN115440375A/zh active Pending
- 2022-06-10 CN CN202210658811.5A patent/CN114758719B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104204798A (zh) * | 2011-11-11 | 2014-12-10 | 梅塔博隆公司 | 膀胱癌的生物标志物和使用所述生物标志物的方法 |
CN107064508A (zh) * | 2017-04-21 | 2017-08-18 | 深圳大学 | 辅助结直肠癌早期诊断及预后监测的分子标志物及其应用 |
CN109557311A (zh) * | 2018-12-13 | 2019-04-02 | 中南大学湘雅医院 | 结直肠癌诊断标志物及结直肠癌的检测产品及其应用 |
US20210189499A1 (en) * | 2019-12-23 | 2021-06-24 | Metabolomic Technologies Inc. | Urinary metabolomic biomarkers for detecting colorectal cancer and polyps |
CN113711044A (zh) * | 2019-12-28 | 2021-11-26 | 中精普康(北京)医药科技有限公司 | 一种用于检测结直肠癌或腺瘤的生物标志物及其方法 |
KR20210120474A (ko) * | 2020-03-27 | 2021-10-07 | 서울대학교산학협력단 | 대장암 환자에서 세툭시맙에 대한 내성 예측용 바이오마커 조성물 |
Non-Patent Citations (3)
Title |
---|
YU CHENG 等: "Distinct Urinary Metabolic Profile of Human Colorectal Cancer", 《J.PROTEOME RES》 * |
张昭 等: "UPLC-TOF-MS对结直肠癌代谢组学早期标志物的临床研究", 《中国肛肠病杂志》 * |
杨阳 等: "代谢组学在结直肠癌肿瘤标志物发现中的研究进展", 《药物分析杂志》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116519954A (zh) * | 2023-06-28 | 2023-08-01 | 杭州广科安德生物科技有限公司 | 一种结直肠癌检测模型构建方法、系统及生物标志物 |
CN116519954B (zh) * | 2023-06-28 | 2023-10-27 | 杭州广科安德生物科技有限公司 | 一种结直肠癌检测模型构建方法、系统及生物标志物 |
Also Published As
Publication number | Publication date |
---|---|
CN114758719B (zh) | 2022-10-21 |
CN115440375A (zh) | 2022-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2015202907B2 (en) | Pancreatic cancer biomarkers and uses thereof | |
CN106714556B (zh) | 用于测定自闭症谱系病症风险的方法和系统 | |
Adam et al. | Serum protein fingerprinting coupled with a pattern-matching algorithm distinguishes prostate cancer from benign prostate hyperplasia and healthy men | |
JP2015505965A (ja) | 腎癌のバイオマーカーおよびそれを用いる方法 | |
WO2008036691A2 (en) | Biomarkers for prostate cancer and methods using the same | |
CA3053116A1 (en) | Methods for the detection and treatment of lung cancer | |
JP2011523049A (ja) | 頭頚部癌の同定、モニタリングおよび治療のためのバイオマーカー | |
US20170059581A1 (en) | Methods for diagnosis and prognosis of inflammatory bowel disease using cytokine profiles | |
WO2012015904A2 (en) | Biomarkers for prostate cancer and methods using the same | |
US20170023575A1 (en) | Identification of blood based metabolite biomarkers of pancreatic cancer | |
GB2551415A (en) | Protein biomarker panels for detecting colorectal cancer and advanced adenoma | |
EP3257953B1 (en) | Methods of identification, assessment, prevention and therapy of lung diseases and kits thereof including gender-based disease identification, assessment, prevention and therapy | |
WO2015164616A1 (en) | Biomarkers for detection of tuberculosis | |
CN114755422B (zh) | 一种结直肠癌检测的生物标志物及其应用 | |
CN114758719B (zh) | 一种结直肠癌预测系统及其应用 | |
Owens et al. | Urinary biomarkers for the detection of ovarian cancer: a systematic review | |
Boutsikou et al. | The Role of Biomarkers in Lung Cancer Screening | |
CN115684451A (zh) | 基于代谢组学的食管鳞癌淋巴结转移诊断标志物及其应用 | |
Vessby et al. | AGPAT1 as a novel colonic biomarker for discriminating between ulcerative colitis with and without primary sclerosing cholangitis | |
US20240290431A1 (en) | Biomarker and diagnosis system for colorectal cancer detection | |
EP3295176A1 (en) | Biomarkers for detection of tuberculosis risk | |
CN115372628B (zh) | 与转甲状腺素蛋白淀粉样变性相关的代谢标志物及其应用 | |
CN112255334B (zh) | 用于区分交界性和恶性卵巢肿瘤的小分子标志物及其应用 | |
CN117214276A (zh) | 血浆脂质分子在肺癌诊断中的应用 | |
CN117330760A (zh) | 用于胰腺癌早期诊断的血浆外泌体标志物和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 310000 room 701-6, building 2, Zijin Qizhen building, No. 859 Shixiang West Road, Sandun Town, Xihu District, Hangzhou City, Zhejiang Province Patentee after: Kailaipu Technology Co.,Ltd. Address before: 310000 floor 2, block a, building 2, No. 321, Jinpeng street, Xihu District, Hangzhou, Zhejiang Patentee before: HANGZHOU CALIBRA DIAGNOSTICS CO.,LTD. |