CN118019983A - 用于诊断结直肠癌或进展期腺瘤的生物标志物 - Google Patents
用于诊断结直肠癌或进展期腺瘤的生物标志物 Download PDFInfo
- Publication number
- CN118019983A CN118019983A CN202280065474.7A CN202280065474A CN118019983A CN 118019983 A CN118019983 A CN 118019983A CN 202280065474 A CN202280065474 A CN 202280065474A CN 118019983 A CN118019983 A CN 118019983A
- Authority
- CN
- China
- Prior art keywords
- examples
- seq
- glycopeptide
- amino acid
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010009944 Colon cancer Diseases 0.000 title claims abstract description 248
- 208000001333 Colorectal Neoplasms Diseases 0.000 title claims abstract description 248
- 239000000090 biomarker Substances 0.000 title abstract description 38
- 201000002758 colorectal adenoma Diseases 0.000 title description 4
- 102000002068 Glycopeptides Human genes 0.000 claims abstract description 1145
- 108010015899 Glycopeptides Proteins 0.000 claims abstract description 1145
- DQJCDTNMLBYVAY-ZXXIYAEKSA-N (2S,5R,10R,13R)-16-{[(2R,3S,4R,5R)-3-{[(2S,3R,4R,5S,6R)-3-acetamido-4,5-dihydroxy-6-(hydroxymethyl)oxan-2-yl]oxy}-5-(ethylamino)-6-hydroxy-2-(hydroxymethyl)oxan-4-yl]oxy}-5-(4-aminobutyl)-10-carbamoyl-2,13-dimethyl-4,7,12,15-tetraoxo-3,6,11,14-tetraazaheptadecan-1-oic acid Chemical compound NCCCC[C@H](C(=O)N[C@@H](C)C(O)=O)NC(=O)CC[C@H](C(N)=O)NC(=O)[C@@H](C)NC(=O)C(C)O[C@@H]1[C@@H](NCC)C(O)O[C@H](CO)[C@H]1O[C@H]1[C@H](NC(C)=O)[C@@H](O)[C@H](O)[C@@H](CO)O1 DQJCDTNMLBYVAY-ZXXIYAEKSA-N 0.000 claims abstract description 723
- 238000000034 method Methods 0.000 claims abstract description 559
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 300
- 208000003200 Adenoma Diseases 0.000 claims abstract description 181
- 238000010801 machine learning Methods 0.000 claims abstract description 99
- 230000000750 progressive effect Effects 0.000 claims abstract description 85
- 239000000523 sample Substances 0.000 claims description 719
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 291
- 150000004676 glycans Chemical group 0.000 claims description 167
- 206010001233 Adenoma benign Diseases 0.000 claims description 156
- 239000012472 biological sample Substances 0.000 claims description 120
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 97
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 95
- 201000010099 disease Diseases 0.000 claims description 66
- 238000011002 quantification Methods 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 48
- 239000000203 mixture Substances 0.000 claims description 41
- 238000012544 monitoring process Methods 0.000 claims description 35
- 108090000623 proteins and genes Proteins 0.000 claims description 22
- 102000004169 proteins and genes Human genes 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000003745 diagnosis Methods 0.000 claims description 16
- 238000000547 structure data Methods 0.000 claims description 16
- 102000003886 Glycoproteins Human genes 0.000 claims description 14
- 108090000288 Glycoproteins Proteins 0.000 claims description 14
- 210000004369 blood Anatomy 0.000 claims description 9
- 239000008280 blood Substances 0.000 claims description 9
- 238000004895 liquid chromatography mass spectrometry Methods 0.000 claims description 8
- 210000002381 plasma Anatomy 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000002052 colonoscopy Methods 0.000 claims description 7
- 230000003862 health status Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 6
- 210000002966 serum Anatomy 0.000 claims description 6
- 238000011269 treatment regimen Methods 0.000 claims description 6
- 230000036541 health Effects 0.000 claims description 5
- OVRNDRQMDRJTHS-CBQIKETKSA-N N-Acetyl-D-Galactosamine Chemical compound CC(=O)N[C@H]1[C@@H](O)O[C@H](CO)[C@H](O)[C@@H]1O OVRNDRQMDRJTHS-CBQIKETKSA-N 0.000 claims 2
- OVRNDRQMDRJTHS-UHFFFAOYSA-N N-acelyl-D-glucosamine Natural products CC(=O)NC1C(O)OC(CO)C(O)C1O OVRNDRQMDRJTHS-UHFFFAOYSA-N 0.000 claims 2
- MBLBDJOUHNCFQT-UHFFFAOYSA-N N-acetyl-D-galactosamine Natural products CC(=O)NC(C=O)C(O)C(O)C(O)CO MBLBDJOUHNCFQT-UHFFFAOYSA-N 0.000 claims 2
- OVRNDRQMDRJTHS-FMDGEEDCSA-N N-acetyl-beta-D-glucosamine Chemical compound CC(=O)N[C@H]1[C@H](O)O[C@H](CO)[C@@H](O)[C@@H]1O OVRNDRQMDRJTHS-FMDGEEDCSA-N 0.000 claims 2
- MBLBDJOUHNCFQT-LXGUWJNJSA-N N-acetylglucosamine Natural products CC(=O)N[C@@H](C=O)[C@@H](O)[C@H](O)[C@H](O)CO MBLBDJOUHNCFQT-LXGUWJNJSA-N 0.000 claims 2
- 229950006780 n-acetylglucosamine Drugs 0.000 claims 2
- 230000004481 post-translational protein modification Effects 0.000 claims 2
- 238000010195 expression analysis Methods 0.000 claims 1
- 230000004044 response Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 87
- 208000037765 diseases and disorders Diseases 0.000 abstract description 5
- 125000003275 alpha amino acid group Chemical group 0.000 description 693
- 230000007704 transition Effects 0.000 description 187
- 238000002552 multiple reaction monitoring Methods 0.000 description 162
- 230000029087 digestion Effects 0.000 description 61
- 239000003814 drug Substances 0.000 description 51
- 229940124597 therapeutic agent Drugs 0.000 description 45
- 238000012774 diagnostic algorithm Methods 0.000 description 40
- 238000002560 therapeutic procedure Methods 0.000 description 36
- 206010028980 Neoplasm Diseases 0.000 description 28
- 201000011510 cancer Diseases 0.000 description 26
- 208000035475 disorder Diseases 0.000 description 26
- 230000032683 aging Effects 0.000 description 19
- 239000013068 control sample Substances 0.000 description 18
- 239000004365 Protease Substances 0.000 description 16
- 102000004190 Enzymes Human genes 0.000 description 15
- 108090000790 Enzymes Proteins 0.000 description 15
- 229940088598 enzyme Drugs 0.000 description 15
- 239000012634 fragment Substances 0.000 description 15
- 238000001819 mass spectrum Methods 0.000 description 15
- 241000282414 Homo sapiens Species 0.000 description 14
- 102000035195 Peptidases Human genes 0.000 description 14
- 108091005804 Peptidases Proteins 0.000 description 14
- 238000004811 liquid chromatography Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000001959 radiotherapy Methods 0.000 description 13
- 210000001519 tissue Anatomy 0.000 description 13
- 102000014702 Haptoglobin Human genes 0.000 description 11
- 108050005077 Haptoglobin Proteins 0.000 description 11
- 238000011282 treatment Methods 0.000 description 11
- 102100033326 Alpha-1B-glycoprotein Human genes 0.000 description 10
- 102000009333 Apolipoprotein D Human genes 0.000 description 10
- 108010025614 Apolipoproteins D Proteins 0.000 description 10
- 108010075016 Ceruloplasmin Proteins 0.000 description 10
- 102100023321 Ceruloplasmin Human genes 0.000 description 10
- 102100035476 Serum paraoxonase/arylesterase 1 Human genes 0.000 description 10
- 108010091628 alpha 1-Antichymotrypsin Proteins 0.000 description 10
- 235000001014 amino acid Nutrition 0.000 description 10
- 229940024606 amino acid Drugs 0.000 description 10
- 150000001413 amino acids Chemical class 0.000 description 10
- 101710186701 Alpha-1-acid glycoprotein 1 Proteins 0.000 description 9
- 102100022463 Alpha-1-acid glycoprotein 1 Human genes 0.000 description 9
- 102100022460 Alpha-1-acid glycoprotein 2 Human genes 0.000 description 9
- 101710186699 Alpha-1-acid glycoprotein 2 Proteins 0.000 description 9
- 102100022524 Alpha-1-antichymotrypsin Human genes 0.000 description 9
- 101710180981 Serum paraoxonase/arylesterase 1 Proteins 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 9
- 208000014081 polyp of colon Diseases 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000001225 therapeutic effect Effects 0.000 description 9
- 101710104910 Alpha-1B-glycoprotein Proteins 0.000 description 8
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 8
- 210000001744 T-lymphocyte Anatomy 0.000 description 8
- 238000013467 fragmentation Methods 0.000 description 8
- 238000006062 fragmentation reaction Methods 0.000 description 8
- 230000002068 genetic effect Effects 0.000 description 8
- 230000013595 glycosylation Effects 0.000 description 8
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 8
- 150000002500 ions Chemical class 0.000 description 8
- 238000002271 resection Methods 0.000 description 8
- 208000011580 syndromic disease Diseases 0.000 description 8
- 102100028042 Alpha-2-HS-glycoprotein Human genes 0.000 description 7
- 102100033312 Alpha-2-macroglobulin Human genes 0.000 description 7
- 108010056301 Apolipoprotein C-III Proteins 0.000 description 7
- 102000030169 Apolipoprotein C-III Human genes 0.000 description 7
- 102000046744 Calpain-3 Human genes 0.000 description 7
- 108030001375 Calpain-3 Proteins 0.000 description 7
- 101001060288 Homo sapiens Alpha-2-HS-glycoprotein Proteins 0.000 description 7
- 102000006496 Immunoglobulin Heavy Chains Human genes 0.000 description 7
- 108010019476 Immunoglobulin Heavy Chains Proteins 0.000 description 7
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 7
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 7
- 241000124008 Mammalia Species 0.000 description 7
- 102000003827 Plasma Kallikrein Human genes 0.000 description 7
- 108090000113 Plasma Kallikrein Proteins 0.000 description 7
- 108010015078 Pregnancy-Associated alpha 2-Macroglobulins Proteins 0.000 description 7
- 102100027901 Protein unc-13 homolog A Human genes 0.000 description 7
- 101710141057 Protein unc-13 homolog A Proteins 0.000 description 7
- 108090000631 Trypsin Proteins 0.000 description 7
- 102000004142 Trypsin Human genes 0.000 description 7
- 108010050122 alpha 1-Antitrypsin Proteins 0.000 description 7
- 102000012005 alpha-2-HS-Glycoprotein Human genes 0.000 description 7
- 108010075843 alpha-2-HS-Glycoprotein Proteins 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 7
- 229940022399 cancer vaccine Drugs 0.000 description 7
- 238000009566 cancer vaccine Methods 0.000 description 7
- 238000006206 glycosylation reaction Methods 0.000 description 7
- UWKQSNNFCGGAFS-XIFFEERXSA-N irinotecan Chemical compound C1=C2C(CC)=C3CN(C(C4=C([C@@](C(=O)OC4)(O)CC)C=4)=O)C=4C3=NC2=CC=C1OC(=O)N(CC1)CCC1N1CCCCC1 UWKQSNNFCGGAFS-XIFFEERXSA-N 0.000 description 7
- 238000007637 random forest analysis Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 239000012588 trypsin Substances 0.000 description 7
- 210000002700 urine Anatomy 0.000 description 7
- 208000004998 Abdominal Pain Diseases 0.000 description 6
- 208000023275 Autoimmune disease Diseases 0.000 description 6
- 229940045513 CTLA4 antagonist Drugs 0.000 description 6
- 238000002965 ELISA Methods 0.000 description 6
- 206010016654 Fibrosis Diseases 0.000 description 6
- GHASVSINZRGABV-UHFFFAOYSA-N Fluorouracil Chemical compound FC1=CNC(=O)NC1=O GHASVSINZRGABV-UHFFFAOYSA-N 0.000 description 6
- 230000004761 fibrosis Effects 0.000 description 6
- 239000012530 fluid Substances 0.000 description 6
- 229960002949 fluorouracil Drugs 0.000 description 6
- 229960004768 irinotecan Drugs 0.000 description 6
- 238000007477 logistic regression Methods 0.000 description 6
- 230000002085 persistent effect Effects 0.000 description 6
- 235000018102 proteins Nutrition 0.000 description 6
- 230000003595 spectral effect Effects 0.000 description 6
- 102000008096 B7-H1 Antigen Human genes 0.000 description 5
- 108010074708 B7-H1 Antigen Proteins 0.000 description 5
- 102000008203 CTLA-4 Antigen Human genes 0.000 description 5
- 108010021064 CTLA-4 Antigen Proteins 0.000 description 5
- GAGWJHPBXLXJQN-UORFTKCHSA-N Capecitabine Chemical compound C1=C(F)C(NC(=O)OCCCCC)=NC(=O)N1[C@H]1[C@H](O)[C@H](O)[C@@H](C)O1 GAGWJHPBXLXJQN-UORFTKCHSA-N 0.000 description 5
- 102000001301 EGF receptor Human genes 0.000 description 5
- 108060006698 EGF receptor Proteins 0.000 description 5
- 101710089372 Programmed cell death protein 1 Proteins 0.000 description 5
- 102000012479 Serine Proteases Human genes 0.000 description 5
- 108010022999 Serine Proteases Proteins 0.000 description 5
- 108010073929 Vascular Endothelial Growth Factor A Proteins 0.000 description 5
- 102000005789 Vascular Endothelial Growth Factors Human genes 0.000 description 5
- 108010019530 Vascular Endothelial Growth Factors Proteins 0.000 description 5
- 229940100198 alkylating agent Drugs 0.000 description 5
- 239000002168 alkylating agent Substances 0.000 description 5
- 102000015395 alpha 1-Antitrypsin Human genes 0.000 description 5
- 229940024142 alpha 1-antitrypsin Drugs 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- -1 glycans Proteins 0.000 description 5
- 239000002955 immunomodulating agent Substances 0.000 description 5
- 238000009169 immunotherapy Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- DWAFYCQODLXJNR-BNTLRKBRSA-L oxaliplatin Chemical compound O1C(=O)C(=O)O[Pt]11N[C@@H]2CCCC[C@H]2N1 DWAFYCQODLXJNR-BNTLRKBRSA-L 0.000 description 5
- 229960001756 oxaliplatin Drugs 0.000 description 5
- 239000013610 patient sample Substances 0.000 description 5
- 229920001184 polypeptide Polymers 0.000 description 5
- 238000000513 principal component analysis Methods 0.000 description 5
- 235000019419 proteases Nutrition 0.000 description 5
- 229960002633 ramucirumab Drugs 0.000 description 5
- 210000003296 saliva Anatomy 0.000 description 5
- 238000013179 statistical model Methods 0.000 description 5
- 208000024891 symptom Diseases 0.000 description 5
- 102100023990 60S ribosomal protein L17 Human genes 0.000 description 4
- GAGWJHPBXLXJQN-UHFFFAOYSA-N Capecitabine Natural products C1=C(F)C(NC(=O)OCCCCC)=NC(=O)N1C1C(O)C(O)C(C)O1 GAGWJHPBXLXJQN-UHFFFAOYSA-N 0.000 description 4
- 108090000317 Chymotrypsin Proteins 0.000 description 4
- 229930012538 Paclitaxel Natural products 0.000 description 4
- 102000016387 Pancreatic elastase Human genes 0.000 description 4
- 108010067372 Pancreatic elastase Proteins 0.000 description 4
- 108090000787 Subtilisin Proteins 0.000 description 4
- DVQHYTBCTGYNNN-UHFFFAOYSA-N azane;cyclobutane-1,1-dicarboxylic acid;platinum Chemical compound N.N.[Pt].OC(=O)C1(C(O)=O)CCC1 DVQHYTBCTGYNNN-UHFFFAOYSA-N 0.000 description 4
- 229960004117 capecitabine Drugs 0.000 description 4
- 229960002376 chymotrypsin Drugs 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 235000005911 diet Nutrition 0.000 description 4
- 238000002710 external beam radiation therapy Methods 0.000 description 4
- 238000003018 immunoassay Methods 0.000 description 4
- 229960001592 paclitaxel Drugs 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 210000004243 sweat Anatomy 0.000 description 4
- RCINICONZNJXQF-MZXODVADSA-N taxol Chemical compound O([C@@H]1[C@@]2(C[C@@H](C(C)=C(C2(C)C)[C@H](C([C@]2(C)[C@@H](O)C[C@H]3OC[C@]3([C@H]21)OC(C)=O)=O)OC(=O)C)OC(=O)[C@H](O)[C@@H](NC(=O)C=1C=CC=CC=1)C=1C=CC=CC=1)O)C(=O)C1=CC=CC=C1 RCINICONZNJXQF-MZXODVADSA-N 0.000 description 4
- 210000001138 tear Anatomy 0.000 description 4
- 108091005504 Asparagine peptide lyases Proteins 0.000 description 3
- 108091005502 Aspartic proteases Proteins 0.000 description 3
- 102000035101 Aspartic proteases Human genes 0.000 description 3
- 239000010754 BS 2869 Class F Substances 0.000 description 3
- 208000002881 Colic Diseases 0.000 description 3
- 206010010774 Constipation Diseases 0.000 description 3
- 102000005927 Cysteine Proteases Human genes 0.000 description 3
- 108010005843 Cysteine Proteases Proteins 0.000 description 3
- 206010012735 Diarrhoea Diseases 0.000 description 3
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 3
- WHUUTDBJXJRKMK-VKHMYHEASA-N L-glutamic acid Chemical compound OC(=O)[C@@H](N)CCC(O)=O WHUUTDBJXJRKMK-VKHMYHEASA-N 0.000 description 3
- 102000005741 Metalloproteases Human genes 0.000 description 3
- 108010006035 Metalloproteases Proteins 0.000 description 3
- 108090000744 Mitogen-Activated Protein Kinase Kinases Proteins 0.000 description 3
- 208000008589 Obesity Diseases 0.000 description 3
- 102000007079 Peptide Fragments Human genes 0.000 description 3
- 108010033276 Peptide Fragments Proteins 0.000 description 3
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 3
- 108091005501 Threonine proteases Proteins 0.000 description 3
- 102000035100 Threonine proteases Human genes 0.000 description 3
- 230000029936 alkylation Effects 0.000 description 3
- 238000005804 alkylation reaction Methods 0.000 description 3
- 238000003556 assay Methods 0.000 description 3
- 238000001574 biopsy Methods 0.000 description 3
- 208000027503 bloody stool Diseases 0.000 description 3
- 238000002725 brachytherapy Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 229960004316 cisplatin Drugs 0.000 description 3
- DQLATGHUWYMOKM-UHFFFAOYSA-L cisplatin Chemical compound N[Pt](N)(Cl)Cl DQLATGHUWYMOKM-UHFFFAOYSA-L 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000037213 diet Effects 0.000 description 3
- 230000035622 drinking Effects 0.000 description 3
- 230000002550 fecal effect Effects 0.000 description 3
- 208000035861 hematochezia Diseases 0.000 description 3
- 208000002551 irritable bowel syndrome Diseases 0.000 description 3
- 210000004072 lung Anatomy 0.000 description 3
- 210000003097 mucus Anatomy 0.000 description 3
- 235000020824 obesity Nutrition 0.000 description 3
- 229960001972 panitumumab Drugs 0.000 description 3
- 230000037081 physical activity Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- FNHKPVJBJVTLMP-UHFFFAOYSA-N regorafenib Chemical compound C1=NC(C(=O)NC)=CC(OC=2C=C(F)C(NC(=O)NC=3C=C(C(Cl)=CC=3)C(F)(F)F)=CC=2)=C1 FNHKPVJBJVTLMP-UHFFFAOYSA-N 0.000 description 3
- 230000000391 smoking effect Effects 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 3
- 230000004580 weight loss Effects 0.000 description 3
- VEEGZPWAAPPXRB-BJMVGYQFSA-N (3e)-3-(1h-imidazol-5-ylmethylidene)-1h-indol-2-one Chemical compound O=C1NC2=CC=CC=C2\C1=C/C1=CN=CN1 VEEGZPWAAPPXRB-BJMVGYQFSA-N 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 2
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 2
- 102000005367 Carboxypeptidases Human genes 0.000 description 2
- 108010006303 Carboxypeptidases Proteins 0.000 description 2
- SHZGCJCMOBCMKK-UHFFFAOYSA-N D-mannomethylose Natural products CC1OC(O)C(O)C(O)C1O SHZGCJCMOBCMKK-UHFFFAOYSA-N 0.000 description 2
- WQZGKKKJIJFFOK-QTVWNMPRSA-N D-mannopyranose Chemical compound OC[C@H]1OC(O)[C@@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-QTVWNMPRSA-N 0.000 description 2
- 108010067770 Endopeptidase K Proteins 0.000 description 2
- 201000006107 Familial adenomatous polyposis Diseases 0.000 description 2
- PNNNRSAQSRJVSB-SLPGGIOYSA-N Fucose Natural products C[C@H](O)[C@@H](O)[C@H](O)[C@H](O)C=O PNNNRSAQSRJVSB-SLPGGIOYSA-N 0.000 description 2
- 208000008051 Hereditary Nonpolyposis Colorectal Neoplasms Diseases 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 2
- SHZGCJCMOBCMKK-DHVFOXMCSA-N L-fucopyranose Chemical compound C[C@@H]1OC(O)[C@@H](O)[C@H](O)[C@@H]1O SHZGCJCMOBCMKK-DHVFOXMCSA-N 0.000 description 2
- 239000002138 L01XE21 - Regorafenib Substances 0.000 description 2
- 102000004882 Lipase Human genes 0.000 description 2
- 108090001060 Lipase Proteins 0.000 description 2
- 239000004367 Lipase Substances 0.000 description 2
- 201000005027 Lynch syndrome Diseases 0.000 description 2
- 101001018085 Lysobacter enzymogenes Lysyl endopeptidase Proteins 0.000 description 2
- 102000004232 Mitogen-Activated Protein Kinase Kinases Human genes 0.000 description 2
- 241000208125 Nicotiana Species 0.000 description 2
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 2
- 108700020796 Oncogene Proteins 0.000 description 2
- 108010061952 Orosomucoid Proteins 0.000 description 2
- 102000012404 Orosomucoid Human genes 0.000 description 2
- 206010033128 Ovarian cancer Diseases 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 108090000526 Papain Proteins 0.000 description 2
- 108090000284 Pepsin A Proteins 0.000 description 2
- 102000057297 Pepsin A Human genes 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 101710118538 Protease Proteins 0.000 description 2
- 108010026552 Proteome Proteins 0.000 description 2
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 2
- 229940123237 Taxane Drugs 0.000 description 2
- 108090001109 Thermolysin Proteins 0.000 description 2
- AYFVYJQAPQTCCC-UHFFFAOYSA-N Threonine Natural products CC(O)C(N)C(O)=O AYFVYJQAPQTCCC-UHFFFAOYSA-N 0.000 description 2
- 239000004473 Threonine Substances 0.000 description 2
- 108090000190 Thrombin Proteins 0.000 description 2
- 229960002833 aflibercept Drugs 0.000 description 2
- 108010081667 aflibercept Proteins 0.000 description 2
- 239000004037 angiogenesis inhibitor Substances 0.000 description 2
- 229940121369 angiogenesis inhibitor Drugs 0.000 description 2
- 239000002246 antineoplastic agent Substances 0.000 description 2
- 210000001742 aqueous humor Anatomy 0.000 description 2
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 2
- 210000003567 ascitic fluid Anatomy 0.000 description 2
- 235000009582 asparagine Nutrition 0.000 description 2
- 229960001230 asparagine Drugs 0.000 description 2
- 229940120638 avastin Drugs 0.000 description 2
- 229950002916 avelumab Drugs 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- SQVRNKJHWKZAKO-UHFFFAOYSA-N beta-N-Acetyl-D-neuraminic acid Natural products CC(=O)NC1C(O)CC(O)(C(O)=O)OC1C(O)C(O)CO SQVRNKJHWKZAKO-UHFFFAOYSA-N 0.000 description 2
- 229960000397 bevacizumab Drugs 0.000 description 2
- 210000000941 bile Anatomy 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- KVUAALJSMIVURS-ZEDZUCNESA-L calcium folinate Chemical compound [Ca+2].C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)N[C@@H](CCC([O-])=O)C([O-])=O)C=C1 KVUAALJSMIVURS-ZEDZUCNESA-L 0.000 description 2
- 150000001720 carbohydrates Chemical group 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 229960005395 cetuximab Drugs 0.000 description 2
- 238000002512 chemotherapy Methods 0.000 description 2
- 208000029664 classic familial adenomatous polyposis Diseases 0.000 description 2
- 108090001092 clostripain Proteins 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 229940127089 cytotoxic agent Drugs 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 102000038379 digestive enzymes Human genes 0.000 description 2
- 108091007734 digestive enzymes Proteins 0.000 description 2
- 229950009791 durvalumab Drugs 0.000 description 2
- 229940120655 eloxatin Drugs 0.000 description 2
- 210000000416 exudates and transudate Anatomy 0.000 description 2
- 210000004211 gastric acid Anatomy 0.000 description 2
- 230000002496 gastric effect Effects 0.000 description 2
- 229930195712 glutamate Natural products 0.000 description 2
- 235000020256 human milk Nutrition 0.000 description 2
- 210000004251 human milk Anatomy 0.000 description 2
- 210000000987 immune system Anatomy 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000002721 intensity-modulated radiation therapy Methods 0.000 description 2
- 235000019421 lipase Nutrition 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000001840 matrix-assisted laser desorption--ionisation time-of-flight mass spectrometry Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 229960003301 nivolumab Drugs 0.000 description 2
- 229940055729 papain Drugs 0.000 description 2
- 235000019834 papain Nutrition 0.000 description 2
- 229960002621 pembrolizumab Drugs 0.000 description 2
- 229940111202 pepsin Drugs 0.000 description 2
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 2
- 210000004915 pus Anatomy 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 210000000664 rectum Anatomy 0.000 description 2
- 229960004836 regorafenib Drugs 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- SQVRNKJHWKZAKO-OQPLDHBCSA-N sialic acid Chemical compound CC(=O)N[C@@H]1[C@@H](O)C[C@@](O)(C(O)=O)OC1[C@H](O)[C@H](O)CO SQVRNKJHWKZAKO-OQPLDHBCSA-N 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 210000003802 sputum Anatomy 0.000 description 2
- 208000024794 sputum Diseases 0.000 description 2
- 238000002719 stereotactic radiosurgery Methods 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 210000001179 synovial fluid Anatomy 0.000 description 2
- 238000002626 targeted therapy Methods 0.000 description 2
- 229960004072 thrombin Drugs 0.000 description 2
- 235000019505 tobacco product Nutrition 0.000 description 2
- 238000012328 transanal endoscopic microsurgery Methods 0.000 description 2
- 229960001322 trypsin Drugs 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- HVCOBJNICQPDBP-UHFFFAOYSA-N 3-[3-[3,5-dihydroxy-6-methyl-4-(3,4,5-trihydroxy-6-methyloxan-2-yl)oxyoxan-2-yl]oxydecanoyloxy]decanoic acid;hydrate Chemical compound O.OC1C(OC(CC(=O)OC(CCCCCCC)CC(O)=O)CCCCCCC)OC(C)C(O)C1OC1C(O)C(O)C(O)C(C)O1 HVCOBJNICQPDBP-UHFFFAOYSA-N 0.000 description 1
- 238000011455 3D conformal radiation therapy Methods 0.000 description 1
- PLIXOHWIPDGJEI-OJSHLMAWSA-N 5-chloro-6-[(2-iminopyrrolidin-1-yl)methyl]-1h-pyrimidine-2,4-dione;1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-(trifluoromethyl)pyrimidine-2,4-dione;hydrochloride Chemical compound Cl.N1C(=O)NC(=O)C(Cl)=C1CN1C(=N)CCC1.C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(C(F)(F)F)=C1 PLIXOHWIPDGJEI-OJSHLMAWSA-N 0.000 description 1
- VVIAGPKUTFNRDU-UHFFFAOYSA-N 6S-folinic acid Natural products C1NC=2NC(N)=NC(=O)C=2N(C=O)C1CNC1=CC=C(C(=O)NC(CCC(O)=O)C(O)=O)C=C1 VVIAGPKUTFNRDU-UHFFFAOYSA-N 0.000 description 1
- 108091005508 Acid proteases Proteins 0.000 description 1
- 102100022712 Alpha-1-antitrypsin Human genes 0.000 description 1
- 239000002028 Biomass Substances 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 239000012275 CTLA-4 inhibitor Substances 0.000 description 1
- 241000282465 Canis Species 0.000 description 1
- 241000282472 Canis lupus familiaris Species 0.000 description 1
- 208000035984 Colonic Polyps Diseases 0.000 description 1
- CMSMOCZEIVJLDB-UHFFFAOYSA-N Cyclophosphamide Chemical compound ClCCN(CCCl)P1(=O)NCCCO1 CMSMOCZEIVJLDB-UHFFFAOYSA-N 0.000 description 1
- 238000012286 ELISA Assay Methods 0.000 description 1
- 241000283086 Equidae Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000282324 Felis Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 229930186217 Glycolipid Natural products 0.000 description 1
- 206010051922 Hereditary non-polyposis colorectal cancer syndrome Diseases 0.000 description 1
- 208000017095 Hereditary nonpolyposis colon cancer Diseases 0.000 description 1
- 101001094647 Homo sapiens Serum paraoxonase/arylesterase 1 Proteins 0.000 description 1
- 108060003951 Immunoglobulin Proteins 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 241000546273 Lindera <angiosperm> Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004988 N-glycosylation Effects 0.000 description 1
- 230000004989 O-glycosylation Effects 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 239000012661 PARP inhibitor Substances 0.000 description 1
- 239000012270 PD-1 inhibitor Substances 0.000 description 1
- 239000012668 PD-1-inhibitor Substances 0.000 description 1
- 239000012271 PD-L1 inhibitor Substances 0.000 description 1
- 229940121906 Poly ADP ribose polymerase inhibitor Drugs 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 208000015634 Rectal Neoplasms Diseases 0.000 description 1
- 230000003187 abdominal effect Effects 0.000 description 1
- 230000003872 anastomosis Effects 0.000 description 1
- 238000010171 animal model Methods 0.000 description 1
- 230000000340 anti-metabolite Effects 0.000 description 1
- 229940100197 antimetabolite Drugs 0.000 description 1
- 239000002256 antimetabolite Substances 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 235000008207 calcium folinate Nutrition 0.000 description 1
- 239000011687 calcium folinate Substances 0.000 description 1
- 229940088954 camptosar Drugs 0.000 description 1
- 229960004562 carboplatin Drugs 0.000 description 1
- 229940121420 cemiplimab Drugs 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 235000019506 cigar Nutrition 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000002681 cryosurgery Methods 0.000 description 1
- 229960004397 cyclophosphamide Drugs 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000378 dietary effect Effects 0.000 description 1
- 239000003534 dna topoisomerase inhibitor Substances 0.000 description 1
- 229950001969 encorafenib Drugs 0.000 description 1
- 229940082789 erbitux Drugs 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000008191 folinic acid Nutrition 0.000 description 1
- 239000011672 folinic acid Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 229930182830 galactose Natural products 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- 102000035122 glycosylated proteins Human genes 0.000 description 1
- 108091005608 glycosylated proteins Proteins 0.000 description 1
- 210000004209 hair Anatomy 0.000 description 1
- 231100000640 hair analysis Toxicity 0.000 description 1
- 238000001794 hormone therapy Methods 0.000 description 1
- 102000018358 immunoglobulin Human genes 0.000 description 1
- 229940072221 immunoglobulins Drugs 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 229960005386 ipilimumab Drugs 0.000 description 1
- 229940043355 kinase inhibitor Drugs 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 229960001691 leucovorin Drugs 0.000 description 1
- CMJCXYNUCSMDBY-ZDUSSCGKSA-N lgx818 Chemical compound COC(=O)N[C@@H](C)CNC1=NC=CC(C=2C(=NN(C=2)C(C)C)C=2C(=C(NS(C)(=O)=O)C=C(Cl)C=2)F)=N1 CMJCXYNUCSMDBY-ZDUSSCGKSA-N 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 229940024740 lonsurf Drugs 0.000 description 1
- 210000003750 lower gastrointestinal tract Anatomy 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- ZDZOTLJHXYCWBA-BSEPLHNVSA-N molport-006-823-826 Chemical compound O([C@H]1[C@H]2[C@@](C([C@H](O)C3=C(C)[C@@H](OC(=O)[C@H](O)[C@@H](NC(=O)OC(C)(C)C)C=4C=CC=CC=4)C[C@@]1(O)C3(C)C)=O)(C)[C@@H](O)C[C@H]1OC[C@]12OC(=O)C)C(=O)C1=CC=CC=C1 ZDZOTLJHXYCWBA-BSEPLHNVSA-N 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000009099 neoadjuvant therapy Methods 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 125000004433 nitrogen atom Chemical group N* 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 125000004430 oxygen atom Chemical group O* 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 229940121655 pd-1 inhibitor Drugs 0.000 description 1
- 229940121656 pd-l1 inhibitor Drugs 0.000 description 1
- 239000003757 phosphotransferase inhibitor Substances 0.000 description 1
- 229910052697 platinum Inorganic materials 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 235000020991 processed meat Nutrition 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 239000012857 radioactive material Substances 0.000 description 1
- 235000020989 red meat Nutrition 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000002720 stereotactic body radiation therapy Methods 0.000 description 1
- 238000009199 stereotactic radiation therapy Methods 0.000 description 1
- 229940090374 stivarga Drugs 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- DKPFODGZWDEEBT-QFIAKTPHSA-N taxane Chemical class C([C@]1(C)CCC[C@@H](C)[C@H]1C1)C[C@H]2[C@H](C)CC[C@@H]1C2(C)C DKPFODGZWDEEBT-QFIAKTPHSA-N 0.000 description 1
- 229940066453 tecentriq Drugs 0.000 description 1
- 229940044693 topoisomerase inhibitor Drugs 0.000 description 1
- VSQQQLOSPVPRAZ-RRKCRQDMSA-N trifluridine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(C(F)(F)F)=C1 VSQQQLOSPVPRAZ-RRKCRQDMSA-N 0.000 description 1
- 229960003962 trifluridine Drugs 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
- 229940055760 yervoy Drugs 0.000 description 1
- 229940036061 zaltrap Drugs 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57419—Specifically defined cancers of colon
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N2800/00—Detection or diagnosis of diseases
- G01N2800/60—Complex ways of combining multiple protein biomarkers for diagnosis
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Immunology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Urology & Nephrology (AREA)
- Hematology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Cell Biology (AREA)
- Pathology (AREA)
- General Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Medicinal Chemistry (AREA)
- Food Science & Technology (AREA)
- Microbiology (AREA)
- Hospice & Palliative Care (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Oncology (AREA)
- Genetics & Genomics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
Abstract
本文阐述了用于诊断诸如结直肠癌或进展期腺瘤的疾病和病症的糖肽生物标志物。本文还阐述了产生糖肽生物标志物的方法和使用质谱分析来分析糖肽的方法。本文还阐述了使用机器学习算法来分析糖肽的方法。
Description
相关申请的交叉引用
本申请要求2021年8月4日提交的美国临时专利申请第63/229,185号的优先权和权益,其全部内容出于所有目的通过引用整体并入本文。
序列表
电子序列表(166532000740SEQLIST.xml;大小:57,343字节;创建日期:2022年7月28日)的内容通过引用整体并入本文
技术领域
本公开涉及糖蛋白质组学生物标志物,包括但不限于聚糖、肽和糖肽,并且涉及将这些生物标志物与质谱分析一起使用和用于临床应用中的方法。
背景技术
糖基化的变化已经被描述为与疾病状态(诸如癌症)有关。参见例如,Dube,D.H.;Bertozzi,C.R.Glycans in Cancer and Inflammation-Potential for Therapeuticsand Diagnostics.Nature Rev.Drug Disc.2005,4,477-88,其全部内容出于所有目的通过引用整体并入本文。然而,用于基于来自患者的样品中的糖基化变化来诊断患者的癌症(诸如结直肠癌或进展期腺瘤)的临床相关非侵入性测定尚未得到充分证明。
用于诊断结直肠癌或进展期腺瘤的常规临床测定例如包括通过酶联免疫吸附测定(ELISA)测量患者血液中的蛋白质的量。然而,ELISA的灵敏度和精确度有限。ELISA例如仅测量ng/mL浓度范围内的蛋白质。这种狭窄的测量范围限制了这种测定的相关性,因为无法测量浓度显著高于或低于该浓度范围的生物标志物。此外,ELISA测定在可以测定的样品类型方面受到限制。由于缺乏更精确和灵敏的测试,原本可能会被诊断为患有结直肠癌或进展期腺瘤的患者未能得到确诊,因此无法接受适当的后续医疗关注。
作为替代方案,质谱分析(MS)可对包括糖肽在内的癌症特异性生物标志物进行灵敏和精确的测量。参见例如Ruhaak,L.R.等人,Protein-Specific DifferentialGlycosylation of Immunoglobulins in Serum of Ovarian Cancer Patients,DOI:10.1021/acs.jproteome.5b01071;J.Proteome Res.,2016,15,1002-1010(2016);以及Miyamoto,S.等人,Multiple Reaction Monitoring for the Quantitation of SerumProtein Glycosylation Profiles:Application to Ovarian Cancer,DOI:10.1021/acs.jproteome.7b00541,J.Proteome Res.2018,17,222-233(2017),其全部内容出于所有目的通过引用整体并入本文。然而,使用MS来诊断癌症,一般来说癌症,或具体来说结直肠癌或进展期腺瘤,迄今为止尚未以临床相关的方式得到证实。
需要的是新的生物标志物和使用这些生物标志物使用MS来诊断疾病状态(诸如癌症)的新方法。本文在以下公开内容中阐述了包含聚糖、肽和糖肽以及其片段的此类生物标志物,以及使用生物标志物与MS来诊断结直肠癌或进展期腺瘤的方法。
发明内容
在一个实施方案中,本文阐述了一种由选自SEQ ID NO:1-38以及它们的组合的氨基酸序列组成的糖肽或肽。
在另一个实施方案中,本文阐述了一种基本上由选自SEQ ID NO:1-38以及它们的组合的氨基酸序列组成的糖肽或肽。
在另一个实施方案中,本文阐述了一种用于检测一个或多个MRM转变的方法,其包括:获得或已经获得来自患者的生物样品,其中所述生物样品包含一种或多种糖蛋白、聚糖或糖蛋白;消化和/或片段化样品中的糖肽;以及检测选自由本文所述的转变1-38组成的组的多重反应监测(MRM)转变。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独包含选自由SEQ ID NO:1-38组成的组的氨基酸序列以及任何相关的聚糖(例如如本文所述)以及它们的组合或基本上由其组成或由其组成;以及将定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于对生物样品进行分类的方法,其包括:获得或已经获得来自患者的生物样品;消化和/或片段化样品中的糖肽;检测选自由转变1-38组成的组的MRM转变;以及定量糖肽或其片段;将定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来对生物样品进行分类。
在另一个实施方案中,本文阐述了一种用于治疗患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;消化和/或片段化样品中的一种或多种糖肽;以及检测和定量选自由转变1-38组成的组的一个或多个多重反应监测(MRM)转变;将定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来对患者进行分类,其中所述分类选自由以下组成的组:(A)需要切除术的患者;(B)需要治疗剂的患者;(C)需要烷基化疗法的患者;(D)需要靶向治疗剂的患者;(E)需要免疫治疗的患者;(F)需要免疫检查点抑制剂的患者;(G)需要T细胞相关疗法的患者;(H)需要癌症疫苗的患者;(I)需要放射疗法的患者;(J)需要结肠镜检查的患者;或(K)它们的组合;如果确定分类A或K,则进行或已经进行切除术;如果确定分类I或K,则进行或已经进行放射疗法;如果确定分类J或K,则进行或已经进行结肠镜检查;或向患者施用治疗有效量的治疗剂:其中如果确定分类B或K,则治疗剂选自治疗剂;或其中如果确定分类C或K,则治疗剂选自烷基化剂;或其中如果确定分类D或K,则治疗剂选自靶向治疗剂;其中如果确定分类E或K,则治疗剂选自免疫治疗剂;其中如果确定分类F或K,则治疗剂选自免疫检查点抑制剂;其中如果确定分类G或K,则治疗剂选自T细胞相关疗法;并且其中如果确定分类H或K,则治疗剂选自癌症疫苗。
在另一个实施方案中,本文阐述了一种用于训练机器学习算法的方法,其包括:提供指示包含由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的糖肽的样品的MRM转变信号的第一数据集;提供指示对照样品的MRM转变信号的第二数据集;以及使用机器学习算法将第一数据集与第二数据集进行比较。在某些实施方案中,使用交叉验证超参数选择的LASSO方法来训练机器学习算法。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽,或检测选自转变1-38的一个或多个MRM转变并定量与MRM转变相关的聚糖、肽和糖肽;将检测到的糖肽或MRM转变的定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。在一些实例中,所述方法包括使用MRM-MS用QQQ对生物样品进行质谱分析。
在另一个实施方案中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和一种或多种糖肽,所述糖肽由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成。
在另一个实施方案中,本文阐述了一种由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的糖肽。
附图说明
图1显示了使用模型1患有结直肠癌的概率图。
图2显示了使用模型2患有进展期腺瘤的概率图。
图3A显示了模型1关于单个标志物的曲线下面积(AUC)分析。图3B显示了模型2关于单个标志物的AUC分析。
具体实施方式
呈现以下描述以使本领域普通技术人员能够制造和使用本发明并将其并入特定应用的上下文中。对于本领域技术人员来说,各种修改以及在不同应用中的各种使用将是显而易见的,并且这里定义的一般原理可以应用于广泛范围的实施方案。因此,这里的发明不旨在限于所呈现的实施方案,而是符合与这里公开的原理和新颖特征相一致的最广泛范围。
除非另有明确说明,否则本说明书(包括任何附带的权利要求、摘要和附图)中公开的所有特征都可以被用于相同、等效或类似目的的替代特征所替换。因此,除非另有明确说明,否则所公开的每个特征仅是一个通用系列的等效或类似特征的一个实例。
请注意,如果使用的话,标签左、右、前、后、顶、底、正向、反向、顺时针和逆时针仅用于方便目的并且不意味着任何特定的固定方向。相反,它们用于反映物体各部分之间的相对位置和/或方向。
I.一般描述
本公开提供了用于对生物样品中的聚糖和糖肽进行图谱分析、检测和/或定量的方法和组合物。在一些实例中,描述了用于诊断和筛选患有结直肠癌或进展期腺瘤的患者的聚糖和糖肽组。在一些实例中,描述了用于诊断和筛选癌症患者的聚糖和糖肽组。
使用质谱分析来分析生物样品的某些技术是已知的。参见例如2018年10月18日作为国际专利申请第PCT/US2018/56574号提交并且标题为“用于诊断和治疗监测的生物参数的鉴定和使用(IDENTIFICATION AND USE OF BIOLOGICAL PARAMETERS FOR DIAGNOSISAND TREATMENT MONITORING)”的国际PCT专利申请公开第WO2019079639A1号,其全部内容出于所有目的通过引用整体并入本文。还参见2018年8月31日作为美国专利申请第16/120,016号提交并且标题为“鉴定和使用糖肽作为用于诊断和治疗监测的生物标志物(IDENTIFICATION AND USE OF GLYCOPEPTIDES AS BIOMARKERS FOR DIAGNOSIS ANDTREATMENT MONITORING)”的美国专利申请公开第US20190101544A1号,其全部内容出于所有目的通过引用整体并入本文。
II.定义
除非上下文另外明确指出,否则如本文所用,单数形式“一个(种)”和“所述”包括多个指示物。
如本文所用,短语“生物样品”是指来源于、获得于、产生于、提供于、获自或取自生物体的样品;或来自生物体的液体或组织。生物样品包括但不限于滑液、全血、血清、血浆、尿液、痰、组织、唾液、泪液、脊髓液、通过活检获得的组织切片、置于组织培养中或适应组织培养的细胞、汗液、粘液、粪便物质、胃液、腹腔液、羊水、囊肿液、腹膜液、胰液、母乳、肺灌洗液、骨髓、胃酸、胆汁、精液、脓液、房水、渗出液等,包括上述物质的衍生物、部分和组合。在一些实例中,生物样品包括但不限于血液和/或血浆。在一些实例中,生物样品包括但不限于尿液或粪便。生物样品包括但不限于唾液。生物样品包括但不限于组织切片和组织活检。生物样品包括但不限于上述生物样品的任何衍生物或部分。
如本文所用,术语“聚糖”是指糖缀合物的碳水化合物残基,诸如糖肽、糖蛋白、糖脂或蛋白聚糖的碳水化合物部分。聚糖结构由聚糖参考码编号描述,并且在2020年1月31日提交的国际PCT专利申请第PCT/US2020/0162861号中也有说明,其出于所有目的通过引用整体并入本文。例如,参见2020年1月31日提交的PCT专利申请第PCT/US2020/0162861号的图1至图14,其出于所有目的通过引用整体并入本文。
如本文所用,术语“糖肽”是指具有与其结合的至少一个聚糖残基的肽。在本文描述的每个实施方案中,糖肽可以包含由所指示SEQ ID NO指定的氨基酸序列以及一种或多种聚糖(例如本文描述的与所述SEQ ID NO相关的那些聚糖)、基本上由其组成或由其组成。例如,如本文所用,根据SEQ ID NO:1的糖肽可以指根据SEQ ID NO:1的氨基酸序列和聚糖5411的糖肽,其中聚糖与残基107结合。如本文所用,包含SEQ ID NO:1的糖肽可以指包含SEQ ID NO:1的氨基酸序列和聚糖5411的糖肽,其中聚糖与残基107结合。如本文所用,基本上由SEQ ID NO:1组成的糖肽可以指基本上由SEQ ID NO:1的氨基酸序列和聚糖5411组成的糖肽,其中聚糖与残基107结合。如本文所用,由SEQ ID NO:1组成的糖肽可以指由SEQ IDNO:1的氨基酸序列和聚糖5411组成的糖肽,其中聚糖与残基107结合。类似的用法适用于SEQ ID NO:2-38,其中聚糖将在以下章节中描述。
如本文所用,短语“糖基化肽”是指与聚糖残基结合的肽。
如本文所用,短语“糖肽片段”或“糖基化肽片段”是指糖基化肽(或糖肽),其氨基酸序列与糖基化蛋白的部分(但不是全部)氨基酸序列相同,所述糖基化肽是通过消化(例如,使用一种或多种蛋白酶)或通过片段化(例如,MRM-MS仪器内的离子片段化)从所述糖基化蛋白获得的。MRM是指多重反应监测。除非另有说明,否则在本说明书中,“糖肽片段”或“糖肽的片段”是指任选地在糖蛋白被酶消化以产生糖肽之后通过使用质谱仪直接产生的片段。
如本文所用,短语“多重反应监测质谱分析(MRM-MS)”是指用于生物样品中的聚糖和肽的靶向定量的高度灵敏性和选择性的方法。与传统质谱分析不同,MRM-MS具有高度选择性(靶向性),从而允许研究人员微调仪器以专门寻找感兴趣的某些肽片段。MRM允许感兴趣的肽片段(诸如潜在的生物标志物)的更大敏感性、特异性、速度和定量。MRM-MS涉及使用一个或多个三重四极杆(QQQ)质谱仪和四极杆飞行时间(qTOF)质谱仪。
如本文所用,短语“消化糖肽”是指采用酶来断裂特定氨基酸肽键的生物过程。例如,消化糖肽包括使糖肽与消化酶(例如胰蛋白酶)接触,以产生糖肽片段。在一些实例中,蛋白酶用于消化糖肽。术语“蛋白酶”是指将大肽水解或分解成较小多肽或单个氨基酸的酶。蛋白酶的实例包括但不限于以下中的一种或多种:丝氨酸蛋白酶、苏氨酸蛋白酶、半胱氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶、天冬酰胺肽裂解酶以及上述物质的任何组合。
如本文所用,短语“片段化糖肽”是指MRM-MS仪器中发生的离子片段化过程。片段化可以产生质量相同但电荷不同的各种片段。
如本文所用,术语“受试者”是指哺乳动物。哺乳动物的非限制性实例包括人类、非人类灵长类动物、小鼠、大鼠、狗、猫、马或牛等。除人类以外的哺乳动物可有利地用作代表疾病、疾病前期或疾病前期病症的动物模型的受试者。受试者可以是男性或女性。受试者可以是先前已被鉴定为患有疾病或病症的受试者,并且任选地已经经历或正在经历针对所述疾病或病症的治疗性干预。另选地,受试者也可以是先前尚未被诊断为患有疾病或病症的受试者。例如,受试者可以是表现出疾病或病症的一个或多个风险因素的受试者,或是没有表现出疾病风险因素的受试者,或是没有疾病或病症症状的受试者。受试者也可以是患有疾病或病症或处于患上疾病或病症的风险下的受试者。
如本文所用,术语“患者”是指哺乳动物受试者。哺乳动物可以是人类或动物,包括但不限于马、猪、犬、猫、有蹄类动物和灵长类动物。在一个实施方案中,个体是人类。本文描述的方法和用途对于医学和兽医学用途都是有用的。除非另有说明,否则“患者”是人类受试者。
如本文所用,除非另有说明,否则“肽”是指包括糖肽。
如本文所用,短语“多重反应监测(MRM)转变”是指当通过MRM-MS检测糖肽或其片段时观察到的质荷比(m/z)峰或信号。MRM转变被检测为前体离子和产物离子的转变。
如本文所用,短语“检测多重反应监测(MRM)转变”是指其中质谱仪使用串联质谱仪离子片段化方法分析样品并鉴定样品中的离子片段的质荷比的过程。这些鉴定的质荷比的绝对值被称为转变。在本文阐述的方法的上下文中,质荷比转变是指示聚糖、肽或糖肽离子片段的值。对于本文阐述的一些糖肽,存在单个转变峰或信号。对于本文阐述的一些其他糖肽,存在超过一个转变峰或信号。关于MRM质谱分析的背景信息可见于Introduction toMass Spectrometry:Instrumentation,Applications,and Strategies for DataInterpretation,第4版,J.Throck Watson,O.David Sparkman,ISBN:978-0-470-51634-8,2007年11月,其全部内容出于所有目的通过引用整体并入本文。
如本文所用,短语“检测指示糖肽的多重反应监测(MRM)转变”是指其中检测到MRM-MS转变并且然后与糖肽或其片段的计算质荷比(m/z)进行比较以鉴定糖肽的MS过程。在本文的一些实例中,如果糖肽具有相同的MRM-MS片段化模式,则单个转变可指示两个以上的糖肽。根据表1-5(例如,表1、表2、表3、表4、表5或它们的组合),转变峰或信号包括但不限于本文所述的与基本上由选自SEQ ID NO:1-38以及它们的组合的氨基酸序列组成的糖肽相关的那些转变。根据表1-5(例如,表1、表2、表3、表4、表5或它们的组合),转变峰或信号包括但不限于本文所述的与由选自SEQ ID NO:1-38以及它们的组合的氨基酸序列组成的糖肽相关的那些转变。
如本文所用,术语“参考值”是指从疾病状态已知的个体群体中获得的值。参考值可以在n维特征空间中,并且可以由最大边缘超平面来定义。根据本领域技术人员熟知的标准方法,可以确定任何特定群体、亚群或个体组的参考值。
如本文所用,术语“个体群体”指一个或多个个体。在一个实施方案中,个体群体由一个个体组成。在一个实施方案中,个体群体包括多个个体。如本文所用,术语“多个”指至少2个(诸如至少4个、6个、8个、10个、12个、14个、16个、18个、20个、22个、24个、26个、28个或30个)个体。在一个实施方案中,个体群体包括至少10个个体。
如本文所用,术语“治疗(treatment/treating)”指对受试者(如哺乳动物)的疾病或病症的任何治疗,包括:1)预防或防止疾病或病症,即导致临床症状不再发展;2)抑制疾病或病症,即阻止或抑制临床症状的发展;和/或3)缓解疾病或病症,即导致临床症状的消退。治疗可以包括向有需要的受试者施用治疗剂。
本文使用用于说明聚糖的聚糖符号命名法(SNFG)来提及聚糖。此图示系统的解释可在www.ncbi.nlm.nih.gov/glycans/snfg.html网站上获得,其全部内容出于所有目的通过引用整体并入本文。公布于Glycobiology 25:1323-1324,2015中的聚糖的图形表示的符号命名法可在doi.org/10.1093/glycob/cwv091网站上获得。SNFG系统的图示的其他信息如下。在此系统中,项Hex_i:解释如下:i指示绿色圆形(甘露糖)的数量和黄色圆形(半乳糖)的数量。项HexNAC_j使用j来指示蓝色正方形(GlcNAC)的数量。项Fuc_d使用d来指示红色三角形(岩藻糖)的数量。项Neu5AC_l使用l来指示紫色菱形(唾液酸)的数量。本文所用的聚糖参考码将这些i、j、d和l项组合在一起,以形成一个4-5个数字的复合聚糖参考码,例如5300或5320。例如,图1中的聚糖3200和3210都包括3个绿色圆形(甘露糖)、2个蓝色正方形(GlcNAC)并且无紫色菱形(唾液酸),但不同之处在于聚糖3210还包括1个红色三角形(岩藻糖)。参见例如2020年1月31日提交的PCT专利申请第PCT/US2020/0162861号的图1至图14,其出于所有目的通过引用整体并入本文。
III.生物标志物
本文阐述了生物标志物。这些生物标志物可用于多种应用,包括但不限于诊断疾病和病症。例如,本文所述的某些生物标志物或其组合可用于诊断结直肠癌或进展期腺瘤癌。在一些其他实例中,本文所述的某些生物标志物或其组合可用于诊断和筛选患有癌症、自身免疫性疾病或纤维化的患者。在一些实例中,本文所述的生物标志物或其组合可用于对患者进行分类,使得患者接受适当的医学治疗。在一些其他实例中,本文所述的生物标志物或其组合可用于通过例如鉴定用于治疗患者的治疗剂来治疗或改善患者的疾病或病症。在一些其他实例中,本文所述的生物标志物或其组合可用于确定患者治疗的预后或治疗方案成功或存活的可能性。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中包含SEQID NO:1-38中的任一者的氨基酸序列的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:1-38的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由选自SEQ ID NO:1-38的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:1-38的氨基酸序列组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中包含SEQID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者的氨基酸序列的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:5组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:8组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:9组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:10组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:11组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ IDNO:13组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:14组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:16组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:17组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:18组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:19组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:20组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:21组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:22组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:26组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:27组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:28组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ IDNO:30组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:31组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:34组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:35组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:36组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:37组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:38组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由序列SEQ ID NO:5组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:8组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:9组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:10组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:11组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:13组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:14组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:16组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:17组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQID NO:18组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:19组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:20组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQID NO:21组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:22组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:26组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQID NO:27组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:28组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:30组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQID NO:31组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:34组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:35组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQID NO:36组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:37组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由氨基酸序列SEQ ID NO:38组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由序列SEQ ID NO:5组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:8组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:9组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:10组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:11组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ IDNO:13组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:14组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:16组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:17组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:18组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:19组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:20组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:21组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:22组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:26组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:27组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:28组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:30组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:31组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQID NO:34组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:35组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:36组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:37组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由氨基酸序列SEQ ID NO:38组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中包含SEQID NO:3、7、9、28、29、32和33中的任一者的氨基酸序列的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由选自SEQID NO:3、7、9、28、29、32和33的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中包含SEQID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者的氨基酸序列的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中包含选自SEQ ID NO:1-38的至少一个氨基酸序列的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中基本上由选自SEQ ID NO:1-38的至少一个氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:1-38的至少一个氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由选自SEQ ID NO:1-38的至少一个氨基酸序列组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些其他实例中,本文的方法包括选择具有通过MS分析的样品的患者,其结果用于确定样品中包含选自SEQ ID NO:1-38的至少一个氨基酸序列的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些其他实例中,本文的方法包括选择具有通过MS分析的样品的患者,其结果用于确定样品中基本上由选自SEQ ID NO:1-38的至少一个氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些其他实例中,本文的方法包括选择具有通过MS分析的样品的患者,其结果用于确定样品中由选自SEQ ID NO:1-38的至少一个氨基酸序列组成的糖肽的存在、绝对量和/或相对量。在一些实例中,本文的方法包括选择具有通过MS分析的样品的患者,其结果用于确定样品中由选自SEQ ID NO:1-38的至少一个氨基酸序列组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
本文阐述了选自聚糖、肽、糖肽、其片段以及它们的组合的生物标志物。在一些实例中,糖肽由选自SEQ ID NO:1-38的氨基酸序列组成。在一些实例中,糖肽基本上由选自SEQ ID NO:1-38的氨基酸序列组成。
本文阐述了选自聚糖、肽、糖肽、其片段以及它们的组合的生物标志物。在一些实例中,糖肽包含选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列。在一些实例中,糖肽由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列组成。在一些实例中,糖肽基本上由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列组成。
本文阐述了选自聚糖、肽、糖肽、其片段以及它们的组合的生物标志物。在一些实例中,糖肽包含选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列。在一些实例中,糖肽由选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列组成。在一些实例中,糖肽基本上由选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列组成。
本文阐述了选自聚糖、肽、糖肽、其片段以及它们的组合的生物标志物。在一些实例中,糖肽包含选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列。在一些实例中,糖肽由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列组成。在一些实例中,糖肽基本上由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列组成。
a.O-糖基化
在一些实例中,本文所述的糖肽包括O-糖基化肽。这些肽包括糖肽,其中聚糖通过氨基酸的氧原子与肽结合。通常,与聚糖结合的氨基酸是苏氨酸(T)或丝氨酸(S)。在一些实例中,与聚糖结合的氨基酸是苏氨酸(T)。在一些实例中,与聚糖结合的氨基酸是丝氨酸(S)。
在某些实例中,O-糖基化肽包括选自以下的组的那些肽:α-1-抗胰蛋白酶、α-1B-糖蛋白、α-2-巨球蛋白、α-1-抗糜蛋白酶、α-1-酸性糖蛋白1、α-1-酸性糖蛋白2、载脂蛋白C-III(APOC3)、载脂蛋白D、钙蛋白酶-3、血浆铜蓝蛋白(Ceruloplasmin)、触珠蛋白(Haptoglobin)、免疫球蛋白重链恒定μ、血浆激肽释放酶、血清对氧磷酶/芳基酯酶1、蛋白质unc-13同系物A、α-2-HS-糖蛋白(FETUA)以及它们的组合。
在某些实例中,本文所述的O-糖基化肽是α-1-抗胰蛋白酶肽。在某些实例中,本文所述的O-糖基化肽是α-1B-糖蛋白肽。在某些实例中,本文所述的O-糖基化肽是α-2-巨球蛋白肽。在某些实例中,本文所述的O-糖基化肽是α-1-抗糜蛋白酶肽。在某些实例中,本文所述的O-糖基化肽是α-1-酸性糖蛋白1肽。在某些实例中,本文所述的O-糖基化肽是α-1-酸性糖蛋白2肽。在某些实例中,本文所述的O-糖基化肽是载脂蛋白C-III(APOC3)肽。在某些实例中,本文所述的O-糖基化肽是载脂蛋白D肽。在某些实例中,本文所述的O-糖基化肽是钙蛋白酶-3肽。在某些实例中,本文所述的O-糖基化肽是血浆铜蓝蛋白肽。在某些实例中,本文所述的O-糖基化肽是触珠蛋白肽。在某些实例中,本文所述的O-糖基化肽是免疫球蛋白重链恒定μ肽。在某些实例中,本文所述的O-糖基化肽是血浆激肽释放酶肽。在某些实例中,本文所述的O-糖基化肽是血清对氧磷酶/芳基酯酶1肽。在某些实例中,本文所述的O-糖基化肽是蛋白质unc-13同系物A肽。在某些实例中,本文所述的O-糖基化肽是α-2-HS-糖蛋白(FETUA)。
b.N-糖基化
在一些实例中,本文所述的糖肽包括N-糖基化肽。这些肽包括糖肽,其中聚糖通过氨基酸的氮原子与肽结合。通常,与聚糖结合的氨基酸是天冬酰胺(N)或精氨酸(R)。在一些实例中,与聚糖结合的氨基酸是天冬酰胺(N)。在一些实例中,与聚糖结合的氨基酸是精氨酸(R)。
在某些实例中,N-糖基化肽包括选自由以下组成的组的成员:在某些实例中,O-糖基化肽包括选自以下的组的那些肽:α-1-抗胰蛋白酶、α-1B-糖蛋白、α-2-巨球蛋白、α-1-抗糜蛋白酶、α-1-酸性糖蛋白1、α-1-酸性糖蛋白2、载脂蛋白C-III(APOC3)、载脂蛋白D、钙蛋白酶-3、血浆铜蓝蛋白、触珠蛋白、免疫球蛋白重链恒定μ、血浆激肽释放酶、血清对氧磷酶/芳基酯酶1、蛋白质unc-13同系物A、α-2-HS-糖蛋白(FETUA)以及它们的组合。
在某些实例中,本文所述的N-糖基化肽是α-1-抗胰蛋白酶肽。在某些实例中,本文所述的N-糖基化肽是α-1B-糖蛋白肽。在某些实例中,本文所述的N-糖基化肽是α-2-巨球蛋白肽。在某些实例中,本文所述的N-糖基化肽是α-1-抗糜蛋白酶肽。在某些实例中,本文所述的N-糖基化肽是α-1-酸性糖蛋白1肽。在某些实例中,本文所述的N-糖基化肽是α-1-酸性糖蛋白2肽。在某些实例中,本文所述的N-糖基化肽是载脂蛋白C-III(APOC3)肽。在某些实例中,本文所述的N-糖基化肽是载脂蛋白D肽。在某些实例中,本文所述的N-糖基化肽是钙蛋白酶-3肽。在某些实例中,本文所述的N-糖基化肽是血浆铜蓝蛋白肽。在某些实例中,本文所述的N-糖基化肽是触珠蛋白肽。在某些实例中,本文所述的N-糖基化肽是免疫球蛋白重链恒定μ肽。在某些实例中,本文所述的N-糖基化肽是血浆激肽释放酶肽。在某些实例中,本文所述的N-糖基化肽是血清对氧磷酶/芳基酯酶1肽。在某些实例中,本文所述的N-糖基化肽是蛋白质unc-13同系物A肽。在某些实例中,本文所述的N-糖基化肽是α-2-HS-糖蛋白(FETUA)。
c.肽和糖肽
在一些实例中,本文阐述了包含选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列的糖肽。
在一些实例中,本文阐述了由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:1的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:1的糖肽还包含聚糖5411,其中聚糖与残基107结合。在一些实例中,糖肽是A1AT-GP001_107_5411,参见例如表10。这里的A1AT是指α-1-抗胰蛋白酶。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:2的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:2的糖肽还包含聚糖6503,其中聚糖与残基271结合。在一些实例中,糖肽是A1AT-GP001_271_6503,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:3的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:3的糖肽还包含聚糖5401,其中聚糖与残基271结合。在一些实例中,糖肽是A1AT-GP001_271_5401,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:4的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:4的糖肽还包含聚糖5402,其中聚糖与残基179结合。在一些实例中,糖肽是A1BG-GP002_179_5421/5402,参见例如表10。这里的A1BG是指α-1B-糖蛋白。在本文中,当两种聚糖之间带有正斜杠(/)时,这意味着除非另有明确说明,否则质谱分析方法无法区分这两种聚糖,例如,因为它们共享共同的质荷比。除非另有说明,否则5421/5402意味着存在聚糖5421或5402。聚糖5421/5402的量的定量包括任何聚糖5421的检测量和任何聚糖5402的检测量的总和。这里的A1BG是指α-1B-糖蛋白。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:5的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:5的糖肽还包含聚糖5402,其中聚糖与残基1424结合。在一些实例中,糖肽是A2MG-GP004_1424_5402,参见例如表10。这里的A2MG是指α-2-巨球蛋白。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:6的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:6的糖肽还包含聚糖5412,其中聚糖与残基1424结合。在一些实例中,糖肽是A2MG-GP004_1424_5412,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:7的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:7的糖肽还包含聚糖5402,其中聚糖与残基55结合。在一些实例中,糖肽是A2MG-GP004_55_5402,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:8的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:8的糖肽还包含聚糖5401,其中聚糖与残基869结合。在一些实例中,糖肽是A2MG-GP004_869_5401,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:9的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:9的糖肽还包含聚糖6301,其中聚糖与残基869结合。在一些实例中,糖肽是A2MG-GP004_869_6301,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:10的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:10的糖肽还包含聚糖7603,其中聚糖与残基271结合。在一些实例中,糖肽是AACT-GP005_271_7603,参见例如表10。这里AACT是指α-1-抗糜蛋白酶。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:11的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:11的糖肽还包含聚糖9804,其中聚糖与残基103结合。在一些实例中,糖肽是AGP1-GP007_103_9804,参见例如表10。这里的AGP是指α-1-酸性糖蛋白1。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:12的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:12的糖肽还包含聚糖6501,其中聚糖与残基33结合。在一些实例中,糖肽是AGP1-GP007_33_6501,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:13的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:13的糖肽还包含聚糖6502,其中聚糖与残基93结合。在一些实例中,糖肽是AGP1-GP007_93_6502,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:14的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:14的糖肽还包含聚糖7611,其中聚糖与残基93结合。在一些实例中,糖肽是AGP1-GP007_93_7611,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:15的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:15的糖肽还包含聚糖6503,其中聚糖与残基103结合。在一些实例中,糖肽是AGP2-GP008_103_6503,参见例如表10。这里的AGP是指α-1-酸性糖蛋白2。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:16的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:16的糖肽还包含聚糖1102,其中聚糖与残基74结合。在一些实例中,糖肽是APOC3-GP012_74_1102,参见例如表10。这里的APOC是指载脂蛋白C-III。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:17的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:17的糖肽还包含聚糖5402或5421,其中聚糖与残基98结合。在一些实例中,糖肽是APOD-GP014_98_5402/5421,参见例如表10。这里的APOD是指载脂蛋白D。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:18的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:18的糖肽还包含聚糖5410,其中聚糖与残基98结合。在一些实例中,糖肽是APOD-GP014_98_5410,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:19的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:19的糖肽还包含聚糖6510,其中聚糖与残基98结合。在一些实例中,糖肽是APOD-GP014_98_6510,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:20的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:20的糖肽还包含聚糖6530,其中聚糖与残基98结合。在一些实例中,糖肽是APOD-GP014_98_6530,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:21的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:21的糖肽还包含聚糖9800,其中聚糖与残基98结合。在一些实例中,糖肽是APOD-GP014_98_9800,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:22的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:22的糖肽还包含聚糖6513,其中聚糖与残基366结合。在一些实例中,糖肽是CAN3-GP022_366_6513,参见例如表10。这里的CAN是指钙蛋白酶-3。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:23的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:23的糖肽还包含聚糖5412,其中聚糖与残基138结合。在一些实例中,糖肽是CERU-GP023_138_5412,参见例如表10。这里的CERU是指血浆铜蓝蛋白。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:24的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:24的糖肽还包含聚糖5421或5402,其中聚糖与残基138结合。在一些实例中,糖肽是CERU-GP023_138_5421/5402,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:25的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:25的糖肽还包含聚糖5401,其中聚糖与残基176结合。在一些实例中,糖肽是FETUA-GP036_176_5401,参见例如表10。这里的FETUA是指α-2-HS-糖蛋白。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:26的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:26的糖肽还包含聚糖6513,其中聚糖与残基176结合。在一些实例中,糖肽是FETUA-GP036_176_6513,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:27的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:27的糖肽还包含聚糖5401,其中聚糖与残基207结合。在一些实例中,糖肽是HPT-GP044_207_5401,参见例如表10。这里的HPT是指触珠蛋白。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:28的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:28的糖肽还包含聚糖5402或5421,其中聚糖与残基241结合。在一些实例中,糖肽是HPT-GP044_241_5402/5421,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:29的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:29的糖肽还包含聚糖5511,其中聚糖与残基241结合。在一些实例中,糖肽是HPT-GP044_241_5511,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:30的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:30的糖肽还包含聚糖6511,其中聚糖与残基241结合。在一些实例中,糖肽是HPT-GP044_241_6511,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:31的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:31的糖肽还包含聚糖7511,其中聚糖与残基241结合。在一些实例中,糖肽是HPT-GP044_241_7511,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:31的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:31的糖肽还包含聚糖4310,其中聚糖与残基46结合。在一些实例中,糖肽是IgM-GP053_46_4310,参见例如表10。这里的IgM是指免疫球蛋白重链恒定μ。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:33的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:33的糖肽还包含聚糖6503,其中聚糖与残基494结合。在一些实例中,糖肽是KLKB1-GP056_494_6503,参见例如表10。这里的KLKB是指血浆激肽释放酶。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:34的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:34的糖肽还包含聚糖5420,其中聚糖与残基324结合。在一些实例中,糖肽是PON1-GP060_324_5420,参见例如表10。这里的PON是指血清对氧磷酶/芳基酯酶1。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:35的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:35的糖肽还包含聚糖6501,其中聚糖与残基324结合。在一些实例中,糖肽是PON1-GP060_324_6501,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:36的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:36的糖肽还包含聚糖6502,其中聚糖与残基324结合。在一些实例中,糖肽是PON1-GP060_324_6502,参见例如表10。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:37的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:37的糖肽还包含聚糖5431,其中聚糖与残基1005结合。在一些实例中,糖肽是UN13A-GP066_1005_5431,参见例如表10。这里的UN13是指蛋白质unc-13同系物A。
在某些实例中,糖肽氨基酸序列包含选自SEQ ID NO:38的氨基酸序列、由其组成或基本上由其组成。在特定实例中,根据SEQ ID NO:38的糖肽还包含聚糖7420,其中聚糖与残基1005结合。在一些实例中,糖肽是UN13A-GP066_1005_7420,参见例如表10。
在包括任何前述实例在内的一些实例中,糖肽包含选自SEQ ID NO:1-38或它们的组合的至少一个氨基酸序列。在包括任何前述实例在内的一些实例中,糖肽是选自SEQ IDNO:1-38的氨基酸序列的组合。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合的氨基酸序列组成的肽。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是由选自SEQ ID NO:3、7、9、28、29、32和33以及它们的组合的氨基酸序列组成的肽。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合的氨基酸序列组成的肽。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是包含选自SEQ ID NO:1-38或它们的组合的至少一个氨基酸序列的肽。在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是基本上由选自SEQ ID NO:1-38以及它们的组合的至少一个氨基酸序列组成的肽。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是包含选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38或它们的组合的至少一个氨基酸序列的肽。在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是基本上由选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合的氨基酸序列组成的肽。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是包含选自SEQ ID NO:3、7、9、28、29、32和33或它们的组合的至少一个氨基酸序列的肽。在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是基本上由选自SEQ ID NO:3、7、9、28、29、32和33以及它们的组合的氨基酸序列组成的肽。
在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是包含选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32或它们的组合的至少一个氨基酸序列的肽。在包括任何前述实例在内的一些实例中,本文阐述的是一种或多种肽,其中每种肽在每种情况下单独是基本上由选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合的氨基酸序列组成的肽。
IV.使用生物标志物的方法
A.检测糖肽的方法
在一些实施方案中,本文阐述了一种用于检测一个或多个多重反应监测(MRM)转变的方法,其包括:获得或已经获得来自患者的生物样品,其中所述生物样品包含表9中所示的一种或多种糖蛋白;将样品中的一种或多种糖蛋白消化和/或片段化成一种或多种糖肽;以及检测选自由转变1-38组成的组的多重反应监测(MRM)转变。在一些实施方案中,转变1-38对应于包含来自生物样品的至少一种肽结构的肽结构数据。在一些实施方案中,至少一种肽结构包含表10中所示的一种或多种糖肽结构。在一些实施方案中,至少一种肽结构包含含有SEQ ID NO:1-38中的任一者的氨基酸序列的一种或多种糖肽。
在一些实施方案中,本文阐述了一种用于检测一个或多个多重反应监测(MRM)转变的方法,其包括:获得或已经获得来自患者的生物样品,其中所述生物样品包含一种或多种糖肽;消化和/或片段化样品中的糖肽;以及检测选自由转变1-38组成的组的多重反应监测(MRM)转变。在各种实例中,这些转变可以包括表1-5中的任何一个或多个转变。在各种实例中,这些转变可以包括表1-3中的任何一个或多个转变。在各种实例中,这些转变可以包括表1中的任何一个或多个转变。在各种实例中,这些转变可以包括表2中的任何一个或多个转变。在各种实例中,这些转变可以包括表3中的任何一个或多个转变。在各种实例中,这些转变可以包括表4中的任何一个或多个转变。在各种实例中,这些转变可以包括表5中的任何一个或多个转变。这些转变可指示糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中所述一种或多种糖肽选自表10。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:5组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:8组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:9组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:10组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:11组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:13组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:14组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:16组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:17组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:18组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQID NO:19组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:20组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:21组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:22组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:26组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ IDNO:27组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:28组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:30组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:31组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:34组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:35组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:36组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:37组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:38组成。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:5组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:8组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:9组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQID NO:10组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:11组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:13组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:14组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:16组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:17组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:18组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:19组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:20组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:21组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:22组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:26组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:27组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:28组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:30组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQID NO:31组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:34组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:35组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:36组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:37组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽基本上由氨基酸序列SEQ ID NO:38组成。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,通过MS分析来自患者的样品,并且将结果用于确定样品中由序列SEQ ID NO:5组成或基本上由其组成的糖肽的存在、绝对量和/或相对量。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:8组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:9组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:10组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQID NO:11组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:13组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:14组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:16组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:17组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQID NO:18组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:19组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:20组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:21组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:22组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQID NO:26组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:27组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:28组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:30组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:31组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQID NO:34组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:35组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:36组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:37组成或基本上由其组成。在一些实例中,本文阐述了一种检测样品中的糖肽的方法,其中所述糖肽由氨基酸序列SEQ ID NO:38组成或基本上由其组成。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法,其中每种糖肽在每种情况下单独选自基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在一些实例中,本文阐述了一种检测一种或多种糖肽的方法。在一些实例中,本文阐述了一种检测一种或多种糖肽片段的方法。在某些实例中,所述方法包括检测糖肽或其片段所属的糖肽组。在一些实例中,所述方法包括检测表9中所示的糖蛋白。在一些实例中,所述方法包括检测包含SEQ ID NO:39-54中的任一者的氨基酸序列的糖蛋白。在这些实例中的一些中,糖肽组选自α-1-抗胰蛋白酶(A1AT)、α-1B-糖蛋白(A1BG)、α-2-巨球蛋白(A2MG)、α-1-抗糜蛋白酶(AACT)、α-1-酸性糖蛋白1和2(AGP12)、α-1-酸性糖蛋白1(AGP1)、α-1-酸性糖蛋白2(AGP2)、载脂蛋白C-III(APOC3)、载脂蛋白D(APOD)、钙蛋白酶-3(CAN3)、血浆铜蓝蛋白(CERU)、α-2-HS糖蛋白(FETUA);触珠蛋白(HPT)、免疫球蛋白重链恒定μ(IgM)、血浆激肽释放酶(KLKB1)、血清对氧磷酶/芳基酯酶1(PON1)、蛋白质unc-13同系物A(UN13A)以及它们的组合。
在这些实例中的一些中,糖肽组是α-1-抗胰蛋白酶(A1AT)。在这些实例中的一些中,糖肽组是α-1B-糖蛋白(A1BG)。在这些实例中的一些中,糖肽组是α-2-巨球蛋白(A2MG)。在这些实例中的一些中,糖肽组是α-1-抗糜蛋白酶(AACT)。在这些实例中的一些中,糖肽组是α-1-酸性糖蛋白1和2(AGP12)。在这些实例中的一些中,糖肽组是α-1-酸性糖蛋白1(AGP1)。在这些实例中的一些中,糖肽组是α-1-酸性糖蛋白2(AGP2)。在这些实例中的一些中,糖肽组是载脂蛋白C-III(APOC3)。在这些实例中的一些中,糖肽组是载脂蛋白D(APOD)。在这些实例中的一些中,糖肽组是钙蛋白酶-3(CAN3)。在这些实例中的一些中,糖肽组是血浆铜蓝蛋白(CERU)。在这些实例中的一些中,糖肽组是α-2-HS糖蛋白(FETUA)。在这些实例中的一些中,糖肽组是触珠蛋白(HPT)。在这些实例中的一些中,糖肽组是免疫球蛋白重链恒定μ(IgM)。在这些实例中的一些中,糖肽组是血浆激肽释放酶(KLKB1)。在这些实例中的一些中,糖肽组是血清对氧磷酶/芳基酯酶1(PON1)。在这些实例中的一些中,糖肽组是蛋白质unc-13同系物A(UN13A)。在一些实例中,糖蛋白组由表9中的一种或多种糖蛋白表示。在一些实例中,糖蛋白组包含SEQ ID NO:39-54中的任一者的氨基酸序列。
在包括任何前述实例在内的一些实例中,所述方法包括检测糖肽、糖肽上的聚糖和聚糖与糖肽结合的糖基化位点残基。在某些实例中,所述方法包括检测聚糖残基。在一些实例中,所述方法包括检测糖肽上的糖基化位点。在一些实例中,此过程是通过质谱分析与液相色谱法联用来完成的。
在包括任何前述实例在内的一些实例中,所述方法包括获得或已经获得来自患者的生物样品。在一些实例中,生物样品是滑液、全血、血清、血浆、尿液、痰、组织、唾液、泪液、脊髓液、通过活检获得的组织切片、置于组织培养中或适应组织培养的细胞、汗液、粘液、粪便物质、胃液、腹腔液、羊水、囊肿液、腹膜液、胰液、母乳、肺灌洗液、骨髓、胃酸、胆汁、精液、脓液、房水、渗出液或上述物质的组合。在某些实例中,生物样品选自由以下组成的组:血液、血浆、唾液、粘液、尿液、粪便、组织、汗液、泪液、毛发或它们的组合。在这些实例中的一些中,生物样品是血液样品。在这些实例中的一些中,生物样品是血浆样品。在这些实例中的一些中,生物样品是唾液样品。在这些实例中的一些中,生物样品是粘液样品。在这些实例中的一些中,生物样品是尿液样品。在这些实例中的一些中,生物样品是粪便样品。在这些实例中的一些中,生物样品是汗液样品。在这些实例中的一些中,生物样品是泪液样品。在这些实例中的一些中,生物样品是毛发样品。
在包括任何前述实例在内的一些实例中,所述方法还包括消化和/或片段化样品中的糖肽。在某些实例中,所述方法包括消化样品中的糖肽。在某些实例中,所述方法包括片段化样品中的糖肽。在一些实例中,使用质谱分析来分析消化或片段化的糖肽。在一些实例中,使用消化酶以溶液相消化或片段化糖肽。在一些实例中,在质谱仪或与质谱仪相关的仪器中以气相消化或片段化糖肽。在一些实例中,使用机器学习算法来分析质谱分析结果。在一些实例中,质谱分析结果是糖肽、聚糖、肽及其片段的定量。在一些实例中,此定量被用作经训练的模型中的输入以生成输出概率。输出概率是在给定类别或分类内的概率,例如患有结直肠癌或进展期腺瘤的分类或未患结直肠癌或进展期腺瘤的分类。在一些其他实例中,输出概率是在给定类别或分类内的概率,例如患有癌症的分类或未患癌症的分类。在一些其他实例中,输出概率是在给定类别或分类内的概率,例如患有自身免疫性疾病的分类或未患自身免疫性疾病的分类。在一些其他实例中,输出概率是在给定类别或分类内的概率,例如患有纤维化的分类或未患纤维化的分类。
在包括任何前述实例在内的一些实例中,所述方法包括将样品或其一部分引入质谱仪中。
在包括任何前述实例在内的一些实例中,所述方法包括在将样品或其一部分引入质谱仪中后片段化样品中的糖肽。
在包括任何前述实例在内的一些实例中,使用多重反应监测(MRM)模式进行质谱分析。在一些实例中,在数据依赖性采集中使用QTOF MS进行质谱分析。在一些实例中,使用仅MS模式进行质谱分析。在一些实例中,免疫测定与质谱分析联用。
在包括任何前述实例在内的一些实例中,所述方法包括在将样品或其一部分引入质谱仪中之前消化样品中的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括片段化样品中的糖肽以提供糖肽离子、肽离子、聚糖离子、聚糖加合物离子或聚糖片段离子。
在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括消化样品中的糖肽以提供由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括消化样品中的糖肽以提供基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括片段化样品中的糖肽以提供由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括片段化样品中的糖肽以提供基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31、3-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在一些实例中,所述方法提供了基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括检测选自由转变1-38组成的组的多重反应监测(MRM)转变。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中糖肽基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成。在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽的MRM转变。在一些实例中,所述方法包括检测超过一个选自由转变1-38组成的组中的成员组合的MRM转变。在一些实例中,所述方法包括检测超过一个指示具有选自SEQ ID NO:1-38的氨基酸序列的糖肽的组合的MRM转变。
在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的MRM转变。在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及组合组成的组的氨基酸序列组成的糖肽的MRM转变。在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及组合组成的组的氨基酸序列组成的糖肽的MRM转变。
在一些实例中,所述方法包括检测超过一个指示具有选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列的糖肽的组合的MRM转变。在一些实例中,所述方法包括检测超过一个指示具有选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列的糖肽的组合的MRM转变。在一些实例中,所述方法包括检测超过一个指示具有选自SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32的氨基酸序列的糖肽的组合的MRM转变。
在包括任何前述实例在内的一些实例中,所述方法包括使用多重反应监测质谱分析(MRM-MS)对生物样品进行质谱分析。
在包括任何前述实例在内的一些实例中,所述方法包括消化样品中的糖肽以提供基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在某些实例中,生物样品与化学试剂组合。在某些实例中,生物样品与酶组合。在一些实例中,酶是脂肪酶。在一些实例中,酶是蛋白酶。在一些实例中,酶是丝氨酸蛋白酶。在这些实例中的一些中,酶选自由以下组成的组:胰蛋白酶、糜蛋白酶、凝血酶、弹性蛋白酶和枯草杆菌蛋白酶。在这些实例中的一些中,酶是胰蛋白酶。在一些实例中,所述方法包括使至少两种蛋白酶与样品中的糖肽接触。在一些实例中,所述至少两种蛋白酶选自由以下组成的组:丝氨酸蛋白酶、苏氨酸蛋白酶、半胱氨酸蛋白酶、天冬氨酸蛋白酶。在一些实例中,所述至少两种蛋白酶选自由以下组成的组:胰蛋白酶、糜蛋白酶、内切蛋白酶、Asp-N、Arg-C、Glu-C、Lys-C、胃蛋白酶、嗜热菌蛋白酶、弹性蛋白酶、木瓜蛋白酶、蛋白酶K、枯草杆菌蛋白酶、梭菌蛋白酶和羧肽酶蛋白酶、谷氨酸蛋白酶、金属蛋白酶和天冬酰胺肽裂解酶。
在包括任何前述实例在内的一些实例中,所述方法包括检测选自由转变1-38组成的组的多重反应监测(MRM)转变。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成或基本上由其组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中糖肽基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成。在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽的MRM转变。在一些实例中,所述方法包括检测超过一个选自由转变1-38组成的组中的成员组合的MRM转变。在一些实例中,所述方法包括检测超过一个指示具有选自SEQ ID NO:1-38的氨基酸序列的糖肽的组合的MRM转变。
在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成或基本上由其组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成或基本上由其组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成或基本上由其组成。
在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。在一些实例中,所述方法包括检测指示糖肽或聚糖残基的MRM转变,其中所述糖肽基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32以及它们的组合组成的组的氨基酸序列组成。
在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的MRM转变。在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽的MRM转变。在一些实例中,所述方法包括检测指示基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽的MRM转变。
在一些实例中,所述方法包括检测超过一个选自由转变5、8-11、13-14、16-22、26-28、30-31和34-38组成的组中的成员组合的MRM转变。在一些实例中,所述方法包括检测超过一个选自由转变3、7、9、28、29、32和33组成的组中的成员组合的MRM转变。在一些实例中,所述方法包括检测超过一个选自由转变1-4、6-7、12、15、23-25、28、29和32组成的组中的成员组合的MRM转变。
在一些实例中,所述方法包括检测超过一个指示具有选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列的糖肽的组合的MRM转变。在一些实例中,所述方法包括检测超过一个指示具有选自SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列的糖肽的组合的MRM转变。在一些实例中,所述方法包括检测超过一个指示具有选自SEQ IDNO:1-4、6-7、12、15、23-25、28、29、32的氨基酸序列的糖肽的组合的MRM转变。
在包括任何前述实例在内的一些实例中,所述方法包括使用多重反应监测质谱分析(MRM-MS)对生物样品进行质谱分析。
在包括任何前述实例在内的一些实例中,所述方法包括消化样品中的糖肽以提供由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在某些实例中,使生物样品与一种或多种化学试剂接触。在某些实例中,使生物样品与一种或多种酶接触。在一些实例中,酶是脂肪酶。在一些实例中,酶是蛋白酶。在一些实例中,酶是丝氨酸蛋白酶。在这些实例中的一些中,酶选自由以下组成的组:胰蛋白酶、糜蛋白酶、凝血酶、弹性蛋白酶和枯草杆菌蛋白酶。在这些实例中的一些中,酶是胰蛋白酶。在一些实例中,所述方法包括使至少两种蛋白酶与样品中的糖肽接触。在一些实例中,所述至少两种蛋白酶选自由以下组成的组:丝氨酸蛋白酶、苏氨酸蛋白酶、半胱氨酸蛋白酶、天冬氨酸蛋白酶。在一些实例中,所述至少两种蛋白酶选自由以下组成的组:胰蛋白酶、糜蛋白酶、内切蛋白酶、Asp-N、Arg-C、Glu-C、Lys-C、胃蛋白酶、嗜热菌蛋白酶、弹性蛋白酶、木瓜蛋白酶、蛋白酶K、枯草杆菌蛋白酶、梭菌蛋白酶和羧肽酶蛋白酶、谷氨酸蛋白酶、金属蛋白酶和天冬酰胺肽裂解酶。
在包括任何前述实例在内的一些实例中,MRM转变选自表1、2或3中的任一个中的转变或它们的任何组合。
在包括任何前述实例在内的一些实例中,所述方法包括对生物样品进行串联液相色谱法-质谱分析。
在包括任何前述实例在内的一些实例中,所述方法包括对生物样品进行多重反应监测质谱分析(MRM-MS)质谱分析。
在包括任何前述实例在内的一些实例中,所述方法包括使用三重四极杆(QQQ)和/或四极杆飞行时间(qTOF)质谱仪检测MRM转变。在某些实例中,所述方法包括使用QQQ质谱仪检测MRM转变。在某些其他实例中,所述方法包括使用qTOF质谱仪进行检测。在一些实例中,适用于本方法的仪器是Agilent 6495B三重四极杆LC/MS,其可在www.agilent.com/en/products/mass-spectrometry/lc-ms-instruments/tripl e-quadrupole-lc-ms/6495b-triple-quadrupole-lc-ms上找到。在某些其他实例中,所述方法包括使用QQQ质谱仪进行检测。在一些实例中,适用于本方法的仪器是Agilent 6545LC/Q-TOF,其可在https://www.agilent.com/en/products/liquid-chromatography-ma ss-spectrometry-lc-ms/lc-ms-instruments/quadrupole-time-of-flight-lc-ms/6545-q-tof-lc-ms上找到。
在包括任何前述实例在内的一些实例中,所述方法包括使用QQQ和/或qTOF质谱仪检测超过一个MRM转变。在某些实例中,所述方法包括使用QQQ质谱仪检测超过一个MRM转变。在某些实例中,所述方法包括使用qTOF质谱仪检测超过一个MRM转变。在某些实例中,所述方法包括使用QQQ质谱仪检测超过一个MRM转变。
在包括任何前述实例在内的一些实例中,本文的方法包括定量一种或多种生物样品的一个或多个糖组学参数,包括采用偶联色谱程序。在一些实例中,这些糖组学参数包括糖肽组的鉴定、糖肽上的聚糖的鉴定、糖基化位点的鉴定、糖肽所包括的氨基酸序列部分的鉴定。在一些实例中,偶联色谱程序包括:进行或实现液相色谱法-质谱分析(LC-MS)操作。在一些实例中,偶联色谱程序包括:进行或实现多重反应监测质谱分析(MRM-MS)操作。在一些实例中,本文的方法包括偶联色谱程序,其包括:进行或实现液相色谱法-质谱分析(LC-MS)操作;以及实现多重反应监测质谱分析(MRM-MS)操作。在一些实例中,所述方法包括使用通过三重四极杆(QQQ)质谱分析操作和/或四极杆飞行时间(qTOF)质谱分析操作中的一个或多个获得的一种或多种生物样品的一个或多个糖组学参数来训练机器学习算法。在一些实例中,所述方法包括使用通过三重四极杆(QQQ)质谱分析操作获得的一种或多种生物样品的一个或多个糖组学参数来训练机器学习算法。在一些实例中,所述方法包括使用通过四极杆飞行时间(qTOF)质谱分析操作获得的一种或多种生物样品的一个或多个糖组学参数来训练机器学习算法。在一些实例中,所述方法包括定量一种或多种生物样品的一个或多个糖组学参数,其包括采用三重四极杆(QQQ)质谱分析操作和四极杆飞行时间(qTOF)质谱分析操作中的一个或多个。在一些实例中,机器学习算法用于定量这些糖组学参数。在包括任何前述实例在内的一些实例中,使用多重反应监测(MRM)模式进行质谱分析。在一些实例中,在数据依赖性采集中使用QTOF MS进行质谱分析。在一些实例中,使用仅MS模式进行质谱分析。在一些实例中,免疫测定(例如,ELISA)与质谱分析联用。
在包括任何前述实例在内的一些实例中,糖肽或其组合由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成。
在包括任何前述实例在内的一些实例中,糖肽或其组合基本上由选自由SEQ IDNO:1-38以及它们的组合组成的组的氨基酸序列组成。
在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,糖肽或其组合由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。在包括任何前述实例在内的一些实例中,糖肽或其组合由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。在包括任何前述实例在内的一些实例中,糖肽或其组合由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
在包括任何前述实例在内的一些实例中,糖肽或其组合基本上由选自由SEQ IDNO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。在包括任何前述实例在内的一些实例中,糖肽或其组合基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。在包括任何前述实例在内的一些实例中,糖肽或其组合基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。在包括任何前述实例在内的一些实例中,所述方法包括消化和/或片段化样品中的糖肽以提供基本上由选自由SEQID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括检测指示选自由以下组成的组的聚糖的一个或多个MRM转变:聚糖3200、3210、3300、3310、3320、3400、3410、3420、3500、3510、3520、3600、3610、3620、3630、3700、3710、3720、3730、3740、4200、4210、4300、4301、4310、4311、4320、4400、4401、4410、4411、4420、4421、4430、4431、4500、4501、4510、4511、4520、4521、4530、4531、4540、4541、4600、4601、4610、4611、4620、4621、4630、4631、4641、4650、4700、4701、4710、4711、4720、4730、5200、5210、5300、5301、5310、5311、5320、5400、5401、5402、5410、5411、5412、5420、5421、5430、5431、5432、5500、5501、5502、5510、5511、5512、5520、5521、5522、5530、5531、5541、5600、5601、5602、5610、5611、5612、5620、5621、5631、5650、5700、5701、5702、5710、5711、5712、5720、5721、5730、5731、6200、6210、6300、6301、6310、6311、6320、6400、6401、6402、6410、6411、6412、6420、6421、6432、6500、6501、6502、6503、6510、6511、6512、6513、6520、6521、6522、6530、6531、6532、6540、6541、6600、6601、6602、6603、6610、6611、6612、6613、6620、6621、6622、6623、6630、6631、6632、6640、6641、6642、6652、6700、6701、6711、6721、6703、6713、6710、6711、6712、6713、6720、6721、6730、6731、6740、7200、7210、7400、7401、7410、7411、7412、7420、7421、7430、7431、7432、7500、7501、7510、7511、7512、7600、7601、7602、7603、7604、7610、7611、7612、7613、7614、7620、7621、7622、7623、7632、7640、7700、7701、7702、7703、7710、7711、7712、7713、7714、7720、7721、7722、7730、7731、7732、7740、7741、7751、8200、9200、9210、10200、11200、12200以及它们的组合。在本文中,这些聚糖在图1至图14中示出。
在包括任何前述实例在内的一些实例中,所述方法包括定量聚糖。
在包括任何前述实例在内的一些实例中,所述方法包括定量第一聚糖和定量第二聚糖;并且还包括将第一聚糖的定量与第二聚糖的定量进行比较。
在包括任何前述实例在内的一些实例中,所述方法包括将检测到的聚糖与聚糖结合的肽残基位点相关。
在包括任何前述实例在内的一些实例中,所述方法包括生成样品的糖基化谱。
在包括任何前述实例在内的一些实例中,所述方法包括对与样品相关的组织切片上的聚糖进行空间图谱分析。在包括任何前述实例在内的一些实例中,所述方法包括对与样品相关的组织切片上的糖肽进行空间图谱分析。在一些实例中,所述方法包括与本文的方法联用的基质辅助激光解吸电离飞行时间质谱分析(MALDI-TOF)质谱分析。
在包括任何前述实例在内的一些实例中,所述方法包括定量聚糖和/或肽的相对丰度。
在包括任何前述实例在内的一些实例中,所述方法包括通过定量基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽并将所述定量与另一种化学物质的量进行比较对糖肽的量进行归一化。在一些实例中,所述方法包括通过定量由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽并将所述定量与由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的另一种糖肽的量进行比较来对肽的量进行归一化。在一些实例中,所述方法包括通过定量基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的糖肽并将所述定量与基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的另一种糖肽的量进行比较来对肽的量进行归一化。
B.对包含糖肽的样品进行分类的方法
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独包含氨基酸序列或SEQ ID NO:1-38中的任一者以及表10和如本文所述的任何相关聚糖以及它们的组合;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独包含选自由SEQ ID NO:1-38组成或基本上由其组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合或基本上由其组成或由其组成;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独包含氨基酸序列或SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者以及表10和如本文所述的任何相关聚糖以及它们的组合;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独地基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成或基本上由其组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独包含氨基酸序列或SEQ ID NO:3、7、9、28、29、32和33中的任一者以及表10和如本文所述的任何相关聚糖以及它们的组合;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独地基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成或基本上由其组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独包含氨基酸序列或SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者以及表10和如本文所述的任何相关聚糖以及它们的组合;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在另一个实施方案中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括:通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独地基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成或基本上由其组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成;并将定量输入到经训练的模型中以生成输出概率;确定输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来鉴定对样品的分类。
在一些实例中,本文阐述了一种用于对糖肽进行分类的方法,其包括:获得或已经获得来自患者的生物样品;消化和/或片段化样品中的糖肽;检测选自由转变1-38组成的组的多重反应监测(MRM)转变;以及基于检测到的MRM转变对糖肽进行分类。在一些实例中,使用机器学习算法将所分析的MRM转变作为输入来训练模型。在一些实例中,使用MRM转变作为训练数据集来训练机器学习算法。在一些实例中,本文的方法包括基于糖肽、肽和聚糖的质谱分析相对丰度来鉴定糖肽、肽和聚糖。在一些实例中,一种或多种机器学习算法选择和/或鉴定质谱分析谱图中的峰。
在一些实例中,本文阐述了一种用于对糖肽进行分类的方法,其包括:获得或已经获得来自个体的生物样品;消化和/或片段化样品中的糖肽;检测选自由转变1-38组成的组的多重反应监测(MRM)转变;以及基于检测到的MRM转变对糖肽进行分类。在一些实例中,使用机器学习算法将所分析的MRM转变作为输入来训练模型。在一些实例中,使用MRM转变作为训练数据集来训练机器学习算法。在一些实例中,本文的方法包括基于糖肽、肽和聚糖的质谱分析相对丰度来鉴定糖肽、肽和聚糖。在一些实例中,一种或多种机器学习算法选择和/或鉴定质谱分析谱图中的峰。
在一些实例中,本文阐述了一种使用MRM转变作为输入数据集来训练机器学习算法的方法。在一些实例中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括通过质谱分析(MS)来定量样品中的糖肽,其中所述糖肽由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成或基本上由其组成;以及基于定量来鉴定分类。在一些实例中,定量包括确定样品中是否存在糖肽或糖肽的组合。在一些实例中,定量包括确定样品中糖肽或糖肽的组合的相对丰度。在一些实例中,基于输入检测到的多肽或MRM转变的定量使用经训练的模型来生成输出概率。
在一些实例中,本文阐述了一种使用MRM转变作为输入数据集来训练机器学习算法的方法。在一些实例中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括通过质谱分析(MS)来定量样品中的糖肽,其中所述糖肽由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成或基本上由其组成;以及基于定量来鉴定分类。在一些实例中,定量包括确定样品中是否存在糖肽或糖肽的组合。在一些实例中,定量包括确定样品中糖肽或糖肽的组合的相对丰度。在一些实例中,基于输入检测到的多肽或MRM转变的定量使用经训练的模型来生成输出概率。
在一些实例中,本文阐述了一种使用MRM转变作为输入数据集来训练机器学习算法的方法。在一些实例中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括通过质谱分析(MS)来定量样品中的糖肽,其中所述糖肽由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成或基本上由其组成;以及基于定量来鉴定分类。在一些实例中,定量包括确定样品中是否存在糖肽或糖肽的组合。在一些实例中,定量包括确定样品中糖肽或糖肽的组合的相对丰度。在一些实例中,基于输入检测到的多肽或MRM转变的定量使用经训练的模型来生成输出概率。
在一些实例中,本文阐述了一种使用MRM转变作为输入数据集来训练机器学习算法的方法。在一些实例中,本文阐述了一种用于鉴定对样品的分类的方法,所述方法包括通过质谱分析(MS)来定量样品中的糖肽,其中所述糖肽由选自由SEQ ID NO:1-38组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)以及它们的组合组成或基本上由其组成;以及基于定量来鉴定分类。在一些实例中,定量包括确定样品中是否存在糖肽或糖肽的组合。在一些实例中,定量包括确定样品中糖肽或糖肽的组合的相对丰度。在一些实例中,基于输入检测到的多肽或MRM转变的定量使用经训练的模型来生成输出概率。
在包括任何前述实例在内的一些实例中,所述样品是来自患有疾病或病症的患者的生物样品。
在包括任何前述实例在内的一些实例中,所述患者患有结直肠癌或进展期腺瘤。
在包括任何前述实例在内的一些实例中,所述患者患有癌症。
在包括任何前述实例在内的一些实例中,所述患者患有纤维化。
在包括任何前述实例在内的一些实例中,所述患者患有自身免疫性疾病。
在包括任何前述实例在内的一些实例中,所述疾病或病症为结直肠癌或进展期腺瘤。
在包括任何前述实例在内的一些实例中,MS是使用QQQ和/或qTOF质谱仪的MRM-MS。
在包括任何前述实例在内的一些实例中,使用多重反应监测(MRM)模式进行质谱分析。在一些实例中,在数据依赖性采集中使用QTOF MS进行质谱分析。在一些实例中,使用仅MS模式进行质谱分析。在一些实例中,免疫测定与质谱分析联用。
在包括任何前述实例在内的一些实例中,机器学习算法选自由以下组成的组:深度学习算法、神经网络算法、人工神经网络算法、监督机器学习算法、线性判别分析算法、二次判别分析算法、支持向量机算法、线性基函数核支持向量算法、径向基函数核支持向量算法、随机森林算法、遗传算法、最近邻算法、k-最近邻、朴素贝叶斯分类器算法(naive Bayesclassifier algorithm)、逻辑回归算法、正则化回归算法或它们的组合。在某些实例中,机器学习算法是LASSO回归。在某些实例中,机器学习算法是组合判别分析。
在包括任何前述实例在内的一些实例中,所述方法包括将样品分类为疾病分类或疾病严重程度分类内或由其包含的分类。
在包括任何前述实例在内的一些实例中,所述方法包括在第一时间点通过MS定量样品中的糖肽;在第二时间点通过MS定量样品中的糖肽;以及将第一时间点的定量与第二时间点的定量进行比较。
在包括任何前述实例在内的一些实例中,所述方法包括在第三时间点通过MS定量样品中的不同糖肽;在第四时间点通过MS定量样品中的不同糖肽;以及将第四时间点的定量与第三时间点的定量进行比较。
在包括任何前述实例在内的一些实例中,所述方法包括监测患者的健康状态。
在包括任何前述实例在内的一些实例中,监测患者的健康状态包括监测具有诸如基因突变的风险因素的患者的疾病发作和进展,以及检测癌症复发。在一些实施方案中,患者具有结直肠癌(CRC)的一个或多个风险因素或临床指标。在一些实施方案中,受试者具有与CRC相关的一个或多个风险因素。在一些实施方案中,CRC的风险因素选自由以下组成的组:年龄、肠易激疾病、2型糖尿病、CRC家族史、遗传综合征(例如,林奇综合征(Lynchsyndrome))、肥胖、吸烟、饮酒、饮食选择和身体活动受限。在一些实施方案中,CRC的临床指标选自由以下组成的组:排便习惯改变、血便、腹泻、便秘、持续性腹痛、持续性腹部绞痛和不明原因的体重减轻。在一些实施方案中,确定个体具有健康状态,其中健康状态包括不存在CRC或AA。在一些实施方案中,所述方法还包括生成报告,所述报告包括基于针对受试者检测到的对应状态的诊断。
在包括任何前述实例在内的一些实例中,所述方法包括通过MS定量由选自由SEQID NO:1-38组成的组的氨基酸序列组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括通过MS定量基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列以及任何相关聚糖(例如如本文所述)组成的糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括通过MS定量选自由以下组成的组的一种或多种聚糖:聚糖3200、3210、3300、3310、3320、3400、3410、3420、3500、3510、3520、3600、3610、3620、3630、3700、3710、3720、3730、3740、4200、4210、4300、4301、4310、4311、4320、4400、4401、4410、4411、4420、4421、4430、4431、4500、4501、4510、4511、4520、4521、4530、4531、4540、4541、4600、4601、4610、4611、4620、4621、4630、4631、4641、4650、4700、4701、4710、4711、4720、4730、5200、5210、5300、5301、5310、5311、5320、5400、5401、5402、5410、5411、5412、5420、5421、5430、5431、5432、5500、5501、5502、5510、5511、5512、5520、5521、5522、5530、5531、5541、5600、5601、5602、5610、5611、5612、5620、5621、5631、5650、5700、5701、5702、5710、5711、5712、5720、5721、5730、5731、6200、6210、6300、6301、6310、6311、6320、6400、6401、6402、6410、6411、6412、6420、6421、6432、6500、6501、6502、6503、6510、6511、6512、6513、6520、6521、6522、6530、6531、6532、6540、6541、6600、6601、6602、6603、6610、6611、6612、6613、6620、6621、6622、6623、6630、6631、6632、6640、6641、6642、6652、6700、6701、6711、6721、6703、6713、6710、6711、6712、6713、6720、6721、6730、6731、6740、7200、7210、7400、7401、7410、7411、7412、7420、7421、7430、7431、7432、7500、7501、7510、7511、7512、7600、7601、7602、7603、7604、7610、7611、7612、7613、7614、7620、7621、7622、7623、7632、7640、7700、7701、7702、7703、7710、7711、7712、7713、7714、7720、7721、7722、7730、7731、7732、7740、7741、7751、8200、9200、9210、10200、11200、12200以及它们的组合。
在包括任何前述实例在内的一些实例中,所述方法包括基于定量诊断患有疾病或病症的患者。
在包括前述的任何实例的一些实例中,所述方法包括基于定量将患者诊断为患有结直肠癌或进展期腺瘤。
在包括任何前述实例在内的一些实例中,所述方法包括用治疗有效量的治疗剂治疗患者,所述治疗剂选自由以下组成的组:化疗剂、免疫疗法、激素疗法、靶向疗法、新辅助疗法、手术以及它们的组合。
C.治疗方法
在一些实例中,本文阐述了一种用于治疗患有疾病或病症的患者的方法,其包括通过质谱分析来测量来自患者的样品中的糖肽。在一些实例中,患者是人类。在某些实例中,患者是女性。在某些其他实例中,患者是患有结直肠癌或进展期腺瘤的女性。在某些实例中,患者是患有1期结直肠癌或进展期腺瘤的女性。在某些实例中,患者是患有2期结直肠癌或进展期腺瘤的女性。在某些实例中,患者是患有3期结直肠癌或进展期腺瘤的女性。在某些实例中,患者是患有4期结直肠癌或进展期腺瘤的女性。在一些实例中,女性的年龄等于10岁至20岁或在其之间。在一些实例中,女性的年龄等于20岁至30岁或在其之间。在一些实例中,女性的年龄等于30岁至40岁或在其之间。在一些实例中,女性的年龄等于40岁至50岁或在其之间。在一些实例中,女性的年龄等于50岁至60岁或在其之间。在一些实例中,女性的年龄等于60岁至70岁或在其之间。在一些实例中,女性的年龄等于70岁至80岁或在其之间。在一些实例中,女性的年龄等于80岁至90岁或在其之间。在一些实例中,女性的年龄等于90岁至100岁或在其之间。
在一些实例中,本文阐述了一种用于治疗患有疾病或病症的患者的方法,其包括通过质谱分析来测量来自患者的样品中的糖肽。在一些实例中,患者是人类。在某些实例中,患者是男性。在某些其他实例中,患者是患有结直肠癌或进展期腺瘤的男性。在某些实例中,患者是患有1期结直肠癌或进展期腺瘤的男性。在某些实例中,患者是患有2期结直肠癌或进展期腺瘤的男性。在某些实例中,患者是患有3期结直肠癌或进展期腺瘤的男性。在某些实例中,患者是患有4期结直肠癌或进展期腺瘤的男性。在一些实例中,男性的年龄等于10岁至20岁或在其之间。在一些实例中,男性的年龄等于20岁至30岁或在其之间。在一些实例中,男性的年龄等于30岁至40岁或在其之间。在一些实例中,男性的年龄等于40岁至50岁或在其之间。在一些实例中,男性的年龄等于50岁至60岁或在其之间。在一些实例中,男性的年龄等于60岁至70岁或在其之间。在一些实例中,男性的年龄等于70岁至80岁或在其之间。在一些实例中,男性的年龄等于80岁至90岁或在其之间。在一些实例中,男性的年龄等于90岁至100岁或在其之间。
在另一个实施方案中,本文阐述了一种用于治疗患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;消化和/或片段化样品中的一种或多种糖肽;以及检测和定量选自由转变1-38组成的组的一个或多个多重反应监测(MRM)转变;将定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来对患者进行分类,其中所述分类选自由以下组成的组:(A)需要切除术的患者;(B)需要治疗剂的患者;(C)需要烷基化疗法的患者;(D)需要靶向治疗剂的患者;(E)需要免疫治疗的患者;(F)需要免疫检查点抑制剂的患者;(G)需要T细胞相关疗法的患者;(H)需要癌症疫苗的患者;(I)需要放射疗法的患者;(J)需要结肠镜检查的患者;或(K)它们的组合;如果确定分类A或K,则进行或已经进行切除术;如果确定分类I或K,则进行或已经进行放射疗法;如果确定分类J或K,则进行或已经进行结肠镜检查;或向患者施用治疗有效量的治疗剂:其中如果确定分类B或K,则治疗剂选自治疗剂;或其中如果确定分类C或K,则治疗剂选自烷基化剂;或其中如果确定分类D或K,则治疗剂选自靶向治疗剂;其中如果确定分类E或K,则治疗剂选自免疫治疗剂;其中如果确定分类F或K,则治疗剂选自免疫检查点抑制剂;其中如果确定分类G或K,则治疗剂选自T细胞相关疗法;并且其中如果确定分类H或K,则治疗剂选自癌症疫苗。
在另一个实施方案中,本文阐述了一种用于治疗患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:选择具有包含一种或多种糖肽的生物样品的患者;其中样品中的一种或多种糖肽被消化和/或片段化;并且其中使用选自由转变1-38组成的组的一个或多个多重反应监测(MRM)转变来检测和定量样品中的一种或多种糖肽;其中将所述定量输入到经训练的模型中以生成输出概率;并且其中将输出概率确定为高于或低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来对患者进行分类,其中所述分类选自由以下组成的组:(A)需要切除术的患者;(B)需要治疗剂的患者;(C)需要烷基化疗法的患者;(D)需要靶向治疗剂的患者;(E)需要免疫治疗的患者;(F)需要免疫检查点抑制剂的患者;(G)需要T细胞相关疗法的患者;(H)需要癌症疫苗的患者;(I)需要放射疗法的患者;(J)需要结肠镜检查的患者;或(K)它们的组合;如果确定分类A或K,则进行或已经进行切除术;如果确定分类I或K,则进行或已经进行放射疗法;如果确定分类J或K,则进行或已经进行结肠镜检查;或向患者施用治疗有效量的治疗剂:其中如果确定分类B或K,则治疗剂选自治疗剂;或其中如果确定分类C或K,则治疗剂选自烷基化剂;或其中如果确定分类D或K,则治疗剂选自靶向治疗剂;其中如果确定分类E或K,则治疗剂选自免疫治疗剂;其中如果确定分类F或K,则治疗剂选自免疫检查点抑制剂;其中如果确定分类G或K,则治疗剂选自T细胞相关疗法;并且其中如果确定分类H或K,则治疗剂选自癌症疫苗。
在一些实例中,MRM转变被定量,并且此定量被用作经训练的模型中的输入以生成输出概率。输出概率是在给定类别或分类内的概率,例如患有结直肠癌或进展期腺瘤的分类或未患结直肠癌或进展期腺瘤的分类。在一些其他实例中,输出概率是在给定类别或分类内的概率,例如患有癌症的分类或未患癌症的分类。在一些其他实例中,输出概率是在给定类别或分类内的概率,例如患有自身免疫性疾病的分类或未患自身免疫性疾病的分类。在一些其他实例中,输出概率是在给定类别或分类内的概率,例如患有纤维化的分类或未患纤维化的分类。在一些实例中,所述方法包括在将定量的MRM转变输入到经训练的模型中以生成输出概率之后治疗患者,并且根据输出概率治疗患者。
在一些实例中,机器学习用于鉴定与MRM转变相关的MS峰。在一些实例中,使用机器学习来分析MRM转变。在一些实例中,使用经训练的机器学习算法来分析MRM转变。在这些实例中的一些中,使用通过分析来自已知患有结直肠癌或进展期腺瘤的患者的样品观察到的MRM转变来训练经训练的机器学习算法。
在一些实例中,经训练的模型用于治疗患有结直肠癌或进展期腺瘤的患者。在一些实例中,经训练的模型用于鉴定与MRM转变相关的MS峰以治疗患者。在一些实例中,经训练的模型用于鉴定治疗患者的机器MRM转变。在一些实例中,经训练的模型定量与MRM转变相关的糖肽的量,并且产生用于治疗患者的输出概率。在这些实例中的一些中,经训练的模型使用通过分析来自已知患有结直肠癌或进展期腺瘤的患者的样品观察到的MRM转变来治疗患者。
在一些实例中,在诊断和治疗患者时考虑结直肠癌(CRC)的一个或多个风险因素或临床指标。在一些实施方案中,被诊断的患者具有与CRC相关的一个或多个风险因素。在一些实施方案中,被治疗的患者具有与CRC相关的一个或多个风险因素。在一些实施方案中,CRC的风险因素包括以下中的一种或多种:年龄、肠易激疾病、2型糖尿病、CRC家族史、遗传综合征(例如,林奇综合征)、肥胖、吸烟、饮酒、饮食选择、身体活动受限以及它们的组合。在一些实施方案中,被诊断的患者具有与CRC相关的一个或多个临床指标。在一些实施方案中,被治疗的患者具有与CRC相关的一个或多个临床指标。在一些实施方案中,CRC的临床指标包括以下中的一种或多种:排便习惯改变、血便、腹泻、便秘、持续性腹痛、持续性腹部绞痛和不明原因的体重减轻。在一些实施方案中,确定个体具有健康状态,其中健康状态包括不存在CRC或AA。在一些实施方案中,所述方法还包括生成报告,所述报告包括基于针对受试者检测到的对应状态的诊断。
在一些实例中,在将患者诊断为患有结直肠癌后,用手术治疗患者。在一些实例中,在将患者诊断为患有结直肠癌后,用切除术治疗患者。在一些实施方案中,治疗结直肠癌(CRC)的手术包括去除结肠的一个或多个部分。在一些实施方案中,疗法包括息肉切除术、局部切除术、经肛门切除术(TAE)、淋巴结清除术、经肛门内镜显微外科手术(TEM)、低位前切除术(LAR)、结直肠切除术伴结肠肛门吻合术、腹会阴切除术(APR)、盆腔清除术或分流结肠造口术。在一些实施方案中,手术可以包括冷冻手术。
在一些实例中,在将患者诊断为患有结直肠癌后,用治疗有效量的抗代谢药治疗患者,所述抗代谢药诸如亚叶酸钙(Leucovorin)、氟尿嘧啶(Fluorouracil)(5F0U)、卡培他滨(Capecitabine)和三氟尿苷(Trifluridine)/替吡拉西(Tipiricil)。在一些实施方案中,治疗结直肠癌(CRC)的化疗疗法包括5-氟尿嘧啶、卡培他滨、奥沙利铂(oxaliplatin)、伊立替康(irinotecan)、三氟尿苷和替吡拉西或它们的组合。5-氟尿嘧啶可以以约0.4g/m2/天至约3g/m2/天的范围给药于人类受试者。卡培他滨可以以约1250mg/m2 BID×2周的剂量给药于人类受试者,随后休息1周,以3周周期给予。奥沙利铂可以以约85g/m2/天至约600mg/m2/天的范围给药于人类受试者。伊立替康可以以约125mg/m2/天至约350mg/m2/天的范围给药于人类受试者。三氟尿苷/替吡拉西可以以约35mg/m2PO BID至约不超过约80mg的范围给药于人类受试者。应当注意,m2可以指人类受试者的近似表面积,PO可以指口服或经口,并且BID可以指每天两次。
在一些实例中,在将患者诊断为患有结直肠癌后,用治疗有效量的拓扑异构酶抑制剂(诸如伊立替康)治疗患者。
在一些实例中,用治疗有效量的烷基化剂治疗患者。在某些实例中,烷基化剂包括诸如奥沙利铂和依洛沙汀(eloxatin)的药物。
在一些实例中,用治疗有效量的靶向治疗剂治疗患者。在某些实例中,靶向治疗剂是靶向血管、靶向血管内皮生长因子(VEGF)的药物,诸如贝伐珠单抗(Bevacizumab)(Avastin)、雷莫芦单抗(Ramucirumab)(Cyramza)和齐夫-阿柏西普(Ziv-aflibercept)(Zaltrap)。在某些实例中,靶向治疗剂是表皮生长因子受体(EGFR),诸如西妥昔单抗(Cetuximab)(Erbitux)或帕尼单抗(Panitumumab)(Vectibix)。在某些实例中,靶向治疗剂是激酶抑制剂,诸如瑞戈非尼(Regorafenib)(Stivarga)。在一些实施方案中,基于肿瘤细胞基因表达的患者特异性变化选择靶向治疗剂,所述肿瘤细胞基因表达的患者特异性变化包括但不限于VEGF、EGFR、BRAF和MEK基因的变化。在一些实施方案中,靶向治疗剂是癌基因的抑制剂。在一些实施方案中,靶向治疗剂是VEGF、EGFR、BRAF和MEK中的一种或多种的抑制剂。在一些实施方案中,靶向治疗剂包括阿柏西普(aflibercept)、西妥昔单抗、帕尼单抗、恩考芬尼(encorafenib)以及它们的组合。在一些实施方案中,靶向治疗剂包括血管生成抑制剂。在一些实施方案中,血管生成抑制剂包括贝伐珠单抗(Avastin,BEV)和雷莫芦单抗(Cyramza,RAM)中的一种。在一些实施方案中,用于CRC的疗法包括一种或多种靶向治疗剂的组合。
在一些实例中,用治疗有效量的免疫治疗剂治疗患者。在某些实例中,免疫治疗剂选自由免疫检查点抑制剂组成的组。在某些实例中,检查点抑制剂选自由以下组成的组:PD-1抑制剂、PD-L1抑制剂、CTLA-4抑制剂以及它们的组合。在一些实施方案中,免疫疗法是抗体。在一些实施方案中,抗体针对免疫系统检查点蛋白,包括但不限于PD-1、PD-L1和CTLA-4。在一些实施方案中,靶向PD-1的抗体包括纳武单抗(nivolumab)(Opdivo)、帕博利珠单抗(pembrolizumab)(Keytruda)和西米普利单抗(cemiplimab)(Libtayo)。在一些实施方案中,靶向PD-L1的抗体包括阿替利珠单抗(atezolizumab)(Tecentriq)、德瓦鲁单抗(durvalumab)(Imfinzi)和阿维鲁单抗(avelumab)(Bavencio)。在一些实施方案中,靶向CTLA-4的抗体包括伊匹单抗(ipilimumab)(Yervoy)。在一些实施方案中,用于CRC的疗法包括靶向PD-1、PD-L1和CTLA-4的一种或多种抗体的组合。
在一些实例中,用治疗有效量的T细胞相关疗法治疗患者。在某些实例中,T细胞相关疗法选自由以下组成的组:CAR-T方法、TCR方法以及它们的组合。
在一些实例中,用治疗有效量的癌症疫苗治疗患者。
在一些实例中,用治疗有效量的放射疗法治疗患者。在某些实例中,放射疗法选自由以下组成的组:外部束放射疗法和内部放射疗法、化学放射疗法、近距离放射疗法以及它们的组合。在一些实施方案中,放射疗法是包括使用高能射线或粒子来治疗结直肠癌(CRC)的放射程序。在一些实施方案中,放射程序包括外部束放射疗法(EBRT)和内部放射疗法(也称为近距离放射疗法)。在一些实施方案中,EBRT包括以下中的一种或多种:立体定向消融放射疗法(SABR)、三维适形放射疗法(3D-CRT)、调强放射疗法(IMRT)、立体定向体放射疗法(SBRT)、立体定向放射手术(SRS)或它们的组合。在一些实施方案中,近距离放射疗法包括将放射性材料放置在结肠(例如,直肠腔)中的肿瘤内或其附近。
在一些实例中,用选自靶向疗法的治疗剂治疗患者。在一些实例中,本文的方法包括施用治疗有效量的5-氟尿嘧啶(5-FU);卡培他滨(Xeloda)、伊立替康(Camptosar)、奥沙利铂(Eloxatin)、三氟尿苷和替吡拉西(Lonsurf)。
在一些实例中,治疗剂以150mg、250mg、300mg、350mg和600mg剂量施用。在一些实例中,每天两次施用治疗剂。
化疗剂包括但不限于铂类药物,诸如卡铂(carboplatin)(Paraplatin)或顺铂(cisplatin),与紫杉烷,诸如紫杉醇(taxane)(Taxol)或多西他赛(docetaxel)(Taxotere)。可以以10mg/mL注射浓度(在50mg、150mg、450mg和600mg的小瓶中)施用Paraplatin。对于进展期癌,可以施用单剂剂量的360mg/m2 IV持续4周。Paraplatin可联合施用=300mg/m2 IV(加环磷酰胺600mg/m2 IV),4周一次。Taxol可以在3小时内以175mg/m2IV施用,3周一次(随后使用顺铂)。Taxol可以在24小时内以135mg/m2 IV施用,3周一次(随后使用顺铂)。Taxol可以在3小时内以135-175mg/m2 IV施用,3周一次。
靶向治疗剂包括但不限于PARP抑制剂。
在包括任何前述实例在内的一些实例中,所述方法包括对生物样品和/或对照样品进行多重反应监测质谱分析(MRM-MS)。
在包括任何前述实例在内的一些实例中,使用多重反应监测(MRM)模式进行质谱分析。在一些实例中,在数据依赖性采集中使用QTOF MS进行质谱分析。在一些实例中,使用仅MS模式进行质谱分析。在一些实例中,免疫测定(例如,ELISA)与质谱分析联用。
在包括任何前述实例在内的一些实例中,所述方法包括定量包含SEQ ID NO:1-38以及它们的组合的氨基酸序列的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括定量由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括定量基本上由选自由SEQID NO:1-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括定量包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合的氨基酸序列的一种或多种糖肽。在包括任何前述实例在内的一些实例中,所述方法包括定量包含SEQ ID NO:3、7、9、28、29、32和33以及它们的组合的氨基酸序列的一种或多种糖肽。在包括任何前述实例在内的一些实例中,所述方法包括定量包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合的氨基酸序列的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括定量由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,所述方法包括定量由选自由SEQID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,所述方法包括定量由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括定量基本上由选自由SEQID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,所述方法包括定量基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,所述方法包括定量基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,所述方法包括使用QQQ和/或qTOF质谱仪检测选自由转变1-38组成的组的多重反应监测(MRM)转变。在包括任何前述实施方案的一些实施方案中,所述方法包括使用QQQ和/或qTOF质谱仪检测来自表10的一种或多种肽结构。在包括任何前述实施方案的一些实施方案中,所述方法包括使用QQQ和/或qTOF质谱仪检测包含SEQ ID NO:1-38的氨基酸序列的一种或多种肽结构。
在包括任何前述实例在内的一些实例中,所述方法包括训练机器学习算法以基于定量步骤鉴定分类。
在包括任何前述实例在内的一些实例中,所述方法包括基于定量步骤使用机器学习算法来鉴定分类。
在包括任何前述实例在内的一些实例中,机器学习算法选自由以下组成的组:深度学习算法、神经网络算法、人工神经网络算法、监督机器学习算法、线性判别分析算法、二次判别分析算法、支持向量机算法、线性基函数核支持向量算法、径向基函数核支持向量算法、随机森林算法、遗传算法、最近邻算法、k-最近邻、朴素贝叶斯分类器算法、逻辑回归算法、正则化回归算法或它们的组合。
D.诊断患者的方法
在一些实例中,本文阐述了一种用于诊断患有疾病或病症的患者的方法,其包括通过质谱分析来测量来自患者的样品中的糖肽。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽;或检测和定量选自转变1-38的一个或多个MRM转变;将检测到的糖肽或MRM转变的定量输入到经训练的模型中以生成输出概率,确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:将检测到的糖肽或MRM转变的定量输入到经训练的模型中以生成输出概率,确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。在一些实例中,所述方法包括获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽;或检测和定量选自转变1-38的一个或多个MRM转变。
在一些实例中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;或检测选自转变1-38的一个或多个MRM转变;使用经训练的模型或训练模型来分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。在一些实例中,所述方法包括获得或已经获得来自患者的生物样品;以及使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;或检测选自转变1-38的一个或多个MRM转变。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;或检测选自转变1-38的一个或多个MRM转变;使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;或检测选自转变1-38的一个或多个MRM转变;使用检测到的糖肽或MRM转变训练模型以鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;或检测选自转变1-38的一个或多个MRM转变;使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽;将检测到的糖肽或MRM转变的定量输入到经训练的模型中或训练模型以生成输出概率,确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽;将检测到的糖肽或MRM转变的定量输入到经训练的模型中以生成输出概率,确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽;以及使用检测到的糖肽或MRM转变的定量来训练模型以生成输出概率。
在另一个实施方案中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测和定量基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽;将检测到的糖肽或MRM转变的定量输入到经训练的模型中以生成输出概率,确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。
在一些实例中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;使用经训练的模型分析检测到的糖肽或MRM转变以生成诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。在一些实例中,由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以生成诊断分类。
在一些实例中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。在一些实例中,由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
在一些实例中,本文阐述了一种用于诊断患有结直肠癌或进展期腺瘤的患者的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将患者诊断为患有结直肠癌或进展期腺瘤。在一些实例中,由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;分析检测到的糖肽或MRM转变以使用经训练的模型来鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。在一些实例中,由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。在一些实例中,由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;以及使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。在一些实例中,由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;使用经训练的模型分析检测到的糖肽或MRM转变以鉴定诊断分类;以及基于诊断分类将个体诊断、监测或分类为具有衰老分类。在一些实例中,由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
在一些实例中,本文阐述了一种用于对个体衰老进行诊断、监测或分类的方法;所述方法包括:获得或已经获得来自患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对生物样品进行质谱分析以检测由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽;训练模型以鉴定诊断分类。在一些其他步骤中,所述方法可以包括基于诊断分类将个体诊断、监测或分类为具有衰老分类。在一些实例中,由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽用于训练模型以鉴定诊断分类。
E.疾病和病症
本文阐述了用于诊断多种疾病和病症的生物标志物。
在一些实例中,疾病和病症包括癌症。在一些实例中,疾病和病症不限于癌症。
在一些实例中,疾病和病症包括结直肠癌或进展期腺瘤。在一些实例中,疾病和病症不限于结直肠癌或进展期腺瘤。
在一些实施方案中,结直肠癌(CRC)是下胃肠道的癌症,例如结肠、直肠和/或阑尾的癌症。在一些实施方案中,CRC可从结肠息肉发展而来。在一些实施方案中,结肠息肉生长在大肠或直肠的内壁上。在一些实施方案中,结肠息肉是良性的。在一些实施方案中,结肠息肉是恶性的。在一些实施方案中,如果结肠息肉未得到诊断和/或治疗,则结肠息肉进展为结直肠腺瘤。在一些实施方案中,如果结肠息肉未得到诊断和/或治疗,则结肠息肉进展为进展期结直肠腺瘤。在一些实施方案中,如果结肠息肉未得到诊断和/或治疗,则结肠息肉进展为CRC。如果没有及时的诊断和/或治疗,患有CRC的个体的生存率明显较低。
在一些实施方案中,本文提供了一种用于将个体分类为患有CRC或未患CRC的方法。在一些实施方案中,本文提供了一种用于将个体分类为患有进展期腺瘤(AA)或未患AA的方法。在一些实施方案中,本文提供了一种用于将个体诊断为患有CRC或未患CRC的方法。在一些实施方案中,本文提供了一种用于将个体诊断为患有进展期腺瘤(AA)或未患AA的方法。在一些实施方案中,本文提供了一种用于治疗患有CRC的个体的方法。在一些实施方案中,本文提供了一种用于治疗患有进展期腺瘤(AA)的个体的方法。在一些实施方案中,用于治疗患有CRC或AA的个体的方法包括选择特定疗法和/或施用该特定疗法。在本文所述的任何实施方案中,所述方法包括将从肽结构数据中鉴定的针对肽和/或糖肽集合的定量数据输入到经训练的一个或多个机器学习模型中以鉴定疾病指标。在一些实施方案中,所述方法包括基于疾病指标将样品分类为患有CRC或AA或未患CRC或AA。在一些实施方案中,基于来自表10的至少一种肽结构的存在和/或量来选择疗法。在一些实施方案中,基于包含SEQID NO:1-38的氨基酸序列的至少一种糖肽的存在和/或量来选择疗法。在一些实施方案中,基于包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的氨基酸序列的至少一种糖肽的存在和/或量来选择疗法。在一些实施方案中,基于包含SEQ ID NO:3、7、9、28、29、32和33的氨基酸序列的至少一种糖肽的存在和/或量来选择疗法。在一些实施方案中,基于包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32的氨基酸序列的至少一种糖肽的存在和/或量来选择疗法。
本文提供了一种对个体进行诊断和治疗的方法。本文还提供了一种对具有与结直肠癌(CRC)或进展期腺瘤(AA)相关的一个或多个风险因素的个体进行诊断和治疗的方法。在一些实施方案中,所述方法包括测量具有与CRC或AA相关的一个或多个风险因素的个体中的来自表10的一种或多种肽结构的量/存在或不存在。在一些实施方案中,所述方法包括基于来自表10的一种或多种肽结构的存在和/或量来诊断个体。在一些实施方案中,所述方法包括基于来自表10的一种或多种糖肽的存在和/或量来诊断个体。在一些实施方案中,诊断基于包含表10中所示的SEQ ID NO:1-38的氨基酸序列的一种或多种肽和/或糖肽的存在和/或量。在一些实施方案中,诊断基于包含表10中所示的SEQ ID NO:1-38的氨基酸序列的一种或多种糖肽的存在和/或量。在一些实施方案中,诊断基于由SEQ ID NO:1-38的氨基酸序列以及表10中所示的相关聚糖组成的一种或多种糖肽的存在和/或量。在一些实施方案中,基于通过诊断确定的疾病指标,对诊断患有CRC或AA的个体施用本文所述的一种或多种CRC或AA疗法。在一些实施方案中,基于通过诊断确定的疾病指标,对个体施用本文所述的一种或多种CRC或AA疗法。在一些实施方案中,基于通过诊断确定的疾病指标治疗确认患有CRC或AA的个体。
在一些实施方案中,对个体进行诊断,其中检测到来自表10的一种或多种肽结构,并且与健康对照样品不同。在一些实施方案中,对个体进行诊断,其中检测到包含SEQ IDNO:1-38的氨基酸序列的一种或多种肽结构,并且与健康对照样品不同。在一些实施方案中,对个体进行诊断,其中检测到包含SEQ ID NO:1-38的氨基酸序列的一种或多种糖肽,并且与健康对照样品不同。在一些实施方案中,至少一种肽结构的量为零或低于检测限。在一些实施方案中,至少一种糖肽结构的量为零或低于检测限。在一些实施方案中,来自表10的至少一种肽结构的量为零或低于检测限。在一些实施方案中,包含表10中所示的SEQ IDNO:1-38的氨基酸序列的至少一种肽结构的量为零或低于检测限。在一些实施方案中,至少一种肽结构的量显著低于来自健康个体的对照样品。在一些实施方案中,至少一种糖肽结构的量显著低于来自健康个体的对照样品。在一些实施方案中,来自表10的至少一种肽结构的量显著低于来自健康个体的对照样品。在一些实施方案中,包含表10中所示的SEQ IDNO:1-38的氨基酸序列的至少一种肽结构的量显著低于来自健康个体的对照样品。在一些实施方案中,至少一种肽结构的量显著高于来自健康个体的对照样品。在一些实施方案中,至少一种糖肽结构的量显著高于来自健康个体的对照样品。在一些实施方案中,来自表10的至少一种肽结构的量显著高于来自健康个体的对照样品。在一些实施方案中,包含表10中所示的SEQ ID NO:1-38的氨基酸序列的至少一种肽结构的量显著高于来自健康个体的对照样品。在一些实施方案中,根据来自表10的一种或多种肽结构的存在和/或量来诊断和治疗个体。在一些实施方案中,根据包含SEQ ID NO:1-38的氨基酸序列以及表10中所示的相关聚糖的一种或多种肽结构的存在和/或量来诊断和治疗个体。
在一些实施方案中,个体患有CRC或AA。在一些实施方案中,个体患有0期、I期、II期、III期或IV期CRC。在一些实施方案中,个体患有早期CRC。在一些实施方案中,个体患有晚期CRC或进展期CRC。在一些实施方案中,个体患有未从起源部位扩散的CRC。在一些实施方案中,个体患有局部扩散至周围组织的CRC。在一些实施方案中,个体患有已经扩散超出原发肿瘤和/或局部肿瘤环境的CRC。在一些实施方案中,个体患有已经扩散到肺以外的一个或多个器官的CRC。在一些实施方案中,个体患有转移性CRC。在一些实施方案中,个体患有CRC并且已经复发和/或进展。在一些实施方案中,所述方法包括基于表10中提供的一种或多种肽结构,根据与CRC相关的多种状态对生物样品进行分类。在一些实施方案中,所述方法包括基于表10中提供的一种或多种糖肽,根据与CRC或AA相关的多种状态对生物样品进行分类。在一些实施方案中,所述方法包括将从肽结构数据中鉴定的针对肽和/或糖肽集合的定量数据输入到经训练的一个或多个机器学习模型中以鉴定疾病指标。在一些实施方案中,所述方法包括基于疾病指标将样品分类为患有CRC或AA或未患CRC或AA。在一些实施方案中,肽结构数据包含表10中提供的一种或多种肽结构。在一些实施方案中,通过MRM-MS确定一种或多种肽和/或糖肽的存在、不存在和/或量。在一些实施方案中,所述方法包括基于包含表10中提供的肽结构的一种或多种生物标志物的存在、量和/或相对量来选择本文所述的特定疗法。在一些实施方案中,所述方法包括基于包含表10中提供的糖肽的一种或多种生物标志物的存在、量和/或相对量来选择本文所述的特定疗法。在一些实施方案中,所述方法包括基于包含表10中提供的肽结构的一种或多种生物标志物的存在、量和/或相对量来施用本文所述的特定疗法。在一些实施方案中,所述方法包括基于包含表10中提供的糖肽的一种或多种生物标志物的存在、量和/或相对量来施用本文所述的特定疗法。在一些实施方案中,所述方法还包括基于疾病指标和/或分类来选择本文所述的特定疗法。在一些实施方案中,所述方法还包括基于疾病指标和/或分类来施用本文所述的特定疗法。
在一些实施方案中,个体已接受用于治疗CRC或AA的先前疗法线。在一些实施方案中,个体已接受至少1次、至少2次或至少3次用于治疗CRC或AA的先前疗法线。在一些实施方案中,个体已接受不超过1次、不超过2次或不超过3次用于治疗CRC或AA的先前疗法线。在一些实施方案中,个体没有接受用于治疗CRC或AA的先前疗法。
在一些实施方案中,个体已经改变了与结直肠癌(CRC)治疗相关的基因表达。在一些实施方案中,个体具有改变的癌基因表达。在一些实施方案中,个体具有改变的肿瘤细胞基因表达。在一些实施方案中,改变的基因表达包括VEGF、EGFR、BRAF和MEK中的一种或多种的改变的基因表达。在一些实施方案中,改变的基因表达包括一种或多种免疫系统检查点蛋白PD-1、PD-L1和CTLA-4的改变的基因表达。在一些实施方案中,具有改变的与CRC治疗相关的基因表达的个体可受益于包含靶向PD-1、PD-L1和CTLA-4或它们的组合的一种或多种抗体的疗法。
在一些实施方案中,个体处于患结直肠癌(CRC)或进展期腺瘤(AA)的风险下。在一些实施方案中,基于来自表10的至少一种肽结构的存在和/或量来确定CRC或AA的风险。在一些实施方案中,基于包含SEQ ID NO:1-38的氨基酸序列的一种或多种肽的存在和/或量来确定CRC的风险。在一些实施方案中,个体对增加患CRC的机会的一个或多个风险因素呈阳性。在一些实施方案中,一个或多个风险因素选自由以下组成的组:年龄、肠易激疾病、2型糖尿病、CRC家族史、遗传综合征(例如,林奇综合征)、肥胖、吸烟、烟草使用、饮酒、饮食选择和身体活动受限。在一些实施方案中,个体具有至少1个、至少2个、至少3个、至少4个、至少5个或至少6个CRC风险因素。
在一些实施方案中,个体对增加患结直肠癌(CRC)或进展期腺瘤(AA)的机会的一个或多个风险因素呈阳性。在一些实施方案中,一个或多个风险因素包括个体的年龄。在一些实施方案中,个体为至少30岁、至少35岁、至少40岁、至少45岁、至少50岁、至少55岁、至少60岁、至少65岁、至少70岁、至少75岁、至少80岁、至少85岁或至少90岁。在一些实施方案中,个体至少为30岁。在一些实施方案中,个体至少为40岁。在一些实施方案中,个体至少为50岁。在一些实施方案中,个体至少为60岁。
在一些实施方案中,处于患结直肠癌(CRC)或进展期腺瘤(AA)风险下的个体超重或肥胖。在一些实施方案中,处于患CRC的风险下的个体具有≥30kg/m的身体质量指数(BMI)。在一些实施方案中,处于患CRC的风险下的个体具有≥35kg/m的BMI。在一些实施方案中,处于患CRC的风险下的个体具有≥40kg/m的BMI。在一些实施方案中,个体被认为是极度肥胖的。
在一些实施方案中,处于患结直肠癌(CRC)或进展期腺瘤(AA)的风险下的个体患有遗传综合征。在一些实施方案中,遗传综合征包括家族性腺瘤性息肉病(FAP)或遗传性非息肉性结直肠癌(林奇综合征)。
在一些实施方案中,处于患结直肠癌(CRC)或进展期腺瘤(AA)的风险下的个体食用可能增加CRC或AA的风险的食物。在一些实施方案中,个体食用大量红肉或加工肉。在一些实施方案中,处于患CRC或AA的风险下的个体不食用可能降低CRC或AA的风险的食物。在一些实施方案中,个体食用有限量的蔬菜和纤维。
在一些实施方案中,处于患结直肠癌(CRC)或进展期腺瘤(AA)的风险下的个体是吸烟者或烟草产品消费者。在一些实施方案中,个体吸食香烟、雪茄、烟斗和其他烟草产品。在一些实施方案中,个体是吸烟者。在一些实施方案中,个体使用含烟草产品。
在一些实施方案中,个体对本文所述的结直肠癌(CRC)的一个或多个临床指标呈阳性。在一些实施方案中,CRC的一个或多个临床指标包括排便习惯改变、血便、腹泻、便秘、持续性腹痛、持续性腹部绞痛和不明原因的体重减轻。在一些实施方案中,个体具有至少1个、至少2个、至少3个、至少4个、至少5个或至少6个CRC临床指标。在一些实施方案中,个体具有本文所述的CRC临床指标的任何组合。
在一些实例中,病症是衰老。在一些实例中,本文所述的“患者”被等效地描述为“个体”。例如,在本文的一些方法中,阐述了用于监测或诊断个体的衰老或衰老病症的生物标志物。在这些实例中的一些中,个体不一定是具有需要疗法的医学病症的患者。在一些实例中,个体是男性。在一些实例中,个体是女性。在一些实例中,个体是雄性哺乳动物。在一些实例中,个体是雌性哺乳动物。在一些实例中,个体是男性人类。在一些实例中,个体是女性人类。
在一些实例中,个体是1岁。在一些实例中,个体是2岁。在一些实例中,个体是3岁。在一些实例中,个体是4岁。在一些实例中,个体是5岁。在一些实例中,个体是6岁。在一些实例中,个体是7岁。在一些实例中,个体是8岁。在一些实例中,个体是9岁。在一些实例中,个体是10岁。在一些实例中,个体是11岁。在一些实例中,个体是12岁。在一些实例中,个体是13岁。在一些实例中,个体是14岁。在一些实例中,个体是15岁。在一些实例中,个体是16岁。在一些实例中,个体是17岁。在一些实例中,个体是18岁。在一些实例中,个体是19岁。在一些实例中,个体是20岁。在一些实例中,个体是21岁。在一些实例中,个体是22岁。在一些实例中,个体是23岁。在一些实例中,个体是24岁。在一些实例中,个体是25岁。在一些实例中,个体是26岁。在一些实例中,个体是27岁。在一些实例中,个体是28岁。在一些实例中,个体是29岁。在一些实例中,个体是30岁。在一些实例中,个体是31岁。在一些实例中,个体是32岁。在一些实例中,个体是33岁。在一些实例中,个体是34岁。在一些实例中,个体是35岁。在一些实例中,个体是36岁。在一些实例中,个体是37岁。在一些实例中,个体是38岁。在一些实例中,个体是39岁。在一些实例中,个体是40岁。在一些实例中,个体是41岁。在一些实例中,个体是42岁。在一些实例中,个体是43岁。在一些实例中,个体是44岁。在一些实例中,个体是45岁。在一些实例中,个体是46岁。在一些实例中,个体是47岁。在一些实例中,个体是48岁。在一些实例中,个体是49岁。在一些实例中,个体是50岁。在一些实例中,个体是51岁。在一些实例中,个体是52岁。在一些实例中,个体是53岁。在一些实例中,个体是54岁。在一些实例中,个体是55岁。在一些实例中,个体是56岁。在一些实例中,个体是57岁。在一些实例中,个体是58岁。在一些实例中,个体是59岁。在一些实例中,个体是60岁。在一些实例中,个体是61岁。在一些实例中,个体是62岁。在一些实例中,个体是63岁。在一些实例中,个体是64岁。在一些实例中,个体是65岁。在一些实例中,个体是66岁。在一些实例中,个体是67岁。在一些实例中,个体是68岁。在一些实例中,个体是69岁。在一些实例中,个体是70岁。在一些实例中,个体是71岁。在一些实例中,个体是72岁。在一些实例中,个体是73岁。在一些实例中,个体是74岁。在一些实例中,个体是75岁。在一些实例中,个体是76岁。在一些实例中,个体是77岁。在一些实例中,个体是78岁。在一些实例中,个体是79岁。在一些实例中,个体是80岁。在一些实例中,个体是81岁。在一些实例中,个体是82岁。在一些实例中,个体是83岁。在一些实例中,个体是84岁。在一些实例中,个体是85岁。在一些实例中,个体是86岁。在一些实例中,个体是87岁。在一些实例中,个体是88岁。在一些实例中,个体是89岁。在一些实例中,个体是90岁。在一些实例中,个体是91岁。在一些实例中,个体是92岁。在一些实例中,个体是93岁。在一些实例中,个体是94岁。在一些实例中,个体是95岁。在一些实例中,个体是96岁。在一些实例中,个体是97岁。在一些实例中,个体是98岁。在一些实例中,个体是99岁。在一些实例中,个体是100岁。在一些实例中,个体超过100岁。
V.机器学习
在包括任何前述实例在内的一些实例中,本文的方法包括使用质谱分析(MS)和/或液相色谱法(LC)来定量包含来自表10的一种或多种肽结构的一种或多种糖肽。在包括任何前述实例在内的一些实例中,本文的方法包括使用MS和/或LC定量包含选自SEQ ID NO:1-38中的任一者的氨基酸序列的氨基酸序列的一种或多种糖肽。在一些实例中,所述方法包括使用MS和/或LC定量包含选自SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者以及它们的组合的氨基酸序列的氨基酸序列的一种或多种糖肽。在一些实例中,所述方法包括使用MS和/或LC定量包含选自SEQ ID NO:3、7、9、28、29、32和33中的任一者以及它们的组合的氨基酸序列的氨基酸序列的一种或多种糖肽。在一些实例中,所述方法包括使用MS和/或LC定量包含选自SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者以及它们的组合的氨基酸序列的氨基酸序列的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文的方法包括使用质谱分析和/或液相色谱法来定量基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述方法包括使用质谱分析和/或液相色谱法来定量基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述方法包括使用质谱分析和/或液相色谱法来定量基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述方法包括使用质谱分析和/或液相色谱法来定量基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,将定量结果用作经训练的模型中的输入。在一些实例中,基于测试样品中定量的每种聚糖或糖肽的绝对量、相对量和/或类型用诊断算法对定量结果进行分类或归类,其中利用从患有已知疾病或病症的个体群体中获得的每种标志物的对应值训练诊断算法。在一些实例中,疾病或病症为结直肠癌或进展期腺瘤。
在包括任何前述实例在内的一些实例中,本文的方法包括使用质谱分析(MS)和/或液相色谱法(LC)来定量包含来自表10的一种或多种肽结构的一种或多种糖肽。在包括任何前述实例在内的一些实例中,本文的方法包括使用MS和/或LC定量包含选自SEQ ID NO:1-38中的任一者的氨基酸序列的氨基酸序列的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种用于训练机器学习算法的方法,其包括:提供指示包含含有SEQ ID NO:1-38中的任一者的氨基酸序列的一种或多种糖肽的样品的MRM转变信号的第一数据集;提供指示对照样品的MRM转变信号的第二数据集;以及使用机器学习算法将第一数据集与第二数据集进行比较。在一些实例中,所述方法包括提供指示包含含有SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品的MRM转变信号的第一数据集。在一些实例中,所述方法包括提供指示包含含有SEQ ID NO:3、7、9、28、29、32和33中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品的MRM转变信号的第一数据集。在一些实例中,所述方法包括提供指示包含含有SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品的MRM转变信号的第一数据集。
在包括任何前述实例在内的一些实例中,本文阐述了一种用于训练机器学习算法的方法,其包括:提供指示包含基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的糖肽的样品的MRM转变信号的第一数据集;提供指示对照样品的MRM转变信号的第二数据集;以及使用机器学习算法将第一数据集与第二数据集进行比较。在一些实例中,所述方法包括提供指示包含基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的样品的MRM转变信号的第一数据集。在一些实例中,所述方法包括提供指示包含基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽的样品的MRM转变信号的第一数据集。在一些实例中,所述方法包括提供指示包含基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽的样品的MRM转变信号的第一数据集。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含由选自由SEQID NO:1-38组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含含有SEQ IDNO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含含有SEQ ID NO:3、7、9、28、29、32和33中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含含有SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含由选自由SEQID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ IDNO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的患者的样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用对照样品,其中对照样品是来自未患结直肠癌或进展期腺瘤的患者的样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含含有SEQ IDNO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含含有SEQID NO:3、7、9、28、29、32和33中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含含有SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者以及它们的组合的氨基酸序列的一种或多种糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。在包括任何前述实例在内的一些实例中,本文的方法包括使用包含基本上由选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽的样品,所述样品是来自患有结直肠癌或进展期腺瘤的一名或多名患者的合并样品。
在包括任何前述实例在内的一些实例中,本文的方法包括使用对照样品,所述样品是来自未患结直肠癌或进展期腺瘤的一名或多名患者的合并样品。
在包括任何前述实例在内的一些实例中,所述方法包括使用来自患有疾病或病症的患者和未患疾病或病症的患者的质谱数据(例如,MRM-MS转变信号)生成经训练的机器学习模型。在一些实例中,疾病或病症为结直肠癌或进展期腺瘤。在一些实例中,所述方法包括通过与已知标准或其他样品进行交叉验证来优化机器学习模型。在一些实例中,所述方法包括使用质谱数据对性能进行定性以形成具有个体敏感性和特异性的聚糖和糖肽组。在某些实例中,所述方法包括确定与诊断相关的置信度百分比。在一些实例中,基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种至十种糖肽可用于以一定的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,基本上由选自由SEQ IDNO:1-38组成的组的氨基酸序列组成的十种至五十种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。
在包括任何前述实例在内的一些实例中,所述方法包括对生物样品进行MRM-MS和/或LC-MS。在一些实例中,所述方法包括通过计算装置构建代表多个质谱的理论质谱数据,其中多个质谱中的每一个对应于基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述方法包括通过计算装置将质谱数据与理论质谱数据进行比较以生成指示多个质谱中的每一个与同多种糖肽的对应糖肽相关的多个理论靶质谱中的每一个的相似性的比较数据。
在包括任何前述实例在内的一些实例中,所述方法包括使用来自患有疾病或病症的患者和未患疾病或病症的患者的质谱数据(例如,MRM-MS转变信号)生成经训练的机器学习模型。在一些实例中,疾病或病症为结直肠癌或进展期腺瘤。在一些实例中,所述方法包括通过与已知标准或其他样品进行交叉验证来优化机器学习模型。在一些实例中,所述方法包括使用质谱数据对性能进行定性以形成具有个体敏感性和特异性的聚糖和糖肽组。在某些实例中,所述方法包括确定与诊断相关的置信度百分比。
在一些实例中,包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者的氨基酸序列的至少一种糖肽可用于以一定置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,包含SEQ ID NO:3、7、9、28、29、32和33中的任一者的氨基酸序列的至少一种糖肽可用于以一定置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者的氨基酸序列的至少一种糖肽可用于以一定置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。
在一些实例中,基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的至少一种糖肽可用于以一定置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的至少一种糖肽可用于以一定置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的至少一种糖肽可用于以一定置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。
在一些实例中,包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者的氨基酸序列的至少一种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,包含SEQ ID NO:3、7、9、28、29、32和33中的任一者的氨基酸序列的至少一种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者的氨基酸序列的至少一种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。
在一些实例中,基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的至少一种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的至少一种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。在一些实例中,基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的至少一种糖肽可用于以较高的置信度百分比诊断患有结直肠癌或进展期腺瘤的患者。
在包括任何前述实例在内的一些实例中,所述方法包括对生物样品进行MRM-MS和/或LC-MS。在一些实例中,所述方法包括通过计算装置构建代表多个质谱的理论质谱数据,其中多个质谱中的每一个对应于基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述方法包括通过计算装置构建代表多个质谱的理论质谱数据,其中多个质谱中的每一个对应于基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述方法包括通过计算装置构建代表多个质谱的理论质谱数据,其中多个质谱中的每一个对应于基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,所述方法包括通过计算装置将质谱数据与理论质谱数据进行比较以生成指示多个质谱中的每一个与同多种糖肽的对应糖肽相关的多个理论靶质谱中的每一个的相似性的比较数据。
在一些实例中,机器学习算法用于通过计算装置并且基于MRM-MS数据来确定多个质谱中的多个特征离子的分布;以及通过计算装置并且基于所述分布确定所述多个特征离子中的一个或多个是否是糖肽离子。
在一些实例中,本文的方法包括训练诊断算法。本文中,训练诊断算法可以指基于由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的值对诊断算法进行监督学习。训练诊断算法可以指基于基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的值的统计模型中的变量选择。训练诊断算法可以例如包括为每个类别确定特征空间中的加权向量,或确定函数或函数参数。
在一些实例中,本文的方法包括训练诊断算法。本文中,训练诊断算法可以指基于由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的值对诊断算法进行监督学习。本文中,训练诊断算法可以指基于由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的值对诊断算法进行监督学习。本文中,训练诊断算法可以指基于由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的值对诊断算法进行监督学习。
训练诊断算法可以指基于基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽的值的统计模型中的变量选择。训练诊断算法可以指基于基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽的值的统计模型中的变量选择。训练诊断算法可以指基于基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽的值的统计模型中的变量选择。
训练诊断算法可以例如包括为每个类别确定特征空间中的加权向量,或确定函数或函数参数。
在包括任何前述实例在内的一些实例中,机器学习算法选自由以下组成的组:深度学习算法、神经网络算法、人工神经网络算法、监督机器学习算法、线性判别分析算法、二次判别分析算法、支持向量机算法、线性基函数核支持向量算法、径向基函数核支持向量算法、随机森林算法、遗传算法、最近邻算法、k-最近邻、朴素贝叶斯分类器算法、逻辑回归算法、正则化回归算法或它们的组合。在某些实例中,机器学习算法是lasso回归。
在某些实例中,机器学习算法是LASSO、岭回归(Ridge Regression)、随机森林(Random Forests)、K-最近邻(KNN)、深度神经网络(DNN)和主成分分析(PCA)。在某些实例中,DNN用于将质谱数据处理成可供分析的形式。在一些实例中,DNN用于从质谱中挑选峰。在一些实例中,PCA在特征检测中是有用的。在一些实例中,机器学习是组合判别分析。
在一些实例中,LASSO用于提供特征选择。
在一些实例中,机器学习算法用于定量来自每种蛋白质的代表蛋白质丰度的肽。在一些实例中,这种定量包括定量未测量糖基化的蛋白质。
在一些实例中,通过质谱仪中的片段化和使用Byonic软件的数据库搜索来鉴定糖肽序列。
在一些实例中,本文的方法包括无监督学习以检测代表已知生物量的MRMS-MS数据的特征,诸如蛋白质功能或聚糖基序。在某些实例中,这些特征被用作用于通过机器进行分类的输入。在一些实例中,使用LASSO、岭回归或随机森林性质来进行分类。
在一些实例中,本文的方法包括在算法中处理值之前将输入数据(例如,MRM转变峰)映射到值(例如,基于0-100的标度)。例如,在MRM转变被鉴定并且峰被表征之后,本文的方法包括评估给定患者在峰周围的m/z和保留时间窗口中的MS扫描。在一些实例中,通过机器学习算法对所得的色谱图进行积分,所述算法确定峰开始点和停止点,并且计算由这些点限定的面积和强度(高度)。所得的积分值是丰度,然后输入机器学习和统计分析训练和数据集中。
在一些实例中,一种情况下的机器学习输出用作另一种情况下的机器学习输入。例如,除了用于分类过程的PCA之外,DNN数据处理还输入到PCA和其他分析中。这导致至少三个层次的算法处理。在本公开的范围内,考虑了其他分级结构。
在包括任何前述实例在内的一些实例中,所述方法包括将样品中定量的每种聚糖或糖肽的量与诊断算法中的每种聚糖或糖肽的对应参考值进行比较。在一些实例中,所述方法包括比较过程,通过所述比较过程,使用诊断算法将样品中定量的聚糖或糖肽的量与相同聚糖或糖肽的参考值进行比较。比较过程可以是通过诊断算法进行分类的一部分。比较过程可以发生在抽象层次上,例如在n维特征空间或更高维空间中。
在一些实例中,本文的方法包括利用诊断算法基于样品中定量的每种聚糖或糖肽的量对患者样品进行分类。在一些实例中,所述方法包括使用统计或机器学习分类过程,通过所述过程,使用诊断算法将测试样品中定量的聚糖或糖肽的量用于确定健康类别。在一些实例中,诊断算法是统计或机器学习分类算法。
在包括任何前述实例在内的一些实例中,通过诊断算法进行分类可包括对属于每个可能类别的一组聚糖或糖肽值的可能性进行评分,并且确定最高评分类别。通过诊断算法进行分类可以包括通过距离函数将一组标志物值与先前的观察值进行比较。适用于分类的诊断算法的实例包括随机森林、支持向量机、逻辑回归(例如,多类或多项逻辑回归和/或适用于稀疏逻辑回归的算法)或正则化回归。如本领域技术人员所知,可以使用适用于分类的多种其他诊断算法。
在一些实例中,本文的方法包括基于从患有疾病或病症(例如,结直肠癌或进展期腺瘤)的个体群体中获得的每种聚糖或糖肽的值对诊断算法进行监督学习。在一些实例中,所述方法包括基于从患有结直肠癌或进展期腺瘤的个体群体中获得的每种聚糖或糖肽的值在统计模型中进行变量选择。训练诊断算法可以例如包括为每个类别确定特征空间中的加权向量,或确定函数或函数参数。
在一个实施方案中,参考值是来自一个个体的一个或多个样品中的聚糖或糖肽的量。另选地,参考值可以通过合并从多个个体获得的数据并计算聚糖或糖肽的平均(例如,平均值或中值)量来获得。因此,参考值可以反映多个个体中的聚糖或糖肽的平均量。所述量可以以与本文所述相同的方式以绝对项或相对项表示。
在一些实例中,参考值可以来自与被测样品相同的样品,从而允许两者之间的适当比较。例如,如果样品来自尿液,则参考值也来自尿液。在一些实例中,如果样品是血液样品(例如,血浆或血清样品),则参考值也将是血液样品(例如,血浆样品或血清样品,视情况而定)。当在样品值和参考值之间进行比较时,样品值和参考值之间表示量的方式是匹配的。因此,绝对量可以与绝对量进行比较,并且相对量可以与相对量进行比较。类似地,用于用诊断算法进行分类的表示量的方式与用于训练诊断算法的表示量的方式是匹配的。
当确定聚糖或糖肽的量时,所述方法可以包括将每种聚糖或糖肽的量与其对应的参考值进行比较。当确定一种、一些或所有聚糖或糖肽的累积量时,所述方法可以包括将累积量与对应的参考值进行比较。当聚糖或糖肽的量在公式中相互组合以形成指数值时,可以将所述指数值与以相同方式导出的对应参考指数值进行比较。
参考值可以在本文描述的方法内(即,构成所述方法的步骤)或在所述方法外(即,不构成所述方法的步骤)获得。在一些实例中,所述方法包括为标志物的量建立参考值的步骤。在其他实例中,参考值是从本文所述的方法的外部获得的,并且在本发明的比较步骤中被访问。
在包括任何前述实例在内的一些实例中,诊断算法的训练可以在本文阐述的方法内(即,构成所述方法的步骤)或在所述方法外(即,不构成所述方法的步骤)获得。在一些实例中,所述方法包括训练诊断算法的步骤。在一些实例中,诊断算法在本文方法的外部进行训练,并且在本发明的分类步骤期间被访问。参考值可以通过定量从健康个体群体中获得的样品中的聚糖或糖肽的量来确定。可以通过定量从健康个体群体中获得的样品中的聚糖或糖肽的量来训练诊断算法。如本文所用,术语“健康个体”是指处于健康状态的个体或一组个体,例如尚未表现出任何疾病症状、尚未被诊断为患有疾病和/或不太可能患上疾病的患者。优选地,所述健康个体没有服用影响疾病的药物,并且尚未被诊断为患有任何其他疾病。与测试个体相比,一个或多个健康个体可以具有相似的性别、年龄和身体质量指数(BMI)。参考值可以通过定量从患有疾病的个体群体中获得的样品中的聚糖或糖肽的量来确定。可以通过定量从患有疾病的个体群体中获得的样品中的标志物的量来训练诊断算法。更优选地,与测试个体相比,这些个体可以具有相似的性别、年龄和身体质量指数(BMI)。参考值可以从患有结直肠癌或进展期腺瘤的个体群体中获得。可以通过定量从患有结直肠癌或进展期腺瘤的个体群体中获得的样品中的聚糖或糖肽的量来训练诊断算法。一旦确定了结直肠癌或进展期腺瘤的特征性聚糖或糖肽谱,就可将从个体获得的生物样品的标志物谱与此参考谱进行比较,以确定测试受试者是否也患有结直肠癌或进展期腺瘤。一旦诊断算法被训练以对结直肠癌或进展期腺瘤进行分类,就可通过训练的诊断算法对从个体获得的生物样品的标志物谱进行分类,以确定测试受试者是否也处于结直肠癌或进展期腺瘤的特定阶段。
VI.组合物和试剂盒
本文提供了包含来自表10的一种或多种肽结构的组合物。本文提供了包含来自表10的一种或多种糖肽的组合物。在一些实施方案中,本文提供了包含两种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含三种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含四种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含五种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含10种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含15种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含20种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含25种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含30种或更多种来自表10的肽结构的组合物。在一些实施方案中,本文提供了包含35种或更多种来自表10的肽结构的组合物。在一些实施方案中,组合物来自生物样品。在一些实施方案中,组合物包含一种或多种纯化的肽结构。在一些实施方案中,组合物包含一种或多种纯化的糖肽。在一些实施方案中,组合物包含酶消化的肽和/或糖肽片段,诸如表10中的那些。在一些实施方案中,组合物包含酶消化的糖肽片段,诸如表10中的那些。在一些实施方案中,组合物包含至少一种、至少两种、至少三种、至少四种、至少五种、至少10种、至少15种、至少20种、至少25种、至少30种或至少35种肽和/或糖肽,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。
在一些实施方案中,本文提供了包含至少一种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含至少两种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含至少三种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含至少四种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含至少五种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ IDNO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含至少10种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含至少15种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含20种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ IDNO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含25种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含30种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。在一些实施方案中,本文提供了包含35种肽和/或糖肽的组合物,所述肽和/或糖肽包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖。
在一些实施方案中,本文提供了表10中所示的肽和/或糖肽。在一些实施方案中,本文提供了表10中所示的糖肽。在一些实施方案中,本文提供了包含SEQ ID NO:1-38中所示的序列以及表10中所示的相关聚糖的肽和/或糖肽。
在包括任何前述实例在内的一些实例中,本文还提供了一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和包含SEQ ID NO:1-38中所示的序列的一种或多种肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种用于诊断或监测个体的癌症的试剂盒,其中确定来自所述个体的样品的聚糖或糖肽谱,并且将测量的谱与正常患者的谱或具有癌症家族史的患者的谱进行比较。在一些实例中,所述试剂盒包含一种或多种糖肽标准品、缓冲液和包含SEQ ID NO:1-38中所示的序列的一种或多种肽。在一些实例中,所述试剂盒包含一种或多种糖肽标准品、缓冲液和包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合中所示的序列的一种或多种肽。在一些实例中,所述试剂盒包含一种或多种糖肽标准品、缓冲液和包含SEQ ID NO:3、7、9、28、29、32和33以及它们的组合中所示的序列的一种或多种肽。在一些实例中,所述试剂盒包含一种或多种糖肽标准品、缓冲液和包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合中所示的序列的一种或多种肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种用于诊断或监测个体的癌症的试剂盒,其中确定来自所述个体的样品的聚糖或糖肽谱,并且将测量的谱与正常患者的谱或具有癌症家族史的患者的谱进行比较。在一些实例中,所述试剂盒包含由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述试剂盒包含基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含糖肽标准品、缓冲液和基本上由选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽。
在包括任何前述实例在内的一些实例中,本文阐述了一种用于诊断或监测个体的癌症的试剂盒,其中确定来自所述个体的样品的聚糖或糖肽谱,并且将测量的谱与正常患者的谱或具有癌症家族史的患者的谱进行比较。在一些实例中,所述试剂盒包含由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述试剂盒包含由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述试剂盒包含由选自由SEQID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,所述试剂盒包含基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述试剂盒包含基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在一些实例中,所述试剂盒包含基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:5的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:8的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:9的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:10的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:11的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:13的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:14的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:16的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:17的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:18的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:19的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:20的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:21的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ IDNO:22的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:26的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:27的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:28的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:30的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:31的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:34的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQID NO:35的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:36的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:37的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:38的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,所述试剂盒包含样品中基本上具有序列SEQ ID NO:5的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:8的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:9的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:10的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:11的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:13的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:14的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:16的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:17的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:18的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:19的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:20的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:21的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQID NO:22的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ IDNO:26的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:27的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:28的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:30的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:31的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:34的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:35的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:36的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:37的糖肽。在一些实例中,所述试剂盒包含样品中基本上具有氨基酸序列SEQ ID NO:38的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,所述试剂盒包含样品中具有序列SEQ ID NO:5或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:8或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:9或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:10或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ IDNO:11或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:13或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:14或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:16或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:17或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:18或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:19或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:20或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:21或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:22或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:26或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:27或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ IDNO:28或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:30或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:31或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:34或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:35或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:36或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:37或基本上由其组成的糖肽。在一些实例中,所述试剂盒包含样品中具有氨基酸序列SEQ ID NO:38或基本上由其组成的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在包括任何前述实例在内的一些实例中,本文阐述了一种试剂盒,其包含用于定量衍生自糖肽的氧化、硝化和/或糖化游离加合物的试剂。
VII.临床测定
在包括任何前述实例在内的一些实例中,生物标志物、方法和/或试剂盒可用于诊断患者的临床环境中。在这些实例中的一些中,样品分析包括使用内部标准品。这些标准品可以包括由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。这些标准品可以包括基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。
在临床环境中,可以制备(例如,通过消化)样品以包括由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。
在临床环境中,可以制备(例如,通过消化)样品以包括基本上由选自由SEQ IDNO:1-38组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,可以通过将由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。
在一些实例中,可以通过将基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。
在一些实例中,可以通过将由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的量与由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。
在一些实例中,可以通过将基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的量与基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。
在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于计算糖肽MRM转变信号的归一化的软件。
在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的糖肽的量的软件。
在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的糖肽的相对量的软件。
在包括任何前述实例在内的一些实例中,经训练的模型存储在服务器上,执行本文所述的方法的临床医生可以访问所述服务器。在一些实例中,临床医生将来自患者样品的MRM转变信号的定量输入到存储在服务器上的经训练的模型中。在一些实例中,通过互联网、无线通信或其他数字或电信方法来访问服务器。
在包括任何前述实例在内的一些实例中,经训练的模型存储在服务器上,执行本文所述的方法的临床医生可以访问所述服务器。在一些实例中,临床医生将来自患者样品的由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的定量输入到存储在服务器上的经训练的模型中。在一些实例中,通过互联网、无线通信或其他数字或电信方法来访问服务器。
在包括任何前述实例在内的一些实例中,MRM转变信号1-38存储在服务器上,执行本文所述的方法的临床医生可以访问所述服务器。在一些实例中,临床医生将来自患者样品的MRM转变信号与存储在服务器上的MRM转变信号1-38进行比较。在一些实例中,通过互联网、无线通信或其他数字或电信方法来访问服务器。
在包括任何前述实例在内的一些实例中,已经使用本文所述的MRM转变信号1-38训练的机器学习算法存储在服务器上,执行本文所述的方法的临床医生可以访问所述服务器。在一些实例中,在服务器上远程访问的机器学习算法分析来自患者样品的MRM转变信号。在一些实例中,通过互联网、无线通信或其他数字或电信方法来访问服务器。
在包括任何前述实例在内的一些实例中,生物标志物、方法和/或试剂盒可用于诊断患者的临床环境中。在这些实例中的一些中,样品分析包括使用内部标准品。这些标准品可以包括由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。这些标准品可以包括由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。这些标准品可以包括由选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:5的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:8的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:9的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:10的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:11的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:13的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:14的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:16的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:17的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:18的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:19的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:20的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:21的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:22的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQID NO:26的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:27的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:28的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:30的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:31的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:34的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:35的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:36的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:37的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:38的糖肽。在特定实施方案中,每种糖肽包含聚糖或与聚糖结合,例如如本文所述。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,标准品包含样品中基本上具有序列SEQ ID NO:5的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:8的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:9的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:10的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:11的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:13的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQID NO:14的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:16的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:17的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:18的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:19的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:20的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:21的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:22的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:26的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQID NO:27的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:28的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:30的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:31的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:34的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:35的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:36的糖肽。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:37的糖肽。在特定实施方案中,每种糖肽包含聚糖或与聚糖结合,例如如本文所述。在一些实例中,标准品包含样品中基本上具有氨基酸序列SEQ ID NO:38的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在一些实例中,标准品包含样品中具有序列SEQ ID NO:5或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:8或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:9或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:10或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:11或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:13或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:14或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:16或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:17或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:18或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:19或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:20或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:21或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:22或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ ID NO:26或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:27或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:28或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:30或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:31或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:34或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:35或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:36或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:37或基本上由其组成的糖肽。在一些实例中,标准品包含样品中具有氨基酸序列SEQ IDNO:38或基本上由其组成的糖肽。在特定实施方案中,每种糖肽包含聚糖或与聚糖结合,例如如本文所述。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
这些标准品可以包括基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。这些标准品可以包括基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。这些标准品可以包括基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成的一种或多种糖肽。
在临床环境中,可以制备(例如,通过消化)样品以包括由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成的一种或多种糖肽。
在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQID NO:5组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:8组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:9组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:10组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:11组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:13组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:14组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ IDNO:16组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:17组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:18组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:19组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:20组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:21组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:22组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:26组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:27组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:28组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:30组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:31组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:34组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:35组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:36组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:37组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:38组成的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由序列SEQID NO:5组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:8组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:9组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:10组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:11组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:13组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:14组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:16组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:17组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:18组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:19组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:20组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:21组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:22组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQID NO:26组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:27组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:28组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:30组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:31组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:34组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:35组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:36组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ ID NO:37组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中基本上由氨基酸序列SEQ IDNO:38组成的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在临床环境中,可以制备(例如,通过消化)样品以包括样品中由序列SEQ ID NO:5组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:8组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:9组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:10组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:11组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:13组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ IDNO:14组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:16组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:17组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQID NO:18组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:19组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:20组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:21组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:22组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:26组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:27组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:28组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:30组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:31组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:34组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:35组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:36组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:37组成或基本上由其组成的糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括样品中由氨基酸序列SEQ ID NO:38组成或基本上由其组成的糖肽。在一些实例中,如下所述,通过分析MS结果来确定糖肽的存在、绝对量和/或相对量。在一些实例中,使用机器学习来分析MS结果。
在临床环境中,可以制备(例如,通过消化)样品以包括基本上由选自由SEQ IDNO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽。在临床环境中,可以制备(例如,通过消化)样品以包括基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽。
在一些实例中,可以通过将由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。
在一些实例中,可以通过将基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将基本上由选自由SEQID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽的量与另一种生物标志物的浓度进行比较来评估聚糖或糖肽的量。
在一些实例中,可以通过将由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽的量与由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽的量与由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽的量与由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。
在一些实例中,可以通过将基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽的量与基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽的量与基本上由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。在一些实例中,可以通过将基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成的一种或多种糖肽的量与基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成的一种或多种糖肽的量进行比较来评估聚糖或糖肽的量。
在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于计算糖肽MRM转变信号的归一化的软件。
在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的糖肽的量的软件。在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的糖肽的量的软件。在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32组成的组的氨基酸序列组成或基本上由其组成的糖肽的量的软件。
在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的糖肽的相对量的软件。在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的糖肽的相对量的软件。在包括任何前述实例在内的一些实例中,所述试剂盒可以包括用于定量由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成或基本上由其组成的糖肽的相对量的软件。
在包括任何前述实例在内的一些实例中,经训练的模型存储在服务器上,执行本文所述的方法的临床医生可以访问所述服务器。在一些实例中,临床医生将来自患者样品的MRM转变信号的定量输入到存储在服务器上的经训练的模型中。在一些实例中,通过互联网、无线通信或其他数字或电信方法来访问服务器。
在包括任何前述实例在内的一些实例中,经训练的模型存储在服务器上,执行本文所述的方法的临床医生可以访问所述服务器。在一些实例中,临床医生将来自患者样品的由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的定量输入到存储在服务器上的经训练的模型中。在一些实例中,临床医生将来自患者样品的由选自由SEQ ID NO:3、7、9、28、29、32和33组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的定量输入到存储在服务器上的经训练的模型中。在一些实例中,临床医生将来自患者样品的由选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29、32组成的组的氨基酸序列组成或基本上由其组成的一种或多种糖肽的定量输入到存储在服务器上的经训练的模型中。
在一些实例中,通过互联网、无线通信或其他数字或电信方法来访问服务器。
VIII.实施例
化学品和试剂。从人类血清/血浆中纯化的糖蛋白标准品购自Sigma-Aldrich(St.Louis,MO)。测序级胰蛋白酶购自Promega(Madison,WI)。二硫苏糖醇(DTT)和碘乙酰胺(IAA)购自Sigma-Aldrich(St.Louis,MO)。人类血清购自Sigma-Aldrich(St.Louis,MO)。
样品制备。血清样品和糖蛋白标准品被还原、烷基化,然后在37℃水浴中用胰蛋白酶消化18小时。
LC-MS/MS分析。为了进行定量分析,将胰蛋白酶消化的血清样品注射到与三重四极杆(QqQ)质谱仪联用的高效液相色谱法(HPLC)系统中。在反相柱上进行分离。二元梯度中使用的溶剂A和B由水、乙腈和甲酸的混合物构成。在根据供应商提供的标准进行源调节后,使用典型的正离子源参数。评估了以下范围:3-5kV之间的源喷雾电压、250-350℃的温度和20-40psi的氮气鞘气流速。所用仪器的扫描模式为dMRM。
对于糖蛋白质组学分析,使用Q ExactiveTM混合四极杆-OrbitrapTM质谱仪或Agilent 6495B三重四极杆LC/MS对富集的血清糖肽进行分析。
MRM质谱分析设置、样品制备和试剂阐述于Li等人,Site-SpecificGlycosylation Quantification of 50serum Glycoproteins Enhanced by PredictiveGlycopeptidomics for Improved Disease Biomarker Discovery,Anal.Chem.2019,91,5433-5445;DOI:10.1021/acs.analchem.9b00776中,其全部内容出于所有目的通过引用整体并入本文。
实施例1-鉴定糖肽生物标志物
此实施例参考2020年1月31日提交的国际PCT专利申请第PCT/US2020/0162861号中示出的图15,所述申请出于所有目的通过引用整体并入本文。
如图15中所示,在步骤1中,提供了来自患有结直肠癌或进展期腺瘤的患者的样品和来自未患结直肠癌或进展期腺瘤的患者的样品。在步骤2中,使用蛋白酶消化样品以形成糖肽片段。在步骤3中,将糖肽片段引入串联LC-MS/MS仪器中以分析与上述样品相关的保留时间和MRM-MS转变信号。在步骤4中,鉴定糖肽和聚糖生物标志物。机器学习算法从一系列MS谱中选择MRM-MS转变信号,并且将这些信号与某些糖肽片段的计算质量相关联。使用质谱峰边界的自动检测方法,在2020年3月27日提交的美国专利16/833,324中公开的该方法出于所有目的通过引用整体并入本文。
在步骤5中,使用机器学习算法(包括lasso回归)将来自患有结直肠癌或进展期腺瘤的患者的样品中鉴定的糖肽与来自未患结直肠癌或进展期腺瘤的患者的样品中鉴定的糖肽进行比较。此比较包括糖肽类型、绝对量和相对量的比较。通过此比较,计算出肽的归一化和糖肽的相对丰度。
实施例2-鉴定糖肽生物标志物
此实施例参考2020年1月31日提交的国际PCT专利申请第PCT/US2020/0162861号中示出的图16,所述申请出于所有目的通过引用整体并入本文。
如图16中所示,在步骤1中,提供了来自患者的样品。在步骤2中,使用蛋白酶消化样品以形成糖肽片段。在步骤3中,将糖肽片段引入串联LC-MS/MS仪器中以分析与样品相关的保留时间和MRM-MS转变信号。在步骤4中,使用机器学习算法鉴定糖肽,所述算法选择MRM-MS转变信号并将这些信号与某些糖肽片段的计算质量相关联。在步骤5中,数据被归一化。在步骤6中,使用机器学习来分析归一化的数据以鉴定指示患有结直肠癌或进展期腺瘤的患者的生物标志物。
表1.来自糖肽组的糖肽的转变编号。
/>
/>
表2.转变编号与前体离子和产物离子(m/z)
/>
MS1和MS2分辨率为1个单位。
表3.转变编号与保留时间、Δ保留时间、碎裂电压和碰撞能量
/>
/>
碰撞池加速电压(cell accelerator voltage)为5。
表4.聚糖残基化合物编号、分子量和聚糖片段质荷比(m/z)(+2)和(m/z)(+3)
/>
/>
/>
/>
/>
/>
/>
表5.聚糖残基化合物编号、分子量和分类
/>
/>
/>
/>
/>
/>
/>
/>
实施例3-糖蛋白质组学训练模型测试
此实施例参考了图1和图2。
通过与所诊断的进展期腺瘤(AA)或结直肠癌(CRC)相关联来鉴定标志物。对四十七例进展期腺瘤(AA)患者和74例结直肠癌(CRC)患者的所有四个疾病阶段进行了分析。此外,通过InterVenn平台分析了121名年龄和性别匹配的健康对照。将所得的糖肽丰度以整个批次中合并的人类血清以及来自相同蛋白质的非糖基化肽的水平作归一化。
鉴定了三组糖肽。
第一组包括那些单独区分CRC与AA的糖肽(FDR<0.05)。这些也区分了个体CRC对健康个体(FDR<0.05,与CRC对AA的方向相同);或个体AA对健康个体(FDR<0.05,与CRC对AA的方向相同)。下表6包括得分(CRC.FC),其中此模型的高得分可能指示需要进行结肠镜检查。
第二组包括从CRC和健康样品构建的多变量LASSO模型(模型1)中使用的那些糖肽。模型1使用SEQ ID NO:3、7、9、28、29、32和33创建分析模型。图1显示了模型1的结果。训练集数据以三角形显示,而患者样品以圆形显示。所述模型能够鉴定CRC患者和健康人。模型1仍然预测进展期腺瘤,即使进展期腺瘤数据没有用于构建模型。模型1使用的分类概率阈值为0.318。
第三组包括从AA对健康样品构建的多变量LASSO模型(模型2)中使用的那些糖肽。模型2使用SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32创建分析模型。图2显示了模型2的结果。训练集数据以三角形显示,而患者样品以圆形显示。所述模型能够鉴定AA患者和健康人。模型2也预测CRC,即使CRC数据没有用于构建模型。模型2使用的分类概率阈值为0.385。
通过将242个样品集分成70%的训练集和30%的测试集来进行多变量建模,在癌症分期、年龄和性别方面进行平衡。在训练集中重复十重交叉验证五次以确定最佳LASSO超参数,并且利用整个训练数据集建立基于这些参数的模型。在测试集中对模型性能进行了盲评估。
表6.模型1和2中使用的标志物的分析。
/>
/>
/>
CRC.FC(完全变化(full change))是单个标志物在CRC和健康患者组之间的平均乘法差异。作为一个实例,对于单个标志物,CRC.FC为2意味着在与健康患者相比时,所述标志物在CRC中表达的可能性是其两倍。作为另一个实例,如果所述值为0.5,那么在与健康患者相比时,所述标志物的表达实际上是其一半。
CRC.P值是CRC.FC的统计P值并测量CRC.FC的显著性。
individual.diff是指单个标志物是否能够区分CRC与AA或CRC与健康细胞,并且基于CRC.P值是否被认为是显著的,特别是两组之间是否有观察到的差异。“是”反应指示所述标志物能够区分CRC与AA或CRC与健康细胞。转变编号5、8-11、13-14、16-22、26-28、30-31和34-38可用于区分CRC与AA或CRC与健康细胞。每个单独的转变编号5、8-11、13-14、16-22、26-28、30-31和34-38可单独用于区分CRC与AA或CRC与健康细胞。可以组合一个或多个转变编号,以便以更大的概率区分CRC与AA或CRC与健康细胞。任何上表中的转变编号1-38对应于表10中所示的氨基酸序列。
这些模型将与标准测试进行比较,以确定CRC和AA。在一些情况下,这些标准测试包括从患者粪便样品中提取的DNA样品。此应用中的方法和模型将显示出优越的预测性能。此外,此应用的方法和模型不必仅仅依赖于粪便样品来进行诊断。
实施例4:模型1和模型2的曲线下面积分析
如图3A和图3B中所示,使用特定生物标志物和总生物标志物的AUC分析对模型1和2进行了分析。AUC越高,模型在预测生物标志物是否鉴定疾病状态方面越好。诊断准确性是指正确的测试结果数除以所测试的患者数。敏感性(疾病呈阳性)是指患有目标病症并给出阳性测试结果的受试者的比例。特异性是未患目标病症并给出阴性测试结果的受试者的比例。
表7.模型1中使用的单个标志物的AUC分析。
/>
表8.模型2中使用的单个标志物的AUC分析。
标志物 | AUC |
A1AT.GP001_107_5411 | 0.909 |
A1AT.GP001_271_5402 | 0.751 |
A1AT.GP001_271_6503 | 0.927 |
A1BG.GP002_179_5421.5402 | 0.722 |
A2MG.GP004_1424_5412 | 0.771 |
A2MG.GP004_55_5402 | 0.858 |
AGP1.GP007_33_6501 | 0.679 |
AGP2.GP008_103_6503 | 0.733 |
CERU.GP023_138_5412 | 0.730 |
CERU.GP023_138_5421.5402 | 0.793 |
FETUA.GP036_176_5401 | 0.774 |
HPT.GP044_241_5402.5421 | 0.955 |
HPT.GP044_241_5511 | 0.969 |
IGM.GP053_46_4310 | 0.803 |
模型1包含SEQ ID NO:3、7、9、28、29、32和33中所示的氨基酸序列。本文描述的模型1使用一种或多种糖肽来区分患有结直肠癌(CRC)的个体与健康个体,具有优异的预测结果。对于模型1,准确性为0.962,敏感性为0.971,并且特异性为0.944。模型1的AUC、准确性、敏感性和特异性的高值指示模型1提供了优异的预测结果。
本文描述的模型2使用一种或多种糖肽,所述糖肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29、32中所示的氨基酸序列。本文描述的模型2使用一种或多种糖肽来区分患有进展期腺瘤(AA)的个体与健康个体,具有优异的预测结果。对于模型2,准确性为0.976,敏感性为0.977,并且特异性为0.972。模型2的AUC、准确性、敏感性和特异性的高值指示模型2提供了优异的预测结果。
AUC、准确性、敏感性和特异性的高值指示模型提供了优异的预测结果。
表9.与健康对照和疾病样品相关的糖蛋白
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
表10.在健康对照和疾病样品中具有不同丰度的糖肽的详细信息
/>
/>
/>
表11A.O-连接聚糖的聚糖结构GL编号、符号结构和检测到的聚糖部分的组成
表11B.N-连接聚糖的聚糖结构GL编号、符号结构和检测到的聚糖部分的组成
/>
/>
/>
表11A和表11B的图例
表11A和表11B说明了基于聚糖GL编号的对应于表10的糖肽的检测到的聚糖部分的符号结构和组成。术语符号结构表示碳水化合物的几何连接结构,其中对于N-连接聚糖,最底部的碳水化合物(如N-乙酰葡萄糖胺)与指定氨基酸结合,并且对于O-连接聚糖,最右侧的碳水化合物(如N-乙酰半乳糖胺)与指定氨基酸结合。应当注意,聚糖结构GL编号1102是表11A中的O-连接聚糖,并且N-连接聚糖在表11B中。作为参考,N-连接聚糖具有附接至氨基酸天冬酰胺的聚糖,并且O-连接聚糖具有附接至丝氨酸或苏氨酸的聚糖。
位于表11B末尾的图例部分说明了各种单糖的身份。图例的缩写是代表葡萄糖并用黑色圆形指示的Gal、代表半乳糖并用空心圆形指示的Gal、代表甘露糖并用中间带灰色阴影的圆形指示的Man、代表岩藻糖并用黑色三角形指示的Fuc、代表N-乙酰神经氨酸并用黑色菱形指示的Neu5Ac、代表N-乙酰葡萄糖胺并用黑色正方形指示的GlcNAc、代表N-乙酰半乳糖胺并用空心正方形指示的GalNAc以及代表N-乙酰甘露糖胺并用中间带灰色阴影的正方形指示的ManNAc。
术语组成是指构成聚糖的各类碳水化合物的数量。每一类碳水化合物的数量在对应于这类碳水化合物的缩写右侧的括号中以数字表示。这些类碳水化合物的缩写是Hex、HexNAc、Fuc和NeuAc,其分别对应于己糖、N-乙酰己糖胺、岩藻糖和N-乙酰神经氨酸。应该注意的是,己糖包括葡萄糖、半乳糖和甘露糖;并且N-乙酰己糖胺糖包括N-乙酰葡萄糖胺、N-乙酰半乳糖胺和N-乙酰甘露糖胺。在各种实施方案中,术语Neu5Ac、NeuAc和N-乙酰神经氨酸可称为唾液酸。
上述实施方案和实施例仅仅是说明性的而非限制性的。本领域技术人员将认识到或能够仅使用常规实验来确定特定化合物、材料和程序的许多等同物。所有这些等同物都被认为在所附权利要求的范围内并且由所附权利要求所涵盖。
IX.示例性方法
在一些方面,本文提供了一种根据与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态对从受试者获得的生物样品进行分类的方法,所述方法包括接收对应于生物样品中的蛋白质集合的肽结构数据。在一些实施方案中,肽结构数据对应于生物样品中的糖蛋白集合。在一些实施方案中,肽结构数据对应于从受试者获得的生物样品中的糖蛋白集合,其中肽结构数据包含来自表10的至少一种肽结构。在一些实施方案中,所述方法还包括将从所述肽结构数据中鉴定的针对肽结构集合的定量数据输入到经训练的机器学习模型中以基于定量数据鉴定疾病指标,其中所述肽结构集合包含从表10中的多种肽结构中鉴定的至少一种肽结构。在一些实施方案中,所述方法还包括通过机器学习模型鉴定疾病指标。在一些实施方案中,所述方法还包括基于所鉴定的疾病指标根据与CRC或AA相关的多种状态对生物样品进行分类。在一些实施方案中,所述方法包括基于疾病指标将样品分类为患有CRC或未患CRC。在一些实施方案中,所述方法包括基于疾病指标将样品分类为患有AA或未患AA。在一些实施方案中,通过MRM-MS确定一种或多种肽和/或糖肽的存在、不存在和/或量。
在一些方面,本文提供了一种检测受试者中结直肠癌(CRC)或进展期腺瘤(AA)的存在的方法,所述方法包括接收对应于从受试者获得的生物样品中的蛋白质集合的肽结构数据,其中所述肽结构数据包含来自表10的至少一种肽结构。在一些实施方案中,肽结构数据对应于生物样品中的糖蛋白集合。在一些实施方案中,所述方法还包括将从所述肽结构数据中鉴定的针对肽结构集合的定量数据输入到经训练的机器学习模型中以基于定量数据鉴定疾病指标。在一些实施方案中,所述方法还包括响应于确定所鉴定的疾病指标落在与CRC或AA相关的选定范围内,检测CRC或AA的存在。在一些实施方案中,通过MRM-MS确定一种或多种肽和/或糖肽的存在、不存在和/或量。
在一些实施方案中,蛋白质集合包含一种或多种糖蛋白,其中糖蛋白包含来自表9的至少一种糖蛋白。在一些实施方案中,一种或多种糖蛋白包含SEQ ID NO:39-54的氨基酸序列。在一些实施方案中,至少一种肽结构包含糖肽,其中肽结构包含来自表10的至少一种糖肽。在一些实施方案中,一种或多种糖肽包含SEQ ID NO:1-38的氨基酸序列。在一些实施方案中,所述方法包括基于表10中提供的一种或多种糖肽,根据与CRC或AA相关的多种状态对生物样品进行分类。在一些实施方案中,多种状态包括CRC状态、AA状态或健康状态中的至少一者。在一些实施方案中,多种状态包括CRC状态、AA状态和健康状态中的至少两者。在一些实施方案中,多种状态包括CRC状态、AA状态和健康状态中的每一者。
在一些实施方案中,机器学习模型包括逻辑回归模型。在一些实施方案中,机器学习模型包括正则化回归模型。在一些实施方案中,正则化回归模型包括最小绝对收缩和选择算子(LASSO)回归模型。
在一些实施方案中,针对肽结构集合中的肽结构的定量数据包含丰度、相对丰度、归一化丰度或差异丰度中的至少一者。在一些实施方案中,针对肽结构集合中的肽结构的定量数据包含相对量、调整量、归一化量、相对浓度、调整浓度或归一化浓度中的至少一者。在一些实施方案中,定量数据使用液相色谱法-质谱分析(LC-MS)系统生成。在一些实施方案中,肽结构数据使用多重反应监测质谱分析(MRM-MS)生成。例如,收集指示来自患有CRC或AA的个体的样品的MRM转变信号的第一数据集和指示对照样品的MRM转变信号的第二数据集。第一数据集与第二数据集的比较使得能够计算与来自患有CRC或AA的个体的样品和对照样品相关的糖肽的相对丰度、归一化丰度或差异丰度。
在一些实施方案中,利用对应于肽结构集合的定量数据的一部分来训练机器学习模型,以确定来自受试者的生物样品对应于所述多种状态中的哪种状态,所述肽结构集合是肽结构组的子集。在一些实施方案中,所述肽结构集合包含SEQ ID NO:1-38的氨基酸序列。在一些实施方案中,肽结构子集包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38的一个或多个氨基酸序列。在一些实施方案中,肽结构子集包含SEQ ID NO:3、7、9、28、29、32和33的一个或多个氨基酸序列。在一些实施方案中,肽结构子集包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32的一个或多个氨基酸序列。在一些实施方案中,所述方法还包括使用针对多个受试者的定量数据进行差异表达分析。在一些实施方案中,使用CRC完全变化(CRC.FC),其中CRC.FC是单个标志物在CRC和健康患者组之间的平均乘法差异。在一些实施方案中,CRC.FC等于2,这意味着在与健康患者相比时,这种转变在CRC中表达的可能性是其两倍。在一些实施方案中,CRC.FC等于0.5,这意味着在与健康患者相比时,这种转变在CRC中表达的可能性是其一半。在一些实施方案中,CRC.FC是来自患有CRC或AA的个体的第一生物样品和来自未患CRC或AA的个体的第二对照样品的肽转变的差异表达分析。在一些实施方案中,差异表达分析确定来自患有CRC或AA的个体的第一生物样品和来自未患CRC或AA的个体的第二对照样品的肽转变的表达倍数变化。在一些实施方案中,差异表达分析确定来自患有CRC或AA的个体的第一生物样品和来自未患CRC或AA的个体的第二对照样品的肽转变的丰度倍数变化。
在一些实施方案中,生物样品包括血液、血清、血浆或粪便中的至少一种。在一些实施方案中,生物样品包括血液样品。在一些实施方案中,生物样品包括全血样品。在一些实施方案中,生物样品包括血清样品。在一些实施方案中,生物样品包括血浆样品。在一些实施方案中,生物样品包括粪便样品。
在一些方面,本文提供了一种治疗受试者的结直肠癌(CRC)或进展期腺瘤(AA)的方法,其包括接收对应于从受试者获得的生物样品中的蛋白质集合的肽结构数据,其中所述肽结构数据包含来自表10的至少一种肽结构。在一些实施方案中,从多种肽结构中鉴定的至少一种肽结构包含SEQ ID NO:1-38的氨基酸。在一些实施方案中,所述方法还包括将针对至少一种肽结构的定量数据输入到经训练的机器学习模型中以基于所述定量数据生成CRC或AA的疾病指标。在一些实施方案中,所述方法还包括通过机器学习模型鉴定疾病指标。在一些实施方案中,所述方法还包括基于疾病指标选择本文所述的多种治疗方案中的至少一种治疗方案来治疗CRC或AA。在一些实施方案中,蛋白质集合包含一种或多种糖蛋白。在一些实施方案中,一种或多种糖蛋白包含SEQ ID NO:39-54的氨基酸序列。
在一些方面,本文提供了一种治疗受试者的结直肠癌(CRC)或进展期腺瘤(AA)的方法,其包括接收对应于生物样品中的蛋白质集合的肽结构数据。在一些实施方案中,所述方法还包括将从所述肽结构数据中鉴定的针对肽结构集合的定量数据输入到经训练的机器学习模型中以基于定量数据鉴定疾病指标,其中肽结构数据包含从表10中的多种肽结构中鉴定的至少一种肽结构。在一些实施方案中,从多种肽结构中鉴定的至少一种肽结构包含SEQ ID NO:1-38的氨基酸。在一些实施方案中,所述方法还包括通过机器学习模型鉴定疾病指标。在一些实施方案中,所述方法还包括基于所鉴定的疾病指标来确定对CRC或AA的分类。在一些实施方案中,所述方法还包括基于分类选择本文所述的多种治疗方案中的至少一种治疗方案来治疗CRC或AA。在一些实施方案中,蛋白质集合包含一种或多种糖蛋白。在一些实施方案中,一种或多种糖蛋白包含SEQ ID NO:39-54的氨基酸序列。
在一些实施方案中,所述方法还包括向受试者施用所选择的治疗方案。在一些实施方案中,用于患有结直肠癌(CRC)或进展期腺瘤(AA)的个体或怀疑患有CRC或AA的个体的治疗方案选自手术、抗代谢药、化疗疗法、拓扑异构酶抑制剂、烷基化剂、靶向治疗剂、免疫治疗剂、免疫疗法、抗体、T细胞相关疗法、放射疗法或它们的组合。
在一些方面,本文提供了一种诊断患有结直肠癌(CRC)或进展期腺瘤(AA)的个体的方法,其包括检测来自表10的至少一种肽结构的存在或量。在一些实施方案中,所述方法还包括将检测到的至少一种肽结构的定量输入到经训练的机器学习模型中以生成类别标签。在一些实施方案中,所述方法还包括确定类别标签是高于还是低于分类的阈值;基于类别标签高于还是低于分类的阈值来鉴定对个体的诊断分类。在一些实施方案中,所述方法还包括基于诊断分类将个体诊断为患有CRC或AA。
在一些实施方案中,定量数据使用液相色谱法-质谱分析(LC-MS)系统生成。在一些实施方案中,肽结构数据使用多重反应监测质谱分析(MRM-MS)生成。在一些实施方案中,至少一种肽结构的量为零或低于检测限。在一些实施方案中,至少一种肽结构是来自表10的糖肽。在一些实施方案中,糖肽包含SEQ ID NO:1-38的氨基酸。
在一些实施方案中,CRC是早期中的一者。在一些实施方案中,CRC是晚期CRC中的一者。在一些实施方案中,CRC是I期CRC、II期CRC、III期CRC或IV期CRC中的一者。在一些实施方案中,CRC是严重CRC中的一者。
在一些实施方案中,至少一种肽结构包含表10中鉴定的一种或多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的两种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的三种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的四种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的五种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的10种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的15种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的20种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的25种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的30种或更多种肽结构。在一些实施方案中,至少一种肽结构包含表10中鉴定的35种或更多种肽结构。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。
在一些实施方案中,所述受试者具有结直肠癌(CRC)的一个或多个风险因素或临床指标。在一些实施方案中,所述受试者具有与CRC相关的一个或多个风险因素。在一些实施方案中,CRC的风险因素选自由以下组成的组:年龄、肠易激疾病、2型糖尿病、CRC家族史、遗传综合征(例如,林奇综合征)、肥胖、吸烟、饮酒、饮食选择和身体活动受限。在一些实施方案中,CRC的临床指标选自由以下组成的组:排便习惯改变、血便、腹泻、便秘、持续性腹痛、持续性腹部绞痛和不明原因的体重减轻。在一些实施方案中,确定个体具有健康状态,其中健康状态包括不存在CRC或AA。在一些实施方案中,所述方法还包括生成报告,所述报告包括基于针对受试者检测到的对应状态的诊断。
在一些方面,本文提供了一种训练模型以诊断受试者具有与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态中的一种状态的方法,所述方法包括接收针对被诊断为具有与CRC或AA相关的多种状态的多个受试者的肽结构组的定量数据。在一些实施方案中,所述方法还包括训练机器学习模型以基于定量数据确定来自受试者的生物样品的多种状态中的状态。
在一些实施方案中,训练机器学习模型以确定多种状态中的状态包括训练机器学习模型以生成多种状态中的状态的类别标签。在一些实施方案中,多种状态包括CRC状态、AA状态或健康状态中的至少一者。在一些实施方案中,多种状态包括CRC状态、AA状态或健康状态中的至少两者。在一些实施方案中,多种状态包括CRC状态、AA状态或健康状态中的每一者。在一些实施方案中,机器学习模型包括逻辑回归模型。在一些实施方案中,机器学习模型包括正则化回归模型。在一些实施方案中,正则化回归模型包括最小绝对收缩和选择算子(LASSO)回归模型。
在一些实施方案中,至少一种肽结构包含至少一种、至少两种、至少三种、至少五种、至少10种、至少15种、至少20种、至少25种、至少30种或至少35种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少两种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少三种不同的肽,所述肽包含SEQ IDNO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少四种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少五种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少10种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少20种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少30种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。
在一些实施方案中,至少一种肽结构包含至少一种、至少两种、至少三种、至少四种或至少五种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ IDNO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少两种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少三种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少四种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少五种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少六种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含七种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。
在一些实施方案中,至少一种肽结构包含至少一种、至少两种、至少三种、至少五种、至少10种不同的肽,所述肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少两种不同的肽,所述肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少三种不同的肽,所述肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少五种不同的肽,所述肽包含SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少10种不同的肽,所述肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。
在一些实施方案中,至少一种肽结构包含至少一种、至少两种、至少三种、至少五种、至少10种、至少15种或至少20种不同的肽,所述肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少两种不同的肽,所述肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少三种不同的肽,所述肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少五种不同的肽,所述肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少10种不同的肽,所述肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。在一些实施方案中,至少一种肽结构包含至少20种不同的肽,所述肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。
在一些实施方案中,至少一种肽结构包含肽序列和聚糖结构,其中所述聚糖结构附接至根据表10的肽序列中的连接位点位置。在一些实施方案中,肽序列的聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据表10、表11A和表11B的聚糖结构GL编号的符号结构。在一些实施方案中,肽序列的聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据聚糖结构GL编号、表10、表11A和表11B的组成。在一些实施方案中,表11A中的聚糖结构的最右侧的N-乙酰半乳糖胺附接至根据表10的肽序列中的连接位点位置,并且其中表11B中的聚糖结构的最底部的N-乙酰葡萄糖胺附接至根据表10的肽序列中的连接位点位置。
在一些实施方案中,本文提供了包含来自表10的一种或多种肽结构的组合物。在一些实施方案中,至少一种肽结构包含肽序列和聚糖结构,其中所述聚糖结构附接至根据表10的肽序列中的连接位点位置。在一些实施方案中,肽序列的聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据表10、表11A和表11B的聚糖结构GL编号的符号结构。在一些实施方案中,肽序列的聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据聚糖结构GL编号、表10、表11A和表11B的组成。在一些实施方案中,表11A中的聚糖结构的最右侧的N-乙酰半乳糖胺(GalNAc)附接至根据表10的肽序列中的连接位点位置。在一些实施方案中,表11B中的聚糖结构的最底部的N-乙酰葡萄糖胺(GlcNAc)附接至根据表10的肽序列中的连接位点位置。
在某些方面,本文提供了一种根据与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态对从受试者获得的生物样品进行分类的方法,所述方法包括:接收从生物样品获得的质谱分析(MS)定量数据,其中所述定量数据包含与衍生自表9的一种或多种蛋白质的一种或多种肽中的每种肽相关的定量水平;将所述MS定量数据输入到机器学习模型中,其中利用包括来自被表征为患有CRC、患有AA或未患CRC或AA的训练样品的定量数据的一个或多个训练MS定量数据集来训练所述机器学习模型,其中对于每个训练样品,相关的训练MS定量数据包含与衍生自表9的一种或多种蛋白质的一种或多种肽中的每种肽相关的定量水平;以及根据与CRC或AA相关的多种状态对生物样品进行分类。
在一些实施方案中,所述方法在包括一个或多个处理器的系统上执行。在一些实施方案中,通过所述方法将生物样品分类为患有CRC。在一些实施方案中,通过所述方法将生物样品分类为患有AA。在一些实施方案中,将生物样品分类为未患CRC或AA。在一些实施方案中,被表征为未患CRC或AA的至少一种训练样品获自健康受试者,诸如未患任何胃肠或结肠相关病症或疾病的受试者。
在某些方面,除了对本文所述的方法有用的量之外,MS定量数据还包含信息,例如与所定量化合物的身份或其属性(诸如色谱保留时间)相关的信息。
在一些实施方案中,MS定量数据包含肽序列信息。在一些实施方案中,MS定量数据包含翻译后修饰信息,包括翻译后修饰的氨基酸位点。在一些实施方案中,翻译后修饰信息包含聚糖信息,包括聚糖结构和/或氨基酸位点附接信息。在一些实施方案中,MS定量数据包含与衍生自表9的模型1或模型2的每种蛋白质的一种或多种肽相关的定量水平。在一些实施方案中,MS定量数据包含与表10的一种或多种肽相关的定量水平。在一些实施方案中,表10的肽是糖肽。在一些实施方案中,MS定量数据包含与衍生自表9的模型1或模型2的每种蛋白质的至少一种肽相关的定量水平。在一些实施方案中,训练MS定量数据包含与衍生自表9的模型1或模型2的每种蛋白质的一种或多种肽相关的定量水平。在一些实施方案中,训练MS定量数据包含与表10的一种或多种肽相关的定量水平。在一些实施方案中,表10的肽是糖肽。在一些实施方案中,肽的定量水平反映了肽的绝对量或肽的相对量,诸如基于本文所述的各种MS定量技术。在一些实施方案中,肽的定量水平反映了肽的不存在。在一些实施方案中,MS定量数据和/或训练MS定量数据全部或部分地从自动峰检测技术获得,包括例如自动AUC确定,诸如美国专利申请公开第2020/0372973号中所述,其出于所有目的通过引用整体并入本文。
在一些实施方案中,MS定量数据是使用MS技术从生物样品或其衍生物的分析获得的。在一些实施方案中,MS技术是靶向MS技术,诸如设计成查询样品(诸如生物样品)是否存在(包括其量)衍生自表9的一种或多种蛋白质的一种或多种肽的MS技术。在一些实施方案中,MS技术设计成查询样品(诸如生物样品)是否存在(包括其量)衍生自表9的模型1和/或模型2的每种蛋白质的一种或多种肽。在一些实施方案中,MS技术是MRM技术。在一些实施方案中,基于转变1-38中的一个或多个来配置MRM技术,包括转变集,诸如(a)3、7、9、28、29、32,和/或(b)1-4、6-7、12、15、23-25、28、29、32。在一些实施方案中,MRM技术是动态MRM技术,其鉴于色谱保留时间来设计质谱数据采集。
在某些方面,本文提供了一种确定从受试者获得的生物样品的糖肽谱的方法,其中糖肽谱基于与衍生自表9的一种或多种蛋白质的一种或多种肽相关的定量水平;所述方法包括:使生物样品或其衍生物经受被配置为评估衍生自表9的一种或多种蛋白质的一种或多种肽的质谱分析(MS)技术以获得MS信息;基于MS信息确定与衍生自表9的一种或多种蛋白质的一种或多种肽相关的定量水平;以及基于与衍生自表9的一种或多种蛋白质的所述一种或多种肽相关的定量水平确定糖肽谱。
在某些方面,本文提供了一种进行质谱分析的方法,所述方法包括使生物样品或其衍生物经受被配置为评估衍生自表9的一种或多种蛋白质的一种或多种肽的质谱分析(MS)技术。在一些实施方案中,MS技术是靶向MS技术,诸如本文所述。在一些实施方案中,靶向MS技术是MRM技术,诸如本文所述。
在某些方面,本文提供了一种治疗受试者的结直肠癌(CRC)或进展期腺瘤(AA)的方法,所述方法包括:根据与CRC或AA相关的多种状态对受试者进行分类;以及基于所述分类向受试者施用治疗方案。
在某些方面,本文提供了一种系统,其包括一个或多个处理器和存储一个或多个程序的存储器,所述一个或多个程序被配置为由一个或多个处理器执行,所述一个或多个程序包括用于本文提供的方法的指令,诸如根据与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态对从受试者获得的生物样品进行分类的方法。
X.实施方案
1.一种检测一个或多个多重反应监测(MRM)转变的方法,其包括获得或已经获得来自患者的生物样品,其中所述生物样品包含一种或多种糖蛋白、聚糖或糖肽;消化和/或片段化所述样品中的糖蛋白;以及检测选自由转变1-38组成的组的MRM转变。
2.如实施方案1所述的方法,其中片段化所述样品中的糖肽发生在将所述样品或其一部分引入质谱仪中之后。
3.如实施方案1至2中任一项所述的方法,其中片段化所述样品中的糖蛋白或糖肽产生基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的肽或糖肽。
4.如实施方案1至3中任一项所述的方法,其中片段化所述样品中的糖蛋白或糖肽产生基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的肽或糖肽。
5.如实施方案1至3中任一项所述的方法,其中片段化样品中的糖肽产生基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的肽或糖肽。
6.如实施方案1至3中任一项所述的方法,其中片段化样品中的糖肽产生基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的肽或糖肽。
7.如实施方案1至6中任一项所述的方法,其中所述MRM转变选自表1-3中的任一者中的转变或它们的任何组合。
8.如实施方案1至7中任一项所述的方法,其中检测选自由转变1-38组成的组的MRM转变包括使用三重四极杆(QQQ)质谱仪或四极杆飞行时间(qTOF)质谱仪检测MRM转变。
9.如实施方案1至8中任一项所述的方法,其中所述一种或多种糖肽包括基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的肽或糖肽。
10.如实施方案1至9中任一项所述的方法,其包括检测指示选自由以下组成的组的一种或多种聚糖的一个或多个MRM转变:聚糖3200、3210、3300、3310、3320、3400、3410、3420、3500、3510、3520、3600、3610、3620、3630、3700、3710、3720、3730、3740、4200、4210、4300、4301、4310、4311、4320、4400、4401、4410、4411、4420、4421、4430、4431、4500、4501、4510、4511、4520、4521、4530、4531、4540、4541、4600、4601、4610、4611、4620、4621、4630、4631、4641、4650、4700、4701、4710、4711、4720、4730、5200、5210、5300、5301、5310、5311、5320、5400、5401、5402、5410、5411、5412、5420、5421、5430、5431、5432、5500、5501、5502、5510、5511、5512、5520、5521、5522、5530、5531、5541、5600、5601、5602、5610、5611、5612、5620、5621、5631、5650、5700、5701、5702、5710、5711、5712、5720、5721、5730、5731、6200、6210、6300、6301、6310、6311、6320、6400、6401、6402、6410、6411、6412、6420、6421、6432、6500、6501、6502、6503、6510、6511、6512、6513、6520、6521、6522、6530、6531、6532、6540、6541、6600、6601、6602、6603、6610、6611、6612、6613、6620、6621、6622、6623、6630、6631、6632、6640、6641、6642、6652、6700、6701、6711、6721、6703、6713、6710、6711、6712、6713、6720、6721、6730、6731、6740、7200、7210、7400、7401、7410、7411、7412、7420、7421、7430、7431、7432、7500、7501、7510、7511、7512、7600、7601、7602、7603、7604、7610、7611、7612、7613、7614、7620、7621、7622、7623、7632、7640、7700、7701、7702、7703、7710、7711、7712、7713、7714、7720、7721、7722、7730、7731、7732、7740、7741、7751、8200、9200、9210、10200、11200、12200以及它们的组合。
11.如实施方案10所述的方法,其还包括定量第一聚糖和定量第二聚糖;并且还包括将所述第一聚糖的定量与所述第二聚糖的定量进行比较。
12.如实施方案10或11所述的方法,其还包括将检测到的聚糖与结合聚糖的肽残基位点相关联。
13.如实施方案1至12中任一项所述的方法,其包括基于基本上由具有SEQ ID No:1-38的氨基酸组成的肽或糖肽的量来归一化糖肽的量。
14.一种用于鉴定对样品的分类的方法,所述方法包括通过质谱分析(MS)来定量样品中的一种或多种糖肽,其中所述糖肽各自在每种情况下单独地基本上由选自由SEQ IDNO:1-38以及它们的组合组成的组的氨基酸序列组成;以及将所述定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对所述样品的分类。
15.如实施方案14所述的方法,其中所述样品是来自患有疾病或病症的患者或个体的生物样品。
16.如实施方案15所述的方法,其中所述患者患有结直肠癌或腺瘤,包括进展期腺瘤。
17.如实施方案14至16中任一项所述的方法,其中所述MS是使用QQQ和/或qTOF质谱仪的MRM-MS。
18.如实施方案14至17中任一项的实施方案所述的方法,其中使用机器学习算法训练所述经训练的模型,所述机器学习算法选自由以下组成的组:深度学习算法、神经网络算法、人工神经网络算法、监督机器学习算法、线性判别分析算法、组合判别分析算法、二次判别分析算法、支持向量机算法、线性基函数核支持向量算法、径向基函数核支持向量算法、随机森林算法、遗传算法、最近邻算法、k-最近邻、朴素贝叶斯分类器算法、逻辑回归算法或它们的组合。
19.如实施方案14至18中任一项的实施方案所述的方法,其中所述分类是疾病分类或疾病严重程度分类。
20.如实施方案19所述的方法,其中以大于80%的置信度、大于85%的置信度、大于90%的置信度、大于95%的置信度、大于99%的置信度或大于99.9999%的置信度来鉴定所述分类。
21.如实施方案14至20中任一项的实施方案所述的方法,其还包括在第一时间点通过MS定量样品中的一种或几种糖肽;在第二时间点通过MS定量样品中的一种或几种糖肽;以及将所述第一时间点的定量与所述第二时间点的定量进行比较。
22.如实施方案21所述的方法,其还包括在第三时间点通过MS定量样品中的一种或几种糖肽;在第四时间点通过MS定量样品中的一种或几种糖肽;以及将第四时间点的定量与第三时间点的定量进行比较。
23.如实施方案14至22中任一项所述的方法,其还包括监测患者的健康状态。
24.如实施方案23所述的方法,其中监测患者的健康状态包括监测具有诸如基因突变的风险因素的患者的疾病发作和进展,以及检测癌症复发。
25.如实施方案14至24中任一项所述的方法,其还包括通过MS定量选自由SEQ IDNO:1-38组成的组的氨基酸序列。
26.如实施方案14至25中任一项所述的方法,其还包括通过MS定量选自由SEQ IDNO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列。
27.如实施方案14至25中任一项所述的方法,其还包括通过MS定量选自由SEQ IDNO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列。
28.如实施方案14至25中任一项所述的方法,其还包括通过MS定量选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列。
29.如实施方案14至25中任一项所述的方法,其还包括通过MS定量选自由以下组成的组的一种或多种聚糖:聚糖3200、3210、3300、3310、3320、3400、3410、3420、3500、3510、3520、3600、3610、3620、3630、3700、3710、3720、3730、3740、4200、4210、4300、4301、4310、4311、4320、4400、4401、4410、4411、4420、4421、4430、4431、4500、4501、4510、4511、4520、4521、4530、4531、4540、4541、4600、4601、4610、4611、4620、4621、4630、4631、4641、4650、4700、4701、4710、4711、4720、4730、5200、5210、5300、5301、5310、5311、5320、5400、5401、5402、5410、5411、5412、5420、5421、5430、5431、5432、5500、5501、5502、5510、5511、5512、5520、5521、5522、5530、5531、5541、5600、5601、5602、5610、5611、5612、5620、5621、5631、5650、5700、5701、5702、5710、5711、5712、5720、5721、5730、5731、6200、6210、6300、6301、6310、6311、6320、6400、6401、6402、6410、6411、6412、6420、6421、6432、6500、6501、6502、6503、6510、6511、6512、6513、6520、6521、6522、6530、6531、6532、6540、6541、6600、6601、6602、6603、6610、6611、6612、6613、6620、6621、6622、6623、6630、6631、6632、6640、6641、6642、6652、6700、6701、6711、6721、6703、6713、6710、6711、6712、6713、6720、6721、6730、6731、6740、7200、7210、7400、7401、7410、7411、7412、7420、7421、7430、7431、7432、7500、7501、7510、7511、7512、7600、7601、7602、7603、7604、7610、7611、7612、7613、7614、7620、7621、7622、7623、7632、7640、7700、7701、7702、7703、7710、7711、7712、7713、7714、7720、7721、7722、7730、7731、7732、7740、7741、7751、8200、9200、9210、10200、11200、12200以及它们的组合。
30.如实施方案14至29中任一项所述的方法,其还包括基于所述分类来诊断患有疾病或病症的患者。
31.如实施方案30所述的方法,其还包括基于所述分类将所述患者诊断为患有结直肠癌或腺瘤,包括进展期腺瘤。
32.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有腺瘤,包括进展期腺瘤,并且通过切除术治疗所述患者。
33.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的治疗剂治疗所述患者,所述治疗剂选自由以下组成的组:治疗剂、佐剂、新佐剂、化疗栓塞、腹膜内热疗以及它们的组合。
34.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的烷基化剂、抗代谢剂、拓扑异构酶抑制剂、细胞毒剂以及它们的组合治疗所述患者。
35.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的靶向治疗剂治疗所述患者。
36.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的免疫治疗剂治疗所述患者。
37.如实施方案36所述的方法,其中所述免疫治疗剂选自由免疫检查点抑制剂组成的组。
38.如实施方案37所述的方法,其中所述检查点抑制剂选自由以下组成的组:PD-1抑制剂、PD-L1抑制剂、CTLA-4抑制剂以及它们的组合。
39.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的T细胞相关疗法治疗所述患者。
40.如实施方案39所述的方法,其中所述T细胞相关疗法选自由以下组成的组:CAR-T方法、TCR方法以及它们的组合。
41.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的癌症疫苗治疗所述患者。
42.如实施方案14至31中任一项所述的方法,其包括将所述患者诊断为患有结直肠癌,并且用治疗有效量的放射疗法治疗所述患者。
43.如实施方案42所述的方法,其中所述放射疗法选自由以下组成的组:外部束放射疗法和内部放射疗法、化学放射疗法、近距离放射疗法以及它们的组合。
44.如实施方案15至43中任一项所述的方法,其包括获得或已经获得来自患者的生物样品,其中所述生物样品包含一种或多种糖蛋白或糖肽;消化和/或片段化所述样品中的一种或多种糖蛋白或糖肽;检测和定量选自由转变1-38组成的组的至少一个或多个多重反应监测(MRM)转变。
45.如实施方案44所述的方法,其还包括使用机器学习算法使用所述MRM转变作为输入来训练模型。
46.一种对生物样品进行分类的方法,其包括获得或已经获得来自患者的生物样品,其中所述生物样品包含一种或多种糖蛋白或糖肽;消化和/或片段化所述样品中的一种或多种糖蛋白或糖肽;检测和定量与至少一种或多种糖肽相关的至少一个或多个多重反应监测(MRM)转变,所述糖肽基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成;以及将所述定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来对所述生物样品进行分类。
47.如实施方案46所述的方法,其包括检测和定量与至少一种或多种糖肽相关的至少一个或多个多重反应监测(MRM)转变,所述糖肽基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。
48.如实施方案46所述的方法,其包括检测和定量与至少一种或多种糖肽相关的至少一个或多个多重反应监测(MRM)转变,所述糖肽基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。
49.如实施方案46所述的方法,其包括检测和定量与至少一种或多种糖肽相关的至少一个或多个多重反应监测(MRM)转变,所述糖肽基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
50.如实施方案46所述的方法,其包括使用所述MRM转变作为输入来训练机器学习算法。
51.一种治疗患有结直肠癌或腺瘤(包括进展期腺瘤)的患者的方法;所述方法包括获得或已经获得来自所述患者的生物样品;消化和/或片段化或已经消化或已经片段化所述样品中的一种或多种糖蛋白或糖肽;以及检测和定量选自由转变1-38组成的组的一个或多个多重反应监测(MRM)转变;将所述定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于输出概率是高于还是低于分类的阈值来对患者进行分类,其中所述分类选自由以下组成的组:(A)需要切除术的患者;(B)需要治疗剂的患者;(C)需要烷基化剂的患者;(D)需要靶向治疗剂的患者;(E)需要免疫治疗剂的患者;(F)需要免疫检查点抑制剂的患者;(G)需要T细胞相关疗法的患者;(H)需要癌症疫苗的患者;(I)需要放射疗法的患者;(J)需要结肠镜检查的患者;(K)或它们的组合;如果确定分类A或K,则进行或已经进行切除术;如果确定分类I或K,则进行或已经进行放射疗法;如果确定分类J或K,则进行或已经进行结肠镜检查;或向所述患者施用治疗有效量的治疗剂;其中如果确定分类B或K,则所述治疗剂选自治疗剂;或其中如果确定分类C或K,则所述治疗剂选自烷基化剂;或其中如果确定分类D或K,则所述治疗剂选自靶向治疗剂;其中如果确定分类E或K,则所述治疗剂选自免疫治疗剂;其中如果确定分类F或K,则所述治疗剂选自免疫检查点抑制剂;其中如果确定分类G或K,则所述治疗剂选自T细胞相关疗法;并且其中如果确定分类H或K,则所述治疗剂选自癌症疫苗。
52.如实施方案51所述的方法,其包括对所述生物样品进行多重反应监测质谱分析(MRM-MS)。
53.如实施方案51或52所述的方法,其包括定量基本上由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
54.如实施方案51至53中任一项所述的方法,其包括定量基本上由选自由SEQ IDNO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
55.如实施方案51至53中任一项所述的方法,其包括定量基本上由选自由SEQ IDNO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
56.如实施方案51至53中任一项所述的方法,其包括定量基本上由选自由SEQ IDNO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
57.如实施方案51至56中任一项所述的方法,其包括将基本上由选自由SEQ IDNO:1-38组成的组的氨基酸序列组成的糖肽的量的定量输入到经训练的模型中或使用所述定量来训练模型。
58.如实施方案57所述的方法,其中所述机器学习算法选自由以下组成的组:深度学习算法、神经网络算法、人工神经网络算法、监督机器学习算法、线性判别分析算法、组合判别分析算法、二次判别分析算法、支持向量机算法、线性基函数核支持向量算法、径向基函数核支持向量算法、随机森林算法、遗传算法、最近邻算法、k-最近邻、朴素贝叶斯分类器算法、逻辑回归算法或它们的组合。
59.如实施方案51至58中任一项所述的方法,其中检测和定量选自由转变1-38组成的组的一个或多个多重反应监测(MRM)转变包括用机器学习算法选择峰和/或定量检测到的糖肽片段。
60.一种用于训练机器学习算法的方法,其包括提供指示包含一种或多种糖肽的样品的MRM转变信号的第一数据集,每种糖肽单独地基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成;提供指示对照样品的MRM转变信号的第二数据集;以及使用机器学习算法将所述第一数据集与所述第二数据集进行比较。
61.如实施方案60所述的方法,其中包含基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的糖肽的所述样品是来自患有结直肠癌或腺瘤(包括进展期腺瘤)的患者的样品。
62.如实施方案61所述的方法,其中包含基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽的所述样品是来自患有结直肠癌或腺瘤(包括进展期腺瘤)的患者的样品。
63.如实施方案61所述的方法,其中包含基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽的所述样品是来自患有结直肠癌或腺瘤(包括进展期腺瘤)的患者的样品。
64.如实施方案61所述的方法,其中包含基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽的所述样品是来自患有结直肠癌或腺瘤(包括进展期腺瘤)的患者的样品。
65.如实施方案60至64中任一项所述的方法,其中所述对照样品是来自未患结直肠癌或腺瘤(包括进展期腺瘤)的患者的样品。
66.如实施方案60至65中任一项所述的方法,其中包含基本上由选自由SEQ IDNO:1-38组成的组的氨基酸序列组成的糖肽的所述样品是来自患有结直肠癌或腺瘤(包括进展期腺瘤)的一名或多名患者的合并样品。
67.如实施方案60至66中任一项所述的方法,其中所述对照样品是来自未患结直肠癌或腺瘤(包括进展期腺瘤)的一名或多名患者的合并样品。
68.一种用于诊断患有结直肠癌或腺瘤(包括进展期腺瘤)的患者的方法;所述方法包括获得或已经获得来自所述患者的生物样品;使用MRM-MS用QQQ和/或qTOF质谱仪对所述生物样品进行质谱分析,以检测和定量基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽;或检测选自转变1-38的一个或多个MRM转变;将检测到的糖肽或所述MRM转变的定量输入到经训练的模型中以生成输出概率;确定所述输出概率是高于还是低于分类的阈值;以及基于所述输出概率是高于还是低于分类的阈值来鉴定对患者的诊断分类;以及基于所述诊断分类将患者诊断为患有结直肠癌或腺瘤,包括进展期腺瘤。
69.如实施方案68所述的方法,其中分析检测到的糖肽包括使用机器学习算法。
70.如实施方案68所述的方法,其包括使用所述MRM转变作为输入来训练机器学习算法。
71.如实施方案68所述的方法,其包括使用MRM-MS用QQQ和/或qTOF质谱仪对所述生物样品进行质谱分析,以检测和定量基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
72.如实施方案68所述的方法,其包括使用MRM-MS用QQQ和/或qTOF质谱仪对所述生物样品进行质谱分析,以检测和定量基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
73.如实施方案68所述的方法,其包括使用MRM-MS用QQQ和/或qTOF质谱仪对所述生物样品进行质谱分析,以检测和定量基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的一种或多种糖肽。
74.一种糖肽,其由选自由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成。
75.一种糖肽,其由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。
76.一种糖肽,其由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。
77.一种糖肽,其由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
78.一种糖肽,其基本上由选自基本上由SEQ ID NO:1-38以及它们的组合组成的组的氨基酸序列组成。
79.一种糖肽,其基本上由选自基本上由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。
80.一种糖肽,其基本上由选自基本上由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。
81.一种糖肽,其基本上由选自基本上由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
82.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种糖肽,所述糖肽基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成。
83.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种糖肽,所述糖肽基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合组成的组的氨基酸序列组成。
84.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种糖肽,所述糖肽基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成。
85.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种糖肽,所述糖肽基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成。
86.一种训练用于检测一个或多个MRM转变的神经网络的计算机实施方法,其包括收集基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的一组质谱分析谱图;注释谱图,包括鉴定一个或多个谱图中的峰的开始、停止、最大值或它们的组合中的至少一个,以创建一组注释的质谱分析谱图;创建第一训练集,所述第一训练集包含一组收集的质谱分析谱图、一组注释的质谱分析谱图和基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽的第二组质谱分析谱图;使用所述第一训练集在第一阶段训练所述神经网络;在所述第一阶段训练后,为第二阶段训练创建第二训练集,所述第二训练集包含所述第一训练集和质谱分析谱图,所述质谱分析谱图被错误地检测为包含基本上由选自由SEQ ID NO:1-38组成的组的氨基酸序列组成的一种或多种糖肽;以及使用所述第二训练集在第二阶段训练所述神经网络。
87.如实施方案86所述的方法,其中所述一种或多种糖肽在每种情况下各自单独选自基本上由选自由SEQ ID NO:5、8-11、13-14、16-22、26-2830-31和34-38以及它们的组合组成的组的氨基酸序列组成的糖肽。
88.如实施方案86所述的方法,其中所述一种或多种糖肽在每种情况下各自单独为基本上由选自由SEQ ID NO:3、7、9、28、29、32和33以及它们的组合组成的组的氨基酸序列组成的糖肽。
89.如实施方案86所述的方法,其中所述一种或多种糖肽在每种情况下各自单独为基本上由选自由SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合组成的组的氨基酸序列组成的糖肽。
90.如实施方案46所述的方法,其包括使用MRM转变作为输入来训练模型。
Claims (80)
1.一种根据与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态对从受试者获得的生物样品进行分类的方法,所述方法包括
接收对应于所述生物样品中的蛋白质集合的肽结构数据;
将从所述肽结构数据中鉴定的针对肽结构集合的定量数据输入到经训练的机器学习模型中以基于所述定量数据鉴定疾病指标,其中所述肽结构集合包含从表10中的多种肽结构中鉴定的至少一种肽结构;
通过所述机器学习模型鉴定所述疾病指标;以及
基于所鉴定的疾病指标根据与CRC或AA相关的多种状态对所述生物样品进行分类。
2.一种检测受试者中结直肠癌(CRC)或进展期腺瘤(AA)的存在的方法,所述方法包括
接收对应于从受试者获得的生物样品中的蛋白质集合的肽结构数据,其中所述肽结构数据包含来自表10的至少一种肽结构;
将从所述肽结构数据中鉴定的针对肽结构集合的定量数据输入到经训练的机器学习模型中以基于所述定量数据鉴定疾病指标;以及
响应于确定所鉴定的疾病指标落在与CRC或AA相关的选定范围内,检测CRC或AA的存在。
3.如权利要求1或2所述的方法,其中所述蛋白质集合包含一种或多种糖蛋白。
4.如权利要求1至3中任一项所述的方法,其中所述至少一种肽结构包含糖肽。
5.如权利要求1至4中任一项所述的方法,其中所述多种状态包括CRC状态、AA状态或健康状态中的至少一者。
6.如权利要求1至5中任一项所述的方法,其中所述机器学习模型包括正则化回归模型。
7.如权利要求1至6中任一项所述的方法,其中所述正则化回归模型包括最小绝对收缩和选择算子(LASSO)回归模型。
8.如权利要求1至7中任一项所述的方法,其中针对所述肽结构集合中的肽结构的所述定量数据包含丰度、相对丰度、归一化丰度或差异丰度中的至少一者。
9.如权利要求1至8中任一项所述的方法,其中针对所述肽结构集合中的肽结构的所述定量数据包含相对量、调整量、归一化量、相对浓度、调整浓度或归一化浓度中的至少一者。
10.如权利要求1至9中任一项所述的方法,其中所述定量数据使用液相色谱法-质谱分析(LC-MS)系统生成。
11.如权利要求1至10中任一项所述的方法,其中所述肽结构数据使用多重反应监测质谱分析(MRM-MS)生成。
12.如权利要求1至11中任一项所述的方法,其中利用对应于肽结构集合的所述定量数据的一部分来训练所述机器学习模型,以确定来自所述受试者的所述生物样品对应于所述多种状态中的哪种状态,所述肽结构集合是肽结构组的子集。
13.如权利要求1至12中任一项所述的方法,其还包括:
使用针对多个受试者的所述定量数据进行差异表达分析。
14.如权利要求1至13中任一项所述的方法,其中所述生物样品包括血液、血清、血浆或粪便中的至少一种。
15.一种治疗受试者的结直肠癌(CRC)或进展期腺瘤(AA)的方法,其包括
接收对应于从受试者获得的生物样品中的蛋白质集合的肽结构数据,其中所述肽结构数据包含来自表10的至少一种肽结构;
将针对所述至少一种肽结构的定量数据输入到经训练的机器学习模型中以基于所述定量数据生成CRC或AA的疾病指标;
通过所述机器学习模型鉴定所述疾病指标;以及
基于所述疾病指标选择多种治疗方案中的至少一种治疗方案来治疗CRC或AA。
16.一种治疗受试者的结直肠癌(CRC)或进展期腺瘤(AA)的方法,其包括:
接收对应于生物样品中的蛋白质集合的肽结构数据;
将从所述肽结构数据中鉴定的针对肽结构集合的定量数据输入到经训练的机器学习模型中以基于所述定量数据鉴定疾病指标,其中所述肽结构数据包含从表10中的多种肽结构中鉴定的至少一种肽结构;
通过所述机器学习模型鉴定所述疾病指标;
基于所鉴定的疾病指标来确定对CRC或AA的分类;
基于所述分类选择多种治疗方案中的至少一种治疗方案来治疗CRC或AA;以及
基于所述分类施用多种治疗方案中的至少一种治疗方案来治疗CRC或AA。
17.如权利要求15或16所述的方法,其中所述蛋白质集合包含一种或多种糖蛋白。
18.如权利要求15至17中任一项所述的方法,其还包括向所述受试者施用所选择的治疗方案。
19.一种诊断患有结直肠癌(CRC)或进展期腺瘤(AA)的个体的方法,其包括:
检测来自表10的至少一种肽结构的存在或量;
将所检测的至少一种肽结构的定量输入到经训练的机器学习模型中以生成类别标签;
确定所述类别标签是高于还是低于分类的阈值;
基于所述类别标签是高于还是低于所述分类的阈值来鉴定对所述个体的诊断分类;以及
基于所述诊断分类将所述个体诊断为患有CRC或AA。
20.如权利要求1至19中任一项所述的方法,其中所述定量数据使用液相色谱法-质谱分析(LC-MS)系统生成。
21.如权利要求1至20中任一项所述的方法,其中所述肽结构数据使用多重反应监测质谱分析(MRM-MS)生成。
22.如权利要求1至21中任一项所述的方法,其中至少一种肽结构的量为零或低于检测限。
23.如权利要求1至22中任一项所述的方法,其中所述CRC是早期CRC或晚期CRC中的一者。
24.如权利要求1至23中任一项所述的方法,其中所述CRC是I期CRC、II期CRC、III期CRC或IV期CRC中的一者。
25.如权利要求1至24中任一项所述的方法,其中所述至少一种肽结构包括表10中鉴定的三种或更多种肽结构。
26.如权利要求1至25中任一项所述的方法,其中所述至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:1-38中的任一者中所示的序列。
27.如权利要求1至26中任一项所述的方法,其中所述至少一种肽结构包含至少一种肽,所述至少一种肽包含SEQ ID NO:5和/或SEQ ID NO:6中所示的序列。
28.如权利要求1至27中任一项所述的方法,其中所述受试者具有与CRC相关的一个或多个风险因素。
29.如权利要求1至28中任一项所述的方法,其中确定所述个体具有健康状态,其中健康状态包括不存在CRC或AA。
30.如权利要求1至29中任一项所述的方法,其还包括生成报告,所述报告包括基于针对所述受试者检测到的对应状态的诊断。
31.一种训练模型以诊断受试者具有与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态中的一种状态的方法,所述方法包括:
接收针对被诊断为具有与CRC或AA相关的所述多种状态的多个受试者的肽结构组的定量数据;以及
训练机器学习模型以基于所述定量数据确定来自所述受试者的生物样品的所述多种状态中的状态。
32.如权利要求31所述的方法,其中训练所述机器学习模型以确定所述多种状态中的所述状态包括训练所述机器学习模型以生成所述多种状态中的所述状态的类别标签。
33.如权利要求31或权利要求32所述的方法,其中所述多种状态包括CRC状态、AA状态或健康状态中的至少一者。
34.如权利要求31至33中任一项所述的方法,其中所述机器学习模型包括正则化回归模型。
35.如权利要求31至34中任一项所述的方法,其中所述正则化回归模型包括最小绝对收缩和选择算子(LASSO)回归模型。
36.如权利要求1至35中任一项所述的方法,其中所述至少一种肽结构包含至少一种、至少两种、至少三种、至少五种、至少10种、至少15种、至少20种、至少25种、至少30种或至少35种不同的肽,所述肽包含SEQ ID NO:1-38中的任一者中所示的序列。
37.如权利要求1至35中任一项所述的方法,其中所述至少一种肽结构包含至少一种、至少两种、至少三种或至少五种不同的肽,所述肽包含SEQ ID NO:3、7、9、28、29、32和33中的任一者中所示的序列。
38.如权利要求1至35中任一项所述的方法,其中所述至少一种肽结构包含至少一种、至少两种、至少三种、至少五种、至少10种不同的肽,所述肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32中的任一者中所示的序列。
39.如权利要求1至35中任一项所述的方法,其中所述至少一种肽结构包含至少一种、至少两种、至少三种、至少五种、至少10种、至少15种或至少20种不同的肽,所述肽包含SEQID NO:5、8-11、13-14、16-22、26-28、30-31和34-38中的任一者中所示的序列。
40.如权利要求1至39中任一项所述的方法,其中所述至少一种肽结构包含肽序列和聚糖结构,其中所述聚糖结构附接至根据表10的所述肽序列中的连接位点位置。
41.如权利要求40所述的方法,其中所述肽序列的所述聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据表10、表11A和表11B的所述聚糖结构GL编号的符号结构。
42.如权利要求40或权利要求41所述的方法,其中所述肽序列的所述聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据所述聚糖结构GL编号、表10、表11A和表11B的组成。
43.如权利要求40至42中任一项所述的方法,
其中表11A中的所述聚糖结构的最右侧的N-乙酰半乳糖胺附接至根据表10的所述肽序列中的连接位点位置,并且
其中表11B中的所述聚糖结构的最底部的N-乙酰葡萄糖胺附接至根据表10的所述肽序列中的连接位点位置。
44.一种组合物,其包含来自表10的一种或多种肽结构。
45.如权利要求44所述的组合物,其中所述一种或多种肽结构包含肽序列和聚糖结构,其中所述聚糖结构附接至根据表10的所述肽序列中的连接位点位置。
46.如权利要求45所述的组合物,其中所述肽序列的所述聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据表10、表11A和表11B的所述聚糖结构GL编号的符号结构。
47.如权利要求45或权利要求46所述的组合物,其中所述肽序列的所述聚糖结构对应于根据表10的聚糖结构GL编号,其中所述聚糖结构包含根据所述聚糖结构GL编号、表10、表11A和表11B的组成。
48.如权利要求45至47中任一项所述的组合物,
其中表11A中的所述聚糖结构的最右侧的N-乙酰半乳糖胺附接至根据表10的所述肽序列中的连接位点位置,并且
其中表11B中的所述聚糖结构的最底部的N-乙酰葡萄糖胺附接至根据表10的所述肽序列中的连接位点位置。
49.一种组合物,其包含一种或多种肽,所述一种或多种肽包含SEQ ID NO:1-38中所示的序列。
50.如权利要求49所述的组合物,其中所述一种或多种肽包含SEQ ID NO:5和/或SEQID NO:6中所示的序列。
51.如权利要求49或权利要求50所述的组合物,其中所述一种或多种肽包含一种或多种糖肽。
52.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种肽,所述一种或多种肽包含SEQ ID NO:1-38中所示的序列。
53.如权利要求52所述的试剂盒,其中所述一种或多种肽包含SEQ ID NO:5和/或SEQID NO:6中所示的序列。
54.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种肽,所述一种或多种肽包含SEQ ID NO:5、8-11、13-14、16-22、26-28、30-31和34-38以及它们的组合中所示的序列。
55.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种肽,所述一种或多种肽包含SEQ ID NO:3、7、9、28、29、32和33以及它们的组合中所示的序列。
56.一种试剂盒,其包含一种或多种糖肽标准品、缓冲液和一种或多种肽,所述一种或多种肽包含SEQ ID NO:1-4、6-7、12、15、23-25、28、29和32以及它们的组合中所示的序列。
57.一种根据与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态对从受试者获得的生物样品进行分类的方法,所述方法包括:
接收从所述生物样品获得的质谱分析(MS)定量数据,
其中所述定量数据包含与衍生自表9的一种或多种蛋白质的一种或多种肽中的每种肽相关的定量水平;
将所述MS定量数据输入到机器学习模型中,
其中利用包括来自被表征为患有CRC、患有AA或未患CRC或AA的训练样品的定量数据的一个或多个训练MS定量数据集来训练所述机器学习模型,
其中,对于每个训练样品,相关的训练MS定量数据包含与衍生自表9的一种或多种蛋白质的一种或多种肽中的每种肽相关的定量水平;以及
根据与CRC或AA相关的所述多种状态对所述生物样品进行分类。
58.如权利要求57所述的方法,其中所述生物样品被分类为患有CRC。
59.如权利要求57所述的方法,其中所述生物样品被分类为患有AA。
60.如权利要求57所述的方法,其中所述生物样品被分类为未患CRC或AA。
61.如权利要求57所述的方法,其中被表征为未患CRC或AA的所述训练样品中的至少一个训练样品是从健康受试者获得的。
62.如权利要求57至61中任一项所述的方法,其中所述MS定量数据包含肽序列信息。
63.如权利要求57至62中任一项所述的方法,其中所述MS定量数据包含翻译后修饰信息。
64.如权利要求63所述的方法,其中所述翻译后修饰信息包含聚糖信息。
65.如权利要求57至64中任一项所述的方法,其中所述MS定量数据包含与衍生自表9的模型1或模型2的每种蛋白质的一种或多种肽相关的所述定量水平。
66.如权利要求57至64中任一项所述的方法,其中所述MS定量数据包含与表10的一种或多种肽相关的所述定量水平。
67.如权利要求57至64中任一项所述的方法,其中所述MS定量数据包含与衍生自表9的模型1或模型2的每种蛋白质的至少一种肽相关的定量水平。
68.如权利要求57至67中任一项所述的方法,其中肽的所述定量水平反映所述肽的不存在。
69.如权利要求57至68中任一项所述的方法,其中所述训练MS定量数据包含与衍生自表9的模型1或模型2的每种蛋白质的一种或多种肽相关的所述定量水平。
70.如权利要求57至69中任一项所述的方法,其中所述训练MS定量数据包含与表10的一种或多种肽相关的所述定量水平。
71.如权利要求57至70中任一项所述的方法,其中所述MS定量数据是使用MS技术从所述生物样品或其衍生物的分析获得的。
72.如权利要求71所述的方法,其中所述MS技术是MRM技术。
73.一种确定从受试者获得的生物样品的糖肽谱的方法,
其中所述糖肽谱基于与衍生自表9的一种或多种蛋白质的一种或多种肽相关的定量水平;
所述方法包括:
使所述生物样品或其衍生物经受被配置为评估衍生自表9的一种或多种蛋白质的所述一种或多种肽的质谱分析(MS)技术以获得MS信息;
基于所述MS信息确定与衍生自表9的一种或多种蛋白质的所述一种或多种肽相关的所述定量水平;以及
基于与衍生自表9的一种或多种蛋白质的所述一种或多种肽相关的所述定量水平确定所述糖肽谱。
74.一种进行质谱分析的方法,所述方法包括使生物样品或其衍生物经受被配置为评估衍生自表9的一种或多种蛋白质的一种或多种肽的质谱分析(MS)技术。
75.如权利要求74所述的方法,其中所述MS技术是靶向MS技术。
76.如权利要求75所述的方法,所述靶向MS技术是MRM技术。
77.一种治疗受试者的结直肠癌(CRC)或进展期腺瘤(AA)的方法,所述方法包括:
根据与CRC或AA相关的多种状态对所述受试者进行分类;以及
基于所述分类向所述受试者施用治疗方案。
78.一种评估个体的结直肠健康的方法,所述方法包括:
根据与结直肠癌(CRC)或进展期腺瘤(AA)相关的多种状态对来自所述受试者的生物样品进行分类。
79.如权利要求78所述的方法,其中所述分类指示所述受试者需要进行结肠镜检查。
80.如57至79中任一项所述的方法,其中所述一种或多种肽包含SEQ ID NO:5和/或SEQID NO:6中所示的序列。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163229185P | 2021-08-04 | 2021-08-04 | |
US63/229,185 | 2021-08-04 | ||
PCT/US2022/074482 WO2023015215A1 (en) | 2021-08-04 | 2022-08-03 | Biomarkers for diagnosing colorectal cancer or advanced adenoma |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118019983A true CN118019983A (zh) | 2024-05-10 |
Family
ID=85156319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280065474.7A Pending CN118019983A (zh) | 2021-08-04 | 2022-08-03 | 用于诊断结直肠癌或进展期腺瘤的生物标志物 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP4381297A1 (zh) |
KR (1) | KR20240083172A (zh) |
CN (1) | CN118019983A (zh) |
AU (1) | AU2022323175A1 (zh) |
CA (1) | CA3227374A1 (zh) |
WO (1) | WO2023015215A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY202410A (en) * | 2017-09-01 | 2024-04-27 | Venn Biosciences Corp | Identification and use of glycopeptides as biomarkers for diagnosis and treatment monitoring |
AU2020216996A1 (en) * | 2019-02-01 | 2021-09-16 | Venn Biosciences Corporation | Biomarkers for diagnosing ovarian cancer |
-
2022
- 2022-08-03 WO PCT/US2022/074482 patent/WO2023015215A1/en active Application Filing
- 2022-08-03 CA CA3227374A patent/CA3227374A1/en active Pending
- 2022-08-03 CN CN202280065474.7A patent/CN118019983A/zh active Pending
- 2022-08-03 EP EP22854078.7A patent/EP4381297A1/en active Pending
- 2022-08-03 AU AU2022323175A patent/AU2022323175A1/en active Pending
- 2022-08-03 KR KR1020247007008A patent/KR20240083172A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
CA3227374A1 (en) | 2023-02-09 |
WO2023015215A1 (en) | 2023-02-09 |
AU2022323175A1 (en) | 2024-02-29 |
EP4381297A1 (en) | 2024-06-12 |
KR20240083172A (ko) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7493815B2 (ja) | 卵巣癌を診断するためのバイオマーカー | |
EP3430406B1 (en) | Method for cancer diagnosis and prognosis | |
US20230065917A1 (en) | Biomarkers for diagnosing ovarian cancer | |
US20220310230A1 (en) | Biomarkers for determining an immuno-onocology response | |
CN118019983A (zh) | 用于诊断结直肠癌或进展期腺瘤的生物标志物 | |
CN108334747B (zh) | 获取肿瘤尿蛋白标志物的方法及得到的肿瘤相关离群尿蛋白库 | |
US20230112866A1 (en) | Biomarkers for clear cell renal cell carcinoma | |
US20240219390A1 (en) | Cancer biomarkers | |
AU2022276734A1 (en) | Biomarkers for diagnosing ovarian cancer | |
KR20240013742A (ko) | 암 바이오마커 | |
CN117561449A (zh) | 用于测定免疫肿瘤学反应的生物标志物 | |
WO2023193016A2 (en) | Biomarkers for determining a cancer disease state, response to immuno-oncology, stages of fibrosis in non-alcoholic steatohepatitis, or application of age or sex related biomarker panel for quality control | |
CN117460953A (zh) | 癌症生物标志物 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |