CN116670510A - 用于结肠细胞增殖性病症的早期检测的标志物 - Google Patents
用于结肠细胞增殖性病症的早期检测的标志物 Download PDFInfo
- Publication number
- CN116670510A CN116670510A CN202180078418.2A CN202180078418A CN116670510A CN 116670510 A CN116670510 A CN 116670510A CN 202180078418 A CN202180078418 A CN 202180078418A CN 116670510 A CN116670510 A CN 116670510A
- Authority
- CN
- China
- Prior art keywords
- autoantibodies
- subject
- cell proliferative
- proliferative disorder
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002062 proliferating effect Effects 0.000 title claims abstract description 164
- 230000000112 colonic effect Effects 0.000 title claims abstract description 133
- 238000001514 detection method Methods 0.000 title abstract description 19
- 206010009944 Colon cancer Diseases 0.000 claims abstract description 196
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims abstract description 186
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 180
- 238000000034 method Methods 0.000 claims abstract description 118
- 239000012472 biological sample Substances 0.000 claims abstract description 98
- 238000010801 machine learning Methods 0.000 claims abstract description 51
- 210000004027 cell Anatomy 0.000 claims description 173
- 208000035475 disorder Diseases 0.000 claims description 159
- 102000036639 antigens Human genes 0.000 claims description 92
- 108091007433 antigens Proteins 0.000 claims description 92
- 239000000427 antigen Substances 0.000 claims description 91
- 208000003200 Adenoma Diseases 0.000 claims description 80
- 206010001233 Adenoma benign Diseases 0.000 claims description 57
- 108090000623 proteins and genes Proteins 0.000 claims description 49
- 102000004169 proteins and genes Human genes 0.000 claims description 49
- 101000612134 Homo sapiens Procollagen C-endopeptidase enhancer 1 Proteins 0.000 claims description 46
- 102100041026 Procollagen C-endopeptidase enhancer 1 Human genes 0.000 claims description 46
- 101001124900 Homo sapiens PR domain zinc finger protein 8 Proteins 0.000 claims description 44
- 102100029128 PR domain zinc finger protein 8 Human genes 0.000 claims description 44
- 102100030718 Ankyrin repeat and SOCS box protein 9 Human genes 0.000 claims description 41
- 102100022005 B-lymphocyte antigen CD20 Human genes 0.000 claims description 41
- 108010025464 Cyclin-Dependent Kinase 4 Proteins 0.000 claims description 41
- 102000013701 Cyclin-Dependent Kinase 4 Human genes 0.000 claims description 41
- 101000703112 Homo sapiens Ankyrin repeat and SOCS box protein 9 Proteins 0.000 claims description 41
- 101000897405 Homo sapiens B-lymphocyte antigen CD20 Proteins 0.000 claims description 41
- 101000958781 Homo sapiens N-alpha-acetyltransferase 80 Proteins 0.000 claims description 40
- 101001128742 Homo sapiens Nucleoside diphosphate kinase homolog 5 Proteins 0.000 claims description 40
- 101000837565 Homo sapiens Ubiquitin-conjugating enzyme E2 S Proteins 0.000 claims description 40
- 102100038333 N-alpha-acetyltransferase 80 Human genes 0.000 claims description 40
- 102100032210 Nucleoside diphosphate kinase homolog 5 Human genes 0.000 claims description 40
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 claims description 40
- 102100028718 Ubiquitin-conjugating enzyme E2 S Human genes 0.000 claims description 40
- 210000002381 plasma Anatomy 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 36
- 238000011282 treatment Methods 0.000 claims description 36
- 206010048832 Colon adenoma Diseases 0.000 claims description 32
- 101000775582 Homo sapiens Protein arginine N-methyltransferase 6 Proteins 0.000 claims description 32
- 102100032140 Protein arginine N-methyltransferase 6 Human genes 0.000 claims description 32
- 101000721386 Homo sapiens OTU domain-containing protein 5 Proteins 0.000 claims description 31
- 101001094809 Homo sapiens Polynucleotide 5'-hydroxyl-kinase Proteins 0.000 claims description 31
- 101000700735 Homo sapiens Serine/arginine-rich splicing factor 7 Proteins 0.000 claims description 31
- 102100025194 OTU domain-containing protein 5 Human genes 0.000 claims description 31
- 102100035460 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 claims description 31
- 102100029287 Serine/arginine-rich splicing factor 7 Human genes 0.000 claims description 31
- 210000001072 colon Anatomy 0.000 claims description 31
- 101000740523 Homo sapiens Syntenin-1 Proteins 0.000 claims description 30
- 102100037219 Syntenin-1 Human genes 0.000 claims description 30
- 102100036822 Ankyrin repeat and KH domain-containing protein 1 Human genes 0.000 claims description 29
- 102100029893 Bromodomain-containing protein 9 Human genes 0.000 claims description 29
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 claims description 29
- 101000794032 Homo sapiens Bromodomain-containing protein 9 Proteins 0.000 claims description 29
- 101000796121 Homo sapiens Thioredoxin-like protein 1 Proteins 0.000 claims description 29
- 101000644815 Homo sapiens Ubiquitin carboxyl-terminal hydrolase 16 Proteins 0.000 claims description 29
- 101000607872 Homo sapiens Ubiquitin carboxyl-terminal hydrolase 21 Proteins 0.000 claims description 29
- 102100031373 Thioredoxin-like protein 1 Human genes 0.000 claims description 29
- 102100039918 Ubiquitin carboxyl-terminal hydrolase 21 Human genes 0.000 claims description 29
- 230000015654 memory Effects 0.000 claims description 29
- -1 supt6h Proteins 0.000 claims description 29
- 210000004369 blood Anatomy 0.000 claims description 26
- 239000008280 blood Substances 0.000 claims description 26
- 201000002758 colorectal adenoma Diseases 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 102100036816 Eukaryotic peptide chain release factor GTP-binding subunit ERF3A Human genes 0.000 claims description 23
- 102100030863 Eyes absent homolog 1 Human genes 0.000 claims description 23
- 101000851788 Homo sapiens Eukaryotic peptide chain release factor GTP-binding subunit ERF3A Proteins 0.000 claims description 23
- 101000938435 Homo sapiens Eyes absent homolog 1 Proteins 0.000 claims description 23
- 101001011668 Homo sapiens Muscular LMNA-interacting protein Proteins 0.000 claims description 23
- 101000594764 Homo sapiens Nucleoredoxin Proteins 0.000 claims description 23
- 102100030176 Muscular LMNA-interacting protein Human genes 0.000 claims description 23
- 102100036206 Nucleoredoxin Human genes 0.000 claims description 23
- 101001076721 Homo sapiens RNA-binding protein 38 Proteins 0.000 claims description 22
- 101000818575 Homo sapiens Zinc finger and BTB domain-containing protein 21 Proteins 0.000 claims description 22
- 102100025859 RNA-binding protein 38 Human genes 0.000 claims description 22
- 102100021130 Zinc finger and BTB domain-containing protein 21 Human genes 0.000 claims description 22
- 102100023180 Armadillo repeat-containing protein 5 Human genes 0.000 claims description 20
- 102100029520 E3 ubiquitin-protein ligase TRIM31 Human genes 0.000 claims description 20
- 101000684964 Homo sapiens Armadillo repeat-containing protein 5 Proteins 0.000 claims description 20
- 101000634974 Homo sapiens E3 ubiquitin-protein ligase TRIM31 Proteins 0.000 claims description 20
- 230000014509 gene expression Effects 0.000 claims description 20
- 208000004804 Adenomatous Polyps Diseases 0.000 claims description 16
- 206010058314 Dysplasia Diseases 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 16
- 206010007275 Carcinoid tumour Diseases 0.000 claims description 15
- 201000009030 Carcinoma Diseases 0.000 claims description 15
- 206010052360 Colorectal adenocarcinoma Diseases 0.000 claims description 15
- 206010025323 Lymphomas Diseases 0.000 claims description 15
- 206010039491 Sarcoma Diseases 0.000 claims description 15
- 208000002458 carcinoid tumor Diseases 0.000 claims description 15
- 201000004528 gastrointestinal lymphoma Diseases 0.000 claims description 15
- 201000011243 gastrointestinal stromal tumor Diseases 0.000 claims description 15
- 208000015768 polyposis Diseases 0.000 claims description 15
- 210000002966 serum Anatomy 0.000 claims description 14
- 208000011580 syndromic disease Diseases 0.000 claims description 14
- 208000029742 colonic neoplasm Diseases 0.000 claims description 13
- 101000711004 Homo sapiens Cx9C motif-containing protein 4 Proteins 0.000 claims description 12
- 101001014035 Homo sapiens Protein p13 MTCP-1 Proteins 0.000 claims description 12
- 101000650863 Homo sapiens SH2 domain-containing protein 1A Proteins 0.000 claims description 12
- 102100031352 Protein p13 MTCP-1 Human genes 0.000 claims description 12
- 238000005259 measurement Methods 0.000 claims description 12
- 230000011987 methylation Effects 0.000 claims description 12
- 238000007069 methylation reaction Methods 0.000 claims description 12
- 206010038038 rectal cancer Diseases 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 208000015634 Rectal Neoplasms Diseases 0.000 claims description 11
- 201000001275 rectum cancer Diseases 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 102100035584 BRCA2 and CDKN1A-interacting protein Human genes 0.000 claims description 9
- 102100026246 E3 ubiquitin-protein ligase NRDP1 Human genes 0.000 claims description 9
- 101000874304 Homo sapiens BRCA2 and CDKN1A-interacting protein Proteins 0.000 claims description 9
- 101000692706 Homo sapiens E3 ubiquitin-protein ligase NRDP1 Proteins 0.000 claims description 9
- 101000772227 Homo sapiens Protein TSSC4 Proteins 0.000 claims description 9
- 101000987488 Homo sapiens Protein pelota homolog Proteins 0.000 claims description 9
- 102100029345 Protein TSSC4 Human genes 0.000 claims description 9
- 102100028485 Protein pelota homolog Human genes 0.000 claims description 9
- 210000001124 body fluid Anatomy 0.000 claims description 9
- 239000010839 body fluid Substances 0.000 claims description 9
- 150000007523 nucleic acids Chemical class 0.000 claims description 9
- 210000002700 urine Anatomy 0.000 claims description 9
- 101000788773 Homo sapiens Zinc finger and BTB domain-containing protein 2 Proteins 0.000 claims description 8
- 102100032008 Solute carrier family 40 member 1 Human genes 0.000 claims description 8
- 101710111423 Solute carrier family 40 member 1 Proteins 0.000 claims description 8
- 102100025350 Zinc finger and BTB domain-containing protein 2 Human genes 0.000 claims description 8
- 108020004707 nucleic acids Proteins 0.000 claims description 8
- 102000039446 nucleic acids Human genes 0.000 claims description 8
- 238000007637 random forest analysis Methods 0.000 claims description 8
- 210000000601 blood cell Anatomy 0.000 claims description 7
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 208000019399 Colonic disease Diseases 0.000 claims description 5
- 238000001574 biopsy Methods 0.000 claims description 5
- 208000014081 polyp of colon Diseases 0.000 claims description 5
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000002512 chemotherapy Methods 0.000 claims description 3
- 238000009169 immunotherapy Methods 0.000 claims description 3
- 238000001819 mass spectrum Methods 0.000 claims description 3
- 238000001959 radiotherapy Methods 0.000 claims description 3
- 238000013135 deep learning Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000007674 radiofrequency ablation Methods 0.000 claims description 2
- 238000013179 statistical model Methods 0.000 claims description 2
- 238000001356 surgical procedure Methods 0.000 claims description 2
- 238000002626 targeted therapy Methods 0.000 claims description 2
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 claims 14
- 201000010989 colorectal carcinoma Diseases 0.000 claims 3
- 208000037828 epithelial carcinoma Diseases 0.000 claims 3
- 210000003608 fece Anatomy 0.000 claims 1
- 208000020615 rectal carcinoma Diseases 0.000 claims 1
- 239000000090 biomarker Substances 0.000 abstract description 17
- 239000000203 mixture Substances 0.000 abstract description 4
- 206010028980 Neoplasm Diseases 0.000 description 90
- 201000011510 cancer Diseases 0.000 description 53
- 238000012360 testing method Methods 0.000 description 47
- 239000000523 sample Substances 0.000 description 43
- 238000003860 storage Methods 0.000 description 30
- 102000015098 Tumor Suppressor Protein p53 Human genes 0.000 description 26
- 230000035945 sensitivity Effects 0.000 description 22
- 238000002591 computed tomography Methods 0.000 description 19
- 201000010099 disease Diseases 0.000 description 19
- 238000003745 diagnosis Methods 0.000 description 18
- 238000003556 assay Methods 0.000 description 14
- 238000012544 monitoring process Methods 0.000 description 14
- 238000012216 screening Methods 0.000 description 14
- 230000000875 corresponding effect Effects 0.000 description 13
- 230000001225 therapeutic effect Effects 0.000 description 12
- 230000009471 action Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 230000008030 elimination Effects 0.000 description 9
- 238000003379 elimination reaction Methods 0.000 description 9
- 230000003902 lesion Effects 0.000 description 9
- 238000002493 microarray Methods 0.000 description 9
- 108020004414 DNA Proteins 0.000 description 7
- 238000009534 blood test Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 238000002604 ultrasonography Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000011976 chest X-ray Methods 0.000 description 6
- 230000036541 health Effects 0.000 description 6
- 238000003384 imaging method Methods 0.000 description 6
- 238000002595 magnetic resonance imaging Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000002600 positron emission tomography Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 208000007660 Residual Neoplasm Diseases 0.000 description 5
- 208000035269 cancer or benign tumor Diseases 0.000 description 5
- 238000002052 colonoscopy Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 5
- 210000000416 exudates and transudate Anatomy 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000035772 mutation Effects 0.000 description 5
- 238000004393 prognosis Methods 0.000 description 5
- 230000002829 reductive effect Effects 0.000 description 5
- 208000037062 Polyps Diseases 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000034994 death Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000003672 processing method Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 206010006187 Breast cancer Diseases 0.000 description 3
- 208000026310 Breast neoplasm Diseases 0.000 description 3
- 206010061818 Disease progression Diseases 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 108060003951 Immunoglobulin Proteins 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 239000012620 biological material Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000002405 diagnostic procedure Methods 0.000 description 3
- 230000005750 disease progression Effects 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 102000018358 immunoglobulin Human genes 0.000 description 3
- 238000012417 linear regression Methods 0.000 description 3
- 238000011528 liquid biopsy Methods 0.000 description 3
- 239000003550 marker Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 229920001621 AMOLED Polymers 0.000 description 2
- 108091061744 Cell-free fetal DNA Proteins 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- 208000008051 Hereditary Nonpolyposis Colorectal Neoplasms Diseases 0.000 description 2
- 206010051922 Hereditary non-polyposis colorectal cancer syndrome Diseases 0.000 description 2
- 201000005027 Lynch syndrome Diseases 0.000 description 2
- 241000124008 Mammalia Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 2
- 230000005875 antibody response Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 230000005773 cancer-related death Effects 0.000 description 2
- 231100000504 carcinogenesis Toxicity 0.000 description 2
- 108091092259 cell-free RNA Proteins 0.000 description 2
- 101150071577 chi2 gene Proteins 0.000 description 2
- 238000013079 data visualisation Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 229940072221 immunoglobulins Drugs 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002018 overexpression Effects 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000004962 physiological condition Effects 0.000 description 2
- 230000035790 physiological processes and functions Effects 0.000 description 2
- 238000003498 protein array Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 238000002965 ELISA Methods 0.000 description 1
- 206010072082 Environmental exposure Diseases 0.000 description 1
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 1
- 206010018429 Glucose tolerance impaired Diseases 0.000 description 1
- 241001272567 Hominoidea Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000662026 Homo sapiens Ubiquitin-like modifier-activating enzyme 7 Proteins 0.000 description 1
- 108090000144 Human Proteins Proteins 0.000 description 1
- 102000003839 Human Proteins Human genes 0.000 description 1
- 206010020772 Hypertension Diseases 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010028813 Nausea Diseases 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 208000001280 Prediabetic State Diseases 0.000 description 1
- 206010065918 Prehypertension Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- 102100037938 Ubiquitin-like modifier-activating enzyme 7 Human genes 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 239000012491 analyte Substances 0.000 description 1
- 210000001815 ascending colon Anatomy 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000003705 background correction Methods 0.000 description 1
- 208000013489 benign neoplasm of large intestine Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 235000014633 carbohydrates Nutrition 0.000 description 1
- 210000004534 cecum Anatomy 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010205 computational analysis Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011461 current therapy Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 210000001731 descending colon Anatomy 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 239000000104 diagnostic biomarker Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 238000001085 differential centrifugation Methods 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 230000002550 fecal effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 230000000984 immunochemical effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000968 intestinal effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000011005 laboratory method Methods 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 210000001165 lymph node Anatomy 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 239000011325 microbead Substances 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 210000004877 mucosa Anatomy 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000010238 partial least squares regression Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 201000009104 prediabetes syndrome Diseases 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012628 principal component regression Methods 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 210000000664 rectum Anatomy 0.000 description 1
- 238000006722 reduction reaction Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 210000001599 sigmoid colon Anatomy 0.000 description 1
- 238000002579 sigmoidoscopy Methods 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003239 susceptibility assay Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 229940124597 therapeutic agent Drugs 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 230000008467 tissue growth Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000003384 transverse colon Anatomy 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 208000022271 tubular adenoma Diseases 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 238000013107 unsupervised machine learning method Methods 0.000 description 1
- 201000007553 villous adenocarcinoma Diseases 0.000 description 1
- 208000009540 villous adenoma Diseases 0.000 description 1
- 230000004580 weight loss Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/53—Immunoassay; Biospecific binding assay; Materials therefor
- G01N33/574—Immunoassay; Biospecific binding assay; Materials therefor for cancer
- G01N33/57407—Specifically defined cancers
- G01N33/57419—Specifically defined cancers of colon
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
- G01N33/50—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
- G01N33/68—Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
- G01N33/6854—Immunoglobulins
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Immunology (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Hematology (AREA)
- Urology & Nephrology (AREA)
- Physics & Mathematics (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Cell Biology (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Microbiology (AREA)
- Analytical Chemistry (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Library & Information Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Peptides Or Proteins (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本文公开的系统、介质、组合物、方法和试剂盒涉及用于包括结直肠癌在内的结肠细胞增殖性病症的早期检测的自身抗体生物标志物小组。用于本文所述的自身抗体小组的生物样品中自身抗体的存在和水平可以用于分类器生成,并且用作可用于对群体中的对象进行分类以检测结肠细胞增殖性病症的机器学习模型中的输入。
Description
相关申请的交叉引用
本申请要求2020年10月5日提交的美国临时专利申请号63/087,728的权益,其通过引用以其整体并入本文。
技术领域
本公开涉及用于包括晚期腺瘤和结直肠癌在内的结肠细胞增殖性病症的早期鉴定的生物标志物和方法。
背景技术
结直肠癌是西方世界中癌症相关死亡的主要原因。虽然结直肠癌是表征最好的实体瘤之一,但是由于诊断较晚,结直肠癌仍然是发达国家的主要死亡原因之一。除其他原因外,患者的晚期诊断是由于诊断测试如结肠镜检查进行得太晚。由于结直肠癌导致的死亡可以通过有效筛查来预防。
发明内容
本公开提供了涉及与结直肠癌检测和疾病进展相关的生物样品的自身抗体谱分析的方法和系统。
在一方面,本公开提供了一种结肠细胞增殖性病症所特有的预先确定的自身抗体小组,其包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在一些实施方案中,所述3种或更多种自身抗体是IgG自身抗体、IgM自身抗体或其组合。
在一些实施方案中,所述小组被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
在一些实施方案中,所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
在一些实施方案中,所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征(Lynch syndrome)、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在另一方面,本公开提供了一种被配置为区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器,其包括:测量值集,所述测量值集代表来自结肠细胞增殖性病症所特有的预先确定的自身抗体小组的自身抗体,其中所述测量值从来自健康对象和患有结肠细胞增殖性病症的对象的自身抗体表达数据获得,其中所述测量值用于生成与所述自身抗体的特性相对应的特征集,其中将所述特征集输入机器学习或统计模型中,其中所述模型提供可用作能够区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器的特征向量。
在一些实施方案中,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、PRDM8、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在一些实施方案中,所述3种或更多种自身抗体是IgG自身抗体、IgM自身抗体或其组合。
在一些实施方案中,所述小组被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
在一些实施方案中,所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
在一些实施方案中,所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些方面,本公开提供了一种用于检测结肠细胞增殖性病症的包括机器学习模型分类器的系统,其包括:包括分类器的计算机可读介质,所述分类器可操作以至少部分地基于预先确定的自身抗体小组来将对象分类;和一个或多个处理器,用于执行存储在所述计算机可读介质上的指令。
在一些实施方案中,所述分类器被加载到计算机系统的存储器中,其中所述机器学习模型使用从训练生物样品获得的训练向量来训练,其中所述训练生物样品的第一子集被鉴定为患有结肠细胞增殖性病症,并且其中所述训练生物样品的第二子集被鉴定为未患结肠细胞增殖性病症。
在一些实施方案中,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、PRDM8、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在一些实施方案中,所述分类器选自深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、K近邻分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
在另一方面,本公开提供了一种用于确定对象的自身抗体谱的方法,其包括:从对象获得生物样品;和测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在一些实施方案中,所述自身抗体谱与结肠细胞增殖性病症相关,并且提供将对象分类为患有结肠细胞增殖性病症的分类。
在一些实施方案中,从所述对象获得的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在另一方面,本公开提供了一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:从所述对象获得生物样品;测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;以及使用经训练以能够区分健康对象与患有结肠细胞增殖性病症的对象的机器学习模型来处理所述自身抗体谱,以确定与所述结肠细胞增殖性病症存在相关的输出值,从而指示所述对象中存在所述结肠细胞增殖性病症。
在一些实施方案中,所述自身抗体谱与结肠细胞增殖性病症相关,并且提供将对象分类为患有结肠细胞增殖性病症的分类。
在一些实施方案中,所述方法还包括检测所述生物样品中核酸分子的甲基化状态,以提供甲基化谱。
在一些实施方案中,所述方法还包括使用所述机器学习模型来处理所述甲基化谱,其中所述甲基化谱在所述机器学习模型中与所述自身抗体谱组合,以区分健康对象与患有结肠细胞增殖性病症的对象。
在一些实施方案中,所述方法还包括测量所述生物样品中的一种或多种蛋白质的量,以提供蛋白质谱。
在一些实施方案中,所述方法还包括使用所述机器学习模型来处理所述蛋白质谱,其中所述蛋白质谱在所述机器学习模型中与所述自身抗体谱组合,以区分健康对象与患有结肠细胞增殖性病症的对象。
在一些实施方案中,从所述对象获得的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
在一些实施方案中,所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
在一些实施方案中,所述方法还包括施用针对所述对象中的结肠细胞增殖性病症的治疗。在一些实施方案中,所述治疗选自手术、射频消融、化疗、放射疗法、靶向疗法和免疫疗法。
根据以下具体实施方式,本公开的另外的方面和优点对于本领域技术人员将容易地变得清楚,在以下具体实施方式中仅示出和描述了本公开的说明性实施方案。如将会理解的,本公开能够具有其他的和不同的实施方案,并且其若干细节能够在各个明显的方面进行修改,所有这些都不脱离本公开。相应地,附图和说明书应当被看作是说明性质的,而不是限制性的。
通过引用并入
本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,其并入程度如同每个单独的出版物、专利或专利申请被明确且单独地指示通过引用并入。就通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相矛盾而言,本说明书旨在取代和/或优先于任何这种矛盾的材料。
附图说明
本发明的新颖特征在随附权利要求中具体阐述。通过参考阐述了利用本发明原理的说明性实施方案的以下详细描述和附图(在本文中也称为“图(Figure)”和“图(FIG.)”)将获得对本发明的特征和优点的更好的理解,在附图中:
图1提供了为实现本文所提供的方法而进行编程或以其他方式配置有机器学习模型和分类器的计算机系统的示意图。
图2提供了示出用于CRC分类的前5个AAb靶标的CV系数的图。
图3提供了示出CV中的CRC分类性能的递归特征消除的图。
图4提供了示出用于AA分类的前10个AAb靶标的CV系数的图。
图5提供了示出CV中的AA分类性能的递归特征消除的图。
图6提供了示出用于NAA分类的前5个AAb靶标的CV系数的图。
图7提供了示出CV中的NAA分类性能的递归特征消除的图。
具体实施方式
尽管本文已经示出和描述了本发明的各个实施方案,但对于本领域普通技术人员明显的是,此类实施方案仅以举例的方式提供。在不脱离本发明的情况下,本领域普通技术人员可以想到多种变型、变化和替代方案。应理解,可以采用针对本文所述的本发明实施方案的各种可替代方案。
结直肠癌是西方世界中癌症相关死亡的主要原因。虽然结直肠癌是表征最好的实体瘤之一,但是由于诊断较晚,结直肠癌仍然是发达国家的主要死亡原因之一。除其他原因外,患者的晚期诊断是由于诊断测试如结肠镜检查进行得太晚。由于结直肠癌导致的死亡可以通过有效筛查来预防。已经在患有癌症的患者中鉴定到针对肿瘤相关抗原的特定抗体应答。因为这些抗体应答可以通过肿瘤细胞中自身蛋白的结构或表达的变化来触发,所以一些抗体的存在可以充当癌症的潜在免疫标志物。
本公开总体上涉及癌症检测和疾病监测。更具体地,本公开涉及结肠细胞增殖性疾病,诸如早期结直肠癌中癌症相关自身抗体检测和疾病监测。具体来说,提供了循环自身抗体特征小组及其用途以用于鉴定患有或有发展结肠细胞增殖性病症诸如结直肠癌(CRC)和/或结直肠腺瘤(CA)(例如,晚期结直肠腺瘤(AA))的风险的人类对象。
本公开描述了对象中的肿瘤抗原相关自身抗体(“tAAb”或“自身抗体”),其指示结肠细胞增殖性病症的存在或例如当对象具有结直肠病变时,发展结肠细胞增殖性病症的高风险。癌症筛查和监测改善存活结果,因为早期检测允许在癌症生长和扩散之前消除它。例如,在结直肠癌中,结肠镜检查在改善早期诊断方面起作用。遗憾的是,患者的依从率很低,并且由于程序的侵入性,筛查的进行低于建议的规律性。
本文描述了用于至少部分地基于在患有结肠细胞增殖性病症的对象中上调或过表达的自身抗体的表达谱或丰度来筛查或鉴定患有结肠细胞增殖性病症或有发展结肠细胞增殖性病症的风险的对象的方法。本文还描述了用于获得对诊断对象(例如,人类对象)的结肠细胞增殖性病症有用的数据的方法。
结肠细胞增殖性病症可以是任何肿瘤阶段(例如,TX、T0、Tis、T1、T2、T3、T4);任何区域淋巴结或远处转移期(例如,NX、N0、N1、M0、M1);任何阶段(例如,0期(Tis、N0、M0)、IA期(T1、N0、M0)、IIA期(T3、N0、M0)、IIB期(T1-3、N1、M0)、III期(T4、任何N、M0)或IV期(任何T、任何N、M1));可切除的;局部晚期(无法切除);或转移的。
筛查工具可能因假阳性和假阴性结果以及特异性和敏感性而受损。理想的癌症筛查工具可以具有高阳性预测值(Positive Predictive Value,PPV),这将最大限度地减少不必要的检查(低假阳性),但可以检测出绝大多数癌症(低假阴性)。另一个关键的受损是“检测敏感性”,它不同于测试敏感性。检测敏感性是基于大小检测肿瘤的下限。使肿瘤生长到足够的大小,释放出可检测水平的循环肿瘤标志物,这违背了早期检测和预防癌症进展的目的。因此,需要高敏感性和有效的基于血液的结直肠癌早期诊断筛查。
循环肿瘤DNA的检测(被称为“液体活检”)允许以非侵入性的方式对肿瘤进行检测和信息调查。在这些液体活检中对肿瘤特异性突变的鉴定已经用于诊断结肠癌、乳腺癌和前列腺癌。然而,由于循环中存在高背景的正常(即,非肿瘤来源的)DNA,所以这些技术的敏感性可能受到限制。因此,仍需要更敏感且更具特异性的筛查工具来检测早期或低肿瘤负荷的结直肠癌肿瘤标志物,以便在高危群体中进行复发筛查和一次筛查。针对肿瘤相关抗原的循环自身抗体提供液体活检样品中信息性生物标志物的来源,其可以在本文所述的机器学习模型中使用。
本公开提供了涉及对与结肠细胞增殖性病症及其进展(例如,结直肠癌)相关的循环自身抗体进行谱分析的方法和系统。那些指示结肠细胞增殖性病症的存在或发展结肠细胞增殖性病症的高风险的自身抗体可以用于尽早诊断、治疗或预防结肠细胞增殖性病症的进展,例如,当对象只有结直肠病变时。本文还提供了用于诊断结肠细胞增殖性病症或评估(特别是当对象具有结直肠病变时)对象发展结肠细胞增殖性病症的风险的试剂盒和方法。
在一方面,本文提供了使用自身抗体小组的方法,其用于基于疾病状态区分来自对象的样品。在其他方面,本文提供了涉及使用自身抗体小组来检测、鉴别和区分结肠细胞增殖性病症的方法、测定和试剂盒。结肠细胞增殖性病症的非限制性实例包括腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,本文提供了使用被选择作为标志物的一种或多种自身抗体用于结肠细胞增殖性病症的鉴别、检测和区分的方法。
定义
除非上下文另外明确指示,否则如说明书和权利要求中所用,单数形式“一个/种(a/an)”以及“所述(the)”包括复数个指示物。例如,术语“核酸”包括多个核酸,包括其混合物。
如本文所用,术语“对象”是指具有可测试或可检测的遗传信息的实体或媒介。对象可以是个人、个体或患者。对象可以是脊椎动物,例如像哺乳动物。哺乳动物的非限制性实例包括人类、猿猴、农场动物、运动动物、啮齿动物和宠物。对象可以表现出指示对象的健康或生理状态或状况,诸如对象的疾病或病症的一种或多种症状。作为替代,对象可以在这种健康或生理状态或状况方面无症状。
如本文所用,术语“样品”一般是指从一个或多个对象获得或衍生的生物样品。生物样品可以是无细胞生物样品或基本上上无细胞生物样品,或者可以被加工或分级分离以产生无细胞生物样品。例如,无细胞生物样品可以包括无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、蛋白质、自身抗体、血浆、血清、尿液、唾液、羊水及其衍生物。可以使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管(例如,RNA Complete />)或无细胞DNA收集管(例如,/>Cell-Free DNA/>)从对象获得或衍生无细胞生物样品。无细胞生物样品可以通过分级分离(例如,通过差速离心)从全血样品中衍生。生物样品或其衍生物可以含有细胞。例如,生物样品可以是血液样品或其衍生物(例如,通过收集管或血滴收集的血液)。
如本文所用,术语“无细胞样品”一般是指基本上缺乏完整细胞的生物样品。无细胞样品可以衍生自本身基本上缺乏细胞的生物样品,或者可以衍生自细胞已被去除的样品。无细胞样品的非限制性实例包括衍生自血液、血清、血浆、尿液、精液、痰液、粪便、导管渗出液、淋巴和回收灌洗液的那些样品。
如本文所用,术语“结肠细胞增殖性病症”一般是指包括结肠或直肠细胞的紊乱或异常增殖的病症或疾病。结肠细胞增殖性病症的非限制性实例包括腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。如本文所用,缩写“CRC”用于标识来自被诊断患有结直肠癌的对象的生物样品。如本文所用,缩写“AA”用于标识来自被诊断患有至少一种晚期腺瘤的对象的样品。如本文所用,缩写“NAA”用于标识来自被诊断患有良性结直肠肿瘤并且未患晚期腺瘤或结直肠癌的对象的样品。
如本文所用,术语“结直肠癌”是一般以小肠以下(即,大肠(结肠),例如盲肠、升结肠、横结肠、降结肠、乙状结肠和直肠)的肠道细胞癌变为特征的医学病状。
如本文所用,术语“结直肠腺瘤”一般是指结肠腺瘤,也被称为腺瘤性息肉,它是结直肠癌的良性和癌前阶段。结直肠腺瘤可以指示进展为结直肠癌的高风险。
如本文所用,术语“晚期结直肠腺瘤”是指腺瘤大小为至少10mm或组织学上有高度异型增生或绒毛成分高于20%。
如本文所用,术语“有发展结肠细胞增殖性病症的风险”“发展结肠细胞增殖性病症的高风险”一般是指与未患结肠细胞增殖性病症的对象或在不久的将来发展结肠细胞增殖性病症的风险较低的对象相比,对象在不久的将来发展结肠细胞增殖性病症的风险增加。如本文所用,术语“不久的将来”一般是指约1个月至约2年、约6个月至约18个月或约1年的持续时间。
如本文所用,术语癌症“类型”和“亚型”在本文中一般是相对使用的,使得一种“类型”的癌症,诸如乳腺癌,可以是基于例如阶段、形态学、组织学、基因表达、受体谱、突变谱、侵袭性、预后和恶性特点的“亚型”。同样,“类型”和“亚型”可以应用在更细的层次上,例如,将一个组织学“类型”鉴别为“亚型”,例如,根据突变谱或基因表达来定义。癌症“阶段”也用来指代基于与疾病进展相关的组织学和病理学特点的癌症类型分类。
术语“赘生物”一般是指任何新的和异常组织生长。因此,赘生物可以是癌前赘生物或恶性赘生物。术语“赘生物特异性标志物”是指可以用于指示赘生物存在的任何生物材料。生物材料的实例包括但不限于核酸、多肽、碳水化合物、脂肪酸、细胞成分(例如,细胞膜和线粒体)和全细胞。术语“结直肠赘生物特异性标志物”是指可以用于指示结直肠赘生物(例如,癌前结直肠赘生物;恶性结直肠赘生物)存在的任何生物材料。
如本文所用,术语“健康”一般是指对象不患有结直肠细胞增殖性病症。虽然健康是一种动态状态,但如本文所用,所述术语指的是在特定陈述中所提及的缺乏疾病状态的对象的病理状态。在一个实例中,当提及能够对结直肠癌对象进行分类的特征小组时,健康个体、健康样品或来自健康个体的样品是指缺乏结直肠癌(CRC)、晚期腺瘤(AA)或良性腺瘤(NAA)的个体。如本文所用,缩写“NAA”用于鉴定来自被评估为结直肠肿瘤阴性的个体的样品,并且因此,在某些实施方案中,被鉴定为NAA的样本被包括在健康样品组中。虽然在此对象中可能存在其他疾病或健康状态,但如本文所用,术语“健康”一般指示缺乏疾病状态,用于在具有与缺乏所讨论的疾病状态的对象之间缺乏进行比较或分类的目的。
术语“微小残留疾病”或“MRD”一般是指癌症治疗之后对象体内的少量癌细胞。可以进行MRD检测,以确定癌症治疗的有效性,并指导进一步的治疗计划。
如本文所用,术语“筛查”一般是指对有患上结直肠癌或结直肠腺瘤风险的对象群体进行检查或测试,目的是判别健康对象与患有未诊断的结直肠癌或结直肠腺瘤的对象或有患上所述适应症的高风险的对象。
如本文所用,术语“微创性生物样品”或“非侵入性样品”一般是指除用于从对象身上取血的细针外,不需要任何仪器从患者体内采集的任何样品。在一些实施方案中,微创性生物样品包括血液、血清或血浆样品。
如本文所用,术语“上调”或“过表达”一般是指表达水平相对于给定的“阈值”或“截止值”增加了至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少100%、至少110%、至少120%、至少130%、至少140%、至少150%或多于150%。
如本文所用,术语“阈值”或“截止值”,在提及表达水平时,一般是指在给定的敏感性和特异性下,如果对象的表达水平高于所述阈值或截止或参考水平,则指示对象可能患有结直肠癌或结直肠腺瘤的参考表达水平。
如本文所用,术语“试剂盒”不限于任何特定的装置并且一般包括适用于实现本发明的任何装置,诸如但不限于微阵列、生物阵列、生物芯片、生物芯片阵列或基于珠的阵列。
测定样品
无细胞生物样品可以从人类对象获得或衍生。无细胞生物样品在加工之前可以储存在多种储存条件下,诸如不同温度(例如室温、冷藏或冷冻条件,例如25℃、4℃、-18℃、-20℃或-80℃)或不同悬浮液(例如,EDTA收集管、无细胞RNA收集管或无细胞DNA收集管)。
无细胞生物样品可以从患有癌症的对象、疑似患有癌症的对象、或未患或未疑似患有癌症的对象获得。
无细胞生物样品可以在患有癌症的对象的治疗之前和/或之后获得。在治疗或治疗方案期间,可以从对象获得无细胞生物样品。可以从对象获得多个无细胞生物样品,以监测随时间推移的治疗效果。无细胞生物样品可以从已知或疑似患有癌症的对象中获取,所述疑似患有癌症的对象无法经由临床测试得到明确的阳性或阴性诊断。样品可以从疑似患有癌症的对象获取。无细胞生物样品可以从出现以下无法解释的症状的对象获取,诸如疲劳、恶心、体重减轻、身体疼痛、虚弱或出血。无细胞生物样品可以从有解释的症状的对象获取。无细胞生物样品可以从因诸如家族史、年龄、高血压或高血压前期、糖尿病或糖尿病前期、超重或肥胖、环境暴露、生活方式风险因素(例如,吸烟、饮酒或吸毒)或存在其他风险因素的因素而有发作癌症的风险的对象获取。
无细胞生物样品可以含有一种或多种能够被测定的分析物,诸如适用于测定以生成转录组数据的无细胞核糖核酸(cfRNA)分子、适用于测定以生成基因组数据的无细胞脱氧核糖核酸(cfDNA)分子、适用于测定以生成蛋白质组数据的蛋白质分子(包括自身抗体)或其混合物或组合。
从对象获得无细胞生物样品之后,可以对所述无细胞生物样品进行加工,以生成指示对象的结肠细胞增殖性病症的数据集。例如,在自身抗体小组处无细胞生物样品中的抗体分子的存在、不存在或定量评估。对从对象获得的无细胞生物样品进行加工可以包括:(i)将所述无细胞生物样品置于足以分离、富集或提取多种自身抗体的条件下;以及(ii)测定所述多种自身抗体分子以生成数据集。
生物样品可以直接用于自身抗体的测定,以生成样品的自身抗体谱。在一些实施方案中,生物样品可以在测定之前富集自身抗体(例如,使用蛋白质缀合的微珠)。在一个实施方案中,生物样品是血浆样品并且被富集。可以用各种实验室方法对生物样品进行测定,以确定生物样品中抗体的存在和/或浓度或水平。在各种实施方案中,此类方法可以包括但不限于蛋白质微阵列、高密度蛋白质微阵列(例如,CDI)、ELISA、中尺度发现、基于珠的免疫测定(例如,基于磁珠的捕获测定)、二级氟-抗体测定或其组合,以确定来自对象的生物样品的自身抗体谱。
特征小组
本公开提供了分析生物样品的方法和系统,以从样品中鉴定的与结肠细胞增殖性病症发展相关的自身抗体分子组合获得可测量的特征。本文所述的已鉴定的自身抗体分子的集合在创建用于检测结肠细胞增殖性病症或其阶段的分类器和模型中具有信息价值。虽然已鉴定的自身抗体分子可以单独地具有信息性且可用,但自身抗体分子可以在本文所述的组合中使用以形成特征小组,其中特征是结肠细胞增殖性病症或其阶段所特有的。来自特征小组的特征可以使用经训练的算法(例如,机器学习模型)来处理,以创建分类器,所述分类器被配置为对患有结肠细胞增殖性病症的对象群体进行分层。所述方法通过使用特征小组中描述的一种或多种自身抗体来表征。在一个实施方案中,至少3种自身抗体的签名小组可用于本文所述的分类器和方法。
本文所述的自身抗体特征小组可以允许对与结肠细胞增殖性病症相关的特异性自身抗体进行快速和特异性分析。本文方法中描述和使用的特征小组可用于改进结肠细胞增殖性病症的诊断、预后、治疗选择和监测(例如治疗监测)。
与目前的方法相比,所述特征小组和方法提供了显著的改进,以从诸如全血、血浆或血清的体液样品中检测早期结肠细胞增殖性病症。目前用于检测和诊断结肠细胞增殖性病症的方法包括结肠镜、乙状结肠镜和粪便潜血结肠癌。与这些方法相比,本文提供的方法可以比结肠镜的侵入性小得多,并且至少与乙状结肠镜、粪便免疫化学试验(FIT)和粪便潜血试验(FOBT)同样或更敏感。本文提供的方法在敏感性和特异性方面提供显著优势,这是由于使用基因小组与高敏感性测定技术的有利组合。
本公开提供了涉及与结肠细胞增殖性病症检测和疾病进展相关的肿瘤抗原相关自身抗体(“tAAb”或“自身抗体”)的自身抗体谱分析的方法和系统。本发明的某些实施方案提供了与未患结肠细胞增殖性病症或具有发展结肠细胞增殖性病症的低风险的对象的相应样品相比,在患有结肠细胞增殖性病症或具有发展结肠细胞增殖性病症的高风险的对象的样品中差异丰富的自身抗体。在一个实施方案中,具有发展结肠细胞增殖性病症的高风险的对象和具有发展结肠细胞增殖性病症的低风险的对象中的每个在结直肠黏膜内均有非侵入性前期病变(下文中称为结直肠病变)。在健康对象和患有结肠细胞增殖性病症的对象的样品中以不同丰度存在的自身抗体可以用作诊断、治疗和/或预防结肠细胞增殖性病症的生物标志物。
为了鉴定对本文所述的方法和分类器具有信息性的自身抗体,已经检查了来自患有结肠细胞增殖性病症的患者的血浆和未患结肠细胞增殖性病症的对象的血浆(对照血浆或参考血浆),以鉴定由患有结肠细胞增殖性病症的患者响应于所述结肠细胞增殖性病症及其相应的反应性蛋白产生的自身抗体的特征小组。为此,使用高密度蛋白质微阵列测试了来自患有结肠细胞增殖性病症的患者的血浆和对照血浆。相对于用于鉴定自身抗体的其他方法,蛋白质微阵列具有一系列优势:i)打印在阵列中的蛋白质是事先已知的,从而避免随后进行鉴定并消除模拟表位的可能选择,以及ii)没有选择任何蛋白质的倾向,因为蛋白质全部以类似的浓度打印。这种因素组合使得鉴定生物标志物具有高敏感性。
本文鉴定的自身抗体可以用于鉴定患有结肠细胞增殖性病症的对象,以将其与未患结肠细胞增殖性病症的对象区分开;或鉴定具有发展结肠细胞增殖性病症的较高风险的对象,以将其与具有发展结肠细胞增殖性病症的较低风险的对象区分开;或鉴定具有结肠细胞增殖性病症前兆的对象。因此,这些自身抗体可以用作辅助工具,以指导与结肠细胞增殖性病症的监测、治疗和管理有关的决定。
在某些实施方案中,本文公开了一种血浆肿瘤抗原相关自身抗体(TAAb)生物标志物小组,其可用于结直肠增殖病症的早期检测并且与结直肠癌的早期检测相关。
在其他实施方案中,本文公开了检测、诊断和治疗相关的方法。筛查来自患者的血浆中针对肿瘤衍生蛋白的肿瘤抗原相关自身抗体(TAAb),作为结直肠增殖病症的指示。
在一方面,本公开提供了一种结肠细胞增殖性病症所特有的自身抗体小组,其包含针对选自以下的3种或更多种抗原的免疫球蛋白:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在一个实施方案中,所述免疫球蛋白是IgG、IgM或其组合。
在一个实施方案中,所述自身抗体特征小组可用于区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
在一个实施方案中,所述小组可用于指示晚期腺瘤,并且包含针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、SDCBP和CD20。在一个实施方案中,所述小组包含针对UBE2、NME5和CD20的IgM自身抗体。在一个实施方案中,所述小组可用于指示晚期腺瘤,并且包含针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7和ASB9。在一个实施方案中,所述小组包含针对ASB9、NAT6、Supt6h和PRDM8的IgG自身抗体。
在一个实施方案中,所述小组可用于指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
在一个实施方案中,所述小组可用于指示来自患有良性息肉的对象的样品,并且包含针对选自以下的至少3种抗原的IgG自身抗体:NXN、EYA1、GSPT1和MLIP。
在一个实施方案中,所述小组可用于指示来自患有良性息肉的对象的样品,并且包含针对ZBTB21的IgM自身抗体。
在一个实施方案中,所述小组可用于指示结直肠癌,并且包含针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTCP1、PRMT6、PCOLCE和ZBtb2。在一个实施方案中,所述小组包含针对TSSC4、BRD9、BCCIP和TP53的IgG自身抗体中的至少3种。在一个实施方案中,所述小组包含针对CDK4、PRMT6和MTCP1的IgM自身抗体。在一个实施方案中,所述小组包含针对TP53和RBM38的IgG自身抗体。
在一个实施方案中,所述小组可用于指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
在一些实施方案中,预先确定的自身抗体集含有针对至少1种、至少2种、至少3种、至少4种、至少5种、至少6种、至少7种、至少8种、至少9种、至少10种、至少11种、至少12种、至少13种、至少14种、至少15种、至少16种、至少17种、至少18种、至少19种、至少20种、至少21种、至少22种、至少23种、至少24种、至少25种、至少26种、至少27种、至少28种、至少29种、至少30种或更多种抗原(诸如本文所述的抗原)的自身抗体。在一些实施方案中,预先确定的自身抗体集含有针对1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30种或更多种抗原(诸如本文所述的抗原)的自身抗体。
在一些实施方案中,预先确定的小组中的自身抗体是IgM和IgG自身抗体。在一个实施方案中,预先确定的小组中的自身抗体是IgM自身抗体。在一个实施方案中,预先确定的小组中的自身抗体是IgG自身抗体。
分类器、机器学习模型和系统
机器学习方法用于对从对象获得的生物样品衍生的自身抗体数据进行特征化,以鉴定信息性自身抗体小组。已鉴定的结肠细胞增殖性病症的信息性自身抗体小组可用于训练分类器模型,所述分类器模型可用于区分来自健康对象和患有结肠细胞增殖性病症的对象的样品。
本文还描述了一种在本文所述的自身抗体上训练的机器学习模型分类器,所述自身抗体在健康对象的血浆样品和来自患有结肠细胞增殖性病症的对象的血浆样品中表达。训练机器学习模型提供具有预先确定的自身抗体生物标志物集(“自身抗体小组”或“特征小组”)的分类器,所述分类器可用于对健康对象或患有结肠细胞增殖性病症的对象进行分类。在一个实例中,提供了一种用于基于血液的微创性自身抗体测定的方法,其可以用于评估具有结直肠病变的对象的组织学严重程度。在另一个实施方案中,在来自对象的无细胞样品,例如来自对象的体液样品诸如全血、血浆或血清中检测指示结肠细胞增殖性病症的自身抗体。因此,本文公开的自身抗体可以用于鉴别结肠细胞增殖性病症的存在或不存在、需要治疗(诸如手术切除、免疫疗法、放疗或化疗)的高风险结直肠病变或低风险结直肠病变和低风险结直肠病变的监测。可以例如通过结肠镜检查、超声、MM或CT扫描来监测和确认结肠细胞增殖性病症或病变的存在。
在各种实例中,自身抗体特征被用作经训练的算法(例如,机器学习模型或分类器)的输入数据集,以寻找自身抗体谱与患者组之间的相关性。此类患者组的实例包括疾病或病状的存在、阶段、亚型、应答者与无应答者、以及进展者与无进展者。在各种实例中,生成特征矩阵以比较从具有已知条件或特点的对象获得的样品。在一些实施方案中,样品从健康对象或不具有任何已知适应症的对象获得并且样品从已知患有癌症的患者获得。
如本文所用,关于机器学习和模式识别,术语“特征”一般是指被观察现象的单个可测量的特性或特点。“特征”的概念与统计技术中使用的解释变量的概念有关,例如但不限于线性回归和逻辑回归。特征通常是数字的,但是在句法模式识别中使用结构特征诸如字符串和图表。
如本文所用,术语“输入特征”(或“特征”)一般是指由经训练的算法(例如,模型或分类器)用来预测样品的输出分类(标签)的变量,例如条件、自身抗体身份、抗体序列内容(例如,突变)、建议的数据收集操作或建议的处理。变量的值可以确定为一个样品,并用于确定分类。
对于多个测定,系统鉴定特征集以输入到经训练的算法(例如,机器学习模型或分类器)中。系统对每一个分子类别进行测定,并从测量值形成特征向量。系统将特征向量输入到机器学习模型中,并得到生物样品是否具有指定特性的输出分类。
在一些实施方案中,机器学习模型提供分类器,所述分类器能够区分对象的两个或更多个组或类别或对象群体中的特征或群体的特征。在一些实施方案中,分类器是经训练的机器学习分类器。
在一些实施方案中,对癌症组织中生物标志物的信息基因座或特征进行测定,以形成谱。接受者操作特征(ROC)曲线可以通过绘制特定特征(例如,本文所述的任何生物标志物和/或任何额外生物医学信息项)在区分两个群体(例如,对治疗剂有应答的个体和无应答的对象)时的表现来生成。在一些实施方案中,跨整个群体(例如,病例和对照)的特征数据是基于单个特征值按升序排序的。
在各种实例中,指定的特性选自健康与癌症、疾病亚型、疾病阶段、进展者与非进展者、以及应答者与非应答者。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
A.数据分析
在一些实例中,本公开提供了一种系统、方法或试剂盒,其中数据分析可以在软件应用、计算硬件或这两者中实现。在各种实例中,分析应用或系统至少包括数据接收模块、数据预处理模块、数据分析模块(其可以对一种或多种类型的基因组数据进行操作)、数据解释模块或数据可视化模块。在一些实施方案中,数据接收模块包括将实验室硬件或仪器与处理实验室数据的计算机系统连接起来的计算机系统。在一些实施方案中,数据预处理模块包括硬件系统或计算机软件,其对数据执行操作,以备分析。可以应用于预处理模块中的数据的操作的实例包括仿射转换、去噪操作、数据清理、重新格式化或子采样。数据分析模块可以专门用于分析来自一个或多个基因组材料的基因组数据,例如,可以获取组装的基因组序列并执行概率和统计分析,以鉴定与疾病、病理、状态、风险、条件或表型相关的异常模式。数据解释模块可以使用分析方法,例如,从统计学、数学或生物学中提取的分析方法,以支持理解已鉴定的异常模式与健康状况、功能状态、预后或风险之间的关系。数据可视化模块可以使用数学建模、计算机图形学或渲染的方法来创建数据的可视化表示,以促进对结果的理解或解释。
在各种实例中,应用机器学习方法来区分样品群体中的样品。在一些实施方案中,应用机器学习方法来区分健康与晚期疾病(例如腺瘤)样品。
在一些实施方案中,用于训练预测引擎的一个或多个机器学习操作包括以下中的一个或多个:广义线性模型、广义加性模型、非参数回归操作、随机森林分类器、空间回归操作、贝叶斯回归模型、时间序列分析、贝叶斯网络、高斯网络、决策树学习操作、人工神经网络、循环神经网络、强化学习操作、线性或非线性回归操作、支持向量机、聚类操作和遗传算法操作。
在各种实例中,计算机处理方法选自逻辑回归、多元线性回归(MLR)、降维、偏最小二乘(PLS)回归、主成分回归、自编码器、变分自编码器、奇异值分解、傅立叶基、小波、判别分析、支持向量机、决策树、分类和回归树(CART)、基于树的方法、随机森林、梯度推进树、逻辑回归、矩阵分解、多维标度(MDS)、降维方法、t-分布随机邻域嵌入(t-SNE)、多层感知器(MLP)、网络聚类、神经模糊和人工神经网络。
在一些实例中,本文公开的方法可以包括对来自对象或多个对象的样品的核酸测序数据的计算分析。
B.分类器生成
在一方面,本文公开的系统和方法提供了一种分类器,它是基于从含有自身抗体的生物样品的自身抗体分析衍生的特征信息生成的。分类器形成预测引擎的一部分,用于基于生物样品(诸如自身抗体)中鉴定的特征在群体中区分各组。生物样品中自身抗体信息的集合表示可以被称为自身抗体谱。
在一些实施方案中,通过以下步骤来创建分类器:将自身抗体信息的相似部分格式化为统一的格式和统一的规模来对自身抗体信息进行归一化;将归一化的自身抗体信息存储在列式数据库中;通过对所存储的归一化自身抗体信息应用一个或多个机器学习操作,预测引擎针对特定群体映射一个或多个特征的组合,来训练预测引擎;将预测引擎应用于所访问的字段信息,以鉴定与组相关的对象;以及将对象归为一个组。
如本文所用,特异性一般是指“在没有患病的个体中,检测结果为阴性的概率”。特异性可以用检测结果为阴性的无病人数除以无病对象的总数来计算。
在各种实例中,模型、分类器或预测检验具有以下特异性:至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
如本文所用,敏感性一般是指“在患病的个体中,检测结果为阳性的概率”。敏感性可以用检测结果为阳性的患病对象数量除以患病对象的总数来计算。
在各种实例中,模型、分类器或预测检验具有以下敏感性:至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。
C.数字处理装置
在一些实施方案中,本文描述了一种数字处理装置或其用途。在一些实例中,数字处理装置可以包括一个或多个执行装置功能的硬件中央处理单元(CPU)、图形处理单元(GPU)或张量处理单元(TPU)。在一些实例中,数字处理装置可以包括被配置为执行可执行指令的操作系统。
在一些实例中,数字处理装置可以任选地连接到计算机网络。在一些实例中,数字处理装置可以任选地连接到互联网。在一些实例中,数字处理装置可以任选选地连接到云计算设施。在一些实例中,数字处理装置可以任选地连接到内联网。在一些实例中,数字处理装置可以任选地连接到数据存储装置。
合适的数字处理装置的非限制性实例包括服务器计算机、台式计算机、膝上型计算机、笔记本计算机、子笔记本计算机、上网本计算机、上网板计算机、机顶盒计算机、手持计算机、互联网电器、移动智能手机和平板计算机。合适的平板计算机可以包括例如具有小册子、笔记板和可转换配置的那些。
在一些实例中,数字处理装置可以包括被配置为执行可执行指令的操作系统。例如,操作系统可以包括软件,包括程序和数据,用于管理装置的硬件并为应用的执行提供服务。操作系统的非限制性实例包括Ubuntu、FreeBSD、OpenBSD、 和/>合适的个人计算机操作系统的非限制性实例包括/> 和UNIX样操作系统,诸如/>在一些实例中,操作系统可以由云计算提供,并且云计算资源可以由一个或多个服务提供商提供。
在一些实例中,装置可以包括存储和/或存储器装置。存储和/或存储器装置可以是用于暂时或永久地存储数据或程序的一个或多个物理设备。在一些实例中,装置可以是易失性存储器,并且需要电力来维持存储的信息。在一些实例中,装置是非易失性存储器,并且在数字处理装置不通电时保留所存储的信息。在一些实例中,非易失性存储器可以包括闪速存储器。在一些实例中,非易失性存储器可以包括动态随机存取存储器(DRAM)。在一些实例中,非易失性存储器可以包括铁电随机存取存储器(FRAM)。在一些实例中,非易失性存储器可以包括相变随机存取存储器(PRAM)。
在一些实例中,装置可以是存储装置,包括例如CD-ROM、DVD、闪速存储器装置、磁盘驱动器、磁带驱动器、光盘驱动器和基于云计算的存储。在一些实例中,存储和/或存储器装置可以是诸如本文公开的那些装置的组合。在一些实例中,数字处理装置可以包括向用户发送视觉信息的显示器。在一些实例中,显示器可以是阴极射线管(CRT)。在一些实例中,显示器可以是液晶显示器(LCD)。在一些实例中,显示器可以是薄膜晶体管液晶显示器(TFT-LCD)。在一些实例中,显示器可以是有机发光二极管(OLED)显示器。在一些实例中,OLED显示器可以是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实例中,显示器可以是等离子体显示器。在一些实例中,显示器可以是视频投影仪。在一些实例中,显示器可以是诸如本文所公开的那些装置的组合。
在一些实例中,数字处理装置可以包括从用户接收信息的输入装置。在一些实例中,输入装置可以是键盘。在一些实例中,输入装置可以是定点装置,包括例如鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触控笔。在一些实例中,输入装置可以是触摸屏或多点触摸屏。在一些实例中,输入装置可以是麦克风,用于捕获语音或其他声音输入。在一些实例中,输入装置可以是摄像机,用于捕捉运动或视觉输入。在一些实例中,输入装置可以是诸如本文公开的那些的装置的组合。
D.非暂时性计算机可读存储介质
在一些实例中,本文公开的主题可以包括一种或多种非暂时性计算机可读存储介质,所述存储介质用包含可由任选的网络数字处理装置的操作系统执行的指令的程序编码。在一些实例中,计算机可读存储介质可以是数字处理装置的有形组件。在一些实例中,计算机可读存储介质可以任选地是可从数字处理装置移除的。在一些实例中,计算机可读存储介质可以包括例如CD-ROM、DVD、闪速存储器装置、固态存储器、磁盘驱动器、磁带驱动器、光盘驱动器、云计算系统和服务等。在一些实例中,程序和指令可以永久地、基本上永久地、半永久地或非暂时性地编码在介质上。
E.计算机系统
本公开提供了被编程以实现本文所述的方法的计算机系统。图1示出了计算机系统101,它被编程或以其他方式配置以存储、处理、鉴定或解释患者数据、生物数据、生物序列、参考序列和自身抗体谱。计算机系统101可以处理本公开的患者数据、生物数据、生物序列、参考序列和自身抗体谱的各个方面。计算机系统101可以是用户的电子装置或位于电子装置远端的计算机系统。电子装置可以是移动电子装置。
计算机系统101包括中央处理单元(CPU,本文中也称为“处理器”和“计算机处理器”)105,其可以是单核或多核处理器,或者用于并行处理的多个处理器。计算机系统101还包括存储器或存储器位置110(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元115(例如,硬盘)、用于与一个或多个其他系统通信的通信接口120(例如,网络适配器)以及外围装置125,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器110、存储单元115、接口120和外围装置125通过通信总线(实线)(诸如主板)与CPU 105通信。存储单元115可以是用于存储数据的数据存储单元(或数据储存库)。借助于通信接口120,计算机系统101可以可操作地耦合到计算机网络(“网络”)130。网络130可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些实例中,网络130是电信和/或数据网络。网络130可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些实例中,借助于计算机系统101,网络130可以实现点对点网络,这可以使耦合到计算机系统101的装置表现为客户端或服务器。
CPU 105可以执行一系列机器可读的指令,所述指令可以体现在程序或软件中。指令可以存储在存储器位置(诸如存储器110)中。指令可以被引导到CPU 105,其可以随后编程或以其他方式配置CPU 105以实施本公开的方法。由CPU 105进行的操作的实例可以包括提取、解码、执行和写回。
CPU 105可以是电路(诸如集成电路)的一部分。系统101的一个或多个其他部件可以包括在电路中。在一些实例中,电路是专用集成电路(ASIC)。
存储单元115可以存储文件,诸如驱动程序、库和保存的程序。存储单元115可以存储用户数据,例如,用户偏好和用户程序。在一些实例中,计算机系统101可以包括计算机系统101外部的一个或多个附加数据存储单元,诸如位于通过内联网或互联网与计算机系统101通信的远程服务器上。
计算机系统101可以通过网络130与一个或多个远程计算机系统通信。例如,计算机系统101可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板(slate/tablet)PC(例如,)、电话、智能手机(例如,/>支持安卓的装置、/>)或个人数字助理。用户可以经由网络130访问计算机系统101。
如本文所述的方法可以通过存储在计算机系统101的电子存储位置上(例如像,存储在存储器110或电子存储单元115上)的机器(例如,计算机处理器)可执行代码来实现。可以用软件的形式提供机器可执行或机器可读代码。在使用期间,代码可以由处理器105执行。在一些实例中,代码可以从存储单元115中取回并存储在存储器110上以供处理器105访问。在一些实例中,可以排除电子存储单元115,而将机器可执行指令存储在存储器110上。
代码可以被预编译和配置成与具有适于执行代码的处理器的机器一起使用,或者可以在运行时解释或编译。可以用编程语言提供代码,可以选择所述编程语言以使代码能够以预编译、解释或即时编译(as-compiled)的方式执行。
本文提供的系统和方法的方面,诸如计算机系统101,可以在编程中体现。所述技术的各个方面可以被认为是“产品”或“制品”,通常是机器(或处理器)可执行代码和/或相关数据的形式,其被承载或包含在一种类型的机器可读介质中。机器可执行代码可以存储在电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以在任何时候为软件编程提供非暂时性存储。软件的全部或部分有时可以通过互联网或各种其他电信网络进行通信。例如,此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元素的另一种类型的介质包括光、电和电磁波,诸如通过有线和光学陆线网络以及各种空中链路在本地装置之间的物理接口上使用的。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非暂时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质(诸如计算机可执行代码)可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如,光盘或磁盘,诸如任何一个或多个计算机等中的任何存储装置,诸如可以用于实现数据库。易失性存储介质包括动态存储器,诸如这种计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号的形式,或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这种载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
计算机系统101可以包括电子显示器135或与其通信,所述电子显示器包括用户界面(UI)140,以用于提供例如核酸序列、浓缩的核酸样品、自身抗体谱、表达谱以及RNA表达谱的分析。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
本公开的方法和系统可以通过一种或多种算法来实现。算法可以在由中央处理单元105执行时通过软件来实现。例如,算法可以存储、处理、鉴定或解释患者数据、生物数据、生物序列和参考序列。
虽然本文已经示出和描述了方法和系统的某些实例,但技术人员会意识到这些只是通过举例方式提供的,并且不打算在说明书中加以限制。在不脱离本文所述的范围的情况下,本领域技术人员现将想到多种变型、变化和替代方案。此外,应理解,所述方法和系统的所有方面不限于本文阐述的取决于各种条件和变量的具体的描绘、配置或相对比例,并且描述旨在包括此类可替代方案、修改、变型或等同方案。
在一些实例中,本文公开的主题可以包括至少一种计算机程序或其用途。计算机程序可以是在数字处理装置的CPU、GPU或TPU中执行、被编写以执行指定任务的指令序列。计算机可读指令可被实现为执行特定任务或实现特定抽象数据类型的程序模块,诸如函数、对象、应用编程接口(API)、数据结构等。鉴于本文提供的公开内容,计算机程序能够以各种版本的各种语言编写。
在各种环境中,可以根据需要对计算机可读指令的功能进行组合或分配。在一些实例中,计算机程序可以包括一个指令序列。在一些实例中,计算机程序可以包括多个指令序列。在一些实例中,计算机程序可以由一个位置提供。在一些实例中,计算机程序可以由多个位置提供。在一些实例中,计算机程序可以包括一个或多个软件模块。在一些实例中,计算机程序可以部分或整体地包括一个或多个网络应用、一个或多个移动应用、一个或多个独立应用、一个或多个网络浏览器插件、扩展项、加载项或附加项或其组合。
在一些实例中,计算机处理可以是统计学、数学、生物学或其任何组合的方法。在一些实例中,计算机处理方法包括降维方法,例如,包括逻辑回归、降维、主成分分析、自编码器、奇异值分解、傅立叶基、奇异值分解、小波、判别分析、支持向量机、基于树的方法、随机森林、梯度推进树、逻辑回归、矩阵分解、网络聚类和神经网络。
在一些实例中,计算机处理方法是有监督的机器学习方法,包括例如回归、支持向量机、基于树的方法和网络。
在一些实例中,计算机处理方法是无监督的机器学习方法,包括例如聚类、网络、主成分分析和矩阵分解。
F.数据库
在一些实例中,本文公开的主题可以包括一个或多个数据库,或使用所述数据库存储患者数据、生物数据、生物序列、参考序列或自身抗体谱的用途。参考序列可以从数据库中衍生。鉴于本文提供的公开内容,许多数据库可以适用于存储和检索序列信息。在一些实例中,合适的数据库可以包括例如关系数据库、非关系数据库、面向对象的数据库、对象数据库、实体-关系模型数据库、关联数据库以及XML数据库。在一些实例中,数据库可以是基于互联网的。在一些实例中,数据库可以是基于网络的。在一些实例中,数据库可以是基于云计算的。在一些实例中,数据库可以是基于一个或多个本地计算机存储装置。
在一方面,本公开提供了一种非暂时性计算机可读介质,其包括指导处理器执行本文公开的方法的指令。
在一方面,本公开提供了一种包括计算机可读介质的计算装置。
在另一方面,本公开提供了一种用于对生物样品进行分类的系统,其包括:
a)接收多个训练样品的接收器,所述多个训练样品中的每个具有多个类别的分子,其中所述多个训练样品中的每个包含一个或多个已知标记;
b)特征模块,用于鉴定与测定相对应的可操作的特征集,以便为多个训练样品中的每个输入到机器学习模型中,其中特征集对应于多个训练样品中的分子特性,其中对于多个训练样品中的每个,所述系统可操作以使训练样品中的多个类别的分子进行多个不同的测定,以获得测量值集,其中每个测量值集都来自于对训练样品中的一类分子进行的一次测定,其中为多个训练样品获得多个测量值集;
c)分析模块,用于对测量值集进行分析,以获得训练样品的训练向量,其中训练向量包括对应测定的N个特征集的特征值,每个特征值对应于一个特征并包括一个或多个测量值,其中训练向量使用来自与多个不同测定的第一子集相对应的N个特征集中的至少两个的至少一个特征而形成,
d)标记模块,用于使用机器学习模型的参数通知系统关于训练向量的信息,以便为多个训练样品获得输出标记;
e)比较器模块,用于将输出标记与训练样品的已知标记相比较;
f)训练模块,用于基于将输出标记与训练样品的已知标记进行的比较来迭代地搜索参数的最优值作为训练机器学习模型的一部分;以及
g)输出模块,用于提供机器学习模型的参数和机器学习模型的特征集。
对群体中的对象进行分类的方法
所公开的方法涉及经由在对象中所表达的自身抗体的分析来确定与结肠细胞增殖性病症相关的自身抗体表达的参数。所述方法用于改进结肠细胞增殖性病症的诊断、治疗和监测,更具体地说,是通过改进所述病症的阶段或亚类与所述病症的遗传易感性之间的鉴定和鉴别。
在一些实施方案中,所述方法包括分析来自群体中对象的生物样品中的自身抗体的差异表达。
一般而言,本公开提供了一种用于检测结肠细胞增殖性病症的方法,其可以应用于无细胞样品,例如,以检测有与没有结肠细胞增殖性病症的对象之间或不同结肠细胞增殖性病症之间的自身抗体的存在和特点。所述方法利用自身抗体的检测作为与没有结肠细胞增殖性病症的健康对象相比的结肠细胞增殖性病症信号的基本“阳性”或“阴性”。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在第三方面,本公开提供了一种用于确定来自对象的生物样品的自身抗体谱的方法,其包括:
a)从所述对象获得含有自身抗体的生物样品;和
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在一些实施方案中,所述自身抗体谱与结肠细胞增殖性病症相关,并且提供将对象分类为患有结肠细胞增殖性病症的分类。
在一些实施方案中,从对象获得的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,所述结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
在一些实施方案中,所述晚期腺瘤是管状腺瘤、管状绒毛状腺瘤、绒毛状腺瘤、腺癌或增生性息肉。
在第四方面,本公开提供了一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从所述对象获得含有自身抗体的生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;以及
c)使用经训练以能够区分健康对象与患有结肠细胞增殖性病症的对象的机器学习模型来处理所述自身抗体谱,以提供与所述结肠细胞增殖性病症存在相关的输出值,从而指示所述对象中存在所述结肠细胞增殖性病症。
在一些实施方案中,从对象获得的生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞及其组合。
在另一方面,本发明涉及一种用于检测自身抗体与蛋白质的结合,以生成样品的自身抗体谱的方法,其包括:
a)使生物样品与易于被所述自身抗体识别的蛋白质或其片段接触;和
b)检测通过所述自身抗体与所述蛋白质或其片段的结合形成的自身抗体-蛋白质复合物的形成,以提供所述样品的自身抗体谱,其中所述蛋白质选自NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在另一方面,本发明涉及一种获得来自对象的生物样品中的数据的方法,其包括检测针对蛋白质的至少3种自身抗体,其中所述至少3种自身抗体选自针对UBE2S蛋白的自身抗体、针对CD20蛋白的自身抗体、针对ASB9蛋白的自身抗体、针对PRDM8蛋白的自身抗体、针对CDK4蛋白的自身抗体、针对MTCP1蛋白的自身抗体和针对TP53蛋白的自身抗体。在一些实施方案中,所述方法还包括确定所述样品中自身抗体的水平。
在一些实施方案中,所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
在一些实施方案中,所述结肠细胞增殖性病症选自1期结直肠癌、2期结直肠癌、3期结直肠癌和4期结直肠癌。
在另一方面,本公开提供了一种用于确定来自对象的生物样品的自身抗体谱的方法,其包括:
a)从所述对象获得含有自身抗体的生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
在另一方面,本公开提供了一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从对象获得含有自身抗体的生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;
c)使用机器学习模型来处理所述对象的自身抗体谱,所述机器学习模型经训练以区分未患所述结肠细胞增殖性病症的对象与患有所述结肠细胞增殖性病症的对象;以及
d)至少部分地基于所述自身抗体谱使用所述机器学习模型确定与患有所述结肠细胞增殖性病症的对象相关的值,从而检测所述患者中的结肠细胞增殖性病症。
在另一方面,本公开提供了一种用于监测先前针对疾病进行治疗的对象中的微小残留疾病的方法,其包括:使用自身抗体小组确定来自所述对象的生物样品的自身抗体谱,从而生成基线自身抗体状态,所述自身抗体小组包含针对选自以下的抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;和在生成所述基线自身抗体状态之后,在一个或多个时间点处确定从所述对象获得的生物样品的自身抗体谱,从而生成当前自身抗体状态,其中所述基线自身抗体状态与所述当前自身抗体状态之间的变化指示所述对象中微小残留疾病的变化。
本文所述的经训练的机器学习方法、模型和判别分类器可以应用于各种医疗应用,包括癌症检测、诊断和治疗应答性。由于模型可以用对象元数据和分析物衍生的特征来训练,所以应用可以进行定制,以对群体中的对象进行分层,并相应地指导治疗决定。
诊断
本文提供的方法和系统可以使用基于人工智能的方法执行预测分析,以分析从对象(患者)获取的数据,从而生成对患有癌症(例如,结直肠癌)的对象的诊断输出。例如,所述应用可以对所获取的数据应用预测算法,以生成对患癌对象的诊断。预测算法可以包括基于人工智能的预测器,诸如基于机器学习的预测器,其被配置为处理所获取的数据,以生成对患癌对象的诊断。
机器学习预测器可以使用数据集来训练,例如,使用本文所述的特征小组对来自一个或多个患癌患者队列集的对象生物样品进行自身抗体测定生成的数据集作为输入,和对象的已知诊断(例如,分期和/或肿瘤分数)结果作为机器学习预测器的输出。
训练数据集(例如,使用本文所述的特征小组对对象生物样品进行自身抗体测定而生成的数据集)可以从例如具有共同特点(特征)和结果(标记)的一个或多个对象集生成。训练数据集可以包括与诊断相关的特征相对应的特征和标记集。特征可以包括特点,例如像自身抗体测定测量的某些范围或类别,诸如在从健康和疾病获得的生物样品中自身抗体的存在或特点。例如,在给定的时间点从给定的对象收集的特征集可以共同充当诊断特征,这可以指示在给定的时间点处对象患有已鉴定的癌症。特点还可以包括指示对象诊断结果(诸如一种或多种癌症)的标记。
标记可以包括结果,例如像对象的已知诊断(例如,分期和/或肿瘤分数)结果。结果可以包括与对象的癌症相关的特点。例如,特点可指示对象患有一种或多种癌症。
训练集(例如,训练数据集)可以通过对与一个或多个对象集(例如,患有或未患一种或多种癌症的回顾性和/或前瞻性患者队列)相对应的一个数据集的随机采样来选择。可替代地,训练集(例如,训练数据集)可以通过对与一个或多个对象集(例如,患有或未患一种或多种癌症的回顾性和/或前瞻性患者队列)相对应的一个数据集的比例采样来选择。训练集可以在与一个或多个对象集(例如,来自不同临床地点或试验的患者)相对应的数据集之间进行平衡。可以对机器学习预测器进行训练,直至满足某些预先确定的准确性或性能条件,诸如具有与诊断准确性度量相对应的最小期望值。例如,诊断准确性度量可以对应于对对象的一种或多种癌症的诊断、分期或肿瘤分数的预测。
诊断准确性度量的实例可以包括与检测或预测癌症(例如,结直肠癌)的诊断准确性相对应的敏感性、特异性、阳性预测值(PPV)、阴性预测值(NPV)、准确性以及接受者操作特征(ROC)曲线的曲线下面积(AUC)。
一方面,本公开提供了一种使用能够区分对象群体的分类器的方法,其包括:
a)从对象获得含有自身抗体的生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、OTUD5、PNKP、SRSF7、ASB9、PRDM8、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;
c)使用机器学习模型来处理所述对象的自身抗体谱,所述机器学习模型经训练以区分两个或更多个群体;以及
d)至少部分地基于所述自身抗体谱使用所述机器学习模型确定与所述群体相关的值,从而区分对象群体。
在另一方面,本公开提供了一种用于鉴定对象的癌症的方法,其包括:
a)从对象获得含有自身抗体的生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;以及
c)使用经训练以能够区分健康对象与患有结肠细胞增殖性病症的对象的机器学习模型来处理所述自身抗体谱,以提供与存在结肠细胞增殖性病症相关的输出值,从而指示对象中存在结肠细胞增殖性病症以生成所述对象患有所述癌症的可能性。
可以使用多种统计和数学方法来建立表达的阈值或截止水平。可以例如基于来自接受者操作特征(ROC)绘图的数据(如在本文公开的实施例和附图中所述)来选择特定生物标志物的阈值或截止表达水平。本领域技术人员将理解,这些阈值或截止表达水平可以例如通过沿着特定生物标志物或其组合的ROC绘图移动而变化,以获得不同的敏感性或特异性值,从而影响总体测定性能。例如,如果目标是从临床角度有一个可靠的诊断方法,则高敏感性应该优先考虑。然而,如果目标是有一个具有成本效益的方法,则高特异性应该优先考虑。最佳截止是指从ROC绘图获得的产生最佳敏感性和特异性的特定生物标志物的值。敏感性和特异性值在阈值(截止)范围内计算。因此,可以选择阈值或截止值,使得敏感性和/或特异性在至少60%被测定的患者群体中或在至少65%、至少70%、至少75%或至少80%被测定的患者群体中是至少约50%,并且可以是例如至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少100%。
因此,本公开的一些实施方案通过以下步骤进行:确定从待诊断或筛查的对象分离的微创样品中至少先前记载的自身抗体的存在和/或水平,和将所述自身抗体的存在和/或水平与预先确定的阈值或截止值进行比较,其中所述预先确定的阈值或截止值对应于所述自身抗体的表达水平,所述表达水平在ROC曲线中与所需敏感性下的最高特异性相关,所述ROC曲线是至少部分地基于在有患上结直肠癌或结直肠腺瘤风险的患者群体中确定的自身抗体表达水平计算的,其中至少一种所述自身抗体相对于所述预先确定的截止值的过表达以所述所需敏感性指示对象患有结直肠癌或结直肠腺瘤。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的特异性具有以下值:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的阳性预测值(PPV)具有以下值:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的阴性预测值(NPV)具有以下值:例如,至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、或至少约99%。
作为另一个实例,这种预先确定的条件可以是预测结肠细胞增殖性病症的接受者操作特征(ROC)曲线的曲线下面积(AUC)具有以下值:至少约0.50、至少约0.55、至少约0.60、至少约0.65、至少约0.70、至少约0.75、至少约0.80、至少约0.85、至少约0.90、至少约0.95、至少约0.96、至少约0.97、至少约0.98、或至少约0.99。
监测结直肠癌
在使用经训练的算法处理数据集之后,可以在对象中鉴定或监测结直肠癌。所述鉴定可以至少部分地基于结直肠癌相关自身抗体小组上的数据集序列读取的定量度量。
在一些实施方案中,本文公开的方法可以应用于监测和/或预测肿瘤负荷。
在一些实施方案中,本文公开的方法可以应用于检测和/或预测术后残留肿瘤。
在一些实施方案中,本文公开的方法可以应用于检测和/或预测治疗后的微小残留疾病。
在一些实施方案中,本文公开的方法可以应用于检测和/或预测复发。
在一方面,本文公开的方法可以用作二次筛查。
在一方面,本文公开的方法可以用作一次筛查。
在一方面,本文公开的方法可以应用于监测癌症发展。
在一方面,本文公开的方法可以应用于监测和/或预测癌症风险。
可以用以下准确性在对象中鉴定结直肠癌:至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。通过经训练的算法鉴定结直肠癌的准确性可以计算为独立测试样品(例如,已知患有结直肠癌的对象或结直肠癌临床测试结果为阴性的对象)被正确鉴定或分类为患有或未患结直肠癌的百分比。
可以用以下阳性预测值(PPV)在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。使用经训练的算法鉴定结直肠癌的PPV可以计算为被鉴定或分类为患有结直肠癌的无细胞生物样品与真正患有结直肠癌的对象相对应的百分比。
可以用以下阴性预测值(NPV)在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。使用经训练的算法鉴定结直肠癌的NPV可以计算为被鉴定或分类为未患结直肠癌的无细胞生物样品与真正未患结直肠癌的对象相对应的百分比。
可以用以下临床敏感性在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。使用经训练的算法鉴定结直肠癌的临床敏感性可以计算为与存在结直肠癌相关的独立测试样品(例如,已知患有结直肠癌的对象)被正确鉴定或分类为患有结直肠癌的百分比。
可以用以下临床特异性在对象中鉴定结直肠癌:至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。使用经训练的算法鉴定结直肠癌的临床特异性可以计算为与不存在结直肠癌相关的独立测试样品(例如,结直肠癌临床测试结果为阴性的对象)被正确鉴定或分类为未患结直肠癌的百分比。
在一些实施方案中,经训练的算法可以确定对象患上结直肠癌的风险为至少约5%、至少约10%、至少约15%、至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大。
经训练的算法可以确定对象有患上结直肠癌的风险,准确性至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约81%、至少约82%、至少约83%、至少约84%、至少约85%、至少约86%、至少约87%、至少约88%、至少约89%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、至少约99.1%、至少约99.2%、至少约99.3%、至少约99.4%、至少约99.5%、至少约99.6%、至少约99.7%、至少约99.8%、至少约99.9%、至少约99.99%、至少约99.999%或更大。
在鉴定对象患有结直肠癌后,可以为对象任选地提供治疗性干预(例如,为对象开出治疗结直肠癌的适当治疗过程)。治疗性干预可以包括开出有效剂量的药物、对结直肠癌的进一步测试或评估、对结直肠癌的进一步监测或其组合。如果对象目前正在以一个治疗过程接受结直肠癌的治疗,则治疗性干预可以包括后续的不同治疗过程(例如,由于当前治疗过程无效而增加治疗功效)。
治疗性干预可以包括建议对象进行二次临床测试,以确认结直肠癌的诊断。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
通过对治疗对象的结直肠癌的治疗过程的监测,可以监测对象的结直肠癌。监测可以包括在两个或更多个时间点处评估对象的结直肠癌。所述评估可以至少基于在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量,包括在两个或更多个时间点中的每个处确定的结直肠癌相关自身抗体小组的定量度量。
在一些实施方案中,在结直肠癌相关自身抗体小组上数据集的序列读取的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异)可以指示一个或多个临床指示,诸如:(i)对象的结直肠癌诊断;(ii)对象的结直肠癌预后;(iii)对象患上结直肠癌的风险增加;(iv)对象患上结直肠癌的风险降低;(v)治疗对象的结直肠癌的治疗过程有效;以及(vi)治疗对象的结直肠癌的治疗过程无效。
在一些实施方案中,自身抗体的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异)可以指示对象的结直肠癌的诊断。例如,如果对象在较早的时间点没有检测到结直肠癌,但在较晚的时间点检测到,则差异指示对象的结直肠癌的诊断。临床行动或决定可以至少部分地基于对象的结直肠癌诊断的这个指示做出,例如,为对象开出新的治疗性干预。临床行动或决定可以包括建议对象进行二次临床测试,以确认结直肠癌的诊断。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异)可以指示对象的结直肠癌的预后。
在一些实施方案中,在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量,包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异,可以指示对象患上结直肠癌的风险增加。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,并且如果差异是正性差异(例如,在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量从较早的时间点到较晚的时间点是增加的),则差异可以指示对象患上结直肠癌的风险增加。临床行动或决定可以至少部分地基于结直肠癌风险增加的这个指示做出,例如,为对象开出新的治疗性干预或转换治疗性干预(例如,结束当前治疗,并开出新的治疗)。临床行动或决定可以包括建议对象进行二次临床测试,以确认患上结直肠癌的风险增加。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关自身抗体小组上数据集的序列读取的定量度量,包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异,可以指示对象患上结直肠癌的风险降低。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,并且如果差异是负性差异(例如,在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量,包括结直肠癌相关自身抗体小组的定量度量从较早的时间点到较晚的时间点是降低的),则差异可以指示对象患上结直肠癌的风险降低。临床行动或决定可以至少部分地基于结直肠癌风险降低的这个指示做出,为对象(例如,继续或结束当前的治疗性干预)。临床行动或决定可以包括建议对象进行二次临床测试,以确认患上结直肠癌的风险降低。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关自身抗体小组上数据集的序列读取的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异)可以指示治疗对象的结直肠癌的治疗过程有效。例如,如果对象在较早的时间点检测到结直肠癌,但在较晚的时间点没有检测到,则差异可以指示治疗对象的结直肠癌的治疗过程有效。临床行动或决定可以至少部分地基于治疗对象的结直肠癌的治疗过程有效的这个指示做出,例如,为对象继续或结束当前的治疗性干预。临床行动或决定可以包括建议对象进行二次临床测试,以确认治疗结直肠癌的治疗过程有效。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
在一些实施方案中,在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量(包括在两个或更多个时间点之间确定的结直肠癌相关自身抗体小组的定量度量的差异)可以指示治疗对象的结直肠癌的治疗过程无效。例如,如果对象在较早的时间点和较晚的时间点都检测到结直肠癌,并且如果差异是正性或零差异(例如,在结直肠癌相关自身抗体小组上数据集的自身抗体的定量度量,包括结直肠癌相关自身抗体小组的定量度量,从较早的时间点到较晚的时间点是增加的或保持在恒定水平),并且如果在较早的时间点处指示有效治疗,则所述差异可以指示治疗对象的结直肠癌的治疗过程无效。临床行动或决定可以至少部分地基于治疗对象的结直肠癌的治疗过程无效的这个指示做出,例如,为对象结束当前的治疗性干预和/或转换(例如,开出)新的不同的治疗性干预。临床行动或决定可以包括建议对象进行二次临床测试,以确认治疗结直肠癌的治疗过程无效。此二次临床测试可以包括成像测试、血液测试、计算机断层(CT)扫描、磁共振成像(MRI)扫描、超声扫描、胸部X光、正电子发射断层(PET)扫描、PET-CT扫描、无细胞生物细胞学、FIT测试、FOBT试验或其任何组合。
试剂盒
本公开提供了用于鉴定或监测对象癌症的试剂盒。试剂盒可以包括探针或引物,用于鉴定对象的无细胞生物样品中多个癌症相关自身抗体中的每个上的序列定量度量(例如,指示存在、不存在或相对量)。无细胞生物样品中多个自身抗体的定量度量(例如,指示存在、不存在或相对量)可以指示一种或多种癌症。探针可以对无细胞生物样品中的自身抗体具有选择性。试剂盒可以包括使用探针处理无细胞生物样品以生成数据集的说明书,所述数据集指示对象的无细胞生物样品中的自身抗体的定量度量(例如,指示存在、不存在或相对量)。
试剂盒中的探针可以对无细胞生物样品中多个癌症相关自身抗体上的序列具有选择性。试剂盒中的探针可以被配置为选择性富集与多个癌症相关自身抗体相对应的自身抗体分子。试剂盒中的探针可以是被自身抗体识别的蛋白质,并且被标记以允许在与生物样品中的自身抗体结合之后进行分离。
试剂盒中的说明书可以包括使用对无细胞生物样品中的癌症相关自身抗体具有选择性的探针来测定所述无细胞生物样品的说明书。无细胞生物样品中多个癌症相关自身抗体中的每个上的序列定量度量(例如,指示存在、不存在或相对量)可以指示一种或多种癌症。
试剂盒中的说明书可以包括测量和解释测定读出的说明书,所述测定读出可以在多个癌症相关自身抗体中的一个或多个处量化,以生成数据集,所述数据集指示无细胞生物样品中多个癌症相关自身抗体中的每个上的序列的定量度量(例如,指示存在、不存在或相对量)。
实施例
实施例1:患者血浆样品中的自身抗体分析。
在癌症中,无论是针对癌症新抗原还是典型蛋白抗原的自身抗体都代表结直肠癌的潜在早期诊断生物标志物的来源。自身抗体在癌症患者中响应于蛋白质过表达或突变而生成。已经鉴定出一些与乳腺癌、前列腺癌、结直肠癌、肺癌和卵巢癌相关的自身抗体。
为了鉴定对本文所述的方法和分类器具有信息性的自身抗体,已经检查了来自患有结肠细胞增殖性病症的患者的血浆和未患结肠细胞增殖性病症的对象的血浆(对照血浆或参考血浆),以鉴定由患有结肠细胞增殖性病症的患者响应于所述结肠细胞增殖性病症和相应的反应性蛋白产生的自身抗体的特征小组。为此,使用高密度蛋白质微阵列测试了来自患有结肠细胞增殖性病症的患者的血浆和对照血浆。相对于用于鉴定自身抗体的其他方法,蛋白质微阵列具有一系列优势:i)打印在阵列中的蛋白质是事先已知的,避免随后进行鉴定并消除模拟表位的可能选择,以及ii)没有选择任何蛋白质的倾向,因为它们全部以类似的浓度打印。这种因素组合使得鉴定生物标志物具有高敏感性。
鉴定的抗体小组允许鉴别来自患有结肠细胞增殖性病症的对象与健康对象的血浆。
方法
样品归类
为了检测血浆样品中的自身抗体,用从随后被鉴定为患有结直肠癌(CRC)、晚期腺瘤(AA)、良性息肉(NAA)或无这些(NEG)的对象抽取的血浆探测表达数千种候选肿瘤抗原的高密度蛋白质微阵列。结合的免疫球蛋白通过荧光标记的二级(抗IgG/IgM)抗体强度进行测量。
使用标准化血清采集方案获得来自年龄、性别和位置匹配的一般群体对照对象的血浆样品并储存在-80℃下,直至使用。有个人癌症史的对象被排除在对照之外。在机构审查委员会的批准下,获得所有对象的书面同意。
表1提供了研究队列的描述,其显示了分类模型(按阶段、性别和年龄)中用于CRC实验的健康和癌症样品的数量。
表1
本研究的主要目标是鉴定血清TAAb生物标志物,所述生物标志物区分结直肠癌与晚期腺瘤、良性疾病和健康对照,以改善当前生物标志物的敏感性并指导临床决定。我们进行了顺序筛选策略,以便从>21,000种人类蛋白(一式两份测量)中鉴定TAAb生物标志物小组。
从代表NEG、CRC、AA和NAA对象群体的对象样品分离血浆,并且在蛋白质阵列上进行筛选。在NEG、CRC、AA和NAA对象群体中鉴定了总计42,390个特征,并且询问来自患有结肠细胞增殖性病症的对象的血浆和健康对象血浆中的差异表达。
图像分析和定量使用先前针对蛋白质阵列平台描述的标准方法进行。简而言之,使用双通道微阵列扫描仪扫描载玻片,并且测量光斑前景(光斑区域)和背景(光斑周围)强度。通过以下步骤对原始强度值进行归一化:
1)通过从阵列上所有光斑的前景中减去中值背景强度来去除背景(背景校正强度)。
2)使用阴性对照光斑前景强度估计前景/背景正态+指数卷积模型的参数(平均值、方差)(假设原始值代表背景和前景贡献的总和)。
3)从背景校正强度中减去平均对照光斑强度和变异系数(对照光斑方差除以蛋白质前景平均值)。
4)将背景校正蛋白强度报告为卷积模型的最大似然估计。
预先过滤原始特征值:
将IgG和IgM通道的原始特征值连接成所有队列样品的单个特征矩阵。这涵盖941个样品(包括不可分类)中的总计42,390个特征。
在进行预处理(背景校正、IQR中值标准化、离群值修剪和批量归一化)之后,特征空间缩小到仅在10个或更多个样品中原始前景强度大于2000(从0至64000rfu的值范围)的那些。16570种蛋白质/抗原满足这些标准。
针对每种指示(CRC、AA、NAA与NEG),使用以下特征选择标准(每个折叠内),对5个随机种子进行4折分层交叉验证:
A)基于它们是否与特征平均值相差≥2个标准偏差,对归一化值进行二值化
B)如果特征的二值化chi2 p值为≤0.01(二进制值仅用于chi2比较),则保留特征。
C)保留的特征通过logreg权重进行递归特征消除,然后在每个折叠中使用前100个特征进行CV分类。
根据特征在所有折叠/种子中被选择的次数(最多20次)以及所有logreg权重的平均值和总和对特征进行排序。
结果
CRC与NEG
在所有折叠的≥50%中选择了总计28种蛋白质(在补充中)。表2示出了用于28种蛋白质的CRC分类的前5个AAb靶标。
表2
蛋白质 | Ig_类别 |
TP53 | IgG |
MTCP1 | IgM |
RBM38 | IgG |
PRMT6 | IgM |
CDK4 | IgM |
图2提供了示出被选择用于CRC分类的潜在开发的前5个AAb靶标的CV系数的图。
图3提供了示出CV中的CRC分类性能的递归特征消除的图。
AA与NEG
在所有折叠的≥50%中选择了总计23种蛋白质(在补充中)。表3示出了用于23种蛋白质的AA分类的前5个AAb靶标。
表3
蛋白质 | Ig_类别 |
CD20 | IgM |
UBE2S | IgM |
NME5 | IgM |
Supt6h | IgG |
PRDM8 | IgG |
NAT6 | IgG |
OTUD5 | IgG |
SRSF7 | IgG |
ASB9 | IgG |
PNKP | IgG |
图4提供了示出用于AA分类的前10个AAb靶标的CV系数的图。
图5提供了示出CV中的AA分类性能的递归特征消除的图。
NAA与NEG
在所有折叠的>=50%中13个靶标满足选择标准。表4示出了用于13种蛋白质的NAA分类的前5个AAb靶标。
表4
蛋白质 | Ig_类别 |
NXN | IgG |
ZBTB21 | IgM |
EYA1 | IgG |
GSPT1 | IgG |
MLIP | IgG |
图6提供了示出用于NAA分类的前5个AAb靶标的CV系数的图。
图7提供了示出CV中的NAA分类性能的递归特征消除的图。
所述结果共同提供了用于CRC、AA和NAA的分类的AAb生物标志物的列表,如表5所示。
表5
蛋白质 | Ig_类别 | 指示 |
TP53 | IgG | CRC |
MTCP1 | IgM | CRC |
RBM38 | IgG | CRC |
PRMT6 | IgM | CRC |
CDK4 | IgM | CRC |
CD20 | IgM | AA |
UBE2S | IgM | AA/CRC |
NME5 | IgM | AA |
Supt6h | IgG | AA |
PRDM8 | IgG | AA/NAA |
NAT6 | IgG | AA |
OTUD5 | IgG | AA |
SRSF7 | IgG | AA |
ASB9 | IgG | AA |
PNKP | IgG | AA |
NXN | IgG | NAA |
ZBTB21 | IgM | NAA |
EYA1 | IgG | NAA |
GSPT1 | IgG | NAA |
MLIP | IgG | NAA |
PCOLCE | IgM | CRC |
SDCBP | IgM | AA |
尽管本文已经示出和描述了本发明的各个实施方案,但对于本领域技术人员明显的是,此类实施方案仅通过举例的方式提供。本发明不意在受限于本说明书内提供的具体实施例。虽然已经参考上述具体说明描述了本发明,但是对本文中实施方案的描述和示例说明不意在以限制性意义进行解释。在不脱离本发明的情况下,本领域技术人员现将构思到多种变型、变化和替代方案。此外,应理解,本发明的所有方面不限于本文阐述的取决于各种条件和变量的具体的描绘、配置或相对比例。应理解,本文所述的本发明的实施方案的各种替代方案可以用于实践本发明。因此,设想本发明还应涵盖任何此类替代方案、修改、变型或等同方案。所附权利要求意在界定本发明的范围并且由此涵盖处于这些权利要求的范围内的方法和结构及它们的等同方案。
Claims (43)
1.一种结肠细胞增殖性病症所特有的预先确定的自身抗体小组,其包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
2.如权利要求1所述的小组,其中所述3种或更多种自身抗体是IgG自身抗体、IgM自身抗体或其组合。
3.如权利要求1或2所述的小组,其中所述小组被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
4.如权利要求1至3中任一项所述的小组,其中所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
5.如权利要求1至3中任一项所述的小组,其中所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
6.如权利要求1-3中任一项所述的小组,其中所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
7.一种被配置为区分健康对象群体与患有结肠细胞增殖性病症的对象的分类器,其包括:
a)测量值集,所述测量值集代表来自所述结肠细胞增殖性病症所特有的预先确定的自身抗体小组的自身抗体,
b)其中所述测量值是从来自健康对象和患有所述结肠细胞增殖性病症的对象的自身抗体表达数据获得的,
c)其中所述测量值用于生成与所述自身抗体的特性相对应的特征集,其中将所述特征集输入机器学习或统计模型中,并且
d)其中所述模型提供可用作能够区分所述健康对象群体与患有所述结肠细胞增殖性病症的对象的分类器的特征向量。
8.如权利要求7所述的分类器,其中所述预先确定的自身抗体小组包含针对选自以下的抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、PRDM8、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
9.如权利要求7或8所述的分类器,其中所述自身抗体是IgG自身抗体、IgM自身抗体或其组合。
10.如权利要求7至9中任一项所述的分类器,其中所述小组被配置为区分健康对象、患有良性结肠息肉的对象、患有晚期腺瘤的对象或患有结直肠癌的对象。
11.如权利要求7至9中任一项所述的分类器,其中所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
12.如权利要求7至9中任一项所述的分类器,其中所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
13.如权利要求7至9中任一项所述的分类器,其中所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
14.一种用于检测结肠细胞增殖性病症的包括机器学习模型分类器的系统,其包括:
a)包括分类器的计算机可读介质,所述分类器可操作以至少部分地基于预先确定的自身抗体小组来将对象分类;和
b)一个或多个处理器,用于执行存储在所述计算机可读介质上的指令。
15.如权利要求14所述的系统,其包括被加载到计算机系统的存储器中的如权利要求7所述的分类器,其中所述机器学习模型使用从训练生物样品获得的训练向量来训练,其中所述训练生物样品的第一子集被鉴定为患有结肠细胞增殖性病症,并且其中所述训练生物样品的第二子集被鉴定为未患结肠细胞增殖性病症。
16.如权利要求14或15所述的系统,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、PRDM8、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
17.如权利要求14或15所述的系统,其中所述分类器选自深度学习分类器、神经网络分类器、线性判别分析(LDA)分类器、二次判别分析(QDA)分类器、支持向量机(SVM)分类器、随机森林(RF)分类器、K近邻分类器、线性核支持向量机分类器、一阶或二阶多项式核支持向量机分类器、岭回归分类器、弹性网算法分类器、序列最小优化算法分类器、朴素贝叶斯算法分类器和主成分分析分类器。
18.一种用于确定对象的自身抗体谱的方法,其包括:
a)从对象获得生物样品;和
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP。
19.如权利要求18所述的方法,其中所述自身抗体谱与结肠细胞增殖性病症相关,并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
20.如权利要求18或19所述的方法,其中从所述对象获得的所述生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
21.如权利要求18或19所述的方法,其中所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
22.一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从所述对象获得生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;以及
c)使用经训练以能够区分健康对象与患有结肠细胞增殖性病症的对象的机器学习模型来处理所述自身抗体谱,以提供与所述结肠细胞增殖性病症的存在相关的输出值,从而指示所述对象中所述结肠细胞增殖性病症的存在。
23.如权利要求22所述的方法,其中所述自身抗体谱与结肠细胞增殖性病症相关,并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
24.如权利要求22或23所述的方法,其中从所述对象获得的所述生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
25.如权利要求22或23所述的方法,其中所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
26.如权利要求22至24中任一项所述的方法,其中所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
27.如权利要求22至24中任一项所述的方法,其中所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
28.如权利要求22至27中任一项所述的方法,其还包括检测所述生物样品中一种或多种核酸分子的甲基化状态,以提供所述对象的甲基化谱。
29.如权利要求28所述的方法,其还包括使用所述机器学习模型来处理所述甲基化谱。
30.如权利要求22至29中任一项所述的方法,其还包括测量所述生物样品中一种或多种蛋白质的量,以提供所述对象的蛋白质谱。
31.如权利要求30所述的方法,其还包括使用所述机器学习模型来处理所述蛋白质谱。
32.一种用于检测对象中的结肠细胞增殖性病症的方法,其包括:
a)从所述对象获得生物样品;
b)测量来自预先确定的自身抗体小组的自身抗体的量,以提供所述对象的自身抗体谱,所述预先确定的自身抗体小组包含针对选自以下的3种或更多种抗原的自身抗体:NME5、USP16、UBE2S、RNF41、CD20、ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、ASB9、NXN、ZBTB21、EYA1、GSPT1、MLIP、RBM38、ARMC5、TP53、BRD9、CDK4、PRMT6、PCOLCE和SDCBP;
c)检测所述生物样品中一种或多种核酸分子的甲基化状态,以提供所述对象的甲基化谱,或测量所述生物样品中一种或多种蛋白质的量,以提供所述对象的蛋白质谱;以及
d)使用经训练以能够区分健康对象与患有所述结肠细胞增殖性病症的对象的机器学习模型来处理所述自身抗体谱和所述甲基化谱或所述蛋白质谱,以提供与所述结肠细胞增殖性病症的存在相关的输出值,从而指示所述对象中所述结肠细胞增殖性病症的存在。
33.如权利要求32所述的方法,其中所述自身抗体谱与所述结肠细胞增殖性病症相关,并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
34.如权利要求32或33所述的方法,其中所述甲基化谱与所述结肠细胞增殖性病症相关,并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
35.如权利要求32或33所述的方法,其中所述蛋白质谱与所述结肠细胞增殖性病症相关,并且提供将所述对象分类为患有所述结肠细胞增殖性病症的分类。
36.如权利要求32至35中任一项所述的方法,其中所述甲基化谱在所述机器学习模型中与所述自身抗体谱组合,以区分健康对象与患有所述结肠细胞增殖性病症的对象。
37.如权利要求32至35中任一项所述的方法,其中所述蛋白质谱在所述机器学习模型中与所述自身抗体谱组合,以区分健康对象与患有所述结肠细胞增殖性病症的对象。
38.如权利要求32至37中任一项所述的方法,其中从所述对象获得的所述生物样品选自体液、粪便、结肠排出物、尿液、血浆、血清、全血、分离的血细胞、从血液分离的细胞、组织活检物及其组合。
39.如权利要求32至38中任一项所述的方法,其中所述结肠细胞增殖性病症选自腺瘤(腺瘤性息肉)、息肉病、林奇综合征、无蒂锯齿状腺瘤(SSA)、晚期腺瘤、结直肠发育不良、结直肠腺瘤、结直肠癌、结肠癌、直肠癌、结直肠上皮癌、结直肠腺癌、类癌瘤、胃肠道类癌瘤、胃肠道间质瘤(GIST)、淋巴瘤和肉瘤。
40.如权利要求32至39中任一项所述的方法,其中所述小组被配置为指示晚期腺瘤,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:NME5、USP16、UBE2S、RNF41、CD20和SDCBP;2)针对选自以下的至少1种抗原的IgM自身抗体:UBE2S、NME5和CD20;3)针对选自以下的至少3种抗原的IgG自身抗体:ANKHD1、TXNL1、NAT6、Supt6h、PRDM8、OTUD5、PNKP、SRSF7、PCOLCE和ASB9;4)针对选自以下的至少1种抗原的IgG自身抗体:ASB9、NAT6、Supt6h和PRDM8;或其组合。
41.如权利要求32至40中任一项所述的方法,其中所述小组被配置为指示结直肠癌,并且包含:1)针对选自以下的至少3种抗原的IgM自身抗体:PELO、CDK4、MTP1、PRMT6、ZBTB2和PCOLCE;2)针对选自以下的至少1种抗原的IgM自身抗体:CDK4、MTCP1和PCOLCE;3)针对选自以下的至少3种抗原的IgG自身抗体:TSSC4、BRD9、BCCIP和TP53;4)针对TP53的IgG自身抗体;或其组合。
42.如权利要求22至41中任一项所述的方法,其还包括施用针对所述对象中的所述结肠细胞增殖性病症的治疗。
43.如权利要求42所述的方法,其中所述治疗选自手术、射频消融、化疗、放射疗法、靶向疗法和免疫疗法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063087728P | 2020-10-05 | 2020-10-05 | |
US63/087,728 | 2020-10-05 | ||
PCT/US2021/052816 WO2022076237A1 (en) | 2020-10-05 | 2021-09-30 | Markers for the early detection of colon cell proliferative disorders |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116670510A true CN116670510A (zh) | 2023-08-29 |
Family
ID=81126715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180078418.2A Pending CN116670510A (zh) | 2020-10-05 | 2021-09-30 | 用于结肠细胞增殖性病症的早期检测的标志物 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230243830A1 (zh) |
EP (1) | EP4226153A1 (zh) |
JP (1) | JP2023545012A (zh) |
KR (1) | KR20230079198A (zh) |
CN (1) | CN116670510A (zh) |
AU (1) | AU2021358002A1 (zh) |
CA (1) | CA3194607A1 (zh) |
WO (1) | WO2022076237A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019060716A1 (en) | 2017-09-25 | 2019-03-28 | Freenome Holdings, Inc. | SAMPLE EXTRACTION METHODS AND SYSTEMS |
WO2023235878A2 (en) * | 2022-06-03 | 2023-12-07 | Freenome Holdings, Inc. | Markers for the early detection of colon cell proliferative disorders |
JP2024064128A (ja) * | 2022-10-27 | 2024-05-14 | チューニングフォーク・バイオ・インク | 抗原探索方法及び抗原探索システム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2011223789A1 (en) * | 2010-03-01 | 2012-09-20 | Caris Life Sciences Switzerland Holdings Gmbh | Biomarkers for theranostics |
EP2895864B1 (en) * | 2012-09-17 | 2021-03-10 | AIT Austrian Institute of Technology GmbH | Colon cancer diagnostic method and means |
EP3776381A4 (en) * | 2018-04-13 | 2022-01-05 | Freenome Holdings, Inc. | IMPLEMENTATION OF MACHINE LEARNING FOR MULTI-ANALYTE TESTS OF BIOLOGICAL SAMPLES |
JP7431760B2 (ja) * | 2018-06-30 | 2024-02-15 | 20/20 ジェネシステムズ,インク | 癌分類子モデル、機械学習システム、および使用方法 |
FI3806895T3 (fi) * | 2019-02-15 | 2023-09-13 | Atreca Inc | Kasvainkudosta sitovia vasta-aineita ja niiden diagnostisia ja terapeuttisia käyttöjä |
EP4038097A1 (en) * | 2019-10-03 | 2022-08-10 | Cero Therapeutics, Inc. | Chimeric tim4 receptors and uses thereof |
-
2021
- 2021-09-30 KR KR1020237014992A patent/KR20230079198A/ko unknown
- 2021-09-30 CN CN202180078418.2A patent/CN116670510A/zh active Pending
- 2021-09-30 AU AU2021358002A patent/AU2021358002A1/en active Pending
- 2021-09-30 JP JP2023520319A patent/JP2023545012A/ja active Pending
- 2021-09-30 CA CA3194607A patent/CA3194607A1/en active Pending
- 2021-09-30 WO PCT/US2021/052816 patent/WO2022076237A1/en active Application Filing
- 2021-09-30 EP EP21878257.1A patent/EP4226153A1/en active Pending
-
2023
- 2023-02-01 US US18/163,149 patent/US20230243830A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2023545012A (ja) | 2023-10-26 |
EP4226153A1 (en) | 2023-08-16 |
KR20230079198A (ko) | 2023-06-05 |
AU2021358002A1 (en) | 2023-06-08 |
WO2022076237A1 (en) | 2022-04-14 |
US20230243830A1 (en) | 2023-08-03 |
CA3194607A1 (en) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kidd et al. | Blood and tissue neuroendocrine tumor gene cluster analysis correlate, define hallmarks and predict disease status | |
Cui et al. | Radiomics analysis of multiparametric MRI for prediction of pathological complete response to neoadjuvant chemoradiotherapy in locally advanced rectal cancer | |
Chaddad et al. | Predicting survival time of lung cancer patients using radiomic analysis | |
JP2024104300A (ja) | 癌分類子モデル、機械学習システム、および使用方法 | |
US20230243830A1 (en) | Markers for the early detection of colon cell proliferative disorders | |
US20230176058A1 (en) | Markers for the early detection of colon cell proliferative disorders | |
JP2013505730A (ja) | 患者を分類するためのシステムおよび方法 | |
Ashokkumar et al. | [Retracted] Deep Learning Mechanism for Predicting the Axillary Lymph Node Metastasis in Patients with Primary Breast Cancer | |
CN116709971A (zh) | 通用泛癌分类器模型、机器学习系统和使用方法 | |
Behrens et al. | A practical guide to epidemiological practice and standards in the identification and validation of diagnostic markers using a bladder cancer example | |
Sountharrajan et al. | Automatic classification on bio medical prognosisof invasive breast cancer | |
Ding et al. | Improving the efficiency of identifying malignant pulmonary nodules before surgery via a combination of artificial intelligence CT image recognition and serum autoantibodies | |
Islam et al. | Machine learning models of breast cancer risk prediction | |
Kocher et al. | Tumor burden of lung metastases at initial staging in breast cancer patients detected by artificial intelligence as a prognostic tool for precision medicine | |
Zhang et al. | Multiple biomarker panels for early detection of breast cancer in peripheral blood | |
US20230117405A1 (en) | Systems and methods for evaluation of chromosomal instability using machine-learning | |
Wei et al. | Machine learning for early discrimination between lung cancer and benign nodules using routine clinical and laboratory data | |
WO2011119967A2 (en) | System,method and computer-accessible medium for evaluating a maliganacy status in at-risk populations and during patient treatment management | |
WO2023235878A2 (en) | Markers for the early detection of colon cell proliferative disorders | |
Piedimonte et al. | Evaluating the use of machine learning in endometrial cancer: A systematic review | |
Lama et al. | AI for BPH Surgical Decision-Making: Cost Effectiveness and Outcomes | |
WO2023230617A2 (en) | Bladder cancer biomarkers and methods of use | |
Santhoshi et al. | Enhancing Colorectal Cancer Diagnosis With Machine Learning Algorithms | |
Monica et al. | A Comprehensive Study and Detection of Colon Cancer Cells Through Image Scaling for Medical Applications | |
McGuire et al. | BIOMEDICAL ANALYTICS AND MORPHOPROTEOMICS: AN INTEGRATIVE APPROACH FOR MEDICAL DECISION MAKING FOR RECURRENT OR REFRACTORY |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |