CN116806267A - 将样品分拣为临床相关类别的方法 - Google Patents
将样品分拣为临床相关类别的方法 Download PDFInfo
- Publication number
- CN116806267A CN116806267A CN202180091896.7A CN202180091896A CN116806267A CN 116806267 A CN116806267 A CN 116806267A CN 202180091896 A CN202180091896 A CN 202180091896A CN 116806267 A CN116806267 A CN 116806267A
- Authority
- CN
- China
- Prior art keywords
- sample
- cfdna
- sequence
- determined
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 239000000523 sample Substances 0.000 claims abstract description 194
- 239000012634 fragment Substances 0.000 claims abstract description 122
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 104
- 150000007523 nucleic acids Chemical group 0.000 claims abstract description 80
- 239000002773 nucleotide Substances 0.000 claims abstract description 28
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 26
- 239000002131 composite material Substances 0.000 claims abstract description 21
- 239000012472 biological sample Substances 0.000 claims abstract description 9
- 108020004414 DNA Proteins 0.000 claims description 70
- 201000011510 cancer Diseases 0.000 claims description 43
- 238000012163 sequencing technique Methods 0.000 claims description 35
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 23
- 210000001519 tissue Anatomy 0.000 claims description 10
- 239000013074 reference sample Substances 0.000 claims description 5
- 238000007619 statistical method Methods 0.000 claims description 4
- 206010006187 Breast cancer Diseases 0.000 claims description 3
- 208000026310 Breast neoplasm Diseases 0.000 claims description 3
- 206010009944 Colon cancer Diseases 0.000 claims description 3
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 3
- 206010027476 Metastases Diseases 0.000 claims description 3
- 206010061902 Pancreatic neoplasm Diseases 0.000 claims description 3
- 208000000236 Prostatic Neoplasms Diseases 0.000 claims description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 3
- 208000005017 glioblastoma Diseases 0.000 claims description 3
- 201000010536 head and neck cancer Diseases 0.000 claims description 3
- 208000014829 head and neck neoplasm Diseases 0.000 claims description 3
- 230000002489 hematologic effect Effects 0.000 claims description 3
- 208000014018 liver neoplasm Diseases 0.000 claims description 3
- 208000020816 lung neoplasm Diseases 0.000 claims description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 2
- 206010060862 Prostate cancer Diseases 0.000 claims description 2
- 206010017758 gastric cancer Diseases 0.000 claims description 2
- 201000007270 liver cancer Diseases 0.000 claims description 2
- 201000005202 lung cancer Diseases 0.000 claims description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 claims description 2
- 230000009401 metastasis Effects 0.000 claims description 2
- 201000002528 pancreatic cancer Diseases 0.000 claims description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 claims description 2
- 201000011549 stomach cancer Diseases 0.000 claims description 2
- 230000003321 amplification Effects 0.000 claims 1
- 238000003199 nucleic acid amplification method Methods 0.000 claims 1
- 108020004707 nucleic acids Proteins 0.000 description 16
- 102000039446 nucleic acids Human genes 0.000 description 16
- 238000011528 liquid biopsy Methods 0.000 description 11
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 10
- 230000002159 abnormal effect Effects 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 239000011324 bead Substances 0.000 description 8
- 210000004027 cell Anatomy 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 238000011282 treatment Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 238000007481 next generation sequencing Methods 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 6
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 239000000107 tumor biomarker Substances 0.000 description 6
- -1 DNA and/or RNA Chemical class 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 206010036790 Productive cough Diseases 0.000 description 4
- 108010090804 Streptavidin Proteins 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000035772 mutation Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 210000003802 sputum Anatomy 0.000 description 4
- 208000024794 sputum Diseases 0.000 description 4
- 210000002700 urine Anatomy 0.000 description 4
- 206010003445 Ascites Diseases 0.000 description 3
- 102100033254 Tumor suppressor ARF Human genes 0.000 description 3
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 3
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 3
- 239000008186 active pharmaceutical agent Substances 0.000 description 3
- 239000000090 biomarker Substances 0.000 description 3
- 229960002685 biotin Drugs 0.000 description 3
- 235000020958 biotin Nutrition 0.000 description 3
- 239000011616 biotin Substances 0.000 description 3
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- 238000013467 fragmentation Methods 0.000 description 3
- 238000006062 fragmentation reaction Methods 0.000 description 3
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 3
- 210000001623 nucleosome Anatomy 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 3
- 108090001008 Avidin Proteins 0.000 description 2
- 108010077544 Chromatin Proteins 0.000 description 2
- 108010009392 Cyclin-Dependent Kinase Inhibitor p16 Proteins 0.000 description 2
- 206010061819 Disease recurrence Diseases 0.000 description 2
- 206010048612 Hydrothorax Diseases 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 101710163270 Nuclease Proteins 0.000 description 2
- 108010047956 Nucleosomes Proteins 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 210000003483 chromatin Anatomy 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000002955 isolation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008774 maternal effect Effects 0.000 description 2
- 108020004999 messenger RNA Proteins 0.000 description 2
- 206010061289 metastatic neoplasm Diseases 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 238000010837 poor prognosis Methods 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000010561 standard procedure Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 102000000872 ATM Human genes 0.000 description 1
- 102100035886 Adenine DNA glycosylase Human genes 0.000 description 1
- 208000003200 Adenoma Diseases 0.000 description 1
- 101100215673 Arabidopsis thaliana AGL11 gene Proteins 0.000 description 1
- 241000208340 Araliaceae Species 0.000 description 1
- 108010004586 Ataxia Telangiectasia Mutated Proteins Proteins 0.000 description 1
- 101700002522 BARD1 Proteins 0.000 description 1
- 108700020463 BRCA1 Proteins 0.000 description 1
- 102000036365 BRCA1 Human genes 0.000 description 1
- 101150072950 BRCA1 gene Proteins 0.000 description 1
- 102100028048 BRCA1-associated RING domain protein 1 Human genes 0.000 description 1
- 108700020462 BRCA2 Proteins 0.000 description 1
- 102000052609 BRCA2 Human genes 0.000 description 1
- 102100025423 Bone morphogenetic protein receptor type-1A Human genes 0.000 description 1
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 1
- 101150008921 Brca2 gene Proteins 0.000 description 1
- 102100028914 Catenin beta-1 Human genes 0.000 description 1
- ZEOWTGPWHLSLOG-UHFFFAOYSA-N Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F Chemical compound Cc1ccc(cc1-c1ccc2c(n[nH]c2c1)-c1cnn(c1)C1CC1)C(=O)Nc1cccc(c1)C(F)(F)F ZEOWTGPWHLSLOG-UHFFFAOYSA-N 0.000 description 1
- 108091007854 Cdh1/Fizzy-related Proteins 0.000 description 1
- 102000038594 Cdh1/Fizzy-related Human genes 0.000 description 1
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 1
- 108010043471 Core Binding Factor Alpha 2 Subunit Proteins 0.000 description 1
- 108010025464 Cyclin-Dependent Kinase 4 Proteins 0.000 description 1
- 102100036252 Cyclin-dependent kinase 4 Human genes 0.000 description 1
- 102100021122 DNA damage-binding protein 2 Human genes 0.000 description 1
- 102100035186 DNA excision repair protein ERCC-1 Human genes 0.000 description 1
- 108010035476 DNA excision repair protein ERCC-5 Proteins 0.000 description 1
- 102100031866 DNA excision repair protein ERCC-5 Human genes 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 102100034157 DNA mismatch repair protein Msh2 Human genes 0.000 description 1
- 102100021147 DNA mismatch repair protein Msh6 Human genes 0.000 description 1
- 102100024829 DNA polymerase delta catalytic subunit Human genes 0.000 description 1
- 102100035481 DNA polymerase eta Human genes 0.000 description 1
- 102100029094 DNA repair endonuclease XPF Human genes 0.000 description 1
- 102100039116 DNA repair protein RAD50 Human genes 0.000 description 1
- 102100034484 DNA repair protein RAD51 homolog 3 Human genes 0.000 description 1
- 102100034483 DNA repair protein RAD51 homolog 4 Human genes 0.000 description 1
- 101100226017 Dictyostelium discoideum repD gene Proteins 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 102100031480 Dual specificity mitogen-activated protein kinase kinase 1 Human genes 0.000 description 1
- 102000001301 EGF receptor Human genes 0.000 description 1
- 102000012804 EPCAM Human genes 0.000 description 1
- 101150084967 EPCAM gene Proteins 0.000 description 1
- 101150105460 ERCC2 gene Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 102100038595 Estrogen receptor Human genes 0.000 description 1
- 101710105178 F-box/WD repeat-containing protein 7 Proteins 0.000 description 1
- 102100028138 F-box/WD repeat-containing protein 7 Human genes 0.000 description 1
- 102000009095 Fanconi Anemia Complementation Group A protein Human genes 0.000 description 1
- 108010087740 Fanconi Anemia Complementation Group A protein Proteins 0.000 description 1
- 102000018825 Fanconi Anemia Complementation Group C protein Human genes 0.000 description 1
- 108010027673 Fanconi Anemia Complementation Group C protein Proteins 0.000 description 1
- 102000013601 Fanconi Anemia Complementation Group D2 protein Human genes 0.000 description 1
- 108010026653 Fanconi Anemia Complementation Group D2 protein Proteins 0.000 description 1
- 102000010634 Fanconi Anemia Complementation Group E protein Human genes 0.000 description 1
- 108010077898 Fanconi Anemia Complementation Group E protein Proteins 0.000 description 1
- 102000012216 Fanconi Anemia Complementation Group F protein Human genes 0.000 description 1
- 108010022012 Fanconi Anemia Complementation Group F protein Proteins 0.000 description 1
- 102000007122 Fanconi Anemia Complementation Group G protein Human genes 0.000 description 1
- 108010033305 Fanconi Anemia Complementation Group G protein Proteins 0.000 description 1
- 102000052930 Fanconi Anemia Complementation Group L protein Human genes 0.000 description 1
- 108700026162 Fanconi Anemia Complementation Group L protein Proteins 0.000 description 1
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 1
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 1
- 102100027285 Fanconi anemia group B protein Human genes 0.000 description 1
- 102100034554 Fanconi anemia group I protein Human genes 0.000 description 1
- 102100034553 Fanconi anemia group J protein Human genes 0.000 description 1
- 102100034552 Fanconi anemia group M protein Human genes 0.000 description 1
- 102100023593 Fibroblast growth factor receptor 1 Human genes 0.000 description 1
- 101710182386 Fibroblast growth factor receptor 1 Proteins 0.000 description 1
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 1
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 1
- 108010010285 Forkhead Box Protein L2 Proteins 0.000 description 1
- 102100035137 Forkhead box protein L2 Human genes 0.000 description 1
- 102100030708 GTPase KRas Human genes 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 102100031885 General transcription and DNA repair factor IIH helicase subunit XPB Human genes 0.000 description 1
- 102100035184 General transcription and DNA repair factor IIH helicase subunit XPD Human genes 0.000 description 1
- 102100038367 Gremlin-1 Human genes 0.000 description 1
- 102100025334 Guanine nucleotide-binding protein G(q) subunit alpha Human genes 0.000 description 1
- 102100032610 Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Human genes 0.000 description 1
- 102100036738 Guanine nucleotide-binding protein subunit alpha-11 Human genes 0.000 description 1
- 102100029283 Hepatocyte nuclear factor 3-alpha Human genes 0.000 description 1
- 102100035108 High affinity nerve growth factor receptor Human genes 0.000 description 1
- 102100021088 Homeobox protein Hox-B13 Human genes 0.000 description 1
- 101001000351 Homo sapiens Adenine DNA glycosylase Proteins 0.000 description 1
- 101000785776 Homo sapiens Artemin Proteins 0.000 description 1
- 101000934638 Homo sapiens Bone morphogenetic protein receptor type-1A Proteins 0.000 description 1
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 1
- 101001041466 Homo sapiens DNA damage-binding protein 2 Proteins 0.000 description 1
- 101000876529 Homo sapiens DNA excision repair protein ERCC-1 Proteins 0.000 description 1
- 101001134036 Homo sapiens DNA mismatch repair protein Msh2 Proteins 0.000 description 1
- 101000968658 Homo sapiens DNA mismatch repair protein Msh6 Proteins 0.000 description 1
- 101000909198 Homo sapiens DNA polymerase delta catalytic subunit Proteins 0.000 description 1
- 101001094607 Homo sapiens DNA polymerase eta Proteins 0.000 description 1
- 101000865085 Homo sapiens DNA polymerase theta Proteins 0.000 description 1
- 101000743929 Homo sapiens DNA repair protein RAD50 Proteins 0.000 description 1
- 101001132271 Homo sapiens DNA repair protein RAD51 homolog 3 Proteins 0.000 description 1
- 101001132266 Homo sapiens DNA repair protein RAD51 homolog 4 Proteins 0.000 description 1
- 101001095815 Homo sapiens E3 ubiquitin-protein ligase RING2 Proteins 0.000 description 1
- 101000967216 Homo sapiens Eosinophil cationic protein Proteins 0.000 description 1
- 101000851181 Homo sapiens Epidermal growth factor receptor Proteins 0.000 description 1
- 101000882584 Homo sapiens Estrogen receptor Proteins 0.000 description 1
- 101100119754 Homo sapiens FANCL gene Proteins 0.000 description 1
- 101000914679 Homo sapiens Fanconi anemia group B protein Proteins 0.000 description 1
- 101000848174 Homo sapiens Fanconi anemia group I protein Proteins 0.000 description 1
- 101000848171 Homo sapiens Fanconi anemia group J protein Proteins 0.000 description 1
- 101000848187 Homo sapiens Fanconi anemia group M protein Proteins 0.000 description 1
- 101000584612 Homo sapiens GTPase KRas Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101000920748 Homo sapiens General transcription and DNA repair factor IIH helicase subunit XPB Proteins 0.000 description 1
- 101001032872 Homo sapiens Gremlin-1 Proteins 0.000 description 1
- 101000857888 Homo sapiens Guanine nucleotide-binding protein G(q) subunit alpha Proteins 0.000 description 1
- 101001014590 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Proteins 0.000 description 1
- 101001014594 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms short Proteins 0.000 description 1
- 101001072407 Homo sapiens Guanine nucleotide-binding protein subunit alpha-11 Proteins 0.000 description 1
- 101001062353 Homo sapiens Hepatocyte nuclear factor 3-alpha Proteins 0.000 description 1
- 101000596894 Homo sapiens High affinity nerve growth factor receptor Proteins 0.000 description 1
- 101001041145 Homo sapiens Homeobox protein Hox-B13 Proteins 0.000 description 1
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101000599886 Homo sapiens Isocitrate dehydrogenase [NADP], mitochondrial Proteins 0.000 description 1
- 101001057193 Homo sapiens Membrane-associated guanylate kinase, WW and PDZ domain-containing protein 1 Proteins 0.000 description 1
- 101000582631 Homo sapiens Menin Proteins 0.000 description 1
- 101001030211 Homo sapiens Myc proto-oncogene protein Proteins 0.000 description 1
- 101001014610 Homo sapiens Neuroendocrine secretory protein 55 Proteins 0.000 description 1
- 101000981336 Homo sapiens Nibrin Proteins 0.000 description 1
- 101001109719 Homo sapiens Nucleophosmin Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 101000595741 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit beta isoform Proteins 0.000 description 1
- 101001126417 Homo sapiens Platelet-derived growth factor receptor alpha Proteins 0.000 description 1
- 101000797903 Homo sapiens Protein ALEX Proteins 0.000 description 1
- 101000779418 Homo sapiens RAC-alpha serine/threonine-protein kinase Proteins 0.000 description 1
- 101000712530 Homo sapiens RAF proto-oncogene serine/threonine-protein kinase Proteins 0.000 description 1
- 101000932478 Homo sapiens Receptor-type tyrosine-protein kinase FLT3 Proteins 0.000 description 1
- 101000771237 Homo sapiens Serine/threonine-protein kinase A-Raf Proteins 0.000 description 1
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 1
- 101000777277 Homo sapiens Serine/threonine-protein kinase Chk2 Proteins 0.000 description 1
- 101000642268 Homo sapiens Speckle-type POZ protein Proteins 0.000 description 1
- 101000617830 Homo sapiens Sterol O-acyltransferase 1 Proteins 0.000 description 1
- 101000702606 Homo sapiens Structure-specific endonuclease subunit SLX4 Proteins 0.000 description 1
- 101000951145 Homo sapiens Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Proteins 0.000 description 1
- 101000685323 Homo sapiens Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Proteins 0.000 description 1
- 101000874160 Homo sapiens Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Proteins 0.000 description 1
- 101000934888 Homo sapiens Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Proteins 0.000 description 1
- 101000799466 Homo sapiens Thrombopoietin receptor Proteins 0.000 description 1
- 101000819111 Homo sapiens Trans-acting T-cell-specific transcription factor GATA-3 Proteins 0.000 description 1
- 101000702545 Homo sapiens Transcription activator BRG1 Proteins 0.000 description 1
- 101000638154 Homo sapiens Transmembrane protease serine 2 Proteins 0.000 description 1
- 101000997832 Homo sapiens Tyrosine-protein kinase JAK2 Proteins 0.000 description 1
- 101000740048 Homo sapiens Ubiquitin carboxyl-terminal hydrolase BAP1 Proteins 0.000 description 1
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 1
- 102100037845 Isocitrate dehydrogenase [NADP], mitochondrial Human genes 0.000 description 1
- 102000004034 Kelch-Like ECH-Associated Protein 1 Human genes 0.000 description 1
- 108090000484 Kelch-Like ECH-Associated Protein 1 Proteins 0.000 description 1
- 101000740049 Latilactobacillus curvatus Bioactive peptide 1 Proteins 0.000 description 1
- 108010068342 MAP Kinase Kinase 1 Proteins 0.000 description 1
- 108010075654 MAP Kinase Kinase Kinase 1 Proteins 0.000 description 1
- 102000046961 MRE11 Homologue Human genes 0.000 description 1
- 108700019589 MRE11 Homologue Proteins 0.000 description 1
- 229910015837 MSH2 Inorganic materials 0.000 description 1
- 108700012912 MYCN Proteins 0.000 description 1
- 101150022024 MYCN gene Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 102100027240 Membrane-associated guanylate kinase, WW and PDZ domain-containing protein 1 Human genes 0.000 description 1
- 102100030550 Menin Human genes 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108010074346 Mismatch Repair Endonuclease PMS2 Proteins 0.000 description 1
- 102000008071 Mismatch Repair Endonuclease PMS2 Human genes 0.000 description 1
- 102100033115 Mitogen-activated protein kinase kinase kinase 1 Human genes 0.000 description 1
- 102100025725 Mothers against decapentaplegic homolog 4 Human genes 0.000 description 1
- 101710143112 Mothers against decapentaplegic homolog 4 Proteins 0.000 description 1
- 101150097381 Mtor gene Proteins 0.000 description 1
- 102000013609 MutL Protein Homolog 1 Human genes 0.000 description 1
- 108010026664 MutL Protein Homolog 1 Proteins 0.000 description 1
- 102100038895 Myc proto-oncogene protein Human genes 0.000 description 1
- 108700026495 N-Myc Proto-Oncogene Proteins 0.000 description 1
- 102100030124 N-myc proto-oncogene protein Human genes 0.000 description 1
- 102100024403 Nibrin Human genes 0.000 description 1
- 102100022678 Nucleophosmin Human genes 0.000 description 1
- 102000014160 PTEN Phosphohydrolase Human genes 0.000 description 1
- 108010011536 PTEN Phosphohydrolase Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 102100036061 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit beta isoform Human genes 0.000 description 1
- 102100030485 Platelet-derived growth factor receptor alpha Human genes 0.000 description 1
- 208000002151 Pleural effusion Diseases 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- 102100033810 RAC-alpha serine/threonine-protein kinase Human genes 0.000 description 1
- 102100033479 RAF proto-oncogene serine/threonine-protein kinase Human genes 0.000 description 1
- 102100029986 Receptor tyrosine-protein kinase erbB-3 Human genes 0.000 description 1
- 101710100969 Receptor tyrosine-protein kinase erbB-3 Proteins 0.000 description 1
- 102100029981 Receptor tyrosine-protein kinase erbB-4 Human genes 0.000 description 1
- 101710100963 Receptor tyrosine-protein kinase erbB-4 Proteins 0.000 description 1
- 102100020718 Receptor-type tyrosine-protein kinase FLT3 Human genes 0.000 description 1
- 208000007660 Residual Neoplasm Diseases 0.000 description 1
- 102100025373 Runt-related transcription factor 1 Human genes 0.000 description 1
- 101150073911 STK gene Proteins 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 102100029437 Serine/threonine-protein kinase A-Raf Human genes 0.000 description 1
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 1
- 102100031075 Serine/threonine-protein kinase Chk2 Human genes 0.000 description 1
- 102100023085 Serine/threonine-protein kinase mTOR Human genes 0.000 description 1
- 102100036422 Speckle-type POZ protein Human genes 0.000 description 1
- 102100021993 Sterol O-acyltransferase 1 Human genes 0.000 description 1
- 101000697584 Streptomyces lavendulae Streptothricin acetyltransferase Proteins 0.000 description 1
- 102100031003 Structure-specific endonuclease subunit SLX4 Human genes 0.000 description 1
- 102100038014 Succinate dehydrogenase [ubiquinone] cytochrome b small subunit, mitochondrial Human genes 0.000 description 1
- 102100023155 Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial Human genes 0.000 description 1
- 102100035726 Succinate dehydrogenase [ubiquinone] iron-sulfur subunit, mitochondrial Human genes 0.000 description 1
- 102100031715 Succinate dehydrogenase assembly factor 2, mitochondrial Human genes 0.000 description 1
- 108050007461 Succinate dehydrogenase assembly factor 2, mitochondrial Proteins 0.000 description 1
- 102100025393 Succinate dehydrogenase cytochrome b560 subunit, mitochondrial Human genes 0.000 description 1
- 101150057140 TACSTD1 gene Proteins 0.000 description 1
- 102100034196 Thrombopoietin receptor Human genes 0.000 description 1
- 102100021386 Trans-acting T-cell-specific transcription factor GATA-3 Human genes 0.000 description 1
- 102100031027 Transcription activator BRG1 Human genes 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 102100031989 Transmembrane protease serine 2 Human genes 0.000 description 1
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 1
- 102100033444 Tyrosine-protein kinase JAK2 Human genes 0.000 description 1
- 108700031763 Xeroderma Pigmentosum Group D Proteins 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 238000007622 bioinformatic analysis Methods 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000740 bleeding effect Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- JJWKPURADFRFRB-UHFFFAOYSA-N carbonyl sulfide Chemical compound O=C=S JJWKPURADFRFRB-UHFFFAOYSA-N 0.000 description 1
- 108091092259 cell-free RNA Proteins 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 108091092240 circulating cell-free DNA Proteins 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 208000029742 colonic neoplasm Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007847 digital PCR Methods 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 1
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 210000004602 germ cell Anatomy 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 208000037819 metastatic cancer Diseases 0.000 description 1
- 208000011575 metastatic malignant neoplasm Diseases 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 101150071637 mre11 gene Proteins 0.000 description 1
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 1
- 239000002077 nanosphere Substances 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000000092 prognostic biomarker Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002626 targeted therapy Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000005748 tumor development Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
- 108010073629 xeroderma pigmentosum group F protein Proteins 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6881—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for tissue or cell typing, e.g. human leukocyte antigen [HLA] probes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Zoology (AREA)
- Immunology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Pathology (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Epidemiology (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Cell Biology (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Artificial Intelligence (AREA)
Abstract
本公开提供了用于将生物样品分拣为临床相关类别的方法和试剂盒。该方法包括以下步骤:(i)通过与参考序列比对在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止的序列坐标,和(ii)在参考序列中确定由三核苷酸、四核苷酸和五核苷酸组成的所有核酸基序。所述核苷酸:(a)向内1到5个碱基对的范围内但邻近(i)中确定的各起始和/或终止序列坐标,和/或(b)向外1到5个碱基对的范围内但邻近(i)中确定的各起始和/或终止序列坐标。随后,在第三步(iii),确定(a)样品中包含的多个cfDNA片段中在(i)中确定的各序列坐标加和/或减1个碱基对和(b)样品中包含的多个cfDNA片段中在(ii)a)和b)中确定的各核酸基序的频率。使用这些频率,计算(iii)a)和b)中确定的每个频率与相应参考频率的比率。对上述各比率分别计算诊断评分。最后一步,从确定的至少两个或更多个诊断评分计算综合诊断评分。诊断评分和综合诊断评分允许将样品分拣为临床相关类别,且综合诊断评分进一步允许将样品中无细胞和/或循环肿瘤DNA分类为低、中、高量。
Description
技术领域
本发明属于生物学、医学和化学领域,特别是分子生物学领域,更特别是分子诊断领域。
背景技术
真核基因组被组织成染色质,其不仅能够压缩DNA,还能调节DNA代谢(复制、转录、修复、重组)。已经表明,真核生物体中染色质结构的特征,特别是核小体排列,可用于鉴定存在于真核生物体的复杂混合物中的稀有核酸片段(Heitzer E.等人,Nat.Rev.Genet.,2019,20(2):71-88)。
核小体对DNA的保护被假设为非随机片段化热点(HSNRF)出现的原因,HSNRF被定义为在基因组中的区域,其中相比于邻近的基因组位置,具有特定大小分布的核酸片段的末端被发现出现频率高于预期。
癌症通常发现于人体中不易接近的位置。用于诊断癌症的“金标准”侵入性外科活组织检查带来了重大临床风险,包括出血和感染。这种侵入性方法的缺点之一是,从肿瘤组织中获取的样品仅是自手术进行时空间上有限的表现的事实。然而,癌症并非静止不变,而是不断发生变化,其导致肿瘤内部以及原发性和转移性癌症之间的遗传异质性。在开发用于癌症诊断、监测和治疗指导的非侵入性/最小侵入性方法方面已经付出了巨大努力。利用母体血浆中的无细胞DNA对数值异常进行非侵入性产前检测的成功技术开发也可用于生物标志物发现,用于癌症的诊断。血浆中循环肿瘤DNA的发现提供了将其用作生物标志物并采用液体活组织检查检测、预后和预测对癌症治疗的反应的可能性,而无需关注与侵入性外科手术相关的风险。该技术通过在早期阶段检测癌症来使癌症患者受益,从而增加成功康复的可能性,帮助选择最合适的治疗方法,还有助于检测治疗过程后的微小残留疾病,从而帮助临床医生进行必要的医疗干预。不同于目前存在并发症风险的侵入性测试方法,液体活检对患者来说本质上是安全的,因为它使用如血液、尿液或痰的样品。
迄今为止,仅描述了有限数量试图估计肿瘤来源对血浆中发现的无细胞DNA(cfDNA)总量的影响的方法,所述无细胞肿瘤DNA(cfDNA)被用作预后生物标志物、对治疗的反应和/或抗性以及疾病复发的指标(Smith C.G.等人,Genome Med.,2020,12(1):23;Peiyong Jiang等人,PNAS,2018,115(46):E10925-E10933;Cristiano S.等人Nature,2019,570:385-389;Mouliere等人,Sci.Transl.Med.,2018,10(466):eaat4921;Newman A.等人,Nat.Med.,2014,20(5):548-554)。
目前基于液体活检的测试无法满足精准肿瘤学的需求,由于其复杂性以及有限的灵敏度和特异性(De Rubis G.等人,Trends Pharmacol Sci.,2019,40(3):172-186;Peiyong Jiang等人,Cancer Discov.,2020,CD-19-0622)。因此,此类方法的准确性不够高,并且可能会产生误导性的结果。
本发明通过扩大可从循环肿瘤DNA(ctDNA)测序中提取的信息的范围,和实施新颖的多参数策略以建立稳健、灵敏且特异性的液体活检检测方法来用于将样品分拣为临床相关类别,提供了针对现有技术的液体活检方法所面临的限制的解决方案。
发明内容
本发明提供了针对其他液体活检方法当前面临的精度限制的解决方案。本发明通过扩大可从无细胞肿瘤DNA或ctDNA测序中提取的信息范围并实施新颖的多参数策略以建立一种稳健、灵敏且特异性的液体活检检测方法来用于将样品分拣为临床相关类别,克服了所述的精度限制。
在一个实施方案中,本发明涉及一种将样品分类为包含无细胞肿瘤DNA的方法,所述方法包括以下步骤:
(i)通过与参考序列比对确定在包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标,
(ii)确定参考序列中以下所有由三核苷酸、四核苷酸和五核苷酸组成的核酸基序:
a)在向内1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近,和/或
b)在向外1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近,
(iii)确定以下各项的频率:
a)在样品中包含的多个cfDNA片段中,每个序列坐标加和/或减(i)中确定的1个碱基对,
b)在样品中包含的多个cfDNA片段中,(ii)a)和b)中确定的每个核酸基序,
(iv)计算(iii)a)和b)中确定的每个频率与相应的参考频率的比率,
(v)分别对(iv)中确定的每个比率单独计算诊断评分,所述评分为(iv)中所有相应频率比率的相应加权和,
(vi)从(v)中确定的至少两个或更多个诊断评分计算综合诊断评分,所述评分是(v)中确定的所述两个或更多个诊断评分的加权和,以及
(vii)通过比较所述综合诊断评分与参考评分来确定所述样品的分类,
其中如果所述综合诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
在一个实施方案中,综合诊断评分是从对于上述方法的步骤(v)中计算的每个比率计算的所有诊断评分计算。
在一个实施方案中,本发明涉及将样品分类为包含无细胞肿瘤DNA的方法,所述方法包括以下步骤:
(i)通过与参考序列比对确定在包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止以及起始和/或终止加和/或减1个碱基对的序列坐标,
(ii)确定在样品中包含的多个cfDNA片段中(i)中确定的每个坐标的频率,
(iii)计算(ii)中确定的每个坐标的频率与对应的参考频率的比率,
(iv)从(iii)中确定的所有比率计算诊断评分,所述评分为(iii)中确定的所有频率比率的加权和,以及
(v)通过比较所述诊断评分与参考评分来确定所述样品的分类,
其中如果所述诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
在一个实施方案中,本发明涉及将样品分类为包含无细胞肿瘤DNA的方法,所述方法包括以下步骤:
(i)通过与参考序列比对确定在包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标,
(ii)确定参考序列中包括由向内1至5个碱基对的范围内但邻近(i)中确定的每个起始和/或终止序列坐标的所有由三核苷酸、四核苷酸和五核苷酸组成的核酸基序,
(iii)确定在样品中包含的多个cfDNA片段中(ii)中确定的每个核酸基序的频率,
(iv)计算(iii)中确定的每个频率与相应的参考频率的比率,
(v)从(iv)中确定的所有比率计算诊断评分,所述评分是(iv)中确定的所有频率比率的加权和,以及
(vi)通过比较所述诊断评分与参考评分来确定所述样品的分类,
其中如果所述诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
在另一个实施方案中,本发明涉及将样品分类为包含无细胞肿瘤DNA的方法,该方法包括以下步骤:
(i)通过与参考序列比对确定在包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标,
(ii)确定参考序列中向外1至5个碱基对范围内、但邻近(i)中确定的每个起始和/或终止序列坐标的所有由三核苷酸、四核苷酸和五核苷酸组成的核酸基序,
(iii)确定在样品中包含的多个cfDNA片段中(ii)中确定的每个核酸基序的频率,
(iv)计算(iii)中确定的每个频率与相应的参考频率的比率,
(v)从(iv)中确定的所有比率计算诊断评分,所述评分是(iv)中确定的所有频率比率的加权和,以及
(vi)通过比较所述诊断评分与参考评分来确定所述样品的分类,
其中如果诊断评分值比参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
在一个实施方案中,向内但邻近每个起始和/或终止序列坐标的碱基对范围可为距离每个起始和/或终止坐标2bp至6bp,或3bp至7bp,或4bp至8bp,或5bp至9bp,或6bp至10bp。
在一个实施方案中,待分析样品内包含的cfDNA片段的最低量为10万至50万、50万至100万、100万至200万、200万至500万、或500万至1000万、或1000万至2000万、或2000万至5000万、或5000万至5亿。
在一个实施方案中,如果综合诊断评分在参考评分的2-4个标准偏差之间,则样品中肿瘤cfDNA的量可分类为低,如果综合评分在参考评分的4-6.5个标准偏差之间,则可分类为中等,和如果综合评分高于参考评分的6.5个标准偏差,则可分类为高。
在一个实施方案中,参考样品可以是来自无癌症患者、非复发患者或成功治疗的癌症患者的样品。
在一个实施方案中,上述任一种方法的步骤(i),通过与参考序列比对确定包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标,包括在与参考序列比对之前确定样品中的多个cfDNA片段的至少一部分的核酸序列。
在一个实施方案中,上述任一种方法的步骤(i),通过与参考序列比对确定包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标,进一步包括在确定cfDNA片段的核酸序列之前富集cfDNA片段。
在一个实施方案中,样品被分类为包含源自肿瘤的肿瘤cfDNA,所述肿瘤选自血液癌、肝癌、肺癌、胰腺癌、前列腺癌、乳腺癌、胃癌、成胶质细胞瘤、结直肠癌、头颈癌、实体瘤、良性肿瘤、恶性肿瘤、晚期癌症、转移或癌前组织。
在另一个实施方案中,本发明涉及一种试剂盒,其包括:
(i)用于实施任何上述方法的组分,其中该组分包括:
a)用于从生物样品分离无细胞DNA的一种或多种组分,
b)用于制备和富集测序文库的一种或多种组分,和/或
c)用于扩增和/或测序该富集文库的一种或多种组分,
(ii)用于进行统计分析的软件。
附图说明
对20个来自无癌症患者的正常样品和27个来自诊断为晚期非小细胞肺癌(NSCLC)或结肠癌患者的异常样品进行了分析。10个随机选择的正常样品和10个随机选择的异常样品被用于训练步骤来估计实施例1-4中的未知参数。
图1:该图显示了实施例1-4中获得的“正常”样品(未包括在训练步骤中的健康、无癌症个体的对照样品)的评分相比于现有技术中描述的方法(在此称为“其他”方法)(Peiyong Jiang等人,Cancer Discov.,2020,CD-19-0622)获得的评分的分布。所述其他方法测量所分析的样品中包含的cfDNA片段的序列末端基序的量,还考虑并包括所述片段的起始和/或终止坐标,不同于本公开(其不包括所述起始和/或终止)。不显著的Kruskal-Wallis秩和检验(p值=0.9966)显示,对于正常样品,没有一种方法随机地优于另一种方法。计算的评分的平均值对于每个实施例设置为零。
图2:该图说明了对于包含无细胞肿瘤(“异常”)DNA的样品(所述样品不包括在训练步骤中)通过实施例1-4中本发明的方法和用现有技术方法(在此称为“其他”方法)获得的评分值及其相应的分布。当这些分数与从正常样品(图1)获得的评分进行比较时,从实施例1-4通过根据本发明的方法获得了最高的差异,清楚地说明了在区分异常样品和正常样品时本发明方法(实施例1-4)相比于现有技术方法在灵敏度上的改进(增加)。
图3:该图说明了实施例1-4中所述方法与现有技术方法(在此称为“其他”方法)之间灵敏度性能的比较。从正常和异常样品的各个评分的经验分布,计算了实施例1-4中的所有方法和现有技术(“其他”)方法的估计灵敏度。所有方法的特异性(即统计假设检验的显著性水平)设定在99.9%,对于实施例1-4的方法,该数据集的估计灵敏度分别等于96.8%、99.94%、99.48%和99.9997%。本发明的所有方法显著优于仅实现84.3%的灵敏度的现有技术方法以及文献中当前可用的使用片段大小和拷贝数变化信息将样品分拣成临床信息类别并仅实现60%至90%的灵敏度的其他方法(Mouliere等人2018和Adalsteinsson等人2017)(数据未显示)。
图4:表1:该表显示了对于四个另外的正常样品和三个另外的异常样品,在实施例4中通过本发明的方法获得的评分,异常样品来自诊断为NSCLC(I期)的癌症患者。该表突出显示将ctDNA量分类为低、中等和高。如果综合诊断评分值在2至4.5之间,样品中的ctDNA量被分类为低,如果综合诊断评分值在4.5至6之间,则被分类为中等,和如果综合诊断评分值超过6,则被分类为高。
具体实施方式
本发明描述了一种液体活检方法,该方法利用基于可从ctDNA测序提取的扩大范围的信息的新的生物信息学分析,并实施新的多参数策略以建立一种稳健、灵敏且特异性的液体活检检测方法,用于将样品分拣为临床相关类别。
本发明的一个实施方案涉及一种包含无细胞肿瘤DNA的样品的分拣方法,所述方法包括确定样品中包含的多个cfDNA片段的末端或“起始和/或终止”的序列坐标,以及任选地起始和/或终止加和/或减1个碱基对的序列坐标。在此,cfDNA片段的“起始和/或终止”涉及cfDNA片段的末端、边界或最外碱基对或核苷酸。cfDNA片段的序列坐标的确定可通过与参考序列进行比对来完成,其中参考序列可以是生物体的DNA序列,优选人DNA序列,例如hg19或hg38人基因组序列或人受试者的基因组序列,其在一个实施方案中可以是健康的或无癌症的人受试者。
在本发明的一个实施方案中,序列坐标的确定可以包括分析和/或确定多个cfDNA片段的核酸序列,例如通过测序分析。在一个实施方案中,序列坐标的确定还可以包括从样品中提取或纯化核酸和/或特别地cfDNA片段,和/或从样品富集cfDNA片段,和/或在测序分析之前从分离的DNA、RNA或cfDNA制备测序文库。
测序数据的分析可以包括将获得的cfDNA核酸序列信息与参考基因组序列进行比对。该比对允许将分析的cfDNA片段的“起始和/或终止”或末端的序列坐标映射到参考基因组序列。在本发明的优选实施方案中,除了测序的cfDNA片段的起始和/或终止坐标之外,起始和/或终止的+1bp和-1bp位置的序列坐标也从参考基因组序列确定。
随后,样品内包含的多个cfDNA片段中每个确定的起始和/或终止序列坐标的频率可以被确定。在计算在多个cfDNA片段中检测的每个起始和/或终止序列坐标的频率(丰度)时,对于相同cfDNA片段(技术重复)或对于两个不同cfDNA片段(生物重复)检测的坐标均被考虑。在本发明的优选实施方案中,除了每个起始和/或终止坐标的频率,也确定样品中的多个cfDNA片段内起始和/或终止坐标+1bp和-1bp的每个序列坐标的频率。
在本发明的一个实施方案中,确定了每个确定的参考基因组坐标的频率与相应的参考频率的比率。在优选的实施方案中,对于起始和/或终止+1bp和-1bp序列坐标的每个频率,也计算样品中坐标频率与参考频率的这一比率。
随后,根据本发明的方法可以从所有频率比率计算诊断评分,所述诊断评分被定义为如实施例1中所述获得的所有频率比率的加权和,其中如果诊断评分值比参考评分的平均值高至少一个参考评分的标准差,则分析的样品被分类为包含肿瘤cfDNA,其中参考评分从一个或多个参考值计算。
在本发明的一个实施方案中,在确定样品中包含的多个cfDNA片段的起始和/或终止坐标后,可以确定参考序列中在从每个起始和/或终止序列坐标向内的特定碱基对范围内但与每个起始和/或终止序列坐标相邻1个或多个bp的由例如三核苷酸(三个连续的核苷酸)、四核苷酸(四个连续的核苷酸)和/或五核苷酸(五个连续的核苷酸)组成的所有核酸基序。在本发明的一个实施方案中,从每个起始和/或终止序列坐标向内但与每个起始和/或终止序列坐标相邻1个或多个bp的特定碱基对范围可以是1bp至5bp、2bp至6bp、3bp至7bp、4bp至8bp、5bp至9bp或6bp至10bp。在优选实施方案中,该范围可以是从样品中多个cfDNA片段中确定的每个起始和/或终止序列坐标向内1bp至5bp。基序取自参考基因组序列,以避免个体间的变异性(即单核苷酸多态性)。
核酸基序可以基于cfDNA片段与其比对的参考序列而不是片段的实际序列中每个检测的起始和/或终止位置来确定。
随后,可以确定样品内多个cfDNA片段中每个检测的核酸基序的频率(丰度)。在多个cfDNA片段中检测的每个基序的频率(丰度)的计算中,对于同一cfDNA片段或两个不同的cfDNA片段检测的基序均被考虑。之后,计算多个cfDNA片段内每个核酸基序频率与相应的参考频率的比率。随后,根据本发明的方法从所有频率比率计算诊断评分,所述诊断评分被定义为如实施例2中所述的所有频率比的加权和,其中如果诊断评分值比参考评分的平均值高参考评分的至少一个标准差,则分析的样品被分类为包含肿瘤cfDNA,其中参考评分从一个或多个参考值计算。
在本发明的一个实施方案中,在确定样品中包含的多个cfDNA片段的起始和/或终止坐标后,可以确定参考序列中从每个起始和/或终止序列坐标向外但与每个起始和/或终止序列坐标相邻1个或多全bp的特定碱基对范围内由例如三核苷酸(三个连续的核苷酸)、四核苷酸(四个连续的核苷酸)和/或五核苷酸(五个连续的核苷酸)组成的所有核酸基序。
在本发明的一个实施方案中,从每个起始和/或终止序列坐标向外但与每个起始和/或终止序列坐标相邻1个或多个bp的特定碱基对范围可以是1bp至5bp、2bp至6bp、3bp至7bp、4bp至8bp、5bp至9bp或6bp至10bp。在优选实施方案中,该范围可以是从样品中多个cfDNA片段中确定的每个起始和/或终止序列坐标向外1bp至5bp。核酸基序可以基于cfDNA片段与其比对的参考序列中每个检测的起始和/或终止位置来确定。此类核酸基序可以仅包含cfDNA片段与其比对处相邻1个或多个bp的参考序列的核酸序列。此类基序不包含cfDNA片段的核酸序列,但包含在参考序列中紧靠在起始或终止坐标外开始的序列,例如起始坐标向外1bp至5bp,但邻近起始和/或终止。
随后,可以确定样品内多个cfDNA片段中每个检测的核酸基序的频率。在多个cfDNA片段中检测的每个基序的频率(丰度)的计算中,对于同一cfDNA片段或两个不同的cfDNA片段检测的基序均被考虑。这之后,可以计算多个cfDNA片段内各核酸基序频率与相应的参考频率的比率。最后,可以根据本发明的方法从所有频率比率计算诊断评分,所述诊断评分被定义为如实施例3中所述的所有频率比率的加权和,其中如果诊断评分值比参考评分的平均值高参考评分的至少一个标准差,则分析的样品被分类为包含肿瘤cfDNA,其中参考评分从一个或多个参考值计算。
在本发明的一个实施方案中,本文的所有前述方法以下从与参考频率相比的比率计算评分的步骤可平行地或以特定顺序进行:(a)起始和/或终止序列坐标(任选地-1bp和/或+1bp)的频率,(b)位于cfDNA片段起始和/或终止坐标向内但与起始和/或终止坐标相邻一个或多个bp的所有核酸基序的频率,和(c)位于cfDNA片段起始和/或终止坐标向外但与cfDNA片段起始和/或终止坐标相邻一个或多个bp的所有核酸基序的频率,不包括cfDNA序列;其中随后步骤(a)、(b)和(c)中的两个或所有步骤的诊断评分值可以被用来根据本发明的方法计算综合诊断评分值,如实施例4中所述。根据该综合诊断评分值,如果综合诊断评分比参考评分的平均值高参考评分的至少一个标准差,则分析的样品被分类为包含肿瘤cfDNA或循环肿瘤DNA(ctDNA),其中参考评分由一个或多个参考值计算。
在一个实施方案中,通过比较对于每个异常样品获得的综合诊断评分值与参考评分,样品中肿瘤cfDNA或ctDNA的量可被分类为(a)低,如果综合诊断评分在参考评分的2至4个标准差之间,(b)中等,如果综合诊断评分在参考评分的4至6.5个标准差之间,以及(c)高,如果综合诊断评分大于参考评分的6.5个标准差。(表1)。
无细胞核酸
在本文中,核酸片段的混合物优选从取自真核生物体的样品中分离,优选灵长类动物,更优选人。样品可包含来自不同组织类型的细胞或核酸。因此,样品可固有地包含核酸片段的混合物。
在本文中,“核酸”或“核酸序列”可与DNA、RNA、基因组DNA、无细胞DNA和/或RNA、tRNA、信使RNA(mRNA)、合成DNA或RNA互换地使用,但不限于此。
在本发明的上下文中,术语“核酸片段”和“片段化核酸”可以互换地使用。在根据本发明的方法的优选实施方案中,核酸片段是循环无细胞DNA或RNA。
在本发明的一个实施方案中,可以分析样品内包含的至少100,000个cfDNA片段。在另一个实施方案中,待分析样品内包含的cfDNA片段的数量可以在10万至50万、50万至100万、100万至200万、200万至500万、500万至1000万、1000万至2000万、2000万至5000万或5000万至5亿的范围内。
在本发明的一个实施方案中,“样品”是血液样品、血清样品、血浆样品、液体活组织检查样品或DNA样品(例如核酸片段的混合物),所述DNA样品包括无细胞DNA(cfDNA)、无细胞肿瘤DNA(cftDNA)、循环肿瘤DNA(ctDNA)或循环cftDNA。在本发明的上下文中,术语“cfDNA”、“cftDNA”、“ctDNA”或“循环cftDNA”可以互换地使用。
在一个实施方案中,样品选自来自患有或疑似患有肿瘤的受试者的血浆样品、血液样品、尿样品、痰样品、脑脊液样品、腹水样品和胸水样品。在一个实施方案中,样品或DNA样品来自患有或疑似患有肿瘤的受试者的组织样品或一组恶性细胞。
在本发明的上下文中,术语“肿瘤”、“癌症”或“异常”可互换地使用。在本文中,术语“癌症”或“肿瘤”还可以包括早期癌症或晚期癌症、转移或癌前组织或细胞。在此,肿瘤样品或异常样品可涉及包含源自原发性肿瘤或转移性肿瘤的(无细胞)DNA或RNA的样品。正常样品或参考样品在本文中可涉及仅包含源自非癌性、健康或“正常”组织或细胞的(无细胞)DNA或RNA的样品。在本发明上下文中,术语“正常”、“对照”或“参考”可互换地使用。
本发明的方法可用于多种生物样品。基本上任何含有遗传物质(例如RNA或DNA,特别是无细胞DNA(cfDNA)或无细胞RNA)的生物样品都可用作允许对其中的RNA或DNA进行遗传分析的方法中的样品。例如,在一个实施方案中,DNA样品是含有无细胞DNA(cfDNA)的血浆样品或血液样品。
在用于肿瘤学目的的又一实施方案中,样品是从患有或疑似患有肿瘤或癌症的受试者获得的生物样品。在一个实施方案中,样品包含循环无细胞肿瘤DNA(cftDNA)。在另一个实施方案中,样品是受试者的尿、痰、腹水、脑脊液或胸水。在另一个实施方案中,肿瘤学样品是从受试者外周血制备的受试者血浆样品。在另一个实施方案中,样品是受试者的尿、痰、腹水、脑脊液或胸腔积液。在另一个实施方案中,肿瘤学样品是从受试者外周血制备的受试者血浆样品。因此,样品可以是从受试者的血液样品非侵入地获得的液体活组织检查样品,从而潜在地允许在可检测或可触知的肿瘤发展之前的早期癌症检测,或允许监测疾病进展、疾病治疗或疾病复发。
在此,无细胞DNA(cfDNA)指不包含在细胞内的DNA。样品可以包含来自正常或健康细胞和/或来自癌细胞的cfDNA。无细胞DNA可能通过分泌、细胞凋亡或坏死释放到血液或血清中。如果cfDNA从肿瘤或癌细胞释放,则其可被称为无细胞肿瘤DNA(cftDNA)。
在本发明的上下文中,术语“受试者”指动物,优选哺乳动物,并且更优选人或人类患者。如本文所用,术语“受试者”可以指患有肿瘤或疑似患有肿瘤的受试者。
在此,“肿瘤”通常是指癌症,包括但不限于实体瘤、腺瘤、血液癌、肝癌、肺癌、胰腺癌、前列腺癌、乳腺癌、胃癌、胶质母细胞瘤、结肠直肠癌、头颈癌、癌症晚期阶段的肿瘤、良性或恶性肿瘤、转移或癌前组织。
本文中,cfDNA片段的“末端”定义了核酸片段3’和5’末端的最外侧的核苷酸,并且在此也可称为cfDNA片段的“起始和/或终止(位置)”或“断点”或“边界”。与参考序列进行比对时,cfDNA片段的“(起始和/或终止)坐标”或“序列坐标”由参考序列中cfDNA片段的末端与其比对的最外侧核酸序列位置定义。例如,如果cfDNA片段与跨越序列位置1500bp到1700bp的参考核酸序列互补或比对则序列坐标将为1500bp和1700bp,从而限定了cfDNA片段的200bp的长度。
cfDNA的大小分布表现出166-bp的主峰和10-bp间隔的较小的峰,表明cfDNA的生物学可能与核小体组织相关。类似的模式也在癌症患者的血浆DNA中被观察到。cfDNA的非随机片段化模式(与起源组织有关)也可能与患者的健康状况有关。因此,无细胞DNA片段的末端或者起始和/或终止坐标和频率指示疾病的进展。它们根据肿瘤的起源和肿瘤质量而变化,这反映了疾病的程度且因此其对给定治疗的反应。
如本文所用,术语从起始和/或终止坐标“向内”指参考序列中从核酸片段的“起始和/或终止”坐标开始的方向,序列或基序沿其延伸。“向内”可能涉及核酸片段的序列或与之比对的参考序列中包含的核酸序列或基序。“向内”是可指核酸片段的起始坐标的+1、+2、+3、+4、+5等个碱基对和/或终止坐标的-1、-2、-3、-4、-5个碱基对。在一个实施方案中,向内但邻近每个起始和/或终止序列坐标的碱基对范围可以是距离每个起始和/或终止坐标1bp至5bp、2bp至6bp、或3bp至7bp、或4bp至8bp、或5bp至9bp或6bp至10bp。
如本文所用,术语从起始和/或终止坐标“向外”指参考序列中从核酸片段的“起始和/或终止”坐标开始的方向,序列沿其延伸。“向外”可能涉及不包含在核酸片段的序列或与之比对的参考序列中的核酸序列或基序。“向外”可以是指核酸片段的终止坐标的+1、+2、+3、+4、+5等个碱基对和/或起始坐标的-1、-2、-3、-4、-5个碱基对。在一个实施方案中,向外但邻近每个起始和/或终止序列坐标的碱基对范围可以是距离每个起始和/或终止坐标1bp至5bp、2bp至6bp、或3bp至7bp、或4bp至8bp、或5bp至9bp或6bp至10bp。
本方法分析起始和/或终止坐标加和减1bp的频率和/或序列基序,因为所观察到的片段的末端位点可能不一定是真正的切割/消化位点(Peiyong Jiang等人,GenomeRes.,2020,doi:10.1101/gr.261396.120)。因此,通过考虑附近的基因组碱基是真正的消化位点的可能性,本发明在将生物样品分拣为临床相关类别方面比现有技术水平具有更高的准确性。
在本文中,“核酸基序”、“序列基序”或“基序”是指核酸序列中的连续核苷酸的阵列,其由2、3、4、5、6、7、8、9、10、20、30、40、50、100等个连续的核苷酸组成。这种连续核苷酸的阵列也可以被称为“三核苷酸”、“四核苷酸”、“五核苷酸”、“六核苷酸”等。所述基序是当无细胞和/或循环DNA分子被产生并释放到血浆中时,例如被特定核酸酶优先切割的人类基因组位置的子集。这种在细胞凋亡期间由切割核酸(例如DNA)的核酸酶产生的血浆DNA末端基序显示不同的特征,其可包含HSNRF或对HSNRF是特异性的。在优选的实施方案中,“基序”是指来自参考基因组序列的3、4或5个连续核苷酸的阵列。
在一个实施方案中,核酸基序可位于cfDNA片段的末端或断点处,其中该基序可包含在cfDNA片段的核酸序列内,或位于cfDNA片段序列的边界之外和参考核酸序列内,例如邻近cfDNA片段比对的位置。
cfDNA的分析
在本文中,“参考序列”可以是任何核酸序列、基因组序列、生物体或受试者的基因组序列,优选是人类基因组序列(如hg19或hg38)或者健康个体或受试者的序列。
在本文中,起始和/或终止序列坐标频率的“参考频率”可以是一个或多个参考基因组、参考序列中,或者一个或多个健康或“正常”对照样品、受试者或患者的一个或多个基因组或序列中相应的起始和/或终止序列坐标的频率。在本文中,核酸基序的“参考频率”可以是一个或多个参考基因组、参考序列中,或者一个或多个健康或“正常”对照样品、受试者或患者的一个或多个基因组或序列中相应核酸基序的频率。
在本文中,“频率”可与丰度和出现率互换使用。在本发明的一个实施方案中,“频率”描述了样品中包含的多个核酸或cfDNA片段中检测或计数的例如核酸序列基序、核酸(cfDNA)片段或起始和/或终止序列坐标的丰度和出现率或数量。
在本文中,“比率”可以指例如在样品中的多个核酸片段中检测的核酸序列基序的频率与参考样品中相同核酸序列基序的频率的数学关系或比例。本文中,比率可以通过将每个坐标或基序的频率除以相应坐标或基序的相应参考频率来计算。
对于样品制备,使用本领域已知的标准技术从样品中提取核酸,例如DNA和/或RNA,其非限制性例子是QIAsymphony(QIAGEN)方案、QIAamp Circulating Nucleic Acid(QIAGEN)、ingFisher(Thermofisher)方案、MagMAXTMCell-Free DNA(Thermofisher)或适合于无细胞DNA分离的任何其他手动或自动提取方法。
在分离之后,样品的无细胞DNA可用于测序文库制备以使样品与下游测序技术(例如下一代测序(NGS))相容。通常,这涉及将衔接子连接到无细胞DNA片段的末端上。测序文库制备试剂盒是市售的或可以是开发的。
cfDNA的靶向富集是使用结合人类基因组上的感兴趣区域的靶捕获序列(TACS)进行的,且其中:池中的每条序列在长度125-260bp和/或长度125-300bp和/或长度125-350bp之间,每个序列具有5’端和3’端;池中的每条序列与5’端和3’端上距离携带拷贝数变异、节段重复或重复DNA元素的区域至少10个碱基对的感兴趣区域结合;并且TACS的GC含量在20%-50%,和/或20%-60%,和/或20%-70%,和/或20%-80%之间。
在本文中,术语“靶标捕获序列”或“TACS”指与感兴趣的基因组序列上的感兴趣区域互补的DNA序列,且其被用作从大的序列文库中捕获和富集感兴趣区域的“诱饵”,例如从生物样品制备的全基因组测序文库。在本发明的上下文中,术语“靶标捕获序列”或“TACS”或“探针”可以互换地使用。
在另一个实施方案中,TACS的池结合多个感兴趣的肿瘤生物标志物序列,其选自包括但不限于以下的组:AKT1、ALK、APC、AR、ARAF、ATM、BAP1、BARD1、BMPR1A、BRAF、BRCA1、BRCA2、BRIP1、CDH1、CDK4、CDKN2A(pl4ARF)、CDKN2A(pl6INK4a)、CHEK2、CTNNB1、DDB2、DDR2、DICERl、EGFR、EPCAM、ERBB2、ERBB3、ERBB4、ERCC1、ERCC2、ERCC3、ERCC4、ERCC5、ESR1、FANCA、FANCB、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCI、FANCL、FANCM、FBXW7、FGFR1、FGFR2、FLT3、FOXA1、FOXL2、GATA3、GNA11、GNAQ、GNAS、GREM1、HOXB13、IDH1、IDH2、JAK2、KEAP1、KIT、KRAS、MAP2K1、MAP3K1、MEN1、MET、MLH1、MPL、MRE11A、MSH2、MSH6、MTOR、MUTYH、MYC、MYCN、NBN、NPM1、NRAS、NTRK1、PALB2、PDGFRA、PIK3CA、PIK3CB、PMS2、POLD1、POLE、POLH、PTEN、RAD50、RAD51C、RAD51D、RAF1、RBI、RET、ROS1、RUNX1、SDHA、SDHAF2、SDHB、SDHC、SDHD、SLX4、SMAD4、SMARCA4、SPOP、STAT、STK11、TMPRSS2、TP53、VHL、XPA、XPC及其组合。在一个实施方案中,TACS池结合多个感兴趣的肿瘤生物标志物序列,其选自EGFR_6240、KRAS_521、EGFR_6225、NRAS_578、NRAS_580、PIK3CA_763、EGFR_13553、EGFR_18430、BRAF_476、KIT_1314、NRAS_584、EGFR_12378及其组合。
在另一个实施方式中,TACS池结合多个感兴趣的肿瘤生物标志物序列,其选自包括但不限于以下的组:COSM6240(EGFR_6240)、COSM521(KRAS_521)、COSM6225(EGFR_6225)、COSM578(NRAS_578)、COSM580(NRAS_580)、COSM763(PIK3CA_763)、COSM13553(EGFR_13553)、COSM18430(EGFR_18430)、COSM476(BRAF_476)、COSM1314(KIT_1314)、COSM584(NRAS_584)、COSM12378(EGFR_12378)及其组合,其中标识符指生物标志物的COSMIC数据库ID号。通常,探针杂交或富集步骤可以在测序文库创建之前或文库创建之后进行。
在本发明的一个实施方案中,测序文库可以通过测序文库与一种或多种覆盖例如非随机片段化热点(HSNRF)的探针的杂交富集感兴趣的序列区域。这类HSNFR区域是具有在短距离内包含大量核酸序列变异的高度可能性的区域,从而得鉴定不同组织来源类型(例如癌症和正常),其存在于cfDNA的混合物中。
HSNRF所在的感兴趣染色体上的感兴趣区域通过将HSNRF捕获探针池与测序文库杂交,然后分离在测序文库内与探针结合的那些序列而富集。在一个实施方案中,探针跨越HSNRF位点,使得仅片段化的无细胞核酸的5’末端被探针捕获。在另一个实施方案中,探针跨越HSNRF位点,使得仅源自HSNRF的片段化无细胞核酸的3’末端可以结合到探针。在另一个优选的实施方案中,探针跨越与片段化的核酸相关的HSNRF位点两者,使得与给定HSNRF位点相关的无细胞核酸的5’端和3’端两者被探针捕获。
为便于分离所需的富集序列(HSNRF),通常对探针序列进行修饰,其方式使得与探针杂交的序列可以从不与探针杂交的序列分离。通常,这是通过将探针固定到支撑物上来实现的。这允许将结合探针的那些序列与不结合探针的那些序列进行物理分离。例如,探针池中的每个序列可以用生物素标记,然后可以将探针池与包被有生物素结合物质(例如链霉亲和素或抗生物素蛋白)的珠结合。在优选的实施方案中,探针用生物素标记并结合链霉亲和素包被的磁珠,从而允许通过利用珠的磁性质进行分离。然而,普通技术人员将理解,其他亲和结合系统是本领域已知的并且可以代替生物素-链霉亲和素/抗生物素蛋白使用。例如,可以使用基于抗体的系统,其中探针用抗原标记,然后与抗体包被的珠结合。而且,探针可以在一端并入序列标签,并且可以通过与序列标签杂交的支持物上的互补序列与支持物结合。此外,除了磁珠之外,可以使用其他类型的支持物,例如聚合物珠、玻璃等。
在某些实施方案中,与探针池结合的测序文库的成员与探针完全互补。在其他实施方案中,与探针池结合的测序文库的成员与探针部分互补。例如,在某些情况下,可能期望利用和分析来自DNA片段的数据,所述DNA片段是富集过程的产物,但不一定属于感兴趣的基因组区域(即,这样的DNA片段可能由于部分同源性而与探针结合),并且当测序时,将在整个基因组中产生非常低的非探针坐标的覆盖率。
在使用探针富集感兴趣的序列,从而形成具有HSNRF位点的富集DNA文库后,富集的HSNRF文库的成员被洗脱,并使用本领域已知的标准方法进行扩增和测序。在另一个实施方案中,探针与支持物一起提供,例如与链霉亲和素包被的磁珠一起提供的生物素化的探针。
为了检测肿瘤生物标志物,探针基于本文所述的设计标准和肿瘤生物标志物基因的已知序列及其中与癌症相关的基因突变来设计。在一个实施方案中,该方法中使用的多个探针结合多个感兴趣的肿瘤生物标志物序列。在此,探针可以位于邻近突变位点的非随机片段的热点中。
在本文中,下一代测序(NGS)可用于核酸序列分析,尽管也可以使用提供除序列信息之外的非常精确计数的其他测序技术。相应地,也可以代替NGS而使用其他精确计数的方法,例如但不限于数字PCR、单分子测序、纳米孔测序、DNA纳米球测序、连接测序、离子半导体测序、边合成边测序和微阵列。
在一个实施方案中,本发明涉及一种方法,其中待检测或待确定其来源的核酸片段以低于来自相同基因座但不同来源的核酸片段的浓度存在于混合物中。
本方法特别适用于分析如此低浓度的靶标cfDNA。在根据本发明的方法中,待检测或待确定其来源的核酸片段和来自相同基因位点但不同来源的核酸片段以选自1:2、1:4、1:10、1:20、1:50、1:100、1:200、1:500、1:1000、1:2000和1:5000的比率存在于混合物中。该比率理解为意味着加/减30%、20%或10%的近似比率。本领域技术人员了解,这些比率不会精确地以上述数值出现。该比率是指对于稀有类型的基因座特异性分子的数量比丰富类型的基因座特异性分子的数量。
数据分析
从富集文库的测序获得的信息使用创新的生物数学/生物统计数据分析途径来分析。本方法利用了cfDNA片段的特征,包括使用参考基因组序列与末端坐标相邻1个或多个bp的所有可能基序的组合并且排除所观察到的cfDNA末端位点,因为它们可能不代表真正的消化位点。此外,通过组合对cfDNA的不同特征(包括位置和基序)的分析,本发明实现了提高的精确度的意想不到的技术效果,即在相同的特异性水平上提高的灵敏度。
根据本发明的优选实施方案,进行靶向末端配对下一代测序。所有样品的多重复用数据使用Illumina bcltofastq工具解复用。所述样品的测序数据使用cutadapt软件(Martin,M.等人2011EMB.netJournal 17.1)处理以去除衔接子序列和低质量的阅读(Q-评分<25)
长度至少为25个碱基的处理的阅读片段使用Burrows-Wheel比对算法与人参考基因组构建GRCh37(hg19)(UCSC Genome Bioinformatics)比对。移除插入大小大于阈值的配对阅读片段,所述阈值在100-600的范围内。如果相关,鉴定重复的阅读,通过唯一分子标识符(UMI)家族分组,并用于产生比对后每个UMI家族的共有阅读。
在适用的情况下,关于同一样品但在单独的测序通道上处理的测序输出被合并到单一测序输出文件中。使用fgbio、picard工具软件套件(Broad Institute)和Sambanba工具软件套件(Sambamba reference,Tarasov,Artem等人Sambamba:fast processing ofNGS alignment formats.Bioinformatics 31.12(2015):2032-2034)执行重复和合并程序的利用。关于映射位置(最外和附近的坐标)、感兴趣的基因座处每碱基的读取深度及片段大小方面的信息使用SAMtools软件套件的mpileup选项(下文中称为mpileup文件)获得,并使用以Python和R编程语言(Python Software Foundation(2015)Python;The RFoundation(2015)The R Project for Statistical Computing)编写的定制应用程序编程接口(APIs)处理。
片段的末端坐标定义为该片段跨越的参考基因组中的最外侧坐标,即每个比对的片段具有两个末端坐标(相对于参考基因组的起始/最左侧位置(5’端)和终止/最右侧位置(3’端)坐标)。
在本发明的各种实施方案中,靶标组由至少500个靶标基因组碱基组成。每个样品所需的最小片段数量为100,000。
本文中,“诊断评分值”被计算为如“实施例部分”的实施例1、2和3中所述的所有频率比率的加权和。
本文中,“综合诊断评分值”被计算为如实施例4中所述的本发明中描述的所有步骤的至少两个或更多个频率比率的加权和。
在本发明的一个实施方案中,“参考评分”可以从一个或多个“参考值”计算。
在一个实施方案中,参考值或参考评分可由从一个或多个正常或参考样品获取的数据计算。在一个实施方案中,参考值或参考评分,及被分析样品的值(例如,核酸基序的频率或起始和/或终止坐标的频率)或与其比较的被分析样品的诊断评分,根据本文中所公开的相同计算方法计算。
样品分类
在本文中,样品的分类包括二元分类(即,癌症、无癌症;预后良好、预后不良/差;复发、非复发)和将cftDNA分类的量分类为低、中等和高。
用于样品分类的临床相关类别可以是存在或不存在癌症、疾病或癌症缓解、疾病或癌症的复发、早期癌症阶段和预后。
在一个实施方案中,如果综合诊断评分在参考评分的2至4个标准差之间,则样品中肿瘤cfDNA的量、存在或丰度可分类为低,如果综合诊断评分在参考评分的4至6.5个标准差之间,则可被分类为中等,和如果综合诊断评分在参考评分的6.5个标准差以上,则可被公类为高。
肿瘤学用途
本发明可用于治疗癌症或评估肿瘤负荷、检测微小残留疾病、监测治疗结果、长期监测患者结果。本发明可进一步用于鉴定适合靶向治疗的突变和用于检测癌症体细胞和种系突变。本发明的方法便于早期检测不能通过其它方法检测的小肿瘤,并实现更靶向的、定制的治疗途径。
试剂盒
在另一方面,本发明提供用于实施本发明的方法的试剂盒。在一个实施方案中,所述试剂盒包含容器(其包含探针池)和用于实施所述方法的软件和指令。
除探针池之外,试剂盒可以包含以下的一种或多种:(i)用于从生物样品中分离无细胞DNA的一种或多种组分,(ii)用于制备和富集测序文库的一种或多种组分(例如引物、衔接子、缓冲液、接头、DNA修饰酶、连接酶、聚合酶、探针等),(iii)用于扩增和/或测序富集文库的一种或多种组分,和/或(iv)用于进行统计分析的软件。适用于实施(i)、(ii)和(iii)中所述步骤的组分为本领域技术人员所公知。
在一个实施方案中,探针以允许其结合到固体支持物的形式提供,例如生物素化的探针。在另一个实施方案中,探针与固体支持物一起提供,例如与链霉亲和素包被的磁珠一起提供的生物素化探针。
在各种其它实施方案中,试剂盒可包括用于实施所述方法的其它方面的附加组分。例如,除探针池之外,试剂盒可包含以下的一种或多种:(i)用于从母体血浆样品中分离无细胞DNA的一种或多种组分;(ii)用于制备测序文库的一种或多种组分(例如引物、衔接子、接头、限制性酶、连接酶、聚合酶);(iii)用于扩增和/或测序富集文库的一种或多种组分;和/或(iv)用于进行统计分析的软件。适用于实施(i)、(ii)和(iii)中所述步骤的组分为本领域技术人员公知的。
实施例
实施例1
样品中包含的多个cfDNA片段的起始和/或终止(加和/或减1个碱基对)的确定通过与参考序列比对完成。随后,确定样品内包含的多个cfDNA片段中每个确定的起始和/或终止序列坐标的频率。确定每个确定的参考基因组坐标的频率与相应参考频率的比率,并计算获得的所有频率比率的加权和(在此称为“诊断评分”)。
根据本发明的一个实施方案,对于每个碱基i,i=1,...,B,其中B等于所述组中靶标碱基的总数,随机变量Xi定义为满足以下至少一个条件的映射阅读片段的总数:
(A1)在碱基i处有起始位置坐标,或
(A2)在碱基i处有终止位置坐标,或
(A3)在碱基i处有起始减一个碱基位置坐标,或
(A4)在碱基i处有起始加一个碱基位置坐标,或
(A5)在碱基i处有终止减一个碱基位置坐标,或
(A6)在碱基i处有终止加一个碱基位置坐标。
在零假设(即背景模型)下,预期在基因组的不同碱基处观察到满足条件A1-A6中至少一个的不同但静止的阅读数,所述每碱基背景概率分布模型从一组正常样品估算。从上述Xi的定义,我们获得Xi~Bin(Xi;ni;pi),其中ni等于跨越碱基i的总阅读数,并且pi对于所有i进行估计,称为如下:
其中zi,j是对于正常样品j在碱基i处满足条件A1-A6中至少一个的观察到的阅读数,以及ni,j是对于总共N个正常样品中的正常样品j的跨越碱基i的总阅读数。具有非常小的p和大的n的二项式分布可以通过速率参数等于np的泊松分布来近似。因此,每碱基背景模型由以下数学式定义:其中ni等于跨越碱基i的总阅读数。在本发明的另一实施方案中,Weibull分布或Beta分布用于建模,在每个碱基i处,对于所有j随机变量通过zi,j/ni,j定义。
在对每碱基背景模型训练后,进行如下操作。对于每个样品k,在本发明的一个实施方案中,执行以下操作:对于每个Xi,将观察值,即xi,与估计的每碱基背景模型进行比较。如果p值,即P(Xi>xi)=1-P(Xi≤xi),小于0.001,那么Xi的观察值除以跨越碱基i的总阅读数,即Yi=Xi/ni,否则Yi=0。随后,样品特异性评分计算如下:其中n2是Yi>0的碱基总数。然后,使用以下数学式对S0,k进行标准化以获得标准化评分S1,k:
其中m和S是来自正常参考样品的所有S0值的平均值和标准差。(图1、2和3)。
实施例2
在确定了cfDNA片段的起始和/或终止(加和/或减1个碱基对)序列坐标后,参考基因组的参考序列中的所有核酸基序被确定。所述基序由三核苷酸、四核苷酸和/或五核苷酸组成,并且在向内但邻近起始和/或终止坐标的1个或多个碱基对的特定碱基对范围内。确定多个cfDNA片段内每个核酸基序频率与相应参考频率的比率,并计算获得的所有频率比率的加权和(在此称为“诊断评分”)。
根据本发明的一个实施方案,对于每个样品,即k,在hg19参考基因组上比对的每个cfDNA片段的两个序列被确定,所述序列包含从比对的cfDNA片段的两端向内1-5个碱基对范围内的hg19基因组序列(不包括片段跨越的核酸序列),并计算了所述序列内所有三核苷酸(例如ACC、GGT等)、四核苷酸和五核苷酸基序的绝对频率,即Ti,j,对于i=1,...,nj,j=3,4,5,为核苷酸数,并且nj为所有可能的j-核苷酸基序的数量(n3=64,n4=256,n5=1024)。样品特异性评分S2,k计算如下:
其中
/>
在上述公式中,Dk是样品k中共有片段的总数,rij是从无ctDNA样品的训练数据集计算的fij的参考值,mij和sij是从无ctDNA样品的训练数据集计算的的参考平均值和标准差,wij是从训练集优化的权重/>以提供正常样品和异常样品之间的最佳分离。在本发明的各种实施方案中,权重bj可以变化,b3=1/12或1/6或1/3或1/2,b4=1/12或1/6或1/3或1/2以及b5=1-b3-b4。(图1、2和3)。
实施例3
在确定了cfDNA片段的起始和/或终止(加和/或减1个碱基对)序列坐标后,参考基因组的参考序列中的所有核酸基序被确定。所述基序由三核苷酸、四核苷酸和/或五核苷酸组成,并且在向外但邻近起始和/或终止坐标的1个或多个碱基对的特定碱基对范围内。确定多个cfDNA片段内每个核酸基序的频率与相应参考频率的比率,并计算获得的所有频率比率的加权和(在此称为“诊断评分”)。
在本发明的一个实施方案中,对于每个样品,即k,在hg19参考基因组上比对的每个cfDNA片段的两个序列被确定,所述序列包含从比对的cfDNA片段的两端向外1-5个碱基对的范围内hg19基因组序列(不包括所述片段跨越的核酸序列),并计算了所述序列内所有三核苷酸(例如ACC、GGT等)、四核苷酸和五核苷酸基序的绝对频率,即Ti,j,对于i=1,...,nj,j=3,4,5,为核苷酸数,并且nj为所有可能的j-核苷酸基序的数量(n3=64,n4=256,n5=1024)。样品特异性评分S3,k计算如下:
其中
在上述公式中,Dk是样品k中共有片段的总数,rij是从无ctDNA样品的训练数据集计算的fij的参考值,mij和sij是从无ctDNA样品的训练数据集计算的的参考平均值和标准差,wij是从训练集优化的权重/>以提供正常样品和异常样品之间的最佳分离。在本发明的各种实施方案中,权重bj可以变化,b3=1/12或1/6或1/3或1/2,b4=1/12或1/6或1/3或1/2以及b5=1-b3-b4。(图1、2和3)。
实施例4
在本方法的一个实施方案中,为每个样品计算在实施例1、2和3中计算的评分中至少两个的加权和,所述加权和在后续中被称为“综合诊断评分”。样品k的诊断评分,即DSk,定义为以上实施例1、2和3中描述的评分中的至少两个的加权平均,即
其中S1、S2和S3分别在实施例1、2和3中计算,且在本发明的各种实施方案中,W1=0.5或0.4或0.3或0.2或0,在一位小数位舍入,W2=0.5或0.4或0.3或0.2或0,在一位小数位舍入,W3=1-W1-W2。在本方法的另一实施方案中,{S1,S2,S3}的最大值和最小值的加权平均被用来计算样品k的DS评分,也就是DSk=zMAX(S1,k,S2,k,S3,k)+(1-z)MIN(S1,k,S2,k,S3,k),其中0.5<z<1。
Claims (13)
1.包含无细胞肿瘤DNA的样品的分拣方法,该方法包括以下步骤:
(i)通过与参考序列比对,在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止以及起始和/或终止加和/或减1个碱基对的序列坐标,
(ii)确定所述样品中包含的所述多个cfDNA片段中(i)中确定的每个坐标的频率,
(iii)计算(ii)中确定的每个坐标的频率与相应参考频率的比率,(iv)根据(iii)中确定的所有比率计算诊断评分,所述评分是(iii)中确定的所有频率比率的加权和,以及
(v)通过比较所述诊断评分与参考评分来确定所述样品的分类,
其中如果所述诊断评分值比所述参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
2.包含无细胞肿瘤DNA的样品的分拣方法,该方法包括以下步骤:
(i)通过与参考序列比对在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止的序列坐标,
(ii)确定参考序列中向内1-5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近的由三核苷酸、四核苷酸和五核苷酸组成的所有核酸基序,
(iii)确定所述样品中包含的所述多个cfDNA片段中(ii)中确定的每个核酸基序的频率,
(iv)计算(iii)中确定的每个频率与相应参考频率的比率,
(v)从(iv)中确定的所有比率计算诊断评分,所述评分是(iv)中确定的所有频率比率的加权和,以及
(vi)通过比较所述诊断评分与参考评分来确定所述样品的分类,
其中如果所述诊断评分值比所述参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
3.包含无细胞肿瘤DNA的样品的分拣方法,该方法包括以下步骤:
(i)通过与参考序列比对在包含多个无细胞DNA(cfDNA)片段的样品中确定至少100,000个cfDNA片段的起始和/或终止的序列坐标,
(ii)确定参考序列中向外1-5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近的由三核苷酸、四核苷酸和五核苷酸组成的所有核酸基序,
(iii)确定所述样品中包含的所述多个cfDNA片段中(ii)中确定的每个核酸基序的频率,
(iv)计算(iii)中确定的每个频率与相应参考频率的比率,
(v)从(iv)中确定的所有比率计算诊断评分,所述评分是(iv)中确定的所有频率比率的加权和,以及
(vi)通过比较所述诊断评分与参考评分来确定所述样品的分类,
其中如果所述诊断评分值比所述参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
4.包含无细胞肿瘤DNA的样品的分拣方法,该方法包括以下步骤:
(i)通过与参考序列比对确定包含多个无细胞DNA(cfDNA)片段的样品中至少100,000个cfDNA片段的起始和/或终止的序列坐标,
(ii)确定参考序列中以下的由三核苷酸、四核苷酸和五核苷酸组成的所有的核酸基序:
a)向内1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近,和/或
b)向外1到5个碱基对的范围内但与(i)中确定的每个起始和/或终止序列坐标邻近,
(iii)确定以下各项的频率:
a)在所述样品中包含的所述多个cfDNA片段中,(i)中确定的每个序列坐标加和/或减1个碱基对,
b)在所述样品中包含的所述多个cfDNA片段中,在(ii)a)和b)中确定的每个所述核酸基序,
(iv)计算(iii)a)和b)中确定的每个频率与相应的参考频率的比率,(v)分别对于步骤(iv)中确定的每个比率单独计算诊断评分,所述评分为步骤(iv)的所有相应频率比率的相应加权和,
(vi)从(v)中确定的至少两个或更多个所述诊断评分计算综合诊断评分,所述评分是(v)中确定的所述两个或更多个诊断评分的加权和,以及
(vii)通过比较所述综合诊断评分与参考评分来确定所述样品的分类,
其中如果所述综合诊断评分值比所述参考评分的平均值高所述参考评分的至少一个标准差,则所述样品被分类为包含肿瘤cfDNA,其中所述参考评分从一个或多个参考值计算。
5.根据权利要求4所述的方法,其中所述综合诊断评分从权利要求4步骤(v)中计算的所有诊断评分计算。
6.根据权利要求2至5所述的方法,其中向内但邻近每个起始和/或终止序列坐标的所述碱基对范围可为距离每个起始和/或终止坐标2bp至6bp,或3bp至7bp,或4bp至8bp,或5bp至9bp,或6bp至10bp。
7.根据权利要求1至6中任一项所述的方法,其中待分析的样品中包含的cfDNA片段的最低量为10万至50万、50万至100万、100万至200万、200万至500万、或500万至1000万、或1000万至2000万、或2000万至5000万、或5000万至5亿。
8.根据权利要求4至7所述的方法,其中如果所述综合诊断评分在所述参考评分的2-4个标准差之间,则所述样品中肿瘤cfDNA的量可分类为低,如果所述综合分数在所述参考评分的4-6.5个标准差之间,则可分类为中等,和如果所述综合分数高于所述参考评分的6.5个标准差,则可分类为高。
9.根据权利要求1至8中任一项所述的方法,其中所述参考样品可以是来自无癌症患者、或来自非复发患者或来自成功治疗的癌症患者的样品。
10.根据权利要求1至8中任一项所述的方法,其中步骤(i)包括在与参考序列比对之前确定所述样品中所述多个cfDNA片段的至少一部分的核酸序列。
11.根据权利要求1-10所述的方法,其中步骤(i)进一步包括在确定cfDNA片段的核酸序列之前富集cfDNA片段。
12.根据前述权利要求中任一项所述的方法,其中所述样品被分类为包含源自肿瘤的肿瘤cfDNA,所述肿瘤选自血液癌、肝癌、肺癌、胰腺癌、前列腺癌、乳腺癌、胃癌、成胶质细胞瘤、结直肠癌、头颈癌、实体瘤、良性肿瘤、恶性肿瘤、晚期癌症、转移或癌前组织。
13.一种试剂盒,包含:
(i)用于实施根据权利要求1至12中任一项所述的方法的组分,其中组分包括:
a)用于从生物样品分离无细胞DNA的一种或多种组分,
b)用于制备和富集测序文库的一种或多种组分,和/或
c)用于扩增和/或测序富集的文库的一种或多种组分,
(ii)用于进行统计分析的软件。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20215730.1 | 2020-12-18 | ||
EP20215730.1A EP4015650A1 (en) | 2020-12-18 | 2020-12-18 | Methods for classifying a sample into clinically relevant categories |
PCT/EP2021/086243 WO2022129360A1 (en) | 2020-12-18 | 2021-12-16 | Methods for classifying a sample into clinically relevant categories |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116806267A true CN116806267A (zh) | 2023-09-26 |
Family
ID=73855948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180091896.7A Pending CN116806267A (zh) | 2020-12-18 | 2021-12-16 | 将样品分拣为临床相关类别的方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US20240052416A1 (zh) |
EP (2) | EP4015650A1 (zh) |
JP (1) | JP2023554505A (zh) |
KR (1) | KR20230133287A (zh) |
CN (1) | CN116806267A (zh) |
AU (1) | AU2021399915A1 (zh) |
CA (1) | CA3201862A1 (zh) |
IL (1) | IL303826A (zh) |
MX (1) | MX2023007267A (zh) |
WO (1) | WO2022129360A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017292854B2 (en) * | 2016-07-06 | 2023-08-17 | Guardant Health, Inc. | Methods for fragmentome profiling of cell-free nucleic acids |
EP3555311A4 (en) * | 2016-12-13 | 2020-08-12 | Bellwether Bio, Inc. | DETERMINATION OF A PHYSIOLOGICAL STATE IN A PERSON BY ANALYSIS OF CELL-FREE DNA FRAGMENT END POINTS IN A BIOLOGICAL SAMPLE |
-
2020
- 2020-12-18 EP EP20215730.1A patent/EP4015650A1/en not_active Withdrawn
-
2021
- 2021-12-16 JP JP2023537595A patent/JP2023554505A/ja active Pending
- 2021-12-16 US US18/267,617 patent/US20240052416A1/en active Pending
- 2021-12-16 WO PCT/EP2021/086243 patent/WO2022129360A1/en active Application Filing
- 2021-12-16 IL IL303826A patent/IL303826A/en unknown
- 2021-12-16 CA CA3201862A patent/CA3201862A1/en active Pending
- 2021-12-16 EP EP21836192.1A patent/EP4263870A1/en active Pending
- 2021-12-16 AU AU2021399915A patent/AU2021399915A1/en active Pending
- 2021-12-16 KR KR1020237023531A patent/KR20230133287A/ko unknown
- 2021-12-16 CN CN202180091896.7A patent/CN116806267A/zh active Pending
- 2021-12-16 MX MX2023007267A patent/MX2023007267A/es unknown
Also Published As
Publication number | Publication date |
---|---|
EP4263870A1 (en) | 2023-10-25 |
US20240052416A1 (en) | 2024-02-15 |
WO2022129360A1 (en) | 2022-06-23 |
IL303826A (en) | 2023-08-01 |
MX2023007267A (es) | 2023-09-04 |
JP2023554505A (ja) | 2023-12-27 |
EP4015650A1 (en) | 2022-06-22 |
CA3201862A1 (en) | 2022-06-23 |
KR20230133287A (ko) | 2023-09-19 |
AU2021399915A1 (en) | 2023-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109880910B (zh) | 一种肿瘤突变负荷的检测位点组合、检测方法、检测试剂盒及系统 | |
US20190256924A1 (en) | Methods and materials for assessing and treating cancer | |
CN106715723B (zh) | 测定样品中pik3ca突变状态的方法 | |
JP5963679B2 (ja) | 後天的な体細胞性再編成に基づく診断方法 | |
CN114774520A (zh) | 检测肿瘤发展的系统和方法 | |
CN107526944A (zh) | 一种微卫星不稳定性的测序数据分析方法、装置及计算机可读介质 | |
BR112019013391A2 (pt) | Adaptador de ácido nucleico, e, método para detecção de uma mutação em uma molécula de dna circulante tumoral (ctdna) de fita dupla. | |
CN114752672B (zh) | 基于循环游离DNA突变进行滤泡性淋巴瘤预后评估的检测panel、试剂盒及应用 | |
WO2022262831A1 (zh) | 用于评估肿瘤的物质及其方法 | |
EP4243023A1 (en) | Method for determining sensitivity to parp inhibitor or dna damaging agent using non-functional transcriptome | |
KR20240049800A (ko) | 비정상적으로 메틸화된 단편을 갖는 체세포 변이 동시 발생 | |
EP4015650A1 (en) | Methods for classifying a sample into clinically relevant categories | |
CN110564851B (zh) | 一组用于非超突变型直肠癌分子分型的基因及其应用 | |
US20240052424A1 (en) | Methods for classifying a sample into clinically relevant categories | |
US20220127601A1 (en) | Method of determining the origin of nucleic acids in a mixed sample | |
CN111201572A (zh) | 用于提高精确度的癌症患者的综合基因组转录组肿瘤-正常样基因组套分析 | |
WO2023106415A1 (ja) | リンパ腫に罹患したイヌの化学療法後の予後予測方法 | |
Wong et al. | Epigenetic modifications of cfDNA in liquid biopsy for the cancer care continuum | |
KR20230025895A (ko) | 순환 종양 핵산 분자의 다중모드 분석 | |
CN114634982A (zh) | 一种检测多核苷酸变异的方法 | |
Gao et al. | Noninvasive Detection of Gastrointestinal Tumours: A Machine Learning Model Based on Circulating Cell-Free DNA Unique Pattern Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |