CN116848262A - 使用限制性酶和高通量测序检测dna样品中的甲基化改变 - Google Patents
使用限制性酶和高通量测序检测dna样品中的甲基化改变 Download PDFInfo
- Publication number
- CN116848262A CN116848262A CN202180090957.8A CN202180090957A CN116848262A CN 116848262 A CN116848262 A CN 116848262A CN 202180090957 A CN202180090957 A CN 202180090957A CN 116848262 A CN116848262 A CN 116848262A
- Authority
- CN
- China
- Prior art keywords
- dna
- methylation
- restriction
- locus
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 515
- 230000011987 methylation Effects 0.000 title claims abstract description 513
- 108091008146 restriction endonucleases Proteins 0.000 title claims abstract description 215
- 238000012165 high-throughput sequencing Methods 0.000 title claims abstract description 67
- 238000001514 detection method Methods 0.000 title claims description 26
- 238000000034 method Methods 0.000 claims abstract description 253
- 238000012163 sequencing technique Methods 0.000 claims abstract description 207
- 230000029087 digestion Effects 0.000 claims abstract description 148
- 238000004458 analytical method Methods 0.000 claims abstract description 90
- 230000002068 genetic effect Effects 0.000 claims abstract description 77
- 230000035772 mutation Effects 0.000 claims abstract description 70
- 230000001973 epigenetic effect Effects 0.000 claims abstract description 67
- 230000008995 epigenetic change Effects 0.000 claims abstract description 13
- 108020004414 DNA Proteins 0.000 claims description 871
- 206010028980 Neoplasm Diseases 0.000 claims description 230
- 201000011510 cancer Diseases 0.000 claims description 126
- 239000002773 nucleotide Substances 0.000 claims description 89
- 125000003729 nucleotide group Chemical group 0.000 claims description 89
- 239000012634 fragment Substances 0.000 claims description 67
- 230000007067 DNA methylation Effects 0.000 claims description 45
- 108010047956 Nucleosomes Proteins 0.000 claims description 43
- 210000001623 nucleosome Anatomy 0.000 claims description 43
- 230000004807 localization Effects 0.000 claims description 37
- 102000053602 DNA Human genes 0.000 claims description 34
- 238000002360 preparation method Methods 0.000 claims description 33
- 238000003776 cleavage reaction Methods 0.000 claims description 27
- 230000006607 hypermethylation Effects 0.000 claims description 27
- 230000007017 scission Effects 0.000 claims description 27
- 210000004027 cell Anatomy 0.000 claims description 24
- 238000004611 spectroscopical analysis Methods 0.000 claims description 22
- 238000012360 testing method Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 17
- 239000013060 biological fluid Substances 0.000 claims description 13
- 230000001747 exhibiting effect Effects 0.000 claims description 13
- 230000008439 repair process Effects 0.000 claims description 13
- 230000009946 DNA mutation Effects 0.000 claims description 11
- 238000011144 upstream manufacturing Methods 0.000 claims description 11
- 108091029523 CpG island Proteins 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 210000004369 blood Anatomy 0.000 claims description 7
- 239000008280 blood Substances 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 5
- 238000001574 biopsy Methods 0.000 claims description 5
- 238000012252 genetic analysis Methods 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000009534 blood test Methods 0.000 claims description 3
- 238000009535 clinical urine test Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000001839 endoscopy Methods 0.000 claims description 3
- 238000003384 imaging method Methods 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 298
- 210000002381 plasma Anatomy 0.000 description 81
- 201000010099 disease Diseases 0.000 description 68
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 68
- 210000001519 tissue Anatomy 0.000 description 58
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 51
- 102000004190 Enzymes Human genes 0.000 description 46
- 108090000790 Enzymes Proteins 0.000 description 46
- 241000282414 Homo sapiens Species 0.000 description 26
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 26
- 230000001419 dependent effect Effects 0.000 description 26
- 201000005202 lung cancer Diseases 0.000 description 26
- 208000020816 lung neoplasm Diseases 0.000 description 26
- 238000007481 next generation sequencing Methods 0.000 description 26
- 238000003556 assay Methods 0.000 description 25
- 238000010183 spectrum analysis Methods 0.000 description 22
- 238000006243 chemical reaction Methods 0.000 description 17
- 239000003550 marker Substances 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 15
- 108020004682 Single-Stranded DNA Proteins 0.000 description 12
- 238000003860 storage Methods 0.000 description 10
- 210000000349 chromosome Anatomy 0.000 description 9
- 238000002405 diagnostic procedure Methods 0.000 description 9
- 150000007523 nucleic acids Chemical class 0.000 description 8
- 239000012472 biological sample Substances 0.000 description 7
- 238000001369 bisulfite sequencing Methods 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 7
- 102000039446 nucleic acids Human genes 0.000 description 7
- 108020004707 nucleic acids Proteins 0.000 description 7
- 239000011541 reaction mixture Substances 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 108010042407 Endonucleases Proteins 0.000 description 6
- 102000004533 Endonucleases Human genes 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 6
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 5
- 238000011528 liquid biopsy Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 210000002700 urine Anatomy 0.000 description 5
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 description 4
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000000295 complement effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 239000013068 control sample Substances 0.000 description 4
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006862 enzymatic digestion Effects 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 210000004072 lung Anatomy 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 210000001124 body fluid Anatomy 0.000 description 3
- 239000010839 body fluid Substances 0.000 description 3
- 239000000872 buffer Substances 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004393 prognosis Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000000527 sonication Methods 0.000 description 3
- KHWCHTKSEGGWEX-RRKCRQDMSA-N 2'-deoxyadenosine 5'-monophosphate Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(O)=O)O1 KHWCHTKSEGGWEX-RRKCRQDMSA-N 0.000 description 2
- 108700028369 Alleles Proteins 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 206010009944 Colon cancer Diseases 0.000 description 2
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 2
- 208000034826 Genetic Predisposition to Disease Diseases 0.000 description 2
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 2
- 206010033128 Ovarian cancer Diseases 0.000 description 2
- 206010061535 Ovarian neoplasm Diseases 0.000 description 2
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 2
- 238000010220 Pearson correlation analysis Methods 0.000 description 2
- DWAQJAXMDSEUJJ-UHFFFAOYSA-M Sodium bisulfite Chemical compound [Na+].OS([O-])=O DWAQJAXMDSEUJJ-UHFFFAOYSA-M 0.000 description 2
- 208000005718 Stomach Neoplasms Diseases 0.000 description 2
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical class OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 210000000601 blood cell Anatomy 0.000 description 2
- 210000000481 breast Anatomy 0.000 description 2
- 210000004252 chorionic villi Anatomy 0.000 description 2
- 235000019506 cigar Nutrition 0.000 description 2
- 108091092240 circulating cell-free DNA Proteins 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- -1 dpnI Proteins 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 206010017758 gastric cancer Diseases 0.000 description 2
- 150000002500 ions Chemical class 0.000 description 2
- 201000007270 liver cancer Diseases 0.000 description 2
- 208000014018 liver neoplasm Diseases 0.000 description 2
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000869 mutational effect Effects 0.000 description 2
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 201000002528 pancreatic cancer Diseases 0.000 description 2
- 208000008443 pancreatic carcinoma Diseases 0.000 description 2
- 239000013612 plasmid Substances 0.000 description 2
- 238000004321 preservation Methods 0.000 description 2
- 238000011896 sensitive detection Methods 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 235000010267 sodium hydrogen sulphite Nutrition 0.000 description 2
- 239000004289 sodium hydrogen sulphite Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 201000011549 stomach cancer Diseases 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 description 2
- HWPZZUQOWRWFDB-UHFFFAOYSA-N 1-methylcytosine Chemical compound CN1C=CC(N)=NC1=O HWPZZUQOWRWFDB-UHFFFAOYSA-N 0.000 description 1
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 1
- 241001244729 Apalis Species 0.000 description 1
- 101100460704 Aspergillus sp. (strain MF297-2) notI gene Proteins 0.000 description 1
- 206010005003 Bladder cancer Diseases 0.000 description 1
- 206010005949 Bone cancer Diseases 0.000 description 1
- 208000018084 Bone neoplasm Diseases 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 230000030933 DNA methylation on cytosine Effects 0.000 description 1
- 206010061819 Disease recurrence Diseases 0.000 description 1
- 101100332625 Enterobacter agglomerans eagI gene Proteins 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 208000002250 Hematologic Neoplasms Diseases 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 101000602922 Homo sapiens Mitochondrial sodium/calcium exchanger protein Proteins 0.000 description 1
- 208000008839 Kidney Neoplasms Diseases 0.000 description 1
- 102000003960 Ligases Human genes 0.000 description 1
- 108090000364 Ligases Proteins 0.000 description 1
- 108091036060 Linker DNA Proteins 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 108020005196 Mitochondrial DNA Proteins 0.000 description 1
- 102100037227 Mitochondrial sodium/calcium exchanger protein Human genes 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 108700020796 Oncogene Proteins 0.000 description 1
- 102000043276 Oncogene Human genes 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 101100006527 Penicillium crustosum claI gene Proteins 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 206010038389 Renal cancer Diseases 0.000 description 1
- 206010039491 Sarcoma Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 241001628328 Spiophanes tcherniai Species 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 208000002495 Uterine Neoplasms Diseases 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 210000004381 amniotic fluid Anatomy 0.000 description 1
- 230000006907 apoptotic process Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 101150020304 bglI gene Proteins 0.000 description 1
- 238000002306 biochemical method Methods 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000005068 bladder tissue Anatomy 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006037 cell lysis Effects 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000003340 combinatorial analysis Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000011143 downstream manufacturing Methods 0.000 description 1
- 101150009948 drdI gene Proteins 0.000 description 1
- 238000013399 early diagnosis Methods 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 238000009585 enzyme analysis Methods 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 230000004076 epigenetic alteration Effects 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 238000012226 gene silencing method Methods 0.000 description 1
- 230000004077 genetic alteration Effects 0.000 description 1
- 201000010536 head and neck cancer Diseases 0.000 description 1
- 208000014829 head and neck neoplasm Diseases 0.000 description 1
- 230000002489 hematologic effect Effects 0.000 description 1
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 101150054405 hpcH gene Proteins 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 1
- 230000014200 hypermethylation of CpG island Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000415 inactivating effect Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 201000010982 kidney cancer Diseases 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 230000008774 maternal effect Effects 0.000 description 1
- 101150023497 mcrA gene Proteins 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 210000005087 mononuclear cell Anatomy 0.000 description 1
- 230000017074 necrotic cell death Effects 0.000 description 1
- 210000000653 nervous system Anatomy 0.000 description 1
- 230000002611 ovarian Effects 0.000 description 1
- 210000004923 pancreatic tissue Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 239000012071 phase Substances 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- 102000040430 polynucleotide Human genes 0.000 description 1
- 108091033319 polynucleotide Proteins 0.000 description 1
- 239000002157 polynucleotide Substances 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 210000005084 renal tissue Anatomy 0.000 description 1
- 210000000582 semen Anatomy 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 201000005112 urinary bladder cancer Diseases 0.000 description 1
- 206010046766 uterine cancer Diseases 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6853—Nucleic acid amplification reactions using modified primers or templates
- C12Q1/6855—Ligating adaptors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2521/00—Reaction characterised by the enzymatic activity
- C12Q2521/30—Phosphoric diester hydrolysing, i.e. nuclease
- C12Q2521/331—Methylation site specific nuclease
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/191—Modifications characterised by incorporating an adaptor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/118—Prognosis of disease development
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/156—Polymorphic or mutational markers
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Genetics & Genomics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
提供了用于DNA样品的遗传谱分析和表观遗传谱分析以及检测DNA样品中的遗传改变和表观遗传改变的方法和系统,所述方法和系统包括用甲基化敏感的限制性酶消化DNA及随后的高通量测序和序列读段分析。有利地,本发明的方法和系统灵敏且准确,并且能够处理非常低量的DNA并且基于来自单次运行的测序数据接收大量信息,包括甲基化数据、突变数据等。
Description
发明领域
本发明涉及用于对DNA样品特别是从生物流体诸如血浆和尿液获得的无细胞DNA样品的遗传特征和表观遗传特征进行谱分析的方法和系统。本发明的方法和系统包括用甲基化敏感的或甲基化依赖的限制性酶消化DNA、制备测序文库、高通量测序(例如,下一代测序)和序列读段分析。有利地,本发明的方法和系统灵敏且准确,并且能够处理非常低量的DNA并且基于来自单次运行的测序数据接收大量信息,包括甲基化数据、突变数据等。本发明的方法和系统可用于例如新甲基化标志物的发现和临床诊断应用两者。
发明背景
已知遗传改变和表观遗传改变发生在许多类型的癌症中,所述遗传改变和表观遗传改变包括突变、DNA甲基化改变(例如,孤立的CpG的低甲基化和主要发生在CpG岛的高甲基化)、拷贝数变异等。例如,导致基因沉默的肿瘤抑制基因启动子区域中CpG岛的高甲基化已被广泛研究并且在许多不同类型的癌症中得到证实。
肿瘤将DNA片段或“无细胞DNA”释放到体液中,并且因此可以在从体液诸如血浆和尿液获得的“液体活检”中检测到肿瘤来源的DNA分子的遗传改变和表观遗传改变。与传统活检相比,液体活检是非侵入性的,并且可以更好地代表肿瘤亚克隆的全部遗传谱。因此,在液体活检中检测与癌症相关的遗传改变和表观遗传改变为早期检测、预后和治疗监测带来了巨大的希望。然而,为了检测液体活检中肿瘤来源的DNA,需要超灵敏的生化方法,因为生物流体中无细胞DNA的浓度可能是低的,并且此外,因为相对于正常DNA的大背景,肿瘤DNA可能以极低的量存在。
已经开发了数种用于检测液体活检中甲基化DNA分子的技术,所述技术基于亚硫酸氢钠处理DNA以将非甲基化胞嘧啶转化为尿嘧啶,随后对转化的DNA进行定量PCR或测序以检测甲基化改变。转化的碱基在测序数据中(PCR之后)被鉴定为胸腺嘧啶,并且可以使用读段计数确定甲基化胞嘧啶的百分比(%)。亚硫酸氢盐转化测序可以用靶向方法或用全基因组亚硫酸氢盐测序来完成。高通量测序,诸如下一代测序(NGS)的进展,允许全基因组分析和在单核苷酸水平上鉴定和分析甲基化模式的靶向方法两者。
尽管它很受欢迎,但通过亚硫酸氢钠转化DNA是繁琐的测定,其缺点包括模板DNA的降解,向测定引入噪声的非特异性或不完全转化,以及基因组的复杂性从4碱基基因组降低至大约3碱基基因组,这引起PCR的特异性减少、DNA扩增的偏倚增加以及DNA测序中噪声水平增加。此外,由于亚硫酸氢盐处理改变了DNA的序列,突变分析受到阻碍,因为序列的改变遮蔽了其中一条DNA链上的转变事件。
Ball等人(2009)Nat Biotechnol.,27(4):361-368,报道了利用下一代测序技术进行胞嘧啶甲基化谱分析的两种技术:亚硫酸氢盐挂锁探针(BSPP)和甲基敏感的切割计数(MSCC)。
Brunner等人(2009)Genome Res.,19(6):1044-1056,报道了Methyl-seq,一种测定整个基因组多于90,000个区域处的DNA甲基化的方法。Methyl-seq将由甲基敏感的酶的DNA消化与下一代(next-gen)DNA测序技术组合。
Jelinek等人(2012)Epigenetics,7:12,1368-1378,报道了一种名为甲基化的数字限制性酶分析(DREAM)的方法,该方法基于通过用以下的一对识别相同序列的异裂殖(neoschizomeric)限制性酶顺序消化基因组DNA所产生的甲基化特异性特征(methylation-specific signatures)的下一代测序分析:甲基化敏感的酶Sma和甲基化不敏感的酶XmaI。
Marsh和Pasqualone(2014)Front Physiol,5:173,报道了来自南极洲McMurdoSound的海洋多毛类Spiophanes tcherniai中的甲基胞嘧啶组成模式的表征。甲基化模式使用通过甲基化敏感的限制性内切核酸酶的DNA消化及随后的下一代测序来表征。
Marsh等人(2016)Front Genet.,7:191,报道了使用甲基敏感的限制性内切核酸酶(MSRE)从下一代测序(NGS)数据计算机地重构位点特异性CpG甲基化状态的定量方法。
Viswanathan等人(2019)Nucleic Acids Research,47(19):e122,报道了一种能够定量分析同一样品中的非甲基化DNA和甲基化DNA的单管酶促方法,通过限制性酶的DNA分析(DARE)。两种甲基化状态的信息都是通过顺序地被一对甲基化敏感的限制性酶和不敏感的限制性酶消化的DNA片段的差异加衔接子标签(differential adapter tagging)来捕获的。
Pereira等人(2020)PLoS ONE,15(6):e0233800,报道了一种名为甲基敏感的DArT-seq(MS-DArT-seq)的技术,该技术基于基因组的双重消化及随后的特定衔接子连接和下一代测序的组合。使用靶向CCGG位点并且显示相反甲基化敏感度的限制性酶(MspI,甲基化不敏感的,和HpaII,如果内部胞嘧啶是5’-甲基化的,则不裂解)平行构建两个文库。
Tanaka等人(2020)Analytical Biochemistry,609:113977,报道了一种将甲基化敏感的限制性酶(MSRE)和下一代测序(NGS)组合以鉴定绒毛膜绒毛(CV)与母体血细胞(MBC)之间差异甲基化区域的方法。
美国专利10,392,666公开了DNA甲基化模式(甲基化组(methylome))的确定,并且更特别地,公开了包括来自不同基因组(例如,来自胎儿和母亲,或来自肿瘤和正常细胞)的DNA混合物的生物样品(例如,血浆)的分析,以确定少数基因组的甲基化模式(甲基化组)。
WO 2016/061624公开了用于鉴定基因或基因组内适于甲基化分析的位点和区域的方法。该方法允许在全基因组范围内有效鉴定为随后分析提供靶的靶限制性位点和片段。
WO 2018/195211公开了用于构建文库的组合物、试剂盒和方法,所述组合物、试剂盒和方法用于同时检测有限DNA输入(诸如受试者体内的循环多核苷酸片段,包括循环肿瘤DNA)上的基因组变体和DNA甲基化状态。
授予本发明申请人的WO 2011/070441、WO 2017/006317、WO2019/142193和WO2020/188561公开了用于检测DNA样品中甲基化改变的方法。
具有能够由从受试者的单次取样中获得的无细胞DNA产生各种类型的遗传数据和表观遗传数据并且使用来自单次运行的测序数据的方法和系统将是非常有益的。
发明概述
本发明提供了用于对DNA样品特别是从生物流体诸如血浆和尿液中获得的无细胞DNA样品的遗传特征和表观遗传特征进行谱分析的方法和系统。本发明的方法和系统包括用至少一种甲基化敏感的限制性酶,优选地同时应用多于一种甲基化敏感的限制性酶的消化,使用保存样品中DNA分子末端处的序列信息的文库制备方法制备测序文库,高通量测序和序列读段分析。
与迄今描述的方法相比,本发明提供了更简单且准确的测定,与亚硫酸氢盐测序相比,产生了高质量的测序数据,使得能够灵敏的检测癌症相关的改变。可以从单次运行并且基于同一测序数据获得大量信息(包括甲基化数据、突变数据等),因此避免了为获得全面的遗传信息和表观遗传信息对平行测定的需要。重要的是,令人惊讶地发现,即使从非常低量的DNA中也可以获得高质量的测序数据,而不需要在文库制备前进行扩增。如下文示例的,在血浆中肿瘤来源的DNA的量非常低时,基于可以从单个标准血液试管实现的无细胞DNA的量,本文公开的方法能够检测早期癌症的遗传改变和表观遗传改变。
本发明的方法和系统不包括或不需要亚硫酸氢盐转化。本发明的方法和系统不需要改变DNA的序列,并且能够基于同一测序数据共同分析例如甲基化、突变、拷贝数和核小体定位。
如下文示例的,对经历甲基化敏感的酶促消化及随后的高通量测序的无细胞DNA样品获得的测序数据与在亚硫酸氢盐转化和高通量测序后获得的测序数据的比较显示出与亚硫酸氢盐处理的DNA相比,酶处理的DNA的显著更好的测序度量(读段数目、映射率等)、拷贝数完整性和核小体定位完整性。将合并的无细胞DNA样品与单个样品进行比较的分析显示出,在使用低量DNA时,存在信息丢失。然而,尽管酶处理的DNA样品的测序数据的质量仍然保持是高的并且能够实现可靠的分析,亚硫酸氢盐测序显示出读段数目和映射率显著降低,并且实际上丢失了所有拷贝数信息和核小体定位信息。此外,对于亚硫酸氢盐处理的DNA样品,测序噪声是高的,使得突变与测序噪声不可区分。关于甲基化检测,与亚硫酸氢盐处理的DNA样品相比,酶处理的DNA样品中的甲基化分析在血浆中检测到显著更多的甲基化改变。
如下文进一步示例的,虽然与酶处理的样品相比,亚硫酸氢盐处理的DNA样品在测序深度的下端处导致更宽的CG覆盖率,但随着深度增加,在亚硫酸氢盐处理的DNA样品中覆盖的CG数目方面观察到持续且急剧的减少。相比之下,酶处理的样品即使在超过250-300的深度处也显示出大体上恒定的覆盖率。在高深度处,与亚硫酸氢盐相比,甲基化敏感的消化提供了显著更好的CG覆盖率。甲基化敏感的消化在非常高深度处提供了数百万CG的覆盖率,因此能够检测罕见的甲基化信号,例如,在肿瘤的早期时期,血浆中来自肿瘤的可能以非常低的量(1%或甚至更少的总无细胞DNA)存在于血浆中的甲基化DNA分子。数据显示出,在鉴定罕见的信号所需的深度处,亚硫酸氢盐不提供足够的覆盖率,并且在对低量DNA使用亚硫酸氢盐测序时,这样的罕见的信号可能被遗漏。
本发明还公开了一种改进的用于确定感兴趣的基因组基因座的甲基化值的方法。对限制性基因座,即测定中使用的一种或更多种限制性酶的限制性位点进行根据本发明的甲基化分析。如本文公开的甲基化分析是基于分析覆盖长度为至少50bp(优选地长度为至少100bp)的包含感兴趣的限制性基因座的预定义基因组区域的比对以及确定覆盖预定义基因组区域的序列读段的读段计数。这样的比对代表长度为至少50bp(优选地长度为至少100bp)的DNA分子,其中所分析的限制性基因座以及DNA分子内的任何另外的限制性基因座在DNA样品中都被甲基化,并且因此DNA分子在用测定中使用的酶消化后保持完整。分析长度为至少50bp或至少100bp且包含在DNA样品中都被甲基化的多于一个限制性基因座的比对增加了癌症相关的高甲基化信号的特异性,并且能够实现正常样品与癌样品之间的差异的改进的更准确的检测。此外,这样的比对的分析对于评价无细胞DNA中除了甲基化以外的核小体定位是有利的,因为这样的比对的拷贝数反映了核小体边界,其中高拷贝数是核小体中间的典型,并且低拷贝数是核小体之间边界的典型。
本发明还公开了一种用于基于在DNA样品的甲基化敏感的/甲基化依赖的限制性消化后产生的测序数据直接计算DNA的甲基化水平和非甲基化水平两者的方法。有利地,本发明的方法和系统允许在单个测定中并且基于同一测序数据独立地确定DNA的甲基化水平和非甲基化水平,因此提供甲基化改变的改进的鉴定。更特别地,根据一些实施方案,本文公开的方法和系统包括用至少一种甲基化敏感的限制性内切核酸酶消化DNA样品及随后的产生多于一个序列读段的高通量测序。序列读段可以针对参考基因组比对,并且选择并分析限制性基因座,即基因组内的限制性位点。所选择的限制性基因座处的甲基化DNA水平基于每个限制性基因座的读段计数来确定,该读段计数代表样品中限制性基因座被甲基化并因此保持完整的DNA分子的数目。所选择的限制性基因座处的非甲基化DNA水平通过对序列读段末端的独特分析,通过确定在每个限制性基因座内核苷酸处起始或终止的读段数目来确定。这个读段数目代表样品中限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目。这样的对非甲基化DNA分子的直接分析相比于如通过现有方法进行的基于甲基化DNA水平的间接评价是有利的。使用同一测序数据直接确定除了甲基化以外的未甲基化提供了基因组区域的互补甲基化信息,并且因此改进了甲基化谱分析、潜在的DNA甲基化标志物的更准确且有效的评价以及样品之间的甲基化差异的更好的检测。它还提供了甲基化分析的增加的灵敏度,对于具有极高甲基化水平或极低甲基化水平的基因组区域特别地有利。
根据一个方面,本发明提供了一种用于对来自受试者的无细胞DNA(cfDNA)样品的遗传特征和表观遗传特征进行谱分析的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化限制性位点完整且非甲基化限制性位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,同时保存所述DNA分子末端处的序列信息,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA中的DNA分子连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;
(c)通过高通量测序方法对所述测序文库进行测序,以提供测序数据;以及
(d)根据所述测序数据确定所述无细胞DNA样品的至少一个限制性基因座的甲基化值和任选地选自DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征,
其中包含3000个单倍体当量的无细胞DNA的量对于所述方法是足够的,其中所述无细胞DNA样品在文库制备之前不经历扩增,并且其中确定所述无细胞DNA样品的所述甲基化值和所述至少一个另外的遗传特征或表观遗传特征基于同一测序数据进行。
根据另一个方面,本发明提供了一种用于处理无细胞DNA样品以获得用于遗传分析和表观遗传分析的测序数据的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化限制性位点完整且非甲基化限制性位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,同时保存所述DNA分子末端处的序列信息,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA中的DNA分子连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;以及
(c)通过高通量测序方法对所述测序文库进行测序,以获得测序数据,
其中包含3000个单倍体当量的无细胞DNA的量足以实现以下的至少一项:至少85%的独特映射率、与未消化的样品相比至少0.65的Pearson相关性表征的拷贝数完整性和与未消化的样品相比至少0.55的Pearson相关性表征的核小体定位完整性,
并且其中遗传分析和表观遗传分析基于同一测序数据进行。
在一些实施方案中,包含6,000个单倍体当量的无细胞DNA的量对于本文公开的方法是足够的。
在一些实施方案中,无细胞DNA是血浆无细胞DNA,并且无细胞DNA的量是从9ml-10ml血液中获得的量。
在一些实施方案中,无细胞DNA的量在10ng-200ng之间。在另外的实施方案中,无细胞DNA的量在20ng-100ng之间。
在一些实施方案中,至少一种甲基化敏感的限制性内切核酸酶产生非平端,并且所述方法还包括在连接测序衔接子之前使限制性内切核酸酶处理的DNA经历末端修复,以获得具有平端的DNA分子。
在一些实施方案中,高通量测序是全基因组高通量测序。
在一些实施方案中,高通量测序是靶特异性高通量测序。
在一些实施方案中,确定至少一个限制性基因座的甲基化值包括:
(i)选择至少一个限制性基因座并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;以及
(ii)基于在步骤(i)中确定的读段计数和参考读段计数,计算所述至少一个限制性基因座的甲基化值。
在一些实施方案中,步骤(i)包括确定覆盖长度为至少100bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目。
在一些实施方案中,至少一个限制性基因座是多于一个限制性基因座。
在一些实施方案中,至少一种甲基化敏感的限制性内切核酸酶是多于一种甲基化敏感的限制性内切核酸酶,并且用多于一种甲基化敏感的限制性内切核酸酶的消化是同时消化。
在一些实施方案中,多于一种甲基化敏感的限制性内切核酸酶包括HinP1I。在另外的实施方案中,多于一种甲基化敏感的限制性内切核酸酶包括AciI。在另外的实施方案中,使用HinP1I和AciI进行消化。在一些实施方案中,使用处于1:1至5:1(酶单位)(Hinp:AciI)之间的比例的HinP1I和AciI进行消化。
在一些实施方案中,使无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化的步骤还包括确定消化效率,并且如果消化效率高于预定义阈值,则继续制备测序文库。
根据另一个方面,本发明提供了一种用于检测来自受试者的无细胞DNA(cfDNA)样品中的癌症相关遗传改变和表观遗传改变的方法,所述方法包括:对如本文公开的cfDNA样品的甲基化和任选地至少一个另外的遗传特征和表观遗传特征进行谱分析,以获得cfDNA样品的遗传谱和表观遗传谱;并且将cfDNA样品的遗传谱和表观遗传谱与选自癌症谱和非癌症谱的一个或更多个参考遗传谱和参考表观遗传谱进行比较,以检测cfDNA样品中癌症相关的遗传改变和表观遗传改变。
在一些实施方案中,无细胞DNA样品来自疑似具有癌症或处于具有癌症风险的受试者,并且所述方法还包括向受试者施用主动癌症监测和在检测到癌症相关的改变时的随访测试,所述癌症监测和随访测试包括血液测试、尿液测试、细胞学、成像、内窥镜检查和活检中的一种或更多种。
根据另外的方面,本发明提供了一种用于评价受试者中癌症的存在或不存在的方法,所述方法包括:
(a)使所述受试者的无细胞DNA(cfDNA)样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化限制性内位点完整且非甲基化限制性内位点被切割的限制性内切核酸酶处理的DNA;
(b)通过高通量测序方法对所述限制性内切核酸酶处理的DNA进行测序;
(c)选择至少一个多组基因组区域(multiomic genomic region),所述多组基因组区域包含彼此在150bp内的肿瘤高甲基化限制性基因座和肿瘤突变基因座;以及
(d)基于覆盖所述至少一个多组区域的序列读段分析,确定所述受试者具有癌症的可能性。
在一些实施方案中,至少一个多组区域包含彼此在100bp内的肿瘤高甲基化限制性基因座和肿瘤突变基因座。
在一些实施方案中,对覆盖至少一个多组区域的序列读段的分析包括:
-对于每个多组区域确定以下的至少一项:
(i)覆盖所述多组区域的甲基化的突变的序列读段的数目,所述甲基化的突变的序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现突变的基因型;
(ii)覆盖所述多组区域的甲基化野生型序列读段的数目,所述甲基化野生型序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现野生型基因型;
(iii)覆盖所述多组区域的未甲基化的突变的序列读段的数目,所述未甲基化的突变的序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现突变的基因型;以及
(iv)覆盖所述多组区域的非甲基化野生型序列读段的数目,所述非甲基化野生型序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现野生型基因型;
并且
-将(i)-(iv)中确定的读段数目与癌症患者和/或健康个体的参考值进行比较,以评价所述受试者具有癌症的可能性。
根据另外的方面,本发明提供了一种用于表征疑似具有癌症或处于具有癌症风险的受试者的无细胞DNA(cfDNA)样品的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)通过高通量测序方法对所述限制性内切核酸酶处理的DNA进行测序;
(c)选择至少一个多组基因组区域,所述多组基因组区域包含彼此在150bp内的肿瘤高甲基化限制性基因座和肿瘤突变基因座;以及
(d)对于每个多组区域确定以下的至少一项:
(i)覆盖所述多组区域的甲基化的突变的序列读段的数目,所述甲基化的突变的序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现突变的基因型;
(ii)覆盖所述多组区域的甲基化野生型序列读段的数目,所述甲基化野生型序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现野生型基因型;
(iii)覆盖所述多组区域的未甲基化的突变的序列读段的数目,所述未甲基化的突变的序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现突变的基因型;以及
(iv)覆盖所述多组区域的非甲基化野生型序列读段的数目,所述非甲基化野生型序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现野生型基因型,
从而表征所述无细胞DNA样品。
根据另一个方面,本发明提供了一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括:
(a)使所述DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA片段连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;
(c)通过高通量测序方法对所述测序文库进行测序,以获得序列读段;
(d)选择至少一个限制性基因座并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;以及
(e)基于在步骤(d)中确定的读段计数和参考读段计数,计算所述至少一个限制性基因座的甲基化值,
从而对所述无细胞DNA样品的甲基化进行谱分析。
在一些实施方案中,覆盖限制性基因座的预定义区域在限制性基因座内切割位点上游至少25bp处起始,并且在限制性基因座内切割位点下游至少25bp处终止。
在一些实施方案中,步骤(d)包括确定覆盖长度为至少100bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目。在一些实施方案中,覆盖限制性基因座的预定义区域在限制性基因座内切割位点上游至少50bp处起始,并且在限制性基因座内切割位点下游至少50bp处终止。
在一些实施方案中,至少一个限制性基因座位于CG-岛内。
在一些实施方案中,参考读段计数是针对长度为至少50bp的包含未消化的对照DNA样品中的限制性基因座的预定义基因组区域确定的读段计数,任选地针对测序深度差异进行校正。
在一些实施方案中,参考读段计数是使用长度为至少50bp的包含未被限制性内切核酸酶切割的参考基因座的参考区域确定的读段计数。
在一些实施方案中,参考读段计数是使用长度为至少50bp的包含未被所述限制性内切核酸酶切割的参考基因座的多于一个参考区域确定的平均读段计数。
在一些实施方案中,计算甲基化值包括将步骤(d)中确定的读段计数针对DNA样品的中值读段计数进行归一化,以获得归一化的读段计数,并且计算归一化的读段计数与归一化的参考读段计数的比例。
根据另一个方面,本发明提供了一种用于DNA样品的遗传谱分析和表观遗传谱分析的方法,所述方法包括确定如本文公开的至少一个限制性基因座的甲基化值,并且还根据测序数据确定DNA样品的选自DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征。
在一些实施方案中,DNA是从生物流体样品提取的无细胞DNA。在另外的实施方案中,DNA是从肿瘤样品提取的DNA。
根据另外的方面,本发明提供了一种用于鉴定在第一DNA来源与第二DNA来源之间差异甲基化的基因组区域的方法,所述方法包括:
对来自如本文公开的第一来源的至少一个DNA样品的甲基化进行谱分析,以获得第一DNA甲基化谱;
对来自如本文公开的第二来源的至少一个DNA样品的甲基化进行谱分析,以获得第二DNA甲基化谱;并且
比较第一DNA甲基化谱和第二DNA甲基化谱以鉴定在第一DNA来源与第二DNA来源之间差异甲基化的基因组区域。
在一些实施方案中,第一DNA来源是癌症DNA,并且第二DNA来源是非癌症DNA。在一些实施方案中,第一DNA来源是癌症患者的血浆无细胞DNA,并且第二DNA来源是一个或更多个健康个体的血浆无细胞DNA。在另外的实施方案中,第一DNA来源和第二DNA来源是癌症的不同时期。
根据另外的方面,本发明提供了一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括:
(a)提供来自受试者的DNA样品;
(b)使所述DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶的消化,从而获得包含限制性内切核酸酶产生的DNA片段的限制性内切核酸酶处理的DNA;
(c)对所述内切核酸酶处理的DNA进行高通量测序以获得序列读段;
(d)从所述序列读段确定至少一个限制性基因座的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座被甲基化并因此保持完整的DNA分子的数目;
(e)从所述序列读段确定在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目;
(f)基于步骤(d)中确定的所述至少一个限制性基因座的读段计数计算所述至少一个限制性基因座处的甲基化DNA水平,以及基于在步骤(e)中确定的在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数计算所述至少一个限制性基因座处的非甲基化DNA水平,
从而对所述DNA样品的甲基化进行谱分析。
在一些实施方案中,步骤(c)-(e)包括:
使用与多于一个限制性内切核酸酶产生的DNA片段连接的测序衔接子,从限制性内切核酸酶处理的DNA制备测序文库,并且使测序文库经历高通量测序以获得序列读段;
将多于一个序列读段针对参考基因组映射以产生映射的序列读段,并且选择参考基因组内的至少一个限制性基因座;
从映射的序列读段确定至少一个限制性基因座的读段计数,该读段计数代表DNA样品中所述至少一个限制性基因座被甲基化并因此保持完整的DNA分子的数目;以及
从映射的序列读段确定在至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,该读段计数代表DNA样品中所述至少一个限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目。
在一些实施方案中,高通量测序是全基因组高通量测序。在其他实施方案中,高通量测序是靶特异性高通量测序。
在一些实施方案中,参考基因组是完全人类基因组。
在一些实施方案中,DNA是从生物流体样品提取的无细胞DNA。在一些实施方案中,生物流体样品是血浆、血清或尿液。生物样品的每种可能性是本发明的单独的实施方案。
在一些实施方案中,DNA是从肿瘤样品提取的DNA。
在一些实施方案中,计算至少一个限制性基因座处的甲基化DNA水平包括计算在步骤(d)中确定的至少一个限制性基因座的读段计数与至少一个限制性基因座的预期读段计数的比例。
在一些实施方案中,计算至少一个限制性基因座处的非甲基化DNA水平包括计算在步骤(e)中确定的在至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数与在至少一个限制性基因座内核苷酸处起始或终止的序列的预期读段计数之间的差异,并且随后将该差异除以至少一个限制性基因座的预期读段计数。
在一些实施方案中,计算至少一个限制性基因座处甲基化DNA的水平包括:
通过将在步骤(d)中确定的至少一个限制性基因座的读段计数和在步骤(e)中确定的在至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数相加,并且随后从该总和中减去在限制性基因座内核苷酸处起始或终止的序列的预期读段计数,来确定总片段数目;并且
将步骤(d)中确定的至少一个限制性基因座的读段计数除以总片段数目。
在一些实施方案中,计算至少一个限制性基因座处的非甲基化DNA的水平包括:
确定如本文描述的总片段数目;
计算在步骤(e)中确定的在至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数与在限制性基因座内核苷酸处起始或终止的序列的预期读段计数之间的差异;并且
将该差异除以总片段数目。
在一些实施方案中,预期读段计数是使用与至少一个限制性基因座长度相同的参考基因座确定的读段计数,该参考基因座未被限制性内切核酸酶切割。
在一些实施方案中,预期读段计数是使用与至少一个限制性基因座长度相同的多于一个参考基因座确定的平均读段计数,该多于一个参考基因座未被限制性内切核酸酶切割。
在一些实施方案中,预期读段计数是针对未消化的对照DNA样品中的至少一个限制性基因座确定的读段计数,任选地针对测序深度差异进行校正。
在一些实施方案中,至少一个限制性基因座是多于一个限制性基因座。
在一些实施方案中,至少一种甲基化敏感的限制性内切核酸酶是多于一种甲基化敏感的限制性内切核酸酶。
在一些实施方案中,用于对甲基化进行谱分析的方法还包括通过将DNA样品的甲基化谱与一个或更多个参考甲基化谱进行比较,基于DNA样品的甲基化谱鉴定受试者中疾病的存在或不存在。
在一些实施方案中,所述方法还包括基于甲基化谱制备纸质或电子形式的报道,并且将该报道传送至受试者和/或受试者的医疗保健提供者。
根据另一个方面,本发明提供了一种用于检测DNA样品中甲基化改变的方法,所述方法包括:对如本文公开的DNA样品的甲基化进行谱分析,以获得DNA样品的甲基化谱;并且将DNA样品的甲基化谱与一个或更多个参考甲基化谱进行比较,以检测DNA样品中的甲基化改变。
在一些实施方案中,一个或更多个参考甲基化谱包括健康DNA甲基化谱。在另外的实施方案中,一个或更多个参考甲基化谱包括疾病DNA甲基化谱。在一些实施方案中,DNA样品来自疑似具有该疾病的受试者和/或处于发展该疾病风险的受试者,并且检测甲基化改变包括确定DNA样品是健康的DNA样品还是疾病的DNA样品。在一些实施方案中,疾病是癌症。
根据另外的方面,本发明提供了一种用于鉴定在第一DNA来源与第二DNA来源之间差异甲基化的基因组区域的方法,所述方法包括:
根据本文公开的方法对来自第一来源的至少一个DNA样品的甲基化进行谱分析,以获得第一DNA甲基化谱;
根据本文公开的方法对来自第二来源的至少一个DNA样品的甲基化进行谱分析,以获得第二DNA甲基化谱;并且
比较第一DNA甲基化谱和第二DNA甲基化谱以鉴定在第一DNA来源与第二DNA来源之间差异甲基化的基因组区域。
在一些实施方案中,第一DNA来源是疾病DNA,并且第二DNA来源是非疾病DNA。在另外的实施方案中,第一DNA来源和第二DNA来源是疾病的不同时期。在一些实施方案中,疾病是癌症。
根据另外的方面,本发明提供了一种用于对DNA样品的遗传特征和表观遗传特征进行谱分析的方法,所述方法包括:
谱分析如本文公开的DNA样品的甲基化;并且
确定DNA样品的至少一个另外的遗传特征或表观遗传特征,其中至少一个另外的遗传特征或表观遗传特征选自DNA突变、拷贝数变异和核小体定位,
其中使用同一测序数据来对甲基化进行谱分析并且确定至少一个另外的遗传特征或表观遗传特征,
从而对DNA样品的遗传特征和表观遗传特征进行谱分析。
本发明的这些和另外的方面和特征从以下的详细描述、实施例和权利要求将变得明显。
附图简述
图1A.在测序之前经历甲基化敏感的消化、亚硫酸氢盐转化或未处理的合并的血浆无细胞DNA样品的拷贝数数据。数据表示为每个基因组位置的命中数(计数)。
图1B.测试(处理)与对照(未处理)合并的血浆无细胞DNA样品之间命中的相关性。
图2A.在测序之前经历甲基化敏感的消化、亚硫酸氢盐转化或未处理的合并的血浆无细胞DNA样品的核小体定位数据。数据表示为“跨越100的命中”(=在所分析的基因组位置上游>50bp起始且在下游>50bp终止的读段的数目)。
图2B.测试(处理)与对照(未处理)合并的血浆无细胞DNA样品之间“跨越100的命中(hits span 100)”的相关性。
图3.在测序之前经历甲基化敏感的消化或亚硫酸氢盐转化的患者BMD LNG165(3A)和患者BMD LNG166(3B)的血浆无细胞DNA的拷贝数完整性。
图4.在测序之前经历甲基化敏感的消化或亚硫酸氢盐转化的患者BMD LNG165(4A)和患者BMD LNG166(4B)的血浆无细胞DNA的核小体定位。数据表示为“跨越100的命中”(=在所分析的基因组位置上游>50bp起始且在下游>50bp终止的读段的数目)。
图5.在测序之前经历甲基化敏感的消化或亚硫酸氢盐转化的患者BMD LNG165(5A)和患者BMD LNG166(5B)的血浆无细胞DNA的CG深度。
图6.使用DNA的甲基化敏感的消化或亚硫酸氢盐转化对患者BMD LNG165和患者BMD LNG166的血浆无细胞DNA中的高甲基化标志物基因座的检测。
图7.使用DNA的甲基化敏感的消化或亚硫酸氢盐转化对患者BMD LNG165与对照组相比(7A)的血浆无细胞DNA中以及患者BMD LNG166与对照相比(7B)的血浆无细胞DNA中的肿瘤突变的检测。
图8.遗传谱分析和表观遗传谱分析的样品制备。(8A)肺癌样品;(8B)对照样品。
图9.患者BMD LNG165(9A)和患者BMD LNG166(9B)的临床数据及甲基化数据。
图10.患者BMD LNG165(10A)和患者BMD LNG166(10B)的血浆中具有强高甲基化信号的甲基化基因座。
图11.患者BMD LNG165(11A)和患者BMD LNG166(11B)的突变数据。
图12.患者BMD LNG165中的多组区域。
图13.多组比对的类型。
图14.在消化和末端修复之前与之后的甲基化敏感的HinP1I位点的图示。
图15.跨越HinP1I限制性位点的在切割位点处甲基化或非甲基化的DNA分子在消化和末端修复后获得的DNA片段的图示。
图16.根据本发明实施方案的序列读段的分析。(16A)限制性基因座的读段计数;(16B)在限制性基因座内核苷酸处起始的序列读段的读段计数;(16C)在限制性基因座内核苷酸处终止的序列读段的读段计数。
图17.根据本发明实施方案的示例性基因座CG#1(17A)、示例性基因座CG#4(17B)和示例性基因座CG#5(17C)的序列读段的分析。
图18.描述了根据本发明实施方案的用于对肺癌相关的基因组区域处DNA样品的甲基化进行谱分析的示例性方法的流程图。
图19.描述了根据本发明实施方案的用于对肺癌相关的基因组区域处DNA样品的甲基化进行谱分析的另外的示例性方法的流程图。
图20.描述了根据本发明实施方案的用于确定DNA样品对于肺癌是阳性还是阴性的示例性方法的流程图。
图21.描述了根据本发明实施方案的用于确定DNA样品对于肺癌是阳性还是阴性的另外的示例性方法的流程图。
发明详述
本发明涉及用于对DNA样品,特别是无细胞DNA样品的遗传特征和表观遗传特征进行谱分析的方法和系统,所述方法和系统使用甲基化敏感的限制性酶/甲基化依赖的限制性酶消化DNA及随后的高通量测序和序列读段分析。有利地,本发明的方法和系统灵敏且准确,并且能够处理非常低量的DNA并且基于来自单次运行的测序数据接收大量信息,包括甲基化数据、突变数据等。
值得注意的是,即使可以使用非常低量的DNA,测序数据的质量以及相应地可以从中导出的遗传信息和表观遗传信息的质量也非常高,并且能够实现对癌症关联改变的灵敏的且全面的鉴定。
根据一些实施方案,本文公开的方法需要保存在DNA分子的5’和/或3’末端处的序列信息,该末端包括天然末端(例如,用于无细胞DNA的核小体定位评价)和在用如本文公开的限制性酶消化后产生的末端(例如,用于分析在DNA样品处非甲基化的DNA分子)。根据本发明,保存在DNA分子末端处的序列信息或“末端保存”包括避免PCR来富集感兴趣的基因组区域和/或引入测序衔接子。在一些特定实施方案中,根据本发明的末端保存是在DNA分子末端处保存与DNA分子甲基化状态相关的序列信息。
在一些实施方案中,根据本发明的文库制备以末端保存的方式进行,这表明文库制备方法不包括PCR来富集感兴趣的基因组区域和/或引入测序衔接子。根据这些实施方案,文库制备包括经由连接(例如,酶促连接)添加测序衔接子。如果需要富集某些基因组区域,根据这些实施方案的文库制备包括使用捕获剂富集感兴趣的基因组区域。
本发明的方法不需要使用限制性酶同裂酶(isoschizomer),其中一种酶识别限制性位点的甲基化形式和非甲基化形式两者,而另一种酶仅识别未甲基化形式,或者需要组合使用甲基化敏感的限制性酶和甲基化不敏感的限制性酶。
此外,本发明的方法不需要或不采用对消化后特定尺寸范围的DNA片段的尺寸选择或者对测序后具有特定尺寸范围的读段计数的过滤。
在一些实施方案中,本发明提供了改进的用于确定感兴趣的基因组基因座的甲基化值的方法。改进的方法基于确定覆盖长度为至少50bp,优选地长度为至少100bp的包含感兴趣的限制性基因座的预定义基因组区域的序列读段的读段计数。
在一些实施方案中,本发明涉及用于高分辨率DNA甲基化谱分析的系统和方法。在一些实施方案中,本发明提供了甲基化敏感的限制性酶/甲基化依赖的限制性酶和高通量测序在DNA甲基化分析中的用途。在一些特定的实施方案中,本发明提供了甲基化敏感的限制性酶/甲基化依赖的限制性酶和高通量测序用于直接计算甲基化DNA水平和非甲基化DNA水平的用途。
人类基因组中的甲基化以5-甲基胞嘧啶的形式存在,并且局限于为也被称为CpG二核苷酸的序列CG的一部分的胞嘧啶残基(为其他序列的一部分的胞嘧啶残基不是甲基化的)。人类基因组中的一些CG二核苷酸是甲基化的,并且其他的不是甲基化的。另外,甲基化是细胞和组织特异性的,以使得特定的CG二核苷酸可以在特定细胞中是甲基化的并且同时在不同的细胞中是非甲基化的,或者在特定组织中是甲基化的并且同时在不同的组织中是非甲基化的。DNA甲基化是基因转录的重要调节物。
癌症DNA的甲基化模式与正常DNA的甲基化模式不同,其中一些基因座被高甲基化,而另一些被低甲基化。在一些实施方案中,本发明提供了用于灵敏的检测与癌症相关的差异甲基化(例如,高甲基化)基因组基因座的方法和系统。
在一些实施方案中,本文提供了一种用于对来自受试者的无细胞DNA(cfDNA)样品的遗传特征和表观遗传特征进行谱分析的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,同时保存所述DNA分子末端处的序列信息,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA中的DNA分子连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;
(c)通过高通量测序方法对所述测序文库进行测序,以提供测序数据;以及
(d)根据所述测序数据确定所述无细胞DNA样品的至少一个限制性基因座的甲基化值和任选地选自DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征,
其中包含不多于3,000个单倍体当量的无细胞DNA的量对于所述方法是足够的,其中所述无细胞DNA样品在文库制备之前不经历扩增,并且其中确定所述无细胞DNA样品的所述甲基化值和所述至少一个另外的遗传特征或表观遗传特征基于同一测序数据进行。
在一些实施方案中,本文提供了一种用于处理无细胞DNA样品以获得用于遗传分析和表观遗传分析的测序数据的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,同时保存所述DNA分子末端处的序列信息,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA中的DNA分子连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;以及
(c)通过高通量测序方法对所述测序文库进行测序,以获得测序数据,
其中包含不多于3,000个单倍体当量的无细胞DNA的量足以实现以下的至少一项:至少85%的独特映射率、与未消化的样品相比至少0.65的Pearson相关性表征的拷贝数完整性和与未消化的样品相比至少0.55的Pearson相关性表征的核小体定位完整性,
并且其中遗传分析和表观遗传分析基于同一测序数据进行。
如本文使用的,3.3pg的DNA对应于1个单倍体当量。
在一些实施方案中,10ng的DNA对于本文公开的方法是足够的。在另外的实施方案中,20ng的DNA对于本文公开的方法是足够的。在另外的实施方案中,本文公开的方法使用范围为10ng-200ng,例如在20ng-200ng之间,在20ng-100ng之间(包括范围内的每个值)的初始量的DNA进行。每种可能性代表单独的实施方案。
在一些实施方案中,3,000个单倍体当量对于本文公开的方法是足够的。在另外的实施方案中,6,000个单倍体当量对于本文公开的方法是足够的。在另外的实施方案中,本文公开的方法使用初始量的DNA进行,所述初始量的DNA包括3,000-60,000个单倍体当量,例如在6,000-60,000个单倍体当量之间,在6,000-30,000个单倍体当量之间,包括范围内的每个值。每种可能性代表单独的实施方案。
在一些实施方案中,如本文公开的无细胞DNA的量足以实现至少85%、至少86%、至少87%、至少88%、至少89%的独特映射率。每种可能性代表单独的实施方案。
在一些实施方案中,如本文公开的无细胞DNA的量足以实现与未消化的样品相比至少0.6,例如与未消化的样品相比至少0.65、至少0.66、至少0.67、至少0.68、至少0.69的Pearson相关性表征的拷贝数完整性。每种可能性代表单独的实施方案。
在一些实施方案中,如本文公开的无细胞DNA的量足以实现与未消化的样品相比至少0.55,例如与未消化的样品相比至少0.56、至少0.57、至少0.58、至少0.59的Pearson相关性表征的核小体定位完整性。每种可能性代表单独的实施方案。
在一些实施方案中,本文提供了一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括:
(a)使所述DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从限制性内切核酸酶处理的DNA制备测序文库;
(c)通过高通量测序方法对所述测序文库进行测序,以获得序列读段;
(d))选择至少一个限制性基因座并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;以及
(e)基于在步骤(d)中确定的读段计数和参考读段计数,确定所述至少一个限制性基因座的甲基化值,
从而对所述无细胞DNA样品的甲基化进行谱分析。
在一些实施方案中,对DNA样品的甲基化进行谱分析包括确定覆盖长度为至少60bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目,例如至少70bp、至少80bp、至少90bp、至少100bp、在50bp-150bp之间、在50bp-120bp之间、在50bp-100bp之间的包含限制性基因座的预定义基因组区域。每种可能性代表单独的实施方案。
在一些实施方案中,至少一个限制性基因座位于CG-岛内。“CG岛”(或CpG岛)是相对于感兴趣的生物体的全基因组具有高G/C含量和高频率CG二核苷酸的DNA区域。CG岛的长度通常在200bp-3,000bp之间,并且通常以大于50%的GC含量和多于0.6的观察到的:预期的CG比例为特征。较低CG密度的基因组区域被称为“CG海洋”,并且包括大部分基因组。
在一些实施方案中,提供了一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括(i)使来自所述受试者的DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶/甲基化依赖的限制性内切核酸酶的消化(ii)通过高通量测序方法对消化的DNA进行测序;其中所述方法可以在单个测定中并且基于同一测序数据独立地确定DNA的甲基化水平和非甲基化水平。
在一些实施方案中,提供了一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括:
(a)提供来自受试者的DNA样品;
(b)使所述DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶的消化,从而获得包含限制性内切核酸酶产生的DNA片段的限制性内切核酸酶处理的DNA;
(c)对所述内切核酸酶处理的DNA进行高通量测序以获得多于一个序列读段;
(d)从所述序列读段确定至少一个限制性基因座的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座被甲基化并因此保持完整的DNA分子的数目;
(e)从所述序列读段确定在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目;
(f)基于步骤(d)中确定的所述至少一个限制性基因座的读段计数计算所述至少一个限制性基因座处的甲基化DNA水平,以及基于在步骤(e)中确定的在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数计算所述至少一个限制性基因座处的非甲基化DNA水平,从而对所述DNA样品的甲基化进行谱分析。
在另外的实施方案中,提供了一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括:
(A)提供来自受试者的DNA样品;
(B)使所述DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶的消化,从而获得包含多于一个限制性内切核酸酶产生的DNA片段的限制性内切核酸酶处理的DNA;
(C)从所述限制性内切核酸酶处理的DNA制备测序文库,并且使所述测序文库经历高通量测序以获得序列读段;
(D)将多于一个序列读段针对参考基因组映射以产生映射的序列读段,并且选择参考基因组内的至少一个限制性基因座;
(E)从映射的序列读段确定所述至少一个限制性基因座的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座被甲基化并因此保持完整的DNA分子的数目;
(F)从映射的序列读段确定在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目;
(G)基于步骤(E)中确定的所述至少一个限制性基因座的读段计数计算所述至少一个限制性基因座处的甲基化DNA水平,以及基于在步骤(F)中确定的在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数计算所述至少一个限制性基因座处的非甲基化DNA水平,从而对所述DNA样品的甲基化进行谱分析。
在一些实施方案中,在一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法中,该方法包括使DNA样品经历通过至少一种甲基化敏感的限制性内切核酸酶的消化,对消化的样品进行高通量测序,确定至少一个限制性基因座的读段计数,并且基于读段计数计算至少一个限制性基因座处的甲基化DNA水平,该改进包括:
确定在所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,所述读段计数代表所述DNA样品中所述至少一个限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目;
基于从所述至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,计算所述至少一个限制性基因座处的非甲基化DNA的水平;以及
使用所述至少一个限制性基因座处甲基化DNA和非甲基化DNA的水平来对所述DNA样品的甲基化进行谱分析。
如本文使用的,术语“多于一个/种(a plurality of)”指‘至少两个/种’或‘两个/种或更多个/种’。
在一些实施方案中,提供了一种用于鉴定受试者中疾病的存在或不存在的方法,包括:对如本文公开的来自受试者的DNA样品的甲基化进行谱分析;将DNA样品的甲基化谱与一个或更多个参考甲基化谱进行比较;以及基于所述比较确定受试者中疾病的存在或不存在。
在一些实施方案中,提供了一种用于鉴定指示DNA样品来源的DNA甲基化标志物的方法,包括如本文公开的甲基化谱分析。在另外的实施方案中,本文提供了一种用于评价DNA甲基化标志物的质量的方法,包括如本文公开的甲基化谱分析。在一些实施方案中,DNA甲基化标志物是指示疾病(例如癌症类型)存在或不存在的标志物。在另外的实施方案中,DNA甲基化标志物是指示疾病时期(例如癌症时期)的标志物。在另外的实施方案中,DNA甲基化标志物是指示组织类型(例如,肺组织、乳腺组织、结肠组织等)的标志物。
在一些实施方案中,提供了以下的用途:(i)至少一种甲基化敏感的限制性酶和/或至少一种甲基化依赖的限制性酶;和(ii)高通量测序,用于直接确定DNA样品中至少一个限制性基因座的甲基化水平和非甲基化DNA水平的用途。
在一些实施方案中,提供了以下的用途:(i)至少一种甲基化敏感的限制性酶和/或至少一种甲基化依赖的限制性酶;和(ii)高通量测序,用于通过直接确定DNA样品中至少一个限制性基因座的甲基化水平和未甲基化DNA水平来对DNA样品的甲基化进行谱分析的用途,其中所述甲基化DNA水平和非甲基化DNA水平的确定基于同一测序数据。
在一些实施方案中,提供了在用至少一种甲基化敏感的限制性内酶和/或至少一种甲基化依赖的限制性酶消化DNA样品和高通量测序后产生的序列读段,用于通过直接确定DNA样品中至少一个限制性基因座的甲基化DNA水平和未甲基化DNA水平来对DNA样品的甲基化进行谱分析的用途,其中所述甲基化DNA水平和非甲基化DNA水平的确定基于同一测序数据。
通常,可以用一种或更多种甲基化敏感的限制性酶进行的实施方案可以用一种或更多种甲基化依赖的限制性酶替代地进行,并且下游步骤将相应地调整。例如,在一些实施方案中,在高通量测序和产生序列读段后,根据本发明的用于对甲基化进行谱分析的方法包括:选择至少一个限制性基因座,并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;并且基于预定义基因组区域的读段计数和参考读段计数计算甲基化值,所计算的甲基化值反映DNA样品中非甲基化并且因此在用一种或更多种甲基化依赖的限制性酶消化后保持完整的分子的数目。
作为另一个实例,在一些实施方案中,为了计算限制性基因座的甲基化DNA水平,在高通量测序和产生序列读段后,所述方法包括:从序列读段确定从限制性基因座内核苷酸处起始或终止的序列读段的读段计数,该读段计数代表DNA样品中所述限制性基因座被甲基化并且因此被限制性内切核酸酶切割的DNA分子的数目;并且基于所确定的从所述限制性基因座内核苷酸处起始或终止的序列读段的读段计数,计算所述限制性基因座处的甲基化DNA水平。为了计算限制性基因座的非甲基化DNA水平,在一些实施方案中,所述方法包括:从序列读段确定限制性基因座的读段计数,该读段计数代表DNA样品中所述限制性基因座非甲基化并且因此保持完整的DNA分子的数目;并且基于所确定的所述限制性基因座的读段计数计算所述限制性基因座处的非甲基化DNA水平。
DNA样品
根据本发明用于使用的DNA样品可以从受试者的可以获得核酸的任何生物样品中获得,包括生物流体样品,诸如血液、血浆、血清、尿液、脑脊液、精液、粪便、痰和羊水。每种可能性代表本发明的单独的实施方案。生物样品还包括组织样品和器官样品。
根据本发明的“受试者”通常是人类受试者。受试者可能疑似具有某种疾病。在一些实施方案中,受试者被诊断为患有感兴趣的疾病。在其他实施方案中,受试者是没有感兴趣的疾病的健康受试者。例如,基于先前的疾病史、遗传倾向(genetic predisposition)和/或家族史,和/或表现出可疑的疾病临床体征的受试者和/或基于一个或更多个其他先前测定(例如,基于一种或更多种其他生物标志物的测试)疑似具有该疾病的受试者,该受试者也可能处于发展该疾病的风险中。在一些实施方案中,受试者处于疾病复发的风险中。在一些实施方案中,受试者显示出疾病的至少一种症状或特征。在其他实施方案中,受试者是无症状的。
在一些实施方案中,DNA样品是从生物流体样品提取的无细胞DNA。术语“无细胞DNA”(缩写为“cfDNA”)是指在体液中自由循环且不包含在完整细胞中的DNA分子。cfDNA的来源尚不完全了解,但认为与细胞凋亡、坏死以及从细胞主动释放相关。cfDNA由正常细胞和肿瘤细胞两者释放。cfDNA是高度片段化的,片段长度通常范围在120bp-220bp之间,长度大多数在150bp-180bp之间。应当理解,如本文中使用的术语“无细胞DNA”是指受试者体内已经无细胞的DNA。应当理解,对于无细胞DNA样品,“限制性内切核酸酶处理的DNA”包括作为消化结果产生的片段,以及还有天然无细胞DNA片段,例如,不包含测定中使用的一种或更多种酶的识别序列的无细胞DNA片段,以及包含一种或更多种酶的一个或更多个识别序列的都被甲基化并且因此未被酶切割的无细胞DNA片段。
可选地,DNA样品可以是从细胞提取的DNA,例如,从组织样品或器官样品或从血细胞提取的DNA。通常,需要细胞裂解以便提取DNA。DNA可以是从肿瘤样品或健康组织中获得的。如本文使用的“肿瘤样品”包括通过手术切除的全肿瘤或其部分。“肿瘤样品”还包括通过活检从肿瘤提取的样品,以及从疑似是癌性的病变或组织提取的样品。根据本发明用于使用的肿瘤样品包括新鲜肿瘤样品以及冷冻的肿瘤样品/保存的肿瘤样品。
对于从细胞提取的DNA,可以在用根据本发明的至少一种甲基化敏感的限制性内切核酸酶或甲基化依赖的限制性内切核酸酶消化之前、之后或期间进行将DNA片段化为适用于高通量测序的片段的步骤,以简化测序文库的下游处理和制备。可以例如,使用声处理或使用对甲基化不敏感(即,无论甲基化状态如何,都裂解其识别序列)的限制性内切核酸酶进行这样的片段化。也可以使用具有不包括CG二核苷酸的识别序列的限制性内切核酸酶进行这样的片段化。
本发明包括全基因组测序以及靶特异性测序(例如,CpG岛、外显子或感兴趣的特定基因座的测序)。对于靶特异性测序,感兴趣的基因组区域,例如,使用捕获剂诸如附接至珠的序列特异性探针来富集。通常,感兴趣的基因组区域的富集在根据本发明的甲基化敏感的消化/甲基化依赖的消化之后且在测序文库制备之后进行,如下文将更详细描述的。在一些实施方案中,可以在消化和文库制备之前进行富集。
因此,在一些实施方案中,根据本发明经历甲基化敏感的消化或甲基化依赖的消化的DNA样品是未处理的DNA样品,即,如从生物样品提取的DNA样品。在其他实施方案中,DNA样品是经过处理的DNA样品,例如,在根据本发明用至少一种甲基化敏感的限制性内切核酸酶或甲基化依赖的限制性内切核酸酶消化之前,对某些感兴趣的区域进行富集和/或片段化以降低尺寸。
优选地,进行甲基化分析的DNA样品大体上不含单链DNA(ssDNA)。如本文使用的,“大体上不含(free of)ssDNA”或“大体上缺乏(devoid of)ssDNA”指示其中少于7%的DNA是ssDNA,优选地少于5%的DNA是ssDNA,更优选地少于1%的DNA是ssDNA(即,至少99%的DNA是双链的)(按分子数计算)的DNA样品。在一些实施方案中,DNA样品包含少于0.1%的ssDNA。在一些实施方案中,DNA样品包含少于0.01%的ssDNA。在一些实施方案中,DNA样品不包含ssDNA(不含ssDNA)。提取DNA以获得大体上不含ssDNA的DNA样品描述于,例如转让给本发明的申请人的WO 2020/188561中。适用于与本发明方法一起使用的用于提取无细胞DNA的示例性试剂盒是循环核酸试剂盒(QIAGEN,Hilden,Germany)。用于从细胞提取DNA的示例性试剂盒是/>血液迷你试剂盒。
DNA消化
根据本发明,在提取(和任选地富集感兴趣的区域和/或片段化以降低尺寸)后,使DNA经历用至少一种甲基化敏感的限制性内切核酸酶和/或至少一种甲基化依赖的限制性内切核酸酶,优选地同时应用多于一种甲基化敏感的限制性内切核酸酶(或多于一种甲基化依赖的限制性内切核酸酶)的消化。如本文使用的,“同时应用的限制性内切核酸酶”或“同时消化”意指酶以活性形式一起存在于反应混合物中,而不是使一种酶失活,然后应用另一种酶。
例如,可以使用一种、两种、三种、四种或五种甲基化敏感的限制性内切核酸酶和/或甲基化依赖的限制性内切核酸酶。测定中使用的内切核酸酶的每个数目代表本发明的单独的实施方案。
在一些实施方案中,提取的完整DNA用于消化步骤。在一些实施方案中,在经历消化之前未对DNA定量。在其他实施方案中,在消化DNA之前对其定量。在一些实施方案中,DNA被等分为经历消化的第一等分试样和作为未消化的对照保存的第二等分试样。
本文中“限制性内切核酸酶”与“限制性酶”可互换使用,是指在被还称为限制性位点的特定识别序列处或其附近切割DNA的酶。限制性位点通常长4个至8个核苷酸,并且通常是回文的(即,DNA序列在两个方向上是相同的)。
“甲基化敏感的”限制性内切核酸酶是只有在其识别序列未被甲基化时才裂解其识别序列(而被甲基化的位点则保持完整)的限制性内切核酸酶。因此,DNA样品被甲基化敏感的限制性内切核酸酶消化的程度取决于甲基化水平,其中较高的甲基化水平保护免于裂解并且相应地导致较少的消化。用甲基化敏感的限制性内切核酸酶处理的DNA样品以完整的甲基化位点和切割的非甲基化位点为特征。应当理解,不需要100%的消化效率,并且因此一些非甲基化位点可能保持完整。在一些实施方案中,本发明的方法包括确定消化效率,并且如果消化效率高于预定义阈值/水平,则继续制备测序文库。
“甲基化依赖的”限制性内切核酸酶是只有在其识别序列是甲基化的时候才裂解其识别序列(而非甲基化的位点则保持完整)的限制性内切核酸酶。因此,DNA样品被甲基化依赖的限制性内切核酸酶消化的程度取决于甲基化水平,其中较高的甲基化水平导致更广泛的消化。
根据本发明用于使用的一种或更多种甲基化敏感的限制性内切核酸酶可以选自由以下组成的组:AatII、Acc65I、AccI、AciI、ACII、Afel、Agel、Apal、ApaLI、AscI、AsiSI、Aval、AvaII、BaeI、BanI、BbeI、BceAI、BcgI、BfuCI、BglI、BmgBI、BsaAI、BsaBI、BsaHI、BsaI、BseYI、BsiEI、BsiWI、BslI、BsmAI、BsmBI、BsmFI、BspDI、BsrBI、BsrFI、BssHII、BssKI、BstAPI、BstBI、BstUI、BstZl7I、Cac8I、ClaI、DpnI、DrdI、EaeI、EagI、Eagl-HF、EciI、EcoRI、EcoRI-HF、FauI、Fnu4HI、FseI、FspI、HaeII、HgaI、HhaI、HincII、HincII、Hinfl、HinPlI、HpaI、HpaII、Hpyl66ii、Hpyl88iii、Hpy99I、HpyCH4IV、KasI、MluI、MmeI、MspAlI、MwoI、NaeI、NacI、NgoNIV、Nhe-HFI、NheI、NlaIV、NotI、NotI-HF、NruI、Nt.BbvCI、Nt.BsmAI、Nt.CviPII、PaeR7I、PleI、PmeI、PmlI、PshAI、PspOMI、PvuI、RsaI、RsrII、SacII、Sall、SalI-HF、Sau3AI、Sau96I、ScrFI、SfiI、SfoI、SgrAI、SmaI、SnaBI、TfiI、TscI、TseI、TspMI和ZraI。每种可能性代表本发明的单独的实施方案。在一些特定实施方案中,至少一种甲基化敏感的限制性内切核酸酶包括HinP1I。在另外的特定实施方案中,至少一种甲基化敏感的限制性内切核酸酶包括HhaI。在又另外的特定实施方案中,至少一种甲基化敏感的限制性内切核酸酶包括AciI。
一种或更多种甲基化依赖的限制性内切核酸酶可以选自由以下组成的组:McrBC、McrA和MrrA。每种可能性代表本发明的单独的实施方案。
在一些实施方案中,使根据本发明的DNA样品经历用单一甲基化敏感的限制性内切核酸酶消化。在一些特定实施方案中,甲基化敏感的限制性内切核酸酶是HinP1I。在另外的特定实施方案中,甲基化敏感的限制性内切核酸酶是HhaI。在另外的实施方案中,使DNA样品经历用两种甲基化敏感的限制性内切核酸酶消化。
在一些特定实施方案中,使用甲基化敏感的限制性内切核酸酶HinP1I和AciI。
在一些实施方案中,提供了一种用于对DNA样品的甲基化进行谱分析的方法,所述方法包括:使DNA样品经历用甲基化敏感的限制性内切核酸酶HinP1I和AciI消化;并且分析HinP1I的至少一个限制性基因座和/或AciI的至少一个限制性基因座的甲基化,从而对DNA样品的甲基化进行谱分析。在一些实施方案中,所述方法包括使DNA样品经历用甲基化敏感的限制性内切核酸酶HinP1I和AciI消化;并且确定HinP1I的至少一个限制性基因座和/或AciI的至少一个限制性基因座的甲基化DNA水平以及任选地非甲基化DNA水平,从而对DNA样品的甲基化进行谱分析。在一些实施方案中,DNA样品是从生物流体提取的无细胞DNA。
在一些实施方案中,与本发明的方法和系统一起使用处于1:1至5:1(酶单位)(Hinp:AciI)之间的比例的HinP1I和AciI,例如2:1、2.5:1、3:1、3.5:1、4:1和4.5:1(酶单位)(Hinp:AciI)。每种可能性代表本发明的单独的实施方案。在一些实施方案中,与本发明的方法和系统一起使用处于2:1至4.5:1(酶单位)(Hinp:AciI)之间的比例的HinP1I和AciI。
在一些实施方案中,提供了一种用于检测DNA样品中甲基化改变的方法,所述方法包括:使用HinP1I和AciI消化对DNA样品的甲基化进行谱分析;并且将甲基化谱与一个或更多个参考甲基化谱进行比较。在一些实施方案中,DNA样品是从生物流体提取的无细胞DNA。
在一些实施方案中,提供了一种用于对DNA样品甲基化进行谱分析的方法,所述方法包括:使DNA样品经历用甲基化敏感的限制性内切核酸酶HinP1I和AciI消化,从而获得包含限制性内切核酸酶产生的DNA片段的限制性内切核酸酶处理的DNA;对所述内切核酸酶处理的DNA进行高通量测序,以获得多于一个序列读段;从序列读段确定HinP1I的至少一个限制性基因座和/或AciI的至少一个限制性基因座的甲基化DNA水平以及任选地非甲基化DNA水平,从而对DNA样品的甲基化进行谱分析。在一些实施方案中,DNA样品是从生物流体提取的无细胞DNA。
在一些实施方案中,提供了一种反应混合物,包含:从生物流体提取的人类无细胞DNA;以及甲基化敏感的限制性内切核酸酶HinP1I和AciI。反应混合物还包含适用于HinP1I和AciI活性的缓冲液。在一些实施方案中,HinP1I和AciI以1:1至5:1(酶单位)(Hinp:AciI)之间的比例存在于反应混合物中,例如2:1、2.5:1、3:1、3.5:1、4:1和4.5:1(酶单位)(Hinp:AciI)。每种可能性代表本发明的单独的实施方案。在一些实施方案中,反应混合物包含处于2:1至4.5:1(酶单位)(Hinp:AciI)之间的比例的HinP1I和AciI。
在一些实施方案中,提供了一种处理无细胞DNA样品用于遗传分析和表观遗传分析的方法,所述方法包括提供本文公开的反应混合物,孵育该反应混合物以获得其中甲基化限制性位点完整且非甲基化限制性位点被切割的限制性内切核酸酶处理的无细胞DNA,并且使该限制性内切核酸酶处理的无细胞DNA经历高通量测序。
消化效率可以从检查的样品内部评价,也可以从外部评价。内部评价可以通过测量已知普遍未被甲基化的基因组位置的完整切割位点来进行。这样的基因座的实例可以是线粒体DNA上的任何位点。消化效率的外部评价可以通过在消化步骤中包括非甲基化的样品,平行消化两个样品,并且然后验证非甲基化样品确实被消化(通过测量完整切割位点的数目)来进行。这样的非甲基化样品可以是例如PCR扩增子、质粒DNA、商业非甲基化DNA物质或已知在某些基因组位置中未被甲基化的细胞系DNA。可选地,通过将非甲基化样品掺入被探查样品中,并且在与被探查样品相同的步骤中测量非甲基化DNA样品的消化,可以在单个步骤中实现消化效率的外部评价。为此,使用以上提及的所有类型的非甲基化DNA物质是可能的。在一些实施方案中,优选使用小的靶,诸如PCR扩增子或质粒DNA。
在一些实施方案中,DNA消化可以进行至完全消化。在一些示例性实施方案中,甲基化敏感的限制性内切核酸酶是HinP1I和/或AciI,并且在37℃与一种或更多种酶孵育1至2小时后可以实现完全消化。
文库制备和测序
“高通量测序”(也称为“下一代测序”)包括使用并行确定许多(通常数千至数十亿)核酸序列的方法的序列确定。高通量测序通常包括三个基本步骤:文库制备、测序和数据分析。高通量测序技术的实例包括合成测序和连接测序(例如由lllumina Inc.,LifeTechnologies Inc.,Roche采用)、纳米孔测序方法和基于电子检测的方法,诸如IonTorrentTM技术(Life Technologies Inc.)。
用于主要高通量测序平台的文库制备需要将特定衔接子寡核苷酸与待测序的DNA片段连接。如本文公开的,限制性消化优选地在衔接子连接之前进行,以避免酶对衔接子的可能消化。如本文公开的一种或更多种甲基化敏感的限制性内切核酸酶/甲基化依赖的限制性内切核酸酶对DNA的消化通常不产生均质的平端片段。因此,需要末端修复来确保每个DNA分子不含突出端,并且包含5’磷酸和3’羟基基团。典型平端化酶混合物包括聚合酶和多核苷酸激酶,例如,T4 DNA聚合酶和T4多核苷酸激酶(PNK)。T4 DNA聚合酶(在存在dNTP的情况下)可以填充5’突出端并且将3’突出端向下修剪至dsDNA界面,以产生平端。然后T4 PNK可以使5’末端核苷酸磷酸化。对于Illumina文库,文库制备还需要将非模板脱氧腺苷5’-一磷酸(dAMP)掺入到平端化DNA片段的3’末端,这一过程称为加dA-尾。dA-尾防止下游连接步骤期间多联体形成,并且使得DNA片段能够与具有互补dT-突出端的衔接子寡核苷酸连接。
如本文公开的,将衔接子寡核苷酸(也称为“测序衔接子”)使用末端保存方法与DNA片段连接,诸如酶促连接,其中连接酶将测序衔接子与DNA片段共价连接,形成完全文库分子。测序衔接子在测序文库中DNA片段的5’末端和3’末端处连接。测序衔接子通常包括用于通过特定测序仪识别片段的平台特异性序列:例如,使得文库片段能够与Illumina平台的流通池结合的序列。为此,每个测序仪器提供商通常使用一组特定的序列。
测序衔接子也可以包括样品索引。“样品索引”(也称为“样品条形码”),是使得多个样品能够在同一仪器流通池或芯片上一起被测序(即,多重化)的序列。每个样品索引(通常为6个-10个碱基)对给定的样品文库是特异性的,并且用于数据分析期间的去多重化,以将单独的序列读段分配至正确的样品。测序衔接子可以包含单个或双重样品索引,这取决于组合的文库数目和所期望的准确度水平。
测序衔接子可以包括独特分子标识符(UMI)。UMI是一种类型的在测序期间提供分子追踪、纠错和提高准确度的分子条形码。UMI是短序列,通常长度为5个至20个碱基,用于对样品文库中的每个分子独特地加标签。由于起始物质中的每个核酸都用独特分子条形码加标签,生物信息学软件可以以高准确度水平过滤掉重复读段和PCR错误,并且报道独特读段,在最终数据分析之前去除已鉴定的错误。
在一些实施方案中,样品条形码序列和UMI两者都被掺入到核酸靶分子中。
本文公开的方法不需要对消化的DNA分子与未消化的DNA分子进行差异加衔接子标签(即,对甲基化DNA分子和非甲基化DNA分子进行差异加衔接子标签),并且对完整样品使用相同的衔接子群体,使得混合物中的任何衔接子都能够与消化的DNA和未消化的DNA两者连接。
根据本发明的高通量测序可以使用各种高通量测序仪器和平台进行,包括但不限于:NovaseqTM、NextseqTM和MiSeqTM(Illumina)、454Sequencing(Roche)、Ion ChefTM(ThermoFisher)、(ThermoFisher)和Sequel IITM(Pacific Biosciences)。使用适当的平台设计的测序衔接子用于制备测序文库。
在一些实施方案中,对由内切核酸酶处理的DNA制备的文库进行全基因组测序。使用适用于正在使用的测序平台的测序衔接子制备文库。
在其他实施方案中,可以使用例如基于溶液相或固相杂交的方法捕获内切核酸酶处理的DNA中的一个或更多个感兴趣区域及随后的高通量测序。感兴趣区域的富集随后的高通量测序在本文被称为“靶特异性高通量测序”。靶标特异性高通量测序包括例如CpG岛测序和外显子组测序。靶特异性高通量测序还包括特定提供信息的基因组区域(例如,已知在癌症组织与非癌症组织之间差异甲基化的区域)的测序。用于靶特异性测序的基因组区域的捕获通常在文库制备之后进行。在一些实施方案中,本文公开的方法包括富集感兴趣的基因组区域。为了保存DNA样品中DNA片段的末端(例如,允许分析限制性基因座内在核苷酸处起始或终止的序列),根据本发明的富集通常不使用感兴趣的基因组区域的PCR扩增来进行。
在一些实施方案中,根据本发明的用于DNA样品的遗传谱分析和表观遗传谱分析的方法包括:
从生物样品提取DNA;
使提取的DNA经历用至少一种甲基化敏感的限制性内切核酸酶消化,从而获得限制性内切核酸酶处理的DNA;
使用与限制性内切核酸酶处理的DNA中的DNA片段连接的测序衔接子从限制性内切核酸酶处理的DNA制备测序文库;
使用捕获剂从测序文库中富集至少一个(优选地多于一个)感兴趣基因组区域,以获得富集有至少一个(优选地多于一个)感兴趣基因组区域的测序文库;
使富集有至少一个(优选地多于一个)感兴趣基因组区域的测序文库经历高通量测序;以及
根据测序数据确定无细胞DNA样品的至少一个限制性基因座的甲基化值和任选地选自如本文公开的DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征。
在一些实施方案中,根据本发明的用于对甲基化进行谱分析的方法包括:
从生物样品提取DNA;
使提取的DNA经历用至少一种甲基化敏感的限制性内切核酸酶消化,从而获得限制性内切核酸酶处理的DNA;
使用与限制性内切核酸酶产生的DNA中的DNA片段连接的测序衔接子从限制性内切核酸酶处理的DNA制备测序文库;
使用捕获剂从测序文库中富集至少一个(优选地多于一个)感兴趣基因组区域,以获得富集有至少一个(优选地多于一个)感兴趣基因组区域的测序文库;
使富集有至少一个(优选地多于一个)感兴趣基因组区域的测序文库经历高通量测序以获得序列读段;以及
确定如本文公开的感兴趣基因组区域内至少一个限制性基因座的甲基化DNA水平和非甲基化DNA水平。
序列读段分析
在一些实施方案中,“序列读段”(或简称为“读段”),即由测序过程产生的核苷酸序列,针对参考基因组映射。如本文使用的“参考基因组”是指被组装为物种或受试者的代表性实例的先前鉴定的基因组序列,无论是部分的还是完全的。参考基因组通常是单倍体,并且通常不代表物种的单个个体的基因组,而是数个个体的基因组的镶嵌。用于本发明方法的参考基因组通常是人类参考基因组。在一些实施方案中,参考基因组是完全人类基因组,诸如在美国国家生物技术信息中心(the National Center for BiotechnologyInformation,NCBI)的网站处或加州大学圣克鲁斯分校(UCSC)基因组浏览器处可得的人类基因组组装。适合用于人类研究的参考基因组的实例是“hg18”基因组组装。作为替代方案,可以使用更新的GRCh38主要组装(升级至补丁p13)。
读段映射是比对参考基因组上的读段以便鉴定参考基因组内读段位置的过程。对齐的序列读段被指定为“映射”。比对过程旨在使获得跨越比对中各种序列的序列同一性区域的可能性最大化,允许在读段的两个末端上的一些短片段的错配、插入/缺失和/或剪切。映射至某个感兴趣基因组基因座的读段数目在本文被称为该基因组基因座的“读段计数”或“拷贝数”。可以使用计算机软件分析序列读段,针对参考基因组映射序列读段,并且对读段的数目定量。
如本文中使用的术语“基因组基因座”和“基因座”是可互换的,并且是指基因组内特定位置处的DNA序列。“基因座”可以包括单个位置(基因组中定义位置处的单个核苷酸)或在基因组中定义位置处起始和终止的一段(stretch)或多段核苷酸。一个或更多个特定位置可以通过分子位置,即,通过染色体以及染色体上起始碱基对和终止碱基对的编号来标识。给定基因组位置处的DNA序列的变体被称为等位基因。基因座的等位基因位于同源染色体上的相同位点处。基因组基因座包括基因序列以及其他遗传元件(例如,基因间序列)。
本文使用“限制性基因座”来描述是在根据本发明的消化步骤中应用的甲基化敏感的限制性内切核酸酶/甲基化依赖的限制性内切核酸酶的限制性位点的基因组基因座。根据本发明的限制性基因座可以在正常DNA与疾病DNA之间差异甲基化,这意味着对于进行分析的给定疾病,例如某种类型的癌症,限制性基因座在正常DNA与来源于癌细胞的DNA之间的甲基化水平不同。例如,与正常的非癌DNA相比,来自癌细胞的DNA可能在限制性基因座处具有增加的甲基化水平。更特别地,限制性基因座包含在与正常非癌DNA相比的癌DNA中被更多甲基化的CG二核苷酸。根据本发明,差异甲基化CG二核苷酸位于在消化步骤中应用的至少一种限制性酶的识别位点内。
在一些实施方案中,根据本发明的限制性基因座包含在患有某种类型癌症的受试者的无细胞DNA(例如血浆DNA)中比在健康受试者的无细胞DNA中被更多甲基化的CG二核苷酸。在一些实施方案中,与健康受试者的血浆样品相比,癌症患者的血浆样品包含更大比例的在限制性基因座处被甲基化的DNA分子。
在另外的实施方案中,根据本发明的限制性基因座包含在来自癌组织(例如,肿瘤样品)的DNA中比在来自非癌组织的DNA中被更多甲基化的CG二核苷酸,这意味着与非癌组织相比,在癌组织中,更大比例的DNA分子在该位置处被甲基化。
甲基化敏感的限制性酶只有在其识别序列未被甲基化时才裂解其识别序列。甲基化依赖的限制性酶只有在其识别序列被甲基化时才裂解其识别序列。因此,样品之间甲基化水平的差异导致消化程度的差异,并且作为结果在随后的测序和定量步骤中导致不同数量的序列读段。这样的差异使得能够区分来自不同样品的DNA,例如,来自患有癌症的受试者的DNA样品与来自健康受试者的DNA样品。
术语限制性基因座的“甲基化DNA水平”、“甲基化水平”或“甲基化值”是代表在该限制性基因座处被甲基化(即,在限制性基因座内的CG二核苷酸处被甲基化)的DNA分子的数目占样品中包含该限制性基因座的DNA分子总数目的数值。在一些实施方案中,限制性基因座的甲基化DNA水平在本文根据用至少一种甲基化敏感的限制性内切核酸酶消化后限制性基因座的读段计数来计算。在另外的实施方案中,限制性基因座的甲基化DNA水平在本文根据包含限制性基因座的至少50bp的预定义基因组区域的读段计数来计算。由于甲基化敏感的限制性内切核酸酶只有在其识别序列未被甲基化时才裂解其识别序列,限制性基因座的读段计数代表DNA样品中限制性基因座被甲基化并且因此保持完整的DNA分子的数目。
在一些实施方案中,限制性基因座的甲基化水平通过将限制性基因座的读段计数或包含限制性基因座的至少50bp的预定义基因组区域的读段计数除以限制性基因座或包含限制性基因座的至少50bp的预定义基因组区域的预期读段计数来计算。限制性基因座/预定义基因组区域的预期读段计数可以例如使用以下来确定:(i)未被限制性内切核酸酶切割的、与限制性基因座/基因组区域长度相同的参考基因座/基因组区域的读段计数;(ii)未被限制性内切核酸酶切割的与限制性基因座/基因组区域长度相同的多于一个参考基因座/基因组区域的平均读段计数;或(iii)未消化的对照DNA样品中限制性基因座/预定义基因组区域的读段计数,任选地针对测序深度差异进行校正。以下的实施例部分提供了示例性计算。
在另外的实施方案中,甲基化水平通过确定总片段数目来计算,总片段数目根据限制性基因座的读段计数和从在限制性基因座内核苷酸处起始或终止的序列读段的读段计数来确定。以下的实施例部分提供了示例性计算。
在一些实施方案中,甲基化水平表示为甲基化的百分比(%),代表样品中在限制性基因座处被甲基化的DNA分子在包含该限制性基因座的DNA分子总数目中的百分比。
术语限制性基因座的“非甲基化DNA水平”或“非甲基化水平”是代表在该限制性基因座处未被甲基化(即,在限制性基因座内的CG二核苷酸处未被甲基化)的DNA分子的数目占样品中包含该限制性基因座的DNA分子总数目的数值。如本文公开的,限制性基因座的非甲基化DNA水平根据在用至少一种甲基化敏感的限制性内切核酸酶消化和任何随后的末端修复后的限制性基因座内核苷酸处起始或终止的读段数目来计算。限制性基因座内序列读段起始或终止的确切核苷酸取决于消化步骤中使用的限制性内切核酸酶的类型及其识别序列的长度。例如,对于产生具有5’突出端的非平端的限制性内切核酸酶,消化和末端修复产生在识别序列的第二个核苷酸处起始的片段和在识别序列的倒数第二个核苷酸处终止的片段。例如,对于产生具有5’突出端的非平端的4碱基切割酶(cutter),消化和末端修复产生在识别序列的第二个核苷酸处起始的片段和在识别序列的第三个核苷酸处终止的片段(图15)。因此,对于产生具有5’突出端的非平端的限制性内切核酸酶,对其限制性基因座的“起始”分析在限制性基因座的第二个核苷酸(识别序列的第二个核苷酸)处起始的序列读段上进行,并且“终止”分析在限制性基因座的倒数第二个核苷酸(识别序列的倒数第二个核苷酸)处终止的序列读段上进行。
由于甲基化敏感的限制性内切核酸酶只有在其识别序列未被甲基化时才裂解其识别序列,在限制性基因座内核苷酸处起始或终止的读段数目代表DNA样品中限制性基因座未被甲基化并且因此被限制性内切核酸酶切割的DNA分子的数目。
如本文公开的,被限制性内切核酸酶切割的每个DNA分子产生两个片段,一个在限制性基因座内核苷酸处起始,并且另一个在限制性基因座内核苷酸处终止。因此,对于给定的DNA分子,获得两种不同的序列读段可以是可能的。为了正确分析样品中存在的非甲基化DNA分子的数目,非甲基化水平可以基于从限制性基因座处起始的序列读段的数目、在限制性基因座处终止的序列读段的数目或这两个值之间的平均值,但不基于这些值的总和来计算。如本文公开的,基于从限制性基因座内核苷酸处起始或终止的序列读段的读段计数来计算限制性基因座处的非甲基化DNA水平包括使用这两个值之间的平均值来计算非甲基化DNA水平。
还注意到,一些文库制备方法可能导致随后未被测序的小片段的缺失。这样的缺失可能导致非甲基化水平的低估和甲基化水平的高估。此外,在限制性基因座处起始的序列读段的数目可以不同于在限制性基因座处终止的序列读段的数目。本发明有利地解决了这样的文库制备偏倚。为了降低这种偏倚并且实现更准确的结果,优选的是确定在限制性基因座处起始的读段的数目和在限制性基因座处终止的读段的数目二者,并且随后选择提供更大读段数目的取向用于进一步的分析和计算,或者计算这两个值之间的平均值并使用平均值用于进一步的分析和计算。
因此,在一些实施方案中,本发明的方法包括:确定在限制性基因座内核苷酸处起始的序列读段的数目;确定在限制性基因座内核苷酸处终止的序列读段的数目;并且使用提供更大序列读段数目的取向计算限制性基因座处非甲基化DNA水平。在另外的实施方案中,本发明的方法包括:确定在限制性基因座内核苷酸处起始的序列读段的数目;确定在限制性基因座内核苷酸处终止的序列读段的数目;计算这两个值之间的平均值;并且使用平均值来计算限制性基因座处非甲基化DNA水平。
在限制性基因座内核苷酸处起始或终止的序列读段的数目可以通过减去在限制性基因座内核苷酸处起始或终止的序列读段的预期数目来归一化。在限制性基因座内核苷酸处起始或终止的序列读段的预期数目可以例如使用以下来确定:(i)在与限制性基因座尺寸相同的未被限制性内切核酸酶切割的参考基因座处起始或终止的序列读段的数目;(ii)在与限制性基因座尺寸相同的未被酶切割的多于一个参考基因座处起始或终止的序列读段的平均数目;或(iii)在未消化的对照DNA样品中在限制性基因座处起始或终止的读段的数目,任选地针对测序深度差异进行校正。以下的实施例部分提供了示例性计算。归一化值可以用于通过获得在限制性基因座内核苷酸处起始或终止的序列读段的归一化数目与限制性基因座的预期读段计数之间的比例来计算非甲基化DNA水平。
在一些实施方案中,非甲基化DNA水平通过计算在限制性基因座内核苷酸处起始或终止的读段的数目与在限制性基因座内核苷酸处起始或终止的预期读段数目之间的差异,并且随后将该差异除以限制性基因座的预期读段计数来获得。
在另外的实施方案中,非甲基化DNA水平通过确定总片段数目来计算,总片段数目根据限制性基因座的读段计数和从在限制性基因座内核苷酸处起始或终止的序列读段的读段计数来确定。以下的实施例部分提供了示例性计算。
在一些实施方案中,非甲基化DNA水平表示为DNA非甲基化的百分比(%),代表样品中在限制性基因座处未被甲基化的DNA分子占包含该限制性基因座的DNA分子总数目的百分比。
也可以计算基因组中跨越多于一个限制性基因座的区域(即,包含多于一个限制性位点的基因组区域)的甲基化水平(或非甲基化DNA水平)。跨越多于一个限制性基因座的基因组区域可以是基因、基因间区域、启动子区域、染色体的一部分(例如,染色体臂)、全染色体等。每种可能性代表本发明的单独的实施方案。
检测甲基化改变
如本文使用的,“检测甲基化改变”是指检测与一个或更多个参考DNA样品相比,测试的DNA样品是否包含甲基化改变,检测DNA样品是否以与参考甲基化谱相比在选择的基因组位点处的不同甲基化谱为特征,和/或确定DNA样品的甲基化谱是正常还是包含指示疾病存在的甲基化改变。每种可能性代表本发明的单独的实施方案。检测甲基化改变还包括在样品之间比较如本文公开获得的甲基化数据,以便鉴定样品之间差异甲基化的基因组区域,该差异甲基化的基因组区域可以用作DNA甲基化标志物。例如,可以分析如本文公开的获得的甲基化数据,以鉴定不同类型组织之间、癌症DNA与非癌症DNA之间、不同类型癌症之间或某种类型癌症的不同时期之间差异甲基化的基因组区域。在一些实施方案中,本文公开的方法提供了全基因组甲基化分析。在其他实施方案中,本文公开的方法提供了靶特异性甲基化分析。计算机软件可以用于测序数据和甲基化数据的分析。
本发明的方法可以用于鉴定和分析可以用作泛癌诊断标志物的DNA甲基化标志物(即指示一组癌症类型的DNA甲基化标志物)的区域。例如,在一些实施方案中,根据本发明的泛癌标志物指示选自肺癌、结肠直肠癌、肝癌、乳腺癌、胰腺癌、子宫癌、卵巢癌、头颈癌、胃癌、食管癌、血液学癌症(例如淋巴瘤)和肉瘤的多于一种癌症类型。所述方法还可以用于鉴定不同类型癌症之间的差异甲基化,例如,确定不同类型癌症特征的甲基化谱,该甲基化谱可以区分不同类型的癌症。本文公开的方法适用于任何类型的癌症,包括但不限于:肺癌、膀胱癌、乳腺癌、结肠直肠癌、前列腺癌、胃癌、皮肤癌(例如黑素瘤)、影响神经系统的癌症、骨癌、卵巢癌、肝癌(例如肝细胞癌)、血液学恶性肿瘤、胰腺癌、肾癌、宫颈癌。每种类型的癌症是本发明的单独的实施方案。本发明的方法也可以用于鉴定组织特异性甲基化标志物。例如,鉴定对以下特异性的甲基化标志物:肺组织、膀胱组织、乳腺组织、结肠直肠组织、前列腺组织、胃组织、卵巢组织、胰腺组织、肾组织、宫颈组织。每种类型的组织是本发明的单独的实施方案。例如,这样的标志物可以用于鉴定循环无细胞DNA的组织来源。
本发明的方法还可以用于鉴定受试者的疾病(例如癌症)。如本文使用的“鉴定疾病”包括疾病的筛查、检测疾病的存在或不存在、检测疾病的复发、检测对疾病的易感性、检测对治疗的响应、确定治疗的功效、确定疾病的时期(严重程度)、确定受试者中疾病的预后和早期诊断中的任何一项或更多项。每种可能性代表本发明的单独的实施方案。
如本文使用的“评价癌症”或“评价癌症的存在”或“评价癌症的存在或不存在”是指确定受试者具有癌症的可能性。这些术语包括确定受试者是否应经历确认性癌症测试以确认(或排除)癌症的存在,诸如确认性血液测试、尿液测试、细胞学、成像、内窥镜检查和/或活检。这些术语还包括有助于诊断受试者的癌症。这些术语还包括定量无细胞DNA样品中的癌症相关改变,该改变指示癌症的存在。根据本发明的评价癌症的存在包括癌症的筛查、评价癌症的复发、评价对癌症的易感性或风险、评价和/或监测对治疗的响应、评价治疗的功效、评价癌症的严重程度(时期)和评价受试者中癌症的预后中的一项或更多项。每种可能性代表本发明的单独的实施方案。应当理解,根据本发明,本文公开的测定中的阴性结果仍然被认为是对癌症存在的评价。
本发明的方法可以还包括确定肿瘤分数(tumor fraction)或肿瘤DNA的分数浓度(fractional concentration)的步骤。肿瘤分数是cfDNA样品中肿瘤分子的比例。
如本文公开的确定“甲基化谱”(或“DNA甲基化谱”或“DNA样品的甲基化谱”)是指确定一个或更多个限制性基因座处,优选地多于一个限制性基因座处的甲基化值。在一些实施方案中,确定甲基化谱包括确定一个或更多个限制性基因座处,优选地多于一个限制性基因座处的甲基化水平和未甲基化DNA水平。
如本文公开的“参考甲基化谱”是指在来自已知来源的DNA中确定的甲基化谱。“参考DNA样品”是来自已知来源的DNA样品。在一些实施方案中,参考甲基化谱是在多于一个参考DNA样品中确定的谱。此外,本发明的方法可以用于分析(例如,测量)在不同时间点从单个受试者采集的DNA样品之间的甲基化改变,例如,在疾病的不同时期采集,或者在疾病治疗之前和之后采集。在第一时间点采集的DNA样品的甲基化谱可以用作在第二(稍后)时间点采集的DNA样品的甲基化谱的参考。
特定限制性基因座或跨越多于一个限制性基因座的特定基因组区域的“参考甲基化水平”是对来自已知来源的DNA中的特定限制性基因座/基因组区域测量的甲基化水平。特定限制性基因座或跨越多于一个限制性基因座的特定基因组区域的“参考甲基化值”是代表来自已知来源的DNA中特定限制性基因座/基因组区域的甲基化水平的数值。
特定限制性基因座或跨越多于一个限制性基因座的特定基因组区域的“参考非甲基化DNA水平”是对来自已知来源的DNA中的特定限制性基因座/基因组区域测量的非甲基化DNA水平。
参考甲基化/未甲基化水平/值可以是在来自已知来源的一大组DNA样品中对于特定限制性基因座或特定基因组区域确定的甲基化/未甲基化水平/值的分布。在一些实施方案中,参考甲基化/未甲基化水平/值可以是参考标度(reference scale)。
特定限制性基因座/基因组区域的参考标度可以包括在来自相同参考来源的多于一个DNA样品中对于该限制性基因座测量的甲基化/未甲基化水平/值。例如,参考癌症患者的参考标度或参考健康个体的参考标度。可选地,给定限制性基因座的参考标度可以包括来自健康个体和患病个体两者的甲基化/未甲基化水平/值,即组合来自两个来源的参考甲基化值的单个标度。通常,在使用单个标度时,对值进行分布以使得来自健康个体的值在标度的一端,例如低于截止值(cutoff),而来自患者的值在标度的另一端,例如高于截止值。在一些实施方案中,对于来自未知来源的测试DNA样品计算的甲基化/未甲基化水平/值可以与健康和/或疾病参考值的参考标度进行比较,并且可以基于其在标度内的相对位置对计算的甲基化/未甲基化水平/值分配评分。
术语“疾病参考甲基化”(例如:“癌症参考甲基化”)、“疾病参考未甲基化”或“疾病DNA中的参考甲基化(或未甲基化)”(例如:“癌症DNA中的参考甲基化”)可互换地指对于患有进行分析的疾病的受试者(例如患有某种类型癌症的受试者)的DNA样品中的特定限制性基因座或特定基因组区域测量的甲基化值和/或未甲基化值。疾病参考甲基化和/或未甲基化代表疾病DNA(即来自患有疾病的受试者样品的DNA)中的甲基化/未甲基化值。如以上详述的,参考甲基化/未甲基化可以是单个值或多于一个值(例如,分布)。
术语“疾病DNA甲基化谱”(例如,“癌症DNA甲基化谱”)是指多于一个限制性基因座处的甲基化值和/或未甲基化值,该甲基化值和/或未甲基化值从进行分析的患有疾病的受试者(例如,正在分析的患有某种类型癌症的受试者)的样品(例如血浆样品)中确定。
术语“健康参考甲基化”、“正常参考甲基化”或“健康DNA/正常DNA中的参考甲基化”可互换地指在来自正常个体的DNA样品中对于特定限制性基因座/基因组区域测量的甲基化值。类似地,“健康参考未甲基化”、“正常参考未甲基化”或“健康DNA/正常DNA中的参考未甲基化”可互换地指在来自正常个体的DNA样品中对于特定限制性基因座/基因组区域测量的未甲基化值。“正常”或“健康”是相对于进行分析的特定疾病定义的。“健康”或“正常”个体在本文被定义为没有可检测的疾病症状和/或病理发现的个体,如通过常规诊断方法确定的。如以上详述的,健康参考值可以是单个值或多于一个值(例如,分布)。
术语“健康DNA甲基化谱”或“正常DNA甲基化谱”是指从正常个体的DNA样品确定的多于一个限制性基因座处的甲基化值和/或未甲基化值,如上文定义的。
在一些实施方案中,本文公开的诊断方法包括预先确定来自疾病DNA的参考甲基化和/或参考未甲基化。在一些实施方案中,本发明的诊断方法包括预先确定如本文公开的来自正常DNA的参考甲基化和/或参考未甲基化。
组织特异性甲基化谱也可以使用本文公开的方法表征,以便建立组织的正常非癌DNA甲基化谱。可选地或另外地,可以表征组织特异性甲基化谱以便鉴定循环无细胞DNA的组织来源。
在一些实施方案中,根据本发明检测甲基化改变包括基于来自受试者的DNA样品的甲基化谱来鉴定受试者中某种疾病的存在或不存在。
在一些实施方案中,提供了一种用于鉴定DNA样品的细胞来源或组织来源的方法(例如,鉴定DNA来源于什么类型的组织,和/或鉴定DNA是来源于正常细胞/组织还是患病的细胞/组织)。
本领域技术人员将理解,可以使用各种统计学手段,以多种方式将对于测试样品计算的DNA甲基化值和/或DNA未甲基化值与一个或更多个对应的参考值进行比较。
在一些实施方案中,将对于特定限制性基因座/基因组区域计算的测试甲基化值/未甲基化值与参考值进行比较包括将测试值针对单个参考值进行比较。单个参考值可以对应于从健康受试者或患有所进行分析的疾病的受试者的大群体中获得的参考甲基化值/未甲基化值的平均值。在其他实施方案中,将测试值与参考值进行比较包括将测试值针对多于一个参考值的分布或标度进行比较。可以采用已知的统计学手段以便确定对于测试样品计算的值是对应于疾病参考值还是对应于正常参考值。
在一些实施方案中,根据本发明的疾病诊断基于分析测试DNA样品的甲基化值和/或未甲基化值是否是疾病值,即,指示所讨论的疾病。在一些实施方案中,所述方法包括将计算值与其对应的健康参考值进行比较,以获得反映计算值是疾病值的可能性的评分。在一些实施方案中,本文公开的方法包括将计算值与其对应的疾病参考值进行比较,以获得反映计算值是疾病值的可能性的评分。在一些实施方案中,评分越高,计算值是疾病值的可能性越高。在一些实施方案中,评分是基于计算值在疾病参考值分布内的相对位置。
在一些实施方案中,本文公开的方法包括将对于多于一个限制性基因座计算的多于一个值与其对应的健康参考值和/或疾病参考值进行比较。在一些实施方案中,使用统计学手段和计算机化算法分析值的模式,以确定它是代表所讨论的疾病的模式还是正常的、健康的模式。示例性算法包括但不限于机器学习和模式识别算法。
在一些示例性实施方案中,可以将对于测试样品计算的值针对从一大组癌症样品、非癌症样品或两者产生的参考值的标度进行比较。标度可以呈现出阈值(在后文也被称为‘截止值’或‘预定义的阈值’),高于阈值的为对应于癌症的参考值并且低于阈值的为对应于健康个体的参考值,或颠倒过来。在一些实施方案中,在标度底部和/或低于截止值的较低的值可以来自正常个体(健康,即未罹患所讨论的癌症)的样品,而在标度上部和/或高于预先确定的截止值的较高的值可以来自癌症患者。对于基于多于一个限制性基因座的分析的诊断,可以基于每个基因座在标度中的相对位置对于每个基因座计算的值给出一个评分,并且(每个基因座的)单个评分被组合以给出单个评分。在一些实施方案中,可以对个体评分求和来给出单个评分。在其他实施方案中,可以对个体评分求平均值来给出单个评分。在一些实施方案中,可以使用单个评分来确定受试者是否患有所讨论的癌症,其中高于预定义的阈值的评分指示癌症。
在另外的示例性实施方案中,对于基于多于一个限制性基因座的分析的诊断,对于每个计算的值,可以基于与对应的癌症参考值和/或正常参考值的比较来确定其代表癌症DNA的概率。可以对于每个基因座分配评分,并且随后组合对于每个基因座计算的单个评分(例如,求和或求平均值)以给出组合评分。组合评分可以用于确定受试者对于癌症是阳性还是阴性,其中高于预定义阈值的组合评分指示癌症。因此,在一些实施方案中,确定阈值或截止值,高于(或低于)该阈值或截止值将受试者鉴定为对于所讨论的疾病(例如所讨论的癌症类型)是阳性的。阈值评分将健康受试者群体与非健康受试者群体区分开来。
在一些实施方案中,根据本发明的诊断方法包括提供阈值评分。
统计学显著性通常通过比较两个或更多个群体,并且确定置信区间(CI)和/或p值来确定。在一些实施方案中,统计学上显著的值是指置信区间(CI)为约90%、95%、97.5%、98%、99%、99.5%、99.9%及99.99%,同时优选的p值为小于约0.1、0.05、0.025、0.02、0.01、0.005、0.001或小于0.0001。每种可能性代表本发明的单独的实施方案。根据一些实施方案,阈值评分的p值为至多0.05。
在一些实施方案中,本文公开的诊断方法的诊断灵敏度是至少75%。在一些实施方案中,诊断灵敏度是至少80%。在一些实施方案中,诊断灵敏度是至少85%。在一些实施方案中,所述方法的诊断灵敏度是至少90%。
在一些实施方案中,如本文使用的诊断测定的“诊断灵敏度”指测试为阳性的患病个体的百分比(“真阳性”的百分比)。相应地,未被测定检测出的患病个体为“假阴性”。未患病并且在测定中测试为阴性的受试者被称为“真阴性”。诊断测定的“特异性”为一(1)减去假阳性率,其中“假阳性”率被定义为无疾病的被测试为阳性的那些受试者的比例。尽管特定的诊断方法可能不提供状况的确定性诊断(definitive diagnosis),但是如果该方法提供了有助于诊断的阳性指示,它就合格了。
在一些实施方案中,如本文公开的诊断方法的诊断特异性可以是至少约65%。在一些实施方案中,方法的诊断特异性可以是至少约70%。在一些实施方案中,方法的诊断特异性可以是至少约75%。在一些实施方案中,方法的诊断特异性可以是至少约80%。
在一些实施方案中,根据本发明的诊断方法包括基于甲基化谱准备报告(纸质或电子形式)。该报告可以传送至受试者和/或受试者的卫生保健提供者。
在一些实施方案中,根据本发明的诊断方法包括让受试者进行随诊测试和筛查。
另外的遗传特征和表观遗传表征
除了DNA甲基化值/DNA未甲基化值之外,从本文公开的同一测序数据中获得关于无细胞DNA的DNA突变、拷贝数改变和核小体定位的信息是可能的。通常,无细胞DNA以范围在120bp-220bp之间的片段循环。这种模式与包裹在单个核小体周围的DNA长度,加上与组蛋白结合的~20bp(接头DNA)的短段一致。由于核小体在不同组织之间以及在恶性细胞中的定位不同,片段化模式已被证明有助于确定对cfDNA池有贡献的主要细胞类型来源。
有利地,如本文公开的DNA甲基化谱的确定和至少一个另外的遗传特征或表观遗传特征的确定可以基于同一测序数据进行。
在一些实施方案中,如本文公开的基于测序的测定将甲基化改变的检测与突变检测和另外的表观遗传特征的分析都组合在一个单个测定中。测定有利地允许在单个测定中对小量DNA进行组合分析。
甲基化和另外的遗传特征和表观遗传特征的组合分析可用于增强癌症(或任何其他状况/组织来源)的检测。
在一些示例性实施方案中,用于检测受试者中癌症的存在或不存在的方法包括:
(A)如本文公开的对DNA样品的甲基化进行谱分析,以检测在一个或更多个癌症相关的基因组区域处高甲基化的存在或不存在;以及
(B)以下的一项或更多项:
确定一个或更多个癌症相关的突变(例如,癌基因/肿瘤抑制因子中的癌症相关的突变)的存在或不存在;
确定癌症相关的拷贝数变异的存在或不存在;以及
确定与癌症相关的核小体定位的存在或不存在,
其中(A)和(B)使用同一测序数据进行,并且
其中确定到在一个或更多个癌症相关的基因组区域处的高甲基化的存在,并且一个或更多个癌症相关的突变、癌症相关的拷贝数变异和癌症相关的核小体定位中的至少一个指示受试者中癌症的存在。
未甲基化癌症相关的改变可以以依赖性方式或非依赖性方式与甲基化信息组合,这取决于癌症相关的改变是否存在于同一DNA片段上,其中存在于同一片段上的改变提供了癌症存在的更强指示。
在一些实施方案中,提供了一种用于对DNA样品的遗传特征和表观遗传特征进行谱分析的方法,所述方法包括:如本文公开的对DNA样品的甲基化进行谱分析;以及确定DNA样品的至少一个另外的遗传特征或表观遗传特征,其中至少一个另外的遗传特征或表观遗传特征选自DNA突变、拷贝数变异和核小体定位,其中使用同一测序数据进行甲基化谱分析和确定至少一个另外的遗传特征或表观遗传特征,从而对DNA样品的遗传特征和表观遗传特征进行谱分析。
在一些实施方案中,提供了一种用于检测受试者中疾病的存在或不存在的方法,所述方法包括:如本文公开的对DNA样品的甲基化进行谱分析;以及确定DNA样品的至少一个另外的遗传特征或表观遗传特征,其中至少一个另外的遗传特征或表观遗传特征选自DNA突变、拷贝数变异和核小体定位,其中使用同一测序数据进行甲基化谱分析和确定至少一个另外的遗传特征或表观遗传特征,以获得DNA样品的遗传特征和表观遗传特征;并且将DNA样品的遗传特征和表观遗传特征与一个或更多个参考遗传特征和参考表观遗传特征进行比较,并且基于所述比较确定疾病的存在或不存在。在一些实施方案中,疾病是癌症。
系统和试剂盒
在一些实施方案中,本文提供了用于检测DNA样品中的甲基化改变的系统。在一些实施方案中,本文提供了用于检测DNA样品中的遗传改变和表观遗传改变的系统和方法。在另外的实施方案中,本文提供了用于检测DNA样品中甲基化改变的试剂盒。在另外的实施方案中,本文提供了用于检测DNA样品中的遗传改变和表观遗传改变的试剂盒。
根据本发明的系统包括用于进行测定和/或处理结果的一个或更多个计算机处理器,例如用于进行计算。在一些实施方案中,本文提供了计算机实现的方法。
在一些实施方案中,系统和试剂盒用于根据本文公开的方法对DNA样品的甲基化进行谱分析。在一些实施方案中,系统和试剂盒用于根据本文公开的方法对DNA样品的遗传特征和表观遗传特征进行谱分析。在另外的实施方案中,根据本文公开的方法,系统和试剂盒用于检测DNA样品中的甲基化改变。在另外的实施方案中,系统和试剂盒用于根据本文公开的方法检测DNA样品中的遗传改变和表观遗传改变。
在一些实施方案中,根据本发明的系统包括:
DNA样品;
用于消化DNA样品的至少一种甲基化敏感的限制性内切核酸酶和/或至少一种甲基化依赖的限制性内切核酸酶;
用于制备包含多于一个限制性内切核酸酶产生的DNA片段的测序文库的组分;
用于对测序文库进行测序并且产生序列读段的高通量测序仪;以及
存储在非暂时性计算机可读介质上的计算机软件,该计算机软件指导计算机处理器根据本文公开的方法基于多于一个序列读段来对DNA样品的遗传特征和表观遗传特征进行谱分析。在一些实施方案中,计算机软件指导计算机处理器根据本文公开的方法基于多于一个序列读段来对DNA样品的甲基化进行谱分析。
在一些实施方案中,存储在非暂时性计算机可读介质上的计算机软件指导计算机处理器根据本文公开的方法基于多于一个序列读段来确定DNA样品中的遗传改变和表观遗传改变。在一些实施方案中,存储在非暂时性计算机可读介质上的计算机软件指导计算机处理器根据本文公开的方法基于多于一个序列读段来确定DNA样品中的甲基化改变。
如本文使用的,用于制备测序文库的“组分”包括生物化学组分(例如酶、核苷酸)、化学组分(例如缓冲液)和技术组分(例如设备,诸如管、小瓶、移液管等)。
在一些实施方案中,根据本发明的试剂盒或系统除了一种或更多种限制性酶之外还包括DNA消化所需的组分,诸如一种或更多种缓冲液。
在一些实施方案中,本文提供了一种用于对无细胞DNA样品的遗传特征和表观遗传特征进行谱分析的系统,所述系统包括无细胞DNA样品和存储在非暂时性计算机可读介质上的计算机软件,所述非暂时性计算机可读介质包括指令,所述指令在执行时配置或指导计算机处理器进行以下步骤:
(i)接收在用至少一种甲基化敏感的限制性内切核酸酶消化无细胞DNA样品后获得的DNA分子文库的测序数据,并且制备包括将测序衔接子与限制性内切核酸酶处理的DNA中的DNA分子连接的测序文库,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;以及
(ii)根据测序数据确定无细胞DNA样品的至少一个限制性基因座的甲基化值和任选地选自DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征,
其中包含3000个单倍体当量的无细胞DNA的量对于所述方法是足够的,其中无细胞DNA样品在文库制备之前不经历扩增,并且其中确定无细胞DNA样品的甲基化值和至少一个另外的遗传特征或表观遗传特征基于同一测序数据进行。
在一些实施方案中,本文提供了一种用于对DNA样品甲基化进行谱分析的系统,所述系统包括存储在非暂时性计算机可读介质上的计算机软件,所述非暂时性计算机可读介质包括指令,所述指令在执行时配置或指导计算机处理器进行以下步骤:
(i)接收在用至少一种甲基化敏感的限制性内切核酸酶消化DNA样品后获得的DNA分子文库的序列读段;
(ii)选择至少一个限制性基因座并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;以及
(iii)基于在步骤(ii)中确定的读段计数和参考读段计数,计算所述至少一个限制性基因座的甲基化值。
在一些实施方案中,本文提供了一种用于对DNA样品甲基化进行谱分析的系统,所述系统包括存储在非暂时性计算机可读介质上的计算机软件,所述非暂时性计算机可读介质包括指令,所述指令在执行时配置或指导计算机处理器进行以下步骤:
(i)接收在用至少一种甲基化敏感的限制性内切核酸酶消化DNA样品后获得的DNA片段文库的序列读段;
(ii)将多于一个序列读段针对参考基因组映射以产生映射的序列读段,并且选择参考基因组内的至少一个限制性基因座;
(iii)从映射的序列读段确定至少一个限制性基因座的读段计数,所述读段计数代表DNA样品中所述至少一个限制性基因座被甲基化并因此保持完整的DNA分子的数目;
(iv)从映射的序列读段确定在至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数,该读段计数代表DNA样品中所述至少一个限制性基因座非甲基化并因此被限制性内切核酸酶切割的DNA分子的数目;以及
(v)基于步骤(iii)中确定的至少一个限制性基因座的读段计数计算至少一个限制性基因座处的甲基化DNA水平,以及基于在步骤(iv)中确定的在至少一个限制性基因座内核苷酸处起始或终止的序列读段的读段计数计算至少一个限制性基因座处的非甲基化DNA水平。
在一些实施方案中,计算机软件进一步指导计算机处理器将测试DNA样品的遗传谱和表观遗传谱与一个或更多个参考遗传谱和参考表观遗传谱进行比较,并且基于该比较,输出DNA样品是正常DNA样品还是疾病DNA样品。
在一些实施方案中,计算机软件进一步指导计算机处理器将测试DNA样品的甲基化谱与一个或更多个参考甲基化谱进行比较,并且基于该比较,输出DNA样品是正常DNA样品还是疾病DNA样品。
在一些实施方案中,根据本发明的计算机软件接收高通量测序运行的原始数据作为输入。在一些实施方案中,计算机软件指导计算机处理器分析测序数据,以确定如本文公开的遗传谱和表观遗传谱。在一些实施方案中,计算机软件指导计算机处理器分析测序数据,以确定如本文公开的DNA甲基化值和/或DNA未甲基化值。
计算机软件包括存储在非暂时性计算机可读介质上的处理器可执行指令。计算机软件还可以包括存储的数据。计算机可读介质是有形的计算机可读介质,诸如光盘(CD)、磁存储器、光学存储器、随机存取存储器(RAM)、只读存储器(ROM)或任何其他有形介质。
应理解,本文描述的计算机相关的方法、步骤、过程使用存储在非易失性或非暂时性计算机可读指令上的软件来实现,所述指令在被执行时配置或指导计算机处理器或计算机执行所述指令。
本申请中描述的系统、服务器、计算装置和计算机中的每一个可以在一个或更多个计算机系统上实现,并被配置为通过网络通信。它们也可以全部在一个单独的计算机系统上实现。在一种实施方案中,计算机系统包括用于将信息通信的总线或其他通信机制、以及与总线耦合用于处理信息的硬件处理器。
计算机系统还包括主存储器,诸如随机存取存储器(RAM)或其他动态存储装置,其耦合到总线用于存储信息和待由处理器执行的指令。主存储器也可以用于存储由处理器执行指令期间的临时变量或其他中间信息。当这样的指令存储在处理器可访问的非暂时性存储介质中时,将计算机系统呈现为专用机器,该专用机器被定制为执行指令中指定的操作。
计算机系统还包括耦合到总线用于存储静态信息和处理器指令的只读存储器(ROM)或其他静态存储装置。诸如磁盘或光盘的存储装置被提供并耦合到总线用于存储信息和指令。
计算机系统可以通过总线耦合到显示器,用于向计算机用户展示信息。
包括字母数字键和其他键的输入装置耦合到总线,用于将信息和命令选择通信至处理器。另一种类型的用户输入装置是光标控制,诸如鼠标、轨迹球或光标方向键,用于将方向信息和命令选择通信至处理器,并用于控制显示器上的光标移动。
根据一种实施方案,本文的技术由计算机系统响应于处理器执行包含在主存储器中的一个或更多个指令的一个或更多个序列来执行。这样的指令可以从另一个存储介质(诸如存储装置)读入主存储器。包含在主存储器中的指令序列的执行使处理器执行本文描述的处理步骤。在可选的实施方案中,可以使用硬连线电路来代替软件指令或者与软件指令组合。
本文使用的术语存储介质指的是存储数据和/或指令的任何非暂时性介质,所述数据和/或指令使得机器以特定方式运行。存储介质的常见形式包括,例如,软磁盘、软盘、硬盘、固态驱动器、磁带或任何其他磁性数据存储介质、CD-ROM、任何其他光学数据存储介质、任何具有孔图案的物理介质、RAM、PROM和EPROM、FLASH-EPROM、NVRAM、任何其他存储芯片或盒。
存储介质不同于传输介质,但可以与传输介质结合使用。传输介质参与存储介质之间的信息传输。例如,传输介质包括同轴电缆、铜线和光纤,包括构成总线的导线。
以下实施例被呈现以更充分地说明本发明的某些实施方案。然而,它们绝不应以任何方式被解释为限制本发明的广泛范围。本领域技术人员可以容易地设想本文公开的原理的许多变化形式和修改,而不背离本发明的范围。
实施例
实施例1-甲基化敏感的DNA消化及随后的下一代测序(NGS)对比亚硫酸氢盐处理+
NGS
在以下的实施例中,将经历甲基化敏感的酶促消化及随后的NGS的无细胞DNA样品获得的测序数据与亚硫酸氢盐转化和NGS后获得的测序数据进行比较。首先,检查合并的血浆DNA样品的测序数据。接下来,检查单个血浆DNA样品的测序数据,每个样品含有~10ng-200ng DNA(相当于~3,000个-60,000个单倍体当量的DNA)。
A.健康个体的混合血浆样品
使用循环核酸试剂盒(QIAGEN,Hilden,Germany)从56-60名健康对照受试者的血浆样品提取DNA,并且合并。保存500ng的等分试样作为未处理的对照DNA,使1700ng的等分试样经历使用EZ DNA甲基化-GoldTM试剂盒(Zymo research)的亚硫酸氢盐转化,并且使剩余的DNA(770ng)经历用甲基化敏感的限制性酶HinP1I和AciI的消化。通过将样品与10个单位的HinP1I和5个单位的AciI在37℃孵育2h随后是在65℃失活20min来进行甲基化敏感的消化。
接下来,通过对酶处理和未处理的对照样品使用NEBNext Ultra DNA文库制备试剂盒以及对亚硫酸氢盐处理的样品使用ACCEL-METHYL-SEQ DNA文库试剂盒(swift),从每个样品(酶处理的、亚硫酸氢盐处理的和未处理的对照样品)制备测序文库。通过使用酶促连接添加Illumina平台测序衔接子,在保存DNA分子末端处信息的同时制备测序文库。使用具有S4流通池的Illumina NovaSeq 6000测序平台使文库经历全基因组下一代测序。将每个样品的序列读段针对完全人类基因组(hg18基因组构建)映射。
测序度量
表1以及图1A-图1B、图2A-图2B总结了对于合并的血浆DNA样品获得的测序度量、拷贝数完整性数据和核小体定位完整性数据。对于拷贝数完整性分析,将经历甲基化敏感的消化的等分试样中位于距离限制性基因座>100bp的每个基因组位置处的命中数与从未处理的等分试样中获得的对应命中数进行比较。同样的分析也对亚硫酸氢盐处理的等分试样进行(与未处理的等分试样相比)。计算每个实验装置(经历甲基化敏感的消化的DNA(methylation-sensitive digested DNA)和亚硫酸氢盐处理的)中所有数据点的Pearson相关性。Pearson相关性产生介于-1与1之间的数字,其中接近1的数字代表更好的相关性。
对于核小体定位完整性分析,遵循与拷贝数分析相同类型的程序,除了使用“跨越100的命中”(=在所分析的基因组位置上游>50bp起始和在下游>50bp终止的读段数目)而不是命中。
表1-合并的血浆DNA样品的测序度量
如从数据中可以观察到,甲基化敏感的消化产生的映射率和独特映射率与未处理对照样品获得的映射率和独特映射率大体上相同,达到超过92%的独特映射率。相比之下,亚硫酸氢盐处理的样品显示出显著的信息丢失,独特映射率只有约80%。
通过拷贝数和核小体定位完整性数据进一步证明了亚硫酸氢盐处理样品中信息的丢失:如在图1A以及图2A中可以观察到,对于经历甲基化敏感的消化的样品和未处理的样品,观察到拷贝数和核小体定位的类似模式。亚硫酸氢盐处理的样品中没有维持这些模式。Pearson相关分析显示,在经历甲基化敏感的消化的样品与未处理的对照样品之间的拷贝数相关性为0.9,并且核小体定位相关性为0.88。相比之下,在亚硫酸氢盐处理的样品与未处理的对照样品之间获得0.67(拷贝数)和0.58(核小体定位)的相关性(图1B、图2B)。
B.肺癌患者的血浆样品
以上的A部分提供了使用包含相对高量DNA的合并的血浆样品的结果。使用单个血浆样品(这些样品包含量低得多的DNA用于分析)检查在甲基化敏感的消化与亚硫酸氢盐转化之间的差异是令人感兴趣的。
为此,从未经治疗的(treatment-)非小细胞肺癌(NSCLC)患者的血浆样品提取DNA。如以上A部分描述提取DNA,并且使其经历亚硫酸氢盐转化或用甲基化敏感的限制性酶HinP1I和AciI的消化。从血浆样品提取的DNA量范围为每个样品~10ng-200ng DNA(对应于~3,000个-60,000个单倍体当量的DNA)。如以上描述的,酶促消化或亚硫酸氢盐转化后,使样品经历文库制备和测序。
下文提供了标识为BMD LNG165(26ng无细胞DNA)和BMD LNG166(94ng无细胞DNA)的两个患者的示例性结果。
测序度量
表2-表3以及图3A-图3B、图4A-图4B总结了对于每个血浆DNA样品获得的测序度量、拷贝数完整性数据和核小体定位完整性数据。
表2-测序度量患者BMDLNG165
表3-测序度量患者BMD LNG166
结果显示,对于低量的DNA,与使用甲基化敏感的消化获得的读段数目相比,在使用亚硫酸氢盐处理时获得的读段数目显著降低,并且重要的是,对于亚硫酸氢盐处理的DNA获得的独特映射读段数目少于对于经历甲基化敏感的消化的DNA获得的数量的一半。此外,经历甲基化敏感的消化的DNA显示出大约90%的独特映射率,而亚硫酸氢盐处理的DNA的独特映射率只有77%-78%。
由拷贝数完整性数据和核小体定位完整性数据进一步证明了亚硫酸氢盐处理的样品中信息的显著丢失:Pearson相关性分析显示出,在经历甲基化敏感的消化的DNA与未处理的对照样品之间,拷贝数的相关性为0.735和0.693,并且核小体定位的相关性为0.647和0.595。相比之下,在亚硫酸氢盐处理的DNA与未处理的对照样品之间获得0.196和0.161(拷贝数)以及0.19和0.176(核小体定位)的相关性(图3A-图3B、图4A-图4B)。在使用低量的DNA用于测定时,亚硫酸氢盐测序实际上丢失了所有拷贝数信息和核小体定位信息。
CG覆盖率
图5A-图5B示出了亚硫酸氢盐处理的DNA和经历甲基化敏感的消化的DNA中CG深度的分布。更特别地,图示出了基因组中通过每种方法在每个深度处覆盖的CG位点的数目。图5A示出了对于来自患者BMD LNG165的样品获得的数据。图5B示出了对于来自患者BMDLNG166的样品获得的数据。
使用甲基化敏感的酶促消化进行的全基因组甲基化分析受限于位于测定中使用的一种或更多种酶的一个或更多个识别位点内的CG,而亚硫酸氢盐测序原则上覆盖基因组中的所有CG位点。只研究基因组中CG位点的一部分的能力被认为是基于限制性酶的甲基化分析的主要限制之一。然而,本文呈现的数据显示,虽然与甲基化敏感的消化相比,亚硫酸氢盐在深度的较低末端处提供了更广泛的CG覆盖率,但随着深度增加,在亚硫酸氢盐处理的DNA中覆盖的CG数目方面被观察到持续且急剧的减少。相比之下,甲基化敏感的消化显示出大体上恒定的覆盖率,即使在超过250-300的深度。在高深度处,与亚硫酸氢盐相比,甲基化敏感的消化提供了显著更好的CG覆盖率。
例如,在来自患者BMD LNG165的DNA样品中(图5A),在高于165的深度处,甲基化敏感的消化比亚硫酸氢盐覆盖更多的基因组CG。在300的深度处,甲基化敏感的消化的样品覆盖4.16M CG,相比之下,亚硫酸氢盐处理的样品中只覆盖44K CG位点。在来自患者BMDLNG166的DNA样品中(图5B),在高于255的深度处,甲基化敏感的消化比亚硫酸氢盐覆盖更多的基因组CG。在400的深度处,经历甲基化敏感的消化的样品覆盖4.24M CG,相比之下,亚硫酸氢盐处理的样品中只覆盖65K CG位点。
因此,甲基化敏感的消化在非常高深度处提供了数百万CG的覆盖率,能够检测罕见的甲基化信号,例如,在肿瘤的早期时期,血浆中来自肿瘤的可能以非常低的量(1%或甚至更少)存在于血浆中的甲基化DNA分子。数据显示出,在鉴定罕见的信号所需的深度处,亚硫酸氢盐不提供足够的覆盖率,并且在对低量DNA使用亚硫酸氢盐测序时,这样的罕见的信号可能被遗漏。
甲基化改变的检测
汇编了一组低背景高甲基化标志物基因座,该组低背景高甲基化标志物基因座显示相比于正常组织中在肿瘤组织中高甲基化,并且通过健康个体血浆中的低背景甲基化表征。甲基化水平如下文实施例2中描述确定。这组标志物基因座是基于来自两名肺癌患者(BMD LNG165和患者BMD LNG166)的样品和健康个体的合并的血浆样品汇编的,并且包括使用两种检测方法(即甲基化敏感的消化+NGS和亚硫酸氢盐转化+NGS)观察到的低背景高甲基化基因座(low background hypermethylated loci)。此外,还汇编了一组等甲基化标志物基因座,即在肿瘤与正常组织之间没有显示不同甲基化水平的基因座。
接下来,使用甲基化敏感的消化+NGS或亚硫酸氢盐转化+NGS分析来自每个患者的血浆DNA,以便确定患者的血浆中低背景高甲基化标志物基因座的甲基化水平。设置阈值甲基化水平,高于该阈值甲基化水平的标志物基因座被认为是“被检测到的”。基于一组等甲基化标志物基因座确定阈值,以便获得95%的检测特异性。比较来自每个患者的经历甲基化敏感的消化的DNA和亚硫酸氢盐转化的DNA中越过阈值的(即被检测到的)标志物基因座的数目。结果总结于图6中。在两个样品中,与亚硫酸氢盐+NGS相比,使用甲基化敏感的消化+NGS的甲基化分析检测到血浆中显著更多的甲基化改变。
突变检测
肿瘤突变被定义为存在于肿瘤DNA中的不同于来自同一患者的对应正常组织中最普遍的基因型的基因型。肿瘤DNA中具有突变的基因型的读段分数代表肿瘤突变水平,并且患者血浆中具有相同突变的基因型的读段分数代表血浆突变水平。对于每个样品,计算跨越所有突变的平均肿瘤突变水平和平均血浆突变水平,并且计算肿瘤突变负荷(即,平均血浆突变水平/平均肿瘤突变水平)。肿瘤突变负荷代表患者血浆中肿瘤DNA的分数。为了控制测序噪声,将患者A的肿瘤突变负荷与对照肿瘤突变负荷进行比较,对照肿瘤突变负荷根据患者B的肿瘤突变来计算(即,患者A的血浆中患者B的肿瘤突变的平均突变水平/患者A的肿瘤突变水平)。
结果总结于图7A-图7B中。通过甲基化敏感的消化+NGS在明显高于测序噪声的水平检测到血浆中的肿瘤突变,而在亚硫酸氢盐+NGS中突变与高测序噪声无法区分。
实施例2-肺癌患者的肿瘤DNA和血浆DNA的遗传谱分析和表观遗传谱分析
对标识为BMD LNG165和BMD LNG166的两名肺癌患者的样品进行甲基化和突变分析。每名患者的临床资料详述于图9A-图9B中。
用于分析的样品制备示出于图8A中。对于每名患者提供正常肺组织样品、肿瘤肺组织样品和血液样品。将血液样品分离为血沉棕黄层和血浆样品。如图中指示的,从每个样品提取DNA。通过声处理将正常组织DNA、肿瘤组织DNA和血沉棕黄层DNA片段化。接下来,如实施例1中描述的,使DNA经历用甲基化敏感的限制性酶HinP1I和AciI的消化,并且纯化。来自每名患者的正常组织DNA的等分试样保持未被消化并且作为对照保存。如以上描述的,使纯化的DNA样品经历文库制备和测序。
图8B示出了取自100名健康对照受试者的对照样品的样品制备。对照样品包括来自每名对照受试者的血沉棕黄层样品和血浆样品。如图中指示的,从每个样品提取DNA。通过声处理将血沉棕黄层DNA片段化,经历由HinP1I和AciI的消化,并且随后纯化。来自每名对照受试者的血沉棕黄层DNA的等分试样保持未被消化并且作为对照保存。使血浆DNA经历由HinP1I和AciI的消化并且纯化。取血浆DNA的等分试样用于质量控制(例如,评价血浆分离的质量)和用于产生未消化的血浆DNA对照池。如以上描述的,使纯化的DNA样品经历文库制备和测序。
将每个样品的序列读段针对完全人类基因组(hg18基因组构建)映射。选择具有CIGAR&MAPQ>0&abs(TLEN)≤500bp的比对用于进一步分析甲基化和突变,以便鉴定肿瘤中的甲基化改变和突变及其在血浆中的表现。
对于每个基因组位置,确定“跨越100的命中”,即在基因组位置上游>50bp起始和下游>50bp终止的读段数目。
“跨越100的命中”是至少100bp的比对,代表DNA样品中在甲基化敏感的消化和文库制备之后保持的长度为至少100bp的DNA分子。这样的比对的分析对于评价无细胞DNA中除了甲基化以外的核小体定位是有利的,因为这样的比对的拷贝数反映了核小体边界,其中高拷贝数是核小体中部典型的,并且低拷贝数是核小体之间的边界典型的。
此外,许多癌症相关的甲基化改变发生在CG岛内,即基因组中到达经历甲基化的CG位点的区域。位于测定中使用的酶的限制性基因座内的被分析CG位点周围的“跨越100的命中”区域通常包括该酶的包含另外的CG位点的另外的限制性基因座。因此,“跨越100的命中”比对代表长度为至少100bp的DNA分子,其中分析的限制性基因座以及DNA分子内的任何另外的限制性基因座在DNA样品中都被甲基化,并且在用测定中使用的酶消化后保持完整。分析长度为至少100bp且包含在DNA样品中都被甲基化的多于一个限制性基因座的比对增加了癌症相关的高甲基化信号的特异性,并且能够实现正常样品与癌样品之间的差异的改进的更准确的检测。这样的甲基化分析对于位于CG岛内的CG位点特别地有利。
“跨越100的命中”值针对同一样品中的中值“跨越100的命中”值进行归一化。例如:归一化的特定基因座处的“跨越100的命中”=该基因座处的“跨越100的命中”的数目/样品中的中值“跨越100的命中”的数目。针对跨越染色体1-22的中值的值进行归一化。
全基因组甲基化分析
甲基化基因座被定义为在未消化的正常组织池中具有高于预定义阈值的归一化的“跨越100的命中”数目的限制性基因座。
-甲基化基因座的背景甲基化水平如下确定:
在消化的正常血浆池中归一化的“跨越100的命中”/在未消化的正常血浆池中归一化的“跨越100的命中”
如果未消化的正常血浆池中的归一化的“跨越100的命中”=0,则使用值1/中值“跨越100的命中”替代。
-甲基化基因座的肿瘤甲基化水平如下确定:
肿瘤中的归一化的“跨越100的命中”/未消化正常组织池中的归一化“跨越100的命中”
-甲基化基因座的正常甲基化水平如下确定:
正常组织中的归一化的“跨越100的命中”/未消化正常组织池中的归一化“跨越100的命中”
-甲基化基因座的血浆甲基化水平如下确定:
血浆中的归一化的“跨越100的命中”/未消化正常血浆池中的归一化“跨越100的命中”
对于每名患者,通过选择具有背景甲基化水平低于预定义阈值的甲基化基因座,汇编一组低背景甲基化基因座。
此外,还汇编了显示相比于正常组织中在肿瘤组织中高甲基化的一组高甲基化基因座。通过确定甲基化基因座的肿瘤-正常差异甲基化水平(tumor-normal differentialmethylation level)(=肿瘤甲基化水平-正常甲基化水平)并且选择具有超过预定义阈值的肿瘤-正常差异甲基化水平的甲基化基因座来汇编该组高甲基化基因座。
汇编了显示相比于正常组织中在肿瘤组织中低甲基化的一组低甲基化基因座。通过确定甲基化基因座的肿瘤-正常差异甲基化水平(=肿瘤甲基化水平-正常甲基化水平)并且选择具有低于预定义阈值的肿瘤-正常差异甲基化水平的甲基化基因座来汇编该组低甲基化基因座。
汇编了在肿瘤组织与正常组织之间没有显示差异甲基化水平的一组等甲基化基因座。通过确定甲基化基因座的肿瘤-正常差异甲基化水平(=肿瘤甲基化水平-正常甲基化水平)并且选择既不是肿瘤-正常高甲基化也不是肿瘤-正常低甲基化的甲基化基因座来汇编该组等甲基化基因座。
对于每名患者的分析结果示出于图9A-图9B中。在每名患者的肿瘤中检测到数百万次高甲基化和低甲基化事件。此外,在每名患者的血浆中检测到数千次低背景高甲基化事件。检测到的事件代表推定的甲基化标志物。
图10A-图10B示出了可以鉴定血浆中具有特别强的高甲基化信号的数千个甲基化基因座。
全基因组突变分析
肿瘤突变被定义为存在于肿瘤DNA中的不同于来自同一患者的对应正常组织中最普遍的基因型的基因型。
肿瘤DNA中具有突变的基因型的读段分数代表肿瘤突变水平,并且患者血浆中具有相同突变的基因型的读段分数代表血浆突变水平。对于每个样品,计算跨越所有突变的平均肿瘤突变水平和平均血浆突变水平,并且计算肿瘤突变负荷(即,平均血浆突变水平/平均肿瘤突变水平)。肿瘤突变负荷代表患者血浆中肿瘤DNA的分数。
对于每名患者,通过选择具有低于预定义阈值的血浆突变背景(=正常血浆池中突变的分数)的突变,汇编一组低背景突变。此外,确定每名患者血浆中的平均突变分数。对于每名患者的分析结果示出于图11A-图11B中。
多组区域
多组区域在本文中被定义为具有肿瘤高甲基化位点(与正常组织相比,在肿瘤中高甲基化)和预定义距离内的肿瘤突变位点的基因组区域。本发明的方法旨在检测无细胞DNA样品中癌症相关的遗传改变和表观遗传改变。因此,至多150bp的多组区域是优选的,以便鉴定在同一分子上(并且随后在同一序列读段上)包含肿瘤高甲基化位点和肿瘤突变位点两者的DNA分子。在本实施例中,在患者BMD LNG165和患者BMD LNG166的肿瘤样品中搜索了肿瘤高甲基化基因座和彼此在100bp内的肿瘤突变的多组区域。
该分析在患者BMD LNG165中鉴定出6,060个多组区域,并且在患者BMD LNG166中鉴定出9,471个多组区域。BMD LNG165中的多组区域的实例示出于图12中(染色体7位置150220856-150220921)。
多组比对被定义为具有跨越多组区域的CIGAR&MAPQ>0&TLEN>0&TLEN≤500bp的比对。多组比对类型的实例示出于图13中并且包括:
一致的甲基化比对,其中在甲基化位置(该位置是甲基化的)和突变位置(存在突变变体)两者处可以观察到癌症表型:比对跨越所有高甲基化限制性位点(在比对中存在测定中使用的限制性酶识别序列的所有字母,例如用于HinP1I的GCGC),并且在读段中包含突变的基因型。
不一致的甲基化比对,其中在甲基化位置(该位置是甲基化的)处观察到癌症表型,并且在突变位置(存在WT变体)处观察到正常表型:比对跨越所有高甲基化限制性位点(例如,GCGC的所有字母都存在于比对中),并且在读段中包含WT(参考)基因型。
一致的未甲基化比对,其中在甲基化位置(该位置是非甲基化的)和突变位置(存在WT变体)两者处可以观察到正常表型:比对在确切的切割位点处起始或终止(在限制性位点的n位置处起始或在限制性位点的n+1位置处终止),并且在读段中包含WT(参考)基因型。
不一致的未甲基化比对,其中在甲基化位置(该位置是非甲基化的)处观察到正常表型并且在突变位置(存在突变变体)处观察到癌症表型:比对在确切的切割位点处起始或终止(在限制性位点的n位置处起始或在限制性位点的n+1位置处终止),并且在读段中包含突变的基因型。
以上显示出,本文公开的采用甲基化敏感的消化及随后的下一代测序的方法足够灵敏且准确,足以处理低量DNA并且接收大量信息,包括甲基化数据、突变数据等。该方法对于例如新的甲基化标志物的发现和临床诊断应用两者都是有利的。该方法使得能够检测用亚硫酸氢盐不能够检测到的信号。
实施例3-直接计算甲基化DNA水平和未甲基化DNA水平
在以下实施例中,通过用甲基化敏感的限制性酶HinP1I和AciI消化来自血浆样品的无细胞DNA及随后的文库制备、下一代测序和序列读段分析,来进行甲基化/未甲基化的计算。
图14示出了在消化和末端修复之前及之后甲基化敏感的HinP1I位点。在HinP1I位点处未被甲基化的无细胞DNA分子经历消化,产生具有对应于HinP1I切割位点的非平(粘性)端的双链DNA分子。具体地,由于HinP1I具有四碱基的切割位点,消化产生一对双链DNA分子,在一个DNA分子中具有两个碱基的5’突出端,并且在另一个DNA分子中具有互补的5’突出端。使非平端经历末端修复(例如,使用NEBNext Ultra DNA文库制备试剂盒)以产生平端DNA分子。在末端修复后,获得两种类型的DNA片段:在HinP1I识别序列的第三个核苷酸(G核苷酸)处终止(3’末端)的片段和在HinP1I识别序列的第二个核苷酸(C核苷酸)处起始(5’末端)的片段。
图15示出了在跨越在切割位点处甲基化或未甲基化的HinP1I限制性位点的无细胞DNA分子的消化和末端修复后获得的DNA片段的差异。黑点代表甲基化。在切割位点处甲基化的DNA分子在消化后保持完整,并且结果是跨越切割位点的DNA片段。在切割位点处未甲基化的DNA分子被酶消化。在末端修复后,结果是在识别序列处起始或终止的DNA片段(具体地,在识别序列的第三个核苷酸G处终止的片段和在第二个核苷酸C处起始的片段)。
实验程序
从56名健康对照受试者收集血浆样品。使用循环核酸试剂盒(QIAGEN,Hilden,Germany)从样品提取DNA,并且合并。保持450ng的等分试样作为未消化的对照DNA,并且使剩余的DNA(800ng)经历消化:将样品与10个单位的HinP1I和5个单位的AciI在37℃孵育2h,随后在65℃失活20min。在消化后,使用NEBNext Ultra DNA文库制备试剂盒制备测序文库。使文库经历使用具有S4流通池的Illumina NovaSeq 6000测序平台的下一代测序。将来自消化和未消化的DNA样品的序列读段针对完全人类基因组(染色体18基因组构建)映射。
甲基化DNA水平的计算
为了计算甲基化DNA水平,将序列读段绘制为每个4-bp基因座的读段计数。分析对应于限制性酶(HinP1I)切割位点的基因座,并且记录跨越完全完整位点的读段数目。图16A示出了对应于消化的DNA样品中HinP1I位点(用矩形标记)的4-bp基因座的示例性分析。从图中可以观察到,在该HinP1I位点处观察到读段计数减少。该减少指示被酶消化,其中该位置处的读段计数对应于该基因座保持完整的DNA片段的数目。如以上注意到的,HinP1I是甲基化敏感的,并且因此不切割甲基化DNA。因此,该限制性基因座的读段计数对应于DNA样品中限制性基因座被甲基化的DNA分子的数目。
限制性基因座处甲基化的DNA水平如下计算:
甲基化DNA水平=限制性基因座的实际读段计数
限制基因座的预期读段计数
其中所述限制性基因座的预期读段计数可以根据以下计算:
(i)未被酶切割的4-bp参考基因座的读段计数;
(ii)未被酶切割的多于一个4-bp参考基因座的平均读段计数(最佳地由与未消化的样品中的限制性基因座具有相同拷贝数的基因座组成);或者
(iii)未消化的对照样品中限制性基因座的读段计数(可能针对深度差异进行校正)。
参考基因座可以是位于限制性基因座立即上游或下游(immediately upstreamor downstream)的4-bp段(4-bp stretch),或者位于基因组中更远位置处的4-bp基因座。
针对深度差异的校正可以如下进行:
限制性基因座的预期读段计数=
未消化的样品中限制性基因座的读段计数/(未消化的样品中的平均测序深度/消化的样品中的平均测序深度)
平均测序深度=
总读段数目*平均读段长度/基因组尺寸
可以将获得的甲基化DNA水平乘以100,以获得原始DNA样品中测试的HinP1I基因座处甲基化DNA的百分比(%)。
计算非甲基化DNA水平
为了计算非甲基化DNA水平,序列读段被绘制为在跨越基因组的每个碱基处终止的读段计数。可选地或另外地,序列读段可以被绘制为在跨越基因组的每个碱基处起始的读段计数。分析了对应于限制性酶(HinP1I)切割位点的基因组基因座。
图16B示出了以上分析的HinP1I位点和侧翼区域的“起始”分析。如图中可以观察到,在切割位点的第二个核苷酸(C核苷酸)处观察到一个峰。峰高,即在切割位点的第二个核苷酸处起始的序列读段的数目,对应于被酶切割的DNA片段的数目。如以上注意到的,HinP1I是甲基化敏感的,并且因此切割非甲基化的DNA。因此,峰高对应于DNA样品中限制性基因座未被甲基化的DNA分子的数目。
图16C示出了以上分析的HinP1I位点和侧翼区域的“末端”分析。如图中可以观察到,在切割位点的第三个核苷酸(G核苷酸)处观察到一个峰。峰高,即在切割位点第三个核苷酸处终止的序列读段的数目,对应于酶在该切割位点处切割的DNA片段的数目。如以上注意到的,HinP1I是甲基化敏感的,并且因此切割非甲基化的DNA。因此,峰高对应于DNA样品中限制性基因座未被甲基化的DNA分子的数目。
限制性基因座处非甲基化DNA水平如下计算:
非甲基化DNA水平=
(在限制性基因座处起始或终止的实际读段数目-在限制性基因座处起始或终止的预期读段数目)/限制性基因座的预期读段计数。
在限制性基因座处起始或终止的预期读段数目可以根据以下计算:
(i)在未被酶切割的4-bp参考基因座处起始或终止的读段数目;
(ii)在未被酶切割的4-bp参考基因座家族处起始或终止的平均读段数目;或者
(iii)在未消化的对照样品中限制性基因座处起始或终止的读段数目(可能针对深度差异进行校正)。
限制性基因座的预期读段计数可以根据以下计算:
(i)未被酶切割的4-bp参考基因座的读段计数;
(ii)未被酶切割的4-bp参考基因座家族的平均读段计数(最佳地由与未消化的样品中的限制性基因座具有相同拷贝数的基因座组成);或者
(iii)未消化的对照样品中限制性基因座的读段计数(可能针对深度差异进行校正)。
参考基因座可以是位于限制性基因座立即上游或下游的4-bp段,或者位于基因组中更远位置处的4-bp基因座。
注意到,被如本文公开的限制性内切核酸酶切割的每个DNA分子产生两个片段,一个在限制性基因座内核苷酸处起始,并且另一个在限制性基因座内核苷酸处终止。因此,对于给定的DNA分子,获得两种不同的序列读段可以是可能的。为了正确分析样品中存在的非甲基化DNA分子的数目,非甲基化DNA水平的计算可以基于从限制性基因座处起始的序列读段的数目、在限制性基因座处终止的序列读段的数目或这两个值之间的平均值,但不是基于这些值的总和来进行。在使用耗尽小片段的文库制备方法时,优选使用具有较大序列读段数目的取向来计算非甲基化DNA水平,以避免由于小片段的耗尽而产生的偏倚。
可以将获得的非甲基化DNA水平乘以100,以获得原始DNA样品中测试的HinP1I基因座处非甲基化DNA的百分比(%)。
这样的甲基化分析/未甲基化分析对于位于具有低CG含量的基因组区域处的CG位点特别地有利。
甲基化DNA水平+非甲基化DNA水平的同时计算
为了同时计算甲基化DNA水平和非甲基化DNA水平,首先如下计算“总片段数目”:
总片段数目=
限制性基因座的读段计数+在限制性基因座处起始或终止的读段数目-在限制性基因座处起始或终止的预期读段数目
在限制性基因座处起始或终止的预期读段数目如以上描述计算。
使用总片段数目如下计算甲基化DNA水平和非甲基化DNA水平:
甲基化DNA水平=限制性基因座的读段计数
总片段数目
非甲基化DNA水平=
(在限制性基因座处起始或终止的读段数目-在限制性基因座处起始或终止的预期读段数目)/总片段数目
可以将获得的甲基化DNA水平和非甲基化DNA水平乘以100,以获得原始DNA样品中测试的HinP1I基因座处甲基化DNA和非甲基化DNA的百分比(%)。
实施例4-使用甲基化DNA水平和非甲基化DNA水平分析限制性基因座
在实施例3中描述的合并的血浆DNA样品中,计算位于HinP1I限制性基因座内的8个CG二核苷酸的甲基化DNA水平和非甲基化DNA水平,标识为CG#1-8(表4)。如实施例3中详述的,将合并的DNA样品用甲基化敏感的限制性酶HinP1I和AciI消化及随后的文库制备、下一代测序和序列读段针对完全人类基因组的比对。
CG#1(高度甲基化)、CG#4(高度非甲基化)和CG#5的示例性原始数据示于图17A-图17C中。每个图的上图示出了每个4-bp基因座的读段计数,用于确定限制性基因座的读段计数。限制性基因座由矩形指示。每个图的下图示出了在参考基因组中每个碱基处起始或终止的读段计数,用于确定在限制性基因座处起始或终止的序列读段的读段计数。“终止”或“起始”的呈现是根据提供较大读段数目的取向。
每个限制性基因座处的甲基化DNA水平通过将限制性基因座的读段计数除以预期读段计数(对照基因座的读段计数)并且乘以100以获得限制性基因座处甲基化DNA的百分比来计算。
每个限制性基因座处的非甲基化DNA水平通过减去在限制性基因座处起始或终止的预期读段数目,并且随后除以限制性基因座的预期读段计数并且乘以100,以获得限制性基因座处非甲基化DNA的百分比来计算。对于每个限制性基因座,确定在限制性基因座处起始的读段数目和在限制性基因座处终止的读段数目,并且基于较大的读段数目进行进一步计算。
通过确定本实施例中计算的甲基化和非甲基化百分比之和与100%的预期总和之间的差异,计算每个限制性基因座的差异水平(%):
%差异=(%甲基化+%非甲基化)-100
结果总结于表4中。表4中根据差异水平以升序列出了限制性基因座。差异水平可以用于评价和选择潜在的DNA甲基化标志物,其中差异水平较低的基因座可以是优选的。差异水平也可以用作已经鉴定的DNA甲基化标志物的正确样品处理和分析的指标,其中低水平的差异指示正确的样品处理和分析。
表4-甲基化DNA水平和非甲基化DNA水平
结果显示,使用同一测序数据直接确定除了甲基化之外的未甲基化提供了基因组区域的互补甲基化信息,使得能够改进甲基化谱分析,更准确和有效评价潜在的DNA甲基化标志物,并且随后更准确分析样品之间的甲基化差异。
实施例5-肺癌DNA甲基化标志物的甲基化谱分析和肺癌的诊断
从血浆样品提取的DNA样品的甲基化谱在六个基因组区域处确定,该六个基因组区域包含肺癌DNA与正常非肺癌DNA之间差异甲基化的HinP1I限制性基因座。在转让至本发明申请人的WO 2019/142193中先前公开的基因组区域被标识为SEQ ID NO:1-6并且详见于表5中。
表5-肺癌相关的基因组区域
*起始位置。该描述指在hg18基因组构建(build)上的位置
图18是描述根据本发明实施方案的用于对DNA样品甲基化进行谱分析的示例性方法的流程图。示例性方法包括以下步骤:
1801-用甲基化敏感的限制性内切核酸酶HinP1I消化DNA样品;
1802-使用与多于一个DNA片段连接的衔接子从消化的DNA制备测序文库;
1803-对测序文库进行高通量测序以获得序列读段;
1804-针对完全人类基因组映射序列读段;
1805-选择包含在肺癌DNA与正常非肺癌DNA之间差异甲基化的限制性基因座的基因组区域1-6;
1806-对于基因组区域1-6的每个限制性基因座,确定该限制性基因座的读段计数;
1807-对于基因组区域1-6的每个限制性基因座,确定在该限制性基因座的第二个核苷酸处起始的序列读段的读段计数和在该限制性基因座的倒数第二个核苷酸处终止的序列读段的读段计数,并且选择具有较大读段计数的取向;
1808-对于基因组区域1-6的每个限制性基因座,基于该限制性基因座的读段计数计算甲基化DNA水平;
1809-对于基因组区域1-6的每个限制性基因座,基于在该限制性基因座内核苷酸处起始或终止的序列读段的读段计数计算非甲基化DNA水平;
从而获得DNA样品在基因组区域1-6处的甲基化谱(步骤1810)。
图19是描述根据本发明实施方案的用于对DNA样品甲基化进行谱分析的另外的示例性方法的流程图。示例性方法包括以下步骤:
1901-用甲基化敏感的限制性内切核酸酶HinP1I消化DNA样品;
1902-使用与多于一个DNA片段连接的衔接子从消化的DNA制备测序文库;
1903-富集包含在肺癌DNA与正常非肺癌DNA之间差异甲基化的限制性基因座的基因组区域1-6;
1904-对所富集的测序文库进行高通量测序以获得序列读段;
1905-将序列读段分配至基因组区域1-6之一;
根据以上描述的步骤1806-1810继续进行,以便获得DNA样品在基因组区域1-6处的甲基化谱。
图20是描述根据本发明实施方案的用于确定DNA样品对于肺癌是阳性还是阴性的示例性方法的流程图。示例性方法包括以下步骤:
2001-获得DNA样品在基因组区域1-6处的甲基化谱,将甲基化水平和非甲基化DNA水平组合,如以上描述的;
2002-比较DNA样品的甲基化谱与基因组区域1-6处的至少一个参考DNA甲基化谱(例如,肺癌参考谱和/或健康非肺癌甲基化谱);以及
2003-基于该比较将DNA样品鉴定为对于肺癌是阳性还是阴性。
图21是描述根据本发明实施方案的用于确定DNA样品对于肺癌是阳性还是阴性的另外的示例性方法的流程图。示例性方法包括以下步骤:
2101-获得DNA样品在基因组区域1-6处的甲基化谱,将甲基化水平和非甲基化DNA水平组合,如以上描述的;
2102-基于在基因组区域1-6处的甲基化谱计算评分;
2103-比较评分与截止值;以及
2104-基于该比较将DNA样品鉴定为对于肺癌是阳性还是阴性。
对具体实施方案的以上描述将如此完全地揭示本发明的一般性质,使得其他人可以通过应用目前的知识,容易地为各种应用修改和/或调整这样的具体实施方案而不需要过度实验并且不背离一般概念,并且因此,这样的调整和修改应当并且意图被理解为在所公开的实施方案的等同物的含义和范围内。应理解的是,本文使用的措辞或术语是为了描述而非限制的目的。用于进行各种所公开的化学结构和功能的手段、物质和步骤可以采取各种替代形式而不背离本发明。
序列表
<110> 纽克莱克斯有限公司
<120> 使用限制性酶和高通量测序检测DNA样品中的甲基化改变
<130> NCLX/013 PCT
<150> IL 278856
<151> 2020-11-19
<160> 6
<170> PatentIn version 3.5
<210> 1
<211> 85
<212> DNA
<213> 智人(Homo sapiens)
<400> 1
agtagcgccc actgagcggt ttttcagttg ctgcaccgtt cttagcgccc aacggaacgt 60
ttcccgtacg cggagtccat aagtt 85
<210> 2
<211> 69
<212> DNA
<213> 智人(Homo sapiens)
<400> 2
cggtcccgca gcgcccgcca cacacccgcg ccagaggtcc agcgcatgtg cagtgaaatg 60
gcctagccc 69
<210> 3
<211> 72
<212> DNA
<213> 智人(Homo sapiens)
<400> 3
cggatagcgc ggcgggcgac agccccccgg ataaccccgc cgagggaggg gcgcttgtaa 60
aaccgagcgg cg 72
<210> 4
<211> 60
<212> DNA
<213> 智人(Homo sapiens)
<400> 4
tcctccttgc cttctttcgc cgaaaggggg cgcgctcctc ccaggctgcg ctggtaccta 60
<210> 5
<211> 78
<212> DNA
<213> 智人(Homo sapiens)
<400> 5
aggacccgct ccgcaaagcg cccaccctcg agggaggaaa gccgagctgc gcctccgcgc 60
aaggccaggg agtgtggc 78
<210> 6
<211> 73
<212> DNA
<213> 智人(Homo sapiens)
<400> 6
aggccgcgag cgcggcgcga tcagtagcgc ccactaacag ttcgttctgc acggcggagc 60
gcgagaccgc gga 73
Claims (39)
1.一种用于对来自受试者的无细胞DNA(cfDNA)样品的遗传特征和表观遗传特征进行谱分析的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,同时保存所述DNA分子末端处的序列信息,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA中的DNA分子连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;
(c)通过高通量测序方法对所述测序文库进行测序,以提供测序数据;以及
(d)根据所述测序数据确定所述无细胞DNA样品的至少一个限制性基因座的甲基化值和任选地选自DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征,
其中包含3000个单倍体当量的无细胞DNA的量对于所述方法是足够的,其中所述无细胞DNA样品在文库制备之前不经历扩增,并且其中确定所述无细胞DNA样品的所述甲基化值和所述至少一个另外的遗传特征或表观遗传特征基于同一测序数据进行。
2.一种用于处理无细胞DNA样品以获得用于遗传分析和表观遗传分析的测序数据的方法,所述方法包括:
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,同时保存所述DNA分子末端处的序列信息,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA中的DNA分子连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;以及
(c)通过高通量测序方法对所述测序文库进行测序,以获得测序数据,
其中包含3000个单倍体当量的无细胞DNA的量足以实现以下的至少一项:至少85%的独特映射率、与未消化的样品相比至少0.65的Pearson相关性表征的拷贝数完整性和与未消化的样品相比至少0.55的Pearson相关性表征的核小体定位完整性,
并且其中遗传分析和表观遗传分析基于同一测序数据进行。
3.根据权利要求1或权利要求2所述的方法,其中包含6,000个单倍体当量的无细胞DNA的量对于所述方法是足够的。
4.根据前述权利要求中任一项所述的方法,其中所述无细胞DNA是血浆无细胞DNA,并且其中所述无细胞DNA的量是从9ml-10ml血液中获得的量。
5.根据前述权利要求中任一项所述的方法,其中所述无细胞DNA的量在10ng-200ng之间。
6.根据前述权利要求中任一项所述的方法,其中所述无细胞DNA的量在20ng-100ng之间。
7.根据前述权利要求中任一项所述的方法,其中所述至少一种甲基化敏感的限制性内切核酸酶产生非平端,并且所述方法还包括在连接测序衔接子之前使所述限制性内切核酸酶处理的DNA经历末端修复,以获得具有平端的DNA分子。
8.根据前述权利要求中任一项所述的方法,其中所述高通量测序是全基因组高通量测序。
9.根据权利要求1-8中任一项所述的方法,其中所述高通量测序是靶特异性高通量测序。
10.根据前述权利要求中任一项所述的方法,其中确定至少一个限制性基因座的甲基化值包括:
(i)选择至少一个限制性基因座并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;以及
(ii)基于在步骤(i)中确定的读段计数和参考读段计数,计算所述至少一个限制性基因座的甲基化值。
11.根据权利要求10所述的方法,其中步骤(i)包括确定覆盖长度为至少100bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目。
12.根据前述权利要求中任一项所述的方法,其中所述至少一个限制性基因座是多于一个限制性基因座。
13.根据前述权利要求中任一项所述的方法,其中所述至少一种甲基化敏感的限制性内切核酸酶是多于一种甲基化敏感的限制性内切核酸酶,并且其中用所述多于一种甲基化敏感的限制性内切核酸酶的消化是同时消化。
14.根据权利要求13所述的方法,其中所述多于一种甲基化敏感的限制性内切核酸酶包括HinP1I。
15.根据权利要求13所述的方法,其中所述多于一种甲基化敏感的限制性内切核酸酶包括AciI。
16.根据权利要求13所述的方法,其中所述消化使用HinP1I和AciI进行。
17.根据前述权利要求中任一项所述的方法,其中使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化的步骤还包括确定消化效率,并且如果所述消化效率高于预定义阈值,则继续制备测序文库。
18.一种用于检测来自受试者的无细胞DNA(cfDNA)样品中的癌症相关遗传改变和表观遗传改变的方法,所述方法包括:根据权利要求1-17中任一项对所述cfDNA样品的甲基化和任选地至少一个另外的遗传特征和表观遗传特征进行谱分析,以获得所述cfDNA样品的遗传谱和表观遗传谱;并且将所述cfDNA样品的遗传谱和表观遗传谱与选自癌症谱和非癌症谱的一个或更多个参考遗传谱和参考表观遗传谱进行比较,以检测所述cfDNA样品中癌症相关的遗传改变和表观遗传改变。
19.根据权利要求18所述的方法,其中所述无细胞DNA样品来自疑似具有癌症或处于具有癌症风险的受试者,并且所述方法还包括在检测到癌症相关的改变时向所述受试者施用主动癌症监测和随访测试,所述癌症监测和随访测试包括血液测试、尿液测试、细胞学、成像、内窥镜检查和活检中的一种或更多种。
20.一种用于评价受试者中癌症的存在或不存在的方法,所述方法包括:
(a)使所述受试者的无细胞DNA(cfDNA)样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)通过高通量测序方法对所述限制性内切核酸酶处理的DNA进行测序;
(c)选择至少一个多组基因组区域,所述多组基因组区域包含彼此在150bp内的肿瘤高甲基化限制性基因座和肿瘤突变基因座;以及
(d)基于覆盖所述至少一个多组区域的序列读段分析,确定所述受试者具有癌症的可能性。
21.根据权利要求20所述的方法,其中所述至少一个多组区域包含彼此在100bp内的肿瘤高甲基化限制性基因座和肿瘤突变基因座。
22.根据权利要求20或权利要求21所述的方法,其中覆盖所述至少一个多组区域的序列读段的分析包括:
-对于每个多组区域确定以下的至少一项:
(i)覆盖所述多组区域的甲基化的突变的序列读段的数目,所述甲基化的突变的序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现突变的基因型;
(ii)覆盖所述多组区域的甲基化野生型序列读段的数目,所述甲基化野生型序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现野生型基因型;
(iii)覆盖所述多组区域的未甲基化的突变的序列读段的数目,所述未甲基化的突变的序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现突变的基因型;以及
(iv)覆盖所述多组区域的非甲基化野生型序列读段的数目,所述非甲基化野生型序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现野生型基因型;
并且
-将(i)-(iv)中确定的读段数目与癌症患者和/或健康个体的参考值进行比较,以评价所述受试者具有癌症的可能性。
23.一种用于表征疑似具有癌症或处于具有癌症风险的受试者的无细胞DNA(cfDNA)样品的方法,所述方法包括
(a)使所述无细胞DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)通过高通量测序方法对所述限制性内切核酸酶处理的DNA进行测序;
(c)选择至少一个多组基因组区域,所述多组基因组区域包含彼此在150bp内的肿瘤高甲基化限制性基因座和肿瘤突变基因座;以及
(d)对于每个多组区域确定以下的至少一项:
(i)覆盖所述多组区域的甲基化的突变的序列读段的数目,所述甲基化的突变的序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现突变的基因型;
(ii)覆盖所述多组区域的甲基化野生型序列读段的数目,所述甲基化野生型序列读段包括所述限制性基因座的所有核苷酸并且在所述突变基因座处呈现野生型基因型;
(iii)覆盖所述多组区域的未甲基化的突变的序列读段的数目,所述未甲基化的突变的序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现突变的基因型;以及
(iv)覆盖所述多组区域的非甲基化野生型序列读段的数目,所述非甲基化野生型序列读段在所述限制性基因座内核苷酸处起始或终止并且在所述突变基因座处呈现野生型基因型,
从而表征所述无细胞DNA样品。
24.一种用于对来自受试者的DNA样品的甲基化进行谱分析的方法,所述方法包括:
(a)使所述DNA样品经历用至少一种甲基化敏感的限制性内切核酸酶消化,以获得其中甲基化位点完整且非甲基化位点被切割的限制性内切核酸酶处理的DNA;
(b)从所述限制性内切核酸酶处理的DNA制备测序文库,其中制备所述测序文库包括将测序衔接子与所述限制性内切核酸酶处理的DNA片段连接,其中每个衔接子能够与消化的DNA分子和未消化的DNA分子两者连接;
(c)通过高通量测序方法对所述测序文库进行测序,以获得序列读段;
(d)选择至少一个限制性基因座并且确定覆盖长度为至少50bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目;以及
(e)基于在步骤(d)中确定的读段计数和参考读段计数,计算所述至少一个限制性基因座的甲基化值,
从而对所述无细胞DNA样品的甲基化进行谱分析。
25.根据权利要求24所述的方法,其中覆盖所述限制性基因座的所述预定义区域在所述限制性基因座内切割位点上游至少25bp处开始,并且在所述限制性基因座内切割位点下游至少25bp处终止。
26.根据权利要求25所述的方法,其中步骤(d)包括确定覆盖长度至少为100bp的包含所述限制性基因座的预定义基因组区域的序列读段的数目。
27.根据权利要求26所述的方法,其中覆盖所述限制性基因座的所述预定义区域在所述限制性基因座内切割位点上游至少50bp处起始,并且在所述限制性基因座内切割位点下游至少50bp处终止。
28.根据权利要求24-27中任一项所述的方法,其中所述至少一个限制性基因座位于CG-岛内。
29.根据权利要求24-28中任一项所述的方法,其中所述参考读段计数是针对长度为至少50bp的包含未消化的对照DNA样品中的限制性基因座的预定义基因组区域确定的读段计数,任选地针对测序深度差异进行校正。
30.根据权利要求24-28中任一项所述的方法,其中所述参考读段计数是使用长度为至少50bp的包含未被所述限制性内切核酸酶切割的参考基因座的参考区域确定的读段计数。
31.根据权利要求24-28中任一项所述的方法,其中所述参考读段计数是使用长度为至少50bp的包含未被所述限制性内切核酸酶切割的参考基因座的多于一个参考区域确定的平均读段计数。
32.根据权利要求24-31中任一项所述的方法,其中计算甲基化值包括将步骤(d)中确定的读段计数针对所述DNA样品的中值读段计数进行归一化,以获得归一化的读段计数,并且计算所述归一化的读段计数与归一化的参考读段计数的比例。
33.一种用于DNA样品的遗传谱分析和表观遗传谱分析的方法,所述方法包括根据权利要求24-32中任一项确定至少一个限制性基因座的甲基化值,并且还根据所述测序数据确定所述DNA样品的选自DNA突变、拷贝数变异和核小体定位的至少一个另外的遗传特征或表观遗传特征。
34.根据权利要求24-33中任一项所述的方法,其中所述DNA是从生物流体样品提取的无细胞DNA。
35.根据权利要求24-33中任一项所述的方法,其中所述DNA是从肿瘤样品提取的DNA。
36.一种用于鉴定在第一DNA来源与第二DNA来源之间差异甲基化的基因组区域的方法,所述方法包括:
根据权利要求24-33中任一项所述的方法对来自所述第一来源的至少一个DNA样品的甲基化进行谱分析,以获得第一DNA甲基化谱;
根据权利要求24-33中任一项所述的方法对来自所述第二来源的至少一个DNA样品的甲基化进行谱分析,以获得第二DNA甲基化谱;并且
比较所述第一DNA甲基化谱和第二DNA甲基化谱以鉴定在所述第一DNA来源与第二DNA来源之间差异甲基化的基因组区域。
37.根据权利要求36所述的方法,其中所述第一DNA来源是癌症DNA,并且所述第二DNA来源是非癌症DNA。
38.根据权利要求36所述的方法,其中所述第一DNA来源是癌症患者的血浆无细胞DNA,并且所述第二DNA来源是一个或更多个健康个体的血浆无细胞DNA。
39.根据权利要求36所述的方法,其中所述第一DNA来源和第二DNA来源是癌症的不同时期。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IL27885620 | 2020-11-19 | ||
IL278856 | 2020-11-19 | ||
PCT/IL2021/051382 WO2022107145A1 (en) | 2020-11-19 | 2021-11-18 | Detecting methylation changes in dna samples using restriction enzymes and high throughput sequencing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116848262A true CN116848262A (zh) | 2023-10-03 |
Family
ID=81708589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180090957.8A Pending CN116848262A (zh) | 2020-11-19 | 2021-11-18 | 使用限制性酶和高通量测序检测dna样品中的甲基化改变 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20240026453A1 (zh) |
EP (1) | EP4247973A1 (zh) |
JP (1) | JP2023550141A (zh) |
KR (1) | KR20230109693A (zh) |
CN (1) | CN116848262A (zh) |
AU (1) | AU2021384324A1 (zh) |
CA (1) | CA3202240A1 (zh) |
IL (1) | IL302988A (zh) |
WO (1) | WO2022107145A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL293202A (en) | 2022-05-22 | 2023-12-01 | Nucleix Ltd | Useful combinations of restriction enzymes |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IL265451B (en) * | 2019-03-18 | 2020-01-30 | Frumkin Dan | Methods and systems for the detection of methylation changes in DNA samples |
-
2021
- 2021-11-18 AU AU2021384324A patent/AU2021384324A1/en active Pending
- 2021-11-18 CA CA3202240A patent/CA3202240A1/en active Pending
- 2021-11-18 IL IL302988A patent/IL302988A/en unknown
- 2021-11-18 CN CN202180090957.8A patent/CN116848262A/zh active Pending
- 2021-11-18 WO PCT/IL2021/051382 patent/WO2022107145A1/en active Application Filing
- 2021-11-18 EP EP21894201.9A patent/EP4247973A1/en active Pending
- 2021-11-18 KR KR1020237020299A patent/KR20230109693A/ko unknown
- 2021-11-18 JP JP2023530742A patent/JP2023550141A/ja active Pending
- 2021-11-18 US US18/253,272 patent/US20240026453A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4247973A1 (en) | 2023-09-27 |
WO2022107145A1 (en) | 2022-05-27 |
US20240026453A1 (en) | 2024-01-25 |
AU2021384324A1 (en) | 2023-06-22 |
JP2023550141A (ja) | 2023-11-30 |
CA3202240A1 (en) | 2022-05-27 |
KR20230109693A (ko) | 2023-07-20 |
IL302988A (en) | 2023-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10196698B2 (en) | DNA methylation markers for metastatic prostate cancer | |
Kron et al. | Discovery of novel hypermethylated genes in prostate cancer using genomic CpG island microarrays | |
US8150627B2 (en) | Methods and compositions for diagnosing lung cancer with specific DNA methylation patterns | |
KR20150082228A (ko) | 혈장으로부터 태아 또는 종양 메틸롬의 비침습적 결정 | |
US20220307091A1 (en) | Unbiased dna methylation markers define an extensive field defect in histologically normal prostate tissues associated with prostate cancer: new biomarkers for men with prostate cancer | |
EP3740590B1 (en) | Kits and methods for diagnosing lung cancer | |
CN112159844A (zh) | 结直肠癌dna甲基化的检测方法及试剂 | |
US20120135877A1 (en) | DNA Methylation Markers For Prostate Cancer Field Defect | |
US20210404018A1 (en) | Unbiased dna methylation markers define an extensive field defect in histologically normal prostate tissues associated with prostate cancer: new biomarkers for men with prostate cancer | |
CN114729399A (zh) | 检测卵巢癌 | |
WO2024060775A1 (zh) | 新型的肿瘤检测标志物TAGMe及其应用 | |
CA3136011A1 (en) | Methods for library preparation to enrich informative dna fragments using enzymatic digestion | |
US20090186360A1 (en) | Detection of GSTP1 hypermethylation in prostate cancer | |
US20240026453A1 (en) | Detecting methylation changes in dna samples using restriction enzymes and high throughput sequencing | |
EP2978861B1 (en) | Unbiased dna methylation markers define an extensive field defect in histologically normal prostate tissues associated with prostate cancer: new biomarkers for men with prostate cancer | |
CN117441027A (zh) | Heatrich-BS:用于亚硫酸氢盐测序的富含CpG的区域的热富集 | |
WO2023228175A1 (en) | Reaction buffer compositions and methods for dna amplification and sequencing | |
WO2024114696A1 (zh) | 基于限制性酶切的CpG岛甲基化富集测序技术 | |
Jameel | Development of Cancer-Specific DNA Methylation Biomarkers | |
WO2023089613A1 (en) | Whole genome cpg analysis | |
TW202417642A (zh) | 鑑別癌症的甲基化標誌物及應用 | |
CN117821585A (zh) | 结直肠癌早期诊断标志物及应用 | |
US20090186359A1 (en) | Detecting prostate cancer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |