CN117500938A - 无细胞dna甲基化和核酸酶介导的片段化 - Google Patents
无细胞dna甲基化和核酸酶介导的片段化 Download PDFInfo
- Publication number
- CN117500938A CN117500938A CN202280036613.3A CN202280036613A CN117500938A CN 117500938 A CN117500938 A CN 117500938A CN 202280036613 A CN202280036613 A CN 202280036613A CN 117500938 A CN117500938 A CN 117500938A
- Authority
- CN
- China
- Prior art keywords
- cell
- size
- free dna
- subject
- fragments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 101710163270 Nuclease Proteins 0.000 title claims abstract description 186
- 238000013467 fragmentation Methods 0.000 title abstract description 27
- 238000006062 fragmentation reaction Methods 0.000 title abstract description 27
- 230000007067 DNA methylation Effects 0.000 title description 8
- 230000001404 mediated effect Effects 0.000 title description 4
- 239000012634 fragment Substances 0.000 claims abstract description 487
- 230000011987 methylation Effects 0.000 claims abstract description 287
- 238000007069 methylation reaction Methods 0.000 claims abstract description 287
- 230000000694 effects Effects 0.000 claims abstract description 136
- 239000000523 sample Substances 0.000 claims abstract description 130
- 239000012472 biological sample Substances 0.000 claims abstract description 121
- 238000011282 treatment Methods 0.000 claims abstract description 76
- 108020004638 Circular DNA Proteins 0.000 claims abstract description 70
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 68
- 238000001228 spectrum Methods 0.000 claims abstract description 66
- 201000011510 cancer Diseases 0.000 claims abstract description 61
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 31
- 208000035475 disorder Diseases 0.000 claims abstract description 17
- 108020004414 DNA Proteins 0.000 claims description 329
- 238000000034 method Methods 0.000 claims description 247
- 102100031149 Deoxyribonuclease gamma Human genes 0.000 claims description 131
- 101000845618 Homo sapiens Deoxyribonuclease gamma Proteins 0.000 claims description 129
- 108091029523 CpG island Proteins 0.000 claims description 112
- 208000026350 Inborn Genetic disease Diseases 0.000 claims description 76
- 208000016361 genetic disease Diseases 0.000 claims description 76
- 108091029430 CpG site Proteins 0.000 claims description 74
- 108090000623 proteins and genes Proteins 0.000 claims description 72
- 238000012163 sequencing technique Methods 0.000 claims description 72
- 210000001519 tissue Anatomy 0.000 claims description 63
- 239000000203 mixture Substances 0.000 claims description 61
- 210000003754 fetus Anatomy 0.000 claims description 53
- 230000001605 fetal effect Effects 0.000 claims description 43
- 102000053602 DNA Human genes 0.000 claims description 35
- 108010077544 Chromatin Proteins 0.000 claims description 30
- 210000003483 chromatin Anatomy 0.000 claims description 30
- 108700028369 Alleles Proteins 0.000 claims description 23
- 210000004369 blood Anatomy 0.000 claims description 23
- 239000008280 blood Substances 0.000 claims description 23
- 230000007812 deficiency Effects 0.000 claims description 17
- 102000004190 Enzymes Human genes 0.000 claims description 15
- 108090000790 Enzymes Proteins 0.000 claims description 15
- 238000011088 calibration curve Methods 0.000 claims description 14
- 239000003146 anticoagulant agent Substances 0.000 claims description 13
- 229940127219 anticoagulant drug Drugs 0.000 claims description 13
- 238000001631 haemodialysis Methods 0.000 claims description 13
- 238000012544 monitoring process Methods 0.000 claims description 13
- 230000002159 abnormal effect Effects 0.000 claims description 11
- 208000014951 hematologic disease Diseases 0.000 claims description 11
- 230000000322 hemodialysis Effects 0.000 claims description 11
- 230000005856 abnormality Effects 0.000 claims description 9
- 208000023275 Autoimmune disease Diseases 0.000 claims description 6
- 230000001747 exhibiting effect Effects 0.000 claims description 3
- 201000010099 disease Diseases 0.000 abstract description 14
- 241000699670 Mus sp. Species 0.000 description 253
- 210000002381 plasma Anatomy 0.000 description 172
- 230000002950 deficient Effects 0.000 description 171
- 101150041872 DNASE1L3 gene Proteins 0.000 description 125
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 117
- 101150063735 DNASE1 gene Proteins 0.000 description 85
- 241000699666 Mus <mouse, genus> Species 0.000 description 51
- 238000004458 analytical method Methods 0.000 description 45
- 230000000873 masking effect Effects 0.000 description 44
- 230000008774 maternal effect Effects 0.000 description 42
- 230000000875 corresponding effect Effects 0.000 description 41
- 201000000596 systemic lupus erythematosus Diseases 0.000 description 39
- 238000003776 cleavage reaction Methods 0.000 description 38
- 230000007017 scission Effects 0.000 description 38
- 238000009826 distribution Methods 0.000 description 37
- 102100030012 Deoxyribonuclease-1 Human genes 0.000 description 36
- 101000863721 Homo sapiens Deoxyribonuclease-1 Proteins 0.000 description 35
- 230000007547 defect Effects 0.000 description 33
- 108700009124 Transcription Initiation Site Proteins 0.000 description 32
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 29
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 29
- 108091008146 restriction endonucleases Proteins 0.000 description 29
- 238000000585 Mann–Whitney U test Methods 0.000 description 27
- 230000001965 increasing effect Effects 0.000 description 27
- 239000002773 nucleotide Substances 0.000 description 23
- 125000003729 nucleotide group Chemical group 0.000 description 23
- 210000004185 liver Anatomy 0.000 description 22
- 230000008569 process Effects 0.000 description 21
- 210000004027 cell Anatomy 0.000 description 19
- 108010051779 histone H3 trimethyl Lys4 Proteins 0.000 description 19
- 238000005259 measurement Methods 0.000 description 18
- 238000003556 assay Methods 0.000 description 17
- 230000002829 reductive effect Effects 0.000 description 17
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 14
- 108010047956 Nucleosomes Proteins 0.000 description 14
- 229940088598 enzyme Drugs 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000002372 labelling Methods 0.000 description 14
- 210000001623 nucleosome Anatomy 0.000 description 14
- 206010005003 Bladder cancer Diseases 0.000 description 13
- 238000013507 mapping Methods 0.000 description 13
- 230000035935 pregnancy Effects 0.000 description 13
- 241000282412 Homo Species 0.000 description 12
- 210000000349 chromosome Anatomy 0.000 description 11
- 230000006607 hypermethylation Effects 0.000 description 11
- 238000012360 testing method Methods 0.000 description 11
- 230000003321 amplification Effects 0.000 description 10
- 238000001369 bisulfite sequencing Methods 0.000 description 10
- 238000003199 nucleic acid amplification method Methods 0.000 description 10
- 238000003752 polymerase chain reaction Methods 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 9
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 9
- 230000029087 digestion Effects 0.000 description 9
- 239000003550 marker Substances 0.000 description 9
- 210000003205 muscle Anatomy 0.000 description 9
- 230000035772 mutation Effects 0.000 description 9
- NHBKXEKEPDILRR-UHFFFAOYSA-N 2,3-bis(butanoylsulfanyl)propyl butanoate Chemical compound CCCC(=O)OCC(SC(=O)CCC)CSC(=O)CCC NHBKXEKEPDILRR-UHFFFAOYSA-N 0.000 description 8
- 102100038023 DNA fragmentation factor subunit beta Human genes 0.000 description 8
- 241001465754 Metazoa Species 0.000 description 8
- 238000012217 deletion Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 239000013074 reference sample Substances 0.000 description 8
- 230000002441 reversible effect Effects 0.000 description 8
- 108010014064 CCCTC-Binding Factor Proteins 0.000 description 7
- 101710147299 DNA fragmentation factor subunit beta Proteins 0.000 description 7
- 238000012313 Kruskal-Wallis test Methods 0.000 description 7
- 102100021393 Transcriptional repressor CTCFL Human genes 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 230000037430 deletion Effects 0.000 description 7
- 239000003814 drug Substances 0.000 description 7
- 230000004777 loss-of-function mutation Effects 0.000 description 7
- 150000007523 nucleic acids Chemical class 0.000 description 7
- 238000002360 preparation method Methods 0.000 description 7
- 230000008439 repair process Effects 0.000 description 7
- 238000004904 shortening Methods 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 6
- 108010046914 Exodeoxyribonuclease V Proteins 0.000 description 6
- 102100029075 Exonuclease 1 Human genes 0.000 description 6
- 102000019236 Exonuclease V Human genes 0.000 description 6
- 241000700721 Hepatitis B virus Species 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 6
- 229940079593 drug Drugs 0.000 description 6
- 208000002672 hepatitis B Diseases 0.000 description 6
- 230000000737 periodic effect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 102000004169 proteins and genes Human genes 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 238000011740 C57BL/6 mouse Methods 0.000 description 5
- 108010053770 Deoxyribonucleases Proteins 0.000 description 5
- 102000016911 Deoxyribonucleases Human genes 0.000 description 5
- 206010020751 Hypersensitivity Diseases 0.000 description 5
- 102000009572 RNA Polymerase II Human genes 0.000 description 5
- 108010009460 RNA Polymerase II Proteins 0.000 description 5
- 230000001594 aberrant effect Effects 0.000 description 5
- 230000017531 blood circulation Effects 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 5
- 238000002512 chemotherapy Methods 0.000 description 5
- 239000013068 control sample Substances 0.000 description 5
- 238000006731 degradation reaction Methods 0.000 description 5
- 238000001727 in vivo Methods 0.000 description 5
- 230000003834 intracellular effect Effects 0.000 description 5
- 238000011813 knockout mouse model Methods 0.000 description 5
- 230000001575 pathological effect Effects 0.000 description 5
- 239000013612 plasmid Substances 0.000 description 5
- 238000005096 rolling process Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 230000001225 therapeutic effect Effects 0.000 description 5
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 4
- 102100034150 Apoptosis-enhancing nuclease Human genes 0.000 description 4
- 101710183155 Apoptosis-enhancing nuclease Proteins 0.000 description 4
- 208000019838 Blood disease Diseases 0.000 description 4
- 102100022872 Deoxyribonuclease-1-like 1 Human genes 0.000 description 4
- 102100031155 Deoxyribonuclease-1-like 2 Human genes 0.000 description 4
- 102100021008 Endonuclease G, mitochondrial Human genes 0.000 description 4
- 108010007577 Exodeoxyribonuclease I Proteins 0.000 description 4
- 102100026121 Flap endonuclease 1 Human genes 0.000 description 4
- 108050002219 Flap endonuclease 1 Proteins 0.000 description 4
- 241001529936 Murinae Species 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 4
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 4
- 230000004071 biological effect Effects 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 4
- 239000002299 complementary DNA Substances 0.000 description 4
- 229940104302 cytosine Drugs 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000001976 enzyme digestion Methods 0.000 description 4
- 238000013401 experimental design Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 239000012530 fluid Substances 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 208000018706 hematopoietic system disease Diseases 0.000 description 4
- 210000003734 kidney Anatomy 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000010172 mouse model Methods 0.000 description 4
- 102000039446 nucleic acids Human genes 0.000 description 4
- 108020004707 nucleic acids Proteins 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 210000002966 serum Anatomy 0.000 description 4
- 230000009885 systemic effect Effects 0.000 description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 201000005112 urinary bladder cancer Diseases 0.000 description 4
- 102000014914 Carrier Proteins Human genes 0.000 description 3
- 102000039208 DNase I family Human genes 0.000 description 3
- 101710206036 Deoxyribonuclease-1 Proteins 0.000 description 3
- 108010033040 Histones Proteins 0.000 description 3
- 241000124008 Mammalia Species 0.000 description 3
- 102000008579 Transposases Human genes 0.000 description 3
- 108010020764 Transposases Proteins 0.000 description 3
- 238000010171 animal model Methods 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 108091008324 binding proteins Proteins 0.000 description 3
- 239000000969 carrier Substances 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- 239000003153 chemical reaction reagent Substances 0.000 description 3
- 230000002759 chromosomal effect Effects 0.000 description 3
- 230000004087 circulation Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002255 enzymatic effect Effects 0.000 description 3
- 238000009169 immunotherapy Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 230000007170 pathology Effects 0.000 description 3
- -1 poI II Proteins 0.000 description 3
- 102000054765 polymorphisms of proteins Human genes 0.000 description 3
- 238000001959 radiotherapy Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 238000001356 surgical procedure Methods 0.000 description 3
- 238000002626 targeted therapy Methods 0.000 description 3
- KIAPWMKFHIKQOZ-UHFFFAOYSA-N 2-[[(4-fluorophenyl)-oxomethyl]amino]benzoic acid methyl ester Chemical compound COC(=O)C1=CC=CC=C1NC(=O)C1=CC=C(F)C=C1 KIAPWMKFHIKQOZ-UHFFFAOYSA-N 0.000 description 2
- 108091023037 Aptamer Proteins 0.000 description 2
- 206010003445 Ascites Diseases 0.000 description 2
- 241001598984 Bromius obscurus Species 0.000 description 2
- 108091033409 CRISPR Proteins 0.000 description 2
- 238000001712 DNA sequencing Methods 0.000 description 2
- 102100037373 DNA-(apurinic or apyrimidinic site) endonuclease Human genes 0.000 description 2
- 101710094552 Deoxyribonuclease-1-like 1 Proteins 0.000 description 2
- 101710094554 Deoxyribonuclease-1-like 2 Proteins 0.000 description 2
- 101710206037 Deoxyribonuclease-2 Proteins 0.000 description 2
- 102100022882 Deoxyribonuclease-2-alpha Human genes 0.000 description 2
- AOJJSUZBOXZQNB-TZSSRYMLSA-N Doxorubicin Chemical compound O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(=O)CO)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1 AOJJSUZBOXZQNB-TZSSRYMLSA-N 0.000 description 2
- 108010042407 Endonucleases Proteins 0.000 description 2
- 102000004533 Endonucleases Human genes 0.000 description 2
- HTTJABKRGRZYRN-UHFFFAOYSA-N Heparin Chemical compound OC1C(NC(=O)C)C(O)OC(COS(O)(=O)=O)C1OC1C(OS(O)(=O)=O)C(O)C(OC2C(C(OS(O)(=O)=O)C(OC3C(C(O)C(O)C(O3)C(O)=O)OS(O)(=O)=O)C(CO)O2)NS(O)(=O)=O)C(C(O)=O)O1 HTTJABKRGRZYRN-UHFFFAOYSA-N 0.000 description 2
- 108010034791 Heterochromatin Proteins 0.000 description 2
- 101000806846 Homo sapiens DNA-(apurinic or apyrimidinic site) endonuclease Proteins 0.000 description 2
- 101000902865 Homo sapiens Deoxyribonuclease-1-like 1 Proteins 0.000 description 2
- 101000845621 Homo sapiens Deoxyribonuclease-1-like 2 Proteins 0.000 description 2
- 101000902850 Homo sapiens Deoxyribonuclease-2-alpha Proteins 0.000 description 2
- 101001137538 Homo sapiens Endonuclease G, mitochondrial Proteins 0.000 description 2
- 101000918264 Homo sapiens Exonuclease 1 Proteins 0.000 description 2
- 101000813497 Homo sapiens Nuclease EXOG, mitochondrial Proteins 0.000 description 2
- FBOZXECLQNJBKD-ZDUSSCGKSA-N L-methotrexate Chemical compound C=1N=C2N=C(N)N=C(N)C2=NC=1CN(C)C1=CC=C(C(=O)N[C@@H](CCC(O)=O)C(O)=O)C=C1 FBOZXECLQNJBKD-ZDUSSCGKSA-N 0.000 description 2
- 101150084684 L3 gene Proteins 0.000 description 2
- 208000005777 Lupus Nephritis Diseases 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 108020005196 Mitochondrial DNA Proteins 0.000 description 2
- NWIBSHFKIJFRCO-WUDYKRTCSA-N Mytomycin Chemical compound C1N2C(C(C(C)=C(N)C3=O)=O)=C3[C@@H](COC(N)=O)[C@@]2(OC)[C@@H]2[C@H]1N2 NWIBSHFKIJFRCO-WUDYKRTCSA-N 0.000 description 2
- 102100039557 Nuclease EXOG, mitochondrial Human genes 0.000 description 2
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 2
- 101000845848 Rattus norvegicus Deoxyribonuclease-1 Proteins 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 2
- 230000003172 anti-dna Effects 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000001363 autoimmune Effects 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000002902 bimodal effect Effects 0.000 description 2
- 238000003766 bioinformatics method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 2
- 229910052792 caesium Inorganic materials 0.000 description 2
- TVFDJXOCXUVLDH-UHFFFAOYSA-N caesium atom Chemical compound [Cs] TVFDJXOCXUVLDH-UHFFFAOYSA-N 0.000 description 2
- 238000012754 cardiac puncture Methods 0.000 description 2
- DQLATGHUWYMOKM-UHFFFAOYSA-L cisplatin Chemical compound N[Pt](N)(Cl)Cl DQLATGHUWYMOKM-UHFFFAOYSA-L 0.000 description 2
- 229960004316 cisplatin Drugs 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000432 density-gradient centrifugation Methods 0.000 description 2
- 108010031616 deoxyribonuclease gamma Proteins 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009266 disease activity Effects 0.000 description 2
- 108010047964 endonuclease G Proteins 0.000 description 2
- 230000006862 enzymatic digestion Effects 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 229960005542 ethidium bromide Drugs 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- SDUQYLNIPVEERB-QPPQHZFASA-N gemcitabine Chemical compound O=C1N=C(N)C=CN1[C@H]1C(F)(F)[C@H](O)[C@@H](CO)O1 SDUQYLNIPVEERB-QPPQHZFASA-N 0.000 description 2
- 238000012224 gene deletion Methods 0.000 description 2
- 238000012239 gene modification Methods 0.000 description 2
- 102000054766 genetic haplotypes Human genes 0.000 description 2
- 238000003205 genotyping method Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 210000002216 heart Anatomy 0.000 description 2
- 229960002897 heparin Drugs 0.000 description 2
- 229920000669 heparin Polymers 0.000 description 2
- 210000004458 heterochromatin Anatomy 0.000 description 2
- 238000000338 in vitro Methods 0.000 description 2
- 238000011528 liquid biopsy Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 230000002438 mitochondrial effect Effects 0.000 description 2
- 208000010125 myocardial infarction Diseases 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000004940 nucleus Anatomy 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 229960002621 pembrolizumab Drugs 0.000 description 2
- 230000035790 physiological processes and functions Effects 0.000 description 2
- 238000009598 prenatal testing Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 102220021422 rs80357738 Human genes 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000003765 sex chromosome Anatomy 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 229940113082 thymine Drugs 0.000 description 2
- 238000002054 transplantation Methods 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- HWPZZUQOWRWFDB-UHFFFAOYSA-N 1-methylcytosine Chemical compound CN1C=CC(N)=NC1=O HWPZZUQOWRWFDB-UHFFFAOYSA-N 0.000 description 1
- MJEQLGCFPLHMNV-UHFFFAOYSA-N 4-amino-1-(hydroxymethyl)pyrimidin-2-one Chemical compound NC=1C=CN(CO)C(=O)N=1 MJEQLGCFPLHMNV-UHFFFAOYSA-N 0.000 description 1
- 208000024827 Alzheimer disease Diseases 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 238000010354 CRISPR gene editing Methods 0.000 description 1
- 206010053567 Coagulopathies Diseases 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 230000004544 DNA amplification Effects 0.000 description 1
- 238000007400 DNA extraction Methods 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 108091066245 DNase I family Proteins 0.000 description 1
- 101150017771 Dffb gene Proteins 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 238000002965 ELISA Methods 0.000 description 1
- 208000005189 Embolism Diseases 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 206010015150 Erythema Diseases 0.000 description 1
- 108060002716 Exonuclease Proteins 0.000 description 1
- 102100023600 Fibroblast growth factor receptor 2 Human genes 0.000 description 1
- 101710182389 Fibroblast growth factor receptor 2 Proteins 0.000 description 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 1
- 102100036263 Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Human genes 0.000 description 1
- 101001001786 Homo sapiens Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Proteins 0.000 description 1
- 229940076838 Immune checkpoint inhibitor Drugs 0.000 description 1
- 102000037984 Inhibitory immune checkpoint proteins Human genes 0.000 description 1
- 108091008026 Inhibitory immune checkpoint proteins Proteins 0.000 description 1
- 208000006994 Precancerous Conditions Diseases 0.000 description 1
- 206010036790 Productive cough Diseases 0.000 description 1
- 235000014548 Rubus moluccanus Nutrition 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- FOCVUCIESVLUNU-UHFFFAOYSA-N Thiotepa Chemical compound C1CN1P(N1CC1)(=S)N1CC1 FOCVUCIESVLUNU-UHFFFAOYSA-N 0.000 description 1
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical class O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 1
- 206010047115 Vasculitis Diseases 0.000 description 1
- JXLYSJRDGCGARV-WWYNWVTFSA-N Vinblastine Natural products O=C(O[C@H]1[C@](O)(C(=O)OC)[C@@H]2N(C)c3c(cc(c(OC)c3)[C@]3(C(=O)OC)c4[nH]c5c(c4CCN4C[C@](O)(CC)C[C@H](C3)C4)cccc5)[C@@]32[C@H]2[C@@]1(CC)C=CCN2CC3)C JXLYSJRDGCGARV-WWYNWVTFSA-N 0.000 description 1
- 210000002593 Y chromosome Anatomy 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 208000026935 allergic disease Diseases 0.000 description 1
- 208000007502 anemia Diseases 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006470 autoimmune attack Effects 0.000 description 1
- 230000005784 autoimmunity Effects 0.000 description 1
- 229950002916 avelumab Drugs 0.000 description 1
- 230000007321 biological mechanism Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000000601 blood cell Anatomy 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 230000005907 cancer growth Effects 0.000 description 1
- 108010042238 caspase-activated deoxyribonuclease Proteins 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 239000013611 chromosomal DNA Substances 0.000 description 1
- 208000019425 cirrhosis of liver Diseases 0.000 description 1
- 230000035602 clotting Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000003412 degenerative effect Effects 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 230000001066 destructive effect Effects 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 235000019621 digestibility Nutrition 0.000 description 1
- 102000038379 digestive enzymes Human genes 0.000 description 1
- 108091007734 digestive enzymes Proteins 0.000 description 1
- 229960004679 doxorubicin Drugs 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 229950009791 durvalumab Drugs 0.000 description 1
- 230000004064 dysfunction Effects 0.000 description 1
- 238000000835 electrochemical detection Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 210000002472 endoplasmic reticulum Anatomy 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 229950004444 erdafitinib Drugs 0.000 description 1
- 231100000321 erythema Toxicity 0.000 description 1
- 102000013165 exonuclease Human genes 0.000 description 1
- 208000010706 fatty liver disease Diseases 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 230000009795 fibrotic process Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 229960005277 gemcitabine Drugs 0.000 description 1
- 230000003394 haemopoietic effect Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 210000003494 hepatocyte Anatomy 0.000 description 1
- 238000001794 hormone therapy Methods 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000009610 hypersensitivity Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 239000012274 immune-checkpoint protein inhibitor Substances 0.000 description 1
- 238000001114 immunoprecipitation Methods 0.000 description 1
- 230000008595 infiltration Effects 0.000 description 1
- 238000001764 infiltration Methods 0.000 description 1
- 208000027866 inflammatory disease Diseases 0.000 description 1
- 239000003112 inhibitor Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000037041 intracellular level Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000000302 ischemic effect Effects 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 210000002429 large intestine Anatomy 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 206010025135 lupus erythematosus Diseases 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000001840 matrix-assisted laser desorption--ionisation time-of-flight mass spectrometry Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 230000001394 metastastic effect Effects 0.000 description 1
- 206010061289 metastatic neoplasm Diseases 0.000 description 1
- 229960000485 methotrexate Drugs 0.000 description 1
- 238000007855 methylation-specific PCR Methods 0.000 description 1
- 238000010208 microarray analysis Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 229960004857 mitomycin Drugs 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 210000005087 mononuclear cell Anatomy 0.000 description 1
- 201000006417 multiple sclerosis Diseases 0.000 description 1
- OLAHOMJCDNXHFI-UHFFFAOYSA-N n'-(3,5-dimethoxyphenyl)-n'-[3-(1-methylpyrazol-4-yl)quinoxalin-6-yl]-n-propan-2-ylethane-1,2-diamine Chemical compound COC1=CC(OC)=CC(N(CCNC(C)C)C=2C=C3N=C(C=NC3=CC=2)C2=CN(C)N=C2)=C1 OLAHOMJCDNXHFI-UHFFFAOYSA-N 0.000 description 1
- 239000006199 nebulizer Substances 0.000 description 1
- 210000002445 nipple Anatomy 0.000 description 1
- 229960003301 nivolumab Drugs 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 210000000496 pancreas Anatomy 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 229940012957 plasmin Drugs 0.000 description 1
- 210000004910 pleural fluid Anatomy 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000017854 proteolysis Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 206010039073 rheumatoid arthritis Diseases 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 210000004706 scrotum Anatomy 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 230000005783 single-strand break Effects 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 239000000344 soap Substances 0.000 description 1
- 239000007790 solid phase Substances 0.000 description 1
- 238000000527 sonication Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000002798 spectrophotometry method Methods 0.000 description 1
- 238000004611 spectroscopical analysis Methods 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 210000003802 sputum Anatomy 0.000 description 1
- 208000024794 sputum Diseases 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 238000011476 stem cell transplantation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000003239 susceptibility assay Methods 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000011521 systemic chemotherapy Methods 0.000 description 1
- 210000001138 tear Anatomy 0.000 description 1
- 229940066453 tecentriq Drugs 0.000 description 1
- 210000001550 testis Anatomy 0.000 description 1
- 238000011287 therapeutic dose Methods 0.000 description 1
- 238000002560 therapeutic procedure Methods 0.000 description 1
- 229960001196 thiotepa Drugs 0.000 description 1
- 210000001541 thymus gland Anatomy 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 230000000451 tissue damage Effects 0.000 description 1
- 231100000827 tissue damage Toxicity 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 206010044412 transitional cell carcinoma Diseases 0.000 description 1
- 229940111528 trexall Drugs 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 239000000107 tumor biomarker Substances 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
- 229960003048 vinblastine Drugs 0.000 description 1
- JXLYSJRDGCGARV-XQKSVPLYSA-N vincaleukoblastine Chemical compound C([C@@H](C[C@]1(C(=O)OC)C=2C(=CC3=C([C@]45[C@H]([C@@]([C@H](OC(C)=O)[C@]6(CC)C=CCN([C@H]56)CC4)(O)C(=O)OC)N3C)C=2)OC)C[C@@](C2)(O)CC)N2CCC2=C1NC1=CC=CC=C21 JXLYSJRDGCGARV-XQKSVPLYSA-N 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
核酸酶活性可以影响cfDNA的甲基化水平和片段化。某些水平的核酸酶活性可以与某些区域中的某些水平的甲基化相关。可以分析某些基因组区域中的甲基化水平以对核酸酶活性进行分类。与其它基因组区域的甲基化状态相比,不同基因组区域的甲基化状态可以确定对象中的病况(例如疾病,例如癌症或病症)的等级。通过分析不同位点的甲基化状态可以监测核酸酶活性。治疗的功效也可以使用在某些基因组区域的甲基化水平来确定。来自在参考基因组中为低甲基化或高甲基化的基因组区域的片段的数目可用于提供样品本身的信息(例如,浓度分数)。染色体外环状DNA的大小谱也可用于分析生物样品。还描述了系统。
Description
相关申请的交叉引用
本申请要求2022年3月1日提交的名称为“CELL-Free DNA METHYLATION ANDNUCLEASE-MEDIATED FRAGMENTATION”的美国临时专利申请号63/615,468和2021年4月8日提交的名称为“CELL-Free DNA METHYLATION AND NUCLEASE-MEDIATED FRAGMENTATION”的美国临时专利申请号63/172,542的权益,这两篇的全部内容通过引用并入到本文中,并用于所有目的。
背景技术
使用无细胞DNA(cfDNA)的许多令人兴奋的诊断和预后应用已经被开发用于无创产前测试和癌症液体活组织检查(Chiu et al.,Proc Ntl Acad Sci USA.2008;105:20458-20463;Chan et al.,N Engl J Med,2017;377:513-522)。血浆cfDNA基本上是从体内不同组织释放的模式大小为166bp的短DNA分子的混合物,所述组织包括但不限于造血组织、脑、肝、肺、结肠、胰腺等(Sun et al.,Proc Natl Acad Sci USA.2015;112:E5503-12;Lehmann-Werman et al.,Proc Natl Acad Sci USA.2016;113:E1826-34;Moss et al.,Nat Commun.2018;9:5068)。
利用多种细胞类型中独特的甲基化模式,已经在不同的甲基化区域探查了cfDNA以确定cfDNA分子的起源组织,其中来自特定组织的cfDNA的增加可以允许定位病状部位(Sun et al.,Proc Natl Acad Sci USA.2015;112:E5503-12;Guo et al.,NatGenet.2017;49:635-642)。例如,癌症和正常细胞之间DNA甲基化差异的全基因组分析已经被用于癌症检测(Chan et al.,Proc Natl Acad Sci USA.2013;110:18761-18768;Kanget al.,Genome Bio.2017:18)。
尽管cfDNA甲基化是用于癌症和起源组织测试的有前景的标志物,但是该领域仅开始探索cfDNA片段化背后的生物。在这一点上,已经发现DNA片段化成cfDNA是非随机的,并且反映了核小体的潜在位置(Sun et al.,Genome Res.2019;29:418-427;Snyder etal.,Cell.2016;164:57-68;Ivanov et al.,BMC Genomics.2015;16:S1;Chandrananda etal.,BMC Med Genomics.2015;8:29)。通过研究cfDNA的片段组学,我们以前已经表明不同的核酸酶缺陷影响cfDNA片段末端和大小谱(Serpas et al.,Proc Natl Acad SciUSA.2019;116:641-649;Han et al.,Am J Hum Genet.2020;106:202-214;Chan et al.,Am J Hum Genet.2020;1-13)。cfDNA的片段组学谱已被揭示为癌症的新兴生物标志物(Jiang et al.,Cancer Discov.2020;10:664-673)。
发明内容
本公开内容的一些实施方案描述了用于确定核酸酶介导的cfDNA片段化的cfDNA甲基化测量的实际实施方式,其可用于确定癌症等级和样品中的cfDNA的浓度分数。某些水平的核酸酶活性可以与某些区域中的某些水平的甲基化相关。
作为实例,可分析某些基因组区域中的甲基化水平以分类核酸酶活性。覆盖低甲基化或高甲基化位点的片段的相对丰度可用于确定对象的病况(例如疾病或病症)等级,核酸酶活性的分类,或样品中临床相关DNA分子的浓度分数。基因是否表现出遗传病症或治疗效力的分类也可使用某些位点的甲基化水平来确定。
来自患有病况的对象的DNA片段可能具有更大的倾向在某些区域(例如,开放染色质区域)内。与包括这些区域外的那些的拷贝数异常相比,这些区域内的拷贝数异常的数目可用于确定对象是否具有病况。
在其它实例中,生物样品中cfDNA的甲基化也可用于提供样品本身的信息。分析来自参考基因组中低甲基化或高甲基化位点的片段可用于估计生物样品中临床相关DNA分子的浓度分数。
除了使用线性cfDNA外,来自染色体外环状DNA(eccDNA)的cfDNA也可用于分析生物样品。来自eccDNA的cfDNA片段的大小谱可用于确定基因是否表现出遗传病症的分类,核酸酶活性的分类或治疗功效。基于样品中eccDNA的量的参数值可用于确定基因是否表现出遗传病症。本文所述的实施方案还包括用于测定来自eccDNA的无细胞DNA片段的混合物中的量的方法。
下面详细描述本公开内容的这些和其它实施方案。例如,其它实施方案涉及与本文描述的方法相关联的系统,装置和计算机可读介质。
参考以下详细描述和附图,可以获得对本发明实施方案的性质和优点的更好理解。
术语
“组织”对应于聚集一起作为功能单元的一组细胞。在单个组织中可以发现多于一种类型的细胞。不同类型的组织可由不同类型的细胞(例如肝细胞,肺泡细胞或血细胞)组成,但也可对应于来自不同生物体(母亲对胎儿)的组织或对应于健康细胞比肿瘤细胞。“参考组织”可对应于用于确定组织特异性甲基化水平的组织。来自不同个体的相同组织类型的多个样品可用于确定该组织类型的组织特异性甲基化水平。
“生物样品”是指取自对象(例如,人(或其它动物),例如孕妇、患有癌症或其他病症的人,或怀疑患有癌症或其他病症的人、器官移植接受者或怀疑患有涉及器官的疾病过程(例如,心肌梗死中的心脏,或中风中的脑,或贫血中的造血系统)的对象,并且含有一种或多种感兴趣的核酸分子的任何样品。生物样品可以是体液,例如血液,血浆,血清,尿液,阴道液,来自阴囊(例如睾丸的腹水)的液体,阴道冲洗液,胸腔液,腹水,脑脊液,唾液,汗液,泪液,痰液,支气管肺泡灌洗液,来自乳头的排出液体,来自身体的不同部分(例如,甲状腺,乳房)的吸出液体,眼内液体(例如房水)等。也可使用粪便样品。在各种实施方案中,已经针对无细胞DNA进行富集的生物样品(例如,通过离心方案获得的血浆样品)中的大部分DNA可以是无细胞的,例如,大于50%、60%、70%、80%、90%、95%或99%的DNA可以是无细胞的。离心方案可包括例如3,000g×10分钟,获得液体部分,并在例如30,000g下再离心10分钟以去除残余细胞。作为生物样品分析的一部分,可以针对生物样品分析无细胞DNA分子的统计学显著的数目(例如以提供精确的测量)。在一些实施方案中,分析至少1,000个无细胞DNA分子。在其它实施方案中,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个无细胞DNA分子或更多。可以分析至少相同数目的序列读数。
“序列读数”是指从核酸分子的任何部分或全部测序的一串核苷酸。例如,序列读数可以是从核酸片段测序的核苷酸的短串(例如,20-150个核苷酸),在核酸片段的一端或两端的核苷酸的短串,或存在于生物样品中的整个核酸片段的测序。序列读数可以以多种方式获得,例如使用测序技术或使用探针,例如在杂交阵列中或在可以用于微阵列的捕获探针中,或扩增技术,例如聚合酶链式反应(PCR)或使用单一引物的线性扩增或等温扩增。作为生物样品分析的一部分,可以分析至少1,000个序列读数。作为其它实例,可以分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000个序列读数或更多。可以使用一定量的序列读数作为DNA片段数目的代表。为了从所述量的序列读数确定DNA片段的数目,可以进行计算以解释配对末端测序和/或堆测序技术的偏倚。
序列读数可以包括与片段的末端相关联的“终止序列”。终止序列可对应于片段的最外的N个碱基,例如片段末端的1-30个碱基。如果序列读数对应于整个片段,则序列读数可以包括两个终止序列。当配对末端测序提供对应于片段末端的两个序列读数时,每个序列读数可以包括一个终止序列。
“终止位置”或“末端位置”(或仅“末端”)可指无细胞DNA分子(例如血浆DNA分子)的最外面的碱基(即末端)的基因组坐标或基因组身份或核苷酸身份。末端位置可对应于DNA分子的任一端。以这种方式,如果是指DNA分子的起始和结束,则两者都对应于终止位置。在实践中,一个末端位置是通过分析方法检测或确定的无细胞DNA分子的一个末端上的最外面的基因组坐标或核苷酸身份,所述分析方法例如但不限于大规模平行测序或下一代测序、单分子测序、双链或单链DNA测序文库制备方案,聚合酶链反应(PCR)或微阵列。这种体外技术可改变无细胞DNA分子的真实体内物理末端。因此,每个可检测的末端可以代表生物上真实的末端或末端是向内的一个或多个核苷酸或从分子的原始末端延伸的一个或多个核苷酸,例如通过Klenow片段的非钝化端双链DNA分子的悬突的5’钝化和3’填充。末端位置的基因组身份或基因组坐标可以从序列读数与人类参考基因组(例如hg19)的比对结果中得到。它可以从代表人类基因组的原始坐标的索引或代码的目录中得到。它可以指无细胞DNA分子上的位置或核苷酸身份,其通过但不限于靶标特异性探针,微型测序,DNA扩增读取。
“优选的末端”(或“经常发生的终止位置”)是指在具有生理(例如妊娠)或病理(疾病)状态(例如癌症)的生物样品中比不具有这种状态的生物样品或在相同病理或生理状态的不同时间点或阶段(例如,治疗之前或之后)更高度表现或更普遍(例如,通过比值测量)的末端。因此,相对于其它状态,优选的末端在相关的生理或病理状态中检测到的可能性或概率增加。增加的概率可以在病理状态和非病理状态之间进行比较,例如在患有和未患有癌症的患者中,并且被量化为似然比或相对概率。似然比可以基于在测试样品中检测到至少阈值数目的优选末端的概率或基于相比在没有这样的病况的患者,在具有这样的病况的患者中检测到优选的末端的概率来确定。似然比的阈值的实例包括但不限于1.1、1.2、1.3、1.4、1.5、1.6、1.8、2.0、2.5、3.0、3.5、4.0、4.5、5、6、8、10、20、40、60、80和100。这种似然比可以通过比较具有和不具有相关状态的样品的相对丰度值来测量。因为在相关的生理或疾病状态中检测到优选的末端的概率较高,所以在多于一个具有相同生理或疾病状态的个体中可以看到这样的优选的终止位置。随着概率的增加,即使当分析的无细胞DNA分子的数目远小于基因组的大小时,也可以检测到一个以上的无细胞DNA分子终止于相同的优选的终止位置。因此,优选的或经常发生的终止位置也被称为“频繁的终止位置”。在一些实施方案中,可以使用定量阈值来要求,在同一样品或同一样品等分试样内至少多次(例如,3、4、5、6、7、8、9、10、15、20或50次)检测到的末端被认为是优选的末端。相关的生理状态可以包括当人健康,无疾病或没有感兴趣的疾病时的状态。类似地,“优选的终止窗口”对应于一组连续的优选终止位置。
DNA分子终止于某一位置的“比值”与DNA分子终止于该位置的频率有关。这样的比值可以被称为“末端密度”。该比值可以基于在相对于所分析的多种DNA分子的数目归一化的在该位置结束的DNA分子的数目。归一化还可以基于周围区域中的末端的平均数,中位数或总数。用于归一化的周围区域可包括但不限于位于该位置上游和/或下游的500、1000、3000、5000bp等。
术语“等位基因”是指在相同的物理基因组基因座上的可选择的DNA序列,其可以导致或不导致不同的表型性状。在任何特定的二倍体生物体中,每个染色体具有两个拷贝(雄性人类对象的性染色体除外),每个基因的基因型包括在该基因座上存在的等位基因对,其在纯合子中是相同的并且在杂合子中是不同的。生物体的群体或物种通常包括在各个体的每个基因座上的多个等位基因。在群体中发现多于一个等位基因的基因组基因座被称为多态性位点。基因座处的等位基因变异可测量为群体中存在的等位基因的数目(即,多态性程度)或杂合子的比例(即,杂合率)。如本文所用,术语“多态性”是指人类基因组中的任何个体间变异,无论其频率如何。这种变异的实例包括但不限于单核苷酸多态性、简单串联重复多态性、插入-缺失多态性、突变(其可能是引起疾病的)和拷贝数变异。本文所用的术语“单倍型”是指在多个基因座上的等位基因的组合,所述多个基因座在同一染色体或染色体区域上一起传递。单倍型可以指少至一对基因座或染色体区域,或指整个染色体或染色体臂。
“相对频率”(也仅称为“频率”)可指比例(例如,百分比、分数或浓度)。特别地,特定末端基序(例如,CCGA或者仅为单个碱基)的相对频率可以提供样品中与末端基序CCGA相关的无细胞DNA片段的比例,例如通过具有CCGA的终止序列来提供样品中与末端基序CCGA相关的无细胞DNA片段的比例。
“合计值”可以指例如一组终止位置的相对频率的集合属性。实例包括平均值,中位数,相对频率之和,相对频率之间的变化(例如,标准偏差(SD),变化系数(CV),四分位间范围(IQR)或不同相对频率之间的某一百分位截止值(例如,第95或第99百分位),或与相对频率的参考模式的差(例如,距离),如可以在聚类中实现的。
“校准样品”可对应于生物样品,其期望的测量值(例如核酸酶活性,遗传病症的分类,或其它期望的性质)是已知的或通过校准方法确定的,例如使用其它测量技术,例如用于有效剂量的凝血测量或用于测量核酸酶量的ELISA或用于测量核酸酶活性的核酸酶对DNA消化率的定量测定(示例性方法可包括在加入含核酸酶的样品之前和之后,或者实时的DNA量的荧光测量或分光光度测量;另一个实例是使用径向酶扩散方法)。校准样品可以具有单独的测量值(例如,具有特定末端基序或具有特定大小的片段的量可以被确定为与期望的测量值相关)。
“校准数据点”包括“校准值”(例如具有特定末端基序或具有指定大小的片段的量)和期望针对其他测试样品进行确定的测量的或已知的值。校准值可以由从样品的DNA分子测量的各种类型的数据确定(例如,例如具有末端基序或具有指定大小的片段的量)。校准值对应于与所需性质相关的参数,例如遗传病症的分类、核酸酶活性或抗凝血剂剂量的功效。例如,可以从为校准样品确定的测量值来确定校准值,对于该校准样品,期望的性质是已知的。校准数据点可以以多种方式定义,例如,作为离散点或作为校准函数(也称为校准曲线或校准面)。校准函数可以从校准数据点的附加数学变换中导出。
“位点”(也称为“基因组位点”)对应于单个位点,其可以是单个碱基位置或一组相关的碱基位置,例如CpG位点,TSS位点,Dnase超敏反应位点或更大组的相关碱基位置。“基因座”可对应于包括多个位点的区域。基因座可以仅包括一个位点,这将使得该基因座与该上下文中的位点等同。
“分离值”对应于涉及两个值(例如两个分数贡献或两个甲基化水平)的差值或比值。分离值可以是简单的差值或比值。作为实例,x/y的直接比值是分离值,x/(x+y)也是一样。分离值可以包括其它因子,例如乘法因子。作为其它实例,可以使用值的函数的差值或比值,例如两个值的自然对数(ln)的差值或比值。分离值可以包括差值或比值。
“分离值”和“合计值”(例如,相对频率的)是提供在不同分类(状态)之间变化的样品的测量值的参数(也称为度量)的两个示例,因此可用于确定不同的分类。合计值可以是分离值,例如,当在样品的一组相对频率和参考组的相对频率之间取得差时,这可以在聚类中进行。
“相对丰度”是一种分离值,其将在基因组位置的一个窗口内终止的无细胞DNA分子的量(一个值)与在基因组位置的另一个窗口内终止的无细胞DNA分子的量(其它值)相关联。这两个窗口可以重叠,但是可以具有不同的大小。在其它实施方式中,两个窗口不会重叠。此外,窗口可以是一个核苷酸的宽度,因此等同于一个基因组位置。末端密度是一种相对丰度。
本文所用的术语“分类”是指与样品的特定性质相关联的任何数字或其它字符。例如,“+”符号(或词“正”)可以表示样品被分类为具有缺失或扩增。分类可以是二进制的(例如,正的或负的)或具有更多的分类级别(例如,从1到10或0到1的标度)。
术语“截止值”和“阈值”是指在操作中使用的预定数字。例如,截止大小可以是指高于该大小的片段被排除的大小。阈值可以是这样的值,在其上或其下应用特定的分类。这些术语中的任一个可以在这些上下文的任一个中使用。截止值或阈值可以是“参考值”或从代表特定分类或区分两个或更多个分类的参考值导出。这样的参考值可以以各种方式确定,如本领域技术人员将理解的。例如,可以为具有不同已知分类的对象的两个不同群组确定度量,并且可以选择参考值作为一个分类(例如,平均值)或度量的两个簇之间的值(例如,被选择以获得期望的灵敏度和特异性)的代表。作为另一个例子,可以基于样品的统计模拟来确定参考值。可以基于期望的精确度(例如,灵敏度和特异性)来确定截止值,阈值,参考值等的特定值。
“病状等级”(或病症等级)可指与生物体相关的病状的量、程度或严重性。一个实例是表达核酸酶的细胞病症。病状的另一个实例是移植器官的排斥。其它示例性病状可以包括自身免疫攻击(例如,损伤肾的狼疮性肾炎或多发性硬化)、炎性疾病(例如,肝炎)、纤维化过程(例如,肝硬化)、脂肪浸润(例如,脂肪肝病)、退行性过程(例如,阿尔茨海默病)和缺血性组织损伤(例如,心肌梗塞或中风)。对象的健康状态可以被认为是没有病状的分类。病状可以是癌症。
术语“癌症等级”可指是否存在癌症(即,存在或不存在)、癌症的阶段、肿瘤的大小、是否存在转移、身体的总肿瘤负担、癌症对治疗的响应和/或癌症的严重程度的其他测量值(例如,癌症的复发)。癌症等级可以是许多或其它标记,例如符号,字母和颜色。该等级可以是零。癌症等级还可以包括恶化钱或癌前状况(状态)。癌症等级可以以各种方式使用。例如,筛查可以检查癌症是否存在于以前不知道患有癌症的人中。评估可调查已被诊断患有癌症的人以监测癌症随时间的进展,研究治疗的有效性或确定预后。在一个实施方案中,预后可表示为患者死于癌症的机会,或癌症在特定持续时间或时间后进展的机会,或癌症转移的机会或程度。检测可以指‘筛查’或可以指检查具有癌症的暗示特征(例如,症状或其它阳性测试)的某人是否患有癌症。
每个基因组位点(例如,CpG位点)的“甲基化指数”或“甲基化状态”可以指在该位点处显示出甲基化的DNA片段相对于覆盖该位点的读数的总数的比例(例如,由序列读数或探针确定)。“读数”可对应于从DNA片段获得的信息(例如,位点处的甲基化状态)。可以使用优先与特定甲基化状态的DNA片段杂交的试剂(例如引物或探针)获得读数。通常,这种试剂在用根据DNA分子的甲基化状态差异修饰或差异识别DNA分子的方法(例如亚硫酸氢盐转化,或甲基化敏感的限制酶,或甲基化结合蛋白,或抗甲基胞嘧啶抗体,或识别甲基胞嘧啶和羟甲基胞嘧啶的单分子测序技术)处理后施用。
区域的“甲基化密度”可以指显示甲基化的区域内的位点的读数数目除以覆盖该区域中的位点的读数的总数。所述位点可以具有特定的特征,例如是CpG位点。因此,区域的“CpG甲基化密度”可以指显示CpG甲基化的读数数目除以覆盖该区域中的CpG位点(例如,特定的CpG位点,CpG岛内的CpG位点,或较大区域)的读数的总数。例如,人类基因组中每个100kb区段(bin)的甲基化密度,可以从亚硫酸氢盐处理后在CpG位点未转化的胞嘧啶(其对应于甲基化胞嘧啶)的总数作为映射到所述100kb区域的序列读数所覆盖的所有CpG位点的比例来确定。这种分析也可以针对其它的区段大小进行,例如500bp、5kb、10kb、50kb或1-Mb等。区域可以是整个基因组或染色体或染色体的一部分(例如染色体臂)。当区域仅包括CpG位点时,CpG位点的甲基化指数与区域的甲基化密度相同。“甲基化胞嘧啶的比例”可以是指显示为甲基化的(例如在亚硫酸氢盐转化后未转化的)胞嘧啶位点,即“C”的数目,相对于在区域中所分析的胞嘧啶残基,即包括CpG背景之外的胞嘧啶的总数。甲基化指数,甲基化密度和甲基化胞嘧啶的比例是“甲基化水平”的实例。除了亚硫酸氢盐转化之外,本领域技术人员已知的其它方法可用于询问DNA分子的甲基化状态,包括但不限于对甲基化状态敏感的酶(例如甲基化敏感的限制酶),甲基化结合蛋白,使用对甲基化状态敏感的平台的单分子测序(例如纳米孔测序(Schreiber et al.Proc Natl Acad Sci 2013;110:18910-18915)和通过Pacific Biosciences单分子实时分析(Tse et al.Proc Natl Acad Sci US A 2021;118:e2019768118)。
术语“低甲基化”可指具有低于甲基化水平的指定值的位点或位点组(例如区域),例如,在甲基化水平的80%、75%、70%、65%或60%或低于甲基化水平的80%、75%、70%、65%或60%。术语“高甲基化”可以指具有高于甲基化水平的指定值的位点或位点组(例如区域),例如在甲基化水平的80%、75%、70%、65%或60%或高于甲基化水平的80%、75%、70%、65%或60%。
基因的名称通常以斜体书写。人类基因通常还全部以大写字母书写。小鼠基因可能在第一个字母之后不会被大写。蛋白质通常全部以大写字母书写,并且没有斜体。例如,小鼠可以具有Dnase1l3基因和DNASE1L3蛋白,而人可以具有DNASE1L3基因和DNASE1L3蛋白。
术语“约”或“近似地”可以是指在由本领域普通技术人员确定的特定值的可接受的误差范围内,这将部分地取决于如何测量或确定该值,即测量系统的限制。例如,“约”可以指根据本领域的实践,1个或多于1个标准偏差内。或者,“约”可以指给定值的至多20%、至多10%、至多5%或至多1%的范围。或者,特别是对于生物系统或过程,术语“约”或“近似地”可以指在值的一个数量级内,在5倍内,并且更优选在2倍内。当在申请和权利要求中描述特定值时,除非另有说明,否则应当假定术语“约”是指在该特定值的可接受的误差范围内。术语“约”可以具有本领域普通技术人员通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。
附图说明
图1显示了根据本发明的实施方案,在全基因组水平上,来自Dnase1l3缺陷型小鼠的cfDNA是低甲基化的,而来自Dnase1缺陷型小鼠的cfDNA是高甲基化的。从每个样品的血浆cfDNA和血沉棕黄层基因组DNA中的所有测序片段计算总CpG甲基化百分比。对配对的血浆和血沉棕黄层样品进行Wilcoxon符号秩检验。在野生型和Dnase1l3缺陷型样品之间进行Wilcoxon秩和检验。
图2A、2B、2C、2D和2E显示了根据本发明的实施方案相对于某些位点的中位数CpG甲基化百分比。显示了来自每种基因型的转录起始位点(图2A)、RNA聚合酶II位点(图2B)、H3K4me3标志物区域(图2C)、H3K27ac标志物区域(图2D)和随机区域(图2E)中的cfDNA的中位数CpG甲基化百分比。在这些聚集区域的每一个上计算每个样品中所有片段的CpG甲基化百分比,并且每种基因型的中位数显示在±3000bp窗口中。来自WT小鼠的cfDNA为绿色,Dnase1l3缺陷型小鼠为红色,而Dnase1缺陷型小鼠为蓝色。
图3显示了WT、Dnase1l3缺陷型小鼠和Dnase1缺陷型小鼠的cfDNA大小谱。使用所有样品片段绘制每种基因型的中位数cfDNA大小谱图。来自WT小鼠的cfDNA为绿色,Dnase1l3缺陷型小鼠为红色,而Dnase1缺陷型小鼠为蓝色。
图4A、4B和4C显示了根据本发明实施方案的非甲基化和甲基化片段的大小谱。在野生型(图4A)、Dnase1l3缺陷型(图4B)和Dnase1缺陷型小鼠(图4C)的cfDNA内比较0%甲基化的片段(橙色)和100%甲基化的片段(紫色)的大小谱。
图5A和5B显示了根据本发明实施方案的仅使用0%甲基化的片段(图5A)或仅使用100%甲基化的片段(图5B)的不同基因型的cfDNA的大小谱。
图6A、6B、6C、6D、6E和6F显示了根据本发明实施方案的不同基因型在离不同位点相对距离处的归一化末端密度。
图7显示了根据本发明实施方案的OCR和CpG岛(CGI)中片段的大小谱。显示了OCR和CGI内片段的中位数cfDNA大小谱。来自野生型小鼠的cfDNA为绿色,Dnase1l3缺陷型小鼠为红色,而Dnase1缺陷型小鼠为蓝色。所有野生型片段的cfDNA大小谱作为比较显示为灰色。
图8显示了根据本发明实施方案的不同基因型的OCR和CGI区域中片段的比例。来自Dnase1l3缺陷型小鼠的cfDNA具有显著增加的OCR和CGI片段的比例。在野生型和Dnase1l3缺陷型小鼠样品之间进行Wilcoxon秩和检验。
图9显示了根据本发明的实施方案在掩蔽分析中生物信息学地排除OCR和CGI片段后的CpG甲基化百分比。在这些片段被掩蔽后,CpG甲基化百分比增加。来自Dnase1l3缺陷型小鼠的cfDNA的相对低甲基化在掩蔽后显著减少,但仍与野生型小鼠的cfDNA甲基化显著不同。在野生型和Dnase1l3缺陷型样品之间进行Wilcoxon秩和检验。
图10A-10C是显示根据本发明实施方案在掩蔽OCR和CGI片段之前(外环)和之后(内环)的全基因组CpG甲基化百分比的circos图。每个点代表小鼠常染色体的1Mb区段中的CpG甲基化百分比,并且如果≥70%则呈蓝色,而如果<70%则呈红色。显示野生型(图10A)、Dnase1l3缺陷型(图10B)和Dnase1缺陷型小鼠(图10C)的circos图。
图11是根据本发明实施方案的不同基因型的指定大小的所有片段的中位数CpG甲基化百分比的图。
图12是根据本发明实施方案的不同基因型的每种片段大小内的OCR和CGI片段的比例的图。
图13是根据本发明实施方案掩蔽OCR和CGI片段后每个片段大小的CpG甲基化百分比的图。
图14A、14B和14C显示了根据本发明的实施方案,在掩蔽野生型(图14A)、Dnase1l3缺陷型(图14B)和Dnase1缺陷型小鼠(图14C)中的OCR和CGI片段之前和之后的每种片段大小的CpG甲基化百分比。
图15A和15B显示了根据本发明实施方案的野生型、Dnase1l3缺陷型和Dnase1缺陷型小鼠中推定非甲基化的CpG(图15A)和推定甲基化的CpG(图15B)的血浆cfDNA甲基化百分比。
图16A、16B和16C显示了根据本发明的实施方案,在推定的甲基化CpG上的归一化的末端密度。鉴定推定甲基化的CpG,并通过±1000bp区域的中位数末端计数归一化这些CpG上的血浆cfDNA末端密度。显示±1000bp的窗口(图16A)和±20bp的窗口(图16B、图16C)。被鉴定的C被置于位置0。显示了所有野生型样品(绿色)和所有Dnase1缺陷型小鼠样品(蓝色)的归一化末端密度之间的比较(图16B)。显示了所有野生型样品(绿色)和所有Dnase1l3缺陷型小鼠样品(红色)的归一化末端密度之间的比较(图16C)。
图17A、17B和17C显示了根据本发明实施方案的推定非甲基化的CpG上的归一化末端密度。鉴定推定非甲基化的CpG,并通过±1000bp区域的中位数末端计数归一化这些CpG上的血浆cfDNA末端密度。显示±1000bp的窗口(图17A)和±20bp的窗口(图17B、17C)。被鉴定的C被置于位置0。显示了所有野生型样品(绿色)和所有Dnase1缺陷型小鼠样品(蓝色)的归一化末端密度之间的比较(图17B)。显示了所有野生型样品(绿色)和所有Dnase1l3缺陷型小鼠样品(红色)的归一化末端密度之间的比较(图17C)。
图18显示了根据本发明的实施方案的人血浆(橙色)和血沉棕黄层(紫色)样品的CpG甲基化百分比。H2、H4和V11具有纯合移码c.290_291delCA(p.Thr97Ilefs*2)突变,并且H1是H2和H4的杂合亲本。显示了8个对照样品的中位数。
图19A和19B显示了在聚集的TSS区域(图19A)和随机区域(图19B)上计算的来自每个样品的片段的CpG甲基化百分比。每种样品类型的中位数显示在±3000bp的窗口中。
图20A和20B显示了根据本发明的实施方案,仅使用0%甲基化的片段(图20A)或仅使用100%甲基化的片段(图20B)绘制的每个对象类型的中位数cfDNA大小谱。
图21A和21B显示了在聚集的TSS区域(图21A)和随机区域(图21B)上的±1000bp的窗口中的每种样品类型的中位数归一化末端密度。
图22显示了根据本发明实施方案的OCR和CGI区域中片段的比例。OCR被定义为围绕TSS、PoI II、H3K4me3和H3K27ac区域的中心的±500bp的区域。来自DNASE1L3缺陷型对象的cfDNA具有显著增加的OCR和CGI片段的比例。在对照和DNASE1L3缺陷型对象之间进行Wilcoxon秩和检验。
图23A、23B和23C显示了来自正常患者(图23A)和DNASE1L3缺陷型患者(图23B和23C)的Circos图,其显示了根据本发明实施方案在掩蔽OCR和CGI片段之前(外环)和之后(内环)的全基因组的CpG甲基化百分比。每个点代表小鼠常染色体的1Mb区段中的CpG甲基化百分比,如果≥70%则呈蓝色,如果<70%则呈红色。红点比蓝点更靠近中心。
图24显示了根据本发明实施方案在±20bp的窗口中推定甲基化的CpG上的归一化末端密度。被鉴定的C被置于位置0。来自对照样品的cfDNA为浅绿色,杂合DNASE1L3亲本为深绿色,而DNASE1L3缺陷型对象为红色。
图25说明了根据本发明实施方案的DNASE1和DNASE1L3的推断活性。
图26显示了根据本发明实施方案的来自对照个体(CTR)、慢性乙型肝炎携带者(HBV)和肝细胞癌(HCC)患者的cfDNA CpG甲基化。由每个样品的血浆cfDNA中的所有亚硫酸氢盐测序片段计算总CpG甲基化百分比。来自HCC患者的cfDNA在全基因组水平上是相对低甲基化的,但使用Wilcoxon秩和检验,差异在统计学上不显著(P值=0.14)。
图27A和27B显示了根据本发明实施方案的OCR和CGI区域中片段的百分比。将围绕TSS、H3K4me3和H3K27ac区域中心的±500bp的区域与CGI区域合并。图27A显示了来自对照个体(CTR)、慢性乙型肝炎携带者(HBV)和肝细胞癌(HCC)患者的这些OCR和CGI区域中片段的比例,如图左侧所示。相比对照,来自HCC患者的cfDNA具有显著降低的OCR和CGI片段的比例(P值=0.009,Wilcoxon秩和检验)。图27B显示了来自对照个体(CTR)、低级别非肌肉侵入性膀胱癌(NMIBC_LG)、高级别非肌肉侵入性膀胱癌(NIMBC_HG)和高级别肌肉侵入性膀胱癌(MIBC_HG)的这些OCR和CGI区域中片段的比例。相比对照,来自所有三种类型膀胱癌的患者的cfDNA具有显著降低的OCR和CGI片段的比例(P值=0.003,Wilcoxon秩和检验)。
图28显示了根据本发明实施方案的OCR和CGI区域中片段的百分比。将围绕TSS、H3K4me3和H3K27ac区域中心的±500bp区域与CGI区域合并。显示了这些OCR和CGI区域中胎儿特异性和母体特异性片段的比例。这些OCR和CGI区域中的胎儿特异性片段明显少于母体特异性片段(P值=9.2E-06,Wilcoxon秩和检验)。
图29是显示包括转录起始位点(TSS)、CCCTC结合因子(CTCF)位点、DNase1超敏反应位点(DNase1)和H3K27ac、H3K4me3和H3K4me1组蛋白标志物的另一组开放染色质区域的表。
图30是显示根据本发明实施方案的健康个体(内环)、非活动性SLE患者(中环)和活动性SLE患者(外环)中跨整个基因组的1Mb区段中的基因组表示的circos图。每个点代表1Mb区段的基因组表示,并且如果与健康对照组中的平均基因组表示差-3个±SD,则呈红色,并且如果与健康对照组中的平均基因组表示差+3个±SD,则呈绿色。活动性SLE患者具有广泛不同的基因组分布的cfDNA。
图31是根据本发明实施方案的测量的基因组表示(MGR)计算的示意图。
图32是根据本发明的实施方案在生物信息学地去除开放染色质区域之后的基因组表示。电脑模拟去除开放染色质区域,并如图31所示计算测量的基因组表示(MGR)。
图33是根据本发明实施方案,在电脑模拟去除开放染色质区域(内环)之前和电脑模拟去除开放染色质区域(外环)之后,患有活动性SLE的患者(S112)中MGR的circo图。如图所示,由于电脑模拟去除开放染色质区域,拷贝数异常被归一化。
图34是根据本发明的实施方案,在电脑模拟去除开放染色质区域之前(内环)和电脑模拟去除开放染色质区域(外环)之后HCC患者中MGR的circo图。在示例HCC病例中,在掩蔽OCR区域之前和之后没有实质性的变化。
图35是根据本发明的实施方案在电脑模拟去除开放染色质区域之前和之后,来自SLE患者,HCC患者和健康个体的样品中MGR的框图表示。在生物信息学掩蔽健康对照和HCC患者的OCR之前和之后,具有异常MGR的区段的百分比(大于+3SD或小于-3SD)是类似的。另一方面,在掩蔽OCR后,其在SLE患者中显著不同。使用Wilcoxon秩和检验。这些结果表明在MGR异常分析中掩蔽开放染色质区域可用于减少假阳性结果。
图36A和36B显示了根据本发明的实施方案,在对照个体(CTR)、慢性乙型肝炎携带者(HBV)和肝细胞癌患者(HCC)中与推定甲基化的CpG(图36A)或推定非甲基化的CpG(图36B)的至少1个碱基重叠的片段的百分比。推定甲基化的CpG的覆盖率在CTR对比HCC中没有显著差异(P值0.89,Wilcoxon秩和检验),而对比CTR,推定非甲基化的CpG的覆盖率在HCC中显著更低(P值8.4E-05,Wilcoxon秩和检验)。推定甲基化的CpG位点(推定高甲基化或推定低甲基化的CPG位点)通过分析组织样品的下载数据集来区分,以鉴定一致甲基化或非甲基化的CpG位点,例如甲基化水平高于(高甲基化)或低于(低甲基化)指定值的那些。
图37A和37B显示了根据本发明的实施方案,对照个体(对照)、患有非活动性SLE的患者和患有活动性SLE的患者中与推定甲基化的CpG(图37A)或推定非甲基化的CpG(图37B)的至少1个碱基重叠的片段的百分比。推定甲基化的CpG的覆盖率在对照对比活动性SLE中没有显著差异(P值0.57,Wilcoxon秩和检验),而对比对照,推定非甲基化的CpG的覆盖率在活动性SLE中显著更低(P值0.04,Wilcoxon秩和检验)。
图38A和38B显示了根据本发明的实施方案,与胎儿特异性片段和母体特异性片段中推定甲基化的CpG(图38A)或推定非甲基化的CpG(图38B)的至少1个碱基重叠的片段的百分比。推定甲基化的CpG的覆盖率在胎儿特异性片段中显著低于母体特异性片段(P值3.2E-06,Wilcoxon秩和检验)。推定非甲基化的CpG的覆盖率在胎儿特异性片段中与母体特异性片段相比没有显著降低(P值0.06,Wilcoxon秩和检验)。
图39是说明根据本公开内容的实施方案使用对象的生物样品(包括无细胞DNA)检测与核酸酶相关的基因的遗传病症的方法的流程图。
图40是示出根据本公开内容的实施方案的用于确定患有血液病症的对象的治疗功效的方法的流程图。
图41是说明根据本公开内容的实施方案使用包括无细胞DNA的对象的生物样品监测核酸酶活性的方法的流程图。
图42是示出根据本公开内容的实施方案的用于分析包括无细胞DNA的对象的生物样品的方法的流程图。
图43是说明根据本公开内容的实施方案使用包括无细胞DNA的对象的生物样品监测核酸酶活性的方法的流程图。
图44是示出根据本公开内容的实施方案的用于估计对象的生物样品中临床相关DNA分子的浓度分数的方法的流程图。
图45是示出根据本公开内容的实施方案的用于分析包括无细胞DNA的对象的生物样品的方法的流程图。
图46说明了根据本发明实施方案的研究核酸酶对血浆染色体外环状DNA(eccDNA)的影响的实验设计。
图47显示了根据本发明实施方案的野生型小鼠和缺乏DNASE1或DNASE1L3的小鼠中的eccDNA计数分布。
图48A-48C显示了根据本发明实施方案的三组小鼠中的eccDNA大小频率。
图48D显示了根据本发明实施方案的对应于三组小鼠中eccDNA大小频率的曲线下面积(AUC)比。
图48E说明了用于确定eccDNA大小频率图中的第一峰簇和第二峰簇的AUC值的实例。
图48F显示了根据本发明的实施方案,每组小鼠的对应于图48A-48C的第一峰簇和第二峰簇的AUC值。
图49A-49C显示了根据本发明的实施方案,使用标签化从三组小鼠的肝脏获得的eccDNA的大小分布。
图49D-49F显示了根据本发明的实施方案,使用标签化从三组小鼠的血沉棕黄层获得的eccDNA的大小分布。
图49G显示了根据本发明的实施方案,对应于图49A-49C的三个小鼠组的eccDNA大小分布中两个峰的AUC比。
图49H显示了根据本发明的实施方案,对应于图49D-49F的三个小鼠组的eccDNA大小分布中两个峰的AUC比。
图50A-50C显示了根据本发明的实施方案,使用滚环扩增(RCA)从三组小鼠的肝脏获得的eccDNA的大小分布。
图50D-50F显示了根据本发明的实施方案,使用RCA从三组小鼠的血沉棕黄层获得的eccDNA的大小分布。
图50G显示了根据本发明的实施方案,对应于图49A-49C的三个小鼠组的eccDNA大小谱中两个峰的AUC比。
图50H显示了根据本发明的实施方案,对应于图49D-49F的三个小鼠组的eccDNA大小分布中两个峰的AUC比。
图51显示了根据本发明实施方案的小鼠妊娠样品及其在母体血浆中相应的eccDNA胎儿分数的信息。
图52A-52C显示了根据本发明实施方案的三组妊娠小鼠中总血浆eccDNA的平均大小分布。
图52D显示了根据本发明实施方案的母体eccDNA的平均大小分布。
图52E显示了根据本发明实施方案的胎儿eccDNA的平均大小分布。
图53A显示了根据本发明的实施方案,从4个健康人类对象采集的血浆样品中汇集的eccDNA的大小谱。
图53B显示了根据本发明的实施方案,从3个具有DNASE1L3功能丧失突变的人类对象采集的4个血浆样品中汇集的eccDNA的大小谱。
图53C显示了根据本发明的实施方案,健康对照和DNASE1L3突变的对象(图53A和53B中所示)之间的AUC比的比较。
图54A-54D显示了根据本发明的实施方案,分别从4个健康人类对象收集的eccDNA血浆样品的大小谱。
图54E和54F显示了根据本发明的实施方案,在血液透析前和血液透析后,从具有DNASE1L3功能丧失突变的第一个人类对象收集的血浆样品中的eccDNA的大小谱。
图54G和54H显示了根据本发明的实施方案,从具有DNASE1L3功能丧失突变的两个不同的人类对象收集的血浆样品中的eccDNA的大小谱。
图55是说明根据本发明实施方案,使用eccDNA的大小来检测与核酸酶相关的基因的遗传病症的方法的流程图,所述方法使用包括无细胞eccDNA的对象的生物样品。
图56说明了根据本发明的实施方案,用于样品制备和组织eccDNA鉴定的两种不同的方法。
图57是示出根据本发明的实施方案的用于确定对患有血液病症的对象的治疗功效的方法的流程图。
图58是说明根据本发明的实施方案,使用包括eccDNA的对象的生物样品监测核酸酶活性的方法的流程图。
图59是说明根据本发明的实施方案,使用一定量的eccDNA来检测与核酸酶相关的基因的遗传病症的方法的流程图,所述方法使用包括无细胞DNA的对象的生物样品。
图60是说明根据本公开内容的实施方案的用于分析生物样品以定量eccDNA的量的方法的流程图。
图61显示了根据本公开内容的实施方案的用于eccDNA鉴定的示例性技术。
图62A和62B显示了根据本公开内容的实施方案的用于连接处搜索方法的示意性方法。
图63是显示从根据本发明实施方案的测序获得的片段计数的表。
图64是根据本发明的实施方案,每个样品在缺失区域上的血浆cfDNA覆盖率的图。
图65示出了根据本发明实施方案的测量系统。
图66显示了可与根据本发明实施方案的系统和方法一起使用的示例性计算机系统的框图。
详细描述
无细胞DNA(cfDNA)是用于癌症和产前测试的强有力的非侵入性生物标志物,并作为短片段在血浆(以及其它无细胞样品)中循环。无细胞DNA包括线性DNA和染色体外环状DNA(eccDNA)。血浆中的eccDNA包括来自某些组织的线粒体基因组子集的DNA。然而,cfDNA尚未用于理解个体中的核酸酶活性。不同的核酸酶活性可指示不同等级的疾病和不同的组织类型。另外,对于分析cfDNA,以前没有说明核酸酶活性对DNA片段化和甲基化的影响。在本公开内容中,我们在分析生物样品中应用了核酸酶活性,cfDNA甲基化和大小谱之间的关系。
不同的核酸酶缺陷可能在全基因组水平上影响血浆cfDNA的表观甲基化水平。作为核酸酶的实例研究了小鼠中的DNASE1L3和DNASE1。不同的核酸酶活性影响某些基因组区域,例如转录起始位点(TSS)中片段的低甲基化/高甲基化水平。覆盖低甲基化或高甲基化位点的片段的相对丰度可用于确定对象的病况(例如疾病或病症)等级,核酸酶活性的分类,或样品中临床相关DNA分子的浓度分数。相对丰度可以基于某些位点的片段数目与其它位点的片段数目的比较来确定。例如,来自低甲基化的CpG位点的更多片段可能表明存在病况。
来自特定区域的更多数目的片段可以指示病况等级。来自患有病况的对象的样品可以具有更多的在某些区域中的片段或在某些区域中具有更高或更低的甲基化。所述区域可包括开放染色质区域(OCR)、CpG岛(CGI)或TSS附近。可以使用特定区域内的拷贝数异常的数目来确定对象是否具有病况。
临床相关DNA的浓度分数可以通过分析来自低甲基化或高甲基化位点的片段来确定。例如,胎儿DNA具有较少的来自甲基化CpG位点或来自OCR和CGI的片段。
根据核酸酶活性,不同大小的cfDNA可能与不同的甲基化水平有关。某些大小的片段可以是相对高甲基化的,而其它大小的片段可以是相对低甲基化的。因此,在具有不同核酸酶活性条件的不同大小的cfDNA中,不同的基因组区域可能不能被均匀地表示。
可以使用eccDNA来分析生物样品。来自eccDNA的cfDNA片段的大小谱可用于确定基因是否表现出遗传病症的分类,核酸酶活性的分类或治疗功效。某些核酸酶缺陷可导致更长的cfDNA片段。基于样品中eccDNA的量的参数值可用于确定基因是否表现出遗传病症。本文所述的实施方案还包括用于确定来自eccDNA的无细胞DNA片段的混合物中的量的方法。
I.核酸酶对无细胞DNA甲基化的影响
描述了核酸酶对无细胞DNA甲基化的影响。分析来自具有核酸酶缺陷的生物体的无细胞DNA。观察到甲基化和大小谱的变化,包括在某些基因组位点或基因组区域处的甲基化和大小谱的变化。研究了来自某些核酸酶缺陷的小鼠和人的样品。基于其它核酸酶的切割和其它特性,来自示例性核酸酶的结果可以被应用于其它核酸酶。观察到大小谱,甲基化量,归一化的末端密度基于核酸酶缺陷而变化,包括在某些基因组位点处或附近。
A.实验设计和结果
在示例性分析中,我们对来自缺乏DNASE1L3或DNASE1的小鼠及其野生型对应物的合并的血浆cfDNA和血沉棕黄层基因组DNA进行全基因组亚硫酸氢盐测序以比较其cfDNA谱(包括大小和甲基化谱)。用来自人类对象的样品发现了类似的结果。
在分析来自核酸酶缺陷型对象的cfDNA时,测定各样品的总CpG甲基化百分比。在该分析中用于测定CpG甲基化的方法是亚硫酸氢盐测序。其它方法可包括直接电化学检测,单分子实时检测,甲基化DNA免疫沉淀,微阵列分析,甲基化特异性PCR或基质辅助激光解吸电离飞行时间质谱。
在亚硫酸氢盐测序中,使用亚硫酸氢盐将胞嘧啶转化为尿嘧啶,使甲基化胞嘧啶(C)保持完整。随后用甲基化特异性和非特异性引物对修饰的DNA进行PCR扩增,用胸腺嘧啶(T)代替所有的尿嘧啶核苷酸。这产生甲基化特异性单核苷酸改变,其可以通过测序和与参考序列比对来鉴定。参考基因组中给定胞嘧啶的甲基化百分比通过在该给定胞嘧啶处的C/(C+T)的测序数目计算。样品的总甲基化可以使用所有片段的测序部分(即,读数1和读数2)并确定在每个参考C处的C和T的计数来计算。甲基化百分比可以限于CpG二核苷酸中的C,或者可以是C,随后是任何其它核苷酸(CH,其中H可以是腺苷,胸腺嘧啶或胞嘧啶)。
亚硫酸氢盐测序可以产生每个基因组位点的甲基化状态。甲基化状态可用于确定区域的甲基化密度。可基于甲基化密度确定位点或区域是低甲基化或高甲基化的。甲基化分析可与片段大小分析一起用于测定样品或具有核酸酶缺陷的对象的特征。
1.核酸酶缺陷型小鼠血浆甲基化的变化
对于核酸酶缺陷和不同样品类型,在不同基因型中研究了CpG位点的总甲基化百分比。另外,测量不同基因组区域的CpG甲基化百分比。
图1显示由每个样品中所有读数计算的总CpG甲基化百分比。X-轴显示小鼠的基因型(野生型[WT]、Dnase1l3-/-、Dnase1-/-)和样品类型(血浆、血沉棕黄层)。Y轴显示甲基化的CpG位点的百分比。在所有基因型中,血浆cfDNA的CpG甲基化百分比低于其从血沉棕黄层中提取的相应基因组DNA的CpG甲基化百分比(WT血浆中位数百分比:71.3%对比WT血沉棕黄层中位数百分比:74.7%,Wilcoxon符号秩检验,p=0.03;Dnase1l3缺陷型血浆中位数百分比:65.4%对比Dnase1l3缺陷型血沉棕黄层中位数百分比:74.8%,Wilcoxon符号秩检验,p=0.03;Dnase1缺陷型血浆中位数百分比:73.8%对比Dnase1-缺陷型血沉棕黄层中位数百分比:76.7%)。
比较核酸酶基因型,来自Dnase1l3缺陷型小鼠的血浆cfDNA比来自WT小鼠的血浆cfDNA具有显著更低的甲基化(Wilcoxon秩和检验,p=0.002)。另一方面,来自Dnase1缺陷型小鼠的血浆cfDNA是相对高甲基化的。与血浆cfDNA中不同的甲基化水平相比,WT、Dnase1l3缺陷型小鼠和Dnase1缺陷型小鼠之间的基因组DNA的CpG甲基化百分比彼此没有明显不同。总之,这些数据表明,尽管不同基因型的血沉棕黄层细胞内DNA的甲基化水平在很大程度上不受DNASE1L3或DNASE1缺陷的影响,但血浆cfDNA的表观甲基化受这些核酸酶中任一种的缺乏的影响。
图2A显示了转录起始位点(TSS)中来自每种基因型的cfDNA的中位数CpG甲基化百分比。X-轴显示了从转录起始位点(TSS)起以碱基对计的相对距离。Y轴显示中位数CpG甲基化百分比。不同颜色的线显示了不同基因型的结果。蓝色线202显示Dnase1-/-基因型结果。绿色线204显示野生型基因型结果。红色线206显示Dnase1l3-/-基因型结果。蓝色线202通常高于绿色线204,绿色线204通常高于红色线206。对于图2A-2E的全部,彩色线的顺序是相同的。所有基因的TSS均从UCSC下载。将TSS区域聚集,其中核苷酸标记TSS位于位置0。在这些区域的中心,所有基因型的CpG甲基化百分比最低。与野生型cfDNA相比,Dnase1l3缺陷型小鼠的cfDNA在这些区域中的所有相对距离都是低甲基化的,而Dnase1缺陷型小鼠的cfDNA则是略微高甲基化的。
图2B显示了来自RNA聚合酶II结合位点(Pol II)周围的每种基因型的cfDNA的中位数CpG甲基化百分比。所有基因的Pol II结合位点均从小鼠ENCODE项目下载。Pol II区域聚集,这些区域的中心位于位置0。在这些区域的中心,所有基因型的CpG甲基化百分比最低。与野生型cfDNA相比,Dnase1l3缺陷型小鼠的cfDNA在这些区域中的所有相对距离处都是低甲基化的,而Dnase1缺陷型小鼠的cfDNA则是略微高甲基化的。
图2C-2D显示了来自H3K4me3和H3K27ac区域周围的每种基因型的cfDNA的中位数CpG甲基化百分比。H3K4me3和H3K27ac分别是作为活性增强子和活性启动子的标志物的修饰。H3K4me3和H3K27ac区域从小鼠ENCODE项目下载。H3K4me3和H3K27ac区域聚集,这些区域的中心位于位置0。在这些区域的中心,所有基因型的CpG甲基化百分比最低。与野生型cfDNA相比,Dnase1l3缺陷型小鼠的cfDNA在这些区域中的所有相对距离处都是低甲基化的,而Dnase1缺陷型小鼠的cfDNA则是略微高甲基化的。
图2E显示了来自基因组中随机区域周围的每种基因型的cfDNA的中位数CpG甲基化百分比。通过BEDTools(v2.27.1)(Quinlan et al.,Bioinformatic.2010;26:841-842)在整个基因组随机选择10,000bp长度的10,000个随机非重叠的区域。来自Dnase1l3缺陷型小鼠的血浆cfDNA的表观低甲基化和来自Dnase1缺陷型小鼠的血浆cfDNA的表观略微高甲基化存在于所述随机区域中。由于随机区域将反映>97%异染色质的整个基因组,来自Dnase1l3缺陷型小鼠的cfDNA的表观低甲基化和来自Dnase1缺陷型小鼠的cfDNA的表观高甲基化似乎独立于开放或闭合染色质状态并影响整个基因组。
图2A-2E均显示了与野生型相比,Dnase1l3缺陷型小鼠在某些位点周围被低甲基化,而与野生型相比,Dnase1缺陷型小鼠在某些位点周围被高甲基化。这些附图显示不同的核酸酶缺陷可导致不同的甲基化水平。
2.核酸酶缺陷和甲基化对cfDNA大小谱的影响
这些不同的核酸酶对血浆cfDNA大小谱的影响先前已经被表征,并且每种基因型的中位数大小谱显示在图3中(Serpas et al.,2019;Cheng et al.,2018)。图3在X轴上显示了以碱基对计的片段大小,以及在Y轴上显示了片段大小的频率。与来自具有167bp的模式大小的WT小鼠(绿色线304)的cfDNA相比,来自Dnase1l3缺陷型小鼠(红色线308)的cfDNA显示出短的≤150bp的片段的增加,164bp的模式大小,166bp片段的减少,以及≥250bp的片段的略微增加,这与我们先前的发现一致(Serpas etal.,2019)。另一方面,当比较来自Dnase1缺陷型小鼠的cfDNA(蓝色线312)和来自WT小鼠的cfDNA(绿色)时,大小谱有更小的差异。短的≤150bp的片段略有减少,166bp的片段的频率增加,和171bp的模式大小。以前,我们已经报道了来自Dnase1缺陷型小鼠的cfDNA的大小谱与来自WT小鼠的cfDNA的大小谱没有明显不同(Cheng et al.,2018)。尽管这种差异并不明显,但是在回顾中,我们在这里注意到的大小谱中的细微差异以及更多样品的益处也存在(Cheng et al.,2018)。因此,与WT小鼠相比,Dnase1l3缺陷型小鼠具有更短的cfDNA大小谱,而Dnase1缺陷型小鼠具有稍微更长的cfDNA大小谱。
以前,我们的组还发现在人血浆中低甲基化的cfDNA比高甲基化的cfDNA短(Lunet al.,2013)。我们检查这种关系在具有不同核酸酶基因型的小鼠的血浆中是否仍然正确。我们鉴定了具有至少三个CpG的cfDNA片段,并将这些CpG中有零个甲基化的片段分类为0%甲基化的片段和其所有CpG均甲基化的片段分类为100%甲基化的片段。我们比较了这三种基因型(图4A、4B和4C)中每一种中这些0%甲基化的片段和100%甲基化的片段的中位数大小谱。在所有三种基因型中,0%甲基化的片段(黄色线404、408和412)比它们的100%甲基化的对应物具有更多的短片段的大小谱。因此,与我们以前在人血浆中的发现类似,不考虑核酸酶相关的基因型,非甲基化的片段更可能比甲基化的片段短。
知道非甲基化的片段趋向于更短并且来自Dnase1l3缺陷型小鼠的cfDNA具有更多的短片段增加了仅由于短片段的增加而来自Dnase1l3缺陷型小鼠的cfDNA被更低甲基化的可能性。为了说明这些相互关联因素之间的关系,我们检测了0%和100%甲基化的片段内的每种基因型的中位数cfDNA大小谱,以控制甲基化水平(图5A、5B)。在来自Dnase1l3缺陷型小鼠的cfDNA中,使用所有片段(图3)之前观察到的大小谱的缩短在0%(红是线504,图5A)和100%(红是线516,图5B)甲基化的片段(0%甲基化的片段的模式大小:WT中的166bp对比Dnase1l3缺陷型小鼠中的155bp;100%甲基化的片段的模式大小:WT中的168bp对比Dnase1l3缺陷型小鼠中的155bp)中也是明显的。由于来自Dnase1L3缺陷型小鼠的0%和100%甲基化的片段都相对短于来自WT小鼠的那些,DNASE1L3缺陷型本身对大小谱有影响。此外,来自Dnase1l3缺陷型小鼠的cfDNA大小谱的相对缩短在0%甲基化的片段中比在100%甲基化的片段中甚至更夸大,特别是在≤80bp的片段中。在WT(绿色线508和520)和Dnase1l3缺陷型小鼠(红色线504和516)中,这些超短的≤80bp的片段在0%甲基化的片段中比在100%甲基化的片段具有更高的频率。因此,在WT和Dnase1l3缺陷型小鼠中,cfDNA片段大小缩短的程度也受到片段的甲基化状态的影响。
然后我们研究了来自Dnase1缺陷型小鼠(蓝色线512和524,图5A、5B)的0%和100%片段的中位数cfDNA大小谱变化。在0%(蓝色线512,图5A)和100%(蓝色线524,图5B)甲基化的片段中,我们以前用所有片段(图3)所看到的稍长的大小谱是明显的,具有相似程度的延长(Dnase1缺陷型小鼠中0%和100%甲基化的片段的模式大小都是169bp)。这些结果表明来自Dnase1缺陷型小鼠的cfDNA的大小谱变化相对独立于甲基化状态而发生。此外,在来自WT和Dnase1l3缺陷型小鼠的cfDNA中观察到的0%甲基化的片段中,短的≤150bp片段,尤其是超短的≤80bp片段的增加的频率在Dnase1缺陷型小鼠的cfDNA中不存在。因此,DNASE1似乎负责在0%甲基化的片段中这些短的≤150bp片段的增加的频率。
总之,尽管低甲基化的cfDNA比高甲基化的cfDNA倾向于具有更短的大小谱,但是不存在这些核酸酶也对cfDNA大小谱产生了独立的影响。来自Dnase1缺陷型小鼠的cfDNA表明,在0%甲基化的片段中,短的≤150bp片段,尤其是超短的≤80bp片段的增加的频率与DNASE1活性有关。
3.OCR和CGI片段在cDNA甲基化中的作用
我们接下来探索这些DNASE1活性相关的,短的,非甲基化的片段在Dnase1l3缺陷型小鼠的cfDNA中的基因组来源。我们假设它们可能与OCR和CpG岛(CGI)有关,因为与基因组整体相比,已知这些区域是低甲基化的。我们将位于TSS和Pol II区域中心侧翼的±500bp的区域和具有H3K27ac和/或H3K4me3的区域分类为OCR,并将这些区域与CGI合并。
图6A、6B、6C、6D、6E和6F在X轴上显示了与基因组位点的相对距离并在Y轴上显示了作为百分比的归一化的末端密度。由片段末端计数除以±3000bp区域中的中位数末端计数计算归一化的末端密度。在聚集的TSS区域(图6A)、RNA聚合酶II(Pol II)(图6B)、H3K4me3(图6C)和H3K27ac区域(图6D)、CGI(图6E)和随机选择的区域(图6F)上的±1000bp的窗口中显示每种基因型的中位数归一化的末端密度。来自野生型小鼠的DNA处于绿色(例如,图6A中的绿色线604),Dnase1l3缺陷型小鼠处于红色(例如,红色线608),Dnase1缺陷型小鼠处于蓝色(例如,蓝色线612)。在图6A-6E中,红色线是最高的,绿色线是次高的,蓝色线是最低的。
我们观察到,与WT(例如绿色线604)相比,这些OCR和CGI区域在Dnase1l3缺陷型小鼠(例如红色线608)的cfDNA中具有增加的末端密度和在Dnase1缺陷型小鼠(例如蓝色线612)的cfDNA中具有降低的末端密度。相比之下,基因组随机区域中的归一化末端密度在WT、Dnase1l3缺陷型和Dnase1缺陷型小鼠的cfDNA中是相似的和重叠的(图6F)。因此,与随机基因组区域相比,这些OCR和CGI区域在不同基因型的cfDNA中被差别地片段化。Dnase1l3缺陷型小鼠的cfDNA中这些OCR和CGI区域的增加的片段化与来自OCR和CGI的短的(≤150bp)片段的增加的比例相关(图7)。
图7显示了OCR和CGI中的片段的大小谱。以碱基对计的片段大小显示在X轴上。片段大小的频率显示在Y轴上。显示了OCR和CGI内的片段的中位数cfDNA大小谱。野生型小鼠的cfDNA用绿色线704显示,Dnase1l3缺陷型小鼠用红色线708显示,而Dnase1缺陷型小鼠用蓝色线712显示。所有野生型片段的cfDNA大小谱作为比较用灰色线716显示。Dnase1缺陷型小鼠的cfDNA的OCR和CGI中的短(≤150bp)cfDNA的比例显著降低,将这些低甲基化的短片段与OCR和CGI的DNASE1片段化联系起来。
这些选择的OCR和CGI内的片段的百分比在图8中显示。基因型显示在X轴上。在Y轴上显示了在TSS、PoI II、H3K4me3和H3K27ac区域中心周围±500bp的区域中与CGI区域合并的片段百分比。与来自WT小鼠的cfDNA相比,来自Dnase1l3缺陷型小鼠的cfDNA在OCR和CGI中具有显著更多的片段(WT中位数百分比:3.66%对比Dnase1l3缺陷型中位数百分比:5.20%,Wilcoxon秩和检验,p=0.002)。与WT小鼠的cfDNA相比,Dnase1缺陷型小鼠的cfDNA中这些片段的百分比也略低(Dnase1缺陷型中位数百分比:3.17%)。来自每个样品的这些OCR和CGI片段百分比都大于小鼠基因组中这些OCR和CGI的预期百分比,其为2.61%。因此,这些低甲基化的OCR和CGI片段通常似乎稍微富含在血浆cfDNA中。
为了探索这些OCR和CGI片段对来自不同核酸酶基因型小鼠的cfDNA的甲基化差异的贡献,我们在生物信息学掩蔽来自OCR和CGI的这些片段之后,重新计算了每种基因型中cfDNA的总甲基化水平(图9)。在图9中,基因型显示在X轴上。Y轴显示了在掩蔽分析中生物信息学排除OCR和CGI片段后的CpG甲基化百分比。令人惊奇的是,在Dnase1l3缺陷型小鼠(图1)的cfDNA中观察到的大程度的低甲基化回到74.7%的中位数CpG甲基化(图9),类似于其血沉棕黄层甲基化百分比。事实上,在排除这些OCR和CGI来源的片段之后,所有基因型的总甲基化水平都增加(WT中位数百分比:76.4%、Dnase1缺陷中位数百分比:78.2%),基本上回复到它们配对的血沉棕黄层的甲基化水平。
图10A-10C是来自每个样品的circos图,其中每个点代表每个鼠常染色体的1Mb区段中的CpG甲基化百分比,如果≥70%则呈蓝色,如果<70%则呈红色。外环是包括所有片段的每1Mb区段中的CpG甲基化百分比,而内环是用不包括OCR和CGI中的片段。掩蔽OCR和CGI中的片段以全基因组的方式减少了来自WT(图10A)、Dnase1缺陷型(图10B)和Dnase1l3缺陷型小鼠(图10C)的cfDNA的相对低甲基化的区域。来自Dnase1l3缺陷型小鼠的cfDNA中的大部分低甲基化区域在掩蔽这些OCR和CGI后消失。这些结果表明,这些OCR和CGI中的片段是Dnase1l3缺陷型小鼠cfDNA的观察到的低甲基化的主要原因;与基因组DNA相比,这些OCR和CGI片段在cfDNA中观察到的一般低甲基化中也起作用。
4.差异甲基化水平和OCR和CGI按片段大小的比例
然后通过片段大小分析cfDNA的甲基化水平。对于所有指定大小的片段,计算CpG甲基化百分比,并将每种基因型的中位数绘制在图11中。X轴显示了片段大小。Y轴显示了CpG甲基化百分比。野生型用绿色线1104显示。用蓝色线1108显示Dnase1缺陷型小鼠。Dnase1l3缺陷型小鼠用红色线1112显示。灰色虚线标记166bp的片段大小。在所有基因型中,CpG甲基化似乎遵循在约170bp、360bp和550bp的片段大小处具有甲基化峰的周期模式。这些片段大小对应于与单核小体、双核小体和三核小体相关的大小,表明核小体相关的cfDNA片段更可能被甲基化。
cfDNA甲基化百分比中的谷值为约270bp和460bp的片段大小。cfDNA甲基化中的这些谷值对应于所有基因型的较高比例的OCR和CGI片段(图12)。图12在X轴上具有片段大小。计算每个片段大小内的OCR和CGI片段的比例,并且每种基因型的中位数显示在Y轴上。用绿色线1204显示野生型。用蓝色线1208显示Dnase1缺陷型小鼠。用红色线1212显示Dnase1l3缺陷型小鼠。在所有片段大小中,来自Dnase1l3缺陷型小鼠的cfDNA中的OCR和CGI片段比例高于来自WT和Dnase1缺陷型小鼠的cfDNA中的OCR和CGI片段比例。在来自Dnase1缺陷型小鼠的cfDNA中,OCR和CGI片段比例在≤80bp的超短片段中相对降低,表明DNASE1在这些片段大小下增加cfDNA的OCR和CGI比例的作用是强有力的。有趣的是,在与甲基化中的谷值相关的片段大小中,来自Dnase1缺陷型小鼠的cfDNA比来自WT小鼠的cfDNA具有稍高的OCR和CGI片段比例。这些片段大小中稍高的OCR和CGI比例可能与其它酶有关。因此,我们已经显示不同大小的cfDNA片段与不同的甲基化水平和不同比例的OCR和CGI片段相关。
为了说明不同片段大小中甲基化水平与OCR和CGI片段比例之间的关系,我们用生物信息学方法掩蔽OCR和CGI片段,并在掩蔽后重新绘制每一片段大小的CpG甲基化水平(图13)。在图13中,用绿色线1304显示了野生型;用蓝色线1308显示了Dnase1缺陷型小鼠;用红色线1312显示了Dnase1l3缺陷型小鼠。灰色虚线标记166bp的片段大小。
在图14A、14B和14C中,显示了在掩蔽OCR和CGI片段之前和之后各片段大小的CpG甲基化百分比。用灰色线1404、1408和1412显示了掩蔽之前的百分比。
掩蔽后,尽管周期模式持续存在,但是峰-谷差异降低,并且所有基因型的所有片段大小的甲基化百分比增加(图13和图14A和14B)。对于所有基因型,在掩蔽这些OCR和CGI片段后表现出甲基化最大增加的片段大小是≤80bp并且在大约270bp的第一谷值周围的那些(图14),对应于具有较高比例的OCR和CGI片段的大小。在270bp,来自WT小鼠的cfDNA中的甲基化百分比从55.4%上升到60.3%,来自Dnase1缺陷型小鼠的cfDNA中的甲基化百分比从50.9%上升到56.9%,以及来自Dnase1l3缺陷型小鼠的cfDNA中的甲基化百分比从46.7%上升到55.0%。另一方面,可能的单核小体相关片段的甲基化水平仅最低限度地增加;例如,166bp的片段甲基化百分比在WT中从74.3%增加到76.3%,在DNASE1缺陷型cfDNA中从76.3%增加到78.2%,并且在DNASE1L3缺陷型cfDNA中从71.1%增加到74.3%。这些结果再次说明,对于某些cfDNA大小,OCR和CGI片段对cfDNA甲基化的影响更明显。
在图4A中的核酸酶基因型之间进行比较,与WT和Dnase1缺陷型小鼠相比,来自Dnase1l3缺陷型小鼠的cfDNA被低甲基化,大部分片段大小高达~500bp,其占测序cfDNA总群体的98-99%。掩蔽后,某些片段大小中的低甲基化程度比其它片段大小中的低甲基化程度减少更多(图13)。有趣的是,约80bp至200bp,和250bp至350bp的片段大小,在掩蔽OCR和CGI片段后,来自Dnase1l3缺陷型小鼠的cfDNA和来自WT和Dnase1缺陷型小鼠的cfDNA之间的甲基化百分比仍然具有显著差异。这可能是由于我们的生物信息学掩蔽没有考虑到其它低甲基化片段的存在和/或在这些区域中相对缺乏高甲基化片段。
相比之下,来自Dnase1缺陷型小鼠的cfDNA的相对高甲基化仅在某些大小范围内发生,最明显的是在166bp和360bp甲基化峰附近发生(图11)。这种相对高甲基化在掩蔽OCR和CGI片段后没有明显变化(图13)。因此,在来自Dnase1缺陷型小鼠的cfDNA中观察到的相对高甲基化主要在单核小体和双核小体大小的cfDNA中,并且不可能与OCR和CGI片段相关。
5.DNASE1L3切割甲基化的CpG
尽管我们已经证明在低甲基化的OCR和CGI中的DNASE1活性是Dnase1l3缺陷型小鼠的cfDNA中的相对低甲基化的主要原因,但是DNASE1活性似乎仅是整体情况的一部分。甚至在掩蔽OCR和CGI片段之后,与WT小鼠的cfDNA相比,来自Dnase1l3缺陷小鼠的cfDNA的相对低甲基化持续存在(Wilcoxon秩和检验,p=0.008)(图9),特别是片段大小为80bp至200bp和250bp至350bp中(图13)。因此,我们继续探索DNASE1L3的作用。我们推断在Dnase1l3缺陷型小鼠的血浆中观察到的相对低甲基化也可以由DNASE1L3对甲基化片段的贡献降低引起。
我们设计了一种询问DNASE1L3是否可以切割甲基化的CpG的方法。为此,我们首先鉴定甲基化和非甲基化的CpG。从由八种不同小鼠组织(骨髓,胸腺,脾,肾,心脏,肝,大肠,小肠)的亚硫酸氢盐测序组成的下载数据集中,每种组织重复两次,我们挖掘在所有组织和重复读数的90%中甲基化的CpG,并将它们鉴定为推定的甲基化CpG(总共545,720个CpG)。类似地,我们还挖掘在数据集的80%的读数中非甲基化的CpG,并将它们鉴定为推定的非甲基化CpG(总共7,140个CpG)。使用在90%的读数中非甲基化的CpG用于随后的分析是更困难的,因为满足这种条件的CpG数量极低(总共11个CpG)。通过从该下载的数据集中鉴定出这些推定的甲基化和非甲基化的CpG,我们证实了在我们的血浆数据集中这些CpG的实际甲基化水平与其预期的甲基化水平相似。对于推定的甲基化CpG,这些CpG在每个样品的血浆cfDNA中具有>90%的甲基化水平,而对于推定的非甲基化CpG,这些CpG在我们每个样品的血浆cfDNA中具有<20%的甲基化水平(图15A和15B)。
通过这些推定的甲基化和非甲基化的CpG被鉴定,我们计算了这些CpG及其周围区域上的归一化的末端密度。当聚集在一起将推定的甲基化C置于位置0时,在周围±1000bp上存在强周期性的末端密度模式,这表示在CTCF区域周围发现的核小体阵列(图16A)(Fuet al.,2008;Kelly et al.,2012)。这些结果表明,我们鉴定的这些推定的甲基化CpG可能来源于包装染色质结构中的DNA,这仅当周围的核小体被很好地定相时,才会产生这种清楚的周期性。将我们的焦点缩小到仅仅推定的甲基化C,我们发现在来自WT和Dnase1缺陷型小鼠的所有血浆样品中,在推定的甲基化C处存在归一化的末端密度的增加(图16B)。因此,在WT和Dnase1缺陷型小鼠的cfDNA中存在DNASE1L3的情况下,在推定的甲基化C处存在非常特异的切割。相比之下,在Dnase1L3缺陷型小鼠的血浆中,推定的甲基化C与其周围的-6至+8bp区域相比不再优先切割(图16C)。红色线1604显示Dnase1l3缺陷型小鼠的归一化的末端密度。因此,该证据表明DNASE1L3负责在这些核小体阵列中切割这些推定的甲基化的C,并且在不存在时,片段化模式不再是特异性的,落入更宽的-6至+8bp的区域,这可能是核小体之间的连接区。令人惊奇的是,在不存在DNASE1L3的情况下,在该连接区中具有最高末端密度的位置,即新的优先切割位点,恰好相距10bp。这可以解释Dnase1l3缺陷型小鼠的cfDNA大小谱中10bp周期性的显著性增加。
另一方面,与推定的甲基化CpG相比,推定的非甲基化CpG似乎来源于非常不同的基因组区域。推定的非甲基化CpG的周围区域在推定的非甲基化CpG周围的-400至+400bp区域中表现出归一化的末端密度的普遍增加(图17A)。因此,这些较大的区域更易于片段化,这是一种提示这些区域可能是OCR的性质。在来自WT和Dnase1缺陷型小鼠的cfDNA中,与其周围±1000bp的区域相比,不特别优选切割推定的非甲基化C(图17B)。在Dnase1l3缺陷型小鼠的血浆中,推定的非甲基化C也不优先切割,相反,其侧翼碱基与WT小鼠的cfDNA相比具有更高的末端密度(图17C)。红色线1704显示Dnase1l3缺陷型小鼠的归一化末端密度。Dnase1l3缺陷型小鼠的cfDNA中推定的非甲基化C侧翼区域中的片段末端的这种增加反映了我们先前在OCR和CGI中的发现。类似地,Dnase1缺陷型小鼠cfDNA中推定的非甲基化C侧翼区域的末端密度的降低(图17B)再次提示DNASE1在产生非甲基化区域周围的片段末端中起主要作用。因此,通过这种分析,我们已经使用核酸酶缺陷的小鼠揭示了DNASE1L3在甲基化的CpG和非甲基化的CpG处的切割偏好。
6.DNASE1L3缺陷型人类对象
为了将我们的发现外推到人类cfDNA,我们进行了来自三个DNASE1L3缺陷型对象(H2、H4和V11)和一个杂合亲本(H1)的血浆样品的亚硫酸氢盐测序(Chan et al.,2020)。类似于Dnase1L3缺陷型小鼠,与对照和杂合亲本相比,DNASE1L3缺陷型对象的血浆cfDNA被低甲基化(DNASE1L3缺陷型对象的CpG甲基化H2:69.66%、H4:70.1%和V11:69.32%,对比8个对照:74.90%和H1:73.84%的中位数)(图18)。图18在X轴上显示了来自不同基因型的人类对象的样品。以橙色显示的第一列(或仅具有对照和V11样品的列)来自血浆。以紫色显示的第二列来自血沉棕黄层。Y轴显示了CpG甲基化百分比。所有对照和对象的血浆cfDNA甲基化水平也低于血沉棕黄层样品(图18)。来自DNASE1L3缺陷型患者的血浆cfDNA的这种低甲基化在TSS和随机区域都被观察到,因此也是全基因组现象(图19A、19B)。在图19A中,对照样品用绿色线1904显示;杂合DNASE1L3亲本用深绿色线1908显示;并且DNASE1L3缺陷型对象用红色线1912显示。在图19B中,对照样品用绿色线1916表示;DNASE1L3缺陷型对象用红色线1920显示。杂合DNASE1L3亲本用深绿色线显示,其有时在红色线1920和绿色线1916之间可见,并且有时在绿色线1916上方可见。
类似地,DNASE1L3缺陷型患者的血浆cfDNA具有更短的大小谱,其在0%甲基化的片段中比在100%甲基化的片段中更夸大(图20A、20B)。在图20A中,对照样品用绿色线2004显示;杂合DNASE1L3亲本以深绿色线2008显示;并且DNASE1L3缺陷型对象用红色线2012显示。在图20B中,对照样品用绿色线2016显示;杂合DNASE1L3亲本用深绿色线2020显示;并且DNASE1L3缺陷型对象用红色线2024显示。
较短的大小谱对应于低甲基化开放染色质TSS区域中归一化的末端密度的增加(图21A),这与随机区域(图21B)下形成对比。在图21A中,对照样品用绿色线2104显示;杂合DNASE1L3亲本用深绿色线2108显示;并且DNASE1L3缺陷型对象用红色线2112显示。在图21B中,用于不同样品的不同线重叠。这表明DNASE1L3缺陷型患者的cfDNA中低甲基化区域的DNA片段化增加。这通过与对照的血浆中来自OCR和CGI区域的片段相比,DNASE1L3缺陷型患者的血浆中来自OCR和CGI区域的片段的显著增加来证实(对照中位数百分比:5.71%对比DNASE1L3缺陷型中位数百分比:7.34%,Wilcoxon秩和检验,p=0.01(图22)。当这些OCR和CGI片段被生物信息学掩蔽时,血浆CpG低甲基化回复到对照中所见的水平(图23A、23B和23C)。图23A显示来自正常对象的circos图。图23B和23C显示来自DNASE1L3缺陷型对象的circos图。总的来说,增加的将OCR和CGI区域切割成短的低甲基化片段也解释了在DNASE1L3缺陷型对象的cfDNA中观察到的相对低甲基化。
在人类cfDNA中也证明了DNASE1L3的切割偏好。发现对照血浆cfDNA优先终止于推定的甲基化CpG(图24)。对照样品用绿色线2404显示;杂合DNASE1L3亲本用深绿色线2408显示;并且DNASE1L3缺陷型对象用红色线2412显示。这种对于在推定的甲基化CpG处终止的片段的显著偏好似乎相比小鼠cfDNA在人类cfDNA中更显著,对比在小鼠中具有1.5的归一化末端密度,在人类中的归一化末端密度为约2.4。在DNASE1L3缺陷型对象的cfDNA中不存在这种末端偏好,其产生的末端密度谱显示在更宽的-6至+8bp区域中有峰(图24)。因此,我们发现DNASE1L3缺陷型患者具有与Dnase1L3缺陷型小鼠在很大程度上相似的cfDNA,这证实了核酸酶活性和人类血浆中的cfDNA甲基化之间的这种联系。
B.大小谱和甲基化变化
在本项工作中,我们发现不同的核酸酶缺陷在全基因组水平上深刻地影响血浆cfDNA的表观甲基化水平和大小谱。我们已经发现,与来自对照样品的cfDNA相比,Dnase1l3缺陷型小鼠和DNASE1L3缺陷型人类的血浆cfDNA被低甲基化得多,并且具有更短的大小谱,其中短的≤150bp的片段增加和166bp的片段减少。这与Dnase1缺陷型小鼠的cfDNA形成对比,所述小鼠的cfDNA比WT cfDNA稍微更高甲基化并且具有稍微更长的大小谱,其中短的≤150bp的片段减少和166bp的片段增加。由于血沉棕黄层基因组DNA的甲基化水平在不同基因型中是相似的,血浆cfDNA甲基化的差异可能与DNA片段化过程中的核酸酶活性有关。
在我们分别探索Dnase1l3缺陷型小鼠和Dnase1缺陷型小鼠的血浆cfDNA中的低甲基化和高甲基化的原因中,我们发现来自Dnase1l3缺陷型小鼠的cfDNA具有更多的低甲基化片段,这些低甲基化片段源自整个基因组中开放染色质区域和CpG岛的增加的片段化。这些片段在Dnase1缺陷型小鼠的cfDNA中的减少揭示了是原因在于DNASE1。在Dnase1缺陷型小鼠中不存在DNASE1活性允许我们推断DNASE1增加这些OCR和CGI的片段化,并产生这些区域中增加比例的短片段,特别是超短片段。对DNASE1活性的这种理解与使用DNASE1探测DNASE-seq中DNase I超敏反应区的整个领域和技术是一致的(Boyle et al.,2008)。
图25显示DNASE1和DNASE1L3的推断活性。DNASE1(例如,以蓝色显示的DNASE12504)优先切割非甲基化的和开放的染色质DNA。通过片段化这些区域,DNASE1增加了血浆中这些OCR和CGI区域的代表,导致cfDNA的相对低甲基化。这些OCR和CGI区域在不同的cfDNA大小中不等地被代表。DNASE1L3(例如,以红色显示的DNASE1L3 2508)在切割甲基化片段方面是有效的,并且与DNASE1相比增加了血浆cfDNA中甲基化片段的代表。DNASE1L3的切割偏好可能导致166bp的片段大小占优势。这些偏好的组合导致每个片段大小观察到的最终cfDNA大小谱2512和甲基化谱2516。
生物信息学掩蔽这些OCR和CGI片段证明这些区域是在Dnase1l3缺陷型小鼠的血浆cfDNA中观察到的相对低甲基化的主要原因。此外,我们发现这些OCR和CGI片段通常在血浆cfDNA中相对富集,并且这种富集解释了血浆cfDNA与其基因组DNA相比的相对低甲基化(图3)。似乎在低甲基化的OCR和CGI中的DNASE1活性增加了它们的片段化并允许这些低甲基化区域在血浆cfDNA中富集。这也解释了来自Dnase1缺陷型小鼠的血浆cfDNA的相对高甲基化。非常显著的是,这些OCR和CGI片段,其仅占我们样品中总测序cfDNA群体的3-6%,可能对血浆cfDNA的表观甲基化水平具有如此显著的影响。
在没有DNASE1L3的情况下,cfDNA大小谱实际上变化最大。我们用推定的甲基化和非甲基化的CpG进行的分析为原因提供了一些启示。我们证明不存在DNASE1L3减少了甲基化CpG的切割。这得到现有文献的支持,现有文献表明DNASE1L3可以高效地切割染色质至几乎不可检测的水平,而没有蛋白水解的帮助(Sisirak et al.,2016;Napirei et al.,2009)。
由于基因组>97%是异染色质且其大部分CpG是甲基化的,所以大部分基因组对DNASE1L3活性敏感,但对DNASE1较不敏感。因此,DNASE1L3的缺失将显著影响cfDNA大小谱并不令人惊讶。Dnase1l3缺陷型小鼠cfDNA中cfDNA大小谱的一个更显著的变化是166bp峰的显著减少。我们假设166bp的片段大小可以通过在染色质的连接区中通过DNASE1L3切割这些甲基化的C的相对强的局部偏好来产生。值得注意的是,在没有DNASE1L3的情况下,出现了两个新的片段末端偏好,它们彼此之间正好相距10bp。这也可以解释Dnase1l3缺陷型小鼠的cfDNA中10bp周期性的增加的显著性。
事实上,DNASE1L3用于产生166bp的片段的这种偏好在来自Dnase1缺陷型小鼠的cfDNA中是明显的。在这样的小鼠中,0%和100%甲基化cfDNA都被片段化到非常相似的大小谱,具有非常尖锐的166bp的峰,并且显示出显著有限的非甲基化片段的缩短。因此,在不存在DNASE1的情况下,DNASE1L3似乎对将非甲基化片段切割成较小片段具有有限的偏好。事实上,在Dnase1缺陷型小鼠的cfDNA中,推定的非甲基化CpG的末端密度降低。这些结果表明,DNASE1L3在很大程度上对DNA甲基化状态无节律地切割,这将增加血浆cfDNA的甲基化部分,因为甲基化的CpG比基因组中非甲基化的CpG更丰富(图25)。
该项工作还揭示了不同大小的cfDNA与不同的甲基化水平相关。广泛推测大小与单核小体,双核小体和三核小体(约170bp、360bp和550bp)相关的cfDNA片段相对高甲基化,而大小为中间的片段(约270bp和460bp)相对低甲基化。掩蔽OCR和CGI片段表明,对于所有三种基因型,<=80bp和谷值周围的片段的低甲基化受到不成比例的影响。这些片段大小实际上具有较高比例的OCR和CGI片段,并且可以反映更多的DNASE1活性。因此,我们已经证明不同的基因组区域在不同大小的cfDNA中不是被均匀代表的。
检测基因型之间每种cfDNA大小的甲基化水平的差异揭示了DNASE1L3也起作用。能切割甲基化CpG的DNASE1L3似乎产生更多的166bp片段,其在DNASE1缺陷型小鼠的cfDNA中甲基化。Dnase1缺陷型小鼠的cfDNA中的单核小体大小的片段似乎是甲基化程度最高的,甲基化水平随每个另外的核小体而降低,表明甲基化片段的DNASE1L3贡献对于单核小体是最高的(图11)。对此的一个解释是核小体相关片段的大小看起来甲基化程度更高,这是因为DNASE1L3的切割偏好增加了对甲基化片段的贡献。同样,在掩蔽OCR和CGI片段后,Dnase1L3缺陷型小鼠的cfDNA与WT和Dnase1缺陷型小鼠的cfDNA之间在片段大小80至200bp和250至350bp上的甲基化水平的其余差异提示这些片段大小的比例可能源于DNASE1L3切割偏好。DNASE1L3在这些特定片段大小中起作用的潜在原因是这些片段大小可能源于甲基化DNA的核小体内切割。还可能存在其它核酸酶,其也可能起作用,并且使用双敲除模型的未来研究将进一步改进该分析。然而,我们的观察结果表明特定的cfDNA大小反映了受甲基化影响的片段化过程。
本文推导了DNASE1和DNASE1L3的作用和偏好。我们不仅表明核酸酶影响表观cfDNA甲基化水平,而且还表明每种核酸酶如何影响它。我们还证明了cfDNA大小谱,其为典型的片段化过程的终产物,反映了这些不同的核酸酶对甲基化的活性。因此,我们已经将一些见解转到cfDNA的这些基本性质中。
这些发现已经在具有DNASE1L3缺陷的人类cfDNA中重复。人体中的纯合DNASE1L3缺陷导致家族性常染色体隐性形式的儿童系统性红斑狼疮(SLE)和脉管炎(Al-Mayouf etal.,2011;Ozcakar et al.,2013;Carbonella et al.,2017)。具有Dnase1l3缺失的DNA自身耐受性的丧失可能与DNASE1L3对核小体的破坏性清除有关(Sisirak et al.,2016;Napirei et al.,2000)。即使在不具有Dnase1l3-缺陷的SLE患者中,我们以前已经发现它们具有与Dnase1l3-缺陷型患者中所见的相似的增加比例的短的,低甲基化的cfDNA(Chanet al.,2014)。这可能与核小体的核酸酶清除的功能异常有关;更多的研究有助于阐明核酸酶活性与SLE发病之间的关系。
这些观察结果对cfDNA领域具有深远的影响。cfDNA的片段化过程有助于cfDNA的表观甲基化。人体中的核酸酶活性可影响总cfDNA甲基化并导致假阳性测试。由于某些片段大小具有反映不同基因组区域的不同比例的不同甲基化水平,因此由于这种基础生物,将诊断测试集中在某些片段大小上可能是有利的。由于cfDNA片段组学是新兴的癌症生物标志物,因此对核酸酶对cfDNA片段化的影响的更深入的理解是至关重要的。最终,基于大小的分析和基于核酸酶的分析的组合是用于研究cfDNA生物的强有力的方法,并且可以具有诊断应用。
C.使用区域甲基化分析样品
仅使用甲基化水平分析某些生物样品可能是困难的。例如,在具有不同病况的对象的样品之间,甲基化水平差异可能没有显著不同。生物样品中开放染色质区域(OCR)中和某些CpG位点周围的片段的量可以根据对象的某些病况而变化。例如,OCR中和CpG位点周围的片段的量可以根据样品中对象的癌症分类或样品中的片段是母体还是胎儿而不同。分析推定甲基化或推定非甲基化的CpG位点可有助于分析生物样品以区分不同的病况或不同的组织类型。
1.癌症
测量OCR(TSS、H3K27ac和H3K4me3标志物上游和下游的500bp)和CGI区域中的片段的比例导致比较癌症和非癌症的统计学显著差异。在一个实施方案中,对来自8名健康对照、17名感染慢性乙型肝炎病毒(HBV)的患者和34名HCC患者的血浆cfDNA进行亚硫酸氢盐测序,中位数为3.8千万对末读数(范围,1.8-6.5千万)。
图26显示了从每个样品的血浆cfDNA中的所有测序片段计算的总CpG甲基化百分比。X-轴显示不同cfDNA样品的来源:对照个体(CTR),慢性乙型肝炎携带者(HBV)和肝细胞癌(HCC)对象。与对照相比,一些HCC样品总体上的甲基化是非常低的;然而,作为一个组,在对照和HCC之间总CpG甲基化在统计学上不显著。
另一方面,在图27A中,在健康对照和HCC患者之间比较OCR和CGI区域中片段的比例。来自HCC患者的cfDNA与对照相比具有显著降低的OCR和CGI片段的比例(P值=0.009,Wilcoxon秩和检验)。在图27B中,这种趋势也见于膀胱癌中。X轴显示了不同样品的来源:对照个体(CTR),患有低级非肌肉侵入性膀胱癌(NMIBC_LG),高级非肌肉侵入性膀胱癌(NIMBC_HG)和高级肌肉侵入性膀胱癌(MIBC_HG)的对象。OCR和CGI区域中的片段随着膀胱癌的严重程度而降低,从低级非肌肉侵入性膀胱癌(NMIBC_LG)到高级非肌肉侵入性膀胱癌(NMIBC_HG)到高级肌肉侵入性膀胱癌(MIBC_HG)。作为一个组,膀胱癌具有比对照显著少的OCR和CGI中的片段(P值0.003,Wilcoxon秩和检验)。
2.胎儿对比母体特异性片段
图28显示OCR和CGI区域中胎儿特异性和母体特异性片段的比例也显著不同。X-轴显示胎儿特异性片段和母体特异性片段。OCR定义为围绕TSS、H3K4me3和H3K27ac区域的中心的±500bp,并与CGI区域合并。通过基因分型鉴定来自孕妇的单个血浆样品的胎儿特异性片段和母体特异性片段,并定量这些区域中片段的比例。在配对Wilcoxon符号秩检验中,胎儿特异性片段在OCR和CGI区域中的片段比例明显少于母体特异性片段(P值=9.2E-06)。
3.SLE
当身体的免疫系统失去自身耐受性并错误地攻击身体本身的细胞或组织时,发生自身免疫疾病。特别是系统性红斑狼疮(SLE),其特征在于针对双链DNA(dsDNA)的自身抗体。抗DNA自身抗体的水平与疾病活动性相关,并且由DNA和抗DNA自身抗体形成的免疫复合物的沉积与狼疮性肾炎的发展相关(Soni et al.Current Opinion in Immunology,2018;55:31-37)。以前,我们已经观察到SLE患者的血浆具有增加比例的短cfDNA,并且已经显示对血浆DNA的基因组和表观遗传特征的高分辨率分析反映了SLE患者的疾病活动性(Chanet al.Proc.Natl.Acad.Sci USA 111,E5302-E5311)。SLE患者的血浆cfDNA可显示异常的基因组表示(拷贝数变化),其可模拟癌症患者的基因组表示。在下文中,我们显示了具有异常基因组表示的示例性活动性SLE病例以及使用OCR的分析如何可用于将这些异常基因组表示与患有癌症的那些区分开来。
图29是显示包括转录起始位点(TSS)、CCCTC结合因子(CTCF)位点、DNase1超敏反应位点(DNase1)和H3K27ac、H3K4me3和H3K4me1组蛋白标志物的另一组开放染色质区域的表。人类基因组中每种标志物的数目用其相应的功能显示。这组OCR总共包含402,660,816bp,这是基因组的13%。如图29所列,OCR可扩展至TSS、CCCTC结合因子(CTCF)位点,DNase1超敏反应位点(DNase1)和H3K27ac、H3K4me3和H3K4me1组蛋白标志物。通过包括每个区域侧翼的3000bp,这组OCR总共包含402,660,816bp,其是基因组的13%。该侧翼区可被改变为1000bp或500bp,或4000bp,在敏感性和特异性上有权衡。
在SLE,尤其是活动性SLE中,在cfDNA中可观察到跨基因组的异常基因组表示(图30)。图30是显示在健康个体(内层),非活动性SLE患者(中间层)和活动性SLE患者(外层)的整个基因组中1Mb区段的基因组表示的circos图。每个点代表1Mb区段的基因组表示,并且如果与健康对照组中的平均基因组表示相差-3SD,则着红色,并且如果与健康对照组中的平均基因组表示相差+3SD,则着绿色。活动性SLE患者具有广泛不同的基因组分布的cfDNA。
测量的基因组表示(MGR)显示在图31中。在每1Mb区段中,计算健康组中的片段计数的平均值和标准偏差。然后通过z评分计算如下计算样品MGR:从样品的片段数(N)减去健康组的平均片段数(M)除以标准偏差(SD)。
图32显示了如何进行所选择的OCR的生物信息学掩蔽。在图29的OCR内的片段被排除在健康的平均值和SD计算以及最终的MGR计算之外。OCRS以红色显示。
图33是一个circos图,显示了在生物信息学掩蔽指定的开放染色质区域之后,测量的基因组表示(MGR)将如何改变。内环显示了在OCR的生物信息学掩蔽之前每个区段的MGR,其中存在许多异常的基因组表示。在生物信息学掩蔽这些OCR之后,减少了异常的基因组表示。
这与图34相反,图34是显示HCC患者血浆cfDNA样品中MGR的circos图。在癌症中也通常观察到拷贝数变化,并且在图34中,我们可以看到在整个基因组的多个区域中的拷贝数增加(绿色)和损失(红色)。内环是掩蔽OCR之前的MGR,而外环是掩蔽OCR之后的MGR。值得注意的是,在掩蔽OCR之前或之后,MGR和拷贝数异常没有显著变化。
图35是在健康对照,SLE和HCC对象中在生物信息学掩蔽OCR之前和之后具有异常MGR(大于+3SD或小于-3SD)的区段的百分比的盒图。X-轴显示了样品(健康对照、SLE、HCC对象)的来源以及样品是否在OCR掩蔽之前或之后取得。Y轴显示了具有异常MGR的区段的百分比。尽管在健康对照和真正阳性HCC病例中掩蔽OCR前后异常MGR的比例没有显著变化,但在SLE中掩蔽这些区域后异常MGR的比例降低。因此,掩蔽这些OCR和CGI区域可用于减少检测在癌症患者的血浆cfDNA中常见的拷贝数变化的假阳性。
4.对推定甲基化或非甲基化的CpG的覆盖
在推定甲基化或非甲基化的CpG处的末端密度先前显示出对推定的甲基化或非甲基化的CpG处的特异性核酸酶的切割偏好。从9个人体组织中鉴定推定甲基化或非甲基化的CpG,所述人体组织经历全基因组亚硫酸氢盐测序作为Roadmap Epigenomics Project的一部分。在所有组织中在≥90%的所有片段中甲基化的CpG位点被认为是推定甲基化的CpG,并且在所有组织中在≤20%的所有片段中甲基化的CpG被认为是推定非甲基化的CpG。与鉴定的CpG的C或G重叠的片段被认为覆盖CpG,并被包括在计算覆盖中。
图36A和36B显示了8名健康对照(CTR)、17名慢性乙型肝炎病毒(HBV)感染患者和34名肝细胞癌(HCC)患者的血浆cfDNA中覆盖推定甲基化(图36A)或非甲基化(图36B)CpG的片段的比例。Y轴显示了覆盖图36A中推定甲基化的CpG位点和覆盖图36B中推定非甲基化的CpG位点的片段的比例。尽管对推定甲基化的CpG的覆盖没有显著差异(P值0.89,Wilcoxon秩和检验),但对推定非甲基化的CpG的覆盖在HCC患者的血浆cfDNA中显著低于CTR(P值8.4E-05,Wilcoxon秩和检验)。
图37A和37B是显示覆盖14名对照,14名不活动性SLE患者和20名活动性SLE患者的血浆cfDNA中推定甲基化(图37A)或非甲基化(图37B的)CpG的片段的比例的盒图。尽管对推定甲基化的CpG的覆盖没有显著差异(P值0.57,Wilcoxon秩和检验),但与健康对照相比,对推定非甲基化的CpG的覆盖在活动性SLE患者的血浆cfDNA中显著降低(P值0.04,Wilcoxon秩和检验)。
图38A和38B是显示覆盖孕妇血浆cfDNA中胎儿特异性对比母体特异性片段中推定甲基化或非甲基化的CpG的片段的比例的盒图。对推定甲基化CpG的覆盖在胎儿特异性片段中显著低于母体特异性片段(P值3.2E-06,Wilcoxon符号秩检验)。与母体特异性片段相比,对推定非甲基化CpG的覆盖在胎儿特异性片段中略有降低,但没有显著降低(P值0.06,Wilcoxon符号秩检验)。
D.示例性方法
方法可以包括以不同的方式使用甲基化状态或水平来分析样品。甲基化水平可以仅从特定位点确定。例如,所述位点可以包括全部甲基化或非甲基化的CpG位点,并且可以包括或不包括某些区域。来自所有均低甲基化或所有均高甲基化的某些位点的序列读数的相对丰度可用于分析样品。样品中序列读数的相对丰度可用于诊断对象或测定样品中临床相关DNA的浓度分数。另外,在不包括开放染色质区域的区域中确定的拷贝数异常和使用其它区域确定的拷贝数异常可用于确定对象是否患有病况。可以通过本文所述的任何治疗(例如部分0)在对象中治疗通过任何方法检测到的病况。
1.分析生物样品的甲基化水平
使用某些位点处的甲基化状态测定的甲基化水平可用于确定生物样品或从中获得生物样品的对象的各种特征。所用的某些位点可以是全部甲基化或全部非甲基化的CpG位点。位点可以包括或排除OCR或CGI中的位点。甲基化水平可用于检测与核酸酶相关的基因的遗传病症,以确定对血液病症的治疗的功效,或监测核酸酶活性。检测与核酸酶相关的基因的遗传病症。
图39显示了说明根据本公开内容的实施方案使用对象的生物样品(包括无细胞DNA)检测与核酸酶相关的基因的遗传病症的方法3900的流程图。方法3900和本文中的其它方法可以用计算机系统完全或部分地执行。生物样品可以是任何无细胞DNA样品,例如,如本文所述。
在框3902,接收从对对象的第一生物样品中的第一无细胞DNA片段进行测序获得的第一序列读数。测序可以以各种方式进行,例如,如本文所述。测序可以是如本文所述的靶向测序。例如,生物样品可以富集来自特定区域的DNA片段。富集可包括使用与例如参考基因组所定义的基因组的一部分或整个基因组结合的捕获探针。
序列读数可以指示在无细胞DNA片段的位点处的甲基化状态。例如,可以使用亚硫酸氢盐转化来询问cfDNA片段位点处的甲基化状态,如本文所述。除了亚硫酸氢盐转化之外,本领域技术人员已知的其它方法可用于询问DNA分子的甲基化状态,包括但不限于对甲基化状态敏感的酶(例如甲基化敏感的限制酶),甲基化结合蛋白,使用对甲基化状态敏感的平台的单分子测序(例如纳米孔测序(Schreiber et al.Proc Natl Acad Sci2013;110:18910-18915)和通过Pacific Biosciences单分子实时分析(Tse etal.Proc Natl AcadSci U S A 2021;118:e2019768118)。
在框3904,序列读数的甲基化状态用于确定无细胞DNA片段的甲基化水平。甲基化水平可以使用所有序列读数或仅使用满足某些标准(例如位置或大小)的某些序列读数来确定。甲基化水平可以使用在多个位点处的序列读数来确定。所述位点可以具有特定的特征,例如是CpG位点。甲基化水平可以从亚硫酸氢盐处理(对应于甲基化胞嘧啶)后未转化的胞嘧啶的总数来确定。例如,在CpG位点,甲基化位点可以被确定为被映射到感兴趣的区域(例如,100kb的区域)的序列读数所覆盖的所有CpG位点的比例。这种分析也可以对具有其它区段大小的区域进行,例如500bp,5kb,10kb,50kb或1-Mb等。区域可以是整个基因组或染色体或染色体的一部分(例如染色体臂)。
在框3906,将无细胞DNA片段的甲基化水平与参考值进行比较以确定基因是否在对象中表现出遗传病症的分类。参考值可以包括或用于确定截止值或阈值。可以从表示特定分类或区分两个或更多个分类的参考值导出截止值或阈值。具有高于或低于截止值(阈值)的甲基化水平的对象可以被分类为携带遗传病症。可以通过相对于参考值的统计度量(例如,显著性,P-值,Z-分数)来定义截止值,例如,使得甲基化水平在统计学上不同。或者,校准值可用作参考值。例如,校准样品(其分类是已知的)中cfDNA的甲基化水平可用于基于无细胞DNA片段的甲基化水平来确定基因是否在对象中表现出遗传病症的分类。校准样品可以在某些位置,区域或整个基因组上具有已知的甲基化水平,以及具有已知的分类。
如本领域技术人员将理解的,可以以各种方式确定参考值。例如,可以从野生型动物或健康人类对象确定参考值。参考值可以从组织特异性样品或从同一对象获得的样品的一部分确定(例如,从血浆但在不同时间或掩蔽(例如,对于OCR或CGI)或从样品的血沉棕黄层部分获得的序列读数),如图1所示。例如,可以从与健康个体或健康个体群体有关的数据集中提取基因组中主要甲基化或非甲基化的位置或区域中甲基化的存在或程度,并将其用作参考值。
参考值可以包括多个截止值或阈值。甲基化水平可以在两个截止值或阈值之间,表示遗传病症的亚型或遗传病症的进展水平。例如,可以确定具有不同已知分类的对象的两个或更多个不同群组的甲基化水平,并且可以选择参考值作为一个分类的代表(例如,平均值)或度量的两个簇之间的值(例如,被选择以获得期望的灵敏度和特异性)。
基于与参考值比较的无细胞DNA片段的甲基化水平,可以使用统计方法或机器学习方法来确定对象中遗传病症的存在或这种病症的程度。所述统计方法或机器学习方法例如但不限于逻辑回归,支持向量机(SVM),决策树,CART算法(分类和回归树),朴素贝叶斯分类,聚类算法,主成分分析,奇异值分解(SVD),t分布随机邻居嵌入(tSNE),人工神经网络,集成方法等,所述集成方法构建一组分类器,然后通过对它们的预测能力进行加权投票来对新数据点进行分类。
在一些实施方式中,在确定甲基化水平或分类之前过滤无细胞DNA片段。例如,仅来自某一区域(例如,转录起始位点、RNA聚合酶II位点、H3K4me3标志物区域、H3K27ac标志物区域或随机区域)的片段可用于确定甲基化水平或因此确定对象中的遗传病症的分类。
a)确定对血液病症的治疗功效
图40显示了示出根据本公开内容的实施方案的用于确定患有血液病症的对象的治疗功效的方法4000的流程图。血液病症可包括血栓栓塞事件的易感性。方法4000的某些框可以以与方法3900的框类似的方式进行。
在框4002,接收从对象血液样品中的无细胞DNA片段测序获得的序列读数。在施用第一剂量的抗凝血剂的对象之后获得血液样品。抗凝血剂可以是肝素。序列读数可以指示在无细胞DNA片段的位点处的甲基化状态。可以在接收序列读数之前从对象获得血液样品。因此,可以对血液样品中的无细胞DNA片段进行测序以获得序列读数。
在框4004,序列读数的甲基化状态被用于确定无细胞DNA片段的甲基化水平。甲基化水平可以使用在多个位点的序列读数来确定。可以确定所有CpG位点均甲基化或均非甲基化的无细胞DNA片段的甲基化水平(例如,如图4所示)。DNA片段可以具有一个或多个CpG位点,并且全部都可以是甲基化的或非甲基化的。
在框4006,将无细胞DNA片段的甲基化水平与参考值进行比较以确定治疗功效的分类。第二剂量的抗凝血剂可以基于比较而被施用于对象,第二剂量大于第一剂量。在其它实例中,第二剂量可以小于第一剂量,例如,如果该量超过参考值。治疗可以包括血液透析,肾脏移植或本文所述的任何治疗。
在一些实施方案中,当测定甲基化水平时(例如,如图10和13所示),不包括位于开放染色质区域或CpG岛中的基因组位点。可以使用在包括开放染色质区域的位点处或在CpG岛中的甲基化状态(例如,如图10和23所示)来确定参考值。测定的甲基化水平可以对应于甲基化密度低于指定百分比的区域的数目。例如,如图15所示,甲基化水平可以仅在参考基因组中低甲基化的位点确定。在其它实例中,可以确定具有指定大小的无细胞DNA片段的甲基化水平(例如,如图11和13所示)。
参考值可对应于在施用抗凝血剂之前在对象中先前进行的测量。来自先前测量的量的变化可指示抗凝血剂剂量的功效。在另一个实施方式中,参考值可以对应于在健康对象中测量的量。有效剂量可以是使量在健康对象的参考值的阈值内的剂量。在另一个实施方式中,参考值可对应于在患有血液病症的对象中测量的量(例如,如先前在施用抗凝血剂之前在对象中测量的)。例如,参考值可以包括野生型动物或健康人类对象。参考值可以包括组织特异性样品或从同一对象获得的样品的一部分(例如,从样品的血浆或血沉棕黄层部分获得的序列读数),如图1所示。
b)监测核酸酶活性
图41显示了说明根据本公开内容的实施方案使用包括无细胞DNA的对象的生物样品监测核酸酶活性的方法4100的流程图。方法4000的某些框可以以与方法3900和4000的框类似的方式来进行。
在框4102,可以接收对象生物样品中无细胞DNA片段的序列读数。序列读数可以指示在无细胞DNA片段的位点处的甲基化状态。接收可以类似于框3902或4002。
在框4104,序列读数的甲基化状态被用于确定无细胞DNA片段的甲基化水平。甲基化水平可以使用在多个位点的序列读数来确定。可以确定所有CpG位点均甲基化或均非甲基化的无细胞DNA片段的甲基化水平(例如,如图4A-4C所示)。
在框4106,将无细胞DNA片段的甲基化水平与参考值进行比较以确定核酸酶活性的分类(例如,如图1所示)。一些实施方案可用于监测核酸酶的活性,例如DFFB、DNASE1和DNASE1L3的活性。这样的活性可以来自内部核酸酶(即作为身体的天然过程)和/或来自添加核酸酶(例如DNASE1)的结果。这种监测可用于确定针对治疗功效遗传病症的变化。例如,DNASE1可用于治疗对象。治疗的效果或核酸酶活性的异常(例如,由于遗传病症)可以通过使用cfDNA片段分析位点或多个位点的甲基化水平来测量,如本文所述。在一些实施方案中,DNASE1(例如,外源添加的)可用于治疗自身免疫病况,例如SLE。根据活性的测定,可以改变核酸酶的治疗剂量。异常核酸酶活性的测定(例如,高于或低于对应于正常/健康值的参考值)可单独或与其它因素组合指示病状等级。病状可以是癌症。在一些实施方案中,分类可以是核酸酶活性的数值表示(例如,核酸酶活性的测量值)。
2.区域特异性序列读数的量化
可以使用来自某组CpG位点的序列读数的比例来分析生物样品。某组CpG位点可以是参考基因组中全部低甲基化或高甲基化的CpG位点。覆盖这些特定位点的序列读数的相对丰度对于来自具有不同病况等级的对象的样品和来自具有不同核酸酶活性的对象的样品可能不同。
a)区分基因型和表型
图42显示了说明根据本公开内容的实施方案的用于分析对象的包括无细胞DNA的生物样品的方法4200的流程图。如本文所述,生物样品(例如,全血,血浆等)可以从对象获得,并且可以对血液样品中的无细胞DNA片段进行测序以获得序列读数。方法4200的某些框可以以与其它方法的框类似的方式来进行。
在框4202,可以鉴定在参考基因组中全部低甲基化或全部高甲基化的第一组CpG位点。参考基因组可以从健康个体或健康个体群体获得。参考基因组可以含有主要(或推定)非甲基化或主要甲基化的区域。可以将参考基因组中的甲基化水平与第一阈值进行比较。低于第一阈值的甲基化水平可以指示低甲基化位点(例如,在图15A中,第一阈值可以被设置为低于野生型的中位数甲基化水平)。在其它实施方案中,可以将参考基因组中的甲基化水平与第二阈值进行比较。高于第二阈值的甲基化水平可以指示高甲基化位点(例如,在图15B中,第二阈值可以被设置为高于野生型的中位数甲基化水平)。阈值可以是本文描述的任何阈值。未患有遗传病症或感兴趣疾病的个体可以被认为是健康个体。
在框4204,接收从对象生物样品中的无细胞DNA片段测序获得的序列读数。框4204可以以与框3902中所描述的类似的方式来进行。
在框4206,将序列读数与参考基因组比对以确定参考基因组中对应于无细胞DNA片段的基因组位置。例如,可以使用各种比对工具(例如BLAST、BOWTIE或SOAP)中的任一种将整个DNA片段的序列读数(或来自末端一对读数,或仅来自一个末端的一个读数)与参考基因组(例如hg19或其它参考)进行比对。作为比对的一部分,可以确定DNA片段的至少一个末端的坐标。以这种方式,可以仅针对末端位置或DNA片段所覆盖的任何位置来确定覆盖(读数/片段的数目)。因此,参考基因组中的基因组位置可对应于一个或多个cfDNA片段的一端或一个或多个cfDNA片段的其它部分。
在框4208,通过使用比对上的序列读数确定覆盖第一组CpG位点的无细胞DNA片段的相对丰度。相对丰度可以用各种方式测定。例如,相对丰度可包括可被cfDNA片段覆盖的参考基因组中推定的甲基化(或高甲基化)或非甲基化(或低甲基化)的CpG位点的百分比(例如,如图8、图27A或图27B所示)。在另一个实施方案中,对于涉及与核酸酶活性相关的遗传病症的病症,相对丰度可以包括如本文所述的归一化的末端密度(例如,如图6A-6E中所示)。
在框4210,然后将相对丰度与参考值进行比较以确定对象的病况等级。参考值可以包括使用来自健康个体的生物样品的序列读数确定的丰度水平。覆盖映射到第一组CpG位点中的CpG位点的位置的cfDNA片段的相对丰度可以与相对丰度的参考值不同(例如显著更低或显著更高)。所观察到的差异可用于确定对象的病况的等级或分类。所述病况可包括酶缺陷。所述病况可以包括癌症(例如,如图27A和27B以及图36A和36B所示)。所述病况可以是自身免疫疾病。所述病况可以由遗传病症引起。显示遗传病症的基因可以与核酸酶相关(例如,如图6A-6E和8所示)。所述病况可以包括自身免疫疾病(例如,如图37A和37B所示)。
b)监测核酸酶活性
图43显示了说明根据本公开内容的实施方案使用包括无细胞DNA的对象的生物样品监测核酸酶的活性的方法4300的流程图。如本文所述,生物样品(例如,全血,血浆等)可以从对象获得,并且可以进行样品中无细胞DNA片段的测序以获得序列读数。方法4300的某些框可以以与其它方法的框类似的方式来进行。
在框4302,可以鉴定在参考基因组中全部低甲基化或全部高甲基化的第一组CpG位点。参考基因组可以从健康个体或健康个体群体获得。参考基因组可以含有主要是非甲基化的或主要是甲基化的CpG位点。未患有遗传病症或感兴趣疾病的个体可以被认为是健康个体。框4302可以以与框4202类似的方式来进行。
在框4304,接收从对象生物样品中的无细胞DNA片段测序获得的序列读数。
在框4306,将序列读数与参考基因组比对以确定参考基因组中对应于无细胞DNA片段的基因组位置。框4306可以以与框4206类似的方式来进行。
在框4308,通过使用比对上的序列读数确定覆盖第一组CpG位点的无细胞DNA片段的相对丰度,如框4208所述。相对丰度可以是覆盖第一组CpG位点的DNA分子的数目相对于所分析的DNA分子的数目归一化。
在另一个实例中,相对丰度可以是覆盖位点(例如,OCR或CG1)(如例如图22所示的位点)的cfDNA片段的百分比。在另一个实施方案中,无细胞DNA片段的相对丰度可以是在第一组CpG位点处的无细胞DNA片段的大小分布的统计值(例如,如图7所示)。统计值可以是覆盖第一组CpG位点的具有第一大小的无细胞DNA片段的第一量相对于覆盖第一组CpG位点的具有第二大小的无细胞DNA片段的第二量的大小比。
相对丰度可以是覆盖第一组CpG位点的序列读数的末端密度。从对象获得的生物样品可以含有更多或更少的cfDNA片段,这些片段在主要是高甲基化,低甲基化或非甲基化的CpG位点处被酶促切割。
对于具有指定大小的无细胞DNA片段,可以确定无细胞DNA片段的相对丰度(例如,如图12所示)。指定大小可以包括5个碱基对(bp)、10bp、50bp、100bp、200bp、500bp、1000bp或更多,或它们之间的其它大小。指定大小可以是大小范围。例如,指定大小可以包括约5-100bp、70-150bp、50-500bp、5-50bp、约100-500bp、约100-1000bp的范围,或其它范围。
在框4310,然后将相对丰度与参考值进行比较以确定酶的活性的第一分类。参考值可以包括使用来自健康个体的生物样品的序列读数确定的丰度水平。酶(例如核酸酶,如DFFB、DNASE1或DNASE1L3)的活性可被分类并用于确定针对如4104中所述的治疗功效的遗传病症或遗传病症的变化。可以至少部分地基于遗传病症来确定病况等级,其中所述基因与核酸酶相关(例如,如图6A-6E和8所示)。异常酶活性的测定(例如,高于或低于对应于正常/健康值的参考值)可单独或与其它因素组合指示病状等级。病状可以是癌症。
3.浓度分数
图44显示了说明根据本公开内容的实施方案的用于估计对象的生物样品中临床相关DNA分子的浓度分数的方法4400的流程图。生物样品可以包括来自多种组织类型的无细胞DNA分子的混合物。例如,生物样品可以从包含母体cfDNA分子和胎儿cfDNA分子的孕妇获得(例如,如图28和图38A和38B所示)。生物样品可以包含肿瘤特异性cfDNA分子以及其它组织特异性cfDNA分子。临床相关DNA分子可以包括胎儿DNA。在其它实施方案中,临床相关DNA可以是肿瘤DNA或移植DNA。方法4400的某些框可以以与其它方法的框类似的方式来进行。
在框4402,可以鉴定在参考基因组中全部低甲基化或全部高甲基化的第一组CpG位点。参考基因组可以从健康个体或健康个体群体和/或非怀孕对象获得。参考基因组可以含有主要是非甲基化的或主要是甲基化的位置或区域。不患有遗传病症或感兴趣疾病的个体可以被认为是健康个体。如框4202所述,可以鉴定位点。
在框4404,接收从对象生物样品中的无细胞DNA片段测序获得的序列读数。
在框4406,将序列读数与参考基因组比对以确定参考基因组中对应于无细胞DNA片段的基因组位置。框4406可以以与框4206类似的方式进行。
在框4408,通过使用比对上的序列读数确定覆盖第一组CpG位点的无细胞DNA片段的相对丰度。相对丰度可以包括覆盖推定的甲基化或非甲基化位点(例如,OCR或CpG(或CGI)位点)的片段的百分比(例如,如图28或图38A和38B所示)。
在框4410,可以通过将相对丰度与从一个或多个校准样品确定的一个或多个校准值进行比较来估计生物样品中临床相关DNA分子的浓度分数,所述一个或多个校准样品的临床相关DNA分子的浓度分数是已知的。如图28和图38A和38B所示,胎儿和母体DNA具有不同的相对丰度。具有两者的混合物的样品将具有取决于样品中胎儿/母体DNA的比例的相对丰度。校准样品的浓度分数可以以其它方式确定,例如,使用男性胎儿的Y染色体上的基因座或胎儿特异性标志物(例如,遗传自父亲的等位基因或胎儿特异性表观遗传标志物)。
校准数据点可包括临床相关DNA的相对丰度和测量的/已知的分数。该比较可以包括与校准曲线(由校准数据点组成)进行比较,因此该比较可以鉴定曲线上具有测试样品的测量相对丰度的点。然后可以使用对应于所鉴定的点的浓度分数来估计浓度分数。例如,可以提供相对丰度作为校准函数的输入(例如,线性或非线性拟合),以获得浓度分数的输出。
4.确定病况
图45示出了说明根据本公开内容的实施方案的用于分析对象的包括无细胞DNA的生物样品的方法4500的流程图。方法4500的某些框可以以与其它方法的框类似的方式来进行。
在框4502,接收从对象血液样品中的无细胞DNA片段测序获得的序列读数。如本文所述,生物样品(例如,全血,血浆等)可以从对象获得,并且可以进行样品中无细胞DNA片段的测序以获得序列读数。
在框4504,使用序列读数确定参考基因组中对应于无细胞DNA片段的至少一个末端的基因组位置。
在框4506,确定多个节段的每个节段中的序列读数的第一量。例如,可以将参考基因组分成具有指定大小的节段(或区段)。作为实例,节段或区段大小可以是约10kb、50kb、100kb、500kb、1Mb或更大。节段大小可以在这里提到的任何两个大小之间。可以确定对应于节段的序列读数的频率或拷贝数。在其它实施方案中,该量可以是该节段的DNA片段的大小谱的统计值。也可使用其它性质,例如该区域的甲基化水平。
在框4508,将第一量与第一参考值进行比较,以确定该节段是否具有拷贝数异常。参考值可以包括从健康个体获得的与每个节段相对应的序列读数的量。在节段中,来自从对象获得的样品的序列读数的量与参考值之间的差异可以表示拷贝数异常。例如,可以使用测量的基因组表示(例如,如图31-图35所示)。
在框4510,确定具有拷贝数异常的节段的第一数目。对于多个节段,可以重复在框4506和4508中提到的过程,以确定具有拷贝数异常的节段的第一数目。
在框4512,确定被掩蔽以排除开放染色质区域的多个节段的每个被掩蔽的节段中的序列读数的第二量。掩蔽可以包括电脑模拟掩蔽(例如,使用生物信息学方法以排除节段)。某些区域可以被掩蔽,例如,如图29所示。
在框4514,将第二量与第二参考值进行比较,以确定被掩蔽的节段是否具有拷贝数异常。第二参考值可以包括从健康个体获得的在被掩蔽的节段中的序列读数的量。从对象获得的被掩蔽的节段的读数的量与参考值(对于同一节段)的差异可用于确定拷贝数异常。
在框4516,可以对一个或多个被掩蔽的节段重复框4510和4512中描述的步骤,以确定具有拷贝数异常的被掩蔽的节段的第二数目。因此,可以使用本文描述的掩蔽之前和之后的测量的基因组表示(例如,如图31-图35中所示)。
在框4518,至少基于第一数目和第二数目来确定对象的病况。第一数目和第二数目可以以多种方式使用。例如,可以进行两个数目之间的差异和/或对单个数目的分析。例如,可以使用第一数目,例如,使用几个百分比的截止值(例如,3%或5%)进行存在病况(例如,存在自身免疫或癌症)的初始分类。然后,可以使用第二数目来确定特定类型的病况,例如,它是自身免疫还是癌症,例如,约25%的截止值可以区分SLE和癌症。因此,所述病况可以是自身免疫疾病,例如SLE。例如,在掩蔽(如框4504-4510所描述)之前和掩蔽(如框4512-4516所描述)之后确定的具有异常MGR的区段的百分比可用于确定对象中的病况(例如,SLE或HCC)。
II.核酸酶对染色体外环状DNA的影响
无细胞DNA(cfDNA)分子以线性或环状形式存在于血浆中(T.Paulsen,P.Kumar,M.M.Koseoglu,A.Dutta,Discoveries of Extrachromosomal Circles of DNA in Normaland Tumor Cells.Trends Genet.34,270–278(2018),Y.M.D.Lo,D.S.C.Han,P.Jiang,R.W.K.Chiu,Epigenetics,fragmentomics,and topology of cell-free DNA in liquidbiopsies.Science(80-.).372,eaaw3616(2021))。某些来源组织的线粒体基因组的子集在血浆中表现为环状形式(M.-J.L.Ma,et al.,Topologic Analysis of PlasmaMitochondrial DNA Reveals the Coexistence of Both Linear and CircularMolecules.Clin.Chem.,clinchem.2019.308122(2019))。另外,在孕妇,正常对象和癌症患者的血浆中也可检测到无细胞染色体外环状DNA(eccDNA),尽管它们的丰度低于它们的线性对应物(S.T.K.Sin,et al.,Identification and characterization ofextrachromosomal circular DNA in maternal plasma.Proc.Natl.Acad.Sci.U.S.A.117,1658–1665(2020),J.Zhu,et al.,Molecular characterization of cell-freeeccDNAs in human plasma.Sci.Rep.7,10968(2017),P.Kumar,et al.,Normal andCancerous Tissues Release Extrachromosomal Circular DNA(eccDNA)into theCirculation.Mol.Cancer Res.15,1197–1205(2017))。
与在166bp处具有一个主峰的线性cfDNA相比,血浆中eccDNA的大小谱显示两个主峰簇,其在约202bp和338bp处具有峰,并且在两个簇内具有尖锐的10bp周期,反映了核小体结构的可能的参与(Sin et al.,PNAS(2020))。胎儿特异性eccDNA分子在孕妇的母体血浆中可被检测到,其比母体血浆中的更短且甲基化更少(Sin et al.,PNAS(2020)),S.T.K.Sin,et al.,Characteristics of Fetal Extrachromosomal Circular DNA inMaternal Plasma:Methylation Status and Clearance.Clin.Chem.67(2021))。因此,eccDNA分子的生物特性可能依赖于其来源的组织。
线性cfDNA的片段化是非随机过程。多个证据线索表明,这种片段化模式可能与各种核酸酶的活性有关(D.S.C.Han,Y.M.D.Lo,The Nexus of cfDNA and NucleaseBiology.Trends Genet.0(2021))。例如,据报道,脱氧核糖核酸酶1样3(DNASE1L3)有助于无细胞DNA片段化,并优先在小鼠和人体中产生具有CC末端的片段(Serpas et al.,PNAS(2019),R.W.Y.Chan,et al.,Plasma DNA Profile Associated with DNASE1L3 GeneMutations:Clinical Observations,Relationships to Nuclease SubstratePreference,and In Vivo Correction.Am.J.Hum.Genet.,1–13(2020))。Han等人系统地研究了脱氧核糖核酸酶1(DNASE1)、DNASE1L3和DNA片段化因子亚单位β(DFFB)对无细胞DNA片段化的影响,并且发现这些酶在细胞凋亡过程中以逐步的方式作用于DNA降解(D.S.C.Han,et al.,The Biology of Cell-free DNA Fragmentation and the Roles ofDNASE1,DNASE1L3,and DFFB.Am.J.Hum.Genet.106,202–214(2020))。此外,在Dnase1L3和DFFB双缺失的小鼠中不能检测到片段化的cfDNA(T.Watanabe,S.Takada,R.Mizuta,Cell-free DNAin blood circulation is generated by DNase1L3 and caspase-activated DNase.Biochem.Biophys.Res.Commun.516,790–795(2019))。因此,重要的是发现某些核酸酶是否也可能在血浆中eccDNA的产生和/或降解中起作用。
在本文中,敲除小鼠模型用于探索核酸酶如DNASE1L3和DNASE1是否会影响血浆eccDNA的生物特性。通过比较缺乏任一种核酸酶的小鼠的血浆和组织eccDNA之间的eccDNA大小变化的程度,分析这些核酸酶以细胞内或细胞外方式作用于eccDNA的能力。此外,通过应用小鼠妊娠模型,检测细胞外DNASE1L3对无细胞eccDNA的影响。通过比较DNASE1L3突变型患者和健康对照之间的无细胞eccDNA谱,提供了核酸酶对人体中eccDNA的影响的进一步证据。
总之,Dnase1l3缺失可延长血浆中的eccDNA。小鼠组织的eccDNA大小谱似乎不受Dnase1L3缺失的影响,提示DNASE1L3对无细胞eccDNA的大小改变可能与eccDNA的降解有关,而不是产生有关。通过来自小鼠妊娠模型的数据进一步强调了这种机制认识,即胎儿释放的细胞外DNASE1L3可以消化母体无细胞的eccDNA。值得注意的是,与健康对照相比,具有DNASE1L3缺陷的人类对象表现出更长的大小分布,这与Dnase1L3缺陷在小鼠中的作用相一致。本文提供的方法可使用无细胞eccDNA作为DNASE1L3缺陷相关疾病(例如系统性红斑狼疮和某些类型的癌症)的生物标志物。本文更详细地描述了实验设计,材料和方法以及结果。
A.实验设计和结果
使用敲除小鼠模型研究脱氧核糖核酸酶1(DNASE1)和脱氧核糖核酸酶1样3(DNASE1L3)对血浆染色体外环状DNA(eccDNA)特性的影响。当与野生型小鼠相比时,发现Dnase1l3-/-小鼠中的血浆eccDNA计数升高,而在Dnase1-/-小鼠中没有观察到显著变化。Dnase1l3-/-小鼠中的无细胞eccDNA表现出比野生型小鼠更大的大小分布。值得注意的是,在Dnase1-/-或Dnase1l3-/-小鼠的组织eccDNA中没有发现这种大小改变。这些数据表明DNASE1L3可以在细胞外消化无细胞eccDNA。细胞内eccDNA可以以比无细胞eccDNA低的速率被消化。这可能部分是由于与细胞内eccDNA相比,细胞外eccDNA的可接近性。对小鼠妊娠模型中的血浆eccDNA的谱分析表明,在孕育有Dnase1l3+/-胎儿的Dnase1l3-/-小鼠中,与携带Dnase1l3-/-胎儿的Dnase1l3-/-小鼠相比,母体血浆中的eccDNA缩短。因此,从Dnase1l3+/-胎儿释放到母体血液循环中的DNASE1L3可以具有系统活性。这种妊娠模型强调循环DNASE1L3可以以细胞外在的方式降解母体eccDNA分子。此外,与对照对象(例如,健康个体)相比,具有DNASE1L3功能丧失突变的人类对象中的血浆eccDNA也表现出更长的大小分布。
1.研究设计
图46示出了本研究的概念设计的示意图。研究了核酸酶(例如DNASE1和DNASE1L3)是否将对关于量和大小分布的eccDNA特性具有任何影响。首先,在阶段4601,鉴定来自野生型小鼠4603、Dnase1-/-小鼠4605和Dnase1l3-/-小鼠4607的血浆eccDNA分子。比较这三组小鼠中eccDNA的归一化计数和大小谱。其次,在阶段4610,为了探索核酸酶是否作用于活细胞内的eccDNA分子,对来自两种组织类型的三组小鼠的细胞eccDNA进行分析:肝脏和血沉棕黄层。在三组小鼠的血浆和组织(肝脏和血沉棕黄层)eccDNA中进行这种比较,以阐明核酸酶对eccDNA的作用(如果有的话)是在细胞外还是细胞内发挥。为了进一步探查核酸酶对eccDNA的细胞外作用,应用妊娠模型4620检查由杂合(Dnase1l3+/-)胎儿释放的DNASE1L3是否对野生型小鼠(具有野生型胎儿4623)、Dnase1l3-/-小鼠(具有纯合胎儿4625)和Dnase1l3-/-小鼠4627(具有杂合胎儿4627)的母体血浆中的无细胞eccDNA有任何影响。最后,在阶段4630,通过比较健康对照4632和具有DNASE1L3功能丧失突变4635的对象之间的eccDNA特征,在人类对象中进一步评价核酸酶对无细胞eccDNA的作用。
2.小鼠血浆中eccDNA的量
eccDNA的频率或量可以指示基因是否表现出遗传病症。使用如前所述的基于标签化(tagmentation)的eccDNA文库制备方案(4)对中位数为17,463,304个成对末端读数(范围:11,845,852-27,836,098)的血浆eccDNA文库进行测序,并鉴定了中位数为15,337个eccDNA的基因座(范围:3,309-94,248)中位数。图47显示了在三组小鼠中鉴定的血浆eccDNA分子的量的图。在x轴上表示的三组小鼠包括12只野生型(WT)小鼠(在最接近y轴的图左侧的组)、11只Dnase1-/-小鼠(在中间的组)和11只Dnase1l3-/-小鼠(在图右侧的组)。用每个样品的可映射读数的数目(表示为每百万可映射读数(EPM)值的eccDNA)来归一化在y轴上显示的量。Dnase1l3-/-小鼠的EPM值显著高于(中位数:12,206;范围:1,241-40,897)野生型小鼠的EPM值(中位数:3,056;范围:1,404-6,952)(P=0.04,Kruskal-Wallis检验)。在野生型和Dnase1-/-小鼠之间没有观察到统计学上显著的差异。野生型和Dnase1-/-小鼠之间没有统计学显著差异可能是在消化剩余存在的DNA分子中具有与DNASE1类似作用的其它核酸酶的结果。图47显示了可以使用eccDNA的频率或量来确定基因是否表现出遗传病症。
3.小鼠血浆中eccDNA大小分布
eccDNA的大小分布可以区分有和没有某些核酸酶缺陷的生物体。根据小鼠基因型将血浆eccDNA分子汇集成三组。它们的大小频率(Y轴)绘制在图48A-48C中,其中eccDNA片段大小显示在X轴上。来自所有三组小鼠的血浆eccDNA显示双峰大小分布,在约200bp(第一峰簇)和350bp(第二峰簇)处具有峰。与野生型小鼠相比,Dnase1l3-/-小鼠显示出第一峰簇(150-250bp)的减少和第二峰簇(300-450bp)的增强。然而,在Dnase1-/-和野生型小鼠之间没有观察到这种差异。计算三组小鼠的两个峰簇的大小谱曲线(AUC)下面积的值。
图48D描绘了三组小鼠(X轴)的AUC比(第二峰簇:第一峰簇)(Y轴)。图48A-48D显示Dnase1l3-/-小鼠比野生型和Dnase1-/-小鼠具有显著更高的AUC比。AUC比被计算为更好地显示eccDNA的总体大小分布特征的方式。AUC比越高,eccDNA的总体大小越长。例如,Dnase1l3-/-组的AUC比大于1,而野生型和Dnase1-/-组的AUC比小于1。Dnase1l3-/-组在统计学上具有比其它两个组更长的大小。
图48E说明用于确定第一峰簇4810和第二峰簇4820的AUC值的实例。图48E在X轴上显示了以碱基对计的eccDNA片段大小的大小。种片段大小的频率显示在Y轴上。突出显示每个峰簇下的面积。可以对该图进行积分以确定每个峰簇的曲线下面积。如图48D所示,可以计算面积的比。
图48F显示了三组小鼠(野生型“W”、Dnase1-/-和Dnase1l3-/-)的第一峰簇(150-250bp)和第二峰簇(300-450bp)的AUC值。X轴显示两个峰簇。Y轴显示AUC。在每个峰簇图中,来自野生型组的数据显示在左侧,Dnase1-/-组显示在中间,Dnase1l3-/-组显示在右侧。图48F显示Dnase1l3-/-小鼠的第一峰簇的减少和第二峰簇的增强(AUC第一峰簇:中位数30.3%,范围19.0-54.6%;AUC第二峰簇:中位数58.9%,范围40.4-67.7%,其与野生型小鼠(AUC第一峰簇:中位数77.9%,范围62.7-88.1%;AUC第二峰簇:中位数12.8%,范围8.9-28.5%)存在统计学差异(P第一峰簇簇<0.0001,P第二峰簇<0.0001;Kruskal-Wallis检验)。
总之,这些数据表明Dnase1l3-/-小鼠的血浆eccDNA分子比野生型和Dnase1-/-小鼠的血浆eccDNA分子长。这些图显示血浆eccDNA分子的大小分布可用于区分具有某些核酸酶缺陷的小鼠和不具有核酸酶缺陷的小鼠。
4.小鼠组织中eccDNA大小分布
为了探讨上述小鼠的不同基因型之间的血浆eccDNA的大小差异是发生在细胞内还是细胞外,对从野生型、Dnase1-/-和Dnase1l3-/-小鼠收集的肝脏和血沉棕黄层中提取的eccDNA进行了分析。并行应用组织eccDNA鉴定的两种方法:基于标签化的方法和基于滚环扩增(RCA)的方法。根据小鼠基因型和组织类型,收集组织eccDNA分子进行大小分析。在血浆中而不是在组织中观察到不同基因型之间的eccDNA大小差异。
图49A-49F显示了来自标签化方法的大小谱分析结果。X轴显示片段的大小。Y轴显示频率。分析5只野生型小鼠(图49A)、5只Dnase1-/-小鼠(图49B)和5只Dnase1l3-/-小鼠(图49C)中的肝脏eccDNA。分析6只野生型小鼠(图49D)、4只Dnase1-/-小鼠(图49E)和5只Dnase1l3-/-小鼠(图49F)中的血沉棕黄层eccDNA。分别从肝脏和血沉棕黄层组织中鉴定出中位数为3,051(范围:1,633-29,176)和4,217(范围:1,952-10,034)的eccDNA分子。
图49G显示使用标签化方法的三个组(野生型、Dnase1-/-和Dnase1l3-/-小鼠)的肝脏eccDNA的AUC比。X轴显示组。Y轴显示AUC比,其是第二峰簇(300-450bp)面积除以第一峰簇(150-250bp)面积。在三组小鼠之间的肝脏eccDNA中没有检测到AUC比的统计学显著差异(P=0.45,Kruskal-Wallis检验)。
图49H显示了使用标签化方法的三组(野生型、Dnase1-/-和Dnase1l3-/-小鼠)的血沉棕黄层eccDNA的AUC比。X轴显示组。Y轴显示AUC比,其是第二峰簇(300-450bp)面积除以第一峰簇(150-250bp)面积。在血沉棕黄层样品中检测到AUC比没有统计学显著差异(P=0.10,Kruskal-Wallis检验),类似于肝脏样品。
图50A-50F显示了来自RCA方法的大小谱分析结果。X轴显示片段的大小。Y轴显示频率。分析5只野生型小鼠(图50A)、5只Dnase1-/-小鼠(图50B)和5只Dnase1l3-/-小鼠(图50C)中的肝脏eccDNA。分析6只野生型小鼠(图50D)、4只Dnase1-/-小鼠(图50E)和5只Dnase1l3-/-小鼠(图50F)中的血沉棕黄层eccDNA。分别从肝脏和血沉棕黄层组织中鉴定出中位数为10,402(范围:4,355-42,473)和12,490(范围:6,260-43,288)的eccDNA分子。
图50G显示了RCA方法的三个组(野生型、Dnase1-/-和Dnase1l3-/-小鼠)的肝脏eccDNA的AUC比。X轴显示组。Y轴显示AUC比,其是第二峰簇(300-450bp)面积除以第一峰簇(150-250bp)面积。在三组小鼠之间的肝脏eccDNA中没有检测到AUC比的统计学显著差异(P=0.93,Kruskal-Wallis检验)。
图50H显示了RCA方法的三组(野生型、Dnase1-/-和Dnase1l3-/-小鼠)的血沉棕黄层eccDNA的AUC比。X轴显示组。Y轴显示AUC比,其是第二峰簇(300-450bp)面积除以第一峰簇(150-250bp)面积。在血沉棕黄层样品中没有检测到AUC比的统计学显著差异(P=0.93,Kruskal-Wallis检验),就像肝脏样品一样。
对于标签化和RCA方法,在小鼠的每种基因型的每种组织类型中鉴定的eccDNA被汇集并进行大小谱分析。来源于这些组织的eccDNA分子都显示出双峰大小分布,在约200bp和350bp处有两个峰。值得注意的是,肝脏eccDNA的两个峰簇比血沉棕黄层eccDNA的那些峰簇更尖锐。10bp的周期性振荡在肝脏eccDNA中也是明显的(回忆起血浆eccDNA模式),但在血沉棕黄层eccDNA中相对模糊。这种变化可能提示eccDNA的特征可能取决于其来源的组织。对于肝脏或血沉棕黄层,在野生型、Dnase1-/-和Dnase1l3-/-小鼠之间没有观察到eccDNA大小分布的明显差异。
结果表明,在血浆中观察到不同基因型的eccDNA大小差异,而在组织中则没有观察到差异,提示DNASE1L3对细胞内eccDNA的影响可能不显著。相反,在这些分子被释放到血液循环中之后,该酶可能能够作用于eccDNA。
5.Dnase1l3-/-小鼠妊娠模型
为了检验在野生型和Dnase1l3-/-小鼠之间的血浆中观察到的eccDNA的大小差异是由于细胞外DNASE1L3效应的假设,使用Dnase1l3-/-小鼠妊娠模型。在该模型中,具有或不具有Dnase1l3缺陷的C57BL/6(B6)品系的雌性小鼠与来自BALB/c基因组背景的野生型小鼠杂交。这样,产生了三个交配组:(1)怀有野生型胎儿的野生型雌性;(2)怀有Dnase1l3-/-胎儿的Dnase1l3-/-雌性;(3)怀有Dnase1l3+/-(杂合的)胎儿的Dnase1l3-/-雌性。B6和BALB/c品系之间的基因组差异也可用于区分胎儿特异性分子与母亲和胎儿共有的分子(即共有分子)(参见材料和方法中的细节)。结果表明胎儿释放的DNASE1L3能消化母体血浆中的eccDNA。
图51显示了小鼠妊娠样品及其在母体血浆中相应的eccDNA胎儿分数的信息。图中的小鼠妊娠样品对于小鼠和胎儿具有不同的Dnase1l3基因型。分析不同基因型的样品的eccDNA大小和量。图51的第一列是小鼠ID。第二至第五列包括配对的信息。第二列是雌性的Dnase1l3基因型。第三列列出雌性的品系。第四列是雄性的Dnase1l3基因型。第五列列出雄性的品系。第六列列出了母亲的周龄。第七列是怀孕的天数。第8列到第10列提供胎儿的信息。第8列是胎儿的数目。第九列是胎儿的Dnase1l3基因型。第十列列出胎儿的品系。第十一列包括检测到的总eccDNA片段。第十二和第十三列提供了关于覆盖信息SNP的eccDNA的信息。第十四列列出了覆盖胎儿和母亲之间共有的信息SNP的eccDNA的数目。第十五列列出了覆盖胎儿特异性SNP的eccDNA的数目。第16列包括胎儿eccDNA分数。胎儿eccDNA分数的中位数为25.8%(范围:16.5-46.6%)。
图52A-52C描绘了三组妊娠小鼠中总血浆eccDNA的平均大小分布。绘制携带野生型胎儿的野生型雌性(图52A)、携带Dnase1l3-/-胎儿的Dnase1l3-/-雌性(图52B)和携带Dnase1l3+/-胎儿的Dnase1l3-/-雌性(图52C)的母体血浆中eccDNA的平均大小分布。eccDNA片段大小显示在X轴上。频率显示在Y轴上。标记每个峰簇的AUC值,并相应地计算AUC比。对于携带野生型胎儿的野生型雌性(图52A),血浆eccDNA显示高的第一峰簇(AUC=67.8%)和相对低的第二峰簇(AUC=29.1%),其中AUC比为0.43。另一方面,对于携带Dnase1l3-/-胎儿的Dnase1l3-/-雌性(图52B),血浆eccDNA显示低的第一峰簇(AUC=21.4%)和较高的第二峰簇(AUC=68.3%),其中AUC比为3.18。因此,怀有Dnase1l3-/-胎儿的Dnase1l3-/-雌性比携带野生型胎儿的野生型小鼠具有更长的血浆eccDNA。这与在非妊娠野生型和Dnase1l3-/-小鼠之间观察到的eccDNA大小差异是一致的(图48A和图48C)。然而,对于携带Dnase1l3+/-(杂合的)胎儿的Dnase1l3-/-雌性(图52C),血浆eccDNA大小显示从Dnase1l3-/-表型到野生型表型的部分逆转,其中AUC值(AUC第一峰簇=30.6%;AUC第二峰簇=60.8%)和AUC比(1.99)落在前两组妊娠小鼠之间。图52A-52C表明存在胎儿释放的DNASE1L3对母体循环中的eccDNA分子的全身性作用,缩短了它们的大小。
图52D显示了与胎儿eccDNA分开汇集的母体eccDNA的大小谱。图52E显示了与母体eccDNA分开汇集的胎儿eccDNA的大小谱。eccDNA片段大小显示在X轴上,频率显示在Y轴上。在怀有Dnase1l3+/-胎儿的Dnase1l3-/-小鼠的血浆中,未观察到胎儿eccDNA比母体eccDNA(共有分子)短,提示DNASE1L3对eccDNA消化的局部作用可能不如以前报道的线性cfDNA那么显著(Serpas et al.,PNAS(2019))。图中显示了胎儿释放的DNASE1L3可以消化母体血浆中的eccDNA。
6.具有DNASE1L3缺陷的人类对象
在具有DNASE1L3功能丧失突变(即DNASE1L3-/-)的患者中进一步研究DNASE1L3缺陷对血浆eccDNA的影响。在材料和方法中描述了这些对象的详细样品信息。图53A和53B分别描绘了健康人类对象和DNASE1L3突变患者的血浆eccDNA的平均大小分布。eccDNA片段的大小显示在X轴上,频率显示在Y轴上。从4个健康人对象收集的血浆样品中汇集eccDNA的大小谱(图53A)。从3个具有DNASE1L3功能丧失突变的人对象收集的4个血浆样品汇集eccDNA的大小谱(图53B);在血液透析前和血液透析后的时间点从同一对象收集这些样品中的两个。在血液透析前采集的样品和血液透析后采集的样品之间没有观察到差异。当与健康对照比较时,DNASE1L3突变体显示出较低的第一峰簇,反映了这些患者中小eccDNA频率的降低。与小鼠的结果相似,人体的结果显示,人体的DNASE1L3缺陷导致血浆中更长的eccDNA。
图53C比较了健康对照和DNASE1L3突变对象之间的AUC比。对象组显示在X轴上。AUC比显示在Y轴上。在图53C中,圆点表示在单个时间点从每个对象收集的样品;三角形8210和正方形8220分别表示在血液透析前和血液透析后时间点从同一患者收集的样品。与健康对象相比,具有DNASE1L3突变的对象表现出显著更高的AUC比(P=0.03,Wilcoxon秩和检验)。
图54A至54H显示了图53A至53C中这些对象的个体大小谱。cDNA片段的大小显示在X轴上,频率显示在Y轴上。对于在两个时间点供给血液样品的患者,在血液透析前时间点(图54E)和血液透析后时间点(图54F)之间的eccDNA大小分布非常相似。有趣的是,在DNASE1L3突变的对象中也观察到第三峰簇(500-650bp)和第四峰簇(700-800bp)的富集(图54E-54H),反映了这些患者血浆中长的eccDNA分子的较高丰度。因此,人类对象中的DNASE1L3缺陷将导致血浆中eccDNA的延长,这与我们在Dnase1l3敲除小鼠中的发现是一致的(图48A-48D)。
B.大小谱变化
eccDNA的生物特性可能受核酸酶活性的影响。通过利用Dnase1和Dnase1l3的敲除小鼠模型,本文显示Dnase1l3的缺陷将显著延长小鼠中的血浆eccDNA。然而,在具有Dnase1缺陷的小鼠中没有观察到这种作用。DNASE1L3可能是影响无细胞eccDNA大小特征的主要因素之一。
令人感兴趣的是,野生型小鼠(图48A)中的血浆eccDNA大小谱与人类对象(图53A)中的不同,野生型小鼠比野生型人类对象具有更多的增强的第一峰簇和更多的减弱的第二峰簇。另一方面,Dnase1l3缺陷型小鼠的血浆eccDNA大小谱(图48C)与人类中的那些高度相似。这种观察可能归因于小鼠中存在的循环DNASE1L3的高得多的活性(M.Napirei,S.Ludwig,J.Mezrhab,T.H.G.Mannherz,Murine serum nucleases-contrastingeffects of plasmin and heparin on the activities of DNase1 and DNase1-like 3(DNase1l3).FEBS J.276,1059–1073(2009))。在我们的数据中进一步强调了DNASE1L3对eccDNA大小的缩短作用,该数据比较了健康人类对象和DNASE1L3突变患者之间的无细胞eccDNA(图53C)。这些证据线索一致地表明DNASE1L3的活性可以有效地调节无细胞eccDNA的生物特性。
值得注意的是,在细胞内水平上,Dnase1-/-小鼠和Dnase1l3-/-小鼠都没有显示出可观察到的eccDNA大小谱的变化(图50A-50H)。结果表明,DNASE1L3对细胞内eccDNA的接近可能是有限的。相反,DNASE1L3可以在eccDNA分子进入血液循环后作用于eccDNA分子。这种假设部分地可以得到下列与活细胞有关的证据的支持:(i)在内质网中检测到DNASE1L3,但在细胞核中不存在(S.D,T.S,Characterization of human DNase I familyendonucleases and activation of DNase gamma during apoptosis.Biochemistry 40,143–152(2001),M.Napirei,S.Wulf,D.Eulitz,H.G.Mannherz,T.Kloeckl,Comparativecharacterization of rat deoxyribonuclease 1(Dnase1)and murinedeoxyribonuclease 1-like 3(Dnase1l3).Biochem.J.389,355–64(2005));(ii)细胞eccDNA位于细胞核内(Y.Hotta,A.Bassel,Molecular Size and Circularity of Dna inCells of Mammals and Higher Plants.Proc.Natl.Acad.Sci.53,356–362(1965),Y.Shibata,et al.,Extrachromosomal microDNAs and chromosomal microdeletions innormal tissues.Science 336,82–6(2012)),其因此将限制DNASE1L3对这些分子的接近。然而,将eccDNA分子释放到循环中将促进它们被DNASE1L3接近,导致这些DNA分子的降解。
DNASE1L3对无细胞eccDNA的细胞外功能进一步由我们来自Dnase1l3妊娠小鼠模型的发现证实。先前已经确定,在怀有Dnase1l3+/-胎儿的Dnase1l3缺陷型小鼠中,从胎儿释放的DNASE1L3可以以全身性方式降解线性cfDNA分子(Serpas et al.,PNAS(2019))。类似地,在这里观察到在同一妊娠环境下向母体血浆中野生型模式的eccDNA大小谱的部分恢复。这一发现提示胎儿产生的细胞外DNA SE1L3可以作用于母体血液循环中的eccDNA,介导母体无细胞eccDNA的降解。关于DNASE1L3的局部作用(Serpas et al.,PNAS(2019)),当与Dnase1l3+/-母亲相比时,没有观察到来源于Dnase1l3+/-胎儿的eccDNA的缩短。我们推测无细胞eccDNA的某些特征可能仍待揭示,例如那些eccDNA分子是否将与细胞外囊泡或组蛋白相关联。
使用具有DNASE1L3缺陷的小鼠和人类模型建立核酸酶活性与无细胞eccDNA的特性之间的生物联系。自从DNASE1L3的异常表达已在多种病症如系统性红斑狼疮(R.W.Y.Chan,et al.,Plasma DNA Profile Associated with DNASE1L3 GeneMutations:Clinical Observations,Relationships to Nuclease SubstratePreference,and In Vivo Correction.Am.J.Hum.Genet.,1–13(2020),J.Hartl,et al.,Autoantibody-mediated impairment of DNASE1L3 activity in sporadic systemiclupus erythematosus.J.Exp.Med.218(2021))和某些类型的癌症(S.D,T.S,Characterization of human DNase I family endonucleases and activation ofDNase gamma during apoptosis.Biochemistry 40,143–152(2001),M.Napirei,S.Wulf,D.Eulitz,H.G.Mannherz,T.Kloeckl,Comparative characterization of ratdeoxyribonuclease 1(Dnase1)and murine deoxyribonuclease 1-like 3(Dnase1l3).Biochem.J.389,355–64(2005))中被报道,无细胞eccDNA的大小模式分析可用于这些疾病的生物标志物开发。
C.示例性方法
eccDNA的大小谱可用于确定生物样品或从中获得生物样品的对象的各种特征。可以使用一定大小的eccDNA的量来比较不同的大小谱。可以使用某些大小的原始量或不同大小的比值。可以检测遗传病症,包括与酶产生不足或过量产生有关的病症。可以监测核酸酶的活性。对象的状况可以基于核酸酶活性来确定。eccDNA的量可用于确定遗传病症。
1.使用eccDNA大小分布确定与核酸酶相关的遗传病症
图55是说明根据本公开内容的实施方案使用包括无细胞eccDNA的对象的生物样品来检测与核酸酶相关的基因的遗传病症的方法5500的流程图。方法5500和本文中的其它方法可以用计算机系统完全或部分地执行。生物样品可以是任何无细胞DNA样品,例如,如本文所述。对象可以怀有胎儿。
在框5502,接收从对象生物样品中eccDNA的无细胞DNA片段测序获得的序列读数。测序可以以各种方式进行,例如,如本文所述。测序可以是如本文所述的靶向测序。例如,生物样品可以首先富集eccDNA和/或也可以富集来自eccDNA中一个或多个特定区域的片段。用于组织eccDNA鉴定和富集的不同方法显示在图56中并在此描述。富集可以包括标签化(图56,步骤5620)、滚环扩增(图56,步骤5625)或酶处理(图56,步骤5615)。酶处理可以包括核酸外切酶V处理。酶处理可耗时5分钟(min)、10min、20min、30min、45min、60min、90min、12hr、18hr、24hr或更长时间。在一些实施方案中,酶处理耗时长达约30分钟。
在框5504,序列读数用于确定无细胞DNA片段的大小分布的大小值。大小值可以表征大小分布。大小值可以表征一种或多种大小的无细胞DNA片段的量。在一些实施方案中,大小分布是无细胞eccDNA的大小分布。
在一些实施方案中,大小值是具有第一大小的无细胞DNA片段的第一量相对于具有第二大小的无细胞DNA片段的第二量的比(例如,图48E)。第一大小(例如,对应于图48E的大小,第一峰簇7310)可以是大约150个碱基对(bp)至大约250bp。第一大小可以是约50bp至约250bp、约50bp至约100bp、约100bp至约150bp、约150bp至约200bp、或约200bp至约250bp。第二大小(例如,对应于图48E的大小,第二峰簇7320)可以是约300bp至约450bp。第二大小可以是约250bp至约500bp、250bp至约300bp、300bp至约350bp、约350bp至约400bp、约400bp至约450bp、或约450bp至约500bp、约500bp至约550bp,550bp至约600bp、600bp至约650bp、500bp至约650bp、650bp至约700bp、700bp至约750bp,750bp至约800bp、700至800bp、或800至850bp。第一大小和第二大小(例如,第一大小或第二大小的中位数大小或平均大小)可以彼此相差至少约10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、150bp或200bp。在一些情况下,第一大小的上限可以比第二大小的下限小至少约10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp或100bp。第一大小不同于第二大小。一个或多个大小可以包括第一大小和第二大小。在一些实施方案中,可以使用多于一个的大小值。例如,每个大小值可以是包括不同的第一大小和/或不同的第二大小的不同比值。
在一些实施方案中,大小值基于本文所述的任何大小的无细胞DNA片段的量,而不是不同大小的量的比。例如,大小值可以是大小为300bp至400bp的无细胞DNA片段的量。大小值可以是DNA片段的频率(例如百分比)或计数。该频率可以是大小范围的频率的曲线下面积(AUC)。例如,AUC可以是图48A-48C中两个峰之一下的AUC。在一些实施方案中,大小值可以是AUC比。例如,AUC比可以是一个峰下的AUC除以另一个峰的AUC(例如,图48D中的AUC比)。
在框5506,然后将来自样品(例如,来自人类对象或另一种哺乳动物)的大小值与从一个或多个参考样品获得的参考大小值进行比较。样品可以从怀有胎儿的对象获得。
参考样品可以包括从怀有胎儿的对象获得的样品。参考样品可以包括从健康对象获得的样品,所述健康对象例如为不具有核酸酶活性去缺陷的对象,或不具有与核酸酶相关的基因的任何遗传病症的对象。健康对象可以具有正常的核酸酶活性。参考样品可以包括来自具有核酸酶活性缺陷,或与核酸酶相关的基因的遗传病症的对象的样品。参考样品可以从组织或血液(例如血浆或血清)或本文所述的任何生物样品获得。参考样品可以来自处于相同或相似孕龄(例如,在对象的1、2、3或4周内的相同的三月期或孕龄)的对象。
可以以与大小值相同的方式来确定参考值。样品的大小值和参考样品的参考值之间的差异可用于分类基因是否表现出遗传病症。参考值可以是确定与参考样品的统计上显著的差异的截止值。例如,参考值可以是距具有或不具有遗传病症的参考对象的平均值一个、两个或三个标准偏差。在一些情况下,在治疗之前或之后从对象获得参考样品,其中治疗影响核酸酶的活性。在一些实施方案中,所述治疗是血液透析。
在一些实施方案中,与参考的比较可以包括机器学习模型,例如,使用监督学习来训练。获得训练样品的训练对象的大小值(以及可能的其它标准,例如拷贝数和甲基化水平)和已知病况可以形成训练数据集。可以基于训练集来优化机器学习模型的参数,以便在对病况等级进行分类时提供优化的精确度。示例性的机器学习模型包括神经网络、决策树、聚类和支持向量机。可以如在图39的框3906中所描述的那样进行比较。
在框5506,基于大小值的比较来确定与核酸酶相关的基因是否表现出遗传病症的分类。在一些实施方案中,对象怀有胎儿。样品可以含有来自对象和胎儿的无细胞的eccDNA。然后可以使用大小值比较来确定胎儿是否具有核酸酶活性缺陷或与核酸酶相关的基因的遗传病症的分类。在一些情况下,基于比较,相同的样品可用于确定妊娠对象是否具有核酸酶活性缺陷或与核酸酶相关的基因的遗传病症的分类。遗传病症可以是DNASE1L3基因的病症。遗传病症可包括一种或多种以下基因的病症:DNASE1、DFFB、TREX1(三素修复核酸外切酶1)、AEN(细胞凋亡增强核酸酶)、EXO1(核酸外切酶1)、DNASE2(脱氧核糖核酸酶2)、ENDOG(内切核酸酶G)、APEX1(嘌呤/嘧啶脱氧核糖核酸酶1)、FEN1(皮瓣结构特异性内切核酸酶1)、DNASE1L1(脱氧核糖核酸酶1样1)、DNASE1L2(脱氧核糖核酸酶1样2)和EXOG(外切/内切核酸酶G)。
在一些情况下,样品可用于检测与核酸酶相关的基因的母体等位基因、父系等位基因(例如,胎儿特异性等位基因)或两个等位基因是否表现出遗传病症(例如,图52A-52C)。例如,可以使用两个参考值。第一参考值可以从一个或多个第一参考对象确定,其胎儿在某个位置对于第一等位基因是纯合的。可以从一个或多个第二参考对象确定第二参考值,其胎儿在该位置对于第二等位基因是纯合的。
2.确定对血液病症的治疗功效
图57显示了说明根据本公开内容的实施方案的用于确定对患有血液病症的对象的治疗功效的方法5700的流程图。方法5700的某些框可以以与图55的方法5500的框类似的方式来进行。
在框5710,接收从对象血液样品中的无细胞DNA片段测序获得的序列读数。对象的血液样品可以在对象经历治疗(例如,第一剂量的治疗)之后获得。治疗可以包括抗凝血剂、血液透析、肾脏移植或本文所述的任何治疗。序列读数可以类似于图40的框4002所描述的方式或以本文所描述的任何方式来获得。
在框5720,确定无细胞DNA片段的大小分布的大小值。大小值表征一种或多种大小的无细胞DNA片段的量。框5720可以以与框5504类似的方式进行。
在框5730,将大小值与参考值进行比较以确定治疗功效的分类。第二剂量的抗凝血剂可以基于比较而被施用于对象,第二剂量大于第一剂量。在其它实例中,第二剂量可以小于第一剂量,例如,如果该量超过参考值。基于比较,可以继续,增加或停止治疗。
参考值可对应于在施用治疗之前在对象中先前进行的测量。来自先前测量的量的变化可指示治疗的功效。在另一个实施方式中,参考值可以对应于在健康对象中测量的量。有效的治疗可以是使量在健康对象的参考值的阈值内的治疗。在另一个实施方式中,参考值可对应于在患有血液病症的对象中测量的量(例如,如先前在施用治疗之前在对象中测量的)。例如,参考值可以包括野生型动物或健康人类对象。参考值可以包括组织特异性样品或从同一对象获得的样品的一部分(例如,从样品的血浆或血沉棕黄层部分获得的序列读数),例如如图1所示。
3.使用eccDNA监测核酸酶的活性
图58是说明根据本发明实施方案使用包括eccDNA的对象的生物样品监测核酸酶活性的方法5800的流程图。方法5800的某些框可以以与方法5500的框类似的方式进行。
在框5802,类似于框5502,接收从对象生物样品中eccDNA的无细胞DNA片段测序获得的序列读数。
在框5804,类似于框5504,序列读数用于确定无细胞DNA片段的大小分布的大小值。
在框5806,类似于框5506,将来自样品(例如,来自人类对象或另一种哺乳动物)的大小值与从一个或多个参考样品获得的参考大小值进行比较。然后可以基于比较确定核酸酶活性的分类。核酸酶可以是DNASE1L3、DNASE1、DFFB、TREX1(三素修复核酸外切酶1)、AEN(细胞凋亡增强核酸酶)、EXO1(核酸外切酶1)、DNASE2(脱氧核糖核酸酶2)、ENDOG(内切核酸酶G)、APEX1(嘌呤/嘧啶脱氧核糖核酸酶1)、FEN1(皮瓣结构特异性内切核酸酶1)、DNASE1L1(脱氧核糖核酸酶1样1)或DNASE1L2(脱氧核糖核酸酶1样2)。
在一些情况下,妊娠对象、胎儿或两者具有核酸酶活性缺陷,或与核酸酶相关的基因的遗传病症。在一些其它情况下,只有妊娠对象或胎儿中的一个具有核酸酶活性缺陷,或与核酸酶相关的基因的遗传病症。该基因可以是DNase I家族的任何成员(例如在人类中)。在一些实施方案中,基因是DNASE1或DNASE1L3。基因的两个等位基因(即,无效等位基因的纯合性)或两个等位基因之一(即,杂合性)的丧失可能与疾病有关。例如,DNASE1L3中的无效等位基因的纯合性可能与诸如系统性红斑狼疮的病况有关。在另一个实例中,DNASE1L3的杂合性可能与诸如类风湿性关节炎的病况有关。大小值比较可用于确定对象(即从对象获得的样品)中的核酸酶活性缺陷。
胎儿的基因型信息可以通过将大小值与参考值进行比较而不对母亲进行基因分型的情况下来获得。然而,在一些实施方案中,可以对母亲进行基因型分型。母亲可以是纯合的(例如,两个等位基因都缺失或两个等位基因都为野生型)或杂合的。对于以下的组,可以获得多个参考值:(1)母亲是纯合的(野生型)并且没有基因缺陷并且胎儿是野生型(例如,图52A);(2)母亲对于基因缺陷是纯合的,并且胎儿对于基因缺陷是纯合的(图52B);(3)母亲对于基因缺陷是纯合的,并且胎儿是杂合的(图52C);(4)母亲为野生型,胎儿为杂合的;(5)母亲是杂合的,并且胎儿是杂合的;和(6)母亲是杂合的,并且胎儿为野生型。相比生物体是野生型,相比生物体对于缺陷是杂合的,对于缺陷为纯合的生物体,可以预期更长的eccDNA片段。大小也可以受到生物样品中eccDNA的胎儿分数的影响。参考对象可以具有与对象相同或相似的孕龄。胎儿的基因型可以通过确定最接近大小值的参考值来确定。然后可以确定胎儿具有与参考值相同的基因型。然后也可以从参考值确定母体基因型。
分类可以是核酸酶活性缺陷。大小值可以指示比参考值更长的无细胞DNA片段。例如,大小值可以是较长大小的簇与较短大小的簇的比值,并且该比值可以大于参考值。
在一些情况下,核酸酶活性缺陷是病况如癌症的标志。因此,在一些实施方案中,本文所述的大小值比较用于将对象(即,从对象获得的样品)分类为患有病况(例如,癌症)。分类可以是对象患有以核酸酶活性缺陷为特征的病况(例如癌症)。可以从具有该病况的一个或多个参考对象或从不具有该病况的一个或多个参考对象确定参考值。
4.使用eccDNA的量来确定遗传病症
图59是说明根据本发明的实施方案,使用包括无细胞DNA的对象的生物样品检测与核酸酶相关的基因的遗传病症的方法的流程图。方法5900的某些框可以以与方法5500或5800的框类似的方式来进行。
在框5902,类似于框5502或5802,接收从对象生物样品中eccDNA的无细胞DNA片段测序获得的序列读数。
在框5904,序列读数用于确定与生物样品中的eccDNA的量相对应的参数的值。对应于生物样品中eccDNA的量的参数可以是,例如,eccDNA的量与来自生物样品的可映射序列读数的总量的比值。例如,该参数可以是图47中描述的每百万可映射读数(EPM)的eccDNA。参数值可以是例如样品中eccDNA丰度的百分比。
在框5906,可以将与样品中的eccDNA的量相对应的参数的值与参考对象中的eccDNA的参数的参考值进行比较,以确定该基因是否在该对象中表现出遗传病症的分类。
参考对象可以是本文所述的任何参考对象(例如,具有不表现出遗传病症的核酸酶相关基因的对象,不具有核酸酶活性缺陷的对象)。可以处理生物样品以富集来自eccDNA的无细胞DNA片段。处理可以包括物理处理(例如过滤,离心等),化学处理(例如酶促消化)或其组合。在一些实施方案中,在对来自eccDNA的无细胞DNA片段测序之前,用核酸酶处理样品以去除线性DNA。遗传病症可以是本文所述的任何病症,包括与DNASE1L3相关的病症。可以通过用核酸酶处理样品来进一步处理样品,然后对无细胞DNA片段进行测序以产生序列读数。在一些情况下,核酸酶是核酸外切酶V。
5.定量样品中的eccDNA
样品中eccDNA的绝对量可以通过掺入已知量的环状DNA来确定。然后对应于已知量的掺入分子的序列读数的量可用于确定样品中eccDNA的量。将已知量的掺入分子与序列读数的量相关的校准曲线可用于确定eccDNA的量。
可以提取无细胞DNA以形成生物样品。提取可以类似于图56的步骤5601。可以将生物样品分成几个相等的等分试样,或者可以将无细胞DNA提取成几个相等体积的等分试样。可将不同已知量的环状DNA加入每个等分试样中。例如,可以将各种不同量(例如,0.1ng、1ng、2ng、5ng、10ng)的已知大小(例如,200bp)的环状DNA添加(掺入)到相等的等分试样中。掺入分子可以是合成的环状DNA,质粒DNA或其它环状形式的DNA分子。
然后可以用核酸外切酶V处理来自生物样品的DNA和掺入的环状DNA的混合物以进行线性DNA消化(例如,图56的步骤5615)。然后可以对所得DNA进行打开环状DNA的标签化(例如,图56的步骤5620)。DNA可以进行PCR扩增。从测序结果鉴定的掺入环状DNA分子的量可以与预定特征(例如,通过序列读数确定的序列读数的量和大小)相关,以建立用于校准的标准曲线。然后可以使用校准曲线将来自血浆DNA的eccDNA的序列读数的量转化为绝对量(例如,质量,浓度)。在一些实施方案中,从血浆DNA中鉴定的eccDNA的量可以使用已知的掺入环状DNA的序列读数的量来归一化,以获得感兴趣的eccDNA实体的相对量。
从校准曲线导出的转换公式可用于将各种大小的eccDNA的读数计数转换为绝对量。例如,如果1ng掺入的环状DNA(例如,200bp)提供10,000个读数,则10,000个读数的400bp感兴趣的eccDNA将对应于样品中2ng这样的分子。这种转换公式还可以考虑例如但不限于鉴定的eccDNA的大小,测序深度,测序长度,DNA可映射性和PCR重复率等的因素。样品中eccDNA的量可用于使用该参数区分健康对照和患者组,而不考虑批次间的变化。
图60是与分析生物样品以定量eccDNA的量相关的示例性过程6000的流程图。在一些实施方式中,图60的一个或多个过程框可以由装置(例如,系统6500)执行。在一些实施方式中,图60的一个或多个过程框可以由另一装置或与该装置分开或包括该迎的一组装置来执行。另外,或者可替换地,图60的一个或多个过程框可以由系统6500的一个或多个组件执行,诸如测定装置6510,检测器6520,逻辑系统6530,本地存储器6535,外部存储器6540,存储装置6545,处理器6550和/或处理装置6560。
在框6010,接收对从对象的生物样品制备的混合物中来自染色体外环状DNA(eccDNA)的无细胞DNA片段测序获得的第一组序列读数。第一组序列读数可通过本文所述的任何方法获得,包括(例如)图39的框3902。生物样品可以是本文所述的任何生物样品。制备的混合物除了来自eccDNA的DNA片段外,还可以包括来自已知量的特定已知大小的环状DNA的片段。
可以将已知量的环状DNA添加到生物样品中,然后如图56所述进行处理以获得混合物。还可以制备一个或多个另外的混合物。混合物和一个或多个另外的混合物各自可以具有来自生物样品的相同量的eccDNA。该方法可以包括将生物样品中的eccDNA分成混合物和一个或多个另外的混合物。例如,可以将生物样品分成等体积或等质量的等分试样。可将已知量的第二大小的环状DNA加入到第一混合物中。可将另外已知量的环状DNA加入到一个或多个另外的混合物中。例如,可以将不同的已知量添加到每个混合物中。已知的量可以包括0pg、1pg、2pg、3pg、4pg、5pg、6pg、7pg、8pg、9pg、10pg、50pg、0.1ng、0.2ng、0.3ng、0.4ng、0.5ng、0.6ng、0.7ng、0.8ng、0.9ng、1ng、2ng、3ng、4ng、5ng、6ng、7ng、8ng、9ng、10ng,或在由这些质量中的任何两个指定的范围内的质量。
可以将相同大小的环状DNA添加到每个混合物中。大小可以是包括但不限于100nt、200nt、500nt、1000nt、2000nt、3000nt、4000nt、5000nt的大小,或在这些大小的任何两个所指定的范围内的大小。
混合物和一个或多个另外的混合物可以如图56所述进行处理。混合物和一个或多个另外的混合物可以用酶处理以去除线性DNA。酶可以是核酸酶(例如核酸外切酶V)。混合物和一个或多个另外的混合物中的eccDNA和环状DNA可以被线性化以形成线性化的eccDNA和线性化的环状DNA。线性化可以通过标签化进行。线性化也可以是滚环扩增,然后进行超声处理。线性化可以包括额外的扩增。可以对线性化的eccDNA进行测序,以获得第一组序列读数和一个或多个另外的混合物中的每一个的一个或多个第三组序列读数。可以对线性化的环状DNA进行测序以获得第二组序列读数和一个或多个另外的混合物中的每一个的一个或多个第四组序列读数。
在框6020,使用第一组序列读数测量无细胞DNA片段的大小。这些片段包括来自eccDNA和来自掺入的环状DNA的片段。无细胞DNA片段的大小可以使用片段与参考基因组的比对来测量。可以确定片段末端最外面的核苷酸的基因组位置。可使用基因组位置之间的差异计算片段的大小。在一些实施方案中,片段可以是序列,并且大小可以通过对片段中的核苷酸进行计数来确定。
在框6030,确定对应于第一大小的第一组序列读数的第一量。第一大小可以是来自eccDNA的片段,而不是环状DNA。第一大小可以是特定大小或大小范围。例如,大小范围可以是50bp至约250bp、约50bp至约100bp、约100bp至约150bp、约150bp至约200bp、或约200bp至约250bp、约250bp至约300bp、300bp至约350bp,约350bp至约400bp,约400bp至约450bp、或约450bp至约500bp,约500bp至约550bp、550bp至约600bp、600bp至约650bp、500bp至约650bp、650bp至约700bp、700bp至约750bp、750bp至约800bp、700至800bp,或800至850bp。第一量可以是多个片段或片段的总长度。
在框6040,确定对应于第二大小的第一组序列读数的第二量。第二大小可以是混合物中已知量的环状DNA的特定大小。第二大小可以是本文中针对环状DNA的大小所描述的任何大小。第二大小可以是与由eccDNA片段产生的大小不同的大小。
在框6050,将第一量与校准数据点进行比较。可以使用与第二大小相对应的第二组序列读数的第二量来确定校准数据点。校准数据点可以包括作为序列读数的数目的量的坐标和混合物或生物样品中的量的另一个坐标。校准数据点可以是校准曲线的点。校准曲线可以使用对应于第二大小的序列读数的一个或多个另外的量来确定。一个或多个另外的量中的每一个可对应于一个或多个另外的混合物中的环状DNA的一个或多个另外的已知量。另外的已知量可以不同于所述已知的量。所述已知的量和另外的已知量可以是本文所述的任何量。
校准曲线可以是由多个校准数据点确定的曲线。多个校准数据点可以来自序列读数的多个量和环状DNA的多个已知量。校准曲线可以是将序列读数的量与已知量相关联的曲线。校准曲线可以是对多个校准数据点的拟合或回归。在一些实施方案中,校准曲线可以是序列读数的量与混合物或生物样品中环状DNA的量相关的函数。
在框6060,使用所述比较确定来自eccDNA的对应于混合物中第一大小的无细胞DNA片段的量。该量可以是片段的质量,片段的数目或片段的长度。量的确定可以包括获取与校准数据点相关的已知量,并通过包括eccDNA大小,测序深度,测序长度,DNA可映射性和PCR重复率的因素来调整已知量。例如,与校准数据点相关的已知量可以乘以感兴趣的eccDNA的大小与环状DNA的大小的比值。
可以确定不同于第一大小的eccDNA大小的量。校准数据点可以是第一校准数据点。该量可以是第一量。第一校准数据点的已知量可以是第一已知量。可以测定与混合物中的eccDNA的无细胞DNA片段的第三大小相对应的序列读数的第三量。第三大小可以不同于第一大小和第二大小。第三量可以与第二校准数据点进行比较。第二校准数据点可以使用与添加的环状DNA的第二大小相对应的第三组序列读数的第四量来确定。例如,第二校准数据点可以将第四量与第二大小的第二已知量相关联。第二已知量和第三量可以来自第二混合物。第三量可以比第二量更接近第四量,因此使用第二校准数据点代替第一校准数据点或除了第一校准数据点之外还使用第二校准数据点。可以使用所述比较来确定来自eccDNA的对应于第三大小的无细胞DNA片段的第二量。在一些实施方案中,第三大小的eccDNA可以是与第一大小的eccDNA处于不同的混合物中。
参数的值可以使用来自混合物中的eccDNA的对应于第一大小的无细胞DNA片段的量来确定。该参数可以是该量的归一化值。例如,参数可以是量除以混合物或生物样品的体积或质量。该参数可以是浓度。在一些实施方案中,可以使用从中获得生物样品的对象的一个或多个物理特征来确定参数。例如,该参数可以使用对象的体重或身高。参数的值可以使用来自eccDNA的对应于第三大小的无细胞DNA片段的第二量来确定。大小范围内的其它大小可用于参数,包括本文所述的任何大小范围。在一些实施方案中,参数可以是一种或多种大小的量。
可以将参数的值与参考值进行比较,以确定基因是否在对象中表现出遗传病症的分类。基因和遗传病症可以是本文所述的任何基因和遗传病症。参考值可以从具有不表现出核酸酶相关基因的遗传病症的该基因的对象或从表现出所述遗传病症的对象确定。参考值可以是指示用于参考对象的参数的统计上不同的值的截止值或阈值。遗传病症的特征可以在于核酸酶的缺陷。分类可以是如果参数的值大于参考值或者如果参数的值小于参考值,则所述基因表现出遗传病症。
实施方案还可以包括治疗遗传病症。治疗可以包括本文所述的任何治疗。
过程6000可以包括另外的实施方式,诸如任何单个实施方式或下面描述的实施方式的任何组合和/或结合本文别处描述的一个或多个其它过程。
尽管图60显示了过程6000的示例性框,但是在一些实施方式中,过程6000可以包括与图90中所示的那些框相比另外的框,更少的框,不同的框或不同排列的框。另外,或者可替换地,可以并行地进行过程6000的两个或更多个框。
D.材料和方法
使用小鼠模型和人类对象进行实验以研究与DNASE1L3基因差异相关的差异。
1.动物模型
具有Dnase1基因缺失(Dnase1-/-)的小鼠获自加利福尼亚大学戴维斯分校的敲除小鼠计划储存库;具有Dnase1l3基因缺失(Dnase1l3-/-)的小鼠获自Jackson Laboratory。将小鼠维持在香港中文大学(CUHK)实验动物中心,所有实验程序都由CUHK动物实验伦理委员会批准,符合由国家卫生研究院建立的实验动物的照料和使用指南(第8版,2011)。
2.人类对象
用书面知情同意书招募了四个健康人类对象。从Istituto Giannina Gaslini(意大利)招募具有DNASE1L3突变的三个人类对象。这三个DNASE1L3突变的对象中的一个在血液透析前和血液透析后的时间点提供了血液样品。因此,总共从该患者群组中获得四个血液样品。
3.小鼠样品采集和处理
通过心脏穿刺从12只野生型,11只Dnase1-/-和11只Dnase1l3-/-小鼠采集血液样品,并于4℃,1,600×g离心10min,再将血浆部分于4℃,16,000×g离心10min,以去除细胞碎片。将血沉棕黄层部分在室温下以5,000×g离心5min以去除残留的血浆。收集小鼠肝脏组织并立即在-80℃保存。使用QIAamp循环核酸试剂盒(Qiagen)提取血浆DNA。使用QIAampDNA Mini试剂盒(Qiagen)提取血沉棕黄层(6只野生型、4只Dnase1-/-和5只Dnase1l3-/-小鼠)和肝脏(5只野生型、5只Dnase1-/-和5只Dnase1l3-/-小鼠)组织DNA。
4.EccDNA文库制备和测序
使用先前详述的基于标签化的方法(Sin et al.,PNAS(2020))从血浆样品进行eccDNA文库的构建。为了从肝脏和血沉棕黄层的组织DNA中富集eccDNA,我们采用了使用固相可逆固定(SPRI)珠粒(Beckman Coulter)的双重大小选择方法。
图56示出了该方法的工作流程。在步骤5601中,首先用0.5×珠粒去除染色体DNA5602(大尺寸分子);然后使用1.8×珠粒收集小尺寸DNA(线性5603和圆状5606)。对每个样品进行三次该方法以获得最佳的选择结果(步骤5610)。将大小选择的组织DNA与核酸外切酶V(New England Biolabs)在50μL反应系统中在37℃孵育30分钟以去除线性DNA(步骤5615)。使用MinElute Reaction Cleanup Kit(Qiagen)通过柱纯化收集剩余的DNA,然后进行标签化(步骤5620)或滚环扩增(步骤5625)以构建eccDNA文库。对于标签化(步骤5620),用Nextera XT DNA文库制备试剂盒(Illumina)处理DNA样品。对于滚环扩增(步骤5625),用NxGen phi29 DNA聚合酶(Lucigen)在30℃扩增DNA样品12小时,然后超声处理至200bp并对适配子连接进行测序。将DNA文库在Illumina NextSeq500或NextSeq 2000平台上进行2×75bp或2×150bp配对末端读数的测序。
以下提供了有关获得环状DNA的更多信息。关于环状DNA的其它信息可见于2020年3月25日提交的美国专利公开号2020/0407799A1,其内容通过引用并入本文用于所有目的。
在步骤5615中,工作流程首先通过核酸外切酶消化(例如,使用核酸外切酶V)减少(例如,基本上消除)血浆DNA样品中的线性DNA。其它技术也可用于减少线性DNA,例如氯化铯-溴化乙锭(CsCl-EB)密度梯度离心。
然后我们用打开圆环(例如eccDNA的圆环)以形成线性化DNA分子的方法追踪。eccDNA的线性化可以以各种方式进行。在一个实例中,我们利用限制酶消化在具有切割序列基序的特定切割位点打开圆环,所述切割序列基序是一种切割标签。在另一个实例中,我们使用转座酶(例如,通过标签化[步骤5620])来打开圆环,例如,以插入可识别的切割标签,如用于限制酶消化的切割序列基序。然后可以进行文库制备和所得线性化DNA的下一代测序。
在使用酶消化的各种实例中,一种实施方式可以使用限制酶MspI(切割CCGG序列;甲基化不敏感)。在另一个实施方式中,我们使用限制酶HpaII(切割CCGG序列;甲基化敏感)。在另一个实施方式中,我们组合了通过使用MspI和HpaII产生的数据以获得对eccDNA的新见解。
可以使用MspI和HpaII以外的限制酶。作为例证,也可以使用DpnI和DpnII,二者都识别GATC序列。DpnI仅在识别位点(A碱基)甲基化时才断裂。另一方面,DpnII对甲基化状态不敏感。识别和切割的碱基的数目可以变化。例如,MspI和HpaII都是4个碱基的切割器。可使用除4碱基切割器以外的限制酶,例如6碱基切割器。
当与eccDNA的滚环扩增(Shibata et al.Science.2012;336:82-86)和剪切(例如,通过喷雾器)以形成线性化DNA比较时,使用切割标签的方法(例如,限制酶或转座酶方法)可以在eccDNA读数的定义(鉴定)中提供更严格的标准。例如,可以使用包含已知序列(切割标签)的另外两个锚分子来精确地鉴定eccDNA分子,其中已经进行了切割(例如CCGG片段末端),并且在序列读数的两个末端序列之间不存在间隙。这种特征锚分子可以用于准确地鉴定eccDNA读数和用于确定它们在参考基因组中的位置。使用参考基因组通过比对方法可以确定没有缺口,如下面更详细描述的。
来自切割标签(例如CCGG读数末端)的这种信息不仅有助于对eccDNA的更准确的鉴定,由从甲基化不敏感和甲基化敏感限制酶检测的eccDNA的数目提供的互补信息还允许推断eccDNA的甲基化水平。这种信息不能通过以前文献记载的方法获得。此外,在eccDNA片段中不存在CCGG片段末端(或对其它类型的限制酶特异的其它识别序列,即其它类型的切割标签)可提供对预先存在的eccDNA损伤的见解,预先存在的eccDNA损伤是指在限制酶切割之前eccDNA的线性化。这种线性化可能是由于DNA加工过程中的机械剪切,血流中的核酸酶攻击等。这样的eccDNA分子,尽管用连接处位点检测,但通常在片段的一端或两端缺少限制酶切割基序。这种情况可被称为“预先存在的eccDNA损伤”。这种信息也不能通过以前文献记载的方法获得。这些信息可以为eccDNA的产生和体内加工的生物机制提供有价值的知识。
限制酶消化的用途已被用于产生用于分子克隆的重组质粒。然而,这种应用与本公开内容之间存在明显的区别。首先,当映射到基因组时,从具有清楚的起始和终止位置的生物体的基因组产生eccDNA分子,而这种概念不存在于细菌质粒中。其次,用于eccDNA研究的限制酶方法可以提供对宿主基因组序列的见解。但是对于细菌质粒DNA,限制酶消化方法仅允许进入质粒DNA信息,而不允许进入宿主基因组本身(Shintani et al.FrontMicrobiol.2015;31;6:242)。
限制酶方法利用eccDNA上特异性识别位点的存在,以便其消化和线性化。利用转座酶随机切割DNA的标签化方法不需要特异性DNA序列。因此,标签化方法可以潜在地提供更多数目的线性化eccDNA用于文库构建和测序。在先前的报道中,描述了在组织中使用标签化进行eccDNA分析(Shoura et al.G3(Bethesda).2017;7(10):3295-3303)。Shoura等使用氯化铯-溴化乙锭密度梯度离心从组织基因组DNA中富集eccDNA。相比之下,不需要进行这样的步骤。因此,本公开内容的标签化方法可更适合于血浆DNA和包括循环DNA的其它体液或粪便。
a)用于eccDNA鉴定的原理和生物信息学方法
图61显示了根据本公开内容的实施方案的用于eccDNA鉴定的示例性技术。基因组6100中的“蓝色”区6102和“红色”区6106表示被假定连接在一起形成染色体外环状DNA(eccDNA)的两个区域。“青”条表示限制酶识别位点6104,其作为切割标签。例如,MspI限制酶可以识别和裂解CCGG位点。这种特异性切割将使原始的环状DNA分子线性化。所得的线性化分子将携带交错的末端,其可以通过末端修复步骤进行修复以形成平末端分子。这样的平DNA末端将携带切割标签(即,5’CGG和3’CGG基序)。随后,可以使用不同的测序技术对平末端DNA进行测序,包括但不限于Illumina平台,Ion Torrent测序等。
所示的eccDNA 6110具有环状连接处基因座6112,其包括来自基因组6100的两个区域6102和6106。区域6102和6106的末端包括在两个分开的基因组位置的核苷酸,它们在eccDNA 6110中彼此直接相邻以形成环状连接处基因座6112。在步骤6120,在位点6104进行消化以产生线性化DNA分子6125。在步骤6130,进行末端修复,例如如上所述,以产生末端修复的DNA分子6135。在步骤6140,进行测序(例如,配对末端测序或单分子测序)以获得序列6145,其包括环状连接处基因座6112。如图所示,序列6145可以包括读数1和读数2。
如果我们对具有足够的读数长度的读数1和读数2进行测序,那么在配对末端测序的步骤中,有很高的可能性具有跨越环状连接处基因座6112(由嵌合箭头表示)的序列读数。读数1从线性化DNA分子6125的左端延伸,其中读数1在环状连接处基因座6112的左侧是蓝色,而在环状连接处基因座6112的右侧是红色。读数2从线性化DNA分子6125的右端延伸,其中读数2在环状连接处基因座6112的右侧是红色,而在环状连接处基因座6112的左侧是蓝色。
在步骤6150,与参考基因组进行比对。当读数1和/或读数2覆盖环状连接处基因座6112时,在比对结果中,我们将观察到线性化分子(例如,通过MspI切割)的读数1和读数2序列以独特的映射方向映射到参考基因组。为了说明的目的,我们在读数1中定义了未映射的节段6152(比对步骤后的红色箭头,“b→a”节段),它将对应于跨越来源于另一个基因组区域的连接处的序列,该连接处被连接形成环状DNA分子。类似地,我们在读数2中定义了未映射的片段6154(比对步骤后的蓝色箭头,“e→f”节段),它将对应于跨越来源于另一个基因组区域的连接处的序列,该连接处被连接形成环状DNA分子。
这种独特的映射方向性被以下两个场景所覆盖,这两个场景涉及读数和参考基因组之间的反向方向:
a.当节段“b→c”(即,b)的读数1最小映射坐标等于或小于节段“d→e”(即,d)的读数2最小映射坐标时,读数1将在反向链中对齐,而读数2将在正向链中对齐。
b.当读数2最小映射坐标等于或小于读数1最小映射坐标(图61中未示出)时,读数1将在正向链中对齐,而读数2将在反向链中对齐。
这种独特的映射方向性不同于起始于最初线性DNA的一对配对末端读数的常规映射方向。因此,这种标准可用于鉴定环状分子。例如,当读数1最小映射坐标等于或小于读数2最小映射坐标时,读数1在正向链中完全对齐,而读数2在反向链中完全对齐;或者当读数2最小映射坐标等于或小于读数1最小映射坐标时,读数1在反向链中完全对齐,而读数2在正向链中完全对齐。在生物信息学上,在读数1和/或读数2中存在的未映射的节段的参考基因组中搜索映射位点将允许描绘连接处。从片段的未映射节段推断的连接处位点之间的距离将指示环状DNA的大小。例如,区域6102和位点6104之间的距离提供了环状DNA的大小。
另一个特征是,如果环状DNA仅被切割一次,在映射的读数1和读数2之间存在两个核苷酸重叠。通过由MspI或HpaII或其它消化酶产生的交错末端(即锯齿状末端)引入读数1和读数2之间的这两个核苷酸重叠序列。MspI或HpaII将产生两个交错的单链断裂,并且两个断裂之间的距离将是2bp。这种5’突出的2-nt单链末端(彼此互补)将在末端修复步骤中被填充以形成平末端。因此,所得DNA序列将在读数1和读数2序列的末端之间携带2bp重叠。换句话说,在文库制备步骤期间,将存在“末端修复”步骤,其将通过向每个末端添加两个核苷酸而将锯齿状末端完成为平末端。因此,所得DNA序列将具有两个平末端而不是两个锯齿状末端。当两个测序读数与基因组比对时,在末端修复步骤中加入的两个核苷酸将作为两个读数之间重叠的两个额外的碱基对出现,这可以另外或替代地用于鉴定环状NDA分子。
总之,在示例性eccDNA鉴定方法中,可以有四个“诊断特征”,包括:
a.如上文(a)和(b)中提供的环状DNA特异性映射方向(方向性);
b.连接处已知的读数(仅是映射到参考基因组的终止序列的一部分);
c.限制酶切割标签;
d.读数1和读数2序列的5’端的两个重叠碱基。
这种诊断特征可以大大提高鉴定血浆DNA中全基因组的eccDNA分子的特异性。在一些实施方式中,满足这些“诊断特征”中的至少一个的测序读数可被定义为候选环状DNA。对于被限制酶切割多次的环状DNA,读数1和读数2不会在彼此之间携带重复的序列(重叠的碱基)。在其它实施方式中,只有来自一对的一个读数可能穿过连接处位点,而另一个将不携带连接处。作为另一个例子,来自一对的两个读数都不会携带连接处,但是显示了暗示环状DNA的独特的映射方向。在另一个实例中,即使在测序读数中不能直接观察到完整的限制酶切割标签,也可以从一个环状DNA的这些推断的连接处位点之间的参考基因组中检索参考序列。然后可以生物信息学地研究在这种检索到的参考序列中是否存在任何限制酶切割标签(基序)。这种推断的限制酶切割基序将增加鉴定的环状DNA种类确实正确的置信度。
因此,一种方法可以使用限制酶作为分析eccDNA的一部分。这种技术可以与本文所述的其它方法组合使用,例如用于分析eccDNA以及mtDNA。下游分析可包括使用环状DNA的检测来测量样品的性质。
在第一步骤中,可以接收生物体的生物样品。本文提供了生物样品的实例,例如血浆和血清。生物样品包括多个染色体外环状DNA(eccDNA)分子。eccDNA可以来自任何数量的染色体,包括常染色体和/或性染色体。多个eccDNA分子中的每一个都包括连接处,在该连接处两个分开的基因组位置的核苷酸彼此直接相邻。环状连接处基因座6112是与区域6102和6106的这种连接处的例子,所述区域包括这两个彼此直接相邻的分开的基因组位置。
在第二步骤(例如,步骤6120)中,使用限制酶进行消化。在一些实施方式中,可以使用多于一种类型的限制酶。消化所述多个eccDNA分子可以形成一组线性化DNA分子,每个均包括所述连接处。每种限制酶可以在不同的基序处切割,得到的线性化DNA片段具有不同的切割标签。术语“线性化DNA片段”与“线性DNA片段”不同,“线性DNA片段”在任何消化之前已经是线性的。
在第三步骤(例如,步骤6140)中,对于线性化DNA分子中的每一个,可以进行线性化DNA分子的至少两端的测序以获得一个或多个序列读数。一个或多个序列读数可以包括或不包括所述连接处。如果读数不包括所述连接处,仍然可以利用映射的方向性来鉴定eccDNA分子。在一些实施方案中,可以获得两个序列读数(每个末端一个)。在其它实施方案中,完全线性化的DNA分子的单一序列读数可包括两端,如本文所述。
在获得序列读数之后,序列读数可以被映射(比对)到参考基因组,例如,以查看它们是否以相反的方向映射。如果它们以相反的方向映射(示例性标准),则相应的线性化DNA分子可以被鉴定为最初是环状的。因此,对于线性化DNA分子中的每一个,可以从一个或多个序列读数中选择线性化DNA分子的一对末端序列。这对末端序列不包括所述连接处。这种末端序列的例子是图61中的末端序列6146和末端序列6148。该对末端序列中的每一个末端序列的方向被反转以获得一对反向末端序列。这种反向末端序列的例子是反向末端序列6156和反向末端序列6158。然后可以将反向末端序列对映射到参考基因组。
可以分析映射上的反向末端序列以测量生物样品的性质。这里提供了这种测量的例子。这种分析可以使用检测到的eccDNA的集合值(例如,计数,大小或甲基化)。因此,该方法可以进一步包括基于与参考基因组映射的一对反向末端序列,鉴定源自eccDNA分子的线性化DNA分子,并确定所鉴定的eccDNA分子的集合值,其中分析映射的反向末端序列以测量生物样品的性质使用集合值。
b)鉴定技术
如上所述,各种标准可用于鉴定环状DNA分子。另外,可以在原始序列读数(例如,图61的读数1和读数2)的分析中使用各种程序来鉴定环状DNA的一种或多种特性。
可以对原始序列读数进行预处理。例如,可以去除重复的读数,测序适配子和测序读数的3’末端的低质量碱基。此外,可以选择特定数目的配对末端读数的碱基(或来自单个分子读数的末端)进行比对。
(1)推定的eccDNA鉴定
在预处理的配对末端读数中由读数1和读数2的前50bp组成的生物信息学截短的读数1和读数2可用于使用比对程序,例如Bowtie 2(Langmead et al.Nat Methods.2012;9:357-9),以配对末端模式与人类参考基因组进行比对。也可以使用其它比对技术。除了50bp以外,还可以使用其它长度的每个读数,例如,至少20、25、30、35、40或45bp。在比对时的第一次通过可以尝试标准方向,例如读数1与在比读数中最后一个碱基更低的基因组位置处的左端比对。对于那些正常比对(即,在正向)的配对末端读数,关于读数1和读数2的映射方向性将在第一次通过中被确定。与常规正确映射的配对末端相反,如果片段的读数1和读数2对应于环状DNA,正向方向将不能提供该对的正确比对,因为这样的读数具有环状DNA特异性的映射方向(图61)。
如果该对读数未与正向对齐,则可以在第二次比对通过中尝试反向。如图61所示,读数1和读数2被反转。如果截短的读数可以反向对齐,则截短前的相应读数可以与参考基因组再次比对。可能需要非截短的读数,以便它们覆盖所述连接处。如果所述读数的确实覆盖了连接处,则即使在反向方向上,例如,如图61所示,它也不会与参考基因组完全对齐。具有至少一个不能在其全长上与参考基因组对齐的读数的配对末端读数可用于下游详细分析用于eccDNA的“诊断特征”(例如,上述4),因为不能以端对端模式对齐参考基因组的这种读数提示连接处。这些配对末端读数可以被认为是源自环状DNA分子的推定读数。
(2)探测eccDNA分子的连接处
为了以单碱基分辨率准确地定位eccDNA的基因组位置,一些实施方式分别微调推定的读数的重新比对。以读数1为例,将读数1序列的前20bp和后20bp用作种子(分别为种子A和种子B)以确定可能携带连接处的候选基因组区域。用于搜索候选位置的缩短的读数有助于最小化读数包含连接处的可能性,这将影响连接处位点的比对精度和精确确定。在该步骤中,可以允许多次击中(例如,对于每个种子不超过10次击中),以便使检测连接处的灵敏度最大化。如果种子B序列没有被放置在相同方向上的种子A映射位置的下游,则将提示这样的读数1将携带连接处。
接下来,我们使用搜索方法来探测用于被鉴定为潜在地携带连接处的读数1的单个基分辨率中的连接处。
图62A和62B显示了根据本公开内容的实施方案的用于连接处搜索方法的示意性方法。例如,如图61中的步骤6150之后所示,在比对到参考基因组之后的读数内进行搜索。携带连接处的读数6207包含两个具有相反映射方向的节段(红和蓝),例如,如图61所示。
在图62A和62B中,以“分割和匹配”方式进行搜索。我们使用“分割位点”6205(如黑虚线所示)将原始读数1序列分成两部分,即部分A和部分B。我们反复地沿着除种子区域6202和6204(例如,长度20bp的区域)之外的整个读数滑动“分割位点”6205,以便耗尽部分A和部分B的所有组合。在“分割位点”6205左侧的序列,但不包括种子区域6202,是部分A。在“分割位点”6205右侧的序列,但不包括种子区域6204,是部分B。部分A和部分B中每一个的最小长度可以被约束,例如不小于18bp。
图62A显示了“分割位置”6205不与实际连接处6212重叠的实例。在分割读数之后,可以重新比对种子区域6202和6204,如图所示。然后,部分A和部分B可以分别连接,如图所示。当“分割位点”6205与实际连接处6212不重叠时,如果在将部分A和部分B分别粘贴到种子A和种子B上之后,我们将部分A和部分B与参考基因组进行比较,则部分A和部分B将显示许多错配。
图62B显示了当“分割位点”与实际连接处6212精确重叠时的例子。如果在将部分A和部分B分别粘贴到种子A和种子B上之后,我们将部分A和部分B与参考基因组进行比较,则部分A和部分B在理论上将显示零错配。因此,读数1序列中的“分割位点”6250在部分A和部分B的所有组合中给出最小的错配被鉴定为连接处。这种最小值可以满足错配条件。在其它实施方式中,可以延伸种子,直到与参考指定数目(例如,两个或更多个)的连续位置错配。
这种搜索也被独立地应用于读数2序列。读数2序列将被用于进一步提高特异性。例如,读数2序列将具有两种情形:(1)读数2序列携带作为读数1的连接处。这种连接处信息应该与从读数1序列推导的结果相兼容。(2)读数2序列不携带连接处。在这种情况下,读数2序列应该在由连接处位点任一端的序列所界定的区域内完全对齐,这是从读数1序列(即,部分A和部分B)推断的。读数1和读数2的处理顺序是可交换的。在又一个实施方案中,沿着携带所推断的连接处的整个读数的错配总数被要求不超过指定的数目(例如,2)。
5.EccDNA鉴定和大小谱分析
用于小鼠eccDNA鉴定和大小分析的生物信息学原理的细节从先前的研究中修改(Sin et al.,PNAS(2020)并进行了微小的调整,包括使用小鼠基因组作为参考基因组的事实。对于小鼠妊娠模型,如下建立交配对:使C57BL/6基因组背景(野生型或Dnase1l3-/-)的雌性小鼠与来自BALB/c(野生型)或C57BL/6(Dnase1l3-/-)基因组背景的雄性小鼠杂交(图51)。首先将来自妊娠小鼠的eccDNA文库的测序数据针对C57BL/6参考基因组(NCBI构建38/UCSCmm10)映射,用于候选eccDNA的鉴定。随后将得到的候选eccDNA读数针对BALB/c基因组映射。只有鉴定为C57BL/6和BALB/c基因组下的eccDNA的候选读数被选择用于下游分析。从小鼠基因组计划(https://www.sanger.ac.uk/science/data/mouse-genome-project)获得包含在C57BL/6和BALB/c基因组之间不同的4,576,884SNP的数据库。因为所有雌性小鼠都来自C57BL/6品系,任何携带BALB/c特异性等位基因的eccDNA都被命名为胎儿特异性分子。覆盖具有共有SNP的相同等位基因的剩余分子将被指定为共有分子,其将主要是母体来源的。
6.统计学分析
应用Kruskal-Wallis检验,然后进行Dunn多重比较检验来比较三组数据。应用Wilcoxon秩和检验比较两组数据。使用GraphPad Prism 8.0(GraphPad Software)进行这些统计学检验。统计学显著性定义为P<0.05。
III.治疗
实施方案可以进一步包括在确定对象的分类之后治疗患者中的遗传病症或低核酸酶活性(例如,低于阈值)。治疗后对象的分类可以包括或不包括在体内或体外加入抗凝血剂以增强cfDNA末端分布。此外,当当前剂量具有低功效时,可以确定治疗作为当前治疗(例如抗凝血剂)的替代方案,例如可以使用剂量的增加或不同的抗凝血剂。可以根据确定的病症等级,任何鉴定的突变和/或起源的组织来提供治疗。例如,所鉴定的突变(例如,用于多态性实施方式)可以用特定的药物或化学疗法靶向。起源的组织可用于指导外科手术或任何其它形式的治疗。并且,病症的等级可用于确定对于任何类型的治疗有多强烈,这也可基于病症的等级来确定。可以通过化学疗法、药物、饮食、疗法和/或手术来治疗病症(例如,癌症)。在一些实施方案中,参数的值(例如,量或大小)超过参考值越多,治疗可能越强烈。
治疗可以包括化学疗法,其是使用药物来破坏癌细胞,通常通过保持癌细胞不生长和分裂。药物可以涉及,例如但不限于,丝裂霉素-C(可作为普通药物获得),吉西他滨(Gemzar)和用于膀胱内化学疗法的塞替派(Tepadina)。全身性化学疗法可以包括,例如但不限于,顺铂吉西他滨、甲氨蝶呤(Rheumatrex,Trexall)、长春碱(Velban)、多柔比星和顺铂。
在一些实施方案中,治疗可以包括免疫疗法。免疫疗法可以包括阻断称为PD-1的蛋白质的免疫检查点抑制剂。抑制剂可包括但不限于阿替佐珠单抗(TECENTRIQ)、尼伐单抗(Opdivo)、阿维鲁单抗(Bavencio)、度鲁姆单抗(Imfinzi)和派姆单抗(Keytruda)。
治疗实施方案还可以包括靶向疗法。靶向疗法是靶向癌症的特定基因和/或有助于癌症生长和存活的蛋白质的治疗。例如,埃达非替尼(erdafitinib)是经口给予的药物,其被批准治疗患有持续生长或扩散癌细胞的局部晚期或转移性尿路上皮癌的人,所述局部晚期或转移性尿路上皮癌具有FGFR3或FGFR2遗传突变。
一些治疗可以包括放射疗法。放射疗法是使用高能X射线或其它粒子来破坏癌细胞。除了每种单独的治疗外,还可以使用本文所述的这些治疗的组合。在一些实施方案中,当参数的值超过阈值(其本身超过参考值)时,可以使用治疗的组合。参考文献中关于治疗的信息通过引用并入到本文中。
IV.示例性实施方式细节
本文描述了用于研究核酸酶对线性cDNA和eccDNA的影响的实验技术。这些技术可应用于本文所述的任何方法。
在示例性鼠模型中,在C57BL/6NJ背景的Dnase1l3(mm9 Chr14:8,809,531-8,810,216)中具有CRISPR/Cas9靶向缺失外显子5的小鼠由Jackson实验室产生。携带B6背景的Dnase1[Dnase1tm1.1(Komp)Vlcg]的目标等位基因的小鼠和B6背景的WT对照小鼠获自加利福尼亚大学戴维斯分校的敲除小鼠计划储存库。所有实验程序都由香港中文大学(CUHK)动物实验伦理委员会批准,并按照国家卫生研究院建立的“实验动物的照料和使用指南”(第8版,2011)进行。将小鼠维持在CUHK实验动物中心。年龄为14-20周的雄性和雌性小鼠用于实验。进行对性别和性别认同对结果的影响的分析,因为它们的血液样品被汇集在一起。
在示例性鼠样品收集中,对小鼠进行安乐死并通过心脏穿刺放血。将全血置于含有EDTA的管中(来自Sarstedt的1.3mL K3E微管),并立即通过双重离心方案(在4℃下1,600xg 10分钟,然后在4℃下以16,000xg再离心血浆10分钟)分离(Chiu et al.,2001)。将来自3-4只小鼠的血浆收集到每个库中,每个库产生1.1-1.9mL血浆。总之,我们从20只WT小鼠的血浆中产生了6个WT库,从20只Dnase1l3-/-小鼠的血浆中产生了6个Dnase1l3-/-库,并从8只Dnase1-/-小鼠的血浆中产生了2个Dnase1-/-库。
在示例性人类对象中,从Istituto Giannina Gaslinin(意大利)和The Hospitalfor Sick Children(SickKids)(加拿大)招募3名具有DNASE1L3缺陷的对象(H2、H4和V11)和1名杂合亲本(H1),具有书面知情同意书。3名DNASE1L3缺陷型对象(H2、H4和V11)具有纯合移码c.290_291delCA(p.Thr97Ilefs*2)突变,而H1是H2和H4的杂合亲本。将来自先前公开的数据集中的8个健康个体的血浆数据用作对照(Chan等人,2013)。收集所有人类对象的血浆,但配对的血沉棕黄层仅从H1、H2和H4获得。本研究由香港中文大学医学院新界东医院联网临床研究伦理委员会(Joint Chinese University of Hong Kong-HospitalAuthority New Territories East Cluster Clinical Research Ethics Committee)、Istituto Giannina Gaslini伦理委员会(批准Biol 6/5/04)和SickKids ResearchEthics Board批准。
A.DNA提取和亚硫酸氢盐DNA测序
在一个实例中,用QIAamp Circulating Nucleic Acid Kit(Qiagen)提取血浆DNA,用QIAamp DNA Blood Mini Kit(Qiagen)提取血沉棕黄层DNA,然后超声处理至中位数大小350bp(Covaris)。使用EpiTect Bisulfite Kit(Qiagen),用亚硫酸氢盐修饰的TruSeqDNA Nano Library Prep Kit(Illumina)构建带索引的DNA文库。亚硫酸氢盐转化的DNA文库用12个PCR循环富集,并在Agilent 4200TapeStation(Agilent Technologies)上使用High Sensitivity D1000 ScreenTape System(Agilent Technologies)进行分析,用于质量控制和基于凝胶的大小测定。在测序前通过Qubit dsDNA高灵敏度分析试剂盒(ThermoFisher Scientific)定量文库。在HiSeq 4000平台(Illumina)上对血浆文库进行2×75bp配对末端测序,并在NextSeq 500平台(Illumina)上对血沉棕黄层文库进行2×75bp配对末端测序。
B.亚硫酸氢盐测序数据的质量控制、修剪和比对
在一个实例中,基于它们的六碱基索引序列将序列分配给它们的相应样品。去除适配子序列,并从配对末端的亚硫酸氢盐测序读数中修剪掉Phred评分低于20的低质量碱基。将清理过的读数与参考基因组(小鼠:NCBI MGSCv37/UCSC mm9;人:NCBI GRCh37/USCShg19;非重复掩蔽)比对,最多有两个错配。共有相同起始和终止基因组坐标的配对末端读数被认为是PCR重复,并从下游分析中丢弃。通过Methy-Pipe产生基因组上所有CpG位点的甲基化密度(Jiang et al.,2010)。
图63总结了为每种病况获得的唯一片段的数目。第一列列出基因型。第二列列出样品类型。第三列是样品鉴定。第四列是原始片段计数。第五列是预处理后的片段计数。第六列是可映射片段的数目。第七列是映射率(可映射片段除以预处理之后的片段计数)。第八列是非重复的片段的数目。第九列是重复率。第十列是重复片段的数目。第十一列是排序深度。
图64显示了小鼠数据中Dnase1和Dnase1l3基因的缺失在比对数据中得到证实。左图显示Dnase1l3基因区域。右图显示Dnase1基因区域。不同的样品列在不同的行中。每行中的着色条代表与该区域对齐的片段的存在。左图显示来自Dnase1l3-/-基因型的样品具有缺失的区域,与来自Dnase1-/-和野生型基因型的样品不同。右图显示来自Dnase1-/-基因型的样品具有缺失的区域,与来自Dnase1l3-/-和野生型基因型的样品不同。
C.计算不同区域的末端密度和甲基化水平
在一个实例中,RNA聚合酶II(Pol II)、H3K4me3、H3K27ac区域是从人类和小鼠ENCODE项目(Shen et al.,2012;Dunham et al.,2012)下载的。从UCSC下载所有基因和CpG岛(CGI)的转录起始位点(TSS)。通过BEDTools(v2.27.1)(Quinlan和Hall 2010)在整个基因组上随机选择10,000bp长度的10,000个随机非重叠区域。使用±1000bp的可视化窗口大小,通过±3000bp区域中的中位数末端计数将片段末端计数归一化以获得归一化的末端密度。从相应区域中的CpG位点计算这些区域的甲基化水平。计算各样品中位数并作图。
D.0%和100%甲基化的片段的cfDNA大小
在一个实例中,用比对末端的基因组坐标来推导测序的cfDNA的整个片段的大小。为了鉴定0%和100%甲基化的片段,使用具有三个或更多个CpG位点的片段来计算甲基化百分比。将具有至少三个甲基化的CpG中的零个的那些标记为0%甲基化的片段,将具有至少三个甲基化的CpG中的所有的那些标记为100%甲基化的片段。绘制这些片段类型中每种基因型的中位数大小。
E.OCR和CGI片段分析
在一个实例中,将围绕TSS、PoI II、H3K4me3和H3K27ac区域中心±500bp的区域与CGI区域合并。如果至少一个碱基与这些区域重叠,则认为片段在这些区域内。计算这些区域内片段的片段百分比和大小谱,并在掩蔽这些区域后重新计算甲基化水平和大小谱。对于circos图,参考基因组被分成1Mb区段,circos图中的每个点代表从1Mb区段内所有CpG位点推断的每个区段的甲基化水平。
F.对推定的甲基化和非甲基化CpG的分析
在示例性鼠模型中,使用以下标识符从ENCODE端口(https://www.encodeproject.org/)获得具有2个生物重复的8个小鼠组织的全基因组亚硫酸氢盐测序(WGBS)数据:ENCFF874IPH、ENCFF249MKR、ENCFF916JME、ENCFF012ENO、ENCFF283GDL,ENCFF348XNA、ENCFF978EJO、ENCFF282MIR、ENCFF779LLA、ENCFF060ISR、ENCFF853NGK、ENCFF373MDU、ENCFF306KYH、ENCFF663AVX、ENCFF678IZX、ENCFF918TYN、ENCFF098RUM、ENCFF585VLM、ENCFF847MPY、ENCFF980YJZ、ENCFF073OSB、ENCFF804QBF、ENCFF192LZC、ENCFF442AJP、ENCFF541AEY、ENCFF753BBR、ENCFF798LHE、ENCFF082ZSO、ENCFF623FPU、ENCFF422TOH、ENCFF240XBY、ENCFF566GDN、ENCFF340YVI、ENCFF703DEV、ENCFF802SFU、ENCFF306ZPW。使用以下标识符从Roadmap Epigenomics Project获得9个人体组织的WGBS数据:GSM1010983、GSM1010981、GSM983648、GSM983649、GSM1010984、GSM983650、GSM916049、GSM983647、GSM983651、GSM1010987、GSM983645、GSM983646、GSM983652、GSM1120324、GSM1010978、GSM1058027、GSM1059433、GSM1120321。用ENCODE WGBS单末端管线(Krueger和Andrews 2011)由Bismark对这些数据集进行比对和甲基化分析。
从这些数据集中分别以≤20%和≥90%的甲基化水平截断值鉴定出推定非甲基化和甲基化的CpG位点。从小鼠数据集中,鉴定了545,720个推定甲基化的CpG和7,140个推定非甲基化的CpG。从人类数据集中,鉴定了439,114个推定甲基化的CpG。
对于末端密度分析,聚集各个CpG位点,并显示±1000bp和±20bp窗口内的归一化末端密度。归一化的末端密度是末端计数除以±1000bp区域的中位数末端计数。在这些推定非甲基化或甲基化的CpG位点的CpG甲基化的计算中使用其碱基中的任何一个覆盖所鉴定的CpG的C或G的片段。
G.统计学分析
通过用Perl和R语言编写的内部生物信息学程序进行分析。P值小于0.05被认为是统计学上显著的,并且所有概率都是双尾的。
V.示例性系统
图65显示了根据本公开内容的实施方案的测量系统6500。所示的系统包括样品6505,例如测定装置6510内的无细胞DNA分子,其中可以对样品6505进行测定6508。例如,样品6505可以与测定6508的试剂接触以提供物理特征6515的信号。测定装置的一个实例可以是包括测定的探针和/或引物的流通池或液滴移动通过的管(液滴包括测定)。来自样品的物理特征6515(例如,荧光强度,电压或电流)由检测器6520检测。检测器6520可以以间隔(例如,周期性间隔)进行测量,以获得构成数据信号的数据点。在一个实施方案中,模数转换器将来自检测器的模拟信号在多个时间转换为数字形式。测定装置6510和检测器6520可以形成测定系统,例如,根据本文所述的实施方案进行测序的测序系统。数据信号6525从检测器6520发送到逻辑系统6530。作为实例,数据信号6525可用于确定DNA分子的参考基因组中的序列和/或位置。数据信号6525可以包括同时进行的多种测量,例如不同颜色的荧光染料或不同分子的样品6505的不同电信号,因此数据信号6525可以对应于多个信号。数据信号6525可以存储在本地存储器6535,外部存储器6540或存储装置6545中。
逻辑系统6530可以是或可以包括计算机系统,ASIC,微处理器,图形处理单元(GPU)等。它还可以包括显示器(例如,监测器,LED显示器等)和用户输入装置(例如,鼠标,键盘,按钮等)或与显示器(例如,监测器,LED显示器等)和用户输入装置(例如,鼠标,键盘,按钮等)耦合。逻辑系统6530和其它组件可以是独立的或网络连接的计算机系统的一部分,或者它们可以直接连接到包括检测器6520和/或测定装置6510的装置(例如,测序装置)或结合在其中。逻辑系统6530还可以包括在处理器6550中执行的软件。逻辑系统6530可以包括存储用于控制测量系统6500以执行本文所述的任何方法的指令的计算机可读介质。例如,逻辑系统6530可以向包括测定装置6510的系统提供命令,以便执行测序或其它物理操作。这样的物理操作可以以特定的顺序进行,例如,以特定的顺序加入和去除试剂。这种物理操作可以由机器人系统,例如,包括机器人臂执行,其可以用于获得样品并执行测定。
系统6500还可以包括治疗装置6560,其可以向对象提供治疗。治疗装置6560可以确定治疗和/或用于执行治疗。此类治疗的实例可包括手术、放射疗法、化学疗法、免疫疗法、靶向疗法、激素疗法和干细胞移植。逻辑系统6530可以连接到治疗装置6560,例如,以提供这里描述的方法的结果。治疗装置可以接收来自其它装置,例如成像装置和用户输入(例如,以控制治疗,例如对机器人系统上的控制)的输入。
这里提到的任何计算机系统可以利用任何适当数量的子系统。这样的子系统的实例在图66的计算机系统10中示出。在一些实施方案中,计算机系统包括单个计算机设备,其中子系统可以是计算机设备的组件。在其它实施方案中,计算机系统可以包括多个计算机设备,每个计算机设备是具有内部组件的子系统。计算机系统可以包括台式和膝上型计算机,平板电脑,移动电话和其它移动装置。
图66所示的子系统通过系统总线75相互连接。另外的子系统,例如打印机74,键盘78,存储装置79,监测器76(例如,显示屏,例如LED),耦合到显示器适配器82,以及其它子系统被示出。耦合到I/O控制器71的外围装置和输入/输出(I/O)装置可以通过本领域已知的任何数量的装置连接到计算机系统,例如输入/输出(I/O)端口77(例如,USB、)。例如,I/O端口77或外部接口81(例如,以太网,Wi-Fi等)可用于将计算机系统10连接到广域网,诸如因特网,鼠标输入装置或扫描仪。经由系统总线75的互相连接允许中央处理器73与每个子系统通信并控制来自系统存储器72或存储装置79(例如,诸如硬盘驱动器或光盘的固定盘)的多个指令的执行,以及子系统之间的信息交换。系统存储器72和/或存储装置79可以体现为计算机可读介质。另一子系统是数据采集装置85,例如照相机,麦克风,加速度计等。这里提到的任何数据都可以从一个查不见输出到另一个组件,并且可以输出到用户。
计算机系统可包括多个相同的组件或子系统,例如,通过外部接口81,通过内部接口,或经由可从一个组件连接到另一个组件和从另一个组件移除的可移动存储装置连接在一起。在一些实施方案中,计算机系统,子系统或设备可以通过网络进行通信。在这种情况下,一个计算机可以被认为是客户机,而另一个计算机可以被认为是服务器,其中每个计算机可以是同一计算机系统的一部分。客户机和服务器可以各自包括多个系统,子系统或组件。
可以使用硬件电路(例如,专用集成电路或现场可编程门阵列)和/或使用以模块化或集成方式存储在存储器中的计算机软件以及一般可编程处理器以控制逻辑的形式来实现实施方案的各方面,且因此处理器可包括存储配置硬件电路的软件指令的存储器,以及具有配置指令或ASIC的FPGA。如这里所使用的,处理器可以包括单核处理器,在同一集成芯片上的多核处理器,或者在单个电路板上的多个处理单元或者联网的处理器,以及专用硬件。基于本公开内容和本文所提供的教导,所属领域的技术人员将知道和了解使用硬件以及硬件与软件的组合来实施本公开内容的实施方案的其它方式和/或方法。
本申请中描述的软件组件或功能中的任何软件在组建或功能可以实施为被处理器使用任何合适的计算机语言(例如Java、C、C++、C#、Objective-C、Swift或如Perl或Python的脚本语言)使用例如常规或面向对象的技术执行的软件代码。软件代码可以存储为计算机可读介质上用于存储和/或传输的一系列指令或命令。合适的非暂时性计算机可读介质可以包含随机存取存储器(RAM)、只读存储器(ROM)、如硬盘驱动器或软盘的磁性媒体、或如光盘(CD)或DVD(数字通用光盘)或蓝光光盘的光学媒体、闪存等。计算机可读介质可以是这种装置的任何组合。此外,可以重新安排操作的顺序。当过程的操作完成时,该过程可以被终止,但是也可以具有图中不包括的另外的步骤。过程可对应于方法,函数,程序,子例程,子程序等。当过程对应于函数时,其终止可以对应于该函数向调用函数或主函数的返回。
也可以使用适于经由符合各种协议的有线、光学和/或无线网络(包含因特网)传输的载波信号来编码和传输此类程序。因此,计算机可读介质可以使用以此类程序编码的数据信号产生。用程序代码编码的计算机可读介质可以与兼容设备打包在一起或与其它设备分开提供(例如,通过因特网下载)。任何此类计算机可读介质可以驻留在单个计算机产品(例如,硬盘驱动器、CD或整个计算机系统)上或内,并且可以存在于系统或网络内的不同计算机产品上或内。计算机系统可以包括监测器、打印机、或用于向用户提供本文提及的结果中的任何结果的其它合适的显示器。
本文描述的方法中的任何方法可以用包括一个或多个处理器的计算机系统完全或部分地执行,所述计算机系统可以被配置成执行步骤。因此,实施方案可以针对被配置成执行本文所述的方法中的任何方法的步骤的计算机系统,所述计算机系统可能具有执行相应步骤或相应步骤组的不同组件。尽管作为编号的步骤呈现,但是本文的方法步骤可以同时或在不同时间或以不同顺序执行。另外,这些步骤的各部分可以与来自其它方法的其它步骤的各部分一起使用。而且,步骤的全部或部分可以是任选的。另外,所述方法中的任何方法的步骤中的任何步骤都可以用模块、单元、电路、或用于执行这些步骤的系统的其它装置来执行。
在不脱离本公开内容的实施方案的精神和范围的情况下,可以以任何合适的方式组合特定实施方案的具体细节。然而,本公开内容的其它实施方案可以针对涉及每个单独方面的特定实施方案,或这些单独方面的特定组合。
出于说明和描述的目的,已经呈现了本公开内容的示例性实施方案的以上描述。以上描述并非旨在穷举本公开内容或将本公开内容限制于所描述的精确形式,并且根据上述教导,许多修改和变化是可能的。
除非特别指出相反的情况,否则对“一个(种)/一(a/an)”或“所述(the)”的叙述旨在表示“一个或多个”。除非特别指出相反的情况,否则“或”的使用旨在表示“包含性的或”,而非“排他性的或”。对“第一”组件的引用不一定要求提供第二组件。此外,除非明确说明,否则对“第一”或“第二”组件的引用并不将所引用的组件限制到特定位置。术语“基于”旨在表示“至少部分地基于”。
本文所提及的所有专利、专利申请、出版物和描述出于所有目的以引用方式整体并入本文。没有一项被承认为是现有技术。在本申请与本文提供的参考文献之间存在冲突的情况下,本申请将占主导地位。
Claims (88)
1.使用对象的包括无细胞DNA的生物样品监测核酸酶活性的方法,所述方法包括:
接收从对所述对象的生物样品中的无细胞DNA片段测序获得的序列读数,所述序列读数指示所述无细胞DNA片段的位点处的甲基化状态;
利用所述序列读数的甲基化状态确定所述无细胞DNA片段的甲基化水平,所述甲基化水平利用多个位点处的序列读数来确定;和
将所述甲基化水平与参考值进行比较以确定核酸酶活性的分类。
2.如权利要求1所述的方法,其中所述核酸酶活性的分类为所述活性异常,
所述方法还包括:
使用所述核酸酶活性的分类来确定癌症等级的分类。
3.如权利要求1所述的方法,其中所述甲基化水平是针对所有CpG位点都甲基化或都非甲基化的无细胞DNA片段。
4.如权利要求1所述的方法,其中确定甲基化水平排除开放染色质区或CpG岛中的位点。
5.如权利要求4所述的方法,其中使用包括开放染色质区的位点或CpG岛中的甲基化状态来确定所述参考值。
6.如权利要求4所述的方法,其中所述甲基化水平对应于甲基化密度低于指定百分比的区域的数目。
7.如权利要求1至6中任一项所述的方法,其中确定所述甲基化水平仅包括在参考基因组中低甲基化的位点。
8.如权利要求1至7中任一项所述的方法,其中确定具有指定大小的无细胞DNA片段的甲基化水平。
9.用于分析对象的包括无细胞DNA的生物样品的方法,所述方法包括:
鉴定参考基因组中全部低甲基化或全部高甲基化的第一组CpG位点;
接收从对所述对象的生物样品中的无细胞DNA片段测序获得的序列读数;
将所述序列读数与所述参考基因组比对以确定所述参考基因组中与所述无细胞DNA片段对应的基因组位置;
利用比对上了的序列读数确定覆盖所述第一组CpG位点的无细胞DNA片段的相对丰度;和
将所述相对丰度与参考值进行比较以确定所述对象的病况等级。
10.如权利要求9所述的方法,其中所述病况等级是基因是否在对象中表现出遗传病症,并且其中所述基因与核酸酶相关。
11.如权利要求9所述的方法,其中所述病况是癌症。
12.如权利要求9所述的方法,其中所述病况是自身免疫疾病。
13.使用对象的包括无细胞DNA的生物样品监测核酸酶活性的方法,所述方法包括:
鉴定参考基因组中全部低甲基化或参考基因组中全部高甲基化的第一组CpG位点;
接收从对所述对象的生物样品中的无细胞DNA片段测序获得的序列读数;
将所述序列读数与所述参考基因组比对以确定所述参考基因组中与所述无细胞DNA片段对应的基因组位置;
利用比对上了的序列读数确定覆盖所述第一组CpG位点的无细胞DNA片段的相对丰度;和
将所述相对丰度与参考值进行比较以确定核酸酶活性的第一分类。
14.如权利要求13所述的方法,其中所述核酸酶活性的第一分类是所述活性异常,
所述方法还包括:
使用所述核酸酶活性的第一分类确定癌症等级的第二分类。
15.如权利要求13所述的方法,其中所述参考值是通过测量参考对象的核酸酶活性来确定的。
16.如权利要求15所述的方法,其中第一分类是核酸酶活性的数字表示。
17.如权利要求9或13所述的方法,其中所述无细胞DNA片段的相对丰度相对于第二组CpG位点。
18.如权利要求17所述的方法,其中针对具有指定大小的无细胞DNA片段确定无细胞DNA片段的相对丰度。
19.如权利要求18所述的方法,其中所述指定大小是大小范围。
20.如权利要求10或13所述的方法,其中:
所述无细胞DNA片段的相对丰度相对于第二组CpG位点,并且
所述相对丰度是覆盖所述第一组CpG位点的序列读数的末端密度。
21.如权利要求9或13所述的方法,其中所述无细胞DNA片段的相对丰度是覆盖所述第一组CpG位点的无细胞DNA片段的大小谱的统计值。
22.如权利要求21所述的方法,其中所述统计值是覆盖所述第一组CpG位点的具有第一大小的无细胞DNA片段的第一量相对于覆盖所述第一组CpG位点的具有第二大小的无细胞DNA片段的第二量的大小比值。
23.估计对象的生物样品中临床相关DNA分子的浓度分数的方法,所述生物样品包括来自多种组织类型的无细胞DNA分子的混合物,所述方法包括:
鉴定参考基因组中全部低甲基化或参考基因组中全部高甲基化的第一组CpG位点;
接收从对所述对象的生物样品中的无细胞DNA片段测序获得的序列读数;
将所述序列读数与所述参考基因组比对以确定所述参考基因组中与所述无细胞DNA片段对应的基因组位置;
利用比对上了的序列读数确定覆盖所述第一组CpG位点的无细胞DNA片段的相对丰度;和
通过将所述相对丰度与从一个或多个校准样品确定的一个或多个校准值进行比较来估计所述生物样品中临床相关DNA分子的浓度分数,所述一个或多个校准样品的偶数临床相关DNA分子的浓度分数是已知的。
24.如权利要求23所述的方法,其中所述临床相关DNA分子是肿瘤DNA分子。
25.如权利要求23所述的方法,其中所述临床相关DNA分子是胎儿DNA分子。
26.如权利要求23所述的方法,其中所述一个或多个校准值通过测量覆盖所述一个或多个校准样品中的CpG位点的无细胞DNA片段的相对丰度来确定。
27.如权利要求23所述的方法,其中将所述相对丰度与所述一个或多个校准值进行比较包括将所述相对丰度输入到校准函数中。
28.用于分析对象的生物样品的方法,所述生物样品包括无细胞DNA,所述方法包括:
接收从所述对象的生物样品中的无细胞DNA片段测序获得的序列读数;
利用所述序列读数确定参考基因组中与所述无细胞DNA片段的至少一端对应的基因组位置;
对于多个片段中的每一个:
确定所述片段中的序列读数的第一量;和
将所述第一量与第一参考值进行比较,以确定所述片段是否具有拷贝数异常;
确定具有拷贝数异常的片段的第一数目;
对于多个被掩蔽的片段中的每一个:
确定所述被掩蔽的片段中的序列读数的第二量,其中所述多个被掩蔽的片段被掩蔽以排除开放的染色质区域;和
将所述第二量与第二参考值进行比较,以确定所述被掩蔽的片段是否具有拷贝数异常;
确定具有拷贝数异常的被掩蔽的片段第二数目;和
基于所述第一数目和所述第二数目确定所述对象是否具有病况。
29.如权利要求28所述的方法,其中所述病况是自身免疫疾病。
30.如权利要求29所述的方法,其中所述病况是SLE。
31.如权利要求28所述的方法,其中所述病况是癌症。
32.使用包括无细胞DNA的对象的生物样品检测与核酸酶相关的基因的遗传病症的方法,所述方法包括:
接收从所述对象的生物样品中的无细胞DNA片段测序得到的序列读数,所述序列读数指示所述无细胞DNA片段的位点处的甲基化状态;
利用所述序列读数的甲基化状态确定所述无细胞DNA片段的甲基化水平,利用多个位点的序列读数确定所述甲基化水平;和
将所述甲基化水平与参考值进行比较以确定所述基因是否在所述对象中表现出遗传病症的分类。
33.用于确定对患有血液病症的对象治疗的功效的方法,所述方法包括:
接收从所述对象的血液样品中的无细胞DNA片段测序获得的序列读数,所述血液样品在施用第一剂量的抗凝血剂的对象之后获得,其中所述序列读数指示所述无细胞DNA片段的位点处的甲基化状态;
利用所述序列读数的甲基化状态确定所述无细胞DNA片段的甲基化水平,利用多个位点的序列读数确定所述甲基化水平;和
将所述甲基化水平与参考值进行比较以确定治疗功效的分类。
34.如权利要求32或33所述的方法,其中所述甲基化水平是针对所有CpG位点都甲基化或非甲基化的无细胞DNA片段。
35.如权利要求32或33所述的方法,其中确定所述甲基化水平排除开放染色质区域或CpG岛中的位点。
36.如权利要求35所述的方法,其中使用包括开放染色质区域或CpG岛中的位点处的甲基化状态来确定所述参考值。
37.如权利要求35所述的方法,其中所述甲基化水平对应于甲基化密度低于特定百分比的区域的数目。
38.如权利要求32至37中任一项所述的方法,其中确定所述甲基化水平仅包括在参考基因组中低甲基化的位点。
39.如权利要求7、9、13、23或38中任一项的方法,其中通过以下方式确定所述参考基因组中的位点被低甲基化:
将所述参考基因组中所述位点处的甲基化水平与阈值进行比较,和
确定所述参考基因组中低于所述阈值的甲基化水平。
40.如权利要求9、13或23中任一项所述的方法,其中通过以下方式确定所述参考基因组中的位点被高甲基化:
将所述参考基因组中所述位点处的的甲基化水平与阈值进行比较,和
确定所述参考基因组中高于所述阈值的甲基化水平。
41.如权利要求32至38中任一项所述的方法,其中,对于具有指定大小的所述无细胞DNA片段确定所述甲基化水平。
42.如权利要求9、13或23所述的方法,其中所述相对丰度包括覆盖所述第一组CpG位点的片段的百分比。
43.使用包括无细胞DNA的对象的生物样品检测与核酸酶相关的基因的遗传病症的方法,所述方法包括:
接收从所述对象的生物样品中的来自染色体外环状DNA(eccDNA)的无细胞DNA片段测序获得的序列读数;
使用所述序列读数确定所述无细胞DNA片段的大小谱的大小值,所述大小值表征一个或多个大小的无细胞DNA片段的量;和
将所述大小值与参考值进行比较以确定所述基因是否在对象中表现出遗传病症的分类。
44.如权利要求43所述的方法,其中所述对象是怀有胎儿的孕妇。
45.如权利要求44所述的方法,还包括将所述大小值与所述参考值进行比较,以确定所述基因是否在胎儿中表现出遗传疾病的分类。
46.如权利要求45所述的方法,还包括使用所述大小值与所述参考值的比较来确定所述胎儿的基因型。
47.如权利要求44所述的方法,其中所述参考值是从一个或多个第一参考对象确定的第一参考值,所述第一参考对象的胎儿在第一等位基因的位置是纯合的,所述方法还包括:
将所述大小值与从一个或多个第二参考对象确定的第二参考值进行比较,所述第二参考对象的胎儿在所述位置处对于第二等位基因是纯合的,其中所述第二等位基因不同于所述第一等位基因,并且
当所述大小值在所述第一参考值和所述第二参考值之间时,确定所述胎儿在所述位置处是杂合的。
48.如权利要求43所述的方法,其中所述参考值是从具有不显示所述遗传病症的基因的对象确定的。
49.如权利要求43所述的方法,其中所述参考值是从具有显示所述遗传病症的基因的对象确定的。
50.如权利要求43所述的方法,其中所述基因是DNASE1L3。
51.使用包括eccDNA的对象的生物样品监测核酸酶活性的方法,所述方法包括:
接收从所述对象的生物样品中的eccDNA的无细胞DNA片段测序获得的序列读数;
使用所述序列读数确定所述无细胞DNA片段的大小谱的大小值,所述大小值表征一个或多个大小的无细胞DNA片段的量;和
将所述大小值与参考值进行比较以确定所述核酸酶的活性的分类。
52.如权利要求51所述的方法,其中所述参考值是从健康对象确定的。
53.如权利要求51所述的方法,其中所述参考值是在改变所述核酸酶的活性的治疗之前从所述对象确定的。
54.如权利要求53所述的方法,其中所述治疗是血液透析。
55.如权利要求51所述的方法,其中所述核酸酶是DNASE1L3。
56.如权利要求51的方法,其中所述分类是核酸酶的活性缺陷。
57.如权利要求56所述的方法,其中所述大小值表示比所述参考值更长的无细胞DNA片段。
58.如权利要求51所述的方法,其中所述分类是所述对象患有特征在于核酸酶活性缺陷的病况。
59.如权利要求58所述的方法,其中所述参考值是从没有所述病况的对象确定的。
60.如权利要求51所述的方法,其中所述参考值是通过测量参考对象的核酸酶活性来确定的。
61.如权利要求60所述的方法,其中所述分类是所述核酸酶活性的数字表示。
62.如权利要求43或51所述的方法,其中所述核酸酶是第一核酸酶,并且在对来自eccDNA的无细胞DNA片段测序之前用第二核酸酶处理所述生物样品以去除线性DNA。
63.如权利要求62所述的方法,还包括:
用所述核酸酶处理所述生物样品,和
对所述无细胞DNA片段进行测序以产生序列读数。
64.用于确定对患有特征为核酸酶活性缺陷的病症的对象的功效的方法,所述方法包括:
接收从所述对象的生物样品中的eccDNA的无细胞DNA片段测序获得的序列,在对象施用第一剂量的治疗后获得生物样品;
使用所述序列读数确定所述无细胞DNA片段的大小谱的大小值,所述大小值表征一个或多个大小的无细胞DNA片段的量;和
将所述大小值与参考值进行比较以确定所述治疗的功效的分类。
65.如权利要求43、51或64中任一项所述的方法,其中所述生物样品是血浆。
66.如权利要求43、51或64中任一项所述的方法,其中所述大小值是具有第一大小的无细胞DNA片段的第一量与具有第二大小的无细胞DNA片段的第二量的比值,其中所述第一大小不同于所述第二大小。
67.如权利要求66所述的方法,其中所述第一大小是150-250bp,并且所述第二大小是300-450bp。
68.如权利要求66所述的方法,其中所述第一大小和所述第二大小相差至少100个碱基对。
69.如权利要求43、51或64中任一项所述的方法,其中所述大小值是所述大小谱的统计值。
70.如权利要求43、51或64中任一项所述的方法,其中所述大小值是具有大小的无细胞DNA片段的量。
71.使用包括无细胞DNA的对象的生物样品检测与核酸酶相关的基因的遗传病症的方法,所述方法包括:
接收从所述对象的生物样品中的来自染色体外环状DNA(eccDNA)的无细胞DNA片段测序获得的序列读数;
利用所述序列读数确定与所述生物样品中的eccDNA的量相对应的参数的值;
将所述参数的值与参考值进行比较,以确定所述基因是否在所述对象中表现出遗传病症的分类。
72.如权利要求71所述的方法,其中所述参数是eccDNA的量与可映射读数的量的比值。
73.分析包括无细胞DNA的对象的生物样品的方法,所述无细胞DNA的至少一部分是染色体外环状(eccDNA),所述方法包括:
接收从所述对象的生物样品制备的混合物中对来自染色体外环状DNA(eccDNA)的无细胞DNA片段进行测序获得的第一组序列读数,所述混合物包括来自具有指定大小的已知量的环状DNA的DNA片段;
使用所述第一组序列读数测量所述无细胞DNA片段的大小;
确定与第一大小对应的第一组序列读数的第一量;
确定与第二大小相对应的第一组序列读数的第二量,所述第二大小是所述混合物中已知量的环状DNA的指定大小;
将所述第一量与校准数据点进行比较,所述校准数据点使用与所述第二大小对应的第二组序列读数的第二量来确定;
使用所述比较确定来自eccDNA的对应于所述混合物中的第一大小的无细胞DNA片段的量。
74.如权利要求73所述的方法,其中:
校准数据点是校准曲线的点。
使用对应于第二大小的序列读数的另外的一个或多个量确定所述校准曲线,所述另外的一个或多个量中的每一个对应于另外的一个或多个混合物中的另外的一个或多个已知量的环状DNA。
75.如权利要求74所述的方法,其中所述校准曲线通过将曲线拟合到表示所述第一量和所述已知量以及所述另外的一个或多个量以及所述另外的一个或多个已知量的点来确定。
76.如权利要求74所述的方法,其中所述混合物和所述另外的一个或多个混合物各自具有与所述生物样品相同量的eccDNA。
77.如权利要求76所述的方法,还包括:
将所述生物样品中的eccDNA分成所述混合物和所述另外的一个或多个混合物,
将已知量的第二大小的环状DNA加入到所述混合物中,
将另外已知量的环状DNA加入到所述另外的一个或多个混合物中。
78.如权利要求73至77中任一项所述的方法,其中所述校准数据点具有表示所述第二组序列读数的所述第二量的第一坐标和表示所述已知量的第二坐标。
79.如权利要求77所述的方法,还包括:
用酶处理所述混合物和所述另外的一个或多个混合物以去除线性DNA,
使所述混合物和所述另外的一个或多个混合物中的所述eccDNA和所述环状DNA线性化以形成线性化的eccDNA和线性化的环状DNA,
对所述线性化的eccDNA进行测序以获得所述第一组序列读数和所述另外的一个或多个混合物中的每一个的一个或多个第三组序列读数,以及
对所述线性化的环状DNA进行测序以获得所述第二组序列读数和所述另外的一个或多个混合物中的每一个的一个或多个第四组序列读数。
80.如权利要求73至79中任一项所述的方法,还包括:
使用来自eccDNA的对应于所述混合物中的第一大小的无细胞DNA片段的量来确定参数的值,以及
将所述参数的值与参考值进行比较以确定基因是否在对象中表现出遗传病症的分类。
81.如权利要求80所述的方法,其中:
所述校准数据点是第一校准数据点,并且
所述量为第一量;
所述方法还包括:
确定与来自所述混合物中的eccDNA的无细胞DNA片段的第三大小相对应的序列读数的第三量,
将所述第三量与第二校准数据点进行比较,所述第二校准数据点使用与所述第二大小相对应的第三组序列读数的第四量来确定,以及
使用所述比较,确定来自eccDNA的与所述第三大小相对应的无细胞DNA片段的第二量;
其中确定所述参数的值包括使用所述第二量。
82.如权利要求80或81所述的方法,其中所述参考值是从具有不表现出遗传病症的基因的对象或从表现出所述遗传病症的对象确定的,所述基因为与核酸酶相关的基因。
83.如权利要求82所述的方法,其中遗传病症的特征在于核酸酶缺陷。
84.计算机产品,包括存储多个指令的非暂时性计算机可读介质,所述多个指令在被执行时使得计算机系统执行前述权利要求中任一项所述的方法。
85.系统,包括:
权利要求84所述的计算机产品;和
一个或多个处理器,用于执行存储在所述计算机可读介质上的指令。
86.系统,包括用于执行上述方法中的任一项的装置。
87.包括一个或多个处理器的系统,所述处理器被配置为执行上述方法中的任一项。
88.系统,包括分别执行上述方法中的任一项的步骤的模块。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/172,542 | 2021-04-08 | ||
US202263315468P | 2022-03-01 | 2022-03-01 | |
US63/315,468 | 2022-03-01 | ||
PCT/CN2022/085695 WO2022214051A1 (en) | 2021-04-08 | 2022-04-08 | Cell-free dna methylation and nuclease-mediated fragmentation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117500938A true CN117500938A (zh) | 2024-02-02 |
Family
ID=89673091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280036613.3A Pending CN117500938A (zh) | 2021-04-08 | 2022-04-08 | 无细胞dna甲基化和核酸酶介导的片段化 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117500938A (zh) |
-
2022
- 2022-04-08 CN CN202280036613.3A patent/CN117500938A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI832482B (zh) | 核酸鹼基修飾的測定 | |
TWI817187B (zh) | 偵測突變以用於癌症篩選分析 | |
JP6318151B2 (ja) | 遺伝的変異の非侵襲的評価のための方法およびプロセス | |
EP3899018B1 (en) | Cell-free dna end characteristics | |
WO2022214051A1 (en) | Cell-free dna methylation and nuclease-mediated fragmentation | |
US12098429B2 (en) | Determining linear and circular forms of circulating nucleic acids | |
US20210238668A1 (en) | Biterminal dna fragment types in cell-free samples and uses thereof | |
US20220010353A1 (en) | Nuclease-associated end signature analysis for cell-free nucleic acids | |
US20220228219A1 (en) | Target-enriched multiplexed parallel analysis for assessment of tumor biomarkers | |
WO2019008148A9 (en) | Enrichment of targeted genomic regions for multiplexed parallel analysis | |
TW202342765A (zh) | 用於量測甲基化及疾病之片段化 | |
CN117500938A (zh) | 无细胞dna甲基化和核酸酶介导的片段化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |