CN118076734A - 同时进行全基因组dna测序和全基因组dna甲基化或/和羟甲基化测序的方法 - Google Patents
同时进行全基因组dna测序和全基因组dna甲基化或/和羟甲基化测序的方法 Download PDFInfo
- Publication number
- CN118076734A CN118076734A CN202280052323.8A CN202280052323A CN118076734A CN 118076734 A CN118076734 A CN 118076734A CN 202280052323 A CN202280052323 A CN 202280052323A CN 118076734 A CN118076734 A CN 118076734A
- Authority
- CN
- China
- Prior art keywords
- dna
- strand
- sequencing
- methylation
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000007067 DNA methylation Effects 0.000 title claims description 23
- 238000007031 hydroxymethylation reaction Methods 0.000 title claims description 17
- 238000001712 DNA sequencing Methods 0.000 title claims description 10
- 108020004414 DNA Proteins 0.000 claims abstract description 135
- 238000006243 chemical reaction Methods 0.000 claims abstract description 62
- 102000053602 DNA Human genes 0.000 claims abstract description 44
- 108010042407 Endonucleases Proteins 0.000 claims abstract description 36
- 102000004533 Endonucleases Human genes 0.000 claims abstract description 36
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims abstract description 26
- 239000012634 fragment Substances 0.000 claims abstract description 16
- 230000026731 phosphorylation Effects 0.000 claims abstract description 12
- 238000006366 phosphorylation reaction Methods 0.000 claims abstract description 12
- 230000008439 repair process Effects 0.000 claims abstract description 9
- 238000007069 methylation reaction Methods 0.000 claims description 78
- 230000011987 methylation Effects 0.000 claims description 77
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 76
- 102000004190 Enzymes Human genes 0.000 claims description 35
- 108090000790 Enzymes Proteins 0.000 claims description 35
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical group O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 32
- 230000000295 complement effect Effects 0.000 claims description 31
- 229940104302 cytosine Drugs 0.000 claims description 30
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 20
- OIVLITBTBDPEFK-UHFFFAOYSA-N 5,6-dihydrouracil Chemical compound O=C1CCNC(=O)N1 OIVLITBTBDPEFK-UHFFFAOYSA-N 0.000 claims description 14
- NNTOJPXOCKCMKR-UHFFFAOYSA-N boron;pyridine Chemical compound [B].C1=CC=NC=C1 NNTOJPXOCKCMKR-UHFFFAOYSA-N 0.000 claims description 13
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 claims description 12
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 claims description 12
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 12
- 239000002773 nucleotide Substances 0.000 claims description 12
- 125000003729 nucleotide group Chemical group 0.000 claims description 12
- 239000003153 chemical reaction reagent Substances 0.000 claims description 11
- 239000000203 mixture Substances 0.000 claims description 11
- 239000002077 nanosphere Substances 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 9
- 238000012164 methylation sequencing Methods 0.000 claims description 9
- 229940113082 thymine Drugs 0.000 claims description 9
- KFIKNZBXPKXFTA-UHFFFAOYSA-N dipotassium;dioxido(dioxo)ruthenium Chemical compound [K+].[K+].[O-][Ru]([O-])(=O)=O KFIKNZBXPKXFTA-UHFFFAOYSA-N 0.000 claims description 8
- 102000051366 Glycosyltransferases Human genes 0.000 claims description 7
- 108700023372 Glycosyltransferases Proteins 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000006467 substitution reaction Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 6
- 229940035893 uracil Drugs 0.000 claims description 6
- 108060002716 Exonuclease Proteins 0.000 claims description 5
- 108010086093 Mung Bean Nuclease Proteins 0.000 claims description 5
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 claims description 5
- 108091028664 Ribonucleotide Proteins 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 5
- 102000013165 exonuclease Human genes 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 229910052700 potassium Inorganic materials 0.000 claims description 5
- 239000011591 potassium Substances 0.000 claims description 5
- 239000002336 ribonucleotide Substances 0.000 claims description 5
- 125000002652 ribonucleotide group Chemical group 0.000 claims description 5
- 108010083644 Ribonucleases Proteins 0.000 claims description 4
- 102000006382 Ribonucleases Human genes 0.000 claims description 4
- 239000012752 auxiliary agent Substances 0.000 claims description 3
- 108091000080 Phosphotransferase Proteins 0.000 claims description 2
- 108010021757 Polynucleotide 5'-Hydroxyl-Kinase Proteins 0.000 claims description 2
- 102000008422 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 claims description 2
- 238000003776 cleavage reaction Methods 0.000 claims description 2
- 239000005547 deoxyribonucleotide Substances 0.000 claims description 2
- 125000002637 deoxyribonucleotide group Chemical group 0.000 claims description 2
- 238000006911 enzymatic reaction Methods 0.000 claims description 2
- 102000039446 nucleic acids Human genes 0.000 claims description 2
- 108020004707 nucleic acids Proteins 0.000 claims description 2
- 150000007523 nucleic acids Chemical class 0.000 claims description 2
- 102000020233 phosphotransferase Human genes 0.000 claims description 2
- 238000005096 rolling process Methods 0.000 claims description 2
- 230000007017 scission Effects 0.000 claims description 2
- 238000000527 sonication Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 239000002585 base Substances 0.000 description 33
- 230000004048 modification Effects 0.000 description 16
- 238000012986 modification Methods 0.000 description 16
- 238000002360 preparation method Methods 0.000 description 15
- 239000000872 buffer Substances 0.000 description 11
- 239000012149 elution buffer Substances 0.000 description 10
- 239000011324 bead Substances 0.000 description 9
- 230000002255 enzymatic effect Effects 0.000 description 9
- 239000000047 product Substances 0.000 description 9
- 239000012264 purified product Substances 0.000 description 9
- 239000011541 reaction mixture Substances 0.000 description 9
- 238000001514 detection method Methods 0.000 description 7
- 125000004029 hydroxymethyl group Chemical group [H]OC([H])([H])* 0.000 description 6
- 108020004638 Circular DNA Proteins 0.000 description 5
- 238000007796 conventional method Methods 0.000 description 5
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 4
- 229930024421 Adenine Natural products 0.000 description 4
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 4
- 102000012410 DNA Ligases Human genes 0.000 description 4
- 108010061982 DNA Ligases Proteins 0.000 description 4
- 108091092584 GDNA Proteins 0.000 description 4
- 229960000643 adenine Drugs 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013467 fragmentation Methods 0.000 description 4
- 238000006062 fragmentation reaction Methods 0.000 description 4
- 238000012165 high-throughput sequencing Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 239000011535 reaction buffer Substances 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 239000011534 wash buffer Substances 0.000 description 4
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 3
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- SUYVUBYJARFZHO-RRKCRQDMSA-N dATP Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-RRKCRQDMSA-N 0.000 description 3
- SUYVUBYJARFZHO-UHFFFAOYSA-N dATP Natural products C1=NC=2C(N)=NC=NC=2N1C1CC(O)C(COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 SUYVUBYJARFZHO-UHFFFAOYSA-N 0.000 description 3
- 239000007788 liquid Substances 0.000 description 3
- 239000000243 solution Substances 0.000 description 3
- 241000894007 species Species 0.000 description 3
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 2
- 108091029430 CpG site Proteins 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-N Phosphoric acid Chemical compound OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 description 2
- 239000003513 alkali Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000012148 binding buffer Substances 0.000 description 2
- 238000001369 bisulfite sequencing Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000013024 dilution buffer Substances 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 230000002757 inflammatory effect Effects 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 241000264288 mixed libraries Species 0.000 description 2
- 230000003647 oxidation Effects 0.000 description 2
- 238000007254 oxidation reaction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 208000007848 Alcoholism Diseases 0.000 description 1
- 108091029523 CpG island Proteins 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- VMHLLURERBWHNL-UHFFFAOYSA-M Sodium acetate Chemical compound [Na+].CC([O-])=O VMHLLURERBWHNL-UHFFFAOYSA-M 0.000 description 1
- DWAQJAXMDSEUJJ-UHFFFAOYSA-M Sodium bisulfite Chemical compound [Na+].OS([O-])=O DWAQJAXMDSEUJJ-UHFFFAOYSA-M 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-N Sulfurous acid Chemical class OS(O)=O LSNNMFCWUKXFEE-UHFFFAOYSA-N 0.000 description 1
- 208000034953 Twin anemia-polycythemia sequence Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 201000007930 alcohol dependence Diseases 0.000 description 1
- 229910000147 aluminium phosphate Inorganic materials 0.000 description 1
- 238000003975 animal breeding Methods 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 238000011278 co-treatment Methods 0.000 description 1
- HAAZLUGHYHWQIW-KVQBGUIXSA-N dGTP Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)O1 HAAZLUGHYHWQIW-KVQBGUIXSA-N 0.000 description 1
- NHVNXKFIZYSCEB-XLPZGREQSA-N dTTP Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C1 NHVNXKFIZYSCEB-XLPZGREQSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 239000012139 lysis buffer Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 238000003976 plant breeding Methods 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 239000001632 sodium acetate Substances 0.000 description 1
- 235000017281 sodium acetate Nutrition 0.000 description 1
- 239000004289 sodium hydrogen sulphite Substances 0.000 description 1
- 235000010267 sodium hydrogen sulphite Nutrition 0.000 description 1
- 239000008247 solid mixture Substances 0.000 description 1
- 230000025366 tissue development Effects 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Microbiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Plant Pathology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
提供了一种测序文库的构建方法,包括:1)将双链DNA进行片段化,并对所得DNA片段进行平端修复、5'末端磷酸化和3'末端加碱基A;2)通过连接反应,在步骤1)所得DNA片段两端分别加上接头元件1,得到连接产物;3)利用内切酶在所述内切酶识别位点上形成切口;4)在该切口处,以与该接头元件1中不具有粘性末端的一端相连的DNA片段为模板进行扩增,形成含有模板链和新生链的混合DNA双链;5)通过连接反应,在该混合DNA双链的未连接该接头元件1的一端加上接头元件2,得到哑铃状双链DNA;6)将该哑铃状双链DNA进行重亚硫酸盐或转化处理,得到测序文库。
Description
本发明涉及生物技术领域。具体地,本发明涉及同时进行全基因组DNA测序和全基因组DNA甲基化或/和羟甲基化测序的方法。
DNA甲基化是一种表观调控修饰,它在不改变碱基序列的情况下,参与调控蛋白质合成的多少。对人类来说,DNA甲基化是一种非常奇妙的化学修饰,亲人的关怀、机体的衰老、抽烟、酗酒甚至肥胖,都会被甲基化如实地记录到基因组上。基因组就像是一个日记本,甲基化作为文字,记录下人体的经历。DNA甲基化是重要的表观遗传学标记信息,在哺乳动物中,最常见的甲基化修饰发生在胞嘧啶上,主要有5-甲基化修饰(5mc)和5羟甲基化修饰(5hmc),获得全基因组范围内所有胞嘧啶的甲基化水平数据,对于表观遗传学的时空特异性研究具有重要意义。以新一代高通量测序平台为基础,进行全基因组DNA甲基化水平图谱绘制,特定物种的高精确度甲基化修饰模式的分析,必将在表观基因组学研究中具有里程碑式的意义,并为细胞分化、组织发育等基础机制研究,以及动植物育种、人类健康与疾病研究奠定基础。
全基因组甲基化测序WGBS(Whole Genome Bisulfite Sequencing),即全基因组亚硫酸氢盐测序,是研究生物甲基化的最常用手段,它可以覆盖所有甲基化位点,能够获得更加全面的甲基化图谱。但其在高通量测序中遇到了很多挑战:1、进行甲基化测序的前提是已经获取了该物种全基因组DNA信息,通过重亚硫酸盐处理,甲基化的C保持不变,未甲基化的C转化为U,再甲基化测序结果和基因组信息对比,获得该位置胞嘧啶的修饰情况;2、重亚硫酸盐处理后的未甲基化C碱基会转变成U碱基,整个基因组的GC含量发生极端变化,造成后续扩增产生极大的扩增和测序偏好性;3、数据进行分析时却遇到了很大的问题,由于亚硫酸氢钠处理后基因组中大多数的胞嘧啶(C)都会转变为胸腺嘧啶(T),造成基因组复杂度降低,测序得到的结果比对(map)到参考基因组上效率较低,会遇到过多的多重比对的情况,导致比对异常,有的位置即使增大测序通量也无法得到有效的DNA甲基化信息,造成全基因甲基化信息丢失。
近年来宋春啸教授团队(Liu,Y.,Siejka-Zielińska,P.,Velikova,G.,Bi,Y.,Yuan,F.,Tomkova,M.,...&Song,C.X.(2019).Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution.Nature biotechnology,37(4),424-429.)开发了以TET 酶辅助的吡啶硼烷转化方法(TAPs),可以将甲基化的胞嘧啶转化为二氢尿嘧啶,随后在PCR的过程中二氢尿嘧啶转化为胸腺嘧啶,通过检测胸腺嘧啶同时和基因组对比从而推出胞嘧啶是否存在甲基化修饰。该方法是转化甲基化的胞嘧啶,相对于未甲基化的胞嘧啶,甲基化的胞嘧啶在基因组中的占比非常低,能够有效降低对基因组的改变,但是在某些高甲基化的CpG岛区域,同样也会面临基因组改变过多导致复杂度低带来的准确比对的问题。
无论是基于重亚硫酸氢盐,还是基于TET酶的转化测序方法,其对基因组的改变会造成比对率低的问题,导致无法准确获取某些区域的甲基化信息,因此开发一种可以提高比对率的方法具有重要意义。
发明内容
本发明旨在至少在一定程度上解决现有技术中存在的技术问题至少之一。为此,本发明提出了接头元件、接头元件组合物、试剂盒及其应用、测序文库的构建方法、测序文库及其在测序中的应用和同时进行全基因组DNA测序和全基因组DNA甲基化或/和羟甲基化测序的方法,利用该测序文库进行测序,可以同时对全基因组DNA和全基因组DNA甲基化或/和羟甲基化测序进行测序的方法和系统,并且DNA和DNA甲基化或/和羟甲基化测序同时测序是在一个分子上完成,不需要参考基因信息就能准确获取甲基化信息,并可对甲基化位置进行精准定位,极大地提高甲基化或/和羟甲基化测序信息的准确性。
在本发明的一个方面,本发明提出了一种接头元件。根据本发明的实施例,所述接头元件为呈泡状的单链核酸,所述单链核酸具有非互补区和由5’端序列和3’端序列形成的互补区,所述5’端或3’端具有粘性末端。由此,可以有效将正负链进行连接并形成环状DNA分子,用于后续的DNB(DNA纳米球)制备实验。
根据本发明的实施例,上述接头元件还可以具有下列附加技术特征:
根据本发明的实施例,所述粘性末端或者所述互补区上具有内切酶识别位点。由此,以便将接头元件切开,形成切口,在此切口处进行链延伸,获得新生链。
根据本发明的实施例,所述粘性末端的碱基为U碱基或T碱基。粘性末端为U碱基时,其可以作为内切酶识别位点,利用User内切酶进行酶切。
根据本发明的实施例,所述内切酶选自USER内切酶、Dnase内切酶、RNase内切酶。
根据本发明的实施例,所述内切酶识别位点选自U碱基、脱氧核苷酸或者核糖核苷酸。
根据本发明的实施例,所述接头元件含有一个或多个测序引物序列、分子标签序列和/或样本标签序列。
根据本发明的实施例,所述接头元件的长度为20~200nt。由此,可以有效将正负链进 行连接并形成环状DNA分子,用于后续的DNB制备实验。
根据本发明的实施例,所述接头元件为脱氧核糖核苷酸和/或核糖核苷酸。
根据本发明的实施例,所述接头元件具有如SEQ ID NO:1或2所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列。
5’-/Phos/GCTCGCAGTCGA
GGTCAAGCGGTCTTAGGCTCBBBBBBBBBBTCTGAAGGA CATGGCTACGATCGACTGCGAGCU-3’(SEQ ID NO:1),其中/Phos/表示磷酸化修饰,下划线的胞嘧啶采用甲基化修饰或采用未甲基化修饰的胞嘧啶,B为任意碱基,B组成的碱基序列为样本标签序列。通过接头元件1将一条DNA分子的两条正负链进行连接,并在接头元件1的3端的U可以作为内切酶识别位点,将其切开形成切口,可以开始新生链的生成。
5’-/Phos/CGGACTCGACCT
GACAATGCATGGCATCTCAGGTCGAGTCCGT-3’(SEQ ID NO:2),其中/Phos/表示磷酸化修饰,下划线的胞嘧啶采用甲基化修饰或采用未甲基化修饰的胞嘧啶(m5c-dCTP)。模板链和上述新生成的新生链连接接头元件2后就能形成一个封闭DNA环,以便后续进行DNA纳米球制备。
在本发明的另一方面,本发明提出了一种接头元件组合物。根据本发明的实施例,所述接头元件组合物包括2个前面所述接头元件,并且,至少一个所述接头元件的粘性末端或者互补区上具有内切酶识别位点。由此,利用根据本发明实施例的接头元件组合物可以有效将正负链进行连接并形成环状DNA分子,用于后续的DNB(DNA纳米球)制备实验。
根据本发明的实施例,所述接头元件组合物包括:接头元件1,所述接头元件1具有如SEQ ID NO:1所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列;接头元件2,所述接头元件2具有如SEQ ID NO:2所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列。
在本发明的又一方面,本发明提出了一种试剂盒。根据本发明的实施例,所述试剂盒包括:前面所述接头元件、所述接头元件组合物。
在本发明的又一方面,本发明提出了前面所述接头元件、接头元件组合物、试剂盒在构建测序文库中的应用。
根据本发明的实施例,所述测序文库用于全基因组DNA甲基化测序和羟甲基化测序的至少之一以及全基因组DNA测序。由此,利用前面所述的接头元件可以准确地获知甲基化或/和羟甲基化信息。
在本发明的又一个方面,本发明提出了一种测序文库的构建方法。根据本发明的实施例,所述方法包括:
1)将双链DNA进行片段化,并对所得DNA片段进行平端修复、5’末端磷酸化和3’末端加碱基A;
2)通过连接反应,在步骤1)所得DNA片段两端分别加上接头元件1,得到连接产物;
其中,所述接头元件1选自前面所述的接头元件,且所述粘性末端或者所述互补区上具有内切酶识别位点;
3)利用内切酶在所述内切酶识别位点上形成切口;
4)在所述切口处,以与所述接头元件1中不具有所述粘性末端的一端相连的DNA片段为模板进行延伸,形成含有模板链和新生链的混合DNA双链;其中,所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶或均为未甲基化修饰的胞嘧啶;
5)通过连接反应,在所述混合DNA双链的未连接所述接头元件1的一端加上接头元件2,得到哑铃状双链DNA;其中,所述接头元件2选自前面所述的接头元件;
6)将所述哑铃状双链DNA进行转化处理,所述新生链的序列不变,所述模板链上未甲基化的胞嘧啶将转变为尿嘧啶或者使具有的甲基化和/或羟甲基化的胞嘧啶转化为二氢尿嘧啶,得到测序文库。
通过接头元件1将一条DNA分子的两条正负链进行连接,并在其内切酶识别位点上形成切口,这样可以在切口上进行链延伸,生成新生链。模板链和上述新生成的新生链连接接头元件2后就能形成一个封闭DNA环,获得哑铃状双链DNA,有助于后续进行DNA纳米球制备。通过对哑铃状双链DNA进行转化处理,以便使尿嘧啶均转化为二氢尿嘧啶,获得测序文库。对该测序文库进行测序,可以基于新生链的序列信息获知全基因组序列,并将该全基因组序列和模板链的序列信息进行比对,可以准确获知甲基化/羟甲基化信息。并且DNA和DNA甲基化或/和羟甲基化同时测序是在一个分子上完成,不需要参考基因信息就能准确获取甲基化信息,并可对甲基化位置进行精准定位,极大地提高甲基化信息的准确性。
根据本发明的实施例,上述测序文库的构建方法还可以具有下列附加技术特征:
根据本发明的实施例,所述片段化是利用物理方法或化学方法将双链DNA进行随机打断或切断。
根据本发明的实施例,所述片段化是利用物理超声法或酶反应法进行的。
根据本发明的实施例,所述平端修复是利用T4 DNA聚合酶或绿豆核酸酶进行的。由此,方便后续的连接反应。
根据本发明的实施例,所述磷酸化是利用核苷酸激酶进行的。
根据本发明的实施例,所述磷酸化是利用T4多聚核苷酸激酶(T4 DNA磷酸激酶)进行的。
根据本发明的实施例,所述3’末端加碱基A是利用rTaq酶或无3-5外切酶活性的Klenow聚合酶进行的。由此,可以在后续操作中,方便地在所述双链DNA片段的两端添加接头。从而,提高了构建测序文库的效率。
根据本发明的实施例,所述粘性末端的碱基选自U碱基或T碱基;所述内切酶选自USER内切酶、Dnase内切酶或RNase内切酶;所述内切酶识别位点选自U碱基、脱氧核糖核酸或核糖核酸,所述切口的个数为1个或多个。
根据本发明的实施例,所述延伸采用具有5-3外切酶或5-3置换功能的DNA聚合酶。
根据本发明的实施例,所述DNA聚合酶选自T4 DNA聚合酶、phi29 DNA聚合酶或Bst DNA聚合酶。由此,以便实现高效扩增,得到新生链。
根据本发明的实施例,所述延伸所采用的dNTP中胞嘧啶全部为甲基化修饰或全部为未甲基化修饰的胞嘧啶。由于具有甲基化修饰的胞嘧啶,经重亚硫酸盐转化处理后,序列保持不变,或者具有未甲基化修饰的胞嘧啶,经过转化处理(如采用TET酶、高钌酸钾、beta糖基转移酶和TET酶进行转化处理),序列保持不变,对其进行测序可以获知基因组DNA信息。
根据本发明的实施例,所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶,步骤6)包括:将所述哑铃状双链DNA进行重亚硫酸盐处理,得到测序文库。参见图1,根据本发明实施例的方法构建的测序文库中,新生链上的胞嘧啶全为甲基化修饰,经步骤6)的重亚硫酸盐,其序列保持不变,对其进行测序可以获得基因组DNA信息。模板链经重亚硫酸盐的转化处理后,具有的未甲基化的胞嘧啶将转变为尿嘧啶,对其进行测序,并将测序结果与前述获得的基因组DNA信息进行比对,即可获知甲基化信息。
根据本发明的实施例,所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶,步骤6)包括:将所述哑铃状双链DNA进行转化处理,得到测序文库,所述转化处理采用的试剂包括:辅助试剂和吡啶硼烷或亚硫酸氢盐;所述辅助试剂选自下列三种中的一种:TET酶;高钌酸钾;beta糖基转移酶和TET酶;所述转化处理包括:依次利用辅助试剂和吡啶硼烷处理所述哑铃状双链DNA或者利用重亚硫酸盐处理所述哑铃状双链DNA。TET酶识别可以识别5mc和5hmc,beta糖基转移酶可以识别5mc,高钌酸钾可以识别5hmc。
参见图2,根据本发明实施例的方法构建的测序文库中,新生链上的胞嘧啶全为未甲基化修饰,经步骤6)TET酶辅助或高钌酸钾辅助的转化处理后,其序列保持不变,对其进行测序可以获得基因组DNA信息。模板链经辅助试剂处理,可以使甲基化的胞嘧啶转化成羧 基化的胞嘧啶,再在吡啶硼烷作用下把羧基化的胞嘧啶转化成二氢尿嘧啶(即多两个H原子的胞嘧啶),二氢尿嘧啶在测序结果中会识别成胸腺嘧啶,将测序结果与前述获得的基因组DNA信息进行比对,即可获知甲基化或/和者羟甲基化信息。
根据本发明的实施例,所述方法进一步包括:将所述测序文库制备成DNA纳米球。由此,以便可以在DNB测序仪上进行测序。
根据本发明的实施例,制备所述DNA纳米球的方法包括:利用引物序列对所述测序文库进行滚环扩增(Roll circle amplication)。
根据本发明的实施例,所述引物序列具有如SEQ ID NO:3所示的核苷酸序列或与其具有至少80%(例如85%、90%、95%、99%)同源性的核苷酸序列。
GAGCCTAAGACCGCTTGACCTCAACTACAAAC(SEQ ID NO:3)
在本发明的另一方面,本发明提出了一种测序文库。根据本发明的实施例,所述测序文库是通过前面所述测序文库的构建方法获得的。由此,利用根据本发明实施例的测序文库进行测序,可以同时对全基因组DNA和全基因组DNA甲基化/羟甲基化进行测序的方法和系统,并且DNA和DNA甲基化同时测序是在一个分子上完成,不需要参考基因信息就能准确获取甲基化信息,极大地提高甲基化信息的准确性。
在本发明的又一方面,本发明提出了前面所述测序文库在测序中的应用。由此,利用该测序文库进行测序,可以同时对全基因组DNA和全基因组DNA甲基化/羟甲基化进行测序的方法和系统,并且DNA和DNA甲基化同时测序是在一个分子上完成,不需要参考基因信息就能准确获取甲基化信息,极大地提高甲基化信息的准确性。
根据本发明的实施例,所述测序包括全基因组DNA甲基化测序和羟甲基化测序的至少之一以及全基因组DNA测序。
在本发明的又一方面,本发明提出了一种同时进行全基因组DNA测序和全基因组DNA甲基化或/和羟甲基化测序的方法。根据本发明的实施例,所述方法包括:对前面所述测序文库进行测序,获得测序信息,所述测序信息包括新生链信息和模板链信息,所述新生链信息为全基因DNA信息;将模板链信息与新生链信息进行比对分析,获知所述模板链全基因组DNA甲基化或/和羟甲基化信息。由此,根据本发明实施例的方法无需参考基因组信息就可以获取甲基化修饰信息,并可对甲基化序列位置进行精准定位,提高甲基化测序数据比对的准确性。
根据本发明的实施例,所述比对分析包括:
a)当所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶且将所述哑铃状双链DNA进行重亚硫酸盐处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补 链相应位置的碱基为胸腺嘧啶,是所述位置未发生甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置发生甲基化的指示;
b)当所述新生链中胞嘧啶全部为未甲基化修饰的胞嘧啶且采用TET酶和吡啶硼烷对所述哑铃状双链DNA进行转化处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧啶,是所述位置发生甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置未发生甲基化的指示;
c)当所述新生链中胞嘧啶全部为未甲基化修饰的胞嘧啶且采用高钌酸钾和吡啶硼烷对所述哑铃状双链DNA进行转化处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧啶,是所述位置发生羟甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置未发生羟甲基化的指示;
d)当所述新生链中胞嘧啶全部为未甲基化修饰的胞嘧啶且采用beta糖基转移酶、TET酶和吡啶硼烷对所述哑铃状双链DNA进行转化处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧啶,是所述位置发生甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置未发生甲基化的指示。
1、本发明可以同时获取基因组信息和基因组甲基化信息,不需要参考基因组信息就可以获取未知物种的甲基化修饰和/或羟甲基化信息;
2、本发明借助基因组位置信息对甲基化或/和羟甲基化序列位置进行精准定位,提高甲基化和/或羟甲基化数据比对的准确性;
3、本发明不需要经过PCR,可以有效均一获取全基因组的甲基化和/或羟甲基化信息;
4、本发明可以实现对C/T多态性位置进行准确的甲基化和/或羟甲基化修饰检测。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和 容易理解,其中:
图1显示了根据本发明一个实施例,基于重亚硫酸盐转化处理的全基因组DNA和全基因组DNA甲基化混合文库制备流程示意图;
图2显示了根据本发明一个实施例,基于TET辅助或者高钌酸钾辅助的全基因组DNA和全基因组DNA甲基化混合文库制备流程示意图;
图3显示了根据本发明一个实施例的接头元件1和接头元件2的结构示意图;
图4显示了根据本发明一个实施例的信息分析原理图;
图5显示了根据本发明一个实施例的置换酶测序流程图。
下面详细描述本发明的实施例。下面描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
本发明提出了一种同时进行全基因组DNA测序和全基因组DNA甲基化测序或/和羟甲基化的方法,包括:
构建文库(参见图1)
1、基因组DNA经过随机打断,生产200-500bp的片段,或者是已经打断好的DNA如cfDNA。
2、打断后的DNA分子通过绿豆核酸酶对粘性末端外切形成平末端;。
3、对平末端的双链DNA进行5端磷酸化,3端加碱基A,形成5端带有磷酸,3端带有碱基A的粘性末端双链DNA分子。
4、上述分子加上接头元件1,该接头主要的作用是为了后续的链延伸,该接头序列可以包含一个或多个测序引物序列或/和分子标签(UMI,Unique Molecular Identifiers)或/和样本标签序列(Index Barcode)。该接头是一个特殊的泡状接头(示意图3a),中间是不互补的序列,5端磷酸化。
接头元件1的5’端和3’端是互补的序列并且其中一个带有粘性末端U碱基。该U碱基可以被后续的USER酶识别并切除,产生一个切口,用于聚合酶的外切或置换和聚合延伸;或者5’端和3’端是互补的序列切包含多个U碱基,并带有粘性末端T碱基。U碱基可以被后续的USER酶识别并切除,产生一个或多个切口,用于聚合酶的外切或置换和聚合延伸(图1)。
5、上述连接产物在USER酶的作用下形成一个或多个切口;
6、在切口处进行新生链的延伸,该延伸具有5-3外切酶活性(如T4DNA聚合酶)或5-3置换酶活性的酶(如phi29,Bst)进行延伸。延伸的dNTP中胞嘧啶全部为甲基化修饰或未 甲基化修饰的胞嘧啶,将原有的DNA模板链中的胞嘧啶全部置换为含有甲基化或未甲基化修饰的胞嘧啶新生链,形成原有模板链和新生链的混合DNA双链。
7、上述形成的混合双链再和接头元件2进行连接,得到哑铃状双链DNA文库。该接头序列包含一个或多个测序引物序列或/和分子标签(UMI,Unique Molecular Identifiers)或/和样本标签序列(Index Barcode)。该接头是一个特殊的泡状接头(示意图2b),中间是不互补的序列,5’端和3’端是互补的序列,3’端具有粘性末端T/U碱基,5端’磷酸化。
8、得到的哑铃状双链DNA经过重亚硫酸盐或者TET酶辅助、高钌酸钾(KRuO4)、beta糖基转移酶和TET酶辅助的转化处理,将原始模板链未甲基化修饰的胞嘧啶转化为尿嘧啶或将原始模板链甲基化修饰的胞嘧啶转化为二氢尿尿嘧啶(DHU),而新生成链所有甲基化修饰的胞嘧啶保持序列不变。
9、经过转化后的哑铃状双链DNA文库在通用引物的作用下进行DNA纳米球制备。通用引物结合哑铃状双链DNA的接头序列,在有置换活性的酶的作用下进行线性延伸,生成DNA纳米球。
10、DNA纳米球装载到DNB测序芯片上进行测序。
测序
11、DNBloading到芯片上后进行测序反应,Read1和Read2的测序引物和具有置换活性的测序酶(参见图3)的作用下分别测原始模板链(重亚硫酸盐转化链、酶辅助或高钌酸钾(KRuO
4)辅助的转化链)和新生链,其中新生链获取参考基因组DNA信息,原始模板链(重亚硫酸盐转化链、酶辅助、高钌酸钾(KRuO
4)辅助辅助的转化链)获取胞嘧啶转化信息。
信息分析方案
12、一个DNB纳米孔产生两条读长Read1和Read2,其中Read1或Read2是来源于新生成链信息,该条read通过任意比对软件比对到基因组,获取基因组上准确位置信息;对应的Read2或Read1来源于原始模板链(重亚硫酸盐转化链或酶辅助或高钌酸钾(KRuO
4)辅助辅助的转化链),将Read1和Read2进行比较,在重亚硫酸盐转化条件下,原始模板链中胞嘧啶转化为腺嘌呤的位置确定为胞嘧啶未甲基化,未转化为腺嘌呤的胞嘧啶则有甲基化修饰。在或酶辅助或高钌酸钾(KRuO
4)辅助的转化条件下,原始模板链中胞嘧啶转化为腺嘌呤的位置确定为胞嘧啶甲基化,未转化为腺嘌呤的胞嘧啶则为未甲基化修饰。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的, 按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过采购获得的常规产品。
实施例1
取1μg炎黄细胞系gDNA分别按照本发明的方法和常规方法对DNA进行甲基化全基因组文库制备,文库到MGISEQ-2000测序仪上进行上机测序,测序类型PE100,测序深度30×,然后进行数据分析,包括数据利用率、比对率、偏好性等性能。常规WGBS采用Hieff
Methyl-seq DNA library Prep kit(翌圣生物科技(上海)股份有限公司,货号12211ES08)试剂盒进行文库制备,实验步骤严格按照说明书执行。
1.DNA片段化
采用covaris对gDNA进行片段化,主带在300bp左右;
2.末端修复
末端修复反应体系和条件如下
打断的DNA | 40μL |
10X T4 DNA磷酸激酶buffer | 5μL |
T4 DNA磷酸激酶 | 2μL |
绿豆核酸酶 | 1μL |
rTaq | 1μL |
dATP(10mM) | 1μL |
总体积 | 50μL |
将上述反应体系置于PCR仪上,37℃的10min,65度10min。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于20μl洗脱缓冲液。在37℃温度下磷酸激酶发生作用进行磷酸化,在65℃温度下rTaq酶发挥作用在双链DNA的末尾加上A碱基。
3.连接接头元件1:
1)将上一步得到的DNA按下表配制甲基化接头(有时也称为“甲基化标签接头”)的连接反应体系:
DNA | 18μL |
2×Rapid T4 DNA连接缓冲液(Enzymatic) | 25μL |
甲基化标签接头(10uM)* | 4μL |
T4 DNA连接酶(Rapid,L603-HC-L Enzymatic) | 3μL |
总体积 | 50μL |
*甲基化接头序列为:
接头1:5’-/Phos/GCTCGCAGTCGA
GGTCAAGCGGTCTTAGGCTCBBBBBBBBBB
TCTGA AGGACATGGCTACGATCGACTGCGAGCT-3’(SEQ ID NO:1)下划线的胞嘧啶是甲基化修饰的胞嘧啶(m5c-dCTP),B为样本标签序列.
2)将上述反应体系置于20℃的Thermomixer(Eppendorf)上,进行反应15min,获得连接产物。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于40μl洗脱缓冲液。
4.新生链生成
1)将上一步得到的DNA按下表的延伸反应体系:
DNA | 40μL |
BST反应缓冲液 | 5μL |
USER | 1μL |
dATP/dGTP/dTTP/m5C-dCTP | 2μL |
BST | 2μL |
总体积 | 50L |
2)37℃,5分钟;65℃,10分钟。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于22μl洗脱缓冲液。
5.连接接头元件2:
1)将上一步得到的DNA按下表配制甲基化接头(有时也称为“甲基化标签接头”)的,连接反应体系:
DNA | 18μL |
2×Rapid T4 DNA连接缓冲液(Enzymatic) | 25μL |
甲基化标签接头(10uM)* | 4μL |
T4 DNA连接酶(Rapid,L603-HC-L Enzymatic) | 3μL |
总体积 | 50μL |
*甲基化接头序列为:
接头2:5’-/5Phos/CGGACTCGACCT
GACAATGCATGGCATCTCAGGTCGAGTCCGT-3’(SEQ ID NO:2)接头2中的下划线的胞嘧啶均进行了甲基化修饰保护
2)将上述反应体系置于20℃的Thermomixer(Eppendorf)上,进行反应15min,获得连接产物。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于40μl洗脱缓冲液。
6.重亚硫酸盐处理
采用EZ DNA Methylation-Gold Kit
TM(ZYMO),将上述连接好的DNA进行重亚硫酸盐共处理,具体步骤如下:
1)制备CT转换试剂(CT Conversion Reagent)溶液:从试剂盒中取出CT转换试剂(固体混合物),分别加入900μL的水、50μL的M-溶解缓冲液(M-Dissolving Buffer)和300μL的M-稀释缓冲液(M-Dilution Buffer),室温下溶解并且震荡10分钟或在摇床上摇动10分钟。
2)M-洗涤缓冲液的制备:向M-洗涤缓冲液中添加24mL 100%的乙醇,备用。
3)在PCR管中加入130μL的CT转换试剂溶液和上述连接好的DNA,轻弹或移液器吹悬混合样品。
4)将样品管放到PCR仪上按以下步骤操作:
98℃下持续5分钟
64℃下持续2.5小时
完成上述操作后,立刻进行下一步操作或者在4℃下存储(最多20小时)备用。
5)将Zymo-Spin IC
TM Column放入收集管(Collection Tube)中,并加入600μL的M-结合缓冲液(M-Binding Buffer)。
6)将重亚硫酸盐处理的样品加入到含M-结合缓冲液的Zymo-Spin IC
TM Column中,盖上盖子颠倒混匀。
7)全速(>10,000x g)离心30秒,弃收集管中的收集液。
8)向柱中加入100μL的M-洗涤缓冲液,全速(>10,000×g)离心30秒,弃收集管中的液体。
9)向柱中添加200μL的M-Desulphonation Buffer,室温放置15min,全速(>10,000×g)离心30s,弃收集管中的液体。
10)向柱中添加200μL的M-洗涤缓冲液,全速(>10,000×g)离心30s,弃收集管中的液体,并再重复此步骤1次。
11)将Zymo-Spin IC
TM Column置于新的1.5mL EP管中,加入20μL的M-洗脱缓冲液r到柱基质中,室温放置2min,全速(>10,000×g)离心洗脱目的片段DNA。
7.DNB制备
将上一步得到的目的片段DNA按以下体系配制DNB制备反应体系:
上一步连接后的DNA | 20μL |
Phi29反应缓冲液 | 25μL |
通用引物1(10μM) | 5μL |
总体积 | 50μL |
25℃,30分钟。
通用引物1:GAGCCTAAGACCGCTTGACCTCAACTACAAAC(SEQ ID NO:3)
8.文库检测:
采用HS Qubit ssDNA试剂盒对DNB进行定量。
9.上机测序
将得到的文库进行高通量测序,测序平台MGISEQ-2000,测序类型PE100,测序后数据经过比对后统计各项基本参数,包括下机数据、可用数据、比对数据等。
10.信息分析
常规方法采用BS-MAP软件进行比对,本发明的方法采用BWA软件对新生链(胞嘧啶转化链)比对基因组获取read准确位置,根据基因组比对位置再获取原始模板链(重亚硫酸盐转化链或酶转化链)信息,进而得到准确的甲基化比对信息。
11.结果:
表1
利用本发明的方法能够大幅度提高甲基化比对率,并且能够提供CpG位点覆盖度,能够提高数据的利用率,提高甲基化检测的准确性。
实施例2
取1μg炎黄细胞系gDNA分别按照本发明的方法和常规方法对DNA进行甲基化全基因 组文库制备,文库到MGISEQ-2000测序仪上进行上机测序,测序类型PE100,测序深度30×,然后进行数据分析,包括数据利用率、比对率、偏好性等性能。
1.DNA片段化
采用covaris对gDNA进行片段化,主带在300bp左右;
2.末端修复
末端修复反应体系和条件如下
打断的DNA | 40μL |
10×T4 DNA磷酸激酶buffer | 5μL |
T4 DNA磷酸激酶 | 2μL |
绿豆核酸酶 | 1μL |
rTaq | 1μL |
dATP(10mM) | 1μL |
总体积 | 50μL |
将上述反应体系置于PCR仪上,37℃的10min,65度10min。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于20μl洗脱缓冲液。
3.连接接头1:
1)将上一步得到的DNA按下表配制甲基化接头(有时也称为“甲基化标签接头”)的连接反应体系:
DNA | 18μL |
2×Rapid T4 DNA连接缓冲液(Enzymatic) | 25μL |
甲基化标签接头(10μM)* | 4μL |
T4 DNA连接酶(Rapid,L603-HC-L Enzymatic) | 3μL |
总体积 | 50μL |
*接头序列为:
接头1:5’-/5Phos/GCTCGCAGTCGAGGTCAAGCGGTCTTAGGCTCBBBBBBBBBBTCTGAAGGACATGGCTACGATCGACTGCGAGCT-3’(SEQ ID NO:1),B为样本标签序列
2)20℃反应15min,获得连接产物。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于40μl洗脱缓冲液。
4.新生链生成
1)将上一步得到的DNA按下表的延伸反应体系:
DNA | 40μL |
BST反应缓冲液 | 5μL |
USER | 1μL |
dNTP | 2μL |
BST | 2μL |
总体积 | 50μL |
2)37℃,5分钟;65℃,10分钟。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于22μl洗脱缓冲液。
5.连接接头2:
1)将上一步得到的DNA按下表配制接头的连接反应体系:
DNA | 18μL |
2×Rapid T4 DNA连接缓冲液(Enzymatic) | 25μL |
标签接头2(10μM)* | 4μL |
T4 DNA连接酶(Rapid,L603-HC-L Enzymatic) | 3μL |
总体积 | 50μL |
*甲基化接头序列为:
接头2:5’-/5Phos/CGGACTCGACCTGACAATGCATGGCATCTCAGGTCGAGTCCGT-3’(SEQ ID NO:2)
2)将上述反应体系置于20℃的Thermomixer(Eppendorf)上,进行反应15min,获得连接产物。反应完后用1.0×AMPure磁珠进行纯化,最后将纯化产物溶于40μl洗脱缓冲液。
6.TET酶辅助的吡啶硼烷进行转化处理
TET酶采用NEBNext Enzymatic Methyl-seq Kit(NEB,E7120S)
1)将上一步得到的DNA进行如下配置反应体系:
TET buffer | 10μL |
氧化辅助成分 | 1μL |
DTT | 1μL |
氧化增强剂 | 1μL |
TET酶 | 4μL |
2)将PCR管置于PCR中37℃孵育1h,然后加入1μL终止buffer,3737℃孵育30分钟。
3)反应完后用80μL AMPure磁珠进行纯化,最后将纯化产物溶于35μl洗脱缓冲液。
4)向35μL样品中加入10μL的3M醋酸钠溶液(pH=4.3)和5μL的10M吡啶硼烷。将PCR管置于Thermo Mixer(Eppendorf)中37℃温度下850rpm振荡16h。
5)用PB buffer和Zymo-Spin
TM IC Column纯化DNA(Zymo research公司),最终溶于20μL TE中。
7.DNB制备
1)将上一步得到的目的片段DNA按以下体系配制DNB制备反应体系:
上一步连接后的DNA | 20μL |
Phi29反应缓冲液 | 25μL |
通用引物1(10μM) | 5μL |
总体积 | 50μL |
2)25℃,30分钟。
通用引物1:GAGCCTAAGACCGCTTGACCTCAACTACAAAC(SEQ ID NO:3)
8.文库检测:
采用HS Qubit ssDNA试剂盒对DNB进行定量。
9.上机测序
将得到的文库进行高通量测序,测序平台MGISEQ-2000,测序类型PE100,测序后数据经过比对后统计各项基本参数,包括下机数据、可用数据、比对数据等。
10.信息分析
常规方法采用BS-MAP软件进行比对,本发明的方法采用BWA软件对新生链(胞嘧啶转化链)比对基因组获取read准确位置,根据基因组比对位置再获取原始模板链(重亚硫酸盐转化链或酶转化链)信息,进而得到准确的甲基化比对信息。
11.结果:
表1
注:常规方法(TAPS)Liu,Y.,Siejka-Zielińska,P.,Velikova,G.,Bi,Y.,Yuan,F.,Tomkova,M.,...&Song,C.X.(2019).Bisulfite-free direct detection of 5-methylcytosine and 5-hydroxymethylcytosine at base resolution.Nature biotechnology,37(4),424-429.严格按照文献实验步骤进行实验。
利用本发明的方法能够大幅度提高甲基化比对率,并且能够提供CpG位点覆盖度,能够提高数据的利用率,提高甲基化检测的准确性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (37)
- 一种接头元件,其特征在于,所述接头元件为呈泡状的单链核酸,所述单链核酸具有非互补区和由5’端序列和3’端序列形成的互补区,所述5’端或3’端具有粘性末端。
- 根据权利要求1所述的接头元件,其特征在于,所述粘性末端或者所述互补区上具有内切酶识别位点。
- 根据权利要求1所述的接头元件,其特征在于,所述粘性末端的碱基为U碱基或T碱基。
- 根据权利要求2所述的接头元件,其特征在于,所述内切酶选自USER内切酶、Dnase内切酶、RNase内切酶。
- 根据权利要求2或4所述的接头元件,其特征在于,所述内切酶识别位点选自U碱基、脱氧核苷酸或者核糖核苷酸。
- 根据权利要求1~5任一项所述的接头元件,其特征在于,所述接头元件含有一个或多个测序引物序列、分子标签序列和/或样本标签序列。
- 根据权利要求1~6任一项所述的接头元件,其特征在于,所述接头元件的长度为20~200nt。
- 根据权利要求1~7任一项所述的接头元件,其特征在于,所述接头元件为脱氧核糖核苷酸和/或核糖核苷酸。
- 根据权利要求1~8任一项所述的接头元件,其特征在于,所述接头元件具有如SEQ ID NO:1或2所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列。
- 一种接头元件组合物,其特征在于,包括2个权利要求1~9任一项所述接头元件,并且,至少一个所述接头元件的粘性末端或者互补区上具有内切酶识别位点。
- 根据权利要求10所述的接头元件组合物,其特征在于,包括:接头元件1,所述接头元件1具有如SEQ ID NO:1所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列;接头元件2,所述接头元件2具有如SEQ ID NO:2所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列。
- 一种试剂盒,其特征在于,包括:权利要求1~9任一项所述接头元件、权利要求10或11所述接头元件组合物。
- 权利要求1~9任一项所述接头元件、权利要求10或11所述接头元件组合物、权利要求12所述试剂盒在构建测序文库中的应用。
- 根据权利要求13所述的应用,其特征在于,所述测序文库用于全基因组DNA甲 基化测序和羟甲基化测序的至少之一以及全基因组DNA测序。
- 一种测序文库的构建方法,其特征在于,包括:1)将双链DNA进行片段化,并对所得DNA片段进行平端修复、5’末端磷酸化和3’末端加碱基A;2)通过连接反应,在步骤1)所得DNA片段两端分别加上接头元件1,得到连接产物;其中,所述接头元件1选自权利要求1~8任一项所述的接头元件,且所述粘性末端或者所述互补区上具有内切酶识别位点;3)利用内切酶在所述内切酶识别位点上形成切口;4)在所述切口处,以与所述接头元件1中不具有所述粘性末端的一端相连的DNA片段为模板进行延伸,形成含有模板链和新生链的混合DNA双链;其中,所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶或均为未甲基化修饰的胞嘧啶;5)通过连接反应,在所述混合DNA双链的未连接所述接头元件1的一端加上接头元件2,得到哑铃状双链DNA;其中,所述接头元件2选自权利要求1~8任一项所述的接头元件;6)对所述哑铃状双链DNA进行重亚硫酸盐处理或者转化处理,所述新生链的序列不变,所述模板链上未甲基化的胞嘧啶将转变为尿嘧啶或者使具有的甲基化和/或羟甲基化的胞嘧啶转化为二氢尿嘧啶,得到测序文库。
- 根据权利要求15所述的构建方法,其特征在于,所述片段化是利用物理方法或化学方法将双链DNA进行随机打断或切断。
- 根据权利要求15或16所述的构建方法,其特征在于,所述片段化是利用物理超声法或酶反应法进行的。
- 根据权利要求15~17任一项所述的构建方法,其特征在于,所述平端修复是利用T4 DNA聚合酶或绿豆核酸酶进行的。
- 根据权利要求15~18任一项所述的构建方法,其特征在于,所述磷酸化是利用核苷酸激酶进行的。
- 根据权利要求15~19任一项所述的构建方法,其特征在于,所述磷酸化是利用T4多聚核苷酸激酶进行的。
- 根据权利要求15~20任一项所述的构建方法,其特征在于,所述3’末端加碱基A是利用rTaq酶或无3-5外切酶活性的Klenow聚合酶进行的。
- 根据权利要求15~21任一项所述的构建方法,其特征在于,所述粘性末端的碱基 选自U碱基或T碱基;所述内切酶选自USER内切酶、Dnase内切酶或RNase内切酶;所述内切酶识别位点选自U碱基、脱氧核糖核酸或者核糖核苷酸;所述切口的个数为1个或多个。
- 根据权利要求15~22任一项所述的构建方法,其特征在于,所述接头元件1具有如SEQ ID NO:1所示的核苷酸序列;所述接头元件2具有如SEQ ID NO:2所示的核苷酸序列。
- 根据权利要求15~23任一项所述的构建方法,其特征在于,所述延伸采用具有5-3外切酶或5-3置换功能的DNA聚合酶。
- 根据权利要求24所述的构建方法,其特征在于,所述DNA聚合酶选自T4 DNA聚合酶、phi29 DNA聚合酶或Bst DNA聚合酶。
- 根据权利要求15~25任一项所述的构建方法,其特征在于,所述延伸所采用的dNTP中胞嘧啶全部为甲基化修饰或全部为未甲基化修饰的胞嘧啶。
- 根据权利要求26所述的构建方法,其特征在于,所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶,步骤6)包括:将所述哑铃状双链DNA进行重亚硫酸盐处理,得到测序文库。
- 根据权利要求26所述的构建方法,其特征在于,所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶,步骤6)包括:将所述哑铃状双链DNA进行转化处理,得到测序文库;所述转化处理采用的试剂包括:辅助试剂和吡啶硼烷或亚硫酸氢盐。
- 根据权利要求28所述的构建方法,其特征在于,所述辅助试剂选自下列三种中的一种:TET酶;高钌酸钾;beta糖基转移酶和TET酶;所述转化处理包括:依次利用辅助试剂和吡啶硼烷处理所述哑铃状双链DNA或者利用重亚硫酸盐处理所述哑铃状双链DNA。
- 根据权利要求15~29任一项所述的构建方法,其特征在于,进一步包括:将所述测序文库制备成DNA纳米球。
- 根据权利要求30所述的构建方法,其特征在于,制备所述DNA纳米球的方法包括:利用引物序列对所述测序文库进行滚环扩增。
- 根据权利要求31所述的构建方法,其特征在于,所述引物序列具有如SEQ ID NO:3所示的核苷酸序列或与其具有至少80%同源性的核苷酸序列。
- 一种测序文库,其特征在于,所述测序文库是通过权利要求15~32任一项所述测序文库的构建方法获得的。
- 权利要求33所述测序文库在测序中的应用。
- 根据权利要求34所述的应用,其特征在于,所述测序包括全基因组DNA甲基化测序和羟甲基化测序的至少之一以及全基因组DNA测序。
- 一种同时进行全基因组DNA测序和全基因组DNA甲基化或/和羟甲基化测序的方法,其特征在于,包括:对权利要求33所述测序文库进行测序,获得测序信息,所述测序信息包括新生链信息和模板链信息,所述新生链信息为全基因DNA信息;将模板链信息与新生链信息进行比对分析,获知所述模板链全基因组DNA甲基化或/和羟甲基化信息。
- 根据权利要求36所述的方法,其特征在于,所述比对分析包括:a)当所述新生链中胞嘧啶均为甲基化修饰的胞嘧啶且将所述哑铃状双链DNA进行重亚硫酸盐处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧啶,是所述位置未发生甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置发生甲基化的指示;b)当所述新生链中胞嘧啶全部为未甲基化修饰的胞嘧啶且采用TET酶和吡啶硼烷对所述哑铃状双链DNA进行转化处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧啶,是所述位置发生甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置未发生甲基化的指示;c)当所述新生链中胞嘧啶全部为未甲基化修饰的胞嘧啶且采用高钌酸钾和吡啶硼烷对所述哑铃状双链DNA进行转化处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧啶,是所述位置发生羟甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置未发生羟甲基化的指示;d)当所述新生链中胞嘧啶全部为未甲基化修饰的胞嘧啶且采用beta糖基转移酶、TET酶和吡啶硼烷对所述哑铃状双链DNA进行转化处理后,测序结果中,所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胸腺嘧 啶,是所述位置发生甲基化的指示;所述新生链中的鸟嘌呤所在位置对应的所述模板链的互补链相应位置的碱基为胞嘧啶,是所述位置未发生甲基化的指示。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2022/074093 WO2023141829A1 (zh) | 2022-01-26 | 2022-01-26 | 同时进行全基因组dna测序和全基因组dna甲基化或/和羟甲基化测序的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118076734A true CN118076734A (zh) | 2024-05-24 |
Family
ID=87470160
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280052323.8A Pending CN118076734A (zh) | 2022-01-26 | 2022-01-26 | 同时进行全基因组dna测序和全基因组dna甲基化或/和羟甲基化测序的方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN118076734A (zh) |
WO (1) | WO2023141829A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012019320A1 (zh) * | 2010-08-11 | 2012-02-16 | 中国科学院心理研究所 | 一种甲基化dna的高通量测序方法及其应用 |
WO2016058134A1 (zh) * | 2014-10-14 | 2016-04-21 | 深圳华大基因科技有限公司 | 一种接头元件和使用其构建测序文库的方法 |
US20170349893A1 (en) * | 2014-11-26 | 2017-12-07 | Bgi Shenzhen | Method and reagent for constructing nucleic acid double-linker single-strand cyclical library |
CN107586835B (zh) * | 2017-10-19 | 2020-11-03 | 东南大学 | 一种基于单链接头的下一代测序文库的构建方法及其应用 |
CN113337501B (zh) * | 2021-08-06 | 2022-02-18 | 北京橡鑫生物科技有限公司 | 一种发卡型接头及其在双端index建库中的应用 |
-
2022
- 2022-01-26 CN CN202280052323.8A patent/CN118076734A/zh active Pending
- 2022-01-26 WO PCT/CN2022/074093 patent/WO2023141829A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023141829A1 (zh) | 2023-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9745614B2 (en) | Reduced representation bisulfite sequencing with diversity adaptors | |
US9249460B2 (en) | Methods for obtaining a sequence | |
US20230056763A1 (en) | Methods of targeted sequencing | |
EP2844766B1 (en) | Targeted dna enrichment and sequencing | |
US20220364169A1 (en) | Sequencing method for genomic rearrangement detection | |
CN111801427B (zh) | 用于单分子的单链环状dna模板的产生 | |
US11174511B2 (en) | Methods and compositions for selecting and amplifying DNA targets in a single reaction mixture | |
US11898202B2 (en) | Methods for accurate parallel quantification of nucleic acids in dilute or non-purified samples | |
CN118076734A (zh) | 同时进行全基因组dna测序和全基因组dna甲基化或/和羟甲基化测序的方法 | |
CN113544282B (zh) | 基于dna样本构建测序文库的方法及应用 | |
US11970736B2 (en) | Methods for accurate parallel detection and quantification of nucleic acids | |
US20240068010A1 (en) | Highly sensitive methods for accurate parallel quantification of variant nucleic acids | |
CN117701679A (zh) | 一种基于5’连接的单链dna特异的高通量测序方法 | |
WO2023139309A1 (en) | Methods for sensitive and accurate parallel quantification of nucleic acids using bridge probes | |
CN117822130A (zh) | 文库的制备方法及其应用和接头及试剂盒 | |
CN117757895A (zh) | 一种单链dna文库构建试剂盒及其应用 | |
CN112662749A (zh) | 一种具有单碱基分辨率的核酸修饰检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |