CN117089607A - 一种单细胞RNA m5C修饰的分析方法 - Google Patents
一种单细胞RNA m5C修饰的分析方法 Download PDFInfo
- Publication number
- CN117089607A CN117089607A CN202210508483.0A CN202210508483A CN117089607A CN 117089607 A CN117089607 A CN 117089607A CN 202210508483 A CN202210508483 A CN 202210508483A CN 117089607 A CN117089607 A CN 117089607A
- Authority
- CN
- China
- Prior art keywords
- rna
- sequence
- dna
- contacting
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012986 modification Methods 0.000 title claims abstract description 45
- 230000004048 modification Effects 0.000 title claims abstract description 45
- 238000004458 analytical method Methods 0.000 title claims abstract description 23
- 125000005647 linker group Chemical group 0.000 claims abstract description 65
- 238000012163 sequencing technique Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 36
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 60
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 52
- 238000006243 chemical reaction Methods 0.000 claims description 50
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 48
- 238000010839 reverse transcription Methods 0.000 claims description 35
- 239000011324 bead Substances 0.000 claims description 29
- 102000039446 nucleic acids Human genes 0.000 claims description 25
- 108020004707 nucleic acids Proteins 0.000 claims description 25
- 150000007523 nucleic acids Chemical class 0.000 claims description 25
- 108091032973 (ribonucleotides)n+m Proteins 0.000 claims description 24
- 229930024421 Adenine Natural products 0.000 claims description 24
- 229960000643 adenine Drugs 0.000 claims description 24
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical group N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 24
- 239000003153 chemical reaction reagent Substances 0.000 claims description 24
- 229940113082 thymine Drugs 0.000 claims description 24
- 230000000295 complement effect Effects 0.000 claims description 23
- 108010090804 Streptavidin Proteins 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000006073 displacement reaction Methods 0.000 claims description 19
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 claims description 18
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 18
- 239000002299 complementary DNA Substances 0.000 claims description 18
- 229940104302 cytosine Drugs 0.000 claims description 18
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 claims description 17
- 230000006154 adenylylation Effects 0.000 claims description 17
- 239000000872 buffer Substances 0.000 claims description 15
- 102100034343 Integrase Human genes 0.000 claims description 14
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims description 14
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 12
- 230000008439 repair process Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 10
- 229960002685 biotin Drugs 0.000 claims description 9
- 235000020958 biotin Nutrition 0.000 claims description 9
- 239000011616 biotin Substances 0.000 claims description 9
- 229940035893 uracil Drugs 0.000 claims description 9
- 239000003795 chemical substances by application Substances 0.000 claims description 8
- 238000005869 desulfonation reaction Methods 0.000 claims description 8
- 101710086015 RNA ligase Proteins 0.000 claims description 7
- 230000006326 desulfonation Effects 0.000 claims description 7
- 108060002716 Exonuclease Proteins 0.000 claims description 6
- 102100035460 Polynucleotide 5'-hydroxyl-kinase Human genes 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 6
- 102000013165 exonuclease Human genes 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000011282 treatment Methods 0.000 claims description 6
- 102000004190 Enzymes Human genes 0.000 claims description 5
- 108090000790 Enzymes Proteins 0.000 claims description 5
- 102000003960 Ligases Human genes 0.000 claims description 5
- 108090000364 Ligases Proteins 0.000 claims description 5
- 125000002887 hydroxy group Chemical group [H]O* 0.000 claims description 5
- 101150056906 recJ gene Proteins 0.000 claims description 5
- 239000013592 cell lysate Substances 0.000 claims description 4
- 238000013467 fragmentation Methods 0.000 claims description 4
- 238000006062 fragmentation reaction Methods 0.000 claims description 4
- 238000009396 hybridization Methods 0.000 claims description 4
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 claims description 4
- -1 recJ) Chemical compound 0.000 claims description 4
- 238000000926 separation method Methods 0.000 claims description 4
- 108020004999 messenger RNA Proteins 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims description 2
- 230000002934 lysing effect Effects 0.000 claims description 2
- 239000011541 reaction mixture Substances 0.000 claims description 2
- 230000011987 methylation Effects 0.000 abstract description 14
- 238000007069 methylation reaction Methods 0.000 abstract description 14
- 230000009466 transformation Effects 0.000 abstract description 6
- 230000008569 process Effects 0.000 abstract description 5
- 238000003556 assay Methods 0.000 abstract description 3
- 238000002715 modification method Methods 0.000 abstract description 3
- 108020004414 DNA Proteins 0.000 description 100
- 102000053602 DNA Human genes 0.000 description 100
- 229920002477 rna polymer Polymers 0.000 description 91
- 210000004027 cell Anatomy 0.000 description 35
- 241000252212 Danio rerio Species 0.000 description 21
- 239000000523 sample Substances 0.000 description 17
- 238000009826 distribution Methods 0.000 description 14
- 210000000287 oocyte Anatomy 0.000 description 14
- 239000000243 solution Substances 0.000 description 14
- 239000000047 product Substances 0.000 description 11
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 10
- 238000002156 mixing Methods 0.000 description 9
- 239000006228 supernatant Substances 0.000 description 8
- 238000010276 construction Methods 0.000 description 7
- 238000010790 dilution Methods 0.000 description 7
- 239000012895 dilution Substances 0.000 description 7
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000003908 quality control method Methods 0.000 description 5
- 239000011780 sodium chloride Substances 0.000 description 5
- 238000011033 desalting Methods 0.000 description 4
- 239000006166 lysate Substances 0.000 description 4
- 239000003161 ribonuclease inhibitor Substances 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 238000012049 whole transcriptome sequencing Methods 0.000 description 4
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 3
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 230000006093 RNA methylation Effects 0.000 description 3
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 3
- 239000012472 biological sample Substances 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 2
- NMUSYJAQQFHJEW-UHFFFAOYSA-N 5-Azacytidine Natural products O=C1N=C(N)N=CN1C1C(O)C(O)C(CO)O1 NMUSYJAQQFHJEW-UHFFFAOYSA-N 0.000 description 2
- NMUSYJAQQFHJEW-KVTDHHQDSA-N 5-azacytidine Chemical compound O=C1N=C(N)N=CN1[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 NMUSYJAQQFHJEW-KVTDHHQDSA-N 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 238000011529 RT qPCR Methods 0.000 description 2
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 2
- 229960002756 azacitidine Drugs 0.000 description 2
- 230000006037 cell lysis Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000029087 digestion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000013020 embryo development Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- 239000008188 pellet Substances 0.000 description 2
- 239000011535 reaction buffer Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- BDHFUVZGWQCTTF-UHFFFAOYSA-M sulfonate Chemical compound [O-]S(=O)=O BDHFUVZGWQCTTF-UHFFFAOYSA-M 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108091092584 GDNA Proteins 0.000 description 1
- 229920002527 Glycogen Polymers 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 108060004795 Methyltransferase Proteins 0.000 description 1
- 102000016397 Methyltransferase Human genes 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 108091005804 Peptidases Proteins 0.000 description 1
- 229920002594 Polyethylene Glycol 8000 Polymers 0.000 description 1
- 239000004365 Protease Substances 0.000 description 1
- 101710188535 RNA ligase 2 Proteins 0.000 description 1
- 239000013614 RNA sample Substances 0.000 description 1
- 101710204104 RNA-editing ligase 2, mitochondrial Proteins 0.000 description 1
- 102100037486 Reverse transcriptase/ribonuclease H Human genes 0.000 description 1
- 108020004417 Untranslated RNA Proteins 0.000 description 1
- 102000039634 Untranslated RNA Human genes 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 238000001369 bisulfite sequencing Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004113 cell culture Methods 0.000 description 1
- 230000011712 cell development Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000013043 chemical agent Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000004090 dissolution Methods 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229940096919 glycogen Drugs 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 229940079826 hydrogen sulfite Drugs 0.000 description 1
- 230000003301 hydrolyzing effect Effects 0.000 description 1
- 239000005457 ice water Substances 0.000 description 1
- 230000001900 immune effect Effects 0.000 description 1
- 238000003018 immunoassay Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000001161 mammalian embryo Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 108091070501 miRNA Proteins 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 239000011259 mixed solution Substances 0.000 description 1
- 238000010369 molecular cloning Methods 0.000 description 1
- 230000008271 nervous system development Effects 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 210000002381 plasma Anatomy 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 108091008146 restriction endonucleases Proteins 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000007480 sanger sequencing Methods 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 108010068698 spleen exonuclease Proteins 0.000 description 1
- 125000000542 sulfonic acid group Chemical group 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- DGVVWUTYPXICAM-UHFFFAOYSA-N β‐Mercaptoethanol Chemical compound OCCS DGVVWUTYPXICAM-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及生物技术领域,尤其涉及一种分析RNA m5C修饰的接头组和试剂盒,还涉及一种分析RNA m5C修饰的方法。本申请提供的接头组以及方法,能够对微量RNA的甲基化修饰进行准确分析,例如,能够获取单细胞水平上RNA m5C修饰的信息。并且,本申请提供的独特设计的接头组能够计算测序过程中的转化情况,从而对测序获得的RNA m5C修饰的信息准确性进行评估,以及进一步对RNA m5C修饰特征和规律进行解析。
Description
技术领域
本发明涉及生物技术领域,尤其涉及一种单细胞RNA m5C修饰的分析方法,以及分析RNA m5C修饰的接头组和包含所述接头组的试剂盒。本申请还涉及一种用于分析RNA m5C修饰的方法。
背景技术
RNA m5C修饰是一种广泛存在的RNA甲基化修饰类型,其广泛分布在mRNA、tRNA、rRNA和ncRNA等中。目前用于检测RNA m5C的方法有m5C-RIP-seq、miCLIP-seq、Aza-IP-seq、RNA-BisSeq、WO-seq、TAWO-seq及Nanopore测序技术。其中m5C-RIP-seq需要特异性的m5C抗体来富集含有m5C的片段,其分辨率较低,只有100-150nt。miCLIP-seq需要RNA甲基转移酶突变体的过表达,可能会导致RNA甲基化模式的改变。Aza-IP-seq中使用的5-氮胞苷对细胞有毒,依赖5-氮胞苷的插入效率,可能导致低丰度的甲基化位点被忽视。而WO-seq和TAWO-seq有较低的转化率,据报道,最高仅为77.8%。而Nanopore-seq很难精确区分具有相似结构的核苷酸。目前,重亚硫酸盐测序是公认的可靠的m5C检测方法。随着这些RNA m5C测序方法的发展,RNA m5C的生物学功能逐渐被阐明。
常规量的RNA m5C测序技术常使用较大组织块或细胞团作为样本,处理过程复杂,难以应用到珍稀样本,同时无法在单细胞水平上进行更为精细的研究。而单细胞测序技术已经成为分析细胞异质性、细胞分化和发育的重要技术手段,可以弥补传统测序的局限性。因此开发微量和单细胞RNA m5C测序技术,有助于绘制少量样本甚至单细胞水平的m5C图谱。在早期胚胎发育、神经系统发育、肿瘤以及免疫领域等方面具有良好前景。
发明内容
目前现有m5C测序技术中,大多需要通过内参序列(如Luciferase基因序列)对样本RNA的转化情况进行评估,而内参序列与待评估的RNA是各自独立的序列,以至于评价的结果可能会出现误差。本申请独特设计的接头组与RNA直接相连,更能够准确的评价样本RNA的转化情况,进一步的,本申请的发明人对RNA甲基化修饰的方法也进行了优化。由此,申请人完成了本发明。
因此,在第一方面,本申请提供了一种分析RNA(例如,mRNA)m5C修饰的接头组,所述接头组包含1个或多个接头,每个接头包含1条核酸链,所述核酸链包含:N碱基、转化率计算序列、分样序列(barcode)和互补序列;并且,所述核酸链的5’端具有游离的磷酸基团,3’端或3’部分具有可与第二结合组分(例如链霉亲和素)相互作用的第一结合组分(例如,生物素);其中,
所述N碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶;
所述转化率计算序列包含至少3个未甲基化的胞嘧啶;
所述分样序列为4-10个(例如,4个,5个,6个,7个,8个,9个,10个)碱基的随机排列,所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶;
所述互补序列包含与反转录引物互补的序列,在允许杂交的条件下,所述反转录引物与所述接头杂交后能够启动反转录。
在某些实施方案中,所述分样序列为6个或8个碱基的特定序列,且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶。在此类实施方案中,所述分样序列的碱基序列如SEQ ID NO:4至SEQ ID NO:87所示的序列中第13至18位碱基所示。在某些实施方案中,所述分样序列为6个或8个碱基的随机排列,且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶。
在某些实施方案中,所述分样序列为barcode。在此类实施方案中,barcode是指一段随机序列,其能够识别与其连接的序列(例如,RNA)的读段数,从而能够区分每一个序列(例如,RNA)或识别每一个序列(例如,RNA)的来源(例如,特定细胞)。
在某些实施方案中,不同的接头是通过分样序列(barcode)进行区分的。
在某些优选的实施方案中,分样序列(barcode)含有6个碱基。每个碱基都可以是A/T/G的任意组合,所以总共有3^6=729种组合。因此,所述接头组可以包含1个-20个,20个-50个,50个-100个,100个-200个,200个-500个,500个-729个接头。
在某些优选的实施方案中,分样序列(barcode)含有8个碱基。每个碱基都可以是A/T/G的任意组合,所以总共有3^8=6561种组合。因此,所述接头组可以包含1个-200个,200个-500个,500个-1000个,1000个-2500个,2500个-4000个,4000个-6561个接头。
在某些实施方案中,所述接头组包含1个-20个,20个-50个,50个-100个,100个-200个,200个-500个,500个-1000条核酸链。
在某些实施方案中,所述核酸链从5’至3’的连接方式为N碱基、转化率计算序列、分样序列以及互补序列。在此类实施方案中,所述N碱基和转化率计算序列通过或不通过linker连接。在此类实施方案中,所述转化率计算序列和分样序列通过或不通过linker连接。
在某些实施方案中,所述接头组的3’端还具有3’inverted dT修饰。在此类实施方案中,所述3’inverted dT修饰可以掺入寡核苷酸的3’-末端,形成3’-3’连接,从而抑制3’外切核酸酶的降解和DNA聚合酶的延伸。在某些实施方案中,所述接头组的3’部分具有生物素,且所述接头组的3’端具有3’inverted dT修饰。
在某些实施方案中,所述第一结合组分是生物素。在此类实施方案中,由于生物素对链霉亲和素的亲和力,带有生物素的核酸链可以结合到链霉亲和素上。在某些实施方案中,所述链霉亲和素与底物结合或缀合。在某些实施例中,所述底物选自磁珠,膜,芯片或载玻片。在某些实施例中,具有生物素的核酸链通过生物素对链霉亲和素的亲和力与缀合链霉亲和素的磁珠结合。
在某些实施方案中,不同的核酸链中的N碱基相同或不同。
在某些实施方案中,不同核酸链中的N碱基各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。
在某些实施方案中,所述转化率计算序列包含至少3个未甲基化的胞嘧啶,且所述未甲基化的胞嘧啶连续或不连续的排列。
在某些实施方案中,所述转化率计算序列包含3个,4个,5个,6个,7个,8个,9个,10个,11个,12个,13个,14个,或15个未甲基化的胞嘧啶。
在某些实施方案中,所述转化率计算序列的长度为4nt-21nt,例如,4nt,5nt,6nt,7nt,8nt,9nt,10nt,13nt,15nt,17nt,19nt或21nt;
在某些实施方案中,所述转化率计算序列包含通式:DDDDDCDDCCD和或DDDDDDCCDDC,其中,D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶。在此类实施方案中,所述转化率计算序列中的胞嘧啶均为未甲基化的胞嘧啶。
在某些实施方案中,核酸链中的第一部分是N碱基,其是1个碱基的随机排列,所述碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶,目的是为了排除碱基的偏好性而引起的连接效率的差异;第二部分是转化率计算序列,其通式为DDDDDCDDCCD或DDDDDDCCDDC,D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶,C是未甲基化的胞嘧啶,可根据C的转化情况来计算转化率;第三部分是barcode(分样序列),barcode(分样序列)为6个碱基的随机排列,且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶,可以用于区分不同的样本;第四部分为互补序列,包含与反转录引物互补的序列,其中所有C均为甲基化的胞嘧啶。
在某些实施方案中,所述互补序列中的胞嘧啶为甲基化的胞嘧啶。
在某些实施方案中,所述互补序列的长度为10nt-30nt,例如,10nt-15nt,15nt-20nt,20nt-25nt,25nt-30nt。
在某些实施方案中,反转录引物的序列如SEQ ID NO:2所示。在某些实施方案中,反转录引物是中国专利CN111549025(链置换引物和细胞转录组文库构建方法)中的“picoRT”,该申请的内容全部引用于本文中。
在另一方面,本申请提供了一种试剂盒,其含有如前所述的接头组。
在某些实施方案中,所述试剂盒还包含:细胞裂解液,用于RNA片段化的试剂,用于RNA末端修复的试剂(例如,PNK酶),用于DNA腺苷酸化的试剂,用于连接RNA和所述接头组的试剂(例如,T4 RNA连接酶),带有第二结合组分(例如,链霉亲和素)的磁珠,亚硫酸氢盐,核酸外切酶(例如,RecJ),用于RNA反转录的试剂,用于构建RNA文库的试剂,用于测序的引物,或其任意组合。
上述组分的选择对于本领域技术人员来说是常规选择,本领域技术人员可根据不同的实验目的,选择具体的上述任意组分(例如,细胞裂解液,用于构建RNA文库的试剂)。
在某些实施方案中,由本发明产生的文库可以使用本领域已知的任何测序平台进行测序。目前这类技术包括但不限于链终止测序(Sanger测序),单分子实时测序,焦磷酸测序,合成测序,连接测序(固态测序),纳米孔测序等。
在另一方面,本申请提供了一种用于分析单细胞RNA m5C修饰的方法,所述方法包括:
(1)提供含有RNA的单细胞样品,裂解所述单细胞以获得RNA;
(2)将步骤(1)获得的RNA打断,并去除其3’端的磷酸基团,以使得3’端具有游离的羟基基团;
(3)将如前所述的接头组腺苷酸化;
(4)使步骤(3)获得的接头组与步骤(2)获得的RNA和连接酶接触,以形成RNA-接头复合物;
(5)将所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶;
优选地,使得未甲基化的胞嘧啶转化为尿嘧啶是通过将所述RNA-接头复合物与亚硫酸氢盐溶液和脱磺化溶液接触;
(6)将步骤(5)获得的RNA-接头复合物与反转录引物和反转录酶接触,以产生相应于所述RNA-接头复合物的第一链cDNA,所述反转录引物具有与所述接头的互补序列互补的序列;
(7)将步骤(6)的产物与链置换引物接触,从而产生所述第一链cDNA相应的第二链cDNA,从而产生双链cDNA,所述链置换引物中具有与测序引物一致的序列;
(8)在允许核酸扩增的条件下,将步骤(7)获得的产物与测序引物和聚合酶接触,从而产生扩增产物;
(9)对步骤(8)获得的产物进行测序,以实现对RNA m5C修饰的分析。
在某些实施方案中,所述细胞样品是体外培养的细胞,或者是生物样品的细胞。在某些实施方案中,所述生物样品的物种是脊椎动物,例如,斑马鱼,人。在某些实施方案中,所述细胞样品获自脊椎动物的血液,血清,血浆,唾液。在某些实施方案中,所述生物样品的物种是哺乳动物,例如,人。
在某些实施方案中,在步骤(2)中,在允许RNA打断的条件下,使RNA与打断试剂接触,以产生RNA片段。
在某些实施方案中,在步骤(2)中,在允许RNA末端修复的条件下,使RNA与末端修复的试剂接触,以使得RNA的3’端具有游离的羟基基团。
在某些实施方案中,在步骤(3)中,在允许腺苷酸化的条件下,使如前所述的接头组与用于DNA腺苷酸化的试剂接触,以使得接头组腺苷酸化。
在某些实施方案中,在步骤(4)中,所述连接酶是T4 RNA连接酶。
在某些实施方案中,在步骤(4)之后,使RNA-接头复合物与核酸外切酶(例如,RecJ酶)接触,以去除多余的接头。
在某些实施方案中,在步骤(4)之后,使RNA-接头复合物与含有第二结合组分(例如,链霉亲和素)的磁珠接触,以捕获RNA-接头复合物。
在某些实施方案中,在步骤(5)中,将所述RNA-接头复合物与亚硫酸氢盐溶液接触后,使RNA-接头复合物与含有第二结合组分(例如,链霉亲和素)的磁珠接触,然后进行脱磺化(例如,使用脱磺化液),以使得所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶。
在某些实施方案中,在步骤(6)中,在允许核酸杂交和退火的条件下,所述反转录引物与所述RNA-接头复合物杂交,并合成相应于所述RNA-接头复合物的第一链cDNA,并且,所述第一链cDNA的3’端具有几个(例如,3个)连续的胞嘧啶。
在某些实施方案中,反转录酶选自M-MLV反转录酶,SMARTScribeTM反转录酶,或其任意组合。在某些实施方案中,所述反转录酶为M-MLV反转录酶。在此类实施方案中,所述反转录酶能够在合成的cDNA链的3’端加上3个左右的胞嘧啶。
在某些实施方案中,优选地,反转录引物的序列如SEQ ID NO:2所示。
在某些实施方案中,链置换引物具有如SEQ ID NO:1所示的通式。在某些实施方案中,链置换引物具有如下所示的通式(dSpacer)3CACGACGCTCTTCCGATCTNNNNrGrG+G,其中,N各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。
在某些实施方案中,在不同的链置换引物中,N各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。在某些实施方案中,“rGrG”是指核糖核酸(RNA)中的G(鸟嘌呤),用以区别脱氧核糖核酸(DNA)中的G(鸟嘌呤)。在某些实施方案中,“+G”代表锁核酸鸟嘌呤核糖核酸碱基,可以增强TSO的热稳定性以及其与第一链cDNA游离的3’端的互补能力。在某些实施方案中,反转录引物是中国专利CN111549025(链置换引物和细胞转录组文库构建方法)中的“picoRT”,该申请的内容全部引用于本文中。在某些实施方案中,所述链置换引物的5’端具有多个(例如,3个)dSpacer。相对于目前报道的链置换引物(TSO),本申请的5’末具有多个(例如,3个)dSpacer的链置换引物可实现精确终止和cDNA 3’末端锚定序列的高效添加,尤其是可防止在反转录结束时,末端产生多个链置换引物的情况发生。该链置换引物的5’末端带有的多个dSpacer,能够防止链置换的再一次延伸,从而实现了短片段5’衔接子连接的替换。进一步地,本发明用于全转录组测序的链置换引物添加四个随机引物(即,NNNN),以帮助在测序过程中去除副产物。本发明用于全转录组测序的链置换引物的5’末端带有的多个dSpacer可取代RNA的5’的连接,且具有明显效果。
在某些实施方案中,所述亚硫酸氢盐处理后的反应混合液与无酶水的比例为1:4。
在某些实施方案中,所述打断试剂为2×Frag/Prime Buffer。
在某些实施方案中,所述末端修复的试剂为PNK酶。
在某些实施方案中,所述DNA腺苷酸化的试剂为腺苷酸化试剂(例如,腺苷酸化反应试剂)。
在某些实施方案中,所述核酸外切酶为RecJ酶。
在另一方面,本申请提供了一种用于分析RNA m5C修饰的方法,所述方法包括:
(a)在允许核酸连接的条件下,使如前所述的接头组与待分析的RNA连接酶(例如,T4 RNA连接酶)接触,以形成RNA-接头复合物;
(b)将步骤(a)获得的产物中存在的未甲基化的胞嘧啶转化为尿嘧啶,并去除亚硫酸氢盐(脱盐和脱磺化);
(c)对步骤(b)获得的产物进行反转录,从而产生双链cDNA;
(d)在允许核酸扩增的条件下,将步骤(c)获得的产物与测序引物和聚合酶接触,从而产生扩增产物;
(e)对步骤(d)获得的产物进行测序,以实现对RNA m5C修饰的分析。
在某些实施方案中,在步骤(b)中,将亚硫酸氢根和未甲基化的胞嘧啶接触,生成胞嘧啶磺酸盐;将胞嘧啶磺酸盐水解脱氨基,生成亚硫酸氢盐尿嘧啶衍生物;碱处理进行脱磺化反应去除磺酸基,以将未甲基化的胞嘧啶转化为尿嘧啶。
在某些实施方案中,所述方法使用如前所述的接头组中的任意一种接头,即可实现单细胞RNA m5C修饰的分析。
在某些实施方案中,所述方法使用如前所述的接头组中的任意几种(例如,2种,3种,或更多种)接头,即可实现对多个(例如,2个,3个,或更多个)单细胞RNA m5C修饰的分析。在此类实施方案中,几种(例如,2种,3种,或更多种)接头的搭配使用,会更利于文库中碱基分布的均衡。
术语定义
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所用的细胞培养、分子遗传学、核酸化学、免疫学实验室操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
在本文中,术语“胞嘧啶”如未特殊强调,包含甲基化和未甲基化的胞嘧啶。在某些实施方案中,所述胞嘧啶是甲基化的胞嘧啶。在某些实施方案中,所述胞嘧啶是未甲基化的胞嘧啶。
在本文中,术语“测序引物”是指在高通量测序中与待测序的靶核酸连接的引物,其通常用于将靶核酸固定至测序的固体支持物上(例如,测序芯片上)。在某些实施方案中,所述测序引物可用于Illumina测序平台和BGI测序平台。
在本文中,术语“打断试剂”是指能够将核酸分子片段化的化学试剂。在某些实施方案中,所述打断试剂能够将RNA打断成100-200nt的片段。
在本文中,术语“反转录引物”是指能够将RNA反转录成cDNA的引物。通常,在反转录过程中,根据目的不同会用到不同的反转录引物,例如,Oligo dT等。可以理解的是,本领域技术人员有能力根据目的RNA选择合适的反转录引物。
序列信息
本申请所涉及的部分序列的信息如下面的表1所示。
表1.部分序列的信息
注:接头组1-1至1-84的序列中:第1个N碱基是1个任意碱基,所述N碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶,目的是为了排除碱基的差异而引起的连接效率的差异;第二部分是转化率计算序列,其通式为DDDDDCDDCCD或DDDDDDCCDDC,D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶,C是未甲基化的胞嘧啶,可根据C的转化情况来计算转化率;第三部分是分样序列,分样序列为6个碱基的随机排列,且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶,可以用于区分不同的样本;第四部分为互补序列,包含与反转录引物(例如,picoRT)互补的序列,其中所有C均为甲基化的胞嘧啶;所有接头组的3’部分具有生物素,以及3’端具有3’inverted dT。
在链置换引物N4TSO中,“N”各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶;具有下划线的碱基“GG”是指核糖核酸(RNA)中的G(鸟嘌呤),用以区别脱氧核糖核酸(DNA)中的G(鸟嘌呤);斜体的碱基“G”代表锁核酸鸟嘌呤核糖核酸碱基,其可以增强TSO的热稳定性以及其与第一链cDNA游离的3’端的互补能力。
有益效果
本申请提供的接头组以及方法,能够对微量RNA的甲基化修饰进行准确分析,例如,能够获取单细胞水平上RNA m5C修饰的信息。在微量RNA的甲基化修饰分析中,更需要对修饰信息的准确性进行评估,而本申请提供的独特设计的接头组能够计算测序过程中的转化情况,从而对测序获得的RNA m5C修饰的信息准确性进行评估。目前的现有技术中,需要通过内参序列对RNA的甲基化修饰效率进行评价,该内参序列与待评估的RNA是各自独立的序列,而本申请接头组与RNA直接相连,更能够准确的评价RNA的甲基化修饰情况。
此外,与现有技术相比,在本申请的RNA m5C修饰的测序方法中,对RNA使用了不同的处理方法。具体来说,使用链霉亲和素磁珠捕获带有接头的RNA,通过亚硫酸氢盐处理RNA,并进行脱盐和脱磺化处理,以通过独特设计的接头组计算文库的转化情况,从而对测序获得的RNA m5C修饰的信息准确性进行评估。
附图说明
图1显示了本申请方法的单细胞RNA m5C测序技术的流程图。
图2显示了不同稀释条件后的文库库检结果;其中,图2A为通过DNF-915仪器检测不同稀释条件后的文库片段分布图,横坐标为文库长度,纵坐标为相对荧光单位(relativefluorescence units);图2B为不同稀释条件后的文库库检结果,包括片段峰值大小和qPCR测得文库浓度。
图3显示了本申请方法中反转录的流程图。
图4显示了斑马鱼卵母细胞的甲基化文库分布;其中,图4A为斑马鱼卵母细胞的甲基化文库条带分布图;图4B为斑马鱼卵母细胞甲基化文库测序碱基信息情况。
图5显示了样本RNA和接头的转化情况。
图6显示了斑马鱼卵母细胞中RNA m5C修饰图谱,其中,图6A为斑马鱼卵母细胞不同重复样本中连续m5C修饰位点的比例情况;图6B为斑马鱼卵母细胞不同重复样本的整体m5C修饰水平;图6C为斑马鱼卵母细胞不同重复样本中m5C位点的区域分布比例情况;图6D为斑马鱼卵母细胞不同重复样本中m5C位点分布motif;图6E为斑马鱼卵母细胞不同重复样本中m5C位点分布pattern图;图6F为根据m5C位点水平计算得到的斑马鱼卵母细胞不同重复样本之间的相关性。
具体实施方式
现参照下列意在举例说明本发明(而非限定本发明)的实施例来描述本发明。
除非特别指明,本发明中所使用的分子生物学实验方法和免疫检测法,基本上参照J.Sambrook等人,分子克隆:实验室手册,第2版,冷泉港实验室出版社,1989,以及F.M.Ausubel等人,精编分子生物学实验指南,第3版,John Wiley&Sons,Inc.,1995中所述的方法进行;限制性内切酶的使用依照产品制造商推荐的条件。实施例中未注明具体条件,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。本领域技术人员知晓,实施例以举例方式描述本发明,且不意欲限制本发明所要求保护的范围。
实施例1:RNA m5C修饰的测序方法
本发明的RNAm5C测序流程如图1所示,主要包括:细胞裂解、RNA片段化及基因组DNA的去除、RNA末端修复、接头序列的连接、链霉亲和素磁珠捕获带有接头的RNA、亚硫酸氢盐处理、脱盐及脱磺化、反转录、测序接头的连接及文库扩增、上机测序及数据分析等步骤。
步骤1、细胞裂解和RNA片段化
本发明的实验材料是斑马鱼的卵母细胞。首先将单个细胞放于含有裂解液的200μL离心管中,由于只有1个细胞,因此只需要少量的裂解液就可以将细胞完全裂解,本发明使用的是30μL细胞裂解液。裂解液的成分为:3.9μL RLT plus裂解液(QIAGEN,1053393),0.25μL RNase Inhibitor(Thermo,EO0384),0.3μL糖原(Thermo Fisher,R0551),0.05μL β-巯基乙醇,20μL无水乙醇,5.5μL蛋白酶溶液(Thermo,EO0491)。室温裂解10分钟后,冻存在-80℃中4小时以上。待使用时,加入三倍体积的无水乙醇,置于-80℃中过夜,在4℃预冷的恒温高速离心机中13000rpm离心45分钟,随后使用预冷的75%乙醇洗涤沉淀两次,室温干燥5-10分钟,加入2.5μL 2×Frag/Prime Buffer(Vazyme,N402-01),0.2μL gDNA eraser(康为,CW2582),用无酶水补充至5μL,用移液枪上下吹打几次使沉淀溶解后,置于PCR仪中42℃反应5分钟,94℃片段化8分钟,产生100-200nt大小的RNA片段。
步骤2、RNA末端修复
在片段化的RNA样本中加入1.3μL无酶水,0.8μL T4 PNK反应缓冲液(NEB,M0201L),0.5μL PNK酶,0.4μL RNase Inhibitor,充分混匀后置于PCR仪中37℃反应1小时,从而将RNA片段的3’末端修复为羟基,以便连接接头序列。
步骤3、接头序列预腺苷酸化
本实施例共提供了84种接头序列,具体如表1中的接头组1-1至1-42所示(本实施例选用了前42种接头中的任意一种,如果标记多个细胞,可以与后42种接头搭配使用,将更利于文库中碱基分布的均衡)。将SEQ ID NO:4至SEQ ID NO:45所示的序列提交给南京金斯瑞生物科技有限公司,公司会根据序列信息合成具体的接头组。
其中,接头组中的第一部分是N碱基,其是1个碱基的随机排列,所述碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶,目的是为了排除碱基的差异而引起的连接效率的差异;第二部分是转化率计算序列,其通式为DDDDDCDDCCD或DDDDDDCCDDC,D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶,C是未甲基化的胞嘧啶,可根据C的转化情况来计算转化率;第三部分是barcode(分样序列),barcode(分样序列)为6个碱基的随机排列,且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶,可以用于区分不用的样本;第四部分为互补序列,包含与反转录引物互补的序列,其中所有C均为甲基化的胞嘧啶。
首先将接头序列的干粉用无酶水配制为100μM,使用DNA腺苷酸化试剂盒(NEB,E2610L)进行腺苷酸化反应。按照说明书中的要求进行操作,反应条件为65℃反应1小时,85℃反应5分钟终止反应,反应结束后可直接进行接下来的连接反应。
步骤4、接头序列的连接
在上述末端修复的RNA片段样品中加入1.2μL RNA连接反应缓冲液(NEB,M0373L),6μL PEG8000(50%),1μL T4 RNA ligase 2,truncated KQ酶,1μL RNase Inhibitor,0.8μL无酶水,2μL预腺苷酸化的接头序列。充分混匀后,16℃反应4小时,4℃过夜反应。反应结束后,短暂瞬离,70℃反应20分钟。
步骤5、RecJ消化,去除多余的接头
在上述的反应中,加入2.5μL NEB buffer(10×),1μL RecJ(NEB,M0264S)和1.5μL无酶水,混匀后,置于PCR仪中37℃反应1小时。随后65℃反应20分钟终止反应。
步骤6、链酶亲和素磁珠的准备
取5μL Dynabead MyOne magnetic beads(Invitrogen,65002)于1.5mL的低吸附离心管中,用50μL的1×BW buffer(5mM Tris-HCl(pH 7.5),500μM EDTA,1M NaCl,0.05%TritonX-100)清洗磁珠,手轻轻地弹离心管管壁,静置5分钟,将离心管至于磁力架上,静置2分钟使得溶液变得澄清,吸走上清,完成一次清洗。重复此步骤3次。
用50μL Bead-solution buffer A(50mM of NaCl,100mM of NaOH,0.1%TritonX-100)清洗磁珠一次,之后用50μL的Bead-solution buffer B(100mM NaCl,0.1%TritonX-100)清洗磁珠一次。每次清洗磁珠,均需要手弹离心管管壁充分混匀。
步骤7、链霉亲和素磁珠捕获带有接头的RNA
将上述的磁珠放在磁力架上,静置2分钟使得溶液变得澄清,吸走上清,加入RecJ消化后的混合液和等体积的2×BW buffer(10mM Tris-HCl(pH 7.5),1M EDTA,2M NaCl,0.1%TritonX-100),轻弹离心管管壁,混匀后置于旋转架上常温旋转15分钟。
瞬离一下,放到磁力架上,待溶液澄清后,吸走上清。加入50μL 1×BW buffer(5mMTris-HCl(pH 7.5),500μM EDTA,1M NaCl,0.05%TritonX-100),轻弹离心管管壁,混匀,放到磁力架上,静置2分钟使得溶液变得澄清,吸走上清。重复清洗两次,加入20μL的无酶水,充分混匀。
步骤8、亚硫酸氢盐处理
加入130μL的Bisulfite conversion(Zymo,R5001),充分混匀后,置于PCR仪中,70℃5分钟,54℃45分钟,三个循环。
单细胞或者痕量RNA经过亚硫酸氢盐处理后,会断裂为片段,且含量极少,需要及时清除亚硫酸氢盐并且减少RNA的损失,这是构建该方法的关键。因此,本发明中,我们使用链霉亲和素磁珠捕获进行脱盐。但是,由于亚硫酸氢盐可能会影响磁珠的捕获效率,因此我们测试了不同的稀释倍数:不稀释,5倍稀释和10倍稀释。库检结果表明,5倍稀释,即加入600μL的无酶水,结果较好,文库峰图主峰在310bp附近之间,且qPCR的摩尔浓度最高,为5.5nmol/L(图2)。
步骤9、链霉亲和素磁珠再次捕获和在磁珠上脱盐和脱磺化
按照步骤6进行链霉亲和素磁珠的准备,将准备好的磁珠置于磁力架上,待溶液澄清后,吸走上清,加入上步混合液和等体积的2×BW buffer,轻弹离心管管壁,混匀后置于旋转架上常温旋转15分钟。
瞬离一下,放在磁力架上,待溶液澄清后,吸走上清,加入50μL 1×BW buffer清洗两次,加入50μL RNA Desulphonation Buffer(Zymo,R5001),轻弹离心管壁,混匀后,室温放置30分钟。放在磁力架上,待溶液澄清后,吸走上清,用50μL 1×BW buffer清洗磁珠两次,加入20μL的无酶水,充分混匀。
步骤10、反转录
反转录的流程如图3所示,包括:一链合成、加入N4TSO引物和二链合成。具体来说,使用SMARTScribeTMReverse Transcriptase(TAKARA,639538)试剂盒,加入6μL 5×First-stand buffer,2μL picoRT(序列信息详见表1),充分混匀后,置于PCR仪中,75℃5分钟,37℃15分钟,25℃15分钟。
再加入2μL 5xFirst-stand buffer,1μL RNase Inhibitor,4μL dNTP Mix,4μLDTT,1.2μL N4TSO(其序列如表1中SEQ ID NO:1所示),2.5μL SMARTScribeTMReverseTranscriptase,放在PCR中,25℃5分钟,42℃90分钟,85℃10分钟,反应结束时,将样品放在提前放于冰水中的磁力架上,大约15秒,立即吸取上清,转移到新的200μL离心管中。
反转录结束后,用DNA clean beads(Vazyme,N411-02)纯化,溶解于36μL的无酶水中。
步骤11、PCR扩增
在上述纯化的产物中加入Index primer(NEBNext Index Primer forIllumina),Universal primer(NEBNext Universal PCR Primer for Illumina)和KAPAHiFi Hotstart Readymix(KAPA biosystem,kk2602),混匀后置于PCR仪中开始扩增,对于本方案可以选择14-18个循环,优选16个循环。PCR结束后用DNA clean beads纯化,溶解于适量的无酶水中,至此得到上机测序的甲基化文库。
实施例2:RNA m5C修饰的测序方法
本实施例参考实施例1中描述的步骤1-11进行,不同之处在于步骤3中使用的接头不同。
本实施例共合成42种接头序列,如表1中的接头组1-43至1-84所示(本实施例选用了后42种接头中的任意一种,如果标记多个细胞,可以与前42种接头搭配使用,将更利于文库中碱基分布的均衡)。将SEQ ID NO:46至SEQ ID NO:87所示的序列提交给南京金斯瑞生物科技有限公司,公司会根据序列信息合成具体的接头组。
实施例3:测序及数据分析
将实施例1和2中构建的单个卵母细胞RNA m5C文库通过NovaSeq PE150平台进行双端测序。测序下机得到的原始数据利用多种生物信息学软件进行处理和分析。具体来说,首先,通过软件cutadapt去除原始测序数据中的测序接头序列,随后根据文库结构特征,通过标准情况下R1端TSO序列和R2端的特定barcode序列对双端reads进行筛选。文库中经过特殊设计的接头连接在序列的固定位置,用于接头转化率的分析计算。接头转化率(conversion rate:CR)是根据转化率计算序列中的未甲基化胞嘧啶的转化情况确定的,计算公式为: 其中cov代表各个位置上碱基的total coverage(即测序得到的reads数),Ccount为该位置上测得为C的count数(即该位置的C碱基未被转化的reads数)。测序数据经过文库结构筛选后,利用软件Trimmomatic过滤去除碱基质量低于20和长度小于35nt的reads。软件FastQC对每个质控步骤的数据质量进行评估。随后利用软件meRanTK的meRanGh工具对初步质控后的双端读段进行参考基因组序列比对,斑马鱼zv10版本作为参考基因组(参数:-un-ds-mbp-fmo-mmr)。软件meRanTK的meRanCall工具用于基因组比对后RNA m5C位点的检测(参数:-mBQ 20-mr 0)。通过检测到的单个细胞内各个RNA m5C位点个数、在不同基因上的分布、甲基化水平等信息,分析不同时期单细胞RNA m5C位点的分布模式、分布基序、甲基化水平变化等特征,同时构建斑马鱼早期胚胎发育过程的RNA m5C图谱。
由于斑马鱼产卵多,易获得,易观察等特点,因此我们首先使用斑马鱼的卵母细胞按照实施例1和2中描述的步骤完成甲基化文库的构建,并检测文库的条带,在200-300bp处可见明显的聚集条带(图4A)。对甲基化文库的数据进行分析,可获得碱基信息情况图(图4B)。
进一步的,分析了接头和基因组(即,样本RNA)的转化情况,其中接头的转化率在99.72%左右,而样本RNA的转化率在99%以上,表示文库中未甲基化的胞嘧啶转化效率高(图5)。
对数据进一步分析发现,大部分都是单个m5C修饰位点(图6A),不同重复样本的整体修饰水平一致,均为0.3左右(图6B)。大部分位点均富集在CDS区域(图6C),且均匀分布于CDS区域(图6E)。但m5C位点的分布没有明显的序列偏好性(图6D),这与已发表的斑马鱼胚胎bulk样本的位点分布特征是一致的。同时皮尔森相关系数分析结果表明,不同重复样本间m5C位点修饰水平的相关性较高,均在0.5以上(图6F)。
以上实验结果证实,使用本申请的方法以及接头组能够分析RNA m5C修饰,获得RNA m5C修饰的信息(例如,m5C修饰位点及其在不同基因上的分布等)。并且,通过接头组计算转化率(图5),可以评估获得的RNA m5C修饰的信息准确性。此外,上述实验结果证实,使用实施例1或2的接头组,都能够获得单细胞RNA m5C修饰的信息。
实施例4:全转录组测序以及数据分析
本实施例参考实施例1中描述的步骤1-7进行,按照步骤1-7,链霉亲和素磁珠即可捕获带有接头序列的RNA。此时使用SMARTScribeTMReverse Transcriptase(TAKARA,639538)试剂盒直接进行反转录得到cDNA,使用DNA clean beads进行纯化后,再进行PCR扩增纯化即可得到上机测序的转录组文库。
实验室构建的单个斑马鱼卵母细胞转录组文库通过Nova-PE150平台进行双端测序。与RNA m5C测序数据质控流程一致,测序下机得到的原始数据利用多种生物信息学软件进行处理和分析。首先软件cutadapt用于去除原始测序数据中的测序接头序列,随后根据文库结构特征,通过标准情况下R1端和R2端的固定序列对双端reads进行筛选。文库中经过特殊设计的接头连接在序列的固定位置,当多个单细胞混合测序时,用于来自不同细胞的转录本区分。测序数据经过文库结构筛选后,利用软件Trimmomatic过滤去除碱基质量低于20和长度小于35nt的reads。软件FastQC对每个质控步骤的数据质量进行评估。随后利用软件hisat2对初步质控后的双端读段进行参考基因组序列比对,斑马鱼zv10版本作为参考基因组(参数:--dta--rna-strandness RF)。Mapping到斑马鱼基因组上的reads通过bedtools工具进行转录组的注释。软件featureCounts用于斑马鱼exon上reads count的分析。各个基因的表达水平利用R计算的RPKM值进行归一化。计算公式为:RPKM=(total exonreads)[mapped reads(millions)*exon length(KB)]。
转录组数据结果表明,利用该建库技术流程,可以实现单个细胞分辨率的转录组文库构建,不同重复之间的相关性很高(皮尔森相关系数>0.9),且捕获到的有效信息在bulk文库中占比较大。这表明该技术下不仅可以对单个细胞内转录组信息进行有效测序,还可以根据其较高的分辨率克服细胞异质性对分析造成的影响,实现不同个体单细胞之间的差异分析。
SEQUENCE LISTING
<110> 中国科学院北京基因组研究所(国家生物信息中心)
<120> 一种单细胞RNA m5C修饰的分析方法
<130> IDC220038
<160> 87
<170> PatentIn version 3.5
<210> 1
<211> 26
<212> DNA
<213> artificial
<220>
<223> 链置换引物N4TSO
<220>
<221> misc_feature
<222> (20)..(23)
<223> n is a, c, g, or t
<400> 1
cacgacgctc ttccgatctn nnnggg 26
<210> 2
<211> 21
<212> DNA
<213> artificial
<220>
<223> 反转录引物picoRT
<400> 2
agacgtgtgc tcttccgatc t 21
<210> 3
<211> 58
<212> DNA
<213> artificial
<220>
<223> Universal primer
<400> 3
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 4
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-1
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 4
ndddddcddc cdattatgag atcggaagag cacacgtct 39
<210> 5
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-2
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 5
ndddddcddc cdtgatgtag atcggaagag cacacgtct 39
<210> 6
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-3
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 6
ndddddcddc cdttaggtag atcggaagag cacacgtct 39
<210> 7
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-4
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 7
ndddddcddc cdtgattaag atcggaagag cacacgtct 39
<210> 8
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-5
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 8
ndddddcddc cdatagtgag atcggaagag cacacgtct 39
<210> 9
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-6
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 9
ndddddcddc cdgttaatag atcggaagag cacacgtct 39
<210> 10
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-7
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 10
ndddddcddc cdtagattag atcggaagag cacacgtct 39
<210> 11
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-8
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 11
ndddddcddc cdatttgaag atcggaagag cacacgtct 39
<210> 12
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-9
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 12
ndddddcddc cdgattagag atcggaagag cacacgtct 39
<210> 13
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-10
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 13
ndddddcddc cdtagtttag atcggaagag cacacgtct 39
<210> 14
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-11
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 14
ndddddcddc cdggttatag atcggaagag cacacgtct 39
<210> 15
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-12
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 15
ndddddcddc cdtttgtaag atcggaagag cacacgtct 39
<210> 16
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-13
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 16
ndddddcddc cdagttaaag atcggaagag cacacgtct 39
<210> 17
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-14
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 17
ndddddcddc cdagttttag atcggaagag cacacgtct 39
<210> 18
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-15
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 18
ndddddcddc cdatgttaag atcggaagag cacacgtct 39
<210> 19
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-16
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 19
ndddddcddc cdttgtttag atcggaagag cacacgtct 39
<210> 20
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-17
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 20
ndddddcddc cdgtagagag atcggaagag cacacgtct 39
<210> 21
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-18
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 21
ndddddcddc cdgtttgtag atcggaagag cacacgtct 39
<210> 22
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-19
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 22
ndddddcddc cdgtgaaaag atcggaagag cacacgtct 39
<210> 23
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-20
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 23
ndddddcddc cdgtggttag atcggaagag cacacgtct 39
<210> 24
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-21
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 24
ndddddcddc cdgttttgag atcggaagag cacacgtct 39
<210> 25
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-22
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 25
ndddddcddc cdtgtatgag atcggaagag cacacgtct 39
<210> 26
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-23
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 26
ndddddcddc cdgagtggag atcggaagag cacacgtct 39
<210> 27
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-24
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 27
ndddddcddc cdattgatag atcggaagag cacacgtct 39
<210> 28
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-25
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 28
ndddddcddc cdatgagtag atcggaagag cacacgtct 39
<210> 29
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-26
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 29
ndddddcddc cdatttttag atcggaagag cacacgtct 39
<210> 30
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-27
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 30
ndddddcddc cdtaaaagag atcggaagag cacacgtct 39
<210> 31
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-28
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 31
ndddddcddc cdtaattaag atcggaagag cacacgtct 39
<210> 32
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-29
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 32
ndddddcddc cdtattggag atcggaagag cacacgtct 39
<210> 33
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-30
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 33
ndddddcddc cdtatgatag atcggaagag cacacgtct 39
<210> 34
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-31
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 34
ndddddcddc cdtatttaag atcggaagag cacacgtct 39
<210> 35
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-32
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 35
ndddddcddc cdtaaggtag atcggaagag cacacgtct 39
<210> 36
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-33
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 36
ndddddcddc cdtgtattag atcggaagag cacacgtct 39
<210> 37
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-34
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 37
ndddddcddc cdaggtagag atcggaagag cacacgtct 39
<210> 38
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-35
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 38
ndddddcddc cdttttgaag atcggaagag cacacgtct 39
<210> 39
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-36
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 39
ndddddcddc cdggatttag atcggaagag cacacgtct 39
<210> 40
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-37
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 40
ndddddcddc cdtaggtaag atcggaagag cacacgtct 39
<210> 41
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-38
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 41
ndddddcddc cdttttttag atcggaagag cacacgtct 39
<210> 42
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-39
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 42
ndddddcddc cdtagagaag atcggaagag cacacgtct 39
<210> 43
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-40
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 43
ndddddcddc cdgttatgag atcggaagag cacacgtct 39
<210> 44
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-41
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 44
ndddddcddc cdtgaggtag atcggaagag cacacgtct 39
<210> 45
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-42
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 45
ndddddcddc cdaagaggag atcggaagag cacacgtct 39
<210> 46
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-43
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 46
nddddddccd dcattatgag atcggaagag cacacgtct 39
<210> 47
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-44
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 47
nddddddccd dctgatgtag atcggaagag cacacgtct 39
<210> 48
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-45
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 48
nddddddccd dcttaggtag atcggaagag cacacgtct 39
<210> 49
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-46
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 49
nddddddccd dctgattaag atcggaagag cacacgtct 39
<210> 50
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-47
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 50
nddddddccd dcatagtgag atcggaagag cacacgtct 39
<210> 51
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-48
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 51
nddddddccd dcgttaatag atcggaagag cacacgtct 39
<210> 52
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-49
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 52
nddddddccd dctagattag atcggaagag cacacgtct 39
<210> 53
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-50
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 53
nddddddccd dcatttgaag atcggaagag cacacgtct 39
<210> 54
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-51
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 54
nddddddccd dcgattagag atcggaagag cacacgtct 39
<210> 55
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-52
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 55
nddddddccd dctagtttag atcggaagag cacacgtct 39
<210> 56
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-53
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 56
nddddddccd dcggttatag atcggaagag cacacgtct 39
<210> 57
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-54
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 57
nddddddccd dctttgtaag atcggaagag cacacgtct 39
<210> 58
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-55
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 58
nddddddccd dcagttaaag atcggaagag cacacgtct 39
<210> 59
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-56
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 59
nddddddccd dcagttttag atcggaagag cacacgtct 39
<210> 60
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-57
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 60
nddddddccd dcatgttaag atcggaagag cacacgtct 39
<210> 61
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-58
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 61
nddddddccd dcttgtttag atcggaagag cacacgtct 39
<210> 62
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-59
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 62
nddddddccd dcgtagagag atcggaagag cacacgtct 39
<210> 63
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-60
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 63
nddddddccd dcgtttgtag atcggaagag cacacgtct 39
<210> 64
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-61
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 64
nddddddccd dcgtgaaaag atcggaagag cacacgtct 39
<210> 65
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-62
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 65
nddddddccd dcgtggttag atcggaagag cacacgtct 39
<210> 66
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-63
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 66
nddddddccd dcgttttgag atcggaagag cacacgtct 39
<210> 67
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-64
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 67
nddddddccd dctgtatgag atcggaagag cacacgtct 39
<210> 68
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-65
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 68
nddddddccd dcgagtggag atcggaagag cacacgtct 39
<210> 69
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-66
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 69
nddddddccd dcattgatag atcggaagag cacacgtct 39
<210> 70
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-67
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 70
nddddddccd dcatgagtag atcggaagag cacacgtct 39
<210> 71
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-68
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 71
nddddddccd dcatttttag atcggaagag cacacgtct 39
<210> 72
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-69
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 72
nddddddccd dctaaaagag atcggaagag cacacgtct 39
<210> 73
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-70
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 73
nddddddccd dctaattaag atcggaagag cacacgtct 39
<210> 74
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-71
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 74
nddddddccd dctattggag atcggaagag cacacgtct 39
<210> 75
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-72
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 75
nddddddccd dctatgatag atcggaagag cacacgtct 39
<210> 76
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-73
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 76
nddddddccd dctatttaag atcggaagag cacacgtct 39
<210> 77
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-74
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 77
nddddddccd dctaaggtag atcggaagag cacacgtct 39
<210> 78
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-75
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 78
nddddddccd dctgtattag atcggaagag cacacgtct 39
<210> 79
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-76
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 79
nddddddccd dcaggtagag atcggaagag cacacgtct 39
<210> 80
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-77
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 80
nddddddccd dcttttgaag atcggaagag cacacgtct 39
<210> 81
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-78
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 81
nddddddccd dcggatttag atcggaagag cacacgtct 39
<210> 82
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-79
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 82
nddddddccd dctaggtaag atcggaagag cacacgtct 39
<210> 83
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-80
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 83
nddddddccd dcttttttag atcggaagag cacacgtct 39
<210> 84
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-81
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 84
nddddddccd dctagagaag atcggaagag cacacgtct 39
<210> 85
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-82
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 85
nddddddccd dcgttatgag atcggaagag cacacgtct 39
<210> 86
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-83
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 86
nddddddccd dctgaggtag atcggaagag cacacgtct 39
<210> 87
<211> 39
<212> DNA
<213> artificial
<220>
<223> 接头组1-84
<220>
<221> misc_feature
<222> (1)..(1)
<223> n is a, c, g, or t
<400> 87
nddddddccd dcaagaggag atcggaagag cacacgtct 39
Claims (10)
1.一种分析RNA(例如,mRNA)m5C修饰的接头组,所述接头组包含1个或多个接头,每个接头包含1条核酸链,所述核酸链包含:N碱基、转化率计算序列、分样序列和互补序列;并且,所述核酸链的5’端具有游离的磷酸基团,3’端或3’部分具有可与第二结合组分(例如链霉亲和素)相互作用的第一结合组分(例如,生物素);其中,
所述N碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶;
所述转化率计算序列包含至少3个未甲基化的胞嘧啶;
所述分样序列为4-10个碱基的随机排列,所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶;
所述互补序列包含与反转录引物互补的序列,在允许杂交的条件下,所述反转录引物与所述接头杂交后能够启动反转录。
2.权利要求1所述的接头组,其中,不同的核酸链中的N碱基相同或不同;
优选地,不同核酸链中的N碱基各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。
3.权利要求1或2所述的接头组,其中,所述转化率计算序列具有选自下列的一项或多项特征:
(1)所述转化率计算序列包含至少3个未甲基化的胞嘧啶,且所述未甲基化的胞嘧啶连续或不连续的排列;
(2)所述转化率计算序列的长度为4nt-21nt,例如,4nt,5nt,6nt,7nt,8nt,9nt,10nt,13nt,15nt,17nt,19nt或21nt;
(3)所述转化率计算序列包含通式:DDDDDCDDCCD和或DDDDDDCCDDC,其中,D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶。
4.权利要求1-3任一项所述的接头组,其中,所述互补序列中的胞嘧啶为甲基化的胞嘧啶;
优选地,所述互补序列的长度为10nt-30nt,例如,10nt-15nt,15nt-20nt,20nt-25nt,25nt-30nt;
优选地,反转录引物的序列如SEQ ID NO:2所示。
5.权利要求1-4任一项所述的接头组,其中,所述分样序列为6个碱基的随机排列,且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶。
6.一种试剂盒,其含有权利要求1-5任一项所述的接头组;
任选地,所述试剂盒还包含:细胞裂解液,用于RNA片段化的试剂,用于RNA末端修复的试剂(例如,PNK酶),用于DNA腺苷酸化的试剂,用于连接RNA和所述接头组的试剂(例如,T4RNA连接酶),带有第二结合组分(例如,链霉亲和素)的磁珠,亚硫酸氢盐,核酸外切酶(例如,RecJ),用于RNA反转录的试剂,用于建立RNA文库的试剂,用于测序的引物,或其任意组合。
7.一种用于分析单细胞RNA m5C修饰的方法,所述方法包括:
(1)提供含有RNA的单细胞样品,裂解所述单细胞以获得RNA;
(2)将步骤(1)获得的RNA打断,并去除3’端的磷酸基团,以使得3’端具有游离的羟基基团;
(3)将权利要求1-5任一项所述的接头组腺苷酸化;
(4)使步骤(3)获得的接头组与步骤(2)获得的RNA和连接酶接触,以形成RNA-接头复合物;
(5)将所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶;
优选地,使得未甲基化的胞嘧啶转化为尿嘧啶是通过将所述RNA-接头复合物与亚硫酸氢盐溶液和脱磺化溶液接触;
(6)将步骤(5)获得的RNA-接头复合物与反转录引物和反转录酶接触,以产生相应于所述RNA-接头复合物的第一链cDNA,所述反转录引物具有与所述接头的互补序列互补的序列;
(7)将步骤(6)的产物与链置换引物接触,从而产生所述第一链cDNA相应的第二链cDNA,从而产生双链cDNA,所述链置换引物中具有与测序引物一致的序列;
(8)在允许核酸扩增的条件下,将步骤(7)获得的产物与测序引物和聚合酶接触,从而产生扩增产物;
(9)对步骤(8)获得的产物进行测序,以实现对RNA m5C修饰的分析。
8.权利要求7的方法,所述方法具有选自下列的一项或多项特征:
(1)在步骤(2)中,在允许RNA打断的条件下,使RNA与打断试剂接触,以产生RNA片段;
(2)在步骤(2)中,在允许RNA末端修复的条件下,使RNA与末端修复的试剂接触,以使得RNA的3’端具有游离的羟基基团;
(3)在步骤(3)中,在允许腺苷酸化的条件下,使权利要求1-5任一项所述的接头组与用于DNA腺苷酸化的试剂接触,以使得接头组腺苷酸化;
(4)在步骤(4)中,所述连接酶是T4 RNA连接酶;
(5)在步骤(4)之后,使RNA-接头复合物与核酸外切酶(例如,RecJ酶)接触,以去除多余的接头;
(6)在步骤(4)之后,使RNA-接头复合物与含有第二结合组分(例如,链霉亲和素)的磁珠接触,以捕获RNA-接头复合物;
(7)在步骤(5)中,将所述RNA-接头复合物与亚硫酸氢盐溶液接触后,使RNA-接头复合物与含有第二结合组分(例如,链霉亲和素)的磁珠接触,然后进行脱磺化(例如,使用脱磺化液),以使得所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶;
(8)所述反转录酶为M-MLV反转录酶或者SMARTScribeTM反转录酶;
(9)反转录引物的序列如SEQ ID NO:2所示;
(10)链置换引物具有如SEQ ID NO:1所示的通式,其中,N各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。
9.权利要求8的方法,其中,所述方法具有选自下列的一项或多项特征:
(1)所述亚硫酸氢盐处理后的反应混合液与无酶水的比例为1:4;
(2)所述打断试剂为2×Frag/Prime Buffer;
(3)所述末端修复的试剂为PNK酶;
(4)所述DNA腺苷酸化的试剂为腺苷酸化试剂(例如,腺苷酸化反应试剂);
(5)所述核酸外切酶为RecJ酶。
10.一种用于分析RNA m5C修饰的方法,所述方法包括:
(a)在允许核酸连接的条件下,使权利要求1-5任一项的接头组与待分析的RNA,连接酶(例如,T4 RNA连接酶)接触,以形成RNA-接头复合物;
(b)将步骤(a)获得的产物中存在的未甲基化的胞嘧啶转化为尿嘧啶;
(c)对步骤(b)获得的产物进行反转录,从而产生双链cDNA;
(d)在允许核酸扩增的条件下,将步骤(c)获得的产物与测序引物和聚合酶接触,从而产生扩增产物;
(e)对步骤(d)获得的产物进行测序,以实现对RNA m5C修饰的分析。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508483.0A CN117089607A (zh) | 2022-05-11 | 2022-05-11 | 一种单细胞RNA m5C修饰的分析方法 |
PCT/CN2023/093435 WO2023217214A1 (zh) | 2022-05-11 | 2023-05-11 | 一种单细胞RNA m5C修饰的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210508483.0A CN117089607A (zh) | 2022-05-11 | 2022-05-11 | 一种单细胞RNA m5C修饰的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117089607A true CN117089607A (zh) | 2023-11-21 |
Family
ID=88729773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210508483.0A Pending CN117089607A (zh) | 2022-05-11 | 2022-05-11 | 一种单细胞RNA m5C修饰的分析方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117089607A (zh) |
WO (1) | WO2023217214A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105506747B (zh) * | 2014-09-26 | 2018-11-09 | 深圳华大基因科技有限公司 | 富集原始转录本信息的rna文库的构建方法及其应用 |
CN105132409B (zh) * | 2015-09-02 | 2018-02-06 | 中国科学院北京基因组研究所 | RNA 5mC重亚硫酸盐测序的文库构建方法及其应用 |
IL265451B (en) * | 2019-03-18 | 2020-01-30 | Frumkin Dan | Methods and systems for the detection of methylation changes in DNA samples |
CN114015755B (zh) * | 2020-12-31 | 2024-03-01 | 中国科学院北京基因组研究所(国家生物信息中心) | 用于标记核酸分子的方法和试剂盒 |
CN113584135B (zh) * | 2021-07-26 | 2022-05-27 | 中山大学 | 一种混样检测rna修饰并实现精准定量的方法 |
-
2022
- 2022-05-11 CN CN202210508483.0A patent/CN117089607A/zh active Pending
-
2023
- 2023-05-11 WO PCT/CN2023/093435 patent/WO2023217214A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023217214A1 (zh) | 2023-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9133513B2 (en) | High throughput methylation detection method | |
US9518295B2 (en) | High-throughput sequencing method for methylated DNA and use thereof | |
CN113166797A (zh) | 基于核酸酶的rna耗尽 | |
DK2631336T3 (en) | DNA library and the method for producing the same as well as method and apparatus for detecting the SNP | |
WO2019126313A1 (en) | Multiplex 5mc marker barcode counting for methylation detection in cell-free dna | |
EP3555305B1 (en) | Method for increasing throughput of single molecule sequencing by concatenating short dna fragments | |
CN108611398A (zh) | 通过新一代测序进行基因分型 | |
WO2013056640A1 (zh) | 核酸文库的制备方法及其应用以及试剂盒 | |
CN111808854B (zh) | 带有分子条码的平衡接头及快速构建转录组文库的方法 | |
CN107858409B (zh) | 一种微量降解基因组dna甲基化建库测序方法及其试剂盒 | |
CN112359093B (zh) | 血液中游离miRNA文库制备和表达定量的方法及试剂盒 | |
US20230056763A1 (en) | Methods of targeted sequencing | |
AU2016102398A4 (en) | Method for enriching target nucleic acid sequence from nucleic acid sample | |
CN114096678A (zh) | 多种核酸共标记支持物及其制作方法与应用 | |
CN112410331A (zh) | 带分子标签和样本标签的接头及其单链建库方法 | |
CN113668068A (zh) | 基因组甲基化文库及其制备方法和应用 | |
CN115715323A (zh) | 一种高兼容性的PCR-free建库和测序方法 | |
CN113166809A (zh) | 一种dna甲基化检测的方法、试剂盒、装置和应用 | |
CN108342385A (zh) | 一种接头和通过高效率环化方式构建测序文库的方法 | |
CN117089607A (zh) | 一种单细胞RNA m5C修饰的分析方法 | |
WO2014086037A1 (zh) | 构建核酸测序文库的方法及其应用 | |
CN106283198B (zh) | 用于单细胞全基因组重亚硫酸氢盐测序的文库构建方法 | |
CN110546275A (zh) | 用于去除不需要的核酸的方法和试剂盒 | |
WO2023116373A1 (zh) | 一种生成标记的核酸分子群的方法及其试剂盒 | |
EP3798319A1 (en) | An improved diagnostic and/or sequencing method and kit |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |