CN117089607A

CN117089607A - 一种单细胞RNA m5C修饰的分析方法

Info

Publication number: CN117089607A
Application number: CN202210508483.0A
Authority: CN
Inventors: 杨运桂; 宋鸽鸽; 王梦柯; 杨莹; 姚欢
Original assignee: Beijing Institute of Genomics of CAS
Current assignee: Beijing Institute of Genomics of CAS
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2023-11-21
Also published as: WO2023217214A1

Abstract

本发明涉及生物技术领域，尤其涉及一种分析RNA m⁵C修饰的接头组和试剂盒，还涉及一种分析RNA m⁵C修饰的方法。本申请提供的接头组以及方法，能够对微量RNA的甲基化修饰进行准确分析，例如，能够获取单细胞水平上RNA m⁵C修饰的信息。并且，本申请提供的独特设计的接头组能够计算测序过程中的转化情况，从而对测序获得的RNA m⁵C修饰的信息准确性进行评估，以及进一步对RNA m⁵C修饰特征和规律进行解析。

Description

一种单细胞RNA m5C修饰的分析方法

技术领域

本发明涉及生物技术领域，尤其涉及一种单细胞RNA m⁵C修饰的分析方法，以及分析RNA m⁵C修饰的接头组和包含所述接头组的试剂盒。本申请还涉及一种用于分析RNA m⁵C修饰的方法。

背景技术

RNA m⁵C修饰是一种广泛存在的RNA甲基化修饰类型，其广泛分布在mRNA、tRNA、rRNA和ncRNA等中。目前用于检测RNA m⁵C的方法有m⁵C-RIP-seq、miCLIP-seq、Aza-IP-seq、RNA-BisSeq、WO-seq、TAWO-seq及Nanopore测序技术。其中m⁵C-RIP-seq需要特异性的m⁵C抗体来富集含有m⁵C的片段，其分辨率较低，只有100-150nt。miCLIP-seq需要RNA甲基转移酶突变体的过表达，可能会导致RNA甲基化模式的改变。Aza-IP-seq中使用的5-氮胞苷对细胞有毒，依赖5-氮胞苷的插入效率，可能导致低丰度的甲基化位点被忽视。而WO-seq和TAWO-seq有较低的转化率，据报道，最高仅为77.8％。而Nanopore-seq很难精确区分具有相似结构的核苷酸。目前，重亚硫酸盐测序是公认的可靠的m⁵C检测方法。随着这些RNA m⁵C测序方法的发展，RNA m⁵C的生物学功能逐渐被阐明。

常规量的RNA m⁵C测序技术常使用较大组织块或细胞团作为样本，处理过程复杂，难以应用到珍稀样本，同时无法在单细胞水平上进行更为精细的研究。而单细胞测序技术已经成为分析细胞异质性、细胞分化和发育的重要技术手段，可以弥补传统测序的局限性。因此开发微量和单细胞RNA m⁵C测序技术，有助于绘制少量样本甚至单细胞水平的m⁵C图谱。在早期胚胎发育、神经系统发育、肿瘤以及免疫领域等方面具有良好前景。

发明内容

目前现有m⁵C测序技术中，大多需要通过内参序列(如Luciferase基因序列)对样本RNA的转化情况进行评估，而内参序列与待评估的RNA是各自独立的序列，以至于评价的结果可能会出现误差。本申请独特设计的接头组与RNA直接相连，更能够准确的评价样本RNA的转化情况，进一步的，本申请的发明人对RNA甲基化修饰的方法也进行了优化。由此，申请人完成了本发明。

因此，在第一方面，本申请提供了一种分析RNA(例如，mRNA)m⁵C修饰的接头组，所述接头组包含1个或多个接头，每个接头包含1条核酸链，所述核酸链包含：N碱基、转化率计算序列、分样序列(barcode)和互补序列；并且，所述核酸链的5’端具有游离的磷酸基团，3’端或3’部分具有可与第二结合组分(例如链霉亲和素)相互作用的第一结合组分(例如，生物素)；其中，

所述N碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶；

所述转化率计算序列包含至少3个未甲基化的胞嘧啶；

所述分样序列为4-10个(例如，4个，5个，6个，7个，8个，9个，10个)碱基的随机排列，所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶；

所述互补序列包含与反转录引物互补的序列，在允许杂交的条件下，所述反转录引物与所述接头杂交后能够启动反转录。

在某些实施方案中，所述分样序列为6个或8个碱基的特定序列，且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶。在此类实施方案中，所述分样序列的碱基序列如SEQ ID NO:4至SEQ ID NO:87所示的序列中第13至18位碱基所示。在某些实施方案中，所述分样序列为6个或8个碱基的随机排列，且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶。

在某些实施方案中，所述分样序列为barcode。在此类实施方案中，barcode是指一段随机序列，其能够识别与其连接的序列(例如，RNA)的读段数，从而能够区分每一个序列(例如，RNA)或识别每一个序列(例如，RNA)的来源(例如，特定细胞)。

在某些实施方案中，不同的接头是通过分样序列(barcode)进行区分的。

在某些优选的实施方案中，分样序列(barcode)含有6个碱基。每个碱基都可以是A/T/G的任意组合，所以总共有3^6＝729种组合。因此，所述接头组可以包含1个-20个，20个-50个，50个-100个，100个-200个，200个-500个，500个-729个接头。

在某些优选的实施方案中，分样序列(barcode)含有8个碱基。每个碱基都可以是A/T/G的任意组合，所以总共有3^8＝6561种组合。因此，所述接头组可以包含1个-200个，200个-500个，500个-1000个，1000个-2500个，2500个-4000个，4000个-6561个接头。

在某些实施方案中，所述接头组包含1个-20个，20个-50个，50个-100个，100个-200个，200个-500个，500个-1000条核酸链。

在某些实施方案中，所述核酸链从5’至3’的连接方式为N碱基、转化率计算序列、分样序列以及互补序列。在此类实施方案中，所述N碱基和转化率计算序列通过或不通过linker连接。在此类实施方案中，所述转化率计算序列和分样序列通过或不通过linker连接。

在某些实施方案中，所述接头组的3’端还具有3’inverted dT修饰。在此类实施方案中，所述3’inverted dT修饰可以掺入寡核苷酸的3’-末端，形成3’-3’连接，从而抑制3’外切核酸酶的降解和DNA聚合酶的延伸。在某些实施方案中，所述接头组的3’部分具有生物素，且所述接头组的3’端具有3’inverted dT修饰。

在某些实施方案中，所述第一结合组分是生物素。在此类实施方案中，由于生物素对链霉亲和素的亲和力，带有生物素的核酸链可以结合到链霉亲和素上。在某些实施方案中，所述链霉亲和素与底物结合或缀合。在某些实施例中，所述底物选自磁珠，膜，芯片或载玻片。在某些实施例中，具有生物素的核酸链通过生物素对链霉亲和素的亲和力与缀合链霉亲和素的磁珠结合。

在某些实施方案中，不同的核酸链中的N碱基相同或不同。

在某些实施方案中，不同核酸链中的N碱基各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。

在某些实施方案中，所述转化率计算序列包含至少3个未甲基化的胞嘧啶，且所述未甲基化的胞嘧啶连续或不连续的排列。

在某些实施方案中，所述转化率计算序列包含3个，4个，5个，6个，7个，8个，9个，10个，11个，12个，13个，14个，或15个未甲基化的胞嘧啶。

在某些实施方案中，所述转化率计算序列的长度为4nt-21nt，例如，4nt，5nt，6nt，7nt，8nt，9nt，10nt，13nt，15nt，17nt，19nt或21nt；

在某些实施方案中，所述转化率计算序列包含通式：DDDDDCDDCCD和或DDDDDDCCDDC，其中，D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶。在此类实施方案中，所述转化率计算序列中的胞嘧啶均为未甲基化的胞嘧啶。

在某些实施方案中，核酸链中的第一部分是N碱基，其是1个碱基的随机排列，所述碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶，目的是为了排除碱基的偏好性而引起的连接效率的差异；第二部分是转化率计算序列，其通式为DDDDDCDDCCD或DDDDDDCCDDC，D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶，C是未甲基化的胞嘧啶，可根据C的转化情况来计算转化率；第三部分是barcode(分样序列)，barcode(分样序列)为6个碱基的随机排列，且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶，可以用于区分不同的样本；第四部分为互补序列，包含与反转录引物互补的序列，其中所有C均为甲基化的胞嘧啶。

在某些实施方案中，所述互补序列中的胞嘧啶为甲基化的胞嘧啶。

在某些实施方案中，所述互补序列的长度为10nt-30nt，例如，10nt-15nt，15nt-20nt，20nt-25nt，25nt-30nt。

在某些实施方案中，反转录引物的序列如SEQ ID NO:2所示。在某些实施方案中，反转录引物是中国专利CN111549025(链置换引物和细胞转录组文库构建方法)中的“picoRT”，该申请的内容全部引用于本文中。

在另一方面，本申请提供了一种试剂盒，其含有如前所述的接头组。

在某些实施方案中，所述试剂盒还包含：细胞裂解液，用于RNA片段化的试剂，用于RNA末端修复的试剂(例如，PNK酶)，用于DNA腺苷酸化的试剂，用于连接RNA和所述接头组的试剂(例如，T4 RNA连接酶)，带有第二结合组分(例如，链霉亲和素)的磁珠，亚硫酸氢盐，核酸外切酶(例如，RecJ)，用于RNA反转录的试剂，用于构建RNA文库的试剂，用于测序的引物，或其任意组合。

上述组分的选择对于本领域技术人员来说是常规选择，本领域技术人员可根据不同的实验目的，选择具体的上述任意组分(例如，细胞裂解液，用于构建RNA文库的试剂)。

在某些实施方案中，由本发明产生的文库可以使用本领域已知的任何测序平台进行测序。目前这类技术包括但不限于链终止测序(Sanger测序)，单分子实时测序，焦磷酸测序，合成测序，连接测序(固态测序)，纳米孔测序等。

在另一方面，本申请提供了一种用于分析单细胞RNA m⁵C修饰的方法，所述方法包括：

(1)提供含有RNA的单细胞样品，裂解所述单细胞以获得RNA；

(2)将步骤(1)获得的RNA打断，并去除其3’端的磷酸基团，以使得3’端具有游离的羟基基团；

(3)将如前所述的接头组腺苷酸化；

(4)使步骤(3)获得的接头组与步骤(2)获得的RNA和连接酶接触，以形成RNA-接头复合物；

(5)将所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶；

优选地，使得未甲基化的胞嘧啶转化为尿嘧啶是通过将所述RNA-接头复合物与亚硫酸氢盐溶液和脱磺化溶液接触；

(6)将步骤(5)获得的RNA-接头复合物与反转录引物和反转录酶接触，以产生相应于所述RNA-接头复合物的第一链cDNA，所述反转录引物具有与所述接头的互补序列互补的序列；

(7)将步骤(6)的产物与链置换引物接触，从而产生所述第一链cDNA相应的第二链cDNA，从而产生双链cDNA，所述链置换引物中具有与测序引物一致的序列；

(8)在允许核酸扩增的条件下，将步骤(7)获得的产物与测序引物和聚合酶接触，从而产生扩增产物；

(9)对步骤(8)获得的产物进行测序，以实现对RNA m⁵C修饰的分析。

在某些实施方案中，所述细胞样品是体外培养的细胞，或者是生物样品的细胞。在某些实施方案中，所述生物样品的物种是脊椎动物，例如，斑马鱼，人。在某些实施方案中，所述细胞样品获自脊椎动物的血液，血清，血浆，唾液。在某些实施方案中，所述生物样品的物种是哺乳动物，例如，人。

在某些实施方案中，在步骤(2)中，在允许RNA打断的条件下，使RNA与打断试剂接触，以产生RNA片段。

在某些实施方案中，在步骤(2)中，在允许RNA末端修复的条件下，使RNA与末端修复的试剂接触，以使得RNA的3’端具有游离的羟基基团。

在某些实施方案中，在步骤(3)中，在允许腺苷酸化的条件下，使如前所述的接头组与用于DNA腺苷酸化的试剂接触，以使得接头组腺苷酸化。

在某些实施方案中，在步骤(4)中，所述连接酶是T4 RNA连接酶。

在某些实施方案中，在步骤(4)之后，使RNA-接头复合物与核酸外切酶(例如，RecJ酶)接触，以去除多余的接头。

在某些实施方案中，在步骤(4)之后，使RNA-接头复合物与含有第二结合组分(例如，链霉亲和素)的磁珠接触，以捕获RNA-接头复合物。

在某些实施方案中，在步骤(5)中，将所述RNA-接头复合物与亚硫酸氢盐溶液接触后，使RNA-接头复合物与含有第二结合组分(例如，链霉亲和素)的磁珠接触，然后进行脱磺化(例如，使用脱磺化液)，以使得所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶。

在某些实施方案中，在步骤(6)中，在允许核酸杂交和退火的条件下，所述反转录引物与所述RNA-接头复合物杂交，并合成相应于所述RNA-接头复合物的第一链cDNA，并且，所述第一链cDNA的3’端具有几个(例如，3个)连续的胞嘧啶。

在某些实施方案中，反转录酶选自M-MLV反转录酶，SMARTScribe^TM反转录酶，或其任意组合。在某些实施方案中，所述反转录酶为M-MLV反转录酶。在此类实施方案中，所述反转录酶能够在合成的cDNA链的3’端加上3个左右的胞嘧啶。

在某些实施方案中，优选地，反转录引物的序列如SEQ ID NO:2所示。

在某些实施方案中，链置换引物具有如SEQ ID NO:1所示的通式。在某些实施方案中，链置换引物具有如下所示的通式(dSpacer)₃CACGACGCTCTTCCGATCTNNNNrGrG+G，其中，N各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。

在某些实施方案中，在不同的链置换引物中，N各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。在某些实施方案中，“rGrG”是指核糖核酸(RNA)中的G(鸟嘌呤)，用以区别脱氧核糖核酸(DNA)中的G(鸟嘌呤)。在某些实施方案中，“+G”代表锁核酸鸟嘌呤核糖核酸碱基，可以增强TSO的热稳定性以及其与第一链cDNA游离的3’端的互补能力。在某些实施方案中，反转录引物是中国专利CN111549025(链置换引物和细胞转录组文库构建方法)中的“picoRT”，该申请的内容全部引用于本文中。在某些实施方案中，所述链置换引物的5’端具有多个(例如，3个)dSpacer。相对于目前报道的链置换引物(TSO)，本申请的5’末具有多个(例如，3个)dSpacer的链置换引物可实现精确终止和cDNA 3’末端锚定序列的高效添加，尤其是可防止在反转录结束时，末端产生多个链置换引物的情况发生。该链置换引物的5’末端带有的多个dSpacer，能够防止链置换的再一次延伸，从而实现了短片段5’衔接子连接的替换。进一步地，本发明用于全转录组测序的链置换引物添加四个随机引物(即，NNNN)，以帮助在测序过程中去除副产物。本发明用于全转录组测序的链置换引物的5’末端带有的多个dSpacer可取代RNA的5’的连接，且具有明显效果。

在某些实施方案中，所述亚硫酸氢盐处理后的反应混合液与无酶水的比例为1：4。

在某些实施方案中，所述打断试剂为2×Frag/Prime Buffer。

在某些实施方案中，所述末端修复的试剂为PNK酶。

在某些实施方案中，所述DNA腺苷酸化的试剂为腺苷酸化试剂(例如，腺苷酸化反应试剂)。

在某些实施方案中，所述核酸外切酶为RecJ酶。

在另一方面，本申请提供了一种用于分析RNA m⁵C修饰的方法，所述方法包括：

(a)在允许核酸连接的条件下，使如前所述的接头组与待分析的RNA连接酶(例如，T4 RNA连接酶)接触，以形成RNA-接头复合物；

(b)将步骤(a)获得的产物中存在的未甲基化的胞嘧啶转化为尿嘧啶，并去除亚硫酸氢盐(脱盐和脱磺化)；

(c)对步骤(b)获得的产物进行反转录，从而产生双链cDNA；

(d)在允许核酸扩增的条件下，将步骤(c)获得的产物与测序引物和聚合酶接触，从而产生扩增产物；

(e)对步骤(d)获得的产物进行测序，以实现对RNA m⁵C修饰的分析。

在某些实施方案中，在步骤(b)中，将亚硫酸氢根和未甲基化的胞嘧啶接触，生成胞嘧啶磺酸盐；将胞嘧啶磺酸盐水解脱氨基，生成亚硫酸氢盐尿嘧啶衍生物；碱处理进行脱磺化反应去除磺酸基，以将未甲基化的胞嘧啶转化为尿嘧啶。

在某些实施方案中，所述方法使用如前所述的接头组中的任意一种接头，即可实现单细胞RNA m⁵C修饰的分析。

在某些实施方案中，所述方法使用如前所述的接头组中的任意几种(例如，2种，3种，或更多种)接头，即可实现对多个(例如，2个，3个，或更多个)单细胞RNA m⁵C修饰的分析。在此类实施方案中，几种(例如，2种，3种，或更多种)接头的搭配使用，会更利于文库中碱基分布的均衡。

术语定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的细胞培养、分子遗传学、核酸化学、免疫学实验室操作步骤均为相应领域内广泛使用的常规步骤。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

在本文中，术语“胞嘧啶”如未特殊强调，包含甲基化和未甲基化的胞嘧啶。在某些实施方案中，所述胞嘧啶是甲基化的胞嘧啶。在某些实施方案中，所述胞嘧啶是未甲基化的胞嘧啶。

在本文中，术语“测序引物”是指在高通量测序中与待测序的靶核酸连接的引物，其通常用于将靶核酸固定至测序的固体支持物上(例如，测序芯片上)。在某些实施方案中，所述测序引物可用于Illumina测序平台和BGI测序平台。

在本文中，术语“打断试剂”是指能够将核酸分子片段化的化学试剂。在某些实施方案中，所述打断试剂能够将RNA打断成100-200nt的片段。

在本文中，术语“反转录引物”是指能够将RNA反转录成cDNA的引物。通常，在反转录过程中，根据目的不同会用到不同的反转录引物，例如，Oligo dT等。可以理解的是，本领域技术人员有能力根据目的RNA选择合适的反转录引物。

序列信息

本申请所涉及的部分序列的信息如下面的表1所示。

表1.部分序列的信息

注：接头组1-1至1-84的序列中：第1个N碱基是1个任意碱基，所述N碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶，目的是为了排除碱基的差异而引起的连接效率的差异；第二部分是转化率计算序列，其通式为DDDDDCDDCCD或DDDDDDCCDDC，D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶，C是未甲基化的胞嘧啶，可根据C的转化情况来计算转化率；第三部分是分样序列，分样序列为6个碱基的随机排列，且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶，可以用于区分不同的样本；第四部分为互补序列，包含与反转录引物(例如，picoRT)互补的序列，其中所有C均为甲基化的胞嘧啶；所有接头组的3’部分具有生物素，以及3’端具有3’inverted dT。

在链置换引物N4TSO中，“N”各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶；具有下划线的碱基“GG”是指核糖核酸(RNA)中的G(鸟嘌呤)，用以区别脱氧核糖核酸(DNA)中的G(鸟嘌呤)；斜体的碱基“G”代表锁核酸鸟嘌呤核糖核酸碱基，其可以增强TSO的热稳定性以及其与第一链cDNA游离的3’端的互补能力。

有益效果

本申请提供的接头组以及方法，能够对微量RNA的甲基化修饰进行准确分析，例如，能够获取单细胞水平上RNA m⁵C修饰的信息。在微量RNA的甲基化修饰分析中，更需要对修饰信息的准确性进行评估，而本申请提供的独特设计的接头组能够计算测序过程中的转化情况，从而对测序获得的RNA m⁵C修饰的信息准确性进行评估。目前的现有技术中，需要通过内参序列对RNA的甲基化修饰效率进行评价，该内参序列与待评估的RNA是各自独立的序列，而本申请接头组与RNA直接相连，更能够准确的评价RNA的甲基化修饰情况。

此外，与现有技术相比，在本申请的RNA m⁵C修饰的测序方法中，对RNA使用了不同的处理方法。具体来说，使用链霉亲和素磁珠捕获带有接头的RNA，通过亚硫酸氢盐处理RNA，并进行脱盐和脱磺化处理，以通过独特设计的接头组计算文库的转化情况，从而对测序获得的RNA m⁵C修饰的信息准确性进行评估。

附图说明

图1显示了本申请方法的单细胞RNA m⁵C测序技术的流程图。

图2显示了不同稀释条件后的文库库检结果；其中，图2A为通过DNF-915仪器检测不同稀释条件后的文库片段分布图，横坐标为文库长度，纵坐标为相对荧光单位(relativefluorescence units)；图2B为不同稀释条件后的文库库检结果，包括片段峰值大小和qPCR测得文库浓度。

图3显示了本申请方法中反转录的流程图。

图4显示了斑马鱼卵母细胞的甲基化文库分布；其中，图4A为斑马鱼卵母细胞的甲基化文库条带分布图；图4B为斑马鱼卵母细胞甲基化文库测序碱基信息情况。

图5显示了样本RNA和接头的转化情况。

图6显示了斑马鱼卵母细胞中RNA m⁵C修饰图谱，其中，图6A为斑马鱼卵母细胞不同重复样本中连续m⁵C修饰位点的比例情况；图6B为斑马鱼卵母细胞不同重复样本的整体m⁵C修饰水平；图6C为斑马鱼卵母细胞不同重复样本中m⁵C位点的区域分布比例情况；图6D为斑马鱼卵母细胞不同重复样本中m⁵C位点分布motif；图6E为斑马鱼卵母细胞不同重复样本中m⁵C位点分布pattern图；图6F为根据m⁵C位点水平计算得到的斑马鱼卵母细胞不同重复样本之间的相关性。

具体实施方式

现参照下列意在举例说明本发明(而非限定本发明)的实施例来描述本发明。

除非特别指明，本发明中所使用的分子生物学实验方法和免疫检测法，基本上参照J.Sambrook等人，分子克隆：实验室手册，第2版，冷泉港实验室出版社，1989，以及F.M.Ausubel等人，精编分子生物学实验指南，第3版，John Wiley&Sons,Inc.，1995中所述的方法进行；限制性内切酶的使用依照产品制造商推荐的条件。实施例中未注明具体条件，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。本领域技术人员知晓，实施例以举例方式描述本发明，且不意欲限制本发明所要求保护的范围。

实施例1：RNA m⁵C修饰的测序方法

本发明的RNAm⁵C测序流程如图1所示，主要包括：细胞裂解、RNA片段化及基因组DNA的去除、RNA末端修复、接头序列的连接、链霉亲和素磁珠捕获带有接头的RNA、亚硫酸氢盐处理、脱盐及脱磺化、反转录、测序接头的连接及文库扩增、上机测序及数据分析等步骤。

步骤1、细胞裂解和RNA片段化

本发明的实验材料是斑马鱼的卵母细胞。首先将单个细胞放于含有裂解液的200μL离心管中，由于只有1个细胞，因此只需要少量的裂解液就可以将细胞完全裂解，本发明使用的是30μL细胞裂解液。裂解液的成分为：3.9μL RLT plus裂解液(QIAGEN,1053393)，0.25μL RNase Inhibitor(Thermo,EO0384)，0.3μL糖原(Thermo Fisher,R0551)，0.05μL β-巯基乙醇，20μL无水乙醇，5.5μL蛋白酶溶液(Thermo,EO0491)。室温裂解10分钟后，冻存在-80℃中4小时以上。待使用时，加入三倍体积的无水乙醇，置于-80℃中过夜，在4℃预冷的恒温高速离心机中13000rpm离心45分钟，随后使用预冷的75％乙醇洗涤沉淀两次，室温干燥5-10分钟，加入2.5μL 2×Frag/Prime Buffer(Vazyme,N402-01)，0.2μL gDNA eraser(康为,CW2582)，用无酶水补充至5μL，用移液枪上下吹打几次使沉淀溶解后，置于PCR仪中42℃反应5分钟，94℃片段化8分钟，产生100-200nt大小的RNA片段。

步骤2、RNA末端修复

在片段化的RNA样本中加入1.3μL无酶水，0.8μL T4 PNK反应缓冲液(NEB,M0201L)，0.5μL PNK酶，0.4μL RNase Inhibitor，充分混匀后置于PCR仪中37℃反应1小时，从而将RNA片段的3’末端修复为羟基，以便连接接头序列。

步骤3、接头序列预腺苷酸化

本实施例共提供了84种接头序列，具体如表1中的接头组1-1至1-42所示(本实施例选用了前42种接头中的任意一种，如果标记多个细胞，可以与后42种接头搭配使用，将更利于文库中碱基分布的均衡)。将SEQ ID NO:4至SEQ ID NO:45所示的序列提交给南京金斯瑞生物科技有限公司，公司会根据序列信息合成具体的接头组。

其中，接头组中的第一部分是N碱基，其是1个碱基的随机排列，所述碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶，目的是为了排除碱基的差异而引起的连接效率的差异；第二部分是转化率计算序列，其通式为DDDDDCDDCCD或DDDDDDCCDDC，D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶，C是未甲基化的胞嘧啶，可根据C的转化情况来计算转化率；第三部分是barcode(分样序列)，barcode(分样序列)为6个碱基的随机排列，且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶，可以用于区分不用的样本；第四部分为互补序列，包含与反转录引物互补的序列，其中所有C均为甲基化的胞嘧啶。

首先将接头序列的干粉用无酶水配制为100μM，使用DNA腺苷酸化试剂盒(NEB，E2610L)进行腺苷酸化反应。按照说明书中的要求进行操作，反应条件为65℃反应1小时，85℃反应5分钟终止反应，反应结束后可直接进行接下来的连接反应。

步骤4、接头序列的连接

在上述末端修复的RNA片段样品中加入1.2μL RNA连接反应缓冲液(NEB,M0373L)，6μL PEG8000(50％)，1μL T4 RNA ligase 2，truncated KQ酶，1μL RNase Inhibitor，0.8μL无酶水，2μL预腺苷酸化的接头序列。充分混匀后，16℃反应4小时，4℃过夜反应。反应结束后，短暂瞬离，70℃反应20分钟。

步骤5、RecJ消化，去除多余的接头

在上述的反应中，加入2.5μL NEB buffer(10×)，1μL RecJ(NEB，M0264S)和1.5μL无酶水，混匀后，置于PCR仪中37℃反应1小时。随后65℃反应20分钟终止反应。

步骤6、链酶亲和素磁珠的准备

取5μL Dynabead MyOne magnetic beads(Invitrogen，65002)于1.5mL的低吸附离心管中，用50μL的1×BW buffer(5mM Tris-HCl(pH 7.5)，500μM EDTA,1M NaCl，0.05％TritonX-100)清洗磁珠，手轻轻地弹离心管管壁，静置5分钟，将离心管至于磁力架上，静置2分钟使得溶液变得澄清，吸走上清，完成一次清洗。重复此步骤3次。

用50μL Bead-solution buffer A(50mM of NaCl，100mM of NaOH，0.1％TritonX-100)清洗磁珠一次，之后用50μL的Bead-solution buffer B(100mM NaCl，0.1％TritonX-100)清洗磁珠一次。每次清洗磁珠，均需要手弹离心管管壁充分混匀。

步骤7、链霉亲和素磁珠捕获带有接头的RNA

将上述的磁珠放在磁力架上，静置2分钟使得溶液变得澄清，吸走上清，加入RecJ消化后的混合液和等体积的2×BW buffer(10mM Tris-HCl(pH 7.5)，1M EDTA，2M NaCl，0.1％TritonX-100)，轻弹离心管管壁，混匀后置于旋转架上常温旋转15分钟。

瞬离一下，放到磁力架上，待溶液澄清后，吸走上清。加入50μL 1×BW buffer(5mMTris-HCl(pH 7.5)，500μM EDTA，1M NaCl，0.05％TritonX-100)，轻弹离心管管壁，混匀，放到磁力架上，静置2分钟使得溶液变得澄清，吸走上清。重复清洗两次，加入20μL的无酶水，充分混匀。

步骤8、亚硫酸氢盐处理

加入130μL的Bisulfite conversion(Zymo，R5001)，充分混匀后，置于PCR仪中，70℃5分钟，54℃45分钟，三个循环。

单细胞或者痕量RNA经过亚硫酸氢盐处理后，会断裂为片段，且含量极少，需要及时清除亚硫酸氢盐并且减少RNA的损失，这是构建该方法的关键。因此，本发明中，我们使用链霉亲和素磁珠捕获进行脱盐。但是，由于亚硫酸氢盐可能会影响磁珠的捕获效率，因此我们测试了不同的稀释倍数：不稀释，5倍稀释和10倍稀释。库检结果表明，5倍稀释，即加入600μL的无酶水，结果较好，文库峰图主峰在310bp附近之间，且qPCR的摩尔浓度最高，为5.5nmol/L(图2)。

步骤9、链霉亲和素磁珠再次捕获和在磁珠上脱盐和脱磺化

按照步骤6进行链霉亲和素磁珠的准备，将准备好的磁珠置于磁力架上，待溶液澄清后，吸走上清，加入上步混合液和等体积的2×BW buffer，轻弹离心管管壁，混匀后置于旋转架上常温旋转15分钟。

瞬离一下，放在磁力架上，待溶液澄清后，吸走上清，加入50μL 1×BW buffer清洗两次，加入50μL RNA Desulphonation Buffer(Zymo，R5001)，轻弹离心管壁，混匀后，室温放置30分钟。放在磁力架上，待溶液澄清后，吸走上清，用50μL 1×BW buffer清洗磁珠两次，加入20μL的无酶水，充分混匀。

步骤10、反转录

反转录的流程如图3所示，包括：一链合成、加入N4TSO引物和二链合成。具体来说，使用SMARTScribe^TMReverse Transcriptase(TAKARA，639538)试剂盒，加入6μL 5×First-stand buffer，2μL picoRT(序列信息详见表1)，充分混匀后，置于PCR仪中，75℃5分钟，37℃15分钟，25℃15分钟。

再加入2μL 5xFirst-stand buffer，1μL RNase Inhibitor，4μL dNTP Mix，4μLDTT，1.2μL N4TSO(其序列如表1中SEQ ID NO:1所示)，2.5μL SMARTScribe^TMReverseTranscriptase，放在PCR中，25℃5分钟，42℃90分钟，85℃10分钟，反应结束时，将样品放在提前放于冰水中的磁力架上，大约15秒，立即吸取上清，转移到新的200μL离心管中。

反转录结束后，用DNA clean beads(Vazyme,N411-02)纯化，溶解于36μL的无酶水中。

步骤11、PCR扩增

在上述纯化的产物中加入Index primer(NEBNext Index Primer forIllumina)，Universal primer(NEBNext Universal PCR Primer for Illumina)和KAPAHiFi Hotstart Readymix(KAPA biosystem，kk2602)，混匀后置于PCR仪中开始扩增，对于本方案可以选择14-18个循环，优选16个循环。PCR结束后用DNA clean beads纯化，溶解于适量的无酶水中，至此得到上机测序的甲基化文库。

实施例2：RNA m⁵C修饰的测序方法

本实施例参考实施例1中描述的步骤1-11进行，不同之处在于步骤3中使用的接头不同。

本实施例共合成42种接头序列，如表1中的接头组1-43至1-84所示(本实施例选用了后42种接头中的任意一种，如果标记多个细胞，可以与前42种接头搭配使用，将更利于文库中碱基分布的均衡)。将SEQ ID NO:46至SEQ ID NO:87所示的序列提交给南京金斯瑞生物科技有限公司，公司会根据序列信息合成具体的接头组。

实施例3：测序及数据分析

将实施例1和2中构建的单个卵母细胞RNA m⁵C文库通过NovaSeq PE150平台进行双端测序。测序下机得到的原始数据利用多种生物信息学软件进行处理和分析。具体来说，首先，通过软件cutadapt去除原始测序数据中的测序接头序列，随后根据文库结构特征，通过标准情况下R1端TSO序列和R2端的特定barcode序列对双端reads进行筛选。文库中经过特殊设计的接头连接在序列的固定位置，用于接头转化率的分析计算。接头转化率(conversion rate:CR)是根据转化率计算序列中的未甲基化胞嘧啶的转化情况确定的，计算公式为：其中cov代表各个位置上碱基的total coverage(即测序得到的reads数)，Ccount为该位置上测得为C的count数(即该位置的C碱基未被转化的reads数)。测序数据经过文库结构筛选后，利用软件Trimmomatic过滤去除碱基质量低于20和长度小于35nt的reads。软件FastQC对每个质控步骤的数据质量进行评估。随后利用软件meRanTK的meRanGh工具对初步质控后的双端读段进行参考基因组序列比对，斑马鱼zv10版本作为参考基因组(参数：-un-ds-mbp-fmo-mmr)。软件meRanTK的meRanCall工具用于基因组比对后RNA m⁵C位点的检测(参数：-mBQ 20-mr 0)。通过检测到的单个细胞内各个RNA m⁵C位点个数、在不同基因上的分布、甲基化水平等信息，分析不同时期单细胞RNA m⁵C位点的分布模式、分布基序、甲基化水平变化等特征，同时构建斑马鱼早期胚胎发育过程的RNA m⁵C图谱。

由于斑马鱼产卵多，易获得，易观察等特点，因此我们首先使用斑马鱼的卵母细胞按照实施例1和2中描述的步骤完成甲基化文库的构建，并检测文库的条带，在200-300bp处可见明显的聚集条带(图4A)。对甲基化文库的数据进行分析，可获得碱基信息情况图(图4B)。

进一步的，分析了接头和基因组(即，样本RNA)的转化情况，其中接头的转化率在99.72％左右，而样本RNA的转化率在99％以上，表示文库中未甲基化的胞嘧啶转化效率高(图5)。

对数据进一步分析发现，大部分都是单个m⁵C修饰位点(图6A)，不同重复样本的整体修饰水平一致，均为0.3左右(图6B)。大部分位点均富集在CDS区域(图6C)，且均匀分布于CDS区域(图6E)。但m⁵C位点的分布没有明显的序列偏好性(图6D)，这与已发表的斑马鱼胚胎bulk样本的位点分布特征是一致的。同时皮尔森相关系数分析结果表明，不同重复样本间m⁵C位点修饰水平的相关性较高，均在0.5以上(图6F)。

以上实验结果证实，使用本申请的方法以及接头组能够分析RNA m⁵C修饰，获得RNA m⁵C修饰的信息(例如，m⁵C修饰位点及其在不同基因上的分布等)。并且，通过接头组计算转化率(图5)，可以评估获得的RNA m⁵C修饰的信息准确性。此外，上述实验结果证实，使用实施例1或2的接头组，都能够获得单细胞RNA m⁵C修饰的信息。

实施例4：全转录组测序以及数据分析

本实施例参考实施例1中描述的步骤1-7进行，按照步骤1-7，链霉亲和素磁珠即可捕获带有接头序列的RNA。此时使用SMARTScribe^TMReverse Transcriptase(TAKARA，639538)试剂盒直接进行反转录得到cDNA，使用DNA clean beads进行纯化后，再进行PCR扩增纯化即可得到上机测序的转录组文库。

实验室构建的单个斑马鱼卵母细胞转录组文库通过Nova-PE150平台进行双端测序。与RNA m⁵C测序数据质控流程一致，测序下机得到的原始数据利用多种生物信息学软件进行处理和分析。首先软件cutadapt用于去除原始测序数据中的测序接头序列，随后根据文库结构特征，通过标准情况下R1端和R2端的固定序列对双端reads进行筛选。文库中经过特殊设计的接头连接在序列的固定位置，当多个单细胞混合测序时，用于来自不同细胞的转录本区分。测序数据经过文库结构筛选后，利用软件Trimmomatic过滤去除碱基质量低于20和长度小于35nt的reads。软件FastQC对每个质控步骤的数据质量进行评估。随后利用软件hisat2对初步质控后的双端读段进行参考基因组序列比对，斑马鱼zv10版本作为参考基因组(参数：--dta--rna-strandness RF)。Mapping到斑马鱼基因组上的reads通过bedtools工具进行转录组的注释。软件featureCounts用于斑马鱼exon上reads count的分析。各个基因的表达水平利用R计算的RPKM值进行归一化。计算公式为：RPKM＝(total exonreads)[mapped reads(millions)*exon length(KB)]。

转录组数据结果表明，利用该建库技术流程，可以实现单个细胞分辨率的转录组文库构建，不同重复之间的相关性很高(皮尔森相关系数>0.9)，且捕获到的有效信息在bulk文库中占比较大。这表明该技术下不仅可以对单个细胞内转录组信息进行有效测序，还可以根据其较高的分辨率克服细胞异质性对分析造成的影响，实现不同个体单细胞之间的差异分析。

SEQUENCE LISTING

<110> 中国科学院北京基因组研究所（国家生物信息中心）

<120> 一种单细胞RNA m5C修饰的分析方法

<130> IDC220038

<160> 87

<170> PatentIn version 3.5

<210> 1

<211> 26

<212> DNA

<213> artificial

<220>

<223> 链置换引物N4TSO

<220>

<221> misc_feature

<222> (20)..(23)

<223> n is a, c, g, or t

<400> 1

cacgacgctc ttccgatctn nnnggg 26

<210> 2

<211> 21

<212> DNA

<213> artificial

<220>

<223> 反转录引物picoRT

<400> 2

agacgtgtgc tcttccgatc t 21

<210> 3

<211> 58

<212> DNA

<213> artificial

<220>

<223> Universal primer

<400> 3

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 4

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-1

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 4

ndddddcddc cdattatgag atcggaagag cacacgtct 39

<210> 5

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-2

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 5

ndddddcddc cdtgatgtag atcggaagag cacacgtct 39

<210> 6

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-3

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 6

ndddddcddc cdttaggtag atcggaagag cacacgtct 39

<210> 7

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-4

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 7

ndddddcddc cdtgattaag atcggaagag cacacgtct 39

<210> 8

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-5

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 8

ndddddcddc cdatagtgag atcggaagag cacacgtct 39

<210> 9

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-6

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 9

ndddddcddc cdgttaatag atcggaagag cacacgtct 39

<210> 10

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-7

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 10

ndddddcddc cdtagattag atcggaagag cacacgtct 39

<210> 11

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-8

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 11

ndddddcddc cdatttgaag atcggaagag cacacgtct 39

<210> 12

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-9

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 12

ndddddcddc cdgattagag atcggaagag cacacgtct 39

<210> 13

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-10

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 13

ndddddcddc cdtagtttag atcggaagag cacacgtct 39

<210> 14

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-11

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 14

ndddddcddc cdggttatag atcggaagag cacacgtct 39

<210> 15

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-12

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 15

ndddddcddc cdtttgtaag atcggaagag cacacgtct 39

<210> 16

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-13

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 16

ndddddcddc cdagttaaag atcggaagag cacacgtct 39

<210> 17

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-14

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 17

ndddddcddc cdagttttag atcggaagag cacacgtct 39

<210> 18

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-15

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 18

ndddddcddc cdatgttaag atcggaagag cacacgtct 39

<210> 19

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-16

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 19

ndddddcddc cdttgtttag atcggaagag cacacgtct 39

<210> 20

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-17

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 20

ndddddcddc cdgtagagag atcggaagag cacacgtct 39

<210> 21

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-18

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 21

ndddddcddc cdgtttgtag atcggaagag cacacgtct 39

<210> 22

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-19

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 22

ndddddcddc cdgtgaaaag atcggaagag cacacgtct 39

<210> 23

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-20

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 23

ndddddcddc cdgtggttag atcggaagag cacacgtct 39

<210> 24

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-21

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 24

ndddddcddc cdgttttgag atcggaagag cacacgtct 39

<210> 25

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-22

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 25

ndddddcddc cdtgtatgag atcggaagag cacacgtct 39

<210> 26

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-23

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 26

ndddddcddc cdgagtggag atcggaagag cacacgtct 39

<210> 27

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-24

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 27

ndddddcddc cdattgatag atcggaagag cacacgtct 39

<210> 28

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-25

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 28

ndddddcddc cdatgagtag atcggaagag cacacgtct 39

<210> 29

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-26

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 29

ndddddcddc cdatttttag atcggaagag cacacgtct 39

<210> 30

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-27

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 30

ndddddcddc cdtaaaagag atcggaagag cacacgtct 39

<210> 31

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-28

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 31

ndddddcddc cdtaattaag atcggaagag cacacgtct 39

<210> 32

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-29

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 32

ndddddcddc cdtattggag atcggaagag cacacgtct 39

<210> 33

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-30

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 33

ndddddcddc cdtatgatag atcggaagag cacacgtct 39

<210> 34

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-31

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 34

ndddddcddc cdtatttaag atcggaagag cacacgtct 39

<210> 35

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-32

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 35

ndddddcddc cdtaaggtag atcggaagag cacacgtct 39

<210> 36

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-33

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 36

ndddddcddc cdtgtattag atcggaagag cacacgtct 39

<210> 37

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-34

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 37

ndddddcddc cdaggtagag atcggaagag cacacgtct 39

<210> 38

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-35

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 38

ndddddcddc cdttttgaag atcggaagag cacacgtct 39

<210> 39

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-36

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 39

ndddddcddc cdggatttag atcggaagag cacacgtct 39

<210> 40

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-37

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 40

ndddddcddc cdtaggtaag atcggaagag cacacgtct 39

<210> 41

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-38

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 41

ndddddcddc cdttttttag atcggaagag cacacgtct 39

<210> 42

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-39

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 42

ndddddcddc cdtagagaag atcggaagag cacacgtct 39

<210> 43

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-40

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 43

ndddddcddc cdgttatgag atcggaagag cacacgtct 39

<210> 44

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-41

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 44

ndddddcddc cdtgaggtag atcggaagag cacacgtct 39

<210> 45

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-42

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 45

ndddddcddc cdaagaggag atcggaagag cacacgtct 39

<210> 46

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-43

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 46

nddddddccd dcattatgag atcggaagag cacacgtct 39

<210> 47

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-44

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 47

nddddddccd dctgatgtag atcggaagag cacacgtct 39

<210> 48

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-45

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 48

nddddddccd dcttaggtag atcggaagag cacacgtct 39

<210> 49

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-46

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 49

nddddddccd dctgattaag atcggaagag cacacgtct 39

<210> 50

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-47

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 50

nddddddccd dcatagtgag atcggaagag cacacgtct 39

<210> 51

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-48

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 51

nddddddccd dcgttaatag atcggaagag cacacgtct 39

<210> 52

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-49

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 52

nddddddccd dctagattag atcggaagag cacacgtct 39

<210> 53

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-50

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 53

nddddddccd dcatttgaag atcggaagag cacacgtct 39

<210> 54

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-51

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 54

nddddddccd dcgattagag atcggaagag cacacgtct 39

<210> 55

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-52

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 55

nddddddccd dctagtttag atcggaagag cacacgtct 39

<210> 56

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-53

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 56

nddddddccd dcggttatag atcggaagag cacacgtct 39

<210> 57

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-54

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 57

nddddddccd dctttgtaag atcggaagag cacacgtct 39

<210> 58

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-55

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 58

nddddddccd dcagttaaag atcggaagag cacacgtct 39

<210> 59

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-56

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 59

nddddddccd dcagttttag atcggaagag cacacgtct 39

<210> 60

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-57

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 60

nddddddccd dcatgttaag atcggaagag cacacgtct 39

<210> 61

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-58

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 61

nddddddccd dcttgtttag atcggaagag cacacgtct 39

<210> 62

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-59

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 62

nddddddccd dcgtagagag atcggaagag cacacgtct 39

<210> 63

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-60

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 63

nddddddccd dcgtttgtag atcggaagag cacacgtct 39

<210> 64

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-61

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 64

nddddddccd dcgtgaaaag atcggaagag cacacgtct 39

<210> 65

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-62

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 65

nddddddccd dcgtggttag atcggaagag cacacgtct 39

<210> 66

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-63

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 66

nddddddccd dcgttttgag atcggaagag cacacgtct 39

<210> 67

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-64

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 67

nddddddccd dctgtatgag atcggaagag cacacgtct 39

<210> 68

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-65

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 68

nddddddccd dcgagtggag atcggaagag cacacgtct 39

<210> 69

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-66

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 69

nddddddccd dcattgatag atcggaagag cacacgtct 39

<210> 70

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-67

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 70

nddddddccd dcatgagtag atcggaagag cacacgtct 39

<210> 71

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-68

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 71

nddddddccd dcatttttag atcggaagag cacacgtct 39

<210> 72

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-69

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 72

nddddddccd dctaaaagag atcggaagag cacacgtct 39

<210> 73

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-70

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 73

nddddddccd dctaattaag atcggaagag cacacgtct 39

<210> 74

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-71

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 74

nddddddccd dctattggag atcggaagag cacacgtct 39

<210> 75

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-72

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 75

nddddddccd dctatgatag atcggaagag cacacgtct 39

<210> 76

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-73

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 76

nddddddccd dctatttaag atcggaagag cacacgtct 39

<210> 77

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-74

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 77

nddddddccd dctaaggtag atcggaagag cacacgtct 39

<210> 78

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-75

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 78

nddddddccd dctgtattag atcggaagag cacacgtct 39

<210> 79

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-76

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 79

nddddddccd dcaggtagag atcggaagag cacacgtct 39

<210> 80

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-77

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 80

nddddddccd dcttttgaag atcggaagag cacacgtct 39

<210> 81

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-78

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 81

nddddddccd dcggatttag atcggaagag cacacgtct 39

<210> 82

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-79

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 82

nddddddccd dctaggtaag atcggaagag cacacgtct 39

<210> 83

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-80

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 83

nddddddccd dcttttttag atcggaagag cacacgtct 39

<210> 84

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-81

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 84

nddddddccd dctagagaag atcggaagag cacacgtct 39

<210> 85

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-82

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 85

nddddddccd dcgttatgag atcggaagag cacacgtct 39

<210> 86

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-83

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 86

nddddddccd dctgaggtag atcggaagag cacacgtct 39

<210> 87

<211> 39

<212> DNA

<213> artificial

<220>

<223> 接头组1-84

<220>

<221> misc_feature

<222> (1)..(1)

<223> n is a, c, g, or t

<400> 87

nddddddccd dcaagaggag atcggaagag cacacgtct 39

Claims

1.一种分析RNA(例如，mRNA)m⁵C修饰的接头组，所述接头组包含1个或多个接头，每个接头包含1条核酸链，所述核酸链包含：N碱基、转化率计算序列、分样序列和互补序列；并且，所述核酸链的5’端具有游离的磷酸基团，3’端或3’部分具有可与第二结合组分(例如链霉亲和素)相互作用的第一结合组分(例如，生物素)；其中，

所述N碱基选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶；

所述转化率计算序列包含至少3个未甲基化的胞嘧啶；

所述分样序列为4-10个碱基的随机排列，所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶；

2.权利要求1所述的接头组，其中，不同的核酸链中的N碱基相同或不同；

优选地，不同核酸链中的N碱基各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。

3.权利要求1或2所述的接头组，其中，所述转化率计算序列具有选自下列的一项或多项特征：

(1)所述转化率计算序列包含至少3个未甲基化的胞嘧啶，且所述未甲基化的胞嘧啶连续或不连续的排列；

(2)所述转化率计算序列的长度为4nt-21nt，例如，4nt，5nt，6nt，7nt，8nt，9nt，10nt，13nt，15nt，17nt，19nt或21nt；

(3)所述转化率计算序列包含通式：DDDDDCDDCCD和或DDDDDDCCDDC，其中，D各自独立地选自腺嘌呤、鸟嘌呤或胸腺嘧啶。

4.权利要求1-3任一项所述的接头组，其中，所述互补序列中的胞嘧啶为甲基化的胞嘧啶；

优选地，所述互补序列的长度为10nt-30nt，例如，10nt-15nt，15nt-20nt，20nt-25nt，25nt-30nt；

优选地，反转录引物的序列如SEQ ID NO:2所示。

5.权利要求1-4任一项所述的接头组，其中，所述分样序列为6个碱基的随机排列，且所述碱基选自腺嘌呤、鸟嘌呤或胸腺嘧啶。

6.一种试剂盒，其含有权利要求1-5任一项所述的接头组；

任选地，所述试剂盒还包含：细胞裂解液，用于RNA片段化的试剂，用于RNA末端修复的试剂(例如，PNK酶)，用于DNA腺苷酸化的试剂，用于连接RNA和所述接头组的试剂(例如，T4RNA连接酶)，带有第二结合组分(例如，链霉亲和素)的磁珠，亚硫酸氢盐，核酸外切酶(例如，RecJ)，用于RNA反转录的试剂，用于建立RNA文库的试剂，用于测序的引物，或其任意组合。

7.一种用于分析单细胞RNA m⁵C修饰的方法，所述方法包括：

(1)提供含有RNA的单细胞样品，裂解所述单细胞以获得RNA；

(2)将步骤(1)获得的RNA打断，并去除3’端的磷酸基团，以使得3’端具有游离的羟基基团；

(3)将权利要求1-5任一项所述的接头组腺苷酸化；

8.权利要求7的方法，所述方法具有选自下列的一项或多项特征：

(1)在步骤(2)中，在允许RNA打断的条件下，使RNA与打断试剂接触，以产生RNA片段；

(2)在步骤(2)中，在允许RNA末端修复的条件下，使RNA与末端修复的试剂接触，以使得RNA的3’端具有游离的羟基基团；

(3)在步骤(3)中，在允许腺苷酸化的条件下，使权利要求1-5任一项所述的接头组与用于DNA腺苷酸化的试剂接触，以使得接头组腺苷酸化；

(4)在步骤(4)中，所述连接酶是T4 RNA连接酶；

(5)在步骤(4)之后，使RNA-接头复合物与核酸外切酶(例如，RecJ酶)接触，以去除多余的接头；

(6)在步骤(4)之后，使RNA-接头复合物与含有第二结合组分(例如，链霉亲和素)的磁珠接触，以捕获RNA-接头复合物；

(7)在步骤(5)中，将所述RNA-接头复合物与亚硫酸氢盐溶液接触后，使RNA-接头复合物与含有第二结合组分(例如，链霉亲和素)的磁珠接触，然后进行脱磺化(例如，使用脱磺化液)，以使得所述RNA-接头复合物中存在的未甲基化的胞嘧啶转化为尿嘧啶；

(8)所述反转录酶为M-MLV反转录酶或者SMARTScribe^TM反转录酶；

(9)反转录引物的序列如SEQ ID NO:2所示；

(10)链置换引物具有如SEQ ID NO:1所示的通式，其中，N各自独立地选自腺嘌呤、鸟嘌呤、胸腺嘧啶或胞嘧啶。

9.权利要求8的方法，其中，所述方法具有选自下列的一项或多项特征：

(1)所述亚硫酸氢盐处理后的反应混合液与无酶水的比例为1：4；

(2)所述打断试剂为2×Frag/Prime Buffer；

(3)所述末端修复的试剂为PNK酶；

(4)所述DNA腺苷酸化的试剂为腺苷酸化试剂(例如，腺苷酸化反应试剂)；

(5)所述核酸外切酶为RecJ酶。

10.一种用于分析RNA m⁵C修饰的方法，所述方法包括：

(a)在允许核酸连接的条件下，使权利要求1-5任一项的接头组与待分析的RNA，连接酶(例如，T4 RNA连接酶)接触，以形成RNA-接头复合物；

(b)将步骤(a)获得的产物中存在的未甲基化的胞嘧啶转化为尿嘧啶；

(c)对步骤(b)获得的产物进行反转录，从而产生双链cDNA；