CN114438168A

CN114438168A - 一种全转录组水平rna结构检测方法及其应用

Info

Publication number: CN114438168A
Application number: CN202011225654.6A
Authority: CN
Inventors: 张强锋; 朴美玲
Original assignee: Tsinghua University
Current assignee: Xunjing Shengke Beijing Intelligent Technology Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2022-05-06

Abstract

本发明涉及一种RNA结构检测方法及其应用，属于生物技术领域。本发明通过在RNA结构检测方法包括去除背景逆转录终止信号的步骤，降低了结构分数计算中的假阳性信号，从而提高检测方法的准确性，使得能够以非常低的样品量进行体内细胞的RNA结构分析，并进一步评估细胞的功能状态。

Description

一种全转录组水平RNA结构检测方法及其应用

技术领域

本发明属于生物技术领域，具体涉及一种全转录组水平RNA结构检测方法及其应用。

背景技术

RNA具有不同的功能，如：作为信使传递遗传信息，作为核酶催化反应等等。RNA分子在其整个生命周期中并且在不同的亚细胞位置均受到精确调节。复杂且灵活的结构是RNA分子的功能多样性和精细调节的核心。RNA结构的错误折叠能够干扰可变剪接、翻译、RNA修饰和编辑以及RNA-蛋白质相互作用等过程，从而引起疾病。

RNA结构检测方法利用了特异性修饰单链核苷酸的化学试剂。修饰位点能够干扰逆转录(RT)的进行，导致RT停止或突变，因此能够通过测序和生物信息学分析方法检测到修饰位点信息，从而获得RNA结构信息。大多数试剂只能检测一个或两个碱基的结构信息；例如，硫酸二甲酯(DMS)修饰单链胞嘧啶和腺嘌呤，乙二醛修饰单链鸟嘌呤、胞嘧啶和腺嘌呤，并且乙氧二羟丁酮修饰单链鸟嘌呤。引物延伸的选择性2-羟基酰化分析法(SHAPE)试剂能够修饰单链区段内核糖的2'OH基团，并能获得所有四种核苷酸的结构信息。

全局RNA结构检测研究已经揭示了功能性RNA位点处往往存在结构差异，例如蛋白质和miRNA结合位点，并且已有研究表明RNA结构能够参与调节RNA的剪接、翻译和降解过程。值得注意的是，几项研究已经表明了RNA序列可以在体内与体外、在不同的亚细胞区间以及在胚胎发生的不同阶段形成不同的结构。实际上，细胞中的许多因素可以影响RNA结构，包括pH、阳离子浓度、内源RNA修饰(例如，甲基化、乙酰化)以及与蛋白质和/或其他RNA的相互作用。因此，在其最相关的自然环境中研究RNA结构对于揭示RNA功能和调节机制至关重要。

然而，目前最先进的RNA结构检测方法通常需要大量RNA作为起始量，这会限制其实际应用。例如，icSHAPE和Structure-seq2的RNA文库的构建需要大约10⁷个细胞，这对于罕见的原代细胞和许多组织样品的生物学研究是难以实现的。因此，除了实验上易收集的斑马鱼早期胚胎和果蝇卵巢的一些研究之外，迄今为止的RNA结构检测研究仅限于培养的细胞系。然而，细胞系中的细胞环境和由此生成的RNA结构可能显著偏离原代样品，从而使得其结果不能真实反应细胞的功能状态。

发明内容

为了解决这一障碍，我们开发了smartSHAPE(small amount random RT icSHAPE，小量随机RT icSHAPE)，一种基于icSHAPE方法改进的新型低起始量RNA二级结构检测方法。

因此，

本发明第一方面，提供一种RNA结构检测方法，其中，所述方法包括：

1、获得包含RNA的样本；2、smartSHAPE库准备；3、RNA结构检测和分析，其中，所述步骤2smartSHAPE库准备包括：(1)、RNA修饰和制备；(2)RNA逆转录，去除非修饰位点引起的逆转录终止信号(premature RT stops)，和cDNA富集。

优选的，所述RNA结构检测方法的步骤2还包括(3)、接头连接，第二链合成，和扩增。更优选的，所述接头连接包括3’接头连接和5’接头连接。

优选的，所述背景逆转录终止信号由非RNA修饰位点导致。更优选的，所述背景逆转录终止信号可能源于内源修饰(例如m¹A修饰)、局部结构(例如G-四链体)，或者源于逆转录酶的随机脱落。

更优选的，采用核糖核酸酶(ribonuclease，RNase)消化去除背景逆转录终止信号，更优选的，采用RNase I消化去除背景逆转录终止信号。

优选的，所述逆转录(RT)引物序列为5’-NNNNNN-3’、5’-NNWNNWNN-3’、5’-TTTTTTTTVN-3’。优选的，利用标记试剂对RNA进行修饰，更优选的，所述标记试剂为细胞膜穿透性试剂，更优选的，所述标记试剂选用硫酸二甲酯(DMS)、1-甲基-7-硝基靛红酸酐(1M7)、2-甲基烟酸咪唑化物-叠氮化物(NAI-N3)或乙氧二羟丁酮；更为优选的，标记试剂选用2-甲基烟酸咪唑化物-叠氮化物(NAI-N3)。

优选的，cDNA富集采用磁珠进行富集，更优选的，所述磁珠为链霉亲和素磁珠，例如MyOne C1磁珠。

优选的，所述RNA结构为RNA二级结构。

优选的，所述RNA为全长RNA；进一步地，RNA为转录组RNA。可以是长链RNA，例如mRNA、lncRNA、rRNA等，也可以包含很多小RNA，例如小于200nt的小RNA，蛋白质结合RNA，作为Dicer作用底物的RNA等等。

优选的，所述RNA可来源于任意细胞、病毒等，优选的，所述细胞包括但不仅限于实验室培养的细胞系，活体细胞，原代细胞、哺乳动物的早期胚胎、细菌、真菌以及各种感染后的细胞，例如病毒、细菌、真菌等感染后的细胞，更优选的，所述活体细胞可以是任意的体细胞、生殖细胞，例如上皮细胞、真皮细胞、腺体细胞、血液来源的细胞、骨细胞、免疫细胞(T细胞、B细胞、NK细胞、巨噬细胞等等)、受精卵等等。

所述RNA结构检测方法还包括利用计算管道对smartSHAPE分数进行计算处理步骤。所述计算处理步骤包括：1)去除3'接头；2)去除重复的读段；3)去除分子标签；4)将干净的读段比对到rRNA标准序列；5)将未比对到rRNA序列的读段比对到基因组；6)使用icSHAPE-pipe sam2tab将Sam文件转换成.tab文件；7)使用icSHAPE-pipecalcSHAPENoCont计算smartSHAPE分数。

优选的，所述步骤7)中通过在所有外显子上以滑动窗口方式对RT停止计数进行归一化和缩尾处理来计算smartSHAPE分数，并且将覆盖率低于100的碱基的分数定义为空(NULL)。

更优选的，所述步骤7)中的参数为：-N NAI_rep1.tab,NAI_rep2.tab；-sizechrNameLength.txt；-out reactivity.gTab；-ijf sjdbList.fromGTF.out.tab。

优选的，所述检测方法在文库扩增前不包括胶回收步骤。

优选的，所述计算管道的文库构建中不需要对照组来去掉背景信号。

优选的，所述RNA结构检测方法中可以少至1ng的起始量RNA(10⁴～10⁵个细胞)对RNA结构进行检测。

本发明还提供一种上述RNA结构检测方法的应用，所述应用包括根据上述检测方法的结果评估细胞的功能状态，研究RNA对早期发育的影响，癌症的发生和发展等等。

优选的，所述功能状态包括各种生理及异常状态，例如，细胞炎症、损伤、缺血、免疫应激状态、早期发育过程、感染、癌症增殖等等。更优选的，所述感染由病毒、细菌、真菌等引起。

优选的，所述细胞来源任意组织器官，例如皮肤系统、血液淋巴系统、免疫系统、心血管系统、消化系统、呼吸系统、泌尿系统、骨骼系统、生殖系统、神经系统等等。

优选的，所述细胞包括免疫细胞，例如B细胞、T细胞、NK细胞、巨噬细胞等。

优选的，所述应用不是疾病的诊断和治疗方法。

本发明还提供一种细胞功能状态的评估方法，所述评估方法包括利用上述任意的检测方法对细胞的RNA结构进行检测，根据检测结果评估细胞的功能状态。

优选的，所述细胞功能状态是细胞炎症、损伤、缺血、免疫应激状态、早期发育过程、感染、癌症增殖等等，更优选的，所述感染由病毒、细菌、真菌等引起。

更优选的，所述细胞功能状态是细胞的免疫应激状态。例如免疫细胞的免疫应激状态。更进一步优选的，所述免疫细胞，包括例如B细胞、T细胞、NK细胞、巨噬细胞等。

本发明的有益技术效果在于：

1、本发明去除背景逆转录终止信号，降低了背景逆转录终止信号在结构分数计算中引起的假阳性信号，从而提高检测方法的准确性。

2、本发明采取了不同的文库构建策略，其中我们把随机RT和珠上单链DNA文库构建相结合，大大减少了由多个纯化步骤引起的损失。

3、SmartSHAPE需要少至1ng的起始量RNA(10⁴～10⁵个细胞)，使得能够以非常低的样品量进行体内细胞的RNA结构分析，可将其应用于任意的细胞，例如罕见的原代细胞、哺乳动物早期胚胎以及患者活检样本。

4、我们应用smartSHAPE来描述来自细菌感染模型小鼠的肠道巨噬细胞的全转录组RNA二级结构，其中每个样品仅有100ng总RNA作为起始量。我们揭示了免疫应激后两种巨噬细胞群之间RNA结构的差异，其富含免疫应答相关基因，并提供了通过RNA结构调节免疫应答的证据。

5、本发明smartSHAPE是一种用于研究全转录组体内RNA二级结构的有效、准确和稳健的方法，只需要非常少量的RNA作为起始量。我们的方法整合了随机逆转录、RNase I消化和珠上文库构建，以提高文库构建的效率并产生准确的RNA结构数据。本发明结果表明，smartSHAPE通过先RNase I消化后磁珠富集成功地去除背景逆转录终止信号，并且即使没有DMSO组作为对照，也实现了优于icSHAPE的准确度。

6、鉴于本发明的方法对RNA起始材料的最低要求，非常有希望将smartSHAPE应用于研究RNA结构在潜在的许多其他生物环境中所起的广泛作用。例如，母体RNA降解对于早期发育至关重要，并且一些研究已经报道了RNA结构在斑马鱼早期胚胎发生期间在母体RNA降解中起调节作用。现有技术中由于样品量有限，哺乳动物早期胚胎中的RNA结构组尚未被研究，而本发明可以通过smartSHAPE来实现。另外，已知RBP结合的失调参与了许多癌症的发生和发展，SmartSHAPE可提供一种可行手段，通过使用来自临床的罕见活检样品从RNA结构角度来研究这些失调。另外，当与富集(例如，通过反义寡核苷酸或蛋白质抗体)组合使用时，预期smartSHAPE会有助于发现并功能验证基于RNA结构的调控作用，这些RNA包括低水平表达的RNA(如许多lncRNA)、应激颗粒中的RNA种类和由RBP结合的RNA片段等等。

以上只是概括了本发明的一些方面，不是也不应该认为是在任何方面限制本发明。除非特别说明，本发明的实践将采取细胞生物学、细胞培养、分子生物学和免疫学等的传统技术。这些技术在以下文献中进行了详细的解释。例如：

1、Xu,H.et al.Notch-RBP-J signaling regulates the transcription factorIRF8 to promote inflammatory macrophage polarization.Nat Immunol 13,642-650,doi:10.1038/ni.2304(2012)；

2、Li,P.,Shi,R.&Zhang,Q.C.icSHAPE-pipe:A comprehensive toolkit foricSHAPE data analysis and evaluation.Methods 178,96-103,doi:10.1016/j.ymeth.2019.09.020(2020)；

3、Bolger,A.M.,Lohse,M.&Usadel,B.Trimmomatic:a flexible trimmer forIllumina sequence data.Bioinformatics 30,2114-2120,doi:10.1093/bioinformatics/btu170(2014)；

4、Langmead,B.&Salzberg,S.L.Fast gapped-read alignment withBowtie2.Nat Methods 9,357-359,doi:10.1038/nmeth.1923(2012)；

5、Dobin,A.et al.STAR:ultrafast universal RNA-seqaligner.Bioinformatics 29,15-21,doi:10.1093/bioinformatics/bts635(2013)；

6、Pedregosa,F.et al.Scikit-learn:Machine Learning in Python.J MachLearn Res 12,2825-2830(2011)；

7、Reuter,J.S.&Mathews,D.H.RNA structure:software for RNA secondarystructure prediction and analysis.BMC Bioinformatics 11,129,doi:10.1186/1471-2105-11-129(2010)；

8、Spitale,R.C.et al.Structural imprints in vivo decode RNA regulatorymechanisms.Nature 519,486-490,doi:10.1038/nature14263(2015)。

本说明书提到的所有专利和出版物都是通过参考文献作为整体而引入本发明的。本领域的技术人员应认识到，对本发明可作某些改变并不偏离本发明的构思或范围。下面的实施例进一步详细说明本发明，不能认为是限制本发明或本发明所说明的具体方法的范围。

附图说明

图1：smartSHAPE文库制备示意图；

图2：RNA打断和3’DNA接头连接步骤的优化，其中图2a为NAI-N3修饰或未经修饰的HEK293T总RNA在不同打断条件下的产率和片段分布；图2b为三种不同结构的接头示意图，包括短接头、包含10碱基分子barcode的长接头、在长接头的5’端增加一个随机核苷酸的接头；图2c为CircLigase和T4 DNA Ligase在一个合成的DNA分子的3’端连接接头的连接产物。

图3：smartSHAPE中经RNase I消化对背景噪音的去除，其中图3a为RNase I消化和磁珠富集去除背景噪音的示意图；图3b为28S核糖体RNA中一个已知的m¹A修饰所在位点，图3c为在该m¹A位点上游设计引物，背景逆转录信号检测；图3d为内源性m¹A或m³U修饰位点已知的m1A修饰位点处，DMSO组和NAI-N3组的逆转录终止信号差异；图3e为18S核糖体RNA中的一段序列，从左至右分别代表了只用NAI-N3组计算的smartSHAPE值、用NAI-N3组和DMSO组计算的icSHAPE值；图3f计算了18S核糖体RNA两种SHAPE值对应的ROC曲线。

图4：RNase I消化能够有效去除背景信号，其中图4a是合成的RNA序列和结构，图4b为分别在体外折叠两条合成的RNA后，用NAI-N3进行修饰后进行逆转录，对逆转录产物同时进行RNase I消化和磁珠富集时，去除m¹A修饰引起的背景逆转录信号；图4c为DMSO组建库流程；图4d为所有核糖体RNA位点的DMSO组和NAI-N3组的逆转录终止信号差值分布，不同直线代表核糖体RNA中所有已知内源修饰位点的终止信号差异均值；图4e为背景信号异常高的位点处，不同NAI-N3文库中逆转录终止信号的分布。

图5：使用不同的起始量RNA时smartSHAPE的覆盖率和准确率，其中图5a为四种不同起始量smartSHAPE文库和icSHAPE文库在RPS16转录本每个位点上的逆转录终止信号；图5b为四种不同起始量smartSHAPE文库以及icSHAPE文库在不同测序深度下检测到的高覆盖度转录本数目；图5c为四种不同起始量smartSHAPE文库和icSHAPE文库在每一步处理过程中对应的读段数目；图5d为四种不同起始量smartSHAPE文库和icSHAPE文库在18S和28S核糖体RNA中的ROC曲线图5e为四种不同起始量smartSHAPE文库和icSHAPE文库在XBP1结构元件的AUC，对应该位点的SHAPE值。

图6：不同的起始量smartSHAPE文库具有很高的可重复性和文库复杂度，其中图6a为四种不同起始量(1ng、5ng、25ng和125ng)的smartSHAPE文库和icSHAPE文库SHAPE值的相关性；图6b为四种不同起始量(1ng、5ng、25ng和125ng)的smartSHAPE文库及icSHAPE文库中每个转录本中具有SHAPE值的位点在不同文库技术重复间的Pearson相关性的分布；图6c为不同测序深度下四种不同起始量smartSHAPE文库中，每个转录本平均逆转录终止信号的累积分布曲线。

图7：smartSHAPE文库检测到与icSHAPE类似的结构特点，其中图7a为smartSHAPE和icSHAPE文库在起始密码子上游30个碱基至下游100个碱基区间及终止密码子上游100个碱基至下游30个碱基区间，每个位点的平均SHAPE值；图7b为四种不同起始量smartSHAPE文库及icSHAPE文库中A、U、G、C四种不同碱基的SHAPE值的分布；图7c为smartSHAPE和icSHAPE文库在m⁶A修饰附近，每个位点的平均SHAPE值；图7d为smartSHAPE文库及icSHAPE文库中不同RNA种类或区域的Gini指数的分布。

图8：利用smartSHAPE检测小鼠体内肠道巨噬细胞RNA结构，其中图8a为小鼠巨噬细胞的分离和RNA二级结构检测流程图；图8b为两种巨噬细胞smartSHAPE文库中高覆盖率转录本的数目，即在超过80％的位点覆盖度超过100的转录本数目；图8c为两种巨噬细胞smartSHAPE文库和icSHAPE文库在Xbp1已知结构元件的AUC。

图9：通过流式细胞仪基于免疫相关的基因MHCII、CD45、SiglecF、CD11b、CD11c、CD64和Ly6C分选出Ly6C^lo组织常驻巨噬细胞和Ly6C^hi促炎巨噬细胞。

图10：巨噬细胞smartSHAPE数据的准确性，其中图10a为两种巨噬细胞smartSHAPE文库和icSHAPE文库对于SRP RNA的AUC；图10b为对于Rfam数据库中60个已知的RNA结构，分别计算了两种巨噬细胞smartSHAPE数据和小鼠胚胎干细胞icSHAPE数据在每个结构中的ROC曲线和对应的曲线下面积，并在图中展示了每个文库对应的AUC的分布。

具体实施方式

下面结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明技术方案的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

实施例1：全转录组水平RNA结构检测方法

在icSHAPE中，NAI-N3用于在单链区段体内修饰RNA。然后将RNA片段化，连接至3'接头，并通过逆转录、循环连接(circligation)和扩增转化为双链DNA文库。值得注意的是，icSHAPE文库构建采用多个胶回收步骤和柱纯化步骤，这导致RNA样品损失，使得难以或不可能分析具有低起始量RNA的样品。即使对于柱和凝胶纯化分别具有80％和50％的高回收率，我们通常在七个柱纯化步骤和两个凝胶尺寸选择步骤后仅获得5％的产率。

为了使起始材料的损失最小化，我们开发了smartSHAPE，其结合了随机引发的逆转录、珠上反应和单链DNA文库构建(参见图1)。随机引物和寡聚dT的混合物能够确保逆转录产物的无偏覆盖。在icSHAPE中，建库前先用Zn²⁺对RNA进行打断，而在smartSHAPE中，我们利用逆转录反应体系中的Mg²⁺进行弱打断。与Zn²⁺强打断相比，Mg²⁺弱打断不仅可以减少RNA的降解，还可以与引物退火步骤同时进行，减少一次柱纯化的步骤(参见图2a)。在随机引发的逆转录后，对RNA-cDNA杂合体进行RNase I消化以除去背景信号(参见下文)，并使用链霉亲和素珠富集有修饰的杂合体。然后使杂合体变性，洗脱并纯化cDNA。

随后的单链DNA建库流程大多在磁珠上进行，原有的胶回收及柱纯化步骤可以由简单的磁珠清洗替代，极大地提高了建库效率，并简化了流程。具体来说，通过CircLigase或T4 DNA连接酶将生物素化的接头连接到cDNA片段的3'末端，使其能够用链霉亲和素珠固定(参见图2b、c)。我们观察到CircLigase和T4 DNA连接酶两者的连接效率均超过50％，两种连接酶的连接效率相当。在连接了3’接头后，我们设计与接头互补的引物，通过延伸生成二链。最后，通过T4 DNA酶连接5’端接头，并对洗脱下来的具有完整接头的文库进行扩增得到最终的测序文库。综上，smartSHAPE方法仅包括两个柱纯化步骤而没有胶回收步骤。因此，smartSHAPE不仅将所需的起始量RNA从约1μg减少到低至1ng(RNA需求减少1,000倍)，而且将处理时间从4天缩短到2天。

具体如下：

一、细胞培养：

将HEK293T细胞维持在补充有10％胎牛血清(FBS)和1％青霉素-链霉素的具有高葡萄糖的DMEM培养基(Gibco)中。

二、smartSHAPE库准备：

1、标记试剂NAI-N3修饰和RNA制备。

通过NAI-N3在体内修饰RNA。简言之，在室温下在1×PBS中冲洗并刮擦细胞。然后将细胞团块，重悬于450μl的1×PBS中，并与50μl的1M NAI-N3或50μl的DMSO混合(作为未处理组)。反应物在37℃下旋转孵育5分钟，然后在4℃下以2500g离心1分钟后终止。将细胞重悬并用500μl的Trizol(Invitrogen)溶解，并通过异丙醇沉淀分离总RNA。用poly-Aselection(Ambion)或RiboErase(KAPA)分离Poly(A)⁺RNA。将RNA样品与1μl的RiboLock和2μl的185mM Dibo-生物素在37℃下以1000r.p.m在混匀仪(Eppendorf)中孵育2小时。ZymoRNA Clean&Concentrator-5柱用于纯化。

2、逆转录、RNase消化、富集和3'接头连接。

3.5μl的RT引物混合物(50μM 5’-NNNNNN-3’、50μM 5’-NNWNNWNN-3’和6μM5’-TTTTTTTTVN-3’)和3μ的5×第一链缓冲液(Life Technologies)加入到8.5μl的生物素化的RNA样品中。将样品加热至85℃持续5分钟，然后缓慢冷却至4℃(每秒0.1℃)以进行引物退火和弱片段化。向具有引物的RNA提供0.75μl的RiboLock、1μl的100mM DTT、1μl的5×第一链缓冲液和1.25μl的SuperScript III(Life Technologies)用于随机RT。cDNA延伸在4℃下进行2分钟，在15℃下进行3分钟，在25℃下进行10分钟，在42℃下进行45分钟，并且在50℃下进行25分钟。向RT产物中加入5μl的RNase I(Thermo Fisher Scientific)、3μl的10×TNF缓冲液和2μl的H₂O，并在37℃下孵育30分钟。在cDNA延伸后，样品应保持在37℃下以避免变性条件。

MyOne C1磁珠(Invitrogen)(20μl/样品)通过用1ml的磁珠结合缓冲液(100mMTris-HCl pH7.0、1M NaCl、10mM EDTA)洗涤三次并重悬于供应有1μl RiboLock的10μl的磁珠结合缓冲液中来制备。RNase I消化产物与预洗涤的珠混合，并在室温下旋转孵育45分钟。在用500μl的洗涤缓冲液(100mM Tris pH7.0、4M NaCl、10mM EDTA和0.2％Tween-20)洗涤五次并用500μl的1×PBS洗涤两次后，将与cDNA样品结合的磁珠用40μl的H₂O重悬。通过添加5μl的1M NaOH洗脱cDNA，并在混匀仪中以1000r.p.m在70℃下孵育15分钟以完全消化RNA。将样品立即置于磁体上，并将45μl的cDNA洗脱液移至新管中并加入5μl的1M HCl。然后用Zymo DNA Clean&Concentrator-5柱纯化洗脱液。在RNase I消化后，将DMSO组直接孵育并用NaOH纯化。将纯化的样品与1μl(1U)的FastAP(Thermo Fisher Scientific)、3μl的10×CircLigase II(Epicentre)和1.5μl的MnCl₂混合，在37℃下孵育10分钟并在95℃下孵育2分钟以进行末端修复。加入由12μl的50％PEG-4000(Sigma)、1.5μl的CircLigase II(Epicentre)和1μl的10μM 3'接头(参见表1)组成的连接混合物并通过强涡旋混合。将反应物在60℃下孵育2小时并冷却至4℃。

表1：3'接头体系

其中，所述SEQ ID No.3的3’末端的C优选以dd修饰；所述SEQ ID No.4中3’末端的TCAC可选的进行硫代修饰；SEQ ID No.6中GAGAT和GTGAC之间可选插入索引序列。

3、3'接头连接和第二链合成

通过用500μl的结合缓冲液(10mM Tris-HCl pH8.0、1M NaCl、1mM EDTA、0.05％Tween-20、0.5％SDS)洗涤两次并重悬于250μl的结合缓冲液中来制备MyOne C1磁珠(Invitrogen)(20μl/样品)。将连接产物在95℃下加热2分钟，立即转移到冰上至少1分钟，并与预洗涤的磁珠在室温下旋转孵育20分钟。然后将珠用200μl的洗涤缓冲液A(10mMTris-HCl pH8.0、100mM NaCl、1mM EDTA、0.05％Tween-20、0.5％SDS)洗涤一次，并用200μl的洗涤缓冲液B(10mM Tris-HCl pH8.0、100mM NaCl、1mM EDTA、0.05％Tween)洗涤一次。

用47μl的主混合物重悬磁珠，所述主混合物由40.5μl的H₂O、5μl的10x等温扩增缓冲液(NEB)、0.5μl的25mM dNTP(Thermo Fisher Scientific)和1μl的100μM延伸引物组成。将混合物在65℃下在混匀仪中以1000r.p.m孵育2分钟，在冰上冷却1分钟并转移到预冷却的15℃混匀仪中，然后加入3μl的Bst 2.0DNA聚合酶(NEB)。将延伸反应物从15℃孵育至37℃(1℃/分钟)，并在混匀仪中以1500r.p.m在37℃下保持5分钟(每分钟混合15秒)。将磁珠用200μl的洗涤缓冲液A洗涤一次，并用50μl的严格洗涤缓冲液(0.1x SSC缓冲液，0.1％SDS)在55℃下在混匀仪中以1500r.p.m洗涤一次(每分钟混合15秒)，并用200μl的洗涤缓冲液B洗涤一次。将磁珠用99μl的主混合物重悬，所述主混合物由86.1μl的H₂O、10μl的10xTango缓冲液(Thermo Fisher Scientific)、2.5μl的1％Tween-20和0.4μl的25mM dNTP和1μl的T4 DNA聚合酶(Thermo Fisher Scientific)组成。将反应物在混匀仪中以1500r.p.m在25℃下孵育15分钟(每分钟混合15秒)。如上所述，将珠洗涤三次。

4、5'接头连接和扩增

用98μl的主混合物重悬磁珠，所述主混合物由73.5μl的H₂O、10μl的10x T4 DNA连接酶缓冲液(Thermo Fisher Scientific)、10μl的50％PEG-4000(Thermo FisherScientific)、2.5μl的1％Tween-20和2μl的100μM双链接头(DSA)组成(参见表1)。通过在95℃下加热两个互补寡核苷酸10秒并缓慢冷却至14℃(0.1℃/秒)使DSA退火。在添加2μl(10U)的T4 DNA连接酶(Thermo Fisher Scientific)后，将连接反应物在25℃下在混匀仪中以1500r.p.m孵育1小时(每分钟混合15秒)。如上所述将珠洗涤三次，然后重悬于25μl的洗脱缓冲液(10mM Tris-HCl pH8.0，0.05％Tween-20)中，并在95℃下孵育10分钟。收集上清液用于扩增。

在40μl的qPCR反应物(12μl的cDNA，20μl的2X Phusion HF主混合物，0.75μl的10μM P7索引引物(参见表1)，0.75μl的10μM P5引物(参见表1)，0.4μl的25X SybrGold)中扩增样品。qPCR仪编程如下：98℃ 1分钟，98℃ 15秒，65℃ 30秒，72℃ 45秒。qPCR扩增后，通过6％非变性PAGE凝胶对样品进行大小选择(>150bp)。在用Qubit(Invitrogen)定量后，在HiSeq X Ten(Illumina)上运行深度测序。

三、用于smartSHAPE分数计算的计算管道。

由于插入序列大部分短于100nt，我们仅使用读段配对物1进行后续处理。使用icSHAPE-pipe处理smartSHAPE测序数据。处理步骤如下：1)用Cutadapt去除3'接头；2)去除重复的读段；3)使用trimmomatic去除前10nt；4)使用Bowtie2将干净的读段映射到人rRNA；5)使用STAR将未映射的读段比对到人(hg38)或小鼠(mm10)基因组；6)使用icSHAPE-pipesam2tab将Sam文件转换成.tab文件；7)使用icSHAPE-pipe calcSHAPENoCont计算smartSHAPE分数，其中参数为：-N NAI_rep1.tab,NAI_rep2.tab；-sizechrNameLength.txt；-out reactivity.gTab；-ijf sjdbList.fromGTF.out.tab。sjdbList.fromGTF.out.tab文件和chrNameLength.txt文件由STAR在基因组索引生成期间产生。

icSHAPE-pipe基本上基于滑动窗口方案计算全基因组的smartSHAPE值，默认窗口大小为200nt，步长为5nt，在定义窗口时跳过非编码区域，直接串联外显子。每个核苷酸计算40次，并且在计算期间仅考虑附近的核苷酸，以避免由每个转录本的不同区段的不均匀覆盖引起的偏倚。当读段的5'被比对到3'相邻位点(+1位置)时，每个位点的逆转录终止信号加一。在每个窗口内对逆转录终止信号进行归一化，并进行90％缩尾处理以获得范围为0至1的最终分数。每个碱基的最终smartSHAPE值是包含碱基的所有窗口的平均分数。如果覆盖率低于100，则smartSHAPE值被定义为空(NULL)，这意味着未能在这些位点检测到结构。

四、RNA结构分析

用python软件包sklearn生成接受者操作特征(ROC)曲线。总之，考虑到二级结构和shape分数列表(0-1)，单链碱基被认为是阳性样品，双链碱基被认为是阴性样品。如果采用shape分数的截止值将所有碱基分成阳性样品和阴性样品，则可以计算假阳性率(FTR)和真阳性率(TPR)。因此，可以通过将该截止值从0逐渐调整到1来计算ROC曲线。AUC是ROC曲线下面积。

RNA结构建模：RNA二级结构用RNAstructure软件包中的Fold程序建模。smartSHAPE分数可以用作约束，斜率和截距参数设置为默认。

实施例2：利用RNase I消化去除m¹A修饰引起的背景信号

将用NAI-N3修饰的HEK293T的生物素化总RNA与3.5μl的特异性RT引物和3μl的5×第一链缓冲液混合，加热至65℃持续5分钟，并在冰上孵育2分钟。将退火的样品与0.75μl的RiboLock、1μl的100mM DTT、1μl的5×第一链缓冲液和1.25μl的SuperScript III(LifeTechnologies)混合，并在55℃下孵育30分钟。将RT产物分成5部分，其中一组省略RNase I消化和磁珠富集，并且一组直接进行磁珠富集。将其余组分别与10μl、5μl或2.5μl的RNaseI在30μl的反应体系中孵育。通过MyOne C1磁珠富集样品，并与NaOH一起孵育用于如上所述的洗脱。最后，用Zymo DNA Clean&Concentrator-5柱纯化所有样品，并通过7M尿素PAGE分离。

icSHAPE和smartSHAPE中的NAI-N3修饰单链核苷酸并引起逆转录(RT)停止。然而，逆转录酶也在一些内源修饰如m¹A、局部结构如G-四链体位点停止，或只是偶然地停止在未修饰的位点处。这些背景逆转录终止信号将在结构分数的计算中引起假阳性信号。因此，在以前的RNA结构检测方法中，增加了DMSO对照组来去掉背景信号。而在smartSHAPE中，我们在逆转录后引入了RNase I消化步骤，来去掉非修饰位点的终止信号。如图3a所示，在逆转录过程中，一条RNA上可能结合多个逆转录引物，转录出多个cDNA分子。只要RNA上存在一个修饰位点，就能将其上所有的cDNA分子富集出来，其中可能包含非修饰位点引起的假信号。RNase I可以特异性的切割单链RNA，但无法切割RNA-cDNA杂合链。因此，RNase I消化可以将不同的cDNA分子切割成单独的片段，从而避免了背景信号的富集。理论上，在smartSHAPE文库中捕获的所有RT信号对应于检测剂的真实修饰，因此可以省略DMSO组以进一步节省起始材料、劳动力和测序成本。

为了验证RNase I消化步骤如预期的那样起作用以去除背景逆转录终止信号，我们在人核糖体RNA 28S内的已知m¹A修饰位点上游设计了RT引物(图3b)。我们用NAI-N3处理HEK293T细胞，分离RNA，并进行Click-iT生物素化，然后进行逆转录(具体参见实施例1)。对于没有经过RNase I处理的样品，我们在链霉亲和素磁珠富集后，除了全长cDNA之外，还观察到对应于m¹A位点的强背景逆转录终止信号，RNase I消化后未能检测到该条带，说明，以NAI-N3修饰的HEK293T总RNA为模版进行逆转录，对逆转录产物同时进行RNase I消化和磁珠富集时，能够有效去除m¹A修饰引起的背景逆转录信号(参见图3c)。重要的是，RNase I处理后进行链霉亲和素珠富集消除了这种m¹A位点相关的RT产物。我们用含有m¹A修饰的合成RNA寡核苷酸重复该分析，并观察到由m¹A位点产生的RT产物也被RNase I消化和磁珠富集操作消除了(参见图4a-b)。

为了进一步评估smartSHAPE测序数据中背景信号的去除，我们从用NAI-N3和DMSO处理过的HEK293T细胞中构建文库(参见图4c)。为了鉴定背景信号，我们在DMSO文库的构建期间省略了RNA-cDNA杂合链霉亲和素珠富集步骤。我们的结果揭示了DMSO组中能观察到对应于已知内源性m¹A修饰位点的背景信号(参见图3d)。重要的是，这些强背景逆转录终止信号在NAI-N3文库中大大减少。请注意，对于不诱导RT终止的所有其他内源修饰位点(例如Am和Um)，我们观察到NAI-N3和DMSO文库之间逆转录终止信号的平均数的差异很少，这表明RNase I消化步骤特异性地去除了背景信号(图4d)。

实施例3：不同起始量RNA的smartSHAPE的性能

为了评估具有不同起始量RNA的smartSHAPE的性能，我们利用1ng、5ng、25ng和125ng的RNA(在rRNA去除后)作为起始量构建smartSHAPE文库，来检测HEK293T细胞中的全转录组RNA二级结构。所有smartSHAPE文库在具有不同起始量的文库之间(参见图5a中的示例和图6a中的总体统计)以及在相同起始量的文库之间(参见图6b)都显示出良好的可重复性。如果超过80％的核苷酸获得有效的smartSHAPE分数，则转录本被定义为具有“高覆盖率”。由5ng、25ng和125ng的RNA作为起始量生成的文库成功地在250M测序深度下检测到超过12,000个高覆盖率转录本的二级结构，其中超过75％的转录物是mRNA和lncRNA，5ng、25ng和125ng smartSHAPE文库检测到的转录本数目远高于icSHAPE，1ng smartSHAPE文库检测到的转录本数目与icSHAPE相当(参见图5b，以最深测序深度为标准，从右至左依次为1ng、icSHAPE、5ng、25ng和125ng)。因此，在这些文库中，smartSHAPE在相同的测序深度下显示出比icSHAPE更高的覆盖度(参见图5b)。

为了评估不同测序深度下每个文库的复杂性，我们从每个文库的总原始测序数据中随机取样相同数量的读段(表2)，并相应地计算smartSHAPE分数。如图5b所示，5ng、25ng和125ng文库在测序深度超过250兆时能够测得的高覆盖度转录本数目仍然快速上升，说明文库都具有很高的复杂度且尚未饱和，可以通过提高测序深度来获得更多转录本的信息。此外，这三个文库在不同测序深度下，平均逆转录终止信号的分布非常接近，表明5ng的RNA起始量足以构建高度复杂的smartSHAPE文库(参见图5b，图6c，其中，图6c中从左下往上的曲线依次代表50M至250M)。最后，尽管我们确实察觉到1ng起始量RNA文库的复杂性有一定程度的降低，但我们仍然在250M测序深度下获得了超过9,000个高覆盖率转录本，这一水平与相同测序深度下的icSHAPE相当(其需要约500ng的起始量RNA)。

表2不同文库测序深度及不同处理步骤对应读段数目

我们进一步比较了每个文库中可用测序读段的比例。icSHAPE和smartSHAPE都使用与3'接头相邻的随机序列分子标签来标记PCR重复。PCR重复的读段和因太短而不能比对至基因组或比对到rRNAs的读段对于计算RNA结构分数都是无用的，需要丢弃。剩余的读段(比对到基因组的读段)被定义为可用读段。我们观察到超过60％的总测序读段在5ng、25ng和125ng文库中是可用的，而相比之下，从500ng的起始量RNA生成的icSHAPE文库中仅有约40％的可用读段，可见，5ng、25ng和125ng smartSHAPE文库能够比对的基因组的读段数目远高于icSHAPE文库(参见图5c)。然而，在1ng文库中仅约20％的读段是可用的，考虑到测序成本，我们建议使用超过1ng的RNA作为起始量进行smartSHAPE建库(参见图5c)。

为了评估smartSHAPE的准确性，我们使用计算出的smartSHAPE值绘制18S和28SrRNA中可被修饰的碱基的ROC曲线。不同起始量smartSHAPE文库18S的AUC超过0.8，28S的AUC超过0.7，这表明smartSHAPE数据与已知的结构模型具有良好的一致性，且smartSHAPE文库的准确度明显高于icSHAPE(参见图5d)。我们还用人XBP1转录本中的已知结构元件评估了smartSHAPE值。实际上，我们观察到smartSHAPE值与已知的结构模型具有良好的一致性，smartSHAPE文库的曲线下面积明显高于icSHAPE文库(参见图5e)。

我们还检查了smartSHAPE库的其他质量控制参数。与先前的发现类似，smartSHAPE数据揭示了翻译起始和终止位点处的结构特点，以及CDS区段中的3-核苷酸周期性(参见图7a)。由于与CG碱基对相比，AU的氢键通常较弱，因此A和U核苷酸处的smartSHAPE值高于C和G核苷酸处的smartSHAPE值(参见图7b)。与smartSHAPE数据中含有相同“GGACU”基序的背景区段相比，m⁶A甲基化的区段显示出更高的smartSHAPE值，这与m⁶A区段倾向于单链的结论一致(参见图7c)。Gini指数用于定量转录本中RNA结构的致密程度，Gini指数越高表明双链RNA结构越多。mRNA和lncRNA的Gini指数值低于假基因、miRNA和snoRNA的Gini指数值，这与先前的发现一致(参见图7d)。

总之，smartSHAPE可以准确且可靠地检测不同起始量样品中的RNA结构，同时仅需要其他最先进的体内RNA结构检测方法所需的起始量RNA的一小部分，当使用少量，例如1ng，RNA作为起始量，smartSHAPE仍然可准确检测RNA结构。因此，对于大量样品材料的获取极具挑战的许多生物医学应用来说，smartSHAPE应该非常合适。

实施例4：用于smartSHAPE分数计算的计算管道。

我们开发了一种新的分析管道，用于仅基于NAI-N3文库计算RNA结构分数(参见实施例1)。简言之，通过在所有外显子上以滑动窗口方式对RT终止信号进行归一化和缩尾处理来计算smartSHAPE值，并且将覆盖率低于100的碱基的smartSHAPE值定义为空(NULL)(默认窗口大小＝20nt，步长＝5nt)。我们用人核糖体RNA 18S已知结构模型评估了新管道的性能(参见实施例1)。通过绘制接受者操作特征(ROC)曲线，我们观察到与发表的icSHAPE数据相比，用新管道计算出的smartSHAPE分数的表现更好，smartSHAPE值的曲线下面积(AUC)明显高于icSHAPE值(参见图3e-f)。这些结果进一步表明，RNase I消化和链霉亲和素珠富集步骤有效去除了背景信号，使得不再需要DMSO文库作为对照。

实施例5：smartSHAPE测量小鼠巨噬细胞中全转录组水平的RNA结构

使鼠柠檬酸杆菌在LB肉汤中37℃下振荡生长过夜。C57BL/6J小鼠(6-8周)通过灌胃感染总体积为200μl的2×10⁹CFUs鼠柠檬酸杆菌，并在感染后第5天处死。取出肠道组织并置于冰冷的不含钙和镁的汉克平衡盐溶液(HBSS)中。将肠道纵向切开并切成1.5厘米的片，并在含有10mM HEPES、10mM EDTA(Promega)和1mM二硫苏糖醇(DTT，Fermentas)的HBSS中在37℃孵育两次，持续20分钟，以除去上皮细胞和粘液。然后，在用含有10mM HEPES的HBSS洗涤后，将组织在含有5％热灭活的胎牛血清(FBS)、1mg/ml胶原酶Ⅳ(Sigma)、1mg/ml分散酶(Roche)和100μg/ml DNase I(Sigma)的RPMI1640(含钙和镁)中在37℃下缓慢旋转消化75分钟。通过剧烈振荡将消化的组织均质化，通过70μm细胞过滤器并重悬于40％Percoll(GE health care)溶液中，然后在室温下以2,500rpm梯度密度离心20分钟。并且使用ACK溶解缓冲液溶解红细胞。染色后，在FACSAria4激光(BD)上分选Ly6C⁺和Ly6C^-结肠巨噬细胞。

先天免疫受到精确调节以有效消除病原体，同时避免由过度免疫应答引起的组织损伤。这些免疫应答的介质通常显示出瞬时表达以诱导并随后消除炎症。转录后调节对于快速抑制关键炎性介质的蛋白质表达至关重要，其中RNA结构在RNA降解和翻译的调节中起重要作用。例如，GAIT元件(哺乳动物细胞中唯一的核糖开关)通过在转换为发夹构象时募集GAIT复合物来阻断巨噬细胞中Vegfa基因的翻译。

为了鉴定免疫细胞中新的转录后调控RNA结构元件，我们使用smartSHAPE来检测从感染了鼠柠檬酸杆菌的小鼠分离出的肠道巨噬细胞中的RNA二级结构全转录组(参见图8a和图9a)，通过向小鼠中感染小鼠柠檬酸杆菌，构建小鼠肠道炎症模型，并在五天后从肠道中分选出Ly6C^lo组织常驻巨噬细胞和Ly6C^hi促炎巨噬细胞，最后利用smartSHAPE分别测量了两种肠道巨噬细胞中的RNA二级结构。每只小鼠只有5×10⁴个肠道巨噬细胞，已有的RNA结构检测方法无法进行检测。值得注意的是，据我们所知，这是哺乳动物免疫细胞的第一个全局RNA结构数据。

肠道巨噬细胞对于维持肠道中免疫应答和抗原耐受性之间的平衡是必需的。具体地，从血液募集的单核细胞分化成Ly6C^lo组织常驻巨噬细胞，其通过产生抗炎细胞因子如白细胞介素(IL)-10来维持肠稳态。然而，在肠道炎症期间，循环单核细胞分化成Ly6C^hi促炎巨噬细胞，其通过产生促炎细胞因子如IL6、IL1b和IL12触发炎症。为了探索RNA结构在组织常驻和促炎性巨噬细胞中的潜在差异，我们使用约100ng总RNA对Ly6C^lo和Ly6C^hi巨噬细胞进行smartSHAPE文库构建。在Ly6C^lo和Ly6C^hi巨噬细胞的smartSHAPE数据中，我们分别获得了超过3,000个和超过2,000个高覆盖率转录本的结构信息(参见图8b)。Xbp1转录本已知结构元件和SRP RNA的smartSHAPE值显示出与已知结构模型良好的一致性，并且与icSHAPE分数相比，明显具有高得多的AUC(参见图8c和图10a)。在一组结构已知的60个RNA中，两种巨噬细胞smartSHAPE值的AUC均值远高于发表的小鼠胚胎干细胞icSHAPE值的AUC，这表明smartSHAPE数据质量很高(参见图10b)。

可见本发明的RNA结构检测方法的结果可用于评估细胞的功能状态，例如，免疫应激反应。类似的，RNA结构检测方法的结果可以用于评估细胞的其它功能状态，例如研究RNA对早期发育的影响，癌症的发生和发展等。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

序列表

<110> 清华大学

<120> 一种全转录组水平RNA结构检测方法及其应用

<130> 1

<160> 6

<170> SIPOSequenceListing 1.0

<210> 1

<211> 10

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

agatcggaag 10

<210> 2

<211> 34

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

tacactcttt ccctacacga cgctcttccg atct 34

<210> 3

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gtgtgctctt cc 12

<210> 4

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

ggaagagcac acgtctgaac tccagtcac 29

<210> 5

<211> 51

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct t 51

<210> 6

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgt 45

Claims

1.一种RNA结构检测方法，其特征在于，所述方法包括：1、获得包含RNA的样本；2、smartSHAPE库准备；3、RNA结构检测和分析，其中，所述步骤2的smartSHAPE库准备包括：(1)、RNA修饰和制备；(2)RNA逆转录，去除背景逆转录终止信号，和cDNA富集。

2.如权利要求1所述的检测方法，其特征在于，所述步骤2还包括(3)、接头连接，第二链合成，和扩增。

3.根据权利要求1-2任意所述的检测方法，其特征在于，所述背景逆转录终止信号由非RNA修饰位点导致。

4.根据权利要求1-3任意所述的检测方法，其特征在于，利用标记试剂对RNA进行修饰，优选的，所述标记试剂为细胞膜穿透性试剂，更优选的，所述标记试剂选用硫酸二甲酯(DMS)、1-甲基-7-硝基靛红酸酐(1M7)、2-甲基烟酸咪唑化物-叠氮化物(NAI-N3)或乙氧二羟丁酮。

5.根据权利要求1-4任意所述的检测方法，其特征在于，所述RNA结构为RNA二级结构。优选的，所述RNA为全转录组水平RNA。

6.根据权利要求1-5任意所述的检测方法，其特征在于，所述RNA来源于任意细胞、病毒等，优选的，所述细胞包括但不仅限于实验室培养的细胞系，活体细胞，原代细胞、哺乳动物的早期胚胎、感染后的细胞、细菌、真菌等等。

7.根据权利要求1-6任意所述的检测方法，其特征在于，所述检测方法还包括利用计算管道对smartSHAPE分数进行计算处理步骤。

8.权利要求1-7任意RNA结构检测方法的应用，其特征在于，所述应用包括根据权利要求1-7任意检测方法的结果评估细胞的功能状态，研究RNA对早期发育的影响，癌症的发生和发展。

9.根据权利要求8所述的应用，其特征在于，所述功能状态包括各种生理及异常状态，例如，细胞炎症、损伤、缺血、免疫应激状态、早期发育过程、感染等等。

10.根据权利要求8-9任意所述的应用，所述细胞包括免疫细胞，例如B细胞、T细胞、NK细胞、巨噬细胞等。

11.一种细胞功能状态的评估方法，其特征在于，所述评估方法包括利用权利要求1-7任意的检测方法对细胞的RNA结构进行检测，根据检测结果评估细胞的功能状态。

12.根据权利要求11所述的评估方法，其特征在于，所述细胞功能状态是细胞炎症、损伤、缺血、免疫应激状态、早期发育过程、感染、癌症增殖。