CN114507721B

CN114507721B - 一种全转录组rna结构探测的方法及其应用

Info

Publication number: CN114507721B
Application number: CN202011278416.1A
Authority: CN
Inventors: 张强锋; 张劲松
Original assignee: Xunjing Shengke Beijing Intelligent Technology Co ltd
Current assignee: Xunjing Shengke Beijing Intelligent Technology Co ltd
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2024-04-09
Anticipated expiration: 2040-11-16
Also published as: CN114507721A

Abstract

本发明涉及一种全转录组RNA结构探测方法及其应用。本发明创新提出一种结合体内点击化学选择性2'‑羟基酰化和突变谱分析来探测完整RNA结构的方法，结合RNA免疫沉淀技术，进一步将本发明应用在解析Dicer结合的底物RNA结构图谱中，并揭示了Dicer底物的结构类型及特征。本发明提供的全转录组RNA结构探测的方法，也可以对小RNA进行完整的全长的结构分析，为开展细胞内全转录组RNA分子的结构及生物学功能等研究奠定基础。

Description

一种全转录组RNA结构探测的方法及其应用

技术领域

本发明涉及分子生物技术领域，具体提供一种全转录组RNA结构探测的方法及其应用。本发明可以探测细胞内所有RNA分子的二级结构，尤其是长度＜200nt的RNA。

背景技术

全转录组RNA结构组学将化学探测与下一代测序结合对RNA的结构进行研究。被广泛用于体内RNA结构探测的化学试剂包括硫酸二甲酯(DMS)、1-甲基-7-硝基靛红酸酐(1M7)、2-甲基烟酸咪唑化物-叠氮化物(NAI-N3)和乙氧二羟丁酮等。DMS在体内修饰单链的腺嘌呤和胞嘧啶碱基的N1和N3位置，而NAI-N3能酰化所有四种单链碱基的游离2'-羟基。icSHAPE技术正是利用NAI-N3的结构选择性2'-羟基酰化的特性，并结合后续的测序技术对转录组RNA进行结构探测。icSHAPE已用于揭示与不同生物过程相关的RNA的结构差异变化，例如活细胞中的翻译过程、RNA与蛋白质相互作用区域和N6-甲基腺苷修饰位点的结构差异。

DMS-seq和icSHAPE技术的原理在于经化学修饰的核苷酸在逆转录时产生逆转录终止信号，以此确定核苷酸处于单链构象的概率。然而，这些技术的局限是由于在3’末端产生的短测序读段的比对困难，导致的所探测靶标的3'末端的结构信息的丢失。丢失的可能是研究中完整的转录物或其片段，例如长RNA的功能区。这样的技术缺陷严重制约了小片段靶标的结构分析，如小RNA(sRNA，长度小于约200nt的RNA)或RNA结合蛋白(RBPs)的结合位点等。DMS-突变谱分析(DMS-MaPseq)和SHAPE-MaP技术通过测量逆转录过程中被化学试剂修饰的核苷酸位置上产生的突变率，而不是终止信号，来克服3'末端结构信息丢失问题。然而，DMS-MaPseq提供了部分核苷酸覆盖率(仅可以探测腺苷“A”和胞苷“C”核苷酸)，并且当前的SHAPE-MaP试剂(例如，NMIA、1M7等)仅具有中等的细胞膜穿透能力，限制了其对于体内RNA的结构探测。

发明内容

针对上述问题，我们开发了一种探测全转录组RNA结构的方法。简而言之，我们利用NAI-N3在细胞内结构选择性地修饰RNA2’-羟基的特性和逆转录突变谱分析的优点来开发新的结构探测方法icSHAPE-MaP。为了证明其能力，我们使用icSHAPE-MaP来确定细胞sRNA的完整结构信息。此外，我们将icSHAPE-MaP与RNA免疫沉淀(RIP)组合以在全局尺度上确定RNA核酸内切酶Dicer的底物的结构图谱。

我们利用本发明提出的RNA结构探测方法icSHAPE-MaP以及三级结构建模，发现空间距离是Dicer对pre-miRNA加工过程的一个重要参数。

为了解决现有技术中的上述问题，本发明提供一种全转录组RNA结构探测的方法，通过本发明，成功解析出Dicer结合的底物RNA结构图谱，并揭示了Dicer底物的结构类型及特征。

本发明提供一种核酸结构探测的方法及应用，包括：1)用标记试剂修饰核酸；2)对核酸进行处理；3)对处理后的核酸进行测序；4)依据测序结果计算结构分数；5)预测核酸结构。

其中核酸为RNA；进一步，RNA为全长RNA；更进一步地，RNA为转录组RNA；更进一步地，RNA为小RNA；更进一步地，RNA可以是miRNA、snoRNA、snRNA、tRNA、穹窿体RNA、Y RNA、pre-miRNA、miscRNA和5S rRNA等或RNA转录本片段，例如mRNA的exon和intron、lncRNA的exon和intron等等。

在一个具体实施方式中，本发明提供一种RNA结构探测的方法，包括：1)用标记试剂修饰核酸；2)对RNA进行处理；3)对处理后的产物进行测序；4)依据测序结果计算结构分数；5)预测核酸结构。

进一步地，RNA结构探测的方法，包含以下a)-d)步骤之一：

a)步骤2)中的处理为对RNA进行逆转录获得cDNA；

b)步骤3)中处理后的产物为cDNA，测序为针对cDNA的深度测序；

c)步骤4)中计算结构分数包括统计各核苷酸位点突变频数及计算突变率的步骤；

d)步骤5)中预测核酸结构包括将步骤4)中得到的RNA结构分数图谱应用于预测RNA二级结构、三级结构或其他高级结构。

在一个具体实施方式中，本发明提供一种全转录组RNA结构探测方法，包括：1)用标记试剂修饰核酸；2)对RNA进行处理；3)对处理后的产物进行测序；4)依据测序结果计算结构分数；5)预测核酸结构。

进一步地，全转录组RNA结构探测方法，包含以下a)-d)步骤之一：

a)步骤2)中的处理为对RNA进行逆转录获得cDNA；

b)步骤3)中处理后的产物为cDNA，测序为针对cDNA的深度测序；

优选的，所述二级结构包括单链RNA、配对的双链RNA、茎环或发卡、突环和接触或多环、内饰环、假结、相吻发卡等。所述三级结构为RNA分子基于二级结构在空间构象上由核酸链更深一步折叠所造成的复杂结构。所述其他高级结构包括RNA-蛋白质复合物的空间构象等。

本发明提供的全转录组RNA结构探测方法，其中结构探测方法可以是DMS-突变谱分析或SHAPE-MaP(突变谱)法。

进一步地，所述标记试剂为化学修饰试剂。优选的，所述化学修饰试剂具有高细胞内反应活性。所述高细胞内反应活性是指能够在合理时间内在细胞内选择性地与RNA中结构偏向单链的核苷酸的反应，产生足够多的修饰位点，例如NAI,NAIN3,DMS,kethoxal。而相对的，1M7，NMIA为低细胞内反应活性的修饰试剂。

优选的，所述标记试剂选用硫酸二甲酯(DMS)、2-甲基烟酸咪唑化物-叠氮化物(NAI-N3)或乙氧二羟丁酮；更优选的，标记试剂选用2-甲基烟酸咪唑化物-叠氮化物(NAI-N3)。

进一步地，所述方法可探测体内细胞或体外所有类型的RNA结构。

更进一步地，RNA的长度可以在200nt以下。

本发明提供的全转录组RNA的结构探测方法，对于步骤1)用标记试剂修饰核酸具体为：将细胞与标记试剂共孵育后，提取RNA；或将体外RNA与标记试剂混合后，用试剂盒纯化提取RNA。

进一步地，经化学修饰的RNA在逆转录前加上5'和3'末端衔接子。

更进一步地，5'末端衔接子具有如下基因序列：5’-rArCrArCrGrArCrGrCrUrCrUrUrCrCrGrArUrCrUrNrNrNrNrNrNrNrN-3’(SEQ ID No.1)，3'末端衔接子具有如下基因序列：5’腺苷化-AGATCGGAAGAGCACACGTCT-3’(SEQ ID No.2)SpacerC3。

进一步地，逆转录引物具有5’-AGACGTGTGCTCTTCCGATCT-3’(SEQ ID No.3)所述的基因序列。

本发明提供的全转录组RNA的结构探测方法，将步骤2)所得cDNA加入到PCR反应体系中进行扩增反应，将所得PCR产物进行深度测序。

进一步地，PCR反应体系包含：P5引物、P3引物、25×SYBR Green、2×PhusionHigh-Fidelity PCR主混合物。

更进一步地，P5引物具有5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’(SEQ ID No.4)所述的基因序列，P3引物具有5’-CAAGCAGAAGACGGCATACGAGAT[8碱基barcode]GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’(SEQ ID No.5)所述的基因序列。在“……GAGAT”和“GTGAC……”中插入8碱基barcode。

更进一步地，P3引物序列中8碱基barcode用于区分不同样本产生的测序文库。

更进一步地，PCR反应程序为：阶段I：98℃1分钟；阶段II：98℃15秒，65℃30秒，72℃45秒，阶段II循环若干次。循环次数根据qPCR仪器显示的荧光值来确定，一般在13～15。

本发明提供的全转录组RNA的结构探测方法中，测序覆盖率的阈值可以为1000×或500×，优选为2000×。

进一步地，对于步骤4)，计算赋值包括以下任一步骤之一：

a)对测序数据进行预处理，包括：用去除3’接头(优选用Cutadapt)，过滤高质量读段(优选用Trimmomatic)，删除重复序列(优选用Perl)；

b)将干净的读段映射到参考序列上(优选使用STAR)；

c)计算icSHAPE-MaP结构分数(优选使用Shapemapper2)；

d)预测RNA二级结构(优选使用RNAstructure package)；

e)将RNA二级结构可视化(优选使用VARNAv3-93)。

进一步地，所述RNA序列为sRNA序列或与蛋白质结合的RNA。

进一步地，在计算icSHAPE-MaP结构分数时，突变率包括所有类型的突变，如错配、插入、缺失和其他复杂突变。

进一步地，使用shape_mutation_counter计算每个核酸的突变率。

更进一步地，某碱基i的icSHAPE-MaP结构分数的计算公式为

r：突变率，nai：标记试剂样品组，dmso：DMSO样品组，f：归一化因子。

本发明还提供一种探测特定RNA结构的方法，为上述方法与RNA免疫沉淀方法的组合使用。

进一步地，所述特定RNA为与蛋白质结合的RNA，例如Dicer结合的底物RNA。

本发明还提供一种探测全转录组RNA结构的试剂盒，其特征在于，所述试剂盒包括上述探测全转录组RNA结构的方法中任一所述的化学修饰试剂、核苷酸序列。

本发明的有益效果在于：

本发明提出了一种新的生物技术“icSHAPE-MaP”，其通过利用逆转录酶的突变谱分析检测高细胞内反应活性的标记试剂，例如NAI-N3诱导的修饰来探测完整形式的RNA的体内二级结构。重要的是，该方法允许对小尺寸的RNA种类(全长sRNA或长RNA的片段(例如RBP结合位点))进行结构分析。本发明还展示了icSHAPE-MaP在揭示Dicer底物的sRNA的结构图谱中的应用。将来，icSHAPE-MaP可用于揭示其他RBP结合的RNA的结构特征。

以上只是概括了本发明的一些方面，不是也不应该认为是在任何方面限制本发明。除非特别说明，本发明的实践将采取细胞生物学、细胞培养、分子生物学和免疫学等的传统技术。这些技术在以下文献中进行了详细的解释。例如：

1、Reuter,J.S.,and Mathews,D.H.(2010).RNAstructure:software for RNAsecondary structure prediction and analysis.BMC Bioinformatics11,129.16。

2、Das,R.,Karanicolas,J.,and Baker,D.(2010).Atomic accuracy inpredicting and designing noncanonical RNA structure.Nat Methods 7,291-294 23。

3、Zubradt,M.,Gupta,P.,Persad,S.et al.DMS-MaPseq for genome-wide ortargeted RNA structure probing in vivo.Nat Methods 14,75–82(2017).https://doi.org/10.1038/nmeth.4057。

4、Siegfried,N.,Busan,S.,Rice,G.et al.RNA motif discovery by SHAPE andmutational profiling(SHAPE-MaP).Nat Methods 11,959–965(2014).https://doi.org/10.1038/nmeth.3029。

附图说明

为了更清楚地说明本发明实施例或现有的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为比对到参考基因组上的读段中在不同组中携带突变的比例。在对照组DMSO组中，携带突变的读段比例明显低于体内NAI-N3修饰和体外NAI-N3修饰组，表明突变率的提高确实是由于NAI-N3修饰导致的；

图2为对照DMSO组、体内NAI-N3修饰组和体外NAI-N3修饰组样品中四种碱基的突变率的条形图，表明NAI-N3可以同时修饰四种碱基；

图3为人5S rRNA中八种类型突变的突变率，表明不同类型的突变对突变率的贡献；

图4为人5S rRNA的对照DMSO组和体内NAI-N3修饰组每个核苷酸位置上的突变率；

图5为5S rRNA的已知二级结构模型和每个核苷酸位置上icSHAPE-MaP结构分数；

图6为具有icSHAPE-MaP结构分数的一个snoRNA和一个tRNA及其二级结构模型的实例；

图7为两次重复之间同一区域的NAI-N3修饰组突变率的皮尔逊相关系数的累积分布曲线；

图8为在两次重复之间，对于A和C碱基，DMS修饰组(上)或NAI-N3修饰组(下)样品中突变率的皮尔逊相关系数的累积分布曲线；

图9为不同类型的Dicer底物的统计环形图；

图10为Dicer结合片段的长度分布的小提琴图；

图11为通过RNA免疫沉淀富集的GDI1和DICER1中两个片段的读段覆盖度；

图12为具有icSHAPE-MaP结构分数的不同类型的RNA的统计环形图；

图13为DMSO或NAI-N3样品中两次重复之间核苷酸的突变率的皮尔逊相关系数的热图；

图14为具有icSHAPE-MaP结构分数的不同类型的Dicer富集的RNA的统计环形图；

图15为HEK293T细胞中表达水平前150的pre-miRNA的相对表达水平的条形图，高度表示pre-miRNA的相对表达水平；

图16为来自GtRNAdb数据库的209个tRNA二级结构与所得icSHAPE-MaP结构分数比较分析得到的曲线下面积(AUCs)的小提琴图；

图17为以结构分数为约束通过RNAstructure软件构建hsa-miR-125a的二级结构模型，每个核苷酸的颜色表示icSHAPE-MaP结构分数高低；

图18为来自miRBase数据库的hsa-miR-125a的二级结构模型，同样的每个核苷酸的颜色表示icSHAPE-MaP结构分数高低；

图19为hsa-miR-19a和hsa-miR-27b pre-miRNA的二级结构模型及其对应每个核苷酸icSHAPE-MaP结构分数，(上)使用RNAStructure软件建模，以其icSHAPE-MaP结构分数作为约束；(下)模型来源于miRBase数据库；

图20为来自miRBase数据库或通过RNAStructure预测的108个pre-miRNA结构之间的伪自由能的小提琴图。

具体实施方式

以下通过实施例对本发明所述内容作进一步详细说明。但不应该将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下，根据本领域普通技术知识和惯用手段做出的各种替换或更变，均应包括在本发明的范围内。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、细胞培养和转染

HEK293T细胞系购自ATCC。Dicer KO HEK293T细胞系(NoDice 2-20)由杜克大学Bryan R.Cullen博士赠送。细胞培养在37℃、5％CO₂的潮湿的培养箱中，细胞培养基为高葡萄糖DMEM含有L-谷氨酰胺、丙酮酸钠(Thermo Scientific HyClone)和10％胎牛血清。所有细胞转染实验使用聚乙烯亚胺(PEI)(Sigma-Aldrich)进行。

实施例2、RNA化学修饰

将HEK293T细胞从培养皿上刮下并用PBS洗涤；将所得细胞重悬于100mM NAI-N3中，并在恒温混合仪中于37℃孵育5分钟；在4℃以2500g离心1分钟后终止反应，随后除去上清液；收集细胞并重悬于250μl PBS中，按照说明加入750μl TRIzol LS试剂进行RNA提取；所得的RNA或体外制备的RNA在6％变性尿素-PAGE凝胶中跑胶，进行大小筛选(25～200nt)；将含有特定长度RNA的凝胶压碎后置于缓冲液(500mM NaCl、1mM EDTA pH 8.0、10mM Tris-HCl pH 8.0)中，在4℃旋转孵育过夜。用0.45μm Spin-X柱(Thermo Fisher)离心浓缩含有洗脱RNA的溶液，并通过RNA浓缩试剂盒(Zymo)纯化得到特定大小范围的RNA(25～200nt)。

实施例3、RNA免疫沉淀

将表达失去切割活性的人Dicer的质粒(含有两个突变(D1320A和D1709A)在其RNA酶III结构域，Addgene)转染入NoDice 2-20细胞。第一天在15cm板中接种9×10⁶个细胞。24小时后，用20μg质粒以及60μl(1μg/μl)PEI转染。具体地，首先将质粒和PEI分别与1mLOpti-MEM I还原血清培养基(Gibco)混合孵育。然后将两种混合物混合，在室温下静置15分钟，再加入细胞。48小时后，用裂解缓冲液裂解细胞。裂解缓冲液配方为50mM Tris-HCl pH7.4，150mM NaCl，1％Triton-X 100，1mM EDTA，并补充蛋白酶抑制剂混合物(Roche)和RNA酶抑制剂RiboLock(40U/mL，Thermo Fisher)。将裂解产物离心，在4℃以15,000g离心10分钟以除去不溶性细胞碎片。将上清液与抗FLAG M2磁珠(Sigma)在室温下孵育3小时。

孵育后，将磁珠用高盐洗涤缓冲液(50mM Tris-HCl pH 7.4、1M NaCl、1％Triton-X 100、蛋白酶抑制剂混合物(Roche)、RiboLock(Thermo Fisher，40U/mL))洗涤一次，并用低盐洗涤缓冲液(50mM Tris-HCl pH 7.4、150mM NaCl、5mM EDTA、蛋白酶抑制剂混合物(Roche)、RiboLock(Thermo Fisher，40U/mL))洗涤两次。最后一次洗涤后，将珠粒与修饰缓冲液(333mM HEPES、20mM MgCl2、150mM NaCl、50mM NAI-N3)在恒温混合器上在37℃下以1000rpm孵育12分钟(NAI-N3修饰组)。对于对照DMSO组，把修饰缓冲液中NAI-N3用DMSO替换。最后用Trizol LS提取RNA。

实施例4、文库构建

将实施例2或实施例3中得到的RNA(8μL)与3'连接反应混合物(6μL PEG8000，1μL3'连接子(10μM)，1μL DTT(100mM)，2μL 10×连接缓冲液，1μL T4 RNA连接酶KQ(NEB)，1μLRiboLock)在25℃下孵育2小时，连接3’连接子；然后在65℃下孵育20分钟失活酶；

将1.2μL逆转录引物(10μM)加入到上述混合液中，并通过75℃5分钟、37℃15分钟、25℃15分钟退火，使逆转录引物与3'连接子配对，并中和过量的3'连接子；

再向混合液中加入5'连接反应混合物(3μL PEG8000、3μL 10mM ATP、1μL10×连接缓冲液、0.5μL RiboLock、0.5μL 5'连接子(20μM)、1μL T4 RNA连接酶I(NEB))并在25℃下孵育2小时；

用RNA浓缩试剂盒(Zymo)纯化上述反应混合液得到连接上5’和3’连接子的RNA；

将9μL易发生突变的逆转录缓冲液(50mM Tris-HCl pH 8.0、500μM dNTP、75mMKCl、10mM DTT、6mM MnCl2、1μL RiboLock)加入到10μL纯化的RNA中，让反应混合物在42℃下孵育2分钟；

再将1μL SuperScript II(Thermo Fisher)加入到上述反应混合物中，并在42℃下孵育3小时，进行逆转录反应；

用DNA浓缩试剂盒(Zymo)纯化上述反应所得的cDNA产物；

将20μL洗脱的cDNA和PCR反应混合物(0.5μL P5引物(20μM)、0.5μL P3索引引物(20μM)、0.4μL 25×SYBR Green、20μL 2×Phusion High-Fidelity PCR主混合物(NEB))建立PCR反应体系；

在qPCR仪(安捷伦，Mx3000P)中进行PCR以监测扩增过程，并编程如下：阶段I：98℃1分钟；阶段II：98℃15秒，65℃30秒，72℃45秒，阶段II循环若干次。根据qPCR仪的荧光值确定循环数，一般地，循环次数为13～15次；

用DNA浓缩试剂盒(Zymo)纯化上述反应所得PCR产物，并在6％非变性PAGE凝胶上进一步进行大小筛选(150～330nt)，以除去过量的PCR引物。依据之前描述的方法从凝胶中纯化得到最终的PCR产物，即得到最终的文库。在Illumina HiSeq X TEN平台上对文库进行双端150个循环的测序。

实施例5、icSHAPE-MaP结构分数计算

预处理：通过cutadapt(v1.16)去除衔接子，用Trimmomatic(v0.33)过滤掉低质量读段，并用自定义的Perl脚本去除序列上重复的测序读段；

比对：收集长度小于约200nt的人sRNA序列，例如miRNA(来自miRbase v22)、snoRNA(来自Gencode v26)、snRNA(来自Gencode v26)、tRNA(来自GtRNAdb v2.0)、穹窿体RNA(来自RefSeq v109)、Y RNA(来自RefSeq v109)和5S rRNA。用STAR(v2.7.1a)将如上处理的读段比对到收集的人sRNA序列，参数设置为outFilterMismatchNmax 3、outFilterMultimapNmax 10、alignEndsType Local-scoreGap-1000-outSAMmultNmax 1的。为了找出在人类基因组上未良好注释的其他sRNA片段，将未比对的读段比对到人类基因组(版本GRCh38.p12)以重复上述数据分析。无论在体内和体外，与对照DMSO组文库相比，NAI-N3修饰组文库中携带突变的比对读段的比例显著地提高,说明NAI-N3确实在逆转录过程引起了突变(图1)。突变率的增加在A和U碱基更为显著，这与先前的观察结果一致，即与G/C相比，单链区域富含A/U(图2)。

计算icSHAPE-MaP结构分数：将样品重复间的数据合并(使用samtools的merge命令)。Shapemapper2(v2.1.4)用于如下计算最终结构分数：

a.用shapemapper_mutation_parser解析每个读段上的突变。该脚本统计了8种突变类型：错配、插入、缺失、多错配、多插入、多缺失、复合插入和复合缺失；

b.用shapemapper_mutation_counter统计每个核苷酸的突变频数；

c.用make_reactivity_profiles.py计算icSHAPE-MaP结构分数；

d.原始结构分数用normalize_profiles.py归一化。

每种碱基的计算过程可以通过以下公式简要总结：

i碱基的icSHAPE-MaP结构分数是NAI-N3修饰样品和对照DMSO组样品中i碱基的突变率之间的差异除以归一化因子f

NAI-N3修饰可引起各种类型的突变，包括错配、插入、缺失和其他复杂突变(图3)。

重复之间的突变率的相关性：通过下采样平衡来自两个重复的总读段计数。所有碱基按覆盖率分类。选择覆盖率大于500、1000、2000、3000、4000或5000的碱基，计算突变率与滑动窗口(窗口大小:50nt，窗口步长:10nt)的重复相关性。最后，根据每个阈值下得到的相关性数据产生累积分布曲线。

具有约束条件的RNA二级结构的计算预测：RNAstructure包(v5.6)中的Fold程序用于预测RNA的二级结构。icSHAPE-Map结构分数用作约束条件，参数为：-si-0.6-sm 1.8-SHAPE icSHAPE-Map.shape-mfe

RNA二级结构可视化：用VARNAv3-93命令行可视化RNA二级结构。使用参数“-basesStyle1 on and-applyBasesStyle1 on”加上碱基的颜色

利用icSHAPE-MaP方法获得了186个转录本的体内结构分数和250个转录本体外的结构分数(图4-5)，其中5S rRNA的结构分数，AUC＝0.825(越接近1越吻合)，表明所得结构分数与已知二级结构模型很好地吻合，与已知结构非常一致，由此证明了icSHAPE-MaP的准确性(参见图5)

利用icSHAPE-MaP方法获得了具有已知二级或三级结构模型的其他sRNA的准确的结构分数，包括RNU7的3'片段(小核RNA，snRNA，AUC＝0.994)和Gln-TTG-2-1(tRNA，AUC＝0.818)(图6)

以2000×测序覆盖率作为阈值，可以得到非常高质量高重复性的结构分数；当在测序成本和数据质量及重复性之间的权衡时，可以看到以500作为测序覆盖度阈值的情况下，超过80％的片段的突变率的皮尔逊相关系数大于0.96，表明我们实验的可重复性很好，1000×或甚至500×覆盖率也可以作为一个合理的阈值(图7)。重要的是，在同样的测序覆盖度阈值下，NAI-N3修饰组(icSHAPE-MaP技术)比DMS修饰组(DMS-MaPseq技术)的可重复性要更好，从测序成本的角度考虑，icSHAPE-MaP技术所需的测序深度更浅，即在同样的数据重复性要求下，我们发现icSHAPE-MaP所需要的测序覆盖度比DMS-MaPseq要小得多的(图8)。

实施例6、icSHAPE-MaP方法在分析Dicer底物中的应用

Dicer属于RNase III家族，它分别将双链RNA(dsRNA)和前体微小RNA(pre-miRNA)发夹切割成成熟的小干扰RNA(siRNA)或微小RNA(miRNA)。Dicer如何精确地确定其底物的切割位点对于RNA干扰(RNAi)和miRNA产生过程是至关重要的。已有的研究表明Dicer采取不同的测量方法来确定其切割位点，1)从dsRNA底物的3'突出末端(3'计数规则)；2)或从pre-miRNA和dsRNA的5'末端的磷酸基团(5'计数规则)测量一定数量的核苷酸；3)此外，在对短发夹RNA(shRNA)和pre-miRNA的体内研究中表明：Dicer使用单链区域(凸起或末端环)来精确地锚定单链区域下游2-nt作为切割位点(环计数规则)。然而，关于这些机制何时以及在多大程度上应用于pre-miRNA加工，尚不清楚。此外，Dicer还可与多种底物结合，却没有对应的miRNA或siRNA产生，这表明它还在RNA代谢中具有其他作用。Dicer是否可以区分，以及如何区分可切割底物和不可切割底物的机制尚不清楚。

通过实施例1-5所述的方法，在Dicer底物的分析中，发现在未修饰的DMSO组文库中检测到了1,595个Dicer富集的RNA(图9)。与其他富集策略相比，富集的RNA列表之间高度相似，相互之间共有的pre-miRNA超过了50％(表1)。除了pre-miRNA之外，我们鉴定了长度中位值约为70-nt的其他细胞内转录本(图10)，包括snoRNA、tRNA、信使RNA(mRNA)的内含子和外显子序列片段以及基因间区来源的转录本，表明大部分Dicer结合片段在60-70nt左右，符合预期。这些内含子和外显子片段的读段覆盖图谱显示出非常清晰的边界，表明它们是由其位置的mRNA加工而成的具有一定功能的产物(图11)。

表1:本发明发现的Dicer结合位点与PAR-CLIP发现的Dicer结合位点的比较

使用RIP-icSHAPE-MaP，我们获得了820个覆盖良好(>1000×测序覆盖度)的RNA的结构信息(图12)。我们发现突变谱在独立的生物学重复内高度相关，这表明该方法的重复性很好(图13)。基于我们的RNA-seq数据，我们使用RIP富集得分将其中的439个RNA分类为Dicer靶标，这其中包括122个pre-miRNA。它们包含了HEK293T细胞中几乎所有的表达水平靠前的pre-miRNA(图14-15)。作为结构建模参照，我们将我们的数据集中tRNA的icSHAPE-MaP结构分数与其在GtRNAdb中公布的结构模型进行了比较，并计算了AUCs。大多数AUCs远高于0.5，中位数在0.7以上，说明大部分tRNA所得结构分数与来自GtRNAdb数据库的二级结构模型吻合得很好(图16)，表明我们的结构探测与tRNA的现有共进化结构模型之间具有良好一致性。

利用本发明，我们获得了pre-miR-125a的具有结构分数约束的结构模型，其含有12-nt末端环(G25-G36)(图17)。相比之下，来自miRbase(版本22.1)的无约束结构模型表明具有多个凸起，内部环和一个较小的末端环(图18)。此外，pre-miR-19a的约束模型显示其具有一个12-nt末端环，而其miRbase模型含有一个更小的末端环，并且与其miRbase模型中的小的3-nt末端环和与其邻近的大的内部环相比，pre-miR-27b的约束模型具有一个6-nt末端环和一个与其邻近的凸起(图19)。大体上，pre-miRNA的约束结构模型的自由能也比来自miRbase的无约束结构模型的更低(p＝1.65e-9)，伪自由能越低表示结构越稳定，可以看出通过结合icSHAPE-MaP结构分数作为约束用RNAstructure进行预测得到的结构模型更为稳定(图20)。这些结果表明，将icSHAPE-MaP结构分数作为约束可以精确地模拟RNA二级结构，以此作为Dicer对其底物的加工和功能研究的结构基础。

序列表

<110> 清华大学

<120> 一种全转录组RNA结构探测的方法及其应用

<130> 1

<160> 5

<170> SIPOSequenceListing 1.0

<210> 1

<211> 20

<212> RNA

<213> 人工序列(Artificial Sequence)

<400> 1

acacgacgcu cuuccgaucu 20

<210> 2

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

agatcggaag agcacacgtc t 21

<210> 3

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

agacgtgtgc tcttccgatc t 21

<210> 4

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 5

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

caagcagaag acggcatacg agatgtgact ggagttcaga cgtgtgctct tccgatct 58

Claims

1.一种RNA结构探测的方法，其特征在于，所述方法包括：1) 用标记试剂修饰RNA，所述标记试剂为NAI-N3；2)对RNA进行处理，所述处理为对RNA进行逆转录获得cDNA；3)对处理后的cDNA进行深度测序；4)依据测序结果计算结构分数，所述计算全长RNA结构分数包括统计各核苷酸位点突变频数及计算突变率的步骤；5)预测RNA结构，其中，

在步骤2）中，经标记试剂修饰的RNA在逆转录前加上5'和3'末端衔接子，在易发生突变的逆转录缓冲液中对RNA进行逆转录，所述易发生突变的逆转录缓冲液为50mM Tris-HClpH 8 .0、500μM dNTP、75mM KCl、10mM DTT、6mM MnCl2；

步骤3)包括将步骤2)所得cDNA加入到PCR反应体系中进行扩增反应，将所得PCR产物进行深度测序。

2.如权利要求1所述的方法，其特征在于，所述RNA为转录组RNA。

3.如权利要求2所述的方法，其特征在于，所述RNA为小RNA或者RNA转录本片段。

4. 如权利要求3所述的方法，其特征在于，所述小RNA为miRNA、pre-miRNA、snoRNA、snRNA、tRNA、穹窿体RNA、5S rRNA或Y RNA。

5.如权利要求2或3所述的方法，其特征在于，所述转录组RNA为全转录组RNA，或者所述RNA转录本片段包括mRNA的exon和intron 、lncRNA的exon和intron。

6.如权利要求1所述的方法，其特征在于，所述步骤5)中预测核酸结构包括将步骤4）中得到的RNA结构分数图谱应用于预测RNA二级结构、三级结构或RNA-蛋白质复合物的空间构象。

7.如权利要求6所述的方法，其特征在于，所述二级结构包括单链RNA、配对的双链RNA、茎环或发卡、突环和接触或多环、内饰环、假结、相吻发卡；所述三级结构为RNA分子基于二级结构在空间构象上由核酸链更深一步折叠所造成的复杂结构。

8.如权利要求1所述的方法，其特征在于，所述步骤1)用标记试剂修饰核酸具体为：将细胞与标记试剂共孵育后，提取RNA；或将体外RNA与标记试剂混合后，用试剂盒纯化提取RNA。

9.如权利要求1所述的方法，其特征在于，5'末端衔接子具有如下基因序列：5’-rArCrArCrGrArCrGrCrUrCrUrUrCrCrGrArUrCrUrNrNrNrNrNrNrNrN-3’ （SEQ ID No.1），3'末端衔接子具有如下基因序列：5’腺苷化-AGATCGGAAGAGCACACGTCT-3’ （SEQ ID No.2）SpacerC3。

10.如权利要求9所述的方法，其特征在于，逆转录反应引物具有5’-AGACGTGTGCTCTTCCGATCT-3’ （SEQ ID No.3）所述的基因序列。

11.如权利要求1所述的方法，其特征在于，所述PCR反应体系包含：P5引物、P3引物、25× SYBR Green、2× Phusion High-Fidelity PCR主混合物，所述P5引物具有5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’ （SEQ ID No.4）所述的基因序列，所述P3引物具有5’-CAAGCAGAAGACGGCATACGAGAT[8 碱基barcode]GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’ （SEQ ID No.5）所述的基因序列。

12.如权利要求11所述的方法，其特征在于，所述P3引物序列中，8碱基barcode用于区分不同样本产生的测序文库。

13.如权利要求1所述的方法，对于步骤4)，计算结构分数包括以下任一步骤之一：

a)对测序数据进行预处理，包括：去除3’接头，过滤高质量读段，再删除重复序列；

b)将干净的读段映射到参考序列上；

c)计算icSHAPE-MaP结构分数；

d)预测RNA二级结构；

e)将RNA二级结构可视化。

14.如权利要求13所述的方法，其特征在于，所述RNA包括小RNA（sRNA）或者蛋白质结合的RNA。

15.如权利要求13所述的方法，其特征在于，在计算icSHAPE-MaP结构分数时，突变率包括所有类型的突变。

16.如权利要求15所述的方法，其特征在于，所述突变包括错配、插入、缺失。

17.如权利要求15所述的方法，其特征在于，使用shape_mutation_counter计算每个碱基的突变率。

18.如权利要求13所述的方法，其特征在于，某碱基i的icSHAPE-MaP结构分数的计算公式为

19.如权利要求1所述的方法，其特征在于，所述方法还包括RNA免疫沉淀的步骤获取RNA。

20.如权利要求19所述的方法，其特征在于，所述RNA为与蛋白质结合的RNA。

21.如权利要求20所述的方法，其特征在于，所述蛋白质包括Dicer。