CN116234903A

CN116234903A - 用于突变谱分析的rna探针及其用途

Info

Publication number: CN116234903A
Application number: CN202180064091.3A
Authority: CN
Inventors: 理查德·馨·小松; 格奥尔格·克里斯蒂安·阿尔特尔; 叶夫根尼娅·埃德列瓦
Original assignee: Xforest Pharmaceutical Co ltd
Current assignee: Xforest Pharmaceutical Co ltd
Priority date: 2020-11-18
Filing date: 2021-11-17
Publication date: 2023-06-06
Anticipated expiration: 2041-11-17
Also published as: JP2022177068A; CA3200114C; IL301876B2; US20240052339A1; JP7141165B1; WO2022107814A1; EP4202056A1; IL301876A; CA3200114A1; CN116234903B; JPWO2022107814A1; IL301876B1; EP4202056A4

Abstract

本发明提供一种分析RNA的高级结构的方法，其包括：(a)制备对分析对象RNA附加了条形码序列的1个或多个RNA探针的工序；(b)使RNA探针与RNA修饰剂接触的工序；以及(c)在由工序(b)得到的RNA探针的序列中，检测受到修饰的碱基的位置和频率的工序，条形码序列具有抑制与RNA修饰剂的反应的结构。该方法在使用RNA库进行突变谱分析的情况下，改善导入的碱基的突变、插入和缺失等的检测精度。

Description

用于突变谱分析的RNA探针及其用途

交叉引用

本申请主张基于在日本于2020年11月18日申请的日本特愿2020-191550号的优先权，该申请中记载的内容全部通过参照直接援引到本说明书中。另外，本申请中引用的所有的专利、专利申请和文献中记载的内容全部通过参照直接援引到本说明书中。

技术领域

本发明涉及用于突变谱分析的RNA探针，更详细而言，涉及对分析对象RNA附加了结构化条形码序列的RNA探针及使用其分析RNA的高级结构的方法。

背景技术

RNA是作为蛋白质合成的模板发挥功能的生物分子，另一方面，RNA自身形成紧密折叠的高级结构，控制基因表达、转录产物的细胞内定位和剪接机制等。这些功能性RNA的大多数通过作为一级序列的碱基在结构形成中立体地采取特定的配置来规定。该RNA高级结构由茎(STEM)、茎环(STEM-LOOP)、吻环(KISSING-LOOP)、多结(MULTI-JUNCTION)、扭结(KINK-TURN)、假结(PSEUDOKNOT)、四链(QUADRUPLEX)等多种结构基序(motif)的组合形成。这些结构基序的种类和组合的数量庞大，而且能够取得多个平衡状态，因此难以预测。针对于此，开发了将对特定碱基的化学修饰反应和通过二代测序得到的序列数据组合来确定RNA高级结构的技术。

例如，选择性地对核酸的糖的2位的碳加以修饰的SHAPE-MaP法(参照专利文献1)、使用硫酸二甲酯(DMS)的DMS-MaPseq法(参照非专利文献1)等的突变谱分析(MutationalProfiling：MaP)用于推定RNA的二级结构。化学修饰的分布与RNA的二级结构相关，在确定互补DNA的碱基序列时，作为由位置特异性的逆转录终止、置换、插入或缺失引起的突变而记录。

突变谱分析通过与二代测序的整合，能够同时分析更广泛的种类的RNA。例如在DMS-MaPseq法、SHAPE-MaP法中，将来自导入有突变的RNA的DNA片段在计算机上对于参考基因组进行映射。通过该操作在混合了多种类的条件下，序列被分类，能够对多个区域、不同的分子的RNA同时计数结构特异性的突变。另外，在PORE-cupine法等中，通过利用nanopore测序仪检测修饰种类带来的直接的电位的变化，能够对同一分子内的突变进行多种类计数(例如，参照非专利文献2)。但是，由于这些在序列的分类中使用了对于参考基因组的映射操作，因此在存在类似的序列的情况下存在不知道来自哪个基因组位置的缺点。例如，可以举出基因家族、烯丙基特异性的RNA等。进而，基于RNA修饰试剂的突变导入使类似的序列的多样性增加，因此增加该效果。

现有技术文献

非专利文献

非专利文献1：Megan Zubradt et al.,DMS-Mapseq for genome-wide ortargeted RNA structure probing in vivo.Nat.Methods.14,75-82(2017)

非专利文献2：Aw,J.G.A.,Lim,S.W.,Wang,J.X.et al.,Determination ofisoform-specific RNA structure with nanopore long reads.Nat.Biotechnol(2020).https://doi.org/10.1038/s41587-020-0712-z

专利文献

专利文献1：日本特许第6612220号公报

发明内容

发明所要解决的技术问题

在使用包含多种类RNA的RNA库进行上述基于化学修饰的突变谱分析的情况下，对于由仅1个或数个碱基不同的序列构成的RNA，存在难以通过互补DNA的比对来识别因化学修饰而产生的突变和能够包含在库中的天然的多样的序列的问题。

本发明的课题在于，在使用RNA库进行突变谱分析的情况下，不对分析对象的RNA高级结构造成影响，而改善所导入的碱基的突变、插入以及缺失等的检测精度。

用于解决问题的手段

本发明是为了解决上述课题而完成的，在进行突变谱分析时，要对RNA库所含的各个RNA附加条形码序列，该条形码序列为不同的固有序列，具有与化学修饰剂的反应被抑制的结构。

即，在本发明的第一观点中，用于分析RNA的高级结构的方法包括：(a)制备对分析对象RNA附加了条形码序列的1个或多个RNA探针的工序；(b)使RNA探针与RNA修饰剂接触的工序；以及(c)在由工序(b)得到的RNA探针的序列中，检测受到修饰的碱基的位置和频率的工序。该条形码序列的特征在于，具有抑制与RNA修饰剂的反应的结构，以及与分析对象RNA不形成高级结构。上述检测工序(c)优选包括以下工序。

(c1)将由工序(b)得到的RNA探针的混合物作为模板，利用逆转录酶合成互补DNA的工序；(c2)确定互补DNA的碱基序列，将包含条形码序列的碱基序列进行比对的工序；以及(c3)检测比对后的碱基序列中产生的突变的位置和频率的工序。

在本发明的其他观点中，提供一种RNA探针以及包含多个该RNA探针的RNA探针库，所述RNA探针包含附加有条形码序列的分析对象RNA，所述条形码序列形成包含多个碱基对的结构。在进一步的实施方式中，提供由该RNA探针库的2个以上的复制物构成的RNA探针库组。被复制的全部RNA探针还包含第二条形码序列，该第二条形码序列在1个库内均为相同序列，但在与其他库之间能够识别。

发明效果

根据本发明，在使用RNA库进行突变谱分析的情况下，不会对分析对象的RNA高级结构造成影响，能够改善所导入的碱基的突变、插入以及缺失等的检测精度。

附图说明

图1是表示一实施方式中的RNA的高级结构的分析方法的流程图。

图2是表示另一实施方式中的RNA的高级结构的分析方法的流程图。

图3是表示在第一库的制作中使用的条形码序列(a)和库结构的概要(b)的示意图。

图4是表示使用37种第一条形码序列和4种第二条形码序列(批次条形码)制作的库结构的概要的示意图。

图5是第一库所包含的RNA探针中、作为单独的股(strand)而合成的2个样本(ID1和ID32)的碱基序列。

图6是表示使用第二库进行的突变谱分析操作的流程的示意图。

图7表示以NAI或DMS进行了化学修饰的样本的条形码内的所有核苷酸的δ突变率的绝对值。结果分别表示为在第一库中的RNA探针中的结构化条形码(ID1-28)和非结构化条形码(ID29-37)。

图8是表示以NAI或DMS对各库进行化学修饰时的关于各核苷酸的δ突变率的结果。X轴表示ID1的靶RNA的序列和基于圆点/括号标记法的推定结构。(a)是利用NAI对第一库以及4种第二库进行处理时的结果，(b)是利用DMS对第一库以及4种第二库进行处理时的结果，(c)是将第二库分别单独地或者合并地利用NAI进行处理时的结果，(d)是将第二库分别单独地或者合并地利用DMS进行处理时的结果。

图9是表示将第二库分别单独地或合并地利用NAI或DMS进行化学修饰时的、将各ID的δ突变率预测为形成碱基对的区域(黑色部分)和未形成碱基对的区域(灰色部分)的核苷酸的δ突变率的核密度分布的小提琴图(violin plot)。(a)是利用NAI处理的样本，(b)是利用DMS处理的样本。各个“小提琴”的左侧是一起获取的4个单独的样本的分布，右侧是合并的样本的分布。在利用DMS处理的样本的情况下，在数值计算中，仅考虑了C和A的突变。

图10是对各ID标绘了读段(read)数的图，该读段数为使用附加了结构化批次条形码的RNA探针库组，无修饰剂地进行突变谱分析，将赋予了ID1的RNA探针库的二代序列中得到的所有读取，对从ID1赋予了96个条形码的RNA探针库组的文件进行映射时的读段数。

图11是对各ID标绘了读段数的图，该读段数为使用附加了结构化批次条形码的RNA探针库组进行利用DMS的突变谱分析，将赋予了ID2的RNA探针库的二代序列中得到的所有读取，对从ID1赋予了96个条形码的RNA探针库组的文件进行映射时的读段数。

图12表示使用附加了结构化批次条形码的RNA探针库组，在无修饰剂的情况下进行突变谱分析，对各个RNA标绘判定为正确的ID的比例的结果。

图13表示使用附加了结构化批次条形码的RNA探针库组进行利用DMS的突变谱分析，对各个RNA标绘判定为正确的ID的比例的结果。

图14是对各ID标绘读段数得到的标绘图，该读段数为将使用结构化批次条形码进行突变谱分析后，与多个索引(index)组合而进行二代测序，将从赋予了ID7的RNA探针库得到的所有读段，对从ID1赋予了96个条形码的RNA探针库组进行映射时的读段数。

图15是对结构化批次条形码赋予以1对1对应的索引而进行的二代测序的结果，标绘对索引ID进行了映射的结构化批次条形码ID的读段数的标绘图。

图16是标绘在图15中被赋予了各结构化批次条形码ID的RNA探针库中误判的RNA的种类(RNA ID)数的标绘图。

图17是对结构化批次条形码赋予以1对1对应的索引而进行二代测序，按每个索引标绘结构化批次条形码的ID的判定中的准确性的结果。

图18是表示实施例4中使用的结构化批次条形码序列的例子(ID12和ID28)的图。

具体实施方式

接着，参照附图对本发明的各实施方式进行说明。应予说明，以下说明的各实施方式并非对专利保护范围涉及的发明进行限定，另外，各实施方式中说明的各要素以及其全部组合对于本发明的解决手段而言不一定是必须的。

(定义)

在本说明书中，“分析对象RNA”或“靶RNA”具有互换的含义，是指具有在生物体内存在与低分子化合物、蛋白质相互作用的可能性的序列的RNA分子。该分析对象RNA可以直接使用从生物体提取而得到的生物学试样，或者也可以是人工合成的RNA。在人工合成的情况下，优选包含基于RNA的序列信息提取的、作为RNA的功能结构单元的基序区域。“基序区域”是指用于与RNA为对象的物质相互作用的功能结构单元。将作为该RNA基序的构成要素的茎-环、假结等称为结构基序，通过该结构基序的组合形成RNA的高级结构。本发明的RNA探针中所含的基序区域既有由单一的茎环结构(发夹环结构)构成的情况，也有包含多个茎环结构(多分支环结构)的情况。另外，有时也包含1个以上的扭结(kink-turn)、假结(pseudoknot)、鸟嘌呤四链(G-quadruplex)等。另外，结构基序不仅可以由Watson-Crick碱基对构成，也可以由Hoogsteen碱基对构成。

“RNA探针”是包含分析对象RNA的核酸分子，优选是由RNA构成的核酸分子，是指附加有用于扩增的引物结合部位、条形码序列等的核酸分子。另外，“库”是指多个(2个以上)种类不同的分子(例如，多个不同的DNA分子或多个不同的RNA分子等)的集合。在本实施方式涉及的方法中，可以根据需要使用多个RNA探针进行分析，因此用语“库”可以优选包含10个以上、更优选包含10²个以上、10³个以上、或10⁴个以上、进一步优选包含10⁶个以上的不同的RNA分子。

“RNA的高级结构”是指在溶液中主要基于分子内碱基对形成的部分双链形成(也称为茎结构)、和没有该碱基对形成的部分的单链结构、或环状单链结构(称为环结构)、或它们的组合。这样的结构根据溶液的状态(温度、盐浓度等)处于特定的平衡状态，与RNA分子的运动一起变动。“茎结构”是指由RNA中所含的任意的核酸序列和与该核酸序列互补的序列形成的双重螺旋结构。在本说明书中，“互补”是指2个核酸序列杂交的能力，只要2个序列杂交即可，因此构成茎结构的2个核酸序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、99％或100％的序列互补性即可。

“条形码序列”是指具有对于核酸分子按每1种或每1分子附加的固有序列的标签。也被称为“索引”或“固有分子标识符(Unique Molecular Identifier：UMI)”等。典型地，UMI通过对溶液中的各分子分配随机序列，目的在于基于扩增偏差(bias)减少的定量性提高。如果对于多个分析对象RNA，附加具有每种RNA不同的固有序列的条形码序列，则在将多个RNA同时进行修饰处理以及扩增处理后，能够基于所附加的条形码的种类，识别各RNA并进行分析。另外，通过基于每种反应溶液、每种反应条件不同的条形码来识别各实验系列，能够从同一二代序列数据中分类得到多个实验数据，能够进行高效率的数据分析。

条形码序列例如可以作为具有随机碱基的核酸组而提供。条形码序列由于其序列的种类的数量是重要的，因此也可以是序列被随机(序列多样且不需要识别序列的内容)合成的。或者，条形码序列也可以是设计为能够得到充分的多样性的序列已知的核酸组。

(分析RNA的高级结构的方法)

图1是表示本发明的一实施方式中的RNA的高级结构的分析方法的流程图。该方法包括：制备对分析对象RNA附加了条形码序列的1个或多个RNA探针的工序(S10)；使RNA探针与RNA修饰剂接触的工序(S20)；检测由工序S20得到的RNA探针的序列中受到修饰的碱基的位置和频率的工序(S30)；以及进一步根据需要显示检测结果的工序(S40)。在此，其特征在于，条形码序列具有抑制与RNA修饰剂的反应的结构。

另外，另一实施方式中的分析RNA的高级结构的方法，如图2所示，优选上述检测工序(S30)由以下工序构成：将由工序S20得到的RNA探针的混合物作为模板，利用逆转录酶合成互补DNA的工序(S31)；确定互补DNA的碱基序列，将包含条形码序列的碱基序列进行比对的工序(S32)；和检测在比对后的碱基序列中产生的突变的位置和频率的工序(S33)。以下，对这些各工序进行详细地说明。

＜RNA探针的制备工序(S10)＞

分析对象RNA优选包含用于发挥在生物体内的功能的基序区域。该基序区域既有由单一的茎环结构(发夹环结构)构成的情况，也有包含多个茎环结构(多分支环结构)的情况。在本实施方式中，优选以茎结构为基准提取基序区域(例如，参照WO2018/003809说明书)。由此，能够在不分割基序区域的情况下制备反映了在RNA中实际存在的功能结构单元的RNA探针。基序区域以维持其功能为限度，可以为任意的序列长度，例如可以为1000个碱基以下、900个碱基以下、800个碱基以下、700个碱基以下、600个碱基以下、500个碱基以下、400个碱基以下、300个碱基以下、200个碱基以下、150个碱基以下、100个碱基以下、50个碱基以下。

在包含上述分析对象RNA的RNA探针的制备方法中，RNA中的茎结构例如可以使用CentroidFold(Hamada，M.et al.，Bioinformatics，Vol.25，pp465-473，2009)或IPknot(Sato，K.et al.，Methods Biochem.Anal.，Vol.27，pp.i85-i93，2011)等RNA二级结构预测软件进行识别。另外，对于RNA的序列信息，可以使用任意的物质，例如，可以使用从UTRdb(Grillo，G.et al.，Acids Res.，Vol.38，D75-D80，2010)、IRESite(Mokrejs，M.et al.，Nucl.Acids Res.，Vol.38，D131-D136，2010)、GenBank(Benson，D.et al.，Nucl.AcidsRes.，Vol.41，D36-D42，2013)、RNAcentral(RNAcentral，Consortium，NUcl.Acids Res.，Vol.43，D123-D129，2015)等RNA序列数据库下载的信息。另外，也可以从不仅包含RNA的序列信息还包含结构信息的数据库获取RNA的序列信息，例如也可以使用从Rfam(Nawrocki，E.P.et al.，Nucl.Acids Res.，Vol.43，D130-D137，2015)、Structure Surfer(Berkowitz，N.D.et al.，BMC Bioinformatics，Vol.17，p.215，2016)等下载的信息。另外，也可以使用通过各种方法确定的RNA的三维结构数据，例如，能够使用从Protein Data bank(https：//www.rcsb.org/)等下载的数据。另外，也可以是自身设计的RNA高级结构，例如，也可以使用由RNAinverse等软件设计的数据。

在本工序中，其特征在于，附加于分析对象RNA的条形码序列被结构化。“结构化”是指，RNA在溶液中被折叠而形成二级、三级结构，或者停留在一级结构(序列)的状态，由此抑制与RNA修饰剂的反应。例如，当RNA修饰剂为选择性地修饰RNA探针中的单链区域这样的非约束核苷酸(日语：非拘束ヌクレオチド)的化合物时，条形码序列可以设计成形成包含难以受到这样的修饰的多个碱基对的结构。多个碱基对是指连续或分离的2个以上碱基在与条形码序列内的其他碱基之间形成氢键，也可以是Watson-Crick型碱基对或Hoogsteen型碱基对等中的任一种。也可以是具有与Watson-Crick型碱基对相同程度的热力学稳定性的G-U摆动碱基对。在与生物体内同样的环境或条件下，如果有2个以上的碱基对，则至少可以暂时形成稳定的结构，但为了形成更稳定的结构，优选3个以上的碱基对，进一步优选4个以上的碱基对，更进一步优选5个以上的碱基对。碱基对的个数的上限没有特别限制，只要有10个左右的碱基对，就能够得到充分稳定的结构，因此从成本的观点出发，优选30个以下的碱基对，更优选20个以下的碱基对，进一步优选15个以下的碱基对。另一方面，当RNA修饰剂选择性地修饰在RNA探针中形成双链这样的约束核苷酸(日语：拘束ヌクレオチド)时，条形码序列优选设计为维持未形成碱基对的序列、即单链的结构。进而，具有该结构的条形码序列优选以不对分析对象的RNA造成影响的方式在计算机上优化序列。这是为了避免条形码序列的赋予本身与分析对象的RNA因分子内相互作用而形成与原来的RNA结构相差甚远的结构、或者对结构的稳定性产生影响的问题。计算机的序列最佳化可以使用ViennaRNApackage等公知的程序来进行。

＜RNA探针的修饰工序(S20)＞

本工序(S20)中的RNA的修饰反应是通过使在前工序(S10)中制备的RNA探针与期望的RNA修饰剂接触而引起RNA探针的修饰反应的反应。作为一个实施方式，该RNA修饰剂可举出选择性地修饰RNA探针中的单链区域这样的非约束核苷酸的化合物。这样的化合物典型地包括但不限于作为SHAPE试剂已知的与核糖-2’-羟基反应的衣托酸酐衍生物，例如1-甲基-7-硝基衣托酸酐(1M7)、1-甲基-6-硝基衣托酸酐(1M6)、NMIA(N-甲基衣托酸酐)和2-甲基烟酸咪唑啉(NAI)。除了SHAPE试剂以外，硫酸二甲酯(DMS)在腺苷的N1位置、胞嘧啶的N3位置、以及尿苷的N3位置、鸟苷的N1位置形成加成物，因此能够作为RNA修饰剂使用。作为一例，NAI一般与全部4个核苷酸反应，DMS仅与腺嘌呤和胞嘧啶反应。另一方面，DMS在偏向碱性的pH(例如pH8.0)条件下也能够与鸟嘌呤和尿苷反应。

作为其他实施方式，RNA修饰剂也可以选择性地修饰在RNA探针中形成双链那样的约束核苷酸。该RNA修饰剂例如包含作为分解双链RNA的酶的RNASEV1、RNASEIII家族的DICER、或者双链结合蛋白与RNA修饰蛋白的融合蛋白等，但并不限定于这些。

将含有这样的RNA修饰剂的溶剂溶液添加到包含RNA探针的溶液中，使RNA探针与RNA修饰剂接触。该溶液可以是含有不同浓度和量的蛋白质、细胞、病毒、脂质、单糖和多糖类、氨基酸、核苷酸、DNA、以及各种盐和代谢产物的生物体溶液。另外，也可以是含有不同浓度和量的低分子、中分子药剂的溶液。另外，也可以含有各种表面活性剂、聚合物、渗透调节物质(osmolyte)。RNA修饰剂的浓度可以调整为对RNA实现所期望的修饰的程度。

进而，分析对象RNA能够在蛋白质或其他低分子和高分子的生物学配体的存在下进行修饰。在RNA修饰剂的反应性依赖于pH的情况下，可以将其pH维持在例如7.5～9.0的范围，但并不限定于此。区分最大的反应性和最小的反应性核苷酸的功能范围典型地达到了20～50倍。可以通过将RNA以在期望的pH(例如，约pH8)折叠到期望的立体构象的任意顺序进行置换。为了排除多聚体形态，可以首先加热该RNA，接着快速在低离子强度缓冲液中进行冷却。接着，添加折叠溶液，RNA达成正确的立体构象，可以作为用于用结构灵敏度良好的RNA修饰剂进行探索的准备。在一些实施方式中，RNA在修饰前没有被自然地折叠。在RNA被热和/或低盐条件改性的期间，可以进行修饰。

＜修饰碱基的检测工序(S30)＞

本工序是在由上述修饰工序(S20)得到的RNA探针的序列中，检测受到修饰的碱基的位置和频率的工序。只要是读取RNA序列中的修饰碱基的方法就没有特别限定，例如可以是使用对修饰碱基特异性的抗体的pull-down法、读取直接RNA的电位的纳米孔测序法。该直接RNA纳米孔测序法是用于以单一分子级别检测RNA的修饰部位的技术。目前，在OxfordNanopore Technologies开发和市售的直接RNA测序平台中，介由悬浮在膜中的生物学纳米孔，与动力蛋白结合的RNA进行移动。RNA在偏压下通过细孔时，依赖于通过细孔狭窄部的短序列(5个核苷酸)的化学一致性(即序列)，观察到皮安的离子电流的变化(参照Garalde，D.R.，et al.(2018)Highly parallel direct RNAsequencing on an array ofnanopores.Nat.Methods，以及Workman，R.E.，et al.(2019)Nanopore native RNAsequencing of a human poly(A)，transcriptome.Nat.Methods，16，1297-1305.)。报道了能够通过该方法检测出由作为SHAPE试剂之一的1-乙酰基咪唑(Aclm)修饰的核苷酸(William Stephenson et al.，Direct detection of RNAmodifications and structureusing single molecule nanopore sequencing.bioRxiv doi：https：//doi.org/10.1101/2020.05.31.126763，Posted June 01，2020)。

在优选的实施方式中，修饰碱基的检测工序(S30)如图2所示，是包含从RNA向互补DNA(cDNA)的转换的突变谱分析。在本实施方式中，首先，将由工序S20得到的RNA探针的混合物作为模板，通过逆转录酶或其他聚合酶合成cDNA(S31)。逆转录酶是从RNA合成cDNA的酶，例如可以举出小鼠或鸟类的逆转录酶那样的热稳定性酶，但并不限定于这些酶。或者，也可以是存在于原核生物、真菌等的逆转录转座子内的逆转录酶TGIRT(ThermostableGroup II intron reverse transcriptase)。InGex公司的TGIRT-III与以往的来自逆转录病毒的逆转录酶相比，热稳定性、处理性、准确性优异。另外，已知在基于DMS的修饰部位在逆转录时诱发突变的性质(DMS-MaPseq法)。

这些酶包含如下方法：跳读过包含加成物的核苷酸，通过在化学修饰的部位纳入不正确的(非互补的)核苷酸，检测RNA中的化学修饰。在本说明书中使用的与核苷酸的引入相关的“不正确的”是指对原来的序列中存在的核苷酸纳入非互补的核苷酸(违反Watson-Crick的规则的核苷酸)。这包括序列内的少数缺失。

接着，确定cDNA的碱基序列，将包含条形码序列的碱基序列进行比对(S32)。cDNA通过使用源自多种RNA探针的混合物的库，能够使用大规模平行测序法(MPS)，高效率地检测RNA等核酸中的化学修饰。作为一例，在illumina公司的二代测序仪中，经由数千万～数亿的DNA片段的两端部的接合器将5’末端侧固定在流动槽(flow cell)上。接着，使预先固定在流动槽上的5’末端侧的接合器与DNA片段的3’末端侧的接合器序列退火，形成桥状的DNA片段。通过在该状态下进行利用DNA聚合酶的核酸扩增反应，能够将多个单链DNA片段局部扩增并固定。而且，在二代测序仪中，通过以得到的单链DNA为模板进行测序，能够在2020年当前，在一次分析中得到约3Tb这样的庞大的序列信息。高速且并列地判读核酸的这些技术也被称为“二代测序(Next-Generation Sequencing(NGS)”、“大规模平行测序”、“超高通量基因测序(Ultra-High-Throughput Sequencing)”或“大规模平行测序”等。

在一个实施方式中，将由二代测序仪得到的序列数据(读段)以包含条形码序列的形式进行比对。这是因为，通过针对每个条形码序列比对序列数据，能够同时对包含多种RNA探针的样本进行测序。另外，即使在分析对象RNA包含类似的序列，例如基因家族、单碱基多态性等的情况下，也能够识别并分析它们。

或者，也可以在将所有的cDNA一起比对后，关于可靠度低的比对物，通过加入条形码的突变信息来评价其比对。在任一方法中，均可通过将分析对象RNA序列与条形码序列一起比对，提高序列信息的准确性。

基于这样比对的碱基序列，检测产生的突变的位置和频率(S33)。在规定的核苷酸中的突变率是单纯地在该位置将突变数(错配、缺失和插入)除以读取次数而得到的。关于各核苷酸计算出未加工过的反应性的数据可以使用各种基准进行标准化。通过考虑序列的读取深度、标准误差，能够进行数据的品质管理。

＜检测结果的显示(S40)＞

上述工序中检测出的突变的位置和频率可以用突变直方图、序列的深度和反应性谱等本领域技术人员已知的方法来图示。突变位置和频率的分析可以使用BWA、STAR等比对软件(alignment software)。这些数据作为突变计数被数值化、矢量化，能够实施各种运算。另外，能够对表示统计学优势的反应性的突变附加注释。

本工序中的这些分析能够使用保存在计算机可读取介质中的计算机程序产品来实施。为了实施本发明，在适当的例示的计算机可读取介质中，包括芯片存储设备、盘存储装置、可编程逻辑设备以及面向特定用途集成电路。进而，实施本工序的计算机程序产品能够设置在单一设备或者计算平台上，或者能够分散在多个设备或者计算平台之间。因此，能够将通过本实施方式的方法取得的RNA的高级结构显示在与计算机连接的显示器上。

(作用效果)

本实施方式中公开的结构化条形码具有几个有利的作用效果。一个是在与RNA修饰剂的反应中，条形码序列被修饰的可能性低，能够正确地识别为条形码。另外，抑制条形码部分与分析对象RNA或其他的RNA分子相互作用。由此，结构化条形码序列不仅能够识别为库内的类似序列，还能够区分相同库的不同批次。例如，图4表示使用37种第一条形码序列和4种第二条形码序列制作库组的方法。通过使用4种不同引物对由最初制作的37种DNA构成的库进行扩增，在一个库内是相同的序列，但在不同批次的库中附加具有不同的序列的第二条形码序列。通过使用这些进行体外转录反应，能够制作附加有2种条形码序列的RNA库组。

(RNA探针和RNA探针库)

作为本发明的其他实施方式，提供了包含结构化的条形码序列的RNA探针和包含多个该RNA探针的RNA探针库。在一个实施方式中，结构化条形码序列是指形成包含多个碱基对的结构的条形码序列。作为本实施方式的条形码序列，例如可举出包含互补双链结构、三链结构或四链结构，具体而言，可举出茎环结构、假结结构等。虽然茎部分形成互补双链，但为了增加序列的多样性，也可以包含具有与Watson-Crick型碱基对相同程度的热力学稳定性的G-U、I-U、I-A以及I-C的摆动碱基对(wobble base pair)。I表示肌苷，作为其碱基的次黄嘌呤可以与尿嘧啶、腺嘌呤、胞嘧啶形成碱基对。尿嘧啶可以与鸟嘌呤和腺嘌呤这2种碱基配对。

在其他实施方式中，包含多个碱基对的结构为茎环结构，在茎部位具有1个以上的凸起(bulge)和/或内部环结构。由此，能够提高结构化条形码所能取得的高级结构的多样性、种类。另外，能够同时搭载成为结构特异性突变的阴性对照、阳性对照的碱基。另外，对于在单链RNA修饰剂中，对末端环进行修饰，但对于凸起、内部环不进行修饰的分子种类，结构化条形码作为对照发挥功能。

在一些实施方式中，包含多个碱基对的结构是在PDB(Protein Data Bank)中登记的RNA结构或其突变体。由此，能够使非Watson-Crick型的RNA高级结构条形码化。例如，由此作为针对非Watson-Crick型碱基对的RNA高级结构的修饰剂的结构化条形码是有用的。

在本实施方式的RNA探针中的结构化条形码序列的位置没有特别限制，可以配置在任意的位置。例如，可以是分析对象RNA的5'末端侧，也可以是3'末端侧。或者，形成互补链的条形码序列的一方的链位于分析对象RNA的5’末端侧，另一方的链位于3’末端侧，它们以夹着分析对象RNA的方式形成双链。另外，结构化条形码序列的数量也没有特别限定，可以存在多个相同或不同的序列的结构化条形码。

在本实施方式的RNA探针中，作为分析对象RNA包含至少包含1个结构基序的RNA基序。在该基序区域中，可以使用从任意的RNA序列信息提取的信息。或者，在本发明的RNA探针中包含的基序区域中，也可以使用从通过RNA结构组(structurome)研究已经确定的任意的RNA二级结构数据中选择的数据。

进而，为了进行检测，该RNA探针可以通过荧光染料(例如，FITC、PE、Cy3、Cy5等)、放射性同位素、地高辛(DIG)、生物素等进行标记。标记可以通过在探针合成时引入预先标记的核酸来进行，例如，可以引入标记于5’侧的人工核酸。另外，可以引入标记于RNA全长的人工核酸。3’侧可以标记例如使用T4 RNA ligase 1标记的人工核酸。标记也可以通过点击反应等而多阶段地进行。例如，对于使用T4 RNA ligase 1对3’末端赋予了pCp-N3的RNA，通过使DBCO-biotin、DBCO-Cy3反应，能够使荧光染料、生物素引入RNA。这些标记的比例可以为10，20，30，40，50，60，70，80，90，99，100％。

本实施方式的RNA探针可以通过以往公知的任意基因工程学的方法来合成。优选RNA探针可以通过转录委托合成的受托商而合成的模板DNA来制作。为了进行从DNA向RNA的转录，包含RNA探针的序列的DNA也可以具有启动子序列。虽然没有特别限定，但作为优选的启动子序列，可例示T7启动子序列。在使用T7启动子序列的情况下，例如可以使用由LifeTechnologies公司提供的MEGAshortscript(商标)T7 Transcription Kit从具有期望的RNA探针序列的DNA进行RNA的转录。在本发明中，RNA不仅可以是腺嘌呤、鸟嘌呤、胞嘧啶、尿嘧啶，也可以是修饰RNA。修饰RNA例如可例示：假尿苷、5-甲基胞嘧啶、5-甲基尿苷、2'-O-甲基尿苷、2-硫代尿苷、以及N6-甲基腺苷。

在一个实施方式中，提供一种RNA探针库，其包含分别包含不同序列的分析对象RNA的多个RNA探针。在本实施方式中，优选同时准备多种RNA探针，优选使用高效率地含有RNA探针的模板的寡核苷酸库合成(Oligonucleotide Library Synthesis)技术来进行。这是使用在载玻片上规定的位置打印各个碱基的喷墨技术，一次各合成一个碱基，使指定长度的模板DNA伸长。接着，将所构建的寡核苷酸从载玻片切断，并进行合并后，进行干燥，放入一个管中进行保存。其后，寡核苷酸在再溶解、扩增后，可以通过体外转录反应制备RNA探针库。在本发明中没有特别限定，但寡核苷酸库合成(Oligonucleotide LibrarySynthesis)可以通过委托安捷伦科技公司或twist bioscience公司来制作。

进而，在其他实施方式中，通过使用包含第二条形码序列的多个引物将包含多个RNA探针的本实施方式的RNA探针库进行扩增，能够制备由2个以上的复制物构成的RNA探针库组。被复制的所有RNA探针包含第一条形码和第二条形码序列，该第二条形码序列在一个库内均为相同序列，但在与其他库之间能够识别。根据后述的实施例，认为即使在混合多个RNA探针库来进行突变谱分析的情况下，也得到了与使用各自的RNA探针库进行的情况相同的结果，因此使用各RNA探针库分别进行不同的突变谱分析后，将它们混合而进行了二代测序后，能够使用第二条形码序列来识别各自的突变谱分析。因此，通过赋予第二条形码序列，即使在进行了反应条件不同的突变谱分析的情况下，也能够在同一条件下制备二代测序用库，能够实现突变的谱分析工序的显著的效率化。通过在包含该第一和第二条形码序列的RNA探针库组中进一步附加不同的条形码序列，也可以制作包含3种或其以上的条形码序列的RNA探针库组。

本实施方式的RNA库可以作为用于进行RNA的化学修饰的分析和/或RNA结构分析的试剂盒使用。作为这样试剂盒的使用方法，包括本发明中涉及的RNA的高级结构分析方法。接着列举实施例，更详细地说明本发明，但本发明并不受到这些实施例的任何限制。

实施例

[实施例1]

材料和方法

(条形码序列的设计)

在本实施例中的条形码序列使用不同长度的茎和环。随机地生成包含正规碱基对和GU摆动碱基对的、长度为6、7或8个碱基对(bp)的茎。针对每个茎的长度，使用了3个不同长度的环。对于各条形码，选择4个四环(UUCG、GAGA、GCUU、GUAA)中的任意一种、或选择3或5个碱基长度的序列(UCG、AGA、CUU、UAA、UUACG、GAAGA、GCUAU、AGUAA)中的任意一种。使用ViennaRNA Package，以正确地折叠条形码的方式来控制。作为对照，生成没有被结构化的10、15和21个碱基长度的条形码。

(靶RNA序列)

为了证实结构化条形码的有用性，作为靶RNA使用以下的序列：

5′-GUGUAUGAUGAAACUACAUUAAGUUAACUCGUGCAC-3′(序列号1)。从该序列，选择不形成碱基对的12处位置，在各位置，制作改变为其他3个全部碱基的点突变体，由此得到36个点突变体。由此，得到合计37个序列。该37个序列的任意配对只有1个或2个碱基不同。

(第一库设计)

图3示出了用于第一库的条形码序列和库结构的概要。图3(a)是一个RNA探针(ID1)的条形码序列，由7bp的茎和4个核苷酸的环构成。第一库序列在5’至3’的方向上具有以下4个部分：

i)通过体外转录(IVT)的RNA库的生成与序列用库的制备所需的5’盒(图3(b)中的5’侧的虚线)；

ii)每个序列不同的条形码序列(包括图3(b)的结构化条形码的ID1～28和包含非结构化条形码的ID29～37)；

iii)在两侧邻接2个碱基的间隔子(spacer)的靶RNA序列(图3(b)的实线，应予说明，用三角形表示序列中的点突变。)

iv)通过体外转录(IVT)的RNA库的生成、逆转录和序列用库的制备所需的3’盒(图3(b)中的3’侧的虚线)。

(第二库设计)

图4示出了用于第二库的条形码序列和库结构的概要。基于该设计的RNA包含库内条形码(第一条形码)和批次条形码(第二条形码)这2个条形码。从5’到3’的方向上可以分为以下4个部分：

i)与第一库设计中使用的盒相同的5’盒；

ii)与第一库设计中使用的序列相同的条形码序列；

iii)在两侧邻接2个碱基的间隔子的靶RNA序列；

iv)增强引物结合的12个碱基的连接子序列。

在进行体外转录(IVT)之前，进一步通过聚合酶链式反应(PCR)安装以下2个部分。

v)4种批次条形码。该条形码在一个批次内的所有靶RNA中是相同的序列。

vi)与第一库设计中使用的盒相同的3'盒。

用于扩增第二库的引物的碱基序列如下。

[表1]

(DNA链的合成)

上述的库和引物以DNA的形式委托于Integrated DNA Technologies，Inc.(IDT公司)而合成。作为对照，合成具有在第一库中设计的结构或非结构化条形码序列的2个单独的RNA探针(分别为ID1和ID32)。

(从DNA合成RNA)

首先，使用Platinum^TMSuperFi^TMPCR Master Mix(赛默飞世尔科技公司制造)，通过PCR扩增库。第一库和该库中的2个单独的单链RNA使用中，使用了在T7RNA聚合酶启动子序列(IVT的识别位点：5'-TAATACGACTCACTATAG-3'(序列号6))的下游具有5'盒序列的正向引物和具有与3'盒序列互补的序列的反向引物。作为用于制备第二库的反向引物，使用Pr_d2a(序列号2)、Pr_d2b(序列号3)、Pr_d2c(序列号4)和Pr_d2d(序列号5)制作4个不同的批次，并附加条形码。在所有的反应中，各引物以最终浓度成为500nM的方式添加，模板以总浓度为0.4nM提供。反应容量为25μL。所有的PCR在赛默飞世尔科技公司(Thermo FisherScientific Co.,Ltd)的ProFlex^TMPCR系统中进行。

最初在98℃下加热30秒后，进行98℃下10秒、68℃下10秒、72℃下15秒的3步PCR。最后的循环后，温度在72℃下保持5分钟，然后冷却至4℃。将2.5μL的核酸外切酶I(NewEngland Biolabs Inc.)加入各管中，在37℃下孵育15分钟后，再次冷却至4℃。纯化是使用Monarch(注册商标)PCR&DNACleanup Kit(5μg)(New England Biolabs Inc.)的DNA清除和浓缩方案。对于最终溶出，使用10μL的DNA溶出缓冲液。使用赛默飞世尔科技公司的NanoDrop^TMOne，测定最终浓度。

制备的双链DNA作为使用MEGAshortscrip^TMT7转录试剂盒(赛默飞世尔科技公司)的IVT反应的模板使用。反应按照手册进行制备。反应容量为20μL，模板浓度为100nM。将反应物在37℃下孵育6小时后，用TURBO DNase(附属于试剂盒)在37℃下处理15分钟。接着，用Zymo Research的RNAClean&Concentrator-25纯化。

在图5中示出在通过体外转录反应而合成的第一库中所含的RNA探针中的作为单独股而合成的ID1(序列号7)和ID32(序列号8)的碱基序列。在图5中，用方形包围各个条形码序列部分，对靶RNA序列标注下划线。

(用于结构谱分析的RNA的制备)

在RNA修饰中使用2个不同的化学修饰剂。是从Sigma-Aldrich购买的甲基化剂的硫酸二甲酯(DMS)、和SHAPE试剂2-甲基烟酸咪唑啉(NAI)。在使用两者的修饰剂的实验中，使用相同的RNA制备物。将溶解于6μL水的250ng的RNA(单链或合并)在95℃下孵育2分钟，在冰上至少急速冷却2分钟。接着，加入3μL的3.3×折叠缓冲液，将样本在37℃下孵育20分钟(1×折叠缓冲液由100mM HEPES(pH8.0)、100mM NaCl、10mM MgCl₂构成)。

(基于NAI的结构谱分析修饰)

将1000mM的NAI溶液1μL加入到空的0.2mL的PCR管中。直至添加RNA之前，将管维持在冰上。在37℃下，将包含RNA的9μL样本加入到NAI中，将溶液上下吸液混合。将样本在37℃下放置10分钟。

反应停止后，用Zymo Research公司的RNAClean and Concentrator-5试剂盒纯化RNA，使最终溶出量为15μL。对于用NAI修饰后的各RNA样本，使用1μL的DMSO代替NAI，制备用相同的方法处理的对照样本。

(基于DMS的结构谱分析修饰)

在37℃下，将包含乙醇的1μL的50％DMS加入到包含预先制备的RNA的9μL的样本中。将样本在37℃下放置6分钟。用5μL的β-巯基乙醇停止反应，完全混合后，在37℃孵育2分钟。接着，用Zymo Research的RNA Clean and Concentrator-5试剂盒纯化RNA，使最终溶出量为15μL。对于用DMS修饰后的各RNA样本，使用1μL的50％乙醇水溶液代替DMS，制备用相同的方法处理的对照样本。

(用于突变谱分析的逆转录)

修饰后的RNA样本使用具有与3'盒序列互补的序列的反向引物进行逆转录反应。在NAI修饰RNA的情况下，在锰的存在下使用酶SuperScript^TMII逆转录酶(赛默飞世尔科技公司)。在DMS修饰RNA的情况下，使用TGIRT^TM-III酶(InGex)。无论哪种情况，都将1μL的2μM反向引物与2μL的10mMdNTP(New England Biolabs)和7μL预先修饰后的RNA混合。样本在赛默飞世尔科技公司的ProFlex^TMPCR系统中被退火(在85℃，1分钟→65℃，10分钟→4℃下保持)，其也用于逆转录步骤。接着，添加9μL的2.22×MaP缓冲液，在室温孵育2分钟，加入1μL的酶，将样本放入循环器中进行逆转录(参照表2)。

[表2]

逆转录结束后，加入1μL的RNaseH，将样本在37℃孵育20分钟。纯化中，使用AMPureXP(Beckman Coulter制造)，根据方案进行纯化。为了溶出，向干燥的珠中加入14μL水，充分混合，在室温下孵育10分钟，回收12.5μL的上清液。

(二代测序用库的制备)

在库的准备中，进行了扩增子PCR和索引PCR的2个PCR。扩增子PCR用1ng的逆转录产物以25μL的反应容量使用。其他反应组成使用1xPlatinum^TMSuperFi^TMPCR Master Mix和1×SuperFi GC Enhancer(均为赛默飞世尔科技公司制造)、500nM的正向引物和反向引物。将样本移至ProFlex^TMPCR系统。最初，在加热至98℃30秒后，进行在98℃下10秒、在64℃下10秒、在72℃下20秒的3步PCR。最后的循环后，温度在72℃下保持5分钟，然后冷却至4℃。纯化是使用Monarch(注册商标)PCR&DNACleanup Kit(5μg)(New England Biolabs Inc.)的DNA清除和浓缩方案。对于最终溶出，使用8μL的DNA溶出缓冲液。由此，完成了添加二代测序用索引的准备。

接着，以25μL的反应容量使用1ng的扩增子PCR产物进行索引PCR。其他反应组成是1xPlatinum^TMSuperFi^TMPCR Master Mix和Nextera XT Index Kit v2(Illumina)的1μM索引引物。将样本移至ProFlex^TMPCR系统。最初在98℃下加热30秒后，进行在98℃下10秒，在55℃下10秒，在72℃下20秒的3循环PCR，将其进行6个循环。最后的循环后，温度在72℃下保持5分钟，然后冷却至4℃。纯化是使用AMPure XP(Beckman Coulter制造)进行清理。为了溶出，向干燥的珠中加入13μL水，充分混合，在室温下孵育10分钟，回收12μL的上清液。然后，为了二代测序将样本一起混合。

(二代测序)

在测序中，使用了NextSeq500/550Mid Output试剂盒v2.5(illumina公司、150循环)，其使用了双端读段(pair-end reads)和标准读段引物。

(比对和数据分析)

FASTQ文件的接头(adaptor)在最初被修整，接着，将使用比对软件生成的FASTQ文件的读段使用比对软件对包含参照序列的文件(参考文件)进行映射。在本分析中，使用STAR比对软件进行映射。为了进一步的分析，对突变、缺失和插入进行计数。

图6是表示使用第二库进行的突变谱分析的操作流程的示意图。将分别进行了化学修饰的4个库集中在1根管中进行逆转录反应。另一方面，作为比较对照用的样本，准备对上述4个库分别进行逆转录反应的4根管。

结果与考察

(用于区别RNA库内的序列的条形码)

为了测试条形码是否有助于在突变谱分析实验中区分类似的序列，使用了基于第一设计的库。作为测量字符串的类似度的指标，使用莱文斯坦距离，测定2个序列的类似性。该距离表示用于将某一序列变换为其他序列的插入、删除、突变的最小数。如果不附加条形码，则对于库内的序列的任意的配对，该数为1或2。如果附加条形码，则莱文斯坦距离为7以上。因此，即使存在突变谱分析实验中预想的突变率的增加，也能够正确地识别序列。除了完整的库以外，还使用库的2个单一序列(ID1和ID32)作为对照。ID1包含结构化条形码，但ID32包含非结构化条形码(参照图5)。

如上所述，用NAI或DMS修饰3个RNA样本(库和2个对照)。包含不利用NAI/DMS进行处理的对照实验，合计为12个样本。包含单一序列在内将上述样本与第一库的所有序列进行比对。对于各个ID，通过对各核苷酸的突变(M)、删除(D)和插入(I)进行计数来分析数据。突变率(mut)通过将M、D、I合计，除以某个碱基位置处的读取的总数来计算。为了减少由序列固有的突变导致的噪声，从NAI/DMS修饰样本的突变率减去未修饰样本的突变率，求出下述式(1)的δ突变率。

δ突变率＝修饰突变率-未修饰突变率(1)

其结果示于图7。图7(a)是表示与用NAI修饰后的第一库的条形码序列中的所有核苷酸相关的δ突变率绝对值的箱线图。图7(b)是对用DMS处理后的样本同样地进行分析的结果。在图7中，凹口表示中央值，箱表示四分位范围。另外，线从箱体的端部上下移动到位于箱体的高度的1.5倍的范围内的最大值或最小值。偏离值由圆表示。这些结果显示，即使在用NAI或DMS中的任一修饰剂进行了处理的情况下，结构化条形码序列(ID1～28)的δ突变率的绝对值也显著低于非结构化条形码序列(ID29～37)的δ突变率的绝对值。即，表示能够通过条形码的结构化来防止突变。

(用于区分不同RNA库的条形码)

使用第二库，对条形码是否有助于区别所有变体的共通池内的RNA库的不同变体进行了实验。因此，第二库在体外转录前使用引物Pr_d2a、Pr_d2b、Pr_d2c、Pr_d2d将批次条形码(第二条形码)赋予到RNA，区分为4个不同的变体。如图6所示，将RNA库的4个不同变体用NAI或DMS修饰，或者作为各自的对照而处理。纯化步骤之后，通过等量混合库的4个变体，针对各处理条件制作合并的样本。库的4个不同变体和合并的样本分别在连续步骤中通过相同的方法进行处理。

将这些δ突变率示于将ID1的对象序列作为X轴进行标绘的图8(a)和图8(b)。δ突变率表示第一库以及第二库的4个组的全部(数据是来自合并的样本的数据)。在NAI(图8(a))的情况下，示出第一库与第二库的δ突变率稍微不同，但对于任意的库，在非约束核苷酸区域中突变率高，结构探测反映了与二级结构相关的信息。预测中使用了ViennaRNAPackage。在DMS(图8(b))的情况下，库之间的差异不那么显著，但与NAI同样地，关于结构信息，预测为未被约束的区域的δ突变率显示为更高的值。在进行实验的条件下，DMS由于碱基G和U的修饰效率低，因此仅碱基C和A显示更高的突变率。如果对合并的样本的结果与单独处理的样本的结果进行比较，则在标绘图的曲线间观察到良好的重叠(图8(c)和图8(d))。因此，认为合并对实验的结果不产生大的影响，发挥作为条形码的功能。

(基于第二设计的RNA库的二级结构信息)

图8仅表示单一ID的突变谱。接着，对所有ID的突变谱进行分析，与通过ViennaRNAPackage进行预测的二级结构进行比较。图9是将第二库分别单独地或合并地用NAI或DMS进行化学修饰时的、将预测为形成碱基对的区域(图9的黑色区域)和预测为非结合的区域(图9的灰色区域)的δ突变率的绝对值分别进行标绘而成的小提琴图(violinplot)。图9(a)是用NAI处理的样本，图9(b)是用DMS处理的样本，在各自的x轴所示的ID中，ID1～28包含结构化条形码序列，ID29～37包含非结构化条形码序列。其结果显示，4个单独的样本(图9的“小提琴”的左侧)和合并的样本(图9的“小提琴”的右侧)的分布非常相似。在DMS的情况下，仅考虑碱基A和C的位置。

该结果表示，对于各ID的样本，如果使用NAI(图9(a))或DMS(图9(b))，则显示非结合区域的δ突变率的绝对值变高，针对库内的各序列，能够取得二级结构信息。进而，在合并的样本和未合并的样本中，在平均值与分布的宽度(标准偏差)上未确认到较大的差异。在用DMS修饰的情况下，显示S/N比提高，修饰后的RNA与未修饰的RNA的分布的重叠变少。另一方面，对于结构化条形码(ID1～28)，在非结构化条形码(ID29～37)中观察到分布的显著重叠的情况较多。这意味着在非结构化条形码中与由RNA结构预测产生的数据不一致，表示非结构化条形码对分析对象的RNA的结构造成影响。

[实施例2]基于结构化条形码的使用的条形码识别的准确性

针对在整体中混合存在54种RNA结构的多重化的库(RNA探针库)，准备96种结构化批次条形码。然后，为了进行映射，对库中包含的全部54种RNA结构赋予不同的条形码，制作96×54种参考文件。实际上对其中附加了ID不同的2种批次条形码的RNA探针库进行试验管内合成，进行基于DMS的突变谱实验。为了验证实验，对不同结构化批次条形码赋予对应的索引，进行二代测序分析。然后，将所获得的所有读段映射到参考文件。在本分析中，使用STAR比对软件进行映射。结果示于图10和11中。

图10是使用结构化批次条形码1的实验，横轴表示序列和通过映射而实际判定的ID，纵轴表示读段数的合计(Depth_sum)。在使用结构化批次条形码1的突变谱反应体系中，不使用修饰剂，没有RNA结构选择性的突变导入的效果。实际上结构化批次条形码1的大部分受到ID1这样的正确的判定。虽然进行了对18种ID错误地进行了映射的判定，但对于正确的ID1，其他ID的读段数为1/1000～1/10000以下，非常小，因此不会对突变谱的数据的解释造成影响。

图11是使用结构化批次条形码2的实验，横轴表示序列和通过映射而实际判定的ID，纵轴表示读段数的合计(Depth_sum)。在使用结构化批次条形码2的突变谱反应体系中，使用修饰剂，RNA的高级结构选择性地进行突变导入。相比于图10，在图11中，虽然确认了为了导入突变而进行了一定以上的读段数的检测的ID增加的现象，但与图10同样地，大量的读段数受到ID2这样的正确的判定。此外，与正确的ID(被判定为ID2的ID)相比，误判的ID(被判定为ID2以外的ID)的读段数的总和为1/100-10000以下，非常小，因此不会对突变谱的数据的解释造成影响。

实际上，针对库中的54种RNA的每个RNA，确认了准确性(被判定为正确的ID的比例)(图12、13)。其结果，非修饰条件下的准确性平均为99.91％，突变导入条件下平均为99.44％，即使在突变导入条件下也维持高的准确性。

根据以上，结构化批次条形码在突变谱中，能够不损害映射的准确性地将正确的条形码ID与其他错误的ID明确区别，因此对同时混合多个不同条件的多重化有用。

[实施例3]基于条形码与其他条形码(索引)的组合的多重化的效果

通过在结束使用RNA的突变谱反应并转换为DNA之后与市售的索引引物(例如Nextera XT Index Kit<illumina公司>)等组合，能够提高样本的来源、条件的复杂性。图14在纵轴上表示基于illumina公司的序列的索引引物(作为条形码发挥功能)，在横轴上表示映射了实施例2中制备的结构化RNAID7的样本时判定出的ID。色标表示读段数的平均值。

根据上述可知，无论在哪个索引引物中结构化批次条形码(ID)都能够保持较高的准确性地进行识别。也就是说，在批次条形码的基础上，通过组合多个方式的DNA条形码，能够大规模地扩张样本数。例如，通过使用10种索引引物和96种结构化条形码，能够设定10×96的960种条件。

[实施例4]使用结构化条形码的二代序列分析中的正交性

针对在整体中混合不同的1500种RNA探针的多重化库(RNA探针库)，准备32种结构化批次条形码。然后，为了进行映射，对1500种全部的RNA赋予不同的批次条形码，与32×1500种(48000种)的参考文件一起实际上将RNA探针库进行试验管内合成。接着，使用赋予结构化批次条形码的RNA探针库组，进行谱分析。为了验证实验，针对32个不同的结构化批次条形码，使用全部32种不同的索引引物赋予索引(Index ID)，进行基于二代测序仪(MiSeq<illumina公司>)的测序分析。然后，通过索引分配给32种文件。如果条形码正确地发挥功能，则在相当于索引ID1的文件中包含被赋予结构化批次条形码ID1的RNA探针库。然后，将所获得的所有的读段映射到参考文件。在本分析中，使用STAR比对软件进行映射。

在图15中，横轴表示正确的索引ID(Index ID)，纵轴表示实际通过序列和映射而判定的结构化批次条形码ID(Batch Barcode ID)。热图的颜色表示被映射的读段数的在RNA探针库中的平均值(Depth_mean)。如图15所示，对于所有的结构化条形码，确认分配给正确的ID。进而，如图16所示，可知误判相对于库中的1500种RNA，大部分对于0或小于10种发生，对库整体的RNA的影响极小。

此外，由于相对于这些被误判的RNA种类的读段数与正确的ID相比大概为1/100-10000以下，可以说影响更小，误判不会影响到对谱的结果的解释(图17)。因此，结构化批次条形码如所意图那样具有高的正交性，示出作为条形码而发挥功能。应予说明，在图16中，存在确认到一部分800种、130种左右的混合存在的数据点，但由于其在相邻管之间连续地产生、条形码中没有类似性，因此判断为由人为错误引起的污染，并不是由特定的结构化条形码引起的问题。

应予说明，在图18中示出本实施例中使用的结构化条形码序列的例子(ID12和ID28)。ID12的结构化条形码RNA在22个碱基长度：5’-GCUAGAAGAUUUGUCUUCUGGU-3’(序列号9)中包含4个碱基的环结构。另一方面，ID28的结构化条形码RNA在19个碱基长度：5’-UUGCGAGAUAUUCUCGCGA-3’(序列号10)中包含3个碱基的环结构。这样，结构化条形码不仅能够变更碱基序列，还能够变更长度和高级结构，因此能够进一步扩大其组合。

如上所述，结构化条形码能够进行在多个反应条件下的结构探测试验的多重化(multiplexify)。作为应用，可以在使不同的反应组成、实验环境条件多个一致的基础上进行结构探测试验，能够大规模地筛选出它们的不同条件对RNA结构造成的影响。例如，可以使用以下参考文献[1]～[3]中例示的方法等，将已知引起结构变化的分子、条件的评价扩展到一次性地多种类进行的筛选。

参考文献

[1]Komatsu,K.R.,Taya,T.,Matsumoto,S.,Miyashita,E.,Kashida,S.,&Saito,H.(2020).RNAstructure-wide discovery of functional interactions withmultiplexed RNA motif library.Nature communications,11(1),1-14.

[2]Tapsin,S.,Sun,M.,Shen,Y.,Zhang,H.,Lim,X.N.,Susanto,T.T.,...&Wan,Y.(2018).Genome-wide identification of natural RNAaptamers in prokaryotes andeukaryotes.Nature communications,9(1),1-10.

[3]Corley,M.,Flynn,R.A.,Lee,B.,Blue,S.M.,Chang,H.Y.,&Yeo,G.W.(2020).Footprinting SHAPE-eCLIP Reveals Transcriptome-wide Hydrogen Bonds at RNA-Protein Interfaces.Molecular Cell,80(5),903-914.

序列表

<110> xFOREST制药株式会社（xFOREST Therapeutics Co., Ltd.）

<120> 用于突变谱分析的RNA探针及其用途

<130> PW21015XFO-PCT

<150> JP2020-191550

<151> 2020-11-18

<160> 10

<170> PatentIn version 3.5

<210> 1

<211> 36

<212> RNA

<213> 人工序列

<220>

<223> 目标序列

<400> 1

guguaugaug aaacuacauu aaguuaacuc gugcac 36

<210> 2

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 用于第二库设计的反向引物

<400> 2

gaaccggacc gaagcccgat ttggagcgga agccgctcac cgttgaccag ttgtgcac 58

<210> 3

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 用于第二库设计的反向引物

<400> 3

gaaccggacc gaagcccgat ttgggccaca aggtggccac cgttgaccag ttgtgcac 58

<210> 4

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 用于第二库设计的反向引物

<400> 4

gaaccggacc gaagcccgat ttgacctctg ttacagaggt accgttgacc agttgtgcac 60

<210> 5

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 用于第二库设计的反向引物

<400> 5

gaaccggacc gaagcccgat ttgacacacc ttaggtgtgt accgttgacc agttgtgcac 60

<210> 6

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> T7 RNA 聚合酶启动子序列

<400> 6

taatacgact cactatag 18

<210> 7

<211> 58

<212> RNA

<213> 人工序列

<220>

<223> 具备结构化条形码序列的RNA 探针 ID1

<220>

<221> misc_feature

<222> (1)..(18)

<223> 结构化条形码序列

<220>

<221> misc_feature

<222> (21)..(56)

<223> 分析对象 RNA 序列

<400> 7

guacucugag aagagugcaa guguaugaug aaacuacauu aaguuaacuc gugcacaa 58

<210> 8

<211> 55

<212> RNA

<213> 人工序列

<220>

<223> 具备非结构化条形码序列的RNA 探针 ID32

<220>

<221> misc_feature

<222> (1)..(15)

<223> 非结构化条形码序列

<220>

<221> misc_feature

<222> (18)..(53)

<223> 分析对象 RNA 序列

<400> 8

gaugucggga ugaaaaagug uaugaugaaa cuacauuaag uuagcucgug cacaa 55

<210> 9

<211> 22

<212> RNA

<213> 人工序列

<220>

<223> 结构化RNA条形码 ID12

<400> 9

gcuagaagau uugucuucug gu 22

<210> 10

<211> 19

<212> RNA

<213> 人工序列

<220>

<223> 结构化RNA条形码 ID28

<400> 10

uugcgagaua uucucgcga 19

Claims

1.一种分析RNA的高级结构的方法，其特征在于，包括以下工序：

(a)制备对分析对象RNA附加了条形码序列的1个或多个RNA探针的工序；

(b)使所述RNA探针与RNA修饰剂接触的工序；以及

(c)在由工序(b)得到的RNA探针的序列中，检测受到修饰的碱基的位置和频率的工序，

所述条形码序列具有抑制与所述RNA修饰剂的反应的结构。

2.根据权利要求1所述的方法，其中，所述工序(c)包括以下工序：

(c1)将由工序(b)得到的RNA探针的混合物作为模板，利用逆转录酶合成互补DNA的工序；

(c2)确定所述互补DNA的碱基序列，将包含所述条形码序列的碱基序列进行比对的工序；以及

(c3)检测在所述比对后的碱基序列中产生的突变的位置和频率的工序。

3.根据权利要求1或2所述的方法，其中，在所述RNA修饰剂选择性地修饰所述RNA探针中的约束核苷酸时，所述条形码序列为不形成碱基对的序列。

4.根据权利要求1或2所述的方法，其中，在所述RNA修饰剂选择性地修饰所述RNA探针中的非约束核苷酸时，所述条形码序列形成包含多个碱基对的结构。

5.根据权利要求4所述的方法，其中，所述包含多个碱基对的结构为互补的双链结构、三链结构或四链结构。

6.根据权利要求4或5所述的方法，其中，所述多个碱基对存在于茎环结构或假结结构的茎部。

7.根据权利要求4～6中任一项所述的方法，其中，所述包含多个碱基对的结构为茎环结构，在茎部具有1个以上的凸起和/或内部环结构。

8.根据权利要求4～7中任一项所述的方法，其中，所述包含多个碱基对的结构是在蛋白质数据库PDB中登记的RNA结构或其突变体。

9.根据权利要求1～8中任一项所述的方法，其中，所述分析对象RNA包含至少1个RNA基序。

10.一种RNA探针，其特征在于，包含被附加了条形码序列的分析对象RNA，所述条形码序列形成包含多个碱基对的结构。

11.根据权利要求10所述的RNA探针，其中，所述包含多个碱基对的结构为互补的双链结构、三链结构或四链结构。

12.根据权利要求10或11所述的RNA探针，其中，所述多个碱基对存在于茎环结构或假结结构的茎部。

13.一种RNA探针库，其特征在于，包含条形码序列被附加于各个分析对象RNA而成的多个RNA探针，所述条形码序列形成包含多个碱基对的结构。

14.一种RNA探针库组，其包含权利要求13所述的RNA探针库的2个以上的复制物，被复制的全部RNA探针还包含第二条形码序列，所述第二条形码序列在1个库内均为相同序列，但与其他库之间能够识别。