CN116829713A

CN116829713A - 发夹寡核苷酸及其用途

Info

Publication number: CN116829713A
Application number: CN202180088798.8A
Authority: CN
Inventors: 潘滔; 克里斯托弗·D·卡坦斯基; 克里斯托弗·P·沃特金斯
Original assignee: University of Chicago
Current assignee: University of Chicago
Priority date: 2020-11-06
Filing date: 2021-11-05
Publication date: 2023-09-29
Also published as: WO2022099010A3; AU2021376394A1; EP4240863A2; CA3197283A1; JP2023548857A; IL302555A; WO2022099010A2; WO2022099010A9; MX2023005263A; KR20230104207A; US20230416727A1; AU2021376394A9

Abstract

在方面中，本发明提供了包含3’‑末端核苷酸的发夹寡核苷酸，其中所述3’‑末端核苷酸的糖组分包含2’‑羟基和3’‑磷酸。在方面中，本发明提供了包含3’‑末端核苷酸的发夹寡核苷酸，其中所述3’‑末端核苷酸的糖位置包含糖的2’,3’‑二醛氧化产物。在方面中，本发明提供了发夹寡核苷酸在开发生物标志物中的用途。在方面中，本发明提供了包含配体部分和发夹寡核苷酸的固体支持物，其中所述寡核苷酸通过所述发夹寡核苷酸的亲和部分与所述固体支持物的配体部分的结合而固定在所述固体支持物上。在方面中，本发明还提供了制备RNA序列文库的方法，其包括：(a)将RNA序列连接到发夹寡核苷酸以形成构建体，(b)将所述RNA序列逆转录为cDNA序列，以及(c)使用PCR扩增所述cDNA序列。

Description

发夹寡核苷酸及其用途

相关申请的交叉引用

本专利申请要求2020年11月6日提交的美国临时专利申请第63/110,605号的权益，将所述专利申请通过引用以其整体并入本文。

关于联邦资助的研究或开发的声明

本发明是在由美国国立卫生研究院(National Institutes of Health)授予的基金号HG008935的政府支持下进行的。政府享有本发明的某些权利。

以电子方式提交的材料通过引用并入

通过引用整体并入本文的是同此同时提交并如下确定的计算机可读的核苷酸序列表：2021年11月5日创建的名为“757154_ST25.TXT”的一个32,847个字节的ASCII(文本)文件。

发明背景

在RNA测序(RNA-seq)中进行的典型酶和化学处理可能在样品回收中呈现显著的障碍，尤其是对于小RNA。另外，由于tRNA的极高丰度，通常在测序文库构建之前通过按大小将tRNA与其它RNA分离来进行小RNA-seq；这种分离可以解开tRNA和其它小RNA的数据关联，这可能丢失有价值的生物信息。此外，基于在文库构建之前和在文库构建期间再次需要凝胶纯化tRNA的方案的RNA-seq方法是低效的，并且需要大量的输入材料。

最常用的商业RNA-seq试剂盒与还含有转录后修饰的小RNA(<约200个核苷酸)的研究不相容。Small-RNA-seq试剂盒通常依赖于在逆转录前顺序的适配子连接，以便来自修饰的流产性逆转录产物可以使生物学信息和解释存在误差。常规的RNA-seq方法和试剂盒也缺乏处理大量样品所必需的多重水平。

需要新的RNA-seq文库制备策略和与其一起使用的发夹寡核苷酸。

发明概述

在方面中，本发明提供了包含3’-末端核苷酸的发夹寡核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸。

在方面中，本发明提供了包含3’-末端核苷酸的发夹寡核苷酸，其中所述3’-末端核苷酸的糖位置包含糖的2’,3’-二醛氧化产物。

在方面中，本发明提供了发夹寡核苷酸在开发生物标志物中的用途，所述寡核苷酸包含亲和部分和3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸。

在方面中，本发明提供了包含配体部分和发夹寡核苷酸的固体支持物，所述寡核苷酸包含亲和部分和3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸，以及其中所述寡核苷酸通过所述发夹寡核苷酸的亲和部分与所述固体支持物的配体部分的结合而固定在所述固体支持物上。

在方面中，本发明提供了制备RNA序列文库的方法，其包括：(a)将RNA序列与发夹寡核苷酸连接以形成构建体，所述寡核苷酸包含3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸，(b)将所述RNA序列逆转录为cDNA序列，以及(c)使用PCR扩增所述cDNA序列。

其它方面如本文所述。

附图简述

图1描绘了根据本发明的方面的RNA测序(RNA-seq)文库制备，并显示了寡核苷酸发夹在无效第一连接后经历的过程。

图2A是根据本发明的方面的RNA-seq文库制备的示意图。图2B描绘了在嵌入描述的情况下根据本发明的捕获发夹寡核苷酸(CHO)的特征。图2C显示了在具有和没有去甲基化酶处理的情况下来自总RNA-seq文库的最终PCR产物。DNA大小标志物显示在凝胶的左侧。由人tRNA中的m1A58和m1G37修饰引起的主要RT(逆转录酶)终止显示在凝胶的右侧。TdT对应于来自RT的异常末端转移酶活性的产物。图2D显示了在没有和具有去甲基化酶处理的情况下，用不同量的输入总RNA制备的文库的最终PCR产物。图2E显示了在具有和没有去甲基化酶和/或高碘酸盐处理的情况下，从HEK293T总RNA(对照)和人粪便总核酸开始的文库的最终PCR产物。图2F显示了在没有和具有去甲基化酶处理的情况下，多重口腔(舌刮(tonguescrape))微生物组文库的最终PCR产物。

图3A显示了合成寡核苷酸与发夹寡核苷酸连接的结果。图3B显示了在具有和没有去甲基化酶和/或高碘酸盐处理的情况下逆转录实验的结果，其中连接的寡核苷酸已经固定在固体支持物珠粒上。图3C显示了在第二连接中加入另外的引物后进行的PCR产物，显示了当输入RNA以3’-A或3’-C为末端时，最终产物中几乎没有偏差。图3D显示了去磷酸化步骤的效率。图3E显示了在具有或没有高碘酸盐处理的情况下，具有不同末端核苷酸的发夹寡核苷酸的连接产物。图3F描绘了在一锅测序(one-pot sequencing)中测量tRNA装载的示意图。图3G显示了在没有(-,-)和具有(+,+)图3F所示处理的情况下最终PCR产物。

图4A描绘了映射至大肠杆菌基因组的RNA-seq结果，揭示了各种类型RNA的存在。图4B描绘了通过测序或通过微阵列杂交测量的tRNA^Arg或tRNA^Leu同功受体的相对丰度的比较；每对中左边的浅色点是微阵列数据，每对中右边的深色点是RNA-seq数据。图4C描绘了在具有和没有去甲基化酶处理的情况下由RNA制备的文库的比较。图4D是沿着单独tRNA的突变分数的热图。图4E描绘了在具有和没有去甲基化酶的情况下，在rpm(每分钟读取)>1下非编码RNA转录本的丰度。

图5A显示了在具有和没有三种急性应激条件下保持10分钟的情况下，来自生长在LB中的大肠杆菌的总RNA的生物学重复中的RNA转录本丰度的相关性。图5B显示了用去甲基化酶处理和未处理的样品的转录本丰度之间的关系。图5C显示了在具有和没有去甲基化酶处理的情况下文库中沿着tRNA^Pro(GGG)的突变率。图5D显示了在具有和没有去甲基化酶处理的情况下沿着tRNA^Pro(GGG)的读取密度。图5E描绘了在不同应激和无应激对照期间三种应激响应小非编码RNA和非响应对照RNA SRP(信号识别颗粒RNA，也称为ffs)的丰度。图5E中分析的应激响应序列是：OxyS(+)，响应于氧化应激；rhyB(三角形)，响应于铁饥饿；sgrS(正方形)，响应于葡萄糖饥饿；以及ffs(SRP；圆圈)，无响应的对照序列。图5F描绘了3种应激响应的小非编码RNA和对照RNA SRP(ffs)在应激和无应激作为对照(无)期间的覆盖密度。图5G描绘了在应激期间大肠杆菌RNA丰度和修饰的变化。

图6A描绘了如何将读取映射至揭示各种类型的RNA的人类基因组。图6B描绘了通过测序或通过微阵列杂交测量的tRNA^Arg同功受体的相对丰度的比较；每对中左边的浅色点是微阵列数据，每对中右边的深色点是RNA-seq数据。图6C描绘了从1μg、100ng或10ng总RNA开始的文库的tRNA丰度结果的相关性。图6D描绘了在rpm>10时小非编码RNA转录本的丰度。

图7A显示了来自不同RNA类别的转录本丰度与去甲基化酶处理的相关性。图7B显示了每个类别中不同RNA类别的生物学重复的相关性。图7C描绘了使用本发明RNA-seq方法的去甲基化酶处理的文库的tRNA丰度与使用常规方法制备的去甲基化酶处理的tRNA文库的研究的相关性。图7D描绘了来自具有和没有去甲基化酶处理的情况下制备的文库的沿着tRNA^Arg(ACG)的突变率。图7E显示了沿着tRNA^Arg(ACG)的读取密度。图7F显示了在rpm>2时检测到的microRNA的丰度。图7G描绘了由poly(A)选择的RNA制备的RNA测序文库的读取分析。图7H显示了映射至mRNA的大多数读取，生物学重复之间具有良好的相关性。

图8A描绘了在RNA-seq中掺入CMC反应的示意图。图8B描绘了生物学重复中人rRNA中每个核苷酸位置处的突变和终止分数。图8C描绘了18S rRNA中富含Ψ的区域的突变和终止分数。图8D描绘了28S rRNA中富含Ψ的区域的突变和终止分数。图8E显示了沿着18SrRNA长度的每个核苷酸位点处读取的突变分数。图8F显示了以与图8E中相同的方式分析的读取的停止分数。

图9A显示了对来自人舌刮片的主要RNA类别的读取的分配。图9B显示了来自各种细菌分类学类别的SRP RNA和5S rRNA的相关性。将值计算为log10丰度的Z评分。图9C显示了SRP RNA丰度与如9B中的细菌分类学类别的所有鉴定的tRNA的总和的相关性。图9D显示了5S rRNA与如9B中的细菌分类学类别的所有鉴定的tRNA的总和的相关性。图9E显示了映射至产黑色普雷沃菌(Prevotella melaninogenica)的SRP的读取；读取映射至基因的注释的5’-末端(顶部)(大写字母)，然而转录本的3’-末端(底部)1-3个碱基超出基因注释进入基因组序列(小写字母)；延伸的3’-末端与SRP结构上下文(中间)一致。图9F显示了映射至粘滑罗斯菌(Rothia mucilaginosa)的SRP的读取；读取映射至基因的注释5’-末端(顶部)下游的2-5个碱基，而3’-末端(底部)显示了3’-末端与注释端相差4-8nt的个体之间的异质性。

图10A显示了使用tRNA、5S rRNA、SRP RNA计算的或通过16S扩增子基因测序测量的来自人舌刮片的微生物的分类组成。图10B显示了如通过tRNA、5S rRNA、SRP RNA和16S扩增子测序测量的4个不同个体在连续2天之间舌微生物丰度的倍数变化。图10C显示了对来自人粪便的不同主要RNA类别的读取分配。图10D显示了使用tRNA、5S rRNA、SRP RNA计算的或通过16S扩增子基因测序测量的来自两个人粪便样品的微生物的分类组成。

图11A显示了使用tRNA、5S rRNA、SRP RNA计算的或通过16S扩增子基因测序测量的来自4种不同人舌刮片的微生物的分类组成。图11B显示了使用携带反密码子“TTT”或“CTT”的tRNA计算的来自人舌刮片的微生物的分类组成。

图12A显示了沿着来自人舌刮片的罗氏菌属细菌的单独tRNA的突变率的热图。图12B显示了如A中的热图，但鉴定了对去甲基化酶处理敏感的突变。图12C显示了从属中选择的tRNA的第37位和周围碱基处的突变率。图12D显示了在去甲基化酶处理和没有去甲基化酶处理的情况下，在来自人舌的几种细菌分类群中选择的tRNA的第22位的突变率。图12E鉴定了如D中的来自人舌的放线菌中第58位(m1A58)的N1-甲基腺苷(m1A)。图12F显示了来自连续2天的4次人舌刮片中，在没有去甲基化酶处理的情况下，选择细菌类别的第22位的突变率。图12G显示了来自连续2天的4次人舌刮片中，在没有去甲基化酶处理的情况下，放线菌在第58位的突变率。图12H鉴定了来自人粪便的如D中的选择细菌类别中的m1A22。图12I鉴定了来自人粪便的如E中的放线菌中的m1A58。

图13描绘了在从SARS-CoV-2感染个体的鼻中获得的样品中检测到的tRNA的直方图。

图14描绘了从来自健康对照和流行性感冒和SARS CoV-2感染患者的鼻咽拭子获得的样品的tRNA分析结果。图14A显示了三个患者组在沿着tRNA序列的连续区域中的tRNA片段化模式。图14B显示了在三个患者组中的特异性tRNA的5’-一半片段的tRNA读取的分数；ns，不显著，P值：*<0.05；**<0.01；***<10^-3和****<10^-4。图14C显示了三个患者组中的相同样品中特异性tRNA相对于小rRNA的相对丰度。图14D显示了样品中特异性tRNA碱基修饰分布的模式。

图15描绘了来自6名患有结肠直肠癌(CRC)患者的肿瘤和邻近组织中tRNA-seq丰度、修饰和片段化的测量。图15A显示了肿瘤中tRNA^Ala(TGC)的丰度始终高于邻近组织(左图)。相比之下，tRNA^Leu(AAG)水平是可变的，突出了不同肿瘤的异质性(右图)。图15B(上图面)显示了特异性tRNA的修饰可以通过测序中的错掺(突变)来检测。下图面显示了用去甲基化酶处理样品可以去除一种类型的碱基修饰(m1A)，而不影响另一种类型(I)。图15C显示了由响应不同细胞条件的细胞核酸酶切割产生的tRN中A片段。

图16描绘了在个体患者中线粒体tRNA的肿瘤表达模式。图16A显示了6名患者中有4名患者的肿瘤中线粒体tRNA的表达低于邻近组织。图16B显示了包括线粒体tRNA表达数据的更大数据集揭示了与来自低BMI(体重指数)患者的肿瘤相比，来自高BMI患者的肿瘤具有更高的线粒体tRNA基因表达。

图17描绘了CRC患者中通过5S rRNA表达测量的微生物群落的组成。

图18描绘了来自一名患者的粪肠球菌(E.faecalis)tRNA^Tyr数据，表明了亚种检测。图18A显示了测序过程中的碱基错掺事件可能是由于微生物组样品中的tRNA修饰(m1A)或遗传多样性(SNP)。在第7位的错掺反映了密切相关的细菌物种之间的遗传多样性，以及图18B显示了在手术后物种组成显著改变。在第23位的错掺反映了碱基修饰，以及图18C显示了这种修饰的分数在手术后改变。

发明详述

在方面中，本发明提供了包含3’-末端核苷酸的发夹寡核苷酸，其中3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸。在方面中，3’-末端核苷酸的糖组分可以是戊糖，以及戊糖可以是核糖。

在方面中，本发明提供了包含3’-末端核苷酸的发夹寡核苷酸，其中3’-末端核苷酸的糖位置包含糖的2’,3’-二醛氧化产物。

如本文所用，“寡核苷酸”是多核苷酸链，长度通常小于200个核苷酸，在方面中，为10至80个核苷酸(例如，10、20、30、40、50、60、70或80个核苷酸)。寡核苷酸可以是单链或双链的，并且可以由DNA、RNA或两者组成。“发夹寡核苷酸”是指具有自互补序列的多核苷酸类型，使得多核苷酸可以在其自身上回折以形成具有双链茎和单链环的结构(参见，例如，图1和2)。

在方面中，本文所述的任何发夹寡核苷酸还可以包含5’-末端核糖核苷酸。5’-末端核糖核苷酸可以包含5’-磷酸。

在方面中，本文所述的任何发夹寡核苷酸还可以包含：(i)条形码序列；(ii)亲和部分标记的核苷酸；以及(iii)引物结合位点。如图2B中所描绘的，在本发明的一个方面，条形码和引物结合位点序列可以包埋在形成发夹寡核苷酸的茎区的多核苷酸序列的片段内，而在本发明的一个方面，亲和部分标记的核苷酸可以在发夹核苷酸的环的内部。

在方面中，发夹寡核苷酸可以包含式(I)的核苷酸序列：5’-Phos-rA CT-X-AGATCG GAA GAG CAC ACG AT(SEQ ID.NO:86)-LT-AGA CGT GTG CTC TTC CGA TCT(SEQ IDNO:87)-Z-AG rU-3’-Phos，其中X是至少3、4、5或6个核苷酸的条形码，LT是亲和部分标记的胸腺嘧啶核苷酸，以及Z是为所述条形码序列反向互补物的核苷酸序列。

在方面中，式(II)的核苷酸序列可以包含：5’-Phos-rA CT-X-GATCGT CGG ACTGTA GAA CAT(SEQ ID NO:88)-LT-AG AGT TCT ACAGTC CGA CGA TC(SEQ ID NO:89)-Z-AGrU-3’-Phos，其中X是至少3、4、5或6个核苷酸的条形码，LT是亲和部分标记的胸腺嘧啶核苷酸，以及Z是为所述条形码序列反向互补物的核苷酸序列。

下表呈现了上述示例性发夹寡核苷酸的全长DNA序列：

表1：示例性发夹寡核苷酸

如本文所用，术语“条形码”是指已知的核酸序列，其允许鉴定与条形码缔合的多核苷酸的一些特征。通常，待鉴定的多核苷酸的特征是衍生多核苷酸的样品。在方面中，条形码的长度为至少3、4、5、6个或更多个核苷酸。在方面中，条形码的长度不短于3个核苷酸。在方面中，含有多个条形码的混合物中的每个条形码与所述多个条形码中的所有其它条形码至少有两个核苷酸位置，例如至少2、3、4、5个或更多个位置不同。优选地，混合物中的条形码彼此有至少三个核苷酸位置不同。通常，条形码具有足够的长度并且包括充分不同的序列，以允许基于与它们相缔合的条形码来鉴定样品。

如本文所用，术语“引物”是指能够与互补核苷酸序列杂交并且能够为DNA合成提供起点的核苷酸序列。引物具有足够的长度以提供与其互补核苷酸序列的特异性结合。引物的长度可以是6、7、8、9、10个或更多个碱基，通常是15、16、17、18、19或20个核苷酸。引物可以是，例如，较长单链多核苷酸序列内的序列。可选地，引物可以是单链寡核苷酸。

在方面中，本文所述的任何发夹寡核苷酸可以固定在固体支持物上。固体支持物可以是适用于生化过程，如柱色谱法的任何固体支持物。例如，固体支持物可以是可控孔的玻璃或聚合物支持物，如聚苯乙烯支持物。合适的固体支持物通常是聚合的并且可以具有多种形式和组成。一些固体支持物来源于天然存在的材料，一些固体支持物来源于已经合成改性的天然存在的材料，而其它固体支持物是合成材料。合适的支持物材料的实例包括但不限于多糖如琼脂糖和葡聚糖、聚丙烯酰胺、聚苯乙烯、聚乙烯醇、甲基丙烯酸羟乙酯和甲基丙烯酸甲酯的共聚物、二氧化硅、聚四氟乙烯、玻璃等。在方面中，固体支持物可以包括珠粒。在方面中，珠粒可以是基本上均匀的球形珠粒。

在方面中，本文所述的任何发夹寡核苷酸可用于制备RNA序列文库。在方面中，发夹寡核苷酸用于制备RNA序列文库的多重方法中。如本文所用，术语“多重(multiplexing)”是指将大量样品合并，并将合并的样品同时进行一个或多个生化过程。以下描述示例性方法。

在方面中，本发明提供了包含配体部分和发夹寡核苷酸的固体支持物，所述寡核苷酸包含亲和部分和3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸，并且其中所述寡核苷酸通过所述发夹寡核苷酸的亲和部分与所述固体支持物的配体部分的结合而固定在所述固体支持物上。

寡核苷酸上的亲和部分和固体支持物上的配体部分形成亲和对(affinitypair)。“亲和对”包含例如通过固有特性如疏水性、亲水性、氢键、极性、电荷、亲氟性等彼此特异性结合的亲和部分和配体部分。术语“亲和部分”和“配体部分”将所述部分确定为能够形成亲和对而不限制所述部分本身的身份(例如，配体部分不必小于亲和部分)。一种熟知类型的亲和对是蛋白质及其配体。亲和部分和配体部分可以各自通过原酸酯接头直接或间接地单独连接到寡核苷酸和固体支持物上。在方面中，亲和部分是生物素标签、麦芽糖标签、谷胱甘肽标签、金刚烷标签、芳基硼酸标签、聚组氨酸肽标签、聚巯基标签、马来酰亚胺标签、叠氮基标签等。在这些方面中，相应的配体部分是抗生物素蛋白或链霉亲和素、麦芽糖结合蛋白、谷胱甘肽S-转移酶(GST)、葫芦脲或环糊精、含二醇的分子、固定化金属亲和色谱(IMAC)基质、含巯基的化合物、炔烃或环辛炔等。在方面中，亲和部分可以是生物素，以及配体部分可以是链霉亲和素(参见，例如，图2A-B)。技术人员可以决定亲和对的哪一个成员与寡核苷酸连接以及哪一个与固体支持物连接。如上所述，在方面中，固体支持物可以是珠粒。在方面中，珠粒可以是基本上均匀的球形珠粒。

固体支持物可以包含本文所述的任何发夹寡核苷酸。例如，寡核苷酸还可以包含(a)5’-末端核苷酸作为核糖核苷酸，(b)条形码序列，(c)用所述发夹环内部的亲和部分标记的核苷酸，以及(d)引物结合位点。

在方面中，本发明提供了制备RNA序列文库的方法，其包括：

(a)将RNA序列连接到发夹寡核苷酸以形成构建体，所述寡核苷酸包含3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸，

(b)将所述RNA序列逆转录为cDNA序列，以及

(c)使用PCR扩增所述cDNA序列。

在方面中，所述方法可包括发夹寡核苷酸，其还包含：(i)5’-末端核苷酸作为核糖核苷酸、(ii)条形码序列、(iii)所述发夹环内部的亲和部分标记的核苷酸以及(iv)引物结合位点。

图2A示意性地描绘了用于制备RNA-seq文库的本发明发夹寡核苷酸的非限制性方面。该方法可以从将制备的捕获发夹寡核苷酸(CHO)与RNA分子连接开始，其中CHO包含3’-末端核苷酸，其中3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸。发夹寡核苷酸可以被设计成能够进行“珠粒上(on-bead)”RNA测序文库制备。作为示例性CHO，如图2B中所描绘的CHO的特征是：(1)用于有效连接的5’-磷酸；(2)用于有效RNA-RNA连接的5’-末端核糖核苷酸；(3)条形码序列以使得能够对多个样品进行多重/混合；(4)CHO环内部的亲和部分标记的核苷酸以使得能够进行固定；(5)引物结合位点；(6)3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基以防止连接未延伸的发夹寡核苷酸以及使得能够氧化非生产性连接产物；以及(7)3’-磷酸以防止CHO的自连接。在方面中，3’-末端核苷酸的糖组分可以是戊糖，以及戊糖可以是核糖。

RNA分子可以是任何合适的RNA序列。在方面中，RNA序列可以包含总RNA(例如，通过将发夹寡核苷酸连接到样品中不同类型的RNA上形成的几种不同的构建体)。在另一方面，RNA序列可以是小RNA。小RNA包括tRNA、microRNA、piRNA、tRNA的片段、rRNAs、长非编码RNA(lncRNA)、剪接体RNA(snRNA)、小核仁RNA(snoRNA)等。在方面中，所用的RNA序列可以是tRNA。

作为一个方面，图1和2A显示了用RNA连接酶将带有条形码的CHO连接到tRNA上。可以使用任何合适的RNA连接酶，例如T4 RNA连接酶1或2等。在方面中，所用的连接酶可以是T4 RNA连接酶1。5’-末端核糖核苷酸可以包括5’-磷酸并促进连接效率。3’-磷酸阻断第一连接中发夹寡核苷酸的自连接，这提高了发夹寡核苷酸与RNA连接的效率。

在条形码连接反应后，所有随后的反应可以在固体支持物上固定携带tRNA的CHO后进行。通过发夹寡核苷酸的亲和部分与固体支持物的配体部分的结合，可以将寡核苷酸可以固定在固体支持物上。这有助于在每个步骤中用简单的洗涤去除过量的试剂，显著减少了每个步骤中的样品损失。

在所述方法的方面中，所述固体支持物包含配体部分和发夹寡核苷酸，所述寡核苷酸包含亲和部分和3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸，并且其中所述寡核苷酸通过所述发夹寡核苷酸的亲和部分与所述固体支持物的配体部分的结合而固定在所述固体支持物上。在方面中，亲和部分可以是生物素，以及配体部分可以是链霉亲和素(参见，例如，图2A-B)。

在所述方法的方面中，固体支持物可以是珠粒。在方面中，所述固体支持物固定寡核苷酸，所述寡核苷酸还包含：(a)5’-末端核苷酸作为核糖核苷酸，(b)条形码序列，(c)用所述发夹环内部的亲和部分标记的核苷酸，以及(d)引物结合位点。在方面中，固体支持物可用于制备RNA序列文库。在其它方面，固体支持物可用于制备RNA序列文库的多重方法中。在将条形码化的CHO固定在固体支持物上后，可以合并样品，这允许多重。

在带有tRNA的CHO与固体支持物结合后，可以对RNA进行任选的酶处理或化学处理，以分析RNA修饰或绘制RNA结构。例如，去甲基化酶处理提高了tRNA和tRNA片段测序的效率和定量，并提供了在微生物组tRNA或mRNA中发现新RNA修饰如N1-甲基腺苷(m1A)的验证。许多RNA结构绘图涉及化学反应，如对于2’-OH(SHAPE)，使用2-甲基烟酸咪唑(imidazolide)或对于碱基构象，使用硫酸二甲酯/乙氧二羟丁酮(kethoxal)。在RNA修饰研究中，化学反应用于鉴定假尿苷(Ψ)或5-甲基胞嘧啶(m5C)位点。例如，图2A描绘了用去甲基化酶处理包含tRNA的珠粒固定化CHO以去除tRNA中的Watson-Crick面甲基化。在方面中，去甲基化酶可以是AlkB去甲基化酶混合物。

图1和2A进一步描绘了可用于制备RNA-seq文库的其它程序的实例。去甲基化后，可以用碱性磷酸酶去除3’-磷酸基团。在方面中，碱性磷酸酶来自小牛肠(CIP)。

在去磷酸化后，CHO的3’-OH可以通过逆转录酶延伸以产生RNA的cDNA拷贝。可以使用任何合适的逆转录酶(RT)，例如TGIRT、AMV RT、ThermoScript^TMRT(Invitrogen^TM)、MMLVRT、SuperScript^TMIV RT(Invitrogen^TM)等。在方面中，逆转录酶可以是SuperScript^TMIV RT(Invitrogen^TM)。

在逆转录后，可以用RNA酶消化tRNA序列。期望能够降解DNA/RNA双链体中的RNA链的核酸内切酶RNA酶，例如RNA酶H。在方面中，RNA酶可以是RNA酶H。

在RNA酶消化后，CHO可以用高碘酸盐氧化，优选用高碘酸钠(NaIO₄)氧化。如图1所示，CHO在初始连接步骤后可以具有不同的命运，使得当用高碘酸盐处理时，只有一些CHO将易于氧化。

所有CHO都可以经历去磷酸化，但去磷酸化的终产物可以是不同的。成功连接到RNA的CHO将经历从3’-OH利用逆转录酶的链延伸。然后，这些CHO将具有3’-末端脱氧核糖核苷酸，即，它们将具有末端3’-OH和2’-H。这些CHO将不具有高碘酸盐氧化所必需的2’,3’-二醇结构。因此，只有以2’-和3’-OH终止的CHO，即没有经历连接并因此没有用cDNA延伸的CHO，将被高碘酸盐氧化(参见，例如，图1B)。氧化的CHO的末端二醛(参见，例如，图1B)将阻止这些CHO经历以下的第二连接，因此将降低下游反应中的技术噪音。

第二连接可以随后进行(参见，例如，图1和2A)，在PCR扩增前加入第二个“反向”引物结合位点，以便在PCR过程中产生两条互补的DNA链。第二连接寡核苷酸可以包括在5’端的独特分子索引(UMI)序列和在3’端的双脱氧核苷酸(参见，例如，图1)。3’-末端双脱氧核苷酸阻断寡核苷酸的自连接。UMIS是用于独特地标记样品文库中每个分子的短序列。它们是一种类型的分子条形码，其在测序过程中提供纠错和提高的准确性，并且能够在RNA测序过程中消除PCR伪影(artifacts)。用于第二连接步骤的示例性寡核苷酸是式(III)的寡核苷酸：5’-Phos-NNN NNN GAT CGT CGG ACT GTA GAA-3ddC(SEQ ID NO:22)和式(IV)的寡核苷酸：5’-Phos-NNN NNN AGA TCG GAA GAG CAC ACG-3ddC(SEQ ID NO:23)，其中一串N代表长度为6个核苷酸的UMI序列。

在RNA-seq文库制备后，cDNA延伸的-CHO可以经历PCR扩增。任何合适的PCR试剂系统和热循环仪都可以用于PCR。PCR产物在溶液中是游离的并且可以容易地用于DNA测序。

如上所述，所述方法可以包括几个方面。在方面中，所述方法还可以包括在连接后将3’-磷酸去磷酸化以及在逆转录后用高碘酸盐氧化包含2',3’-二醇的3’-末端核苷酸。在方面中，所述方法还可以包括在连接后和去磷酸化前，在RNA序列的核苷酸上使Watson-Crick面甲基化去甲基化。在方面中，所述方法还可以包括在逆转录后消化RNA序列，以及在扩增前进行第二连接以添加第二引物结合位点。在方面中，所述方法还可以包括在第一次连接后将构建体固定在固体支持物上。在方面中，所述方法还可以包括在固定后使3’-磷酸去磷酸化以及在逆转录后用高碘酸盐氧化包含2’,3’-二醇的3’-末端核苷酸。在方面中，所述方法还可以包括在固定后和去磷酸化前，在RNA序列的核苷酸上使Watson-Crick面甲基化去甲基化。在方面中，所述方法还可以包括在逆转录后消化RNA序列，以及在扩增前进行第二连接以添加第二引物结合位点。在方面中，所述方法可以使用RNA，其包含总RNA、小RNA、tRNA、microRNA、piRNA或其任意组合。在方面中，所述方法可以包括多重方法。在方面中，本发明可以涉及亲和部分标记的寡核苷酸，其用于条形码适配子连接、固定和逆转录，随后是第二适配子连接和珠粒上PCR。RNA-seq文库构建中多个步骤的统一使得能够在同一反应中多重许多样品，从而减少了时间、试剂和技术噪音，并且大大增加了通量。该设计还允许包括在珠粒上有效酶处理和化学处理RNA。

基于固体支持物的RNA-seq方法的开发使得能够进行多重测序文库制备、珠粒上酶处理和化学处理、一锅tRNA丰度、修饰和装载测量以及分析总核酸微生物组样品而不干扰DNA。

能够在固体支持物上在测序文库构建中进行大多数程序的优点在于它允许在每个程序之间快速交换缓冲液和试剂、彻底去除污染物以及消除所有需要大小选择或适配子衔接子/RT引物去除的程序。固体支持物平台还允许用酶(如用于去除RNA中Watson-Crick面甲基化的去甲基化酶)对RNA进行珠粒上处理，从而实现有效和定量的tRNA测序和微生物组tRNA修饰的验证。

在方面中，本发明的发夹寡核苷酸可用于开发生物标志物。在方面中，开发生物标志物包括产生tRNA片段化谱。在方面中，生物标志物可以从实体活检或液体活检发展而来。在方面中，生物标志物可以从液体活检发展而来。术语“液体活检”，也称为流体活检或流体相活检，是指非固体生物材料，如从血液、血浆、唾液、尿液、鼻分泌物等收集的材料的取样和分析。在方面中，生物标志物可以是病毒性疾病严重程度或癌症的生物标志物。

可以分离和/或纯化本文提及的本发明发夹寡核苷酸、总RNA、cDNA、引物、核酸、蛋白质、多肽和细胞(包括其群体)。本文所用的术语“分离的”意指已经从其天然环境中移除。本文所用的术语“纯化的”意指纯度增加，其中“纯度”是相对术语，并且不一定解释为绝对纯度。例如，纯度可以是至少约50％，可以是大于约60％、约70％、约80％、约90％、约95％，或者可以是约100％。

以下包括本发明的某些方面。

1.发夹寡核苷酸，其包含3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’-羟基和3’-磷酸。

2.如方面1所述的发夹寡核苷酸，其中所述3’-末端核苷酸的糖组分是戊糖，并且所述戊糖是核糖。

3.发夹寡核苷酸，其包含3’-末端核苷酸，其中所述3’-末端核苷酸的糖位置包含糖的2’,3’-二醛氧化产物。

4.如方面1-3中任一项所述的发夹寡核苷酸，其还包含5’-末端核糖核苷酸。

5.如方面1-4中任一项所述的发夹寡核苷酸，其还包含：

(a)条形码序列，

(b)所述发夹环内部的亲和部分标记的核苷酸，以及

(c)引物结合位点。

6.如方面5所述的发夹核苷酸，其包含以下序列：

5’-Phos-rACT-X-AGA TCG GAA GAG CAC ACG AT(SEQ ID NO:86)-LT-AGA CGTGTG CTC TTC CGA TCT(SEQ ID NO:87)-Z-AG rU-3’-Phos，

其中X是至少3、4、5或6个核苷酸的条形码，LT是亲和部分标记的胸腺嘧啶核苷酸，以及Z是为所述条形码序列反向互补物的核苷酸序列。

7.如方面5所述的发夹核苷酸，其包含以下序列：

5’-Phos-rACT-X-GAT CGT CGG ACT GTA GAA CAT(SEQ ID NO:88)-LT-AG AGTTCT ACA GTC CGA CGA TC(SEQ ID NO:89)-Z-AG rU-3’-Phos,

8.如方面1-7中任一项所述的发夹寡核苷酸，其固定在固体支持物上。

9.方面1-8中任一项所述的发夹寡核苷酸在制备RNA序列文库中的用途。

10.方面1-8中任一项所述的发夹寡核苷酸在制备RNA序列文库的多重方法中的用途。

11.方面1-8中任一项所述的发夹寡核苷酸在开发生物标志物中的用途。

12.如方面11所述的用途，其中所述生物标志物是从液体活检中开发的。

13.如方面11或12所述的用途，其中开发所述生物标志物包括产生tRNA片段化谱。

14.方面1-8中任一项所述的发夹寡核苷酸在开发病毒性疾病严重程度的生物标志物中的用途。

15.方面1-8中任一项所述的发夹寡核苷酸在开发针对癌症的生物标志物中的用途。

16.固体支持物，其包含配体部分和发夹寡核苷酸，所述寡核苷酸包含亲和部分和3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’羟基和3’磷酸，

并且其中通过所述发夹寡核苷酸的亲和部分与所述固体支持物的配体部分的结合将所述寡核苷酸固定在所述固体支持物上。

17.如方面16所述的固体支持物，其中所述亲和部分是生物素，以及所述配体部分是链霉亲和素。

18.如方面16或17所述的固体支持物，其中所述固体支持物是珠粒。

19.如方面16-18中任一项所述的固体支持物，其中所述寡核苷酸还包含：

(a)5’-末端核苷酸作为核糖核苷酸，

(b)条形码序列，

(c)用所述发夹环内部的亲和部分标记的核苷酸，以及

(d)引物结合位点。

20.方面16-19中任一项所述的固体支持物在制备RNA序列文库中的用途。

21.方面16-19中任一项所述的固体支持物在制备RNA序列文库的多重方法中的用途。

22.制备RNA序列文库的方法，其包括：

(b)将所述RNA序列逆转录为cDNA序列，以及

(c)使用PCR扩增所述cDNA序列。

23.如方面22所述的方法，其中所述发夹寡核苷酸还包含：

(i)5’-末端核苷酸作为核糖核苷酸、

(ii)条形码序列、

(iii)所述发夹环内部的亲和部分标记的核苷酸以及

(iv)引物结合位点。

24.如方面22或方面23所述的方法，其还包括在连接后将3’-磷酸去磷酸化，以及在逆转录后用高碘酸盐氧化包含2’,3’-二醇的3’-末端核苷酸。

25.如方面24所述的方法，其还包括在连接后和去磷酸化前，对所述RNA序列的核苷酸上的Watson-Crick面甲基化进行去甲基化。

26.如方面22-25中任一项所述的方法，其还包括在逆转录后消化所述RNA序列，以及在扩增前进行第二连接以添加第二引物结合位点。

27.如方面22或方面23所述的方法，其还包括在连接后将所述构建体固定在固体支持物上。

28.如方面27所述的方法，其还包括在固定后将所述3’-磷酸去磷酸化，以及在逆转录后用高碘酸盐氧化包含2’,3’-二醇的3’-末端核苷酸。

29.如方面28所述的方法，其还包括在固定后和去磷酸化前，对所述RNA序列的核苷酸上的Watson-Crick面甲基化进行去甲基化。

30.如方面27-29中任一项所述的方法，其还包括在逆转录后消化所述RNA序列，以及在扩增前进行第二连接以添加第二引物结合位点。

31.如方面22-30中任一项所述的方法，其中所述RNA序列包含总RNA、小RNA、tRNA、microRNA、piRNA或以上的任何组合。

32.如方面22-31中任一项所述的方法，其中所述方法包括多重方法。

应当注意，前面仅仅是方面的实例。其它示例性方面从本文的整个描述中是显而易见的。本领域普通技术人员还将理解，这些方面中的每一个可以与本文提供的其它方面的各种组合使用。

以下实施例进一步说明本发明，但当然不应解释为以任何方式限制其范围。

实施例1

方法

根据本发明的方面，在RNA-seq文库制备中使用以下方法。

RNA的制备

tRNA去酰基化

通过首先在100mM TrisHCl(pH9.0)的溶液中在37℃下去酰基化30分钟，然后通过添加乙酸钠(pH4.8)以180mM的最终浓度中和，制备用于文库构建的总RNA。然后将去酰基化的RNA用乙醇沉淀并重悬于水中，或使用Zymo Oligo Clean-and-Concentrator^TM旋转柱脱盐。

用于tRNA装载的一锅脱酰基化和β-消除

在文库构建之前，使用7μL中多达500ng的总RNA用于任选的一锅β-消除。首先，将1μL 90mM乙酸钠缓冲液(pH4.8)加入到7μL输入RNA中。接下来，加入1μL新鲜制备的150mM高碘酸钠溶液并混合；反应条件为16mM NaIO₄,10mM NaOAc,pH4.8。高碘酸盐氧化在室温下进行30分钟。通过添加最终为60mM的1μL 0.6M核糖来淬灭氧化并孵育5分钟。接下来，添加5μL新鲜制备的100mM四硼酸钠(pH9.5)，达到33mM的最终浓度。将该反应在45℃下孵育30分钟。为了停止β-消除和3’-末端修复，将5μL T4 PNK混合物(200mM TrisHCl pH6.8，40mMMgCl₂，4U/μL来自New England Biolabs(NEB)的T4 PNK)加入到反应中，并在37℃下孵育20分钟。然后通过在65℃下孵育10分钟使T4 PNK热灭活。通过加入30μL如下所述的连接主混合物，可以将总共20μL的该反应混合物直接用于第一条形码连接。

RNA-seq的一般方案

第一条形码连接

输入材料是去酰基化的或者已经经历了如上所述的β-消除和末端修复。在50μL具有以下组分的连接反应中使用高达1μg的总RNA输入：1U/μL T4 RNA连接酶I(NEB)、1xNEBT4 RNA连接酶I缓冲液、15％ PEG 8000、50μM ATP、1mM六胺氯化钴和5％ DMSO。在将连接混合物加入到样品后，添加发夹至终浓度为1μM，并将样品在16℃下孵育过夜(12+小时)。

与Dynabeads结合

通过添加等体积的水来稀释连接混合物以降低溶液的粘度。接下来，将链霉亲和素包被的Dynabeads^TM MyOne^TM C1(ThermoFisher)以超过发夹寡聚物的1.2:1的比例加入到每个样品中(例如，50μL反应具有50pmol发夹寡聚物；珠粒以10mg/ml提供并且每mg具有500pmol生物素化寡聚物的结合容量，因此加入12μL浆液)。将珠粒-样品混合物在室温下孵育15分钟。结合后，去除上清液，用高盐洗涤缓冲液(1M NaCl,20mM TrisHCl,pH7.4)洗涤珠粒一次，以及用低盐洗涤缓冲液(100mM NaCl,20mM TrisHCl,pH7.4)洗涤珠粒一次。

洗涤后，可以组合多个单独的条形码样品用于下游步骤。在此阶段，可以将酶或化学处理结合到文库制备方案中，如AlkB去甲基化酶反应或CMC处理(参见下面的方法)。

去磷酸化作用

将含有以下的50μL的去磷酸化混合物加入到多重样品珠粒上：0.04U/μL小牛肠磷酸酶(Roche)、10mM MgCl₂、0.5mM ZnCl₂、20mM HEPES,pH7.3。将样品在37℃下孵育30分钟。然后用高盐洗涤缓冲液洗涤样品一次以及用低盐洗涤缓冲液洗涤样品一次，然后重悬于20μL水中。

逆转录

将5μL的SuperScript^TMIV VILO 5x主混合物(ThermoFisher)加入到去磷酸化样品中至25μL的最终体积，然后在55℃下孵育10分钟。然后用高盐洗涤缓冲液洗涤样品一次，以及用低盐洗涤缓冲液洗涤样品一次。

RNA酶H消化

将珠粒重悬于含有0.4U/uL RNA酶H(NEB)和1xNEB RNA酶H缓冲液的50μL RNA酶H主混合物中，并在37℃下孵育15分钟。然后用高盐洗涤缓冲液洗涤样品一次，以及用低盐洗涤缓冲液洗涤样品一次。然后将样品重悬于40μL水中。

高碘酸盐氧化

将新制备的0.5M乙酸钠(pH5)中的10μL 250mM高碘酸钠的5x溶液加入到RNA酶H消化的样品并在室温下孵育30分钟。然后，在室温下加入核糖至167mM的终浓度以淬灭过量的高碘酸盐5分钟。然后用高盐洗涤缓冲液洗涤样品一次，以及用低盐洗涤缓冲液洗涤样品一次。

第二连接

将珠粒重悬于50μL具有以下组分的连接主混合物中：2U/μL T4 RNA连接酶I(NEB)、1xNEB T4 RNA连接酶I缓冲液、2μM第二连接寡聚物、25％ PEG 8000、50μM ATP、7.5％ DMSO和1mM六胺氯化钴。将反应在室温下孵育过夜(12+小时)。然后将反应物用一体积的水稀释以降低粘度，用高盐洗涤缓冲液洗涤一次以及用低盐洗涤缓冲液洗涤一次，然后以～10-20mg/mL(每次初始连接反应6-12μL)重悬于具有珠粒的水中。样品可以在4℃下储存或在-20℃下冷冻；尽管冷冻可能破坏珠粒，但其仍可用于下一个PCR步骤。

PCR

使用Q5 DNA聚合酶(NEB)使用来自的第二连接反应的5-10％的珠粒浆液产物并且根据制造商的说明书进行50μL PCR反应：0.02U/μL Q5 DNA聚合酶、1xQ5反应缓冲液、0.2mMdNTP、0.5μMIllumina指数引物和0.5μM Illumina多重引物。典型的PCR循环是在98℃下10秒、55℃下15秒和72℃下20秒的9、12和15个循环，然后选择最佳条件。然后通过DNA Clean和Concentrate Kit(Zymo)处理PCR反应。

TBE-PAGE凝胶提取

脱盐后，在具有dsDNA大小标记的10％非变性TBE凝胶上运行PCR产物；根据所需的产物大小切割泳道，用移液管尖端捣碎，然后重悬于压碎-浸泡缓冲液(500mM乙酸钠,pH5.0)中。将凝胶片段提取过夜，然后乙醇沉淀。

寡核苷酸序列

在本文所述的实验中使用的寡核苷酸序列见下表。

表1-3提供了根据本发明的示例性发夹寡核苷酸。以与来自Integrated DNATechnology,Inc.(IDT)的订购兼容的格式对序列进行注释。例如，“/5Phos/”表示5’-磷酸。在每个表的最后一行中列出的短寡核苷酸序列(L2)是与在RNA-seq方法的第二连接步骤中的表中较早列出的发夹寡核苷酸序列结合使用的寡核苷酸。每个L2中的UMI由“N”个残基表示；UMI是六N(6个核苷酸长)以最大化样品复杂性。在RNA-seq中使用特定寡核苷酸得到的本文所示的数据通过图号来鉴定。

寡核苷酸被设计用于配对末端或单末端DNA合成测序方法。在配对末端测序中，从DNA片段的两端进行测序。将第一引物退火，并在将其加入到生长的链中时确定每个随后的碱基。这是正向链的“读取1”测序。接下来，将含有UMI序列的另一引物退火并在测量索引的“索引读取”中延伸。最后，将第三引物进行退火和延伸，其将反向链测序为“读取2”。相比之下，在单末端测序中，仅执行读取1和索引读取。各种DNA测序仪器和平台是商业上可获得的。用于进行DNA测序的优选系统是Illumina,Inc.的NGS(下一代测序)系统。

已经设计了两种类型的发夹寡核苷酸，一种是在“读取1”测序开始时读取条形码，另一种是在“读取2”测序开始时读取条形码。通常，在“读取2”开始时具有条形码的设计是优选的，因为这使运行开始时的“复杂度”或测量的序列多样性最大化。针对读取1测序所设计的发夹寡核苷酸的序列是/5Phos/rA CT XXXX GAT CGT CGG ACT GTA GAA CAT/iBiodT/AG AGT TCT ACA GTC CGA CGA TC ZZZZ AG rU/3Phos/(SEQ ID NO:19)，其中“X”是条形码序列(其长度为至少3个核苷酸；此处显示4个核苷酸的条形码)以及“Z”是与“X”条形码核苷酸反向互补的序列。针对读取2测序所设计的发夹寡核苷酸的序列是/5Phos/rA CT XXXXAGA TCG GAA GAG CAC ACG AT/iBiodT/AGA CGT GTG CTC TTC CGA TCT ZZZZ AG rU/3Phos/(SEQ ID NO:15)，其中“X”是条形码序列(其长度为至少3个核苷酸；此处显示4个核苷酸的条形码)以及“Z”是与“X”条形码核苷酸反向互补的序列。在表1-3的最后一行中显示了在索引读取中使用的相应L2寡核苷酸。“读取1”设计与配对末端或单末端测序兼容，因为仍将测量条形码序列。在这种形式中，可以考虑复杂性，这可以通过使用多个条形码或如Illumina所推荐的spike-in对照(例如Phi-X对照DNA)来支持。

当比较相同长度的任何两个序列时，汉明距离是相应符号不同的序列位置的数目。选择条形码的汉明距离，使得如果测序仪在读取条形码时产生错误，则可鉴定单个错误且可分配正确的条形码。例如，如果汉明距离是1，则单个错误将使一个条形码变成另一个条形码，并且该错误将永远不会被检测到。在汉明距离为2的情况下，可以检测到单个错误，但错误的读取同样可能来自两个条形码，因此不能容易地纠正该错误。在汉明距离为3的情况下，可以检测和纠正单个错误。大于3的汉明距离使得检测多个错误成为可能，但是由于测序仪错误是罕见的，并且双重错误更是罕见，所以预期这些错误是可以忽略的。对于小条形码，例如3个核苷酸，仅4个不同的条形码是可能的，其保持汉明距离3。因此，对于3核苷酸设计(表2)，使用至少2的汉明距离，因此可以有12个不同的条形码。

表2*

*条形码是3个核苷酸，由至少为2的汉明距离隔开。发夹退火成读取1引物。

表3**

**条形码是4个核苷酸，由至少为3的汉明距离隔开(纠错)。发夹退火至读数1引物。

表4***

***条形码是4个核苷酸，由至少为3的汉明距离隔开(纠错)。发夹退火至读取2引物。

表5提供了在RNA-seq方法的最终PCR步骤中使用的寡核苷酸序列。这些寡核苷酸延伸通过Illumina TruSeq^TM Small RNA Index引物的约5个碱基。引物用于使文库与Illumina测序平台相容。

表5

/>

32P-标记

5’-末端标记：通过将³²P T4 PNK混合物(最终浓度为1U/μL T4 PNK，30mM咪唑-HCl缓冲液，2.5μM[15μCi/μL]γ-³²P ATP，1mM ADP)加入到5’-磷酸化寡核苷酸的溶液(1.25μM的最终浓度)来进行放射性标记反应。将样品在37℃下孵育30分钟；然后通过在65℃下孵育10分钟使T4 PNK热灭活。

dTTP掺入：如RNA-seq部分中所述进行逆转录，不同之处在于去除1xSuperScript^TMIV VILO混合物中的5μL样品；向其中加入1μL 10μCi/μLα-³²P dTTP。孵育后，用2μL 18mg/ml蛋白酶K(Roche)处理样品，然后通过凝胶电泳分析。

在结果中描述的RNA-seq文库的一个或多个应用中使用以下方法。

大肠杆菌生长、应激、RNA提取

使大肠杆菌MG1655细胞在LB中生长至A600为0.4，然后经受应激条件。使25mL模拟处理的细胞生长10分钟。通过向25mL细胞中添加H₂O₂至0.5％的最终浓度持续10min来诱导过氧化氢应激。通过向25mL细胞中加入α-甲基葡糖苷-6-磷酸(αMG)至1mM的最终浓度持续10min来诱导葡萄糖磷酸应激。通过向25mL细胞中加入2,2’-二吡啶(DIP)至250μM的最终浓度持续10min来诱导铁耗竭应激。通过在12000rcf下离心25mL培养物1min和倾析培养基来收获细胞。将细胞重悬于0.5mL冰冷的裂解缓冲液(150mM KCl,2mM EDTA,20mM HEPESpH7.5)中，然后在液氮中快速冷冻。通过热酸-苯酚方案提取RNA。简而言之，将0.5mL酸-缓冲苯酚(pH4.5柠檬酸盐)加入到冷冻样品中。将样品在50℃下在加热块中振荡孵育30分钟。将水相萃取用于另一轮苯酚萃取和2轮氯仿萃取，然后用glycoblue、300mM乙酸钠和3体积乙醇最终沉淀。将样品在-80℃孵育1小时，然后以最大速度(20k RCF)离心45分钟以沉淀RNA。将沉淀用70％乙醇洗涤两次，然后重悬于水中。

HEK细胞培养和RNA提取

在标准条件下用完全DMEM培养基培养HEK293T细胞。简而言之，使HEK293T细胞在含有10％ FBS和1％ Pen-Strep(青霉素-链霉素)的Hyclone^TM DMEM培养基(GE HealthcareLife Sciences，SH30022.01)中生长至80％汇合并传代。在细胞达到80-90％汇合时，收集细胞并按照制造商的方案使用TRIzol^TM(ThermoFisher，15596026)提取总RNA。

MCF7生长和RNA提取

将MCF7细胞在含有10％ FBS(ThermoFisher,10082147)、0.01mg/ml牛胰岛素(Sigma-Aldrich,10516)和10nMβ-雌二醇(Sigma-Aldrich,E2758)的EMEM培养基(ATCC,30-2003)中培养至80％汇合，并以1:3的比例传代。使用TRIzol^TM提取总RNA。

粪便和口腔样品收集及RNA提取

口腔：连续两天从1名女性志愿者和3名男性志愿者(每名志愿者两个样品)收集舌背刮屑[A&B样品]。样品收集使用BreathRx Gentle Tongue Scraper(Philips Sonicare)，并且在进食、饮水或进行口腔卫生之前进行。从舌头上尽可能远的地方开始，刮擦器在整个表面上连续三次向前移动。将刮屑与500-μl RNAlater^TM稳定溶液(Invitrogen)合并，并在-80℃下储存直至萃取。

胃肠道：由1名女性和1名男性志愿者自收集粪便样本。向志愿者提供市售的“厕所帽(toilet hat)”粪便样本收集试剂盒(Fisherbrand Commode Specimen CollectionSystem；Thermo Fisher Scientific)。将样本立即转移到实验室(<1小时)并彻底匀化。使用无菌刮铲将100mg粪便转移到冷冻瓶中，然后加入700-μL RNAlater稳定溶液。将样本储存在-80℃直至提取。

总RNA提取：随后通过在4℃下以17,200rcf离心10分钟从舌背和粪便样品中去除RNA。将沉淀的材料在400μL 0.3MNaOAc/HOAc，10mM EDTA，pH4.8和等体积的乙酸盐-饱和苯酚氯仿pH4.8中裂解。在以1:1的比例(珠粒:样品重量)加入1.0mm玻璃裂解珠粒(Bio-SpecProducts,Bartlesville,OK)后，将样品置于往复式珠粒搅拌器(Mini-Beadbeater-16,Bio-Spec Products)中，在最大强度上间隔两个1分钟。将样品在4℃下以17,200rcf离心15分钟，然后再提取和异丙醇沉淀总RNA。用75％乙醇洗涤沉淀，然后重悬于酸缓冲洗脱缓冲液(10mM NaOAc,1mM EDTA,pH4.8)中。

AlkB和AlkB D135S纯化

这些方案改编自先前描述的DM-tRNA-seq的方案(Zheng等人，Nature Methods12，835，2015)。简而言之，在37℃下，在50μM卡那霉素存在下，在LB培养基中使NEB T7表达细胞生长至0.6-0.8的A600。一旦细胞达到期望的密度，添加IPTG和硫酸铁分别至1mM和5μM的最终浓度。诱导后，将细胞在30℃下孵育过夜。收集细胞，沉淀，然后重悬于裂解缓冲液(10mM Tris，pH7.4，5％甘油，2mM CaCl₂，10mM MgCl₂，10mM 2-巯基乙醇)+300mM NaCl中。通过超声处理裂解细胞，然后以17,400xg离心20分钟。首先使用Ni-NTA超流柱(Qiagen)用缓冲液A(裂解缓冲液+1M NaCl用于洗涤)和B(裂解缓冲液+1M NaCl和500mM咪唑用于洗脱)纯化可溶性蛋白，然后通过离子交换(Mono S GL,GE Healthcare)用缓冲液A(裂解缓冲液+100mM NaCl用于柱上样)和B(裂解缓冲液+1.5M NaCl用于洗脱)进一步纯化。

Poly(A)-选择

用于HEK mRNA测序的poly(A)-选择根据制造商的说明书使用 Poly(A)mRNA Magnetic Isoloation Module(目录号：E7490S)进行。

AlkB处理条件

去甲基化酶缓冲条件由公开的那些条件(Li等人,Nat Struct Mol Biol 25,1047,doi:10.1038/s41594-018-0142-5,2018)修改。在反应前立即新鲜制备三种储备溶液：L-抗坏血酸200mM、2-酮戊二酸盐(2-ketogluterate)3mM和硫酸铁铵5mM。最终的反应缓冲液含有2mM L-抗坏血酸、1mM 2-酮戊二酸盐、0.3mM硫酸铁铵、100mM KCl、50mM MES pH6、50ng/μL BSA、4μM野生型AlkB和4μM AlkB-D135S。在连接、固定和洗涤后，将50μL的反应混合物加入到5-20μL倾析的链霉亲和素珠粒浆液中。在37℃下继续反应30分钟。反应后，用高盐洗涤缓冲液(20mM TrisHCl pH 7.4,1M NaCl,0.1％吐温20)洗涤珠粒一次，以及用低盐洗涤缓冲液(20mM TrisHCl pH 7.4,100mM NaCl)洗涤珠粒一次。

CMC处理/文库构建

如下构建MCF7总RNA测序文库。首先使用旋转柱(Zymo RNA Clean&Concentrator^TM-5,R1016)从1μg MCF7总RNA中去除小RNA(<200nt)，并且在微量离心管中用18μl无菌H₂O洗脱大RNA(>200nt)。将RNA转移到PCR管中，并将2μl镁RNA片段化缓冲液(NEB，E6150S)加入到各管中，并将管在热循环仪中在94℃下孵育5分钟以将RNA片段化至～200nt。然后将2μl RNA片段化终止溶液加入到每个管中。用H₂O将样品稀释至50μl，并将Zymo自旋柱用于纯化片段化的RNA；将RNA在微量离心管中的16μl无菌H₂O中洗脱。对于RNA片段的3’-末端修复，加入2μl 10xT4 PNK缓冲液和2μl10U/μl的T4 PNK(ThermoFisher，EK0032)，并将混合物在37℃下孵育30分钟。使用上述RNA-seq方案以及以下修改，片段化的末端修复的RNA用于构建测序文库。将片段化的RNA连接到条形码化的发夹寡核苷酸上并结合到链霉亲和素珠粒上。然后将样品合并、混合并分成两部分用于±CMC(N-环己基-N’-(2-吗啉代乙基)碳二亚胺)处理(+CMC:-CMC＝1.5:1的比率)。首先将12μl无菌H2O和24μl TEU缓冲液(50mM Tris-HCl(pH8.3),4mM EDTA,7M尿素)加入到每个管中，然后将在TEU缓冲液中新制备的4μl 1M CMC加入到+CMC样品中，以及加入4μl无菌H₂O-CMC样品。将样品在Eppendorf ThermoMixer上以1400rpm(每分钟转数)在30℃下孵育16小时。将样品用高盐缓冲液洗涤两次，以及用低盐缓冲液洗涤一次。然后将样品用40μl 50mM碳酸钠和2mM EDTA(pH10.4)缓冲液重悬，并在37℃下以1400rpm孵育6小时。用高盐缓冲液洗涤珠粒两次，以及用低盐缓冲液洗涤珠粒一次，然后进行RNA-seq步骤，如磷酸酶处理和逆转录。

tRNA微阵列

tRNA微阵列由以下四个过程组成，从纯化的tRNA或总RNA开始，不需要cDNA合成：(i)去酰基化，(ii)用T4 DNA连接酶将寡核苷酸连接到所有tRNA的3’-CCA，对tRNA进行选择性荧光团标记，(iii)杂交以及(iv)数据分析。先前已经广泛描述了大肠杆菌和人tRNA微阵列方法的可再现性和结果的验证(Dittmar等人,EMBO Rep6,151,2005；Pavon-Eternod等人,Nucleic Acids Res 37,7268,doi:gkp787[pii]10.1093/nar/gkp787,2009)。

读取处理和映射

在Illumina Hi-Seq或NEXT-Seq平台上对文库进行测序。将配对末端读取与来自JGI BBtools工具集的bbmerge组合。合并读取使得样品条形码在读取开始时定向：对于用读取-2条形码构建的文库，翻转read1和read2的顺序用于bbmerge输入。接下来，使用fastX工具包条形码分离器，通过条形码拆分合并的读取，每个索引一个文件。自定义python脚本(可在GitHub上获得)用于去除条形码序列(前7nt)并使用UMI折叠读取，然后去除UMI(最后6个碱基)。使用Bowtie2用“本地”参数映射下一个读取。将人样品映射至成熟tRNA的精选列表中，这些成熟tRNA是由tRNA-扫描SE预测的，得分大于40，在需要时增加了“CCA”末端；或者映射至组合整体HG19 orfs、ncRNAs和精选tRNA的基因组中。将大肠杆菌样品映射至非冗余tRNA的精选列表，所述非冗余tRNA来自tRNA-扫描SE，得分>40，并且在需要时加入CCA；或者组合大肠杆菌基因组，包括整体ORF和整体ncRNA，其包括tRNA基因。Bowtie2输出sam文件被转换为bam文件，然后使用samtools进行排序。接下来，使用IGV将读取折叠到1nt窗口中。使用自定义python脚本(可在GitHub上获得)重新格式化IGV output.wig文件。bowtie2输出Sam文件也与来自pachter lab的eXpress一起使用，以将所有映射至每个基因的读取求和。用自定义R脚本(GitHub)可视化数据。

在表6中提供了读取计数和映射速率。

表6

/>

从CMC反应中读取处理

从Illumina Hi-Seq平台获得原始的100bp配对末端测序读取。使用自定义python脚本，Read1读取由在配对的Read2读取上具有条形码序列的条形码分隔。使用fastx_barcode_splitter(fastx_toolkit,http://hannonlab.cshl.edu/fastx_toolkit/)通过条形码分隔Read2读取。对于Read1读取，读取开始时的随机6个核苷酸独特分子标识符(UMI)序列和读取结束时的条形码化适配子序列使用Trimmomatic使用单末端模式以15nt的截止值去除。对于Read2读取，读取开始时的7nt条形码序列以及读取结束时的UMI和适配子序列通过Trimmomatic使用配对末端模式以15nt的截止值去除。然后使用bowtie2将读取映射至人rRNA转录本。将输出的sam文件转换为bam文件，然后使用samtools进行排序和索引。命令行版本的“igvtools count”(IGV,http://software.broadinstitute.org/software/igv/download)用于以单碱基分辨率对核苷酸组成、插入和缺失进行计数。“Bedtools genomecov”(bedtools,https://bedtools.readthedocs.io/en/latest/)用于计数在每个位置的所有读取的开始和结束。对于每个样品，将所有输出文件和参考序列组合成单个文件，通过自定义python脚本计算突变率和停止率。分析输出文件以鉴定目标假尿苷位点。

微生物组tRNA分析

这些是从先前公开的管道(pipeline)中修改的，具有显著的修改。通过Illumina-utils Illumina-utils(可在https://github.com/merenlab/illumina-utils获得)处理75或100个核苷酸的原始配对末端序列读取。插入物含有7个核苷酸的样品条形码和随机的6个核苷酸的独特分子标识符(UMI)。考虑到tRNA分子的长度范围为74-96个核苷酸，正向和反向100个核苷酸读取完全覆盖一些tRNA序列，并与其他序列部分重叠。升级Illumina-utils‘iu-merge-pairs’命令以合并完全和部分重叠的读取，同时在超过完全重叠的情况下修剪悬垂的适配子序列(标志，“-标志物-基因-严格的”，使得能够考虑完全和部分重叠)。通过保留与重叠区域中的零错配匹配的读取(选项‘-max-num-mismatches 0’)，使错误的碱基调用最小化，这对于分析修饰诱导的突变是重要的。

在Anvi’o multi-omics平台中开发了工具以从读取中鉴定tRNA序列(可在https://github.com/merenlab/anvio获得)，包括Snakemake工作流，以使以下步骤中的许多自动化。命令‘anvi-gen-tRNAseq-database’运行动态编程算法(模块‘trnaidentifier’)以分析读取中的tRNA特征，从而选择成熟的和片段化的tRNA以及其它相关物质，如tRNA前体(pre-tRNA)。所述方法中的所有读取都从3’-CCA开始，因此定义了用于tRNA选择的一组最小标准，其包括受体核苷酸和T臂中保守核苷酸的正确长度，其中发现7个中的5个。该算法继续向读取的5’末端搜索包括反密码子环在内的特征，其中全长读取含有碱基配对的受体茎和其间的所有特征。该算法在遇到可能具有可变长度的特征(如可变(V)环)时搜索每个可能的序列，并返回在典型保守位置的“非保守”核苷酸和在茎中的碱基对错配的最小总和的特征图谱。

通过使用GAST工具搜索从存储在Ensembl Genomes 2016数据库中的4,235个金标准细菌基因组(具有装配水平的“染色体”的非内共生体基因组)中鉴定的tRNAscan-SE(V1.3.1)的一组参考tRNA序列，在分类学上对tRNA序列进行注释。

从tRNA序列中选择特定的核苷酸位置用于修饰分析。相对于由Anvi’o描绘的特征来鉴定位置。例如，在许多tRNA种类中的m1A修饰位点，规范位置22被鉴定为与反密码子茎的5’-核苷酸(规范位置27)相距5个核苷酸。Anvi’o工作流分析了在每个分类群中目的位置处核苷酸的分布，通过反密码子对tRNA种类进行分组。选择在去甲基化和未处理的样品分割中至少50个读取代表的tRNA种类。可能由修饰引起的突变通过仅考虑在至少5％的来自未处理分割的读取中具有3个不同核苷酸的tRNA种类从核苷酸变体的其它来源分离，如具有单核苷酸多态性的相关tRNA序列。去甲基化分割中显著降低的突变特征证实了推定的修饰(χ²p值<0.001，根据χ²检验比较在去甲基化实验中观察到的4个核苷酸的数目与给定来自未处理实验的分布的预期的4个核苷酸的数目)。

结果

RNA-seq过程

图2C-F和图3A-G展示了为探索RNA-seq平台和在RNA-seq文库制备中使用该平台的各个方面而进行的实验结果。除非另有说明，实验中的输入材料是来自HEK293T细胞的总RNA。附图显示了分析反应产物的电泳凝胶的图像。DNA大小标志物显示在左边。由人tRNA中的m1A58和m1G37修饰引起的主要RT(逆转录酶)终止显示在右边。TdT对应于来源于RT的异常末端转移酶活性的产物。

用T4 RNA连接酶I的连接与CHO的双链体结构相容，并显示在具有3’-A或3’-C末端的RNA底物之间没有偏倚(图3A)，这是稍后讨论的带电tRNA测量所需的特性。

在链霉亲和素珠粒与所有CHO结合后，一些具有连接的输入RNA，而其它没有，样品可以分成两份用于任选的酶处理。在这种情况下，将一个样品暴露于AlkB去甲基化酶混合物以去除tRNA中的Watson-Crick面甲基化，而另一个样品未经处理作为对照。珠粒上酶反应是高效的，如通过分别去除和减少tRNA样品中的m1A58和m1G37条带所示(图2C)。

使用热稳定的Superscript^TMIV RT的逆转录不被固定在珠粒上所抑制(图3B)。在珠粒上第二适配子与cDNA产物连接后，直接在珠粒上进行PCR以产生珠粒外产物以备测序(图3C)。使用碱性磷酸酶去除珠粒上的3’-磷酸，以允许随后从3’-OH逆转录(图3D)。如图3E所示，证实了高碘酸盐处理阻止与具有3’-末端核糖的CHO的连接，但对具有3’-末端脱氧核糖的相同寡核苷酸没有影响。

除了第一个条形码连接反应以外，所有反应都在珠粒上进行。这有利于在每个步骤中用简单的洗涤去除过量的试剂，显著减少了每个步骤中的样品损失，并允许构建具有少至10ng总RNA输入的RNA-seq文库(图2D)。

RNA-seq方案也从分离自复杂样品如人粪便(图2E)或人舌(图2F)的总核酸产生高质量RNA-seq文库。在具有或没有添加的DNA酶处理的情况下，这些样品中存在的大量DNA不干扰文库构建(图2E)。粪便样品S1*在第一连接步骤之前首先用DNA酶I处理，而S1和S2使用相同的样品而不用DNA酶处理。样品(+)高碘酸盐在第一连接步骤之前被高碘酸盐氧化，这阻止了RNA-CHO连接。HEK293T文库中观察到的m1A58条带几乎不存在于粪便样品文库中，表明人tRNA以低量存在于微生物组测序文库中。

作为tRNA装载研究的设计目标，修改氧化和β-消除方案以使得能够在单个管中顺序添加这些试剂，从而没有反应中间体沉淀或纯化，如图3F中示意性描绘的。最终混合物直接用于CHO连接。图3G显示了在没有(-,-)和具有(+,+)图3F所示处理的情况下最终PCR产物。

总大肠杆菌RNA

此处显示了RNA-seq在研究来自大肠杆菌的总RNA中的用途。尽管最初设计时考虑了tRNA，但原则上RNA-seq系统能够检测其它类型的RNA。从总大肠杆菌RNA构建文库。选择用于测序的15-150个核苷酸的cDNA插入物的最终PCR产物的大小。

图4和5描绘了来自总大肠杆菌RNA测序的几个分析的结果。

在图4A中，将RNA-seq结果映射至大肠杆菌基因组。如所预期的，大多数读取与成熟tRNA(92％)对齐，而其余读取与rRNA、非编码RNA(ncRNA)和mRNA对齐。一小部分读取映射至非编码RNA。在没有应激的情况下，ncRNA读取主要在一些丰富的RNA种类中分配，包括充分表征的ffs(SRP RNA)、ssrS(6S RNA)和rnpB(RNA酶PRNA)(如4A)。读取的比例粗略地反映了细胞RNA转录本在每个类别中的摩尔比，其中以摩尔计，tRNA占80-90％。在没有应激的情况下，ncRNA读取主要在一些丰富的RNA种类中分配，包括充分表征的ffs(SRP RNA)、ssrS(6S RNA)和rnpB(RNA酶P RNA)(图4A)。考虑到转录本覆盖率的较大差异，来自生物学重复的丰度与tRNA(r2>0.95)、rRNA(r2>0.85)和ncRNA(r2>0.75)良好地相关，但是对于mRNA是低的(图4C)。通过测序获得的tRNA丰度测量的定量性质通过与通过对tRNAArg和tRNALeu的同功受体家族的微阵列杂交获得的那些进行比较来验证(图4B；每对中左边的浅色点是微阵列数据，每对中右边的深色点是RNA-seq数据)。

因为tRNA在细菌中被高度修饰，所以用AlkB-去甲基化酶混合物在珠粒上处理RNA样品，这有效地去除了人tRNA中N1-甲基腺苷(m1A)、N1-甲基鸟苷(m1G)和N3-甲基胞嘧啶(m3C)的Watson-Crick面甲基化。在大肠杆菌tRNA中不存在m1A和m3C，因此去甲基化酶处理可能只影响含有m1G 20的7种大肠杆菌tRNA。如所预期的，在具有或没有利用AlkB去甲基化酶的混合物处理的情况下，tRNA的丰度在整体水平上良好地相关(r2>0.95)，而RNA类别rRNA、ncRNA和mRNA的相关性落入与生物学重复相同的范围内(图4C)。mRNA的低相关性是由于它们的低读取计数。

图4D描绘了沿着单独tRNA的突变分数的热图，并显示了少量的具有高突变分数的位点。已经充分地确定了在Watson-Crick面的RNA修饰由于RT通读而经常在cDNA中留下突变特征。RT也可以在修饰的核苷酸处终止。根据修饰的化学性质和测序中所用的特定RT，在各个修饰位点的突变和终止分数可以广泛变化。大多数位点对应于已知的修饰，如肌苷(I)、2-硫代胞嘧啶(s2C)、4-硫代尿苷(s4U)、N1-甲基鸟苷(m1G)和3-(3-氨基-3-羧丙基)尿苷(acp3U)。首先分析对去甲基化酶处理敏感的m1G修饰(图5C-D)。Superscript^TMIV RT有时会读取m1G，但以高频率终止。去甲基化酶处理去除甲基化，导致突变和终止分数的显著降低。与通过常规方法制备的RNA-seq文库的分析中使用的TGI RT相比(Zheng等人,NatureMethods 12,835,2015)，SuperScript^TMIV RT具有较低的突变率，但在m¹G处具有较高的终止率。

在Watson-Crick面处的其它大肠杆菌tRNA修饰包括在第8位的4-硫代尿苷(s4U)，在第32位的2-硫代胞嘧啶(s2C)，以及庞大的修饰，如在反密码子摆动位置34处的赖氨酸，在第37位的2-甲硫基-N6-异戊烯基腺苷(ms2i6A)和在第47位的3-(3-氨基-3-羧基丙基)尿苷(acp3U)。这些修饰在突变和终止分数具有非常大的差异(图4D和5C)。庞大的34和37修饰具有最高的终止分数。acp3U和m1G都具有相当的突变分数，伴随着大量的终止。s4U和s2c都是通过没有任何终止的突变来检测的(图4D和5C)。对于s4U8，突变分数在不同的tRNA中是高度可变的，这可以反映在这种生物学条件下它们的修饰分数的差异。对于s2C32修饰，观察到高得多的突变水平，这可以反映它们的高修饰水平和Superscript^TMIV RT的独特特性。在先前的研究中，使用与嗜热II组内含子3不同的RT，在大肠杆菌tRNA中没有检测到s2C32。

在大肠杆菌中观察到表达水平变化约2,000倍的约50个非编码RNA(图4E)。在没有应激的情况下，这些由几种保守的细菌RNA种类如SRP RNA(ffs)、tmRNA(ssrA)和RNA酶PRNA(rnpB)主导，但是绝大多数以低得多的水平表达，这与它们在应激响应中的预期作用一致。图4E描绘了在rpm>1下非编码RNA转录本的丰度。数据显示了去甲基化酶处理仅具有较小的效果。

该实验和随后的实验证明了tRNA和小的非编码RNA的同时分析。由于tRNA水平极高，因此通常通过按大小选择远离tRNA的RNA来进行小RNA测序。通过从总RNA开始，该方法根据它们的近似摩尔比将所有RNA类型整合到单个文库中。

大肠杆菌应激响应

此处显示了RNA-seq在通过使大肠杆菌经受三种急性应激条件来研究生物学应答中的应用。H₂O₂的添加对应于氧化应激，2,2’-联吡啶(DIP)对应于铁饥饿，以及α-甲基葡糖苷-6-磷酸(aMG)对应于葡萄糖饥饿。

图5A-G描绘了对来自经历三种急性应激条件的大肠杆菌的总RNA进行测序的结果。

图5A显示了在三种急性应激条件下和没有在三种急性应激条件下持续10分钟的来自生长在LB中的大肠杆菌的总RNA的生物学重复之间的RNA转录本丰度的相关性。由于mRNA的非常低的覆盖率，tRNA、rRNA和ncRNA的丰度相关性很好地一致，而mRNA除外。图5B显示了用去甲基化酶处理和未处理的样品的转录本丰度之间的关系。图5C显示了在具有和没有去甲基化酶处理的文库中沿着tRNA^Pro(GGG)的突变率。未处理的样品在已知的m¹G37和s⁴U8修饰处显示突变峰。通过去甲基化酶处理防止m¹G37突变，而s⁴U8突变不受影响。图5D显示了在具有和没有去甲基化酶处理的情况下，沿着tRNA^Pro(GGG)的读取密度，这证明了在m¹G37处的强终止，其主要通过去甲基化酶处理消除。图5A-D中所示的大肠杆菌在应激条件下生长的结果反映了先前讨论的无应激的大肠杆菌的结果(图4A-D)。

对应激的主要细菌应答是特异性非编码RNA的上调。图5E中分析的应激响应序列是：OxyS(+)，响应于氧化应激；rhyB(三角形)，响应于铁饥饿；sgrS(正方形)，响应于葡萄糖饥饿；以及ffs(SRP；圆圈)，无响应的对照序列。图5F描绘了3种应激响应的小非编码RNA和对照RNA SRP(ffs)在应激和无应激作为对照(无)期间的覆盖密度。对于每种应激，检测到特异性RNA表达的显著增加：对于氧化应激，oxyS增加约75倍；对于铁饥饿，ryhB增加约10倍；对于葡萄糖饥饿，sgrS增加约60倍(图5E-G)。对照序列ffs(SRP RNA)的水平在所有条件下保持不变(图5E-F)。

图5G描绘了来自没有去甲基化酶处理的文库的所有检测到的小非编码RNA的丰度倍数变化；只有少量的转录本对个体应激有反应，这与文献一致。

在以下相同的应激条件下，还研究了tRNA丰度、装载和修饰的变化：氧化应激、铁饥饿和葡萄糖饥饿。在这些急性应激条件下(10分钟)tRNA丰度的变化在1.3倍内。当分析单独tRNA的突变率时，仅在αMG和DIP应激后在第8位观察到广泛的过度修饰，而在第32位的过度修饰仅由DIP应激引起。

除了丝氨酸和甘氨酸的tRNA之外，大多数tRNA装载水平的变化也很小并且在整体范围内。在所有三种应激条件下，tRNA^Ser装载水平提高了多达1.8倍；所有4种tRNA^Ser同功受体遵循相同的趋势。该结果与在应激前使用的培养条件下已知的低水平的tRNA^Ser装载是一致的。在另一方向上，tRNA^Gly同功受体装载水平的变化比整体范围低多达1.7倍。

这些结果表明通过tRNA的急性大肠杆菌应激响应通过tRNA装载比tRNA丰度的变化更迅速地发生。然而，随着应激的持续，tRNA丰度的大的变化可能被取代。

还研究了应激如何影响tRNA修饰。在各应激和无应激对照之间使用比较突变分数可以以高置信度分析的4种修饰中，发现在应激下m1G37水平变化不大，而acp3U47水平在所有3种应激条件下都增加。相比之下，s2C32和s4U8水平的显著变化取决于应激条件。S2C32水平仅在铁饥饿下下降。S4U8水平在铁饥饿和葡萄糖饥饿下升高，但在氧化应激下不升高。这些变化的确切作用和机制还不清楚。

HEK293T RNA

此处显示了RNA-seq在研究来自HEK293T RNA的总人RNA中的应用。

图6和7描绘了来自总人RNA测序的几种分析的结果。

用人总RNA构建RNA-seq文库(图6A)。如所预期的，大多数读取来自tRNA(95％)，其余的来自ncRNA(2.9％)、rRNA(2％)和mRNA(0.1％)。ncRNA读取包括IncRNA、snRNA、snoRNA等，其中大多数是IncRNA和snRNA。通过将去甲基化酶处理的文库获得的tRNA丰度的定量性质通过与对tRNA^Arg的同功受体家族的微阵列杂交获得的那些进行比较来验证(图6B；每对中左边的浅色点是微阵列数据，每对中右边的深色点是RNA-seq数据)。

人tRNA在许多tRNA种类中具有多个Watson-Crick面甲基化。这些包括在第58位的m1A、在第37位的m1G，在第32位的m3C，在第26位的2,2-二甲基鸟苷(m22G)和在第9位的m1G。因此，去甲基化酶处理可以对tRNA丰度测量有很大的影响。实际上，在具有去甲基化酶处理和没有去甲基化酶处理的情况下将测序结果进行比较，tRNA的总丰度仅适度地相关(图7A，r2～0.68)，尽管在具有去甲基化酶处理和没有去甲基化酶处理的情况下生物学重复的相关性极佳(图7B，r2>0.95)。这种差异可部分归因于对特定人tRNA的读取分配的模糊性增加和/或未处理样品中低修饰的tRNA的比例过高。

将RNA-seq的测序结果与先前公开的DM-tRNA-seq的结果进行比较(Zheng等人,Nature Methods 12,835,2015)显示了良好的相关性(图7C)。本发明的RNA-seq和先前的DM-tRNA-seq之间的主要区别是使用不同的RT酶、文库构建中涉及的步骤以及RNA-seq中总RNA相对于DM-tRNA-seq中凝胶纯化的tRNA的输入。

通过从10,100和1000ng总RNA开始构建文库来测试RNA-seq方法的稳健性(图2D和6C)。图6C描绘了从1μg、100ng或10ng总RNA开始的文库的tRNA丰度结果的相关性。即使在10ng总RNA输入下，tRNA丰度也在r2～0.94的这些文库之间很好地相关。

通过分析沿着单独tRNA的突变分数，广泛的tRNA修饰景情形是显而易见的，这揭示了许多具有高突变分数的位点。大多数突变位点对应于已知的修饰，如第58位的N1-甲基腺苷(m1A)、第37位的N1-甲基鸟苷(m1G)、第32位的N3-甲基胞嘧啶(m3C)、第26位的N2,2-二甲基鸟苷(m22G)和第9位的m1G/m1A。除了m1G37之外，在Watson-Crick面处的基本上所有的甲基化在tRNA序列中产生了高突变分数(图7D)。

去甲基化酶处理后在tRNA中分析突变分数。如所预期的，所有的主要变化来自去甲基化酶敏感的修饰位点，如m1A、m1G和m3C(参见图7E)。去甲基化酶处理消除或减少了与细胞核编码和线粒体编码的tRNA中的这些修饰相关的突变和终止，而许多tRNA的摆动反密码子位置处的肌苷(I)修饰不受影响。

除了tRNA之外，还鉴定了许多小的非编码RNA(图6D)。它们的丰度相差约2,000倍。图6D描绘了在rpm>10时小的非编码RNA转录本的丰度。如所预期的，这些中的大部分是剪接体RNA和snoRNA，加上一些丰富的micro-RNA，如图7F所示。在这里没有分析tRNA片段，并且在这一类别中排除了tRNA片段。

尽管RNA-seq最初被设计用于研究小RNA，但原则上它可以用于研究mRNA。还使用作为输入poly(A)-选择的，然后片段化的RNA制备测序文库。在这种情况下，大多数读取实际上映射至mRNA和聚腺苷酸化的ncRNA(97％)，只有一小部分映射至tRNA(2％)和rRNA(0.6％)(图7G)。对于mRNA，重复良好地相关(r2＝0.91)，这支持了RNA-seq方法用于转录组测序的有用性(图7H)。

通过化学处理的假尿苷(Ψ)位点作图

这里显示了珠粒上方案对于涉及RNA的苛刻化学处理的应用的稳健性。

图8描绘了RNA-seq用于探索人rRNA中的Ψ位点的用途。

RNA的化学处理具有许多应用，如RNA结构作图或RNA修饰的鉴定。鉴定Ψ位点的得到确认的方法是使用N-环己基-N’-β-(4-甲基吗啉鎓)乙基碳二亚胺(CMC)的反应。当将CMC处理的样品与未处理的对照进行比较时，通过发现在Ψ位点增加的RT终止和/或突变来检测Ψ。

人rRNA具有约100个已知的Ψ位点。为了对它们作图，将总RNA化学片段化，3’-末端修复，然后连接到发夹寡核苷酸上。在构建测序文库时，用CMC反应代替珠粒上去甲基化步骤(图8A)。每个rRNA位置被赋予一个终止分数和一个突变分数，并且在生物学复制之间观察到良好的相关性(r2>0.95)(图8B)。检查已知富含Ψ位点的18S(图8C)和28S(图8D)rRNA，以及全长18S rRNA(图8E-F)的区域。在图8C-F中用星号表示所有已知的Ψ位点。在已知的Ψ位点处在CMC处理的样品中的终止和/或突变分数中鉴定强信号，证实了所述方法的有用性。

该实施例显示了链霉亲和素珠粒可耐受苛刻的化学处理，如CMC反应，其包括在pH8-10下进行的两个步骤和在30-37℃下孵育数小时。

微生物组tRNA测序

此处显示了RNA-seq方法在研究复杂样品(如微生物组)中的有用性。

图9-12描绘了RNA-seq用于探索人粪便和舌头中的微生物组的用途。

大多数微生物组表征技术对DNA进行测序，其可以确定群落成员，但不能确定微生物活性。先前的工作开发了微生物组tRNA-seq方法(Schwartz等人,Nat Commun 9,5353,doi:10.1038/s41467-018-07675-z,2018)，其测量了小鼠盲肠中的tRNA表达和tRNA修饰。然而，先前的方法具有许多局限性，包括在文库构建之前需要大量的输入材料和tRNA的凝胶纯化，以及在文库构建过程中需要大量的cDNA产物。

先前研究中使用的大肠杆菌和人细胞系来自确定的培养物，其中输入样品的量实际上是无限的并且数据复杂度低，因为每个样品可以与单个参考基因组比对。相比之下，来自人粪便和舌的样品要复杂得多。已经证明来自这些样品的RNA-seq文库具有良好的质量(参见图2E-F)，将RNA-seq文库用于测序，并且使用先前开发的从头tRNA-seq管道分析tRNA丰度和修饰的数据。对于粪便和舌样品，>95％的所有与tRNA相容的读取被赋予细菌，这表明该程序产生了高价值的微生物组表征结果。

图9A显示了对来自人舌刮片的不同主要RNA类别的读取的分配。图9B显示了来自各种细菌分类学类别的SRP RNA和5S rRNA的相关性。将值计算为log10丰度的Z评分。图9C显示了SRP RNA丰度与如B中的细菌分类学类别的所有鉴定的tRNA的总和的相关性。图9D显示了5S rRNA与如B中的细菌分类学类别的所有鉴定的tRNA的总和的相关性。图9E显示了映射至产黑色普雷沃菌的SRP的读取；读取映射至基因的注释的5’-末端(顶部)(大写字母)，然而转录本的3’-末端(底部)1-3个碱基超出基因注释进入基因组序列(小写字母)；延伸的3’-末端与SRP结构上下文(中间)一致。图9F显示了映射至粘滑罗斯菌的SRP的读取；读取映射至基因的注释5’-末端(顶部)下游的2-5个碱基，而3’-末端(底部)显示了3’-末端与注释端相差4-8nt的个体之间的异质性。

图10A显示了使用tRNA、5S rRNA、SRP RNA计算的或通过16S扩增子基因测序测量的来自人舌刮片的微生物的分类组成；已知放线菌通过16S扩增子测序避开检测，解释了RNA与16S DNA测序技术之间的差异。图10B显示了如通过tRNA、5S rRNA、SRP RNA和16S扩增子测序测量的4个不同个体在连续2天之间舌微生物丰度的倍数变化。图10C显示了对来自人粪便的不同主要RNA类别的读取分配。图10D显示了使用tRNA、5S rRNA、SRP RNA计算的或通过16S扩增子基因测序测量的来自两个人粪便样品的微生物的分类组成。

图11A显示了使用tRNA、5S rRNA、SRP RNA计算的或通过16S扩增子基因测序测量的来自4种不同人舌刮片的微生物的分类组成。图11B显示了使用携带反密码子“TTT”或“CTT”的任一tRNA计算的来自人舌刮片的微生物的分类组成。

还分析了tRNA修饰。图12A显示了沿着来自人舌刮片的罗氏菌属细菌的单独tRNA的突变率的热图。图12B显示了如A中的热图，但鉴定了对去甲基化酶处理敏感的突变以及鉴定了该属中丰富的m1A58修饰。图12C显示了从罗氏菌属中选择的tRNA的第37位和周围碱基处的突变率以及将m1G37鉴定为去甲基化酶敏感的修饰。图12D显示了在去甲基化酶处理和没有去甲基化酶处理的情况下，在来自人舌的几种细菌分类群中选择的tRNA的第22位的突变率，其鉴定了修饰m1A22。图12E鉴定了如D中的来自人舌的放线菌中的m1A58。图12F显示了来自连续2天的4次人舌刮片中，在没有去甲基化酶处理的情况下，选择细菌类别的第22位的突变率。图12G显示了来自连续2天的4次人舌刮片中，在没有去甲基化酶处理的情况下，放线菌在第58位的突变率。图12H鉴定了来自人粪便的如D中的选择细菌类别中的m1A22。图12I鉴定了来自人粪便的如E中的放线菌中的m1A58。

RNA-seq以几种方式改进了微生物组tRNA-seq的应用，包括一次处理许多样品的能力、输入样品量的非常显著的减少、所有大小选择步骤的消除和珠粒上去甲基化酶反应。

实施例2

SARS-CoV-2

以下的实施例显示了RNA文库制备的RNA-seq方法的使用，所述方法通常描述于实施例1中，并使用如本文所述的发夹寡核苷酸，用于根据本发明的方面开发潜在的SARS-CoV-2生物标志物。

从先前诊断为SARS-CoV-2的个体获得10个鼻拭子样品。应用RNA-seq方法检测样品中的人和微生物tRNA。基于检测到的tRNA进行盲法聚类分析，并与由住院时间决定的患者结果进行比较。主要的簇很好地对应于严重的症状(住院>15天)和轻微/非常轻微的症状(<3天)。

对来自SARS-CoV-2患者的鼻咽拭子和作为对照的健康个体进行测序，以确定可从用于COVID19测试的鼻咽拭子获得的测序数据的质量。这些样品是低生物量的并且仅含有少量的RNA，这些RNA通常通过标准UV吸光度测量不能检测到。尽管低样品生物量对于基于qPCR的诊断来说不是问题，但它代表了大多数RNA测序技术的障碍。

tRNA片段化在所有样品中广泛发生。对于健康对照(n＝5)、流行性感冒感染的(n＝4)和SARS-CoV-2感染的(n＝57)个体，显示了沿着tRNA映射到连续区域的读取分数(图14A)。对于每个患者组，tRNA的片段化显示出一致和独特的模式。片段切割主要发生在反密码子区。

特异性tRNA的片段化可以区分未感染的、流行性感冒和SARS-CoV-2感染的个体(图14B)；ns，不显著，P值：*<0.05；**<0.01；***<10^-3，****<10^-4。归一化为5.8S rRNA的特定全长tRNA的丰度差异可以区分不同的病毒感染(即，来自SARS Cov-2的流行性感冒)，甚至可以区分发展轻微(n＝36)或严重(n＝21)症状的SARS-CoV-2患者(图14C)。发展轻微症状的患者显示出更高部分的片段化tRNA，这与来自强健的先天免疫应答的更大的RNA酶分泌相一致。

在相同测序数据中检查的另一个参数是通过RT突变特征的RNA修饰的定量比较。特异性tRNA修饰可以区分健康患者与病毒感染和SARS-CoV-2感染症状发展(图14D)。

结果显示了RNA-seq技术能够从堆积的鼻咽互换(banked nasopharyngealswaps)中产生高质量的tRNA测序结果。通过鉴定处于来自呼吸道病毒感染并发症的高风险的患者，在人鼻咽区中的tRNA片段化谱具有作为感染结果预测的生物标志物的潜力。

实施例3

结直肠癌

以下的实施例显示了RNA文库制备的RNA-seq方法的使用，所述方法通常描述于实施例1中，并使用如本文所述的发夹寡核苷酸，用于根据本发明的方面开发潜在的结直肠癌(CRC)生物标志物。

对来自6名患有CRC的患者的肿瘤和邻近组织的tRNA进行测序。该实验探索了从这些样品研究tRNA的可行性，并确定肿瘤是同质的还是表现出与患者人口统计学(即，体重指数，BMI)相关的tRNA水平变化。

如所预期的，从这些样品获得的大部分RNA数据是tRNA(71％)。剩余的RNA是rRNA(7.3％)、mt_tRNA(2.7％)和其它RNA(19％)。

高分辨率数据使得能够检查>300个染色体编码的tRNA基因(图15)和22个线粒体编码的tRNA基因(图16)的不同特性。

图15描绘了来自6名患有结肠直肠癌(CRC)患者的肿瘤和邻近组织中tRNA-seq丰度、修饰和片段化的测量。表达水平(图15A)：tRNA丰度揭示了患者之间的显著异质性。例如，读取氨基酸丙氨酸的密码子的tRNA的表达在患者中相对恒定，其中肿瘤表达的水平比邻近组织高约2倍(左图面)。相比之下，读取氨基酸亮氨酸的密码子的tRNA在每名患者中显示不同的表达模式，而不管BMI或tRNA^Ala表达水平如何(右图面)。修饰(图15B)：tRNA-seq检测到转录后甲基化修饰，导致测序文库构建期间核苷酸错掺(上图面)。通过用去除甲基化的去甲基化酶处理样品来验证某些修饰，从而消除错掺(m¹A)，而不同的修饰(I)不受影响(下图面)。片段化(图15C)：tRNA片段由响应不同细胞条件的细胞核酸酶切割产生，并且属于它们自己的调节性非编码RNA家族。RNA-seq分析区分具有不同3’末端的tRNA，其可基于tRNA二级结构区域(例如，D-环、反密码子-环、T-环)中切割位点的位置进行分组。如所预期的，tRNA片段占总tRNA读取的约1-10％，其中在反密码子环(30-39)中的切割是最常见的。出乎意料的是，在T环(50-59)中的切割在肿瘤和邻近组织之间是显著不同的，表明tRNA片段谱可能是有用的生物标志物。

图16描绘了在个体患者中线粒体tRNA的肿瘤表达模式。与6名患者的4名患者的邻近组织相比，线粒体tRNA在肿瘤中显著低表达(图16A)，这一发现与癌症中的瓦博格效应(Warburg effect)和线粒体功能障碍一致。在这些样品中，来自具有低和高BMI的患者的样品之间没有强的差异模式。当分析扩展到包括癌症基因组图谱(TCGA)中的数百个样品时，数据显示，与具有高BMI的那些患者相比，具有低BMI的患者的肿瘤中线粒体基因的表达显著降低(图16B)。

除了tRNA之外，RNA-seq技术也从微生物中捕获小RNA，使得能够使用微生物5SrRNA来分析个体患者中微生物群落的组成(图17)。三名患者显示出高比例的放线菌。已知三名患者中的两名已经发展为CRC的复发；扩展该研究以查看第三名患者的CRC状态是否改变。

个体患者中的染色体tRNA结果也可用于通过碱基修饰和物种间多态性(在高分辨率下)来鉴定物种差异。最初的分析集中于共生肠细菌粪肠球菌，已知它们与CRC复发有关。错掺可能是由于tRNA碱基修饰(m1A)或碱基多样性(SNP)，其反映了微生物组样品中的遗传多样性。在手术前、在手术期间和在手术后取自患者的样品中沿着来自粪肠球菌的tRNA^Tyr的错掺结果(图18A)提供了几点见解。首先，第7位和第74位显示了随时间推移错掺的变化。基于已建立的tRNA结构和修饰的知识，以及突变对去甲基化酶处理的不敏感性，这些变化被鉴定为代表由于肠球菌属的密切相关物种在手术后的差别积累而引起的遗传多样性(图18B)。所观察到的多样性降低表明了手术后物种组成的显著改变。相比之下，在第23位的错掺对去甲基化酶处理敏感，表明它是由tRNA中的碱基修饰引起的，在这种情况下是N1-甲基腺苷(图18C)。手术后错掺的分数增加约20％，表明肠球菌的这种改变反映了处理状态的影响。

结果显示通过RNA-seq技术进行的分析允许对肿瘤中RNA可变性的许多不同见解。

本文引用的所有参考文献，包括出版物、专利申请和专利，均通过引用并入本文，其程度如同每篇参考文献均被单独且具体地指明为通过引入并入本文并在本文整体阐述。

在描述本发明的上下文中(尤其是在所附权利要求的上下文中)术语“一个”和“一种”和“该”和“至少一种”以及类似指代物的使用应被解释为涵盖了单数和复数两种，除非本文另有说明或与上下文明显矛盾。术语“至少一种”之后是一项或多项的列表(例如，“A和B中的至少一种”)的使用应理解为意指选自所列项(A或B)的一项或所列项(A和B)的两种或更多种的任何组合，除非本文另有说明或与上下文明显矛盾。除非另有说明，否则术语“包含”、“具有”、“包括”和“含有”应被解释为开放式术语(即，意指“包括但不限于”)。除非在本文中另外指出，否则本文中数值范围的叙述仅旨在用作分别指代落入该范围内的每个单独值的简写方法，并且每个单独值都被并入说明书中，就好像它在本文中被单独叙述一样。除非本文另外指出或另外与上下文明显矛盾，否则本文描述的所有方法可以以任何适合的顺序执行。除非另外要求保护，否则本文提供的任何和所有示例或示例性语言(如，“诸如”)的使用仅旨在更好地阐明本发明，并且不对本发明的范围构成限制。说明书中的任何语言都不应解释为指示任何未要求保护的要素对于实施本发明必不可少。

本文描述了本发明的优选方面，包括发明人已知的用于实施本发明的最佳模式。在阅读前述说明书之后，那些优选方面的变型对于本领域普通技术人员而言将变得显而易见。本发明人期望本领域技术人员适当地采用这样的变型，并且本发明人有意以不同于本文具体描述的方式来实践本发明。因此，本发明包括适用法律所允许的所附权利要求书中记载的主题的所有修改和等同物。此外，除非本文另外指出或另外与上下文明显矛盾，否则本发明涵盖上述要素在其所有可能的变型中的任何组合。

序列表

<110> 芝加哥大学(The University of Chicago)

<120> 发夹寡核苷酸及其用途

<130> 757154

<150> 63/110,605

<151> 2020-11-06

<160> 89

<170> PatentIn version 3.5

<210> 1

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 1

actggaaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt tccagu 56

<210> 2

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (4)..(4)

<223> 3'-核糖糖基化的a

<220>

<221> modified_base

<222> (31)..(31)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (59)..(59)

<223> 3'-核糖糖基化的u

<400> 2

ccaactggaa agatcggaag agcacacgat tagacgtgtg ctcttccgat ctttccagu 59

<210> 3

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (4)..(4)

<223> 3'-核糖糖基化的a

<220>

<221> modified_base

<222> (31)..(31)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (59)..(59)

<223> 3'-核糖糖基化的u

<400> 3

ccaactggaa agatcggaag agcacacgat tagacgtgtg ctcttccgat ctttccagut 60

gg 62

<210> 4

<211> 59

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的a

<400> 4

actggaaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt tccagutgg 59

<210> 5

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> n是5'末端磷酸化的a、c、g或t

<220>

<221> misc_feature

<222> (2)..(6)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (35)..(35)

<223> 3'末端双脱氧化c

<400> 5

nnnnnngatc gtcggactgt agaactctga acgtc 35

<210> 6

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 6

acgttcagag ttctacagtc cgacgatc 28

<210> 7

<211> 28

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 7

agacgtgtgc tcttccgatc t 21

<210> 8

<211> 13

<212> RNA

<213> 产黑素普雷沃菌(Prevotella melaninogenica)

<400> 8

aagacgggca agu 13

<210> 9

<211> 18

<212> RNA

<213> 产黑素普雷沃菌(Prevotella melaninogenica)

<400> 9

gcuuguccac cccgccuc 18

<210> 10

<211> 12

<212> DNA

<213> 产黑素普雷沃菌(Prevotella melaninogenica)

<400> 10

ccaccccgcc tc 12

<210> 11

<211> 14

<212> RNA

<213> 粘滑罗斯菌(Rothia mucilaginosa)

<400> 11

ucuugccucu uacg 14

<210> 12

<211> 17

<212> RNA

<213> 粘滑罗斯菌(Rothia mucilaginosa)

<400> 12

cguaaggggu uuuucua 17

<210> 13

<211> 10

<212> DNA

<213> 粘滑罗斯菌(Rothia mucilaginosa)

<400> 13

ggtttttcta 10

<210> 14

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(6)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (27)..(27)

<223> 生物素标记的t

<220>

<221> misc_feature

<222> (49)..(51)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (54)..(54)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 14

actnnnagat cggaagagca cacgattaga cgtgtgctct tccgatctnn nagu 54

<210> 15

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(7)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> misc_feature

<222> (50)..(53)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 15

actnnnnaga tcggaagagc acacgattag acgtgtgctc ttccgatctn nnnagu 56

<210> 16

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(8)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> misc_feature

<222> (51)..(55)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (58)..(58)

<223> n是3'-核糖糖基化的，-磷酸化的u

<400> 16

actnnnnnag atcggaagag cacacgatta gacgtgtgct cttccgatct nnnnnagu 58

<210> 17

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(9)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (30)..(30)

<223> 生物素标记的t

<220>

<221> misc_feature

<222> (52)..(57)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (60)..(60)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 17

actnnnnnna gatcggaaga gcacacgatt agacgtgtgc tcttccgatc tnnnnnnagu 60

<210> 18

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(6)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (28)..(28)

<223> 5'-磷酸化的，3'-核糖糖基化的t

<220>

<221> misc_feature

<222> (51)..(53)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 18

actnnngatc gtcggactgt agaacattag agttctacag tccgacgatc nnnagu 56

<210> 19

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> n是5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(7)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (29)..(29)

<223> n是生物素标记的t

<220>

<221> misc_feature

<222> (52)..(55)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 19

actnnnngat cgtcggactg tagaacatta gagttctaca gtccgacgat cnnnnagu 58

<210> 20

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(8)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (30)..(30)

<223> 生物素标记的t

<220>

<221> misc_feature

<222> (53)..(57)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (60)..(60)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 20

actnnnnnga tcgtcggact gtagaacatt agagttctac agtccgacga tcnnnnnagu 60

<210> 21

<211> 62

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> misc_feature

<222> (4)..(9)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (31)..(31)

<223> 生物素标记的t

<220>

<221> misc_feature

<222> (54)..(59)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (62)..(62)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 21

actnnnnnng atcgtcggac tgtagaacat tagagttcta cagtccgacg atcnnnnnna 60

gu 62

<210> 22

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> n是5'-磷酸化的a、c、g或t

<220>

<221> misc_feature

<222> (2)..(6)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (25)..(25)

<223> 3'-双脱氧化c

<400> 22

nnnnnngatc gtcggactgt agaac 25

<210> 23

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> n是5'-磷酸化的a、c、g或t

<220>

<221> misc_feature

<222> (2)..(6)

<223> n是a、c、g或t

<220>

<221> modified_base

<222> (25)..(25)

<223> 3'-双脱氧化c

<400> 23

nnnnnnagat cggaagagca cacgc 25

<210> 24

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> n是5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 24

acttgaaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt tcaagu 56

<210> 25

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 25

acttaggaga tcggaagagc acacgattag acgtgtgctc ttccgatctc ctaagu 56

<210> 26

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 26

acttgttaga tcggaagagc acacgattag acgtgtgctc ttccgatcta acaagu 56

<210> 27

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 27

acttaccaga tcggaagagc acacgattag acgtgtgctc ttccgatctg gtaagu 56

<210> 28

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 28

acttccaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt ggaagu 56

<210> 29

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 29

acttttgaga tcggaagagc acacgattag acgtgtgctc ttccgatctc aaaagu 56

<210> 30

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 30

actttgtaga tcggaagagc acacgattag acgtgtgctc ttccgatcta caaagu 56

<210> 31

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 31

acttcacaga tcggaagagc acacgattag acgtgtgctc ttccgatctg tgaagu 56

<210> 32

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 32

acttgcgaga tcggaagagc acacgattag acgtgtgctc ttccgatctc gcaagu 56

<210> 33

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 33

acttctaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt agaagu 56

<210> 34

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 34

acttattaga tcggaagagc acacgattag acgtgtgctc ttccgatcta ataagu 56

<210> 35

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 35

acttggcaga tcggaagagc acacgattag acgtgtgctc ttccgatctg ccaagu 56

<210> 36

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 36

actggaagat cgtcggactg tagaacatta gagttctaca gtccgacgat cttccagu 58

<210> 37

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 37

actcagagat cgtcggactg tagaacatta gagttctaca gtccgacgat ctctgagu 58

<210> 38

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 38

actaccagat cgtcggactg tagaacatta gagttctaca gtccgacgat ctggtagu 58

<210> 39

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 39

acttcaggat cgtcggactg tagaacatta gagttctaca gtccgacgat cctgaagu 58

<210> 40

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 40

actatgggat cgtcggactg tagaacatta gagttctaca gtccgacgat cccatagn 58

<210> 41

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 41

actgatggat cgtcggactg tagaacatta gagttctaca gtccgacgat ccatcagu 58

<210> 42

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 42

actctacgat cgtcggactg tagaacatta gagttctaca gtccgacgat cgtagagu 58

<210> 43

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 43

acttaccgat cgtcggactg tagaacatta gagttctaca gtccgacgat cggtaagu 58

<210> 44

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (57)..(57)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 44

actagtcatc gtcggactgt agaacattag agttctacag tccgacgatc gactagu 57

<210> 45

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 45

acttggtgat cgtcggactg tagaacatta gagttctaca gtccgacgat caccaagu 58

<210> 46

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 46

actgtctgat cgtcggactg tagaacatta gagttctaca gtccgacgat cagacagu 58

<210> 47

<211> 58

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (29)..(29)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (58)..(58)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 47

actccttgat cgtcggactg tagaacatta gagttctaca gtccgacgat caaggagu 58

<210> 48

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 48

actggaaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt tccagu 56

<210> 49

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 49

actcagaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt ctgagu 56

<210> 50

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 50

actaccaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt ggtagu 56

<210> 51

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 51

acttcagaga tcggaagagc acacgattag acgtgtgctc ttccgatctc tgaagu 56

<210> 52

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 52

actatggaga tcggaagagc acacgattag acgtgtgctc ttccgatctc catagu 56

<210> 53

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 53

actgatgaga tcggaagagc acacgattag acgtgtgctc ttccgatctc atcagu 56

<210> 54

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 54

actatggaga tcggaagagc acacgattag acgtgtgctc ttccgatctc catagu 56

<210> 55

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 55

acttaccaga tcggaagagc acacgattag acgtgtgctc ttccgatctg gtaagu 56

<210> 56

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 56

actagtcaga tcggaagagc acacgattag acgtgtgctc ttccgatctg actagu 56

<210> 57

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 57

acttggtaga tcggaagagc acacgattag acgtgtgctc ttccgatcta ccaagu 56

<210> 58

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 58

actgtctaga tcggaagagc acacgattag acgtgtgctc ttccgatcta gacagu 56

<210> 59

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 59

actccttaga tcggaagagc acacgattag acgtgtgctc ttccgatcta aggagu 56

<210> 60

<211> 56

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<220>

<221> modified_base

<222> (1)..(1)

<223> 5'-磷酸化的，3'-核糖糖基化的a

<220>

<221> modified_base

<222> (28)..(28)

<223> 生物素标记的t

<220>

<221> modified_base

<222> (56)..(56)

<223> 3'-核糖糖基化的，-磷酸化的u

<400> 60

actggaaaga tcggaagagc acacgattag acgtgtgctc ttccgatctt tccagu 56

<210> 61

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 61

aatgaacggc gaccaccgag atctacacgt tcagagttct acagtccgac gatc 54

<210> 62

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 62

caagcagaag acggcatacg agatcgtgat gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 63

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 63

caagcagaag acggcatacg agatacatcg gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 64

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 64

caagcagaag acggcatacg agatgcctaa gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 65

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 65

caagcagaag acggcatacg agattggtca gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 66

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 66

caagcagaag acggcatacg agatcactgt gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 67

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 67

caagcagaag acggcatacg agatattggc gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 68

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 68

caagcagaag acggcatacg agatgatctg gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 69

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 69

caagcagaag acggcatacg agattcaagt gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 70

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 70

caagcagaag acggcatacg agatctgatc gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 71

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 71

caagcagaag acggcatacg agataagcta gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 72

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 72

caagcagaag acggcatacg agatgtagcc gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 73

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 73

caagcagaag acggcatacg agattacaag gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 74

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 74

caagcagaag acggcatacg agatttgact gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 75

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 75

caagcagaag acggcatacg agatggaact gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 76

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 76

caagcagaag acggcatacg agattgacat gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 77

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 77

caagcagaag acggcatacg agatggacgg gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 78

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 78

caagcagaag acggcatacg agatctctac gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 79

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 79

caagcagaag acggcatacg agatgcggac gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 80

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 80

caagcagaag acggcatacg agattttcac gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 81

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 81

caagcagaag acggcatacg agatggccac gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 82

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 82

caagcagaag acggcatacg agatcgaaac gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 83

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 83

caagcagaag acggcatacg agatcgtacg gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 84

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 84

caagcagaag acggcatacg agatccactc gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 85

<211> 64

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 85

caagcagaag acggcatacg agatgctacc gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 86

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 86

agatcggaag agcacacgat 20

<210> 87

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 87

agacgtgtgc tcttccgatc t 21

<210> 88

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 88

gatcgtcgga ctgtagaaca t 21

<210> 89

<211> 22

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成的

<400> 89

agagttctac agtccgacga tc 22

Claims

2.如权利要求1所述的发夹寡核苷酸，其中所述3’-末端核苷酸的糖组分是戊糖，并且所述戊糖是核糖。

4.如权利要求1-3中任一项所述的发夹寡核苷酸，其还包含5’-末端核糖核苷酸。

5.如权利要求1-4中任一项所述的发夹寡核苷酸，其还包含：

(a)条形码序列，

(b)所述发夹环内部的亲和部分标记的核苷酸，以及

(c)引物结合位点。

6.如权利要求5所述的发夹核苷酸，其包含以下序列：

5’-Phos-rA CT-X-AGA TCG GAA GAG CAC ACG AT(SEQ ID NO:86)-LT-AGA CGT GTGCTC TTC CGA TCT(SEQ ID NO:87)-Z-AG rU-3’-Phos，

7.如权利要求5所述的发夹核苷酸，其包含以下序列：

5’-Phos-rA CT-X-GAT CGT CGG ACT GTA GAA CAT(SEQ ID NO:88)-LT-AG AGT TCTACA GTC CGA CGA TC(SEQ ID NO:89)-Z-AG rU-3’-Phos,

8.如权利要求1-7中任一项所述的发夹寡核苷酸，其固定在固体支持物上。

9.权利要求1-8中任一项所述的发夹寡核苷酸在制备RNA序列文库中的用途。

10.权利要求1-8中任一项所述的发夹寡核苷酸在制备RNA序列文库的多重方法中的用途。

11.权利要求1-8中任一项所述的发夹寡核苷酸在开发生物标志物中的用途。

12.如权利要求11所述的用途，其中所述生物标志物是从液体活检中开发的。

13.如权利要求11或12所述的用途，其中开发所述生物标志物包括产生tRNA片段化谱。

14.权利要求1-8中任一项所述的发夹寡核苷酸在开发病毒性疾病严重程度的生物标志物中的用途。

15.权利要求1-8中任一项所述的发夹寡核苷酸在开发针对癌症的生物标志物中的用途。

17.如权利要求16所述的固体支持物，其中所述亲和部分是生物素，以及所述配体部分是链霉亲和素。

18.如权利要求16或17所述的固体支持物，其中所述固体支持物是珠粒。

19.如权利要求16-18中任一项所述的固体支持物，其中所述寡核苷酸还包含：

(a)5’-末端核苷酸作为核糖核苷酸，

(b)条形码序列，

(c)用所述发夹环内部的亲和部分标记的核苷酸，以及

(d)引物结合位点。

20.权利要求16-19中任一项所述的固体支持物在制备RNA序列文库中的用途。

21.权利要求16-19中任一项所述的固体支持物在制备RNA序列文库的多重方法中的用途。

22.制备RNA序列文库的方法，其包括：

(a)将RNA序列连接到发夹寡核苷酸以形成构建体，所述寡核苷酸包含3’-末端核苷酸，其中所述3’-末端核苷酸的糖组分包含2’羟基和3’磷酸，

(b)将所述RNA序列逆转录为cDNA序列，以及

(c)使用PCR扩增所述cDNA序列。

23.如权利要求22所述的方法，其中所述发夹寡核苷酸还包含：

(i)5’-末端核苷酸作为核糖核苷酸，

(ii)条形码序列，

(iii)所述发夹环内部的亲和部分标记的核苷酸，以及

(iv)引物结合位点。

24.如权利要求22或权利要求23所述的方法，其还包括在连接后将3’-磷酸去磷酸化，以及在逆转录后用高碘酸盐氧化包含2’,3’-二醇的3’-末端核苷酸。

25.如权利要求24所述的方法，其还包括在连接后和去磷酸化前，对所述RNA序列的核苷酸上的Watson-Crick面甲基化进行去甲基化。

26.如权利要求22-25中任一项所述的方法，其还包括在逆转录后消化所述RNA序列，以及在扩增前进行第二连接以添加第二引物结合位点。

27.如权利要求22或权利要求23所述的方法，其还包括在连接后将所述构建体固定在固体支持物上。

28.如权利要求27所述的方法，其还包括在固定后将所述3’-磷酸去磷酸化，以及在逆转录后用高碘酸盐氧化包含2’,3’-二醇的3’-末端核苷酸。

29.如权利要求28所述的方法，其还包括在固定后和去磷酸化前，对所述RNA序列的核苷酸上的Watson-Crick面甲基化进行去甲基化。

30.如权利要求27-29中任一项所述的方法，其还包括在逆转录后消化所述RNA序列，以及在扩增前进行第二连接以添加第二引物结合位点。

31.如权利要求22-30中任一项所述的方法，其中所述RNA序列包含总RNA、小RNA、tRNA、microRNA、piRNA或以上的任何组合。

32.如权利要求22-31中任一项所述的方法，其中所述方法包括多重方法。