CN110520540A

CN110520540A - 核酸修饰和鉴定方法

Info

Publication number: CN110520540A
Application number: CN201880024846.5A
Authority: CN
Inventors: S.L.埃姆瑞斯; B.赖希霍尔夫; V.A.赫索格; J.朱伯; M.穆哈尔
Original assignee: Imba Molikur Institute Of Biotechnology
Current assignee: Imba Molikur Institute Of Biotechnology
Priority date: 2017-04-13
Filing date: 2018-04-13
Publication date: 2019-11-29
Anticipated expiration: 2038-04-13
Also published as: US20190177785A1; JP7341891B2; JP2023155370A; EP3589748B1; WO2018189367A1; DK3589748T3; US20230054714A1; US11299779B2; KR20190139960A; CA3058540A1; EP3760734A1; US11859248B2; AU2018252187A1; EP3589748A1; KR102703927B1; AU2018252187B2; JP2020516302A; LT3589748T; CN110520540B

Abstract

本发明提供了鉴定多核酸(PNA)的方法，其包括以下的步骤：提供PNA；通过添加或除去氢键键合配偶体来修饰PNA的一个或多个核碱基，从而改变一个或多个核碱基的碱基配对能力；将互补核酸与PNA进行碱基配对，包括与至少一个经修饰的核碱基进行碱基配对；至少在与至少一个经修饰的核碱基互补的位置处鉴定互补核酸的序列。

Description

核酸修饰和鉴定方法

本发明涉及核酸加工和测序领域。

发明背景

核苷酸类似物，例如4-硫代尿苷(s⁴U)和6-硫代鸟苷(s⁶G)可以容易掺入新生的RNA中，例如通过天然的酶(Tani等人,Genome Res.22,947–956(2012))。流行的类似物包括5-溴尿苷(5BrU)，5-乙炔基尿苷(5-EU)，6-硫代鸟苷(s⁶G)和4-硫代尿苷(s⁴U)，它们容易被细胞掺入并进一步分别为抗体检测、环加成反应和硫醇特异性反应性和亲和力提供独特的物理化学特性(Eidinoff等人,Science.129,1550–1551(1959)；Jao等人PNAS 105,15779–15784(2008)；Melvin等人Eur.J.Biochem.92,373–379(1978)；Woodford等人Anal.Biochem.171,166–172(1988)；等人RNA 14,1959–1972(2008)；Rabani等人Nat Biotechnol.29,436–442(2011))。4-硫代尿苷(s⁴U)是研究RNA表达动力学的最广泛使用的核苷酸类似物。与其他核苷酸相似，s⁴U被细胞迅速吸收而无需电穿孔或脂转染。在细胞中，由细胞尿苷激酶的磷酸化产生磷酸化的s⁴U的积累池，所述磷酸化的s⁴U有效掺入包括蝇、鼠和人细胞在内的一大批细胞类型中的新合成的RNA中(2008，同上)。此外，蝇和小鼠体内转录物的细胞类型特异性标记可以通过与弓形虫(Toxoplasma gondii)尿嘧啶磷酸核糖基转移酶(UPRT)的细胞类型特异性表达组合使用4-硫尿嘧啶实现，所述尿嘧啶磷酸核糖基转移酶将核糖-5-磷酸与尿嘧啶(或4-硫尿嘧啶)的N1氮偶联以生成掺入RNA中的(4-硫代-)尿苷单磷酸(Cleary等人Nat Biotechnol.23,232–237(2005))。目前采用4-硫代尿苷(s⁴U)代谢RNA标记来表征胞内RNA生物发生、加工和周转动力学的方案采用经由s⁴U中硫醇基团的可逆生物素化的生物化学分离[例如经由N-[6-(生物素酰胺基)己基]-3′-(2′-吡啶基二硫代)丙酰胺(HPDP-生物素)或生物素偶联的甲烷硫代磺酸盐(MTS-生物素)](Cleary等人,2005，同上)。然而，与任何生物化学分离方法一样，根本的方案是费时的，并且由于生物素化效率(特别当应用于短RNA种类时)和脱靶反应性(Duffy等人,MolCell.59,858–866(2015)；Neymotin等人,RNA 20:1645–1652(2014))的局限性，通常遇到低信噪比的问题。

WO 2006/125808A1描述了一种分析含有硫醇化RNA的从头转录的RNA的基于微阵列的方法。

WO 2004/101825A1和WO 2016/154040A2涉及RNA的生物合成标记和分离的方法。

Miller等人,Nature Methods 6(6),2009:439-441描述了通过黑腹果蝇(Drosophila melanogaster)中4-硫尿嘧啶食物来源对RNA的标记。

Schwalb等人,Science 352(6290),2016:1225-1228涉及一种能够估计总mRNA合成和降解的瞬时转录物组测序方法。

Hartmann等人,Handbook of RNA Biochemistry第2卷,2014,第8.3.3章,第164-166页涉及通过用碘乙酰胺或硫基化合物修饰4-硫代尿苷残基对经4-硫代尿苷修饰的RNA的合成后标记。

Testa等人,Biochemistry,38(50),1999:16655-16662公开了与尿嘧啶相比改变的硫尿嘧啶(s²U和s⁴U)的碱基配对强度。

Hara等人,Biochemical and Biophysical Research Communications 38(2),1970:305-311公开了tRNA的4-硫代尿苷特异性自旋标记。

Fuchs等人,Genome Biology 15(5),2014:1465-6906涉及通过确定RNA上的4-硫代尿苷标签来确定全基因组转录伸长速率。该方法需要此类标记的RNA的生物素化和纯化。

此外，在可逆的生物素化策略中，标记的RNA仅能在分离中分析，即不在总RNA的背景下分析。因此，通过高通量测序对胞内RNA动力学的精确测量需要在每个时间点分析三个RNA子集(标记的RNA、总RNA和未标记的RNA)，从而使这些方法变得昂贵且下游分析变得不切实际。

因此，本发明的目的是简化检测经修饰的核酸的方法，优选地简化到允许自动化检测的程度。

发明概述

本发明基于核苷酸类似物衍生化化学，其能够以单核苷酸分辨率检测多核苷酸(PNA)种类中的修饰。本发明的方法提供了可扩展的、高度定量的、成本有效的和时间有效的用于PNA修饰的快速且全转录物组分析的方法。

在第一方面，本发明提供了鉴定多核酸(PNA)的方法，其包括以下的步骤：提供PNA；通过添加或除去氢键键合配偶体来修饰所述PNA的一个或多个核碱基，从而改变所述一个或多个核碱基的碱基配对能力；将互补核酸与所述PNA碱基配对，包括与至少一个经修饰的核碱基进行碱基配对；至少在与至少一个经修饰的核碱基互补的位置处鉴定所述互补核酸的序列。

在优选的实施方案中，PNA在细胞中合成，特别是已经具有修饰，其自身改变碱基配对能力或可以进一步修饰以改变碱基配对能力。因此，本发明也可以定义为鉴定多核酸(PNA)的方法，其包括以下步骤：在细胞中表达PNA；从细胞中分离出PNA；在细胞中和/或分离后修饰PNA的一个或多个核碱基；其中在细胞中或分离后或两者的修饰一起添加或除去一个或多个核碱基的氢键键合配偶体，从而改变一个或多个核碱基的碱基配对能力；将互补核酸与PNA进行碱基配对，包括与至少一个经修饰的核碱基进行碱基配对；鉴定至少在与至少一个经修饰的核碱基互补的位置处的互补核酸的序列。

本发明进一步提供了用于进行本发明方法的试剂盒，特别是包含经硫醇修饰的核碱基和适合于在所述硫醇基团处使所述经硫醇修饰的核碱基烷基化的烷化剂的试剂盒，其中所述烷化剂包括氢键键合键合供体或受体。

在下面的详细描述中一起描述了本发明的所有实施方案，并且所有优选的实施方案均涉及所有实施方案、方面、方法和试剂盒。例如。试剂盒或其组分可用于本发明的方法或适用于本发明的方法。试剂盒中可以提供描述的方法中使用的任何组分。对于给定的方法步骤，关于试剂盒组分或其适用性或试剂盒组分的组合，本发明方法的优选和详细描述同样解读。除非另有说明，所有实施方案可以彼此组合。

发明详述

本发明涉及一种方法，其中修饰多核酸(缩写为PNA)以创建合成的PNA(也称为经修饰的PNA)。可以在所述样品的PNA测序读出中找到PNA样品中合成PNA的存在，从而鉴定经修饰的PNA。本发明的优点是可以在无需从未修饰的PNA中纯化/分离的情况下完成此鉴定。

详细地，本发明的方法包括以下步骤：通过添加或除去氢键键合配偶体来修饰PNA的一个或多个核碱基，从而改变一个或多个核碱基的碱基配对能力(或行为)；将互补核酸与PNA进行碱基配对，包括与至少一个经修饰的核碱基进行碱基配对。

天然核碱基是A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和T(胸腺嘧啶)/U(尿嘧啶)。与RNA的情况下A、G、C、U核苷酸或DNA的情况下A、G、C、T核苷酸相比，本发明的修饰产生非天然的核碱基。该修饰导致改变的碱基配对行为，从而改变A和T/U之间以及C和G之间的优先碱基配对(通过氢键结合)。这意味着与作为互补核酸的天然核碱基的碱基配对从一种天然核酸改变为另一种天然核酸。优选地，互补核酸是DNA，并且使用T代替U。改变的A可以结合C或G；改变的T或U可以结合C或G；改变的C可以结合A或T/U；改变的G可以结合A或T/U。此类修饰是本领域已知的。修饰通常是次要的，并且仅最小程度保持变化，以便改变碱基配对行为。例如。A和G各自维持其嘌呤环系统，并且C和T/U维持其嘧啶环。例如，Harcourt等人(Nature2017,541:339-346)提供了此类修饰的综述和概述。示例性修饰是A至m⁶A，至m¹A，至肌苷，至2-氨基腺嘌呤的修饰；C至m⁵C(5-甲基胞嘧啶)，至hm⁵C(5-羟甲基胞嘧啶)，至假尿苷，至2-硫胞嘧啶，至5-卤代胞嘧啶，至5-丙炔基(-C＝C-CH₃)胞嘧啶，至5-炔基胞嘧啶的修饰；T或U至2-硫尿嘧啶，至s⁴U(4-硫尿嘧啶)，至2-硫胸腺嘧啶，至4-嘧啶酮，至假尿嘧啶，至5-卤尿嘧啶，例如5-溴尿嘧啶(也称为5-溴尿苷(5BrU))，5-丙炔基(-C＝C-CH₃)尿嘧啶，5-炔基尿嘧啶，例如5-乙炔基尿嘧啶的修饰；G至次黄嘌呤、至黄嘌呤、至异鸟嘌呤的修饰；A或G至腺嘌呤和鸟嘌呤的6-甲基和其他6-烷基衍生物的修饰；至腺嘌呤和鸟嘌呤的2-丙基和其他2-烷基衍生物的修饰。进一步的修饰是6-偶氮尿嘧啶、胞嘧啶和胸腺嘧啶、8-卤代、8-氨基、8-硫醇、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤、5-卤代，特别是5-溴，5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶、7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤和3-脱氮鸟嘌呤和3-脱氮腺嘌呤。尽管天然核碱基优选修饰成如上指示的其最接近的经修饰的核碱基，但是原则上，核碱基可以修饰成如上所述的任何经修饰的核碱基。相关因素是氢键键合模式的改变，使得与未修饰的核碱基相比，另一个碱基配对配偶体将结合经修饰的核碱基。键合配偶体的变化不需要绝对的确定性，足够的是改变与天然键合配偶体的结合确定性，例如改变至少10％，至少20％，至少30％，至少40％，至少50％，至少60％，至少70％，至少80％，至少90％或100％。特定的核碱基可以结合超过一个互补核碱基(特别是摆动碱基)。确定变化的参考条件是在生理等张水溶液中的逆转录酶的标准条件下，优选大气压和37℃。示例性条件为pH 7.5-8.5的50mM Tris-HCl,75mM KCl,3mM MgCl₂,10mM DTT。任何此类变化都可以通过当前的检测手段，例如测序和序列比较来监测。此外，可以将超过一种修饰纳入PNA分子中，并且每个分子或每多个分子仅需要检测一个。当然，从一种天然核碱基到另一种天然核碱基(在互补核酸中)的氢键键合的变化率越高，检测的确定性就越高。因此，较高的碱基配对率变化是优选的，例如变化至少50％或至少80％。

“卤代”是指卤素，特别是F、Cl、Br或I；Br是特别优选的，例如在5BrU中。“烷基”是指支链或直链，取代或未取代的烷基残基，优选长度C₁-C₁₂的烷基残基。优选的是长度为C1-C4的烷基残基，其具有任选的O取代基和/或任选的N取代基，例如在乙酰胺或任何其他烷基羰基、碳酸或酰胺中。

PNA的特别优选的经修饰的核碱基是5-溴尿苷(5BrU)、5-乙炔基尿苷(5-EU)、6-硫代鸟苷(s⁶G)、4-硫代尿苷(s⁴U)、5-乙烯基尿苷、5-叠氮基甲基尿苷和N⁶-烯丙基腺苷(a⁶A)。

碱基配对行为是本领域中已知的，或者可以从氢键供体或受体的变化中推导出来，包括阻止它们配对的其障碍。例如。4-嘧啶酮(经修饰的U或T)优选与G碱基配对，而不与A配对(Sochacka等人,Nucleic Acids Res.2015Mar 11；43(5):2499–2512)。

PNA的核碱基的修饰可以是氧(O)或氮(N)原子上的氢(H)被取代基例如碳取代(例如，如在甲基基团或其他烷基基团中)，从而除去作为氢键供体的氢。修饰可以是氧(O)或氮(N)原子的自由电子对被取代基例如碳取代(例如，如在甲基基团或其他烷基基团中)，从而除去作为氢键受体的电子对。修饰可以包括通过硫(S)或SH取代O，然后进行上述修饰之一，特别是S或SH的烷基化。用S或SH取代O的一种优选方法通过生物合成并给酶例如转录酶提供经S或SH修饰的核苷酸，例如s⁴U进行。转录酶可以在细胞中。

本发明的修饰可以是一步修饰或者通过超过一步，例如两步，三步或更多步的修饰。例如。修饰的第一部分在一种反应环境如细胞中进行，而第二修饰在另一种反应环境中进行，例如从细胞中分离出PNA之后。优选地，此类第二或进一步修改取决于第一修改，例如，对由第一修饰改变的原子进行。特别优选的是多步修饰，其中第一修饰是酶修饰，例如通过酶例如RNA或DNA聚合酶将经修饰的核苷酸/核碱基掺入PNA中。在此步骤中，为了酶促持续性，仅包括小的修饰，以不损害或以可忍受方式损害酶活性。小修饰是例如与相应的天然核碱基相比仅1或2个原子(不计氢)的变化。在进一步的步骤中，掺入的经修饰的核碱基可以通过任何手段进一步修饰，例如修饰为本文所述的经修饰的核碱基，例如通过湿化学方法，包括烷基化。此类进一步修饰可以在细胞外，酶促的或非酶促的。它优选地靶向在第一步中引入的修改。细胞中的(第一)修饰可以是诱导的或增强的修饰，例如通过向细胞提供经修饰的核碱基(例如，作为经修饰的核苷酸)，然后该细胞将其掺入生物合成的PNA中。“增强”是指超出修饰的自然发生。

(第一)修饰也可能是细胞内部的自然过程，而不向细胞提供经修饰的核碱基。此类天然过程例如是tRNA的硫醇化(Thomas等人,Eur J Biochem.1980,113(1):67-74；Emilsson等人,Nucleic Acids Res 1992,20(17):4499-4505；Kramer等人,J.Bacteriol.1988,170(5):2344-2351)。此类天然存在的修饰也可以通过本发明的方法检测，例如通过直接或通过这些天然修饰的核碱基的进一步(第二)修饰，检测与这些经修饰的核碱基的碱基错配或改变的碱基配对行为。某些天然修饰可以是应激响应或其他环境影响的结果。因此，本发明的方法可以用于检测细胞的此类响应和细胞中的影响。一个例子是响应UV光，特别是近UV辐射的s⁴U修饰，特别是在tRNA中(Kramer等人，同上)。s⁴U修饰，特别是在tRNA中，也可以用于测量细胞的生长速率(Emilsson等人，同上)。可以根据本发明的方法检测要用作生长指示剂的此修饰。优选地，将真细菌或古细菌用于此类天然修饰。

在本发明的优选实施方案中，修饰步骤通过将经硫醇修饰的核碱基掺入PNA(修饰的第一部分)并用烷化剂将所述硫醇核碱基烷基化(修饰的第二部分)来进行。硫醇反应性烷化剂包括碘乙酰胺、马来酰亚胺、苄基卤化物和溴甲基酮。烷化剂可包含如上所述的烷基和离去基团，例如卤化物，例如Br或Cl。这些试剂通过硫醇的S-烷基化反应生成稳定的硫醚产物。芳基化试剂诸如NBD(4-硝基苯并2恶-1,3-二唑)卤化物通过用亲核体对芳香族卤化物的类似取代与硫醇或胺反应。硫代硫酸盐也可用于可逆的硫醇修饰。硫代硫酸盐与硫醇以化学计量反应以形成混合的二硫化物。硫醇还与异硫氰酸酯和琥珀酰亚胺酯反应。异硫氰酸酯和琥珀酰亚胺酯也可用于与胺反应。

硫醇的修饰还可以包括将硫醇转化为硫酮的步骤。然后可以通过添加或除去氢键键合配偶体来进一步修饰硫酮基团。如等人(Angew.Chem.Int.Ed.Engl.1996,35(9):993-995)所述，转化为硫酮可以包括除去氢，例如在作为催化剂的过渡金属簇上。转化为硫酮允许用于反应化学的额外选项，以进行本发明的修饰。等人也描述了将硫醇或硫酮引入芳基，这也是本发明在本发明的经修饰的核碱基中创建硫代修饰(硫醇，硫酮)的选项。

硫醇的烷基化也称为硫醇(SH)-连接的烷基化。硫醇烷基化的益处是其对“软”硫醇的选择性，而未硫醇化的核碱基可以保持不变(HSAB theory-"hard and soft(Lewis)acids and bases",Pearson等人,JACS 1963,85(22):3533-3539)。碘乙酰胺容易与所有硫醇反应以形成硫醚；它们比也可以使用的溴乙酰胺稍具反应性。马来酰亚胺是用于硫醇选择性修饰，定量和分析的优异试剂。在此反应中，将硫醇跨过马来酰亚胺的双键添加以产生硫醚。经由上述硫酮也可以进行烷基化。

优选地，修饰包括在尿苷的4位上烷基化。在该位置，干扰尿苷的天然氢结合行为非常有效。此类修饰可以用烷化剂，例如包含氢键键合配偶体(优选氢键受体)的烷化剂，或不包含氢键键合配偶体的烷化剂进行，从而阻断通常在尿苷4位发生的氢键键合。此类烷基化可以如上所述通过4-硫代尿苷以两步修饰进行。

另一种优选的烷基化是在鸟苷的6位处。此类烷基化增加从标准GC对到只有2个有效氢键(而不是GC中的3个)的G*A摆动对的错配率。在特别优选的实施方案中，在胍的6位引入烷基化包括将胍修饰成6-硫代鸟苷(s⁶G)并使硫代位置烷基化。因此，这是通过6-硫代鸟苷进行两步修饰中的此类烷基化的另一个优选实例，如上文提及。可以在6-硫代鸟苷核苷酸存在的情况下通过生物合成将6-硫代鸟苷掺入PNA中。

优选的烷化剂具有式Hal-(C)_xO_yN_z(氢未显示)，其中Hal表示卤素，C表示x个C原子的碳链，支链或非支链，x为1至8，O表示C原子的y个氧取代基，y为0至3，N表示C原子的z个氮取代基，z为0至3。N优选为至少一个-NH₂或双键＝NH，O优选为-OH或双键＝O。Hal优选选自Br或I。

特别优选地，PNA包含一种或多种4-硫代尿苷或6-硫代鸟苷，优选2、3、4、5、6、7、8、9、10或更多个4-硫代尿苷或6-硫代鸟苷。修饰一个或多个核碱基可包括将氢键键合配偶体(例如氢键键合受体或供体)连接至经硫醇修饰的核碱基。此类连接可以通过任何化学修饰来完成，其中烷基化是优选的，例如通过如上提及的含卤化物的烷化剂。

烷基化的替代方法是通过氧化修饰。此类修饰例如公开于Burton,Biochem J 204(1967):686和Riml等人,Angew Chem Int Ed Engl.2017；56(43):13479-13483。例如，可以通过氧化修饰核碱基，特别是硫醇化的核碱基，以改变氢键键合供体或受体。在如上所述的通过硫醇化的核碱基的两步法的情况下，硫醇基团的硫可以被氧化，例如通过OsO₄、NaIO₃、NaIO₄或过氧化物如氯过氧苯甲酸或H₂O₂氧化。例如，s4U可以氧化成C(Schofield等人,Nature Methods,doi:10.1038/nMeth.4582)，这将碱基配对/杂交行为从U-A改变为C-G。如Burton(同上)所示，所述氧化不需要硫醇中间体，然而，所述硫醇中间体是优选的，特别是在生物合成修饰的情况下(参见下文)。此类C类似物是例如三氟乙基化胞苷(例如在2,2,2-三氟乙胺存在下的氧化产物)。C类似物可保留胞嘧啶的碱基配对行为和/或嘧啶2-酮环。嘧啶-2-酮环上的4位可以被氨基取代(如在C中所示)，或包含其他取代基如R-NH-基团，其中R选自烷基、芳香族基团、烷烃基团、NH₂、三氟乙烯、MeO等(参见Schofield等人，同上，特别是补充图1；通过引用并入本文)。

在优选实施方案中，经由细胞中的生物合成或通过细胞酶(例如通过体外转录)将经修饰的核碱基，例如经硫醇修饰的碱基掺入PNA中。此外，化学引入经修饰的核碱基是可能的，例如通过(非生物)化学PNA合成，例如有机或半合成性合成。生物合成是基于模板PNA(通常是DNA，特别是基因组DNA)的PNA的合成和模板依赖性合成(转录，逆转录)。用于此类转录的合适的酶是RNA聚合酶、DNA聚合酶、逆转录酶。酶可将天然的和经修饰的核苷酸(具有经修饰的核碱基)掺入生物合成的PNA分子中。在形成PNA时连接核苷酸单体单元。此类单体可以以经修饰的形式提供并从掺入PNA中。优选地，仅修饰一种天然核苷酸类型(A、G、C、T/U)，即具有掺入PNA中的经修饰的(非天然)对应物。也优选的是，存在所有天然核苷酸类型，其中经修饰的核碱基在数目上少于相应的天然(未修饰的)核碱基。“对应的”是指天然核碱基，其中最少原子(不计氢)变化是恢复天然核碱基所必需的。例如。在经修饰的U(或选自A、G、C、T的任何其他经修饰的核苷酸类型)外，还提供了A、G、C、T/U。优选地，给定类型的经修饰的核苷酸与未修饰的(天然)核苷酸的比率为20％或更少，例如15％或更少或10％或更少或甚至5％或更少(全部摩尔％)。经修饰的核苷酸将被掺入替换相应的天然核苷酸，但是随后将在本发明的方法中引起非典型碱基配对(改变的碱基配对行为，如上文详述)，这继而将导致相比于它会与天然对应物核苷酸碱基配对时与经修饰的核苷酸碱基配对的另一个互补核苷酸。因此，杂交的互补链(例如：新合成的互补链)的序列变化将会出现。因此，与至少一个经修饰的核碱基进行的碱基配对可导致相比于与尚未修饰的核碱基的碱基配对与另一种核苷酸的碱基配对，所述核碱基在其他方面是相同的。

也可以通过生物合成将烷基化的核碱基掺入PNA中，例如如上所述但是不使用硫醇中间体的烷基化的核碱基。例如，可以将烷基化的核苷酸掺入细胞中并在PNA合成期间由所述细胞使用。此类方法已经由Jao等人,Proc.Nat.Acad.Sci.USA 105(41),2008:15779和Darzynkiewicz等人Cytometry A 79A,2011:328描述。特别地，要根据本发明使用的有效的经修饰的核苷酸是5-乙炔基-尿苷(5-EU)。乙炔基标记的尿苷是细胞可透过的，并掺入新生的RNA中替换其天然类似物尿苷。在优选的实施方案中，例如通过Cu(I)催化的点击化学(例如，如Presolski等人,Current Protocols in Chemical Biology 3,2011:153；或Hong等人Angew.Chem.Int.Ed.48,2011:9879所述)对所得乙炔基官能化的PNA进行进一步修饰，以通过叠氮化物官能化的分子(例如NHS酯、马来酰亚胺、叠氮基酸、叠氮基胺)引入另外的官能化基团，从而影响酮以邻位与乙炔基基团的氢键键合能力。

在其他实施方案中，可以将此类叠氮化物官能化的分子引入细胞自身中以作为经修饰的核碱基生物合成到PNA分子中。随后可以通过Cu(I)催化的(CuAAC)或无Cu(I)的应变促进型(SPAAC)点击化学引入官能团来检测所得的叠氮化物官能化的PNA，该官能团与未修饰的核碱基(C、T/U、A、G)相比改变核碱基的氢键键合能力。

修饰PNA的一个或多个核碱基的另一个实例包括将乙烯基官能化的核碱基掺入到PNA中，例如5-乙烯基尿苷。乙烯基基团可以进一步修饰以改变其他方面未修饰的核碱基的氢键键合能力(参见Rieder等人，Angew.Chem.Int.Ed.53,2014:9168)。

在特别优选的实施方案中，修饰PNA的一个或多个核碱基包括烯丙基基团的环化和/或包括PNA的核碱基的卤化，特别是碘化。经修饰的核碱基优选是烯丙基核碱基，例如N⁶-烯丙基腺苷(“a⁶A”)，其可以通过涉及烯丙基基团的环化而进一步修饰。可以在PNA合成期间将此类烯丙基核碱基掺入PNA中，特别是在细胞中，如对本文其他实施方案所述。卤化和/或环化可遵循Shu等人,J.Am.Chem.Soc.,2017,139(48):17213–17216中描述的原理。优选地，方法包括将N⁶-烯丙基腺苷掺入细胞中，然后用例如元素碘(I₂)进行碘化，这导致碘化的前面的烯丙基与例如核碱基的嘌呤(在经修饰的A或G的情况下)或嘧啶(在经修饰的C或T/U的情况下)上的氮原子的环化。所述修饰导致改变的碱基配对，其可在测序或杂交期间读段。例如。a⁶A类似于A运行，并且可以通过代谢方式掺入哺乳动物细胞内新合成的RNA中。在温和的缓冲液条件下a⁶A的N⁶-烯丙基基团的碘化自发诱导N¹,N⁶-环化腺苷的形成，并在逆转录的互补DNA合成过程中在其相对位点处创建突变。

在另一个优选的实施方案中，修饰PNA的一个或多个核碱基包括将5-溴尿苷(5-BrU)核碱基引入PNA中。5-BrU是一种以互变异构体形式存在的诱变剂，这意味着它以其酮和烯醇形式存在，该诱变剂与腺嘌呤或鸟嘌呤碱基配对(见图37a)，这继而导致扩增反应，如PCR中T>C转化增加(与未修饰的U相比)。因此，在本发明的此一般优选的实施方案中，修饰PNA的一个或多个核碱基引入互变异构核碱基，该互变异构形式在经修饰的T/U和经修饰的C的情况下可与两种嘌呤碱基(A和G)碱基配对或者在经修饰的A和G情况下可以与两种嘧啶碱基(T和C)碱基配对。与两个嘌呤/嘧啶碱基的碱基配对在本文意味着比在未修饰的A、G、U/T、C(它们很少与非互补碱基配对)的情况下碱基配对行为更加均衡(但不一定相等)。换言之，互变异构碱基与未修饰碱基(摆动行为)相比具有与相同碱基核心结构(嘌呤或嘧啶)的非互补碱基的增加的碱基配对。所述增加是在标准条件下，特别是对于PCR。

可以通过对应于经修饰的核碱基的特定位置处的混合碱基的增加的结果来确定此类摆动行为。在任何实施方案中(比较图5B，24B，37C)，摆动基极检测是本发明方法的优选读出。

在其他相关的实施方案中，可以通过用氨基取代卤素来进一步修饰5-BrU或任何其他卤代的核碱基。例如，可以将5-BrU与氨水一起加热以将其转化为5-氨基尿苷。此类氨基修饰的核碱基在逆转录过程中改变碱基配对和/或将引入其他摆动行为。

PNA(具有经修饰的核碱基)可以包含RNA或DNA或由RNA或DNA组成。示例性RNA是mRNA、微小RNA(miRNA或miR)、短发夹RNA(shRNA)、小干扰RNA(siRNA)、PIWI相互作用RNA(piRNA)、核糖体RNA(rRNA)、tRNA衍生的小RNA(tsRNA)、转移RNA(tRNA)、小核仁RNA(snoRNA)、小核RNA(snRNA)、长非编码RNA(lncRNA)或其前体RNA分子。DNA是例如基因组DNA、cDNA、质粒DNA或DNA载体。PNA可以为双链或单链。

“包含”指开放式术语，并且还可以允许分子包含其他成员，例如，其他类型的核苷酸(可能存在RNA或DNA，包括经人工修饰的核苷酸，如LNA)。“由…组成”视为封闭式定义，要求成员遵守该要求，即完整的RNA或完整的DNA。

优选地，对于选自A、G、C、U或T的每种核苷酸类型，经修饰的PNA包含比经修饰的核苷酸更多的天然核苷酸。在本文，PNA涉及具有根据本发明的所有修饰的最终PNA。PNA优选包含1、2、3、4、5、6、7、8、9、10或更多并且至多30个经修饰的核苷酸。优选地，很少的核碱基是修饰的，例如PNA分子中20％或更少，例如15％或更少或10％或更少或甚至5％或更少(全部摩尔％)的核碱基是修饰的。

PNA分子可以具有任何长度。优选地，它具有至少10nt(核苷酸)的长度。特别优选的是长度10nt,20nt,30nt,40nt,50nt,75nt,100nt,250nt,500nt,1000nt,2500nt,5000nt,10000nt,25000nt,50000nt,100000nt或更多nt的长度或者介于这些值之间的任何范围。优选范围是10nt至100000nt或50nt至50000nt的长度。

优选地，PNA来自核苷酸的特定细胞级份，例如总RNA级份，mRNA级份或DNA级份，例如质粒DNA或基因组DNA。可以通过分离具有共同特征，例如长度、核苷酸类型或序列，例如mRNA中的poly(A)尾或5’帽的PNA来选择级分。

本发明的方法包含通过互补核酸使PNA碱基配对的步骤。在所述碱基配对中，经修饰的核碱基中的至少一个应当是碱基配对的(通常通过PNA的几个核碱基的碱基配对)。通过使PNA与核酸链杂交可以促进与互补核酸的碱基配对。这也可在延伸反应，例如PCR期间发生，或通过杂交探针核酸发生。互补核酸可以具有任何长度，例如以上针对PNA公开的那些长度。

至少在与至少一个经修饰的核碱基互补的位置处鉴定互补核酸的序列。序列确定可以通过本领域已知的任何常规程序来完成。此类方法包括完全或部分地基于产生互补链(例如通过PCR)的方法，例如在下一代测序(NGS)，基于片段的测序方法中。若想要的话，可以将片段读段组装成组合序列。然而，对于本发明的用途，这是不必要的，只要鉴定出与经修饰的核碱基的互补核碱基，特别是用其相邻序列(例如+/-5nt,+/-10nt,+/-15nt或+/-20nt的相邻序列)。确定序列的其他方法包括与探针结合，由此通过已知的杂交探针序列，将PNA的序列确定为互补序列。

另一个选项是小核酸测序，特别是在互补核酸较小的情况下，例如在与miRNA、shRNA、siRNA互补的核酸的情况下。小核酸的长度范围例如可以是10nt至200nt，优选12nt至100nt或14nt至50nt。长于200nt的长度或短于10nt的长度也是可能的。互补核酸的片段平均可以具有此类长度。片段可以通过如NGS领域中已知的物理或化学方法产生。在小核酸(包括例如在NGS期间获得的片段)的情况下，优选将衔接子连接至可用作引物或探针的杂交序列的核酸。此类衔接子还可包含特征序列，如条形码，以通过标记物鉴定小核酸。条形码可为获得PNA的样品的起源或作为片段的PNA分子或其互补核酸的起源(片段起源)提供标记物。此类条形码可用于多路复用测序，其中对不同序列的许多核酸，诸如多个不同的互补核酸和/或一个或多个互补核酸的多个片段进行测序。此类多个可以例如是2至1000个核酸或更多。不一定需要衔接子的另一种可能性是通过使引物或探针与对应于PNA的互补核酸序列杂交。此类引物或探针可以与已知序列杂交或随机杂交，例如通过使用随机引物。下面关于本发明的试剂盒描述了随机引物，并且任何此类随机引物都可以用于本发明的方法。

在本发明的优选实施方案中，根据本发明鉴定单一细胞的PNA。因此，将细胞的PNA分离并与其他细胞的PNA保持分离。“将PNA保持分离”指在不将研究的细胞的PNA测序信息与其他细胞的测序信息混合的情况下仍可鉴定研究的细胞的PNA。这可以通过物理上分离PNA或通过标记，特别是通过用鉴定感兴趣细胞的标记物，例如通过条形码标记PNA或互补核酸来实现。这允许分析单一细胞的PNA代谢。可以通过单一细胞测序方法(Eberwine等人Nat.Methods.11(1):25–27)进行单一细胞分析。作为测序的备选，也可以在文库中制备互补核酸或其片段，优选但不一定具有衔接子。然后可以对文库进行独立测序或提供其他用途。

本发明的修饰(例如硫醇特异性烷基化)促使互补核苷酸的定量“误”掺入，该互补核苷酸现在形成如上所述的不同氢键模式。例如。可以在经修饰的核碱基(例如烷基化的4-硫代尿苷)互补核酸结合中，例如在转录或逆转录期间掺入鸟嘌呤而不是腺苷。但是，(逆)转录酶持续性通常未受影响，这是因为可以在没有进一步阻碍的情况下将备选碱基配对的核苷酸与其PNA一起扩增。优选的是在第一酶促修饰(例如通过掺入经修饰的核碱基)之后与第二修饰的组合。与如上文提及的完善建立的且无毒的s⁴U代谢标记方案的此类组合。

可以将由于经修饰的核碱基而导致互补核酸中的序列变化的本发明测序方法与可用的高通量测序方法例如NGS偶联。可以通过可用的计算方法来鉴定PNA/互补核酸的不同个别分子之间不同的序列变化，特别地若是不完全或部分的。例如。可以在下一代测序数据集中跟踪T>C转化(由于U修饰所致，所述U修饰导致G碱基配对增加)。此类高度自动化的方法(与计算机化分析组合)允许本发明提供对细胞内RNA加工动力学的快速访问，即本发明的优选应用。由于互补碱基配对，本发明可以准确地报告RNA聚合酶II依赖性转录输出。了解RNA生物发生、加工和周转的胞内动力学，对于阐释影响生命中基本上任何给定生物学过程的基因表达模式变化的分子基础至关重要。

因此，在优选实施方案中，本发明的方法可以用于确定细胞中PNA的修饰或容易修饰的改变。例如，此类“容易修饰的改变”指上文描述的多步骤方法，其中在细胞中进行第一修饰(也称为改变)，而在第二步骤或进一步步骤中完成后续修饰，通常在分离PNA后在细胞外进行。

优选地，使用本发明的方法修饰RNA(作为PNA)，在细胞中，特别是活细胞中进行至少第一修饰/改变。由于将表达的RNA修饰，这允许跟踪RNA表达变化。

遗传信息的调节表达对于维持细胞稳态是必要的，提供细胞灵活性以响应变化的环境条件，并且若失调的话，造成人疾病，例如癌症。这些基本生物学过程的基础是严格调节的分子事件，该分子事件以转录物特异性方式控制RNA转录、加工和降解的相对动力学。

细胞RNA池(涵盖了无数的RNA种类，包括mRNA或非编码RNA，例如微小RNA)由基因组中选定基因座的转录定义，并且可以通过RNA序型分析技术(例如，高通量测序)定性和定量评估。然而，稳态RNA水平的丰度测量不准确反映转录活性本身。实际上，RNA稳定性在确定任何给定RNA分子的相对丰度中起主要作用。因此，在基因组规模上测量转录和RNA衰变速率的方法可用于阐释对RNA表达动力学及其潜在调节机制的了解。根据本发明，可以确定RNA生物发生和周转的胞内动力学。

RNA可以通过细胞自身的代谢来改变或修饰，例如通过将经改变或经修饰的核苷酸掺入天然加工的RNA中。此类改变可用于选择性引入本发明的修饰，其(单独地或在进一步的修饰之后)改变氢键键合行为。由于代谢影响，此类方法称为“代谢测序”(若然后对经修饰的核苷酸进行测序的话)。测序步骤或通常与互补(多)核苷酸的任何碱基配对步骤可以自动化，并以如上提及的高通量测序方法中进行加工。本发明提供了适合于确定RNA生物发生和周转的胞内动力学的高通量相容性代谢标记方案。它准确测量RNA聚合酶II依赖性的聚腺苷化转录输出，并重演全局转录后基因调节信号，因此解决了在细胞中以高时间分辨率提供RNA表达动力学(包括生物发生和周转)的问题。

细胞可以是任何细胞，例如细菌细胞，包括真核和原核细胞，革兰氏阴性和革兰氏阳性细胞，真菌细胞，藻类细胞，植物细胞，动物细胞，哺乳动物细胞，例如啮齿动物细胞，灵长类动物细胞，人细胞，非人细胞，古细菌细胞，禽细胞，两栖类细胞，例如蛙细胞，爬虫类细胞，有袋动物细胞。

有可能通过修饰的时间控制监测变化，例如将没有修饰的细胞RNA表达的阶段与具有修饰的细胞RNA表达的阶段进行比较。优选地，在相同细胞或细胞培养物中比较此类阶段。例如。具有修饰的阶段之后是没有修饰的阶段，或者反之亦然。因此，在本发明的一个优选实施方案中，在至少两个培养阶段中培养一个或多个细胞，其中一个培养阶段包括将经修饰的核苷酸掺入生物合成的RNA中，该RNA通过添加或除去氢键键合配偶体进行修饰；另一个培养阶段缺乏将经修饰的核苷酸掺入生物合成的RNA中。“另一个培养阶段”也可能包括将经修饰的核苷酸掺入生物合成的RNA中，但是以与在另外一个培养阶段中不同，例如更低的浓度掺入。与在另外一个阶段中不同或更低的浓度应当足以观察到将经修饰的核苷酸掺入生物合成的RNA中的差异(特别是不同的浓度)。因此，本发明的方法可以定义为鉴定多核酸(PNA)的方法，其包括以下步骤：在细胞中表达PNA；修饰PNA的一个或多个核碱基；从细胞中分离出PNA；任选地，进一步修饰PNA；其中在分离之前或之后或一起的修饰添加或除去一个或多个核碱基的氢键键合配偶体，从而改变一个或多个核碱基的碱基配对能力；将互补核酸与PNA进行碱基配对，包括与至少一个经修饰的核碱基进行碱基配对；鉴定至少在与至少一个经修饰的核碱基互补的位置处互补核酸的序列。特别优选的代谢标记(即通过细胞代谢，例如通过其酶如RNA聚合酶的修饰)通过4-硫代尿苷掺入事件进行。这可以用于改变U的碱基配对行为。

特别优选在细胞的至少两个培养阶段中的方法，其中在至少两个培养阶段中促进不同水平的PNA修饰，特别是RNA修饰。这可以通过向细胞提供不同浓度的经修饰的核碱基，从而允许细胞将不同水平或浓度的经修饰的核碱基掺入PNA，特别是RNA中来实现。如上所述，优选地，经修饰的核碱基是经硫醇修饰的核碱基。一个阶段中PNA修饰的水平可以是无修饰。各阶段，特别是那些具有PNA修饰的阶段应当具有用于所述PNA修饰的预设时间段。通过比较不同阶段之间的掺入，可以计算出预设时间段内的周转率。在一个特别优选的实施方案中，基于至少一个阶段中与另一个阶段相比将经修饰的核碱基掺入PNA中来计算周转率或降解率。优选地，阶段是连续的培养阶段。

可以在不同细胞的培养阶段之间进行进一步的比较。此类比较允许估计这些细胞之间的差异表达和PNA周转。细胞之一或一组细胞可以是对照，并且另一个细胞或另一组细胞可以是研究的候选细胞或细胞组。这两个细胞或细胞组都可以具有比较的将经修饰的核碱基掺入PNA的阶段。优选地，通过为细胞提供用于掺入PNA中的经修饰的核碱基来控制此类掺入阶段。优选地，向每个细胞或每组细胞提供相同量的经修饰的核碱基，适合于细胞代谢的比较。优选地，在掺入阶段之后是没有进一步掺入的阶段，例如，通过停止向细胞或细胞组提供进一步修饰的核碱基。掺入阶段之后也可能是减少的掺入的阶段或以不同水平掺入。经修饰的核碱基掺入PNA的水平的任何变化后是细胞代谢的适应，这可以通过本发明的方法进行监测。例如。若掺入阶段之后是较低掺入阶段或无掺入阶段，则有可能监测经修饰的PNA的降解。若无掺入或有限掺入的阶段之后是掺入阶段或然后更高有限掺入的阶段，则有可能监测经修饰的PNA的积累。

因此，本发明方法的一种用途是在至少两个细胞中或在细胞中的至少两个不同的生长阶段中比较至少在与至少一个经修饰的核碱基(如上所述)互补的位置处互补核酸的鉴定序列，其中所述至少两个细胞或生长阶段在所述至少两个细胞或所述生长阶段之间具有差异表达(通常是基因表达，包括mRNA或调节性RNA表达)。所述差异(基因)表达可以由细胞中至少一种基因的抑制或刺激引起。此类方法可用于筛选细胞代谢中某种扰动的差异表达效应。所述差异表达可以是未知基因的，例如在筛选方法中，其中针对细胞中的特定遗传效应研究调节抑制剂或活化剂或具有表型效应的任何其他物质。在该方法的其他实施方案中，靶基因可能是已知的，并且研究了对其他基因的基因表达的进一步的次级影响。例如，已知基因可以是已知的调节基因，例如癌基因或肿瘤抑制基因。

细胞或细胞组可以在体外培养物中或在活生物体内，例如植物，细菌细胞，真菌细胞，藻类细胞，非人动物或人中。在体内细胞的情况下，可以通过将经修饰的核碱基施用于生物体，例如系统地将其施用到血管系统中或局部地施用到生物体的感兴趣的器官将经修饰的核碱基提供给细胞。因此，有可能监测体内或特定感兴趣的器官中PNA的代谢。然后可以例如通过活组织检查或在分泌性PNA的情况下从体液样品中或通过处死非人生物体来从生物体中分离出PNA。优选地，根据本发明的方法分离和分析来自生物体的单一细胞的PNA，例如，通过标记和/或文库生成和/或通过单一细胞测序进行，如上文提及。培养阶段的任何描述也适用于体内治疗，并且称为“生长阶段”。“生长阶段”不需要细胞生长或细胞增殖，而是指已鉴定和分析的PNA代谢或“生长”。

比较不同水平的PNA和PNA周转对于阐明生物体发育和疾病过程中不同状态细胞之间的细胞代谢差异是重要的。能够测量PNA的转化率可以帮助阐明哪些途径是活性的以及哪些路径是不太有活性的或无活性的。在该方面，周转率为PNA，特别是RNA的稳态浓度测量提供了另一种措施，即仅测量PNA的浓度，例如细胞、组织或器官中存在的mRNA的浓度。

优选地，从所述细胞中收集两个培养阶段的生物合成的PNA，优选RNA，优选也将其混合，并且其中互补核酸与PNA进行的碱基配对包括通过转录，如在RNA为PNA的情况下为逆转录产生互补多核酸链，优选DNA链。

本发明的特别的益处是，具有修饰的创建的PNA和没有修饰或较少修饰的可比较的PNA，或相应的互补核酸不需要分离。PNA与互补核酸的碱基配对可以在经修饰的PNA和未修饰的PNA两者的混合物中。然后，可以组合确定PNA/互补核酸的序列，这是因为可以在这两种情况(具有或没有修饰)下确定互补核酸的序列/同一性，并且通过比较可以推断出修饰事件。此类比较优选是计算机化的序列比较。本发明的方法(特别优选的是根据其以下的实施方案：与至少一个经修饰的核碱基的碱基配对，其导致相比于与尚未修饰的核碱基的碱基配对与另一个核苷酸的碱基配对)进一步包括确定互补多核酸链的序列和比较链序列，其中可以通过与没有修饰的互补核酸比较来鉴定由通过添加或除去氢键键合配偶体进行的修饰所导致的改变的互补核酸。优选地，核苷酸序列以片段测定，例如用于NGS和高通量测序中。待确定的序列(其中许多含有与至少一个经修饰的核碱基互补的位置)的长度可以为10nt至500nt，优选12nt至250nt或15nt至100nt。

至少在与至少一个经修饰的核碱基互补的位置上的互补核酸的序列的计算机鉴定可以包括与未修饰的PNA的序列的比较。此类比较序列可以从序列数据库，例如在EBI或NCBI获得，或者通过在不引入修饰情况下的PNA产生，例如通过天然碱基与天然互补碱基碱基配对来确定。用于此类比较的计算机程序产品或用于该方法的计算机可读介质可以包括在本发明的试剂盒中。

本发明进一步提供了适合于进行本发明方法的试剂盒，其包含经硫醇修饰的核碱基和适合于在硫醇基团处使经硫醇修饰的核碱基烷基化的烷化剂，其中所述烷化剂包括氢键键合供体或受体，优选其中烷化剂是上文体积的任何一种，特别优选碘乙酰胺。然而，任何上述烷化剂，适用于任何上述修饰的试剂，特别是具有经修饰的碱基的经修饰的核苷酸，例如经硫醇修饰的核苷酸，都可以包括在本发明的试剂盒中。

试剂盒优选进一步包含引物，选自A、G、C和T的核苷酸，逆转录酶或其组合，优选所有这些组分。示例性引物是随机引物，其是随机选择的引物的混合物。此类随机引物混合物可以具有至少50或至少100，至少500种不同的引物。随机引物可以含有随机六聚体、随机五聚体、随机五聚体、随机八聚体等。

试剂盒可进一步包含PNA聚合酶，并且优选还包含用于聚合酶聚合的缓冲液。聚合酶可以是DNA或RNA聚合酶。

本发明的试剂盒还可包含衔接子核酸。可以将此类衔接子与核酸连接以产生如上所述的衔接子结合的互补核酸。衔接子可以包括一个或多个如上所述的条形码。试剂盒还可包含连接酶，例如DNA连接酶。

试剂盒的组分可以提供在合适的容器中，例如小瓶或烧瓶。

试剂盒还可包括用于进行任何本发明方法的说明书或手册。

通过以下附图和实施例进一步描述本发明，而不必限于本发明的这些方面。

附图简述

图1.用于RNA代谢测序的硫醇(SH)连接的烷基化的示意性概述。用4-硫代尿苷(s⁴U)处理细胞，所述4-硫代尿苷在细胞摄取后掺入新转录的RNA中。在给定的时间点进行总RNA制备后，通过碘乙酰胺(IAA)处理将新生成的RNA种类中存在的s⁴U残基进行羧酰胺甲基化，从而在碱基配对界面处形成庞大的基团。当与完善建立的RNA库制备方案组合时，在s⁴U掺入位点处庞大基团的存在导致逆转录(RT)过程中跨越烷基化s⁴U的特异性和定量的G误掺入。可以通过调用T到C转化，在高通量测序文库中以单核苷酸分辨率在生物信息学上鉴定含有s⁴U的位点。

图2.通过硫醇连接的烷基化进行的4-硫尿嘧啶衍生化。(A)4-巯基尿嘧啶(s⁴U)与巯基反应性化合物碘乙酰胺(IAA)反应，由于亲核取代(S_N2)反应，使羧酰胺甲基与s⁴U中的硫醇基团连接。标示了浸提物(4-硫尿嘧啶；s⁴U；max≈335nm)和产物(羧酰胺甲基化4-硫尿嘧啶；*s⁴U；λ_max≈297nm)的最大吸光度。(B)在不存在和存在指定浓度的碘乙酰胺(IAA)的情况下4-硫尿嘧啶(s⁴U)的吸收光谱。在50mM磷酸钠缓冲液(pH 8.0)和10％DMSO存在下，将1mM s⁴U与指定浓度的IAA在37℃下温育1小时。数据表示至少三个独立重复的平均值±SD。(C)如(B)中所示在335nm处的吸收的定量。指示P值(Student t检验)。(D)在指定温度下在50mM磷酸钠缓冲液(pH 8.0)和10％DMSO存在下温育5分钟后，在不存在和存在10mM碘乙酰胺(IAA)的情况下1mM 4-硫尿嘧啶(s⁴U)的吸收光谱。数据表示至少三个独立重复的平均值±SD。(E)如(D)中所示在335nm的吸收的定量。指示P值(Student t检验)。(F)在50mM磷酸钠缓冲液(pH 8.0)和10％DMSO存在下37℃下温育指定时间后，在不存在和存在10mM碘乙酰胺(IAA)的情况下1mM 4-硫尿嘧啶(s⁴U)的吸收光谱。数据表示至少三个独立重复的平均值±SD。(G)如(F)所示在335nm的吸收的定量。指示P值(Student t检验)。(H)在50mM磷酸钠缓冲液(pH 8.0)和指定量的DMSO存在下于50℃温育2分钟后，在不存在和存在10mM碘乙酰胺(IAA)的情况下1mM 4-硫尿嘧啶(s⁴U)的吸收光谱。数据表示至少三个独立重复的平均值±SD。(I)如(H)所示在335nm的吸收的定量。指示P值(Student t检验)。(J)在50mM的具有指定pH的磷酸钠缓冲液和10％DMSO存在下在50℃下温育5分钟后，在不存在和存在10mM碘乙酰胺(IAA)的情况下1mM 4-硫尿嘧啶(s⁴U)的吸收光谱。数据表示至少三个独立重复的平均值±SD。(K)如(J)所示在335nm处的吸收的量化。指示P值(Student t检验)。(L)在50mM磷酸钠缓冲液(pH 8.0)和50％DMSO存在(最佳反应[rxn]条件)下于50℃温育15分钟后，在不存在和存在10mM碘乙酰胺(IAA)的情况下1mM 4-硫尿嘧啶(s⁴U)的吸收光谱。数据表示至少三个独立重复的平均值±SD。(M)如(J)所示在335nm的吸收的定量。指示P值(Student t检验)。

图3.通过硫醇连接的烷基化进行的4-硫代尿苷衍生化。(A)4-硫代尿苷(s⁴U)与硫醇反应性化合物碘乙酰胺(IAA)反应，由于亲核取代(S_N2)反应，使羧酰胺甲基与s⁴U中的硫醇基团连接。(B)通过质谱法分析s⁴U-烷基化。在标准反应缓冲液(50mM NaPO4(pH 8)，50％DMSO)中，将40nmol 4-硫代尿苷与指定浓度的碘乙酰胺在50℃温育15分钟。用1％乙酸终止反应。酸化的样品在Ulitimate U300 BioRSLC HPLC系统(Dionex；Thermo FisherScientific)上，采用Kinetex F5五氟苯基柱(150mm x 2.1mm；2.6μm,Phenomenex)以流速100μl/min分离。在使用以下SRM电喷雾电离后，使用TSQ Quantiva质谱仪(ThermoFisher Scientific)在线分析核苷：4-硫代尿苷m/z 260→129，烷基化的4-硫代尿苷m/z318→186。使用Trace Finder软件套件(Thermo Fisher Scientific)解释数据并且手动验证。(C)(B)中显示的两个技术重复中的两个独立实验的定量。在指定的IAA浓度下烷基化的s⁴U分数代表s⁴U和烷基化s⁴U的峰保留时间的相对标准化信号强度。数据代表平均值±SD。

图4.含4-硫代尿苷的RNA的烷基化不影响逆转录持续性。(A)为了确定s⁴U-烷基化对逆转录酶持续性的影响，我们使用侧翼有5′和3′衔接子序列的合成的76nt长的RNA，其含有果蝇小RNA dme-let-7序列的单个位置(p9)处的4-硫代尿苷(s4U)掺入。通过遵循5′³²P标记的在序列上与3′衔接子序列相反且互补的DNA寡核苷酸的延伸，使用市售的逆转录酶在用碘乙酰胺(IAA)处理之前和之后测定逆转录。(B)通过聚丙烯酰胺凝胶电泳，然后进行磷光成像(phosphorimaging)分析(A)中制备的反应。描述了使用逆转录酶Super-script II(SSII)、Superscript III(SSIII)或Quant-seq RT(QS)进行的在存在和不存在IAA处理的情况下包含s⁴U的和不含RNA的引物延伸结果。显示了排除衔接子序列的RNA组分的序列；s⁴U残基的位置以红色表示。通过将指定的ddNTP添加到逆转录反应中进行RNA测序。PR，5′³²P标记的DNA引物；bg，背景停止信号；*p9，9位处的终止信号；FL，全长产物。(C)(B)中所示的三个独立实验重复的定量。使用指定的逆转录酶对对照和含s⁴U的RNA确定标准化后p9处的下降信号(+对-IAA处理)与先前的背景下降信号的比率。数据代表平均值±SD。使用Studentt检验进行统计分析。

图5.烷基化实现单核苷酸分辨率定量鉴定RNA中的s⁴U掺入。(A)用碘乙酰胺(IAA)处理在单个位置(p9)处掺入或不掺入4-硫代尿苷(s⁴U)的RNA，并且进行全长产物的逆转录和凝胶提取，然后进行PCR扩增和高通量(HTP)测序。(B)显示使用指示的逆转录酶，在存在或不存在碘乙酰胺(IAA)处理的情况下，对照RNA(左图)和含s⁴U的RNA(右图)的每个位置的突变率。条形代表三个独立重复的平均突变率±SD。标示了每个重复序列(r1-r3)中测序读段的数目。显示了在p9处的核苷酸身份出现。(C)使用Superscript II(SSII)、SuperscriptIII(SSIII)或Quant-seq逆转录酶(QS)，在存在或不存在碘乙酰胺(IAA)处理的情况下，指定突变的突变率。在对于含s⁴U的和不含s⁴U的RNA寡核苷酸两者具有相同核苷酸身份的位置间对突变率取平均值。指示P值(由Student t检验确定)。N.s.，不显著(p>0.05)。

图6.s⁴U处理对mES细胞存活力和代谢RNA标记的影响。(A)显示了相对于未处理条件在指定浓度的4-硫代尿苷(s⁴U)存在下培养12小时(左)或24小时(右)的mES细胞的存活力。后续实验中使用的终浓度(100μM)用三角形和虚线标示。(B)在s⁴U代谢标记以脉冲形式达指定时间后或在尿苷追赶中培养基替代后s⁴U对总RNA的掺入的定量。在总RNA消化和去磷酸化为单个核苷后，通过HPLC分析确定s⁴U掺入。显示了相对于24小时脉冲标记时间点和260nm处尿苷信号强度的吸光度标准化的扣除背景的330nm处的s⁴U信号强度。显示了相对于s⁴U吸收最大值的柱保留时间(分钟)。(C)通过HPLC确定与未修饰的尿苷相比s⁴U的取代率。mES细胞中s⁴U代谢脉冲和追赶标记实验的所有时间点间的总RNA中的s⁴U掺入。值代表三个独立重复的平均值±SD。标示了24h标记后的最大掺入率。

图7.Quant-seq mRNA 3'末端测序文库制备方案。Quant-seq使用总RNA作为输入，因此不需要事先的多聚(A)富集或rRNA消耗。文库生成由寡聚物(dT)引发启动。引物已经含有Illumina相容性接头序列(以绿色显示，顶部：“衔接子”，接着的步骤：最后的弯曲)。在第一链合成后，除去RNA，并通过随机引发和DNA聚合酶起始第二链合成。随机引物也包含Illumina相容性接头序列(以蓝色显示)。在第一链和第二链合成之间不需要纯化。插入物大小已针对较短的读段(SR50或SR100)进行了优化。第二链合成之后是基于磁珠的纯化步骤。然后扩增该文库，引入簇产生所需要的序列(以红色和紫色显示)。在PCR扩增步骤期间引入外部条形码(BC)以进行多路复用。

图8.代谢标记后mES细胞的mRNA中的s⁴U掺入事件。(A)使用标准mRNA测序(顶部的三个图)、Cap分析基因表达(CAGE；中间三个图)和mRNA3'末端测序(底部三个图)制备的，从mES细胞的总RNA生成的三个独立的mRNA文库的代表性基因组浏览器屏幕截图。显示了编码基因Trim 28的小鼠基因组中的代表性区域。(B)放大编码Trim28的3'端mRNA的基因组区域，包括其3'非翻译区(UTR)。显示了未处理的mES细胞或进行s⁴U代谢标记24小时，接着进行修饰和测序的mES细胞的总RNA制备的mRNA 3'末端测序文库的覆盖图。描绘了覆盖图之下的个别读段的子集。个别读段内的红色柱形表示T>C转化；黑色柱形表示除T>C以外的任何突变。

图9.mES细胞中s⁴U代谢RNA标记后mRNA 3'末端测序中突变率的全局分析。将在s⁴U代谢标记之前和s⁴U代谢标记24小时之后，从mES细胞的总RNA生成的mRNA 3′末端测序文库定位到带注释的3′非翻译区(UTR)，并确定所有表达基因的任何给定突变率。Tukey箱形图以百分比显示每个UTR的突变。未显示异常值。显示了每个个别突变的中值观察频率。通过Mann-Whitney检验确定T>C转化增加的统计分析。

图10.确定mES细胞中的多腺苷酸化转录输出。(A)通过本发明确定mES细胞中多腺苷酸化mRNA的转录输出的实验设置。(B)通过如(A)中所述的mRNA 3'末端测序检测到的含有T>C转化的转录物(“SLAM-seq”)和含有非T>C转化的转录物(“稳态”)的相对丰度，以每百万计数(cpm)计。相对于稳态而言，SLAM-seq中过度呈现的转录物以红色标示(高转录输出；n＝828)。以黄色标示稳态时最丰富的转录物(高稳态表达；n＝825)。显示了对应于mES细胞特异性初级miRNA簇miR-290和miR-182的转录物。(C)就预测的潜在转录因子(使用Ingenuity Pathway Analysis；www.Ingenuity.com)以及分子途径(使用Enrichr)而言比较从新转录的RNA(SLAM-seq)中过度呈现的828个基因与通过常规mRNA 3′末端测序(稳态)在稳态下检测到的前825个基因。

图11.mES细胞中mRNA稳定性的全局分析。(A)通过本发明确定mES细胞中多腺苷酸化mRNA的稳定性的实验设置。(B)mES细胞中mRNA半衰期的全局分析。相对于24h脉冲标记时间点标准化含有T>C转化的读段的相对分数，所述读段定位到mES细胞中9430个丰富表达基因的注解的3′UTR，并使用单指数衰减动力学拟合随时间的的中值、上部和下部四分位数，揭示中值mRNA半衰期(～t_1/2)为4.0小时。(C)个别示例性转录物的半衰期计算。显示了相对于Junb、Id1、Eif5a和Ndufa7的三个独立重复的24小时脉冲时间点含有T>C转化的读段的平均分数，并且拟合到单指数衰减动力学。指示了如通过曲线拟合确定的每个转录物的平均半衰期(t_1/2)。(D)通过mRNA 3'末端测序对转录物确定的mRNA半衰期的Tukey箱形图表示，所述转录物根据其相关GO术语分类为调节性(即转录调节、信号转导、细胞周期和发育)或管家(即细胞外基质、代谢过程和蛋白质合成)。指示了每个类别的转录物数目。指示了P值(由Mann-Whitney检验确定)。

图12.硫醇连接的烷基化用于小RNA的代谢标记。(A)从大小选择的果蝇S2细胞总RNA生成的小RNA库的代表性基因组浏览器屏幕截图。显示了黑腹果蝇基因组中编码miR-184的代表性区域。相对于每种小RNA种类的5'末端标示了编码胸腺嘧啶(T，红色)的核苷酸位置。对miR-184-3p和-5p显示了占所有5′同种型的99％的读段，并且读段的相应数目以百万分一(ppm)指示。(B)将从在s⁴U代谢标记之前和s⁴U代谢标记24小时之后果蝇S2细胞的总RNA生成的小RNA测序文库定位到带注释的miRNA，并对丰富表达的miRNA(>100ppm)确定任何给定突变率。Tukey箱形图以百分比显示每个miRNA的突变。未显示异常值。指示了每个个别突变的中值观察频率。指示如通过Mann-Whitney检验确定的P值。

图13.微小RNA生物发生的胞内动力学。(A)通过核中的RNA酶III酶Drosha和胞质中的Dicer的顺序加工从含有发夹的RNA聚合酶II转录物(初级微小RNA，pri-miRNA)衍生微小RNA，导致约22nt微小RNA双链体。发夹加工中间体(前体微小RNA，pre-miRNA)以RanGTP依赖性方式通过Ranbp21从核输出到细胞质。(B)积累分布图显示从用s⁴U处理指定时间的果蝇ago2^ko S2细胞的总RNA产生的小RNA库中42种丰富表达的miRNA(左)或20种miR*(右)的中值T>C突变率。通过Kolmogorov-Smirnov检验确定P值(****＝p<10^-4)。Bg^max指示最大背景错误率。(C)在稳态或通过s⁴U进行代谢标记后指定时间点的含有T>C转化的读段处显示指定的miRNA(左)或miR*(右)的平均丰度。相对于总小RNA标准化的读段数目以百万分之一(ppm)显示。指示高于背景最大值(bg^max)的过多突变率(Mu)。(D)Mirtron发夹通过蛋白编码转录物的剪接产生。内含子套索(lariat)脱支后，mirtron发夹在胞质中进行转录后尿苷化(uriylation)，这调节前pre-mirtron的2nt-3′突出端，从而防止通过Dicer的miRNA生物发生。(E)在s⁴U标记实验的指定时间点，规范miRNA(灰色)或mirtron(红色)的T>C突变率(上)或小RNA标准化T>C读段，以百万分之一(ppm)计。标出了中值和四分位数范围。指示P值(Mann-Whitney检验)(*,p<0.05；**,p<0.01；***,p<0.001)。N.d.，未检测到。

图14.微小RNA加载的胞内动力学。(A)产生后，将微小RNA双链体加载到Argonaute蛋白Ago1上。在此过程中，两条链中的一条(miR链)选择性保留在Ago1中，而另一条链(miR*链)被排出并降解。与Ago1结合的单链miRNA形成成熟的miRNA诱导的沉默复合体(miRISC)。(B)在ago2^ko S2细胞中s⁴U代谢标记实验的过程中20个丰富表达的miR和miR*对的含有T>C转化的读段的中值积累(以ppm计)。显示了miR(红色)和miR*(蓝色)的中值和四分位数范围。该值是从两次独立测量得出的。P值指示如通过Mann Whitney检验确定的miR和miR*的显著分离(*,p<0.05；****,p<0.0001)。(C)(B)中对miR(红色，顶部)和miR*(蓝色，底部)显示的时间过程的放大。

图15.外切溶核性miRNA修剪的胞内动力学。(A)果蝇中的外切溶核性miRNA成熟模型。Dicer将一组微小RNA(例如miR-34)以较长的约24nt miRNA双链体产生，所述双链体在加载到Ago1中并除去miR*链后经历3'至5'外切核糖核酸酶蚕食器(Nibbler)介导的外切溶核性成熟以形成成熟的、基因调节的miRNA诱导的沉默复合物。(B)果蝇ago2^ko S2细胞中miR-34-5p的稳态长度分布，如通过小RNA的高通量测序(左，柱形表示18个测量的平均值±标准差；平均克隆计数以每百万之一(ppm)指示)或Northern杂交实验(右)确定的。(C)从进行s⁴U代谢标记达指定时间的果蝇ago2^ko S2细胞制备的文库中的miR-34-5p长度分布。显示了含有T>C转化的读段(标记的，红色，顶部)和所有读段(稳态，黑色，底部)的长度分布。指示了潜在的读段数目。数据显示两个独立重复的平均值±标准差。(D)从进行s⁴U代谢标记达指定时间的果蝇ago2^ko S2细胞制备的文库中的miR-34-5p的加权平均长度。数据表示含有T>C转化的读段(标记的，红色)和所有读段(稳态，黑色)的平均值±标准差。含有T>C转化的读段的加权平均长度的减少指示外切溶核性修剪(由灰色区域突出显示)。(E)miR-34-5p的加载，如通过果蝇S2细胞的s⁴U代谢标记后miR-34-5p(miR链，红色)和miR-34-3p(miR*链，蓝色)中含有T>C转化的读段的相对丰度确定。显示了两个独立实验的平均值±标准差。加载由miR与miR*的分离表示，并以灰色区域突出显示。

图16.miRNA的差异稳定性。(A)将微小RNA双链体加载到Ago1上，形成pre-miRISC，miR*链(蓝色)被降解，形成成熟的miRNA诱导的沉默复合物(miRISC)。miRISC中的miRNA的精确稳定性仍然不清楚。(B)在果蝇ago2^ko S2细胞中在s⁴U代谢标记的时间过程间41个丰富表达的miRNA(红色，左)和20个miR*(蓝色，右)的每个T位置突变率增加。对于每个小RNA，确定所有T位置间的中值突变率并将其相对于24小时时间点标准化。显示了中值和四分位数范围。值代表两个独立重复的平均值。中值半衰期(t_1/2)和95％置信区间通过单指数曲线拟合确定。(C)Tukey箱图，代表41个miR(红色)和20个miR*(蓝色)的半衰期。通过Mann-Whitney检验确定P值。(D)指示的miR(红色)和miR*(蓝色)的稳态丰度和平均半衰期。平均半衰期代表两个独立重复的平均值。报告了两个独立实验(r1和r2)的个别半衰期测量。超过测量总时间的半衰期数据指示为>24h。(E)在两个独立的生物学重复中确定的41miR(红色)和20miR*(蓝色)链的半衰期值比较。显示了皮尔逊相关系数(r_P)和相关的p值。(F)微小RNA的稳定性差异促成miRNA的稳态丰度。显示了相对于其稳态丰度的40miR的半衰期值。数据代表两个独立生物学重复的平均值。

图17.Argonaute蛋白质身份决定小RNA的稳定性。(A)在果蝇中，miRNA优先加载到Ago1上以形成miRISC。平行地，miR*的子集加载到Ago2中以形成siRISC。siRISC的形成伴随着3'末端核糖2'位上Ago2结合的小RNA的特异性甲基化。若Argonaute蛋白质身份差异影响小RNA，则稳定性是未知的。(B)饼图表示来自野生型果蝇S2细胞的小RNA文库中不同内切siRNA类型和miRNA的相对丰度。显示了来自标准克隆方案的结果(未氧化的，上部图)和来自富集具有经修饰的3'末端的小RNA的克隆策略的结果(氧化的，下部图)。对于这两个文库标示了miR和miR*的分数。显示了7个数据集的平均分布。指示了平均文库深度。(C)热图显示指定文库(灰度)中的miR(红色)和miR*(蓝色)的相对丰度。文库中相对呈现的比率指示小RNA与AGO1(绿色)或AGO2(红色)的优先缔合。(D)野生型(wt)S2细胞或通过CRISPR/Cas9基因组工程消减Ago2的S2细胞(ago2^ko)的Western印迹分析。肌动蛋白代表加载对照。(E)在野生型(wt)和ago2^ko果蝇S2细胞中富含Ago2的miR和miR*的相对丰度。指示了中值和四分位数范围。P值通过Wilcoxon配对对符号秩检验(Wilcoxon matched-pairs signed ranktest)确定。(F)，在从野生型(wt，黑色)或ago2^ko S2细胞(红色)中的s⁴U代谢标记时间过程或采用富集具有经修饰的3’末端的小RNA的克隆策略从野生型S2细胞(wt氧化的，蓝色)制备的标准文库中富含Ago2(左)的和富含Ago1的小RNA(右)的衰减动力学。指示了两相或一相指数拟合的中值和四分位数范围(如正文中规定)。指示了如通过曲线拟合确定的半衰期(t1/2)。在两相动力学的情况下，显示了快速和缓慢动力学的相对贡献。(G)ago2ko S2细胞中30种最丰富的miRNA(红色，Ago1)或采用富集具有修饰的3′末端的小RNA的克隆策略的小RNA文库中最丰富的miR和miR*(蓝色，Ago2)的半衰期。显示了中值和四分位数范围。通过Mann-Whitney检验确定P值。

图18.果蝇S2细胞中的4-硫代尿苷代谢标记。在果蝇S2细胞中的脉冲标记实验中，s4U代谢标记达指定时间后s4U掺入总RNA的定量。显示了与通过HPLC确定的未修饰的尿苷相比的s⁴U取代率，如先前所述(Spitzer等人(2014)Meth Enzymol 539,113–161.)。值代表三个独立重复的平均值±SD。标示了24小时标记后的最大掺入率。

图19.碘乙酰胺处理不影响小RNA文库的质量。将在用碘乙酰胺处理之前和之后从果蝇S2细胞的总RNA生成的小RNA测序文库定位到带注释的miRNA，并分析了丰富表达的miRNA(>100ppm)。(A)对来自经碘乙酰胺处理的或未处理的总RNA的小RNA文库的每种miRNA确定任何给定的突变率。Tukey箱形图以百分比显示每个miRNA的突变。未显示异常值。指示了每个个别突变的中值观察频率。(B)从经碘乙酰胺处理的或未处理的总RNA制备的小RNA库中的miRNA丰度。标示了皮尔逊相关性系数和相关的p值。(C)在从经碘乙酰胺处理的或未处理的总RNA制备的小RNA文库中的个别miRNA表达的倍数变化。

图20.在代谢标记的小RNA中s⁴U掺入的频率。Tukey箱形图显示了进行s⁴U代谢标记24小时的从果蝇S2细胞的大小选择的总RNA制备的小RNA文库中71种丰富表达的(>100ppm)miRNA之每种的含有1、2或3个T>C突变的T>C转化读段的分数。指示了T>C转化读段的中值分数。

图21.s⁴U代谢标记不影响微小RNA的生物发生或加载。从微小RNA前体的5p或3p臂衍生(左)，或构成如选择性Argonaute加载所定义的miR或miR*链(右)的给定小RNA的个别位置上的T>C转化的过度呈现或呈现不足。结果源自71个丰富表达(>100ppm)的微小RNA(对应于35个5p-miRNA和36个3p-miRNA，或44个miR和27个miR*)。通过Mann-Whitney检验，将相对呈现中的统计学显著差异与指定位置的总群体比较。n.s.，p>0.05；n.d.，由于数据点有限而无法确定。

图22.前体-miRNA拖尾抵消有效的miRNA生物发生。在用s⁴U处理指定时间后从ago2^ko S2细胞制备的SLAM-seq小RNA文库中的pre-miRNA尿苷化与T>C突变率之间的相关性。显示了皮尔逊的相关系数(r_P)和相关的p值。

图23.用碘乙酰胺对6-硫鸟嘌呤(s⁶G)的化学修饰。显示了6-硫代鸟苷与碘乙酰胺的化学反应(A)和如通过用碘代乙酰胺处理6-硫代鸟苷时通过质谱法测定的烷基化效率(B)。

图24.烷基化通过G-至-A转化以单核苷酸分辨率鉴定RNA中的s⁶G掺入。(A)使用碘乙酰胺(IAA)处理在单个位置(p8)处有或没有6硫鸟嘌呤(s⁶G)掺入的RNA，并且进行全长产物的逆转录和凝胶提取，然后进行PCR扩增和高通量(HTP)测序。(B)指示了采用指定的逆转录酶在存在或不存在碘乙酰胺(IAA)处理的情况下对照RNA(左图)和含s⁶G的RNA(右图)的每个位置的突变率。值代表三个独立重复的平均突变率±SD。指出了每个重复序列(r1-r3)中测序读段的数目。显示了在p8处的核苷酸身份出现。(C)在存在或不存在碘乙酰胺(IAA)处理的情况下，使用Superscript II(SSII)、Superscript III(SSIII)或Quant-seq逆转录酶(QS)的指示突变的突变率。对于含s⁶G和不含s⁶G的RNA寡核苷酸两者，在具有相同核苷酸身份的位置间对突变率取平均值。指示P值(由Student t检验确定)。N.s.，不显著(p>0.05)。

图25.使用SLAM-seq的转录应答的时间分辨定位。(A)SLAM-seq实验的样品工作流，其定位K562细胞中夫拉平度(flavopiridol)处理(300nM)的15至60’后的应答。(B)没有或具有夫拉平度处理的低周转基因GAPDH的总的和转化的(≥2T>C)读段的定位。(C)考虑所有读段或具有≥1和≥2个T>C转化的读段的夫拉平度诱导的表达变化的箱形图。晶须指示5-95％的范围。(D)在K562细胞中使用SLAM-seq研究的BCR/ABL效应器途径和激酶抑制剂的简化示意图(30'预处理，60's⁴U标记)。(E).SLAM-seq中50个最可变上调和下调的基因的热图和分层聚类以及它们在用指定的抑制剂处理的K562细胞中总mRNA水平上的行为。(F)作为通过(D)中的至少一种抑制剂在总mRNA或SLAM-seq中脱调节≥2倍检测的基因的估计半衰期。(G)如(D)中所述，来自用指定抑制剂处理的K562的SLAM-seq读段的主成分分析。

图26.BETi过度敏感性与通过BRD4的全局转录控制不同。(A)AID-BRD4敲入等位基因和Tir1递送载体SOP的示意图。(B)在用SOP转导并用生长素(100μM IAA)处理的K562AID-BRD4细胞中BOP4的免疫印迹法。(C)在s⁴U标记60'之前用生长素处理30'的K562AID-BRD4细胞的SLAM-seq应答。(D)在s4Us⁴U标记为60'之前用JQ1(200nM)处理30'的K562细胞的SLAM-seq应答。(E)在(C)中所示的K562细胞和相同处理的MV4-11细胞中对JQ1的SLAM-seq应答的比较。R，皮尔逊相关系数。(F)比较平均SLAM-seq应答和平均CRISPR得分，指示K562、MOLM-13和MV4-11细胞中的基因必需性(14、15)。显示所有三种细胞系中显著下调的所有基因(FDR≤0.1)。(G)如(C)中进行，对来自用JQ1或CDK9抑制剂NVP-2处理的MOLM-13细胞的s⁴U标记的SLAM-seq读段进行主成分分析。(H)在指定的细胞系中对JQ1和CDK9抑制的SLAM-seq应答之间Spearman等级相关性的热图和分层聚类。

图27.染色质背景决定BETi过度敏感性。(A)通过K562细胞中指定的预测器区分BETi过度敏感基因与表达匹配对照组的ROC曲线。(B)维恩图显示K562细胞中BETi过度敏感基因和已发表的超级增强子靶标的重叠。(C)例示B中的类别的选定基因的H3K27ac ChIP-seq和超级增强子注释的样品追踪。(D)简化的模型生成工作流，用于基于距TSS的500bp或2000bp内的214个染色质标签对BETi过度敏感基因进行分类。(E)在留出(held-out)测试集上评估的两个独立的基于染色质标签的BETi过度敏感性模型的如(A)中的ROC曲线。(F)根据标准化模型系数，五个最强的正和负预测器对(E)中显示的GLM的相对贡献。(G)125个BETi过度敏感基因的TSS处(F)中预测因子的相对ChIP-seq密度的热图和分层聚类。

图28.MYC是各癌症类型间的细胞代谢的选择性直接激活剂。(A)MYC-AID等位基因和Tir1载体的示意图。(B)生长素处理指定时间后，K562MYC-AID细胞中的MYC免疫印迹法。(C)在K562MYC-AID细胞中MYC降解后的SLAM-seq概况(30'生长素预处理，60’s⁴U标记)。(D)所有mRNA和显著富集的基因集的SLAM-seq应答。(E)如(B)中的HCT116MYC-AID细胞中进行MYC免疫印迹法。(F)比较K562MYC-AID和HCT116MYC-AID细胞中的SLAM-seq应答。(G)区分(C)中MYC依赖基因(FDR≤0.1,log2FC≤-1)和表达匹配对照组的不同预测器的ROC曲线。MYC/MAX ChIP，在距TSS的2kbp内按ChIP-seq信号排序的基因；GLM，基于214个染色质概况的弹性网GLM。(H)最强的正和负预测器对(G)中GLM的相对贡献。(I)在672个癌细胞系中基于MYC和SLAM-seq的MYC靶标标签的表达。突出显示MYCN或MYCL水平超过MYC水平的样品。(J，K)来自(I)或具有高或低MYC表达的AML患者的细胞系中MYC靶标标签的GSEA。(L)基于高或低MYC表达和癌症类型而分离的5583例患者样品间的MYC-靶标标签表达。****，p<0.0001(Wilcoxon的秩和检验)。

图29.用于定位差异基因表达的SLAM-seq的实验设置。(A)靶向性扰动及其对具有不同周转率的基因的mRNA水平的主要和次要影响的示意图，以BETi处理和MYC靶基因的间接抑制例示。(B)通过碘乙酰胺烷基化mRNA中的4-硫代尿苷残基。(C)在具有60'标记时间的SLAM-seq实验中背景错误率对具有≥1或2个T>C转化的读段的贡献。通过来自经s⁴U处理的和未处理的细胞的mRNA的平行烷基化和测序来测量背景信号。箱形图显示了具有从经s⁴U处理的文库中标记读段的分数估计的高(顶部10％)、中等(45-55％)和低(底部10％)mRNA周转的基因的错误率。晶须指示5-95％的范围。(D)作为每个读段的T含量的函数，通过SLAM-seq的新合成的mRNA的回收。估计基于新合成的mRNA中每T的11.4％标记效率。顶部直方图显示了不同读段长度的3’UTR读段的T含量。(E)对于图25E所示的SLAM-seq样品用指示的激酶抑制剂处理的K562细胞中MAPK和AKT途径的抑制的验证。

图30.髓样白血病细胞系中的直接JQ1应答。(A)箱形图总结了通过SLAM-seq对图26D中用JQ1处理的K562细胞测量的全局基因表达变化。(B，C)对于细胞系MOLM-13和MV4-11，如图2D所示，通过SLAM-seq定位的对JQ1处理的主要应答。(D)如(A)中对MOLM-13和MV4-11细胞进行JQ1处理后，全局基因表达变化的总结。(E，F)指定细胞系的JQ1处理后基因表达变化的成对比较。(G)比较图26，B和C中所示的K562细胞中SLAM-seq对JQ1和短期BRD4降解的应答。在MOLM-13、MV4-11和K562中JQ1处理后以及BRD4降级后的通常诱导的基因以蓝色突出显示。****指示对于中值与0的偏差，由Wilcoxon符号秩检验计算的p<0.0001。

图31.在细胞和转录水平上CDK9和BET溴结构域抑制的协同作用。(A)通过CellTiter-Glo发光细胞存活力测定法测量的由指定剂量的NVP-2和JQ1对MOLM-13和OCI-AML3细胞的生长抑制达3天。(B)(A)中的JQ1和NVP-2的协同效应，表示为超过Bliss可加性。(C)在s⁴U标记60'之前处理30’的MOLM-13细胞中，对指定剂量的JQ1、NVP-2和组合处理的主要应答。(D)对(C)中所示的JQ1和中间剂量NVP-2(6nM)的应答的成对比较。R表示皮尔逊相关系数。(E)如(C)中，NCI-2和JQ1处理OCI-AML3细胞后mRNA输出的全局变化。点指示在三个独立重复的SLAM-seq中s⁴U标记的读段相对于总读段的分数。(F)来自(E)中用NVP-2和JQ1处理的OCI/AML-3细胞的SLAM-seq读段的主成分分析。百分比表示由每个主成分解释的总体方差的分数。

图32.推导和测试JQ1过度敏感性的预测器。(A)基于90’JQ1处理(30’预处理+60’s⁴U标记)后SLAM-seq应答的JQ-1过度敏感基因和平衡的一组对照基因的选择的工作流。通过迭代二次取样(subsampling)并通过使用Kolmogorov-Smirnov检验(KS)测试相等的基线表达来选择对照基因。(B)用于通过超级增强子(SE)预测JQ1过度敏感基因与对照基因的ROC曲线。将每个SE归入具有最接近TSS的基因，并按超级增强子等级对基因进行分类。(C)用于推导图27E中所示的K562细胞中BETi过度敏感性的基于TSS的分类器的工作流。SVM支持向量机，GLM通过弹性网正则化导出的广义线性模型，GBM梯度提升模型。

图33.预测K562细胞中JQ1过度敏感性的GLM的表征。(A)所有有助于图27E中所示的GLM的预测器的系数的图。相邻的表列出了每个预测器，相应的发表的ChIP-seq追踪的标识符(也见表S1)以及是否在距转录起始位点的500或2000bp之内测量信号。(B)基于(A)中5个最强的正和负独特预测器的相对ChIP-seq信号的JQ1过度敏感基因和控制基因的热图和分层聚类。

图34.内源加标签的MYC-AID细胞系中对MYC降解的主要应答。(A)图4C所示的用生长素处理的K562MYC-AID细胞的SLAM-seq应答的火山图。插图列出了下调和上调的基因(FDR≤0.1)和脱调节超过两倍的基因的总数。为了清晰起见，纵坐标值限制为20。(B)与指定GO术语相关的基因的(B)中的HCT116MYC-AID细胞的SLAM-seq应答。(C)火山图显示如(A)中用生长素处理的HCT116MYC-AID细胞的SLAM-seq结果。(D)对于按GO术语分组的编码不同RNA聚合酶复合物亚基的基因，对K562MYC-AID细胞中短期MYC降解的SLAM-seq应答。

图35.MYC依赖基因表达的基于染色质的预测。(A)ROC曲线，测量图28C中在辨别MYC依赖性基因(FDR≤1,log2FC≤-1)与不响应MYC降解的基因(FDR≤0.1,-0.2≤log2FC≤0.2)中5个分类器的表现。模型如在图32中导出，对802个基因的测试集训练，并对268个基因的测试集评估。(B)ROC曲线评估(A)中显示的GLM对为了验证而留出的另一组基因的表现。(C)(A)中显示的GLM的所有预测器的系数。(D)ROC，用于通过距基因TSS的2000bp内的MYC ChIP-seq峰的存在来预测MYC依赖性基因。对于每个基因，基于CAGE-seq信号选择对细胞mRNA水平贡献最强的TSS，如图32中。SPP峰被SPP调用的峰，IDR峰通过不能再现的发现率阈值2％的峰。(E)如上文分组为MYC结合基因和MYC依赖性基因的7135个基因的维恩图。

图36.人癌细胞系中MYC直向同系物的表达。(A)来自672个癌细胞系的RNA-seq概况中MYC和MYCL表达的比较。(B)如(A)中的癌细胞系中MYC和MYCN表达的比较。

图37.通过测序测量的含5-溴尿苷(5BrU)的RNA寡核苷酸逆转录期间pH依赖性碱基配对频率。(a)5BrU的互变异构形式与腺嘌呤或鸟嘌呤表现出不同的pH依赖性碱基配对特性。(b)检测RNA的背景下对经5BrU修饰的位点处核苷酸误掺入的pH依赖性影响的实验的示意性概述。(c)在指定的pH条件下逆转录后在经5BrU修饰的核苷酸位置处观察到的特定转化的转化率。指示了相对于pH7条件的转化率的增加倍数。独立测量的数目为n＝3，并且柱形表示平均转化率±SD。指示P值(未配对的参数Student t检验)。N.s.，不显著(p>0.05)；*,p<0.05；**,p<0.01；***,p<0.001；和****,p<0.0001。

实施例

实施例1：材料和方法

s⁴U的羧酰胺甲基化

除非另有指示，否则使用1mM 4-硫尿嘧啶(SIGMA)、800μM 4-硫代尿苷(SIGMA)或通过从s⁴U代谢标记实验制备的5–50μg总RNA，在标准条件(50％DMSO、10mM碘乙酰胺、50mM磷酸钠缓冲液pH8，在50℃下15分钟)进行羧酰胺甲基化反应。通过添加过量的DTT将反应淬灭。

吸收测量

除非另有指示，否则在最佳反应条件(10mM碘乙酰胺，50％DMSO，50mM磷酸钠缓冲液pH8，在50℃下进行15分钟)中温育1mM 4-硫尿嘧啶。通过添加100mM DTT淬灭反应，并在Nanodrop 2000仪器(Thermo Fisher Scientific)上测量吸收光谱，然后是400nm的吸收的基线扣除。

质谱法

在不存在或存在0.05、0.25、0.5或5μmol碘乙酰胺的情况下，在标准反应条件(50mM磷酸钠缓冲液，pH 8；50％DMSO)下，将40nmol 4-硫代尿苷或6-硫代鸟苷在50℃下反应15分钟。用1％乙酸终止反应。采用Kinetex F5五氟苯基柱(150mm x 2.1mm；2.6μm,Phenomenex)以流速100μl/min在Ulitimate U300 BioRSLC HPLC系统(Dionex；Thermo Fisher Scientific)上分离酸化的样品。使用以下SRM在电喷雾电离后，使用TSQQuantiva质谱仪(Thermo Fisher Scientific)在线分析核苷：4-硫代尿苷m/z 260→129，烷基化的4-硫代尿苷m/z 318→186，6-硫代-鸟苷m/z 300→168和烷基化的6-硫代-鸟苷m/z 357→225。使用Trace Finder软件套件(Thermo Fisher Scientific)解释数据并进行手动验证。

引物延伸测定法

引物延伸测定法基本上如Nilsen等人(Cold Spring Harb Protoc.2013,1182–1185)先前的描述进行。简而言之，根据制造商的说明对模板RNA寡核苷酸(5L-let-7-3L或5L-let-7-s⁴Up9-3L；Dharmacon；对于序列参见表)进行脱保护，并通过变性聚丙烯酰胺凝胶洗脱进行纯化。将100μM纯化的RNA寡核苷酸在标准反应条件(50％DMSO，50mM磷酸钠缓冲液，pH 8)下在50℃下用10mM碘乙酰胺(+IAA)或EtOH(-IAA)处理15分钟。通过添加20mM DTT终止反应，然后乙醇沉淀。使用γ-³²P-ATP(Perkin-Elmer)和T4-多核苷酸激酶(NEB)对RT引物(对于序列见表)进行5′放射性标记，然后进行变性聚丙烯酰胺凝胶纯化。将640nMγ-³²P-RT引物在PCR仪(3min 95℃,30sec 85℃倾斜0.5℃/s,5min 25℃倾斜0.1℃/s)中退火至2倍退火缓冲液(500mM KCl,50mM Tris pH 8.3)中的400nM 5L-let-7-3L或5L-let-7-s⁴Up9-3L。按照制造商的建议，使用Superscript II(Invitrogen)、Superscript III(Invitrogen)或Quant-seq RT(Lexogen)进行逆转录。对于双脱氧核苷酸反应，将最终浓度500μM ddNTP(如所示)添加到RT反应。完成后，将RT反应重悬在甲酰胺上样缓冲液(凝胶上样缓冲液II，Thermo Fisher Scientific)中，并进行12.5％变性聚丙烯酰胺凝胶电泳。干燥凝胶，将其暴露于存储荧光屏(storage phosphor screen)(PerkinElmer)，在TyphoonTRIO可变模式成像仪(Amersham Biosciences)上成像，并使用ImageQuant TL v7.0(GEHealthcare)进行定量。为了分析下降，相对于个别反应的先前下降信号强度(bg，图4B)将p9处的信号强度标准化。对于指定的逆转录酶比较含有s4U和不含s⁴U的RNA寡核苷酸的下降信号变化(+IAA/-IAA)的值。使用相应的设置来分析6-硫代鸟苷修饰，作为4-硫代尿苷的备选。

表。用于引物延伸测定法的RNA寡核苷酸。s⁴U表示4-硫代尿苷；s⁶U表示6-硫代鸟苷。let-7的检查序列以斜体指示

用于引物延伸测定法的DNA寡核苷酸。

用于cDNA扩增，接着进行Illumina高通量测序的DNA寡核苷酸。以斜体指示条形码核苷酸(N)。

经s⁴U或s⁶G标记的RNA的HPLC分析

如先前由Spitzer等人(Meth Enzymol.539,113–161(2014))所述进行对代谢标记后s⁴U或s⁶G掺入总RNA的分析。

细胞存活力测定法

实验前一天每96孔接种5000个mES细胞。将含有不同浓度s⁴U(如所示)的培养基添加到细胞中12h或24h。根据制造商的说明，通过发光细胞存活力测定法(Promega)评估细胞存活力。使用Gen5软件(v2.09.1)在Synergy上测量了发光信号。

细胞培养

小鼠胚胎干(mES)细胞(AN3-12克隆)获自Haplobank(Elling等人，WO2013/079670)，并且在15％FBS(Gibco)、1x青霉素-链霉素溶液(100U/ml青霉素，0.1mg/ml链霉素，SIGMA)、2mM L-谷氨酰胺(SIGMA)、1x MEM非必需氨基酸溶液(SIGMA)、1mM丙酮酸钠(SIGMA)、50μM 2-巯基乙醇(Gibco)和20ng/ml LIF(内部产生)中培养。在37℃，5％CO₂维持细胞，并且每隔一天传代。

修饰RNA以改变测序(“SLAM-seq”)

在实验前一天将mES细胞以10⁵个细胞/ml的密度接种在10cm的培养皿中。通过在标准培养基中但从水中的500mM储备溶液中添加100μM s⁴U或s⁶G(SIGMA)温育mES细胞来进行s⁴U代谢标记。在代谢标记期间，每3小时更换含s⁴U或s⁶G的培养基。对于尿苷追赶实验，弃去含有s⁴U或s⁶G的培养基，将细胞用1x PBS洗涤两次，并与补充有10mM尿苷(SIGMA)的标准培养基一起温育。将细胞直接在(Ambion)中裂解，并按照制造商的说明提取RNA，只是在异丙醇沉淀期间添加0.1mM最终浓度的DTT。将RNA重悬于1mM DTT中。在最佳反应条件下，用10mM碘乙酰胺处理5μg总RNA，随后用乙醇沉淀，并进行QuantSeq 3'末端mRNA文库制备(Moll等人，Nat Methods11(2014)；WO2015/140307)。

RNA文库制备

按照制造商的说明，使用用于(NEB)的Ultra^TM定向RNA库制备试剂盒制备标准RNA seq文库。如先前由Mohn等人(Cell.157,1364–1379(2014))所述制备Cap-seq文库，只是在片段化之前使用磁性RiboZero试剂盒(Epicenter)进行核糖体RNA消减。根据制造商的说明，使用Quant-seq mRNA 3′末端文库制备试剂盒(Lexogen)进行信使RNA 3′末端测序。

数据分析

凝胶图像使用ImageQuant v7.0a(GE Healthcare)进行定量。根据Prism v7.0(GraphPad)或R(v2.15.3)中一阶反应的积分速率定律进行曲线拟合。在Prism v7.0a(GraphPad)、Excel v15.22(Microsoft)或R(v2.15.3)中进行统计分析。

生物信息学

为了对合成RNA样品进行测序分析(图5)，允许条形码中的0个错配，使用PicardTools BamIndexDecoder v1.13对加条形码的文库进行解复用。使用picard工具SamToFastq v1.82将所得的文件转化为fastq。使用Cutadapt v1.7.1来修剪衔接子(允许衔接子序列中的默认10％错配)，并过滤长度21nt的序列。允许3个错配使用bowtiev0.12.9将所得序列与成熟的dme-let-7序列(5′-TGAGGTAGTAGGTTGTATAGT-3′,SEQ ID NO:7)进行比对，并使用samtools v0.1.18将其转化为bam。除去含有模糊的核苷酸(N)的序列。将剩余的比对的读段转化为pileup格式。最后，从pileup中提取每个位置每个突变的分数。在Excel v15.22(Microsoft)和Prism v7.0a(GraphPad)中分析并绘制了输出表。

对于mRNA 3'末端测序数据分析，允许条形码中的1个错配，使用Picard ToolsBamIndexDecoder v1.13对加条形码的文库进行解复用。使用cutadapt v1.5修剪衔接子，并将读段针对≥15个核苷酸进行大小过滤。使用STAR aligner v2.5.2b将读段与小鼠基因组mm10比对。针对相对于读段长度标准化的比对得分≥0.3和比对同一性≥0.3将对比过滤。仅报告具有≥30个匹配的比对。仅允许重叠≥15bp的嵌合比对。使用2-通定位。过滤＜200kb的内含子，过滤含有非规范接合的比对。过滤具有错配与定位碱基比率≥0.1或者具有最大数目10个错配的比对。对于接合由1、2、3、N个读段允许的缺口的最大数目分别设置为10kb、20kb、30kb和50kb。(1)非规范性基序、(2)GT/AG和CT/AC基序、(3)GC/AG和CT/GC基序、(4)AT/AC和GT/AT基序的两侧上的剪接接合的最小突出端长度分别设置为20、12、12、12。使用“虚假”接合过滤，并且读段允许的多重比对的最大数目设置为1。使用FeatureCounts量化外显子读段(Gencode)。

对于Cap分析基因表达(CAGE)，允许条形码中的1个错配，使用Picard ToolsBamIndexDecoder v1.13对加条形码的文库进行解复用。使用seqtk修剪读段的前4nt。通过针对已知的rRNA序列(RefSeq)与BWA(v0.6.1)进行比对，对读段筛选核糖体RNA。针对小家鼠基因组(mm10)用TopHat(v1.4.1)比对扣除rRNA的读段。最大多命中(multihit)设置为1，片段长度设置为18，并且区段错配设置为1。此外，提供基因模型作为GTF(Gencode VM4)。

为了分析mRNA 3'末端测序(Quant-seq)数据集，允许条形码中的1个错配使用Picard Tools BamIndexDecoder v1.13对读段解复用。修剪解复用读段的5'端的5个核苷酸。将读段与小鼠基因组mm10进行比对，并使用SLAMdunk(Neumann&Rescheneder,t-neumann.github.io/slamdunk/；Herzog等人,Nature Methods 14,1198–1204(2017))计算注释的3′UTR(Gencode)中的比对。简而言之，SLAMdunk依赖于NextGenMap，一种灵活且快速的读段定位程序，并使用改编的评分方案定制，所述评分方案消除定位步骤的T>C错配罚分。量化与3’UTR比对的含有T>C的读段和不含T>C的读段以分别推导s⁴U或未标记的转录物丰度。

对于转录输出分析，在用SLAMdunk比对高通量测序数据与小鼠基因组mm10后对于每个基因获得标准化读段(以cpm计；“稳态表达”)数目和含有≥1个T/C突变的标准化读段(以cpm计；“转录输出”)数目。从分析中排除线粒体(Mt-)和预测(GM-)基因。从1h时间点的T/C读段中扣除背景T/C读段(在未使用s⁴U标记的情况下观察到的T/C读段)，并且设置“稳态表达”的平均值的>5cpm的表达阈值。为了鉴定具有高转录输出的基因，在对log10(稳态表达)与log10(转录输出)(基因数目：6766)作图后拟合线性回归，以方程式Y＝Y＝0.6378*X-1.676描述。对于每个基因，按照ΔY＝转录输出(cpm)-(0.6378*稳态表达(cpm)-1.676)计算到拟合曲线的距离(“ΔY”)。“高转录输出”基因以ΔY>0.5(基因数目：828)定义。“高表达基因”以稳态CPM>log10(2.15)(基因数目：825)定义。为了预测定义每个基因类别的转录因子网络，Ingenuity Pathway Analysis(Qiagen)v27821452(一种网络交付的应用程序，其使生物学家能够发现、可视化和探索对他们的实验结果，例如基因表达数据集有意义的治疗相关网络)与“高转录输出”或“高表达”基因的输入一起使用。对于IngenuityPathways Analysis的详细说明，访问www.Ingenuity.com。显示了前5个预测的上游调节物。

为了预测“高转录输出”或“高表达”基因的途径，将在线工具Enrichr与两个基因类别的输入一起使用。显示前5个预测的路径。

实施例2：用于RNA的代谢测序的硫醇连接的烷基化

作为原理验证，选择硫醇核苷酸类似物作为衍生化策略的示例以测定培养细胞中的RNA表达动力学(图1)，该策略无需s⁴U或s⁶G标记的和未标记的RNA种类的生物化学分离：此策略基于完善建立的代谢标记方法，但避免不太有效且耗时的生物素化步骤。它含有短的化学处理方案，其涉及用碘乙酰胺(一种硫氢基反应性化合物)对含s⁴U的RNA进行修饰，该碘乙酰胺在与s⁴U或s⁶G反应后在碱基配对界面上形成庞大的基团(图1)。当与完善建立的RNA文库制备方案组合时，在s⁴U掺入位点处庞大基团的存在导致逆转录(RT)期间G的特异性和定量的误掺入，但不干扰RT持续性。因此，可以通过序列比较或以生物信息学方式在高通量测序文库中以单核苷酸分辨率通过调用T到C转变来鉴定包含s⁴U或s⁶G的序列。重要的是，已知没有将尿苷转化为胞嘧啶的酶，并且使用例如Illumina HiSeq 2500平台的高通量RNA测序数据集中的类似错误率(即T＞C转化)是罕见的，以小于万分之一的频率发生。该方法称为“SLAM-seq”，作为其最优选实施方案的缩写，用于RNA的代谢测序的巯基(SH)连接的烷基化。

SLAM-seq基于核苷酸类似物衍生化化学，并且能够通过高通量测序以单核苷酸分辨率检测RNA种类中代谢标记衍生的4-硫代尿苷掺入事件。我们显示了新方法准确地测量RNA聚合酶II依赖的多腺苷酸化转录输出，并重演小鼠胚胎干细胞中的全局转录后基因调节信号。本发明提供了一种可扩展的、高度定量的、成本和时间有效的方法，用于在高时间分辨率下快速且全转录组分析RNA表达动力学。

对于s⁴U衍生化，我们使用碘乙酰胺(IAA)作为有效的伯硫醇反应性化合物的实例，由于亲核取代(S_N2)反应，将羧酰胺甲基基团与硫醇基团连接(图2A)。在其他硫醇化的核碱基，例如s⁶G的情况下发生类似的反应(图23A)。为了以不同参数(例如时间、温度、pH、IAA浓度和DMSO)的函数定量监测s⁴U衍生化的效率，我们监测了4-硫尿嘧啶的特征吸收光谱(约335nm)，该光谱在与碘乙酰胺(IAA)反应后迁移至约297nm(图2B至K)(45)。在最佳反应条件(10mM IAA；50mM NaPO₄,pH8；50％DMSO；50℃；15min)下，与未处理的4-硫尿嘧啶相比，在335nm处的吸收降低50倍，产生至少98％的烷基化率(图2L和M)。(注意，由于4-硫尿嘧啶及其烷基化衍生物的吸收光谱部分重叠，转化率可能被低估。)通过质谱法分析核糖背景下硫醇特异性烷基化(即4-硫代尿苷或6-硫代鸟苷)证实接近完全的衍生化效率(图3和23B)。

s⁴U或s⁶G掺入事件的定量回收假定逆转录酶在没有下降的情况下通过烷基化的s⁴U残基。为了确定s⁴U或s⁶G烷基化对逆转录酶持续性的影响，我们使用含有单个s⁴U或s⁶G掺入的合成RNA(对于序列见实施例1，表)，并在引物延伸测定法中测定三种市售逆转录酶(RT)，Superscript II、Superscript III和Quant-seq RT(图4A)。当相对于背景下降信号标准化时，当与具有相同序列的不含s⁴U的或不含s⁶G的寡聚物相比时，我们没有观察到s⁴U或s⁶G烷基化对RT持续性的显著影响(图4B和C图24B)。我们推断烷基化不导致逆转录的提前终止。

为了评估s⁴U和s⁶G烷基化对逆转录酶指导的核苷酸掺入的影响，我们分离了引物延伸反应的全长产物，PCR扩增cDNA，并使用Illumina HiSeq2500仪对文库进行高通量测序(图5A和24A)。如预期，尿苷在不含s⁴U的或不含s⁶G的对照RNA中被所有三个RT准确地逆转录，无论其用碘乙酰胺处理与否，平均突变率为小于10^-2(图5B和24B，左图)。比较而言，s⁴U的存在甚至在不存在烷基化的情况下也促使恒定的10％至11％T到C的转化，推测是由于s⁴U-互变异构体的碱基配对变化所致(图5B，右上图)。在s⁶G的情况下，观察到G到A的转化(图24B，右图)。值得注意的是，通过碘乙酰胺处理对s⁴U的烷基化促使T到C的转化增加8.5倍，导致所有测试的RT间的突变率均超过0.94(图5B右下图)。当与Illumina高通量测序数据集中报告的测序错误(低于10^-3)相比时，我们获得>940:1的信噪比。重要的是，我们没有观察到碘乙酰胺处理对任何给定的不含硫醇的核苷酸的突变率的显著影响(图5C和24C)。我们推断碘乙酰胺处理后进行逆转录实现以单核苷酸分辨率定量鉴定RNA中s⁴U或s⁶G掺入，而不影响不含硫醇的核苷酸的序列信息。

实施例3：经修饰的核苷酸掺入mES细胞中代谢标记的mRNA中

我们测试了小鼠胚胎干细胞在不同s⁴U浓度下12h或24h后容许s⁴U代谢RNA标记的能力(图6A)。如先前报告，高浓度的s⁴U在标记12h或24h后以3.1mM或380μM的EC₅₀损害细胞存活力(图6A)。因此，我们采用100μM s⁴U的标记条件，该条件未严重影响细胞存活力。在这些条件下，我们检测到在标记后3h，6h，12h和24h在总RNA制备中s⁴U掺入稳定增加，以及在尿苷追赶后3h，6h，12h和24h的稳定减少(图6B)。如预期，掺入遵循单指数动力学，最大平均掺入为1.78％s⁴U，对应于总RNA中每56个尿苷中掺入一个s⁴U(图6C)。这些实验在mES细胞中建立了s⁴U标记条件，其可以用于在不受干扰的条件下测量RNA生物发生和周转率。

为了测试方法在高通量测序数据集中揭示s⁴U掺入事件的能力，我们在s⁴U-代谢RNA标记24小时后使用从培养细胞制备的总RNA生成mRNA 3′末端文库(采用Lexogen的QuantSeq，3′mRNA测序文库制备试剂盒)(图7)(Moll等人，同上)。Quant-seq 3′mRNA-Seq文库制备试剂盒生成与多腺苷酸化RNA3'末端接近的序列的Illumina相容性文库，如基因Trim28所例示的(图8A)。与其他mRNA测序方案相反，每个转录物仅产生一个片段，因此无需相对于基因长度将读段标准化。这导致具有高链特异性的准确基因表达值。

此外，可以仅在4.5h内生成测序就绪的文库，手动操作时间为约2h。当与本发明组合时，由于文库表现出低程度的序列异质性，Quant-seq促进跨转录物特异性区域的突变率的准确测定。确实，在s⁴U代谢标记后24小时通过Quant-seq方案从mES细胞的总RNA生成U-修饰的RNA的文库后，与从未标记的mES细胞的总RNA制备的文库相比，我们观察到T>C转化的强烈积累(图8B)。为了全转录物组确认此观察结果，我们将读段与带注释的3′UTR进行比对，并检查每个UTR的任何给定突变的发生(图9)。在不存在s⁴U代谢标记的情况下，我们观察到任何给定突变的中值突变率为0.1％或更小，该速率与Illumina报告的测序错误率一致。在s⁴U代谢标记24小时后，我们观察到具有统计学意义的(p<10^-4,Mann-Whitney检验)T>C突变率的25倍增加，而所有其他突变率仍低于预期的测序错误率(图9)。更具体地，我们在24小时标记后测量到2.56％的s⁴U掺入中值，对应于每39个尿苷的一个s⁴U掺入。(注意，mRNA的中值掺入频率高于总RNA中通过HPLC估计的值[图6C]，最确定地，这是因为稳定的非编码RNA种类(如rRNA)在总RNA中强烈过度呈现。)这些分析确认新方法揭示了在培养细胞中s⁴U代谢RNA标记后mRNA中的s⁴U掺入事件。

我们预期其他经修饰的核苷酸(如s⁶G或5-乙炔基尿苷)的相同掺入结果，如以前报告的(Eidinoff et al.,Science.129,1550–1551(1959)；Jao et al.PNAS105,15779–15784(2008)；Melvin et al.Eur.J.Biochem.92,373–379(1978)；Woodford etal.Anal.Biochem.171,166–172(1988)。

实施例4：在逆转录期间使用5-溴尿苷和pH依赖性碱基配对频率

Yu et al.(The Journal of Biological Chemistry,268:21,15935-15943,1993)证明了碱性类似物溴尿嘧啶在聚合期间作为pH的函数与G(鸟嘌呤)形成错配。此外，已显示5BrU被细胞吸收，磷酸化并掺入新生RNA中(Larsen et al.,Current Protocols inCytometry.12(7.12):7.12.1–7.12.11,2001)。我们证明了这两者均可用于通过pH变体NGS文库制备和测序鉴定5BrU-标记。我们使用100pmol的合成RNA寡核苷酸，该寡核苷酸在单个中心位置处含有5BrU修饰。RNA序列ACACUCUUUCCCUACACGACGCUCUUCCGAUCU-UGAGGUAGU[5BrU]AGGUUGUAUAGUAGAUCGGAAGAGCACACGUCUC-3′(SEQ ID NO:8)拥有用于逆转录和扩增的两个带下划线的接头序列和中心位置中的[5BrU]，5-溴尿苷标记物。通过SuperscriptII(Thermo Fisher Scientific)根据制造商的说明使用RT DNA寡核苷酸引物(5′-GTGACTGGAGTTCAGACGTGTGCTCTTCCGAT-CT-3′,SEQ ID NO:9)和分别将pH调节至pH7、pH8或pH9的5xRT缓冲液进行逆转录。逆转录后，使用KAPA实时文库扩增试剂盒(KAPA Biosystems)按照制造商的说明，使用DNA寡核苷酸Solexa PCR Fwd(5′-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTC TTCCGATCT-3′,SEQ ID NO:10)和Solexa IDX rev(5′-CAAGCAGAAGACGGCATACGAGATNNNNNN-GTGACTGGAGTTCA GACGTGTGCTCTTCCGATCT-3′,SEQ IDNO:11；NNNNNN指示条形码-核苷酸的位置)对1pmol逆转录产物进行PCR扩增。SEQ ID NO：10)和Solexa IDX rev(5′-CAAGCAGAAGACGGCATACGAGATNNNNNN-GTGACTGGAGTTCAGACGTGTGCTCTTCTCCGATCT-3′，SEQ ID NO：11；NNNNNN表示条形码核苷酸的位置)。使用Illumina MiSeq平台通过高通量测序对扩增的文库进行测序。通过计算5BrU位置上T(胸腺嘧啶)的预期多数读出以外的核苷酸A(腺嘌呤)、G(鸟嘌呤)和C(胞嘧啶)的频率来确定5BrU核苷酸的转化率。

5BrU或最终读出中T到A(T>A转化)的pH依赖性转化率显示了与pH 7的3·10^-4的背景转化率相比逆转录期间pH增加到pH 8和pH 9的情况下1.1倍和1.4倍增加(图37C)。与pH7时的1·10^-4的较低背景转化率相比，T>G转化提高1.2倍和1.9倍。相比而言，与pH 7时的3·10^-4的背景转化率相比，T>C转化率提高2.2倍和4.3倍。pH依赖的转化率变化的标签是RNA中5BrU特征性的，并且可以用于鉴定转录期间掺入新生RNA中的5BrU数目。

实施例5：确定mES细胞中多腺苷酸化的转录输出

为了测试短的s⁴U脉冲标记和随后的mRNA 3'末端测序是否准确报告多腺苷酸化的转录输出，我们对mES细胞进行短的1h s⁴U脉冲，然后进行总RNA提取和mRNA 3'末端文库制备(图10A)。将Quant-seq生成的文库定位到小鼠基因组中带注释的3′UTR，并分析T>C转化的存在，代表新转录的RNA(图10A)。当比较新转录的(即含有T>C转化)与稳态(即含有T>C和不含T>C转化)多腺苷酸化转录物的相对丰度时，我们观察到由在新转录的RNA中过度呈现的828个基因组成的转录物的子集(图10B)。顶部的过度呈现的转录物包括mES细胞特异性微小RNA簇(miR-290和miR182簇)，该微小RNA簇由于在核中的Drosha对微小RNA发夹切割后它们迅速衰减而认为是特别短寿命的，因此不在稳态下积累到高水平(图10B)。为了更系统地表征通过新方法测得的从头转录输出，我们对新转录的RNA中过度呈现的828个基因以及通过常规mRNA 3’末端测序就预测的潜在转录因子而言在稳态检测的前825个基因(使用Ingenuity Pathway Analysis，www.Ingenuity.com)以及相关的分子途径(使用Enrichr)进行基因列表富集分析(图10C)：如预期，高水平的稳态表达未能预测多能性相关的转录因子网络和主要地与持家途径相关者，例如核糖体蛋白、mRNA加工或电子转运。比较而言，通过本发明方法进行的从头转录物分析成功地预测了关键的mES细胞特异性转录因子，包括Oct4(POU5F1),NANOG和SOX2，以及多能性网络(图10C)。我们推断短的s4U脉冲标记与RNA修饰和mRNA 3'末端测序的组合能够使即时转录输出与转录物稳定性效应分离，因此提供了一种快速且可扩展的研究转录基因调节的方法。

实施例6：测量mRNA转录物稳定性

为了确定本发明的方法是否可用于测量mRNA转录物的稳定性，我们进行mES细胞中的RNA的s⁴U标记达24小时，然后使用过量的不含硫醇的尿苷进行追逐，并在各个时间点(0min,15min,30min,1h,3h,6h,12h和24h)制备总RNA，然后进行U-修饰和mRNA 3'末端测序(图11A)。再次，我们将文库定位到小鼠基因组中带注释的3′UTR，并对它们分析T>C转化的存在，代表旧的转录物(图11A)。相对于9430个基因的稳态丰度(其在分析过程中保持恒定)标准化的随时间的含有T>C转化的转录物的全局分析揭示4h的中值mRNA半衰期(图11B)。如预期，个别转录物的半衰期变化超过一个数目级(图11C)。

对mRNA稳定性的控制对于基因表达的时间顺序是至关重要的。新方法重演关键的基本原理，这是因为与GO术语(例如“转录调节”、“信号转导”、“细胞周期”或“发育”)相关的调节转录物与持家转录物相比表现出显著更短的半衰期，落入GO术语，例如“细胞外基质”、“代谢过程”或“蛋白质合成”中(图11D)。总之，本发明使得能够准确评估mRNA的稳定性，提供了研究转录后基因调节的便利方法。如所示，方法重演了小鼠胚胎干细胞中的全局转录后基因调节标签。

实施例7：用于小RNA的代谢测序的硫醇连接的烷基化

为了了解小RNA沉默途径的胞内动力学，我们应用核苷酸类似物衍生化策略，其无需经标记的RNA种类的生物化学分离，并能够确定RNA生物发生以及总RNA背景下的周转动力学(图12)：此策略基于完善建立的4-硫代尿苷(s⁴U)代谢RNA标记方法，但是用涉及含s⁴U的RNA与碘乙酰胺(一种硫氢基反应性化合物，其在与s⁴U反应后在碱基配对界面上创建共价连接的酰胺甲基基团)反应的短化学处理替换不太有效且具有实验挑战性的生物素化步骤(图1)。当与常规RNA文库制备方案(例如小RNA测序)组合时，在s⁴U掺入位点处庞大基团的存在导致在逆转录(RT)期间G的特异性和定量的误掺入，但不干扰RT持续性。s⁴U掺入事件可以通过序列比较来鉴定，通常以生物信息学方式在高通量测序文库中以单核苷酸分辨率并且在未标记的RNA背景中通过调用T到C转变进行，因此消除对测量绝对标记效率的掺入溶液的需要。重要的是，已知没有将尿苷转化为胞嘧啶的酶，并且在高通量RNA测序数据集中，例如使用Illumina HiSeq 2500平台的T>C错误率是罕见的，以小于万分之一的频率发生。我们将此方法称为用于小RNA的代谢测序的硫醇(SH)连接的烷基化。

为了测试此方法揭示代谢标记的小RNA的能力，我们在不干扰细胞存活力的条件(即500μM)下，将果蝇S2细胞与s⁴U温育24小时，然后进行总RNA提取和小RNA测序。通过总RNA的HPLC分析确认代谢标记(图18)，揭示2.3％的标记效率，对应于43个尿苷之一中的s⁴U掺入。在s⁴U代谢标记24小时后，从果蝇S2细胞的大小选择的总RNA生成文库后，与从未标记的细胞制备的文库相比，我们观察到了T>C转化的强烈积累，如miR-184基因座例示，该基因座产生丰富表达的微小RNA miR-184-3p，以及其不太丰富的miR*miR-184-5p(图12A)。为了在基因组规模上确认此观察结果，我们将读段与果蝇基因组中带注释的微小RNA基因座比对，并且检查相对于每个miRNA的总体T含量标准化的任何给定突变的频率(图12B)。在不存在s⁴U代谢标记的情况下，我们观察到对于任何给定突变的小于0.1％的中位突变率，该速率与Illumina报告的测序错误率一致。(注意，如通过高通量测序确定，碘乙酰胺处理未标记的总RNA对小RNA丰度和突变率没有可检测的影响。见图19)。在s⁴U代谢标记24小时后，我们观察到了统计学上显著的(p<10^-4,Mann-Whitney检验)T>C突变率的74倍增加，而所有其他突变仍低于预期的测序错误率(图12B)。更具体地，我们在24小时标记后测得2.22％的中值s⁴U掺入，对应于每45个尿苷中的一个s⁴U掺入，并且与通过总RNA的HPLC测量测定的掺入率一致(图18)。因此，在不受干扰的条件下的代谢标记引起绝大多数(>95％)的小RNA最多表现出一个s⁴U掺入事件(图20)，这即使通过改进的生物素化策略(Duffy等人，2015，同上)也不足以定量回收，但可以容易地通过化学s⁴U衍生化鉴定(图12)。

本发明方法以单核苷酸分辨率回收s⁴U掺入的能力使我们能够系统地解析s⁴U代谢标记对微小RNA加工和加载的影响。为此，我们确定了从微小RNA前体的5p或3p臂衍生，或构成如选择性Argonaute加载所定义的miR或miR*链的给定小RNA的个别位置上的T>C转化的过度呈现或呈现不足。当查阅71个丰富表达的(>100ppm)微小RNA(对应于35个5p-miRNA和36个3p-miRNA或44个miR和27个miR*)时，我们在任何给定位置处没有观察到相对T>C突变率的显著系统性改变(图21)。我们推断s⁴U-代谢标记不影响微小RNA的生物发生或加载。

总而言之，在培养的果蝇S2细胞中进行的s⁴U代谢RNA标记，接着进行的SLAM-seq，以单核苷酸分辨率定量回收小RNA中的s⁴U掺入事件，并且揭示s⁴U标记对微小RNA生物发生和加载没有显著的位置依赖性影响。

实施例8：微小RNA生物发生的胞内动力学

微小RNA从含有发夹的RNA聚合酶II转录物衍生，其通过核中的Drosha和胞质中的Dicer顺序加工，产生成熟miRNA双链体(图13)。为了研究miRNA生物发生的胞内动力学，我们确定从用s⁴U代谢标记5min、15min、30min和60min后的果蝇S2细胞的大小选择的总RNA制备的小RNA文库中丰富表达的miRNA(稳态时>100ppm)的T>C突变率的增加，并且将它们与在不存在s⁴U标记的情况下检测到的错误率进行比较(图13B)。已经在标记时间短至5分钟后，我们检测到T>C转化率的显著升高，所有miR的17％和所有miR*的90％表现出高于最大背景水平的错误率。此分数随时间增加，在15min、30min和1h后分别为74％、93％和100％miR。根据保守的测量，所有miRNA的超过50％(42个中的22个)在短时间段(即5分钟)内可检测地产生(即，超出miR或其相应miR*配偶体中的最大背景T>C转化率)，揭示了miRNA加工的细胞构造中的明显效率。

我们还确定了含有T>C转化的读段的数目，作为随时间产生的miRNA分子数目的替代(图13C)。尽管平均而言具有高稳态丰度的miRNA也表现出高生产率(例如miR-184或miR-14)，但是其他尽管表现出高生物合成率的也具有低稳态丰度(例如miR-276b或miR-190)，或者反之亦然(即miR-980或miR-11)，指示产生miRNA的速率不是其胞内丰度的唯一决定因素。

虽然我们的全局分析揭示总体miRNA生物发生的高得出乎意料的效率，但选定的小RNA以显著更低的速率产生。此类不太有效产生的miRNA的例子是mirtron(即miR-1003、miR-1006或miR-1008；图13C)，通过剪接而非Drosha指导的加工产生的一类微小RNA。可以选择性抑制mirtron的生物发生，这是因为剪接衍生的前体发夹被末端核苷转移酶裁缝器(Tailor)特异性靶向进行尿苷化，所述末端核苷转移酶裁缝器识别3'末端剪接受体位点，从而阻止Dicer介导的有效加工并触发dmDis3l2指导的外切溶核性衰减(图13D)。我们的数据为选择性抑制mirtron生物发生提供了实验证据，这是因为当与规范miRNA相比时，mirtron表现出显著降低的T>C突变率并且含有T>C转化的读段随时间不太快速积累(图13D)。假设pre-miRNA发夹的尿苷化作为mirtron生物发生抑制的基础，我们还检测到pre-miRNA拖尾与T>C转化率之间的显著相关性(图22)。

总之，新方法揭示了miRNA产生的胞内速率的显著效率，并重演了前体-发夹尿苷化对miRNA生物发生的选择性抑制效应。

实施例9：监测小RNA加载入核糖核蛋白复合物中

微小RNA生物发生产生miRNA双链体。但是，仅将miRNA双链体的两条链中的一条(miR链)优先加载到Ago1上并进行选择性稳定化，而在miRNA加载的过程中将另一条链(miR*链)排出并降解(图14A)。为了测试本发明方法是否重演活细胞中miRNA双链体产生和miRNA加载的过程，我们分析了20个miRNA的含有T>C转化的读段的相对积累，对于所述20个miRNA，我们检测到足够高水平的miR及其配偶体miR*两者(图14B)。在s⁴U代谢标记后的早期时间点(即5min、15min和30min；Mann Whitney检验p>0.05)，我们未观察到miR和miR*对之间的丰度的显著差异，这确认miRNA最初作为双链体在动力学上与加载分离的过程中积累。仅在1小时后，我们检测到miR相对于miR*链的显著更高的积累(Mann Whitney检验p<0.05，图14B)，这指示平均而言，与miRNA生物发生相比以慢得多的速率发生miRNA对Ago1的加载。

更详细的分析揭示了miRNA积累根本的双相过程：miR和miR*之间的第一阶段是相同的(k_miR＝0.35±0.03和k_miR*＝0.32±0.03)，因此反映了miRNA作为双链体的积累。值得注意的是，对于miR和miR*两者，较慢的第二阶段与生物合成阶段偏离。miR*的积累速率的严重下降(k_miR*＝0.32±0.03)指示由于miRNA加载，绝大多数(即约81％)miR*链经历快速降解。比较而言，与miR*链(k_miR*＝0.32±0.03)相比，miR链表现出快得多的第二积累速率(k_miR＝0.26±0.03)，重演了miR链的选择性稳定化，推测是由于miRISC的形成。但是，当与初始生物发生率(k_miR＝0.35±0.03)相比时，miR在第二阶段动力学中也表现出下降(k_miR＝0.26±0.03)，这指示仅约74％的miR链有效加载，而据推测约四分之一的miRNA以双链体降解。这与空的Argonaute一致，可用性代表miRNA积累的关键限制因素，并且它们的过度表达总体上增加胞内miRNA的丰度。

对个别miR：miR*对的进一步研究揭示miRNA双链体间不同的加载效率：尽管在miR-184的情况下在几分钟内可检测到链分离(即加载)，但bantam表现出略微延迟的加载动力学，链分离不在约30min前发生；并且miR-282在有效加载最小的miRNA间排序(图14D)。值得注意的是，不同的加载动力学遵循Ago1加载的热力学规则，其中miRNA双链体的种子或3'支持区中的错配促进了miRISC的有效形成。

总之，新方法揭示了对miRNA生物发生和加载动力学的详细见解。

实施例10：IsomiR产生

越来越多的证据表明，多种胞内过程使微小RNA的序列和功能多样化，但是根本机制了解甚少，并且难以从稳态小RNA测序文库中进行剖析。isomiR产生的一个完善建立的例子是蝇中miRNA的外切溶核性成熟。尽管果蝇中的大多数miRNA是作为约22nt的小RNA产生的，但是选定的miRNA作为更长的约24聚体产生，其需要由3'至5'核糖核酸外切酶蚕食器介导的进一步的外切溶核性成熟，以形成基因调节miRISC。在标准的小RNA测序文库和高分辨率Northern杂交实验中，miR-34-5p表现处多种多样的长度概况，范围为源自相同的5'同种型的3'末端截短的丰富表达的24-21聚体同种型(图15B)。为了测试本发明方法解开产生多种miR-34-5p同种型的事件的细胞内顺序的能力，我们分析了在将S2细胞进行s⁴U-代谢标记的时间过程后从S2细胞总RNA中制备的小RNA文库。与在整个时间过程中显示出高度相似的长度概况的稳态小RNA形成对比，含有T>C转化的miR-34-5p读段最初完全以24聚体同种型积累，与先前采用重组Dcr-1或蝇裂解物和合成的pre-miR-34的体外加工实验一致(图15C，底部)。仅从3小时起，我们检测到较短的含有T>C转化的miR-34-5p 3’同种型的出现(图15C顶部)。从此时间点起，miR-34-5p的加权平均长度随时间连续下降，缓慢接近在稳态下观察到的miR-34-5p的平均长度概况(图15D)。我们推断本发明的方法揭示了isomiR的出现，如蚕食器指导的3′至5′外切溶核性修剪例示。

miRNA的外切溶核性成熟需要将其加载到Ago1中，并且生物化学证据表明，修剪仅在除去miR*链后发生，推测是因为提出蚕食器作为单链特异性3′到5′外切核糖核酸酶发挥功能。因为我们的方法使我们能够同时测量miRNA加载和isomiR产生，所以我们通过比较miR-34-5p修剪信号(图15D)和miR-34双链体加载动力学(图15E)来验证此假设。我们观察到，miR-34加载和miR*链除去后确实发生修剪，如由代谢标记1小时后开始在我们文库中的miR-34-5p和-3p积累的偏差所确定的(图15E)。总之，本发明的方法揭示了miRNA同种型产生的胞内顺序，因此提供了一种有力的工具来阐明使活细胞中miRNA的序列和功能多样化的过程。

实施例11：微小RNA稳定性

尽管不同的miRNA组装成其他情况下无法区分的蛋白质复合物，但越来越多的证据表明它们的稳定性可以显著不同(图16)。但是，目前可用的技术仅测量个别miRNA的相对半衰期，而不是绝对半衰期，从而无法深入了解miRNA的稳定性。此外，在不受干扰的条件下的代谢标记促使绝大多数(>95％)标记的小RNA最多表现出一个s⁴U掺入事件(图20)，这即使通过改进的生物素化策略也不足以进行定量回收(Duffy等人，2015年，同上)，并引入由于miRNA不同的miRNA序列中巨大不同的U含量而产生的偏差。比较而言，本发明的方法提供了在标准小RNA文库的背景下对绝对的和序列含量标准化的miRNA稳定性的快速访问(图16)。通过分析相对于从进行s⁴U代谢标记长达24小时的果蝇S2细胞的总RNA制备的SLAM-seq小RNA文库中miRNA-U含量的T>C转化率，我们对于41个丰富表达的miR链确定12.13h的中值半衰期(图16B)，指示平均miRNA半衰期与mRNA相比显著更长，所述mRNA表现出约4-6小时的平均半衰期。与miR形成对比，miR*表现出0.44小时的短得多的半衰期(图16B)，这与其由于miR加载而增强的周转一致(图14)。总体而言，与miR相比，miR*显著不太稳定(图16C)。但是，甚至miR表现出相差超过1个数量级的本质上不同的稳定性，如不稳定的miR-12-5p(t_1/2＝1.7h)和稳定的bantam-5p(t_1/2>24h)所例示的。重要的是，本发明的方法提供了对个别小RNA半衰期的深入了解，从而在极其多种小RNA稳定性间提供高度可重复的结果(图16E)。

微小RNA稳定性是在S2细胞中建立小RNA概况的主要促成因素，如以两个在稳态下积累到最高水平的miRNA例示：虽然bantam表现出相对较慢的生物发生(图13)和中等加载速率(图14)，它由于异常高的稳定性(t_1/2>24h)而积累到最高的稳态水平。比较而言，第二最丰富的miRNA miR-184-3p的稳定性比bantam-5p(t_1/2＝6h)低3倍，但由于其异常高的生物发生和加载动力学而仍积累到高水平(图13和14)。因此，通过SLAM-seq对小RNA进行的代谢测序揭示了miRNA生物发生、加载和周转对建立稳态小RNA概况(miRNA介导的基因调节的主要决定因素)的相对贡献。

实施例12：Argonaute蛋白身份限定小RNA稳定性

哺乳动物和昆虫两者的基因组编码Argonaute蛋白家族的几种蛋白质，其中一些蛋白质选择性加载小RNA，以通过不同的机制调节转录物的不同子集。尽管miRNA双链体本质上是不对称的，即miR链优先加载到Ago1中，但是每个miRNA前体可以潜在地产生两个成熟的小RNA链，所述链区别性分类成蝇中两个独特的遍在表达的Argonaute蛋白。与大多数miR相比，miR*通常作为功能性种类加载到RNAi途径中的效应蛋白Ago2中，并且由Ago2-RISC装配体的最后一步中的甲基转移酶Hen1在3′端核糖的2′位处经历选择性甲基化(图17A)。Ago2的消减不损害细胞存活力，并使我们能够研究Ago蛋白在小RNA选择性稳定化中的作用。此外，它提供了了解小RNA半衰期是否由与其关联的Ago蛋白的身份固有决定的实验框架。

我们首先通过将通过常规小RNA克隆(主要反映Ago1结合的小RNA)从总RNA产生的小RNA库与从总RNA产生但通过氧化富集甲基化(即Ago2结合的)小RNA的文库进行比较建立一组在野生型果蝇S2细胞中特异性组装到Ago2中的miRNA。尽管常规克隆方法中的大多数小RNA由miRNA(特别是miR链)组成，但氧化选择性富集源自转座子、基因(主要源自重叠的mRNA转录物)和基因座的Ago2结合的内源小RNA，导致长折回转录物(有结构的基因座)。如前所述，针对miR*选择性富集甲基化(即Ago2结合)的miRNA子集。比较未氧化的和氧化的小RNA文库使我们能够根据miR和miR*链在Ago1或Ago2中的积累对它们进行分类(图17C)。通过比较从野生型S2和由CRISPR/Cas9基因组工程消减Ago2的S2细胞产生的常规小RNA库中富含Ago2的小RNA的丰度(图17D)，我们确认富含Ago2的小RNA在消减Ago2后显著不太丰富(p<0.002,Wilcoxon配对对符号秩检验，图17E)。

接下来，我们通过s⁴U代谢标记，然后是SLAM-seq测量从野生型和经Ago2消减的(ago2^ko)细胞制备的总小RNA文库中的小RNA稳定性来确定富含Ago2的小RNA的稳定性。在野生型细胞中，富含Ago2的小RNA遵循两阶段衰变动力学，其中大多数(即94％)群体表现出高稳定性(t_1/2>24h)，而仅少数确实经历快速衰变，半衰期类似于miR*(t_1/2＝0.2h)。我们通过确定甲基化小RNA文库中相同小RNA种类的稳定性，测试了与长半衰期相关的群体是否可代表Ago2结合的级份。实际上，富含Ago2的小RNA遵循单指数衰减动力学，半衰期>24h(图17F)。相反，在经Ago2消减的S2细胞中，富含Ago2的小RNA再次遵循双阶段衰减动力学，但是现在大多数(63％)的群体表现出miR*样的稳定性(t_1/2＝0.4h)，指示在不存在Ago2的情况下，这些小RNA在将其配偶体链加载到Ago1中后主要衰减。相反，在存在和不存在Ago2的情况下，富含Ago1的小RNA具有相同的稳定性(图17F)。因此，我们的数据揭示了由其对特异性Ago蛋白加载决定的miRNA的群体特异性稳定性。

最后，为了剖析小RNA半衰期是否由它们缔合的Ago蛋白的身份固有确定，我们比较了Ago1和Ago2中30种最丰富的小RNA的稳定性(图17G)。此分析揭示，与Ago1结合的小RNA相比，Ago2结合的小RNA表现出显著更高的稳定性(p<10^-4；Mann Whitney检验)，这可能是因为Ago2结合的小RNA的甲基化有助于Ago2中而非Ago1中小分子RNA的稳定化。

总而言之，我们提供了用于剖析作为建立和维持影响健康和疾病中基因表达状态的小RNA概况的基础的分子机制的实验框架。

实施例13：SLAM-seq限定BRD4-MYC轴的直接基因调节功能

限定转录调节物如BRD4和MYC的直接靶基因对于理解其基本细胞功能和治疗开发两者均是至关重要的。然而，由于各种原因，解密直接调节关系仍然具有挑战性。虽然可以例如通过染色质-免疫沉淀和测序(ChIP-seq)定位基因组结合位点，但是仅结合因子未预测对邻近基因的调节功能。一种替代方法涉及在对给定调节物进行实验扰动后进行差异表达序型分析。

为了进一步测试SLAM-seq是否还捕获由例如信号传导途径的扰动引起的更特异性的转录应答，我们用其驱动致癌基因BCR/ABL以及MEK和AKT(它们作用为BCR/ABL下游独特的信号级联中的介质)的小分子抑制剂处理K562细胞(图25D，图30A和B)。

细胞培养

在RPMI 1640和10％胎牛血清(FCS)中培养白血病细胞系K562、MOLM-13和MV4-11。在含有10％FCS的MEM-alpha中培养OCI/AML-3细胞。在DMEM和10％FCS中培养HCT116和Lenti-X慢病毒包装细胞(Clontech)。所有生长培养基均补充有L-谷氨酰胺(4mM)。对于生长曲线，在存在或不存在100μM IAA(吲哚-3-乙酸钠盐，Sigma-Aldrich)的情况下，以2·10⁶个细胞/ml的初始密度接种细胞，并每24小时以1:2.6的比率分开到更新培养基和IAA，并将细胞保持亚汇合。使用Guava EasyCyte流式细胞仪(Merck Millipore)每24h测量细胞密度。

使用CellTiter-Glo发光细胞存活力测定法(Promega)对用JQ1和NVP-2组合处理72h的细胞进行存活力测定法。使用EnSpire多模式读板器(Perkin Elmer)记录相对发光信号(RLU)。对药物治疗的分数响应定义为α＝1-(RLU_处理的/RLU_未处理的)，并且协同作用计算为超出Bliss可加性(eob)，其中eob＝α_NVP-2,JQ1-α_JQ1-(α_NVP-2·1-α_JQ1)。

本实施例中使用的质粒和载体

从质粒pLCG(hU6-sgRNA-EFS-SpCas9-P2A-GFP)表达SpCas9和sgRNA。基于可公开获得的Cas9表达载体(lentiCRISPR v2,Addgene质粒#52961)克隆pLCG，并且所述Cas9表达载体包含改良的chiRNA背景。对于克隆到pLCG中的sgRNA序列。作为同源性指导的靶基因座修复的供体，通过基因合成(Integrated DNA Technologies)和从靶细胞系基因组DNA中PCR扩增约500bp同源性臂(HA)产生AID敲入盒。将所有组分组装到另外提供组成性GFP表达以监测转染的慢病毒质粒主链(Addgene质粒#14748)中，从而产生最终载体pLPG-AID-BRD4(5’HA-Blast^R-P2A-V5-AID-spacer-3’HA-hPGK-eGFP)和pLPG-MYC-AID(5’HA-spacer-AID-P2A-Blast^R-3’HA-hPGK-eGFP)。对于短期蛋白质消减实验，使用已发表的慢病毒载体SOP(pRRL-SFFV-Tir1-3xMYC-tag-T2A-Puro)引入稻(Oryza sativa)Tir1。对于竞争性增殖测定法，使用载体SO-blue(pRRL-SFFV-Tir1-3xMYC-tag-T2A-EBFP2)引入Tir1。使用递送shRNAmir-插入物的载体LT3GEN进行RNAi。

基因组编辑和慢病毒转导

为了获得AID敲入细胞系，通过使用MaxCyte STX电穿孔仪(K562)的电穿孔或通过使用FuGENE HD转染试剂(Promega，HCT116)的转染来共递送质粒pLCG和pLPG。在用杀稻瘟素(10μg/ml，Invitrogen)选择成功敲入后，使用BD FACSAria III细胞分选仪(BDBiosciences)分离GFP单细胞克隆。通过对粗细胞裂解物进行PCR基因型分型来表征克隆。通过加标签的蛋白质的免疫印迹法进一步确认敲入，并且对于K562，通过流式细胞术对克隆进行表征，以与野生型细胞的免疫表型最佳匹配。

对于短期蛋白质消减实验，用Tir1表达载体SOP转导经验证的纯合AID敲入克隆。通过病毒质粒和辅助质粒pCMVR8.74(Addgene质粒#22036)和pCMV-VSV-G(Addgene质粒#8454)的聚乙烯亚胺转染(PEI,M_W 25000,Polysciences)根据标准程序在Lenti-X细胞中进行慢病毒颗粒的包装。以有限的稀释度感染靶细胞并在嘌呤霉素(2μg/ml，Sigma-Aldrich)上选择。所有消减实验均使用新鲜转导和选择的细胞进行，以避免转基因的潜在沉默。

免疫印迹法和免疫表型测定

使用缀合有HRP的二抗(Cell Signaling Technology,目录编号#7074、#7076和#7077)进行一抗的化学发光检测。或者，使用二抗IRDye 680RD山羊抗兔IgG和IRDye 800CW山羊抗小鼠IgG(LI-COR Biosciences)在Odyssey CLx成像系统(LI-COR Biosciences)上进行兔和小鼠一抗的荧光检测。

对于免疫表型测定，将细胞用FACS缓冲液(PBS中的5％FCS)洗涤，并在室温与FCS受体封闭肽(人TruStain FcX，Biolegend，在FACS缓冲液中以1:20稀释)预温育10'。以最终稀释度1:400添加缀合有荧光团的抗体，并将细胞在4℃温育20'。将染色的细胞洗涤两次并重悬于FACS缓冲液中，然后在BD LSRFortessa流式细胞仪(BD Biosciences)上进行分析。

染色质分级

对于染色质分级，将细胞在冰冷的PBS中洗涤并重悬于染色质提取缓冲液(20mMTris-HCl,100mM NaCl,5mM MgCl₂,10％甘油,0.2％IGEPAL CA-630,20mMβ-甘油磷酸,2mMNaF,2mM Na₃VO₄,蛋白酶抑制剂混合物(无EDTA,Roche),pH 7.5)。通过离心(16000g,5’,4℃)沉淀不溶性级分，并在染色质提取缓冲液中洗涤3次，然后将其重悬于染色质提取缓冲液中。在第一次沉淀之前和之后分别取样总细胞级份和上清液。所有级分均补充有SDS(十二烷基硫酸钠，0.1％(w/v))，用benzonase(Merck Millipore,30’,4℃)消化，并在Bioruptor超声仪(Diagenode)中通过超声处理再溶解。

SLAM-SEQ

所有SLAM-seq测定法在对于粘附细胞的60-70％汇合下进行或者对于悬浮细胞在血细胞计数器上计算的最大细胞密度的60％下进行。在每次测定法前5-7h，吸出并替换生长培养基。除非另有说明，将细胞用指定的小分子抑制剂或100μM IAA预处理30分钟，以预先建立完全的靶标抑制或降解。在最终浓度100μM 4-硫代尿苷(s⁴U，Carbosynth)将新合成的RNA标记指定时间跨度(45'或60')。通过将板在干冰上直接速冻来收获粘附细胞。旋下悬浮细胞并立即速冻。使用RNeasy Plus Mini试剂盒(Qiagen)进行RNA提取。用碘乙酰胺(Sigma，10mM)对总RNA进行烷基化达15'，并通过乙醇沉淀将RNA再纯化。使用市售试剂盒(用于Illumina的QuantSeq 3'mRNA-Seq文库制备试剂盒FWD和用于Illumina的PCR附加试剂盒，Lexogen)，将500ng烷基化的RNA用作生成3'mRNA测序文库的输入。使用HiSeq1500和HiSeq2500平台(Illumina)进行深度测序。

差异基因表达分析、PCA和GO术语富集

对于基因水平的分析，通过Entrez基因ID对定位到同一基因的不同UTR注释的原始读段进行汇总。以单个实验进行用激酶抑制剂的K562细胞的初步研究。差异基因表达的分析仅限于在用于50bp测序运行的至少一种条件(夫拉平度和DMSO)下具有≥10个读段的基因或在用于100bp测序运行的至少一种条件(mk2206、曲美替尼、尼洛替尼、曲美替尼+mk2206和DMSO)下具有≥20个读段的基因。为了估计差异表达，向所有基因添加1个原始读段的假计数。

所有其他SLAM-seq实验一式三份进行，并且如下分析。在默认设置的情况下，且在对用于全局标准化的相应的总mRNA读段估计的大小因素的情况下，使用DESeq2(版本1.14.1)对具有≥2个T>C转化的原始读段计数进行差异基因表达调用。下游分析限于下述基因，所述基因通过用于通过DESeq2进行FDR估计的所有内部过滤器。在给定实验的所有条件间对500个最可变的基因进行方差稳定化转化后进行主成分分析。通过PANTHER过度呈现检验(Fisher's Exact及FDR多重检验校正，pantherdb.org)对K562^MYC-AID+Tir1中在IAA处理后SLAM-seq中显著且强烈下调(FDR≤0.1,log₂FC≤-1)的基因进行GO术语富集分析。

mRNA周转的评估

为了获得未受干扰的K562细胞中mRNA周转的粗略评估，我们假设在延长的s⁴U暴露后接近完全标记的一级动力学的情况下mRNA生物合成和衰变的稳态平衡。因此，对于任何基因i，在s⁴U标记60分钟后的总读段计数内转化的读段(≥2个T>C转化)的分数βi可用于如下计算细胞mRNA半衰期：

染色质免疫沉淀以及随后进行深度测序(ChIP-Seq)

对于ChIP-Seq，将1·10⁸至2·10⁸K562^AID-BRD4+Tir1细胞用100μM IAA或DMSO处理1h，在室温下与1％甲醛交联10'，然后用500mM甘氨酸淬灭5'，然后用冰冷的PBS洗涤2次。分离核后，将沉淀物在含有蛋白酶抑制剂(完整，Roche)的裂解液(10mM Tris-HCl，100mMNaCl，1mM EDTA，0.5mM EGTA，0.1％脱氧胆酸钠和0.5％N-月桂酰肌氨酸，pH 8.0)中裂解。使用Bioruptor超声仪(Diagenode)进行染色质剪切。通过在4℃以16000g离心10’沉淀细胞碎片。为了允许直接比较经DMSO处理的和经IAA处理的ChIP-seq样品，以RN2:K562≈1:10的比率添加来自小鼠AML细胞系(RN2)的染色质作为掺入对照，用于进行内部标准化。添加Triton X-100(终浓度1％)，并通过将染色质裂解物与5-10μg抗体在旋转轮上于4℃温育过夜来进行免疫沉淀。用磁性sepharose珠(G&E Healthcare；用TE中的1mg/ml BSA在室温下封闭2h)在4℃下在旋转轮上捕获抗体-染色质复合物2h。用RIPA缓冲液(150mM NaCl,50mMTris-HCl,0.1％SDS,1％IGEPAL CA-630,0.5％脱氧胆酸钠，pH 8.0)，Hi-Salt缓冲液(500mM NaCl,50mM Tris-HCl,0.1％SDS,1％IGEPAL CA-630,pH 8.0)，LiCl缓冲液(250mMLiCl,50mM Tris-HCl,1％IGEPAL CA-630,0.5％脱氧胆酸钠，pH 8.0)各将珠洗涤一次并且用TE洗涤两次。在1％SDS，100mM NaHCO₃中洗脱免疫复合物。在37℃用RNA酶A(100μg/ml)将样品处理30'，添加NaCl(200mM)，并在65℃将交联逆转6h，然后在45℃进行200μg/ml蛋白酶K消化2h。通过酚-氯仿提取和乙醇沉淀从沉淀的材料以及剪切的染色质输入(用于ChIP的材料的1％)两者中回收基因组DNA。使用用于Illumina的NEBNext Ultra II DNA文库制备试剂盒(New England Biolabs，#7645)制备用于Illumina测序的文库。

掺入控制的ChIP-seq数据的分析

为了分析掺入控制的ChIP-seq样品，通过合并人和小鼠基因组序列(GRCh38和mm10)制备杂合参考基因组。首先使用bowtie2 v2.2.9(--灵敏)针对此杂合基因组比对读段，然后分到人和小鼠箱(bin)中。使用deeptools v2.5.0.1计算每个轨道的读段覆盖，并使用掺入标准化因子再缩放。所得的标准化的覆盖追踪通过在计算经DMSO处理的和经IAA处理的样品之间的比率之前它们相应的输入信号进一步扣除。

再分析ChIP-seq和Click-seq数据以及超级增强子调用

使用cutadapt除去衔接子序列后，将先前发表的Click-seq数据，H3K27ac ChIP-seq数据和相应的输入样品用bowtie(版本1.1.2)与GRCh38再比对。对于K562细胞，使用超增强子近端基因。对于MV4-11和MOLM-13，使用MACS2(v2.1.0.20140616)在默认参数的情况下调用H3K27ac峰。使用ROSE v0.1在默认参数的情况下进行了超级增强子调用。基于100kb内最接近的TSS，将超级增强子分配给基因。随后的比较限于具有分配的Entrez GeneID和SLAM-seq中可检测的表达的超增强子近端转录物。

转录应答的预测建模

GRCh38.p9中所有Refseq转录物的TSS位置可从www.ensembl.org/biomart下载。从K562细胞的已发表的CAGE-seq数据中提取距相应链上每个TSS的300bp之内的CAGE-seq读段密度。保留具有两个重复的最高平均信号的TSS以进行进一步分析。从ENCODE项目(www.encodeproject.org/)或Cistrome数据浏览器(cistrome.org/db/)获得213个可公开获得的、预先分析的ChIP-seq追踪和1个全基因组亚硫酸氢盐测序实验。每个TSS周围500和2000bp内的ChIP-seq信号用作分类建模的输入。

对于JQ1过度敏感性的预测建模，基于通过SLAM-seq测量的K562细胞对200nM JQ1的应答，将基因分类为下调的(FDR≤0.1,log₂FC≤-0.7)。通过迭代再取样和通过Kolmogorov-Smirnov检验与靶标分布比较，将未受影响的基因(FDR>0.1,-0.1≤log₂FC≤0.1)进行二次采样，以提供相等大小和基线mRNA表达的匹配对照组。将查询和对照基因与TSS-ChIP-seq信号矩阵相交，并且分为训练集(75％)和测试集(25％)。使用经定标且居中的ChIP信号在使用CARET包进行参数调整期间以≥5倍交叉验证训练五个独立的分类器(弹性网GLM、梯度增强机和具有线性、多项式和径向内核的SVM)。在留出测试集上比较所有4种最终模型的性能。

对于MYC依赖性转录的预测建模，基于K562^MYC-AID+Tir1细胞的IAA处理后SLAM-seq中的应答，将基因分类为下调(FDR≤0.1,log₂FC≤-1)或未受影响(FDR≤0.1,-0.2≤log₂FC≤0.2)。进一步对未受影响的基因进行二次取样，以给出相等大小且表达匹配的对照集，如对JQ1应答建模描述。考虑到大的样品大小，将基因分为训练集(60％)和测试集(20％)以及其他验证集(20％)，并如对JQ1应答建模中的描述进行处理。

细胞系和癌症患者RNA-seq数据中直接MYC靶标标签的分析

为了将MYC表达与经验性MYC应答标签进行比较，从Klijn等人(Nat.Biotechnol.33,306–12(2015))获得672种人癌细胞系的FPKM标准化基因表达数据。排除以高于MYC的水平表达MYCN或MYCL的细胞系，并且将剩余样品分类为MYC-高(前20％MYC表达)或MYC低(后20％MYC表达)。在Entrez GeneID在细胞系表达数据集中注释并且在K562^MYC-AID+Tir1和HCT116^MYC-AID+Tir1中显著下调(FDR≤0.1)的所有基因中，在这两个细胞系中具有最强平均下调的100个基因定义为常见的MYC应答标签。为了获得所有标签基因表达的平衡估计，在所有细胞系间对每个基因的FPKM值进行定标，并对于每个细胞系对所有标签基因的定标表达值取平均值。可从portal.gdc.cancer.gov下载来自11个TCGA项目的5583名癌症患者的上四分位数标准化基因表达数据，并针对每种癌症类型进行独立处理，如对细胞系数据集描述。使用GSEA Desktop v3.0 beta进行基因集富集分析。

蛋白质组学的样品制备

在三个独立的实验中，分别用100μM IAA或DMSO处理K562^AID-BRD4+Tir1细胞60'，用冰冷的PBS洗涤3次，离心沉淀并速冻。将团粒重悬于裂解缓冲液(10M尿素，50mM HCl)中，并且在室温下温育10’，然后用1M Tris缓冲液(Tris-HCl，c_最终＝100mM，pH 8)调节pH。核酸用benzonase(Merck Millipore,250U/团粒,1h,37℃)消化，并加入碘乙酰胺进行烷基化(15mM，30'，室温)，然后用DTT(4mM，30'，37℃)淬灭。为了进行蛋白水解，将每个样品200μg的蛋白质用100mM Tris缓冲液稀释至尿素浓度6M，并用Lys-C(Wako)以酶与蛋白质的比率1:50进行消化(3h，37℃)。将样品进一步用100mM Tris缓冲液稀释至尿素终浓度2M，用胰蛋白酶(Trypsin Gold,Promega)以1:50的酶与蛋白质比率消化(37℃，过夜)。使用10％三氟乙酸(TFA，Pierce)将pH调节至<2，并使用C18筒(Sep-Pak Vac(50mg),Waters)脱盐。用70％乙腈(ACN，Chromasolv，梯度级，Sigma-Aldrich)和0.1％TFA洗脱肽，然后冷冻干燥。使用TMTsixplex等压标记试剂套装(Thermo Fisher Scientific)进行等压标记，将样品以等摩尔量混合并冷冻干燥。使用C18筒再纯化后，用70％乙腈和0.1％甲酸(FA，Suprapur，Merck)洗脱肽，然后冷冻干燥。

通过强阳离子交换层析(SCX)进行蛋白质组学样品分离

将干燥的样品溶解在SCX缓冲液A(5mM NaH₂PO₄,15％ACN,pH 2.7)中。使用UltiMate 3000快速分离系统(Thermo Fisher Scientific)以流速35μl/min和定制的TOSOH TSKgel SP-2PW SCX柱(5μm颗粒,12.5nm孔径,1mm i.d.x250mm)对200μg肽进行SCX。对于分离，使用三元梯度，从100％缓冲液A达10'开始，然后80’中线性增加至10％缓冲液B(5mM NaH₂PO₄,1M NaCl,15％ACN,pH 2.7)和50％缓冲液C(5mM Na₂HPO₄,15％ACN,pH 6)，在10’中至25％缓冲液B和50％缓冲液C，在10’中至50％缓冲液B和50％缓冲液C以及再进行15'等度洗脱。将流过物收集为单个级份，并沿着梯度级份在140'内每分钟收集，合并成110个级份，并于-80℃储存。

用于肽定量的LC-MS/MS

使用与配备Proxeon纳米喷雾源(Thermo Fisher Scientific)的Q Exactive HF质谱仪(Thermo Fisher Scientific)偶联的Thermo Fisher RSLC nano系统(ThermoFisher Scientific)进行LC-MS/MS。使用0.1％TFA作为流动相，以25μL/min将肽加载到捕集柱(Thermo Fisher Scientific,PepMap C18,5mm×300μm ID,5μm颗粒,孔径)上。10’后，将捕集柱与分析柱(Thermo Fisher Scientific,PepMap C18,500mm×75μm ID,2μm,)一致转换。梯度以流动相：98％A(H₂O/FA,99.9/0.1,v/v)和2％B(H₂O/ACN/FA,19.92/80/0.08,v/v/v)开始，在60'内增加至35％B，然后在5'内增加至90％B，保持恒定5'，并且在5'内降回98％A和2％B，以于30℃达到平衡。

Q Exactive HF质谱仪在其数据依赖模式下运行，使用全扫描(m/z范围为350-1650，标称分辨率为120000，目标值3E6)，然后对10个最丰富的离子进行MS/MS扫描。使用35％的标准化碰撞能量，1.2m/z的隔离宽度，60.000的分辨率，1E5的目标值以及设置为115m/z的第一固定质量获得MS/MS谱。将选定用于碎裂的前体离子(排除未分配的电荷状态，1，>8)放在动态排除列表中30”。此外，最小AGC目标设置为1E4，并且强度阈值为4E4。肽匹配特征设置为优选，并且启用排除同位素特征。

蛋白质组学数据分析

用Proteome Discoverer(版本1.4.1.14,Thermo Fisher Scientific)处理原始数据。使用MS Amanda(版本1.4.14.8240)针对由人SwissSwt数据库和附加污染物(总共20508个蛋白质序列)构成的数据库进行数据库搜索。将甲硫氨酸的氧化设置为动态修饰，并且将N端的TMT和半胱氨酸和赖氨酸的氨基甲酰甲基化规定为固定修饰。胰蛋白酶定义为蛋白水解酶，在赖氨酸或精氨酸后切割(除了当后面有脯氨酸时)，并且允许多至两个错过的切割。前体和碎裂离子公差分别设置为5ppm和0.03Da。使用Percolator对鉴定的谱进行重新评分，并在肽谱匹配水平下过滤至0.5％FDR。在Proteome Discoverer中应用严格的简约原则进行蛋白质分组。从具有积分公差10ppm的最确信的形心质量中提取报告离子强度。对于使用至少2个独特肽段检测到的所有蛋白质，基于给定蛋白质的组内的所有独特肽计算蛋白质水平定量。使用limma计算差异丰富的蛋白质的统计置信度。

制备用于质谱法的细胞代谢物

在存在100μM IAA或DMSO(1:5000(v/v))的情况下，将细胞以2·10⁵个细胞/ml的浓度接种在预热的生长培养基中。24小时后更换培养基，并且48小时后计数并收集细胞，用PBS洗涤两次并速冻。将每个样品中4·10⁶个细胞的团粒在MeOH，ACN和H₂O(比率2:2:1(v/v))的混合物中裂解，涡旋振荡并快速冷冻。为了完全裂解，细胞经历了速冻，解冻和超声处理(10'，4℃，Bioruptor超声仪(Diagenode)中的最大强度)的三个循环。蛋白质在-20℃沉淀1h，然后离心(15'，18000g，4℃)。回收上清液并在SpeedVac浓缩器中蒸发，通过超声处理(10'，4℃)将团粒重新溶解在ACN和H₂O的1:1混合物(v/v)中，并通过离心(4℃，15'，18000g)除去残留的碎片。

细胞代谢物的靶向LC-MS/MS

在分析之前，将50μl ACN添加到60μl每个样品，并将3μl注射到UltiMate3000XRSHPLC系统(Dionex，Thermo Scientific)。使用14'梯度分离代谢物，开始于5％流动相A(在水中的10mM乙酸铵，pH 7.5)，然后斜增到B(ACN)中50％A，使用ZIC-HILIC柱(100x 2.1mm,3.5μm,Merck)并且采用流速100μl/min进行。使用TSQ Quantiva三重四极杆质谱仪(Thermo Scientific)，在负离子模式下使用选定的反应监测(SRM)进行MS/MS。将来自三个独立实验的样品各以技术上一式三份分析，并使用TraceFinder(Thermo Scientific)分析MS数据。

结果

预处理30’和s4U标记60’后的SLAM-seq揭示了对小分子抑制剂的显著即时应答(图25E，图30C)，其不因mRNA半衰期而有偏，而总mRNA的水平上的变化仅局限于几个短寿命的mRNA(图25F)。用所有三种抑制剂的单一试剂处理触发特异性且独特的转录应答(图30C)，而用MEK和AKT抑制剂的组合处理接近BCR/ABL抑制后观察到的效果(图25，E和G)，与它们在BCR/ABL的主要效应器途径中的功能一致。总之，这些先导研究将SLAM-seq建立为快速、可访问且可扩展的在成熟mRNA的水平上探测特异性且全局的转录应答的方法，其与mRNA半衰期无关且处在排除间接效果的时间尺度上。因此，与特定调节剂的快速干扰组合，SLAM-seq实现直接转录靶基因的明确鉴定。

为了概括此种方法以用于研究大量调节剂，如在BRD4的情况下，没有可用的选择性抑制剂，我们试图将SLAM-seq与化学遗传蛋白降解组合。为了实现明确靶标分配的足够快的动力学，我们采用了生长素诱导型degron(AID)系统，该系统在小于1h内降解加AID标签的蛋白质。具体而言，我们修饰K562细胞的BRD4基因座以含有最小的AID标签(图26A)，并用表达高水平稻F-box蛋白Tir1的慢病毒载体转导同质性加标签的克隆，所述Tir1介导在生长素(吲哚-3-乙酸，IAA)处理后加AID-标签的蛋白质的泛素化。实际上，生长素对加AID标签的细胞的处理在30’内触发高度特异性的(图31，A和C)且几乎完全的BRD4降解(图26B和图31B)。尽管可以充分耐受引入标签或Tir1表达和生长素处理，但BRD4的延长降解强烈抑制增殖(图31，D和E)，与其报告的基本功能一致。

为了进一步定位BRD4降解的直接转录后果，我们用生长素处理细胞达30’，并用s4U标记新合成的RNA达随后的60’。随后通过SLAM-seq对标记的mRNA的定量揭示了转录的全局下调(图26C和图31F)，类似于CDK9抑制效果。为了研究此种现象根本的调节事件，我们测量了BRD4降解后染色质结合的核心转录机制的水平。尽管预起始复合物的成分和DSIF、NELF或P-TEFb均未显示出受损的全局募集，但我们注意到其C端七肽(heptad)重复序列的S2而不是S5处Pol2的磷酸化显著降低(图26D)，指示启动子近端暂停释放的缺陷。实际上，在BRD4降解后(生长素处理60’后)Pol2的掺入控制的ChIP测序显示在活性转录起始位点(TSS)上Pol2的占据的显著增加，而Pol2密度在整个基因体中降低(图26，E和F和图32A)。类似地，S5-磷酸化的Pol2水平在启动子处增加，而S2-磷酸化的Pol2(与后期延伸步骤相关)在整个基因体中大大降低(图26，E和F和图32，B和C)。这些发现与不依赖于CDK9募集到染色质的泛-BET蛋白降解时转录的广泛减少是一致的，并证明单独的BRD4的丧失足以介导这些效应。这些结果共同建立BRD4在最有活性的启动子处停滞的聚合酶的许可释放中的中心作用。

虽然这些发现与BRD4与活性TSS的混杂结合及其与核心转录机制的物理相互作用一致，但它们与常规表达分析中的BETi处理后观察到的选择性效应形成对比。为了限定BETi的即时转录效应并将它们与BRD4降解进行比较，我们在K562细胞和急性髓样白血病(AML)细胞系MV4-11中用不同剂量的BETi JQ1处理后进行SLAM-seq。在这两种细胞类型中，高剂量JQ1处理(1或5μM)广泛抑制转录(图26G，图33A)并全局降低Pol2-S2磷酸化(图33B)，类似于BRD4降解后观察到的效果，指示BRD4的全局转录功能是BET溴结构域依赖性的。重要的是，在抗增殖效果前的时间点时BRD4的敲低也重演了高剂量BETi处理对Pol2 S2磷酸化的影响(图33，C和D)，而抑制BRD2或BRD3(两个其它遍在表达的BETi靶标)未触发此类现象。这些结果证明了BETi的全局转录效应主要是由BRD4抑制介导的，并且不能被其他含BET-溴结构域的蛋白质所补偿。

由于高于1μM的JQ1剂量大大超过AML和其他JQ1敏感性癌细胞系中的生长抑制浓度，我们试图探索对200nM的更选择性的剂量的直接转录应答，该剂量在一大批AML模型中触发强烈的抗白血病效应。在少数几个BETi不敏感白血病细胞系之一的K562细胞中，200nMJQ1诱导少数转录物的选择性脱调节(图26H)。令人惊讶的是，用相同剂量处理两种高度敏感的AML细胞系触发规模可比的转录应答(图26H和图34，A和B)，并影响一组类似的BETi过度敏感转录物，其包括MYC和其他泛髓样依赖性(图26I和图34，C和D)。这些发现显示了，白血病中的BETi耐受性是由继发适应而不是主要转录应答缺乏决定的。我们还注意到了在BET抑制或BRD4降解后通常上调的较小基因集(图34E)。令人感兴趣的是，这些包括EGR1，它是AML中的肿瘤抑制物，在此背景下可能有助于BETi的有力效果。我们的结果共同揭示了对BETi的主要转录应答的深远剂量依赖性，并且显示了治疗活性剂量通过脱调节较小的过度敏感基因集来触发抗白血病效应。此外，这说明对基本转录机制的部分抑制可引起高度特异性的应答，可用于选择性靶向癌症依赖性。

为了探索使某些转录物对BETi过度敏感的因素，我们想知道此种现象是否仅反映对干扰一般Pol2暂停释放机制的明显敏感性。为了测试这点，我们使用SLAM-seq来比较对BET抑制(200nM JQ1)的转录应答与不同剂量的选择性CDK9抑制剂NVP-2触发的效应。尽管高剂量CDK9抑制(60nM NVP-2)全局上抑制转录，但中等剂量(6nM NVP-2)触发选择性转录应答(图35A)，其与对BETi的保守应答不同(图27，A和B和图35B)。由于CDK9和BET抑制剂在先前的报告和我们在AML中的研究中显示出强烈的协同效应(图35，C和D)，因此我们试图研究此种现象根本的转录应答。与选择性单一试剂效应形成对比，将中等剂量的JQ1和NVP-2组合触发类似于高剂量CDK9抑制的全局转录丧失(图27，A和B和图35A)。这些观察在遗传上不同的AML细胞系中是正确的(图35，E和F)，表明BETi和CDK9i之间的治疗协同作用主要基于全局转录的协同抑制，引起对此组合的耐受性的担忧。总体而言，我们的结果揭示治疗活性剂量的CDK9和BET抑制剂(尽管其靶物在Pol2暂停释放中发挥一般作用)利用此过程中的不同瓶颈来触发选择性转录应答。

为了研究BETi过度敏感性现象是否由特定的染色质特征决定，我们首先测试了BSS4在TSS处的占据水平或它们对BETi的可及性是否可以将直接BETi靶标(FDR≤0.1,log₂FC≤-0.7)与同等大小分组的具有相同基线表达的无应答基因(FDR≤0.1,-0.1≤log₂FC≤0.1；图36A)分开。虽然BRD4占据几乎不能超过基因的随机选择(AUC 0.52，图31C)，但最近报告的通过Click-seq测量的BETi染色质结合水平可以部分解释BETi应答(AUC 0.63；图36B)，这表明药物可及性的差异有助于选择性BETi效应。另一种广泛采用的模型将BETi的转录和治疗效应归因于其选择性抑制超级增强子的能力，其已受到最近一项研究的挑战，该研究鉴定基于H3K27ac的调节潜力是BETi靶标的优越预测器。由于这些研究依赖于延长的药物治疗后的常规RNA-seq，因此我们使用SLAM-seq概况重新评估了这两个模型。基于H3K27ac的基因调节潜力以及它们与超级增强子的关联两者都以适度的准确性预测了对BETi的过度敏感性(分别为AUC 0.66和0.64，图27C)。但是，三分之二的BETi敏感基因不能分配给超级增强子，并且绝大多数表达的超级增强子相关基因不响应BETi处理(图27，D和E)。这些观察结果在其他白血病细胞系中是正确的(图36C)，并且显示了对BET抑制的敏感性与超级增强子的存在有关，但不是由超级增强剂的存在决定的，这表明更复杂的因素支撑此现象。

为了探索这些，我们利用了可用于K562细胞的大量序型分析数据，并设计对基因调节的组合模式进行建模的无偏方法。具体地，我们提取了在BETi敏感基因和无应答基因的TSS周围500和2000bp内的214个ChIP-和甲基化组测序实验的信号，并使用此数据训练各种分类模型，这些模型随后基于留去测试基因进行评估(图27F和图36D)。此种方法产生了多个分类器，所述分类器以高保真度预测BETi敏感性(AUC>0.8，图27G和图36E)，它们之一是通过弹性净回归得出的广义线性模型(GLM)。重新分析此模型的系数揭示，包括高水平TSS近端REST和H3K27ac在内的几个因素与BETi过度敏感性有关，而SUPT5H(自身是延长的调节剂)的高占据是最强的负预测器(图27H和图37A)。无监督聚类揭示了最具预测性的TF和辅因子仅在BETi敏感或无应答基因的独特亚簇中富集(图27I和图37B)。例如，在不同组的BETi敏感基因中发现正预测器NFRKB和HMBOX1的高加载，而在不同亚簇的BETi非敏感基因中观察到CREM和SUPT5H的高结合。这些发现共同表明对BETi的转录应当是由基因座特异性调节物决定的，并且不能基于单个统一的染色质因子来预测。

与BETi敏感性的复杂决定因素相似，BETi的治疗效果可能是通过多个过度敏感靶基因的脱调节介导的。在将MYC验证为白血病中明显的BETi过度敏感基因后，必须将对MYC抑制的转录和细胞应答视为此背景下BETi的关键效应器机制。然而，在描述对特定靶标的激活，抑制和剂量依赖性效应以及MYC作为一般转录放大器的作用的研究之间，MYC的直接基因调节功能仍处于争论之中。为了测试这些模型，我们试图测量内源性MYC的短期丧失后mRNA输出的直接变化。为此，我们对K562细胞的MYC基因座进行工程化改造以含有AID标签(图28A)，其在纯合的表达Tir1的克隆中在小于30’内触发快速MYC降解(图28B)。然后，我们使用SLAM-seq对MYC降解后60'内的新合成mRNA的输出进行定量。与BRD4降解以及药理CDK9和BET抑制相比，MYC的短期丧失导致mRNA产生的高度特异性而非全局变化(图28C)。这些由对712个基因的阻抑效应所主导，而仅15个mRNA是强烈上调的。因此，在K562细胞中，MYC不起转录的直接阻遏物或一般放大器的作用，而主要发挥特定靶基因的转录激活物的功能。

由于已知MYC占据几乎所有活性启动子，我们接下来研究了MYC如何施加选择性转录激活(尽管遍在结合)。为此，我们训练了分类模型，以基于其启动子处不同的ChIP-seq信号预测MYC依赖性转录物(FDR≤0.1,log₂FC≤-1)。弹性净回归产生简单的GLM，其高度预测MYC依赖性基因调节(AUC0.91)。此模型中最强的贡献者是MYC本身的丰度。确实，虽然通过常规峰调用测定的启动子处MYC的存在未能鉴定出MYC敏感性转录物，但MYC或其结合因子MAX的结合水平以中等准确性预测MYC依赖性基因调节(分别为AUC 0.76和0.74)。这些结果共同表明直接MYC依赖性的转录物通过强MYC结合以及由另外的因子如MNT、NKRF、TBL1XR1、EP300和YY1的进一步的调节或补偿来定义。

为了研究MYC依赖性基因调节的细胞功能，我们分析了直接MYC靶基因中的生物过程的富集。引人注意的是，短期MYC丧失主要下调与蛋白质和核苷酸生物合成相关的基因(图28D)，包括所有核糖体生物发生因子的36％，AMP代谢中的关键调节物以及从头嘌呤合成途径的所有六种酶(图28，C和D)。实际上，MYC降解逐渐损害蛋白质合成(图28E)并导致在增殖缺陷发生之前的细胞AMP和GMP水平以及它们的上游中间体AICAR的强烈降低(图28F)。MYC在直接控制蛋白质和核苷酸生物合成中的关键酶以及聚合酶I、II和III的多个亚基中的作用解释了报告的MYC过表达后总细胞RNA的增加，支持了以下观点：这些效应是继发性质的并且不是由于全局转录效应所致。

为了测试MYC的直接转录功能在其他背景下是否保守，我们将纯合的AID标签工程化改造到HCT116结肠癌细胞的MYC基因座中，该细胞表达特别高的MYC水平。对于K562，用生长素处理表达TIR1的HCT116^MYC-AID细胞在小于30'内触发MYC的完全降解(图28G)。SLAM-seq序型分析揭示了高度选择性的转录效应(图28H)，其影响相同的细胞过程，并与K562细胞中的应答相关(R＝0.64，图28H)。为了测试两个无关细胞系之间MYC靶标的保守性是否延伸到其他癌症类型，我们得出SLAM-seq中100个最强烈下调的基因的标签，并将其表达与一组672个癌细胞系中的MYC水平进行比较。确实，MYC与我们的标签的表达水平是充分相关的(图28I)，除了表达低水平MYC而不丧失标签的小部分异常值外。值得注意的是，所有这些异常值都表达高水平的MYCN或MYCL，这指示MYC旁系同源物在调节核心MYC靶标中具有多余的功能。我们的直接MYC靶标的标签还与来自11种主要的人癌症间的5583份原发性患者样品的TCGA RNA-seq概况中的MYC水平高度相关(图28J)。这些发现共同证明了在多种人癌症中，MYC驱动一组保守的转录靶标的表达，这应当视为阻断其致癌功能的进入点。

总之，将快速的化学遗传扰动和SLAM-seq组合建立用于探测转录因子和辅因子的特异性和全局直接功能的简单而强大的策略。使用此种方法，我们在功能上将BRD4(一种作为与谱系和疾病相关的表达程序的调节物广泛研究的因子)表征为转录暂停-释放中的全局辅因子。另一方面，我们发现MYC(其以前已经被暗示为全局转录放大器)激活一组限定且保守的靶基因，以促进基本的合成代谢过程，特别是蛋白质和核苷酸的生物合成。更一般而言，通过实现mRNA输出变化的直接定量，SLAM-seq提供了一种简单、稳健且可扩展的用于限定对任何干扰的直接转录应答，以及从而探索细胞的调控路径的方法。

序列表

<110> IMBA-莫利库尔生物技术研究所

<120> 核酸修饰和鉴定方法

<130> r72339

<150> EP 17166629.0

<151> 2017-04-13

<150> EP 18165712.3

<151> 2018-04-04

<160> 11

<170> PatentIn version 3.5

<210> 1

<211> 76

<212> RNA

<213> 人工序列

<220>

<223> 5L-let-7-3L

<400> 1

acacucuuuc ccuacacgac gcucuuccga ucuugaggua guagguugua uaguagaucg 60

gaagagcaca cgucuc 76

<210> 2

<211> 76

<212> RNA

<213> 人工序列

<220>

<223> 5L-let-7-s4U-p9-3L

<220>

<221> 经修饰的碱基

<222> (42)..(42)

<223> s4u

<400> 2

acacucuuuc ccuacacgac gcucuuccga ucuugaggua guagguugua uaguagaucg 60

gaagagcaca cgucuc 76

<210> 3

<211> 21

<212> RNA

<213> 人工序列

<220>

<223> let-7-s6G序列

<220>

<221> 经修饰的碱基

<222> (8)..(8)

<223> s6g

<400> 3

ugagguagua gguuguauag u 21

<210> 4

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> RT引物

<400> 4

gtgactggag ttcagacgtg tgctcttccg atct 34

<210> 5

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> Solexa_PCR_fwd

<400> 5

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 6

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> Solexa_IDX_rev

<220>

<221> misc_feature

<222> (25)..(30)

<223> n是a, c, g或t

<400> 6

caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60

atct 64

<210> 7

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 成熟dme-let-7序列

<400> 7

tgaggtagta ggttgtatag t 21

<210> 8

<211> 77

<212> RNA

<213> 人工序列

<220>

<223> 合成RNA寡核苷酸

<220>

<221> misc_structure

<222> (44)..(44)

<223> 5-Br-U

<400> 8

acacucuuuc ccuacacgac gcucuuccga ucuugaggua guuagguugu auaguagauc 60

ggaagagcac acgucuc 77

<210> 9

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 9

gtgactggag ttcagacgtg tgctcttccg atct 34

<210> 10

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 引物

<400> 10

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 11

<211> 64

<212> DNA

<213> 人工序列

<220>

<223> 引物

<220>

<221> misc_feature

<222> (25)..(30)

<223> n是a, c, g或t

<400> 11

caagcagaag acggcatacg agatnnnnnn gtgactggag ttcagacgtg tgctcttccg 60

atct 64

Claims

1.鉴定多核酸(PNA)的方法，其包括以下的步骤：提供PNA；通过添加或除去氢键键合配偶体来修饰所述PNA的一个或多个核碱基，从而改变所述一个或多个核碱基的碱基配对能力；将互补核酸与所述PNA进行碱基配对，包括与至少一个经修饰的核碱基进行碱基配对；至少在与至少一个经修饰的核碱基互补的位置处鉴定所述互补核酸的序列。

2.权利要求1的方法，其中所述修饰导致改变的碱基配对行为，从而与选自A、T/U、C和G的天然核碱基相比，改变A和T/U之间以及C和G之间的优先碱基配对。

3.根据权利要求1或2的方法，其中所述修饰的步骤通过包含经硫醇修饰的核碱基进行。

4.根据权利要求3的方法，其进一步包括用包含所述氢键键合配偶体的烷化剂将所述硫醇核碱基烷基化。

5.根据权利要求3的方法，其进一步包括氧化所述硫醇核碱基。

6.根据权利要求1或2的方法，其中所述修饰包括用包含所述氢键键合配偶体的烷化剂在尿苷的4位上烷基化。

7.根据权利要求1-6中任一项的方法，其中所述PNA包含一个或多个4-硫代尿苷或6-硫代鸟苷。

8.根据权利要求1至7中任一项的方法，其中所述PNA在具有改变所述碱基配对能力的修饰的细胞中合成。

9.根据权利要求1至8中任一项的方法，其中通过细胞中的生物合成将经修饰的核碱基，优选地经硫醇修饰的核碱基掺入所述PNA中，优选地其中修饰一个或多个核碱基包括对所述经修饰的核碱基连接或除去氢键键合配偶体。

10.根据权利要求1至9中任一项的方法，其中与至少一个经修饰的核碱基的碱基配对导致与另一种核苷酸的碱基配对，其不同于与尚未修饰的核碱基的碱基配对，其中所述核碱基在其他方面是相同的。

11.根据权利要求1至10中任一项的方法，其中所述PNA包含RNA或DNA，或由RNA或DNA组成。

12.根据权利要求1至11中任一项的方法，其中对于选自A、G、C、U或T的每种核苷酸类型，所述经修饰的PNA包含比经修饰的核苷酸更多的天然核苷酸。

13.根据权利要求1至12中任一项的方法，其中所述PNA包含1、2、3、4、5、6、7、8、9、10或更多个且多达30个经修饰的核苷酸。

14.根据权利要求1至13中任一项的方法，其中提供PNA包括在细胞中表达所述PNA；所述方法进一步包括从所述细胞分离所述PNA；在所述细胞中和/或分离后修饰所述PNA的一个或多个核碱基；其中在所述细胞中或分离后或两者的修饰一起添加或除去一个或多个核碱基的氢键键合配偶体，从而改变所述一个或多个核碱基的碱基配对能力。

15.根据权利要求1至14中任一项的方法，其中在至少两个培养或生长阶段中培养或生长一种或多种细胞，其中一个培养或生长阶段包括将经修饰的核苷酸掺入生物合成的PNA中，所述PNA通过添加或除去氢键键合配偶体被修饰，并且另一个培养或生长阶段缺乏此种将所述经修饰的核苷酸掺入生物合成的PNA中，或者其中将经修饰的核苷酸以与另外一个培养或生长阶段中不同的浓度掺入生物合成的PNA中；或其中所述方法包括将经修饰的核苷酸掺入至少两个不同细胞的生物合成的PNA中或至少两个不同组的细胞中，其中优选地比较所述两个不同细胞或两个不同组的细胞的掺入。

16.根据权利要求15的方法，其中从所述细胞中收集所述两个培养或生长阶段或至少两个不同细胞或至少两个不同组的细胞的生物合成的PNA，优选还混合，特别优选地根据所述PNA的细胞起源标记所述PNA，并且其中将互补核酸与所述PNA进行碱基配对包括通过转录，优选地逆转录产生互补多核酸链，优选地DNA链。

17.权利要求16的方法，其进一步包括确定所述互补多核酸链的序列并比较所述链序列，其中可以通过与没有修饰的互补核酸比较来鉴定由通过添加或除去氢键键合配偶体进行的修饰所导致的改变的互补核酸。

18.根据权利要求1至17中任一项的方法，其包括比较至少两个细胞中或细胞中的至少两个不同的生长阶段中至少在与至少一个经修饰的核碱基互补的位置处所述互补核酸的经鉴定的序列，其中所述至少两个细胞或生长阶段在所述至少两个细胞或所述生长阶段之间具有差异基因表达，优选地其中差异基因表达是由细胞中至少一个基因的抑制或刺激引起的。

19.用于进行权利要求1至18中任一项的方法的试剂盒，其包含经硫醇修饰的核碱基和适合于在所述硫醇基团处使所述经硫醇修饰的核碱基烷基化的烷化剂，其中所述烷化剂包括氢键键合供体或受体，优选地其中所述烷化剂是碘乙酰胺。

20.权利要求19的试剂盒，其进一步包含引物，选自A、G、C和T的核苷酸、逆转录酶或其组合，优选地所有这些组分。