CN117915922A

CN117915922A - 与假尿苷和5-羟甲基胞嘧啶的修饰和检测相关的组合物和方法

Info

Publication number: CN117915922A
Application number: CN202280046082.6A
Authority: CN
Inventors: 何川; 戴庆; 张理升; 叶畅
Original assignee: University of Chicago
Current assignee: University of Chicago
Priority date: 2021-04-27
Filing date: 2022-04-27
Publication date: 2024-04-19
Also published as: WO2022232795A1

Abstract

本公开的方面涉及用于修饰、检测和定量假尿苷和5‑羟甲基胞嘧啶的方法和组合物。公开了修饰假尿苷和/或5‑羟甲基胞嘧啶的方法，包括在特定条件下亚硫酸氢盐处理。还公开了组合物和包含亚硫酸氢盐溶液和使用说明的试剂盒。

Description

与假尿苷和5-羟甲基胞嘧啶的修饰和检测相关的组合物和方法

相关申请的交叉引用

本申请要求2021年4月27日提交的美国临时专利申请第63/180304号的优先权，其通过引用整体并入本文。

政府支持声明

这项发明是在美国国立卫生研究院授予的政府资助HG008935下完成的。政府拥有本发明的一定权利。

序列表

本申请包含以ASCII格式提交的序列表，并通过引用整体并入本文。所述ASCII副本创建于2021年4月14日，命名为ARCD_P0726WO_Sequence_Listing.txt，大小为3685字节。

背景

I.发明领域

本发明的方面至少涉及分子生物学领域。更具体地，方面涉及用于修饰、检测、映射和/或评估核酸分子内的假尿苷和/或5-羟甲基胞嘧啶的方法。

II.背景技术

使用LC-MS/MS²在人类细胞系中测量的假尿苷/尿嘧啶(Ψ/U)比例约为0.2，假尿苷(Ψ)是哺乳动物mRNA中第二丰富的内部修饰。人类基因组中的十三种假尿苷合酶(PUS)已被注释^3-5，一些PUS酶的突变可导致广泛的人类疾病，包括X-连锁先天性角化不良和神经退行性疾病，如阿尔茨海默氏症和帕金森氏症^6-8。虽然tRNA和rRNA是假尿苷的主要目标，但一些PUS酶也可以结合和假尿苷mRNA⁹。已装入的Ψ修饰被认为影响翻译、mRNA映射、先天免疫反应，并可能重新编码^10-14。

目前还没有针对Ψ的抗体。之前对Ψ的检测依赖于它与N-环己基-N’-β-(4-甲基吗啉)乙基碳二亚胺(CMC)的反应，生成CMC修饰的Ψ，这可能在高度经修饰的Ψ位点引起RT终止信号¹⁵。这种方法已被用于在转录组范围映射Ψ，并在人类mRNA中分别确定了392个(Ψ-测序)和98个(Pseudo-测序)Ψ位点1^6，17，但由于低灵敏度和高假阳性逆转录(RT)终止，在这两个数据集之间仅显示了13个重叠位点。后来，使用叠氮化物修饰的CMC来富集用于测序的含Ψ的RNA片段(CeU-测序)²，允许识别更多的Ψ位点；然而，该方法在经修饰的位点不足以进行化学计量，并且叠氮化物修饰的CMC对于储存不稳定。

5hmC修饰的基因座可以作为多种人类癌症和其他复杂疾病的信息生物标志物。然而，现有的5hmC分析方法受到各种限制，包括高费用、低灵敏度、高背景和存在假阳性。

需要用于假尿苷和5-羟甲基胞嘧啶的全面且定量修饰和检测的方法和组合物。

发明内容

本公开通过提供用于修饰和检测假尿苷和5-羟甲基胞嘧啶的方法、组合物和试剂盒解决了某些需求。本公开的方面涉及修饰和检测假尿苷或5-羟甲基胞嘧啶的方法，包括在约6.5至约8.0的pH下用亚硫酸氢盐处理。如本公开的实施方案中所述，用亚硫酸氢盐在约6.5至约8.0(例如，7.0)的pH下处理核酸分子足以修饰假尿苷或5-羟甲基胞嘧啶，而不会诱导未修饰胞嘧啶的如常规亚硫酸氢盐处理(例如，pH＜6.0)所见的脱氨基作用。方法还可以包括逆转录和/或测序，用于假尿苷和/或5-羟甲基胞嘧啶的检测和定量。

本公开的实施方案包括修饰假尿苷的方法、检测假尿苷的方法、定量假尿苷的方法、修饰5-羟甲基胞嘧啶的方法、检测5-羟甲基胞嘧啶的方法、定量5-羟甲基胞嘧啶的方法、处理核酸样品的方法、分离含有5-羟甲基胞嘧啶的核酸分子的方法、假尿苷映射的方法、5-羟甲基胞嘧啶映射的方法、亚硫酸氢盐处理的方法、RNA处理的方法、DNA处理的方法和试剂盒。

本公开的方法可包括以下步骤的1个、2个、3个、4个或多于4个：在约6.5至约8.0的pH下用亚硫酸氢盐孵育RNA分子，在6.5至8.0的pH下用亚硫酸氢盐孵育RNA分子，在约6.5至约8.0的pH下用亚硫酸氢盐孵育DNA分子，在6.5至8.0的pH下用亚硫酸氢盐孵育DNA分子，进行逆转录反应，进行扩增反应，检测RNA分子中的5-亚甲基磺酸胞嘧啶(CMS)，检测DNA分子中的CMS，将核酸分子与抗CMS抗体接触，产生包含RNA分子和亚硫酸氢盐的混合物，在足以产生经修饰的假尿苷的条件下孵育混合物，产生包含DNA分子和亚硫酸氢盐的混合物，在足以产生经修饰的5-羟甲基胞嘧啶的条件下孵育混合物，确定一个或多于一个假尿苷的位置，确定一个或多于一个5-羟甲基胞嘧啶的位置，分离包含经修饰的假尿苷的RNA分子，分离包含经修饰的5-羟甲基胞嘧啶的RNA分子，分离包含经修饰的5-羟甲基胞嘧啶的DNA分子，对核酸分子测序，以及分析包含对应于假尿苷的缺失的核酸序列。可以从本公开的某些实施方案中排除任意一个或多于一个前述步骤。

本公开的试剂盒可以包括下列组分的1个、2个、3个、4个或多于4个：包含亚硫酸氢盐的溶液、逆转录酶、多核苷酸激酶、缓冲液、试剂和使用说明，所述使用说明包括用亚硫酸氢盐溶液孵育核酸分子的说明。在一些实施方案中，本发明的试剂盒包括亚硫酸氢盐溶液(即，包含亚硫酸氢盐的溶液)，其中该溶液具有约6.5至约8.0的pH。在一些实施方案中，试剂盒包括亚硫酸氢盐溶液，其中该溶液具有约7.0的pH。可以从本公开的实施方案中排除任意一个或多于一个前述组件。

在一些实施方案中，本文公开了修饰假尿苷的方法，包括在约6.5至约8.0的pH下将包含假尿苷的核糖核酸(RNA)分子与亚硫酸氢盐一起孵育，以产生包含经修饰的假尿苷的经修饰的RNA分子。在一些实施方案中，该方法还包括使用逆转录酶对经修饰的RNA分子进行逆转录，以产生脱氧核糖核酸(DNA)分子。在一些实施方案中，该方法还包括对DNA分子进行测序。在一些实施方案中，该方法还包括基于DNA分子序列中缺失的位置确定假尿苷在RNA分子中的位置。在一些实施方案中，孵育RNA分子进行约4小时。

本文还公开了修饰5-羟甲基胞嘧啶的方法，包括将包含5-羟甲基胞嘧啶的核糖核酸(RNA)分子与亚硫酸氢盐在约6.5至约8.0的pH下孵育，以产生包含5-亚甲基磺酸胞嘧啶(CMS)的经修饰的RNA分子。在一些实施方案中，该方法还包括检测经修饰的RNA分子中的CMS。在一些实施方案中，检测CMS包括将经修饰的RNA分子与抗CMS抗体接触。在一些实施方案中，该方法还包括使用逆转录酶对经修饰的RNA分子进行逆转录，以产生脱氧核糖核酸(DNA)分子。在一些实施方案中，逆转录酶是SuperScript IV。在一些实施方案中，该方法还包括对DNA分子进行测序。在一些实施方案中，孵育RNA分子进行约1小时。

在一些实施方案中，在约65℃至约75℃的温度下进行RNA分子的孵育。在一些实施方案中，在约或至少65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃或75℃，或其中可推导出的任意范围或值的温度下进行RNA分子的孵育。在一些实施方案中，在至少95℃的温度下进行RNA分子的孵育。在一些实施方案中，在大约或正好95℃、96℃、97℃、98℃或99℃的温度下进行RNA分子的孵育。在一些实施方案中，孵育RNA分子进行约1小时至6小时。在一些实施方案中，将RNA分子孵育约1小时、2小时、3小时、4小时、5小时或6小时，或其中可衍生的任意范围或值。在一些实施方案中，孵育RNA分子进行约4小时。在一些实施方案中，孵育RNA分子最多进行30分钟。在一些实施方案中，孵育RNA分子进行约或恰好30分钟、25分钟、20分钟、15分钟、10分钟或5分钟，或其中可推导出的任意范围或值。在一些实施方案中，将RNA分子与亚硫酸氢盐一起孵育不包括加入氢醌。在一些实施方案中，RNA分子是mRNA分子、tRNA分子、rRNA分子、snRNA分子、miRNA分子或lncRNA分子。在一些实施方案中，RNA分子来自cfRNA样品。在一些实施方案中，RNA分子是多个RNA分子中的RNA分子，其中该方法还包括定量多个RNA分子中假尿苷的数量。

在一些实施方案中，本文还公开了修饰5-羟甲基胞嘧啶的方法，包括在约6.5至约8.0的pH下，将包含5-羟甲基胞嘧啶的脱氧核糖核酸(DNA)分子与亚硫酸氢盐一起孵育，以产生包含5-亚甲基磺酸胞嘧啶(CMS)的核酸分子。在一些实施方案中，在约65℃至约75℃的温度下进行DNA分子的孵育。在一些实施方案中，在约65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃或75℃，或其中可推导出的任意范围或值的温度下进行DNA分子的孵育。在一些实施方案中，孵育DNA分子在约70℃的温度下进行。在一些实施方案中，孵育DNA分子在至少95℃的温度下进行。在一些实施方案中，孵育DNA分子在约或恰好95℃、96℃、97℃、98℃或99℃的温度下进行。在一些实施方案中，将DNA分子孵育1小时至4小时。在一些实施方案中，将DNA分子孵育约1小时、2小时、3小时、4小时、5小时或6小时，或其中可衍生的任意范围或值。在一些实施方案中，孵育DNA分子最多进行30分钟。在一些实施方案中，孵育DNA分子进行约或恰好30分钟、25分钟、20分钟、15分钟、10分钟或5分钟，或其中可推导出的任意范围或值。在一些实施方案中，将DNA分子与亚硫酸氢盐一起孵育不包括加入氢醌。在一些实施方案中，DNA分子是基因组DNA。在一些实施方案中，DNA分子来自cfDNA样品。在一些实施方案中，该方法还包括检测经修饰的DNA分子中的CMS。在一些实施方案中，检测DNA包括将经修饰的DNA分子与抗CMS抗体接触。在一些实施方案中，该方法还包括对经修饰的DNA分子进行测序。

在一些实施方案中，核酸分子(例如DNA或RNA分子)与亚硫酸氢盐在pH为或约为6.5、6.6、6.7、6.81、6.82、6.83、6.84、6.85、6.86、6.87、6.88、6.89、6.9、6.91、6.92、6.93、6.94、6.95、6.96、6.97、6.98、6.99、7.0、7.01、7.02、7.03、7.04、7.05、7.06、7.07、7.08、7.09、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8.0，或其中可衍生的任意范围或值的条件下孵育。在一些实施方案中，pH约为7.0。在一些实施方案中，亚硫酸氢盐为至少或约10重量％、11重量％、12重量％、13重量％、14重量％、15重量％、16重量％、17重量％、18重量％、19重量％、20重量％、21重量％、22重量％、23重量％、24重量％、25重量％、26重量％或27重量％(w/w)，或其中可衍生的任意范围或值的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少10重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少20重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少25重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐为至少或约10重量％、11重量％、12重量％、13重量％、14重量％、15重量％、16重量％、17重量％、18重量％、19重量％、20重量％、21重量％、22重量％、23重量％、24重量％、25重量％、26重量％或27重量％(w/w)，或其中可衍生的任意范围或值的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐为至少10重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐为至少20重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐是至少25重量％的亚硫酸氢铵。

在一些实施方案中，本文还公开了修饰样品中多个假尿苷的方法，该方法包括(a)产生pH为约6.5至约8.0的混合物，该混合物包含(i)包含多个假尿苷的多个RNA分子和(ii)亚硫酸氢盐；和(b)在足以产生包含多个经修饰的假尿苷的多个经修饰的RNA分子的条件下孵育混合物。在一些实施方案中，混合物的孵育在65℃至75℃的温度下进行。在一些实施方案中，混合物的孵育在约65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃或75℃，或者在其中可推导出的任意范围或值的温度下进行。在一些实施方案中，在约70℃的温度下进行混合物的孵育。在一些实施方案中，混合物的pH为或约为6.5、6.6、6.7、6.8、6.9、7.0、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8.0，或其中可推导出的任意范围或值。在一些实施方案中，混合物的pH值为约6.9至约7.1。在一些实施方案中，混合物的pH值约为7.0。在一些实施方案中，混合物的孵育进行1小时至6小时。在一些实施方案中，混合物的孵育进行约1小时、2小时、3小时、4小时、5小时或6小时，或其中可推导出的任意范围或值。在一些实施方案中，混合物的孵育进行约4小时。在一些实施方案中，混合物不包含氢醌。在一些实施方案中，亚硫酸氢盐是至少10重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少20重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少25重量％的亚硫酸氢钠。在一些实施方案中，多个RNA分子衍生自生物样品。在一些实施方案中，多个RNA分子包括mRNA分子、tRNA分子、rRNA分子、snRNA分子、miRNA分子、lncRNA分子或其组合。在一些实施方案中，该方法还包括(c)使用逆转录酶使多个经修饰的RNA分子经逆转录反应产生多个DNA分子。在一些实施方案中，逆转录酶是SuperScript IV。在一些实施方案中，该方法还包括对多个DNA分子进行测序。在一些实施方案中，该方法还包括定量多个RNA分子中假尿苷的数量。在一些实施方案中，该方法还包括通过确定多个DNA分子中缺失的位置来确定多个RNA分子的每个RNA分子上多个假尿苷中每个假尿苷的位置。

在一些实施方案中，本文还公开了用于修饰假尿苷或5-羟甲基胞嘧啶的试剂盒，其包含：(a)包含亚硫酸氢盐的pH为约6.5至约8.0的溶液；和(b)将核酸分子与溶液一起孵育的说明。在一些实施方案中，溶液的pH值为约6.9至约7.1。在一些实施方案中，溶液的pH值约为7.0。在一些实施方案中，溶液基本上由亚硫酸氢盐组成。在一些实施方案中，溶液是浓度为至少5M的亚硫酸氢盐溶液。在一些实施方案中，溶液是至少或约10重量％、11重量％、12重量％、13重量％、14重量％、15重量％、16重量％、17重量％、18重量％、19重量％、20重量％、21重量％、22重量％、23重量％、24重量％、25重量％、26重量％或27重量％(w/w)，或其中可推导出的任意范围或值的亚硫酸氢钠的亚硫酸氢盐。在一些实施方案中，亚硫酸氢盐是至少10重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少20重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐是至少25重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐为至少或约10重量％、11重量％、12重量％、13重量％、14重量％、15重量％、16重量％、17重量％、18重量％、19重量％、20重量％、21重量％、22重量％、23重量％、24重量％、25重量％、26重量％或27重量％(w/w)，或其中可衍生的任意范围或值的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐为至少10重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐为至少20重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐是至少25重量％的亚硫酸氢铵。在一些实施方案中，试剂盒还包含一种或多于一种缓冲液。在一些实施方案中，试剂盒还包含逆转录酶。在一些实施方案中，逆转录酶是SuperScript IV。在一些实施方案中，试剂盒还包含多核苷酸激酶。在一些实施方案中，多核苷酸激酶是T4多核苷酸激酶。在一些实施方案中，说明包含用于在约65℃至约75℃的温度下孵育核酸分子的说明。在一些实施方案中，所述说明包含用于在约65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃或75℃或其中可推导出的任意范围或值的温度下孵育核酸分子的说明。在一些实施方案中，说明包括用于在约70℃的温度下孵育核酸分子的说明。在一些实施方案中，说明包括用于孵育核酸分子1小时至6小时的说明。在一些实施方案中，说明书包括用于将核酸分子孵育约1小时、2小时、3小时、4小时、5小时或6小时或长于6小时的时间的说明。在一些实施方案中，说明包括用于孵育核酸分子4小时的说明。在一些实施方案中，说明包括用于孵育核酸分子至多30分钟的说明。在一些实施方案中，说明包括用于将核酸分子孵育最多、大约或恰好30分钟、25分钟、20分钟、15分钟、10分钟或5分钟，或其中可推导出的任意范围或值的说明。

在一些实施方案中，核酸分子是包含假尿苷的RNA分子。在一些实施方案中，试剂盒还包含含有假尿苷的对照RNA分子。在一些实施方案中，核酸分子是包含5-羟甲基胞嘧啶的RNA分子。在一些实施方案中，试剂盒还包含含有5-羟甲基胞嘧啶的对照RNA分子。在一些实施方案中，核酸分子是包含5-羟甲基胞嘧啶的DNA分子。在一些实施方案中，试剂盒还包含含有5-羟甲基胞嘧啶的对照DNA分子。

在整个申请中，术语“约”用于表示值包括测量或定量方法的固有误差变化。

当与术语“包括”结合使用时，不使用数量词可以表示“一个”，但是它也与“一个或多于一个”、“至少一个”和“一个或多于一个”的含义一致。

词语“和/或”表示“和”或“或”。为了说明，A、B和/或C包括：单独的A，单独的B，单独的C，A和B的组合，A和C的组合，B和C的组合，或A、B和C的组合。换句话说，“和/或”作为包容性的或。特别考虑到A、B或C可以特别地从实施方案中排除。

词语“包含”、“具有”、“包括”或“含有”都是包括性的或开放的并且不排除其他未提及的要素或方法步骤。

使用的组合物和方法可以“包含”本说明书通篇所公开的成分或步骤的任一个、“主要由其组成”或“由其组成”。“基本上由”所公开的任意成分或步骤“组成”的组合物和方法将权利要求的范围限制到具体的材料或步骤，这些材料或步骤不会实质上影响所要求保护的发明的基本和新颖特征。

特别考虑的是，关于本发明的一个实施方案讨论的任意限制可以应用于本发明的任意其他实施方案。此外，本发明的任意组合物可用于本发明的任意方法，并且本发明的任意方法可用于生产或利用本发明的任意组合物。实施例中阐述的实施方案的方面也是可以在不同实施例中的其他地方或本申请中的其他地方讨论的实施方案的上下文中实现的实施方案，例如在发明内容、详细描述、权利要求和附图简述中。

本发明的其他对象、特征和优点将从下面的详细描述中变得明显。然而，应理解，该详细描述和说明本发明的优选实施方案的具体实施例仅当做说明，因为通过该详细描述，在本发明的精神和范围内的多种变化和修改对本领域技术人来说将是明显的。

附图说明

以下附图构成本说明书的一部分，并且包括在本说明书内以进一步说明本发明的某些方面。通过参照这些附图的一个或多于一个结合本文所提供的具体实施方案的详细说明可以更好地理解本发明。

图1显示了在RBS条件下AGΨGA(SEQ ID NO：4)与亚硫酸氢盐反应的MALDI-TOF质谱结果。在六个重复中，Ψ以不同但低于30％的效率转化为Ψ-BS加合物。

图2显示了在实施例1中描述的BID-测序(BID-Seq)条件下AGXGA(X＝C、U或Ψ；SEQID NO：1)与亚硫酸氢盐的反应的MALDI-TOF质谱结果。C和U在亚硫酸氢盐处理前后没有变化，但Ψ以几乎定量的产率转化为Ψ-BS加合物。

图3显示了RT酶优化的结果，表明在经处理的样品的Ψ位点产生了96％的缺失率，而输入样品的缺失率几乎为零。输入和经处理的样品都几乎没有显示C到U的突变。

图4A显示了证明Ψ缺失率依赖于序列背景的结果。图4B显示了具有序列AGCUAGUCAΨAAUAGUGAC(SEQ ID NO：7)的寡核苷酸的校准曲线。

图5显示了实施例1中描述的BID-测序方案和Khoddami等人，2019的RBS-测序(RBS-Seq)方案之间人18S rRNA中Ψ位点的缺失率的比较。

图6A至图6F显示了HeLa mRNA中Ψ位点的分析结果。图6A显示了证明大多数缺失位点来自Ψ的结果。图6B显示了两次重复之间检测到的Ψ位点的重叠。图6C显示了实施例1中描述的BID-测序方案和Khoddami等人，2019的RBS-测序方案之间检测到的Ψ位点的比较。图6D显示了证明mRNA中Ψ位点主要分布在编码区(CDS)和3’UTR中的结果。图6E显示了HeLa细胞mRNA中Ψ分布的元基因。图6F显示了分数＞15％的高度经修饰的Ψ位点的分布模式。

图7A至图7C显示了HeLa 18S、28S和5.8S核糖体RNA中已知Ψ位点缺失的分析结果。图7A显示了BID-测序处理的文库的缺失率的二维图。图7B显示了在CAΨAA基序内HeLa18S核糖体RNA的1081位高度经修饰的Ψ位点的实例IGV图。图7C显示了经BID-测序或RBS-测序处理的样品中HeLa18S和28S核糖体RNA中已知Ψ位点缺失率的二维图。

图8A至图8B显示了通过BID-测序在HeLa 18S rRNA中检测到的缺失和Ψ分数(图8A)和28S rRNA(图8B)。

图9显示了用于BID-测序的文库构建路线的流程图，通过缺失率特征揭示Ψ修饰分数。

图10A至图10E显示了在人mRNA中检测到的Ψ。图10A——BID-测序揭示了HeLa、HEK293T和A549细胞中分别有506个、463个和808个Ψ位点(修饰分数超过10％)。图10B——显示HeLa、HEK293T和A549细胞中mRNAΨ位点分布的饼图，其中三个mRNA片段中化学计量≥10％。图10C——来自HeLa、HEK293T和A549细胞的mRNA中Ψ位点的修饰水平分布，其中高度经修饰的Ψ位点定义为超过50％Ψ分数的位点(用绿线标记)。图10D——HeLa mRNA中506个Ψ位点的基序分布，其中“X轴”为基序频率，“Y轴”显示每个基序的平均Ψ修饰分数。图10E——HeLa中携带mRNA的Ψ修饰基因的前20个富集GO簇。图10F——在对应的基因名称与每个细胞系的矩阵中72个Ψ位点的Ψ-分数热图，其中至少一个人类细胞系中的Ψ-分数超过50％和三个细胞系中的Ψ-分数超过10％。

图11A至图11B显示MALDI TOF MS结果，证明含有5hmC修饰的5聚体DNA寡聚物中的5hmC可在3分钟内定量转化为CMS。

图12A至图12C显示了Maldi TOF MS结果，表明C(图12A)、5mC(图12B)或T(图12C)在优化的条件下与BS反应。

图13A显示了通过Sanger测序评估5hmC向CMS转化效率的概况。图13B显示Sanger测序结果，表明增加反应时间或温度增强了CMS转化。在98℃下，9分钟的BS处理将大部分5hmC位点转化为CMS。

图14A至图14B显示了所公开的非常规亚硫酸氢盐处理和商业Zymo Methylation-Gold试剂盒之间DNA损伤的比较结果。图14A显示了从按指示处理的样品中获得的DNA的凝胶电泳。图14B显示了从按指示处理的样品中获得的DNA的qPCR结果。

图15A至图15B显示了证明Taq酶在扩增BS处理的DNA中具有最高效率的结果，如凝胶电泳(图15A)和qPCR(图15B)所示。

图16A至图16C显示了抗CMS抗体使用特异性的分析结果。图16A显示了抗-5hmC抗体下拉后10ng mESC DNA的qPCR。图16B显示了BS处理和抗CMS抗体下拉后10ng mESC DNA的qPCR。图16C显示CMS和抗体的结合亲和力非常高，并且改变洗涤缓冲液中盐的浓度仅具有最小的影响。

图17显示了所公开的抗CMS方法与其他5hmC分析方法的比较示意图。

图18显示了比较三种5hmC分析方法的映射比例和重复比例的结果：公开的方法(“CMS”)、hMeDIP和5hmC化学捕获测序(5hmC-Seal，“Seal”)。

图19显示了证明BS处理的文库的插入片段与输入文库相似的结果，表明BS处理没有引起明显的DNA降解。

图20A至图20B显示了所公开的CMS方法与Huang等人(PLoS ONE.5：e8888，(2010))中公开的方法的比较结果，

图21显示的结果表明，与5hmC-Seal和hMeDIP方法相比，所公开的CMS方法在转录起始位点(TSS)附近也显示出更高的富集。

图22显示了比较新CMS方法和5hmC-Seal方法的富集分布的点图。

图23A至图23D显示了小鼠基因组中的四个示例区域，突出显示了使用不同技术在每个区域中的富集。

图24显示了证明所公开的新CMS方法在cfDNA(低输入样品)的下拉效率方面更稳健的数据。

图25显示了通过每种所示分析方法分析的每种样品的插入片段大小分布。

图26显示了使用所有5hmC峰的PCA分析，证明了所公开的新CMS方法比5hmC-Seal和hMeDIP方法更稳健，并且显示了与输入文库相比独特的图谱。

图27显示了证明hMeDIP、5hmC-Seal和新CMS方法显示不同的元基因分布的结果。CMS#1和CMS#2是健康血浆供体的两个技术重复。CMS#3和CMS#4是癌症患者的两个技术重复。

图28显示了证明所公开的新CMS方法可以区分不同生物样品的结果。CMS#1和CMS#2是健康血浆供体的两个技术重复。CMS#3和CMS#4是癌症患者的两个技术重复。

图29显示了证明新的CMS方法可以在转录物末端位点(TES)附近捕获5hmC信号的结果。

图30显示了5hmC富集峰的倍数变化(y轴)。

图31A至图31B显示了人类基因组中的两个示例区域，突出显示了使用不同技术在每个区域中的富集。

发明详细描述

尽管在人rRNA中仅发现15个Ψ位点(缺失率＞5％)，并且mRNA上的信号很弱，其中仅72个位点显示缺失率＞5％，但是，据最近报道，当在RNA中映射m⁵C时，修饰的亚硫酸氢盐处理导致RNA中一些Ψ位点的适度碱基缺失¹。这种方法称为RBS-测序，在酸性亚硫酸氢盐处理条件下，不可避免地将所有的胞苷转化为尿苷，使一部分读取难以与mRNA对齐。然而，Ψ-BS加合物的发现以及该加合物在随后的逆转录(RT)过程¹中引起的诱导缺失为Ψ检测提供了新的可能性。正如本文所公开的，仔细研究了Ψ与亚硫酸盐的反应性后，开发了结果是定量形成Ψ-BS，而没有C-至-U的转化的反应。随后进行RT和测序，实现具有修饰化学计量信息的碱基分辨率的定量假尿苷测序。这些方法在RNA和DNA中5-羟甲基胞嘧啶的修饰和检测中也是有效的。

公开了用于修饰、检测和定量Ψ和5-羟甲基胞嘧啶的方法和组合物。本公开内容的方面至少部分基于出乎意料的发现，即在非标准条件下，包括非标准pH(例如，pH6.8至pH7.2)，用亚硫酸氢盐处理RNA或DNA，修饰Ψ和5-羟甲基胞嘧啶，而不将胞苷转化为尿苷。

I.假尿苷和5-羟甲基胞嘧啶的修饰和检测

本公开的方面涉及修饰假尿苷的方法。在一些实施方案中，这些方法包括在足以修饰假尿苷的条件下，用亚硫酸氢盐孵育假尿苷、包含假尿苷的RNA分子和/或包含假尿苷的RNA分子群。如本文所用，“经修饰的假尿苷”描述已经例如通过添加或去除化学部分被化学修饰的假尿苷。在一些实施方案中，经修饰的假尿苷通过向假尿苷添加化学部分而产生。在一些实施方案中，通过用N-环己基-N′-(2-吗啉代乙基)-碳二亚胺-甲基-对甲苯磺酸盐(CMC)处理产生经修饰的假尿苷，其中经修饰的假尿苷是N₃-CMC-Ψ。在一些实施方案中，通过用亚硫酸氢盐(例如亚硫酸氢钠)处理产生经修饰的假尿苷，其中经修饰的假尿苷包含磺酸酯基(-SO₃)部分。

本公开的其他方面涉及检测和/或定量RNA中假尿苷的方法。这些方法可以包括，例如，确定假尿苷在RNA分子中的位置，并定量RNA分子群中假尿苷的量。各种类型的RNA分子是本领域已知的，并且在本文中被考虑，包括例如mRNA、tRNA、rRNA、snRNA、miRNA、siRNA和lncRNA。在一些实施方案中，所公开的方法包括在RNA分子中产生经修饰的假尿苷，然后对RNA分子进行逆转录。如本文所公开的，包含经修饰的假尿苷(例如，磺化假尿苷)的RNA分子的逆转录可使所得DNA分子中发生缺失。缺失可以是一个核苷酸的缺失，其中一个核苷酸对应于原始RNA分子中的假尿苷。缺失可以是两个或多于两个核苷酸的缺失，其中缺失对应于原始RNA分子中的假尿苷加上一个或多于一个与假尿苷相邻的核苷酸。

本公开的其他方面涉及修饰5-羟甲基胞嘧啶的方法。在一些实施方案中，这些方法包括在足以修饰5-羟甲基胞嘧啶的条件下，用亚硫酸氢盐孵育5-羟甲基胞嘧啶、包含5-羟甲基胞嘧啶的核酸分子和/或包含5-羟甲基胞嘧啶的核酸分子群。如本文所用，“经修饰的5-羟甲基胞嘧啶”描述已经例如通过添加或去除化学部分被化学修饰的5-羟甲基胞嘧啶。在一些实施方案中，通过用亚硫酸氢盐(例如，亚硫酸氢钠)处理来产生经修饰的5-羟甲基胞嘧啶。在一些实施方案中，经修饰的5-羟甲基胞嘧啶是5-亚甲基磺酸胞嘧啶(CMS)。

本公开的其他方面涉及检测和/或定量RNA和/或DNA分子中的5-羟甲基胞嘧啶的方法。这些方法可以包括，例如，确定5-羟甲基胞嘧啶在RNA或DNA分子中的位置，并定量RNA分子或DNA分子群中5-羟甲基胞嘧啶的量。在一些实施方案中，所公开的方法包括在DNA或RNA分子中产生经修饰的5-羟甲基胞嘧啶(例如，CMS)，随后用对CMS特异的抗体或其抗原片段处理(例如，如美国专利申请公开第2018/0119225号中所述，其通过引用并入本文)。这样的抗体可用于分离含CMS的RNA或DNA分子，随后测序以确定5-羟甲基胞嘧啶的位置。

在具体实施方案中，本公开的方法包括在足以产生经修饰的假尿苷或经修饰的5-羟甲基胞嘧啶但不足以使胞嘧啶脱氨基的条件下孵育核酸分子(例如，包含假尿苷的RNA分子、包含5-羟甲基胞嘧啶的RNA分子或包含5-羟甲基胞嘧啶的DNA分子)。这样的条件在下文和本文其他地方有更详细的描述。例如，如本文所公开的，在6.5至8.0的pH下孵育核酸分子可能足以修饰核酸分子中的假尿苷以产生磺化假尿苷，但不足以使核酸分子中的任意胞嘧啶脱氨基。

在一些实施方案中，所公开的方法包括在6.5至8.0的pH下用亚硫酸氢盐孵育核酸分子。在一些实施方案中，核酸分子与亚硫酸氢盐在约、至少约，或至多约6.5、6.6、6.7、6.81、6.82、6.83、6.84、6.85、6.86、6.87、6.88、6.89、6.9、6.91、6.92、6.93、6.94、6.95、6.96、6.97、6.98、6.99、7.0、7.01、7.02、7.03、7.04、7.05、7.06、7.07、7.08、7.09、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8.0，或其中可推导出的任意范围或值的pH下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在6.5、6.6、6.7、6.81、6.82、6.83、6.84、6.85、6.86、6.87、6.88、6.89、6.9、6.91、6.92、6.93、6.94、6.95、6.96、6.97、6.98、6.99、7.0、7.01、7.02、7.03、7.04、7.05、7.06、7.07、7.08、7.09、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8.0，或其中可推导出的任意范围或值的pH下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在pH约7.0下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在pH 7.0下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在pH约6.95下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在pH 6.95下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在pH约7.05下孵育。在一些实施方案中，核酸分子与亚硫酸氢盐在pH 7.05下孵育。

在一些实施方案中，所公开的方法包括将核酸分子与亚硫酸氢盐一起孵育持续、持续至多或持续至少12小时、11小时、10小时、9小时、8小时、7小时、6小时、5小时或4小时，或其中可推导出的任意范围或值。在一些实施方案中，核酸分子与亚硫酸氢盐一起孵育约4小时。在一些实施方案中，所公开的方法包括将核酸分子与亚硫酸氢盐一起孵育持续或持续至多30分钟、25分钟、20分钟、15分钟、10分钟或5分钟，或其中可推导出的任意范围或值。

在一些实施方案中，所公开的方法包括在约、至少约、或至多约60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃或80℃或其中可推导出的任意范围或值的温度下，将核酸分子与亚硫酸氢盐一起孵育。在一些实施方案中，核酸分子在约65℃至约75℃的温度下孵育。在一些实施方案中，核酸分子在约65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃或75℃，或其中可推导出的任意范围或值的温度下孵育。在一些实施方案中，核酸分子在约70℃的温度下孵育。在一些实施方案中，核酸分子在70℃的温度下孵育。

在一些实施方案中，所公开的方法包括在约或至少约90℃、91℃、92℃、93℃、94℃、95℃、96℃、97℃、98℃、99℃或99.5℃，或其中可推导出的任意范围或值的温度下，将核酸分子与亚硫酸氢盐一起孵育。在一些实施方案中，核酸分子在至少95℃的温度下孵育。在一些实施方案中，核酸分子在约95℃、96℃、97℃、98℃、99℃，或在其中可推导出的任意范围或值的温度下孵育下孵育。在一些实施方案中，核酸分子在约95℃的温度下孵育。在一些实施方案中，核酸分子在95℃的温度下孵育。

在一些实施方案中，所公开的方法包括具有至少10重量％的亚硫酸氢钠的亚硫酸氢盐溶液。在一些实施方案中，本公开的亚硫酸氢盐溶液具有至少或约10重量％、11重量％、12重量％、13重量％、14重量％、15重量％、16重量％、17重量％、18重量％、19重量％、20重量％、21重量％、22重量％、23重量％、24重量％、25重量％、25.1重量％、25.2重量％、25.3重量％、25.4重量％、25.5重量％、25.6重量％、25.7重量％、25.8重量％、25.9重量％、26重量％、26.1重量％、26.2重量％、26.3重量％、26.4重量％、26.5重量％、26.6重量％、26.7重量％、26.8重量％、26.9重量％、或27重量％(w/w)，或其中可衍生的任意范围或值的亚硫酸氢盐(例如，亚硫酸氢钠、亚硫酸氢铵)。在一些实施方案中，亚硫酸氢盐溶液具有至少10重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有至少20重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有至少25重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有约26.4重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有至少10重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐溶液具有至少20重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐溶液具有至少25重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐溶液具有约26.4重量％的亚硫酸氢铵。如本领域技术人员所理解的，本公开的亚硫酸氢盐溶液可以描述为以摩尔浓度(M)、重量百分比(也称为“重量百分数”；w/w)或任意其他单位计。当以一种单位(例如，w/w)描述时，由其他单位(例如，M)表示的等效解决方案也在本文中考虑。

II.样品制备

在某些方面，方法包括从对象获得样品(也称为“生物样品”)。本文提供的获取方法可以包括活组织检查方法，例如细针抽吸、针芯活组织检查、真空辅助活组织检查、切口活组织检查、切除活组织检查、穿孔活组织检查、刮削活组织检查或皮肤活组织检查。在某些实施方案中，样品通过前面提到的任意活检方法从食道组织的活检中获得。在其他实施方案中，样品可以从本文提供的任意组织获得，所述组织包括但不限于非癌性或癌性组织，以及来自血清、胆囊、黏膜、皮肤、心脏、肺、乳腺、胰腺、血液、肝脏、肌肉、肾、平滑肌、膀胱、结肠、肠、脑、前列腺、食管或甲状腺组织的非癌性或癌性组织。或者，样品可以从任意其他来源获得，所述其他来源包括但不限于血液、汗液、毛囊、口腔组织、眼泪、月经、粪便或唾液。在当前方法的某些方面，任意医学专业人员，例如医生、护士或医学技术人员，都可以获得用于测试的生物样品。此外，生物样品可以在没有医疗专业人员帮助的情况下获得。

样品可包括但不限于组织、细胞或来自对象细胞或衍生自对象细胞的生物材料。生物样品可以是异质或同质的细胞或组织群体。生物样品可以是无细胞样品(例如，血清、血浆)。可以使用本领域已知的任意方法获得生物样品，所述方法可以提供适用于本文所述分析方法的样品。样品可以通过非侵入性方法获得，包括但不限于：刮擦皮肤或子宫颈、擦拭脸颊、收集唾液、收集尿液、收集粪便、收集月经、眼泪或精液。

样品可以是包含无细胞核酸的样品。无细胞核酸包括，例如，无细胞DNA(cfDNA)和无细胞RNA(cfRNA)。无细胞核酸可以是使用本文公开的方法和组合物，从生物样品中分离、提取或纯化，用于进一步分析或处理的。在一些方面，样品包含至少、最多或约1000ng、900ng、800ng、700ng、600ng、500ng、400ng、300ng、200ng、100ng、50ng、40ng、30ng、20ng、10ng、5ng、4ng或3ng核酸，或其中可衍生的任意范围或值。在一些方面，样品包含至多50ng的DNA(例如，cfDNA)。在一些方面，样品包含至多50ng的RNA(例如，cfRNA)。如本文所公开的，本公开的某些方法，包括修饰假尿苷的方法和修饰5-羟甲基胞嘧啶的方法，特别适用于处理和分析具有少量核酸(例如，少于200ng、150ng、100ng、50ng、30ng、20ng或10ng的DNA和/或RNA)的样品。

样品可以通过本领域已知的方法获得。在某些实施方案中，样品通过活组织检查获得。在其他实施方案中，样品通过拭子、内窥镜检查、刮擦、静脉切开术或本领域已知的任意其他方法获得在一些情况下，可以使用本发明方法的试剂盒的组分获得、储存或运输样品。在一些情况下，可以通过本文描述的方法获得用于诊断的多个样品，例如多个组织样品。在其他情况下，可以获得多个样品，例如来自一种组织类型的一个或多于一个样品和来自另一个样品的一个或多于一个样品，用于通过该方法进行诊断。在一些情况下，可以在相同或不同的时间获得多个样品，例如来自一种组织类型的一个或多于一个样品和来自另一种样品的一个或多于一个样品。可以在不同的时间获得样品，用不同的方法储存和/或分析。例如，可以通过常规染色方法或任意其他细胞学分析方法获得和分析样品。

在一些实施方案中，生物样品可以由医生、护士或其他医学专业人员获得，例如医学技术人员、内分泌学家、细胞学家、放血学家、放射学家或肺病学家。医学专业人员可以指示对样品进行适当的测试或化验。在某些方面，分子谱分析公司可能会咨询哪种测定或测试最合适。在当前方法的其他方面，患者或对象可以在没有医疗专业人员帮助的情况下获得用于测试的生物样品，例如获得全血样品、尿液样品、粪便样品、口腔样品或唾液样品。

在其他情况下，样品通过侵入性外科手术获得，包括但不限于：活检、针吸、内窥镜检查或静脉切开术。针抽吸的方法还可以包括细针抽吸、针芯活检、真空辅助活检或大针芯活检。在一些实施方案中，可以通过本文的方法获得多个样品，以确保足够量的生物材料。

获得生物样品的一般方法也是本领域已知的。诸如Ramzy，Ibrahim ClinicalCytopathology and Aspiration Biopsy 2001的出版物描述了活组织检查和细胞学方法的一般方法，其全部内容并入本文作为参考。在一个实施方案中，样品是食管或疑似食管肿瘤或赘生物的细针抽吸物。在某些情况下，可以通过使用超声波、X射线或其他成像设备来引导细针抽吸取样外科手术。

在本方法的一些实施方案中，分子谱分析企业可以直接从对象、由医学专业人员、由第三方或由分子谱分析企业或第三方提供的试剂盒获得生物样品。在一些情况下，在对象、医学专业人员或第三方获得生物样品并将其发送到分子谱分析企业后，生物样品可由分子谱分析企业获得。在一些情况下，分子谱分析企业可以提供合适的容器和赋形剂，用于将生物样品储存和运输到分子谱分析企业。

在本文描述的方法的一些实施方案中，医疗专业人员不需要参与初始诊断或样品采集。个人也可以通过使用非处方药(OTC)试剂盒获得样品。OTC试剂盒可包含用于获得如本文描述的所述样品的工具、用于储存所述样品以供检验的工具以及正确使用该试剂盒的说明书。在某些情况下，购买试剂盒的价格中包含了分子谱分析服务。在其他情况下，分子谱分析服务单独收费。适用于分子谱分析行业的样品可以是任意含有待测个体的组织、细胞、核酸、基因、基因片段、表达产物、基因表达产物或基因表达产物片段的材料。提供了用于确定样品适合性和/或充分性的方法。

在一些实施方案中，对象可被转介给专家，例如肿瘤学家、外科医生或内分泌学家。专家同样可以获得用于测试的生物样品，或者将个体介绍给测试中心或实验室以提交生物样品。在某些情况下，医学专业人员可以将对象转到测试中心或实验室以提交生物样品。在其他情况下，对象可以提供样品。在某些情况下，分子谱分析公司可以获得样品。

III.试验方法

A.甲基化DNA的检测

该方法的方面包括测定核酸以确定核酸的表达水平和/或甲基化水平。检测甲基化DNA的某些测定法是本领域已知的。本文描述了示例性方法。

1.HPLC-UV

由Kuo及其同事于1980年开发的HPLC-UV(高效液相色谱-紫外)技术(在Kuo K.C.等人，Nucleic Acids Res.1980；8：4763-4776，其通过引用并入本文)可用于定量水解DNA样品中存在的脱氧胞苷(dC)和甲基化胞嘧啶(5mC)的量。该方法包括将DNA水解成构成它的核苷碱基，用色谱法分离5mC和dC碱基，然后测量分数。然后，可以计算每个样品的5mC/dC比，并且可以在实验样品和对照样品之间进行比较。

2.液相色谱-串联质谱法

液相色谱与串联质谱联用(LC-MS/MS)是高灵敏度的HPLC-UV检测方法，它需要更少量的水解DNA样品。在哺乳动物DNA中，所有胞嘧啶残基中约有2％至5％是甲基化的，LC-MS/MS已被验证可检测0.05％至10％的甲基化水平，并且它可以置信地检测到样品间的差异，小至总胞嘧啶残基的约0.25％，对应于全基因组DNA甲基化的约5％差异。该程序通常需要50ng至100ng的DNA样品，尽管已经成功地分析了更少量(低至5ng)的DNA。该方法的另一个主要优点是它不会受到低质量DNA(例如，衍生自FFPE样品的DNA)的不利影响。

3.基于ELISA的方法

有几种可商购获得的试剂盒，都是基于酶联免疫吸附测定(ELISA)的，能够快速评估DNA甲基化状态。这些分析包括全基因组DNA甲基化ELISA，可从Cell Biolabs获得；印迹甲基化DNA定量试剂盒(夹心法ELISA(sandwich ELISA))，可从Sigma-Aldrich获得；EpiSeeker甲基化DNA定量试剂盒，可从abcam获得；全基因组DNA甲基化分析-LINE-1，可从Actie Motif获得；5-mC DNA ELISA试剂盒，可从Zymo Research获得；MethylFlash甲基化DNA5-mC定量试剂盒和MethylFlash甲基化DNA5-mC定量试剂盒，可从Epigentek获得。

简而言之，DNA样品被捕获在ELISA板上，甲基化的胞嘧啶通过与以下物质的连续孵育步骤来检测：(1)针对5Mc产生的初级抗体；(2)标记的第二抗体；然后(3)比色/荧光检测试剂。

全基因组DNA甲基化分析——LINE-1特异性地确定LINE-1(长散在核元件-1)逆转录转座子的甲基化水平，人类基因组的约17％由该反转录转座子组成。这些被公认为全基因组DNA甲基化的替代物。简而言之，片段化的DNA与生物素化的LINE-1探针杂交，然后将其固定在链霉亲和素包被的平板上。在洗涤和封闭步骤之后，使用抗-5mC抗体、HRP-缀合的第二抗体和化学发光检测试剂对甲基化的胞嘧啶进行定量。根据由已知LINE-1甲基化水平的标准品生成的标准曲线对样品进行定量。制造商声称该检测方法可以检测低至0.5％的DNA甲基化水平。因此，通过分析基因组的部分，有可能获得更好的定量准确性。

4.LINE-1焦磷酸测序

LINE-1甲基化水平也可以通过另一种方法来评估，该方法包括DNA的亚硫酸氢盐转化，然后是LINE-1保守序列的PCR扩增。然后通过焦磷酸测序来定量扩增片段的甲基化状态，焦磷酸测序能够分辨DNA样品之间小至约5％的差异。尽管该技术评估了LINE-1元件，因此CpG位点相对较少，但这已被证明能很好地反映全基因组DNA甲基化的变化。该方法特别适用于癌症样品的高通量分析，其中低甲基化通常与预后不良有关。这种方法特别适用于人类DNA，但也有适用于大鼠和小鼠基因组的版本。

5.AFLP和RFLP

差异甲基化片段的检测可以通过常规的基于PCR的扩增片段长度多态性(AFLP)、限制性片段长度多态性(RFLP)或采用两者结合的方案来实现。

6.LUMA

LUMA(发光甲基化测定)技术利用平行进行的两个DNA限制性消化反应和随后的焦磷酸测序反应的组合来填充消化的DNA链的突出末端。一个消化反应是用CpG甲基化敏感酶HpaII进行的；而平行反应使用甲基化不敏感酶MspI，它将在所有CCGG位点切割。酶EcoRI作为内部对照包含在两个反应中。MspI和HpaII在DNA切割后都产生5′-CG突出端，而EcoRI产生5′-AATT突出端，然后用随后的基于焦磷酸测序的延伸分析填充。本质上，测量的光信号计算为HpaII/MspI比例与样品中存在的未甲基化DNA的数量成正比。由于焦磷酸测序反应中添加的核苷酸序列是已知的，因此该方法的特异性非常高，可变性很低，这对于检测全基因组甲基化的微小变化是必不可少的。LUMA只需要相对少量的DNA(250ng至500ng)，几乎没有可变性，并且具有内部对照的优势，可以解决DNA输入量的可变性。

7.亚硫酸氢盐测序

在低pH条件下(例如，pH＜6.0)的DNA亚硫酸氢盐处理介导胞嘧啶脱氨为尿嘧啶，并且这些转化的残基将被读取为胸腺嘧啶，如通过PCR扩增和随后的Sanger测序分析所确定的。然而，5-mC残基对这种转化有抗性，因此仍被解读为胞嘧啶。因此，将未处理的DNA样品的Sanger测序读取与亚硫酸氢盐处理后的相同样品进行比较，能够检测甲基化的胞嘧啶。随着下一代测序(NGS)技术的出现，这种方法可以扩展到整个基因组的DNA甲基化分析。为了确保非甲基化胞嘧啶的完全转化，可以对亚硫酸氢盐反应进行对照。

全基因组亚硫酸氢盐测序(WGBS)类似于全基因组测序，除了亚硫酸氢盐转化的额外步骤。对基因组中5mC富集的部分进行测序不仅是一种成本较低的方法，而且还可以增加测序的覆盖范围，从而提高揭示差异甲基化区域的精确度。测序可以使用任意现有的NGS平台来完成；Illumina和Life Technologies都提供了用于这种分析的试剂盒。

亚硫酸氢盐测序方法包括简化的代表性亚硫酸氢盐测序(RRBS)，其中只有一部分基因组被测序。在RRBS中，富含CpG的区域的富集是通过MspI消化后分离识别CCGG位点的短片段实现的(并且它切割甲基化和非甲基化位点)。它确保了人类基因组中约85％的CpG岛的分离。然后，进行与WGBS相同的亚硫酸氢盐转化和文库制备。RRBS程序通常需要约100ng至1μg的DNA。

8.排除亚硫酸氢盐转化的方法

在一些方面，不经亚硫酸氢盐转化的经修饰的碱基的直接检测可用于检测甲基化。Pacific Biosciences公司开发了一种通过在单分子测序过程中监测聚合酶的动力学来直接检测甲基化碱基的方法，并提供了用于这种测序的商业产品(进一步描述于Flusberg B.A.等人，Nat.Methods.2010；7：461-465，其通过引用并入本文)。其他方法包括基于纳米孔的单分子实时测序技术(SMRT)，该技术能够直接检测经修饰的碱基(描述于Laszlo A.H.等人，Proc.Natl.Acad.Sci.USA.2013和Schreiber J.等人，Proc.Natl.Acad.Sci.USA.2013，其通过引用并入本文)。

9.阵列或珠杂交

基因组的甲基化DNA片段，通常通过免疫沉淀获得，可用于与微阵列杂交。目前可获得的这种阵列的例子包括：人CpG岛微阵列试剂盒(Agilent)，GeneChip人启动子1.0R阵列和GeneChip人Tiling 2.0R阵列组(Affymetrix)。

使用亚硫酸氢盐转化的DNA寻找差异甲基化区域可以通过使用不同的技术来完成。其中一些比另一些更容易进行和分析，因为只使用了基因组的一部分。DNA甲基化最显著的功能效应发生在基因启动子区、增强子调控元件和3’非翻译区(3’UTR)。可以使用集中于这些特定区域的分析，例如Illumina的Infinium HumanMethylation450珠芯片阵列。该阵列可用于检测基因的甲基化状态，包括miRNA启动子、5’UTR、3’UTR、编码区(每个基因约17个CpG)和岛岸(CpG岛上游约2kb的区域)。

简而言之，亚硫酸氢盐处理的基因组DNA与分析寡核苷酸混合，其中一个与尿嘧啶互补(由原始的未甲基化胞嘧啶转化而来)，另一个与甲基化(因此被保护免于转化)位点的胞嘧啶互补。杂交后，引物被延伸并连接到基因座特异性寡核苷酸上，以产生用于通用PCR的模板。最后，使用标记的PCR引物产生固定在条形码珠上的可检测产物，并测量信号。每个基因座(单个CpG)的两种珠之间的比例是其甲基化水平的指标。

可以购买利用甲基化特异性引物延伸进行验证研究的试剂盒。在Illumina的VeraCode甲基化分析中，使用用于甲基化的GoldenGate检测对96个或384个用户指定的CpG基因座进行分析。与BeadChip检测不同，VeraCode检测需要BeadXpress读取仪进行扫描。

10.甲基敏感切割计数：核酸内切酶消化后测序

作为对大量甲基化(或未甲基化)DNA测序的替代方法，人们可以从这些区域产生片段，并在测序后将它们映射回基因组。此外，NGS的覆盖面可能足以量化特定基因座的甲基化水平。基因表达系列分析技术(SAGE)已适用于此目的，被称为甲基化特异性数字核型分析，以及类似的技术，称为甲基敏感切割计数(MSCC)。

总之，在所有这些方法中，甲基化敏感的核酸内切酶，例如HpaII，用于基因组DNA在未甲基化位点的初始消化，然后进行衔接子连接，该衔接子连接含有另一种消化酶的位点，该酶在其识别位点之外被切割，例如EcoP15I或MmeI。通过这些方式，产生了位于原始HpaII位点附近的小片段。然后，进行NGS和基因组映射。每个HpaII位点的读取与其甲基化水平相关。

最近，发现了许多使用甲基化DNA作为底物的限制性酶(甲基化依赖性核酸内切酶)。大部分都是SibEnzyme发现并出售的：BisI，BlsI，GlaI，GluI，KroI，MteI，PcsI，PkrI。这些酶仅切割甲基化位点的独特能力已被用于实现甲基化DNA选择性扩增的方法中。可从New England Biolabs获得的三种甲基化依赖性核酸内切酶(FspEI、MspJI和LpnPI)是在识别位点外切割的IIS型酶，因此能够在含有CpG的完全甲基化的识别位点周围产生32bp的片段。这些短片段可以是序列并与参考基因组进行比对。每个特定的32bp片段的读取可以作为其甲基化水平的指标。类似地，用大肠杆菌的甲基特异性内切核酸酶McrBC可以从甲基化的CpG岛产生短片段，McrBC在彼此相距50bp至3000bp的两个(G/A)mC的半位点之间切割DNA。这是分离甲基化CpG岛的非常有用的工具，可以再次与NGS结合。由于不用亚硫酸氢盐，这三种方法对于快速全基因组甲基化谱分析具有巨大的潜力。

B.测序

在一些实施方案中，本公开的方法包括测序方法。测序方法的实例包括下面描述的那些。

1.大规模平行特征测序(MPSS)。

上世纪90年代，Lynx Therapeutics公司开发了第一个下一代测序技术——大规模平行特征测序(或MPSS)。MPSS是一种基于珠的方法，该方法使用衔接子连接，然后衔接子解码的复杂方法，以4个核苷酸的增量读取序列。这种方法使其易受序列特异性偏差或特定序列丢失的影响。因为这项技术非常复杂，MPSS只能由Lynx Therapeutics在“内部”进行，没有DNA测序仪出售给独立的实验室。Lynx Therapeutics在2004年与Solexa(后来被Illumina收购)合并，导致了合成测序的发展，这是从Manteia Predictive Medicine收购的更简单的方法，使MPSS过时。然而，MPSS输出的基本属性是后来的“下一代”数据类型的典型特征，包括成千上万的短DNA序列。在MPSS的情况下，这些通常用于测定基因表达水平的cDNA测序。事实上，强大的Illumina HiSeq2000，HiSeq2500和MiSeq系统都是基于MPSS。

2.Polony测序。

Polony测序方法由哈佛大学George M.Church的实验室开发，是第一代下一代测序系统之一，并于2005年用于全基因组测序。该方法将体外配对标签文库与乳化PCR、自动显微镜和基于连接的测序化学相结合，对大肠杆菌基因组进行了测序，准确度＞99.9999％，成本约为Sanger测序的1/9。该技术被授权给Agencourt Biosciences，随后被分拆到Agencourt Personal Genomics，并最终被纳入Applied Biosystems SOLiD平台，该平台现由Life Technologies所有。

3. 454焦磷酸测序。

454 Life Sciences开发了焦磷酸测序的并行版本，该公司已被RocheDiagnostics收购。该方法在油溶液(乳液PCR)中扩增水滴内的DNA，每个水滴包含附着于单个引物包被珠的单个DNA模板，然后形成克隆集落。测序仪包含许多皮升体积的孔，每个孔包含单个珠子和测序酶。焦磷酸测序使用荧光素酶产生光来检测加入新生DNA的单个核苷酸，组合的数据用于产生序列读取。与一端的Sanger测序和另一端的Solexa和SOLiD相比，该技术提供了中等的读取长度和每碱基的价格。

4.Illumina(Solexa)测序。

Solexa现在是Illumina的一部分，它开发了基于可逆染料终止子技术和工程聚合酶的测序方法，这是它内部开发的。终止化学是Solexa内部开发的，Solexa系统的概念是由剑桥大学化学系的Balasubramanian和Klennerman发明的。2004年，Solexa收购了ManteiaPredictive Medicine公司，以获得基于“DNA簇”的大规模并行测序技术，该技术涉及表面DNA的克隆扩增。该集群技术是与加利福尼亚的Lynx Therapeutics联合收购的。SolexaLtd.后来与Lynx合并，成立了Solexa Inc。

在这种方法中，DNA分子和引物首先附着在载玻片上，用聚合酶扩增，从而形成局部克隆DNA集落，后来称为“DNA簇”。为了确定序列，加入四种类型的可逆终止子碱基(RT-碱基)，洗去未掺入的核苷酸。照相机拍摄荧光标记的核苷酸的图像，然后染料和末端3’阻断剂一起从DNA中化学去除，允许下一个循环开始。与焦磷酸测序不同，DNA链每次延伸一个核苷酸，图像采集可以在延迟的时刻进行，允许从单个相机拍摄的序列图像捕获非常大的DNA集落阵列。

酶促反应和图像捕获的分离允许最佳的通量和理论上无限的测序能力。在最佳配置的情况下，最终可达到的仪器通量因此仅由相机的模数转换率决定，乘以相机的数量并除以最佳可视化它们所需的每个DNA集落的像素数(大约10个像素/集落)。在2012年，随着相机以超过10MHz的A/D转换速率运行，以及可用的光学、流体学和酶学，通量可以是每秒100万个核苷酸的倍数，大致相当于每台仪器每小时覆盖1x的一个人类基因组当量，以及每天每台仪器(配有相机)重测序一个人类基因组(以大约30x)。

5.SOLiD测序。

Applied Biosystems(现为Thermo Fisher Scientific品牌)SOLiD技术采用连接测序。这里，根据测序位置标记了固定长度的所有可能的寡核苷酸的集合。寡核苷酸被退火并连接；用于匹配序列的DNA连接酶的优先连接导致该位置核苷酸的信号信息。测序前，通过乳液PCR扩增DNA。产生的珠，每个都含有相同DNA分子的单个拷贝，被沉积在玻璃载玻片上。结果是序列的数量和长度可与Illumina测序相媲美。据报道，这种通过连接的测序方法对回文序列的测序存在一些问题。

6.离子激流半导体测序。

Ion Torrent Systems Inc.(现由Thermo Fisher Scientific所有)开发了基于使用标准测序化学的系统，但使用了新颖的基于半导体的检测系统。与其他测序系统中使用的光学方法不同，这种测序方法基于对DNA聚合过程中释放的氢离子的检测。含有待测序的模板DNA链的微孔充满了单一类型的核苷酸。如果引入的核苷酸与前导模板核苷酸互补，它就被掺入正在生长的互补链中。这导致氢离子的释放，从而触发高灵敏度的离子传感器，这表明反应已经发生。如果模板序列中存在均聚物重复序列，则多个核苷酸将被整合到单个循环中。这导致相应数量的释放氢和成比例的更高的电子信号。

7.DNA纳米球测序。

DNA纳米球测序是高通量测序技术，用于确定生物体的整个基因组序列。CompleteGenomics公司使用这项技术对独立研究人员提交的样品进行测序。该方法使用滚环复制将基因组DNA的小片段扩增成DNA纳米球。然后通过连接的非链式测序用于确定核苷酸序列。与其他下一代测序平台相比，这种DNA测序方法允许每次运行对大量DNA纳米球进行测序，并且试剂成本较低。然而，从每个DNA纳米球中只测定了DNA的短序列，这使得将短序列与参考基因组映射变得困难。这项技术已经被用于多个基因组测序项目。

8.Heliscope单分子测序。

Heliscope测序是Helicos Biosciences开发的单分子测序方法。它使用DNA片段和附加的聚腺苷酸尾衔接子，这些衔接子附着在流动细胞表面。接下来的步骤包括基于扩展的测序，用荧光标记的核苷酸循环洗涤流式细胞(一次一种核苷酸类型，如Sanger方法)。读取由Heliscope序列器执行。读取很短，每次最多55个碱基，但最近的改进允许更准确地读取一种类型核苷酸的片段。该测序方法和设备用于对M13噬菌体的基因组进行测序。

9.单分子实时(SMRT)测序。

SMRT测序是基于合成法测序。DNA是在零模式波导(ZMW)中合成的，这是小型的井状容器，其捕获工具位于井的底部。使用未修饰的聚合酶(附着于ZMW底部)和在溶液中自由流动的荧光标记的核苷酸进行测序。以这样一种方式构建孔，即只检测孔底部出现的荧光。当核苷酸掺入DNA链时，荧光标记与核苷酸分离，留下未修饰的DNA链。据SMRT技术开发商太平洋生物科学公司称，这种方法可以检测核苷酸修饰(如胞嘧啶甲基化)。这是通过观察聚合酶动力学来实现的。这种方法允许读取20000个或多于20000个核苷酸，平均读取长度为5千个碱基。

C.其他分析方法

在一些实施方案中，方法涉及使用对靶基因组区域具有特异性的至少一对引物扩增和/或测序一个或多于一个靶基因组区域。在一些实施方案中，引物是七聚体。在其他实施方案中，向扩增步骤添加酶如引发酶或引发酶/聚合酶组合酶以合成引物。

在一些实施方案中，阵列可用于检测本发明的核酸。阵列包含固体支持物，其中核酸探针附着于支持物。阵列通常包含多个不同的核酸探针，其在不同的已知位置结合于基质表面。这些阵列，也称为“微阵列”或通俗的“芯片”，在本领域中已有描述，例如，美国专利5143854号、5445934号、5744305号、5677195号、6040193号、5424186号和Fodor等人，1991年，这些专利的全部内容通过引用并入本文用于所有目的。使用机械合成方法合成这些阵列的技术在例如美国专利5384261中有所描述，该专利通过引用整体并入本文用于所有目的。尽管在一些方面使用平面阵列表面，但是阵列可以制造在几乎任意形状的表面或甚至多个表面上。阵列可以是在珠、凝胶、聚合物表面、纤维如光纤、玻璃或任意其他合适的基底上的核酸，参见美国专利5770358号、5789162号、5708153号、6040193号和5800992号，这些专利的全部内容通过引用并入本文用于所有目的。

除了使用阵列和微阵列之外，预期可以使用许多不同的分析方法来分析核酸。这些检测包括但不限于核酸扩增、聚合酶链反应、定量PCR、RT-PCR、原位杂交、数字PCR、ddPCR(数字液滴PCR)、nCounter(nanoString)、BEAMing(珠、乳剂、扩增和磁性)(Inostics)、ARMS(扩增难突变系统)、RNA-测序、TAM-Seg(标记扩增子深度测序)、PAP(焦磷裂解活化聚合)、下一代RNA测序、北方杂交、杂交保护试验(HPA)(GenProbe)、支链DNA(bDNA)试验(Chiron)、滚环扩增(RCA)、单分子杂交检测(US Genomics)、Invader试验(ThirdWave Technologies)和/或Bridge Litigation试验(Genaco)。

扩增引物或杂交探针可被制备成与本文所述的基因组区域、生物标记、探针或寡聚物互补。本文所用的术语“引物”或“探针”意在包括能够在模板依赖性过程中引发新生核酸的合成和/或与本公开的寡聚物或其部分的单链配对的任意核酸。通常，引物是长度为十个到二十个和/或三十个核酸的寡核苷酸，但是也可以使用长于三十个核酸的序列。引物可以双链和/或单链形式提供，尽管单链形式是优选的。

使用长度为13个和100个核苷酸，特别是长度为17个和100个核苷酸，或者在一些方面长度高达1千个至2千个碱基或更长的探针或引物，允许形成既稳定又有选择性的双链分子。在长度大于20个碱基的连续片段上具有互补序列的分子可用于增加获得的杂交分子的稳定性和/或选择性。人们可以设计用于杂交的核酸分子，其具有一个或多于一个20个至30个核苷酸，或者如果需要甚至更长的互补序列。这种片段可以容易地制备，例如，通过化学方法直接合成该片段，或者通过将选择的序列引入重组载体中用于重组生产。

在一个实施方案中，每个探针/引物包含至少15个核苷酸。例如，每个探针可以包含至少或最多20个、25个、50个、75个、100个、125个、150个、175个、200个、225个、250个、275个、300个、325个、350个、400个或多于400个核苷酸(或其中可衍生的任意范围)。它们可以具有这些长度，并且具有与本文所述基因相同或互补的序列。特别地，每个探针/引物具有相对高的序列复杂性，并且没有任意模糊的残基(未确定的“n”残基)。探针/引物可以在严格或高度严格的条件下与靶基因杂交，包括其RNA转录物。预期探针或引物可具有肌苷或其他设计实现，其适应对特定生物标记的一种以上人类序列的识别。

对于需要高选择性的应用，人们通常需要采用相对非常严格的条件以进行杂化。例如，相对低盐和/或高温条件，例如由约0.02M至约0.10M NaCl在约50℃至约70℃的温度下提供。这种高严格条件几乎不容许探针或引物与模板或靶链之间的错配，并且将特别适合于分离特定基因或检测特定mRNA转录物。通常认为，通过加入越来越多的甲酰胺可以使条件变得更加严格。

在一个实施方案中，定量RT-PCR(如TaqMan，ABI)用于检测和比较样品中核酸的水平或丰度。PCR过程的线性部分中目标DNA的浓度与PCR开始前目标的起始浓度成比例。通过确定已经完成相同循环数并处于其线性范围内的PCR反应中目标DNA的PCR产物的浓度，有可能确定原始DNA混合物中特定目标序列的相对浓度。在PCR反应的线性范围部分，PCR产物的浓度和起始材料中的相对丰度之间的这种直接比例是真实的。曲线平台部分中目标DNA的最终浓度由反应混合物中试剂的可用性决定，与目标DNA的初始浓度无关。因此，当PCR反应处于其曲线的线性部分时，可以对扩增的PCR产物进行取样和定量。此外，可扩增DNA的相对浓度可以归一化为一些独立的标准/对照，其可以基于内部存在的DNA种类或外部引入的DNA种类。特定DNA种类的丰度也可以相对于样品中所有DNA种类的平均丰度来确定。

在一个实施方案中，PCR扩增利用一种或多于一种内部PCR标准。内标可以是细胞中丰富的管家基因，也可以是GAPDH、GUSB和β-2微球蛋白。这些标准物可用于归一化表达水平，以便可以直接比较不同基因产物的表达水平。本领域技术人员知道如何使用内标来归一化表达水平。

一些样品中固有的问题是它们的数量和/或质量可变。如果RT-PCR作为具有内标的相对定量RT-PCR来进行，其中内标是可扩增的DNA片段，其类似于或大于目标DNA片段，并且其中代表内标的DNA的丰度是代表目标核酸区域的DNA的大约5倍至100倍，则可以克服这个问题。

在另一个实施方案中，相对定量RT-PCR使用外标方案。在该方案下，PCR产物在其扩增曲线的线性部分取样。对于每个目标DNA片段来说，可以根据经验确定采样的最佳PCR循环数。此外，从各种样品中分离的核酸可以针对相同浓度的可扩增DNA进行归一化。

核酸阵列可以包含至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、35个、40个、45个、50个、60个、70个、80个、90个、100个、150个、200个、250个或多于250个不同的多核苷酸探针，其可以与不同和/或相同的生物标志物杂交。在单个核酸阵列上可以使用同一基因的多个探针。其他疾病基因的探针也可以包括在核酸阵列中。阵列上的探针密度可以在任意范围内。在一些实施方案中，密度可以为或可以是至少为50探针/cm²、100探针/cm²、200探针/cm²、300探针/cm²、400探针/cm²、500探针/cm²或多于500探针/cm²(或其中可推导出的任意范围)。

具体考虑的是基于芯片的核酸技术，如Hacia等人(1996)和Shoemaker等人(1996)所述的技术。简而言之，这些技术包括快速准确地分析大量基因的定量方法。通过用寡核苷酸标记基因或使用固定的探针阵列，可以采用芯片技术将靶分子分离成高密度阵列，并在杂交的基础上筛选这些分子(也参见Pease等人，1994；和Fodor等人，1991年)。考虑到该技术可以与评估一种或多于一种癌症生物标志物的表达水平有关的诊断、预后和治疗方法结合使用。

某些实施方案可能涉及使用阵列或从阵列生成的数据。数据可能很容易获得。此外，可以准备阵列，以便产生可以在相关性研究中使用的数据。

本公开的方面包括使用逆转录酶(也称为“RNA指导的DNA聚合酶”；EC 2.7.7.49)的RNA分子的逆转录。可用于本发明方法的逆转录酶的实例包括AMV RT、MMLV RT、SuperScript III或SuperScript IV。在一些实施方案中，逆转录酶是SuperScript IV。

IV.临床和诊断应用

本公开的方法可用于出于临床、诊断或研究目的评估核酸(例如，DNA、RNA)。某些实施方案涉及评估包含RNA分子的样品的方法。可以使用所公开的方法和组合物进行分析的示例性RNA分子包括信使RNA(mRNA)、转运RNA(tRNA)、核糖体RNA(rRNA)、长非编码RNA(lncRNA)、短非编码RNA(sncRNA)、微小RNA(miRNA)、小核RNA(snRNA)、小核仁RNA(snoRNA)、小干扰RNA(siRNA)和短发夹RNA(shRNA)。其他方面涉及评估包含DNA分子的样品的方法。该评估可以是特定核苷酸，例如假尿苷或5-羟甲基胞嘧啶的检测或测定。

样品可包括但不限于组织、细胞或来自对象细胞或衍生自对象细胞的生物材料。在一些实施方案中，所述样品包含无细胞DNA。在一些实施方案中，所述样品包括受精卵、受精卵、囊胚或卵裂球。生物样品可以是异质或同质的细胞或组织群体。可以使用本领域已知的任意方法获得生物样品，所述方法可以提供适用于本文所述分析方法的样品。样品可以通过非侵入性方法获得，包括但不限于：刮擦皮肤或子宫颈、擦拭脸颊、收集唾液、收集尿液、收集粪便、收集月经、眼泪或精液。

在一些实施方案中，本公开的方法可用于发现疾病或病症的新生物标志物。在一些实施方案中，本公开的方法可以在来自患者的样品上进行，以提供患者特定疾病或病症的预后。在一些实施方案中，本公开的方法可对来自患者的样品执行，以预测患者对特定治疗的反应。在一些实施方案中，疾病包括癌症。在一些实施方案中，癌症包括卵巢癌、前列腺癌、结肠癌或肺癌。在一些实施方案中，该方法用于通过使用本公开的方法评估无细胞核酸(例如，无细胞RNA)来确定卵巢癌、前列腺癌、结肠癌或肺癌的新生物标志物。在一些实施方案中，本公开的方法可以用于从怀孕女性分离的胎儿RNA。在一些实施方案中，本公开的方法可用于使用从怀孕女性分离的胎儿RNA的产前诊断。

V.检测基因信号

特定的实施方案涉及检测个体中遗传标记的方法。在一些实施方案中，用于检测遗传标记的方法可以包括例如选择性寡核苷酸探针、阵列、等位基因特异性杂交、分子信标、限制性片段长度多态性分析、酶链式反应、活瓣核酸内切酶分析、引物延伸、5’-核酸酶分析、寡核苷酸连接分析、单链构象多态性分析、温度梯度凝胶电泳、变性高效液相色谱、高分辨率解链、DNA错配结合蛋白分析、surveyor核酸酶分析、测序或其组合。检测遗传标记的方法可以包括例如荧光原位杂交、比较基因组杂交、阵列、聚合酶链式反应、测序或其组合。遗传标记的检测可以包括使用特定的方法来检测遗传标记的一个特征，并且另外使用相同的方法或不同的方法来检测遗传标记的不同特征。多种不同的方法可以独立地或组合地用于检测相同的特征或多个特征。

A.单核苷酸多态性(SNP)检测

本公开的具体实施方案涉及检测个体中SNP的方法。例如，可以使用任意已知的检测SNP的一般方法来检测本公开中的特定SNP。这些方法包括但不限于选择性寡核苷酸探针、阵列、等位基因特异性杂交、分子信标、限制性片段长度多态性分析、酶链式反应、活瓣核酸内切酶分析、引物延伸、5’-核酸酶分析、寡核苷酸连接分析、单链构象多态性分析、温度梯度凝胶电泳、变性高效液相色谱、高分辨率熔解、DNA错配结合蛋白分析、surveyor核酸酶分析、测序或其组合。

在本公开的一些实施方案中，用于检测SNP的方法包括对来自个体的核酸材料进行测序和/或使用选择性寡核苷酸探针。对来自个体的核酸物质进行测序可以包括从个体获得基因组DNA形式的核酸物质，例如从RNA逆转录而来的互补DNA或RNA。可以使用任意标准测序技术，包括Sanger测序、链延伸测序、Maxam-Gilbert测序、鸟枪法测序、桥PCR测序、高通量测序方法、下一代测序、RNA测序或其组合。在对来自个体的核酸进行测序后，可以利用任意数据处理软件或技术来确定个体中特定SNP处存在的特定核苷酸。

在一些实施方案中，通过选择性寡核苷酸探针检测特定SNP处的核苷酸。探针可用于来自个体的核酸材料，包括例如基因组DNA、从RNA逆转录而来的互补DNA或RNA。选择性寡核苷酸探针优先结合基于SNP处存在的特定核苷酸的互补链。例如，一种选择性寡核苷酸探针与互补链结合，该互补链在编码链的SNP处具有A核苷酸，但在编码链的SNP处没有G核苷酸，而不同的选择性寡核苷酸探针与互补链结合，该互补链在编码链的SNP处具有G核苷酸，但在编码链的SNP处没有A核苷酸。可以使用类似的方法来设计探针，该探针选择性地结合在SNP处具有C或T核苷酸的编码链，但不是两者都具有。因此，任意确定一种选择性寡核苷酸探针与另一种选择性寡核苷酸探针结合的方法都可以用来确定SNP处存在的核苷酸。

一种使用寡核苷酸探针检测SNP的方法包括以下步骤：通过分光光度计和/或凝胶电泳试验分析核酸材料的质量和测量其数量；将核酸材料加工成反应混合物，该反应混合物具有至少一种选择性寡核苷酸探针、PCR引物和具有进行定量PCR(qPCR)所需组分的混合物，该混合物可包括聚合酶、脱氧核苷酸和用于反应的合适缓冲液；以及在监测反应的同时循环处理过的反应混合物。在该方法的一个实施方案中，用于qPCR的聚合酶将遇到与被扩增的链结合的选择性寡核苷酸探针，并利用核酸内切酶活性降解选择性寡核苷酸探针。降解探针的检测确定了探针是否与扩增的链结合。

确定选择性寡核苷酸探针与特定核苷酸结合的另一种方法包括使用选择性寡核苷酸探针作为PCR引物，其中选择性寡核苷酸探针优先与SNP位置的特定核苷酸结合。在一些实施方案中，探针通常被设计成使得探针的3’末端与SNP配对。因此，如果探针具有与SNP处的特定核苷酸配对的正确互补碱基，则探针将在PCR的扩增步骤中延伸。例如，如果在探针的3’位置有T核苷酸，在SNP位置有A核苷酸，探针将与SNP结合，并在PCR的扩增步骤中延伸。然而，如果使用相同的探针(在3’末端有T)并且在SNP位置有G核苷酸，探针将不会完全结合，并且在PCR的扩增步骤中不会延伸。

在一些实施方案中，SNP位置不在PCR引物的末端，而是位于PCR引物内。PCR引物应该具有足够的长度和同源性，因为PCR引物可以选择性地结合一种变体，例如具有A核苷酸的SNP，但不结合另一种变体，例如具有G核苷酸的SNP。PCR引物也可以被设计成选择性地特异性结合具有G核苷酸的SNP，但不结合具有A、C或T核苷酸的变体。类似地，PCR引物可以被设计成与具有C或T核苷酸的SNP结合，但不是两者都结合，这样就不会分别与具有G、A或T核苷酸或G、A或C核苷酸的变体结合。在具体实施方案中，PCR引物的长度至少为或不超过10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个、75个或多于75个核苷酸，与模板序列具有100％同源性，除了SNP位置不同源的潜在例外。在几轮扩增后，如果PCR引物产生预期的条带大小，可以确定SNP具有A核苷酸而不是G核苷酸。

B.拷贝数变化检测

本公开的特定实施方案涉及检测特定等位基因的拷贝数变异(CNV)的方法。可以利用任意已知的检测CNV的方法来检测CNV。这些方法包括例如荧光原位杂交、比较基因组杂交、阵列、聚合酶链式反应、测序或其组合。在一些实施方案中，使用阵列检测CNV，其中该阵列能够检测miR-362的整个X染色体和/或所有靶标上的CNV。可以使用诸如来自Agilent、Illumina或Affymetrix的阵列平台，或者可以设计定制的阵列。如何使用阵列的一个实例包括包含以下一个或多于一个步骤的方法：以合适的方式从怀疑患有CNV病的个体中，并且至少在某些情况下从不患有CNV病的个体或参照基因组中分离核酸物质；通过片段化处理核酸材料，用例如荧光标记标记核酸，并纯化片段化和标记的核酸材料；将核酸材料与阵列杂交足够的时间，例如至少24小时；杂交后清洗阵列；使用阵列扫描仪扫描该阵列；并使用合适的软件分析该阵列。该软件可用于将来自怀疑患有CNV的个体的核酸物质与已知没有CNV或参照基因组的个体的核酸物质进行比较。

在一些实施方案中，CNV的检测通过聚合酶链式反应(PCR)来实现。PCR引物可用于扩增CNV或其附近的核酸，其中与来自参考基因组的PCR产物相比，具有CNV的个体将产生可测量的更高水平的PCR产物。例如，PCR产物量的检测可以通过定量PCR(qPCR)来测量，或者可以通过凝胶电泳来测量。使用凝胶电泳的定量包括将所得PCR产物与已知大小的核酸标准品一起在琼脂糖凝胶上通电，并测量所得条带的大小和强度。所得条带的大小可以与已知标准进行比较，以确定所得条带的大小在一些实施方案中，CNV的扩增将导致比使用与用于检测CNV的引物相同的引物从没有检测到CNV的参考基因组或个体中扩增的条带更大的条带。CNV扩增产生的条带可能是参考基因组产生的条带或没有检测到CNV的个体产生的条带的近两倍、两倍或两倍以上。在一些实施方案中，可以使用核酸测序来检测CNV。可以使用的测序技术包括但不限于全基因组测序、全外显子组测序和/或靶向测序。

C.DNA测序

在一些实施方案中，可以通过测序来分析DNA。可以通过本领域已知的任意方法制备用于测序的DNA，例如文库制备、杂交捕获、样品质量控制、利用产物的基于连接的文库制备或其组合。可以为任意测序技术制备DNA。可以为任意测序技术制备DNA。在一些实施方案中，可以通过对一个或多于一个高度多态的SNP进行基因分型来产生每个样品的独特遗传读取。在一些实施方案中，可以进行测序，例如76个碱基对、成对末端测序，以覆盖大约70％、75％、80％、85％、90％、95％、99％或高于99％的百分比的目标，覆盖度大于20x、25x、30x、35x、40x、45x、50x或大于50x。在某些实施方案中，可以使用至少一种生物信息学工具，包括VarScan2、任意R包(包括CopywriteR)和/或Annovar，从测序中确定突变、SNPS、INDELS、拷贝数改变(体细胞和/或种系)或其他遗传差异。

D.RNA测序

在一些实施方案中，可以通过测序来分析RNA。可以通过本领域已知的任意方法制备用于测序的RNA，例如聚腺苷酸选择、cDNA合成、链或非链文库制备或其组合。可以为任意类型的RNA测序技术制备RNA，包括链特异性RNA测序。在一些实施方案中，可以进行测序以产生大约10M、15M、20M、25M、30M、35M、40M或多于40M的读取，包括成对的读取。可以进行测序以产生为约50bp、55bp、60bp、65bp、70bp、75bp、80bp、85bp、90bp、95bp、100bp、105bp、110bp、或大于110bp的读取长度。在一些实施方案中，可以将原始测序数据转化为估计的读取计数(RSEM)、每百万映射读取的每千碱基转录物的片段(FPKM)和/或每百万映射读取的每千碱基转录物的读取(RPKM)。在一些实施方案中，一种或多于一种生物信息学工具可用于推断基质含量、免疫浸润和/或肿瘤免疫细胞谱，例如通过使用上四分位数归一化RSEM数据。

E.蛋白基因组学

在一些实施方案中，蛋白质可以通过质谱分析。可以使用本领域已知的任意方法制备用于质谱分析的蛋白质。蛋白质，包括本文包含的任意分离的蛋白质，可以用DTT处理，然后用碘乙酰胺处理。蛋白质可以与至少一种肽酶一起孵育，包括内肽酶、蛋白酶、蛋白酶或任意切割蛋白质的酶。在一些实施方案中，蛋白质与内肽酶、LysC和/或胰蛋白酶一起孵育。蛋白质可以以任意比例与一种或多于一种蛋白质切割酶一起孵育，包括μg酶与μg蛋白的比例约为1∶1000、1∶100、1∶90、1∶80、1∶70、1∶60、1∶50、1∶40、1∶30、1∶20、1∶10、1∶1，或其间的任意范围。在一些实施方案中，切割的蛋白质可以被纯化，例如通过柱纯化。在某些实施方案中，纯化的肽可以速冻和/或干燥，例如在真空下干燥。在一些实施方案中，纯化的肽可以被分级分离，例如通过反相色谱或碱性反相色谱。级分可以组合用于本发明的方法的实践。在一些实施方案中，一个或多于一个级分，包括合并的级分，可进行磷酸肽富集，包括通过亲和层析和/或结合、离子交换层析、化学衍生化、免疫沉淀、共沉淀或其组合进行磷酸肽富集。一种或多于一种级分的全部或一部分，包括合并级分和/或富含磷的级分，可以进行质谱分析。在一些实施方案中，可以使用至少一个相关的生物信息学工具来处理和归一化原始质谱数据。

VI.试剂盒

本公开的某些方面还涉及包含本公开的组合物或实施本文公开的方法的组合物的试剂盒。在一些实施方案中，公开了可用于修饰和/或检测目标RNA中假尿苷的试剂盒。在一些实施方案中，公开了可用于修饰和/或检测目标RNA或DNA中的5-羟甲基胞嘧啶的试剂盒。每个试剂盒还可以包括用于RNA或DNA的纯化、扩增或测序，或用于本文所述的本发明的其他应用的附加组分。

在一些实施方案中，本发明的试剂盒包括含有亚硫酸氢盐的溶液(也称为“亚硫酸氢盐溶液”)。在一些实施方案中，溶液基本上由亚硫酸氢盐组成。可包括在溶液中的亚硫酸氢盐的实例包括亚硫酸氢钠和亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐是亚硫酸氢钠。在一些实施方案中，溶液的pH值为约、至少约、或至多约6.5、6.6、6.7、6.81、6.82、6.83、6.84、6.85、6.86、6.87、6.88、6.89、6.9、6.91、6.92、6.93、6.94、6.95、6.96、6.97、6.98、6.99、7.0、7.01、7.02、7.03、7.04、7.05、7.06、7.07、7.08、7.09、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8.0，或其中可推导出的任意范围或值。在一些实施方案中，溶液具有6.5、6.6、6.7、6.81、6.82、6.83、6.84、6.85、6.86、6.87、6.88、6.89、6.9、6.91、6.92、6.93、6.94、6.95、6.96、6.97、6.98、6.99、7.0、7.01、7.02、7.03、7.04、7.05、7.06、7.07、7.08、7.09、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9或8.0，或其中可推导出的任意范围或值的pH。在一些实施方案中，溶液的pH值约为7.0。在一些实施方案中，溶液的pH值为7.0。在一些实施方案中，溶液的pH值约为6.95。在一些实施方案中，溶液的pH值为6.95。在一些实施方案中，溶液的pH值约为7.05。在一些实施方案中，溶液的pH值为7.05。

在一些实施方案中，按重量(w/w)计算，该溶液具有至少或约10重量％、11重量％、12重量％、13重量％、14重量％、15重量％、16重量％、17重量％、18重量％、19重量％、20重量％、21重量％、22重量％、23重量％、24重量％、25重量％、25.1重量％、25.2重量％、25.3重量％、25.4重量％、25.5重量％、25.6重量％、25.7重量％、25.8重量％、25.9重量％、26重量％、26.1重量％、26.2重量％、26.3重量％、26.4重量％、26.5重量％、26.6重量％、26.7重量％、26.8重量％、26.9重量％或27重量％，或其中可衍生的任意范围或值的亚硫酸氢盐(例如亚硫酸氢钠、亚硫酸氢铵)。在一些实施方案中，亚硫酸氢盐溶液具有至少10重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有至少20重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有至少25重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有约26.4重量％的亚硫酸氢钠。在一些实施方案中，亚硫酸氢盐溶液具有至少10重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐溶液具有至少20重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐溶液具有至少25重量％的亚硫酸氢铵。在一些实施方案中，亚硫酸氢盐溶液具有约26.4重量％的亚硫酸氢铵。

在一些实施方案中，本公开的试剂盒包括使用说明。在一些实施方案中，说明是用于将核酸分子(例如，RNA分子或DNA分子)与包含亚硫酸氢盐的内含溶液一起孵育的说明。该说明可以包括提供修饰核酸分子上所有假尿苷或5-羟甲基胞嘧啶所需条件的说明。这些条件可以包括，例如，pH条件、温度条件、培养时间等。本文公开了修饰假尿苷或5-羟甲基胞嘧啶所必需的条件的例子。在一些实施方案中，说明包含用于将核酸分子孵育持续、至多持续或至少持续12、11、10、9、8、7、6、5或4小时，或其中可推导出的任意范围或值的说明。在一些实施方案中，说明包括用于孵育核酸分子4小时的说明。在一些实施方案中，说明包括用于孵育核酸分子至多30分钟的说明。在一些实施方案中，说明包括用于将核酸分子孵育最多、大约或精确30分钟、25分钟、20分钟、15分钟、10分钟或5分钟，或其中可推导出的任意范围或值的说明。在一些实施方案中，说明包含用于在约65℃至约75℃的温度下孵育核酸分子的说明。在一些实施方案中，说明包含用于在约60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃或80℃的温度或其中可推导出的任意范围或值下孵育核酸分子的说明。在一些实施方案中，说明包含用于在约70℃的温度下孵育核酸分子的说明。在一些实施方案中，说明包含用于在70℃的温度下孵育核酸分子的说明。在一些实施方案中，说明包含用于在至少、约、恰好90℃、91℃、92℃、93℃、94℃、95℃、96℃、97℃、98℃、98.5℃、99℃或其中可推导出的任意范围或值的温度下孵育核酸(例如，DNA)分子的说明。在一些实施方案中，说明包含用于在约98℃的温度下孵育核酸(例如DNA)分子的说明。在一些实施方案中，说明包含用于在98℃的温度下孵育核酸(例如DNA)分子的说明。

在一些实施方案中，试剂盒包括逆转录酶(RT)。在一些实施方案中，RT酶是AMVRT、MMLV RT、SuperScript III或SuperScript IV。在一些实施方案中，逆转录酶是SuperScript IV。

在一些实施方案中，该试剂盒包括多核苷酸激酶。在一些实施方案中，多核苷酸激酶是T4多核苷酸激酶。

该试剂盒可以任选地提供在该过程中有用的其他组分。这些任选成分包括缓冲液、捕获试剂、显色试剂、标签、反应表面、检测工具、对照样品、说明和解释信息。在某些实施方案中，试剂盒包含、至少包含或最多包含1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、100个、500个、1000个或多于1000个探针、引物或引物组、合成分子或抑制剂，或其中可衍生的任意值或范围和组合。

在一些实施方案中，混合物不包含氢醌。在一些实施方案中，试剂盒不包含甲酰胺。

试剂盒可包括可单独包装或放置在容器中的组分，例如管、瓶、小瓶、注射器或其他合适的容器装置。

单个组分也可以以浓缩的量在试剂盒中提供；在一些实施方案中，组分以与其在含有其他组分的溶液中相同的浓度单独提供。组分的浓度可以是1x、2x、5x、10x或20x或高于20x。

在某些方面，一些试剂盒实施方案中包括阴性和/或阳性对照核酸、探针和抑制剂。此外，试剂盒可以包括作为阴性或阳性对照的样品，例如不含假尿苷的核酸可以作为阴性对照，而含有假尿苷的核酸可以作为阳性对照。

特别考虑到，本公开的试剂盒可以在某些实施方案中排除所描述的组件中的任意一个或多于一个。

实施例

包括以下实施例以说明本发明的优选实施方案。本领域技术人员应理解以下实施例中所公开的技术代表本发明人发现的在本发明的实践中发挥良好作用的技术，因此能够认为这些技术构成用于本发明的实践的特定实施方式。然而，根据本公开内容，本领域技术人员应当理解，在不脱离本发明的精神和范围的情况下，可以对所公开的具体实施方案进行许多改变并仍然获得相同或相似的结果。

实施例1——Ψ的亚硫酸氢盐诱导缺失测序(BID-测序)的开发和验证

首先，测试了两种商业亚硫酸氢盐(BS)试剂盒(Zymo和Epigentek)的对合成的5聚体RNA寡核苷酸AGXGA(X＝C或Ψ；SEQ ID NO：1)的常规BS处理。在这两种情况下，在50℃至60℃下，确定了定量的C-至-U的转化，但是没有检测到Ψ转化为Ψ-BS加合物然后用相同的RNA寡聚物重复在RBS-测序中报道的BS条件(加入100mL氢醌和甲酰胺；Khoddami等人，2019)，以检测Ψ-BS加合物产生的效率。尽管MALDI-TOF质谱显示C-至-U的转换是定量的，但Ψ-BS加合物的形成并不稳定，其中在六次重复中观察到不超过30％，这表明RBS-测序中Ψ向Ψ-BS的转换既不稳定也不有效(图1)。

常规亚硫酸氢盐处理和RBS-测序使用的酸性条件(pH约5.1)对于诱导C-至-U的转化至关重要，并且已知会导致大量RNA降解。假设中性pH可抑制C-至-U的转化并促进关键Ψ-BS加合物的形成，并且在亚硫酸氢盐处理后使它稳定。事实上，在中性pH条件下，MALDI-TOF显示Ψ被定量地稳定地转化为Ψ-BS加合物，其中没有观察到C-至-U的转化(图2)。RBS-测序中使用的甲酰胺或氢醌添加剂的添加是不必要的。

然后在中性pH和70℃下用亚硫酸氢盐处理含有一个Ψ的RNA模型寡聚物，并筛选不同的逆转录酶。RT和PCR扩增后，高通量测序结果显示，SuperScript IV(SSIV)RT酶提供了具体在Ψ位点的高缺失率(约96％)，而在未处理的对照“输入”中检测不到缺失信号(＜1％)(图3)。重要的是，在经处理和未处理的文库中，C-至-U的转化率均＜1％。为了检测缺失率对序列环境的依赖性，用携带一个Ψ位点的另一组RNA寡核苷酸构建文库，其中寡核苷酸具有序列AGCUAGUNNΨNNUAGUGAC(N＝A+C+G+U；SEQ ID NO：6)。测序后，256个基序中的231个在Ψ位点表现出超过50％的缺失率(图4A)。为了通过缺失率计算每个Ψ位点的修饰分数，具有序列AGCUAGUNNΨNNUAGUGAC(N＝A+C+G+U；SEQ ID NO：6)或AGCUAGUNNUNNUAGUGAC(N＝A+C+G+U；SEQ ID NO：7)以不同的比例混合以绘制256个基序中每一个的校准曲线，其中一个典型的18S rRNA基序如图4B所示。BID-测序中231个基序上的高突变率，“输入”背景中极低的缺失率，使用含Ψ的寡聚物作为掺入校准探针，以及接近线性的校准曲线，允许灵敏的Ψ检测和Ψ化学计量的精确定量。

为了在生物样品中验证BID-测序，用HeLa总RNA构建了文库，在处理过的文库中所有已知的40个18S rRNA位点被确定具有14％至90％的显著缺失率(图5)。在未经处理的输入对照中，这些位点的缺失率为0.01％至1.3％，其中Ψ1248是唯一的例外，它被证明是m¹acp³Ψ的不同修饰(Babaian，A.等人，2020)。根据校准曲线，计算出这40个Ψ位点的分数为16％至99％。作为比较，18S rRNA中的15个Ψ位点通过RBS-测序检测到可检测的缺失率，但是对于其他Ψ位点，缺失特征接近于零(图5)，证实了通过公开的BID-测序方法显著提高了Ψ检测灵敏度。

接下来，用BID-测序映射HeLa polyA尾RNA中的Ψ。在“输入”和“BS处理”的文库中分析所有缺失信号的A/C/G/U碱基。在“处理过的”样品中(2次重复)，以＞5.0％的缺失率收获了5305个和7101个位点(相对于“输入”文库中的＜0.1％)，其中5037个和6736个缺失分别来自“U”位点(图6A)；然而，在“输入”样品(2次重复)中检测到自然缺失率＞5.0％的极少数位点，表明缺失特征信号主要来源于Ψ。从5027个和6736个ΨmRNA候选位点中，通过去除“输入”中出现的“U”缺失位点和lncRNA中的Ψ位点来选择确信的Ψ位点，以获得1874个mRNAΨ位点(4995个和6686个的重叠，缺失率＞5％)用于下游研究(图6B)。为了进行比较，对已发表的RBS-测序数据集进行了分析，发现由于较低的读取复杂度(由C-至-U转换引起)，许多读取不能被映射到mRNA。对于报道的在HeLa mRNA中确定的缺失率＞1％的322个Ψ位点(RBS-测序)，只有72个Ψ位点高于我们的质量控制临界缺失率＞5％(图6C)，其中14个位点(＞5％缺失)和7个位点(＞10％缺失)分别与BID-测序重叠[1874个位点(＞5％)和425个(＞10％)位点]。HeLa mRNA中的Ψ位点主要分布在3’-UTR和CDS中(图6D至图6F)，类似于CeU-测序揭示的模式(Li，X.等人，2015)。

BID-测序用于对HeLa细胞rRNA中的Ψ进行额外分析。为了确定高度可信的Ψ缺失特征，Ψ检测标准设定如下：(1)在BID-测序文库中缺失率超过5％(缺失计数超过5)；(2)在“输入”文库中的缺失率低于1％；(3)在BID-测序和“输入”文库中总读取覆盖深度都超过20；(4)在任意给定的序列基序中，缺失率是背景的1.5倍以上(定义为从含有0％Ψ的RNA探针中检测到的缺失率)。此外，排除了倾向于假阳性的位点，特别是在已知Ψ位点3’或5’的邻近核苷酸的尿嘧啶位点。

应用所有这些Ψ检测标准，分别在HeLa 18S、28S和5.8 rRNA²²中的所有41个、53个和2个已知Ψ位点被确定，没有任何假阳性；这些已知的Ψ位点在BID-测序中都表现出5％至95％的显著缺失率(图7A)。HeLa 18S rRNA中具有代表性的高度经修饰的Ψ1081位点在原始IGV图中可见(图7B)。值得注意的是，除了一些已知的修饰，如18S rRNA²³处的m¹acp³Ψ₁₂₄₈、28S rRNA处的m³U₄₅₀₀和28S rRNA处有趣的未表征的U₂₁₇₆位点，未处理的“输入”中这些Ψ位点的缺失率＜1％。与BID-测序相比，RBS-测序在18S和28S rRNA中分别检测到12和15个Ψ位点，因为缺失率低，其他已知Ψ位点的缺失率接近于零(图7C)。

为了通过缺失率量化每个Ψ位点的修饰分数，将含有NNΨNN和NNUNN(具有不同的Ψ化学计量)的寡探针混合作为对照，以绘制这些序列背景的校准曲线。232个基序上的高突变率、这些基序背景中的大部分背景低以及BID-测序中近似双曲线的校准曲线使得能够灵敏地检测Ψ以及估计Ψ化学计量。根据校准曲线，计算出HeLa 18S、28S和5.8S rRNA中这些Ψ位点的比例约为20％至100％(图8A和图8B)。BID-测序也应用于HeLa细胞的小RNA(＜200nt)，高度经修饰的Ψ位点在H/ACA盒和C/D盒snoRNA中均得到验证，包括之前由Ψ-测序揭示的snoRNA位点。

优化BID-测序以与低RNA输入兼容，然后基于图9所示的工作流程应用于来自HeLa、HEK293T和A549细胞的10ng至20ng聚腺苷酸尾RNA。除了前面提到的Ψ检测标准之外，还增加了一个Ψ修饰分数截止值，以关注作为置信位点的＞10％Ψ化学计量的mRNA位点。在来自HeLa、HEK293T和A549细胞的mRNA中分别确定了506个、463个和808个置信的Ψ位点(图10A)，这些位点都显示了清晰的内部缺失特征。这些mRNA位点中的大多数显示出10％至30％的修饰分数(图10A)。在三种人类细胞系中确定了135个、147个和104个高度经修饰的mRNA位点(＞50％Ψ分数)(图10A)，其中Ψ分数连续分布从50％一直到接近100％(图10C)。置信的mRNA位点主要分布在CDS和3-UTR中(图10B)，类似于之前使用CeU-测序观察到的分布模式。在元基因分布图中，A549细胞中置信的mRNA位点的实例显示了CDS区域中的积累(图10B)。HeLa和A549细胞常见的GO簇丰富了微管/细胞骨架、核糖体、膜、肌动蛋白结合、ATP结合、蛋白质折叠、mRNA加工等功能(图10D)。请注意，Ψ可以是共有的，也可以是细胞系特有的。在至少一种人类细胞系中发现114个位点为细胞系特异性高度经修饰的Ψ(＞50％Ψ分数)，72个位点为高度经修饰的Ψ，在所有三种细胞系中均可检测(＞10％Ψ分数)(图10E)。

实施例BID-测序方案

试剂：

(1).新制备的亚硫酸氢盐：饱和亚硫酸氢盐(26.4％w/w)将pH值调节至7.0。向270mg亚硫酸钠和34mg亚硫酸氢钠的混合物中加入850μl无RNA酶的水，调节pH，并涡旋混合物以确保固体完全溶解。

(2).3′-NN衔接子：5′rApp-NN NNN CGA TGT AG ATC GGA AGA GCA CAC GTC T-生物素(自制，11.25uM，条形码2)(SEQ ID NO：10)

(3).5′-NN衔接子：5′-GU UCA GAG UUC UAC AGU CCG ACG AUC NNN NN(自制，11.25uM)(SEQ ID NO：11)

(4).NEB小RNA文库试剂盒

(5).NEB T4 PNK(M0201S)

步骤：

1.碱性水解-取出RNA并加水至36μl，然后加入4μl 1M NaHCO₃pH＝9.2，并在预热的PCR中于95℃孵育8分钟。

2.将pH值调节至7.6-添加1μl 3M NaOAc将pH值调节至7.6。

3. 3’-修复和5’-磷酸化-加入5μl T4 PNK缓冲液和1μl T4 PNK并在37℃孵育30分钟，然后加入5μl ATP和0.5μl T4 PNK并在37℃孵育1小时，随后通过在65℃加热20分钟使T4 PNK失活。

4.RCC清洁/OCC清洁-通过用7.5μl的RCC洗脱来纯化样品。用纳米滴测量浓度。用OCC纯化11-12样品，用7.5μl洗脱。用纳米滴测量浓度。

5. 3’-连接-取6μl约100ng RNA并加入1μl 3’-衔接子，在70℃下孵育2分钟并立即将其置于冰上，然后加入10μl缓冲液和3μl 3’-RNA连接酶并在16℃下孵育16小时。

6.RT引物退火-加入4.5μl水和1μl RT引物，在70℃孵育5分钟，在37℃孵育15分钟，然后在25℃孵育15分钟。(12μl)

7. 5’-连接-在70℃孵育5’衔接子2分钟，并转移到冰上。向样品中加入1μl 11.25μM 5’衔接子、1μl 5’连接反应缓冲液和2.5μl 5’连接酶混合物。在25℃下孵育过夜。用OCC纯化，用10μl水洗脱。

8.亚硫酸氢盐(BS)处理-取2μl+10.5μl水，使用SSIV作为输入文库进行RT。取出2x2.5μl+22μl新鲜制备的BS试剂，在70℃下孵育4小时。然后加入25μl 1.5M Tris 8.8，在37℃下孵育1小时，随后通过旋转柱和OCC纯化，用14μl水洗脱。

9.逆转录(RT)反应-对于BS处理和输入文库：在65℃变性和退火5分钟，放入冰中1分钟。准备酶混合物：1μl 10mM dNTP+1μl 0.1M DTT，0.5μl RNaseOut，4μl 5xbuffer和1μlRT酶。将7.5μl酶混合物添加到12.5μl变性样品中，总共20μl，在50℃下孵育10分钟，然后在80℃下孵育10分钟。

10.qPCR-使用1μl cDNA。加入10μl 2x qPCR混合物、1μl SR引物、1μl混合引物和7μl水。运行以下方案：

11.PCR扩增和凝胶大小选择-使用10μl cDNA进行PCR和0.625μl索引引物(见下表)。向每个样品中添加14.38μl PCR混合物，并按照以下方案运行：

PCR混合物：

12.运行2％琼脂糖凝胶以纯化文库。

BID-测序方法的Ψ处理条件的其他示例：

向270mg亚硫酸钠和34mg亚硫酸氢钠的混合物中加入850μl无RNA酶的水，将pH调节至6.8至7.2(例如，约7.0)，并涡旋混合物以确保固体完全溶解。

向5μl无RNA酶的水中的RNA加入45μl新鲜制备的反应试剂，将混合物涡旋并旋转，然后在70℃下孵育3小时，接着脱磺化。

实施例2-5hmC谱分析

5hmC修饰的基因座可以作为多种人类癌症和其他复杂疾病的信息生物标志物。现有的研究5hmC修饰位点的方法包括“5hmC-Seal”，化学标记和下拉方法，将含有5hmC的片段富集200倍，然后进行下一代测序(NGS)。5hmC-Seal在应用于cfDNA以寻找疾病生物标志物时受到几个限制：(1)5hmC的化学标记在C5位置引入了大的基团，这可以部分阻断DNA聚合酶通过5hmC位点的读取。(2)5hmC-Seal使用叠氮葡萄糖和生物素化点击反应等昂贵的试剂。鉴于需要对数百名患者的样品进行测序，试剂的较高成本可能会令人望而却步。(3)5hmC-Seal包括引入用于富集的生物素柄的两个步骤(引入叠氮基-葡萄糖的酶反应和引入生物素的点击反应)，并且这两个步骤都需要纯化步骤，因此每个文库构建可能需要更多的实际操作和更多的起始cfDNA。因此，非常需要能够克服上述缺点的更实用的5hmC谱分析方法。

以前，5hmC抗体已经用于5hmC富集，其优点是抗体可以可逆地从5hmC上去除，因此DNA聚合酶可以有效地读取全部的未修饰的5hmC。而5hmC抗体只能针对C为5hmC提供10倍至20倍的富集，这可能因非特异性结合而导致高背景和假阳性。

据报道，在常规(即，酸性，如pH＜6.5，例如pH 5.1)BS条件下，5hmC可转化为5-亚甲基磺酸胞嘧啶(CMS)，就富集效率而言，抗CMS抗体表现得比5hmC抗体好得多(Huang，Y.等人，2012和Pastor，W.A.等人，2011)。5hmC转化为CMS后，抗CMS抗体以200倍富集浓缩CMS。因此，使用抗CMS抗体的5hmC谱分析优于使用抗5hmC抗体的谱分析。然而，该方法的一个注意事项是，常规BS也将所有胞嘧啶转化为尿嘧啶，因此降低了读取的复杂性，并导致映射问题。此外，酸性条件下的常规BS处理会导致严重的DNA降解。由于用于BID-测序的非常规BS(ncBS)条件不会导致C-至-U突变，因此假设DNA中的5hmC在ncBS条件下可以定量转化为相应的CMS。

为了测试该假设，对合成的DNA的5聚体寡GAXAG(X＝5hmC)进行处理，以筛选不同的BS配方和条件，并使用Maldi TOF MS监测反应。发现在ncBS条件下(例如，pH为6.8至7.2)的处理可以在98℃下在3分钟内将5hmC定量转化为CMS(图11B)。在这些条件下，在10分钟内没有观察到DNA寡聚物中的胞嘧啶与BS之间的反应(图12A至图12C)。还测试了含有相应T和5mC的其他寡聚物，发现它们都没有显示出与BS的任意反应，表明在公开的条件下BS与5hmC的反应是高效和特异的。

然后使用APOBEC辅助的Sanger测序策略来测量含有一个5hmC修饰的82聚体DNA寡聚物中5hmC向CMS的转化率。由于在直接Sanger测序中5hmC和CMS都读取为C，所以直接Sanger测序不能区分CMS和5hmC。然而，发现APOBEC处理可以部分脱氨基5hmC，因此5hmC将被读取为C和T的混合物，而CMS完全抵抗APOBEC处理后的脱氨基，因此它将仅被读取为C(图13A)。通过测试反应温度和时间的不同组合，发现较长的反应时间或较高的温度将增加5hmC向CMS的转化率。在ncBS条件下在98℃下，发现在5hmC位点处理9分钟后没有T信号，表明5hmC在9分钟内定量转化为CMS。相比之下，常规的BS处理需要在98℃下处理10分钟，然后在64℃下处理2.5小时(图13B)。

接下来，将公开的ncBS条件引起的DNA损伤与可商购获得的Zymo试剂盒进行比较。为此，使用164聚体DNA寡聚物，并用公开的BS配方以不同的时间和温度处理，然后进行PAGE凝胶电泳以评估DNA损伤。发现使用公开的ncBS配方和条件的所有BS处理没有产生DNA降解，而当在Zymo商业试剂盒中建议的条件下用BS试剂处理相同量的DNA时，观察到明显的DNA降解(图14A)。还进行了qPCR测定，其中用公开的BS试剂或来自Zymo试剂盒的BS试剂处理相同量的DNA。qPCR结果显示，所公开的BS条件的Ct值非常类似于未处理的样品，而用Zymo试剂盒处理的样品的Ct值多给出了一个周期，进一步证实了所公开的BS条件引起较少的DNA损伤(图14B)。

为了确定能够有效通读CMS的聚合酶，使用含有CMS位点的82聚体DNA寡聚物来筛选所有的商业DNA聚合酶，并且确定出NEB LongAmp DNA聚合酶能够有效通读CMS。如图15A所示，NEB LongAmp DNA聚合酶能够以类似于5hmC和5mC的非常高的效率通读CMS，从而产生比使用Roche DNA聚合酶多得多的产物(图15A)。qPCR结果也得到了类似的结果(图18B)。对于含有CMS位点的相同量的DNA，使用NEB LongAmp taq DNA聚合酶的Ct值比使用Roche DNA聚合酶的Ct值少4个循环。

在建立了有效的BS处理配方和条件，并确定了能够有效通读CMS的DNA聚合酶后，接下来优化了抗CMS抗体与CMS结合后的洗涤条件。为了尽可能去除非特异性结合以降低背景并提高富集效率，需要更高的盐洗涤步骤。下拉后，将珠等分成五份，用含有150mM至550mM不同NaCl浓度的缓冲液洗涤每份。洗涤后，将珠加热至98℃以从抗体中释放DNA，并使用qPCR测定来评估回收的DNA量。发现在所有情况下，在CMS的情况下，Ct值保持22个循环，表明抗CMS抗体非常紧密地结合CMS，并且即使在550mM盐浓度下也能经受非常严格的洗涤(图16B)，并且改变洗涤缓冲液中的盐浓度对映射比例只有最小的影响(图16C)。相比之下，当使用相同量的含有5hmC(未经BS处理转化为CMS)和抗CMS抗体的DNA进行相同的实验时，发现Ct值为26至27，并且当使用更高的盐浓度时变得更大，这表明抗CMS抗体与5hmC的结合比抗CMS抗体与CMS的结合弱得多，因此不能承受更严格的洗涤条件(图16A)。

然后，本发明人试图从少量起始DNA(50ng mES gDNA)开始构建文库，以平行比较hMeDIP、5hmC-Seal和公开的ncBS/抗CMS抗体(“抗CMS”)方法。图17显示了三种方法的工作流程。然后，通过高通量测序评估映射比和PCR重复率。为了进行这种比较，将每个文库的测序数据随机二次取样成等量(5M读取)。与hMeDIP方法的75％的映射比相比，抗-CMS和5hmC-Seal产生了大约85％的映射比。抗CMS方法的映射比(约70％)不寻常地高于5hmC-Seal的30％和hMeDIP方法的10％(图18)。CMS文库的插入片段与输入文库相似，表明新的BS处理没有引起明显的DNA降解(图19)。与使用常规BS条件的原始CMS方法相比，所公开的新CMS文库比从Huang等人提取的数据显示出更高的映射比(PLoS ONE.5：e8888，(2010)，通过引用将其全部内容并入本文)，因为它们的BS处理产生了较低的复杂性(图20A)。更重要的是，新的CMS方法也显示了更高的效率。TSS(转录起始位点)附近的富集信号显示出相同的分布模式，但比Huang等人的原始CMS方法中的信号更高(图20B)。

还计算了hMeDIP和5hmC-Seal文库在TSS附近的富集信号。通过比较，发现抗CMS富集略好于5hmC-Seal方法，但远好于hMeDIP方法(图21)。主成分分析(PCA)表明不同的下拉方法有利于不同的5hmC谱(图22)。为了研究抗CMS和5hmC-Seal之间的差异，比较了两种方法中每个匹配峰的富集分数(图22)。高富集峰(5hmC富集区)在抗CMS文库中显示较高的富集分数，而低丰度峰(5hmC稀疏区)在5hmC-Seal文库中显示较高的富集分数。基于对一些代表性区域中的读取覆盖的分析(图23A至图23D)，所公开的新CMS方法富集了在5hmC分布中更密集的区域，而5hmC-Seal方法富集了在5hmC分布中更稀疏的峰。

受到从50ng rES gDNA开始的良好结果的鼓舞，接下来将该方法应用于无细胞DNA(cfDNA)。循环cfDNA中的5-羟甲基胞嘧啶标记可用作癌症和一些其他疾病的诊断生物标志物。对于cfDNA来说，从每个患者身上获取大量的cfDNA是具有挑战性的，但10ng通常是可行的。因此，本发明人试图使用来自健康人和癌症患者的10ng cfDNA构建NGS测序文库，以比较hMeDIP、5hmC-Seal和新的抗CMS方法的文库质量。新CMS和5hmC-Seal方法中独特读取的分数都高于hMeDIP方法，并且新CMS方法在重复之间更一致(图24)。所有文库中插入片段的大小显示相似的模式，这与血浆中的cfDNA片段长度一致(图25)。使用从cfDNA样品中检测到的所有峰的PCA显示，新的CMS方法比5hmC-Seal和hMeDIP方法更稳定(图26)。此外，5hmC峰沿基因体的分布(元基因分布图)也可用作评估hMeDIP、5hmC-Seal和公开的新CMS方法的富集效率的方法。新的CMS方法与5hmC-Seal方法更加一致，而hMeDIP信号噪音很大(图27)。对于新的CMS方法，为2种cfDNA样品建立了2个技术重复文库，一种来自健康血浆供体(CMS#1和CMS#2)，另一种来自癌症患者(CMS#3和CMS#4)。所有技术复制都高度一致(图27)。同时，新的CMS方法可以显示健康和癌症样品之间的差异。与5hmC-Seal类似，新的CMS方法可以捕获转录起始位点附近的5hmC谷(图28)。出乎意料地是，CMS方法可以在转录末端位点(TES)附近检测到5hmC峰，而5hmC-Seal文库中只有一个在TES附近显示富集(图29)。通过比较峰强度的倍数变化，发现新的CMS方法可以捕获人类基因组中超过5000个显著的富集区域(图30)。这为识别潜在的生物标志物提供了更大的机会。与其他方法相比，新的CMS方法产生了一些特定的峰，表明富集效率更高(图31A至图31B)。

实施例CMS方法的5hmC处理条件：

将400μl量的水加入到400mg一水合亚硫酸铵中，制备50％的亚硫酸铵。然后，将450μl这种50％的亚硫酸铵溶液与40μl 70％的亚硫酸氢铵混合，将溶液的pH调节至6.8至7.2，涡旋混合。

将45μl新鲜制备的试剂加入到溶于5μl无RNA酶的样品DNA中，加入无RNA酶的水，涡旋混合，然后在98℃下孵育10分钟，接着脱磺化。

实施例3-含有hm⁵C的RNA片段的富集

如实施例2所述，用非常规亚硫酸氢盐条件处理其中一部分含有羟甲基胞嘧啶(hm⁵C)的RNA片段样品，将hm⁵C转化为CMS。含有CMS的经修饰的RNA片段与抗CMS抗体一起孵育，从混合物中纯化，并进行逆转录以产生cDNA。对cDNA进行下一代测序，以确定原始样品中每个hm⁵C的位置。

＊＊＊

根据本公开，可以在不进行过度实验的情况下制造和执行本申请公开和要求保护的所有方法。尽管本发明的组合物和方法已经就特定的实施方案进行了描述，但对于本领域技术人员来说明显的是，在不偏离本发明的概念、精神和范围的情况下，可以将变化应用于本文所述的方法以及方法的步骤或步骤的顺序中。更具体地，明显的是，化学和生理两方面都相关的特定试剂可以替代本文所描述的试剂，同时会实现相同或相似的结果。所有对本领域技术人员明显的这类相似的替代和改变都被视为在如由所附权利要求限定的本发明的精神、范围和概念内。

参考文献

以下参考文献在一定程度上提供示例性程序或对本文所陈述细节的其他补充细节，它们通过引用明确地并入本文。

¹Khoddami，V et al.Transcriptome-wide profiling of multiple RNAmodifications simultaneously at single-base resolution.Proc.Natl.Acad.Sci.U.S.A.116，6784-6789(2019).

²Li，X.et al.Chemical pulldown reveals dynamic pseudouridylation ofthe mammalian transcriptome.Nat.Chem.Biol.11，592-7(2015).

³Rintala-Dempsey，A.C&Kothe，U.Eukaryotic stand-alone pseudouridinesynthases-RNA modifying enzymes and emerging regulators of gene expression？RNA Biology 14，1185-1196(2017).

⁴Hamma，T.&Ferré-D’Amaré，A.R.Pseudouridine synthases.Chemistry andBiology 13，1125-1135(2006).

⁵Penzo，M.，Guerrieri，A.N.，Zacchini，F.，Treré，D.&Montanaro，L.RNApseudouridylation in physiology and medicine：For better and for worse.Genes(Basel)8，(2017).

⁶Grozdanov PN，Fernandez-Fuentes N，Fiser A，Meier UT.Pathogenic NAP57mutations decrease ribonucleoprotein assembly in dyskeratosis congenita.HumMol Genet.2009；18(23)：4546-51.PMID：19734544；PMCID：PMC2773269.

⁷Heiss，N.S.et al.X-linked dyskeratosis congenita is caused bymutations in a highly conserved gene with putative nucleolarfunctions.Nat.Genet.19，32-38(1998).

⁸Hee Lee，S.，Kim，I.&Chul Chung，B.Increased urinary level of oxidizednucleosides in patients with mild-to-moderate Alzheimer’sdisease.Clin.Biochem.40，936-938(2007).

⁹Safra，M.，Nir，R.，Farouq，D.，Slutzkin，I.V.&Schwartz，S.TRUB1 is thepredominant pseudouridine synthase acting on mammalian mRNA via a predictableand conserved code.Genome Res.27，393-406(2017).

¹⁰Jambhekar，A.&Derisi，J.L.Cis-acting determinants of asymmetric，cytoplasmic RNA transport.RNA 13，625-642(2007).

¹¹Kudla，G，Murray，A.W.，Tollervey，D.&Plotkin，J.B.Coding-sequencedeterminants of expression in escherichia coli.Scienc.324，255-258(2009).

¹²Somogyi，P.，Jenner，A.J.，Brierley，I.&Inglis，S.C.Ribosomal pausingduring translation of an RNA pseudoknot.Mol.Cell.Biol.13，6931-6940(1993).

¹³Shah，P.，Ding，Y.，Niemczyk，M.，Kudla，G.&Plotkin，J.B.Rate-limiting stepsin yeast protein translation.Cell 153，1589-1601(2013).

¹⁴Tan，X.et al.Tiling genomes of pathogenic viruses identifies potentantiviral shRNAs and reveals a role for secondary structure in shRNA efficacy.Proc.Natl.Acad.Sci.U.S.A.109，869-874(2012).

¹⁵Bakin，A.&Ofengand，J.Four newly located pseudouridylate residues inEscherichia coli 23S ribosomal RNA are all at the peptidyltransferase center：analysis by the application of a new sequencing technique.Biochemistry 32，9754-9762(1993).

¹⁶Schwartz，S.et al.Transcriptome-wide mapping reveals widespreaddynamic-regulated pseudouridylation of ncRNA and mRNA.Cell 159，148-162(2014).

¹⁷Carlile，T.M.et al.Pseudouridine profiling reveals regulated mRNApseudouridylation in yeast and human cells.Nature 515，143-146(2014).

¹⁸Hayatsu，H.，Wataya，Y.，Kai，K.&Iida，S.Reaction of sodium bisulfite withuracil，cytosine，and their derivatives.Biochemistry 9，2858-2865(1970).

¹⁹Babaian，A.et al.Loss of m¹acp³Ψribosomal RNA modification is amajor feature of cancer.Cell Rep.31，(2020).

²⁰Huang，Y.et al The anti-CMS technique for genome-wide mapping of 5-hydroxymethylcytosine，Nat Protoc.7，1897-1908(2012).

²¹Pastor，W.A et al.Genome-wide mapping of 5-hydroxymethylcytosine inembryonic stem cells，Nature 473，394-7(2011).

²²Delatte，B.et al.Transcriptome-wide distribution and function of RNAhydroxymethylcytosine，Science 351，282-5(2016)

Claims

1.一种用于修饰假尿苷的方法，其包括在约6.5至约8.0的pH下将包含假尿苷的核糖核酸(RNA)分子与亚硫酸氢盐一起孵育，以产生包含经修饰的假尿苷的经修饰的RNA分子。

2.根据权利要求1所述的方法，其中在约65℃至约75℃的温度下孵育RNA分子。

3.根据权利要求2所述的方法，其中在约70℃的温度下孵育RNA分子。

4.根据权利要求1至3中任一项所述的方法，其中pH为约6.9至约7.1。

5.根据权利要求4所述的方法，其中pH为约7.0。

6.根据权利要求1至5中任一项所述的方法，其中孵育RNA分子2小时至6小时。

7.根据权利要求6所述的方法，其中孵育RNA分子约4小时。

8.根据权利要求1至7中任一项所述的方法，其中将RNA分子与亚硫酸氢盐一起孵育不包括添加氢醌。

9.根据权利要求1在8中任一项所述的方法，其中亚硫酸氢盐为至少10重量％的亚硫酸氢钠。

10.根据权利要求9所述的方法，其中亚硫酸氢盐是至少20重量％的亚硫酸氢钠。

11.根据权利要求9所述的方法，其中亚硫酸氢盐是至少25重量％的亚硫酸氢钠。

12.根据权利要求1至11中任一项所述的方法，其还包括使用逆转录酶对经修饰的RNA分子进行逆转录以产生脱氧核糖核酸(DNA)分子。

13.根据权利要求12所述的方法，其中逆转录酶是SuperScript IV(SSIV)。

14.根据权利要求12或13所述的方法，其还包括对DNA分子进行测序。

15.根据权利要求1至14中任一项所述的方法，其中RNA分子是mRNA分子、tRNA分子、rRNA分子、snRNA分子、miRNA分子或lncRNA分子。

16.根据权利要求1至15中任一项所述的方法，其中RNA分子是多个RNA分子的RNA分子，其中所述方法还包括量化多个RNA分子中假尿苷的数量。

17.根据权利要求1至16中任一项所述的方法，其中RNA分子来自无细胞RNA样品。

18.一种用于修饰5-羟甲基胞嘧啶的方法，其包括在约6.5至约8.0的pH下将包含5-羟甲基胞嘧啶的核糖核酸(RNA)分子与亚硫酸氢盐一起孵育，以产生包含5-亚甲基磺酸胞嘧啶(CMS)的经修饰的RNA分子。

19.根据权利要求18所述的方法，其中在约65℃至约75℃的温度下孵育RNA分子。

20.根据权利要求19所述的方法，其中在约70℃的温度下孵育RNA分子。

21.根据权利要求18所述的方法，其中在至少约95℃的温度下孵育RNA分子。

22.根据权利要求21所述的方法，其中在约98℃的温度下孵育RNA分子。

23.根据权利要求18至22中任一项所述的方法，其中pH为约6.9至约7.1。

24.根据权利要求23所述的方法，其中pH为约7.0。

25.根据权利要求18至24中任一项所述的方法，其中孵育RNA分子1小时至6小时。

26.根据权利要求25所述的方法，其中孵育RNA分子约1小时。

27.根据权利要求18至24中任一项所述的方法，其中孵育RNA分子少于30分钟。

28.根据权利要求27所述的方法，其中孵育RNA分子少于15分钟。

29.根据权利要求18至28中任一项所述的方法，其中将RNA分子与亚硫酸氢盐一起孵育不包括添加氢醌。

30.根据权利要求18至29中任一项所述的方法，其中亚硫酸氢盐为至少10重量％的亚硫酸氢钠。

31.根据权利要求30的方法，其中亚硫酸氢盐是至少20重量％的亚硫酸氢钠。

32.根据权利要求30所述的方法，其中亚硫酸氢盐是至少25重量％的亚硫酸氢钠。

33.根据权利要求18至32中任一项所述的方法，其中RNA分子是mRNA分子、tRNA分子、rRNA分子、snRNA分子、miRNA分子或lncRNA分子。

34.根据权利要求18至33中任一项的所述方法，其还包括检测经修饰的RNA分子中的CMS。

35.根据权利要求34所述的方法，其中检测CMS包括将经修饰的RNA分子与抗CMS抗体接触。

36.根据权利要求18至35中任一项所述的方法，其还包括使用逆转录酶对经修饰的RNA分子进行逆转录以产生脱氧核糖核酸(DNA)分子。

37.根据权利要求36所述的方法，其中逆转录酶是SuperScript IV。

38.根据权利要求36或37所述的方法，其还包括对DNA分子进行测序。

39.根据权利要求18至38中任一项所述的方法，其中RNA分子来自无细胞RNA样品。

40.一种用于修饰5-羟甲基胞嘧啶的方法，其包括在6.5至8.0的pH下将包含5-羟甲基胞嘧啶的脱氧核糖核酸(DNA)分子与亚硫酸氢盐一起孵育，以产生包含5-亚甲基磺酸胞嘧啶(CMS)的核酸分子。

41.根据权利要求40所述的方法，其中在约65℃至约75℃的温度下孵育DNA分子。

42.根据权利要求41所述的方法，其中在约70℃的温度下孵育DNA分子。

43.根据权利要求40所述的方法，其中在至少约95℃的温度下孵育DNA分子。

44.根据权利要求43所述的方法，其中在约98℃的温度下孵育DNA分子。

45.根据权利要求40至44中任一项所述的方法，其中pH为约6.9至约7.1。

46.根据权利要求45所述的方法，其中pH为约7.0。

47.根据权利要求40至46中任一项所述的方法，其中孵育DNA分子1小时至4小时。

48.根据权利要求47所述的方法，其中孵育DNA分子约4小时。

49.根据权利要求40至46中任一项所述的方法，其中孵育DNA分子少于30分钟。

50.根据权利要求49所述的方法，其中孵育DNA分子少于15分钟。

51.根据权利要求40至49中任一项所述的方法，其中将DNA分子与亚硫酸氢盐一起孵育不包括添加氢醌。

52.根据权利要求40在51中任一项所述的方法，其中亚硫酸氢盐为至少10重量％的亚硫酸氢钠。

53.根据权利要求52所述的方法，其中亚硫酸氢盐是至少20重量％的亚硫酸氢钠。

54.根据权利要求52所述的方法，其中亚硫酸氢盐是至少25重量％的亚硫酸氢钠。

55.根据权利要求40至51中任一项所述的方法，其中亚硫酸氢盐是亚硫酸氢铵。

56.根据权利要求55所述的方法，其中所述亚硫酸氢盐是至少20％的亚硫酸氢铵。

57.根据权利要求40至54中任一项所述的方法，其中DNA分子是基因组DNA。

58.根据权利要求40至57中任一项所述的方法，其还包括检测经修饰的DNA分子中的CMS。

59.根据权利要求58所述的方法，其中检测DNA包括将经修饰的DNA分子与抗CMS抗体接触。

60.根据权利要求58或59所述的方法，其还包括对经修饰的DNA分子进行测序。

61.根据权利要求40至60中任一项所述的方法，其中DNA分子来自无细胞DNA样品。

62.一种用于修饰样品中多个假尿苷的方法，所述方法包括：

(a)产生pH为6.5至8.0的混合物，所述混合物包含(i)包含多个假尿苷的多个RNA分子和(ii)亚硫酸氢盐；和

(b)在足以产生包含多个经修饰的假尿苷的多个经修饰的RNA分子的条件下孵育混合物。

63.根据权利要求62所述的方法，其中在65℃至75℃的温度下孵育混合物。

64.根据权利要求63所述的方法，其中在约70℃的温度下孵育混合物。

65.根据权利要求62至64中任一项所述的方法，其中混合物的pH为约6.9至约7.1。

66.根据权利要求65所述的方法，其中混合物的pH为约7.0。

67.根据权利要求62至65中任一项所述的方法，其中孵育混合物1小时至6小时。

68.根据权利要求67所述的方法，其中孵育混合物约4小时。

69.根据权利要求62至68中任一项所述的方法，其中混合物不包含氢醌。

70.根据权利要求62至69中任一项所述的方法，其中亚硫酸氢盐为至少10重量％的亚硫酸氢钠。

71.根据权利要求70所述的方法，其中亚硫酸氢盐是至少20重量％的亚硫酸氢钠。

72.根据权利要求70所述的方法，其中亚硫酸氢盐是至少25重量％的亚硫酸氢钠。

73.根据权利要求62至72中任一项所述的方法，其中多个RNA分子得自生物样品。

74.根据权利要求73所述的方法，其中生物样品具有少于50ng的RNA。

75.根据权利要求73或74所述的方法，其中生物样品是无细胞RNA样品。

76.根据权利要求62至75中任一项所述的方法，其中多个RNA分子包括mRNA分子、tRNA分子、rRNA分子、snRNA分子、miRNA分子、lncRNA分子或其组合。

77.根据权利要求62至76中任一项所述的方法，其还包括(c)使用逆转录酶使多个经修饰的RNA分子经逆转录反应产生多个DNA分子。

78.根据权利要求77所述的方法，其中逆转录酶是SuperScript IV。

79.根据权利要求77或78所述的方法，其还包括对多个DNA分子进行测序。

80.根据权利要求62到79中任一项所述的方法，其还包括量化多个RNA分子中的假尿苷的数量。

81.根据权利要求62至80中任一项所述的方法，其还包括通过确定多个DNA分子中的缺失位置来确定多个假尿苷的每个假尿苷在多个RNA分子的每个RNA分子上的位置。

82.一种用于修饰样品中多个5-羟甲基胞嘧啶的方法，所述方法包括：

(a)产生pH为6.5至8.0的混合物，所述混合物包含(i)包含多个5-羟甲基胞嘧啶的多个DNA分子和(ii)亚硫酸氢盐；和

(b)在足以产生包含多个5-亚甲基磺酸胞嘧啶(CMS)的多个经修饰的DNA分子的条件下孵育混合物。

83.根据权利要求82所述的方法，其中多个5-羟甲基胞嘧啶得自生物样品。

84.根据权利要求82所述的方法，其中生物样品具有少于50ng的DNA。

85.根据权利要求83或84所述的方法，其中生物样品是无细胞RNA样品。

86.一种试剂盒，其用于修饰假尿苷或5-羟甲基胞嘧啶，所述试剂盒包括：

(a)pH值为至少约6.5至约8.0的包含亚硫酸氢盐的溶液；和

(b)用溶液孵育核酸分子的说明。

87.根据权利要求86所述的试剂盒，其中溶液的pH为约6.9至约7.1。

88.根据权利要求87所述的试剂盒，其中溶液的pH为约7。

89.根据权利要求86至88中任一项所述的试剂盒，其中溶液基本上由亚硫酸氢盐组成。

90.根据权利要求86至89中任一项所述的试剂盒，其中溶液是至少10重量％亚硫酸氢钠的亚硫酸氢盐溶液。

91.根据权利要求90所述的试剂盒，其中溶液是至少20重量％亚硫酸氢钠的亚硫酸氢盐溶液。

92.根据权利要求90所述的试剂盒，其中溶液是至少25重量％亚硫酸氢钠的亚硫酸氢盐溶液。

93.根据权利要求86至89中任一项所述的试剂盒，其中亚硫酸氢盐是亚硫酸氢铵。

94.根据权利要求93所述的试剂盒，其中亚硫酸氢盐为至少20％的亚硫酸氢铵。

95.根据权利要求86至92中任一项所述的试剂盒，其还包含一种或多于一种缓冲剂。

96.根据权利要求86至95中任一项所述的试剂盒，其还包含逆转录酶。

97.根据权利要求96所述的试剂盒，其中逆转录酶是SuperScript IV。

98.根据权利要求86至97中任一项所述的试剂盒，其还包含多核苷酸激酶。

99.根据权利要求98所述的试剂盒，其中多核苷酸激酶是T4多核苷酸激酶。

100.根据权利要求86至99中任一项所述的试剂盒，其中说明包含用于在约65℃至约75℃的温度下孵育核酸分子的说明。

101.根据权利要求86至99中任一项所述的试剂盒，其中说明包含用于在约70℃的温度下孵育核酸分子的说明。

102.根据权利要求86至99中任一项所述的试剂盒，其中说明包含用于在至少95℃的温度下孵育核酸分子的说明。

103.根据权利要求86至99中任一项所述的试剂盒，其中说明包含用于在约98℃的温度下孵育核酸分子的说明。

104.根据权利要求86至103中任一项所述的试剂盒，其中说明包含用于孵育核酸分子1小时至6小时的说明。

105.根据权利要求86至103中任一项所述的试剂盒，其中说明包含用于孵育核酸分子4小时的说明。

106.根据权利要求86至103中任一项所述的试剂盒，其中说明包含用于孵育核酸分子少于30分钟的说明。

107.根据权利要求86至103中任一项所述的试剂盒，其中说明包含用于孵育核酸分子少于15分钟的说明。

108.根据权利要求86至107中任一项所述的试剂盒，其中核酸分子是包含假尿苷的RNA分子。

109.根据权利要求108所述的试剂盒，其还包含含有假尿苷的对照RNA分子。

110.根据权利要求86至105中任一项所述的试剂盒，其中核酸分子是包含5-羟甲基胞嘧啶的RNA分子。

111.根据权利要求110所述的试剂盒，其还包含含有5-羟甲基胞嘧啶的对照RNA分子。

112.根据权利要求86至105中任一项所述的试剂盒，其中核酸分子是包含5-羟甲基胞嘧啶的DNA分子。

113.根据权利要求112所述的试剂盒，其还包含含有5-羟甲基胞嘧啶的对照DNA分子。

114.根据权利要求86至113中任一项所述的试剂盒，其中亚硫酸氢钠溶液的pH为约7.0，并且是至少25重量％的亚硫酸氢钠。

115.根据权利要求86至113中任一项所述的试剂盒，其中亚硫酸氢盐溶液的pH为约7.0，并且是至少25％的亚硫酸氢铵。