CN114438080A

CN114438080A - 一种基因诊断探针及其应用

Info

Publication number: CN114438080A
Application number: CN202210185115.7A
Authority: CN
Inventors: 李冰思; 宿静; 邱福俊; 王晨阳; 李晓玲; 张之宏; 汉雨生
Original assignee: Guangzhou Burning Rock Dx Co ltd
Current assignee: Guangzhou Burning Rock Dx Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-06
Also published as: WO2023159817A1

Abstract

本申请涉及一种基因诊断探针及其应用，具体涉及一种核酸分子组合，所述核酸分子组合包含至少一个覆盖一待测核酸的一目标区域的核酸探针组，所述核酸探针组至少包含覆盖目标区域的上下链及其各自互补链的核酸探针。

Description

一种基因诊断探针及其应用

技术领域

本申请涉及生物医药领域，具体的涉及一种基因诊断探针及其应用。

背景技术

DNA甲基化(methylation)是一种表观遗传修饰,它是由DNA甲基转移酶(DNAmethyl-transferase,DNMT)催化S-腺苷甲硫氨酸(S-adenosylmethionine,SAM)作为甲基供体,将DNA的CG两个核苷酸的胞嘧啶被选择性地添加甲基,主要形成5-甲基胞嘧啶(5-mC)(常见于基因的5′-CG-3′序列)和少量的N6-甲基嘌呤(N6-mA)及7-甲基鸟嘌呤(7-mG)结构基因含有很多CpG结构,2CpG和2GPC中两个胞嘧啶的5位碳原子通常被甲基化,且两个甲基集团在DNA双链大沟中呈特定三维结构。

DNA甲基化在基因表达调控中起着重要的作用。异常的DNA甲基化标记在多种疾病发生发展中过程中都被报道过，包括癌症。DNA甲基化测序作为一种高分辨率，高通量的技术，其作用在癌症早期筛查，诊断，以及监控的作用越来越被认识。

全基因组重亚硫酸盐测序(WGBS,Whole Genome Bisulfite Sequencing)是甲基化测序的金标准，但是因为处理过程中对DNA的严重破坏和过高的测序成本，成为临床应用的困难。更重要的是，人类基因组的大部分区域在癌症发生发展过程中并不活跃，癌症相关的变异往往集中在某些特定区域，如CpG岛(CpG island)。CG二核苷酸是最主要的甲基化位点,它在基因组中呈不均匀分布,存在高甲基化、低甲基化和非甲基化的区域,在哺乳动物中mC约占C总量的2-7％。

CpG岛在基因组中大量存在，通过大规模平行核酸测序(也称为“高通量测序”或者“下一代测序”(NGS))可以极大地辅助这些检测和分析，使得通过甲基化信号预测癌症的发生以及发生的部位成为可能。

此外，经过重亚硫酸盐处理之后的DNA片段中未甲基化的胞嘧啶(C)会转化为胸腺嘧啶(T)，降低的C含量导致结合力度更强的胞嘧啶(C)-鸟嘌呤(G)的结合位点变少，同时C含量的减少也使得DNA上碱基的复杂度降低，两者都增加了杂交捕获的难度。

同时，本领域也缺少一种能够直接体现DNA甲基化水平的标准品，用于评估甲基化捕获探针的捕获性能。中国专利公告CN112646888B的实施例3提到了一种利用

Single Cell Kit(Qiagen,Cat#150343)和Mung Bean Nuclease(NEB,Cat#M0250L)处理NA12878 DNA以制备0％甲基化标准品的方法。但这种实际制备的0％甲基化标准品在随后的重亚硫酸盐转化过程中，几乎所有的胞嘧啶(C)都会转化为胸腺嘧啶(T)，使得DNA上碱基的复杂度大大降低，对于捕获带来了很大的困难，因此并不适用于作为一种高准确性衡量甲基化捕获探针性能的标准品。

因此，本领域缺少一种符合捕获性能预期的适用于甲基化DNA靶向测序的捕获探针，以及用于准确衡量探针捕获准确性的标准品。

发明内容

本申请提供了一种高精确度的基因杂交捕获探针，可以对与多种不同癌症相关的甲基化变异区域，尤其是特定甲基化特征区域进行杂交捕获。通过高准确度的甲基化检测探针，能够制备人肿瘤基因检测制剂，从而实现包括但不限于以下这些癌症的早期检测或早期筛查：脑癌、肺癌、皮肤癌、鼻咽癌、咽喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤、卵巢癌、食管癌、胆囊癌、胆道癌、乳腺癌、宫颈癌、子宫癌、前列腺癌、头颈癌、肉瘤、胸腔恶性肿瘤(除肺外)、黑色素瘤、和睾丸癌。

本申请提供了一种核酸分子组合，所述核酸分子组合中的核酸分子对于来源于目标区域的核酸序列的结合自由能与对于来源于非目标区域的核酸序列的结合自由能相差约12或更高。

本申请提供了一种核酸分子组合，所述核酸分子组合包含至少一个覆盖一待测核酸的一目标区域的核酸探针组，其特征在于，所述核酸探针组至少包含：(1)与第一链互补的第一探针，所述第一链为所述目标区域经过碱基替换后的序列；(2)与第二链互补的第二探针，所述第二链为所述目标区域的互补区域经过碱基替换后的序列；(3)与第三链互补的第三探针，所述第三链与所述第一链互补；(4)与第四链互补的第四探针，所述第四链为第二链的互补序列。

本申请提供了一种核酸分子组合，所述核酸分子组合中对于特定甲基化水平，例如20％和/或50％甲基化水平的标准品的检测结果符合以下指标：波动为25％或更低、和/或重复性为9E-05或更低。优选地，所述波动为检测结果最大值与最小值的差值，所述重复性为复孔间甲基化水平均方误差中值。

本申请提供了一种试剂盒，包含本申请的核酸分子组合。

本申请提供了本申请的核酸分子组合和/或本申请的试剂盒在制备人肿瘤基因检测制剂中的应用。

本申请提供了一种检测碱基修饰水平的方法，包含提供本申请的核酸分子组合和/或本申请的试剂盒。

本申请提供了一种储存介质，其记载可以运行本申请的方法的程序。

本申请提供了一种设备，所述设备包含本申请的储存介质。

本申请提供了一种用作碱基修饰程度检测标准品的核酸分子，所述核酸分子包含碱基修饰程度为约0％候选区域，所述候选区域的总长度为约1bp-约10000bp。

本申请提供了本申请的核酸分子中所述候选区域未经碱基修饰处理前的集合，其用作未经碱基修饰处理的标准品的用途。

本申请提供了本申请的核酸分子中所述候选区域全部经碱基修饰处理后的集合，其用作经碱基修饰处理的标准品的用途。

本领域技术人员能够从下文的详细描述中容易地洞察到本申请的其它方面和优势。下文的详细描述中仅显示和描述了本申请的示例性实施方式。如本领域技术人员将认识到的，本申请的内容使得本领域技术人员能够对所公开的具体实施方式进行改动而不脱离本申请所涉及发明的精神和范围。相应地，本申请的附图和说明书中的描述仅仅是示例性的，而非为限制性的。

附图说明

本申请所涉及的发明的具体特征如所附权利要求书所显示。通过参考下文中详细描述的示例性实施方式和附图能够更好地理解本申请所涉及发明的特点和优势。对附图简要说明如下：

图1显示的是本申请“20％的标准品”和“50％的标准品”的甲基化测量结果，以及本申请“零甲基化的标准品”和“全甲基化的标准品”的甲基化测量结果。

图2A-2C显示的是本申请设计的探针的均一性测量结果。

图3显示的是，本申请设计的探针的重复性测量结果。

图4A-4C显示的是本申请设计的探针的偏好性测量结果。

图5显示的是本申请捕获探针设计的示例性参考示意图。

图6显示的是本申请计算甲基化水平的示例性参考示意图。

具体实施方式

以下由特定的具体实施例说明本申请发明的实施方式，熟悉此技术的人士可由本说明书所公开的内容容易地了解本申请发明的其他优点及效果。

术语定义

在本申请中，术语“二代基因测序(NGS)”、高通量测序”或“下一代测序”通常是指第二代高通量测序技术及之后发展的更高通量的测序方法。下一代测序平台包括但不限于已有的Illumina等测序平台。随着测序技术的不断发展，本领域技术人员能够理解的是还可以采用其他方法的测序方法和装置用于本方法。例如，二代基因测序可以具有高灵敏度、通量大、测序深度高、或低成本的优势。根据发展历史、影响力、测序原理和技术不同等，主要有以下几种：大规模平行签名测序(Massively Parallel Signature Sequencing，MPSS)、聚合酶克隆(Polony Sequencing)、454焦磷酸测序(454 pyro sequencing)、Illumina(Solexa)sequencing、离子半导体测序(Ion semi conductor sequencing)、DNA纳米球测序(DNA nano-ball sequencing)、Complete Genomics的DNA纳米阵列与组合探针锚定连接测序法等。所述二代基因测序可以使对一个物种的转录组和基因组进行细致全貌的分析成为可能，所以又被称为深度测序(deep sequencing)。例如，本申请的方法同样可以应用于一代基因测序、二代基因测序、三代基因测序或单分子测序(SMS)。

在本申请中，术语“待测样本”通常是指需要进行检测的样本。例如，可以检测待测样本上的一个或者多个基因区域是否存在有修饰状态。

在本申请中，术语“互补区域”通常是指与参考核苷酸序列相比具有互补的区域。例如，互补核酸可以为任选地具有相反方向的核酸分子。例如，所述互补可以是指具有下面的互补性关联：鸟嘌呤和胞嘧啶；腺嘌呤和胸腺嘧啶；腺嘌呤和尿嘧啶。

在本申请中，术语“修饰状态”通常是指本申请中基因片段、核苷酸或其碱基具有的修饰状态。例如，本申请中的修饰状态可以是指胞嘧啶的修饰状态。例如，本申请的具有修饰状态的基因片段可以具有改变的基因表达活性。例如，本申请的修饰状态可以是指碱基具有的甲基化修饰。例如，本申请的修饰状态可以是指在基因组DNA的CpG区域的胞嘧啶5′碳位共价结合一个甲基基团，例如可以成为5-甲基胞嘧啶(5mC)。例如，修饰状态可以是指DNA序列内存在或不存在5-甲基胞嘧啶(“5-mCyt”)。

在本申请中，术语“甲基化”通常是指本申请中基因片段、核苷酸或其碱基具有的甲基化状态。例如，本申请中基因所在的DNA片段可以在一条链或多条链上具有甲基化。例如，本申请中基因所在的DNA片段可以在一个位点或多个位点上具有甲基化。

在本申请中，术语“转化”通常是指将一种或多种结构转变为另一种结构。例如，本申请的转化可以是具有特异性。例如，不具有甲基化修饰的胞嘧啶经过转化可以变为其它结构(例如尿嘧啶)，且具有甲基化修饰的胞嘧啶经过转化可以基本不发生变化。例如，不具有甲基化修饰的胞嘧啶经过转化可以被剪切，且具有甲基化修饰的胞嘧啶经过转化可以基本不发生变化。

在本申请中，术语“重亚硫酸盐”，或称为“亚硫酸氢盐”通常是指一种可以区分具有修饰状态和不具有修饰状态的DNA区域的试剂。例如，重亚硫酸盐可以包括重亚硫酸盐、或其类似物或上述的组合。例如，重亚硫酸盐可以使未修饰的胞嘧啶的氨基脱氨基化，以使其与修饰的胞嘧啶区分。在本申请中，术语“类似物”通常是指具有类似结构和/或功能的物质。例如重亚硫酸盐的类似物可以与重亚硫酸盐具有类似的结构。例如，重亚硫酸盐的类似物可以是指一种同样可以区分具有修饰状态和不具有修饰状态的DNA区域的试剂。

在本申请中，术语“包含”通常是指包括明确指定的特征，但不排除其他要素。

在本申请中，术语“约”通常是指在指定数值以上或以下0.5％-10％的范围内变动，例如在指定数值以上或以下0.5％、1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、5.5％、6％、6.5％、7％、7.5％、8％、8.5％、9％、9.5％、或10％的范围内变动。

发明详述

一方面，本申请提供一种核酸分子组合，所述核酸分子组合中的核酸分子对于来源于目标区域的核酸序列的结合自由能与对于来源于非目标区域的核酸序列的结合自由能相差大于一特定阈值。例如，所述特定阈值为约12至约50kcal/mol。例如，所述特定阈值为约20至30kcal/mol。例如，所述特定阈值约为20kcal/mol。

例如，本申请的核酸分子组合基于对候选的目标区域的筛选，确定合适的核酸分子。例如，本申请中针对候选的目标区域设计的核酸分子组合，对于来源于目标区域的核酸序列的结合自由能具有更高的结合自由能。例如，相对于来源于非目标区域的核酸序列的结合自由能，本申请针对候选的目标区域设计的核酸分子组合，对于来源于目标区域的核酸序列的结合自由能具有更高的结合自由能。例如，本申请的核酸分子组合中的核酸分子对于来源于目标区域的核酸序列的结合自由能与对于来源于非目标区域的核酸序列的结合自由能相差约12或更高。例如，本申请的核酸分子组合中的核酸分子对于来源于目标区域的核酸序列的结合自由能，高于来源于非目标区域的核酸序列的结合自由能约12kcal/mol、约13kcal/mol、约14kcal/mol、约15kcal/mol、约20kcal/mol、约25kcal/mol、约30kcal/mol、约40kcal/mol、或约50kcal/mol。

一方面，本申请提供一种核酸分子组合，所述核酸分子组合包含至少一个覆盖待测核酸的目标区域的核酸探针组，所述核酸探针组至少包含：(1)与第一链互补的第一探针，所述第一链为所述目标区域经过碱基替换后的序列；(2)与第二链互补的第二探针，所述第二链为所述目标区域的互补区域经过碱基替换后的序列；并且可以包含以下两个探针中的任意一个或可以同时包含以下两个探针中的两个：(3)与第三链互补的第三探针，所述第三链与所述第一链互补；(4)与第四链互补的第四探针，所述第四链为第二链的互补序列。例如，本申请的核酸分子组合针对假设待测核酸为零甲基化的目标区域，对该区域的经过碱基替换后的第一链(目标上链，OT链)，对该区域的互补区域的经过碱基替换后的第二链(目标下链，OB链)，以及对于第一链的互补链(目标上链的互补链，CTOT链)，设计与第三链互补的第三探针；同时根据第二链的互补链(目标下链的互补链，CTOB链)，设计与第四链互补的第四探针。例如，本申请的核酸分子组合用于甲基化检测的捕获探针。例如，二代测序的甲基化检测的捕获探针。

例如，所述经过碱基替换的位点包含胞嘧啶所在的位点。例如，所述碱基替换包含通过化学和/或生物过程取得胞嘧啶替换为胸腺嘧啶或尿嘧啶的核酸序列。例如，所述碱基替换包含取得将所有的胞嘧啶都替换为胸腺嘧啶或尿嘧啶的核酸序列。所述碱基替换可以包含经过重亚硫酸盐转化处理，原始上链和原始下链中未被甲基化修饰的C被转化为尿嘧啶

(U)。由于尿嘧啶(U)与腺嘌呤(A)互补配对，而DNA的PCR扩增中引入的与腺嘌呤(A)配对碱基为胸腺嘧啶(T)，因此所述碱基替换可以包含在进一步的PCR扩增过程中，原始上链和原始下链中的未被甲基化修饰的C被T取代。

例如，本申请的核酸分子组合中，所述核酸探针组还包含：(1)与第五链互补的第五探针，所述第五链为所述目标区域未经过碱基替换的序列；(2)与第六链互补的第六探针，所述第六链为所述目标区域的互补区域未经过碱基替换的序列；(3)与第七链互补的第七探针，所述第七链与所述第五链互补；(4)与第八链互补的第八探针，所述第八链为第六链的互补序列。例如，本申请的核酸分子组合针对假设待测核酸为全甲基化的目标区域，设计另外四个探针。

例如，所述核酸分子组合包含覆盖所述待测核酸的10000个或更多个不同目标区域的核酸探针组。例如，本申请的核酸分子组合针对待测核酸的10000个或更多个、15000个或更多个、20000个或更多个、25000个或更多个、30000个或更多个、40000个或更多个、或50000个或更多个不同目标区域进行设计。

一方面，本申请提供一种核酸分子组合，所述核酸分子组合中对于特定甲基化水平的标准品，例如对于20％和/或50％甲基化水平的甲基化标准品的检测结果符合选自以下组的指标：甲基化水平检测结果波动为25％或更低、和重复性为9E-05或更低。优选地，所述波动为检测结果最大值与最小值的差值，所述重复性为复孔间甲基化水平均方误差中值。例如，甲基化水平检测结果波动用于评估核酸分子组合的准确性。例如，对于20％和/或50％甲基化水平的甲基化标准品，本申请核酸分子组合的检测结果波动为22％或更低、23％或更低、24％或更低、25％或更低、26％或更低、或27％或更低。如，对于20％和/或50％甲基化水平的甲基化标准品，本申请核酸分子组合的两次或更多次重复测量的候选捕获探针组合检测的甲基化水平的均方差为约1.3E-05至约2.7E-04之间，优选为9E-05或更低、更优选为约8E-05或更低、进一步优选为约7E-05或更低。

例如，所述核酸分子组合中的核酸分子的长度为约80至约120个碱基。例如，所述核酸分子组合中的核酸分子的长度为约80个、约90个、约100个、约110个、或约120个碱基。

例如，所述核酸分子组合中的任意两个核酸分子重叠的区域包含约10至约110个碱基。例如，所述核酸分子组合中的任意两个核酸分子重叠的区域包含约10、约20、约50、约70、约80、约90、约100、或约110个碱基。

例如，所述核酸分子组合中的核酸分子所互补的区域不包含与重复区域交叠10个或更多个的连续碱基。例如，重复区域的信息可以记载在本领域已知的内容中，例如repeatmasker.org记载的重复区域(repeats)。

一方面，本申请提供一种核酸分子组合的设计方法，根据来源于目标区域并经过碱基替换的第一链及其互补链，以及来源于目标区域并经过碱基替换的第二链及其互补链，设计能够互补于上述链中的三条或更多条链的所述核酸分子组合。

一方面，本申请提供一种核酸分子组合的设计方法，其包含(1)筛选目标区域，针对候选的目标区域设计的核酸分子组合，对于来源于目标区域的核酸序列的结合自由能具有更高的结合自由能；(2)对候选的目标区域设计4个探针，本申请的核酸分子组合针对假设待测核酸为全甲基化的目标区域，对该区域的经过碱基替换后的第一链及其互补链，对该区域的互补区域的经过碱基替换后的第二链及其互补链，设计4个探针；(3)筛选核酸分子组合，对于特定甲基化水平的标准品，筛选符合选自以下组的指标的核酸分子组合：甲基化水平检测结果波动为25％或更低、和重复性为9E-05或更低。

一方面，本申请提供一种核酸分子组合的设计方法，其包含(1)本申请的针对候选的目标区域设计的核酸分子组合，对于来源于目标区域的核酸序列的结合自由能，高于来源于非目标区域的核酸序列的结合自由能约12或更高；(2)本申请的核酸分子组合针对假设待测核酸为全甲基化的目标区域，对该区域的经过碱基替换后的第一链(Top链)，对该区域的互补区域的经过碱基替换后的第二链(Bottom链)，以及对于第一链的互补链(CTOT链)，设计与第三链互补的第三探针；同时根据第二链的互补链(CTOB链)，设计与第四链互补的第四探针；(3)筛选核酸分子组合，对于特定甲基化水平的标准品，筛选符合选自以下组的指标的核酸分子组合：甲基化水平检测结果波动为25％或更低、和重复性为9E-05或更低。优选地，所述波动为检测结果最大值与最小值的差值，所述重复性为复孔间甲基化水平均方误差中值。

例如，本申请的设计方法，所述核酸分子组合用于甲基化检测的捕获探针。例如，本申请的方法用到的特定甲基化水平的标准品，所述特定甲基化水平标准品通过本申请的方法制备获得。

一方面，本申请提供了本申请的核酸分子组合的设计方法得到的核酸分子组合。例如，所述核酸分子组合用于甲基化检测的捕获探针。

一方面，本申请提供一种试剂盒，包含本申请的核酸分子组合。

一方面，本申请提供本申请的核酸分子组合和/或如本申请的试剂盒在制备人肿瘤基因检测制剂中的应用。例如，所述检测制剂用于检测目标区域的碱基修饰水平。例如，所述碱基修饰包含甲基化修饰。例如，所述人肿瘤来自于同质肿瘤(homogenous tumors)、异质肿瘤、血液癌和/或实体瘤。例如，所述人肿瘤来自于以下组的癌症中的一种或多种：脑癌、肺癌、皮肤癌、鼻咽癌、咽喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤、卵巢癌、食管癌、胆囊癌、胆道癌、乳腺癌、宫颈癌、子宫癌、前列腺癌、头颈癌、肉瘤、胸腔恶性肿瘤(除肺外)、黑色素瘤、睾丸癌。

一方面，本申请提供一种检测碱基修饰水平的方法，包含提供本申请的核酸分子组合和/或本申请的试剂盒。例如，所述碱基修饰包含甲基化修饰。

一方面，本申请提供一种储存介质，其记载可以运行本申请的方法的程序。例如，所述非易失性计算机可读存储介质可以包括软盘、柔性盘、硬盘、固态存储(SSS)(例如固态驱动(SSD))、固态卡(SSC)、固态模块(SSM))、企业级闪存驱动、磁带或任何其他非临时性磁介质等。非易失性计算机可读存储介质还可以包括打孔卡、纸带、光标片(或任何其他具有孔型图案或其他光学可识别标记的物理介质)、压缩盘只读存储器(CD-ROM)、可重写式光盘(CD-RW)、数字通用光盘(DVD)、蓝光光盘(BD)和/或任何其他非临时性光学介质。

一方面，本申请提供一种设备，所述设备包含本申请的储存介质。例如，所述设备还包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现本申请的方法。

一方面，本申请提供一种用作碱基修饰程度检测标准品的核酸分子，所述核酸分子包含碱基修饰程度为约0％候选区域。例如，本申请的所述候选区域的总长度为约1bp-约10000bp。例如，本申请的所述候选区域的总长度为约1bp、约10bp、约100bp、约1000bp、约10000bp、约50000bp、或约100000bp。例如，所述核酸分子可以选自以下细胞系中的一种或多种：GM24385、GM12878、GM12877、GM24631。

一方面，本申请提供一种制备碱基修饰程度检测标准品的方法，所述方法包含确定核酸分子中碱基修饰程度为约0％候选区域。

一方面，本申请提供了一种核酸分子在制备碱基修饰程度检测标准品的用途，所述核酸分子包含碱基修饰程度为约0％候选区域。

例如，所述碱基修饰程度包含所述候选区域内胞嘧啶的甲基化程度。

一方面，本申请提供一种如本申请的核酸分子中所述候选区域碱基修饰处理前的集合，其用作未经碱基修饰处理的标准品的用途。例如，所述核酸分子可以作为零甲基化标准品。

一方面，本申请提供一种如本申请的核酸分子中所述候选区域全部经碱基修饰处理后的集合，其用作经碱基修饰处理的标准品的用途。例如，所述核酸分子可以作为全甲基化标准品。

一方面，本申请提供一种制备碱基修饰程度检测标准品的方法，所述方法包含确定核酸分子中碱基修饰处理前碱基修饰程度为约0％候选区域，且将所述核酸分子进行碱基修饰处理。

一方面，本申请提供了一种核酸分子在制备碱基修饰程度检测标准品的用途，所述核酸分子包含碱基修饰处理前碱基修饰程度为约0％候选区域，且将所述核酸分子进行碱基修饰处理。

例如，通过预定比例混合所述碱基修饰处理前的所述核酸分子以及所述碱基修饰处理后的所述核酸分子，得到预定碱基修饰程度的甲基化标准品。例如，所述碱基修饰处理包含使所述核酸分子与甲基化转移酶接触。例如，对于m％的上述全甲基化标准品与1-m％上述的零甲基化标准品进行混合，可以得到m％的甲基化程度标准品，所述m％的甲基化程度标准品在候选区域的甲基化程度为m％。

本申请提供了一种试剂盒，包含本申请的核酸分子。例如，所述试剂盒可以作为甲基化检测的捕获探针的标准品。

不欲被任何理论所限，下文中的实施例仅仅是为了阐释本申请的方法和用途等，而不用于限制本申请发明的范围。

实施例

实施例1

探针筛选

经过重亚硫酸盐处理的二代测序，文库复杂度降低，对靶向捕获特异性造成很大挑战，对比甲基化扩增子方法(amplicon)，杂交捕获法往往适用长探针，从而提供更好的特异性和对单核苷酸多态性(SNP,single-nucleotide polymorphism)的容忍。然而随着探针长度增加，融化温度(Tm)进一步升高，导致某些探针容易形成局部二级空间结构，从而捕获能力受限，因此本申请提供了一种长序列探针设计的热动力学计算方式，实现基因组目标区域高度均一的捕获和良好的可重复性。

杂交过程实现目标DNA(T,target):RNA(P,probe)互补序列的特异结合，这个动态反应的平衡常数R_eq可以通过标准自由能ΔG^o计算，而后者可通过重亚硫酸盐处理后全部转化，或者全部非转化的假设进行计算。

R_eq＝[TP]/[T][P]

杂交产率(Ψ)可以通过形成DNA:RNA互补结合或者单链形态进行计算。考虑到P在体系中远远过量，为了简化计算，

Ψ＝[TP]/([TP]+[T])

R_eq′≡[c]^-Δn*R_eq

此处[c]指代杂交探针原始浓度，Δn指代反应过程中T和P种类的变化，R_eq′用来评估反映热力学平衡：R_eq′>>1，则Ψ趋近于1；同理R_eq′<<1，则Ψ趋近于0。引入浓度参数后的标准自由能

ΔG^o≡-RTlog(R_eq′)＝ΔG^o+(Δn)RTlog([c])

探针在此杂交捕获系统的特异性可以定义为

ΔΔG^o＝(ΔG^o(T^fP)-ΔG^o(T^f)ΔG^o(P))-(ΔG^o(TⁿP)-ΔG^o(TⁿP)ΔG^o(P))

此处Tⁿ指代针对目标序列的杂交产物；T^f指代非特异杂交产物。

为了获得精确度高的探针组合，需要选择合适的目标区域用于设计候选探针序列。合适的目标区域需要满足，候选探针对于来源于目标区域的结合自由能与对于来源于非目标区域的核酸序列的结合自由能相差(ΔΔG^o)大于一特定阈值，所述特定阈值为约12至50kcal/mol。优选地，候选探针对于来源于目标区域的结合自由能与对于来源于非目标区域的核酸序列的结合自由能相差(ΔΔG^o)约20kcal/mol或更高，约50kcal/mol或更高。

根据既往的试验结果，一条120nt的探针只需要与捕获序列具有60nt相似序列，便可以将序列捕获。对于预设计的探针序列，按照60nt为窗口，1nt为步长，进行滑窗，得到每个探针的目标子序列集，每个子序列长度为60nt，计算每一个子序列和探针序列的ΔΔG^o。两个序列之间的ΔΔG^o计算可以参考本领域已知的计算方法，例如Zhang,D等人.自然化学4,208–214(2012).。合并所有探针序列的与子序列的ΔΔG^o结果，取最小值，可以作为ΔΔG^°阈值。本申请中，可以用于选择合适目标区域的ΔΔG^°范围为约12kcal/mol或更高。优选地，用于选择合适目标区域的ΔΔG^°范围为约20kcal/mol或更高，约50kcal/mol或更高。

ΔΔG^°可以通过以下示例进行计算：

示例1(不合适的探针区域，即探针在基因组上存在相似性序列，相似序列与探针的ΔΔG^°小于阈值，该探针被过滤)：

探针区域：chr9:132331252-132331371:

AGCGCGGCCCCGCGGCCCCACCGAGGGATCGATAACTAATTTCACCGCGGCAGCCGCCCCAGTTTTTTCCCGATAATTGCGCGCCGGCAGCTGCGAGCAAGGCCCCCAGCCCGGCGCGCA

相似序列区域：chr22:23908697-23908816:

AGCGCGGCCCCGCGGCTCCGCCGAGAGATCGATAACTAATTTCACCGCGGTAGCCGCCCCAGTTTTTCCCCGATAATTGCGCGCCGGCAGCTGTGAGCGAGGCCCCCAGCGCGGCGCGAA

两个序列比较：

相似序列与探针序列计算得到的ΔΔG^°值(全非甲基化状态，所有C转化为T)为11.27；

相似序列与探针序列计算得到的ΔΔG^°值(全甲基化状态，仅非CpG的C转化为T)为11.55。目标区域的ΔΔG^°范围小于约12，该探针区域被舍弃。

示例2(不合适的探针区域，探针在基因组上存在相似性序列，相似序列与探针的ΔΔG^°小于阈值，该探针被过滤)：

探针区域：chr22:50176001-50176120:

GTCCCCAGCGGCATTGTCACAGAGCAAGTCTTGTGCAGGCATCTGGCCTGGGCCTTGGGTCTGTCTCTGACCATCCCAGCTGCATTGTCGCGGAGTGGGTCCCAGCAAGATGGGCCTTGG

相似序列区域1：chr22:50176480-50176599:

GTCCCCAGCGGCATTGTCACAGAGCAAGTCTTGTGCAGGCATCTGGCCTGGGCCTTGGGTCTGTCTCTGACCATCCCAGCTGCATTGTCGCGGAGCGGGTCCCAGCACGATGGGCCTTGG

相似序列1与探针序列比较：

相似序列1与探针序列计算得到的ΔΔG^o值(全非甲基化状态，所有C转化为T)为2.28；

相似序列1与探针序列计算得到的ΔΔG^o值(全甲基化状态，仅非CpG的C转化为T)为2.28。目标区域的ΔΔG^o范围小于约12，该探针区域被舍弃。

相似序列区域2：chr22:50176259-50176403:

GTCCCCAGCGGCATTGTCACAGAGCAAGTCTTGTGCAGGCATCTGGCCTGGGCCTTGGGTCTGTCTCTGACCATCCCAGCTGCATTGTCGCGGAGTGGGTCCCAGCAAGAGCAGGTCTCGTGCAGGCGTCTGGCCTGGGCCTTGG

相似序列2与探针序列比较：

相似序列2与探针序列计算得到的ΔΔG^o值(全非甲基化状态，所有C转化为T)为4.67；

相似序列2与探针序列计算得到的ΔΔG^o值(全甲基化状态，仅非CpG的C转化为T)为4.67。目标区域的ΔΔG^o范围小于约12，该探针区域被舍弃。

示例3(合适的探针区域，探针在基因组上不存在较长的相似性序列，探针被保留)：

探针区域：chr1:849521-849640:

GAACCAGGTGGCCCACCTTCGGTGCACAGGGAACAGCAGGGACCTGACGGCAGCCCCCGCACCCCTCCCTGGGCTGAAGTTCAGGCTGTCTCATCCCTTGCCAGGAGCTCAGGGCTGAGC

相似序列区域：chr10:133011469-133011488:

TGCCAGGAGCTCAGGGCTGA

相似序列(相似序列左右延伸至于探针序列长度一致)与探针序列比较：

相似序列与探针序列计算得到的ΔΔG^o值(全非甲基化状态，所有C转化为T)为50.77；

相似序列与探针序列计算得到的ΔΔG^o值(全甲基化状态，仅非CpG的C转化为T)为50.85。目标区域的ΔΔG^o范围大于约12，该探针区域被保留。

实施例2

捕获探针设计

附图5提供了一个仅供说明的参考示例，上方显示的一段预期进行甲基化检测的双链DNA片段，按箭头方向排序，其包含原始上链(CCGGCATGTTTAAACGCT)和原始下链(AGCGTTTAAACATGCCGG)，其中部分假定所有CpG中的胞嘧啶(C)都发生了甲基化，以-mC标识出。上述双链DNA片段经过变性解旋为单链形式后，经过重亚硫酸盐转化处理，原始上链和原始下链中未被甲基化(-mC)修饰的C被转化为尿嘧啶(U)，而甲基化修饰的C则依然保持为C。在随后的PCR扩增过程中，由于尿嘧啶(U)与腺嘌呤(A)互补配对，而DNA的PCR扩增中引入的与腺嘌呤(A)配对碱基为胸腺嘧啶(T)。在PCR扩增中，首先形成了与重亚硫酸盐处理后的带有尿嘧啶(U)的原始上链互补的目标上链互补链(CTOT)，以及与重亚硫酸盐处理后的带有尿嘧啶(U)的原始下链互补的目标下链互补链(CTOB)。在之后的PCR扩增过程中，形成了由原始上链转化的与CTOT互补的目标上链(OT)，以及由原始下链转化的与CTOB互补的目标下链(OB)。对比可知，原始上链和原始下链中的未被甲基化修饰的C在目标上链和目标下链中被T取代，而甲基化修饰的C(以下划线标识出)则保持不变。根据这一特点，可以通过测定重亚硫酸盐转化处理后的C来识别经甲基化修饰的C的数量与位置，从而实现DNA甲基化检测的目的。为便于简述，本文说明中以C转化为T、C替换为T、C被T取代等方式表达上述过程。

如图5所示的一种理想情况，即原始链的甲基化情况是已知的。但实际操作中目标链(OT、OB)中C是否被T取代的情况是未知的，也是需要通过检测测定的，而在未知情况下又需要对OT和OB链设计探针进行杂交捕获，因此本申请进行如下两种假设：

1)目标链(OT、OB)中所有的C都没有被甲基化修饰，因而在重亚硫酸盐转化和PCR处理之后，所有的C都被T取代，并据此设计出对应的互补链(CTOT、CTOB)。

2)目标链(OT、OB)中所有的C都被甲基化修饰，因而在重亚硫酸盐转化和PCR处理之后，所有的C都保留不变，并据此设计出对应的互补链(CTOT、CTOB)。

首先，本申请的捕获探针可以根据假设为无甲基化的目标区域进行设计。以图5为例，将原始上链中所有C转化为T作为第一链，对应于图5中的序列则为：TTGGTATGTTTAAATGTT，设计与第一链互补的第一探针；将原始下链中所有C转化为T作为第二链，对应于图5中的序列则为：AGTGTTTAAATATGTTGG，设计与第二链互补的第二探针；同时根据第一链的互补链作为第三链，对应于图5中的序列则为：AACATTTAAACATACCAA，设计与第三链互补的第三探针；同时根据第二链的互补链作为第四链，对应于图5中的序列则为：CCAACATATTTAAACACT，设计与第四链互补的第四探针。本申请的探针除了两条来源于原始链的目标链，还对两条目标链的互补链也都设计了探针，实现了良好的覆盖。经验证可以提高捕获的性能，例如探针的准确性和重复性。需要说明上述图5中的仅为便于说明的示例，实际需要选取的目标链的数量非常庞大，不局限于图5中的序列。

优选地，本申请的捕获探针也可以进一步地根据假设为全甲基化的目标区域进行设计，在CpG岛作为甲基化测定的主体的情况下，只考虑碱基排序(例如图5中的箭头方向)为“CG”中的碱基C会发生甲基化，除此以外的情况，认为都不会发生甲基化。同样以图5为例，将原始上链中仅非CpG的C转化为T作为第五链，对应于图5中的序列则为：TCGGTATGTTTAAACGTT，设计与第五链互补的第五探针；将目标下链(OB)中仅非CpG的C转化为T作为第六链，对应于图5中的序列则为：AGCGTTTAAATATGTCGG，设计与第六链互补的第六探针；同时根据第五链的互补链作为第七链，对应于图5中的序列则为：AACGTTTAAACATACCGA，设计与第七链互补的第七探针；同时根据第六链的互补链作为第八链，对应于图5中的序列则为：CCGACATATTTAAACGCT，设计与第八链互补的第八探针。

在设计捕获探针中，本申请的目标区域优选为约10000个或更多个。

实施例3

捕获探针的性能检测

本申请通过特定甲基化的标准品，检测捕获探针组合的性能，确定最终在探针组中应用的探针。

对于20％和/或50％甲基化标准品(已知在特定区域，甲基化水平为20％和/或50％的标准测试样品)，检测本申请捕获探针的准确性和重复性。

准确性

检测偏差的计算方法为，候选捕获探针组合检测的甲基化水平与实际(或理论)甲基化水平的差值/实际(或理论)甲基化水平。合适的捕获探针组合的检测波动，即最大值和最小值的差值，为约25％或更低。更具体而言，所述差值＝最大值-最小值。

在利用上述公式来评估待测样品的甲基化水平时，所有的探针组合的集合应当覆盖90％以上的目标区域。优选地，所有的探针组合的集合应当覆盖95％以上的目标区域。进一步优选地，所有的探针组合的集合应当覆盖99％以上的目标区域。更进一步优选地，所有的探针组合的集合应当覆盖100％的目标区域。

参见图6示例性的说明，随着测序深度的增加，对于单一CpG位点会有多个读段覆盖，而且不同的读段对于同一个CpG位点的甲基化检测结果也可能是不同的。例如，对于CpG-2位点，读段1-4显示的结果是甲基化阳性(以黑点●标识)，但读段5-6显示的结果是甲基化阴性(以白点○标识)，计算所有的读段的所有位点的甲基化状态，而不是强制对单个位点定性地选择阳性或阴性状态，可以避免对测序结果中甲基化信号人为干预而导致误差。

重复性

重复性RMSE的计算方法为，对于特定甲基化水平为20％和/或50％的标准测试样品，两次或更多次重复测量的候选捕获探针组合检测的甲基化水平的均方差。合适的捕获探针组合的重复性，即复孔间甲基化水平均方误差中值，为约9E-05或更低。

任选地，对捕获探针组合的均一性和偏好性进行检测。

均一性

均一性CV的计算方法为，

其中，对于捕获探针组合中的k个捕获探针，d_i表示第i个探针的测序深度，

表示所有探针测序深度的均值。合适的捕获探针组合的覆盖均一性CV应小于1；优选地，CV应当小于0.5；更优选地，CV应当小于0.3；进一步优选地，CV应当小于0.2。

偏好性

偏好性R的计算方法为，

其中，对于捕获探针组合中的m个捕获探针，x_i表示第i个探针对于目标链(OT+OB)的测序深度，

表示所有探针对于目标链的测序深度的均值，y_i表示第i个探针对于互补链(CTOT+CTOB)的测序深度，y表示所有探针对于互补链的测序深度的均值。

其中，OT表示目标区域的目标上链，CTOT表示目标上链的互补链；OB表示目标区域的目标下链，CTOB表示目标下链的互补链。

任选地，捕获探针组合中捕获探针的长度为约80至约120个碱基。任选地，捕获探针组合中任意两个捕获探针的重叠的区域包含约10至约110个碱基。任选地，捕获探针组合中捕获探针所互补的区域不包含与重复区域交叠10个或更多个的连续碱基。重复区域记载在本领域已知的内容中，例如repeatmasker.org记载的重复区域(repeats)。

实施例4

甲基化的标准品的构建

目前的甲基化标准品来自于全基因组扩增得到的样品，然而扩增得到“零甲基化标准品”过程中，可能出现标准品实际上所有胞嘧啶都未甲基化，使得上述样品经过重亚硫酸盐转化后没有胞嘧啶，容易出现较大捕获偏差，不适用于作为评估捕获法性能的标准品。

本申请提供了一种用于捕获探针对的甲基化标准品构建的方法。对于来源于人细胞系的核酸样品，通过甲基化转移酶(例如M.sssI)进行处理，得到“全甲基化的标准品(PC)”，对于未经过甲基化转移酶处理的相应核酸样品，作为“零甲基化的标准品(NC)”。对于“零甲基化的标准品”和“全甲基化的标准品”进行甲基化测序；对于在“零甲基化的标准品”中甲基化水平为零，且在“全甲基化的标准品”中甲基化水平为100％的特定区域，作为标准区域。当以任意比例对“零甲基化的标准品”和“全甲基化的标准品”掺比时，所述标准区域的甲基化水平即为本申请甲基化标准品的实际甲基化水平。例如：以20％全甲基化标准品与80％零甲基化标准品混合后，在经选定的特定区域中，可以视为实际甲基化水平(也可称为理论甲基化水平)为20％。

甲基化转移酶(例如M.SssI)酶的反应条件为：37℃下反应15min，65℃下反应20min。图1和图3中左右两侧显示的是本申请“零甲基化的标准品”和“全甲基化的标准品”的甲基化测量结果。通过多次测量，NC甲基化水平为0-0.002；PC甲基化水平为0.97-1.00，本申请的甲基化标准品适用于捕获探针的评估。

其中，互补链组表示仅对于互补链(CTOT+CTOB)设计捕获探针，目标链组表示对于目标链(OT+OB)设计捕获探针，双链组表示对于目标链和互补链的双链设计捕获探针。其中，OT表示目标上链，CTOT表示目标上链的互补链；OB表示目标下链，CTOB表示目标下链的互补链。

实施例5

本申请捕获探针组合的性能结果

以20％和50％掺比的20％和50％的标准品为例，此标准品可用于不同探针批次的准确性评估。图1显示的是本申请“20％的标准品”和“50％的标准品”的甲基化测量结果。结果如下：

表1：20％与50％探针准确性评估结果

(1)理论甲基化水平与实际测试甲基化水平的偏差评估，图3横轴表示理论的甲基化水平，纵轴表示实际测试的甲基化水平，结果如下：双链探针设计实测甲基化信号平均值和理论甲基化水平较接近；20％甲基化水平时，双链、目标链、互补链的甲基化检测平均值与理论值的偏差(偏差＝(检测值-理论值)/理论值)分别为：0.28，0.32，0.28；50％甲基化水平时双链、目标链、互补链的甲基化检测平均值与理论值的偏差分别为：0.14，0.15，0.13。

(2)理论甲基化水平与实际测试甲基化水平的波动评估，双链探针设计实测甲基化信号波动最小，针对双链、目标链、互补链设计的三种探针的最大值最小值的差异，20％甲基化水平的波动为0.22，0.24，0.25，50％甲基化水平的波动为0.22，0.25，0.27。

捕获探针组合的均一性用来评估探针对不同靶标区域覆盖的均匀程度，变异系数CV范围，以下图示横轴表示不同的甲基化水平，纵轴表示测序深度。图2A-2C显示的是本申请针对双链、目标链、互补链设计的三种探针的均一性测量结果。结果显示双链探针设计的均一度好于单独的互补链探针设计，和传统的目标链探针设计接近。

重复性的评估，采用不同甲基化水平检测的均方差来评估不同探针设计的重复性，横轴表示不同的甲基化水平，纵轴表示重复样本之间的偏差，值越小表示检测方法越稳定。

表2：20％与50％探针重复性评估结果

图3显示的是，本申请针对双链、目标链、互补链设计的三种探针的重复性测量结果。结果显示双链探针设计的重复性好于单独的互补链探针设计，和目标链探针设计接近。

对于目标链，20％甲基化标准品评估的重复性中值为1.22E-04，50％甲基化标准品评估的重复性中值为1.23E-04；对于互补链，20％甲基化标准品评估的重复性中值为1.12E-04，50％甲基化标准品评估的重复性中值为9.16E-05；对于本申请优选的双链，20％甲基化标准品评估的重复性中值为8.05E-05，50％甲基化标准品评估的重复性中值为7.03E-05。

捕获链偏好性评估不同探针对目标链(OT+OB)和互补链(CTOT+CTOB)的捕获的深度，图示横轴均表示目标链的覆盖深度，纵轴表示互补链的测序深度，结果显示使用双链探针捕获的具有较低的链偏好性R^2。

图4A-4C显示的是本申请针对双链、目标链、互补链设计的三种探针的偏好性测量结果。结果显示双链探针设计的偏好性好于单独的互补链探针设计，和传统的目标链探针设计接近。

前述详细说明是以解释和举例的方式提供的，并非要限制所附权利要求的范围。目前本申请所列举的实施方式的多种变化对本领域普通技术人员来说是显而易见的，且保留在所附的权利要求和其等同方案的范围内。

Claims

1.一种核酸分子组合，其特征在于，所述核酸分子组合中的核酸分子对于来源于目标区域的核酸序列的结合自由能与对于来源于非目标区域的核酸序列的结合自由能相差大于一特定阈值，所述特定阈值为约12至50kcal/mol。

2.如权利要求1所述的核酸分子组合，其特征在于，所述特定阈值为约20-30kcal/mol，优选为约20kcal/mol。

3.一种核酸分子组合，所述核酸分子组合包含至少一个覆盖一待测核酸的一目标区域的核酸探针组，其特征在于，所述核酸探针组至少包含：(1)与第一链互补的第一探针，所述第一链为所述目标区域经过碱基替换后的序列；(2)与第二链互补的第二探针，所述第二链为所述目标区域的互补区域经过碱基替换后的序列；并且包含以下两个探针中的任意一个或同时包含两个：(3)与第三链互补的第三探针，所述第三链与所述第一链互补；(4)与第四链互补的第四探针，所述第四链为第二链的互补序列。

4.如权利要求3所述的核酸分子组合，其特征在于，所述经过碱基替换的位点包含胞嘧啶所在的位点。

5.如权利要求3-4中任一项所述的核酸分子组合，其特征在于，所述碱基替换包含通过化学和/或生物过程取得胞嘧啶替换为胸腺嘧啶或尿嘧啶的核酸序列。

6.如权利要求3-5中任一项所述的核酸分子组合，其特征在于，所述碱基替换包含取得所有的胞嘧啶都替换为胸腺嘧啶或尿嘧啶的核酸序列。

7.如权利要求3-6中任一项所述的核酸分子组合，其特征在于，所述核酸探针组还包含：

(1)与第五链互补的第五探针，所述第五链为所述目标区域未经过碱基替换的序列；

(2)与第六链互补的第六探针，所述第六链为所述目标区域的互补区域未经过碱基替换的序列；(3)与第七链互补的第七探针，所述第七链与所述第五链互补；(4)与第八链互补的第八探针，所述第八链为第六链的互补序列。

8.如权利要求3-7中任一项所述的核酸分子组合，其特征在于，所述核酸分子组合包含覆盖所述待测核酸的10000个或更多个不同目标区域的核酸探针组。

9.一种核酸分子组合，所述核酸分子组合中对于20％甲基化水平的标准品的检测结果符合以下指标：波动为25％或更低、和/或重复性为9E-05或更低；优选地，所述波动为检测结果最大值与最小值的差值，所述重复性为复孔间甲基化水平均方误差中值。

10.一种核酸分子组合，所述核酸分子组合中对于50％甲基化水平的标准品的检测结果符合以下指标：波动为27％或更低、和/或重复性为9E-05或更低；优选地，所述波动为检测结果最大值与最小值的差值，所述重复性为复孔间甲基化水平均方误差中值。

11.如权利要求1-10中任一项所述的核酸分子组合，所述核酸分子组合中的核酸分子的长度为约80至约120个碱基、所述核酸分子组合中的任意两个核酸分子重叠的区域包含约10至约110个碱基和/或所述核酸分子组合中的核酸分子所互补的区域不包含与重复区域交叠10个或更多个的连续碱基。

12.一种试剂盒，包含权利要求1-11中任一项核酸分子组合。

13.如权利要求1-11中任一项所述的核酸分子组合和/或如权利要求12所述的试剂盒在制备人肿瘤基因检测制剂中的应用。

14.如权利要求13所述的应用，所述检测制剂用于检测目标区域的碱基修饰水平；优选地，所述碱基修饰包含甲基化修饰。

15.如权利要求13-14中任一项所述的应用，其特征在于，所述人肿瘤来自于同质肿瘤(homogenous tumors)、异质肿瘤、血液癌和/或实体瘤；优选地，所述人肿瘤来自于以下组的癌症中的一种或多种：脑癌、肺癌、皮肤癌、鼻咽癌、咽喉癌、肝癌、骨癌、淋巴瘤、胰腺癌、皮肤癌、肠癌、直肠癌、甲状腺癌、膀胱癌、肾癌、口腔癌、胃癌、实体瘤、卵巢癌、食管癌、胆囊癌、胆道癌、乳腺癌、宫颈癌、子宫癌、前列腺癌、头颈癌、肉瘤、胸腔恶性肿瘤(除肺外)、黑色素瘤、和睾丸癌。

16.一种检测碱基修饰水平的方法，包含提供如权利要求1-11中任一项核酸分子组合和/或权利要求12所述的试剂盒；优选地，所述碱基修饰包含甲基化修饰。

17.一种储存介质，其记载可以运行权利要求16所述的方法的程序。

18.一种设备，所述设备包含权利要求17所述的储存介质。

19.如权利要求18所述的设备，所述设备还包含耦接至所述储存介质的处理器，所述处理器被配置为基于存储在所述储存介质中的程序执行以实现权利要求16所述的方法。

20.一种用作碱基修饰程度检测标准品的核酸分子，其特征在于，所述核酸分子包含碱基修饰程度为约0％候选区域，所述候选区域的总长度为约1bp-约10000bp。

21.如权利要求20所述的核酸分子，其特征在于，所述核酸分子选自以下细胞系中的一种或多种：GM24385、GM12878、GM12877、GM24631。

22.如权利要求20-21中任一项所述的核酸分子，所述碱基修饰程度包含所述候选区域内胞嘧啶的甲基化程度。

23.一种如权利要求20-22中任一项所述的核酸分子中所述候选区域未经碱基修饰处理的集合，其用作未经碱基修饰处理的标准品的用途。

24.一种如权利要求20-22中任一项所述的核酸分子中所述候选区域全部经碱基修饰处理的集合，其用作全部经碱基修饰处理的标准品的用途。

25.如权利要求23或24所述的核酸分子，通过预定比例混合所述未经碱基修饰处理的标准品以及全部经碱基修饰处理的核酸分子或标准品，得到预定碱基修饰程度的甲基化标准品。

26.如权利要求25所述的核酸分子，其中所述全部经碱基修饰处理的核酸分子或标准品的占比为20％或50％。

27.如权利要求24或26所述的核酸分子，所述碱基修饰处理包含使所述核酸分子与甲基化转移酶接触。

28.一种试剂盒，包含权利要求20-27中任一项核酸分子。