CN106191256A

CN106191256A - 一种针对目标区域进行dna甲基化测序的方法

Info

Publication number: CN106191256A
Application number: CN201610561805.2A
Authority: CN
Inventors: 王瑞超; 蔡万世; 屈武斌; 邵谦之; 杭兴宜
Original assignee: Igenetech Co Ltd
Current assignee: Igenetech Co Ltd
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2016-12-07
Anticipated expiration: 2036-07-15
Also published as: CN106191256B

Abstract

本发明提供了一种针对目标区域进行DNA甲基化测序的方法，所述方法包括：提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特异性的诱饵序列；以所述诱饵序列为模板进行扩增得到DNA双链池，随后对DNA双链池进行DNA甲基转移酶处理和亚硫酸盐处理，进而通过体外转录制备核酸类似物，所述核酸类似物带有结合部分；对所述核酸样品进行基于亚硫酸盐处理；所述处理的核酸样品与所述核酸类似物杂交，使得所述核酸类似物与所述处理的核酸样品中的目标区域形成核酸类似物/DNA杂交复合物；通过所述结合部分，去除所述处理的核酸样品中的非目标区域的核酸，并对获得的目标区域核酸进行测序。

Description

一种针对目标区域进行DNA甲基化测序的方法

技术领域

本发明涉及生物检测领域，特别是基于亚硫酸盐处理的目标区域DNA文库的捕获、测序与分析。更具体来说，本发明涉及针对目标区域进行DNA甲基化测序的方法。

背景技术

DNA甲基化是表观遗传学的重要研究内容之一，它能够调节基因的表达和关闭，与癌症、衰老、老年痴呆等许多疾病密切相关，是当前科学研究和临床诊断应用的热点之一。亚硫酸盐处理是DNA甲基化测序的金标准，其原理是用亚硫酸盐处理基因组DNA，未发生甲基化的胞嘧啶被转化为尿嘧啶，而甲基化的胞嘧啶不变，继而通过测序比对参考基因组上相同位置的C是否转化为T来判断该C位点是否有甲基化。随着高通量测序技术的成熟，亚硫酸盐处理技术已经应用在全基因组DNA甲基化测序中，例如Whole Genome BisulfiteSequencing(WGBS)。WGBS可以获得全基因组水平范围的DNA甲基化分布以及每个C的DNA甲基化水平。目前，针对人类基因组而言，WGBS为了得到全基因组水平的覆盖，以及较为可靠的甲基化水平，需至少产出180Gb的有效数据量，才可以满足人基因组DNA的双链各30倍的平均深度；并且由于所测基因组DNA往往来源于异质性的细胞组成，而DNA甲基化是细胞特异性的，因此为了获得足够准确的、每个C的DNA甲基化水平，理论上来说，每个C的测序深度越高越好，但越高的测序深度将导致测序成本的急剧上升。

虽然目前针对遗传变异的目标区域测序已然成熟，但针对目标区域的DNA甲基化测序技术尚未成熟。同时，与特定疾病相关的DNA甲基化状态改变已经被大量报道，例如肿瘤发生发展相关的DNA甲基化改变主要发生在抑癌基因或致癌基因的启动子区域。因此，针对目标区域的DNA甲基化测序技术开发，对于疾病的科学研究或临床诊断具有广阔的应用价值。

发明内容

为了解决上述问题，本发明提供了一种针对目标区域进行DNA甲基化测序的方法。

在第一方面，本发明提供了一种针对目标区域进行DNA甲基化测序的方法，所述方法包括：

a)提供包含目标核酸序列的核酸样品和与目标核酸序列一致或对目标序列具有特异性的诱饵序列；

b)以所述诱饵序列为模板进行链聚合酶扩增得到DNA双链池，随后对DNA双链池进行DNA甲基化转移酶处理和亚硫酸盐处理，进而通过体外转录制备核酸类似物，所述核酸类似物带有结合部分，例如生物素结合部分；

c)使所述核酸样品片段化并进行亚硫酸盐处理，优选制备全基因组DNA甲基化文库；

d)所述核酸类似物与所述处理的核酸样品杂交，使得所述核酸类似物与所述片段化的核酸样品中的目标区域核酸形成核酸类似物/DNA杂交复合物；

e)通过所述结合部分，去除所述处理的核酸样品中的非目标区域的核酸；

f)：对步骤e)后获得的目标区域核酸进行测序。

在一个实施方案中，在步骤b)的对DNA双链池进行体外DNA甲基转移酶处理时，所述DNA甲基转移酶选自dam甲基转移酶、AluI甲基转移酶、CpG甲基转移酶(M.SssI)、EcoRI甲基转移酶、G9a甲基转移酶、GpC甲基转移酶(M.CviPI)、Human DNA(cytosine-5)甲基转移酶(Dnmt1)、Human PRMT1甲基转移酶、MspI甲基转移酶、SET7甲基转移酶、SET8甲基转移酶和T4 Phage β-葡糖基转移酶(T4-BGT)等。

在一个实施方案中，在步骤e)和f)之间还包括步骤f’)：对所述核酸类似物/DNA杂交复合物进行扩增，对所述片段化的核酸样品中的目标区域核酸进行富集。

优选地，在步骤c)还包括在所述核酸样品片段两端连接接头序列，并且在步骤e)和f)之间还包括步骤f’)根据所述接头序列对所述核酸类似物/DNA杂交复合物进行扩增，达到富集所述核酸样品片段中目标区域核酸目的。

在一个实施方案中，其中所述诱饵序列具有选自如下的特性：i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计诱饵，设计方法与所述目标区域一致，和iv)无特异性结合。

在一个实施方案中，在步骤b)的对DNA双链池进行体外DNA甲基转移酶处理，造成所述DNA双链池中DNA双链的部分C随机甲基化。

在一个实施方案中，所述诱饵序列的拷贝数还根据所述目标核酸序列受关注情况进行补偿。

在一个实施方案中，其中所述核酸样品是基因组DNA，使全基因组DNA样品片段化并进行亚硫酸盐处理，制备全基因组DNA甲基化文库。

在一个实施方案中，所述诱饵序列在固体载体上，例如在微阵列载玻片上。

在一个实施方案中，所述固体载体也为多种珠子或者为微阵列。

在一个实施方案中，部分或者全部所述核酸类似物带有结合部分。

在一个实施方案中，步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸进行体外转录，制备核酸类似物，优选其中部分所述核酸类似物带有结合部分。

在一个实施方案中，其中所述结合部分为生物素结合部分。

在一个实施方案中，根据所述目标序列的GC含量对所述诱饵序列拷贝数进行补偿，GC含量越小或者越大，所述目标序列对应的诱饵序列拷贝数增加的就越多。

在一个实施方案中，拷贝数根据所述目标核酸序列的GC含量进行补偿是指：以GC含量在50％的诱饵序列拷贝数系数为基准1，GC含量在10％-90％之间偏离50％每1％，诱饵序列拷贝数系数增加0.08-0.12。

在一个具体实施方案中，诱饵序列拷贝数补偿方法为：根据所述目标序列的GC含量大小从高到低分为6档，其中第1档：10％-30％；第2档：30％-40％；第3档：40％-60％；第4档：60％-70％；第5档：70％-90％；第6档：小于10％或大于90％，其中第3档的诱饵序列的拷贝数为基准拷贝数，第2档和第4档的诱饵序列的拷贝数多于第3档，例如是第3挡的2.2-2.8倍，第1档和第5档的诱饵序列的拷贝数更多，例如是第3挡的3-4倍。对于第6档，GC含量小于10％或大于90％，以及目标区域是低复杂序列的情况，诱饵序列设计方法是：用所述目标区域两侧区域作为替代区域设计探针，一般选择目标区域两侧300bp以内区域作为替代区域，优选150bp以内的区域。

在一个实施方案中，其中所述诱饵序列长度为60-150bp，优选80-120bp。

在一个实施方案中，其中所述与目标核酸序列一致或者对目标序列具有特异性是指，诱饵序列在非目标区域上结合的热力学稳定性要显著弱于在目标区域上结合的热力学稳定性，优选与目标区域T_m-与非特异区域T_m≥5℃，更优选与目标区域T_m-与非特异区域T_m≥10℃；优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。

在一个实施方案中，其中所述无二聚体产生是指，任意两个诱饵序列之间形成的二聚体，其T_m≤47℃，优选≤37℃；优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。

在一个实施方案中，其中所述无发卡结构产生是指，任一诱饵序列自身形成发卡结构，其T_m≤47℃，优选≤37℃；优选Tm的值基于SantaLucia 2007热力学参数表的最邻近法计算。

在一个实施方案中，其中对每个目标区域，所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列，所述综合评分通过如下的打分函数进行：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45，具体的打分计算方法如下：

S_特异性的打分计算：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，对其每一条比对上的序列分别计算所述诱饵序列与比对上的序列之间Tm，所述诱饵序列与目标区域T_m其与任一比对上序列T_m之差≥5℃，优选≥10℃，计算所述诱饵序列与所有比对上的序列之间的平均Tm，S_特异性＝1-Tm_平均值/(Tm_目标-5)，优选S_特异性＝1-Tm_平均值/(Tm_目标-10)，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m；

S_二聚体的打分计算：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列之间的Tm，所述T_m<47℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(47–Tm_平均值)/47，优选所述T_m<37℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(37–Tm_平均值)/37；

S_发卡结构的打分计算：对任一条诱饵序列，计算其最佳的自身比对结构，并计算所述结构的Tm，所述T_m<47℃，并且S_发卡结构＝(47–Tm)/47，优选所述Tm<37℃，并且S_发卡结构＝(37–Tm_平均值)/37；

S_相对距离的打分计算：对于目标区域坐标，对新设计的任一条诱饵序列，计算其与所述目标区域坐标差值δ_Distance，δ_Distance小于150，S_相对距离＝(150-δ_Distance)/150。

在第二方面，本发明还提供了实施本发明的方法的特异性诱饵序列，所述特异性诱饵序列是本发明第一方面中涉及到的诱饵序列。

在一个实施方案中，所述特异性诱饵序列与目标核酸序列一致或对目标序列具有特异性，并且i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计探针，设计方法与所述目标区域一致。

在第三方面，本发明还提供了一种试剂盒，所述试剂盒包括本发明第二方面所述的诱饵序列，所述试剂盒还包括双链接头分子、多种不同的寡核苷酸探针。

在一个实施方案中，所述试剂盒包含用于实现本发明第一方面的方法的组合物和试剂。所述试剂盒包括，但不限于，双链接头分子、多种不同的寡核苷酸探针、与目标核酸序列一致或对目标序列具有特异性的诱饵序列，所述诱饵序列：i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量、空间结构和/或受关注情况进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计探针，设计方法与所述目标区域一致，iv)无特异性结合。在某些实施方案中，试剂盒包含两种不同双链接头分子。所述试剂盒可进一步包含至少一种或多种其他成分，所述其他成分选自DNA聚合酶、T4多核苷酸激酶、T4DNA连接酶、杂交液、洗涤液和/或洗脱液。在某些实施方案中，所述试剂盒包含磁体。在某些实施方案中，所述试剂盒包含一种或多种酶，以及相应的试剂、缓冲液等，例如限制性内切酶，例如MlyI，以及用于使用MlyI进行限制性酶切反应的缓冲液/试剂。

具体实施方式

本发明提供了一种针对目标区域进行DNA甲基化测序的方法，所述包括：诱饵序列设计，诱饵序列的核酸合成(用合成常规引物或固相合成的方法)，用体外链聚合酶扩增得到DNA双链池，随后对DNA双链池进行体外DNA甲基转移酶的处理，进而通过体外转录制备核酸类似物，所述核酸类似物带有结合部分；核酸样品前处理(按全基因组DNA文库制备的方法进行)，样品是基因组DNA；核酸类似物与全基因组DNA文库归属于目标区域的核酸以互补配对原则形成核酸类似物/DNA杂交复合物；洗脱去除低互补配对的核酸类似物/DNA杂交体，去除全基因组DNA文库中非目标区域的核酸；根据核酸样品前处理所加的接头序列，对互补配对的核酸类似物/DNA进行特异性扩增，达到富集目标序列核酸的目的。

在发明中，术语“样品”以其最广泛的意思使用，其意在包括从任何来源，优选从生物来源获得的样本或培养物。生物样品可从动物(包括人)获得，并包括液体、固体、组织和气体。生物样品包括血液制品，例如血浆、血清等等。因此，“核酸样品”包含任何来源的DNA。在本申请中，核酸样品优选源自生物来源，例如人或非人细胞、组织等等。术语“非人”系指所有非人动物和实体，包括但不限于，脊椎动物例如啮齿动物、非人灵长动物、绵羊、牛、反刍动物、兔类动物、猪、山羊、马、犬、猫、鸟类等等。非人还包括无脊椎动物和原核生物，例如细菌、植物、酵母、病毒等等。因此，用于本发明的方法和系统的核酸样品为源自任何生物，无论真核或者原核的核酸样品。

在发明中，发明人发现目标区域的GC含量对全基因组DNA甲基化文库中归属于不同目标区域内的核酸捕获效率有较大影响。为了达到对全基因组DNA甲基化文库中归属于多个目标区域的有效捕获，优选根据所述目标区域列的GC含量对所述诱饵序列拷贝数进行补偿，GC含量越小或者越大，所述目标序列对应的诱饵序列拷贝数增加的就越多。

发明人发现，对于GC含量在50％左右，例如±10％，的目标序列可以获得良好的目标序列捕获效率；对于其他GC含量的目标序列，需要进行诱饵序列拷贝数补偿才能获得良好的目标序列捕获效率。经过用人类基因组序列进行全面测试，发明人发现，为了达到更好的目标序列捕获效率，以GC含量在50％的诱饵序列拷贝数系数为基准1，GC含量10％-90％之间偏离50％每1％，诱饵序列拷贝数系数增加0.08-0.12。例如，GC含量为68％时，偏离18％，诱导序列拷贝数系数为2.44-3.16。

对于GC含量小于10％或大于90％属于低复杂序列的情况，这种情况下对应的诱饵序列设计方法是：当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计探针，一般选择目标区域两侧300bp以内区域作为替代区域，优选150bp以内的区域。

在本发明中，低复杂度区域是指由很少种类的元素(如寡核苷酸)所组成的一个区域，例如微卫星这种简单重复序列。

在本发明中，优选对片段化后的样品DNA片段进行建库。

在一个实施方案中，诱饵序列拷贝数补偿方法可以简单地表示为：根据所述目标序列的GC含量大小从高到低分为6档，其中第1档：10％-30％；第2档：30％-40％；第3档：40％-60％；第4档：60％-70％；第5档：70％-90％；第6档：小于10％或大于90％，其中第3档的诱饵序列的拷贝数为基准拷贝数，第2档和第4档对应的诱饵序列的拷贝数需要增加，例如是第3挡的2.2-2.8倍，第1档和第5档的诱饵序列的拷贝数需要增加更多，例如是第3挡的3-4倍。在一个实施方案中，对于第6档，GC含量小于10％或大于90％或者在GC含量是低复杂序列的情况，诱饵序列设计方法是：用所述目标区域两侧区域作为替代区域设计探针，一般选择目标区域两侧300bp以内区域作为替代区域，优选150bp以内的区域。

在一个实施方案中，其中对每个目标区域，所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列，所述综合评分通过如下的打分函数进行：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45。S_特异性等打分均为0到1之间的数值，具体的打分计算方法如下：

S_特异性的打分规则：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有与目标区域T_m-与非特异区域T_m<5℃，优选<10℃，则放弃该诱饵序列，重新设计；否则计算所有非特异区域比对结果的平均Tm值，最终S_特异性＝1-Tm_平均值/(Tm_目标-5)，其中优选S_特异性＝1-Tm_平均值/(Tm_目标-10)，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m；

S_二聚体的打分规则：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，最终S_二聚体＝(47–Tm_平均值)/47，优选如果有T_m≥37℃，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，S_二聚体＝(37–Tm_平均值)/37；

S_发卡结构的打分规则：对任一条诱饵序列，采用Smith-Waterman算法，计算其最佳的自身比对结构，并根据此结构计算其热力学Tm参数值，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(47–Tm)/47，优选如果有T_m≥37℃，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(37–Tm_平均值)/37；

S_相对距离的打分规则：已知待设计目标区域坐标，对任一条诱饵序列，计算其与目标区域坐标差值δ_Distance，设定可接受的差值为150，该数值是经验数值；如果差值大于150，则放弃该诱饵序列，重新设计；否则其S_相对距离＝(150-δ_Distance)/150。在与目标区域坐标差值150范围内无法设计出合适的诱饵序列，也可以将差值设置为300，其S_相对距离＝(300-δ_Distance)/300。

在本发明中，序列的T_m的计算不拘泥于具体的方法，各种方法计算的Tm值均可以用于本发明，各种方法得到的Tm值基本不能逆转本发明的效果，只是效果的程度会有差异。虽然SantaLucia 2007热力学参数表的最邻近法可以计算Tm，但其他方法计算的Tm值可以与之相对应，本领域技术人员可以经过简单的试验比较各种方法计算得到的Tm，从而对各种方法计算的Tm值作出适当选择。

根据发明人的经验，对于人基因组编码区而言，超过99％的目标区域均可以设计出适合本发明的诱饵序列，表明我们前述对GC区域的分档以及对Tm值的过滤都是合理的。

在某些实施方案中，所述DNA甲基转移酶包括但不限于dam甲基转移酶、AluI甲基转移酶、CpG甲基转移酶(M.SssI)、EcoRI甲基转移酶、G9a甲基转移酶、GpC甲基转移酶(M.CviPI)、Human DNA(cytosine-5)甲基转移酶(Dnmt1)、Human PRMT1甲基转移酶、MspI甲基转移酶、SET7甲基转移酶、SET8甲基转移酶和T4 Phage β-葡糖基转移酶(T4-BGT)等。在本发明中，甲基转移酶在反应过程中，酶作为亲核催化剂首先结合到嘧啶杂环的6位碳原子上，使5位碳原子带有一个负电荷，进而促进5位碳原子与S-腺苷-甲硫氨酸中的活性甲基结合。

在本发明中，使用DNA甲基转移酶时，并不能使甲基化转移酶效率达到100％，可以在酶的浓度和处理时间上进行调整，也就是说处理后并不是所有C都已经甲基化，而是部分地或随机地进行了甲基化。

在本发明中，进行DNA甲基转移酶处理和亚硫酸盐，进行DNA甲基转移酶处理的目的是将探针上的序列中的C进行随机甲基化修饰，经过修饰后，再使用亚硫酸盐处理时，已经甲基化的位点C就不会再转化成U，模拟了甲基化位点在基因组位置上的随机性，这样处理后的探针，可以和含有甲基化位点的文库片段很好的结合，从而将信息富集出来，因而检测出甲基化位点。

在本发明中，优选地，对DNA双链池进行体外DNA甲基转移酶处理，造成所述DNA双链池中DNA双链的部分C随机甲基化。

在某些实施方案中，所述核酸类似物与全基因组DNA甲基化文库中目标区域内的核酸之间的杂交在优选地严格条件下进行，所述严格条件足以支持所述核酸类似物/DNA之间的杂交，其中所述核酸类似物包含连接化合物和所述全基因组DNA甲基化文库中目标区域核酸的互补区域，以提供所述核酸类似物/DNA杂交复合物。所述复合物随后通过所述连接化合物捕获，并在足以去除全基因组DNA甲基化文库中非目标区域核酸的条件下洗涤，然后所杂交的目标核酸序列从所捕获的核酸类似物/DNA复合物中洗脱。

在某些实施方案中，所述核酸类似物包含化学基团或连接化合物，例如结合部分例如生物素、地高辛等等，其能结合于固体载体。所述固体载体可以包含相应的捕获化合物，例如用于生物素的链霉亲和素或用于地高辛的地高辛抗体。本发明不限于所使用的连接化合物，并且替代的连接化合物等同适用于本发明的方法、诱饵序列和试剂盒。

在本发明的实施方案中，所述多个目标核酸分子优选包含一种生物的全基因组或至少一条染色体或一种任意大小分子量的核酸分子。优选地，所述核酸分子的大小至少约200kb、至少约500kb、至少约1Mb、至少约2Mb、或至少约5Mb,更优选大小约100kb至约5Mb、约200kb至约5Mb、约500kb至约5Mb、约1Mb至约2Mb或约2Mb至约5Mb。

在某些实施方案中，所述目标核酸来自动物、植物或微生物，在优选的实施方案中，所述目标核酸分子选来自人。

在某些实施方案中，所述多个目标核酸分子为一组基因组DNA分子。所述诱饵序列可选自例如限定来自多个遗传基因座的多种外显子、内含子或调控序列的多个诱饵序列；限定至少一个单独遗传基因座的全序列的多个诱饵序列，所述基因座大小任意，优选至少1Mb，或至少上述特定大小之一；限定单核苷酸多态性(SNP)的多种诱饵序列；或限定一种阵列的多种诱饵序列，例如设计为捕获至少一条完整染色体的全序列的嵌合阵列。

在本文中，术语“杂交”系指互补核酸的配对。杂交和杂交强度(例如核酸之间结合的强度)受多种因素的影响，例如核酸之间互补的程度、使用杂交条件的严格程度、所形成杂交体的解链温度(Tm)以及核酸的GC含量值。虽然本发明不受限于具体的杂交条件，但优选使用严格的杂交条件。严格的杂交条件取决于序列并随杂交参数(例如盐浓度、有机物存在等)而变化。通常，“严格的”条件选择为在规定的离子强度和pH下低于特定核酸序列的Tm约5℃到约20℃。优选地，严格的条件为低于结合互补核酸的具体核酸的温度熔点约5℃到10℃。所述Tm是50％核酸(例如目标核酸)与完全配对探针杂交的温度(在规定的离子强度和pH下)。

在本文中，“严格的条件”，例如可为50％甲酰胺，5×SSC(0.75M NaCl,0.075M柠檬酸钠)，50mM磷酸钠(pH6.8)，0.1％焦磷酸钠，5×Denhardt溶液、超声波处理的鲑鱼精子DNA(50mg/ml)，0.1％SDS，以及10％硫酸葡聚糖在42℃下杂交，在42℃以0.2×SSC(氯化钠/柠檬酸钠)和在55℃以50％甲酰胺洗涤，然后在55℃以含有EDTA的0.1×SSC洗涤。例如，预计包含35％甲酰胺、5×SSC和0.1％(w/v)十二烷基硫酸钠(SDS)的缓冲液适合在适度非严格条件下在45℃杂交16-72小时。

在本文中，术语“引物”系指寡核苷酸，无论天然存在经纯化、酶切后得到的或者经合成方法产生的，当置于诱导与核酸链互补的引物延伸产物的合成的条件下(例如在核苷酸和诱导试剂例如DNA聚合酶存在下，并在合适的温度和pH下)，能够作为合成的起点。所述引物优选为具有最大扩增效率的单链。优选地，所述引物为寡脱氧核苷酸。所述引物必须足够长以在所述诱导试剂存在下引发延伸产物的合成。所述引物的确切长度取决于很多因素，包括温度、引物来源和所使用方法。

在本文中，术语“诱饵”或“诱饵序列”系指寡核苷酸(例如核苷酸序列)，无论天然存在经纯化、酶切后得到的或者经合成、重组或PCR扩增产生的，能够与另一目标寡核苷酸例如目标核酸序列的至少一部分杂交。探针可为单链或双链。探针可用于特定基因序列的检测、鉴别和分离。

在本文中，术语“目标核酸分子”是指来自目标基因组区域的分子或序列。预选的探针确定了目标核酸分子的范围。因此，所述“目标”试图与其它核酸序列区分出来。一个“片段”定义为所述目标序列中的一个核酸区域，如作为核酸序列的一个“片段”或一“部分”。

在本文中，术语“分离”当用于涉及核酸时，如用于“分离核酸”时，系指核酸序列从其天然来源通常结合的至少一种其他组分或污染物中被鉴别并分离出来。分离的核酸以不同于其天然存在的形式存在。相反，未分离的核酸例如DNA和RNA的核酸以其天然存在的状态存在。所述分离的核酸、寡核苷酸或多核苷酸可以单链形式或双链形式存在。

在本文中，术语“与目标核酸序列一致的诱饵序列”是指其互补序列可以与目标核酸序列杂交的序列。优选，在严格的条件下进行杂交。当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，由于该区域无法设计诱饵序列，即诱饵序列覆盖率为零，那么会在该目标区域左右两侧寻找合适区域设计诱饵序列；一般会在左右两侧300bp以内的范围设计诱饵序列；优选150bp以内的区域。

在本发明的实施方案中，用于在本文所述的捕获方法和试剂盒中使用的诱饵序列的转录引物包含连接化合物，例如结合部分。结合部分包含任何连接或引入用于随后捕获核酸类似物/目标核酸杂交复合物的扩增引物的5’端的部分。结合部分为引入引物序列5’端的任何序列，例如可捕获的6组氨酸(6HIS)序列。例如，包含6HIS序列的引物可被镍捕获，例如在镍包被或包含镍包被珠子、颗粒等的管子、微孔、或纯化柱中，其中所述珠子包装入柱子中，样品装入并通过柱子以捕获复杂度降低的复合物(例如，和随后的目标洗脱)。用于本发明的实施方案的另一种结合部分的实例包括半抗原，例如地高辛，例如其连接到扩增引物的5’端。地高辛可使用地高辛抗体捕获，例如包被或包含抗地高辛抗体的基质。

在某些实施方案中，所述结合部分为生物素，用链霉亲和素包被所述捕获基质，例如珠子如顺磁颗粒，用于从非特异性杂交目标核酸中分离所述目标核酸/转录产物复合物。例如，当生物素为结合部分时，链霉亲和素(SA)包被的基质，例如SA包被的珠子(例如磁珠/颗粒)用于捕获所述生物素标记的核酸类似物/目标复合物。洗涤所述SA结合的复合物，所杂交的目标核酸从所述复合物洗脱进行测序。

可使用无掩膜阵列合成技术在固体载体上并行提供序列中与所述基因组至少一个区域对应的诱饵序列。替代性地，探针可使用标准DNA合成仪连续获得并应用到所述固体载体，或可从有机体获得并固定于所述固体载体。杂交之后，未杂交或与所述核酸类似物非特异性杂交的核酸通过洗涤从所述载体结合的核酸类似物中分离。剩余的核酸与所述核酸类似物特异性结合，在例如热水中或在包含例如TRIS缓冲液和/或EDTA的核酸洗脱缓冲液中从所述固体载体洗脱，以产生所述目标核酸分子富集的洗脱物。

或者，用于目标分子的诱饵序列可如上所述在固体载体上合成，作为诱饵序列集合从所述固体载体释放并扩增。所述转录的释放核酸类似物集合可共价或非共价固定于载体，例如玻璃、金属、陶瓷、或聚合珠子或其它固体载体。所述核酸类似物可设计为从所述固体载体方便释放，例如在最接近载体的核酸类似物末端或其附近提供酸或碱不稳定的核酸序列，其分别在低或高pH条件下释放所述核酸类似物。本领域已知多种可剪切的连接化合物。所述载体可以，例如，以具有液体进口和出口的圆柱提供。本领域熟悉将核酸固定到载体的方法，例如通过将生物素标记的核苷酸结合到所述核酸类似物中，并使用链霉亲和素包被所述载体，由此所述包被的载体非共价吸引并固定所述集合中的所述核酸类似物。所述样品在杂交条件下通过所述包含核酸类似物的载体，由此与所述固定载体杂交的目标核酸分子可洗脱，用于之后的分析或其它用途。

术语“核酸”可包括，例如，但不限于：脱氧核糖核酸(DNA)、核糖核酸(RNA)和人工核酸比如肽核酸(PNA)、吗啉核酸(morpholino)和锁核酸(LNA)、甘油核酸(glycol nucleicacid,GNA)和苏糖核酸(TNA)。在本文中，术语“核酸”、“核酸序列”或者“核酸分子”应该从广义解释，举例来说，可以是核糖核酸(RNA)或脱氧核糖核酸(DNA)或者其模拟物的寡聚物或者聚合物。该术语包括由天然核碱基、糖类和共价核苷间(骨架)连接构成的分子以及具有非天然核碱基、糖类和共价核苷间(骨架)连接构成的具有类似功能的分子或者其組合。因为所需的性质，比如对核酸靶分子亲和力增强以及在核酸酶和其他酶存在时稳定性増加，这样的经修饰或者取代的核酸可能比天然形式更优选，并且在本文中用术语“核酸类似物”或者“核酸模拟物”来描述。核酸模拟物的优选实例是包含肽核酸(PNA)、锁核酸(LNA)、木-锁核酸Uylo-LNA)、硫代磷酸酷、2’-甲氧基、2’-甲氧基乙氧基、吗啉核酸和氨基磷酸酯的分子或者功能上类似的核酸衍生物。

实施例

实施例1：诱饵序列的设计

随机选择人基因组上外显子和内含子上1000个位点(这些位点的分布见表)用于测试本发明的方法。对这1000个随机靶序列设计诱饵序列用于后续测试。

表1：随机选择的1000个位点的染色体分布

染色体	个数	染色体	个数
				chr1	92	chr12	73
chr2	67	chr13	23
				chr3	53	chr14	15
chr4	43	chr15	29
				chr5	45	chr16	41
chr6	124	chr17	36
				chr7	42	chr18	14
chr8	46	chr19	31
				chr9	34	chr20	21
chr10	61	chr21	9
				chr11	80	chr22	21

诱饵序列设计包括以下步骤：

1.首先，目标序列特异性分析包括如下步骤：

a)根据目标序列GC含量大小从高到低分为5档，其中1档：10％-30％；2档：30％-40％；3档：40％-60％；4档：60％-70％；5档：70％-90％；

b)分析目标序列空间结构，标记能形成稳定空间结构的目标序列；

2.其次，对诱饵序列的设定标准以及评分：

a)目标序列长度在60-150bp范围；

b)保持特异性，特异性的原则是，诱饵序列在非目标区域上结合的热力学稳定性要显著弱于在目标区域上结合的热力学稳定性；一般分析的指标为T_m(目标区域)-T_m(非特异区域)≥(非特异区域)5℃；部分数据T_m(目标区域)-T_m(非特异区域)≥10℃进行对比(强特异性限制)；不同热力学计算方法，对计算结果影响较大，这里是基于SantaLucia 2007热力学参数表的最邻近法计算；

c)无二级结构产生，二级结构包括二聚体和发卡结构，即所设计的诱饵序列不允许产生二聚体或者发卡结构；任意两个诱饵序列之间形成的二聚体，其T_m≤47℃，部分数据≤37℃进行对比(严格二聚体限制)；任一诱饵序列自身形成发卡结构，其T_m≤47℃，部分数据≤37℃进行对比(严格发夹结构限制)；不同热力学计算方法，对计算结果影响较大，这里是基于SantaLucia 2007热力学参数表的最邻近法计算；

d)对每个目标区域，分析候选诱饵序列，根据每个候选序列的特异性、二聚体、发卡结构以及与目标区域的相对位置，设计综合评分，然后根据评分结果，选择最优的一个或者多个诱饵序列(即打分函数值最大的)，：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45，打分通过自有软件计算提供，规则如下：

S_特异性的打分规则：对新设计的任一条诱饵序列，在基因组上对其进行序列比对，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有与目标区域T_m-与非特异区域T_m<5℃，则放弃该诱饵序列，重新设计，其中部分数据<10℃作为对比；否则计算所有比对结果的平均Tm值，最终S_特异性＝1-Tm_平均值/(Tm_目标-5)，部分数据S_特异性＝1-Tm_平均值/(Tm_目标-10)作为对比，其中Tm_平均值是诱饵序列与所有非特异区域比对结果的平均Tm值，Tm_目标是诱饵序列与目标区域T_m；

S_二聚体的打分规则：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，采用BLAT软件，使用默认参数，对其每一条比对结果，分别计算热力学Tm参数，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，最终S_二聚体＝(47–Tm_平均值)/47，部分数据T_m≥37℃作为对比，则放弃该诱饵序列，重新设计；否则计算所有比对结果的平均Tm值，S_二聚体＝(37–Tm_平均值)/37；

S_发卡结构的打分规则：对任一条诱饵序列，采用Smith-Waterman算法，计算其最佳的自身比对结构，并根据此结构计算其热力学Tm参数值，如果有T_m≥47℃，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(47–Tm)/47，部分数据如果有T_m≥37℃作为对比，则放弃该诱饵序列，重新设计；否则其S_发卡结构＝(37–Tm_平均值)/37；

S_相对距离的打分规则：已知待设计目标区域坐标，对任一条诱饵序列，计算其与目标区域坐标差值δ_Distance，设定可接受的差值为150，该数值是经验数值；如果差值大于150，则放弃该诱饵序列，重新设计；否则其S_相对距离＝(150-δ_Distance)/150。在与目标区域坐标差值150范围内无法设计出合适的诱饵序列，作为对比还将部分差值设置为300，其S_相对距离＝(300-δ_Distance)/300。

3.再次，根据具体目标区域情况，进行诱饵序列拷贝数补偿：

a)根据目标序列的稳定性分类情况，以3档的诱饵序列拷贝数作为基准拷贝数(即基准1)；1档和5档对应的诱饵序列需要增加较多的拷贝数，是第3挡的2.5倍；其次是2档和4档，其对应的诱饵序列也需要稍多的拷贝数是第3挡的3.5倍；

b)对于形成稳定空间结构的目标序列，诱饵序列拷贝数翻倍；

c)对于目标区域可能是重点关注区域时，例如可能是融合事件发生的区域，诱饵序列拷贝数翻倍；

d)另外在相同条件下进行诱饵序列拷贝数不补偿的平行试验作为对照。

4.最后，当目标序列无法设计探针时，例如，当目标区域是极高或者极低GC含量区域时，或者当目标区域是低复杂度区域时(低复杂度区域是指由很少种类的元素如寡核苷酸所组成的一个区域，例如微卫星这种简单重复序列)，由于该区域无法设计诱饵序列，即诱饵序列覆盖率为零，那么会在该目标区域左右两侧寻找合适区域设计诱饵序列；一般会在左右两侧300bp以内的范围设计诱饵序列；如果150bp以内的区域能设计出合适的诱饵序列，则记录作为对照。本实施例中随机选择的目标序列中有138个属于这种情况，68个在其左右150bp以内的区域成功设计出诱饵序列，另外22个在其左右150-300bp内成功设计出诱饵序列，仍有48个在这些区域都无法设计探针。

5.最终设计的诱饵序列见情况见表2。

表2：诱饵序列设计情况

其中严格打分函数限制的条件是：与目标区域T_m-与非特异区域T_m≥10℃，S_特异性＝Tm_平均值/37；T_m<37℃，S_二聚体＝(37–Tm_平均值)/37；T_m<37℃，S_发卡结构＝(37–Tm_平均值)/37。

实施例2：诱饵序列的制备

按照实施例1设计的诱饵序列进行序列制备，诱饵序列制备方法如下：

1.在诱饵序列5’端和3’端分别添加长度为20个碱基的特异性序列，特异性序列设计原则是：1)不会在目标(待捕获)基因组上产生非特异扩增产物；2)GC含量位于30％-70％之间，优选40％-60％之间；3)两两之间不会形成二聚体，或者形成的二聚体自由能≤47℃，优选≤37℃。从而形成待合成序列，所有诱饵序列同一对特异性序列，举例如下：

5’端特异性序列-诱饵序列(60-150bp不等)-3’端特异性序列为(SEQ ID NO.1)：

ATATAGATGCCGTCCTAGCG-NNNNNNNNNN……NNNNNNNNNN-TGGGCACAGGAAAGATACTT。其中“NNNNNNNNNN……NNNNNNNNNN”表示诱饵序列。

2.特异性序列通过本发明人自主开发的液相杂交捕获测序探针设计软件生成。

3.将待合成序列利用本领域公知的芯片方法大规模合成寡核苷酸，接着用用氨水将芯片上的寡核苷酸洗脱下来，经过纯化后溶于双蒸水中，形成寡核苷酸池。

4.以寡核苷酸池为模板，与5’端特异性序列和3’端特异性序列互补的5’端引物和3’端引物为引物，利用Taq聚合酶(JumpStart Taq DNA Polymerase采购至Sigma，CatalogNo.D6558)进行聚合酶链式反应扩增，获得大量的双链DNA池，具体操作步骤如下：

1)反应体系如下：

试剂名称	体积
		水	37μl
10×PCR缓冲液	5μl
		10mM dATP	1μl
10mM dCTP	1μl
		10mM dGTP	1μl
10mM dTTP	1μl
		5’端引物(10μM，C已进行甲基化修饰)	1μl
3’端引物(10μM，C已进行甲基化修饰)	1μl
		JumpStart Taq DNAPolymerase	1μl
寡核苷酸池	1μl

2)反应条件如下：

3)使用QIAGEN PCR纯化试剂盒(QIAGEN、Cat No./ID 28104)，根据其操作说明书进行PCR产物纯化：

4)使用DNA甲基转移酶AluI甲基转移酶(New England Biolabs，M0220S)或是以下括号中的两种【EcoRI甲基转移酶、G9a甲基转移酶、GpC甲基转移酶(M.CviPI)、Human DNA(cytosine-5)甲基转移酶(Dnmt1)、Human PRMT1甲基转移酶、MspI甲基转移酶、SET7甲基转移酶、SET8甲基转移酶和T4 Phage β-葡糖基转移酶(T4-BGT)】对上一步产物37℃进行10min处理：

名称	体积
		AluI甲基转移酶(5U/ul)	2ul
MspI甲基转移酶(5U/ul)	2ul
		GpC甲基转移酶(4U/ul)	2ul
10X AluI甲基转移酶反应缓冲物	5ul
		S-腺苷基蛋氨酸(32mM).	1ul
水	38ul

5)使用EZ DNA Methylation-Gold^TMKit(ZYMO Research，货号D5005)对上一步产物进行亚硫酸盐翻转处理；

6)使用5’端引物的5’端带T7序列(SEQ ID NO.2：TAATACGACTCACTATAGGG)作为正向引物与3’端引物作为反向引物，利用Taq聚合酶(JumpStart Taq DNA Polymerase采购至Sigma，Catalog No.D6558)进行聚合酶链式反应扩增，形成5’端带T7序列的双链DNA池。操作如下：

7)反应体系：

试剂名称	体积
		水	37μl
10×PCR缓冲液	5μl
		10mM dATP	1μl
10mM dCTP	1μl
		10mM dGTP	1μl
10mM dTTP	1μl
		BAITS_5_PRIMER_N-T7(10μM)	1μl
BAITS_3_PRIMER_N(10μM)	1μl
		JumpStart Taq DNAPolymerase	1μl
寡核苷酸池	1μl

8)反应条件如下：

采用凝胶电泳对上一步PCR反应产物进行分离，去除非特异条带，回收120-210bp区域片段，采用Qiagen胶回收试剂盒(QIAquick Gel Extraction Kit，Cat No./ID28704)进行纯化；

9)采用T7High Yield RNA Transcription Kit(Vazyme,TR101-01/02)，利用核酸类似物(甘油核酸GNA、锁核酸LNA、肽核酸PNA、苏糖核酸TNA或吗啉核酸)的NTP和生物素标记的UTP为底物，对上一步胶回收纯化产物进行体外转录，制备成含生物素标记的核酸类似物池：

试剂名称	体积(μl)
		ATP类似物(GNA、LNA、PNA、TNA或吗啉核酸，10mM)	2
CTP类似物(GNA、LNA、PNA、TNA或吗啉核酸，10mM)	2
		GTP类似物(GNA、LNA、PNA、TNA或吗啉核酸，10mM)	2
UTP类似物(GNA、LNA、PNA、TNA或吗啉核酸，10mM)	1.6
		生物素-UTP(1mM)	3
10×缓冲物	2
		反应缓冲物(10×)	2
上一步含T7序列的胶回收纯化产物	5.4

37℃孵育8-12小时，得到最高产量核酸类似物池，纯化后稀释至500ng/μl，置于-80℃冰箱保存。

另外以标准核酸ATP、CTP、GTP、UTP和Biotin-UTP中相同条件下平行试验作为对照。

实施3：目标区域文库捕获

1.用于高通量捕获测序的DNA文库制备：

1)取被测物种的基因组DNA 1μg，使用超声波破碎仪Bioruptor pico进行随机打断至150-250bp小片段；

2)使用Illumina TruSeq DNA library preparation试剂盒进行捕获前小片段文库制备(将试剂盒中接头替换，接头上C碱基全部进行甲基化修饰)，只使用其中试剂至接头连接模块；

3)使用EZ DNA Methylation-Gold^TMKit(ZYMO Research，货号D5005)对连接产物进行处理；

4)对上一步处理产物进行扩增，采用NEB高保真PCR试剂盒(High-Fidelity PCR Kit，New England Biolabs，Catalog#E0553S)：

①反应体系：

试剂名称	体积
		5×Phusion HF	10μl
10mM dNTPs	1μl
		Post Prmier Mix(均10μM)	1μl
重悬磁珠(步骤20)	20μl
		Phusion DNA聚合酶	0.5μl
H₂O	17.5μl

②反应条件如下：

③使用Beckman Agencourt AMPure XP Kit[Beckman(p/n A63880)]进行PCR产物纯化；

2.使用制备完的核酸类似物池和目标物种的小片段文库进行目标区域文库杂交捕获：

1)封闭引物准备：

按照以上引物序列进行合成，每种合成100 OD，将每种引物稀释至1000μM，并按照等体积混合，命名为Block 1；

2)将cot-1 DNA与salmon sperm DNA稀释至100ng/μl，并等体积混合，标记为Block 2；

3)取6μl Block 1与5μl Block 2进行混合，标记为Block Mix；

4)取1μg小片段基因组文库与11μl Block Mix混合，并使用低温冷冻干燥离心机进行浓缩至9μl，标记为试剂S1，置于冰上待用；

6)取20μl杂交液(20×SSPE,2×Dennard`s,1mM EDTA,1％SDS)置于65℃金属浴上预热，标记为S2；

7)取5μl纯水，混匀后加入2μl 500 ng/μl核酸类似物池，缓慢吸打数次混匀，标记为S3，置于冰上待用；

8)将PCR仪参数设置成95℃，5min；65℃，16h；65℃，恒温；热盖105℃；

9)将S1置于PCR模块上，启动PCR程序，程序运行至65℃ 5min后，将S2放入PCR仪模块，继续孵育5min后，将S3放入PCR仪模块，继续孵育2min；

10)将移液器调至13μl，取13μl S2转移至S3，取9μl S1转移至S3，缓慢吸打数次充分混匀混合物，密封管盖，盖上PCR热盖，孵育16小时进行探针与文库杂交；

11)取50μl Dynabeads MyOne Streptavidin T1(Invitrogen,货号：65601)置于1.5ml低吸附离心管内，加入200μl结合液[0.5M NaCl(Ambion,货号：AM9760G)，2mM Tris-HCl,pH 8.0(Ambion,货号：AM9855G),0.2mM EDTA(Ambion,货号：AM9260G)]，吸打混匀后置于磁力架上1min，移除上清液；

12)将离心管从磁力架上取下，再加入200μl结合液，吸打混匀后置于磁力架上1min，移除上清；

13)重复步骤11两次，共进行3次磁珠清洗，最后用200μl结合液重悬磁珠；

14)将探针、文库杂交混合液(步骤9产物)转移至磁珠重悬液内，密封管盖，置于旋转混匀仪上混匀结合30min；

15)将离心管置于磁力架上2min，移除上清液；

16)将离心管从磁力架上取下，加入200μl清洗液1[10×SSC(Ambion,货号：AM9763)，1％SDS(Invitrogen,货号：24730020)]重悬磁珠，密封管盖，置于旋转混匀仪上清洗10min；

17)将离心管置于磁力架上2min，移除上清；

18)把离心管从磁力架上取下，加入200μl 65℃预热的清洗液2[1×SSC(Ambion,货号：AM9763)，5％SDS(Invitrogen,货号：24730020)]重悬磁珠，并置于PCR仪模块上65℃孵育10min；

19)将离心管置于磁力架上2min，移除上清；

20)重复步骤17-18两次，共进行3次清洗；

21)向离心管内加入200μl 80％乙醇溶液，静置30s，移除全部酒精，室温晾干2min，加入20μl纯水缓慢吸打数次重悬磁珠；

3.PCR富集目标区域捕获产物，采用NEB高保真PCR试剂盒(High-Fidelity PCR Kit，New England Biolabs，Catalog#E0553S)：

1)反应体系：

试剂名称	体积
		5×Phusion HF	10μl
10 mM dNTPs	1μl
		Post Prmier Mix(均10μM)	1μl
重悬磁珠(步骤20)	20μl
		Phusion DNA聚合酶	0.5μl
H₂O	17.5μl

2)反应条件如下：

3)使用Beckman Agencourt AMPure XP Kit[Beckman(p/n A63880)]进行PCR产物纯化；

4)使用Illumina测序平台进行目标区域捕获文库进行高通量测序，测序读长建议使用PE150模式。

3.结果

1)采用Illumina高通量测序仪Hiseq 4000，对测序文库进行上机测序，得到1000个位点的测序数据；

2)利用Bismark软件，将测序数据与人类参考基因hg19进行比对，所用的参数为：bismark--bowtie2-p4-L32，比对完成后利用samtools view工具筛选出目标区域的数据并计算甲基化水平。

3)采用samtools-1.2软件中的samtools stats工具统计测序数据的大小、比对率、重复率、质量值，接着再用软件中的samtools depth工具，计算目标区域每个位置的测序深度；

4)根据目标区域每个位置的测序深度，分别统计测序深度≥1、≥4、≥10及≥20的碱基数量，再将该碱基数量除以目标区域的总碱基数量，从而得到1×覆盖率、4×覆盖率、10×覆盖率及20×覆盖率的参数。

表3：1000个位点捕获测序结果

从以上表3可以看出，以LNA为例，平均深度有106.93层；4×覆盖率有74.48％，而20×覆盖率也有59.5％，具有较好的覆盖率和均一性，而总数据量仅为2.97Mb reads。这样的结果带来的有益效果有：1)测序量小，有效降低成本；2)平均测序深度高，即每一个目标位点被测序多次，因而数据准确性高；3)覆盖率高，遗漏位点少；4)均一性好，即绝大多数位点具有相近的覆盖深度。

根据对作为比较的数据子集以及对照数据的分析，诱饵序列拷贝数不补偿的情况下覆盖率和均一性分别下降4.8和5.0个百分点；强特异性限制、严格二聚体限制、严格发夹结构限制和严格打分函数限制的情况下覆盖率和均一性分别增加6.8和7.3个百分点；150bp以内的区域与150-300bp内的区域覆盖率和均一性分别大2.4和3.5个百分点；以标准核酸ATP、CTP、GTP、UTP和Biotin-UTP平行试验覆盖率和均一性分别降低5.1和4.9个百分点。

虽然已经结合优选实施例对本发明进行了描述，但应当理解本发明的保护范围并不局限于这里所描述的实施例。结合这里披露的本发明的说明和实践，本发明的其他实施例对于本领域技术人员都是易于想到和理解的。说明和实施例仅被认为是示例性的，本发明的真正范围和主旨均由权利要求所限定。

Claims

1.一种针对目标区域进行DNA甲基化测序的方法，所述方法包括：

b)以所述诱饵序列为模板进行体外链聚合酶扩增得到DNA双链池，随后对DNA双链池进行体外DNA甲基转移酶处理和亚硫酸盐的处理，进而通过体外转录制备核酸类似物，所述核酸类似物带有结合部分，例如生物素结合部分；

d)所述核酸类似物与所述处理的核酸样品杂交，使得所述核酸类似物与所述处理的核酸样品中的目标区域核酸形成核酸类似物/DNA杂交复合物；

f)对步骤e)后获得的目标区域核酸进行测序。

2.根据权利要求1的方法，步骤b)中所述的DNA甲基转移酶选自如下的一种或多种：dam甲基转移酶、AluI甲基转移酶、CpG甲基转移酶(M.SssI)、EcoRI甲基转移酶、G9a甲基转移酶、GpC甲基转移酶(M.CviPI)、Human DNA(cytosine-5)甲基转移酶(Dnmt1)、Human PRMT1甲基转移酶、MspI甲基转移酶、SET7甲基转移酶、SET8甲基转移酶和T4Phageβ-葡糖基转移酶(T4-BGT)等。

3.根据权利要求1的方法，步骤e)和f)之间还包括步骤f’)：对所述核酸类似物/DNA杂交复合物进行扩增，对所述片段化的核酸样品中的目标区域核酸进行富集。

4.根据权利要求1的方法，其中步骤b)中利用核酸类似物GNA、LNA、PNA、TNA或吗啉核酸进行体外转录，制备核酸类似物。

5.根据权利要求1的方法，其中所述诱饵序列具有选自如下的特性：i)自身不产生发夹结构并且相互之间无二聚体产生，ii)拷贝数根据所述目标核酸序列的GC含量和/或空间结构进行补偿，iii)当所述目标区域是极高或者极低GC含量区域时或者当目标区域是低复杂度区域时，用所述目标区域两侧区域作为替代区域设计诱饵，设计方法与所述目标区域一致，iv)无特异性结合。

6.根据权利要求5的方法，其中ii)中拷贝数根据所述目标核酸序列的GC含量进行补偿是指：以GC含量在50％的诱饵序列拷贝数系数为基准1，GC含量10％-90％之间每偏离1％，诱饵序列拷贝数系数增加0.08-0.12。

7.根据权利要求1的方法，其中所述诱饵序列在固体载体上，例如在微阵列载玻片上。

8.根据权利要求1的方法，其中对每个目标区域，所述诱饵序列是在特异性、二聚体、发卡结构以及与目标区域的相对位置方面综合评分最优的一个或者多个诱饵序列，所述综合评分通过如下的打分函数进行：S＝a×S_特异性+b×S_二聚体+c×S_发卡结构+d×S_相对距离，其中a＝0.26-0.34、b＝0.08-0.12、c＝0.17-0.23、d＝0.35-0.45，具体的打分计算方法如下：

S_二聚体的打分计算：对新设计的任一条诱饵序列，与每一条已经设计的诱饵序列进行二聚体比对分析，对其每一条比对上的序列分别计算所述诱饵序列与所述比对上的诱饵序列之间的Tm，所述T_m<47℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(47–Tm_平均值)/47，优选T_m<37℃，计算所述诱饵序列与所有比对上的诱饵序列之间的平均Tm，S_二聚体＝(37–Tm_平均值)/37；

S_发卡结构的打分计算：对任一条诱饵序列，计算其最佳的自身比对结构，并计算所述结构的Tm，所述T_m<47℃，并且S_发卡结构＝(47–Tm)/47，所述Tm<47℃，并且S_发卡结构＝(37–Tm_平均值)/37；

9.权利要求1-8任一项涉及到的诱饵序列。

10.包括权利要求9所述的诱饵序列的试剂盒，所述试剂盒还包括双链接头分子、多种不同的寡核苷酸探针。