CN103103624A

CN103103624A - 高通量测序文库的构建方法及其应用

Info

Publication number: CN103103624A
Application number: CN2011103620322A
Authority: CN
Inventors: 王君文; 高飞; 蒋慧; 武靖华; 吴红龙
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Technology Solutions Co Ltd
Priority date: 2011-11-15
Filing date: 2011-11-15
Publication date: 2013-05-15
Anticipated expiration: 2031-11-15
Also published as: US9920363B2; WO2013071876A1; US20140329697A1; CN103103624B

Abstract

提供了高通量测序文库的构建方法及其应用。构建高通量测序文库的方法包括：将基因组DNA片段化；将DNA片段进行末端修复；在经过末端修复的DNA片段的3’末端添加碱基A；将具有粘性末端A的DNA片段与甲基化接头相连；利用特异性探针对所述连接产物进行杂交捕获，以便获得目的片段；将所述目的片段进行重亚硫酸盐处理，以便将所述目的片段中非甲基化的胞嘧啶转换为尿嘧啶；将经过转换的目的片段进行PCR扩增；分离纯化扩增产物，该扩增产物构成高通量测序文库。采用本发明的构建高通量测序文库的方法及其应用，能够方便有效地构建样本的基因组特定区域的高通量测序文库。

Description

高通量测序文库的构建方法及其应用

技术领域

本发明涉及生物技术领域。具体地，涉及DNA甲基化检测技术，特别是涉及基因组特定区域的甲基化检测。更具体地，本发明提供了一种构建高通量测序文库的方法、一种确定样本的基因组特定区域的甲基化信息的方法、一种用于确定样本的基因组特定区域的甲基化信息的装置以及一种用于构建样本的基因组特定区域高通量测序文库的试剂盒。

背景技术

DNA甲基化是研究最为深入的表观遗传学机制，DNA甲基化在维持正常细胞功能、抑制寄生DNA成分对基因组完整性的损害、染色质结构修饰、X染色体失活、基因组印记、胚胎发育以及人类肿瘤发生中起着重要作用，是目前新的研究热点之一。

然而，目前对基因组特定区域如启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的甲基化检测的研究，仍有待改进。

发明内容

本发明旨在解决现有技术问题的至少之一。由此，为了代表性检测基因组上特定区域的甲基化信息，本发明提供了高通量测序文库的构建方法及其应用。

根据本发明的一个方面，本发明提供了一种构建高通量测序文库的方法。根据本发明的实施例，该方法包括以下步骤：将基因组DNA片段化，以便获得DNA片段；将所述DNA片段进行末端修复，以便获得经过末端修复的DNA片段；在所述经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段；将所述具有粘性末端A的DNA片段与甲基化接头相连，以便获得连接产物；利用特异性探针对所述连接产物进行杂交捕获，以便获得目的片段；将所述目的片段进行重亚硫酸盐处理，以便将所述目的片段中非甲基化的胞嘧啶转换为尿嘧啶，获得经过转换的目的片段；将所述经过转换的目的片段进行PCR扩增，以便获得扩增产物；以及分离纯化所述扩增产物，所述扩增产物构成所述高通量测序文库。

利用根据本发明实施例的构建高通量测序文库的方法，能够有效地构建基因组DNA样品的高通量测序文库，特别是能够有效地构建基因组DNA样品的已知甲基化位点的特定区域的高通量测序文库，从而能够有效、充分地应用于高通量测序技术，通过对文库的测序，然后基于对测序结果的数据分析，能够有效地获得基因组特定区域的甲基化位点信息，实现对基因组DNA样品的基因组特定区域的甲基化检测。

根据本发明的另一方面，本发明提供了一种确定样本的基因组特定区域的甲基化信息的方法。根据本发明的实施例，该方法包括下列步骤：根据前面所述构建高通量测序文库的方法，构建所述样本的基因组特定区域的高通量测序文库；对所述样本的基因组特定区域的高通量测序文库进行测序，以便得到测序结果；以及对所述测序结果进行数据分析，以便确定所述样本的基因组特定区域的甲基化信息。

利用根据本发明实施例的确定样本的基因组特定区域的甲基化信息的方法，能够准确地确定样本的基因组特定区域的甲基化信息，从而实现对样本的基因组特定区域的甲基化检测。

根据本发明的再一方面，本发明提供了一种用于确定样本的基因组特定区域的甲基化信息的装置。根据本发明的实施例，该装置包括：文库制备单元，所述文库制备单元用于制备样本的基因组特定区域的高通量测序文库，所述文库制备单元内设置有特异性探针；测序单元，所述测序单元与所述文库制备单元相连，并且从所述文库制备单元接收所述样本的基因组特定区域的高通量测序文库，以便用于对所述样本的基因组特定区域的高通量测序文库进行测序，获得测序结果；以及数据分析单元，所述数据分析单元与所述测序单元相连，并且从所述测序单元接收所述测序结果，以便对所述测序结果进行数据分析，确定所述样本的基因组特定区域的甲基化信息。

利用根据本发明实施例的用于确定样本的基因组特定区域的甲基化信息的装置，能够方便准确地确定样本的基因组特定区域的甲基化信息，可以应用于多种针对基因组特定区域的甲基化的研究。

根据本发明的又一方面，本发明提供了一种用于构建样本的基因组特定区域的高通量测序文库的试剂盒。根据本发明的实施例，该试剂盒包括：特异性探针，所述特异性探针是对已知甲基化位点特异性的。利用根据本发明实施例的用于构建样本的基因组特定区域的高通量测序文库的试剂盒，能够方便有效地构建样本的基因组特定区域的高通量测序文库。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1：显示了根据本发明一个实施例的构建高通量测序文库的方法的流程示意图；

图2：显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下(覆盖深度≥1及覆盖深度＞5)，每条染色质上的捕获区域占探针靶区域的百分比图。

图3：显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下，各条染色质中检测到甲基化信息的启动子占该染色质的总启动子的百分比图。

图4：显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，基因组上启动子区域、CpG岛、CpG岛外(在本文中指为CGI shore)及印记基因区域的甲基化水平分布结果。

(a)显示了根据本发明一个实施例的确定的样本的基因组CpG岛、CGI shore区域的甲基化水平分布图。

(b)显示了根据本发明一个实施例的确定的样本的基因组启动子区域的甲基化水平分布图。

(c)显示了样本的基因组特定区域的原始分布和根据本发明一个实施例的确定的样本的基因组特定区域的高通量测序文库的reads分布及启动子、CpG岛区域的甲基化水平分布图。

图5：显示了根据本发明一个实施例的用于确定样本的基因组特定区域的甲基化信息的装置的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

构建高通量测序文库的方法

根据本发明的一个方面，本发明提供了一种构建高通量测序文库的方法。参考图1，根据本发明的实施例，该方法包括以下步骤：

首先，将基因组DNA片段化，以便获得DNA片段。在本发明中所使用的术语“DNA”可以是任何包含脱氧核糖核苷酸的聚合物，包括但不限于经过修饰的或者未经修饰的DNA。本领域的技术人员可以理解，基因组DNA的来源不受特别限制，可以从任何可能的途径获得，可以是通过市售直接获得，也可以是从其他实验室直接获取，还可以是直接从样本中提取。根据本发明的实施例，可以从样本中提取获得基因组DNA。根据本发明的一个实施例，构建高通量测序文库的方法可以进一步包括从样本中提取基因组DNA的步骤。根据本发明的一些具体示例，样本可以来源于哺乳动物、植物、和微生物的至少一种。根据本发明的一些实施例，哺乳动物可以为人和小鼠的至少一种。根据本发明的一个实施例，基因组DNA可以为人类全血基因组DNA，优选为外周血单核细胞基因组DNA。发明人发现，当采用YH cell基因组DNA构建高通量测序文库时，从样本中提取基因组DNA的操作方便易行，且获得的DNA质量好、甲基化信息完整，由其构建的样本的基因组特定区域的高通量测序文库能够方便地应用于高通量测序技术，从而基于对测序结果的数据分析就能方便有效地获得样本的基因组特定区域的甲基化信息。根据本发明的实施例，基因组DNA的量不受特别限制，根据本发明的具体示例，优选基因组DNA的量为2μg。发明人惊奇地发现，当基因组DNA的量为2μg时，根据本发明实施例的构建高通量测序文库的方法构建的样本的基因组特定区域的高通量测序文库，能够非常方便地应用于高通量测序技术，如Solexa测序技术，且文库测序结果准确，可重复性好，包含的特定区域的甲基化信息准确、甲基化位点覆盖率高。

其次，将DNA片段进行末端修复，以便获得经过末端修复的DNA片段。根据本发明的一个实施例，在将DNA片段进行末端修复前，可以进一步包括纯化DNA片段的步骤，由此，使得后续的末端修复易于进行。根据本发明的实施例，将DNA片段进行末端修复可以利用Klenow片段、T4 DNA聚合酶和T4多核苷酸激酶进行，其中，所述Klenow片段具有5’→3’聚合酶活性和3’→5’聚合酶活性，但缺少5’→3’外切酶活性。由此，能够方便准确地对DNA片段进行末端修复。根据本发明的实施例，还可以进一步包括对经过末端修复的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

接下来，在经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段。根据本发明的一个实施例，可以利用Klenow(3’-5’exo-)，即具有3’→5’外切酶活性的Klenow，在经过末端修复的DNA片段的3’末端添加碱基A。由此，能够方便准确地将碱基A添加到经过末端修复的DNA片段的3’末端。根据本发明的实施例，还可以进一步包括对具有粘性末端A的DNA片段进行纯化的步骤，由此能够方便地进行后续处理。

接着，将具有粘性末端A的DNA片段与甲基化接头相连，以便获得连接产物。本发明中所使用的术语“甲基化接头”是指这样的一种接头，在其核苷酸序列中，所有C位点均被甲基化修饰。根据本发明的一个实施例，在将具有粘性末端A的DNA片段与甲基化接头相连前，可以进一步包括对常规测序所使用的接头进行甲基化的步骤。由此，能够有效避免测序接头对后续重亚硫酸盐处理等操作的干扰。本领域的技术人员可以理解，对接头进行甲基化的方法不受特别限制，可以利用本领域已知的任何方法对测序接头进行甲基化。

根据本发明的一些实施例，甲基化接头中还可以进一步包含标签，由此可以方便地同时构建多种样本的基因组特定区域的高通量测序文库，并能够有效地应用于高通量测序平台，从而在对测序结果进行数据分析后，基于标签的序列信息，就能够准确地区分多种样本的基因组特定区域的高通量测序文库的序列信息以及样本的基因组特定区域的甲基化信息，由此，能够充分地利用高通量测序平台，且能够节省时间、降低成本。

根据本发明的一个实施例，将具有粘性末端A的DNA片段与甲基化接头相连是利用T4DNA连接酶进行的，由此可以方便地获得连接产物。根据本发明的实施例，还可以进一步包括对连接产物进行纯化的步骤，由此能够方便地进行后续处理。

然后，利用特异性探针对所述连接产物进行杂交捕获，以便获得目的片段。根据本发明的实施例，这里的术语“特异性探针”是指探针是对已知甲基化位点特异性的。根据本发明的具体示例，特异性探针是基于采用人类基因组作为参考序列，并且采用基因组上已知具有甲基化位点的特定基因区域作为靶序列而设计的，具体地，已知具有甲基化位点的基因区域包括选自启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的至少一种，由此，利用根据本发明实施例的特异性探针进行杂交捕获，能够有效地捕获样本中与靶序列互补的序列，即样本中已知具有甲基化位点的基因区域(在本说明书中，有时也称为“基因组特定区域”)。

此外，根据本发明的一个实施例，在杂交捕获前，可以进一步包括利用诸如c_ot-1DNA和接头封闭序列的单链寡核苷酸对连接产物(尤其是连接产物的基因组序列中的重复区域)和连接产物上的甲基化接头进行杂交封闭的步骤。发明人惊奇地发现，当使用c_ot-1DNA和接头封闭序列分别对连接产物(尤其是连接产物的基因组序列中的重复区域)和连接产物上的甲基化接头进行杂交封闭后，能够显著地增强对连接产物的杂交捕获。根据本发明的实施例，c_ot-1DNA的使用量不受特别限制，根据具体的示例，优选采用过量的c_ot-1DNA对连接产物的基因组序列中的重复区域进行杂交封闭。其中，这里所使用的术语“过量”是指c_ot-1DNA的量远大于待进行杂交捕获的连接产物的量，即采用c_ot-1DNA的量可以是待进行杂交捕获的连接产物的量的2倍以上。根据本发明的具体示例，优选，采用c_ot-1DNA的量为待进行杂交捕获的连接产物的量的5倍。根据本发明的一些实施例，采用c_ot-1DNA的量小于待进行杂交捕获的连接产物的量的5倍，则封闭杂交不彻底，重复序列的非特异性强杂交背景信号干扰强烈，严重影响核酸杂交的效率；而采用c_ot-1DNA的量大于待进行杂交捕获的连接产物的量的5倍，则过多的c_ot-1DNA会影响探针与连接产物的结合，同样会影响核酸杂交的效率。由此，采用待进行杂交捕获的连接产物的量的5倍的c_ot-1DNA对连接产物的基因组区域重复序列进行杂交封闭，能够方便、有效地进行封闭，以去掉重复序列DNA，从而在后续的核酸杂交过程中，能够有效避免重复序列产生的非特异性强杂交背景信号的干扰，显著提高核酸杂交的效率，增强杂交效果。根据本发明的实施例，接头封闭序列包括选自Block1和Block2的至少一种，由此，能够有效地对连接产物上的甲基化接头进行封闭。根据本发明的实施例，可以采用1μg的连接产物进行所述杂交捕获，由此能够提高杂交捕获的效率。根据本发明的具体示例，利用特异性探针对所述连接产物进行杂交捕获，可以进一步包括利用链霉素磁珠捕获目的片段，由此，能够高效地捕获目的片段。

接下来，将目的片段进行重亚硫酸盐处理，以便将目的片段中非甲基化的胞嘧啶转换为尿嘧啶，获得经过转换的目的片段。根据本发明的实施例，在将目的片段进行重亚硫酸盐处理之前，可以进一步包括将目的片段与片段化的λ-DNA混合。发明人发现，通过添加外源DNA(λ-DNA)，即将目的片段与外源DNA混合，然后进行重亚硫酸盐高效共处理，对目标DNA片段能够起到保护作用，最大限度地降低重亚硫酸盐对微量DNA的破坏，可以进一步提高检测精度，使得较少量的基因组DNA，甚至纳克级，例如50-150ng基因组的甲基化检测成为现实。根据本发明的实施例，片段化的λ-DNA的添加量不受特别限制，根据具体的示例，优选片段化的λ-DNA的量为200-400ng，更优选为200ng。本领域技术人员能够理解，可以通过本领域已知的任意方法制备这些片段化的λ-DNA，例如可以随同前面的DNA片段化处理一起进行制备。

此外，将目的片段进行重亚硫酸盐处理，可以通过本领域已知的任何方法进行，根据本发明的具体示例，可以采用商品化的试剂盒进行，优选地采用EZ DNA Methylation-GoldKit^TM(ZYMO)进行。发明人惊奇地发现，采用EZ DNA Methylation-Gold Kit^TM(ZYMO)对目的片段进行重亚硫酸盐处理时，方便快捷，且处理效果好，目的片段中非甲基化的胞嘧啶能够高效准确地转换为尿嘧啶，并且利于后续处理。

然后，将经过转换的目的片段进行PCR扩增，以便获得扩增产物。根据本发明的实施例，可以使用热启动taq DNA聚合酶对经过转换的目的片段进行PCR扩增。根据本发明的实施例，热启动taq DNA聚合酶的种类不受特别限制，根据本发明的具体示例，热启动taqDNA聚合酶可以为r-taq聚合酶，由此PCR扩增效率高、用时少。

最后，分离纯化扩增产物，所得到的扩增产物构成全基因组甲基化高通量测序文库。根据本发明的实施例，分离纯化扩增产物的方法不受特别限制，根据本发明的具体示例，可以通过选自磁珠纯化、纯化柱纯化和2％的琼脂糖凝胶电泳的至少一种进行，优选通过2％的琼脂糖凝胶电泳进行。根据本发明的一些具体示例，高通量测序文库的文库片段长度为300-450bp，由此，高通量测序文库能够方便有效地应用于高通量测序平台如Solexa测序平台，且可重复性好，测序结果真实可靠，包含特异性探针所针对的基因组特定区域的甲基化信息较完整。

利用根据本发明实施例的构建高通量测序文库的方法，能够有效地构建样本的基因组特定区域的高通量测序文库，从而能够有效、充分地应用于高通量测序技术，通过对高通量测序文库的测序，然后基于对测序结果的数据分析，就能够有效地获得样本的基因组特定区域的甲基化信息，实现对样本的基因组特定区域的甲基化检测。

确定样本的基因组特定区域的甲基化信息的方法和装置

根据本发明的另一方面，本发明提供了一种确定样本的基因组特定区域的甲基化信息的方法。根据本发明的实施例，该方法包括下列步骤：根据本发明实施例的构建高通量测序文库的方法构建样本的基因组特定区域的高通量测序文库；对该样本的基因组特定区域的高通量测序文库进行测序，以便得到测序结果；以及对测序结果进行数据分析，以便确定样本的基因组特定区域的甲基化信息。

根据本发明的一些实施例，测序是利用高通量测序技术进行的。本领域的技术人员可以理解，可以通过本领域已知的任何高通量测序技术进行测序，根据本发明的具体示例，优选地利用Hiseq2000测序仪进行测序。发明人发现，利用Hiseq2000测序仪对样本的基因组特定区域的高通量测序文库进行测序，能够有效地获得测序结果，且测序用时少、效率高、测序结果准确，可重复性好。

利用根据本发明实施例的确定样本的基因组特定区域的甲基化信息的方法，能够有效地构建样本的基因组特定区域的高通量测序文库，并且能够通过高通量测序技术如Solexa测序技术实现对文库的准确测序，基于对测序结果的数据分析，就能够准确地确定样本的基因组特定区域的甲基化信息，从而实现对样本的基因组特定区域的甲基化检测，且特定区域的甲基化位点覆盖多，获得甲基化信息完整。

根据本发明的再一方面，本发明提供了一种用于确定样本的基因组特定区域的甲基化信息的装置1000。参考图5，根据本发明的一个实施例，该装置包括：文库制备单元100、测序单元200以及数据分析单元300。

根据本发明的实施例，文库制备单元100用于制备样本的基因组特定区域的高通量测序文库，其中，文库制备单元100内设置有特异性探针。根据本发明的实施例，特异性探针是对已知甲基化位点特异性的。根据本发明的具体示例，特异性探针是基于采用人类基因组作为参考序列，并且采用基因组上已知具有甲基化位点的特定基因区域作为靶序列而设计的，具体地，已知具有甲基化位点的基因区域包括选自启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的至少一种，由此，利用根据本发明实施例的特异性探针进行杂交捕获，能够有效地捕获样本中与靶序列互补的序列，即样本中已知具有甲基化位点的基因区域。由此，文库制备单元100可以适于实施前面所述的高通量测序文库构建方法。

测序单元200与文库制备单元100相连，可以从文库制备单元100接收所制备的样本的基因组特定区域的高通量测序文库，并对所接收的样本的基因组特定区域的高通量测序文库进行测序，从而可以获得测序结果。

数据分析单元300与测序单元200相连，可以从测序单元200接收所获得的测序结果，并且能够进一步对测序结果进行数据分析，从而基于分析结果确定样本的基因组特定区域的甲基化信息，最终实现对样本的基因组特定区域的甲基化检测。

本领域技术人员能够理解的是，可以采用本领域中已知的任何适于进行上述操作的装置作为上述各个单元的组成部件。在本文中所使用的术语“相连”应作广义理解，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

利用根据本发明实施例的用于确定样本的基因组特定区域的甲基化信息的装置，能够方便准确地确定样本的基因组特定区域的甲基化信息，从而可以应用于多种针对基因组特定区域，如已知甲基化位点的基因组区域的甲基化的研究，例如可以用于对基因组特定区域的甲基化异常进行检测。

试剂盒

根据本发明的另一方面，本发明提供了一种用于构建样本的基因组特定区域的高通量测序文库的试剂盒。根据本发明的实施例，该试剂盒包括：特异性探针，该特异性探针是对已知甲基化位点特异性的。根据本发明的一些具体示例，特异性探针是基于采用人类基因组作为参考序列，并且采用基因组上已知具有甲基化位点的特定基因区域作为靶序列而设计的，具体地，已知具有甲基化位点的基因区域包括选自启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的至少一种，由此，利用根据本发明实施例的特异性探针进行杂交捕获，能够有效地捕获样本中与靶序列互补的序列，即样本中已知具有甲基化位点的基因区域。本领域的技术人员可以理解，试剂盒中还可以进一步包括构建样本的基因组特定区域的高通量测序文库所需的任何其他组分，在此不再赘述。利用根据本发明实施例的用于构建样本的基因组特定区域的高通量测序文库的试剂盒，能够方便有效地构建样本的基因组特定区域的高通量测序文库。

需要说明的是，根据本发明实施例的构建样本的基因组特定区域的高通量测序文库的方法及其应用，是本申请的发明人经过艰苦的创造性劳动和优化工作完成的。

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1：

本实施例以2μg的人类外周血单核细胞基因组DNA为样本，按照下列步骤实施。

一、基因组DNA片段化：

利用covaris-S2打断仪，按照下表设置的参数，将样本基因组DNA进行片段化处理，以便获得DNA片段。

处理1	负载比(％)	10
				强度	5
	循环/脉冲	200
				时间(s)	50
处理2	时间(s)	0
			处理3	时间(s)	0
处理4	时间(s)	0
			循环		3

将获得的DNA片段进行电泳检测，要求DNA片段主带集中在150-300bp之间，无蛋白、RNA污染。利用QIAquick PCR纯化试剂盒(Qiagen)或磁珠纯化，将检测合格的DNA片段纯化回溶到32μl的洗脱缓冲液中，备用。

用同样的方法制备200-400ng的片段化的λ-DNA，其中λ-DNA为外源非甲基化的。

二、末端修复：

1)将上一步获得的DNA片段按照下表在1.5mL的离心管中配制末端修复反应体系：

2)将上述反应体系置于20℃的Thermomixer(Eppendorf)上，进行反应30min。反应完后用QIAquick PCR纯化试剂盒(Qiagen)进行纯化，最后将纯化产物溶于34μl洗脱缓冲液。

三、添加碱基A：

1)将上一步得到的DNA按下表在1.5mL的离心管中配制添加碱基A的反应体系：

2)将上述反应体系置于37℃的Thermomixer(Eppendorf)上，进行反应30min。反应完后用MiniElute PCR纯化试剂盒(Qiagen)进行纯化，最后将纯化产物溶于20μL洗脱缓冲液。

四.连接甲基化接头：

1)将上一步得到的DNA按下表配制甲基化接头(有时也称为“甲基化标签接头”)的连接反应体系：

^*甲基化接头序列为：

接头1：5’Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC

接头2：5’TACACTCTTTCCCTACACGACGCTCTTCCGATCT

或采用以下标签接头进行混合杂交(Pooling杂交)：

接头1’：5’Phos/NNNNNNAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC

接头2’：5’TACACTCTTTCCCTACACGACGCTCTTCCGATCTNNNNNNT

接头1和接头2或接头1’和接头2’序列中的C均进行了甲基化修饰保护。

2)将上述反应体系置于20℃的Thermomixer(Eppendorf)上，进行反应15min，获得连接产物。反应完后用MiniElute PCR纯化试剂盒(Qiagen)进行纯化，最后将纯化的连接产物溶于22μL洗脱缓冲液。

五、杂交捕获目的片段：

1、设计获得特异性探针：通过SSAHA算法，设计确定一套仅由唯一序列组成的特异性探针。具体地，以人类基因组hg19为参考序列，选取全基因组已知甲基化位点的约10,000个启动子、28,000个CpG岛、28,000个CpG岛外和61个印记基因的区域作为靶序列设计探针，其中，将少于200bp的区域通过填充补足修改为200bp的长度，并且去除重迭区域，且要求探针的序列不存在重迭序列，所有探针要满足在允许高达5个插入、缺失或错配下仍为唯一序列的条件，并且合成的每一条DNA探针序列上分别通过偶联生物素作为后续的捕获标记。然后，通过Roche NimbleGen生产获得设计好的特异性探针，备用。

表1显示了根据本发明一个实施例的特异性探针对靶区域覆盖度的评估结果。由表1可知，该探针几乎覆盖了基因组全部的启动子区域、绝大部分的印记基因和CpG岛、CGI shore区域。发明人发现，未覆盖到的区域大多是一些存在一定重复性的短序列区域，若将其增加到探针可捕获范围内，不仅会增加许多非靶区域的数据信息，同时重复序列的存在还可能影响到对其它区域的捕获效果，而这些区域的甲基化信息含量较少，且不会显著影响甲基化的整体水平，因此不将这些区域作为探针的靶序列。

2、杂交

1)将上一步得到的连接产物，按下表配制杂交反应体系：

用Qubit fluorometer和相应的Quant-iT dsDNA HS检测试剂盒(Invitrogen)对所得到的连接产物进行定量，然后取1μg的连接产物于一个新的1.5mL的EP管中，并加入10μL 1mg/mL的c_ot-1DNA和各1nmol的接头封闭序列，然后置于SpeedVac中于60℃下蒸干，备用。然后，在蒸干的EP管中分别加入2×SC杂交缓冲液和SC杂交组合物A。

^*接头封闭序列为：

Blockl：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATC

Block2：5’AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTA

或采用以下接头封闭序列进行混合杂交：

Block1’：5’GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTNNNNNN

Block2’：5’ANNNNNNAGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTA

其中，Block1’和Block2’中的碱基NNNNNN分别和接头1’和接头2’序列中的碱基N互补配对。

将上述反应体系混匀后置于离心机上全速离心10秒，然后将其转移至heat block中于95℃下孵育10分钟，使DNA变性。

4)取出上述样品，震荡混匀后于下室温全速离心10秒，然后将其转移至一个0.2mL的PCR管中或96孔PCR板中，并加入4.5μL前面所述的探针文库，震荡混匀，然后置于离心机上全速离心10秒，再将该PCR管或96孔PCR板置于PCR仪上，于47℃下杂交64h-72h，其中PCR仪的热盖温度设置为57℃。

3、序列捕获

1)准备洗涤缓冲液

a)将以下四种洗涤缓冲液进行稀释：10×SC洗涤缓冲液I、10×SC洗涤缓冲液II、10×SC洗涤缓冲液III和2×Stringent洗涤缓冲液，稀释到1×溶液后贮存，其中贮存时间不宜超过2周。

b)于47℃下预热配制好的1mL Stringent洗涤缓冲液和1mL SC洗涤缓冲液I两种溶液

2)准备链霉素磁珠

a)从冰箱中取出Dynabeads M-280Streptavidin(Invitrogen)磁珠，充分混匀后取100μL于一个新的1.5mL的EP管中；

b)将EP管置于磁力架上至澄清，用移液器小心的去除上清，然后加入200μL的Streptavidin Dynabead结合洗涤缓冲液；

c)将上述反应体系震荡(Vortex)10s，混匀后，将EP管重新放回磁力架至液体澄清，用移液器小心的去除上清；

d)将上一步得到的反应体系进行两次洗涤；

e)用100μL的Streptavidin Dynabead结合洗涤缓冲液将上述反应体系的磁珠进行重悬，并将其转入0.2mL的小管中；

f)用磁力架结合磁珠(将小管靠到磁力架上)，直到液体澄清，用移液器小心地去除上清。

3)利用链霉素磁珠捕获目的片段

将杂交混合物吸出来(记录杂交后剩余体积)加入到准备好的磁珠中，吹打混匀10次后将小管放在PCR仪上，47℃下孵育45min(PCR仪热盖温度应设为57℃，每隔15min，取出震荡3s，以防止磁珠沉淀)。

4)洗涤结合了捕获DNA的链霉素磁珠

a)孵育45min后，将混合物从0.2mL的小管转入1.5mL的EP管中，将EP管置于磁力架上至液体澄清，小心的去除上清；

b)加入100μL预热到47℃的1×洗涤缓冲液I，震荡混匀10s，将EP管置于磁力架上至液体澄清，小心的去除上清；

c)从磁力架上取下EP管，加入200μL预热到47℃的1×Stringent洗涤缓冲液，移液器吹打混匀10次(该操作应迅速以便管中的液体不低于47℃)；

d)47℃下孵育5min后，将EP管置于磁力架上至液体澄清，小心的去除上清；

e)重复步骤c)-d)，共用1×Stringent洗涤缓冲液洗两次；

f)加200μL室温放置的1×洗涤缓冲液I，震荡混匀2min，如果液体溅到管盖上，用手指轻弹EP管使其集中到管底，将EP管置于磁力架上至液体澄清，小心地去除上清；

g)加200μL室温放置的1×洗涤缓冲液II，震荡混匀1min，将EP管置于磁力架上至液体澄清，小心的去除上清；

h)加200μL室温放置的1×洗涤缓冲液III，震荡混匀30s，将EP管置于磁力架上至液体澄清，小心的去除上清。

4)洗脱结合了目的片段的链霉素磁珠

a)在以上洗涤好的磁珠中加入50μLSureSelect洗脱缓冲液，振荡5s，重悬磁珠；

b)将上述反应体系于室温下孵育10min，将EP管置于磁力架上5-10min至液体澄清；

c)用移液器将上清液转移到一个新的1.5mL离心管中(此时的上清液中含有捕获的DNA，磁珠可丢弃)；

d)向上清液中加入50μLSureSelect中和缓冲液，混匀；

e)用MiniElute PCR纯化试剂盒(Qiagen)纯化后，溶于22μL的洗脱缓冲液中。

六、重亚硫酸盐处理：

以前面制备好的200-400ng片段化的λ-DNA作为外源DNA，采用EZ DNAMethylation-Gold Kit^TM(ZYMO)，将杂交捕获的目的片段DNA和外源DNA一起进行重亚硫酸盐共处理，具体步骤如下：

1)制备CT转换试剂(CT ConversionReagent)溶液：从试剂盒中取出CT转换试剂(固体混合物)，分别加入900μL的水、50μL的M-溶解缓冲液(M-Dissolving Buffer)和300μL的M-稀释缓冲液(M-Dilution Buffer)，室温下溶解并且震荡10分钟或在摇床上摇动10分钟。

2)M-洗涤缓冲液的制备：向M-洗涤缓冲液中添加24mL 100％的乙醇，备用。

3)将待转换的目标片段DNA与λ-DNA混合物加入同一PCR管中，若不足20μL的则用水补足。

4)在PCR管中加入130μL的CT转换试剂溶液，轻弹或移液器吹悬混合样品。

5)将样品管放到PCR仪上按以下步骤操作：

98℃下持续5分钟

64℃下持续2.5小时

完成上述操作后，立刻进行下一步操作或者在4℃下存储(最多20小时)备用。

6)将Zymo-Spin IC^TM Column放入收集管(Collection Tube)中，并加入600μL的M-结合缓冲液(M-Binding Buffer)。

7)将重亚硫酸盐处理的样品加入到含M-结合缓冲液的Zymo-Spin IC^TM Column中，盖上盖子颠倒混匀。

8)全速(＞10,000xg)离心30秒，弃收集管中的收集液。

9)向柱中加入100μL的M-洗涤缓冲液，全速(＞10,000xg)离心30秒，弃收集管中的液体。

10)向柱中添加200μL的M-Desulphonation Buffer，室温放置15min，全速(＞10,000xg)离心30s，弃收集管中的液体。

11)向柱中添加200μL的M-洗涤缓冲液，全速(＞10,000xg)离心30s，弃收集管中的液体，并再重复此步骤1次。

12)将Zymo-Spin IC^TM Column置于新的1.5mL EP管中，加入12μL的M-洗脱缓冲液r到柱基质中，室温放置2min，全速(＞10,000xg)离心洗脱目的片段DNA。

七、PCR扩增及扩增产物分离纯化：

1)将上一步得到的目的片段DNA按以下体系配制PCR反应体系：

^*其中，P1公用引物的序列为：

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT

^**标签N的序列为：

CAAGCAGAAGACGGCATACGAGATNNNNNNGTGACTGGAGTTCAGACGTGTGCTCTTCCGATC

T，其中碱基N为A、T、C、G四个碱基的任意组合，作为区别标识。

PCR反应条件：

2)将PCR扩增产物经2％琼脂糖电泳后，使用QIAquick凝胶提取试剂盒(Qiagen)回收纯化300-450bp片段的文库，备用。

八、文库检测：

使用Bioanalyzer分析系统(Agilent，Santa Clara，USA)检测文库插入片段的大小及含量；并利用Q-PCR精确定量文库的浓度。

由此，构建的样本的基因组特定区域的高通量测序文库经检测合格，备用。

实施例2：

利用Hiseq2000测序仪，按照双末端90个碱基的读长，将实施例1构建的样本的基因组特定区域的高通量测序文库进行测序，以便获得测序结果。

在上述测序后，直接获得的是原始数据，通过对原始数据进行基本分析可以获得上述测序结果，其中，该基本分析过程包括以下主要步骤：首先，通过接头或PCR引物上的序列标签区分不同样本的文库数据；然后，对测序所得的原始数据进行去污染、去接头和去低质量过滤；最后，将经过前述处理的数据进行碱基转化，具体地，将正链的C全部转化成T，互补链的G全部转化成A，由此，获得实施例1构建的样本的基因组特定区域的高通量测序文库的测序结果。

将获得的测序结果进行数据分析，以便确定样本的基因组特定区域的甲基化信息。其中，数据分析包括：使用SOAP2.01软件，将测序结果中的reads与参考基因组进行比对，其中容许错配率设置为2，以便确定唯一比对上的reads，基于对这些reads的分析，获得样本的基因组特定区域的序列信息及该区域的甲基化信息。

本实施例的一个方面，以非CpG处的单个的C作为标准，计算实施例1的重亚硫酸盐处理的转换效率；以及，基于测序结果，进行测序深度和覆盖度的分析，其中，在本实施例中，是对hg19全基因组所有启动子区域、CpG岛、CGI shore和印记基因区域的覆盖度，及不同区域的覆盖深度的分析，由此确定不同覆盖区域的甲基化水平。

此外，本实施例由测序结果确定了实施例1中的特异性探针的捕获效率。图2显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下(覆盖深度≥1及覆盖深度＞5)，每条染色质上的捕获区域占探针靶区域的百分比图。图2所依据的测序数据为：测序原始数据序列为25.5M，比对率为75.27％，唯一比对测序序列约为14.9M，唯一比对率为57.78％。由图2可知，在覆盖深度≥1的条件下，99％以上的探针均可检测到其捕获区域的甲基化信息，而当覆盖深度＞5的时候，也有约90％的探针可以检测到其捕获区域的甲基化信息，(≥1是指≥1的所有，其包含了＞5)同样表明，可以通过适当的增加测序数据量来进一步提高探针捕获的实际检测范围，这表明根据本发明实施例的探针可以稳定可靠的捕获靶区域，结合重亚硫酸盐处理即可准确地进行甲基化检测。

本实施例还分析了检测到甲基化信息的不同元件的实验数据占基因组该区域的百分率，分析结果如图3和表2所示。基因组经过杂交捕获和重亚硫酸盐处理之后，依据以下测序数据进行分析及作图，从而得到图3和表2：测序原始数据序列为25.5M，比对率为75.27％，唯一比对测序序列约为14.9M，唯一比对率为57.78％。图3显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，在不同覆盖深度下，各条染色质中检测到甲基化信息的启动子占该染色质的总启动子的百分比图。由图3可知，当覆盖深度大于5，各条染色质中可检测到甲基化信息的启动子占该染色质上总启动子的百分比均大于70％，与理论值接近，而且覆盖深度大于10时(大于5以上的所有，包含了大于10请发明人解释一下，大于5的具体范围是多少，因为大于5也包含了大于10)，各条染色质中可检测到甲基化信息的启动子仍可占该染色质上总启动子的60％以上。表2显示了根据本发明一个实施例的方法确定基因组特定区域甲基化信息时，各条染色质中可检测到的印记基因在该染色质上的分布分析结果。由表2可知，当覆盖深度≥1的时候，97.6％的印记基因的甲基化信息均可被检测到，而保持测序数据量不变的条件下，随着覆盖深度过滤的增加，检测到的基因个数明显降低，这表明，在高测序深度下分析印记基因的甲基化信息时，应该加大现有的测序数据量，提高每一个印记基因的覆盖深度。

另外，本实施例还分析了基因组上启动子区域、CpG岛、CGI shore及印记基因区域的甲基化水平分布，分析结果如图4所示。

表1设计探针在全基因组各靶区域的覆盖信息

表2检测到的印记基因在每一条染色质上的分布分析

其中，图4(a)显示了根据本发明一个实施例的确定的样本的基因组CpG岛、CGI shore区域的甲基化水平分布图。由图4(a)可知，高CG含量的CpG岛处于低甲基化水平，而CGIshore区域的甲基化水平，相对于CpG岛甲基化水平显著增高。图4(b)显示了根据本发明一个实施例的确定的样本的基因组启动子区域的甲基化水平分布图。由图4(b)可知，启动子区域中，其转录起始位点处的甲基化水平处于低水平，所有结果与理论相符。图4(c)显示了样本的基因组特定区域的原始分布和根据本发明一个实施例的样本的基因组特定区域的高通量测序文库的reads分布及确定的启动子、CpG岛区域的甲基化水平分布图。由图4(c)可知，根据本发明实施例的确定样本的基因组特定区域的甲基化信息的方法，能有效地捕获每一个特定区域，并能够准确检测到该区域的甲基化信息。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种构建高通量测序文库的方法，其特征在于，包括以下步骤：

将基因组DNA片段化，以便获得DNA片段；

将所述DNA片段进行末端修复，以便获得经过末端修复的DNA片段；

在所述经过末端修复的DNA片段的3’末端添加碱基A，以便获得具有粘性末端A的DNA片段；

将所述具有粘性末端A的DNA片段与甲基化接头相连，以便获得连接产物；

利用特异性探针对所述连接产物进行杂交捕获，以便获得目的片段；

将所述目的片段进行重亚硫酸盐处理，以便将所述目的片段中非甲基化的胞嘧啶转换为尿嘧啶，获得经过转换的目的片段；

将所述经过转换的目的片段进行PCR扩增，以便获得扩增产物；以及

分离纯化所述扩增产物，所述扩增产物构成所述高通量测序文库，

其中，

任选地，进一步包括从样本中提取基因组DNA的步骤，优选所述样本来源于哺乳动物、植物、和微生物的至少一种，更优选所述哺乳动物为人和小鼠的至少一种，优选所述基因组DNA为人类全血基因组DNA，更优选所述基因组DNA为外周血单核细胞基因组DNA；

优选，所述基因组DNA的量为2μg；

任选地，利用covaris-S2打断仪将基因组DNA片段化；

任选地，所述DNA片段的长度为约150-300bp，优选200-300bp；

任选地，在将所述DNA片段进行末端修复前，进一步包括纯化DNA片段的步骤；

任选地，将所述DNA片段进行末端修复是利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶进行的，其中，所述Klenow片段具有5’→3’聚合酶活性和3’→5’聚合酶活性，但缺少5’→3’外切酶活性；

任选地，将所述经过末端修复的DNA片段的3’末端添加碱基A是利用Klenow(3’-5’exo-)进行的；

任选地，所述甲基化接头中包含标签；

任选地，将所述具有粘性末端A的DNA片段与甲基化接头相连前，进一步包括对接头进行甲基化的步骤；

任选地，将所述具有粘性末端A的DNA片段与甲基化接头相连是利用T4DNA连接酶进行的；

任选地，在获得连接产物后，进一步包括对连接产物进行纯化的步骤；

任选地，所述特异性探针是对已知甲基化位点特异性的，优选所述特异性探针是基于采用人类基因组作为参考序列，并且采用已知具有甲基化位点的基因区域作为靶序列而设计的，可选地，所述已知具有甲基化位点的基因区域包括选自启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的至少一种；

任选地，在所述杂交捕获前，进一步包括利用c_ot-1DNA和接头封闭序列分别对所述连接产物和所述连接产物上的甲基化接头进行杂交封闭的步骤，优选采用过量的c_ot-1DNA对所述连接产物进行杂交封闭，可选地，所述接头封闭序列包括选自Block1和Block2的至少一种；

任选地，采用1μg的连接产物进行所述杂交捕获；

任选地，利用特异性探针对所述连接产物进行杂交捕获进一步包括利用链霉素磁珠捕获所述目的片段；

任选地，在将所述目的片段进行重亚硫酸盐处理之前，进一步包括将所述目的片段与片段化的λ-DNA混合，优选所述片段化的λ-DNA的量为200-400ng，更优选200ng；

任选地，将所述目的片段进行重亚硫酸盐处理是采用EZ DNA Methylation-Gold Kit^TM(ZYMO)进行的；

任选地，使用热启动taq DNA聚合酶进行所述PCR扩增；

任选地，分离纯化所述扩增产物是通过选自磁珠纯化、纯化柱纯化和2％的琼脂糖凝胶电泳的至少一种进行的，优选通过2％的琼脂糖凝胶电泳进行；

任选地，所述高通量测序文库的文库片段长度为300-450bp。

2.一种确定样本的基因组特定区域的甲基化信息的方法，其特征在于，包括下列步骤：

根据权利要求1所述的方法构建所述样本的基因组特定区域的高通量测序文库；

对所述样本的基因组特定区域的高通量测序文库进行测序，以便得到测序结果；以及

对所述测序结果进行数据分析，以便确定所述样本的基因组特定区域的甲基化信息。

3.根据权利要求2所述的方法，其特征在于，所述测序是利用高通量测序技术进行的。

4.根据权利要求3所述的方法，其特征在于，所述测序是利用Hiseq2000测序仪进行的。

5.一种用于确定样本的基因组特定区域的甲基化信息的装置，其特征在于，包括：

文库制备单元，所述文库制备单元用于制备样本的基因组特定区域的高通量测序文库，所述文库制备单元内设置有特异性探针；

测序单元，所述测序单元与所述文库制备单元相连，并且从所述文库制备单元接收所述样本的基因组特定区域的高通量测序文库，以便用于对所述样本的基因组特定区域的高通量测序文库进行测序，获得测序结果；以及

数据分析单元，所述数据分析单元与所述测序单元相连，并且从所述测序单元接收所述测序结果，以便对所述测序结果进行数据分析，确定所述样本的基因组特定区域的甲基化信息。

6.根据权利要求5所述的装置，其特征在于，所述特异性探针是对已知甲基化位点特异性的。

7.根据权利要求6所述的装置，其特征在于，所述特异性探针是基于采用人类基因组作为参考序列，并且采用已知具有甲基化位点的基因区域作为靶序列而设计的。

8.根据权利要求7所述的装置，其特征在于，所述已知具有甲基化位点的基因区域包括选自启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的至少一种。

9.一种用于构建样本的基因组特定区域的高通量测序文库的试剂盒，其特征在于，包括：

特异性探针，所述特异性探针是对已知甲基化位点特异性的。

10.根据权利要求9所述的试剂盒，其特征在于，所述特异性探针是基于采用人类基因组作为参考序列，并且采用已知具有甲基化位点的基因区域作为靶序列而设计的，可选地，所述已知具有甲基化位点的基因区域包括选自启动子区域、CpG岛区域、CpG岛外区域以及印记基因区域的至少一种。