CN102839168A

CN102839168A - 核酸探针及其制备方法和应用

Info

Publication number: CN102839168A
Application number: CN2012102690873A
Authority: CN
Inventors: 耿春雨; 韩鸿雁; 卢志远; 章文蔚; 祝珍珍
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Research Institute; BGI Shenzhen Co Ltd
Priority date: 2012-07-31
Filing date: 2012-07-31
Publication date: 2012-12-26

Abstract

本发明提出了探针及其制备方法和应用。其中，制备探针的方法包括：将DNA样本进行片段化，以便获得第一DNA片段；将第一DNA片段进行平端化，以便获得经过平端化的第一DNA片段；将经过平端化的第一DNA片段与接头进行连接，以便获得连接接头的第一DNA片段；利用PCR引物组对连接接头的第一DNA片段进行扩增，以便得到第一扩增产物，该PCR引物组包括第一PCR引物和第二PCR引物，该第一PCR引物和第二PCR引物的5’末端碱基均被生物素标记，该第一扩增产物构成双链DNA探针。利用该方法得到的探针，能够有效地用于降低宏基因组构建文库中宿主基因组DNA的污染。

Description

核酸探针及其制备方法和应用

技术领域

本发明涉及生物技术领域，具体地，本发明涉及核酸探针及其制备方法和应用，更具体地，本发明涉及制备探针的方法、核酸探针、核酸探针在制备测序文库中的用途、制备宏基因组测序文库的方法、宏基因组测序文库以及确定宏基因组序列信息的方法。

背景技术

目前，宏基因组学已经成为基因组学中的一个新兴的重要科学研究领域，是研究直接从环境样本例如人类胃肠道、土壤等中直接提取基因组遗传物质，并进行相关分析的学科。宏基因组学研究的快速发展，使得大规模的宏基因组学研究相继展开，大量新的微生物种群和新的基因将得以发现，对人类健康将有积极的现实意义，为后续研究肠道微生物与人的肥胖、肠炎、糖尿病等疾病的关系提供非常重要的理论依据，达到预防和监控的目的。

然而，宏基因组所研究的样本在提取过程中很难避免宿主基因组的污染，例如人肠道环境的宿主基因组污染约2%-3%，而在口腔、生殖道、皮肤、呼吸道等部位获取的样本DNA中宿主基因组污染的比例均达到80%甚至90%以上。样本中大量宿主外源污染的存在使得有效数据的测序成本相对大大增加。第二代高通量测序使得从全基因组角度研究环境样本中各个组分成为可能，但是对于宿主样本高污染的样本DNA则需要耗费极大的测序通量才能够达到预期的测序效果。

因而，目前的宏基因组研究方法仍有待改进。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本发明的一个目的在于提出一种能有效对宏基因组测序文库进行筛选的手段。

在本发明的第一方面，本发明提出了一种制备探针的方法。根据本发明的实施例，该方法包括以下步骤：将DNA样本进行片段化，以便获得第一DNA片段；将所述第一DNA片段进行平端化，以便获得经过平端化的第一DNA片段；将所述经过平端化的第一DNA片段与接头进行连接，以便获得连接接头的第一DNA片段；利用PCR引物组对所述连接接头的第一DNA片段进行扩增，以便得到第一扩增产物，所述PCR引物组包括第一PCR引物和第二PCR引物，所述第一PCR引物和第二PCR引物的5’末端碱基均被生物素标记，所述第一扩增产物构成双链DNA探针。由此，通过该方法最终得到的产物可以有效地作为双链DNA探针，进一步可以将这些所得到的双链DNA探针应用于宏基因组（与双链DNA探针属于相同宿主来源）的测序文库的构建，可以有效地去除其他来源DNA对测序文库的污染，例如，可以有效地应用于宏基因组测序文库的构建，有效地去除宿主DNA对宏基因组测序文库的污染，有效地提高宏基因组测序的准确性。

在本发明的第二方面，本发明提出了核酸探针。根据本发明的实施例，所述核酸探针可以根据前面所述的方法获得。这些核酸探针可以有效地作为双链或单链DNA探针，进一步可以将这些所得到的双链或者单链DNA探针应用于这些DNA样本（与DNA探针属于相同宿主来源）的测序文库的构建，可以有效地去除其他来源DNA对测序文库的污染，例如，可以有效地应用于宏基因组测序文库的构建，有效地去除宿主DNA对宏基因组测序文库的污染，有效地提高宏基因组测序的准确性。另外，前面针对探针制备方法中所描述的其他特征和优点，同样适于该核酸探针，为方便，不再赘述。

在本发明的第三方面，本发明还提出了前面所述核酸探针在制备测序文库中的用途。

在本发明的第四方面，本发明提出了一种制备宏基因组测序文库的方法。根据本发明的实施例，该制备宏基因组测序文库的方法包括：根据前面所述的方法，利用宿主基因组DNA制备探针；将用于构建测序文库的宏基因组DNA进行片段化，以便获得第二DNA片段；将所述第二DNA片段进行平端化，以便获得经过平端化的第二DNA片段；在所述经过平端化的DNA片段的3’末端添加碱基A，以便获得3’末端添加碱基A的第二DNA片段；将所述3’末端添加碱基A的第二DNA片段与接头进行连接，以便获得连接接头的第二DNA片段；以及将所述连接接头的第二DNA片段进行扩增，以便获得第二扩增产物，所述第二扩增产物构成所述宏基因组测序文库，其中，利用所述探针对文库构建中间产物进行筛选以便获得经过纯化的文库构建中间产物，所述文库构建中间产物为所述第二DNA片段、经过平端化的第二DNA片段和连接接头的第二DNA片段的至少之一。由此，可以有效地构建宏基因组测序文库，根据本发明的实施例，根据本发明实施例的方法制备的DNA探针可以有效地对文库构建中间产物进行筛选，由此，可以除去最终所得到测序文库中来自宿主DNA的污染，对测序文库进行纯化，有效地提高宏基因组测序的准确性。

在本发明的第五方面，本发明提出了一种宏基因组测序文库。根据本发明的实施例，所述宏基因组测序文库是通过前面所述的方法获得的。

在本发明的第六方面，本发明提出了一种确定宏基因组序列信息的方法。根据本发明的实施例，该方法包括以下步骤：针对宏基因组DNA，根据前面所述的方法，构建宏基因组测序文库；对所述宏基因组测序文库进行测序，以便获得由多个测序数据构成的测序结果；以及基于所述测序结果，确定所述宏基因组的序列信息。由此，可以有效地对宏基因组DNA进行测序，确定宏基因组的序列信息。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明一个实施例的制备探针的方法的流程示意图；以及

图2是根据本发明一个实施例的制备测序文库的方法的流程示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

探针及其制备方法

在本发明的第一方面，本发明提出了一种制备探针的方法。参考图1，根据本发明的实施例，该方法包括以下步骤：

首先，将DNA样本进行片段化，以便获得第一DNA片段。根据本发明的实施例，DNA样本的类型和来源并不受特别限制。在本发明的一个实施例中，所述DNA样本含有至少一种生物的基因组DNA。由此，得到的探针（在本文中“探针”与“核酸探针”可以交换使用）可以有效地应用于对生物体基因组DNA进行测序，例如可以测定直接从环境中提取的微生物的宏基因组DNA的序列信息。在本发明的一个实施例中，所述DNA样本是从人的全基因组样品中提取的。由此，所得到的探针可以有效地用于基于从人体分离的宏基因组DNA构建宏基因组测序文库。通常而言，从这些样品提取的DNA样本（宏基因组DNA）中其他DNA（例如宿主DNA）的污染率非常高，利用本发明的方法，能够有效地降低宿主DNA的污染率。根据本发明的实施例，进行片段化的条件并不受特别限制，可以采用任何已知的方法进行片段化处理。在本发明的一个实施例中，片段化是通过高压气体雾化处理、超声处理、以及水力剪切处理的至少一种而进行的。由此，可以有效地提高片段化的效率，进而提高制备探针的效率。在本发明的一个实施例中，所述第一DNA片段的长度为100~200bp。由此，可以有效地提高片段化的效率，进而提高制备探针的效率。

接下来，将所得到的第一DNA片段进行平端化，以便获得经过平端化的第一DNA片段。根据本发明的一个实施例，所述平端化是利用Klenow片段、T4DNA聚合酶和T4多核苷酸激酶进行的，所述Klenow片段具有DNA聚合酶的5’→3’聚合酶活性和3’→5’外切酶活性，但缺少完整酶的5’→3’外切酶活性。由此，可以进一步提高平端化的效率，并且进而可以提高制备探针的效率。

接下来，在进行平端化之后，将经过平端化的的第一DNA片段与接头进行连接，以便获得连接接头的第一DNA片段。根据本发明的一个实施例，将经过平端化的的第一DNA片段与接头相连是利用T4DNA连接酶进行的。由此，可以进一步提高经过平端化的的第一DNA片段与接头连接的效率，进而可以进一步提高制备探针的效率。

在连接接头之后，利用PCR引物组对连接接头的第一DNA片段进行扩增，以便得到第一扩增产物，PCR引物组包括第一PCR引物和第二PCR引物，第一PCR引物和第二PCR引物的5’末端碱基均被生物素标记，第一扩增产物构成双链DNA探针。在本发明的一个实施例中，第一PCR引物的核苷酸序列为：5’-CCACTACGCCTCCGCTTTCCTCTCTATG-3’(SEQ ID NO：1)，第二PCR引物的核苷酸序列为：5’-CTGCCCCGGGTTCCTCATTCT-3’(SEQ ID NO：2)。由此，可以进一步提高扩增的效率，进而进一步提高制备探针的效率。由此，可以有效得到5’末端被生物素标记的双链DNA探针。

通过该方法最终得到的产物可以有效地作为双链DNA探针，进一步可以将这些所得到的双链DNA探针应用于这些DNA样本（与双链DNA探针属于相同来源）的测序文库的构建，可以有效地去除其他来源DNA对测序文库的污染，例如，可以有效地应用于宏基因组测序文库的构建，有效地去除宿主DNA对宏基因组测序文库的污染，有效地提高宏基因组测序的准确性。

在得到双链DNA探针之后，可以进一步对双链DNA探针进行深加工以便得到单链DNA探针。由此，在本发明的一个实施例中，进一步包括对所述双链DNA探针进行变性处理，以便得到单链DNA探针。由此，可以得到单链DNA探针，从而可以有效地提高后续筛选测序文库的效率。在本发明的一个实施例中，进一步包括将单链DNA探针与链霉亲和素包被的磁珠连接。由此，便于后续利用单链DNA探针进行杂交筛选和分离杂交产物。

由此，在本发明的第二方面，本发明提出了核酸探针。根据本发明的实施例，所述核酸探针可以根据前面所述的方法获得。这些核酸探针可以有效地作为双链或单链DNA探针，进一步可以将这些所得到的双链或者单链DNA探针应用于这些DNA样本（与DNA探针属于相同来源）的测序文库的构建，可以有效地去除其他来源DNA对测序文库的污染，例如，可以有效地应用于宏基因组测序文库的构建，有效地去除宿主DNA对宏基因组测序文库的污染，有效地提高宏基因组测序的准确性。另外，前面针对探针制备方法中所描述的其他特征和优点，同样适于该核酸探针，为方便，不再赘述。

制备测序文库的方法

由此，在本发明的第四方面，本发明提出了一种制备宏基因组测序文库的方法。参考图2，根据本发明的实施例，该制备宏基因组测序文库的方法包括：

首先，基于宿主全基因组DNA，根据前面所述的方法，制备探针。根据本发明的实施例，宏基因组DNA样本的来源并不受特别限制。在本发明的一个实施例中，宏基因组DNA是从人口腔（例如唾液、口腔黏膜、扁桃体、咽和上牙龈牙菌斑）、鼻腔、呼吸道、生殖道和皮肤（例如粘膜）的至少一种提取的。根据本发明的一些实施例，宏基因组DNA可以来源于人口腔的唾液、口腔黏膜、扁桃体、咽和上牙龈牙菌斑的至少一种。通常而言，从这些样品提取的DNA样本（宏基因组DNA）中其他DNA（例如宿主DNA）的污染率非常高，利用本发明的方法，能够有效地降低宿主DNA的污染率。由此，优选采用的宿主全基因组DNA为人类基因组DNA。

之后，将用于构建测序文库的宏基因组DNA进行片段化，以便获得第二DNA片段；将第二DNA片段进行平端化，以便获得经过平端化的第二DNA片段；在经过平端化的DNA片段的3’末端添加碱基A，以便获得3’末端添加碱基A的第二DNA片段；将3’末端添加碱基A的第二DNA片段与接头进行连接，以便获得连接接头的第二DNA片段；以及将连接接头的第二DNA片段进行扩增，以便获得第二扩增产物，所述第二扩增产物构成宏基因组测序文库。关于片段化、平端化、末端添加碱基A和连接接头的条件，在前面制备探针的部分中所描述的相应处理条件，在这里也同样适用，在此不再详述。需要说明的是，在本发明的一个实施例中，第二DNA片段的长度为250bp。由此，可以有效地提高片段化的效率，进而提高制备测序文库的效率。

根据本发明的实施例，可以利用所制备的探针对文库构建中间产物进行筛选以便获得经过纯化的文库构建中间产物，其中文库构建中间产物为前述的第二DNA片段、经过平端化的第二DNA片段和连接接头的第二DNA片段的至少之一，优选连接接头的第二DNA片段。由此，可以有效地构建宏基因组测序文库。根据本发明的实施例，通过根据本发明实施例的方法制备的DNA探针可以有效地对文库构建中间产物进行筛选，由此，可以除去最终所得到测序文库中来自宿主DNA的污染，对测序文库进行纯化，有效地提高宏基因组测序的准确性。

根据本发明的实施例，利用所制备的探针进行筛选的手段和方法并不受特别限制，可以采用液相杂交手段，也可以采用固相杂交手段。在本发明的一个实施例中，所述筛选进一步包括：将文库构建中间产物与杂交试剂混合，并在预定温度下进行杂交；去除未发生杂交的探针，以便获得经过纯化的文库构建中间产物。另外，可以进一步在退火后，通过添加DNA外切酶去除单链的外源污染核酸。因为所要筛选的目标序列可以正常退火为双链序列，因而不会被DNA外切酶消化，而外源污染核酸互补的双链序列在进行杂交捕获处理后，只有一条被杂交捕获而另一条剩余在杂交液中，因而，可以通过利用DNA外切酶除去这一部分污染，避免在后续PCR过程中这些单链核酸片段被扩增并成为双链状态。

由此，可以进一步提高利用探针对测序文库进行筛选的效率，从而提高构建测序文库的效率。在本发明的一个实施例中，在筛选过程中，探针与文库构建中间产物的重量比为50：1。由此，可以进一步提高利用探针对测序文库进行筛选的效率，从而能够提高构建测序文库的效率。在本发明的一个实施例中，将文库构建中间产物与杂交试剂混合时，进一步包括添加选自以下三种的封闭序列：

Block1：CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT（SEQ ID NO：3）；

Block2：CTGCCCCGGGTTCCTCATTCTCT(SEQ ID NO：4)；以及

Block3：TACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：5)。由此，可以进一步提高利用探针对测序文库进行筛选的效率，从而提高构建测序文库的效率。

在本发明的一个实施例中，可以通过清洗去除未发生杂交的探针。由此，可以进一步提高利用探针对测序文库进行筛选的效率，从而提高构建测序文库的效率。

需要说明的是，以往研究的杂交，是杂交捕获需要的东西，而本发明的杂交是捕获需要去除的东西，剩下的才是宏基因组测序文库所需要的产物。对于宿主样本高污染（污染比例达到50%或者80%以上）的样本DNA的测序，不需要耗费大的测序通量就能够达到预期的测序效果，从而能够节约成本和时间。

由此，在本发明的第四方面，本发明提出了一种宏基因组测序文库。根据本发明的实施例，所述宏基因组测序文库是根据前面所述的方法获得的。

确定宏基因组序列信息的方法

在本发明的第五方面，本发明提出了一种确定宏基因组序列信息的方法。根据本发明的实施例，该方法包括以下步骤：针对宏基因组DNA，根据前面所述的方法，构建宏基因组测序文库；对所述宏基因组测序文库进行测序，以便获得由多个测序数据构成的测序结果；以及基于所述测序结果，确定所述宏基因组的序列信息。由此，可以有效地对宏基因组DNA进行测序，确定宏基因组序列的信息。在本发明的一个实施例中，可以进一步包括对所述测序结果进行除杂的步骤，以便除去下列不合格测序数据的至少之一：测序质量低于预定阀值的碱基个数超过测序数据碱基个数的50%的测序数据（即测序序列中不确定碱基个数超过测序数据碱基个数的5%的测序数据）；以及含有接头序列的测序数据。由此，可以进一步提高序列信息的准确性。在本发明的一个实施例中，测序可以利用选自Illumina-Solexa、ABI-Solid、Roche-454和单分子测序装置的至少一种进行，优选Illumina高通量测序平台。由此，利用这些装置高通量测序能力，可以有效地提高测序效率，从而提高确定宏基因组序列信息的效率。

在本发明的一个实施例中，基于测序结果，确定所述宏基因组的序列信息进一步包括将测序结果与参考序列进行比对。由此，可以进一步提高确定宏基因组序列信息的效率。在本发明的一个实施例中，所述比对是通过SOAPaligner/SOAP2进行的。由此，可以进一步提高确定宏基因组序列信息的效率。

下面参考具体实施例，对本发明进行说明，需要说明的是，这些实施例仅仅是说明性的，而不能理解为对本发明的限制。

若未特别指明，实施例中所采用的技术手段为本领域技术人员所熟知的常规手段，可以参照《分子克隆实验指南》第三版或者相关产品进行，所采用的试剂和产品也均为可商业获得的。未详细描述的各种过程和方法是本领域中公职的常规方法，所用试剂的来源、商品名以及有必要列出其组成成分者，均在首次出现时标明，其后所用相同试剂如无特殊说明，均购自Illumina公司。

一般方法：

基于液相杂交技术去除宏基因组文库宿主外源污染的方法主要包括：构建宏基因组测序文库、宿主全基因组探针序列制备、杂交捕获以及测序后分析。具体如下：

1、构建宏基因组测序文库

构建宏基因组测序文库主要包括下述步骤：

（1）取一定量宏基因组DNA，用Covaris S2进行打断并纯化，打断后DNA主带在250bp；起始基因组DNA的量选用3-5μg。

（2）将（1）所得DNA分子与试剂I混匀反应并纯化，得到末端补平的DNA片段；试剂I含有：10μl多核苷酸激酶缓冲液，40mM dNTP，5μl T4多核苷酸激酶，5μl T4DNA聚合酶，1μl Klenow大片段酶；DNA分子与试剂I混匀反应温度为20℃条件下30min。

（3）将（2）所得DNA分子与试剂II混匀反应并纯化，得到3’末端加“A”碱基的DNA片段；试剂II含有：5μl Blue缓冲液，10mM dATP，3μl Klenow(3’-5’exo-)；DNA分子与试剂II混匀反应温度为37℃条件下30min。

（4）将（3）所得DNA分子与试剂III混匀反应并纯化，得到连接有Illumina接头的DNA分子；试剂III含有：25μl快速连接缓冲液，100μM Illumina接头，T4DNA连接酶5μl；DNA分子与试剂III混匀反应温度为20℃条件下15min。

（5）将（4）所得DNA分子采用2%浓度的琼脂糖电泳分离并切取适当范围大小的DNA分子，采用Agilent Bioanalyzer 2100和Q-PCR检测文库浓度及片段大小。DNA分子选取范围大小为300-400bp。

2、宿主全基因组探针序列的制备

宿主全基因组探针序列的制备方法主要包括下述步骤：

（1）以纯净的基因组DNA为材料，采用高通量建库的方法制备生物素标记的双末端文库；

（2）对制备得到的生物素标记的双末端文库进行质控定量。此处得到的序列可以直接作为双链探针进行后续的杂交反应，或者按下一步方法制备得到单链探针用于后续杂交反应；

（3）取一定量的生物素双末端文库，热变性，冰浴，与链霉亲和素包被的磁珠结合，制备得到单链的探针；

更具体地：

（1）取一定量纯净的高质量外源宿主基因组DNA，用Covaris S2进行打断并纯化，打断后DNA主带在100-200bp；起始基因组DNA的量选用1-2μg。

（2）将（1）所得DNA分子与试剂I混匀反应并纯化，得到末端补平的DNA片段；试剂I含有：10μl多核苷酸激酶缓冲液，0.4mM dNTP，5μl T4多核苷酸激酶，5μl T4DNA聚合酶，1μl Klenow大片段酶；DNA分子与试剂I混匀反应温度为20℃条件下30min。

（3）将（2）所得DNA分子与试剂IV混匀反应并纯化，得到连接有文库接头的DNA分子；试剂IV含有：50μl快速连接缓冲液，P1接头和P2接头各225μM，T4DNA连接酶8μl；DNA分子与试剂IV混匀反应温度为20℃条件下1h。

（4）使用聚合酶链式反应（PCR）扩增（3）所得两端加接头的DNA片段并纯化回收，得到生物素标记的PCR产物；PCR所用引物序列为：

第一PCR引物（Primer-Bio 1）：CCACTACGCCTCCGCTTTCCTCTCTATG(SEQ ID NO：1)；

第二PCR引物（Primer-Bio 2）：CTGCCCCGGGTTCCTCATTCT(SEQ IDNO：2)，

其中，5’端下划线的第一个碱基携带有生物素标记。

（5）将（4）扩增的PCR产物进行琼脂糖分离回收，去除接头序列。切取的生物素标记的PCR产物可以作为双链全基因组DNA探针，或者用于后续全基因组单链DNA探针制备；

（6）取50倍于待杂交文库的探针进行变性处理，与1X磁珠洗脱缓冲液洗涤三次后的M270磁珠进行混合，室温孵育20min;

（7）将（6）中孵育后的磁珠用50℃预热的1X磁珠洗脱缓冲液洗涤两次，得到磁珠捕获的单链DNA探针序列，其中上述1X磁珠洗脱缓冲液含有：10mM Tris-HCl(pH 7.5)，1mM EDTA，2M NaCl，溶剂为MiliQ H₂O。

3、杂交捕获去除宿主基因组污染

杂交捕获去除宿主基因组污染的方法主要包括下述步骤：

（1）取宏基因组测序文库中间产物样本、单链（或双链）全基因组探针与试剂V混匀后进行杂交反应。

其中，宏基因组测序文库中间产物样本取5-10ng，有效探针的质量为宏文库中间产物质量的50倍，试剂V中含有：2X杂交缓冲液、组分A（购自ROCHE 05340721001#Sequence Capture Hybridization kit）、Block1、Block2、Block3。三种Block序列如下：

Block1：CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT(SEQ ID NO：3)；

Block2：CTGCCCCGGGTTCCTCATTCTCT(SEQ ID NO：4)；

Block3：TACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO：5)。

此外，单链探针需要在进行杂交试验时候用双链探针即时制备备用；宏基因组测序文库中间产物、探针和试剂V混匀后95℃变性10min，然后PCR循环扩增仪47℃下杂交21h，热盖温度设置为57℃。

（2）将（1）中所得杂交后的反应液用1X磁珠洗脱缓冲液，洗涤的M280磁珠进行捕获，去除杂交反应的残余探针序列（即前面所述的未发生杂交的探针序列）；杂交反应液和M280在47℃条件下孵育3次，每次45min。其中，1X磁珠洗脱缓冲液中含有10mM Tris-HCl(pH 7.5)，1mM EDTA，2M NaCl，溶剂为MiliQ H₂O。

（3）利用DNA外切酶I将（2）中所得的去除了杂交反应的残余探针的杂交后反应液进行消化，具体地，将去除了杂交反应的残余探针的杂交后反应液与DNA外切酶I混匀后于37℃下孵育30min。

（4）将（3）中所得经过消化的反应液进行纯化，并使用聚合酶链式反应（PCR）扩增得到杂交后去除了宿主污染的宏基因组测序文库。其中，PCR扩增进行了14个PCR循环，纯化步骤全部采用Ampure XP Beads纯化方式。

（5）采用Agilent Bioanalyzer 2100和Q-PCR检测获得的宏基因组测序文库的文库浓度及片段大小。

4、确定宏基因组序列信息

对上述获得的去除外源宿主污染后的宏基因组测序文库进行测序，以便获得由多个测序数据构成的测序结果，并对测序结果进行生物信息分析，以便确定宏基因组的序列信息，具体包括以下步骤：

（1）利用高通量测序技术对上述获得的宏基因组测序文库进行测序，以便获得由多个测序数据构成的测序结果，其中，高通量测序技术可以为IlluminaHiseq2000测序技术，也可以为现有的其他高通量测序技术。

（2）对测序结果的多个测序数据进行过滤，去除不合格的序列。其中，不合格序列包括：测序质量低于某一阀值的碱基个数超过整条序列碱基个数的50%（或者是，序列中测序结果不确定的碱基（如Illumina Hiseq2000测序结果中的N）个数超过整条序列碱基个数的5%）则认为是不合格序列。低质量阀值由具体测序技术及测序环境而定，例如，Illumina大片段数据，一条reads中超过60%碱基序列的phred质量值低于8或者有5个连续的N碱基，即视为低质量阈值；含有接头序列的测序数据，其中包括样本接头序列，其它实验引入的外源序列。若序列中存在外源序列则认为是不合格序列。原始的序列数据经过去除不合格序列处理后得到的序列数据我们称为干净的序列片段（cleanreads），作为后续分析的基础。

（3）干净的序列片段与参考序列比对；

通过一种短序列映射程序SOAPaligner/soap2（Li,2009），将高通量测序技术得到的干净的序列片段分别比对到参考基因组和参考基因序列上，本发明允许两个碱基的错配。参考基因组序列和参考基因序列可取于公共数据库。

实施例1：人口腔唾液样本的宏基因组DNA去除人基因组序列污染的分析

口腔唾液样本由深圳第二人民医院提供，用溶菌酶消化和酚、氯仿抽提方法得到的宏基因组DNA。

取1μg宏基因组DNA采用Covaris打断到主带250bp，纯化后经过试剂I对DNA进行末端修复纯化后，与试剂II混合孵育在3’末端加“A”碱基，纯化后与试剂III混合孵育加入Illumina接头序列，纯化后胶分离切取300-400bp分子并回收，取其中5ng中间连接产物进行后续杂交操作。

同时取1μg炎黄细胞系基因组DNA（正常人基因组，Wang,J.,Wang,W.,Li,R.,Li,Y.,Tian,G.,Goodman,L.,Fan,W.,Zhang,J.,Li,J.,Guo,Y.et al.(2008)The diploid genome sequence of an Asian individual.Nature,456,60-65，通过参照将其全文并入本文）采用Covaris S2打断到主带120bp，经过试剂I对DNA进行末端修复后，与试剂IV混合孵育加接头序列，最后用生物素标记的引物进行PCR扩增得到190bp主带长度用于进行杂交的双链探针。利用AgilentBioanalysis 2100对所得到的双链探针的质量进行检测，结果显示按照本发明方法制备得到的双链探针序列通过质控检测为主带在190bp的弥散核酸序列条带，适于作为探针进行本发明中的杂交过程。

取40μl M270磁珠用磁珠洗脱缓冲液洗涤，与变性处理（热循环仪器上98℃1min后迅速冰浴）后的250ng双链探针室温下孵育结合，再用50℃预热的磁珠洗脱缓冲液洗涤后得到M270捕获的单链探针。分别取上述5ng中间连接产物、250ng双链或者单链探针与杂交试剂V混匀后95℃变性10min，在PCR扩增循环仪47℃（热盖57℃）条件下杂交21h；利用磁珠洗脱缓冲液将40μl M280磁珠洗涤三次后，将其与杂交后的反应液于47℃下孵育45min，重复三次，以便去除未参与杂交反应的探针序列；然后，取上清液，加入DNA外切酶I进行消化（5ng中间产物在47度杂交过程中有部分和单链或者双链探针序列一起退火恢复了双链结构，但是其中仍有部分外源污染核酸片段维持了单链状态，该DNA外切酶I即是对该单链状态的DNA进行消化，消化后会在后续的纯化过程中去除掉）将经过消化的反应液进行纯化，并进行PCR扩增，然后利用XP磁珠纯化回收PCR产物，上机测序，以便获得由多个测序数据构成的测序结果，并对测序结果进行生物信息分析，其中测序使用Illumina Hiseq2000测序平台。

信息分析流程为：

首先，接收高通量测序技术得到的测序片段。在本实施例中，采用IlluminaHiseq2000测序。接收到原始测序序列后，对原始测序序列进行过滤，去除不合格的序列。不合格序列包括：测序质量值低于5的碱基个数超过整条序列碱基个数的50%则认为是不合格序列；序列中测序结果中N的个数超过整条序列碱基个数的5%则认为是不合格序列；与测序接头序列库进行比对，若序列中存在测序接头序列则认为是不合格序列。

接下来，将每个序列中样本接头序列与样本接头序列库进行比对，实现分样本操作，同时将样本接头序列从序列片段中去除。将接头序列（本实施例为8bp）中有测序质量低于5且碱基个数大于3个的序列去除。

最后，本发明实施例采用SOAP aligner/soap2（Li R,Chang Yu,Yingrui Li,Tak-Wah Lam,Siu-Ming,et al.(2009)E SOAP2:animproved ultrafast tool for short read alignment.Bioinformatics 25:1966-1967.通过参照，将其并入本文），将高通量测序技术得到的测序片段比对到人类基因组参考基因组序列（hg19）上，本发明允许两个碱基的错配。并统计比较杂交前后文库比对到hg19的reads比例。结果见下表1。

表1单链和双链探针两次杂交后和杂交前的数据结果比较

如表1所示，杂交前样本中人序列污染占79.5%，经过本发明制作的单链或双链探针杂交后，人序列污染分别降低至45.75%和51.83%。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种制备探针的方法，其特征在于，包括以下步骤：

将DNA样本进行片段化，以便获得第一DNA片段；

将所述第一DNA片段进行平端化，以便获得经过平端化的第一DNA片段；

将所述经过平端化的第一DNA片段与接头进行连接，以便获得连接接头的第一DNA片段；

利用PCR引物组对所述连接接头的第一DNA片段进行扩增，以便得到第一扩增产物，所述PCR引物组包括第一PCR引物和第二PCR引物，所述第一PCR引物和第二PCR引物的5’末端碱基均被生物素标记，所述第一扩增产物构成双链DNA探针。

2.根据权利要求1所述的方法，其特征在于，所述DNA样本含有至少一种生物的基因组DNA，

任选地，所述DNA样本是从人基因组DNA提取的，

任选地，所述片段化是通过高压气体雾化处理、超声处理、以及水力剪切处理的至少一种而进行的，

任选地，所述第一DNA片段的长度为100-200bp，

任选地，所述第一PCR 引物的核苷酸序列为：5’-CCACTACGCCTCCGCTTTCCTCTCTATG-3’，所述第二PCR引物的核苷酸序列为：5’-CTGCCCCGGGTTCCTCATTCT-3’，

任选地，进一步包括对所述双链DNA探针进行变性处理，以便得到单链DNA探针，

任选地，进一步包括将所述单链DNA探针与链霉亲和素包被的磁珠连接。

3.核酸探针，其特征在于，所述核酸探针是根据权利要求1-2任一项所述的方法获得的。

4.权利要求3所述的核酸探针在制备测序文库中的用途。

5.一种制备宏基因组测序文库的方法，其特征在于，包括：

根据权利要求1-2任一项所述的方法，利用宿主基因组DNA，制备探针；

将用于构建测序文库的宏基因组DNA进行片段化，以便获得第二DNA片段；

将所述第二DNA片段进行平端化，以便获得经过平端化的第二DNA片段；

在所述经过平端化的第二DNA片段的3’末端添加碱基A，以便获得3’末端添加碱基A的第二DNA片段；

将所述3’末端添加碱基A的第二DNA片段与接头进行连接，以便获得连接接头的第二DNA片段；以及

将所述连接接头的第二DNA片段进行扩增，以便获得第二扩增产物，所述第二扩增产物构成所述宏基因组测序文库，

其中，

利用所述探针对文库构建中间产物进行筛选以便获得经过纯化的文库构建中间产物，所述文库构建中间产物为所述第二DNA片段、经过平端化的第二DNA片段和连接接头的第二DNA片段的至少之一。

6.根据权利要求5所述的方法，其特征在于，所述宏基因组DNA是从人口腔、鼻腔、呼吸道、生殖道和皮肤的至少一种提取的，

任选地，所述宏基因组DNA来源于人口腔的唾液、口腔黏膜、扁桃体、咽和上牙龈牙菌斑的至少一种，

任选地，第二DNA片段的长度为250bp。

7.根据权利要求5所述的方法，其特征在于，在所述筛选过程中，所述探针与所述文库构建中间产物的重量比为50：1，

任选地，所述筛选进一步包括：

将所述文库构建中间产物与杂交试剂混合，进行杂交；

去除未发生杂交的探针，以便获得经过纯化的文库构建中间产物，

任选地，将所述文库构建中间产物与杂交试剂混合时，进一步包括添加以下三种封闭序列：

Block1：CCACTACGCCTCCGCTTTCCTCTCTATGGGCAGTCGGTGAT；

Block2：CTGCCCCGGGTTCCTCATTCTCT；以及

Block3：TACACTCTTTCCCTACACGACGCTCTTCCGATCT，

任选地，通过清洗去除未发生杂交的探针，利用DNA外切酶消化未发生杂交的文库构建中间产物单链序列。

8.一种宏基因组测序文库，其特征在于，所述宏基因组测序文库根据权利要求5-7任一项所述的方法获得的。

9.一种确定宏基因组序列信息的方法，其特征在于，包括：

针对宏基因组DNA，根据权利要求5-7任一项所述的方法，构建宏基因组测序文库；

对所述宏基因组测序文库进行测序，以便获得由多个测序数据构成的测序结果；以及

基于所述测序结果，确定所述宏基因组的序列信息。

10.根据权利要求9所述的方法，其特征在于，进一步包括对所述测序结果进行除杂的步骤，以便除去下列不合格测序数据的至少之一：

测序质量低于预定阀值的碱基个数超过测序数据碱基个数的50%的测序数据；以及

含有接头序列的测序数据，

任选地，所述测序是利用选自Illumina-Solexa、ABI-Solid、Roche-454和单分子测序装置的至少一种进行的，

任选地，基于所述测序结果，确定所述宏基因组的序列信息进一步包括将所述测序结果与参考序列进行比对，

任选地，所述比对是通过SOAPaligner/SOAP2进行的。