CN105420375B

CN105420375B - 一种环境微生物基因组草图的构建方法

Info

Publication number: CN105420375B
Application number: CN201510983092.4A
Authority: CN
Inventors: 万成; 文平; 陆祖宏; 康玉麟
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-12-24
Filing date: 2015-12-24
Publication date: 2020-01-21
Anticipated expiration: 2035-12-24
Also published as: CN105420375A

Abstract

本发明公开了一种基于微量细胞全基因组测序的环境微生物基因组草图的构建方法，通过对多个环境微生物微小宏基因组样本分别进行核酸分离，扩增，构建高通测序文库，然后对测序数据进行过滤、从头组装、开放阅读框预测，使用基于隐马尔科夫模型的算法将序列分类，获得微生物基因组草图。该方法根据环境样本微生物群落的复杂度调整平行试验的次数，以获得最优的分析结果，可应用于土壤、空气、水体、人体等各种环境的微生物群落研究。

Description

一种环境微生物基因组草图的构建方法

技术领域

本发明涉及一种改进的宏基因组文库构建方法、宏基因组的生物信息学分析流程方法，属于新一代测序技术、宏基因组、数据统计、生物信息分析技术领域，特别涉及无参考基因组的序列组装分类，以及环境微生物基因组草图的绘制。

背景技术

微生物是自然界中种类最丰富，数量最庞大的生命形式，包括病毒、细菌、古细菌、真菌、单细胞藻类及原生动物等。微生物与人类活动关系密切，在环保、能源、食品加工、医疗卫生领域发挥重要的影响。利用现代分子生物学技术，已经有三千余种微生物全基因组被构建出来(NCBI)，然而还有更多的微生物仍不为人所知，尤其是极端环境微生物和不可培养微生物(Unculturable microbe)。宏基因组学(Metagenomics)将环境样本作为一个整体，不依赖于微生物分离和纯培养，为环境微生物研究提供了新的思路【Hugenholtz P,Tyson G W.Microbiology:metagenomics[J].Nature,2008,455(7212):481-483.】。常规的宏基因组学方法主要基于16s rRNA或鸟枪法测序，分别从系统发生学(phylogenetics)和基因种类、丰度、功能的角度对环境微生物进行阐述。宏基因组学大大提升了人类对于自然界中微生物种群与功能的认识，多个重要的数据库被建立起来，为后续研究和应用提供了基础【Qin J,Li R,Raes J,et al.A human gut microbial gene catalogue establishedby metagenomic sequencing[J].nature,2010,464(7285):59-65；Human MicrobiomeProject Consortium.A framework for human microbiome research[J].Nature,2012,486(7402):215-221；Li J,Jia H,Cai X,et al.An integrated catalog of referencegenes in the human gut microbiome[J].Nature biotechnology,2014,32(8):834-841.】。但是，目前宏基因组学仍然没有解决的核心问题是，人们还不能从宏基因组测序获得的序列信息中直接分析组装出不同个体微生物的基因组序列信息。虽然研究人员采用不同的实验手段和分析策略以重建环境微生物的全基因组，并获得了一定的成效【Wang Y,Leung H C M,Yiu S M,et al.MetaCluster 5.0:a two-round binning approach formetagenomic data for low-abundance species in a noisy sample[J].Bioinformatics,2012,28(18):i356-i362；Nielsen H B,Almeida M,Juncker A S,etal.Identification and assembly of genomes and genetic elements in complexmetagenomic samples without using reference genomes[J].Nature biotechnology,2014,32(8):822-828；Rinke C,Schwientek P,Sczyrba A,et al.Insights into thephylogeny and coding potential of microbial dark matter[J].Nature,2013,499(7459):431-437；Chitsaz H,Yee-Greenbaum J L,Tesler G,et al.Efficient de novoassembly of single-cell bacterial genomes from short-read data sets[J].Naturebiotechnology,2011,29(10):915-921.】，但宏基因组中大量微生物物种的基因组信息仍不很完整，无法从物种(species)的层面解释物种与物种，物种与环境间的相互作用关系。

发明内容

本发明的目的在于提供一种从环境微生物菌群样本中构建无参考基因组的微生物基因组草图的方法。利用新一代测序技术产生的短序列，准确高效地进行组装与分类，从土壤、空气、水体、人体等各种环境样本中获得微生物基因组。这种方法可用于疾病、环保、食品加工等方面的研究。

本发明主要涉及二个部分：一是提出一种宏基因组测序文库的构建方法，二是基于该文库构建方法的生物信息学分析方法。本发明提出的文库构建方法为：通过正常宏基因组样本采集方法获得被分析的环境微生物样本，通过梯度稀释适当降低样本微生物群落的复杂度，形成3个以上的微小宏基因组样本，每个样本中的微生物数量小于1000个；对于每个微小宏基因组样本，分别进行核酸分离，扩增，构建高通测序文库。本发明提出的生物信息学流程包括对测序数据进行过滤、从头组装(de novo assembly)、开放阅读框(openreading frame,ORF)预测，使用基于隐马尔科夫模型(hidden Markov model,HMM)的算法将序列分类，获得微生物基因组草图(draft genome)，并可在此基础上进一步优化。

具体的，本发明的技术方案如下：

一种环境微生物基因组草图的构建方法，包括以下步骤：

1)采集环境微生物样品，根据下述公式1确定单次测序平行实验所需的细胞数N及平行实验的次数X：

公式1：

其中，α为某物种在样品中的相对丰度的预估值。将α代入公式求解，得出在使用N个细胞进行全基因组扩增测序，共进行X次平行实验的条件下，可使相对丰度为α的物种在实验中重复出现5次以上，得到基因组覆盖度＞80％的基因组草图。

2)采用多重置换扩增(multiple displacementamplification,MDA)技术对微生物样品进行全基因组扩增测序，共进行X次平行实验，每次实验使用的细胞数为N；

3)对测序数据进行分析：首先构建微生物群落非冗余基因集；然后将非冗余基因集中的基因序列与微生物基因组数据库(NCBI_Bacterial genomes)进行比对，判定其中的已知微生物种类；最后通过contig聚类获得微生物基因组草图。

在步骤1)中，根据研究对象的不同可选择不同的方法对α进行预估。如：某微生物之前已有研究，在环境中的相对丰度曾有文献报道，即可根据参考文献进行预估；又如：研究对象为未知物种，可使用荧光探针标记+流式细胞数，或常规染色+显微计数等方式进行估算。如果以上方法都不可实现，直接进行假设即可。这个值只是对能够从环境样品中得到基因组草图的物种丰度下限的一个预设值，不需要太准确，数量级合适即可。

上述步骤1)针对不同类型的样本采取不同的采集方式，以获得尽可能完整的微生物群落样品。例如：对于固体样本，取适量样本用磷酸缓冲液悬浮，低速离心(通常低于4000rpm)，取上清；对于水体样本，取适量样本低速离心，弃上清，沉淀用磷酸缓冲液重悬；对于空气样本，将空气样本采集器的滤网或滤膜取下，用磷酸缓冲液冲洗，低速离心，取上清。

上述步骤2)就是对X个微小宏基因组进行微生物全基因组扩增测序，每个微小宏基因组样品的细胞数为N。在本发明的实施例中利用REPLI-g Single Cell kit(QIAGEN,USA.商品编号150345)对微生物样品进行全基因组扩增，扩增产物使用NEBNext DNA文库制备试剂盒(NEB,USA.商品编号E6040L)构建X个index测序文库，在Illumina Hiseq2500测序仪上进行测序。要求每次测序实验的数据量不低于2Gb。

上述步骤3)中，所构建的微生物群落非冗余基因集要满足如下标准：(i)任意基因间不能满足聚类条件；(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基因来代表。具体构建方法是：首先对测序数据进行质量控制，包括去除接头序列，过滤掉双端reads平均质量值<20的序列，截掉序列两端碱基分布波动大于30％的部分，对于来自宿主的样品过滤掉宿主序列；然后进行无参考基因组组装，组装采用多kmer值并行，选取最佳组装结果，得到contig序列；接着对contig序列进行基因预测，得到基因序列，并通过同源比对，获得基因序列的两两间相似度；对基因序列进行聚类去冗余，得到非冗余基因集。优选的，聚类条件为：基因间重叠长度大于等于90％且blast同源比对相似度大于等于95％。

上述步骤3)中，进行已知微生物种类的判定的条件为：(a)某已知物种2×以上深度的基因组覆盖度不低于20％；(b)测序序列连续覆盖的最长片段在18～22Kb范围内；(c)该物种在X次平行实验的数据中至少有2次满足前两个条件。符合以上条件的微生物可认为在原始样本中真实存在。

上述步骤3)中，通过contig聚类获得微生物基因组草图的方法是：选取非冗余基因集中的特定基因，以之为节点，采用基于隐马尔科夫模型的算法将contig进行聚类，得到属于不同微生物的contig簇，满足一定标准的contig簇即为微生物基因组草图。具体包括：首先，确定基因和contig的对应关系，即某个基因来源于哪条或哪几条contig；然后，选定种子基因，所述种子基因应当满足的条件为：(i)在1条以上的contig中存在；(ii)保守度大于0.8；(iii)长度大于1Kb；接着，随机选择一个种子基因进行第一轮contig聚类，将所有包含该种子基因的contig聚为一组；第一轮聚类得到的contig上包含的基因具有很高的重复数，选择重复数第二高的基因(即重复次数仅次于第一轮聚类所使用的种子基因的基因)进行第二轮聚类，依次循环，直至contig聚类中所包含的基因不能在剩余的contig中找到相同的拷贝，则一次聚类结束，得到属于同一个物种的contig簇；用剩余的contig重复聚类过程，至所有contig分配完成。

进一步的，对于contig聚类效果的质量，可以通过下述方法进行判断：将contig簇与样本中存在的已知微生物参考基因组进行比对，通过对已知微生物基因组的覆盖度和准确率的评价，判断未知微生物基因组的contig分类效果。

优选的，在步骤3)之后，将所有测序序列比回聚类得到的contig簇，将比对上的测序序列进行组装，评价组装效果。

本发明提出基于微量细胞全基因组测序来构建环境微生物的基因组草图，该方法可根据环境样本微生物群落的复杂度调整平行试验的次数，以获得最优的分析结果(基于实施例的统计模型)。

本发明提出的方法可用于土壤、空气、水体、人体等各种环境的微生物群落研究和应用，可以批量化分析的得到宏基因组中微生物的基因组草图。

附图说明

图1.本发明环境微生物基因组草图构建方法的流程图。

图2.实施例1中微生物全基因组扩增产物的电泳结果，其中：M为λHindIII DNAmarker，m为100bp DNA ladder，QI-1～QI-3为50个细胞起始的全基因组扩增产物，QI-4为10个细胞起始的全基因组扩增产物，-为阴性对照。

图3.实施例1使用Velvet 1.1.05对100次平行实验的测序数据分别进行组装的结果统计柱状图。

图4.实施例1得到的人粪便样本中已知微生物系统发育树，包含厚壁菌门(Firmicutes)、拟杆菌门(Bacteroidetes)、变形菌门(Proteobacteria)等五个人肠道微生物中主要的微生物类群，可鉴定到种(species)的细菌有108种，其中：每一层同心圆环代表一个分类等级，每一个小圆圈代表一类微生物；用颜色标识的为相对丰度较高的几个分类单元，包括：拟杆菌目(o_Bacteroidales)、拟杆菌科(f_Bacteroidaceae)、紫单胞菌科(f_porphyromonadaceae)、梭菌目(o_Clostridiales)、毛螺菌科(f_Lachnospiraceae)以及肠杆菌科(f_Enterobacteriaceae)，其中o代表目(Order)，f代表科(Family)。

图5.实施例1中以测序序列在每个contig簇上的分布频率作为统计量，绘制相对丰度最高的50个contig簇在100次平行实验中的聚类热图。

图6.实施例1使用circos软件将二次组装后得到的微生物基因组草图绘制成圆圈图(circos图)，其中：(a)图为contig簇在Alistipes putredinis基因组上的分布，外圈为参考基因组，参考基因组上的颜色代表contig的覆盖深度，范围1～1000；内圈为构成该基因组草图的四个contig簇，每一个小色块代表一条contig，色块长度代表contig长度；中间的连线代表contig之间存在的匹配关系；(b)图为四个contig簇之一contig cluster3273，外圈为构成该簇的全部contig，标尺为contig长度，单位为Kb；内圈为contig上的GC含量分布。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。

1.样品处理

针对不同类型的样本采取不同的处理方式，以获得尽可能完整的微生物群落样品。

固体：取适量样本置于无菌离心管中，加入1×无菌磷酸盐缓冲液(PBSbuffer)，充分混匀，低速离心，取上清；

水体：取适量样本置于无菌离心管中，低速离心，弃上清，用1×PBS buffer重悬；

空气：将空气样本采集器的滤网/滤膜取下，用1×PBS buffer冲洗，低速离心，取上清。

2.微生物全基因组扩增测序

使用血球计数板或流式细胞仪对样品进行细胞计数，根据以下公式确定单次平行实验所需的细胞数及平行实验的数量。

公式1：

其中N为单次平行实验所需的细胞数，X为平行实验次数，α为物种在样品中的相对丰度的预估值。将α代入公式求解，得出在使用N个细胞进行全基因组扩增测序，共进行X次平行实验的条件下，可使相对丰度为α的物种在实验中重复出现5次以上，得到基因组覆盖度＞80％的基因组草图。

采用多重置换扩增(multiple displacementamplification,MDA)对X个微小宏基因组进行微生物全基因组扩增测序。利用REPLI-g Single Cell kit(QIAGEN,USA.商品编号150345)对样品进行全基因组扩增，扩增产物使用NEBNext DNA文库制备试剂盒(NEB,USA.商品编号E6040L)构建X个index测序文库，在Illumina Hiseq2500测序仪上进行测序。每次实验的数据量不低于2Gb。

3.数据分析

宏基因组的数据分析遵从解释环境微生物群落通过其群落内部组成及变化对其所处环境的生态稳定进行调节的思路。获得微生物群落的DNA序列并得到其基因，直至得到群落中每种微生物的全基因组图谱，为生物学家进一步挖掘微生物群落的作用提供依据。

针对每个微小宏基因组测序数据的分析流程如下：

(1)构建微生物群落非冗余基因集：

a.测序数据质量控制

-去除接头序列；

-过滤掉双端reads平均质量值<20的序列；

-截掉序列两端碱基分布波动大于30％的部分；

-对于来自于宿主的样品，需过滤掉宿主序列。

b.无参考基因组组装

-对每个微小宏基因组样品分别进行组装，得到contig序列；

-组装采用多kmer值并行，选取最佳组装结果。

c.构建非冗余基因集

-对所有的contig序列进行基因预测，得到所有的基因序列；

-通过同源比对，获得基因序列两两间相似度；

-对该冗余基因集中包含的基因进行聚类去冗余，聚类条件为：基因间重叠长度大于等于90％且blast同源比对相似度大于等于95％。最终得到的非冗余基因集满足如下标准：(i)任意基因间不能满足聚类条件；(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基因来代表。

(2)已知微生物种类的判定

环境微生物种类繁多，组成复杂，其中大多数为目前尚无参考基因组的未知物种。判定样本中存在的已知微生物种类，可以辅助评价未知微生物的组装效率以及基因组草图的准确性。

将测序序列(reads)与微生物基因组数据库(NCBI_Bacterial genomes)进行比对，判定条件为：(a)某已知物种2×以上深度的基因组覆盖度不低于20％；(b)测序序列连续覆盖的最长片段约为20Kb；(c)该物种在X次平行实验的数据中至少有2次满足前两个条件。符合以上条件的微生物可认为在原始样本中真实存在。

(3)通过contig聚类获得微生物基因组草图

利用序列的共有特征将属于不同物种的片段进行分类，是目前从环境样本中直接构建微生物基因组的通用做法。【Wang Y,Leung H C M,Yiu S M,et al.MetaCluster 5.0:a two-round binning approach for metagenomic data for low-abundance speciesin a noisy sample[J].Bioinformatics,2012,28(18):i356-i362；Nielsen H B,AlmeidaM,Juncker A S,et al.Identification and assembly of genomes and geneticelements in complex metagenomic samples without using reference genomes[J].Nature biotechnology,2014,32(8):822-828；Rinke C,Schwientek P,Sczyrba A,etal.Insights into the phylogeny and coding potential of microbial dark matter[J].Nature,2013,499(7459):431-437；Chitsaz H,Yee-Greenbaum J L,Tesler G,etal.Efficient de novo assembly of single-cell bacterial genomes from short-read data sets[J].Nature biotechnology,2011,29(10):915-921.】基因作为基因组上的基本功能单元，具有一定的物种特异性，能够在分类过程中加以利用。选取非冗余基因集中的特定基因(即种子基因)，以之为节点，采用基于隐马尔科夫模型的算法将contig进行聚类，得到属于不同微生物的contig簇，满足一定标准的contig簇即为微生物基因组草图【所述标准可参考文献：Human Microbiome Jumpstart Reference Strains Consortium.Acatalog of reference genomes from the human microbiome[J].Science,2010,328(5981):994-999.】。

-确定基因和contig的对应关系，即某个基因来源于哪条或哪几条contig；

-选定种子基因，种子基因应当满足的条件为：(i)在1条以上的contig中存在；

(ii)保守度大于0.8；(iii)长度大于1Kb；

-随机选择一个种子基因进行第一轮contig聚类，将所有包含该种子基因的contig聚为一组。第一轮聚类得到的contig上包含的基因具有很高的重复数，选择重复数第二高的基因进行第二轮聚类，依次循环，直至contig聚类中所包含的基因不能在剩余的contig中找到相同的拷贝，则一次聚类结束，得到属于同一个物种的contig簇。用剩余的contig重复聚类过程，至所有contig分配完成。

(4)contig聚类效果的质量控制

将contig簇与样本中存在的已知微生物参考基因组进行比对，通过对已知微生物基因组的覆盖度和准确率的评价，判断未知微生物基因组的contig分类效果。

(5)二次组装提高组装质量(可选)

-将所有测序序列比回聚类得到的contig簇；

-将比对上的测序序列进行组装；

-评价组装效果。即将优化后的组装结果与仅靠分类得到的contig簇进行比较，比较的参数有N50值、基因组覆盖度等，均为常规做法。

实施例1.人肠道微生物基因组草图的构建

1.粪便样本处理

(1)取0.5g粪便，置于无菌15mL离心管中，加入5mLPBS buffer，vortex振荡混匀，700g离心1min，取上清；

(2)将菌液进行梯度稀释，在显微镜下观察，选择适当的稀释倍数，使用血球计数板进行计数，设α为1/1000，以获得粪便样本中所有丰度高于1/1000的微生物基因组草图，按照公式1确定最终用于单次反应的细胞数N为50，平行实验次数X为100；

2.全基因组扩增测序

按照Qiagen REPLI-g Single Cell kit protocol进行全基因组扩增。

(1)裂解细胞：取1μL稀释菌液(50cells/μL)至一无菌的0.2mL PCR管中，加入3μLNuclease-free H₂O，3μL D2buffer，混匀，65℃水浴10min；

(2)终止反应：向细胞裂解液中加入3μL Stop Solution，混匀，冰上静置备用；

(3)基因组扩增：向反应液中加入9μLNuclease-free H₂O，29μL REPLI-g scReaction buffer，2μL REPLI-g sc DNA polymerase，混匀，30℃水浴8hr；

(4)DNA检测：扩增产物使用QIAamp DNA Mini Kit(QIAGEN,USA.商品编号51306)进行纯化，Nanodrop 2000微量分光光度计(ThermoFisher Scientific,USA.)测定浓度，琼脂糖凝胶电泳检测片段大小，如图2所示，电泳结果表明，QiagenREPLI-g Single Cell kit能够有效扩增微生物基因组，扩增产物片段大小2-20Kb，主带明显，适用于进一步实验。但是阴性对照也提示该扩增方式过于敏感，需要在实验过程中注意外源DNA的污染。

(5)建库测序：扩增产物使用NEBNext DNA文库制备试剂盒(NEB,USA.商品编号E6040L)构建index测序文库，插入片段大小500bp，在Illumina Hiseq2500测序仪上进行双端测序，测序读长150bp。

3.数据分析

(1)对所有样品的测序数据进行如下步骤的处理：

-去除接头序列；

-过滤掉平均质量值小于Q20的reads；

-截掉每对reads 5’端10bp；

-过滤掉比对到人基因组(hg19)的reads。

通过这几步处理，100次平行实验共获得123.7Gb数据。

(2)使用Velvet 1.1.05对每份样品分别组装，在kmer＝87时获得最佳组装结果，得到243,507条contig，总长度1.23Gb，组装结果的汇总数据如图3所示。采用不同的Kmer值进行比较，当组装得到的contig同时满足：数量少和长度长这两个条件时，判断该Kmer为最优值。

(3)使用MetaGeneMark(GeneMark.hmm,version 3.26)对所有contig序列进行基因预测，得到1,211,701个ORF。基因区占contig总长度的88.9％。

(4)对所有基因通过聚类去冗余，得到由344,930条基因构成的非冗余基因集，平均长度为876bp。

(5)人肠道微生物包含9门(class)。将测序序列与微生物基因组数据库(NCBI)进行比对，以在任意两个样品中某物种基因组覆盖度超过20％(深度≥2)，且最大连续片段长度≥20Kb为标准，确定该样本中包含108种已知微生物，分别属于5个门，以厚壁菌门(Firmicutes)和拟杆菌门(Bacteroidetes)为主，以此绘制原始样本已知物种的系统发育树，结果如图4所示。

(6)对所有contig采用前述聚类方法进行分类，得到256个总长度>1Mb的簇。确定每个簇中contig来源，根据来自于已知物种的contig簇计算得到平均准确率为84％，覆盖度为50％。以测序序列在每个contig簇上的分布频率绘制热图，原始样本中相对丰度最高的50个簇在100次平行实验中的分布情况如图5所示。该图反应出各平行实验的随机性较高，物种分布较为均匀，测序序列的分布频率符合物种相对丰度的预期。

(7)将测序序列回比回每个contig簇，使用Velvet 1.1.05和Cap3进行二次组装，最终得到37个基因组草图，其中包含已知物种25个，未知物种12个。基因组contig N50为19Kb，平均长度为1.8Mb。根据已知物种来评估覆盖度>70％。用Circos软件将组装结果进行可视化展示，图6为组装一个微生物基因组circos图。

Claims

1.一种环境微生物基因组草图的构建方法，包括以下步骤：

公式1：

其中，p＝1-(1-α)^N，q＝(1-α)^N，α为某物种在样品中的相对丰度的预估值；

2)采用多重置换扩增技术对微生物样品进行全基因组扩增测序，共进行X次平行实验，每次实验使用的细胞数为N；

3)对测序数据进行分析：首先构建微生物群落非冗余基因集，所构建的微生物群落非冗余基因集满足如下标准：(i)任意基因间不能满足聚类条件；(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基因来代表；然后将非冗余基因集中的基因序列与微生物基因组数据库进行比对，判定其中的已知微生物种类；最后通过contig聚类获得微生物基因组草图；其中，通过contig聚类获得微生物基因组草图的方法是：选取非冗余基因集中的特定基因，以之为节点，采用基于隐马尔科夫模型的算法将contig进行聚类，得到属于不同微生物的contig簇，满足一定标准的contig簇即为微生物基因组草图。

2.如权利要求1所述的构建方法，其特征在于，步骤2)对微生物样品进行全基因组扩增，扩增产物构建index测序文库，然后进行测序，每次测序实验的数据量不低于2Gb。

3.如权利要求1所述的构建方法，其特征在于，步骤3)中构建微生物群落非冗余基因集的方法是：首先对测序数据进行质量控制，包括：去除接头序列，过滤掉双端reads平均质量值<20的序列，截掉序列两端碱基分布波动大于30％的部分，对于来自宿主的样品过滤掉宿主序列；然后采用多kmer值并行进行无参考基因组组装，选取最佳组装结果，得到contig序列；接着对contig序列进行基因预测，得到基因序列，并通过同源比对，获得基因序列的两两间相似度；对基因序列进行聚类去冗余，得到非冗余基因集。

4.如权利要求3所述的构建方法，其特征在于，对基因序列进行聚类去冗余时的聚类条件为：基因间重叠长度大于等于90％且blast同源比对相似度大于等于95％。

5.如权利要求1所述的构建方法，其特征在于，步骤3)中，判定已知微生物种类的条件为：(a)某已知物种2×以上深度的基因组覆盖度不低于20％；(b)测序序列连续覆盖的最长片段在18～22Kb范围内；(c)该物种在X次平行实验的数据中至少有2次满足前两个条件。

6.如权利要求1所述的构建方法，其特征在于，进行contig聚类的方法是：首先，确定基因和contig的对应关系，即某个基因来源于哪条或哪几条contig；然后，选定种子基因，所述种子基因应当满足的条件为：(i)在1条以上的contig中存在；(ii)保守度大于0.8；(iii)长度大于1Kb；接着，随机选择一个种子基因进行第一轮contig聚类，将所有包含该种子基因的contig聚为一组；第一轮聚类得到的contig上包含的基因具有很高的重复数，选择重复数第二高的基因进行第二轮聚类，依次循环，直至contig聚类中所包含的基因不能在剩余的contig中找到相同的拷贝，则一次聚类结束，得到属于同一个物种的contig簇；用剩余的contig重复聚类过程，至所有contig分配完成。

7.如权利要求1所述的构建方法，其特征在于，通过下述方法判断contig聚类效果的质量：将contig簇与样品中存在的已知微生物参考基因组进行比对，通过对已知微生物基因组的覆盖度和准确率的评价，判断未知微生物基因组的contig分类效果。

8.如权利要求1所述的构建方法，其特征在于，在步骤3)之后，将所有测序序列比回聚类得到的contig簇，将比对上的测序序列进行组装，评价组装效果。