CN106055924B

CN106055924B - 微生物操作分类单元确定和序列辅助分离的方法和系统

Info

Publication number: CN106055924B
Application number: CN201610333530.7A
Authority: CN
Inventors: 赵立平; 王景; 张梦晖
Original assignee: Perfect China Co Ltd
Current assignee: Shanghai Zhenling Health Technology Co ltd; Yangzhou Perfect Commodity Co ltd; Perfect China Co Ltd; Perfect Guangdong Commodity Co Ltd
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2019-02-01
Anticipated expiration: 2036-05-19
Also published as: CN106055924A; TW201741463A; MY190643A; SG11201810320WA; US20190194740A1; WO2017198137A1; US11373730B2

Abstract

基于样品中微生物的系统发生信息基因的DNA序列定义样品中的微生物操作分类单元(OTU)的方法，其通过处理原始序列读出以获得合格序列片段，根据其各自的相对丰度值对其进行排序，并且仅使用具有高丰度值的合格序列获得暂定OTU来进行。重新划归具有低丰度的合格序列，并且只有当所述合格序列与OTU序列具有至少97％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU。本发明还提供了序列辅助的微生物分离方法。

Description

微生物操作分类单元确定和序列辅助分离的方法和系统

背景技术

基于序列相似性或同源性将扩增的DNA序列(例如，16S rRNA扩增子序列)分配到操作分类单元(operational taxonomic unit，OTU)中是微生物群落研究中的基础方案。OTU划分(OTU delineation)对于揭示微生物群落的结构和鉴定关键物种是关键性的^1，2，其可以在下游分析中指导对重要功能细菌的分离和表征^3，4。

OTU划分方法当作为软件包执行时被称为“流程(pipeline)”。三种常用的流程是QIIME⁹、MOTHUR⁸和USEARCH⁷。它们在用经 454Illumina测序生成的相同短标签测序数据估计OTU数目方面显示出不同的结果。Chen等示出，10种已评估的OTU划分方法(Mothur、Muscle+Mothur、ESPRIT、ESPRIT-Tree、SLP、Uclust、CD-HIT、 DNAClust、GramCluster和CROP)通常过高估计了包括43个物种的模拟数据中OTU的数目(1708.5±1386.9)。不同方法也显示出宽范围的不同：ESPRIT给出了的最大估计OTU数目(4397)，是期望的102.3倍高；而CROP产生最小的估计OTU数目(133)，仍然是真实数目的3.1倍⁵。 Bonder等在OTU划分方法(Qiime Blast、CD-HIT、ESPRIT-Tree、Mothur furthest、Mothur average、Uclust、Uclustref和Uclust ref optimal)之前对序列进行了去噪和嵌合体检查，但是最低的OTU数目(25，通过 CD-HIT、ESPRIT-Tree和Uclust获得)仍然比具有15个物种的模拟数据中所期望的高出66.6％⁶。Edgar等提出，UPARSE可得到与具有22 个物种的模拟数据中的真实计数非常接近的OTU，而其他方法 (AmpliconNoise、Mothur和Qiime)将具有1.1±0.8、2.1±1.7和103.0±36.1 倍高的OTU⁷。但是Uparse仍然多出1个OTU，该OTU与模拟参照的同一性＜97％。

来自相同短标签测序数据的OTU数目的过高估计也存在于Illumina 测序中。当通过模拟样品的三个子区域扩增子测序进行评估时，MOTHUR 产生了20个物种之期望值的2.0±0.1、2.5±0.1和10.1±3.4倍⁸。通过对具有22个物种的模拟数据的正向末端读出进行OTU划分，QIIME得到高 8.4倍的OTU(206与22)，而USEARCH给出2个假OTU(与模拟参照的同一性＜97％)。此外，当通过Usearch分析经合并的双末端读出时，出现了4.3±1.3个假OTU⁷。因此，所有的三种常用流程QIIME⁹、 MOTHUR⁸和USEARCH⁷都过高估计了OTU的数目。

OTU过高估计产生了许多假OTU，这使微生物群落的组成分布进一步扭曲。在后续实验中阻碍了重要功能细菌的分离和鉴定。因此，找出这些流程为何产生高数目的假OTU并开发解决该问题的解决方案很重要。

发明内容

本文公开了使虚假(pseudo)OTU减到最少的改进方法。在该研究中，构建了具有22种不同16S rRNA基因克隆的7组模拟群落，每个群落的克隆成员浓度不同。在IlluminaMiseq平台上对这些群落的16S rRNA基因V3V4高变区¹⁰的扩增子进行三次独立批次的测序，进行批次内重复和批次间重复。先前的研究揭示了原始读出的错误类型^11，12，而我们集中于经过质量过滤(quality filtration)的“合格序列”，这是OTU 划分准确度的直接原因。然后应用并评估这三种常用的流程：QIIME⁹、 MOTHUR⁸和USEARCH⁷。追踪每个OTU的详细来源以推断这些流程为何不同程度地过高估计OTU的数目，并且设计了改进方法以使这些虚假OTU减到最少。另外，利用具有不同目标区域(V4或V3V4)和测序长度(150bp、200bp、250bp或300bp)的四个实际数据集，通过测量OTU数目以及alpha和beta多样性的改善证实了该改进方法。

在一个实施方案中，本发明提供了定义样品中的微生物操作分类单元 (OTU)的方法，所述方法包括：获得样品，所述样品包含各自含有系统发生信息基因的微生物；使用基于PCR的高通量测序技术获得样品中微生物的系统发生信息基因的原始序列读出；处理原始序列读出以获得合格序列片段；通过处理器获得每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；通过处理器根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约75％的合格序列组成，所述低丰度组由占总丰度约25％的剩余的合格序列组成；通过处理器仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定(Tentative)OTU；以及通过处理器重新划归 (re-map)低丰度组中的合格序列到暂定OTU，并且只有当合格序列与 OTU序列具有至少97％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，以实现对OTU的最终定义。

在一个实施方案中，系统发生信息基因选自16s rRNA基因或18s rRNA基因。

在一个实施方案中，系统发生信息基因是16s rRNA基因的一个或更多个可变区，例如其V3、V3-V4、V4、V5-V6、V9高变区。

在一个实施方案中，通过过滤(filtering)、质量修剪 (quality-trimming)、去重复(de-replicating)和去除PCR引物来获得原始序列读出，从而获得合格序列。

在一个实施方案中，通过流程对OTU进行划分，所述流程选自 VAMPS、USEARCH(例如v4、v5、v6、v7和v8，如v8.1.1861)、QIIME (例如v1.0、v1.1、v1.8和v1.9，如v1.9.1)和MOTHUR(例如v1.0、 v1.1、v1.8和v1.9，如v1.29.0)。

可使用例如Illumina^TM测序仪通过Illumina测序法来测定DNA序列，并且从样品中分离总核酸，然后测序。

本发明还提供了用于从环境样品中分离微生物的方法，其中所述微生物包含系统发生信息基因，所述方法包括：如上所述确定环境样品中的 OTU；选择具有其唯一系统发生信息基因序列的OTU作为待分离微生物；培养样品中的微生物；测定每种经培养微生物的系统发生信息基因的 DNA序列；以及分离其系统发生信息基因的序列与待分离微生物的系统发生信息基因序列同源的微生物。优选地，使用常规的微生物学、生理学或生物化学参数验证所分离的微生物。通常，其系统发生信息基因的序列与待分离微生物的系统发生信息基因序列具有99％或甚至95％或甚至更小同一性的分离物是满意的且被分离出来。

附图说明

图1示出了通过四种方法获得的“合格序列”根据其与最接近模拟参照的同一性水平的分布。在质量过滤后修剪对应于PCR引物的序列区域。 S+BH+P：与错误校正(BayesHammer)组合的质量修剪(Sickle)，然后进行读出重叠(PANDAseq)。

图2示出了“合格序列”的错误类型分布。根据单因素ANOVA检验，标在上方的字母不同的数据在P＜0.01下是显著不同的。插图示出了被错误鉴定(包括替换和缺失)的各碱基的比例之和。

图3示出了模拟数据中唯一序列的分布。(A)唯一序列与最接近模拟参照的同一性。具有＞3％错误的唯一序列的相对丰度都＜0.05％。(B) 唯一序列基于其相对丰度的分布。大多数唯一序列具有低丰度。

图4示出了通过不同方法获得的OTU获取准确度和效率。(A)通过每种方法获取的总OTU数目。(B)由每种方法所获取的OTU根据其与最接近模拟参照的同一性水平的分布。对通过Qiime获得的OTU进行另外的嵌合体检测方法(ChimeraSlayer和Uchime)，而Usearch和Mothur 具有嵌入式嵌合体检测。

图5示出了通过(A)Usearch、(B)Qiime、(C)Qiime+ChimeraSlayer、 (D)Qiime+Uchime和(E)Mothur划分为三种类型OTU的唯一序列的散点图。不同的形状各自示出归属于与模拟参照相同的OTU(完美 OTU，圆圈)、与参照具有≥97％同一性的OTU(良好OTU，方块)或者具有＞3％错误的OTU(虚假OTU，三角形)的唯一序列。

图6示出了低丰度“坏序列”对OTU划分的不同影响可通过仅考虑高丰度序列来消除。圆点代表属于单一质粒的所有唯一序列。中空的不同形状(方块、圆和三角形)代表通过不同流程获取的OTU的中心。

图7示出了模拟数据中用不同的相对丰度阈值通过我们提出的方法获得的OTU。(A-C)OTU数目和(D-F)重新划归至OTU中心(centroid) 的序列比例达到稳定。在OTU划分的初始步骤中，仅使用超过阈值的唯一序列。在划分之后，所有的“合格序列”以97％的相似性重新划归到 OTU。

图8示出了在(A)PWS、(B)Ultra、(C)Water、(D)River数据中，唯一序列基于其相对丰度的分布。大多数唯一序列具有低丰度。

图9示出了在(A)PWS、(B)Ultra、(C)Water、(D)River数据集中，用不同的相对丰度阈值通过我们提出的方法获得的OTU。在OTU 划分的初始步骤中，仅使用超过阈值的唯一序列。分割25％的总“合格序列”的阈值适用于所有的真实数据集。不同的流程在这些阈值下获得接近的OTU数目。

图10示出了保留在(A)PWS、(B)Ultra、(C)Water、(D)River 数据集中的“合格序列”的比例。在OTU划分之后，所有的“合格序列”以97％的相似性重新划归到OTU。在分割25％的总“合格序列”的阈值下，＞90％的总“合格序列”可在之后被重新划归回来。

图11示出了在(A)PWS、(B)Ultra、(C)Water、(D)River数据中的信噪比与相对丰度。信噪比随着相对丰度的降低而快速降低并且在更低丰度水平下达到稳定。垂直虚线示出了OTU划分的丰度阈值。

图12示出了在PWS数据中，我们提出的方法得到更少的OTU，但 alpha多样性相当。(A)通过每种流程获取的总OTU数目。(B)各样品的OTU数目。(C)Chao1指数。(D)Shannon指数。(E)Simpson指数。默认工作流程：执行各流程的默认参数。我们提出的方法：唯一序列的相对丰度阈值设定为0.00058％。＊＊p＜0.01，＊＊＊p＜0.001，＊＊＊＊p＜0.0001(Kruskal-Wallis检验，n＝108)。在计算alpha多样性之前，将测序量稀释到4,000个读出/样品。

图13示出了在PWS数据中，我们提出的方法用不同流程得到了更一致的beta多样性。通过比较用以下流程获得的每对分析流程之间的 Beta多样性距离矩阵获得Mantel统计量：(A)默认流程，(B)并入不同流程的我们提出的方法。在计算beta多样性距离矩阵之前，将测序数目稀释到4,000个读出/样品。

图14示出了构建模拟群落所使用的多个克隆的序列。

发明详述

我们的研究表明，三种常用的OTU划分流程Qiime、Mothur和 Usearch提供了模拟数据中不同的OTU数目和准确度。真实数据集中也出现了这种不同，导致了显著不一致的alpha和beta多样性信息。

根据模拟数据的调查，发现这是因为通过常用的质量过滤(quality filtration)方法不能去除测序错误。这些错误主要分布在具有较低丰度的唯一序列中。虽然这些“坏序列”的总体丰度较低(总“合格序列”的约 5％)，但是在OTU划分中包括这些“坏序列”不仅因将这些“坏序列”中的许多视为中心而使虚假OTU数目增加，而且因将一些高质量读出分配到虚假OTU而扭曲了“真实OTU”的丰度分布。

其余的错误表明，每个碱基的质量得分不足以指示真实的错误率^8，12，28。我们的研究显示，在根据序列的质量得分“合格序列”中仅允许每条序列有0.5个错误的条件下，存在具有＞3％错误的“坏序列”。嵌合体检测方法同样被广泛实施以克服PCR引入的错误。但是，无论在OTU 划分之前进行嵌合体唯一序列过滤还是在之后对嵌合体OTU进行过滤，都不能消除我们的研究中的虚假OTU。这些结果表明，目前的质量控制方法的效率不足以去除错误＞3％的所有序列。

质量过滤同样不改变“合格序列”的错误类型。替换是主要的错误来源，而不是插入和缺失。C碱基比G碱基明显更可能产生替换错误，并且还出现了替换的趋势：A-＞G、C-＞A、G-＞T和T-＞C，与原始读出中所报道的相似¹²。

已证实，丰度最高的序列被认为是生物学上的真实序列¹¹，并且其被由较低丰度序列(大多数为单拷贝序列(singleton))构成的“错误云(error cloud)”包围^7，29。因此，Nicholas等将较低丰度OTU过滤掉¹¹，但是这并没有改善OTU的划分。去除较低丰度OTU还意味着不管所述OTU各自的准确度如何都删除了属于该OTU的所有序列。Chen等不管其准确度如何都丢弃了454测序数据中所有的较低丰度序列⁵，但是根据我们的结果，在Miseq数据中仅很少一部分的较低丰度序列实际上是“坏序列”。而Edgar在通过Usearch进行OTU划分时没有考虑单拷贝序列以防止其变为OTU的中心，然后将其重新划归到OTU以实现更好的覆盖范围⁷。我们的方法扩大了在OTU划分期间暂不考虑的唯一序列的范围，原因是单拷贝序列不是“坏序列”的唯一来源。

根据模拟数据，在较低丰度区域中观察到所有的“坏序列”。虽然在真实数据中并不知道“坏序列”的实际分布，但是我们可以设定阈值以确定避开OTU划分的低丰度唯一序列。为了找到普遍适用的阈值，我们调查了四个真实数据集中的唯一序列分布和OTU划分结果。虽然它们用不同的测序方案对16s rRNA基因的不同目的区域进行了测序，但是宿主相关或自由生存的微生物群落的所有真实数据集始终包含大部分的低丰度唯一序列。当这些唯一序列不参与初始OTU划分时，OTU数目大大减小并且到达稳定期，在此期间不同流程提供相似的结果。当低丰度唯一序列占总“合格序列”的25％时，相对丰度阈值对所有的数据集是合适的。而且，根据自举再抽样(bootstrap resampling)，证明这些阈值水平足以保持所有的可靠唯一序列。相比之下，较低丰度序列的信噪比表明其丰度确实有很大偏差，并且不应用于进一步分析。

之后将“合格序列”重新划归到预先定义的OTU是另一个重要的过程步骤。该过程将OTU划分分为两部分：(i)选择每个OTU的中心，和 (ii)基于参照的OTU分配。虽然25％的序列在OTU划分的初始步骤期间暂不考虑，但是最终仅丢弃了不能满足97％相似性阈值的序列(＜10％)。这为选择OTU划分的中心给出了严格的标准，但是仍然允许将高质量的较低丰度序列分配到对应的OTU。

我们的方法防止了较低丰度唯一序列中的假象(artefact)成为OTU 的中心，使得由大多数现有方法产生的OTU数目过高估计降低至合理水平。OTU结果在下游分析和实验中更为可靠且更易重现，从而促进了重要功能细菌的检测、分离和验证。OTU划分方法的选择不再是问题，原因是整合有我们的方法的OTU划分流程提供了相似的OTU数目，并且产生了一致的alpha和beta多样性。此外，我们的方法应用起来简单，原因是其既不需要知道每个错误的确切来源，也不需要对假OTU进行额外的过滤。其还因仅分析一部分高丰度唯一序列而降低了对计算资源的需求。我们认为，这种准确、简单、快速且容易整合的方法在微生物研究中具有潜在的用途。

本发明提供了定义样品中的微生物操作分类单元(OTU)的方法，所述方法包括：1)获得样品，所述样品包含各自含有系统发生信息基因的微生物；2)使用基于PCR的高通量测序技术获得样品中微生物的系统发生信息基因的原始序列读出；3)处理原始序列读出以获得合格序列片段；4)获得每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；5)根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约70％至 80％的合格序列组成；所述低丰度组由占总丰度约20％至30％的剩余的合格序列组成；6)仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定OTU；以及7)重新划归低丰度组中的合格序列到暂定OTU，并且只有在合格序列与OTU序列具有至少90％序列相似性时才将所述合格序列分别分配到合适的暂定OTU，以实现对OTU的最终定义。

在一些实施方案中，步骤4)、5)、6)和/或7)通过处理器进行。

在一些实施方案中，在步骤5)中，高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约71％至79％、72％至78％、73％至77％、74至76％、74.5％至75.5％、74.6％至75.4％、74.7％至75.3％、 74.8％至75.2％、74.9％至75.1％的合格序列组成；低丰度组由占总丰度约21％至29％、22％至28％、23％至27％、24至26％、24.5％至25.5％、 24.6％至25.5％、24.7％至25.3％、24.8％至25.2％、24.9％至25.1％的剩余的合格序列组成。

在一些实施方案中，在步骤5)中，高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约75％的合格序列组成；低丰度组由占总丰度约25％的剩余的合格序列组成。

在一些实施方案中，在步骤7)中，只有当合格序列与OTU序列具有至少91％、92％、93％、94％、95％、96％、97％、98％或99％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU。

因此，在一个实施方案中，本发明提供了定义样品中的微生物操作分类单元(OTU)的方法，所述方法包括：

-获得样品，所述样品包含各自含有系统发生信息基因的微生物；

-使用基于PCR的高通量测序技术获得样品中微生物的系统发生信息基因的原始序列读出；

-处理原始序列读出以获得合格序列片段；

-通过处理器获得每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

-通过处理器根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约75％的合格序列组成；所述低丰度组由占总丰度约25％的剩余的合格序列组成；

-通过处理器仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定OTU；以及

-通过处理器重新划归低丰度组中的合格序列到暂定OTU，并且只有当合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。

适用于本发明方法的样品可以是环境样品，例如土壤、水；或大气样品；或来自对象的样品，例如临床样品，尤其是用于研究肠道微生物区的样品，如粪便样品。

操作分类单元(OTU)是旨在代表基于核酸序列的系统发生研究中的分类单元或物种的个体的群。每个OTU代表系统发生信息基因序列的相似序列变体的群，并且每个OTU可代表取决于序列相似性阈值的物种或属。

系统发生信息基因对于基于基因的系统发生研究领域中的普通技术人员是公知的，并且是可用于划分两种或更多种生物体的系统发生关系的生物体基因组中的基因或区域。具体地，系统发生信息基因序列包含足够的随机突变，其数目是自两种或更多种生物体具有共同祖先以来的时间的结果并且与该时间成比例，从而允许说明生物体的系统发生关系。众所周知，生物体之间的突变(或差异)数目不应太大或太小，其中的任何一个都将妨碍破解有意义的关系。

许多系统发生信息基因在本领域中是已知且被广泛认可的，这主要通过经验确定。除了基因的突变率之外，对用于特定系统发生研究的系统发生信息基因的选择还取决于所研究生物体的系统发生关系。明显地，快速进化的基因仅适于确定密切相关的生物体(其最近仅根据进化树进行分离)的关系；而突变相对缓慢的基因可适于关系更为疏远的分类群。

系统发生信息基因序列的实例包括原核生物中的16s rRNA基因或真核生物中的18s rRNA基因。具体地，可使用16s rRNA基因的多个高变区(例如，V1、V2、V3...V9)或其相邻区域，以及ITS(内转录间隔区) 或甚至整个16s rRNA基因。

通常，在基于16s rRNA基因的宏基因组学研究中，OTU群通过16S 基因序列变体的97％同一性阈值来定义，而且建议使用99％同一性以进行物种分离。

如本公开内容的上下文中使用的，术语“原始序列读出”意指由自动测序机器的检测器直接生成的核苷酸序列，与其对应的质量得分一起指示每种核苷酸检测的准确度。

许多基于PCR的高通量测序技术或“下一代”测序技术在本领域中是已知的并且是市售的，例如商标名为454SEQUENCER^TM、 IonTorrent^TM、Illumina^TM和PacBio^TM的多种测序机器。

原始序列读出首先通过双末端测序(PET)方案进行组装，其中PCR 引物被截掉。通过过滤、质量修剪、去重复、去除PCR引物来处理经组装的序列，然后基于平均质量得分或通过其对应质量得分计算的预计错误率对其进行评估以确定其是否具有期望的准确度。满足某预先定义标准的经组装序列将被认为是“合格序列”，然后将其归入非冗余唯一序列中。

合格序列的长度取决于所使用的区域或相邻区域。通常，合格序列应长到足以提供有意义的序列信息并且允许测定所研究的系统发生信息基因序列。

然后计算每条唯一序列的“相对丰度值”，其是唯一序列的丰度除以所有序列的总丰度。唯一序列阈值的相对丰度根据数据集通常在0.0005％至0.01％中变化。

一旦确定了相对丰度，就使用计算机根据唯一序列的丰度值对其进行排序。然后将序列分成两个组：高丰度组和低丰度组，其中所述高丰度组由具有较高丰度值的合格序列组成，其总和等于总丰度的约75％；低丰度组由具有较低丰度值的剩余的合格序列组成，其总和等于总丰度剩余的约25％。虽然在实施例中使用了75％-25％划分，但是本领域普通技术人员知道，该分界线可以根据序列的分布进行调整，例如，只要大于90％的总序列可以被分配到暂定OTU即可。知道不同的划分方法将产生略有不同的OTU数目。

在一个实施方案中，本发明使用16s rRNA基因或18s rRNA基因作为系统发生信息基因，尤其是rRNA基因的一个或更多个可变区。

在一个实施方案中，本发明结合使用广泛用于OTU划分的流程，例如USEARCH、QIIME和MOTHUR。

本发明还提供了基于如上所测定的OTU系统发生信息基因的序列信息从环境样品中分离微生物的方法。本发明的“序列指导分离”方法包括： i)在适合样品中所有微生物的多种条件下进行培养，以获得尽可能多的微生物的纯培养物；以及ii)测定分离物的系统发生信息基因的DNA序列，并鉴定其相关序列与OTU序列相同或足够相似的分离物。如果待分离微生物的分类或其他特征是已知的或者基于OTU信息可测定的，则菌落形态或其他常规的微生物学特性可以用于并且应该用于使需要序列验证的可能分离物的库变窄。

本发明还提供了定义样品中的微生物操作分类单元(OTU)的方法，所述方法包括：

1)获得样品中所包含的微生物的系统发生信息基因的每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

2)根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约70％至80％的合格序列组成；所述低丰度组由占总丰度约20％至30％的剩余的合格序列组成；

3)仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定 OTU；以及

4)重新划归低丰度组中的合格序列到暂定OTU，并且只有当合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。

在一个实施方案中，如下获得合格序列：使用基于PCR的高通量测序技术获得样品中微生物的系统发生信息基因的原始序列读出，并处理原始序列读出以获得合格序列片段。

本发明还提供了用于鉴定、表征或评估样品中的微生物群落或微生物区的方法，所述方法包括：

3)仅使用高丰度组中的合格序列划分样品中的操作分类单元(OTU) 从而获得暂定OTU；以及

本发明还提供了用于鉴定、表征或评估对象的健康状况的方法，所述方法包括：

1)获得来自对象肠道的样品中所包含的微生物的系统发生信息基因的每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为 100％；

本发明还提供了用于定义样品中的微生物操作分类单元(OTU)的软件，所述软件包括：

第一模块，用于获得样品中所包含的微生物的系统发生信息基因的每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

第二模块，用于根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约70％至80％的合格序列组成；所述低丰度组由占总丰度约20％至30％的剩余的合格序列组成；

第三模块，用于仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定OTU；以及

第四模块，用于重新划归低丰度组中的合格序列到暂定OTU，并且只有当合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。

本发明还提供了用于定义样品中的微生物操作分类单元(OTU)的系统，所述系统包括：

第一装置，用于获得样品中所包含的微生物的系统发生信息基因的每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

第二装置，用于根据合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于低丰度组中合格序列的丰度值并且总体占总丰度约70％至80％的合格序列组成；所述低丰度组由占总丰度约20％至30％的剩余的合格序列组成；

第三装置，用于仅使用高丰度组中的合格序列划分样品中的OTU从而获得暂定OTU；以及

第四装置，用于重新划归低丰度组中的合格序列到暂定OTU，并且只有当合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。

通过以下实施例说明本发明，所述实施例不旨在以任何方式限制。通篇所使用的范围用作描述在该范围内的每个值的速记表达。在该范围内的任何值都可以选择作为范围的终点。应理解，当描述配方时，如在本领域中常见的，其可以以其成分进行描述，尽管在实际配方中这些成分在其制备、储存和使用时可彼此反应，并且这样的产物旨在包括在所述配方中。此外，本文引用的所有参考文献通过引用整体并入本文。

实施例

材料和方法

模拟群落的构建

选择总计22种16S rRNA基因克隆来构建7个模拟群落。表1示出了克隆的克隆ID、分类和序列信息(结合序列表和图14)。

每个模拟群落具有不同的克隆组成(表2)。这些克隆的V3-V4高变区彼此具有≤97％的相似性以避免OTU的混乱估计。每个群落在同一测序批次中具有3次重复。4个群落进行额外2个批次的测序。

获得真实数据集

PWS数据：获得由诊断患有Prader-Wili综合征或单纯性肥胖的儿童在膳食干预期间收集的110例人粪便样品⁴。通过2＊300bp双末端测序由同一Illumina Miseq机器对V3-V4高变区和模拟样品进行测序。

Ultra数据：已公开的数据集包括来自宿主相关环境或自由生存环境的微生物群落，以150bp单末端对V4区进行测序³⁰。

Water数据：已公开的数据集收集自荷兰的饮用水系统，以2＊200bp 的读取长度对V4区进行扫描³¹。

River数据：已公开的数据集包括沿多瑙河中游的水样品，通过2＊200 bp测序对V3-V4区进行测序³²。

表1：每个克隆ID的序列和分类信息

克隆ID	分类	序列
			G03.21	细菌界；硬壁菌门；梭菌纲；梭菌目；毛螺菌科；Blautia	SEQ ID NO：1
G06.93	细菌界；硬壁菌门；Negativicutes；Selenomonadales；韦荣球菌科；Allisonella	SEQ ID NO：2
			D10.54	细菌界；“拟杆菌门”；“拟杆菌纲”；“拟杆菌目”；“Prevotellaceae”；Paraprevotella	SEQ ID NO：3
G02.84	细菌界；“拟杆菌门”；“拟杆菌纲”；“拟杆菌目”；″紫单胞菌科”；Barnesiella	SEQ ID NO：4
			C09.54	细菌界；硬壁菌门；杆菌纲；乳杆菌目；链球菌科；链球菌属	SEQ ID NO：5
D02.70	细菌界；硬壁菌门；梭菌纲；梭菌目；瘤胃球菌科；瘤胃球菌属	SEQ ID NO：6
			D02.21	细菌界；“放线菌门”；放线菌纲；红蝽菌目；红蝽菌科；Collinsella	SEQ ID NO：7
G10.33	细菌界；“拟杆菌门”；“拟杆菌纲”；“拟杆菌目”；拟杆菌科；拟杆菌属	SEQ ID NO：8
			G03.02	细菌界；硬壁菌门；梭菌纲；梭菌目；毛螺菌科；Dorea	SEQ ID NO：9
G10.26	细菌界；“拟杆菌门”；“拟杆菌纲”；“拟杆菌目”；“理研菌科”；Alistipes	SEQ ID NO：10
			C10.94	细菌界；“拟杆菌门”；“拟杆菌纲”；“拟杆菌目”；“紫单胞菌科”；Butyricimonas	SEQ ID NO：11
F08.65	细菌界；硬壁菌门；Negativicutes；Selenomonadales；韦荣球菌科；Veillonella	SEQ ID NO：12
			B14.45	细菌界；“变形菌门”；γ变形菌纲；“肠杆菌目”；肠杆菌科；克雷伯杆菌属	SEQ ID NO：13
C08.06	细菌界；“变形菌门”；δ变形菌纲；脱硫弧菌目；脱硫弧菌科；脱硫弧菌属	SEQ ID NO：14
			F15.08	细菌界；硬壁菌门；梭菌纲；梭菌目；毛螺菌科；Anaerostipes	SEQ ID NO：15
F12.59	细菌界；“变形菌门”；γ变形菌纲；巴斯德氏菌目；巴斯德氏菌科；嗜血杆菌属	SEQ ID NO：16
			G02.62	细菌界；“变形菌门”；β变形菌纲；伯克氏菌目；萨特氏菌科；萨特氏菌属	SEQ ID NO：17
B2-5	细菌界；硬壁菌门；杆菌纲；乳杆菌目；乳杆菌科；乳杆菌属	SEQ ID NO：18
			YSQ.78	细菌界；“变形菌门”；γ变形菌纲；假单胞菌目；假单胞菌科；假单胞菌属	SEQ ID NO：19
YSQ.40	细菌界；“变形菌门”；β变形菌纲；伯克氏菌目；丛毛单胞菌科；食酸菌属	SEQ ID NO：20
			YSQ.182	细菌界；变形菌门”；β变形菌纲；红环菌目；红环菌科；Thauera	SEQ ID NO：21
Ecol	细菌界；变形菌门；γ变形菌纲；肠杆菌目；肠杆菌科；埃希氏杆菌/志贺氏杆菌属	SEQ ID NO：22

表2：模拟群落1-1至7-3中的序列组成(％)

测序过程

如

http：//res.illumina.com/documents/products/appnotes/16s-metagenomic- library-prep-guide.pdf所述，通过Illumina Miseq对16S rRNA基因的高变区扩增子V3-V4进行测序，其中具有以下修改。使用Platinum Pfx DNA 聚合酶(C11708021，Invitrogen，USA)进行两步扩增。将Amplicon PCR (16S rRNA V3-V4区扩增)的PCR循环减少至21以减小PCR偏差。根据方案进行指数PCR(Index PCR)和PCR产物纯化。所使用的引物对为：S-D-Bact-0341-b-S-17，5’-CCTACGGGNGGCWGCAG-3’和 S-D-Bact-0785-a-A-21，5’-GACTACHVGGGTATCTAATCC-3’^10，33。

质量过滤

质量过滤使用Usearch⁷、Mothur¹³、Fastq-join¹⁴(在Qiime⁹中实施)，以及最近说明的流程¹²来进行，所述最近说明的流程包括质量修剪 (Sickle¹⁵)、错误校正(BayesHammer¹⁶)和读出重叠(PANDAseq¹⁷)(缩写为S+BH+P)。每个序列对需要≥50bp的重叠，产生≥400bp的合并序列，并且没有不明确碱基。Usearch进一步过滤掉具有之0.5个预期错误的序列。随后从“合格序列”中将PCR引物截掉。

OTU划分

在Usearch⁷流程中，对“合格序列”进行全长去重复以得到唯一序列，并根据丰度降低进行排序，丢弃单拷贝序列。然后通过Uparse默认程序获取非嵌合OTU的代表序列。使用UCHIME²⁰针对RDP分类训练数据库³⁴(v9)进行进一步的基于参照的嵌合体检测。通过用Usearch¹⁸全局比对算法将“合格序列”划分到剩下的OTU，完成OTU表。

按照开发中的Mothur SOP (http：//www.mothur.org/wiki/MiSeq SOP)，对“合格序列”进行去重复以得到唯一序列，并与SILVA参照数据库³⁵进行比对。保留在6430位或6430位之前起始并在23439位或23439位之后结束的序列，并以至多两个差异进行预群集(pre-cluster)。序列按照样品分开，并使用高丰度序列作为参照通过UCHIME²⁰检查嵌合体。非嵌合体序列按照RDP分类训练集v9³⁴的Mothur格式化版本进行分类，并进一步过滤掉非细菌序列。然后用平均邻居算法以＞97％的相似性获取OTU。

在Qiime流程中，使用UCLUST¹⁸以＞97％的相似性将“合格序列”群集到从头开始的OTU。使用针对Greengenes核心数据库³⁶的 ChimeraSlayer¹⁹或者使用针对RDP分类训练集数据库³⁴(v9)的 UCHIME²⁰，完成嵌合体OTU的额外鉴定。

结果

用模拟数据进行质量控制过程的评估

三个Miseq测序批次分别完成了每个样品平均15017.4±999.6条(平均值±标准差)、16247.3±1856.4条和34060.0±3923.9条序列的测序。使用四种质量控制方法来进行质量过滤，包括Usearch⁷、Mothur¹³、Fastq-join¹⁴和Sickle¹⁵+BayesHammer¹⁶+PANDAseq¹⁷(简写为S+BH+P)。在各项质量控制和进一步截掉PCR引物之后，通过Usearch全局算法¹⁸将留下的“合格序列”与模拟参照进行比对。整体测序准确度以测序读出与最接近参照的同一性(图1)表示。

如图1所示，质量过滤之后的大多数“合格序列”具有足够的准确度。Usearch、Mothur、Fastq-joi和S+BH+P分别提供了与模拟序列具有100％同一性的68.5±8.9％、65.9±8.7％、68.9±6.1％和77.1±7.5％的序列。此外，多达94％的“合格序列”与最接近模拟参照的同一性不小于97％。此外，还存在3.4±1.6％、3.5±1.6％、3.3±1.5％和5.3±3.3％的“合格序列”具有大于3％的错误，其中的一些与参最接近模拟参照的同一性甚至＜90％。

另一方面，对于同一模拟群落，虽然四种方法中“合格序列”的错误分布相似，但是“合格序列”的绝对量在不同测序批次和过滤方法之间有显著不同(表3)。Fastq-join和S+BH+P的稳健性最小，其获得最少的“合格序列”。

表3.通过使用不同方法的质量过滤的序列数目

^＊通过PrimerTrim修剪PCR引物

^＊＊与错误校正(BayesHammer)组合的质量修剪(Sickle)，然后进行读出重叠(PANDAseq)

模拟数据中“合格序列”的错误类型分布

平均地，每条“合格序列”包含1.8±0.8个错误，包括替换(碱基被错误鉴定)、插入和缺失。当考虑到相似的错误分布(图2)时，根据单因素方差分析(ANOVA)检验，替换的发生率显著(p＜0.01)高于插入和替换。四种核苷酸具有不同的错误率，其中C比G显著地更可能被错误鉴定(p＜0.01，单因素ANOVA检验)，并且A和T碱基为中等。每种类型的核苷酸还显示出替换的特定趋势，例如，A更可能被替换为G，T 更可能被替换为C，C更可能被替换为A，G更可能被替换为T。

模拟数据中唯一序列的分布

对通过Usearch或Mothur流程提供的“合格序列”进行去重复以分别得到25564.7±6152.6和35219.3±12133.6条唯一序列。

以Usearch流程获得的结果作为实例，具有＞3％错误的唯一序列的丰度为总“合格序列”的＜0.05％(图3A)。通常，对于相对丰度＜0.05％的唯一序列，相对丰度越低，不同唯一序列的数目越大，形成了L形丰度分布曲线(图3B)。以0.05％的相对丰度作为阈值，可将唯一序列分为相对较低丰度组和相对较高丰度组。发现大于90％的唯一序列在较低丰度区域中，而其仅占总“合格序列”的27.8±7.8％。

此外，通过ChimeraSlayer¹⁹(“合格序列”的5.8±1.1％)和Uchime²⁰ (“合格序列”的3.9±1.8％)检测到的嵌合体序列几乎都属于该较低丰度组。

模拟数据中Usearch、Qiime和Mothur以默认参数进行的OTU划分

在模拟参数集下，Usearch对测序错误表现出最佳耐性，并且将“合格序列”分配到26.3±0.6个OTU。Qiime和Mothur获取了比22个物种的实际数据多得多的OTU(799.3±74.5和429.0±143.0)(图4A)。由于之前的章节已表明嵌合体不能忽视，所以对通过Qiime获得的OTU进行了两种额外的嵌合体检测方法(ChimeraSlayer和Uchime)，而Usearch和 Mothur在OTU获取期间或之前实施嵌合体过滤。嵌合体过滤的确改善了Qiime的OTU获取，OTU数目从799.3±74.5降低至85.0±9.5 (ChimeraSlayer)和78.7±4.2(Uchime)。OTU数目仍然被过高估计。

通过将每个OTU的代表序列与模拟参照进行比对来评估OTU划分的准确度(图4B)。OTU被定义为“完美”(与模拟参照100％相同)，“良好”(97％≤同一性＜100％)和“虚假”(同一性＜97％)。所有的方法都可以提供与22个模拟参照的同一性＞99％的OTU，显示出与22个“真实”物种一一对应。但是，Usearch、Qiime加上嵌合体检查(ChimeraSlayer 或Uchime)、以及Mothur分别也获得了4.3±0.6(16.4±1.8％)、61.7±10.1 (72.2±4.2％)、52.0±6.0(66.0±4.4％)和381.7±130.4(88.7±2.1％)个假 OTU。

然后根据唯一序列所分配到的OTU类型(完美、良好和虚假)追踪唯一序列(图5)。结果显示，所有的OTU划分方法都保留了“坏”的唯一序列(同一性＜97％)，其中的一些成为虚假OTU的中心。Usearch在 OTU划分期间丢弃了单拷贝序列(没有重复的唯一序列)和潜在的嵌合体序列，因此明显减少了所保留的低同一性唯一序列。但是只丢弃单拷贝序列并不足够，因为仍有非单拷贝序列的“坏”唯一序列被保留下来，并成为虚假OTU的来源(图5)。此外，高同一性的唯一序列(同一性≥97％) 同样可以被分配到虚假OTU，即使在经过嵌合体检查之后也是如此(图 5B-E)。这表明，这些“坏序列”不仅通过自身而且通过抓取高同一性序列引入了额外的虚假OTU，产生了“真实OTU”的扭曲分布。

还注意到，保留下来的低同一性唯一序列的相对丰度不超过“合格序列”的0.05％，并且在嵌合体过滤后进一步降低至＜0.01％。

通过我们的方法改善的模拟数据的OTU划分

通过模拟数据，认识到具有相对较低丰度的唯一序列是“坏序列”和虚假OTU的主要来源。应理解，在一条序列中出现的错误越多，另一条序列包含完全相同错误的可能性越小。因此，通过避免所有的低丰度唯一序列参与OTU划分可以简单地消除“坏序列”。属于单一质粒的大多数唯一序列群集在一起(图6)，而几条具有相对较低丰度的唯一序列散开分布，与来源质粒的相似性＜97％。获取这些序列中的一些作为虚假OTU 的中心，使得OTU数目远远大于一个物种的实际数目。然而，如果在 OTU划分期间仅考虑高丰度唯一序列，所有流程都将得到真实OTU。

相对丰度值确定：将序列归并到非冗余唯一序列中，唯一序列的丰度是与原始数据中该唯一序列完全相同的重复序列的数目。唯一序列的相对丰度是该唯一序列的丰度除以总丰度。

因此，我们提出了三步法来改进现有的分析流程：(i)设定唯一序列的相对丰度阈值，(ii)仅将超过该阈值的较高丰度唯一序列输入到初始的OTU划分步骤中，(iii)如果较低丰度唯一序列符合97％的相似性阈值则将其重新划归到OTU。

我们设定了一系列的相对丰度阈值来测试我们的方法(图7A-C)。在模拟数据中搁置“合格序列”的相对丰度＜0.01％的唯一序列对于Usearch 和Mothur已经足够，并且其对应于每个模拟参照都一致地获得了22个 OTU。当将相对丰度阈值提高到0.05％或更高时，大多数的结果都获得了与22个“真实”物种相同或非常接近的22个OTU， Qiime+ChimeraSlayer除外，其仅产生了21个OTU。OTU数目在进入在阈值高于1％之前保持稳定，在该水平下真实物种也不参与OTU划分。

当丰度阈值没有超过1％时，由低丰度唯一序列中捕获的最多25％至 38％的总“合格序列”不参与OTU划分的初始步骤，但是之后通过将其重现划分回预先定义的OTU对其进行了重新考虑。在Qiime、Mothur 和Usearch的结果中进行重新划归之后，至少93.9％的“合格序列”被最终保留下来。对经Qiime获取的OTU结果进行额外的嵌合体过滤明显影响重新划归比例，产生了大幅度的波动(图7D-F)。

丰度阈值的确定

使用4个已公开的真实数据集来进一步评估我们的方法并找出普遍适用的阈值。虽然不知道真实数据集中的实际准确度信息，但是在所有的四组数据中在对“合格序列”进行去重复之后都存在相似的唯一序列L 形分布(图8)。每组数据都包含大量的低丰度唯一序列。将我们的方法并入不同的流程中并改变相似性阈值，对于每个数据集获得了一系列的 OTU划分结果(图9)。所有的结果都显示出，OTU数目在开始时就显著下降，并且当更多的序列从OTU划分的第一步中搁置时，OTU数目的下降趋势保持缓慢。执行不同算法的不同流程显示出不同的行为，但是在稳定期其都获得相似的OTU数目。在真实数据集中，这些稳定期在约 0.0005％的相对丰度水平下开始出现(图9)，这比模拟数据集中约0.05％的水平低得多(图7)。与仅由22个物种构建群落的模拟数据相比，真实数据集要复杂得多。结果表明，不能选择相对丰度作为普遍适用的阈值，原因是其可能是数据特异性的。然而，如果考虑所搁置的总“合格序列”的比例，则25％水平都出现在每个数据集的平台期中。在该水平下，至少90％的“合格序列”可以重新划归到预先定义的OTU(图7，图10)。这意味着，避免最低25％的总“合格序列”参与OTU划分被认为是潜在的阈值。

然而，存在这样的担忧：可能丢失具有较低丰度的真实OTU。因此，我们应用自举程序来估计唯一序列的不确定性水平。对于每组数据，根据唯一序列的原始分布，进行10,000次有放回的自举重采样。计算每条唯一序列估计的标准误差以及对应的信噪比(丰度/估计的标准误差)。信噪比随着相对丰度快速降低并在较低丰度下达到稳定(图11)。表4列出了在四个真实数据集中搁置25％“合格序列”的相对丰度阈值及对应的信噪比值。OTU划分中包括的唯一序列的最低丰度已小于0.0006％并且信噪比不大于4，这表明所有可靠的唯一序列都参与了该划分。此外，所有具有非常低丰度的唯一序列仍然可以重新参与OTU的定量，只要其与预先定义的OTU的相似性为至少97％即可，从而使丢失稀少且真实的OTU 的风险减至最小。

表4.四个真实数据集中OTU划分中包括的唯一序列的丰度阈值及其对应的信噪比值

^＊平均值±标准偏差

我们的方法在真实数据集中更一致的alpha和beta多样性

以PWS数据为例，通过对7,798条唯一序列而非278,160条唯一序列进行OTU划分，我们的方法大大节约了计算资源和计算时间。其还使该真实数据集的总OTU数目显著降低，分别为从430降到272(Usearch)，从7,979到493(Qiime)，从1,671到302(Qiime+ChimeraSlayer)，从 1,621到327(Qiime+Uchime)，从4,419到328(Mothur)(图12A)。

为了比较alpha多样性，计算了每个样品的OTU数目、Chao1²¹、 Shannon²²和Simpson²³指数(图12为PWS数据)。前两个指数直接反映样品的丰富性，而后两个指数反映整体的多样性信息。由于总OTU数目的巨大差异，默认流程与我们的方法之间在对每个样品的OTU数目(图 12B)和Chao1指数(图12C)估计方面存在显著差异(Kruskal-Wallis 检验²⁴)。这两个指数在使用默认参数的OTU流程之间也不同(图12B-C)。但是默认流程与我们的方法之间在Shannon(图12D)和Simpson(图 12E)指数方面没有显著差异。Qiime使用默认参数时的结果总是显著高于其他结果，这主要是因为其OTU数目大得不合理。

为了检验OTU划分的这些差异可如何影响生物学解释，测量了四种 beta多样性距离矩阵，包括欧氏(EU)距离、Bray-Curtis(BC)距离²⁵、加权归一化Unifrac(WU)距离和未加权Unifrac(UU)距离²⁶。通过 Mantel检验²⁷比较基于通过不同OTU划分获得的OTU表格计算的不同矩阵，其相似性用Mantel r统计量来表示(图9-11中A为PWS数据，图9-11中其他为其他数据集)。观察到，在PWS数据中，UU在默认流程中提供了不同的beta多样性估计(图13A，Mantel r＝0.73～0.86)，但是使用我们的方法彼此变得更为相关(图13B，Mantel r＝0.85～0.91)。EU和BC距离在默认流程之间的相关性非常高(Mantel r＞0.95)，并且在使用我们的方法的所有方法之间进一步增加(Mantel r＞0.99)，Qiime+ChimeraSlayer除外 (EU的Mantel r＝0.92～0.93，BC的Mantel r＝0.92)。方法之间WU距离的相关性不因将默认流程变为我们的方法而改变。

参考文献

1.Goodrich，J.K.et al.Conducting a Microbiome Study.Cell 158， 250-262(2014).

2.SchloSs，P.D.&Westcott，S.L.Assessing and Improving Methods Used inOperational Taxonomic Unit-Based Approaches for 16S rRNA Gene SequenceAnalysis.Appl.En viron.Microbiol.77，3219-3226(2011).

3.Fei，N.&Zhao，L.An opportunistic pathogen isolated from the gut of anobese human causes obesity in germfree mice.ISME J 7，880-884 (2013).

4.Zhang，C.et al.Dietary modulation of gut microbiota contributes toalleviation of both genetic aud simple obesity in children.EBioMedicine doi：10.1016/j.ebiom.2015.07.007

5.Chen，W.，Zhang，C.K.，Cheng，Y.，Zhang，S.&Zhao，H.A Comparison of Methodsfor Clustering 16S rRNA Sequences into OTUs. PLoS ONE 8，e70837(2013).

6.Bonder，M.J.，Abeln，S.，Zaura，E.&Brandt，B.W.Comparing clustering andpre-processing in taxonomy analysis.Bioinformatics 28， 2891-2897(2012).

7.Edgar，R.C.UPARSE：highly accurate OTU sequences from microbialamplicon reads.Nat.Methods 10，996-998(2013).

8.Kozich，J.J.，Westcott，S.L.，Baxter，N.T.，Highlander，S.K.&Schloss，P.D.Development of a Dual-Index Sequencing Strategy and Curation Pipeline forAnalyzing Amplicon Sequence Data on the MiSeq Illumina SequencingPlatform.Appl.Environ.Microbiol.79，5112-5120(2013).

9.Caporaso，J.G.et al.QIIME allowS analysis of high-throughputcommunity sequencing data.NatMethods 7，335-6(2010).

10.Klindworth，A.et al.Evaluation of general 16S ribosomal RNA genePCR primers for classical and next-generation sequencing-based diversitystudies.Nucleic Acids Res.41，e1(2013).

11.Bokulich，N.A.et al.Quality-filtering vastly improves diversityestimates from Illumina amplicon sequencing.Nat Methods(2012). doi：10.1038/nmeth.2276

12.Schirmer，M.et al.InSight into biases and sequencing errors foramplicon sequencing with the Illumina MiSeq platform.Nucleic Acids Res.(2015).doi：10.1093/nar/gku1341

13.Schloss，P.D.et al.Introducing mothur：open-source， platform-independent，community-supported software for describing and comparingmicrobial communities.Appl.Environ.Microbiol.75， 7537-7541(2009).

14.Atonesty，E.Comparison of sequencing utility programs.OpenBioinform J 7，1-8(2013).

15.Joshi，N.A.&Fass，J.N.Sickle：A sliding-window，adaptive，uality-basedtrimming tool for FastQ files(Version 1.33).(2011).at ＜https：//github.com/najoshi/sickle＞

16.Nikolenko，S.I.，Korobeynikov，A.I.&Alekseyev，M.A. BayesHammer：Bayesian clustering for error correction in single-cell sequencing.BMCGenomics14，S7(2013).

17.Masella，A.P.，Bartram，A.K.，Truszkowski，J.M.，Brown，D.G.& Neufeld，J.D.PANDAseq：paired-eHd assembler for illumina sequences. BMC Bioinformatics13，31(2012).

18.Edgar，R.C.Search and clustering orders 0f magnitude faster thanBLAST.Bioinformatics 26，2460-2461(2010).

19.Haas，B.J.et al.Chimeric 16S rRNA sequence formation and detectionin Sanger and 454-pyrosequenced PCR amplicons.Genome Res.21， 494-504(2011).

20.Edgar，R.C.，Haas，B.J.，Clemente，J.C.，Quince，C.&Knight，R. UCHIMEimproves sensitivity and speed of chimera detection. Bioinformatics 27，2194-2200(2011).

21.Chao，A.Nonparametric Estimation of the Number of Classes in aPopulation.Scand.J.Stat.11，265-270(1984).

22.Shannon，C.E.A Mathematical Theory of Communication.Bell Syst.Tech.J.27，379-423(1948).

23.Simpson，E.H.Measurement of Diversity.Nature 163，688(1949).

24.Hollander，M.&Wolfe，D.A.NonparametricStatistical Methods. (Hoboken，NJ：John Wiley&Sons，Inc.，1999).

25.Bray，J.R.&Curtis，J.T.An ordination of the upland forestcommunities of sOTUhern Wisconsin.Ecol.Monogr.27，325-349(1957).

26.Lozupone，C.&Knight，R.UniFrac：a new phylogenetic method forcomparing microbial communities.Appl Env.Microbiol 71，8228-35 (2005).

27.Mantel，N.The detcction of disease clustering and a generalizedregression approach.CancerRes 27，209-20(1967).

28.DePristo，M.A.et al.A framework for va riation discovery andgenotyping using next-generation DNA sequencing data.Nat.Genet.43， 491-498(2011).

29.Edgar，R.C.&Flyvbjerg，H.Error filtering，pair assembly，and errorcorreetion for next-generation sequencing reads.Bioinformatics btv401 (2015).

30.Caporaso，J.G.et al.Ultra-high-throughput microbial communityanalysis on the Illumina HiSeq and MiSeq platforms.ISME J 6，1621-4 (2012).

31.Roeselers，G.et al.Microbial biogeography of drinking water：patterns in phylogenetic diversity across space and time：Microbialbiogeography of drinking water systems.Environ.Microbiol.17，2505-2514(2015).

32.Savio，D.et al.Bacterial diversity along a 2600km river continuum：River bacterioplankton diversity.Environ.Microbiol.n/a-n/a(2015). doi：10.1111/1462-2920.12886

33.Bertilsson，S.Transitions in bacterial communities along the 2000kmsalinity gradient of the Baltic Sca.IsmeJ.5，1571-1579(2011).

34.Cole，J.R.et al.Ribosomal Database Project：data and tools for highthroughput rRNA analysis.Nucleic Acids Res.42，D633-642(2014).

35.Quast，C.et al.The SILVA ribosomal RNA gene database project：improved data processing and web-based tools.Nucleic AcidsRes.gks1219 (2012).

36.DeSantis，T.Z.et al.Greengenes，a chimera-checked 16S rRNA genedatabase and workbench compatible with ARB.Appl.Environ.Microbiol. 72，5069-5072(2006).

Claims

1.定义样品中的微生物操作分类单元OTU的方法，所述方法包括：

1)获得样品，所述样品包含各自含有系统发生信息基因的微生物；

2)使用基于PCR的高通量测序技术获得所述样品中所述微生物的所述系统发生信息基因的原始序列读出；

3)处理所述原始序列读出以获得合格序列片段；

4)获得每条所述合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

5)根据所述合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将所述合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度70％至80％的合格序列组成；相应的，所述低丰度组由占总丰度20％至30％的剩余的合格序列组成；

6)仅使用所述高丰度组中的合格序列划分所述样品中的OTU从而获得暂定OTU；以及

7)重新划归所述低丰度组中的合格序列至所述暂定OTU，并且只有当所述合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。

2.根据权利要求1所述的方法，其中所述系统发生信息基因选自16s rRNA基因或18srRNA基因。

3.根据权利要求2所述的方法，其中所述系统发生信息基因是16s rRNA基因。

4.根据权利要求3所述的方法，其中所述系统发生信息基因是16s rRNA基因的一个或更多个可变区。

5.根据权利要求4所述的方法，其中16s rRNA基因的所述一个或更多个可变区选自V3、V3-V4、V4、V5-V6、V9高变区。

6.根据权利要求1所述的方法，其中通过过滤、质量修剪、去重复和去除PCR引物来获得所述原始序列读出，从而获得合格序列。

7.根据权利要求1所述的方法，其中通过公开的流程进行OTU划分，所述公开的流程选自USEARCH、QIIME和MOTHUR。

8.根据权利要求1所述的方法，其中使用Illumina^TM测序仪通过Illumina测序法测定DNA序列。

9.根据权利要求1所述的方法，其中从所述样品中分离总核酸，然后测序。

10.根据权利要求1所述的方法，其中步骤4)、5)、6)和/或7)通过处理器进行。

11.根据权利要求1所述的方法，其中在步骤5)中，所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度71％至79％、72％至78％、73％至77％、74至76％、74.5％至75.5％、74.6％至75.4％、74.7％至75.3％、74.8％至75.2％、或74.9％至75.1％的合格序列组成；相应的，所述低丰度组由占总丰度21％至29％、22％至28％、23％至27％、24至26％、24.5％至25.5％、24.6％至25.5％、24.7％至25.3％、24.8％至25.2％、或24.9％至25.1％的剩余的合格序列组成。

12.根据权利要求1所述的方法，其中在步骤5)中，所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度75％的合格序列组成；相应的，所述低丰度组由占总丰度25％的剩余的合格序列组成。

13.根据权利要求1所述的方法，其中在步骤7)中，只有当所述合格序列与OTU序列具有至少91％、92％、93％、94％、95％、96％、97％、98％或99％的序列相似性时才将所述合格序列分配到合适的暂定OTU。

14.用于从环境样品中分离微生物的方法，其中所述微生物包含系统发生信息基因，所述方法包括：

根据权利要求1确定所述环境样品中的OTU；

选择具有其唯一系统发生信息基因序列的OTU作为待分离微生物；

培养所述样品中的微生物；

测定每种经培养微生物的系统发生信息基因的DNA序列；以及

分离其系统发生信息基因的序列与所述待分离微生物的系统发生信息基因序列同源的微生物。

15.根据权利要求14所述的方法，其中所述微生物是细菌。

16.根据权利要求14所述的方法，其中分离其系统发生信息基因的序列与所述待分离微生物的系统发生信息基因序列具有至少95％同一性的微生物。

17.根据权利要求16所述的方法，其中分离其系统发生信息基因的序列与所述待分离微生物的系统发生信息基因序列具有至少99％同一性的微生物。

18.根据权利要求17所述的方法，其中分离其系统发生信息基因的序列与所述待分离微生物的系统发生信息基因序列相同的微生物。

19.用于定义样品中的微生物操作分类单元OTU的方法，所述方法包括：

1)获得所述样品中所包含的微生物的系统发生信息基因的每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

2)根据所述合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将所述合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度70％至80％的合格序列组成；相应的，所述低丰度组由占总丰度20％至30％的剩余的合格序列组成；

3)仅使用所述高丰度组中的合格序列划分所述样品中的OTU从而获得暂定OTU；以及

4)重新划归所述低丰度组中的合格序列至所述暂定OTU，并且只有当所述合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。

20.根据权利要求19所述的方法，其中如下获得所述合格序列：使用基于PCR的高通量测序技术获得所述样品中所述微生物的所述系统发生信息基因的原始序列读出，并处理所述原始序列读出以获得合格序列片段。

21.用于鉴定、表征或评估样品中的微生物群落或微生物区的方法，所述方法包括：

3)仅使用所述高丰度组中的合格序列划分所述样品中的操作分类单元OTU从而获得暂定OTU；以及

22.用于定义样品中的微生物操作分类单元OTU的系统，所述系统包括：

第一装置，用于获得所述样品中所包含的微生物的系统发生信息基因的每条合格序列的相对丰度值，其中所有合格序列的总相对丰度为100％；

第二装置，用于根据所述合格序列各自的相对丰度值对所有合格序列从高到低进行排序，并将所述合格序列分成高丰度组和低丰度组，其中所述高丰度组由丰度值高于所述低丰度组中合格序列的丰度值并且总体占总丰度70％至80％的合格序列组成；相应的，所述低丰度组由占总丰度20％至30％的剩余的合格序列组成；

第三装置，用于仅使用所述高丰度组中的合格序列划分所述样品中的OTU从而获得暂定OTU；以及

第四装置，用于重新划归所述低丰度组中的合格序列至所述暂定OTU，并且只有当所述合格序列与OTU序列具有至少90％的序列相似性时才将所述合格序列分别分配到合适的暂定OTU，从而实现对OTU的最终定义。