CN110021344B

CN110021344B - 鉴别和分类宏基因组样本中的操作分类单元的方法和系统

Info

Publication number: CN110021344B
Application number: CN201810853366.1A
Authority: CN
Inventors: S·S·曼德; D·亚达夫; A·杜塔
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2017-07-28
Filing date: 2018-07-30
Publication date: 2022-12-16
Anticipated expiration: 2038-07-30
Also published as: US11996170B2; EP3435264B1; ES2887024T3; US20190034588A1; EP3435264A1; CN110021344A; DK3435264T3

Abstract

本发明描述了使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的系统和方法。本公开能够准确鉴别宏基因组样本中的OTU，并提供了使得不同的断开的宏基因组研究中取样的微生物组群落结构容易进行交叉比较的框架。相比于使用直接用于分类学分类或OTU聚类的由全长标记基因组成的参考数据库，本公开对标记基因的不同超‑可变区创建了定制的OTU数据库。这些数据库由参考OTU组成，其通过与标记基因的不同选择的超‑可变区有关的序列的独立群集而获得。在另一实施方案中，还提供了映射返回，其促进了从可能已利用不同超‑可变区的不同研究获得的结果之间的交叉比较。该系统获得了宏基因组样本中操作分类单元(OTU)的分类的增强准确性。

Description

鉴别和分类宏基因组样本中的操作分类单元的方法和系统

相关申请的交叉引用和优先权

本申请要求2017年7月28日提交的印度非临时说明书no.201721027000的优先权，其全部公开内容以引用方式整体并入本文。

技术领域

本文的实施方案主要涉及改善宏基因组样本的分类学分类(taxonomicclassification)准确性的领域，更具体地，涉及使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元的方法和系统。

背景技术

宏基因组研究使用系统发育标记基因的DNA测序来确定与采样环境有关的微生物群落结构和用于栖息微生物有机体的分类学分类。然而，目前这一代成本效益高的高通量DNA测序技术只能产生短'读段'(shot‘read’，长度约为300-600碱基对的DNA序列片段)，这不足以覆盖系统发育标记基因的整个长度。例如，用于细菌系统分类的最常见的系统发育标记是16S rRNA基因，其长度约为1500bp。鉴于使用当前这一代测序技术仅可针对该基因的短区域进行DNA测序，设计实验以利用16S rRNA基因中的特定“高变区”(V区域)。

在分类学分类步骤中，将这些短序列与现有的16S rRNA基因目录(通过序列相似性检索)进行比较，以鉴别其来源可归属的菌株、种、属等。或者，将样本/环境所属的所有序列基于序列相似性进行群集，其中可认为已经群集在一起的序列(具有显著的序列相似性)源自同一组的生物，也称为操作分类单元(OTU)。

现有技术中的这类方法包括基于参考数据库的分类和从头OTU聚类(de novo OUTpicking)。基于参考数据库的分类方法适用于这样的采样环境，其中常驻微生物已经通过以前的研究进行分类。从头OTU聚类方法能够鉴别/检测采样环境中存在的分类群，即使它们之前尚未进行表征/分类学分类。这两种方法都有一些缺点。

当前用于基于参考数据库的OTU鉴别或分类学分类的方法依赖于将全长标记基因(例如16S rRNA基因)分类的数据库或通过群集全长标记基因鉴别的参考OTU。由于在比较期间使用的查询读段/序列仅是“短读段”，因此OTU鉴别/分类的结果可能是不准确的并且是次优的。

此外，在不同的分类学进化枝(taxonomic clades)中，在所选择的标记基因的长度上，进化速率(突变的积累)并不总是一致的。在进化过程中短区域可能保持相同，而侧翼区域更容易发生突变。或者，除小的高变延伸段外，标记基因的主要部分可以在进化中保持不变。鉴于此，OTU群集结果可以基于为测序选择的短区域而显著变化。鉴于上述原因，使用基于参考的方法相比于从头方法鉴别/分类的OTU将提供不同的结果。

发明内容

以下呈现了本公开的一些实施方案的简化概述，以提供对实施方案的基本理解。该概述不是实施方案的广泛概述。其并不意欲确定实施方案的关键/重要要素或描绘实施方案的范围。其唯一目的是以简化形式呈现一些实施方案，并作为下面给出的更详细描述的序言。

鉴于前述内容，本文的实施方案提供了使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的系统。该系统包括常规OTU数据库和常规参考序列数据库、宏基因组样本收集模块、测序仪、存储器和处理器。具有多个核苷酸序列的常规OTU数据库和常规参考序列数据库群集成一个或多个常规操作分类单元(OTU)和常规分类学进化枝。宏基因组样本收集模块将宏基因组样本收集到存储器中。测序仪对收集的宏基因组样本进行测序。处理器被配置为执行以下步骤：使用来自常规OTU数据库或常规参考序列数据库中的一个的多个预定义核苷酸序列片段，从所测序的宏基因组样本中创建定制的OTU数据库(OTUX)，其中通过使用序列群集技术将预定义核苷酸序列片段群集成定制的OTU；使用预定义的公式由定制的OTU数据库(OTUX)计算定制的OTU的倾向度，其中倾向度是指定制的OTU与常规参考序列数据库中的常规分类学进化枝和常规OTU数据库中的常规OTU的一个或多个相关联的概率；创建映射矩阵，该映射矩阵列出了每个定制的OTU相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值；利用定制的OTU数据库(OTUX)作为用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列分类到适当的定制的OTU中；和构建丰度表，该丰度表描述分类到每个定制的OTU中的短读段扩增子序列的比例，其中该丰度表表示宏基因组样本中操作分类单元(OTU)的分类的增强准确性。

在另一方面，提供了一种使用短读段扩增子序列鉴别和分类宏基因组样本中的操作分类单元(OTU)的方法。首先，使用宏基因组样本收集模块收集宏基因组样本。然后使用测序仪对宏基因组样本进行测序。在下一步骤中，获得常规操作分类单元(OTU)数据库和常规参考序列数据库之一，其中具有多个核苷酸序列的常规OTU数据库群集成一个或多个常规操作分类单元(OTU)和常规分类学进化枝。在下一步骤中，使用来自常规OTU数据库或常规参考序列数据库中的任一个的多个预定义核苷酸序列片段，从所测序的宏基因组样本中创建定制的OTU数据库(OTUX)，其中通过使用序列群集技术将预定义核苷酸序列片段群集成定制的OTU。在下一步骤中，使用预定义的公式由定制的OTU数据库(OTUX)计算定制的OTU的倾向度，其中该倾向度是指定制的OTU与常规参考序列数据库中的常规分类学进化枝和常规OTU数据库中的常规OTU的一个或多个相关联的概率。然后创建映射矩阵，该映射矩阵列出了每个定制的OTU相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值。在下一步骤中，利用定制的OTU数据库(OTUX)作为用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列分类到适当的定制的OTU中。以及最后，构建丰度表，其描述分类到每个定制的OTU中的短读段扩增子序列的比例，其中该丰度表表示宏基因组样本中操作分类单元(OTU)的分类的增强准确性。

在又一个实施方案中，提供了一种非暂时性计算机可读介质，其上包含用于使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的计算机程序。首先，使用宏基因组样本收集模块来收集宏基因组样本。然后，使用测序仪对宏基因组样本进行测序。在下一步骤中，获得常规操作分类单元(OTU)数据库和常规参考序列数据库中的任一个，其中具有多个核苷酸序列的常规OTU数据库群集成一个或多个常规操作分类单元(OTU)和常规分类学进化枝。在下一步骤中，使用来自常规OTU数据库或常规参考序列数据库中的任一个的多个预定义核苷酸序列片段，从所测序的宏基因组样本中创建定制的OTU数据库(OTUX)，其中通过使用序列群集技术将所述预定义核苷酸序列片段群集成定制的OTU。在下一步骤中，使用预定义的公式由定制的OTU数据库(OTUX)计算定制的OTU的倾向度，其中该倾向度是指定制的OTU与常规参考序列数据库中的常规分类学进化枝和常规OTU数据库中的常规OTU的一个或多个相关联的概率。然后，创建映射矩阵，该映射矩阵列出了每个定制的OTU相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值。在下一步骤中，利用定制的OTU数据库(OTUX)作为用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列分类到适当的定制的OTU中。以及最后，构建丰度表，其描述分类到每个定制的OTU中的短读段扩增子序列的比例，其中该丰度表表示宏基因组样本中操作分类单元(OTU)的分类的增强准确性。

本领域技术人员应当理解，本文的任何框图表示体现本文主题的原理的说明性系统的概念性视图。类似地，应当理解，任何流程表、流程图、状态转换图、伪代码等表示可基本上在计算机可读介质中表示并因此由计算设备或处理器执行的各种过程，无论是否明确地示出了这样的计算设备或处理器。

附图说明

从以下详细描述并参考附图将更好地理解本文的实施方案，其中：

图1示出了根据本公开的实施方案的使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的框图；

图2示出了根据本公开的实施方案的不同超-可变区在16S rRNA基因上的组织体(organization)；和

图3a-图3b是说明根据本公开的实施方案的使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)所涉及的步骤的流程图。

具体实施方式

参考在附图中示出并在以下描述中详述的非限制性实施方案，更全面地解释本文的实施方案及其各种特征和有利细节。本文使用的实例仅旨在促进对于可以实践本文的实施方案和使本领域技术人员能够进一步实践本文的实施方案的方式的理解。因此，这些实例不应被解释为限制本文所述的实施方案的范围。

实施方案中使用的词汇-术语

在本公开的上下文中，表述“操作分类单元”或“OTU”是指已经群集在一起(具有显著的序列相似性)并且可以被认为是源自相同的生物组的序列。通常，基于相似性阈值来定义操作分类单元。虽然定制的OTU数据库被称为“OTUX”

现在参考附图，更具体地参考图1至图3，其中在整个附图中，类似的附图标记始终表示相应的特征，示出了优选实施方案，并且这些实施方案在以下示例的系统和/或方法的上下文中进行描述。

根据本公开的实施方案，图1中示出使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的系统100。本公开涉及改善通过短读段扩增子测序获得的宏基因组序列的分类学分类的准确性的方法和系统。本公开还提供了用于容易地交叉比较在不同的断开的宏基因组研究中取样的微生物组群落结构的框架，其中可以使用不同的测序技术以及不同的标记序列或扩增子。

根据本公开的实施方案，系统100包括用户接口102、常规OTU数据库104、常规参考序列数据库106、存储器108和处理器110，如图1所示。处理器110与存储器108通信。处理器110被配置为执行存储在存储器108中的多个算法。处理器110还包括用于执行各种功能的多个模块。处理器110可以包括定制数据库创建模块112、倾向度性计算模块114、映射矩阵创建模块116、分类模块118、丰度表创建模块120和映射返回模块122。

根据本公开的实施方案，系统100还包括宏基因组样本收集模块124和测序仪126。使用宏基因组样本收集模块124从个体的肠道收集宏基因组样本。然而应该可以理解，宏基因组样本也可以从任何其他环境如皮肤、海洋、土壤等中收集。然后使用测序仪126对从宏基因组样本中提取的DNA片段进行测序。然后将测序的DNA提供给使用用户界面102的处理器110。测序的DNA样本也称为“查询”序列。用户界面102由用户进行操作。用户界面102可包括各种软件和硬件接口，例如，web界面，图形用户界面等，并且可促进各种网络N/W和协议类型(包括有线网络，例如LAN、电缆等，以及无线网络，例如WLAN、蜂窝或卫星)内的多个通信。

根据本公开的实施方案，系统100包括两个预先计算的数据库，即常规OTU数据库104和常规参考序列数据库106。常规OTU数据库104和常规参考序列数据库106具有多个核苷酸序列，其分别群集到一个或多个常规操作分类单元(OTU)和一个或多个常规分类学进化枝中。应当理解，两个预先计算的数据库可得自现有技术。使用任何其他数据库都落入本公开的范围内。

根据本公开的实施方案，工作流程具有两个主要组件，即(1)一次性预处理，以创建称为OTUX参考数据库的定制OTU数据库和用于不同V区域的“映射矩阵”(MAPMAT)，以及(2)使用OTUX参考数据库的开放参考OTU聚类和分类分配/分类步骤。开放参考OTU聚类涉及靶向V4区域的短读段宏基因组序列的OTU聚类和分类学分类。在开放参考OTU聚类方法之后，最初使用OTUX_V4作为参考数据库对宏基因组序列的查询集执行基于参考的OTU分配，其中每个查询序列被分类为受置信度阈值限制的适当OTUX_V4OTU。

系统100包括定制数据库创建模块112以创建定制的OTU数据库(OTUX)。定制的OTU数据库(OTUX)包括多个定制的OTU。使用来自常规OTU数据库104或常规参考序列数据库106之一的预定义的核苷酸序列片段来创建定制的OTU数据库(OTUX)。预定义的片段对应于可以通过扩增子测序靶向的全长DNA序列的一小部分。此外，不同的预定义序列对应于可以使用不同引物来进行提取/扩增的完整DNA序列的不同部分。

根据本公开的实施方案，系统100还包括倾向度计算模块114。倾向度计算模块114被配置为使用预定义的公式从定制的OTU数据库(OTUX)计算定制的OTU的倾向度。预定义的公式是

预定义公式＝(群集到与定制的OTU数据库(OTUX)相对应的定制的OTU中的预定义序列片段的数量，其全长对应物被分配给常规OTU数据库中存在的常规OTU或常规分类学进化枝)/(群集到与定制的OTU数据库(OTUX)相对应的定制的OTU中的预定义的序列片段的总数量)。

所计算的倾向度是指定制的OTU与常规参考序列数据库106中的一个或多个常规分类学进化枝和常规OTU数据库104中一个或多个常规OTU相关联的概率。此外，系统100被配置为使用映射矩阵创建模块116来创建映射矩阵。映射矩阵列出了定制的OTU数据库(OTUX)中存在的每个定制的OTU相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值。

根据本公开的实施方案，系统100还包括分类模块118。分类模块118被配置为利用定制的OTU数据库(OTUX)作为用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列(查询序列)分类到适当的定制的OTU中。系统100还被配置为使用丰度表创建模块120来创建丰度表，该丰度表描绘分类到每个定制OTU中的短读段扩增子序列(查询序列)的比例。

根据本公开的一个实施方案，系统100可以使用从宏基因组样本获得的任何标记基因/核苷酸序列区域进行扩展以用于OTU聚类和宏基因组的分类学分类。然而，为了说明的目的，本公开内容使用以下方法来举例说明方法和适用性：标记基因-原核16S rRNA基因(具有9个超-可变区V1-V9)；超-可变区-V4(超-可变区4)；常规参考OTU数据库-Greengenes13.8(包含分组为常规OTU的全长16S rRNA序列)。图2示出了根据本公开的实施方案的不同超-可变区在16S rRNA基因上的组织。根据本公开的另一个实施方案，标记基因可以是任何其他基因及其超-可变区，例如ITS、23S rRNA、18S rRNA基因等。

首先，检索来自Greengenes数据库(在该实施方案中使用v13.8)的所有“prokMSA”未对齐序列。对于这些序列的每个，还检索了不同分类层次水平的分类学分类，包括门、纲、目、科、属、种以及相应的Greengenes OTU ID(常规OTU ID)。在下一步中，从数据库中存在的每个序列中提取V4区。然后基于序列相似性对提取的序列进行群集，其中每个所得群集构成彼此具有99％序列同一性的序列。在该实施方案中，Cd-hit用于群集序列，参考研究论文：“Cd-hit:a fast program for clustering and comparing large sets of proteinor nucleotide sequences",Weizhong Li&Adam Godzik Bioinformatics,(2006)22:1658-9”。在下一步骤中，为每个群集(OTU)分配唯一的“OTUX_V4ID”(比如OTUX_V4i)，并且编译所有群集以构成“OTUX_V4参考数据库”。在下一步骤中，使用以下公式计算与Greengenes OTU(GGj)相关联的OTUX_V4i的倾向度(MAPMAT_V4i,j)：

MAPMAT_V4i,j＝(群集到OTUX_V4i中的序列数，其全长对应物被分配给GGj)/(群集到OTUX_V4i中的序列总数)

此外，通过计算MAPMAT_V4i,j的所有值，为OTUX_V4数据库填充MAPMAT_V4倾向度矩阵，其中，

i＝1到OTUX_V4OTU的总数(比如N_OTUX)，

j＝1到Greengenes OTU的总数(比如N_GG)，

以及MAPMAT_V4是N_GG×N_OTUX矩阵。

在下一步骤中，进行靶向V4区域的短读段宏基因组序列的OTU聚类和分类学分类。在开放参考OTU聚类方法之后，首先使用OTUX_V4作为参考数据库对宏基因组序列的查询集执行基于参考的OTU分配，其中每个查询序列被分类为受置信度阈值限制的适当的OTUX_V4OTU。在一个实施方案中，所使用的分类算法可以是由RDP(Wang的算法)使用的

Bayesian分类器，其具有80％的自举置信度阈值。在下一步骤中，将不能分类到现有OTUX_V4OTU的序列进一步群集(例如，使用具有99％序列同一性阈值的CD-HIT)到“denovo OTU”中。在下一步骤中，通过累积来自可以归类/归因于每个OTUX_V4OTU的宏基因组样本的测序读数的总数来生成OTU丰度表(T_OTUX)。根据OTUX_V4OTU获得的分类结果使用MAPMAT_V4映射回来，以代表常规使用的全长16S rRNA序列数据库(在该实施方案中为Greengenes v13.8)OTU ID方面的结果。

根据本公开的实施方案，可以使用两种可替代的方法来实现映射返回。在第一种方法中，为了将每个查询序列分配给特定的Greengenes OTU ID，遵循以下过程：

-对于已经分配给OTU OTUX_V4x的特定查询序列‘s’，检索MAPMAT_V4要素{MAPMAT_V4x,j}(其中‘j’＝1-->N_GG，即Greengenes OTU的总数)。

-计算{MAPMAT_V4x,j}的最大值。

-序列‘s’被分类为Greengenes OTU‘y’(GG_y)，其中，MAPMAT_V4x,y＝max{MAPMAT_V4x,j}

-针对所有查询序列重复该过程，并且随后通过累积来自给定的宏基因组样本的可归类于/归因于每个Greengenes OTU的测序读数的总数来生成根据Greenunes OTU ID的OTU丰度表(T_GG)。

在第二种方法中，为了在丰度表中表示与给定的宏基因组样本有关的微生物群落结构(其中每种微生物(OTU)的丰度以归一化的百分比值表示)，遵循以下步骤：

-对于对应于宏基因组样本的一组查询序列，生成丰度表/表T_OTUX，其中表示了分配给每个OTUX_V4OTU的总数序列。

例如，T_OTUX可以列矩阵(大小为N_OTUX×1)的形式表示，如上所述，其中'i'为从1至N_OTUX，即OTUX_V4OTU的总数，并且其中'a'是分配给OTU OTUX_V41的序列数，'b'是分配给OTUX_V42的序列数，'c'是分配给OTUX_V43的序列数，依此类推。

-通过将矩阵MAPMAT_V4与矩阵T_OTUX相乘，根据Greeengenes OTU ID获得该组查询序列的OTU丰度表/表(T_GGraw)。可以注意到，鉴于MAPMAT矩阵的性质，T_GGraw中的GreengenesOTU的每个的丰度值可以是分数值。

T_GGraw＝MAPMAT_V4*T_OTUX

其中，T_GGraw是大小为(N_GG×1)的列矩阵，N_GG是Greengenes OTU的总数。

-通过对T_GGraw的每个要素执行以下转换，获得百分比归一化的OTU丰度表/表(T_GG％)

其中，T_GG％是大小为(N_GG×1)的列矩阵，NGG是Greengenes OTU的总数。

在最后的步骤中，存在于宏基因组样本中的分类群的丰度，如以三个列矩阵(即T_OTUX,T_GG和T_GG％)中任一个的形式获得的，利用与Greengenes OTU相关的分类层次信息，进一步表示在任何所期望的分类水平上。因此，准确的注释/分类允许在宏基因组样本中有效地鉴别特定分类群的存在。可以进一步分析特定的分类群，其可以包括传染性微生物菌株，工业上重要的微生物等。准确的分类进一步提供了用于容易地交叉比较在不同的断开的宏基因组研究中取样的微生物群落结构的框架。

在操作中，图3中示出了根据本公开的实施方案的流程图200，其示出了使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)所涉及的步骤。首先，在步骤202中，使用宏基因组样本收集模块124收集宏基因组样本。可以从肠、皮肤、海洋、土壤等收集宏基因组样本。在下一步骤204中，然后使用测序仪126对收集的宏基因组样本进行测序。在下一步骤206中，获得常规操作分类单元(OTU)数据库104和常规参考序列数据库106中的一个。具有多个预定义的核苷酸序列片段的常规OTU数据库104群集成一个或多个常规操作分类单元(OTU)和常规分类学进化枝。

在步骤208中，使用来自常规OTU数据库或常规参考序列数据库之一的预定义的核苷酸序列片段来创建定制的OTU数据库(OTUX)。使用序列群集技术将预定义的核苷酸序列片段群集成定制的OTU。此外，在步骤210中，使用预定义的公式计算来自定制的OTU数据库(OTUX)的定制的OTU的倾向度。倾向度是指定制的OTU与常规参考序列数据库106中的一个或多个常规分类学进化枝或常规OTU数据库104中的一个或多个常规OTU相关联的概率。

在下一步骤212中，创建映射矩阵。映射矩阵列出了每个定制的OTU相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值。在步骤214中，定制的OTU数据库(OTUX)被用作用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列(查询序列)分类到适当的定制的OTU中。最后在步骤216中，构建丰度表，其描绘分类到每个定制OTU中的短读段扩增子序列的比例，其中丰度表表示宏基因组样本中操作分类单元(OTU)的分类的增强准确性。

根据本公开的实施方案，系统100还可以如下验证：为了验证所提出的创新的效用，将预处理的MAPMAT用于使用上述方法创建的16S rRNA基因的V4区域。为了使用所提出的方法获得要分类到OTU/其他分类群中的短宏基因组读数组，使用以下方法创建了与四种不同环境，即健康儿童的肠道(GUT)、健康人类皮肤(SKIN)、地中海(SEA)和土壤(SOIL)相关的多个模拟宏基因组。检索与所述环境的宏基因组样本有关的公开可用数据集。获得了在每种环境中存在的不同属的总体比例。随后，通过从RDP数据库(v10.3)随机抽取全长16SrRNA基因，创建了与特定环境有关的模拟宏基因组，其中随机抽取的序列子集中不同属的比例很好地反映了在被认为是公开可用数据集中所观察到的比例。为4种环境(D_GUT/F、D_SKIN/F、D_SEA/F、D_SOIL/F)中的每一种创建100个模拟的宏基因组数据集(每个构成10000个序列)。为了模拟通过短读段测序获得的宏基因组数据集，只有来自构成这些模拟宏基因组的每个全长序列的V4区域被裁剪掉，并构建了相应的仅包含V4区域的模拟的“短读段”一组宏基因组(D_GUT/V4、D_SKIN/V4、D_SEA/V4、D_SOIL/V4)。

首先，属于每个模拟的宏基因组数据集(D_GUT/F、D_SKIN/F、D_SEA/F、D_SOIL/F)的全长序列经受'OTU聚类'(在OTU水平的分类学分类)，相对于由RDP(Wang的算法，自举置信度阈值为80％)使用的

Bayesian分类器的Greengenes数据库。鉴于将全长16S rRNA基因序列与全长16S rRNA序列数据库进行比较，获得的结果反映了使用16S rRNA扩增子测序(使用相同算法)获得的最佳可实现的OTU分类，并被视为“基线”或“金标准”(GS)。随后使用以下两种方法对模拟的‘短读段’宏基因组数据集进行分类分类：

(a)常规方法(CA)：属于D_GUT/V4、D_SKIN/V4、D_SEA/V4、D_SOIL/V4集的每个宏基因组都使用RDP(Wang的算法，自举置信度阈值为80％)使用的

Bayesian分类器进行分类，并以Greengenes OTU数据库为参考。这些结果代表了可以使用OTU聚类/分类学分类的常规方法获得的分类学分类，其中短读段序列(覆盖标记基因的某个区域)用作对由全长标记基因构成的OTU数据库的查询。为了便于比较，产生了表示OTU(和其他分类群)的比例的丰度表，包括原始序列计数和百分比归一化丰度二者。

(b)OTUX方法(OTUX)：属于D_GUT/V4、D_SKIN/V4、D_SEA/V4、D_SOIL/V4集的每个宏基因组都使用RDP(Wang的算法，自举置信度阈值为80％)使用的

Bayesian分类器进行分类，并以OTUX_V4数据库为参考。这些结果代表了可以使用OTU聚类/分类学分类的新型OTUX方法获得的分类学分类，其中短读段序列(覆盖标记基因的某个区域)用作对对应于特定的超-可变区(在这种情况下为V4)的预先计算的OTU数据库的查询。可以注意到，所获得的OTU丰度表(T_OTUX)报告了关于OTUX_V4OTU ID的结果，并且该结果可以被认为等同于通过“从头OTU聚类”获得的结果。为了便于比较，将这些结果根据Greengenes OTU ID进行映射返回并在OTU丰度表T_GG中提供，其中描绘了分配给各个Greengenes OTU的序列的原始计数。此外，还产生了百分比归一化的丰度表T_GG％，其中OTU(和/或其他分类群)的丰度/比例以百分比归一化的术语表示。

基于以下三个参数比较用模拟的“短读段”宏基因组获得的常规(CA)和OTUX两种方法的结果：(1)通过常规方法(CA)以及OTUX方法根据分配的正确数(如每GS/基线的)评估的在OTU、属和科水平的分类学分配的准确性；(2)GS/基线百分比归一化的丰度表与常规(CA)和OTUX方法产生的丰度表之间的Unifrac和Bray-Curtis距离；和(3)常规(CA)和OTUX方法使用的计算时间和存储器。

可以用以下结果解释如上所述的第一和第二参数。下表描述了与常规方法相比，本创新中提出的基于OTUX的OTU分配的改进性能。对于4种选定环境(即肠道、皮肤、海洋和土壤)中的每一种创建100个模拟的宏基因组。每个宏基因组构成包含V4可变区的10000个序列。使用常规方法(CA)(即使用V区扩增子作为对Greengenes参考数据库的查询)以及OTUX方法(OTUX)(即使用V区扩增子作为对应于适当的V区的OTUX参考数据库的查询)对数据集进行OTU分配。针对各个序列获得的OTUX分配以及利用OTUX方法(T_OTUX)获得的丰度表根据Greengenes OTU ID(T_GG)进行映射返回，以比较两种方法的结果。通过与基线/‘金标准’(GS)进行比较来评估这些分类学分配结果的正确性，所述基线/‘金标准’(GS)是指使用相应的全长16S rRNA基因序列针对Greengenes数据库获得的OTU分配。

描绘了与每个环境有关的100个模拟宏基因组的正确分配的平均数。已经进行了T检验以评估使用OTUX的结果是否明显优于CA方法。此外，比较了通过CA和OTUX获得的百分比归一化的分类丰度表和使用Unifrac距离(加权和未加权的)和Bray-Curtis距的GS(金标准)。结果表明，OTUX方法性能优于CA方法。用不同的常规靶向V区域(或其组合)获得的结果如下提供。已经针对不同的分类学水平即OTU、属和科来描述了结果。(i)对于OTU水平

(ii)对于属水平

(iii)对于科水平

如上所述的“所使用的计算时间和存储器”的第三参数可以用以下结果来解释。下表描述了用于对每个序列进行分类的常规(CA)和OTUX方法所需的平均计算时间。还指出了通过这些方法的峰值存储器使用。验证测试在基于Intel Xeon的服务器上执行，该服务器具有40个处理核(2.0GHz)和128GB的总RAM。表中所示的时间和存储器使用值已针对单个处理核进行了归一化。

结果表明，在所比较的每个方面，OTUX方法都优于常规方法。此外，在OTUX方法中实现的映射返回特征允许在靶向任何超-可变区的短读段测序产生的宏基因组结果之间进行真实的交叉比较。

书面描述描绘了本文的主题，以使得本领域的任何技术人员都能够制造和使用这些实施方案。主题实施方案的范围由权利要求限定，并且可以包括本领域技术人员想到的其他修改。如果这些其他修改不具有与权利要求的字面语言不同的相似要素，或者如果它们包括与权利要求的字面语言无实质差别的等效要素，则所述的这些其他修改旨在落入权利要求的范围内。

本公开的实施方案提供了使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的系统和方法。

然而，应理解，保护范围扩展到这样的程序，并且除了其中具有消息的计算机可读装置之外；当该程序在服务器或移动设备或任何合适的可编程设备上运行时，这种计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。硬件设备可以是任何类型的可编程的设备，包括例如任何类型的计算机，如服务器或个人计算机等，或其任何组合。该装置还可包括可以是例如硬件装置的装置，如专用集成电路(ASIC)、现场可编程的门阵列(FPGA)；或硬件和软件装置的组合，例如ASIC和FPGA、或至少一个微处理器和至少一个存储器，其中具有软件模块。因此，该装置可以包括硬件装置和软件装置二者。这里描述的方法的实施方案可以用硬件和软件实现。该设备还可以包括软件装置。或者，实施方案可以在不同的硬件设备上，例如使用多个CPU来实现。

本文的实施方案可包括硬件和软件要素。以软件实现的实施方案包括但不限于固件、驻留软件、微代码等。由本文描述的各种模块执行的功能可以在其他模块或其他模块的组合中实现。出于本说明书的目的，计算机可用或计算机可读介质可以是任何装置，其可包括、存储、通信、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用。

介质可以是电子、磁、光、电磁、红外或半导体系统(或装置或设备)或传播介质。计算机可读介质的实例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前实例包括压缩盘-只读存储器(CD-ROM)，压缩盘-读/写(CD-R/W)和DVD。

适用于存储和/或执行程序代码的数据处理系统将包括通过系统总线直接或间接耦合到存储器元件的至少一个处理器。存储器元件可以包括在程序代码的实际执行期间使用的本地存储器、大容量存储器和高速缓冲存储器，其提供至少一些程序代码的临时存储，以减少在执行期间必须从大容量存储器检索代码的次数。

输入/输出(I/O)设备(包括但不限于键盘、显示器、指示设备等)可以直接或通过中间I/O控制器耦合到系统。网络适配器还可以耦合到系统，以使数据处理系统能够通过中间私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和Ethernet卡只是当前可用类型的网络适配器中的一小部分。

用于实践实施方案的代表性硬件环境可以包括根据本文的实施方案的信息处理/计算机系统的硬件配置。这里的系统包括至少一个处理器或中央处理单元(CPU)。CPU通过系统总线互连到各种设备，例如随机存取存储器(RAM)、只读存储器(ROM)和输入/输出(I/O)适配器。I/O适配器可以连接到外围设备，例如磁盘机和磁带机，或系统可读的其他程序存储设备。系统可以在程序存储设备上读段创造性指令，并遵循这些指令来执行本文的实施方案的方法。

该系统还包括用户接口适配器，其将键盘、鼠标、扬声器、麦克风和/或其他用户接口设备(例如触摸屏设备(未示出))连接到总线以收集用户输入。另外，通信适配器将总线连接到数据处理网络，并且显示适配器将总线连接到显示设备，该显示设备可以实现为输出设备，例如监视器、打印机或发送器。

已经参考各种实施方案呈现了前面的描述。本申请所属领域的普通技术人员将理解，可以实践所描述的结构和操作方法的改变和变化，而不会有意地脱离其原理、精神和范围。

Claims

1.一种通过使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的方法，所述方法包括：

使用宏基因组样本收集模块(124)来收集所述宏基因组样本；

使用测序仪(126)来对所述宏基因组样本进行测序；

获得常规操作分类单元(OTU)数据库(104)和常规参考序列数据库(106)中的一者，其中具有多个核苷酸序列的所述常规OTU数据库群集成常规操作分类单元(OTU)和常规分类学进化枝中的一个或多个；

使用来自所述常规OTU数据库或所述常规参考序列数据库中的一者的多个预定义核苷酸序列片段，由处理器(110)从所测序的宏基因组样本中创建定制的OTU数据库(OTUX)，其中通过使用序列群集技术将所述预定义核苷酸序列片段群集成定制的OTU；

使用预定义的公式通过所述处理器(110)由所述定制的OTU数据库(OTUX)计算定制的OTU的倾向度，其中所述倾向度是指定制的OTU与所述常规参考序列数据库中的一个或多个常规分类学进化枝及所述常规OTU数据库中的常规OTU相关联的概率；

由所述处理器(110)创建映射矩阵，所述映射矩阵列出了所述定制的OTU的每个相对于一个或多个常规分类学进化枝及常规OTU的所有倾向度的值；

由所述处理器(110)利用所述定制的OTU数据库(OTUX)作为用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列分类到适当的定制的OTU中；和

由所述处理器(110)构建丰度表，所述丰度表描述分类到所述定制的OTU的每个中的短读段扩增子序列的比例，其中所述丰度表表示所述宏基因组样本中的操作分类单元(OTU)分类的增强的准确性。

2.如权利要求1所述的方法，还包括使用所述映射矩阵根据所述常规OTU和所述常规分类学进化枝中的一个或多个来表示分类为定制的OTU的所述短读段扩增子序列的比例的步骤。

3.如权利要求1所述的方法，其中使用所述预定义的公式来计算所述倾向度：

(群集到与所述定制的OTU数据库(OTUX)相对应的定制的OTU中且其全长对应物被分配给常规OTU数据库中存在的常规OTU或常规分类学进化枝的预定义序列片段的数量)/(群集到与所述定制的OTU数据库(OTUX)相对应的定制的OTU中的预定义序列片段的总数量)。

4.如权利要求1所述的方法，还包括对分类过的短读段扩增子序列与来自不相关的宏基因组研究的分类学分析结果的交叉比较给予促进。

5.如权利要求1所述的方法，其中创建定制的OTU群集数据库的步骤包括：

从所述常规OTU数据库和所述常规参考序列数据库中检索所有未对齐的序列；

对所述常规数据库中存在的每个未对齐的序列提取标记基因的预定义片段，其中所述标记基因是从所述宏基因组样本中获得的核苷酸序列的区域；

使用所述序列群集技术基于预定义的相似性阈值对提取的序列进行群集；和

编译群集序列以构成所述定制的OTU群集数据库。

6.如权利要求1所述的方法，其中所述常规参考数据库是含有全长16SrRNA基因序列的Greengenes数据库、SILVA数据库或RDP数据库中的一者。

7.如权利要求1所述的方法，其中标记基因是具有九个区域V1至V9的原核16S rRNA基因。

8.如权利要求1所述的方法，其中超-可变区是16S rRNA基因的V4区域。

9.一种使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的系统，所述系统包括：

具有多个核苷酸序列的常规参考序列数据库(106)和常规OTU数据库(104)，其群集成常规操作分类单元(OTU)和常规分类学进化枝中的一个或多个；

宏基因组样本收集模块(124)，用于将所述宏基因组样本收集到存储器中；

测序仪(126)，用于对所收集的宏基因组样本进行测序；

存储器(108)；和

处理器(110)，与所述存储器(108)通信，其中所述处理器被配置为执行以下步骤：

使用来自所述常规OTU数据库或所述常规参考序列数据库中的一者的多个预定义核苷酸序列片段，从所测序的宏基因组样本中创建定制的OTU数据库(OTUX)，其中通过使用序列群集技术将所述预定义核苷酸序列片段群集成定制的OTU；

使用预定义的公式由所述定制的OTU数据库(OTUX)计算定制的OTU的倾向度，其中所述倾向度是指定制的OTU与所述常规参考序列数据库中的一个或多个常规分类学进化枝及所述常规OTU数据库中的常规OTU相关联的概率；

创建映射矩阵，所述映射矩阵列出了所述定制的OTU的每个相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值；

利用所述定制的OTU数据库(OTUX)作为用于开放参考OTU聚类的参考数据库，以将对应于预定义片段的短读段扩增子序列分类到适当的定制的OTU中；和

构建丰度表，所述丰度表描述分类到所述定制的OTU的每个中的短读段扩增子序列的比例，其中所述丰度表表示所述宏基因组样本中的操作分类单元(OTU)的分类的增强准确性。

10.一种非暂时性计算机可读介质，其上包含使用短读段扩增子序列来鉴别和分类宏基因组样本中的操作分类单元(OTU)的计算机程序，该计算机程序包括：

使用宏基因组样本收集模块(124)来收集所述宏基因组样本；

使用测序仪(126)对所述宏基因组样本进行测序；

由所述处理器(110)创建映射矩阵，所述映射矩阵列出了所述定制的OTU的每个相对于一个或多个常规分类学进化枝和常规OTU的所有倾向度的值；