CN116783655A

CN116783655A - 用于同时诠释微生物群落的分类分布和复制速率的方法和系统

Info

Publication number: CN116783655A
Application number: CN202180090896.5A
Authority: CN
Inventors: 阿尼尔班·杜塔; 尼肖·库马尔·平娜; 舒普洛吉特·巴尔; 唐戈蒂·博塞; 沙尔米拉•谢卡尔•曼德
Original assignee: Tata Consultancy Services Ltd
Current assignee: Tata Consultancy Services Ltd
Priority date: 2020-12-09
Filing date: 2021-12-09
Publication date: 2023-09-19
Also published as: CA3201695A1; WO2022123606A1; EP4260321A1; US20240026468A1

Abstract

本公开一般涉及微生物生物体(例如细菌)的分类学分析领域，更特别地，涉及用于同时诠释构成微生物群落的微生物的分类分布和复制速率的系统和方法。本公开从包含在收集的微生物组样本中的多种细菌生物体中提取细菌基因组DNA。将多个DNA序列片段读段比对到多个所有可用的完全测序的细菌基因组的预先计算的参考序列数据库。根据比对，在系统发育标记基因的基因组位置处测量读段覆盖度，其中，测量到的读段覆盖度用于诠释多种细菌生物体的分类分布。通过拟合线性函数获得多个斜率。本公开诠释了从收集的微生物组样本中识别出的多种细菌生物体中每一种的复制速率。

Description

用于同时诠释微生物群落的分类分布和复制速率的方法和系统

相关申请的交叉引用和优先权

本申请要求2020年12月9日提交的印度专利申请号202021053578的优先权。上述申请的全部内容通过引用并入本文。

技术领域

本文中的公开内容一般涉及微生物生物体(例如细菌)的分类学分析领域，更特别地，涉及用于同时诠释(simultaneous interpretation)构成微生物群落的微生物的分类分布和复制速率的系统和方法。

背景技术

下一代测序(Next generation sequencing(NGS))技术已经能够以前所未有的测序深度研究不同环境生态位(niche)中的微生物多样性，其中，这些技术一方面在了解人类健康和保健方面具有巨大的意义，另一方面在与环境影响和农业经济评估有关的应用中也具有巨大的意义。

两种广泛使用的微生物组测序方案包括(A)分类学系统发育标记基因(例如，16SrRNA基因)的扩增子测序和(B)根据全基因组鸟枪法(Whole genome sequencing(WGS))测序的宏基因组学。16S rRNA基因的扩增子测序是用于细菌分类表征的标准方案。16S方案允许通过对编码16S rRNA的分类/系统发育标记基因的扩增、测序和丰度计算来重建细菌生态系统的分类分布。此外，这样的根据扩增子测序的方案可以扩展到其他分类/系统发育标记基因(例如管家基因，即cpn60、gyrB、rpoB、tufA等)，也有同样的效果。另一方面，WGS方法将从所研究的细菌生态系统中采样的全部DNA(脱氧核糖核酸)内容物分解，必要时使用随机PCR(聚合酶链式反应)扩增，随后对获得的基因组片段进行测序并计算丰度。此外，在这种情况下，将基因组片段比对回(分类学合并或分类学分类)来源细菌比16S方案和其他类似的根据扩增子测序的方案更困难，前提条件是(i)这些片段随机分布在源基因组上，(ii)有时在源基因组上有低复杂度的区域，以及(iii)这些片段往往不包含良好的分类特征(或信息)。然而，一旦有效地进行了合并过程，WGS方法不仅可以提供生态系统的分类分布的概况，而且还可以提供其中潜在的功能内容，因为测序的片段来源于多个基因，而不仅仅是像16S方案那样的分类系统发育标记基因。尽管从WGS研究中可获得额外的信息，但它的成本比(16S)扩增子测序方法高出数倍，后者仍然是旨在了解生态系统的细菌多样性的研究中的选择方法。此外，还存在从16S rRNA信息中估计微生物组的潜在功能成分的方法。

然而，由于可从微生物组样本中收集的细菌DNA可来自活细胞和死细胞二者，在缺乏可靠的方法来确认属于不同分类组的细胞的活力的如何的情况下，常规测量到的分类比例可能是不正确的。此外，从单一的分类学分布简要说明(snapshot)中不能得出与细菌相互作用有关的直接推论。这样的与细菌物种的复制速率和共同生长有关的信息通常需要至少第二次采样(或更多次)以产生纵向数据，并在随后的时间点比较细菌丰度。最近的一项研究表明，WGS方法可以帮助诠释这种与细菌种群有关的额外信息维度。比对到潜在源生物的染色体上的序列片段(或读取)的分布(可在读取比对/合并步骤后获得)可用于得出该生物体的复制速率(Korem et al,Growth dynamics of gut microbiota in health anddisease inferred from single metagenomic samples-doi:10.1126/science.aac4812.,Brown et al.,Measurement of bacterial replication rates inmicrobial communities-https://doi.org/10.1038/nbt.3704)。从WGS数据中得出细菌物种的复制速率的可能性使得后续取样的必要性变得无关紧要。此外，如果可以避免在多个时间点采样所需的多批次测序，就不会出现与批次效应相关的担忧。

然而，如前所述，WGS测序方法的成本和资源消耗要比根据扩增子测序的微生物组研究方案高出许多。这使得采用WGS方案在经济上不可行，无法用于涉及较大样本量的研究设计。

发明内容

本公开的实施方案提出了技术改进，作为对发明人在常规体系中认识到的一个或多个上述技术问题的解决方案。例如，在一个实施方案中，提供了一种用于同时诠释微生物群落的分类分布和复制速率(SITAR)的方法。该方法包括：从给定的环境中收集微生物组样本；从构成收集的微生物组样本的多种细菌生物体中提取细菌基因组DNA(脱氧核糖核酸)；通过PCR(聚合酶链反应)扩增模块和测序仪对提取的细菌基因组DNA进行扩增子测序以获得多个DNA序列片段读段，包括以下至少一项：(i)靶向两个或更多个系统发育标记基因；和(ii)从两个或更多个系统发育标记基因中的每一个中选择一部分，其中，两个或更多个系统发育标记基因存在于生物体的基因组中，并用于识别生物体的分类谱系；通过处理器将多个DNA序列片段读段比对到多个可用的完全测序的细菌基因组的预先计算的参考序列数据库；根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，通过处理器识别收集的微生物组样本中的多种细菌生物体，并为识别出的多种细菌生物体分配分类学分类；根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，通过处理器为识别出的多种细菌生物体测量两个或更多个系统发育标记基因的基因组位置的读段覆盖度，其中，测量到的读段覆盖度用于诠释从收集的微生物组样本中识别出的多种细菌生物体的分类分布；对于多种细菌生物体中的每一种，通过使用测量到的读段覆盖度和对应于两个或更多个系统发育标记基因相对于从收集的微生物组样本中识别出的多种细菌生物体的每一种所特有的复制起点(ori)和复制终点(ter)的基因组位置的信息，通过处理器拟合y＝mx+c形式的线性函数；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，通过处理器从拟合的y＝mx+c形式的线性函数中获得斜率(m)；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c，通过处理器估计在复制起点处的预期读段覆盖度y_ori；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c，通过处理器估计在复制终点处的预期读段覆盖度y_ter；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用(i)斜率(m)和(ii)的比率中的至少一个，通过处理器诠释复制速率。

在另一个方面，提供了一种用于同步诠释微生物群落的分类分布和复制速率(SITAR)的系统。该系统包括：样本收集模块，用于从给定的环境中收集微生物组样本；DNA提取模块，用于从构成收集的微生物组样本的多种细菌生物体中提取细菌基因组DNA；PCR扩增模块和测序仪，用于对提取的细菌基因组DNA进行扩增子测序以获得多个DNA序列片段读段，包括以下至少一项：(i)靶向两个或更多个系统发育标记基因；和(ii)从两个或更多个系统发育标记基因中的每一个中选择一部分，其中，系统发育标记基因存在于生物体的基因组中，并用于识别生物体的分类谱系；存储器和与存储器通信的处理器，其中，所述处理器配置为执行以下步骤：将多个DNA序列片段读段比对到多个可用的完全测序的细菌基因组的预先计算的参考序列数据库；根据多个DNA序列片段读段与预先计算参考序列数据库的比对，识别收集的微生物组样本中的多种细菌生物体，并为识别出的多种细菌生物体分配分类学分类；根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，为识别出的多种细菌生物体测量两个或更多个系统发育标记基因的基因组位置处的读段覆盖度，其中，测量到的读段覆盖度用于诠释从收集的微生物组样本中识别出的多种细菌生物体的分类分布；对于多种细菌生物体中的每一种，通过使用测量到的读段覆盖度和对应于两个或更多个系统发育标记基因相对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种所特有的复制起点(ori)和复制终点(ter)的基因组位置的信息，拟合y＝mx+c形式的线性函数；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，从拟合的y＝mx+c形式的线性函数中获得斜率(m)；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c估计复制起点处的预期读段覆盖度y_ori；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c估计复制终点处的预期读段覆盖度y_ter；以及对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用(i)斜率(m)和(ii)的比率中的至少一个诠释复制速率。

在另一个方面，提供了一种或多种非暂时性机器可读信息存储介质，包括一条或多条指令，当该一个或多个指令由处理器执行时导致：从给定的环境中收集微生物组样本；从构成所收集的微生物组样本的多种细菌生物体中提取细菌基因组DNA(脱氧核糖核酸)；通过PCR(聚合酶链反应)扩增模块和测序仪对提取的细菌基因组DNA进行扩增子测序以获得多个DNA序列片段读段，包括以下至少一项：(i)靶向两个或更多个系统发育标记基因；和(ii)从两个或更多个系统发育标记基因中的每一个中选择一部分，其中，两个或更多个系统发育标记基因存在于生物体的基因组中，并用于识别生物体的分类谱系；通过处理器将多个DNA序列片段读段比对到多个可用的完全测序的细菌基因组的预先计算的参考序列数据库；根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，通过处理器识别收集的微生物组样本中的多种细菌生物体，并为识别出的多种细菌生物体分配分类学分类；根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，对于多种识别出的细菌生物体，通过处理器为识别出的多种细菌生物体测量测量两个或更多个系统发育标记基因的基因组位置的读段覆盖度，其中，测量到的读段覆盖度用于诠释从收集的微生物组样本中识别出的多种细菌生物体的分类分布；对于多种细菌生物体中的每一种，通过使用测量到的读段覆盖度和对应于两个或更多个系统发育标记基因相对于从收集的微生物组样本中识别出的多种细菌生物体的每一种所特有的复制起点(ori)和复制终点(ter)的基因组位置的信息，通过处理器拟合y＝mx+c形式的线性函数；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，通过处理器从拟合的y＝mx+c形式的线性函数的中获得斜率(m)；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c，通过处理器估计在复制起点处的预期读段覆盖度y_ori；对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c，通过处理器估计在复制终点处的预期读段覆盖度y_ter；以及对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用(i)斜率(m)和(ii)的比率中的至少一个，通过处理器诠释复制速率。

应理解的是，前面的一般性描述和以下的详细说明都仅仅是示例性的和解释性的，并不是对所要求保护的本发明的限制。

附图说明

包含在本公开中并构成其一部分的附图示出了示例性的实施方案，并与说明书一起用于解释所公开的原理：

图1说明了根据本公开的一个实施方案用于同时诠释微生物群落的分类分布和复制速率的系统的框图；

图2A和图2B示出了根据本公开的一个实施方案用于同时诠释微生物群落的分类分布和复制速率的方法的流程图；

图3说明了根据本公开的一些实施方案的细菌染色体复制过程；

图4说明了根据本公开的一些实施方案在高通量测序实验(例如，WGS(全基因组测序))期间与相关基因组位点与复制起点(ori)的距离相关的基因组位点的差异化覆盖度(differential coverage)；

图5说明了根据本公开的一些实施方案的一个代表性的线性方程，该方程可以用两个不同的基因组位点(例如通过扩增子测序获得的系统发育标记基因A和系统发育标记基因B)的测序覆盖数据以及它们在基因组上相对于复制起点(ori)的位置进行拟合；

图6说明了根据本公开的一些实施方案估计细菌复制速率的SITAR方法的度量与本方法验证期间获得的bPTR值之间计算出的皮尔逊相关系数；

图7A至图7C说明了根据本公开的一些实施方案，在WGS(全基因组测序)导出的相对丰度和(A)16S rRNA、(B)CPN60、(C)16S rRNA和CPN60的平均值导出的相对丰度之间计算出的皮尔逊相关值。

具体实施方式

参照附图描述了示例性的实施方案。在图中，附图标记的最左边的数字表示该附图标记首次出现的图。在方便的情况下，在所有附图中使用相同的附图标记来指代相同或相似的部分。虽然本文中描述了所公开的原理的示例和特征，但在不脱离所公开的实施方案的范围的情况下，修改、改变和其他实施方式都是可能的。

现参考附图，并且更特别地参考图1至图7C示出了优选的实施方案，其中，在整个附图中相似的附图标记始终表示相应的特征，这些实施方案在以下示例性系统和/或方法的上下文中进行描述。

根据本公开的一个实施方案，如图1的框图所示，系统100包括样本收集模块102、DNA提取模块104、PCR扩增模块106、测序仪108、预先计算的参考序列数据库110、存储器116、处理器114和一个或多个通信界面124。处理器114与存储器116通信工作。处理器114还包括多个模块。该多个模块访问存储在存储器116中的算法集以执行某些功能。处理器114还包括DNA序列片段读段与源基因组比对模块112、基因组位置覆盖度计算和分类丰度推断模块118、线性方程拟合模块120和复制速率推断模块122。一个或多个通信界面124可以包括多种软件和硬件界面，例如，网络界面、图形用户界面等，并且可以促进在多种网络N/W和协议类型(包括有线网络，例如，LAN、电缆等，以及无线网络，例如WLAN、手机或卫星)内的多种通信。

根据本公开的一个实施方案，在图1的框图中示出了用于同时诠释微生物群落的分类分布和复制速率的系统100。该系统100具体使用扩增子测序，该扩增子测序微生物组样本上进行，平行靶向第一系统发育标记基因(如A)和第二系统发育标记基因(如B)扩增子。在一个实施方案中，本公开确定了所有可用的(已测序的)的细菌染色体的16S rRNA基因和CPN60基因的基因组/染色体位置。在一个替代的实施方案中，任何能够进行系统发育分类的保守的基因组位点/基因都可以像第一系统发育标记基因和第二系统发育标记基因一样用于扩增子测序。此外，本公开利用最先进的方法预测了所有整理的细菌染色体的复制起点(ori)和复制终点(ter)的位置。本公开根据距复制起点(ori)和复制终点(ter)的距离(如有的话)，以一次性步骤创建了16S和CPN60基因以及任何其他能够对微生物进行系统发育分类的保守基因组位点/基因的位置数据库，这些基因可以作为扩增子测序的系统发育标记基因。所述一次性步骤还包括创建16S和CPN60基因以及任何其他能够对微生物进行系统发育分类的保守基因组位点/基因的序列数据库，这些基因可作为扩增子测序的系统发育标记基因。总的来说，这样创建的位置数据库和序列数据库构成了预先计算的参考序列数据库。在本公开的一个实施方案中，词语“细菌”和“微生物”可以互换使用。在本公开的一个实施方案中，词语“基因组位置”和“基因组位点”可以互换使用。

根据本公开的一个实施方案，样本收集模块102配置为从任何给定的环境中收集微生物组样本，其中，微生物组样本可以从人/动物的身体部位之一(例如肠道、皮肤、头发、鼻咽等)中收集或者从体液(例如唾液、尿液、血液等，或粪便、痰、耳垢等)中收集。微生物组样本还可以从植物的不同部分(即，根内、根际、根面、叶、果实、种子等中)收集或者从植物(和植物产品)提取物中收集。此外，微生物组样本可以从其他环境来源(包括污水、生物反应器、河床/海床、空气等)中收集。此外，微生物组样本还可以从储存的生物材料或有机材料(包括生食品/加工食品、粮食、用于治疗用途的天然产品衍生的药物和甚至益生菌制剂)中收集。

根据本公开的一个实施方案，系统100还包括DNA提取模块104、PCR扩增模块106、测序仪108和预先计算的参考序列数据库110。DNA提取模块104配置为使用实验室标准化方案从收集的微生物组样本中提取细菌基因组DNA。PCR扩增模块106配置为对从收集的微生物组样本中提取的细菌基因组DNA进行扩增子测序。在一个实施方案中，通过靶向两个或更多个系统发育标记基因进行扩增子测序以获得多个DNA序列片段读段，其中，系统发育标记基因存在于生物体的基因组中，并用于识别生物体的分类谱系。在另一个实施方案中，通过从两个或更多个系统发育标记基因中的每一个中选择一部分来进行扩增子测序。此外，可以根据可用的测序技术在最大读段长度(能够一次性测序的最大DNA片段大小)方面的能力从两个或更多个系统发育标记基因中的每一个中选择部分。测序仪108配置为对PCR扩增的DNA文库进行测序，以获得由对应于来自第一系统发育标记基因(如A)和第二系统发育标记基因(如B)扩增子的多个DNA序列片段读段组成的DNA序列数据。预先计算的参考序列数据库110包括第一系统发育标记基因(如A)和第二系统发育标记基因(如B)与复制起点(ori)和复制终点(ter)的距离，考虑了环形染色体的线性模型，其中，“ori”代表染色体的线性模型的起点，“ter”代表染色体的线性模型的终点。相对于各个细菌基因组的复制起点(ori)和复制终点(ter)的位置，以预先计算的0-100的线性标度表示系统发育标记基因的距离。预先计算的参考序列数据库110还包括基因组序列数据库，该基因组序列数据库还包括来自所有可用的完全测序的细菌基因组的所选系统发育标记基因的序列。

根据本公开的一个实施方案，系统100还包括DNA序列片段读段与源基因组比对模块112，该源基因组比对模块112被配置为将包括多个DNA序列数据的多个DNA序列片段读段比对到预先计算的参考序列数据库110中源基因组中的多个相应的位置。DNA序列片段读段与两个或更多个系统发育标记基因相对应。基因组位置覆盖度计算和分类丰度推断模块118配置为测量在收集的微生物组样本中识别出的多种细菌生物体的两个或更多个系统发育标记基因的读段覆盖度数据。线性方程拟合模块120配置为，通过使用测量到的读段覆盖度数据和对应于两个或更多个系统发育标记基因相对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种所特有的的复制起点(ori)和复制终点(ter)的基因组位置的信息来拟合每种细菌生物体的线性函数，并且复制速率推断模块122配置为使用多个斜率来诠释收集的微生物组样本中包含的多种细菌生物体的复制速率。

图2A和图2B示出了说明根据本公开的一个实施方案用于同时诠释微生物群落的分类分布和复制速率的方法200的流程图。最开始在步骤202，从给定的环境中收集微生物组样本。在步骤204，从构成收集的微生物组样本的多种细菌生物体中提取细菌基因组DNA。在下一个步骤206中，对提取的细菌基因组DNA进行扩增子测序以获得多个DNA序列片段读段，其至少包括以下一项：(i)靶向两个或更多个系统发育标记基因；以及(ii)从两个或更多个系统发育标记基因中的每一个中选择一部分，其中，系统发育标记基因存在于生物体的基因组中，并用于识别生物体的分类谱系。在步骤208，将两个或更多个系统发育标记基因的PCR扩增和测序后产生的多个DNA序列片段读段比对到所有可用的完全测序的细菌基因组的预先计算的参考序列数据库。

在步骤210，根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，识别收集的微生物组样本中的多种细菌生物体，并为识别出的多种细菌生物体分配分类学分类/谱系。在一个实施方案中，多个DNA序列片段读段对应于靶向的两个或更多个系统发育标记基因。在另一个实施方案中，多个DNA序列片段读段对应于来自两个或更多个系统发育标记基因中每一个的选择部分。使用最先进的算法和分类参考数据库对来自已知细菌生物体的第一系统发育标记基因(如A)和第二系统发育标记基因(如B)的目录序列进行分类(或合并)，并进一步将识别扩展到其他生物体。在步骤212，根据多个DNA序列片段读段与预先计算的参考序列数据库的比对，测量被识别出的多种细菌生物体的两个或更多个系统发育标记基因的基因组位置的读段覆盖度，并且其中，测量到的读段覆盖度用于诠释从收集的微生物组样本识别出的多种细菌生物体的分类学分布。

在步骤214，如图5所描绘的，对于多种细菌生物体中的每一种，通过使用测量到的读段覆盖度和对应于两个或更多个系统发育标记基因相对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种所特有的复制起点(ori)和复制终点(ter)的基因组位置的信息，拟合y＝mx+c形式的线性函数。在步骤216，对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，从拟合的y＝mx+c形式的线性函数中获得斜率(m)。在步骤218，对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合线性函数的数值c估计在复制起点处的预期读段覆盖度y_ori。在步骤220，对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合线性函数的数值c估计在复制终点处的预期读段覆盖度y_ter。在步骤222，对于从收集的微生物组样本中识别出的多种细菌生物体中的每一种，使用(i)斜率(m)和(ii)的比率中的至少一个诠释复制速率。

图3说明了根据本公开的一些实施方案的细菌染色体复制过程。本公开的前提在于细菌染色体复制的生物学过程。细菌染色体本质上是环状的，复制过程一般从一个给定的基因组位置开始，称为“复制起点”或“ori”。在复制过程开始时，环状染色体开始分裂成两个子染色体，从复制起点(ori)开始，其中，在复制起点(ori)周围形成一个由两个“分叉”结合的“气泡”状结构，如图3所描绘的。随着复制过程的进行，复制叉进一步扩散，气泡的尺寸增大。最终，分叉在通常被称为复制终点(ter)的位置相遇并碰撞，并产生两条独立的子链，完成了一个循环的复制过程，如图3所描绘。

图4说明了根据本公开的一些实施方案，在高通量测序实验(例如，WGS)期间，基因组位置的差异化覆盖度取决于相关基因组位点与复制起点(ori)的距离。在本公开中，在复制的任何中间阶段，位于复制起点(ori)附近的任何基因(或基因组位点)预计已经复制到子链中，其中，位于复制终点(ter)附近的基因/基因组位点可能还没有复制。因此，如图4所示，当对来自群体中细菌基因组的基因组位点或随机片段进行DNA测序时，DNA序列数据中基因组位置的拷贝数取决于细胞的整体生存力(复制速率)以及基因组位置与复制起点(ori)的接近程度。这里，群体指的是一组复制的微生物细胞，或者是细菌/古生菌(或者是具有环状基因组/染色体并遵循双向复制过程的任何其他生物体)，而拷贝数指的是在复制的任何特定时间点存在的基因组位点的绝对数量。例如，考虑一个基因组/染色体的复制过程，位于复制起点(ori)附近的特定基因/基因组位点(其中，DNA复制已经发生)有两个拷贝，而位于复制终点(ter)附近的基因/基因组位点(其中，复制尚未发生)只有一个拷贝。然而，上述拷贝数不能与染色体中基因的天然“拷贝数”相混淆，后者类似于染色体中存在的重复区域或重复基因。

图5说明了根据本公开的一些实施方案的一个代表性的线性方程，该方程可以用通过扩增子测序获得的两个不同的基因组位点，第一系统发育标记基因(如A)和第二系统发育标记基因(如B)的读段覆盖数据以及它们在基因组上相对于复制起点(ori)和复制终点(ter)的位置进行拟合。本公开利用测序的基因/基因组位点的染色体/基因组位置以及从DNA序列数据(DNA序列片段读段)中检测到的基因/基因组位点的DNA测序读取/片段数(也称为读段覆盖度)之间的关系来推断微生物组样本中存在的细菌生物体的总体复制速率。一般来说，可以预计基因组位点的读段覆盖度与它与复制起点(ori)的距离成反比关系。另一方面，当以将“ori”置于复制起点的线性标度中(即将“ori”设置在该线性标度的“零”处)来描绘环状基因组时，如图5所描绘的，预计复制速率决定该线性函数的斜率(m)。可以理解的是，如果细胞没有复制，则不会期望复制起点(ori)附近的基因组位点有更多的拷贝/覆盖，因此可以预期斜率为“零”。另一方面，较快的复制速率会带来较陡的斜率。

参照图5，x轴表示与复制起点(ori)的距离，y轴表示比对的基因的数目或读段覆盖度。多个已知参数包括：x_ori表示复制起点(ori)的位置，x_ter表示复制终点(ter)的位置，x_A表示第一系统发育标记基因(如A)与复制起点(ori)的距离(或者换言之，其在基因组上的位置)，x_B表示第二系统发育标记基因(如B)与复制起点(ori)的距离(或者换言之，其在基因组上的位置)，y_A表示第一系统发育标记基因(如A)的读段覆盖数据，y_B表示第二系统发育标记基因(如B)的读段覆盖数据，如从测序实验中诠释的。此外，在一个实施方案中，对于包含在收集的微生物组样本中的任何给定的细菌生物体要导出的多个参数包括：表示复制起点(ori)处的估计读段覆盖数据的y_ori，表示复制终点(ter)处的估计读段覆盖数据的y_ter，以及从拟合线性函数得到的由表示的斜率(m)。

在本公开的一个实施方案中，斜率的估计或从斜率导出的一些其他度量(例如y_ori和y_ter之间的比率可以用作复制速率的代替，其中为了估计所设想的线性函数的斜率，最低程度地需要以下信息：

i.至少两个基因组位点(例如，y_A和y_A)的测序覆盖度；

ii.就与复制起点(ori)的距离而言，这两个基因组位点的位置的知识(例如，x_A和x_B)；

iii.虽然上述两个信息在考虑单一基因组时足以用于计算设想的斜率，但在微生物组/宏基因组背景下，重要的是所选择的两个基因组位点/基因(A和B)都必须是系统发育/分类学标记，以便它们可以相对容易地比对回其源基因组(物种)。

在一个实施方案中，考虑到CPN60是一个管家基因并且存在于大多数细菌物种中，本公开依靠细菌CPN60基因作为第二基因组位点(除了16S rRNA基因作为第一基因组位点外)。

在本公开中，用于扩增子测序的选择基因(即，16S和CPN60)并不总是预期以单个拷贝的形式存在于细菌基因组上。事实上，有很多16S rRNA基因的多个拷贝分散在细菌基因组中的情况。因此，当拟合线性函数时，考虑到基因多拷贝的基因组位置，需要对多拷贝存在的基因例如16S rRNA(或CPN60，如果需要的话)的总覆盖度进行归一化处理。此外，某些细菌物种可能有多个基因组、多个复制起点，以及在某些情况下，复制叉(replicationfork)的进展不对称。因此，对于这些细菌物种在这样的情况下，设想的线性函数可能需要相应地调整，甚至更新为适于描述生物学事件的更高阶数学函数。在本公开中，选择16SrRNA和CPN60是根据它们作为细菌分类学的系统发育标记的特性。然而，本公开可以使用任何其他基因组位点(即，5S rRNA、rpoB、gyrB、rpoB、tufA等)实施，只要它们在所有细菌物种中普遍存在，或至少在被研究/感兴趣的环境生态位中的细菌物种中存在，并且可以可靠地比对回源物种即可。此外，本公开已经借助于分类学水平“细菌物种”进行了解释，其中可以管理知识库描述不同的分类学水平(甚至是亚种或操作分类单位，即OTU)的信息，分类学分类/分选过程也可以如此。在一个替代实施方案中，本公开也可以有效地适应其他相关的分类学水平。

本公开的一些潜在应用列举如下：

(a)保健：在阐明(口服)益生菌(和益生元)制剂的功效方面。虽然16S测序可能有助于量化(粪便)样本中益生菌负荷的总量，但它无法检测益生菌微生物的生存力，而这对其功效至关重要。本公开更适合于此目的，其中，微生物的复制速率可以与分类丰度同时量化。例如为了更好地估计保质期，也可以使用这种方法评估益生菌细胞在储存中(使用前)的生存力。

(b)农业：抗菌剂经常被用来消除来自土壤和/或植物部分的有害细菌和其他病原体。在某种情况下，例如优化这种抗菌剂的剂量，估计抗菌剂对(致病)微生物群体的减少是必不可少的。虽然扩增子(16S)测序不能区分活的和被杀死的/减弱的微生物，但本公开使用对分类学系统发育标记基因和管家基因的测序的组合用于估计复制速率将更为合适。

(c)工业：除了生产具有经济上重要的代谢物外，生物反应器还用于研究一些生物现象，例如单物种生物膜/多物种生物膜的形成和或干预措施对它们的影响。例如，可以研究一种新的药物对微生物(从生物膜)释放的影响。本公开有助于量化从生物膜中释放出来的微生物的分类多样性，并提供有关其生长速率变化的信息。

(d)环境：以类似的方式，本公开可用于量化压力(例如大雨、高温、酸渗漏、溢油等)或干预措施(例如使用溢油分散剂、杀虫剂、消防泡沫等造成的毒性)对微生物种群动态的影响。如前所述，除了分类学丰度的变化外，本公开还能用于跟踪构成微生物种群的每个细菌群的生长速率。

(e)由于能够从单个样本中测量细菌生长速率/复制速率的动力学，本方案可有效地用于减少任何纵向微生物组研究中的采样点的数量。

本公开还将拟合的线性函数的斜率作为复制速率的代替。在另一个实施方案中，可使用其他来源的表示方法，例如在现有技术之一中使用的“峰谷比”来表示细菌复制。当基因组位点处的读段覆盖度和与复制起点(ori)的距离之间的假定线性关系在上述特殊情况下不成立时，这种表示方法将是有用的。本发公开内容已被设计用于确定细菌的分类归属和复制速率，其中，同样可以扩展到古生菌和真核生物体。与细菌类似，古生菌也含有环状染色体，通过选择适当的系统发育标记/普遍存在的基因，本公开可以很容易地适用于研究这一生命领域。事实上，选择在不同生命领域中共享的系统发育标记基因，可以帮助构建单一的实验设计来研究细菌和古生菌二者在生态系统中的分布。另一方面，真核生物拥有线性染色体。然而，每个具有环状染色体的有活力的真核细胞都含有线粒体(对于植物细胞还有质体)，它们也有望与真核宿主细胞同步进行分裂和复制。所呈现的公开内容可以适用于追踪这些环状染色体上的系统发育标记基因以评估异质真核细胞群的分类和复制速率。此外，在染色体上有同一基因的多个拷贝的情况下，也可以拟合线性函数。例如，同一基因的拷贝1、拷贝2、拷贝3等可被视为系统发育标记基因1、系统发育标记基因2、系统发育标记基因3等，在这种情况下只需要一个PCR引物。

本公开可以扩展到替代的实施方案，其中包括：

(1)其他系统发育标记基因，包括5S rRNA、gyrB、rpoB、tufA等；

(2)细菌以外的生物体，包括古生物和真核生物；

(3)可从斜率推导出的表示存在的细菌的生长/复制速率的其他度量。

(4)从(第一系统发育标记基因和第二系统发育标记基因的)读段覆盖度数据推导出的不同归一化值以表示存在的细菌的分类丰度。

本公开的方法(即，同时诠释构成微生物群落的微生物的分类分布和复制速率(SITAR))的验证在以下章节中描述。

使用从先前测序的深度WGS数据(全基因组鸟枪法测序宏基因组数据)产生的模拟扩增子测序数据验证同时诠释构成微生物群落的微生物的分类分布和复制速率(SITAR)的方法。用于此目的的WGS数据(以下简称“WGS-数据”)从一个公共序列库中获得，登录号为PRJNA273761(https://www.ncbi.nlm.nih.gov/bioproject/PRJNA273761/)。

用于生成模拟扩增子测序数据的目标扩增子区域对应于当前验证过程中16SrRNA的系统发育标记基因V4区和CPN60的通用目标(UT)区。可以理解的是，在WGS(全基因组测序)实验中，测序的DNA片段读段是从构成微生物组的细菌基因组的所有区域获得。因此，与选择的细菌(存在于经过WGS实验的微生物组样本中)的系统发育标记基因(即，16S rRNA和CPN60)的测序读取预计与来自其他基因组区域的测序读取一起存在于数据集中。同样可以理解的是，如现有技术(Korem et al,Brown et al.)所描述，WGS(全基因组测序)数据还允许推导出微生物组样本中的细菌复制速率和细菌相对丰度，并且这些数值(以度量bPTR表示的复制速率)可从先前期刊文章(Brown et al)中下载的WGS数据集中获得。使用本方法计算的细菌复制速率与先前报道的bPTR值进行比较以验证本方法的实用性，其中包括以明显低于WGS(全基因组测序)测序和纵向扩增子测序实验的成本获得同时估计细菌多样性和复制速率。在验证期间，还比较了WGS(全基因组测序)得出的细菌相对丰度与通过本方法得出的相对丰度。

下面描述了用于计算能够同时诠释构成微生物群落的微生物的分类分布和复制速率(SITAR)的度量(其描绘了细菌复制速率)及其相对丰度的步骤。虽然WGS(全基因组测序)数据有来自许多样本数据集的多个生物体的测序读取，但(使用最先进的方法)预先计算的bPTR值仅适用于存在于51个微生物组样本中的对应于四个细菌基因组的89个实例(同时具有为本次验证选择的系统发育标记基因)。应理解的是，在“PTR”值，例如kPTR(Koremet al)或bPTR(Brown et al)的情况下，值＝1将表示细菌处于非复制/非生长阶段，值<1是理论上不可能的，可能是实验的伪产物。因此，在验证过程中没有考虑其中报告bPTR值为<1的与21个实例相对应的数据。

本公开的核心方法包括将两个系统发育标记基因(或其区域)的读段覆盖度拟合为一条直线(如前所述)，然后随后使用该直线的斜率推导出细菌生长速度的估计值。可以理解的是，如果两个系统发育标记基因在基因组上的位置非常接近，测序或读段比对过程中的小错误会放大为斜率计算中的大错误。因此，在这个验证实验中，没有考虑另外26个先前可用的bPTR值的实例，因为它们对应于2个细菌基因组(克雷伯肠杆菌(Enterobactercloacae)菌株，n＝15；产酸克雷伯氏菌(Klebsiella oxytoca)菌株，n＝11)，其中，所选择的系统发育标记基因16S rRNA和CPN60的有效位置在复制起点(ori)和复制终点(ter)位置距离的<＝5％以内。在另一个实施方案中，选择一组不同的系统发育标记基因可以克服这一限制。

考虑到本公开的目的之一是计算和比较构成微生物组的细菌的相对丰度，仅保留其中相对丰度的计算是可能的来自这些样本的实例进行最终验证。因此，最终验证集由来自11个样本的22个先前可用的bPTR值实例组成，其中，每个样本中存在两个生物体(产气荚膜梭菌(Clostridium perfringens)ATCC 13124，n＝11；粪肠球菌(Enterococcusfaecalis)OG1RF，n＝11)。为这11个样本创建了模拟扩增子数据(以下称为“模拟数据”)，目的是将新提出的方法的效率与来自这11个样本的先前报道的bPTR值和WGS得出的细菌丰度进行比较。

来自11个样本的WGS数据(运行登录号SRR1779125、SRR1779126、SRR1779134、SRR1779135、SRR1779139、SRR1779141、SRR1779147、SRR1779148、SRR1779149、SRR1779150、SRR1779152)用于将宏基因组读段比对到两种生物体(预先存在的)的参考基因组数据(使用bowtie2)，并将比对到对应于选择的系统发育标记基因(即16S rRNA和CPN60)位置的宏基因组片段读段视为构成模拟数据(模拟扩增子测序数据)。

以下指令用于运行根据bowtie2程序(ref)的WGS数据到参考基因组数据的比对。

创建生物体1(org1)的参考基因组数据库：

bowtie2-build Reference_genome_org1.fna Reference_genome_org1_db

bowtie2-inspect--summary Reference_genome_org1_db

其中Reference_genome_org1.fna:参考生物体基因组fasta文件；Reference_genome_org1_db是用于bowtie2比对构建的数据库。

将宏基因组读段比对到创建的参考基因组数据库中：

bowtie2--end-to-end-x Reference_genome_org1_db-1

metagenome_sample_1_fwd.fastq-2

metagenome_sample_1_rev.fastq–S

metagenome_sample_1_genome_1.sam-p 40--no-unal samtools view-f

2-h-bS metagenome_sample_1_genome_1.sam>

metagenome_sample_1_genome_1.bam

samtools sort metagenome_sample_1_genome_1.bam-o

metagenome.sorted_sample_1_genome_1.bam

samtools index metagenome.sorted_sample_1_genome_1.bam

其中，metagenome_sample_1_fwd.fastq和metagenome_sample_1_rev.fastq对应于来自配对末端测序实验的fastq格式的宏基因组样本_1的WGS数据形式。后缀“fwd”和“rev”分别表示包含正向和反向读取的文件。

metagenome_sample_1_genome_1.sam是SAM格式的对齐(比对)。

metagenome_sample_1_genome_1.bam是二进制形式的SAM对齐(比对)。

metagenome.sorted_sample_1_genome_1.bam是‘metagenome_sample_1_genome_1.bam’是根据它被比对到的基因组位置的排序形式。以类似的方式，为两种生物体创建参考基因组数据库，然后根据创建的参考数据库对所有11个样本进行比对。

在本公开的一个实施方案中，使用bowtie2的默认参数运行数据库创建和比对命令。然而，根据数据的类型，可以使用其他参数，以及甚至其他读段比对软件工具。在一个实施方案中，在上述步骤中用于比对的参考基因组数据可以仅由对应于所选择的系统发育标记基因的基因组序列构成，而不是整个细菌基因组。在另一个实施方案中，用于所选择的系统发育标记基因的所有这些参考序列可以被预填充到单一的参考数据库中进行比对，同时在这个单一的参考数据库文件中对它们各自的出现进行适当的索引。

从模拟数据中，对于所有样本中每种细菌，计算所选择的系统发育标记基因区域(即16S rRNA和CPN60)的读段覆盖度(即，对应于通过测序区域的长度归一化的靶向的测序区域的测序核苷酸碱基的数量)。使用下面的命令来分别计算在16S rRNA和CPN60的特定位置上比对的碱基的数目。

samtools depth metagenome.sorted_sample_1_genome_1.bam-rgenome_1:V4_region_start_position-V4_region_end_position->metagenome_sample_1.genome_1.V4_region.info

samtools depth metagenome.sorted_sample_1_genome_1.bam-rgenome_1:CPN60_region_start_position-CPN60_region_end_position->metagenome_sample_1.genome_1.CPN60_region.info

其中，metagenome.sorted_sample_1_genome_1.bam是宏基因组样本1(metagenome sample 1)相对于基因组_1(genome_1)的排序对齐。

metagenome_sample_1.genome_1.V4_region.info包含比对到宏基因组样本1的V4区域的每个位置的碱基数量。

metagenome_sample_1.genome_1.CPN60_region.info包含比对到宏基因组样本1的CPN60区域的每个位置的碱基数。

以类似的方式，计算了所有11个样本中每个基因组的两个系统发育标记基因的比对的碱基数，随后如前所述，计算了所选择的系统发育标记基因的读段覆盖度。

在本公开的一个实施方案中，相对于各细菌基因组的复制起点(ori)和复制终点(ter)，以预先计算的0-100的线性标度表示/转化系统发育标记基因的位置，描绘了每个细菌的染色体/基因组。此外，也储存了靶向的系统发育标记基因的序列。需要注意的是，这是一个对所有已知的完全测序的细菌基因组进行的一次性步骤，并且该信息可以重复用于展开所提出的SITAR方法的所有实验。此外，可以以一次性步骤进行所有已知的完全测序的细菌基因组的预先计算的参考序列数据库的创建，当使用提出的SITAR的方法时，该步骤可以在以后用于比对/对齐扩增子测序的读取。

在本公开的一个实施方案中，只要在任何这些细菌中存在同一基因的多个拷贝，就计算来自相关细菌的标记基因16S rRNA和CPN60的所选择区域的平均位置和覆盖度。这些平均值表示系统发育标记基因(16S rRNA和CPN60)的有效覆盖度和有效位置，用于对给定样本中每种细菌拟合y＝mx+c形式的线性方程，其中y表示基因组位置的读段覆盖度，并且x以预先计算的0-100标度表示，其中复制起点(ori)的位置为0，复制终点(ter)的位置为100。对于给定样本中的每种细菌，考虑到两个所选择的系统发育标记基因的有效覆盖度分别为‘y_A’和‘y_B’，以及它们的有效位置分别为‘x_A’和‘x_B’，使用以下步骤得出直线方程，其斜率‘m’的陡度将取决于给定样本中相关细菌的复制速率。随后，为了比较基本上代表了峰值覆盖度和低谷值覆盖度之间的比率的bPTR，将通过SITAR方法估计细菌复制速率的类似度量计算为‘_yori’和‘y_ter’之间的比率，即在描述每种细菌的染色体的预先计算的线性标度的位置0和100处的估算/估计的有效覆盖度。

拟合线性方程来计算起点(y_ori)和终点(y_ter)处的覆盖度

直线的一般方程式

可以改写为，

上述方程的形式是：y＝m.x+c，其中，以及/>

那么复制起点(ori)处的估计读段覆盖度可以计算为y_ori＝m×0+c(given x_ori＝0)(给定x_ori＝0)

即：y_ori＝c....(3)。

同样地，复制终点(ter)处的估计读段覆盖度可以计算为：y_ter＝m×100+c.....(4)。

引入了某些边界条件以确保估计的y_ori和y_ter值保持在生物学上可行的范围内。为此目的，在本公开的一个示例性实施方案中，从先前存在的WGS数据中生成所有生物体的16S rRNA系统发育标记基因处的读段覆盖度相对于复制终点位置处的读段覆盖度的比率的大分布，并记录该比率(T)的前95百分位值。在计算的y_ter值(其中，y_16s是16SrRNA系统发育标记基因的有效覆盖度)的情况下，修正的y_ter值(y′_ter)被计算为/> 随后，在保持‘m’不变的情况下，修正的y_ori值(y′_ori)被计算为y′_ori＝y′_ter-m×100。在本公开的验证研究的情况下，根据经验得出的T值为74.27，该值可在另一个实施方案中根据另外的大规模宏基因组WGS(全基因组测序)数据的可用性被重新计算/更新。

从上述计算的每种细菌的起点和终点处的覆盖数据值，如下所述计算SITAR方法估计细菌复制速率的度量。

如果那么该度量计算为

否则，如果那么y′_ter和y′_ori可以计算为

和y′_ori＝y′_ter-m×100.......(6)

随后SITAR方法估计细菌复制速率的度量可以计算为

除了上述步骤外，还增加了进一步的限制以使SITAR方法估计细菌复制速率的度量保持在生物上可行的范围内，其中SITAR方法估计细菌复制速率的度量的最小值被设定为1。

在另一个实施方案中，其中有多于两个的系统发育标记基因可用于/考虑用于扩增子测序，同时，使用线性回归，利用多于两个的系统发育标记基因的覆盖值也可以获得或拟合上述(y＝m.x+c形式的)直线。

为了确定本方法在估计细菌生长速度方面的效率，使用根据扩增子测序的方法，计算WGS(全基因组测序)得出的bPTR值和的SITAR方法估计细菌复制速率的度量之间的皮尔逊相关系数(r)。表1表示以SITAR方法估计细菌复制速率的度量和可从所有样本中每个基因组的WGS(全基因组测序)数据中获得的相应bPTR值的形式表示的估算的细菌生长率。观察到对应于11个样本和2个生物体的这22个实例的相关性为0.77(P值为2.7e-05)，表明本方法中提出的SITAR方法估计细菌复制速率的度量在估计细菌生长速率或复制速率方面具有高的效率。鉴于计算方式的不同，bPTR和SITAR方法的度量预计不会在同一范围/比例内。然而，高度相关性表明，当同时对不同样本中不同生物体的生长速率进行相对比较时，SITAR方法估计细菌复制速率的度量与WGS(全基因组测序)得出的bPTR值具有几乎相当的效率。

表1.以SITAR方法估计细菌复制速率的度量和可从所有样本中每个基因组的WGS(全基因组测序)数据中获得的相应bPTR值的形式表示的估算的细菌生长率。

/>

为了比较使用本方法获得的相对丰度的准确性，将相对丰度值与组成验证数据集的两种生物体的WGS(全基因组测序)得出的相对丰度进行比较。给定的样本中某一生物体的根据WGS(全基因组测序)的相对丰度计算为该生物体的基因组覆盖率除以所有被考虑的生物体(在此情况下为2种生物体)的覆盖率之和。每种生物体的根据16S rRNA和CPN60的相对丰度也以类似方式计算。表2表示了对于目前研究中所有11个样本从WGS(全基因组测序)、16S rRNA和CPN60计算的所有生物体的相对丰度。还以16S rRNA和CPN60基因的平均覆盖值计算生物体的相对丰度。计算了WGS(全基因组测序)得出的相对丰度与(A)16S rRNA、(B)CPN60、(C)16S rRNA和CPN60的平均值得出的相对丰度之间的皮尔逊相关值，这在图7A至图7C中描述。WGS(全基因组测序)得出的相对丰度和根据16S rRNA的相对丰度之间计算的皮尔逊相关系数(r)值为0.48((p值＝0.025)。而WGS(全基因组测序)得出的相对丰度和根据CPN60的相对丰度之间的计算的值r为0.82((p值＝2.7e-06)。此外，WGS得出的相对丰度与根据16S rRNA和CPN60的相对丰度的平均值之间计算的r值为0.67(p值＝7e-04)。请注意，本领域已知，许多时候WGS(全基因组测序)得出的丰度可能与现有技术根据16S rRNA扩增子测序的相对丰度不一致。这可能是由于多种因素，包括由16S rRNA基因的拷贝数可变性引起的读取比对伪产物。

在本验证研究中，观察到16S rRNA得出的相对丰度和WGS(全基因组测序)得出的相对丰度具有适当的或合理的和统计学上显著的相关性。然而，CPN60和WGS(全基因组测序)得出的相对丰度之间观察到的相关性很强(r＝0.82)。同样，从16S rRNA和CPN60得出的相对丰度的平均值与WGS(全基因组测序)得出的丰度的相关性比仅根据16S rRNA的丰度更好。这表明考虑来自使用额外的系统发育标记基因的扩增子测序信息(除了最先进的16SrRNA扩增子外)来推导微生物组样本中细菌的相对丰度可以帮助改进估计。

表2.该表包含了在目前的研究中对所有11个样本计算出的来着WGS(全基因组测序)、16S rRNA、CPN60以及16S rRNA和CPN60的平均值的读段覆盖度中得出的两种生物的相对丰度。

/>

该书面的说明书描述了本文的主题，以使本领域的任何技术人员能够制造和使用该实施方案。本主题实施方案的范围由权利要求限定，并可包括本领域技术人员想到的其他修改。如果此类其他修改具有与权利要求的字面语言无差异的类似要素，或者如果它们包括与权利要求的字面语言无实质性差异的等效要素，则此类其他修改旨在处于权利要求的范围内。

应理解，除了其中具有信息的计算机可读装置之外，保护的范围扩展到这种程序；当程序在服务器或移动设备或任何合适的可编程设备上运行时，这种计算机可读存储装置包含用于执行该方法的一个或多个步骤的程序代码装置。硬件设备可以是可被编程的任何种类的设备，包括例如任何种类的计算机，如服务器或个人计算机等，或其任意组合。该设备还可以包括一些装置，例如，硬件装置，如专用集成电路(ASIC)、现场可编程门阵列(FPGA)，或硬件和软件装置的组合，例如，ASIC和FPGA，或有软件处理组件位于其中的至少一个微处理器和至少一个存储器。因此，该装置可以包括硬件装置和软件装置二者。可以用硬件和软件实现本文中描述的方法实施方案。该装置也可以包括软件装置。或者，可以在不同的硬件设备(例如，使用多个CPU)上实施该实施方案。

本文中实施方案可以包括硬件和软件要素。以软件实现的实施方案包括但不限于固件、驻留软件、微代码等。可以以在其他组件或其他组件的组合来实现由本文中描述的各种组件执行的功能。出于这种描述的目的，计算机可用或计算机可读介质可以是可包括、存储、通信、传播或传输通过指令执行系统、装置或设备使用或与之结合的任何装置。

说明的步骤是为了解释所示的示例性实施方案，并且应预期正在进行的技术发展将改变执行特定功能的方式。本文中为了说明而非限制的目的而提出这些示例。此外，为了便于描述，本文中任意定义了功能构件的边界。只要适当地执行指定的功能及其关系，就可以定义替代的边界。根据本文中所含的教导，替代方案(包括本文中所描述的那些方案的等同物、扩展、变化、偏差等)对相关领域的技术人员而言是明显的。此类替代方案落入所公开的实施方案的范围内。另外，词语“包括”、“具有”、“包含”和“含有”以及其他类似的形式旨在在含义上的等同法，并且是开放式的，因为这些词语中的任何一个之后的一个或多个项目并不意味这个项目或多个项目的详尽列举，也不意味着仅限于列出的一个或多个项目。还必须注意的是，正如本文中和所附权利要求中所使用的，除非上下文；另有明确规定，否则单数形式“一个/一种”和“该/所述”包括复数引用。

此外，可在实现与本公开一致的实施方案时利用一个或多个计算机可读存储介质。计算机可读存储介质是指可存储由处理器可读的信息或数据的任何类型的物理存储器。因此，计算机可读存储介质可以存储由一个或多个处理器执行的指令，包括使处理器执行与本文中所述实施方案一致的步骤或阶段的指令。术语“计算机可读介质”应理解为包括有形项目，并排除载波和瞬态信号，即为非瞬时的。示例包括随机存取存储器(RAM)、只读存储器(ROM)、易失性存储器、非易失性存储器、硬盘、CD ROM、DVD、闪存驱动器、磁盘以及任何其他已知的物理存储介质。

本公开和实施例旨在仅视为示例性的，所公开的实施方案的真正范围由以下权利要求表明。

Claims

1.一种用于同时诠释构成微生物群落的微生物的分类分布和复制速率的方法(200)，所述方法包括：

从给定的环境中收集微生物组样本(202)；

从构成收集的微生物组样本的多种细菌生物体中提取细菌基因组DNA(脱氧核糖核酸)(204)；

通过PCR(聚合酶链反应)扩增模块(106)和测序仪(108)对提取的细菌基因组DNA进行扩增子测序以获得多个DNA序列片段读段，包括以下至少一项：(i)靶向两个或更多个系统发育标记基因；和(ii)从所述两个或更多个系统发育标记基因的每一个中选择一部分，其中，所述两个或更多个系统发育标记基因存在于生物体的基因组中，并用于识别所述生物体的分类谱系(206)；

通过处理器(114)将所述多个DNA序列片段读段比对到多个可用的完全测序的细菌基因组的预先计算的参考序列数据库(208)；

根据所述多个DNA序列片段读段与所述预先计算的参考序列数据库的比对，通过处理器(114)识别所述收集的微生物组样本中的多种细菌生物体，并为识别出的多种细菌生物体分配分类学分类(210)；

根据所述多个DNA序列片段读段与所述预先计算的参考序列数据库的比对，通过处理器(114)为识别出的多种细菌生物体测量所述两个或更多个系统发育标记基因的基因组位置处的读段覆盖度，其中，测量到的读段覆盖度用于诠释从所述收集的微生物组样本中识别出的多种细菌生物体的分类分布(212)；

对于所述多种细菌生物体中的每一种，通过使用所述测量到的读段覆盖度和对应于所述两个或更多个系统发育标记基因相对于从所述收集的微生物组样本中识别出的多种细菌生物体的每一种所特有的复制起点(ori)和复制终点(ter)的基因组位置的信息，通过处理器(114)拟合y＝mx+c形式的线性函数(214)；

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，通过处理器(114)从y＝mx+c形式的拟合的线性函数中获得斜率(m)(216)；

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，使用获得的所述斜率(m)和来自拟合的线性函数的数值c，通过处理器(114)估计在所述复制起点处的预期读段覆盖度y_ori(218)；

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，使用获得的所述斜率(m)和来自拟合的线性函数的数值c，通过处理器(114)估计在所述复制终点处的预期读段覆盖度y_ter(220)；以及

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，使用(i)斜率(m)和(ii)的比率中的至少一个，通过处理器(114)诠释复制速率(222)。

2.根据权利要求1所述的处理器实施的方法，其中，用于收集所述微生物组样本的所述给定的环境包括：

(i)从包括肠道、皮肤、毛发、鼻咽的人的身体部位之一以及从包括唾液、尿液、血液、粪便、痰液和耳垢的体液收集所述微生物组样本；

(ii)从包括肠道、皮肤、毛发、鼻咽的动物的身体部位之一以及从包括唾液、尿液、血液、粪便、痰液和耳垢的体液收集所述微生物组样本；

(iii)从植物的不同部分以及从植物和植物产品提取物中收集所述微生物组样本，所述植物的不同部分为根内、根际、根面、叶、果实、种子；

(iv)从包括污水、生物反应器、河床、海床和空气的环境来源收集所述微生物组样本；以及

(v)从储存的生物材料或有机材料收集所述微生物组样本，所述生物材料或有机材料包括生食品、加工食品、粮食、用于治疗用途的天然产物衍生药物和益生菌制剂。

3.根据权利要求1所述的处理器实施的方法，其中，所述两个系统发育标记基因包括16S rRNA和CPN60。

4.根据权利要求1所述的处理器实施的方法，其中，所述两个或更多个系统发育标记基因包括16S rRNA、CPN60、5S rRNA、gyrB、rpoB和tufA。

5.根据权利要求1所述的处理器实施的方法，其中，所述预先计算的参考序列数据库包括所述系统发育标记基因与来自所有可用的完全测序的细菌基因组的环状染色体的复制起点(ori)和复制终点(ter)的距离。

6.根据权利要求5所述的处理器实施的方法，其中，创建的所述预先计算的参考序列数据库还包括：

(i)确定所有可用的完全测序的细菌基因组的所述系统发育标记基因的基因组位置；

(ii)获取所有可用的完全测序的细菌基因组的复制起点(ori)和复制终点(ter)的历史基因组位置；

(iii)就复制起点(ori)和复制终点(ter)的距离而言，创建所述系统发育标记基因的基因组位置数据库；以及

(iv)相对于构成所述预先计算的参考序列数据库的各细菌基因组的复制起点(ori)和复制终点(ter)的位置，以预先计算的0-100的线性标度表示所述系统发育标记基因的基因组位置。

7.根据权利要求6所述的处理器实施的方法，其中，创建预先计算的参考序列数据库的步骤还包括：创建基因组序列数据库，所述基因组序列数据库还包括来自所有可用的完全测序的细菌基因组的目标系统发育标记基因的序列。

8.根据权利要求1所述的处理器实施的方法，其中，从所述收集的微生物组样本中识别出的所述多种细菌生物体的分类分布被诠释为以下至少一个的相对丰度：(i)所述系统发育标记基因中的一个系统发育标记基因的测量到的读段覆盖度和(ii)所述两个或更多个系统发育标记基因的测量到的读段覆盖度的平均值。

9.根据权利要求1所述的处理器实施的方法，其中，拟合线性函数的步骤还包括以下至少一个：

拟合y＝mx+c形式的线性函数，其中，并且/> 其中，y_A和y_B分别表示两个系统发育标记基因A和B的测量到的读段覆盖度，并且其中，x_A和x_B分别表示所述两个系统发育标记基因A和B的相应基因组位置；以及

使用线性回归拟合y＝mx+c形式的线性函数，其中，考虑了多于两个系统发育标记基因(A,B,C......N)的测量到的读段覆盖度(y_A,y_B,y_C...y_N)和所述多于两个的系统发育标记基因(A,B,C......N)的相应基因组位置(x_A,x_B,x_C....x_N)。

10.根据权利要求1所述的处理器实施的方法，其中，选择目标系统发育标记基因，从而以与根据文献证据在已经收集了微生物组样本的环境中预期存在的大多数细菌生物体的复制起点(ori)和复制终点(ter)位置之间的距离的＞＝5％的距离使所述标记基因的有效位置间隔开，其中，当从收集的微生物组样本中识别出的多种细菌生物体的任一种中存在同一系统发育标记基因的多个拷贝时，计算系统发育标记基因在细菌基因组上的有效位置包括：计算同一系统发育标记基因的一个或多个拷贝的平均位置，并且计算系统发育标记基因在细菌基因组上的有效读段覆盖度包括：计算同一系统发育标记基因的一个或多个拷贝的平均读段覆盖度，并且其中，使用两个或更多个系统发育标记基因的有效读段覆盖度和有效位置拟合y＝mx+c形式的线性方程。

11.根据权利要求1所述的处理器实施的方法，其中，估计所述复制起点处的所述预期读段覆盖度y_ori和所述复制终点处的所述预期读段覆盖度y_rer还包括：从先前存在的全基因组鸟枪法(WGS)测序数据中生成多种细菌的16S rRNA处的读段覆盖度相对于复制终点(ter)处的读段覆盖度的比率的大分布，并记录所述比率(T)的前95百分位值，其中，以以下方式使用这个根据经验得出的T值来确保估计的y_ori和y_ter在生物学可行的范围内：

如果估计的y_ter值则修正的值(y′_ter)计算为/>并修正的y_ori值(y′_ori)随后计算为y′_ori＝y′_ter-m×100，其中，y_16s表示16S rRNA标记基因的有效覆盖度。

12.根据权利要求11所述的处理器实施的方法，其中，所述比率T能够被计算作为任何其他选择的基因组区域处的读段覆盖度相对于来自先前存在的全基因组鸟枪法(WGS)测序数据的多种细菌的复制终点处的读段覆盖度的比率。

13.一种用于同时诠释构成微生物群落的微生物的分类分布和复制速率的系统(100)，所述系统包括：

样本收集模块(102)，用于从给定的环境中收集微生物组样本；

DNA提取模块(104)，用于从构成所述收集的微生物组样本的多种细菌生物体中提取细菌基因组DNA；

PCR扩增模块(106)和测序仪(108)，用于对提取的细菌基因组DNA进行扩增子测序以获得多个DNA序列片段读段，包括以下至少一项：(i)靶向两个或更多个系统发育标记基因；和(ii)从所述两个或更多个系统发育标记基因中的每一个中选择一部分，其中，所述系统发育标记基因存在于生物体的基因组中，并用于识别所述生物体的分类谱系；

存储器(116)；和

与存储器(116)通信的处理器(114)，其中，所述处理器被配置为执行以下步骤：

将多个DNA序列片段读段比对到多个可用的完全测序的细菌基因组的预先计算的参考序列数据库；

根据所述多个DNA序列片段读段与所述预先计算参考序列数据库的比对，识别所述收集的微生物组样本中的多种细菌生物体，并为识别出的多种细菌生物体分配分类学分类；

根据所述多个DNA序列片段读段与所述预先计算的参考序列数据库的比对，为识别出的多种细菌生物体测量所述两个或更多个系统发育标记基因的基因组位置处的读段覆盖度，其中，测量到的读段覆盖度用于诠释从所述收集的微生物组样本中识别出的多种细菌生物体的分类分布；

对于所述多种细菌生物体中的每一种，通过使用测量到的读段覆盖度和对应于所述两个或更多个系统发育标记基因相对于从所述收集的微生物组样本中识别出的多种细菌生物体中的每一种所特有的复制起点(ori)和复制终点(ter)的基因组位置的信息，拟合y＝mx+c形式的线性函数；

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，从拟合的y＝mx+c形式的线性函数中获得斜率(m)；

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c估计所述复制起点处的预期读段覆盖度y_ori；

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，使用获得的斜率(m)和来自拟合的线性函数的数值c估计所述复制终点处的预期读段覆盖度y_ter；以及

对于从所述收集的微生物组样本中识别出的所述多种细菌生物体中的每一种，使用(i)斜率(m)和(ii)的比率中的至少一个诠释复制速率。

14.根据权利要求13所述的系统，其中，用于收集所述微生物组样本的所述给定的环境包括：

15.根据权利要求13所述的系统，其中，所述预先计算的参考序列数据库包括所述系统发育标记基因与来自所有可用的完全测序的细菌基因组的环状染色体的复制起点(ori)和复制终点(ter)的距离。

16.根据权利要求15所述的方法，其中，创建的预先计算的参考序列数据库还包括：

17.根据权利要求16所述的系统，其中，创建预先计算的参考序列数据库的步骤还包括：创建基因组序列数据库，所述基因组序列数据库还包括来自所有可用的完全测序的细菌基因组的目标系统发育标记基因的序列。

18.根据权利要求13所述的系统，其中，拟合线性函数的步骤还包括以下至少一个：

19.根据权利要求13所述的系统，其中，选择目标系统发育标记基因，从而以与根据文献证据在已经收集了微生物组样本的环境中预期存在的大多数细菌生物体的复制起点(ori)和复制终点(ter)位置之间的距离的>＝5％的距离使所述标记基因的有效位置间隔开，其中，当从收集的微生物组样本中识别出的多种细菌生物体的任一种中存在同一系统发育标记基因的多个拷贝时，计算系统发育标记基因在细菌基因组上的有效位置包括：计算同一系统发育标记基因的一个或多个拷贝的平均位置，并且计算系统发育标记基因在细菌基因组上的有效读段覆盖度包括：计算同一系统发育标记基因的一个或多个拷贝的平均读段覆盖度，并且其中，使用两个或更多个系统发育标记基因的有效读段覆盖度和有效位置拟合y＝mx+c形式的线性方程。

20.一种或多种非暂时性机器可读信息存储介质，包括一个或多个指令，当所述一个或多个指令由一个或多个硬件处理器执行时导致：

从给定的环境中收集微生物组样本(202)；