CN108804875B

CN108804875B - 一种利用宏基因组数据分析微生物群体功能的方法

Info

Publication number: CN108804875B
Application number: CN201810644958.2A
Authority: CN
Inventors: 米双利; 邢志凯; 郭翀晔; 李蒙
Original assignee: Beijing Institute of Genomics of CAS
Current assignee: Beijing Institute of Genomics of CAS
Priority date: 2018-06-21
Filing date: 2018-06-21
Publication date: 2020-11-17
Anticipated expiration: 2038-06-21
Also published as: CN108804875A

Abstract

本发明提供一种利用宏基因组数据分析微生物群体功能的方法，采集已知所有微生物物种、基因和功能信息，将这些信息整合为参考数据库；对待测微生物群体的宏基因组进行测序，控制测序数据质量，计算物种丰度和基因丰度，分析不同样本间微生物的组成差异和基因水平差异；对基因功能注释，将相同功能的基因聚类，得到功能模块，将各个功能模块中所有非冗余基因的相关丰度进行加合计算，得到所有功能模块的丰度值，对待测样本微生物的功能进行差异比较分析或整体评价。本发明方法省去了拼接、组装、预测和测序数据与单一功能数据库分别比对的分析步骤，节省时间，提高测序数据利用率，可用于高通量微生物全基因组测序数据的分析和筛选功能微生物。

Description

一种利用宏基因组数据分析微生物群体功能的方法

技术领域

本发明涉及生物信息学领域，具体地说，涉及一种能够节省分析步骤和时间、提高测序数据利用率的利用宏基因组数据分析微生物群体功能的方法。

背景技术

随着高通量测序技术的不断发展，人们已经能从基因组层面去探讨复杂的生物学功能，这让我们对生物本身以及与疾病相关的研究有了更深层次的理解。越来越多的研究发现，微生物菌群与宿主健康之间存在一种互惠互利的平衡关系。其中，微生物菌群可以帮助宿主发酵未消化的食物，参与能量代谢和营养物质吸收，为宿主提供各种微量元素、必需氨基酸、一些抗菌多肽，分解体内的一些毒素或者有害物质。然而，当菌群失调和紊乱时，会引发各类疾病，包括代谢、免疫和细菌性疾病，如红斑狼疮、2型糖尿病和肥胖等。这类的研究也被运用于养殖业，以及食品行业中，来辅助指导生产。

由于微生物菌群物种繁多、数量庞大，且所有的菌群不能全部被分离并培养，因此传统的细菌培养方法研究菌群总体结构变化面临着很大的挑战。随着测序技术的发展，特别是二代测序技术的应用，研究者能够以样品中全部细菌的16SrDNA为对象或以全部细菌的全基因组为对象进行测序，不仅克服了微生物分离培养的限制，还可以系统性的研究微生物的菌群结构、基因功能、微生物之间的相互协作关系以及微生物与环境之间的关系。其中16SrDNA测序技术主要是研究菌群的物种组成、物种间的进化关系以及群落多样性。但是，这一技术的检测精度不高，所得测序序列只能部分注释到种水平，而多数只能注释到属水平；也不能对肠道菌群的代谢调控、活跃菌种等菌群进行功能性分析。

全基因组鸟枪法测序技术是以样品中全部微生物的总DNA(也称为宏基因组：Metagenome)作为研究对象，进行高通量测序，主要研究微生物的多样性、种群的结构、进化关系、功能活性、相互间的协作关系以及与环境之间的关系。宏基因组测序技术能鉴定微生物到种水平，使功能性菌株更加具体明确，为微生物资源利用提供了条件；同时还可以让我们更深入的进行基因和功能层面的研究。

当前全基因组鸟枪法测序主要分为以下几个步骤，首先提取样品中全部微生物的基因组DNA；其次将检测质量合格的DNA打断为300bp长度的片断，按标准流程构建DNA测序文库；然后将检测质量合格的测序文库进行上机测序；最后，对测序数据进行分析。测序所得数据的分析流程主要包括对测序数据进行质量控制、读长(reads)拼接、开放阅读框(ORF)预测、微生物物种分类和基因功能注释。具体步骤如下:1)通过质量控制软件对测序质量值较低的reads进行清除，同时排除所有宿主物种DNA的reads,继而得到目标研究中所需要的高质量reads。2)将所有高质量reads(长度为101bp)通过片段重叠组装成一个更大的片段，称为contig。3)运用ORF软件预测和筛选具有编码蛋白质潜能的contig片段。4)将所得预测到ORF的contig片段与已有的微生物物种和基因功能数据库(例如NCBI,IMG,KEGG和COG等数据库)进行比对，得出与所有序列相关的物种和功能注释信息，包括物种种属信息、基因基本信息、基因功能以及基因参与的生物作用通路等。最后，将每个样本所得信息汇总并进行统计学比较分析，得到特定环境下，所有微生物之间的相互协作关系以及微生物与环境之间的相互影响关系。

虽然，宏基因组学的研究可以帮助我们对环境、生物体以及微生物菌群之间的相互作用关系进行深入研究，但是目前为止，对于微生物全基因组测序数据的常规分析流程依然存在较大的缺陷，主要体现在三个方面：

第一，在研究时限的层面上来说，常规数据分析流程都是分别通过与包括微生物物种及功能注释信息的独立数据库进行比对和分析。为了更好的研究特定物种和环境中微生物的组成和功能变化，如今已建立了几个集成度较高的数据库，包括人类、小鼠和猪的肠道微生物宏基因组数据库。这些数据库整合了各个独立数据库中微生物的基因组序列、种属、功能等信息，例如，MetaHIT人类肠道宏基因组数据库收录了124个人的肠道微生物种属信息，还包括了300多万个肠菌基因及基因功能的注释信息。然而，除了这几个已有的集成度高的数据库外，并没有其它宿主物种的微生物宏基因组学数据库可以被直接使用。而且这几个数据库的构建都是基于肠道微生物宏基因组的研究，不能被运用于其它来源的微生物全基因组研究中。由于这类数据库针对对象的局限性，直接导致了对于其它不同来源研究对象的相关分析必须分别与各个单独的物种或功能数据库进行比对，从而增加了研究所用时间，同时也使研究难度大大增加。

第二，从经济层面来说，这类集成度高的数据库的建立，需要至少100个样本量的宏基因组测序数据来支持其真实性和普适性。而这种大样本量的测序和分析，需要很大的人力和经济成本的投入，增加了这类整合型数据库建立的难度。

第三，从数据利用率来说，常规方法的reads利用率太低，不能全面反映研究对象的真实状态。具体来说，在测序数据组装拼接的过程中，如果reads间没有重叠序列，则不能进行拼接；能够完成拼接的，如果所得序列低于500bp，则会被去除；而有些所得序列虽然高于500bp，但不能预测到具有ORF，这些片段随之也会被去除。这个过程会导致大量的测序数据被丢失或去除，进而导致微生物物种及功能信息注释与实际情况相比大大缺失的情况。特别是在小样本数(20个样本或以下)的研究中，这种数据的丢失会造成研究结果的较大误差和不可靠性。以上三个层面上的缺陷都是现在常规的宏基因组分析方法不可避免的问题和难点。

发明内容

本发明的目的是提供一种能够节省分析步骤和分析时间、提高测序数据利用率、为小样本量的、缺乏已有的整合型参比数据库的微生物宏基因组学研究提供一种分析微生物群体功能的方法。以弥补现有技术中没有特定物种宏基因组参考数据集的现状，减少了微生物宏基因组功能分析的繁琐度和时间成本。

本发明首先提供了一种微生物宏基因组参考数据库，该参考数据库包括微生物物种数据集和微生物基因和功能数据集；所述微生物物种数据集整合广泛宿主和环境来源的微生物物种信息；所述微生物基因和功能数据集整合广泛宿主和环境来源的微生物基因信息和功能的注释信息。

所述微生物物种数据集通过以下方法制备得到：

(1)下载生物信息数据库中不同来源不同种类的所有微生物的全部基因组序列数据；

(2)下载生物信息库中不同来源不同种类的所有微生物的注释文件，从注释文件中提取相关物种的门、纲、目、科、属、种分类信息；

(3)将步骤(1)和(2)中来源于不同生物信息库的微生物根据基因组序列相似度和物种分类信息，进行冗余微生物的筛选和去除，生成一个包括所有微生物序列和物种分类信息的微生物物种数据集，并对这一数据集中所有微生物的序列及分类信息进行统一编号。

上述步骤(1)中，所有微生物的全部基因组序列数据包括全基因组序列的编号，碱基序列和对应的物种信息。

上述步骤(2)是根据所有微生物的全部基因组序列数据所得的编号和物种信息，来提取注释文件中的物种的分类信息。

本发明的微生物宏基因组参考数据库中，所述微生物基因和功能数据集通过以下方法制备得到：

(1)下载生物信息数据库中，且在上述微生物物种数据集中有统一编号的微生物的具有编码能力CDS区的基因序列文件；

(2)下载生物信息数据库中所有微生物的注释文件并提取其中所有基因名称、基因ID号、基因功能注释信息、编码蛋白名称，根据基因名称和编码蛋白名称，从所有整合了基因功能的生物信息数据中提取所有基因对应的信号通路和作用功能分类的信息；

(3)结合上述步骤(1)-(2)的信息，生成一个包括有统一编号的所有微生物CDS序列、基因信息、蛋白功能、作用信号通路及其功能分类信息的微生物基因和功能数据集。

上述步骤(1)、步骤(2)所述的生物信息数据库为NCBI、IMG、KEGG、COG、EMBL、DDBJ、CAZY、UniProt、PDB和/或ASDB。

优选地，步骤(1)的生物信息数据库为NCBI，步骤(2)的生物信息数据库为NCBI、COG、KEGG。

本发明提供了上述微生物宏基因组参考数据库的制备方法，包括以下步骤：

(2)下载生物信息库中所有微生物的注释文件，从注释文件中提取相关物种的门、纲、目、科、属、种分类信息；

(3)将步骤(1)和(2)中来源于不同生物信息库的微生物根据基因组序列相似度和物种分类信息，进行冗余微生物的筛选和去除，生成一个包括所有微生物序列和物种分类信息的微生物物种数据集，并对这一数据集中所有微生物的序列及分类信息进行统一编号；

(4)下载生物信息数据库中，且在步骤(3)所述的微生物物种数据集中有统一编号的微生物的具有编码能力CDS区的基因序列文件；

(5)下载生物信息数据库中所有微生物的注释文件并提取其中所有基因名称、基因ID号、基因功能注释信息、编码蛋白名称，根据基因名称和编码蛋白名称，从所有整合了基因功能的生物信息数据中提取所有基因对应的信号通路和作用功能分类的信息；

(6)结合上述步骤(4)-(5)的信息，生成一个包括有统一编号的所有微生物CDS序列、基因信息、蛋白功能、作用信号通路及其功能分类信息的微生物基因和功能数据集。

(7)将步骤(3)生成的微生物物种数据集和步骤(6)生成的微生物基因和功能数据集整合，得到微生物宏基因组参考数据库。

本发明提供了所述微生物宏基因组参考数据库在不同宿主来源不同环境中微生物宏基因组学研究中、或在研究特定物种和环境中微生物的组成和/或功能变化中、或在检测宿主微生物中的应用。

进一步地，本发明提供一种利用宏基因组数据分析微生物群体功能的方法，包括以下步骤：

(1)构建本发明上述的微生物宏基因组参考数据库；

(2)对待测微生物群体的宏基因组进行测序，对测序数据进行质量控制，获得高质量的全基因组测序数据；

(3)将步骤(2)获得的高质量的全基因组测序数据与步骤(1)的微生物宏基因组参考数据库中的微生物物种数据集进行比对，计算物种丰度，得到测序数据中所有物种的丰度值，分析不同样本间微生物的组成差异或相同样本中微生物的多样性；

(4)将步骤(2)获得的高质量的全基因组测序数据与步骤(1)的微生物宏基因组参考数据库中的微生物基因和功能数据集进行比对，计算基因丰度，得到测序数据中所有基因的丰度值，分析不同样本间基因水平的差异或整体评价待测微生物群体中基因功能水平或评价待测微生物群体中个别微生物基因功能水平；

(5)对所得基因进行基因功能注释，将有相同功能的基因进行聚类，得到多个包含不同基因的功能模块；每个功能模块中，去除具有相同基因丰度和功能的冗余基因；

将各个功能模块中所有非冗余基因的相关丰度进行加合计算，得到所有功能模块的丰度值，对待测样本微生物的功能进行差异比较分析或整体评价。

本领域技术人员根据本申请实施例的记载，结合本领域的常规知识和技术手段可以合理地理解所述整体评价包括对待测样本中微生物的物种多样性测定、不同微生物功能的评价、同一微生物不同功能的评价、同一功能不同微生物的功能效应评价、不同功能微生物数量占比的判断、相同功能不同微生物数量占比的判断、根据优势微生物功能预测其在宿主体内发挥哪种作用及对宿主的影响、通过序列分析推测未知微生物的功能、发现新的微生物物种，为发现和分析新微生物提供新的研究手段。

进一步地，步骤(2)中对测序数据进行质量控制，同时将来源于宿主DNA的reads去除，以便减少样本提取和测序过程中可能产生的误差，从而得到高质量的全基因组测序数据。

步骤(2)所述待测微生物群体为任意宿主来源任意环境下的微生物群体。

本发明还提供了上述利用宏基因组数据分析微生物群体功能的方法的用途，所述用途为以下任一：

1)不同宿主来源和/或环境、特定来源和/或环境下的微生物群体功能分析；

2)不同宿主来源和/或环境、特定来源和/或环境下的特定微生物的功能分析；

3)不同宿主来源和/或环境、特定来源和/或环境下的微生物物种分类分析；

4)获得不同宿主来源和/或环境、特定来源和/或环境下的微生物基因；

5)获得具有特定功能的微生物；

6)评价宿主特定环境下微生物群体状态；

7)评价宿主病理表型特征；

8)提高微生物宏基因组测序数据的利用率；

9)小样本量的微生物群体功能分析；

10)特定环境下所有微生物的相互协作关系，以及微生物与环境之间或微生物与宿主之间的相互影响关系。

本发明的利用宏基因组数据分析微生物群体功能的技术方案至少具有以下有益效果：

(1)本发明构建得到的微生物宏基因组参考数据库可用于不同来源、不同宿主、不同环境下微生物全基因组研究中，不受特定宿主特定环境的影响，具有优异的普适性和信息全面性。

(2)本发明构建得到的微生物宏基因组参考数据库涵盖了目前已知的所有微生物物种和功能信息，信息量庞大，适用于任何需求下对不同来源、不同宿主、不同环境下微生物群体的宏基因组分析，例如微生物群体或个体功能分析，物种分类分析，以及获得具有特定功能的新的微生物。可用于对微生物群体的功能分析以及微生物群体中未知微生物的检测和鉴定。

(3)简化了分析微生物群体功能的程序，节省了时间。本发明利用宏基因组数据分析微生物群体功能的方法去除了测序reads的拼接、预测过程，不需要通过与常规的单一功能数据库分别进行比对来进行基因的功能注释，通过与本发明构建得到的“拥有不同宿主和环境来源微生物的高集成度”的微生物宏基因组参考数据库进行比对，大大节省了数据分析时间，提高了整个测序数据分析流程的运行速度。

(4)本发明方法中，测序数据利用率大大提高。常规方法的reads利用率太低，不能全面反映研究对象的真实状态。具体来说，在测序数据组装拼接的过程中，如果reads间没有重叠序列，则不能进行拼接；能够完成拼接的，如果所得序列低于500bp，则会被去除；而有些所得序列虽然高于500bp，但不能预测到具有ORF，这些片段随之也会被去除。这个过程会导致大量的测序数据被丢失或去除，进而导致微生物物种及功能信息注释与实际情况相比大大缺失的情况。特别是在小样本数(20个样本或以下)的研究中，这种数据的丢失会造成研究结果的较大误差和不可靠性。本发明通过对测序数据质量控制，减少样本提取和测序过程中可能产生的误差，得到了高质量的全基因组测序数据，避免了检测到的相关功能数据丢失，使分析结构的可靠性提高，尤其是小样本数的研究中，测试数据能够被充分利用，可以更真实的反映微生物的状态，提高分析结果的真实性。

(5)本发明方法中，简化了数据库建立流程、大大节省了时间、数据库内容覆盖面更广泛。常规方法是通过对所得测序数据进行比对、拼接、ORF功能预测，并分别与各个已有的功能数据库进行比对这一复杂过程，来收集所需的建库信息。其缺点就是在比对、拼接、预测和功能注释这一过程中，耗时巨大，所得信息不全面。然而，本发明方法所建数据库是仅仅基于基因CDS区的序列和基因名称这两条信息，对所有数据库中关于基因的所有注释信息进行一次性收集和提取。注释信息包括：基因基本信息、其相应的蛋白功能、所处的生物信号通路及其功能分类信息等。本方法省去了比对、拼接、预测和功能注释的过程，因此所用时间大大减少。同时，根据因为是通过基因名称直接得到所有注释信息，减少了运用序列比对时会出现的假阳性误差，使本方法所建数据库内容更精确、更全面。

附图说明

图1为本发明方法所得基因和物种差异比较结果。图1A为运用现有常规宏基因组测序分析方法(见背景技术部分描述)与本发明方法，所得基因数目比较图示。通过本发明定位到的基因数目超过现有方法所得基因数目的2倍。图1B为运用本发明的方法发现在疾病个体中，致病菌的数目大幅度增加(第17-26柱子所示)，而益生菌的数目却明显下降(第1-16柱子所示)。图1C为用本发明的方法发现的在疾病样本中，数量下降最显著的两株益生菌。图1D为用本发明的方法发现大肠杆菌属的微生物数目在疾病和健康样本中的差异性最大。图1E为通过本发明方法发现多种血清型的大肠杆菌在疾病样本中都有明显增加。

图2为本发明方法与现有方法功能差异分析结果。图2A为本发明方法与现有常规方法在微生物COG蛋白功能模块的富集程度比较示意图，显示本方法70％的功能模块富集程度都高于现有常规方法。图2B为本发明与现有常规方法比较与大肠杆菌病相关的功能模块富集示意图，说明本方法功能富集到更多与大肠杆菌病相关的功能模块中。图2C为通过对本发明所得微生物功能结果的分析，得到的疾病组的发病机制图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。以下实施例中所用的生化试剂均为市售。

实施例1微生物宏基因组参考数据库的构建

本实施例以NCBI和KEGG为目标生物信息数据库。本领域技术人员可以选择本领域内的其他生物信息数据库利用本发明的方法进行微生物宏基因组参考数据库的构建，这些选择均为基于本申请的发明构思所采取的常规选择，因此均不超出本申请的保护范围。

1、下载NCBI中不同来源和不同种类所有微生物的全基因组序列。所得数据为.fna文件，文件中包括全基因组序列的NC号、碱基序列、gi号和对应的物种信息。

2、在NCBI中下载所有微生物的.gbk注释文件，并根据上一步中.fna文件所得的NC号和物种信息，从.gbk注释文件中提取相关物种的分类信息，包括门、纲、目、科、属、种。

3、将前述步骤中来源于不同生物信息库的微生物根据基因组序列相似度和物种分类信息，进行冗余微生物的筛选和去除，生成一个包括所有微生物序列和物种分类信息的微生物物种数据集，并对这一数据集中所有微生物的序列及分类信息进行统一编号。

4、在NCBI中下载所有微生物(这些微生物在步骤(3)所述的微生物物种数据集中有统一编号)具有编码能力的CDS区的.ffn格式文件。文件中包括微生物的NC号、gi号、染色体位置信息和碱基序列信息。

5、在NCBI中下载所有微生物的.gff注释文件，并根据以上.ffn文件中的NC号和染色体位置信息为索引，提取.gff文件中的所有基因名称、基因ID号、基因功能注释信息、编码的蛋白名称。

6、根据第5步骤中所得基因ID号，从KEGG数据库的注释信息中提取所有基因所对应的信号通路和作用功能分类信息。

7、结合第4、5、6步骤中所得信息，生成一个包括有统一编号的所有微生物CDS序列、基因信息、蛋白功能、作用信号通路及其功能分类信息的数据集。作为后续分析中所需的微生物基因及功能的数据集。

8、将第3步与第7步中所得数据集整合成为微生物宏基因组参考数据库。

实施例2利用宏基因组数据分析微生物群体功能的方法

1、对待测微生物群体的宏基因组进行测序，对测序数据进行质量控制：去除测序质量值小于20的碱基，进一步去除reads长度小于25bp的序列，同时将来源于宿主DNA的reads去除，以便减少样本提取和测序过程中可能产生的误差，从而得到高质量的全基因组测序数据。

2、物种丰度计算：将第1步中获得的高质量reads实施例1构建得到的微生物宏基因组参考数据库中的微生物物种数据集进行比对，并进行物种丰度的计算，从而得到数据中所有物种的丰度值。以物种丰度值为基础进行不同样本间各种微生物组成的差异分析。

3、基因丰度计算：将第1步中获得的高质量reads与实施例1构建得到的微生物宏基因组参考数据库中的微生物基因和功能数据集进行比对，并进行基因丰度的计算，从而得到数据中所有基因的丰度值。然后，以基因丰度值为基础进行不同样本间基因水平的差异分析或整体评价待测微生物群体中基因功能水平或评价待测微生物群体中个别微生物基因功能水平。

4、微生物群体功能分析：对第3步所得基因进行基因功能注释。并将有相同功能的基因进行聚类，得到多个包含不同基因的功能模块。然后，在每个功能模块中，去除具有相同基因丰度和功能的冗余基因，避免相同基因序列拥有不同基因名的冗余现象。最后，将各个功能模块中所有非冗余基因的相关丰度进行加和计算，得到所有功能模块的丰度值。最后对不同样本中微生物的功能进行差异比较分析或整体评价。

实施例3小样本量禽类肠道内容物的微生物群体功能宏基因组分析

本实施例对小样本量禽类的健康和疾病组个体肠道内容物的宏基因组数据进行了测序及数据分析。所用实验对象是来自于同一家工业养殖厂的18只家禽个体，一共分为两组，每组9个样本；其中疾病受试组是已被兽医确诊患有禽类大肠杆菌病的疾病个体，对照组为健康个体。

通过微生物全基因组鸟枪法测序，对从以上18个肠内容物样本所提取的DNA进行了宏基因组测序。然后分别用本发明实施例2建立的利用宏基因组数据分析微生物群体功能的方法和现有常规方法(背景技术部分介绍的方法)进行后续的数据分析处理。

从预测的基因数目上来看，发现运用本方法得到了98780个基因，而现有常规技术所得到的基因数量仅为其一半，总数为48187个基因(图1A)。这一结果体现了本方法的数据利用率大大高于常规方法。

从微生物不同的分类水平上看，采用本方法发现在疾病个体中致病菌的数目大幅度增加，而益生菌的数目却明显下降(图1B和1C)；这一差异特征在常规方法结果中不显著。说明本方法可以更好的评价宿主在特定环境下微生物群体状态特征。

本方法所得微生物数目在疾病和健康样本中的差异性最大的是大肠杆菌属，其在整个肠道菌群的总占比从4％增加到了26％，这一结果明确的体现了大肠杆菌病的病理表型特征(图1D)，与所选疾病个体临床表型一致。

与此同时，通过对本方法所得物种分析，发现疾病个体中并不是单一血清型大肠杆菌数量增高，而是多种致病性血清型大肠杆菌均数量显著增加(图1E)。然而，用现有的常规方法发现的差异显著的菌种中，未能在血清型水平发现不同大肠杆菌的数量显著变化，因此不能如本发明所得的结果一样准确诠释该病的病理表型。

通过所得基因丰度值及基因功能注释，将各个功能模块中所有非冗余基因的相关丰度进行加和计算，得到所有样本的功能模块的富集丰度值。并在比较健康和疾病组菌群功能的差异之后发现，本方法所得功能模块与常规方法所得结果有70％的相似度，富集程度却大大高于常规方法(图2A)。

本发明所得到有显著差异的功能模块都集中在与大肠杆菌病相关的通路中，并且其富集程度都高于常规方法所得的结果(图2B)。

通过本方法进行的微生物功能差异分析发现，疾病组相对健康组存在III型分泌系统(T3SS)基因功能的提高，这可能是疾病个体中大肠杆菌等有害菌数量显著增加的机制，即接触性(AE)有害菌通过T3SS系统分泌毒性因子破坏肠壁细胞，引发细胞自修复机制，从而停止肠壁细胞对肠道内氧气的消耗，使肠道内氧气水平增加，促进了隶属于兼性厌氧菌的大肠杆菌的大量增殖(图2C)。然而，这一结果并没有在使用常规方法的分析中得到。可见，本方法对基因功能的分析，有助于提供更有效的机制研究线索。因此，本方法可以更有效的诠释在特定环境下所有微生物的相互协作关系，以及其与环境之间或与宿主之间的相互影响关系。

运用本发明的方法分析，发明人还发现了两株在疾病个体中数量显著下降的唾液乳杆菌：Lactobacillus salivarius CECT5713和Lactobacillus salivarius UCC118(Fig.1C)。这两株益生菌可以分泌抗菌产物ABP118等，对一系列病原菌均有广谱的抑菌性；还可以通过剌激宿主免疫细胞中辅助型T细胞1(Th1)的生成，平衡和改善宿主的体质，提高宿主免疫力。由此可见，通过本方法还能获得具有特定功能的微生物。保持较高数量的这两株益生菌对宿主肠道健康状态维持有重要作用，因此具备作为动物饲料添加物运用于养殖业中预防禽类大肠杆菌病的价值。

综上所述，本发明通过对18个小样本肠道微生物全基因组数据的分析，成功定位了与禽类大肠杆菌病相关的微生物物种、基因和功能，并找到了可能的致病机制。相比现有方法，本方法的整个分析过程所需时间大约节省了30天以上。而且，在宏基因组学研究领域，本发明大大提高了测序数据的利用率，使小样本量研究对象的数据结果可靠性增加，是一个快捷、高效利用宏基因组数据分析微生物群体功能研究的方法。另外，通过本方法发现了两株益生菌具有作为预防大肠杆菌病的饲料添加物的价值。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种利用宏基因组数据分析微生物群体功能的方法，其特征在于，包括以下步骤：

(1)构建微生物宏基因组参考数据库；所述参考数据库包括微生物物种数据集和微生物基因和功能数据集；

所述微生物物种数据集整合广泛宿主和环境来源的微生物物种信息，并通过以下方法制备得到：

1)下载生物信息数据库中不同来源不同种类的所有微生物的全部基因组序列数据；所述的生物信息数据库为NCBI、IMG、KEGG、COG、EMBL、DDBJ、CAZY、UniProt、PDB或ASDB；

2)下载生物信息库中不同来源不同种类的所有微生物的注释文件，从注释文件中提取相关物种的门、纲、目、科、属、种分类信息；所述的生物信息数据库为NCBI、IMG、KEGG、COG、EMBL、DDBJ、CAZY、UniProt、PDB或ASDB；

3)将步骤1)和2)中来源于不同生物信息库的微生物根据基因组序列相似度和物种分类信息，进行冗余微生物的筛选和去除，生成一个包括所有微生物序列和物种分类信息的微生物物种数据集，并对这一数据集中所有微生物的序列及分类信息进行统一编号；

所述微生物基因和功能数据集整合广泛宿主和环境来源的微生物基因信息和功能的注释信息，并通过以下方法制备得到：

4)下载前述生物信息数据库中，且在所述的微生物物种数据集中有统一编号的微生物的具有编码能力CDS区的基因序列文件；

5)下载生物信息数据库中所有微生物的注释文件并提取其中所有基因名称、基因ID号、基因功能注释信息、编码蛋白名称，根据基因名称和编码蛋白名称，从所有整合了基因功能的生物信息数据中提取所有基因对应的信号通路和作用功能分类的信息；

6)结合上述步骤4)-5)的信息，生成一个包括有统一编号的所有微生物CDS序列、基因信息、蛋白功能、作用信号通路及其功能分类信息的微生物基因和功能数据集；

将各个功能模块中所有非冗余基因的相关丰度进行加和计算，得到所有功能模块的丰度值，对待测样本微生物的功能进行差异比较分析或整体评价。

2.如权利要求1所述的方法，其特征在于，步骤(2)中对测序数据进行质量控制,同时将来源于宿主DNA的reads去除，以便减少样本提取和测序过程中可能产生的误差，从而得到高质量的全基因组测序数据。

3.如权利要求1或2所述的方法，其特征在于，步骤(2)所述待测微生物群体为任意宿主来源任意环境下的微生物群体。

4.权利要求1或2所述的方法的用途，所述用途为以下任一：

5)获得具有特定功能的微生物；

6)评价宿主特定环境下微生物群体状态；

7)评价宿主病理表型特征；

8)提高微生物宏基因组测序数据的利用率；

9)小样本量的微生物群体功能分析；