CN102517392A

CN102517392A - 基于宏基因组16s高可变区v3的分类方法和装置

Info

Publication number: CN102517392A
Application number: CN201110439198XA
Authority: CN
Inventors: 章文蔚; 郭晶; 龚梅花; 张艳艳; 王俊; 汪建; 杨焕明
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2012-06-27

Abstract

本发明公开一种基于宏基因组16S高可变区V3的分类方法和装置。该方法包括：提取微生物样品中的DNA；对宏基因组16S rDNA的高可变区V3进行扩增，对扩增产物进行Solexa建库，同时在建库过程中通过加上带有标签序列的接头，对每个样品进行标记；将带有标签序列的不同样品进行混合，混合后使用Solexa测序工具进行测序，得到按照标签区分的原始的测序序列reads；利用reads的重叠关系组装得到高可变区V3的全长序列unique reads；对unique reads进行分类分析，以实现对微生物群体的分类。本发明的方法和装置，对微生物群体的分类准确，且大大降低了测序成本。

Description

基于宏基因组16S高可变区V3的分类方法和装置

技术领域

本发明涉及生物信息学分析技术领域，尤其涉及一种基于宏基因组16S高可变区V3的分类方法和装置。

背景技术

为了研究生物环境中微生物群体的种类，一般传统的方法包括：直接对微生物进行培养，变性梯度凝胶电泳(DGGE，Denaturing GradientGel Electrophoresis)，末端限制性内切酶片段长度多态性(T-RFLP，Terminal Restriction Fragment Length Polymorphism)，荧光原位杂交(FISH，Fluorescence In Situ Hybridization)，对可能的微生物种类进行PCR(聚合酶链式反应，Polymerase Chain Reaction)；但这些方式都只能揭露环境中很小一部分微生物种类。如果能进行宏基因组的分析，通过直接对环境中的微生物群体进行基因组研究，得到一个比较全面的微生物种类目录，将有助于对微生物群体的后续研究和应用。

由于原核生物中16S rRNA(核蛋白核糖核酸，ribosomal RNA(RiboNucleicAcid))的序列高度保守，可精确指示细菌之间的亲缘关系；16S rRNA的大小为1500bp(碱基对，Base Pair)左右，所含信息能反映生物界进化关系，易操作，适用于各级分类单元；所以在宏基因组的研究中，16S区测序是最常用的聚类和分类方法。传统的宏基因组的测序是通过Sanger技术测序16S rRNA gene(16S rDNA)得到至少500bp的读长，这个读长的长度足够长，能够装配出近乎完整的16S rDNA序列，帮助我们去精准地研究每一条序列的物种来源，但它容易产生嵌合体，而且测序成本比较高，费时又费力。

随着新开发出的测序技术以及测序成本的逐步降低，宏基因组的研究变得越来越实用，所涉及的技术包括Pyrosequencing、Solexa等。对于这些革命性的技术的一个主要挑战就是读长太短，无法对每个个体的16S rDNA进行测序，因而它的测序信息不足以让我们去精准地对微生物进行分类。为了解决读长的问题，有研究(Bacterial flora-typing withtargeted，chip-based Pyrosequencing，BMC Microbiology 2007，7：108doi：10.1186/1471-2180-7-108，公开于2007年11月30日)通过GenomeSequencer 20 system(454 Life Sciences)测序16S rDNA可变区来对微生物进行分类，通过设计特定的通用引物对16S可变区进行特定的PCR(聚合酶链式反应，Polymerase Chain Reaction)，然后用454序仪测序，建立在这种方法上的系统树显示了很好的生物多样性，但它的测序成本高，虽然是传统毛细管测序法费用的1/10，但却是其他新一代测序仪测序费用的10倍左右。

综上所述，提供一种更加准确地对微生物进行聚类分析的方法且方便快捷、成本低廉成为本领域亟待解决的技术问题。

发明内容

本发明要解决的一个技术问题是提供一种基于宏基因组16S高可变区V3的分类方法和装置，通过对16S的高可变区V3区进行solexa测序，并通过对这些16S可变区的短序列进行系统分类，可以在成本低廉的基础上准确反映物种的丰度信息。

本发明的第一方面提供了一种基于宏基因组16S高可变区V3的分类方法，该方法包括：提取微生物样品中的脱氧核糖核酸(DNA)；对提取DNA的宏基因组16S核糖体脱氧核糖核酸(rDNA)的高可变区(V3)进行扩增，得到作为扩增产物的DNA片段；对DNA片段进行PCR-FreeSolexa建库，建库过程中在DNA片段上加上标签序列以对每个样品进行标记；将各个样品的带有标签序列的DNA片段进行混合，使用Solexa测序工具对混合后的DNA片段进行测序，得到按照标签区分的测序序列reads；利用reads的重叠关系组装得到高可变区V3的全长序列uniquereads；对unique reads进行分类分析，以实现对微生物群体的分类。

优选地，该方法还包括：在步骤“提取微生物样品中的脱氧核糖核酸DNA”之前，执行微生物群体的取样。

优选地，所述对unique reads进行分类分析包括：计算unique reads之间的序列差异度；根据序列差异度执行操作分类学单元OTU的分类，将unique reads分配到OTU中；将每一个OTU分类中的unique reads比对到16S rDNA的v3数据库中，将比对结果根据众数原则对OTU进行物种注释。

优选地，根据序列差异度执行操作分类学单元(OTU)的分类是指根据本领域公知的OTU分类中“种”水平之间的差异度将unique reads分配到相应的OTU中。在本发明的一个实施方案中，将序列差异度在3％以内的unique reads分配到一个OTU中。

优选地，将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66％以上的比对结果均为同一个物种，则将该OTU注释为该物种；如果未达到该比例，则将物种分类信息上移一个水平(例如从“种”上移到“属”，或从“属”继续上移到“科”)再进行统计，直到达到66％的比例标准为止。

优选地，该方法还包括：在步骤“对unique reads进行分类分析”之后，基于分类分析结果，进行种群多样性分析和/或统计得到微生物群体的相对丰度值。

优选地，步骤“对宏基因组16S rDNA的高可变区V3进行扩增”是指利用本领域公知的方法扩增DNA序列，在本发明的一个实施方案中，采用聚合酶链式反应(PCR)扩增16S rDNA的高可变区V3，所述PCR反应的引物为引物338F：ACTCCTACGGGAGGCAGCAG和533R：TTACCGCGGCTGCTGGCAC。

优选地，步骤“对DNA片段进行PCR-Free Solexa建库，建库过程中在DNA片段上加上标签序列，对每个样品进行标记”进一步包括：将所述DNA片段进行纯化，对纯化后的DNA片段进行浓度定量，定量后不同样品取等浓度的量分别进行末端修复，在3’端加上碱基A，然后加上标签序列，再进一步加上PCR-Free的接头，最后对样品进行纯化。

优选地，在得到按照标签区分的原始的测序序列reads后，还包括对所述测序序列进行筛选的步骤，以过滤掉低质量的测序序列；所述低质量的测序序列选自以下序列中的任意一种或数种：接头污染序列，含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列；

优选地，步骤“利用reads的重叠关系组装得到高可变区V3的全长序列unique reads是指按照本领域公知的条件进行序列的拼接，例如运用拼接软件，根据序列两端的重叠关系对reads进行拼接，将其组装成V3的全长序列unique reads。在本发明的一个实施方案中，拼接的条件是最小匹配长度为5bp，重叠区域不允许错配，重叠区域N所占最大百分比是0.4％；为了更多的利用序列，不满足以上结果的序列将各切除5bp继续组装，如此重复多次，最终产生的就是V3的序列，如果最终的拼接结果小于50bp也不用于后续分析。

本发明的第二方面提供了一种基于宏基因组16S高可变区V3的分类装置，所述装置包括：脱氧核糖核酸DNA提取设备，用于提取微生物样品中的脱氧核糖核酸DNA；扩增设备，用于对宏基因组16S rDNA的高可变区V3进行扩增，得到作为扩增产物的DNA片段；Solexa建库设备，用于对DNA片段进行PCR-Free Solexa建库，建库过程中在DNA片段上加上标签序列，对每个样品进行标记；Solexa测序设备，将各个样品的带有标签序列的DNA片段进行混合，使用Solexa测序工具对混合后的DNA片段进行测序，得到按照标签区分的原始的测序序列reads；全长序列组装设备，用于利用reads的重叠关系组装得到高可变区V3的全长序列unique reads；分类设备，用于对unique reads进行分类分析，以实现对微生物群体的分类。

优选地，该装置还包括取样设备，用于执行微生物群体的取样。

优选地，分类设备包括：序列差异度计算单元，用于计算unique reads之间的序列差异度；OTU分类单元，用于根据序列差异度执行操作分类学单元OTU的分类，将unique reads分配到OTU中；物种注释单元，用于将每一个OTU分类中的unique reads比对到16S rDNA的v3数据库中，将比对结果根据众数原则对OTU进行物种注释。

优选地，还可以包括数据分析设备，用于在对unique reads进行分类分析之后，对所得到的数据结果进行进一步分析；所述数据分析设备包括种群多样性分析单元，用于分析种群多样性；和/或相对丰度统计单元，用于统计得到微生物群体的相对丰度值。

优选地，对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V3进行扩增是指利用本领域公知的方法扩增DNA序列，在本发明的一个实施方案中，采用聚合酶链式反应(PCR)扩增16S rDNA的高可变区V3，所述PCR反应的引物为引物338F：ACTCCTACGGGAGGCAGCAG和533R：TTACCGCGGCTGCTGGCAC。

优选地，Solexa建库设备包括：DNA片段纯化单元，用于将所获得的DNA片段进行纯化；定量单元，用于对纯化后的DNA片段进行浓度定量；DNA片段修饰单元，用于在定量后不同样品取等浓度的量分别进行末端修复，在3’端加上碱基A，然后加上标签序列，再进一步加上PCR-Free的接头；修饰后产物纯化单元，用于对修饰后的DNA片段进行纯化。

优选地，还包括测序序列筛选设备，用于在得到按照标签区分的原始的测序序列reads后，对所述测序序列进行筛选，以过滤掉低质量的测序序列；所述低质量的测序序列选自以下序列中的任意一种或数种：接头污染序列，含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列。

优选地，所述全长序列组装设备按照本领域公知的条件进行序列的拼接，例如运用拼接软件，根据序列两端的重叠关系对reads数据进行拼接，将其组装成V3的全长序列unique reads。在本发明的一个实施方案中，拼接的条件是最小匹配长度为5bp，重叠区域不允许错配，重叠区域N所占最大百分比是0.4％；为了更多的利用序列，不满足以上结果的序列将各切除5bp继续组装，如此重复多次，最终产生的就是V3的序列，如果最终的拼接结果小于50bp也不用于后续分析。

本发明提供的基于宏基因组16S高可变区V3的分类方法，采用结合了加标签技术的Solexa技术，对特定环境下的微生物群体进行了高通量测序，既减少了人力劳动也节省了经济花费，使得在研究微生物群落结构与健康、环境因子等的关系上变得容易可行。

附图说明

图1示出本发明实施例提供的一种基于宏基因组16S高可变区V3进行分类的方法的流程图。

图2示出对unique reads进行分类分析的方法的流程图。

图3示出肠道样本扩增结果的稀释曲线分析图。

图4示出本发明的基于宏基因组16S高可变区V3的分类装置的一个实施例的结构图。

图5示出本发明的基于宏基因组16S高可变区V3的分类装置的另一个实施例的结构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

下面介绍几个本发明技术方案涉及的概念。

宏基因组是指(Metagenome)(也称微生物环境基因组MicrobialEnvironmental Genome，或元基因组)特定环境中全部微小生物遗传物质的总和。它包含了可培养的和未可培养的微生物的基因，目前主要指环境样品中的细菌和真菌的基因组总和。

PCR-Free Solexa建库是指对PCR产物进行纯化，然后进行浓度定量。不同样品取等浓度的量分别进行末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端)，然后加上碱基“A”，再加上PCR-Free的接头，加完接头后，对样品进行纯化。所述PCR-Free的接头是指测序用的引物序列。

标签序列(barcode)是指加在引物5’端前面的一段碱基序列，用于区分不同的样本。标签序列可以是由6个碱基组成条形码序列，标签序列的设计要符合一定规则，比如碱基含量和不同碱基数目等，目的是防止因为个别测序错误等原因导致标签相互之间的混淆，例如可以参考美国专利申请US20100267043A1中公开的方法和原则。

Read(s)是指Solexa测序后产生的测序片段的序列，也称为测序序列。

Unique read(s)是指Read(s)经过拼接后产生的v3的全长序列。Unique read(s)的数目是指将序列相同的全长序列合并后得到的全长序列数。

序列差异度是指两条序列比对时不同碱基的个数所占的百分比。

如图1所示，基于宏基因组16S高可变区V3进行分类的方法流程包括：

步骤102，提取微生物样品中的脱氧核糖核酸DNA。例如，采用Ultraclean Soil DNA kit试剂盒(MoBio，USA)从样品沉积物中提取微生物的DNA。

步骤104，对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V3(该区的两端各有20碱基对bp左右的保守区，中间的可变区为130-160bp左右)进行扩增，得到作为扩增产物的DNA片段。例如利用聚合酶链式反应PCR，使用引物338F：ACTCCTACGGGAGGCAGCAG和533R：TTACCGCGGCTGCTGGCAC去扩增微生物群体中细菌的16S高可变区V3区片段。

步骤106，对获得的DNA片段进行PCR-Free Solexa建库法建库，建库过程中在DNA片段上加上标签序列，对每个样品进行标记。例如，把PCR产物用QIAquick PCR purification Kit(Qiagen)进行纯化，用分光光度计对所述16S的高可变区V3的PCR产物进行浓度定量。不同样品取等浓度的量分别进行末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端)，加“A”，加上标签序列，再加上PCR-Free的接头(Pair-end library preparation kit，Illumina)；加完接头后，对样品进行纯化(用1.8x ampureXP磁珠进行纯化)。有些试剂盒中PCR-Free的接头是带有标签序列的接头，这样可以将加标签序列和加作为引物的接头一步完成。

步骤108，将各个样品的带有标签序列的DNA片段进行混合，使用Solexa测序工具对混合后的DNA片段进行测序，得到按照标签区分的原始的测序序列reads。例如，直接用Illumina GA II(150bp pair-end策略)进行测序。Solexa测序仪(Illumina genome analyzer)是新一代的高通量测序仪，测序价格低廉，数据读取量大，相同的测序量的情况下，Solexa测序费用是454测序费用的十分之一，而且错误率低(如单碱基测序错误率＜10^-5)，测序无偏性，对于宏基因组，可以真实反映物种的丰度信息。而且得到的测序结果是已根据标签序列进行区分的测序序列reads。

步骤110，利用reads的重叠关系组装得到高可变区V3的全长序列unique reads。例如，运用拼接软件对reads数据进行拼接，得到拼接的结果。通过序列两端的重叠关系将两端测序得到的序列组装成V3的全长序列unique reads。拼接的条件是最小匹配长度为5bp，重叠区域不允许错配，N所占最大百分比是0.4％。为了更多的利用序列，不满足以上结果的序列将各切除5bp继续组装，如此重复多次。最终产生的就是V3的序列。如果最终的拼接结果小于50bp也不用于后续分析。所述拼接软件可以为merger、CABOG、ARACHNE、RePS、phrap及newbler等软件，在本发明的一个实施例中，应用了merger拼接软件。根据标签序列即可以把unique reads分配到对应的样品上。

步骤112，对unique reads进行分类分析，以实现对微生物群体进行高通量的分类。本发明采用结合了标签技术的Solexa技术，分辨率大大提高，单个Run上Solexa(Illumina)能产生比454多100倍的reads，因此，仅仅通过测序这么短的长度就能得到很好的分类效果，另外由于结合了标签技术，能够在单个Lane(Illumina高通量测序仪一张芯片有8个通道，每个通道被称为“lane”)上点更多的样，大大节约了每个样品的测序成本。

在本发明的一个实施例中，对unique reads进行分类分析的基本思想为根据unique reads的序列差异度将其分配到各个OTU中，再将每一个OTU中的序列比对到16S rDNA的v3数据库中，得到每一个OTU的物种分类。具体流程如图2所示：

步骤202，计算unique reads之间的序列差异度。

步骤204，根据序列差异度执行操作分类学单元OTU的分类，将unique reads分配到OTU中。分配到OTU的软件可以例如为Mothur、RDP classifier、qiime等软件，在本发明中采用Mothur软件，其版本为v.1.6.0，下载网址为http://www.mothur.org/wiki/Main Page。

步骤206，将每一个OTU分类中的unique reads比对到16S rDNA数据库中。

步骤208，将比对结果根据众数原则对OTU进行物种注释。

在本发明的一个具体实施例中，将序列差异度在3％以内的uniquereads分配到一个OTU中。

在本发明的一个具体实施例中，将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66％以上的比对结果均为同一个物种，则将该OTU注释为该物种；如果未达到该比例，则将物种分类信息上移一个水平(例如从“种”上移到“属”，或从“属”继续上移到“科”)再进行统计，直到达到66％的比例标准为止。

本发明首先根据序列的差异度进行聚类分析，将拼接后得到的全长序列按照种的水平分配到不同的OTU中，再将OTU中的序列比对到16SrDNA v3数据库中，在最好匹配的基础上进行物种的分类，实现了对复杂微生物样品的准确注释；而且采用大量平行测序能够发现更多的稀有微生物种类。

另外，在对unique reads进行分类的基础上，还可以基于分类分析结果，进行群多样性分析和/或统计得到微生物群体的相对丰度值。

在本发明的一个实施方案中，利用Mothur Canoco软件进行Chao1分析，计算样品OTU的alpha多样性，可以得到该环境样品的物种丰富度；同时，对比对后得到的物种注释结果进行统计，可以得到各种微生物的相对丰度。其与16S测全长序列在微生物分类和测量群体的相对丰度上具有等同的技术效果。

接下来详细描述本发明提供的基于宏基因组16S高可变区V3进行分类的方法的一个具体实施方式。

步骤1、进行微生物群体的取样。

具体来说，提取深圳北大医院肠道样品共20个样本。(命名以标签序列的数字代码命名)

步骤2、提取微生物样本的基因组DNA。

具体来说，所有样本的DNA都采用Ultraclean Soil DNA kit(MoBio，USA)从肠道样品中提取出来。

步骤3、使用特定的引物进行PCR扩增。

具体来说，使用引物338F：ACTCCTACGGGAGGCAGCAG和533R：TTACCGCGGCTGCTGGCAC去扩增微生物群体中细菌的16S高可变区V3区片段。

步骤4、对PCR产物进行PCR-Free Solexa建库法建库。具体来说，把PCR产物用QIAquick PCR purification Kit(Qiagen)进行纯化，用分光光度计对所述16S的高可变区V3的PCR产物进行浓度定量。20个样本取等浓度的量分别进行末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端)，接着3′端加“A”，然后3′端加上标签序列，再在3′端加上PCR-Free的接头(Pair-end library preparation kit，Illumina)；加完接头后，对样品进行纯化(用1.8x ampureXP磁珠进行纯化)。用12μL的EB(洗脱液，Elution buffer)进行溶解。

步骤5、Solexa测序。具体来说，可以按照厂家Illumina的说明书直接用Illumina GA II进行测序(150bp pair-end策略，即读长为150个碱基的双末端测序)，得到原始的测序序列reads。而且这些reads已根据标签序列进行了区分。如表1所示。

表1 Solexa原始测序序列reads和unique reads数

步骤6、得到原始的测序数据后，过滤掉那些低质量的数据。具体来说，低质量的数据是指接头污染序列，含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列；如表2所示。接头污染序列的判断标准为：若reads与接头序列可以连续比对上15bp的长度，则认为该reads有接头污染。含有多个poly(A|T|C|G)的序列，即低复杂度序列的判断标准为：若reads中poly(A|T|C|G)序列的长度≥10bp，则为低复杂度序列的reads。

表2宏基因组数据

Item项目	Reads数量	产出数据(Mb)
			原始测序数据	20,000,000	3000
过滤掉低质量数据后的序列	18,799,024	2819
			序列组装条数	12,864,308	2184
全长序列(Unique read)	1,673,626	226

其中产出数据＝reads数×150bp。序列组装条数是满足序列拼接条件的序列统计得到的个数。

步骤7、利用重叠关系来组装V3的全长序列。

具体来说，通过所述Pair-end的reads重叠区来组装高可变区V3的序列。运用merger拼接软件(http://emboss.sourceforge.net/apps/release/6.2/emboss/apps/merger.html)对reads数据进行拼接，得到拼接的结果，即通过重叠关系将两条两端测序得到的序列组装成一条序列。拼接的条件是最小匹配长度为5bp，重叠区域不允许错配，重叠区域N所占最大百分比是0.4％。为了更多的利用序列，不满足以上结果的序列将各切除5bp继续组装，如此重复多次。最终产生的就是V3的全长序列。如果最终的拼接结果小于50bp也不用于后续分析。利用Mothur所带unique程序去冗余，统计就能得到unique reads的个数。所述去冗余是指将序列相同的unique reads合并为一条。通过条形码标签序列把unique reads都对应到相应的样品上。

步骤8、执行OTU(operational taxonomic unit，操作分类学单元)的分类。使用SLP软件(Huse SM，D Mark Welch et al.(2010).Ironing outthe wrinkles in the rare biosphere through improved OTU clustering.Environ Microbiol 12：1889-1898.)对样品的unique reads序列进行差异度计算，根据unique reads之间的差异，利用Mothur软件(软件mothur(v.1.6.0)的下载途径为http://www.mothur.org/wiki/Main_Page)对unique reads进行OTU分类。差异度在3％以内(相当于分类水平中“种”的水平)的unique reads被聚为一个OTU。

步骤9、对各OTU进行物种注释。使用BLASTN将OTU中的Tags序列比对到16S rDNA数据库refhvr_V3(http://vamps.mbl.edu/resources/databases.php)中。参数设定为：-F F-e 1e-5。将得到的Blast结果根据众数原则，对OUT进行注释，即如果一个OTU中66％(三分之二)的比对结果均为同一个物种，则将该OTU注释为该物种(Huse SM，Dethlefsen L，Huber JA，Mark Welch D，Relman DA，Sogin ML.Exploring microbial diversity and taxonomyusing SSU rRNA hypervariable tag sequencing.PLoS Genet.2008Nov；4(11)：e1000255.Epub 2008 Nov 21)。如果未达到该比例，则将物种分类信息上移一个水平(从“种”上移到“属”，或从“属”继续上移到“科”)再进行统计，直到达到66％的比例标准为止。

步骤10、数据分析。

具体来说，基于步骤8的OTU分类的结果，采用Mothur.软件进行Chao1，即群落内的多样性分析，计算样品OTU的alpha多样性。Alpha多样性是一个环境中物种的多样性分析的结果。Shannon，npshannon模型计算的结果越大表示该环境的物种越丰富。Simpson模型的结果越接近于0表示物种越丰富，结果如表3所示。同时对步骤9中得到的OTU注释结果进行统计，得到表4所示的微生物群体的相对丰度值。并根据各样品的OTU数量及其序列总数量绘制其稀释(Rarefaction)曲线，见图3。

表3微生物Alpha多样性指数

样品名称	Shannon	Npshannon	Simpson
				肠道样品57	5.62	5.69	0.031
肠道样品63	5.70	5.78	0.030
				肠道样品93	5.86	5.95	0.028
肠道样品101	5.93	6.01	0.026
				肠道样品115	5.93	6.02	0.027
肠道样品123	5.97	6.06	0.027
				肠道样品100	5.64	5.72	0.030
肠道样品103	5.76	5.84	0.029
				肠道样品124	5.95	6.04	0.026
肠道样品137	5.85	5.93	0.028
				肠道样品153	5.88	5.96	0.027
肠道样品35	5.30	5.36	0.034
				肠道样品74	5.40	5.46	0.030
肠道样品158	5.47	5.53	0.030
				肠道样品89	5.63	5.70	0.029
肠道样品92	5.38	5.44	0.033
				肠道样品97	5.57	5.63	0.030
肠道样品1	5.63	5.71	0.029
				肠道样品2	5.37	5.44	0.035
肠道样品3	5.48	5.54	0.031

表4肠道样品扩增物种reads丰度值

物种	样品57	样品63	样品93	样品101	样品115	样品123	样品100
								Acidaminococcus	7436	7762	6292	7368	6739	6121	7354
Akkermansia	1627	1354	1192	1648	1350	1302	1339
								Alistipes	10404	10230	9615	10387	8985	8827	10449

Bacteroides	340196	324361	313269	325480	332439	324911	328043
								Bifidobacterium	2154	1952	2277	2123	1877	2041	2292
Bilophila	1001	924	761	817	793	718	954
								Escherichia	821	1076	993	710	711	614	1185
Faecalibacterium	96475	111236	120329	105584	111917	119035	114044
								Odoribacter	811	844	753	774	729	767	914
Oxalobacter	81	75	60	54	47	39	56
								Papillibacter	1588	1690	1410	1464	1499	1433	1481
Parabacteroides	7347	6766	6307	6912	6045	5725	7237
								Peptostreptococcus	2	4	2	1	1	4	2
Roseburia	19679	19787	18416	20092	18918	18414	20440
								Ruminococcus	5159	4716	4280	4585	4234	3793	4691
Subdoligranulum	2453	2653	2885	2524	2561	2624	2848
								Sutterella	1409	1227	1135	1181	1013	1038	1233
物种	样品103	样品124	样品137	样品153	样品1	样品2	样品3
								Acidaminococcus	6289	7098	6819	6211	21338	21984	26085
Akkermansia	1207	1682	1377	1430	4262	4564	4256
								Alistipes	9807	10159	10003	7448	10773	10286	13287
Bacteroides	316047	321657	342553	335685	269333	279904	251964
								Bifidobacterium	2462	2086	1835	2141	1831	2338	2878
Bilophila	888	785	740	744	334	201	185
								Escherichia	733	958	633	644	1529	1529	1819
Faecalibacterium	128984	108252	115650	127634	96158	115933	123340
								Odoribacter	830	870	688	619	2180	1908	1956
Oxalobacter	65	50	55	46	165	232	115
								Papillibacter	1636	1716	1495	1315	1129	1097	1869
Parabacteroides	6198	6768	5507	5840	3273	2477	1998
								Peptostreptococcus	3	5	1	6	1	3	4
Roseburia	20193	20217	18114	19585	31410	35069	38978

Ruminococcus	4431	4839	4219	4084	1245	603	860
								Subdoligranulum	3056	2642	2532	2802	3445	3844	4358
Sutterella	1178	1102	1063	975	1544	1806	1690
								物种	样品35	样品74	样品158	样品89	样品92	样品97
Acidaminococcus	15255	17802	16315	22112	20783	26141
								Akkermansia	3061	4355	3375	4595	4777	3946
Alistipes	10901	8762	8864	10872	9834	13672
								Bacteroides	259635	232951	229491	262062	265752	257709
Bifidobacterium	2036	2413	2180	2023	2344	2750
								Bilophila	218	348	369	419	243	206
Escherichia	1310	1153	1279	1515	1636	1696
								Faecalibacterium	104589	117416	105177	98727	121837	116235
Odoribacter	1753	1993	1808	2062	1872	71
								Oxalobacter	47	146	124	197	225	1906
Papillibacter	1365	1288	1237	1267	1156	122
								Parabacteroides	3150	2627	2882	3446	2474	1764
Peptostreptococcus	2	4	2	3	4	2052
								Roseburia	32633	36911	32773	32183	37113	37129
Ruminococcus	845	1127	1284	1288	681	778
								Subdoligranulum	3712	4562	3874	3573	4304	4092
Sutterella	1114	1454	1287	1659	1786	1699

从表3、表4和图3中可看出，拟杆菌属(Bacteroides)是占绝对优势的物种，占总tags数的60％左右，而对突柄杆菌属(Akkermansia)扩增的数量都很少。对于柔嫩梭菌属(Faecalibacterium)的扩增效果，肠道样品几乎相同，该菌是肠道中的有益菌群之一，据报道其分泌产物能够帮助人体抵御炎症的侵袭。汇总各样品的物种分类信息，能在属的水平上进行区分的共有158个属。将不同样品间能分到属的物种做比较分析，找出具有显著差异的物种。绝大多数的物种在不同样品间都没有显著性差异。扩增结果的差异主要表现在优势类群上，特别是拟杆菌的五个属。其中有十一个样品在三十个属上有显著差异，但在属于拟杆菌门的Odoribacter、属于厚壁菌门的Anaerovorax、Roseburia、Subdoligranulum等十个样品间没有差异。

图4示出本发明的基于宏基因组16S高可变区V3的分类装置的一个实施例的结构图。如图14所示，该装置包括：脱氧核糖核酸DNA提取设备402，用于提取微生物样品中的脱氧核糖核酸DNA；扩增设备404，用于对宏基因组16S rDNA的高可变区V3进行扩增，得到作为扩增产物的DNA片段；Solexa建库设备406，用于对DNA片段进行PCR-FreeSolexa建库，建库过程中在DNA片段上加上标签序列以对每个样品进行标记；Solexa测序设备408，将各个样品的带有标签序列的DNA片段进行混合，使用Solexa测序工具对混合后的DNA片段进行测序，得到按照标签区分的原始的测序序列reads；全长序列组装设备410，用于利用reads的重叠关系组装得到高可变区V3的全长序列unique reads；分类设备412，用于对unique reads进行分类分析，以实现对微生物群体的分类。

图5示出了本发明的基于宏基因组16S高可变区V3的分类装置的另一个实施例的结构图。与图4相比，该装置还包括测序序列筛选设备509，用于在得到按照标签区分的原始的测序序列reads后，对所述测序序列进行筛选，以过滤掉低质量的测序序列；所述低质量的测序序列选自以下序列中的任意一种或数种：接头污染序列，含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列；还包括数据分析设备514，用于在对unique reads进行分类分析之后，对所得到的数据结果进行种群多样性分析和/或统计得到微生物群体的相对丰度值。

在本发明的一个实施例中，分类设备412包括：序列差异度计算单元4121，用于计算unique reads之间的序列差异度；OTU分类单元4122，用于根据序列差异度执行操作分类学单元OTU的分类，将unique reads分配到OTU中；物种注释单元4123，用于将每一个OTU分类中的uniquereads比对到16S rDNA的v3数据库中，将比对结果根据众数原则对OTU进行物种注释。

对于图4、5中各个装置或单元的功能，可以参考上文中关于本发明方法的实施例中对应部分的说明，为简洁起见，在此不再详述。

本领域的技术人员应当理解，对于图4、5中的各个装置，可以通过单独的计算处理设备实现，或者将其集成为一个独立的设备实现。在图4、5中用框示出以说明它们的功能。这些功能块可以用硬件、软件、固件、中间件、微代码、硬件描述语音或者它们的任意组合来实现。举例来说，一个或者两个功能块都可以利用运行在微处理器、数字信号处理器(DSP)或任何其他适当计算设备上的代码实现。代码可以表示过程、功能、子程序、程序、例行程序、子例行程序、模块或者指令、数据结构或程序语句的任意组合。代码可以位于计算机可读介质中。计算机可读介质可以包括一个或者多个存储设备，例如，包括RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或本领域公知的其他任何形式的存储介质。计算机可读介质还可以包括编码数据信号的载波。

本发明提供的基于宏基因组16S高可变区V3进行分类的方法和装置，采用结合了加标签技术的Solexa技术，对特定环境下的微生物群体进行了高通量测序，在单个的Lane中我们测了来自20个样品的大约2千万条16S rRNA V3标签序列。由此可见Solexa测序16S rRNA v3可变区对微生物群体进行分类的方法是经济节约型的，既减少了人力劳动也节省了经济花费，使得在研究微生物群落结构与健康，环境因子等等的关系上变得容易可行。此外，不管是总共的reads还是0个错配的reads数量都比以前报道的测序16S标签序列的数量高。

参考前述本发明示例性的描述，本领域技术人员可以清楚的知晓本发明具有以下优点：

本发明提供的基于宏基因组16S高可变区V3进行分类的方法和装置，仅仅用高变区v3测序来对样品中的微生物进行分类，这种方法在分类和测量微生物群体的相对丰度上显示了很好的效果，甚至在可变区V3区序列与它们最近的参考序列有一定差异的情况下同样能够达到很好的效果。结果显示通过测V3可变区进行微生物种类的分析，不仅可以测到主要的那些微生物，还可以测到更多的稀有微生物。并发现微生物的多样性不仅仅局限于以前按照表型来分类的伯吉分类法，而且微生物群体也远比想象中的复杂。此外，在开发微生物群体的多样性和相对丰度上，大量平行Solexa测序V3可变区序列有超越其他技术很多的优势，比如微生物多样性的相对水平，序列的长度，同聚物的密度，能够识别到种水平的能力，或适应不同扩增引物的优点。

另外，由于Solexa测序的序列比较短，同样一个run，它能提供更多样品的reads，识别更多的微生物，比传统的全长SSU rRNA测序每个read花费更少。随着技术的进步，产生更多的Reads数据和更长的序列的Solexa测序将会给可变区测序分类微生物提供更广阔的机会，比如长测序，可变区域的应用，各种各样可变区的结合，或者更深的测序深度。可变区标签测序的最大优势在于它应用了大量平行Solexa测序的优势，比原先所达到的大好几个数量级的测序深度和宽度，促进了微生物群体和稀有生物圈广阔多样性的开发。

至此，已经详细描述了根据本发明的基于宏基因组16S高可变区V3进行分类的方法和装置。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种对宏基因组16S高可变区V3进行测序聚类分析的方法，其特征在于，该方法包括：

提取微生物样品中的脱氧核糖核酸(DNA)；

对提取DNA的宏基因组16S核糖体脱氧核糖核酸(rDNA)的高可变区V3进行扩增，得到作为扩增产物的DNA片段；

对DNA片段进行PCR-Free Solexa建库，建库过程中在DNA片段上加上标签序列以对每个样品进行标记；

将各个样品的带有标签序列的DNA片段进行混合，使用Solexa测序工具对混合后的DNA片段进行测序，得到按照标签区分的测序序列(reads)；

利用测序序列的重叠关系组装得到高可变区V3的全长序列(uniquereads)；

对全长序列进行分类分析，以实现对微生物群体的分类。

2.根据权利要求1所述的方法，其特征在于，所述对全长序列进行分类分析包括：计算全长序列之间的序列差异度；根据序列差异度执行操作分类学单元(OTU)的分类，将全长序列分配到OTU中；将每一个OTU分类中的全长序列比对到16S rDNA的v3数据库中，将比对结果根据众数原则对OTU进行物种注释。

3.根据权利要求1所述的方法，其特征在于，该方法还包括：在对测序序列进行分类分析之后，基于分类分析结果，进行种群多样性分析和/或统计得到微生物群体的相对丰度值。

4.根据权利要求1所述的方法，其特征在于，所述对DNA片段进行PCR-Free Solexa建库进一步包括：

将所述DNA片段进行纯化；

对纯化后的DNA片段进行浓度定量；

定量后不同样品取等浓度的量分别进行末端修复，在3’端加上碱基A，然后加上标签序列，再进一步加上PCR-Free的接头；

对得到的样品进行纯化。

5.根据权利要求1所述的方法，其特征在于，该方法还包括：在得到按照标签区分的测序序列后，对所述测序序列进行筛选，以过滤掉低质量的测序序列；所述低质量的测序序列选自以下序列中的任意一种或数种：接头污染序列，含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列。

6.根据权利要求1所述的方法，其特征在于，所述的利用测序序列的重叠关系组装得到高可变区V3的全长序列进一步包括：

运用拼接软件，根据序列两端的重叠关系对reads进行拼接，将其组装成V3的全长序列；

拼接的条件是最小匹配长度为5bp，重叠区域不允许错配，N所占最大百分比是0.4％；不满足以上结果的序列将各切除5bp继续组装，如此重复多次；如果最终的拼接结果小于50bp也不用于后续分析。

7.一种基于宏基因组16S高可变区V3的分类装置，所述装置包括：

DNA提取设备，用于提取微生物样品中的脱氧核糖核酸；

扩增设备，用于对宏基因组16S rDNA的高可变区V3进行扩增，得到作为扩增产物的DNA片段；

Solexa建库设备，用于对DNA片段进行PCR-Free Solexa建库，建库过程在DNA片段上加上标签序列以对每个样品进行标记；

Solexa测序设备，将各个样品的带有标签序列的DNA片段进行混合，使用Solexa测序工具对混合后的DNA片段进行测序，得到按照标签区分的测序序列(reads)；

全长序列组装设备，用于利用测序序列的重叠关系组装得到高可变区V3的全长序列(unique reads)；

分类设备，用于对全长序列进行分类分析，以实现对微生物群体的分类。

8.根据权利要求7的装置，其特征在于，所述分类设备包括：序列差异度计算单元，用于计算全长序列之间的序列差异度；OTU分类单元，用于根据序列差异度执行操作分类学单元OTU的分类，将全长序列分配到OTU中；物种注释单元，用于将每一个OTU分类中的全长序列比对到16S rDNA的v3数据库中，将比对结果根据众数原则对OTU进行物种注释。

9.根据权利要求7的装置，其特征在于，还包括数据分析设备，用于在对全长序列进行分类分析之后，对所得到的数据结果进行进一步分析；所述数据分析设备包括种群多样性分析单元，用于分析种群多样性；和/或相对丰度统计单元，用于统计得到微生物群体的相对丰度值。

10.根据权利要求7的装置，其特征在于，所述Solexa建库设备包括：DNA片段纯化单元，用于将所获得的DNA片段进行纯化；定量单元，用于对纯化后的DNA片段进行浓度定量；DNA片段修饰单元，用于在定量后不同样品取等浓度的量分别进行末端修复，在3’端加上碱基A，然后加上DNA片段标签序列DNA片段，再进一步加上PCR-Free的接头；修饰后产物纯化单元，用于对修饰后的DNA片段进行纯化。

11.根据权利要求7的装置，其特征在于，还包括测序序列筛选设备，用于在得到按照标签区分的测序序列后，对所述测序序列进行筛选，以过滤掉低质量的测序序列；所述低质量的测序序列选自以下序列中的任意一种或数种：接头污染序列，含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列。

12.根据权利要求7的装置，其特征在于，所述全长序列组装设备运用拼接软件，根据序列两端的重叠关系对测序序列进行拼接，将其组装成V3的全长序列；拼接的条件是最小匹配长度为5bp，重叠区域不允许错配，N所占最大百分比是0.4％；不满足以上结果的序列将各切除5bp继续组装，如此重复多次；如果最终的拼接结果小于50bp也不用于后续分析。