CN102477460A

CN102477460A - 对宏基因组16s高可变区v6进行测序聚类分析的方法

Info

Publication number: CN102477460A
Application number: CN2010105571190A
Authority: CN
Inventors: 刘晓; 周宏伟; 栗东芳
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2010-11-24
Filing date: 2010-11-24
Publication date: 2012-05-30
Also published as: WO2012068949A1

Abstract

本发明公开一种对宏基因组16S高可变区V6进行测序聚类分析的方法，该方法包括：提取微生物DNA；通过引物对宏基因组16S rDNA的高可变区V6进行PCR，并为每个样品加上标签序列；把不同样品的PCR产物进行混合；对混合后的PCR产物进行Solexa建库法建库；使用Solexa测序工具对高可变区V6的文库进行双末端pair-end测序，得到原始的测序数据；对测序数据进行筛选，以过滤掉低质量的数据；利用重叠群的关系对高可变区V6的全长序列进行组装；通过标签序列把reads分配到对应的样品上；通过对reads进行分类分析，以实现使用高可变区的测序对微生物群体进行高通量和精准的分类。

Description

对宏基因组16S高可变区V6进行测序聚类分析的方法

技术领域

本发明涉及微生物基因测序分析技术领域，尤其涉及一种对宏基因组16S高可变区V6进行测序聚类分析的方法。

背景技术

为了研究生物环境中微生物群体的种类，一般传统的方法包括：直接对微生物进行培养，变性梯度凝胶电泳(DGGE，DenaturingGradient Gel Electrophoresis)，末端限制性内切酶片段长度多态性(T-RFLP，Terminal Restriction Fragment Length Polymorphism)，荧光原位杂交(FISH，Fluorescence In Situ Hybridization)，对可能的微生物种类进行PCR(聚合酶链式反应，Polymerase Chain Reaction)；但这些方式都只能揭露环境中很小一部分微生物种类。如果能进行宏基因组的分析，通过直接对环境中的微生物群体进行基因组研究，得到一个比较全面的微生物种类目录，有助于对微生物群体的后续研究和应用。

由于原核生物中16S rRNA(核蛋白核糖核酸，ribosomal RNA(RiboNucleic Acid))的序列高度保守，可精确指示细菌之间的亲缘关系；16S rRNA的大小为1500bp(碱基对，Base Pair)左右，所含信息能反映生物界进化关系，易操作，适用于各级分类单元；所以在宏基因组的研究中，16S区测序是最常用的聚类和分类方法。传统的宏基因组的测序是通过Sanger技术测序16S rRNA gene(16S rDNA)得到至少500bp的读长，这个读长的长度足够长，能够装配出近乎完整的16SrDNA序列，帮助我们去精准地研究每一条序列的物种来源，但它容易产生嵌合体，而且测序成本比较高，费时又费力。

随着新开发出的测序技术以及测序成本的逐步降低，宏基因组的研究变得越来越实用，所涉及的技术包括Pyrosequencing、Solexa等。对于这些革命性的技术的一个主要挑战就是读长太短，无法对每个个体的16S rDNA进行测序，因而它的测序信息不足以让我们去精准地对微生物进行分类。

综上所述，提供一种更加准确地对微生物进行聚类分析的方法且方便快捷、成本低廉成为本领域亟待解决的技术问题。

发明内容

本发明要解决的一个技术问题是提供一种对宏基因组16S高可变区V6进行测序聚类分析的方法，通过对16S的高可变区V6区进行solexa测序，并通过对这些16S可变区的短序列进行系统分类，可以在成本低廉的基础上准确反映物种的丰度信息。

本发明的一个方面提供了一种对宏基因组16S高可变区V6进行测序聚类分析的方法，该方法包括：提取微生物的脱氧核糖核酸DNA；通过引物对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V6进行聚合酶链式反应PCR，并为每个样品加上标签序列；把不同样品的PCR产物进行混合；对混合后的PCR产物进行Solexa建库法建库；使用Solexa测序工具对高可变区V6的文库进行双末端pair-end测序，得到原始的测序数据；对测序数据进行筛选，以过滤掉低质量的数据；利用重叠群的关系对高可变区V6的全长序列进行组装；通过标签序列把reads分配到对应的样品上；通过对reads进行分类分析，以实现使用高可变区的测序对微生物群体进行高通量的分类。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，该方法还包括：在步骤“提取微生物的脱氧核糖核酸DNA”之前，执行微生物群体的取样。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，该方法还包括：在步骤“通过对reads进行分类分析”之后，对不同差异度的序列进行操作分类学单元OTU的分类；根据标签序列和reads，进行种群多样性估计Chao1算法和血管紧张素转化酶ACE的多样性分析。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，在进行种群多样性估计Chao1算法和血管紧张素转化酶ACE的多样性分析之后，输出微生物群体的多样性分析图和相对丰度图。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，步骤“通过引物对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V6进行聚合酶链式反应PCR，并为每个样品加上标签序列”进一步包括：使用引物967f：CNACGCGAAGAACCTTANC(Seq ID NO：1)和1406R：GACAGCCATGCANCACCT(Seq ID NO：2)去复制微生物群体中细菌的16S高可变区V6区片段；对每个微生物样品加标签序列，标签序列被加到引物967f的5’端的前面，以及在标签序列和引物967f之间加上碱基GT。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，该方法还包括：对于古生菌的高可变区V6的聚合酶链式反应PCR，使用引物958AR：AATTGGANTCAACGCCGG(Seq ID NO：3)和1048AR：CGRCGGCCATGCACCWC(Seq IDNO：4)。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，步骤“把不同样品的PCR产物进行混合”进一步包括：对16S的高可变区V6的PCR产物进行浓度定量；以及按照等摩尔的量混合在一起。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，步骤“对混合后的PCR产物进行Solexa建库法建库”进一步包括：把混合产物进行纯化，末端修复，在3’端加上碱基A，加上双末端Pair-end测序接头；加完接头后，对样品进行纯化；对纯化后的样品进行溶解，并作为模板进行聚合酶链式反应PCR扩增；以及对聚合酶链式反应PCR产物进行胶纯化。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，低质量的数据：与最邻近的引物不匹配的序列、小于50碱基对的序列，或者具有至少一个引起歧义碱基的序列。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，步骤“利用重叠群的关系对高可变区V6的全长序列进行组装”进一步包括：采用高可变区V6的PCR产物5’端的前75、70、65、60和55碱基对来进行重叠从而组装；其中，组装的标准是一对序列具有大于5个碱基对的重叠长度和在重叠区域小于10％的不匹配度。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，步骤“通过对reads进行分类分析”进一步包括：将分配到对应样品上的reads比对到现有16S v6数据库中，来达到使用高可变区的标签测序对微生物群体进行高通量的分类分析，进而研究微生物群体的结构。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法，采用结合了加标签技术的Solexa技术，对特定环境下的微生物群体进行了高通量测序，既减少了人力劳动也节省了经济花费，使得在研究微生物群落结构与健康、环境因子等等的关系上变得容易可行。

附图说明

图1示出本发明实施例提供的一种对宏基因组16S高可变区V6进行测序聚类分析的方法的流程图；

图2示出本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的另一个实施例的流程图；

图3示出不同环境下微生物群体在0.03和0.3的差异度情况下的OTUs的数量。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

图1示出本发明实施例提供的一种对宏基因组16S高可变区V6进行测序聚类分析的方法的流程图。

如图1所示，对宏基因组16S高可变区V6进行测序聚类分析的方法流程100包括：

步骤102，提取微生物的脱氧核糖核酸DNA。例如，采用Ultraclean Soil DNA kit试剂盒(MoBio，USA)从样品沉积物中提取微生物的DNA。

步骤104，通过引物对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V6(该区的两端各有20碱基对bp左右的保守区，中间的可变区为60-90bp左右)进行聚合酶链式反应PCR，并为每个样品加上标签序列。例如，使用引物967f：CNACGCGAAGAACCTTANC(SeqID NO：1)和1406R：GACAGCCATGCANCACCT(Seq ID NO：2)去复制微生物群体中细菌的16S高可变区V6区片段；并对每个微生物样品加标签序列，标签序列被加到引物967f的5’端的前面，以及在标签序列和引物967f之间加上碱基GT(即碱基G和T)。其中，标签序列可以是由8个碱基组成条形码序列，标签序列的设计要符合一定规则，比如碱基含量和不同碱基数目等，目的是防止因为个别测序错误等原因导致标签相互之间的混淆，例如可以参考美国专利申请US20100267043A1中公开的方法和原则。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个实施例中，对于古生菌的高可变区V6的聚合酶链式反应PCR，使用引物958AR：AATTGGANTCAACGCCGG(Seq IDNO：3)和1048AR：CGRCGGCCATGCACCWC(Seq ID NO：4)。

步骤106，把不同样品的PCR产物进行混合。例如，采用分光光度计(如Nanodrop)对16S的高可变区V6的PCR产物进行浓度定量，之后再按照等摩尔的量混合在一起。

步骤108，对混合后的PCR产物进行Solexa建库法建库。例如，把混合产物用QIAquick PCR purification Kit(Qiagen)进行纯化，末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端)，加“A”，加上Pair-end的接头(Pair-end library preparation kit，Illumina)；加完接头后，对样品进行纯化；对纯化后的样品进行溶解，并作为模板进行聚合酶链式反应PCR扩增(12cycles)；以及用(QIAquick gel extraction kit，Qiagen)对聚合酶链式反应PCR产物进行胶纯化(即点样电泳，在DNA位置切胶，用试剂盒纯化)。

步骤110，使用Solexa测序工具(如Illumina GA，illuminaGA2，illumina Hiseq2000，illumina Hiseq1000等)对高可变区V6的文库进行pair-end测序，得到原始的测序数据。例如，直接用IlluminaGA II(75bp pair-end策略)进行测序。Solexa测序仪(Illuminagenome analyzer)是新一代的高通量测序仪，测序价格低廉，数据读取量大，相同的测序量的情况下，Solexa测序费用是454测序费用的十分之一，而且错误率低(如单碱基测序错误率＜10^-5)，测序无偏性，对于宏基因组，可以真实反映物种的丰度信息。

步骤112，对测序数据进行筛选，以过滤掉低质量的数据。例如，低质量的数据选自以下序列中的任意一种：与最邻近的引物不匹配的序列、小于50碱基对bp的序列，或者具有至少一个引起歧义碱基的序列。

步骤114，利用重叠群的关系对高可变区V6的全长序列进行组装。例如，采用高可变区V6的PCR产物5’端的前75、70、65、60或55碱基对bp来进行重叠从而组装；其中，组装的标准可以是一对序列具有大于5bp的重叠长度，并且在重叠区域小于10％的不匹配度(即高于90％的匹配度)。

步骤116，通过标签序列把reads分配到对应的样品上。

步骤118，通过对reads进行分类分析，以实现使用高可变区的测序对微生物群体进行高通量的分类。例如，通过GAST软件将分配到对应样品上的reads比对到数据库16S v6数据库refhvr_V6中，来达到使用高可变区的标签测序对微生物群体进行高通量的分类分析，进而研究微生物群体的结构。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法，通过把16S高可变区的序列与rRNA数据库进行比较，在最好匹配的基础上进行分类。该分类方法在微生物群体的构成和多样化上都可以提供信息，其与16S测全长在微生物分类和测量群体的相对丰度上具有等同的技术效果；此外，本发明采用大量平行测序能够发现更多的稀有微生物种类。

进一步的，由于Solexa的读长为75bp左右，它的通量大，产出数据多，这种方法在探究微生物群落(包括稀薄生物圈)结构的变化上具有很好的成本效益。

图2示出本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的另一个实施例的流程图。

如图2所示，对宏基因组16S高可变区V6进行测序聚类分析的方法流程200包括：步骤201、202-218、219和220，其中步骤202-218、204、206和208可以分别执行与图1所示的步骤102-118相同或相似的技术内容，为简洁起见，这里不再赘述其技术内容。

如图2所示，在步骤202“提取微生物的脱氧核糖核酸DNA”之前，执行步骤201，微生物群体的取样。例如，从湖泊等水域中提取沉淀物作为取样样本。

在步骤218“通过对reads进行分类分析”之后，执行步骤219，对不同差异度的序列进行操作分类学单元(OTU)的分类。例如，利用v.1.6.0版本的Mothur软件(下载网址为http://www.mothur.org/wiki/Main_Page)，采用GAST-OTU策略对不同差异度的序列进行OTU的分类。

步骤220，根据标签序列和reads，利用Mothur.Canoco软件进行Chao1和血管紧张素转化酶(ACE，Angiotensin Converting Enzyme)的多样性分析。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法，尽管Solexa测得的16S高可变区V6的reads很短并不能包含足够的进化信息去推论出系统分类，但本发明利用搜索软件如GAST，Mothur软件等，通过比对每个样品的reads到数据库16S v6 regiondatabase refhvr_V6中，来达到使用高可变区的标签测序对微生物群体进行高通量的分类分析。总之，使用Solexa测序技术对微生物样本进行测序能够在通量、成本和有效的分类效果上达到很好的平衡，此外，本发明采用的测序技术结合了标签序列，在分辨率上大大提高，单个Run上Solexa(Illumina)能产生比454多100倍的reads。因此，仅仅通过测序16S rRNA V6区这么短的长度就能得到很好的分类效果，另外由于结合了标签技术，测的长度相对比较短，因而能够在单个Lane(Illumina高通量测序仪一张芯片有8个通道，每个通道被称为“lane”)上点更多的样，大大节约了每个样品的测序成本。

接下来详细描述本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法的一个具体实施方式。

步骤1、进行微生物群体的取样。

具体来说，分别提取深圳-北山水库沉积物、深圳-仙湖植物园沉积物、深圳-红树林沉积物、深圳-大梅沙沉积物、深圳-龙岗河沉积物、深圳-污水处理厂沉积物、深圳-东湖公园沉积物，总共65份样品。

步骤2、提取微生物样本的DNA。

具体来说，所有的沉积物的DNA都采用Ultraclean Soil DNA kit(MoBio，USA)从新鲜或深藏冷冻的沉积物样品中提取出来。

步骤3、使用特定的引物进行PCR扩增，同时对每一个样品加上一个序列标签。

具体来说，使用引物967f：CNACGCGAAGAACCTTANC(SeqID NO：1)和1406R：GACAGCCATGCANCACCT(Seq ID NO：2)去复制微生物群体中细菌的16S V6区片段。由于随后需要对所有微生物进行混合测序，可以对每个样品加一个标签序列，这个序列可以是由8个碱基组成的经过修正了错误的条形码序列，这个序列被加到引物967f的5’端的前面，在标签序列(条形码序列)和引物967f之间加了一个连接物“GT”。

此外，对于古生菌的V6区域的聚合酶链式反应PCR产物，可以使用引物958AR：AATTGGANTCAACGCCGG(Seq ID NO：3)和1048AR：CGRCGGCCATGCACCWC(Seq ID NO：4)，随后采用相同的方式对微生物样品加上条形码序列和“GT”连接物。

步骤4、样品的PCR产物混合并对混合的PCR产物使用优化的Solexa建库。

具体来说，对于加上条形码标签的16S V6区的PCR产物，采用分光光度计Nanodrop进行浓度的定量，然后按照等摩尔的量混合在一起。该具体实施方式中是将52个细菌V6的PCR产物和13个古生菌的V6的PCR产物共65个样品混合在一起。

把这些混合产物用试剂盒：QIAquick PCR purification Kit(Qiagen)进行纯化，末端修复，在3’端加上碱基A，加上双末端Pair-end测序接头(用试剂盒Pair-end library preparation kit，Illumina)。加完接头后，对样品进行纯化，用30μL的EB(洗脱液，Elution buffer)进行溶解。然后取1μL的溶液作为模板进行PCR扩增(12cycles)。使用试剂盒(QIAquick gel extraction kit，Qiagen)对PCR产物进行胶纯化。

步骤5、Solexa测序。具体来说，可以按照厂家Illumina的说明书直接用Illumina GA II进行测序(75bp pair-end策略，即读长为75个碱基的双末端测序)，如表1所示。

表1样品名-标签序列-Solexa reads

步骤6、得到原始的测序数据后，过滤掉那些低质量的数据。具体来说，去掉那些和最邻近的引物不匹配的序列，小于50bp的序列，或者有一个或多个不同碱基的序列，如表2所示。

表2宏基因组数据

Item	Reads数量	产出数据(Mb)	中间长度(bp)
				Raw data(pared end)	5,573,489	836	75
Overlapped read^*	4,278,321	469	99
				Mismatch＜＝1^*	3,983,966	435	99
Remove primer(＞＝50)^*	3,971,233	247	60
				Unique read^*	1,282,197	80	60

*这些数据是用60bp的长度来找重叠群的(容许0和1个错配的情况下)

步骤7、利用重叠群的关系来组装V6的全长序列。

具体来说，通过所述Pair-end的reads重叠区来组装高可变区V6的序列。PCR产物的平均长度为100bp，每一条标签序列都是在两端侧75bp的长度；由于Solexa测序的质量在3’端是逐渐下降的，所以可以采用5’端的前75、70、65、60和55bp来进行重叠从而组装V6的全长序列。一对序列连接的标准是大于5bp的重叠长度和在重叠区域小于10％的不匹配度。在不匹配位点上的碱基读取(Base calling)是取决于两端的测序质量。

步骤8、通过条形码标签序列把reads都对应到相应的样品上。

步骤9、对样品里的微生物群体进行分类，具体来说，把每个样品的reads比对到16S v6数据库refhvr V6中，然后采用GSAT算法计算差异度。

步骤10、执行OTU(operational taxonomic unit)的分类，例如采用GAST-OTU的策略(即使用GAST算法来计算OTU的策略)对不同差异度的序列进行OTU的分类。本具体实施方式中得到了大于370万的标签序列和68万的精确reads(即完美匹配的)，利用软件mothur(v.1.6.0)分类到OTUs上；其中软件mothur(v.1.6.0)的下载途径为http://www.mothur.org/wiki/Main_Page。

步骤11、数据分析。

具体来说，采用Mothur.Canoco(v4.5)软件进行Chao1，血管紧张素转化酶(ACE，Angiotensin Converting Enzyme)多样性分析等，如表3和表4所示。从而得到微生物群体的多样性分析图和相对丰度图等等。

表3特定环境下的多样性评价

	总数	北山水库	东湖公园	红树林	大梅沙
						Total read^*	3,784,160	1,108,095	1,336,272	634,206	705,587
Unique read	690,165	257,001	228,101	144,295	137,997
						Chao1(unique)	2,741,424	1,042,174	908,315	586,965	546,947
ACE(unique)	1,412,011	543,040	465,401	296,913	278,933
						Chao1(0.03)	367,705	159,544	155,984	94,804	92,710
ACE(0.03)	313,992	125,633	116,585	72,948	71,445

*这些reads来自于60bp的重叠群(容许0和1个错配)

在使用精准的V6标签序列进行分类时，通过ACE和Chao1分类显示特定环境中极其丰富的物种多样性，我们的数据也支持了之前的观点：每克土壤中有成百万的细菌。一个完整的结合有条形码标签技术的Solexa run能产生1亿的标签序列，这将使通过测序来探究环境中细菌多样性变得越来越实用。

表4在特定的沉积物中常见的属和丰度高的属的分析

*引证数据的数量由Google学术里引证数量而来(2009.11.18)；#NA代表不确定或者很难由Google学术搜索到。

如图3所示，稀疏曲线显示了北山水库4，仙湖植物园1和大梅沙8的沉积物在unique(一种评价差异度的算法)为0.03和0.3的差异度的情况下的OTUs的数量。北山水库沉积物有最大的物种多样性和均匀性，大梅沙海水沉积物的微生物多样性是最低的。在纲水平的分类结构中，水库淡水沉积物显示了比其他环境有更多的分布多样性，研究表明大约27％水库淡水沉积物，20％东湖公园沉积物，17％的大梅沙海洋沉积物的序列以前没有被分类定义过，这表明在淡水环境中有更多未开发的稀有物种。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法，采用结合了加标签技术的Solexa技术，对特定环境下的微生物群体进行了高通量测序，在单个的Lane中我们测了来自65个样品的大约400万个16S rRNA V6标签序列。在特定的北山水库，东湖公园，红树林和大梅沙海水沉积物的环境中，不同标签序列的数量分别是257,001，228,101，144,295和137,997个，预估的多样性达到了100万。其中，北山水库沉积物有最高的物种多样性和均一性。由此可见Solexa测序16S rRNA v6可变区对微生物群体进行分类的方法是经济节约型的，既减少了人力劳动也节省了经济花费，使得在研究微生物群落结构与健康，环境因子等等的关系上变得容易可行。此外，不管是总共的reads还是0个错配的reads数量都比以前报道的测序16S标签序列的数量高。690,165个精准v6标签序列的数量比Ribosomal Database Projectrelease 10.15数据库中的高大约630,000个。

参考前述本发明示例性的描述，本领域技术人员可以清楚的知晓本发明具有以下优点：

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法，仅仅用高变区v6测序来对样品中的微生物进行分类，这种方法在分类和测量微生物群体的相对丰度上显示了很好的效果，甚至在可变区V6区序列与它们最近的参考序列有一定差异的情况下同样能够达到很好的效果。结果显示通过测V6可变区进行微生物种类的分析，不仅可以测到主要的那些微生物，还可以测到更多的稀有微生物。通过测序SSU rRNA的V6可变区发现微生物的多样性不仅仅局限于以前按照表型来分类的伯吉分类法，而且微生物群体也远比想象中的复杂。此外，在开发微生物群体的多样性和相对丰度上，大量平行Solexa测序V6可变区序列有超越其他技术很多的优势。通过对可变区测序的进一步研究发现它有许多超越其他测序的优点，比如微生物多样性的相对水平，序列的长度，同聚物的密度，能够识别到种水平的能力，或适应不同扩增引物的优点。

本发明提供的对宏基因组16S高可变区V6进行测序聚类分析的方法，V6可变区Solexa测序能够产生与传统的全长SSU rRNA测序相似的分类法和相对丰度值，但由于它的序列比较短，同样一个run，它能提供更多样品的reads，识别更多的微生物，比传统的全长SSU rRNA测序每个read花费更少。随着技术的进步，产生更多的Reads数据和更长的序列，Solexa测序将提供更广阔的机会给可变区测序分类微生物，比如长测序，可变区域的应用，各种各样可变区的结合，或者更深的测序深度。可变区标签测序的最大优势在于它应用了大量平行Solexa测序的优势，比原先所达到的大好几个数量级的测序深度和宽度，促进了微生物群体和稀有生物圈广阔多样性的开发。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。本发明中描述的功能模块以及功能模块的划分方式仅为说明本发明的思想，本领域技术人员根据本发明的教导以及实际应用的需要可以自由改变功能模块的划分方式及其模块构造以实现相同的功能；选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种对宏基因组16S高可变区V6进行测序聚类分析的方法，其特征在于，所述方法包括：

提取微生物的脱氧核糖核酸DNA；

通过引物对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V6进行聚合酶链式反应PCR，并为每个样品加上标签序列；

把不同样品的PCR产物进行混合；

对混合后的PCR产物进行Solexa建库法建库；

使用Solexa测序工具对所述高可变区V6的文库进行双末端pair-end测序，得到原始的测序数据；

对所述测序数据进行筛选，以过滤掉低质量的数据；

利用重叠群的关系对所述高可变区V6的全长序列进行组装；

通过标签序列把reads分配到对应的样品上；

通过对所述reads进行分类分析，以实现使用所述高可变区的测序对微生物群体进行高通量的分类。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在步骤“提取微生物的脱氧核糖核酸DNA”之前，执行微生物群体的取样。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：在步骤“通过对所述reads进行分类分析”之后，对不同差异度的序列进行操作分类学单元OTU的分类；

根据所述标签序列和reads，进行种群多样性估计Chao1算法和血管紧张素转化酶ACE的多样性分析。

4.根据权利要求3所述的方法，其特征在于，在进行种群多样性估计Chao1算法和血管紧张素转化酶ACE的多样性分析之后，输出微生物群体的多样性分析图和相对丰度图。

5.根据权利要求1所述的方法，其特征在于，步骤“通过引物对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V6进行聚合酶链式反应PCR，并为每个样品加上标签序列”进一步包括：

使用引物967f：CNACGCGAAGAACCTTANC和1406R：GACAGCCATGCANCACCT去复制微生物群体中细菌的16S高可变区V6区片段；

对每个微生物样品加标签序列，所述标签序列被加到所述引物967f的5’端的前面，以及在所述标签序列和所述引物967f之间加上碱基GT。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

对于古生菌的高可变区V6的聚合酶链式反应PCR，使用引物958AR：AATTGGANTCAACGCCGG和1048AR：CGRCGGCCATGCACCWC。

7.根据权利要求1所述的方法，其特征在于，步骤“把不同样品的PCR产物进行混合”进一步包括：

对所述16S的高可变区V6的PCR产物进行浓度定量；以及按照等摩尔的量混合在一起。

8.根据权利要求1所述的方法，其特征在于，步骤“对混合后的PCR产物进行Solexa建库法建库”进一步包括：

把混合产物进行纯化，末端修复，在3’端加上碱基A，加上双末端Pair-end测序接头；

加完接头后，对样品进行纯化；

对纯化后的样品进行溶解，并作为模板进行聚合酶链式反应PCR扩增；以及

对所述聚合酶链式反应PCR产物进行胶纯化。

9.根据权利要求1所述的方法，其特征在于，所述低质量的数据包括：与最邻近的引物不匹配的序列、小于50碱基对的序列，或者具有至少一个不同碱基的序列。

10.根据权利要求1所述的方法，其特征在于，步骤“利用重叠群的关系对所述高可变区V6的全长序列进行组装”进一步包括：

采用所述高可变区V6的PCR产物5’端的前75、70、65、60和55碱基对来进行重叠从而组装；其中，组装的标准是一对序列具有大于5碱基对的重叠长度和在重叠区域小于10％的不匹配度。

11.根据权利要求1所述的方法，其特征在于，步骤“通过对所述reads进行分类分析”进一步包括：

将分配到对应样品上的所述reads比对到现有16s v6数据库中，来达到使用高可变区的标签测序对微生物群体进行高通量的分类分析，进而研究微生物群体的结构。