CN107292123A - 一种基于高通量测序的微生物群落组成的方法和装置 - Google Patents

一种基于高通量测序的微生物群落组成的方法和装置 Download PDF

Info

Publication number
CN107292123A
CN107292123A CN201610195772.4A CN201610195772A CN107292123A CN 107292123 A CN107292123 A CN 107292123A CN 201610195772 A CN201610195772 A CN 201610195772A CN 107292123 A CN107292123 A CN 107292123A
Authority
CN
China
Prior art keywords
sequence
full length
dna fragmentation
sequencing
otu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610195772.4A
Other languages
English (en)
Inventor
朱永亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Puruisen Gene Technology Co Ltd
Original Assignee
Suzhou Puruisen Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Puruisen Gene Technology Co Ltd filed Critical Suzhou Puruisen Gene Technology Co Ltd
Priority to CN201610195772.4A priority Critical patent/CN107292123A/zh
Publication of CN107292123A publication Critical patent/CN107292123A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment

Abstract

本发明公开一种基于16S rRNA基因高可变区V1/V2的微生物群落组成的方法和装置。该方法包括:提取微生物样品中的DNA,对样品中DNA的16S rRNA的高可变区V1/V2分别进行进行PCR扩增;对扩增产物进行Solexa建库,同时在建库过程中通过加上带有标签序列的接头,对每个样品进行标记;将带有标签序列的不同样品进行混合,混合后使用Solexa测序工具进行测序,得到按照标签区分的原始的测序序列读长(reads);利用读长的重叠关系组装得到高可变区V1/V2或V6的全长序列全长序列(unique reads);对全长读长进行序列相似度的比较分析,以实现对样品中微生物的分类及相对丰度的计算。本发明的方法和装置,对微生物群落的组成分析准确。

Description

一种基于高通量测序的微生物群落组成的方法和装置
技术领域
本发明涉及生物信息学分析技术领域,尤其涉及一种微生物基因组16SrRNA高可变区V6区域的分类方法和装置。
背景技术
为了微生物群体的种类及丰度的传统方法包括:直接对微生物进行培养,变性梯度凝胶电泳、末端限制性内切酶片段长度多态性、焚光原位杂交、对可能的微生物种类进行PCR(聚合酶链式反应);但这些方式都只能揭露环境中很小一部分微生物种类。如果能进行宏基因组的分析,通过直接对环境中的微生物群体进行基因组研究,得到一个比较全面的微生物种类目录,将有助于对微生物群体的后续研究和应用。
原核生物中16S rRNA(核蛋白核糖核酸,ribosomal RNA)的序列一方面在整体上高度保守,同时含有种间差异的高变异区(V1-V7),因此该基因医疗可精确指示细菌之间的亲缘关系及其进化关系,易操作,适用于各级分类单元;所以在微生物基因组的研究中,16SrRNA测序是最常用的聚类和分类方法。但传统的基因测序是通过Sanger技术测定16S rRNA基因序列,这个技术一般得到至少500bp的读长,能帮助我们去精准地研究每一条序列的物种来源,但它容易产生嵌合体,而且测序成本比较高,费时又费力。
随着新开发出的测序技术以及测序成本的逐步降低,基因组的研究变得越来越实用,所涉及的技术包括Pyrosequencing、Solexa等。对于这些革命性的技术的一个主要挑战就是读长太短,无法对每个个体的16S rRNA进行测序,因而它的测序信息不足以让我们去精准地对微生物进行分类。但测定16S rRNA的变异区可用来来对微生物进行分类,通过设计特定的通用引物对16S可变区进行特定的PCR(聚合酶链式反应,Polymerase Chain Reaction),然后用测序仪测序,建立在这种方法上的系统树显示了很好的生物多样性,但它的测序成本高,虽然是传统毛细管测序法费用的1/10,但却是其他新一代测序仪测序费用的10倍左右。
综上所述,提供一种更加准确地对微生物进行聚类分析的方法且方便快捷、成本低廉成为本领域亟待解决的技术问题。
发明内容
本发明要解决的一个技术问题是提供一种基于16S rRNA基因高可变区V6的微生物分类方法和装置,通过对16SrRNA的高可变区V6区进行Solexa测序,并通过对这些16S rRNA可变区的短序列进行系统分类,可以在成本低廉的基础上准确反映物种的丰度信息。
本发明的第一方面提供了一种基于16S rRNA基因高可变区V6的分类方法,该方法包括:提取微生物样品中的脱氧核糖核酸(DNA);对提取DNA的宏基因组16S rRNA核糖体核糖核酸(rRNA)的高可变区(V6)进行扩增,得到作为扩增产物的DNA片段;对DNA片段进行PCR-Free Solexa建库,建库过程中在DNA片段上加上标签序列以对每个样品进行标记;将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的 DNA片段进行测序,得到按照标签区分的测序读长;利用读长的重叠关系组装得到高可变区V6的全长序列;对全长序列进行分类分析,以实现对微生物群体的分类。
优选地,该方法还包括:在步骤“提取微生物样品中的脱氧核糖核酸DNA”之前,执行微生物群体的取样。
优选地,所述对全长序列进行分类分析包括:计算全长序列序列差异度;根据序列差异度执行操作分类学单元OTU的分类,将全长序列(Unique reads)分配到OTU中;将每一个OTU分类中的全长序列比对到16S rRNA的V6数据库中,将比对结果根据众数原则对OTU进行物种注释。
优选地,根据序列差异度执行操作分类学单元(OTU)的分类是指根据本领域公知的OTU分类中“种”水平之间的差异度将全长序列分配到相应的OTU中。在本发明的一个实施方案中,将序列差异度在3%以内的全长序列(unique reads)分配到一个OTU中。
优选地,将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66%以上的比对结果均为同一个物种,则将该OTU注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。
优选地,该方法还包括:在步骤“对全长序列进行分类分析”之后,基于分类分析结果,进行种群多样性分析和/或统计得到微生物群体的相对丰度值。
优选地,步骤“对宏基因组16S rRNA的高可变区V6进行扩增”是指利用本领域公知的方法扩增DNA序列,在本发明的一个实施方案中,采用聚合酶链式反应(PCR)扩增16S rRNA的高可变区V1/V2,所述PCR反应的引物为引物27F:AGA GTT TGA TCM TGG CTC AG和337R:GCTGCCTCCCGTAGGAGT。
优选地,步骤“对DNA片段进行PCR-Free Solexa建库,建库过程中在DNA片段上加上标签序列,对每个样品进行标记”进一步包括:将所述DNA片段进行纯化,对纯化后的DNA片段进行浓度定量,定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上标签序列,再进一步加上PCR-Free的接头,最后对样品进行纯化。
优选地,在得到按照标签区分的原始的测序读长(reads)后,还包括对所述测序序列进行筛选的步骤,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的N的序列;
优选地,步骤“利用读长的重叠关系组装得到高可变区V1/V2的全长序列(unique reads)是指按照本领域公知的条件进行序列的拼接,例如运用拼接软件,根据序列两端的重叠关系对读长进行拼接,将其组装成V1/V2的全长序列。在本发明的一个实施方案中,拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,重叠区域N所占最大百分比是0.4%;为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次,最终产生的就是V1/V2的序列,如果最终的拼接结果小于50bp也不用于后续分析。
本发明的第二方面提供了一种基于宏基因组16SrRNA高可变区V1/V2的分类装置,所述装置包括:脱氧核糖核酸DNA提取设备,用于提取微生物样品中的脱氧核糖核酸DNA;扩增设备,用于对宏基因组16S rRNA的高可变区V1/V2进行扩增,得到作为扩增产物的DNA片段;Solexa建库设备,用于对DNA片段进行PCR-Free Solexa建库,建库过程中在DNA片段上加上标签序列,对每个样品进行标记;Solexa测序设备,将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的原始的测序读长(reads);全长序列组装设备,用于利用读长r的重叠关系组装得到高可变区V1/V2的全长序列(unique reads);分类设备,用于对全长序列进行分类分析,以实现对微生物群体的分类。
优选地,该装置还包括取样设备,用于执行微生物群体的取样。
优选地,分类设备包括:序列差异度计算单元,用于计算全长序列之间的序列差异度;OTU分类单元,用于根据序列差异度执行操作分类学单元OTU的分类,将全长序列(unique reads)分配到OTU中;物种注释单元,用于将每一个OTU分类中的全长序列比对到16S rRNA的V1/V2数据库中,将比对结果根据众数原则对OTU进行物种注释。
优选地,根据序列差异度执行操作分类学单元(OTU)的分类是指根据本领域公知的OTU分类中“种”水平之间的差异度将全长序列分配到相应的OTU中。在本发明的一个实施方案中,将序列差异度在3%以内的全长序列分配到一个OTU中。
优选地,将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66%以上的比对结果均为同一个物种,则将该OTU注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。
优选地,还可以包括数据分析设备,用于在对全长序列进行分类分析之后,对所得到的数据结果进行进一步分析;所述数据分析设备包括种群多样性分析单元,用于分析种群多样性;和/或相对丰度统计单元,用于统计得到微生物群体的相对丰度值。
优选地,对宏基因组16S核糖体脱氧核糖核酸rDNA的高可变区V1/V2进行扩增是指利用本领域公知的方法扩增DNA序列,在本发明的一个实施方案中,采用聚合酶链式反应(PCR)扩增16S rDNA的高可变区V1/V2,所述PCR反应的引物为引物27F:AGA GTT TGA TCM TGG CTC AG和337R:GCTGCCTCCCGTAGGAGT。
优选地,Solexa建库设备包括:DNA片段纯化单元,用于将所获得的DNA片段进行纯化;定量单元,用于对纯化后的DNA片段进行浓度定量;DNA片段修饰单元,用于在定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上标签序列,再进一步加上PCR-Free的接头;修饰后产物纯化单元,用于对修饰后的DNA片段进行纯化。
优选地,还包括测序序列筛选设备,用于在得到按照标签区分的原始的测序读长(reads)后,对所述测序序列进行筛选,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(A|T|C|G)的序列、以 及含有连续2个以上的N的序列。
优选地,所述全长序列组装设备按照本领域公知的条件进行序列的拼接,例如运用拼接软件,根据序列两端的重叠关系对读长(reads)数据进行拼接,将其组装成V1/V2的全长序列(unique reads)。在本发明的一个实施方案中,拼接的条件是最小匹配长度为^p,重叠区域不允许错配,重叠区域N所占最大百分比是0.4%;为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次,最终产生的就是V1/V2的序列,如果最终的拼接结果小于50bp也不用于后续分析。
本发明提供的基于宏基因组16S rRNA高可变区V1/V2的分类方法,采用结合了加标签技术的Solexa技术,对特定环境下的微生物群体进行了高通量测序,既减少了人力劳动也节省了经济花费,使得在研究微生物群落结构与健康、环境因子等的关系上变得容易可行。
具体实施方式
现在来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,所指明的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的描述中表示类似项,因此,一旦某一项在一个处被定义,则在随后的描述中不需要对其进行进一步讨论。
下面介绍几个本发明技术方案涉及的概念。
微生物群落组成是指特定环境中全部微小生物的种类及其相对丰度(个数多少)的总和。它包含了可培养的和未可培养的微生物的基因,目前主要指环境样品中的细菌和真菌的基因组总和。
PCR-Free Solexa建库是指对PCR产物进行纯化,然后进行浓度定量。不同样品取等浓度的量分别进行末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端),然后加上碱基“A”,再加上PCR-Free的接头,加完接头后,对样品进行纯化。所述PCR-Free的接头是指测序用的引物序列。
标签序列(barcode)是指加在引物5’端前面的一段碱基序列,用于区分不同的样本。标签序列可以是由6个碱基组成条形码序列,标签序列的设计要符合一定规则,比如碱基含 量和不同碱基数目等,目的是防止因为个别测序错误等原因导致标签相互之间的混淆,例如可以参考美国专利申请US20100267043A1中公开的方法和原则。
读长(Reads)是指Solexa测序后产生的测序片段的序列,也称为测序序列。
全长序列(Unique read s)是指读长(Read s)经过拼接后产生的V1/V2的全长序列。全长序列的数目是指将序列相同的全长序列合并后得到的全长序列数。
序列差异度是指两条序列比对时不同碱基的个数所占的百分比。
下面是分析样品中微生物群落组成的详细步骤。
步骤一,提取样品中的脱氧核糖核酸DNA。例如,采用Ultraclean Soil DNA kit试剂盒(MoBio,USA)从样品沉积物中提取微生物的DNA。
步骤二,对样品中微生物的16S核糖体脱氧核糖核酸rDNA的高可变区V1/V2进行扩增,得到作为扩增产物的DNA片段。例如利用聚合酶链式反应PCR,使用引物27F:AGA GTT TGA TCM TGG CTC AG和337R:GCTGCCTCCCGTAGGAGT去扩增微生物群体中细菌的16S高可变区V1/V2区片段。
步骤三,对获得的DNA片段进行PCR-Free Solexa建库法建库,建库过程中在DNA片段上加上标签序列,对每个样品进行标记。例如,把PCR产物用QIAquick PCR purification Kit(Qiagen)进行纯化,用分光光度计对所述16S的高可变区V1/V2的PCR产物进行浓度定量。不同样品取等浓度的量分别进行末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端),加“A”,加上标签序列,再加上PCR-Free的接头(I^ir-end library preparation kit,Illumina);加完接头后,对样品进行纯化(用1.8x ampureXP磁珠进行纯化)。有些试剂盒中PCR-Free的接头是带有标签序列的接头,这样可以将加标签序列和加作为引物的接头一步完成。
步骤四,将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的原始的测序序列reads。例如,直接用Illumina GA II(150bp pair-end策略)进行测序。Solexa测序仪(Illumina genome analyzer)是新一代的高通量测序仪,测序价格低廉,数据读取量大,相同的测序量的情况下,Solexa测序费用是妨4测序费用的十分之一,而且错误率低(如单碱基测序错误率<10_5),测序无偏性,对于宏基因组,可以真实反映物种的丰度信息。而且得到的测序结果是已根据标签序列进行区分的测序读长reads。
步骤五,利用读长reads的重叠关系组装得到高可变区V1/V2的全长序列(unique reads)例如,运用拼接软件对reads数据进行拼接,得到拼接的结果。通过序列两端的重叠关系将两端测序得到的序列组装成V1/V2的全长序列unique reads。拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,N所占最大百分比是0.4%。为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次。最终产生的就是V1/V2的序列。如果最终的拼接结果小于50bp也不用于后续分析。所述拼接软件可以为merger、CABOG、ARACHNE、RePS.phrap及newbler等软件,在本发明的一个实施例中,应用了merger拼接 软件。根据标签序列即可以把全长序列分配到对应的样品上。
步骤六,对全长序列(unique reads)进行分类分析,以实现对微生物群体进行高通量的分类。本发明采用结合了标签技术的Solexa技术,分辨率大大提高,单个Rim上Solexa(Illumina)能产生比妨4多100倍的reads,因此,仅仅通过测序这么短的长度就能得到很好的分类效果,另外由于结合了标签技术,能够在单个Lanedllumina高通量测序仪一张芯片有8个通道,每个通道被称为“lane”)上点更多的样,大大节约了每个样品的测序成本。
步骤七,对全长序列进行分类分析的基本思想为根据全长序列的序列差异度将其分配到各个OTU中,再将每一个OTU中的序列比对到16S rDNA的V1/V2数据库中,得到每一个OTU的物种分类。
步骤八,计算全长序列unique reads之间的序列差异度。根据序列差异度执行操作分类学单元OTU的分类,将unique reads分配到OTU中。分配到OTU的软件可以例如为Mothur、RDP classifier、qiime等软件,在本发明中采用Mothur软件,其版本为v.1.6.0,下载网址为http://www.mothur.orR/wiki/MainPage0。一般情况下,将序列差异度在3%以内的全长序列分配到一个OTU中。
步骤九,将每一个OTU分类中的全长序列unique reads比对到16S rDNA数据库中,将比对结果根据众数原则对OTU进行物种注释。
在本发明的一个具体实施例中,将比对结果根据众数原则对OTU进行物种注释是指如果一个OTU中66%以上的比对结果均为同一个物种,则将该OTU注释为该物种;如果未达到该比例,则将物种分类信息上移一个水平(例如从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。
本发明首先根据序列的差异度进行聚类分析,将拼接后得到的全长序列按照种的水平分配到不同的OTU中,再将OTU中的序列比对到16SrDNA V1/V2数据库中,在最好匹配的基础上进行物种的分类,实现了对复杂微生物样品的准确注释;而且采用大量平行测序能够发现更多的稀有微生物种类。
另外,在对全长序列unique reads进行分类的基础上,还可以基于分类分析结果,进行群多样性分析和/或统计得到微生物群体的相对丰度值。
在本发明的一个实施方案中,利用Mothur Canoco软件进行Chaol分析,计算样品OTU的alpha多样性,可以得到该环境样品的物种丰富度;同时,对比对后得到的物种注释结果进行统计,可以得到各种微生物的相对丰度。其与16S测全长序列在微生物分类和测量群体的相对丰度上具有等同的技术效果。
接下来是一个一个具体实施方式。
步骤1、收集苏州大学附属医院肠道样品共15个样本。提取微生物样本的基因组DNA。所有样本的DNA都采用Ultraclean Soil DNA kit(MoBio,USA)从肠道样品中提取出来。
步骤2、使用特定的引物进行PCR扩增。具体来说,使用引物27F:AGA GTT TGA TCM TGG CTC AG和337R:GCTGCCTCCCGTAGGAGT去扩增微生物群体中细菌的16S高可变区 V1/V2区片段。
步骤3、对PCR产物进行PCR-Free Solexa建库法建库。具体来说,把PCR产物用QIAquick PCR purification Kit(Qiagen)进行纯化,用分光光度计对所述16S的高可变区V1/V2的PCR产物进行浓度定量。20个样本取等浓度的量分别进行末端修复(即通过酶反应使所有DNA双链的粘性末端成为平末端),接着3′端加“A”,然后3′端加上标签序列,再在3′端力口上PCR-Free的接头(Pair-end library preparation kit,Illumina);加完接头后,对样品进行纯化(用1.8x ampureXP磁珠进行纯化)。用12μL的EB(洗脱液,Elution buffer)进行溶解。
步骤4、Solexa测序。具体来说,可以按照厂家说明书直接用Iumina GA II进行测序(150bp pair-end策略,即读长为150个碱基的双末端测序),得到原始的测序读长reads。而且这些读长reads已根据标签序列进行了区分。
步骤5、得到原始的测序数据后,过滤掉那些低质量的数据。具体来说,低质量的数据是指接头污染序列,含有多个poly(A I T I CIG)的序列、以及含有连续2个以上的N的序列;如表2所示。接头污染序列的判断标准为:若读长reads与接头序列可以连续比对上15bp的长度,则认为该reads有接头污染。含有多个poly(A|T|C|G)的序列,即低复杂度序列的判断标准为:若读长reads中poly(A|T|C|G)序列的长度为10bp,则为低复杂度序列的读长reads。
步骤6、利用读长(Reads)的重叠关系来组装V1/V2的全长序列。具体来说,通过所述Pair-end的reads重叠区来组装高可变区V1/V2的序列。运用merger拼接软件(http://emboss,sourceforge.net/apps/release/6.2/emboss/apps/merger,html)对读长reads数据进行拼接,得到拼接的结果,即通过重叠关系将两条两端测序得到的序列组装成一条序列。拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,重叠区域N所占最大百分比是0.4%。为了更多的利用序列,不满足以上结果的序列将各切除5bp继续组装,如此重复多次。最终产生的就是V1/V2的全长序列。如果最终的拼接结果小于50bp也不用于后续分析。利用Mothur所带unique程序去冗余,统计就能得到全长序列unique reads的个数。所述去冗余是指将序列相同的全长序列合并为一条。通过条形码标签序列把全长序列都对应到相应的样品上。
步骤7、执行OTU(operational taxonomic unit,操作分类学单元)的分类。使用BLAST软件对样品的全长序列(unique reads)进行差异度计算,根据全长序列之间的差异,利用Mothur(mothur(v.1.6.0)http://www.mothur.org/wiki/Main_Page)对unique reads进行OTU分类。差异度在3%以内(相当于分类水平中“种”的水平)的unique reads被聚为一个OTU。
步骤8、对各OTU进行物种注释。使用BLASTN将OTU中的Tags序列比对到16S rDNA数据库refhvr_V1/V2(http://vamps,mbl.edu/resources/databases,php)中。将得到的Blast结果根据众数原则,对OUT进行注释,如果一个OTU中66%(三分之二)的比对结果均为同一个物种,则将该OTU注释为该物种。如果未达到该比例,则将物种分类信息上移一个水平(从“种”上移到“属”,或从“属”继续上移到“科”)再进行统计,直到达到66%的比例标准为止。
步骤9、数据分析。具体来说,基于步骤8的OTU分类的结果,采用Mothur.软件进行Chaol,即群落内的多样性分析,计算样品OTU的alpha多样性。Alpha多样性是一个环境中物种的多样性分析的结果。aiarmon,npsharmon模型计算的结果越大表示该环境的物种越丰富。Simpson模型的结果越接近于0表示物种越丰富,结果如表3所示。同时对步骤9中得到的OTU注释结果进行统计,得到表4所示的微生物群体的相对丰度值。并根据各样品的OTU数量及其序列总数量绘制其稀释(Rarefaction)曲线。
表1,各样品经Solexa测序得到的读长及全长序列数目。
样品名称 测序读长(reads)数目 全长序列数目
肠道样品1 800,000 75,234
肠道样品2 800,000 84,234
肠道样品3 800,000 69,034
肠道样品4 800,000 76,452
肠道样品5 800,000 89,739
肠道样品6 800,000 87,192
肠道样品7 800,000 98,034
肠道样品8 800,000 87,391
肠道样品9 800,000 57,298
肠道样品10 800,000 66,98l
肠道样品11 800,000 69,820
肠道样品12 800,000 76,892
肠道样品13 800,000 79,801
肠道样品14 800,000 82,103
肠道样品15 800,000 83,296
表2,各样品Alpha多样性指数。
部分样品里结果代表性微生物种的相对丰度。

Claims (12)

1.一种对微生物16S rRNA基因高可变区V1/V2进行高通量测序聚类分析的方法,其特征在于,该方法包括:提取微生物样品中的脱氧核糖核酸(DNA);对提取DNA的宏基因组16S核糖体核糖核酸(rRNA)的高可变区V6进行扩增,得到作为扩增产物的DNA片段;对DNA片段进行PCR-Free Solexa建库,建库过程中在DNA片段上加上标签序列以对每个样品进行标记;将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的测序读长(reads);利用测序序列的重叠关系组装得到高可变区V6的全长序列(unique reads);对全长序列进行分类分析,以实现对微生物群体的分类。
2.根据权利要求1所述的方法,其特征在于,所述对全长序列进行分类分析包括:计算全长序列之间的序列差异度;根据序列差异度执行操作分类学单元(OTU)的分类,将全长序列分配到OTU中;将每一个OTU分类中的全长序列比对到16S rRNA的V6数据库中,将比对结果根据众数原则对OTU进行物种注释。
3.根据权利要求1所述的方法,其特征在于,该方法还包括:在对测序序列进行分类分析之后,基于分类分析结果,进行种群多样性分析和/或统计得到微生物群体的相对丰度值。
4.根据权利要求1所述的方法,其特征在于,所述对DNA片段进行PCR-Free Solexa建库进一步包括:将所述DNA片段进行纯化;对纯化后的DNA片段进行浓度定量;定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上标签序列,再进一步加上PCR-Free的接头;对得到的样品进行纯化。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:在得到按照标签区分的测序序列后,对所述测序序列进行筛选,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(A|T|C|G)的序列、以及含有连续2个以上的未确定核苷酸(N)的序列。
6.根据权利要求1所述的方法,其特征在于,所述的利用测序序列的重叠关系组装得到高可变区V6的全长序列进一步包括:运用拼接软件,根据序列两端的重叠关系对读长进行拼接,将其组装成V6的全长序列;拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,N所占最大百分比是0.4%;不满足以上结果的序列将各切除5bp继续组装,如此重复多次;如果最终的拼接结果小于50bp也不用于后续分析。
7.一种基于16S rRNA基因高可变区V6的分类装置,所述装置包括:DNA提取设备,用于提取微生物样品中的脱氧核糖核酸;扩增设备,用于对宏基因组16S rRNA的高可变区V6进行扩增,得到作为扩增产物的DNA片段;Solexa建库设备,用于对DNA片段进行PCR-Free Solexa建库,建库过程在DNA片段上加上标签序列以对每个样品进行标记;Solexa测序设备,将各个样品的带有标签序列的DNA片段进行混合,使用Solexa测序工具对混合后的DNA片段进行测序,得到按照标签区分的测序读长(reads);全长序列组装设备,用于利用测序序列的重叠关系组装得到高可变区V6的全长序列(unique reads);分类设备,用于对全长序列进行分类分析,以实现对微生物群体的分类。
8.根据权利要求7的装置,其特征在于,所述分类设备包括:序列差异度计算单元,用于计算全长序列之间的序列差异度;OTU分类单元,用于根据序列差异度执行操作分类学单元OTU的分类,将全长序列分配到OTU中;物种注释单元,用于将每一个OTU分类中的全长序列比对到16S rRNA的V6数据库中,将比对结果根据众数原则对OTU进行物种注释。
9.根据权利要求7的装置,其特征在于,还包括数据分析设备,用于在对全长序列进行分类分析之后,对所得到的数据结果进行进一步分析;所述数据分析设备包括种群多样性分析单元,用于分析种群多样性;和/或相对丰度统计单元,用于统计得到微生物群体的相对丰度值。
10.根据权利要求7的装置,其特征在于,所述Solexa建库设备包括:DNA片段纯化单元,用于将所获得的DNA片段进行纯化;定量单元,用于对纯化后的DNA片段进行浓度定量;DNA片段修饰单元,用于在定量后不同样品取等浓度的量分别进行末端修复,在3’端加上碱基A,然后加上DNA片段标签序列DNA片段,再进一步加上PCR-Free的接头;修饰后产物纯化单元,用于对修饰后的DNA片段进行纯化。
11.根据权利要求7的装置,其特征在于,还包括测序序列筛选设备,用于在得到按照标签区分的测序序列后,对所述测序序列进行筛选,以过滤掉低质量的测序序列;所述低质量的测序序列选自以下序列中的任意一种或数种:接头污染序列,含有多个poly(A I T I CIG)的序列、以及含有连续2个以上的N的序列。
12.根据权利要求7的装置,其特征在于,所述全长序列组装设备运用拼接软件,根据序列两端的重叠关系对测序序列进行拼接,将其组装成V6的全长序列;拼接的条件是最小匹配长度为S3P,重叠区域不允许错配,N所占最大百分比是0.5%;不满足以上结果的序列将各切除5bp继续组装,如此重复多次;如果最终的拼接结果小于50bp也不用于后续分析。
CN201610195772.4A 2016-03-31 2016-03-31 一种基于高通量测序的微生物群落组成的方法和装置 Pending CN107292123A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610195772.4A CN107292123A (zh) 2016-03-31 2016-03-31 一种基于高通量测序的微生物群落组成的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610195772.4A CN107292123A (zh) 2016-03-31 2016-03-31 一种基于高通量测序的微生物群落组成的方法和装置

Publications (1)

Publication Number Publication Date
CN107292123A true CN107292123A (zh) 2017-10-24

Family

ID=60087952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610195772.4A Pending CN107292123A (zh) 2016-03-31 2016-03-31 一种基于高通量测序的微生物群落组成的方法和装置

Country Status (1)

Country Link
CN (1) CN107292123A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107904298A (zh) * 2017-12-29 2018-04-13 苏州普瑞森基因科技有限公司 一种用于分析肠道微生物的试剂盒及其应用
CN107937500A (zh) * 2017-11-17 2018-04-20 深圳华大生命科学研究院 批量获得高精度昆虫coi基因条形码的方法和试剂盒
CN108388772A (zh) * 2018-01-26 2018-08-10 佛山科学技术学院 一种利用文本比对分析高通量测序基因表达水平的方法
CN109337967A (zh) * 2018-09-27 2019-02-15 华中科技大学鄂州工业技术研究院 一种实验室的微生物污染鉴别方法
CN109652493A (zh) * 2019-01-16 2019-04-19 中国人民解放军总医院 颤杆菌克属在鉴别和/或区分不同种族个体中的应用
CN109879436A (zh) * 2019-03-13 2019-06-14 北京大学深圳研究生院 一种基于微生物技术的人工湿地运行状态监测方法
CN110111843A (zh) * 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN110277139A (zh) * 2019-06-18 2019-09-24 江苏省产品质量监督检验研究院 一种基于互联网的微生物限度检查系统及方法
CN110517726A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 一种基于高通量测序数据的微生物成分及浓度检测方法
CN110819704A (zh) * 2018-08-10 2020-02-21 塔塔咨询服务有限公司 用于改善基于扩增子测序的微生物群落分类学解析的方法和系统
CN111440847A (zh) * 2020-04-28 2020-07-24 浙江省林业科学研究院 一种高通量低成本的微量生物样品分子鉴定技术
CN111816258A (zh) * 2020-07-20 2020-10-23 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN113689912A (zh) * 2020-12-14 2021-11-23 广东美格基因科技有限公司 基于宏基因组测序的微生物对比结果校正的方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102517392A (zh) * 2011-12-26 2012-06-27 深圳华大基因研究院 基于宏基因组16s高可变区v3的分类方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102517392A (zh) * 2011-12-26 2012-06-27 深圳华大基因研究院 基于宏基因组16s高可变区v3的分类方法和装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107937500A (zh) * 2017-11-17 2018-04-20 深圳华大生命科学研究院 批量获得高精度昆虫coi基因条形码的方法和试剂盒
CN107904298A (zh) * 2017-12-29 2018-04-13 苏州普瑞森基因科技有限公司 一种用于分析肠道微生物的试剂盒及其应用
CN110111843B (zh) * 2018-01-05 2021-07-06 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN110111843A (zh) * 2018-01-05 2019-08-09 深圳华大基因科技服务有限公司 对核酸序列进行聚类的方法、设备及存储介质
CN108388772A (zh) * 2018-01-26 2018-08-10 佛山科学技术学院 一种利用文本比对分析高通量测序基因表达水平的方法
CN108388772B (zh) * 2018-01-26 2022-01-25 佛山科学技术学院 一种利用文本比对分析高通量测序基因表达水平的方法
CN110819704A (zh) * 2018-08-10 2020-02-21 塔塔咨询服务有限公司 用于改善基于扩增子测序的微生物群落分类学解析的方法和系统
CN109337967A (zh) * 2018-09-27 2019-02-15 华中科技大学鄂州工业技术研究院 一种实验室的微生物污染鉴别方法
CN109652493B (zh) * 2019-01-16 2021-03-23 中国人民解放军总医院 颤杆菌克属在鉴别和/或区分不同民族个体中的应用
CN109652493A (zh) * 2019-01-16 2019-04-19 中国人民解放军总医院 颤杆菌克属在鉴别和/或区分不同种族个体中的应用
CN109879436A (zh) * 2019-03-13 2019-06-14 北京大学深圳研究生院 一种基于微生物技术的人工湿地运行状态监测方法
CN109879436B (zh) * 2019-03-13 2021-09-10 北京大学深圳研究生院 一种基于微生物技术的人工湿地运行状态监测方法
CN110277139A (zh) * 2019-06-18 2019-09-24 江苏省产品质量监督检验研究院 一种基于互联网的微生物限度检查系统及方法
CN110277139B (zh) * 2019-06-18 2023-03-21 江苏省产品质量监督检验研究院 一种基于互联网的微生物限度检查系统及方法
CN110517726A (zh) * 2019-07-15 2019-11-29 西安电子科技大学 一种基于高通量测序数据的微生物成分及浓度检测方法
CN110517726B (zh) * 2019-07-15 2023-07-04 西安电子科技大学 一种基于高通量测序数据的微生物成分及浓度检测方法
CN111440847A (zh) * 2020-04-28 2020-07-24 浙江省林业科学研究院 一种高通量低成本的微量生物样品分子鉴定技术
CN111440847B (zh) * 2020-04-28 2023-06-16 浙江省林业科学研究院 一种高通量低成本的微量生物样品分子鉴定技术
CN111816258A (zh) * 2020-07-20 2020-10-23 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN111816258B (zh) * 2020-07-20 2023-10-31 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN113689912A (zh) * 2020-12-14 2021-11-23 广东美格基因科技有限公司 基于宏基因组测序的微生物对比结果校正的方法和系统

Similar Documents

Publication Publication Date Title
CN107292123A (zh) 一种基于高通量测序的微生物群落组成的方法和装置
CN102517392A (zh) 基于宏基因组16s高可变区v3的分类方法和装置
Almeida et al. Bioinformatics tools to assess metagenomic data for applied microbiology
EP2749655B2 (en) Single cell classification method, gene screening method and device thereof
Korpelainen et al. RNA-seq data analysis: a practical approach
Sanders et al. Optimizing sequencing protocols for leaderboard metagenomics by combining long and short reads
CN109273053B (zh) 一种高通量测序的微生物数据处理方法
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
CN102477460A (zh) 对宏基因组16s高可变区v6进行测序聚类分析的方法
Fujiyoshi et al. Evaluation of PCR conditions for characterizing bacterial communities with full-length 16S rRNA genes using a portable nanopore sequencer
CN115198023B (zh) 一种海南黄牛液相育种芯片及其应用
CN114067911B (zh) 获取微生物物种及相关信息的方法和装置
Aylagas et al. Analysis of Illumina MiSeq metabarcoding data: application to benthic indices for environmental monitoring
Arjen de Groot et al. Molecular identification of soil eukaryotes and focused approaches targeting protist and faunal groups using high-throughput metabarcoding
CN115662516A (zh) 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法
Yi et al. Unravelling the enigma of the human microbiome: Evolution and selection of sequencing technologies
Eché et al. A Bos taurus sequencing methods benchmark for assembly, haplotyping, and variant calling
CN109686406A (zh) 一种系统发生树图制作方法及系统
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
CN114822697A (zh) 一种利用宏基因组分析溯源土壤耐药基因污染的方法
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
CN1244880C (zh) Dna标记分布图数据分析
CN111206104A (zh) 一种高效简便获取木虱总科昆虫线粒体基因组的通用引物和方法及其应用
Wright et al. “Serpentinomics”—An emerging new field of study
Garg et al. Cutting edge tools in the field of soil microbiology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171024