CN105420375B - 一种环境微生物基因组草图的构建方法 - Google Patents
一种环境微生物基因组草图的构建方法 Download PDFInfo
- Publication number
- CN105420375B CN105420375B CN201510983092.4A CN201510983092A CN105420375B CN 105420375 B CN105420375 B CN 105420375B CN 201510983092 A CN201510983092 A CN 201510983092A CN 105420375 B CN105420375 B CN 105420375B
- Authority
- CN
- China
- Prior art keywords
- contig
- clustering
- gene
- microbial
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000007613 environmental effect Effects 0.000 title claims abstract description 27
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 244000005700 microbiome Species 0.000 title claims description 48
- 230000000813 microbial effect Effects 0.000 claims abstract description 58
- 238000012163 sequencing technique Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 230000003321 amplification Effects 0.000 claims abstract description 8
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims abstract description 7
- 108090000623 proteins and genes Proteins 0.000 claims description 98
- 241000894007 species Species 0.000 claims description 32
- 238000002474 experimental method Methods 0.000 claims description 27
- 238000013412 genome amplification Methods 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000003908 quality control method Methods 0.000 claims description 4
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 239000013612 plasmid Substances 0.000 claims 1
- 241000282414 Homo sapiens Species 0.000 abstract description 12
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 abstract description 7
- 238000011160 research Methods 0.000 abstract description 5
- 108700026244 Open Reading Frames Proteins 0.000 abstract description 4
- 239000003570 air Substances 0.000 abstract description 3
- 239000002689 soil Substances 0.000 abstract description 3
- 108020004707 nucleic acids Proteins 0.000 abstract description 2
- 150000007523 nucleic acids Chemical class 0.000 abstract description 2
- 102000039446 nucleic acids Human genes 0.000 abstract description 2
- 238000000926 separation method Methods 0.000 abstract description 2
- 238000012360 testing method Methods 0.000 abstract description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 abstract description 2
- 239000000523 sample Substances 0.000 description 37
- 210000004027 cell Anatomy 0.000 description 14
- 239000000047 product Substances 0.000 description 8
- 108020004414 DNA Proteins 0.000 description 7
- 239000006228 supernatant Substances 0.000 description 7
- 238000002156 mixing Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 230000002068 genetic effect Effects 0.000 description 4
- 238000003766 bioinformatics method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000010790 dilution Methods 0.000 description 3
- 239000012895 dilution Substances 0.000 description 3
- 230000002550 fecal effect Effects 0.000 description 3
- 239000008363 phosphate buffer Substances 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 108700003860 Bacterial Genes Proteins 0.000 description 2
- 241000606126 Bacteroidaceae Species 0.000 description 2
- 241000692822 Bacteroidales Species 0.000 description 2
- 241001112695 Clostridiales Species 0.000 description 2
- 241000588921 Enterobacteriaceae Species 0.000 description 2
- 241000192125 Firmicutes Species 0.000 description 2
- 241001112693 Lachnospiraceae Species 0.000 description 2
- 210000004460 N cell Anatomy 0.000 description 2
- 241000425347 Phyla <beetle> Species 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000003608 fece Anatomy 0.000 description 2
- 244000005702 human microbiome Species 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000000968 intestinal effect Effects 0.000 description 2
- 239000012528 membrane Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 238000000159 protein binding assay Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 108020004465 16S ribosomal RNA Proteins 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 241000606125 Bacteroides Species 0.000 description 1
- 241000605059 Bacteroidetes Species 0.000 description 1
- 241000195493 Cryptophyta Species 0.000 description 1
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 1
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 241000736262 Microbiota Species 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 241000692843 Porphyromonadaceae Species 0.000 description 1
- 241000192142 Proteobacteria Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000013592 cell lysate Substances 0.000 description 1
- 230000006037 cell lysis Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000000684 flow cytometry Methods 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 230000007939 microbial gene expression Effects 0.000 description 1
- 238000001823 molecular biology technique Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 239000008055 phosphate buffer solution Substances 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 238000010186 staining Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000012089 stop solution Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Zoology (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Wood Science & Technology (AREA)
- General Engineering & Computer Science (AREA)
- Epidemiology (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Evolutionary Computation (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种基于微量细胞全基因组测序的环境微生物基因组草图的构建方法,通过对多个环境微生物微小宏基因组样本分别进行核酸分离,扩增,构建高通测序文库,然后对测序数据进行过滤、从头组装、开放阅读框预测,使用基于隐马尔科夫模型的算法将序列分类,获得微生物基因组草图。该方法根据环境样本微生物群落的复杂度调整平行试验的次数,以获得最优的分析结果,可应用于土壤、空气、水体、人体等各种环境的微生物群落研究。
Description
技术领域
本发明涉及一种改进的宏基因组文库构建方法、宏基因组的生物信息学分析流程方法,属于新一代测序技术、宏基因组、数据统计、生物信息分析技术领域,特别涉及无参考基因组的序列组装分类,以及环境微生物基因组草图的绘制。
背景技术
微生物是自然界中种类最丰富,数量最庞大的生命形式,包括病毒、细菌、古细菌、真菌、单细胞藻类及原生动物等。微生物与人类活动关系密切,在环保、能源、食品加工、医疗卫生领域发挥重要的影响。利用现代分子生物学技术,已经有三千余种微生物全基因组被构建出来(NCBI),然而还有更多的微生物仍不为人所知,尤其是极端环境微生物和不可培养微生物(Unculturable microbe)。宏基因组学(Metagenomics)将环境样本作为一个整体,不依赖于微生物分离和纯培养,为环境微生物研究提供了新的思路【Hugenholtz P,Tyson G W.Microbiology:metagenomics[J].Nature,2008,455(7212):481-483.】。常规的宏基因组学方法主要基于16s rRNA或鸟枪法测序,分别从系统发生学(phylogenetics)和基因种类、丰度、功能的角度对环境微生物进行阐述。宏基因组学大大提升了人类对于自然界中微生物种群与功能的认识,多个重要的数据库被建立起来,为后续研究和应用提供了基础【Qin J,Li R,Raes J,et al.A human gut microbial gene catalogue establishedby metagenomic sequencing[J].nature,2010,464(7285):59-65;Human MicrobiomeProject Consortium.A framework for human microbiome research[J].Nature,2012,486(7402):215-221;Li J,Jia H,Cai X,et al.An integrated catalog of referencegenes in the human gut microbiome[J].Nature biotechnology,2014,32(8):834-841.】。但是,目前宏基因组学仍然没有解决的核心问题是,人们还不能从宏基因组测序获得的序列信息中直接分析组装出不同个体微生物的基因组序列信息。虽然研究人员采用不同的实验手段和分析策略以重建环境微生物的全基因组,并获得了一定的成效【Wang Y,Leung H C M,Yiu S M,et al.MetaCluster 5.0:a two-round binning approach formetagenomic data for low-abundance species in a noisy sample[J].Bioinformatics,2012,28(18):i356-i362;Nielsen H B,Almeida M,Juncker A S,etal.Identification and assembly of genomes and genetic elements in complexmetagenomic samples without using reference genomes[J].Nature biotechnology,2014,32(8):822-828;Rinke C,Schwientek P,Sczyrba A,et al.Insights into thephylogeny and coding potential of microbial dark matter[J].Nature,2013,499(7459):431-437;Chitsaz H,Yee-Greenbaum J L,Tesler G,et al.Efficient de novoassembly of single-cell bacterial genomes from short-read data sets[J].Naturebiotechnology,2011,29(10):915-921.】,但宏基因组中大量微生物物种的基因组信息仍不很完整,无法从物种(species)的层面解释物种与物种,物种与环境间的相互作用关系。
发明内容
本发明的目的在于提供一种从环境微生物菌群样本中构建无参考基因组的微生物基因组草图的方法。利用新一代测序技术产生的短序列,准确高效地进行组装与分类,从土壤、空气、水体、人体等各种环境样本中获得微生物基因组。这种方法可用于疾病、环保、食品加工等方面的研究。
本发明主要涉及二个部分:一是提出一种宏基因组测序文库的构建方法,二是基于该文库构建方法的生物信息学分析方法。本发明提出的文库构建方法为:通过正常宏基因组样本采集方法获得被分析的环境微生物样本,通过梯度稀释适当降低样本微生物群落的复杂度,形成3个以上的微小宏基因组样本,每个样本中的微生物数量小于1000个;对于每个微小宏基因组样本,分别进行核酸分离,扩增,构建高通测序文库。本发明提出的生物信息学流程包括对测序数据进行过滤、从头组装(de novo assembly)、开放阅读框(openreading frame,ORF)预测,使用基于隐马尔科夫模型(hidden Markov model,HMM)的算法将序列分类,获得微生物基因组草图(draft genome),并可在此基础上进一步优化。
具体的,本发明的技术方案如下:
一种环境微生物基因组草图的构建方法,包括以下步骤:
1)采集环境微生物样品,根据下述公式1确定单次测序平行实验所需的细胞数N及平行实验的次数X:
其中,α为某物种在样品中的相对丰度的预估值。将α代入公式求解,得出在使用N个细胞进行全基因组扩增测序,共进行X次平行实验的条件下,可使相对丰度为α的物种在实验中重复出现5次以上,得到基因组覆盖度>80%的基因组草图。
2)采用多重置换扩增(multiple displacementamplification,MDA)技术对微生物样品进行全基因组扩增测序,共进行X次平行实验,每次实验使用的细胞数为N;
3)对测序数据进行分析:首先构建微生物群落非冗余基因集;然后将非冗余基因集中的基因序列与微生物基因组数据库(NCBI_Bacterial genomes)进行比对,判定其中的已知微生物种类;最后通过contig聚类获得微生物基因组草图。
在步骤1)中,根据研究对象的不同可选择不同的方法对α进行预估。如:某微生物之前已有研究,在环境中的相对丰度曾有文献报道,即可根据参考文献进行预估;又如:研究对象为未知物种,可使用荧光探针标记+流式细胞数,或常规染色+显微计数等方式进行估算。如果以上方法都不可实现,直接进行假设即可。这个值只是对能够从环境样品中得到基因组草图的物种丰度下限的一个预设值,不需要太准确,数量级合适即可。
上述步骤1)针对不同类型的样本采取不同的采集方式,以获得尽可能完整的微生物群落样品。例如:对于固体样本,取适量样本用磷酸缓冲液悬浮,低速离心(通常低于4000rpm),取上清;对于水体样本,取适量样本低速离心,弃上清,沉淀用磷酸缓冲液重悬;对于空气样本,将空气样本采集器的滤网或滤膜取下,用磷酸缓冲液冲洗,低速离心,取上清。
上述步骤2)就是对X个微小宏基因组进行微生物全基因组扩增测序,每个微小宏基因组样品的细胞数为N。在本发明的实施例中利用REPLI-g Single Cell kit(QIAGEN,USA.商品编号150345)对微生物样品进行全基因组扩增,扩增产物使用NEBNext DNA文库制备试剂盒(NEB,USA.商品编号E6040L)构建X个index测序文库,在Illumina Hiseq2500测序仪上进行测序。要求每次测序实验的数据量不低于2Gb。
上述步骤3)中,所构建的微生物群落非冗余基因集要满足如下标准:(i)任意基因间不能满足聚类条件;(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基因来代表。具体构建方法是:首先对测序数据进行质量控制,包括去除接头序列,过滤掉双端reads平均质量值<20的序列,截掉序列两端碱基分布波动大于30%的部分,对于来自宿主的样品过滤掉宿主序列;然后进行无参考基因组组装,组装采用多kmer值并行,选取最佳组装结果,得到contig序列;接着对contig序列进行基因预测,得到基因序列,并通过同源比对,获得基因序列的两两间相似度;对基因序列进行聚类去冗余,得到非冗余基因集。优选的,聚类条件为:基因间重叠长度大于等于90%且blast同源比对相似度大于等于95%。
上述步骤3)中,进行已知微生物种类的判定的条件为:(a)某已知物种2×以上深度的基因组覆盖度不低于20%;(b)测序序列连续覆盖的最长片段在18~22Kb范围内;(c)该物种在X次平行实验的数据中至少有2次满足前两个条件。符合以上条件的微生物可认为在原始样本中真实存在。
上述步骤3)中,通过contig聚类获得微生物基因组草图的方法是:选取非冗余基因集中的特定基因,以之为节点,采用基于隐马尔科夫模型的算法将contig进行聚类,得到属于不同微生物的contig簇,满足一定标准的contig簇即为微生物基因组草图。具体包括:首先,确定基因和contig的对应关系,即某个基因来源于哪条或哪几条contig;然后,选定种子基因,所述种子基因应当满足的条件为:(i)在1条以上的contig中存在;(ii)保守度大于0.8;(iii)长度大于1Kb;接着,随机选择一个种子基因进行第一轮contig聚类,将所有包含该种子基因的contig聚为一组;第一轮聚类得到的contig上包含的基因具有很高的重复数,选择重复数第二高的基因(即重复次数仅次于第一轮聚类所使用的种子基因的基因)进行第二轮聚类,依次循环,直至contig聚类中所包含的基因不能在剩余的contig中找到相同的拷贝,则一次聚类结束,得到属于同一个物种的contig簇;用剩余的contig重复聚类过程,至所有contig分配完成。
进一步的,对于contig聚类效果的质量,可以通过下述方法进行判断:将contig簇与样本中存在的已知微生物参考基因组进行比对,通过对已知微生物基因组的覆盖度和准确率的评价,判断未知微生物基因组的contig分类效果。
优选的,在步骤3)之后,将所有测序序列比回聚类得到的contig簇,将比对上的测序序列进行组装,评价组装效果。
本发明提出基于微量细胞全基因组测序来构建环境微生物的基因组草图,该方法可根据环境样本微生物群落的复杂度调整平行试验的次数,以获得最优的分析结果(基于实施例的统计模型)。
本发明提出的方法可用于土壤、空气、水体、人体等各种环境的微生物群落研究和应用,可以批量化分析的得到宏基因组中微生物的基因组草图。
附图说明
图1.本发明环境微生物基因组草图构建方法的流程图。
图2.实施例1中微生物全基因组扩增产物的电泳结果,其中:M为λHindIII DNAmarker,m为100bp DNA ladder,QI-1~QI-3为50个细胞起始的全基因组扩增产物,QI-4为10个细胞起始的全基因组扩增产物,-为阴性对照。
图3.实施例1使用Velvet 1.1.05对100次平行实验的测序数据分别进行组装的结果统计柱状图。
图4.实施例1得到的人粪便样本中已知微生物系统发育树,包含厚壁菌门(Firmicutes)、拟杆菌门(Bacteroidetes)、变形菌门(Proteobacteria)等五个人肠道微生物中主要的微生物类群,可鉴定到种(species)的细菌有108种,其中:每一层同心圆环代表一个分类等级,每一个小圆圈代表一类微生物;用颜色标识的为相对丰度较高的几个分类单元,包括:拟杆菌目(o_Bacteroidales)、拟杆菌科(f_Bacteroidaceae)、紫单胞菌科(f_porphyromonadaceae)、梭菌目(o_Clostridiales)、毛螺菌科(f_Lachnospiraceae)以及肠杆菌科(f_Enterobacteriaceae),其中o代表目(Order),f代表科(Family)。
图5.实施例1中以测序序列在每个contig簇上的分布频率作为统计量,绘制相对丰度最高的50个contig簇在100次平行实验中的聚类热图。
图6.实施例1使用circos软件将二次组装后得到的微生物基因组草图绘制成圆圈图(circos图),其中:(a)图为contig簇在Alistipes putredinis基因组上的分布,外圈为参考基因组,参考基因组上的颜色代表contig的覆盖深度,范围1~1000;内圈为构成该基因组草图的四个contig簇,每一个小色块代表一条contig,色块长度代表contig长度;中间的连线代表contig之间存在的匹配关系;(b)图为四个contig簇之一contig cluster3273,外圈为构成该簇的全部contig,标尺为contig长度,单位为Kb;内圈为contig上的GC含量分布。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。
1.样品处理
针对不同类型的样本采取不同的处理方式,以获得尽可能完整的微生物群落样品。
固体:取适量样本置于无菌离心管中,加入1×无菌磷酸盐缓冲液(PBSbuffer),充分混匀,低速离心,取上清;
水体:取适量样本置于无菌离心管中,低速离心,弃上清,用1×PBS buffer重悬;
空气:将空气样本采集器的滤网/滤膜取下,用1×PBS buffer冲洗,低速离心,取上清。
2.微生物全基因组扩增测序
使用血球计数板或流式细胞仪对样品进行细胞计数,根据以下公式确定单次平行实验所需的细胞数及平行实验的数量。
其中N为单次平行实验所需的细胞数,X为平行实验次数,α为物种在样品中的相对丰度的预估值。将α代入公式求解,得出在使用N个细胞进行全基因组扩增测序,共进行X次平行实验的条件下,可使相对丰度为α的物种在实验中重复出现5次以上,得到基因组覆盖度>80%的基因组草图。
采用多重置换扩增(multiple displacementamplification,MDA)对X个微小宏基因组进行微生物全基因组扩增测序。利用REPLI-g Single Cell kit(QIAGEN,USA.商品编号150345)对样品进行全基因组扩增,扩增产物使用NEBNext DNA文库制备试剂盒(NEB,USA.商品编号E6040L)构建X个index测序文库,在Illumina Hiseq2500测序仪上进行测序。每次实验的数据量不低于2Gb。
3.数据分析
宏基因组的数据分析遵从解释环境微生物群落通过其群落内部组成及变化对其所处环境的生态稳定进行调节的思路。获得微生物群落的DNA序列并得到其基因,直至得到群落中每种微生物的全基因组图谱,为生物学家进一步挖掘微生物群落的作用提供依据。
针对每个微小宏基因组测序数据的分析流程如下:
(1)构建微生物群落非冗余基因集:
a.测序数据质量控制
-去除接头序列;
-过滤掉双端reads平均质量值<20的序列;
-截掉序列两端碱基分布波动大于30%的部分;
-对于来自于宿主的样品,需过滤掉宿主序列。
b.无参考基因组组装
-对每个微小宏基因组样品分别进行组装,得到contig序列;
-组装采用多kmer值并行,选取最佳组装结果。
c.构建非冗余基因集
-对所有的contig序列进行基因预测,得到所有的基因序列;
-通过同源比对,获得基因序列两两间相似度;
-对该冗余基因集中包含的基因进行聚类去冗余,聚类条件为:基因间重叠长度大于等于90%且blast同源比对相似度大于等于95%。最终得到的非冗余基因集满足如下标准:(i)任意基因间不能满足聚类条件;(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基因来代表。
(2)已知微生物种类的判定
环境微生物种类繁多,组成复杂,其中大多数为目前尚无参考基因组的未知物种。判定样本中存在的已知微生物种类,可以辅助评价未知微生物的组装效率以及基因组草图的准确性。
将测序序列(reads)与微生物基因组数据库(NCBI_Bacterial genomes)进行比对,判定条件为:(a)某已知物种2×以上深度的基因组覆盖度不低于20%;(b)测序序列连续覆盖的最长片段约为20Kb;(c)该物种在X次平行实验的数据中至少有2次满足前两个条件。符合以上条件的微生物可认为在原始样本中真实存在。
(3)通过contig聚类获得微生物基因组草图
利用序列的共有特征将属于不同物种的片段进行分类,是目前从环境样本中直接构建微生物基因组的通用做法。【Wang Y,Leung H C M,Yiu S M,et al.MetaCluster 5.0:a two-round binning approach for metagenomic data for low-abundance speciesin a noisy sample[J].Bioinformatics,2012,28(18):i356-i362;Nielsen H B,AlmeidaM,Juncker A S,et al.Identification and assembly of genomes and geneticelements in complex metagenomic samples without using reference genomes[J].Nature biotechnology,2014,32(8):822-828;Rinke C,Schwientek P,Sczyrba A,etal.Insights into the phylogeny and coding potential of microbial dark matter[J].Nature,2013,499(7459):431-437;Chitsaz H,Yee-Greenbaum J L,Tesler G,etal.Efficient de novo assembly of single-cell bacterial genomes from short-read data sets[J].Nature biotechnology,2011,29(10):915-921.】基因作为基因组上的基本功能单元,具有一定的物种特异性,能够在分类过程中加以利用。选取非冗余基因集中的特定基因(即种子基因),以之为节点,采用基于隐马尔科夫模型的算法将contig进行聚类,得到属于不同微生物的contig簇,满足一定标准的contig簇即为微生物基因组草图【所述标准可参考文献:Human Microbiome Jumpstart Reference Strains Consortium.Acatalog of reference genomes from the human microbiome[J].Science,2010,328(5981):994-999.】。
-确定基因和contig的对应关系,即某个基因来源于哪条或哪几条contig;
-选定种子基因,种子基因应当满足的条件为:(i)在1条以上的contig中存在;
(ii)保守度大于0.8;(iii)长度大于1Kb;
-随机选择一个种子基因进行第一轮contig聚类,将所有包含该种子基因的contig聚为一组。第一轮聚类得到的contig上包含的基因具有很高的重复数,选择重复数第二高的基因进行第二轮聚类,依次循环,直至contig聚类中所包含的基因不能在剩余的contig中找到相同的拷贝,则一次聚类结束,得到属于同一个物种的contig簇。用剩余的contig重复聚类过程,至所有contig分配完成。
(4)contig聚类效果的质量控制
将contig簇与样本中存在的已知微生物参考基因组进行比对,通过对已知微生物基因组的覆盖度和准确率的评价,判断未知微生物基因组的contig分类效果。
(5)二次组装提高组装质量(可选)
-将所有测序序列比回聚类得到的contig簇;
-将比对上的测序序列进行组装;
-评价组装效果。即将优化后的组装结果与仅靠分类得到的contig簇进行比较,比较的参数有N50值、基因组覆盖度等,均为常规做法。
实施例1.人肠道微生物基因组草图的构建
1.粪便样本处理
(1)取0.5g粪便,置于无菌15mL离心管中,加入5mLPBS buffer,vortex振荡混匀,700g离心1min,取上清;
(2)将菌液进行梯度稀释,在显微镜下观察,选择适当的稀释倍数,使用血球计数板进行计数,设α为1/1000,以获得粪便样本中所有丰度高于1/1000的微生物基因组草图,按照公式1确定最终用于单次反应的细胞数N为50,平行实验次数X为100;
2.全基因组扩增测序
按照Qiagen REPLI-g Single Cell kit protocol进行全基因组扩增。
(1)裂解细胞:取1μL稀释菌液(50cells/μL)至一无菌的0.2mL PCR管中,加入3μLNuclease-free H2O,3μL D2buffer,混匀,65℃水浴10min;
(2)终止反应:向细胞裂解液中加入3μL Stop Solution,混匀,冰上静置备用;
(3)基因组扩增:向反应液中加入9μLNuclease-free H2O,29μL REPLI-g scReaction buffer,2μL REPLI-g sc DNA polymerase,混匀,30℃水浴8hr;
(4)DNA检测:扩增产物使用QIAamp DNA Mini Kit(QIAGEN,USA.商品编号51306)进行纯化,Nanodrop 2000微量分光光度计(ThermoFisher Scientific,USA.)测定浓度,琼脂糖凝胶电泳检测片段大小,如图2所示,电泳结果表明,QiagenREPLI-g Single Cell kit能够有效扩增微生物基因组,扩增产物片段大小2-20Kb,主带明显,适用于进一步实验。但是阴性对照也提示该扩增方式过于敏感,需要在实验过程中注意外源DNA的污染。
(5)建库测序:扩增产物使用NEBNext DNA文库制备试剂盒(NEB,USA.商品编号E6040L)构建index测序文库,插入片段大小500bp,在Illumina Hiseq2500测序仪上进行双端测序,测序读长150bp。
3.数据分析
(1)对所有样品的测序数据进行如下步骤的处理:
-去除接头序列;
-过滤掉平均质量值小于Q20的reads;
-截掉每对reads 5’端10bp;
-过滤掉比对到人基因组(hg19)的reads。
通过这几步处理,100次平行实验共获得123.7Gb数据。
(2)使用Velvet 1.1.05对每份样品分别组装,在kmer=87时获得最佳组装结果,得到243,507条contig,总长度1.23Gb,组装结果的汇总数据如图3所示。采用不同的Kmer值进行比较,当组装得到的contig同时满足:数量少和长度长这两个条件时,判断该Kmer为最优值。
(3)使用MetaGeneMark(GeneMark.hmm,version 3.26)对所有contig序列进行基因预测,得到1,211,701个ORF。基因区占contig总长度的88.9%。
(4)对所有基因通过聚类去冗余,得到由344,930条基因构成的非冗余基因集,平均长度为876bp。
(5)人肠道微生物包含9门(class)。将测序序列与微生物基因组数据库(NCBI)进行比对,以在任意两个样品中某物种基因组覆盖度超过20%(深度≥2),且最大连续片段长度≥20Kb为标准,确定该样本中包含108种已知微生物,分别属于5个门,以厚壁菌门(Firmicutes)和拟杆菌门(Bacteroidetes)为主,以此绘制原始样本已知物种的系统发育树,结果如图4所示。
(6)对所有contig采用前述聚类方法进行分类,得到256个总长度>1Mb的簇。确定每个簇中contig来源,根据来自于已知物种的contig簇计算得到平均准确率为84%,覆盖度为50%。以测序序列在每个contig簇上的分布频率绘制热图,原始样本中相对丰度最高的50个簇在100次平行实验中的分布情况如图5所示。该图反应出各平行实验的随机性较高,物种分布较为均匀,测序序列的分布频率符合物种相对丰度的预期。
(7)将测序序列回比回每个contig簇,使用Velvet 1.1.05和Cap3进行二次组装,最终得到37个基因组草图,其中包含已知物种25个,未知物种12个。基因组contig N50为19Kb,平均长度为1.8Mb。根据已知物种来评估覆盖度>70%。用Circos软件将组装结果进行可视化展示,图6为组装一个微生物基因组circos图。
Claims (8)
1.一种环境微生物基因组草图的构建方法,包括以下步骤:
1)采集环境微生物样品,根据下述公式1确定单次测序平行实验所需的细胞数N及平行实验的次数X:
其中,p=1-(1-α)N,q=(1-α)N,α为某物种在样品中的相对丰度的预估值;
2)采用多重置换扩增技术对微生物样品进行全基因组扩增测序,共进行X次平行实验,每次实验使用的细胞数为N;
3)对测序数据进行分析:首先构建微生物群落非冗余基因集,所构建的微生物群落非冗余基因集满足如下标准:(i)任意基因间不能满足聚类条件;(ii)冗余基因集中的任意基因都可以在非冗余基因集中找到同源基因来代表;然后将非冗余基因集中的基因序列与微生物基因组数据库进行比对,判定其中的已知微生物种类;最后通过contig聚类获得微生物基因组草图;其中,通过contig聚类获得微生物基因组草图的方法是:选取非冗余基因集中的特定基因,以之为节点,采用基于隐马尔科夫模型的算法将contig进行聚类,得到属于不同微生物的contig簇,满足一定标准的contig簇即为微生物基因组草图。
2.如权利要求1所述的构建方法,其特征在于,步骤2)对微生物样品进行全基因组扩增,扩增产物构建index测序文库,然后进行测序,每次测序实验的数据量不低于2Gb。
3.如权利要求1所述的构建方法,其特征在于,步骤3)中构建微生物群落非冗余基因集的方法是:首先对测序数据进行质量控制,包括:去除接头序列,过滤掉双端reads平均质量值<20的序列,截掉序列两端碱基分布波动大于30%的部分,对于来自宿主的样品过滤掉宿主序列;然后采用多kmer值并行进行无参考基因组组装,选取最佳组装结果,得到contig序列;接着对contig序列进行基因预测,得到基因序列,并通过同源比对,获得基因序列的两两间相似度;对基因序列进行聚类去冗余,得到非冗余基因集。
4.如权利要求3所述的构建方法,其特征在于,对基因序列进行聚类去冗余时的聚类条件为:基因间重叠长度大于等于90%且blast同源比对相似度大于等于95%。
5.如权利要求1所述的构建方法,其特征在于,步骤3)中,判定已知微生物种类的条件为:(a)某已知物种2×以上深度的基因组覆盖度不低于20%;(b)测序序列连续覆盖的最长片段在18~22Kb范围内;(c)该物种在X次平行实验的数据中至少有2次满足前两个条件。
6.如权利要求1所述的构建方法,其特征在于,进行contig聚类的方法是:首先,确定基因和contig的对应关系,即某个基因来源于哪条或哪几条contig;然后,选定种子基因,所述种子基因应当满足的条件为:(i)在1条以上的contig中存在;(ii)保守度大于0.8;(iii)长度大于1Kb;接着,随机选择一个种子基因进行第一轮contig聚类,将所有包含该种子基因的contig聚为一组;第一轮聚类得到的contig上包含的基因具有很高的重复数,选择重复数第二高的基因进行第二轮聚类,依次循环,直至contig聚类中所包含的基因不能在剩余的contig中找到相同的拷贝,则一次聚类结束,得到属于同一个物种的contig簇;用剩余的contig重复聚类过程,至所有contig分配完成。
7.如权利要求1所述的构建方法,其特征在于,通过下述方法判断contig聚类效果的质量:将contig簇与样品中存在的已知微生物参考基因组进行比对,通过对已知微生物基因组的覆盖度和准确率的评价,判断未知微生物基因组的contig分类效果。
8.如权利要求1所述的构建方法,其特征在于,在步骤3)之后,将所有测序序列比回聚类得到的contig簇,将比对上的测序序列进行组装,评价组装效果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510983092.4A CN105420375B (zh) | 2015-12-24 | 2015-12-24 | 一种环境微生物基因组草图的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510983092.4A CN105420375B (zh) | 2015-12-24 | 2015-12-24 | 一种环境微生物基因组草图的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105420375A CN105420375A (zh) | 2016-03-23 |
CN105420375B true CN105420375B (zh) | 2020-01-21 |
Family
ID=55498910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510983092.4A Expired - Fee Related CN105420375B (zh) | 2015-12-24 | 2015-12-24 | 一种环境微生物基因组草图的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105420375B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202998B (zh) * | 2016-07-05 | 2019-01-25 | 集美大学 | 一种非模式生物转录组基因序列结构分析的方法 |
CN107653299A (zh) * | 2016-07-23 | 2018-02-02 | 成都十洲科技有限公司 | 一种基于高通量测序的基因芯片探针序列的获取方法 |
CN106778060B (zh) * | 2016-10-09 | 2019-05-21 | 南京双运生物技术有限公司 | 一种利用原核生物基因组高质量草图制作完成图的方法 |
CN107663549A (zh) * | 2017-10-18 | 2018-02-06 | 中国科学院昆明植物研究所 | 一种基于植物线粒体基因组特征的细胞质雄性不育基因预测的方法 |
CN108197434B (zh) * | 2018-01-16 | 2020-04-10 | 深圳市泰康吉音生物科技研发服务有限公司 | 去除宏基因组测序数据中人源基因序列的方法 |
CN111584004B (zh) * | 2020-05-12 | 2023-06-27 | 西藏自治区农牧科学院水产科学研究所 | 一种基于三维组学数据的西藏特色鱼类基因组组装方法 |
CN116042401A (zh) * | 2023-02-20 | 2023-05-02 | 厦门大学 | 从环境样品中靶向分离纯化目标微生物的方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014019180A1 (zh) * | 2012-08-01 | 2014-02-06 | 深圳华大基因研究院 | 确定异常状态生物标记物的方法及系统 |
CN104164479A (zh) * | 2014-04-04 | 2014-11-26 | 深圳华大基因科技服务有限公司 | 杂合基因组处理方法 |
CN104540962A (zh) * | 2012-08-01 | 2015-04-22 | 深圳华大基因研究院 | 糖尿病生物标志物及其应用 |
CN104560950A (zh) * | 2014-11-28 | 2015-04-29 | 深圳市海普洛斯生物科技有限公司 | 一种基于mda的全基因组扩增的方法 |
CN105189781A (zh) * | 2012-12-21 | 2015-12-23 | 赛普有限责任公司 | 核苷酸序列的概率导向分离(pins) |
-
2015
- 2015-12-24 CN CN201510983092.4A patent/CN105420375B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014019180A1 (zh) * | 2012-08-01 | 2014-02-06 | 深圳华大基因研究院 | 确定异常状态生物标记物的方法及系统 |
CN104540962A (zh) * | 2012-08-01 | 2015-04-22 | 深圳华大基因研究院 | 糖尿病生物标志物及其应用 |
CN105189781A (zh) * | 2012-12-21 | 2015-12-23 | 赛普有限责任公司 | 核苷酸序列的概率导向分离(pins) |
CN104164479A (zh) * | 2014-04-04 | 2014-11-26 | 深圳华大基因科技服务有限公司 | 杂合基因组处理方法 |
CN104560950A (zh) * | 2014-11-28 | 2015-04-29 | 深圳市海普洛斯生物科技有限公司 | 一种基于mda的全基因组扩增的方法 |
Non-Patent Citations (1)
Title |
---|
Genome of the pathogen Porphyromonas gingivalis recovered from a biofilm in a hospital sink using a high-throughput single-cell genomics platform;Jeffrey S. McLean等;《Genome Res.》;20130405;第23卷(第5期);摘要,第8页左栏第1至右栏倒数第2段,第9页左栏第2段 * |
Also Published As
Publication number | Publication date |
---|---|
CN105420375A (zh) | 2016-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105420375B (zh) | 一种环境微生物基因组草图的构建方法 | |
Press et al. | Hi-C deconvolution of a human gut microbiome yields high-quality draft genomes and reveals plasmid-genome interactions | |
CN109273053B (zh) | 一种高通量测序的微生物数据处理方法 | |
CN110800063B (zh) | 使用无细胞dna片段大小检测肿瘤相关变体 | |
Almeida et al. | Bioinformatics tools to assess metagenomic data for applied microbiology | |
US20210403991A1 (en) | Sequencing Process | |
WO2023098152A1 (zh) | 一种微生物基因数据库的构建方法及系统 | |
JP2016518822A (ja) | アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析 | |
CN115662516A (zh) | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 | |
Xi et al. | Using QC-Blind for quality control and contamination screening of bacteria DNA sequencing data without reference genome | |
JP2022021661A (ja) | シングルセルゲノム配列とメタゲノム配列を統合する新規処理法 | |
Talamantes-Becerra et al. | Identification of bacterial isolates from a public hospital in Australia using complexity-reduced genotyping | |
Bishara et al. | Culture-free generation of microbial genomes from human and marine microbiomes | |
Thirunavukarasou et al. | Metagenomics for studying microbes in wastewater treatment plants | |
De Maayer et al. | The current state of metagenomic analysis | |
Kowarsky et al. | Humans are colonized by many uncharacterized and highly divergent microbes | |
CN211578386U (zh) | 一种宏基因组分析装置 | |
Commichaux et al. | taxaTarget: Fast, sensitive, and precise classification of microeukaryotes in metagenomic data | |
Pal et al. | Omics Approach to Understanding Microbial Diversity | |
CN114023389B (zh) | 宏基因组数据的分析方法 | |
CN107828904B (zh) | 一种小麦条斑病菌小种分离鉴定方法 | |
Hughes et al. | Cellular correlates of M. tuberculosis control in pulmonary granulomas revealed through single-cell mRNA sequencing | |
JP2024041040A (ja) | ナノポア及びハイスループット配列決定データに基づくファージ同定及び宿主予測方法 | |
Benaissa | The Utilization of Eukaryotic Cell Types in Microbiomes for Semen, Vaginal Fluid, and Menstrual Blood Identification using 18S rDNA | |
Bajaj et al. | MICROBIAL GENOMICS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200121 |