CN104039982A - 一种分析微生物群落组成的方法和装置 - Google Patents

一种分析微生物群落组成的方法和装置 Download PDF

Info

Publication number
CN104039982A
CN104039982A CN201280064063.2A CN201280064063A CN104039982A CN 104039982 A CN104039982 A CN 104039982A CN 201280064063 A CN201280064063 A CN 201280064063A CN 104039982 A CN104039982 A CN 104039982A
Authority
CN
China
Prior art keywords
stack
sequencing
fragment
module
reference set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280064063.2A
Other languages
English (en)
Other versions
CN104039982B (zh
Inventor
李胜辉
冯强
覃俊杰
朱剑锋
官远林
王俊
汪建
杨焕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Publication of CN104039982A publication Critical patent/CN104039982A/zh
Application granted granted Critical
Publication of CN104039982B publication Critical patent/CN104039982B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种用于分析环境样品中的微生物群落组成的方法和装置。该方法包括测序、初级组装、分栈、基于栈的高级组装和鉴定等步骤。

Description

一种分析微生物群落组成的方法和装置 技术领域
本发明涉及宏基因组学(metagenomics)和生物信息学领域。 特别 地, 本发明涉及用于分析环境样品中的微生物群落组成的方法和装 置。 背景技术
宏基因组学又称为环境基因组学, 元基因组学, 生态基因组学, 或者群落基因组学, 其是一门直接研究各种环境(例如自然环境) 中 的微生物群落(包含了可培养的和不可培养的细菌、 真菌和病毒等的 总和)的学科。 研究各种环境中的微生物群落和物种多样性具有特别 的益处。 例如, 对人脉道环境中的微生物群落和物种多样性的研究, 对于菌群的临床药物开发以及人菌代谢途径的了解是非常有用的。 然 而, 由于传统研究方法的限制, 我们对环境(例如肠道环境) 中的微 生物组成知之甚少。特别地,由于环境中可能包含了不可培养的细菌、 真菌或病毒, 许多物种无法通过涉及培养的传统研究方法进行鉴定。
如今, 全基因组鸟枪法(whole genome shotgun, WGS)已经在宏 基因组学研究中逐渐兴起。 这种方法一般通过高通量测序得到大量的 测序片段( reads ), 然后通过组装得到较大的连接片段( contigs )、 拼接片段(scaffolds ) 、 或甚至是全基因组。 与此同时, 新一代高 通量测序技术得到了长足的发展,这为利用 WGS策略来认识群落结构、 研究群落差异和功能提供了良好契机。 例如, 最近的宏基因组学研究 已经在多种环境中, 在发现新物种、 解析微生物群落多样性与交互关 系方面取得了初步的成果: 关于海洋环境, 参见例如 Venter et al. 2004; 关于石油环境, 参见例如 Daniel, 2005; 关于人体环境, 参见 例如 Gi l l et al. 2006。
然而, 当利用宏基因组学研究(例如, WGS策略)来分析环境样品 中的微生物群落组成时, 仍然存在两个巨大的挑战, 即, 大量的短基 因片段(例如, 测序片段)的组装以及不同物种的识别。 由于宏基因 组学研究所收集到的是, 一个特定环境中的所有物种的基因信息, 因 此, 如何将这些大量的、 混合的短基因片段组装成连接片段或拼接片 段, 是一个巨大的难题与挑战。 同时, 在组装得到较长的连接片段或 拼接片段后, 如何判别这些长片段的物种来源, 又是一个巨大的难题 与挑战。
目前, 已经开发出一些程序, 用于组装混合的短基因片段, 例如
Velvet (Zerbino and Birney 2008) , EULER-SR (Chaisson and Pevzner 2008) , Newbler (Mergul ies et al. 2006)和 Soapdenovo (Li et al. 2009)。 此外, 分栈(binning)方法已被广泛用于判别连接片 段或拼接片段的归属物种, 其包括但不限于, 基于相似度 (s imi larity-based)的 MEGAN (Husonet al. 2007)和 CARMA (Tzahoret al. 2009) , 这类方法是通过与参考基因组进行序列比对来进行片段分 类的; 基于组成特征(compos ition- based)的分栈方法, 例如基于 GC 含量、 k~mer频率 (Schbath et al. 1995)或者四核苷酸频率(Teel ing et al. 2004)等的分栈方法, 这类方法在很大程度上受限于片段长度 和序列特征的辨别能力; 以及, 基于片段丰度(abundance- based)的 AbundanceBin (Wu and Ye 2011) , 这类方法才艮据环境中不同物种的丰 度进行片段分类, 只适合用于短的测序片段。
然而, 宏基因组学的研究目的是重建环境样品中的各种微生物的 基因组, 以分析环境样品中的微生物群落组成。 上述方法把组装和分 栈分开, 而各自只关注于一个方面。 因此, 上述方法并不能充分达到 宏基因组学的研究目的。 另外, 即使将上述的组装方法和分栈方法简 单组合在一起, 由于不同方法所采用的算法、 步骤、 兼容性并不一定 匹配, 其最终结果是否能达到宏基因组学的研究目的, 以及最终结果 的精确度和有效性也都难以预料。
因此, 本领域仍然需要一种高效率、 高精度的分析环境样品中的 微生物群落组成的方法。 发明内容
在本发明中, 除非另有说明, 否则本文中使用的科学和技术名词 具有本领域技术人员所通常理解的含义。 并且, 本文中所使用的各种 实验室操作步骤均为相应领域内广泛使用的常规步骤。 同时, 为了更 好地理解本发明, 下面提供相关术语的定义和解释。
如本文中所使用的, 术语 "环境" 是指广义上的各种环境, 其包 括但不限于, 自然环境(例如土壤环境, 海洋环境, 河流环境)和体 内环境(例如口腔环境, 肠道环境) 。 更确切而言, 术语 "环境" 是 指, 可能存在微生物 /微生物群落的任何区域。
如本文中所使用的, 术语 "环境样品" 是指, 来自各种环境的可 能含有微生物 /微生物群落的样品。
如本文中所使用的, 术语 "微生物" 具有本领域技术人员所通常 理解的含义, 其包括但不限于, 细菌、 真菌和病毒。
如本文中所使用的, 术语 "微生物群落" 是指, 在特定环境中生 活在一起的各类微生物的联合。 通常, 同一微生物群落中的各种微生 物不仅相互之间具有直接或间接的交互关系, 而且与它们所生存的环 境之间也具有交互关系:环境的改变会导致微生物群落的组成(包括, 微生物的种类和 /或丰度)发生改变; 反过来, 微生物群落组成的改 变也影响着环境。
如本文中所使用的, 术语 "宏基因组" 是指, 群落中的各种生物 的基因组的总和。特别地,在本发明的方法和装置的背景下,术语 "宏 基因组"是指,微生物群落中的各种微生物的基因组的总和。相应地, 术语 "宏基因组测序数据"是指, 对整个宏基因组进行测序所获得的 数据。 由于宏基因组所包含的 DNA信息十分巨大, 因此, 通常使用高 通量测序技术 (例如,第二代测序技术或第三代测序技术)进行测序。 然而, 也可以通过其他方法或其他来源, 获得所需的宏基因组测序数 据。 测序数据通常由大量的测序片段(read)构成。
第二代测序技术是本领域技术人员公知的, 其包括例如, 454 测 序法 (Roche ) , Solexa测序法 ( I l lumina ) , S0UD测序法 ( ABI ) 和单分子测序法。 关于第二代测序技术的详细综述, 参见例如,
Michael Metzker (2010) , Sequencing technologies— the next generat ion, Nature Genet ics。 关于第三代测序技术, 可参见例如, Er ic E. Schadt等人, A window into third-generat ion sequencing, Human Molecular Genetics, 2010, Vol. 19, Review I ssue 2, R227- 240。
表述 "测序质量低的序列" 的含义是本领域技术人员已知的, 其 例如可在测序过程中由测序平台和测序软件确定 (参见, Qual i ty Scores for Next-Generat ion Sequencing, Technical Note: Sequencing, I l lumina ) 。
如本文中所使用的, 表述 "去冗余" 是指, 对于彼此相似度达到 95%或以上的序列, 只保留一个, 例如, 将重复的连接片段和拼接片 段去除。
如本文中所使用的, 表述 "参考集" 是广义上的组装片段集或基 因集, 其中, 组装片段是指由测序片段组装得到的长片段, 例如连接 片段(cont igs ) 、 拼接片段(scaffolds ) ; 基因集是指在组装片段 上预测出来的基因的集合。 所述组装片段或基因构成且被称为参考集 的 "元素" 。
如本文中所使用的, 术语 "分栈(binning) " 和 "聚类" 具有相 同的含义, "栈(bin) " 和 "类" 具有相同的含义。 它们可互换使用。
如本文中所使用的, 术语 "多元正态分布模型" 和 "最大似然函 数法" 具有本领域技术人员所通常理解的含义。 关于这 2个术语的详 细描述, 可参见例如 Fraley and Raf tery, 1998。
如本文中所使用的, 术语 "基于相似度的聚类方法" 是指, 通过 比较两两序列之间的序列同一性来度量序列之间的相似度(或距离), 并基于这个相似度(或距离)进行聚类; 术语 "基于组成特征的聚类 方法" 是指, 通过比较两个序列自身组成特征的相似性, 如寡核苷酸 频率, GC含量等, 来度量序列之间的相似度(或距离), 并基于这个 相似度(或距离 )进行聚类。 基于相似度的聚类方法例如但不限于, 基于相似度(simi lari ty- based)的 MEGAN (Husonet al. 2007)和 CARMA (Tzahoret al. 2009)。 基于组成特征的聚类方法例如但不限于, 基 于 GC含量、 k- mer频率 (Schbath et al. 1995)或者四核苷酸频率 (Tee l ing et al. 2004)的聚类方法。 本发明所要解决的一个技术问题是, 提供一种能有效分析环境样 品中的微生物群落组成的方法和装置。 基于此, 发明人创造性地将组 装方法和分栈方法结合在一起, 开发了能够高效率且高精度地分析从 环境样品获得的宏基因组数据, 并进而确定环境样品的微生物群落组 成的方法和装置。 特别地, 本发明的方法也被命名为 Soap series of Met a genome analysis (在下文中简称为 SoapMeta ) 。 因此, 在一个方面, 本发明提供了一种用于分析环境样品中的微 生物群落组成的方法, 其包括以下步骤:
1 )测序:
对来自环境样品的基因组 DNA进行构建文库和测序, 从而获 得由测序片段池(reads pool )构成的宏基因组测序数据;
2 )初级组装:
2a )构建或完善参考集: 对测序片段进行组装以得到组装片 段, 然后去冗余, 从而构建非冗余的参考集(即, 组装片段集) ; 任 选地, 可在所获得的组装片段上预测基因, 并将预测出来的基因的集 合作为参考集(即, 基因集) ; 或者, 如果针对所述环境样品, 存在 已知的参考集, 那么直接将它作为参考集, 或者将该已知的参考集与 如上所述构建的参考集组合并去冗余, 从而获得最终的参考集
2b )构建元素相对丰度讲矩阵: 将所述测序片段与参考集进 行比对, 并计算参考集中的各个元素在样品中的相对丰度;
3 )分栈, 即, 通过下述步骤确定参考集中的每一个元素所归属 的栈, 得到聚类的栈:
3a )基于丰度的分栈: 基于元素在样品中的相对丰度, 使用 聚类算法, 如自底向上的层次聚类方法 (HIERARCHICAL CLUSTERING SCHEMES, STEPHEN C. JOHNSON, 1967 ) , 确定各个元素的初始栈; 和
3b )基于模型的分栈:
(i) 将每一个初始栈作为一个独立的多元正态分布模 型,并基于丰度矩阵, 利用最大似然函数法计算所述模型的参数;
(i i) 构建一个软矩阵(fuzzy matrix) , 用于存储每一 个元素归属某一个栈的概率; 和
(i i i) 迭代运算 E步和 M步,直至似然函数达到最大化: E 步, 根据每一个栈的模型参数, 分别计算每一个元素 属于某一个栈的后验概率, 并且修改软矩阵中所述元素属于所述栈的 概率;
M 步: 根据软矩阵, 用最大似然函数法计算每一个栈的 模型参数;
4 )基于栈的高级组装:
4a )通过将测序片段与已分栈的元素进行比对, 从宏基因组 测序数据中寻找对应到之前确定的各个栈的测序片段;
4b )使用 SOAPdenovo 或者使用其他针对微生物测序数据的 组装软件, 将对应到各个栈的测序片段分别进行组装;
4c )使用基于相似度的聚类方法和 /或基于组成特征的聚类 方法, 对每一个栈所包含的元素的分栈进行校正; 任选地, 还在已获 得的栈内部进行再次聚类, 然后根据聚类的结果, 对已获得的栈进行 拆分或保持不变, 从而使结果更加准确可信;
4d )重复步骤 4a ) - 4c ), 直到各个栈的基因组序列的大小 无明显变化为止(总长度增长率小于 5% ) ;
5 )鉴定:
利用各个栈的基因组序列, 确定各个栈所对应的微生物的类别, 从而确定所述环境样品中的微生物群落组成。 关于测序 在一个优选的实施方案中, 环境样品来源于自然环境, 例如土壤 环境, 海洋环境和河流环境。 在另一个优选的实施方案中, 环境样品 来源于体内环境, 例如口腔环境和肠道环境。
在一个优选的实施方案中, 使用第二代测序技术(例如, 454 测 序法, Solexa测序法, SOLiD测序法或单分子测序法)或第三代测序 技术对环境样品所包含的微生物群落的宏基因组进行测序, 从而提供 来自环境样品的宏基因组测序数据。
在一个优选的实施方案中, 通过下列步骤来获得宏基因组测序数 据:
la )提供环境样品;
lb )从所述环境样品中提取宏基因组 DNA;
lc )利用所述宏基因组 DNA构 基因组文库;
Id )对所述宏基因组文库进行测序, 优选使用 Solexa 测序法进 行测序, 从而提供所述环境样品的宏基因组测序数据。
在一个优选的实施方案中, 宏基因组测序数据是由测序片段构成 的测序片段池(reads pool ) 。 此类测序片段通常通过第二代测序技 术(例如 Solexa测序法)或第三代测序技术获得。
在一个优选的实施方案中, 测序片段是末端配对的测序片段 ( aired end reads ) 。
测序片段中可能包含测序过程中所使用的接头(adapter)的序 列, 测序质量低的序列和 /或在分析来自体内环境的样品的情况下, 来自宿主基因组的序列。 此类序列可能会影响后续的处理和分析, 因 此, 此类序列的去除可能是有利的。
因此, 在一个优选的实施方案中, 在进行步骤 2 )之前, 对测序 数据进行预处理, 即, 去除接头序列、 测序质量低的序列和 /或宿主 基因组序列。
在一个优选的实施方案中, 对来自相同或相似环境的多个样品进 行测序, 并将所有样品的测序数据组合在一起, 构成宏基因组测序数 据。 在一个优选的实施方案中, 宏基因组的测序深度为至少 10 χ, 优 选至少 20 X, 优选至少 30 X, 优选至少 40 X, 更优选至少 50 χ 。 关于初级组装
在一个优选的实施方案中, 使用 Soapdenovo将所述测序片段组 装成组装片段(例如, 连接片段和 /或拼接片段) 。 此类组装方法是 本领域技术人员已知的, 参见例如, Li et al. 2009。
在一个优选的实施方案中, 使用多个环境样品来进行本发明的方 法, 并且针对每个样品分别获得了各自的参考集。 在此情况下, 将所 有样品的参考集组合在一起, 并去冗余, 从而构建最终的非冗余的参 考集。 也即, 将来自多个样品的参考集组合在一起, 并去冗余, 从而 构建最终的非冗余的参考集。
在一个优选的实施方案中, 如果针对所述环境样品, 存在已知的 参考集, 那么可以直接将它作为参考集, 也可以将该已知的参考集与 步骤 2a )中利用测序片段构建的参考集组合并去冗余,从而提供最终 的参考集。
例如, 在人脉道微生物群落的 MWAS研究中, Junj ie Qin et al. (2010) A human gut microbial gene catalogue establ ished by metagenomic sequencing. Nature, 464: 59-65已构建并公开了 3. 3M 欧洲人脉道微生物群落的非冗余基因集(即, 参考集)。 因此, 在一个 优选的实施方案中, 所述环境样品是人脉道样品, 并且将所述 3. 3M 欧洲人脉道微生物群落的非冗余基因集与步骤 2a )所构建的参考集组 合并去冗余, 从而提供最终的参考基因集。
在一个优选的实施方案中, 通过使用 S0AP2或 MAQ比对软件, 将 所述测序片段与参考集进行比对。 S0AP2和 MAQ是本领域技术人员是 已知的, 参见例如, R Li et al. 2009和 Li et al. 2008。
在一个优选的实施方案中, 使用 S0AP2将测序片段与参考集进行 比对, 并按照下列公式计算出参考集中的各元素的相对丰度: xJ L
a- = —— '■——
∑ ( A), 其中
A : 元素 i在样品中的相对丰度;
L". 元素 i的长度;
Xi: 元素 i在样品中被检测到的次数。 关于分栈
在一个优选的实施方案中, 通过下列步骤来确定元素的初始栈: 首先, 基于元素在样品中的相对丰度, 计算两两元素之间的相关性, 例如 pearson相关系数, spearman相关系数, kendal l相关系数, 欧 几里得距离, 曼哈顿距离等; 然后, 根据两两元素之间的相关性, 通 过聚类算法, 如自底向上层次聚类等, 将相关性密切的元素聚到一个 类中, 从而确定各个元素的初始栈。
在步骤 3 ) 的分栈之后, 同一个栈里面的各个元素在所有样品中 的丰度符合一定的分布模型, 如正态分布。 因此, 聚到同一个栈里面 的多个元素具有以下几种可能: (1) 这些元素属于同一个物种; (2) 这些元素来自共生的物种, 因为共生物种的丰度分布相似; (3) 这些 元素是几个物种共有的, 因为几个物种共有的元素的丰度不同于每一 个物种各自的丰度。 关于基于栈的高级组装
在一个优选的实施方案中, 使用 S0AP2来将测序片段与已分栈的 元素进行比对。
在一个优选的实施方案中, 使用 GC- depth spectra class if ier 和 /或 tetranucleotide frequencies (TNFs) class if ier (Teel ing et al. 2004)进行校正。 关于鉴定 在一个优选的实施方案中, 通过将各个栈的基因组序列与已知的 基因组数据库进行比对, 从而确定各个栈所对应的微生物的类别。
在一个优选的实施方案中, 所述基因组数据库包括但不限于,
NCBI/IMG已测序细菌库, CBI的 NR库等。
在一个优选的实施方案中, 所述比对是核酸水平和 /或蛋白水平 的比对。 在另一个方面, 本发明提供了一种用于分析环境样品中的微生物 群落组成的装置, 其包括以下模块:
1 )测序模块, 其用于对来自环境样品的宏基因组 DNA进行测序, 提供由测序片段池构成的宏基因组测序数据;
2 )初级组装模块, 其与测序模块相连, 且包括彼此相连的下列 模块:
2a )组装构建模块, 其用于对测序片段进行组装以得到组装 片段, 然后去冗余, 从而构建非冗余的参考集(即, 组装片段集) ; 任选地, 所述组装构建模块还可在所获得的组装片段上预测基因, 并 将预测出来的基因的集合作为参考集(即, 基因集) ; 和
2b ) 比对计算模块, 其用于将测序片段与参考集进行比对, 并计算参考集中的各个元素在样品中的相对丰度;
3 )分栈模块, 其与初级组装模块相连, 用于确定参考集中的每 一个元素所归属的栈, 得到聚类的栈, 且包括彼此相连的下列模块:
3a )丰度分栈模块, 其基于丰度确定各个元素的初始栈; 和 3b )模型分栈模块, 其基于模型确定各个元素所归属的栈;
4 ) 高级组装模块, 其与测序模块和分栈模块相连, 其用于从宏 基因组测序数据中寻找对应到各个栈的测序片段, 并将对应到各个栈 的测序片段分别进行组装, 且对组装结果进行^ £及调整; 和
5 )鉴定模块, 其与高级组装模块相连, 用于通过各个栈的基因 组序列, 确定各个栈所对应的微生物的类别, 从而确定所述环境样品 中的微生物群落组成。 在一个优选的实施方案中, 环境样品来源于自然环境, 例如土壤 环境, 海洋环境和河流环境。 在另一个优选的实施方案中, 环境样品 来源于体内环境, 例如口腔环境和肠道环境。
在一个优选的实施方案中, 所述测序模块使用第二代测序技术
(例如, 454测序法, Solexa测序法, SOLiD测序法或单分子测序法) 或第三代测序技术对环境样品所包含的微生物群落的宏基因组进行 测序, 从而提供来自环境样品的宏基因组测序数据。
在一个优选的实施方案中, 所述装置还包括彼此相连的 DNA提取 模块和文库构建模块, 其中, 所述 DNA提取模块用于从所述环境样品 中提取宏基因组 DNA, 并且, 所述文库构建模块与测序模块相连, 且 利用所述宏基因组 DNA构建基因组文库。
在一个优选的实施方案中, 所述测序模块所获得的测序片段是末 端配对的测序片段 ( paired end reads ) 。
在一个优选的实施方案中, 所述装置还包含过滤模块, 其与测序 模块和初级组装模块相连, 用于在进行初级组装之前, 去除测序片段 中的接头序列、 测序质量低的序列和 /或宿主基因组序列。
在一个优选的实施方案中, 所述测序模块对宏基因组的测序深度 为至少 10 , 优选至少 20 X, 优选至少 30 , 优选至少 40 χ, 更优 选至少 50 X 。
在一个优选的实施方案中, 所述组装构建模块使用 Soapdenovo 将测序片段组装成连接片段和 /或拼接片段。
在一个优选的实施方案中, 所述组装构建模块还包含接收亚模 块, 其用于接收已知的参考集。 在一个优选的实施方案中, 所述组装 构建模块将所接收的已知参考集作为最终的参考集。 在另一个优选的 实施方案中, 所述组装构建模块将所接收的已知参考集与利用测序片 段构建的参考集组合并去冗余, 从而提供最终的参考集。
在一个优选的实施方案中, 所述组装构建模块能够将来自多个样 品的参考集组合在一起,并去冗余,从而构建最终的非冗余的参考集。
在一个优选的实施方案中, 所述比对计算模块通过使用 S0AP2或 MAQ, 将测序片段与参考集进行比对。
在一个优选的实施方案中, 所述比对计算模块使用 S0AP2将测序 片段与参考集进行比对, 并按照下列公式计算出参考集中各元素的相 对丰度:
其中
元素 i在样品中的相对丰度;
': 元素 i的长度;
Xi: 元素 i在样品中被检测到的次数。
在一个优选的实施方案中, 所述丰度分栈模块基于元素在样品中 的相对丰度, 计算两两元素之间的相关性, 然后通过聚类算法, 确定 各个元素的初始栈。
在一个优选的实施方案中, 所述模型分栈模块通过下列来确定元 素所归属的栈:
(i) 将每一个初始栈作为一个独立的多元正态分布模型,并基于 丰度矩阵, 利用最大似然函数法计算所述模型的参数;
(i i) 构建一个软矩阵(fuzzy matrix) , 用于存储每一个元素归 属某一个栈的概率; 和
(i i i) 迭代运算 E步和 M步, 直至似然函数达到最大化:
E 步, 根据每一个栈的模型参数, 分别计算每一个元素属于某一 个栈的后验概率, 并且修改软矩阵中所述元素属于所述栈的概率; M步: 根据软矩阵, 用最大似然函数法计算每一个栈的模型参数。 在一个优选的实施方案中, 所述高级组装模块通过下列来实现其 功能:
( a )通过将测序片段与已分栈的元素进行比对, 从宏基因组测 序数据中寻找对应到所述分栈模块所确定的各个栈的测序片段;
( b M吏用 SOAPdenovo或者使用其他针对微生物数据的组装软件, 将对应到各个栈的测序片段分别进行组装; ( c )使用基于相似度的聚类方法和 /或基于组成特征的聚类方 法, 对每一个栈所包含的元素的分栈进行校正; 任选地, 还在已获得 的栈内部进行再次聚类, 然后根据聚类的结果, 对已获得的栈进行拆 分或保持不变, 从而使结果更加准确可信;
( d )重复步骤(a ) - (c ) , 直到各个栈的基因组序列的大小没 有明显变化为止(总长度增长率小于 5% ) 。
在一个优选的实施方案中, 所述高级组装模块使用 S0AP2来将测 序片段与已分栈的元素进行比对。
在一个优选的实施方案中, 所述高级组装模块使用 GC- depth spectra class if ier 和 /或 tetranucleotide frequencies (TNFs) classif ier进行校正。
在一个优选的实施方案中, 所述鉴定模块通过将各个栈的基因组 序列与已知的基因组数据库进行比对, 从而确定各个栈所对应的微生 物的类别。
在一个优选的实施方案中, 所述基因组数据库包括, 但不限于, NCBI/IMG已测序细菌库, CBI的 NR库等。
在一个优选的实施方案中, 所述鉴定模块在核酸水平和 /或蛋白 水平上进行比对。 在另一个方面, 还提供了本发明的装置用于分析环境样品中的微 生物群落组成的用途。 在一个优选的实施方案中, 所述环境样品来源 于自然环境, 例如土壤环境, 海洋环境和河流环境。 在另一个优选的 实施方案中, 环境样品来源于体内环境, 例如口腔环境和肠道环境。 发明的有益效果
本发明的方法和装置基于高通量测序技术, 利用相同或相似环境 下多个样品的测序数据进行组装, 聚类和再组装, 从而得到微生物群 落的物种组成信息和物种的基因组信息, 有着非常广泛的应用前景。 与现有技术中的传统组装方法相比较, 本发明的方法和装置有如下优 点:
1、 系统地将各种测序序列的属性结合起来, 用于构建微生物群 落的宏基因组的参考集, 这特别适合于微生物物种分类, 以及从来自 同一环境的多个样品的测序数据重 因组;
2、 创造性地将分栈和组装有效地结合在一起, 使物种基因组的 组装结果更加精确, 从而能够实现高效率、 高精度地确定微生物群落 的组成;
3、 首次基于多个样品进行聚类分析, 并进行了迭代高级组装。 利用多个样品进行聚类分析具有有两个显著的优点: a )可以覆 盖更多的低丰度物种, 从而更全面地研究微生物群落; b ) 由于环境 因素, 不同的样品可能具有不同的物种组成和丰度, 从而可以有利地 进行比较研究。 相比之下, 利用单一样本进行的宏基因组学分析通常 只能获得精确的优势物种, 而无法全面地分析微生物群落, 特别是低 丰度物种(参见例如, Hess et al. 2011 ) 。
下面将结合附图和实施例对本发明的实施方案进行详细描述, 但 是本领域技术人员将理解, 下列附图和实施例仅用于说明本发明, 而 不是对本发明的范围的限定。 根据附图和优选实施方案的下列详细描 述, 本发明的各种目的和有利方面对于本领域技术人员来说将变得显 然。 附图说明
图 1示意性地描述了本发明的 SoapMeta方法的流程图, 其中, 虚 线空心框、 实线空心框和实心框示意性表示源自三个不同的物种。
图 2示意性地描述了本发明的 SoapMeta方法的初级组装的流程图。 图 3是示意性地描述了本发明的 SoapMeta方法的分栈的流程图。 图 4是示意性地描述了本发明的 SoapMeta方法的高级组装的¾½ 图。
图 5是描述了用于实施本发明的 SoapMeta方法的装置的结构示 意图。 图 6-8展示了实施例 2中利用第一种策略获得的 3个样品(样品 A-C ) 的 GC含量-测序深度讲图。 图 6: 样品 A; 图 7: 样品 B; 图 8: 样品 C;。 结果显示, 样品 B和样品 C中的一些细菌很难区分, 因为他们 的 GC含量和测序深度非常接近。
图 9展示了本申请实施例 3中通过 16S rRNA测序获得的物种分类 的信息图。
图 10展示了利用 16S rRNA测序法获得的 Akke ansia 16S rRNA标签的数量与利用本发明的 Soapmeta方法组装出来的相应基因组 的测序深度的相关性。
图 11展示了利用 16S rRNA测序法获得的 Lactobacillus 16S rRNA标签的数量与利用本发明的 Soapmeta方法组装出来的相应基因组 的测序深度的相关性。
图 10-11的结^ ^示, 利用 16S rRNA测序法获得的 rRNA标签的数 量与利用本发明的 Soapmeta方法组装出来的相应基因组的测序深度之 间具有很强的相关性。 这些结果表明, 本发明的 Soapmeta方法的结果 与 16S rRNA 测序法的结果是基本上一致的, 再次证实了本发明的 SoapMeta方法的可靠性、 准确性和高效性。 具体实施方式
现参照下列意在举例说明本发明 (而非限定本发明)的实施例来 描述本发明。
除非特别指明, 本发明中所使用的分子生物学实验方法, 基本上 参照 J. Sambrook等人, 分子克隆: 实验室手册, 第 2版, 冷泉港实 验室出版社, 1989 , 以及 F. M. Ausubel等人, 精编分子生物学实验 指南, 第 3版, John Wi ley & Sons, Inc. , 1995中所述的方法进行; 并且各种酶的使用依照产品制造商推荐的条件。 那些在实施例中未详 细描述的过程和方法是本领域中公知的常规方法。 本领域技术人员知 晓, 实施例以举例方式描述本发明, 且不意欲限制本发明所要求保护 的范围。 实施例 1. 模拟环境样品的分析
1、 数据模拟
为了模拟环境样品, 我们从 NCBI基因组数据库(Wheeler et al. 2007)中选取了 100个不同的物种, 这些物种的基因组从变形菌门中 随机选择。 另外, 为了简化模型, 不选择同一物种的不同品系。
我们一共模拟了 10例样品, 每个样品的测序量均为 720 M。 模拟 的末端配对的测序片段的长度为 90bp, 插入片段的大小为 500 ± 20bp (均值 ±标准差), 测序错误率为 0. 1%。 通过 Broken- Stick 模型 (MacArthur 1957)的相对物种丰度 (relative species abundance, RSA) , 来确定每一个样品的物种丰度组成比例。 每一个样品所包含的 大多数细菌的测序量是比较低的 (64%的细菌的 RSA < 0. 01 ) 。 将 10 个样品的测序数据合并后, 这些低丰度细菌的测序量达 13. 6-182. 0 Mbp, 且测序深度为 2. 7 - 160. 4X。
2、 初级组装
我们将所有样品的测序数据(测序片段)合并在一起, 并使用组 装软件 Soapdenovo (Li et al. 2009)进行初步的组装(即, 不单独 对每一个样品的测序数据进行分别的组装)。 在组装后, 对组装结果 进行去冗余, 从而得到非冗余的参考集。
特别地, 在本实验中, 混合样品的初级组装结果(即, 参考集) 共包含 41754条连接片段(contigs ) , 且连接片段的长度范围为 200- 2, 001, 157 bp (N50=93, 353bp) ( N50是衡量基因组图讲盾量的一个判 断标准,其是指,当将所有的组装得到的序列按照长度从大到小排列, 并从大到小将序列的长度相加, 直至相加得到的总长度为所有组装得 到的序列的总长度的百分之五十时,那条组装序列的长度,参见例如, Mi l ler et al. 2010. Assembly algorithms for next generation sequencing data. Genomics. 95 (6) : 315-327 ) 。 将这些连接片段 与原始细菌基因组进行 BLASTN比对。 结果显示, 组装后的连接片段对 原始细菌基因组的平均覆盖度为 88. 7%, 并且每个细菌的覆盖度与测 序深度呈现正相关, 但是, 当测序深度高于 20x时, 参考集的覆盖度 不再发生显著的变化。
使用 S0AP2 , 将测序片段与非冗余参考集进行比对, 并通过下式 计算出参考集中的各连接片段的相对丰度:
其中,
连接片段 i在样品中的相对丰度;
L". 连接片段 i的长度;
χ': 连接片段 i在样品中被检测到的次数。
3、 分栈(bin)
3. 1 基于丰度的分栈(初始分栈)
首先计算丰度矩阵中各连接片段的两两 Kendal l' s tau秩相关系 数; 然后根据连接片段两两之间的相关性, 采用自底向上层次聚类算 法, 将相关性比较密切的片段聚到一个类中, 从而获得初始的栈。
在本实验中,我们还使用默认的聚类参数, 过滤掉了包含小于 10 个连接片段的初始栈, 最终得到 343个初始栈。 这些栈覆盖了 96. 8% 的连接片段(40, 438/41, 754)。
对于每一个初始栈, 我们还给它定义一个属性, "最优的比对细 菌"。也即,如果栈里面大部分的连接片段来自于某一个特定的细菌, 那么这个细菌就是这个初始栈的最优的比对细菌。 另外, 还将栈的精 度定为, 来自最优的比对细菌的连接片段的总长度占栈里面的连接片 段的总长度的百分比。 在本实验中, 初始栈的精度为 50. 3% - 100. 0% (平均值为 95. 1%)。
3. 2 基于模型的分栈
我们接着用基于模型的分栈方法来最优化初始分栈的结果。 简言 之, 1 )将每一个初始栈作为一个独立的多元正态分布模型,并基于丰 度矩阵, 利用最大似然函数法计算所述模型的参数;
2 )构建一个软矩阵(fuzzy matrix) , 用于存储每一个连接片段 归属某一个栈的概率; 3 )迭代运算 E步和 M步, 直至似然函数达到最大化:
E步, 根据每一个栈的模型参数, 分别计算每一个连接片段 属于某一个栈的后验概率, 并且修改软矩阵中所述连接片段属于所述 栈的概率;
M步: 根据软矩阵, 用最大似然函数法计算每一个栈的模型 参数。
在该步骤后, 所获得的栈减少到 135个。 与初始分栈相比, 这些 栈的覆盖度下降到 91. 9% ( 38, 364/41, 754个连接片段) , 且精度下 降到 33. 2% - 100. 0% (平均值 92. 3%)。 在这 135个栈中, 每一个栈代 表一个物种。 基于各个栈中的连接片段的序列, 我们鉴定到了 86个 物种 (86% ) , 且每一个物种的基因组覆盖度超过 50%。
4、 高级组装
高级组装分成以下 3步:
1 )使用 S0AP2, 通过序列比对, 在模拟的测序数据中寻找对应到 之前确定的各个栈的测序片段;
2 )使用 SOAPdenovo分别将对应到各个栈的测序片段进行深度组 装;
3 )使用基于相似度和组成特征的聚类方法, 对每一个栈所包含 的连接片段的分栈进行校正, 并且在已有的栈内部进行再次聚类, 然 后根据再次聚类的结果, 对已有的栈进行拆分或保持不变, 从而使结 果更加准确可信;
4 )重复步骤 1 ) - 3 ), 直到各个栈的基因组序列的大小没有明显 变化为止(总长度增长率小于 5% ) 。
对之前获得的 135个栈进行高级组装之后,得到 148个经组装的 栈。 栈的数目的增加是因为, 我们使用了基于组成特征的聚类方法, 根据 GC含量, 测序深度等特征, 将一个栈里面的一些可以明显再细 分的栈拆开了。
在高级组装后, 栈的平均精度达到 94. 2% (参见, 表 1), 略微高 于前一步的结果。 另外, 当用原始细菌基因组覆盖组装的栈的基因组 时, 结果显示, 覆盖度为 95. 5%; 反之, 当用组装的栈的基因组覆盖 原始细菌基因组时, 覆盖度为 57. 4%。
在这 148个栈中, 基于各个栈的组装的基因组序列, 我们鉴定到 了 100个初始细菌物种中的 95个(95% ) , 且如上所述, 每一个物种 的基因组覆盖度超过 50%。
上述结果表明, 本发明的 SoapMeta方法的特异度较好, 且能够 有效地鉴别出模拟样品中所包含的绝大部分物种 (95% ) 。
表 1. 每一步骤得到的栈的比较
覆盖的初始连 连接片段的平 覆盖的初始细 栈的数量
接片段 (%) 均精度 (%) 菌种类 (%) 初始栈 343 96. 8 95. 1 90
EM迭代后的栈 135 91. 9 92. 3 86 高级組装后的栈 148 - 94. 2 95 实施例 2. 简单环境样品 (纤维素降解菌群) 的分析
本实施例以一个真实的简单环境为例, 对本发明的 SoapMeta方 法进行了进一步的解释说明, 并且通过与传统的分析方法相比较, 证 实了本发明的 SoapMeta方法的优势。 在本实施例中, 我们收集了三个样品 (样品 A、 B、 C ) , 它们分 别来自不同培养^^下的纤维素降解菌群: 从同一沼泽的土壤采集 3 个样品, 并且分别用三种包含不同碳源 (滤纸、 纤维二糖、 葡萄糖) 的培养基在 37 Ό下培养 52小时, 然后分别收获菌体, 从而获得样品 A、 B、 Co针对每一个样品, 我们分别构建了一个测序文库(参数设置: 末端配对的测序片段的长度为 90bp, 插入片段的大小为 500 ± 20bp) : 首先用 HiSeq2000 对样品进行测序, 从而得到原始测序片段(raw reads); 然后, 过滤掉其中的低质量序列和接头序列, 从而提供 3. 88Gb 的用于分析的宏基因组测序数据 ( 3个样品的测序数据的总 和) 。 在在本本实实施施例例中中,, 我我们们应应用用了了两两种种策策略略来来构构建建微微生生物物的的基基因因组组。。 第第 一一种种策策略略是是,, 使使用用传传统统的的分分析析方方法法,, 对对每每个个样样品品分分别别进进行行测测序序数数据据的的 组组装装,,从从而而构构建建微微生生物物的的基基因因组组((参参见见,, MMEEGGAANN ((HHuussoonneett aall.. 22000077)) ));; 第第二二种种策策略略是是,, 使使用用本本发发明明的的 SSooaappMMeettaa方方法法,, 将将所所有有样样品品的的测测序序数数 据据混混合合在在一一起起,, 然然后后进进行行初初级级组组装装,, 分分栈栈和和高高级级组组装装,, 从从而而构构建建微微生生 物物的的基基因因组组。。 将将第第一一种种策策略略用用作作对对照照,, 以以证证实实本本发发明明的的 SSooaappMMeettaa方方 法法在在多多个个样样品品的的混混合合组组装装方方面面的的优优势势。。
在在第第一一种种策策略略下下,, 用用基基于于组组成成特特征征的的聚聚类类方方法法对对来来自自单单个个样样品品的的 测测序序片片段段进进行行聚聚类类,, 以以判判别别样样品品中中潜潜在在的的微微生生物物。。 对对于于所所使使用用的的 33个个 样样品品,,我我们们分分别别得得到到了了 66个个类类 ((样样品品 AA)),, 22个个类类 ((样样品品 BB)),,和和 33个个类类 ((样样 品品 CC))。。 这这 33个个样样品品各各自自的的 GGCC图图 ((参参见见图图 66--88 ))显显示示,, 样样品品 BB和和样样品品 CC 中中的的一一些些细细菌菌很很难难区区分分,, 因因为为他他们们的的 GGCC含含量量和和测测序序深深度度非非常常接接近近。。
在在第第二二种种策策略略下下,, 我我们们首首先先在在初初级级组组装装中中得得到到了了连连接接片片段段的的相相对对 丰丰度度。。 进进一一步步,, 通通过过使使用用本本发发明明的的 SSooaappMMeettaa方方法法,, 我我们们从从 33个个样样品品 的的混混合合测测序序数数据据中中鉴鉴定定到到了了 1100个个栈栈,, 其其中中有有 99个个栈栈的的组组装装的的基基因因组组 序序列列大大于于 llMMbbpp,, 并并且且这这 1100个个栈栈的的基基因因组组序序列列总总长长覆覆盖盖了了所所有有样样品品测测 序序数数据据的的 8899.. 55%%。。 在在这这 1100个个栈栈中中,,每每一一个个栈栈对对应应一一个个潜潜在在的的物物种种。。 随随 后后,, 我我们们对对每每个个栈栈的的组组装装的的基基因因组组序序列列进进行行了了 TTBBLLAASSTTXX比比对对,, 以以确确定定 各各个个栈栈所所对对应应的的潜潜在在的的物物种种,, 结结果果见见表表 22。。
表表 22的的结结果果显显示示,, 在在这这 1100个个栈栈中中,, 有有 66个个栈栈的的组组装装的的基基因因组组序序 列列很很纯纯((即即,, 基基本本上上对对应应至至同同一一个个微微生生物物物物种种的的基基因因组组)) :: 短短短短芽芽孢孢 杆杆菌菌 NNBBRRCC 110000559999 ((BBrreevvii bbaacciilllluuss bbrreevviiss WWBBRRCC 1100005599 ))、、救救、、 结结簧簧孢孢 杆杆菌菌 22——66 ((BBaacciilllluuss ccooaagguullaannss 22--66))、、耐耐盐盐芽芽抱抱杆杆菌菌 CC—— 112255 {{BBaacciilllluuss hhaalloodduurraannss CC--1122SS)) ,,肉肉毒毒梭梭菌菌 ΑΑ22 KKyyoottoo CClloossttrriiddiiuumm bboottuulliinnuumm AA22 KKyyoottoo)) ,,热热解解纤纤维维梭梭菌菌 AATTCCCC 2277440055 {{CClloossttrriiddiiuumm tthheemmoocceelllluumm AATTCCCC 22774400$$)) ,,热热解解纤纤维维梭梭菌菌 AATTCCCC 2277440055 {{CClloossttrriiddiiuumm tthheemmoocceelllluumm AATTCCCC 227744 OOSS)),, 、、CClloossttrriiddiiwwnn tthheerrmmoocceelllluuiinn))
菌 (Weimer and Zeikus 1977; Bayer et al. 1983; 和 Schwarz 2001)。 此外, 其中的短芽抱杆菌(5reW6a '//i/5 和芽抱 杆菌( c///i/5 也已知具有纤维降解能力(Liang et al. 2009; Li et al. 2006; 和 Rastogi et al. 2009)。
从上面的结果可知, 本发明的 SoapMeta策略不仅在精度和覆盖 度上显著优于第一种策略(即,基因组覆盖度更全,分类准确度更高), 而且能够更有效、 更精确地鉴定环境样品的微生物组成。 表 2、 纤维素降解菌群的组装基因组总表
^品^序 度 相当于第一神策略 '吳
我 连接片段 总长度 覆盖.
最^近细 §基¾ i
數量 手均相似度 )
未知 种
未知物种
未知^种
^知 种 注: 图中的 *表示, 该栈包含有多个物种的序列, 并且无法进一 步明确区分。 例如, B1*表示, 栈 B1中含有无法进一步区分的多个物 种的序列 (在使用第二种策略的方法中, 栈 B1 中的这些物种被进一 步区分为短短芽孢杆菌 NBRC 100599和热解纤维梭菌 ATCC 27405 ) 。 实施例 3. 复杂环境样品 (小鼠肠道菌群) 的分析
本实施例以一个真实的复杂环境为例, 示例性地展示了本发明的 SoapMeta方法在小鼠肠道菌群的探测中的应用。 本实验采用了两种常见的小鼠, SV- 129和 C57Black/6 (Fuj i i et al. 1997)。在现实中, 小鼠肠道的菌群的相对丰度会随着年龄,性别, 饮食等等因素的变化而变化, 但是如果小鼠的饮食固定, 且环境固定 的话, 这些菌群的微生物组成一般不会有太大的变动。 因此, 可以利 用本发明的 SoapMeta方法来研究特定环境、 特定饮食下小鼠的肠道 菌群的微生物组成, 并构建菌群物种的基因组。
收集了 13个粪便样品 (其中 6个样品来自 SV- 129小鼠, 7个样 品来自 C57Black/6小鼠) , 并构建了测序文库(参数设置: 末端配对 的测序片段的长度为 90bp, 插入片段的大小为 350 ± 15bp) : 首先用 HiSeq2000对样品进行测序, 从而得到原始测序片段(raw reads); 然 后, 过滤掉其中的低盾量序列、 接头序列以及小鼠基因组序列, 从而 获得 3. 96 ± 0. 55Gbp (每个样品的平均测序数据) 的用于分析的宏基 因组测序数据。
根据本发明的 SoapMeta方法:
首先, 对样品的宏基因组测序数据进行了初级组装, 得到 246. IMb 的连接片段集(n=180, 056个, 50=2, 613bp);
然后, 进行了分栈, 得到 325个栈(将序列含量低于 lOOKbp的 栈过滤掉) , 这些栈的总序列含量为 213. 6Mbp (86. 8%) , 并且其中有 56个栈的序列含量大于 IMbp;
最后, 对上述序列含量大于 IMbp的 56个栈进行了高级组装, 最 终得到 57个基因组(栈) , 其总序列含量达 14L 6Mbp (每个基因组 的平均序列含量为 2. 48Mbp ) , 并且覆盖了 49. 5%的测序片段。 结果 概述于表 3中。
使用 BLASTN (核酸水平)和 TBLASTX (蛋白水平) , 将高级组装 得到的栈与已知的基因组数据库进行比对。 结果显示, 有 8个栈在核 酸水平上与已知的物种十分接近: 它们均具有高于 90%的精度和高于 95%的序列相似度。 此外, 还有 48个栈在蛋白水平上与已知的物种高 度同源: 它们均具有高于 70%的精度和高于 50%的序列相似度。 另外, 还有 1个栈比对到未知的物种。 表 3: 57个基因组(栈) 的详细信息
为了验证上述结果, 我们通过 Solexa 测序法对这些样品的 16S rRNA ( V6高变区)进行了测序, 得到高质量的 3· 63 ± 0· 68Μ (均值士 标准差)的 16S rRNA标签(tags) (已过滤掉接头序列, 低盾量序列, 重 叠序列和引物序列)。 利用 BLASTN, 将这些 16S rRNA标签与 RefSSU 数据库(Huse et al. 2010)进行比对。 结果示于图 9中。 结果显示, 小 鼠肠道菌群中, 丰度较高的微生物是: 職 ^^Lachnospiracea )、 #L^f S>¾ (Lactobacillus) . j5'J (Allobaculum) . 阿克曼氏菌 属 (Akker ansia)、 Ruminococca ea L头杆菌属 {Papillibacter)、 拟杆菌属 {Bacteroides)和脱疏 ¾ 菌科 {Desulfo vi briona cea e ) 。 这 些细菌大部分能够被本发明的 SoapMeta方法组装出来的基因组覆盖, 这充分表明,本发明的 SoapMeta方法能够高效、精确地鉴定环境样品 中的微生物组成。
另夕卜, 我们还将 Akkermansia属和 Lactobacillus 16S rR A 标签的数量与用 Soapmeta方法组装出来的基因组的测序深度做比较。 结果显示, 它们之间具有很强的相关性(参见图 10-11)。 这再次表明 了本发明的 SoapMeta方法的准确性和高效性。 尽管本发明的具体实施方式已经得到详细的描述, 但本领域技术 人员将理解: 根据已经公开的所有教导, 可以对细节进行各种修改和 变动, 并且这些改变均在本发明的保护范围之内。 本发明的全部范围 由所附权利要求及其任何等同物给出。

Claims (10)

  1. 利 要 求
    1. 一种用于分析环境样品中的微生物群落组成的方法, 其包括以 下步骤:
    1 )测序:
    对来自环境样品的基因组 DNA进行构建文库和测序,从而获得由测 序片段池构成的宏基因组测序数据;
    2 )初级组装:
    2a )构建或完善参考集:对测序片段进行组装以得到组装片段, 然后去冗余, 从而构建非冗余的参考集; 或者, 可在所获得的组装片段 上预测基因, 并将预测出来的基因的集合作为参考集; 或者, 如果针对 所述环境样品, 存在已知的参考集, 那么直接将它作为参考集, 或者将 该已知的参考集与如上所述构建的参考集组合并去冗余,从而获得最终 的参考集;
    2b )构建元素相对丰度讲矩阵: 将所述测序片段与参考集进行 比对, 并计算参考集中的各个元素在样品中的相对丰度;
    3 )分栈, 即, 通过下述步骤确定参考集中的每一个元素所归属的 栈, 得到聚类的栈:
    3a )基于丰度的分栈: 基于元素在样品中的相对丰度, 使用聚 类算法, 例如自底向上的层次聚类方法, 确定各个元素的初始栈; 和
    3b )基于模型的分栈:
    (i) 将每一个初始栈作为一个独立的多元正态分布模型, 并基于丰度矩阵, 利用最大似然函数法计算所述模型的参数;
    (ϋ) 构建一个软矩阵, 用于存储每一个元素归属某一个 栈的概率; 和
    (i i i) 迭代运算 E步和 M步, 直至似然函数达到最大化: E步, 根据每一个栈的模型参数, 分别计算每一个元素属于某一个 栈的后验概率, 并且修改软矩阵中所述元素属于所述栈的概率;
    M步: 根据软矩阵, 用最大似然函数法计算每一个栈的模型参数;
    4 )基于栈的高级组装: 4a )通过将测序片段与已分栈的元素进行比对, 从宏基因组测 序数据中寻找对应到之前确定的各个栈的测序片段;
    4b )使用 SOAPdenovo或者使用其他针对微生物测序数据的组 装软件, 将对应到各个栈的测序片段分别进行组装;
    4c )使用基于相似度的聚类方法和 /或基于组成特征的聚类方 法, 对每一个栈所包含的元素的分栈进行校正; 任选地, 还在已获得的 栈内部进行再次聚类, 然后根据聚类的结果, 对已获得的栈进行拆分或 保持不变;
    4d )重复步骤 4a ) - 4c ) , 直到各个栈的基因组序列的大小无 明显变化为止(总长度增长率小于 5% ) ;
    5 )鉴定:
    利用各个栈的基因组序列, 确定各个栈所对应的微生物的类别, 从 而确定所述环境样品中的微生物群落组成。
  2. 2. 权利要求 1的方法, 其中,
    例如, 所述环境样品来源于自然环境, 例如土壤环境, 海洋环境和 河流环境; 或者所述环境样品来源于体内环境, 例如口腔环境和肠道环 境;
    例如,在步骤 1 )中使用第二代测序技术(例如, 454测序法, Solexa 测序法, SOLiD测序法或单分子测序法)或第三代测序技术对环境样品 所包含的微生物群落的宏基因组进行测序,从而提供来自环境样品的宏 基因组测序数据;
    例如, 在步骤 1 ) 中通过下列步骤来获得宏基因组测序数据:
    la )提供环境样品;
    lb )从所述环境样品中提取宏基因组 DNA;
    lc )利用所述宏基因组 DNA构 基因组文库;
    Id )对所述宏基因组文库进行测序, 优选使用 Solexa测序法 进行测序, 从而提供所述环境样品的宏基因组测序数据;
    例如, 所述测序片段是末端配对的测序片段; 例如, 在进行步骤 2 )之前, 对测序数据进行预处理, 即, 去除接 头序列、 测序质量低的序列和 /或宿主基因组序列;
    例如, 对来自相同或相似环境的多个样品进行测序, 并将所有样品 的测序数据组合在一起, 构成宏基因组测序数据;
    例如, 宏基因组的测序深度为至少 10 x, 优选至少 20 χ, 优选至 少 30 X, 优选至少 40 , 更优选至少 50 。
  3. 3. 权利要求 1或 2的方法, 其中, 在步骤 2 ) 中
    例如, 使用 Soapdenovo将所述测序片段组装成组装片段(例如, 连接片段和 /或拼接片段)
    例如, 将来自多个样品的参考集组合在一起, 并去冗余, 从而构建 最终的非冗余的参考集;
    例如, 使用 S0AP2或 MAQ比对软件, 将所述测序片段与参考集进行 比对;
    例如, 使用 S0AP2将测序片段与参考集进行比对, 并按照下列公式 计算出参考集中的各元素的相对丰度:
    其中
    元素 i在样品中的相对丰度;
    ': 元素 i的长度;
    Xi: 元素 i在样品中被检测到的次数。
  4. 4. 权利要求 1-3任一项的方法, 其中,
    例如, 在步骤 3 ) 中, 通过下列步骤来确定元素的初始栈: 首先, 基于元素在样品中的相对丰度, 计算两两元素之间的相关性, 例如 pearson相关系数, spearman相关系数, kendal l相关系数, 欧几里得 距离, 曼哈顿距离等; 然后, 根据两两元素之间的相关性, 通过聚类算 法, 如自底向上层次聚类等, 将相关性密切的元素聚到一个类中, 从而 确定各个元素的初始栈;
    例如, 在步骤 4 ) 中, 使用 S0AP2来将测序片段与已分栈的元素进 行比对;
    例如, 在步骤 4 ) 中, 使用 GC- depth spectra class if ier和 /或 tetranucleotide frequencies (TNFs) classif ier进行校正。
  5. 5. 权利要求 1-4任一项的方法, 其中, 在步骤 5 ) 中,
    例如, 通过将各个栈的基因组序列与已知的基因组数据库进行比 对, 从而确定各个栈所对应的微生物的类别;
    例如, 所述基因组数据库选自下列: NCBI/IMG已测序细菌库, NCBI 的 NR库;
    例如, 所述比对是核酸水平和 /或蛋白水平的比对。
  6. 6. 一种用于分析环境样品中的微生物群落组成的装置, 其包括以 下模块:
    1 )测序模块, 其用于对来自环境样品的宏基因组 DNA进行测序, 提供由测序片段池构成的宏基因组测序数据;
    2 )初级组装模块, 其与测序模块相连, 且包括彼此相连的下列模 块:
    2a )组装构建模块, 其用于对测序片段进行组装以得到组装片 段, 然后去冗余, 从而构建非冗余的参考集; 任选地, 所述组装构建模 块还可在所获得的组装片段上预测基因,并将预测出来的基因的集合作 为参考集; 和
    2b )比对计算模块, 其用于将测序片段与参考集进行比对, 并 计算参考集中的各个元素在样品中的相对丰度;
    3 )分栈模块, 其与初级组装模块相连, 用于确定参考集中的每一 个元素所归属的栈, 得到聚类的栈, 且包括彼此相连的下列模块:
    3a )丰度分栈模块, 其基于丰度确定各个元素的初始栈; 和 3b )模型分栈模块, 其基于模型确定各个元素所归属的栈; 4 ) 高级组装模块, 其与测序模块和分栈模块相连, 其用于从宏基 因组测序数据中寻找对应到各个栈的测序片段,并将对应到各个栈的测 序片段分别进行组装, 且对组装结果进行^ £及调整; 和
    5 )鉴定模块, 其与高级组装模块相连, 用于通过各个栈的基因组 序列, 确定各个栈所对应的微生物的类别, 从而确定所述环境样品中的 微生物群落组成。
  7. 7. 权利要求 6的装置, 其中,
    例如, 所述环境样品来源于自然环境, 例如土壤环境, 海洋环境和 河流环境; 或者, 所述环境样品来源于体内环境, 例如口腔环境和肠道 环境;
    例如,所述测序模块使用第二代测序技术(例如 454测序法, Solexa 测序法, SOLiD测序法或单分子测序法)或第三代测序技术对环境样品 所包含的微生物群落的宏基因组进行测序,从而提供来自环境样品的宏 基因组测序数据;
    例如, 所述装置还包括彼此相连的 DNA提取模块和文库构建模块, 其中, 所述 DNA提取模块用于从所述环境样品中提取宏基因组 DNA, 并 且, 所述文库构建模块与测序模块相连, 且利用所述宏基因组 DNA构建 基因组文库;
    例如, 所述测序模块所获得的测序片段是末端配对的测序片段; 例如, 所述装置还包含过滤模块, 其与测序模块和初级组装模块相 连, 用于在进行初级组装之前, 去除测序片段中的接头序列、 测序质量 低的序列和 /或宿主基因组序列;
    例如,所述测序模块对宏基因组的测序深度为至少 10 X,优选至少
    20 X, 优选至少 30 X, 优选至少 40 X, 更优选至少 50 χ。
  8. 8. 权利要求 6或 7的装置, 其中,
    例如, 所述组装构建模块使用 Soapdenovo将测序片段组装成连接 片段和 /或拼接片段; 例如, 所述组装构建模块还包含接收亚模块, 其用于接收已知的参 考集; 优选地, 所述组装构建模块将所接收的已知参考集作为最终的参 考集,或者将所接收的已知参考集与利用测序片段构建的参考集组合并 去冗余, 从而提供最终的参考集;
    例如, 所述组装构建模块能够将来自多个样品的参考集组合在一 起, 并去冗余, 从而构建最终的非冗余的参考集;
    例如, 所述比对计算模块通过使用 S0AP2或 MAQ, 将测序片段与参 考集进行比对;
    例如,所述比对计算模块使用 S0AP2将测序片段与参考集进行比对, 并按照下列公式计算出参考集中各元素的相对丰度:
    其中
    元素 i在样品中的相对丰度;
    ': 元素 i的长度;
    Xi: 元素 i在样品中被检测到的次数。
  9. 9. 权利要求 6-8任一项的装置, 其中,
    例如, 所述丰度分栈模块基于元素在样品中的相对丰度, 计算两两 元素之间的相关性, 然后通过聚类算法, 确定各个元素的初始栈;
    例如, 所述模型分栈模块通过下列来确定元素所归属的栈:
    (i) 将每一个初始栈作为一个独立的多元正态分布模型,并基 于丰度矩阵, 利用最大似然函数法计算所述模型的参数;
    (ϋ) 构建一个软矩阵, 用于存储每一个元素归属某一个栈的 概率; 和
    (i i i) 迭代运算 E步和 M步, 直至似然函数达到最大化:
    E步, 根据每一个栈的模型参数, 分别计算每一个元素属于某一个 栈的后验概率, 并且修改软矩阵中所述元素属于所述栈的概率;
    M步: 根据软矩阵, 用最大似然函数法计算每一个栈的模型参数; 例如, 所述高级组装模块通过下列来实现其功能:
    ( a )通过将测序片段与已分栈的元素进行比对, 从宏基因组 测序数据中寻找对应到分栈模块所确定的各个栈的测序片段;
    ( b )使用 SOAPdenovo或者使用其他针对微生物数据的组装软 件, 将对应到各个栈的测序片段分别进行组装;
    ( c )使用基于相似度的聚类方法和 /或基于组成特征的聚类方 法, 对每一个栈所包含的元素的分栈进行校正; 任选地, 还在已获得的 栈内部进行再次聚类, 然后才艮据聚类的结果, 对已获得的栈进行拆分或 保持不变;
    ( d )重复步骤(a ) - (c ) , 直到各个栈的基因组序列的大小 没有明显变化为止(总长度增长率小于 5% ) ;
    例如, 所述高级组装模块使用 S0AP2来将测序片段与已分栈的元素 进行比对;
    例如, 所述高级组装模块使用 GC- depth spectra class if ier和 / tetranucleotide frequencies (TNFs) class if ier进行校正; 例如, 所述鉴定模块通过将各个栈的基因组序列与已知的基因组数 据库进行比对, 从而确定各个栈所对应的微生物的类别; 优选地, 所述 基因组数据库选自 NCBI/IMG已测序细菌库和 /或 NCBI的 NR库;优选地, 所述鉴定模块在核酸水平和 /或蛋白水平上进行比对。
  10. 10. 权利要求 6-9任一项的装置用于分析环境样品中的微生物群落 组成的用途, 其中,
    例如, 所述环境样品来源于自然环境, 例如土壤环境, 海洋环境和 河流环境; 或者, 所述环境样品来源于体内环境, 例如口腔环境和肠道 环境。
CN201280064063.2A 2012-08-01 2012-08-01 一种分析微生物群落组成的方法和装置 Active CN104039982B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/079492 WO2014019164A1 (zh) 2012-08-01 2012-08-01 一种分析微生物群落组成的方法和装置

Publications (2)

Publication Number Publication Date
CN104039982A true CN104039982A (zh) 2014-09-10
CN104039982B CN104039982B (zh) 2015-09-09

Family

ID=50027091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280064063.2A Active CN104039982B (zh) 2012-08-01 2012-08-01 一种分析微生物群落组成的方法和装置

Country Status (4)

Country Link
US (1) US20150242565A1 (zh)
CN (1) CN104039982B (zh)
HK (1) HK1196642A1 (zh)
WO (1) WO2014019164A1 (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016119190A1 (en) * 2015-01-30 2016-08-04 Bgi Shenzhen Biomarkers for colorectal cancer related diseases
WO2017156739A1 (zh) * 2016-03-17 2017-09-21 上海锐翌生物科技有限公司 分离的核酸及应用
CN107287332A (zh) * 2017-08-03 2017-10-24 华子昂 利用smrt测序技术进行液体酵素菌种鉴定的方法
CN110349629A (zh) * 2019-06-20 2019-10-18 广州赛哲生物科技股份有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111261231A (zh) * 2019-12-03 2020-06-09 康美华大基因技术有限公司 肠道菌群宏基因组数据库构建方法、分析方法及装置
CN111455021A (zh) * 2019-01-18 2020-07-28 广州微远基因科技有限公司 去除宏基因组中宿主dna的方法及试剂盒
CN111477267A (zh) * 2020-03-06 2020-07-31 清华大学 微生物的多关联网络计算方法、装置、设备及存储介质
CN111627500A (zh) * 2020-04-16 2020-09-04 中国科学院生态环境研究中心 一种基于宏基因组技术识别水体中携带毒性因子病原菌的方法
CN112786102A (zh) * 2021-01-25 2021-05-11 北京大学 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法
CN113284560A (zh) * 2021-04-28 2021-08-20 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用
CN113362890A (zh) * 2021-04-28 2021-09-07 中国科学院生态环境研究中心 一种评价生物滤料降解有机物潜力的方法
CN113611359A (zh) * 2021-08-13 2021-11-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
WO2022028624A1 (zh) * 2020-08-07 2022-02-10 西安中科茵康莱医学检验有限公司 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备
CN114999574A (zh) * 2022-08-01 2022-09-02 中山大学 一种肠道菌群大数据的并行识别分析方法及系统
CN111455021B (zh) * 2019-01-18 2024-06-04 广州微远医疗器械有限公司 去除宏基因组中宿主dna的方法及试剂盒

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015048595A1 (en) 2013-09-27 2015-04-02 Jay Shendure Methods and systems for large scale scaffolding of genome assemblies
CN105095688A (zh) * 2014-08-28 2015-11-25 吉林大学 检测人体肠道宏基因组的细菌群落及丰度的方法
CN104278091A (zh) * 2014-09-26 2015-01-14 上海交通大学 以废水处理样品微生物元基因组序列拼接细菌基因组的方法
CN105925664A (zh) * 2016-03-30 2016-09-07 广州精科生物技术有限公司 一种确定核酸序列的方法及系统
CN105950707A (zh) * 2016-03-30 2016-09-21 广州精科生物技术有限公司 一种确定核酸序列的方法及系统
US20190318807A1 (en) * 2016-10-26 2019-10-17 The Joan & Irwin Jacobs Technion-Cornell Institute Systems and methods for ultra-fast identification and abundance estimates of microorganisms using a kmer-depth based approach and privacy-preserving protocols
CN106778078B (zh) * 2016-12-20 2019-04-09 福建师范大学 基于kendall相关系数的DNA序列相似性比对方法
US10733214B2 (en) 2017-03-20 2020-08-04 International Business Machines Corporation Analyzing metagenomics data
CN107028606A (zh) * 2017-04-21 2017-08-11 上海耐相智能科技有限公司 医用智能监测环系统
US20200160936A1 (en) * 2017-06-28 2020-05-21 Icahn School Of Medicine At Mount Sinai Methods for high-resolution microbiome analysis
TWI629607B (zh) * 2017-08-15 2018-07-11 極諾生技股份有限公司 建立腸道菌數據庫的方法和相關檢測系統
CN108197434B (zh) * 2018-01-16 2020-04-10 深圳市泰康吉音生物科技研发服务有限公司 去除宏基因组测序数据中人源基因序列的方法
CN109587001B (zh) * 2018-11-15 2020-11-27 新华三信息安全技术有限公司 一种性能指标异常检测方法及装置
WO2020252320A1 (en) * 2019-06-13 2020-12-17 Icahn School Of Medicine At Mount Sinai Dna methylation based high resolution characterization of microbiome using nanopore sequencing
CN110277139B (zh) * 2019-06-18 2023-03-21 江苏省产品质量监督检验研究院 一种基于互联网的微生物限度检查系统及方法
CN111161798B (zh) * 2019-12-31 2024-03-19 余珂 宏基因组的重组装方法、重组装装置及终端设备
CN112071366B (zh) * 2020-10-13 2024-02-27 南开大学 一种基于二代测序技术的宏基因组数据分析方法
WO2022222936A1 (en) * 2021-04-20 2022-10-27 Hangzhou Matridx Biotechnology Co., Ltd. Methods, computer-readble media, and systems for filtering noises for dna sequencing data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102517392A (zh) * 2011-12-26 2012-06-27 深圳华大基因研究院 基于宏基因组16s高可变区v3的分类方法和装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107208149A (zh) * 2015-01-30 2017-09-26 深圳华大基因研究院 结直肠癌相关疾病的生物标志物
CN107208149B (zh) * 2015-01-30 2021-09-21 深圳华大生命科学研究院 结直肠癌相关疾病的生物标志物
WO2016119190A1 (en) * 2015-01-30 2016-08-04 Bgi Shenzhen Biomarkers for colorectal cancer related diseases
WO2017156739A1 (zh) * 2016-03-17 2017-09-21 上海锐翌生物科技有限公司 分离的核酸及应用
CN109072306A (zh) * 2016-03-17 2018-12-21 上海锐翌生物科技有限公司 分离的核酸及应用
CN107287332A (zh) * 2017-08-03 2017-10-24 华子昂 利用smrt测序技术进行液体酵素菌种鉴定的方法
CN111455021B (zh) * 2019-01-18 2024-06-04 广州微远医疗器械有限公司 去除宏基因组中宿主dna的方法及试剂盒
CN111455021A (zh) * 2019-01-18 2020-07-28 广州微远基因科技有限公司 去除宏基因组中宿主dna的方法及试剂盒
CN110349629A (zh) * 2019-06-20 2019-10-18 广州赛哲生物科技股份有限公司 一种利用宏基因组或宏转录组检测微生物的分析方法
CN111261231A (zh) * 2019-12-03 2020-06-09 康美华大基因技术有限公司 肠道菌群宏基因组数据库构建方法、分析方法及装置
CN111477267B (zh) * 2020-03-06 2022-05-03 清华大学 微生物的多关联网络计算方法、装置、设备及存储介质
CN111477267A (zh) * 2020-03-06 2020-07-31 清华大学 微生物的多关联网络计算方法、装置、设备及存储介质
CN111627500A (zh) * 2020-04-16 2020-09-04 中国科学院生态环境研究中心 一种基于宏基因组技术识别水体中携带毒性因子病原菌的方法
WO2022028624A1 (zh) * 2020-08-07 2022-02-10 西安中科茵康莱医学检验有限公司 通过测序获取微生物物种及相关信息的方法、装置、计算机可读存储介质和电子设备
CN112786102A (zh) * 2021-01-25 2021-05-11 北京大学 一种基于宏基因组学分析精准识别水体中未知微生物群落的方法
CN113362890A (zh) * 2021-04-28 2021-09-07 中国科学院生态环境研究中心 一种评价生物滤料降解有机物潜力的方法
CN113284560A (zh) * 2021-04-28 2021-08-20 广州微远基因科技有限公司 病原检测背景微生物判断方法及应用
CN113362890B (zh) * 2021-04-28 2023-09-08 中国科学院生态环境研究中心 一种评价生物滤料降解有机物潜力的方法
CN113611359A (zh) * 2021-08-13 2021-11-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN113611359B (zh) * 2021-08-13 2022-08-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN114999574A (zh) * 2022-08-01 2022-09-02 中山大学 一种肠道菌群大数据的并行识别分析方法及系统
CN114999574B (zh) * 2022-08-01 2022-12-27 中山大学 一种肠道菌群大数据的并行识别分析方法及系统

Also Published As

Publication number Publication date
CN104039982B (zh) 2015-09-09
WO2014019164A1 (zh) 2014-02-06
HK1196642A1 (zh) 2014-12-19
US20150242565A1 (en) 2015-08-27

Similar Documents

Publication Publication Date Title
CN104039982A (zh) 一种分析微生物群落组成的方法和装置
Prior et al. Genomic and proteomic evidence supporting the division of the plant pathogen Ralstonia solanacearum into three species
Wu et al. A novel abundance-based algorithm for binning metagenomic sequences using l-tuples
Eren et al. Oligotyping: differentiating between closely related microbial taxa using 16S rRNA gene data
Kermarrec et al. Next‐generation sequencing to inventory taxonomic diversity in eukaryotic communities: a test for freshwater diatoms
CN104603283B (zh) 确定异常状态相关生物标志物的方法及系统
CN106055924B (zh) 微生物操作分类单元确定和序列辅助分离的方法和系统
EP3701533A1 (en) Latent representations of phylogeny to predict organism phenotype
Preheim et al. Computational methods for high-throughput comparative analyses of natural microbial communities
DK3146070T5 (en) Sequencing Process
CN104540962A (zh) 糖尿病生物标志物及其应用
Froslev et al. Algorithm for post-clustering curation of DNA amplicon data yields reliable biodiversity estimates
Sengupta et al. Bacterial community dissimilarity in soils is driven by long‐term land‐use practices
Dextro et al. Trends in free‐access genomic data accelerate advances in cyanobacteria taxonomy
CN111161795A (zh) 肠道微生物测序数据处理方法、装置、存储介质及处理器
Walters et al. Technology and techniques for microbial ecology via DNA sequencing
Skotniczny et al. Molecular Detection and Identification of Plant-Associated Lactiplantibacillus plantarum
CN110819704A (zh) 用于改善基于扩增子测序的微生物群落分类学解析的方法和系统
Genitsaris et al. Marine microbial community structure assessed from combined metagenomic analysis and ribosomal amplicon deep-sequencing
Paulson Normalization and differential abundance analysis of metagenomic biomarker-gene surveys
Lee et al. FCMM: A comparative metagenomic approach for functional characterization of multiple metagenome samples
Woloszynek et al. Analysis methods for shotgun metagenomics
CN211578386U (zh) 一种宏基因组分析装置
Wang Introduction to Computational Metagenomics
Debras Analysis of secondary metabolite biosynthetic gene clusters in lichen metagenomes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1196642

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1196642

Country of ref document: HK

CP01 Change in the name or title of a patent holder

Address after: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee after: BGI SHENZHEN

Patentee after: Shenzhen Huada Gene Technology Co., Ltd.

Address before: 518083 comprehensive building, Beishan Industrial Zone, Yantian District, Guangdong, Shenzhen

Patentee before: BGI SHENZHEN

Patentee before: Shenzhen Huada Gene Technology Co., Ltd.

CP01 Change in the name or title of a patent holder