CN103246829A - 宏基因组序列的组装 - Google Patents

宏基因组序列的组装 Download PDF

Info

Publication number
CN103246829A
CN103246829A CN2012101707773A CN201210170777A CN103246829A CN 103246829 A CN103246829 A CN 103246829A CN 2012101707773 A CN2012101707773 A CN 2012101707773A CN 201210170777 A CN201210170777 A CN 201210170777A CN 103246829 A CN103246829 A CN 103246829A
Authority
CN
China
Prior art keywords
grand genome
sequence
grand
vector
grid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101707773A
Other languages
English (en)
Other versions
CN103246829B (zh
Inventor
沙米拉·谢克哈·马休
塔里尼·山卡·果时
瓦伦·梅拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tata Consultancy Services Ltd
Original Assignee
Tata Consultancy Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tata Consultancy Services Ltd filed Critical Tata Consultancy Services Ltd
Publication of CN103246829A publication Critical patent/CN103246829A/zh
Application granted granted Critical
Publication of CN103246829B publication Critical patent/CN103246829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

本发明描述了用于组装宏基因组序列的系统和方法。在一个实施例中,在三维空间中表示多个宏基因组序列,以获得多个序列向量。基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,使得所述立方体包含所述多个宏基因组序列。进一步地,基于遍历所述多个网格,将多个宏基因组序列组装成一个或多个重叠群。在一个实施例中,组装一个或多个重叠群,使得一个重叠群包括可能源自同一基因组的宏基因组序列。

Description

宏基因组序列的组装
技术领域
本发明大体涉及宏基因组领域,特别地,涉及构成宏基因组数据的序列的组装。
背景技术
通过对基因材料进行测序,对从环境样品中直接获取的基因材料的研究,被称为宏基因组学。宏基因组学提供了有关环境样品中存在的各种有机体的遗传多样性和生理机能的信息。
在基因组研究中涉及的设备(例如研究实验室或诊室)一般使用高通量平台(例如下一代测序(NGS)平台),该平台每年能够生成数量庞大的宏基因组数据。可以进一步分析由此生成的宏基因组数据,例如,来确定宏基因组数据中存在的各种有机体,以及来鉴别它们包括的各种基因的功能作用。通常地,为了进一步的分析和将来的研究,可以将宏基因组数据储存起来。因此,每年都生成数量庞大的、数百千兆字节(TB)范围内的宏基因组数据,这些数据被储存于库中以用于将来的研究。
为了分析这些宏基因组数据,通常将构成宏基因组数据的核苷酸序列(例如DNA或RNA序列)组装成称为重叠群(contigs)的较大序列。组装过程一般涉及到对核苷酸序列进行成对比较并进行以百万计的编号,因此需要巨大的计算资源和基础设施。进一步地,若试图组装核苷酸序列,该序列来源于属于不同分类群的大量有机体的基因组,则可能导致错误的嵌合序列的形成,这会对宏基因组数据的分析结果造成影响。
发明内容
本概要被提供来介绍与宏基因组序列的组装相关的概念,该概念在下面的详细说明中会进一步描述。本概要并不旨在鉴别要求保护的主题的本质特征,也不旨在用于确定或限制要求保护的主题的范围。
在此描述了用于组装宏基因组序列的方法和系统。在一个实施例中,用于组装宏基因组序列的方法包括在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量。进一步地,基于多个序列向量,在三维空间中定义具有多个等尺寸的较小立方体(下文称为网格)的立方体。在一个实施例中,所述立方体被定义为其包括与多个宏基因组序列相对应的序列向量。进一步地,逐步遍历所述多个网格,以识别所述多个宏基因组序列并将其组装成一个或多个重叠群。在一个实施例中,将所述一个或多个重叠群如此组装:一个重叠群包括可能来源于同一基因组的宏基因组序列。 
附图说明
参考附图对详细说明进行了描述。在附图中,参考数字最左边的数字标示了首次出现该参考数字的附图。在附图中使用同样的数字来引用相似的特征和部件。
图1(a)根据本发明的一个实施例,说明了一个宏基因组序列组装系统。
图1(b)根据本发明的一个实施例,说明了由用于组装宏基因组序列的宏基因组序列组装系统生成的立方体。
图1(c)根据本发明的一个实施例,说明了通过宏基因组序列组装系统在立方体上实施的逐步遍历的图形表示。
图2根据本发明的一个实施例,说明了使用宏基因组序列组装系统获得的纯网格所覆盖的宏基因组序列的百分比,该百分比以条形来描述。
图3根据本发明的一个实施例,说明了用于组装宏基因组序列的方法。
图4根据本发明的一个实施例,说明了生成用于组装宏基因组序列的一组参考点的方法。
具体实施方式
在此描述了用于组装宏基因组序列的方法和系统。通常地,出于研究或医学目的,无论是从生物样品还是环境样品中直接提取的基因材料(即宏基因组),都会作为宏基因组数据被处理和储存起来。对所述基因材料进行测序,以生成多个核苷酸序列(例如DNA或RNA序列)。随后可以将所述核苷酸序列(也被称为宏基因组序列)组装成称为重叠群的基因组片段,这些片段与环境样品中存在的有机体的基因组相对应。可以对所述重叠群作进一步分析,例如,来评估环境样品中存在的有机体的遗传多样性和功能概况。
已经有多种组装技术,被用于将从特定环境样品中存在的多种有机体得到的宏基因组序列组装成与其对应的重叠群。传统的组装技术包括将宏基因组序列与预定的基于寡核苷酸频率的模型进行对比,并将宏基因组序列标记至显示出最高相似度的模型。然后可以将标记至相似模型的宏基因组序列组装成重叠群。但是属于未知基因组的宏基因组序列可能不会对任何模型显示出显著的相似度,从而可能不会被组装成重叠群,因此会造成含义不明、降低分析效率。
另一种传统技术包括基于每个宏基因组序列的分类起源来组装宏基因组序列。可以将具有相似分类起源的宏基因组序列组装起来形成重叠群。但是使用上述方法可能不能有效地组装宏基因组序列,例如,当宏基因组序列属于尚未被分类学分类的有机体时。因此可能不能将属于这些未知有机体的宏基因组序列组装成重叠群,会使宏基因组数据的结果和分析模棱两可。
另一种传统技术包括基于宏基因组序列的寡核苷酸使用模式来组装宏基因组序列。根据这种技术,首先可以使用聚类技术(例如K-means)将具有相似寡核苷酸使用模式的宏基因组序列分成聚类。随后,可以将属于单一聚类的宏基因组序列组装成重叠群。为了这个目的,将每一个宏基因组序列转换成一个n维向量,使得每个n维度都与宏基因组序列中特定的寡核苷酸频率以及给定的长度相对应。进一步地,可以基于其对应的n维向量之间的相对偏差,将宏基因组序列分成聚类。但是基于较长的寡核苷酸的频率的宏基因组序列聚类可能会导致错误的聚类,例如,在宏基因组序列的长度少于1000bps的情况下。进一步地,属于这些含糊的聚类的宏基因组序列的组装可能会导致不正确的重叠群。再者,因为计算频率和n维向量之间的距离都需要时间,基于这些频率组装宏基因组序列可能需要更多的时间和计算资源。
 本发明描述了使用优化的数据划分方法,将宏基因组序列组装成重叠群的方法和系统。虽然这里关于宏基因组数据的说明相当详细,所述宏基因组数据具有与构成宏基因组数据的不同基因组的片段相对应的宏基因组序列,应该理解的是,本领域技术人员应该理解,尽管有些许变化,可以将用于组装的方法和系统实施于具有来自相同基因组的基因组片段的基因组数据。根据本发明的一个实施例,具有多个宏基因组序列的宏基因组数据被接收来组装成多个重叠群。应该理解的是,通过与环境样品中存在的一个独特有机体相关的每个基因组,每个重叠群构成与一个独特基因组相对应的宏基因组序列。进一步地,为了获得与环境样品中存在的有机体相对应的较长重叠群或完整基因组,可以使用上面描述的方法的连续迭代,对由此生成的重叠群进行处理。
首先基于每个宏基因组序列的所有可能的四核苷酸的频率,将从宏基因组数据获取的每个宏基因组序列转换成一个256维向量(下文称为中间向量)。在将由此获得的多个中间向量转换成三维空间中的多个序列向量,使得每个宏基因组序列都被表示为三维空间中的一个序列向量。在一个实施例中,例如使用基于多个参考基因组获得的一组参考点,将宏基因组序列表示为序列向量。进一步地,基于序列向量,可以在三维空间中定义一个立方体,使得所述立方体内含有与所有宏基因组序列相对应的序列向量。进一步地,可以将所述立方体分成多个等尺寸的较小立方体(下文称为网格),使得每个网格含有位于由立方体中特定的网格所定义的坐标之内的序列向量,并反过来包括宏基因组序列。
进一步地,可以使用逐步遍历(progressive traversal)的方法,对每个网格进行分析,来识别所有可能属于特定基因组的宏基因组序列并对其进行分组。在一个实施例中,网格被如此遍历:在每一个遍历步骤中,获得一个网格及其邻近网格(统称为网格聚类)中的宏基因组序列。可以进一步将由此获得的宏基因组序列组装成重叠群,使得具有相似分类起源的宏基因组序列组合形成单一的重叠群。进一步地,在遍历一个特定的网格时没有被组装的宏基因组序列(例如由于缺少与相似分类起源的重叠宏基因组序列),可以考虑在遍历下一个网格时组装。例如,在遍历网格“000”时没有组装的宏基因组序列,可以考虑连同遍历下一个网格(即网格“100”)时获得的宏基因组序列一起组装。遍历所有网格之后,可以获得未组装序列和已组装序列的指数并将其连同重叠群一起储存以用于将来的参考和/或分析。
因此,本发明提供一种高效、简单的方法,所述方法使用优化的数据划分方法,将宏基因组序列组装成重叠群。将宏基因组序列划分为序列向量和多个网格,有效减少了分析和组装宏基因组序列所需的计算时间。进一步地,使用逐步遍历的方法以及一次组装一个聚类的网格的宏基因组序列,有助于优化高效组装宏基因组序列所需的资源。
虽然这里的说明是关于宏基因组数据,本领域的技术人员应该理解,尽管有些许变化,还可以将所述系统和方法实施于其他数据(例如基因组数据)。
结合下面的附图对本发明的这些优点及其他优点进行更详细的说明。虽然能够在任意数量的计算系统、环境和/或配置中实施所述组装宏基因组序列的系统和方法的各个方面,实施例是在下述示例性系统的范围内描述的。
图1(a)根据本发明的一个实施例,说明了一个宏基因组序列组装系统100。可以在包括但不限于台式电脑、多处理器系统、笔记本电脑、网络计算机、云服务器、小型机、大型机以及类似的系统中实施宏基因组序列组装系统100。在一个实施例中,宏基因组序列组装系统100(下文称为系统100)包括接口102、一个或多个处理器104以及与处理器104相连的存储器106。
接口102可以包括多种软件和硬件接口,例如用于外围设备的接口,比如键盘、鼠标、外部存储器和打印机。进一步地,接口102还使系统100能够与其他设备(例如网页服务器和外部数据库)通信。接口102能够帮助在种类广泛的网络和协议类型中的多种通信,这些网络和协议类型包括有线网络,例如局域网(LAN)、电缆等,以及无线网络,例如无线局域网(WLAN)、蜂窝网络或卫星网络。为此,接口102可以包括一个或多个用于将若干计算系统相互连接或与另外的服务器计算机连接的一个或多个端口。
处理器104可以是单个处理单元或若干个单元,它们都包括多个计算单元。处理器104可以实施为一个或多个微处理器、微计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑设计电路和/或基于操作指令控制信号的任何设备。除其他功能外,处理器104可以被配置来取出和执行存储在存储器106中的计算机可读指令和数据。
存储器106可以包括本领域所知的任何计算机可读介质,这些介质包括如易失性存储器(比如静态随机存取存储器(SRAM)和动态随机存取存储器(DRAM))和/或非易失性存储器(比如只读存储器(ROM)、可擦除可编程只读存储器、闪存、硬盘、光盘和磁带)。存储器106还包括模块108和数据110。
除其他之外,模块108包括执行特定任务或实施特定抽象数据类型的例行程序、程序、对象、组件、数据结构等。模块108进一步包括网格生成模块112、序列组装模块114和其他模块116。其他模块116可以包括在系统100上补充应用的程序,例如操作系统中的程序。在另一方面,数据110除作为其他用途外还作为储存库来存储数据,所述数据由一个或多个模块108处理、接收和生成。数据110包括网格数据118、已组装数据120和其他数据122。其他数据122包括作为模块108中的一个或多个模块的执行结果而生成的数据。
在一个实施例中,系统100与宏基因组数据储存库(未在附图中表示)相联系。应该理解的是,宏基因组数据储存库可以在系统100外部或内部。宏基因组数据储存库包括多个宏基因组数据文件,这些文件具有由宏基因组数据生成平台(例如基于NGS的平台)生成的宏基因组数据。应该理解的是,宏基因组数据包括与环境样品中存在的多个有机体的基因组相对应的多个宏基因组序列。虽然这里提供的与具有宏基因组序列的宏基因组数据相关的系统100和方法的说明相当详细,应该理解的是,本领域技术人员应该理解,尽管有些许变化,还可以将用于组装的方法和系统实施于具有基因组片段的基因组数据。
根据本发明的一个实施例,具有多个宏基因组序列的宏基因组数据被系统100接收,以组装成多个重叠群。重叠群应该理解为与一个独特的基因组相对应的一组宏基因组序列,与环境中存在的独特有机体相关的每一个基因组都与所述宏基因组数据相对应。在一个实施例中,网格生成模块112接收并存储具有网格数据118中的宏基因组序列的宏基因组数据。进一步地,网格生成模块112在三维空间中表示每个宏基因组序列,以获得多个序列向量。在一个实施例中,网格生成模块112首先确定每个宏基因组序列的所有可能的四核苷酸的频率。基于此确定的结果,网格生成模块112将所述宏基因组序列表示为256维向量。因此,对于每一个宏基因组序列,网格生成模块112都得到一个256维向量(下文称为中间向量)。进一步地,网格生成模块112可以将每个中间向量转换成三维序列向量。
在一个实施例中,网格生成模块112通过计算对应的中间向量和一组参考点之间的距离来获得序列向量。在一个实施例中,网格生成模块112使用从参考数据库(例如所有目前已测序的基因组的数据库)中获得的多个参考基因组来得到该组参考点。进一步地,网格生成模块112获得所述多个参考基因组,使得每个参考基因组对应于一个不同的生物属种。例如,网格生成模块112可以从已知的基因组数据库(例如国家生物技术信息中心(NCBI)数据库)取得对应于237个完全测序的微生物基因组的参考基因组。
网格生成模块112随后将多个参考基因组中的每一个都分成多个无重叠的参考片段。举例来说,在前述例子中,网格生成模块112将237个参考基因组划分成多个(假设是1000个)碱基对的无重叠的参考片段。进一步地,网格生成模块112对每个参考片段进行分析,以计算相应的具有所有可能四核苷酸频率的256维片段向量。随后使用任意已知的聚类方法,通过网格生成模块112将由此获得的片段向量分成片段聚类。举例来说,网格生成模块112可以使用K均值聚类方法将片段向量进行聚类,以获得片段聚类。在一个实施例中,网格生成模块112使用K均值聚类方法获得k个片段聚类,其中k的值可以使用等式1给出的公式来确定。其中n等于从参考基因组获得的参考片段的数目。
Figure 283520DEST_PATH_IMAGE002
                               (1)
关于上面讨论的例子,网格生成模块112可以使用从237个参考基因组获得的参考片段,来获得总数为631个的片段聚类。进一步地,对于每一个片段聚类,网格生成模块112确定一个与每个片段聚类的质心相对应的聚类向量。基于此确定的结果,网格生成模块112随后确定三个最不相关的聚类向量。在一个实施例中,网格生成模块112获得与聚类向量相对应的单元向量之间的成对点积(pairwise dot product),并确定具有其中的最小成对点积的一组三个聚类向量作为一组参考点。网格生成模块112因此确定作为参考点的三个聚类向量,并将该组参考点储存在网格数据118。应该理解的是,由此生成的该组参考点代表已知生物领域中观察到的核苷酸使用模式,因此保证了宏基因组序列在三维空间中得到正确的表示。进一步地,网格生成模块112可以通过比如计算相应的中间向量和该组参考点之间的距离,使用参考点来确定与宏基因组序列相对应的序列向量。应该理解的是,序列向量有助于确定三维空间中宏基因组序列的笛卡尔坐标。
进一步地,如图1(b)所示,网格生成模块112基于序列向量,在三维空间中定义立方体124。立方体124被生成为使得其包括有所有考虑中的宏基因组序列。为此,网格生成模块112首先基于序列向量,确定每个宏基因组序列的三维坐标(即x、y和z坐标)。进一步地,网格生成模块112对三维空间中的每个x、y和z方向,确定一个最远坐标和一个最近坐标。每个方向上的最远坐标可以定义为宏基因组序列的三维坐标中相应方向上的最大值,即位于距三维空间中的原点最大距离的坐标。每个方向上的最近坐标可以定义为宏基因组序列的三维坐标中的最小值,即位于距原点最小距离的坐标。网格生成模块112随后可以对立方体124作如下定义:立方体124在x、y和z方向中每一个的长度都等于相应方向上最远坐标与最近坐标之间的差值。基于每个方向上的最远坐标与最近坐标来定义立方体124的边界,保证了与所有宏基因组序列相对应的序列向量都包含在立方体124之内。立方体124因此可以被网格生成模块112储存在网格数据118之中。
进一步地,如图1(b)所示,网格生成模块112可以将立方体124划分成多个网格,使得每个网格包括位于由立方体124中特定网格定义的坐标之内的序列向量,并且反过来包括宏基因组序列。在一个实施例中,网格可以是等尺寸的。由此获得的与网格相关的数据可以被网格生成模块112储存在网格数据118之中。
基于由此获得的网格,序列组装模块114可以对立方体124进行分析,以将宏基因组序列组装成重叠群。在一个实施例中,序列组装模块114可以使用逐步遍历的方法来将宏基因组序列组装成重叠群。使用逐步遍历的方法使得序列组装模块114如此遍历网格:在每一个遍历步骤中,获得考虑中的网格及其邻近网格(统称为网格聚类)中存在的宏基因组序列。首先,如图1(c)所示,序列组装模块114鉴别一个网格(假设是网格“ABC”),以分析和遍历由网格“ABC”及其在三维空间中所有三个方向上紧密邻近的网格所形成的网格聚类。在一个实施例中,如图1(c)所示,序列组装模块114可以遍历网格“ABC”以及网格“ABC”的7个紧密邻近网格,即网格(A+1)BC、A(B+1)C、AB(C+1)、(A+1)(B+1)C、A(B+1)(C+1)、(A+1)B(C+1)、(A+1)(B+1)(C+1)。基于所述遍历,序列组装模块114获得宏基因组序列的选择性子集,即包括在网格聚类之内的宏基因组序列,以组装成一个或多个重叠群。
在一个实施例中,序列组装模块114可以使用任何已知的序列组装方法(例如CAP3、SSAKE、SHARCGS、VCAKE、Newbler、Celera Assembler、AbySS, AllPaths、Velvet、Euler和SOAPdenovo)来组装宏基因组序列的选择性子集。进一步地,序列组装模块114将选择性的宏基因组序列组装成一个或多个重叠群,使得源自同一基因组的宏基因组序列有较高的可能性会合并形成单一重叠群。因此,由于上述网格分区方法有助于将相似来源的宏基因组序列聚类起来,上述网格分区方法可以使源自同一基因组的宏基因组序列有较高的可能性会合并形成单一重叠群。由此获得的重叠群包括可能源自同一基因组的宏基因组序列,从而宏基因组序列得到高效的组装。此外,在一个特定的遍历步骤中,因为比如缺少源自同一基因组的重叠宏基因组序列而没有被序列组装模块114组装的宏基因组序列,可以考虑在遍历下一个网格时组装。举例来说,序列组装模块114可以考虑将遍历网格“100”时没有组装的宏基因组序列连同遍历下一个网格(即网格“200”)时获得的选择性宏基因组序列一起组装。序列组装模块114因此可以遍历所有网格并获得多个重叠群。序列组装模块114由此获得的多个重叠群被储存在已组装数据120之中。在一个实施例中,序列组装模块114首先遍历X方向,然后遍历Y方向,最后遍历沿Z轴的方向。
进一步地,序列组装模块114可以将遍历所有网格后接收到的重叠群组成更长的重叠群或整个基因组。由此获得的重叠群可以被储存在已组装数据120中。进一步地,在遍历网格之后仍然未被组装的宏基因组序列也可以被储存在已组装数据120中。此外,序列组装模块114可以生成未组装宏基因组序列和已组装宏基因组序列的指数,并将其连同重叠群一起储存在已组装数据120之中以用于将来的参考和/或分析。
验证和结论
出于验证的目的,从宏基因组样品分析保真(Fidelity of Analysis of Metagenomic Samples (FAMeS))数据库中的模拟宏基因组的在线储存库下载了三组独特的模拟宏基因组数据,并使用根据本发明实施例的系统100进行组装。进而将三个独特的宏基因组数据组(即simHC、simMC和simLC)的组装结果与传统技术(例如CAP3)进行比较。simHC数据组被定义为所有构成的基因组都被均等表示(represent)。simMC数据组被定义为其中前半基因组有较高表示,而剩余的一半基因组的表示较低。simLC数据组被定义为其中与其他基因组相比,某些基因组被过度表示。
进一步地,为了两个不同的验证而进行实验。第一个验证是为了确定宏基因组序列组装系统的解析力(resolving power),以获得含有分类学上相似的宏基因组序列的网格,这有助于将其组装成重叠群。首先将三组独特的宏基因组输入系统100,并基于三个独特的组来定义立方体(例如立方体124)。进一步将立方体分成多个网格,并对其分析以确定每个网格所覆盖的宏基因组序列的分类所属。基于上述确定的结果,在分类学上的动物门水平上确定每个网格的纯度。为此,将具有至少70%属于单个动物门的宏基因组序列的所有网格定义为“纯门水平(phylum-level-pure)”网格。在附图2中,条形图200描述了使用系统100将立方体划分为网格后获得的结果。
图200描述了使用系统100,每个数据组所得到的纯网格所覆盖的宏基因组序列的百分比。在图200中,在横轴上表示用于验证的三个数据组,而在纵轴204上表示三个数据组所得到的纯网格所覆盖的宏基因组序列的百分比。在一个实施例中,simLC数据组所得到的网格纯度水平用条形206表示,simMC数据组用条形208表示,simHC数据组用条形210表示。如图200所示,三个数据组的纯网格所覆盖的宏基因组序列百分比都大于60%。进一步地,simLC和simMC数据组的百分比都大于70%。纯网格所覆盖的宏基因组序列的百分比如此之高,因此说明了系统100能有效对用于组装的宏基因组数据进行预分区。
另外,为了确定用于组装宏基因组序列的网格组装方法的适应性,进行了第二个验证。为此,首先对三个数据组进行处理,以获得多个网格,然后使用CAP3组装技术将其组装成重叠群。将由此获得的结果与仅使用CAP3组装技术获得的重叠群进行比较。如表1所总结的,基于三个参数,即重叠群的平均长度、重叠群的纯度和分配至重叠群的宏基因组序列数目,进一步分析了使用系统100和传统技术组装宏基因组序列后获得的结果。
表1
Figure 200660DEST_PATH_IMAGE003
如表1所示,对于三个数据组,使用系统100获得的纯重叠群百分比都高于使用传统技术获得的百分比。进一步地,与使用CAP3技术获得的重叠群相比,使用系统100获得的重叠群构成的宏基因组序列数目更多,这意味着系统100能更高效组装宏基因组序列。此外,对于simMC和simLC数据组,与使用传统技术获得的平均长度相比,使用系统100获得的重叠群的平均长度明显更长。因此系统100能有效地被用于生成长度更长、纯度更高的重叠群。
图3根据本发明的一个实施例,说明了用于组装宏基因组序列的方法300。图4根据本发明的一个实施例,说明了生成用于组装宏基因组序列的一组参考点的方法304。可以在计算系统(例如宏基因组序列组装系统100)上实施方法300和方法304。
所述方法可以在计算机可执行指令的一般范围内描述。通常地,计算机可执行指令可以包括例行程序、程序、对象、组件、数据结构、过程、模块、功能等执行特定功能或实施特定抽象数据类型的指令。所述方法还可以在分布式计算环境中实施,其中使用通过通讯网络连接的远程处理设备来实现功能。
描述所述方法的顺序并不旨在被理解为一种限制,所描述的方法步骤中的某些可以以任意顺序组合起来实施该方法或替代的方法。此外,可以删除所述方法的个别步骤,而不脱离这里描述的本发明的精神和范围。并且,可以在任意合适的硬件、软件、固件或其组合中实施所述方法。
在步骤302中,系统100接收了用于组装的具有多个宏基因组序列的宏基因组数据。在一个实施例中,从与系统100相联系的宏基因组数据储存库中获取宏基因组数据。所述宏基因组数据包括与环境样品中存在的多个有机体的基因组相对应的多个宏基因组序列,所述环境样品用于生成宏基因组数据。在一个实施例中,可以通过网格生成模块112获得宏基因组数据,并将其储存在网格数据118中。
在步骤304中,多个宏基因组序列的每一个都被表示于三维空间中,以获得多个序列向量。在一个实施例中,通过网格生成模块112,使用一组参考点,为每个宏基因组序列获得一个序列向量,使得一个序列被表示为三维空间中一个独特的点。每个序列向量代表三维空间中相对应的宏基因组序列,这有助于对用于组装成重叠群的宏基因组序列进行简单而有效的分区。再者,可以基于多个参考片段来获得用于转换宏基因组数据组的参考点,这将参考附图4进行更详细的描述。
在步骤306中,基于多个序列向量,通过网格生成模块112定义了三维空间中的一个立方体。在一个实施例中,对为宏基因组序列而获得的序列向量进行分析,以对三维空间中的x、y和z轴中的每一个确定最远坐标和最近坐标。基于上述确定的结果,作为与在相应的轴上最远坐标和最近坐标之间的差值相等的一个值,可以确定立方体在x、y和z轴中的每一个上的长度。随后可以在三维空间中定义所述立方体,使得立方体包括为组装而获得的所有宏基因组序列。
在步骤308中,所述立方体被分成多个更小的等尺寸的立方体(下文称为网格)。在一个实施例中,网格生成模块112被配置成将立方体分成多个网格,使得每个网格包括所有宏基因组序列,该宏基因组序列的序列向量位于由考虑到的网格所覆盖的坐标之内。
在步骤310中,对多个网格进行逐步遍历,以将多个宏基因组序列组装成一个或多个重叠群。在一个实施例中,多个网格可以被序列组装模块(例如序列组装模块114)遍历。所述序列组装模块114被配置成遍历这些网格,使得在每一次遍历中,可以得到考虑到的网格及其紧密邻近网格中的宏基因组序列,并将其组装成一个或多个重叠群。进一步地,在一个特定的遍历步骤中未被组装的所有宏基因组序列都可以考虑在下一个遍历步骤中组装,直至遍历了所有网格以获得重叠群。可以进一步将所述重叠群组装成多个更长的重叠群或完整基因组。由此获得的更长重叠群或基因组包括可能源自同一基因组的宏基因组序列。另外,在最后一次遍历网格之后仍然未被组装的重叠群和序列可以被储存于系统100的已组装数据120之中。
参考附图4,根据本发明的一个实施例,方法304生成了三维空间中用于代表宏基因组序列的一组参考点,以组装成重叠群。
在步骤402中,多个参考基因组的每一个都被分成多个参考片段。在一个实施例中,从参考数据库(例如所有已测序基因组的数据库)获取与特定属种相对应的多个参考基因组。进一步地,通过网格生成模块112将每个参考基因组分成多个参考片段,并将其储存于网格数据118之中。
在步骤404中,通过网格生成模块112,对与每个参考片段相对应的多个片段向量进行计算。在一个实施例中,分析了每个参考片段,以计算具有所有可能的256个四核苷酸的相应的片段向量。
在步骤406中,通过网格生成模块112将获得的片段向量分成聚类,以获得一个或多个片段聚类。在一个实施例中,使用任意已知的聚类方法(例如K-均值方法)将片段向量分成一个或多个片段聚类。举例来说,可以使用K-均值方法将片段向量分成总数为631个的聚类。
在步骤408中,对与每个片段聚类的质心相对应的聚类向量进行计算。在一个实施例中,对每个片段聚类进行分析,以确定对应的聚类向量。计算出的聚类向量可以被进一步储存于网格数据118之中。
在步骤410中,基于与片段聚类相对应的聚类向量,获得了一组参考点。通过网格生成模块112对与片段聚类相对应的聚类向量进行分析,以确定三个最不相关的聚类向量作为一组参考点。在一个实施例中,可以基于针对与聚类向量相对应的单元向量而计算的成对点积,来鉴别所述最不相关的聚类向量。进一步地,可以将具有其中最小的三个成对点积的聚类向量鉴别为该组参考点。可以进一步使用该组参考点来在三维空间中表示宏基因组序列。
虽然使用特定的结构特征和/或方法描述了用于组装宏基因组序列的实施例,但应该理解的是,本发明并不局限于所述的特定特征或方法。相反,这些特定的特征和方法是作为组装宏基因组序列的示例性实施例而公开的。

Claims (14)

1.一种组装宏基因组序列的方法,包括:
在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量;
基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,其中所述立方体包含所述多个宏基因组序列;并且
逐步遍历所述多个网格,以将多个宏基因组序列组装成一个或多个重叠群,其中,一个重叠群包括源自同一基因组的宏基因组序列。
2.根据权利要求1的方法,其中所述“遍历”进一步包括:
对多个网格中的每一个,从多个宏基因组序列中获取一个或多个宏基因组序列,其中所述一个或多个宏基因组序列位于由所述立方体中的网格及所述网格的紧密邻近网格所定义的坐标之内;并且
对多个网格中的每一个,将相应的一个或多个宏基因组序列组装成一个或多个重叠群。
3.根据权利要求1所述的方法,其中所述“定义”进一步包括:
对多个宏基因组序列的每一个,基于多个序列向量确定三维坐标;
对三维空间中的每一个轴,确定所述三维坐标中的最远坐标和最近坐标;并且
基于在对应的轴上最远坐标和最近坐标的差值,计算立方体在每个轴上的长度。
4.根据权利要求1所述的方法,其中所述“表示”包括:
对多个宏基因组序列的每一个,确定可能的四核苷酸的频率;
基于上述确定的结果,获得与多个宏基因组序列的每一个相对应的中间向量;并且
对多个宏基因组序列中的每一个,基于一组参考点将中间向量转换成序列向量。
5.根据权利要求4所述的方法,其中所述“转换”包括计算中间向量和所述一组参考点之间的距离。
6.根据权利要求4所述的方法,其中所述方法进一步包括:
对多个参考片段的每一个,计算片段向量;
对片段向量进行聚类,以获得一个或多个片段聚类;
对每一个片段聚类,评价与片段聚类的质心相对应的聚类向量;并且
从聚类向量中识别出三个最不相关的聚类向量作为所述一组参考点。
7.一种宏基因组序列组装系统(100),包括:
处理器(104);和
与处理器(104)相连的存储器(106),所述存储器(106)包括:
    网格生成模块(112),其被配置成:
        基于多个序列向量,在三维空间中定义立方体(124),其中立方体(124)包括与多个序列向量相对应的多个宏基因组序列;并且
        将立方体(124)分成多个网格;以及
 序列组装模块(114),其被配置成:逐步遍历多个网格,以将多个宏基因组序列组装成一个或多个重叠群。
8.根据权利要求7所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成:
接收具有多个宏基因组序列的宏基因组数据;并且
在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量。
9.根据权利要求7或8所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成:
对多个宏基因组序列中的每一个,确定可能的四核苷酸的频率;
基于上述确定的结果,获取与多个宏基因组序列中的每一个相对应的中间向量;并且
对多个宏基因组序列中的每一个,基于一组参考点将中间向量转换成序列向量。
10.根据权利要求9所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成:
对多个参考片段的每一个,计算片段向量;
对片段向量进行聚类,以获得一个或多个片段聚类;
对每一个片段聚类,评价与片段聚类的质心相对应的聚类向量,以获得多个聚类向量;并且
从聚类向量中识别出三个最不相关的聚类向量作为所述一组参考点。
11.根据权利要求8所述的宏基因组序列组装系统(100),其中网格生成模块(112)被进一步配置成:
对多个宏基因组序列的每一个,基于多个序列向量确定三维坐标;
对三维空间中的每一个轴,确定所述三维坐标中的最远坐标和最近坐标;并且
基于在对应的轴上最远坐标和最近坐标的差值,计算立方体(124)在每个轴上的长度。
12.根据权利要求7所述的宏基因组序列组装系统(100),其中序列组装模块(114)被进一步配置成:
对多个网格中的每一个,从多个宏基因组序列中获取一个或多个宏基因组序列,其中所述一个或多个宏基因组序列位于由所述立方体(124)中的网格及所述网格的紧密邻近网格所定义的坐标之内;并且
对多个网格中的每一个,将相应的一个或多个宏基因组序列组装成一个或多个重叠群。
13.根据权利要求12所述的宏基因组序列组装系统(100),其中序列组装模块(114)被进一步配置成:
对多个网格中的每一个,从与所述网格相对应的一个或多个宏基因组序列中确定未组装的宏基因组序列;并且
将未组装的宏基因组序列与对应于下一个网格的一个或多个宏基因组序列进行聚类。
14.一种计算机可读介质,所述介质上包含有执行下述方法的计算机程序,所述方法包括:
在三维空间中表示多个宏基因组序列中的每一个,以获得多个序列向量;
基于多个序列向量,在三维空间中定义一个具有多个网格的立方体,其中所述立方体包含所述多个宏基因组序列;并且
遍历所述多个网格,以将多个宏基因组序列组装成一个或多个重叠群。
CN201210170777.3A 2012-02-10 2012-05-29 宏基因组序列的组装 Active CN103246829B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
IN388MU2012 2012-02-10
IN388/MUM/2012 2012-02-10

Publications (2)

Publication Number Publication Date
CN103246829A true CN103246829A (zh) 2013-08-14
CN103246829B CN103246829B (zh) 2017-12-01

Family

ID=46229206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210170777.3A Active CN103246829B (zh) 2012-02-10 2012-05-29 宏基因组序列的组装

Country Status (3)

Country Link
US (1) US9372959B2 (zh)
EP (1) EP2626802B1 (zh)
CN (1) CN103246829B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055928A (zh) * 2016-05-29 2016-10-26 吉林大学 一种宏基因组重叠群的分类方法
WO2018119882A1 (zh) * 2016-12-29 2018-07-05 中国科学院深圳先进技术研究院 一种宏基因组数据分类方法和装置
CN113611359A (zh) * 2021-08-13 2021-11-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2653991B1 (en) * 2012-02-24 2017-07-26 Tata Consultancy Services Limited Prediction of horizontally transferred gene
KR101560274B1 (ko) * 2013-05-31 2015-10-14 삼성에스디에스 주식회사 데이터 분석 장치 및 방법
US20170308645A1 (en) * 2016-04-25 2017-10-26 Tata Consultancy Services Limited Method and system for representing compositional properties of a biological sequence fragment and applications thereof
US10733214B2 (en) 2017-03-20 2020-08-04 International Business Machines Corporation Analyzing metagenomics data
US11023485B2 (en) * 2018-09-18 2021-06-01 International Business Machines Corporation Cube construction for an OLAP system
IL294909A (en) 2020-02-13 2022-09-01 Zymergen Inc A metagenomic library and natural product discovery platform
CN112466404B (zh) * 2020-12-14 2024-02-02 浙江师范大学 一种宏基因组重叠群无监督聚类方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007036668A1 (fr) * 2005-09-23 2007-04-05 Vigilent Technologies Procede pour determiner l'etat d'un ensemble de cellules et systeme pour la mise en oeuvre dudit procede
CN101103272A (zh) * 2004-11-15 2008-01-09 索尼株式会社 基因表达量的归一化方法、程序和系统
CN101751517A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种基因组短序列映射的快速处理方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2390811B1 (en) * 2010-05-26 2016-12-28 Tata Consultancy Services Limited Identification of ribosomal DNA sequences
US20110295902A1 (en) * 2010-05-26 2011-12-01 Tata Consultancy Service Limited Taxonomic classification of metagenomic sequences
EP2653991B1 (en) * 2012-02-24 2017-07-26 Tata Consultancy Services Limited Prediction of horizontally transferred gene

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101103272A (zh) * 2004-11-15 2008-01-09 索尼株式会社 基因表达量的归一化方法、程序和系统
WO2007036668A1 (fr) * 2005-09-23 2007-04-05 Vigilent Technologies Procede pour determiner l'etat d'un ensemble de cellules et systeme pour la mise en oeuvre dudit procede
CN101751517A (zh) * 2008-12-12 2010-06-23 深圳华大基因研究院 一种基因组短序列映射的快速处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHON-KIT KENNETH CHAN ET AL.: "Using Growing Self-Organising Maps to Improve the Binning Process in Environmental Whole-Genome Shotgun Sequencing", 《JOURNAL OF BIOMEDICINE AND BIOTECHNOLOGY》 *
JEROEN RAES ET AL.: "Get the most out of your metagenome:computational analysis of environmental sequence data", 《CURRENT OPINION IN MICROBIOLOGY》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055928A (zh) * 2016-05-29 2016-10-26 吉林大学 一种宏基因组重叠群的分类方法
WO2018119882A1 (zh) * 2016-12-29 2018-07-05 中国科学院深圳先进技术研究院 一种宏基因组数据分类方法和装置
CN113611359A (zh) * 2021-08-13 2021-11-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法
CN113611359B (zh) * 2021-08-13 2022-08-05 江苏先声医学诊断有限公司 一种提高宏基因组纳米孔测序数据菌种组装效率的方法

Also Published As

Publication number Publication date
EP2626802A2 (en) 2013-08-14
US20130325428A1 (en) 2013-12-05
EP2626802B1 (en) 2016-11-16
CN103246829B (zh) 2017-12-01
US9372959B2 (en) 2016-06-21
EP2626802A3 (en) 2015-02-25

Similar Documents

Publication Publication Date Title
CN103246829A (zh) 宏基因组序列的组装
Nepomuceno et al. Biclustering of gene expression data by correlation-based scatter search
Lin et al. Clustering methods in protein-protein interaction network
Sarumi et al. Exploiting anti-monotonic constraints in mining palindromic motifs from big genomic data
Zhang et al. A general joint matrix factorization framework for data integration and its systematic algorithmic exploration
Ren et al. Inference of Markovian properties of molecular sequences from NGS data and applications to comparative genomics
Yu et al. Predicting protein complex in protein interaction network-a supervised learning based method
Achar et al. RNA motif discovery: a computational overview
Zeng et al. Couple coc+: an information-theoretic co-clustering-based transfer learning framework for the integrative analysis of single-cell genomic data
Santoni et al. An integrated approach (cluster analysis integration method) to combine expression data and protein–protein interaction networks in agrigenomics: application on arabidopsis thaliana
Sun et al. HS-MMGKG: a fast multi-objective harmony search algorithm for two-locus model detection in GWAS
Faraut et al. A comparative genome approach to marker ordering
Boukelia et al. A novel integrative approach for non-coding RNA classification based on deep learning
Mester et al. Fast and accurate construction of ultra-dense consensus genetic maps using evolution strategy optimization
KR101810527B1 (ko) 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
Nguyen et al. Efficient agglomerative hierarchical clustering for biological sequence analysis
Lv et al. Meta-path based MiRNA-disease association prediction
Xie et al. QUBIC2: a novel biclustering algorithm for large-scale bulk RNA-sequencing and single-cell RNA-sequencing data analysis
Venkatraman et al. Unimodular hypergraph for DNA sequencing: A polynomial time algorithm
Li et al. A comparative study for identifying the chromosome-wide spatial clusters from high-throughput chromatin conformation capture data
Martin et al. Machine learning substantiates biologically meaningful species delimitations in the phylogenetically complex North American box turtle genus Terrapene
Zhang et al. CLIMP: clustering motifs via maximal cliques with parallel computing design
Khan et al. MSuPDA: A memory efficient algorithm for sequence alignment
Smith et al. Scalable analysis of multi-modal biomedical data
Kumar et al. Modeling human genome (3D) using linear & nearest interpolation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant