CN103093118A

CN103093118A - 一种系统进化树的重建方法

Info

Publication number: CN103093118A
Application number: CN2013100495160A
Authority: CN
Inventors: 黎建辉; 孟珍; 周园春; 邵靖; 曹巍
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2013-02-07
Filing date: 2013-02-07
Publication date: 2013-05-08
Anticipated expiration: 2033-02-07
Also published as: CN103093118B

Abstract

本发明属于应用生物信息学技术领域，涉及一种系统进化树的重建方法。该方法首先选定特定的序列标记片段进行检索并筛选相关的序列数据并组织成.fasta格式文件作为基础数据集；随后对基础数据集进行基础系统发育树的构建并生成.XML系统发育树文件，同时构建基础BLAST库；然后综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件，然后可视化和标注自测序列数据代表的样本物种在整棵大树中的位置等信息。该方法是一种基于初始大树构建和同源相似性比对的快速算法相结合的方法，可以用于生物系统发育、生物条形码、生物物种鉴定等相关领域的大系统发育树重建和web应用。

Description

一种系统进化树的重建方法

技术领域

本发明属于应用生物信息学技术领域，具体涉及一种系统进化树的重建方法，主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的针对大数据的系统发育树重建并可视化。

背景技术

系统发育树也称系统进化树(phylogenetic tree)，它是用类似树状分支的图来表示各种(类)生物之间的亲缘关系，通过对生物序列的研究来推测物种的进化历史。主要是通过DNA序列、蛋白质序列、蛋白质结构等来构建系统发育树，或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。研究系统发育树的目的可以重建祖先序列P性状；估计来自于同一个祖先的不同生物之间的分歧时间；识别和疾病关联的突变等。基于分子的进化研究已经应用到许多方面，如基因进化、物群划分、交配系统、物种鉴定、父亲身份测试，环境监视以及已经转移物种的疾病源的研究等（Francesca D.Ciccarelli,et al.,"Toward Automatic Reconstruction of a Highly Resolved Tree of Life,"SCIENCE,vol.311,p.1283,2006.；I.Wapinski,et al.,"Automatic genome-wide reconstruction of phylogenetic genetrees,"Bioinformatics,vol.23,pp.i549-i558,2007.；Zhen Meng,et al.,"Construction of thePlatform for Phylogenetic Analysis,"Data Driven e-Science,pp.507-514,2011.）。

以生物材料样本快速鉴定为目的的DNA条形码技术(Schindel,D.and S.E.Miller,DNAbarcoding a useful tool for taxonomists.Nature,2005.)的发展业已积累了丰富的数据，如按照BOLD system(Schindel,D.and S.E.Miller,DNA barcoding a useful tool for taxonomists.Nature,2005.)2012年11月份的数据，以动物为例，如选用COI片段，其样本测序序列的量为247,479，是其在传统的描述的动物物种120,612的2倍多，差不多每个动物物种有2条甚至更多的序列信息；其从国际核算序列数据库联盟（International Nucleotide Sequence DatabaseCollaboration,INSDC）成员之一的GenBank（Michael Y.Galperin.The Molecular BiologyDatabase Collection:2011update[J].Nucl.Acids Res.2011,35:D3-D4）提取检索的初始相关序列也达625，341之多，并且每天也有将近200条的释放量。

数据的积累为包含所有生物物种的系统进化树的构建做好了数据上的准备，也为怎样快速确定样本序列在系统发育树上的位置提出了需求。然而，现在的系统进化树的重建方法往往受到数据数量的限制，在兆的数量级上进行计算时，甚至有些方法根本不能完成，即使有些方法用上并行的方法、在集群式计算机上进行计算也需要几天甚至上月的时间才能完成（S.Guindon,et al.,"New Algorithms and Methods to Estimate Maximum-Likelihood Phylogenies:Assessing the Performance of PhyML3.0,"Systematic Biology，vol.59,pp.307-321,2010.；A.Stamatakis,"RAxML-VI-HPC:maximum likelihood-based phylogenetic analyses with thousandsof taxa and mixed models,"Bioinformatics,vol.22,pp.2688-2690,2006.；M.N.Price,et al.,"FastTree2"Capproximately maximum-likelihood trees for large alignments,"PLoS One,vol.5,p.e9490,2010.）。这与系统发育树的快速重建及可视化的需求相去甚远，远不能满足在web交互的可忍受时间范围内去快速确定自测的样本序列在以目标mark（Barcode）为度量标准的大树上的位置并可视化。

所以就需要提供一种针对大数据（兆以上的）的系统发育树重建方法，在web交互环境下，满足物种快速鉴定、系统发育树的自动增长等的需要。

发明内容

从上面的分析可以看出，随着数据量的积累，特别是DNA条形码技术的发展，数据量的不断攀升，以兆级以上单位序列进行系统发育树重建的要求越来越普遍，并且基于Web交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark（Barcode）为度量标准的大树上的位置并可视化的需求也越来越突出。本发明提供一种基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法。

本发明的系统进化树的重建方法，其步骤包括：

A、基础数据集组织：选定特定的序列标记片段（Mark）进行检索并筛选相关的序列数据并组织成.fasta格式文件，接下来执行步骤B、C；

B、基础系统发育树构建：对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件，接下来执行步骤D；

C、基础BLAST（Basic Local Alignment Search Tool）库构建：对步骤A所述.fasta文件进行格式化并构建BLAST库，接下来执行步骤D；

D、系统发育树重建：对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件，接下来执行步骤E；

E、系统发育树的可视化：对步骤D重构的系统发育树进行可视化。

上述步骤A中基础数据集的组织是针对特定序列片段标记（Mark）的数据组织；其Mark可以是核酸序列片段，也可以是蛋白序列片段；在D中新输入的序列片段也是相对应的同种标记的序列。

上述步骤B中基础系统发育树的构建方法为：(1)对步骤A所述的.fasta文件进行多重序列比对（Multiple sequence alignment）并生成.aln文件；(2)对所述的.aln文件进行系统发育树的构建（Phylogenetic tree construction）并生成.tree文件；(3)对所述的.tree文件进行格式转换（Format conversion）并生成XML格式文件。在第(2)步系统发育树的构建之前，如选用的步骤A所述生成的.fasta数据集中的序列长度差异较大，需要进行比对后文件的修剪（trim）。

上述步骤C中基础BLAST库的构建是针对A所述的.fasta文件进行格式化并生成BLAST算法的库文件。

上述步骤D中系统发育树的重建方法为：(1)由自测序列数据作为输入，由步骤C所述的BLAST库作为比对的标准库，进行BLAST同源相似性比对，得到比对报告；(2)对比对报告进行分析并提取物种学名（Scientifc name）相关信息；(3)生成自测序列数据代表的样本物种的插入节点数据；(4)检索步骤B中所述的.XML文件，确定插入位置并插入(3)中所述的节点数据，从而重建完成系统发育树文件。

本发明中的自测序列数据是.fasta格式；自测序列数据代表的样本物种的插入节点数据是.XML格式；重建完成的系统发育树文件为XML格式。

上述步骤E所述的系统发育树的可视化，是针对步骤D中所述系统发育树重建的XML进行可视化，并标注自测序列数据代表的样本物种在整棵大树中的位置信息。

本发明的基于初始大树构建和同源相似性比对的算法相结合的快速系统进化树重建方法，可以针对大数据（兆以上的）的单位序列进行系统发育树的重建，并基于Web交互的要求去快速重建系统发育树以确定自测的样本序列在以目标mark（Barcode）为度量标准的大树上的位置，能够在web交互环境下，满足物种快速鉴定、系统发育树的自动增长等的需要。

附图说明

图1是实施例中系统进化树的重建方法的工作流程图；

图2是实施例中针对陆地植物系统发育分析所需MatK基因（rbcL）进行系统发育树重建的处理流程图。

具体实施方式

下面通过具体实施例，并配合附图，对本发明做进一步的说明。

参见附图1，本实施例所述的系统进化树的重建方法的具体过程为：

A、基础数据集组织：本实施例选定特定的序列标记为rbcL的核酸序列片段序列数据并组织成.fasta格式文件，接下来执行步骤B、C；

B、基础系统发育树构建：对步骤A所述.fasta文件进行基础系统发育树的构建生成.XML系统发育树文件，接下来执行步骤D；

C、基础BLAST库构建：对步骤A所述.fasta文件进行格式化构建BLAST库，接下来执行步骤D；

本实施例所述步骤A的具体过程为：

首先，其初始数据检索通过调用NCBI(National Center for Biotechnology Information)的API得到，其检索词是：(rbcL[Gene Name]AND"Embryophyta"[Organism])AND"ddbj emblgenbank"[Filter]，得到相关的数据集；

随后，通过GSQCT（Zhen Meng,Jianhui Li,Yunchun Zhou,Wei Cao,Xiao Xiao,Jing Zhao,Hui Dong and Shouzhou Zhang,"GSQCT:A solution to screening gene sequences forphylogenetics analysis,"20129th International Conference on Fuzzy Systems and KnowledgeDiscovery，vol.6,pp.2941-2945,2012.）的方法进行筛选，参数设置是：(1)目标序列Pi<0.01(i=N,R,K,M,S,Y,W)；并且(2)目标基因序列6个阅读框检测不含有“TAG”、“TAA”、“TGA”任一字符串；并且(3)blap的Identities>93%；设定阀值evalue<1.0×10^-10；

最后，调整相应的基础数据集为fasta格式，其fasta格式的文件头如表1所示。

本实施例所述步骤B的具体过程为：

(1)对A所述的.fasta文件应用muscle3.8.31（Edgar,R.C.，“MUSCLE:a multiple sequencealignment method with reduced time and space complexity，”BMC Bioinformatics,vol.5,pp.113,2004.）进行多重序列比对（Multiple sequence alignment）并生成.aln文件，其.aln文件格式示例如表2所示；

(2)对所述的.aln文件应用FastTree2（M.N.Price,et al.,"FastTree2"Capproximatelymaximum-likelihood trees for large alignments,"PLoS One,vol.5,p.e9490,2010.）进行系统发育树的构建（Phylogenetic tree construction）并生成.tree文件，其.tree文件格式示例如表3所示；

(3)通过调用Archaeopteryx0.954beta（M.V. Han and C.M.Zmasek,"phyloXML:XML forevolutionary biology and comparative genomics,"BMC Bioinformatics,vol.10,Oct272009.）中的格式转换模块对所述的.tree文件进行格式转换（Format conversion）并生成XML格式文件，其XML文件格式示例如表4所示。本实施例在第(2)步选用的A所述生成的.fasta数据集中的序列长度差异不大，不再进行比对后文件的修剪（trim）；

本实施例所述的步骤C的具体过程为：针对A所述的.fasta文件进行应用Megablast包中formatdb命令进行格式化并生成BLAST算法的库文件（Altschul,StephenF.,Thomas L.Madden,Alejandro A.Schaffer,Jinghui Zhang,Zheng Zhang,Webb Miller,and David J.Lipman(1997),"Gapped BLAST and PSI-BLAST:a new generation of protein database searchprograms",NucleicAcids Res.25:3389-3402.）。

本实施例所述步骤D的具体过程为：

(1)以自测序列数据作为输入，以C所述的BLAST库作为比对的标准库，应用Megablast进行BLAST同源相似性比对；

(2)对比对报告进行分析并提取物种学名（Scientific name）相关信息；

(3)生成自测序列数据代表的样本物种的插入节点数据，其示例格式如表5所示；

(4)检索步骤B中所述的.XML文件确定插入位置并插入(3)中所述的节点数据而重建完成系统发育树文件。

本实施例中的自测序列是.fasta格式；自测序列数据代表的样本物种的插入节点数据是.XML格式；重建完成的系统发育树文件为XML格式。

本实施例所述步骤E的具体过程为：应用Archaeopteryx0.954beta针对D中所述系统发育树重建的XML进行可视化并标注自测序列数据代表的样本物种在整棵大树中位置等信息。表1.fasta格式的文件头示例

表2..aln文件格式示例

表3..tree文件格式示例

表4.XML文件格式示例

表5.插入节点数据的示例格式

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种系统进化树的重建方法，其步骤包括：

A、选定特定的序列标记片段进行检索，并筛选相关的序列数据组织成.fasta格式文件；

B、对步骤A所述.fasta文件进行基础系统发育树的构建并生成.XML系统发育树文件；

C、对步骤A所述.fasta文件进行格式化并构建BLAST库；

D、根据所述.XML系统发育树文件和所述BLAST库，对综合基础数据集和新输入的自测序列数据进行系统发育树的重建并生成.XML文件；

E、对重建的系统发育树进行可视化。

2.如权利要求1所述的方法，其特征在于：所述序列标记片段是核酸序列片段或者蛋白序列片段。

3.如权利要求1所述的方法，其特征在于，步骤B所述基础系统发育树的构建方法为：

(1)对步骤A所述.fasta文件进行多重序列比对并生成.aln文件；

(2)对所述.aln文件进行系统发育树的构建并生成.tree文件；

(3)对所述.tree文件进行格式转换并生成XML格式文件。

4.如权利要求3所述的方法，其特征在于：对于序列长度差异较大的.fasta数据集，在所述多重序列比对后进行文件的修剪。

5.如权利要求1所述的方法，其特征在于：步骤C所述构建BLAST库是对所述.fasta文件进行格式化并生成BLAST算法的库文件。

6.如权利要求1所述的方法，其特征在于，步骤D所述系统发育树的重建方法为：

(1)以所述自测序列数据作为输入，以所述BLAST库作为比对的标准库，进行BLAST同源相似性比对，得到比对报告；

(2)对比对报告进行分析并提取物种学名相关信息；

(3)生成自测序列数据代表的样本物种的插入节点数据；

(4)检索步骤B中所述的.XML文件，确定插入位置并插入所述节点数据，从而重建完成系统发育树文件。

7.如权利要求6所述的方法，其特征在于：所述自测序列数据是.fasta格式，所述样本物种的插入节点数据是.XML格式，重建完成的系统发育树文件为XML格式。

8.如权利要求6所述的方法，其特征在于：应用Megablast进行BLAST同源相似性比对。

9.如权利要求1所述的方法，其特征在于：在所述可视化时标注所述自测序列数据代表的样本物种在整棵大树中位置信息。

10.如权利要求1所述的方法，其特征在于：应用Archaeopteryx软件进行所述可视化。