CN105426700A

CN105426700A - 一种批量计算基因组直系同源基因进化速率的方法

Info

Publication number: CN105426700A
Application number: CN201510965003.3A
Authority: CN
Inventors: 郭月; 刘静; 杜建厂
Original assignee: Jiangsu Academy of Agricultural Sciences
Current assignee: Jiangsu Academy of Agricultural Sciences
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-03-23
Anticipated expiration: 2035-12-18
Also published as: CN105426700B

Abstract

本发明公开了一种批量计算基因组直系同源基因进化速率的方法。本发明所提供的计算基因组直系同源基因进化速率的方法综合运用了基于Blast成对比对结果后进行聚类搜索直系同源基因的InParanoid程序，基于多序列比对分析的MUSCLE程序，基于编码蛋白DNA序列之间的比较来评估同义和非同义替代比率的PAML软件包yn00程序，以及结合Perl脚本语言编程等方法。实验证明，本发明所提供的批量计算基因组直系同源基因进化速率的方法比较系统，检测基因组计算基因组直系同源基因进化速率各参数值的重复效果好，速度快，易实现批量化、自动化和流程化。

Description

一种批量计算基因组直系同源基因进化速率的方法

技术领域

本发明属于生物技术领域，涉及一种批量计算基因组直系同源基因进化速率的方法。

背景技术

近年来，测序技术的蓬勃发展极大的促进了基因组学领域的研究工作。许多模式生物如酵母菌、小鼠、人、拟南芥和水稻等全基因组测序的完成，使物种基因组遗传组分分析的重要性日益突出，进而使分子进化学成为计算生物学和生物信息学等新兴学科的重要组成部分，跻身生命科学中最引人注目的领域之一。进化速率的计算方法是该学科研究的基础工具之一，对该学科的发展起了极大的推动作用。目前计算基因组的进化速率最常用的方法是PAML软件包中的yn00程序。然而，该程序利用最大似然法对DNA或蛋白质序列进行系统发育分析时，程序背景知识涉及相当复杂的现代统计学理论和计算方法，对非专业研究者来说是一种巨大挑战；此外，要保证yn00程序的运行，需要把下载的基因组文件进行诸多前处理，最后转化为具有固定格式的输入文件(如图2)，这不仅增加了该模型的使用耗时，还加大了批量计算基因组直系同源基因进化速率的难度，极大的限制了非生物信息专业以及计算机基础相对薄弱人群对该软件的使用，最终制约了他们在分子进化领域的研究。

本专利目的在于降低科研人员使用yn00模型时的难度，致力于打造基因组数据下载后，计算机实现自动化、批量化处理，直接获取计算结果的一站式流程。

发明内容

本发明的目的是提供一种批量计算基因组直系同源基因进化速率的方法。

本发明所提供的批量计算基因组直系同源基因进化速率的方法，具体可包括如下步骤：

(1)将待测两物种(Speci1和Speci2)基因组蛋白序列fasta格式文件分别记为A和B数据集(文件“XXX1”和“XXX2”)，利用Linux系统中的InParanoid软件，运行“perlinparanoid.plXXX1XXX2”命令，得到“table.XXX1-XXX2.fasta”文件。

所述“table.XXX1-XXX2.fasta”文件中的数据为Speci1和Speci2两物种之间的直系同源基因对，记为C数据集；所述“XXX1和XXX2”分别代表A和B数据集的文件名，该文件要在运行InParanoid程序前置于包含“inparanoid.pl”脚本的文件夹内。

(2)建立工作文件夹work_dir，将待测Speci1和Speci2两物种基因组cds编码区序列fasta格式文件分别记为D和E数据集(文件“XXX3”和“XXX4”)，运行“perl1align_combine.plXXX3XXX4table.XXX1-XXX2.fasta”命令，在seqpair_cds和muscle_out两个文件夹中分别得到小于或等于“table.XXX1-XXX2.fasta”文件中直系同源对数目的文件个数n(且每个文件中包含两条直系同源对的cds序列)；在当前工作文件夹work_dir下得到“seqset”文件。

所述“seqset”文件为满足yn00软件输入格式的文件，记为数据集F；所述“XXX3和XXX4”分别代表D和E数据集的文件名，该文件在运行“perl1align_combine.pl”程序时已置于包含“1align_combine.pl”脚本的当前工作文件夹work_dir内。而文件夹seqpair_cds和muscle_out则为当前工作文件夹work_dir的子文件夹。

(3)切换至PAML软件包中含有“yn00.ctl”文件的文件夹，修改“yn00.ctl”文件中的ndata参数，使得“ndata＝n”，运行“yn00”命令，得到“yn”文件。

所述“yn”文件为yn00模型计算后的输出文件，记为数据集G；所述n，为步骤(2)中所述文件夹seqpair_cds或muscle_out文件夹中文件的个数(或本步骤“seqset”文件中cds序列的对数)，且在运行“yn00”命令时，“seqset”文件已移动至PAML软件包，并与yn00.ctl文件处于同一个文件夹下。

(4)运行“perl2abs_kaks.pl”，得到文件“result_kaks”。

所述“result_kaks”文件记为数据集H，该数据集中的序列即为从待测Speci1(A数据集)和Speci2(B数据集)两物种基因组序列中批量计算出的基因组基因进化速率相关各参数值；在本步骤程序运行前，脚本“2abs_kaks.pl”和“yn”文件分别置于文件夹work_dir之中。在上述方法步骤(2)中，所述脚本“1align_combine.pl”中关于获得seqpair_cds和muscle_out两个文件夹及下属文件的内容，是基于如下原理进行编程的：根据“table.XXX1-XXX2.fasta”文件中提取出的成对直系同源基因ID，分别到“XXX3”和“XXX4”两个文件中提取cds序列，以fasta文件格式存储，文件名为两个ID号中间加一短下横线“_”(英文输入法)。将该文件放置于seqpair_cds文件夹下，然后调用MUSCLE软件，对seqpair_cds文件夹下的子文件进行多序列比对，并把结果置于muscle_out文件夹之中，子文件名与seqpair_cds文件夹中对应文件名相同(成对ID号中间加短下横线“_”)。

此外，所述脚本“1align_combine.pl”关于获取“seqset”文件的部分是基于如下原理进行编程的：对muscle_out文件夹中各子文件的序列进行处理：对于每一对序列，首先分别去除结尾处多序列比对后留下的短横线“-”；其次去除序列结尾处的终止密码子(TAA、TAG和TGA)；然后摒弃中间部分存在终止密码子的序列对。对于保留下来的成对序列，选取较短序列的长度值m作为此直系同源对序列的长度记录下来。最后按照yn00软件输入文件的格式要求把m、成对序列ID及成对序列对应写入“seqset”文件中，以备使用。

在上述方法步骤(4)中，所述脚本“2abs_kaks.pl”具有如下特点：以“Userunmode”标志，对其后两行的序列ID进行提取；以“seq.seq.SNtkappaomegadN+-SEdS+-SE”为标志对其后一行的各项结果参数值进行提取，作为相应ID对应的结果存储到文件“result_kaks”中，此文件即为本流程的最终结果。

进一步地，本发明中所述脚本“1align_combine.pl”具体为：

进一步地，本发明中所述脚本“2abs_kaks.pl”具体为：

在本发明中，步骤(1)中的所述待测两物种Speci1和Speci2为任意可能存在直系同源基因对的近缘物种。

在所述方法中，所述待测基因组蛋白和cds编码区序列可以通过下载已公开的全基因组序列获得或通过全基因组测序得到。

具体地，本发明所述两待测基因组具体为雷蒙德氏棉(GossypiumraimondiiL.)和亚洲棉(GossypiumarboretumL.)的基因组。所述雷蒙德氏棉和亚洲棉基因组都记录于中国农业科学院棉花研究所网站的棉花基因组计划链接(http://cgp.genomics.org.cn/)数据库。

本发明具有以下优点：一是找出直系同源基因对较精确，计算出的基因组基因进化速率各参数较为全面和准确，效果好，速度快；二是比较系统，效率高，易实现流程化、批量化、自动化；三是本发明将高效又常用的几个与计算基因组直系同源基因进化速率相关的软件以及Perl脚本语言编程完美流畅的结合起来，实现了软件之间的良好衔接，在很大程度上弥补了求解进化速率过程中出现的耗时费力、流程化批量化欠缺等不足。本方法在批量计算基因组直系同源基因进化速率过程中可以发挥重要的作用。

附图说明

图1为本发明批量计算基因组直系同源基因进化速率方法的流程图。

图2为实施例2中步骤2)中Perl脚本“1align_combine.pl”分析后所获“seqset”文件格式的图示。

图3为实施例2中步骤3)中yn00软件运行之后获得的“yn”文件格式的图示。

具体实施方式

下面将通过实施例更详细地说明本发明，而这些实施例并不试图限制本发明的保护范围。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、批量计算基因组直系同源基因进化速率的方法的建立

本发明所提供的批量计算基因组直系同源基因进化速率的方法的流程图见图1，具体包括如下步骤：

(1)采用基于Blast成对比对结果后进行聚类的InParanoid程序，鉴定待测Speci1和Speci2两基因组(A、B数据集)中的直系同源基因，在Linux系统下操作，采用默认参数设置进行分析；按照如下步骤获取完整的直系同源基因对ID和分值信息文件(C数据集)；

获取完整的直系同源基因对ID和分值信息文件步骤：打开InParanoid软件包“inparanoid.pl”文件所在文件夹，运行“perlinparanoid.plXXX1XXX2”命令，其中，“XXX1”和“XXX2”分别代表A、B数据集的文件名(这两个文件都放置到InParanoid软件包中存放“inparanoid.pl”文件的文件夹之内)。此步骤将得到“table.XXX1-XXX2.fasta”文件。

所述“table.XXX1-XXX2.fasta”文件中的数据为两物种之间的直系同源基因对信息，记为C数据集。

(2)根据所获得的两物种直系同源基因对信息文件(C数据集)中的直系同源基因的成对ID，采用Perl脚本“1align_combine.pl”，在Linux或Window系统下操作，按照如下步骤从两物种基因组cds编码区序列文件(D和E数据集)中匹配ID筛选出成对cds序列并调用系统MUSCLE程序(默认参数设置)进行多序列比对，处理批量结果文件，最后融合形成一个具有特殊格式的“seqset”文件(F数据集)。

获取PAML软件包yn00模型输入格式要求的“seqset”文件的步骤：建立工作目录work_dir，并在该文件夹下建立两个子文件夹seqpair_cds和muscle_out，把所述脚本“1align_combine.pl”和“table.XXX1-XXX2.fasta”，还有cds文件XXX3和XXX4放在工作目录work_dir文件夹下，运行“perl1align_combine.plXXX3XXX4table.XXX1-XXX2.fasta”命令，得到“seqset”文件，记为F数据集。

所述“XXX3”和“XXX4”分别代表D和E数据集的文件名。所述seqpair_cds文件夹中放置的是从两物种基因组cds编码区序列文件(D和E数据集)中通过匹配ID批量筛选出的所有成对cds序列。该序列文件有如下特点，每个文件包含两条成对的fasta格式cds序列，且文件中的成对ID与“table.XXX1-XXX2.fasta”文件中的直系同源基因对ID相同，此外文件名以两个成对ID中间加短下横线“_”(英文输入法)命名。所述muscle_out文件夹中放置的是seqpair_cds文件夹中所有cds序列文件经过MUSCLE程序比对后的结果文件。

其中，所述脚本“1align_combine.pl”中关于获得seqpair_cds和muscle_out两个文件夹及下属文件的内容具有如下特点：根据“table.XXX1-XXX2.fasta”文件中提取出的成对直系同源基因ID，分别到“XXX3”和“XXX4”两个文件中提取cds序列，以fasta文件格式存储，文件名为两个ID号中间加一短下横线“_”(英文输入法)。将该文件放置于seqpair_cds文件夹下，然后调用MUSCLE软件，对seqpair_cds文件夹下的子文件进行多序列比对，并把结果置于muscle_out文件夹之中，子文件名与seqpair_cds文件夹中对应文件名相同(成对ID号中间加短下横线“_”)。

(3)在Linux或Window系统下操作，利用PAML软件包中的yn00模型进行计算，修改模型配置文件“yn00.ctl”中的ndata参数，将其设计为n(ndata＝n)，其它采用默认参数，运行“yn00”命令，得到“yn”文件。

所述“yn”文件为yn00模型计算后的结果文件，记为G数据集，所述n为步骤(2)中所述文件夹seqpair_cds或muscle_out文件夹中文件的个数(或本步骤“seqset”文件中cds序列的对数)。

其中，所述“seqset”文件(F数据集)在运行“yn00”命令前，需移至PAML软件包并与yn00.ctl文件处于同一文件夹下。

(4)在Linux或Window系统下操作，运行“perl2abs_kaks.pl”，得到文件“result_kaks”。

所述“result_kaks”文件为对待测两物种基因组基因进化速率结果文件“yn”(G数据集)进行整体和提取的文件，记为数据集H。所述“yn”文件和Perl脚本“2abs_kaks.pl”文件，在程序运行前皆已移至工作目录work_dir之中。

其中，所述脚本“2abs_kaks.pl”具有如下特点：以“Userunmode”标志，对其后两行的序列ID进行提取；以“seq.seq.SNtkappaomegadN+-SEdS+-SE”为标志对其后一行的各项结果参数值进行提取，结果以ID1ID2seqseqSNtkappaomegadN+-SEdS+-SEdn/ds的列顺序分别写入所获结果文件“result_kaks”之中，记为数据集H。所述H数据集中的各行内容即为从所述待测两物种基因组中批量计算出的基因进化速率各相关参数信息。

2abs_kaks.pl(脚本2)

实施例2、利用实施例1建立的方法批量计算雷蒙德氏棉和亚洲棉基因组间基因的进化速率

进入中国农业科学院棉花研究所网站的棉花基因组计划链接(http://cgp.genomics.org.cn/)数据库分别下载雷蒙德氏棉(GossypiumraimondiiL.)的基因组序列(13条染色体，885Mb)和亚洲棉(GossypiumarboretumL.)(13条染色体，1,746Mb)，在Windows系统或本地Linux运算服务器，进行雷蒙德氏棉和亚洲棉基因组间基因进化速率的计算。计算过程中，所涉及的常用程序名称、运行环境及地址如表1所示。计算方法具体操作步骤如下：

1)参照实施例1的步骤(1)进行。

采用InParanoid程序鉴定雷蒙德氏棉(A数据集)和亚洲棉(B数据集)基因组之间的直系同源基因，Linux系统下操作，采用默认参数设置，共得到24924对最高分值的直系同源基因对(C数据集)。

2)参照实施例1的步骤(2)进行。

利用所获雷蒙德氏棉(A数据集)和亚洲棉(B数据集)两基因组24924对直系同源基因对文件(C数据集)，在Linux或Window系统下，采用Perl脚本“1align_combine.pl”，从两棉花基因组cds编码区序列文件(D和E数据集)中匹配ID筛选出成对cds序列23091对，并将该23091对序列皆放置于事先在work_dir文件夹下建立的seqpair_cds文件夹内，后Perl脚本会调用系统MUSCLE程序(默认参数设置)对该23091对序列分别进行多序列比对，再将23091对比对结果序列放置于事先在work_dir文件夹下建立的muscle_out文件夹内，最后脚本“1align_combine.pl”还能处理muscle_out文件夹中的批量结果文件，将其融合形成一个如图2所示具有特殊格式(序列不含终止密码子“TAA、TAG和TGA”；序列结尾处没有MUSCLE程序比对后留下的短横线“-”，且计算出两条序列较短条的长度值m)的“seqset”文件(F数据集)。

3)参照实施例1的步骤(3)进行。

在Linux或Windows系统下操作，将步骤2)所获取的“seqset”文件(F数据集)移至PAML软件包与“yn00.ctl”文件共处于同一个文件夹。修改yn00模型配置文件“yn00.ctl”中的ndata参数，将其设计为23091(即ndata＝23091)，其它采用默认参数，运行“yn00”命令，得到如图3所示格式的“yn”文件，其中Dataset总共为23091。所述“yn”文件为yn00模型计算后的结果文件，记为G数据集，

4)参照实施例1的步骤(4)进行。

在Linux或Window系统下操作，将步骤3)所获得的“yn”文件和Perl脚本“2abs_kaks.pl”文件，移至工作目录work_dir之中。采用Perl脚本以“Userunmode”标志，对其后两行的序列ID进行提取；以“seq.seq.SNtkappaomegadN+-SEdS+-SE”为标志对其后一行的各项结果参数值进行提取。结果分别以ID1ID2seqseqSNtkappaomegadN+-SEdS+-SEdn/ds的列顺序分别写入文件“result_kaks”(数据集H)之中。最终获得23091对基因的进化速率各相关参数值。

表1说明书中的常用软件

本发明的发明人从最终所得23091对直系同源基因的进化速率中随机选取10对基因ID，手动找出它们对应的cds序列后用MUSCLE软件分别进行比对，结果再分别使用PAML计算进化速率，最终发现这10对基因的进化速率各参数结果与批量算法流程求解出的完全相同，从而证实了以上本发明方法的准确性。

Claims

1.一种批量计算基因组直系同源基因进化速率的方法，包括如下流程步骤：

(1)将待测两物种Speci1和Speci2基因组蛋白序列fasta格式文件分别记为A和B数据集，所述A、B数据集的文件名分别为XXX1和XXX2，利用Linux系统中的InParanoid软件，运行“perlinparanoid.plXXX1XXX2”命令，得到“table.XXX1-XXX2.fasta”文件；

所述“table.XXX1-XXX2.fasta”文件中的数据为Speci1和Speci2两物种间的直系同源基因对及分值，记为C数据集；所述“XXX1和XXX2”在运行InParanoid程序时已置于包含“inparanoid.pl”的文件夹内；

(2)建立工作文件夹work_dir，将待测Speci1和Speci2两物种基因组cds编码区序列fasta格式文件分别记为D和E数据集，所述A、B数据集的文件名分别为“XXX3”和“XXX4”，运行“perl1align_combine.plXXX3XXX4table.XXX1-XXX2.fasta”命令，在seqpair_cds和muscle_out两个文件夹中分别得到小于等于“table.XXX1-XXX2.fasta”文件中直系同源对数目的n个文件，且每个文件中包含两条直系同源基因对的cds序列；在当前工作文件夹work_dir下得到“seqset”文件；

所述“seqset”文件为满足yn00软件输入格式的文件，记为数据集F；所述“XXX3和XXX4”在运行“perl1align_combine.pl”程序时已置于包含“1align_combine.pl”的当前工作文件夹work_dir内；而文件夹seqpair_cds和muscle_out则为当前工作文件夹work_dir的子文件夹；

(3)切换至PAML软件包中含有“yn00.ctl”文件的文件夹，修改“yn00.ctl”文件中的ndata参数，使得“ndata＝n”，运行“yn00”命令，得到“yn”文件；

所述“yn”文件为yn00模型计算后的输出文件，记为数据集G；所述n，为步骤(2)中所述文件夹seqpair_cds或muscle_out文件夹中文件的个数或本步骤“seqset”文件中cds序列的对数，且在运行“yn00”命令时，“seqset”文件已移至PAML软件包，并与yn00.ctl文件处于同一文件夹内；

(4)运行“perl2abs_kaks.pl”，得到文件“result_kaks”；

所述“result_kaks”文件记为数据集H，该数据集中的序列即为从待测Speci1和Speci2两物种基因组序列中批量计算出的基因组基因进化速率相关各参数值；且在本步骤程序运行前，脚本“2abs_kaks.pl”和“yn”文件已分别置于文件夹work_dir之中。

2.根据权利要求1所述的方法，其特征在于：步骤(2)中，所述脚本“1align_combine.pl”中关于获取seqpair_cds和muscle_out两个文件夹下属文件内容以及获得“seqset”文件分别是基于如下方法进行编程的：

首先，把fasta格式的“XXX3”和“XXX4”两个文件中的ID分别提取出来，根据“table.XXX1-XXX2.fasta”文件中计算出的成对ID分别进行匹配后连同ID所带cds序列，以fasta文件格式一并放入同一文件中，文件名即为两成对ID中间加一短下横线“_”，同时把该文件置于seqpair_cds文件夹中，然后调用Linux或Window的系统MUSCLE程序，对seqpair_cds文件夹内的子文件进行多序列比对，并把比对结果置于muscle_out文件夹中，子文件名与seqpair_cds文件夹中对应的文件名相同，成对ID中间加短下横线“_”；

第二，对muscle_out文件夹中各子文件序列进行处理，对于每一个子文件中的成对序列，首先分别去除结尾处的短横线“-”，如果序列结尾处含有终止密码子(TAA、TAG和TGA)，再将终止密码子去掉，然后把中间部分存在终止密码子的序列对剔除，对剩下的成对序列比较二者长度之后计算较短序列的长度值m记为直系同源基因的长度，最后按照yn00软件输入文件的格式要求把m、成对序列ID及成对cds序列对应写入“seqset”文件中。

3.根据权利要求1或2所述的方法，其特征在于：所述脚本“1align_combine.pl”为：

4.根据权利要求1所述的方法，其特征在于：步骤(4)中，所述脚本“2abs_kaks.pl”中关于获取所述“result_kaks”文件(H数据集)，是基于如下方法进行编程的：以“Userunmode”标志，对其后两行的序列ID进行提取；以“seq.seq.SNtkappaomegadN+-SEdS+-SE”为标志对其后一行的各项结果参数值进行提取，结果以ID1ID2seqseqSNtkappaomegadN+-SEdS+-SEdn/ds的列顺序分别写入所获结果文件“result_kaks”之中，记为数据集H，所述H数据集中的内容即为从所述待测两物种基因组中批量计算出的基因进化速率。

5.根据权利要求1或4所述的方法，其特征在于：所述脚本“2abs_kaks.pl”为：

6.根据权利要求1所述的方法，其特征在于：步骤(1)中，所述两待测物种可以为任意两个存在近缘关系的物种。

7.根据权利要求1-6中任一所述的方法，其特征在于：所述待测基因组序列通过下载已公开的全基因组序列获得或通过全基因组测序获得。

8.根据权利要求1-7中任一所述的方法，其特征在于：所述待测基因组为植物基因组；

所述植物基因组具体为棉花基因组；

所述棉花基因组具体为雷蒙德氏棉和亚洲棉基因组。