CN103824000A

CN103824000A - 一种批量检测植物基因组ltr-反转座子的方法

Info

Publication number: CN103824000A
Application number: CN201410062207.1A
Authority: CN
Inventors: 杜建厂; 刘静; 徐珍珍; 倪万潮
Original assignee: Jiangsu Academy of Agricultural Sciences
Current assignee: Jiangsu Academy of Agricultural Sciences
Priority date: 2014-02-24
Filing date: 2014-02-24
Publication date: 2014-05-28
Anticipated expiration: 2034-02-24
Also published as: CN103824000B

Abstract

本发明公开了一种批量检测植物基因组LTR-反转座子的方法。本发明所提供的检测植物基因组LTR-反转座子的方法综合运用了基于结构特征从头寻找的LTR_STRUC程序，基于同源搜索的CROSS_MATCH程序，基于序列相似性的CLUSTALW比对程序，以及结合Perl脚本语言编程等方法。实验证明，本发明所提供的批量检测LTR-反转座子的方法比较系统，检测植物基因组LTR-反转座子插入位点正向重复的效果好，速度快，易实现流程化。本发明将常用的检测LTR-反转座子的软件与Perl脚本语言编程相结合，一定程度上弥补了这些常用软件的一些不足。本方法将在基因组注释和批量检测植物基因组LTR-反转座子中发挥着重要的作用。

Description

一种批量检测植物基因组LTR-反转座子的方法

技术领域

本发明属于生物技术领域，涉及一种批量检测植物基因组LTR-反转座子的方法。

背景技术

近年来，随着测序技术的进步，特别是第二代测序技术的出现，基因组学的发展异常迅速。不仅许多模式植物如拟南芥和水稻，其它经济作物，如大豆、玉米、棉花等也相继完成全基因组测序。通过对这些完成测序的物种基因组的遗传组分进行分析，科学家们得到几乎一致的发现：除功能基因外，植物基因组主要由各种类型的重复序列，特别是转座子及其衍生物构成。根据转座方式的不同，转座子又分为反转座子和DNA转座子。根据结构的不同，反转座子又可分为LTR-反转座子和非LTR-反转座子。其中，LTR-反转座子是真核生物，特别是植物基因组的主要组成部分，在基因和基因组的进化过程中起着重要作用。

LTR-反转座子三种基本结构类型如图1所示，具有两个长末端正向重复序列（longterminal repeats,LTRs）。单个LTR的长度从100bp到几kb不等，并通常以5’-TG-3’开始，并以其反向重复序列5’-CA-3’结束。它们在插入到寄主基因组时往往会在转座子两端形成4-6bp的正向重复序列（Target Site Duplications,TSDs）。LTR-反转座子包含编码多种蛋白质的基因，主要包括gag（编码的蛋白质形成壳的结构，进行反转录的合成）、pol多聚基因（编码与反转录过程有关的一系列酶）。此外，LTR-反转座子还含有与转录起始和终止有关的tRNA结合位点（Primer Binding Site,PBS）和多聚嘌呤序列（Polypurine Tract,PPT）。根据序列相似性和转座酶相关基因的排列顺序，LTR-反转座子又可分为Tyl-copia类型和Ty3-gypsy类型。

基于上述LTR-反转座子的结构特征，一些软件被不断开发出来，为LTR-反转座子的鉴定提供了一定的研究工具。LTR-反转座子序列识别鉴定的软件大致分为4类，包括基于结构的方法（Structure-based method）、从头算起法（De novo repeat discoverymethod）、比较基因组学法（Comparative genomic method）和基于同源的方法（Homology-based method）。其中，目前运用最多的是基于结构特征从头寻找的LTR_STRUC程序。但是，该程序只能寻找相对年轻的LTR-反转座子。对于插入时间较为古老的，转座子中间有测序“GAP”（以“N”表示）的，以及LTR序列被其它转座子插入的元件，该程序无法进行识别。

发明内容

本发明的目的是提供一种批量检测基因组LTR-反转座子的方法。

本发明所提供的批量检测基因组LTR-反转座子的方法，具体可包括如下步骤：

（1）将待测基因组序列记为A数据集，利用基于转座子结构特征从头寻找的LTR_STRUC程序，在Windows操作系统下，采用默认参数设置对所述A数据集进行分析；然后，把脚本abstract1.pl放到LTR_STRUC文件夹下，运行“perl abstract1.pl XXX1”命令，得到“result_LTR”和“result_INTACT”两个文件。

所述“result_LTR”文件中的数据为LTRs序列，记为B数据集；所述“result_INTACT”文件中的数据即为LTR-反转座子序列，记为L1数据集；

所述“XXX1”代表A数据集的文件名，该文件在运行LTR_STRUC程序时已置于input文件夹内；所述input文件夹为所述LTR_STRUC文件夹的子文件夹；

（2）将模式生物的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列记为C数据集，利用Tblastn程序，在Linux操作系统或Window操作系统下，把-outfmt设置为6或7，其它采用默认参数，用所述C数据集对所述A数据集进行比对分析；按照脚本abstract_filter.pl对比对结果进行分析：运行命令“perlabstract_filter.pl XXX1XXX2”，得到“dbD”和“dbE”两个文件；

所述“XXX1”代表所述A数据集的文件名；所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名；

所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列的集合，记为D数据集；所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集，记为E数据集；

进一步，所述D数据集为以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点，提取上下游共30kb的序列集合（上游15kb，下游包含起始位点15kb）；

（3）利用基于同源搜索的CROSS_MATCH程序，在Linux操作系统下，采用默认参数设置，对所述B数据集和所述D数据集进行cross_match比对，把所得cross_match结果文件的开头和结尾的说明部分删除，留下比对行，得到的文件记为XXX4；按照所述脚本abstract2.pl对所述XXX4中的数据进行分析：运行命令“perlabstract2.pl XXX3XXX4”命令，得到“XXX4.result”文件，根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，记为L2数据集；

所述XXX3为所述D数据集的文件名；

（4）利用CLUSTALW程序，在Linux操作系统或Window操作系统下，采用默认参数设置，对所述D数据集进行多序列比对，提取LTR-反转座子，记为L3数据集；

（5）利用基于同源搜索的CROSS_MATCH程序，在Linux操作系统下，采用默认参数设置，对所述B数据集和所述E数据集进行cross_match比对，把所得cross_match结果文件的开头和结尾的说明部分删除，留下比对行，得到的文件记为XXX6；按照如下脚本abstract2.pl对所述XXX6中的数据进行分析：“perl abstract2.plXXX5XXX6”命令，得到“XXX6.result”文件；根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，记为L4数据集；；

所述XXX5为所述E数据集的文件名；

（6）将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重，对步骤（1），（3），（4）和（5）的结果进行优化，并去掉重复的LTR-反转座子，得到L数据集；所述L数据集中的序列即为从所述待测基因组序列（A数据集）中批量检测到的LTR-反转座子。

在上述方法步骤（1）中，所述脚本abstract1.pl中关于提取所述LTRs序列和LTR-反转座子序列的内容，是基于如下原理进行编程的：以“LTRS:”为起始标志，对所述LTRs序列进行提取；以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。

在上述方法步骤（2）中，所述脚本abstract_filter.pl中关于提取所述D数据集和所述E数据集（所述A数据集中剔除所述D数据集），是基于如下原理进行编程的：以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点，提取上下游共30kb的序列集合（上游15kb，下游包含起始位点的15kb），记为D数据集；所述数据集A中剔除所述D数据集中的序列后得到的数据集，记为E数据集。即E数据集为以所述A数据集匹配到的所述D数据集序列被替换成相应长度的“X”的片段得到的数据集。

在上述方法步骤（3）和（5）中，所述脚本abstract2.pl具有如下特点：从所述XXX4和所述XXX6中寻找两端边界明确的LTR-反转座子的位置，是通过限制其序列长度，并进行TSDs的检验，提取符合检验标准的所述LTR-反转座子来实现的；所述检验标准为：LTR-反转座子的长度小于等于30kb；5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD，若TSD的长度为4bp时，不允许突变，长度为5bp或6bp时最多允许一个碱基突变。

在本发明的一个实施例中，所述脚本abstract1.pl具体为：

在本发明中，步骤（2）中的所述模式生物具体为拟南芥。

相应的，所述拟南芥LTR-反转座子的Tyl-copia转座酶保守结构域的氨基酸序列具体为序列表中序列1所示。所述拟南芥LTR-反转座子的Ty3-gypsy转座酶保守结构域的氨基酸序列具体为序列表中序列2所示。

在所述方法中，所述待测基因组序列可以通过下载已公开的全基因组序列获得或通过全基因组测序得到。

在所述方法中，所述待测基因组可为植物基因组，如棉花基因组。

在本发明的一个实施例中，所述待测基因组具体为雷蒙德氏棉（Gossypiumraimondii L.）的基因组。所述雷蒙德氏棉（Gossypium raimondii L.）的基因组记录于NCBI数据库（BioProject accession PRJNA171262）。

本发明具有以下优点：一是检测到的LTR-反转座子较为全面和准确，效果好，速度快，完整的LTR-反转座子的数目较多；二是比较系统，效率高，易实现流程化；三是本发明将常用的检测LTR-反转座子的方法与序列比对，以及各种Perl脚本语言编程相结合，一定程度上弥补了这些常用软件的一些不足。本方法在批量检测植物基因组LTR-反转座子中可以发挥重要的作用。

附图说明

图1为LTR-反转座子的结构示意图。其中，A为完整的LTR-反转座子；B为单独的LTR；C为不完整的LTR-反转座子。

图2为本发明批量检测植物基因组中LTR-反转座子的方法的流程图。

图3为实施例2中步骤3）采用CROSS_MATCH程序，对B数据集和D数据集进行比对所得的cross_match结果文件的开头和结尾的说明部分删除后，留下的比对行的图示。

具体实施方式

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料，如无特殊说明，均可从商业途径得到。

实施例1、批量检测植物基因组LTR-反转座子的方法的建立

本发明所提供的批量检测植物基因组LTR-反转座子的方法的流程图见图2，具体包括如下步骤：

（1）采用基于转座子结构特征从头寻找的LTR_STRUC程序，鉴定待测基因组（A数据集）中相对年轻的LTR-反转座子，在Windows系统下操作，采用默认参数设置进行分析；然后，采用Perl脚本语言编程（脚本1），按照如下步骤提取LTR-反转座子序列（L1数据集）和LTRs序列（B数据集）；

提取LTR-反转座子和LTR序列步骤：把所述脚本1放到LTRSTRUC文件夹下，运行“perl abstract1.pl XXX1”命令，其中，“XXX1”代表A数据集的文件名（进行LTR_STRUC分析时已置于input文件夹内，input文件夹为所述LTR_STRUC文件夹的子文件夹）。此步骤将得到“result_LTR”和“result_INTACT”两个新文件。

所述“result_LTR”文件中的数据为LTRs序列，记为B数据集；所述“result_INTACT”文件中的数据为LTR-反转座子序列，记为L1数据集。

其中，所述脚本1具有如下特点：以“LTRS:”为起始标志，对所述LTRs序列进行提取；以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。

abstract1.pl（脚本1）：

（2）将模式生物（如：拟南芥）的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列（C数据集）在待测基因组（A数据集）中进行Tblastn分析，把-outfmt设置为6或7，其它采用默认参数，可在Linux或Window系统下操作。

用脚本abstract_filter.pl对上述比对结果进行分析：运行命令“perl abstract_filter.plXXX1XXX2”，得到“dbD”和“dbE”两个文件。

将所述“dbD”记为D数据集；所述“dbE”记为E数据集。

其中，所述脚本abstract_filter.pl具有如下特点：以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点，提取上下游共30kb的序列集合（上游15kb，下游包含起始位点15kb），记为D数据集；所述数据集A中剔除所述D数据集中的序列后得到的数据集，记为E数据集。即E数据集为以所述A数据集匹配到的所述D数据集序列被替换成相应长度的“X”的片段得到的数据集。

abstract_filter.pl（脚本2）：

（3）采用基于同源搜索的CROSS_MATCH程序，把result_LTR（B数据集）与D数据集进行cross_match比对，搜索两者相匹配的基本信息。在本地Linux操作系统下进行，采用默认参数设置，把所得cross_match结果文件的开头和结尾的说明部分删除，留下比对行，得到的文件记为XXX4。

采用Perl脚本语言编程（脚本3），对所XXX4中的数据进行分析：运行“perlabstract2.pl XXX3XXX4”命令。其中，所述“XXX3”为所述D数据集的文件名。此步骤生成文件“XXX4.result”；根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，记为L2数据集。

其中，脚本3具有如下特点：从所述文件1中寻找两端边界明确的LTR-反转座子的位置，是通过限制其序列长度，并进行TSDs的检验，提取符合检验标准的所述LTR-反转座子来实现的；所述检验标准为：LTR-反转座子的长度小于等于30kb；5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD，若TSD的长度为4bp时，不允许突变，长度为5bp或6bp时最多允许一个碱基突变。

abstract2.pl（脚本3）：

（4）采用CLUSTALW程序，将步骤（2）得到的D数据集进行多序列比对，在Linux或Window系统下操作，采用默认参数设置，提取LTR-反转座子（L3数据集）。

（5）采用基于同源搜索的CROSS_MATCH程序，把result_LTR（B数据集）与E数据集进行cross_match比对，搜索两者相匹配的基本信息。在本地Linux操作系统下进行，采用默认参数设置，把所得cross_match结果文件的开头和结尾的说明部分删除，留下比对行，得到的文件记为XXX6。

采用步骤（3）中介绍的Perl脚本语言编程（脚本3），对XXX6的数据进行分析：运行“perl abstract2.pl XXX5XXX6”命令。其中，所述“XXX5”为所述E数据集的文件名。此步骤生成文件“XXX6.result”；根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，记为L4数据集。

（6）将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重，得到L数据集；

所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR-反转座子。

实施例2、利用实施例1建立的方法批量检测雷蒙德氏棉基因组LTR-反转座子

进入NCBI数据库（BioProject accession PRJNA171262）下载雷蒙德氏棉（Gossypiumraimondii L.）的基因组序列（13条染色体，737.8Mb），上传到Windows系统和本地Linux运算服务器，进行雷蒙德氏棉基因组LTR-反转座子的检测。检测过程中，所涉及的常用程序的名称、运行环境及地址如表1所示。检测方法具体操作步骤如下：

1）参照实施例1的步骤（1）进行。

采用LTR_STRUC程序鉴定雷蒙德氏棉基因组（A数据集）中的LTR-反转座子，Windows系统下操作，采用默认参数设置。采用Perl脚本语言编程（脚本1），提取2247条LTR-反转座子序列集合（L1数据集）和2247条LTR-反转座子的LTRs序列（B数据集）；

2）参照实施例1的步骤（2）进行。

利用模式生物拟南芥Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列（C数据集）在雷蒙德氏棉基因组（A数据集）中进行Tblastn分析，Linux系统下操作，把-outfmt设置为6或7，其它采用默认参数设置。以雷蒙德氏棉基因组中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点，提取上下游长度为30kb的序列（上游15kb，下游包含起始位点15kb），建立D数据集；另外，将所述数据集A中剔除所述D数据集中的序列后得到E数据集；

其中，拟南芥Tyl-copia LTR-反转座子中转座酶保守结构域的氨基酸序列如序列表中序列1所示；拟南芥Ty3-gypsy LTR-反转座子中转座酶保守结构域的氨基酸序列如序列表中序列2所示。

3）参照实施例1的步骤（3）进行。

采用CROSS_MATCH程序，搜索步骤1）得到的LTRs序列（B数据集）与步骤2）得到的D数据集的匹配，本地Linux操作系统操作，采用默认参数设置。把所得cross_match结果文件的开头和结尾的说明部分删除，留下如图3所示的比对行，得到的文件记为XXX4。接着参照实施例1的步骤（3）采用Perl脚本语言编程（脚本3），对所述文件XXX4中的数据进行分析。根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，最终检测到5455条LTR-反转座子（L2数据集）。

4）参照实施例1的步骤（4）进行。

采用ClustalW程序，Linux系统下操作，采用默认参数设置，将步骤（2）得到的数据集D进行多序列比对，共得到929条LTR-反转座子（L3数据集）。

5）参照实施例1的步骤（5）进行。

采用CROSS_MATCH程序，搜索步骤（1）得到的LTRs序列（B数据集）与步骤（2）得到的E数据集，本地Linux服务器运算，采用默认参数设置，得到14215条LTR-反转座子（L4数据集）。

6）参照实施例1的步骤（6）进行。

对步骤1），3），4）和6）得到的LTR-反转座子（L1数据集、L2数据集、L3数据集和L4数据集）进行整理去重，如表2所示，最终获得20818个LTR-反转座子。

表1说明书中的常用软件

软件名称	运行环境	地址
			LTR_STRUC	Windows	http://www.genetics.uga.edu/retrolab/data/LTR_Struc.html
CROSS_MATCH	Linux	http://www.phrap.org/phrap.docs/general.html

Tblastn	Linux/Window	ftp://ftp.ncbi.nih.gov/blast/executables/release/
			ClustalW	Linux/Window	http://www.ebi.ac.uk/clustalw/

表2LTR-反转座子识别方法的比较

本发明的发明人从最终所得的20818个LTR-反转座子中随机选取10个，并分别进行了结构特征分析，发现10个序列均完全符合LTR-反转座子的结构特征，从而证实了以上本发明方法的准确性。

Claims

1.一种批量检测基因组LTR-反转座子的方法，包括如下步骤：

（1）将待测基因组序列记为A数据集，利用LTR_STRUC程序，在Windows操作系统下，采用默认参数设置对所述A数据集进行分析；把脚本abstract1.pl放到LTR_STRUC文件夹下，运行“perl abstract1.pl XXX1”命令，得到“result_LTR”和“result_INTACT”两个文件；

所述“result_LTR”文件中的数据为LTRs序列，记为B数据集；所述“result_INTACT”文件中的数据为LTR-反转座子序列，记为L1数据集；

（2）将模式生物的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列记为C数据集，利用Tblastn程序，在Linux操作系统或Window操作系统下，把-outfmt设置为6或7，其它采用默认参数设置，用所述C数据集对所述A数据集进行比对分析；按照如下用脚本abstract_filter.pl对比对结果进行分析：运行命令“perl abstract_filter.pl XXX1XXX2”，得到“dbD”和“dbE”两个文件；

所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列集合，记为D数据集；所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集，记为E数据集；

（3）利用CROSS_MATCH程序，在Linux操作系统下，采用默认参数设置，对所述B数据集和所述D数据集进行cross_match比对，把所得cross_match结果文件的开头和结尾的说明部分删除，留下比对行，得到的文件记为XXX4；按照如下用脚本abstract2.pl对所述文件XXX4中的数据进行分析：运行命令“perl abstract2.pl XXX3XXX4”命令，得到“XXX4.result”文件；根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，记为L2数据集；所述“XXX3”为所述D数据集的文件名；

（5）利用CROSS_MATCH程序，在Linux操作系统下，采用默认参数设置，对所述B数据集和所述E数据集进行cross_match比对，把所得cross_match结果文件的开头和结尾的说明部分删除，留下比对行，得到的文件记为文件XXX6；按照如下脚本abstract2.pl对所述XXX6中的数据进行分析：运行“perl abstract2.pl XXX5XXX6”命令，得到“XXX6.result”文件；根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合，记为L4数据集；；

所述“XXX5”为所述E数据集的文件名；

（6）将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重，得到L数据集；所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR-反转座子。

2.根据权利要求1所述的方法，其特征在于：步骤（1）中，所述脚本abstract1.pl中关于提取所述LTRs序列和所述LTR-反转座子序列的内容，是基于如下原理进行编程的：以“LTRS:”为起始标志，对所述LTRs序列进行提取；以“COMPLETE SEQUENCEOF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。

3.根据权利要求1或2所述的方法，其特征在于：所述脚本abstract1.pl为：

4.根据权利要求1-3中任一所述的方法，其特征在于：步骤（2）中，所述脚本abstract_filter.pl中关于提取所述D数据集和所述E数据集，是基于如下原理进行编程的：以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点，提取上游15kb序列以及下游包含所述起始位点的15kb序列的集合，即为所述D数据集；所述数据集A中剔除所述D数据集中的序列后得到的数据集，记为E数据集。

5.根据权利要求1-4中任一所述的方法，其特征在于：所述脚本abstract_filter.pl为：

6.根据权利要求1-5中任一所述的方法，其特征在于：步骤（3）和（5）中，所述脚本abstract2.pl具有如下特点：从所述XXX4或所述XXX6中寻找两端边界明确的候选LTR-反转座子的位置，是通过限制其序列长度，并进行TSDs的检验，提取符合检验标准的所述LTR-反转座子来实现的；所述检验标准为：LTR-反转座子的长度小于等于30kb；5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD，若TSD的长度为4bp时，不允许突变，长度为5bp或6bp时最多允许一个碱基突变。

7.根据权利要求1-6中任一所述的方法，其特征在于：所述脚本abstract2.pl为：

8.根据权利要求1-7中任一所述的方法，其特征在于：步骤（2）中，所述模式生物为拟南芥；

所述拟南芥的Tyl-copia LTR-反转座子中转座酶保守结构域的氨基酸序列具体为序列表中序列1所示，或所述拟南芥的Ty3-gypsy LTR-反转座子中转座酶保守结构域的氨基酸序列具体为序列表中序列2所示。

9.根据权利要求1-8中任一所述的方法，其特征在于：所述待测基因组序列通过下载已公开的全基因组序列获得或通过全基因组测序获得。

10.根据权利要求1-9中任一所述的方法，其特征在于：所述待测基因组为植物基因组；

所述植物基因组具体为棉花基因组；

所述棉花基因组具体为雷蒙德氏棉基因组。