CN103824000A - 一种批量检测植物基因组ltr-反转座子的方法 - Google Patents

一种批量检测植物基因组ltr-反转座子的方法 Download PDF

Info

Publication number
CN103824000A
CN103824000A CN201410062207.1A CN201410062207A CN103824000A CN 103824000 A CN103824000 A CN 103824000A CN 201410062207 A CN201410062207 A CN 201410062207A CN 103824000 A CN103824000 A CN 103824000A
Authority
CN
China
Prior art keywords
data set
ltr
retrotransposon
sequence
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410062207.1A
Other languages
English (en)
Other versions
CN103824000B (zh
Inventor
杜建厂
刘静
徐珍珍
倪万潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Academy of Agricultural Sciences
Original Assignee
Jiangsu Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Academy of Agricultural Sciences filed Critical Jiangsu Academy of Agricultural Sciences
Priority to CN201410062207.1A priority Critical patent/CN103824000B/zh
Publication of CN103824000A publication Critical patent/CN103824000A/zh
Application granted granted Critical
Publication of CN103824000B publication Critical patent/CN103824000B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种批量检测植物基因组LTR-反转座子的方法。本发明所提供的检测植物基因组LTR-反转座子的方法综合运用了基于结构特征从头寻找的LTR_STRUC程序,基于同源搜索的CROSS_MATCH程序,基于序列相似性的CLUSTALW比对程序,以及结合Perl脚本语言编程等方法。实验证明,本发明所提供的批量检测LTR-反转座子的方法比较系统,检测植物基因组LTR-反转座子插入位点正向重复的效果好,速度快,易实现流程化。本发明将常用的检测LTR-反转座子的软件与Perl脚本语言编程相结合,一定程度上弥补了这些常用软件的一些不足。本方法将在基因组注释和批量检测植物基因组LTR-反转座子中发挥着重要的作用。

Description

一种批量检测植物基因组LTR-反转座子的方法
技术领域
本发明属于生物技术领域,涉及一种批量检测植物基因组LTR-反转座子的方法。
背景技术
近年来,随着测序技术的进步,特别是第二代测序技术的出现,基因组学的发展异常迅速。不仅许多模式植物如拟南芥和水稻,其它经济作物,如大豆、玉米、棉花等也相继完成全基因组测序。通过对这些完成测序的物种基因组的遗传组分进行分析,科学家们得到几乎一致的发现:除功能基因外,植物基因组主要由各种类型的重复序列,特别是转座子及其衍生物构成。根据转座方式的不同,转座子又分为反转座子和DNA转座子。根据结构的不同,反转座子又可分为LTR-反转座子和非LTR-反转座子。其中,LTR-反转座子是真核生物,特别是植物基因组的主要组成部分,在基因和基因组的进化过程中起着重要作用。
LTR-反转座子三种基本结构类型如图1所示,具有两个长末端正向重复序列(longterminal repeats,LTRs)。单个LTR的长度从100bp到几kb不等,并通常以5’-TG-3’开始,并以其反向重复序列5’-CA-3’结束。它们在插入到寄主基因组时往往会在转座子两端形成4-6bp的正向重复序列(Target Site Duplications,TSDs)。LTR-反转座子包含编码多种蛋白质的基因,主要包括gag(编码的蛋白质形成壳的结构,进行反转录的合成)、pol多聚基因(编码与反转录过程有关的一系列酶)。此外,LTR-反转座子还含有与转录起始和终止有关的tRNA结合位点(Primer Binding Site,PBS)和多聚嘌呤序列(Polypurine Tract,PPT)。根据序列相似性和转座酶相关基因的排列顺序,LTR-反转座子又可分为Tyl-copia类型和Ty3-gypsy类型。
基于上述LTR-反转座子的结构特征,一些软件被不断开发出来,为LTR-反转座子的鉴定提供了一定的研究工具。LTR-反转座子序列识别鉴定的软件大致分为4类,包括基于结构的方法(Structure-based method)、从头算起法(De novo repeat discoverymethod)、比较基因组学法(Comparative genomic method)和基于同源的方法(Homology-based method)。其中,目前运用最多的是基于结构特征从头寻找的LTR_STRUC程序。但是,该程序只能寻找相对年轻的LTR-反转座子。对于插入时间较为古老的,转座子中间有测序“GAP”(以“N”表示)的,以及LTR序列被其它转座子插入的元件,该程序无法进行识别。
发明内容
本发明的目的是提供一种批量检测基因组LTR-反转座子的方法。
本发明所提供的批量检测基因组LTR-反转座子的方法,具体可包括如下步骤:
(1)将待测基因组序列记为A数据集,利用基于转座子结构特征从头寻找的LTR_STRUC程序,在Windows操作系统下,采用默认参数设置对所述A数据集进行分析;然后,把脚本abstract1.pl放到LTR_STRUC文件夹下,运行“perl abstract1.pl XXX1”命令,得到“result_LTR”和“result_INTACT”两个文件。
所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据即为LTR-反转座子序列,记为L1数据集;
所述“XXX1”代表A数据集的文件名,该文件在运行LTR_STRUC程序时已置于input文件夹内;所述input文件夹为所述LTR_STRUC文件夹的子文件夹;
(2)将模式生物的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列记为C数据集,利用Tblastn程序,在Linux操作系统或Window操作系统下,把-outfmt设置为6或7,其它采用默认参数,用所述C数据集对所述A数据集进行比对分析;按照脚本abstract_filter.pl对比对结果进行分析:运行命令“perlabstract_filter.pl XXX1XXX2”,得到“dbD”和“dbE”两个文件;
所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;
所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列的集合,记为D数据集;所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集;
进一步,所述D数据集为以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游共30kb的序列集合(上游15kb,下游包含起始位点15kb);
(3)利用基于同源搜索的CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述D数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4;按照所述脚本abstract2.pl对所述XXX4中的数据进行分析:运行命令“perlabstract2.pl XXX3XXX4”命令,得到“XXX4.result”文件,根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L2数据集;
所述XXX3为所述D数据集的文件名;
(4)利用CLUSTALW程序,在Linux操作系统或Window操作系统下,采用默认参数设置,对所述D数据集进行多序列比对,提取LTR-反转座子,记为L3数据集;
(5)利用基于同源搜索的CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述E数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX6;按照如下脚本abstract2.pl对所述XXX6中的数据进行分析:“perl abstract2.plXXX5XXX6”命令,得到“XXX6.result”文件;根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L4数据集;;
所述XXX5为所述E数据集的文件名;
(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,对步骤(1),(3),(4)和(5)的结果进行优化,并去掉重复的LTR-反转座子,得到L数据集;所述L数据集中的序列即为从所述待测基因组序列(A数据集)中批量检测到的LTR-反转座子。
在上述方法步骤(1)中,所述脚本abstract1.pl中关于提取所述LTRs序列和LTR-反转座子序列的内容,是基于如下原理进行编程的:以“LTRS:”为起始标志,对所述LTRs序列进行提取;以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。
在上述方法步骤(2)中,所述脚本abstract_filter.pl中关于提取所述D数据集和所述E数据集(所述A数据集中剔除所述D数据集),是基于如下原理进行编程的:以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游共30kb的序列集合(上游15kb,下游包含起始位点的15kb),记为D数据集;所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集。即E数据集为以所述A数据集匹配到的所述D数据集序列被替换成相应长度的“X”的片段得到的数据集。
在上述方法步骤(3)和(5)中,所述脚本abstract2.pl具有如下特点:从所述XXX4和所述XXX6中寻找两端边界明确的LTR-反转座子的位置,是通过限制其序列长度,并进行TSDs的检验,提取符合检验标准的所述LTR-反转座子来实现的;所述检验标准为:LTR-反转座子的长度小于等于30kb;5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD,若TSD的长度为4bp时,不允许突变,长度为5bp或6bp时最多允许一个碱基突变。
在本发明的一个实施例中,所述脚本abstract1.pl具体为:
Figure BDA0000468922990000051
Figure BDA0000468922990000061
Figure BDA0000468922990000071
Figure BDA0000468922990000081
Figure BDA0000468922990000091
在本发明中,步骤(2)中的所述模式生物具体为拟南芥。
相应的,所述拟南芥LTR-反转座子的Tyl-copia转座酶保守结构域的氨基酸序列具体为序列表中序列1所示。所述拟南芥LTR-反转座子的Ty3-gypsy转座酶保守结构域的氨基酸序列具体为序列表中序列2所示。
在所述方法中,所述待测基因组序列可以通过下载已公开的全基因组序列获得或通过全基因组测序得到。
在所述方法中,所述待测基因组可为植物基因组,如棉花基因组。
在本发明的一个实施例中,所述待测基因组具体为雷蒙德氏棉(Gossypiumraimondii L.)的基因组。所述雷蒙德氏棉(Gossypium raimondii L.)的基因组记录于NCBI数据库(BioProject accession PRJNA171262)。
本发明具有以下优点:一是检测到的LTR-反转座子较为全面和准确,效果好,速度快,完整的LTR-反转座子的数目较多;二是比较系统,效率高,易实现流程化;三是本发明将常用的检测LTR-反转座子的方法与序列比对,以及各种Perl脚本语言编程相结合,一定程度上弥补了这些常用软件的一些不足。本方法在批量检测植物基因组LTR-反转座子中可以发挥重要的作用。
附图说明
图1为LTR-反转座子的结构示意图。其中,A为完整的LTR-反转座子;B为单独的LTR;C为不完整的LTR-反转座子。
图2为本发明批量检测植物基因组中LTR-反转座子的方法的流程图。
图3为实施例2中步骤3)采用CROSS_MATCH程序,对B数据集和D数据集进行比对所得的cross_match结果文件的开头和结尾的说明部分删除后,留下的比对行的图示。
具体实施方式
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料,如无特殊说明,均可从商业途径得到。
实施例1、批量检测植物基因组LTR-反转座子的方法的建立
本发明所提供的批量检测植物基因组LTR-反转座子的方法的流程图见图2,具体包括如下步骤:
(1)采用基于转座子结构特征从头寻找的LTR_STRUC程序,鉴定待测基因组(A数据集)中相对年轻的LTR-反转座子,在Windows系统下操作,采用默认参数设置进行分析;然后,采用Perl脚本语言编程(脚本1),按照如下步骤提取LTR-反转座子序列(L1数据集)和LTRs序列(B数据集);
提取LTR-反转座子和LTR序列步骤:把所述脚本1放到LTRSTRUC文件夹下,运行“perl abstract1.pl XXX1”命令,其中,“XXX1”代表A数据集的文件名(进行LTR_STRUC分析时已置于input文件夹内,input文件夹为所述LTR_STRUC文件夹的子文件夹)。此步骤将得到“result_LTR”和“result_INTACT”两个新文件。
所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据为LTR-反转座子序列,记为L1数据集。
其中,所述脚本1具有如下特点:以“LTRS:”为起始标志,对所述LTRs序列进行提取;以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。
abstract1.pl(脚本1):
Figure BDA0000468922990000111
(2)将模式生物(如:拟南芥)的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列(C数据集)在待测基因组(A数据集)中进行Tblastn分析,把-outfmt设置为6或7,其它采用默认参数,可在Linux或Window系统下操作。
用脚本abstract_filter.pl对上述比对结果进行分析:运行命令“perl abstract_filter.plXXX1XXX2”,得到“dbD”和“dbE”两个文件。
所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;
将所述“dbD”记为D数据集;所述“dbE”记为E数据集。
其中,所述脚本abstract_filter.pl具有如下特点:以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游共30kb的序列集合(上游15kb,下游包含起始位点15kb),记为D数据集;所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集。即E数据集为以所述A数据集匹配到的所述D数据集序列被替换成相应长度的“X”的片段得到的数据集。
abstract_filter.pl(脚本2):
Figure BDA0000468922990000131
Figure BDA0000468922990000141
Figure BDA0000468922990000151
(3)采用基于同源搜索的CROSS_MATCH程序,把result_LTR(B数据集)与D数据集进行cross_match比对,搜索两者相匹配的基本信息。在本地Linux操作系统下进行,采用默认参数设置,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4。
采用Perl脚本语言编程(脚本3),对所XXX4中的数据进行分析:运行“perlabstract2.pl XXX3XXX4”命令。其中,所述“XXX3”为所述D数据集的文件名。此步骤生成文件“XXX4.result”;根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L2数据集。
其中,脚本3具有如下特点:从所述文件1中寻找两端边界明确的LTR-反转座子的位置,是通过限制其序列长度,并进行TSDs的检验,提取符合检验标准的所述LTR-反转座子来实现的;所述检验标准为:LTR-反转座子的长度小于等于30kb;5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD,若TSD的长度为4bp时,不允许突变,长度为5bp或6bp时最多允许一个碱基突变。
abstract2.pl(脚本3):
Figure BDA0000468922990000152
Figure BDA0000468922990000161
Figure BDA0000468922990000171
Figure BDA0000468922990000181
(4)采用CLUSTALW程序,将步骤(2)得到的D数据集进行多序列比对,在Linux或Window系统下操作,采用默认参数设置,提取LTR-反转座子(L3数据集)。
(5)采用基于同源搜索的CROSS_MATCH程序,把result_LTR(B数据集)与E数据集进行cross_match比对,搜索两者相匹配的基本信息。在本地Linux操作系统下进行,采用默认参数设置,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX6。
采用步骤(3)中介绍的Perl脚本语言编程(脚本3),对XXX6的数据进行分析:运行“perl abstract2.pl XXX5XXX6”命令。其中,所述“XXX5”为所述E数据集的文件名。此步骤生成文件“XXX6.result”;根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L4数据集。
(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,得到L数据集;
所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR-反转座子。
实施例2、利用实施例1建立的方法批量检测雷蒙德氏棉基因组LTR-反转座子
进入NCBI数据库(BioProject accession PRJNA171262)下载雷蒙德氏棉(Gossypiumraimondii L.)的基因组序列(13条染色体,737.8Mb),上传到Windows系统和本地Linux运算服务器,进行雷蒙德氏棉基因组LTR-反转座子的检测。检测过程中,所涉及的常用程序的名称、运行环境及地址如表1所示。检测方法具体操作步骤如下:
1)参照实施例1的步骤(1)进行。
采用LTR_STRUC程序鉴定雷蒙德氏棉基因组(A数据集)中的LTR-反转座子,Windows系统下操作,采用默认参数设置。采用Perl脚本语言编程(脚本1),提取2247条LTR-反转座子序列集合(L1数据集)和2247条LTR-反转座子的LTRs序列(B数据集);
2)参照实施例1的步骤(2)进行。
利用模式生物拟南芥Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列(C数据集)在雷蒙德氏棉基因组(A数据集)中进行Tblastn分析,Linux系统下操作,把-outfmt设置为6或7,其它采用默认参数设置。以雷蒙德氏棉基因组中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游长度为30kb的序列(上游15kb,下游包含起始位点15kb),建立D数据集;另外,将所述数据集A中剔除所述D数据集中的序列后得到E数据集;
其中,拟南芥Tyl-copia LTR-反转座子中转座酶保守结构域的氨基酸序列如序列表中序列1所示;拟南芥Ty3-gypsy LTR-反转座子中转座酶保守结构域的氨基酸序列如序列表中序列2所示。
3)参照实施例1的步骤(3)进行。
采用CROSS_MATCH程序,搜索步骤1)得到的LTRs序列(B数据集)与步骤2)得到的D数据集的匹配,本地Linux操作系统操作,采用默认参数设置。把所得cross_match结果文件的开头和结尾的说明部分删除,留下如图3所示的比对行,得到的文件记为XXX4。接着参照实施例1的步骤(3)采用Perl脚本语言编程(脚本3),对所述文件XXX4中的数据进行分析。根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,最终检测到5455条LTR-反转座子(L2数据集)。
4)参照实施例1的步骤(4)进行。
采用ClustalW程序,Linux系统下操作,采用默认参数设置,将步骤(2)得到的数据集D进行多序列比对,共得到929条LTR-反转座子(L3数据集)。
5)参照实施例1的步骤(5)进行。
采用CROSS_MATCH程序,搜索步骤(1)得到的LTRs序列(B数据集)与步骤(2)得到的E数据集,本地Linux服务器运算,采用默认参数设置,得到14215条LTR-反转座子(L4数据集)。
6)参照实施例1的步骤(6)进行。
对步骤1),3),4)和6)得到的LTR-反转座子(L1数据集、L2数据集、L3数据集和L4数据集)进行整理去重,如表2所示,最终获得20818个LTR-反转座子。
表1说明书中的常用软件
软件名称 运行环境 地址
LTR_STRUC Windows http://www.genetics.uga.edu/retrolab/data/LTR_Struc.html
CROSS_MATCH Linux http://www.phrap.org/phrap.docs/general.html
Tblastn Linux/Window ftp://ftp.ncbi.nih.gov/blast/executables/release/
ClustalW Linux/Window http://www.ebi.ac.uk/clustalw/
表2LTR-反转座子识别方法的比较
Figure BDA0000468922990000201
本发明的发明人从最终所得的20818个LTR-反转座子中随机选取10个,并分别进行了结构特征分析,发现10个序列均完全符合LTR-反转座子的结构特征,从而证实了以上本发明方法的准确性。
Figure IDA0000468923070000011
Figure IDA0000468923070000021
Figure IDA0000468923070000031

Claims (10)

1.一种批量检测基因组LTR-反转座子的方法,包括如下步骤:
(1)将待测基因组序列记为A数据集,利用LTR_STRUC程序,在Windows操作系统下,采用默认参数设置对所述A数据集进行分析;把脚本abstract1.pl放到LTR_STRUC文件夹下,运行“perl abstract1.pl XXX1”命令,得到“result_LTR”和“result_INTACT”两个文件;
所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据为LTR-反转座子序列,记为L1数据集;
所述“XXX1”代表A数据集的文件名,该文件在运行LTR_STRUC程序时已置于input文件夹内;所述input文件夹为所述LTR_STRUC文件夹的子文件夹;
(2)将模式生物的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列记为C数据集,利用Tblastn程序,在Linux操作系统或Window操作系统下,把-outfmt设置为6或7,其它采用默认参数设置,用所述C数据集对所述A数据集进行比对分析;按照如下用脚本abstract_filter.pl对比对结果进行分析:运行命令“perl abstract_filter.pl XXX1XXX2”,得到“dbD”和“dbE”两个文件;
所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;
所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列集合,记为D数据集;所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集;
(3)利用CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述D数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4;按照如下用脚本abstract2.pl对所述文件XXX4中的数据进行分析:运行命令“perl abstract2.pl XXX3XXX4”命令,得到“XXX4.result”文件;根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L2数据集;所述“XXX3”为所述D数据集的文件名;
(4)利用CLUSTALW程序,在Linux操作系统或Window操作系统下,采用默认参数设置,对所述D数据集进行多序列比对,提取LTR-反转座子,记为L3数据集;
(5)利用CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述E数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为文件XXX6;按照如下脚本abstract2.pl对所述XXX6中的数据进行分析:运行“perl abstract2.pl XXX5XXX6”命令,得到“XXX6.result”文件;根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L4数据集;;
所述“XXX5”为所述E数据集的文件名;
(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,得到L数据集;所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR-反转座子。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中,所述脚本abstract1.pl中关于提取所述LTRs序列和所述LTR-反转座子序列的内容,是基于如下原理进行编程的:以“LTRS:”为起始标志,对所述LTRs序列进行提取;以“COMPLETE SEQUENCEOF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。
3.根据权利要求1或2所述的方法,其特征在于:所述脚本abstract1.pl为:
Figure FDA0000468922980000021
Figure FDA0000468922980000031
4.根据权利要求1-3中任一所述的方法,其特征在于:步骤(2)中,所述脚本abstract_filter.pl中关于提取所述D数据集和所述E数据集,是基于如下原理进行编程的:以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上游15kb序列以及下游包含所述起始位点的15kb序列的集合,即为所述D数据集;所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集。
5.根据权利要求1-4中任一所述的方法,其特征在于:所述脚本abstract_filter.pl为:
Figure FDA0000468922980000032
Figure FDA0000468922980000041
Figure FDA0000468922980000051
Figure FDA0000468922980000061
6.根据权利要求1-5中任一所述的方法,其特征在于:步骤(3)和(5)中,所述脚本abstract2.pl具有如下特点:从所述XXX4或所述XXX6中寻找两端边界明确的候选LTR-反转座子的位置,是通过限制其序列长度,并进行TSDs的检验,提取符合检验标准的所述LTR-反转座子来实现的;所述检验标准为:LTR-反转座子的长度小于等于30kb;5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD,若TSD的长度为4bp时,不允许突变,长度为5bp或6bp时最多允许一个碱基突变。
7.根据权利要求1-6中任一所述的方法,其特征在于:所述脚本abstract2.pl为:
Figure FDA0000468922980000062
Figure FDA0000468922980000071
8.根据权利要求1-7中任一所述的方法,其特征在于:步骤(2)中,所述模式生物为拟南芥;
所述拟南芥的Tyl-copia LTR-反转座子中转座酶保守结构域的氨基酸序列具体为序列表中序列1所示,或所述拟南芥的Ty3-gypsy LTR-反转座子中转座酶保守结构域的氨基酸序列具体为序列表中序列2所示。
9.根据权利要求1-8中任一所述的方法,其特征在于:所述待测基因组序列通过下载已公开的全基因组序列获得或通过全基因组测序获得。
10.根据权利要求1-9中任一所述的方法,其特征在于:所述待测基因组为植物基因组;
所述植物基因组具体为棉花基因组;
所述棉花基因组具体为雷蒙德氏棉基因组。
CN201410062207.1A 2014-02-24 2014-02-24 一种批量检测植物基因组ltr-反转座子的方法 Expired - Fee Related CN103824000B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410062207.1A CN103824000B (zh) 2014-02-24 2014-02-24 一种批量检测植物基因组ltr-反转座子的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410062207.1A CN103824000B (zh) 2014-02-24 2014-02-24 一种批量检测植物基因组ltr-反转座子的方法

Publications (2)

Publication Number Publication Date
CN103824000A true CN103824000A (zh) 2014-05-28
CN103824000B CN103824000B (zh) 2016-09-28

Family

ID=50759056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410062207.1A Expired - Fee Related CN103824000B (zh) 2014-02-24 2014-02-24 一种批量检测植物基因组ltr-反转座子的方法

Country Status (1)

Country Link
CN (1) CN103824000B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808974A (zh) * 2016-03-07 2016-07-27 江苏省农业科学院 一种批量计算ltr-反转座子插入时间的方法
CN110534157A (zh) * 2019-07-26 2019-12-03 江苏省农业科学院 一种批量提取基因组基因信息并翻译比对分析序列的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100297769A1 (en) * 2007-03-15 2010-11-25 Chromatin, Inc. Centromere sequences and minichromosomes
US20120255072A1 (en) * 2009-07-23 2012-10-04 Chromatin, Inc. Sorghum centromere sequences and minichromosomes
CN103013990A (zh) * 2011-09-27 2013-04-03 上海海洋大学 一种分离鱼类反转座子SINEs的方法
CN103103288A (zh) * 2013-01-05 2013-05-15 江苏省农业科学院 一种快速同步检测小麦黄花叶病毒和中国小麦花叶病毒的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100297769A1 (en) * 2007-03-15 2010-11-25 Chromatin, Inc. Centromere sequences and minichromosomes
US20120255072A1 (en) * 2009-07-23 2012-10-04 Chromatin, Inc. Sorghum centromere sequences and minichromosomes
CN103013990A (zh) * 2011-09-27 2013-04-03 上海海洋大学 一种分离鱼类反转座子SINEs的方法
CN103103288A (zh) * 2013-01-05 2013-05-15 江苏省农业科学院 一种快速同步检测小麦黄花叶病毒和中国小麦花叶病毒的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JER-YOUNG LIN等: "Structural and Functional Divergence of a 1-Mb Duplicated", 《THE PLANT CELL》 *
刘静等: "植物 LTR-反转座子中 Orf1 基因的分子进化", 《遗传HEREDITAS(BEIJING)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105808974A (zh) * 2016-03-07 2016-07-27 江苏省农业科学院 一种批量计算ltr-反转座子插入时间的方法
CN110534157A (zh) * 2019-07-26 2019-12-03 江苏省农业科学院 一种批量提取基因组基因信息并翻译比对分析序列的方法
CN110534157B (zh) * 2019-07-26 2023-07-25 江苏省农业科学院 一种批量提取基因组基因信息并翻译比对分析序列的方法

Also Published As

Publication number Publication date
CN103824000B (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
Alkhnbashi et al. CRISPR-Cas bioinformatics
Streicher et al. How should genes and taxa be sampled for phylogenomic analyses with missing data? An empirical study in iguanian lizards
CN105177126B (zh) 一种利用荧光pcr技术对小鼠的分型鉴定方法
CN106845151B (zh) CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
Gilchrist et al. Reverse genetics techniques: engineering loss and gain of gene function in plants
Schmitt et al. New primers for promising single-copy genes in fungal phylogenetics and systematics
US11694764B2 (en) Method for large scale scaffolding of genome assemblies
Kepler et al. Genome‐assisted development of nuclear intergenic sequence markers for entomopathogenic fungi of the M etarhizium anisopliae species complex
Huang et al. More evidence for pervasive paraphyly in scleractinian corals: systematic study of Southeast Asian Faviidae (Cnidaria; Scleractinia) based on molecular and morphological data
CN108220394B (zh) 基因调控性染色质相互作用的鉴定方法、系统及其应用
WO2015149719A1 (zh) 杂合基因组处理方法
Soto Gomez et al. A customized nuclear target enrichment approach for developing a phylogenomic baseline for Dioscorea yams (Dioscoreaceae)
Bousios et al. The turbulent life of Sirevirus retrotransposons and the evolution of the maize genome: more than ten thousand elements tell the story
Kuo et al. Fungal genomics: sequencing and annotation
JPWO2020160414A5 (zh)
Wang et al. Tasting soil fungal diversity with earth tongues: phylogenetic test of SATe alignments for environmental ITS data
CN112331264A (zh) 一种同源2型CRISPR/Cas基因编辑系统的构建方法
CN102899335A (zh) 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法
Wang et al. LTR retrotransposon landscape in Medicago truncatula: more rapid removal than in rice
Hibsh et al. De novo transcriptome assembly databases for the central nervous system of the medicinal leech
CN107475449A (zh) 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法
Policastro et al. Global approaches for profiling transcription initiation
CN103824000A (zh) 一种批量检测植物基因组ltr-反转座子的方法
CN105426700A (zh) 一种批量计算基因组直系同源基因进化速率的方法
Lin et al. Probing the genomic limits of de-extinction in the Christmas Island rat

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160928

CF01 Termination of patent right due to non-payment of annual fee