CN103824000A - 一种批量检测植物基因组ltr-反转座子的方法 - Google Patents
一种批量检测植物基因组ltr-反转座子的方法 Download PDFInfo
- Publication number
- CN103824000A CN103824000A CN201410062207.1A CN201410062207A CN103824000A CN 103824000 A CN103824000 A CN 103824000A CN 201410062207 A CN201410062207 A CN 201410062207A CN 103824000 A CN103824000 A CN 103824000A
- Authority
- CN
- China
- Prior art keywords
- data set
- ltr
- retrotransposon
- sequence
- file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000007689 inspection Methods 0.000 title abstract 5
- 108090000623 proteins and genes Proteins 0.000 claims description 21
- 239000000284 extract Substances 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 19
- 102000008579 Transposases Human genes 0.000 claims description 18
- 108010020764 Transposases Proteins 0.000 claims description 18
- 230000000977 initiatory effect Effects 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 16
- 229920000742 Cotton Polymers 0.000 claims description 13
- 238000011144 upstream manufacturing Methods 0.000 claims description 12
- 241000219194 Arabidopsis Species 0.000 claims description 11
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 7
- 239000004575 stone Substances 0.000 claims description 6
- 239000002773 nucleotide Substances 0.000 claims description 5
- 125000003729 nucleotide group Chemical group 0.000 claims description 5
- 238000002887 multiple sequence alignment Methods 0.000 claims description 4
- 230000035772 mutation Effects 0.000 claims description 3
- 238000012268 genome sequencing Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 238000011112 process operation Methods 0.000 abstract 1
- 230000009897 systematic effect Effects 0.000 abstract 1
- 241000219146 Gossypium Species 0.000 description 10
- 230000008569 process Effects 0.000 description 4
- 235000014718 Gossypium raimondii Nutrition 0.000 description 3
- 241001149081 Gossypium raimondii Species 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 244000068988 Glycine max Species 0.000 description 1
- 235000010469 Glycine max Nutrition 0.000 description 1
- 241001597008 Nomeidae Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 108700001094 Plant Genes Proteins 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010429 evolutionary process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 125000000561 purinyl group Chemical group N1=C(N=C2N=CNC2=C1)* 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010839 reverse transcription Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种批量检测植物基因组LTR-反转座子的方法。本发明所提供的检测植物基因组LTR-反转座子的方法综合运用了基于结构特征从头寻找的LTR_STRUC程序,基于同源搜索的CROSS_MATCH程序,基于序列相似性的CLUSTALW比对程序,以及结合Perl脚本语言编程等方法。实验证明,本发明所提供的批量检测LTR-反转座子的方法比较系统,检测植物基因组LTR-反转座子插入位点正向重复的效果好,速度快,易实现流程化。本发明将常用的检测LTR-反转座子的软件与Perl脚本语言编程相结合,一定程度上弥补了这些常用软件的一些不足。本方法将在基因组注释和批量检测植物基因组LTR-反转座子中发挥着重要的作用。
Description
技术领域
本发明属于生物技术领域,涉及一种批量检测植物基因组LTR-反转座子的方法。
背景技术
近年来,随着测序技术的进步,特别是第二代测序技术的出现,基因组学的发展异常迅速。不仅许多模式植物如拟南芥和水稻,其它经济作物,如大豆、玉米、棉花等也相继完成全基因组测序。通过对这些完成测序的物种基因组的遗传组分进行分析,科学家们得到几乎一致的发现:除功能基因外,植物基因组主要由各种类型的重复序列,特别是转座子及其衍生物构成。根据转座方式的不同,转座子又分为反转座子和DNA转座子。根据结构的不同,反转座子又可分为LTR-反转座子和非LTR-反转座子。其中,LTR-反转座子是真核生物,特别是植物基因组的主要组成部分,在基因和基因组的进化过程中起着重要作用。
LTR-反转座子三种基本结构类型如图1所示,具有两个长末端正向重复序列(longterminal repeats,LTRs)。单个LTR的长度从100bp到几kb不等,并通常以5’-TG-3’开始,并以其反向重复序列5’-CA-3’结束。它们在插入到寄主基因组时往往会在转座子两端形成4-6bp的正向重复序列(Target Site Duplications,TSDs)。LTR-反转座子包含编码多种蛋白质的基因,主要包括gag(编码的蛋白质形成壳的结构,进行反转录的合成)、pol多聚基因(编码与反转录过程有关的一系列酶)。此外,LTR-反转座子还含有与转录起始和终止有关的tRNA结合位点(Primer Binding Site,PBS)和多聚嘌呤序列(Polypurine Tract,PPT)。根据序列相似性和转座酶相关基因的排列顺序,LTR-反转座子又可分为Tyl-copia类型和Ty3-gypsy类型。
基于上述LTR-反转座子的结构特征,一些软件被不断开发出来,为LTR-反转座子的鉴定提供了一定的研究工具。LTR-反转座子序列识别鉴定的软件大致分为4类,包括基于结构的方法(Structure-based method)、从头算起法(De novo repeat discoverymethod)、比较基因组学法(Comparative genomic method)和基于同源的方法(Homology-based method)。其中,目前运用最多的是基于结构特征从头寻找的LTR_STRUC程序。但是,该程序只能寻找相对年轻的LTR-反转座子。对于插入时间较为古老的,转座子中间有测序“GAP”(以“N”表示)的,以及LTR序列被其它转座子插入的元件,该程序无法进行识别。
发明内容
本发明的目的是提供一种批量检测基因组LTR-反转座子的方法。
本发明所提供的批量检测基因组LTR-反转座子的方法,具体可包括如下步骤:
(1)将待测基因组序列记为A数据集,利用基于转座子结构特征从头寻找的LTR_STRUC程序,在Windows操作系统下,采用默认参数设置对所述A数据集进行分析;然后,把脚本abstract1.pl放到LTR_STRUC文件夹下,运行“perl abstract1.pl XXX1”命令,得到“result_LTR”和“result_INTACT”两个文件。
所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据即为LTR-反转座子序列,记为L1数据集;
所述“XXX1”代表A数据集的文件名,该文件在运行LTR_STRUC程序时已置于input文件夹内;所述input文件夹为所述LTR_STRUC文件夹的子文件夹;
(2)将模式生物的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列记为C数据集,利用Tblastn程序,在Linux操作系统或Window操作系统下,把-outfmt设置为6或7,其它采用默认参数,用所述C数据集对所述A数据集进行比对分析;按照脚本abstract_filter.pl对比对结果进行分析:运行命令“perlabstract_filter.pl XXX1XXX2”,得到“dbD”和“dbE”两个文件;
所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;
所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列的集合,记为D数据集;所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集;
进一步,所述D数据集为以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游共30kb的序列集合(上游15kb,下游包含起始位点15kb);
(3)利用基于同源搜索的CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述D数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4;按照所述脚本abstract2.pl对所述XXX4中的数据进行分析:运行命令“perlabstract2.pl XXX3XXX4”命令,得到“XXX4.result”文件,根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L2数据集;
所述XXX3为所述D数据集的文件名;
(4)利用CLUSTALW程序,在Linux操作系统或Window操作系统下,采用默认参数设置,对所述D数据集进行多序列比对,提取LTR-反转座子,记为L3数据集;
(5)利用基于同源搜索的CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述E数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX6;按照如下脚本abstract2.pl对所述XXX6中的数据进行分析:“perl abstract2.plXXX5XXX6”命令,得到“XXX6.result”文件;根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L4数据集;;
所述XXX5为所述E数据集的文件名;
(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,对步骤(1),(3),(4)和(5)的结果进行优化,并去掉重复的LTR-反转座子,得到L数据集;所述L数据集中的序列即为从所述待测基因组序列(A数据集)中批量检测到的LTR-反转座子。
在上述方法步骤(1)中,所述脚本abstract1.pl中关于提取所述LTRs序列和LTR-反转座子序列的内容,是基于如下原理进行编程的:以“LTRS:”为起始标志,对所述LTRs序列进行提取;以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。
在上述方法步骤(2)中,所述脚本abstract_filter.pl中关于提取所述D数据集和所述E数据集(所述A数据集中剔除所述D数据集),是基于如下原理进行编程的:以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游共30kb的序列集合(上游15kb,下游包含起始位点的15kb),记为D数据集;所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集。即E数据集为以所述A数据集匹配到的所述D数据集序列被替换成相应长度的“X”的片段得到的数据集。
在上述方法步骤(3)和(5)中,所述脚本abstract2.pl具有如下特点:从所述XXX4和所述XXX6中寻找两端边界明确的LTR-反转座子的位置,是通过限制其序列长度,并进行TSDs的检验,提取符合检验标准的所述LTR-反转座子来实现的;所述检验标准为:LTR-反转座子的长度小于等于30kb;5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD,若TSD的长度为4bp时,不允许突变,长度为5bp或6bp时最多允许一个碱基突变。
在本发明的一个实施例中,所述脚本abstract1.pl具体为:
在本发明中,步骤(2)中的所述模式生物具体为拟南芥。
相应的,所述拟南芥LTR-反转座子的Tyl-copia转座酶保守结构域的氨基酸序列具体为序列表中序列1所示。所述拟南芥LTR-反转座子的Ty3-gypsy转座酶保守结构域的氨基酸序列具体为序列表中序列2所示。
在所述方法中,所述待测基因组序列可以通过下载已公开的全基因组序列获得或通过全基因组测序得到。
在所述方法中,所述待测基因组可为植物基因组,如棉花基因组。
在本发明的一个实施例中,所述待测基因组具体为雷蒙德氏棉(Gossypiumraimondii L.)的基因组。所述雷蒙德氏棉(Gossypium raimondii L.)的基因组记录于NCBI数据库(BioProject accession PRJNA171262)。
本发明具有以下优点:一是检测到的LTR-反转座子较为全面和准确,效果好,速度快,完整的LTR-反转座子的数目较多;二是比较系统,效率高,易实现流程化;三是本发明将常用的检测LTR-反转座子的方法与序列比对,以及各种Perl脚本语言编程相结合,一定程度上弥补了这些常用软件的一些不足。本方法在批量检测植物基因组LTR-反转座子中可以发挥重要的作用。
附图说明
图1为LTR-反转座子的结构示意图。其中,A为完整的LTR-反转座子;B为单独的LTR;C为不完整的LTR-反转座子。
图2为本发明批量检测植物基因组中LTR-反转座子的方法的流程图。
图3为实施例2中步骤3)采用CROSS_MATCH程序,对B数据集和D数据集进行比对所得的cross_match结果文件的开头和结尾的说明部分删除后,留下的比对行的图示。
具体实施方式
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料,如无特殊说明,均可从商业途径得到。
实施例1、批量检测植物基因组LTR-反转座子的方法的建立
本发明所提供的批量检测植物基因组LTR-反转座子的方法的流程图见图2,具体包括如下步骤:
(1)采用基于转座子结构特征从头寻找的LTR_STRUC程序,鉴定待测基因组(A数据集)中相对年轻的LTR-反转座子,在Windows系统下操作,采用默认参数设置进行分析;然后,采用Perl脚本语言编程(脚本1),按照如下步骤提取LTR-反转座子序列(L1数据集)和LTRs序列(B数据集);
提取LTR-反转座子和LTR序列步骤:把所述脚本1放到LTRSTRUC文件夹下,运行“perl abstract1.pl XXX1”命令,其中,“XXX1”代表A数据集的文件名(进行LTR_STRUC分析时已置于input文件夹内,input文件夹为所述LTR_STRUC文件夹的子文件夹)。此步骤将得到“result_LTR”和“result_INTACT”两个新文件。
所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据为LTR-反转座子序列,记为L1数据集。
其中,所述脚本1具有如下特点:以“LTRS:”为起始标志,对所述LTRs序列进行提取;以“COMPLETE SEQUENCE OF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。
abstract1.pl(脚本1):
(2)将模式生物(如:拟南芥)的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列(C数据集)在待测基因组(A数据集)中进行Tblastn分析,把-outfmt设置为6或7,其它采用默认参数,可在Linux或Window系统下操作。
用脚本abstract_filter.pl对上述比对结果进行分析:运行命令“perl abstract_filter.plXXX1XXX2”,得到“dbD”和“dbE”两个文件。
所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;
将所述“dbD”记为D数据集;所述“dbE”记为E数据集。
其中,所述脚本abstract_filter.pl具有如下特点:以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游共30kb的序列集合(上游15kb,下游包含起始位点15kb),记为D数据集;所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集。即E数据集为以所述A数据集匹配到的所述D数据集序列被替换成相应长度的“X”的片段得到的数据集。
abstract_filter.pl(脚本2):
(3)采用基于同源搜索的CROSS_MATCH程序,把result_LTR(B数据集)与D数据集进行cross_match比对,搜索两者相匹配的基本信息。在本地Linux操作系统下进行,采用默认参数设置,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4。
采用Perl脚本语言编程(脚本3),对所XXX4中的数据进行分析:运行“perlabstract2.pl XXX3XXX4”命令。其中,所述“XXX3”为所述D数据集的文件名。此步骤生成文件“XXX4.result”;根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L2数据集。
其中,脚本3具有如下特点:从所述文件1中寻找两端边界明确的LTR-反转座子的位置,是通过限制其序列长度,并进行TSDs的检验,提取符合检验标准的所述LTR-反转座子来实现的;所述检验标准为:LTR-反转座子的长度小于等于30kb;5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD,若TSD的长度为4bp时,不允许突变,长度为5bp或6bp时最多允许一个碱基突变。
abstract2.pl(脚本3):
(4)采用CLUSTALW程序,将步骤(2)得到的D数据集进行多序列比对,在Linux或Window系统下操作,采用默认参数设置,提取LTR-反转座子(L3数据集)。
(5)采用基于同源搜索的CROSS_MATCH程序,把result_LTR(B数据集)与E数据集进行cross_match比对,搜索两者相匹配的基本信息。在本地Linux操作系统下进行,采用默认参数设置,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX6。
采用步骤(3)中介绍的Perl脚本语言编程(脚本3),对XXX6的数据进行分析:运行“perl abstract2.pl XXX5XXX6”命令。其中,所述“XXX5”为所述E数据集的文件名。此步骤生成文件“XXX6.result”;根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L4数据集。
(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,得到L数据集;
所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR-反转座子。
实施例2、利用实施例1建立的方法批量检测雷蒙德氏棉基因组LTR-反转座子
进入NCBI数据库(BioProject accession PRJNA171262)下载雷蒙德氏棉(Gossypiumraimondii L.)的基因组序列(13条染色体,737.8Mb),上传到Windows系统和本地Linux运算服务器,进行雷蒙德氏棉基因组LTR-反转座子的检测。检测过程中,所涉及的常用程序的名称、运行环境及地址如表1所示。检测方法具体操作步骤如下:
1)参照实施例1的步骤(1)进行。
采用LTR_STRUC程序鉴定雷蒙德氏棉基因组(A数据集)中的LTR-反转座子,Windows系统下操作,采用默认参数设置。采用Perl脚本语言编程(脚本1),提取2247条LTR-反转座子序列集合(L1数据集)和2247条LTR-反转座子的LTRs序列(B数据集);
2)参照实施例1的步骤(2)进行。
利用模式生物拟南芥Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列(C数据集)在雷蒙德氏棉基因组(A数据集)中进行Tblastn分析,Linux系统下操作,把-outfmt设置为6或7,其它采用默认参数设置。以雷蒙德氏棉基因组中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上下游长度为30kb的序列(上游15kb,下游包含起始位点15kb),建立D数据集;另外,将所述数据集A中剔除所述D数据集中的序列后得到E数据集;
其中,拟南芥Tyl-copia LTR-反转座子中转座酶保守结构域的氨基酸序列如序列表中序列1所示;拟南芥Ty3-gypsy LTR-反转座子中转座酶保守结构域的氨基酸序列如序列表中序列2所示。
3)参照实施例1的步骤(3)进行。
采用CROSS_MATCH程序,搜索步骤1)得到的LTRs序列(B数据集)与步骤2)得到的D数据集的匹配,本地Linux操作系统操作,采用默认参数设置。把所得cross_match结果文件的开头和结尾的说明部分删除,留下如图3所示的比对行,得到的文件记为XXX4。接着参照实施例1的步骤(3)采用Perl脚本语言编程(脚本3),对所述文件XXX4中的数据进行分析。根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,最终检测到5455条LTR-反转座子(L2数据集)。
4)参照实施例1的步骤(4)进行。
采用ClustalW程序,Linux系统下操作,采用默认参数设置,将步骤(2)得到的数据集D进行多序列比对,共得到929条LTR-反转座子(L3数据集)。
5)参照实施例1的步骤(5)进行。
采用CROSS_MATCH程序,搜索步骤(1)得到的LTRs序列(B数据集)与步骤(2)得到的E数据集,本地Linux服务器运算,采用默认参数设置,得到14215条LTR-反转座子(L4数据集)。
6)参照实施例1的步骤(6)进行。
对步骤1),3),4)和6)得到的LTR-反转座子(L1数据集、L2数据集、L3数据集和L4数据集)进行整理去重,如表2所示,最终获得20818个LTR-反转座子。
表1说明书中的常用软件
软件名称 | 运行环境 | 地址 |
LTR_STRUC | Windows | http://www.genetics.uga.edu/retrolab/data/LTR_Struc.html |
CROSS_MATCH | Linux | http://www.phrap.org/phrap.docs/general.html |
Tblastn | Linux/Window | ftp://ftp.ncbi.nih.gov/blast/executables/release/ |
ClustalW | Linux/Window | http://www.ebi.ac.uk/clustalw/ |
表2LTR-反转座子识别方法的比较
本发明的发明人从最终所得的20818个LTR-反转座子中随机选取10个,并分别进行了结构特征分析,发现10个序列均完全符合LTR-反转座子的结构特征,从而证实了以上本发明方法的准确性。
Claims (10)
1.一种批量检测基因组LTR-反转座子的方法,包括如下步骤:
(1)将待测基因组序列记为A数据集,利用LTR_STRUC程序,在Windows操作系统下,采用默认参数设置对所述A数据集进行分析;把脚本abstract1.pl放到LTR_STRUC文件夹下,运行“perl abstract1.pl XXX1”命令,得到“result_LTR”和“result_INTACT”两个文件;
所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据为LTR-反转座子序列,记为L1数据集;
所述“XXX1”代表A数据集的文件名,该文件在运行LTR_STRUC程序时已置于input文件夹内;所述input文件夹为所述LTR_STRUC文件夹的子文件夹;
(2)将模式生物的Tyl-copia和Ty3-gypsy两类LTR-反转座子中转座酶保守结构域的氨基酸序列记为C数据集,利用Tblastn程序,在Linux操作系统或Window操作系统下,把-outfmt设置为6或7,其它采用默认参数设置,用所述C数据集对所述A数据集进行比对分析;按照如下用脚本abstract_filter.pl对比对结果进行分析:运行命令“perl abstract_filter.pl XXX1XXX2”,得到“dbD”和“dbE”两个文件;
所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;
所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列集合,记为D数据集;所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集;
(3)利用CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述D数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4;按照如下用脚本abstract2.pl对所述文件XXX4中的数据进行分析:运行命令“perl abstract2.pl XXX3XXX4”命令,得到“XXX4.result”文件;根据所述“XXX4.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L2数据集;所述“XXX3”为所述D数据集的文件名;
(4)利用CLUSTALW程序,在Linux操作系统或Window操作系统下,采用默认参数设置,对所述D数据集进行多序列比对,提取LTR-反转座子,记为L3数据集;
(5)利用CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述E数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为文件XXX6;按照如下脚本abstract2.pl对所述XXX6中的数据进行分析:运行“perl abstract2.pl XXX5XXX6”命令,得到“XXX6.result”文件;根据所述“XXX6.result”文件中的LTR-反转座子的起始位点和结束位点提取LTR-反转座子序列集合,记为L4数据集;;
所述“XXX5”为所述E数据集的文件名;
(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,得到L数据集;所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR-反转座子。
2.根据权利要求1所述的方法,其特征在于:步骤(1)中,所述脚本abstract1.pl中关于提取所述LTRs序列和所述LTR-反转座子序列的内容,是基于如下原理进行编程的:以“LTRS:”为起始标志,对所述LTRs序列进行提取;以“COMPLETE SEQUENCEOF PUTATIVE TRANSPOSON:”为起始标志对所述LTR-反转座子序列进行提取。
4.根据权利要求1-3中任一所述的方法,其特征在于:步骤(2)中,所述脚本abstract_filter.pl中关于提取所述D数据集和所述E数据集,是基于如下原理进行编程的:以所述A数据集中匹配到的围绕所述转座酶保守结构域核苷酸序列的起始位点,提取上游15kb序列以及下游包含所述起始位点的15kb序列的集合,即为所述D数据集;所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集。
6.根据权利要求1-5中任一所述的方法,其特征在于:步骤(3)和(5)中,所述脚本abstract2.pl具有如下特点:从所述XXX4或所述XXX6中寻找两端边界明确的候选LTR-反转座子的位置,是通过限制其序列长度,并进行TSDs的检验,提取符合检验标准的所述LTR-反转座子来实现的;所述检验标准为:LTR-反转座子的长度小于等于30kb;5’LTR上游和3’LTR下游分别提取4-6个碱基作为TSD,若TSD的长度为4bp时,不允许突变,长度为5bp或6bp时最多允许一个碱基突变。
8.根据权利要求1-7中任一所述的方法,其特征在于:步骤(2)中,所述模式生物为拟南芥;
所述拟南芥的Tyl-copia LTR-反转座子中转座酶保守结构域的氨基酸序列具体为序列表中序列1所示,或所述拟南芥的Ty3-gypsy LTR-反转座子中转座酶保守结构域的氨基酸序列具体为序列表中序列2所示。
9.根据权利要求1-8中任一所述的方法,其特征在于:所述待测基因组序列通过下载已公开的全基因组序列获得或通过全基因组测序获得。
10.根据权利要求1-9中任一所述的方法,其特征在于:所述待测基因组为植物基因组;
所述植物基因组具体为棉花基因组;
所述棉花基因组具体为雷蒙德氏棉基因组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410062207.1A CN103824000B (zh) | 2014-02-24 | 2014-02-24 | 一种批量检测植物基因组ltr-反转座子的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410062207.1A CN103824000B (zh) | 2014-02-24 | 2014-02-24 | 一种批量检测植物基因组ltr-反转座子的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103824000A true CN103824000A (zh) | 2014-05-28 |
CN103824000B CN103824000B (zh) | 2016-09-28 |
Family
ID=50759056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410062207.1A Expired - Fee Related CN103824000B (zh) | 2014-02-24 | 2014-02-24 | 一种批量检测植物基因组ltr-反转座子的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103824000B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808974A (zh) * | 2016-03-07 | 2016-07-27 | 江苏省农业科学院 | 一种批量计算ltr-反转座子插入时间的方法 |
CN110534157A (zh) * | 2019-07-26 | 2019-12-03 | 江苏省农业科学院 | 一种批量提取基因组基因信息并翻译比对分析序列的方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100297769A1 (en) * | 2007-03-15 | 2010-11-25 | Chromatin, Inc. | Centromere sequences and minichromosomes |
US20120255072A1 (en) * | 2009-07-23 | 2012-10-04 | Chromatin, Inc. | Sorghum centromere sequences and minichromosomes |
CN103013990A (zh) * | 2011-09-27 | 2013-04-03 | 上海海洋大学 | 一种分离鱼类反转座子SINEs的方法 |
CN103103288A (zh) * | 2013-01-05 | 2013-05-15 | 江苏省农业科学院 | 一种快速同步检测小麦黄花叶病毒和中国小麦花叶病毒的方法 |
-
2014
- 2014-02-24 CN CN201410062207.1A patent/CN103824000B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100297769A1 (en) * | 2007-03-15 | 2010-11-25 | Chromatin, Inc. | Centromere sequences and minichromosomes |
US20120255072A1 (en) * | 2009-07-23 | 2012-10-04 | Chromatin, Inc. | Sorghum centromere sequences and minichromosomes |
CN103013990A (zh) * | 2011-09-27 | 2013-04-03 | 上海海洋大学 | 一种分离鱼类反转座子SINEs的方法 |
CN103103288A (zh) * | 2013-01-05 | 2013-05-15 | 江苏省农业科学院 | 一种快速同步检测小麦黄花叶病毒和中国小麦花叶病毒的方法 |
Non-Patent Citations (2)
Title |
---|
JER-YOUNG LIN等: "Structural and Functional Divergence of a 1-Mb Duplicated", 《THE PLANT CELL》 * |
刘静等: "植物 LTR-反转座子中 Orf1 基因的分子进化", 《遗传HEREDITAS(BEIJING)》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808974A (zh) * | 2016-03-07 | 2016-07-27 | 江苏省农业科学院 | 一种批量计算ltr-反转座子插入时间的方法 |
CN110534157A (zh) * | 2019-07-26 | 2019-12-03 | 江苏省农业科学院 | 一种批量提取基因组基因信息并翻译比对分析序列的方法 |
CN110534157B (zh) * | 2019-07-26 | 2023-07-25 | 江苏省农业科学院 | 一种批量提取基因组基因信息并翻译比对分析序列的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103824000B (zh) | 2016-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alkhnbashi et al. | CRISPR-Cas bioinformatics | |
Streicher et al. | How should genes and taxa be sampled for phylogenomic analyses with missing data? An empirical study in iguanian lizards | |
CN105177126B (zh) | 一种利用荧光pcr技术对小鼠的分型鉴定方法 | |
CN106845151B (zh) | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 | |
Gilchrist et al. | Reverse genetics techniques: engineering loss and gain of gene function in plants | |
Schmitt et al. | New primers for promising single-copy genes in fungal phylogenetics and systematics | |
US11694764B2 (en) | Method for large scale scaffolding of genome assemblies | |
Kepler et al. | Genome‐assisted development of nuclear intergenic sequence markers for entomopathogenic fungi of the M etarhizium anisopliae species complex | |
Huang et al. | More evidence for pervasive paraphyly in scleractinian corals: systematic study of Southeast Asian Faviidae (Cnidaria; Scleractinia) based on molecular and morphological data | |
CN108220394B (zh) | 基因调控性染色质相互作用的鉴定方法、系统及其应用 | |
WO2015149719A1 (zh) | 杂合基因组处理方法 | |
Soto Gomez et al. | A customized nuclear target enrichment approach for developing a phylogenomic baseline for Dioscorea yams (Dioscoreaceae) | |
Bousios et al. | The turbulent life of Sirevirus retrotransposons and the evolution of the maize genome: more than ten thousand elements tell the story | |
Kuo et al. | Fungal genomics: sequencing and annotation | |
JPWO2020160414A5 (zh) | ||
Wang et al. | Tasting soil fungal diversity with earth tongues: phylogenetic test of SATe alignments for environmental ITS data | |
CN112331264A (zh) | 一种同源2型CRISPR/Cas基因编辑系统的构建方法 | |
CN102899335A (zh) | 一种高通量Small RNA测序获得番木瓜环斑病毒基因组序列的方法 | |
Wang et al. | LTR retrotransposon landscape in Medicago truncatula: more rapid removal than in rice | |
Hibsh et al. | De novo transcriptome assembly databases for the central nervous system of the medicinal leech | |
CN107475449A (zh) | 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法 | |
Policastro et al. | Global approaches for profiling transcription initiation | |
CN103824000A (zh) | 一种批量检测植物基因组ltr-反转座子的方法 | |
CN105426700A (zh) | 一种批量计算基因组直系同源基因进化速率的方法 | |
Lin et al. | Probing the genomic limits of de-extinction in the Christmas Island rat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160928 |
|
CF01 | Termination of patent right due to non-payment of annual fee |