CN102226178B - 一种从林木基因组中高通量开发ssr标记的方法 - Google Patents

一种从林木基因组中高通量开发ssr标记的方法 Download PDF

Info

Publication number
CN102226178B
CN102226178B CN 201110123288 CN201110123288A CN102226178B CN 102226178 B CN102226178 B CN 102226178B CN 201110123288 CN201110123288 CN 201110123288 CN 201110123288 A CN201110123288 A CN 201110123288A CN 102226178 B CN102226178 B CN 102226178B
Authority
CN
China
Prior art keywords
order
ssr
repeats
motif
seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110123288
Other languages
English (en)
Other versions
CN102226178A (zh
Inventor
林元震
莫晓勇
陈晓阳
刘纯鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN 201110123288 priority Critical patent/CN102226178B/zh
Publication of CN102226178A publication Critical patent/CN102226178A/zh
Application granted granted Critical
Publication of CN102226178B publication Critical patent/CN102226178B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种从林木基因组中高通量开发SSR标记的方法,具体包括如下步骤:(1)从公共序列库中获取林木基因组序列;(2)开发SSR标记预测程序htmSSR;(3)将htmSSR程序对步骤(1)的林木基因组进行SSR搜索;(4)根据搜索到的SSR序列进行引物设计,经引物多态性检测,得到多态性引物,即为基因组SSR标记。本发明所述方法与传统方法相比,开发效率提高4~6倍,极大减少了工作量和财力消耗,缩短了研发时间,降低了开发成本,同时可为林木高精度的遗传连锁图、精确的品种鉴定等研究提供了大量的有效SSR标记。本发明方法对林木没有特异性,只要该物种基因组已经测序,即可采用本发明方法,故具有广泛的适用性。

Description

一种从林木基因组中高通量开发SSR标记的方法
技术领域
本发明涉及基因工程技术领域,具体涉及一种从林木基因组中高通量开发SSR标记的方法。
背景技术
简单序列重复(simple sequence repeat,SSR),也称微卫星(microsatellite),是指以1~6个核苷酸为单位在基因组中多次串联重复的DNA序列(Akkaya M, Bhagwata A, Cregan B.1992. Length polymorphisms of simple repeat DNA in soybean. Genetics. 132: 1131-1139)。SSR标记与其它分子标记技术相比,具有易检测、共显性遗传、重复性好、数量丰富和多态性高以及遍布整个基因组等优点,因此在植物遗传研究的众多方面受到重视(Schlotterer C .2004. The evolution of molecular markers- just a matter of fashion. Nat Rev Genet. 5: 63-69)。SSR可分为基因组SSR和EST-SSR。传统的基因组SSR标记开发一般是经过基因组DNA文库构建、重复序列克隆的识别和筛选以及测序等实验流程获得,开发过程繁琐、时间长、成本高,而且效率低(Roder MS, Korzun V, Wendehake K, Plaschke J, Tixier MH, Leroy P, Ganal MW.1998. A microsatellite map of wheat. Genetics. 149: 2007-2023)。此外,传统方法开发的基因组SSR不但数量较少,而且重复基序也限制在2~3个核苷酸,极大地限制了基因组SSR的应用范围(林元震,郭海,黄少伟,刘纯鑫,刘天颐,陈晓阳. 2009.EST-SSR标记在木本植物中的开发和应用.植物生理学通讯. 45(12):1221-1225)。近些年来,随着植物基因组与功能基因组研究的发展,大规模植物基因组的测序,产生了大量的基因组序列,并上传到核酸公共数据库,已成为高通量开发基因组SSR的一种资源。
目前,有许多软件可以预测SSR标记,比如SSRIT、MISA、SSR Finder和Repeat Masker等(林元震,郭海,黄少伟,刘纯鑫,刘天颐,陈晓阳. 2009.EST-SSR标记在木本植物中的开发和应用.植物生理学通讯. 45(12):1221-1225),但上述软件均主要用于EST-SSR的搜索,对于基因组,尤其是林木基因组,因其数据比较庞大,还没有一种高通量开发林木基因组SSR标记方法的相关报道。
发明内容
本发明的目的在于根据现有技术中存在的不足,提供一种高通量开发SSR标记的方法。
本发明另一目的在于提供一种桉树基因组SSR标记。
本发明还有一个目的在于提供利用上述桉树基因组SSR标记得到桉树SSR多态性图谱的方法。
本发明上述目的通过以下技术方案予以实现:
本发明所提供高通量开发林木基因组SSR标记的方法,包括以下步骤:
1)从公共序列库中获取林木基因组序列;
2)利用perl语言开发SSR标记预测程序htmSSR;
3)采用步骤2)得到的htmSSR程序对步骤1)的林木基因组进行SSR标记搜索;
4)根据步骤3)中SSR序列,采用生物信息学软件primer3.0,进行引物设计,再进行引物多态性检测,得到多态性引物,即为基因组SSR标记。
上述方法中,在步骤2)中的程序htmSSR是利用perl语言开发的,同时该程序也属于本发明的保护范围。
上述方法中,在步骤3)中检索基因组SSR标记的同时也进行其上下游序列各200bp,以供步骤4)设计引物所用。
上述方法中,在步骤3)后,包括以下步骤:根据步骤3)中的SSR序列,采用生物信息学软件primer3.0,进行引物设计,再进行引物多态性检测,得到多态性引物,即为基因组SSR标记。
上述方法中,所述基因组为林木基因组。
上述方法中,所述植物为桉树。
在可获得林木基因组、叶绿体基因组或一定数量DNA序列的基础上,本发明的方法适用于所有林木物种基因组SSR标记的开发,具体如桉树;基因组或DNA序列越丰富,利用本方法开发标记的效果越好。
本发明的另一个目的是提供一种基因组SSR标记,其中的一条序列如SEQ ID NO:1所示。
上述基因组SSR在构建SSR多态性图谱中的应用也属于本发明的保护范围。
本发明的最后一个目的是提供一种桉树SSR多态性图谱。
本发明所提供的桉树SSR多态性图谱,是按照包括以下步骤的方法得到的:
提取桉树的基因组DNA;
以基因组DNA为模板,利用权利要求6中所述的SSR标记进行PCR扩增;
将PCR扩增产物进行聚丙烯酰胺凝胶电泳检测,得到桉树SSR多态性图谱。
与现有技术相比,本发明具有如下有益效果:
在海量且巨大的桉树基因组序列(691,297,852 bp)中高通量开发SSR多态性标记,采用通过htmSSR程序检索SSR位点的同时也获得其两侧各200bp的序列,用以设计引物序列,这样的策略对于开发效率是一个很关键的环节。以往SSRIT、MISA、SSR Finder和Repeat Masker等软件,搜索SSR时,一般会有序列长度限制,对于基因组如此庞大的序列,基本运行不了。另外,它们搜索到SSR后,仍然保留SSR所在的原序列,对于EST来说,长度一般在1000bp左右,可以直接进行引物设计,但如果是基因组序列,尤其是林木基因组,染色体或scaffold的序列往往超过100Mb,要用于引物设计几乎不可能。本发明针对林木染色体或scaffold的序列比较庞大,改变了SSRIT等SSR常用预测软件的检索模式,编写htmSSR程序,先从基因组中搜索SSR位点,同时截取其两侧各200bp的序列,获得序列长度约为400bp,降低了过长序列难以或无法设计引物的难度,从而提高了从基因组数据资源中开发SSR标记的效率。    
本发明所提供的标记可用于构建林木的SSR多态性图谱,进而用于林木的QTL精细定位,寻找与其对应的性状;标记也可用于研究林木系统进化关系;此外标记还可用来鉴定品种。本发明的方法没有林木物种限制性,只要有其基因组序列即可,因此,将有广阔的应用前景。
附图说明
图1为桉树基因组SSR标记序列;
图2为桉树SSR多态性图谱(图中泳道编号分别与表1中品种编号对应)。  
具体实施方式
以下结合实施例来进一步解释本发明,但实施例并不对本发明做任何形式的限定。
下述实施例中所使用的实验方法如无特殊说明,均为常规方法。
下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
实施例1、高通量获得桉树基因组的SSR标记
一、SSR标记的搜索与引物的设计
 l、获取桉树基因组序列
从EucalyptusDB资源数据库(http://eucalyptusdb.bi.up.ac.za/)中下载桉树基因组序列,版本为V1.0 8X,更新时间为2010年7月30日。
2、编写SSR检索程序htmSSR
计算机配置为windows XP,CPU为E2180,内存2G,硬盘 200G。程序采用perl语言编写,perl语言版本为ActivePerl V5.8.8.822。SSR检索程序htmSSR的代码如下所示:
#!/usr/bin/perl 
# Author: YZ Lin, et al.
# Time: 18th 12, 2010
# Program name: htmSSR.pl
open (IN,"<$ARGV[0]");
open (OUT,">$ARGV[0].SSR");
print OUT "SSR_No\tID\tSSR nr.\tSSR type\tSSR\tsize\tstart\tend\n";
open (OUT2,">$ARGV[0]. SSR seq");
open (SPECS," htmSSR.ini");
my %typrep;
my $amb = 0;
while (<SPECS>)
   {
   %typrep = $1 =~ /(\d+)/gi if (/^def\S*\s+(.*)/i);
   if (/^int\S*\s+(\d+)/i) {$amb = $1}
   };
my typ = sort { $a <=> $b } keys %typrep;
$/ = ">";
my $max_repeats = 1; #count repeats
my $min_repeats = 1000; #count repeats
my (%count_motif,%count_class); #count
my ($number_sequences,$size_sequences,%ssr_containing_seqs); 
my $ssr_in_compound = 0;
my ($id,$seq);
while (<IN>)
  {
  next unless (($id,$seq) = /(.*?)\n(.*)/s);
  my ($nr,%start,order,%end,%motif,%repeats); 
  $seq =~ s/[\d\s>]//g; 
  $id =~ s/^\s*//g; $id =~ s/\s*$//g;$id =~ s/\s/_/g; 
  $number_sequences++;
  $size_sequences += length $seq;
  for ($i=0; $i < scalar(typ); $i++) 
    {
    my $motiflen = $typ[$i];
    my $minreps = $typrep{$typ[$i]} - 1;
    if ($min_repeats > $typrep{$typ[$i]}) {$min_repeats = $typrep{$typ[$i]}}; 
    my $search = "(([acgt]{$motiflen})\\2{$minreps,})";
    while ( $seq =~ /$search/ig ) #scan whole sequence for that class
      {
      my $motif = uc $2;
      my $redundant; 
      for ($j = $motiflen - 1; $j > 0; $j--)
        {
        my $redmotif = "([ACGT]{$j})\\1{".($motiflen/$j-1)."}";
        $redundant = 1 if ( $motif =~ /$redmotif/ )
        };
      next if $redundant;
      $motif{++$nr} = $motif;
      my $ssr = uc $1;
      $repeats{$nr} = length($ssr) / $motiflen;
      $end{$nr} = pos($seq);
      $start{$nr} = $end{$nr} - length($ssr) + 1;
      $count_motifs{$motif{$nr}}++; 
      $motif{$nr}->{$repeats{$nr}}++; 
      $count_class{$typ[$i]}++; 
      if ($max_repeats < $repeats{$nr}) {$max_repeats = $repeats{$nr}};
      };
    };
  next if (!$nr); 
  $ssr_containing_seqs{$nr}++;
  order = sort { $start{$a} <=> $start{$b} } keys %start; 
  $i = 0;
  my $count_seq; #counts
  my ($start,$end,$ssrseq,$ssrtype,$size);
  while ($i < $nr)
    {
    my $space = $amb + 1;
    if (!$order[$i+1]) 
      {
      $count_seq++;
      my $motiflen = length ($motif{$order[$i]});
      $ssrtype = "p".$motiflen;
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";
      $start = $start{$order[$i]}; $end = $end{$order[$i++]};
      next
      };
    if (($start{$order[$i+1]} - $end{$order[$i]}) > $space)
      {
      $count_seq++;
      my $motiflen = length ($motif{$order[$i]});
      $ssrtype = "p".$motiflen;
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";
      $start = $start{$order[$i]}; $end = $end{$order[$i++]};
      next
      };
    my ($interssr);
    if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)
      {
      $count_seq++; $ssr_in_compound++;
      $ssrtype = 'c*';
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}($motif{$order[$i+1]})$repeats{$order
[$i+1]}*";
      $start = $start{$order[$i]}; $end = $end{$order[$i+1]}
      }
    else
      {
      $count_seq++; $ssr_in_compound++;
      $interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1);
      $ssrtype = 'c';
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}$interssr($motif{$order[$i+1]})$repeats{$order
[$i+1]}";
      $start = $start{$order[$i]};  $end = $end{$order[$i+1]};
      };
    while ($order[++$i + 1] and (($start{$order[$i+1]} - $end{$order[$i]}) <= $space))
      {
      if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)
        {
        $ssr_in_compound++;
        $ssrseq .= "($motif{$order[$i+1]})$repeats{$order[$i+1]}*";
        $ssrtype = 'c*';
        $end = $end{$order[$i+1]}
        }
      else
        {
        $ssr_in_compound++;
        $interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1);
        $ssrseq .= "$interssr($motif{$order[$i+1]})$repeats{$order[$i+1]}";
        $end = $end{$order[$i+1]};
        }
      };
    $i++;
    }
  continue
  {
     $y++;
     $size=$end - $start + 1;
     print OUT "SSR_$y\t$id\t$count_seq\t$ssrtype\t$ssrseq\t$size\t$start\t$end\n";
     if($start>200){$up=$start-200;}
     else{$up=1;}
     $down=$end-$up +200;
     $start1=200+1;
     $seqssr=substr($seq,$up,$down);     
     print OUT2 ">SSR_$y\t$id\n";
     print OUT2 "$seqssr\n";     
   };
 };
htmSSR程序的运行,还需要一个htmSSR.ini的配置文件,该文件里包含SSR检索的标准。比如在本发明中,搜索的标准为:二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸重复单元的重复次数分别大于或等于8、5、5、5、5,具体格式如下所示。
definition(unit_size,min_repeats):                   2-8 3-5 4-5 5-5 6-5
设置配置文件的优点是,可以根据试验对象的不同,自主设置或随意更改SSR的搜索标准,甚至可以修改进行长片段重复序列的搜索。
3、搜索含有SSR(即简单序列重复)的基因组序列
用编写好的htmSSR程序对步骤1得到的基因组序列进行SSR搜索,得到含有简单重复序列的基因组序列。
程序运行命令为 perl  htmSSR.pl  input_file.fasta。
4、根据含有SSR的基因组序列进行设计引物
根据SSR侧翼序列设计引物(图1),得到基因组SSR标记的扩增引物。引物设计参数:扩增产物长度在100-280bp,引物长度在18-25bp。
二、引物多态性检测
(一)材料
所用的植物材料如表1所示,表1中的所有品种均可以从国家林业局桉树研究开发中心获得。
表1、 基因组SSR标记多态性验证材料名称及编号
编号 供试材料 编号 供试材料
1 粗皮桉17848 5 尾叶桉6
2 粗皮桉17860 6 尾叶桉15
3 大花序桉B47 7 尾叶桉31
4 大花序桉B85    
 (二)实验方法
l、桉树基因组DNA的提取
采用CTAB法提取植物材料的基因组DNA。
取0.2 g植物材料,加1/10体积的PVPP,液氮研磨成细粉末。加入600μl预热至65℃的2×CTAB提取液(CTAB 2%,PVP 4%,EDTA 25mM,NaCl 2.0M,Tris-HCl 100mM,pH8.0),再加入80μL β-巯基乙醇,颠倒混匀,65 ℃水浴20 min,其间不时摇动。加等体积的氯仿/异戊醇(24:1)颠倒混匀约5 min。室温下,12000 rpm离心10 min。
取上清,加入等体积的氯仿/异戊醇(24:1),混匀,室温12000 rpm离心10 min,重复一次。
取上清,加入2倍体积的无水乙醇,混匀,-20℃下放置30min。室温12000 rpm离心10 min,弃掉上清液。70%乙醇漂洗2次,室温晾干,加入50μl TE溶解沉淀,取2μl 进行1%琼脂糖凝胶电泳,初步检测DNA提取结果。
在其余的DNA溶液中加入2μl RNase(10mg/mL)溶液,37 ℃保温1h。
加入300μl TE溶液和等体积氯仿/异戊醇(24:1),混匀5 min,4 oC,12000 rpm离心15 min。
取上清,加等体积预冷的异丙醇,-20 oC沉淀30 min,4 ℃,12000 rpm离心15 min。
70%乙醇漂洗DNA沉淀2次,室温晾干,加入50 μl TE溶解,电泳检测,-20℃贮存备用。
2、DNA质量检测
  采用琼脂糖凝胶电泳检测DNA质量。把溶解好的DNA母液稀释10倍,取出2μ1加入8μ1 0.25%溴酚蓝,在0.8%的琼脂糖凝胶电泳上进行电泳检测,以λDNA(50ng/μ1)作为标准,设置浓度梯度,将待测DNA与λDNA比较产物浓度,确定PCR反应的最适宜浓度。
  3、PCR反应体系及程序
采用梯度PCR方法确定引物的最佳退火温度(本研究使用Biorad MJ Mini PCR仪)。采用1.5%的琼脂糖凝胶电泳检测梯度PCR扩增产物。
表2梯度PCR反应体系
Figure 2011101232888100002DEST_PATH_IMAGE001
表3梯度PCR反应程序
 步骤     反应过程     温度     反应时间
  Step 1     预变性 94℃     5min
  Step 2     变性 94℃     30s
  Step 3     退火     47-62℃     1min
  Step 4     延伸 72℃     30s
  Step 5     35 cycles go to step 2  
  Step 6     终延伸 72℃     3min
所设计的引物经梯度PCR确定退火温度之后,用特异退火温度PCR对引物多态性验证材料进行扩增,最后采用8%的聚丙烯酰胺凝胶电泳分离扩增产物(100V恒压,电泳约1小时),确定引物多态性。特异退火温度PCR体系与梯度PCR相同,其反应程序如下:
表4 PCR反应程序
  步骤     反应过程     温度     反应时间
  Step 1     预变性     94℃     5min
  Step 2     变性     94℃     30s
  Step 3     退火 引物最佳退火温度     1min
  Step 4     延伸     72℃     30s
  Step 5     35 cycles   go to step 2  
  Step 6     终延伸     72℃     3 min
  4、电泳检测方法
用8%的非变性聚丙烯酰胺凝胶对部分扩增产物进行电泳(1×TBE,100V恒压1 h),具体步骤如下:
(1)制胶:取29%丙烯酰胺-1%甲叉双丙烯酰胺8mL,2×TBE15mL,10%过硫酸铵(AP)0.21mL,TEMED(四甲基乙二胺)10.5μl,异丙醇(甘油)1.5mL。混匀后迅速倒入胶床,静置1h左右,制成15cm×15cm×1mm的凝胶。在制胶过程中,为确保在灌注聚丙烯酰胺凝胶时无丝毫漏出现象,可以用宽约1.5cm的胶带纸将胶床玻璃板底边缘封贴,防止凝胶泄漏。
(2)电泳:将成形的非变性聚丙烯胺凝胶装配好,在上、下电泳槽中各加入适量的1×TBE电泳缓冲液,PCR产物10μ1混合6×载样缓冲液(二甲苯氰FF0.25%、溴酚蓝0.25%、甘油30%)后上样。在25℃、100V恒压下电泳1h。
(3)固定:电泳结束后取下玻璃板,把玻璃凹口板取下,附着胶体的玻璃板放入固定液中固定30 min (固定液:100mL冰乙酸加水稀释至1000mL)。
(4)水洗:取出固定液中的玻璃板,放入蒸馏水中,水洗5-10 min。
(5)银染:把水洗后的玻璃板放入银染液中染色30 min (银染液:1g AgNO3、1.5mL 37%甲醛,加水至1000mL),硝酸银见光易分解,因此银染过程中应注意避光。
(6)水洗:蒸馏水水洗2次(每次不超过30s)。
(7)显影:于上步的水洗槽中把玻璃板迅速取出,放入显影液中,进行显影至条带清晰即可,一般不超过5min。(显影液:30g Na2CO3、1. 5mL 37%甲醛、0. 2mL Na2S2O3(10mg/mL),加水至1000mL)。
(8)固定:待影像清晰后,取出玻璃板,放入固定液中进行固定。
 (9)风干:用自来水洗去固定液残留在胶面的酸味,将胶板置于通风处风干后,统计数据。
以获得的多态性引物中的1例为例,说明检测结果。该多态性引物(PRIMER1如SEQ ID NO:2所示,PRIMER2如SEQ ID NO:3所示)由图1的序列设计而来的。
用该引物对表1中所示材料分别进行PCR扩增,进行多态性检测,结果如图2所示。实验设3次重复,均得到相同的结果。图2也就是桉树品种的SSR多态性图谱。
说明本发明标记可以用于构建桉树SSR多态性图谱。
SEQUENCE LISTING
 
<110>  华南农业大学
 
<120>  一种从林木基因组中高通量开发SSR标记的方法
 
<130> 
 
<160>  3    
 
<170>  PatentIn version 3.2
 
<210>  1
<211>  420
<212>  DNA
<213>  基因组SSR标记
 
<400>  1
tacccgggcc caacaaacta aatttcgggc ccatttgacc cgggccgatg ctggcggccc     60
 
gtgatcgggt cctcgacccg agcgccgacg cgtctagggt ttgcaatagc ttcgcttcgc    120
 
ctcgcctcgc catctattta actcccctct ttgaccccga tcttacacca caaaaaaacc    180
 
ctaaatatct tcccgcttct cgtcgtcgtc gtcgtcgtcg attgcagagt tctcagatcc    240
 
tccatcgtcc ggccggctca tcagcttcga gctcagattg ctgagcattc ggtcgcacgg    300
 
ctctcgattg ctcgcttctt tcaccccctt tcccgtagcg ctttaggtgg ccggtagcat    360
 
ctcgctcgag tggcgtgggc ctgtgatgcg taagattgtc cgtaccatct gagacgaccg    420
 
 
<210>  2
<211>  20
<212>  DNA
<213>  PRIMER1
 
<400>  2
accccgatct tacaccacaa                                                 20
 
 
<210>  3
<211>  20
<212>  DNA
<213>  PRIMER2
 
<400>  3
ggtgaaagaa gcgagcaatc                                                 20

Claims (2)

1.一种从林木基因组中高通量开发SSR标记的方法,其特征在于包括如下步骤:
(1)从公共序列库中获取林木基因组序列;
(2)开发SSR标记预测程序htmSSR;
(3)将htmSSR程序对步骤(1)的林木基因组进行SSR搜索;
(4)根据搜索到的SSR序列进行引物设计,经引物多态性检测,得到多态性引物,即为基因组SSR标记;
其中,所述程序htmSSR的代码如下所示:
#!/usr/bin/perl 
# Author: YZ Lin, et al.
# Time: 18th 12, 2010
# Program name: htmSSR.pl
open (IN,"<$ARGV[0]");
open (OUT,">$ARGV[0].SSR");
print OUT "SSR_No\tID\tSSR nr.\tSSR type\tSSR\tsize\tstart\tend\n";
open (OUT2,">$ARGV[0]. SSR seq");
open (SPECS," htmSSR.ini");
my %typrep;
my $amb = 0;
while (<SPECS>)
   {
   %typrep = $1 =~ /(\d+)/gi if (/^def\S*\s+(.*)/i);
   if (/^int\S*\s+(\d+)/i) {$amb = $1}
   };
my typ = sort { $a <=> $b } keys %typrep;
$/ = ">";
my $max_repeats = 1; #count repeats
my $min_repeats = 1000; #count repeats
my (%count_motif,%count_class); #count
my ($number_sequences,$size_sequences,%ssr_containing_seqs); 
my $ssr_in_compound = 0;
my ($id,$seq);
while (<IN>)
  {
  next unless (($id,$seq) = /(.*?)\n(.*)/s);
  my ($nr,%start,order,%end,%motif,%repeats); 
  $seq =~ s/[\d\s>]//g; 
  $id =~ s/^\s*//g; $id =~ s/\s*$//g;$id =~ s/\s/_/g; 
  $number_sequences++;
  $size_sequences += length $seq;
  for ($i=0; $i < scalar(typ); $i++) 
    {
    my $motiflen = $typ[$i];
    my $minreps = $typrep{$typ[$i]} - 1;
    if ($min_repeats > $typrep{$typ[$i]}) {$min_repeats = $typrep{$typ[$i]}}; 
    my $search = "(([acgt]{$motiflen})\\2{$minreps,})";
    while ( $seq =~ /$search/ig ) #scan whole sequence for that class
      {
      my $motif = uc $2;
      my $redundant; 
      for ($j = $motiflen - 1; $j > 0; $j--)
        {
        my $redmotif = "([ACGT]{$j})\\1{".($motiflen/$j-1)."}";
        $redundant = 1 if ( $motif =~ /$redmotif/ )
        };
      next if $redundant;
      $motif{++$nr} = $motif;
      my $ssr = uc $1;
      $repeats{$nr} = length($ssr) / $motiflen;
      $end{$nr} = pos($seq);
      $start{$nr} = $end{$nr} - length($ssr) + 1;
      $count_motifs{$motif{$nr}}++; 
      $motif{$nr}->{$repeats{$nr}}++; 
      $count_class{$typ[$i]}++; 
      if ($max_repeats < $repeats{$nr}) {$max_repeats = $repeats{$nr}};
      };
    };
  next if (!$nr); 
  $ssr_containing_seqs{$nr}++;
  order = sort { $start{$a} <=> $start{$b} } keys %start; 
  $i = 0;
  my $count_seq; #counts
  my ($start,$end,$ssrseq,$ssrtype,$size);
  while ($i < $nr)
    {
    my $space = $amb + 1;
    if (!$order[$i+1]) 
      {
      $count_seq++;
      my $motiflen = length ($motif{$order[$i]});
      $ssrtype = "p".$motiflen;
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";
      $start = $start{$order[$i]}; $end = $end{$order[$i++]};
      next
      };
    if (($start{$order[$i+1]} - $end{$order[$i]}) > $space)
      {
      $count_seq++;
      my $motiflen = length ($motif{$order[$i]});
      $ssrtype = "p".$motiflen;
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";
      $start = $start{$order[$i]}; $end = $end{$order[$i++]};
      next
      };
    my ($interssr);
    if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)
      {
      $count_seq++; $ssr_in_compound++;
      $ssrtype = 'c*';
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}($motif{$order[$i+1]})$repeats{$order
[$i+1]}*";
      $start = $start{$order[$i]}; $end = $end{$order[$i+1]}
      }
    else
      {
      $count_seq++; $ssr_in_compound++;
      $interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1);
      $ssrtype = 'c';
      $ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}$interssr($motif{$order[$i+1]})$repeats{$order
[$i+1]}";
      $start = $start{$order[$i]};  $end = $end{$order[$i+1]};
      };
    while ($order[++$i + 1] and (($start{$order[$i+1]} - $end{$order[$i]}) <= $space))
      {
      if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)
        {
        $ssr_in_compound++;
        $ssrseq .= "($motif{$order[$i+1]})$repeats{$order[$i+1]}*";
        $ssrtype = 'c*';
        $end = $end{$order[$i+1]}
        }
      else
        {
        $ssr_in_compound++;
        $interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1);
        $ssrseq .= "$interssr($motif{$order[$i+1]})$repeats{$order[$i+1]}";
        $end = $end{$order[$i+1]};
        }
      };
    $i++;
    }
  continue
  {
     $y++;
     $size=$end - $start + 1;
     print OUT "SSR_$y\t$id\t$count_seq\t$ssrtype\t$ssrseq\t$size\t$start\t$end\n";
     if($start>200){$up=$start-200;}
     else{$up=1;}
     $down=$end-$up +200;
     $start1=200+1;
     $seqssr=substr($seq,$up,$down);     
     print OUT2 ">SSR_$y\t$id\n";
     print OUT2 "$seqssr\n";     
   };
 };。
2.根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法,其特征在于步骤(2)中所述程序htmSSR是利用perl语言开发的,perl语言版本为ActivePerl V5.8.8.822。
3. 根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法,其特征在于步骤(3)中所述SSR搜索的同时也对序列的上下游各200bp进行搜索,供设计引物用。
4. 根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法,其特征在于步骤(4)中所述涉及引物是根据SSR序列,采用生物信息学软件primer3.0进行引物设计。
5. 根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法,其特征在于所述林木为桉树。
6. 一种桉树基因组SSR标记,其序列如SEQ ID NO:1所示。
7. 权利要求6所述基因组SSR标记在构建SSR多态性图谱中的应用。
8. 一种桉树SSR多态性图谱,其特征在于按照如下方法得到:
(1)提取桉树的基因组DNA;
(2)以步骤(1)所述基因组DNA为模板,利用如SEQ ID NO:2和3所示多态性引物进行PCR扩增;
(3)将扩增产物进行聚丙烯酰胺凝胶电泳检测,得到桉树SSR多态性图谱。
CN 201110123288 2011-05-13 2011-05-13 一种从林木基因组中高通量开发ssr标记的方法 Expired - Fee Related CN102226178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110123288 CN102226178B (zh) 2011-05-13 2011-05-13 一种从林木基因组中高通量开发ssr标记的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110123288 CN102226178B (zh) 2011-05-13 2011-05-13 一种从林木基因组中高通量开发ssr标记的方法

Publications (2)

Publication Number Publication Date
CN102226178A CN102226178A (zh) 2011-10-26
CN102226178B true CN102226178B (zh) 2013-05-01

Family

ID=44807176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110123288 Expired - Fee Related CN102226178B (zh) 2011-05-13 2011-05-13 一种从林木基因组中高通量开发ssr标记的方法

Country Status (1)

Country Link
CN (1) CN102226178B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104017804B (zh) * 2014-06-26 2017-06-20 华南农业大学 一种高质高效的多酚多糖类植物样品rna提取方法
CN106803026B (zh) * 2016-12-29 2019-06-25 华南农业大学 一种利用ssr标记信息提高林木遗传评估精确度的方法

Non-Patent Citations (16)

* Cited by examiner, † Cited by third party
Title
.2005,第28卷(第3 (suppl)期),582-588. *
.2009,352-360. *
.2009,第32卷(第4期),28-32. *
.2009,第45卷(第12期),1221-1225. *
Bioinformation&gt *
Edenilson Rabello等.In silico characterization of microsatellites in Eucalyptus spp.: Abundance, length variation and transposon associations.&lt *
EdenilsonRabello等.InsilicocharacterizationofmicrosatellitesinEucalyptusspp.:Abundance length variation and transposon associations.<Genetics and Molecular Biology>.2005
Genetics and Molecular Biology&gt *
Renée S. Arias等.UPIC: Perl scripts to determine the number of SSR markers to run.&lt *
Renée S. Arias等.UPIC: Perl scripts to determine the number of SSR markers to run.<Bioinformation>.2009,352-360.
南京农业大学学报&gt *
林元震等.EST-SSR 标记在木本植物中的开发和应用.&lt *
林元震等.EST-SSR 标记在木本植物中的开发和应用.<植物生理学通讯>.2009,第45卷(第12期),1221-1225.
植物生理学通讯&gt *
蔡斌等.葡萄全基因组SSR分析和数据库构建.&lt *
蔡斌等.葡萄全基因组SSR分析和数据库构建.<南京农业大学学报>.2009,第32卷(第4期),28-32.

Also Published As

Publication number Publication date
CN102226178A (zh) 2011-10-26

Similar Documents

Publication Publication Date Title
Shen et al. Messenger RNA modifications in plants
Huang et al. The discovery approaches and detection methods of microRNAs
CN102732973B (zh) 一种高通量棉花品种dna指纹库构建方法
CN106148552A (zh) 人类y染色体30个str基因座的荧光标记复合扩增试剂盒及其应用
CN110257547A (zh) 基于kasp技术开发的玉米核心snp标记及其应用
CN113832243B (zh) 基于kasp技术开发的用于茶树品种鉴定的核心snp标记
CN109337997B (zh) 一种山茶属多态性叶绿体基因组微卫星分子标记引物及筛选和甄别近缘种的方法
CN105177146A (zh) 人类y染色体27个str基因座的荧光标记复合扩增试剂盒及其应用
CN106521024B (zh) 蒺藜苜蓿microRNA-SSR分子标记引物及在苜蓿品种鉴定中的应用
CN113278712A (zh) 分析绵羊毛色的基因芯片、分子探针组合、试剂盒及应用
CN103911372A (zh) 豇豆叶绿体微卫星分子标记的多态性引物及其筛选方法、鉴定亲缘关系的方法
CN108660191A (zh) 一种基于编码微球反应器的数字化多重核酸检测方法
CN103013986B (zh) 利用est序列的冗余性开发辣椒ssr标记及其方法
CN102226178B (zh) 一种从林木基因组中高通量开发ssr标记的方法
CN108642208A (zh) 一种樟属及其近缘属植物通用ssr分子标记及其开发方法和应用
CN113151567B (zh) 用于鉴别花脸香蘑n006#菌株的ssr分子标记及方法
CN107513560B (zh) 一种低成本的igh基因断裂快速检测探针及其制备方法和应用
CN110129480A (zh) 检测水稻硝酸盐转运蛋白基因的引物组、试剂盒及其检测方法和应用
CN106834493B (zh) 一种低成本的aml1-eto融合基因快速检测探针及其制备方法和应用
CN109762909A (zh) 一种用于降解检材法医学个体鉴识的44个InDels位点复合扩增检测试剂盒
CN113604577B (zh) 一种基于荧光定量pcr检测木薯绵粉蚧的引物、探针、试剂盒及方法
CN112592965B (zh) 一种TaqMan探针法的E.coli宿主DNA残留检测试剂盒
CN111944922B (zh) 基于芍药转录组序列开发的est-ssr引物组及其应用
CN114836547A (zh) 用于鉴别梅花鹿华南亚种的分子标记、鉴别方法及应用
CN103667450B (zh) 适用于转基因产品高通量检测的dna芯片

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130501

Termination date: 20160513

CF01 Termination of patent right due to non-payment of annual fee