CN102226178B

CN102226178B - 一种从林木基因组中高通量开发ssr标记的方法

Info

Publication number: CN102226178B
Application number: CN 201110123288
Authority: CN
Inventors: 林元震; 莫晓勇; 陈晓阳; 刘纯鑫
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2011-05-13
Filing date: 2011-05-13
Publication date: 2013-05-01
Anticipated expiration: 2031-05-13
Also published as: CN102226178A

Abstract

本发明公开了一种从林木基因组中高通量开发SSR标记的方法，具体包括如下步骤：（1）从公共序列库中获取林木基因组序列；（2）开发SSR标记预测程序htmSSR；（3）将htmSSR程序对步骤（1）的林木基因组进行SSR搜索；（4）根据搜索到的SSR序列进行引物设计，经引物多态性检测，得到多态性引物，即为基因组SSR标记。本发明所述方法与传统方法相比，开发效率提高4~6倍，极大减少了工作量和财力消耗，缩短了研发时间，降低了开发成本，同时可为林木高精度的遗传连锁图、精确的品种鉴定等研究提供了大量的有效SSR标记。本发明方法对林木没有特异性，只要该物种基因组已经测序，即可采用本发明方法，故具有广泛的适用性。

Description

一种从林木基因组中高通量开发SSR标记的方法

技术领域

本发明涉及基因工程技术领域，具体涉及一种从林木基因组中高通量开发SSR标记的方法。

背景技术

简单序列重复（simple sequence repeat，SSR），也称微卫星（microsatellite），是指以1~6个核苷酸为单位在基因组中多次串联重复的DNA序列（Akkaya M, Bhagwata A, Cregan B.1992. Length polymorphisms of simple repeat DNA in soybean. Genetics. 132: 1131-1139）。SSR标记与其它分子标记技术相比，具有易检测、共显性遗传、重复性好、数量丰富和多态性高以及遍布整个基因组等优点，因此在植物遗传研究的众多方面受到重视(Schlotterer C .2004. The evolution of molecular markers- just a matter of fashion. Nat Rev Genet. 5: 63-69)。SSR可分为基因组SSR和EST-SSR。传统的基因组SSR标记开发一般是经过基因组DNA文库构建、重复序列克隆的识别和筛选以及测序等实验流程获得，开发过程繁琐、时间长、成本高，而且效率低(Roder MS, Korzun V, Wendehake K, Plaschke J, Tixier MH, Leroy P, Ganal MW.1998. A microsatellite map of wheat. Genetics. 149: 2007-2023)。此外，传统方法开发的基因组SSR不但数量较少，而且重复基序也限制在2~3个核苷酸，极大地限制了基因组SSR的应用范围(林元震，郭海，黄少伟，刘纯鑫，刘天颐，陈晓阳. 2009.EST-SSR标记在木本植物中的开发和应用.植物生理学通讯. 45(12):1221-1225)。近些年来，随着植物基因组与功能基因组研究的发展，大规模植物基因组的测序，产生了大量的基因组序列，并上传到核酸公共数据库，已成为高通量开发基因组SSR的一种资源。

目前，有许多软件可以预测SSR标记，比如SSRIT、MISA、SSR Finder和Repeat Masker等(林元震，郭海，黄少伟，刘纯鑫，刘天颐，陈晓阳. 2009.EST-SSR标记在木本植物中的开发和应用.植物生理学通讯. 45(12):1221-1225)，但上述软件均主要用于EST-SSR的搜索，对于基因组，尤其是林木基因组，因其数据比较庞大，还没有一种高通量开发林木基因组SSR标记方法的相关报道。

发明内容

本发明的目的在于根据现有技术中存在的不足，提供一种高通量开发SSR标记的方法。

本发明另一目的在于提供一种桉树基因组SSR标记。

本发明还有一个目的在于提供利用上述桉树基因组SSR标记得到桉树SSR多态性图谱的方法。

本发明上述目的通过以下技术方案予以实现：

本发明所提供高通量开发林木基因组SSR标记的方法，包括以下步骤：

1）从公共序列库中获取林木基因组序列；

2）利用perl语言开发SSR标记预测程序htmSSR；

3）采用步骤2）得到的htmSSR程序对步骤1）的林木基因组进行SSR标记搜索；

4）根据步骤3）中SSR序列，采用生物信息学软件primer3.0，进行引物设计，再进行引物多态性检测，得到多态性引物，即为基因组SSR标记。

上述方法中，在步骤2）中的程序htmSSR是利用perl语言开发的，同时该程序也属于本发明的保护范围。

上述方法中，在步骤3）中检索基因组SSR标记的同时也进行其上下游序列各200bp，以供步骤4）设计引物所用。

上述方法中，在步骤3）后，包括以下步骤：根据步骤3）中的SSR序列，采用生物信息学软件primer3.0，进行引物设计，再进行引物多态性检测，得到多态性引物，即为基因组SSR标记。

上述方法中，所述基因组为林木基因组。

上述方法中，所述植物为桉树。

在可获得林木基因组、叶绿体基因组或一定数量DNA序列的基础上，本发明的方法适用于所有林木物种基因组SSR标记的开发，具体如桉树；基因组或DNA序列越丰富，利用本方法开发标记的效果越好。

本发明的另一个目的是提供一种基因组SSR标记，其中的一条序列如SEQ ID NO:1所示。

上述基因组SSR在构建SSR多态性图谱中的应用也属于本发明的保护范围。

本发明的最后一个目的是提供一种桉树SSR多态性图谱。

本发明所提供的桉树SSR多态性图谱，是按照包括以下步骤的方法得到的：

提取桉树的基因组DNA；

以基因组DNA为模板，利用权利要求6中所述的SSR标记进行PCR扩增；

将PCR扩增产物进行聚丙烯酰胺凝胶电泳检测，得到桉树SSR多态性图谱。

与现有技术相比，本发明具有如下有益效果：

在海量且巨大的桉树基因组序列（691，297，852 bp）中高通量开发SSR多态性标记，采用通过htmSSR程序检索SSR位点的同时也获得其两侧各200bp的序列，用以设计引物序列，这样的策略对于开发效率是一个很关键的环节。以往SSRIT、MISA、SSR Finder和Repeat Masker等软件，搜索SSR时，一般会有序列长度限制，对于基因组如此庞大的序列，基本运行不了。另外，它们搜索到SSR后，仍然保留SSR所在的原序列，对于EST来说，长度一般在1000bp左右，可以直接进行引物设计，但如果是基因组序列，尤其是林木基因组，染色体或scaffold的序列往往超过100Mb，要用于引物设计几乎不可能。本发明针对林木染色体或scaffold的序列比较庞大，改变了SSRIT等SSR常用预测软件的检索模式，编写htmSSR程序，先从基因组中搜索SSR位点，同时截取其两侧各200bp的序列，获得序列长度约为400bp，降低了过长序列难以或无法设计引物的难度，从而提高了从基因组数据资源中开发SSR标记的效率。

本发明所提供的标记可用于构建林木的SSR多态性图谱，进而用于林木的QTL精细定位，寻找与其对应的性状；标记也可用于研究林木系统进化关系；此外标记还可用来鉴定品种。本发明的方法没有林木物种限制性，只要有其基因组序列即可，因此，将有广阔的应用前景。

附图说明

图1为桉树基因组SSR标记序列；

图2为桉树SSR多态性图谱(图中泳道编号分别与表1中品种编号对应)。

具体实施方式

以下结合实施例来进一步解释本发明，但实施例并不对本发明做任何形式的限定。

下述实施例中所使用的实验方法如无特殊说明，均为常规方法。

下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1、高通量获得桉树基因组的SSR标记

一、SSR标记的搜索与引物的设计

l、获取桉树基因组序列

从EucalyptusDB资源数据库（http://eucalyptusdb.bi.up.ac.za/）中下载桉树基因组序列，版本为V1.0 8X，更新时间为2010年7月30日。

2、编写SSR检索程序htmSSR

计算机配置为windows XP，CPU为E2180，内存2G，硬盘 200G。程序采用perl语言编写，perl语言版本为ActivePerl V5.8.8.822。SSR检索程序htmSSR的代码如下所示：

#!/usr/bin/perl

# Author: YZ Lin, et al.

# Time: 18th 12, 2010

# Program name: htmSSR.pl

open (IN,"<$ARGV[0]");

open (OUT,">$ARGV[0].SSR");

print OUT "SSR_No\tID\tSSR nr.\tSSR type\tSSR\tsize\tstart\tend\n";

open (OUT2,">$ARGV[0]. SSR seq");

open (SPECS," htmSSR.ini");

my %typrep;

my $amb = 0;

while (<SPECS>)

{

%typrep = $1 =~ /(\d+)/gi if (/^def\S*\s+(.*)/i);

if (/^int\S*\s+(\d+)/i) {$amb = $1}

};

my typ = sort { $a <=> $b } keys %typrep;

$/ = ">";

my $max_repeats = 1; #count repeats

my $min_repeats = 1000; #count repeats

my (%count_motif,%count_class); #count

my ($number_sequences,$size_sequences,%ssr_containing_seqs);

my $ssr_in_compound = 0;

my ($id,$seq);

while (<IN>)

{

next unless (($id,$seq) = /(.*?)\n(.*)/s);

my ($nr,%start,order,%end,%motif,%repeats);

$seq =~ s/[\d\s>]//g;

$id =~ s/^\s*//g; $id =~ s/\s*$//g;$id =~ s/\s/_/g;

$number_sequences++;

$size_sequences += length $seq;

for ($i=0; $i < scalar(typ); $i++)

{

my $motiflen = $typ[$i];

my $minreps = $typrep{$typ[$i]} - 1;

if ($min_repeats > $typrep{$typ[$i]}) {$min_repeats = $typrep{$typ[$i]}};

my $search = "(([acgt]{$motiflen})\\2{$minreps,})";

while ( $seq =~ /$search/ig ) #scan whole sequence for that class

{

my $motif = uc $2;

my $redundant;

for ($j = $motiflen - 1; $j > 0; $j--)

{

my $redmotif = "([ACGT]{$j})\\1{".($motiflen/$j-1)."}";

$redundant = 1 if ( $motif =~ /$redmotif/ )

};

next if $redundant;

$motif{++$nr} = $motif;

my $ssr = uc $1;

$repeats{$nr} = length($ssr) / $motiflen;

$end{$nr} = pos($seq);

$start{$nr} = $end{$nr} - length($ssr) + 1;

$count_motifs{$motif{$nr}}++;

$motif{$nr}->{$repeats{$nr}}++;

$count_class{$typ[$i]}++;

if ($max_repeats < $repeats{$nr}) {$max_repeats = $repeats{$nr}};

};

next if (!$nr);

$ssr_containing_seqs{$nr}++;

order = sort { $start{$a} <=> $start{$b} } keys %start;

$i = 0;

my $count_seq; #counts

my ($start,$end,$ssrseq,$ssrtype,$size);

while ($i < $nr)

{

my $space = $amb + 1;

if (!$order[$i+1])

{

$count_seq++;

my $motiflen = length ($motif{$order[$i]});

$ssrtype = "p".$motiflen;

$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";

$start = $start{$order[$i]}; $end = $end{$order[$i++]};

if (($start{$order[$i+1]} - $end{$order[$i]}) > $space)

{

$count_seq++;

my $motiflen = length ($motif{$order[$i]});

$ssrtype = "p".$motiflen;

$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";

$start = $start{$order[$i]}; $end = $end{$order[$i++]};

my ($interssr);

if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)

{

$count_seq++; $ssr_in_compound++;

$ssrtype = 'c*';

$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}($motif{$order[$i+1]})$repeats{$order

[$i+1]}*";

$start = $start{$order[$i]}; $end = $end{$order[$i+1]}

}

else

{

$count_seq++; $ssr_in_compound++;

$interssr = lc substr($seq,$end{$order[$i]},($start{$order[$i+1]} - $end{$order[$i]}) - 1);

$ssrtype = 'c';

$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}$interssr($motif{$order[$i+1]})$repeats{$order

[$i+1]}";

$start = $start{$order[$i]}; $end = $end{$order[$i+1]};

};

while ($order[++$i + 1] and (($start{$order[$i+1]} - $end{$order[$i]}) <= $space))

{

if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)

{

$ssr_in_compound++;

$ssrseq .= "($motif{$order[$i+1]})$repeats{$order[$i+1]}*";

$ssrtype = 'c*';

$end = $end{$order[$i+1]}

}

else

{

$ssr_in_compound++;

$ssrseq .= "$interssr($motif{$order[$i+1]})$repeats{$order[$i+1]}";

$end = $end{$order[$i+1]};

}

};

$i++;

}

continue

{

$y++;

$size=$end - $start + 1;

print OUT "SSR_$y\t$id\t$count_seq\t$ssrtype\t$ssrseq\t$size\t$start\t$end\n";

if($start>200){$up=$start-200;}

else{$up=1;}

$down=$end-$up +200;

$start1=200+1;

$seqssr=substr($seq,$up,$down);

print OUT2 ">SSR_$y\t$id\n";

print OUT2 "$seqssr\n";

};

htmSSR程序的运行，还需要一个htmSSR.ini的配置文件，该文件里包含SSR检索的标准。比如在本发明中，搜索的标准为：二核苷酸、三核苷酸、四核苷酸、五核苷酸、六核苷酸重复单元的重复次数分别大于或等于8、5、5、5、5，具体格式如下所示。

definition(unit_size,min_repeats): 2-8 3-5 4-5 5-5 6-5

设置配置文件的优点是，可以根据试验对象的不同，自主设置或随意更改SSR的搜索标准，甚至可以修改进行长片段重复序列的搜索。

3、搜索含有SSR(即简单序列重复)的基因组序列

用编写好的htmSSR程序对步骤1得到的基因组序列进行SSR搜索，得到含有简单重复序列的基因组序列。

程序运行命令为 perl htmSSR.pl input_file.fasta。

4、根据含有SSR的基因组序列进行设计引物

根据SSR侧翼序列设计引物(图1)，得到基因组SSR标记的扩增引物。引物设计参数：扩增产物长度在100-280bp，引物长度在18-25bp。

二、引物多态性检测

(一)材料

所用的植物材料如表1所示，表1中的所有品种均可以从国家林业局桉树研究开发中心获得。

表1、基因组SSR标记多态性验证材料名称及编号

编号	供试材料	编号	供试材料
				1	粗皮桉17848	5	尾叶桉6
2	粗皮桉17860	6	尾叶桉15
				3	大花序桉B47	7	尾叶桉31
4	大花序桉B85

(二)实验方法

l、桉树基因组DNA的提取

采用CTAB法提取植物材料的基因组DNA。

取0.2 g植物材料，加1/10体积的PVPP，液氮研磨成细粉末。加入600μl预热至65℃的2×CTAB提取液（CTAB 2%，PVP 4%，EDTA 25mM，NaCl 2.0M，Tris-HCl 100mM，pH8.0），再加入80μL β-巯基乙醇，颠倒混匀，65 ℃水浴20 min，其间不时摇动。加等体积的氯仿/异戊醇（24:1）颠倒混匀约5 min。室温下，12000 rpm离心10 min。

取上清，加入等体积的氯仿/异戊醇（24:1），混匀，室温12000 rpm离心10 min，重复一次。

取上清，加入2倍体积的无水乙醇，混匀，-20℃下放置30min。室温12000 rpm离心10 min，弃掉上清液。70%乙醇漂洗2次，室温晾干，加入50μl TE溶解沉淀，取2μl 进行1%琼脂糖凝胶电泳，初步检测DNA提取结果。

在其余的DNA溶液中加入2μl RNase（10mg/mL）溶液，37 ℃保温1h。

加入300μl TE溶液和等体积氯仿/异戊醇（24:1），混匀5 min，4 oC，12000 rpm离心15 min。

取上清，加等体积预冷的异丙醇，-20 oC沉淀30 min，4 ℃，12000 rpm离心15 min。

70%乙醇漂洗DNA沉淀2次，室温晾干，加入50 μl TE溶解，电泳检测，-20℃贮存备用。

2、DNA质量检测

采用琼脂糖凝胶电泳检测DNA质量。把溶解好的DNA母液稀释10倍，取出2μ1加入8μ1 0.25％溴酚蓝，在0.8％的琼脂糖凝胶电泳上进行电泳检测，以λDNA(50ng／μ1)作为标准，设置浓度梯度，将待测DNA与λDNA比较产物浓度，确定PCR反应的最适宜浓度。

3、PCR反应体系及程序

采用梯度PCR方法确定引物的最佳退火温度(本研究使用Biorad MJ Mini PCR仪)。采用1.5％的琼脂糖凝胶电泳检测梯度PCR扩增产物。

表2梯度PCR反应体系

Figure 2011101232888100002DEST_PATH_IMAGE001

表3梯度PCR反应程序

步骤	反应过程	温度	反应时间
				Step 1	预变性	94℃	5min
Step 2	变性	94℃	30s
				Step 3	退火	47-62℃	1min
Step 4	延伸	72℃	30s
				Step 5	35 cycles	go to step 2
Step 6	终延伸	72℃	3min

所设计的引物经梯度PCR确定退火温度之后，用特异退火温度PCR对引物多态性验证材料进行扩增，最后采用8％的聚丙烯酰胺凝胶电泳分离扩增产物(100V恒压，电泳约1小时)，确定引物多态性。特异退火温度PCR体系与梯度PCR相同，其反应程序如下：

表4 PCR反应程序

步骤	反应过程	温度	反应时间
				Step 1	预变性	94℃	5min
Step 2	变性	94℃	30s
				Step 3	退火	引物最佳退火温度	1min
Step 4	延伸	72℃	30s
				Step 5	35 cycles	go to step 2
Step 6	终延伸	72℃	3 min

4、电泳检测方法

用8%的非变性聚丙烯酰胺凝胶对部分扩增产物进行电泳（1×TBE，100V恒压1 h），具体步骤如下：

（1）制胶：取29%丙烯酰胺-1%甲叉双丙烯酰胺8mL，2×TBE15mL，10%过硫酸铵(AP)0.21mL,TEMED(四甲基乙二胺)10.5μl，异丙醇(甘油)1.5mL。混匀后迅速倒入胶床，静置1h左右，制成15cm×15cm×1mm的凝胶。在制胶过程中，为确保在灌注聚丙烯酰胺凝胶时无丝毫漏出现象，可以用宽约1.5cm的胶带纸将胶床玻璃板底边缘封贴，防止凝胶泄漏。

（2）电泳：将成形的非变性聚丙烯胺凝胶装配好，在上、下电泳槽中各加入适量的1×TBE电泳缓冲液，PCR产物10μ1混合6×载样缓冲液(二甲苯氰FF0.25%、溴酚蓝0.25%、甘油30%)后上样。在25℃、100V恒压下电泳1h。

（3）固定：电泳结束后取下玻璃板，把玻璃凹口板取下，附着胶体的玻璃板放入固定液中固定30 min (固定液：100mL冰乙酸加水稀释至1000mL)。

(4)水洗：取出固定液中的玻璃板，放入蒸馏水中，水洗5-10 min。

(5)银染：把水洗后的玻璃板放入银染液中染色30 min (银染液：1g AgNO3、1.5mL 37%甲醛,加水至1000mL)，硝酸银见光易分解，因此银染过程中应注意避光。

（6)水洗：蒸馏水水洗2次(每次不超过30s)。

(7)显影：于上步的水洗槽中把玻璃板迅速取出，放入显影液中，进行显影至条带清晰即可，一般不超过5min。(显影液：30g Na2CO3、1. 5mL 37%甲醛、0. 2mL Na2S2O3(10mg/mL)，加水至1000mL)。

(8)固定：待影像清晰后，取出玻璃板，放入固定液中进行固定。

(9)风干：用自来水洗去固定液残留在胶面的酸味，将胶板置于通风处风干后，统计数据。

以获得的多态性引物中的1例为例，说明检测结果。该多态性引物(PRIMER1如SEQ ID NO:2所示，PRIMER2如SEQ ID NO:3所示)由图1的序列设计而来的。

用该引物对表1中所示材料分别进行PCR扩增，进行多态性检测，结果如图2所示。实验设3次重复，均得到相同的结果。图2也就是桉树品种的SSR多态性图谱。

说明本发明标记可以用于构建桉树SSR多态性图谱。

SEQUENCE LISTING

<110> 华南农业大学

<120> 一种从林木基因组中高通量开发SSR标记的方法

<130>

<160> 3

<170> PatentIn version 3.2

<210> 1

<211> 420

<212> DNA

<213> 基因组SSR标记

<400> 1

tacccgggcc caacaaacta aatttcgggc ccatttgacc cgggccgatg ctggcggccc 60

gtgatcgggt cctcgacccg agcgccgacg cgtctagggt ttgcaatagc ttcgcttcgc 120

ctcgcctcgc catctattta actcccctct ttgaccccga tcttacacca caaaaaaacc 180

ctaaatatct tcccgcttct cgtcgtcgtc gtcgtcgtcg attgcagagt tctcagatcc 240

tccatcgtcc ggccggctca tcagcttcga gctcagattg ctgagcattc ggtcgcacgg 300

ctctcgattg ctcgcttctt tcaccccctt tcccgtagcg ctttaggtgg ccggtagcat 360

ctcgctcgag tggcgtgggc ctgtgatgcg taagattgtc cgtaccatct gagacgaccg 420

<210> 2

<211> 20

<212> DNA

<213> PRIMER1

<400> 2

accccgatct tacaccacaa 20

<210> 3

<211> 20

<212> DNA

<213> PRIMER2

<400> 3

ggtgaaagaa gcgagcaatc 20

Claims

1.一种从林木基因组中高通量开发SSR标记的方法，其特征在于包括如下步骤：

（1）从公共序列库中获取林木基因组序列；

（2）开发SSR标记预测程序htmSSR；

（3）将htmSSR程序对步骤（1）的林木基因组进行SSR搜索；

（4）根据搜索到的SSR序列进行引物设计，经引物多态性检测，得到多态性引物，即为基因组SSR标记；

其中，所述程序htmSSR的代码如下所示：

#!/usr/bin/perl

# Author: YZ Lin, et al.

# Time: 18th 12, 2010

# Program name: htmSSR.pl

open (IN,"<$ARGV[0]");

open (OUT,">$ARGV[0].SSR");

print OUT "SSR_No\tID\tSSR nr.\tSSR type\tSSR\tsize\tstart\tend\n";

open (OUT2,">$ARGV[0]. SSR seq");

open (SPECS," htmSSR.ini");

my %typrep;

my $amb = 0;

while (<SPECS>)

{

%typrep = $1 =~ /(\d+)/gi if (/^def\S*\s+(.*)/i);

if (/^int\S*\s+(\d+)/i) {$amb = $1}

};

my typ = sort { $a <=> $b } keys %typrep;

$/ = ">";

my $max_repeats = 1; #count repeats

my $min_repeats = 1000; #count repeats

my (%count_motif,%count_class); #count

my ($number_sequences,$size_sequences,%ssr_containing_seqs);

my $ssr_in_compound = 0;

my ($id,$seq);

while (<IN>)

{

next unless (($id,$seq) = /(.*?)\n(.*)/s);

my ($nr,%start,order,%end,%motif,%repeats);

$seq =~ s/[\d\s>]//g;

$id =~ s/^\s*//g; $id =~ s/\s*$//g;$id =~ s/\s/_/g;

$number_sequences++;

$size_sequences += length $seq;

for ($i=0; $i < scalar(typ); $i++)

{

my $motiflen = $typ[$i];

my $minreps = $typrep{$typ[$i]} - 1;

if ($min_repeats > $typrep{$typ[$i]}) {$min_repeats = $typrep{$typ[$i]}};

my $search = "(([acgt]{$motiflen})\\2{$minreps,})";

while ( $seq =~ /$search/ig ) #scan whole sequence for that class

{

my $motif = uc $2;

my $redundant;

for ($j = $motiflen - 1; $j > 0; $j--)

{

my $redmotif = "([ACGT]{$j})\\1{".($motiflen/$j-1)."}";

$redundant = 1 if ( $motif =~ /$redmotif/ )

};

next if $redundant;

$motif{++$nr} = $motif;

my $ssr = uc $1;

$repeats{$nr} = length($ssr) / $motiflen;

$end{$nr} = pos($seq);

$start{$nr} = $end{$nr} - length($ssr) + 1;

$count_motifs{$motif{$nr}}++;

$motif{$nr}->{$repeats{$nr}}++;

$count_class{$typ[$i]}++;

if ($max_repeats < $repeats{$nr}) {$max_repeats = $repeats{$nr}};

};

next if (!$nr);

$ssr_containing_seqs{$nr}++;

order = sort { $start{$a} <=> $start{$b} } keys %start;

$i = 0;

my $count_seq; #counts

my ($start,$end,$ssrseq,$ssrtype,$size);

while ($i < $nr)

{

my $space = $amb + 1;

if (!$order[$i+1])

{

$count_seq++;

my $motiflen = length ($motif{$order[$i]});

$ssrtype = "p".$motiflen;

$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";

$start = $start{$order[$i]}; $end = $end{$order[$i++]};

if (($start{$order[$i+1]} - $end{$order[$i]}) > $space)

{

$count_seq++;

my $motiflen = length ($motif{$order[$i]});

$ssrtype = "p".$motiflen;

$ssrseq = "($motif{$order[$i]})$repeats{$order[$i]}";

$start = $start{$order[$i]}; $end = $end{$order[$i++]};

my ($interssr);

if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)

{

$count_seq++; $ssr_in_compound++;

$ssrtype = 'c*';

[$i+1]}*";

$start = $start{$order[$i]}; $end = $end{$order[$i+1]}

}

else

{

$count_seq++; $ssr_in_compound++;

$ssrtype = 'c';

[$i+1]}";

$start = $start{$order[$i]}; $end = $end{$order[$i+1]};

};

{

if (($start{$order[$i+1]} - $end{$order[$i]}) < 1)

{

$ssr_in_compound++;

$ssrseq .= "($motif{$order[$i+1]})$repeats{$order[$i+1]}*";

$ssrtype = 'c*';

$end = $end{$order[$i+1]}

}

else

{

$ssr_in_compound++;

$ssrseq .= "$interssr($motif{$order[$i+1]})$repeats{$order[$i+1]}";

$end = $end{$order[$i+1]};

}

};

$i++;

}

continue

{

$y++;

$size=$end - $start + 1;

print OUT "SSR_$y\t$id\t$count_seq\t$ssrtype\t$ssrseq\t$size\t$start\t$end\n";

if($start>200){$up=$start-200;}

else{$up=1;}

$down=$end-$up +200;

$start1=200+1;

$seqssr=substr($seq,$up,$down);

print OUT2 ">SSR_$y\t$id\n";

print OUT2 "$seqssr\n";

};

};。

2.根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法，其特征在于步骤（2）中所述程序htmSSR是利用perl语言开发的，perl语言版本为ActivePerl V5.8.8.822。

3. 根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法，其特征在于步骤（3）中所述SSR搜索的同时也对序列的上下游各200bp进行搜索，供设计引物用。

4. 根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法，其特征在于步骤（4）中所述涉及引物是根据SSR序列，采用生物信息学软件primer3.0进行引物设计。

5. 根据权利要求1所述的从林木基因组中高通量开发SSR标记的方法，其特征在于所述林木为桉树。

6. 一种桉树基因组SSR标记，其序列如SEQ ID NO:1所示。

7. 权利要求6所述基因组SSR标记在构建SSR多态性图谱中的应用。

8. 一种桉树SSR多态性图谱，其特征在于按照如下方法得到：

（1）提取桉树的基因组DNA；

（2）以步骤（1）所述基因组DNA为模板，利用如SEQ ID NO:2和3所示多态性引物进行PCR扩增；

（3）将扩增产物进行聚丙烯酰胺凝胶电泳检测，得到桉树SSR多态性图谱。