CN102542180A - 检测与评价农作物ssr分子标记冗余性的方法 - Google Patents

检测与评价农作物ssr分子标记冗余性的方法 Download PDF

Info

Publication number
CN102542180A
CN102542180A CN2012100201285A CN201210020128A CN102542180A CN 102542180 A CN102542180 A CN 102542180A CN 2012100201285 A CN2012100201285 A CN 2012100201285A CN 201210020128 A CN201210020128 A CN 201210020128A CN 102542180 A CN102542180 A CN 102542180A
Authority
CN
China
Prior art keywords
primer
sequence
molecular labeling
redundancy
ssr molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100201285A
Other languages
English (en)
Inventor
王为
王坤波
刘方
王长彪
王春英
张香娣
王玉红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Original Assignee
Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Cotton Research of Chinese Academy of Agricultural Sciences filed Critical Institute of Cotton Research of Chinese Academy of Agricultural Sciences
Priority to CN2012100201285A priority Critical patent/CN102542180A/zh
Publication of CN102542180A publication Critical patent/CN102542180A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明涉及生物信息学领域,具体地,涉及检测与评价农作物SSR分子标记冗余性的方法。根据本发明的方法同时可以分析一对引物的正向和反向序列冗余性,另外在电泳水平及测序序列水平进行同时验证。现有方法只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。本发明针对以上问题开发了SSR分子标记冗余性大规模分析的脚本程序,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。

Description

检测与评价农作物SSR分子标记冗余性的方法
技术领域
本发明涉及生物信息学领域,具体地,涉及检测与评价农作物SSR分子标记冗余性的方法。
背景技术
SSR分子标记已经在水稻、小麦、玉米、大豆、棉花等物种上被大量开发并得到广泛应用。各种作物基因组测序工作进展迅速,如大豆、玉米、高粱、棉花的雷蒙得氏棉已经测序完成,亚洲棉、陆地棉即将完成。如何处理、分析、利用这些海量数据,高效发掘其中有益信息也是至关重要的,而开发SSR等分子标记引物是一个重要趋势。但是由于不同研究者开发标准不同,同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余。
如何从网上共享信息发掘出有效地、非冗余性、前人遗漏的序列,去开发和现有标记非冗余性的新标记是一个关键问题。不同研究者由于不同的研究目的,不同开发标准,从公共数据库中的序列和自有序列中开发的SSR标记可能存在冗余性,这样大大增加了研究的工作量。为了减少研究的重复性,降低经济成本,需要有相关工具去发掘冗余引物。现有的方法只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,也不能分析序列的反向互补序列,所以没有合适的方法分析一对引物的冗余性。本发明针对以上问题开发了SSR分子标记冗余性大规模分析的方法,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。
利用本发明的方法可以把网上公布的和自己开发的SSR分子标记一起分析,从中得到冗余和非冗余分子标记,减少合成成本和工作量,提高工作效率,提高SSR分子标记的特异性,为进一步基因定位、QTL发掘、遗传图谱的构建和分子标记辅助选择育种奠定坚实的基础。
发明内容
本发明的发明人为了解决上述问题提出并完成了本发明。
根据本发明的检测与评价农作物SSR分子标记冗余性的方法包括以下步骤:
1)SSR分子标记的获得及预处理。例如,根据本发明的具体实施方式,分别从网上下载棉花、大豆、水稻和玉米的SSR分子标记,数量分别为11938对、1015对、18800对和2047对。把下载到的引物转换成“ID forword_primer reverse_prmer”格式,然后通过读取文件的每行$1为引物编号,$2为正向引物,同时计算其长度$1f,$3为正向引物同时计算其长度$1r,然后输出,从而转化成FASTA格式(图1)
2)SSR分子标记相似性检索及相关信息提取,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,利用BLAST(2.2.24-win版)软件(ftp://ftp.ncbi.nih.gov/blast/executables/blast+/2.2.24/)对各个物种的SSR分子标记分别比对,查询相似性序列。所用的主要参数为:-p blastn-a 2-FF-m 8。从得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编,匹配分值计算公式如下:
S = a l × 100 + ( m × ( - 3 ) )
S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数。
相似引物有两种情况:一种是正式匹配,即一对引物和另外一对引物正向序列匹配、反向序列匹配(图2A),另一种反式匹配就是一对引物的正向和另外一对引物的反向序列匹配(图2B)。通过上述方法把这两种情况提取出来得到冗余引物,但是由于在该结果中存在有编号相同但顺序相反的情况,比如:
BNL1047        BNL1061
BNL1061        BNL1047
为了解决这种问题,我们执行下一步,得到没有重复行的结果文件“renum.2”为了我们利用该脚本定义哈希表同时进行排序,取出这种交叉重复,最后实现相似引物写入一行的功能。把所有相似引物写入一行,输出最终结果文件out.list(图1)。
根据本发明的方法同时可以分析一对引物的正向和反向序列冗余性,另外在电泳水平及测序序列水平进行同时验证。现有方法只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。本发明针对以上问题开发了SSR分子标记冗余性大规模分析的脚本程序,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。
根据本发明的具体实施方式,以棉花基因组为例,冗余性软件预测和基因型水平检测有88.8%的吻合度,序列水平和软件预测有75%(53.8%)的吻合度。分别从软件预测、基因型、序列三个水平都说明这一冗余软件和这一冗余性预测方法是有效地,在标记评价、利用及基因组研究具有重要意义。
附图说明
图1为本发明的方法的流程图。
图2显示了两种冗余引物,A:正式匹配,B:反式匹配。
图3显示了冗余引物对TM-1及海7124的部分扩增结果。
具体实施方式
实施例1基于棉花检测与评价SSR分子标记冗余性的方法
1.材料与方法
为了进一步研究引物的冗余性,我们以棉花为例选取了90对引物(引物相似性在81%-100%之间)对棉花基因组(陆地棉标准系TM-1和海岛棉品系海7124)进行扩增。90对SSR引物均选自CMD网站(http://www.cottonmarker.org/),用本发明的方法预测过都存在引物间冗余性(引物相似性阈值设为81%)。大部分是2对引物间存在冗余,也有3对间的冗余性,还有6对间冗余性。具体做法是:2对(3或6对)冗余引物同时以TM-1作模板扩增,看电泳带型是否一致,电泳条带一致的再送去测序。同时以海7124为模板重复一次,作对照。PCR反应用50μl体系(10μl体系各组分扩大十倍),PCR反应5μl用来检测,45μl送去测序。测序时提供了单向引物(每个10μl),由上海生物工程公司完成。序列峰图观看用Chromas软件。
试验设计为:1号引物  2号引物  1号引物  2号引物
            TM-1     TM-1     海7124   海7124
棉花基因组DNA提取选用CTAB法,PCR扩增反应体系为:95℃预变性2min;94℃变性40s、57℃退火45s、72℃延伸60s,共30个循环;72℃延伸7min;4℃保存至结束。PAGE电泳方法:8%的聚丙烯酰胺凝胶电泳检测,采用BIO-RAD公司PowerPac HCTM电泳仪,北京六一仪器厂DYCZ-30电泳槽装置。电泳缓冲液为1×TBE,在扩增产物中加入1.5μL溴酚蓝上样缓冲液混均匀,取1.8μL加入点样孔,190V恒压电泳45min。电泳结束后,银染,后用清水冲洗,在凝胶成像系统上照相并记录基因型数据。
2.结果
软件预测结果:90对引物均是冗余的即100%,然后分别以模板TM-1、海7124扩增共180个PCR反应(图3),电泳检测结果有3种:条带一样、不一样、没结果(没产物)。电泳结果:90对引物,重复两次,5对没有成功扩增,9.5对不一致,(85-9.5)/85=88.8%条带一致,即表明软件预测和基因型水平检测有88.8%的吻合度。
测序结果:180个PCR反应共24个由于浓度低不能成功测序(图3),有16个目的条带有2条或多条,即重叠现象,无法完成测序。在两重复间有一致,也有不一致的,说明TM-1和海7124的在该位点基因组差异。在序列水平表明带型一致的2条或3条或6条相似性在11.47-94.9%变化,参照NCBI网站序列identity阈值分50%、70%来分析。identity阈值为50%,39/52=75%相似性;identity阈值定为70%,28/52=53.8%相似性,分别表明序列水平和软件预测有75%、53.8%的吻合度。分别从软件预测、基因型、序列三个水平都说明这一冗余软件和这一冗余性预测方法是有效地,在标记评价、利用及基因组研究具有重要意义。

Claims (1)

1.检测与评价农作物SSR分子标记冗余性的方法,其特征在于,所述方法包括以下步骤:
1)SSR分子标记的获得及预处理:获得农作物的SSR分子标记,将获得的SSR分子标记引物转换成“ID forword_primer reverse_prmer”格式,然后通过读取文件的每行$1为引物编号,$2为正向引物,同时计算其长度$1f,$3为正向引物同时计算其长度$1r,然后输出,从而转化成FASTA格式;
2)SSR分子标记相似性检索及相关信息提取,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,利用BLAST软件对各个物种的SSR分子标记分别比对,查询相似性序列,所用的主要参数为:-p blastn -a 2 -F F -m 8,从得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编,匹配分值计算公式如下:
S = a l × 100 + ( m × ( - 3 ) )
S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数,
3)取出正式匹配和反式匹配的交叉重复,最后实现相似引物写入一行,输出最终结果文件。
CN2012100201285A 2012-01-24 2012-01-24 检测与评价农作物ssr分子标记冗余性的方法 Pending CN102542180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100201285A CN102542180A (zh) 2012-01-24 2012-01-24 检测与评价农作物ssr分子标记冗余性的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100201285A CN102542180A (zh) 2012-01-24 2012-01-24 检测与评价农作物ssr分子标记冗余性的方法

Publications (1)

Publication Number Publication Date
CN102542180A true CN102542180A (zh) 2012-07-04

Family

ID=46349050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100201285A Pending CN102542180A (zh) 2012-01-24 2012-01-24 检测与评价农作物ssr分子标记冗余性的方法

Country Status (1)

Country Link
CN (1) CN102542180A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1428440A (zh) * 2002-09-27 2003-07-09 天津师范大学 与小麦抗白粉病基因相连锁的分子标记
US20090170712A1 (en) * 2007-12-28 2009-07-02 Pioneer Hi-Bred International, Inc. Using Oligonucleotide Microarrays to Analyze Genomic Differences for the Prediction of Heterosis
CN101619357A (zh) * 2009-07-31 2010-01-06 东北农业大学 一种获得est-ssr标记的方法
CN102156824A (zh) * 2010-12-23 2011-08-17 山西省农业科学院棉花研究所 一种ssr分子标记冗余性的生物信息学分析方法
CN102304511A (zh) * 2011-07-11 2012-01-04 浙江海洋学院 鮸鱼est微卫星标记的特异引物及筛选方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1428440A (zh) * 2002-09-27 2003-07-09 天津师范大学 与小麦抗白粉病基因相连锁的分子标记
US20090170712A1 (en) * 2007-12-28 2009-07-02 Pioneer Hi-Bred International, Inc. Using Oligonucleotide Microarrays to Analyze Genomic Differences for the Prediction of Heterosis
CN101619357A (zh) * 2009-07-31 2010-01-06 东北农业大学 一种获得est-ssr标记的方法
CN102156824A (zh) * 2010-12-23 2011-08-17 山西省农业科学院棉花研究所 一种ssr分子标记冗余性的生物信息学分析方法
CN102304511A (zh) * 2011-07-11 2012-01-04 浙江海洋学院 鮸鱼est微卫星标记的特异引物及筛选方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张俊娥等: "烟草EST-SSR位点分析", 《武汉植物学研究》 *

Similar Documents

Publication Publication Date Title
Pérez-Cobas et al. Metagenomic approaches in microbial ecology: an update on whole-genome and marker gene sequencing analyses
Zielezinski et al. Benchmarking of alignment-free sequence comparison methods
Franzosa et al. Species-level functional profiling of metagenomes and metatranscriptomes
Cuscó et al. Microbiota profiling with long amplicons using Nanopore sequencing: full-length 16S rRNA gene and the 16S-ITS-23S of the rrn operon
Bista et al. Performance of amplicon and shotgun sequencing for accurate biomass estimation in invertebrate community samples
Creer et al. The ecologist's field guide to sequence‐based identification of biodiversity
Poussin et al. Interrogating the microbiome: experimental and computational considerations in support of study reproducibility
Jones et al. jMOTU and taxonerator: turning DNA barcode sequences into annotated operational taxonomic units
Hartman et al. Introducing WATERS: a workflow for the alignment, taxonomy, and ecology of ribosomal sequences
McNichol et al. Evaluating and improving small subunit rRNA PCR primer coverage for bacteria, archaea, and eukaryotes using metagenomes from global ocean surveys
CN102521528A (zh) 一种基因序列数据的筛选方法
Moustafa et al. PhyloSort: a user-friendly phylogenetic sorting tool and its application to estimating the cyanobacterial contribution to the nuclear genome of Chlamydomonas
Dietrich et al. TraV: a genome context sensitive transcriptome browser
Taylor et al. A bioinformatics pipeline for sequence-based analyses of fungal biodiversity
De Carvalho et al. Bioinformatics applied to biotechnology: A review towards bioenergy research
Keerthikumar An introduction to proteome bioinformatics
Valencia et al. LtrDetector: A tool-suite for detecting long terminal repeat retrotransposons de-novo
CN102156824B (zh) 一种ssr分子标记冗余性的生物信息学分析方法
Chivian et al. Metagenome-assembled genome extraction and analysis from microbiomes using KBase
Palù et al. KEMET–A python tool for KEGG Module evaluation and microbial genome annotation expansion
Dubey et al. Role of next-generation sequencing (NGS) in understanding the microbial diversity
Yuan et al. RNA-CODE: a noncoding RNA classification tool for short reads in NGS data lacking reference genomes
Grant Next-Generation Amplicon Sequencing: A cost-effective method for exploring microbial biodiversity
CN108733974B (zh) 一种基于高通量测序的线粒体序列拼接及拷贝数测定的方法
CN102542180A (zh) 检测与评价农作物ssr分子标记冗余性的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120704