CN102156824A - 一种ssr分子标记冗余性的生物信息学分析方法 - Google Patents

一种ssr分子标记冗余性的生物信息学分析方法 Download PDF

Info

Publication number
CN102156824A
CN102156824A CN2010106015820A CN201010601582A CN102156824A CN 102156824 A CN102156824 A CN 102156824A CN 2010106015820 A CN2010106015820 A CN 2010106015820A CN 201010601582 A CN201010601582 A CN 201010601582A CN 102156824 A CN102156824 A CN 102156824A
Authority
CN
China
Prior art keywords
ssr molecular
ssr
file
redundancy
molecular labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106015820A
Other languages
English (en)
Other versions
CN102156824B (zh
Inventor
王长彪
吴慎杰
王为
李朋波
杨六六
姚景珍
董哲生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cotton Research Institute of Shanxi Academy of Agricultural Sciences
Original Assignee
Cotton Research Institute of Shanxi Academy of Agricultural Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cotton Research Institute of Shanxi Academy of Agricultural Sciences filed Critical Cotton Research Institute of Shanxi Academy of Agricultural Sciences
Priority to CN 201010601582 priority Critical patent/CN102156824B/zh
Publication of CN102156824A publication Critical patent/CN102156824A/zh
Application granted granted Critical
Publication of CN102156824B publication Critical patent/CN102156824B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种SSR分子标记冗余性的生物信息学分析方法,包括以下步骤:A1,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;A2,对所述SSR分子标记进行预处理,转化成FASTA格式;A3,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;A4,从A3得到的结果中按照相似匹配分值不低于81%;同时没有gap;来过滤一对引物,然后提取相似引物编号;A5,把所有相似引物写入一行,输出最终结果文件out.list。同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。

Description

一种SSR分子标记冗余性的生物信息学分析方法
技术领域
本发明涉及分子生物技术领域和计算机技术领域,尤其涉及一种SSR分子标记冗余性的生物信息学分析方法。
背景技术
SSR(Simple Sequence Repeat)作为重要的分子标记已经广泛应用于遗传图谱加密、基因定位、基因发掘、遗传多样性分析和分子标记辅助选择育种等研究方面。不同研究者由于不同的研究目的,从公共数据库中的序列和自有序列中开发的SSR标记可能存在冗余性,这样大大增加了研究的工作量。
为了减少研究的重复性,降低经济成本,需要有相关工具去发掘冗余引物。目前,有一些软件可以分析序列的冗余性,比如BLASTclust(BLAST包,http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC TYPE=Download)、CD-HIT(http://www.bioinformatics.org/project/filelist.php?group_id=350)和seqmatchall(EMBOSS包,http://emboss.sourceforge.net/)。这些程序只能分析一对引物的正向或反向引物,不能同时分析一对引物是否冗余,而seqmatchall不能分析序列的反向互补序列,所以没有合适的软件分析一对引物的冗余性。
对SSR研究热度现在处于上升趋势,对SSR标记中的冗余性分析也势在必行,目前没有相关程序分析SSR分析标记。
发明内容
针对以上问题开发了SSR分子标记冗余性大规模分析的方法,方便研究者充分利用网络资源,同时提高研究者的工作效率,为进一步生物学研究奠定基础。具体是本发明提供一种SSR分子标记冗余性的生物信息学分析方法。
一种SSR分子标记冗余性的生物信息学分析方法,包括以下步骤:
A1,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;
A2,对脚本进行预处理,转化成FASTA格式;
A3,把处理好的FASTA文件备份一个文件,后缀名为“.bk”,使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;
A4,从A3得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编号;
A5,把所有相似引物写入一行,输出最终结果文件out.list。
所述的生物信息学分析方法,步骤A4利用extr_ps2.pl脚本从A3得到的结果中按照相似匹配分值不低于81%同时没有gap过滤一对引物,然后提取相似引物编号;匹配分值计算公式如下:
S = a l × 100 + ( m × ( - 3 ) )
S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数。
SSR分子标记已经在水稻、小麦、玉米、玫瑰、棉花、金针菇、橡胶树、柳树和豇豆等物种上被大量开发并得到广泛应用。但是由于不同研究者开发标准不同,同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。
附图说明
图1:SSR分子标记冗余性分析方法流程图;
图2:两种冗余引物。A:正式匹配;B:反式匹配。
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
为了解决SSR分子标记的冗余性,利用生物信息学方法,开发了一种SSR分子标记冗余性的生物信息学分析方法,具体做法如下(见图1):
1、下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记,格式为“ID forword_primer reverse_prmer”;
2、利用pre_fasta2.pl脚本,该脚本用来对所述SSR分子标记或者自己开发的SSR分子标记进行预处理,转化成FASTA格式,生成的文件格式如下:
>BNL1047_f_20
GCTTGTCATCTCCATTGCTG
>BNL1047_r_20
TAGCCCGGTTCATGTTCTTC
一对引物分成正向和反向,其中f表示正向,r表示反向,后面的数值表示该引物序列的长度。具体原理是:
读取文件的每行$$1为引物编号,$2为正向引物,同时计算其长度$lf,$3为正向引物同时计算其长度$lr,然后按照上面的格式输出。
3、把处理好的FASTA文件备份一个文件,后缀名为“.bk”,作为输入文件(-iprimer.fasta.bk),原文件作为数据库文件(-dprimer.fasta)。利用BLAST(2.2.24-win版)软件(ftp://ftp.ncbi.nih.gov/blast/executables/blast+/2.2.24/)对各个物种的SSR分子标记分别比对,查询相似性序列。所用的主要参数为:-p blastn-a 2-F F-m 8。
4、利用extr_ps2.pl脚本,该脚本功能是从得到的结果中按照相似匹配分值不低于81%,同时没有gap,来过滤一对引物,然后提取相似引物编号。匹配分值计算公式如下:
S = a l × 100 + ( m × ( - 3 ) )
S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数。
相似引物有两种情况。一种是正式匹配即一对引物和另外一对引物正向序列匹配、反向序列匹配(图2A),另一种反式匹配就是一对引物的正向和另外一对引物的反向序列匹配(图2B)。利用该脚本把这两种情况提取出来得到冗余引物,但是由于在该结果中存在有编号相同但顺序相反的情况,比如:
BNL1047    BNL1061
BNL1061    BNL1047
为了解决这种问题,我们利用哈希表得到没有重复行的结果文件“renum.2”。
5、利用redu_num.pl脚本,该脚本功能是把所有相似引物写入一行,输出最终结果文件out.list。
在上一步得到的renum.2结果文件中,存在交叉重复,比如:
BNL3512    BNL4060
BNL3512    BNL3547
BNL3547    BNL4060
上面显示结果表面BNL3512、BNL4060和BNL3547是相似序列,为了更好的处理这种重复,我们利用该脚本定义哈希表同时进行排序,最后实现相似引物写入一行的功能。
利用该方法(流程图见图1),分析了棉花、大豆、水稻和玉米的SSR分子标记。棉花、大豆、水稻和玉米的SSR分子标记分别从CMD(http://www.cottonmarker.org)、Soybase(http://soybase.org/MarkerDB/index.php)、GRAMENE(http://www.gramene.org/markers/microsat/)和MaizeGDB(http://www.maizegdb.org/sequence.php)下载,数量分别为11938对、1015对、18800对和2047对。我们利用该套脚本程序分析SSR冗余标记,在棉花、大豆、水稻和玉米中分别有494(4.14%)、0(0.00%)、2338(12.36%)和30(1.45%)对冗余标记(表1)。所有的冗余SSR引物中棉花、玉米和水稻的正式与反式匹配数分别是170/119、11/4和3640/2414(表2)。
表1:SSR标记冗余性分布
表2:SSR引物对冗余性类型
Figure BSA00000395703500052
冗余标记的发掘可以在进行SSR标记研究时去除,减少研究者的工作量和合成成本。
SSR分子标记已经在水稻、小麦、玉米、玫瑰、棉花、金针菇、橡胶树、柳树和豇豆等物种上被大量开发并得到广泛应用。但是由于不同研究者开发标准不同,同一研究者开发时间不同造成在同一物种中开发的SSR分子标记存在有冗余,利用本发明的方法可以达到去冗余的目的。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (2)

1.一种SSR分子标记冗余性的生物信息学分析方法,其特征在于,包括以下步骤:
A1,下载公共数据库中的相关SSR分子标记或者自己开发的SSR分子标记;
A2,对所述SSR分子标记进行预处理,转化成FASTA格式;
A3,把处理好的FASTA文件备份一个文件,使用该备份文件作为输入,对各个物种的SSR分子标记分别比对,查询相似性序列;
A4,从A3得到的结果中按照相似匹配分值不低于81%;同时没有gap;来过滤一对引物,然后提取相似引物编号;
A5,把所有相似引物写入一行,输出最终结果文件out.list。
2.根据权利要求1所述的生物信息学分析方法,其特征在于,步骤A4中匹配分值计算公式如下:
S = a l × 100 + ( m × ( - 3 ) )
S:匹配分值;a:查询序列和目标序列匹配上的序列长度(bp);l:目标序列长度(bp);m:错配个数。
CN 201010601582 2010-12-23 2010-12-23 一种ssr分子标记冗余性的生物信息学分析方法 Expired - Fee Related CN102156824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010601582 CN102156824B (zh) 2010-12-23 2010-12-23 一种ssr分子标记冗余性的生物信息学分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010601582 CN102156824B (zh) 2010-12-23 2010-12-23 一种ssr分子标记冗余性的生物信息学分析方法

Publications (2)

Publication Number Publication Date
CN102156824A true CN102156824A (zh) 2011-08-17
CN102156824B CN102156824B (zh) 2013-06-12

Family

ID=44438318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010601582 Expired - Fee Related CN102156824B (zh) 2010-12-23 2010-12-23 一种ssr分子标记冗余性的生物信息学分析方法

Country Status (1)

Country Link
CN (1) CN102156824B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495977A (zh) * 2011-12-13 2012-06-13 中国农业科学院烟草研究所 生物基因组简单重复序列的发掘方法及设备
CN102542180A (zh) * 2012-01-24 2012-07-04 中国农业科学院棉花研究所 检测与评价农作物ssr分子标记冗余性的方法
CN102637244A (zh) * 2011-12-31 2012-08-15 苏州金唯智生物科技有限公司 生物序列分析平台及其使用方法
CN103468805A (zh) * 2013-09-11 2013-12-25 山西省农业科学院棉花研究所 用于鉴定哈克尼西棉胞质不育纯合恢复系的标记及方法
CN111471791A (zh) * 2020-04-28 2020-07-31 黑龙江八一农垦大学 一种大豆dna指纹图谱构建方法及其应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101671730A (zh) * 2009-09-28 2010-03-17 浙江省农业科学院 一种快速检测长豇豆品种种子纯度的方法及其试剂盒
CN101684481A (zh) * 2009-03-30 2010-03-31 电子科技大学 丹参est-ssr分子标记的制备方法、特异引物及其应用

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101684481A (zh) * 2009-03-30 2010-03-31 电子科技大学 丹参est-ssr分子标记的制备方法、特异引物及其应用
CN101671730A (zh) * 2009-09-28 2010-03-17 浙江省农业科学院 一种快速检测长豇豆品种种子纯度的方法及其试剂盒

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蔺宇 等: "适用于大豆疫霉菌遗传分析的新EST-SSR 标记", 《中国农业科学》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495977A (zh) * 2011-12-13 2012-06-13 中国农业科学院烟草研究所 生物基因组简单重复序列的发掘方法及设备
CN102495977B (zh) * 2011-12-13 2015-05-27 中国农业科学院烟草研究所 生物基因组简单重复序列的发掘方法及设备
CN102637244A (zh) * 2011-12-31 2012-08-15 苏州金唯智生物科技有限公司 生物序列分析平台及其使用方法
CN102542180A (zh) * 2012-01-24 2012-07-04 中国农业科学院棉花研究所 检测与评价农作物ssr分子标记冗余性的方法
CN103468805A (zh) * 2013-09-11 2013-12-25 山西省农业科学院棉花研究所 用于鉴定哈克尼西棉胞质不育纯合恢复系的标记及方法
CN111471791A (zh) * 2020-04-28 2020-07-31 黑龙江八一农垦大学 一种大豆dna指纹图谱构建方法及其应用

Also Published As

Publication number Publication date
CN102156824B (zh) 2013-06-12

Similar Documents

Publication Publication Date Title
Chen et al. TBtools, a toolkit for biologists integrating various biological data handling tools with a user-friendly interface
Nevill et al. Large scale genome skimming from herbarium material for accurate plant identification and phylogenomics
Lobet et al. Root system markup language: toward a unified root architecture description language
CN102156824B (zh) 一种ssr分子标记冗余性的生物信息学分析方法
Anslan et al. Great differences in performance and outcome of high-throughput sequencing data analysis platforms for fungal metabarcoding
Nilsson et al. Molecular identification of fungi: rationale, philosophical concerns, and the UNITE database
Saha et al. Computational approaches and tools used in identification of dispersed repetitive DNA sequences
He et al. ReSeqTools: an integrated toolkit for large-scale next-generation sequencing based resequencing analysis
Remita et al. A novel comprehensive wheat miRNA database, including related bioinformatics software
Silva et al. Geminivirus data warehouse: a database enriched with machine learning approaches
Blischak et al. Fluidigm2 PURC: Automated processing and haplotype inference for double‐barcoded PCR amplicons
Leray et al. Visualizing patterns of marine eukaryotic diversity from metabarcoding data using QIIME
Kraberger et al. Novel mastreviruses identified in Australian wild rice
Rane et al. Orthonome–a new pipeline for predicting high quality orthologue gene sets applicable to complete and draft genomes
CN101256594A (zh) 一种图结构相似度测量方法及其系统
Van Etten et al. A k-mer-based approach for phylogenetic classification of taxa in environmental genomic data
Jiang Overview of repeat annotation and de novo repeat identification
Hunt et al. A protocol for large-scale rRNA sequence analysis: towards a detailed phylogeny of Coleoptera
Ding et al.  Comparative mitogenomics and phylogenetic analyses of the genus Menida (Hemiptera, Heteroptera, Pentatomidae)
Vuong et al. From rags to enriched: metagenomic insights into ammonia‐oxidizing archaea following ammonia enrichment of a denuded oligotrophic soil ecosystem
Nilsson et al. A note on the incidence of reverse complementary fungal ITS sequences in the public sequence databases and a software tool for their detection and reorientation
Baum et al. Are the Great Plains wildrye (Elymus canadensis) and the Siberian wildrye (Elymus sibiricus) conspecific? A study based on the nuclear 5S rDNA sequences
Yu et al. A computational method of predicting regulatory interactions in Arabidopsis based on gene expression data and sequence information
Liu et al. The complete chloroplast genome sequence of endangered camellias (Camellia pubifurfuracea)
Ince et al. Digital differential display tools for mining microsatellite containing organism, organ and tissue

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB03 Change of inventor or designer information

Inventor after: Wang Changbiao

Inventor after: Wu Shenjie

Inventor after: Wang Juan

Inventor after: Wang Wei

Inventor after: Li Pengbo

Inventor after: Yang Liuliu

Inventor after: Yao Jingzhen

Inventor after: Dong Zhesheng

Inventor before: Wang Changbiao

Inventor before: Wu Shenjie

Inventor before: Wang Wei

Inventor before: Li Pengbo

Inventor before: Yang Liuliu

Inventor before: Yao Jingzhen

Inventor before: Dong Zhesheng

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: WANG CHANGBIAO WU SHENJIE WANG WEI LI PENGBO YANG LIULIU YAO JINGZHEN DONGZHESHENG TO: WANG CHANGBIAO WU SHENJIE WANG JUAN WANG WEI LI PENGBO YANG LIULIU YAO JINGZHEN DONG ZHESHENG

C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130612

Termination date: 20131223