CN102495977B - 生物基因组简单重复序列的发掘方法及设备 - Google Patents

生物基因组简单重复序列的发掘方法及设备 Download PDF

Info

Publication number
CN102495977B
CN102495977B CN201110414015.9A CN201110414015A CN102495977B CN 102495977 B CN102495977 B CN 102495977B CN 201110414015 A CN201110414015 A CN 201110414015A CN 102495977 B CN102495977 B CN 102495977B
Authority
CN
China
Prior art keywords
ssr
motif
sequence
regular expression
biological genome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110414015.9A
Other languages
English (en)
Other versions
CN102495977A (zh
Inventor
任民
王志德
刘艳华
张兴伟
牟建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tobacco Research Institute of CAAS
Original Assignee
Tobacco Research Institute of CAAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tobacco Research Institute of CAAS filed Critical Tobacco Research Institute of CAAS
Priority to CN201110414015.9A priority Critical patent/CN102495977B/zh
Publication of CN102495977A publication Critical patent/CN102495977A/zh
Application granted granted Critical
Publication of CN102495977B publication Critical patent/CN102495977B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种生物基因组简单重复序列的发掘方法,其特征在于,包括以下步骤:根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则输出所述目标SSR;如果判断结果为否,则显示所述待分析序列中不存在所述目标SSR的信息。因此,本发明提供的生物基因组简单重复序列的发掘方法及设备,在对SSR发掘过程中,不会产生冗余结果,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。

Description

生物基因组简单重复序列的发掘方法及设备
技术领域
本发明涉及SSR挖掘技术领域,特别涉及一种生物基因组简单重复序列的发掘方法及设备。
背景技术
SSR(Simple Sequence Repeats,简单重复序列)是指DNA分子中1~5个核苷酸的串联重复。SSR以其在动植物基因组随机分布、高信息量和多态性、共显性和孟德尔遗传等优点,在遗传图谱的构建、遗传多样性分析、亲缘关系鉴定、DNA指纹图谱构建和功能基因标记等方面具有公认的优越性和应用前景。
目前,已有的SSR发掘算法多基于字符串发掘,然后再利用统计分析的方法去除冗余,基本包括以下三步:首先在SSR定义的范围内枚举所有可能的碱基组合,其次每种碱基组合依次进行字符串发掘,最后去掉冗余的发掘结果。所谓冗余主要是指以下3种情况,1、重复统计,例如一段SSR序列AGAGAGAGAG在发掘AG、AGAG......AGAGAGAGAG时会被重复统计5次;2、移码重复,例如(CT)5=CTCTCTCTCT=TCTCTCTCTC=(TC)5;3、约数重复,例如(ATAT)n=(AT)2n。另外,对于形如AAA...AA或者TTT...TT的序列,由于该种序列虽然符合SSR的定义,但是在实际工作中并不被采纳,所以还需要将该种序列去除。
已报道的一些SSR发掘软件均依据上述算法而开发,例如SSR MINING1.0[1]就是首先根据ATCG四种碱基,利用排列组合的原理生成一个初步的单元库,然后去除冗余部分;SSR Hunter[2]是首先通过嵌套循环的方法获得以A、T、C、G为元件,长度分别为2、3、4、5、6个碱基的所有的排列组合。然后用前面生成的每一种重复单元的类型搜索基因组序列,把所有符合条件的序列保存在数组中,最后再对这个序列进行去冗余分析。
可见,在现有SSR发掘方法中,在SSR发掘的过程中会产生大量的冗余结果,因此为了得到正确的分析结果,必须对发掘结果去冗余。虽然不同的软件采用的去冗余策略各不相同,但是发掘过程均较为复杂和繁琐,需要大量的统计分析和逻辑运算,至今未见有一种无冗余的分析算法。
发明内容
针对现有技术存在的缺陷,本发明提供一种生物基因组简单重复序列的发掘方法及设备,在对SSR发掘过程中,不会产生冗余结果,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
本发明采用的技术方案如下:
本发明提供一种生物基因组简单重复序列的发掘方法,包括以下步骤:
根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则输出所述目标SSR;如果判断结果为否,则显示所述待分析序列中不存在所述目标SSR的信息。
优选的,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
优选的,所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
优选的,在所述判断结果为是,之后还包括:
进一步判断所述目标SSR是否由单一碱基组成,如果判断结果为是,则删除所述目标SSR,如果判断结果为否,则输出所述目标SSR。
本发明还提供一种生物基因组简单重复序列的发掘设备,包括:
构建模块:用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
第一判断模块:用于通过所述构建模块构建的所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述构建模块构建的所述正则表达式要求的目标SSR;
输出模块:用于当所述第一判断模块的判断结果为是时,输出所述目标SSR;
显示模块:用于当所述第一判断模块的判断结果为否时,显示所述待分析序列中不存在所述目标SSR的信息。
优选的,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
优选的,所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
优选的,还包括:第二判断模块和删除模块;
所述第二判断模块用于:当所述第一判断模块判断存在符合所述正则表达式要求的目标SSR时,进一步判断所述目标SSR是否由单一碱基组成;
所述删除模块用于:当所述第二判断模块的判断结果为是时,删除所述目标SSR;
所述输出模块还用于:当所述第二判断模块的判断结果为否时,输出所述目标SSR。
本发明的有益效果如下:
本发明提供一种生物基因组简单重复序列的发掘方法及设备,在对SSR发掘过程中,不会产生冗余结果,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
附图说明
图1为本发明实施例提供的生物基因组简单重复序列的发掘方法的流程示意图;
图2为本发明实施例提供的生物基因组简单重复序列的发掘设备的结构示意图。
具体实施方式
如图1所示,为本发明实施例提供的生物基因组简单重复序列的发掘方法的流程示意图,包括以下步骤:
步骤101,根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
其中,需要发掘的生物基因组简单重复序列SSR的特征包括:
需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
构建的正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
本领域技术人员公知,正则表达式是由普通字符以及特殊字符组成的文字模式,其中,普通字符和特殊字符中各字符代表的含义均有标准规定,本发明提供的正则表达式中,各符号代表的含义与标准规定一致,从而具有通用性强的优点。
例如:如果需要发掘基序长度为1-6个碱基,至少重复5次的SSR,则:基序的最小长度信息为1、基序的最大长度信息为6、基序的最少再重复次数信息为4次,因此,根据上述信息,构建的正则表达式的形式为:(.{1,6}?)(\1){4,}。
步骤102,通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则执行步骤103;如果判断结果为否,则执行步骤104;
步骤103,输出所述目标SSR。
步骤104,显示所述待分析序列中不存在所述目标SSR的信息。
步骤102-104的处理过程举例如下:
如果待分析序列为“ATGTGTGTGTGTGTTG”,其中,“A”代表腺嘌呤;“T”代表胸腺嘧啶;“G”代表鸟嘌呤;如果需要从该待分析序列中发掘基序最大长度为6、基序最小长度为1、至少重复5次的SSR,则构建以下正则表达式:(.{1,6}?)(\1){4,},使用Python语言写成的与上述正则表达式对应的代码为:for m in re.compile(r′(.{1,6})(\1){4,}′).finditer(′ATGTGTGTGTGTGTTG′):printm.group()
将上述代码在Python控制台中输入后,将返回如下结果:TGTGTGTGTG。这个返回结果即为待分析序列中的目标SSR。如果在待分析序列中存在多个符合正则表达式要求的目标SSR,则将以多行显示的方式显示各个目标SSR,其中,每行为一个发掘到的目标SSR。
另外,作为一种可选方式,在步骤102中,在判断所述待分析序列中存在符合所述正则表达式要求的目标SSR,之后还可以包括:
步骤105,进一步判断所述目标SSR是否由单一碱基组成,如果判断结果为是,则执行步骤106,如果判断结果为否,则执行步骤103。
步骤106,,删除所述目标SSR。
通过步骤105-106,去除了目标SSR中由单一碱基构成的SSR,也就是说,最终输出的目标SSR中不存在由单一碱基构成的SSR,这种处理方法的主要目的在于:由单一碱基构成的SSR在实际应用中通常不被采用。
因此,本发明提供的生物基因组简单重复序列的发掘方法,在对SSR发掘过程中,不会产生冗余结果,通过正则表达式的匹配直接输出需要的SSR,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
如图2所示,为本发明提供的一种生物基因组简单重复序列的发掘设备的结构示意图,包括:
构建模块21:用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
其中,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
第一判断模块22:用于通过构建模块21构建的所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合构建模块21构建的所述正则表达式要求的目标SSR;
输出模块23:用于当第一判断模块22的判断结果为是时,输出所述目标SSR;
显示模块24:用于当第一判断模块22的判断结果为否时,显示所述待分析序列中不存在所述目标SSR的信息。
还包括:第二判断模块25和删除模块26;
第二判断模块25用于:当第一判断模块22判断存在符合所述正则表达式要求的目标SSR时,进一步判断所述目标SSR是否由单一碱基组成;
删除模块26用于:当第二判断模块25的判断结果为是时,删除所述目标SSR;
输出模块23还用于:当第二判断模块25的判断结果为否时,输出所述目标SSR。
综上所述,本发明提供的生物基因组简单重复序列的发掘方法和设备,在对SSR发掘过程中,不会产生冗余结果,通过正则表达式的匹配直接输出需要的SSR,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (4)

1.一种生物基因组简单重复序列的发掘方法,其特征在于,包括以下步骤:
根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则输出所述目标SSR;如果判断结果为否,则显示所述待分析序列中不存在所述目标SSR的信息;
其中,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元;
其中,所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
2.根据权利要求1所述的生物基因组简单重复序列的发掘方法,其特征在于,在所述判断结果为是,之后还包括:
进一步判断所述目标SSR是否由单一碱基组成,如果判断结果为是,则删除所述目标SSR,如果判断结果为否,则输出所述目标SSR。
3.一种生物基因组简单重复序列的发掘设备,其特征在于,包括:
构建模块:用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
第一判断模块:用于通过所述构建模块构建的所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述构建模块构建的所述正则表达式要求的目标SSR;
输出模块:用于当所述第一判断模块的判断结果为是时,输出所述目标SSR;
显示模块:用于当所述第一判断模块的判断结果为否时,显示所述待分析序列中不存在所述目标SSR的信息;
其中,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元;
其中,所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
4.根据权利要求3所述的生物基因组简单重复序列的发掘设备,其特征在于,还包括:第二判断模块和删除模块;
所述第二判断模块用于:当所述第一判断模块判断存在符合所述正则表达式要求的目标SSR时,进一步判断所述目标SSR是否由单一碱基组成;
所述删除模块用于:当所述第二判断模块的判断结果为是时,删除所述目标SSR;
所述输出模块还用于:当所述第二判断模块的判断结果为否时,输出所述目标SSR。
CN201110414015.9A 2011-12-13 2011-12-13 生物基因组简单重复序列的发掘方法及设备 Expired - Fee Related CN102495977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110414015.9A CN102495977B (zh) 2011-12-13 2011-12-13 生物基因组简单重复序列的发掘方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110414015.9A CN102495977B (zh) 2011-12-13 2011-12-13 生物基因组简单重复序列的发掘方法及设备

Publications (2)

Publication Number Publication Date
CN102495977A CN102495977A (zh) 2012-06-13
CN102495977B true CN102495977B (zh) 2015-05-27

Family

ID=46187802

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110414015.9A Expired - Fee Related CN102495977B (zh) 2011-12-13 2011-12-13 生物基因组简单重复序列的发掘方法及设备

Country Status (1)

Country Link
CN (1) CN102495977B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158056A1 (en) * 2000-05-15 2001-11-28 Keygene N.V. Microsatellite-AFLP
WO2004013727A2 (en) * 2002-08-02 2004-02-12 Rosetta Inpharmatics Llc Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
CN102156824A (zh) * 2010-12-23 2011-08-17 山西省农业科学院棉花研究所 一种ssr分子标记冗余性的生物信息学分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6733965B2 (en) * 1999-01-15 2004-05-11 International Paper Company Microsatellite DNA markers and uses thereof

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1158056A1 (en) * 2000-05-15 2001-11-28 Keygene N.V. Microsatellite-AFLP
WO2004013727A2 (en) * 2002-08-02 2004-02-12 Rosetta Inpharmatics Llc Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits
CN102156824A (zh) * 2010-12-23 2011-08-17 山西省农业科学院棉花研究所 一种ssr分子标记冗余性的生物信息学分析方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
An althorithm for approximate tandem repeats;Gad M.Landau,et al.;《Journal of computational Biology》;20011231;第8卷(第1期);1-18 *
Approximate mathching of regular expressions;Eugene W.Myers, et al.;《Bulletin of Mathematical Biology》;Pergamon Press plc;19891231;第51卷(第1期);5-37 *
Beyond tandem repeats:complex pattern structures and distant regions of similarity;Amy M.Hauth,et al.;《BIOINFORMATICS》;Oxford University Press;20021231;第18卷(第1期);S31-S37 *
Characterization of EST-SSRs in lobby pine and spruce;Yanik berube,et al.;《Tree Genetics & Genomes》;Springer;20061026(第3期);251-259 *
Detecting short tandem repeats from genome data:opening the software black box;Angelika Merkel,et al;《BRIEFINGS IN BIOINFORMATICS》;Oxford University Press;20080710;第9卷(第5期);355-366 *
Gary Benson.Tandem repeats finder:a program to analyze DNA sequences.《Nucleic Acids Research》.Oxford University Press,1999,第27卷(第2期), *
Genic microsatellite marker in plants:features and applications;Rajeev K.varshney,et al.;《Trends in Biotechnology》;elsevier;20050131;第23卷(第1期);48-54 *
利用正则表达式进行查找/替换;翟自洋等;《中国科技期刊研究》;20090115;第20卷(第1期);122-126 *
在C#中利用正则表达式实现字符串搜索功能;张志远;《电脑编程技巧与维护》;20051003(第10期);29-41 *
普通烟草种质资源的SSR标记与指纹图谱分析;徐军等;《中国烟草科学》;20110430;第32卷(第2期);62-65 *

Also Published As

Publication number Publication date
CN102495977A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
Straub et al. Navigating the tip of the genomic iceberg: Next‐generation sequencing for plant systematics
US20210317444A1 (en) System and method for gene editing cassette design
Powell et al. Empirical evaluation of partitioning schemes for phylogenetic analyses of mitogenomic data: an avian case study
Grover et al. Searching microsatellites in DNA sequences: approaches used and tools developed
Sankoff Rearrangements and chromosomal evolution
CN107345256A (zh) 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用
CN104313146A (zh) 一种开发基因组ssr分子标记的方法
CN101056993A (zh) 用于转录作图的基因识别标签(gis)分析方法
Ikeda et al. Enhanced A∗ algorithms for multiple alignments: optimal alignments for several sequences and k-opt approximate alignments for large cases
Landau et al. Gene proximity analysis across whole genomes via PQ trees1
CN103093118B (zh) 一种系统进化树的重建方法
Chen et al. Recent advances in sequence assembly: principles and applications
Rogozin et al. Dollo parsimony and the reconstruction of genome evolution
CN102495977B (zh) 生物基因组简单重复序列的发掘方法及设备
CN107058298B (zh) 一种基于人工减数分裂的辅助基因组组装方法
Landau et al. Using PQ trees for comparative genomics
Schbath et al. R'MES: a tool to find motifs with a significantly unexpected frequency in biological sequences
US7881874B2 (en) Method and system for comparative genomics
Levy et al. Xlandscape: the graphical display of word frequencies in sequences.
Jombart et al. Analysing genome-wide SNP data using adegenet 2.0. 0
Hoef-Emden Molecular phylogenetic analyses and real-life data
Sridhar et al. Optimal imperfect phylogeny reconstruction and haplotyping (IPPH)
Coombe et al. Multi-genome synteny detection using minimizer graph mappings
Sharma et al. Algorithmic and computational comparison of metagenome assemblers
Sirotkin et al. Simulation and analysis of physical mapping

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150527

Termination date: 20161213

CF01 Termination of patent right due to non-payment of annual fee