CN102495977A - 生物基因组简单重复序列的发掘方法及设备 - Google Patents
生物基因组简单重复序列的发掘方法及设备 Download PDFInfo
- Publication number
- CN102495977A CN102495977A CN2011104140159A CN201110414015A CN102495977A CN 102495977 A CN102495977 A CN 102495977A CN 2011104140159 A CN2011104140159 A CN 2011104140159A CN 201110414015 A CN201110414015 A CN 201110414015A CN 102495977 A CN102495977 A CN 102495977A
- Authority
- CN
- China
- Prior art keywords
- ssr
- motif
- gene group
- target
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种生物基因组简单重复序列的发掘方法,其特征在于,包括以下步骤:根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则输出所述目标SSR;如果判断结果为否,则显示所述待分析序列中不存在所述目标SSR的信息。因此,本发明提供的生物基因组简单重复序列的发掘方法及设备,在对SSR发掘过程中,不会产生冗余结果,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
Description
技术领域
本发明涉及SSR挖掘技术领域,特别涉及一种生物基因组简单重复序列的发掘方法及设备。
背景技术
SSR(Simple Sequence Repeats,简单重复序列)是指DNA分子中1~5个核苷酸的串联重复。SSR以其在动植物基因组随机分布、高信息量和多态性、共显性和孟德尔遗传等优点,在遗传图谱的构建、遗传多样性分析、亲缘关系鉴定、DNA指纹图谱构建和功能基因标记等方面具有公认的优越性和应用前景。
目前,已有的SSR发掘算法多基于字符串发掘,然后再利用统计分析的方法去除冗余,基本包括以下三步:首先在SSR定义的范围内枚举所有可能的碱基组合,其次每种碱基组合依次进行字符串发掘,最后去掉冗余的发掘结果。所谓冗余主要是指以下3种情况,1、重复统计,例如一段SSR序列AGAGAGAGAG在发掘AG、AGAG......AGAGAGAGAG时会被重复统计5次;2、移码重复,例如(CT)5=CTCTCTCTCT=TCTCTCTCTC=(TC)5;3、约数重复,例如(ATAT)n=(AT)2n。另外,对于形如AAA...AA或者TTT...TT的序列,由于该种序列虽然符合SSR的定义,但是在实际工作中并不被采纳,所以还需要将该种序列去除。
已报道的一些SSR发掘软件均依据上述算法而开发,例如SSR MINING1.0[1]就是首先根据ATCG四种碱基,利用排列组合的原理生成一个初步的单元库,然后去除冗余部分;SSR Hunter[2]是首先通过嵌套循环的方法获得以A、T、C、G为元件,长度分别为2、3、4、5、6个碱基的所有的排列组合。然后用前面生成的每一种重复单元的类型搜索基因组序列,把所有符合条件的序列保存在数组中,最后再对这个序列进行去冗余分析。
可见,在现有SSR发掘方法中,在SSR发掘的过程中会产生大量的冗余结果,因此为了得到正确的分析结果,必须对发掘结果去冗余。虽然不同的软件采用的去冗余策略各不相同,但是发掘过程均较为复杂和繁琐,需要大量的统计分析和逻辑运算,至今未见有一种无冗余的分析算法。
发明内容
针对现有技术存在的缺陷,本发明提供一种生物基因组简单重复序列的发掘方法及设备,在对SSR发掘过程中,不会产生冗余结果,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
本发明采用的技术方案如下:
本发明提供一种生物基因组简单重复序列的发掘方法,包括以下步骤:
根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则输出所述目标SSR;如果判断结果为否,则显示所述待分析序列中不存在所述目标SSR的信息。
优选的,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
优选的,所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
优选的,在所述判断结果为是,之后还包括:
进一步判断所述目标SSR是否由单一碱基组成,如果判断结果为是,则删除所述目标SSR,如果判断结果为否,则输出所述目标SSR。
本发明还提供一种生物基因组简单重复序列的发掘设备,包括:
构建模块:用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
第一判断模块:用于通过所述构建模块构建的所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述构建模块构建的所述正则表达式要求的目标SSR;
输出模块:用于当所述第一判断模块的判断结果为是时,输出所述目标SSR;
显示模块:用于当所述第一判断模块的判断结果为否时,显示所述待分析序列中不存在所述目标SSR的信息。
优选的,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
优选的,所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
优选的,还包括:第二判断模块和删除模块;
所述第二判断模块用于:当所述第一判断模块判断存在符合所述正则表达式要求的目标SSR时,进一步判断所述目标SSR是否由单一碱基组成;
所述删除模块用于:当所述第二判断模块的判断结果为是时,删除所述目标SSR;
所述输出模块还用于:当所述第二判断模块的判断结果为否时,输出所述目标SSR。
本发明的有益效果如下:
本发明提供一种生物基因组简单重复序列的发掘方法及设备,在对SSR发掘过程中,不会产生冗余结果,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
附图说明
图1为本发明实施例提供的生物基因组简单重复序列的发掘方法的流程示意图;
图2为本发明实施例提供的生物基因组简单重复序列的发掘设备的结构示意图。
具体实施方式
如图1所示,为本发明实施例提供的生物基因组简单重复序列的发掘方法的流程示意图,包括以下步骤:
步骤101,根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
其中,需要发掘的生物基因组简单重复序列SSR的特征包括:
需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
构建的正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
本领域技术人员公知,正则表达式是由普通字符以及特殊字符组成的文字模式,其中,普通字符和特殊字符中各字符代表的含义均有标准规定,本发明提供的正则表达式中,各符号代表的含义与标准规定一致,从而具有通用性强的优点。
例如:如果需要发掘基序长度为1-6个碱基,至少重复5次的SSR,则:基序的最小长度信息为1、基序的最大长度信息为6、基序的最少再重复次数信息为4次,因此,根据上述信息,构建的正则表达式的形式为:(.{1,6}?)(\1){4,}。
步骤102,通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则执行步骤103;如果判断结果为否,则执行步骤104;
步骤103,输出所述目标SSR。
步骤104,显示所述待分析序列中不存在所述目标SSR的信息。
步骤102-104的处理过程举例如下:
如果待分析序列为“ATGTGTGTGTGTGTTG”,其中,“A”代表腺嘌呤;“T”代表胸腺嘧啶;“G”代表鸟嘌呤;如果需要从该待分析序列中发掘基序最大长度为6、基序最小长度为1、至少重复5次的SSR,则构建以下正则表达式:(.{1,6}?)(\1){4,},使用Python语言写成的与上述正则表达式对应的代码为:for m in re.compile(r′(.{1,6})(\1){4,}′).finditer(′ATGTGTGTGTGTGTTG′):printm.group()
将上述代码在Python控制台中输入后,将返回如下结果:TGTGTGTGTG。这个返回结果即为待分析序列中的目标SSR。如果在待分析序列中存在多个符合正则表达式要求的目标SSR,则将以多行显示的方式显示各个目标SSR,其中,每行为一个发掘到的目标SSR。
另外,作为一种可选方式,在步骤102中,在判断所述待分析序列中存在符合所述正则表达式要求的目标SSR,之后还可以包括:
步骤105,进一步判断所述目标SSR是否由单一碱基组成,如果判断结果为是,则执行步骤106,如果判断结果为否,则执行步骤103。
步骤106,,删除所述目标SSR。
通过步骤105-106,去除了目标SSR中由单一碱基构成的SSR,也就是说,最终输出的目标SSR中不存在由单一碱基构成的SSR,这种处理方法的主要目的在于:由单一碱基构成的SSR在实际应用中通常不被采用。
因此,本发明提供的生物基因组简单重复序列的发掘方法,在对SSR发掘过程中,不会产生冗余结果,通过正则表达式的匹配直接输出需要的SSR,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
如图2所示,为本发明提供的一种生物基因组简单重复序列的发掘设备的结构示意图,包括:
构建模块21:用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
其中,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
第一判断模块22:用于通过构建模块21构建的所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合构建模块21构建的所述正则表达式要求的目标SSR;
输出模块23:用于当第一判断模块22的判断结果为是时,输出所述目标SSR;
显示模块24:用于当第一判断模块22的判断结果为否时,显示所述待分析序列中不存在所述目标SSR的信息。
还包括:第二判断模块25和删除模块26;
第二判断模块25用于:当第一判断模块22判断存在符合所述正则表达式要求的目标SSR时,进一步判断所述目标SSR是否由单一碱基组成;
删除模块26用于:当第二判断模块25的判断结果为是时,删除所述目标SSR;
输出模块23还用于:当第二判断模块25的判断结果为否时,输出所述目标SSR。
综上所述,本发明提供的生物基因组简单重复序列的发掘方法和设备,在对SSR发掘过程中,不会产生冗余结果,通过正则表达式的匹配直接输出需要的SSR,从而降低了SSR发掘过程的配置复杂度,提高了SSR发掘的效率,降低了SSR发掘软件的开发难度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (8)
1.一种生物基因组简单重复序列的发掘方法,其特征在于,包括以下步骤:
根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
通过所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR,如果判断结果为是,则输出所述目标SSR;如果判断结果为否,则显示所述待分析序列中不存在所述目标SSR的信息。
2.根据权利要求1所述的生物基因组简单重复序列的发掘方法,其特征在于,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
3.根据权利要求2所述的生物基因组简单重复序列的发掘方法,其特征在于,
所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
4.根据权利要求1所述的生物基因组简单重复序列的发掘方法,其特征在于,在所述判断结果为是,之后还包括:
进一步判断所述目标SSR是否由单一碱基组成,如果判断结果为是,则删除所述目标SSR,如果判断结果为否,则输出所述目标SSR。
5.一种生物基因组简单重复序列的发掘设备,其特征在于,包括:
构建模块:用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式;
第一判断模块:用于通过所述构建模块构建的所述正则表达式分析待分析序列,判断所述待分析序列中是否存在符合所述构建模块构建的所述正则表达式要求的目标SSR;
输出模块:用于当所述第一判断模块的判断结果为是时,输出所述目标SSR;
显示模块:用于当所述第一判断模块的判断结果为否时,显示所述待分析序列中不存在所述目标SSR的信息。
6.根据权利要求5所述的生物基因组简单重复序列的发掘设备,其特征在于,所述需要发掘的生物基因组简单重复序列SSR的特征包括:
所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息,其中,所述基序指所述SSR中的重复单元。
7.根据权利要求6所述的生物基因组简单重复序列的发掘设备,其特征在于,
所述正则表达式的形式为:(.{i,j}?)(\1){k,},其中,i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。
8.根据权利要求5所述的生物基因组简单重复序列的发掘设备,其特征在于,还包括:第二判断模块和删除模块;
所述第二判断模块用于:当所述第一判断模块判断存在符合所述正则表达式要求的目标SSR时,进一步判断所述目标SSR是否由单一碱基组成;
所述删除模块用于:当所述第二判断模块的判断结果为是时,删除所述目标SSR;
所述输出模块还用于:当所述第二判断模块的判断结果为否时,输出所述目标SSR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110414015.9A CN102495977B (zh) | 2011-12-13 | 2011-12-13 | 生物基因组简单重复序列的发掘方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110414015.9A CN102495977B (zh) | 2011-12-13 | 2011-12-13 | 生物基因组简单重复序列的发掘方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102495977A true CN102495977A (zh) | 2012-06-13 |
CN102495977B CN102495977B (zh) | 2015-05-27 |
Family
ID=46187802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110414015.9A Expired - Fee Related CN102495977B (zh) | 2011-12-13 | 2011-12-13 | 生物基因组简单重复序列的发掘方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102495977B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1158056A1 (en) * | 2000-05-15 | 2001-11-28 | Keygene N.V. | Microsatellite-AFLP |
US20030049612A1 (en) * | 1999-01-15 | 2003-03-13 | Craig S. Echt | Microsatelite dna markers and uses thereof |
WO2004013727A2 (en) * | 2002-08-02 | 2004-02-12 | Rosetta Inpharmatics Llc | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
CN102156824A (zh) * | 2010-12-23 | 2011-08-17 | 山西省农业科学院棉花研究所 | 一种ssr分子标记冗余性的生物信息学分析方法 |
-
2011
- 2011-12-13 CN CN201110414015.9A patent/CN102495977B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030049612A1 (en) * | 1999-01-15 | 2003-03-13 | Craig S. Echt | Microsatelite dna markers and uses thereof |
EP1158056A1 (en) * | 2000-05-15 | 2001-11-28 | Keygene N.V. | Microsatellite-AFLP |
WO2004013727A2 (en) * | 2002-08-02 | 2004-02-12 | Rosetta Inpharmatics Llc | Computer systems and methods that use clinical and expression quantitative trait loci to associate genes with traits |
CN102156824A (zh) * | 2010-12-23 | 2011-08-17 | 山西省农业科学院棉花研究所 | 一种ssr分子标记冗余性的生物信息学分析方法 |
Non-Patent Citations (10)
Title |
---|
AMY M.HAUTH,ET AL.: "Beyond tandem repeats:complex pattern structures and distant regions of similarity", 《BIOINFORMATICS》, vol. 18, no. 1, 31 December 2002 (2002-12-31) * |
ANGELIKA MERKEL,ET AL: "Detecting short tandem repeats from genome data:opening the software black box", 《BRIEFINGS IN BIOINFORMATICS》, vol. 9, no. 5, 10 July 2008 (2008-07-10) * |
EUGENE W.MYERS, ET AL.: "Approximate mathching of regular expressions", 《BULLETIN OF MATHEMATICAL BIOLOGY》, vol. 51, no. 1, 31 December 1989 (1989-12-31) * |
GAD M.LANDAU,ET AL.: "An althorithm for approximate tandem repeats", 《JOURNAL OF COMPUTATIONAL BIOLOGY》, vol. 8, no. 1, 31 December 2001 (2001-12-31) * |
GARY BENSON: "Tandem repeats finder:a program to analyze DNA sequences", 《NUCLEIC ACIDS RESEARCH》, vol. 27, no. 2, 31 December 1999 (1999-12-31) * |
RAJEEV K.VARSHNEY,ET AL.: "Genic microsatellite marker in plants:features and applications", 《TRENDS IN BIOTECHNOLOGY》, vol. 23, no. 1, 31 January 2005 (2005-01-31) * |
YANIK BERUBE,ET AL.: "Characterization of EST-SSRs in lobby pine and spruce", 《TREE GENETICS & GENOMES》, no. 3, 26 October 2006 (2006-10-26) * |
张志远: "在C#中利用正则表达式实现字符串搜索功能", 《电脑编程技巧与维护》, no. 10, 3 October 2005 (2005-10-03) * |
徐军等: "普通烟草种质资源的SSR标记与指纹图谱分析", 《中国烟草科学》, vol. 32, no. 2, 30 April 2011 (2011-04-30), pages 62 - 65 * |
翟自洋等: "利用正则表达式进行查找/替换", 《中国科技期刊研究》, vol. 20, no. 1, 15 January 2009 (2009-01-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN102495977B (zh) | 2015-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Bayesian inference of species networks from multilocus sequence data | |
Nicholls et al. | Using targeted enrichment of nuclear genes to increase phylogenetic resolution in the neotropical rain forest genus Inga (Leguminosae: Mimosoideae) | |
Linder et al. | Reconstructing patterns of reticulate evolution in plants | |
Som | Causes, consequences and solutions of phylogenetic incongruence | |
Straub et al. | Navigating the tip of the genomic iceberg: Next‐generation sequencing for plant systematics | |
WO2021207541A1 (en) | System and method for gene editing cassette design | |
Sankoff | Rearrangements and chromosomal evolution | |
CN112735528A (zh) | 一种基因序列比对方法及系统 | |
US20240153586A1 (en) | Designing probes for depleting abundant transcripts | |
Morando et al. | Phylogenomic data resolve higher-level relationships within South American Liolaemus lizards | |
CN104313146A (zh) | 一种开发基因组ssr分子标记的方法 | |
CN106021997B (zh) | 一种三代PacBio测序数据的比对方法 | |
Ray et al. | Simultaneous TE analysis of 19 Heliconiine butterflies yields novel insights into rapid TE-based genome diversification and multiple SINE births and deaths | |
Kjer et al. | Advances using molecular data in insect systematics | |
Slamovits et al. | Satellite DNA: agent of chromosomal evolution in mammals. A review | |
Thachuk | Indexing hypertext | |
Alkan et al. | The role of unequal crossover in alpha-satellite DNA evolution: a computational analysis | |
CN102495977B (zh) | 生物基因组简单重复序列的发掘方法及设备 | |
Schbath et al. | R'MES: a tool to find motifs with a significantly unexpected frequency in biological sequences | |
Noll et al. | GPAC—Genome presence/absence compiler: a web application to comparatively visualize multiple genome-level changes | |
Schrinner et al. | The longest run subsequence problem | |
CN108763868A (zh) | Dna序列中重复区的识别方法和装置 | |
Kwarciak et al. | Tabu search algorithm for DNA sequencing by hybridization with multiplicity information available | |
Sridhar et al. | Optimal imperfect phylogeny reconstruction and haplotyping (IPPH) | |
Wu | New methods for inference of local tree topologies with recombinant SNP sequences in populations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20150527 Termination date: 20161213 |