CN102495977B

CN102495977B - 生物基因组简单重复序列的发掘方法及设备

Info

Publication number: CN102495977B
Application number: CN201110414015.9A
Authority: CN
Inventors: 任民; 王志德; 刘艳华; 张兴伟; 牟建民
Original assignee: Tobacco Research Institute of CAAS
Current assignee: Tobacco Research Institute of CAAS
Priority date: 2011-12-13
Filing date: 2011-12-13
Publication date: 2015-05-27
Anticipated expiration: 2031-12-13
Also published as: CN102495977A

Abstract

本发明公开了一种生物基因组简单重复序列的发掘方法，其特征在于，包括以下步骤：根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式；通过所述正则表达式分析待分析序列，判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR，如果判断结果为是，则输出所述目标SSR；如果判断结果为否，则显示所述待分析序列中不存在所述目标SSR的信息。因此，本发明提供的生物基因组简单重复序列的发掘方法及设备，在对SSR发掘过程中，不会产生冗余结果，从而降低了SSR发掘过程的配置复杂度，提高了SSR发掘的效率，降低了SSR发掘软件的开发难度。

Description

生物基因组简单重复序列的发掘方法及设备

技术领域

本发明涉及SSR挖掘技术领域，特别涉及一种生物基因组简单重复序列的发掘方法及设备。

背景技术

SSR(Simple Sequence Repeats，简单重复序列)是指DNA分子中1～5个核苷酸的串联重复。SSR以其在动植物基因组随机分布、高信息量和多态性、共显性和孟德尔遗传等优点，在遗传图谱的构建、遗传多样性分析、亲缘关系鉴定、DNA指纹图谱构建和功能基因标记等方面具有公认的优越性和应用前景。

目前，已有的SSR发掘算法多基于字符串发掘，然后再利用统计分析的方法去除冗余，基本包括以下三步：首先在SSR定义的范围内枚举所有可能的碱基组合，其次每种碱基组合依次进行字符串发掘，最后去掉冗余的发掘结果。所谓冗余主要是指以下3种情况，1、重复统计，例如一段SSR序列AGAGAGAGAG在发掘AG、AGAG......AGAGAGAGAG时会被重复统计5次；2、移码重复，例如(CT)₅＝CTCTCTCTCT＝TCTCTCTCTC＝(TC)₅；3、约数重复，例如(ATAT)_n＝(AT)_2n。另外，对于形如AAA...AA或者TTT...TT的序列，由于该种序列虽然符合SSR的定义，但是在实际工作中并不被采纳，所以还需要将该种序列去除。

已报道的一些SSR发掘软件均依据上述算法而开发，例如SSR MINING1.0^[1]就是首先根据ATCG四种碱基，利用排列组合的原理生成一个初步的单元库，然后去除冗余部分；SSR Hunter^[2]是首先通过嵌套循环的方法获得以A、T、C、G为元件，长度分别为2、3、4、5、6个碱基的所有的排列组合。然后用前面生成的每一种重复单元的类型搜索基因组序列，把所有符合条件的序列保存在数组中，最后再对这个序列进行去冗余分析。

可见，在现有SSR发掘方法中，在SSR发掘的过程中会产生大量的冗余结果，因此为了得到正确的分析结果，必须对发掘结果去冗余。虽然不同的软件采用的去冗余策略各不相同，但是发掘过程均较为复杂和繁琐，需要大量的统计分析和逻辑运算，至今未见有一种无冗余的分析算法。

发明内容

针对现有技术存在的缺陷，本发明提供一种生物基因组简单重复序列的发掘方法及设备，在对SSR发掘过程中，不会产生冗余结果，从而降低了SSR发掘过程的配置复杂度，提高了SSR发掘的效率，降低了SSR发掘软件的开发难度。

本发明采用的技术方案如下：

本发明提供一种生物基因组简单重复序列的发掘方法，包括以下步骤：

根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式；

通过所述正则表达式分析待分析序列，判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR，如果判断结果为是，则输出所述目标SSR；如果判断结果为否，则显示所述待分析序列中不存在所述目标SSR的信息。

优选的，所述需要发掘的生物基因组简单重复序列SSR的特征包括：

所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息，其中，所述基序指所述SSR中的重复单元。

优选的，所述正则表达式的形式为：(.{i，j}？)(\1){k，}，其中，i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。

优选的，在所述判断结果为是，之后还包括：

进一步判断所述目标SSR是否由单一碱基组成，如果判断结果为是，则删除所述目标SSR，如果判断结果为否，则输出所述目标SSR。

本发明还提供一种生物基因组简单重复序列的发掘设备，包括：

构建模块：用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式；

第一判断模块：用于通过所述构建模块构建的所述正则表达式分析待分析序列，判断所述待分析序列中是否存在符合所述构建模块构建的所述正则表达式要求的目标SSR；

输出模块：用于当所述第一判断模块的判断结果为是时，输出所述目标SSR；

显示模块：用于当所述第一判断模块的判断结果为否时，显示所述待分析序列中不存在所述目标SSR的信息。

优选的，还包括：第二判断模块和删除模块；

所述第二判断模块用于：当所述第一判断模块判断存在符合所述正则表达式要求的目标SSR时，进一步判断所述目标SSR是否由单一碱基组成；

所述删除模块用于：当所述第二判断模块的判断结果为是时，删除所述目标SSR；

所述输出模块还用于：当所述第二判断模块的判断结果为否时，输出所述目标SSR。

本发明的有益效果如下：

本发明提供一种生物基因组简单重复序列的发掘方法及设备，在对SSR发掘过程中，不会产生冗余结果，从而降低了SSR发掘过程的配置复杂度，提高了SSR发掘的效率，降低了SSR发掘软件的开发难度。

附图说明

图1为本发明实施例提供的生物基因组简单重复序列的发掘方法的流程示意图；

图2为本发明实施例提供的生物基因组简单重复序列的发掘设备的结构示意图。

具体实施方式

如图1所示，为本发明实施例提供的生物基因组简单重复序列的发掘方法的流程示意图，包括以下步骤：

步骤101，根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式；

其中，需要发掘的生物基因组简单重复序列SSR的特征包括：

需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息，其中，所述基序指所述SSR中的重复单元。

构建的正则表达式的形式为：(.{i，j}？)(\1){k，}，其中，i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。

本领域技术人员公知，正则表达式是由普通字符以及特殊字符组成的文字模式，其中，普通字符和特殊字符中各字符代表的含义均有标准规定，本发明提供的正则表达式中，各符号代表的含义与标准规定一致，从而具有通用性强的优点。

例如：如果需要发掘基序长度为1-6个碱基，至少重复5次的SSR，则：基序的最小长度信息为1、基序的最大长度信息为6、基序的最少再重复次数信息为4次，因此，根据上述信息，构建的正则表达式的形式为：(.{1，6}？)(\1){4，}。

步骤102，通过所述正则表达式分析待分析序列，判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR，如果判断结果为是，则执行步骤103；如果判断结果为否，则执行步骤104；

步骤103，输出所述目标SSR。

步骤104，显示所述待分析序列中不存在所述目标SSR的信息。

步骤102-104的处理过程举例如下：

如果待分析序列为“ATGTGTGTGTGTGTTG”，其中，“A”代表腺嘌呤；“T”代表胸腺嘧啶；“G”代表鸟嘌呤；如果需要从该待分析序列中发掘基序最大长度为6、基序最小长度为1、至少重复5次的SSR，则构建以下正则表达式：(.{1，6}？)(\1){4，}，使用Python语言写成的与上述正则表达式对应的代码为：for m in re.compile(r′(.{1，6})(\1){4，}′).finditer(′ATGTGTGTGTGTGTTG′)：printm.group()

将上述代码在Python控制台中输入后，将返回如下结果：TGTGTGTGTG。这个返回结果即为待分析序列中的目标SSR。如果在待分析序列中存在多个符合正则表达式要求的目标SSR，则将以多行显示的方式显示各个目标SSR，其中，每行为一个发掘到的目标SSR。

另外，作为一种可选方式，在步骤102中，在判断所述待分析序列中存在符合所述正则表达式要求的目标SSR，之后还可以包括：

步骤105，进一步判断所述目标SSR是否由单一碱基组成，如果判断结果为是，则执行步骤106，如果判断结果为否，则执行步骤103。

步骤106，，删除所述目标SSR。

通过步骤105-106，去除了目标SSR中由单一碱基构成的SSR，也就是说，最终输出的目标SSR中不存在由单一碱基构成的SSR，这种处理方法的主要目的在于：由单一碱基构成的SSR在实际应用中通常不被采用。

因此，本发明提供的生物基因组简单重复序列的发掘方法，在对SSR发掘过程中，不会产生冗余结果，通过正则表达式的匹配直接输出需要的SSR，从而降低了SSR发掘过程的配置复杂度，提高了SSR发掘的效率，降低了SSR发掘软件的开发难度。

如图2所示，为本发明提供的一种生物基因组简单重复序列的发掘设备的结构示意图，包括：

构建模块21：用于根据需要发掘的生物基因组简单重复序列SSR的特征构建正则表达式；

其中，所述需要发掘的生物基因组简单重复序列SSR的特征包括：

所述正则表达式的形式为：(.{i，j}？)(\1){k，}，其中，i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。

第一判断模块22：用于通过构建模块21构建的所述正则表达式分析待分析序列，判断所述待分析序列中是否存在符合构建模块21构建的所述正则表达式要求的目标SSR；

输出模块23：用于当第一判断模块22的判断结果为是时，输出所述目标SSR；

显示模块24：用于当第一判断模块22的判断结果为否时，显示所述待分析序列中不存在所述目标SSR的信息。

还包括：第二判断模块25和删除模块26；

第二判断模块25用于：当第一判断模块22判断存在符合所述正则表达式要求的目标SSR时，进一步判断所述目标SSR是否由单一碱基组成；

删除模块26用于：当第二判断模块25的判断结果为是时，删除所述目标SSR；

输出模块23还用于：当第二判断模块25的判断结果为否时，输出所述目标SSR。

综上所述，本发明提供的生物基因组简单重复序列的发掘方法和设备，在对SSR发掘过程中，不会产生冗余结果，通过正则表达式的匹配直接输出需要的SSR，从而降低了SSR发掘过程的配置复杂度，提高了SSR发掘的效率，降低了SSR发掘软件的开发难度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种生物基因组简单重复序列的发掘方法，其特征在于，包括以下步骤：

通过所述正则表达式分析待分析序列，判断所述待分析序列中是否存在符合所述正则表达式要求的目标SSR，如果判断结果为是，则输出所述目标SSR；如果判断结果为否，则显示所述待分析序列中不存在所述目标SSR的信息；

所述需要发掘的生物基因组简单重复序列SSR中的基序的最小长度信息、所述基序的最大长度信息和所述基序的最少再重复次数信息，其中，所述基序指所述SSR中的重复单元；

其中，所述正则表达式的形式为：(.{i,j}？)(\1){k,}，其中，i、j、k分别表示所述目标SSR中的基序的最小长度值、所述基序的最大长度值、所述基序的最少再重复次数。

2.根据权利要求1所述的生物基因组简单重复序列的发掘方法，其特征在于，在所述判断结果为是，之后还包括：

3.一种生物基因组简单重复序列的发掘设备，其特征在于，包括：

显示模块：用于当所述第一判断模块的判断结果为否时，显示所述待分析序列中不存在所述目标SSR的信息；

4.根据权利要求3所述的生物基因组简单重复序列的发掘设备，其特征在于，还包括：第二判断模块和删除模块；