CN113223623A

CN113223623A - 一种基于基因组信息预测微卫星pcr产物特异性的方法

Info

Publication number: CN113223623A
Application number: CN202110425764.5A
Authority: CN
Inventors: 李严; 沈富军; 张亮; 张紫阳; 王也; 寇洁; 刘红; 刘佳文; 王涓
Original assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Current assignee: CHENGDU RESEARCH BASE OF GIANT PANDA BREEDING
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-08-06
Anticipated expiration: 2041-04-20
Also published as: CN113223623B

Abstract

本发明公开一种基于基因组信息预测微卫星PCR产物特异性的方法，首先将基因组的序列存贮在一个单独的字典当中；再定义反向互补序列的函数方法；再根据设定好的参数，提取出4种形式的引物3’端碱基序列；再依据步骤四的序列，分别匹配出引物的4种形式在基因组上所有存在的位点；再罗列出第一种形式和第二种形式所有的组合，同时进一步罗列出第三种形式和第四种形式；最后根据设定好的参数，筛选出以上所有满足条件的基因组区域，这些区域为扩增出的PCR产物实际序列，从而进行后续的特异性评估；该方法实现了自动化的上下游引物在基因组中的条件性匹配，并进行特异性评估，对微卫星引物的筛选及物种亲子鉴定评估具有指导意义。

Description

一种基于基因组信息预测微卫星PCR产物特异性的方法

技术领域

本发明涉及生物信息技术领域，尤其涉及一种基于基因组信息预测微卫星PCR产物特异性的方法。

背景技术

传统的微卫星引物设计分为以下三个步骤:首先获取目标微卫星的DNA序列；其次通过引物设计软件获得最佳引物；最后将上游引物和下游引物分别比对到参考基因组上(错配碱基个数一般设置为1-2个)，通过查看上下游引物在基因组上出现的位置去确定引物是否具有较高的特异性。此外，引物合成后，通过PCR扩增并利用琼脂糖凝胶电泳查看扩增产物的长度。

目前国内外大型的生物信息数据库(NCBI、UCSC和ENSEMBL)对引物特异性检测的方法都是基于blast的方法，将引物与参考基因组进行比对，并设置一定程度的碱基错配率。通过在这些网址比对上下游引物，能够获取上下游引物在基因组上可能会匹配上的位置。该分析方式为引物特异性评估提供了一定的依据，而且比对过程是基于成熟的比对软件，分析时间短。但是在实际的PCR扩增过程中，引物3’端碱基与参考基因组完全匹配的个数通常决定了PCR反应过程的走向，并且PCR产物存在目的条带的条件要满足：上游引物的序列和下游引物的反向互补序列能同时匹配到同一条染色体的正链，并且他们的基因组位置应在合适的范围之内。目前基于生物信息数据库比对的分析方法并不能解决微卫星引物3’端碱基唯一性以及预测PCR扩增产物多少的问题。因此，解决这一类的问题显得尤为重要。

发明内容

针对上述问题，本发明提供的方法实现了自动化的上下游引物在基因组中的条件性匹配，并进行特异性评估，对微卫星引物的筛选及物种亲子鉴定评估具有一定的指导意义。

为了实现上述技术方案，本发明提供了一种基于基因组信息预测微卫星PCR产物特异性的方法，包括以下步骤：

步骤一：将基因组的序列存贮在一个单独的字典当中，其中字典的键是染色体的编号，字典的值是染色体的序列；

步骤二：定义反向互补序列的函数方法，首先将序列反向，然后将序列全部转为大写，再根据碱基互补配对原则，将碱基“A”转换为小写“t”、碱基“T”转换为小写“a”、碱基“G”转换为小写“c”、碱基“C”转换为小写“g”，最后将小写的序列全部大写；

步骤三：定义上下游引物的匹配模式，引物匹配到基因组的情况总共存在4种形式；

步骤四：根据设定好的参数，3’端碱基完全匹配个数，提取出4种形式的引物3’端碱基序列；

步骤五：依据步骤四的序列，分别匹配出引物的4种形式在基因组上所有存在的位点；

步骤六：罗列出第一种形式和第二种形式所有的组合，同时进一步罗列出第三种形式和第四种形式；

步骤七：根据设定好的参数，也就是扩增出的最大PCR产物长度，筛选出以上所有满足条件的基因组区域，这些区域为扩增出的PCR产物实际序列。

进一步改进在于：在所述步骤五中，4种形式在基因组上所有存在的位点为：第一种是上游引物的3’端序列在基因组中的所有结合位点；第二种是下游引物反向互补后的3’端序列在基因组中的所有结合位点；第三种是下游引物的3’端序列在基因组中的所有结合位点；第四种是上游引物反向互补后的3’端序列在基因组中的所有结合位点。

进一步改进在于：在所述步骤六中，罗列出第一种形式和第二种形式所有的组合，所有的组合该组合扩增出PCR产物满足的条件为：上游引物和下游引物在同一条染色体上，且上游引物位于参考基因组序列的上游；进一步罗列出第三种形式和第四种形式所有的组合，该组合能扩增出PCR产物满足的条件为：下游引物和上游引物在同一条染色体上，且下游引物位于参考基因组序列的上游。

进一步改进在于：在所述步骤七中，扩增出的PCR产物实际序列中包含有以下信息：上游引物ID，上游引物所在染色体编号，上游引物起始基因组位置，上游引物终止基因组位置，上游引物匹配链的方向，下游引物ID，下游引物所在染色体编号，下游引物起始基因组位置，下游引物终止基因组位置，下游引物匹配链的方向，预测的PCR产物长度。

本发明的有益效果是：本发明实现了自动化的上下游引物在基因组中的条件性匹配，并进行特异性评估，对微卫星引物的筛选及物种亲子鉴定评估具有一定的指导意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的预测的PCR产物长度的示意表。

图2为本发明的预测结果的可视化示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例一

根据图1、2所示，本实施例提供了一种基于基因组信息预测微卫星PCR产物特异性的方法，包括以下步骤：

步骤四：根据设定好的参数，3’端碱基完全匹配个数，提取出4种形式的引物3’端碱基序列，；

步骤五：依据步骤四的序列，分别匹配出引物的4种形式在基因组上所有存在的位点，4种形式在基因组上所有存在的位点为：第一种是上游引物的3’端序列在基因组中的所有结合位点；第二种是下游引物反向互补后的3’端序列在基因组中的所有结合位点；第三种是下游引物的3’端序列在基因组中的所有结合位点；第四种是上游引物反向互补后的3’端序列在基因组中的所有结合位点；

步骤六：罗列出第一种形式和第二种形式所有的组合，罗列出第一种形式和第二种形式所有的组合，所有的组合该组合扩增出PCR产物满足的条件为：上游引物和下游引物在同一条染色体上，且上游引物位于参考基因组序列的上游；进一步罗列出第三种形式和第四种形式所有的组合，该组合能扩增出PCR产物满足的条件为：下游引物和上游引物在同一条染色体上，且下游引物位于参考基因组序列的上游；

在所述步骤七中，扩增出的PCR产物实际序列中包含有以下信息：上游引物ID，上游引物所在染色体编号，上游引物起始基因组位置，上游引物终止基因组位置，上游引物匹配链的方向，下游引物ID，下游引物所在染色体编号，下游引物起始基因组位置，下游引物终止基因组位置，下游引物匹配链的方向，预测的PCR产物长度。

实施例二

本实施例提供了一种基于基因组信息预测微卫星PCR产物特异性的程序，该程序的运行方法如下：

步骤一：准备好对应的参考基因组序列及引物序列；

步骤二：设置参数1：引物的ID(可人为定义，默认为Primer)；

步骤三：设置参数2：引物3’端匹配碱基数目(一般设置为7-15，默认为10)；

步骤四：设置参数3：模拟PCR产物的最大长度(根据扩增的目的条带进行设定，默认为3000)；

步骤五：设置输出文件名称4：根据使用者需求自行设定；

步骤六：运行命令为:python SPE.V1.py-f[参考基因组序列所在路径]-F[上游引物序列]-R[下游引物序列]-P[参数1]-c[参数2]-l[参数3]-o[输出文件所在路径]；

SPE的运行成功后，会生成文本格式文件，每一行代表可能扩增出的PCR产物，共包括11列信息，分别是：上游引物ID，上游引物所在染色体编号，上游引物起始基因组位置，上游引物终止基因组位置，上游引物匹配链的方向，下游引物ID，下游引物所在染色体编号，下游引物起始基因组位置，下游引物终止基因组位置，下游引物匹配链的方向，预测的PCR产物长度。具体示例结果见附图1。预测结果的可视化见附图2。

本发明实现了自动化的上下游引物在基因组中的条件性匹配，并进行特异性评估，对微卫星引物的筛选及物种亲子鉴定评估具有一定的指导意义。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于基因组信息预测微卫星PCR产物特异性的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于基因组信息预测微卫星PCR产物特异性的方法，其特征在于：在所述步骤五中，4种形式在基因组上所有存在的位点为：第一种是上游引物的3’端序列在基因组中的所有结合位点；第二种是下游引物反向互补后的3’端序列在基因组中的所有结合位点；第三种是下游引物的3’端序列在基因组中的所有结合位点；第四种是上游引物反向互补后的3’端序列在基因组中的所有结合位点。

3.根据权利要求1所述的一种基于基因组信息预测微卫星PCR产物特异性的方法，其特征在于：在所述步骤六中，罗列出第一种形式和第二种形式所有的组合，所有的组合该组合扩增出PCR产物满足的条件为：上游引物和下游引物在同一条染色体上，且上游引物位于参考基因组序列的上游；进一步罗列出第三种形式和第四种形式所有的组合，该组合能扩增出PCR产物满足的条件为：下游引物和上游引物在同一条染色体上，且下游引物位于参考基因组序列的上游。

4.根据权利要求1所述的一种基于基因组信息预测微卫星PCR产物特异性的方法，其特征在于：在所述步骤七中，扩增出的PCR产物实际序列中包含有以下信息：上游引物ID，上游引物所在染色体编号，上游引物起始基因组位置，上游引物终止基因组位置，上游引物匹配链的方向，下游引物ID，下游引物所在染色体编号，下游引物起始基因组位置，下游引物终止基因组位置，下游引物匹配链的方向，预测的PCR产物长度。