CN113223623A - 一种基于基因组信息预测微卫星pcr产物特异性的方法 - Google Patents
一种基于基因组信息预测微卫星pcr产物特异性的方法 Download PDFInfo
- Publication number
- CN113223623A CN113223623A CN202110425764.5A CN202110425764A CN113223623A CN 113223623 A CN113223623 A CN 113223623A CN 202110425764 A CN202110425764 A CN 202110425764A CN 113223623 A CN113223623 A CN 113223623A
- Authority
- CN
- China
- Prior art keywords
- genome
- sequence
- primer
- upstream
- primers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开一种基于基因组信息预测微卫星PCR产物特异性的方法,首先将基因组的序列存贮在一个单独的字典当中;再定义反向互补序列的函数方法;再根据设定好的参数,提取出4种形式的引物3’端碱基序列;再依据步骤四的序列,分别匹配出引物的4种形式在基因组上所有存在的位点;再罗列出第一种形式和第二种形式所有的组合,同时进一步罗列出第三种形式和第四种形式;最后根据设定好的参数,筛选出以上所有满足条件的基因组区域,这些区域为扩增出的PCR产物实际序列,从而进行后续的特异性评估;该方法实现了自动化的上下游引物在基因组中的条件性匹配,并进行特异性评估,对微卫星引物的筛选及物种亲子鉴定评估具有指导意义。
Description
技术领域
本发明涉及生物信息技术领域,尤其涉及一种基于基因组信息预测微卫星PCR产物特异性的方法。
背景技术
传统的微卫星引物设计分为以下三个步骤:首先获取目标微卫星的DNA序列;其次通过引物设计软件获得最佳引物;最后将上游引物和下游引物分别比对到参考基因组上(错配碱基个数一般设置为1-2个),通过查看上下游引物在基因组上出现的位置去确定引物是否具有较高的特异性。此外,引物合成后,通过PCR扩增并利用琼脂糖凝胶电泳查看扩增产物的长度。
目前国内外大型的生物信息数据库(NCBI、UCSC和ENSEMBL)对引物特异性检测的方法都是基于blast的方法,将引物与参考基因组进行比对,并设置一定程度的碱基错配率。通过在这些网址比对上下游引物,能够获取上下游引物在基因组上可能会匹配上的位置。该分析方式为引物特异性评估提供了一定的依据,而且比对过程是基于成熟的比对软件,分析时间短。但是在实际的PCR扩增过程中,引物3’端碱基与参考基因组完全匹配的个数通常决定了PCR反应过程的走向,并且PCR产物存在目的条带的条件要满足:上游引物的序列和下游引物的反向互补序列能同时匹配到同一条染色体的正链,并且他们的基因组位置应在合适的范围之内。目前基于生物信息数据库比对的分析方法并不能解决微卫星引物3’端碱基唯一性以及预测PCR扩增产物多少的问题。因此,解决这一类的问题显得尤为重要。
发明内容
针对上述问题,本发明提供的方法实现了自动化的上下游引物在基因组中的条件性匹配,并进行特异性评估,对微卫星引物的筛选及物种亲子鉴定评估具有一定的指导意义。
为了实现上述技术方案,本发明提供了一种基于基因组信息预测微卫星PCR产物特异性的方法,包括以下步骤:
步骤一:将基因组的序列存贮在一个单独的字典当中,其中字典的键是染色体的编号,字典的值是染色体的序列;
步骤二:定义反向互补序列的函数方法,首先将序列反向,然后将序列全部转为大写,再根据碱基互补配对原则,将碱基“A”转换为小写“t”、碱基“T”转换为小写“a”、碱基“G”转换为小写“c”、碱基“C”转换为小写“g”,最后将小写的序列全部大写;
步骤三:定义上下游引物的匹配模式,引物匹配到基因组的情况总共存在4种形式;
步骤四:根据设定好的参数,3’端碱基完全匹配个数,提取出4种形式的引物3’端碱基序列;
步骤五:依据步骤四的序列,分别匹配出引物的4种形式在基因组上所有存在的位点;
步骤六:罗列出第一种形式和第二种形式所有的组合,同时进一步罗列出第三种形式和第四种形式;
步骤七:根据设定好的参数,也就是扩增出的最大PCR产物长度,筛选出以上所有满足条件的基因组区域,这些区域为扩增出的PCR产物实际序列。
进一步改进在于:在所述步骤五中,4种形式在基因组上所有存在的位点为:第一种是上游引物的3’端序列在基因组中的所有结合位点;第二种是下游引物反向互补后的3’端序列在基因组中的所有结合位点;第三种是下游引物的3’端序列在基因组中的所有结合位点;第四种是上游引物反向互补后的3’端序列在基因组中的所有结合位点。
进一步改进在于:在所述步骤六中,罗列出第一种形式和第二种形式所有的组合,所有的组合该组合扩增出PCR产物满足的条件为:上游引物和下游引物在同一条染色体上,且上游引物位于参考基因组序列的上游;进一步罗列出第三种形式和第四种形式所有的组合,该组合能扩增出PCR产物满足的条件为:下游引物和上游引物在同一条染色体上,且下游引物位于参考基因组序列的上游。
进一步改进在于:在所述步骤七中,扩增出的PCR产物实际序列中包含有以下信息:上游引物ID,上游引物所在染色体编号,上游引物起始基因组位置,上游引物终止基因组位置,上游引物匹配链的方向,下游引物ID,下游引物所在染色体编号,下游引物起始基因组位置,下游引物终止基因组位置,下游引物匹配链的方向,预测的PCR产物长度。
本发明的有益效果是:本发明实现了自动化的上下游引物在基因组中的条件性匹配,并进行特异性评估,对微卫星引物的筛选及物种亲子鉴定评估具有一定的指导意义。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的预测的PCR产物长度的示意表。
图2为本发明的预测结果的可视化示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例一
根据图1、2所示,本实施例提供了一种基于基因组信息预测微卫星PCR产物特异性的方法,包括以下步骤:
步骤一:将基因组的序列存贮在一个单独的字典当中,其中字典的键是染色体的编号,字典的值是染色体的序列;
步骤二:定义反向互补序列的函数方法,首先将序列反向,然后将序列全部转为大写,再根据碱基互补配对原则,将碱基“A”转换为小写“t”、碱基“T”转换为小写“a”、碱基“G”转换为小写“c”、碱基“C”转换为小写“g”,最后将小写的序列全部大写;
步骤三:定义上下游引物的匹配模式,引物匹配到基因组的情况总共存在4种形式;
步骤四:根据设定好的参数,3’端碱基完全匹配个数,提取出4种形式的引物3’端碱基序列,;
步骤五:依据步骤四的序列,分别匹配出引物的4种形式在基因组上所有存在的位点,4种形式在基因组上所有存在的位点为:第一种是上游引物的3’端序列在基因组中的所有结合位点;第二种是下游引物反向互补后的3’端序列在基因组中的所有结合位点;第三种是下游引物的3’端序列在基因组中的所有结合位点;第四种是上游引物反向互补后的3’端序列在基因组中的所有结合位点;
步骤六:罗列出第一种形式和第二种形式所有的组合,罗列出第一种形式和第二种形式所有的组合,所有的组合该组合扩增出PCR产物满足的条件为:上游引物和下游引物在同一条染色体上,且上游引物位于参考基因组序列的上游;进一步罗列出第三种形式和第四种形式所有的组合,该组合能扩增出PCR产物满足的条件为:下游引物和上游引物在同一条染色体上,且下游引物位于参考基因组序列的上游;
步骤七:根据设定好的参数,也就是扩增出的最大PCR产物长度,筛选出以上所有满足条件的基因组区域,这些区域为扩增出的PCR产物实际序列。
在所述步骤七中,扩增出的PCR产物实际序列中包含有以下信息:上游引物ID,上游引物所在染色体编号,上游引物起始基因组位置,上游引物终止基因组位置,上游引物匹配链的方向,下游引物ID,下游引物所在染色体编号,下游引物起始基因组位置,下游引物终止基因组位置,下游引物匹配链的方向,预测的PCR产物长度。
实施例二
本实施例提供了一种基于基因组信息预测微卫星PCR产物特异性的程序,该程序的运行方法如下:
步骤一:准备好对应的参考基因组序列及引物序列;
步骤二:设置参数1:引物的ID(可人为定义,默认为Primer);
步骤三:设置参数2:引物3’端匹配碱基数目(一般设置为7-15,默认为10);
步骤四:设置参数3:模拟PCR产物的最大长度(根据扩增的目的条带进行设定,默认为3000);
步骤五:设置输出文件名称4:根据使用者需求自行设定;
步骤六:运行命令为:python SPE.V1.py-f[参考基因组序列所在路径]-F[上游引物序列]-R[下游引物序列]-P[参数1]-c[参数2]-l[参数3]-o[输出文件所在路径];
SPE的运行成功后,会生成文本格式文件,每一行代表可能扩增出的PCR产物,共包括11列信息,分别是:上游引物ID,上游引物所在染色体编号,上游引物起始基因组位置,上游引物终止基因组位置,上游引物匹配链的方向,下游引物ID,下游引物所在染色体编号,下游引物起始基因组位置,下游引物终止基因组位置,下游引物匹配链的方向,预测的PCR产物长度。具体示例结果见附图1。预测结果的可视化见附图2。
本发明实现了自动化的上下游引物在基因组中的条件性匹配,并进行特异性评估,对微卫星引物的筛选及物种亲子鉴定评估具有一定的指导意义。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (4)
1.一种基于基因组信息预测微卫星PCR产物特异性的方法,其特征在于,包括以下步骤:
步骤一:将基因组的序列存贮在一个单独的字典当中,其中字典的键是染色体的编号,字典的值是染色体的序列;
步骤二:定义反向互补序列的函数方法,首先将序列反向,然后将序列全部转为大写,再根据碱基互补配对原则,将碱基“A”转换为小写“t”、碱基“T”转换为小写“a”、碱基“G”转换为小写“c”、碱基“C”转换为小写“g”,最后将小写的序列全部大写;
步骤三:定义上下游引物的匹配模式,引物匹配到基因组的情况总共存在4种形式;
步骤四:根据设定好的参数,3’端碱基完全匹配个数,提取出4种形式的引物3’端碱基序列;
步骤五:依据步骤四的序列,分别匹配出引物的4种形式在基因组上所有存在的位点;
步骤六:罗列出第一种形式和第二种形式所有的组合,同时进一步罗列出第三种形式和第四种形式;
步骤七:根据设定好的参数,也就是扩增出的最大PCR产物长度,筛选出以上所有满足条件的基因组区域,这些区域为扩增出的PCR产物实际序列。
2.根据权利要求1所述的一种基于基因组信息预测微卫星PCR产物特异性的方法,其特征在于:在所述步骤五中,4种形式在基因组上所有存在的位点为:第一种是上游引物的3’端序列在基因组中的所有结合位点;第二种是下游引物反向互补后的3’端序列在基因组中的所有结合位点;第三种是下游引物的3’端序列在基因组中的所有结合位点;第四种是上游引物反向互补后的3’端序列在基因组中的所有结合位点。
3.根据权利要求1所述的一种基于基因组信息预测微卫星PCR产物特异性的方法,其特征在于:在所述步骤六中,罗列出第一种形式和第二种形式所有的组合,所有的组合该组合扩增出PCR产物满足的条件为:上游引物和下游引物在同一条染色体上,且上游引物位于参考基因组序列的上游;进一步罗列出第三种形式和第四种形式所有的组合,该组合能扩增出PCR产物满足的条件为:下游引物和上游引物在同一条染色体上,且下游引物位于参考基因组序列的上游。
4.根据权利要求1所述的一种基于基因组信息预测微卫星PCR产物特异性的方法,其特征在于:在所述步骤七中,扩增出的PCR产物实际序列中包含有以下信息:上游引物ID,上游引物所在染色体编号,上游引物起始基因组位置,上游引物终止基因组位置,上游引物匹配链的方向,下游引物ID,下游引物所在染色体编号,下游引物起始基因组位置,下游引物终止基因组位置,下游引物匹配链的方向,预测的PCR产物长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110425764.5A CN113223623B (zh) | 2021-04-20 | 2021-04-20 | 一种基于基因组信息预测微卫星pcr产物特异性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110425764.5A CN113223623B (zh) | 2021-04-20 | 2021-04-20 | 一种基于基因组信息预测微卫星pcr产物特异性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223623A true CN113223623A (zh) | 2021-08-06 |
CN113223623B CN113223623B (zh) | 2022-12-20 |
Family
ID=77088304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110425764.5A Active CN113223623B (zh) | 2021-04-20 | 2021-04-20 | 一种基于基因组信息预测微卫星pcr产物特异性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223623B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1446928A (zh) * | 2003-01-31 | 2003-10-08 | 中国人民解放军南京军区联勤部军事医学研究所 | 基因多态性检测方法 |
WO2004106490A2 (en) * | 2003-05-28 | 2004-12-09 | The Johns Hopkins University | NOVEL METHODS FOR FINDING MUTATIONS CAUSED BY THE INSERTION OF REPETEAD DNAs |
CN108441538A (zh) * | 2018-04-17 | 2018-08-24 | 南昌大学 | 基于多样本高通量测序开发多态性微卫星分子标记的方法 |
CN108642189A (zh) * | 2018-06-05 | 2018-10-12 | 浙江大学 | 大熊猫微卫星多态位点、鉴定方法和引物序列 |
CN110951851A (zh) * | 2019-12-24 | 2020-04-03 | 北京优迅医学检验实验室有限公司 | 用于微卫星不稳定检测的引物组和方法 |
CN111653311A (zh) * | 2020-05-29 | 2020-09-11 | 武汉爱基百客生物科技有限公司 | 一种多重甲基化特异性pcr引物设计方法及系统 |
CN111955486A (zh) * | 2020-08-27 | 2020-11-20 | 湖南省植物保护研究所 | 防治植物害虫的方法、核酸农药及其制备方法和应用 |
-
2021
- 2021-04-20 CN CN202110425764.5A patent/CN113223623B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1446928A (zh) * | 2003-01-31 | 2003-10-08 | 中国人民解放军南京军区联勤部军事医学研究所 | 基因多态性检测方法 |
WO2004106490A2 (en) * | 2003-05-28 | 2004-12-09 | The Johns Hopkins University | NOVEL METHODS FOR FINDING MUTATIONS CAUSED BY THE INSERTION OF REPETEAD DNAs |
CN108441538A (zh) * | 2018-04-17 | 2018-08-24 | 南昌大学 | 基于多样本高通量测序开发多态性微卫星分子标记的方法 |
CN108642189A (zh) * | 2018-06-05 | 2018-10-12 | 浙江大学 | 大熊猫微卫星多态位点、鉴定方法和引物序列 |
CN110951851A (zh) * | 2019-12-24 | 2020-04-03 | 北京优迅医学检验实验室有限公司 | 用于微卫星不稳定检测的引物组和方法 |
CN111653311A (zh) * | 2020-05-29 | 2020-09-11 | 武汉爱基百客生物科技有限公司 | 一种多重甲基化特异性pcr引物设计方法及系统 |
CN111955486A (zh) * | 2020-08-27 | 2020-11-20 | 湖南省植物保护研究所 | 防治植物害虫的方法、核酸农药及其制备方法和应用 |
Non-Patent Citations (2)
Title |
---|
JIANDONG YANG等: ""Microsatellite variability reveals significant genetic differentiation of giant pandas(Ailuropoda melanoleuca) in the Minshan A habitat"", 《ACADEMIC JOURNALS》 * |
杨艾琳等: ""通过二代测序技术开发25个小熊猫的微卫星位点"", 《四川动物》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113223623B (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2022231719B2 (en) | Determination of base modifications of nucleic acids | |
Tang et al. | Human transposon insertion profiling: Analysis, visualization and identification of somatic LINE-1 insertions in ovarian cancer | |
CN104894271B (zh) | 一种检测基因融合的方法及装置 | |
EP3475863B1 (en) | Methods for processing next-generation sequencing genomic data | |
CN105525357A (zh) | 一种测序文库的构建方法及试剂盒和应用 | |
Fujiki et al. | Assessing the accuracy of variant detection in cost-effective gene panel testing by next-generation sequencing | |
CN104302781B (zh) | 一种检测染色体结构异常的方法及装置 | |
CN110211633B (zh) | Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置 | |
Ramos et al. | Nuclear insertions of mitochondrial origin: database updating and usefulness in cancer studies | |
CN103114150B (zh) | 基于酶切建库测序与贝叶斯统计的单核苷酸多态性位点鉴定的方法 | |
US10658069B2 (en) | Biological sequence variant characterization | |
CN113223623B (zh) | 一种基于基因组信息预测微卫星pcr产物特异性的方法 | |
CN115312121A (zh) | 靶基因位点检测方法、装置、介质及程序产品 | |
CN115433768A (zh) | 一种基于ngs扩增子测序技术的igh超突变检测方法及系统 | |
Chang et al. | Mutation analysis of 13 driver genes of colorectal cancer-related pathways in Taiwanese patients | |
CN114974417A (zh) | 一种甲基化测序方法和装置 | |
CN105420392A (zh) | 一组与新生儿肌张力低下表型相关的基因新突变及检测试剂盒 | |
EP2977466B1 (en) | Detecting chromosomal aneuploidy | |
Florea et al. | Detection of Alu exonization events in human frontal cortex from RNA-seq data | |
CN116622836A (zh) | 一种用于检测β-地中海贫血基因突变的引物探针组合及其应用 | |
EP3108394A1 (en) | Variant analysis in high-throughput sequencing applications | |
CN113755593B (zh) | 检测HLA-A基因SNP标记rs1136697-G的PCR扩增引物、试剂盒及方法 | |
US20160103953A1 (en) | Biological sequence tandem repeat characterization | |
Schull et al. | Champagne: whole-genome phylogenomic character matrix method places Myomorpha basal in Rodentia | |
Kim et al. | A Universal Analysis Pipeline for Hybrid Capture-Based Targeted Sequencing Data with Unique Molecular Indexes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |