CN114999572B

CN114999572B - 一种设计引物的方法、设备、可读介质及装置

Info

Publication number: CN114999572B
Application number: CN202210828434.5A
Authority: CN
Inventors: 陈明; 郭鑫武; 李淼; 戴立忠
Original assignee: Sansure Biotech Inc
Current assignee: Sansure Biotech Inc
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2024-07-26
Anticipated expiration: 2042-07-13
Also published as: CN114999572A

Abstract

本发明属于生物信息技术领域，具体地，涉及一种设计引物的方法，更具体地，涉及一种基于突变分析构建兼并参考基因组设计引物的方法、设备、可读介质及装置。本发明提供一种设计引物的方法，所述方法包括：S1、获取目标物种序列数据，构建序列数据集；S2、过滤短序列及序列比对；S3、根据所述碱基信息，重新构建兼并碱基的参考序列；S4、对所述S3所构建的参考序列进行引物模板筛选，设计引物。本发明的方法采用种子序列定位及延伸算法比对，其时间复杂度远低于多序列比对，耗时短，可以最大限度的利用目标物种已有序列数据、并在全基因组层面上获得最完整的序列保守信息以确保引物的敏感性。

Description

一种设计引物的方法、设备、可读介质及装置

技术领域

本发明属于生物信息技术领域，具体地，涉及一种设计引物的方法，更具体地，涉及一种基于突变分析构建兼并参考基因组的、筛选引物设计模板、设计引物的方法、设备、可读介质及装置。

背景技术

聚合酶链式反应(Polymerase Chain Reaction，PCR)是在体外放大扩增特定DNA片段的分子生物技术，每次扩增都以上次扩增产物作为模板进行指数扩增，短时间内达到目的DNA片段富集的目标。PCR的基本反应包括三步，变性、退火和延伸。变性阶段双链DNA在高温条件下解链为单链；退火阶段引物在温度下降至适宜温度下与单链DNA模板互补配对；延伸阶段DNA聚合酶以脱氧核糖核苷酸(dNTP)为底物在引物与模板链结合沿5’向3’方向合成一条与模板链互补的新链。PCR作为最基础的分子生物学实验手段之一，被广泛应用于基因工程、微生物诊断等领域。基于核酸的分子检测具有检测速度快、特异性强、易于操作。近年来各种基因诊断技术在微生物检测中不断开发利用，尤其是基于PCR的检测技术发挥着越来越重要的作用。PCR引物设计的好坏是PCR实验成败的一个关键因素，尤其在微生物检测中特异性强、敏感性高的PCR引物尤为重要。

目前，筛选合适的PCR引物往往依赖于经验、文献检索或对目标物种可信度较高的DNA序列进行相似性比对，筛选全部或大部分序列都包含的相同片段即是该物种的保守片段。在保守片段中选择合适区域作为扩增子设计引物。目前常用的多序列比对方法采用渐进式比对或迭代式比对策略，如Muscle、MAFFT、ClustalW、T-Coffee等比对软件。这些方法需先计算两两序列之间的距离，根据距离使用层次聚类算法构建指导树，指导序列两两比对与合并，以得到最优比对结果。部分方法或在此基础上进行适当优化来实现最终的局部或全局比对结果。这些方法都有着很高的时间复杂度，总体时间复杂度不低于O(m²n+kmn)(m为序列的条数，n为序列的长度，k为计算序列相似度的k-mer长度)，在序列较短、序列数较少时能够较好地用于序列保守区段的分析。然而随着测序飞速发展，物种序列越来越多，常规多序列比对花费时间动辄已经以天计数，无法满足分析需求。基于经验、文献检索方法，对物种序列特征没有全局把控，需要不断试错来获得相对理想的引物。这些方法存在效率低、耗时长，以及引物特异性难以均衡等不足。

因此，本领域需要一种引物设计方法，耗时短、效率高和引物特异性能够均衡。

发明内容

有鉴于此，第一方面，本发明提供一种设计引物的方法，包括：

S1、获取目标物种序列数据，构建序列数据集；

S2、过滤短序列及序列比对，包括：设定参考序列长度百分比K为预设值，当序列长度百分比小于预设值时，即过滤，其中，K的取值范围为50～80；将过滤后保留的长序列以参考序列作为模板进行定位比对，统计序列各位置碱基信息；

S3、根据所述碱基信息，重新构建兼并碱基的参考序列，其包括：

当目标位置的碱基频率百分比不小于预设值M，所述碱基为重构序列对应位置的碱基，其中，M的取值范围为60～90；

当目标位置的碱基没有单个碱基满足预设值M，则计算深度最高的两个碱基总频率百分比是否不小于预设值M，若不小于，则所述两个碱基对应的兼并碱基为重构序列对应位置的碱基；

若都不满足，则所述位置为“N”碱基；

S4、对S3所构建的参考序列进行引物模板筛选、设计引物，筛选条件为：

a、片段长度不小于17bp；

b、片段内不含“N”碱基；

c、片段连续17bp长度内兼并碱基个数不大于3，且不连续；

满足所述筛选条件的片段作为被用作引物设计模板序列，构建引物设计模板序列集。

在一些具体的实施方案中，所述目标物种序列数据包括参考序列和目标物种其它基因组核酸序列数据。

在一些具体的实施方案中，所述碱基信息包括各位置碱基比对频数、插入频数、缺失频数，和/或碱基比例。

在一些具体的实施方案中，预设值M优选为80。

在一些具体的实施方案中，所述方法包括：

S4、将S3所构建的参考序列进行筛选，筛选条件为：

a、片段长度17bp～47bp；

b、片段内不含“N”碱基；

c、片段连续17bp长度内兼并碱基个数不大于3，且不连续。

本发明的方法基于突变构建兼并参考基因组筛选引物模板、设计引物。突变分析采用种子序列定位及延伸算法比对，其时间复杂度远低于多序列比对。避免了常规多序列比对算法对序列数目、序列长度的限制，以及正反向序列不兼容的缺陷，可以最大限度的利用目标物种已有序列数据、并在全基因组层面上获得最完整的序列保守信息以确保引物的敏感性。

在一些具体的实施方案中，上述方法进一步包括：引物设计模板序列集内进行初步引物搜索获取引物片段，搜索条件包括：

引物设计模板序列的片段长度为17bp～47bp时，直接作为初步引物；

引物设计模板序列的片段长度为48bp～70bp时，将其分为n份(n＝备用片段长度/24向下取整)作为初步引物；

引物设计模板序列的片段长度大于70bp时，采用常用引物设计软件获取引物、探针。

在一些具体的实施方案中，上述方法进一步包括：对所述初步引物搜索获得的引物片段，确定合适作为引物的片段。

所述确定合适作为引物的片段包括计算初步引物基本信息，例如Tm、长度、CG％、引物自身任何位置和3'端附近出现互补形成二级结构/二聚体，发夹结构的解链温度等。本领域技术人员可以根据需要设定阈值进行确定，初步引物序列不满足设定标准则进行调整。具体调整方法为：以初步引物序列左端开始选取24bp序列计算基本信息，若满足标准则将其作为该初步引物片段的代表序列，不满足则通过调整序列长度或移动位置直至满足标准。

可选的，在一些具体的实施方案中，确定合适片段作为引物还可以：通过组合初步引物使其扩增子长度满足指定范围，前后初步引物片段使用“N”连接构建扩增模板(“N”个数由前、后初步引物位置差决定)，采用常用引物设计软件如primer3等在前、后初步引物区根据设定标准获取引物。

在一些具体的实施方案中，上述方法进一步包括：根据扩增子长度的范围，在确定合适作为引物的片段中检索满足扩增子长度的两两组合引物对，进行模拟PCR。

在一个具体的实施方案中，根据扩增子长度范围为70bp～200bp，在确定合适作为引物的片段中检索满足扩增子长度的两两组合引物对，进行模拟PCR。

另一方面，本发明提供一种设备，包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现上述任一项所述的设计引物的方法。

在一些实施方案中，所述设备还包括至少一个输入设备和至少一个输出设备；在所述设备中，所述处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明的又一方面，提供了一种存储介质，所述存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以实现上述任一项所述的设计引物的方法。

在一些实施方案中，存储介质为计算机可读存储介质。

本发明的又一方面，提供了一种装置，包括：

过滤模块，用于过滤短序列及序列比对；

重构模块，用于重新构建兼并碱基的参考序列；

筛选模块，用于筛选重构模块构建的参考序列、设计引物。

所述过滤短序列进一步包括：设定参考序列长度百分比K为预设值，当序列长度百分比小于预设值时，即过滤，其中，K的取值范围为50～80；将过滤后保留的长序列以参考序列作为模板进行定位比对，统计序列各位置碱基信息。

所述重新构建兼并碱基的参考序列进一步包括：

若都不满足，则所述位置为“N”碱基。

所述筛选重构模块构建的参考序列进一步包括：满足下述筛选条件的片段作为被用作引物设计模板序列，构建引物设计模板序列集：

a、片段长度不低于17bp；

b、片段内不含“N”碱基；

c、片段连续17bp长度内兼并碱基个数不大于3，且不连续。

附图说明

图1为本发明方法的基本流程示意图。

具体实施方式

下文将结合具体实施方案和实施例，具体阐述本发明，本发明的优点和各种效果将由此更加清楚地呈现。本领域技术人员应理解，这些具体实施方案和实施例是用于说明本发明，而非限制本发明。

实施例1、副流感病毒3型引物设计

本发明方法的基本流程如图1所示。

从NCBI数据库下载人副流感病毒3型相关序列共计2318条。

采用本发明方法对该数据集进行引物设计，具体包括以下步骤：

(a)人副流感病毒3型参考序列NC_001796长度为15462bp，过滤序列长度小于15462/2bp的序列，剩余511条为分析序列。以NC_001796为模板，使用minimap2软件对模板序列构建索引，再将剩余分析序列比对到模板序列。根据比对结果统计序列比对到参考基因组各位置碱基比对频数、插入/缺失频数、碱基比例等基本数据；

表1、部分参选基因组各位置碱基比对情况统计数据：

注：Pos:参考基因组位置，REF：指定位置参考基因组碱基型，Dep:比对到的序列数，“+”：插入，“-”：缺失，A、C、G、T(％)：四种碱基型的频数和总体比例，Max％:最高碱基占比；Top2％:top 2类碱基占比；ContinusPos(>0.8):单碱基占比超过80％连续位数，MajBase:最高碱基类型，ContinusPosTop2(>0.8):深度最高前两位碱基占比总和超过80％连续位数，Top2Base:深度最高前两位碱基类型。

(b)根据统计数据以碱基占比阈值为80％构建带兼并碱基的参考序列，并从中筛选长度不小于24bp，兼并碱基个数不超过3且不连续存在的序列为引物备用片段，共计得到201条引物备用片段；

(c)在引物备用片段集内按如下规则进行初步引物搜索：引物备用片段长度不足48bp时，直接作为初步引物；当备用片段长度达到48bp时，备用片段均分为n份(n＝备用片段长度/24取整)作为初步引物寡核苷酸链；

(d)计算初步引物寡核苷酸链基本信息(Tm、长度、CG％、引物自身任何位置和3'端附近出现互补形成二级结构/二聚体any_th、3'_th,发夹结构的解链温度hairpin等)，并根据设定阈值对初步引物序列进行调整(具体调整方法为：以初步引物序列左端开始选取24bp序列计数基本信息，若满足标准则将其作为该初步引物片段的代表序列，不满足则通过调整序列长度或移动位置直至满足标准)或过滤；

表2、初步引物寡核苷酸链过滤标准：

项目	通过标准
		Tm	55≤Tm≤65
GC％	35≤GC％≤65％
		any_th	<30
3'_th	<6
		hairpin	<30

(e)设定扩增子长度L范围：70≤L≤200，在初步引物集中检索满足扩增子长度为L的所有两两组合，并对满足要求的前向F和后向R引物长度进行调整使其Tm值差异不高于5°。从输出结果中筛选适合的PCR引物；

表3、筛选引物序列及基本信息：

(f)对筛选出的引物在核酸序列数据库中进行模拟PCR，检测引物特异性，表4各引物匹配情况：

表4

*Other：代表其他非目标物种匹配情况，包括Bovine respirovirus 3和质粒序列，Bovine respirovirus 3与前向F引物和后向R引物都存在3个以上错配碱基；

由表4结果可见本申请所提出的筛选引物模板、设计引物方法可行，模拟PCR结果显示设计的引物有很好的特异性。

实施例2、腺病毒引物设计

腺病毒是双链DNA病毒，呼吸道感染常见病原体之一，其感染可引起多种疾病。自发现并成功分离以来，已陆续发现了100余个血清型，其中人腺病毒有88种，分为A、B、C、D、E、F、G 7个亚群。本实施例以腺病毒为例，基于突变分析构建简并参考序列设计引物，其步骤包括：

(a)从NCBI官网上下载Human mastadenovirus A、B、C、D、E、F、G所有核酸序列共计14170条。下载序列中最长全基因组序列长度为37885bp,以其为参考序列，过滤长度小于37885/2bp的序列，剩余1530条分析序列。以参考序列为模板，将其它序列与其进行比对分析，根据比对结果统计序列比对道参考基因组各位置碱基比对频数、频数、插入/缺失频数、碱基比例等基本数据；

(b)根据统计数据以碱基占比阈值为80％构建带兼并碱基的参考序列，并从中筛选长度不小于24bp，兼并碱基个数不超过3且不连续存在的序列为引物备用片段，共计得到120条引物备用片段；

(c)引物备用片段集内按如下规则进行初步引物搜索：引物备用片段长度不足48bp时，直接作为初步引物；当备用片段长度达到48bp时，备用片段均分为n份(n＝备用片段长度/24取整)作为初步引物寡核苷酸链；

(d)将计算初步引物寡核苷酸链基本信息(Tm、长度、CG％、引物自身任何位置和3'端附近出现互补形成二级结构/二聚体any_th、3'_th,发夹结构的解链温度hairpin等)，并根据设定阈值调整或过滤；

(e)设定扩增子长度L范围：70≤L≤200，在初步引物集中检索满足扩增子长度为L的所有两两组合，并对满足要求的前向F和后向R引物长度进行调整使其Tm值差异不高于5°。将满足条件的引物对在核酸序列数据库中进行模拟PCR，过滤存在非特异扩增的引物对，从输出结果中筛选适合的PCR引物；

表5、筛选引物序列及基本信息：

(f)对筛选出的引物在核酸序列数据库中进行模拟PCR，检测引物特异性，表6各引物扩增情况：

表6、筛选引物序列模拟PCR结果统计：

以腺病毒为例，若采用多序列比对方法搜索公共序列，1530条序列仅多序列比对步骤耗时超3.5个小时，且比对后总序列长度达7万bp，很难从中搜索共有区段。而本专利所述方法相同配置条件下突变分析及重构参考序列耗时不足10分钟。由此可以看出，本发明的方法在时间上具有显著优势。

Claims

1.一种设计引物的方法，其特征在于，所述方法包括：

S1、获取目标物种序列数据，构建序列数据集；

S2、过滤短序列及序列比对，包括：设定参考序列长度百分比K为预设值，当序列长度百分比小于预设值时，过滤；

其中，K的取值范围为50～80；将过滤后保留的长序列以参考序列作为模板进行定位比对，统计序列各位置碱基信息；

若都不满足，则所述位置为“N”碱基；

S4、对所述S3所构建的参考序列进行引物模板筛选、设计引物，筛选条件为：

a、片段长度不小于17bp；

b、片段内不含“N”碱基；

c、片段连续17bp长度内兼并碱基个数不大于3，且不连续；

2.根据权利要求1所述的方法，其特征在于，所述目标物种序列数据包括参考序列和目标物种其它基因组核酸序列数据。

3.根据权利要求1所述的方法，其特征在于，所述碱基信息包括各位置碱基比对频数、插入频数、缺失频数，和/或碱基比例。

4.根据权利要求1所述的方法，其特征在于，所述预设值M为80。

5.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：引物设计模板序列集内进行初步引物搜索获取引物片段，搜索条件包括：

引物设计模板序列的片段长度为48bp～70bp时，将其分为n份作为初步引物，其中，n＝引物设计模板序列的片段长度/24向下取整；

6.根据权利要求1所述的方法，其特征在于，所述方法进一步包括：根据扩增子长度的范围，在确定合适作为引物的片段中检索满足扩增子长度的两两组合引物对，进行模拟PCR。

7.一种设备，其特征在于，所述设备包括：

至少一个处理器；以及

与至少一个所述处理器通信连接的存储器；其中，

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1～6中任一项所述的设计引物的方法。

8.根据权利要求7所述的设备，其特征在于，所述设备还包括至少一个输入设备和至少一个输出设备；在所述设备中，所述处理器、存储器、输入设备、输出设备之间通过总线连接。

9.一种存储介质，其特征在于，所述存储介质存储有计算机指令，所述计算机指令用于被所述计算机执行以根据权利要求1～6中任一项所述的设计引物的方法。

10.一种装置，其特征在于，所述装置包括：

过滤模块，用于过滤短序列及序列比对；

重构模块，用于重新构建兼并碱基的参考序列；

筛选模块，用于筛选重构模块构建的参考序列、设计引物；

所述过滤短序列进一步包括：设定参考序列长度百分比K为预设值，当序列长度百分比小于预设值时，过滤；其中，K的取值范围为50～80；将过滤后保留的长序列以参考序列作为模板进行定位比对，统计序列各位置碱基信息；

所述重新构建兼并碱基的参考序列进一步包括：

若都不满足，则所述位置为“N”碱基；

a、片段长度不小于17bp；

b、片段内不含“N”碱基；

c、片段连续17bp长度内兼并碱基个数不大于3，且不连续。