发明内容
基于此,有必要针对上述问题,提供一种PCR引物设计模板筛选的方法,该方法可系统高效地筛选用于鉴定生物种属的PCR引物设计模板,采用该模板设计得到的PCR引物具有高特异性和高效率的特点。
一种PCR引物设计模板筛选的方法,包括以下步骤
S1、从数据库获取目标种属的基因组,所述基因组中包括已知的变异株的基因组序列,进行多序列全局对比与变异分析;
S2、根据目标种属基因组比对文件,确定基因组中的高度保守序列;
S3、计算高度保守序列的GC%(GC百分比)与碱基随机性;GC%的计算公式为:
碱基随机性的计算方式如下:
设定该段序列长度为L,序列中的碱基数量为n;设定第1位碱基的随机性k
1设为1,若 i+1位碱基与第i位碱基相同,则赋予第i+1位碱基的随机性k
i+1是1;反之,若i+1位碱基与第i位碱基不同,则赋予第i+1位碱基的随机性k
i+1是-1;该段序列的随机性
归一化的随机性
S4、以GC%与碱基随机性作为筛选参数,对高度保守序列的引物设计模板进行筛选。
上述PCR引物设计模板筛选方法,先通过将待鉴别物种包含已知变异株的基因组序列进行全局对比,确定高度保守序列,再引入碱基随机性参数以评估引物设计模板的碱基分布均衡性,选择碱基分布随机性好的引物模板,碱基分布随机性越好则多样性也就越好,引物配对的特异性越高。本发明的方法,改变过往,选择PCR引物设计模板过程依赖于经验、文献检索等效率低、耗时长的方法,致使引物扩增效率与特异性难以均衡的问题。
可以理解的,在当待鉴别物种为RNA时,将GC%的计算公式中的T置换为U。
在其中一个实施例中,所述步骤S1中,获取目标种属的基因组时,应尽量多地纳入已知的变异株的基因组序列。
在其中一个实施例中,所述步骤S1中,利用bwa+samtools+picardtools+GATK流程分析基因组变异。
在其中一个实施例中,所述步骤S2中,确定基因组中高度保守序列的方法为:
1)分析基因组范围内的所有基因变异,确定基因组序列的每个碱基的等位基因变异与等位基因频率;
2)选择序列大小≥200bp的某区段序列,若该区段序列的碱基中发生变异的等位基因≤ 50个碱基,则定义该区段序列为高度保守序列。
需要说明的是,区段序列的变异频率=变异等位基因的数量/分析的病毒株数量。
在其中一个实施例中,所述步骤S2和S3之间还设有步骤S2.1:分析所述高度保守序列的特异性,排除特异性<100%的序列,保留特异性为100%的序列。
在其中一个实施例中,所述步骤S2.1中,利用BLAST工具分析(设定一致性identity>90%) 所述高度保守序列的特异性,方法为:
1)利用Blast软件分析步骤S2筛选出来的保守序列;
2)由Blast输出的结果(output)中存在目标物种之外的物种片段(hit),则显示该段序列的特异性<100%,予以排除;保留特异性为100%的序列。
在其中一个实施例中,所述步骤S4中,以GC%与碱基随机性作为筛选参数,保留同时满足以下条件的序列作为引物设计模板:
1)GC%符合目标物种平均基因组GC含量±10%的序列,
2)将步骤S3所得高度保守序列按Rs从高到低进行排序,Rs位于末位25%以内的序列。
GC%越接近0.5,表明该段DNA序列的碱基均衡性越好。碱基随机性显示同聚碱基,如多个连续的G的发生概率;碱基分布越随机,其多样性越好,引物配对的特异性越高。Rs越小,则显示该段序列的碱基随机性越好。
在其中一个实施例中,所述步骤S4后还有步骤S5:以步骤S4筛选得到的高度保守序列作为引物设计模板,进行引物设计,将得到的引物配对组成引物对,进行PCR扩增测试,以 PCR产物的特异性和丰度作为评价,选择PCR产物单一的引物模板,即为筛选得到的PCR引物设计模板。
PCR扩增测试中,如果引物特异性扩增,则PCR产物单一;若引物特异性差,则产生非特异性产物,例如引物二聚体等。PCR产物的丰度是评价引物扩增效率高低的重要参数。
本发明还提供一种PCR引物设计方法,包括以下步骤:
(1)采用上述方法筛选的PCR引物设计模板;
(2)根据上述PCR引物设计模板设计PCR引物。
上述PCR引物设计方法,以本发明的PCR引物设计模板筛选方法对模板进行筛选,设计得到的PCR引物可用于鉴定某一种系生物,且具有特异性高、检测效率高的优点。
在其中一个实施例中,所述步骤(2)中,设计引物参数为:引物长度为25~35bp,碱基序列GC%为30~70%,产物长度为120~200bp。
本发明另一方面还提供一种上述方法在设计用于鉴定SARS-CoV-2病毒株的PCR引物中的应用。
与现有技术相比,本发明具有以下有益效果:
本发明的PCR引物设计模板筛选方法,先通过将待鉴别物种包含已知变异株的基因组序列进行全局对比,确定高度保守序列,再引入碱基随机性参数以评估引物设计模板的碱基分布均衡性,选择碱基分布随机性好的引物模板,碱基分布随机性越好则多样性也就越好,引物配对的特异性越高。该方法改变过往,选择PCR引物设计模板过程依赖于经验、文献检索等效率低、耗时长的方法,致使引物扩增效率与特异性难以均衡的问题。
本发明的PCR引物设计方法,以本发明的PCR引物设计模板筛选方法对模板进行筛选,设计得到的PCR引物可用于鉴定某一种系生物,且具有特异性高、检测效率高的优点。
具体实施方式
为了便于理解本发明,以下将给出较佳实施例对本发明进行更全面的描述。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例1
本实施例为SARS-CoV-2的特异性PCR引物设计方法,包括以下步骤:
1、从NCBI数据库(https://www.ncbi.nlm.nih.gov/sars-cov-2/)获取26000多个SARS-CoV-2 病毒株的全基因组序列。利用bwa+samtools+picardtools+GATK流程进行基因组比对并分析基因组变异。
2、以步骤1中获得的目标种系基因组比对文件,确定基因组中的高度保守区。确定模板序列中的高度保守区,具体步骤如下:
①分析基因组范围内的所有基因变异,确定基因组序列的每位碱基的等位基因变异与等位基因频率;
②选择序列大小≥200bp的某区段序列,若该设定某区段序列发生变异的等位基因≤50 个碱基,则定义该区段序列为高度保守序列。初步得到如表1中所列举的保守区域。
3、以步骤2获得的保守序列作为高度保守区域的基因序列,利用BLAST工具分析其特异性,排除特异性<100%的区域。
4、计算步骤3中获得的高保守区域的GC%与碱基随机性,GC%的计算公式为:
碱基随机性的计算方法为:设定该段序列长度为L,序列中的碱基数量为n;第1位碱基的随机性k
1设为1,若i+1位碱基与第i位碱基相同,则赋予第i+1位碱基的随机性k
i+1是1;反之,若i+1位碱基与第i位碱基不同,则赋予第i+1位碱基的随机性k
i+1是-1;该段序列的随机性
归一化的随机性
经计算,参数具体如下:
表1经过筛选的PCR引物设计模板及其参数
模板ID |
Len |
GC% |
R Score |
R<sub>s</sub> |
1.orf1ab:4657-4904.len=248 |
248 |
35.89% |
129 |
0.52016129 |
10.orf1ab:17427-17676.len=250 |
250 |
39.60% |
121 |
0.484 |
11.orf1ab:18086-18377.len=292 |
292 |
40.75% |
147 |
0.503424658 |
12.orf1ab:20275-20578.len=304 |
304 |
31.58% |
127 |
0.417763158 |
13.orf1ab:20759-20980.len=222 |
222 |
37.84% |
121 |
0.545045045 |
14.orf1ab:21306-21550.len=245 |
245 |
29.80% |
92 |
0.375510204 |
15.S:23675-23879.len=205 |
205 |
34.63% |
98 |
0.47804878 |
16.orf1ab:13862-14073.len=212 |
212 |
34.43% |
103 |
0.485849057 |
17.N:27771-28050.len=280 |
280 |
50.36% |
125 |
0.446428571 |
2.orf1ab:6762-6982.len=221 |
221 |
27.15% |
84 |
0.380090498 |
3.orf1ab:7162-7393.len=232 |
232 |
32.33% |
73 |
0.314655172 |
4.orf1ab:8078-8327.len=250 |
250 |
36.80% |
123 |
0.492 |
5.orf1ab:8389-8602.len=214 |
214 |
31.31% |
87 |
0.406542056 |
6.orf1ab:11199-11400.len=202 |
202 |
40.10% |
105 |
0.51980198 |
7.orf1ab:13006-13216.len=211 |
211 |
42.65% |
118 |
0.559241706 |
8.orf1ab:13216-13458.len=243 |
243 |
43.62% |
122 |
0.502057613 |
9.ORF1ab:13531-13812.len=282 |
280 |
45.36% |
110 |
0.392857143 |
5、以步骤4筛选得到的高碱基均衡性随机性的高度保守区作为引物设计模板,按照常规引物设计方法(Primer3 v.0.4.0),优化设计参数如下:引物长度:25~35bp、碱基序列:30~70% GC,避免寡聚核苷酸序列,引物二聚体与发夹结构,产物长度:120~200bp。根据Rs参数分别选取4个区域(加粗标识),设计出3对上游引物和下游引物(表2),3条上游引物或3 条下游引物分别为叠瓦结构分布。
表2引物序列
6、以步骤5筛选得到的上游引物与下游引物互相配对组成9个引物对,进行PCR扩增测试,体系如下(表3):
表3扩增体系
2×Master Mix可使用Q5 High-Fidelity 2X Master Mix。运行程序如下:
表3反应条件
PCR程序结束后,产物进行琼脂糖凝胶电泳(2%琼脂糖凝胶,80V,30min),结果如图1~4所示,观察PCR产物的特异性与丰度。
根据凝胶电泳图谱,显示该4个区域的PCR引物扩增的特异性与扩增效率均依次提高。上述结果证实,Rs参数可以有效反应PCR引物设计模板的优劣。本发明所提出的引物设计模板优化筛选的方法是有效的。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
序列表
<110> 广州市金域转化医学研究院有限公司
<120> 一种PCR引物设计模板筛选的方法及应用
<160> 24
<170> SIPOSequenceListing 1.0
<210> 1
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 1
ataattttct gaatgtggtc aaattcgaat 30
<210> 2
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 2
attttctgaa tgtggtcaaa ttcgaatttg 30
<210> 3
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 3
gtggtcaaat tcgaatttga ccgtgat 27
<210> 4
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 4
taatcatatt gaaaatcatt gttcgcatat 30
<210> 5
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 5
gcatcattaa ttcttgctct ctcgttcc 28
<210> 6
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 6
attaattctt gctctctcgt tcccatat 28
<210> 7
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 7
tgatttccgt tctatcaatg ttcatgcat 29
<210> 8
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 8
tgttctccat caaattaaat gatttccgtc 30
<210> 9
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 9
tacatgattt ccgttctatc aatgttcatg 30
<210> 10
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 10
ccaattcata acgcattccg taaaatca 28
<210> 11
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 11
tcataacgca ttccgtaaaa tcattcggta 30
<210> 12
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 12
atatttccaa ttcataacgc attccgta 28
<210> 13
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 13
ccgttgccac atatatcatc caaattcc 28
<210> 14
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 14
tcgccgttgc cacatatatc atccaaat 28
<210> 15
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 15
tatcgccgtt gccacatata tcatccaa 28
<210> 16
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 16
atcacatcca taatctctcc acataccg 28
<210> 17
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 17
tcacaatcac atccataatc tctccaca 28
<210> 18
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 18
tacatccata atctctccac ataccgc 27
<210> 19
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 19
tcaataaatt caatcccatg catcatta 28
<210> 20
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 20
tccatcacgt attcgcaaca tttcaata 28
<210> 21
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 21
aattctctct ccgtttccca tcacgtat 28
<210> 22
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 22
gttggtctct accatacatt ttgttccc 28
<210> 23
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 23
ttgttcccaa ttcggttcaa ttcgtcaa 28
<210> 24
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<400> 24
ttcccaattc ggttcaattc gtcaatca 28