CN115064208B - 一种基于最大带边权重团的二代str/snp引物设计方法和系统 - Google Patents

一种基于最大带边权重团的二代str/snp引物设计方法和系统 Download PDF

Info

Publication number
CN115064208B
CN115064208B CN202210807455.9A CN202210807455A CN115064208B CN 115064208 B CN115064208 B CN 115064208B CN 202210807455 A CN202210807455 A CN 202210807455A CN 115064208 B CN115064208 B CN 115064208B
Authority
CN
China
Prior art keywords
primers
weight
primer
str
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210807455.9A
Other languages
English (en)
Other versions
CN115064208A (zh
Inventor
李梦
黄舒
郑立
胡欢
陈初光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yuewei Gene Technology Co ltd
Original Assignee
Beijing Yuewei Gene Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yuewei Gene Technology Co ltd filed Critical Beijing Yuewei Gene Technology Co ltd
Priority to CN202210807455.9A priority Critical patent/CN115064208B/zh
Publication of CN115064208A publication Critical patent/CN115064208A/zh
Application granted granted Critical
Publication of CN115064208B publication Critical patent/CN115064208B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请涉及生物信息学分析领域,具体提供一种基于最大带边权重团的二代STR/SNP引物设计方法和系统,该方法能够针对STR和SNP各自特点,把引物设计转换为求解MEWCP的问题,从而同时设计一组包含SNP和STR的引物,在法医鉴定中具有避免漏检以及更适用于降解检材和短序列测序等优势。

Description

一种基于最大带边权重团的二代STR/SNP引物设计方法和 系统
技术领域
本申请涉及生信分析技术领域,具体涉及一种基于最大带边权重团的二代STR和SNP引物设计方法及系统。
技术背景
短串联重复序列(Short Tandem Repeat,STR)也称做微卫星DNA(micrositelliteDNA),是由2-6个碱基作为核心串联合成的DNA序列,STR具有变异率高,多态性,易检测等特点,因此广泛的应用与法医相关领域的检测。
从1985年开始,STR就已经被应用到法医领域。检测的方法通常是通过毛细管电泳配合荧光标记来达到较高的通量。不同的STR位点被设计成有不同产物长度或者不同的荧光标记,这样就可以区分不同的STR位点。然而毛细管电泳的通量有限,毛细管电泳通常无法区分长度超过1,000bp的片段,而且荧光的颜色超过6种也将变得非常的难以区分,因此毛细管电泳识别的STR的数量一般不超过60个。另一方面,毛细管电泳识别STR依靠ladder和bin,如果新分型不在bin内,则其不能够对STR进行准确的识别。随着高通量测序的发展,越来越多的研究开始转向使用高通量测序来识别STR或者其他标记物。二代测序具有通量大、检测位点多、能够得到STR重复区域序列、不依赖bin值等优点,而且大量的位点也可以用来做亲缘推断。
然而设计二代测序STR引物有难点需要克服。目前市场上主流的Illumian的测序长度不超过300bp,而最常用的长度为150bp。个别STR位点重复区域的长度可以接近200bp左右,如果进一步考虑人群中的多种分型,则不难看出二代STR很容易出现漏检的问题。同时,STR引物的设计要考虑SNP、引物二聚体、特异性等因素。相比于一代测序,STR对引物二聚体的容忍性更小,这些因素如果都通过人为考虑,很难设计出来一组高效的引物。
另一方面,目前针对SNP的多重引物设计主要基于的最大团(MCP)算法,但是该算法只能够得到一组合格的引物而不是寻找最优的引物。在法医中,SNP引物的扩增子要尽可能的短,以更加适合降解检材和短序列测序。
鉴于此,提出本申请。
发明内容
本申请要解决的核心技术问题是寻求一种适于二代测序的,基于最大带边权重团的二代STR和SNP引物设计方法和系统。
为解决上述技术问题,本申请提出一种基于带边权重最大团的自动设计引物流程的算法逻辑,通过把引物距离STR重复区域的最小值、温度、长度等特征融入到边的权重中,用来自动化设计较优的STR引物。同时,本申请把针对SNP的引物设计问题转换为最大带边权重团(MEWCP),通过把引物的扩增子大小、温度、长度等特征融入到边的权重中,从而在优化过程中寻找最优引物。
具体的,本申请提出如下技术方案:
本申请首先提供一种基于最大带边权重团的二代STR/SNP引物设计方法,所述方法包括:
1)获取初始引物集,针对每一个STR/SNP位点获得所有可能的引物:
2)引物初筛过滤,对得到初始引物集,根据GC含量、二聚体和/或Tm值进行引物初筛过滤;
3)引物特异性检查,对非特异性引物进行删除或标记;
4)构建引物间兼容性关系并计算边权重:
确定任意两两引物间是否兼容,同一STR/SNP位点同一侧引物须互不兼容;将每一个STR/SNP位点的每一个引物作为一个顶点,引物间若兼容则连线成边,引物间互不兼容则不构成边;对每条边赋予权重值;
基于上述点和边的关系以及权重值,建立引物设计和MEWCP之间的关系;
5)选取最优引物,针对步骤4的引物设计和MEWCP之间的关系,获取引物最优组合。
进一步的,所述步骤1)中,所述获得为:
根据STR/SNP位点位置信息,在其上下游500bp序列上,以19-33bp为滑动窗口,以1-5个碱基为单位滑动,得到STR/SNP位点的正反向引物集合。
进一步的,所述步骤2)中,所述初筛条件包括如下任一或多个:
a、引物GC含量为20%-80%;
b、引物没有二聚体及发卡结构;
c、引物中不存在SNP位点;
d、引物Tm值范围54-60℃,任意两引物间温度最大差异为2℃。
进一步的,所述步骤3)中,所述特异性检查包括如下任一或多个:
a、位点内部引物的特异性检查:若位点1中某对引物能够扩增出非特异区域,则删除位点1中的此对引物;
b、位点间引物的特异性检查:若位点1中的某引物与位点2中的某引物能够扩增出非特异区域,不删除该2个引物,将其分别标记。
进一步的,所述步骤4)中,所述兼容包括如下任一或多个:
a、引物之间TM值温度兼容,
b、引物之间不能形成二级结构,
c、引物之间不产生非特异性扩增,
进一步的,所述步骤4)中,所述权重包括:两端引物最小距离权重、温度权重、扩增子大小权重和引物长度权重;
所述两端引物最小距离为引物到STR重复区域另一端的最小距离,当同一位点左右两侧引物兼容时,选取此对引物中最小距离计算距离权重;优选的,距离越小权重越大;
所述温度权重为两个引物的TM值的权重;优选的,TM值越接近60℃权重越大;
所述扩增子大小权重为SNP的扩增片段大小的权重;优选的,片段越小权重越大;
所述引物长度权重为引物序列长度的权重;优选的,长度越接近24个碱基,权重越大。
进一步的,所述权重值的具体设定如下:
a、STR/SNP不同位点间的引物兼容,则将其边的权重设置为1;
b、STR/SNP同一位点左右两侧兼容引物的边的权重计算如下:
STR同一位点左右两侧兼容引物的边的权重的计算的优先级为:两端引物最小距离权重>温度权重>引物长度权重;
SNP同一位点左右两侧兼容引物的边的权重的计算的优先级为:扩增子大小权重>温度权重>引物长度权重;
进一步优选的:
所述STR/SNP同一位点左右两侧兼容的引物的边权重的计算的公式分别如下:
STR权重=两端引物最小距离权重×10000+温度权重×1000+引物长度权重×100+1×e6
SNP权重=扩增子大小权重×10000+温度权重×1000+引物长度权重×100+1×e6
进一步的,所述步骤5)中,所述获取为选用诸如ReConSLS算法来进行获取。
本申请还提供一种电子设备,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行上述任一项所述的方法。
本申请还提供一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行上述任一项所述的方法。
本申请至少具有如下有益技术效果:
1)本申请整体基于最大带边权重团设计,能够设计出符合STR和SNP特性的最优引物,在法医鉴定中具有避免漏检以及更适用于降解检材和短序列测序等优势。
2)本申请能够针对STR和SNP各自特点,把引物设计转换为求解MEWCP的问题,从而同时设计一组包含SNP和STR的引物。
3)本申请还考虑引物距离STR重复区域的较短距离,优化的引物必有一端距离STR重复区域尽可能近;本申请还考虑了SNP的扩增片段大小,优化的引物的扩增子长度尽可能的短,更加的适用于降解检材和短序列测序。
4)本申请还考虑TM值、特异性、二聚体、自身二级结构、引物结合区域包含SNP位点等特性对引物进行筛选和过滤。
附图说明
图1、引物设计思路图;
图2、STR和SNP引物设计整体流程图;
图3、引物兼容图构建流程,把找最优引物的问题转化为求解带边权重最大团问题的算法;
图4、需要求解的带边权重最大团的示意图,其中,每一个引物为一个顶点,兼容引物间的连线为边,边上标注出的数值为该条边的权重值,边上未标注数值的边的权重值均为1<<e6(不同位点间兼容的引物);
图5、panel_1中引物扩增的琼脂糖凝胶电泳图;
图6、panel_2中引物扩增的琼脂糖凝胶电泳图;
图7、针对panel_1,不同STR位点的两个引物分别到重复区域的距离图;
图8、针对panel_2,不同STR位点的两个引物分别到重复区域的距离图。
具体实施方式
下面将结合实施例对本申请的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本申请,而不应视为限制本申请的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市场购买获得的常规产品。
部分术语定义
除非在下文中另有定义,本申请具体实施方式中所用的所有技术术语和科学术语的含义意图与本领域技术人员通常所理解的相同。虽然相信以下术语对于本领域技术人员很好理解,但仍然阐述以下定义以更好地解释本申请。
如本申请中所使用,在提及单数形式名词时使用的不定冠词或定冠词例如“一个”或“一种”,“所述”,包括该名词的复数形式。
如本申请中所使用,术语“包括”、“包含”、“具有”、“含有”或“涉及”为包含性的(inclusive)或开放式的,且不排除其它未列举的元素或方法步骤。术语“由…组成”被认为是术语“包含”的优选实施方案。如果在下文中某一组被定义为包含至少一定数目的实施方案,这也应被理解为揭示了一个优选地仅由这些实施方案组成的组。
本申请中的术语“大约”表示本领域技术人员能够理解的仍可保证论及特征的技术效果的准确度区间。该术语通常表示偏离指示数值的±10%,优选±5%。
此外,说明书和权利要求书中的术语第一、第二、第三、(a)、(b)、(c)以及诸如此类,是用于区分相似的元素,不是描述顺序或时间次序必须的。应理解,如此应用的术语在适当的环境下可互换,并且本申请描述的实施方案能以不同于本申请描述或举例说明的其它顺序实施。
以上术语或定义仅仅是为了帮助理解本申请而提供。这些定义不应被理解为具有小于本领域技术人员所理解的范围。
下面结合具体实施例来阐述本申请。
试验例本申请方法构建
对于SNP的引物,由于考虑到降解检材,因此SNP的引物首要考虑的是扩增出的扩增子长度需要尽可能的小,即引物两端都尽可能的离SNP越近。
相比于SNP位点,STR位点包含的重复区域更长,也因此更加的难于设计合格的引物。又考虑到目前市场上主流的illumian测序仪的读长限制,且个别STR位点重复区域的长度可达近200bp左右,而人群中又有多种分型,使得二代STR在大样本中很容易出现漏检的问题,因此在设计STR引物时,需要尽可能的让引物离重复区域的距离较近。从图1可知,在STR多重引物设计中,虽然重复区域两端的引物距离重复区域都很近是最好的,但是在实际中却很难实现,因为STR核心重复单元的附近经常会出现有一些低复杂度的区域。因此我们只要求任意一端的引物离重复区域较近。
本申请的STR/SNP引物设计详细方法步骤如下:
1、获取初始引物集
针对每一个STR/SNP位点找到所有的可能的引物即初始引物集:根据STR/SNP位点的位置信息,在其上下游500bp的序列上,以19-33bp的碱基长度为滑动窗口,以1个碱基为单位滑动,得到STR/SNP位点的正反向引物集合。
2、初始引物过滤
针对上一步得到的每一个STR/SNP位点的引物集,做初步的引物筛选,筛选条件可包括如下:
a、引物的长度在19-33bp范围内,引物序列太短会影响扩增的特异性,引物太长影响扩增的效率。
b、引物的GC含量程序默认范围为20%-80%,或可按照自身需求进行参数调整。
c、引物不能有二聚体及发卡结构,会影响PCR的扩增。单个引物也有可能形成二聚体。
d、引物结合区域不能存在SNP(MAF>1%),若存在SNP则可能导致扩增不出目标区域序列。
e、引物所对应的模板序列的Tm值范围为54-60℃,任意两引物间的温度的最大差异为2℃。
3、引物的特异性检查,用来滤除非特异扩增的引物,增加测序read的利用率。
引物特异性检查具体操作如下:
a、位点内部引物的特异性检查:若位点1中的某对引物能够扩增出非特异区域,则需要删除位点1中的此对引物。
b、位点间引物的特异性检查:若位点1中的某引物与位点2中的某引物,能够扩增出非特异区域,只需将其分别标记出来,不需要在引物集中删除这2个引物。
c、单个引物不能扩增,这是因为某些引物可能结合基因组上距离较近的在正负链上有相同序列的区域从而扩增产生产物。
过短的非特异对文库的危害类似于引物二聚体。
4、构建引物间的兼容图
STR引物间兼容图与SNP引物间兼容图的构建在权重计算上有些许差别,图3为构建STR引物间兼容图的流程。
将每一个引物作为一个顶点vertex,引物间若兼容则连线即称之为边edge,引物间互不兼容则不构成边。另外对于同一位点同一侧的引物是必须要互不兼容。
另外引物间兼容需要满足以下条件:
a、引物的温度的兼容;
b、引物间不能形成二级结构;
c、引物间的特异性兼容;
按照上述条件和方法构建完引物间的兼容图之后,需要对图中的每条边赋予一个权重值weight,权重值设定如下:
a、不同位点间的引物兼容,则将其边的权重设置为1。
b、同一位点左右两侧兼容的引物的边的权重的计算:边权重的计算涉及多方面,包括两端引物最小距离权重d的权重、温度的权重、SNP扩增子大小的权重、引物长度的权重,并且各方面权重的占比也是不一样的。距离d表示引物到重复区域另一端的距离,当同一位点左右两侧引物兼容时,选取此对引物中较小的距离d(最小的距离d)来计算距离权重。
STR/SNP同一位点左右两侧兼容的引物的边权重计算公式如下:
STR权重=两端引物最小距离权重×10000+温度权重×1000+引物长度权重×100+1×e6
SNP权重=扩增子大小权重×10000+温度权重×1000+引物长度权重×100+1×e6
在SNP引物设计的权重中,考虑到高度降解样本的DNA片段可能会比较短,在通过SNP来做相关鉴定工作时,可能会遇到关于SNP位点的DNA模板比设计的引物对应的扩增子还要小的情况,因此在设定SNP同一位点兼容引物间的边权重时,我们会将SNP引物扩增子的大小作为一个比较重要的权重占比,当扩增子越小时,扩增子大小的权重值越大;其次是温度权重,温度越接近60℃权重越大;最后是引物长度权重,通常长度越接近24bp,权重越大;其中1×e6的作用是保证下游算法优先选出最多的位点。
示例性的,本申请构建完成的一个引物间兼容图示如图4所示。
通过这种构造权重和边的方式,本申请就把STR引物和SNP引物的设计问题转化为解MEWCP的问题。
5、选取最优引物
通过上一步的操作,把引物设计问题转化成了MEWCP问题。为了解决MEWCP问题,选出最优的引物组合,我们选用诸如ReConSLS算法来获取引物的最优组合。
实施例 本申请方法验证
1、引物设计、目标区域扩增及初步验证
使用引物设计软件输出常用的法医STR位点的引物、TM温度、到另一端侧翼的最小距离等,得到最初的引物集,通过层层过滤筛选获得最优引物信息,根据引物序列合成引物。
实验部分首先使用合成的引物进行扩增实验,得到扩增产物,然后使用琼脂糖凝胶电泳查看引物的扩增情况,根据扩增情况即电泳条带的清晰程度,调整各位点的引物在实验过程中的投入浓度。下一步是建库测序,使用搭建好的生物信息学流程对数据进行分析。
共使用引物设计软件设计了两批引物,panel_1为50个STR的引物,panel_2为46个STR引物和4个SNP引物,位点名称列见表1和2及琼脂糖凝胶电泳图如图5和6。
表1、panel_1引物的扩增子包含的位点的名称
VWA DYS626 D20S482 DYS438 D17S1290
SE33 D9S2157 D20S470 DYS393 D14S1434
Penta_E D9S1122 DYS587 DYS389I/II D12ATA63
Penta_D D7S1517 DYS576 D20S1082 D11S4463
HPRTB D6S474 DYS570 D1S1677 DYS385a/b
GATA31E08 D6S1017 DYS557 D1S1627 DYF404S1a/b
GATA172D05 D4S2408 DYS527a/b D1GATA113 DYF387S1a/b
GATA165B12 D3S4529 DYS526I D18S51 DXS9902
FGA D3S1744 DYS458 D17S974 DXS9895
DYS630 D2S1776 DYS449 D17S1301 DXS981
Panel_1扩增产物的电泳结果见图5,由图5可知,绝大部分的扩增产物条带清晰。
表2、panel_2引物的扩增子包含的位点的名称
DYS19 DYS448 DYS533 TH01 D7S820
DYS388 DYS456 DYS549 TPOX D6S1043
DYS390 DYS459a/b DYS552 Y_GATA_H4 D21S11
DYS391 DYS460 DYS593 CSF1PO D16S539
DYS392 DYS481 DYS596 D12S391 D5S818
DYS437 DYS508 DYS617 D3S1358 D17_Y_GATA_A10
DYS439 DYS510 DYS622 D13S317 rs13182883
DYS443 DYS520 DYS635 D19S433 rs447205
DYS444 DYS522 DYS643 D2S1338 rs7167880
DYS447 DYS531 DYS645 D8S1179 rs9672254
Panel_2扩增产物的电泳结果见图6,绝大部分的扩增产物条带清晰。
2、建库流程
1)、Panel的配比确定
本申请引物于生工生物工程(上海)有限公司合成,按如下方法溶解引物:以ddH2O作为溶解液将引物稀释到100μM用于后续实验。将100μM的引物部分稀释致10μM,进行单重PCR的扩增并进行电泳检测。
PCR反应体系如下表所述:
试剂名称 体积(μl)
ddH<sub>2</sub>O 4-x
2×Master mix 5
上游引物 0.5
下游引物 0.5
gDNA X(1-10ng)
扩增程序:热盖105℃;95℃3min;95℃10s,60℃20s,72℃30s,30cycles;72℃5min。
扩增完成后进行2%凝胶电泳分析,以条带明暗为初步条件进行引物比例调整,按引物反应终浓度为每条引物0.05μM-0.1μM混合成10×的Panel。
2)、第一轮多重PCR反应
本申请在进行基因检测时,先利用多重PCR扩增目的基因构建基因文库,主要过程为:将人基因组标准品DNA与10×的Panel、PCR扩增试剂混合,进行PCR反应,对目标区域进行扩增。
第一轮反应体系如下表所述:
试剂名称 体积(μl)
ddH2O 11-x
Enhancer buffer NB(1N) 3.5
Enhancer buffer M 2.5
10×Panel 3
gDNA X(1-10ng)
polymerase mixture 10
第一轮PCR扩增反应程序:热盖105℃;95℃3min30s;98℃20s,60°3min,27cycles;72℃5min。
第一轮PCR产物磁珠纯化:
(1)向30μl PCR产物加入27μl室温平衡后的MagPure A3 XP磁珠,用移液器轻缓吸打混匀20次;
(2)室温孵育5min后,将PCR管置于磁力架上3min;
(3)彻底移除上清,将PCR管从磁力架取下,向管内加入50μl YF buffer B用移液器轻缓吸打混匀20次;
(4)室温孵育5min后,将PCR管置于磁力架上3min;
(5)移除上清,PCR管继续放置在磁力架上,向管内加入180μl 80%乙醇溶液,静置30s;
(6)移除上清,PCR管继续放置在磁力架上,向管内加入180μl 80%乙醇溶液,静置30s后彻底移除上清;(建议使用10μl移液器移除底部残留乙醇溶液);
(7)室温静置3min,使残留乙醇彻底挥发;
(8)将PCR管从磁力架取下,加入24μl Nuclease-free water,移液器轻轻吸打重悬磁珠,避免产生气泡,室温静置2min;
(9)将PCR管重新置于磁力架上,静置3min;
(10)用移液器吸取13.5μl上清液,转移到新的200μl PCR管内,管内上清液为合并后的多重PCR产物,用于后续的第二轮PCR反应。
2)第二轮反应体系如下表所示:
组分名称 体积(μl)
第一轮PCR产物 13.5
Enhancer buffer M 2.5
ddH<sub>2</sub>O 2
I5 Index(10μM) 1
I7 Index(10μM) 1
polymerase mixture 10
第二轮PCR反应程序:热盖105℃;95℃3min30s;98℃20s,58℃1min,72℃30s,9cycles;72℃5min。
第二轮磁珠纯化:
(1)向30μlPCR反应体系内加入27μl室温平衡后的MagPure A3 XP磁珠,用移液器轻缓吸打混匀20次;
(2)室温孵育5min后,将PCR管置于磁力架上3min;
(3)彻底移除上清,将PCR管从磁力架取下,向管内加入50μl YF buffer B,用移液器轻缓吸打混匀20次;
(4)室温孵育5min后,将PCR管置于磁力架上3min;
(5)移除上清,PCR管继续放置在磁力架上,向管内加入180μl 80%乙醇溶液,静置30s;
(6)移除上清,PCR管继续放置在磁力架上,向管内加入180μl 80%乙醇溶液,静置30s后彻底移除上清。(建议使用10μl移液器移除底部残留乙醇溶液);
(7)室温静置3min,使残留乙醇彻底挥发;
(8)将离心管从磁力架取下,加入24μl Nuclease-free water或者1×TE buffer(pH 8.0),用移液器轻缓吸打混匀20次,重悬磁珠,避免产生气泡,室温静置2min;
(9)将PCR管重新置于磁力架上,静置3min;
(10)用移液器吸取20μl上清液,转移到新的PCR管中,管中上清为制备好的多重PCR文库。
(11)使用Qubit3.0对纯化后产物进行定量,用琼脂糖凝胶电泳质检确定片段大小。PCR产物测序及数据分析:采用Illumina公司的Novaseq6000测序仪PE250模式进行测序。
3、下机数据分析
根据设计的引物合成引物序列,以9948为模板,进行扩增建库,经Illumina测序,测序策略为PE250,对下机后数据进行分析。
Panel 1设计的50个STR引物进行扩增建库,经测序得到的结果如下,其中的每一个行代表一个STR位点,设计的引物的信息如下表3和图7。其中的距离代表的是引物在hg38参考基因组上到STR重复区域的距离。其中的较小距离代表引物到重复区域的较小的距离,可以看到,STR位点必有一端到重复区域的距离较小。
表3、50个STR引物信息
Figure GDA0003936250930000111
Figure GDA0003936250930000121
Figure GDA0003936250930000131
分型结果如下表4,分型结果和已知分型的9948的分型结果(已知CE平台结果)完全一致,其中DYS527a/b分型结果较差是因为这个STR位点在9948中正好比250bp要长一点,DYS387S1a/b分型部分失败是因为这个点R2端的测序错误率过高。
表4、panel_1的分型结果
Figure GDA0003936250930000141
Figure GDA0003936250930000151
Panel_2设计了46个STR引物和4个SNP引物,以9948为模板进行扩增建库,经测序得到的结果如下表5、6和图8:4个SNP位点的引物,扩增子长度都在150以内,46个STR的引物,其中的较小距离代表引物到STR重复区域的较小的距离。
表5、4个SNP位点的引物信息
Figure GDA0003936250930000152
表6、46个STR的引物信息
Figure GDA0003936250930000153
Figure GDA0003936250930000161
Figure GDA0003936250930000171
Panel 2的分型结果如下表7,分型结果和已知分型的9948的分型结果完全一致,其中DYS635未得到分型结果,因为该位点的深度很低,引物扩增效率低。
表8、Panel_2的分型结果
Figure GDA0003936250930000181
Figure GDA0003936250930000191
综上所述,本申请共设计了100对引物,同批样本间对比,各位点的一致率为100%,与已知的CE平台的结果对比,一致率为100%;位点检出率为99%,效果优势十分明显,充分证明本申请方法的有效性。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (8)

1.一种基于最大带边权重团的二代STR/SNP引物设计方法,其特征在于,所述方法包括:
1)获取初始引物集,针对每一个STR/SNP位点获得所有可能引物:
2)引物初筛过滤,对得到初始引物集,根据GC含量、二聚体和/或Tm值进行引物初筛过滤;
3)引物特异性检查,对非特异性引物进行删除或标记;
4)构建引物间兼容性关系并计算边权重:
确定任意两两引物间是否兼容,同一STR/SNP位点同一侧引物须互不兼容;将每一个STR/SNP位点的每一个引物作为一个顶点,引物间若兼容则连线成边,不兼容则不构成边;对每条边赋予权重值;
基于上述点和边的关系以及权重值,建立引物设计和最大带边权重团之间的关系;
5)选取最优引物,针对步骤4的引物设计和最大带边权重团之间关系,获取引物最优组合;
所述步骤4)中,所述边权重包括:两端引物最小距离权重、温度权重、扩增子大小权重和引物长度权重;
所述两端引物最小距离为引物到STR重复区域另一端的最小距离,当同一位点左右两侧引物兼容时,选取此对引物中最小距离计算距离权重;
所述温度权重为两个引物的Tm值的权重;
所述扩增子大小权重为SNP的扩增片段大小的权重;
所述引物长度权重为引物序列长度的权重;
所述权重值的具体设定如下:
a、STR/SNP不同位点间的引物兼容,则将其边的权重设置为1;
b、STR/SNP同一位点左右两侧兼容引物的边的权重计算如下:
STR同一位点左右两侧兼容引物的边的权重的计算的优先级为:两端引物最小距离权重>温度权重>引物长度权重;
SNP同一位点左右两侧兼容引物的边的权重的计算的优先级为:扩增子大小权重>温度权重>引物长度权重;
所述STR/SNP同一位点左右两侧兼容的引物的边权重的计算的公式分别如下:
STR权重=两端引物最小距离权重×10000+温度权重×1000+引物长度权重×100+1×e*
SNP权重=扩增子大小权重×10000+温度权重×1000+引物长度权重×100+1×e*
2.根据权利要求1所述的引物设计方法,其特征在于,所述步骤1)中,所述获得为:
根据STR/SNP位点位置信息,在其上下游500bp序列中,以19-33bp为滑动窗口,以1-5个碱基为单位滑动,得到STR/SNP位点的正反向引物集合。
3.根据权利要求1所述的引物设计方法,其特征在于,所述步骤2)中,所述初筛过滤的条件包括如下任一或多个:
a、引物GC含量为20%-80%;
b、引物没有二聚体及发卡结构;
c、引物中不存在SNP位点;
d、引物Tm值范围54-60℃,任意两引物间温度最大差异为2℃。
4.根据权利要求1所述的引物设计方法,其特征在于,所述步骤3)中,所述特异性检查包括如下任一或多个:
a、位点内部引物的特异性检查:若位点1中某对引物能够扩增出非特异区域,则删除位点1中的此对引物;
b、位点间引物的特异性检查:若位点1中的某引物与位点2中的某引物能够扩增出非特异区域,不删除该2个引物,将其分别标记。
5.根据权利要求1所述的引物设计方法,其特征在于,所述步骤4)中,所述兼容包括如下任一或多个:
a、引物之间TM值温度兼容,
b、引物之间不能形成二级结构,
c、引物之间不产生非特异性扩增。
6.根据权利要求1所述的引物设计方法,其特征在于,所述步骤5)中,所述获取为选用ReConSLS算法进行获取。
7.一种电子设备,其特征在于,包括:处理器和存储器;所述处理器和存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以执行如权利要求1-6任一项所述的方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-6任一项所述的方法。
CN202210807455.9A 2022-07-08 2022-07-08 一种基于最大带边权重团的二代str/snp引物设计方法和系统 Active CN115064208B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210807455.9A CN115064208B (zh) 2022-07-08 2022-07-08 一种基于最大带边权重团的二代str/snp引物设计方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210807455.9A CN115064208B (zh) 2022-07-08 2022-07-08 一种基于最大带边权重团的二代str/snp引物设计方法和系统

Publications (2)

Publication Number Publication Date
CN115064208A CN115064208A (zh) 2022-09-16
CN115064208B true CN115064208B (zh) 2023-01-03

Family

ID=83206412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210807455.9A Active CN115064208B (zh) 2022-07-08 2022-07-08 一种基于最大带边权重团的二代str/snp引物设计方法和系统

Country Status (1)

Country Link
CN (1) CN115064208B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016049877A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因股份有限公司 无创产前亲子鉴定中基于str分型技术的检测方法和系统
CN111653311A (zh) * 2020-05-29 2020-09-11 武汉爱基百客生物科技有限公司 一种多重甲基化特异性pcr引物设计方法及系统
AU2020104011A4 (en) * 2020-11-17 2021-02-18 Sichuan University Snp-str multiplex system for unbalanced dna mixtures analysis
CN112592981A (zh) * 2020-12-01 2021-04-02 广州精科医学检验所有限公司 用于dna档案建库的引物组、试剂盒和方法
CN114530200A (zh) * 2022-03-18 2022-05-24 北京阅微基因技术股份有限公司 基于计算snp熵值的混合样本鉴定方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030108919A1 (en) * 2001-09-05 2003-06-12 Perlegen Sciences, Inc. Methods for amplification of nucleic acids
WO2012040403A1 (en) * 2010-09-21 2012-03-29 Life Technologies Corporation Se33 mutations impacting genotype concordance
CN108517363B (zh) * 2018-03-08 2022-02-22 深圳华大法医科技有限公司 一种基于二代测序的个体识别体系、试剂盒及其用途
CN113249496B (zh) * 2021-06-30 2021-10-08 北京嘉宝仁和医疗科技有限公司 一种Xq28区域单基因缺陷检测的引物组合物及试剂盒

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016049877A1 (zh) * 2014-09-30 2016-04-07 深圳华大基因股份有限公司 无创产前亲子鉴定中基于str分型技术的检测方法和系统
CN111653311A (zh) * 2020-05-29 2020-09-11 武汉爱基百客生物科技有限公司 一种多重甲基化特异性pcr引物设计方法及系统
AU2020104011A4 (en) * 2020-11-17 2021-02-18 Sichuan University Snp-str multiplex system for unbalanced dna mixtures analysis
CN112592981A (zh) * 2020-12-01 2021-04-02 广州精科医学检验所有限公司 用于dna档案建库的引物组、试剂盒和方法
CN114530200A (zh) * 2022-03-18 2022-05-24 北京阅微基因技术股份有限公司 基于计算snp熵值的混合样本鉴定方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
31个SNP位点多重PCR扩增和芯片分型技术的建立及其法医学应用;李莉 等;《法医学杂志》;20050531;第21卷(第2期);第90-95页 *
A Novel Deep Neural Networks Model Based on Prime Numbers for Y DNA Haplogroup Prediction;JASBIR DHALIWAL ET AL.;《IEEE Access》;20200924;第169096-169105页 *
Data Mining of Rare Alleles to Assess Biogeographic Ancestry;Colleen Callahan et al.;《2021 Systems and Information Engineering Design Symposium (SIEDS)》;20211231;第1-6页 *
二代测序技术在法医学中的应用进展;张素华 等;《法医学杂志》;20160831;第32卷(第4期);第282-295页 *
基于环形DNA 分子的一种求解最大集团的计算模型;杨静 等;《中国科学》;20101231;第40卷(第8期);第1078-1085页 *

Also Published As

Publication number Publication date
CN115064208A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
Ståhlberg et al. Simple multiplexed PCR-based barcoding of DNA for ultrasensitive mutation detection by next-generation sequencing
Warshauer et al. STRait Razor: a length-based forensic STR allele-calling tool for use with second generation sequencing data
Dabney et al. Length and GC-biases during sequencing library amplification: a comparison of various polymerase-buffer systems with ancient and modern DNA sequencing libraries
EP3608420A1 (en) Nucleic acids and methods for detecting chromosomal abnormalities
CN107012225B (zh) 一种基于高通量测序的str基因座的检测试剂盒及检测方法
Müller et al. Systematic evaluation of the early access applied biosystems precision ID Globalfiler mixture ID and Globalfiler NGS STR panels for the ion S5 system
CN106350590B (zh) 用于高通量测序的dna文库构建方法
CN108517363A (zh) 一种基于二代测序的个体识别体系、试剂盒及其用途
CN106520982A (zh) 一种用于身份鉴定的复合分型系统
CN110863056A (zh) 一种人类dna精准分型的方法、试剂和应用
CN113293204B (zh) 基于二代测序平台检测微卫星不稳定性的引物组合物、试剂盒和方法
CN107099529B (zh) 基于二代测序技术的检测基因座的试剂盒及其专用引物组合
CN115064208B (zh) 一种基于最大带边权重团的二代str/snp引物设计方法和系统
CN116287319A (zh) 一种基于二代测序技术检测str和snp的引物组合物、试剂盒和方法及其应用
CN113416769B (zh) 基于二代测序技术检测无对照样本的微卫星不稳定的方法、组合物和用途
Croft et al. Analysis of the premalignant stages of Barrett's oesophagus through to adenocarcinoma by comparative genomic hybridization
CN108060228A (zh) 一种检测brca1和brca2基因变异的检测引物、试剂盒及方法
CN113166757A (zh) 核酸文库的制备和分析方法
CN105316320B (zh) Dna标签、pcr引物及其应用
Al Momani et al. Generating sequencing-based DNA methylation maps from low DNA input samples
CN115035948B (zh) 一种str引物的设计方法和系统
Rodger et al. Protocol for generating high-quality genome-scale DNA methylation sequencing data from human cancer biospecimens
CN113981070A (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
Babol-Pokora et al. SNP-minisequencing as an excellent tool for analysing degraded DNA recovered from archival tissues.
Pfeifer Identity determination in diagnostic surgical pathology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant