CN113571123A - 用于选择性全基因组扩增的引物设计方法、装置及应用 - Google Patents

用于选择性全基因组扩增的引物设计方法、装置及应用 Download PDF

Info

Publication number
CN113571123A
CN113571123A CN202010356271.6A CN202010356271A CN113571123A CN 113571123 A CN113571123 A CN 113571123A CN 202010356271 A CN202010356271 A CN 202010356271A CN 113571123 A CN113571123 A CN 113571123A
Authority
CN
China
Prior art keywords
primer
genome
target
combination
combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010356271.6A
Other languages
English (en)
Other versions
CN113571123B (zh
Inventor
李英镇
林宇锋
李晴晴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huada Biotechnology Wuhan Co ltd
Bgi Guangzhou Medical Laboratory Co ltd
Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Original Assignee
Huada Biotechnology Wuhan Co ltd
Bgi Guangzhou Medical Laboratory Co ltd
Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huada Biotechnology Wuhan Co ltd, Bgi Guangzhou Medical Laboratory Co ltd, Shenzhen Huada Yinyuan Pharmaceutical Technology Co Ltd filed Critical Huada Biotechnology Wuhan Co ltd
Priority to CN202010356271.6A priority Critical patent/CN113571123B/zh
Publication of CN113571123A publication Critical patent/CN113571123A/zh
Application granted granted Critical
Publication of CN113571123B publication Critical patent/CN113571123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请公开了一种用于选择性全基因组扩增的引物设计方法、装置及应用。本申请的方法包括,引物设计参数设置步骤,预先设置引物长度、引物组合个数,引物组合在目标基因或背景基因的平均距离、最大距离、分布均匀性;引物设计步骤,利用k‑mer在背景基因与目标基因中的差异设计引物;引物组合筛选步骤,输出最优的N个引物组合;引物组合测评步骤,模拟各引物组合对各目标基因的覆盖率,预计可能丢失的区域;结果分析步骤,输出每组实验的目标基因组覆盖率和深度图,以便根据实验情况筛选引物组合。本申请的方法,可设计能同时富集多个目标基因的引物组合,能有效提高目标基因覆盖度,在同等条件下比现有的引物设计流程缩短约80%的时间。

Description

用于选择性全基因组扩增的引物设计方法、装置及应用
技术领域
本申请涉及从全基因组中选择性的扩增富集靶标序列的技术领域,特别是涉及一种用于选择性全基因组扩增的引物设计方法、装置及应用。
背景技术
选择性全基因组扩增(selective whole genome amplification,缩写sWGA),是针对全基因组或者背景基因中的靶标核酸序列设计选择性偏向性的随机引物,采用设计的随机引物对全基因组进行扩增,从而起到富集靶标核酸序列的作用。
选择性全基因组扩增最初由宾夕法尼亚大学生物系的Dustin Brisson教授开发,目前已经有零星的文章报道中提及,将sWGA技术用于痕量样本的靶标核酸富集,例如SeshA.Sundararaman于2016年报道针对疟原虫属设计了具有偏向性的引物对血点样本进行富集处理,在取得20倍以上富集效果的同时具备定性到种的作用。选择性全基因组扩增的效果好坏取决于选择性随机引物的设计和筛选,特别是设计的引物对特定的靶标核酸序列的偏向性。
目前,用于选择性全基因组扩增的引物设计主流技术方案主要有两种:
Aaron R.Leichty等提出通过在背景核酸序列和靶标核酸序列差异较大的基因,例如线粒体基因等进行比对,在比对差异的地方进行引物设计。这种引物设计方式主要是针对差异较大的基因,不是基于全基因组进行的引物设计,无法满足人基因组中富集病原微生物序列的使用需求。
另一种方案是,Erik L.Clarke等利用基因组序列的滑动区间(k-mer)在背景核酸序列与靶标核酸序列中的差异进行筛选偏向靶标核酸扩增的引物,引物筛选过滤的参数包括,较低的背景核酸序列结合频率、较高的靶标核酸序列结合频率、引物在靶标中的均匀分布和覆盖(即要求基尼系数大于0.6)、合适的Tm值等。根据以上参数筛选,获得排名前200的最佳引物,用于后续的选择性全基因组扩增引物组评选;具体的,引物组评选包括,选择相容性较好的引物,形成引物组合,并对各个引物组合进行多个标准的评估,包括结合频率和均匀度,获得评估分数高于阈值的引物组合,存储并根据指令输出符合要求的引物组合,即最终的选择性全基因组扩增引物。
Erik L.Clarke利用基因组序列的滑动区间进行的选择性全基因组扩增的引物设计方案,理论上能够满足人基因组中富集病原微生物序列的使用需求。但是,这种方式存在以下不足:1)运行时长,按照Erik L.Clarke的设计流程跑一个3.5M的细菌基因组需要2个星期才能出结果;2)只能针对单一靶标,Erik L.Clarke流程在面对两个或多个靶标时,没有结果输出,即不能对多靶标进行富集,例如不能设计针对多个病原微生物的引物组合;3)即便是针对单一的病原微生物,Erik L.Clarke设计流程获得的引物组合在微生物覆盖上仍然较差,目前文章报道的引物组合序列在微生物上的覆盖度只有30%左右。
因此,如何缩短运行时间、增加单次运行靶标序列、提高引物覆盖度,是基于选择性全基因组扩增技术富集病原微生物序列的重点和难点。
发明内容
本申请的目的是提供一种改进的用于选择性全基因组扩增的引物设计方法、引物设计装置及应用。
本申请采用了以下技术方案:
本申请的第一方面公开了一种用于选择性全基因组扩增的引物设计方法,包括以下步骤:
引物设计参数设置步骤,包括预先设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离;
引物设计步骤,包括利用基因组序列的滑动区间(k-mer)在背景基因组与目标基因组中的差异,根据引物设计参数设置步骤设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选;
引物组合筛选步骤,包括利用穷举法,根据引物设计参数设置步骤设置的参数,对引物设计步骤获得的引物进行筛选,并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值、引物组合在目标基因组中的最大距离、引物组合在目标基因组中的平均距离、引物组合在背景基因组中的平均距离,输出最优的N个引物组合,以供后续评估;其中,N为整数,例如本申请的一种实现方式中,是输出最优的10个引物组合以供后续评估和筛选;
引物组合测评步骤,包括根据引物设计参数设置步骤设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,以便于引物组合筛选;即对输出的N个引物组合分别进行模拟测评;本申请的一种实现方式中,将引物覆盖程度和可能丢失的区域通过图像或表格的形式展示出来,以便筛选;
结果分析步骤,包括根据引物设计参数设置步骤设置的参数,以及引物组合测评步骤的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映每个引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。
本申请的引物设计方法与现有的引物设计方案相比,第一,缩短了运行时间,尤其是与Erik L.Clarke流程相比,本申请的引物设计方法中,筛选逻辑是先初筛,再细筛,而Erik L.Clarke只有一步筛选的过程,所以本申请方法在自动化时比Erik L.Clarke更节省运算资源,在本申请的一种实现方式中,同等条件下比Erik L.Clarke流程缩短80%的时间;另外,本申请的一种实现方式中,可以使用jellyfish分析软件进行本申请的引物设计和筛选,而Erik L.Clarke流程使用的是bedtool,在运算时间上本申请方法耗时更少。第二,增加了靶标运行数量,本申请引物设计方法的逻辑是,将靶标A1、A2、A3……多个物种的核酸序列组装成一个整体再跟物种B进行对比及引物设计;而Erik L.Clarke流程只能分别将靶标A1与物种B、靶标A2与物种B、靶标A3与物种B分别进行对比及引物设计;因此,本申请的引物设计方法,能够设计同时针对多种靶标的引物组合,相当于常规PCR扩增中的通用引物;本申请的一种实现方式中,可以同时运行7种以上靶标并获得在各个靶标分布较好的引物。第三,本申请通过合理的引物筛选,使得引物设计得更合理、分布较密集,设计的引物具有更广的适用性,提高了引物的覆盖度;本申请的一种实现方式中,理论覆盖性提高了30%以上。第四,本申请的引物设计方法,在引物设计过程中考虑引物长度、引物间距离、引物基尼系数、引物二级结构等一系列的因素,这些因素综合考量,提升了设计的引物组合的性能,从而使得本申请的设计方法获得的引物组合应用在实际样本上微生物获得30-80倍的提升。
优选的,本申请的引物设计方法中,引物设计步骤还包括对每个设计的引物的发夹结构进行筛选。
需要说明的是,本申请的引物设计方法中,可以根据设计引物的要求添加发夹结构筛选,例如,可以根据设计的引物的长度以及实验的具体操作选择是否需要筛选发夹结构,减少引物二级结构的产生,提高后续的扩增效益。
优选的,本申请的引物设计方法中,引物组合筛选步骤,还包括根据是否构成引物二聚体和基尼系数对引物组合进行筛选,在具有多个目标基因组时,统计每个引物组合在各个目标基因组的参数,并根据(比对上目标基因组的频数×基尼系数)÷比上背景基因组的频数的比值,对每个引物组合进行评估。
需要说明的是,目标基因组是指要从背景基因组中富集的靶标,例如本申请的一种实现方式中,具体是指病原微生物基因组;考虑到各个病原微生物基因组的差异度较大,本申请优选的技术方案中对每个目标微生物基因组单独做了分析再做过滤,统计每组引物组合在不同病原微生物上的参数,根据(比对上目标基因组的频数×基尼系数)÷比上背景基因组的频数的比值,得到各个参数下最优的引物组合序列,以供筛选使用。
本申请的第二方面公开了一种用于选择性全基因组扩增的引物设计装置,包括引物设计参数设置模块、引物设计模块、引物组合筛选模块、引物组合测评模块和结果分析模块,引物设计参数设置模块,包括用于设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离;引物设计模块,包括用于利用基因组序列的滑动区间在背景基因组与目标基因组中的差异,根据引物设计参数设置模块设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选;引物组合筛选模块,包括用于利用穷举法,根据引物设计参数设置模块设置的参数,对引物设计模块获得的引物进行筛选,并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值、引物组合在目标基因组中的最大距离、引物组合在目标基因组中的平均距离、引物组合在背景基因组中的平均距离,输出最优的N个引物组合,以供后续评估;引物组合测评模块,包括根据引物设计参数设置模块设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,并通过图像或表格的形式展示出来,以便于引物组合筛选;结果分析模块,包括根据引物设计参数设置模块设置的参数,以及引物组合测评模块的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映每个引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。
需要说明的是,本申请的引物设计装置实际上就是通过各个模块自动化的实现本申请的引物设计方法中的各个步骤;因此,本申请的引物设计装置中的各个模块的优选方案可以参考本申请的引物设计方法,在此不累述。
本申请的第三方面公开了另一种用于选择性全基因组扩增的引物设计装置,该引物设计装置包括存储器和处理器;存储器用于存储程序;处理器用于通过执行存储器存储的程序,从而实现本申请的引物设计方法。
需要说明的是,本申请的引物设计方法,除了可以采用专用的引物设计装置实现自动化设计以外,还可以将引物设计方法中的各个步骤通过编程实现自动化,程序可以存储于计算机的可读存储介质中,例如,只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现本申请的引物设计方法。该程序可以存储在设备的存储器中,或者存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,然后在通过处理器执行存储器中的程序,即可实现本申请的引物设计方法。
因此,本申请的第四方面公开了一种计算机可读存储介质,起包括程序,该程序能够被处理器执行用以实现本申请的引物设计方法。
本申请的第五方面公开了本申请的引物设计方法,或者本申请任意一种引物设计装置获得的引物组合。
可以理解,与现有的设计方法获得的引物组合相比,一方面,本申请的引物组合,对目标基因组具有更高的覆盖度;另一方面,本申请的引物组合可以对多个目标基因组进行富集,即采用本申请的引物设计方法或装置能够针对多个目标基因组设计引物组合;再一方面,对相同的目标基因组,本申请的引物组合设计时间更短,效率更高。
本申请的第六方面公开了本申请的引物组合在人或其它宿主基因组中富集病原微生物基因组或病原微生物特异性基因的应用。本申请中,病原微生物特异性基因,例如包括耐药基因、毒力基因、病原微生物检测鉴定特异性基因等。
需要说明的是,本申请的引物设计方法或装置,实际上就是针对基于选择性基因组扩增技术富集病因微生物基因组而研发的;因此,由本申请的引物设计方法或装置获得的引物组合可以用于在人或其它宿主基因组中富集病原微生物基因组或病原微生物特异性基因。
本申请的第七方面公开了一种基于选择性基因组扩增技术富集病原微生物基因组或病原微生物特异性基因的方法,包括采用本申请的引物设计方法或本申请的引物设计装置,获得以病原微生物基因组或病原微生物特异性基因为目标基因组的引物组合,采用获得的引物组合对待处理核酸样品进行扩增富集,从而实现病原微生物基因组或病原微生物特异性基因的富集。
本申请的第八方面公开了一种基于选择性基因组扩增技术从人类基因组中富集病原微生物基因组的引物组合,该病原微生物基因组包括大肠杆菌基因组、金黄色葡萄球菌基因组和白色念珠菌基因组;
引物组合为第一引物组合、第二引物组合、第三引物组合中的至少一组;第一引物组合包括Seq ID No.1至Seq ID No.5所示序列的引物,第二引物组合包括Seq ID No.6至Seq ID No.10所示序列的引物,第三引物组合包括Seq ID No.11至Seq ID No.15所示序列的引物;且所有引物3’端第二和第三个碱基都具有磷酸化修饰。
需要说明的是,本申请的第一引物组合、第二引物组合、第三引物组合,实际上就是本申请的一种具体实现方式中,采用本申请的引物设计方法或装置设计获得的针对大肠杆菌、金黄色葡萄球菌和白色念珠菌三个目标基因组富集的三个优选引物组合。可以理解,本申请的第一引物组合、第二引物组合、第三引物组合,一方面,其证实了本申请的引物设计方法和装置的确可以对多个目标基因组进行引物组合设计,并且,能够获得更高的目标基因组覆盖度;另一方面,这三个具体的引物组合只是本申请的一种实现方式中具体采用的引物组合,不排除还可以有其它更多的引物组合或序列。
本申请的有益效果在于:
本申请用于选择性全基因组扩增的引物设计方法,可以设计能够同时富集多个目标基因组的引物组合,并且能够有效提高目标基因组的覆盖度,从而很好的满足病原微生物基因组富集的使用需求。本申请的引物设计方法,在同等条件下比现有的引物设计流程缩短约80%的时间,提高了引物设计效率和质量。
附图说明
图1是本申请实施例中用于选择性全基因组扩增的引物设计方法的流程图;
图2是本申请实施例中用于选择性全基因组扩增的引物设计装置的结构图;
图3是本申请实施例中三组引物组合在金黄色葡萄球菌全基因组上的覆盖情况分析图;
图4是本申请实施例中三组引物组合在格特隐球菌全基因组上的覆盖情况分析图;
图5是本申请实施例中三组引物组合在肺炎克雷伯菌全基因组上的覆盖情况分析图;
图6是本申请实施例中三组引物组合在嗜麦芽寡养单胞菌全基因组上的覆盖情况分析图;
图7是本申请实施例中三组引物组合在屎肠球菌全基因组上的覆盖情况分析图;
图8是本申请实施例中三组引物组合在铜绿假单胞菌全基因组上的覆盖情况分析图。
具体实施方式
现有的基于选择性基因组扩增技术富集病原微生物的引物设计流程主要是ErikL.Clarke等研发的引物设计方案,但是,该方案存在运行时间长、只能针对单一靶标、微生物覆盖度低等不足。
为了提高富集质量和效率,本申请在Erik L.Clarke引物设计流程的基础上进行改进,改变引物设计和筛选的参数和条件,并增加引物组合的测评和结果分析,使得本申请的引物设计方法能够很好的克服现有引物设计流程的不足。
本申请的用于选择性全基因组扩增的引物设计方法,如图1所示,包括引物设计参数设置步骤11、引物设计步骤12、引物组合筛选步骤13、引物组合测评步骤14和结果分析步骤15。
其中,引物设计参数设置步骤11,包括预先设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离。本申请的一种实现方式中,引物设计参数设置步骤实际上就是参数的初始化,可以参照相关文献和实验经验给出了每个参数的默认值,并且可以根据使用需求,个性化修改各参数,包括引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离等,其个性化设计可行性相对较高,可修改和调整空间较大。
引物设计步骤12,包括利用基因组序列的滑动区间(k-mer)在背景基因组与目标基因组中的差异,根据引物设计参数设置步骤设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选。
本申请的引物设计步骤,摒弃了Erik L.Clarke等在2017年提出的sWGA的筛选理念,排除了每个引物必须在每个微生物算分布均匀(即基尼系数大于0.6)才能通过筛选的设定,能使更多的引物通过筛选,进入下一模块的引物组合筛选步骤阶段。因为在多病原或多种微生物集成的数据库中,引物不可能均匀存在每一个微生物中,但只要控制引物组合的构成,则能达到相同的效果,并且为下一环节提供更多的筛选可能性。在引物设计步骤,还可以根据设计引物的要求添加发夹结构筛选,可根据设计的引物的长度以及实验具体操作选择是否需要筛选发夹结构,减少引物二级结构的产生,提高后续的扩增效益。
其中,基尼系数是指国际上通用的、用以衡量一个国家或地区居民收入差距的常用指标。基尼系数介于0-1之间,基尼系数越大,表示不平等程度越高。随着数学、生物、信息等学科的相互融入,生物信息交叉学科引用了用于评判经济发展、财富分配均匀的基尼系数。根据引物在目标基因组的分布情况,计算基尼系数,排除分布不均匀或有聚集的引物组合。基尼系数最大为“l”,表示引物之间的分布绝对不平均,即所有的引物只占了一个位置;最小为“0”,表示引物之间的分布绝对平均,即引物完全均匀地分布在目标基因组的每个位置,没有任何差异。在现实中一般不会出现基尼系数等于0或等于1的情况,因此基尼系数的实际数值只会介于0~1之间,如果引物分布越不均匀,则基尼系数越大,越接近1,如果引物分布越均匀,则基尼系数越小,越接近0。
引物组合筛选步骤13,包括利用穷举法,根据引物设计参数设置步骤设置的参数,对引物设计步骤获得的引物进行筛选,并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值、引物组合在目标基因组中的最大距离、引物组合在目标基因组中的平均距离、引物组合在背景基因组中的平均距离,输出最优的N个引物组合,以供后续评估;其中,N为整数,例如本申请的一种实现方式中,是输出最优的10个引物组合以供后续评估和筛选。
本申请的一种实现方式中,在引物组合筛选步骤,根据引物设计参数设置步骤设计的相关参数,按照试验人员设计的阈值,进行多参数筛选,包括挑选用来设计引物组合的引物总个数、引物物组合个数范围、是否过滤能构成引物二聚体的结构、基尼系数大小、引物组合在目标基因组中的平均距离、引物组合在目标基因组中的最大距离等。在引物组合筛选步骤,会输出Ratio(引物组合在目标基因组的结合位点数/引物组合在背景基因组的结合位点数)、Max_target_dist(引物组合在目标基因组中的最大距离)、Mean_target_dist(引物组合在目标基因组中的平均距离)、Mean_bg_dist(引物组合在背景基因组中的平均距离)最优的10个组合以供挑选。在这个步骤中,因为目标微生物的差异度较大,本申请优选的对每个目标微生物的基因组单独做了分析再做过滤,统计每组引物组合在不同病原微生物基因组上的参数,根据换算关系:分数=比对上靶标病原的频数×基尼系数÷比上背景库的频数,得到各个参数下最优的组合序列,以供挑选。
引物组合测评步骤14,包括根据引物设计参数设置步骤设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,并通过图像或表格的形式展示出来,以便于引物组合筛选。本申请的引物组合测评步骤,主要是通过直观的形式将覆盖度和可能丢失的区域展示出来,以方便使用者挑选或针对不同的情况和需求挑选相应的引物组合。
结果分析步骤15,包括根据引物设计参数设置步骤设置的参数,以及引物组合测评步骤的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映每个引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。本申请的结果分析步骤,主要是为实验操作人员提供直观的、明了的结果,方便其根据实验结果做进一步的完善以及挑选。
本领域技术人员可以理解,本申请的引物设计方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。因此,在本申请的引物设计方法的基础上,本申请进一步的研发了一种用于选择性全基因组扩增的引物设计装置,如图2所示,包括引物设计参数设置模块21、引物设计模块22、引物组合筛选模块23、引物组合测评模块24和结果分析模块25。其中,引物设计参数设置模块21,包括用于设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离;引物设计模块22,包括用于利用基因组序列的滑动区间在背景基因组与目标基因组中的差异,根据引物设计参数设置模块21设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选;引物组合筛选模块23,包括用于利用穷举法,根据引物设计参数设置模块21设置的参数,对引物设计模块22获得的引物进行筛选,并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值、引物组合在目标基因组中的最大距离、引物组合在目标基因组中的平均距离、引物组合在背景基因组中的平均距离,输出最优的N个引物组合,以供后续评估;引物组合测评模块24,包括根据引物设计参数设置模块21设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,并通过图像或表格的形式展示出来,以便于引物组合筛选;结果分析模块25,包括根据引物设计参数设置模块21设置的参数,以及引物组合测评模块24的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映每个引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。
可以理解,本申请的引物设计方法,其目的是设计获得能够有效的富集多个靶标病原微生物的引物组合,因此,在本申请引物设计方法的基础上,本申请进一步的研发了基于选择性基因组扩增技术富集病原微生物基因组或病原微生物特异性基因的方法,即采用本申请引物设计方法或装置获得的引物组合进行扩增,富集病原微生物基因组或病原微生物特异性基因。
并且,本申请的一种具体实现方式中研发了三组具体的引物组合,用于对大肠杆菌基因组、金黄色葡萄球菌基因组和白色念珠菌基因组,三种病原微生物集成的数据库进行富集。三组引物组合即Seq ID No.1至Seq ID No.5所示序列引物组成的第一引物组合,Seq ID No.6至Seq ID No.10所示序列引物组成的第二引物组合,Seq ID No.11至Seq IDNo.15所示序列引物组成的第三引物组合。
下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例用于选择性全基因组扩增的引物设计方法,包括以下步骤:
引物设计参数设置步骤,包括预先设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离。可以参照相关文献和实验经验给出了每个参数的默认值,并且可以根据使用需求,个性化修改各参数;具体的,本例的引物的长度范围为8-12bp、引物组合在目标基因组的平均距离为100,000bp、引物组合在背景基因组的平均距离为1,000,000bp,各参数设置详见表1。
引物设计步骤,包括利用基因组序列的滑动区间(k-mer)在背景基因组与目标基因组中的差异,根据引物设计参数设置步骤设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选;另外,可以根据需求选择性的对每个设计的引物的发夹结构进行筛选。
引物组合筛选步骤,包括利用穷举法,根据引物设计参数设置步骤设计的相关参数,按照试验人员设计的阈值,进行多参数筛选,包括挑选用来设计引物组合的引物总个数、引物物组合个数范围、是否过滤能构成引物二聚体的结构、基尼系数大小、引物组合在目标基因组中的平均距离、引物组合在目标基因组中的最大距离等;并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值(Ratio)、引物组合在目标基因组中的最大距离(Max_target_dist)、引物组合在目标基因组中的平均距离(Mean_target_dist)、引物组合在背景基因组中的平均距离(Mean_bg_dist),输出最优的10个引物组合,以供后续评估。本例的引物组合筛选步骤,考虑到多个目标病原微生物的差异较大,本例对每个目标微生物的基因组单独做了分析再做过滤,统计每组引物组合在不同病原微生物基因组上的参数,根据换算关系:分数=比对上靶标病原的频数×基尼系数÷比上背景库的频数,得到各个参数下最优的组合序列,以供挑选。
引物组合测评步骤,包括根据引物设计参数设置步骤设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,并通过图像或表格的形式展示出来,以便于引物组合筛选。
结果分析步骤,包括根据引物设计参数设置步骤设置的参数,引物组合测评步骤的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映各引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。
本例各步骤的参数设置如表1所示。与此同时,本例采用现有的Erik L.Clarke引物设计流程作为对比,现有流程的参数设置详见表1。
表1引物设计流程参数设置
Figure BDA0002473591300000111
其中,由于反应温度的制约以及CG含量比例的制约,在设计引物的时候长度无法达到只有5-7bp,过短容易造成引物错配或者匹配不稳定;因此本例采用了8-12bp的引物默认值,可以根据自身分析需求修改。目标基因组的最小平均距离以及背景基因组的最大平均距离,约束为固定值,由于考虑到PCR的引物扩增具有一定的扩增范围,一般为5kb-15kb,因此本例采用固定值相对于现有流程采用目标全基因组大小的1/100000或背景全基因组大小的1/150000更合适。发夹结构方面,可以根据自身的设计需求,选择使用或者不使用;因为考虑到本例是多病原微生物的检测,在必要的时候为了扩增出大部分的目标基因组,可以降低阈值。并且,本例采用Jellyfish进行引物筛选,实测Jellyfish的引物筛选速度比bedtool更快。
表1中,引物二聚体,可以根据实验要求以及设计需求决定是否需要考虑引物二聚体的影响,使系统的可调性更高,更加灵活。本例将靶标基因的平均距离设置得更低,出的组合对数更少,但是组合的效果理论上更好。背景基因组的平均距离,因为在引物筛选模块已经对引物在背景基因组的频数做了约束,因此在引物筛选步骤不考虑背景基因组的平均距离对结果的影响。靶标基因的最大距离,设置这个指标是为了防止在靶标基因组上数据集中丢失,由于选择性全基因组扩增不一定能完全扩增出来,只能覆盖大部分的目标基因组,因此加入目标基因的最大距离使得结果更加严谨。本例的引物设计方法,其评分更加多元化,包括基尼系数、比例、目标基因最大距离、目标基因平均距离、背景基因平均距离、评分等,能从更多方面考虑参数的影响。另外,表1中的“每个引物位点假设覆盖的长度”,由于每个引物覆盖的范围大概是5-15kb,因此默认每个引物的覆盖率为10kb。
本例按照表1的参数,对比大肠杆菌、金黄色葡萄球菌、白色念珠菌三种病原微生物的基因组和Hg19背景基因组的差异,设计对该三种病原微生物基因组高结合,且对人源基因组低结合的引物组合。
本例的引物设计方法中,引物设计参数设置步骤、引物设计步骤、引物组合筛选步骤、引物组合测评步骤和结果分析步骤都可以通过自动化的编程实现,因此,本例特别研发了一种用于选择性全基因组扩增的引物设计装置,其包括引物设计参数设置模块、引物设计模块、引物组合筛选模块、引物组合测评模块和结果分析模块,各个模块分别用于实现本例引物设计方法中的各步骤。
为了方便使用,本例进一步的研发了一种用于选择性全基因组扩增的引物设计装置,其包括存储器和处理器,存储器用于存储程序,处理器用于通过执行存储器存储的程序以实现本例的引物设计方法。也就是说,本例通过编程程序实现引物设计方法的各步骤,并且该程序可以在现有的处理器上执行。本例的引物设计程序工作方式如下:
输入三种病原微生物的目标基因组序列fa文件、背景基因组序列fa文件、运行路径地址、预安装软件jellyfish路径、靶标病原fa文件id与名称对应表格。获得PDPD-sWGA运行参数文件、新靶标病原fa文件id与名称对应表格、靶标病原全基因组长度统计表格。
结果说明:PDPD-sWGA运行参数文件,后续各模块运行需要调用此文件中设置的参数,使用者也可以根据自身的分析需求个性化调整参数。新靶标病原fa文件id与名称对应表格,即将原靶标病原fa文件id与名称对应表格复制到指定位置,方便后续其他模块调用,并且保护文件不被使用者误删导致系统出错。靶标病原全基因组长度统计表格,即根据靶标基因组序列fa文件统计每个靶标病原的全基因组长度,供后续其他模块调用。
调用PDPD-sWGA运行引物筛选参数文件、jellyfish软件、靶标基因组序列fa文件、背景基因组序列fa文件;获得jellyfish中间运行结果及过滤后引物集合。其中,引物筛选参数文件中各参数如表1所示,包括“引物的长度”、“引物组合在目标基因组的平均距离”、“引物组合在背景基因组的平均距离”、“发夹结构”、“挑选引物选用的工具”和“挑选引物选用的工具参数”等参数。
结果说明:jellyfish中间运行结果,即jellyfish中间运行结果为二进制文件;过滤后引物集合,此文件包含了是所有筛选后的引物及其参数。
调用PDPD-sWGA运行引物组合筛选参数文件、过滤后引物集合。获得评分排名前5000引物在靶标菌中对应的位置文件、过滤后引物组合集合、各参数排名前30的引物组合集合。其中,引物组合筛选参数文件中各参数如表1所示,包括“候选引物个数”、“构成引物组合的引物个数范围”、“是否过滤引物二聚体”、“基尼系数最大值”、“引物中组合在目标基因组的最小平均距离”、“引物组合在背景基因组的最大平均距离”、“引物组合在目标基因组的最大间距”、“评分准则”等参数。
结果说明:评分排名前5000引物在靶标菌中对应的位置文件,即从过滤后引物集合挑选评分排名前5000的引物,以他们为模板相互组合,构成引物组合。过滤后引物组合集合,即根据PDPD-sWGA运行参数文件中的参数,对所有的引物组合进行一一筛选、过滤、评分,得到引物组合集合。各参数排名前30的引物组合集合,即根据上述的各参数,对过滤后引物组合集合进行逐一排序,得到各参数排名前30的引物组合集合,存储于不同的文件中。
调用PDPD-sWGA运行引物组合评估参数文件、指定文件、评分排名前30引物再靶标菌中对应的位置文件。获得测评的准备文件、R语言运行脚本、引物组合模拟测评结果。其中,引物组合评估参数文件中各参数如表1所示,主要包括“每个引物位点假设覆盖的长度”参数。
结果说明:指定文件,即默认是评分排名前30的引物组合集合,使用者也可以根据自身分析需求个性化设置相应的引物组合集合文件。测评的准备文件,即根据指定文件统计得到后续R语言需要的文件。引物组合模拟测评结果,即横坐标表示病原每个窗口的位置,纵坐标表示第30窗口包含的引物数,右边序列号表示引物的组合数。
经过上述引物设计方法和流程,本例最终筛选出最优的三组引物组合,用于富集大肠杆菌、金黄色葡萄球菌、白色念珠菌三种病原微生物的基因组,三组引物组合如表2所示。三组引物组合均由上海英骏生物技术有限公司合成。
表2三组引物组合
Figure BDA0002473591300000141
本例统计分析了本例引物设计方法设计引物和引物组合所需时间,并对比统计了现有流程Erik L.Clarke引物设计流程所需时间,结果如表3所示。其中,Erik L.Clarke引物设计流程所需时间,参考文献Erik L.Clarke1,Sesh A.Sundararaman,et al.swga:aprimer design toolkit for selective whole genomeamplification.Bioinformatics,33(14),2017,2071–2077。
表3引物设计所需时间
环节 本例引物设计方法 现有流程
单引物筛选 354秒 9614秒
多引物筛选 72585秒 大于5天
表3的结果显示,显然本例的引物设计方法,无论是单引物设计和筛选还是引物组合的设计和筛选,其速度都远高于现有流程。并且,从输出结果来看,本例的引物设计方法能够输出针对多个目标基因组的引物组合,而现有流程只能输出针对单个目标基因组的引物组合。
本例分别对获得的三组引物组合在大肠杆菌、金黄色葡萄球菌、白色念珠菌三种病原微生物基因组的覆盖度进行分析。部分结果如图3所示,图3为本例的三组引物组合在金黄色葡萄球菌全基因组上的覆盖情况;图中,从上到下依序为第一引物组合、第二引物组合、第三引物组合在金黄色葡萄球菌基因组上的覆盖统计图;横坐标是基因组大小,单位是千碱基(kb);纵坐标是覆盖深度,单位是层。结果显示,三组引物组合在三种病原微生物基因组的覆盖度平均在65%左右。
另外,本例分析了获得的三组引物组合在常见微生物上的覆盖度,常见微生物包括格特隐球菌、肺炎克雷伯菌、嗜麦芽寡养单胞菌、屎肠球菌、铜绿假单胞菌。结果如图4至图8所示,其中,图4为本例的三组引物组合在格特隐球菌基因组上的覆盖情况,图5为本例的三组引物组合在肺炎克雷伯菌基因组上的覆盖情况,图6为本例的三组引物组合在嗜麦芽寡养单胞菌基因组上的覆盖情况,图7为本例的三组引物组合在屎肠球菌基因组上的覆盖情况,图8为本例的三组引物组合在铜绿假单胞菌基因组上的覆盖情况;图4至图8中,从上到下依序为第一引物组合、第二引物组合、第三引物组合在相应基因组上的覆盖统计图;横坐标是基因组大小,单位是千碱基(kb);纵坐标是覆盖深度,单位是层。
图4至图8的结果显示,本例的三组引物组合在常见微生物上的覆盖度能达到60%左右。
采用本例的三组引物组合,分别对模拟样品和临床样品进行富集,并对富集产物进行测序,分析大肠杆菌、金黄色葡萄球菌、白色念珠菌三种病原微生物基因组的富集情况。并采用N6随机引物作为对照组,对比本例的三组引物组合的富集效果。详细如下:
模拟样品:将拷贝数为1000cp的大肠杆菌基因组核酸、拷贝数为1000cp的金黄色葡萄球菌基因组核酸、拷贝数为1000cp的白色念珠菌基因组核酸,混合添加到50ng的人源基因组核酸中制成模拟样品,模拟样品平均分为四份,分别用于三组引物组合和N6随机引物的扩增富集。
临床样品:使用一例支原体阳性的临床样本的核酸作为临床样品,用于测序本例的三组引物组合的适用性。
本例PCR扩增使用的DNA聚合酶为phi29 DNA聚合酶,该聚合酶具有很强的模板结合和链置换能力,能够在等温的条件下,扩增产生50-100kb的DNA片段。本例的PCR扩增体系50μL,包括:核酸样品1μL、10×phi29 DNA Polymerase Reaction Buffer 5μL、1000U/mL的phi29 DNA聚合酶3μL、各组分浓度为25mmol/L的dNTPs 2μL、10mg/mL的牛血清白蛋白0.5μL、10μM的引物组合12.5μL,补充无核酸水至50μL。其中,引物组合中各条引物的浓度相等。
将配置好的PCR反应体系溶液置于
Figure BDA0002473591300000161
热循环仪中,将温度从35℃逐渐梯度降温到30℃,降温速度为10min/℃,并在30℃保持16h,使DNA样品中的双链被链置换聚合酶逐步打开并在引物的作用下富集病原微生物的序列;然后,将温度升高到65℃保持10min,以灭活phi29 DNA聚合酶,最后,10℃hold。
PCR反应结束后,采用Axygen磁珠纯化PCR产物,具体如下:
(1)将PCR产物用水补足到100μL并加入50μL的Axygen磁珠,充分混匀后室温静置5min;
(2)将上一步溶液,即磁珠混合物,短暂离心后置于磁力架上2min,小心吸弃上清;
(3)小心加入500μL的70%乙醇,并旋转离心管以充分洗涤磁珠,洗涤完成后静置3min,吸弃乙醇;
(4)重复(3)一次;
(5)小心吸弃乙醇之后室温晾干至磁珠表面哑光;
(6)加入20μL的Elution Buffer,使用枪头多次吹打混匀磁珠,静置5min;短暂离心后置于磁力架上3min,小心吸取溶液至新的1.5mL离心管中。
将纯化的PCR产物稀释至合适浓度,进行BGISEQ-500平台文库构建。构建的文库通过split oligo环化并make DNB后直接进行BGISEQ-500/BGISEQ-50上机测序。其中,文库构建和DNB制备参考BGISEQ测序平台使用说明,在此不累述。
结果分析:调用PDPD-sWGA运行结果分析参数文件、实验结果输出文件。获得实验结果分析中间文件、各病原和各样本覆盖深度图、各病原和各样本覆盖率图。其中,分析参数文件的参数如表1所示,包括“每个引物覆盖范围”和“测序数量标准化”。每台机器的序列长度不一致,本例默认每条序列覆盖长度为100bp,使用者可以根据选用的测序仪器修改序列长度。由于实验操作问题,无法做到每个样本大小均一致,因此为了横向比较每个样本的效果,需要对每个样本进行标准化,本例默认总数据大小为20M。
结果说明:其中,实验结果输出文件,即需要用户在PDPD-sWGA运行参数文件中输入对应的信息地址。实验结果分析中间文件,即包括根据PDPD-sWGA运行参数文件、实验结果输出文件得到的输出每个窗口的深度、覆盖率情况统计表。各病原和各样本覆盖深度图,即根据PDPD-sWGA运行参数文件文件的DPI大小,得到各病原和各样本的每个窗口的覆盖深度情况。各病原和各样本覆盖率图,即根据PDPD-sWGA运行参数文件文件的DPI大小,得到各病原和各样本的每个窗口的覆盖率情况。
对下机数据进行分析,结果如表4所示。表4的结果显示,三组引物组合在模拟样本中,大肠杆菌和金黄色葡萄球菌两个细菌中,其各自reads的总占比达0.29-1.28%;而N6随机引物对照组中细菌reads的总占仅为0.01%。三组引物组合在模拟样本中,真菌的总占比可达0.18%-3.02%,而N6随机引物对照中真菌的总占比仅为0.02%。三组引物组合在临床样本中处理组支原体的占比可以达到9.04-17.6%,N6随机引物对照组只有1.9%。
表4测序结果中靶标reads比例
Figure BDA0002473591300000171
以上实验显示,本例的引物设计方法,能够设计针对三个目标基因组的引物组合,对三个目标基因组的覆盖度可以达到65%;并且所设计的引物组合对一些常见微生物也具有较高的覆盖度,高达60%;本例设计的三组引物组合可以对八种微生物基因组都有较高的覆盖度,可以用于这些微生物基因组的富集。与现有的Erik L.Clarke引物设计流程相比,本例的引物设计方法,运行时间更短,同等条件下比Erik L.Clarke流程缩短约80%的时间。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
SEQUENCE LISTING
<110> 广州华大基因医学检验所有限公司
深圳华大因源医药科技有限公司
华大生物科技(武汉)有限公司
<120> 用于选择性全基因组扩增的引物设计方法、装置及应用
<130> 20I23705
<160> 15
<170> PatentIn version 3.3
<210> 1
<211> 8
<212> DNA
<213> 人工序列
<400> 1
cgtcgtaa 8
<210> 2
<211> 8
<212> DNA
<213> 人工序列
<400> 2
atcgtcgt 8
<210> 3
<211> 8
<212> DNA
<213> 人工序列
<400> 3
attcgtcg 8
<210> 4
<211> 8
<212> DNA
<213> 人工序列
<400> 4
atcgttcg 8
<210> 5
<211> 8
<212> DNA
<213> 人工序列
<400> 5
cgtcgtat 8
<210> 6
<211> 8
<212> DNA
<213> 人工序列
<400> 6
cgacgaat 8
<210> 7
<211> 8
<212> DNA
<213> 人工序列
<400> 7
acgacgat 8
<210> 8
<211> 8
<212> DNA
<213> 人工序列
<400> 8
tacgacga 8
<210> 9
<211> 9
<212> DNA
<213> 人工序列
<400> 9
accgataat 9
<210> 10
<211> 8
<212> DNA
<213> 人工序列
<400> 10
cgaacgat 8
<210> 11
<211> 8
<212> DNA
<213> 人工序列
<400> 11
cgacgaat 8
<210> 12
<211> 8
<212> DNA
<213> 人工序列
<400> 12
atacgacg 8
<210> 13
<211> 8
<212> DNA
<213> 人工序列
<400> 13
acgacgat 8
<210> 14
<211> 8
<212> DNA
<213> 人工序列
<400> 14
ttacgacg 8
<210> 15
<211> 8
<212> DNA
<213> 人工序列
<400> 15
cgacgaaa 8

Claims (10)

1.一种用于选择性全基因组扩增的引物设计方法,其特征在于:包括以下步骤,
引物设计参数设置步骤,包括预先设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离;
引物设计步骤,包括利用基因组序列的滑动区间在背景基因组与目标基因组中的差异,根据所述引物设计参数设置步骤设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选;
引物组合筛选步骤,包括利用穷举法,根据所述引物设计参数设置步骤设置的参数,对所述引物设计步骤获得的引物进行筛选,并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值、引物组合在目标基因组中的最大距离、引物组合在目标基因组中的平均距离、引物组合在背景基因组中的平均距离,输出最优的N个引物组合,以供后续评估;
引物组合测评步骤,包括根据所述引物设计参数设置步骤设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,以便于引物组合筛选;
结果分析步骤,包括根据所述引物设计参数设置步骤设置的参数,以及所述引物组合测评步骤的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映每个引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。
2.根据权利要求1所述的引物设计方法,其特征在于:所述引物设计步骤,还包括对每个设计的引物的发夹结构进行筛选;
优选的,所述引物组合筛选步骤,还包括根据是否构成引物二聚体和基尼系数对引物组合进行筛选,在具有多个目标基因组时,统计每个引物组合在各个目标基因组的参数,并根据(比对上目标基因组的频数×基尼系数)÷比上背景基因组的频数的比值,对每个引物组合进行评估。
3.一种用于选择性全基因组扩增的引物设计装置,其特征在于:包括引物设计参数设置模块、引物设计模块、引物组合筛选模块、引物组合测评模块和结果分析模块,
所述引物设计参数设置模块,包括用于设置引物的长度范围、引物组合的个数范围、引物组合在目标基因组的平均距离、引物组合在目标基因组的最大距离、引物组合在目标基因组的分布均匀性评分、引物组合在背景基因组的平均距离;
所述引物设计模块,包括用于利用基因组序列的滑动区间在背景基因组与目标基因组中的差异,根据所述引物设计参数设置模块设置的参数进行引物设计,不对每个设计的引物在每个目标基因组中的均匀分布进行筛选;
所述引物组合筛选模块,包括用于利用穷举法,根据所述引物设计参数设置模块设置的参数,对所述引物设计模块获得的引物进行筛选,并根据引物组合在目标基因组的结合位点数与引物组合在背景基因组的结合位点数的比值、引物组合在目标基因组中的最大距离、引物组合在目标基因组中的平均距离、引物组合在背景基因组中的平均距离,输出最优的N个引物组合,以供后续评估;
所述引物组合测评模块,包括根据所述引物设计参数设置模块设置的参数,模拟每个引物组合对不同的目标基因组的引物覆盖程度,预计实验中可能丢失的区域,以便于引物组合筛选;
所述结果分析模块,包括根据所述引物设计参数设置模块设置的参数,以及所述引物组合测评模块的结果,输出每个引物组合的目标基因组覆盖率和深度图,以此反映每个引物组合在不同的目标基因组的实验情况,以便于根据实验情况筛选引物组合。
4.根据权利要求3所述的引物设计装置,其特征在于:所述引物设计模块,还包括用于对每个设计的引物的发夹结构进行筛选;
优选的,所述引物组合筛选模块,还包括用于根据是否构成引物二聚体和基尼系数对引物组合进行筛选,在具有多个目标基因组时,统计每个引物组合在各个目标基因组的参数,并根据(比对上目标基因组的频数×基尼系数)÷比上背景基因组的频数的比值,对每个引物组合进行评估。
5.一种用于选择性全基因组扩增的引物设计装置,其特征在于,所述引物设计装置包括存储器和处理器;
所述存储器用于存储程序;
所述处理器用于通过执行所述存储器存储的程序,从而实现根据权利要求1或2所述的引物设计方法。
6.一种计算机可读存储介质,其特征在于:包括程序,所述程序能够被处理器执行用以实现根据权利要求1或2所述的引物设计方法。
7.根据权利要求1或2所述的引物设计方法或权利要求3-5任一项所述的引物设计装置获得的引物组合。
8.根据权利要求7所述的引物组合在人或其它宿主基因组中富集病原微生物基因组或病原微生物特异性基因的应用。
9.一种基于选择性基因组扩增技术富集病原微生物基因组或病原微生物特异性基因的方法,其特征在于:包括采用权利要求1或2所述的引物设计方法或权利要求3-5任一项所述的引物设计装置,获得以病原微生物基因组或病原微生物特异性基因为目标基因组的引物组合,采用获得的引物组合对待处理核酸样品进行扩增富集,从而实现病原微生物基因组或病原微生物特异性基因的富集。
10.一种基于选择性基因组扩增技术从人类基因组中富集病原微生物基因组的引物组合,其特征在于:所述病原微生物基因组包括大肠杆菌基因组、金黄色葡萄球菌基因组和白色念珠菌基因组;
所述引物组合为第一引物组合、第二引物组合、第三引物组合中的至少一组;所述第一引物组合包括Seq ID No.1至Seq ID No.5所示序列的引物,所述第二引物组合包括Seq IDNo.6至Seq ID No.10所示序列的引物,所述第三引物组合包括Seq ID No.11至Seq IDNo.15所示序列的引物;
Seq ID No.1:5’-CGTCGTAA-3’
Seq ID No.2:5’-ATCGTCGT-3’
Seq ID No.3:5’-ATTCGTCG-3’
Seq ID No.4:5’-ATCGTTCG-3’
Seq ID No.5:5’-CGTCGTAT-3’
Seq ID No.6:5’-CGACGAAT-3’
Seq ID No.7:5’-ACGACGAT-3’
Seq ID No.8:5’-TACGACGA-3’
Seq ID No.9:5’-ACCGATAAT-3’
Seq ID No.10:5’-CGAACGAT-3’
Seq ID No.11:5’-CGACGAAT-3’
Seq ID No.12:5’-ATACGACG-3’
Seq ID No.13:5’-ACGACGAT-3’
Seq ID No.14:5’-TTACGACG-3’
Seq ID No.15:5’-CGACGAAA-3’
所有引物3’端第二和第三个碱基都具有磷酸化修饰。
CN202010356271.6A 2020-04-29 2020-04-29 用于选择性全基因组扩增的引物设计方法、装置及应用 Active CN113571123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010356271.6A CN113571123B (zh) 2020-04-29 2020-04-29 用于选择性全基因组扩增的引物设计方法、装置及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010356271.6A CN113571123B (zh) 2020-04-29 2020-04-29 用于选择性全基因组扩增的引物设计方法、装置及应用

Publications (2)

Publication Number Publication Date
CN113571123A true CN113571123A (zh) 2021-10-29
CN113571123B CN113571123B (zh) 2023-07-25

Family

ID=78158522

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010356271.6A Active CN113571123B (zh) 2020-04-29 2020-04-29 用于选择性全基因组扩增的引物设计方法、装置及应用

Country Status (1)

Country Link
CN (1) CN113571123B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596968A (zh) * 2022-05-10 2022-06-07 至本医疗科技(上海)有限公司 多重pcr引物设计方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102534016A (zh) * 2012-01-20 2012-07-04 重庆出入境检验检疫局检验检疫技术中心 用于柑桔溃疡病菌检测的lamp引物组
KR20120084981A (ko) * 2011-01-21 2012-07-31 이화여자대학교 산학협력단 꽃매미의 마이크로새틀라이트 마커 및 이를 증폭하기 위한 프라이머
CN103646193A (zh) * 2013-12-24 2014-03-19 辽宁大学 一种用于近缘物种鉴别的pcr引物设计方法
CN106480020A (zh) * 2015-09-02 2017-03-08 上海产业技术研究院 一种核酸扩增反应引物的设计方法及其应用
CN107190053A (zh) * 2017-03-13 2017-09-22 北京林业大学 柏树微卫星分子标记组合、引物筛选方法及其应用

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120084981A (ko) * 2011-01-21 2012-07-31 이화여자대학교 산학협력단 꽃매미의 마이크로새틀라이트 마커 및 이를 증폭하기 위한 프라이머
CN102534016A (zh) * 2012-01-20 2012-07-04 重庆出入境检验检疫局检验检疫技术中心 用于柑桔溃疡病菌检测的lamp引物组
CN103646193A (zh) * 2013-12-24 2014-03-19 辽宁大学 一种用于近缘物种鉴别的pcr引物设计方法
CN106480020A (zh) * 2015-09-02 2017-03-08 上海产业技术研究院 一种核酸扩增反应引物的设计方法及其应用
CN107190053A (zh) * 2017-03-13 2017-09-22 北京林业大学 柏树微卫星分子标记组合、引物筛选方法及其应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHEA N.GARDNER: ""Multiplex Degenerate Primer Design for Targeted Whole Genome Amplification of Many Viral Genomes"", 《HINDAWI》, pages 1 - 8 *
李美婧;施江程;李建伟;: "基于PrimerHunter的多重PCR引物设计系统的构建与应用", 唐山学院学报, no. 06, pages 19 - 22 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596968A (zh) * 2022-05-10 2022-06-07 至本医疗科技(上海)有限公司 多重pcr引物设计方法和装置
CN114596968B (zh) * 2022-05-10 2022-07-29 至本医疗科技(上海)有限公司 多重pcr引物设计方法和装置

Also Published As

Publication number Publication date
CN113571123B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Kotopka et al. Model-driven generation of artificial yeast promoters
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
CN109559780A (zh) 一种高通量测序的rna数据处理方法
Chotewutmontri et al. Ribosome profiling in maize
CN110970091B (zh) 标签质控的方法及装置
CN112289376A (zh) 一种检测体细胞突变的方法及装置
CN107475449A (zh) 一种适用于矮缩病毒科和双生病毒科病毒基因组拼接的转录组测序方法
CN113571123B (zh) 用于选择性全基因组扩增的引物设计方法、装置及应用
CN113265452A (zh) 一种基于Nanopore宏基因组RNA-seq的生物信息学检测病原体的方法
CN110970093B (zh) 一种筛选引物设计模板的方法、装置及应用
US11984198B2 (en) Hash-based efficient comparison of sequencing results
CN111916151A (zh) 一种苜蓿黄萎病菌的溯源检测方法及应用
May et al. ClearCNV: CNV calling from NGS panel data in the presence of ambiguity and noise
CN113744806B (zh) 一种基于纳米孔测序仪的真菌测序数据鉴定方法
CN112852938B (zh) 一种用于革兰氏阳性菌耐药基因高通量扩增子测序的引物组及应用
CN114107325B (zh) 宏基因组内参及其制备方法和应用以及宏基因组血流病原体检测方法
Hogers et al. SNPSelect: A scalable and flexible targeted sequence-based genotyping solution
Marongiu et al. Mingle: A Command Line Utility for Merging Multi-fasta Files
Zhang et al. Whole-Genome Association Analysis in Revealing the Application of Genetic Factors Affecting Livestock Production Traits
Winn et al. Prediction of Fusarium Head Blight Resistance QTL Haplotypes Through Molecular Markers, Genotyping-by-Sequencing, and Machine Learning
Wanchai et al. Accurate Identification of Extrachromosomal Circular DNA from Long-read Sequences
Hwang et al. TnClone: high-throughput clonal analysis using Tn5-mediated library construction and de novo assembly
WO2022140055A9 (en) Multiplexed screening analysis of peptides for target binding
Paterson Plant genome mapping: strategies and applications
CN114574606A (zh) 检测宏基因组中结核分枝杆菌的引物组及高通量测序方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant