发明内容
本申请的目的是提供一种筛选引物设计模板的方法、装置及应用。
本申请具体采用了以下技术方案:
本申请的第一方面公开了一种筛选引物设计模板的方法,包括以下步骤,
微生物基因组数据库整理步骤,包括获取微生物基因组序列,删除其中的质粒序列和噬菌体序列,然后,1)按属、种或亚种对微生物基因组序列进行归类,获得共有率评估数据库;2)每个种或亚种的微生物选取一个最具代表性的基因组序列作为代表基因组序列;3)以种或亚种为单位,对每个种或亚种的微生物的所有基因组序列进行去冗余处理,形成引物设计模板特异性评估数据库;
宿主基因组数据库整理步骤,包括获取各微生物的宿主基因组数据,按微生物属、种或亚种对相应的宿主基因组数据进行归类,形成宿主基因组数据库;
引物设计模板数据库生成步骤,在种或亚种的代表基因组序列上滑动窗口,按照参数引物设计模板窗口长度100-500bp、窗口滑动长度10-50bp,生成相应种或亚种微生物的多条备选引物设计模板序列,形成引物设计模板数据库;
引物设计模板的共有率评估步骤,包括将各备选引物设计模板序列分别比对到相应微生物的共有率评估数据库,比对长度比对过滤阈值大于或等于0.9、比对错误率过滤阈值小于或等于0.05,以能够比对上的基因组序列个数比相应微生物的总的基因组序列个数的比值表征备选引物设计模板序列的共有率,分别统计各备选引物设计模板序列的共有率,用于后续分析;
引物设计模板的特异性评估步骤,包括将各备选引物设计模板序列分别与引物设计模板特异性评估数据库进行比对,并分别与相应微生物的宿主基因组数据进行比对,以评估各备选引物设计模板序列的特异性;
引物设计模板输出步骤,包括根据引物设计模板的特异性评估步骤,筛选特异性好的备选引物设计模板序列,并将筛选获得的备选引物设计模板序列按照共有率由高到低排列,根据设定的共有率阈值输出引物设计模板,用于后续的引物设计。
需要说明的是,第一,本申请筛选引物设计模板的方法可以对某一个具体的微生物进行引物设计模板筛选,也可以用于对某一类或者全部微生物进行引物设计模板筛选;因此,在微生物基因组数据库整理步骤中,获取的微生物基因组序列可以是全部的微生物基因组序列,也可以是某个微生物及其近似种属或相关种属的微生物基因组序列;本申请的一种实现方式中,根据试验需求预先整理一个微生物列表,然后再根据微生物列表获取各微生物的基因组序列。第二,共有率评估数据库的作用是评估某个具体的引物设计模板序列在属、种或亚种中的通用性,即共有率;例如对于某个种或亚种,其存在多个株的基因组序列,所设计的引物设计模板需要对同一种或亚种的所有株都有效,即该引物设计模板需要被所有株共有;又例如在设计某个属的通用引物时,则要求引物设计模板对同一属所有种或亚种的所有株都有效,此时则要求其在属水平上具有很高的共有率;因此,本申请的共有率评估数据库是按照属、种或亚种进行归类的,具体的可以根据使用需求设定,在此不做限定。第三,宿主基因组数据库整理步骤中,可以根据微生物基因组数据库整理步骤的微生物获取相应的宿主基因组数据;也可以直接获取所有的宿主基因组数据,然后根据微生物进行归类,在此不做具体限定。第四,引物设计模板的共有率评估步骤,其可用于评估引物设计模板在某个种或亚种的多个株的基因组序列中的通用性,也可用于评估引物设计模板在同一属中各种或亚种中的通用性,以设计属特异性的通用引物;可以理解,如果某个种或亚种只有一个株的基因组序列,在筛选该种或亚种的引物设计模板时,则不需要引物设计模板的共有率评估步骤,因为引物设计模板序列就是从这个唯一的基因组序列中提取的,不存在共有率的问题。第五,引物设计模板的特异性评估步骤,该步骤主要是考虑两方面的特异性,一方面是针对其它微生物而言,所筛选的引物设计模板序列要具有特异性,不能与其它微生物的基因组序列重叠或者相似性不能大于设定阈值,另一方面是针对该微生物的宿主而言,所筛选的引物设计模板序列不能与宿主的基因组序列重叠或者相似性不能大于设定阈值;可以理解,原则上是相似性越小,引物设计模板序列的特异性越高;当然,引物设计模板序列与其它微生物或宿主的基因组序列完全不同,其特异性是最好的,如果没有这样的引物设计模板序列,也可以选取与其它微生物或宿主相似性较小的,也就是特异性较好的引物设计模板序列,至于相似性的设定阈值可以根据具体情况进行选择。
优选的,代表基因组序列按照以下方法获取,以种或亚种为单位,从种或亚种的所有基因组序列中任选一个基因组序列作为待分析基因组;将待分析基因组分割成若干小片段序列,将小片段序列分别与其它基因组序列进行比对,根据比对结果得到待分析基因组与其它基因组序列之间的一致性;逐一将所有基因组序列分别作为待分析基因组,分析各基因组序列相对其它基因组序列的一致性;最终选取与其它基因组序列一致性最大的一个基因组序列作为代表基因组序列。
需要说明的是,本申请在种或亚种层级下,对其所有株的基因组序列进行分析,并将基因组序列分割成短序列进行相似性比对,最后通过聚类挑选与其它株的基因组序列相似性最高的一株基因组序列,该方法筛选获得的代表基因组序列,能够最有效的代表其相应的种或亚种,是本申请的一种创新型方法。
本申请的第二方面公开了一种筛选引物设计模板的装置,包括微生物基因组数据库整理模块、宿主基因组数据库整理模块、引物设计模板数据库生成模块、引物设计模板的共有率评估模块、引物设计模板的特异性评估模块和引物设计模板输出模块;以上各模块分别用于执行本申请筛选引物设计模板的方法的微生物基因组数据库整理步骤、宿主基因组数据库整理步骤、引物设计模板数据库生成步骤、引物设计模板的共有率评估步骤、引物设计模板的特异性评估步骤和引物设计模板输出步骤。
需要说明的是,本申请筛选引物设计模板的装置可以自动化的批量输出用于微生物检测或鉴定的引物设计模板,从而方便了引物设计,也大大简化了引物设计的难度;为设计高准确性和高品质的微生物检测或鉴定引物奠定了基础。
还需要说明的是,本申请筛选引物设计模板的方法和装置,不仅适用于微生物检测或鉴定的引物设计,同样也适用于其它物种的特异性引物设计,只要下载相应的基因组数据即可。
本申请的第三方面公开了本申请筛选引物设计模板的方法或本申请筛选引物设计模板的装置在引物和/或探针设计中的应用。
需要说明的是,本申请的引物设计模板是指用于设计引物的靶标区域,本申请筛选引物设计模板的方法和装置,其目的就是从众多的基因组序列中筛选获得可以适用于引物设计的靶标区域,因此,本申请的引物设计模板筛选方法和装置可以应用于引物设计,使得引物设计更加简单、规范和有效。可以理解,本申请最终筛选获取的引物设计模板,同样也可以用于探针设计;例如,在一些检测方案中,可以同时针对引物设计模板设计检测引物和探针,如Taqman实时荧光检测方法等;当然,也可以仅仅针对引物设计模板设计探针,例如杂交捕获芯片等;总的来说,本申请的引物设计模板筛选方法和装置,其最终筛选获得的引物设计模板同样可以用于探针设计;具体的,根据不同检测方法而定,在此不做限定。
本申请的第四方面公开了一种引物设计的方法,包括采用本申请筛选引物设计模板的方法或者本申请筛选引物设计模板的装置获取引物设计模板,然后根据获取的引物设计模板设计引物。
可以理解,本申请的引物设计方法,其核心就是引物设计模板的筛选,即本申请的引物设计模板筛选方法,至于如何根据引物设计模板进行引物设计,可以参考现有的引物设计方法和软件。
本申请的第五方面公开了一种引物设计的装置,其包括本申请筛选引物设计模板的装置,以及引物设计模块;其中,引物设计模块用于根据引物设计模板输出模块提供的引物设计模板,进行引物设计。
同样的,本申请的引物设计装置,其核心也是本申请的筛选引物设计模板的装置,至于引物设计模块可以参考现有的引物设计软件和方法。
本申请的第六方面公开了一种探针设计的方法,包括采用本申请筛选引物设计模板的方法或者本申请筛选引物设计模板的装置获取引物设计模板,然后根据获取的引物设计模板设计探针。
可以理解,本申请的探针设计方法,其核心也是靶标区域的筛选,即采用本申请的筛选引物设计模板的方法或装置获取引物设计模块,至于如何根据引物设计模块进行探针设计,可以参考现有的探针设计方法。
本申请的第七方面公开了一种探针设计的装置,其包括本申请筛选引物设计模板的装置,以及探针设计模块;其中,探针设计模块用于根据引物设计模板输出模块提供的引物设计模板,进行探针设计。
同样的,本申请的探针设计装置,其核心也是本申请的筛选引物设计模板的装置,至于探针设计模块可以参考现有的探针设计软件和方法。
本申请的第八方面公开了一种引物或探针设计的装置,其包括存储器和处理器,存储器用于存储程序;处理器用于执行存储器存储的程序,通过该程序实现本申请的筛选引物设计模板的方法,输出引物设计模板,并根据所输出的引物设计模板进行引物或探针设计。
本申请的第九方面公开了一种计算机可读存储介质,包括能够被处理器执行的程序,该程序能够实现本申请的筛选引物设计模板的方法,输出引物设计模板。
可以理解,本申请的筛选引物设计模板的方法完全可以整合为一个软件包或程序,然后将该软件包或程序存储在计算机可读存储介质中进行使用。
优选的,本申请的计算机可读存储介质中,其程序还能够实现根据所获取的引物设计模板进行引物或探针设计。
可以理解,如果程序还能够实现引物或探针的设计,则该计算机可读存储介质,即用于引物或探针设计的存储介质,而非用于筛选引物设计模板的存储介质。
本申请的再一面公开了本申请筛选引物设计模板的方法或装置,或者本申请引物设计的方法或装置,或者本申请探针设计的方法或装置在微生物检测或鉴定中的应用。
可以理解,本申请所有方法或装置,其核心就在于引物设计模板的获取,采用本申请的方法或装置,可以简单、有效的筛选共有率高、特异性好的靶标区域,即引物设计模板,根据所筛选的靶标区域,采用常规的引物或探针设计方案即可获得相应的微生物检测、鉴定的引物或探针。
本申请的有益效果在于:
本申请筛选引物设计模板的方法,操作简单方便,能够批量筛选引物设计模板;并且本申请筛选引物设计模板的装置自动化程度高、运行速度快、成本低,能够高效、准确的批量输出单个或多个物种的引物设计模板。本申请筛选引物设计模板的方法和装置,具有高精度优势,筛选出的引物设计模板具有高共有率、高特异性的特点,能够设计出适用性强、特异性好的靶标检测引物或探针,为基于引物或探针进行检测的技术方案奠定了坚实的基础。
具体实施方式
现有的引物设计方法或软件中,通常都是将特定的靶标序列输入到引物设计软件或引物设计网页上,然后引物设计软件或引物设计网页根据引物设计原则,自动输出若个对引物。虽然现有的引物设计软件已经比较成熟,但是,对于靶标序列的筛选方面,目前尚没有比较完整和成熟的技术方案。现有的引物设计方法或软件中,靶标序列通常是研究人员根据自己的试验经验或者借鉴类似的研究报道进行筛选,这种人工筛选的方式不仅效率低、而且准确性和重复性较差,对研究人员的主观依赖性较强,并且难以在基因组水平上进行比较全面和精准的筛选。
本申请提出创新性解决方案,通过构建高质量的信息流程,实现微生物引物设计模板的自动化选择,进而实现自动化、高效、高精度的引物设计,助力该类产品的研发与市场推广。具体的,本申请研发了一种筛选引物设计模板的方法和装置,本申请的方法,如图1所示,包括微生物基因组数据库整理步骤、宿主基因组数据库整理步骤、引物设计模板数据库生成步骤、引物设计模板的共有率评估步骤、引物设计模板的特异性评估步骤和引物设计模板输出步骤;本申请的方法以特定微生物的代表基因组序列为基础进行窗口滑动,获得若干条候选的引物设计模板序列,然后再对各候选序列进行共有率评估,并评估候选序列在宿主数据库和相对于其它微生物基因组序列的特异性,最终筛选出共有率高、特异性强的序列作为引物设计模板。
可以理解,本申请筛选引物设计模板的方法、引物设计方法或探针设计方法,其全部或部分步骤或功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当本申请的方法全部或部分步骤或功能通过计算机程序的方式实现,该程序可以存储于一计算机可读存储介质中,例如只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现本申请的方法。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现本申请方法的全部或部分步骤或功能。当然,该程序也可以存储于服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,使得本地设备能够实现本申请方法的全部或部分步骤或功能。
因此,本申请研发了一种筛选引物设计模板的装置,如图2所示,其包括微生物基因组数据库整理模块、宿主基因组数据库整理模块、引物设计模板数据库生成模块、引物设计模板的共有率评估模块、引物设计模板的特异性评估模块和引物设计模板输出模块;以上各模块分别用于执行本申请筛选引物设计模板方法的各步骤。
本申请筛选引物设计模板的装置,自动化程度高,降低了专业技术要求,不需要专业的分子生物学或生物信息学知识,也能够通过简单的操作流程筛选引物设计模板,并且提高了引物设计的效率和精度;可批量自动化生成微生物引物设计模板,具有快速、准确的特点;不仅可以批量生成单个微生物的引物设计模板,还可以批量生成多个微生物的引物设计模板,设计精度高,根据筛选出的引物设计模板设计的引物特异性强、共有率高,对目标微生物具有良好地检测效果。
本申请的一种实现方式中,将本申请的筛选引物设计模板的方法集成为一个自动化分析系统,可以对多种微生物进行批量筛选,操作简单、运行速度快,筛选出的引物设计模板共有率高、特异性强。该自动化分析系统,其类同于本申请筛选引物设计模板的装置,筛选引物设计模板的结果准确度高、速度快、成本低,可全过程实现自动化,以原始测序数据为数据源,自动生成高质量的引物设计区域结果报告。该自动化分析系统可整合成一个软件包,全过程自动化实现,对计算机 I/O 资源,内存资源有很好控制。本申请以管道技术代替以往以文件作为信息交换的方式,以文件块切割的方式作为大数据计算慢的解决方案,在理论上可以使本申请的装置和方法系统适应任何 Unix/Linux 的操作系统环境。
下面通过具体实施例对本申请作进一步详细说明。以下实施例仅对本申请进行进一步说明,不应理解为对本申请的限制。
实施例
本例的筛选引物设计模板的方法,如图1所示,包括以下步骤:
微生物基因组数据库整理步骤101,包括获取微生物基因组序列,删除其中的质粒序列和噬菌体序列;本例具体的,从NCBI、PATRIC、EuPathDB公共数据库下载获取微生物基因组序列,并且对基因组序列进行了如下数据整理:
1)按属、种或亚种对微生物基因组序列进行归类,获得每个属、种或亚种微生物的共有率评估数据库;
2)每个种或亚种的微生物选取一个最具代表性的基因组序列作为代表基因组序列;
本例具体的,以种或亚种为单位,从种或亚种的所有基因组序列中任选一个基因组序列作为待分析基因组;将待分析基因组分割成若干小片段序列,将小片段序列分别与其它基因组序列进行比对,根据比对结果得到待分析基因组与其它基因组序列之间的一致性;逐一将所有基因组序列分别作为待分析基因组,分析各基因组序列相对其它基因组序列的一致性;最终选取与其它基因组序列一致性最大的一个基因组序列作为代表基因组序列;代表基因组序列筛选如图3所示,图3为相似度或者一致性网络图示意图;图3中,每个节点为一个微生物的一株基因组序列,连接线粗细反映基因组的相似性,即越粗代表相似度越大,实心节点的一株与其它各株序列相似性平均值最高,为最终代表株,即代表基因组序列;
3)以种或亚种为单位,对每个种或亚种的微生物的所有基因组序列进行去冗余处理,形成引物设计模板特异性评估数据库;
本例在构建总微生物数据库,即引物设计模板特异性评估数据库时,具体使用mummer软件进行基因组互相比对,根据比对结果去除冗余序列。除此之外,也可以将基因组切割成短序列使用bwa软件比对,再去除冗余序列。
宿主基因组数据库整理步骤102,包括获取各微生物的宿主基因组数据,按微生物属、种或亚种对相应的宿主基因组数据进行归类,形成宿主基因组数据库。
微生物样本可能来源于不同宿主,例如人、动物等。为保证引物扩增的特异性,引物设计模板不能比对上宿主基因组序列,因此需要整理一个全面的宿主基因组数据库。以人源数据库为例,人源基因组数据库包含从NCBI官方网站下载人类参考基因组(hg19)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
引物设计模板数据库生成步骤103,包括在种或亚种的代表基因组序列上滑动窗口,按照参数引物设计模板窗口长度100-500bp、窗口滑动长度10-50bp,生成相应种或亚种微生物的多条备选引物设计模板序列,形成引物设计模板数据库。本申请的一种实现方式中具体采用引物设计模板窗口长度200bp,窗口滑动长度20bp。
引物设计模板的共有率评估步骤104,包括将各备选引物设计模板序列分别比对到相应微生物的共有率评估数据库,比对长度比对过滤阈值大于或等于0.9、比对错误率过滤阈值小于或等于0.05,以能够比对上的基因组序列个数比相应微生物的总的基因组序列个数的比值表征备选引物设计模板序列的共有率,分别统计各备选引物设计模板序列的共有率,用于后续分析。
例如,对于某个物种的某条具体的引物设计模板序列而言,该物种总共的基因组序列为m条,按照比对长度比对过滤阈值大于或等于0.9、比对错误率过滤阈值小于或等于0.05的条件进行比对,能够与引物设计模板序列比对上的该物种的基因组序列为n条,则该引物设计模板序列的共有率为n/m。因此,共有率是一个小于或等于1的数字。
本例的一种实现方式中,具体采用bwa比对软件,其参数设置如下:
win = 200
len = 20
map-rate = 0.9
error-rate = 0.05
bwa = /bin/bwa mem -k 19 -t 8 -Y -a
HumanGenome = /database/hg19_all.fa
MicrobeGenome = /database/Microbe.fa
其中,“win”即引物设计模板窗口长度,“len”即窗口滑动长度,“map-rate”即比对长度比对过滤阈值,“error-rate”即比对错误率过滤阈值,“bwa = /bin/bwa mem -k 19 -t 8 -Y -a”是bwa比对软件的常规参数设置,“HumanGenome”是指宿主参考数据库index文件,“MicrobeGenome”是指微生物数据库index文件。
本例采用bwa软件进行比对,具有速度快、精确的优点。可以理解,除了采用bwa软件进行比对以外,也可以采用其它的比对软件,例如blast软件等,当然,采用其它比对软件可能比对速度会有所下降。
引物设计模板的特异性评估步骤105,包括将各备选引物设计模板序列分别与引物设计模板特异性评估数据库进行比对,并分别与相应微生物的宿主基因组数据进行比对,以评估各备选引物设计模板序列的特异性。
引物设计模板输出步骤106,包括根据引物设计模板的特异性评估步骤,筛选特异性好的备选引物设计模板序列,并将筛选获得的备选引物设计模板序列按照共有率由高到低排列,根据设定的共有率阈值输出引物设计模板,用于后续的引物设计。
获取高特异性和高共有率的引物设计模板后,可以使用现有软件设计引物,例如Primer premier5.0、oligo6.0、NCBI Primer-BLAST等。并对每个引物效果进行试验筛选,最终获得微生物检测的特异性引物。
基于以上筛选引物设计模板的方法,本例的一种实现方式中,进一步提供了一种筛选引物设计模板的装置,如图2所示,该装置包括:
微生物基因组数据库整理模块201,包括用于获取微生物基因组序列,删除其中的质粒序列和噬菌体序列;本例具体的,从NCBI、PATRIC、EuPathDB公共数据库下载获取微生物基因组序列,并且对基因组序列进行了如下数据整理:
1)按属、种或亚种对微生物基因组序列进行归类,获得每个属、种或亚种微生物的共有率评估数据库;
2)每个种或亚种的微生物选取一个最具代表性的基因组序列作为代表基因组序列;
本例具体的,以种或亚种为单位,从种或亚种的所有基因组序列中任选一个基因组序列作为待分析基因组;将待分析基因组分割成若干小片段序列,将小片段序列分别与其它基因组序列进行比对,根据比对结果得到待分析基因组与其它基因组序列之间的一致性;逐一将所有基因组序列分别作为待分析基因组,分析各基因组序列相对其它基因组序列的一致性;最终选取与其它基因组序列一致性最大的一个基因组序列作为代表基因组序列;代表基因组序列筛选如图3所示,图3为相似度或者一致性网络图示意图;图3中,每个节点为一个微生物的一株基因组序列,连接线粗细反映基因组的相似性,即越粗代表相似度越大,实心节点的一株与其它各株序列相似性平均值最高,为最终代表株,即代表基因组序列;
3)以种或亚种为单位,对每个种或亚种的微生物的所有基因组序列进行去冗余处理,形成引物设计模板特异性评估数据库;
本例在构建总微生物数据库,即引物设计模板特异性评估数据库时,具体使用mummer软件进行基因组互相比对,根据比对结果去除冗余序列。除此之外,也可以将基因组切割成短序列使用bwa软件比对,再去除冗余序列。
宿主基因组数据库整理模块202,包括用于获取各微生物的宿主基因组数据,按微生物属、种或亚种对相应的宿主基因组数据进行归类,形成宿主基因组数据库。
微生物样本可能来源于不同宿主,例如人、动物等。为保证引物扩增的特异性,引物设计模板不能比对上宿主基因组序列,因此需要整理一个全面的宿主基因组数据库。以人源数据库为例,人源基因组数据库包含从NCBI官方网站下载人类参考基因组(hg19)以及从炎黄基因组公共数据库官方网站下载的炎黄基因组序列两部分。
引物设计模板数据库生成模块203,包括用于在种或亚种的代表基因组序列上滑动窗口,按照参数引物设计模板窗口长度100-500bp、窗口滑动长度10-50bp,生成相应种或亚种微生物的多条备选引物设计模板序列,形成引物设计模板数据库。
引物设计模板的共有率评估模块204,包括用于将各备选引物设计模板序列分别比对到相应微生物的共有率评估数据库,比对长度比对过滤阈值大于或等于0.9、比对错误率过滤阈值小于或等于0.05,以能够比对上的基因组序列个数比相应微生物的总的基因组序列个数的比值表征备选引物设计模板序列的共有率,分别统计各备选引物设计模板序列的共有率,用于后续分析。
本例的一种实现方式中,具体引用bwa比对软件,其参数设置如下:
win = 200
len = 20
map-rate = 0.9
error-rate = 0.05
bwa = /bin/bwa mem -k 19 -t 8 -Y -a
HumanGenome = /database/hg19_all.fa
MicrobeGenome = /database/Microbe.fa
本例采用bwa软件进行比对,具有速度快、精确的优点。可以理解,除了采用bwa软件进行比对以外,也可以采用其它的比对软件,例如blast软件等,当然,采用其它比对软件可能比对速度会有所下降。
引物设计模板的特异性评估模块205,包括用于将各备选引物设计模板序列分别与引物设计模板特异性评估数据库进行比对,并分别与相应微生物的宿主基因组数据进行比对,以评估各备选引物设计模板序列的特异性。
引物设计模板输出模块206,包括用于根据引物设计模板的特异性评估步骤,筛选特异性好的备选引物设计模板序列,并将筛选获得的备选引物设计模板序列按照共有率由高到低排列,根据设定的共有率阈值输出引物设计模板,用于后续的引物设计。
本例的一种实现方式中,将本例筛选引物设计模板的方法的各步骤流程整合为一个软件包,命名为PrimerTemplate,本软件的运行环境为 Unix/Linux 操作系统,通过Unix/Linux命令行运行。
以Enterococcus faecalis、Neisseria meningitidis 两种微生物为例,本例采用PrimerTemplate软件包对这两种微生物的引物设计模板进行筛选,以说明其运行和使用方法。具体操作步骤如下 :
1、在 LINUX 操作系统计算机终端中输入以下命令 :
PrimerTemplate <parameter file> <MicrobeList> <output directory>
PrimerTemplate 命令行参数含义 :
<parameter file> 指定的参数配置文件,文件中涵盖了所有的分析参数。
<MicrobeList> 需要设计引物的微生物名称列表。
<output directory> 结果的输出目录。
2、待分析数据 :
Enterococcus faecalis(粪肠球菌),一共有13个参考基因组序列,代表基因组的GenBank检索号为GCA_000007785.1。
Neisseria meningitidis(脑膜炎奈瑟球菌),一共有84个参考基因组序列,代表基因组的GenBank检索号为GCA_002073235.1。
3、分析结果
Neisseria meningitidis的引物设计模板筛选结果如表1所示,表1展示了相对于物种Neisseria meningitidis的84个基因组序列而言,完全特异且共有率在97%以上的引物设计模板,表1的序列区域都可用于后续的引物设计。
表1 Neisseria meningitidis的引物设计模板筛选结果
4、引物设计
根据步骤“3、分析结果”获得的Neisseria meningitidis的引物设计模板,使用NCBI网站的Primer-BLAST工具进行引物设计,部分结果如表2所示。
表2 物种 Neisseria meningitidis的引物设计结果
为了验证本例筛选引物设计模板的方法最终筛选获得的引物设计模板,及其设计的引物的效果,本例进一步的对表2的引物进行了试验验证。具体如下:
在50ng人源核酸中添加脑膜炎奈瑟球菌基因组核酸,和0.75pmol的表1所示的引物设计模板,分别采用相应的引物进行PCR扩增后,使用BGISEQ500平台对PCR扩增产物进行测序。预先构建好上述引物设计模板序列数据库,将测序下机序列比对到预先构建好的引物设计模板序列数据库,统计比对上每个模板的下机序列数。
为了直观展示本例引物的检测效果,本例使用一组96个样本,统一添加50ng人源核酸和0.75pmol的引物设计模板。其中12个样本,将其分为四组,每组三个样本,各组分别添加50拷贝、100拷贝、200拷贝和500拷贝的脑膜炎奈瑟球菌基因组核酸,其余84个样本中不添加脑膜炎奈瑟球菌基因组核酸。
试验验证结果:样本 检出reads数量
统计每个样本测序结果中每个模板的标准化检出序列数,按1兆条下机数据进行标准化,并且用散点图直观展示,结果如图4至图6所示。图4为添加Seq ID No.1所示引物设计模板的统计结果,图5为添加Seq ID No.2所示引物设计模板的统计结果,图6为添加SeqID No.3所示引物设计模板的统计结果,图4至图6中,横坐标表示样本,从左到右虚线圈起的四组实心点分别表示添加50拷贝、100拷贝、200拷贝和500拷贝脑膜炎奈瑟球菌基因组核酸的样本,每组中有三个重复样本,空心点表示未添加脑膜炎奈瑟球菌基因组核酸的样本;纵坐标表示每个模板标准化后的检出序列数。图4至图6的结果可以看出,模板检出条数和添加基因组核酸拷贝数基本成梯度,而且与未添加基因组核酸的样本较好地区分开,说明本例设计的引物效果较好。
本例的筛选引物设计模板的方法及其整合的软件包具有以下优势:
(1)具有自动化的优势
本例集成的自动化分析软件,可以对多种微生物进行批量筛选引物模板,操作简单,运行速度较快。
(2)具有高精度的优势
本例具有高精度的优势,筛选出的引物设计模板具有高共有率、高特异性的特点,由此设计的引物对目标微生物具有良好地检测效果。
(3)提供高效的自动化分析流程
本例集成的自动化分析软件筛选引物设计模板的结果准确度高、速度快、成本低,可全过程实现自动化,以原始测序数据为数据源,自动生成高质量的结果报告。本例方法整合的软件包,全过程自动化实现,对计算机 I/O 资源,内存资源有很好控制。以管道技术代替以往以文件作为信息交换的方式,以文件块切割的方式作为大数据计算慢的解决方案,可以适应任何 Unix/Linux 的操作系统环境。
可以理解,在本例筛选引物设计模板的方法和装置的基础上,还可以参考现有的引物设计软件,进一步形成引物设计方法或装置;也可以参考现有的探针设计软件,形成探针设计方法或装置;这些都只需要在本申请筛选引物设计模板的方法和装置基础上再增加一个引物或探针设计步骤或模块即可。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
SEQUENCE LISTING
<110> 广州华大基因医学检验所有限公司
<120> 一种筛选引物设计模板的方法、装置及应用
<130> 18I26800
<160> 9
<170> PatentIn version 3.3
<210> 1
<211> 200
<212> DNA
<213> Neisseria meningitidis的引物设计模板
<400> 1
ataaagcggc aaattcaact gtacgccgac gctcatccct ttgccccgat agtggtagtc 60
attattctgc gcagatgaag tgtagaggtt attctgatag ccgacatggg cagaaacggt 120
gggatagcgg ctgttctgtg ctgcccgaag cgcctgtccg ctgctttgca gggcaagctg 180
ctgcatccgg tattcatgat 200
<210> 2
<211> 200
<212> DNA
<213> Neisseria meningitidis的引物设计模板
<400> 2
ccggttgttt tttgaagtat tggtggtgtc ggtggtgttg cagctgtttg cgctgattac 60
gcctctgttt ttccaagtgg tgatggacaa ggtgctggta catcggggat tctctacttt 120
ggatgtggtg tcggtggctt tgttggtggt gtcgctgttt gagattgtgt tgggcggttt 180
gcggacgtat ctgtttgcac 200
<210> 3
<211> 200
<212> DNA
<213> Neisseria meningitidis的引物设计模板
<400> 3
caggcacaag aagagtggga cagaaaatac aaagaagccg aagccgtgtt taacgaacaa 60
tgcaaaacgg cgggggaaag atttaccaga cggcggacaa tgtggaaggg attatgctgt 120
tgaaggtagt acctgagcgt accgtttcgg cagatgcaaa aaccagagac ccgatgtggg 180
acaatgcggc tttacagacc 200
<210> 4
<211> 25
<212> DNA
<213> 人工序列
<400> 4
ataaagcggc aaattcaact gtacg 25
<210> 5
<211> 22
<212> DNA
<213> 人工序列
<400> 5
tcatgaatac cggatgcagc ag 22
<210> 6
<211> 18
<212> DNA
<213> 人工序列
<400> 6
ggtgtcggtg gtgttgca 18
<210> 7
<211> 21
<212> DNA
<213> 人工序列
<400> 7
gcaaacagat acgtccgcaa a 21
<210> 8
<211> 26
<212> DNA
<213> 人工序列
<400> 8
gcacaagaag agtgggacag aaaata 26
<210> 9
<211> 22
<212> DNA
<213> 人工序列
<400> 9
ccacatcggg tctctggttt tt 22