CN111326210B - 一种基于k-mer算法的引物设计方法及系统 - Google Patents

一种基于k-mer算法的引物设计方法及系统 Download PDF

Info

Publication number
CN111326210B
CN111326210B CN202010167423.8A CN202010167423A CN111326210B CN 111326210 B CN111326210 B CN 111326210B CN 202010167423 A CN202010167423 A CN 202010167423A CN 111326210 B CN111326210 B CN 111326210B
Authority
CN
China
Prior art keywords
mers
primer
primers
length
alternatives
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010167423.8A
Other languages
English (en)
Other versions
CN111326210A (zh
Inventor
邓晔
吴悦妮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Research Center for Eco Environmental Sciences of CAS
University of Chinese Academy of Sciences
Original Assignee
Research Center for Eco Environmental Sciences of CAS
University of Chinese Academy of Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Research Center for Eco Environmental Sciences of CAS, University of Chinese Academy of Sciences filed Critical Research Center for Eco Environmental Sciences of CAS
Priority to CN202010167423.8A priority Critical patent/CN111326210B/zh
Publication of CN111326210A publication Critical patent/CN111326210A/zh
Application granted granted Critical
Publication of CN111326210B publication Critical patent/CN111326210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种基于k‑mer算法的引物设计方法及系统,该方法包括:构建功能基因核酸序列数据库,将数据库中的核酸序列分别切割为k‑mers;按照k‑mer出现频次从高到低选择若干k‑mers,作为引物备选k‑mers;将引物备选k‑mers中的overlap>x的k‑mers进行合并,再在合并后的引物备选k‑mers中按照频次从高到低选择多条k‑mers作为初步引物;在覆盖度>1%的k‑mers中搜索与每条初步引物存在一个碱基之差的k‑mers,并将搜索到的k‑mers与相应初步引物以简并碱基的形式合并,得到简并引物;对简并引物分别进行基本信息评价并计算全部简并引物两两配对后的扩增产物长度,根据基本信息评价结果和扩增产物长度筛选成对引物;该方法能够避开序列比对的繁琐步骤,大大提升了引物设计时间,且设计引物具有更高的覆盖度。

Description

一种基于k-mer算法的引物设计方法及系统
技术领域
本发明涉及引物设计技术领域,尤其涉及一种基于k-mer算法的引物设计方法及系统。
背景技术
目前对于微生物群落组成及多样性研究一般都遵循样本采集、DNA提取、PCR扩增目的基因片段、高通量测序的方法进行。高通量测序是一种高靶向性,用于分析特定基因组区域中基因变异的方法,是发现单核苷酸多态性(single nucleotide polymorphisms,SNPs)的理想方法。它利用聚合酶链反应(PCR)的引物来扩增基因组的特定区域,靶向地捕获目标区域的DNA,达到目的DNA片段的富集目标。最后针对扩增产物进行高通量测序,分析序列中的遗传变异等信息;PCR是指在体外选择性扩增DNA片段的技术。每次扩增都以上次扩增的产物作为模板进行指数扩增。PCR技术主要分为三个基本反应步骤,即变性-退火-延伸;变性阶段双链DNA经过高温变性后解链成单链;退火阶段引物与单链DNA在较低温度下碱基互补配对;延伸阶段引物与模板结合物以脱氧核糖核苷酸(dNTP)为原料,按照半保留复制与碱基互补配对的原则合成一条与模板链互补的新链。不断循环这三个过程即可在短时间内将目的片段扩增数百万倍。目前,PCR技术已经广泛应用于微生物领域的研究。
在PCR技术中,设计引物来扩增目的基因是确定测序序列长度和覆盖序列范围的关键;引物是人工合成的两段寡核苷酸序列,正向引物与目的基因一端的一条DNA模板链互补,反向引物与目的基因另一端的另一条DNA模板链互补;在PCR技术中,已知一段目的基因的核苷酸序列,根据这一序列合成引物,利用PCR扩增技术,目的基因DNA受热变性后解链为单链,引物与单链相应互补序列结合,然后在DNA聚合酶作用下进行延伸,如此重复循环,延伸后得到的产物同样可以和引物结合。PCR引物设计的目的是找到一对合适的核苷酸片段,使其能有效地扩增模板DNA序列,引物的优劣直接关系到PCR的特异性与成功与否;只有设计出适当的引物,才能进行关注基因及类群检测的PCR反应,验证它的特异性及覆盖度,确保它能且只能识别所关注的类群及基因。
目前,微生物常被用作多样性调查的标记基因扩增引物已较为普及和完善,但是针对其它功能基因,现有的引物仍无法覆盖到许多研究类群;目前,最常用且准确度较高的引物设计方法,是对可信度较高的DNA序列进行相似性比对,物种间不同序列的相同片段就是该基因的保守区,并根据目的片段的长度在基因的保守区选择合适的片段作为引物;然而,随着已知序列越来越多,序列比对的时间成本大大提升,几千条序列的准确比对就要用上几天,上万条序列则是要运行几十天,且对序列长度、质量等有着较高要求;因此亟需一种快速、准确的新方法来设计引物,以缩短运行时间,节约研究成本。
发明内容
有鉴于此,本发明的目的在于提出一种基于k-mer算法的引物设计方法,以解决现有引物设计方法存在的设计时间长的问题。
基于上述目的,本发明提供了一种基于k-mer算法的引物设计方法,所述设计方法包括如下步骤:
(a)构建功能基因核酸序列数据库,并基于k-mer算法,以引物长度为k,将数据库中的核酸序列分别切割为k-mers;
(b)按照k-mer出现频次从高到低选择若干k-mers,作为引物备选k-mers;
(c)将引物备选k-mers中的overlap>x的k-mers进行合并,再在合并后的引物备选k-mers中按照频次从高到低选择多条k-mers作为初步引物,其中合并方式为:保留overlap>x的k-mers中频次最高的k-mer,若频次最高的k-mer存在多条,则保留最长的k-mer;
(d)在覆盖度>1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers,并将搜索到的k-mers与相应初步引物以简并碱基的形式合并,得到简并引物;
(e)对简并引物分别进行基本信息评价并计算全部简并引物两两配后的扩增产物长度,随后根据基本信息评价结果和扩增产物长度筛选成对引物。
可选地,所述步骤(a)中,若k为一个长度范围,则根据不同k值分别将数据库中的核酸序列切割为k-mers。
可选地,所述k为16-25bp。
可选地,所述x为k值的1/2。
可选地,所述引物备选k-mers为80-120条;所述初步引物为20-40条。
可选地,所述基本信息评价包括计算简并引物的GC含量、退火温度和形成二级结构的deltaG值。
可选地,所述退火温度按如下公式计算:
当k<20bp时,所述退火温度=4℃(G+C)+2℃(A+T);
当k≥20bp时,所述退火温度=62.3℃+0.41℃(GC%)-500/k。
可选地,所述形成二级结构的deltaG值采用mfold软件计算得到。
可选地,所述步骤(a)中,还包括:
补充功能基因核酸序列的物种信息。
可选地,所述步骤(e)中,还包括,根据扩增产物确定覆盖类群,并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物;
所述覆盖类群包括覆盖物种、氧需求类型和革兰氏类型。
本发明另一方面提供一种基于k-mer算法的引物设计系统,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行所述设计方法。
从上面所述可以看出,本发明提供的一种基于k-mer算法的引物设计方法及系统至少包括如下效果:
本发明设计方法能够避开序列比对这一繁琐步骤,大大提升了引物设计时间,具体地,针对序列数在103数量级的数据库计算时间为10分钟左右,15,000条序列的数据库计算时间为17分钟,3万条序列的数据库计算时间为23分钟;6万条序列的数据库计算时间需要45分钟;此外,该设计方法设计的引物具有更高的覆盖度。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。
目前,最常用且准确度较高的引物设计方法,是对可信度较高的DNA序列进行相似性比对,物种间不同序列的相同片段就是该基因的保守区,并根据目的片段的长度在基因的保守区选择合适的片段作为引物;然而,随着已知序列越来越多,序列比对的时间成本大大提升,几千条序列的准确比对就要用上几天,上万条序列则是要运行几十天,且对序列长度、质量等有着较高要求。
针对上述技术问题,本发明提出一种基于k-mer算法的引物设计方法,该设计方法能够避开序列比对这一繁琐步骤,大大提升了引物设计时间,并且设计的引物具有更高的覆盖度。
上述基于k-mer算法的引物设计方法包括如下步骤:
(a)构建功能基因核酸序列数据库,并基于k-mer算法,以引物长度为k,将数据库中的核酸序列分别切割为k-mers;
(b)按照k-mer出现频次从高到低选择若干k-mers,作为引物备选k-mers;
(c)将引物备选k-mers中的overlap>x的k-mers进行合并,再在合并后的引物备选k-mers中按照频次从高到低选择多条k-mers作为初步引物,其中合并方式为:保留overlap>x的k-mers中频次最高的k-mer,若频次最高的k-mer存在多条,则保留最长的k-mer;
(d)在覆盖度>1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers,并将搜索到的k-mers与相应初步引物以简并碱基的形式合并,得到简并引物;
(e)对简并引物分别进行基本信息评价并计算全部简并引物两两配对后的扩增产物长度,随后根据基本信息评价结果和扩增产物长度筛选成对引物。
由于序列的相同片段位于基因的保守区,因此当k值大于一定长度时,频次高的k-mer大多位于序列的保守区,进而本发明通过上述设计方法能够快速设计功能基因核酸序列数据库的引物,并具有较高的覆盖度。
本发明中overlap是指k-mers中重叠部分的碱基序列。
k-mer算法是用于宏基因组测序结果分析中提升组装效果常用的一种算法;k-mer是指将序列分成包含k个碱基的字符串,一般长短为m的序列可以分成m-k+1个k-mers。
本发明对构建功能基因核酸序列数据库的方法不作严格限制,例如可以根据本领域的常规方法进行构建;具体地,可以根据关键、同源蛋白保守域检索等方式在KEGG、Fungene及Genbank序列数据库中进行筛选得到相应序列,进而构建功能基因核酸序列。
本发明对步骤(a)中的k大小不作严格限制,例如,可以根据扩增引物长度进行合理选择;此外,本发明中k可以为一个具体数值,也可以为一个长度范围,若k为一个长度范围,则根据不同k值分别将数据库中的核酸序列切割为k-mers;在一实施方式中,k为16-20bp,则针对k为16bp、18bp、19bp或20bp分别将数据库中的核酸序列切割为相应k-mer;在其他实施方式中,k还可以为其它范围或具体数值。
在本发明中对x的大小不作严格限制,可以根据实际需要进行设置;例如,x可以为小于k的任意数,优选地,x为大于8并小于k的数值;更选地,x为k值的1/2。通过x的选择,使overlap起码达到k-mer长度一半以上,以此能确保两条k-mer处于同一位置的x之差。
本发明中对引物备选k-mers以及初步引物数量不作严格限制,例如可以根据实际需要进行合理选择;在一实施方式中,引物备选k-mers数量可以为80-120范围内的任一数值,具体地引物备选k-mers数量可以是80条、91条、100条或120条;在一实施方式中,初步引物数量可以为20-40范围内的任一数值,具体可以是20条、30条或40条;在其它实施方式中,引物备选k-mers数量可以为80-120范围外的任一数值;初步引物数量还可以为20-40范围外的任一数值。
在本发明中,对简并引物进行基本信息评价不作严格限制,例如,可以计算简并引物的GC含量、退火温度和形成二级结构的deltaG值;在一实施方式中,退火温度按如下公式计算:
当k<20bp时,所述退火温度=4℃(G+C)+2℃(A+T);
当k≥20bp时,所述退火温度=62.3℃+0.41℃(GC%)-500/k。
在一实施方式中,形成二级结构的deltaG值采用mfold软件计算得到。
在一实施方式中,本发明步骤(a)中,还包括:补充功能基因核酸序列的物种信息。
进一步地,步骤(e)中,还包括,根据扩增产物确定覆盖类群,并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物;
覆盖类群包括覆盖物种、氧需求类型和革兰氏类型。
通过物种信息添加,能够确定扩增产物的物种信息,进而能够确定引物的覆盖类群。
本发明还提供一种基于k-mer算法的引物设计系统,该系统包括:存储器、与存储器连接的处理器,及存储在存储器上并可在处理器上运行的计算机程序,处理器运行计算机程序时执行上述设计方法。
本发明上述设计方法能够避开序列比对这一繁琐步骤,大大提升了引物设计时间,具体地,针对序列数在103数量级的数据库计算时间为10分钟左右,15,000条序列的数据库计算时间为17分钟,3万条序列的数据库计算时间为23分钟;6万条序列的数据库计算时间需要45分钟;此外,该设计方法设计的引物具有更高的覆盖度。
以下通过具体的实施例对本发明技术方案作进一步解释说明。
实施例1
本实施例为一种基于k-mer算法的引物设计方法,该设计方法包括:
(a)构建功能基因核酸序列数据库,并基于k-mer算法,以引物长度为k,k为17-20bp,将数据库中的核酸序列分别切割为k-mers;
(b)按照k-mer出现频次从高到低选择120条k-mers,作为引物备选k-mers;
(c)将引物备选k-mers中的overlap>10的k-mers进行合并,再在合并后的引物备选k-mers中按照频次从高到低选择40条k-mers作为初步引物,其中合并方式为:保留overlap>10的k-mers中频次最高的k-mer,若频次最高的k-mer存在多条,则保留最长的k-mer;
(d)在覆盖度>1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers,并将搜索到的k-mers与相应初步引物以简并碱基的形式合并,得到简并引物;
(e)对简并引物分别进行基本信息评价,计算简并引物的GC含量、退火温度和形成二级结构的deltaG值,随后计算全部简并引物两两配对后的扩增产物长度,随后根据基本信息评价结果和扩增产物长度筛选成对引物;
其中,退火温度按如下公式计算,
当k<20bp时,退火温度=4℃(G+C)+2℃(A+T);
当k≥20bp时,退火温度=62.3℃+0.41℃(GC%)-500/k;
形成二级结构的deltaG值采用mfold软件计算得到。
实施例2
本实施例为一种基于k-mer算法的引物设计方法,该设计方法包括:
(a)构建功能基因核酸序列数据库,通过基因编号在功能基因核酸序列数据库中补充物种信息,并基于k-mer算法,以引物长度为k,k为20bp,将数据库中的核酸序列分别切割为k-mers;
(b)按照k-mer出现频次从高到低选择100条k-mers,作为引物备选k-mers;
(c)将引物备选k-mers中的overlap>10的k-mers进行合并,再在合并后的引物备选k-mers中按照频次从高到低选择30条k-mers作为初步引物,其中合并方式为:保留overlap>10的k-mers中频次最高的k-mer,若频次最高的k-mer存在多条,则保留最长的k-mer;
(d)在覆盖度>1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers,并将搜索到的k-mers与相应初步引物以简并碱基的形式合并,得到简并引物;
(e)对简并引物分别进行基本信息评价,计算简并引物的GC含量、退火温度和形成二级结构的deltaG值,随后计算全部简并引物两两配对后的扩增产物长度,根据扩增产物确定覆盖类群,并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物;
其中,退火温度按如下公式计算,
退火温度=62.3℃+0.41℃(GC%)-500/k;
形成二级结构的deltaG值采用mfold软件计算得到。
实验例
本实验例为利用氮循环过程中的硝酸盐还原基因napA序列数据库设计引物,其中数据库包括高度可信且已鉴定物种(species)的napA基因序列4562条,该数据库以变形菌门为主,包含80%以上的变形菌门,其余20%则是由厚壁菌门、拟杆菌门和绿弯菌门组成;此外,从氧需求类型来划分,其中58%的序列属于兼性厌氧类群,28%属于好氧类群,5%属于厌氧类群;按照革兰氏分类,82%的序列属于革兰氏阴性菌,15%属于革兰氏阳性菌。
目前最常用的napA基因扩增引物对如SEQ ID NO:1和SEQ ID NO:2所示,SEQ IDNO:1为V16cf-GCNCCNTGYMGNTTYTGYGG,该序列中N为A、T、C或G,M为A或C,Y为C或T;
SEQ ID NO:2为:V17cr-RTGYTGRTTRAANCCCATNGTCCA,该序列中R为A或G,Y为C或T,N为A、T、C或G;上述引物对仅能覆盖到该数据库中20.12%的序列,扩增产物长度为1040bp。
采用本发明方法对该数据库进行引物设计,具体包括以下步骤:
(a)基于k-mer算法,以k为17-20bp,用Jellyfish将napA序列数据库中的核酸序列分别切割为k-mers;
(b)按照k-mer出现频次从高到低选择100条k-mers,作为引物备选k-mers;
(c)将引物备选k-mers中的overlap>10的k-mers进行合并,再在合并后的引物备选k-mers中按照频次从高到低选择30条k-mers作为初步引物,其中合并方式为:保留overlap>10的k-mers中频次最高的k-mer,若频次最高的k-mer存在多条,则保留最长的k-mer;
(d)在覆盖度>1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers,并将搜索到的k-mers与相应初步引物以简并碱基的形式合并,得到简并引物;
(e)对简并引物分别进行基本信息评价,计算简并引物的GC含量、退火温度(tm)和形成二级结构的deltaG值,随后计算全部简并引物两两配对后的扩增产物长度,根据扩增产物确定覆盖类群,并根据扩增产物长度为200-500bp,覆盖度>30%筛选成对引物;
其中,退火温度按如下公式计算,
当k<20bp时,退火温度=4℃(G+C)+2℃(A+T);
当k≥20bp时,退火温度=62.3℃+0.41℃(GC%)-500/k;
形成二级结构的deltaG值采用mfold软件计算得到
成对引物筛选结果如表1所示:
表1
Figure SMS_1
成对引物覆盖具体类群如表2所示:
表2
Figure SMS_2
成对引物中k-mer11的序列如SEQ ID NO:3所示,k-mer12的序列如SEQ ID NO:4所示,k-mer18的序列如SEQ ID NO:5所示,k-mer20的序列如SEQ ID NO:6所示,k-mer28的序列如SEQ ID NO:7所示,各引物的序列以及基本信息如表3所示:
表3
Figure SMS_3
表3各引物中,S为G或C;V为G、A或C;D为G、A或T;Y为C或T;R为A或G;
由表1-3可知,本申请设计的引物与目前最常用的napA基因扩增引物V16cf/V17cr相比覆盖度提升了10%以上,且扩增产物片段长度也更易测序;此外,能够捕捉覆盖类群,进而提升微生物群落检测的准确性,且引物设计时间较短,整个流程计算时间约为13min。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。
本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
SEQUENCE LISTING
<110> 中国科学院生态环境研究中心 中国科学院大学
<120> 一种基于k-mer算法的引物设计方法及系统
<130> 2020
<160> 7
<170> PatentIn version 3.3
<210> 1
<211> 20
<212> DNA
<213> Artificial
<400> 1
gcnccntgym gnttytgygg 20
<210> 2
<211> 24
<212> DNA
<213> Artificial
<400> 2
rtgytgrttr aancccatng tcca 24
<210> 3
<211> 17
<212> DNA
<213> Artificial
<400> 3
cgcggytgyy cgcgygg 17
<210> 4
<211> 17
<212> DNA
<213> Artificial
<400> 4
aystggggcg adcarac 17
<210> 5
<211> 17
<212> DNA
<213> Artificial
<400> 5
ccsgcvatgt cdatggt 17
<210> 6
<211> 17
<212> DNA
<213> Artificial
<400> 6
agyttytayg actggta 17
<210> 7
<211> 16
<212> DNA
<213> Artificial
<400> 7
ayatgccrat gctggt 16

Claims (10)

1.一种基于k-mer算法的引物设计方法,其特征在于,包括如下步骤:
(a)构建功能基因核酸序列数据库,并基于k-mer算法,以引物长度为k,将数据库中的核酸序列分别切割为k-mers;
(b)按照k-mer出现频次从高到低选择若干k-mers,作为引物备选k-mers;
(c)将引物备选k-mers中的overlap>x的k-mers进行合并,再在合并后的引物备选k-mers中按照频次从高到低选择多条k-mers作为初步引物,其中合并方式为:保留overlap>x的k-mers中频次最高的k-mer,若频次最高的k-mer存在多条,则保留最长的k-mer;
(d)在覆盖度>1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers,并将搜索到的k-mers与相应初步引物以简并碱基的形式合并,得到简并引物;
(e)对简并引物分别进行基本信息评价并计算全部简并引物两两配对后的扩增产物长度,随后根据基本信息评价结果和扩增产物长度筛选成对引物。
2.根据权利要求1所述的设计方法,其特征在于,所述步骤(a)中,若k为一个长度范围,则根据不同k值分别将数据库中的核酸序列切割为k-mers。
3.根据权利要求1所述的设计方法,其特征在于,所述x为k值的1/2。
4.根据权利要求1所述的设计方法,其特征在于,所述引物备选k-mers为80-120条;所述初步引物为20-40条。
5.根据权利要求1所述的设计方法,其特征在于,所述基本信息评价包括计算简并引物的GC含量、退火温度和形成二级结构的deltaG值。
6.根据权利要求5所述的设计方法,其特征在于,所述退火温度按如下公式计算:
当k<20bp时,所述退火温度=4℃(G+C)+2℃(A+T);
当k≥20bp时,所述退火温度=62.3℃+0.41℃(GC%)-500/k。
7.根据权利要求6所述的设计方法,其特征在于,所述形成二级结构的deltaG值采用mfold软件计算得到。
8.根据权利要求1所述的设计方法,其特征在于,所述步骤(a)中,还包括:
补充功能基因核酸序列的物种信息。
9.根据权利要求8所述的设计方法,其特征在于,所述步骤(e)中,还包括,根据扩增产物确定覆盖类群,并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物;
所述覆盖类群包括覆盖物种、氧需求类型和革兰氏类型。
10.一种基于k-mer算法的引物设计系统,其特征在于,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行权利要求1-9任一项所述的设计方法。
CN202010167423.8A 2020-03-11 2020-03-11 一种基于k-mer算法的引物设计方法及系统 Active CN111326210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010167423.8A CN111326210B (zh) 2020-03-11 2020-03-11 一种基于k-mer算法的引物设计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010167423.8A CN111326210B (zh) 2020-03-11 2020-03-11 一种基于k-mer算法的引物设计方法及系统

Publications (2)

Publication Number Publication Date
CN111326210A CN111326210A (zh) 2020-06-23
CN111326210B true CN111326210B (zh) 2023-07-14

Family

ID=71169280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010167423.8A Active CN111326210B (zh) 2020-03-11 2020-03-11 一种基于k-mer算法的引物设计方法及系统

Country Status (1)

Country Link
CN (1) CN111326210B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111681711B (zh) * 2020-06-28 2021-03-16 江苏先声医学诊断有限公司 一种兼并引物的设计筛选方法
CN112634983B (zh) * 2021-01-08 2021-07-09 江苏先声医疗器械有限公司 病原物种特异pcr引物优化设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3060369A1 (en) * 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
CN109411011A (zh) * 2018-11-06 2019-03-01 苏州泓迅生物科技股份有限公司 一种引物组的设计方法及其应用
CN109935274A (zh) * 2019-03-01 2019-06-25 河南大学 一种基于k-mer分布特征的长读数重叠区检测方法
CN110021365A (zh) * 2018-06-22 2019-07-16 深圳市达仁基因科技有限公司 确定检测靶点的方法、装置、计算机设备和存储介质
CN110211637A (zh) * 2014-06-26 2019-09-06 10X基因组学有限公司 核酸序列装配的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211637A (zh) * 2014-06-26 2019-09-06 10X基因组学有限公司 核酸序列装配的方法和系统
CA3060369A1 (en) * 2017-05-01 2018-11-08 Illumina, Inc. Optimal index sequences for multiplex massively parallel sequencing
CN110799653A (zh) * 2017-05-01 2020-02-14 伊鲁米那股份有限公司 用于多重大规模平行测序的最佳索引序列
CN110021365A (zh) * 2018-06-22 2019-07-16 深圳市达仁基因科技有限公司 确定检测靶点的方法、装置、计算机设备和存储介质
CN109411011A (zh) * 2018-11-06 2019-03-01 苏州泓迅生物科技股份有限公司 一种引物组的设计方法及其应用
CN109935274A (zh) * 2019-03-01 2019-06-25 河南大学 一种基于k-mer分布特征的长读数重叠区检测方法

Also Published As

Publication number Publication date
CN111326210A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN109913572B (zh) 小麦穗长主效qtl紧密连锁的分子标记及其应用
Xiang et al. Identification of circularRNAs and their targets in Gossypium under Verticillium wilt stress based on RNA-seq
CN111326210B (zh) 一种基于k-mer算法的引物设计方法及系统
CN104726549A (zh) 一种基于切刻酶的双链核酸等温扩增检测新方法
Yin et al. Comparative genomic analysis reveals multiple long terminal repeats, lineage-specific amplification, and frequent interelement recombination for Cassandra retrotransposon in pear (Pyrus bretschneideri Rehd.)
CN111575400A (zh) 小麦抗条锈病qtl分子标记iwb12253及其应用
CN109706226B (zh) 一种基于不对称PCR和LAMP循环扩增反应进行miRNA快速检测的方法
CN101550449B (zh) 堆肥中生物酶基因多样性的分析方法
CN112899382B (zh) 一种鉴定拟无枝酸菌的检测方法
CN110021353B (zh) 一种用于捕获富集基因组的特定区域的分子反向探针的筛选方法
CN112634990B (zh) 一种pcr引物设计模板筛选的方法及应用
CN106480020B (zh) 一种核酸扩增反应引物的设计方法及其应用
CN110628927B (zh) 一种基于gyrB基因序列的伯克霍尔德菌检测方法
CN110305974B (zh) 基于检测五个snp位点区分常见小鼠近交系的pcr分析引物及其分析方法
CN115843318A (zh) 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用
CN112941224A (zh) 一种金针菇金6046菌种的ssr标记指纹图谱的鉴定方法及其构建方法与应用
CN113186327A (zh) 一种金针菇fc89菌种的微卫星dna标记指纹图谱的鉴定方法及其构建方法与应用
JP2004532034A (ja) 遺伝子発現分析システムでコントロールとして使用するための人工遺伝子のデザイン
CN111808977A (zh) 一种由snp所引起利福平类抗生素耐药的抗性基因的特异性引物的设计方法及检测方法
CN111540408A (zh) 一种全基因组多态性ssr分子标记的筛选方法
Jo et al. Development of novel microsatellite markers for strain-specific identification of Chlorella vulgaris
CN112980994B (zh) 一种金针菇菌种的ssr标记指纹图谱的鉴定方法及其构建方法与应用
CN110144387B (zh) 一种多重pcr方法
CN113186328B (zh) 一种金针菇徐金18菌种的微卫星dna标记指纹图谱的鉴定方法及其构建方法与应用
CN113151493B (zh) 一种长白山东方蜜蜂ssr标记引物组、pcr鉴定方法以及应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant