CN111326210B

CN111326210B - 一种基于k-mer算法的引物设计方法及系统

Info

Publication number: CN111326210B
Application number: CN202010167423.8A
Authority: CN
Inventors: 邓晔; 吴悦妮
Original assignee: Research Center for Eco Environmental Sciences of CAS; University of Chinese Academy of Sciences
Current assignee: Research Center for Eco Environmental Sciences of CAS; University of Chinese Academy of Sciences
Priority date: 2020-03-11
Filing date: 2020-03-11
Publication date: 2023-07-14
Anticipated expiration: 2040-03-11
Also published as: CN111326210A

Abstract

本发明提供一种基于k‑mer算法的引物设计方法及系统，该方法包括：构建功能基因核酸序列数据库，将数据库中的核酸序列分别切割为k‑mers；按照k‑mer出现频次从高到低选择若干k‑mers，作为引物备选k‑mers；将引物备选k‑mers中的overlap＞x的k‑mers进行合并，再在合并后的引物备选k‑mers中按照频次从高到低选择多条k‑mers作为初步引物；在覆盖度＞1％的k‑mers中搜索与每条初步引物存在一个碱基之差的k‑mers，并将搜索到的k‑mers与相应初步引物以简并碱基的形式合并，得到简并引物；对简并引物分别进行基本信息评价并计算全部简并引物两两配对后的扩增产物长度，根据基本信息评价结果和扩增产物长度筛选成对引物；该方法能够避开序列比对的繁琐步骤，大大提升了引物设计时间，且设计引物具有更高的覆盖度。

Description

一种基于k-mer算法的引物设计方法及系统

技术领域

本发明涉及引物设计技术领域，尤其涉及一种基于k-mer算法的引物设计方法及系统。

背景技术

目前对于微生物群落组成及多样性研究一般都遵循样本采集、DNA提取、PCR扩增目的基因片段、高通量测序的方法进行。高通量测序是一种高靶向性，用于分析特定基因组区域中基因变异的方法，是发现单核苷酸多态性（single nucleotide polymorphisms，SNPs）的理想方法。它利用聚合酶链反应(PCR)的引物来扩增基因组的特定区域，靶向地捕获目标区域的DNA，达到目的DNA片段的富集目标。最后针对扩增产物进行高通量测序，分析序列中的遗传变异等信息；PCR是指在体外选择性扩增DNA片段的技术。每次扩增都以上次扩增的产物作为模板进行指数扩增。PCR技术主要分为三个基本反应步骤，即变性-退火-延伸；变性阶段双链DNA经过高温变性后解链成单链；退火阶段引物与单链DNA在较低温度下碱基互补配对；延伸阶段引物与模板结合物以脱氧核糖核苷酸(dNTP)为原料，按照半保留复制与碱基互补配对的原则合成一条与模板链互补的新链。不断循环这三个过程即可在短时间内将目的片段扩增数百万倍。目前，PCR技术已经广泛应用于微生物领域的研究。

在PCR技术中，设计引物来扩增目的基因是确定测序序列长度和覆盖序列范围的关键；引物是人工合成的两段寡核苷酸序列，正向引物与目的基因一端的一条DNA模板链互补，反向引物与目的基因另一端的另一条DNA模板链互补；在PCR技术中，已知一段目的基因的核苷酸序列，根据这一序列合成引物，利用PCR扩增技术，目的基因DNA受热变性后解链为单链，引物与单链相应互补序列结合，然后在DNA聚合酶作用下进行延伸，如此重复循环，延伸后得到的产物同样可以和引物结合。PCR引物设计的目的是找到一对合适的核苷酸片段，使其能有效地扩增模板DNA序列，引物的优劣直接关系到PCR的特异性与成功与否；只有设计出适当的引物，才能进行关注基因及类群检测的PCR反应，验证它的特异性及覆盖度，确保它能且只能识别所关注的类群及基因。

目前，微生物常被用作多样性调查的标记基因扩增引物已较为普及和完善，但是针对其它功能基因，现有的引物仍无法覆盖到许多研究类群；目前，最常用且准确度较高的引物设计方法，是对可信度较高的DNA序列进行相似性比对，物种间不同序列的相同片段就是该基因的保守区，并根据目的片段的长度在基因的保守区选择合适的片段作为引物；然而，随着已知序列越来越多，序列比对的时间成本大大提升，几千条序列的准确比对就要用上几天，上万条序列则是要运行几十天，且对序列长度、质量等有着较高要求；因此亟需一种快速、准确的新方法来设计引物，以缩短运行时间，节约研究成本。

发明内容

有鉴于此，本发明的目的在于提出一种基于k-mer算法的引物设计方法，以解决现有引物设计方法存在的设计时间长的问题。

基于上述目的，本发明提供了一种基于k-mer算法的引物设计方法，所述设计方法包括如下步骤：

（a）构建功能基因核酸序列数据库，并基于k-mer算法，以引物长度为k，将数据库中的核酸序列分别切割为k-mers；

（b）按照k-mer出现频次从高到低选择若干k-mers，作为引物备选k-mers；

（c）将引物备选k-mers中的overlap＞x的k-mers进行合并，再在合并后的引物备选k-mers中按照频次从高到低选择多条k-mers作为初步引物，其中合并方式为：保留overlap＞x的k-mers中频次最高的k-mer，若频次最高的k-mer存在多条，则保留最长的k-mer；

（d）在覆盖度＞1%的k-mers中搜索与每条初步引物存在一个碱基之差的k-mers，并将搜索到的k-mers与相应初步引物以简并碱基的形式合并，得到简并引物；

（e）对简并引物分别进行基本信息评价并计算全部简并引物两两配后的扩增产物长度，随后根据基本信息评价结果和扩增产物长度筛选成对引物。

可选地，所述步骤（a）中，若k为一个长度范围，则根据不同k值分别将数据库中的核酸序列切割为k-mers。

可选地，所述k为16-25bp。

可选地，所述x为k值的1/2。

可选地，所述引物备选k-mers为80-120条；所述初步引物为20-40条。

可选地，所述基本信息评价包括计算简并引物的GC含量、退火温度和形成二级结构的deltaG值。

可选地，所述退火温度按如下公式计算：

当k＜20bp时，所述退火温度=4℃(G+C)+2℃(A+T)；

当k≥20bp时，所述退火温度=62.3℃+0.41℃(GC%)-500/k。

可选地，所述形成二级结构的deltaG值采用mfold软件计算得到。

可选地，所述步骤（a）中，还包括：

补充功能基因核酸序列的物种信息。

可选地，所述步骤（e）中，还包括，根据扩增产物确定覆盖类群，并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物；

所述覆盖类群包括覆盖物种、氧需求类型和革兰氏类型。

本发明另一方面提供一种基于k-mer算法的引物设计系统，包括：存储器、与所述存储器连接的处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行所述设计方法。

从上面所述可以看出，本发明提供的一种基于k-mer算法的引物设计方法及系统至少包括如下效果：

本发明设计方法能够避开序列比对这一繁琐步骤，大大提升了引物设计时间，具体地，针对序列数在10³数量级的数据库计算时间为10分钟左右，15,000条序列的数据库计算时间为17分钟，3万条序列的数据库计算时间为23分钟；6万条序列的数据库计算时间需要45分钟；此外，该设计方法设计的引物具有更高的覆盖度。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。

目前，最常用且准确度较高的引物设计方法，是对可信度较高的DNA序列进行相似性比对，物种间不同序列的相同片段就是该基因的保守区，并根据目的片段的长度在基因的保守区选择合适的片段作为引物；然而，随着已知序列越来越多，序列比对的时间成本大大提升，几千条序列的准确比对就要用上几天，上万条序列则是要运行几十天，且对序列长度、质量等有着较高要求。

针对上述技术问题，本发明提出一种基于k-mer算法的引物设计方法，该设计方法能够避开序列比对这一繁琐步骤，大大提升了引物设计时间，并且设计的引物具有更高的覆盖度。

上述基于k-mer算法的引物设计方法包括如下步骤：

（e）对简并引物分别进行基本信息评价并计算全部简并引物两两配对后的扩增产物长度，随后根据基本信息评价结果和扩增产物长度筛选成对引物。

由于序列的相同片段位于基因的保守区，因此当k值大于一定长度时，频次高的k-mer大多位于序列的保守区，进而本发明通过上述设计方法能够快速设计功能基因核酸序列数据库的引物，并具有较高的覆盖度。

本发明中overlap是指k-mers中重叠部分的碱基序列。

k-mer算法是用于宏基因组测序结果分析中提升组装效果常用的一种算法；k-mer是指将序列分成包含k个碱基的字符串，一般长短为m的序列可以分成m-k+1个k-mers。

本发明对构建功能基因核酸序列数据库的方法不作严格限制，例如可以根据本领域的常规方法进行构建；具体地，可以根据关键、同源蛋白保守域检索等方式在KEGG、Fungene及Genbank序列数据库中进行筛选得到相应序列，进而构建功能基因核酸序列。

本发明对步骤（a）中的k大小不作严格限制，例如，可以根据扩增引物长度进行合理选择；此外，本发明中k可以为一个具体数值，也可以为一个长度范围，若k为一个长度范围，则根据不同k值分别将数据库中的核酸序列切割为k-mers；在一实施方式中，k为16-20bp，则针对k为16bp、18bp、19bp或20bp分别将数据库中的核酸序列切割为相应k-mer；在其他实施方式中，k还可以为其它范围或具体数值。

在本发明中对x的大小不作严格限制，可以根据实际需要进行设置；例如，x可以为小于k的任意数，优选地，x为大于8并小于k的数值；更选地，x为k值的1/2。通过x的选择，使overlap起码达到k-mer长度一半以上，以此能确保两条k-mer处于同一位置的x之差。

本发明中对引物备选k-mers以及初步引物数量不作严格限制，例如可以根据实际需要进行合理选择；在一实施方式中，引物备选k-mers数量可以为80-120范围内的任一数值，具体地引物备选k-mers数量可以是80条、91条、100条或120条；在一实施方式中，初步引物数量可以为20-40范围内的任一数值，具体可以是20条、30条或40条；在其它实施方式中，引物备选k-mers数量可以为80-120范围外的任一数值；初步引物数量还可以为20-40范围外的任一数值。

在本发明中，对简并引物进行基本信息评价不作严格限制，例如，可以计算简并引物的GC含量、退火温度和形成二级结构的deltaG值；在一实施方式中，退火温度按如下公式计算：

当k＜20bp时，所述退火温度=4℃(G+C)+2℃(A+T)；

当k≥20bp时，所述退火温度=62.3℃+0.41℃(GC%)-500/k。

在一实施方式中，形成二级结构的deltaG值采用mfold软件计算得到。

在一实施方式中，本发明步骤（a）中，还包括：补充功能基因核酸序列的物种信息。

进一步地，步骤（e）中，还包括，根据扩增产物确定覆盖类群，并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物；

覆盖类群包括覆盖物种、氧需求类型和革兰氏类型。

通过物种信息添加，能够确定扩增产物的物种信息，进而能够确定引物的覆盖类群。

本发明还提供一种基于k-mer算法的引物设计系统，该系统包括：存储器、与存储器连接的处理器，及存储在存储器上并可在处理器上运行的计算机程序，处理器运行计算机程序时执行上述设计方法。

本发明上述设计方法能够避开序列比对这一繁琐步骤，大大提升了引物设计时间，具体地，针对序列数在10³数量级的数据库计算时间为10分钟左右，15,000条序列的数据库计算时间为17分钟，3万条序列的数据库计算时间为23分钟；6万条序列的数据库计算时间需要45分钟；此外，该设计方法设计的引物具有更高的覆盖度。

以下通过具体的实施例对本发明技术方案作进一步解释说明。

实施例1

本实施例为一种基于k-mer算法的引物设计方法，该设计方法包括：

（a）构建功能基因核酸序列数据库，并基于k-mer算法，以引物长度为k，k为17-20bp，将数据库中的核酸序列分别切割为k-mers；

（b）按照k-mer出现频次从高到低选择120条k-mers，作为引物备选k-mers；

（c）将引物备选k-mers中的overlap＞10的k-mers进行合并，再在合并后的引物备选k-mers中按照频次从高到低选择40条k-mers作为初步引物，其中合并方式为：保留overlap＞10的k-mers中频次最高的k-mer，若频次最高的k-mer存在多条，则保留最长的k-mer；

（e）对简并引物分别进行基本信息评价，计算简并引物的GC含量、退火温度和形成二级结构的deltaG值，随后计算全部简并引物两两配对后的扩增产物长度，随后根据基本信息评价结果和扩增产物长度筛选成对引物；

其中，退火温度按如下公式计算，

当k＜20bp时，退火温度=4℃(G+C)+2℃(A+T)；

当k≥20bp时，退火温度=62.3℃+0.41℃(GC%)-500/k；

形成二级结构的deltaG值采用mfold软件计算得到。

实施例2

（a）构建功能基因核酸序列数据库，通过基因编号在功能基因核酸序列数据库中补充物种信息，并基于k-mer算法，以引物长度为k，k为20bp，将数据库中的核酸序列分别切割为k-mers；

（b）按照k-mer出现频次从高到低选择100条k-mers，作为引物备选k-mers；

（c）将引物备选k-mers中的overlap＞10的k-mers进行合并，再在合并后的引物备选k-mers中按照频次从高到低选择30条k-mers作为初步引物，其中合并方式为：保留overlap＞10的k-mers中频次最高的k-mer，若频次最高的k-mer存在多条，则保留最长的k-mer；

（e）对简并引物分别进行基本信息评价，计算简并引物的GC含量、退火温度和形成二级结构的deltaG值，随后计算全部简并引物两两配对后的扩增产物长度，根据扩增产物确定覆盖类群，并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物；

其中，退火温度按如下公式计算，

退火温度=62.3℃+0.41℃(GC%)-500/k；

形成二级结构的deltaG值采用mfold软件计算得到。

实验例

本实验例为利用氮循环过程中的硝酸盐还原基因napA序列数据库设计引物，其中数据库包括高度可信且已鉴定物种（species）的napA基因序列4562条，该数据库以变形菌门为主，包含80%以上的变形菌门，其余20%则是由厚壁菌门、拟杆菌门和绿弯菌门组成；此外，从氧需求类型来划分，其中58%的序列属于兼性厌氧类群，28%属于好氧类群，5%属于厌氧类群；按照革兰氏分类，82%的序列属于革兰氏阴性菌，15%属于革兰氏阳性菌。

目前最常用的napA基因扩增引物对如SEQ ID NO:1和SEQ ID NO：2所示，SEQ IDNO:1为V16cf-GCNCCNTGYMGNTTYTGYGG，该序列中N为A、T、C或G，M为A或C，Y为C或T；

SEQ ID NO：2为：V17cr-RTGYTGRTTRAANCCCATNGTCCA，该序列中R为A或G，Y为C或T，N为A、T、C或G；上述引物对仅能覆盖到该数据库中20.12%的序列，扩增产物长度为1040bp。

采用本发明方法对该数据库进行引物设计，具体包括以下步骤：

（a）基于k-mer算法，以k为17-20bp，用Jellyfish将napA序列数据库中的核酸序列分别切割为k-mers；

（e）对简并引物分别进行基本信息评价，计算简并引物的GC含量、退火温度（tm）和形成二级结构的deltaG值，随后计算全部简并引物两两配对后的扩增产物长度，根据扩增产物确定覆盖类群，并根据扩增产物长度为200-500bp，覆盖度＞30%筛选成对引物；

其中，退火温度按如下公式计算，

当k＜20bp时，退火温度=4℃(G+C)+2℃(A+T)；

当k≥20bp时，退火温度=62.3℃+0.41℃(GC%)-500/k；

形成二级结构的deltaG值采用mfold软件计算得到

成对引物筛选结果如表1所示：

表1

成对引物覆盖具体类群如表2所示：

表2

成对引物中k-mer11的序列如SEQ ID NO:3所示，k-mer12的序列如SEQ ID NO:4所示，k-mer18的序列如SEQ ID NO:5所示，k-mer20的序列如SEQ ID NO:6所示，k-mer28的序列如SEQ ID NO:7所示，各引物的序列以及基本信息如表3所示：

表3

表3各引物中，S为G或C；V为G、A或C；D为G、A或T；Y为C或T；R为A或G；

由表1-3可知，本申请设计的引物与目前最常用的napA基因扩增引物V16cf/V17cr相比覆盖度提升了10%以上，且扩增产物片段长度也更易测序；此外，能够捕捉覆盖类群，进而提升微生物群落检测的准确性，且引物设计时间较短，整个流程计算时间约为13min。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

SEQUENCE LISTING

<110> 中国科学院生态环境研究中心中国科学院大学

<120> 一种基于k-mer算法的引物设计方法及系统

<130> 2020

<160> 7

<170> PatentIn version 3.3

<210> 1

<211> 20

<212> DNA

<213> Artificial

<400> 1

gcnccntgym gnttytgygg 20

<210> 2

<211> 24

<212> DNA

<213> Artificial

<400> 2

rtgytgrttr aancccatng tcca 24

<210> 3

<211> 17

<212> DNA

<213> Artificial

<400> 3

cgcggytgyy cgcgygg 17

<210> 4

<211> 17

<212> DNA

<213> Artificial

<400> 4

aystggggcg adcarac 17

<210> 5

<211> 17

<212> DNA

<213> Artificial

<400> 5

ccsgcvatgt cdatggt 17

<210> 6

<211> 17

<212> DNA

<213> Artificial

<400> 6

agyttytayg actggta 17

<210> 7

<211> 16

<212> DNA

<213> Artificial

<400> 7

ayatgccrat gctggt 16

Claims

1.一种基于k-mer算法的引物设计方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的设计方法，其特征在于，所述步骤（a）中，若k为一个长度范围，则根据不同k值分别将数据库中的核酸序列切割为k-mers。

3.根据权利要求1所述的设计方法，其特征在于，所述x为k值的1/2。

4.根据权利要求1所述的设计方法，其特征在于，所述引物备选k-mers为80-120条；所述初步引物为20-40条。

5.根据权利要求1所述的设计方法，其特征在于，所述基本信息评价包括计算简并引物的GC含量、退火温度和形成二级结构的deltaG值。

6.根据权利要求5所述的设计方法，其特征在于，所述退火温度按如下公式计算：

当k＜20bp时，所述退火温度=4℃(G+C)+2℃(A+T)；

当k≥20bp时，所述退火温度=62.3℃+0.41℃(GC%)-500/k。

7.根据权利要求6所述的设计方法，其特征在于，所述形成二级结构的deltaG值采用mfold软件计算得到。

8.根据权利要求1所述的设计方法，其特征在于，所述步骤（a）中，还包括：

补充功能基因核酸序列的物种信息。

9.根据权利要求8所述的设计方法，其特征在于，所述步骤（e）中，还包括，根据扩增产物确定覆盖类群，并根据基本信息评价结果、扩增产物长度和覆盖类群筛选成对引物；

所述覆盖类群包括覆盖物种、氧需求类型和革兰氏类型。

10.一种基于k-mer算法的引物设计系统，其特征在于，包括：存储器、与所述存储器连接的处理器，及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行权利要求1-9任一项所述的设计方法。