CN114373508A

CN114373508A - 一种基于16S rDNA序列的菌种鉴定方法

Info

Publication number: CN114373508A
Application number: CN202210078847.6A
Authority: CN
Inventors: 王庭璋; 刘淑艳; 马云婷; 郑小玲; 王美霞; 钟啸萍; 陶巧凤; 方序
Original assignee: Zhejiang Tianke High And New Technology Development Co ltd
Current assignee: Zhejiang Tianke High And New Technology Development Co ltd
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-04-19
Anticipated expiration: 2042-01-24
Also published as: CN114373508B

Abstract

本发明公开了一种基于16S rDNA序列的菌种鉴定方法，步骤包括：将参考16S rDNA序列按照引物序列确定参考序列方向；根据预定长度将确定方向后的参考序列进行k‑mer切分；将含有一定数量的简并碱基序列进行展开，构建参考序列的k‑mer索引库；将查询序列按照预定长度进行k‑mer切分，构建k‑mer序列集合；根据特定公式以及特定序列相似性值计算查询序列的最小比对k‑mer数（k _min）；比对参考序列k‑mer索引库，统计查询序列的每个k‑mer的比对情况；根据k _min筛选出符合条件的候选参考序列，分别将查询序列与候选参考序列进行两两比对，计算序列相似性，最终输出查询序列的比对结果。本发明可以缩短海量序列查询时间以及减少海量数据存储空间，并为菌株鉴定提供了一个新的高效的技术手段。

Description

一种基于16S rDNA序列的菌种鉴定方法

技术领域

本发明属于生物信息领域，具体地，本发明涉及一种基于16S rDNA序列的菌种鉴定方法。

背景技术

16S rDNA主要编码核糖体16S rRNA，约1500bp，其进化具有时钟性质，在结构与功能上具有保守性，有“细菌化石”之称。16S rDNA的序列中至少包含9个可变区和11个保守区。保守区是细菌共有的序列，具有高度同源性。而可变区中某些高变性质则能体现物种间的差异，研究表明高变区（V1-V9）存在与所有细菌中，可用于细菌的种类鉴定。

微生物污染是制药企业生产过程控制及药品质量评估的重要指标，也是影响消费者用药安全的关键因素。因此加强药品生产过程微生物监管和风险控制是保障药品质量、降低用药风险的重要途径。在药品生产的微生物质量控制中，实现微生物“属”及“种”水平的准确鉴定，对控制药品质量以及保障消费者用药安全具有重要意义。

随着分子生物学技术的快速发展，微生物鉴定技术也得到飞速发展。近年来，各种基因诊断技术在细菌检测中不断开发、利用，尤其是基于聚合酶链反应（PCR）的基因诊断技术发挥着越来越重要的作用。该技术主要有三个步骤：首先是基因组DNA的获得，其次是16srDNA基因片段的获得，最后是进行16s rDNA基因序列的分析。截止目前，使用16S rDNA基因序列对物种进行鉴定和分类的核心基础是利用BLAST局部比对算法进行快速分类，输出初始排名结果，随后使用双序列全局比对，给出在参考数据库中与待查询序列最为接近的排名序列，以此作为参考，对样本序列进行鉴定和分类。然而BLAST算法存在计算量较大，运算效率低以及资源消耗较高等问题。传统的索引在可扩展性上难以满足数据快速增长的需求，尤其当数据量极大，时间紧迫时，能否以最快的速度存取到所需的信息，是一个非常重要的挑战性问题。

发明内容

为了克服现有技术的不足，本发明的目的是提供一种基于16S rDNA序列的菌种鉴定方法，该方法应用于16S rDNA序列的菌种鉴定中，能明显提高鉴定速度并减少运算量，高效地获得序列的菌种鉴定信息。

本发明提供的菌种鉴定方法基于k-mer思想实现16S rDNA序列的菌种鉴定。具体的核心步骤如下：步骤一，构建参考序列k-mer索引库；步骤二，查询序列菌种鉴定分析；根据本发明实施例的上述鉴定方法通过k-mer切分模式，减少了比对的运算量，极大提高了鉴定速度。

根据本发明的实施例，上述方法进一步包括如下技术特征：

所述k-mer索引库构建是通过如下方式进行的：（1）序列方向确定：根据533R引物序列与参考数据库中序列比对以确定序列方向，其中533R引物序列为5’-TTACCGCGGCTGCTGGCAC-3’；

（2）k-mer切分：根据特定长度对所有序列进行k-mer切分；

（3）k-mer序列分类：根据简并碱基数量将k-mer序列分为3类，第一类为不包含简并碱基；第二类包含简并碱基并且数量小于等于2；第三类包含简并碱基并且数量大于2；

（4）展开简并碱基：针对上述第二类k-mer序列，即存在简并碱基并且数量小于等于2的k-mer序列，根据简并碱基对应的碱基进行逐步展开；

（5）k-mer索引构建：将上述第一类k-mer序列，第二类经过展开后的k-mer序列，以及第三类k-mer序列合并构建k-mer索引库，包含k-mer序列，出现频次，涉及的参考序列ID。

所述查询序列菌种鉴定分析实行步骤如下：

（1）k-mer切分：将16S rDNA查询序列按照特定长度进行k-mer切分，构建k-mer序列集合；

（2）K _min计算：根据特定公式以及特定序列相似性值计算查询序列的最小比对k- mer数（k _min）；

（3）比对k-mer索引库：将查询序列的k-mer序列集合与参考k-mer索引库进行比对，并统计查询序列每个k-mer的比对结果；

（4）k-mer统计：根据与索引库的比对情况，统计查询序列比对上相同参考序列的k-mer个数；

（5）候选参考序列筛选：根据k _min筛选出符合条件的候选参考序列；

（6）序列两两比对：将查询序列分别与候选参考序列进行两两比对，计算序列相似性以及序列联配结果

（7）结果输出：最终输出查询序列的比对结果。

所述k _min计算公式如下：

；

其中，

L表示查询序列长度；

K表示指定k-mer长度；

S表示指定序列相似性值；

int表示数值取整。

所述指定序列相似性值设置如下：根据基因序列一般分析原则，相似性≥99%时，鉴定结果为种水平；相似性≥97%且<99%时，鉴定结果为属水平。

所述查询序列与候选参考序列进行两两比对采用全局比对方法。

所述最终输出结果包括序列相似性，物种拉丁名，物种菌株号。

本发明有益效果在于：

1）通过采取k-mer算法模式，大大的减少了数据库存储空间；

2）通过k-mer序列在索引库中查找，极大地缩短了查找时间的成本。

附图说明

图1为本发明实施例中的k-mer索引库构建示意图。

图2为本发明实施例中的序列鉴定模块示意图。

具体实施方式

为了更好的说明本发明，下面结合具体的实施例做进一步说明，所述实施例的示例在附图中展示出。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

根据本发明的实施例，所述方法可描述为：

1）16S rDNA参考序列k-mer索引库构建，如图1所示。具体步骤包括：

序列方向确定：根据533R引物序列与参考16S rDNA序列数据库中序列进行比对以确定序列方向，其中533R引物序列为5’-TTACCGCGGCTGCTGGCAC-3’。

k-mer切分：根据特定长度（K=31），对参考序列进行k-mer切分。

k-mer序列分类：根据简并碱基数量将k-mer序列分为3类，第一类为不包含简并碱基；第二类包含简并碱基并且数量小于等于2；第三类包含简并碱基并且数量大于2。

展开简并碱基：针对上述第二类k-mer序列，即存在简并碱基并且数量小于等于2的k-mer序列，根据简并碱基对应的碱基进行逐步展开。

k-mer索引构建：将上述第一类k-mer序列，第二类经过展开后的k-mer序列，以及第三类k-mer序列合并构建k-mer索引库，以哈希表存储，包含k-mer序列，出现频次和涉及的参考序列ID。

2）16S rDNA查询序列菌种鉴定分析，如图2所示。具体步骤包括：

k-mer切分：根据特定长度（K=31），对查询序列进行k-mer切分，构建k-mer序列集合。

k _min计算：并且根据特定公式以及特定序列相似性值计算查询序列的最小比对k- mer数（k _min）。

k _min计算公式如下：

；

其中，

L表示查询序列长度；

K表示指定k-mer长度；

S表示指定序列相似性值；

int表示数值取整。

如：查询序列长度为1428bp，鉴定结果达到种水平（相似性≥99%），根据公式计算：k _min=1428-(31-1+31*int(1428/100)*(100-99))=964，通过计算可知当查询序列长度为1428bp时，至少需要有964个k-mer比对上同一条参考序列才能保证序列鉴定结果到种水平。

比对k-mer索引库：将查询序列的k-mer序列集合与参考k-mer索引库进行比对，并统计每个k-mer的比对结果。

k-mer统计：根据与索引库的比对情况统计比对上相同参考序列的k-mer个数。

候选参考序列筛选：根据k _min值筛选出符合条件的候选参考序列。

序列两两比对：将查询序列与候选参考序列进行两两比对，并计算相似性以及序列联配结果。

结果输出：根据序列比对结果输出序列相似性值，物种拉丁名，物种菌株号。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本领域技术人员而言，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，均属于本发明要求保护的范围。

Claims

1.一种基于16S rDNA序列的菌种鉴定方法，其特征在于，包括以下步骤：

步骤1，构建参考序列k-mer索引库；

步骤1.1 序列方向确定：根据533R引物序列与16S rDNA参考数据库中序列进行比对以确定序列方向，其中533R引物序列为5’-TTACCGCGGCTGCTGGCAC-3’；

步骤1.2 k-mer切分：根据特定长度对所有序列进行k-mer切分；

步骤1.3 k-mer序列分类：根据简并碱基数量将k-mer序列分为3类，第一类为不包含简并碱基；第二类包含简并碱基并且数量小于等于2；第三类包含简并碱基并且数量大于2；

步骤1.4 展开简并碱基：针对上述第二类k-mer序列，即存在简并碱基并且数量小于等于2的k-mer序列，根据简并碱基对应的碱基进行逐步展开；

步骤1.5 k-mer索引构建：将上述第一类k-mer序列，第二类经过展开后的k-mer序列，以及第三类k-mer序列合并构建k-mer索引库，包含k-mer序列，出现频次和涉及的参考序列ID；

步骤2，查询序列菌种鉴定分析；

步骤2.1 k-mer切分：将16S rDNA查询序列按照特定长度进行k-mer切分，构建k-mer序列集合；

步骤2.2 k _min计算：根据特定公式以及特定序列相似性值计算查询序列的最小比对k- mer数（kmin）；

步骤2.3 比对k-mer索引库：将查询序列的k-mer序列集合与参考k-mer索引库进行比对，并统计查询序列每个k-mer的比对情况；

步骤2.4 k-mer统计：根据与索引库的比对情况，统计查询序列比对上相同参考序列的k-mer个数；

步骤2.5 候选参考序列筛选：根据k _min筛选出符合条件的候选参考序列；

步骤2.6 序列两两比对：将查询序列分别与候选参考序列进行两两比对，计算序列相似性以及序列联配结果；

步骤2.7 结果输出：根据序列比对结果输出序列相似性值，物种拉丁名，物种菌株号。

2.如权利要求1所述的方法，其特征在于：所述特定长度为31个核苷酸碱基。

3.如权利要求1所述的方法，其特征在于，所述k _min计算公式如下：

其中，

L表示查询序列长度；

K表示指定k-mer长度；

S表示指定序列相似性值；

int表示数值取整。

4.如权利要求1所述的方法，其特征在于，所述指定序列相似性值设置如下：根据基因序列一般分析原则，相似性≥99%时，鉴定结果为种水平；相似性≥97%且<99%时，鉴定结果为属水平。

5.如权利要求1所述的方法，其特征在于，查询序列与候选参考序列进行两两比对采用全局比对方法。