CN112863606A

CN112863606A - 细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法

Info

Publication number: CN112863606A
Application number: CN202110250916.2A
Authority: CN
Inventors: 陈欢; 梁倩; 徐荣; 王莹; 刘程智; 何陆平
Original assignee: Hangzhou Weishu Biotechnology Co ltd
Current assignee: Hangzhou Weishu Biotechnology Co ltd
Priority date: 2021-03-08
Filing date: 2021-03-08
Publication date: 2021-05-28
Anticipated expiration: 2041-03-08
Also published as: CN112863606B

Abstract

本发明公开了一种细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法。通过删除错误的标签和低质量的基因组组装来创建一个高质量的细菌鉴定和分型分析基因组数据库。并依托该数据库，提供了基于基因组信息进行细菌鉴定和分型分析方法，开发了一套快速的细菌基因组鉴定鉴定平台（FIDBac）。FIDBac鉴定的准确率达到97%以上，显著高于其它同类鉴定系统或软件。这一单一、连贯和自动化的细菌基因组鉴定工作流程，对于在食品工业、制药工业、临床诊断和微生物资源开发等领域具有重要意义。

Description

细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法

技术领域

本发明涉及细菌基因组鉴定和分型领域，尤其是涉及细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法。

背景技术

准确的细菌菌种鉴定是成功进行细菌分类、病原菌检测和来源追踪的关键，在食品工业、制药工业、临床诊断和微生物资源开发等领域具有重要意义。传统上，细菌鉴定依赖于表型鉴定，但表型鉴定存在繁殖能力受限、实验劳动强度大、耗时长等缺点，而分子生物学方法有望克服了这些缺点。16S rRNA基因因其在细菌和古生菌基因组中的普遍分布及系统发育意义而成为原核生物分类学中一种流行的分子生物学方法。尽管有大量可用的数据集，但16S rRNA基因并不总是具有足够的分辨率用于物种划分，尤其是对于近缘物种。此外，16S rRNA基因在一个基因组中的异质多拷贝性也为其应用增加了额外的缺陷。其他一些方法，如利用附加的单拷贝管家基因来提高鉴定的准确性，但这些管家基因的物种覆盖率远低于16S rRNA基因。此外，管家基因还可能在基因选择上存在偏差，不能用单一的工作流程有效地处理所有分类群。而全基因组序列包含一个特定类群的全部遗传信息时，它可以有效地说明物种的边界，分类和鉴定就越准确。

得益于下一代测序技术，公共数据库中的细菌基因组越来越多，使得细菌鉴定可以进入基因组时代。然而，鉴定工具，如SpeciesFinder、Reads2Type、TaxonomyFinder和rMLST，只能利用基因组测序数据中能比对上16S rRNA基因或其他管家基因的读长序列（Reads）进行鉴定。目前，以全基因组为基础的平均核苷酸同一性（ANI）有望取代目前细菌物种划分的金标准DNA:DNA杂交（DDH），即使是草图基因组也可以达到很好的鉴定效果。但ANI算法计算量大，计算速度慢，尤其要和数据库中上万条基因组序列进行比对时非常耗费计算资源。

细菌基因组鉴定的另一个关键点事是基因组数据库的质量。首先，模式菌株的基因组序列应包括在数据库中用于分类和鉴定。类群的模式种，特别是种的模式株，需要充分体现该种所描述的表型和基因型特征，以及在系统发育中起着的作用。其次，数据库中不应包括错误标记的基因组序列。错误标记的基因组序列对鉴定造成了极大的威胁。第三，基因组的完整性和污染率也需要引起重视，因为它们可能会导致鉴定结果的严重偏离。例如，基因组序列中的污染可能导致两个不同物种之间具有高ANI值的偏倚结果。然而，由于物种间基因组大小和基因含量的高度差异，基因组草图的完整性和污染性可能不容易区分。最后，菌种的命名需要符合国际原核生物命名法（ICNP）的最新命名规则。

发明内容

为了克服现有技术的不足，本发明提供了细菌鉴定和分型分析基因组数据库及鉴定和分型分析方法。

一种细菌鉴定和分型分析基因组数据库，构建步骤如下：

1）菌种信息收集

1.1）从NCBI（National Center for Biotechnology Information，美国国家生物技术信息中心）收集细菌基因组，包括细菌基因组序列、“菌株”、“培养物收集”、“克隆”和“注释”元信息，从中筛选模式菌株；

1.2）获取来自LPSN（The List of Prokaryotic names with Standing inNomenclature）的有效发布的细菌名称和类型菌株列表；

1.3）查阅伯杰氏细菌系统学手册第2版和IJSEM《国际系统与进化微生物学杂志》的文章，确定合格发表的物种名称和对应的模式菌株菌株号；

1.4）根据1.3物种名称和菌株号对1.1获取的基因组序列和元信息进行筛选，获取合格的菌株细菌基因组进入到数据库进行管理；

2）数据库中的基因组序列质量控制

2.1）使用基于谱系标记基因集的CheckM（v1.0.18）评估每个基因组的完整性和污染率，将污染率＞5%或完整度小于90%的基因组从数据库中剔除；

2.2）已进行注释的基因组直接提取其中的16S rRNA基因序列，对于未进行注释的基因组使用RNAmmer（v1.2）进行提取，将这些16S rRNA基因序列与LTP数据库（版本：LTPs132\u SSU）进行比对，以检查一致性，如存在属水平不一致，通过查阅IJSEM和该物种相关的文献，调查是否进行了更名，如未改名判定为污染，将污染基因组去除；

2.3）对任意两个基因组之间进行成对ANI（Average nucleotide identity ）计算，以推断错误标记的基因组，通过查阅IJSEM和该物种相关的文献，调查是否进行了更名，否则判定错误标识，将错误标识基因组去除。

所述的细菌鉴定和分型分析基因组数据库，对基因组数据库中的模式菌株基因组进行16S rRNA序列提取，提取了25,209条，长度大于300的模式菌株16S rRNA基因序列，和LTP包含的16S rRNA基因序列合并，形成可用于鉴定的16S rRNA序列数据库。

所述的细菌鉴定和分型分析基因组数据库，删除416个错误标签和低质量的基因组，包括331个污染率>5%或者完整度小于90%的，15个16S异质性的，12个基因组大小和GC含量异常的，13个ANI值与同种type<95的，45个ANI聚类树同属异常的基因组；最终构建的数据库中所有基因组均来自于合格发表物种的模式菌株，包含序列、双名法命名的物种拉丁名、菌株号信息；构建的基因组数据库中所有基因组质量满足污染率＜%5且完整度＞90%。

所述的细菌鉴定和分型分析基因组数据库周期性或者实时更新。

一种基于基因组信息进行细菌鉴定和分型分析方法，步骤如下：

a）提取待鉴定细菌基因组中的16S rRNA序列与LTP数据库进行比对；

b）利用Kmerfinder（v3.1），从待鉴定细菌基因组中提取的K-mers与细菌基因组数据库的K-mer数据库进行比对；

c）分别获取步骤a）、步骤b）中筛选得到的排名前20个细菌ID号，并从细菌基因组数据库中提取所述细菌ID号的基因组序列，利用fastANI（v1.1）计算查询待鉴定基因组与所述细菌ID号的基因组序列的ANI数值；最后，鉴定结果只返回最接近的物种且ANI数值大于95%。

步骤b）所述细菌基因组数据库采用如上所述的细菌基因组数据库。

所述的方法，通过在线数据分析平台，用户通过浏览器直接访问并提交待鉴定细菌基因组进行细菌鉴定和分型分析。

本发明的有益效果：

准确的细菌菌种鉴定是成功进行细菌分类、病原菌检测和来源追踪的关键。本发明建立了一套基于基因组信息进行细菌鉴定和分型分析方法及系统，完成了高质量的细菌基因组数据库构建和快速细菌鉴定的组合策略建立。与现有的SpeciesFinder、Reads2Type、TaxonomyFinder和rMLST相比准确度更高。同时将K-mers组合fastANI，只需要3-5分钟就能返回鉴定结果，大大提升了ANI分析的速度。本发明还在此基础上，开发了在线数据分析平台FIDBac，用户通过浏览器可直接访问并使用，操作简便，无需具备专业的生物信息学知识。该方法学的建立以及数据在未来不断的积累，对于在食品工业、制药工业、临床诊断和微生物资源开发等领域具有重要意义，准确快速的鉴定对于病原细菌的流行病学特征和有效控制感染的发生也具有重要指导意义。

附图说明

图1是细菌鉴定和分型分析基因组数据库的构建和应用流程图。

图2是MDBACDB数据库的简要说明；

其中，A、B、C、D四部分分别是：A.每个门的细菌基因组数量； B. MDBACDB中基因组大小的分布；C. MDBACDB中的GC含量分布； D. MDBACDB中任意两个细菌组间的ANI值分布。

图3是在线分析FIDBac平台工作界面。

图4是GCF_008121515.1_genomic.fna的鉴定结果。

图5 FIDBac鉴定的时间和内存消耗。其中，X轴，基因组大小（bp）；y轴，消耗时间（A）和内存使用率（B）。

具体实施方式

下面结合附图和实施例对本发明进行进一步阐述。

实施例1

如图１所示，本发明的细菌鉴定和分型分析基因组数据库MDBACDB构建流程如下：

1）从NCBI收集细菌基因组信息，同时收集包括“菌株”、“培养物收集”、“克隆”和“注释”等元信息，建立基因组信息和元信息的对应表格，明确各个基因组的来源。

2）获取来自LPSN的有效发布的细菌名称和类型菌株列表，并查阅Bergey的古菌和细菌系统手册和IJSEM的文章。筛选后获取合格的菌株细菌基因组进入到数据库进行管理。

3）对入库的细菌基因组序列进行筛选后，完成MDBACDB构建。通过自编的Python程序MDBacQCTools对错误的、低质量的细菌基因组进行过滤。

MDBacQCTools进行质控的步骤如下：首先，使用基于谱系标记基因集的CheckM（v1.0.18）评估每个基因组的完整性和污染率。删除数据库中污染超过5%或完整性低于90%的基因组。其次，使用RNAmmer（v1.2）从基因组中提取的16S rRNA基因序列，并与LTP数据库（版本：LTPs132\u SSU）进行比对，以检查一致性。删除在属水平上有任何分歧的基因组序列。最后，对任意两个基因组之间进行成对ANI计算，以推断标记错误的基因组。根据ANI值，对带有同一个物种名称的不同基因组来源（≥2个基因组）结合其所在属背景下进行聚类树分析，去除明显异常值，仅有单个基因组的通过以整个属为背景构建聚类树来发现异常基因组。

4）对MDBACDB数据库中的细菌基因组进行统计分析。

根据从LPSN和IJSEM检索到的类型菌株列表，我们从NCBI收集了13,161个细菌基因组集。去除了331个基因组（主要是完整度小于90％，或污染率大于5％。排除了12个具有异常的GC含量或基因组大小的组装结果。15基因组上发现16S rRNA存在明显差异的也被去除。根据成对的ANI值聚类图及IJSEM文献确认，在调查错误标记的基因组时，对模式菌株具有多个基因组组装结果的物种，进行聚类调查，删除了36个被错误标记的基因组；对仅包含一个模式基因组的物种，通过属水平聚类调查，发现并消除了22个交叉属错误标记的基因组。根据更新的命名法对485个基因组的标签进行了修正。在剔除低质量和错误标记的基因组后，最终有12745个基因组被纳入最终数据库，涵盖9810种2448属。平均完整度达到99.14%，平均污染率小于0.79%。图2总结了策展数据库的概况。多数两两ANI值在70%～80%之间，表明在策展数据库中种间界限清晰。

实施例2

如图１所示，本发明的细菌基因组数据分析平台FIDBac分析如下：

1）获取公开细菌的基因组序列GCF_008121515.1_genomic.fna；

2）提交到细菌基因组数据分析平台FIDBac（图3），通过自编的Python程序FIDBac进行鉴定分析。

FIDBac的分析流程如下：首先，提取待鉴定细菌基因组（GCF_008121515.1_genomic.fna）中的16S rRNA序列与LTP数据库进行比对；其次，利用Kmerfinder（v3.1），从GCF_008121515.1_genomic.fna中提取的K-mers与MDBACDB的K-mer数据库进行比对；再次，分别获取前两步中筛选得到的排名前20个细菌ID号，并从细菌基因组数据库MDBACDB中提取基因组序列，利用fastANI（v1.1）计算查询基因组与相应类型的菌株基因组的ANI数值；最后，鉴定结果只返回最接近的物种且ANI数值大于95%，GCF_008121515.1_genomic.fna的鉴定结果为肺炎克雷伯菌（图4）。

实施例3

1）从NCBI获取Staphylococcus capitis、Bacillus cereus、Bacillus anthracis的基因组序列GCA_001650475.1、GCA_002564865.1和GCA_000725325.1；

2）从基因组中提取16S rRNA基因序列，利用16S rRNA基因序列和参考数据库LTP进行BLAST比对鉴定，按Score值排序。

3）提交到细菌基因组数据分析平台FIDBac（图3），通过自编的Python程序FIDBac进行鉴定分析。FIDBac的分析流程如下：首先，提取待鉴定细菌基因组（GCA_001650475.1.fna、GCA_002564865.1.fna和GCA_000725325.1.fna）中的16S rRNA序列与LTP数据库进行比对；其次，利用Kmerfinder（v3.1），从GCF_008121515.1_genomic.fna中提取的K-mers与MDBACDB的K-mer数据库进行比对；再次，分别获取前两步中筛选得到的排名前20个细菌ID号，并从细菌基因组数据库MDBACDB中提取基因组序列，利用fastANI（v1.1）计算查询基因组与相应类型的菌株基因组的ANI数值；最后，鉴定结果只返回最接近的物种且ANI数值大于95%，

4）表1比较16S rRNA鉴定和FIDBac鉴定结果差异。16S rRNA鉴定无法获得准确的物种结果，FIDBac top1鉴定结果与物种一致，且与第二物种可以区分，16S rRNA top1鉴定结果与标称物种不一致，FIDBac鉴定结果分辨率高于16S。

表1 3个16S rRNA鉴定失败结果比较

基因组序列号	物种	FIDBac top5 结果	16S top5 结果
				GCA_001650475.1	Staphylococcuscapitis	Staphylococcus capitis(99.8459),Staphylococcuscapitis(99.8149),Staphylococcus capitis(96.6775),Staphylococcus caprae(84.2466),Staphylococcuscaprae(84.1401	Staphylococcus caprae(99.675),Staphylococcus caprae(99.675),Staphylococcus caprae(99.675),Staphylococcussaccharolyticus(99.610),Staphylococcus saccharolyticus(99.610)
GCA_002564865.1	Bacilluscereus	Bacillus cereus(97.0615),Bacillus cereus(96.9724),Bacillus cereus(96.9663),Bacillus cereus(96.9287),Bacillus thuringiensis(95.8819	Bacillus albus(99.935),Bacillus luti(99.935),Bacillusproteolyticus(99.935),Bacillus cereus(99.870),Bacilluscereus(99.870)
				GCA_000725325.1	Bacillusanthracis	Bacillus anthracis(99.9575),Bacillus anthracis(99.9524),Bacillus anthracis(99.9338),Bacillusparanthracis(95.2167),Bacillus tropicus(94.7131	Bacillus paramycoides(99.481),Bacillus cereus(99.416),Bacillus cereus(99.416),Bacillus cereus(99.416),Bacilluscereus(99.416)

实施例4

1）获取使用三个标准细菌基因组数据集评估FIDBac鉴定策略的准确性。

三个数据集分别为：（1）GEBA数据集。GEBA释放了一个高质量的1003型菌株基因组，本试验去除了30个古细菌基因组，提交分析的为973个细菌。（2）FDA-ARGROS数据集。下载了来自FDA-ARGROS项目的523个具有明确物种标签的细菌基因组。FDA-ARGOS旨在为诊断目的提供质量可控的参考基因组，并且在测序前已通过独立的参考方法进行物种确认。（3）NCTC 3000数据集。NCTC 3000项目996个基因组(https://www.phe-culturecollections.org.uk/products/bacteria/nctc-3000-project-a-comprehensive-resource-of-bacteria-type-and-reference-genomes.aspx)，具有明确的记录。NCTC3000项目正在致力于从PHE培养物收集中产生3000种类型的完整基因组和参考菌株。

FIDBac的分析流程如下：首先，提取待鉴定细菌基因组中的16S rRNA序列与LTP数据库进行比对；其次，利用Kmerfinder（v3.1），从待鉴定细菌基因组中提取的K-mers与MDBACDB的K-mer数据库进行比对；再次，分别获取前两步中筛选得到的排名前20个细菌ID号，并从细菌基因组数据库MDBACDB中提取基因组序列，利用fastANI（v1.1）计算查询基因组与相应类型的菌株基因组的ANI数值；最后，鉴定结果只返回最接近的物种且ANI数值大于95%。

3）不同鉴定方法间比较分析。

比较FIDBac和16S rRNA鉴定、Kmerfinder全基因组数据库鉴定、Kmerfinder模式菌株基因组数据库鉴定之间的准确率。

4）鉴定结果分析。如表2所示，FIDBac的鉴定准确率显著高于其它三种方法。

表2 对于三个标准数据库进行包括FIDBac在内的四种方法的鉴定准确性的比较

	Expected<sup>a</sup>	16S<sup>b</sup>	Kmerfinder(Com)<sup>c</sup>	Kmerfinder-(type)<sup>d</sup>	FIDBac<sup>e</sup>
						GEBA	973	617(63.41%)	272(27.95%)	908(93.32%)	963(98.97%)
FDA_ARGROS	523	365(69.79%)	490(93.69%)	432(82.06%)	501(95.79%)
						NCTC-3000	996	649(65.16%)	884(88.76%)	676(67.87%)	962(96.6%)
总数	2492	1631(65.45%)	1646(66.05%)	2016(80.90%)	2427(97.4%)

^a实际基因组数量

^b16S rRNA鉴定方法的准确率结果

^cKmerfinder全基因组数据库鉴定的准确率结果

^dKmerfinder模式菌株数据库鉴定的准确率结果

^eFIDBac鉴定准确率结果

实施例5

1）随机选取300个标准细菌基因组数据集评估FIDBac运算性能。随机抽取的300个细菌基因组的大小范围从0.82Mb到10.99Mb。

FIDBac的分析流程如下：首先，提取待鉴定细菌基因组中的16S rRNA序列与LTP数据库进行比对；其次，利用Kmerfinder（v3.1），从待鉴定细菌基因组中提取的K-mers与MDBACDB的K-mer数据库进行比对；再次，分别获取前两步中筛选得到的排名前20个细菌ID号，并从细菌基因组数据库MDBACDB中提取基因组序列，利用fastANI（v1.1）计算查询基因组与相应类型的菌株基因组的ANI数值；最后，鉴定结果只返回ANI数值最接近的物种且ANI数值大于95%。

3）运算资源统计。如图5所示，峰值内存使用率达到10.59GB，平均为9.63GB。随着基因组大小的增加，FIDBac内存消耗略有提升。所花费的时间在0.45分钟到11.01分钟之间，平均为1.89分钟，并且与查询基因组的大小呈正相关。对于<5 Mb的测试组件，花费的总时间不到5分钟。

上述描述中的实施方案可以进一步组合或者替换，且实施方案仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域普通技术人员对本发明的技术方案做出的各种变化和改进，均属于本发明的保护范围。本发明的保护范围由所附权利要求及其任何等同物给出。

Claims

1.一种细菌鉴定和分型分析基因组数据库，其特征在于，构建步骤如下：

1）菌种信息收集

2）数据库中的基因组序列质量控制

2.1）使用基于谱系标记基因集的CheckM评估每个基因组的完整性和污染率，将污染率＞5%或完整度小于90%的基因组从数据库中剔除；

2.2）已进行注释的基因组直接提取其中的16S rRNA基因序列，对于未进行注释的基因组使用RNAmmer进行提取，将这些16S rRNA基因序列与LTP数据库进行比对，以检查一致性，如存在属水平不一致，通过查阅IJSEM和该物种相关的文献，调查是否进行了更名，如未改名判定为污染，将污染基因组去除；

2.根据权利要求1所述的细菌鉴定和分型分析基因组数据库，其特征在于，

对基因组数据库中的模式菌株基因组进行16S rRNA序列提取，提取了25,209条，长度大于300的模式菌株16S rRNA基因序列，和LTP包含的16S rRNA基因序列合并，形成可用于鉴定的16S rRNA序列数据库。

3.根据权利要求1所述的细菌鉴定和分型分析基因组数据库，其特征在于，

删除416个错误标签和低质量的基因组，包括331个污染率>5%或者完整度小于90%的，15个16S异质性的，12个基因组大小和GC含量异常的，13个ANI值与同种type<95的，45个ANI聚类树同属异常的基因组；

最终构建的数据库中所有基因组均来自于合格发表物种的模式菌株，包含序列、双名法命名的物种拉丁名、菌株号信息；

构建的基因组数据库中所有基因组质量满足污染率＜%5且完整度＞90%。

4.根据权利要求1所述的细菌鉴定和分型分析基因组数据库，其特征在于，所述的细菌鉴定和分型分析基因组数据库周期性或者实时更新。

5.一种基于基因组信息进行细菌鉴定和分型分析方法，其特征在于，步骤如下：

b）利用Kmerfinder，从待鉴定细菌基因组中提取的K-mers与细菌基因组数据库的K-mer数据库进行比对；

c）分别获取步骤a）、步骤b）中筛选得到的排名前20个细菌ID号，并从细菌基因组数据库中提取所述细菌ID号的基因组序列，利用fastANI计算查询待鉴定基因组与所述细菌ID号的基因组序列的ANI数值；最后，鉴定结果只返回最接近的物种且ANI数值大于95%。

6.根据权利要求5所述的方法，其特征在于，步骤b）所述细菌基因组数据库采用如权利要求1至4任一项中所述的细菌基因组数据库。

7.根据权利要求5所述的方法，其特征在于，通过在线数据分析平台，用户通过浏览器直接访问并提交待鉴定细菌基因组进行细菌鉴定和分型分析。