CN114974411A

CN114974411A - 宏基因组病原微生物基因组数据库及其构建方法

Info

Publication number: CN114974411A
Application number: CN202210738515.6A
Authority: CN
Inventors: 丁文超; 刘紫丹; 周逸文; 王江浩; 王珺
Original assignee: Hangzhou Jieyi Medical Laboratory Co ltd
Current assignee: Hangzhou Jieyi Medical Laboratory Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-08-30

Abstract

本发明涉及宏基因组技术领域，特别是涉及宏基因组病原微生物基因组数据库及其构建方法，该方法包含数据获取、基因组过滤、基因组分类、基因组去冗余等步骤，即得病原微生物基因组数据库。该数据库的构建方案和目前市场上存在的方案存在较大差异，首先在保证物种的丰富度的前提下，去除污染序列，低重复序列；并且挑选了物种具有代表性的质量高的Assembly序列作为参考基因组，将剩余基因组进行重新分类，剔除了分类错误的序列。然后在参考基因组的基础上对剩余基因组进行去冗余，保留了各个物种的特异性序列。这样即保留了物种基因组的丰富度，又保证了基因组的准确性。

Description

宏基因组病原微生物基因组数据库及其构建方法

技术领域

本发明涉及宏基因组技术领域，特别是涉及宏基因组病原微生物基因组数据库及其构建方法。

背景技术

病原微生物检测是利用宏基因组（mNGS）检测技术，是一种非培养的检测方法，对临床样本直接进行核酸提取检测，广泛分析其中的微生物组信息；通过高通量测序、生物信息算法与数据库比对，病原宏基因组（mNGS）可以无差别鉴别细菌、真菌、病毒和寄生虫等多种病原，成为了临床一线病原感染检测的必要手段。而病原微生物宏基因组技术的核心之一就是病原微生物的基因组数据库，数据库的质量直接影响着病原宏基因组检测的准确度。

病原微生物的数据库是由细菌，真菌，病毒，寄生虫等病原体的多个物种的基因组构成的，其中大部分都是从NCBI等公共数据库中进行收集，筛选，加工构建而成。在公共数据库中，每个物种都会存在不同菌株的基因组；如果将这些菌株的基因组全部都添加到病原微生物的数据库中，虽然数据库中的物种的基因组比较全面，不会出现漏检，但是公共数据库的基因组质量良莠不齐，部分菌株存在污染序列，极可能导致检出假阳物种，误导临床医生。而且数据库的容量也会非常大，占用更多的资源，减低分析速度。如果每个物种只挑选一株菌的基因组为代表物种，从而构建病原微生物数据库，那么数据库的资源占据较小，分析速度也会比较快，但是由于菌株之间的差异和变异，测到某些菌株的特异性序列的时候，数据库就会检测不到，从而出现漏检。

发明内容

本发明提供一种宏基因组病原微生物基因组数据库的构建方法，提高病原微生物数据库的丰富度，准确性，同时又减小数据库容量，降低分析速度。

本发明提供的宏基因组病原微生物基因组数据库的构建方法，包括如下步骤：

1. 数据获取：获取病原微生物的基因组数据。

2. 按照过滤规则，过滤掉命名模糊，基因组长度小于100bp及低重复的的基因组序列，去除掉人源污染序列。

3. 从Assembly中挑选每个物种的参考基因组，如果物种在Assembly中有基因组，那么依次挑选Assembly level 为Complete genome, Chromosome，Scaffold, Contig状态的基因组，择优挑选；如果物种在Assembly中没有基因组，择优挑一条核酸序列为代表基因组序列。

4. 对参考基因组进行质控，如果物种的参考基因组为Scaffold, Contig水平，那么根据过滤原则，过滤掉长度在N50之下的序列，保留优质的基因组序列。

5.对物种内基因组进行分类，剔除和代表基因组有明显差异且和别的物种相似度较高的序列。

6.物种的基因组序列去冗余，将每个物种的每条基因组序列和代表基因组进行Blat比对，相似度高的部分当成低重复区域进行mask;然后将mask好的基因组和参考基因组组成新的参考基因组对下一条基因组进行同样的操作。

作为优选，步骤6中，mask序列要保证大于100bp，且无论相似序列多长均用100个N进行mask；且保留的特异序列的长度保证大于100bp，否则左右延申至100bp。

作为优选，步骤6中，相似度高的部分是指相似度高达99%的部分。

作为优选，所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库的基因组数据。上述数据库中的病原微生物基因组数据具有较高的数据质量，上述数据既包括基因组序列，也包括描述该序列的说明性文件。

在本发明中，所述目标微生物可以是任一微生物，包括但不限于细菌、真菌、病毒，均适用于本发明的方法。在本发明的一些具体实施方案中，所述目标微生物为细菌，在本发明的一些更具体实施方案中，所述目标微生物为可用于食品的细菌。

上述数据库的建立方法，通过下载微生物基因组，去除人源污染序列，去除命名模糊，分类错误的基因组，过滤低质量或者污染片段，种间通过去冗余的方法去除冗余序列后得到病原微生物基因组数据库。

本发明还提供宏基因组病原微生物基因组数据库，采用上述的构建方法构建所得。上述病原微生物基因组数据库，既整合了物种可靠性最高的参考基因组，以及物种的其它特异序列，又合理的减小了基因组的大小，减少了数据库占用的资源，分析速度也会大幅度提高。

本发明涉及宏基因组病原微生物基因组数据库的构建方法，获得的基因组数据库既占用较少的资源，又尽可能的包含了物种比较全的准确基因组信息。能够大大降低分析成本和时间。该数据库的构建方案和目前市场上存在的方案存在较大差异，首先在保证物种的丰富度的前提下，去除污染序列，低重复序列；并且挑选了物种具有代表性的质量高的Assembly序列作为参考基因组，将剩余基因组进行重新分类，剔除了分类错误的序列。然后在参考基因组的基础上对剩余基因组进行去冗余，保留了各个物种的特异性序列。这样即保留了物种基因组的丰富度，又保证了基因组的准确性。

附图说明

图1为实施例中10株模拟测序集数据比对到三种方法构建的数据库的准确率箱型图；

图2为实施例中10株模拟测序集数据比对到三种方法构建的数据库分析时间箱体图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。提供这些实施例的目的是使对本发明的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语都属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本发明。

实施例1

一种病原微生物基因组数据库，通过以下方式构建：

一、数据获取

从NCBI下载链球菌属基因组数据库，具体如下：

NCBI(National Center For Biotechnology Information),美国国家生物技术信息中心，分子生物学，生物化学及遗传学领域常用数据库。从https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ 中下载NT的基因组。然后从NT的基因组中挑选出来所有链球菌属的序列。

然后从https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/ 中的assembly_summary_refseq.txt 中挑选链球菌属的各个种的参考基因组。链球菌属一共有131个种。

二、菌株的基因组筛选

根据assembly_summary_refseq.txt文件，每个物种择优选取assembly_level为Complete genome, Chromosome的基因组，如果没有，则挑选assembly_level 为Scaffold, Contig 的基因组。

三、去除NT数据库中的污染序列

根据过滤原则，过滤掉命名模糊，分类模糊的基因组序列。

四、过滤

如果物种的参考基因组的assembly_level为 Scaffold, Contig 水平，则保留拼接质量高的序列，无污染的序列。

五、序列集去冗余

将从NT中挑选的所有链球菌属的基因组中非参考基因组之外的序列和参考基因组进行一一比对，当相似度高的序列（相似度高于99%）长度大于100bp时用100个N进行mask，保证特异性片段长度大于100bp，否则左右延申至100bp。比对好的序列和参考序列形成新的参考序列，并对接下去的序列进行比对，依次循环整个物种基因组。

实施例2

为了评估上述实施例1中所构建的链球菌属的非冗余基因组的效果(non-redundant suquence)，对链球菌属的所有未经处理的所有菌株的所有类型的基因组（Allsequences of species），链球菌属所有物种的NCBI中的参考基因组（Reference sequenceof species），上述链球菌属的非冗余基因组的准确度和分析时间进行比较。

1. 测试集选择

挑选了NCBI中肺炎链球菌的10株 refseq下的基因组序列，通过art_illumina 模拟成测序长度75bp, 深度为20X的测序集。

2. 数据分析效果比较

1.准确度

结果如图1所示，图1为10株模拟测试集数据比对到三种方法构建的数据库的准确率示意图。

2.分析时间

结果如图2所示，图2为10株模拟测试集数据比对到三种方法构建的数据库的分析时间示意图。

如图所示，All sequences of species分析结果的准确率平均为99.99%，分析时间平均为38s，Reference sequence of species分析结果的准确率平均为99.70%，分析时间为29s,non-redundant sequence分析结果的准确率为99.96%，分析时间为32s,所以方法三构建的基因组能够缩短分析时间并且提高准确率。

Claims

1.宏基因组病原微生物基因组数据库的构建方法，其特征在于，包括如下步骤：

S-1. 数据获取：获取病原微生物的基因组数据；

S-2. 过滤；

S-3. 从Assembly中挑选每个物种的参考基因组；

S-4. 对参考基因组进行质控，如果物种的参考基因组为Scaffold, Contig水平，那么根据过滤原则，过滤掉长度在N50之下的序列，保留优质的基因组序列；

S-5.对物种内基因组进行分类，剔除和代表基因组有明显差异且和别的物种相似度较高的序列；

S-6.物种的基因组序列去冗余，将每个物种的每条基因组序列和代表基因组进行Blat比对，相似度高的部分当成低重复区域进行mask；然后将mask好的基因组和参考基因组组成新的参考基因组对下一条基因组进行同样的操作，最终汇总，获得病原微生物基因组数据库。

2.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法，其特征在于，步骤S-6中，mask序列要保证大于100bp，且无论相似序列多长均用100个N进行mask；且保留的特异序列的长度保证大于100bp，否则左右延申至100bp。

3.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法，其特征在于，步骤S-6中，相似度高的部分是指相似度高达99%的部分。

4.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法，其特征在于，步骤S-3中，如果物种在Assembly中有基因组，那么依次挑选Assembly level 为Completegenome, Chromosome，Scaffold, Contig状态的基因组，择优挑选；如果物种在Assembly中没有基因组，择优挑一条核酸序列为代表基因组序列。

5.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法，其特征在于，步骤S-2中，按照过滤规则，过滤掉命名模糊，基因组长度小于100bp,及低重复的基因组序列，去除掉人源污染序列。

6.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法，其特征在于，所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库的基因组数据。

7.权利要求1-6任一项所述的构建方法得到的宏基因组病原微生物基因组数据库。