CN114974411A - 宏基因组病原微生物基因组数据库及其构建方法 - Google Patents

宏基因组病原微生物基因组数据库及其构建方法 Download PDF

Info

Publication number
CN114974411A
CN114974411A CN202210738515.6A CN202210738515A CN114974411A CN 114974411 A CN114974411 A CN 114974411A CN 202210738515 A CN202210738515 A CN 202210738515A CN 114974411 A CN114974411 A CN 114974411A
Authority
CN
China
Prior art keywords
genome
species
sequence
pathogenic microorganism
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210738515.6A
Other languages
English (en)
Inventor
丁文超
刘紫丹
周逸文
王江浩
王珺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jieyi Medical Laboratory Co ltd
Original Assignee
Hangzhou Jieyi Medical Laboratory Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jieyi Medical Laboratory Co ltd filed Critical Hangzhou Jieyi Medical Laboratory Co ltd
Priority to CN202210738515.6A priority Critical patent/CN114974411A/zh
Publication of CN114974411A publication Critical patent/CN114974411A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及宏基因组技术领域,特别是涉及宏基因组病原微生物基因组数据库及其构建方法,该方法包含数据获取、基因组过滤、基因组分类、基因组去冗余等步骤,即得病原微生物基因组数据库。该数据库的构建方案和目前市场上存在的方案存在较大差异,首先在保证物种的丰富度的前提下,去除污染序列,低重复序列;并且挑选了物种具有代表性的质量高的Assembly序列作为参考基因组,将剩余基因组进行重新分类,剔除了分类错误的序列。然后在参考基因组的基础上对剩余基因组进行去冗余,保留了各个物种的特异性序列。这样即保留了物种基因组的丰富度,又保证了基因组的准确性。

Description

宏基因组病原微生物基因组数据库及其构建方法
技术领域
本发明涉及宏基因组技术领域,特别是涉及宏基因组病原微生物基因组数据库及其构建方法。
背景技术
病原微生物检测是利用宏基因组(mNGS)检测技术,是一种非培养的检测方法,对临床样本直接进行核酸提取检测,广泛分析其中的微生物组信息;通过高通量测序、生物信息算法与数据库比对,病原宏基因组(mNGS)可以无差别鉴别细菌、真菌、病毒和寄生虫等多种病原,成为了临床一线病原感染检测的必要手段。而病原微生物宏基因组技术的核心之一就是病原微生物的基因组数据库,数据库的质量直接影响着病原宏基因组检测的准确度。
病原微生物的数据库是由细菌,真菌,病毒,寄生虫等病原体的多个物种的基因组构成的,其中大部分都是从NCBI等公共数据库中进行收集,筛选,加工构建而成。在公共数据库中,每个物种都会存在不同菌株的基因组;如果将这些菌株的基因组全部都添加到病原微生物的数据库中,虽然数据库中的物种的基因组比较全面,不会出现漏检,但是公共数据库的基因组质量良莠不齐,部分菌株存在污染序列,极可能导致检出假阳物种,误导临床医生。而且数据库的容量也会非常大,占用更多的资源,减低分析速度。如果每个物种只挑选一株菌的基因组为代表物种,从而构建病原微生物数据库,那么数据库的资源占据较小,分析速度也会比较快,但是由于菌株之间的差异和变异,测到某些菌株的特异性序列的时候,数据库就会检测不到,从而出现漏检。
发明内容
本发明提供一种宏基因组病原微生物基因组数据库的构建方法,提高病原微生物数据库的丰富度,准确性,同时又减小数据库容量,降低分析速度。
本发明提供的宏基因组病原微生物基因组数据库的构建方法,包括如下步骤:
1. 数据获取:获取病原微生物的基因组数据。
2. 按照过滤规则,过滤掉命名模糊,基因组长度小于100bp及低重复的的基因组序列,去除掉人源污染序列。
3. 从Assembly中挑选每个物种的参考基因组,如果物种在Assembly中有基因组,那么依次挑选Assembly level 为Complete genome, Chromosome,Scaffold, Contig状态的基因组,择优挑选;如果物种在Assembly中没有基因组,择优挑一条核酸序列为代表基因组序列。
4. 对参考基因组进行质控,如果物种的参考基因组为Scaffold, Contig水平,那么根据过滤原则,过滤掉长度在N50之下的序列,保留优质的基因组序列。
5.对物种内基因组进行分类,剔除和代表基因组有明显差异且和别的物种相似度较高的序列。
6.物种的基因组序列去冗余,将每个物种的每条基因组序列和代表基因组进行Blat比对,相似度高的部分当成低重复区域进行mask;然后将mask好的基因组和参考基因组组成新的参考基因组对下一条基因组进行同样的操作。
作为优选,步骤6中,mask序列要保证大于100bp,且无论相似序列多长均用100个N进行mask;且保留的特异序列的长度保证大于100bp,否则左右延申至100bp。
作为优选,步骤6中,相似度高的部分是指相似度高达99%的部分。
作为优选,所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库的基因组数据。上述数据库中的病原微生物基因组数据具有较高的数据质量,上述数据既包括基因组序列,也包括描述该序列的说明性文件。
在本发明中,所述目标微生物可以是任一微生物,包括但不限于细菌、真菌、病毒,均适用于本发明的方法。在本发明的一些具体实施方案中,所述目标微生物为细菌,在本发明的一些更具体实施方案中,所述目标微生物为可用于食品的细菌。
上述数据库的建立方法,通过下载微生物基因组,去除人源污染序列,去除命名模糊,分类错误的基因组,过滤低质量或者污染片段,种间通过去冗余的方法去除冗余序列后得到病原微生物基因组数据库。
本发明还提供宏基因组病原微生物基因组数据库,采用上述的构建方法构建所得。上述病原微生物基因组数据库,既整合了物种可靠性最高的参考基因组,以及物种的其它特异序列,又合理的减小了基因组的大小,减少了数据库占用的资源,分析速度也会大幅度提高。
本发明涉及宏基因组病原微生物基因组数据库的构建方法,获得的基因组数据库既占用较少的资源,又尽可能的包含了物种比较全的准确基因组信息。能够大大降低分析成本和时间。该数据库的构建方案和目前市场上存在的方案存在较大差异,首先在保证物种的丰富度的前提下,去除污染序列,低重复序列;并且挑选了物种具有代表性的质量高的Assembly序列作为参考基因组,将剩余基因组进行重新分类,剔除了分类错误的序列。然后在参考基因组的基础上对剩余基因组进行去冗余,保留了各个物种的特异性序列。这样即保留了物种基因组的丰富度,又保证了基因组的准确性。
附图说明
图1为实施例中10株模拟测序集数据比对到三种方法构建的数据库的准确率箱型图;
图2为实施例中10株模拟测序集数据比对到三种方法构建的数据库分析时间箱体图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。提供这些实施例的目的是使对本发明的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语都属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本发明。
实施例1
一种病原微生物基因组数据库,通过以下方式构建:
一、数据获取
从NCBI下载链球菌属基因组数据库,具体如下:
NCBI(National Center For Biotechnology Information),美国国家生物技术信息中心,分子生物学,生物化学及遗传学领域常用数据库。从https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ 中下载NT的基因组。然后从NT的基因组中挑选出来所有链球菌属的序列。
然后从https://ftp.ncbi.nlm.nih.gov/genomes/ASSEMBLY_REPORTS/ 中的assembly_summary_refseq.txt 中挑选链球菌属的各个种的参考基因组。链球菌属一共有131个种。
二、菌株的基因组筛选
根据assembly_summary_refseq.txt文件,每个物种择优选取assembly_level为Complete genome, Chromosome的基因组,如果没有,则挑选assembly_level 为Scaffold, Contig 的基因组。
三、去除NT数据库中的污染序列
根据过滤原则,过滤掉命名模糊,分类模糊的基因组序列。
四、过滤
如果物种的参考基因组的assembly_level为 Scaffold, Contig 水平,则保留拼接质量高的序列,无污染的序列。
五、序列集去冗余
将从NT中挑选的所有链球菌属的基因组中非参考基因组之外的序列和参考基因组进行一一比对,当相似度高的序列(相似度高于99%)长度大于100bp时用100个N进行mask,保证特异性片段长度大于100bp,否则左右延申至100bp。比对好的序列和参考序列形成新的参考序列,并对接下去的序列进行比对,依次循环整个物种基因组。
实施例2
为了评估上述实施例1中所构建的链球菌属的非冗余基因组的效果(non-redundant suquence),对链球菌属的所有未经处理的所有菌株的所有类型的基因组(Allsequences of species),链球菌属所有物种的NCBI中的参考基因组(Reference sequenceof species),上述链球菌属的非冗余基因组的准确度和分析时间进行比较。
1. 测试集选择
挑选了NCBI中肺炎链球菌的10株 refseq下的基因组序列,通过art_illumina 模拟成测序长度75bp, 深度为20X的测序集。
2. 数据分析效果比较
1.准确度
结果如图1所示,图1为10株模拟测试集数据比对到三种方法构建的数据库的准确率示意图。
2.分析时间
结果如图2所示,图2为10株模拟测试集数据比对到三种方法构建的数据库的分析时间示意图。
如图所示,All sequences of species分析结果的准确率平均为99.99%,分析时间平均为38s,Reference sequence of species分析结果的准确率平均为99.70%,分析时间为29s,non-redundant sequence分析结果的准确率为99.96%,分析时间为32s,所以方法三构建的基因组能够缩短分析时间并且提高准确率。

Claims (7)

1.宏基因组病原微生物基因组数据库的构建方法,其特征在于,包括如下步骤:
S-1. 数据获取:获取病原微生物的基因组数据;
S-2. 过滤;
S-3. 从Assembly中挑选每个物种的参考基因组;
S-4. 对参考基因组进行质控,如果物种的参考基因组为Scaffold, Contig水平,那么根据过滤原则,过滤掉长度在N50之下的序列,保留优质的基因组序列;
S-5.对物种内基因组进行分类,剔除和代表基因组有明显差异且和别的物种相似度较高的序列;
S-6.物种的基因组序列去冗余,将每个物种的每条基因组序列和代表基因组进行Blat比对,相似度高的部分当成低重复区域进行mask;然后将mask好的基因组和参考基因组组成新的参考基因组对下一条基因组进行同样的操作,最终汇总,获得病原微生物基因组数据库。
2.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法,其特征在于,步骤S-6中,mask序列要保证大于100bp,且无论相似序列多长均用100个N进行mask;且保留的特异序列的长度保证大于100bp,否则左右延申至100bp。
3.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法,其特征在于,步骤S-6中,相似度高的部分是指相似度高达99%的部分。
4.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法,其特征在于,步骤S-3中,如果物种在Assembly中有基因组,那么依次挑选Assembly level 为Completegenome, Chromosome,Scaffold, Contig状态的基因组,择优挑选;如果物种在Assembly中没有基因组,择优挑一条核酸序列为代表基因组序列。
5.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法,其特征在于,步骤S-2中,按照过滤规则,过滤掉命名模糊,基因组长度小于100bp,及低重复的基因组序列,去除掉人源污染序列。
6.根据权利要求1所述的宏基因组病原微生物基因组数据库的构建方法,其特征在于,所述病原微生物基因组数据来源于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库的基因组数据。
7.权利要求1-6任一项所述的构建方法得到的宏基因组病原微生物基因组数据库。
CN202210738515.6A 2022-06-28 2022-06-28 宏基因组病原微生物基因组数据库及其构建方法 Pending CN114974411A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210738515.6A CN114974411A (zh) 2022-06-28 2022-06-28 宏基因组病原微生物基因组数据库及其构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210738515.6A CN114974411A (zh) 2022-06-28 2022-06-28 宏基因组病原微生物基因组数据库及其构建方法

Publications (1)

Publication Number Publication Date
CN114974411A true CN114974411A (zh) 2022-08-30

Family

ID=82965112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210738515.6A Pending CN114974411A (zh) 2022-06-28 2022-06-28 宏基因组病原微生物基因组数据库及其构建方法

Country Status (1)

Country Link
CN (1) CN114974411A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115938491A (zh) * 2022-11-24 2023-04-07 江苏先声医疗器械有限公司 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN116153410A (zh) * 2022-12-20 2023-05-23 瑞因迈拓科技(广州)有限公司 微生物基因组参考数据库及其构建方法和应用
WO2024077568A1 (zh) * 2022-10-13 2024-04-18 深圳华大智造科技股份有限公司 参考序列的构建方法、宏基因组数据压缩方法和电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024077568A1 (zh) * 2022-10-13 2024-04-18 深圳华大智造科技股份有限公司 参考序列的构建方法、宏基因组数据压缩方法和电子设备
CN115938491A (zh) * 2022-11-24 2023-04-07 江苏先声医疗器械有限公司 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN115938491B (zh) * 2022-11-24 2023-09-29 江苏先声医疗器械有限公司 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN116153410A (zh) * 2022-12-20 2023-05-23 瑞因迈拓科技(广州)有限公司 微生物基因组参考数据库及其构建方法和应用
CN116153410B (zh) * 2022-12-20 2023-12-19 瑞因迈拓科技(广州)有限公司 微生物基因组参考数据库及其构建方法和应用

Similar Documents

Publication Publication Date Title
CN111951895B (zh) 基于宏基因组学的病原分析方法、分析装置、设备及存储介质
CN114974411A (zh) 宏基因组病原微生物基因组数据库及其构建方法
CN113744807B (zh) 一种基于宏基因组学的病原微生物检测方法及装置
CN108197434B (zh) 去除宏基因组测序数据中人源基因序列的方法
CN109273053B (zh) 一种高通量测序的微生物数据处理方法
CN113160882B (zh) 一种基于三代测序的病原微生物宏基因组检测方法
CN111599413B (zh) 一种测序数据的分类单元组分计算方法
CN111187813B (zh) 全流程质控的病原微生物高通量测序检测方法
CN112992277B (zh) 一种微生物基因组数据库构建方法及其应用
CN114420212B (zh) 一种大肠杆菌菌株鉴定方法和系统
CN113066533B (zh) 一种mNGS病原体数据分析方法
CN115719616B (zh) 一种病原物种特异性序列的筛选方法及系统
CN110875082A (zh) 一种基于靶向扩增测序的微生物检测方法和装置
CN113744806B (zh) 一种基于纳米孔测序仪的真菌测序数据鉴定方法
CN110970091A (zh) 标签质控的方法及装置
CN115938491B (zh) 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN115305292A (zh) 用于预测金黄色葡萄球菌对抗生素药敏表型的特征基因组合、试剂盒及测序方法
CN114420213A (zh) 一种生物信息分析方法及装置、电子设备及存储介质
CN113470752A (zh) 一种基于纳米孔测序仪的细菌测序数据鉴定方法
CN117976051A (zh) 一种宏基因组测序数据分析方法、计算机介质、系统
CN117051129B (zh) 一种微生物检测背景菌阈值设定方法及其应用
CN116153410B (zh) 微生物基因组参考数据库及其构建方法和应用
CN116153411B (zh) 多病原体探针库组合的设计方法及应用
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN114464253B (zh) 基于长读长测序进行实时病原检测的方法、系统和应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination