CN115148288A - 一种微生物识别的方法、识别装置及相关设备 - Google Patents

一种微生物识别的方法、识别装置及相关设备 Download PDF

Info

Publication number
CN115148288A
CN115148288A CN202210784883.4A CN202210784883A CN115148288A CN 115148288 A CN115148288 A CN 115148288A CN 202210784883 A CN202210784883 A CN 202210784883A CN 115148288 A CN115148288 A CN 115148288A
Authority
CN
China
Prior art keywords
strain
representative
strains
genome
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210784883.4A
Other languages
English (en)
Inventor
梁正佼
梁雅俊
张陈陈
朱瑞娟
兰周
常曌
张东亚
蒋先芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Moon Guangzhou Biotech Co ltd
Original Assignee
Moon Guangzhou Biotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Moon Guangzhou Biotech Co ltd filed Critical Moon Guangzhou Biotech Co ltd
Priority to CN202210784883.4A priority Critical patent/CN115148288A/zh
Publication of CN115148288A publication Critical patent/CN115148288A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种微生物识别的方法、识别装置及相关设备,涉及微生物菌株识别的技术领域。本发明提供的微生物识别的方法,具有微生物菌株识别分辨率高,能对相似度高的菌株进行高精度识别和区分,实现目标菌株筛选过程中,精确识别相同株水平的菌株,以获得具有相同目标功能的菌株。本发明方法的提供,有助于微生物菌株在药物、食品、动物体或植物体的微生物群、环境处理、农业中的功能菌株筛选过程中,缩短开发周期,提高功能菌株筛选的准确性和有效性。此外,采用本发明的方法还能同时对新物种进行有效识别。

Description

一种微生物识别的方法、识别装置及相关设备
技术领域
本发明涉及微生物菌株识别的技术领域,具体而言,涉及一种微生物识别的方法、识别装置及相关设备。
背景技术
微生物同一种内的不同株,虽基因组相似度高,但仍可能存在功能上的差异,将微生物分析的分辨率提升至株水平很有必要。目前常用于计算宏基因组微生物相对丰度的方法有以下两类:一类方案是通过宏基因组物种组成成分分析工具Metaphlan计算:(1)先找出参考基因组的Marker genes,(2)再根据比对到Marker genes的结果进行物种识别及相对丰度计算;然而基于Marker genes的微生物识别分辨率有限,属于相同物种的不同菌株,可以预期菌株之间的基因组高度相似,那么菌株很可能具有相同或相似度高的markergenes,因此对于相同物种下的不同菌株无法有效识别,难以对同种内基因组相似度高的菌株进行区分。
另一类方案是基于kmer的Kraken,Centrifuge分析工具的分类方法:(1)先将参考基因组注释到对应的NCBI物种分类数据库,(2)然后根据kmer比对,对宏基因组中的测序片段(reads)进行注释,(3)根据比对结果,判断属于进化树上的哪个节点,精确定位到属、种水平;然而无法定位到菌株;且新物种没有taxid,不能给到更好的注释,因此无法用到KMER的这种方法来识别新物种和菌株。
此外,当构建包含自己筛选的菌株测序得到的基因组数据的自定义数据库时,新物种由于在先并无更多的报道,NCBI数据库中也无相关记录,因此难以注释到对应的NCBI物种分类数据库。
鉴于此,特提出本发明。
发明内容
本发明的目的在于提供一种微生物识别的方法、识别装置及相关设备以解决上述技术问题。
现有的文献报道通过宏基因队列进行分析,现有的分析方法只能到达种水平,然而现实的活菌药物筛选或微生物农药候选药物筛选过程中,需要达到菌株水平。因此,迫切需要通过一种方式能够精确识别菌株,尤其是对宏基因组数据进行分析的时候,能够识别到株水平的菌株。
宏基因组中多个样本同时进行测序,提取DNA并组装成基因组,会面临coverage不够以及不太的测序contig不同,组装不全使得ANI识别出现精度有限的问题。
综上,需要提供一种分辨率高,能够对相似度高的菌株进行区分,并且能高精度区分marker genes,能够有效、高效识别筛选到的菌株或新物种的方法,该方法容易区分微生物,且自定义数据库方便。
本发明是这样实现的:
本发明提供了一种微生物识别的方法,其包括如下步骤:
获得微生物基因组序列,构建微生物基因组序列数据库;
对微生物基因组按照设定的阈值进行聚类分析;
选出聚类后各类代表菌株的代表基因组或选择出代表菌种的代表基因组,组成代表基因组库;
将代表菌株或代表菌种的基因组库的测序片段(reads)通过特异性比对得到特异区段,将获得的各菌株或菌种的特异区段构建代表菌株或菌种的特异区段库;
基于所述代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标微生物。
上述微生物识别的方法,通过本发明提出的特异区段库,可以有效的识别目标菌株或菌种,具有微生物菌株识别分辨率高,能对相似度高的菌株进行高精度识别和区分,实现目标菌株筛选过程中,精确识别相同株水平的菌株,以获得具有相同目标功能的菌株。此外,上述方法还可以精确识别相同种的菌株,以获得同种的菌株。本发明方法的提供,有助于微生物菌株在药物、食品、动物体或植物体的微生物群、环境处理、农业中的功能菌株筛选过程中,缩短开发周期,提高功能菌株筛选的准确性和有效性。此外,采用本发明的方法还能同时对新物种进行有效识别。
上述构建代表菌株或代表菌种的特异区段库步骤包括:特异比对上的测序片段为每一个代表菌株特异于其他代表菌株的测序片段(reads)所在的位置区段。
在一种可选的实施方式中,构建代表菌株或代表菌种的特异区段库步骤包括:获得代表菌株或菌种的测序片段(reads)特异于其他代表菌株或菌种的测序片段,根据获得代表菌株或菌种特异性比对得到的测序片段确定其所在的位置区段,合并各菌株或菌种的特异区段获得代表菌株或代表菌种的特异区段库。
在一种可选的实施方式中,构建代表菌株或代表菌种的特异区段库步骤包括:获得代表菌株或代表菌种的基因组序列的测序片段(reads),用任意一个代表菌株或代表菌种的单菌株测序片段作为输入,逐一比对代表基因组库的所有代表菌株或代表菌种的基因组的测序片段(reads);挑选出特异比对上述代表菌株基因组的测序片段(reads)和/或测序片段(reads)所在的位置区段;利用特异比对上的测序片段(reads)的位置区段或、利用特异比对上的测序片段和测序片段(reads)对应所在的位置区段构建代表菌株或代表菌种的特异区段库。
在一种可选的实施方式中,构建代表菌株或代表菌种的特异区段库步骤为:获得代表菌株或代表菌种的基因组序列的测序片段(reads),用任意一个代表菌株或代表菌种的单菌株测序片段作为输入,逐一比对代表基因组库的所有代表菌株或代表菌种的基因组;挑选出特异比对上该代表菌株基因组的测序片段(reads),并记录测序片段(reads)在代表基因组上的位置,作为集合1,挑出特异性比对上对应基因组的测序片段(reads)以相同的相似度同时比对到其他代表菌株或代表菌种基因组的测序片段(reads),并记录它们在代表基因组上的位置,作为集合2;从集合1中去掉与其与集合2的交集得到集合3,集合3即为该代表菌株或代表菌种的特异区段;采用相同的方法获取所有代表菌株或代表菌种的特异区段构成特异区段库。
在一种可选的实施方式中,上述测序片段(reads)也可以是遍历测序基因组构造的测序片段。
在上述方法中,构建代表菌株或代表菌种的特异区段库为提高识别分辨率、精确区分菌株、筛选出具有相同生物功能菌株的关键技术手段。发明人以任意一个代表菌株或代表菌种的单菌株测序测序片段(reads)作为输入,逐一比对该代表基因组库的所有代表菌株或代表菌种的基因组,挑选出特异比对上该代表菌株基因组的测序片段(reads),获得每一个测序片段(reads)在代表基因组的位置,作为集合1(例如记为locate-1);然后以该测序片段(reads)与其他的所有的代表菌株的代表基因组进行比对,挑出特异性比对上对应基因组的测序片段(reads)以相同的相似度同时比对到其他代表菌株或代表菌种基因组的测序片段(reads),并记录它们在代表基因组上的位置(例如记为locate-n),作为集合2。
由于集合2存在部分碱基(例如某1-2个碱基)错配从而使得测序片段(reads)以相同高的相似度比对上其他的代表基因组,发明人发现,由于集合1中的locate-1为最准确的,且最长。而其他的位于集合2中的locate-n存在部分位置与locate-1重叠,且该比对上的长度一定小于locate-1的长度,基于此,可以通过locate-1和locate-n的差值,获得没有比对上其他代表菌株的代表基因组的位置(例如记为locate-x)。即从集合1中去掉与其与集合2的交集得到集合3,集合3即为该代表菌株或代表菌种的特异区段;采用相同的方法获取所有代表菌株或代表菌种的特异区段构成特异区段库。
该位置(locate-x)由于仅仅能够在具有该测序片段(reads)的代表菌株的代表基因组中存在,而在其他的代表菌株的代表基因组不存在,因此,可以更为准确的识别单菌株,分辨率更高,极大程度上剔除了错配比对结果,从而获得更为准确的比对信息,使得比对结果更为准确,从而实现单株的特异性识别。
通过对所有的代表菌株的单菌株测序测序片段(reads)构建集合1以及相应的集合2,可以使得所有的代表菌株均获得更为准确的比对结果,从而筛选用于后续的微生物药物,微生物农业,食品微生物等领域所需要的菌株或菌种时,有利于更有效、高效识别筛选到的菌株或新物种。
本发明采用该方式获得通过比对所有的代表菌株序列来获取全面的比对信息。这样得到的比对结果更为精确。
在本发明应用较佳的实施方式中,将代表菌株或代表菌种的基因组库的测序片段(reads)通过特异性比对得到特异区段,将获得的各菌株或菌种的特异区段构建代表菌株或菌种的特异区段库步骤中,还包括对所有比对结果进行过滤。
在一种可选的实施方式中,过滤条件为最多允许4个碱基错配;优选地,碱基错配的形式包括以下任意一种或多种:为碱基突变、插入或缺失。
在一种可选的实施方式中,对所有比对结果进行过滤,过滤后若同一条测序片段(reads)仍然有多个比对结果时,则测序片段(reads)的最佳比对结果需同时满足以下条件,以获得测序片段(reads)的最佳比对结果并纳入集合1,条件为:(1)测序片段(reads)的最佳比对结果最多只允许1个碱基错配;(2)测序片段(reads)比对结果得分排第二的比对结果错配数最少为2个,优选地,错配数最少为3个,例如是3-4个。在一种可选的实施方式中,上述得分按照碱基错配的形式进行计算,碱基错配的形式包括以下任意一种或多种:碱基突变、插入或缺失。可选的,设置一个碱基突变扣5分,碱基缺失或插入15分,两个碱基突变扣10分。
发明人发现,采用上述过滤策略有助于更进一步地提高分辨率,能够对相似度高的菌株进行区分,并且能高精度区分marker genes,能够有效、高效识别筛选到的菌株或新物种。
在本发明应用较佳的实施方式中,对微生物基因组按照设定的阈值聚类得到同一菌株簇;各类代表菌株的代表基因组通过如下任意一种方式确定:
当聚类得到相同菌株时,对于同一菌株簇里的菌株,挑选基因序列长度最长的基因序列作为同一菌株簇的代表基因组;
或,当聚类得到相同菌株时,挑选各类相同代表菌株进行平均ANI计算,排序将最大ANI的菌株基因序列挑选出来作为代表菌株的代表基因组;
或,当聚类得到相同菌株时,以完整度、污染度作为质量分数评分指标,算出质量分数得到的最高质量分数值的菌株的基因组作为代表菌株的代表基因组。
这样有助于获得较为完整的序列信息,避免因为序列位于两端无法获得的情形。
上述策略中,挑选基因序列长度最长的基因序列作为菌株的代表基因组,这样有助于获得更全的菌株信息。
在一种可选的实施方式中,代表菌种的代表基因组通过如下任意一种方式确定:
当聚类得到相同物种的菌株时,挑选模式菌株的基因序列作为代表该菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选菌种内基因序列长度最长的菌株基因序列作为代表菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选各类相同物种下的菌株进行平均ANI计算,将排序将最大ANI的菌株基因序列挑选出来作为代表菌种的菌株基因组。
模式菌株的基因组更具有代表性,因此,可以选择模式菌株的基因序列作为代表该菌种的菌株基因组。
在本发明应用较佳的实施方式中:基于代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标微生物步骤包括:
将待识别的微生物菌株或菌种与代表菌株或菌种的特异区段库进行比对,识别目标菌株或目标菌种;
或,将代表菌株或代表菌种的特异区段的序列信息作为生物探针检测目标菌株或目标菌种;
或,根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,筛选出目标菌株或菌种;
或,根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,结合生物标志物(biomarkers)筛选出目标菌株或菌种;
或,将宏基因组测序片段(reads)作为输入,利用序列比对工具将输入序列与代表基因组库进行比对;在比对结果中,保留能特异比对到特异区段库的测序片段(reads)和/或保留能特异比对到代表菌株的特异区段库测序片段的位置区段,并结合各个代表菌株的特异区段的长度,计算各菌株的相对丰度,筛选出目标菌株或菌种;其中,序列比对工具优选为Bowtie2。该方法与下述方法相比,多了一步宏基因组测序得到的reads通过Bowtie2比对到代表菌株库的步骤,该步骤的设置有利于提升比对的准确性,提高菌株的分辨率。
另一种方法是:
根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;保留能特异比对到特异区段库的测序片段(reads)和/或保留能特异比对到特异区段库测序片段的位置区段,并结合代表基因组特异区段的长度,计算各菌株的相对丰度的步骤优选地包括:将宏基因组测序片段(reads)作为输入,直接与特异区段库进行比对。这种方式是将宏基因组测序得到的reads直接比对到代表菌株或代表菌种的特异区段库。这样省去了宏基因组测序得到的reads通过Bowtie2比对到代表菌株库的步骤,简化了筛选流程,提高比对效率,也可满足单一菌株的分辨。
在一种可选的实施方式中,宏基因组的样本来源为非自然环境样本或自然环境样本;
在一种可选的实施方式中,非自然环境样本为来自动物体的微生物群、来自植物体的微生物群、来自药物的微生物群、来自肥料的微生物群或来自食品的微生物群;自然环境样本为来自土壤、水体或空气的样本;
在一种可选的实施方式中,来自动物体的微生物群为来自人肠道的微生物群、人胃部的微生物群、鼻腔的微生物群、(内和/或外)耳道的微生物群、眼睛的微生物群、皮肤的微生物群、人口腔的微生物群或人生殖道的微生物群。
人肠道包括不限于:小肠、大肠和直肠。
人生殖道包括不限于:男性内生殖器、男性外生殖器、女性内生殖器、女性外生殖器。
男性内生殖器例如包括睾丸、附睾、输精管、射精管、前列腺、精囊腺和尿道球腺。
女性内生殖器例如卵巢、输卵管、子宫及阴道。女性外生殖器例如阴唇、阴蒂及阴道前庭。
在一种可选的实施方式中,自然环境样本为来自施加菌肥后的土壤、施加农药后的土壤、生活污水或工业污水。
在本发明应用较佳的实施方式中,对微生物基因组进行聚类分析是以ANI的阈值为95%或99%进行聚类。
在一种可选的实施方式中,以ANI≥99%的菌株作为相同的菌株簇的聚类。
在一种可选的实施方式中,以ANI≥95%的菌株作为相同物种的菌株进行聚类。
在本发明应用较佳的实施方式中,获得微生物基因组序列,构建微生物基因序列数据库包括:根据如下至少一种的数据库获得微生物基因组序列:
人肠道微生物基因组序列数据库、农业微生物序列数据库、微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列、农业菌肥微生物序列数据库、菌药微生物序列数据库、污水处理微生物序列数据库和食品微生物领域数据。
农业微生物基因组序列数据库,可以包括细菌,真菌等微生物基因序列。在其他实施方式中,同样也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的数据库数据共同构建农业菌肥,菌药微生物序列数据库。
本发明还提供了一种微生物识别的装置,其包括:微生物基因序列数据库构建单元、微生物基因组聚类单元、代表菌株或代表菌种选择单元、代表菌株或代表菌种的特异区段库构建单元、菌种或菌株识别单元;
微生物基因序列数据库构建单元获得微生物基因组序列,构建微生物基因组序列数据库;
微生物基因组聚类单元对微生物基因组按照设定的阈值进行聚类分析;
代表菌株或代表菌种选择单元选出聚类后各类代表菌株的代表基因组或选择出代表菌种的代表基因组,组成代表基因组库;
代表菌株或代表菌种的特异区段库构建单元将代表菌株或代表菌种的基因组库的测序片段(reads)通过特异性比对得到特异区段,将获得的各菌株或菌种的特异区段构建代表菌株或菌种的特异区段库;
菌种或菌株识别单元根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;保留特异比对到特异区段库的测序片段(reads)和/或保留能特异比对到特异区段库测序片段的位置区段,并结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据菌株水平的相对丰度,筛选出目标菌株或菌种。
菌种或菌株识别单元基于代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标菌株或菌种。
在一种可选的实施方式中,微生物基因序列数据库构建单元构建上述的微生物基因序列数据库。
在一种可选的实施方式中,微生物基因组聚类单元以ANI的阈值为95%或99%进行聚类;优选地,以ANI≥99%的菌株作为相同的菌株簇的聚类;以ANI≥95%的菌株作为相同物种的菌株进行聚类。
在一种可选的实施方式中,代表菌株或代表菌种选择单元构建上述的代表基因组库。
在一种可选的实施方式中,代表菌株或代表菌种的特异区段库构建单元进一步为构建上述的代表菌株或代表菌种的特异区段库。
在一种可选的实施方式中,菌种或菌株识别单元按上述的方法筛选出目标菌株或菌种。
本发明提供的微生物识别的装置可适用于对微生物药物,农业微生物,环境保护的微生物菌株或菌种进行确定的情况。
本发明还提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述的微生物识别的方法。
本发明具有以下有益效果:
本发明提供的微生物识别的方法,具有微生物菌株识别分辨率高,能对相似度高的菌株进行高精度识别和区分,实现目标菌株筛选过程中,精确识别相同株水平的菌株,以获得具有相同目标功能的菌株。此外,上述方法还可以精确识别相同种的菌株,以获得同种的菌株。本发明方法的提供,有助于微生物菌株在药物、食品、动物体或植物体的微生物群、环境处理、农业中的功能菌株筛选过程中,缩短开发周期,提高功能菌株筛选的准确性和有效性。此外,采用本发明的方法还能同时对新物种进行有效识别。
发明人通过构建代表菌株或代表菌种的特异区段库,以提高识别分辨率、有效扩大识别范围,精确识别并区分株水平的菌株,为后续实现相同生物功能的菌株筛选提供帮助。
由此可以开发相应的微生物识别的装置、设备和计算机可读存储介质,从而对微生物医药、农业微生物、食品微生物、环境处理微生物等领域的微生物进行精确识别。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为实施例1提供的一种微生物识别方法的流程图;
图2为实施例2提供的一种微生物识别方法的流程图;
图3为一种微生物菌株识别的装置的结构示意图;
图4为设备的硬件结构示意图;
图5为本发明的微生物识别方法的原理图;
附图标号:110-微生物基因序列数据库构建单元;120-微生物基因组聚类单元;130-代表菌株或代表菌种选择单元;140-代表菌株或代表菌种的特异区段库构建单元;150-菌种或菌株识别单元;210-处理器;220-存储器;230-输入装置;240-输出装置;250-总线。
具体实施方式
现将详细地提供本发明实施方式的参考,其一个或多个实例描述于下文。提供每一实例作为解释而非限制本发明。实际上,对本领域技术人员而言,显而易见的是,可以对本发明进行多种修改和变化而不背离本发明的范围或精神。例如,作为一个实施方式的部分而说明或描述的特征可以用于另一实施方式中,来产生更进一步的实施方式。
除非另外指明,否则实践本发明将采用细胞生物学、分子生物学(包含重组技术)、微生物学、生物化学和免疫学的常规技术,所述常规技术在本领域技术人员的能力范围内。文献中充分解释了这种技术,如《分子克隆:实验室手册(Molecular Cloning:ALaboratory Manual)》,第二版(Sambrook等人,1989);《寡核苷酸合成(OligonucleotideSynthesis)》(M.J.Gait编,1984);《动物细胞培养(Animal Cell Culture)》(R.I.Freshney编,1987);《酶学方法(Methods in Enzymology)》(学术出版社有限公司(Academic Press,Inc.);《实验免疫学手册(Handbook of Experimental Immunology)》(D.M.Weir和C.C.Blackwell编);《哺乳动物细胞用基因转移载体(Gene Transfer Vectors forMammalian Cells)》(J.M.Miller和M.P.Calos编,1987);《当代分子生物学方法(CurrentProtocols in Molecular Biology)》(F.M.Ausubel等人编,1987);《PCR:聚合酶链反应(PCR:The Polymerase Chain Reaction)》(Mullis等人编,1994);以及《当代免疫学方法(Current Protocols in Immunology)》(J.E.Coligan等人编,1991),所述文献中的每个文献均通过引用明确并入本文中。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
实施例1
参照图1所示,本实施例提供了一种微生物识别方法。
其包括如下步骤:
步骤S1:获得微生物基因组序列,构建微生物基因序列数据库(如人肠道微生物序列数据库、农业微生物序列数据库);
一种实施方式为:可以基于已有的人肠道微生物基因组序列数据库获得,例如可以通过UHGG数据库获得人肠道微生物序列数据库,也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的UHGG数据库数据共同构建人肠道微生物序列数据库;本发明优选的采用了慕恩微生物资源平台采集得到的微生物,并测序得到15万个菌株的基因组序列,结合UHGG数据库资源构建了人肠道微生物基因组序列数据库;当用于人肠微生物药物筛选时,本发明还构建了人肠道微生物基因组序列数据库。
此外,在其他实施方式中,也可以为:获得农业微生物基因组序列数据库,可以包括细菌,真菌等微生物基因序列。同样也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的数据库数据共同构建农业菌肥,菌药微生物序列数据库;本发明优先采用了慕恩微生物资源平台采集得到的微生物,并测序得到15万个菌株的基因组序列,结合公知的数据库资源同构建了农业菌肥微生物基因组序列数据库。在其他实施方式中,上述菌株的基因组序列也可以根据需要进行自适应扩展。
在其他实施方式中,本发明提供的方法还可以构建环境处理,如污水处理微生物序列数据库;在一种实施方式还可以构建食品微生物领域数据库。
步骤S2:对上述的S1的微生物基因组进行聚类。
将所有关注的微生物基因组作为输入,通过fastANI计算两两间的ANI,并以设置的阈值进行聚类;作为一种实施方式,可以选择ANI的阈值为99%进行聚类,ANI≥99%的菌株将作为相同的株进行聚类在一起。
作为另一种实施方式,选择ANI的阈值为95%进行聚类,ANI≥95%的菌株作为相同物种的菌株进行聚类在一起。
步骤S3:选择聚类的各类菌株的代表菌株。
对于同一菌株簇里的菌株,作为一种实施方式,挑选基因序列长度最长的基因序列作为代表菌株基因组序列。
当聚类得到相同菌株时,作为另一种实施方式,挑选各类相同菌株进行平均ANI计算,将计算得到的平均ANI进行排序,选择排序最大的菌株基因序列挑选出来作为代表菌株基因组;
当聚类得到相同菌株时,可选的方式还包括:代表菌株基因组为按照质量分数计算得到的最高质量分数值的菌株;
当聚类得到相同物种的菌株时,作为一种实施方式,挑选模式菌株的基因序列作为代表该菌种的菌株基因组;
当聚类得到相同物种的菌株时,作为一种实施方式,挑选菌种内基因序列长度最长的菌株基因序列作为代表菌种的菌株基因组;
当聚类得到相同物种的菌株时,作为一种实施方式,挑选各类相同物种下的菌株进行平均ANI计算,将计算得到的平均ANI进行排序,选择排序最大的菌株作为代表菌种的菌株基因组。
平均ANI计算方式以及选择排序最大的方式示意性如下表1所示:
表1不同菌株的ANI统计表。
Figure BDA0003721716310000101
以菌株B1,B2,B3,B4为例,菌株B1相对于其他菌株计算得到平均ANI为99.4,菌株B2相对于其他菌株计算得到平均ANI为97.75,菌株B3相对于其他菌株计算得到平均ANI为98,菌株B4相对于其他菌株计算得到平均ANI为95;按照平均ANI值进行排序选择最大值平均ANI值为99.4%对应的菌株1作为代表菌株。
步骤S4:构建代表菌株的特异区段库。
构建代表菌株或代表菌种的特异区段库步骤包括:特异比对上的测序片段为每一个代表菌株特异于其他代表菌株的测序片段(reads)所在的位置区段;测序片段为单菌株测序得到的测序片段,或对测序基因组进行遍历获得的构造的测序片段;
根据获得代表菌株或菌种特异性比对得到的测序片段确定其所在的位置区段,合并各菌株或菌种的特异区段获得代表菌株或代表菌种的特异区段库。
具体地,可以首先用Bowtie2对获得的代表基因组建库(representative genomesequence)。接着用一个代表菌株的单菌测序reads或遍历其基因组构造的reads作为输入,去比对代表基因组库:挑出特异比对上对应该代表菌株基因组的reads,记下它们在代表菌株基因组上的位置,作为集合Set1;
挑出所述特异性比对上对应基因组的reads以相同的相似度同时比对到其他代表菌株或代表菌种基因组的reads,记下它们在代表基因组上的位置,作为集合Set2。从集合Set1中去掉与集合Set2的交集,剩下的位置集即为该代表菌株的特异区段。同样的方法,获取所有代表菌株的特异区段作为株水平特异区段库。
发明人意识到,由于reads往往只是基因组的一部分,还有相当一部分reads是某一两个碱基出现错配。因此,本发明为了获取到该reads的所有比对结果,进一步的实施方式为:对所有比对结果进行过滤,过滤条件为最多允许4个碱基错配,过滤后如果同一条reads仍然有多个比对结果时,该reads的最佳比对结果需同时满足以下条件,才会将该reads的最佳比对结果纳入Set1。条件为:(1)该reads的最佳比对结果最多只允许1个错配;(2)该reads比对结果得分排第二的比对结果错配数最少为2个,例如错配数最少3个碱基。
因此,本发明采用该方式获得通过比对所有的代表菌株序列来获取全面的比对信息。这样得到的比对结果更为精确。
步骤S5:识别目标微生物。
基于上述构建得到的代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标菌株或菌种(目标微生物);
一种实施方式,可以将待识别的微生物菌株或菌种与代表菌株或菌种的特异区段库进行比对,识别目标菌株或目标菌种;
另一种实施方式为:将代表菌株或代表菌种的特异区段的序列信息作为生物探针检测目标菌株或目标菌种;
还可采用的实施方式包括:根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,结合biomarkers等筛选出目标菌株或菌种;
本发明可采用的实施方式还包括:将宏基因组测序reads作为输入,Bowtie2比对代表菌株基因组库。在比对结果中,只保留那些特异比对到株水平特异区段库的reads,并结合代表基因组特异区段的长度,计算各菌株的相对丰度。基于菌株丰度,结合样本分组信息,针对人肠道菌群,我们可以分析整个肠道菌群的差异情况,也可以用于biomarker的筛选,同时也可以进行人肠道健康状况的评估,如有其他组学数据,也可以分析宏基因组与其他组学的关联分析;同理,耳道微生物、环境微生物、口腔微生物、生殖道微生物等其他微生物菌群同样适用。根据菌株水平的相对丰度,通过biomarker筛选用于微生物药物,微生物农业,食品微生物领域所需要的菌株或菌种。
根据本发明的方法,本发明的菌株识别装置具有分辨率高的优点,能够对相似度高的菌株进行区分,并且能高精度区分marker genes,能够有效、高效识别筛选到的菌株或新物种;特异区段库使得本发明的方法有效扩大识别范围,能精确识别并区分株水平的菌株,为后续实现相同生物功能的菌株筛选提供帮助。
实施例2
本实施例提供了一种微生物识别的方法,参照图2所示,原理参照图5所示,其包括如下步骤:
步骤S1:获得微生物基因组序列,构建微生物基因序列数据库(如人肠道微生物序列数据库、农业微生物序列数据库)。
一种实施方式为:可以基于已有的人肠道微生物基因组序列数据库获得,例如可以通过UHGG数据库获得人肠道微生物序列数据库,也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的UHGG数据库数据共同构建人肠道微生物序列数据库;本发明优选的采用了慕恩微生物资源平台采集得到的微生物,并测序得到15万个菌株的基因组序列,结合UHGG数据库资源构建了人肠道微生物基因组序列数据库;当用于人肠微生物药物筛选时,本发明构建人肠道微生物基因组序列数据库;
本发明的另一种实施方式可以为:获得农业微生物基因组序列数据库,可以包括细菌,真菌等微生物基因序列。同样也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的数据库数据共同构建农业菌肥,菌药微生物序列数据库;本发明优先采用了慕恩微生物资源平台采集得到的微生物,并测序得到15万个菌株的基因组序列,结合公知的数据库资源同构建了农业菌肥微生物基因组序列数据库。
此外,在其他实施方式中,本发明还可以构建环境处理,如污水处理微生物序列数据库;一种实施方式还可以构建食品微生物领域数据库。
步骤S2:对微生物基因组进行聚类。
将所有关注的微生物基因组作为输入,通过fastANI计算两两间的ANI,并以设置的阈值进行聚类;作为一种实施方式,可以选择ANI的阈值为99%进行聚类,ANI≥99%的菌株将作为相同的株进行聚类在一起;
作为另一种实施方式,选择ANI的阈值为95%进行聚类,ANI≥95%的菌株作为相同物种的菌株进行聚类在一起;
步骤S3:选择聚类的各类菌株的代表菌株;
对微生物基因组按照设定的阈值聚类得到同一菌株簇;各类代表菌株的代表基因组通过如下任意一种方式确定:
当聚类得到相同菌株时,对于同一菌株簇里的菌株,作为一种实施方式,挑选基因序列长度最长的基因序列作为代表菌株基因组序列;
当聚类得到相同菌株时,作为另一种实施方式,挑选各类相同菌株进行平均ANI计算,排序将最大ANI的菌株基因序列挑选出来作为代表菌株基因组;
当聚类得到相同菌株时,可选的方式还包括:以完整度、污染度作为质量分数评分指标,算出质量分数得到的最高质量分数值的菌株的基因组作为代表菌株的代表基因组;
代表菌种的代表基因组通过如下任意一种方式确定:
当聚类得到相同物种的菌株时,挑选模式菌株的基因序列作为代表该菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选菌种内基因序列长度最长的菌株基因序列作为代表菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选各类相同物种下的菌株进行平均ANI计算,将排序将最大ANI的菌株基因序列挑选出来作为代表菌种的菌株基因组。
平均ANI的计算方式以及排序可以如实施例1表1所示。
步骤S4:构建代表菌株的特异区段库
构建代表菌株或代表菌种的特异区段库步骤包括:所述特异比对上的测序片段为每一个代表菌株特异于其他代表菌株的测序片段(reads)所在的位置区段;所述测序片段为单菌株测序得到的测序片段,或对测序基因组进行遍历获得的构造的测序片段;
根据获得代表菌株或菌种特异性比对得到的测序片段确定其所在的位置区段,合并各菌株或菌种的特异区段获得代表菌株或代表菌种的特异区段库;
具体地,可以首先用Bowtie2对获得的代表基因组建库(representative genomesequence)。接着用一个代表菌株的单菌测序reads或遍历其基因组构造的reads作为输入,去比对代表基因组库:挑出特异比对上对应该代表菌株基因组的reads,记下它们在代表菌株基因组上的位置,作为集合Set1;
挑出所述特异性比对上对应基因组的reads以相同的相似度同时比对到其他代表菌株或代表菌种基因组的reads,记下它们在代表基因组上的位置,作为集合Set2。从集合Set1中去掉与集合Set2的交集,剩下的位置集即为该代表菌株的特异区段。同样的方法,获取所有代表菌株的特异区段作为株水平特异区段库。
本发明中,发明人意识到,由于reads往往只是基因组的一部分,还有相当一部分reads是某一两个碱基出现错配。因此,本发明为了获取到该reads的所有比对结果,进一步的实施方式为:对所有比对结果进行过滤,过滤条件为最多允许4个碱基错配,过滤后如果同一条reads仍然有多个比对结果时,该reads的最佳比对结果需同时满足以下条件,才会将该reads的最佳比对结果纳入Set1,条件为:(1)该reads的最佳比对结果最多只允许1个错配;(2)该reads比对结果得分排第二的比对结果错配数最少为2个,例如优选3个碱基。
发明人通过集合1,以每一个代表菌株的单菌株测序reads比对该单菌株的代表基因组,获得每一个reads在代表基因组的位置(例如记为locate-1),然后以该reads与其他的所有的代表菌株的代表基因组进行比对,若可以比对上(或以相同高的相似度比对上),则记录下该reads在能比对得上的其他代表菌株的代表基因组的位置(例如记为locate-n),作为集合2。由于集合2存在部分碱基(例如某1-2个碱基)错配从而使得reads以相同高的相似度比对上其他的代表基因组,发明人发现,由于集合1中的locate-1为最准确的,且最长。而其他的位于集合2中的locate-n存在部分位置与locate-1重叠,且该比对上的长度一定小于locate-1的长度,基于此,可以通过locate-1和locate-n的差值,获得没有比对上其他代表菌株的代表基因组的位置(例如记为locate-x),该位置由于仅仅能够在具有该reads的代表菌株的代表基因组中存在,而在其他的代表菌株的代表基因组不存在,因此,可以更为准确的识别单菌株,分辨率更高,极大程度上剔除了错配比对结果,从而获得更为准确的比对信息,使得比对结果更为准确,从而实现单株的特异性识别。
通过对所有的代表菌株的单菌株测序reads构建集合1以及相应的集合2,可以使得所有的代表菌株均获得更为准确的比对结果,从而筛选用于后续的微生物药物,微生物农业,食品微生物等领域所需要的菌株或菌种时,有利于更有效、高效识别筛选到的菌株或新物种。
因此,本发明采用该方式获得通过比对所有的代表菌株序列来获取全面的比对信息。这样得到的比对结果更为精确。
S5:识别目标微生物:
步骤S5:识别目标微生物。
基于上述构建得到的代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标菌株或菌种(目标微生物);
一种实施方式,可以将待识别的微生物菌株或菌种与所述代表菌株或菌种的特异区段库进行比对,识别目标菌株或目标菌种;
另一种实施方式为:将代表菌株或代表菌种的特异区段的序列信息作为生物探针检测目标菌株或目标菌种;
还可采用的实施方式包括:根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,结合biomarkers等筛选出目标菌株或菌种;
具体的,将宏基因组测序reads作为输入,通过宏基因组测序得到的reads比对到菌株特异区段库。在比对结果中,只保留那些特异比对到株水平特异区段库的reads,并结合代表基因组特异区段的长度,计算各菌株的相对丰度。根据菌株水平的相对丰度,通过biomarker筛选用于微生物药物,微生物农业,食品微生物领域所需要的菌株或菌种。
根据本发明的方法,本发明的菌株识别装置具有分辨率高的优点,能够对相似度高的菌株进行区分,并且能高精度区分marker genes,能够有效、高效识别筛选到的菌株或新物种;特异区段库使得本发明的方法有效扩大识别范围,能精确识别并区分株水平的菌株,为后续实现相同生物功能的菌株筛选提供帮助。
实施例3
本实施例提供了一种微生物菌株识别的装置,参照图3所示。本实施例可适用于对微生物药物,农业微生物,环境保护的微生物菌株或菌种进行确定的情况。
微生物菌株识别的装置包括:微生物基因序列数据库构建单元110、微生物基因组聚类单元120、代表菌株或代表菌种选择单元130、代表菌株或代表菌种的特异区段库构建单元140、菌种或菌株识别单元150。
(1)微生物基因序列数据库构建单元110用于获得微生物基因组序列,构建微生物基因序列数据库(人肠道微生物序列数据库、农业菌肥微生物序列数据库、食品微生物序列数据库,环境保护微生物序列数据库)。
上述人肠道微生物序列数据库可以基于已有的人肠道微生物基因组序列数据库获得,例如可以通过UHGG数据库获得人肠道微生物序列数据库,也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的UHGG数据库数据共同构建人肠道微生物序列数据库;本发明优选的采用了慕恩微生物资源平台采集得到的微生物,并测序得到15万个菌株的基因组序列,结合UHGG数据库资源构建了人肠道微生物基因组序列数据库;当用于人肠微生物药物筛选时,本发明构建人肠道微生物基因组序列数据库;
本发明的另一种实施方式可以为:获得农业微生物基因组序列数据库,可以包括细菌,真菌等微生物基因序列。同样也可以基于微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列和已有的数据库数据共同构建农业菌肥,菌药微生物序列数据库;本发明优先采用了慕恩微生物资源平台采集得到的微生物,并测序得到15万个菌株的基因组序列,结合公知的数据库资源同构建了农业菌肥微生物基因组序列数据库。
此外,本发明还可以构建环境处理,如污水处理微生物序列数据库;一种实施方式还可以构建食品微生物领域数据库。
(2)微生物基因组聚类单元120:用于对微生物基因组进行聚类。
将所有从步骤(1)中的基因组数据库获得的微生物基因组作为输入,通过fastANI计算两两间的ANI,并以设置的阈值进行聚类;作为一种实施方式,可以选择ANI的阈值为99%进行聚类,ANI≥99%的菌株将作为相同的株进行聚类在一起;
作为另一种实施方式,选择ANI的阈值为95%进行聚类,ANI≥95%的菌株作为相同物种的菌株进行聚类在一起;
(3)代表菌株或代表菌种选择单元130:用于选择聚类的各类菌株的代表菌株或代表菌种。
对微生物基因组按照设定的阈值聚类得到同一菌株簇;各类代表菌株的代表基因组通过如下任意一种方式确定:
当聚类得到相同菌株时,对于同一菌株簇里的菌株,作为一种实施方式,挑选基因序列长度最长的基因序列作为代表菌株基因组序列;
当聚类得到相同菌株时,作为另一种实施方式,挑选各类相同菌株进行平均ANI计算,排序将最大ANI的菌株基因序列挑选出来作为代表菌株基因组;
当聚类得到相同菌株时,可选的方式还包括:以完整度、污染度作为质量分数评分指标,算出质量分数得到的最高质量分数值的菌株的基因组作为代表菌株的代表基因组;
代表菌种的代表基因组通过如下任意一种方式确定:
当聚类得到相同物种的菌株时,挑选模式菌株的基因序列作为代表该菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选菌种内基因序列长度最长的菌株基因序列作为代表菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选各类相同物种下的菌株进行平均ANI计算,将排序将最大ANI的菌株基因序列挑选出来作为代表菌种的菌株基因组。
平均ANI计算方式以及选择排序最大的结果可以如实施例1表1所示。
(4)代表菌株或代表菌种的特异区段库构建单元140。
构建代表菌株或代表菌种的特异区段库步骤包括:所述特异比对上的测序片段为每一个代表菌株特异于其他代表菌株的测序片段(reads)所在的位置区段;所述测序片段为单菌株测序得到的测序片段,或对测序基因组进行遍历获得的构造的测序片段;根据获得代表菌株或菌种特异性比对得到的测序片段确定其所在的位置区段,合并各菌株或菌种的特异区段获得代表菌株或代表菌种的特异区段库;
首先用Bowtie2对获得的代表基因组建库(representative genome sequence)。接着用一个代表菌株的单菌测序reads或遍历其基因组构造的reads作为输入,去比对代表基因组库:挑出特异比对上对应该代表菌株基因组的reads,记下它们在代表菌株基因组上的位置,作为集合Set1;
挑出所述特异性比对上对应基因组的reads以相同的相似度同时比对到其他代表菌株或代表菌种基因组的reads,记下它们在代表基因组上的位置,作为集合Set2。从集合Set1中去掉与集合Set2的交集,剩下的位置集即为该代表菌株的特异区段。同样的方法,获取所有代表菌株的特异区段作为株水平特异区段库。
发明人意识到,由于reads往往只是基因组的一部分,还有相当一部分reads是某一两个碱基出现错配。因此,本发明为了获取到该reads的所有比对结果,进一步的实施方式为:对所有比对结果进行过滤,过滤条件为最多允许4个碱基错配,过滤后如果同一条reads仍然有多个比对结果时,该reads的最佳比对结果需同时满足以下条件,才会将该reads的最佳比对结果纳入Set1,条件为:(1)该reads的最佳比对结果最多只允许1个错配;(2)该reads比对结果得分排第二的比对结果错配数最少为3个,优选3个碱基。
因此,本发明采用该方式获得通过比对所有的代表菌株序列来获取全面的比对信息。这样得到的比对结果更为精确。
(5)菌种或菌株识别单元150。
菌种或菌株识别单元150用于识别目标微生物。
基于上述构建得到的代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标菌株或菌种(目标微生物);
一种实施方式,可以将待识别的微生物菌株或菌种与所述代表菌株或菌种的特异区段库进行比对,识别目标菌株或目标菌种;
另一种实施方式为:将代表菌株或代表菌种的特异区段的序列信息作为生物探针检测目标菌株或目标菌种;
还可采用的实施方式包括:根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,结合biomarkers等筛选出目标菌株或菌种;
本发明的菌株识别可以采用的实施方式为:将宏基因组测序reads作为输入,Bowtie2比对代表菌株基因组库。在比对结果中,只保留那些特异比对到株水平特异区段库的reads,并结合代表基因组特异区段的长度,计算各菌株的相对丰度。
本发明的菌株识别可以采用的实施方式还可以选择为:将宏基因组测序reads作为输入,通过宏基因组测序得到的reads比对到菌株特异区段库。在比对结果中,只保留那些特异比对到株水平特异区段库的reads,并结合代表基因组特异区段的长度,计算各菌株的相对丰度。
根据本发明的菌株识别单元得到的菌株丰度,结合样本分组信息,针对人肠道菌群,我们可以分析整个肠道菌群的差异情况,也可以用于biomarker的筛选,同时也可以进行人肠道健康状况的评估,如有其他组学数据,也可以分析宏基因组与其他组学的关联分析;同理,环境微生物,口腔微生物,生殖道微生物等其他微生物菌群同样适用。根据菌株水平的相对丰度,通过biomarker筛选用于微生物药物,微生物农业,食品微生物领域所需要的菌株或菌种。
根据本发明的菌株识别装置具有分辨率高的优点,能够对相似度高的菌株进行区分,并且能高精度区分marker genes,能够有效、高效识别筛选到的菌株或新物种;特异区段库使得本发明的方法有效扩大识别范围,能精确识别并区分株水平的菌株,为后续实现相同生物功能的菌株筛选提供帮助
实施例4
本实施例提供了一种设备,是本发明实施例3提供的一种微生物菌株识别的装置的设备。具体地,设备包括如图4所示的:一个或多个处理器210,存储器220,输入装置230和输出装置240,设备中的处理器210、存储器220、输入装置230和输出装置240可以通过总线或者其他方式连接。
图4中以一个处理器210为例,处理器210、存储器220、输入装置230和输出装置240通过总线250连接。
存储器220作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一和实施例二中的微生物(菌株、菌种)识别方法对应的程序指令/模块(例如,图3所示的微生物基因序列数据库构建单元110、微生物基因组聚类单元120、代表菌株或代表菌种选择单元130、代表菌株或代表菌种的特异区段库构建单元140、菌种或菌株识别单元150。处理器210通过运行存储在存储器220中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述方法实施例的一种微生物识别方法。
所需要的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器220可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器220可选包括相对于处理器210远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置230可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置240可包括显示屏等显示设备。
实施例5
本发明实施例还提供一种包含计算机可执行指令的计算机可读存储介质,计算机可执行指令在由计算机处理器执行时用于执行实施例1或实施例2中的微生物识别的方法,可选的,该计算机可执行指令在由计算机处理器执行时还可以用于执行本发明任意实施例所提供的一种微生物筛选(识别)的方法的技术方案。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的识别微生物的方法。
实施例6
从UHGG数据库下载人肠道微生物基因组数据,结合慕恩自测的菌株序列数据,按照本发明的方法得到特异区段库部分显示如表2所示。
表2特异区段库的部分内容。
Figure BDA0003721716310000181
Figure BDA0003721716310000191
从NCBI的SAR数据库中选择PRJNA541981(黑色素瘤病人使用PD-1治疗)项目,选择这个项目中的基线样本(27个使用PD-1治疗前的粪便样本)作为输入的宏基因组数据;同时采用本发明的方法和metaphlan进行分析;截取SRR9033749~SRR9033754、SRR9033760七个样本的运行结果进行部分显示,如表3所示。
表3不同样本的运行结果统计表。
Figure BDA0003721716310000192
Figure BDA0003721716310000201
采用本申请的方法运行结果和metaphlan进行比对如表4所示。通过metaphlan的识别方法只能识别到种水平,如表4所示,采用metaphlan方法共识别出253个物种,122个属,仅能识别出270个菌株(因为marker genes有限);而采用本发明的方法,能识别出1732个菌株,1045个物种,374个菌属。
表4采用不同方法进行物种、属和株识别的结果统计表。
Figure BDA0003721716310000211
Figure BDA0003721716310000221
Figure BDA0003721716310000231
Figure BDA0003721716310000241
进一步地,随机选择Alistipes属进一步查看结果并进行比较,宏基因组数据输入之后,截取SRR9033749~SRR9033754、SRR9033760七个样本的运行结果进行部分显示,采用metaphlan和本发明的方法分别分析得到Alistipes属下的各物种丰度分布分析(结果如表5所示),从表5中可以看出,本发明的方法相对metaphlan可以识别出更多物种。
表5:采用metaphlan和本发明的方法分别对Alistipes属下的各物种识别结果。
Figure BDA0003721716310000242
选择Alistipes putredinis物种的识别结果进一步分析,发现metaphlan能识别出Alistipes putredinis物种下两株同种不同株的菌株(如表6所示);而本发明识别出了Alistipes putredinis下五个结果(如表7所示)。
表6:Metaphlan株水平识别
Figure BDA0003721716310000251
表7:采用本发明的方法株水平识别结果(丰度值采用归一化后的数据显示)
Figure BDA0003721716310000252
综合以上结果可以看出,本发明的菌株识别方法比相对现有技术来说,通过本发明提出的特异区段库的构建,使得菌株识别具有更高分辨率,能够对相似度高的菌株进行区分,并且能高精度区分marker genes,能够有效、高效识别筛选到的菌株或新物种;可以精确识别到达菌株水平。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种微生物识别的方法,其特征在于,其包括如下步骤:
获得微生物基因组序列,构建微生物基因组序列数据库;
对微生物基因组按照设定的阈值进行聚类分析;
选出聚类后各类代表菌株的代表基因组或选择出代表菌种的代表基因组,组成代表基因组库;
将代表菌株或代表菌种的基因组库的测序片段(reads)通过特异性比对得到特异区段,将获得的各菌株或菌种的特异区段构建代表菌株或代表菌种的特异区段库;
基于所述代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标微生物。
2.根据权利要求1所述的方法,其特征在于:所述构建代表菌株或代表菌种的特异区段库步骤包括:所述特异比对上的测序片段为每一个代表菌株特异于其他代表菌株的测序片段(reads)所在的位置区段;所述测序片段为单菌株测序得到的测序片段,或对测序基因组进行遍历获得的构造的测序片段;
优选地,所述构建代表菌株或代表菌种的特异区段库步骤包括:获得代表菌株或菌种的测序片段(reads)特异于其他代表菌株或菌种的测序片段,根据获得代表菌株或菌种特异性比对得到的测序片段确定其所在的位置区段,合并各菌株或菌种的特异区段获得代表菌株或代表菌种的特异区段库;
优选地,所述构建代表菌株或代表菌种的特异区段库步骤包括:获得代表菌株或代表菌种的基因组序列的测序片段(reads),用任意一个代表菌株或代表菌种的单菌株测序片段作为输入,逐一比对所述代表基因组库的所有代表菌株或代表菌种的基因组的测序片段;挑选出特异比对上述代表菌株基因组的测序片段和/或测序片段所在的位置区段;利用特异比对上的测序片段的位置区段或、利用特异比对上的测序片段和测序片段对应所在的位置区段构建代表菌株或代表菌种的特异区段库;
优选地,所述构建代表菌株或代表菌种的特异区段库步骤为:获得代表菌株或代表菌种的基因组序列的测序片段(reads),用任意一个代表菌株或代表菌种的单菌株测序片段作为输入,逐一比对所述代表基因组库的所有代表菌株或代表菌种的基因组;所述挑选出特异比对上该代表菌株基因组的测序片段(reads),并记录所述测序片段(reads)在代表基因组上的位置,作为集合1,挑出所述特异性比对上对应基因组的测序片段(reads)以相同的相似度同时比对到其他代表菌株或代表菌种基因组的测序片段(reads),并记录它们在代表基因组上的位置,作为集合2;从集合1中去掉与其与集合2的交集得到集合3,所述集合3即为该代表菌株或代表菌种的特异区段;采用相同的方法获取所有代表菌株或代表菌种的特异区段构成特异区段库。
3.根据权利要求2所述的方法,其特征在于,将代表菌株或代表菌种的基因组库的测序片段(reads)通过特异性比对得到特异区段,将获得的各菌株或菌种的特异区段构建代表菌株或菌种的特异区段库步骤中,还包括对所有比对结果进行过滤;
优选地,过滤条件为最多允许4个碱基错配;优选地,所述碱基错配的形式包括以下任意一种或多种:碱基突变、插入或缺失;
优选地,对所有比对结果进行过滤,过滤后若同一条测序片段(reads)仍然有多个比对结果时,则所述测序片段(reads)的最佳比对结果需同时满足以下条件,以获得所述测序片段(reads)的最佳比对结果并纳入集合1,所述条件为:(1)所述测序片段(reads)的最佳比对结果最多只允许1个碱基错配;(2)所述测序片段(reads)比对结果得分排第二的比对结果错配数最少为2个,优选地,错配数最少为3个;优选地,所述得分按照碱基错配的形式进行计算,所述碱基错配的形式包括以下任意一种或多种:碱基突变、插入或缺失。
4.根据权利要求1-3任意一项所述的方法,其特征在于,对微生物基因组按照设定的阈值聚类得到同一菌株簇;各类代表菌株的代表基因组通过如下任意一种方式确定:
当聚类得到相同菌株时,对于同一菌株簇里的菌株,挑选基因序列长度最长的基因序列作为同一菌株簇的代表基因组;
或,当聚类得到相同菌株时,挑选各类相同代表菌株进行平均ANI计算,排序将最大ANI的菌株基因序列挑选出来作为代表菌株的代表基因组;
或,当聚类得到相同菌株时,以完整度、污染度作为质量分数评分指标,算出质量分数得到的最高质量分数值的菌株的基因组作为代表菌株的代表基因组;
优选地,所述代表菌种的代表基因组通过如下任意一种方式确定:
当聚类得到相同物种的菌株时,挑选模式菌株的基因序列作为代表该菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选菌种内基因序列长度最长的菌株基因序列作为代表菌种的菌株基因组;
或,当聚类得到相同物种的菌株时,挑选各类相同物种下的菌株进行平均ANI计算,将排序将最大ANI的菌株基因序列挑选出来作为代表菌种的菌株基因组。
5.根据权利要求1-3任意一项所述的方法,其特征在于,基于所述代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标微生物步骤包括:
将待识别的微生物菌株或菌种的测序片段与所述代表菌株或菌种的特异区段库进行比对,识别目标菌株或目标菌种;
或,将代表菌株或代表菌种的特异区段的序列信息作为生物探针检测目标菌株或目标菌种;
或,根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,筛选出目标菌株或菌种;
或,根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;结合代表菌株或代表菌种的特异区段的长度,计算各菌株的相对丰度;根据各菌株的相对丰度,筛选出目标菌株或菌种;
或,将宏基因组测序片段(reads)作为输入,利用序列比对工具将输入序列与所述代表基因组库进行比对;在比对结果中,保留能特异比对到所述特异区段库的测序片段(reads)和/或保留能特异比对到代表菌株的特异区段库测序片段的位置区段,并结合各个所述代表菌株的特异区段的长度,计算各菌株的相对丰度,筛选出目标菌株或菌种;其中,序列比对工具优选为Bowtie2;
或,根据宏基因组测序数据和代表菌株或代表菌种的特异区段库之间的比对信息;保留能特异比对到所述特异区段库的测序片段(reads)和/或保留能特异比对到所述特异区段库测序片段的位置区段,并结合代表基因组特异区段的长度,计算各菌株的相对丰度的步骤优选地包括:将宏基因组测序片段(reads)作为输入,直接与所述特异区段库进行比对;
优选地,所述宏基因组的样本来源为非自然环境样本或自然环境样本;
优选地,所述非自然环境样本为来自动物体的微生物群、来自植物体的微生物群、来自药物的微生物群、来自肥料的微生物群或来自食品的微生物群;所述自然环境样本为来自土壤、水体或空气的样本;
优选地,所述来自动物体的微生物群为来自人肠道的微生物群、人胃部的微生物群、鼻腔的微生物群、耳道的微生物群、眼睛的微生物群、皮肤的微生物群、人口腔的微生物群或人生殖道的微生物群;
优选地,所述自然环境样本为来自施加菌肥后的土壤、施加农药后的土壤、生活污水或工业污水。
6.根据权利要求5所述的方法,其特征在于,所述对微生物基因组进行聚类分析是以ANI的阈值为95%或99%进行聚类;
优选地,以ANI≥99%的菌株作为相同的菌株簇的聚类;
优选地,以ANI≥95%的菌株作为相同物种的菌株进行聚类。
7.根据权利要求1-3及权利要求6任意一项所述的方法,其特征在于,所述获得微生物基因组序列,构建微生物基因序列数据库包括:根据如下至少一种的数据库获得微生物基因组序列:
人肠道微生物基因组序列数据库、农业微生物序列数据库、微生物资源平台采集得到的微生物并对其进行测序得到的基因组序列、农业菌肥微生物序列数据库、菌药微生物序列数据库、污水处理微生物序列数据库和食品微生物领域数据。
8.一种微生物识别的装置,其特征在于,其包括:微生物基因序列数据库构建单元、微生物基因组聚类单元、代表菌株或代表菌种选择单元、代表菌株或代表菌种的特异区段库构建单元、菌种或菌株识别单元;
所述微生物基因序列数据库构建单元获得微生物基因组序列,构建微生物基因组序列数据库;
所述微生物基因组聚类单元对微生物基因组按照设定的阈值进行聚类分析;
所述代表菌株或代表菌种选择单元选出聚类后各类代表菌株的代表基因组或选择出代表菌种的代表基因组,组成代表基因组库;
所述代表菌株或代表菌种的特异区段库构建单元将代表菌株或代表菌种的基因组库的测序片段(reads)通过特异性比对得到特异区段,将获得的各菌株或菌种的特异区段构建代表菌株或菌种的特异区段库;
菌种或菌株识别单元基于所述代表菌株或代表菌种的特异区段库,通过序列比对或作为生物探针识别目标菌株或菌种;
优选地,所述微生物基因序列数据库构建单元构建如权利要求7所述的微生物基因序列数据库;
优选地,所述微生物基因组聚类单元以ANI的阈值为95%或99%进行聚类;优选地,以ANI≥99%的菌株作为相同的菌株簇的聚类;以ANI≥95%的菌株作为相同物种的菌株进行聚类;
优选地,所述代表菌株或代表菌种选择单元构建权利要求4所述的代表基因组库;
优选地,所述代表菌株或代表菌种的特异区段库构建单元进一步为构建如权利要求2或3所述的代表菌株或代表菌种的特异区段库;
优选地,所述菌种或菌株识别单元按权利要求5所述的方法筛选出目标菌株或菌种。
9.一种微生物菌株识别设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现权利要求1-7中任一项所述的微生物识别的方法;
优选地,所述设备还包括用于进行数据通信的通信装置;
优选地,所述通信装置包括输入装置和输出装置。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-7中任一项所述的微生物识别的方法。
CN202210784883.4A 2022-06-29 2022-06-29 一种微生物识别的方法、识别装置及相关设备 Pending CN115148288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210784883.4A CN115148288A (zh) 2022-06-29 2022-06-29 一种微生物识别的方法、识别装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210784883.4A CN115148288A (zh) 2022-06-29 2022-06-29 一种微生物识别的方法、识别装置及相关设备

Publications (1)

Publication Number Publication Date
CN115148288A true CN115148288A (zh) 2022-10-04

Family

ID=83409776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210784883.4A Pending CN115148288A (zh) 2022-06-29 2022-06-29 一种微生物识别的方法、识别装置及相关设备

Country Status (1)

Country Link
CN (1) CN115148288A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115852001A (zh) * 2022-11-23 2023-03-28 深圳海关动植物检验检疫技术中心 一种小麦病原菌检测方法及其应用
CN116153410A (zh) * 2022-12-20 2023-05-23 瑞因迈拓科技(广州)有限公司 微生物基因组参考数据库及其构建方法和应用

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115852001A (zh) * 2022-11-23 2023-03-28 深圳海关动植物检验检疫技术中心 一种小麦病原菌检测方法及其应用
CN116153410A (zh) * 2022-12-20 2023-05-23 瑞因迈拓科技(广州)有限公司 微生物基因组参考数据库及其构建方法和应用
CN116153410B (zh) * 2022-12-20 2023-12-19 瑞因迈拓科技(广州)有限公司 微生物基因组参考数据库及其构建方法和应用

Similar Documents

Publication Publication Date Title
CN111009286B (zh) 对宿主样本进行微生物分析的方法和装置
CN115148288A (zh) 一种微生物识别的方法、识别装置及相关设备
US20190295687A1 (en) Method and system for genome identification
CN110770838B (zh) 用于确定体细胞突变克隆性的方法和系统
CN110800063A (zh) 使用无细胞dna片段大小检测肿瘤相关变体
CN107077537A (zh) 用短读测序数据检测重复扩增
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
US20200234793A1 (en) Systems and methods for metagenomic analysis
JPH11501741A (ja) 微生物学的データを保存し解析するコンピュータシステム
US20210310067A1 (en) Methods and systems for monitoring organ health and disease
Wright et al. Stochastic exits from dormancy give rise to heavy‐tailed distributions of descendants in bacterial populations
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
JP2022522565A (ja) 短タンデム反復領域の変動を決定するための配列グラフ系ツール
US20210366569A1 (en) Limit of detection based quality control metric
Koshiishi et al. A simplified protocol for molecular sexing in the emu (Dromaius novaehollandiae)
CN114974432A (zh) 一种生物标志物的筛选方法及其相关应用
Kumar et al. Role of Genomics in Smart Era and Its Application in COVID‐19
CN114496089B (zh) 一种病原微生物鉴定方法
CN117690485B (zh) 用于寄生虫鉴定的基因组的处理方法和处理装置
CN115019892B (zh) 环境微生物群宏基因组测序中序列覆盖度的置信测定方法
RU2818052C2 (ru) Способы и системы мониторинга состояния здоровья и патологии органов
Kowarsky et al. Humans are colonized by many uncharacterized and highly divergent microbes
Pranckeviciene Bioinformatics Tools for the Analysis of Gene-Phenotype Relationships Coupled with a Next Generation ChIP-Sequencing Data Analysis Pipeline
CN117198401A (zh) 一种基于信息熵的基因表达模式发现系统及方法
CN116030881A (zh) 基于人工智能的基因及基因簇功能预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination