CN111816258A

CN111816258A - 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法

Info

Publication number: CN111816258A
Application number: CN202010700488.4A
Authority: CN
Inventors: 金谷雷; 牛耀芳
Original assignee: Hangzhou Guhe Information Technology Co ltd
Current assignee: Hangzhou Guhe Information Technology Co ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-23
Anticipated expiration: 2040-07-20
Also published as: CN111816258B

Abstract

本发明公开了一种人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，包括以下步骤：1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库；2)、提取人体宏基因组菌基因组数据库的全长16S rDNA序列，建立不同人体部位的16S rDNA物种注释数据库；3)、建立样本‑菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型。本发明还同时提供了利用构建所得的数据库和模型，对高通量测序16S rDNA序列进行物种鉴定和丰度计算的方法。本发明能大大提高16S rDNA的物种分类分辨率和准确度，使分析者能够根据结果找到更加准确和明确的菌种。

Description

人体菌群16S rDNA高通量测序物种精确鉴定的优化方法

技术领域

本发明属于分子生物学、医学领域；尤其涉及一种针对人体菌群16S rDNA高通量测序物种精确鉴定的优化方法。

背景技术

随着测序技术的成熟和成本的下降，人体微生物菌群相关的研究发现和累积了越来越多的菌群测序数据，并获得了大量菌群构成以及与人体健康、疾病和生活状态的相关数据。其中16S rDNA测序作为细菌和古细菌的通用序列，其测序成本低，通用性好，对样本要求低，因此成为菌群研究的中的主要研究技术手段。16S rRNA是细菌中的主要核糖体RNA，对应于基因组DNA上的一段基因序列成为16S rDNA。16S rDNA鉴定是指利用细菌16SrDNA序列测序的方法对细菌进行种属鉴定，包括细菌基因组DNA提取、16S rDNA特异性引物PCR扩增、DNA产物纯化以及DNA测序和序列比对等步骤，可以快速获得细菌种属的信息。16SrDNA普遍存在于原核生物中，在进化中演变极慢，具有多个高度保守的序列，也存在相对中度保守和可变的序列区域，可以通过序列的差异变化来对进化距离不同的各类生物进行亲缘关系的研究。16S rDNA全长大约1540个核苷酸，存在9个可变区域，目前的高通量测序既可对全长也可对其中的一个或多个可变区进行扩增测序，利用可变区序列的差异来对不同菌属、菌种细菌进行分类鉴定。

现有的16S rDNA高通量测序分析方法中普遍采用与数据库直接比对，采用97％相似度的种属鉴定，即便采用16S全长测序进行比对，以99％的序列相似度进行种的分类，仍然受限于比对数据库不完整，部分细菌16S多样性不足无法区分，导致相当一部分序列的物种分类普遍只能到属，无法真实有效的鉴定人体中的微生物构成。例如当存在16S序列两个属序列完全相同，无法区分。这种情况在肠杆菌科中较为常见，其中肠杆菌科16S序列异常保守，通常仅能鉴定到科，部分种之间16S序列可能完全相同。如Enterobacter hormaechei和Klebsiella_pneumoniae两个物种的16S序列完全相同，这时常规的通过16S序列比对的方法是无法分辨的，但对此进行区分鉴别在临床中又具有重要意义。另外目前在大量使用的数据库如Greengene，RDP和Silva和NCBI均不是人体特定部位菌群的16S序列数据库，实际上微生物对于环境有着完全不同的适应性，特定环境下的菌群构成和常见菌存在极大的差异，如皮肤和肠道其同一个属的常见菌种完全不同，直接通过序列比对数据库最近似序列通常无法有效区分临近种，但这些种有着完全不同的生态适应特点。另外同一个种的细菌基因组内通常会包含不止一个16S rDNA拷贝，这些16S rDNA之间也是存在序列差异的，理论上这些多个拷贝16S rDNA会同时按基因组中出现的比例等比例出现，基于他们相互比例关系的信息可以用于进一步提高菌种的鉴定分辨率。由于之前对于宏基因组测序数据的缺乏，只有少量细菌基因组参考序列，且缺乏大规模宏基因组样本测序获得的相对丰度信息，以往的16S rDNA序列物种鉴定时无法利用序列构成丰度的相关性信息。

发明内容

本发明要解决的技术问题是提供一种人体菌群16S rDNA高通量测序物种精确鉴定的优化方法。

为了解决上述技术问题，本发明提供一种人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，依次包括以下步骤：

1)、建立基于人体微生物样品的人体宏基因组菌基因组数据库；

2)、提取人体宏基因组菌基因组数据库的全长16S rDNA序列，建立不同人体部位的16S rDNA物种注释数据库；

3)、建立样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型；

即，基于步骤1)和步骤2)中的测序数据构建样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型，利用同一样本中其他明确物种丰度预测判断16S rDNA序列无差异或相同序列相似度但物种注释不同的物种。

具体应用时，还包括如下的步骤4)：

4)、高通量测序16S rDNA序列首先根据样本来源类型与步骤2)中对应的16S物种序列数据库进行序列比对，当出现序列无法区分物种时，将已确定物种的序列及其16SrDNA丰度数据利用步骤3)中的模型预测判断无法区分16S rDNA序列的物种归属。

作为本发明的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法的改进，所述步骤1)包括：

1.1)、获得人体宏基因组测序数据；

1.2)、获得人体病原微生物基因组序列；

1.3)、获得人体宏基因组参考基因组序列；

1.4)、对1.1)所得的来源于人体同一采样部位的人体宏基因组测序数据合并后，进行宏基因组组装、分箱和质量过滤(质量评估)，完整度超过70％且污染少于10％的作为完整基因组；

同一样本来源的完整基因组的fasta序列文件与同一来源的人体宏基因组参考基因组集(根据参考物种样本来源)的fasta序列文件以及全部人体病原微生物基因组的fasta序列文件分别合并成人体各组织部位宏基因组参考序列数据库(即，人体宏基因细菌宏基因数据库)序列文件。

作为本发明的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法的进一步改进，所述步骤1.1)人体宏基因组测序数据来源包括(但不限于以下来源)：

NCBI的sra数据库https://www.ncbi.nlm.nih.gov/sra；

https://www.ebi.ac.uk/metagenomics/；

按照WGS方式对来源于人类同一组织来源的样品进行测序，从而建立基于人体微生物样品的人体宏基因组测序数据库，因此人体宏基因组测序数据符合以下条件：物种为人类，测序方式为WGS(全基因组测序)，有明确样品来源部位；

所述步骤1.2)为下载目前已完成测序的人体病原微生物基因组序列；

目前已完成测序的人体病原微生物基因组(人体病原菌基因组)序列的来源包括(但不限于以下来源)：

https://www.ncbi.nlm.nih.gov/pathogens/；

所述步骤1.3)为下载已有的人体宏基因组参考基因组序列，包括(但不限于以下来源)：

https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/；

https://img.jgi.doe.gov/cgi-bin/m/main.cgi？section＝MetagenomeBins&page＝bindetail&type＝byecosystem&ecosystem＝Host-associated&ecosystem_category＝Human；

ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/hgg_mags.tar.gz；

https://www.ncbi.nlm.nih.gov/nuccore/？term＝482748[BioProject]+AND+wgs+master[prop]；

https://db.cngb.org/search/project/CNP0000126/；

https://www.hmpdacc.org/hmp/catalog/grid.php？dataset＝genomic；

所述步骤1.4)：

宏基因组组装所用软件包括MEGAHIT(优选)、MetaSPAdes、CLC genomics；

分箱所用软件包括MetaWRAP(优选)，MaxBin，MetaBin，VizBin；

质量过滤(质量评估)采用QUEST。

作为本发明的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法的进一步改进，所述步骤2)为：

2.1)、使用软件预测并提取人体宏基因组菌基因组数据库中每个基因组的全长16S rDNA序列，从而建立不同人体部位的16S rDNA序列数据库；所述软件包括RNAmmer，barrnap(优选)；

2.2)、对人体宏基因组菌基因组数据库中每个基因组进行基因组物种注释，所述注释方法为：基于基因组序列kmer的物种注释方法(优选)、标志基因的方法；

2.3)、将步骤2.1)所得的不同人体部位的16S rDNA序列数据库以及步骤2.2)对应所得的基因组物种注释一起构成样本类型特异性16s rDNA数据库；

2.4)、将步骤2.3)所得的样本类型特异性16s rDNA数据库进行16S rDNA序列构建进化树，并标注所有物种序列(按全长，各个可变区)完全相同至99％相似的16S rDNA序列子集；从而获得相应的16s难分辨物种集合。

作为本发明的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法的进一步改进，步骤3)包括：

3.1)、以步骤1.4)构建所得的人体宏基因细菌宏基因数据库作为参考序列；

将步骤1.1)所得的人体宏基因组测序数据中的每个样本与上述参考序列进行序列比对并注释(注释的具体内容为明确各参考序列物种的比对序列丰度)，从而实现样本物种构成丰度；

3.2)、将步骤3.1)所得的样本物种构成丰度与步骤2.3)所得的样本类型特异性16s rDNA数据库将各物种丰度与对应16S rDNA序列相对应，从而实现样本16S rDNA构成丰度；

3.3)、将步骤3.2)所得的样本16S rDNA构成丰度与步骤2.4)所得的16s难分辨物种集合使用机器学习模型，预测难分辨16s可能物种概率；

所述机器学习模型包括(但不限于)决策树模型(优选)、深度神经网络模型(优选)或回归模型。

本发明还提供了利用上述方法构建所得的数据库和模型，对高通量测序16S rDNA序列进行物种鉴定和丰度计算的方法：

为高通量测序16S rDNA序列首先根据样本来源类型与步骤2)中对应的16S物种序列数据库进行序列比对，并利用序列进化树确定所属物种，当出现序列无法区分物种时，将已确定物种的序列及其16S rDNA丰度数据利用步骤3)中的模型预测判断无法区分16SrDNA序列的物种归属和丰度水平。

本发明克服以往和现有16S rDNA高通量测序分析普遍采用与数据库直接比对，受限于比对数据库不完整，无法区分人体特定部位菌群的16S序列和临近种，而且未考虑微生物对环境的不同的生态适应特点和细菌基因组内多个16S rDNA拷贝等缺陷。本发明利用不同人体部位样本数据来确定不同人体部位的生态适应菌及分布，能够直接减少近缘种但生态环境完全不同菌种的干扰，结合菌种生态网络和机器学习模型，可以最大化预测判断部分16S rDNA序列无法区分的物种，从而大大提高了16S rDNA的物种分类分辨率和准确度，使分析者能够根据结果找到更加准确和明确的菌种，这对于推进微生物相关的医疗，卫生和科学研究有重要的意义。

本发明具体如下：

1)、建立基于人体微生物样品的宏基因组测序数据库，并进行宏基因组组装，并单独下载目前已完成测序的人体病原菌基因组序列；

2)、基于组装的宏基因组鉴定物种，并提取其全长16S rDNA序列，建立不同人体部位样本类型对应的16S rDNA的物种注释数据库，并构建序列进化树；

3)、基于步骤1)和步骤2)中的测序数据构建样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型，利用同一样本中其他明确物种丰度预测判断16S rDNA序列无差异或相同序列相似度但物种注释不同的物种；

4)、高通量测序16S rDNA序列首先根据样本来源类型与步骤2)中对应的16S物种序列数据库进行序列比对，并利用序列进化树确定所属物种，当出现序列无法区分物种时，将已确定物种的序列及其16S rDNA丰度数据利用步骤3)中的模型预测判断无法区分16SrDNA序列的物种归属。

上述步骤1)和步骤2)是通过文献和NCBI数据库搜索或自主测序样本数据来进行更新的。步骤3)所述的机器学习模型定期自动训练更新。

本发明的发明点主要体现为(不仅仅为如下)：

1、步骤1)建立基于人体微生物样品数据库需要用宏基因组测序及组装分析，并进行分箱和质量评估。

2、步骤2)基于组装的宏基因组鉴定物种，并提取其全长16S rDNA序列，建立不同人体部位样本类型对应的16S rDNA的物种注释数据库，并构建序列进化树。

3、基于步骤1)和步骤2)中的测序数据构建样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型，利用同一样本中其他明确物种丰度预测判断16S rDNA序列无差异或相同序列相似度但物种注释不同的物种。

作为本发明的前置条件和步骤为：

本发明对人体菌群16S rDNA高通量测序物种精确鉴定的优化方法的前置准备步骤：

1、通过二代或三代高通量测序获得16S rDNA全长或部分区段测序序列；从而获得人体16S rDNA测序数据。

2、样本具备明确样本人体组织部位来源。

相对于现有技术而言，本发明具有如下的技术优势：

1)本方案中利用大量人体样本宏基因组数据单独构建不同组织来源部位的特定细菌物种16S rDNA数据库，极大减少了非特定环境菌属的相似序列干扰，提高了比对效率，在比对率上升的同时提升了比对速率。

2)利用宏基因组测序数据获得的全基因组数据提升16S rDNA序列的物种分类精度，并利用样本内物种16S rDNA丰度数据构建物种16S rDNA相关性数据机器学习模型，该模型可以提取物种的共生网络关系，利用该模型预测判别样本中16S rDNA序列极度相似甚至相同的物种。

3)利用宏基因组细菌参考基因组序列内同一物种多个拷贝16S rDNA的频率信息进一步精细化预测区分16S rDNA相似物种甚至菌株。

4)大量菌群数据显示菌群结构并非一个随机组合，不同菌之间存在相互选择和代谢共生，因此同一个样本内菌群数据中不同菌的构成丰度和组合有其特征性。通过大量宏基因组数据的菌群特征构成丰度数据，经过机器学习模型可以提升部分菌属的16S rDNA的分辨率。

5)通过样本中其他明确菌属的构成丰度，机器学习模型可以检测区分两个菌种的出现概率和丰度情况。

6)、该方法可以不断更新添加新的人体宏基因组测序样本数据，并添加入数据库中，及时更新更完整的物种信息，并更新预测模型提高菌种的分辨率和准确度。

通过本发明的方法(GH16S Precision Species Tool)得到新的数据库和物种分辨模型，共包括75842个16S rDNA序列，包括粪便、皮肤、阴道、口腔、呼吸道等5个样本类型和872个近似16S序列物种分类模型，并可随数据更新获得更加全面和更高分辨率的模型。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1是本发明原理框图。

图2是本发明使用流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例1、一种人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，如图1所述，包括以下步骤：

步骤1)、

1.1)、按照WGS方式对来源于人类同一组织来源的样品进行测序，从而建立基于人体微生物样品的人体宏基因组测序数据库，因此人体宏基因组测序数据符合以下条件：物种为人类，测序方式为WGS(全基因组测序)，有明确样品来源部位。

符合上述要求的人体宏基因组测序数据来源包括但不限于：

NCBI的sra数据库https://www.ncbi.nlm.nih.gov/sra；

https://www.ebi.ac.uk/metagenomics/；

说明：上述两个数据库是已有的宏基因组公开数据存储数据库，可以从上面直接下载获得已公开的已有测序数据。当然也可以自行测序。

1.2)、单独下载目前已完成测序的人体病原微生物基因组(人体病原菌基因组)序列；

目前已完成测序的人体病原微生物基因组(人体病原菌基因组)序列的来源包括但不限于：

https://www.ncbi.nlm.nih.gov/pathogens/；

1.3)、下载已有的人体宏基因组参考基因组序列，包括但不限于以下来源：

https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/；

ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/hgg_mags.tar.gz；

https://db.cngb.org/search/project/CNP0000126/；

https://www.hmpdacc.org/hmp/catalog/grid.php？dataset＝genomic。

1.4)、对步骤1.1)所得的人体宏基因组测序数据按照样本类型合并(所述样本类型是指样本的采样部位类型；因此，当原始数据满足同一采样部位条件时，进行合并)，进行宏基因组组装，即，使用宏基因组组装软件(例如可选用MEGAHIT、MetaSPAdes、CLCgenomics等现有软件，优选MEGAHIT)进行拼接组装，然后使用分箱软件(例如可选用MetaWRAP，MaxBin，MetaBin，VizBin等软件，优选MetaWRAP)进行分箱和使用QUEST进行质量评估(即，进行质量过滤)，完整度超过70％，污染少于10％的作为完整基因组。

将所得的同一样本来源的完整基因组的fasta序列文件与上述1.3)所得的同一来源的人体宏基因组参考基因组集(根据参考物种样本来源)的fasta序列文件以及与上述1.2)所得的全部人体病原微生物基因组的fasta序列文件分别合并成人体各组织部位宏基因组参考序列数据库(即，人体宏基因组细菌基因组数据库)序列文件。

步骤2)、针对步骤1.4)所得的人体各组织部位宏基因组细菌基因组数据库，使用软件(如RNAmmer，barrnap等，优选barrnap)预测并提取每个基因组的全长16S rDNA序列，从而为建立不同人体部位的16S rDNA序列数据库做准备。

基于组装的宏基因组(即，人体宏基因组细菌基因组数据)对每个基因组序列进行物种注释，物种注释可以使用基于基因组序列kmer的物种注释方法和标志基因的方法，优选基于kmer的物种注释方法。

上述对人体宏基因组细菌基因组数据进行16S rDNA序列的预测和序列提取，与对应基因组的物种注释，一起构成样本类型特异性16s rDNA数据库。

将样本类型特异性16s rDNA数据库所有16S rDNA序列构建进化树，并标注所有物种序列(按全长，各个可变区)完全相同至99％相似的16S rDNA序列子集。

如图1所述，例如为16s rDNA序列数据库(口腔)、16s rDNA序列数据库(皮肤)、16srDNA序列数据库(呼吸道)等等。其中粪便样本数据库中获得872个16s难分辨物种集合，包含2632条16S rDNA序列。

说明：单个序列子集的物种丰度数据包括每组相似度99％以上16S rDNA序列的每样本真实物种构成丰度，真实物种构成丰度数据基于上述宏基因组物种注释过程。

步骤3)、建样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型：

为基于步骤1)和步骤2)中的测序数据构建样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型，利用同一样本中其他明确物种丰度预测判断16S rDNA序列无差异或相同序列相似度但物种注释不同的物种；具体如下：

将步骤1.4)中组装获得的参考基因组(人体宏基因组细菌基因组数据)作为参考序列，将步骤1.1)所得的原始数据(人体宏基因组测序数据)根据每个样本比对并注释(方法可以使用软件如：kraken2或CCMetagen等比对软件，优选kraken2，)使用数据库(物种注释用数据库)为NCBI的Refseq99版本全部细菌和古细菌基因组序列，包括完成和部分完成的物种基因组。获得每个样本内的物种丰度(即图1中的序列比对步骤)和对应物种的16S序列丰度(即，获得样本物种构成丰度)。

使用机器学习模型，包括但不限于决策树模型、深度神经网络模型或回归模型，优选决策树和深度神经网络模型优选lightGBM模型，输入明确物种16S rDNA丰度数据(丰度数据包括各个16S rDNA序列在样本中的相对百分比例)和上述步骤2)中的单个难分辨物种序列子集(即序列相似度为99％以上)的宏基因组物种丰度数据，训练预测相似16S序列子集对应物种丰度水平，即，判断样本内99％相似度16S rDNA的对应最大可能物种构成丰度。模型结果仅进行物种判断，当模型预测其中一物种概率超过90％时则判定该16S rDNA序列为该物种，当模型判别概率低于90％则不作判断，以最小共同祖先物种分类为对应物种结果。

通过上述方法(GH16S Precision Species Tool)得到新的数据库和物种分辨模型，共包括75842个16S rDNA序列，包括粪便、皮肤、阴道、口腔、呼吸道等5个样本类型和872个近似16S序列物种分类模型。

至此完成数据库和模型的构建步骤，实际使用可基于该数据库和模型进行后续的比对分析步骤。

实施例2、此为基于上述实施例1的数据库和模型对高通量测序16S rDNA序列进行物种鉴定和丰度计算的使用；具体操作包括如下步骤：

1)、获取样本高通量测序16S rDNA序列：通过二代或三代高通量测序获得16SrDNA全长或部分区段测序序列，然后，依照上述步骤的质检拼接，从而获得人体16S rDNA测序数据。

样本具备明确样本人体组织部位来源。

2)、首先根据样本来源类型与实例1步骤2)中对应的16S物种序列数据库(16srDNA序列数据库)进行序列比对(可使用DADA2或Vsearch等常见16S比对分析软件)，从而获得16S序列丰度；并根据实施例1步骤2数据库中的物种信息获得16S序列物种注释；利用序列进化树确定所属物种(明确物种)；

3)、将步骤2)所得的16S序列丰度中的‘丰度数据’输入至实施例1步骤3)所得的对应物种序列机器学习模型中，且将16S序列物种注释中的‘相似99％以上16s rDNA序列且包含于机器学习模型’也输入至实施例1步骤3)所得的对应物种序列机器学习模型中，该对应物种序列机器学习模型负责进行高相似序列的明确物种鉴别区分处理工作，从而获得高可信度的高相似序列物种鉴定结果。

4)、根据步骤2)所得的物种和步骤3)所得的结果，最终获得‘物种分类及相对丰度’。

本实例选取10个健康人的粪便样本作为人体微生物样品，按照WGS方式进行16SrDNA的V4区高通量测序，每个样本进行10万序列的测序深度，对16S rDNA序列进行常规VSEARCH去重、质控等步骤后通过VSEARCH软件与上述实施例1步骤2)构建的粪便数据库进行比对，并输出物种鉴定和丰度值。提取其中序列数据库最佳比对序列的相似度达到并超过99％且属于实施例1步骤3)模型包括的高相似度序列，将其他确定物种的16S序列及其16S rDNA丰度数据输入步骤3)中对应序列的模型预测其16S rDNA序列的物种概率。

采用与实施例2(称为GH16S)相同的10个健康人的粪便样本测序数据，另外对该10个样本同时进行2x150bp的10G数据量的宏基因组测序用于物种鉴定的对照判别。

具体如下：

对比例1、与完全不采用宏基因组构建的数据库相比，直接使用原始Greengene和SILVA数据库的结果：

对16S rDNA序列进行去重、质控等步骤后(与实施例1相同)，使用Vsearch直接比对上述构建的粪便样本数据库和Greengenes 13.8版本数据库，使用99％的聚类分辨率。

首先，样本特异性数据库相较通用数据库而言，数据量大幅减少，同时降低了临近高相似度序列的可能性，作为比较，Greengenes13.8版本其中直接注释到种的比例仅6.18％，对应GH16S方法中的16S种的注释比例超过85％。同时由于数据库数据量的减少，比对速度大幅提升，数据库比对速度相较Greengenes 13.8提升3倍，相较Silva SSU 132的Ref NR99版本数据库提升120倍。

从(表1)中可以看出，去重后共得到3176个高可信ASVs，其中丰度大于1％以上的序列共148个。从表1中可以看出，本发明的GH16S方法相较Greengenes 13-8版本数据库方法在序列物种分类分辨率上大幅提高，在种的分类水平上可分类序列数量大幅提升，种注释比例从Greengenes的5％上升到了94％，其中GH16S方法鉴定的1％丰度以上种在宏基因组中对应种的验证率超过97.9％。

其中有213(8％)的ASVs的16S序列是经过模型预测并确定物种，其中1％丰度以上的有23个，仅1个物种预测错误，且为同一属的近缘物种。

表1、本发明GH16S方法改进与Greengenes的区别

对比例2、取消实施例1步骤1)和步骤2)中的“样本来源分组”的使用，即，对实施例1作如下更改：不再进行样本来源区分，将所有来源样本数据合并构建单一数据库。其中比对时间变为GH16S的4倍，从表2中看出，单一数据库较GH16S在比对率和属的鉴定上有些许提升，但种的鉴定和1％以上种鉴定准确度下降较大，主要是由于不同来源生态条件下的近缘种的干扰。

表2、本发明GH16S方法改进与不分样本来源数据库的区别

最后，还需要注意的是，以上列举的仅是本发明的若干个具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，其特征是包括以下步骤：

2)、提取人体宏基因组菌基因组数据库的全长16S rDNA序列，建立不同人体部位的16SrDNA物种注释数据库；

3)、建立样本-菌种16S序列丰度相关性网络，并利用该数据训练机器学习模型。

2.根据权利要求1所述的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，其特征是：所述步骤1)包括：

1.1)、获得人体宏基因组测序数据；

1.2)、获得人体病原微生物基因组序列；

1.3)、获得人体宏基因组参考基因组序列；

1.4)、对1.1)所得的来源于人体同一采样部位的人体宏基因组测序数据合并后，进行宏基因组组装、分箱和质量过滤，完整度超过70％且污染少于10％的作为完整基因组；

同一样本来源的完整基因组的fasta序列文件与同一来源的人体宏基因组参考基因组集的fasta序列文件以及全部人体病原微生物基因组的fasta序列文件分别合并成人体各组织部位宏基因组参考序列数据库序列文件。

3.根据权利要求2所述的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，其特征是：

所述步骤1.1)人体宏基因组测序数据来源包括：

NCBI的sra数据库https://www.ncbi.nlm.nih.gov/sra；

https://www.ebi.ac.uk/metagenomics/；

按照WGS方式对来源于人类同一组织来源的样品进行测序，从而建立基于人体微生物样品的人体宏基因组测序数据库，因此人体宏基因组测序数据符合以下条件：物种为人类，测序方式为WGS，有明确样品来源部位；

目前已完成测序的人体病原微生物基因组序列的来源包括：

https://www.ncbi.nlm.nih.gov/pathogens/；

所述步骤1.3)为下载已有的人体宏基因组参考基因组序列，包括：

https://data.ace.uq.edu.au/public/gtdb/data/releases/release89/89.0/；

ftp://ftp.ebi.ac.uk/pub/databases/metagenomics/hgg_mags.tar.gz；

https://db.cngb.org/search/project/CNP0000126/；

https://www.hmpdacc.org/hmp/catalog/grid.php？dataset＝genomic；

所述步骤1.4)：

宏基因组组装所用软件包括MEGAHIT、MetaSPAdes、CLC genomics；

分箱所用软件包括MetaWRAP，MaxBin，MetaBin，VizBin；

质量过滤采用QUEST。

4.根据权利要求1～3任一所述的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，其特征是所述步骤2)为：

2.1)、使用软件预测并提取人体宏基因组菌基因组数据库中每个基因组的全长16SrDNA序列，从而建立不同人体部位的16S rDNA序列数据库；所述软件包括RNAmmer，barrnap；

2.2)、对人体宏基因组菌基因组数据库中每个基因组进行基因组物种注释，所述注释方法为：基于基因组序列kmer的物种注释方法、标志基因的方法；

2.4)、将步骤2.3)所得的样本类型特异性16s rDNA数据库进行16S rDNA序列构建进化树，并标注所有物种序列完全相同至99％相似的16S rDNA序列子集；从而获得相应的16s难分辨物种集合。

5.根据权利要求4所述的人体菌群16S rDNA高通量测序物种精确鉴定的优化方法，其特征是：所述步骤3)包括：

将步骤1.1)所得的人体宏基因组测序数据中的每个样本与上述参考序列进行序列比对并注释，从而实现样本物种构成丰度；

3.2)、将步骤3.1)所得的样本物种构成丰度与步骤2.3)所得的样本类型特异性16srDNA数据库将各物种丰度与对应16S rDNA序列相对应，从而实现样本16S rDNA构成丰度；

所述机器学习模型包括决策树模型、深度神经网络模型或回归模型。

6.利用如权利要求1～5任一方法构建所得的数据库和模型，对高通量测序16S rDNA序列进行物种鉴定和丰度计算的方法，其特征是：

为高通量测序16S rDNA序列首先根据样本来源类型与步骤2)中对应的16S物种序列数据库进行序列比对，并利用序列进化树确定所属物种，当出现序列无法区分物种时，将已确定物种的序列及其16S rDNA丰度数据利用步骤3)中的模型预测判断无法区分16S rDNA序列的物种归属和丰度水平。