CN111951895B

CN111951895B - 基于宏基因组学的病原分析方法、分析装置、设备及存储介质

Info

Publication number: CN111951895B
Application number: CN202010656441.2A
Authority: CN
Inventors: 张鑫磊; 王勇强; 陈俊如
Original assignee: Suzhou Geneworks Technology Co ltd
Current assignee: Suzhou Geneworks Technology Co ltd
Priority date: 2020-07-09
Filing date: 2020-07-09
Publication date: 2023-12-26
Anticipated expiration: 2040-07-09
Also published as: CN111951895A

Abstract

本发明涉及一种基于宏基因组学的病原分析方法、分析装置、设备及存储介质。本发明所提出的基于宏基因组学的自动化病原分析方法，一方面整合优化了数据分析方法流程和工具，对病原鉴定过程进行标准化，能够大幅提速数据分析时间，缩减临床检测周期，实现快速检测。另一方面平台通过建立微生物参考序列数据库和病原信息库，综合评估参数和证据等级来有效区分病原菌与背景菌，可有效防止因未覆盖而导致的漏检，进一步提升临床检测结果的参考意义和可解读性。

Description

基于宏基因组学的病原分析方法、分析装置、设备及存储介质

技术领域

本发明涉及生物信息学技术领域，特别是涉及一种基于宏基因组学的病原分析方法、分析装置、设备及存储介质。

背景技术

宏基因组测序(metagenomic next-generation sequencing,mNGS)是综合分析来自患者样本的微生物和宿主的基因物质(DNA和RNA)的方法，应用于多种感染性疾病的诊断、疾病和健康状态下病原微生物分析。其检测通量高，靶标涵盖几乎所有潜在病原，非常适合发现新发病原体和不明感染源。mNGS以无需纯化培养、全面快速检测样本中的所有潜在病原体在相关领域得到认可，同时mNGS具有更高的病原体鉴定灵敏度，受抗生素的影响较小。因此，mNGS对检测传染性病原体具有重要的潜力及实用意义。

虽然mNGS已经在相关应用中取得不错的成绩，但是要提供“一站式”成熟的解决方案，传统的mNGS在实验重复性、结果可靠性及解读准确性方面仍然存在不足，对mNGS的标准化造成障碍。

发明内容

基于此，有必要提供一种重复性、可靠性和准确性较好的基于宏基因组学的病原分析方法。

一种基于宏基因组学的病原分析方法，包括以下步骤：

步骤S1：根据待测样品的测序数据获取序列信息；

步骤S2：对所述序列信息进行质控分析，去除质量不合格的序列和宿主序列，得到目标序列数据；

步骤S3：基于微生物参考序列数据库，从所述目标序列数据中分析得到微生物物种分类数据；

步骤S4：基于病原信息库，从所述微生物物种分类数据中分析得到与疾病相关的病原数据；

步骤S5：根据所述病原数据输出所述待测样品的病原检测结果。

在其中一个实施例中，所述步骤S2包括以下步骤：

步骤S21：从所述测序数据中识别并去除碱基错误率大于1％的序列，得到合格序列数据；

步骤S22：从所述合格序列数据中识别并去除宿主序列，得到所述目标序列数据。

在其中一个实施例中，所述步骤S3包括以下步骤：

步骤S31：将所述目标序列数据与所述微生物参考序列数据库进行比对，得到第一比对结果；

步骤S32：按照一致性大于90％、覆盖度大于90％且比对分值小于最优分值的110％的标准对所述第一比对结果进行过滤，得到第二比对结果；

步骤S33：根据所述第二比对结果的基因信息标识编号获取对应的物种编号，并根据物种编号获取物种注释信息，然后对所述第二比对结果中的每条序列进行物种鉴定；

步骤S34：分别统计每一个分类层级上鉴定到的每一种微生物的序列数目，作为该微生物的初始丰度值；

步骤S35：矫正每一种微生物的所述初始丰度值。

在其中一个实施例中，在步骤S33中采用LCA算法进行物种鉴定，和/或在步骤S35中采用RPM算法矫正所述初始丰度值。

在其中一个实施例中，所述步骤S4包括以下步骤：

步骤S41：将每一种微生物的物种名称与所述病原信息库进行比对，确认该微生物是否属于病原；

步骤S42：将确认为病原的微生物按照以下标准进行过滤：对于鉴定为RNA病毒的微生物，其序列数目需≥3；对于鉴定为DNA病毒、细菌、古菌、真菌或寄生虫的微生物，其RPMratio需≥10。

在其中一个实施例中，还包括以下步骤：

步骤S5：对所述微生物物种分类数据或所述病原数据进行深度分析，所述深度分析包括微生物多样性分析、多样品比较分析、关联分析、显著差异物种分析和耐药基因鉴定中的一种或多种。

在其中一个实施例中，还包括以下步骤：

步骤S6：根据所述病原数据生成可视化数据，所述可视化数据包括病原丰度饼图、测序覆盖度展示图和序列一致性展示图中的一种或多种。

在其中一个实施例中，还包括以下步骤：

步骤S7：定期查询公共数据库中新增或修改的数据，并对应更新本地的所述微生物参考序列数据库和所述病原信息库。

在其中一个实施例中，所述步骤S7包括以下步骤：

步骤S71：定期查询公共序列数据库中新增或修改的序列数据并下载到本地；

步骤S72：从已下载的序列数据中分离出微生物参考序列，并写入所述微生物参考序列数据库中；

步骤S73：定期查询公共病原信息库中新增或修改的数据，并写入所述病原信息库中。

在其中一个实施例中，所述步骤S72包括以下步骤：

步骤S721：从NCBI中获取GI编号与物种编号对应表、物种编号与物种名称对应表和物种编号与上一层级物种编号对应表；

步骤S722：根据已下载序列数据的GI编号获取对应的物种编号，并根据物种编号获取对应的物种分类信息；

步骤S723：根据所述物种分类信息保留已下载序列数据中属于细菌、古菌、真菌、病毒、寄生虫的序列数据。

本发明还提供了一种基于宏基因组学的病原分析装置，包括：

数据识别模块，用于根据待测样品的测序数据获取序列信息；

数据质控模块，用于对所述序列信息进行质控分析，去除质量不合格的序列和宿主序列，得到目标序列数据；

微生物鉴定模块，用于基于微生物参考序列数据库，从所述目标序列数据中分析得到微生物物种分类数据；

病原鉴定模块，用于基于病原信息库，从所述微生物物种分类数据中分析得到与疾病相关的病原数据；及

报告模块，用于根据所述病原数据输出所述待测样品的病原检测结果。

本发明还提供了一种计算机设备，具有处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述的病原分析方法的步骤。

本发明还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上所述的病原分析方法的步骤。

本发明所提出的基于宏基因组学的自动化病原分析方法，一方面整合优化了数据分析方法流程和工具，对病原鉴定过程进行标准化，能够大幅提速数据分析时间，缩减临床检测周期，实现快速检测。另一方面平台通过建立微生物参考序列数据库和病原信息库，综合评估参数和证据等级来有效区分病原菌与背景菌，可有效防止因未覆盖而导致的漏检，进一步提升临床检测结果的参考意义和可解读性。本发明将推动mNGS检测病原体的标准化，为突发性不明病原体感染性疾病提供快速有效的检测。同时可以和医院已有测序仪进行整合，打破传统的医院需将mNGS检测数据分析外包给技术服务公司进行分析的模式，院内即可实现数据分析，缩短报告时间，提升检测效率，同时还避免了医院原始信息和数据的外流，也可基于数据挖掘产出更多有临床价值的科研成果。

附图说明

图1为一实施例的病原分析方法的流程示意图；

图2为一实施例的病原分析装置的结构示意图；

图3为实施例1数据集的部分测序序列和微生物参考序列数据库的比对结果；

图4为实施例1数据集的部分物种鉴定结果；

图5为实施例1数据集的部分病原鉴定结果；

图6为实施例1的微生物多样性分析结果；

图7为实施例1的显著差异物种分析的LDA值分布柱状图；

图8为实施例1的显著差异物种分析的进化分支图；

图9为实施例1的多样品比较分析的物种组成柱状图；

图10为实施例1的多样品比较分析的样品间物种分布韦恩图；

图11为实施例1的关联分析结果；

图12为实施例1的耐药基因鉴定结果；

图13为实施例1的物种注释比例图；

图14为实施例1的病毒注释比例图；

图15为实施例1的一选定的特殊病毒的序列在病毒基因组上的测序深度及覆盖度分布图；

图16为实施例1的一选定的特殊病毒的序列在病毒基因组上的比对identity分布图；

图17为实施例2分别采用本发明的病原分析方法和传统mNGS方法对一例已知理论微生物组成的样本进行检测的分析结果。

具体实施方式

为了便于理解本发明，下面将对本发明进行更全面的描述，并给出了本发明的较佳实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

本文中的所述的“read”是指高通量测序平台(如各类二代测序平台)所产生的测序序列；所述的“测序覆盖度”是指一个测序位点覆盖的read数；所述的测序“深度”是指测序得到的总碱基数与待测基因组大小的比值，通常用单位“×”表示倍数；所述的“比对分值”是指序列比对的打分机制，反应序列比对到基因组上的质量，比对分值越高，序列比对到基因组上的准确率越高；

如图1所示，本发明一实施例的基于宏基因组学的病原分析方法，包括以下步骤S1～S5：

步骤S1、根据待测样品的测序数据获取序列信息。

步骤S2、对序列信息进行质控分析，去除质量不合格的序列和宿主序列，得到目标序列数据。

步骤S3、基于微生物参考序列数据库，从目标序列数据中分析得到微生物物种分类数据。

步骤S4、基于病原信息库，从微生物物种分类数据中分析得到与疾病相关的病原数据。

步骤S5、根据病原数据输出待测样品的病原检测结果。

可以理解，微生物参考序列数据库中含有微生物序列信息和对应物种分类信息，病原信息库中含有病原微生物及其致病的相关信息。可以理解，本发明的病原分析方法也可用于非疾病的诊断和治疗目的，例如植物样本、食物样本或环境样本的病原分析等。可以理解，待测样品可以是包含一种或多种微生物的任何样品，或者是需要阐明微生物种类的某个样品，可以是生物样品，比如来自人或动物的临床样品，或者环境样品，比如从水、土壤、空气、建筑物和设备得到的样品。

在一个具体示例中，根据待测样品的测序数据识别测序仪器及测序序列的长度，从而获取序列信息。在一个具体示例中，测序数据为FASTQ格式，FASTQ格式文件中每条序列由四行构成。其中，第一行以@符号开头，为序列头部信息，第二行为碱基序列，第四行为各碱基对应的质量值。如表1所示，识别序列头部信息中包含的仪器编号信息，并判断序列的测序仪器平台，通过第二行及第四行的长度，识别测序序列的长度。

表1仪器编号和测序仪器平台对应表

在一个具体示例中，步骤S2包括以下步骤S21～S22：

步骤S21、从测序数据中识别并去除碱基错误率大于1％的序列，得到合格序列数据。

步骤S22、从合格序列数据中识别并去除宿主序列，得到目标序列数据。具体地，采用Soap软件和宿主参考基因组序列(例如人参考基因组序列)进行比对，比对参数中，s设置为测序序列长度的90％，l设置为30，v设置为7，m设置为200，x设置为400；比对完成后，去除比对上宿主参考基因组序列的测序数据，保留未比对上的测序数据进行后续分析。

在一个具体示例中，步骤S3包括以下步骤S31～S35：

步骤S31、将目标序列数据与微生物参考序列数据库进行比对，得到第一比对结果。优选地，采用blast软件进行比对。

步骤S32、按照一致性(identity)大于90％、覆盖度(coverage)大于90％且比对分值(score)小于最优分值的110％的标准对第一比对结果进行过滤，得到第二比对结果。

步骤S33、根据第二比对结果的基因信息标识编号(GI编号)获取对应的物种编号，并根据物种编号获取物种注释信息，然后对第二比对结果中的每条序列进行物种鉴定。具体地，通过比对结果的GI编号，可以唯一映射到NCBI taxonomy库中的物种编号，通过物种编号，可以获取该物种编号在界门纲目科属种等不同物种分类层级上的物种注释信息，获取物种注释信息后，采用LCA(Least Common Ancestors)算法，对每条比对上的序列进行物种鉴定。

步骤S34、分别统计每一个分类层级上鉴定到的每一种微生物的序列数目，作为该微生物的初始丰度值。即按照界门纲目科属种这七个分类层级，分别统计每一个分类层级上，鉴定到每一种微生物的序列数目，作为每一种微生物的初始丰度值。

步骤S35、矫正每一种微生物的初始丰度值。具体地，采用RPM算法，矫正公式为：

RPM＝MappedReads×10⁶/TotalMappedReads

其中，MappedReads指的是比对上该微生物的序列数目，TotalMappedReads指的是比对上所有微生物的序列数目。

在一个具体示例中，步骤S4包括以下步骤S41～S42：

步骤S41、将每一种微生物的物种名称与病原信息库进行比对，确认该微生物是否属于病原。

步骤S42、将确认为病原的微生物按照以下标准进行过滤：对于鉴定为RNA病毒的微生物，其序列数目需≥3；对于鉴定为DNA病毒、细菌、古菌、真菌或寄生虫的微生物，其RPMratio需≥10。RPM ration计算公式为：

RPM ratio＝RPM/NTC

其中，RPM指的是某一病原微生物的RPM值(Reads/Counts of microorganism perMillion mapped reads)，NTC指的是阴性质控样品中同一病原微生物的RPM值。

在一个具体示例中，本发明的病原分析方法还包括以下步骤：

步骤S5、对微生物物种分类数据或病原数据进行深度分析，深度分析包括微生物多样性分析、多样品比较分析、关联分析、显著差异物种分析和耐药基因鉴定中的一种或多种。

具体地，微生物多样性分析是指基于微生物丰度数据，进行微生物多样性指数计算及展示，包括Observed species指数、Shannon指数、Chao指数和Simpson指数等；多样品比较分析是指比较并展示不同样品的微生物和病原鉴定结果的差异；关联分析是指将微生物或病原的丰度变化和样品临床指标、免疫指标测量结果等，进行斯皮尔曼相关性分析；显著差异物种分析是指基于多个样品的物种鉴定结果，采用秩和检验及FDR矫正算法，以adjusted p value<0.05，筛选出组间具有显著差异的物种；耐药基因鉴定是指采用Blast软件默认参数，将病原序列和耐药基因数据库(CARD)进行比对，获取耐药基因鉴定结果。

步骤S6、根据病原数据生成可视化数据，可视化数据包括病原丰度饼图、测序覆盖度展示图和序列一致性展示图中的一种或多种。

步骤S7、定期查询公共数据库中新增或修改的序列数据，并对应更新本地的微生物参考序列数据库和病原信息库。此外，可根据需要将更新信息记录到日志文件中。

在一个具体示例中，步骤S7包括以下步骤S71～S73：

步骤S71、定期查询公共数据库如NCBI中新增或修改的序列数据并下载到本地。同时，可根据需要将数据整理并转化为本地数据库需要的格式。

步骤S72、从已下载的序列数据中分离出微生物参考序列，并写入微生物参考序列数据库中。

步骤S73、根据公共病原信息库如PharmacomMicrobiomicsM对病原信息库进行新增或修改。可以理解，也可通过人工增加修订。

在一个具体示例中，步骤S72包括以下步骤：

步骤S721、从NCBI中获取GI编号与物种编号对应表、物种编号与物种名称对应表和物种编号与上一层级物种编号对应表；

步骤S722、根据已下载序列数据的GI编号获取对应的物种编号，并根据物种编号获取对应的物种分类信息。

步骤S723、根据物种分类信息保留已下载序列数据中属于细菌、古菌、真菌、病毒、寄生虫的序列数据。

基于与上述方法相同的思想，如图2所示，本发明还提供了一种基于宏基因组学的病原分析装置100，其包括数据识别模块10、数据质控模块20、微生物鉴定模块30、病原鉴定模块40和报告模块50。

其中，数据识别模块10用于根据待测样品的测序数据获取序列信息。数据质控模块20用于对序列信息进行质控分析，去除质量不合格的序列和宿主序列，得到目标序列数据。微生物鉴定模块30用于基于微生物参考序列数据库，从目标序列数据中分析得到微生物物种分类数据。病原鉴定模块40用于基于病原信息库，从微生物物种分类数据中分析得到与疾病相关的病原数据。报告模块50用于根据病原数据输出待测样品的病原检测结果。

在一个具体示例中，数据质控模块20包括低质序列识别单元和宿主序列识别单元。其中，低质序列识别单元用于从测序数据中识别并去除碱基错误率大于1％的序列，得到合格序列数据；宿主序列识别单元用于从合格序列数据中识别并去除宿主序列，得到目标序列数据。

在一个具体示例中，微生物鉴定模块30包括微生物比对单元、微生物过滤单元、物种鉴定单元、丰度分析单元和丰度矫正单元。其中，微生物比对单元用于将目标序列数据与微生物参考序列数据库进行比对，得到第一比对结果；微生物过滤单元用于根据identity大于90％、coverage大于90％且score小于最优score的110％的标准对第一比对结果进行过滤，得到第二比对结果；物种鉴定单元用于根据第二比对结果的GI编号获取对应的物种编号，并根据物种编号获取物种注释信息，然后对第二比对结果中的每条序列进行物种鉴定；丰度分析单元用于分别统计每一个分类层级上鉴定到的每一种微生物的序列数目，作为该微生物的初始丰度值；丰度矫正单元用于矫正每一种微生物的初始丰度值。

在一个具体示例中，病原鉴定模块40包括病原比对模块和病原过滤模块。其中，病原比对模块用于将每一种微生物的物种名称与病原信息库进行比对，确认该微生物是否属于病原；病原过滤模块用于将确认为病原的微生物按照以下标准进行过滤：对于鉴定为RNA病毒的微生物，其序列数目需≥3；对于鉴定为DNA病毒、细菌、古菌、真菌或寄生虫的微生物，其RPM ratio需≥10。

在一个具体示例中，病原分析装置100还包括深度分析模块60，用于对微生物物种分类数据或病原数据进行深度分析，深度分析包括微生物多样性分析、多样品比较分析、关联分析、显著差异物种分析和耐药基因鉴定中的一种或多种。可选地，深度分析模块60包括多样性分析单元、多样品比较分析单元、关联分析单元、显著差异物种分析单元和耐药基因鉴定单元中的一种或多种。

在一个具体示例中，病原分析装置100还包括可视化模块70，用于根据病原数据生成可视化数据，可视化数据包括病原丰度饼图、测序覆盖度展示图和序列一致性展示图中的一种或多种。可选地，可视化模块70包括丰度饼图单元、覆盖度展示图单元和一致性展示图单元中的一种或多种。

在一个具体示例中，病原分析装置100还包括更新模块，用于定期查询公共数据库中新增或修改的序列数据，并对应更新本地的微生物参考序列数据库和病原信息库。

在一个具体示例中，更新模块包括序列下载单元、微生物序列分离单元和病原信息更新单元。其中，序列下载单元用于定期查询公共序列数据库中新增或修改的序列数据并下载到本地；微生物序列分离单元用于从已下载的序列数据中分离出微生物参考序列，并写入微生物参考序列数据库中；病原信息更新单元用于定期查询公共病原信息库中新增或修改的序列数据，并写入病原信息库中。

在一个具体示例中，微生物序列分离单元包括对应信息获取元件、物种分类元件和分离元件。其中，对应信息获取元件用于从NCBI中获取GI编号与物种编号对应表、物种编号与物种名称对应表和物种编号与上一层级物种编号对应表；物种分类元件用于根据已下载序列数据的GI编号获取对应的物种编号，并根据物种编号获取对应的物种分类信息；分离元件用于根据物种分类信息保留已下载序列数据中属于细菌、古菌、真菌、病毒、寄生虫的序列数据。

基于如上所述的实施例，本发明还提供了一种计算机设备，具有处理器和存储器，存储器上存储有计算机程序，处理器执行该计算机程序时实现上述任一实施例的病原分析方法的步骤。

本领域普通技术人员可以理解实现上述方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

据此，本发明还提供了一种计算机存储介质，其上存储有计算机程序，计算机程序被执行时实现上述任一实施例的病原分析方法的步骤。

本发明的病原分析装置、计算机设备及计算及存储介质，一方面整合优化了数据分析方法流程和工具，可自动识别不同测序仪器的测序数据，对病原鉴定过程进行标准化，能够大幅提速数据分析时间，缩减临床检测周期，实现快速检测。另一方面平台通过建立微生物参考序列数据库和病原信息库，综合评估参数和证据等级来有效区分病原菌与背景菌，可有效防止因未覆盖而导致的漏检，进一步提升临床检测结果的参考意义和可解读性。本发明将推动mNGS检测病原体的标准化，为突发性不明病原体感染性疾病提供快速有效的检测。同时可以和医院已有测序仪进行整合，打破传统的医院需将mNGS检测数据分析外包给技术服务公司进行分析的模式，院内即可实现数据分析，缩短报告时间，提升检测效率，同时还避免了医院原始信息和数据的外流，也可基于数据挖掘产出更多有临床价值的科研成果。

以下为具体实施例。

实施例1

一、宏基因组测序

2019年8月9日，收集了5名慢性气管炎病人的支气管肺泡灌洗液，经微生物核酸提取后，采用illumina HiSeq X进行宏基因组测序，获得下机测序数据。

首先，更新模块将更新所需要用的数据库资源，并整理写入微生物参考序列数据库和病原信息库，将更新信息记录到本地日志文件中。然后，根据以下步骤进行分析。

二、测序数据自动识别

测序数据为FASTQ格式，FASTQ格式文件中每条序列由四行组成，第一行以@符号开头，为序列头部信息，第二行为碱基序列，第四行为各碱基对应的质量值。下面展示了本实施例数据集的一条典型的FASTQ序列。

基于第一行序列头部信息包含E，通过表1，识别序列所来源的仪器平台为HiSeqX，通过第二行及第四行的长度，识别测序序列的长度为150bp。

三、数据质控

采用低质序列识别单元，去除低质量的识别后的测序数据。采用宿主序列识别单元，将经过低质序列识别单元的测序数据，采用Soap软件和人参考基因组序列进行比对，比对参数中，s设置为测序序列长度的90％，也即135，l设置为30，v设置为7，m设置为200，x设置为400。比对完成后，去除比对上人参考基因组的测序数据，保留未比对上的测序数据进行后续分析，结果如表2所示。

表2数据质控结果

四、微生物鉴定

经过数据质控的序列即可进行下一步微生物鉴定分析，包括：

(1)比对：采用blast软件默认参数，将测序序列和微生物参考序列数据库进行比对。图3展示了本实施例数据集的部分典型的比对结果。其中，从左至右各列数据依次为Query id、Subject id、％identity、alignment length、mismatches、gap openings、q.start、q.end、s.start、s.end、e-value和bit score。Query id是指查询序列ID标识；Subject id是指比对上的目标序列ID标识；％identity是指序列比对的一致性百分比；alignment length是指符合比对的比对区域的长度；mismatches是指比对区域的错配数；gap openings是指比对区域的gap数目；q.start是指比对区域在查询序列(Query id)上的起始位点；q.end是指比对区域在查询序列(Query id)上的终止位点；s.start是指比对区域在目标序列(Subject id)上的起始位点；s.end是指比对区域在目标序列(Subject id)上的终止位点；e-value是指比对结果的期望值，解释是大概多少次随机比对才能出现一次这个score，e-value越小，表明这种情况从概率上越不可能发生，那么发生了即说明这更有可能是真实的相似序列；bit score是指比对结果的bit score值。

(2)过滤：按照identity大于90％、coverage大于90％、score小于最优score的110％的标准对比对结果进行过滤，过滤后，一条序列可能对应多条比对结果。

(3)物种鉴定：通过比对结果的核酸GI编号，可以唯一映射到NCBI taxonomy库中的物种编号，通过物种编号，可以获取该编号在界门纲目科属种等不同物种分类层级上的物种注释信息。获取比对结果的物种注释信息后，采用LCA算法，对每条比对上的序列进行物种鉴定。图4展示了本实施例数据集的部分典型的物种鉴定结果。其中，Read ID是指测序序列的编号，Rank是指鉴定序列所属的分类层级，Taxon ID是指鉴定序列所属的物种编号，Taxonomy是指鉴定序列所属的物种分类层级。

(4)微生物丰度分析：按照界门纲目科属种这七个分类层级，分别统计每一个分类层级上，鉴定到每一个微生物上的序列数目，作为每一个微生物的初始丰度值。表3展示了本实施例数据集的部分典型的微生物丰度分析结果，表格中，比对序列数是指鉴定为该物种的序列数目，物种分类信息是指物种的详细分类信息。

表3微生物丰度分析结果(科层级部分结果)

(5)微生物丰度矫正：采用RPM算法，矫正每一个微生物的初始丰度值，矫正公式为：

RPM＝MappedReads×10⁶/TotalMappedReads

MappedReads指比对上该微生物的序列数目，TotalMappedReads指的是比对上所有微生物的序列数目。表4展示了本实施例数据集的部分典型的微生物丰度矫正结果，表格中，RPM代表物种经过矫正后的RPM值。

表4微生物丰度矫正结果(科层级部分结果)

五、病原鉴定

经过微生物鉴定后，获得矫正后的微生物丰度表用于病原鉴定，图5展示了本实施例数据集的部分病原鉴定结果。

六、深度数据挖掘

经过微生物鉴定或病原鉴定后，可选择进行某一项或某几项深度数据挖掘，包括但不限于微生物多样性分析、多样品比较分析、关联分析、显著差异物种分析、耐药基因鉴定等。图6展示了微生物多样性分析结果；图7和图8展示了显著差异物种分析结果，不同颜色代表在对应分组中显著富集的物种；图9和图10展示了多样品比较分析结果，包括各样品的物种组成柱状图及样品间物种分布韦恩图；图11展示了关联分析结果，物种颜色越深代表物种和因子的关联性越强，负相关标记为蓝色，正相关标记为红色，相关性p value小于0.05标记为*，相关性p value小于0.01标记为+；图12展示了耐药基因鉴定结果。

七、数据可视化

对病原鉴定模块产生的结果进行可视化，可视化功能包括病原丰度饼图、测序覆盖度展示图和序列一致性展示图。图13展示了物种注释比例图，图14展示了病毒注释比例图，图15和图16展示了某一选定的特殊病毒，其序列在病毒基因组上的测序深度及覆盖度分布图，以及比对identity分布图。

实施例2

如图17所示，采用本发明上述病原分析方法和传统mNGS方法(包括基于Diamond的比对方法、基于Kraken软件的方法和基于Kaiju软件的方法)对一例已知理论微生物组成的样本进行检测，结果显示，本发明的分析方法在结果可靠性和准确性上更优。图中，横轴代表不同的检测方法，纵轴代表检测出的物种的丰度。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种非疾病诊断和治疗目的的基于宏基因组学的病原分析方法，其特征在于，包括以下步骤：

步骤S1：根据待测样品的测序数据获取序列信息；

步骤S3：基于微生物参考序列数据库，从所述目标序列数据中分析得到微生物物种分类数据；所述步骤S3包括以下步骤：

步骤S32：按照一致性大于90%、覆盖度大于90%且比对分值小于最优分值的110%的标准对所述第一比对结果进行过滤，得到第二比对结果；

步骤S33：根据所述第二比对结果的基因信息标识编号获取对应的物种编号，并根据物种编号获取物种注释信息，然后采用LCA算法对所述第二比对结果中的每条序列进行物种鉴定；

步骤S35：采用RPM算法矫正每一种微生物的所述初始丰度值，矫正公式为：

RPM=MappedReads×10⁶/TotalMappedReads

其中，MappedReads指的是比对上该微生物的序列数目，TotalMappedReads指的是比对上所有微生物的序列数目；

步骤S4：基于病原信息库，从所述微生物物种分类数据中分析得到与疾病相关的病原数据；所述步骤S4包括以下步骤：

步骤S42：将确认为病原的微生物按照以下标准进行过滤：对于鉴定为RNA病毒的微生物，其序列数目需≥3；对于鉴定为DNA病毒、细菌、古菌、真菌或寄生虫的微生物，其RPMratio需≥10；RPM ratio计算公式为：

RPM ratio=RPM/NTC

其中，RPM指的是某一病原微生物的RPM值，NTC指的是阴性质控样品中同一病原微生物的RPM值；

2.根据权利要求1所述的病原分析方法，其特征在于，所述步骤S2包括以下步骤：

步骤S21：从所述测序数据中识别并去除碱基错误率大于1%的序列，得到合格序列数据；

3.根据权利要求1所述的病原分析方法，其特征在于，还包括以下步骤：

4.根据权利要求3所述的病原分析方法，其特征在于，所述步骤S7包括以下步骤：

5.根据权利要求4所述的病原分析方法，其特征在于，所述步骤S72包括以下步骤：

6.一种基于宏基因组学的病原分析装置，其特征在于，包括：

微生物鉴定模块，用于基于微生物参考序列数据库，从所述目标序列数据中分析得到微生物物种分类数据；微生物鉴定模块包括微生物比对单元、微生物过滤单元、物种鉴定单元、丰度分析单元和丰度矫正单元；其中，微生物比对单元用于将目标序列数据与微生物参考序列数据库进行比对，得到第一比对结果；微生物过滤单元用于根据一致性大于90%、覆盖度大于90%且比对分值小于最优分值的110%的标准对第一比对结果进行过滤，得到第二比对结果；物种鉴定单元用于根据第二比对结果的GI编号获取对应的物种编号，并根据物种编号获取物种注释信息，然后采用LCA算法对第二比对结果中的每条序列进行物种鉴定；丰度分析单元用于分别统计每一个分类层级上鉴定到的每一种微生物的序列数目，作为该微生物的初始丰度值；丰度矫正单元用于采用RPM算法矫正每一种微生物的初始丰度值，矫正公式为：

RPM=MappedReads×10⁶/TotalMappedReads

病原鉴定模块，用于基于病原信息库，从所述微生物物种分类数据中分析得到与疾病相关的病原数据；病原鉴定模块包括病原比对模块和病原过滤模块；其中，病原比对模块用于将每一种微生物的物种名称与病原信息库进行比对，确认该微生物是否属于病原；病原过滤模块用于将确认为病原的微生物按照以下标准进行过滤：对于鉴定为RNA病毒的微生物，其序列数目需≥3；对于鉴定为DNA病毒、细菌、古菌、真菌或寄生虫的微生物，其RPMratio需≥10；RPM ratio计算公式为：

RPM ratio=RPM/NTC

其中，RPM指的是某一病原微生物的RPM值，NTC指的是阴性质控样品中同一病原微生物的RPM值；及

7.一种计算机设备，其特征在于，具有处理器和存储器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1~5任一项所述的病原分析方法的步骤。

8.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被执行时实现如权利要求1~5任一项所述的病原分析方法的步骤。