CN111276185B

CN111276185B - 一种基于二代高通量测序的微生物鉴定分析系统及装置

Info

Publication number: CN111276185B
Application number: CN202010099490.0A
Authority: CN
Inventors: 任一; 刘林梦; 张丹; 顾海东; 蒋华; 刘国峰; 郭权; 罗艳春; 张磊
Original assignee: I-Sanger Inc
Current assignee: I-Sanger Inc
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2023-11-03
Anticipated expiration: 2040-02-18
Also published as: CN111276185A

Abstract

本发明公开了一种基于二代高通量测序的微生物鉴定分析系统及装置，包括：任务管理模块，用于建立任务列表并对任务列表中的鉴定分析任务进行管理，将待鉴定分析数据上传到服务器，通过服务器对待鉴定分析数据进行鉴定分析；报告管理模块，用于根据鉴定分析结果生成鉴定分析报告，并根据用户的审核及批准指令完成鉴定分析报告的审核及批准流程；报表统计模块，用于根据菌种、微生物类型、菌株来源及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计。本发明可从分子水平进行菌种或菌株鉴定，鉴定结果更准确且通量高；除常规细菌真菌外，还可鉴定霉菌和放线菌；同时可鉴定混合菌或难培养菌；且全基因组测序数据可进行溯源分析。

Description

一种基于二代高通量测序的微生物鉴定分析系统及装置

技术领域

本发明涉及基因组测序技术领域，尤其涉及一种基于二代高通量测序的微生物鉴定分析系统及装置。

背景技术

在生物医药、食品安全、疾病诊断等领域，微生物的准确、快速鉴定具有关键作用。目前，大部分微生物鉴定方法是基于传统形态学、生理生化反应的原理，这些检测方法容易受到菌的培养条件、生长状态的影响，鉴定结果的重复性较差，对一些难培养的菌也无法鉴定。

二代高通量测序技术是在一代测序技术的基础上，以一次可以对几十万到几百万条DNA分子进行序列测定，它对一代测序产生革命性的改变，二代测序平台主要以Roche的454焦磷酸合成测序，illumina的HiSeq边合成边测序，以及ABI的SOLiD连接法测序为代表，二代测序可分为全基因组测序、全外显子测序、扩增子测序、转录组测序宏基因组测序等多种类型。

扩增子测序是一种基于高通量测序技术(NGS,next-generation sequencing)的高靶向性测序方法，通过对样本中16SrRNA/18SrRNA/ITS等保守区域进行基因扩增和测序，对序列数据经过数据拆分、去接头、去重、多序列比对等生信分析处理，从而对微生物进行鉴定。

全基因组测序是对物种中所有基因进行测序，测定其DNA的碱基序列，利用此技术可在全基因组水平上对微生物进行鉴定，并可以通过分析突变位点，根据变异位点构建进化树，进行样本的溯源分析。目前微生物高通量检测方法已应用于临床感染性疾病诊断，且它在药物研发、化妆品、工业、农业、食品检测中也发挥着重要的作用。

现有的微生物高通量检测方法有基于表型、生理生化反应原理的检测技术，许多微生物在代谢过程中会产生胞外酶，这些酶从细胞中释放出来后催化细胞外的反应，不同微生物在代谢类型上表现很大的差异，这些差异性主要表现在对大分子糖类和蛋白质的分解能力以及分解代谢的最终产物的不同。全自动细菌检测系统(VITEK2)是该类方案中具有代表性的检测方法。它以每种细菌的微量生化反应为基础，不同种类的VITEK试卡含有多种生化反应孔，将待检测的纯菌制成符合一定浊度要求的菌悬液并注入试卡内，封口后放入读数器，根据试卡各生化反应孔中的生长变化来测定各生化介质中指示剂的显色，最后与构建的微生物数据库进行比较，从而完成细菌的鉴定。

但此类检测方法，由于检测的原理是基于微生物生理生化特性，导致对霉菌、放线菌无法鉴定，对培养条件要求严格的微生物也无法鉴定；其次，鉴定结果的判定具有主观性，检测结果的重复性差；再者，有些微生物只能鉴定到属水平，无法鉴定到种水平，无法进行大规模的微生物鉴定。

发明内容

针对现有的微生物高通量检测方法，由于检测的原理是基于微生物生理生化特性，导致对霉菌、放线菌无法鉴定，对培养条件要求严格的微生物也无法鉴定；且鉴定结果的判定具有主观性，检测结果的重复性差，无法进行大规模的微生物鉴定的问题，本发明提供如下技术方案：

一种基于二代高通量测序的微生物鉴定分析系统及装置，包括：

任务管理模块，用于获取待鉴定分析数据，建立任务列表并对所述任务列表中的鉴定分析任务进行管理，将待鉴定分析数据上传到服务器，通过所述服务器根据预设生信分析方法对所述待鉴定分析数据进行鉴定分析；

报告管理模块，用于根据所述服务器对所述待鉴定分析数据进行鉴定分析的结果，依照预设报告模板生成鉴定分析报告，并根据用户的审核及批准指令完成对生成的鉴定分析报告进行审核及批准的流程；

报表统计模块，用于根据菌种、微生物类型、菌株来源以及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计。

进一步地，所述微生物鉴定分析系统还包括首页模块，用于从模块、统计、服务器存储以及消息多个维度进行数据统计和消息提醒。

进一步地，所述基于二代高通量测序的微生物鉴定分析系统及装置还包括用户管理模块和系统设置模块；其中，

所述用户管理模块用于对所述微生物鉴定分析系统中的用户进行管理和分组，并按照分组结果对用户进行权限的配置；

所述系统设置模块，用于从样本信息管理、下机数据路径、报告模板、服务器存储、备份还原以及日志审计多个维度进行系统的管理和配置。

进一步地，所述报告管理模块在生成鉴定分析报告后，还用于根据用户的导出及打印指令对生成的鉴定分析报告进行导出和在线打印操作。

进一步地，所述预设生信分析方法，包括：

步骤一、将测序产生的BCL文件转换为fastq格式，并根据测序文库的index序列对样本数据进行拆分，得到每个样本数据的原始序列；

步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗；

步骤三、根据reads的pair-end关系将步骤二的结果通过pear生信软件合并双端reads，然后根据扩增引物信息通过字符匹配进行进一步筛选；

步骤四、针对步骤三的结果通过vsearch生信软件去除重复序列，并统计冗余序列条数，然后通过mafft生信软件对去重后的序列进行多序列比对；

步骤五、利用修改后的deblur去噪工具对步骤四的结果进行序列去噪，然后通过vsearch软件对去噪后的序列去嵌合体；

步骤六、利用blast生信软件，用blastn方法将步骤五的结果与自建的参考数据库进行比对；

步骤七、根据步骤六的比对结果及序列占比，得出物种鉴定结果。

进一步地，所述根据扩增引物信息通过字符匹配进行进一步筛选，包括：

左端引物查找时，从左向右进行查找，存在多对引物时优先查询扩增位点在左侧的引物；右端引物查找同理，匹配方向改为从右向左，且优先查询扩增位点在右侧的引物；允许两个碱基错配：引物的兼并位点不属于错配，错配包含插入、缺失、转换、颠换四种情况；根据匹配情况，挑选双端引物都可以匹配到的序列，并截取匹配引物范围内的序列作为结果，去除掉低于50bp的序列，最终根据左右引物两两配对的原则，得到一组fasta序列。

进一步地，所述参考数据库的构建过程，包括：

步骤一、利用收集整理的环境微生物列表，根据微生物名称，去除重复以及物种相同命名不同的微生物名称；

步骤二、根据物种名单，匹配silva数据库；

步骤三、对步骤二中未匹配上的物种，匹配nt数据库；

步骤四、筛选物种名单中的真菌，匹配unite数据库；

步骤五、对合并数据库的物种分类进行人工检查，将来自不同数据库的同一物种的分类名称进行统一；

步骤六、将筛选silva数据库、nt数据库、unite数据库结果对应的核酸序列进行合并；

步骤七、使用makeblastdb程序构建所述参考数据库。

进一步地，所述根据比对结果及序列占比，得出物种鉴定结果，包括：

当存在阴性对照样本时，进行测序背景污染的扣除：在待检样本中，根据阴性对照中检测出来的物种及其占比分布进行物种信息扣除；

以物种Tax为单位分别进行评估，评估所包含的每条blast结果i所对应的比对相似度blast_ident、比对read长度blast_length、比对read覆盖度query_cov，对ident_coff、length_coff、cov_coff进行标准化处理，得到标准化的比对相似度分数ident、覆盖度分数cov和比对长度分数length；

以blast结果i的readcount数作为权重，得出此物种的置信分数conffident_Tax，具体计算过程根据下列公式得出：

ident_i＝(blast_ident_i/100)^ident_coff

length_i＝1-20*(blast_length_i-length_coff)^-1

根据conffident转换成评价等级conffident_score，同时根据由Tax物种下总read数match_reads得到的等级match_score共同参与综合得分的评估，具体计算过程根据下列公式得出：

score_Tax＝min(conffident_Tax,match_score_Tax)

进一步地，所述预设生信分析方法还包括：

步骤三、对步骤二得到的序列进行组装，得到基因组contig序列；

步骤四、将不同菌株基因组的contig序列进行多序列比对；

步骤五、进行SNPCalling，获取SNP突变位点信息；

步骤六、根据多个菌株之间的变异位点信息构建进化树；

步骤七、根据基因组contig序列，计算各菌株之间的基因组平均核酸一致性，得到菌株之间的相似度矩阵，并对菌株之间的相似度矩阵进行聚类分析，获得菌株的分型和溯源信息。

进一步地，所述系统还包括加密模块和防移植模块；其中，

所述加密模块用于对数据库和程序进行加密，降低其可读性；

所述防移植模块用于在系统初次使用时，检测计算机硬件信息，并生成随机公钥，注册时基于检测到的计算机硬件信息和生成的随机公钥通过加密算法生成私钥，在每次使用系统时检验公钥与私钥的匹配情况。

本发明的技术方案相比于现有技术具有如下有益效果：

1、本发明可以从分子水平进行菌种或菌株鉴定，鉴定结果更准确；

2、本发明的通量高，一次可检测上百个样本；

3、除常规细菌真菌外，本发明还可鉴定霉菌和放线菌；

4、本发明可鉴定混合菌或难培养菌；

5、本发明的全基因组测序数据可进行溯源分析。

附图说明

图1为本发明实施例提供的基于二代高通量测序的微生物鉴定分析系统及装置的操作流程示意图；

图2为本发明实施例提供的基于扩增子测序的微生物鉴定方法流程图；

图3为本发明实施例提供的基于全基因组测序的微生物鉴定和溯源方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例提供一种基于二代高通量测序的微生物鉴定分析系统及装置，该基于二代高通量测序的微生物鉴定分析系统及装置包括：

首页模块，系统的仪表盘，用于从模块、统计、服务器存储以及消息多个维度进行数据统计和消息提醒。

任务管理模块，用于获取待鉴定分析数据，建立任务列表并对任务列表中的鉴定分析任务进行管理，可以对任务进行新建、运行、停止、重分析、异常终止等操作，不同任务状态对应不同的操作；将待鉴定分析数据上传到服务器，通过服务器根据预设生信分析方法对待鉴定分析数据进行鉴定分析；

报告管理模块，用于根据服务器对待鉴定分析数据进行鉴定分析的结果，依照预设报告模板生成鉴定分析报告，并根据用户的审核及批准指令完成对生成的鉴定分析报告进行审核及批准的流程；并且还可以根据用户的导出及打印指令对生成的鉴定分析报告进行导出和在线打印操作；

用户管理模块，用于对微生物鉴定分析系统中的用户进行管理和分组，并按照分组结果对用户进行权限的配置；

系统设置模块，用于从样本信息管理、下机数据路径、报告模板、服务器存储、备份还原以及日志审计多个维度进行系统的管理和配置。

通过本实施例的微生物鉴定分析系统进行微生物鉴定分析的操作流程如图1所示，包括新建任务、生信分析、查看结果、报告审核以及报表统计。

其中，上述预设生信分析方法，包括：

一、基于扩增子测序的微生物鉴定方法

该基于扩增子测序的微生物鉴定方法针对下机的原始数据，通过数据拆分、质控、序列比对、去噪、物种数据库比对等分析步骤，最终结合比对结果和序列占比，得出物种鉴定的结果。如图2所示，其步骤详情如下：

步骤一、将测序产生的BCL文件转换为fastq格式，并根据测序文库的index序列对样本数据进行拆分，得到每个样本数据的原始序列；其中，本实施例是通过bcl2fastq生信软件将测序产生的BCL文件转换为fastq格式；

具体地，在本实施例中，步骤三具体为根据reads的pair-end关系将上一步结果通过pear生信软件进行merge。去除无法merge的reads后，每个测试样品得到一个fastq序列文件。然后根据扩增引物信息(系统允许多对引物PCR，故有一组左端引物和一组右端引物)通过字符匹配进行进一步筛选，为保证筛选结果的准确性，建立筛选方法如下：1.左端引物查找时，在read从左向右进行查找，存在多对引物时优先查询扩增位点在左侧的引物。右端引物同理，匹配方向改为从右向左，且优先查询扩增位点在右侧的引物；2.允许两个碱基错配：引物的兼并位点不属于错配，错配包含插入、缺失、转换、颠换四种情况；3.根据匹配情况，挑选双端引物都可以匹配到的序列，并截取匹配引物范围内的序列(不包含引物自身)作为结果，去除掉低于50bp的序列。最终根据左右引物两两配对的原则，得到一组fasta序列；

具体地，在本实施例中，步骤五中对deblur去噪工具的修改为：去除其对输入的限制，修改其调用第三方工具的处理流程和输出文件的处理，只保留核心算法，也即去噪算法，然后利用修改后的deblur软件进行序列去噪，降低由测序仪产生的错误带来的影响。然后使用vsearch软件去嵌合体，消除使用引物进行PCR时的部分扩增错误；

其中，在本实施例中，参考数据库的构建通过收集整理环境中常见的微生物列表，根据微生物名称与NCBI、Silva、Unite等多个数据库做关联，获取这些微生物的核酸序列，再通过去冗余、人工核对和审核等过程，最终构建微生物数据库。本实施例构建的微生物数据库共收录了五百多个属，近三千个种，十七多万个菌株，其中包括八万五千多株细菌、八万八千多株真菌和六十多株支原体。具体地，本实施例构建数据库的详细步骤如下：

1、利用收集整理的环境微生物列表，根据微生物名称，去除重复以及物种相同命名不同的微生物名称；

2、根据物种名单，匹配silva数据库；

3、对未匹配上的物种，匹配nt数据库；

4、筛选物种名单中的真菌，匹配unite数据库；

5、对合并数据库的物种分类进行人工检查，将来自不同数据库的同一物种的分类名称进行统一；

6、将筛选silva数据库、nt数据库、unite数据库结果对应的核酸序列进行合并；

7、使用makeblastdb程序构建blast比对数据库。

具体地，在本实施例中，上述步骤七具体包括：

1、当存在阴性对照样本时，进行测序背景污染的扣除：在待检样本中，根据阴性对照中检测出来的物种及其占比分布进行物种信息扣除；

2、以物种Tax为单位分别进行评估，评估所包含的每条blast结果i所对应的比对相似度blast_ident、比对read长度blast_length、比对read覆盖度query_cov，对上述三个指标分别不同的标准化常数，即对ident_coff、length_coff、cov_coff进行标准化处理，得到标准化的比对相似度分数ident、覆盖度分数cov和比对长度分数length；

最后以blast结果i的readcount数作为权重，得出此物种的置信分数conffident_Tax，具体计算过程可根据下列公式得出：

ident_i＝(blast_ident_i/100)^ident_coff

length_i＝1-20*(blast_length_i-length_coff)^-1

进一步地，根据conffident转换成评价等级conffident_score，同时根据由Tax物种下总read数match_reads得到的等级match_score共同参与综合得分的评估，具体计算过程可根据下列公式得出：

score_Tax＝min(conffident_Tax,match_score_Tax)

二、基于全基因组测序的微生物鉴定和溯源方法

该基于全基因组测序的微生物鉴定和溯源方法将微生物全基因组测序的下机数据，进行序列质控、拼接、序列比对、SNPcalling和进化树构建、ANI计算和聚类分析，对菌株进行鉴定、分型和溯源。如图3所示，该基于全基因组测序的微生物鉴定和溯源方法的具体步骤如下：

步骤二、利用fastp生信软件对原始序列进行质量剪切和序列清洗，得到优化序列；

步骤三、对步骤二得到的优化序列进行组装，得到基因组contig序列；

步骤四、将不同菌株基因组的contig序列进行多序列比对；

步骤五、进行SNPCalling，获取SNP突变位点信息；

步骤六、根据多个菌株之间的变异位点信息构建进化树；

步骤七、根据基因组contig序列，计算各菌株之间的基因组平均核酸一致性(ANI)，得到菌株之间的相似度矩阵，并对菌株之间的相似度矩阵进行聚类分析，获得菌株的分型和溯源信息。

此外，本实施例的系统还包括加密模块和防移植模块；其中，

加密模块用于对数据库和程序进行加密，降低其可读性；通过此手段可以避免人为修改带来的报告结果偏差。

防移植模块用于在系统初次使用时，检测计算机硬件信息，并生成随机公钥，注册时基于检测到的计算机硬件信息和生成的随机公钥通过加密算法生成私钥，在每次使用系统时检验公钥与私钥的匹配情况。

综上，本实施例的基于二代高通量测序的微生物鉴定分析系统及装置采用二代高通量测序技术，对物种进行扩增子或全基因组测序，利用本系统将下机数据路径自动挂载到服务器上，在服务器上进行测序数据的质控、比对等步骤，可以快速完成数据分析，对微生物从分子水平进行菌种鉴定，对于全基因组测序，还可进行样本的溯源分析，找到污染源头。

本实施例的基于二代高通量测序的微生物鉴定分析系统及装置的特异性和灵敏性较高；检测通量大，范围广，除常规的细菌、真菌外，还可检测传统方法无法鉴定的霉菌和放线菌等，也可鉴定混合菌和一些难培养的菌；且对微生物的鉴定可以到种或菌株水平；除此之外，本系统具有电子签名、审计追踪、数据备份、报表统计等多种功能，符合FDR、21CFR11等相关的法规规范。

此外，需要说明的是，本领域技术人员应明白，本实施例可提供为方法、装置、或计算机程序产品。因此，本实施例可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现本实施例流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

而且在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上仅为本发明优选实施例而已，并不用于限制本发明，对于本领域技术人员来说，一旦得知了本发明的基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改，也即凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于二代高通量测序的微生物鉴定分析系统，其特征在于，包括：

报表统计模块，用于根据菌种、微生物类型、菌株来源以及鉴定分析报告统计共四个维度对鉴定分析报告或鉴定分析样本进行报表统计；

所述预设生信分析方法，包括：

步骤七、根据步骤六的比对结果及序列占比，得出物种鉴定结果；

所述预设生信分析方法还包括：

步骤四、将不同菌株基因组的contig序列进行多序列比对；

步骤五、进行SNPCalling，获取SNP突变位点信息；

步骤六、根据多个菌株之间的变异位点信息构建进化树；

2.如权利要求1所述的基于二代高通量测序的微生物鉴定分析系统，其特征在于，所述基于二代高通量测序的微生物鉴定分析系统及装置还包括首页模块，用于从模块、统计、服务器存储以及消息多个维度进行数据统计和消息提醒。

3.如权利要求2所述的基于二代高通量测序的微生物鉴定分析系统，其特征在于，所述基于二代高通量测序的微生物鉴定分析系统及装置还包括用户管理模块和系统设置模块；其中，

所述用户管理模块用于对所述微生物鉴定分析系统及装置中的用户进行管理和分组，并按照分组结果对用户进行权限的配置；

4.如权利要求1所述的基于二代高通量测序的微生物鉴定分析系统，其特征在于，所述报告管理模块在生成鉴定分析报告后，还用于根据用户的导出及打印指令对生成的鉴定分析报告进行导出和在线打印操作。

5.如权利要求4所述的基于二代高通量测序的微生物鉴定分析系统，其特征在于，所述根据扩增引物信息通过字符匹配进行进一步筛选，包括：

6.如权利要求5所述的基于二代高通量测序的微生物鉴定分析系统，其特征在于，所述参考数据库的构建过程，包括：

步骤二、根据物种名单，匹配silva数据库；

步骤三、对步骤二中未匹配上的物种，匹配nt数据库；

步骤四、筛选物种名单中的真菌，匹配unite数据库；

步骤七、使用makeblastdb程序构建所述参考数据库。

7.如权利要求1-6任一项所述的基于二代高通量测序的微生物鉴定分析设备，其特征在于，所述系统还包括加密模块和防移植模块；其中，