CN113066533A

CN113066533A - 一种mNGS病原体数据分析方法

Info

Publication number: CN113066533A
Application number: CN202110362053.8A
Authority: CN
Inventors: 李川; 马丽娟; 侯倩倩; 舒小婷; 魏少华
Original assignee: Euroimmun Medizinische Labordiagnostika AG
Current assignee: Euroimmun Medizinische Labordiagnostika AG
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-07-02
Anticipated expiration: 2041-04-02
Also published as: CN113066533B

Abstract

本发明提供了一种宏基因组二代测序mNGS数据分析的方法，其包括如下步骤：1)样本核酸提取、建库测序；2)数据处理；3)计算RPM(Micro)、RPM(Micro)_比例、覆盖度、深度、离散度、微生物丰度、属内丰度等，NTC过滤；4)显著性分析：将计算结果与背景库比较，以确认是否为背景微生物；5)病原体置信度判断(Species Reads数、种丰度、属内丰度、覆盖度等)，确定可能致病微生物。本发明还涉及了所述分析方法在感染性疾病病原体鉴定中的应用。

Description

一种mNGS病原体数据分析方法

技术领域

本发明涉及一种宏基因组二代测序mNGS数据分析的方法或系统，及其在感染性疾病病原体数据分析中的用途。

背景技术

感染性疾病是危重患者死亡的主要原因。病原学鉴定是感染性疾病诊断中最重要的环节。传统的病原体鉴定方法包括培养分离、形态学检测、生化检测、免疫学检测以及核酸检测(例如PCR检测)，是针对一种或几种病原体目标性的鉴别。宏基因组二代测序(metagenomics next generation sequencing,mNGS)直接对样本中的核酸进行高通量测序然后与数据库进行比对分析，通过核酸序列信息判断病原体种类，能广泛覆盖病原体，只要是数据库中的物种都能覆盖，不需要预先猜测可能的病原体。

mNGS在感染性疾病中的应用最早是在中枢神经系统感染中(1：Wilson MR,Naccache SN,Samayoa E,et al.Actionable diagnosis of neuroleptospirosis bynext-generation sequencing[J].N Engl J Med,2014,370(25):2408-2417.DOI:10.1056/NEJMoa1401268.2：Brown JR,Bharucha T,Breuer J.Encephalitis diagnosisusing metagenomics:application of next generation sequencing for undiagnosedcases[J].J Infect,2018,76(3):225-240.DOI:10.1016/j.jinf.2017.12.014)。

中枢神经系统感染的特征不明确，和自免脑炎、脑肿瘤等疾病外在表现相似难以区分；此外，细菌、真菌、病毒感染虽然生化指标有一定的提示作用，但仍然难以判断具体的感染病原体。mNGS对于这种疑难感染的鉴定分析有着很大优势，比如2017年华山医院张文宏团队确诊了猪疱疹病毒的跨物种传播导致的脑炎(Ai JW,Weng SS,Cheng Q,etal.Human endophthalmitis caused by pseudorabies virus infection,China,2017[J].Emerg Infect Dis,2018,24(6):1087-1090.DOI:10.3201/eid2406.171612.)；2018年报道了深圳的一例mNGS确诊的罕见阿米巴脑炎(Wang Q,Li J,Ji J,et al.A case ofNaegleria fowleri related primary amoebic meningoencephalitis in Chinadiagnosed by next-generation sequencing[J].BMC infectious diseases,2018,18(1),349.DOI:10.1186/s12879-018-3261-z)。

除了在中枢神经系统感染中的应用，mNGS现在还广泛用于血流感染(BlauwkampTA,Thair S,Rosen MJ,et al.Analytical and clinical validation of a microbialcell-free DNA sequencing test for infectious disease.Nat Microbiol.2019Apr；4(4):663-674.doi:10.1038/s41564-018-0349-6.Epub 2019Feb 11.PMID:30742071.)和呼吸道感染(Li Y,Sun B,Tang X,et al.Application of metagenomic next-generationsequencing for broncho alveolar lavage diagnostics in critically illpatients.Eur J Clin Microbiol Infect Dis.2020Feb；39(2):369-374.doi:10.1007/s10096-019-03734-5.Epub 2019Dec 7.PMID:31813078；PMCID:PMC7102353.)以及皮肤软组织、骨关节、眼内、尿路等局灶部位的病原微生物鉴定。

在mNGS数据分析处理方面，不同研究组针对不同的应用开发了不同的分析方法，如：

1.Dobin A,Gingeras TR.Mapping RNA-seq reads with STAR.Curr ProtocBioinformatics.2015；51:11 14 11–9.

2.Petty TJ,Cordey S,Padioleau I,et al.Comprehensive human virusscreening using high-throughput sequencing with a user-friendlyrepresentation of bioinformatics analysis:a pilot study.J ClinMicrobiol.2014；52:3351–61.

3.Petty TJ,Cordey S,Padioleau I,et al.Comprehensive human virusscreening using high-throughput sequencing with a user-friendlyrepresentation of bioinformatics analysis:a pilot study.J ClinMicrobiol.2014Sep；52(9):3351-61.doi:10.1128/JCM.01389-14.

4.Miller S,Naccache SN,Samayoa E,et al.Laboratory validation of aclinical metagenomic sequencing assay for pathogen detection in cerebrospinalfluid.Genome Res.2019May；29(5):831-842.doi:10.1101/gr.238170.118.

宏基因组测序数据，经过去人源，去复杂度低处理后，采用精确比对超快速物种注释软，如CLARK、Centrifuge、Kraken等软件进行宏基因组数据的物种分类，mNGS极其灵敏，样本中检测到某物种，该物种的序列可能是来自环境(医院病房采样环境、mNGS实验室环境、样本处理或核酸提取试剂)也可能来自这患者样本本身。此外，所有样本都可能带有部分微生物或微生物核酸，但并非都会致病。因此，mNGS需要进行深度数据分析判断哪些检测到的病原体序列是真正与环境、与正常人不同的，这些序列的病原体才可能是致病的。目前宏基因组技术中，仍缺乏有效的病原体鉴定方法或标准。

下机数据根据物种分类软件分析后，可获得样本中各个微生物特异序列数，即Species Reads数(Species Reads)，常常根据测序数据量将序列数标准化，RPM(Reads PerMillion)，即每百万Reads测序数据量中微生物的Reads数(Reads)。对于病原体鉴定，有公司采用微生物丰度指标进行病原体鉴定(华大基因)，这个依赖于大量样本数据的积累才能实现；有公司采用RPM ratio(RPM_样本/RPM_水)识别可能致病病原体，该方法对于人源比例不同的样本有很大的缺陷，对于人源比例很高的样本，产生假阴性结果。

本发明提供了一种mNGS病原体数据分析方法，使用RPM(Micro)_比例作为细菌、真菌等微生物的过滤指标，同时通过建立阴性样本背景库设定微生物的背景，并针对不同类型的微生物(生物学特征不同)采用不同的指标标准作为检出判断的依据，从而下机数据分析和自动化报告可以在2小时内完成，准确地鉴定出相应的微生物，即可能的致病病原体，克服了现有技术的上述技术问题。

发明内容

定义：为使本文更容易理解，首先定义某些术语。除非另有规定，本文中使用的所有技术和术语与本发明所属技术领域的技术人员通常理解的含义相同。除非特别说明，本文应用和涵盖的技术是本发明所属技术领域的技术人员熟知的标准方法。所述材料、方法和实施例仅用作说明目的，而不以任何方式限制本发明的保护范围。

本文所述的，术语“样本”通常是指包括核苷酸或包含至少一个核苷酸序列的混合物的生物体液、细胞、组织、器官，或生物体中用于测序或定相的样本，或用于测序或定相的来自非生物(如环境)的样本。所述的样本包括但不限于痰/口腔液、羊水、血液、血液的部分、细针活检样本(如外科活检、细针穿刺活检等)、尿液、腹膜液、胸膜液、组织外植体、器官或组织培养或细胞制剂，或其部分或从中分离的内容。所述来自生物体的样本通常取自人类受试者(如患者)，但亦可从任意具有染色体的生物体中采集，包括但不限于狗、猫、马、山羊、绵羊、牛、猪等。从生物来源或预处理后改变其特征而获得的样本同样可以直接使用，如从血液制备血浆，稀释粘稠液体等。预处理方法还可包括但不限于过滤、沉淀、稀释、蒸馏、混合、离心、冷冻、冻干、浓缩、扩增、核酸片段化、干扰组分的灭活、试剂的添加、裂解等。

在一些实施方案中，本文所述阴性的临床样本选自以下的组中的一个或多个：血液、淋巴液、间隙液、脑脊液、肺泡灌洗液、支气管灌洗液、痰液、胸腹水、尿液、唾液、粪便或其他组织或体液样本，或实验室环境样本等。

在一些实施方案中，每种类型的阴性临床样本不少于50例，优选不少于100例。

本文所述的，术语“宏基因组(Metagenome)”，又称群落基因组，是指特定小生境中全部微小生物遗传物质的总和。

术语“测序”是指确定一个或多个核苷酸的身份，即核苷酸是否为G、A、T、C或U。

本文所述的，“第二代测序”是指包括，如通过合成技术测序(如Illumina)、焦磷酸测序(454)、离子半导体技术(Ion Torrent测序)、单分子实时测序(Pacific Biosciences)和连接法测序(SOLiD测序)等。根据测序方法，每次读长的长度可以从约30bp到超过10,000bp变化。如使用SOLiD测序仪的Illumina测序方法生成约50bp的核酸读长。再如IonTorrent测序生成高达400bp的核酸读长，454焦磷酸测序生成约700bp的核酸读长。再例如单分子实时测序方法可生成10,000bp至15,000bp的读长。

在一些实施方案中，所述测序通过Illumina、Life测序，具体地，Nextseq500。在具体的实施方案中，所述步骤1)测序总数据量≥15M。

如本文所用，可使用单端或双端测序方法分析相应的样本核酸。

术语“单端(Single-end)测序”是指使用来自核苷酸一端的读取(“单端读取”)向另一端进行基因组片段的测序，以确定核苷酸的序列。单端测序读段为每片段提供一个读段，所述一个读段对应于片段两端之一的n个碱基对，其中n是测序循环数。可通过任何测序过程进行单端读取，包括第二代测序和其他大规模平行测序技术。被配置为执行单端测序的仪器可从许多公司商购获得。例如Illumina的Hiseq 2500可提供单端50bp和单端100bp的读长。

在一些实施方案中，单端读取的标称、平均、均值或绝对长度是至少20个连续核苷酸，或者至少30个连续核苷酸，或者至少40个连续核苷酸，或者至少50个连续核苷酸。在一些实施方案中，单端读取的标称、平均、均值或绝对长度是至多300个连续核苷酸，至多200个连续核苷酸，或者至多150个连续核苷酸，或者至多120个连续核苷酸，或者至多100个连续核苷酸。可以将前述最小值和最大值组合形成一定的范围。

“双端(Paired-end)测序”方法涉及从一端到另一端读取核酸片段直至达到指定的读长，然后从片段的另一侧进行另一轮读取。对于双端方法，进行正向序列读取和反向序列读取，并将数据配对为相邻序列。将序列与对照样品匹配，以鉴定变体。双端测序方法通常能提供良好的定位信息，更容易解析基因组中存在的结构重排。

术语“读长”是指描述核苷酸样本或参考片段的序列数据的集合。可以指样本读长和/或参考读长。通常，读长表示样本或参考中的连续碱基对的短序列。读长可以通过样本或参照片段的碱基对序列(在ATCG中)象征性地表示。可存储在存储器设备中并经适当地处理后确定读长是否与参考序列匹配或满足其他标准。读长可以从测序装置直接获得，或者间接地从关于样本的存储的序列信息获得。在一些情况下，读长是足够长度(如至少约25bp)的DNA序列，其可用于鉴定更大的序列或区域，如可以比对并特异性地分配到染色体或基因组区域或基因。

在一些实施方案中，核酸序列读长具有30-100bp、50-200bp或50-400bp的长度。

在具体实施方案中，所述测序方法为SE50、SE75、SE100、SE150、SE200、PE50、PE100、PE150或PE200，优选地，SE75。

本文所述的“K-mer算法”相当于按照一定长以及间隔切分字符串，利用K-mer的方式将待比对基因数据分割为多个基因片段数据，能够相对提高待比对基因数据的整体利用率，进而提高比对分析的全面性，进一步确保基因数据比对过程的整体准确性。

本发明涉及方法、系统、设备和/或计算机程序产品。计算机程序产品可包括计算机可读存储介质，其上载有用于执行本发明的计算机可读程序指令。

术语“计算机可读存储介质”是指可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质，可包括但不限于：电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述任意合适的组合。

在具体的实施方案中，计算机可读存储介质的实例(仅列举而非穷举)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、存储有指令的打孔卡或凹槽内凸起结构、以及上述任意合适的组合。

本文所述的，计算机可读存储介质不解释为瞬时信号本身，如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(如通过光纤电缆的光脉冲)或通过电线传输的电信号。

本文所述的，计算机可读程序指令可从计算机可读存储介质下载到各个计算/处理设备，或通过网络(如因特网、局域网、广域网和/或无线网)下载到外部计算机或外部存储设备。网络可包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言，如Python、Smalltalk、C++等，以及常规的过程式编程语言，如C语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行或完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(如利用因特网服务提供商来通过因特网连接)。

在一些实施方案中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图中的一个或多个方框中规定的功能/动作的装置。也可把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而存储有指令的计算机可读介质则为一个制造品，其包括实现流程图中的一个或多个方框中规定的功能/动作的各个方面的指令。

首先，第一方面，本发明提供了一种宏基因组二代测序(mNGS)病原体的数据分析的方法，该方法包括如下步骤：

1、样本核酸提取、建库测序：对怀疑病原体感染的样本进行核酸提取建库测序，得到宏基因组测序数据。

2、数据处理：对测序数据按索引序列的不同进行拆分，并过滤掉低质量的数据，以及进行数据去重等常规操作，得到Unique数据集合，即Uniq Reads数(Unique-Reads)，然后去除人源序列。剩下的测序片段对微生物数据库使用基于K-mer算法进行序列的物种分类，能分到微生物的总和为Micro数据集合，即Micro Reads数(Micro-Reads)。

3、NTC过滤：对样本中的每个物种的病原体Species Reads数(Species Reads)、样本中微生物总Reads(Micro-Reads)计算RPM(Micro)，并将其与同一批阴性对照(NTC，即水)中该微生物的RPM(Micro)进行比较，计算RPM(Micro)_比例，所述具体计算公式如下：

其中分母不能为0，如果NTC中微生物Species Reads数为0时，则RPM(Micro)_NTC＝1。

4、根据不同类型的微生物，对RPM(Micro)_比例设置不同的阳性判断值，并对样本中的每个物种的微生物按照标准进行判断。

微生物的RPM(Micro)_比例的阳性判读值的确定一般是通过模拟阳性样本宏基因组数据分析。将足够例数的阴性样本掺入接近检测限浓度的病原体，制备模拟阳性样本，采用mNGS进行检测，设定不同的RPM(Micro)_比例值，确定病原体的检出的灵敏度和特异度，根据ROC分析确定各种病原体的RPM(Micro)_比例阳性判读值。

在一些实施方案中，RPM(Micro)_比例≥m，m为1-500的自然数，优选地，m为5-50的自然数。对于难检测到、临床有非常重要意义的特殊病原体，如结核杆菌、布鲁氏菌等，只要有特异性比对序列，即Species Reads数≥1，即可考虑报出。

5、寻找并验证为阴性的临床样本作为阴性样本背景库；计算阴性样本背景库中每个物种的RPM(Micro)分布，统计最大值、最小值、中位数、平均数、标准差等相关指标。

将样本中检测的各微生物物种RPM(Micro)_样本和阴性样本背景库中该病原体RPM(Micro)水平进行显著性分析，若显著高于背景样本库，则该病原体不是“背景”微生物；则考虑报出为可能的致病微生物。

在具体的实施方案中，所述显著高于背景库是指差异性分析P≤0.01。

6、对于显著高于背景库的病原体的置信度进行进一步分析，病原体置信度分析包括的置信度参数，包括但不限于Species Reads数、属内丰度、种丰度、覆盖度、离散度等。各类型病原体的各指标置信度参数设置不同，如病原体各个指标的参数均符合置信度要求，则置信度为高置信度，否则为低置信度。若为高置信度，则报出为可能的致病微生物。

在另一方面，本发明还提供了可用于宏基因组二代测序(mNGS)数据分析的系统，其包括：

1)数据提取模块：对待检测病原体感染的样本进行核酸提取，建库测序，得到宏基因组测序数据；

2)计算处理模块：用于对测序数据按索引序列的不同进行拆分，过滤低质量的数据，数据去重，得到unique数据集合，即Unique Reads数)(Unique Reads)，去除人源序列；

剩余的测序片段对微生物数据库使用基于K-mer算法进行序列的物种分类，分到微生物的总和为Micro数据集合，即Micro Reads数(Micro-Reads)，每个具体微生物物种的集合为Species Reads数(Species-Reads)；

计算RPM(Micro)，和/或对样本中的每个物种RPM(Micro)_样本与同一批阴性对照NTC中的每个物种RPM(Micro)_NTC进行比较，计算RPM(Micro)_比例；RPM(Micro)、RPM(Micro)_比例具体计算方法如下：

其中，阴性对照(NTC)为水；分母不能为0，当RPM(Micro)_NTC为0时，则按1计算；

寻找并验证为阴性的临床样本作为背景库；统计背景库中每个物种RPM(Micro)的检出分布，包括最大值、最小值、中位数、平均数和/或标准差；将微生物的RPM(Micro)_样本与背景库中该微生物的RPM(Micro)进行显著性分析计算；

3)判断模块：对计算处理的各结果进行判断；对RPM(Micro)_比例设置相应的阳性判断值，对样本中的每个物种的微生物进行判断；将判断为阳性的微生物RPM(Micro)_样本与背景库中的该微生物的RPM(Micro)进行显著性分析判断；若显著高于背景库，则微生物不是“背景”微生物，则判断为可能的致病病原体。

在一些实施方案中，所述判断模块还包括置信度分析判断：对RPM(Micro)_样本显著高于背景库数据的微生物，进行置信度分析，置信度低的微生物不认为是致病病原体，若为高置信度，则判断为可能的致病病原体。在优选的实施方案中，所述判断模块中，RPM(Micro)_比例设置相应的阳性判断值为：RPM(Micro)_比例≥m，m为1～100的自然数，优选地，m为5-50的自然数。

难检测到、临床有重要意义的特殊病原体：Species Reads数≥1，即为阳性；所述特殊病原体优选结核杆菌，布鲁氏菌等。

在一些实施方案中，判断模块中，所述显著高于背景库是指，将背景库检出的微生物RPM(Micro)值进行统计分析，确定各个微生物的阈值；样本中检出微生物的RPM(Micro)_样本值和背景库的数值进行显著性分析；若显著高于背景库，则判断该微生物不是“背景”微生物。优选地，所述显著高于背景库是指：该微生物显著差异性分析P≤0.01。

在一些实施方案中，判断模块中所述置信度分析判断是指，对样本中微生物进行包括但不限于Species Reads、属内丰度、种丰度、覆盖度、离散度等指标的置信度分析，如微生物的各个指标参数符合置信度要求，则为高置信度，否则为低置信度。置信度低的微生物不认为是致病病原体，若为高置信度，则判断为可能的致病病原体。

在一些实施方案中，数据提取模块中所述测序通过测序仪进行，所述测序仪选自Illumina、Life测序仪，优选Nextseq500；所述测序方式为SE50、SE75、SE100、SE150、SE200、PE50、PE100、PE150或PE200，优选SE75；在具体的实施方案中，所述数据提取模块中测序总数据量≥15M。

在一些实施方案中，所述判断模块中背景库的阴性临床样本选自以下的一个或多个：血液、淋巴液、间隙液、脑脊液、肺泡灌洗液、支气管灌洗液、痰液、胸腹水、尿液、唾液、粪便、实验室环境样本或采样环境样本。其中，每种类型的阴性临床样本不少于50例，优选不少100例。

在另一方面，本发明还提供了可用于宏基因组二代测序(mNGS)数据分析的设备，其包括：

1)存储器，被配置为存储一个或多个程序；

2)处理单元，耦合至所述存储器并被配置为执行所述一个或多个程序使管理系统执行多个动作，所述动作包括执行根据本发明所述的mNGS数据分析方法的步骤。

在另一方面，本发明还提供一种计算机可读存储介质，所述可读存储介质存储有机器可执行的方法的指令，所述指令在被执行时，使机器执行如上所述的方法。

在另一方面，本发明还提供了如上所述的方法或系统或设备或计算机可读存储介质在mNGS病原体数据分析中的用途。

以下将结合具体的实施例进一步阐述本发明。

附图说明

图1：宏基因组二代测序(mNGS)病原体的数据分析流程图

具体实施方式

下列实施例描述了本发明的一些实施方案。但是应理解，实施例和相应的表格仅以举例说明的方式给出，绝不限制本发明的范围。

对3例样本进行同一批DNA提取、建库、上机测序Nextseq500测SE75，每个样本测得Reads数在10M-30M之间，Q30＞85％。下机数据按索引序列(index)进行拆分，并过滤掉低质量的数据以及数据去重等常规操作，得到unique数据集合，即Uniq Reads数(UniqueReads)。然后去除掉人源序列；剩下的测序片段对微生物数据库使用基于K-mer算法进行序列的物种分类，能分到微生物的总和为Micro数据集合，即Micro Reads数(Micro Reads)。如表1。

表1：

样本号	9841	9528	11174
				原始数据读长(bp)	75	75	75
原始Reads数	26.58M	11.92	27.71
				原始数据Q30(％)	93.91	89.29	91.38
Clean Reads数	24.2M	9.68	24.93
				Unique Reads数(Unique Reads)	22.07M	4.84	14.76
人源Reads数	22.01M	4.69	0.18
				人源Reads数比例(％)	99.74	96.74	1.21
Micro Reads数(Micro Reads)	0.05M	0.16	14.59
				Micro Reads数比例(％)	0.26	3.26	98.79

实施例1：一例检出流感嗜血杆菌的样本

样本9841状态为清晰透明，无粘稠、沉淀、絮状物。该样本X(文库2)得到的原始数据量26.58M；Uniq Reads数22.07M；比对到人的Reads比例为99.74％，比对到微生物(Micro)的Reads为0.05M。

根据判读标准RPM(Micro)_比例≥50通过阈值的物种共有3个(表2)。表2中物种1、2(流感嗜血杆菌和粘滑罗斯菌)若用RPM(Uniq)_比例无法通过阈值判读，而RPM(Micro)_比例能够通过阈值判读。说明RPM(Micro)_比例是更灵敏更准确的指标。表2中物种4和5科氏葡萄球菌和无乳链球菌RPM(Micro)_比例未通过阈值判读，过滤掉。表2中物种2、3(粘滑罗斯菌和产黑素普雷沃菌)虽然RPM(Micro)_比例能够通过阈值判读，但并未显著高于背景库，很可能是背景微生物，并非致病微生物。因此，该样本最终报出流感嗜血杆菌。

表2：

实施例2：一例肺泡灌洗液样本

样本9528为肺泡灌洗液。对该样本进行相应处理后，进行提取、建库、上机测序(Nextseq500测SE75)，该样本文库编号9528，测得数据量11.92M；Uniq Reads数4.84M；比对到人的Reads比例为96.74％，比对到微生物(Micro)的Reads为0.16M。

根据判读标准RPM(Micro)比例≥50通过阈值的物种共有7个(表3)。表3中副流感嗜血杆菌虽然RPM(Micro)_比例能够通过阈值判读(≥50)，但并未显著高于背景库，很可能是背景微生物，并非致病微生物。其他病原体均符合RPM(Micro)_比例≥50、显著高于背景库，但光滑念珠菌的置信度低，不予报出。因此，该样本最终报出人巨细胞病毒(CMV)、肺炎克雷伯菌、鲍曼不动杆菌、金黄色葡萄球菌、热带念珠菌。

表3：

实施例3：一例检出鼻疽诺卡氏菌的样本

样本11174为石蜡包埋组织。对该样本进行相应处理后，进行提取、建库、上机测序(Nextseq500测SE75)，该样本文库编号11174，测得数据量27.71M；Uniq Reads数14.76M；比对到人的Reads比例为1.21％，比对到微生物(Micro)的Reads为14.95M。

根据判读标准RPM(Micro)_比例≥50和背景库过滤得到可能病原体列表为鼻疽诺卡氏菌、铜绿假单胞菌、海茨氏博德特氏杆菌。因此，对三种微生物进行置信度分析，各个参数详见下表(表4)。铜绿假单胞菌、海茨氏博德特氏杆菌覆盖度低而离散度低，因此置信度低，故不予报出；鼻疽诺卡氏菌的Species Reads数、属/种丰度、覆盖度以及离散度都较高，置信度高，因此认为是真的致病菌可能性大；鼻疽诺卡氏菌在报告正文报出。

表4：

以上所述仅为本发明的实施例，并不用于限制本发明，对于本领域的技术人员而言，本发明可以有更改和变化。凡在本发明的精神和原则之内，所作的任何修改、同等替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种宏基因组二代测序(mNGS)数据分析的方法：

1)样本核酸提取、建库测序：对待检测病原体感染的样本进行核酸提取，建库测序，得到宏基因组测序数据；

2)数据处理：对测序数据按索引序列的不同进行拆分，过滤低质量的数据，数据去重，得到Unique数据集合，即Unique Reads数，去除人源序列；

剩余的测序片段对微生物数据库使用基于K-mer算法进行序列的物种分类，分到微生物的总和为Micro数据集合，即Micro Reads数，每个具体微生物物种的集合为SpeciesReads数；

3)NTC过滤：计算RPM(Micro)，和/或对样本中的每个物种RPM(Micro)与同一批NTC中的每个物种RPM(Micro)进行比较，计算RPM(Micro)_比例；其中RPM(Micro)、RPM(Micro)_比例具体计算方法如下：

其中，PRM(Micro)为每百万Reads数的测序数据量中每种微生物的Reads数，NTC为阴性对照，即水；分母不能为0，当RPM(Micro)_NTC为0时，则按1计算；

对RPM(Micro)_比例设置相应的阳性判断值，对样本中的每个物种的微生物进行判断；

4)显著性分析：寻找并验证为阴性的临床样本作为背景库；统计背景库中每个物种RPM(Micro)的检出分布，包括最大值、最小值、中位数、平均数和/或标准差；将步骤3)中判断为阳性的微生物的RPM(Micro)与背景库中该微生物的RPM(Micro)进行显著性分析，若显著高于背景库，则报出该微生物分析结果为阳性。

2.如权利要求1所述的方法，其中还包括步骤：

5)置信度分析：对于显著高于背景库的微生物进行置信度分析，若为高置信度，则报出该微生物分析结果为阳性。

3.如权利要求1或2所述的方法，步骤3)中，RPM(Micro)_比例设置相应的阳性判断值为：RPM(Micro)_比例≥m，其中m为1-100的自然数，优选地，m为5-50的自然数；对于难检测到、临床有重要意义的特殊微生物：Species Reads数≥1，即为阳性。

4.如权利要求3所述的方法，其中特殊微生物为结核杆菌或布鲁氏菌。

5.如权利要求1或2所述的方法，其中步骤4)中所述显著高于背景库是指，将背景库检出的微生物RPM(Micro)值进行统计分析，确定各个微生物的阈值；样本中检出微生物的RPM(Micro)_样本值和背景库的数值进行显著性分析；若显著高于背景库，则该微生物不是“背景”微生物。

6.如权利要求5所述的方法，所述显著高于背景库是指：该微生物P≤0.01。

7.如权利要求2所述的方法，其中步骤5)中所述置信度分析指标包括Species Reads数、属内丰度、种丰度、覆盖度、离散度；如微生物指标的参数符合置信度要求，则该微生物置信度为高置信度，否则为低置信度。

8.如权利要求1所述的方法，步骤1)中所述测序通过测序仪进行，所述测序仪选自Illumina、Life测序仪，优选Nextseq500；所述测序方式为SE50、SE75、SE100、SE150、SE200、PE50、PE100、PE150或PE200，优选SE75。

9.如权利要求1或2所述的方法，所述步骤1)测序总数据量≥15M。

10.如权利要求1或2所述的方法，所述步骤4)中阴性的临床样本选自以下的一个或多个：血液、淋巴液、间隙液、脑脊液、肺泡灌洗液、支气管灌洗液、痰液、胸腹水、尿液、唾液、粪便、实验室环境样本或采样环境样本。

11.如权利要求10所述的方法，其中，每种类型的阴性临床样本不少于50例，优选不少100例。

12.一种用于宏基因组二代测序(mNGS)数据分析的系统，包括：

2)计算处理模块：用于对测序数据按索引序列的不同进行拆分，过滤低质量的数据，数据去重，得到unique数据集合，即Unique Reads数，去除人源序列；

计算RPM(Micro)，和/或对样本中的每个物种RPM(Micro)与同一批NTC中的每个物种RPM(Micro)进行比较，计算RPM(Micro)_比例；RPM(Micro)、RPM(Micro)_比例具体计算方法如下：

寻找并验证为阴性的临床样本作为背景库；统计背景库中每个物种RPM(Micro)的检出分布，包括最大值、最小值、中位数、平均数和/或标准差；将各微生物的RPM(Micro)_样本与背景库中该微生物RPM(Micro)进行显著性分析计算；

3)判断模块：对计算处理的各结果进行判断：对RPM(Micro)_比例设置相应的阳性判断值，对样本中的每个物种的微生物进行判断；将判断为阳性的微生物的RPM(Micro)_样本与背景库中的该微生物的RPM(Micro)进行显著性分析判断；若显著高于背景库，则判断该微生物分析结果为阳性。

13.如权利要求12所述的系统，其中判断模块还包括置信度分析判断：对RPM(Micro)_样本显著高于背景库的微生物，进行置信度分析：若为高置信度，则判断该微生物分析结果为阳性。

14.如权利要求12或13所述的系统，其中，所述判断模块中，RPM(Micro)_比例设置相应的阳性判断值为：RPM(Micro)_比例≥m，m为1-100的自然数；优选地，m为5-50的自然数；对于难检测到、临床有重要意义的特殊微生物：Species Reads数≥1，即判断为阳性；所述特殊微生物优选结核杆菌或布鲁氏菌。

15.如权利要求12或13所述的系统，判断模块中，所述显著高于背景库是指，将背景库检出的微生物RPM(Micro)值进行统计分析，确定各个微生物的阈值；样本中检出微生物的RPM(Micro)_样本和背景库的数值进行显著性分析；若显著高于背景库，则判断该微生物不是“背景”微生物。

16.如权利要求15所述的系统，所述显著高于背景库是指：该微生物的P≤0.01。

17.如权利要求13所述的系统，判断模块中所述置信度分析判断是指，对样本中病原体的指标包括Species Reads数、属内丰度、物种丰度、覆盖度、离散度中的一种或多种进行置信度分析，如病原体指标的参数符合置信度要求，则该病原体置信度为高置信度，否则为低置信度。

18.如权利要求12所述的系统，数据提取模块中所述测序通过测序仪进行，所述测序仪选自Illumina、Life测序仪，优选Nextseq500；所述测序方式为SE50、SE75、SE100、SE150、SE200、PE50、PE100、PE150或PE200，优选SE75。

19.如权利要求12或13所述的系统，所述数据提取模块中测序总数据量≥15M。

20.如权利要求12或13所述的系统，所述判断模块中背景库的阴性临床样本选自以下的一个或多个：血液、淋巴液、间隙液、脑脊液、肺泡灌洗液、支气管灌洗液、痰液、胸腹水、尿液、唾液、粪便、实验室环境样本或采样环境样本。

21.如权利要求20所述的系统，其中，每种类型的阴性临床样本不少于50例，优选不少100例。

22.一种可用于宏基因组二代测序(mNGS)数据分析的设备，其包括：

1)存储器，被配置为存储一个或多个程序；

2)处理单元，耦合至所述存储器并被配置为执行所述一个或多个程序使管理系统执行多个动作，所述动作包括执行根据权利要求1-11中任一项所述的方法的步骤。

23.一种计算机可读存储介质，所述可读存储介质存储有机器可执行的方法的指令，所述指令在被执行时，使机器执行如权利要求1-11任一项所述的方法。

24.权利要求1-11中任一项所述的方法或权利要求12-21所述的系统或权利要求22所述的设备或权利要求23所述的计算机可读存储介质在病原体数据分析中的用途。