CN113215235A

CN113215235A - 一种高通量快速检测病原微生物的方法

Info

Publication number: CN113215235A
Application number: CN202110673526.6A
Authority: CN
Inventors: 张道允; 巩子英; 孙永华; 虞洪杰
Original assignee: Jiaxing Yunying Medical Inspection Co ltd
Current assignee: Jiaxing Yunying Medical Inspection Co ltd
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-06

Abstract

本申请公开了一种用于检测病原微生物的方法。该方法可以包括：从受试者的样本中同时分离提取DNA和RNA；对提取出的RNA进行逆转录得到cDNA；使用含有多种酶的组合物对所述提取出的DNA和所述cDNA进行处理，得到处理后的DNA和cDNA；基于所述处理后的DNA和cDNA，进行PCR扩增，从而构建测序文库；基于所述测序文库，进行宏基因组测序，得到所述样本的宏基因组测序结果；以及基于所述宏基因组测序结果、病原微生物基因组数据库和物种分类数据库，确定所述样本中的病原微生物。本申请还公开了一种用于建立微生物宏基因组测序文库的试剂盒。该试剂盒包括片段化及末端修复体系，其包括DNA内切酶、T4多聚核苷酸激酶、T4DNA聚合酶、克列诺片段以及Taq酶。

Description

一种高通量快速检测病原微生物的方法

技术领域

本申请涉及生物技术领域，特别涉及一种高通量快速检测病原微生物的方法与用于宏基因组测序文库的试剂盒。

背景技术

感染病原微生物(例如，新冠病毒、流感病毒、埃博拉病毒等)的感染性疾病威胁着人们的健康。病原体的传播，以及多重耐药病原体使得感染性疾病的精确诊断和有效治疗面临日益严峻的挑战。随着新发病原微生物的出现、耐药病原微生物的增多以及免疫抑制宿主的增加，发病率和死亡率居高不下。特别对于重症感染患者，起病急、进展快、病原体复杂，短时间内能否明确致病病原微生物至关重要。

依赖于培养的病原微生物检测方法虽然成本低易适应，但微生物需要在恰当的培养基上培养，容易造成无法培养的阴性结果，而且培养周期较长，劳动力密集，其敏感性亦受先前使用抗感染药物的影响，同时在鉴别需要复杂营养的生物和病毒方面应用有限，其准确性和可靠性在很大程度上取决于熟练的分类学知识。基于免疫学的病原微生物检测方法缺乏选择性和敏感性，细菌中邻近抗原的高交叉反应性。基于PCR的病原微生物检测方法易于受到扩增偏好的影响，且成本高于基于培养的检测方法，同时在区分活细胞和死细胞方面具有一定局限性。基于靶向测序技术的方法，如16S rRNA,18s rRNA或ITS(核糖体内部转录间隔区)，仅包含所选定的部分基因片段，与已知微生物的预定数据库有关，无法充分分析新的微生物，同时也具有扩增偏好性。因此，期望提供一种能够快速准确检测病原微生物的方法以及用于建立微生物宏基因组测序文库的试剂盒。

发明内容

根据本申请的一方面，提供了一种用于检测病原微生物的方法。该方法可以包括从受试者的样本中同时分离提取DNA和RNA，得到核酸提取物，该核酸提取物中含有DNA和RNA。所述方法还可以包括对核酸提取物进行逆转录得到含有cDNA和提取出的DNA的第一产物；使用含有多种酶的组合物对所述第一产物进行处理，得到含有处理后的DNA和cDNA的第二产物；基于所述第二产物，进行PCR扩增，从而构建测序文库；基于所述测序文库，进行宏基因组测序，得到所述样本相关的宏基因组测序结果；以及基于所述宏基因组测序结果、微生物基因组数据库和物种分类数据库，确定所述样本中的病原微生物。

根据本申请的另一方面，提供了一种用于建立微生物宏基因组测序文库的试剂盒，其特征在于，所述试剂盒包括片段化及末端修复体系，所述片段化及末端修复体系包括DNA内切酶、T4多聚核苷酸激酶、T4 DNA聚合酶、克列诺片段以及Taq酶，其中所述片段化及末端修复体系用于为基于样本得到的DNA进行片段化、末端修复和3’端加A尾。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，其中：

图1是根据本申请一些实施例所示的检测病原微生物的方法的流程图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，尽管术语“第一”、“第二”、“第三”等可以在本文中用于描述各种元素，但这些元素不应受这些术语的限制。这些术语仅用于将一个元素与另一个元素区分开来。例如，第一产物可以被称为第二产物，并且类似地，在不脱离本申请的示例性实施例的范围的情况下，第二产物可以被称为第一产物。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

以下是对本申请中一些术语的定义。

如本申请中所使用的，“受试者”(也可称为“个体”、“对象”)为接受检测或试验的对象。在一些实施例中，受试者可以是脊椎动物。在一些实施例中，脊椎动物为哺乳动物。哺乳动物包括但不限于灵长类(包括人和非人灵长类)以及啮齿动物(例如，小鼠和大鼠)。在一些实施例中，哺乳动物可以是人。在一些实施例中，“受试者”为感染病原微生物的对象。

本申请提供一种用于检测病原微生物的方法。该方法依赖于宏基因组测序。宏基因组测序是基于对样本中所有的核酸物质的新一代测序技术，不依赖于传统的微生物培养，直接对样本中的核酸进行高通量测序，然后与预设的数据库(例如，微生物分类数据库、人类基因数据库等)进行比对分析，根据比对到的序列信息来判断样本包含的病原微生物种类，再对确定种类后的微生物的物种reads(读长)数相对丰度进行估计，继而确定病原微生物(例如，与阴性对照中的物种reads数相对丰度进行比较)。在一些实施例中，还可以根据关键参数(例如，属的reads数相对丰度和物种的比对数)对确定种类后的微生物进行排序，确定候选病原微生物，再基于物种的比对数或微生物致病等级，从候选病原微生物中确定所述病原微生物。根据本申请的方法，能够快速、客观的检测样本中存在的病原微生物(包括细菌、结核分枝杆菌复合群、病毒、真菌、寄生虫及其他支原体、衣原体等)，且无需特异性扩增，成本较低，尤其适用于急危重症和疑难感染病原微生物的诊断，可以为临床医生提供诊断参考依据。在本申请中，可以同时提取样本中核酸，包括DNA和RNA。DNA和RNA的同时提取可以节省检测病原微生物的时间，使得检测结果更高效。

本申请还提供一种用于建立微生物宏基因组测序文库的试剂盒。试剂盒包括片段化及末端修复体系，所述片段化及末端修复体系包括DNA内切酶、T4多聚核苷酸激酶、T4DNA聚合酶、克列诺片段以及Taq酶，其中所述片段化及末端修复体系用于为基于样本品得到的DNA进行片段化、末端修复和3’端加A尾。通过本申请的试剂盒，可以一步实现片段化、末端修复和3’端加A尾，能够节省文库构建的时间，可以快速且高效地检测病原微生物。

根据本申请的一方面，提供了一种用于检测病原微生物的方法。图1是根据本申请一些实施例所示的检测病原微生物方法的流程图。该方法可以包括以下101-111步骤。

步骤101，从受试者的样本中同时分离提取DNA和RNA，得到核酸提取物。

在一些实施例中，受试者可以是哺乳动物，例如人。受试者可以是感染病原微生物的对象，或未感染病原微生物的对象。受试者的样本指的是从受试者分离出的含有核酸的任何组合物。示例性样本可以包括但不限于受试者的灌洗液(例如，肺泡灌洗液)、口腔/喉冲洗液、脑脊液、胸水、腹水、脓液、痰液、唾液、尿液、淋巴液、组织样本(例如，新鲜组织、福尔马林固定的石蜡包埋的组织(FFPET))、血液样本、纯化的或分离的细胞样本等或其组合。在一些实施例中，样本可以是血液样本。血液样本可以包括血浆、血清、外周血等。在一些实施例中，样本可以是非血液样本。示例性非血液样本可以包括痰液、灌洗液、胸水、组织样本、胸水、腹水、脑脊液、细胞样本等。在一些实施例中，非血液样本可以包括痰液、灌洗液、胸水或组织样本。不同的样本可以通过不同的采集方式获取。例如，可以通过活检(例如，穿刺活检、液体活检)、手术获取等方法来采集受试者的非血液样本。又例如，可以通过静脉采血法、末梢采血法、动脉采血法等采集受试者的血液样本。在一些实施例中，采集受试者的样本的操作者可以与操作本申请的检测病原微生物的方法的全部或部分步骤的操作者相同或不同。

可以从受试者的样本中同时分离提取DNA和RNA，得到核酸提取物。仅作为示例，其步骤可以包括：对样本进行预处理；对预处理后的样本进行细胞裂解处理；加入核酸提取试剂，离心过滤获得DNA和RNA沉淀。所述DNA和RNA沉淀即可作为所述核酸提取物。

对样本进行的预处理可以包括通过加入叠氮溴化丙锭(propidium monoazide，PMA)降低宿主DNA比例。PMA是一款具有高亲和力的光敏反应DNA结合染料。染料自身的荧光非常微弱，但是结合核酸后荧光信号显著增强。PMA完全不能通过细胞膜，只能选择性的修饰死细胞“暴露”的DNA。这一特性使得PMA与实时定量PCR联合使用，能够选择性的扩增活细菌DNA，而不扩增被PMA修饰的死细菌DNA。利用该PMA，从而可以进行病原微生物的检测。由于PMA的光敏特性，需要对加入PMA后的混合物先避光再进行光照处理。避光处理的时间可以是1min、3min、5min、7min等。光照处理的时间可以是10min、15min、20min、25min、30min等。为了使PMA与样本充分反应，在光照处理时需对混合液进行混匀(例如，通过摇床混匀、通过光敏反应仪开启混匀功能)。加入的PMA的用量和浓度可以与样本中活菌与死菌的量有关，例如可有效抑制死菌DNA扩增，同时并不影响活菌DNA的PCR扩增。在一些实施例中，PMA的浓度可以是0.3M、0.4M、0.5M等。在一些实施例中，PMA的用量可以是10ul、20ul、30ul、40ul、50ul、60ul等。附加地或可选地，对样本进行的预处理还可以包括清洗样本、离心处理等。可以通过清洗溶液(例如，PBS缓冲液、生理盐水、灭菌蒸馏水)对样本进行清洗。

对预处理后的样本进行细胞破碎处理指的是使细胞破碎以及使核酸游离在破碎液中的处理。细胞破碎处理可以包括机械破碎处理(例如，珠磨法、高压匀浆法)、酶解破碎处理、超声破碎处理等或其组合。酶解破碎处理中用到的酶可以包括但不限于溶菌酶(lysozyme)、β-1,3-葡聚糖酶(glucanase)、β-1,6-葡聚糖酶、蛋白酶(protease)(例如，蛋白酶K)、甘露糖酶(mannanase)、糖苷酶(glycosidase)、肽链内切酶(endopeptidase)、壳多糖酶(chitinase)等。细胞破碎处理还可以包括使用去污剂(如SDS溶液、Tween 20、TritonX-100、异硫氰酸胍等)、盐溶液(例如，Tris、Tris-HCl、EDTA、NaCl溶液等)等处理。去污剂的主要作用是通过使蛋白质变性，破坏膜结构及解开与核酸相连接的蛋白质，从而实现核酸游离在细胞破碎液体系中。盐溶液的主要作用除了提供一个合适的裂解环境(如Tris)，还包括抑制样品中的核酸酶在裂解过程中对核酸的破坏(如EDTA)、维持核酸结构的稳定(如NaCl溶液)等。在一些实施例中，细胞破碎处理可以包括使用蛋白酶K、异硫氰酸胍、Tris-HCL、EDTA、TritonX-100、以及SDS溶液(例如，10％SDS溶液)处理。

加入核酸提取试剂，离心过滤获得DNA和RNA步骤中的核酸提取试剂可以包括醇类(例如，无水乙醇、异丙醇)、醇类和盐类(例如，NaAc或NaCl)的混合液。醇类物质可以用于沉淀DNA和DNA。在一些实施例中，核酸提取试剂可以是无水乙醇(例如，对于非血液样本)。在一些实施例中，核酸提取试剂可以是异丙醇(例如，对于血液样本)。

步骤103，对核酸提取物进行逆转录得到第一产物。

在一些实施例中，对提取出的DNA和RNA可以一起进行逆转录操作，无需将DNA和RNA分离。逆转录可以是以提取出来的RNA为模板，通过反转录酶，合成互补的单链DNA(cDNA)。在一些实施例中，可以使用本领域人员已知的逆转录方法(例如，使用逆转录试剂盒)对提取出的RNA进行逆转录得到cDNA。将RNA逆转录成结构更稳定的cDNA，有利于后续文库构建以及测序。得到的第一产物中可以含有cDNA和原来提取出来的DNA。

步骤105，使用含有多种酶的组合物对所述第一产物进行处理，得到含有处理后的DNA和cDNA的第二产物。

在一些实施例中，所述含有多种酶的组合物可以包括片段化及末端修复体系，接头连接体系和/或PCR扩增体系。所述片段化及末端修复体系可以用于为基于样本得到的DNA进行片段化、末端修复和3’端加A尾。该片段化及末端修复体系可以包括DNA内切酶、末端修复酶和用于加A尾的酶，分别实现片段化、末端修复、3’端加A尾过程。DNA内切酶用于将DNA和cDNA进行片段化。DNA内切酶可以包括但不限于Fragmentase、脱氧核糖核酸酶I(DNase I)、核酸内切酶V(Endonuclease V)、脱氧核糖核酸酶II(DNase II)、Vvn、ColE7等或其任意组合。末端修复酶用于对片段化的DNA片段进行末端修复，使其形成平末端，并对DNA双链的5’端进行磷酸化。末端修复酶可以包括但不限于多聚核苷酸激酶(例如，T4多聚核苷酸激酶)、聚合酶(例如，T4 DNA聚合酶、克列诺片段(也称为大片段、克列诺酶、Klenow片段)、DNA聚合酶I)等或其组合。在一些实施例中，末端修复酶可以包括T4多聚核苷酸激酶、T4 DNA聚合酶和克列诺片段中的一个或多个。在一些实施例中，末端修复酶可以包括T4多聚核苷酸激酶、T4 DNA聚合酶和克列诺片段。用于加A尾的酶用于在DNA片段的3’端加上A尾。用于加A尾的酶可以包括但不限于Taq酶、克列诺片段(exo-)等或其任意组合。通过上述组合物对DNA和cDNA进行处理，将片段化、末端修复、3’端加A尾一步处理，省去了多步操作和纯化步骤，可对微量DNA样本进行高效、快速的片段化、末端修复及A尾添加，操作更加简便，文库转化效率更高。

在一些实施例中，片段化及末端修复体系可以包括T4多聚核苷酸激酶、T4 DNA聚合酶、克列诺片段、Taq酶、DNase I酶。在一些实施例中，使用的所述片段化及末端修复体系中T4多聚核苷酸激酶的酶活力可以为10-20U范围之内。在一些实施例中，使用的T4 DNA聚合酶的酶活力可以为10U-20U范围之内。在一些实施例中，使用的克列诺片段的酶活力可以在10-20U范围之内。在一些实施例中，使用的Taq酶的酶活力可以为1-10U范围内。在一些实施例中，使用的DNase I酶的酶活力可以在0-3U范围之内，(例如1.5U)。

在一些实施例中，该方法还包括在进行所述PCR扩增之前，使用所述接头连接体系对所述处理后的DNA和cDNA加接头，使得DNA和cDNA与接头连接。所述接头连接体系包括T4DNA连接酶和如SEQ ID NO:1到SEQ ID NO:50所示的核苷酸中的至少一个。针对不同的测序平台，可以加入不同的平台的接头。接头是一段特殊设计的脱氧核糖核酸序列，通过连接(例如，通过接头连接酶)等方法固定在DNA片段两端后，在测序时能被识别并作为测序的起始位点，供仪器读取其后的序列信息。由于不同平台的文库结构不同，其使用的接头结构也有差异。在此步骤使用不同的接头，即可满足不同测序平台对于文库的需求。例如，对于Illumina测序平台，可使用Y型接头。接头可以包括通用接头(universal adapter)和加index的接头(indexed adapter)。通用接头与测序平台有关。相同的测序平台具有相同的通用接头。通用接头可以包括与SEQ ID NO:53所示的核苷酸相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的核苷酸。在一些实施例中，通用接头可以包括如SEQ IDNO:53所示的核苷酸。Index(或barcode)为几个碱基组成的寡核苷酸链，用于在测序时区分不同样本。在一些实施例中，加index的接头可以包括与SEQ ID NO:1到SEQ ID NO:50任一所示的核苷酸相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的一个或多个核苷酸。在一些实施例中，加index的接头可以包括如SEQ ID NO:1到SEQ ID NO:50所示的核苷酸中的至少一个。在一些实施例中，可以使用接头连接酶、接头连接缓冲液使DNA和cDNA与接头连接。在一些实施例中，接头连接酶可以是T4 DNA连接酶(快速)。T4 DNA连接酶(快速)的酶活力可以在100U-1000U范围内。在一些实施例中，T4 DNA连接酶的接头连接缓冲液可以包括Tris-HCl、MgCl₂、DTT、ATP、PEG 8000。

在一些实施例中，含有多种酶的组合物还包括适于多种酶反应的缓冲液，包括但不限于dNTP、dATP、盐类(例如，Tris-HCl、MgCl₂、KCl等)、二硫苏糖醇、甘油、Tween-20等或其任意组合。在一些实施例中，含有多种酶的组合物还可以包括dNTP、dATP、Tris-HCl、MgCl2、二硫苏糖醇等或其组合。

附加地或可选地，本方法还可以包括对加接头后的产物进行纯化以除接头污染。可以使用本领域人员已知的纯化步骤进行纯化，例如，使用磁珠纯化方法。

步骤107，基于所述第二产物，进行PCR扩增，从而构建测序文库。

在一些实施例中，可以加入与目的接头序列两端互补的核酸单链作为引物进行PCR扩增，得到大量的DNA产物从而构建测序文库。在一些实施例中，PCR扩增的引物可以包括与SEQ ID NO:51所示序列的相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的序列。PCR扩增的引物可以包括与SEQ ID NO:52所示序列的相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的序列。在一些实施例中，PCR扩增可以使用如SEQ ID NO:51和SEQID NO:52所示的引物。

步骤109，基于所述测序文库，进行宏基因组测序，得到所述样本的宏基因组测序结果。

在一些实施例中，需要对数据进行质控。质控标准可以包括在3’端(主要)和5’端剪除质量低于一定阈值(例如，22、20、18)的序列部分、去除剩余序列长度短于一定阈值(例如，55bp、50bp、45bp)的序列、序列3’端剪除ployX(例如，PolyG)、去除低复杂度(例如，复杂度＜32％、30％、28％等)序列、去除接头序列、对于不同样本来源的数据有效测序量要求不同(例如，有效测序量不低于20M(脑脊液)，有效测序量不低于40M(肺泡灌洗液)，有效测序量不低于50M(血液))等或其组合。

在一些实施例，上述质控标准可以在计算设备中提前设置，由处理设备自动执行质控标准。质控标准可以存储在存储器中。在一些实施例中，上述质控标准还可以由用户手动设置，例如，修改质控标准内容(增加或减少、或修改某个标准内容)。处理设备执行质控标准后可以输出宏基因组测序结果。宏基因组测序结果可以包括但不限于碱基序列(reads)、碱基质量值、物种reads相对丰度、属reads相对丰度、基因组覆盖度等。

步骤111，基于所述宏基因组测序结果，与微生物基因组数据库和物种分类数据库进行对比，确定所述样本中的病原微生物。

在一些实施例中，步骤111的部分或全部内容可以由计算设备执行。步骤109的部分内容也可以在计算设备上实现，如通过PCR仪器完成测序后的数据分析过程。计算设备可以包括处理设备(或处理器)、存储器、输入/输出接口和通信端口。处理设备可以执行计算指令(程序代码)并执行本申请描述的步骤(例如，步骤111)。计算指令可以包括程序、对象、组件、数据结构、过程、模块和功能(功能指本申请中描述的特定功能)。在一些实施例中，处理设备可以包括微控制器、微处理器、精简指令集计算机(RISC)、专用集成电路(ASIC)、应用特定指令集处理器(ASIP)、中央处理器(CPU)、图形处理单元(GPU)、物理处理单元(PPU)、微控制器单元、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、高级RISC机(ARM)、可编程逻辑器件以及能够执行一个或多个功能的任何电路和处理器等，或其任意组合。在一些实施例中，可以包括多个处理设备来执行步骤109。

在一些实施例中，处理设备可以从宏基因组测序结果中去除人源序列(即，源于受试者的序列)继而确定样本中的病原微生物。具体地，处理设备可以获取受试者的全基因组序列；采用bowtie2，将受试者的全基因组序列和所述宏基因组测序结果进行对比；将宏基因组测序结果中与受试者的全基因组序列对应的序列部分判定为源于受试者的序列；以及从所述宏基因组测序结果中去除所述源于受试者的序列，得到目标序列。

在一些实施例中，处理设备可以通过网络获取受试者的全基因组序列。处理设备还可以从预先存储了全基因组序列的存储器中获取。处理设备可以调用bowtie2(例如，使用bowtie2建立索引)，将受试者的全基因组序列和所述宏基因组测序结果进行对比。将受试者的全基因组序列和所述宏基因组测序结果进行对比的工具除了bowtie2，还可以包括bowtie、BWA等。处理设备可以将宏基因组测序结果中与受试者的全基因组序列对应的序列部分判定为源于受试者的序列。这里所述的“将宏基因组测序结果中与受试者的全基因组序列对应的序列部分”指的是宏基因组测序结果中与受试者的全基因组序列比对上的序列。这里的“比对数”指的是宏基因组测序结果中的某个序列与受试者的全基因组序列的碱基的错配数小于一定阈值(例如，12、10、9等)。例如，处理设备可以将宏基因组测序结果中与受试者的全基因组序列的完全相同(即，错配数为0)的序列部分判定为源于受试者的序列。又例如，处理设备可以将宏基因组测序结果中与受试者的全基因组序列的错配数为5的序列部分判定为源于受试者的序列。处理设备可以从宏基因组测序结果中去除所述源于受试者的序列，得到目标序列。目标序列可以为非人源序列。目标序列可以包括待检测的微生物和未知来源的序列。目标序列可以用于后续微生物的鉴别和丰度估计分析。

在一些实施例中，基于目标序列，处理设备可以确定样本中的病原微生物。

例如，处理设备可以基于微生物基因组数据库和物种分类数据库，建立Kraken2索引数据库；以及基于Kraken2索引数据库和目标序列，确定样本中微生物的种类。进一步地，采用Bracken对样本中的微生物的物种reads数相对丰度进行估计；以及基于物种reads数相对丰度，确定样本中的微生物。

微生物基因组数据库可以包括但不限于PATRIC数据库和/或NCBI的RefSeq和Genbank数据库中分类为细菌、古菌、真菌、病毒、寄生虫等的基因组数据。微生物基因组数据库具有较高的数据质量。可以包括基因组序列、描述序列的说明性文件等。物种分类数据库可以包括taxonomy数据库。Kraken2索引数据库可以用于在二代测序序列的物种鉴别。Kraken2采用基于k-mer精确串的算法，可高精度对宏基因组序列进行分类，结合taxonomy数据库，快速的将测序的序列分配到不同的物种或taxonomy的不同层次的分类节点上，从而确定样本中微生物的种类。Bracken数据库用于估算微生物的物种reads数相对丰度。物种reads数相对丰度指的是检出序列覆盖到该物种基因组的总序列数与覆盖到本次检测微生物基因组的总序列数的比值。处理设备可以采用Bracken对样本中的微生物的物种reads数相对丰度进行估计。Bracken使用贝叶斯统计的方法高精度的估算物种reads数相对丰度，结合taxonomy数据库的信息，可以确定出不同物种分类层次上的丰度估计，如在种或属的层次上的物种reads数相对丰度。

在一些实施例中，确定微生物还包括排除背景微生物的影响。背景微生物可以包括试验过程中引入的微生物、非致病性微生物等。试验过程中引入的微生物可以通过阴性对照实验确定。对样本进行测序还包括阴性对照进行测序，排除实验和测序过程中微生物的影响。阴性对照可以是将样本替换为8％福尔马林溶液，其余与样本测序过程相同。在一些实施例中，可以基于阴性对照的物种reads数相对丰度以及样本的物种reads数相对丰度，确定样本中的病原微生物。在一些实施例中，物种reads数相对丰度可以简写为相对丰度。相对丰度表示一种微生物在样本总微生物中所占的相对比例，通常以百分比表示。在一些实施例中，可以将阴性对照的物种的相对丰度与样本的物种的相对丰度进行比较，确定样本中的病原微生物。例如，若一微生物存在于阴性对照中且样本中的相对丰度数值与阴性对照中的相对丰度数值接近，则该微生物可以被认为属于背景微生物，而不属于该样本的病原微生物。在一些实施例中，还可以将实验室收集建立的非致病性病原菌数据库或其他非致病性病原菌数据库作为背景微生物数据库，通过将样本中的微生物与背景微生物数据库进行比较，从而确定背景微生物。在一些实施例中，可以将从样本中确定的排除背景微生物的其他微生物指定为候选病原微生物，并通过微生物致病等级来从候选病原微生物中确定样本中的病原微生物。例如，若某微生物不属于背景微生物，且属于A级致病微生物，则认为该微生物为病原微生物。

在一些实施例中，确定出物种的丰度和种类后，还可以对Kraken2得到的序列再次进行验证，例如，将序列与数据库中物种基因组序列进行比对得到比对数。该比对验证可以通过blat、blast等来实现。在一些实施例中，确定样本中的病原微生物还可以包括对微生物进行排序；根据排序结果确定候选病原微生物；以及从候选病原微生物中确定病原微生物。

对微生物进行排序可以包括根据关键参数对微生物进行排序。关键参数可以包括属的reads数相对丰度、物种的比对数、种的reads数相对丰度、均一化后的丰度等。在一些实施例中，可以根据属的reads数相对丰度对微生物进行排序，可以是倒序排序或正序排序。在微生物的每个属内，根据比对数(例如，blat数)对微生物进行排序，可以是倒序排序或正序排序。

在一些实施例中，可以根据排序结果，确定每个属中比对数最高的物种。可以进一步参考致病微生物数据库来判断所述比对数最高的物种的微生物致病等级，即判断该微生物是否属于A级致病微生物或B级条件致病微生物。在一些实施例中，致病微生物数据库可以包括A级致病微生物、B级条件致病微生物和无级致病微生物。A级致病微生物指的是有证据证明对人类有致病性的微生物，B级条件致病微生物指的是条件致病微生物是人体的正常菌群，当其寄生部位改变、机体抵抗力降低或菌群失调时则可致病。无级致病微生物指的是无致病性微生物或益生菌。可以基于预设的致病微生物数据库来确定各个微生物的微生物致病等级。例如，所述预设的致病微生物数据库可以包括以下数据库中的一种或多种：荷兰微生物学会(Dutch Society for Microbiology)、德国收集微生物和细胞培养物(Deutsche Sammlung von Mikroorganismen und Zellculturen)、美国模式培养物保藏所(American Type Culture Collection)、比利时生物安全服务机构(Belgian BiosafetyServer)、英国卫生与安全管理局(Advisory Committee on Dangerous Pathogens)等机构数据库及最新版的美国微生物目录(Microbe Directory)。在一些实施例中，可以预先确定每个物种所属的致病微生物等级(例如，属于A级致病微生物或B级条件致病微生物)。若判断出比对数最高的微生物属于A级致病微生物或B级条件致病微生物，确定比对数最高的微生物为候选病原微生物。若判断出比对数最高的微生物不属于A级致病微生物或B级条件致病微生物，将比对数最高的微生物确定为候选微生物，并再次进行判断步骤，判断比对数次高的微生物是否属于A级致病微生物或B级条件致病微生物，若是，则将该微生物也确定为候选微生物，并结束本次判断步骤。若否，则再次执行判断步骤，判断其余的微生物中具有最高比对数的微生物是否属于A级致病微生物或B级条件致病微生物，若是，则将该微生物也确定为候选微生物，并结束判断步骤。若否，再次执行前述判断步骤，直至确定出属于A级致病微生物或B级条件致病微生物的一个微生物，并将所述微生物确定为所述候选病原微生物。在一些实施例中，每个属内可以确定一个候选病原微生物。在一些实施例中，每个属内可以确定多个候选病原微生物。在一些实施例中，微生物可以包括任何可检测出的微生物，包括细菌、真菌、病毒及其他病原体。

在一些实施例中，根据排序结果，确定候选病原微生物可以包括：判断所述候选病原微生物是否满足预设条件。该预设条件可以包括：属于所述A级致病微生物的候选病原微生物的比对数大于等于A级比对数阈值，属于所述B级条件致病微生物的候选病原微生物的比对数大于等于B级比对数阈值，和属于无级致病微生物的候选病原微生物的比对数大于等于无级比对数阈值。在一些实施例中，判断是否满足预设条件的候选病原微生物可以包括细菌、真菌、病毒等。在一些实施例中，判断是否满足预设条件的候选病原微生物可以是细菌。在一些实施例中，A级比对数阈值可以最小，无级比对数阈值可以最大。在一些实施例中，A级比对数阈值、B级比对数阈值和无级比对数阈值可以相关，例如，线性相关。仅作为示例，B级比对数阈值与A级比对数阈值的比值与无级比对数阈值与B级比对数阈值的比值相同。A级比对数阈值可以是1、3、5、7、9、11等，B级比对数阈值可以是48、50、52、54、56等，无级比对数阈值可以是480、500、520、540等。在一些实施例中，A级比对数阈值可以是5，B级比对数阈值可以是50，无级比对数阈值可以是500。在一些实施例中，若候选病原微生物不满足上述预设条件，可以将所述候选微生物去除。例如，若候选病原微生物属于细菌，该候选细菌不满足预设条件，则将该候选病原微生物去除。

在一些实施例中，可以先从样本中确定的候选微生物物种中去掉背景微生物，在进行排序。例如，可以先通过阴性对照和/或背景微生物数据库来排除样本中的背景微生物，再对剩余的每个属中的微生物进行排序，从而根据排序结果确定候选病原微生物。

在一些实施例中，对于不同物种，从候选病原微生物中确定病原微生物的方式可以不同。在一些实施例中，可以确定所述候选病原微生物中具有最高物种比对数的第一微生物以及具有次高物种比对数的第二微生物。从候选病原微生物中确定病原微生物可以包括判断第一微生物的最高比对数与第二微生物的次高比对数的比值是否大于或等于第一阈值，若是，将最高比对数的所述第一微生物确定为所述病原微生物。例如，对于细菌、真菌可以采取上述标准。在一些实施例中，不同物种，第一阈值可以不同。例如，细菌的第一阈值可以不同于真菌的第一阈值。例如，细菌的第一阈值可以是4、5、6、7、8，真菌的第一阈值可以是1、2、3。在一些实施例中，细菌的第一阈值可以是5，真菌的第一阈值可以是3。在一些实施例中，可以将属于A级致病微生物的所有候选微生物确定为病原微生物。

在一些实施例中，对于候选病原微生物中的某些致病性较强的微生物物种，判定其是否为病原微生物的确定方式可以与上述方式不同。例如，对于这些致病性较强的微生物物种，若其比对数大于等于某一阈值(例如，1、3、5等)，可以将该微生物直接确定为病原微生物。例如，上述致病性较强的微生物可以包括结核分支杆菌复合群、病毒等，本发明对此不作限制。

应当注意的是，上述有关图1的方法步骤的描述仅仅是为了示例和说明，而不限定本申请的适用范围。对于本领域技术人员来说，在本申请的指导下可以对步骤进行各种修正和改变。然而，这些修正和改变仍在本申请的范围之内。例如，在一些实施例中，步骤101中提取DNA和RNA的步骤可以分开进行，分别得到DNA和RNA后，步骤103中单独对提取出来的RNA进行逆转录。又例如，可以只提取样本中的DNA，不提取RNA，则步骤103可以省略。

根据本申请的另一方面，提供一种用于建立微生物宏基因组测序文库的试剂盒。该试剂盒可以包括片段化及末端修复体系，所述片段化及末端修复体系包括DNA内切酶、T4多聚核苷酸激酶、T4 DNA聚合酶、克列诺片段以及Taq酶。片段化及末端修复体系用于为基于样本得到的DNA进行片段化、末端修复和3’端加A尾。这里所述的DNA可以包括提取的DNA和cDNA。该cDNA可以通过样本提取的RNA进行逆转录得到。在一些实施例中，可以同时提取样本的DNA和RNA。片段化及末端修复体系还包括适于多种酶翻译的缓冲液，包括dNTP、dATP、Tris-HCl、MgCl₂、二硫苏糖醇等或其任意组合。

试剂盒还可以包括接头连接体系。该接头连接体系可以包括接头和T4 DNA连接酶。在一些实施例中，接头可以包括与SEQ ID NO:1所示的核苷酸相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的核苷酸。在一些实施例中，接头可以包括如SEQ ID NO:1所示的核苷酸。接头还可以包括带有index的接头。在一些实施例中，接头连接体系还可以包括接头连接缓冲液。

试剂盒还包括PCR扩增体系，所述PCR扩增体系包括热启动聚合酶、如SEQ ID NO:51所示的引物和如SEQ ID NO:52所示的引物。热启动聚合酶可以包括PCR扩增酶(例如，Taq酶)。PCR扩增的引物可以包括与SEQ ID NO:51所示序列的相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的序列。PCR扩增的引物可以包括与SEQ ID NO:52所示序列的相似度≥95％、≥90％、≥85％、≥80％、≥75％或≥70％的序列。在一些实施例中，PCR扩增使用了如SEQ ID NO:51和SEQ ID NO:52所示的引物。

实施例

下述实施例中的实验方法，如无特殊说明，均为常规方法。下述实施例中所用的试验材料，如无特殊说明，均为自常规生化试剂公司购买得到的。以下实施例中的定量试验，均设置多次重复实验，结果取平均值。

实施例1、样本核酸提取

1.1非血液样本核酸提取

取适量样本(痰液100ul、灌洗液200ul、胸水1ml、新鲜穿刺组织芝麻大小)以及8％福尔马林溶液作为阴性对照，离心3300rpm，10min后，舍弃上清液；

用PBS缓冲液清洗沉淀，重复两次后离心，去除上清液；

加200ul的H₂O与沉淀混匀；

加50ul的浓度为0.4M的叠氮溴化丙锭，震荡混匀；

室温避光5min；

光照25min，此阶段需要将样本置于摇床上，光照时候注意下层铺冰，降低灯光照射温度；

加20ul的浓度为20mg/ml的蛋白酶K，加1ul的20％SDS溶液；

对于痰液/组织液的样本，56℃放置30min，其余体液样本，56℃放置10min；

加200ul的A液(A液包括异硫氰酸胍、Tris-HCL、EDTA、TritonX-100)，加250ul的无水乙醇，-20℃静置半小时后离心得到核酸沉淀，吹干后用30ul的H₂O溶解该沉淀。

1.2血液样本核酸提取

取离心后的血浆1ml以及8％福尔马林溶液作为阴性对照，加20ul的浓度为0.4M的PMA，震荡混匀；

室温避光5min；

加15ul的浓度为20mg/ml的蛋白酶K，加50ul的20％SDS溶液；

56℃，孵育10min；

取10ml离心管，加1.25ml A液，将孵育后的血浆加入管中，震荡混匀，再加1.6ml的异丙醇，-20℃静置半小时后离心得到核酸沉淀，吹干后用30ul的H₂O溶解该沉淀。

实施例2、反转录及纯化

取10ul收集的核酸溶液加入10ul的1st RT mix混匀，启动PCR仪程序：25℃，10min；42℃，30min；70℃，15min进行反转录反应；

反应结束后添加2st RNA mix 30ul，混匀，反应程序：16℃，60min；4℃，保持，得到反转录产物；

纯化：在反转录产物中加90ul的纯化磁珠(beads)进行纯化，混匀孵育5min，置于磁力架上，缓慢吸弃上清，加200ul的80％的乙醇漂洗一次，等待20s；

吸弃上清，再重复一次80％乙醇进行漂洗；

等待磁珠干燥后，加53ul的H₂O洗脱，得到纯化后的产物。

实施例3、酶切法建库

取50ul的纯化后的产物，加15ul末端修复酶，反应程序：30℃，10min；70℃，15min；

加25ul接头连接缓冲液，5ul接头连接酶，5ul接头，反应程序：20℃，20min；4℃，hold，得到接头连接产物；

75ul beads纯化，80％乙醇洗2次；

22ul H₂O洗脱，得到纯化产物；

取20ul的纯化产物，加25ul的PCR扩增酶，5ul的引物(正向引物：AATGATACGGCGACCACCGAGAT，SEQ ID No:53，反向引物：CAAGCAGAAGACGGCATACGA，SEQ IDNO:52)，进行6-12轮PCR。

酶切法建库所用末端修复酶、接头连接缓冲液、接头连接酶、接头、PCR扩增酶的具体材料可参见下述表1。

表1酶切法建库所用组分所含材料

其中，在一些实施例中，使用的所述片段化及末端修复体系中T4多聚核苷酸激酶的酶活力为10-20U范围之内，T4 DNA聚合酶的酶活力为10U-20U范围之内，使用的克列诺片段的酶活力可以在10-20U范围之内，使用的Taq酶的酶活力可以为1-10U范围内，使用的DNase I酶的酶活力为1.5U，T4 DNA连接酶(快速)的酶活力可以在100U-1000U范围内，使用的PCR扩增酶的酶活力为1-10U范围之内。

实施例4、基于数据库进行数据分析

4.1数据库准备

从NCBI网站(ftp.ncbi.nlm.nih.gov/genomes)下载微生物基因组数据(例如，细菌、古菌、真菌、病毒、寄生虫)以及人类基因组数据(例如，版本37的人类基因组数据)；

从NCBI网站下载taxonomy数据库；

基于全部的微生物基因组数据以及taxonomy数据库，建立Kraken2索引数据库，用于对测序的序列进行物种鉴别；

建立Bracken数据库，用于估算微生物的物种reads数相对丰度；

基于人类基因组数据，使用bowtie2建立索引，用于下机数据(即，测序生成的全部数据)中的人源序列的去除。

4.2数据质控(对下机数据的控制标准)

采用fastp程序对下机数据进行质控，在序列3’端(主要)和5’端剪除质量低于20(Q20)的序列部分，并去除剩余序列长度短于50bp的序列；

在序列3’端剪除ployX(包含NextSeq500常见的PolyG)；

去除低复杂度(例如，小于30％)序列；

确定不同样本来源的数据的有效测序量，例如，对于脑脊液有效测序量不低于20M，对于肺泡灌洗液有效测序量不低于40M，对于血液有效测序量不低于50M。

4.3人源序列的去除

采用bowtie2对质控后的序列与人类基因组数据进行比较，将比对上人类基因组上的序列，定义为人源序列；未比对上人类基因组的序列定义为非人源序列，可能来源于待检测的微生物和未知来源的序列，非人源序列用于后续微生物的鉴别和丰度估计分析。

4.4物种序列鉴定

采用Kraken2对非人源序列进行鉴别。Kraken2采用基于k-mer精确串的算法，可高精度对宏基因组序列进行分类，结合Taxonomy数据库的信息，快速的将二代测序的reads分配到不同的物种或Taxonomy的不同层次的分类节点上。

4.5物种reads数相对丰度(每个物种占全部物种的比重)估计

基于Kraken2的结果，采用Bracken对物种reads数相对丰度进行估计。Bracken使用贝叶斯统计的方法高精度的估算物种reads数相对丰度，结合Taxonomy数据库的信息，Bracken可给出不同物种分类层次上的丰度估计，如在种或属的层次上的丰度。

4.6物种过滤

过滤了常见的可能非致病性病原菌，包括：从阴性对照样本中检测出来的非致病性病原菌，实验室收集建立的非致病性病原菌数据库中包含的非致病性病原菌。

实施例5、生成报告

5.1测序质量评估

下表2概括性的展示了下机数据的总序列数、人类核酸过滤后序列数以及非人类序列百分比。非人类序列百分比根据总序列数和人类核酸过滤后序列数。非人类序列百分比用于衡量样本污染的可能性。非人类序列百分比过高，样本可能会污染。下表2中非人类序列百分比为1.31％，表明样本并未被污染。

表2序列数显示

5.2确定阴性(即，8％福尔马林溶液)对照在样本采集、存贮及整个实验过程中可能引入的微生物及其相对丰度，阴性对照重复4次检测的结果如下表3所示。

表3阴性对照中确定的微生物种类以及相对丰度

5.3检测结果

对于病原微生物的宏基因组检测报告，尽可能提供检测列表以及检测样本中实际存在的病原微生物的各项信息。测序结果中的病原微生物是根据实验室收集建立的致病性病原菌数据库，以及在宏基因组分析中检测的物种进行比对确定。将病原微生物分为6类，依次为细菌、真菌、病毒、寄生虫、结核分枝杆菌复合群和其他病原体。每一类中包含有对应病原微生物的各项信息，包括病原微生物属名、属reads数、种名、种reads数、种相对丰度、种基因组覆盖度。

如本申请中所使用的，“结核分枝杆菌复合群”可以包括但不限于人结核分枝杆菌Mycobacteria tuberculosis、田鼠分枝杆菌Mycobacteria microti、牛型分枝杆菌Mycobacteria bovis、非洲分枝杆菌Mycobacteria africanum、山羊分枝杆菌Mycobacteria caprae、海豹分枝杆菌Mycobacteria pinnipedii、带状猫鼬分枝杆菌Mycobacteria mungi、猫鼬分枝杆菌Mycobacteria suricattae、羚羊分枝杆菌Mycobacteria orygis、Mycobacteria canettii以及Mycobacterium decipiens。

根据上述结果，此次结果中可能包括以下情况产生的病原微生物：1)样本采集过程中或分装过程中受到污染的环境微生物或其核酸；2)样本采集容器本身带有的环境微生物或其核酸；3)样本采集过程中受到污染的病人身上(皮肤、上呼吸道、口腔、肠道等)的人体共生微生物；4)样本采集过程中受到污染的采集人员或分装人员身上(皮肤、上呼吸道、口腔、肠道等)的人体共生微生物；5)定植于病人特定身体部位的微生物；6)有可能造成真正感染的病原微生物。

实施例6、基于物种reads数相对丰度进行数据分析

6.1数据库准备

从NCBI网站下载taxonomy数据库；

建立Bracken数据库，用于估算微生物的物种reads数相对丰度；

6.2数据质控(对下机数据的控制标准)

在序列3’端剪除ployX(包含NextSeq500常见的PolyG)；

去除低复杂度(例如，小于30％)序列；

6.3人源序列的去除

6.4物种序列鉴定

6.5物种序列验证

对Kraken2得到的reads序列进行blat验证，得到物种blat数。

6.6物种reads数相对丰度(每个物种占全部物种的比重)估计

6.7确定候选病原微生物

按关键词：属的物种reads数相对丰度进行倒序排序后，对每个属，按关键词：物种blat数进行倒序排序后，判断每个属内blat数最高的物种是否属于A级致病微生物或B级条件致病微生物。若是，则保留blat数最高的物种；若否，则将后续属于A级致病微生物或B级条件致病微生物的排序最高的物种也保留。其中，对于不包括结核分枝杆菌复合群的细菌需要满足预设条件，从而确定物种保留下限。预设条件为：属于A级致病微生物的保留物种的blat数大于等于5，属于B级条件致病微生物的保留物种的blat数大于等于50，不属于A级和B级条件致病微生物(例如，属于无级致病微生物)的保留物种的blat数大于等于500。

6.8物种过滤

1)过滤了常见的可能非致病性病原菌，包括：从阴性对照样本中检测出来的非致病性病原菌，实验室收集建立的非致病性病原菌数据库中包含的非致病性病原菌。

实施例7、生成报告

7.1测序质量评估

下表4概括性的展示了不同样本所测得的下机数据的总序列数、严格序列数、人类序列数及其比例，微生物序列数及其比例。微生物序列百分比用于衡量样本污染的可能性。微生物序列百分比过高，样本可能会污染。下表4中表明样本1-7均并未被污染。

表4序列数显示

7.2确定候选病原微生物

以下表格概括性的展示了不同样本中所确定的物种所测得的物种reads数相对丰度、blat数、致病等级、微生物类别等，并根据各个数值确定出候选病原微生物和背景微生物。

下表5示例性的示出了样本1中确定的候选病原微生物。

表5样本1中确定的物种的各个参数

从表5中可以看出，按照属reads数相对丰度倒序排序，假单胞菌属排在寡养单胞菌属之前。再对各个属内排序，铜绿假单胞菌和嗜麦芽窄食单胞菌的blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。

下表6示例性的示出了样本2中确定的候选病原微生物。

表6样本2中确定的物种的各个参数

从表6可以看出，对于细菌，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述流感嗜血杆菌、嗜麦芽窄食单胞菌、粪产碱杆菌、产黑色素类杆菌均为候选微生物。对于真菌，仅存在烟曲霉为候选微生物。

下表7示例性的示出了样本3中确定的候选病原微生物。

表7样本3中确定的物种的各个参数

从表7可以看出，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述微生物均为候选微生物。

下表8示例性的示出了样本4中确定的候选病原微生物。

表8样本4中确定的物种的各个参数

从表8可以看出，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述微生物均为候选微生物。

下表9示例性的示出了样本5中确定的候选病原微生物。

表9样本5中确定的物种的各个参数

从表9可以看出，对于细菌，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述细菌微生物均为候选微生物。对于结核分枝杆菌复合群，均为候选微生物。

下表10示例性的示出了样本6中确定的候选病原微生物。

表10样本6中确定的物种的各个参数

从表10可以看出，对于细菌，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述细菌微生物均为候选微生物。

下表11示例性的示出了样本7中确定的候选病原微生物。

表11样本7中确定的物种的各个参数

从表11可以看出，对于细菌，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述细菌微生物均为候选微生物。对于真菌，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，限制性马拉色菌和费舍尔曲霉在各自属内blat数最高，判断为候选微生物。结核分枝杆菌复合群均为候选微生物。对于人孢疹病毒4型，其为属内blat数最高，判断为候选微生物。

下表12示例性的示出了样本8中确定的候选病原微生物。

表12样本8中确定的物种的各个参数

从表12可以看出，对于细菌，按照属reads数相对丰度进行倒序排列，再根据每个属内blat数进行倒序排列，将blat数最高且属于A级致病微生物或B级条件致病微生物，判断为候选微生物。因此，上述细菌微生物均为候选微生物。

实施例8、确定可能的病原微生物

根据表5-12，样本1中可能的病原微生物为铜绿假单胞菌，其属于A级致病微生物，或其blat数为次blat数物种的5倍以上；样本2中可能的病原微生物为流感嗜血杆菌和烟曲霉，流感嗜血杆菌的blat为次blat数物种的5倍以上，烟曲霉属于A级致病微生物；样本3中可能的病原微生物为流感嗜血杆菌和脑膜炎奈瑟菌，流感嗜血杆菌的blat为次blat数物种的5倍以上，脑膜炎奈瑟菌属于A级致病微生物；样本4中可能的病原微生物为齿龈欧氏菌和米氏链球菌，齿龈欧氏菌的blat为次blat数物种的5倍以上，米氏链球菌属于A级致病微生物；样本5中可能的病原微生物为结核分枝杆菌复合群，其blat数大于等于1；样本6中可能的病原微生物为产吲哚金黄杆菌和铜绿假单胞菌，产吲哚金黄杆菌的blat为次blat数物种的5倍以上，铜绿假单胞菌属于A级致病微生物；样本7中可能的病原微生物为粘滑罗斯菌、肺炎链球菌、结核分枝杆菌复合群、脑膜炎奈瑟菌、人孢疹病毒4型，粘滑罗斯菌的blat数为次blat数物种的5倍以上，肺炎链球菌、结核分枝杆菌复合群和脑膜炎奈瑟菌属于A级致病微生物，结核分枝杆菌复合群的blat数大于等于1，病毒均默认为致病微生物；样本8中可能的病原微生物为脆弱拟杆菌，其blat数为次blat数物种的5倍以上。样本1-8中除病原微生物外，其余均为背景微生物。

本申请所披露的一种检测病原微生物的方法以及一种用于建立微生物宏基因组测序文库的试剂盒，可能带来的有益效果包括但不限于：(1)同时提取样本中的DNA和RNA，可以节省检测病原微生物的时间，使得检测结果更准确且更高效；(2)使用试剂盒的片段化及末端修复体系，可以一步实现片段化、末端修复和3’端加A尾，能够节省文库构建的时间，可以快速且高效地检测病原微生物；(3)通过宏基因组测序的方法，尤其是使用病原微生物的确定规则(例如，先根据关键词对微生物进行排序确定候选病原微生物，再从候选微生物中确定病原微生物)，能够快速、客观的检测样本中存在的病原微生物，且无需特异性扩增，成本较低，尤其适用于急危重症和疑难感染病原微生物的诊断，可以为临床医生提供诊断参考依据。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

本领域的技术人员应当理解，以上实施例仅为说明本发明，而不对本发明构成限制。凡在本发明的精神和原则内所作的任何修改、等同替换和变动等，均应包含在本发明的保护范围之内。

序列表

<110> 嘉兴允英医学检验有限公司

<120> 一种高通量快速检测病原微生物的方法

<160> 53

<170> SIPOSequenceListing 1.0

<210> 1

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

gatcggaaga gcacacgtct gaactccagt cactaaggct catctcgtat gccgtcttct 60

gcttg 65

<210> 2

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gatcggaaga gcacacgtct gaactccagt cacgcacttc catctcgtat gccgtcttct 60

gcttg 65

<210> 3

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

gatcggaaga gcacacgtct gaactccagt cacaaacttt tatctcgtat gccgtcttct 60

gcttg 65

<210> 4

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gatcggaaga gcacacgtct gaactccagt cacactcagg aatctcgtat gccgtcttct 60

gcttg 65

<210> 5

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 5

gatcggaaga gcacacgtct gaactccagt cactagatgc aatctcgtat gccgtcttct 60

gcttg 65

<210> 6

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 6

gatcggaaga gcacacgtct gaactccagt cactccagag catctcgtat gccgtcttct 60

gcttg 65

<210> 7

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 7

gatcggaaga gcacacgtct gaactccagt cacacgtgat aatctcgtat gccgtcttct 60

gcttg 65

<210> 8

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 8

gatcggaaga gcacacgtct gaactccagt caccactagt catctcgtat gccgtcttct 60

gcttg 65

<210> 9

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 9

gatcggaaga gcacacgtct gaactccagt caccttgaca gatctcgtat gccgtcttct 60

gcttg 65

<210> 10

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 10

gatcggaaga gcacacgtct gaactccagt cacagacctc tatctcgtat gccgtcttct 60

gcttg 65

<210> 11

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 11

gatcggaaga gcacacgtct gaactccagt cacgttgcca tatctcgtat gccgtcttct 60

gcttg 65

<210> 12

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 12

gatcggaaga gcacacgtct gaactccagt caccggcgtg aatctcgtat gccgtcttct 60

gcttg 65

<210> 13

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 13

gatcggaaga gcacacgtct gaactccagt caccttaata gatctcgtat gccgtcttct 60

gcttg 65

<210> 14

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 14

gatcggaaga gcacacgtct gaactccagt cacatagcct tatctcgtat gccgtcttct 60

gcttg 65

<210> 15

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 15

gatcggaaga gcacacgtct gaactccagt cactcgcata aatctcgtat gccgtcttct 60

gcttg 65

<210> 16

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 16

gatcggaaga gcacacgtct gaactccagt cacgttgtcg gatctcgtat gccgtcttct 60

gcttg 65

<210> 17

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 17

gatcggaaga gcacacgtct gaactccagt cacccagcgt catctcgtat gccgtcttct 60

gcttg 65

<210> 18

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 18

gatcggaaga gcacacgtct gaactccagt cacgtcaggc tatctcgtat gccgtcttct 60

gcttg 65

<210> 19

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 19

gatcggaaga gcacacgtct gaactccagt cacctggtaa gatctcgtat gccgtcttct 60

gcttg 65

<210> 20

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 20

gatcggaaga gcacacgtct gaactccagt cacagctcct gatctcgtat gccgtcttct 60

gcttg 65

<210> 21

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 21

gatcggaaga gcacacgtct gaactccagt cactggggct aatctcgtat gccgtcttct 60

gcttg 65

<210> 22

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 22

gatcggaaga gcacacgtct gaactccagt cacccagtca gatctcgtat gccgtcttct 60

gcttg 65

<210> 23

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 23

gatcggaaga gcacacgtct gaactccagt cactcattga gatctcgtat gccgtcttct 60

gcttg 65

<210> 24

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 24

gatcggaaga gcacacgtct gaactccagt cactccaacg catctcgtat gccgtcttct 60

gcttg 65

<210> 25

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 25

gatcggaaga gcacacgtct gaactccagt cacccgtgaa gatctcgtat gccgtcttct 60

gcttg 65

<210> 26

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 26

gatcggaaga gcacacgtct gaactccagt cacgtcggag catctcgtat gccgtcttct 60

gcttg 65

<210> 27

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 27

gatcggaaga gcacacgtct gaactccagt caccttggta tatctcgtat gccgtcttct 60

gcttg 65

<210> 28

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 28

gatcggaaga gcacacgtct gaactccagt cactggctca gatctcgtat gccgtcttct 60

gcttg 65

<210> 29

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 29

gatcggaaga gcacacgtct gaactccagt cactatgcca gatctcgtat gccgtcttct 60

gcttg 65

<210> 30

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 30

gatcggaaga gcacacgtct gaactccagt cactcagatt catctcgtat gccgtcttct 60

gcttg 65

<210> 31

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 31

gatcggaaga gcacacgtct gaactccagt cactactagt catctcgtat gccgtcttct 60

gcttg 65

<210> 32

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 32

gatcggaaga gcacacgtct gaactccagt cactgtctat catctcgtat gccgtcttct 60

gcttg 65

<210> 33

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 33

gatcggaaga gcacacgtct gaactccagt cactatgtgg catctcgtat gccgtcttct 60

gcttg 65

<210> 34

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 34

gatcggaaga gcacacgtct gaactccagt cacagtgcag aatctcgtat gccgtcttct 60

gcttg 65

<210> 35

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 35

gatcggaaga gcacacgtct gaactccagt caccaggctg gatctcgtat gccgtcttct 60

gcttg 65

<210> 36

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 36

gatcggaaga gcacacgtct gaactccagt cactactcac gatctcgtat gccgtcttct 60

gcttg 65

<210> 37

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 37

gatcggaaga gcacacgtct gaactccagt cactgctccg catctcgtat gccgtcttct 60

gcttg 65

<210> 38

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 38

gatcggaaga gcacacgtct gaactccagt cacgcactgt aatctcgtat gccgtcttct 60

gcttg 65

<210> 39

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 39

gatcggaaga gcacacgtct gaactccagt caccctaggc aatctcgtat gccgtcttct 60

gcttg 65

<210> 40

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 40

gatcggaaga gcacacgtct gaactccagt caccatcata gatctcgtat gccgtcttct 60

gcttg 65

<210> 41

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 41

gatcggaaga gcacacgtct gaactccagt cacgaggcat tatctcgtat gccgtcttct 60

gcttg 65

<210> 42

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 42

gatcggaaga gcacacgtct gaactccagt caccctcggt aatctcgtat gccgtcttct 60

gcttg 65

<210> 43

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 43

gatcggaaga gcacacgtct gaactccagt cacttctaac gatctcgtat gccgtcttct 60

gcttg 65

<210> 44

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 44

gatcggaaga gcacacgtct gaactccagt cacatgaggc tatctcgtat gccgtcttct 60

gcttg 65

<210> 45

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 45

gatcggaaga gcacacgtct gaactccagt cacgcagaat catctcgtat gccgtcttct 60

gcttg 65

<210> 46

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 46

gatcggaaga gcacacgtct gaactccagt caccactacg aatctcgtat gccgtcttct 60

gcttg 65

<210> 47

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 47

gatcggaaga gcacacgtct gaactccagt cacttggtat gatctcgtat gccgtcttct 60

gcttg 65

<210> 48

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 48

gatcggaaga gcacacgtct gaactccagt cactgaactg gatctcgtat gccgtcttct 60

gcttg 65

<210> 49

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 49

gatcggaaga gcacacgtct gaactccagt cactacttcg gatctcgtat gccgtcttct 60

gcttg 65

<210> 50

<211> 65

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 50

gatcggaaga gcacacgtct gaactccagt cactctcacg gatctcgtat gccgtcttct 60

gcttg 65

<210> 51

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 51

aatgatacgg cgaccaccga gat 23

<210> 52

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 52

caagcagaag acggcatacg a 21

<210> 53

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 53

aatgatacgg cgaccaccga gat 23

Claims

1.一种用于检测病原微生物的方法，其特征在于，所述方法包括：

从受试者的样本中同时分离提取DNA和RNA，得到核酸提取物，所述核酸提取物中含有DNA和RNA；

对所述核酸提取物进行逆转录得到含有cDNA和提取出的DNA的第一产物；

使用含有多种酶的组合物对所述第一产物进行处理，得到含有处理后的DNA和cDNA的第二产物；

基于所述第二产物，进行PCR扩增，从而构建测序文库；

基于所述测序文库，进行宏基因组测序，得到所述样本相关的宏基因组测序结果；以及

基于所述宏基因组测序结果、微生物基因组数据库和物种分类数据库，确定所述样本中的病原微生物。

2.如权利要求1所述的方法，其特征在于，所述从受试者的样本中同时分离提取DNA和RNA包括：

对所述样本进行预处理；

对所述预处理后的样本进行细胞破碎处理；以及

加入核酸提取试剂，离心过滤获得含有DNA和RNA的所述核酸提取物。

3.如权利要求2所述的方法，其特征在于，所述样本包括血液样本或非血液样本，其中所述非血液样本包括痰液、灌洗液、胸水或组织样本，并且当所述样本是非血液样本时，所述预处理包括通过加入叠氮溴化丙锭降低宿主DNA比例。

4.如权利要求1所述的方法，其特征在于，所述使用含有多种酶的组合物对所述第一产物进行处理包括：片段化、末端修复、3’端加A尾，其中所述含有多种酶的组合物包括DNA内切酶、末端修复酶和用于加A尾的酶。

5.如权利要求4所述的方法，其特征在于，所述末端修复酶包括以下酶中的一种或多种：T4多聚核苷酸激酶、T4 DNA聚合酶和克列诺片段。

6.如权利要求5所述的方法，其特征在于，所述T4多聚核苷酸激酶、T4 DNA聚合酶和克列诺片段的酶活力分别在10U到20U的范围之内。

7.如权利要求4所述的方法，其特征在于，所述含有多种酶的组合物还包括以下试剂中的一种或多种：dNTP、dATP、Tris-HCl、MgCl₂和二硫苏糖醇。

8.如权利要求4所述的方法，其特征在于，所述方法还包括在进行所述PCR扩增之前，对所述第二产物加接头，所述接头包括如SEQ ID NO:1-SEQ ID NO:50所示的核苷酸中的至少一个。

9.如权利要求1所述的方法，其特征在于，所述PCR扩增使用了如SEQ ID NO:51和SEQID NO:52所示的引物。

10.如权利要求1-9中任一项所述的方法，其特征在于，所述基于所述宏基因组测序结果、微生物基因组数据库和物种分类数据库，确定所述样本中的病原微生物包括：

获取受试者的全基因组序列；

采用bowtie2，将受试者的全基因组序列和所述宏基因组测序结果进行对比；

将宏基因组测序结果中与受试者的全基因组序列对应的序列部分判定为源于受试者的序列；

从所述宏基因组测序结果中去除所述源于受试者的序列，得到目标序列；以及

基于目标序列，确定所述样本中的病原微生物。

11.如权利要求10所述的方法，其特征在于，所述基于目标序列，确定所述样本中的病原微生物包括：

基于所述微生物基因组数据库和所述物种分类数据库，建立Kraken2索引数据库；以及

基于所述Kraken2索引数据库和所述目标序列，确定所述样本中微生物的种类。

12.如权利要求11所述的方法，其特征在于，所述基于目标序列，确定所述样本中的病原微生物还包括：

采用Bracken对所述样本中的确定种类后的微生物的物种reads数相对丰度进行估计；以及

基于所述物种reads数相对丰度，确定所述样本中的病原微生物。

13.如权利要求12所述的方法，其特征在于，所述基于目标序列，确定所述样本中的病原微生物还包括：

根据关键参数，对确定种类后的所述微生物进行排序，其中，所述关键参数至少包括属的reads数相对丰度和物种的比对数；

根据排序结果，确定候选病原微生物；以及

至少基于微生物致病等级或所述物种的比对数，从所述候选病原微生物中确定所述病原微生物。

14.如权利要求13所述的方法，其特征在于，所述根据排序结果，确定候选病原微生物包括：

I)根据所述排序结果，对于每个属中的候选微生物物种，判断比对数最高的候选微生物物种是否属于A级致病微生物或B级条件致病微生物；

II)若比对数最高的候选微生物物种属于A级致病微生物或B级条件致病微生物，确定所述比对数最高的候选微生物物种为所述候选病原微生物之一；或

III)若比对数最高的候选微生物物种不属于A级致病微生物和B级条件致病微生物，将所述比对数最高的候选微生物物种确定为所述候选病原微生物之一，并对不含所述比对数最高的候选微生物物种的其余候选微生物物种重复I)-III)。

15.如权利要求14所述的方法，其特征在于，所述根据排序结果，确定候选病原微生物还包括：

对于所述每个属中的每个所述候选微生物物种，判断所述候选微生物物种是否满足预设条件；以及

若所述候选微生物物种不满足所述预设条件，确定所述候选微生物物种不是所述候选病原微生物，其中所述预设条件包括：

属于所述A级致病微生物的候选病原微生物的比对数大于等于A级比对数阈值；

属于所述B级条件致病微生物的候选病原微生物的比对数大于等于B级比对数阈值；和

属于无级致病微生物的候选病原微生物的比对数大于等于无级比对数阈值。

16.如权利要求13所述的方法，其特征在于，从所述候选病原微生物中确定所述病原微生物包括：

确定所述候选病原微生物中具有最高物种比对数的第一微生物以及具有次高物种比对数的第二微生物；

判断所述最高比对数与所述次高比对数的比值是否大于或等于预设阈值；以及

若所述比值大于或等于所述预设阈值，将所述第一微生物确定为所述病原微生物之一。

17.如权利要求14所述的方法，其特征在于，从所述候选病原微生物中确定所述病原微生物包括：

基于候选病原微生物的微生物致病等级，将属于所述A级致病微生物的候选病原微生物确定为所述病原微生物之一。

18.一种用于建立微生物宏基因组测序文库的试剂盒，其特征在于，所述试剂盒包括片段化及末端修复体系，所述片段化及末端修复体系包括DNA内切酶、T4多聚核苷酸激酶、T4DNA聚合酶、克列诺片段以及Taq酶，所述片段化及末端修复体系用于为基于样本得到的DNA进行片段化、末端修复和3’端加A尾。

19.如权利要求18所述的试剂盒，其特征在于，所述试剂盒还包括接头连接体系，所述接头连接体系包括T4 DNA连接酶和如SEQ ID NO:1到SEQ ID NO:50所示的核苷酸中的至少一个。

20.如权利要求18所述的试剂盒，其特征在于，所述试剂盒还包括PCR扩增体系，所述PCR扩增体系包括热启动聚合酶、如SEQ ID NO:51所示的引物和如SEQ ID NO:52所示的引物。

21.如权利要求18所述的试剂盒，其特征在于，所述试剂盒还包括以下试剂中的一种或多种：dNTP、dATP、Tris-HCl、MgCl₂和二硫苏糖醇。