CN109923217B

CN109923217B - 宏基因组样品中病原体的鉴定和抗生素表征

Info

Publication number: CN109923217B
Application number: CN201780063630.5A
Authority: CN
Inventors: P·马埃; M·图尔努德; S·斯奇克林; G·贵贡; E·鲁佩
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2016-10-13
Filing date: 2017-10-12
Publication date: 2023-06-16
Anticipated expiration: 2037-10-12
Also published as: US20190252042A1; EP3526344A1; WO2018069430A1; CN109923217A; JP2019537780A; EP3526344B1; JP7068287B2; US11749381B2

Abstract

鉴定宏基因组样品中包含的病原体和鉴定所述病原体基因组中的病原性标志物的方法，该方法包括以下步骤：‑处理(12)宏基因组样品以从病原体中提取DNA，‑测序(14)提取的DNA，从而产生读长组，‑将所述读长组与已知病原体基因组的数据库进行比较(22)，以便将读长分配给所述已知病原体；‑产生(26)读长池，其包含分配给病原体的读长，以及组装(28)汇集的读长以产生重叠群，‑将重叠群与遗传标志物的第二数据库进行比较(30)，以检查产生的重叠群是否含有标志物，该方法还包括以下步骤：‑将所述读长组与第二数据库进行比较(24)以便将读长分配给标志物，如果它完全落入所述标志物中或者如果它是跨越所述标志物则将读长分配给标志物，并且所述池中还包含分配给所述标志物的读长，因此，所述重叠群由分配给病原体的读长和分配给标志物的读长组装而成。

Description

宏基因组样品中病原体的鉴定和抗生素表征

技术领域

本发明涉及宏基因组学领域，且特别是通过断言在其基因组中存在抗生素抗性标志物来表征宏基因组样品中病原体的抗生素敏感性。

背景技术

目前，临床样品中病原体通过经典微生物学技术的鉴定和抗生素敏感性测试(AST)概况需要大量测试和/或许多关于病原体的先验知识。例如，微生物学工作流程涉及病原体的生长(例如在陪替氏培养皿上)以分离它们并获得后续测试所需的关键生物量。然而，不同的细菌可能需要不同的培养条件(例如好氧细菌与厌氧细菌)，如果不以适当的方式选择培养条件，则可在培养期间竞争，或甚至可能根本不生长。因此，培养基的选择通常基于关于样品中病原体的假设。此外，测试需要预先鉴定病原体(例如革兰氏阳性或阴性)以选择AST的试剂。因此，微生物技术的稳健性有时可能是有问题的。

此外，经典微生物学需要24小时至48小时才能获得病原体的鉴定和抗生素敏感性测试(AST)概况，甚至需要数周来使细菌(如分枝杆菌)缓慢生长。在这段时间内，临床医生不知道哪种病原体感染患者，并因此不能提供任何特定的治疗。不仅患者的生命可能受到威胁，而且还迫使临床医生在获得AST概况并调整他的治疗之前给予患者广谱抗生素，这是细菌随时间发展抗生素抗性机制的主要原因之一。

在微生物学中，宏基因组学是基于核酸(NA)测序的技术，其旨在使用线性工作流程来表征样品的微生物含量，其中关于该含量的先验信息较少。特别是，宏基因组学不涉及细菌的生长以分离它们，并且宏基因组工作流程中步骤的选择不依赖于前述步骤的结果。此外，工作流程持续时间基本上与样品中包含的微生物无关，并且可以处理包含不同微生物(例如不同细菌物种)的混合物的样品，并同时获得样品的微生物含量的全貌。

最近设计了快速且稳健的测序技术，特别是高通量测序(HTS)(例如全基因组测序(WGS)、下一代测序(NGS))，其可以精确和快速地测序大基因组。基于这些技术，HTS宏基因组工作流程包括：

a.从患者或动物(例如支气管肺泡灌洗液、血液、尿液、唾液、粪便......)收集的样品(例如组织或体液样品)、食物样品或环境样品(例如空气、水)；

b.从样品中的细胞中提取核酸(例如基因组DNA)；

c.将核酸分子随机剪切成较小的片段并标记片段以进行扩增和测序；

d.至少对于第二代HTS，扩增片段(例如通过基于PCR的技术)以获得每个片段的多个拷贝，从而允许从测序步骤获得可读信号；

e.对片段进行测序，从而产生一组数字的核酸序列(通常称为“原始读长”或“读长”)；

f.使用计算机处理工作流程(通常称为“生物信息学流程”或“流程”)分析读长以表征样品的内容物(例如，鉴定样品中的微生物)。

基本上，有两种类型的流程用于表征样品内容物，第一种类型的流程使用分类学聚类(taxonomic binning)，第二种类型使用分析(profiling)。

在过去几年中已经开发了许多分析流程以有效地描述宏基因组样品的分类学和/或功能性(基因含量)组成。例如，“MetaPhlAn2”(Truong等人,“MetaPhlAn2for enhancedmetagenomic taxonomic profiling”,Nature Methods,2015)是一种有效的分类学分析方法，其依赖于对给定的分类学分支独特且特异性的标志物基因。简言之，将读长匹配到标志物基因参考数据库，然后允许量化样品中存在的所有分类学分支。在更近期的称为“MOCAT2”的分类学和功能性分析流程中(Kultima等人“MOCAT2:a metagenomic assembly,annotation and profiling framework”,Bioinformatics,2016)，使用“SOAPdenovo”组装器组装读长(Ruibana Luo等人“SOAPdenovo2:an empirically improved memory-efficient short-read de novo assembler”,GigaSicence,2012)，针对来自多个数据库(eggNOG、KEGG、SEED、ARDB、CARD....)的功能性信息的组合目录预测并高效注释。分类学和功能性分析可用于首先鉴定和获得病原体的相对比例，并且还获得样品中存在的ARD。

关于基于分类学聚类的流程，它们包括分配步骤(也称为“分类学聚类”)，其包括：

f1.将每个读长分配给已知的分类群(例如细菌物种)，其中一个或多个代表性基因组或基因组的一部分(例如基因组的16S部分)已被测序并存储在参考数据库(“分类学数据库”)中；

f2.汇集分配给分类群的读长；以及

f3.组装汇集的读长以便重建分类群的基因组，通常是其长序列，通常称为“重叠群”。

然后将重叠群用于进一步表征，特别是鉴定病原体和在重构的基因组中搜索抗生素抗性决定簇(ARD)。因此，HTS技术允许同时访问样品中存在的病原体组，但也允许访问其基因组中包含的(ARD)组。然而，那些技术不能将ARD与病原体关联起来，这是对于想要知道样本中存在哪种病原体以及该特定病原体携带哪种ARD(如果有的话)的临床医生而言的主要信息。此外，临床医生感兴趣的是获得样品中存在的ARD的序列。实际上，抗生素抗性可能是由于抗性基因的存在或不存在，也可能是由于特异性抗性基因变体的存在，并且在这种情况下，获得最准确的抗性决定簇序列是至关重要的。

避免这个问题的第一步是应用Guigon等人(“Pathogen Characterizationwithin the Microbial Flora of Bronchoalveolar Lavages by Direct SampleSequencing”,ECCMID,2015)描述的流程，并在这个文件的续集中称为“流程1”。简而言之，主要步骤是：读长的质量控制(低质量读长的过滤和修整)、宿主DNA的消除(人类读长的过滤)、分类学聚类、将样品中存在的对应于每种病原体的读长组装成“重叠群”、且最后是相对于ARD参考数据库注释重叠群。

遗憾的是，只有当所述关联在参考数据库中明确编码时，上述流程才有效地导出病原体和ARD之间的关联。图1说明了典型的故障情况。宏基因组样品包括来自具有抗性基因的细菌物种(“物种1”)的DNA。如同细菌中的许多抗性基因，所考虑的基因位于移动遗传因子(MGE)上。MGE是一种在细菌基因组之间移动的DNA，且是遗传变异的重要来源，并因此也是细菌的抗生素适应能力的来源。遗憾的是，在用于分类学聚类的参考数据库中，与其他物种(“物种k”)的代表性基因组相反，物种1的代表性基因组中没有一个具有该ARD。这可能发生，正是因为这个ARD位于MGE上。例如，研究的样品中存在的来自物种1的微生物最近可能从物种k的菌株获得它，尽管在用于构建分类学聚类的参考数据库的参考序列中尚未观察到这种转移。因此，在分类学聚类步骤期间，位于物种1的ARD区域中的读长将不会与物种1的其他读长一起检索，因为他们将被分开作为物种k的代表。因此，在最好的情况下，物种1的组装将导致2个重叠群，并且组装中将缺少ARD。

换句话说，参考数据库是关于病原体的瞬间可获取的知识的静态快照。对于现有技术的流程，考虑与ARD相关的病原体的基因组修饰的唯一方法是更新数据库。临床医生至少第一次面临新病原体时，现有技术的宏基因组分析无法表征病原体的抗生素敏感性，且更糟糕的是可能通过产生假结果而误导临床医生，例如在前述实例中将物种k作为抗性病原体而不是物种1。

此外，当ARD由几种病原体共享时，许多现有技术的分类学聚类方法将相应的读长分配给携带ARD的病原体的最近共同祖先。因此，在分类学聚类步骤期间将不会检索对应于ARD的读长，因为他们将以比“物种水平”更高的水平被分配。要检索他们，必须根据更高水平的分类定义特定规则以检索物种的读长(例如，如果在种属水平G分配读长，则将读长添加到包括在种属G中的所有物种的所有读长池中)。

已经结合抗生素抗性决定簇ARD说明了问题，该问题以相同的方式存在于毒力遗传决定簇中。这个问题也存在于其他类型的微生物，例如真菌和抗真菌抗性决定簇。

更通常地，这个问题存在于任何类型的基因组，任何类型的来源，其中人们寻找目的遗传标志物，而这些标志物在参考数据库中它们所来自物种的基因组中不存在。

发明内容

本发明提出了一种新的宏基因组分析，其允许使用不参考那些修饰的参考数据库考虑目的标志物中的遗传修饰。

为此，本发明的目的是鉴定包含在宏基因组样品中的病原体(例如细菌)和鉴定所述病原体基因组中的病原性标志物(例如抗微生物敏感性、毒力等)的方法，该方法包括以下步骤：

-处理宏基因组样品以至少从所述样品中存在的病原体中提取DNA，

-对提取的DNA进行测序，从而产生一组数字核酸序列，或“读长”(read)，

-将该读长组与包含已知病原体的基因组的第一数据库进行比较，以便将所述组的读长分配给已知的病原体；

-产生读长池，其至少包含分配给所述已知病原体中一种病原体的读长，并组装池中的读长以产生至少一个经组装的数字核酸序列，或“重叠群”，

-将产生的重叠群与已知病原性遗传标志物的第二数据库进行比较，以检查产生的重叠群是否含有已知的标志物。

根据本发明：

该方法包括将该读长组与第二数据库进行比较的步骤，以便将所述组的读长分配给已知的病原性标志物，如果它完全落入所述标志物中或者如果它跨越所述标志物，则将读长分配给已知的病原性标志物。

并且所述池还包含分配给已知病原性标志物的读长，因此，重叠群由分配给已知病原体的读长和分配给已知病原性标志物的读长组装而成。

换句话说，本发明利用了上述剪切步骤。一方面，样品包含每种病原体的几个个体。例如，对于给定的病原体，由提取过程产生几个DNA分子拷贝。另一方面，如在HTS技术中众所周知的那样，这些拷贝不是故意相同地分段，从而产生重叠片段，重叠特征此后用于组装步骤。因此，通过将分配给病原体的读长以及分配给遗传标志物的读长汇集在一起，而一些所述读长仅部分地匹配在标志物上并且因此也匹配在病原体的基因组上，对所述病原体而言，在组装过程中有机会构建包含标志物的重叠群。该特征使得能够利用标志物重建与分类学数据库中的代表性基因组不同的基因组。

图2说明了应用于图1中描述的样品的本发明，即具有来自物种1的菌株的多数DNA的样品，其具有位于GME上的ARD，而针对物种1分类学数据库不存储具有的这种特征的任何代表性基因组。通过将读长匹配到详尽的ARD数据库来检索落入ARD区域的读长，并且通过针对分类学数据库分类学聚类读长来检索落在ARD外部的读长。然后，对于样品中发现的每种病原体(此处仅为物种1)，将标识为物种1的读长和针对ARD匹配的读长汇集在一起以进行组装。由于读长的“剪切”特征，即当匹配到ARD数据库时某些读长在其整个长度上不对齐的事实，也会检索到落在物种1的染色体和ARD之间的连接处的读长(图3a中表示为虚线段的读长)。这样的读长使组装完成，即将ARD整合到物种1的染色体中(参见图2中的组装)。

根据一个实施方案，落入标志物内的至少部分读长具有大于或等于20bp的长度，优选大于或等于25bp，更优选大于或等于50bp。换句话说，即使只有一小部分所述读长与ARD数据库一致，标准组装器也成功地以良好的概率将读长分配给已知的病原体基因组或标志物。

根据一个实施方案，读长的平均长度为L bp，其中L>75，并且跨越所述标志物的读长具有[1；L-55]bp范围内的落在所述标志物外的部分。根据一个实施方案，读长的平均长度为L bp，其中L>100，并且跨越所述标志物的读长具有[1；L-80]bp范围内的落在所述标志物外的部分。根据一个实施方案，读长的平均长度为L bp，其中L>100，并且跨越所述标志物的读长具有[1；L-50]bp范围内的落在所述标志物外的部分。

根据一个实施方案，跨越所述标志物的读长具有落入所述标志物的第一部分和落在所述标志物之外的第二部分，并且其中基于匹配ARD数据库性能来选择第二部分的长度，特别是最大化而同时仍然保持正确的匹配性能(匹配正确的ARD的读长的可接受比例)。在一个实施方案中，选择第二部分的长度使得与ARD数据库良好对准的概率或获得“真实命中”的概率大于或等于70％，优选地大于或等于80％。

根据一个实施方案，该读长组与第二数据库的比较，其包括独立于所述组的其他读长的每个读长对第二数据库的病原性标志物的匹配。

根据一个实施方案，测序是双端测序(paired-end sequencing)，并且如果将读长分配给标志物，则与所述读长互补的读长也包括在池中。

根据一个实施方案，如果产生的重叠群仅包含分配给已知标志物的读长，则在下列情况下确定所述已知病原性标志物是已知病原体基因组的一部分：

其中D_ARD是分配给已知标志物的读长的中值测序深度，并且D_path是分配给已知病原体的读长的中值测序深度。并且优选>1

根据一个实施方案，该方法还包括将重叠群与16S rDNA序列和/或metaphlan2标志物进行比较的步骤，并且其中基于所述比较确认已知的病原体。

根据一个实施方案，样品取自人或动物，并且其中第一数据库还包含菌群和宿主基因组，并且其中过滤掉分配给菌群和宿主基因组的读长。

根据一个实施方案，宏基因组样品是支气管肺泡灌洗样品、尿液样品或血液样品。

根据一个实施方案，病原性标志物是抗生素抗性标志物或毒力标志物。

本发明的另一个目的是一种存储用于执行由计算机执行的方法的指令的计算机可读介质，该方法包括：

-将通过对来自宏基因组样品的提取的DNA的测序产生的读长组与包含已知病原体的基因组的第一数据库进行比较，以便将所述组的读长分配给已知的细菌病原体；

-产生读长池，其至少包含分配给所述已知病原体中一种病原体的读长，并组装池中读长以产生至少一个组装的数字核酸序列，或“重叠群”，

-将产生的重叠群与已知病原性遗传标志物的第二数据库进行比较，以检查产生的重叠群是否含有已知的标志物，

根据本发明

-该方法包括将该读长组与第二数据库进行比较的步骤，以便将所述组的读长分配给已知的病原性标志物，

-并且所述池还包含分配给已知标志物的读长，因此，重叠群由分配给已知病原体的读长和分配给已知病原性标志物的读长组装而成。

所述计算机可读介质存储用于执行上述方法的指令。

附图说明

通过以下非限制性描述并结合附图将更好地理解本发明，其中：

-图1说明了用于检索位于移动遗传因子(MGE)上的ARD的现有技术的基于分类学的流程的限制；

-图2说明了当参考数据库不对该特征进行编码时，特别是在位于MGE上的ARD的情况下，根据本发明的流程检索ARD的能力；

-图3是根据本发明的宏基因组方法的流程图；

-图4说明了针对ARD数据库匹配ARD读长的BWA-MEM的性能，特别是检索在ARD中具有增加的碱基数的读长的正确变体的概率；

-图5说明了针对ARD数据库的读长匹配；

-图6说明了ARD的后处理，以将它们与病原体关联起来；以及

-图7是说明用于植入本发明的计算机系统的示意图。

具体实施方式

现在结合在重症监护病房(ICU)患者的(小)支气管肺泡灌洗(BAL)中包含的病原体，特别是呼吸道获得性肺炎(VAP)的特征描述本发明的实施方案。目标是列出样品中存在的所有病原体，以及抗生素抗性决定簇，并且如果可能，将ARD与病原体关联起来。

参考图3，在10中从患者收集BAL样品，然后在12中进行处理以从样品中包含的病原体中提取核酸。该制备依次例如包括以下：

-借助于皂苷制剂的宿主细胞去除步骤，如文献US 2015/0337362中所述；

-裂解步骤，例如机械、酶促或渗透裂解，其破坏样品中细胞的膜，从而释放其酸性核酸含量，通过添加蛋白酶破坏蛋白质并通过添加RNase破坏RNA；

-过滤步骤包括添加浓缩盐，用以将蛋白质、脂质和RNA聚集在一起，并离心，用以消除结块的碎片；以及

-纯化步骤，用于收集DNA含量，例如使用基于磁性硅酸盐珠的

技术，如文献US 5,234,809中所述、乙醇沉淀、苯酚-氯仿提取或微柱纯化；

然后在14中使用全基因组测序HTS技术对提取的DNA进行测序，例如，散弹枪技术，其包括：

-文库制备步骤，其包括将NA分子随机剪切成150-300对碱基(bp)的片段，例如，250bp；

-片段的扩增步骤，例如，通过聚合酶链反应(PCR)(固相桥扩增、珠乳液扩增......)；

-用于确定片段中碱基序列的测序步骤。

由此产生读长组并在16中将其存储在计算机系统的存储器中。

DNA测序优选使用HTS技术进行，所述HTS技术读取片段的两端，例如使用

染料测序，例如Miseq WGS双端测序技术，如例如Oulas等人,“Metagenomics:Tools and Insights for Analyzing Next-Generation Sequencing Data Derived fromBiodiversity Studies”,Bioinform Biol Insights,2015所述。测序读长的两个末端使得读长的组装更容易，并且特别是在分类学数据库不包括具有ARD的代表性基因组的情况下促进ARD整合入特定病原体的基因组中。

然后对读长进行根据本发明的生物信息学流程18以列出样品中的病原体并确定它们的基因组是否具有抗生素抗性决定簇。

流程18的第一步骤20包括读长的预处理(通常称为“质量控制”(QC))，即：

-消除对应于用于测序目的的与DNA片段连接的衔接子和用于扩增的引物的读长的处理。例如，关于

技术，使用“Trimmomatic”工具(Bolger等人,“Trimmomatic:Aflexible trimmer for Illumina Sequence Data”,Bioinformatics.2014)；

-用以纠正读长中的调用错误，或消除过于损坏的读长的处理，例如使用“字符串图形组装器”(SGA)工具的纠错模块(Simpson和Durbin,“Efficient de novo assembly oflarge genomes using compressed data structures”,Genome Research,2012)。

流程18在22中继续：

-针对分类学数据库分类学聚类剩余读长，其包括：a)通常负责呼吸道获得性肺炎的病原体的参考基因组序列(例如金黄色葡萄球菌、肺炎链球菌、大肠杆菌、肺炎克雷伯氏菌、......)；b)口咽菌群中常见的细菌的参考基因组序列；和c)人类的参考基因组序列，

-选择分配给病原体的读长，从而消除仅分配给菌群或人类的读长。

对于分类学聚类，可以具体实施两种方法，例如，组成方法，如“Kraken”工具(Wood和Salzberg,“Kraken:ultrafast metagenomic sequence classification using exactalignments”,Genome Biology,2014)或“Wowpal Wabbit”工具(Vervier等人,“Large-scale machine learning for metagenomics sequence classification”,Bioinformatics,2015)，或比较方法，如“BWA-MEM”工具(Li,“Aligning sequence reads,clone sequences and assembly contigs with BWA-MEM”,Genomics,2013)。优选地，如果完全匹配在存储在分类学数据库中的病原体的代表性基因组中，则将读长分配给该病原体。

流程18还包括针对包括目的ARD的ARD参考数据库匹配24每个读长。特别是，如果符合以下条件，则会将读长分配给ARD：

-如果读长完全匹配在ARD上；或者

-如果读长跨越ARD且匹配在ARD上的ARD部分足以将读长分配给ARD；或者

-在双端测序的情况下，如果该对的一个读长完全落入或跨越ARD，则第二读长被自动分配给ARD。

图4说明了根据ARD中读长的碱基数对于落在ARD中的读长检索到ARD的概率。正如所指出的，在ARD上匹配的50bp的长度足以精确地为该ARD分配读长(或者换句话说，50bp的长度足以确定读长来自具有ARD的基因组部分)。已经表明，对于250bp在ARD外和50bp在ARD内(读长在ARD外的概率为83％)的读长，检索到ARD中读长的概率为80％。在该特定实施例中，具有长度在[0，L-50]bp范围内的在ARD之外的部分的读长因此被分配给ARD，L是ARD的长度。例如，当平均读长长度超过100bp时，将在ARD之外的长度超过50的读长分配给ARD。

通常，计算工具如“Kraken”和“Vowpal Wabbit”无法找到跨越参考序列的读长，因为它们不允许剪切(也就是说，当跨越时授权分配读长)。因此使用比较工具，例如“BWA-MEM”，因为其具有授权剪切的非默认模式。然而，所述工具不具有在ARD之外(“剪切长度”)或ARD之内(“匹配长度”)设定长度的参数。然而，这些长度取决于BWA-MEM设定的参数。因此，这些长度的设定通过以下完成；

-改变BWA-MEM的参数值，例如使用Jaillard et al.,“Optimization ofalignment-based methods for taxonomic binning of metagenomics reads”,Bioinformatics 2016中描述的实验方法。

-检查来自参数设定的经剪切和匹配的长度，并且检查成功分配给ARD的读长的百分比；

-选择允许具有连续检索ARD的百分比超过70％优选超过80％的最大剪切长度的BWA-MEM的参数值。

例如，BWA-MEM使用非默认参数“-a-T 0-k 16-L 5-d 100”运行，导致分配给ARD的读长具有[0，L-50]bp范围内的经剪切长度。

在一个优选的实施方案中，由于用于测序DNA片段的技术(例如WGS双端测序技术)，因此即使读长配对，读长也独立地匹配到ARD数据库。众所周知，在现有技术的分配步骤中，通常不仅在其匹配到数据库时将读长分配给ARD，而且当其副本读长匹配时也将读长分配给ARD。但是，如果只保留匹配“在一个正确配对”中的读长，意味着配对的两个读长均匹配在ARD数据库上，则仅获得双端读长，其插入大小小于典型的ARD长度(～1000bp)。例如，在图5中只有“读长2.1”和“读长2.2”将被检索为匹配在一个正确的配对中，因为它们都落在ARD中。当独立匹配时，还会检索到“读长1.1”、“读长2.1”和“读长2.2”。

有利地，当读长匹配在ARD上时，其副本读长被自动分配给该ARD。在图5的实例中，未匹配在ARD上的“读长1.2”因此被自动分配给ARD，因为“读长2.2”如此分配。“读长1.2”特别有用，因为其落入病原体的染色体区域，并且与通过分类学聚类检索到的读长一起可以用于重建整个区域、染色体和ARD，如后面将描述的。

流程18继续进行汇集步骤26。特别地，对于与读长相关的每种病原体，产生读长池，所述池包含分配给所述病原体的读长和分配给ARD的所有读长。如上所述，如果配对中的一个读长匹配到ARD数据库，则另一个读长自动包含在池中，因为其也已被分配给ARD数据库。鉴于目前的组装器在测序深度太低或太高的情况下表现不佳，只考虑平均测序深度大于或等于3的病原体进行组装。当测序深度大于150时，在分配给所述病原体的整组读长中选择一组随机的病原体读长，以使最终平均测序深度等于150。

然后对每个创建的读长池执行组装步骤28以产生重叠群。例如，组装步骤运行“denovo”组装器，例如“IDBA-UD”(Peng等人,“IDBA-UD:a de novo assembler for single-cell and metagenomic sequencing data with highly uneven depth”,Bioinformatics,2012)、“MEGAHIT(Li等人,“MEGAHIT:an ultra-fast single-nodesolution for large and complex metagenomics assembly via succinct de Bruijngraph.”,Bioinformatics,2015)、“Omega”(Haider等人,“Omega:an Overlap-graph denovo Assembler for Metagenomics”,Bioinformatics,2014)、“Ray Meta”(Boisvert等人,“Ray Meta:scalable de novo metagenome assembly and profinling”,GenomeBiology,2012)、“Spades”(Bankevich等人,“SPAdes:a new genome assembly algorithmand its applications to single-cell sequencing.”,Journal of ComputationalBiology,2012)、或”Meta-Velvet-SL”(Afiahayati等人,“MetaVelvet-SL:an extensionof the Velvet assembler to a de novo metagenomic assembler utilizingsupervised learning”,DNAReasearch,Oxford journal,2012)。注意到，组装是在每个对应于独特病原体的对应读长池上完成的，而不是直接在具有几种微生物的整个宏基因组上。鉴于此，IDBA-UD和Spades提供了最佳性能，且因此是优选的。IDBA-UD和Spades的参数例如是默认参数，也就是说分别为“idba_ud500--mink 40--maxk maxReadLength--min_pairs 2”和“spades.py--careful--cov-cutoff 3”。

因此，组装步骤28转化一组重叠群中的每个读长池(通常称为“组装”)，初步分配给分类学数据库的特定病原体，该重叠群可包含一个或多个ARD。

在优选的实施方案中，组装步骤包括以下步骤：a)首先用SGA预处理读长(如果不在QC步骤20中进行)，b)然后使用de novo(重新)组装器组装，c)和将原始读长匹配到重叠群以修改组装(即删除最终的组装错误)。特别是，如果没有一个读长配对匹配到重叠群，则将其丢弃。

流程18的后续步骤30包括基于重叠群组确认病原体的身份并鉴定所鉴定的病原体的基因组中的ARD。特别是，对于每组重叠群，执行以下步骤：

-物种确认。为此，在每个组装中搜索16S rDNA基因(其因包含在病原体基因组中而是分类学数据库的一部分)的存在，例如使用“BLAST”比对算法(Altschul等人,“Basiclocal alignment search tool”,Journal of molecular biology,1990)。如果在重叠群中发现16S rDNA基因拷贝，则检查最佳命中是否对应于在分类学聚类步骤22中鉴定的病原体。在组装中存在16S rDNA基因的几个拷贝的情况下，检查至少一个最佳命中是否对应于步骤22中鉴定的病原体。在a)在组装中没有发现16S rDNA拷贝或b)16S rDNA拷贝不对应于与组装相关的病原体的情况下，将所述组装从主流程分析中丢弃。然而，在a的情况下，该组装被保存在存储器中以供进一步调查。这种保守的决定避免错过少量存在的，而且组装可能不完全的病原体；

-ARD的鉴定。为此，分析每个组装是否存在ARD数据库中列出的ARD，例如使用BLAST比对算法来鉴定重叠群中ARD的存在。对于每个ARD，至少报告最佳命中。

不同于16S rDNA序列，“Metaphlan2”标志物用于身份确定，这些标志物描述于例如Segata等人,“Metagenomic microbial community profiling using unique clade-specific marker genes”,Nature Methods,2012中。

然后执行最终处理步骤30以处理所鉴定的ARD以将它们与病原体关联起来。在每个组装中，分析针对用ARD注释的重叠群匹配的读长的来源。如果匹配在具有ARD的重叠群上的一些读长获得自针对病原体RDB的分类学聚类(步骤20)，则ARD与病原体明确相关。实际上，至少5％的匹配到含有ARD的重叠群的读长总数需要来自于步骤20。

然而，该组装可包含不是从步骤20得到的ARD重叠群。例如，参考图6，在“重叠群2”和“重叠群3”的情况下，匹配在重叠群上的所有读长都是从对ARD数据库匹配的读长获得的(步骤24)。因此，不可能正式将ARD和病原体关联起来。第一个原因在于ARD不是病原体基因组的一部分的这个事实。然而，那些重叠群实际上可能对应于病原体基因组。实际上，可能发生ARD位于特定MGE上，即质粒上。在这种情况下，根据定义，ARD未整合在对应于病原体染色体的重叠群中，但构成独立的重叠群。在一个优选的实施方案中，通过比较ARD的中值测序深度(D_ARD)和病原体的中值测序深度(D_path)，处理步骤30以较小的证据将ARD与病原体关联起来，中值测序深度是每个位置匹配在组装上的读长的数量的分布的中值(在组装步骤28的步骤c处获得)。D_ARD是匹配在ARD的每个位置处的读长的数量的分布的中值，并且D_path是匹配在病原体的组装的每个位置处的读长的数量的分布的中值。特别地，利用最接近的平均测序深度将ARD与病原体关联起来。在图6的实例中，位于“重叠群2”上的“ARD2”应分配给“物种1”(因为“重叠群2”的中值测序深度为4，而“物种1”的中值测序深度为4)，而位于“重叠群3”上的“ARD3“应分配给”物种2“(因为”重叠群3“的中值测序深度为75，“物种2”的中值测序深度为8)。实际上，ARD被分配给具有中位测序深度在ARD中值测序深度的1/3和3之间的所有物种，并且优选地大于1，因为ARD可以存在于病原体基因组中的若干拷贝中。

最后，宏基因组学分析以信息/存储步骤34结束，其包括存储流程18的结果，特别是鉴定的病原体和与其关联的ARD的列表，和/或在计算机屏幕上显示那些结果。

验证研究

已经进行了根据本发明的宏基因组分析的三个验证研究。第一个验证研究依赖于计算机模拟的宏基因组(验证研究1)，第二个验证研究是一组3个阳性miniBAL宏基因组样本，对此仅培养鉴定可用(验证研究2)，以及第三个验证研究是一组2个阳性BAL宏基因组样品，鉴定和AST分析可用(验证研究3)。对于所有评估，使用Kraken用于分类学聚类和ARD聚类(步骤22，24)并且使用IDBA-UD用于组装(步骤28)。

验证研究1

已经模拟了21个宏基因组，每个包括21种选定病原体中的1种(见表1)。每个宏基因组包含来自主要病原体的300000个读长配对，以及来自菌群基因组的15000个读长配对。用于模拟的基因组是真实的公共基因组。根据Illumina MiSeq误差模型模拟读长，使用2*300bp双端读长，使用V2化学。表1显示了用于21个模拟的宏基因组的菌株，每个菌株中存在的ARD的数量，通过现有技术流程(“P1”)检索的ARD的数量，以及通过根据本发明的流程(“P1+2”)检索的ARD的数量。结果显然有利于新的流程，其使得在大多数情况下能够恢复原始基因组中存在的所有ARD。

Table 2：Simulated strains and number of ARD found in the genomes oforigin.in the assembly with IDBA-UD after P1 only，and in the assembly withIDBA-UD after P1+P2.

(注：表2：模拟的菌株和在来源基因组中发现的ARD的数量，仅P1后用IDBA-UD组装，以及P1+P2后用IDBA-UD组装，Strain-菌株，A baummanni-鲍曼不动杆菌，C koseri-柯氏柠檬酸杆菌，C freundii-弗氏柠檬酸杆菌，E aerogenes-产气肠杆菌，E cloacae-阴沟肠杆菌，E coli-大肠杆菌，K oxytoca-催产克雷白杆菌，K pneumoniae-肺炎克雷伯菌，Hinfluenzae-流感嗜血杆菌，P mirabilis-奇异变形杆菌，P aeruginosa-绿脓杆菌，Pstuartii-斯氏普罗威登斯菌，S aureus-金黄色葡萄球菌，S maltophilia-嗜麦芽窄食单胞菌，S marcescens-粘质沙雷菌，#ARDs in the strain-菌株中的ARD数量，#ARDsretrieved by P1 only-仅通过P1检索ARD，#ARDs retrieved bv P1+P2-通过P1+P2检索ARD。)

表1

验证研究2

在表2中，注意到两个流程都能够检索样品中病原体的存在，即通过经典的微生物培养确认。但是，流程1从不鉴定任何ARD，而新流程通过样品鉴定1到3个ARD。ARD用星号标记并确认与病原体有关(匹配针对包含ARD的重叠群的一些读长来自Kraken)。请注意，流程1也鉴定样品2中的肺炎克雷伯菌(K.pneumoniae)。然而，在组装中没有发现16S rDNA拷贝，并且基因组的大小是1.2Mb，这对于肺炎克雷伯菌基因组(通常约5Mb)来说相对较小，因此可能是假阳性。

(注：sample-样品；culture-培养物；Pathogens-病原体；Pipeline 1-流程1；Newpipeline-新流程；E coli-大肠杆菌；Hinfluenzae-流感嗜血杆菌；K.pneumoniae-肺炎克雷伯菌；S aureus-金黄色葡萄球菌。)

表2

验证研究3

在表3中，注意到，两个流程都给出了非常相似的结果，且结果与传统的微生物学一致，至少对于鉴定结果而言。两个流程都给出了类似的结果，可能是因为检索到的ARD存在于2种病原体的参考序列中，即AmpC必须存在于产气肠杆菌(E aerogenes)的参考序列中，并且ANT(9)-1A必须存在于金黄色葡萄球菌(S aureus)的参考序列中。

(注：sample-样品；Classical microbiology-经典微生物学；pathogens-病原体；AST profile-AST谱；E aerogenes-产气肠杆菌；抗性：阿莫西林、clavunalate，中等抗性-头孢呋辛；S aureus-金黄色葡萄球菌；抗性：盘尼西林、克林霉素；Pipeline 1-流程1；Newpipeline-新流程；S pneumoniae-肺炎链球菌；)

表3

图7说明了执行根据本发明的流程的计算机系统。所述系统包括上述数据库(分类学数据库、ARD数据库)以及记忆读长的数据库。这些数据库连接到计算单元，比如，例如，个人计算机、平板电脑、智能电话、服务器、计算机网络，以及更一般地包括一个或多个微处理器和/或一个或多个微控制器(例如，数字信号处理器和/或一个或多个可编程逻辑装置(其被配置为实现如上所述的读长的数字处理))的任何系统。计算机单元包括计算机存储器(RAM、ROM、高速缓冲存储器、大容量存储器)，其用于存储所获取的分布、用于执行根据本发明的方法的指令，以及中间和最终计算，特别是病原体列表及其关联的ARD。计算机单元还包括用于显示列表和ARD的屏幕。

Claims

1.鉴定宏基因组样品中包含的病原体和鉴定所述病原体基因组中的病原性标志物的装置，所述装置包含以下模块：

-将通过对来自宏基因组样品的提取的DNA测序而产生的读长组与包含已知病原体的基因组的第一数据库进行比较，以便将所述组的读长分配给所述已知的细菌病原体的第一比较模块；

-产生读长池，其包含至少在所述已知细菌病原体中分配给病原体的读长，以及组装所述池中的读长以产生至少一个经组装的数字核酸序列，或“重叠群”的组装模块，

-将产生的所述重叠群与已知病原性遗传标志物的第二数据库进行比较，以检查产生的所述重叠群是否含有已知的标志物的鉴定模块，

-其特征在于，

-所述装置还包括将所述读长组与第二数据库进行比较的第二比较模块，以便将所述组的读长分配给所述已知的病原性标志物，如果它完全落入所述标志物中或者如果它跨越所述标志物则将读长分配给已知的病原性标志物，

-并且所述池中还包含分配给所述已知病原性标志物的读长，因此，所述重叠群由分配给所述已知病原体的读长和分配给所述已知病原性标志物的读长组装而成。

2.鉴定宏基因组样品中包含的病原体和鉴定所述病原体基因组中的病原性标志物的装置，所述装置包含处理器、存储器和存储于所述存储器的指令，所述指令用于执行包括以下步骤的方法：

-将通过对来自宏基因组样品的提取的DNA测序而产生的读长组与包含已知病原体的基因组的第一数据库进行比较，以便将所述组的读长分配给所述已知的细菌病原体；

-产生读长池，其包含至少在所述已知细菌病原体中分配给病原体的读长，以及组装所述池中的读长以产生至少一个经组装的数字核酸序列，或“重叠群”，

-将产生的所述重叠群与已知病原性遗传标志物的第二数据库进行比较，以检查产生的所述重叠群是否含有已知的标志物，

-其特征在于，

-所述方法包括将所述读长组与第二数据库进行比较，以便将所述组的读长分配给所述已知的病原性标志物，如果它完全落入所述标志物中或者如果它跨越所述标志物则将读长分配给已知的病原性标志物，

3.根据权利要求1或2所述的装置，其中跨越所述标志物的所述读长具有落入所述标志物内的部分，其长度大于或等于20bp。

4.根据权利要求1或2所述的装置，其中所述读长具有平均长度L bp，L>100，并且其中跨越所述标志物的读长具有[1；L-50]bp的范围内的落在所述标志物外的部分。

5.根据权利要求1或2所述的装置，其中跨越所述标志物的读长具有落入所述标志物的第一部分和落在所述标志物之外的第二部分，并且其中所述第二部分的长度基于针对ARD数据库性能的匹配选择。

6.根据权利要求5所述的装置，其中，选择所述第二部分的长度，使得针对ARD数据库的正确分配的概率大于或等于70％。

7.根据权利要求6所述的装置，其中使得针对ARD数据库的正确分配的概率大于或等于80％。

8.根据权利要求1或2所述的装置，其中所述读长组与所述第二数据库的比较包括独立于所述组的其他读长的每个读长对所述第二数据库的病原性标志物的匹配。

9.根据权利要求1或2所述的装置，其中所述测序是双端测序，并且其中如果将读长分配给标志物，则所述读长的互补读长也包括在所述池中。

10.根据权利要求1或2所述的装置，其中如果产生的重叠群仅包含分配给已知标志物的读长，则在下列情况下确定所述已知病原性标志物是已知病原体基因组的一部分：

其中是D_ARD是分配给所述已知标志物的读长的中值测序深度，并且D_path是分配给所述已知病原体的读长的中值测序深度。

11.根据权利要求10所述的装置，其中D_path>1。

12.根据权利要求1或2所述的装置，其中它还包括将所述重叠群与数据库的16SrDNA序列和/或metaphlan2标志物进行比较，并且其中基于所述比较确认所述已知病原体。

13.根据权利要求1或2所述的装置，其中所述样品取自人或动物，并且其中所述第一数据库还包含菌群和宿主基因组，并且其中过滤掉分配给菌群和宿主基因组的读长。

14.根据权利要求1或2所述的装置，其中所述宏基因组样品是支气管肺泡灌洗液样品、尿液样品或血液样品。

15.根据权利要求1或2所述的装置，其中所述病原性标志物是抗生素抗性标志物或毒力标志物。

16.一种计算机可读介质，其存储用于执行由计算机执行的方法的指令，所述方法包括：

-产生读长池，其包含至少在所述已知病原体中分配给病原体的读长，并在所述池中组装所述读长以产生至少一个组装的数字核酸序列，或“重叠群”，

-将所述产生的重叠群与已知病原性遗传标志物的第二个数据库进行比较，以检查所述产生的重叠群是否含有已知标志物，

-其特征在于，

-所述方法包括将所述组的读长与第二数据库进行比较的步骤，以便将所述组的读长分配给所述已知的病原性标志物，

-所述池还包含分配给所述已知标志物的读长，因此，所述重叠群由分配给所述已知病原体的读长和分配给所述已知病原性标志物的读长组装而成。

17.根据权利要求16所述的计算机可读介质，其中跨越所述标志物的所述读长具有落入所述标志物内的部分，其长度大于或等于20bp。

18.根据权利要求16或17所述的计算机可读介质，其中所述读长具有平均长度L bp，L>100，并且其中跨越所述标志物的读长具有[1；L-50]bp的范围内的落在所述标志物外的部分。

19.根据权利要求16或17所述的计算机可读介质，其中跨越所述标志物的读长具有落入所述标志物的第一部分和落在所述标志物之外的第二部分，并且其中所述第二部分的长度基于针对ARD数据库性能的匹配选择。

20.根据权利要求19所述的计算机可读介质，其中，选择所述第二部分的长度，使得针对ARD数据库的正确分配的概率大于或等于70％。

21.根据权利要求19所述的计算机可读介质，其中使得针对ARD数据库的正确分配的概率大于或等于80％。

22.根据权利要求16或17所述的计算机可读介质，其中所述读长组与所述第二数据库的比较包括独立于所述组的其他读长的每个读长对所述第二数据库的病原性标志物的匹配。

23.根据权利要求16或17所述的计算机可读介质，其中所述测序是双端测序，并且其中如果将读长分配给标志物，则所述读长的互补读长也包括在所述池中。

24.根据权利要求16或17所述的计算机可读介质，其中如果产生的重叠群仅包含分配给已知标志物的读长，则在下列情况下确定所述已知病原性标志物是已知病原体基因组的一部分：

25.根据权利要求24所述的计算机可读介质，其中D_path>1。

26.根据权利要求16或17所述的计算机可读介质，其中所述方法还包括将所述重叠群与数据库的16SrDNA序列和/或metaphlan2标志物进行比较的步骤，并且其中基于所述比较确认所述已知病原体。

27.根据权利要求16或17所述的计算机可读介质，其中所述样品取自人或动物，并且其中所述第一数据库还包含菌群和宿主基因组，并且其中过滤掉分配给菌群和宿主基因组的读长。

28.根据权利要求16或17所述的计算机可读介质，其中所述宏基因组样品是支气管肺泡灌洗液样品、尿液样品或血液样品。

29.根据权利要求16或17所述的计算机可读介质，其中所述病原性标志物是抗生素抗性标志物或毒力标志物。

30.一种计算机系统，其包括权利要求16-29中任一项所述的计算机可读介质。