CN114555835A

CN114555835A - 通过宏基因组分析检测和定量感兴趣的生物物种的方法

Info

Publication number: CN114555835A
Application number: CN202080053378.1A
Authority: CN
Inventors: 弗拉基米尔·拉泽莱维奇; 塞巴斯蒂安·豪泽; 莫德·图尔努
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2019-07-23
Filing date: 2020-07-22
Publication date: 2022-05-27
Also published as: JP7591554B2; EP4004233A1; FR3099182A1; FR3099182B1; JP2022541596A; US20220275429A1; WO2021013900A1

Abstract

本发明涉及一种用于检测存在于分析样品中的感兴趣的生物物种(SOI)的方法，该感兴趣的生物物种具有已知的基因组，该分析样品包含各种生物物种的混合物，该方法包括以下步骤：a)从分析样品中提取核苷酸序列；b)对步骤a)中提取的核苷酸序列进行测序；c)获得分配给感兴趣的生物物种和对照物种的归一化序列；d)将分别分配给感兴趣的生物物种和对照物种的归一化序列与分别与感兴趣的生物物种和对照物种相关的检测阈进行比较。

Description

通过宏基因组分析检测和定量感兴趣的生物物种的方法

技术领域

本发明的技术领域是通过宏基因组分析识别感兴趣的生物物种。

现有技术

通过聚合酶链式反应(PCR)扩增核酸允许对样品中某些微生物的存在进行快速和早期诊断。例如，PCR特别适用于检测难以培养或发育缓慢的细菌例如结核分枝杆菌的脱氧核糖核酸(DNA)。

然而，PCR的实施需要使用引物，这些引物专门针对目标生物物种中存在的基因。因此，PCR允许对一种生物物种进行特异性分析，这使其成为一种灵敏的、选择性的、可定量的方法。但是，它假定事先了解目标生物物种。如果要寻找多种生物物种，则必须进行所谓的多重PCR，这使得该过程更加复杂。

也可以靶向存在于各种目标生物物种中的基因。至于细菌，例如可能是16S RNA基因的问题。然后称PCR分析是宽范围的。然而，宽范围PCR实施起来比较棘手，并且假设有关要识别的目标生物物种的先验知识是可用的。靶向基因在EP2985350或

F的出版物“Adjusting microbiome profiles for Difference in microbial load byspike-inbacteria”,Microbiome(2016)4,28中进行了描述。

与上述技术相反，宏基因组学允许对给定培养基中不同生物物种的多个个体的基因组进行测序。然后可以确定样品中实际存在的物种及其相对丰度。宏基因组学在给定培养基中对不同物种的多个个体的基因组进行测序，并且在没有关于样品中生物物种的先验知识的情况下进行测序，无论它们是细菌、病毒还是人类。因此获得了对样品中生物物种的各种基因组的分析。然后可以确定存在哪些物种，以及它们的相对丰度。

随着第二代和第三代测序技术HTS技术的出现，测序领域最近取得了进展，其中HTS代表高通量测序。生物信息学的性能已得到提高，它允许对测序产生的生物信息进行快速计算处理。目前，高通量测序允许生成足够的序列以获得样品中存在的各种物种的代表性编目。它是一种商业上可用的分析方法，其应用已变得相对普遍。文件WO2018/069430描述了宏基因组分析在识别病原体和抗生素抗性标记中的应用。

Ruppé E的出版物“Clinical metagenomics of bone and joint infections:aproof of concept study”也描述了宏基因组学在细菌识别中的应用。文件WO2017/053446和Schlaberg的出版物“Validation of metagenomic next-generation sequencingtests for universal pathogen detection”描述了用于分析样品的宏基因组方法，其中将由已知生物物种形成的内部对照引入样品中。

本发明人提供了一种通过对样品进行宏基因组分析来检测和潜在地定量样品中感兴趣的生物物种或甚至各种感兴趣的生物物种的方法。此外，方法允许建立可确定宏基因组过程的生物学或生物信息学步骤是否正确进行的指标。

发明内容

本发明的一个主题是一种用于检测可能存在于分析样品中的感兴趣的生物物种的方法，该感兴趣的生物物种具有已知或部分已知的基因组，该分析样品包含各种生物物种的混合物，该方法包括以下步骤：

a)从分析样品中提取核酸；

b)对步骤a)中提取的核苷酸序列进行测序；

c)基于排序结果：

i)基于序列参考数据库分配步骤b)产生的序列；

ii)确定分配给感兴趣的生物物种的序列量；

iii)考虑与感兴趣的生物物种相关的检测阈；

iv)将子步骤ii)产生的量与步骤iii)中考虑的检测阈进行比较；

该方法的特征在于其包括在步骤a)之前添加对照物种，该对照物种以已知浓度添加到分析样品中，该对照物种具有已知基因组，并且在该步骤c)中包含：

v)确定分配给对照物种的序列量；

vi)考虑与对照物种相关的检测阈；

vii)将子步骤v)产生的量与子步骤vi)中考虑的检测阈进行比较；

d)使用在子步骤iv)和vii)中进行的对比来确定样品中是否存在感兴趣的生物物种。

该方法可以包括考虑判定阈。步骤d)然后可以包括，根据子步骤iv)和vii)中进行的比较，确认或不确认是否存在高于或低于判定阈的感兴趣的生物物种。

判定阈优选地以对应于每单位体积(或每单位重量)的序列数的单位表示，例如以每毫升基因组当量表示。判定阈可能取决于所讨论的生物物种。

优选地，在子步骤(ii)和(v)中，基于参考量对分别分配给感兴趣的生物物种和对照生物物种的序列量进行归一化。参考量例如可以是在测序期间产生的序列的总量。

在步骤d)中：

-当分配给对照物种的序列量高于与对照物种相关的检测阈时；且

-当分配给感兴趣的生物物种的序列量高于与感兴趣的生物物种相关的检测阈时；

步骤d)可以包括确认分析样品中存在感兴趣的生物物种。步骤d)可以因此包括估计感兴趣的生物物种的浓度。

根据一个实施方案，该方法包括，优选在步骤a)之前，将已知浓度的校准物添加到样品中，该校准物具有已知的基因组。在步骤d)中，估计感兴趣的生物物种的浓度包括：

-确定分别分配给感兴趣的生物物种和校准物的序列量之间的第一比值；

-确定校准物和感兴趣的生物物种各自基因组大小之间的第二比值；

-考虑添加到分析样品中校准物的浓度。

估计感兴趣的生物物种的浓度随后可以包括计算第一比值乘以第二比值和乘以添加到分析样品中的校准物的浓度的乘积。

对照物种可以起到校准物的作用。在这种情况下，在步骤d)中，估计感兴趣的生物物种的浓度可以包括：

-确定分别分配给感兴趣的生物物种和对照物种的序列量之间的量比值；

-确定对照物种和感兴趣的生物物种各自基因组大小之间的大小比值；

-考虑添加到分析样品中对照物种的浓度。

估计感兴趣的生物物种的浓度随后可以包括计算第一比值乘以第二比值和乘以添加到分析样品中的对照物种的浓度的乘积。

替代地，估计感兴趣的生物物种的浓度可以包括确定感兴趣的生物物种和对照物种的覆盖度，并计算由此确定的覆盖度之间的比值。该比值可以乘以对照物种的浓度。

在步骤d)中：

-当分配给感兴趣的生物物种的序列量低于与感兴趣的生物物种相关的检测阈时；

步骤d)可以包括：

-估计感兴趣的生物物种的最低可检测浓度；

-将感兴趣的生物物种的最低检测浓度与判定阈进行比较，使得当感兴趣的生物物种的最低检测浓度低于判定阈时，估计分析样品中不存在浓度高于判定阈的感兴趣的生物物种。

然后估计感兴趣的生物物种的最低检测浓度可以包括：

-确定感兴趣的生物物种的检测阈与分配给对照物种的序列量之间的第一比值；

-确定对照物种和感兴趣的生物物种各自基因组大小之间的大小的第二比值；

-考虑添加到分析样品中对照物种的浓度。

在步骤d)中：

-当分配给对照物种的序列量低于与对照物种相关的检测阈时；且

-当分配给感兴趣的生物物种的序列量高于感兴趣的生物物种的检测阈时；

步骤d)可以包括将添加到分析样品中的对照物种的浓度与判定阈进行比较，使得：

-当添加到分析样品中的对照物种的浓度高于判定阈时，确认分析样品中存在浓度高于判定阈的感兴趣的生物物种；

-当添加到分析样品中的对照物种的浓度低于判定阈时，确认分析样品中存在感兴趣的生物物种。

在步骤d)中：

-当分配给感兴趣的生物物种的序列量低于感兴趣的生物物种的检测阈时；

无法确认是否存在感兴趣的生物物种。步骤a)至c)可能被认为是无效的。

方法可以包括使用多个第一训练样品确定与感兴趣的生物物种相关的检测阈的先前阶段，该第一训练样品被认为不包含感兴趣的生物物种，该方法包括：对于每个第一训练样品，

-提取核苷酸序列；

-对如此提取的核苷酸序列进行测序；

-确定分配给感兴趣的生物物种的感兴趣的序列量；

-可选地对分配给感兴趣的生物物种的感兴趣的序列量进行归一化；

该方法还包括：

-计算为每个第一个训练样品确定的感兴趣的序列量或归一化序列量的离散指标；

-根据如此计算的分散指标确定与感兴趣的生物物种相关的检测阈。

该方法可以包括计算为每个第一训练样品确定的感兴趣序列的任选归一化序列量的平均值或中值。然后还根据平均值或中值确定与感兴趣的生物物种相关的检测阈。

该方法可以包括使用多个第二训练样品确定与对照物种相关的检测阈的先前阶段，该第二训练样品被认为不包含对照物种，该方法包括：对于每个第二训练样品，

-提取核苷酸序列；

-对如此提取的核苷酸序列进行测序；

-确定分配给对照物种的序列量；

-可选地对分配给对照物种的序列量进行归一化；

该方法还包括：

-计算为每个第二训练样品确定的分配给对照物种的序列量或归一化序列量的分散指标；

-根据如此计算的分散指标确定与对照物种相关的检测阈。

该方法可以包括计算为每个第二训练样品确定的分配给对照物种的序列量，任选归一化序列量的平均值或中值。然后还根据平均值或中值确定与对照物种相关的检测阈。

每个第二训练样品可以是未添加任何对照物种的分析样品。

通常，归一化的序列量是通过将测序得到的序列量除以参考量得到的。参考量可以是在测序期间产生的序列的总数。

根据一个实施方案，步骤c)和d)分别针对各种感兴趣的生物物种并行执行，每种感兴趣的生物物种被认为可能存在于样品中。根据一个这样的实施方案，对于每个感兴趣的生物物种，对每个感兴趣的生物物种实施步骤c)和d)。

根据一个实施方案，该方法包括，在步骤a)之前，添加多种对照物种，使得对于给定的感兴趣的物种，在考虑多种对照物种的情况下执行步骤c)和d)，对每个对照物种并行实施子步骤iv)至vi)。

从本发明的特定实施方案的以下描述中，其他优点和特征将变得更加清楚，这些描述是通过非限制性实例提供的，并在下列图中示出。

附图说明

图1示意性地示出了根据本发明的方法的主要步骤。

图2A示出了对感兴趣的生物物种(实际上是金黄色葡萄球菌)的定量比较，分别通过实施下述步骤(y轴)和采用培养的参考方法(x轴)获得。

图2B示出了对感兴趣的生物物种(实际上是金黄色葡萄球菌)的定量比较，分别通过实施下述步骤(y轴)和采用定量PCR的参考方法(x轴)获得。

图3示出了分别对应于各种感兴趣的生物物种的归一化的序列量的统计分布，其是在被认为不包含感兴趣的生物物种的测试样品中测量而得的。

图4是示出了分别通过培养(x轴)和通过宏基因组分析(y轴)估计的感兴趣的生物物种浓度之间的比较图。

具体实施方式

该方法的目的是能够检测样品中感兴趣的生物物种SOI的存在。首字母缩略词SOI代表“感兴趣的物种(species of interest)”。在检测的情况下，方法可以允许对感兴趣的物种SOI进行绝对定量，以便允许与判定阈SD进行比较。

生物物种是指微生物，例如细菌或病毒、真菌、古细菌、变形虫、原生生物或微藻。生物物种也可以是细胞或包含核酸序列的任何其他生物或生命实体。

当样品取自人类或动物有机体时，感兴趣的生物物种可能是致病物种。当样品通过从工业过程或环境中取样获得时，感兴趣的生物物种可以是被认为是污染物的物种，或是工业过程或环境中的重要的感兴趣的物种，并且需要明确的存在或浓度。

感兴趣的物种具有已知或部分已知的基因组。基因组或其已知片段由称为感兴趣的序列的序列组成。

该方法可以同时处理多个感兴趣的物种。因此，术语“感兴趣的物种”将被解释为表示至少一种感兴趣的物种。

判定阈SD是指可以根据目标应用来表征感兴趣的生物物种的负载(例如微生物的负载)的一种阈值。例如，它是根据监管、卫生或工业限制来设置的。例如，当用于帮助临床诊断时，感兴趣的生物物种是细菌，判定阈可以是一个浓度，低于该浓度则细菌的存在对应于定植，即非病理性发展，高于该浓度则细菌的存在被认为是病理性的(例如对应于感染)。当本发明应用于工业过程时，检测阈对应于通过值，使得高于检测阈的样品被认为不通过，低于检测阈的样品被认为通过。无论何种应用，当感兴趣的生物物种的浓度高于或等于判定阈时，它被定义为是临界的。在某些应用中，例如在发酵产品的制造中，如果感兴趣的生物物种的浓度低于判定阈，则其可能被认为是临界的，后者对应于生物物种的最小可接受浓度。

样品通常是从环境或死的或活的有机体、或者甚至从制成品或与食品生产相关的产品中取样的样品。出于过程控制，样品也可以从工业设施中取样。因此，样品包含不具有相同基因组的各种生物物种。特别是当样品来自有机体例如人类或动物有机体的取样时，样品包含大量源自样品有机体的细胞，这些细胞甚至可能构成样品的大部分。人类或动物有机体的基因组比原核有机体的基因组大1000至100000倍。此外，样品通常包括天然存在于样品中且不易导致病理或严重污染的生物物种。例如，当样品是支气管肺泡样品时，它包含天然存在于肺中的细菌菌群。当样品是粪便样品时，它包含天然存在于消化道中的菌群。因此，当感兴趣的生物物种是细菌或病毒时，感兴趣的生物物种的核酸可能是样品中核酸的少数。

样品包含可称为“基质”的物种，它们是样品内源的，并且易于掩盖与感兴趣的生物物种相关的宏基因组信息。例如，当样品取自酸奶、肉或疫苗时，它包括代表这些介质的基质物种。在取自有机体的样品的情况下，所包含的基质构成有机体的细胞。

本发明的一个重要方面是根据宏基因组分析的原理，样品经历核酸(DNA和/或RNA)的提取，然后是测序过程。在测序过程之前可以进行扩增过程。测序可以是全基因组测序(WGS)，尤其是全基因组鸟枪法测序。因此获得了样品的各种物种的基因序列编目。使用高通量测序方法对样品的各种物种的所有或几乎所有核酸进行测序。然后，生物信息学手段允许识别与感兴趣的生物物种相关的感兴趣的序列，并且如下所述确定其量，通常是其归一化量。生物信息学手段基于参考序列数据库，例如在如上所述的WGS过程中的完整参考基因组。该数据库至少包括可能存在于样品中的感兴趣的生物物种的全部或部分基因组。它还包括被称为对照物种的生物物种的全部或部分基因组，后者在下文中描述。

因此，可以使用这种技术通过测序获得样品的各种物种的基因组描述。接下来，在已编目的基因组序列中，识别对应于感兴趣的生物物种的序列和对应于对照物种的序列。

该方法包括以下参照图1描述的步骤。

步骤10：取样。

在这个实例中，为了帮助诊断，样品取自活的人类有机体。然而，本发明不限于应用于生物领域。样品可以取自工业或医院环境，以验证关于判定阈的一致性。

步骤20：添加对照物种。

本发明的目的之一是评估宏基因组分析在何种程度上是可利用的。尤其是评估从样品制备、排除采样到测序数据的生物信息分析的所有步骤的一致性的问题。为此，将一种对照物种添加到样品中(其被表示为SPC，样品处理对照的首字母缩写词)。对照物种的一个功能是允许检查提取核酸和测序的步骤(这些步骤如下所述)是否正确进行。对照物种SPC可以是已知的生物物种，其基因组也是已知的，优选其全部。对照物种SPC可以是天然生物物种。它也可以是人工物种，例如包壳的RNA(核糖核酸)。然而，对照物种SPC最初并不存在于样品中，或者如果存在，其量可以忽略不计。优选地，最初存在于样品中，即在添加之前存在的对照物种SPC的含量优选是比添加到样品中的对照物种SPC的浓度C_SPC的至多1/10，或者优选地至多1/100或1/1000。对照物种SPC可以例如是细菌。重要的是要控制添加的对照物种的浓度。

可以考虑以下方面来选择对照物种：

a)对照物种必须最好不同于样品中天然存在的有机体或内源有机体，以及与受追捧的感兴趣的物种不同：因此，生物信息工具将能够准确识别通过对SPC测序产生的序列。

b)在测序期间，分配给对照物种的序列量必须足以能够正确检测，但不会掩盖与感兴趣的生物物种的序列相对应的有用信息。换言之，对照物种优选地可通过高通量测序检测，而在样品中不占优势。特别是，当需要确定阳性(物种浓度高于判定阈)或阴性(物种浓度低于判定阈)时，对照物种优选为：

o其基因组的大小最好与感兴趣的生物物种的基因组大小相似或至少相当。更具体地，对照物种的基因组大小是感兴趣的生物物种基因组大小的0.1倍至10倍。

o可根据判定阈设置对照物种的C_SPC浓度。添加的对照物种SPC的浓度C_SPC例如可以理解为判定阈的0.001倍至1000倍，优选0.01倍至100倍。

o在样品制备、提取和测序步骤中，对照物种SPC的核酸经过与感兴趣物种的核酸类似的处理，并且优选地：

GC(鸟嘌呤、胞嘧啶)碱基的百分比优选地接近于感兴趣的生物物种的GC碱基的百分比；接近于，是指包括在75％和125％之间，并且优选地在80％和120％之间。

当感兴趣的生物物种是细菌时，优选地包括对照生物物种、完整的细胞壁或膜，或者当感兴趣的生物物种是病毒时，优选包括蛋白质壳。该条件进一步允许对感兴趣的生物物种的裂解或提取核酸的步骤进行监测。

c)优选地，对照物种的核苷酸序列不包含基因组标记(例如抗生素抗性标记或毒力标记)，以免导致对抗生素敏感性的潜在测试结果因感兴趣的生物物种基因组中此类标记的存在而被破坏。优选地，对照物种的核苷酸序列不包含任何其他具有临床或工业意义的基因，并且易于检查其存在。

d)对照物种最好是易于操作的，特别是：

o对人类或环境无害；

o和/或耐热处理(例如冷冻干燥或冷冻)，这有利于储存。

e)对照物种不得形成孢子，或者如果形成则只能是可忽略的。

f)对照物种必须具有与感兴趣的生物物种接近的裂解敏感性。

g)对照物种以球的形式提供，每个球包含校准浓度的冷冻干燥形式的对照生物物种。

应当注意，可以使用单一对照物种SPC，或者可以使用多种不同类型的对照物种。各种对照生物物种可用于给定的感兴趣的生物物种。根据一种可能性，对照物种形成校准物。根据另一个变体，将不同于对照物种的校准物添加到样品中。校准物允许估计感兴趣的物种的浓度。该替代方案对应于本发明的变体，在步骤61至64的描述之后进行描述。请参阅标题为“变形”的部分。

对照物种SPC的添加浓度CSPC优选地是精确已知的。具体而言，如果满足某些条件，它可以允许对样品中感兴趣的生物物种的浓度进行定量，然后对照物种形成校准物。术语“添加的浓度”表示由于添加对照物种而导致的样品中对照物种的浓度。

在步骤30至60的描述中，通过有利的实例的方式描述了向样品中添加单一类型的对照物种。然后，对照物种在宏基因组分析的步骤中执行质量控制功能，以及校准物的功能，允许对感兴趣的生物物种的浓度进行定量。

在步骤20结束时，一定浓度的对照物种C_SPC将被加入至样品中。添加的浓度C_SPC可以表示为GEq/mL(每毫升基因组当量)。

步骤30：裂解和提取核酸。

在该步骤中，样品的细胞和特别是感兴趣的生物物种和对照物种的细胞经历裂解以便提取它们的DNA。可以设想各种策略：

裂解可以参数化以优先针对感兴趣的生物物种；

对照物种必须具有与感兴趣的生物物种相同的裂解敏感性，或者对裂解的敏感性可能被认为是等效的。

裂解可能包括第一次裂解，主要用于裂解感兴趣的物种以外的细胞。例如，当感兴趣的生物物种相对于样品基质的细胞而言非常少时，可以设想这样的第一次裂解。第一次裂解后，释放的核酸被除去，然后进行第二次裂解，靶向感兴趣的生物物种。在这种情况下，对照物种优选地对第一次裂解具有抗性，并且对第二次裂解不具有抗性。

在裂解之后，从样品中提取DNA，例如使用WO2014/114896中描述的提取方法。

从样品中提取的DNA可以基本上由基质的DNA组成，即由提取样品的环境的DNA组成。在这种情况下，可以对样品进行选择性捕获和/或扩增，主要针对感兴趣的生物物种的基因组的序列和/或物理化学修饰。在这种情况下，对照物种包含选择性捕获或扩增所靶向的序列和/或物理化学修饰。相反，样品可能会经历基本上针对基质DNA的消耗。在这种情况下，对照物种不包含可能被消耗的序列或物理化学修饰。

步骤40：扩增和测序。

在提取DNA之后，DNA片段任选地经历可以是靶向类型的扩增(例如通过聚合酶链式反应(PCR))或非靶向类型的扩增(例如通过全基因组扩增(WGA))。从样品中提取的DNA在适当的情况下进行扩增，进行测序，优选全基因组测序(WGS)。存在许多测序技术，例如边合成边测序(SBS)，或纳米孔测序，或杂交测序。无论采用何种技术，测序的目的都是提供数字核酸序列，称为读段。测序包括制备测序文库(文库制备)，任选地随后是扩增步骤，然后是实际测序步骤。由于用于对核酸进行测序的技术是众所周知的，因此将不对其进行详细描述。可以使用Illumina公司出售的MiSeq平台进行扩增和测序。

在测序文库的制备过程中，可以将DNA随机打散，从而获得目标平均长度的核酸序列，一般平均长度在50个碱基到300个碱基之间。参考鸟枪法测序或全基因组测序(WGS)。使用这种技术，核酸(无论其来源如何)在测序文库的制备过程中都会得到相同的处理。

在准备好测序文库之后，进行高通量测序。测序仪读取测序后的DNA片段的碱基，得到序列，称为读段，每个读段对应一个测序仪解码的序列。然后将测序产生的序列与存储在数据库中的基因组进行比对，特别是包括广受欢迎的感兴趣的生物物种的基因组和对照物种的基因组。测序是本领域技术人员已知的操作。与测序操作有关的细节例如在与现有技术相关的文件，特别是在WO2018/069430或以上引用的RuppéE的出版物中给出。

测序仪将与执行的测量相对应并包含读段的文件传输到数据处理单元。后者包括一个存储器，其中存储了允许执行测序算法的指令。对于每个序列，测序算法允许在存储在数据库中的多个基因组中识别包含该序列的基因组。它们还允许确定每个序列在其所属的基因组中的位置，并组装属于给定基因组的各种序列。

在步骤40结束时，将获得与样品的各种生物物种有关的测序数据。尤其是每个物种的身份和分配给每个已识别物种的序列量。特别是将获得分配给感兴趣的生物物种的序列量R_SOI和分配给对照物种的序列量R_SPC。

步骤45：识别读段所属的物种。

在这个由数据处理单元实施的步骤中，就细菌物种而言，每个读段的来源都被识别。该步骤通常称为分箱或分类分箱或分配，包括将每个读段与参考数据库的数字核酸序列进行比较。例如，Kraken，(Wood和Salzberg，“Kraken:ultrafast metagenomic sequenceclassification using exact alignments”，Genome Biology，2014年)或“WowpalWabbit”(Vervier等人，“Large-scale machine learning for metagenomics sequenceclassification”，Bioinformatics，2015)或“BWA-MEM”(Li，“Aligning sequence reads,clone sequences and assembly contigs with BWA-MEM”,Genomics,2013)是已知的分箱软件包。优选地，如果读段完全包含在代表存储在数据库中的感兴趣的物种的基因组中，则将读段分配给感兴趣的物种。

步骤50：归一化

从步骤45得到的测序数据量对于每个样品来说是不同的。具体而言，测序产生的序列量取决于样品中各种组成生物物种的DNA的质量和量。因此，将与物种相关的序列量相对于参考量归一化是优选的，甚至是必要的。归一化取决于分析的样品类型和应用的宏基因组分析。例如，参考量可以是为分析样品产生的序列总数。与每个物种相关的序列的归一化量(即量除以参考量)通常乘以1^E6以获得对应于每百万读段(或RPM)的归一化量。

根据其他变体，参考量可以是，非穷举：

-与所有已识别微生物相关的序列总数；

-与提取样品的有机体相关的序列总数：例如，当有机体是人体时，可以确定与人类基因组相关的序列总数；

-与参照物种相关的序列总数。参照物种是指被认为总是存在于所采集的各种样品中的内源性或外源性物种。参照物种可以是对照物种。

-与不包含感兴趣的生物物种的样品(阴性样品)或不包含样品的缓冲液中的预定物种相关的序列总数。

步骤50针对感兴趣的生物物种(或每个感兴趣的生物物种)和对照物种(或每个对照物种SPC或每个校准物)执行。因此，获得感兴趣的生物物种SOI(或为每个感兴趣的生物物种)的归一化量RN_SOI，并且为对照物种SPC(或为每个对照物种或每个校准物)获得归一化量RN_SPC。在符号RN中，字母N表示量已归一化。

以下，非限制性地，将仅考虑单一的感兴趣的生物物种和单一的对照物种。

在描述的其余部分中，术语量可以指定归一化的量。

步骤60：解释。

该步骤是本发明的重要步骤。这是一个确定测序结果在多大程度上是可解释的问题。

此步骤使用检测阈DT_SOI和DT_SPC，它们分别与感兴趣的生物物种SOI和对照物种SPC相关。可以基于分别为感兴趣的生物物种和对照物种确定的统计检测阈来建立检测阈。在下面描述的步骤100中预先建立统计检测阈。通常，统计检测阈对应于使用检测方法测量的分析物浓度的最低值，该最低值与在相同条件下样品不存在分析物时测量的浓度在统计学上不同。每个检测阈可以等于统计检测阈，或者根据统计检测阈确定，具体为k倍于统计检测阈，k为非零实数。

该解释旨在将分别分配给感兴趣的生物物种SOI和对照物种SPC的序列的归一化量RN_SOI和RN_SPC与其各自的检测阈进行比较。具体地，当分配给感兴趣的生物物种的序列的归一化量高于或等于与其相关的检测阈时，可以认为以可接受的置信水平检测到感兴趣的生物物种。对照物种也是如此。根据比较，可以区分四种情况：

RN_SOI≥DT_SOI且RN_SPC≥DT_SPC：参见步骤61

RN_SOI≥DT_SOI且RN_SPC<DT_SPC：参见步骤62

RN_SOI<DT_SOI且RN_SPC≥DT_SPC：参见步骤63

RN_SOI<DT_SOI且RN_SPC<DT_SPC：参见步骤64

步骤61：定量

当RN_SOI≥DT_SOI且RN_SPC≥DT_SPC时，确认分别检测到感兴趣的生物物种和对照物种。感兴趣的物种SOI被认为存在于样品中，具有足够的置信水平。其浓度C_SOI可根据以下因素进行估计：

-步骤20之后添加到样品中的对照物种SPC的浓度C_SPC；

-从步骤45得到的分配给对照物种SPC的序列量R_SPC，可选地归一化；

-产生自步骤45的分配给感兴趣的生物物种的序列的数R_SOI；

-与对照物种和感兴趣的生物物种的基因组大小有关的数据。

例如，可以使用以下表达式：

其中：

-L_SPC和L_SOI分别是对照物种和感兴趣的生物物种的基因组长度；

-α是根据训练样品凭经验确定的校正因子，其感兴趣的生物物种的浓度是已知的。校正因子α允许考虑对感兴趣的生物物种和对照物种进行测序的过程效率的差异。默认α可以设置为等于1(α＝1)。该单位值允许获得足够好的绝对定量，以便确定样品相对于要确定的判定阈的肯定性或否定性。

当添加浓度以GEq/mL表示时，感兴趣的生物物种的浓度也以相同的单位表示。

或者，测序包括组装分别与对照物种和感兴趣的生物物种相关的序列，并确定每个物种的组装的覆盖度Cov。然后可以使用以下等式计算感兴趣的生物物种的浓度C_SOI：

其中：

-Cov_SPC和Cov_SOI分别是为对照物种和感兴趣的生物物种确定的覆盖度。覆盖度表示在基因组中给定位置对碱基进行测序的平均次数，如Lacoste C等人的出版物中“Le

d’ADN à haut débit en pratique clinique”[High-throughput DNAsequencing in clinical practice],Archives de Pédiatrie 2017,24,373-383.中所述。

-α’是根据训练样品凭经验确定的校正因子，其中感兴趣的生物物种的浓度是已知的。校正因子α'允许将感兴趣的生物物种和对照物种的测序效率差异考虑在内。默认α'可以设置为等于1(α'＝1)。该单位值允许获得足够好的绝对定量，以便确定样品相对于要确定的判定阈的肯定性或否定性。

根据下面描述的一种变体，步骤61可以用不同于对照物种并且形成校准物的生物物种来实施。在这种情况下，在步骤60中使用对照物种以确认检测到感兴趣的生物物种，而步骤61(即定量)是使用校准物实现的，后者仅用于定量。优选地，校准物的特性与对照物种的特性相似，并且对应于参考步骤20描述的特性。可以使用表达式(1)或表达式(1')进行使用校准物的定量。表达式(1)变为：

其中：

-R_CAL是分配给校准物的可选归一化序列数；

-L_CAL是校准物基因组的长度；

-C_CAL是添加到样品中的校准物浓度；

-α是如参考(1)所述的校正因子。

表达式(1')变为：

-Cov_CAL是为校准物确定的覆盖度；

-α是如参考(1')所述的校正因子。

步骤62：

当RN_SOI≥DT_SOI且RN_SPC<DT_SPC时，这意味着认为未检测到对照物种，而认为检测到感兴趣的生物物种。然而，不能以足够的信心对感兴趣的生物物种进行定量。该步骤包括比较对照物种的添加浓度C_SPC和判定阈SD，使得：

-如果C_SPC<SD，则无法获得有关目标生物物种浓度相对于判定阈的信息；

-如果C_SPC≥SD，则无法估计感兴趣的生物物种的浓度，但可以认为它高于判定阈。尽管无法定量感兴趣的生物物种的浓度，但可以得出结论，其已超过判定阈。

步骤63：

当RN_SOI<DT_SOI且RN_SPC≥DT_SPC时，可以认为测序工作正常。该步骤包括估计感兴趣的生物物种的最低检测浓度。感兴趣的生物物种的最低检测浓度Cmin_SOI对应于能够与背景噪声区分开来的最低浓度。它与对应于感兴趣的生物物种的检测阈DT_SOI的基因组等效浓度相当。最低可检测浓度可根据以下因素确定：

-在步骤20之后添加到样品中的对照物种SPC的浓度C_SPC；

-产生自步骤45的分配给对照物种SPC的序列量R_SPC；

-与感兴趣的生物物种相关的检测阈DT_SOI；

-与对照物种和感兴趣的生物物种的基因组大小有关的数据。

其中：

-L_SPC和L_SOI分别是对照物种SPC和感兴趣的生物物种SOI的基因组长度；

-α是参考等式(1)描述的校正因子。

步骤63包括将判定阈SD与最低检测浓度Cmin_SOI进行比较，使得：

-如果Cmin_SOI≤SD，则可认为感兴趣的生物物种的检测为阴性：样品中感兴趣的生物物种的浓度低于或等于判定阈；

-如果Cmin_SOI>SD，则无法提供有关样品中是否存在感兴趣的生物物种及其相对于判定阈的浓度的信息。

步骤64：

当RN_SOI<DT_SOI且RN_SPC<DT_SPC时，没有检测到对照物种SPC表明该分析没有达到检测感兴趣的生物物种所需的性能。分析无法解释。该分析可能被认为是无效的。可能会出现这样的情况：

-当测序步骤之一未达到检测目标生物物种所需的性能时；

-和/或当样品包含大量患者或基质或微生物菌群的DNA时；

-和/或当样品包含至少一种具有高浓度的物种并且产生大量序列时，这具有掩盖其他感兴趣序列的效果。

在步骤61至64之一结束时，确认存在浓度高于判定阈的感兴趣的生物物种及其定量(如果有的话)用于辅助诊断。

变形

在上述实施例方案中，对照物种SPC执行关于控制宏基因组分析质量的功能和校准物功能，从而允许对样品中感兴趣的生物物种进行定量。

根据一种变形，将对照物种SPC和不同于对照物种的校准物添加到样品中。例如，这是两个不同细菌物种的问题。对照物种SPC执行有关控制宏基因组分析质量的功能。校准物允许根据等式(1)或(1')或(2)对样品中感兴趣的生物物种进行定量。当它与对照物种不同时，校准物优选具有与对照物种相同的特性，这些特性参照步骤20进行描述。以第一浓度添加对照物种SPC。向其分配检测阈，并且通过将分配给对照物种的序列的归一化量(由步骤50产生)与与对照物种相关的检测阈进行比较来实施步骤60。校准物也以第二浓度添加到样品中。向其分配检测阈。在步骤61中，可以在考虑与校准物相关的归一化序列量以及与其相关的检测阈的情况下执行定量。

可以在裂解之前或在裂解之后和测序之前添加校准物。

在另一个变形中，将多个校准物添加到样品中，每个校准物被选择用于一个或多于一个感兴趣的物种。特别地，细菌种群对提取核酸的过程可能有显著不同的反应(例如革兰氏+细菌和革兰氏-细菌)。有利地，当一种或多于一种感兴趣的物种是革兰氏+时添加由革兰氏+细菌组成的校准物，并且当一种或多于一种感兴趣的物种是革兰氏-时添加由革兰氏细菌组成的校准物。同样，感兴趣的物种可能包括细菌和病毒。在这种情况下，第一个校准物是细菌的，第二个校准物是病毒的。辅助是病毒。通常，问题在于选择在样品制备步骤(提取，任选的序列文库制备或扩增和测序)中与它校准的目标物种尽可能相同的校准物。

步骤100：建立检测阈。

如上所述，对照物种和感兴趣的生物物种需要分别与检测阈相关。对于给定的生物物种(对照生物物种或感兴趣的生物物种)，在解释结果之前使用不包含所述物种的训练样品建立检测阈。这是一个相对于所讨论的物种为阴性的样品的问题。这些样品是分析样品的代表。代表性是指这些训练样品包括与分析样品的种群相当的生物物种种群，无论是从定性的角度还是从定量的角度来看。可以使用基于标准培养和/或PCR的方法来验证每个测试样品中不存在感兴趣的生物物种和/或对照物种。

对每个训练样品进行测序，优选在与参考步骤30至45所述相同的条件下进行。在测序之后，确定分配给所讨论物种的序列量。如参考步骤50所述，该量优选地被归一化。

因此，分别与感兴趣的生物物种和对照物种相关的检测阈可以分别使用不包含感兴趣的生物物种的第一训练样品和不包含对照物种的第二训练样品来建立。第一训练样品可以是第二训练样品，反之亦然，在这种情况下，与感兴趣的生物物种和对照物种相关的检测阈由相同的训练样品确定。

测序优选地在统计上代表量的训练样品上进行。因此，获得了序列的归一化量的统计分布。接下来，估计分布的平均值μ和离散指标(例如标准偏差σ或方差σ2)。检测阈是通过向平均值μ添加n倍色散指标来估计的，n是实数。n通常介于2和4之间。

由于分别与感兴趣的生物物种和对照物种相关的检测阈旨在与感兴趣的生物物种和对照物种的序列的归一化量进行比较，因此，重要的是在步骤100中执行的归一化类似于在步骤50中执行的归一化。

上述步骤可以同时针对多个感兴趣的生物物种。这也是宏基因组分析的一个显著优势，它允许同时处理各种生物物种。宏基因组分析的另一个优点是能够同时使用多个对照物种。因此，一种对照物种可用于靶向一种或多于一种生物物种，而另一种对照物种可用于靶向其他感兴趣的生物物种。这是宏基因组分析的另一个优势。

甚至可以设想对给定的感兴趣的生物物种使用多种对照物种。例如，对于给定的感兴趣的生物物种，可以使用各种对照物种来实施步骤61至64。这使得可以限制由于对照物种的测序缺陷而导致方法失败的风险。对于不同的(生物物种、对照物种)对，获得了关于相对于判定阈的感兴趣的生物物种的存在的估计。当多个对照物种用于给定的感兴趣的生物物种时，可以根据等式(1)、(1')获得多个定量，在这种情况下，获得的定量的平均值或中值，或者被认为是最不利的定量(即导致感兴趣的生物物种的最高浓度的定量)，或更一般地最接近判定阈的浓度，可以被考虑。

更一般地说，宏基因组分析仍然需要强大的计算手段。相反，它允许一定程度的操作灵活性，因为它允许同时处理多个生物物种(和/或多个对照物种)，唯一的条件是寻找的生物物种的基因组并且必须知道它们各自对照物种的基因组。

步骤61至64由计算单元，例如微处理器，基于在步骤40、45和50中生成并由处理单元传递的排序数据来实施。对应于从分析样品获得的测量数据的测序数据因此通过有线或无线链路传输到计算单元，从而可以执行步骤61至64之一。微处理器连接到包含允许执行步骤61至64的指令的存储器。

实施例1

在第一个实施例中，证实枯草芽孢杆菌(Bacillus subtilis)是在对人类患者进行的支气管肺泡灌洗(BAL)产生的样品的宏基因组测序中用作对照物种的良好候选物。由于患者是人类，因此预计此类样品将包含大量人类DNA。

此类样品的宏基因组测序可能有助于诊断医院获得性肺炎，以用于诊断目的。临床判定阈设定为1.0E4 CFU/mL，CFU是菌落形成单位的首字母缩写。

为了除去患者的DNA，分析方案包括初步裂解，其中除去了患者的DNA。在第一次裂解中，用特异性靶向患者细胞的裂解剂处理样品。这种裂解剂例如在WO2014/114896中所描述的。然后通过酶促作用和洗涤除去释放的DNA。然后样品进行第二次机械和化学裂解以提取细菌DNA。

在裂解步骤之前，方案中规定了向样品中添加对照物种。形成对照物种的生物物种必须对人类细胞的裂解具有抗性，同时对细菌细胞的裂解敏感。现在，已知某些细菌，特别是革兰氏阳性菌，难以裂解。因此，选择具有与革兰氏阳性菌相当的裂解抗性的生物种作为对照种。

此外，进行的宏基因组测序旨在检测和潜在地定量大约20种感兴趣的生物物种，每种感兴趣的物种都是下列表中包含的细菌：鲍曼不动杆菌(Acinetobacter baumannii)、弗氏柠檬酸杆菌(Citrobacter freundii)、克氏柠檬酸杆菌(Citrobacter koseri)、产气杆菌(Enterobacter aerogenes)、阴沟肠杆菌(Enterobacter cloacae)、大肠埃希菌(Escherichia coli)、流感嗜血杆菌(Haemophilus influenzae)、蜂房哈夫尼菌(Hafniaalvei)、产酸克雷伯氏菌(Klebsiella oxytoca)、肺炎克雷伯菌(Klebsiellapneumoniae)、嗜肺军团菌(Legionella pneumophila)、摩氏摩根菌(Morganellamorganii)、奇异变形杆菌(Proteus mirabilis)、普通变形杆菌(Proteus vulgaris)、斯氏普鲁威登菌(Providencia stuartii)、铜绿假单胞菌(Pseudomonas aeruginosa)、黏质沙雷菌(Serratia marcescens)、金黄色葡萄球菌(Staphylococcus aureus)、嗜麦芽窄食单胞菌(Stenotrophomonas maltophilia)、肺炎链球菌(Streptococcus pneumoniae)。

对照物种SPC还必须能够以与上面列出的感兴趣物种相当的效率进行测序。众所周知，测序效率主要取决于基因组的大小和GC(鸟嘌呤-胞嘧啶)含量。因此，在这个实施例中，对照物种的基因组大小必须在1.9和6.6兆碱基之间，GC含量必须在33％和66％之间。此外，添加到样品中的对照物种的浓度设置为1.0E4 CFU/mL，即与上述判定阈相当的浓度。

发明人评估了使用以下生物物种形成对照物种的可取性：嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)、集胞藻属PCC6803(Synechocystis sp.PCC6803)、遍在远洋杆菌(Pelagibacter ubique)、詹氏甲烷球菌(Methanocaldococcus jannaschii)、好氧超嗜热古菌敏捷气热菌(Aeropyrum pernix)、嗜根考克氏菌(Kocuria rhizophila)、生脂固氮螺菌(Azospirillum lipoferum)、乳酸乳球菌(Lactococcus lactis)、聚球蓝细菌属WH 7805(Synechococcus sp.WH 7805)、粟酒裂殖酵母(Schizosaccharomyces pombe)、斯氏泛菌(Pantoea stewartii)、噬菌体T4(Phage T4)、巴斯德毕赤酵母(Pichiapastoris)、Armored DNA Quant^TM和枯草芽孢杆菌。

在这些不同的物种中，结果表明枯草芽孢杆菌具有用作对照物种所需的特征。枯草芽孢杆菌基因组大小为4.12Mb(兆碱基)，GC含量为43.6％。此外，枯草芽孢杆菌以“BioBalls”(注册商标)-制造商Biomérieux的形式市售。这些BioBalls是含有校准浓度的枯草芽孢杆菌的水溶性球，这可以调整添加的对照物种的浓度。BioBall MultiShot 550在600μL支气管肺泡灌洗液样品中的补液相当于添加了等于9.2E3 CFU/mL的枯草芽孢杆菌浓度，这接近于1.0E4 CFU/mL的判定阈。

还通过实时PCR比较了来自包含枯草芽孢杆菌新鲜培养物的样品和来自包含以BioBalls形式添加的枯草芽孢杆菌的样品的DNA提取物。PCR的结果具有可比性。

对通过支气管肺泡灌洗(BAL)获得的7个样品进行测序，无需事先添加枯草芽孢杆菌。在7个样品中的4个中，观察到分配给枯草芽孢杆菌的序列量可以忽略不计：低于每百万5个读段。因此，误报的量可以忽略不计。在其他样品中，序列被分配给枯草芽孢杆菌，这或者是由于序列分配软件错误，或者是由于样品中存在与枯草芽孢杆菌非常相似的序列。然而，分配给枯草芽孢杆菌的序列量从未超过每百万200个读段：因此相对较低。

BAL获得的46个样品中添加了浓度为1.7E4 CFU/mL的枯草芽孢杆菌，在不确定范围内。测序后，对于46个样品中的36个，分配给枯草芽孢杆菌的序列量超过了每百万1000个读段。

这个实施例表明，枯草芽孢杆菌是一种易于形成对照物种的生物物种，在BAL获得的样品中，并具有在实施例开始时描述的分析方案。

实施例2

该实施例描述了通过应用实施例1中描述的双重裂解方案和上述步骤10至50，通过支气管肺泡灌洗(BAL)获得的样品中金黄色葡萄球菌的检测和定量。

使用了由BAL获得的13个样品的一个队列。基于实施例1的结论，使用的对照物种是枯草芽孢杆菌，它以接近判定阈(1.0E4 CFU/mL)的浓度添加到每个样品中。在这个实施例中，对照物种是通过在1.1mL PBS缓冲液(PBS代表磷酸盐缓冲盐水)中再水合BioBallMultiShot 10E8-Bacillus subtilis ATCC 19659(Biomérieux)获得的。对照物种在PBS中稀释至1.0E6 CFU/mL，并将10μL添加到600μL样品中。因此，获得了1.7E4 CFU/mL的对照物种的添加浓度。

每个样品在取样后最多处理48小时。如上所述，每个样品都经历了人类细胞特异性的第一次裂解。将未裂解的细胞沉淀并在DNase I中处理。在提取人DNA之前，通过加热和添加EDTA(乙二胺四乙酸)使DNase失活。然后对每个样品进行第二次裂解，这是通过将样品添加到含有直径为1mm的玻璃珠和直径为0.1mm的Zr/Si珠的混合物的打珠管中来进行的。通过摇动试管20分钟获得裂解物。使用Biomérieux平台easyMAG(注册商标)从裂解物中提取DNA。洗脱体积为25μL。提取物在-20℃下储存。

使用Nextera(注册商标)XT DNA Library Preparation Kit(制造商Illumina)制备2x250双末端读段的测序文库。使用带有“MiSeq试剂盒V3”(Illumina)的MiSeq(注册商标)平台对样品进行测序。

使用软件包KRAKEN V0 10.5b和内部序列数据库的处理单元处理序列。该数据库特别包含人类基因组序列和20种感兴趣的生物物种的序列，这些序列在实施例1中列出。每个样品中产生的序列量为331000至17000000。将与对照生物物种(枯草芽孢杆菌)和感兴趣的生物物种(金黄色葡萄球菌)相关的序列数归一化为每百万读段(RPM)。

此外，通过针对SpA基因的定量PCR(qPCR)对每个样品进行定量参考测量。在平台CFX96 Touch实时PCR检测系统(Biorad)上进行荧光信号的扩增和实时读出。

表1整理了13个培养阳性样品的测序结果。第1列至第7列分别对应：

-参考样品；

-通过培养对金黄色葡萄球菌进行定量；

-通过qPCR对金黄色葡萄球菌进行定量；

-分配给对照物种(枯草芽孢杆菌)的序列的归一化量RN_SPC；

-分配给感兴趣的生物物种(金黄色葡萄球菌)的序列的归一化量RN_SOI；

-在可能的情况下，对使用等式(1)确定的感兴趣的生物物种的浓度C_SOI进行定量，这在步骤61中进行了描述；

-在可能的情况下，对使用方程(1')确定的感兴趣的生物物种的浓度C_SOI进行定量，这在步骤61中进行了描述。

在本实施例中，对照物种SPC起到了校准物的作用，从某种意义上说，它被用于定量步骤。

SOI NA和SPC NA对应于与感兴趣的生物物种SOI和对照物种SPC相关的序列量分别不足以进行组装的事实。NA是未组装的首字母缩写词。

表1

样品1、2、3、4、5、6、7、9、10、11、12和13(即13个样品中的12个样品)对应于参考步骤61描述的配置，其中感兴趣的物种的定量是可能的(例如根据表达式(1)和表达式(1'))。

样品8对应于参考步骤64描述的配置：结果不可解释。额外的调查显示，对于这个样品，序列解复用步骤失败了。这个特殊情况很有趣，因为它表明考虑到对照物种可以避免产生“假阴性”。

对于“可定量”的样品(1、2、3、4、5、6、7、9、10、11、12和13)，使用等式(1')估计浓度C_SOI。然而，与对照物种SPC或与感兴趣的生物物种SOI相关的序列有时是无法组装的(notassemblable)。在这种情况下，使用该方案无法定量感兴趣的生物物种，而它使用的是等式(1)。样品2和13的情况尤其如此，其中与感兴趣的生物物种相关的序列量不足以获得组装(assembly)和测量测序深度。因此，仅当序列量足够时，才可以设想基于等式(1')的定量。基于等式(1)的定量似乎是优选的。

图2A显示了通过培养(x轴)和测序(y轴)对金黄色葡萄球菌进行定量的比较。相关系数低(r2＝0.2929)。这种低值可以通过培养方法的不精确性以及通过培养检测到的活细胞和可培养细胞的量与通过测序检测到的基因组总数之间的差异来解释。某些抽取样品的患者正在接受抗生素治疗，这往往会降低存活和可培养细菌相对于细菌总数的比例。因此，培养只允许获得部分定量信息。

图2B显示了元测序(等式(1)-y轴)和定量PCR(x轴)的定量结果之间的相关性。相关系数更高：r2＝0.9906，这证明了元测序定量的可靠性。

实施例3

在该实施例中，测试了在通过支气管肺泡灌洗液(BAL)或微型支气管肺泡灌洗液(mini-BAL)获得的样品中检测到的20种感兴趣的病原细菌，这些细菌在实施例1中列出。对照物种SPC(枯草芽孢杆菌)以与实施例2相同的方式获得，添加到每个样品中的浓度为1.7E4 CFU/mL。BAL样品的判定阈为1.0E4 CFU/mL，mini-BAL样品的判定阈为1.0E3CFU/mL。

收集了两组样品：一个训练组，包括46个样品(23个BAL和23个mini-BAL样品)，一个分析组，包括40个样品(33个BAL和7个mini-BAL样品)。

对于训练和分析队列的所有样品，对每个感兴趣的物种进行了培养参考测量。

如实施例2所述，样品经历双重裂解。如实施例2所述进行测序。

对于每个感兴趣的物种和对照物种，序列量被归一化为每百万与细菌物种相关的读段的读段(RPMb)，参见步骤50。

对于每个感兴趣的生物物种，检测阈DT_SOI仅考虑训练样品来确定，其中感兴趣的生物物种被认为未检测到。当样品的微生物培养结果对于所讨论的SOI的检测结果为阴性且对于所讨论的SOI特异性MetaPhlAn标记序列的检测结果为阴性时，则认为在样品中未检测到感兴趣的物种。图3示出了训练样品中归一化序列量的统计分布，这些样品对感兴趣的物种为阴性。x轴对应于每个感兴趣的物种，而y轴对应于与感兴趣的物种相关的序列的归一化量。对于每个物种，确定了中值(框中包含的线)以及第25和第75百分位数(框的限制)，这允许以盒须图(或箱线图)的形式表示来获得。每条垂直线的末端对应于第1个和第99个百分位数。可以看出，分布相对于彼此变化很大，这证明了每个感兴趣的生物物种使用一个检测阈DT_SOI是合理的。对于每个感兴趣的物种，根据上述步骤100确定检测阈DT_SOI。如果μ_SOI指定分配给感兴趣物种的归一化序列数的平均值，而σ_SOI是它们的标准偏差，则检测阈DT_SOI位于平均值上方“3-sigma”，根据表达式：

DT_SOI＝μ_SOI+3σ_SOI(3)

定义了与枯草芽孢杆菌相关的检测阈DT_SPC＝DTB_{枯草芽孢杆菌}。考虑了7个未添加枯草芽孢杆菌的训练样品。确定了分配给枯草芽孢杆菌的归一化序列数的平均值μ_{枯草芽孢杆菌}，以及它们的标准偏差σ_{枯草芽孢杆菌}。检测阈DTB_{枯草芽孢杆菌}是这样的：

DT_{枯草芽孢杆菌}＝μ_{枯草芽孢杆菌}+3σ_{枯草芽孢杆菌}(3)

定义称为宏基因组阈的判定阈(SD)是为了区分感兴趣的细菌的正常存在和这些感兴趣的细菌对患者的感染。为此，将训练队列样品的微生物培养结果分为2个不同的群体：

-“感染”人群对应于20次通过培养检测到的浓度等于或高于临床阈的事件，即mini-BAL样品为1E3 CFU/mL，BAL样品为1E4 CFU/mL。

-“定植”人群对应于900次未通过培养检测或通过培养检测到浓度低于临床阈的事件，即mini-BAL样品为1E3 CFU/mL，BAL样品为1E4 CFU/mL。

在前两段中，920次的事件对应于通过微培养对46个训练样品进行的分析，这些样品针对20个感兴趣的生物物种中的每一个进行。

图4显示了通过培养(x轴)和宏基因组分析(y轴)对各种样品进行的生物物种的定量。在图4中，黑色圆圈对应于选自鲍曼不动杆菌、弗氏柠檬酸杆菌、克氏柠檬酸杆菌、产气杆菌、阴沟肠杆菌、大肠埃希菌、流感嗜血杆菌、蜂房哈夫尼菌、产酸克雷伯氏菌、肺炎克雷伯菌、嗜肺军团菌、摩氏摩根菌、奇异变形杆菌、普通变形杆菌、斯氏普鲁威登菌、铜绿假单胞菌、黏质沙雷菌、金黄色葡萄球菌、嗜麦芽窄食单胞菌、肺炎链球菌中的物种。白色三角形对应于金黄色葡萄球菌。

尽管如实施例2(图2A)所示，有时无法将培养获得的CFU/mL浓度与元测序获得的GEq/mL浓度精确关联起来，但图4表明，对于一个物种感兴趣的物种或一组感兴趣的物种，“定植”和“感染”种群仍然可以根据测序定量的结果(基因组当量(GEq))进行区分。宏基因组阈(SD)的定义考虑了“感染”人群中测量的浓度的前半个百分位数；由此获得的值为5.5E3 GEq/mL。

因此，基于训练样品，可以定义宏基因组阈，该宏基因组阈形成判定阈SD，允许分离具有高于或低于临界值的感兴趣生物物种浓度的样品。临界值可以显著地对应于上述的判定阈SD。然后将通过测序确定的感兴趣物种的浓度和与其相关的判定阈进行比较。应当注意，判定阈通常取决于所讨论的生物物种。因此，可以为所讨论的一种生物物种或一个生物物种种群建立一个判定阈。两种不同的生物物种可能与两种不同的判定阈相关。

对分析组的40个样品进行了测序。表2A至2C整理了获得的结果，每个表分别整理了样品1至13、14至27和28至40的结果。每个表的第一行包含每个样品的参考。第二行表示相对于与其相关的检测阈DT_SPC检测到(+)或未检测到(-)对照物种SPC：参见步骤60。

在样品3、7、23和35中，未检测到对照物种SPC(RN_SPC<DT_SPC)。当未检测到感兴趣的物种时(RN_SOI<DT_SOI)，参见步骤64，其结果不可解释，这对应于代码INV。由于最低检测浓度太高，无法确定感兴趣的物种相对于判定阈(在本实施例中为临床阈)的浓度。当检测到感兴趣的物种时(RN_SOI≥DT_SOI)，参见步骤62，因为添加的对照生物物种的浓度高于宏基因组阈(SM)，其等于5.5E3 GEq/mL，所以认为感兴趣物种SOI的检测在判定阈之上是阳性的，这在这个实施例中是一个临床判定阈。该结果对应于表2A、2B和2C：

-当通过微生物培养检测到感兴趣的生物物种也高于临床阈时，则为真阳性(TP)；或

-当通过微生物培养未检测到感兴趣的生物物种高于临床阈时，则为假阳性(FP或FP+)。

在样品1、2、4至7、8至22、24至34和36至40中，检测到生物对照物种(RN_SPC≥DT_SPC)。当未检测到感兴趣的物种时(RN_SOI<DT_SOI)，参见步骤63，使用等式(2)建立最低检测浓度Cmin_SOI。当最低检测浓度Cmin_SOI高于判定阈SD时，这些结果不可解释，这对应于表2A、2B和2C中的代码INV。当最低检测浓度Cmin_SOI低于或等于判定阈(宏基因组阈)SD时，认为感兴趣的生物物种的检测值低于临床阈。该结果对应于表2A、2B和2C：

-当通过微生物培养检测到感兴趣的生物物种高于临床阈，但通过宏基因组分析定量为低于判定阈时，则为假阴性(FN)。

-当通过微生物培养和宏基因组分析未检测到感兴趣的生物物种高于临床阈时，为真阴性(空框)。

当检测到生物对照物种(RN_SPC≥DT_SPC)，并且检测到目标生物物种(RN_SOI≥DT_SOI)时，使用步骤61中描述的表达式(1)，以与目标生物物种相关的序列数作为校准物，确定生物的浓度C_SOI。这些结果对应于表2A、2B和2C：

-当通过微生物培养检测到感兴趣的生物物种高于临床阈时，则为真阳性(TP)；或

-通过当微生物培养未检测到感兴趣的生物物种高于临床阈时，则为假阳性(FP或FP+)。

样品

1

2

3

4

5

6

7

8

9

10

11

12

13

SPC

+

-

+

-

+

鲍曼不动杆菌

INV

弗氏柠檬酸杆菌

INV

克氏柠檬酸杆菌

INV

产气杆菌

INV

阴沟肠杆菌

INV

大肠埃希菌

INV

流感嗜血杆菌

INV

蜂房哈夫尼菌

INV

产酸克雷伯氏菌

INV

肺炎克雷伯菌

INV

嗜肺军团菌

INV

摩氏摩根菌

INV

奇异变形杆菌

INV

普通变形杆菌

INV

斯氏普鲁威登菌

INV

铜绿假单胞菌

TP

FP

INV

黏质沙雷菌

INV

FP+

金黄色葡萄球菌

INV

TP

嗜麦芽窄食单胞菌

INV

肺炎链球菌

TP

INV

TP

表2A

样品

14

15

16

17

18

19

20

21

22

23

24

25

26

SPC

+

-

+

鲍曼不动杆菌

INV

弗氏柠檬酸杆菌

INV

克氏柠檬酸杆菌

INV

产气杆菌

INV

阴沟肠杆菌

INV

大肠埃希菌

INV

流感嗜血杆菌

INV

蜂房哈夫尼菌

INV

产酸克雷伯氏菌

INV

肺炎克雷伯菌

INV

嗜肺军团菌

INV

摩氏摩根菌

INV

奇异变形杆菌

INV

普通变形杆菌

INV

斯氏普鲁威登菌

INV

铜绿假单胞菌

TP

INV

TP

黏质沙雷菌

INV

金黄色葡萄球菌

INV

嗜麦芽窄食单胞菌

TP

INV

肺炎链球菌

FP

INV

表2B

表2C

微生物培养分析允许检测到高于判定阈的11次事件(BAL样品为1E4CFU/mL，mini-BAL样品为1E3 CFU/mL)。宏基因组分析允许检测到其中的10次事件，这对应于表2A至2C中的符号TP(真阳性)。宏基因组学未检测到的事件对应于样品27中的阴沟肠杆菌，并且可以通过样品(其中不存在阴沟肠杆菌)中与阴沟肠杆菌相关的大量序列来解释(见图3)，这导致非常高的检测阈，其致使最低检测浓度Cmin_SOI经常高于宏基因组阈(SM)。宏基因组测试认为该结果无效，参见表2C中的INV。

在微生物培养方面，宏基因组分析允许检测到另外19个事件。这些事件在表2A至2C中被指定为FP(假阳性)或FP+。5次FP+事件对应于MetaPhlAn标记和BLAST比对(BLAST是基本局部比对搜索工具的首字母缩写词)允许确认样品中存在感兴趣的物种的检测，尽管通过培养其未被检测到。这些互补的事件可能是由于宏基因组测试对微生物培养检测的更高灵敏度，它只允许检测微生物群的存活和可培养部分。FP事件对应于假阳性，其中与感兴趣的物种相关的读段量太低，无法通过搜索MetaPhlAn标记和BLAST比对进行确认。这些互补的事件也可能是由于宏基因组测试在通过微生物培养检测方面具有更好的敏感性。然而，由于缺乏确认，无法排除宏基因组测试缺乏特异性的可能性。

宏基因组测试产生了185个无效结果——表2A、2B和2C中的INV。这些结果对应于未检测到感兴趣的SOI物种，但无法解释，因为最低检测浓度Cmin_SOI高于宏基因组阈(SM)。该结果与微生物培养的结果尤其不同，如果没有使用某些设备单独验证测试样品中细菌物种的检测灵敏度，则微生物培养通常会产生阴性结果。使用宏基因组测试进行验证可以限制假阴性的风险，样品27中未检测到阴沟肠杆菌清楚地说明了这种情况。

对感染BAL和mini-BAL样品的患者的感兴趣病原体的检测结果的比较，见表3，清楚地示出了使用本发明中描述的对照物种的优势。直接根据分配给感兴趣物种的归一化读段量检测高于临床判定阈的病原体，产生的假阳性结果几乎增加了9倍。使用本发明中提供的对照物种可以显著改善宏基因组测试的特异性和更好地检测感染，而不会损失灵敏度。

表3

已经描述了本发明对所谓的鸟枪序列的特定应用。本发明也适用于靶向序列，例如所谓的16S序列。在这种情况下，在测序之前，进行扩增目标基因的步骤以在样品中增加其拷贝。然后，本发明使用的读段是仅对应于靶基因的读段。

已经描述了在BAL或mini-BAL样品的宏基因组分析中使用枯草芽孢杆菌作为对照物种。作为变形，可以使用另一种对照物种，只要它满足参考步骤20描述的所有或部分标准。例如，它可能是从以下物种中选择的一个问题：嗜热脂肪芽孢杆菌、集胞藻属PCC6803、遍在远洋杆菌、詹氏甲烷球菌、嗜热泉生古细菌、嗜根考克氏菌、生脂固氮螺菌、乳酸乳球菌、聚球蓝细菌属WH 7805、粟酒裂殖酵母、斯氏泛菌、噬菌体T4、巴斯德毕赤酵母和ArmoredDNA Quant^TM。

已经描述了采取元件形式的多种对照物种，所述元件包括包含或封装在膜(细菌膜、衣壳等)中的核酸。该特征用于验证宏基因组分析的一致性的功能，特别是用于确定提取核酸的过程是否按预期工作。显然，当生物物种仅用作校准物时，即不允许验证一致性的功能而仅执行定量功能时，校准物可以由添加到样品中或在DNA提取物中的已知量的游离核酸组成。

已经描述了同时添加对照和校准物，即在提取核酸序列的步骤之前。当使用两种不同的生物物种分别执行一致性验证和定量(校准物)功能时，可以在后续步骤中添加校准物，优选当它是一个裸核酸的问题时，在裂解样品的步骤之后添加校准物，以免破坏后者。

根据本发明的方法特别允许分析样品中感兴趣的生物物种。优选地，在临床应用的情况下，根据本发明的方法通过以下步骤完成：根据样品中识别和测定的物种确定抗生素疗程，并向患者施用所确定的抗生素疗程。

该方法允许帮助诊断样品是否被感兴趣的物种污染，后者可能是细菌或真菌。这允许根据感兴趣的物种的身份(在细菌情况下的抗生素治疗，在酵母或真菌情况下的抗真菌治疗)以及在基因组中检测到的任何抗菌素耐药性迹象来定义合适的治疗方法。

更一般地，根据目标应用，当生物物种的浓度高于判定阈时，这可以被认为是异常发生的指示。决定适当的补救措施，以补救异常。例如，在食品加工领域，感兴趣的物种可能是细菌。当浓度超过某个阈时，补救措施可能是移除或销毁打算出售的食品，和/或清洁生产设施。当申请涉及卫生检查时，例如设施(例如医院的一部分)的卫生检查，以防止医院感染，同样适用。公认的不良生物物种的存在致使采取补救措施，例如清洁或去污。

本发明将可能在健康领域实施，以协助诊断，或更一般地，在从环境或工业过程中提取的样品的分析领域，例如在食品加工工业、制药工业中或者化妆品行业。它也可用于卫生检查。

Claims

1.一种用于检测可能存在于分析样品中的感兴趣的生物物种(SOI)的方法，所述感兴趣的生物物种具有已知或部分已知的基因组，所述分析样品包含各种生物物种的混合物，所述方法包括以下步骤：

a)从所述分析样品中提取核酸；

b)对步骤a)中提取的核苷酸序列进行测序；

c)基于测序结果：

(i)基于序列参考数据库分配步骤b)产生的序列；

(ii)确定分配给所述感兴趣的生物物种的序列量(R_SOI，RN_SOI)；

(iii)考虑与所述感兴趣的生物物种相关的检测阈(DT_SOI)；

(iv)将子步骤(ii)产生的量与子步骤(iii)中考虑的检测阈进行比较；

所述方法的特征在于其包括在步骤a)之前添加对照物种，所述对照物种以已知浓度(C_SPC)添加到所述分析样品中，所述对照物种具有已知基因组，并且在该步骤c)中包含：

(v)确定分配给所述对照物种的序列量(R_SPC,RN_SPC)；

(vi)考虑与所述对照物种相关的检测阈(DT_SPC)；

(vii)将子步骤(v)产生的量与子步骤(vi)中考虑的检测阈进行比较；

d)根据子步骤(iv)和(vii)中进行的比较，考虑所述对照物种的浓度(C_SPC)，以确定样品中是否存在所述感兴趣的生物物种。

2.根据权利要求1所述的方法，其中，在子步骤(ii)和(v)中，基于参考量对分别分配给所述感兴趣的生物物种和所述对照物种的序列量进行归一化。

3.根据前述权利要求中任一项所述的方法，其包括考虑判定阈(SD)，并且其中步骤d)包括根据在子步骤(iv)和(vii)中进行的比较，确认或不确认是否存在高于或低于判定阈的感兴趣的生物物种。

4.根据权利要求3所述的方法，其中所述参考量为测序过程中产生的序列总数。

5.根据前述权利要求中任一项所述的方法，其中步骤d)包括：

-估计所述感兴趣的生物物种的浓度；

-或估计感兴趣的生物物种的最低浓度；

-或考虑判定阈(SD)并估计所述感兴趣的生物物种相对于判定阈的浓度。

6.根据前述权利要求中任一项所述的方法，其中在步骤d)中：

-当分配给所述对照物种的序列量(RN_SPC)高于与所述对照物种相关的检测阈(DT_SPC)时；且

-当分配给所述感兴趣的生物物种的序列量(RN_SOI)高于与所述感兴趣的生物物种相关的检测阈(SD_SOI)时；

步骤d)包括确认所述分析样品中存在所述感兴趣的生物物种。

7.根据权利要求6所述的方法，其中步骤d)还包括估计所述感兴趣的生物物种的浓度。

8.根据权利要求7所述的方法，其包括将已知浓度的校准物添加到样品中，所述校准物具有已知基因组，并且其中估计所述感兴趣的生物物种的浓度包括：

-确定分配给所述校准物的序列量；

-确定分别分配给所述感兴趣的生物物种和所述校准物的序列量之间的第一比值；

-确定所述校准物和所述感兴趣的生物物种各自基因组大小之间的第二比值；

-考虑添加到所述分析样品中所述校准物的浓度。

9.根据权利要求8所述的方法，其中估计所述感兴趣的生物物种的浓度包括计算第一比值乘以第二比值和乘以添加到所述分析样品中的所述校准物的浓度的乘积。

10.根据权利要求8和9中任一项所述的方法，其中所述对照物种(SPC)起到所述校准物的作用。

11.根据权利要求3至5中任一项所述的方法，其中步骤d)中：

-当分配给所述感兴趣的生物物种的序列量(RN_SOI)低于与所述感兴趣的生物物种相关的检测阈(DT_SOI)时；

步骤d)包括：

-估计所述感兴趣的生物物种的最低可检测浓度(Cmin_SOI)；

-将所述感兴趣的生物物种的最低浓度(Cmin_SOI)与判定阈(SD)进行比较，使得当所述感兴趣的生物物种的最低浓度低于判定阈时，估计所述分析样品中不存在浓度高于判定阈的感兴趣的生物物种。

12.根据权利要求11所述的方法，其中估计最低可检测浓度(Cmin_SOI)包括：

-确定所述感兴趣的生物物种的检测阈与分配给所述对照物种的序列量之间的第一比值；

-确定所述对照物种和所述感兴趣的生物物种各自基因组大小之间的大小的第二比值；

-考虑添加到所述分析样品中所述对照物种的浓度。

13.根据权利要求3至5中任一项所述的方法，其中步骤d)中：

-当分配给所述对照物种的序列量(RN_SPC)低于与所述对照物种相关的检测阈(DT_SPC)时；且

-当分配给所述感兴趣的生物物种的序列量(RN_SOI)高于与所述感兴趣的生物物种相关的检测阈(DT_SOI)时；

步骤d)包括将添加到所述分析样品中的所述对照物种的浓度与判定阈进行比较，使得：

-当添加到所述分析样品中的所述对照物种的浓度(C_SPC)高于判定阈(SD)时，步骤d)包括确认所述分析样品中存在浓度高于判定阈的感兴趣的生物物种；

-当添加到所述分析样品中的所述对照物种的浓度(C_SPC)低于判定阈(SD)时，确认所述分析样品中存在所述感兴趣的生物物种。

14.根据权利要求1至4中任一项所述的方法，其中步骤d)中，

无法确认是否存在所述感兴趣的生物物种。

15.根据前述权利要求中任一项所述的方法，其包括使用多个第一训练样品确定与所述感兴趣的生物物种相关的检测阈(DT_SOI)的先前阶段，所述第一训练样品被认为不包含所述感兴趣的生物物种(SOI)，所述方法包括：对于每个第一测试样品，

-提取核苷酸序列；

-对如此提取的核苷酸序列进行测序；

-确定分配给所述感兴趣的生物物种的感兴趣的序列量；

-可选地对分配给所述感兴趣的生物物种的感兴趣的序列量进行归一化；

所述方法还包括：

-计算为每个第一训练样品确定的感兴趣的序列量或归一化序列量的离散指标；

-根据如此计算的分散指标确定与所述感兴趣的生物物种相关的检测阈。

16.根据前述权利要求中任一项所述的方法，其包括使用多个第二训练样品确定与所述对照物种相关的检测阈(DT_SPC)的先前阶段，所述第二训练样品被认为不包含所述对照物种，所述方法包括：对于每个第二测试样品，

-提取核苷酸序列；

-对如此提取的核苷酸序列进行测序；

-确定分配给所述对照物种的序列量；

-可选地对分配给所述对照物种的序列量进行归一化；

所述方法还包括：

-计算为每个第二训练样品确定的分配给所述对照物种的序列量或归一化序列量的分散指标；

-根据如此计算的分散指标确定与所述对照物种相关的检测阈。

17.根据权利要求16所述的方法，其中第二训练样品是没有添加所述对照物种的分析样品。

18.根据前述权利要求中任一项所述的方法，其中步骤c)和d)分别针对各种感兴趣的生物物种并行执行，每种感兴趣的生物物种被认为可能存在于样品中。

19.根据前述权利要求中任一项所述的方法，其包括，在步骤a)之前，添加多种对照物种，使得对于给定的感兴趣的物种，在考虑多种对照物种的情况下执行步骤c)和d)，对每个对照物种并行实施子步骤(v)至(vii)。