CN114144843A

CN114144843A - 流行病学鉴定和监测细菌爆发的方法

Info

Publication number: CN114144843A
Application number: CN202080050685.4A
Authority: CN
Inventors: G·卡内科; G·贵贡
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2019-07-12
Filing date: 2020-07-02
Publication date: 2022-03-04
Also published as: US20220319716A1; EP3997715A1; EP3764370A1; JP2022539826A; WO2021008878A1

Abstract

本发明涉及一种检测和监测细菌爆发的方法，包括预测如果其基因组距离低于第一预定阈值，则采集的菌株和来自数据库的菌株属于细菌爆发；如果其基因组距离高于第二预定阈值，所述第二阈值严格高于第一阈值，则采集的菌株和数据库的菌株不属于细菌爆发；如果其基因组距离在第一与第二预定阈值之间，则采集的菌株和数据库菌株可能属于细菌爆发。所述第一阈值大于或等于第三阈值，从而基因组距离低于所述第三阈值的两个菌株属于细菌爆发的预测具有最大特异性。所述第二阈值小于或等于第四阈值，从而基因组距离高于所述第四阈值的两个菌株不属于细菌爆发的预测具有最大灵敏度。

Description

流行病学鉴定和监测细菌爆发的方法

技术领域

本发明涉及细菌流行病学领域，特别是根据菌株基因组，特别是菌株DNA和/或RNA的部分或完全测序，检测和监测细菌爆发。

现有技术

感染性细菌爆发的检测通常由以下组成：确定取自对象(如患者或引伸动物)的若干菌株是否由同一菌株在对象间的近期传播引起，例如菌株从“源”对象传播到若干对象，或菌株从对象到对象传播。在经典微生物学工具的基础上，检测通常两步完成：

a.首先怀疑细菌爆发，当采集的菌株属于同一细菌物种且有共同表型特征(例如就致病菌而言相同或相似的抗菌谱)时，则产生该怀疑；

b.且如果怀疑，实施流行病学调查，旨在证明这些菌株确实是或不是由对象之间的传播引起。这类调查具体由以下组成：研究采集对象是否近期接触、共享同一个场所(如医院内的同一手术室或同一房间)、由同一个护理员护理等。此类调查一般漫长而辛苦，且调用很多人。此外，调查可能对疑似流行病学客体的机构或公司运行带来相当大的干扰，因为在调查结束前通常实施预防措施，例如将房间或科室设为隔离区，或关闭手术室。

在此背景下，出现测序尤其是WGS(全基因组测序)类测序代表细菌流行病学的显著进步，因为全细菌基因组含有远高于经典微生物学技术递送的信息水平。不仅是决定开展流行病学研究的标准更精确，而且基因组学的应用还可使后者大大简化和标准化。例如，若相同医院科室内样品中相隔几天发现的两个金黄色葡萄球菌(Staphylococcus aureus)菌株从基因组角度来看严格一致，则可确定这两个菌株确实构成同一细菌爆发的一部分，而无需额外信息。

尽管测序被证明是显著的进步，就其本身而言，仍不可能确定两个菌株的品系，无论物种如何。事实上，某些细菌物种具有可塑性(plastique)基因组，其在数天内进化迅速，且若使用抗生素治疗，则进化更快，从而基因组之间的严格一致性不能用作唯一标准。考虑此可塑性，检测细菌爆发的方法由以下组成：评估菌株是否属于同一个爆发，如果其基因组差异(例如根据单核苷酸多态性数目计算)低于预定阈值，如文章“Beyond the SNPthreshold:identifying outbreak clusters using inferred transmission”,J.Simson等,2018年12月所述，但此方法由于许多不确定性来源而相当不精确，例如在根据细菌进化或突变率变异性随物种改变的背景下。该文章作者因而建议也考虑含有菌株的样品集合的年代顺序和关于菌株突变及传播机制的先验知识。

除了使流行病学预测模型更复杂，使用单一阈值不可避免地导致预测灵敏性与特异性之间的难以妥协。一方面，如果细菌爆发分配的预测太灵敏但却过于非特异性，则触发导致驳斥事件流行特征的流行病学调查会过度频繁，这包括在资源、操作和预算方面相当大的成本。另一方面，如果爆发分配的预测灵敏度低，则细菌爆发无法检测到，在健康例如患者或消费者健康方面具有严重后果。

发明概述

本发明的目的是在比较细菌基因组的基础上提供鉴定和监测细菌爆发的方法，其提供灵敏度和特异性方面的自由，同时明确考虑菌株分配到细菌爆发的预测中的不确定性来源。

为了此目的，本发明涉及检测和监测一定地理区域内与细菌物种相关的细菌爆发的方法，包括：

-获得所述地理区域内采集的且属于该细菌物种的菌株的数字基因组；

-计算所获得的数字基因组与数据库的基因组的基因组距离，所述数据库称为“流行病学”，包含属于所述细菌物种的菌株的至少一个数字基因组；

-预测：

o如果其基因组距离低于第一预定阈值，则采集的菌株和数据库的菌株属于细菌爆发；或

o如果其基因组距离高于第二预定阈值，所述第二阈值严格高于第一阈值，则采集的菌株和数据库的菌株不属于细菌爆发；

o如果其基因组距离在第一与第二预定阈值之间，则采集的菌株和数据的库菌株可能属于细菌爆发；

根据所述方法：

-所述第一阈值大于或等于第三阈值，从而基因组距离低于第三阈值的两个菌株属于细菌爆发的预测具有最大特异性；和

-所述第二阈值小于或等于第四阈值，从而基因组距离高于第四阈值的两个菌株不属于细菌爆发的预测具有最大灵敏度。

换言之，2个不同阈值用于控制方法的灵敏度和特异性，较低的阈值用于控制关于菌株属于细菌爆发的预测的特异性(下文的“归属特异性”)且较高的阈值用于控制此预测的灵敏度(下文的“归属灵敏度”)。2个阈值之间的区域因而特定提供用于考虑在基因组距离基础上预测的内在不确定性。具体地，预先应用于最大化归属特异性和灵敏度的第三和第四阈值，定义了难以了解菌株是否属于同一个爆发的区域，这是由于数据不完整或不够多样化来学习这些阈值、不知道在细菌物种内各种各样的突变机制、基因组比较方法选择引起的方法不精确或流行病学调查引起的其他传染灶表征误差。此不确定性区域为用户提供流行病管理方面的灵活性。特别地，与触发流行病学调查和预防措施以控制细菌爆发的属于细菌爆发的预测不同，当菌株在中间区域时，用户可设置初步调查，例如重复检查获取样品的患者档案，或通过分析其耐药基因组、其毒力组或其在物种生物多样性中的系统发生位置，以决定是否必须采取彻底的流行病学调查。此外，第三与第四阈值之间的区域在某些情况下可能过大，以至于基于这些阈值的预测并非最佳。第一和第二阈值定义第三与第四阈值之间严格所含的区域，使得关于属于或不属于细菌爆发的预测能够达到分析优化。

根据一个实施方案，所述第一和第二阈值等于如下计算的两个基因组距离：

-构建属于细菌物种的菌株的数字基因组的学习数据库，所述数据库包含：

o预先确定为属于同一细菌爆发并标记为“相关菌株对”的菌株对；

o预先确定为不属于同一细菌爆发并标记为“不相关菌株对”的菌株对；

-选择二元(binaire)预测指标(prédicteur)，其配置用于通过将其基因组距离与第五阈值比较预测两个菌株相关或不相关；

-对于属于第五阈值的预定值的集合的第五阈值的每个值，

o根据学习数据库计算所述预测指标的混淆矩阵；

o根据所述混淆矩阵计算所述预测指标的第一质量指数，所述第一指数不同于预测指标的灵敏度和特异性；

o根据混淆矩阵计算不同于第一指数的第二质量指数，所述第二指数不同于第一指数、预测指标的灵敏度和特异性；

-寻找优化第一指数的第五阈值的第一值以及优化第二指数的第五阈值的第二值；

-设置第一阈值，其等于第五阈值的第一值和第二值的最小值，和设置第二阈值，其等于第五阈值的第一值和第二值的最大值。

换言之，基于最大特异性和归属特异性的预测不必定构成关于可用流行病学数据的最优预测，所述数据保存于学习数据库。通过计算优化二元预测质量的第一和第二阈值，实际上获得流行病事件的管理优化，同时保留足够宽的中间区域以继续提醒用户可能的细菌爆发。

根据一个实施方案，考虑学习数据库中在相关菌株对数目与相关菌株对数目之间的不平衡选定第一指数。具体地，第一指数是马修斯相关系数或F1分数。一般，涉及细菌爆发的数据即视作相关的菌株数远远少于视作不相关的菌株。通过使用明确考虑此不平衡性的质量指数，获得预测的更好优化。此外，对应马修斯系数或F1分数的阈值有利于特异性，而不是仅考虑特异性。

根据一个实施方案，所述第二指数是约登指数。该指数明确考虑特异性和灵敏度，允许关于不属于的预测能够自然优化，其学习通常在重要数据上完成。数据库的不平衡具有以下影响：约登指数更受灵敏度影响，在第三与第四阈值之间的完整间隔中特异性接近1。

根据一个实施方案，所述预测指标以如下方式选择：

-真阳性对应于基因组距离低于第五阈值的相关菌株对；

-假阴性对应于基因组距离高于第五阈值的相关菌株对；

-假阳性对应于基因组距离低于第五阈值的不相关菌株对；和

-真阴性对应于基因组距离高于第五阈值的不相关菌株对。

根据一个实施方案，所述流行病学数据库包含学习数据库。换言之，随着实施所述方法，补充学习数据库，使得能够随着数据库大小增加而改进各种阈值。

根据一个实施方案，所述基因组距离是归一化距离。更特定地，两个菌株之间的基因组距离如下计算：

-从主要由基因座构成的集合中选择所述菌株数字基因组共同的基因座；

-对所述菌株的两个数字基因组之间在共同基因座处的等位基因差异数进行计数；

-将所述差异数除以共同基因座数。

在通过共同基因座数归一化后，测序误差尤其是菌株中未鉴定的基因座的实际情况的影响减弱。

根据一个优选实施方案，如果第五阈值的第一值和第二值高于0.1，则：

-第二阈值设置为等于0.1；

-第一阈值设置为等于max(D_g\D_g＜0.2)，其中max(D_g\D_g＜0.2)是相关菌株对中最大的基因组距离，严格低于0.2。

具体地，发明人发现通常由于学习数据库不完整或不够多样化所得的高于0.1的值导致学习失败。发明人还注意到在合适的学习数据库的背景下，第一和第二阈值小于或等于0.1。2个阈值之一因而固定在此上限。另外，发明人发现同一亚型的两个菌株在绝大多数情况下的基因组距离小于0.2。因此，设置另一阈值等于max(d_r\d_r＜0.2)，两个菌株的基因组距离高于后者，预测这些菌株不属于同一亚型，并因此不属于相同爆发，其构成怀疑流行病的重要指数。因此，尽管数据仍不足够精确来计算第一和第二阈值，用户默认可自己支配方法。

根据一个实施方案，根据基因或SNP的标记物的数据库，尤其是数据库wgMLST，cgMLST，MLST，计算所述数字基因组之间的距离。

根据一个实施方案，当采集的菌株预测为属于细菌爆发时，其在流行病学数据库中标记为与细菌爆发的菌株“相关”且与其它菌株“不相关”。

根据一个实施方案，当采集菌株预测为可能属于细菌爆发时，进行所述菌株的额外表征以确定其是否实际属于所述爆发，且若如此，采集的菌株在流行病学数据库中标记为与细菌爆发的菌株“相关”且与其它菌株“不相关”。

根据一个实施方案，所述第一和第二阈值定期重新计算和/或一旦流行病学数据库中加入N个新菌株就重新计算，其中N是大于或等于1的整数。

根据一个实施方案，当菌株预测为属于细菌爆发时，实施预防措施以阻止所述爆发。

附图简要说明

通过阅读下文仅作为示例给出的描述并参考附图可更好地理解本发明，其中相同的编号指示相同的元件，且其中：

-图1是本发明的方法的实施方案的流程图；

-图2显示学习数据库中所保存菌株之间对应性的表格；

-图3是二元预测指标的混淆矩阵，其预测两个菌株的相关或不相关状态；

-图4显示相关菌株对数目的分布和不相关菌株对数目的分布，根据其基因组距离以及用于计算图3中混淆矩阵的阈值Ti；

-图5阐述本发明的方法使用的基因组距离的不同阈值；

-图6显示用于实施本发明的方法的计算和测序系统；

-图7A和7B是细菌物种艰难梭菌(Clostridium difficile)的不相关菌株对数目分布(上分布)和相关菌株对数目分布(下分布)，图7B是0和0.1之间的放大的图7A；

-图8A和8B阐述对于细菌物种艰难梭菌，对于质量指数不同最优值的基因组距离，包括灵敏度、特异性、精确性、准确度(即(TP+TN)/(N+P))、F1分数、约登指数、马修斯相关系数，图8B是0和0.1之间的放大的图7B；

-图9A和9B是细菌物种金黄色葡萄球菌的不相关菌株对数目分布(上分布)和相关菌株对数目分布(下分布)，图9B是0和0.1之间的放大的图9A；

-图10A和10B显示对于金黄色葡萄球菌，对于质量指数不同最优值的基因组距离，包括灵敏度、特异性、精确性、准确度、F1分数、约登指数、马修斯相关系数，图10B是0和0.1之间的放大的图10B。

发明详述

除非严格规定，下文的“低于”或“小于”表示“小于或等于”且“高于”或“大于”表示“大于或等于”。

现在描述关于医院中特定细菌物种的微生物传染灶检测和监测的本发明的实施方案。

参考图1，此方法包括学习至少2个名为S1和S2的阈值的第一步骤10，基于此进行基因组比较以确定菌株是否属于细菌爆发，和进行本发明的方法的第二步骤20，参数采用步骤10中学习的阈值。更特定地，所述方法基于名为BSi和BSj的两个菌株之间的基因组距离比较，命名为D_g(BSi，BSj)。

步骤10开始于12中的创建所讨论物种的学习数据库，包括：

-属于该物种的不同菌株BS1、BS2、BS3……BSN的数字基因组；

-图2所示的将数据库的每个菌株与所有其他菌株连接的对应表，其中当两个菌株先前确定为属于同一个细菌爆发时，数据库内两个菌株之间的各个关联可推断为“相关”状态(黑盒)，当两个菌株先前确定为不属于同一个细菌爆发时，推断为“不相关”状态(白盒)，两个菌株之间的关联状态在例如先前的流行病研究期间测定。此外，菌株相对于本身的关联固定于“相关”状态。如图2可见，所讨论的物种的若干传染灶可纳入考虑以确定学习数据库中菌株的“相关”和“不相关”状态。如下文所述，学习数据库还可包含确定为“相关”但未诊断为属于任何细菌爆发的菌株。优选地，所述表格还保存学习数据库中各菌株对BSi和BSj之间的基因组距离D_g(BSi，BSj)；

-列出用其相关菌株鉴定的所有传染灶的表格；

-菌株BS1、BS2、BS3……BSN的耐药基因组(有助于细菌对抗生素灵敏度或抗性的遗传标记物组)和毒力组(有助于细菌毒力的遗传标记物组)。

菌株的基因组优选如下获得：

-从包含所述菌株的患者取样品；

-制备所述菌株的分离株，例如通过在琼脂培养基上铺开样品b孵育以使菌株的菌落生长；

-取部分菌落和制备用于测序的量(如裂解以释放细菌DNA，如果必要，扩增释放的DNA并制备用于需要其的测序技术的文库)；

-对所述DNA进行测序，优选完全测序(或WGS测序)从而生成数字序列，通常称为“读取”，例如采用“下一代测序”型技术，如“MiSeq”测序平台，来自加利福尼亚州圣地亚哥的依诺米那公司(Illumina Inc.)；

-任选地，组装所述读取从而生成组合序列，通过术语“重叠群”已知；

-通过wgMLST(“全基因组多基因座序列分型”)技术，采用重叠群或读取的形式表征基因组，通常称为“wgMLST谱(profil)”。众所周知，此表征由以下组成：定位来自预定的基因座的集合的基因组内的基因座，且对于鉴定的各基因座，确定代表此基因座的等位基因。wgMLST技术描述于例如文献“MLSTrevisited：the gene-by-gene approach tobacterial genomics”，MartinC.J.Maiden，Nature Reviews Microbiology，2013。

通过根据学习数据库计算阈值S1和S2继续学习。更特定地，此计算由以下转化组成：

-两个菌株属于或不属于细菌爆发的第一预测指标f_T，基于基因组距离D_g(BSi，BSj)中的单一阈值T，将基因组距离空间分成仅2个间隔：

-两个菌株属于或不属于细菌爆发的第二预测指标g_S1，S2，基于基因组距离D_g(BSi，BSj)中的2个阈值S1和S2，将基因组距离空间分成3个间隔：

在一个优选变型中，第一预测指标f_T定义为：

且第二预测指标定义为：

优选地，基因组距离D_g(BSi，BSj)是归一化距离，且因而在0-1之间，如下计算：

a.在两个菌株BSi和BSj的wgMLST谱中鉴定其共有的基因座；

b.对于各共同基因座，确定两个菌株之间是否存在等位基因差异，且在此情况中，如果发现至少一个等位基因差异，则将等位基因差异的计数器Compt增加1；

c.从下式计算D_g(BSi，BSj)，其中N_lc是共同基因座的数目：

在14，通过计算0-1之间阈值T的值的集合{T1，T2，...，TM}的各个值Ti(例如增量为10^-4)的二元预测指标的混淆矩阵MC(Ti)，开始计算阈值S1和S2。图3所示的阈值Ti的混淆矩阵的计算如图4所示，且由以下计数组成：

-真阳性，命名为″TPis″，等于数据库中相关菌株对的总数，从而D_g(BSi，BSj)≤Ti；

-假阴性，命名为″FNi″，等于数据库中相关菌株对的总数，从而D_g(BSi，BSj)＞Ti；

-假阳性，命名为″FPi″，等于数据库中不相关菌株对的总数，从而D_g(BSi，BSj)≤Ti；和

-真阴性，命名为″TNi″，等于数据库中不相关菌株对的总数，从而D_g(BSi，BSj)≤Ti。

一旦计算出混淆矩阵集合{MC(T1)，MC(T2，...，MC(TM))}，该方法在16继续，计算图5所示的不同阈值：

-阈值S3，从而预测指标f_T的特异性最大，因而两个菌株相关的预测特异性最大，即

其中N是不相关菌株对的数目；

-阈值S4，从而预测指标f_T的灵敏度最大，因而两个菌株不相关的预测灵敏度最大，即

其中P是相关菌株对的数目；

-阈值S1，优化预测指标f_T的第一质量指数，不同于灵敏度和特异性，明确考虑数P与N之间的不平衡，优选马修斯相关系数(MCC)，即

-阈值S2，优化预测指标f_T的第二质量指数，不同于灵敏度和特异性，优选约登指数，即

然后，进行检查阈值S1和S2质量的步骤18。更特定地(符号″\″表示“从而”)：

-如果阈值S1和S2小于或等于0.1，则保存，表示学习数据库适合其计算和其后续应用；

-如果阈值S1和S2高于0.1或差异小于1％，则其值固定于0.1和M＝max(D_g(BSi，BSj)\(D_g(BSi，BSj)＜0.2)，其中max(D_g(BSi，BSj)\(D_g(BSi，BSj)＜0.2)在此情况中是在学习数据库的相关菌株对中，最接近0.2的最大基因组距离。

-如果阈值S1或S2之一大于0.1，则此阈值固定于值0.1与max(D_g(BSi，BSj)\(D_g(BSi，BSj)＜0.2)中的最小值，如果此最小值不同于另一阈值(如差异超过1％)，则该阈值固定于这2个值中的最大值。

为了简化起见，推断下文中阈值S1低于阈值S2，从而如图4所示，这些阈值将基因组距离空间分成3个间隔：

-下间隔]0，S1]。如果两个菌株之间的基因组距离包含在此间隔内，这些菌株预测为“相关”(g_s1，S2＝1)；

-上间隔]S2，1]。如果两个菌株之间的基因组距离包含在此间隔内，这些菌株预测为“不相关”(g_S1，S2＝-1)；和

-中间间隔]S1，S2]。如果两个菌株之间的基因组距离包含在此间隔内，这些菌株预测为“潜在相关”(g_S1，S2＝0)。

阈值S1和S2随后保存于计算机系统的计算机内存，用于进行现在所描述的步骤20，所述系统还包含学习数据库。步骤20在医院内进行以检测和监测细菌种类的流行病，例如一旦患者受到细菌感染影响、环境样品包含致病菌或患者呈现症状与医院内另一患者相同或类似，就系统性进行该步骤。其他标准当然可以用于起始此步骤。

步骤20开始于22，取含有致病菌株的样品，如果此采集未发生，则在24继续，测序菌株并建立其wgMLST谱，如关于步骤12所述。在26，随后计算采集的菌株与学习数据库中各菌株之间的基因组距离。接着在28发布第一流行病学诊断。更特定地：

-如果采集的菌株与数据库中的任意菌株即数据库中无论哪个菌株都不相关，与采集的菌株的基因组距离D_g(BSi，BSj)高于阈值S2，则确定采集的菌株不属于任何细菌爆发；

-如果采集的菌株与数据库中的菌株相关即这两个菌株的基因组距离D_g(BSi，BSj)小于或等于阈值S1，则触发警报引起用户注意并起始更深层次的流行病学研究30，以及如果适用，用于抵御医院内采集菌株传播的预防措施；

-如果采集的菌株与数据库中的菌株潜在相关(图1中命名为“相关？”)，即如果这两个菌株的基因组距离D_g(BSi，BSj)在阈值S1和S2之间，在34进行补充分析以消除关于这两个菌株之间关联的不确定性。优选地，确定采集的菌株的耐药基因组和毒力组，然后与其潜在相关的菌株耐药基因组和毒力组作比较。如果耐药基因组和毒力组一致，菌株随之确定为相关，触发警报并完成更深层次研究30。否则，菌株确定为不相关。最终，在该比较没有解决问题的情况下，进行更深层次研究30。其他数据可用于此补充研究，例如取样品与取数据库中的菌株之间经过的时间、可塑基因中不同SNP的数目等。

众所周知，由流行病学小组所进行研究30的目的之一就是确定医院内的不同采集菌株是否构成流行病。在此研究结束时，明确建立了不同菌株之间的关联，即“相关”或“不相关”。此外，如果检测到流行病，则流行病菌株也标记为此流行病的函数。采集菌株的基因组、wgMLST概况、耐药基因组和毒力组、其与数据库中其他菌株的关联以及涉及细菌爆发的数据，随后保存于学习数据库，从而能够后续使用。阈值S1和S2可因而定期或在每个数据库新入口更新以细化其值。

图6阐明用于进行本发明方法的计算和测序系统40。系统40包含测序平台42，其用于测序样品44的细菌DNA并因而生成一组数字序列或“读取”。平台42与数据处理单元46相连，例如个人电脑，其接收序列且任选地应用组装读取的程序以生成重叠群。此外，单元46与远程服务器48相连，使用软件作为服务(或“Saas”)，例如采用云解决方案形式。单元46(其上运行“前端”软件)，向服务器48发送由平台42测序的基因组，采用读取或重叠群的形式。服务器48(其上信息服务以“后端”形式运行且其连接学习数据库50)，接收基因组并进行本发明的方法的处理步骤(如图1中的步骤14-18和24-32)，服务器在计算机内存中保存就进行此方法必需的指令集合。服务器将处理结果回复单元46，采用报告52的形式。系统40包含与单元42连接的一个或多个服务器54，具体地，这些服务器是保存患者和流行病学数据的计算机系统的那些服务器，这些数据用于更深层次学习以表征流行病学上的细菌爆发。

图7和9分别阐明艰难梭菌(图7A和7B)和金黄色葡萄球菌(图9A和9B)的相关菌株对和不相关菌株对数目的分布。如这些图中可见，有基因组距离大(例如艰难梭菌，超过0.6)的相关菌株对和基因组距离小(金黄色葡萄球菌，低于0.2)的不相关菌株对。因此，存在一个区域，其中如果使用单一阈值，则基因组距离能指示(coder)“相关”状态或“不相关”状态。此中间区域天然存在且对应于例如属于同一个亚型、但未判断为属于同一个细菌爆发的菌株。此外，从8A-B和10A-B观察到，选择阈值S3(最大特异性，命名为“特异性”)和S4(最大灵敏度，命名为“灵敏度”)以将基因组距离空间分成3段，中间区域大到足以使许多菌株被判断为潜在相关。使用优化预测质量的阈值S1(如使马修斯系数MMC最大化)和S2(如优化约登指数)，注意到中间区域明显减少，同时仍维持极佳的总体灵敏度。

描述了医院内致病菌的流行病学应用。当然，本发明不限于此应用且可用于工业(例如食品工业)、环境和兽医微生物学控制领域。

描述了使用wgMLST谱以计算基因组距离。可使用其他谱例如cgMLST(核心基因组多基因座序列分型)谱、MLST、基因或SNP的集合。

描述了使用约登指数和马修斯相关系数。可使用其他质量指数，例如F1分数(即2TP/(2TP+FP+FN))、系数χ₁、准确度(即(TP+TN)/(N+P))、精确性(即TP/(TP+FP))。优选地，这些指数的至少1个考虑数据库的不平衡性。

描述了学习数据库，其也用于和采集菌株作比较。作为变体，可使用单独数据库或“流行病学数据库”以处理采集菌株。例如，这种数据库适合医院、机构、公司等，学习数据库随后仅用于确立阈值的值。

Claims

1.一种检测和监测一定地理区域内与细菌物种相关的细菌爆发的方法，所述方法包括：

-获得所述地理区域内采集的且属于所述细菌物种的菌株的数字基因组；

-计算所获得数字基因组与数据库的数字基因组的基因组距离，所述数据库称为“流行病学”，包含属于所述细菌物种的菌株的至少一个数字基因组；

-预测：

ο如果其基因组距离低于第一预定阈值，则采集的菌株和数据库的菌株属于细菌爆发；或

ο如果其基因组距离高于第二预定阈值，所述第二阈值严格高于第一阈值，则采集的菌株和数据库的菌株不属于细菌爆发；或

ο如果其基因组距离在第一与第二预定阈值之间，则采集的菌株和数据库的菌株可能属于细菌爆发；

且根据所述方法：

-所述第一阈值大于或等于第三阈值，从而基因组距离低于所述第三阈值的两个菌株属于细菌爆发的预测具有最大特异性；和

-所述第二阈值小于或等于第四阈值，从而基因组距离高于所述第四阈值的两个菌株不属于细菌爆发的预测具有最大灵敏度。

2.如权利要求1所述的方法，其中所述第一和第二阈值等于如下计算的两种基因组距离：

-构建属于所述细菌物种的菌株的数字基因组的学习数据库，所述库包含：

ο预先确定为属于同一细菌爆发并标记为“相关菌株对”的菌株对；

ο预先确定为不属于同一细菌爆发并标记为“不相关菌株对”的菌株对；

-选择二元预测指标，其配置用于通过将两个菌株的基因组距离与第五阈值比较预测两个菌株相关或不相关；

-对于属于第五阈值预定值的集合的第五阈值的每个值，

ο根据学习数据库计算所述预测指标的混淆矩阵；

ο根据所述混淆矩阵计算所述预测指标的第一质量指数，所述第一指数不同于所述预测指标的灵敏度和特异性；

ο根据所述混淆矩阵计算不同于第一指数的第二质量指数，所述第二指数不同于第一指数、预测指标的灵敏度和特异性；

3.如权利要求2所述的方法，其中考虑学习数据库中在相关菌株对数目与相关菌株对数目之间的不平衡选定所述第一指数。

4.如权利要求3所述的方法，其中所述第一指数是马修斯相关系数或F1分数。

5.如权利要求2-4之一所述的方法，其中所述第二指数是约登指数。

6.如权利要求2-5之一所述的方法，其中所述预测指标以如下方式选择：

-真阳性对应于基因组距离低于所述第五阈值的相关菌株对；

-假阴性对应于基因组距离高于所述第五阈值的相关菌株对；

-假阳性对应于基因组距离低于所述第五阈值的不相关菌株对；和

-真阴性对应于基因组距离高于所述第五阈值的不相关菌株对。

7.如权利要求2-6之一所述的方法，其中所述流行病学数据库包含所述学习数据库。

8.如前述权利要求中任一项所述的方法，其中所述基因组距离是归一化距离。

9.如权利要求8所述的方法，其中所述两个菌株之间的基因组距离如下计算：

-在主要由基因座构成的集合中选择所述菌株数字基因组共同的基因座；

-将所述差异数除以共同基因座数。

10.如权利要求9和权利要求4或5之一所述的方法，其中如果第五阈值的第一值和第二值高于0.1，则：

-第二阈值设置为等于0.1；

-第一阈值设置为等于max(D_g\D_g<0.2),其中max(D_g\D_g<0.2)是相关菌株对中最大的基因组距离，严格低于0.2。

11.如前述权利要求中任一项所述的方法，其中根据基因或SNP的标记物数据库，尤其是数据库wgMLST、cgMLST、MLST，计算所述数字基因组之间的距离。

12.如前述权利要求中任一项所述的方法，其中当采集的菌株预测为属于细菌爆发时，其在流行病学数据库中标记为与细菌爆发的菌株“相关”且与其它菌株“不相关”。

13.如前述权利要求中任一项所述的方法，其中当采集的菌株预测为可能属于细菌爆发时，进行所述菌株的额外表征以确定其是否实际属于所述爆发，且若如此，采集的菌株在流行病学数据库中标记为与细菌爆发的菌株“相关”且与其它菌株“不相关”。

14.如前述权利要求中任一项所述的方法，其中所述第一和第二阈值定期重新计算和/或一旦流行病学数据库中加入N个新菌株就重新计算，其中N是大于或等于1的整数。

15.如前述权利要求中任一项所述的方法，其中当菌株预测为属于细菌爆发时，实施预防措施以阻止所述爆发。