CN108779498B

CN108779498B - 抗生素抗性识别

Info

Publication number: CN108779498B
Application number: CN201780016338.8A
Authority: CN
Inventors: K·穆鲁格桑; N·迪米特罗娃; H·林; P·B·马伊高达
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2016-03-10
Filing date: 2017-03-10
Publication date: 2022-08-02
Anticipated expiration: 2037-03-10
Also published as: CN108779498A; WO2017153556A1; US10629291B2; US20200152292A1; JP6918817B2; JP2019512783A; EP3426799A1; EP3426799B1; US20170270244A1

Abstract

用于识别病原体中的抗生素抗性的因果遗传机制的方法和系统。根据至少一个实施例，所述系统包括：基因抗性模块，其用于识别抗生素抗性病原体中存在的基因；单核苷酸多态性抗性模块，其用于识别抗生素抗性病原体中存在的突变；以及抗生素抗性模块，其被配置为基于识别出的基因和突变来输出抗生素抗性的因果关系。

Description

抗生素抗性识别

技术领域

本文中描述的各实施例涉及用于识别病原体中的抗生素抗性的因果遗传机制的方法和系统，并且更具体地但非排他地，涉及用于识别抗生素抗性的因果遗传机制的方法和系统。

背景技术

微生物的抗生素抗性是指微生物抵抗被开发用于处置由微生物引起的感染的抗微生物药物的作用的能力。微生物中抗生素抗性的发展是不可避免的生物学过程。但是，必须保守、准确、并且不过量地使用抗生素。不符合这些原则的抗生素使用可能加速病原体中抗性的获得。

特别是ESKAPE病原体，即，屎肠球菌金黄色葡萄球菌，肺炎克雷伯菌，鲍氏不动杆菌，铜绿假单胞菌，和肠杆菌属，已知是美国医院获得性感染的主要原因。一个主要关注是ESKAPE病原体不断增加的抗生素耐药性。

全球出现和传播的耐药机制通过降低现有治疗方法的效果或完全抵消现有治疗方法的影响来挑战医务人员治疗常见细菌感染的能力。这不可避免地导致健康护理支出增加，医学机构停留时间延长，并最终导致更高的死亡率。

例如，仅在美国，每年就有超过2000000例疾病和至少23000例死亡归因于病原体中产生的抗生素耐药性。这些数字在全球范围内增加，抗生素耐药性导致全球每年超过70万人死亡。如果当前的趋势继续下去，归因于抗生素耐药性导致的死亡人数可能达到1000万，预计到2050年GDP损失将超过100万亿美元。

抗生素耐药性不仅使得诊断现有的细菌感染变得困难，而且还在其他健康护理领域产生后续影响。例如，抗生素抗性影响手术、器官移植、剖腹产、癌症处置和其他医学状况和处置。

用于对抗抗生素抗性的现有技术通常涉及防止抗生素抗性生物的传播，包括在政策和管理层面控制抗生素消耗的策略，而不是识别抗性的根本原因和/或阻止其出现。

另一种策略是通过计算各种抗生素的分离株的最低抑制浓度来量化病原体的抗生素抗性，并通过医院中各种卫生方法来阻止抗药性的传播。然而，这些技术同样通常仅关注包含抗生素抗性病原体的传播。

发明内容

提供本发明内容以用简化形式介绍一些概念，这些概念将在下面的具体实施例部分进一步描述。本发明内容并非旨在识别要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定要求保护的主题的范围。

根据前述内容，期望提供表征抗性获得和分子进化的究竟原因以帮助对抗抗生素抗性的方法和系统。

在一个方面中，各种实施例涉及用于识别病原体中的抗生素抗性的系统。所述系统包括：基因抗性模块，其被配置为接收多个基因组序列作为输入，每个序列包含多个基因，生成基因存在-不存在矩阵，所述基因存在-不存在矩阵识别存在于所述多个基因组序列中的每个中的基因，并且针对所述多个基因组序列中的每个输出抗性或敏感性的标记；单核苷酸多态性抗性模块，其被配置为接收所述多个基因组序列作为输入，识别所述多个基因组序列中的每个中的基因突变，并输出针对每个识别出的突变的抗性或敏感性的标记；以及抗生素抗性模块，其被配置为接收与针对所述多个基因组序列和每个识别出的突变的抗性或敏感标记相关联的基因和突变作为输入，并且基于接收到的标记来识别赋予抗生素抗性的基因和赋予抗生素抗性的基因的来源中的至少一个。

在一个实施例中，所述基因抗性模块还包括：基因预测引擎，其被配置为识别存在于所述多个基因组序列的样本中的基因的集合；以及基因消除引擎，其被配置为从所述多个基因组序列中的每个中去除识别出的基因的集合，其中，所述基因预测引擎和所述基因消除引擎还被配置为迭代以下步骤：识别每个剩余基因组序列中存在的基因的集合，并从所述剩余基因组序列中去除识别出的基因的集合以生成基因存在-不存在矩阵。

在一个实施例中，所述基因抗性模块还被配置为生成表示基因对抗生素抗性或抗生素敏感性的贡献的值。

在一个实施例中，所述抗生素抗性模块还被配置为确定至少两个抗性基因是否作为网络起作用。

在一个实施例中，基因的存在能够通过二元值或百分比来定义。

在一个实施例中，所述抗生素抗性模块还被配置为确定作为操纵子网络起作用的至少两个基因是否包括突变。

在一个实施例中，所述抗生素抗性模块还被配置为输出识别与抗生素抗性相关联的所述至少一个基因或突变的报告。

在一个实施例中，使用序列组成和系统发育中的至少一种来识别所述基因的来源，以将基因组序列分类为宿主或外源。

在另一方面中，各种实施例涉及用于识别病原体中的抗生素抗性的方法。所述方法包括在基因抗性模块和单核苷酸多态性抗性模块处接收多个基因组序列，每个序列包括多个基因；经由基因抗性模块生成基因存在-不存在矩阵，所述基因存在-不存在矩阵识别存在于所述多个基因组序列中的每个中的基因；经由所述基因抗性模块输出针对多个基因组序列中的每个的抗性或敏感性的标记；经由所述单核苷酸多态性抗性模块识别所述多个基因组序列中的每个中的基因突变，经由所述单核苷酸多态性抗性模块输出针对每个识别出的突变的抗性或敏感性的标记；在抗生素抗性模块处接收与针对所述多个基因组序列中的每个和每个检测到的突变的抗性或敏感标记相关联的基因和突变；并且经由所述抗生素抗性模块基于接收到的标记来识别赋予抗生素抗性的基因和赋予抗生素抗性的基因的来源中的至少一个。

在一个实施例中，所述方法还包括经由所述基因抗性模块来识别存在于所述多个基因组序列的样本中的基因的集合；经由所述基因抗性模块从所述多个基因组序列中的每个中去除识别出的基因组；并且迭代以下步骤：识别来自所述多个基因组序列中的每个剩余样本中存在的基因的集合，并且从剩余基因组序列中去除识别出的基因组，以生成基因存在-不存在矩阵。

在一个实施例中，所述方法还包括经由所述基因抗性模块来生成表示基因对抗生素抗性或抗生素敏感性的贡献的值。

在一个实施例中，所述方法还包括经由所述抗生素抗性模块来确定至少两个抗性基因是否作为网络起作用。

在一个实施例中，所述方法还包括经由所述抗生素抗性模块来确定作为网络起作用的至少两个基因是否包括突变。

在一个实施例中，所述方法还包括经由所述抗生素抗性模块来输出识别与抗生素抗性相关的至少一个基因或突变的报告。

在又一方面中，各种实施方案涉及用于识别赋予抗生素抗性的一个或多个基因的方法。所述方法包括:接收多个基因组序列，每个序列包含多个基因；确定所述多个基因组序列中的哪些赋予抗生素抗性；确定所述多个基因组序列中的哪些突变赋予抗生素抗性；并且基于哪些样本和突变赋予抗生素抗性来识别所述多个基因组序列中与抗生素抗性相关联的至少一个基因。

附图说明

为了更好地理解各种示例实施例，参考附图，其中，

图1图示了根据一个实施例的用于识别病原体中的抗生素抗性的系统。

图2图示了根据一个实施例的图1的基因抗性模块102；

图3图示了根据一个实施例的基因预测和消除算法；

图4图示了根据另一实施例的基因预测和消除算法；

图5图示了根据一个实施例的基因预测和消除算法的多次迭代；

图6描绘了根据一个实施例的基因存在-不存在矩阵；

图7描绘了根据另一实施例的基因存在-不存在矩阵；

图8描绘了根据另一实施例的基因存在-不存在矩阵；

图9图示了根据一个实施例的图1的单核苷酸多态性(SAR)模块104；

图10描绘了根据一个实施例的变体矩阵；

图11描绘了根据一个实施例的具有抗性敏感标记的变体矩阵；

图12描绘了根据一个实施例的示例性SNP到基因映射矩阵；

图13图示了根据一个实施例的图1的抗生素抗性模块106；

图14描绘了根据一个实施例的基因和突变的组合特征矩阵；

图15描绘了根据一个实施例的用于识别病原体中的抗生素抗性的方法的流程图；并且

图16图示了根据一个实施例的用于实现本文描述的系统和方法的硬件设备的示例。

具体实施方式

以下参考附图更详细地描述了各种实施例，附图形成实施例的一部分，并且示出了具体的示例性实施例。然而，本公开的概念可以以许多不同的形式实现，并且不应该被解释为限于本文中阐述的实施例；相反，这些实施例是作为全面和完整公开的一部分提供的，以向本领域技术人员充分传达本公开的概念、技术和实现的范围。各实施例可以被实践为方法、系统或设备。因此，实施例可以采取硬件实现方式、完全软件实现方式或组合了软件和硬件方面的实现方式的形式。因此，以下详细描述不应被认为是限制性的。

说明书中对“一个实施例”或“实施例”的引用意味着结合所述实施例描述的特定特征、结构或特性被包括在根据本公开的至少一个范例实现方式中。在说明书中的各位置，短语“在一个实施例中”的出现不一定都指代相同的实施例。

以下说明的一些部关于存储在计算机存储器中的非瞬态信号的操作的符号表示来呈现。这些描述和表示是数据处理领域的技术人员用来最有效地将其工作的实质传达给本领域其他技术人员。这样的操作通常需要对物理量的物理操作。通常，但是不一定，这些量采取能够被存储、传输、组合、比较和以其他方式操纵的电、磁或光学信号的形式。有时，主要是出于通常使用的原因，将这些信号称为比特、值、元素、符号、字符、术语、数字等。此外，有时将需要对物理量的物理操纵的步骤的特定布置称为模块或代码设备也是的方便的，而不失一般性。

然而，所有这些和类似的术语都将与适当的物理量相关联，并且仅仅是应用于这些量的便利标签。除非根据以下讨论显而易见另行专门陈述，应该理解，在贯穿本说明，使用诸如“处理”或“运算”或“计算”或“确定”或“显示”等术语的讨论是指计算机系统或类似电子计算设备的动作和过程，其对表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示设备内的物理(电子)量的数据进行操纵和变换。本公开的部分包括可以以软件、固件或硬件实现的过程和指令，并且当以软件实现时，可以将其下载以驻留在各种操作系统所使用的不同平台上并由其操作。

本公开还涉及一种用于执行本文中的操作的装置。该装置可以针对期望的目的而特别构造，或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中，诸如但不限于任何类型的盘、包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)随机存取存储器(RAM)、EPROM、EEPROM、磁或光卡、专用集成电路(ASIC)、或适用于存储电子指令的任何类型的介质，并且每个都可以被耦合到计算机系统总线。此外，说明书中所指的计算机可以包括单个处理器，或者可以是采用多个处理器设计以提高计算能力的架构。

本文提出的过程和显示并不固有地与任何特定的计算机或其他装置相关。各种通用系统也可以根据本文的教导的程序一起使用，或者构造更专用的装置来执行一个或多个方法步骤可以证明是方便的。在下面的描述中讨论了针对各种这样的系统的结构。另外，可以使用足以实现本公开的技术和实现方式的任何特定编程语言。可以使用各种编程语言来实现如本文中所讨论的本公开。

此外，说明书中使用的语言主要是为了可读性和教学目的而选择的，并且可能没有被选择来描绘或限定本公开的主题。因此，本公开旨在说明而非限制本文中所讨论的概念的范围。

本文中描述的方法和系统可以涉及病原体的下一代测序(NGS)，以识别与抗生素抗性相关的突变、基因和抗性基因。图1图示了根据一个实施例的用于识别病原体中的抗生素抗性的系统100。该系统可以包括基因抗性模块102、单核苷酸多态性抗性(SAR)模块104和抗生素抗性模块106。

基因抗性模块102可以识别病原体中负责赋予抗生素抗性的基因。SAR模块104可以识别病原体中的负责赋予对抗生素的抗性的非同义突变。基因抗性模块102和SAR模块104的输出可以被提供给抗生素抗性模块106。抗生素抗性模块106可以合并关于从SAR和GAR模块识别出的潜在生物标志物的信息，并且可以输出与抗生素抗性和敏感度和特异性值相关联的SNP和基因的列表。抗生素抗性模块106还可以在针对医学人员等的报告中输出这些发现。

图2更详细地说明了基因抗性模块102的一个实施例。如图所示，基因抗性模块102可包括基因组组装管道202、基因消除引擎204、基因预测引擎206、基因存在/不存在矩阵模块208和基因抗性关联引擎210。

在操作中，可以使用任何合适的测序技术或机器(HiSeq，MiSeq等)从医学机构的患者中提取致病性分离株(isolate)。然后可以使用任何合适的生长培养基来培养提取的分离株，例如化学限定培养基，复合培养基，还原(reducing)培养基，鉴别培养基和基于加富的培养基。使用的培养基可以不同并且可以取决于应用。

接下来，可以使用标准实验室程序从培养的分离株中提取DNA。然后可以使用任何合适的测序术或测序技术制备提取的DNA用于测序。该过程可以是全基因组测序或病原体基因组的靶向测序。

然后可以将分离的基因组序列214的原始序列212馈送到基因组组装管道模块202中以进行deNovo组装。基因组组装管道模块202可以使用诸如SPADES、MASURCA或任何其他合适的基因组组装器的组装器，无论是现在可用的还是以后发明的。

然后可以将组装的基因序列馈送到基因消除引擎204中。基因消除引擎204和基因预测引擎206可以串联工作以从每个测序的病原分离基因组中提取没有参考基因的残余基因组。

考虑包括参考基因组的多个基因组序列。基因消除引擎204和基因预测引擎206的目的是识别来自基因组群落(包括已知参考基因组)的基因的存在和/或不存在，并从剩余序列中消除存在于每个群落序列中的基因。

在图3中示出了deNovo基因消除算法。在图3中，S₁可以被认为是参考基因组序列，并且g(S₁)304可以指在S₁中预测的基因。预测的基因g(S₁)中的一些可能存在于其他基因组序列中。然后基因消除引擎204可以从每个基因组序列中删除g(S₁)，得到S₁R(序列S₁中的没有任何预测的基因的剩余残留基因组)，S₂₁(在从S₂中去除所有S₁的deNovo基因之后的S₂的残留基因组)，等等。

这是一个迭代过程，其前进到下一个样本S₂₁。第二迭代在图4中示出。图4图示了剩下的残留基因组S₁R以及其它残留基因组S₂₁，S₃₁，S_i1...S_n1(402)。g(S₂₁)404可以指在S₂₁中预测的基因。预测的基因S₂₁中的一些可能存在于其他基因组序列中。然后，基因消除引擎204可以从每个剩余基因组序列S₂₁，S₃₁...S_i1，...S_n1中去除g(S₂₁)。这产生S₁R，S₂R(序列S₂的剩余残留基因组，其没有任何基因)，S₃₂，...S_i2，...S_n2等。这提供了收集关于每个序列中存在的基因的数据计算上快速且廉价的方法。

可以针对每个基因组序列执行该迭代过程，直到已经生成所有输入样本的残留基因组。例如，图5示出了图3和图4中所示的算法的多次迭代500a-e。额外地，针对该过程的伪代码如下所示：

当基因消除引擎204和基因预测引擎206重复这些迭代时，可以将关于每个序列中存在哪些基因的数据传递给基因存在-不存在矩阵模块208。基因存在-不存在矩阵模块208可以通过任何合适的无线或硬连线连接来接收该信息，并产生表示每个样本中存在的基因的矩阵。

例如，图6图示了根据一个实施例的基因存在-不存在矩阵600。矩阵600是对分离株群落的所有基因内容的综合观察(例如，值“1”可以指示存在特定基因，并且值“0”可以指示基因不存在)。基因的存在也可以表示为百分比。利用该数据，可以判断针对分离株的不同观察表型(例如抗生素抗性)存在的基因的因果关系。更具体地，矩阵600显示来自不同分离株的参考基因和deNovo基因。因此，可以直接从矩阵600读跨取样本共同的基因或对于每个样本特有的基因。

可以使用Microscan最小抑制浓度(MIC)/Epsilometer(E)来测量分离株对抗生素的敏感性，其可以输出表示分离株易感性的连续数值。可以通过例如健康护理机构中的微生物或类似部门将诸如敏感或抗性的标记分配给每个分离株。分配这些标记的分区可以将阈值水平设置为表示分离株易感性的上述数值。

一旦由基因存在-不存在矩阵模块208生成矩阵600，基因抗性关联引擎210就可以基于分离株的临床抗生素抗性谱的集合216来识别来自矩阵600的哪些基因可以解释所分配的标记。换句话说，基因抗性关联引擎210可以确定哪些基因对抗生素抗性负责或至少贡献于抗生素抗性。

为实现此目的，在至少一个实施例中，基因抗性关联引擎210可以依赖于关联的统计测试。根据这种技术，跨两个组计算每个基因存在和不存在的频率：(1)敏感分离株；和(2)抗性分离株。该频率可以在2x2列联表上显示，如以下表1所示。

	抗性	敏感性
			基因存在	x	y
基因不存在	a	b

表1：基因频率列联表

表1可以呈现包含特定基因的抗性分离株的数量(x)，包含特定基因的敏感分离株的数量(y)，不包括基因的抗性分离株的数量(a)和不包括敏感分离株的基因的数量(b)。可以将任何合适的单变量统计测试应用于列联表，包括卡方统计假设测试，以生成表示基因与敏感或抗性分离株的关联的p值。

基因抗性关联引擎210可以针对特定基因按它们的p值进行排序(其可以在多次假设检验之后校正，例如Bonferroni校正)。分配的p值可以按基因在解释分离株之间的易感性表型差异中的重要性来对基因进行分类。

通过卡方检验可以识别具有显著p值的多个基因。这些基因中的每个都可以单独操作或作为更大的基因网络的一部分操作，其中，基因不需要具有大的p值。可以执行该分析以识别识别出的基因关联是否是更大基因操纵子网络的一部分。这可能随后导致操纵子网络成为可携带抗生素抗性基因并在基因组周围移动的移动遗传因子(geneticelement)/移动基因盒的可能性。

在其他实施例中，基因抗性关联引擎210可依赖于机器学习技术来识别哪些基因负责或至少贡献于分离株对抗生素的抗性。图7呈现了针对每种分离株的特征(基因存在/基因不存在)的表格700。行数n可以基于观察/分离株的数量，并且列数m可以基于在所有分离株上检测到的特征/基因的数量。表700还包括预测子标记A和B，其可以分别代表关于特定抗生素的“抗性”和“敏感性”标记。例如，最后的分离株Sn包括基因2，并且被标记为对特定抗生素敏感。

为了处理收集的数据，基因抗性关联引擎210可以使用各种机器学习算法，例如但不限于，随机森林，支持向量机，反向传播神经网络，逻辑回归等。使用的算法可以训练数据的数学模型，以“y(标记)＝f(特征或基因)”的格式表示。然而，特定的数学函数可以变化并且可以基于特定的机器学习算法。上述机器学习算法列表是非详尽的，并且可以使用现在可用或以后发明的其他机器学习过程来实现本文描述的各种特征。

例如，特定机器学习算法(例如随机森林，逻辑回归和支持向量机)可以预测表型。这些模型可以在训练数据集上训练，并且可以用于预测针对任何测试分离株的标记。该模型可以通过k折叠交叉验证或随机子采样方法来验证，以确定统计数据，例如真阳性率、假阳性率、曲线下面积等。

无论使用何种机器学习模型，模型都可以在内部分配每个基因在决定分离株标记时的重要性。具有“更高重要性”值的基因被认为解释了观察到的表型并且被排序为高于其他基因。

图8示出了由基因抗性模块102输出的示例性基因存在-不存在矩阵800。在该特定实施例中，基因抗性模块102在90例ST 736屎肠球菌分离株上进行测试，其中，63例对达托霉素敏感，并且27例对达托霉素有抗性。

使用基因组装配器组装分离株，并使用QUAST评估QC指标(http：//bioinf.spbau.ru/quast)。参考基因组是完全完成的长读取组装的E.屎肠球菌基因组的ST736菌株。基因存在-不存在矩阵大小为4496×90。对矩阵进行卡方检验得到16个抗性相关基因，p值范围在[0.000989,0.000127]之间。基因存在不存在矩阵800在图8中示出，其中，基因在Y轴上按其卡方p值802的升序和在X轴上的孤立识别804布置。

图9更详细地示出了SAR模块104。如图所示，SAR模块104可以包括对位和变体调用管线模块902，变体矩阵模块904，单核苷酸多态性(SNP)抗性关联模块906和SNP注释模块908。当与敏感病原体比较以识别与抗性相关的单核苷酸多态性时，SAR模块104可以调用关于参考基因组的样本上的变体和确定在抗性样本中富集的变体。

在操作中，可以使用任何合适的测序机器来从医学机构的患者中提取致病性分离株。然后可以使用任何合适的生长培养基来培养提取的分离株，例如化学限定培养基，复合培养基，还原(reducing)培养基，鉴别培养基和基于加富的培养基。使用的培养基可以不同并且可以取决于应用。接下来，可以使用标准实验室程序从培养的分离株中提取DNA。然后可以使用任何合适的测序技术来制备提取的DNA用于测序，例如但不限于HiSeq，MiSeq，PacBio和ONP。

然后可以将提取的分离的基因组序列912的原始序列910馈送到对位和变体调用管线模块902中。对位和变体调用管线模块902可以使用任何合适的技术使用基于比对的变体调用来对读取进行组装。该过程可以是全基因组测序或病原体基因组的靶向测序。

管线模块902可以处理读取并将它们与一个或多个参考序列进行比较。所选择的(一个或多个)参考序列可以基于先验知识和/或多位点序列分型。然后，管线模块902可以将读取与(一个或多个)参考序列对齐，以确定测试序列与参考序列的不同之处，以调用变体。管线模块902可以依赖于各种技术和工具，例如SAMTOOLS和/或GATK。

然后，变体矩阵模块904可以生成变体矩阵，其是对分离群落的所有识别出的SNP的综合观察。例如，图10图示了根据一个实施例的示例性变体矩阵1000。矩阵1000包括列出识别出的多态性的SNP列1002和列出SNP在它们各自的基因组1006中的位置的位置列1004。列1008在列1004中显示的相应位置列出参考序列中的核苷酸。

例如，SNP₂是在位置5105处的样本S₁、S₂和S₃中发生的检测到的突变。在这些样本中，这些序列中5105位置的核苷酸是鸟嘌呤G，其中，参考序列中5105位置的核苷酸是腺嘌呤A。

图11图示了另一变体矩阵1100。类似于图7的表700，然而，矩阵1100可包括列1102，列1102包括关于特定抗生素的“抗性”或“敏感性”标记。利用该数据，可以确定突变对抗生素抗性的因果影响。可以使用Microscan最小抑制浓度(MIC)/Epsilometer(E)来测量分离株对抗生素的敏感性，其可以输出表示分离株易感性的连续数值。例如，可以基于超过阈值水平的数值来分配抗性或敏感性的标记。

下一步是SNP抗性关联模块906识别矩阵1000和1100中的所有突变中的哪些突变可以基于分离株的临床抗生素抗性谱的集合916来解释所分配的标记。换句话说，SNP抗性关联模块906可确定哪些突变导致抗生素抗性或至少有助于抗生素抗性。

为实现此，在至少一个实施例中，SNP抗性关联模块906可以依赖于关联的统计测试。可以针对识别出的SNP中的每个的变体计算主要和次要等位基因计数。然后，SNP抗性模块906可以学习主要和次要等位基因如何在抗性和敏感菌株上分布。该分布频率可以在生成的针对跨菌株的等位基因频率的2x2列联表上显示，例如下表2。

	抗性	敏感性
			主要等位基因	x	y
次要等位基因	a	B

表2等位基因计数表

与表1类似，表2构成了运行多个单变量统计检验的基础，包括卡方统计假设检验。与表1一样，关联的程度可以由生成的p值表示。也就是说，p值越低，SNP与药物敏感性之间的关联越高。也就是说，SNP的存在是病原体是对特定抗生素具有抗性还是敏感性的因素。SNP抗性关联模块906可以相应地根据它们的p值来对特定的非同义突变进行排序(其可以在多次假设检验之后校正，例如Bonferroni校正)。指定的p值可以按它们在解释分离株之间的表型差异中的重要性对突变进行分类。

在其他实施例中，SNP抗性关联模块906可依赖于机器学习技术来识别哪些非同义突变负责或至少贡献于分离株的抗生素抗性。这些技术可以分析来自矩阵1000或1100的数据，如上所述，该数据呈现不同变体调用位置的分离株和等位基因。对于每个变体呼叫位置，可以确定主要和次要等位基因。

可以将矩阵1000中呈现的数据提供给机器学习算法以进行处理。SNP抗性关联模块906可以使用各种机器学习算法，例如但不限于，随机森林，支持向量机，反向传播神经网络，逻辑回归等。该算法可以训练数据的数学模型，也以“y(标记)＝f(特征或基因)”的格式表示。然而，特定的数学函数可以变化，并且可以基于所使用的特定机器学习算法或过程。

无论使用任何(一种或多种)机器学习算法，都可以通过k倍交叉验证或随机子采样方法来验证模型，以确定统计数据，例如真阳性率，假阳性率，生成曲线下面积等。以上机器学习算法和验证方法的列表是非详尽的，并且可以使用现在可用或以后发明的其他技术来实现本文描述的各种特征。

然后，SNP注释模块908可以注释所识别出的SNP并分析它们的下游影响。例如，SNP注释模块908可在内部分配每个SNP在决定分离株的标记时的重要性。因此，具有较高重要性等级的SNP被认为比具有较低重要性等级的SNP更大程度地解释观察到的表型(例如，抗生素抗性)。

SNP注释模块908可以将SNP定位在分离株的基因组上，并使用任何适当的方法观察它是否存在于基因中。如果SNP存在于基因中，则SNP注释模块808然后可以通过比较原始密码子和SNP密码子来确定突变是同义的还是非同义的。另一方面，如果基因中不存在突变，那么任何生物学影响都可能是通过e-QTL效应。

图12描绘了根据一个实施方案的示例性SNP到基因映射矩阵1200。在该示例性应用中，SAR模块104在具有68个敏感性分离株和36个抗性分离株的104个ST 736分离株上进行测试。相对于E.屎肠球菌的E39参考基因组，在104个ST 746分离株中识别了1730个组合的SNP变体位置。发现717个SNP是非同义突变，其中18个抗性相关的非同义突变具有小于0.05的卡方p值，并且在[0.004245,0.036]的范围内。因此，含有这些非同义突变的基因被认为在抗生素抗性的背景下具有生物学意义。

图13更详细地图示了抗生素抗性模块106。在该特定实施例中，抗生素抗性模块可包括基因网络预测模块1302和可移动基因组(mobilome)关联模块1304。抗生素抗性模块106可以充当主模块，其整合关于药物敏感性相关基因和SNP的关键生物标志物信息，以提供关于基因和非同义突变的存在和/或不存在的影响的综合视角。

抗生素抗性模块106还可以基于例如序列组成和/或系统发育来将基因组感兴趣区域的来源表征为染色体或外源获得的DNA。外源获得的DNA是可移动遗传元件，其可以包括转座子，整合质粒，前噬菌体，整合子和插入序列元件。因此，抗生素抗性模块106是帮助诸如临床医师的医学人员了解在医院富集的病原体中获得引起抗性的机制的来源的关键部件。

在基因抗性模块102中识别出的基因和在SAR模块104中识别出的突变可以传递给基因网络预测模块1302。基因网络预测模块1302可以识别可能在转录上一起起作用，具有互补生物学功能并且具有高物理接近性的基因网络。

来自基因网络预测模块1302的预测可以被传送到可移动基因组关联模块1304。例如，可能的是，抗性表型是由基因的网络(一些可能包含非同义突变)引起的，这些基因共同起作用而不是通过单个基因的突变或单个基因的存在/不存在起作用。可移动基因组关联模块1304可以例如将操纵子区域分类为外源的或不是外源的，这提供了对采集的途径或基因组元件的来源的洞悉。关于获得的基因组元件的来源/途径的信息可用于处置和预防抗生素抗性。

该分析可提供关于操纵子网络是移动遗传元件(转座子，整合质粒，整合子，前体，抗性基因，插入序列元件等)的一部分的可能性的信息，或可提供可以携带从基因组到基因组的抗生素抗性基因的基因组岛的信息。

抗生素抗性模块106的另一个功能是分别识别来自基因抗性模块102和SAR模块104的基因和突变的重要性。这提供了基因和SNP如何相对地解释分离株的药物敏感性的比较。

例如，图14描绘了可以由抗生素抗性模块106生成的组合特征矩阵1400。组合特征矩阵1400可以呈现关于最重要的基因和SNP的信息。基因和SNP两者都可以组合作为特征来训练分离株上的机器学习模型。如图14中所示，矩阵1400将基因和SNP呈现为二进制值，其中，主要等位基因被赋予“1”值，次要等位基因被赋予“0”值。例如，值也可以以百分比表示。

基于组合特征矩阵1400的特征选择可以提取对观察到的表型中的变体最负责或至少贡献于其的基因和变体。因此，医务人员或其他感兴趣方可能能够识别解释抗性特性的因果因素的线性网络。

抗生素抗性模块106可以额外地或替代地提供关于这些遗传元件的获得源的信息。例如，抗生素抗性模块106可以确定遗传元件是否不是基因组本身的一部分，而是从环境中获得并且是“漂浮基因组”。作为另一个示例，抗生素抗性模块106可以识别生物标志物是否是整合到移动遗传元件中的操纵子网络的一部分。换句话说，由基因抗性模块102识别出的基因和由SAR模块104识别出的非同义突变可用于识别可能在转录上一起起作用、具有互补的生物学功能并具有高的物理接近性的基因网络。

图15描绘了根据一个实施例的用于识别病原体中的抗生素抗性的方法1500的流程图；步骤1502包括接收多个基因组序列。这些基因组序列可以通过基因抗性(GAR)模块和单核苷酸多态性(SAR)模块接收，例如图1中所示的那些。

步骤1504包括生成基因存在-不存在矩阵。基因存在-不存在矩阵的示例在图6-8中图示。可以通过执行图3-5中所示的基因预测和消除算法来生成矩阵以识别每个分离株序列中存在哪些基因。

步骤1506包括输出针对基因的特征重要性/p值，其是基因影响药物敏感性的能力。因此，由基因抗性模块102生成的基因存在-不存在矩阵包括多个分离株序列，每个序列中存在的基因，以及对序列为抗性或敏感性(关于抗生素，从微生物学信息中提取)的识别。

步骤1508包括识别多个基因组序列中的每个中的基因突变。如前所述，这些突变可以由SAR模块104识别。

步骤1510包括输出针对突变的特征重要性/p值，其是突变影响药物敏感性的能力。SAR模块104可以输出识别每个突变以及抗性或敏感性的标记(相对于抗生素)的变体矩阵。因此，由SAR模块104输出的变体矩阵可以包括具有突变的分离株的列表，所述突变的位置，以及对应于每个突变的特征重要性/p值度量。

步骤1512包括分别从GAR和SAR模块接收高特征重要性/低p值的基因和SNP。

步骤1514包括基于接收到的标记来识别赋予抗生素抗性的基因和赋予抗生素抗性的基因的来源中的至少一个。例如，系统100的各种部件可以使用多种机器学习工具中的任何一种来分析所识别出的基因、突变和抗性/敏感性标记，以识别哪些基因/突变负责或至少贡献于抗生素抗性。类似地，还可以确定贡献于抗生素抗性的所述基因/突变的来源。

图16图示了用于执行本文描述的功能的示例性硬件设备1600。如图所示，设备1600包括经由一个或多个系统总线1610互连的处理器1620、存储器1630、用户接口1640、网络接口1650和存储设备1660。应该理解，图16在一些方面构成抽象，并且设备1600的部件的实际组织可能比图示的更复杂。

处理器1620可以是能够执行存储在存储器1630或存储设备1660中或者能够处理数据的指令的任何硬件设备。这样，处理器可以包括微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他类似设备。

存储器1630可以包括各种存储器，例如L1、L2或L3高速缓存或系统存储器。这样，存储器1630可以包括静态随机存取存储器(SRAM)、动态RAM(DRAM)、闪存、只读存储器(ROM)或其他类似的存储器设备。

用户接口1640可以包括用于实现与用户的通信的一个或多个设备。例如，用户接口1640可以包括用于接收用户命令的显示器、鼠标和键盘。在一些实施例中，用户接口1640可以包括命令行接口或图形用户接口，其可以经由网络接口1650呈现给远程终端。

网络接口1650可以包括用于实现与其他硬件设备的通信的一个或多个设备。例如，网络接口1650可以包括被配置为根据以太网协议进行通信的网络接口卡(NIC)。另外，网络接口1650可以根据TCP/IP协议实现用于通信的TCP/IP栈。用于网络接口1650的各种替代或附加硬件或配置将是显而易见的。

存储器1660可以包括一个或多个机器可读存储介质，诸如只读存储器(ROM)，随机存取存储器(RAM)，磁盘存储介质，光存储介质，闪存设备或类似的存储介质。在各种实施例中，存储设备1660可以存储用于由处理器1620执行的指令或者处理器1620可以操作的数据。

例如，存储器1660可以包括操作系统1661，操作系统1661包括用于识别病原体中存在的基因的基因抗性模块1662，用于识别病原体中存在的突变的SAR模块1663，以及用于识别负责或至少贡献于病原体的抗生素抗性的基因和突变的抗生素抗性模块1664。抗生素抗性模块1664还可以确定导致病原体抗生素抗性的基因或突变的来源。

显而易见的是，存储在存储器1660中的各种信息可以额外地或替代地存储在存储器1630中。在这方面，存储器1630还可以被认为构成“存储设备”，并且存储设备1660可以被认为是“存储器”。各种其他布置将是显而易见的。此外，存储器1630和存储器1660都可以被认为是“非瞬态机器可读介质”。如本文中所使用的，术语“非瞬态”将被理解为排除瞬态信号但包括所有形式的存储，包括易失性和非易失性存储器。

虽然设备1600被示出为包括每个所描述的部件中的一个，但是在各种实施例中各种部件可以是多个。例如，处理器1620可以包括多个微处理器，所述多个微处理器被配置为独立地执行本文描述的方法，或者被配置为执行本文描述的方法的步骤或子例程，使得多个处理器协作以实现本文中描述的功能。此外，在云计算系统中实现设备1600的情况下，各种硬件组件可以属于单独的物理系统。例如，处理器1620可以包括第一服务器中的第一处理器和第二服务器中的第二处理器。

根据前面的描述中应该显而易见的是，各种示例实施例可以以硬件或固件实现。此外，各种示例性实施例可以实现为存储在机器可读存储介质上的指令，其可以由至少一个处理器读取和执行以执行本文详细描述的操作。机器可读存储介质可以包括用于以机器可读的形式存储信息的任何机制，例如个人或膝上型计算机，服务器或其他计算设备。因此，机器可读存储介质可以包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存设备和类似的存储介质。

本领域技术人员应该理解，本文中的任何框图表示体现本文所述原理的说明性电路的概念图。类似地，应当意识到，任何流程图、流程图表、状态转换图、伪代码等表示各种过程，所述过程可以实质上在机器可读介质中表示，并且因此由计算机或处理器来执行，而不管是否明确示出了这样的计算机或处理器。

尽管已经具体参考其某些示例性方面详细描述了各种示例性实施例，但是应当理解，能够实现其他实施例及其细节的本发明能够在各种明显的方面进行修改。对于本领域技术人员显而易见的是，可以在保持在本发明的精神和范围内的同时实现变化和修改。因此，前述公开内容，说明书和附图仅用于说明目的，并且不以任何方式限制本发明。

Claims

1.一种用于识别病原体中的抗生素抗性的计算机实现的系统，所述系统包括：

基因抗性模块，其被配置为：

接收多个基因组序列作为输入，每个序列包括多个基因，

生成基因存在-不存在矩阵，所述基因存在-不存在矩阵识别存在于所述多个基因组序列中的每个中的基因，并且

输出针对多个基因组样本中的每个的抗性或敏感性的标记；

其中，所述基因抗性模块还包括：

基因预测引擎，其被配置为识别存在于所述多个基因组序列的样本中的基因的集合；以及

基因消除引擎，其被配置为从所述多个基因组序列中的每个中去除识别出的基因的集合，

其中，所述基因预测引擎和所述基因消除引擎还被配置为迭代以下步骤：识别剩余基因组序列中的每个中存在的基因的集合，并且从所述剩余基因组序列中去除识别出的基因的集合以生成所述基因存在-不存在矩阵；

单核苷酸多态性抗性模块，其被配置为：

接收所述多个基因组序列作为输入，

识别所述多个基因组序列中的每个中的基因突变，并且

输出针对每个识别出的突变的抗性或敏感性的标记；

其中，所述单核苷酸多态性抗性模块还包括：

对位和变体调用管线模块，其被配置为使用基于对位的变体调用来对读取进行组装；

变体矩阵模块，其被配置为生成变体矩阵；

单核苷酸多态性抗性关联模块，其被配置为确定哪些突变导致抗生素抗性或至少有助于抗生素抗性；以及

单核苷酸多态性注释模块，其被配置为注释所识别出的单核苷酸多态性；以及

抗生素抗性模块，其被配置为：

接收与针对所述多个基因组序列中的每个和每个识别出的突变的抗性或敏感性的标记相关联的所述基因和突变作为输入，并且

基于接收到的标记来识别赋予抗生素抗性的至少一个基因和/或至少一个突变，并且识别赋予抗生素抗性的基因的来源。

2.根据权利要求1所述的系统，其中，所述基因抗性模块还被配置为生成表示基因对抗生素抗性或抗生素敏感性的贡献的值。

3.根据权利要求1所述的系统，其中，所述抗生素抗性模块还被配置为确定至少两个抗性基因是否作为网络起作用。

4.根据权利要求1所述的系统，其中，基因的存在能够通过二元值或百分比来定义。

5.根据权利要求1所述的系统，其中，所述抗生素抗性模块还被配置为确定作为操纵子网络起作用的至少两个基因是否包括突变。

6.根据权利要求1所述的系统，其中，所述抗生素抗性模块还被配置为输出识别与抗生素抗性相关联的至少一个基因或突变的报告。

7.根据权利要求1所述的系统，其中，使用序列组成和系统发育中的至少一种来识别所述基因的所述来源，以将所述基因组序列分类为宿主或外源。

8.一种用于识别病原体中的抗生素抗性的计算机实现的方法，所述方法包括：

在基因抗性模块和单核苷酸多态性抗性模块处接收多个基因组序列，每个序列包括多个基因；

经由所述基因抗性模块，通过以下步骤来生成基因存在-不存在矩阵：

(i)经由所述基因抗性模块来识别存在于所述多个基因组序列的样本中的基因的集合；

(ii)经由所述基因抗性模块来从所述多个基因组序列中的每个中去除识别出的基因的集合；并且

(iii)迭代以下步骤：识别来自所述多个基因组序列中的剩余样本中的每个中存在的基因的集合，并且从剩余基因组序列中去除识别出的基因的集合，以生成所述基因存在-不存在矩阵，

所述基因存在-不存在矩阵识别存在于所述多个基因组序列中的每个中的基因；

经由所述基因抗性模块来输出针对所述多个基因组序列中的每个的抗性或敏感性的标记；

通过以下操作经由所述单核苷酸多态性抗性模块来识别所述多个基因组序列中的每个的基因突变：

(i)经由所述单核苷酸多态性抗性模块，使用基于对位的变体调用来对读取进行组装；

(ii)经由所述单核苷酸多态性抗性模块，生成变体矩阵；

(iii)经由所述单核苷酸多态性抗性模块，确定哪些突变导致抗生素抗性或至少有助于抗生素抗性；以及

(iv)经由所述单核苷酸多态性抗性模块，注释所识别出的单核苷酸多态性，

经由所述单核苷酸多态性抗性模块来输出针对每个识别出的突变的抗性或敏感性的标记；

在抗生素抗性模块处接收与针对所述多个基因组序列中的每个和每个检测到的突变的抗性或敏感性的标记相关联的所述基因和突变；

经由所述抗生素抗性模块基于接收到的标记来识别赋予抗生素抗性的至少一个基因和/或至少一个突变，并且识别赋予抗生素抗性的基因的来源。

9.根据权利要求8所述的方法，还包括经由所述基因抗性模块来生成表示基因对抗生素抗性或抗生素敏感性的贡献的值。

10.根据权利要求8所述的方法，还包括经由所述抗生素抗性模块来确定至少两个抗性基因是否作为网络起作用。

11.根据权利要求8所述的方法，其中，基因的存在能够通过二元值或百分比来定义。

12.根据权利要求8所述的方法，还包括经由所述抗生素抗性模块来确定作为网络起作用的至少两个基因是否包括突变。

13.根据权利要求8所述的方法，还包括经由所述抗生素抗性模块来输出识别与所述抗生素抗性相关联的至少一个基因或突变的报告。

14.根据权利要求8所述的方法，其中，使用序列组成和系统发育中的至少一种来识别所述基因的所述来源，以将所述基因组序列分类为宿主或外源。

15.一种用于识别赋予抗生素抗性的一个或多个基因的计算机实现的方法，所述方法包括：

接收多个基因组序列，每个序列包含多个基因；

通过以下步骤来确定所述多个基因组序列中的哪些赋予抗生素抗性：

(i)经由基因抗性模块来识别存在于所述多个基因组序列的样本中的基因的集合；

(iii)迭代以下步骤：识别来自所述多个基因组序列中的剩余样本中的每个中存在的基因的集合，并且从剩余基因组序列中去除识别出的基因的集合，以生成基因存在-不存在矩阵，所述基因存在-不存在矩阵识别存在于所述多个基因组序列中的每个中的基因；并且

(iv)经由所述基因抗性模块来输出针对所述多个基因组序列中的每个的抗性或敏感性的标记；

(ii)经由所述单核苷酸多态性抗性模块，生成变体矩阵；

(iv)经由所述单核苷酸多态性抗性模块，注释所识别出的单核苷酸多态性；

确定所述多个基因组序列中的哪些突变赋予抗生素抗性；并且

基于哪些样本和突变赋予抗生素抗性来识别所述多个基因组序列中与抗生素抗性相关联的至少一个基因。