CN116324418A

CN116324418A - 用于快速微生物鉴定的系统和方法

Info

Publication number: CN116324418A
Application number: CN202180067945.3A
Authority: CN
Inventors: 叶炳辉; 小詹姆斯·L·史蒂文森
Original assignee: Thermo Fisher Scientific Oy
Current assignee: Thermo Fisher Scientific Oy
Priority date: 2020-10-06
Filing date: 2021-10-05
Publication date: 2023-06-23
Also published as: EP4226380A1; US20230410947A1; WO2022074454A1

Abstract

本发明公开了，质谱法已经广泛地用于鉴定样品中存在的微生物。然而，对谱数据进行快速分析(例如，1分钟‑5分钟)以鉴定微生物已被证明是非常具有挑战性的，这是由于所需的高级别的处理以及与从大量候选微生物库中鉴定相关联的复杂性。本文公开了用于通过应用特定蛋白质形式特别指示候选微生物的条件似然来快速鉴定样品中存在的微生物的方法和系统。

Description

用于快速微生物鉴定的系统和方法

技术领域

本发明涉及样品的质谱分析和用于在属、种、菌株和克隆级别上快速分类/鉴定微生物种类的方法。

背景技术

质谱法已经广泛地用于鉴定样品中存在的微生物。然而，对谱数据进行快速分析(例如，1分钟-5分钟)以鉴定微生物已被证明是非常具有挑战性的，这是由于所需的高级别的处理以及与从大量候选微生物库中鉴定相关联的复杂性。典型的策略使用所谓的“分类器”方法，该方法利用可预测未知样品属于特定微生物类别的似然的数学模型。如本文所用，术语“分类”通常是指基于生物的相似性和差异将生物排列成组(例如，分类群)。

在临床微生物学中微生物的分类可以以不同的粒度级别进行。在属级别上，这被认为是一组具有相似系统发育和表型特性的种类。种级别鉴定传统上被认为是与其他菌株相比彼此更相似的菌株的集合。通过核糖体核糖核酸(rRNA)序列分析来定义任何给定属种在分子临床生物学中在属种级别上的分类。然后可以在菌株级别上获得更精细的分类级别。由Tenover等人提供的临床微生物学中的标准定义表明，菌株是“分离物或一组分离物，其可以通过表型和/或基因型特性或两者与相同属和种的其他分离物区分开”。最后，在最精细的分类级别上的是所谓的“克隆”。在临床微生物学中，克隆由Orskov等人定义为在不同时间、不同地点从不同源分离的细菌培养物，其具有许多相同的表型和基因型特征，其中所述克隆的身份源自单一来源。

在临床微生物学中，传统上使用多种表型测试来分类/鉴定微生物。尽管这些测试中的许多测试是简单且成本有效的，但获得结果的时间是漫长的并且可能对患者结局具有严重的负面影响。此外，准确的微生物鉴定和菌株或克隆级别通常需要某种形式的基因型分析，其可能不是成本有效的或足够快以影响临床治疗。基因型测试还仅受到确定给定菌株或克隆具有某些耐药性或抗生素药敏性的“潜力”的困扰，并且不直接反映菌株/克隆在体内或体外条件下的代谢。

在最近的专利和出版物中，质谱法已被证明是用于在属种级别上鉴定临床环境中的微生物的快速和准确的方法。特别地，直接来自单独菌落的完整蛋白质种类的高分辨率/准确质量分析在许多情况下可以在菌株级别上鉴定微生物。高质量准确度允许蛋白质变体在不同菌株中的细微分化，这些不同菌株的区别在于单个氨基酸取代。这种分析可以直接从在数据采集直接产生的各种m/z比下发现的峰进行，或者经由去卷积算法从蛋白质分子量的确定进行。

出于多种原因，分析完整的蛋白质量以用于微生物鉴定是重要的。一个原因包括以下事实：所生成的答案对于指导时间敏感的决策是有用的。例如，提供快速决策力的能力在可显著改善患者结局的临床环境中特别重要。

大多数基于质谱法的分类算法直接使用检测到的谱的方面(例如，使用检测到的质荷比(m/z))和谱中的峰的强度。通常基于未知样品的峰强度与精选库中的峰强度的差异来构建罚函数。通常，未知项被鉴定为库中具有最佳匹配(例如，具有最小罚分的匹配)的条目。

为了在菌株和克隆级别上提供准确和快速的微生物鉴定，非常期望有一种显著提高计算机处理的速度和性能的分析方法。例如，提高的处理性能更快速地完成每个任务，从而为其他计算任务释放处理资源，这使得能够在任何级别的分类下进行快速且准确的微生物鉴定。当试图鉴定具有某些耐药性机制的那些菌株/克隆或确定所述菌株/克隆对各种抗生素的抗生素药敏性时，这是特别重要的。例如，在克隆级别上的鉴定可显著减少快速确定给定感染的患者治疗所需的抗生素药敏性测试(AST)的数目。由于全世界许多最强毒性/耐药克隆已被广泛表征，通过克隆鉴定获得的关于耐药性和抗生素药敏性的信息仅需要简单的确认步骤来确定患者治疗。

发明内容

本文中相对于例示性、非限制性具体实施来描述用以解决这些和其他需要的系统、方法和产品。各种替代方案、修改和等效物也是可能的。

所采用的鉴定方法利用特征选择结合标准统计方法(即，朴素贝叶斯、k最近邻、随机森林)来使用质谱在菌株和克隆级别上鉴定微生物以帮助改善患者结局。特征选择过程基于使用F统计来鉴定质谱的那些特征，这些特征可以被强调以突出密切相关的菌株之间的差异或用于给定系列的微生物的克隆确定。这种附加级别的鉴定可用于确定微生物耐药性以及指导抗生素药敏性测试过程以显著改善结果时间和改善由于感染的患者结局。

上述实施方案和实施方式彼此不一定为包含性的或排他性的，并且无论其是否与相同或不同实施方案或实施方式结合呈现，该实施方案和实施方式都可以以不冲突的和其他可能的任何方式进行组合。一个实施方案或实施方式的描述不意图相对于其他实施方案和/或实施方式为限制性的。此外，在替代实施方式中，在本说明书中其他地方描述的任何一个或多个功能、步骤、操作或技术可与本发明内容中描述的任何一个或多个功能、步骤、操作或技术组合。因此，上述实施例和实施方案为说明性的而非限制性的。

附图说明

从结合附图进行的以下详细描述中将更清楚地了解以上和另外的特征。在附图中，相同的附图标记指示相同的结构、元件或方法步骤，且附图标记的最左边数字指示参考元件第一次出现的图的编号(例如，元件120第一次出现在图1中)。然而，所有这些惯例意图是典型的或说明性的，而非限制性的。

图1是质谱仪仪器和从质谱仪接收信息的计算机的一个实施方案的简化图形表示；

图2是具有与数据结构通信的解释应用程序的图1的质谱仪和计算机的一个实施方案的功能框图；

图3是示出蛋白质多样性和相对丰度之间的关系的简化图示；

图4是用于确定未知微生物种类/菌株的同一性的方法的一个实施方案的功能框图；并且

图5是用于选择信息性蛋白质形式值的子集的方法的一个实施方案的功能框图。

图6总结了大肠杆菌(E.coli)、福氏志贺菌(S.flexeri)和宋内志贺菌(S.sonnei)的20个菌株的分化的特征选择过程的结果。

图7是大肠杆菌、福氏志贺菌和宋内志贺菌数据集的F统计计算的代表性示例。

图8示出特征选择使用菌株鉴定作为训练机制来预测来自76种不同菌株的耐药金黄色葡萄球菌(S.aureus)(MRSA)的能力。

图9证明了特征选择使用用于训练的药敏/耐药标准从76个不同菌株预测耐药金黄色葡萄球菌的能力。

图10将使用串联质谱法(MRSA阳性样品)的PBP2a分析的结果与特征选择进行比较以证实从特征选择产生的结果。

图11是用于证实特征选择结果的来自MRSA菌株的PBP2a的N-末端序列的代表性串联质谱。

图12示出使用具有特征选择的二十分钟分析时间来分化肺炎克雷伯氏菌(K.pneumoniae)的各种药敏/耐药菌株。

图13示出使用具有特征选择的五分钟分析时间来分化肺炎克雷伯氏菌的各种药敏/耐药菌株。

图14证明了特征选择正确分类药敏和耐药肺炎克雷伯氏菌(KPC-2和NDM-1阳性)的能力。

图15是用作验证肺炎克雷伯氏菌的特征选择结果的直接方法的代表性KPC-2串联质谱。

图16证明了特征选择使用基于菌株的训练预测来自多种不同菌株(药敏、KPC-2和NDM-1阳性)的耐药肺炎克雷伯氏菌的能力。

贯穿附图中的若干视图，相同的附图标记指代对应部分。

实施方案的具体实施方式

如以下将更详细描述的，所描述的发明的实施方案包括用于快速谱去卷积和微生物鉴定的计算机处理性能的实质性改进。更具体地，本发明包括使用朴素贝叶斯分类器策略从复杂背景中的大量候选微生物中快速鉴定微生物。在本文所述的实施方案中，微生物可包括细菌、酵母和真菌的种类和/或菌株(例如，菌株是种类内的变体)。

图1提供了能够与计算机110和样品110交互的用户101，以及计算机110与质谱仪150之间和计算机120与自动样品处理器140之间的网络连接的简化说明性示例。此外，自动样品处理器140还可以与质谱仪150进行网络通信。应当理解，图1的示例示出了元件之间的直接网络连接(例如，包括由闪电螺栓表示的有线或无线数据传输)，然而示例性网络连接还包括经由其他装置(例如，开关、路由器、控制器和计算机等)，并且因此不应被视为限制性的。

此外，用户110可以手动制备样品120以供质谱仪150分析，或者样品120可以诸如通过机器人平台以自动方式制备并装载到质谱仪150中。例如，自动样品处理器140接收原材料并根据一个或多个协议执行处理操作。然后，自动样品处理器140可将经处理的材料引入质谱仪150中，而无需用户101的干预。在名称为“Apparatus and methods formicrobial identification by mass spectrometry”的美国专利号9,074,236中描述了用于处理用于质谱分析的原材料的自动平台的附加示例，该专利出于所有目的据此全文以引用方式并入本文。

质谱仪150可包括将电荷转移到不带电荷的分析物以产生用于分析的离子以便产生质谱的任何类型的质谱仪。质谱仪150的实施方案通常包括但不限于将分析物分子转化为离子并使用电场或磁场来加速、减速、漂移、捕集、隔离和/或分裂以产生独特质谱的元件。样品120可包括能够被质谱仪150分析的任何类型的样品，诸如包括生物蛋白质样品的分子。应当理解，术语“分子”也包括被认为具有“低质量”的分子。质谱仪150仪器所采用的技术的一些示例包括但不限于飞行时间(例如，TOF)、高分辨率离子迁移率、离子捕集(傅里叶变换离子回旋共振(FTICR)、Paul阱或静电捕集装置(诸如轨道阱))单/三重四极杆或混合仪器。可与目前描述的本发明的一些或所有实施方案一起使用的质谱仪系统的附加示例可包括可得自Thermo Fisher Scientific of Waltham,Massachusetts,USA的ThermoScientific Orbitrap^TM系列的质谱仪。

质谱仪150或自动样品处理器140的一些实施方案可以采用一个或多个装置，这些装置包括但不限于液相色谱、毛细管电泳、直接输注、流动注射，所有这些都是独立的或与某种形式的离子迁移率相结合。例如，根据公知的色谱原理，色谱仪接收包括分析物混合物的样品120，并且至少部分地将分析物混合物分离成单独的化学组分。在不同的各个时间将所得的至少部分分离的化学组分转移到质谱仪150以进行质量分析。当质谱仪接收每个化学组分时，所述化学组分被质谱仪的电离源电离。电离源可以产生包括多个离子种类(例如，多个前体离子种类)的多个离子，该多个离子包括与每个化学组分不同的电荷或质量。因此，可以针对每个化学组分产生具有不同的相应质荷比的多个离子种类，每个此类组分在其自身的特性时间从色谱仪中洗脱。这些不同的离子种类通常通过空间或时间分离由质谱仪的质量分析器进行分析，并且经由图像电流、电子倍增器或现有技术中已知的其他装置进行检测。作为该过程的结果，可以根据离子种类的各种质荷(m/z)比来适当地鉴定离子种类(例如，确定分子量)。同样在一些实施方案中，质谱仪150包括反应/碰撞池以分裂或引起称为串联质谱法的前体离子的其他反应，从而产生包括多个产物离子种类的多个产物离子。

此外，在一些实施方案中，质谱仪系统150可与控制器电子通信，该控制器包括用于执行数据分析和控制功能的硬件和/或软件逻辑。这样的控制器可以以任何合适的形式实现，诸如专用或通用处理器、现场可编程门阵列和专用电路中的一者或组合。在操作中，控制器通过调节施加到离子光学组件和质量分析器的各个电极的电压(例如，RF、DC和AC电压)来实现质谱仪系统的期望功能(例如，分析扫描、隔离和解离)，并且还接收和处理来自检测器的信号。控制器可另外被配置为存储并运行数据相关方法，其中基于将输入标准应用于所获取的质谱数据而实时地选择并执行输出动作。数据相关的方法以及其他控制和数据分析功能将通常被编码在由控制器执行的软件或固件指令中。如本文所使用的术语“实时”通常是指以与事件展开基本上相同的速率且有时与事件展开基本上同时地对事件进行报告、描绘或作出反应，而非延迟报告或行动。例如，“基本上相同的”速率和/或时间可以包括与事件展开的速率和/或时间的一些小差异。在本示例中，实时报告或动作也可被描述为“接近”、“类似于”或“相当于”事件展开的速率和/或时间。

计算机110可以包括任何类型的计算机平台，例如工作站、个人计算机、平板电脑、“智能电话”、服务器、计算集群(本地的或远程的)或任何其它现有或未来的计算机或计算机群。计算机通常包括已知组件，诸如一个或多个处理器、操作系统、系统存储器、存储器存储装置、输入-输出控制器、输入-输出装置和显示装置。还应了解，计算机110的多于一个实施方式可用于在不同实施方案中进行各种操作，并且因此图1中的计算机110的表示不应视为限制性的。

在一些实施方案中，计算机110可采用包括计算机可用介质的计算机程序产品，该计算机可用介质中存储有控制逻辑(计算机软件程序，包括程序代码)。控制逻辑在由处理器执行时致使处理器执行本文中所描述的功能。在其他实施方案中，一些功能主要在使用例如硬件状态机的硬件中实现。实施硬件状态机以便进行本文中所描述的功能对于相关领域的技术人员来说将是显而易见的。此外，在相同或其他实施方案中，计算机110可采用互联网客户端，该互联网客户端可包括启用以经由网络访问远程信息的专门的软件应用程序。网络可包括本领域的普通技术人员众所周知的许多各种类型的网络中的一者或多者。例如，网络可包括局域网或广域网，其采用通常被称为TCP/IP协议集的协议来通信。网络可包括包含通常被称为互联网的全球互连计算机网络系统的网络，或还可包括各种内联网架构。相关领域的普通技术人员还将了解，联网环境中的一些用户可能偏爱使用通常被称作“防火墙”(有时也被称作包过滤器或边界防护装置)的机制来控制去往和来自硬件和/或软件系统的信息业务。例如，防火墙可包括硬件或软件元件或其某一组合，并且通常设计成强制执行由用户(诸如例如网络管理员等)置于适当位置的安全策略。

此外，计算机110可存储并执行被配置为执行数据分析功能的一个或多个软件程序。图2提供包括数据处理应用程序210的计算机110的实施方案的说明性示例，该数据处理应用程序从质谱仪150接收原始质谱信息且对原始信息(例如，一个或多个“质谱”)执行一个或多个过程以产生可用于进一步解译的样品数据215。例如，数据处理应用程序210的一个实施方案处理与材料相关联的谱信息，并且输出信息，诸如通过分析未知材料的样品鉴定的已知材料、所分析的材料的质量的值(例如，单同位素质量或平均质量值)和/或来自材料的修改的谱轮廓(例如，包括减少表征轮廓所需的数据量的“质心”)。如本文所用，术语“单同位素质量”应根据相关领域普通技术人员的理解来解释，并且通常是指使用每种元素的最丰富同位素的未结合的基态静止质量的分子中的原子的质量总和。此外，如本文所用，术语“质心”应当根据相关领域的普通技术人员的理解来解释，并且通常是指用于表征谱的量度，其中质心基于轮廓峰的建模顶点指示质心位于何处。在2016年3月11日提交的名称为“Methods for Data-Dependent Mass Spectrometry of Mixed Biomolecular Analytes”的美国专利申请公布号US 2016-0268112 A1和2017年10月5日提交的名称为“System andMethod for Real-Time Isotope Identification”的美国专利申请序列号15/725,422中描述了用于数据处理的软件程序的附加示例，这两个申请出于所有目的据此全文以引用方式并入本文。

如上所述，本发明的实施方案包括使用分类器方法进行快速谱去卷积和微生物鉴定的系统和方法。重要的是，本发明的实施方案提供了能够在1分钟-5分钟内从质谱法数据确定微生物种类/菌株的处理能力的实质性改进。更具体地，一些实施方案包括可以被称为朴素贝叶斯分类器的分类器。相关领域的普通技术人员理解，各种朴素贝叶斯分类器策略已被用于机器学习领域中，诸如文本处理领域中(例如，用于垃圾信息检测)。此外，相关领域的普通技术人员理解，样品可包括不同微生物种类和/或菌株的复杂混合物，使得准确的微生物鉴定非常具有挑战性，特别是考虑到与候选微生物的大量可能匹配。例如，样品可能具有非常高程度的微生物复杂性，其中特定蛋白的信噪比可能非常低。图3提供说明性示例，其示出随着蛋白质数目和多样性增加，特定蛋白质的相对丰度降低，从而使得其更难以鉴定。

与直接使用m/z空间中的质谱的早期方法完全不同，当前描述的本发明的实施方案首先对谱进行去卷积处理，以获得“蛋白质形式”信息，其可以包括每个蛋白质形式或蛋白质片段的分子量(例如，所述峰的单同位素质量)。如本文所用，术语“蛋白质形式”通常用于“自顶向下蛋白质组学”领域，并且通常指由基因表达产生的蛋白质产物的分子形式。此外，如本文所用，术语“自顶向下蛋白质组学”通常是指通过使用质谱法和串联质谱法分析完整蛋白质来鉴定和/或量化独特的蛋白质形式。完整蛋白质的分析有时也称为“MS1”或单级质谱法，而“MS2”是指两级质谱法。

在本文所述的实施方案中，朴素贝叶斯分类器可应用于MS1数据集以分类(例如，鉴定)微生物的未知种类和/或菌株。这种方法适用于高方差的谱，诸如使用电喷雾电离技术(有时称为“ESI”)从复杂混合物(诸如细胞裂解物)中产生的质谱法数据。对于这样的数据，使用强度值作为主要量来分类是不方便的。例如，难以量化低于检测极限的强度，以及难以定义接近检测极限的峰的强度方差的可靠估计。此外，机器到机器的可变性倾向于对强度引入更多的方差。

本发明的实施方案还包括采用存储一个或多个蛋白质形式信息库的数据结构，如图2中的数据结构230所示。本领域普通技术人员应当理解，诸如数据库之类的许多类型的数据结构可以与当前描述的实施方案一起使用，并且因此对库或数据库数据结构的描述不应当被认为是限制性的。例如，蛋白质形式信息库可以包括每种已知微生物种类与一种或多种蛋白质形式的关系的似然估计，每种蛋白质形式对应于在微生物种类/菌株中表达的蛋白质。似然估计可以通过实验导出，并且包括从每种微生物种类/菌株(例如，种类B)的重复样品集合(例如，10个重复；有时也称为训练集)鉴定的蛋白质的每个蛋白质形式(例如，分子量M)的出现频率。或者为了进一步细化实验的粒度，可以对来自每个重复的单个LC-MS型实验的扫描计算频率。如本文所用，术语“出现频率”通常是指对于该微生物种类/菌株，蛋白质形式值出现的频率，并且可以以百分比(例如，1％)、分数(例如，1/100)、小数(例如，0.01)或普通技术人员已知的其他符号表示。在本示例中，似然估计可以在数学上表示为P(M|B)(例如，在贝叶斯项P(M|B)中)表示观察分子量M的条件概率，假定它是微生物种类B(也表述为种类B“为真”))。在本示例中，可使用本文所述的过程构建与已知微生物相关联的蛋白质的蛋白质形式信息的库。

相关领域的普通技术人员理解，贝叶斯定理基于可能与事件相关的条件的现有知识来描述事件的概率。在所描述的实施方案中，贝叶斯定理可以在数学上表示为：

方程1

其中：

P(M|B)和P(B|M)是如上所述的条件概率

P(M)和P(B)是彼此独立地观察M和B的“先验”概率。

在实践中，考虑到在实验测定中观察到的蛋白质形式集合的出现，希望确定未知样品是特定种类/菌株/克隆的概率。对方程1求逆，得到期望的条件概率。

方程2

P(B|M)＝P(M|B)P(B)/P(M)

对于诸如用质谱法获得的多重蛋白质形式测定，M实际上将是多重蛋白质形式M1、M2、…Mi、…、Mn的组合。当我们编译库时，通过实验确定量P(M|B)。

图4提供鉴定样品120中的未知微生物种类/菌株(S)的本发明的一个实施方案的概述的说明性示例。此外，本发明的一些实施方案产生对应于鉴定的置信级别的分数。如步骤405所示，计算机100首先使数据处理应用程序210执行蛋白质去卷积步骤来产生样品数据215，该样品数据包括通过质谱仪150从样品120导出的谱数据的蛋白质形式信息。

随后，在步骤415中，解释应用程序220针对蛋白质形式值(Mi)中的一些或全部从数据结构230中的库鉴定P(Mi|B)的条件似然，其中i代表从样品120鉴定的第i个蛋白质形式。应当理解，蛋白质形式值通常可从库中鉴定多种候选微生物种类/菌株(例如，微生物种类/菌株B、C、D等)。在一些实施方案中，库可以包括与每个已知的微生物种类/菌株或感兴趣的微生物种类/菌株相关联的每个蛋白质形式值。然而，在另选的实施方案中，库可以仅包括已被确定为用于鉴定对应微生物种类/菌株的“信息性”的蛋白质形式值。例如，如以下将关于“特征选择”进一步详细描述的，在一些实施方案中，可以仅采用与最具信息性的蛋白质形式值相关联的各个似然的所选子集来改善分类器策略的性能和准确度。

最后，在步骤435中，解释应用程序220将在库中的所有微生物条目中具有从方程2计算的最高条件概率的微生物种类和/或菌株鉴定为未知微生物的最可能的候选。解释应用程序220然后输出鉴定作为微生物数据245，其还可以包括其他信息，诸如最佳候选微生物的条件概率。在一些实施方案中，计算机110还可以经由显示器(例如，图形用户界面)和/或电子邮件、文本或其他形式的电子传输向用户101提供鉴定。

还应当理解，尽管图2将数据处理应用程序210和解释应用程序220示出为单独的元件，但是如本文所述的应用程序210和220两者的功能可以由单个应用程序执行。被描述为由应用程序210执行的另外一些功能可以由应用程序220执行，反之亦然。因此，图2中所示的示例不应被认为是限制性的。

在一些实施方案中，样品可能不产生用于有效鉴定微生物种类/菌株的足够蛋白质形式信息。这可能发生在实验条件受到损害的情况下(喷雾失败、不良MS校准等)。因此，在所述实施方案中，在库中包括阴性对照也是有用的，例如，与库中任何蛋白质形式值对应的似然为零的虚拟微生物种类。当未知微生物种类/菌株比库中的任何其他条目更好地匹配阴性对照时，则将未知微生物种类/菌株分类为无检出。此外，在相同或另选实施方案中，将0似然值与另一0似然值进行比较被普通技术人员理解为可能混淆分析的不明确的数学运算。因此，在一些实施方案中，将库中的0个似然值替换为某个小值(例如，该值可以是>0且<1的某个任意值，诸如0.23)并且将1个值替换为1减去该小数值可能是有用的。

如上所述，可以使用被称为“特征排序”和“特征选择”方法来进一步增强本发明的一些实施方案。例如，特征选择包括选择一个或多个特征(例如，蛋白质形式标记)的适当子集以优化分类器的性能的过程。对于多标记问题，通常的情况是一些蛋白质形式标记比其他标记更具信息性。排除信息性较低和潜在的噪声和混杂的蛋白质形式标记可以显著改善分类器的性能。如以下将更详细地描述的，与分类器一起使用的蛋白质形式标记的子集可以使用“训练数据”来鉴定，该“训练数据”典型地使用与用于鉴定未知微生物种类所采用的相同实验条件来导出。例如，如果冷冻样品用于未知微生物种类的测试，则训练数据应当类似地从冷冻样品导出。

此外，适当子集的特征选择通常基于根据蛋白质形式标记的信息内容的每个蛋白质形式标记的特征排序。可以以多种方式计算蛋白质形式标记的信息内容，例如通过有时被称为“重新采样”方法的方法(特定重新采样方法可以包括被称为“随机检验”或“置换检验”的方法)。该过程有时也被称为确定蛋白质形式标记的“重要性”。在目前描述的示例中，可以在多个训练样品上观察蛋白质形式标记的值，然后可以随机化和评估观察到的值。由于随机化导致的性能下降然后可以用作重要性的量度，其中下降程度越大对应于对应的重要性程度越大。

然后，可以使用重要性值来对蛋白质形式标记进行排序。例如，许多不同的组合方法是已知的，其可用于评估经排序的标记的列表以最终确定期望子集的选择。一种这样的方法包括使用排序为前N个的标记来构建模型，其中N可以通过重新采样程序来确定。另选地，性能可以作为等级的函数来监测，并按等级进行聚集，仅保留那些提供性能改进的标记。在前的标记/蛋白形式的最佳数量N根据数据集显著改变。它可以从标记总数的十分之一变化到接近总数。通常，检测到的蛋白质形式越多，N(相对)越小，因为大多数蛋白质形式往往是嘈杂和混杂的。

然而，上述重新采样特征排序方法存在缺点。首先，使用重新采样策略来估计特征重要性是计算密集的，需要来自计算机110的大量处理资源。特别地，对于潜在成千上万个蛋白质形式标记的问题，如高分辨率ESI质谱法的情况，这种方法在计算上不是有效的。使低效率问题复杂化的事实在于，重新采样方法完全依赖于模型/分类器建立过程；参数的任何变化将需要从头开始进行全新的排序计算。当许多蛋白质形式标记高度相关时，出现与重新采样策略相关联的另一个问题。蛋白质形式标记的关联对于复杂样品的质谱法剖析是常见的情况。例如，所谓的“加合”包括蛋白质修饰，诸如氧化和甲酰化，其将高度相关的峰集合引入数据中。此外，来自复杂样品的许多蛋白质倾向于在不同微生物种类/菌株中共表达，并且因此表现出高度的相关性。使用重新采样-随机化策略来估计重要性倾向于低估与许多其他蛋白质形式标记相关的蛋白质形式标记的重要性。最后，从标记的排序列表中进行选择的组合方法存在过度拟合的风险，其中数据集被过度使用以创建有偏分类器。

因此，目前描述的本发明的实施方案包括优于上述基于重新采样的方法的特征排序和特征选择的改进方法。重要的是，目前描述的实施方案的特征选择策略为分化密切相关且难以彼此分辨的微生物种类/菌株(例如，具有蛋白质形式标记的高度相似性)提供最大益处。图5提供了根据所描述的本发明的一些实施方案的特征排序和特征选择的方法的说明性示例。如步骤505所示，计算机100首先使数据处理应用程序210执行蛋白质去卷积步骤以产生包含来自多个样品120的蛋白质形式信息的样品数据215，以供质谱仪150训练。例如，训练样品可以各自包括不同的微生物种类/菌株并且/或者包括微生物种类/菌株的一定数量的重复。

在一些实施方案中，改进包括使用独立统计量度来执行蛋白质形式标记的特征排序。如上所述，朴素贝叶斯模型的一些实施方案利用多个样品上的一个或多个蛋白质形式标记的频率。因此，可以在所有样品上容易地计算每个蛋白质形式标记的出现方差。如步骤515中所示，解释应用程序220计算方差，并且如步骤525中所示，计算训练数据中样品的每个蛋白质形式标记的所谓“F统计”(有时也称为“F检验”)。一般而言，F统计对于比较已经与数据集拟合的模型以鉴定与从其采样数据的统计群体最佳拟合的模型是有用的。存在许多本领域普通技术人员已知的F统计检验。

在本文所述的实施方案中，蛋白质形式标记的F统计可以包括单独基于该蛋白质形式标记将训练样品彼此分化的程度的量度。例如，被称为“方差分析”(例如，ANOVA)的统计检验基于F统计并且可以用于特征排序。在本示例中，ANOVA检验可用作标记的重要性的量度，其中F统计值的程度越高与蛋白质形式标记的类似高度的鉴别力相关。可以通过减少F统计(例如，在表格或其他表示中)来对蛋白质形式标记的排序进行分类。

在本文描述的实施方案中，F统计对于计算是非常有效的，并且完全独立于建模方法。此外，由于针对每个蛋白质形式标记独立于其他标记来计算F统计，所以避免了由于标记相关所导致的复杂化。还应当理解，也可以使用其他统计量度来对标记进行排序，诸如特征频率的熵或RSD，这产生类似的性能。

然后，如步骤535中所示，上述F统计排序可用于特征选择。在一些实施方案中，可以使用通过减少F统计而分类的蛋白质形式标记的F统计表，而不招致显著的计算开销来评估作为所使用的累积标记的数量的函数的朴素贝叶斯模型的性能。为了确定用于特征选择的F统计截止，例如，执行标准模型构建练习，但是用测试集来衡量模型/分类器的性能。针对测试集的模型的准确度可以作为F的函数被跟踪，用于聚集的连续更多特征(通过F统计来排序)。然后选择F统计的截止值作为测试准确度达到最优时的值。此外，可以使用除总体准确度之外的其他度量，诸如特异性、特定微生物选择截止的准确度。最后，为了提高截止的确定的可靠性，可以使用重新采样策略来获得平均最佳截止。应当指出，该重新采样策略不用于计算标记的重要性，因为在其他方法中，重要性已经由F统计确定。其仅用于获得截止的更稳健的估计。例如，如上所述，根据某些标准(诸如单一蛋白质的各种氧化状态)，不同标记的相关性可能是有问题的。然而，有利的是仅使用如通过F统计所测量的来自相关组的最具诊断性的峰，而忽略其他峰。

在一个实施方案中，解释应用程序220可通过实现过滤方法在特征选择过程期间使用相关信息。例如，在特征选择期间，当解释应用程序220选择以最高排序标记开始的聚集标记时，对于每个新的蛋白质形式标记，解释应用程序220筛选针对先前选择的所有蛋白质形式标记的相关系数以确定其等于或低于特定阈值。如果任何蛋白质形式标记的阈值相关系数值高于阈值，则该蛋白质形式标记未通过相关性检验，并且解释应用程序220将蛋白质形式标记排除在考虑之外。在本示例中，解释应用程序220评估蛋白质形式标记的F统计表中的每个蛋白质形式标记。此外，解释应用程序220将性能确定为通过相关性检验的聚集蛋白形式标记的数量的函数。在一个实施方案中，阈值可以被认为是可调谐参数，其可以被优化以获得更好的模型性能。

在相同或另选实施方案中，解释应用程序220不仅可以为每个测试提供单个预测分数，还可以提供接近的亚军的预测分数。如上所述，给定在测试测量中出现标记M1、M2…，解释应用程序220针对数据库中的每个候选微生物(B)使用朴素贝叶斯模型P(B|M1,M2,…Mi,…)来计算条件概率，其中最大化条件概率的B被选择作为获胜预测。解释应用程序220可以简单地将条件概率P作为分数报告回来，然而在一些实施方案中，可能期望使用log(P)作为分数。此外，用户101可以指定每个测试分类所期望的亚军数量，并且计算机110将提供亚军及其相关联的分数的列表(例如，在图形用户界面中)。

例如，在需要更具定量性的预测的情况下，数值分数可能是高度期望的。一种这样的情况可以包括当微生物种类/菌株的亚群对抗生素不药敏而大多数群体对抗生素药敏时发生的所谓“异质耐药性”。在异质耐药性的情况下，检测靶向标记的失败不足以指示药敏性，但是使用其他间接标记的检测可以指示耐药性。具有数值分数可帮助微调分数截止以允许间接地可靠预测耐药性。另一种情况可以包括当一种或多种微生物种类/菌株对多种抗生素具有耐药时发生的所谓“多重耐药性”。对于此类情况，与每种耐药性预测相关联的数值分数可帮助指示多重耐药性，而不仅仅是最可能的耐药机制。

实施例：

在图6中的是在没有相关滤波器的情况下将特征选择方法应用于菌株分化问题的示例。简言之，以5倍重复收集10株大肠杆菌、7株宋内志贺菌和3株福氏志贺菌菌株的30分钟单级质谱法(MS1)、液相色谱质谱法(LC-MS)数据。将原始质谱解卷积以获得蛋白质形式单同位素质量。蛋白质形式质量值形成朴素贝叶斯分类器的特征集合。使用4个重复进行训练和1个重复进行测试，执行100倍引导程序重新采样。重复引导程序5次以获得图6中所示的数据。

第一列包含五个独立引导程序运行的运行次数。在蛋白质形式排序列中列出了用于预测结果的标记的累积等级(F统计)。给出了两个性能数：一在最佳累积等级处，并且二针对所有可用的标记(括号中的数字是标记集的等级的总数)。最佳和最差菌株鉴定的性能分别以百分比列于下限和上限列中。在当前示例中，78/2转化为78％的准确度和2％的无检出。最后，所有20个菌株的平均性能列在“平均”列中。

最佳累积等级的性能在2％无检出的情况下始终为97％或更高的准确度，而所有标记(即，没有特征选择)的性能在1％无检出的情况下始终为82％。特征选择步骤转化为15％的性能增益。

基于对其他数据集的研究，使用特征选择的性能增益的范围从最小(低于5％)到非常显著(超过20％)。一般来说，如所预期的，特征数量越多，特征选择将更多地改进分类结果。

在图7中示出了图6中描述的大肠杆菌、福氏志贺菌和宋内志贺菌数据集的代表性F统计计算。基于图7所示的频率数据，通过重要性(最高F统计计算)排列数据。蛋白质标记的对应分子量在最左列中。图中的前12个条目是具有最高显著性的那些标记，而后8个条目针对数据集中具有最低鉴别力的那些标记。一般来说，观察到的F统计的分布曲线产生S形，其中曲线的斜率取决于所考虑的种类的相关性。

克隆鉴定过程在与大数据集一起工作时也是非常有效的，该大数据集可以以多种方式训练以回答特定微生物鉴定问题或临床结局。在图8中示出了金黄色葡萄球菌的11种药敏性和65种耐药性的克隆鉴定结果。从实际的患者样品分析总共435个样品，每个菌株6个重复。这包括54个蛋白质标准以检查仪器性能、28个空白样品和15个质量控制运行以确保数据完整性。蛋白质形式质量值形成朴素贝叶斯分类器的特征集合。使用4个重复进行训练和1个重复进行测试，执行100倍引导程序重新采样。重复引导程序5次以获得图8中所示的数据。图8中的训练集基于菌株鉴定，以及该模型预测对与潜在MRSA感染相关联的患者治疗的耐药/药敏金黄色葡萄球菌的能力。

该方法的新方面是蛋白质PBP2a(直接与MRSA相关联)没有以任何方式用于预测和鉴定金黄色葡萄球菌菌株是药敏还是耐药的。如在图8中所证明的，特征选择的使用(使用F统计量)导致20％的分类准确度的总体改进。使用特征选择，将金黄色葡萄球菌菌株鉴定为MRSA的平均准确度为99％。通过不采用特征选择，结果显著更差，总成功率为79％。

通过对90％的PBP2a阴性/阳性数据进行训练来从前述金黄色葡萄球菌数据集构建另一个模型，以在预测患者治疗选项中代表药敏/耐药菌株。剩余的10％的数据用于测试情况。采用三个单独的引导程序运行以确保结果没有偏差。图9中总结的数据表明，与应用于观察到的蛋白质标记的同等权重相比，使用特征选择产生12％的改善。如图9所示，与未加权数据的仅75％相比，该模型的平均成功率为87％。

为了证明上述方法的模型工作用于使用特征选择来确定金黄色葡萄球菌的药敏与耐药菌株，挑选随机菌株以用于与使用串联质谱法结果直接检测PBP2a蛋白质的存在进行比较。如图10所示，对六种不同的菌株进行了MRSA阳性/阴性(甲氧西林药敏性金黄色葡萄球菌-MSSA)分析的特征选择。在每种情况下，用证实PBP2a的N-末端序列的串联质谱法数据验证特征选择结果(参见图11)。

为了检查用于快速分析运行的菌株鉴定的特征选择的性能并且使用不同数量的蛋白质标记，分析了包含已知革兰氏阴性细菌(其中许多是碳青霉烯酶耐药肠杆菌科-CRE)的数据集。该数据集包含肺炎克雷伯氏菌的三个药敏菌株、四个KPC-2阳性菌株和三个NDM-1阳性菌株。第一分析条件由20分钟分析运行组成，各种肺炎克雷伯氏菌菌株中的每一者5个重复。图12中所示的结果证明了对于所有药敏和耐药细菌的使用特征选择的菌株鉴定的100％准确度。仅使用从特征选择的F统计计算导出的39个蛋白质标记获得该结果。相比之下，未加权的结果证明了对药敏菌株分类的优异准确度(100％)，但对于KPC-2阳性菌株仅57％至82％准确度，而对于NDM-1阳性菌株74％至100％准确度。

为了改善使用CRE的患者治疗选择，快速分析时间对于增加存活率是关键的，这不仅是因为病原体的鉴定，还因为特定CRE标记的存在。使用前述肺炎克雷伯氏菌数据集，分析时间减少到5分钟，并且再次将特征选择直接与未加权分析进行比较以用于菌株鉴定。图13中的结果提高了五分钟数据的三次引导程序分析的特征选择性能，每次引导程序运行的平均准确率都超过90％(参见图13中右侧的最后一列)。

为了将耐药性检测的能力扩展到图11所示的MRSA示例之外，对前述肺炎克雷伯氏菌数据集进行了训练，以检测药敏KPC-2阳性和NDM-1阳性菌株。图14中所示的单个菌株分类结果具有95％至100％范围内的准确度。为了提供该方法的稳健性的证据，分析附加的大肠杆菌样品以便尝试并将混杂因子引入该方法中。如图14所示，所有大肠杆菌样品与肺炎克雷伯氏菌的药敏和耐药形式有区别。与MRSA示例一样，将特征选择的结果直接与串联质谱法结果进行比较，从而寻找单个耐药标记。在KPC-2示例的所有情况下，成功地检测到耐药蛋白质(参见图15中对应验证的串联质谱法数据)。

为了使用来自更复杂生物的数据检查该方法的有效性，使用特征选择方法分析了一系列毛癣菌属菌株(致病性真核真菌)。此处，分析了24株紧密相关的皮肤真菌，它们经历了特征选择方法。三个种类被正确地鉴定到菌株级别(红色毛癣菌、紫色毛癣菌和指间毛癣菌)，而在断发毛癣菌-马毛癣菌复合物中，12个菌株中的八个显示出几乎相同的蛋白质组，这表明从以前的系统发育数据中明显存在未解决的分类学冲突。在图16中示出了具有特征选择的蛋白质组学数据的结果。在图16最右侧的列中列出了对应于每种菌株的独特蛋白质和蛋白质量的数量以及菌株分类方法的个体准确度。

已描述各种实施方案和实施方式，对于相关领域的技术人员来说应显而易见的是，前述内容仅为说明性的且并非限制性的，已仅借助于示例进行呈现。用于在所示实施方案的各种功能元件中分配功能的许多其他方案是可能的。在替代实施方案中，可以以各种方式执行任何元件的功能。

Claims

1.一种用于鉴定微生物种类的方法，所述方法包括：

从由包含未知微生物种类的样品的质谱分析得到的谱信息确定多个蛋白质形式值；

对于所述蛋白质形式值中的一个或多个蛋白质形式值，鉴定所述蛋白质形式对应于特定微生物种类的似然，其中所述蛋白质形式值属于候选微生物种类的信息性蛋白质形式值的子集；

使用所鉴定的每个蛋白质形式的似然确定多个候选微生物种类的条件似然；

鉴定与所述未知微生物种类最匹配的所述候选微生物种类的所述条件似然。

2.根据权利要求1所述的方法，其中，

使用来自多个训练样品的所述蛋白质形式值确定所述信息性蛋白质形式值的子集。

3.根据权利要求2所述的方法，其中，

来自所述多个训练样品的所述蛋白质形式值是在与来自所述未知微生物种类的所述多个蛋白质形式值相同的实验条件下导出的。

4.根据权利要求2所述的方法，其中，

所述训练样品包括来自不同候选微生物种类的样品。

5.根据权利要求2所述的方法，其中，

所述训练样品包括来自所述候选微生物种类中的至少一种候选微生物种类的重复样品。

6.根据权利要求2所述的方法，其中，

使用包括以下各项的方法来选择所述信息性蛋白质形式值的子集：

确定所有所述训练样品上的每个蛋白质形式的方差值；

使用F统计检验对所述蛋白质形式值的所述方差进行排序；以及

从所述排序中选择所述信息性蛋白质形式值的子集。

7.根据权利要求6所述的方法，其中，

所述F统计检验包括方差检验的分析。

8.根据权利要求1所述的方法，其中，

所述样品包括复杂混合物。

9.根据权利要求8所述的方法，其中，

所述复杂混合物包括细胞裂解物。

10.根据权利要求1所述的方法，其中，

所述蛋白质形式值包括质量值。

11.根据权利要求10所述的方法，其中，

所述质量值包括单同位素质量值。

12.根据权利要求1所述的方法，其中，

所述未知微生物种类选自由细菌、酵母和真菌组成的组。

13.根据权利要求1所述的方法，还包括，

提供与用户最佳匹配的所述候选微生物种类的鉴定。

14.根据权利要求13所述的方法，其中，

所述鉴定包括分数。

15.一种用于进行根据权利要求1所述的方法的系统。