CN107533593A

CN107533593A - 用于通过质谱法从参考亚群的集合中鉴定未知微生物亚群的方法

Info

Publication number: CN107533593A
Application number: CN201680023818.2A
Authority: CN
Inventors: M·阿萨克; P-J·科特-帕塔特; V·吉拉德; V·莫南
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2015-04-24
Filing date: 2016-04-21
Publication date: 2018-01-02
Anticipated expiration: 2036-04-21
Also published as: CN107533593B; FR3035410A1; JP2018513382A; FR3035410B1; WO2016185108A1; EP3286678A1; US11562165B2; US20190049445A1; JP6611822B2

Abstract

一种用于通过质谱法来鉴定参考亚群的集合中的未知微生物亚群的方法，包括基于获取的被鉴定为属于群的亚群的微生物的学习谱的至少一个集合来对每个相关联的亚群构建一个知识库和一个分类模型的步骤，并且包括：o构建调整模型，允许基于各个亚群共有的参考质荷比来校正获取的谱的质荷比偏移，o调整学习谱的所有的峰列表的质荷比。o基于经调整的学习谱来对每个亚群构建一个分类模型和相关联的知识库。

Description

用于通过质谱法从参考亚群的集合中鉴定未知微生物亚群的方法

技术领域

本发明涉及通过谱测定法对微生物(特别是细菌)进行分类的领域。本发明特别适用于通过质谱法，例如基质辅助激光解吸/电离飞行时间质谱法(MALDI-TOF MS)，来鉴定(identification)微生物。

背景技术

已知使用谱测定法或谱学来鉴定微生物，具体而言鉴定细菌。为此，制备待鉴定的未知微生物的样品，然后获取样品的质谱并进行预处理，具体地是去除噪声、平滑信号并减去基线。然后执行检测所获取的谱中存在的峰的步骤。然后使用与从参考峰列表构建的知识库的数据相关联的分类工具来对如此获得的谱的峰进行分类，每个列表与一种鉴定的微生物或一个鉴定的微生物群(菌株、类、目、科、属、种等)相关联。

更准确地说，通过分类对微生物的鉴定通常包括：

●第一步骤，通过监督学习方法依据预先已知其群、更具体而言预先已知其种的微生物的所谓的“学习”质谱来构建与知识库相关联的分类模型，分类模型和知识库一起定义了区分这些各个群的规则；

●第二步骤，通过以下步骤来鉴定特定的未知微生物：

o获取后者的质谱；以及

o针对获取的谱应用与相关联的知识库相关的分类模型(即，预先构建的模型和知识库)，以便确定该未知微生物所属的至少一个群，更具体地而言所属的一个种。

通常，基于质谱分析法的鉴定装置包括质谱仪和用于处理信息的计算机单元，计算机单元部分地或完全集成到质谱仪中或通过通信网络(例如，一个或多个个人计算机、服务器、印刷电路板、数字信号处理器(或DSP)、以及通常能够接收数据、储存它们、处理它们并产生作为输出的经处理的数据(例如，为了将其储存在计算机存储器中和/或将其在屏幕上显示)的任何基于微处理器的系统，该系统本身可以包括负责处理特定数据并在其中通信的一个或多个基于微处理器的单元)连接到后者，接收测量的谱并实施上述第二步骤。这样的鉴定装置例如是申请人出售的TM。第一步骤是由构建知识库和分类模型并在客户开发之前将其集成到机器中的装置制造商所实施的部分。此外，某些装置允许它们的用户更新其自身的知识库和相关联的分类模型。

为了通过MALDI-TOF谱测定法获取样品的质谱，所述样品被沉积在包括各个接收位置的支持器上，该支持器也称为板。然后用允许样品结晶的基质来覆盖样品。

在使用中，必须定期校准基于质谱法的鉴定装置，以便保证在经分析的谱中预期的质荷比的测量的准确度和精度。存在两种常规技术，并且它们被常规地执行以便保证这些参数。

外部校准是在大多数质谱装置上常规执行的技术。对于该技术，将标准混合物(或外部校准物)沉积在与样品在板上的位置分开的位置，该板将样品保持在装置中。外部校准包括调整其成分已知的标准混合物的质谱的质荷比轴(m/z轴)，以使得观察到的峰与其理论位置一致，参考峰列表对应于针对这一标准物预先定义的特征性质荷比。在外部校准中，以预期位置的给定公差，在标准混合物的谱的峰列表中寻找与这些特征性质荷比相对应的参考峰的存在。然后根据每个发现的参考质荷比的观察到的位置重新对准标准混合物的谱。随后，将为了重新对准标准混合物的谱而应用的变换应用于待分析样品的谱，以便重新对准其在m/z轴上的位置。

该方法的优点是可以对非常少量的样品起作用，而不会有信号抑制的风险。然而，外部校准的精度不足以对微生物进行分类，特别是在物种级别以下的分类级别。

内部校准用于获得最大测量精度。除了外部校准之外，可以使用该技术，以便在谱的质荷比的位置上实现更高的精度。这种校准方法被描述成是内部的，因为在获取之前将标准混合物(或内部校准物)并入待分析的样品中。在MALDI-TOF谱测定的背景下，在样品和标准物上沉积基质(α-氰基-4-羟基肉桂酸(α-HCCA)等)以便使它们共结晶。因此，在对获得的质谱的分析中，标准混合物的化合物的已知质荷比的指定允许计算校准常数。然后使用这些常数来计算未知化合物的质荷比。然而，该方法的主要缺点是由于标准混合物的浓度过高，存在于样品中的分析物离子的信号具有被抑制的风险。在通过胰蛋白酶消化制备生物样品的方法的背景下，与胰蛋白酶相对应的质荷比的位置也可以用作内部校准物。

已知通过MALDI-TOF谱测定法鉴定微生物的某些物种或亚种需要所获得的谱的高精度以区分相似物种的群。更特别地，类似物种的区别以及在亚种水平或菌株水平(不同血清型的菌株，不同病原体的菌株，不同基因型的菌株等)的微生物的鉴定众所周知是复杂的。具体来说，这些亚群具有非常相似的谱，使得利用为群级别(例如，下一个更高的分类级别)的鉴定而开发的知识库和分类算法来区分它们是不可能的。这个限制特别是由于通过质谱装置实现的分辨率，还由于在给定装置上和不同装置之间获取的谱的可变性。例如，可以在用给定样品获取的多个谱的峰的位置之间观察到偏移。例如，可以在针对被沉积在样品支持器的单个位置或多个位置中的样品所获取的谱中看到该偏移。这种可变性导致质荷比测量的不确定性。虽然这并不妨碍群级别的鉴定，但是它可以阻碍在低于群的级别(例如，亚群(典型地在低于微生物的种的级别))的鉴别。

发明内容

本发明的目的是通过提高所获取的质谱的峰的位置的精度来降低该可变性。

本发明的目的是还提供一种不修改现有样品制备方法并且能够直接与现有方案一起使用的方法，即尤其不需要额外的内标或外标的方法。

本发明的另一个目的是提供一种在群级别的鉴定之后允许亚群级别的微生物鉴定的方法。

因此，本发明的一个主题是在已经鉴定相同微生物的群之后通过质谱法鉴定未知微生物的亚群的方法。

为此，本发明涉及通过质谱法来鉴定参考亚群的集合中的未知微生物亚群的方法，包括：

●第一步骤，基于被鉴定为属于所述群的微生物的学习谱的集合来对每个相关联的群构建一个知识库和一个分类模型；

●第二步骤，基于获取被鉴定为属于群的所述亚群的微生物的学习谱的至少一个集合，对每个相关联的亚群构建一个知识库和一个分类模型，该第二步骤包括：

o构建调整模型，允许基于各个亚群共有的参考质荷比来校正所获得的谱的质荷比偏移，

o调整学习谱的所有的峰列表的质荷比，

o基于经调整的学习谱来对每个亚群构建一个分类模型和相关联的知识库，

●第三步骤，将未知微生物分类到亚群，该第三步骤包括：

o获取未知微生物的至少一个谱，

o根据所述每个群分类模型和所述每个群知识库，将所述谱分类到群中，

o根据调整模型来调整所述谱的所有的峰列表的质荷比，允许校正未知微生物的谱的质荷比偏移，

o利用所述每个亚群分类模型和所述每个亚群知识库分类到所述群的亚群中。

因此，本发明允许直接在已经鉴定未知微生物的群之后，通过质谱法鉴定同一微生物的亚群(亚种、菌株类型等)，所有这些都是在无需第二次获取包含未知微生物的样品的质谱且无需添加内标的情况下实现的。

因此，本发明对于质荷比的精度具有与使用内标相同的效果，并且允许向质谱分析装置的用户提出与简单的群级鉴定相同的常规操作模式。此外，本发明证明在开发亚群级知识库和例程地分类未知微生物所需的时间以及削减内标或外标的附加成本方面特别经济。根据本发明的方法的大多数步骤也是可自动化的，以便限制构建分类模型和相关联的知识库及例程地分析未知微生物所需的介入次数。

按群和亚群，是指在构建知识库中使用的参考微生物类型的树形式的分层表示，例如在进化和/或表型和/或基因型方面。亚群级别总是对应于群的子集。在细菌的情况下，该群因此可以是常规分析技术意义上的物种，亚群于是可以是该群的亚种甚至该群的特定表型。然而，群也可以由不能用常规分析技术区分的多个物种组成，对应于亚群的每个因此可以对应于这些物种中的一个或多个物种。

有利地，可以执行基于在调整步骤中的至少一个之后获得的调整的质量来优化参考质荷比的列表的步骤。

可以基于预先知道的或根据在群的每个亚群中的峰的存在频率的统计标准推导的质荷比来鉴定和选择各个亚群共有的参考质荷比。

为此，根据本发明的方法可以包括由以下各项组成的步骤：

●离散化每个亚群的每个谱的质荷比的空间，

●根据公差因子检测在由离散化步骤定义的质荷比周围的峰的存在或不存在，

●根据每个亚群的峰的存在频率，过滤所述质荷比，

●逼近保留的质荷比的位置。

离散化步骤可以有利地针对相对于在获取谱后获得的质荷比的区间(interval)被限制的质荷比的区间而执行。该逼近步骤可以有利地包括寻找代表存在于每个保留的质荷比周围的峰的位置分布的位置。

因此，该方法的参考质荷比的鉴定可以基于对为了构建亚群的知识库而获取的谱的峰的存在频率的统计分析，二者都相关于分类模型的开发及其常规使用。

有利地，该方法包括为每个相关联的亚群构建一个知识库和一个分类模型的步骤：

●构建第二调整模型，允许基于各个亚群共有的参考质荷比来校正所获取的谱的质荷比偏移，

●第二步骤，基于第二调整模型，调整学习谱的所有的峰列表的质荷比。

有利地，该方法包括以下步骤：在为每个相关联的亚群构建一个知识库和一个分类模型的步骤中调整质荷比的步骤中的至少一个步骤之后对调整进行控制。

可以利用所谓的鲁棒估算方法来有利地获得调整模型的参数。

有利地，通过包括以下各项的步骤来选择各个亚群共有的已知参考质荷比：

●根据公差因子检测参考质荷比周围的峰的存在或不存在，

●根据每个亚群的峰的存在频率过滤所述质荷比和/或逼近保留的参考质荷比的位置。

有利地，为每个相关联的亚群构建一个知识库和一个分类模型的步骤包括离散化所获取的谱的质荷比的步骤。

有利地，为每个相关联的亚群构建一个知识库和一个分类模型的步骤包括处理所获取的谱的强度的步骤。

有利地，为每个相关联的亚群构建一个知识库和一个分类模型的步骤包括控制所获取的谱的质量的步骤。

根据一个实施例，质谱法是MALDI-TOF谱测定法。

本发明的另一主题是一种用于通过质谱法来鉴定微生物的设备，包括：

●质谱仪，能够产生待鉴定微生物的质谱；

●计算机系统，能够通过实施如前述权利要求中任一项所述的方法来鉴定与质谱仪所产生的质谱相关联的微生物。

●质谱仪，能够获取待鉴定的微生物的至少一个质谱；

●计算机系统，能够鉴定与质谱仪所获取的至少一个质谱相关联的微生物，所述系统包括：

-计算机存储器，所述计算机存储器储存以下各项：

o微生物的每个群的一个知识库和一个分类模型；

o微生物的每个亚群的一个知识库和一个分类模型；

o调整模型，用于基于具有每个亚群知识库和分类模型的各个亚群共有的参考来校正质谱仪所获取的谱的质荷比偏移；

o计算机指令，用于基于所获取的质谱来产生峰列表；

o计算机指令，用于根据所述每个群分类模型和所述每个群知识库取决于产生的峰列表将微生物分类到群中；

o计算机指令，用于根据所述调整模型来调整峰列表；

o计算机指令，用于根据所述每个亚群分类模型和所述每个亚群知识库取决于经调整的峰列表将微生物分类到亚群中；

-基于微处理器的计算机单元，用于实施被储存在计算机存储器中的计算机指令，以便将微生物分类到群和亚群中；

-用于储存分类的结果的计算机存储器，和/或用于显示分类的结果的显示屏幕。

计算机系统部分地或完全地集成到谱仪中，或者通过通信网络连接到后者，通信网络可以是或者不是无线的。该系统例如包括一个或多个个人计算机、服务器、印刷电路板、数字信号处理器(或DSP)，并且通常是能够接收数据、储存它们、处理它们并产生作为输出的经处理的数据(例如，为了储存在计算机存储器中和/或在屏幕上显示)的基于微处理器的系统，系统本身可以包括负责处理特定数据并在其中通信的一个或多个基于微处理器的计算机单元。例如，第一计算机单元被集成到谱仪中，并负责预处理测量的信号(例如，将飞行时间信号转换成质荷比信号，允许获得质谱的所有或一些处理和/或允许从待获得的质谱导出峰列表的所有或一些处理)，并且例如具有更多大量计算资源的第二远程计算机单元连接到第一计算机单元，以便执行剩下的处理从而鉴定微生物。这例如可以是提供云计算类型服务的第二计算机单元的问题。计算机存储器例如是大容量储存设备(例如，硬盘)。

用于根据本发明鉴定微生物的设备还储存实施上述第三分类步骤所需的数据和指令。

例如，数据(知识库、分类模型、调整模型等)和指令被包含在已经具有用于实施本发明的可用计算机资源的现有技术鉴定设备中。特别地，本发明由包括申请人所出售的MS的鉴定系统来实现。

附图说明

通过阅读以下参照附图仅以举例的方式给出的描述，将更好地理解本发明，在附图中：

■图1是根据本发明的方法的流程图；

■图2是根据本发明的方法的步骤100的流程图；

■图3a是根据本发明的方法的步骤200的流程图；

■图3b是根据本发明的方法的步骤240的流程图；

■图3c是根据本发明的方法的步骤300的流程图；

■图3d是根据本发明的方法的步骤400的流程图；

■图4是具有每个峰的频率的给定群的每个亚群A至E的图表，所述峰是从对应于区间5330Th-5410Th中的所述亚群的谱获得的；

■图5a至5i是以三个逼近(approximate)质荷比的三次迭代的迭代计算的示例的图表；

■图6是每个亚群的残数的中值、每个亚群的残数的四分位区间和每个亚群A到F的峰的存在频率两个质荷比Alpha和Beta的图表；

■图7a和7b是根据本发明的第一调整和第二调整的结果的图表；

■图8a和8b是根据本发明的第一调整和第二调整的结果的图表；

■图9a和9b是根据本发明的第一调整和第二调整的结果的图表；

■图10a和10b是根据本发明的关于调整精度的结果的图表；

■图11a和11b是根据本发明的关于调整精度的结果的图表；

■图12是微生物-亚群级别的鉴定结果的图表。

具体实施方式

现在将参照图1的流程图描述根据本发明的方法。

该方法包括根据被鉴定为属于群的微生物的学习谱的集合来对每个所述群构建一个知识库和一个分类模型的第一步骤100。通常，该步骤可以以多种方式执行，目的是为一个或多个给定的群获得知识库和分类模型，使得可以基于所获得的谱的峰列表来确定未知微生物的质谱是否属于所述群。除了在下面描述并由谱仪实施的步骤110之外，步骤100通过计算实施，例如，通过一个或多个个人计算机、服务器、印刷电路板、数字信号处理器(或DSP)、以及通常能够接收数据、储存它们、处理它们并产生作为输出的经处理的数据(例如，为了储存在计算机存储器中和/或在屏幕上显示)的任何基于微处理器的系统，该系统本身可以包括负责处理特定数据并在其中通信的一个或多个基于微处理器的单元。

在图2中详细描述了该第一步骤100的实施例的示例。因此，步骤100可以从步骤110开始，步骤110为通过MALDI-TOF(基质辅助激光解吸/电离飞行时间(Matrix-assistedlaser desorption/ionization time-of-flight)的首字母缩写)质谱法获取被鉴定为属于一个群的一个或多个微生物的学习质谱的集合和外部校准质谱。MALDI-TOF质谱法本身是公知的，因此下面将不再详细描述。读者可以例如参考文献Jackson O.Lay的“Maldi-tofspectrometry of bacteria”，Mass Spectrometry Reviews，2001，20，172-194。然后对所获得的谱进行预处理，特别是以便以本身已知的方式对它们进行降噪、平滑它们、或者如有需要甚至去除其基线。

获取质谱可以包括用激光器在支持器上的样品的一个或多个位置处若干次照射在考虑中的样品。获得的谱于是由通过求和、计算平均值、计算中值或旨在加权每次照射的每个谱的强度的贡献以形成“合成”谱的任何其它方法获得的“合成”谱组成。本身公知的这种照射累积特别地允许提高信噪比，同时限制由于样品、装置、由于执行获取的条件等引起的不可重复效应的影响。

然后，在120中执行检测存在于所获取的谱中的峰的步骤，例如通过基于局部最大值检测的峰值检测算法。因此，针对每个获取的谱产生峰列表，所述列表包括谱的峰的位置(也称为质荷比值)和强度。

有利地，在预设范围[m_min；m_max]thomson(Th)中检测峰，优选地在范围[m_min；m_max]＝[3000；17000]thomson中检测峰。具体地，已经观察到，在该质荷比的范围中包含足够的信息来鉴定微生物，因此不需要考虑更大的范围。

该方法继续至步骤130，即基于所获取的校准质谱的外部校准的步骤。该外部校准在于调整成分已知的参考样品的质谱的m/z轴，以使得观察到的峰与其理论位置一致。例如，大肠杆菌菌株可以用作外标，用于检测偏差并校正质荷比的偏移。对于该校准物，将预先定义对应于特征性质荷比的参考峰列表。在该校准步骤中，在谱的峰列表中寻找对应于这些特征性质荷比的参考峰的存在，其中，预期位置具有给定的公差。然后根据观察到的位置重新对准谱。用于将所获取的校准物峰与参考峰重新对准的变换将随后用于重新对准样品的谱的峰。

根据该步骤130的实施方式的一个示例，对于每个获取群(例如，如由申请人出售的MS装置的获取支持器上的4x4位置)，将校准大肠杆菌菌株(ATCC 8739)沉积在为所述获取群的校准保留的位置。一旦获取了校准菌株的谱，就会以在峰的预期位置周围0.07％的公差寻找对应于大肠杆菌的特征性质荷比的11个参考峰的存在。如果在预期的位置区间中发现11个中的至少8个峰，则重新对准校准菌株的谱的峰以反映其参考位置。用于将所获取的校准物峰与参考峰重新对准的变换，例如一阶或二阶的多项式变换，随后将用于重新对准获取群的所有其它位置的谱的峰。

可选地并且为了预防起见，如果未达到检测到的参考峰的最小数量，例如如果检测到少于8个特征性质荷比，则可以停止获取操作。也可以将预期参考峰的位置附近的公差增大到0.15％。在这种情况下，如果以新的增大的公差检测到至少5个特征性质荷比，则优选首先重新对准校准物谱的峰，然后以0.07％的初始公差寻找较大数量的参考峰。如果发现较大数量的峰，则使用所确定的变换将谱的峰第二次重新对准。

构成获取群的其它样品的峰的获取、预处理和检测也可以在校准步骤之后进行，将所确定的变换应用于与样品的谱相对应的峰列表。可替换地，步骤130可以由以下步骤构成或补充：基于与获取步骤110中的样本混合的校准物的内部调整的步骤。

在校准步骤130之后，根据本发明的方法可以包括控制所获取的谱的质量的步骤140和/或离散化质荷比的步骤150和/或处理谱的强度的步骤155。执行这些步骤140、150、155的顺序可以变化。

可选地，该方法从而继续至步骤140，即控制所获取的谱的质量的步骤。例如，可以检查所鉴定的峰的数量是否足够，过低数量的峰不允许使用所获得的谱来分类考虑中的微生物，而过高的数量可能是噪声标志。此外，也可以在控制谱的质量的这个步骤中进行基于检测到的峰的强度的测试。

在步骤130和可选的步骤140之后，可以执行离散化质荷比或者将质荷比分段(binning)的步骤150。为此，[m_min；m_max]thomson范围被细分成其宽度区间或其宽度的区段例如是恒定的或在对数尺度上是恒定的。对于包括多个峰的每个区间，可以保留单个峰，有利地具有最高强度的峰。因此，该方法用于对准谱并减少质荷比的位置的轻微误差的影响，所获得的对准与离散区间的大小直接相关。因此，从测量的谱的峰的每个列表产生较短的列表。列表的每个组成对应于离散化的区间，并且具有为该区间保留的峰的强度的值，值“0”表示在该区间中没有检测到峰。

在步骤130、任选地步骤140和任选地步骤150之后，还可以执行处理谱的强度的步骤155。强度是从一个谱到下一个谱和/或从一个谱仪到下一个谱仪变化很大的量。由于这种变化性，在分类工具中难以使用原始强度值。因此，该步骤可以在离散化质荷比之前或在步骤150之后针对原始谱执行。该步骤可以特别地包括阈值化强度的步骤，低于阈值的强度被认为是零并且保留高于阈值的强度。作为一种变型，当峰高于阈值或存在于对应的离散化区间中时，可以通过将列表的分量的值设置为“1”，并且当峰低于阈值时或当在该离散化区间中没有峰时将列表的分量的值设置为“0”，来将通过该阈值化或随后的离散化步骤获得的强度列表“二值化”。可替换地，所获得的强度列表根据对数尺度变换，当在该区间中不存在峰时或当峰低于阈值时，该分量的值被设置为“0”。最后，可以对每个强度列表进行归一化(其是原始的、阈值化的、“二值化的”或根据对数尺度变换的)。

有利地，强度列表根据对数尺度被变换，然后被归一化。这具有使随后进行的分类算法的学习更加鲁棒的效果。

根据这些峰列表，其中的每一个对应于被鉴定为属于一个群的微生物的学习谱，该方法继续在步骤160中为每个群创建一个知识库，并且在步骤170中为每个群创建一个分类模型。知识库包含分类模型的参数以及与用于学习的每种微生物的群有关的信息，并允许将未知微生物分类到学习微生物的群中。

基于已知的监督分类算法，如最近邻法、逻辑回归、判别分析、分类树、“LASSO”或“弹性网”类型的回归方法、SVM算法(SVM代表“支持向量机”)，在步骤170中为每个群建立一个分类模型。

在图1中，该方法继续至步骤200，该步骤为基于被鉴定为属于在前群和该群的亚群的微生物的学习谱的集合，为每个亚群构建一个知识库和一个分类模型。除了下面描述并由谱仪实施的步骤210之外，步骤200通过计算实现，例如，通过一个或多个个人计算机、服务器、印刷电路板、数字信号处理器(或DSP)、以及通常能够接收数据、储存它们、处理它们并产生作为输出的经处理的数据(例如，以储存在计算机存储器中和/或在屏幕上显示)的任何基于微处理器的系统，该系统本身可以包括负责处理特定数据并在其中通信的一个或多个基于微处理器的单元。

在图3a中详细描述了步骤200。该步骤200包括获取210其群和亚群已知的微生物的至少一个谱，并且针对每个所述亚群如此进行。该获取步骤以与步骤110类似的方式进行。因此，预处理获取的谱，以便尤其对其进行降噪、平滑其、或者如有需要甚至去除其基线。该方法继续至步骤220，该步骤为以类似于步骤120的方式鉴定谱的峰，以与步骤130类似的方式对每个谱进行内部或外部校准，以及可选地以类似于步骤140的方式控制其质量。

优选地，步骤210可以直接与该方法的步骤110同时执行，以便限制在获取步骤中所需的手动步骤的数量。步骤110和210于是由获取已知其群和亚群的微生物的谱的单个步骤组成。以相同的方式，然后与步骤120和130以及可任选的步骤140同时执行步骤220。

在步骤220之后，其群和亚群已知的微生物的谱随后以峰列表集合的形式表示，每个峰列表对应于其群和亚群已知的一种微生物。

基于这些峰列表，该方法继续至步骤230，该步骤为构建调整模型，以允许校正所获取的谱的质荷比偏移。该构建步骤230首先包括鉴定和选择各个亚群共有的参考质荷比的步骤。具体来说，对于该群的各个亚群不是共有的质荷比将是判别质荷比，因此基于该质荷比的调整模型将是有偏差的。理想情况下，这些质荷比对于各个亚群是共有的，并且确定在谱中不包含紧邻的峰，以便获得具体表征该群的质荷比的列表。

根据第一替代方案240，根据统计标准推导出各种亚群所共有的这些参考质荷比。

如图3b所示，这些参考质荷比可以具体通过以下步骤获得：

●离散化感兴趣的质荷比的范围的第一步骤241。

该步骤可以针对相对于在获取之后获得的质荷比区间被限制的峰列表的质荷比区间而进行，该区间已知包含微生物的大部分特征性质荷比，例如在从3000延伸到17000Th的质荷比范围上进行该步骤。在这个区间的基础上，后者被离散化为：

o规则的质荷比区间(例如，1Th)

o或者增大的质荷比区间。

因此获得与离散化后获得的所有质荷比相对应的集合

{m(i)}；i＝1，....，I

每个值m(i)通过被称为离散化间距的质荷比区间与值m(i+1)分隔。

定义了限定每个质荷比m(i)周围的区间的公差因子t₁。为了该方法按照其应当的方式地工作，应该注意到，所选择的离散化必须至少保证由公差因子t₁定义的从一个质荷比到下一个质荷比的区间的重叠，理想地是区间的宽度一半的重叠。因此，为了不舍弃对于亚群特征性的并因此对调整有用的质荷比，小的离散化间距相对于过大的离散化间距是优选的。因此，小的离散化间距允许限制信息的丢失。

保证从一个质荷比到下一个质荷比的区间的重叠的一种方式是用以下公式迭代地定义离散化

m(i+1)＝m(i)+t₁*m(i)

其中，t₁是公差因子，并以感兴趣的质荷比范围的最低限度初始化m(1)。因此，离散化间距等于t₁*m(i)。例如，对于公差为t₁＝0.0008的3000至17000Th的感兴趣的质荷比范围，3000Th的离散化间距为2.4Th，而17000Th的离散化间距为13.6Th。

另一个更简单的保证从一个质荷比到下一个质荷比的区间的重叠的方式是用以下公式以感兴趣的质荷比范围的最低限度定义离散化

m(i+1)＝m(i)+t₁*m(1)

例如，对于公差为t₁＝0.0008的3000至17000Th的感兴趣的质荷比范围，适用于所有质荷比范围的离散化间距为3000*0.0008＝2.4Th。

接下来是第二步骤242，根据由离散化步骤定义的每个质荷比m(i)周围的t₁来检测区间中是否存在一个或多个峰。

对于每个谱，公差t₁允许考虑在每个获取的谱中找到的质荷比的位置的不确定性。

因此，考虑中的谱的质荷比列表是

X＝{x(s)}；s＝1，....，S

并且应用于质荷比的公差因子为t₁。该操作在于在由考虑中的质荷比m(i)周围的公差所定义的区间(即，区间[m(i)-m(i)*t₁；m(i)+m(i)*t₁])中在X＝{x(s)}；s＝1，....，S中寻找峰的存在。

为了优化计算时间，可以将考虑中的区间中的峰的存在表示为1，而峰的不存在或多个峰的存在表示为0，以便获得采用以下表1形式的存在矩阵，T是获取的学习谱数量：

	亚群	m(1)	m(2)	…	m(I-1)	m(I)
							谱(1)	A	0	0	1	1
谱(2)	A	0	0		1	1
							…
谱(T-1)	B	0	1		1	1
							谱(T)	B	1	1	1	1

表1

在该矩阵的基础上，第三步骤243在于根据每个亚群的峰的存在频率对质荷比进行过滤。

为每个亚群计算由每个质荷比m(i)周围的公差(即，在离散化步骤期间定义的公差)定义的区间中峰的存在频率，并将其转换成百分比。

该步骤如图4所示。图4针对考虑中的群的每个亚群A至E示出了每个峰的频率，这些峰是从与区间5330Th-5410Th中的所述亚群相对应的谱获得的。

在下面，对于待判别的每个亚群，具有高于阈值(例如，60％)的存在百分比的质荷比m(i)被保留，该阈值由图4中的水平虚线表示。

因此在{m(i)}；i＝1，....，I中，获得了：

{m(j)}；j＝1，....，J；J≤I

的质荷比集合，这些质荷比在针对频率进行过滤的步骤之后被保留。例如，根据下面的表2，在过滤后仅保留了质荷比m(l-1)和m(l)。

表2

基于根据频率阈值过滤的这个质荷比的列表，随后的步骤244在于逼近所述保留的质荷比的位置。

保留的质荷比具有取决于步骤241中进行的离散化的大致精度。因此，执行逼近这些质荷比的位置的步骤，以便获得表示在质荷比m(i)周围存在的峰的位置的分布的位置。表示位置的这一计算可以例如包括估算表示峰的分布的高斯函数以及寻找该函数的极值的位置的步骤。另一种方法可以在于执行迭代地计算在质荷比m(i)周围存在的峰值的位置的中值的多个步骤。对于使用中值的这一方法，M(j)是质荷比的位置的理论值。如果M(j，0)＝m(j)，则使用以下算法来获得M(j，n+1)：

对于每个谱，该方法的一个步骤在于在质荷比M(j，n)周围的区间(即，区间[M(j，n)-M(j，n)*t₂；M(j，n)+M(j，n)*t₂]，其中，t₂是在质荷比M(j，n)的位置周围的公差因子，公差因子t₁的值高于或等于t₂)中存在的X＝{x(s)}；s＝1，....，S中寻找峰。

然后通过针对M(j，n)周围的区间中的所有谱计算保留的峰的值的中值来获得M(j，n+1)的值。

用于停止该优化步骤的标准可以例如是预定次数的迭代和/或基于增量的检查。

例如，在定义了预定次数的迭代的情况下：

如果N是预定义的迭代次数，则M(j)由逼近。

在该方法包括检查增量的步骤的情况下，设定ε为精确计算M(j)的公差集。一旦：

|M(j，n+1)-M(j，n)|＜ε

则迭代结束。于是，M(j)由逼近。

为了通过检查增量来确保该方法的收敛并节省该步骤所需的计算时间，也可以预先定义最大迭代次数N。

因此，为了实现本发明，优选基于预定义的迭代次数N＝3的停止标准。在图5a至5i中示出了针对三个质荷比的以三次迭代的迭代计算的示例。在图5a中，基于M(j，0)周围的峰的值计算的中值M(j，1)等于5339.6Th，并且由垂直虚线表示。在第二次迭代中，如图5d所示，因而基于M(j，1)周围的峰的值计算中值M(j，2)，然后获得等于5339.8Th的新值。在图5d中，由垂直实线表示M(j，1)，用垂直虚线表示M(j，2)。在第三次迭代中，如图5g所示，因而基于M(j，2)周围的峰的值计算中值M(j，3)，并且再次获得等于5339.8Th的值，表明该方法的收敛。在图5g中，用垂直实线表示M(j，2)，用垂直虚线表示M(j，3)。计算停止于第三次迭代，并且为5338Th的离散化所保留的质荷比保存5339.8Th的逼近值。

针对在离散化之后获得的每个理论质荷比进行三个相似步骤的计算。因此，图5b、5e和5h示出了由离散化M(j+1，0)＝m(j+1)保留的质荷比从5340Th的值到5339.8Th的M(j+1，3)的逼近值的收敛。同样地，图5c、5f和5i示出了由离散化M(j+2，0)＝m(j+2)保留的质荷比从5342Th的值到5339.8Th的M(j+2，3)的逼近值的收敛。

在逼近步骤244之后，该方法继续进行至移除相同的逼近质荷比的步骤245。

在逼近之后，获得列表因为选择初始离散化以便保证从一个质荷比到下一个质荷比的区间的重叠，所以保留的多个质荷比m(j)可以对应于相同的逼近质荷比。在这种情况下，这些质荷比的逼近取决于在对值的计算中保留的精度是相等的或几乎相等的。下面的表3具体示出了对于以2Th的离散化间距对本发明的实施的示例在区间5338至5398Th中保留的逼近质荷比的位置。

表3

因此，为每个值保留单个逼近值。

因此获得了该群的参考质荷比的新列表R＝{R(k)}；k＝1，....，K；K≤J。

根据第二替代方案250，预先知道各个亚群所共有的这些质荷比。它们可以例如基于用作群级分类的参考峰的峰列表来确定。由于已知这些峰表示群，所以在本发明的背景下它们很可能能够被用作参考质荷比。这些质荷比也可以通过质谱法或通过其它分析方法从先前的分析而获知，所述的其它分析方法允许为作为各个亚群的特征、以及因此考虑中的群的特征的分子或蛋白质确定峰的理论质荷比。

可任选地，并以改进对这些质荷比的选择为目的，可以执行步骤类似于步骤242的步骤，即检测每个已知的参考质荷比周围的公差区间中存在或不存在一个或多个峰。该步骤242之后可以执行类似于步骤243的步骤，即根据每个亚群的峰的存在频率来过滤质荷比。

为每个亚群计算由每个已知的参考质荷比周围的公差定义的区间中峰的存在频率，并将其转换为百分比。

可替换地或另外，该步骤242之后可以是类似于步骤244的步骤，即可以执行对已知的参考质荷比的位置的逼近。

一旦在步骤240或250之后获得参考质荷比的列表，该方法继续根据图3a在步骤260中调整所有的峰列表的质荷比。

对于由峰列表表示的每个谱，步骤260的目的是通过学习基于参考质荷比的位置的变换模型来调整所有峰的位置。估算该模型的参数，以使得在谱中观察到的峰尽可能地与步骤240结束时获得的参考质荷比的逼近位置一致，或者与步骤250结束时获得的参考质荷比的理论位置一致。

对于以峰列表格式的每个谱：

-X＝{x(s)}；s＝1，....，S是考虑中的谱的峰的质荷比的列表

-R＝{R(k)}；k＝1，....，K是参考质荷比的列表

-t₃是质荷比{R(k)}位置周围的公差因子，例如t₃＝0.0004。公差因子t₂的值高于或等于t₃。

对于每个参考质荷比{R(k)}，该方法在于在由质荷比{R(k)}周围的公差所定义的区间(即，区间[R(k)-R(k)*t₃；R(k)+R(k)*t₃])内存在的{x(s)},s＝1，....，S中寻找质荷比。

在某些情况下，当谱的质荷比的偏移过大或者例如当谱仅包含很少的峰时，在考虑中的区间中没有观察到峰。

观察次序是已经观察到考虑中的谱中位置x(l)处的峰的参考质荷比{R(l)}的列表。用模型R＝f(x)建模被应用于谱的质荷比的变换，模型f可能是：

●线性回归模型：

C＝β₀+β₁x；β0和β1是模型的常数

●二阶多项式回归模型：

C＝β₀+β₁x+β₂x²；β₀、β₁和β₂是模型的常数

●非参数化或非线性回归模型，例如局部回归模型，如Loess或Lowess类型或核回归模型、样条回归等。

对于本发明的实施而言，线性回归模型是优选的，以便当该模型被外推出用于估算所述模型的参数的质荷比域时，限制预测误差。例如，当所选择的参考质荷比仅覆盖感兴趣的质荷比域的子集时，或者当考虑中的谱的质荷比的偏移相对于考虑中的公差t₃过大时，就产生外推的需要。

模型的参数可以用常规最小二乘法来估算。然而，由于例如测试样品的特异性或在质荷比范围的特定区域中过大的质荷比的初始偏移，可能观察到某些质荷比的异常值。最小二乘法对异常值的存在非常敏感，即使它们数量少。为了获得不受异常点影响的参数估算，优选使用所谓的鲁棒估算方法，其允许同时求解异常点的检测和模型参数的估算的问题。因此，对于本发明的实施而言，Tukey的双权估算器是优选的，并且优选地通过使用迭代重加权的最小二乘(IRLS)算法来求解。显然可以设想出其它鲁棒的估算方法，尤其是最小平方中值(LMS)方法、最小截平方和(LTS)方法以及从M估算器类获得的任何方法，其中Tukey的双权估算器是一个具体的示例。

然后通过从参考质荷比预先学习的模型推断出谱的所有峰的调整位置。因此，质荷比的校正被外推超出用于调整的质荷比的区间：

●对于每个质荷比x(s)，以获得调整的质荷比

●谱的峰的调整位置的列表表示为

在调整步骤260之后，可选步骤265可以在于优化参考质荷比的列表，该优化基于所获得的调整的质量。这一步骤的目标是确保每个保留的参考质荷比的质量在感兴趣的各个亚群之间是相似的。

对于每个参考质荷比R＝{R(k)}；k＝1,….,K；K≤J和每个亚群：

该方法包括步骤：在由质荷比R(k)周围的公差t₃所定义的区间中对每个谱的质荷比的调整之后，计算每个亚群的峰的存在频率。这个频率形成第一指标。

在该步骤之后，该方法包括步骤：在调整参考质荷比之后，针对每个亚群计算峰的位置的差异，例如通过计算与质荷比R(k)相关联的残数(residue)的中值或平均值。这种差异形成第二指标。

随后是以下步骤：在针对参考质荷比的调整之后针对每个亚群计算峰的位置的离差，例如通过计算标准偏差、范围或甚至与质荷比R(k)相关联的残数的四分位区间。通常，计算离差的这个步骤可以用允许量化观察到的峰的位置的值的离差的任何方法进行。该离差形成第三指标。

基于该计算，步骤265继续以下步骤：基于考虑中的群的亚群之间的三个指标中的至少一个指标的非一致性来去除某些参考质荷比。

图6示出了针对两个质荷比Alpha和Beta，对以下各项的计算：

-每个亚群A至F的峰的存在频率

-每个亚群的残数的中值，其中，中值由每个箱须图内部的水平线表示

-每个亚群的残数的四分位区间，由每个箱须图的范围表示。

因此，这三个指标例如允许保留质荷比Alpha并且舍弃质荷比Beta。具体来说，质荷比Alpha具有亚群之间约100％的频率，对于每个亚群接近于0的残数的中值，和每个亚群之间相似的残数的离差。相比之下，由于对于两个亚群，峰的存在频率低于60％，对于亚群A，残数的中值超过1或-1的阈值(中值阈值被设置为1或-1(虚线))，因此应该排除质荷比Beta。此外，对于亚群A和E，残数的四分位区间明显较高。因此，对这三个标准的计算允许建立允许按照统计舍弃或保留质荷比的阈值。

然后步骤265结束于类似于步骤260的重新调整步骤，但是仅在基于考虑中的群的亚群之间三个指标中的至少一个指标的非一致性去除某些参考质荷比的步骤之后基于保留的质荷比来执行。

可任选地，步骤260或步骤265之后可以是步骤270，即学习和构建第二模型，允许在每个亚群分类的感兴趣的质荷比范围内调整质荷比。

步骤270重复步骤230，即鉴定和选择各个亚群所共有的参考质荷比，以及步骤260，即学习和构建用于调整质荷比的模型，以便基于已经经过第一调整因此具有假定较小的质荷比偏移的峰列表来构建第二调整模型。

具体来说，在步骤260之后，第一调整步骤可能导致在质荷比的相当大的初始偏移之后感兴趣的质荷比范围的特定区域内质荷比的重置的外推。可以执行学习和构建允许通过多项式回归模型(例如，二阶的)来调整质荷比的第二模型的第二步骤，以便在较大的质荷比范围中更精细地调整峰的位置。为此，重复步骤230和260甚至265，以便选择各个亚群所共有的参考质荷比的列表并在每个亚群分类的感兴趣的质荷比范围上调整所有的峰列表的质荷比。

图7a和7b示出了该第二调整步骤的优点。

图7a示出了通过针对给定亚群A的谱的线性回归模型的第一调整的结果。黑色曲线表示参考质荷比与调整之前观察到的质荷比的位置之间的差异。其部分的灰色曲线表示参考质荷比与经调整的质荷比的位置之间的差异。由于质荷比的高初始偏移，仅检测到4000Th和8000Th之间的参考质荷比。然后，将用于校正质荷比的模型外推到考虑中的谱的所有峰上的这个质荷比区间之外。线性模型的最初使用允许限制外推误差。

图7b示出了通过二阶多项式回归模型对相同谱的第二调整的结果。黑色曲线表示在参考质荷比与第一调整之后但在第二调整之前观察到的质荷比位置之间的差异。灰色曲线表示在参考质荷比与第二调整之后的质荷比位置之间的差异。应该注意，该模型已经针对3000和12000Th之间检测到的质荷比进行了调整，允许在更宽的质荷比范围上更精细地调整峰的位置。

步骤270可以可选地重复n次，以便构建第n个调整模型，从而改进谱的调整。

随后的步骤280最后在于学习和构建专用知识库，并且在随后的步骤290中，学习和构建专用分类算法，允许基于经过调整或者上述调整质荷比的步骤的谱的峰列表来辨别亚群。

一个或多个调整质荷比的步骤允许显著提高峰的位置的精度，分类算法可以是：

-基于公差距离的计算，例如等于或有利地小于群级分类的公差距离，

-基于峰的矩阵，例如通过离散化质荷比而获得的，如步骤150中所述。用于离散化质荷比的间距与群级分类的间距相同或有利地比其更精细。

可以使用任何公知的分类算法(例如，逻辑回归、判别分析、分类树、“LASSO”或“弹性网”类型的回归方法或SVM类型的算法(SVM代表“支持向量机”)。

因此，根据本发明的方法允许获得用于调整质荷比的模型，其包括参考质荷比的1到n个列表和用于调整质荷比的1到n个模型、以及专用于判别考虑中的群的亚群的分类算法和知识库。

在专用于判别群的知识库和分类算法以及专用于判别考虑中的群中的至少一个群的亚群的知识库和分类算法的基础上，该方法继续进行分类未知微生物的步骤。

该分类步骤例如由设备实施，包括：

●质谱仪，能够获取未知微生物的至少一个质谱；

●计算机系统，能够根据由质谱仪获取的一个或多个质谱来鉴定未知微生物，所述系统包括：

-计算机存储器，其至少储存：

o每个微生物群的分类模型和知识库；

o每个微生物亚群的分类模型和知识库；

o调整模型，用于校正质荷比偏移；

o计算机指令，用于基于所获取的质谱产生峰列表；

o计算机指令，用于根据所述每个群分类模型和所述每个群知识库取决于产生的峰列表将未知微生物分类到群中；

o计算机指令，用于根据调整模型来调整峰列表；

o计算机指令，用于根据所述每个亚群分类模型和所述每个亚群知识库取决于调整的峰列表将微生物分类到亚群中；

计算机存储器，用于储存分类结果，和/或显示屏幕，用于显示分类结果。

因此，该方法在图1中继续进行至每个群分类的步骤300。如上所述，该步骤基于每个群知识库以及相关联的每个群分类算法，其已经存在或者基于已经预先鉴定其群的微生物的谱的集合被构建。

根据图3c，每个群分类步骤300以步骤310开始，该步骤为获取所述未知微生物的至少一个质谱。步骤310以制备待鉴定的未知微生物的样品开始，随后通过质谱仪(例如，MALDI-TOF谱仪)获取制备的样品的一个或多个质谱。该步骤以类似于步骤110的方式进行。

在获取步骤之后，该方法继续进行步骤320，以类似于步骤120的方式检测谱的峰和以类似于步骤130的方式对这些谱的外部或内部校准330。该步骤目的在于获得允许分类到所述微生物的群中的峰的对准。如上所述，外部校准在于调整参考样品的质谱的m/z轴，参考样品的成分是已知的，并且被置于板上与样品不同的点上，以使得观察到的峰与其理论位置一致。因此，以类似于步骤130的方式执行该步骤，取决于应用于校准物的谱的变换，重新对准未知微生物的谱的峰。

在该步骤之后，该方法包括对一个或多个获得的峰列表进行分类的步骤340。为此结合相关联的每组知识库实施每组分类算法。因此，针对经分析的样品鉴定一个或多个群(科、微生物、物种等)。有利地并且为了改进每个群分类步骤，该步骤之前可以是以类似于步骤140的方式控制谱的质量的步骤，并且可选地是类似于步骤150的离散化质荷比的步骤，和/或是类似于步骤155的处理强度的步骤。

可替换地，在分析的微生物的群已知而亚群未知的情况下，可以不执行步骤340。在这种情况下，该方法直接继续进行至步骤350。

在随后的步骤350中，获得分类步骤的结果，例如以未知微生物属于一个或多个群的概率的评分等级的形式。在保留的群或保留的群中的至少一个群在每个亚群知识库中被表示的情况下，根据本发明的方法继续进行每个亚群分类步骤400。

如上所述，该步骤基于构建的每个亚群知识库以及相关联的每个亚群分类算法，它们基于预先鉴定其群和亚群的微生物的谱的集合而获得。

根据图3d，每个亚群分类步骤400因此开始于步骤410，即鉴定每个亚群知识库和每个亚群分类算法存在的群的步骤350的分类结果。例如，含有大肠杆菌物种和志贺氏杆菌属的分类群可以与分类的每个亚群知识库相关联，其分开非O157大肠杆菌(亚群A)、O157大肠杆菌(亚群B)、志贺氏杆菌物种：痢疾志贺氏杆菌(亚群C)、弗氏志贺氏杆菌(亚群D)、鲍氏志贺氏杆菌(E群)、索氏志贺氏杆菌(亚群F)等。

随后的步骤420在于：使用在步骤260之后获得的模型以及作为群的特征并在步骤240中定义的参考质荷比或者作为群的特征并在步骤250之后保留的参考质荷比来调整在步骤330之后获得的峰列表的质荷比。在已经创建第二调整模型的情况下，于是使用在步骤270之后获得的调整模型来第二调整峰列表，所使用的特征性质荷比是第二模型的。以相同的方式，在已经创建第n个调整模型的情况下，于是使用在步骤270之后获得的调整模型来第n次调整峰列表，所使用的特征性质荷比是第n模型的。

可任选地，该方法可以继续进行控制质荷比调整的质量的步骤430。为此，在一个或多个获取的谱中检测到的参考质荷比的数量(或百分比)可以被定义为必须高于给定阈值。可替换地或另外，每个参考质荷比的理论位置与调整一个或多个获取的谱中的这些质荷比后的位置之间的均方根误差(RMSE)可以定义为必须低于给定阈值。因此，均方根误差可以以常规方式用以下等式计算：

其中：

o{R(l)},l＝{1,…L}是在考虑中的谱中观察到峰的L个参考质荷比的列表。

o f是在步骤260和可选地步骤270之后获得的调整模型，

o是利用获得的调整的质荷比。

在步骤420或430之后，该方法继续进行步骤440，即基于每个亚群知识库及允许判别预先学习和定义的亚群的分类算法来分类经调整的谱。

有利地并且为了改进每个亚群分类步骤，该步骤之前可以是离散化质荷比的步骤，该步骤类似于步骤150，和/或处理强度的步骤，该步骤类似于步骤155。

在随后的步骤450中，获得每个亚群分类步骤的结果，例如以未知微生物属于一个或多个亚群的概率的评分等级的形式。

有利地利用其分类评分将每个群和每个亚群分类的结果储存在计算机存储器中和/或显示在屏幕上以供用户注意。

由大肠杆菌物种和志贺氏杆菌属形成的群的每个亚群分类的示例。

根据本发明的方法适用于大肠杆菌物种和志贺氏杆菌物种的血清群的分类。因此，该方法目的在于根据其病原性区分亚群。

该方法使用申请人出售的MALDI-TOF (bioMérieux，France)质谱仪，其包括v2.0.0每个群知识库，也称为 v2.0.0数据库。装置还包括使用多变量分类的相关联的每个群分类算法，该算法与每个群知识库相关联。在通过算法对未知微生物的谱进行分类的步骤之后获得属于每个群的评分。

因此，根据本发明的方法允许提出可以在质谱分析装置上常规地执行的两步骤(每个群，然后每个亚群)分类。首先，将鉴定群，此处是物种级分类群，并且在大肠杆菌/志贺氏杆菌群的情况下，提出第二每个亚群分类级别以从大肠杆菌种的O157血清群和大肠杆菌种的非O157血清群中区分所述群的4种志贺氏杆菌物种。

创建了第一批A的116个菌株微生物，其中大肠杆菌和志贺氏杆菌群以及亚群用常规表型和血清型分类技术鉴定。该批次将用于对每个参考亚群构建一个知识库和一个分类模型。

该批次A包含：

o形成亚群A的60株非O157大肠杆菌(参考esh-col)

o形成亚群B的8株O157大肠杆菌(参考esh-o157)

o形成亚群C的12株痢疾志贺氏杆菌(参考shg-dys)

o形成亚群D的12株弗氏志贺氏杆菌(参考shg-flx)，

o形成亚群E是12株鲍氏志贺氏杆菌(参考shg-boy)

o形成亚群F的12株索氏志贺氏杆菌(参考shg-son)

当前的装置并未区分这些116株微生物，该装置的分类算法因而将它们分类为相关联的知识库的群“大肠杆菌/志贺氏杆菌”。

为了继续至通过质谱法对批次A的微生物谱的获取，根据常规方案制备含有这些微生物的样品：

●使用液体培养基在琼脂生长培养基上培养后取样菌落

●将菌落悬浮在含有300μL脱矿质水的2mL Eppendorf管中

●加入0.9毫升的无水乙醇并混合(涡旋)

●以10000rpm离心2分钟

●使用移液管去除上清液

●加入40μL 70％甲酸并混合(涡旋)

●加入40μL乙腈并混合(涡旋)

●以10000rpm离心2分钟

●沉积1μL上清液

●干燥

●加入1μL HCCA基质

将一定量的每个菌株的每个样品沉积在旨在与装置一起使用的Maldi板上。获取以双份或四份进行。该获取使用LaunchPad V2.8软件包进行，并具有以下参数：

●线性模式

●光栅化：定期循环

●每个样品100个轮廓(profile)

●每个轮廓5次照射

●在2000至20000thomsons之间获取

●激活的自动质量参数

在获取这些谱之后，装置基于在为校准获取群而保留的位置处沉积的标准大肠杆菌菌株(ATCC 8739)的谱的获取来执行预处理和外部校准。一旦获取了标准菌株的谱，就会寻找与大肠杆菌的特征性质荷比相对应的11个参考峰的存在，在峰的预期位置周围具有0.07％的公差。如果在预期的位置区间中发现11个中的至少8个峰，则标准菌株的谱的峰将根据其参考位置被重新对准。所获得的变换用于重新对准所获取的样品的谱。

因此，与批次A的群的116个菌株相对应的总共388个谱允许创建群级知识库和相关联的分类算法。为了确认批次A的微生物没有被装置区分，并且属于MS v2.0.0数据库和相关联的算法的相同群，进行每个群分类步骤。批次A的该分类结果如下表4所示：

表4

批次A的99.7％的谱被正确地预测为属于MS v2.0.0数据库的大肠杆菌/志贺氏杆菌群。未鉴定出从弗氏志贺氏杆菌物种的一个菌株获得的单个谱，虽然质量很好。然而，为了在以下步骤中构建亚群级知识库仍保留它。

基于与批次A和大肠杆菌/志贺氏杆菌群相对应的388个谱的基础，创建亚群级知识库和相关联的分类方法。

为此，借助于两个调整模型的连续构建，在两个调整步骤中调整检测到的峰的质荷比位置。在以类似于步骤230、240和260的方式进行的第一调整步骤中，在388个谱中针对大肠杆菌/志贺氏杆菌群寻找群的预先已知的10个特征性质荷比，其位于4000和10000Th之间，并且对应于校准物的质荷比。在每个获取的谱中，这些质荷比的位置周围的公差被设定为t＝0.0005％。基于观察到的这些质荷比的位置及其理论位置，计算出线性回归模型，以便将其与其理论位置重新对准。所获得的变换也适用于每个获取的谱的所有峰。

在该第一步骤之后，借助经调整的二阶多项式-回归模型针对根据步骤240中所描述的方法统计确定的参考质荷比列表执行第二调整步骤270。为此，在第一调整步骤之后调整的每个谱在3000与6000Th之间以1Th的间距，在6000与10000Th之间以2Th的间距和在10000至20000Th之间以3Th的间距在感兴趣的质荷比范围中被离散化。因此，每个谱被离散化为8366个质荷比区间。以通过根据步骤242中所描述的方法的离散化定义的每个质荷比m(i)周围的0.0003％的公差来寻找峰的存在或不存在。由此获得的质荷比m(i)然后根据步骤243中所描述的方法依据每个亚群的峰的存在频率被过滤。因此，保留了具有每个亚群60％的最小存在频率的133个质荷比。这允许选择该群特别特征性的质荷比。

然后根据所保留的质荷比的位置的统计模型逼近这些质荷比的位置。该步骤对应于所描述的步骤244。

基于校正的位置，移除相同或几乎相同的逼近质荷比，以便保留46个独特的质荷比的列表，该列表是该群的特征。如果观察到2个质荷比之间的差异小于0.1Th，则这2个质荷比在逼近之后被认为是相同的。该步骤对应于所描述的步骤245。

表5

上面的表5示出了在质荷比的区间5338至5398Th中，所选择的质荷比在质荷比的离散空间中的位置、相同质荷比的逼近值和移除相同质荷比后保留的质荷比的最终列表。

接下来，于是基于保留的质荷比的位置，以类似于步骤270的方式执行调整步骤。允许控制和优化参考质荷比的列表的可选步骤(该步骤基于获得的调整质量)允许保留37个最终的参考质荷比的较短列表。该步骤基于例如步骤265中定义的标准。五个质荷比被移除，因为它们对于至少一个亚群具有低于60％的经调整的峰的存在百分比，或者高于1Th的残数的中值，或高于2Th的残数的四分位区间。基于这个较短的参考质荷比列表，该方法继续重新调整群的峰列表的所有质荷比。

根据图8a，该方法包括通过经调整的线性回归模型对仅在5000和10000Th之间检测到的参考质荷比进行与步骤260类似的第一调整，因为该质荷比的初始偏移高。质荷比的校正被外推超过这个质荷比区间。最初使用线性模型允许限制考虑中的谱的质荷比列表的外推的误差。根据图8b，该方法包括通过经调整的二阶多项式回归模型对在3000和12000Th之间检测到的质荷比进行与步骤270类似的第二调整，允许考虑中的谱的峰位置在较宽的质荷比范围内被更精细地调整。

图9a示出了对于一质荷比范围，在调整之前群和对应的亚群的所有谱中峰的观察到的位置。图9b示出了在第二调整之后相同峰的位置，表明执行的调整的质量以及被选择为参考质荷比的质荷比的相关性。

制造商所声称的在装置的外部校准后的精度为400ppm，即在3000Th的约1.2Th/在11000/Th的4.4Th的thomson精度。图10a的在外部校准后观察到的thomson精度给出了中值量，约为考虑中的数据集的所声称精度，即3000Th周围的质荷比的约1.2Th和11000Th周围的质荷比的约3Th。在利用根据本发明的方法对质荷比的第二调整之后(图10b)，在3000Th处的精度约为0.12Th，在11000Th处的精度约为0.44Th，即精度约为40ppm。在利用根据本发明的方法的经调整的精度的这种增加表明了所选择的参考质荷比与进行的调整的质量的相关性。

然后在步骤280和290中描述的方法之后构建专用的知识库和专用的分类算法，其允许基于经过上述调整的谱的峰列表来判别大肠杆菌/志贺氏杆菌群的亚群。

为此，构建了知识库和专用的分类算法，其允许区分以下六个亚群：

■非O157大肠杆菌，亚群A

■O157大肠杆菌，亚群B

■痢疾志贺氏杆菌，亚群C

■弗氏志贺氏杆菌，亚群D

■鲍氏志贺氏杆菌，亚群E

■索氏志贺氏杆菌，亚群F

作为示例，图11a示出了，对于包含允许将O157大肠杆菌亚群从其它亚群鉴别出来的质量的质荷比范围，在调整前的群和对应的亚群的所有谱中观察到的峰的位置。图11b示出了在第二调整之后相同峰的位置，表明可以使用公差为+/-2Th的在10139Th处的峰的存在/不存在来检测该峰不存在的O157大肠杆菌亚群。

为了验证分类模型和相关联的每个亚群知识库将微生物分类到亚群中的能力，还形成了通过常规分析方法确定的被鉴定为属于大肠杆菌/志贺氏杆菌群及其亚群的31个菌株的第二批次B。

被称为评价批次的批次B含有6种不同O血清型的31株志贺毒素大肠杆菌(STEC)：O26、O45、O103、O111、O121和O145。

样品制备方案与上述相同。为了获得根据下表6分布的62个谱的列表，每个菌株获取了两个谱。

表6

这些菌株具体地在出版物American Type Culture Collection ATCC：“Big Six”Non-o157Shiga Toxin-Producing Escherichia coli(STEC)Research Materials中被鉴定。

为了确认批次B的微生物没有被现有技术的装置和知识库区分，因此属于同一群，进行根据步骤300的每个群分类的步骤。批次B的这一分类结果在下表7中给出：

表7

通过v2.0.0知识库和分类算法将100％的谱正确地预测为属于大肠杆菌/志贺氏杆菌群。

保留批次B的所有谱用于根据步骤400评估每个亚群分类算法和知识库。

根据本发明的方法是基于预先创建的每个亚群知识库和相关联的分类算法来实现的。批次B的预期分类是非O157大肠杆菌亚群类型的结果。

为此，使用用于调整质荷比的第一和第二模型来调整在群级别分类步骤期间获得的峰列表的质荷比，这些模型已经被预先定义。

为了提高分类的性能，并且可选地，对质荷比的调整进行质量控制。为了确保每个谱的质荷比的调整的质量而定义的质量标准如下：

-对于考虑中的谱，必须在37个预定义的参考质荷比中检测到至少28个质荷比，并且每个参考质荷比的理论位置与获取的谱中这些质荷比的经调整的位置之间的均方根误差(RMSE)必须低于1。

5个谱不满足这些标准，但58个满足标准。

58个保留的谱基于知识库和分类算法被分类，允许在预先定义的亚群级别的分类。如图12所示，所有的谱以高评分被正确地鉴定为属于非O157大肠杆菌亚群。另外，在另一个亚群中获得的第二好评分非常明显地较低，这确保了分类的鲁棒性。

Claims

1.一种用于通过质谱法来鉴定参考亚群的集合中的未知微生物亚群的方法，每个亚群属于参考群的集合中的一个群，所述方法包括：

●第二步骤，基于获取被鉴定为属于所述群的所述亚群的微生物的学习谱的至少一个集合，对每个相关联的亚群构建一个知识库和一个分类模型，所述第二步骤包括针对所述参考群的集合的每个群进行以下步骤：

o构建调整模型，所述调整模型允许基于所述群的各个亚群共有的参考质荷比来校正所述群的所述亚群的学习谱的质荷比偏移，

o调整所述群的所述亚群的学习谱的所有的峰列表的质荷比，

o基于所述亚群的经调整的学习谱来对每个亚群构建一个分类模型并构建相关联的知识库，

●第三步骤，将未知微生物分类到亚群，所述第三步骤包括：

o获取所述未知微生物的至少一个谱，

o根据所述群的所述调整模型来调整所述谱的所有的峰列表的质荷比，允许校正所述未知微生物的所述谱的质荷比偏移，

o利用所述每个亚群分类模型和所述每个亚群知识库将经调整的峰列表分类到所述群的亚群中。

2.根据权利要求1所述的鉴定方法，在对每个相关联的亚群构建一个知识库和一个分类模型的步骤中包括：

●构建第二调整模型，所述第二调整模型允许基于所述各个亚群共有的参考质荷比来校正所获取的谱的质荷比偏移，

●基于所述第二调整模型来调整所述学习谱的所有的峰列表的质荷比的第二步骤。

3.根据权利要求1或2所述的鉴定方法，包括优化所述参考质荷比的列表的步骤，其基于在所述调整步骤中的至少一个调整步骤之后获得的调整的质量。

4.根据权利要求1至3中任一项所述的鉴定方法，使用所述各个亚群共有的参考质荷比的已知列表来构建调整模型。

5.根据权利要求4所述的鉴定方法，通过在于以下各项的步骤来选择所述各个亚群共有的所述已知参考质荷比：

●根据公差因子来检测在参考质荷比周围的峰的存在或不存在，

●根据所述亚群中的每个亚群的峰的存在频率来过滤所述质荷比和/或逼近保留的参考质荷比的位置。

6.根据权利要求1至5中任一项所述的鉴定方法，使用所述各个亚群共有的并且根据所述群的所述亚群中的每个亚群中峰的存在频率的统计标准推导的参考质荷比的列表来构建调整模型。

7.根据权利要求6所述的鉴定方法，通过在于以下各项的步骤来推导所述各个亚群共有的参考质荷比：

●离散化每个亚群的谱中的每个谱的质荷比的空间，

●根据公差因子检测在所述离散化步骤所定义的质荷比周围的峰的存在或不存在，

●根据所述亚群中的每个亚群的峰的存在频率来过滤所述质荷比，

●逼近保留的质荷比的位置。

8.根据权利要求7所述的鉴定方法，在相对于获取所述谱后所获得的质荷比的区间被限制的所述质荷比的区间上进行所述离散化步骤。

9.根据权利要求5至8中任一项所述的鉴定方法，所述逼近步骤在于寻找表示存在于保留的质荷比中的每个质荷比周围的峰的位置的分布的位置。

10.根据前述权利要求中任一项所述的鉴定方法，对每个相关联的亚群构建一个知识库和一个分类模型的步骤包括离散化所获取的谱的质荷比的步骤。

11.根据前述权利要求中任一项所述的鉴定方法，对每个相关联的亚群构建一个知识库和一个分类模型的步骤包括处理所获取的谱的强度的步骤。

12.根据前述权利要求中任一项所述的鉴定方法，对每个相关联的亚群构建一个知识库和一个分类模型的步骤包括控制所获取的谱的质量的步骤。

13.根据前述权利要求中任一项所述的鉴定方法，利用所谓的鲁棒的估算方法来获得一个或多个所述调整模型的参数。

14.根据前述权利要求中任一项所述的鉴定方法，对每个相关联的群构建一个知识库和一个分类模型的所述第一步骤所获取的谱直接用于对每个相关联的亚群构建一个知识库和一个分类模型的所述第二步骤，学习微生物的所述群和所述亚群是已知的。

15.一种用于通过质谱法来鉴定微生物的设备，包括：

■质谱仪，能够产生待鉴定的微生物的质谱；

■计算单元，能够通过实施前述权利要求中任一项所述的方法来鉴定与所述质谱仪所产生的所述质谱相关联的所述微生物。

16.一种用于通过质谱法来鉴定微生物的设备，包括：

■质谱仪，能够获取待鉴定的微生物的至少一个质谱；

■计算机系统，能够鉴定与所述质谱仪所获取的所述至少一个质谱相关联的所述微生物，所述系统包括：

-计算机存储器，所述计算机存储器储存以下各项：

o微生物的每个群的一个知识库和一个分类模型；

o微生物的每个亚群的一个知识库和一个分类模型；

o调整模型，用于基于具有所述每个亚群知识库和分类模型的各个亚群共有的参考来校正所述质谱仪所获取的所述谱的质荷比偏移；

o计算机指令，用于基于所获取的质谱来产生峰列表；

o计算机指令，用于根据所述每个群分类模型和所述每个群知识库取决于产生的峰列表将所述微生物分类到群中；

o计算机指令，用于根据所述调整模型来调整峰列表；

o计算机指令，用于根据所述每个亚群分类模型和所述每个亚群知识库取决于经调整的峰列表将所述微生物分类到亚群中；

-基于微处理器的计算机单元，用于实施被储存在所述计算机存储器中的计算机指令，以便将所述微生物分类到群和亚群中；

-用于储存所述分类的结果的计算机存储器，和/或用于显示所述分类的结果的显示屏幕。