CN104040561B

CN104040561B - 通过质谱术和分数规整识别微生物的方法

Info

Publication number: CN104040561B
Application number: CN201280058681.6A
Authority: CN
Inventors: 格里高利·施特鲁贝尔; 莫德·阿尔萨克; 丹尼斯·戴瑟利; 皮埃尔-吉恩·科特-帕塔特; 皮埃尔·马希
Original assignee: Biomerieux Inc
Current assignee: Biomerieux Inc
Priority date: 2011-12-02
Filing date: 2012-11-30
Publication date: 2018-06-05
Anticipated expiration: 2032-11-30
Also published as: JP2015509182A; JP6027132B2; US20140343864A1; CN104040561A; EP2600284A1; IN2014KN01139A; EP2798575A1; ES2665551T3; EP2798575B1; WO2013080169A1; US20200118805A1; US10546735B2

Abstract

本发明涉及通过微生物的质谱从由一组参考数据表示的参考微生物中识别微生物，所述识别包括：根据质谱确定微生物的一组数据；对于每种参考微生物，计算所确定的一组数据和参考的一组数据之间的距离，根据关系式计算概率f(m)：其中：m为针对参考微生物计算的距离；N(m|_μ,σ)是针对m，当微生物是参考微生物时，模拟待识别的微生物和参考微生物之间的距离的随机变量的值；是针对m，当微生物不是参考微生物时，模拟待识别的微生物和参考微生物之间的距离的随机变量的值；及p是在0到1的范围内的标量。

Description

通过质谱术和分数规整识别微生物的方法

技术领域

本发明涉及通过质谱术识别微生物，尤其是细菌。

背景技术

已知使用质谱术来识别微生物，尤其是细菌。制备微生物的样本，在此之后获取和预处理样本的质谱，特别是消除基线和消除噪声。然后，检测预处理的频谱的峰值，且这样获得的峰值的列表利用从峰值列表构建的知识库的数据，通过分类工具被“分析”和“比较”，所述每一个峰值列表与已识别的微生物或微生物群(血统、类、族等)相关。

在分类工具中，“一对多”类型的SVM(“Support Vector Machine”)分类是已知的(以下简称“SVM-UTC”)。“一对多”SVM分类包括对于类的集合的每一类对象，确定将该类与集合中的其他类分开的定向边界。如此获得与集合中的类一样多的“一对多”分类符。未知对象的识别则包括通过计算未知对象和与所述分类符相关联的边界之间的代数距离来查询每个分类符。通常，未知对象被确定为属于与最大计算出的距离相关联的类。

这个原理被示意性地示于图1和图2，其中示出了能够仅由质谱中的两个峰值识别的3种微生物的非常简单的情况，例如3种微生物的质谱的最高强度的两个峰值。第一微生物的特征在于位于值m₁₁的第一峰值和位于值m₁₂的第二峰值(图1A)，第二微生物的特征在于位于值m₂₁的第一峰值和位于值m₂₂的第二峰值(图1B)，而第三微生物的特征在于位于值m₃₁的第一峰值和位于值m₃₂的第二峰值(图1C)。

SVM-UTC分类包括，首先，获得每种微生物的一组训练质谱和确定每个质谱中的两个有关的峰值的位置，以形成一组训练矢量p₁是第一峰值的测量位置，p₂是第二峰值的测量位置。由于测量的不确定性，矢量的值的散布可以观察到。在第二步骤，计算将与该微生物相关的一组矢量与和另外两种微生物相关联的矢量分离的边界。三个边界F1、F2和F3如此获得，如示于图2的，并设置有例如用虚线箭头指示的方向。

未知微生物的识别包括获取一个或多个微生物质谱，从中推导出测量峰值的矢量M，并计算该矢量M到每个定向边界F1、F2和F3的代数距离，也被称为“范围”。因此，例如等于的代数距离矢量被获得。在非常简单的图示的情况下，因此可以推断，未知微生物是第二微生物。

当然，这里所示的例子是非常简单的。在实际中，微生物必须从数百种微生物中识别，能够超过实质上1,000个峰值的许多峰值被保留用于该识别。另外，图示的情况也很简单，因为微生物彼此距离非常远，且已经以足够的精度进行了测量，以便能够从距离推断出重要的信息。

在实际情况中，很难或甚至不可能直接推断出关于到边界的所计算的距离的有关信息。事实上，距离值可以对应于非常不同的情况。图3A到3D以简单的方式示出了该原理。这些图显示了将与第一微生物相关的训练峰值矢量(用圆圈表示)和与其他微生物相关的其他训练峰值矢量(用三角形表示)分开的边界F₁。待识别的未知微生物的测量峰值的矢量M用正方形表示。

在图3A示出的情况下，测量矢量M到边界F₁的距离是正的。然而，矢量M与第一微生物的训练矢量的集合相距如此远，以致不能肯定推断出未知微生物实际上是第一微生物。在图3B所示的情况下，测量矢量M现在接近训练矢量的集合，但是也非常接近其他训练矢量的集合。在这种情况下，就很难推断未知微生物是第一微生物。在图3C所示的情况下，测量矢量M距边界F1较远，并且靠近训练矢量的集合而且在该集合的边界处。虽然这种情况比前面的情况更有利，但仍然不确定待识别的微生物属于哪一种微生物。特别有必要研究测量的精度。最后，图3D所示的情况是罕见的典型情况，其中所测量的矢量远离边界并且位于训练矢量的集合中。测量的距离则是表征第一微生物的值且可信赖。

如可以观察到的，计算出的距离仅是部分相关的。例如，在第一种情况下，距离等于0.4是高度相关的，而在另一种情况下，不可能从中推断出任何东西。因此，有必要分析这些距离来从中推断未知微生物的类型、以及该识别所具有的可信度。这种额外的分析步骤传统上由作为生物学家或医生的操作员进行，其根据他/她的专业技能确定可以从由分类工具计算出的距离得出什么结论。

已对SVM型矢量分类作了描述，其计算矢量空间的两个对象之间的代数距离，所述对象即对应于待识别的微生物的矢量和对应于将空间(在图示的例子中，)分割为两个子空间的边界的超平面。关于这种类型的分类讨论的问题的类型也出现在其它类型的分类中，只要它们产生表示到参考对象的距离的值或分数，不管其是否是SVM类型的分类，或是否是更一般的矢量类型的分类，例如贝叶斯分类、线性分类、基于神经网络的分类、容差距离分类等。

在一定程度上，可能会争辩，通过质谱术和计算距离值的分类工具仍然不存在用于识别微生物的可靠工具。

发明内容

本发明的目的是通过基于质谱测量和分类工具提供用于识别微生物的算法来解决上述问题，这使得能够更可靠地识别微生物。

为了这个目的，本发明的一个目标是通过质谱术从一组预定的参考微生物中识别微生物的方法，每一种参考微生物由一组参考数据表示，所述方法包括：

根据所述微生物的质谱测量结果确定表示待识别的所述微生物的一组数据；及

对于每种参考微生物，计算所确定的一组数据和所述参考微生物的一组参考数据之间的距离。

根据本发明，该方法包括：根据以下关系式计算待识别的所述微生物为所述参考微生物的概率：

其中：

m为针对所述参考微生物计算的距离；

f(m)是针对所述距离m计算的概率；

N(m|μ,σ)是对于距离m，当待识别的所述微生物是所述参考微生物时，模拟与待识别的微生物相关的一组数据和所述参考微生物的一组参考数据之间的距离的随机变量的值；

是对于距离m，当待识别的所述微生物不是所述参考微生物时，模拟与待识别的微生物相关的一组数据和所述参考微生物的一组参考数据之间的距离的随机变量的值；及

p是在0到1的范围内的预定的标量。

“一组参考数据”是指从分类工具的意义上表征参考微生物的数据。例如，对于SVM-UTC分类，与参考微生物相关联的参考数据对应于矢量空间的超平面，其将矢量空间划分为两个子空间。

“一组代表数据”是指用于从所选择的分类工具的意义上表征待识别的微生物的数据。例如，通过SVM-UTC分类，这些数据是形成矢量空间中的矢量的检测到的峰值的列表。

换句话说，本发明适用于任何类型的分类。如本身已知的，分类产生距离，其是度量到参考要素的距离的客观量。根据本发明，这些距离根据“S形”-型定律被变换成介于0和1之间的归一化的概率。因此，这些概率本身是彼此可比较的客观量，并且因此是未知微生物与先前识别的微生物的“相似性”的真实度量。

根据一个实施方式，随机变量N(m|μ,σ)和是高斯随机变量，且具有分别等于μ和的平均值，及分别等于σ和的标准差。更具体地，根据以下关系式计算概率：

有利地，如果逻辑关系式被验证，其中表示“异或”，则对于大于的任何距离m，所述概率被设置为1。

有利地，如果逻辑关系式没有被验证，其中表示“异或”函数，则对于小于的任何距离m，所述概率被设置为0。

根据一个实施方式，标量p对于所有参考微生物是相同的。更具体地，p等于其中N是一组参考微生物的数目。作为变型，标量p等于0.5。

根据本发明的一个实施方式，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施矢量分类算法。

更具体地，

对所述微生物的质谱的确定包括：

获取所述微生物的至少一个质谱；

检测所述至少一个获取的质谱中的峰值并将所检测到的峰值转换为预定的矢量空间中的矢量，

且对所述微生物和每种参考微生物之间的距离的计算包括计算所确定的矢量和边界之间的代数距离，所述边界将所述矢量空间划分为表征所述参考微生物的第一子空间和表征其他参考微生物的第二子空间。

特别地，参考微生物的边界是通过“支持矢量机”型的算法和对应于所述参考微生物的一组矢量来计算的。

作为一个变型，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施容差距离算法。

根据一个实施方式，所述矢量是通过识别在所述质谱的质量-电荷比的范围中的预定的细分的每个区间中的至多一个峰值来计算的。

附图说明

在阅读以下结合附图仅作为示例提供的描述后，本发明将被更好地理解，在附图中，相同的标号表示相同或相似的元件，其中：

图1A、1B和1C是具有分别表征3种微生物的两个峰值的质谱的例子；

图2是示出了通过“一对多”SVM算法获得图1A、1B、1C的微生物的三个边界的图；

图3A至3D是示出从被测试个体到SVM型边界的4个距离的图；

图4是根据本发明的方法的流程图；

图5是示出根据从微生物到SVM型边界的距离确定两个随机变量的图；

图6是示出两个高斯分布和从中获得的概率函数的图；

图7和8是示出根据本发明的缺乏能够出现在概率函数中的单调性的图；

图9是示出根据本发明的强迫概率函数单调的结果的图；

图10和11是示出本发明所解决的通过分类工具难以识别的情况；及

图12是示出了根据现有技术的从待识别的质谱到超质谱的容差距离的图。

具体实施方式

现在将结合图4的流程图描述根据本发明的基于SVM-UTC分类的方法。

该方法开始于步骤10，其为获得一组训练质谱和例如通过MALDI-TOF(“Matrix-assisted laser desorption/ionization time of flight”)质谱待被集成到知识库中的新识别的微生物的一组校准质谱。MALDI-TOF质谱本身众所周知并且将不会在下文进一步详细描述。可以例如参考Jackson O.Lay’s文献,"Maldi-tof spectrometry ofbacteria"，质谱期刊,2001,20,172-194页。然后对获得的质谱进行预处理，特别是将它们去噪和去除它们的基线，这本身是已知的。

然后在步骤12执行对存在于所获得的质谱中的峰值的识别，例如，通过基于检测局部极大值的峰值检测算法。因而产生每个获得的质谱的峰值列表，其包括质谱峰值的位置和强度。

有利地，峰值在预定的汤姆森范围[m_min；m_max]被识别，优选汤姆森范围[m_min；m_max]＝[3,000；17,000]。事实上，已经观察到，足以识别微生物的信息包含在质量-电荷比的该范围内，并且因此不需要考虑更大的范围。

在步骤14，该方法进行量化或“分级”的步骤。为了实现这一点，范围[m_min；m_max]被分成例如具有不变宽度的区间，每个区间包括几个峰值，单个峰值被保持，有利地是具有最高强度的峰值。因而针对每个测量质谱产生矢量。该矢量的每一个分量对应于一个量化区间，并具有一个值，其为保持在该区间中的峰值的强度，值“0”表示没有在该区间内检测到峰值。

作为一个变型，通过在峰值出现在相应的区间中时将矢量的分量的值设置为“1”，及在没有峰值出现在该区间中时将矢量的分量的值设置为“0”，矢量被“二值化”。该结果使得随后进行的分类算法校准更具有鲁棒性。本发明人确实已经注意到尤其与识别细菌相关的信息本质上包含在峰值的不存在和/或存在中，并且强度信息是不太相关的。可以进一步观察到强度从一个质谱到另一个质谱和/或从一个质谱仪到另一个质谱仪是高度可变的。由于这种变化性，难以在分类工具中考虑原始强度值。

同时，训练质谱峰值矢量，以下称为“训练矢量”，和校准质谱峰值矢量，以下称为“校准矢量”，存储在知识库中。对于记录在知识库中的每种微生物，因此有训练矢量的第一集合和校准矢量的第二集合

在下一步骤16，对于知识库的每种微生物j，计算该微生物的训练矢量的集合和其他微生物的校准矢量的集合之间的边界F_j。边界F_j是通过SVM-UTC分类算法计算的。这个算法是常规的，进一步的细节可以参考例如R.-E.Fan,K.-W.Chang,C.-J.Hsieh,X.-R.Wang和C.-J.Lin.的文献"LIBLINEAR:A Library for Large LinearClassification",Machine Learning Research杂志9(2008),1871-1874页。编码该算法的软件例如在网址http://www.csie.ntu.edu.tw/～cjlin/liblinear可访问到。

然后，该方法包括：确定函数f_j，其将到边界F_j的代数距离变换为与和该边界F_j相关联的微生物j的相似度。这种变换背后的原理是将微生物j到其相关联的边界F_j的距离视为第一随机变量N_j(m|μ_j,σ_j)，将其它微生物到这个边界的距离视为第二随机变量然后确定从0变到1的单调函数f_j，其分离两个随机变量N_j(m|μ_j,σ_j)和

因此，在步骤18，对于知识库的每种微生物j，该方法基于校准矢量和识别这两个随机变量N_j(m|μ_j,σ_j)和利用与用于计算边界F_j的训练矢量不同的校准矢量避免了过度训练的现象，其可能不利地影响识别的稳健性和准确性。当然，也可以使用训练矢量计算函数f_j。

采用图1和图2的例子，其中微生物可通过质谱的两个峰值的位置来识别，这些随机变量的计算示于图5，其示出微生物j的校准矢量其通过边界F_j与知识库中的其它微生物的校准矢量分离。

首先，计算微生物j的每个校准矢量和边界F_j之间的距离m_i,j，以及知识库的其它微生物的每个校准矢量和所述边界F_j之间的距离

然后，模拟微生物j和它的边界F_j之间的距离的随机变量N_j(m|μ_j,σ_j)根据距离m_i,j的集合被识别，且模拟其它微生物和边界F_j之间的距离的随机变量基于距离的集合被识别。

有利的是，所选择的随机变量模型是高斯分布。根据下列关系式，随机变量N_j(m|μ_j,σ_j)和因此可以写成：

其中m是到边界F_j的距离，为微生物j的校准矢量的数量，及是知识库的其它微生物的校准矢量的总数。

在步骤20，该方法计算每种微生物j的概率函数f_j，其分离分布N_j(m|μ_j,σ_j)和如图6所示。

更具体地讲，函数f_j满足关系式：

其中p_j是与关于微生物j的普遍性的先验信息相关的预定的设置参数。

如果事件“距离m对应于微生物j”与事件“距离m对应于与微生物j不同的微生物”具有相同的权重，则参数p_j例如等于0.5。根据这个假设，认为如果m与两个分布等距，则质谱为参考微生物j的概率为1/2，并且相应地是N-1个其它参考微生物中的任何一种的概率为其中N是记录在知识库中的微生物的数量。

作为一个变型，参数p_j等于其中N是记录在知识库中的微生物的数量。根据这个假设，认为如果m与两个分布等距，则质谱为任何一种参考微生物的概率相等。

如图6所示，概率函数f_j是至少在包含分布N_j(m|μ_j,σ_j)和的大部分的距离区间上单调的函数，并且其通过采取S形的形式从0增加到1。特别地，对于的高值，该函数等于0，而对于N_j(m|μ_j,σ_j)的高值，该函数等于1。

函数f_j实际上表示到边界F_j的距离为m的微生物是微生物j的可能性。更具体地说，其表明当距离m被观察到时，函数f_j对应于被测试的微生物是微生物体j的概率p(s|m)，根据关系式7的函数f_j对应于根据下列关系式的概率p(s|m)：

其中p(s)是获得微生物j的概率的先验分布，即，它的普遍性，p(m|s)是微生物j的距离m的可能性，并且是其它微生物的距离m的可能性。因此，根据本发明，p(s)＝p_j、p(m|s)＝N_j(m|μ_j,σ_j)及

虽然在图6中讨论的分布的情况是标准的，函数f_j有时可能在分布的端部不单调，如图7和8所示。

实际上，所选择的分布模型N_j(m|μ_j,σ_j)和可能并不准确，或用于生成校准值和的样本的数目可能是有限的，并且因此引起分布参数的不确定性，或者也可能生成异常的距离值，例如，由于测量的不确定性。

具体地讲，根据诸如在关系式(1)到(6)中定义的一般定律计算的变换为概率的函数f_j可能不单调。具体地，两个正态分布N_j(m|μ_j,σ_j)和具有经常非常不同的标准差σ_j和与微生物j的无代表性的相关的分布通常比微生物j的存在代表性的分布N_j(m|μ_j,σ_j)更窄。这常常转化为函数f_j在所有距离的非单调性质，特别是对于分布的“向左”距离转化为函数f_j的上升，如示于图7和图8的。

例如在图7中，对于待识别的微生物和与知识库的第375号微生物相关联的边界F₃₇₅之间的距离m₃₇₅等于-2，没有特定的测量，第375号微生物的函数f₃₇₅等于1。这意味着待识别的微生物是第375号微生物的概率接近100％，虽然与此相反，所测量的微生物是第375号微生物的实际概率似乎非常低。此外，存在其他函数f_j，对于待识别的微生物到与微生物j相关的边界F_j的距离m，该函数的值为正，因此相关联的概率比0大很多。例如，在图8中，待识别的微生物的概率f₃₇₅(m₃₇₅)，与其到知识库的第1515号微生物的边界F₁₅₁₅的距离m₃₇₅相关，等于0.9，即，该概率比与第375号微生物相关的概率低，而待识别的微生物实际上似乎是第1515号微生物。被识别为第1515号微生物的可靠性从而应该大于与第375号微生物相关的可靠性。

虽然，在现实中，不大可能获得在函数f_j的端部测量的距离，在这样的行为可能存在的情况下，函数f_j被有利地确定为保持其单调的特性。

应当指出，在这方面，高斯分布由于其计算的简单性而被有利地选择，并且可能在某些情况下由这样的选择导致的非单调行为不是关键的。的确，采用高斯曲线具有产生具有可分析预测的行为的函数f_j的优点。因此，可以根据关系式(7)修改函数f_j以保证最终在所有距离上的单调行为。

更具体地说，它表明对于基于高斯分布的函数f_j，可以只存在具有根据以下关系式的值的单一的局部最小值：

有利地，所述方法进行步骤22，其中使函数f_j为单调的。更具体地说，设置如下：

对于任何m≤e，如果或等价地则f_j(m)＝0 (11)

对于任何m≥e，如果逻辑关系是真的，则f_j(m)＝1 (12)

其中是“异或”逻辑函数的符号。

步骤22的应用例如示出在图9中，其中图7中示出的函数f₃₇₅对于比值e短的任何距离被迫为零值，因此函数f₃₇₅现在在所有的距离上是S型单调函数。

在步骤22结束时，根据本发明的分类工具从而被校准。SVM-UTC分类工具的边界F_j以及概率函数f_j存储在知识库中。

知识库被包含在通过质谱术识别微生物的系统中，该系统包括质谱仪，例如，MALDI-TOF质谱仪；以及数据处理单元，其连接到质谱仪且能够接收和处理获取的质谱以识别未知微生物。

更具体地，对于未知微生物的识别，所述方法包括获取其一个或多个质谱的步骤24、预处理所获得的质谱的步骤26、以及检测质谱的峰值并确定峰值矢量V_m的步骤28，诸如例如先前结合步骤10至14所描述的。

在下一步骤30，计算矢量V_m到每个边界F_j的距离m_j，之后，在步骤32，各个距离m_j被变换为相应的概率f_j(m_j)。

在第一变型中，概率f_j(m_j)根据公式(1)、(2)和(7)被数值计算，即，根据以下类型的关系式：

在此变型中，通过施行数值指数函数，彼此独立地计算分子和分母。然而，当微生物具有远离两个高斯分布的平均值μ_j和的距离m_j时，所产生的数值指数函数的风险近似为0，这将导致针对值f_j(m_j)的0/0型的不确定。

根据第二变型，根据以下关系式(14)计算概率：

从数学角度，关系式(13)严格等价于关系式(14)。然而，关系式(14)对于数值逼近更具有鲁棒性，甚至支持无限值的距离，而不会造成任何不确定。

在函数f_j被迫为单调的情况下，关系式(11)和(12)也适用。

然后按递减的顺序对概率f_j(m_j)分类。如果没有超过给定的阈值，则例如认为没有识别。相反，如果一个或几个超过给定的阈值，则在步骤34，它们和相关的微生物的列表被例如显示在识别系统的显示器上。例如，3种微生物的列表和它们的f_j(m_j)的对应值被显示，f_j(m_j)的对应值直接对应微生物识别可具有的可靠性。

图10和图11示出了本发明解决的、通过分类工具特别难以识别微生物的情况。图10是示出对应于知识库的第325号生物体的高斯分布N₃₂₅(m|μ₃₂₅,σ₃₂₅)和以及其相关联的函数f₃₂₅的图，及图11是示出对应于知识库的第59号生物体的高斯分布N₅₉(m|μ₅₉,σ₅₉)和以及它们的函数f₅₉的图。待识别的微生物到第59号微生物的边界F₃₂₅的距离m₃₂₅等于-1.1，而待识别的微生物到第325号微生物的边界F₃₂₅的距离m₃₂₅等于-0.9。

根据现有技术，其基于距离的直接比较，没有额外的分析，因而得出结论，待识别的微生物是第325号微生物。现在，如果仔细观察分布，可以看出，待识别的微生物实际上没有机会为第325号微生物，而它具有较高的概率为第59号微生物。仅有额外的分析，基于负责识别的人的专业技能，能够从所测量的距离得出结论，被识别的微生物实际上是第59号。

根据本发明，根据概率的距离变换使得能够解决这种类型的复杂情况。事实上，函数f₃₂₅(m₃₂₅)是零，这意味着待识别的微生物是第325号微生物的概率是零，而函数f₃₂₅(m₃₂₅)为正，在这里等于0.52，表示待识别的微生物以52％的可靠性是第59号微生物。

有利地，根据本发明的方法还允许判断未知微生物是否是知识库的参考微生物之一。的确，值f_j(m)代表该微生物与参考微生物的相似性测量结果。因此，如果值f_j(m)较低，则可以判定该未知微生物不类似于任何一种参考微生物，并且因此不能在知识库中得到参照。

更具体地，根据本发明的方法包括将每个值f_j(m)与预定的阈值s_j进行比较的步骤，例如，对于所有参考微生物是唯一的或对于它们中的每一个具有特定值，并且如果值f_j(m)都低于它们各自的阈值，则判定该参考微生物不对应于知识库中的任何一种参考微生物。

有利地，使用了单一的阈值s_j，该值等于60％。本发明人确实观察到，该值使得能够肯定确定未知微生物不包含在知识库中。

有利地，所述方法还返回接近的值f_j(m)，例如，彼此的差异小于10％的最大值f_j(m)。

虽然根据本发明的方法能够解决较大数量的导致分类符(基于分类符确定概率函数f_j)问题的棘手情况，不过存在许多这样的情况，其中根据本发明的方法对于不同的参考生物体返回类似的结果，尤其是当参照微生物非常相似时，例如，在表型方面。值f_j(m)即为微生物之间的相似性的测量结果，根据本发明的方法因而使得对于本质上类似的、分类器无法以最小余量区分的参考微生物能够返回具有实质上接近的值的结果。

描述了高斯分布用于模拟随机变量N_j(m|μ_j,σ_j)和的本发明的一个具体实施方式。

其他类型的随机变量当然是可能的，用于获得相关的分布模型。例如可以选择高斯函数的混合体，以考虑分布中可能存在的几种形式。高斯函数是有利的，因为它们的识别是很简单的，且已经观察到这样的模拟虽然不完善，但能够获得具有鲁棒性的概率函数f_j。

同样地，描述了其中使用的分类工具是一对多的SVM算法的实施方式。

当然，本发明并不限于这种类型的算法，并且适用于任何类型的分类算法，特别适用于通过“一对多”或“多对多”类型的二元分类的组合而获得的多类分类算法，例如，只要分类算法产生表示到参考对象的距离的值或分数，其不是直接的可靠性指标。

如本身已知的，不管考虑的分类算法是哪一种，始终存在相对于表示每种参考微生物的数据计算出的分数或距离，根据本发明的方法可以以其为基础。

特别地，本发明涉及计算与参考元素的相似性的分类算法，诸如在文献EP 1 253622中描述的例如平均质谱或“超质谱”。

在文献EP 1 253 622 B1描述的算法中，也称为“超质谱”的“合成背景质谱”(REF)被构建，且每个对应于被视为最典型的给定物种的峰值列表。为了通过质谱识别微生物，该测量谱与存储在知识库中的所有超质谱的“相似性”被计算。这种相似性可以例如是整合了质量容差的距离，诸如Jaccard或Hamming距离。

特别地，如果SSp1是由质量M_i的列表和相关的重量W_i的列表形成的超质谱，且Sp1是与在待识别的微生物的质谱中检测到的峰值相关联的质量M'_j的列表，则根据以下关系式，SSp1和Sp1的之间的相似性或者容差距离被计算，其本身为已知的：

其中d是两个质量之间接受的相对容差。

根据现有技术，对应于具有最强的相似性的超质谱的生物体被保留作为识别，这种相似性值被直接用作结果可具有的可靠性的测量结果。现在，根据已用于构建超质谱的峰值的选择，物种的所有质谱与它们的超质谱(REF)的平均相似性并不一定是相同的。因此，在图12所示的例子中，虽然质谱Sp1与3个超质谱A、B、C等距离，但应理解的是，它实际上为物种A的概率比它为物种B的概率低，如从样本质谱的分布清楚看出的，这些分布已被用作构建超质谱的基础。本发明使得能够归一化所获得的相似性，从而提高这种模糊性。

Claims

1.一种识别方法，用于通过质谱术从一组预定的参考微生物中识别微生物，每一种参考微生物由一组参考数据表示，所述方法包括：

根据待识别的微生物的质谱测量结果，确定表示所述微生物的一组数据；及

对于每种参考微生物，计算所确定的一组数据和所述参考微生物的所述一组参考数据之间的距离，

所述方法特征在于该方法包括：根据以下关系式计算所述待识别的微生物为所述参考微生物的概率：

其中：

m为针对所述参考微生物计算的距离；

f(m)是针对所述距离m计算的概率；

N₁是对于距离m，当待识别的微生物是所述参考微生物时，模拟与所述待识别的微生物相关的一组数据和所述参考微生物的一组参考数据之间的距离的随机变量的值；

N₂是对于距离m，当待识别的微生物不是所述参考微生物时，模拟与所述待识别的微生物相关的一组数据和所述参考微生物的一组参考数据之间的距离的随机变量的值；及

p是在0到1的范围内的预定的标量。

2.根据权利要求1所述的识别方法，其特征在于随机变量N₁和N₂是高斯随机变量N(m|μ,σ)和且具有分别等于μ和的平均值，及分别等于σ和的标准差。

3.根据权利要求2所述的识别方法，其特征在于，所述概率根据以下关系式计算：

<mrow> <mi>f</mi> <mrow> <mo>(</mo> <mi>m</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mn>1</mn> <mo>-</mo> <mi>p</mi> </mrow> <mi>p</mi> </mfrac> <mi>exp</mi> <mrow> <mo>(</mo> <mi>l</mi> <mi>n</mi> <mo>(</mo> <mfrac> <mi>&sigma;</mi> <mover> <mi>&sigma;</mi> <mo>&OverBar;</mo> </mover> </mfrac> <mo>)</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <mn>2</mn> <msup> <mrow> <mo>(</mo> <mi>&sigma;</mi> <mover> <mi>&sigma;</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </mfrac> <mo>&lsqb;</mo> <mo>(</mo> <mrow> <mi>&sigma;</mi> <mo>-</mo> <mover> <mi>&sigma;</mi> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> <mi>m</mi> <mo>-</mo> <mo>(</mo> <mrow> <mover> <mi>&mu;</mi> <mo>&OverBar;</mo> </mover> <mi>&sigma;</mi> <mo>-</mo> <mi>&mu;</mi> <mover> <mi>&sigma;</mi> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> <mo>&rsqb;</mo> <mo>&lsqb;</mo> <mo>(</mo> <mrow> <mi>&sigma;</mi> <mo>+</mo> <mover> <mi>&sigma;</mi> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> <mi>m</mi> <mo>-</mo> <mo>(</mo> <mrow> <mover> <mi>&mu;</mi> <mo>&OverBar;</mo> </mover> <mi>&sigma;</mi> <mo>+</mo> <mi>&mu;</mi> <mover> <mi>&sigma;</mi> <mo>&OverBar;</mo> </mover> </mrow> <mo>)</mo> <mo>&rsqb;</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>.</mo> </mrow>

4.根据权利要求2所述的识别方法，其特征在于，如果逻辑关系式被验证，其中表示“异或”函数，则对于大于的任何距离m，所述概率被设置为1。

5.根据权利要求3所述的识别方法，其特征在于，如果逻辑关系式被验证，其中表示“异或”函数，则对于大于的任何距离m，所述概率被设置为1。

6.根据权利要求2所述的识别方法，其特征在于，如果逻辑关系式没有被验证，其中表示“异或”函数，则对于小于的任何距离m，所述概率被设置为0。

7.根据权利要求3所述的识别方法，其特征在于，如果逻辑关系式没有被验证，其中表示“异或”函数，则对于小于的任何距离m，所述概率被设置为0。

8.根据权利要求1至7中的任一项所述的识别方法，其特征在于，标量p对于所有参考微生物是相同的。

9.根据权利要求8所述的识别方法，其特征在于，标量p等于其中N是所述一组参考微生物的数目。

10.根据权利要求1至7中的任一项所述的识别方法，其特征在于，标量p等于0.5。

11.根据权利要求8所述的识别方法，其特征在于，标量p等于0.5。

12.根据权利要求1-7、9和11中的任一项所述的识别方法，其特征在于，对质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算通过以下方式实施：

确定所述微生物的质谱包括：

获取所述微生物的至少一个质谱；

检测至少一个所获取的质谱中的峰值并将所检测到的峰值转换为预定的矢量空间中的矢量，以及

对所述微生物和每种参考微生物之间的距离的计算包括计算所确定的矢量和边界之间的代数距离，所述边界将所述矢量空间划分为表征所述参考微生物的第一子空间和表征其他参考微生物的第二子空间。

13.根据权利要求8所述的识别方法，其特征在于，对质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算通过以下方式实施：

确定所述微生物的质谱包括：

获取所述微生物的至少一个质谱；

14.根据权利要求10所述的识别方法，其特征在于，对质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算通过以下方式实施：

确定所述微生物的质谱包括：

获取所述微生物的至少一个质谱；

15.根据权利要求12所述的识别方法，其特征在于参考微生物的所述边界是通过“支持矢量机”型的算法和对应于所述参考微生物的一组矢量来计算的。

16.根据权利要求13所述的识别方法，其特征在于参考微生物的所述边界是通过“支持矢量机”型的算法和对应于所述参考微生物的一组矢量来计算的。

17.根据权利要求14所述的识别方法，其特征在于参考微生物的所述边界是通过“支持矢量机”型的算法和对应于所述参考微生物的一组矢量来计算的。

18.根据权利要求12所述的识别方法，其特征在于，所述矢量是通过识别在所述质谱的质量-电荷比的范围中的预定的细分的每个区间内的至多一个峰值来计算的。

19.根据权利要求13-17中的任一项所述的识别方法，其特征在于，所述矢量是通过识别在所述质谱的质量-电荷比的范围中的预定的细分的每个区间内的至多一个峰值来计算的。

20.根据权利要求1-7、9、11和13-18中的任一项所述的识别方法，其特征在于，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施根据以下关系式的容差距离算法：

<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>S</mi> <mi>S</mi> <mi>p</mi> <mn>1</mn> <mo>/</mo> <mi>S</mi> <mi>p</mi> <mn>1</mn> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>&Sigma;</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> <mo>,</mo> <mo>&Exists;</mo> <msubsup> <mi>M</mi> <mi>j</mi> <mo>&prime;</mo> </msubsup> <mo>,</mo> <mfrac> <mrow> <mo>|</mo> <mrow> <msubsup> <mi>M</mi> <mi>j</mi> <mo>&prime;</mo> </msubsup> <mo>-</mo> <msub> <mi>M</mi> <mi>i</mi> </msub> </mrow> <mo>|</mo> </mrow> <msub> <mi>M</mi> <mi>i</mi> </msub> </mfrac> <mo><</mo> <mi>d</mi> </mrow> <mrow> <mo>&Sigma;</mo> <msub> <mi>W</mi> <mi>i</mi> </msub> </mrow> </mfrac> </mrow>

其中，SSp1是由质量M_i的列表和相关的重量W_i的列表形成的超质谱，且Sp1是与在待识别的微生物的质谱中检测到的峰值相关联的质量M'_j的列表，d是两个质量之间接受的相对容差。

21.根据权利要求8所述的识别方法，其特征在于，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施根据以下关系式的容差距离算法：

22.根据权利要求10所述的识别方法，其特征在于，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施根据以下关系式的容差距离算法：

23.根据权利要求12所述的识别方法，其特征在于，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施根据以下关系式的容差距离算法：

24.根据权利要求19所述的识别方法，其特征在于，对所述质谱的确定和对所获取的质谱和每种参考微生物之间的距离的计算实施根据以下关系式的容差距离算法：

25.根据权利要求1-7、9、11、13-18和21-24中的任一项所述的识别方法，其特征在于所述方法包括：

将每个概率f(m)与预定的阈值进行比较；及

如果所有概率f(m)比所述阈值小，则确定所述待识别的微生物不对应于所述参考微生物中的任何一种。

26.根据权利要求8所述的识别方法，其特征在于所述方法包括：

将每个概率f(m)与预定的阈值进行比较；及

27.根据权利要求10所述的识别方法，其特征在于所述方法包括：

将每个概率f(m)与预定的阈值进行比较；及

28.根据权利要求12所述的识别方法，其特征在于所述方法包括：

将每个概率f(m)与预定的阈值进行比较；及

29.根据权利要求19所述的识别方法，其特征在于所述方法包括：

将每个概率f(m)与预定的阈值进行比较；及

30.根据权利要求20所述的识别方法，其特征在于所述方法包括：

将每个概率f(m)与预定的阈值进行比较；及

31.根据权利要求25所述的识别方法，其特征在于，所述阈值等于60％。

32.根据权利要求26-30中的任一项所述的识别方法，其特征在于，所述阈值等于60％。

33.一种用于通过质谱术识别微生物的装置，包括：

质谱仪，其能够产生待识别的微生物的质谱；

计算单元，其能够通过实施根据前述任一项权利要求所述的方法来识别与由所述质谱仪产生的所述质谱相关的微生物。