JP6611822B2

JP6611822B2 - 質量分析によって不明微生物亜群を一組の参照亜群の中から同定する方法

Info

Publication number: JP6611822B2
Application number: JP2017555309A
Authority: JP
Inventors: モードアルザック，; ピエール−ジャンコッテ−パタットゥ，; ヴィクトリアジラール，; ヴァレリーモンナン，
Original assignee: Biomerieux SA
Current assignee: Biomerieux SA
Priority date: 2015-04-24
Filing date: 2016-04-21
Publication date: 2019-11-27
Anticipated expiration: 2036-04-21
Also published as: US20190049445A1; CN107533593A; EP3286678A1; FR3035410B1; WO2016185108A1; US11562165B2; JP2018513382A; FR3035410A1; CN107533593B

Description

本発明は、分光測定（ｓｐｅｃｔｒｏｍｅｔｒｙ）による微生物、特に細菌の分類の分野に関する。本発明は特に、質量分析、例えばマトリックス支援レーザー脱離／イオン化飛行時間型質量分析（ｍａｔｒｉｘ−ａｓｓｉｓｔｅｄｌａｓｅｒｄｅｓｏｒｐｔｉｏｎ／ｉｏｎｉｚａｔｉｏｎｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔｍａｓｓｓｐｅｃｔｒｏｍｅｔｒｙ：ＭＡＬＤＩ−ＴＯＦＭＳ）による微生物の同定に適用可能である。

分光測定または分光法（ｓｐｅｃｔｒｏｓｃｏｐｙ）を使用して微生物、より詳細には細菌を同定することは知られている。そのために、同定する不明微生物（ｕｎｋｎｏｗｎｍｉｃｒｏｏｒｇａｎｉｓｍ）の試料を調製し、次いで試料の質量スペクトルを取得し、取得したスペクトルを前処理する。特に、雑音を除去し、信号を平滑化し、ベースラインを差し引く。次いで、取得したスペクトル中に存在するピークを検出するステップを実行する。次いで、このようにして得たピークを、分類ツールを使用して分類する。この分類ツールは、参照ピークのリストから構築された知識ベース（ｋｎｏｗｌｅｄｇｅｂａｓｅ）のデータに関連づけられており、それぞれのリストは、同定された１種類の微生物または同定された１つの微生物群（ｇｒｏｕｐ）（株、綱、目、科、属、種など）に関連づけられている。

より正確には、この分類による微生物の同定は従来、
・群、より具体的には種が予め分かっている微生物の「学習」質量スペクトルと呼ばれるものに依存する知識ベースに関連づけられた分類モデル（ｃｌａｓｓｉｆｙｉｎｇｍｏｄｅｌ）を、教師あり学習法（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｍｅｔｈｏｄ）によって構築する第１のステップであり、この分類モデルと知識ベースとが協力して、これらのさまざまな群を識別する規則を定義する第１のステップと、
・特定の不明微生物を同定する第２のステップであり、
○特定の不明微生物の質量スペクトルを取得すること、
○不明微生物が属する少なくとも１つの群、より具体的には不明微生物が属する１つの種を決定するために、取得したスペクトルに、関連知識ベースに関する分類モデルを適用すること、すなわち予め構築されたモデルおよび知識ベースを適用すること
によって特定の不明微生物を同定する第２のステップと
からなる。

質量分析に基づく同定装置は通常、質量分析計と、情報を処理し、測定されたスペクトルを受け取り、前述の第２のステップを実行するコンピュータユニット（例えば、１つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ（またはＤＳＰ）、および一般に、例えば処理されたデータをコンピュータメモリに記憶するためおよび／または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができる任意のマイクロプロセッサベースのシステム。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの１つまたは複数のユニットを備える）とを含み、このコンピュータユニットは、質量分析計に部分的にもしくは完全に組み込まれているか、または通信ネットワークを介して質量分析計に接続されている。このような同定装置は例えば、本出願の出願人によって販売されているＶｉｔｅｋ（登録商標）ＭＳである。この第１のステップは、このステップに関する限り、装置の製造業者によって実装される。製造業者は、知識ベースおよび分類モデルを構築し、顧客がそれを利用する前にそれを機械に組み込む。さらに、ある種の装置では、装置のユーザが、装置の知識ベースおよび関連分類モデルを更新することができる。

試料の質量スペクトルをＭＡＬＤＩ−ＴＯＦ質量分析によって取得するために、さまざまな受取り箇所を備えるホルダ上に前記試料を置く。このホルダはプレートとも呼ばれる。次いで、試料が結晶化することを可能にするマトリックスで試料を覆う。

使用時には、分析したスペクトル中で予想される質量対電荷（ｍａｓｓｅｓ−ｔｏ−ｃｈａｒｇｅｓ）の測定の正確さおよび精度を保証するために、質量分析ベースの同定装置を定期的に較正しなければならない。２つの従来の技法が存在し、それらの技法は、測定の正確さおよび精度を保証するためにルーチンとして実行される。

外部較正は、大部分の質量分析装置でルーチンとして実行されている技法である。この技法では、装置内に置かれた試料を保持しているプレート上の試料の箇所とは別の箇所に、標準混合物（または外部較正キャリブレーター）を置く。外部較正は、観察されるピークがそれらのピークの理論上の位置と一致するように、標準混合物の質量スペクトルの質量対電荷軸（ｍ／ｚ軸）を調整することからなる。標準混合物の内容は既知である。参照ピークのリストは、この標準に対して予め定義された特性質量対電荷に対応する。外部較正では、標準混合物のスペクトルのピークのリストの中で、これらの特性質量対電荷に対応する参照ピークの存在を、予想される位置の所与の許容差で探索する。次いで、見つかったそれぞれの参照質量対電荷の観察された位置に応じて、標準混合物のスペクトルを再整列させる。続いて、分析する試料のスペクトルのｍ／ｚ軸上における位置を再整列させるために、標準混合物のスペクトルを再調整させるために適用した変換を、分析する試料のスペクトルに適用する。

この方法は、信号が抑制される危険性がなく、非常に少量の試料でもうまく機能するという利点を有する。しかしながら、外部較正の精度は、微生物の分類、特に種レベルよりも下位の分類レベルにおける微生物の分類に対して十分ではない。

内部較正は、最大測定精度を得るために使用されている。この技法は、スペクトルの質量対電荷の位置のより高い精度を達成するために、外部較正に加えて使用されることがある。この較正方法が内部的と呼ばれるのは、スペクトルを取得する前に、標準混合物（または内部較正キャリブレーター）が、分析する試料に組み込まれるためである。ＭＡＬＤＩ−ＴＯＦ質量分析の文脈では、試料および標準混合物を共結晶化（ｃｏ−ｃｒｙｓｔａｌｌｉｚｅ）するために、試料上と標準混合物上の両方にマトリックス（α−シアノ−４−ヒドロキシ桂皮酸（α−ＨＣＣＡ）など）を置く。したがって、取得した質量スペクトルの分析では、標準混合物の化合物の既知の質量対電荷を割り当てることによって較正定数（ｃａｌｉｂｒａｔｉｏｎｃｏｎｓｔａｎｔ）を計算することができる。次いで、これらの定数を使用して不明化合物の質量対電荷を計算する。しかしながら、この方法の主な欠点は、標準混合物の濃度があまりに高いために、試料中に存在する被分析物イオンの信号が抑制される危険性があることである。トリプシン消化によって生物学的試料を調製する方法の文脈では、トリプシンに対応する質量対電荷の位置を内部キャリブレーターとして使用することもできる。

ＭＡＬＤＩ−ＴＯＦ質量分析による微生物のある種または亜種の同定では、類似の種の群を区別するために、取得されるスペクトルの精度が高いことが必要であることが知られている。より詳細には、類似の種の弁別および亜種レベルまたは株レベルにおける微生物の同定（異なる血清型の株、異なる病原型の株、異なる遺伝子型の株など）は複雑であることがよく知られている。特に、これらの亜群（ｓｕｂｇｒｏｕｐ）は、非常によく似たスペクトルを有し、そのため、群レベル、例えば次に高い分類レベルにおける同定のために開発された知識ベースおよび分類アルゴリズムを用いてそれらの亜群を弁別することは不可能である。この限界は、特に質量分析装置を用いて達成される分解能に起因するが、所与の装置上で取得されるスペクトルの変動性および異なる装置間で取得されるスペクトルの変動性にも起因する。例えば、所与の試料を用いて取得されたいくつかのスペクトルのピークの位置間にオフセットが観察されることがある。このオフセットは例えば、試料ホルダの単一の箇所または複数の箇所に置かれた試料の取得されたスペクトル中に見られることがある。この変動性は、質量対電荷測定の不確かさにつながる。この質量対電荷測定の不確かさは、群レベルにおける同定を妨げないが、亜群など、群よりも下位のレベル（通常は微生物の種よりも下位のレベル）における判別を妨げる。

本発明の目的は、取得される質量スペクトルのピークの位置の精度を向上させることによってこの変動性を小さくすることにある。

本発明の他の目的は、また既存の試料調製法を変更しない方法であって、既存のプロトコールを用いて直接に使用することができる方法、すなわち追加の内標準または外標準を特に必要としない方法を提供することにある。

本発明の目的は、群レベルで微生物を同定した後に亜群レベルで微生物を同定することができる方法を提供することにある。

したがって、本発明の１つの主題は、不明微生物の群を同定した後に同じ微生物の亜群を質量分析によって同定する方法である。

この目的のため、本発明は、質量分析によって不明微生物亜群を一組の参照亜群の中で同定する方法であって、
・前記群に属する微生物として同定された微生物の一組の学習スペクトルに基づいて、関連群ごとに１つの知識ベースおよび１つの分類モデルを構築する第１のステップと、
・その群の前記亜群に属する微生物として同定された微生物の少なくとも一組の学習スペクトルの取得に基づいて、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する第２のステップであり、
○取得されたスペクトルの質量対電荷オフセットをそれらのさまざまな亜群に共通する参照質量対電荷に基づいて補正することを可能にする調整モデルを構築すること、
○学習スペクトルの全てのピークリストの質量対電荷を調整すること、
○調整された学習スペクトルに基づいて、亜群ごとに１つの分類モデルおよび関連知識ベースを構築すること
を含む第２のステップと、
・不明微生物を１つの亜群に分類する第３のステップであり、
○不明微生物の少なくとも１つのスペクトルを取得すること、
○前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、前記スペクトルを１つの群に分類すること、
○不明微生物のスペクトルの質量対電荷オフセットを補正することを可能にする調整モデルに従って、前記スペクトルの全てのピークリストの質量対電荷を調整すること、
○前記亜群ごとの分類モデルおよび亜群ごとの知識ベースを用いて、前記１つの群の１つの亜群に分類すること
を含む第３のステップと
を含む方法に関する。

したがって、本発明は、不明微生物の群が同定された後、直接に、同じ微生物の亜群（亜種、株の型など）を質量分析によって同定することを可能にする。これは全て、不明微生物を含む試料の質量スペクトルの２回目の取得することなしに、また、内標準を追加することなしに達成される。

したがって、本発明は、質量対電荷の精度に対して、内標準の使用と同じ効果を有し、単純な群レベル同定とまったく同じルーチンの操作モードを同一の質量分析装置のユーザに提案することを可能にする。加えて、本発明は、亜群レベル知識ベースを開発するのに要する時間および不明微生物をルーチンとして分類するのに要する時間に関して特に経済的であり、内標準または外標準の追加のコストを削減する。さらに、分類モデルおよび関連知識ベースを構築するのに要する介入の数、ならびに不明微生物をルーチンとして分析するのに要する介入の数を制限するために、本発明に基づく方法のステップの大部分を自動化することができる。

群および亜群とは、知識ベースの構築において使用される参照微生物のタイプ、例えば進化および／または表現型および／または遺伝子型に関するタイプのツリーの形態の階層的表現を意味する。亜群レベルは常に群の部分集合に対応する。したがって、細菌の場合には、群が、従来の分析技法の意味で種であることがあり、亜群はおそらく、その群の亜種またはその群の特定の表現型でさえある。しかしながら、群が、従来の分析技法を用いて識別することができない複数の種からなることもあり、したがって、対応するそれぞれの亜群はおそらく、それらの種のうちの１つまたは複数の種に対応する。

有利には、参照質量対電荷のリストを最適化するステップを実行することができ、このステップは、前記調整ステップのうちの少なくとも１つの調整ステップの後に得られた調整の品質に基づく。

前記さまざまな亜群に共通する参照質量対電荷は、予め知られている質量対電荷に基づいて、または前記群のそれぞれの亜群のピークの存在の頻度の統計的基準に従って推測された質量対電荷に基づいて、同定および選択することができる。

そのために、本発明に基づく方法は、
・それぞれの亜群のそれぞれのスペクトルの質量対電荷の空間を離散化すること、
・離散化ステップによって画定された質量対電荷の付近のピークの存在または非存在を許容係数（ｔｏｌｅｒａｎｃｅｆａｃｔｏｒ）に従って検出すること、
・それぞれの亜群のピークの存在の頻度に応じて前記質量対電荷をフィルタリングすること、
・保持された質量対電荷の位置を近似すること
からなるステップを含むことができる。

有利には、離散化ステップを、スペクトルの取得の後に得られた質量対電荷の区間（ｉｎｔｅｒｖａｌ）に関して制限された質量対電荷の区間にわたって実行することができる。有利には、近似ステップが、保持されたそれぞれの質量対電荷の付近に存在するピークの位置の分布を代表する位置を探索することからなることができる。

したがって、この方法の参照質量対電荷の同定は、分類モデルの開発と分類モデルのルーチンの使用の両方に関して亜群の知識ベースの構築のために取得されたスペクトルのピークの存在の頻度の統計的分析に基づくことができる。

有利には、この方法が、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築するステップの中に、
・取得されたスペクトルの質量対電荷オフセットを前記さまざまな亜群に共通する参照質量対電荷に基づいて補正することを可能にする第２の調整モデルを構築すること、
・学習スペクトルの全てのピークリストの質量対電荷を第２の調整モデルに基づいて調整する第２のステップ
を含む。

有利には、この方法が、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築するステップの中に、質量対電荷を調整するステップのうちの少なくとも１つのステップの後に調整を制御するステップを含む。

有利には、調整モデルのパラメータを、ロバストな推定法と呼ばれる方法を用いて得ることができる。

有利には、前記さまざまな亜群に共通する既知の参照質量対電荷が、
・参照質量対電荷の付近のピークの存在または非存在を許容係数に従って検出すること、
・それぞれの亜群のピークの存在の頻度に応じて前記質量対電荷をフィルタリングし、かつ／または保持された参照質量対電荷の位置を近似すること
からなるステップを用いて選択される。

有利には、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築するステップが、取得されたスペクトルの質量対電荷を離散化するステップを含む。

有利には、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築するステップが、取得されたスペクトルの強度を処理するステップを含む。

有利には、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築するステップが、取得されたスペクトルの品質を制御するステップを含む。

一実施形態によれば、質量分析がＭＡＬＤＩ−ＴＯＦ質量分析である。

本発明の別の主題は、質量分析によって微生物を同定するデバイスであって、
■同定する微生物の質量スペクトルを生成することができる質量分析計と、
■前記請求項のいずれか一項に記載の方法を実装することによって、質量分析計によって生成された質量スペクトルに関連づけられた微生物を同定することができるコンピュータシステムと
を備えるデバイスである。

本発明の別の主題は、質量分析によって微生物を同定するデバイスであって、
■同定する微生物の少なくとも１つの質量スペクトルを取得することができる質量分析計と、
■質量分析計によって取得された前記少なくとも１つの質量スペクトルに関連づけられた微生物を同定することができるコンピュータシステムと
を備え、前記システムが、
− コンピュータメモリであり、
○微生物の群ごとの１つの知識ベースおよび１つの分類モデルと、
○微生物の亜群ごとの１つの知識ベースおよび１つの分類モデルと、
○質量分析計によって取得されたスペクトルの質量対電荷オフセットを、亜群ごとの知識ベースおよび亜群ごとの分類モデルの前記さまざまな亜群に共通する参照に基づいて補正する調整モデルと、
○取得された質量スペクトルに基づいてピークリストを作成するコンピュータ命令と、
○前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、微生物を、作成されたピークリストに応じた１つの群に分類するコンピュータ命令と、
○調整モデルに従ってピークリストを調整するコンピュータ命令と、
○前記亜群ごとの分類モデルおよび前記亜群ごとの知識ベースに従って、微生物を、調整されたピークリストに応じた１つの亜群に分類するコンピュータ命令と
を記憶したコンピュータメモリ、
− コンピュータメモリに記憶されたコンピュータ命令を実装して、微生物を１つの群および１つの亜群に分類するマイクロプロセッサベースのコンピュータユニット、
− 分類の結果を記憶するコンピュータメモリおよび／または分類の結果を表示する表示画面
を備える、デバイスである。

このコンピュータシステムは、部分的にもしくは完全に質量分析計に組み込まれているか、または通信ネットワークによって質量分析計に接続されている。この通信ネットワークは無線通信ネットワークであってもまたはそうでなくてもよい。このシステムは例えば、１つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ（またはＤＳＰ）を含み、このシステムは一般に、例えばコンピュータメモリに記憶するためおよび／または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができるマイクロプロセッサベースのシステムである。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの１つまたは複数のコンピュータユニットを備える。例えば、質量分析計に第１のコンピュータユニットが組み込まれており、この第１のコンピュータユニットが、測定された信号の前処理（例えば飛行時間信号の質量対電荷信号への変換、質量スペクトルを得ることを可能にする処理の全部もしくは一部、および／または質量スペクトルから導き出されるピークリストを得ることを可能にする処理の全部もしくは一部）を担当し、例えばより多くの実質的な演算資源を有する第２のリモートコンピュータユニットが、微生物の同定に至る残りの処理を実行するために第１のコンピュータユニットに接続されている。例えばクラウドコンピューティング型のサービスを提供するのは、第２のコンピュータユニットの問題であることがある。コンピュータメモリは例えば大容量記憶デバイス（例えばハードディスク）である。

微生物を同定する本発明に基づくデバイスはさらに、前述の分類する第３のステップを実装するのに必要なデータおよび命令を記憶している。

例えば、これらのデータ（知識ベース、分類モデル、調整モデルなど）および命令は、本発明を実施する目的に使用可能なコンピュータ資源を既に有する先行技術の同定デバイスに組み込まれている。特に、本発明は、本出願の出願人によって販売されているＶｉｔｅｋ（登録商標）ＭＳを備える同定システムによって実装される。

本発明は、添付図面を参照して以下の説明を読むことによってより完全に理解される。以下の説明は、単に例として提供される。

本発明に基づく方法の流れ図である。本発明に基づく方法のステップ１００の流れ図である。本発明に基づく方法のステップ２００の流れ図である。本発明に基づく方法のステップ２４０の流れ図である。本発明に基づく方法のステップ３００の流れ図である。本発明に基づく方法のステップ４００の流れ図である。所与の群のそれぞれの亜群ＡからＥについて、それぞれのピークの頻度を示す図である。前記ピークは、５３３０Ｔｈ〜５４１０Ｔｈの区間内において前記亜群に対応するスペクトルから得たものである。３つのおおよその質量対電荷の３反復の反復演算の例を示す図である。２つの質量対電荷アルファおよびベータについて、それぞれの亜群ＡからＦのピークの存在頻度、それぞれの亜群の剰余（ｒｅｓｉｄｕｅ）の中央値、およびそれぞれの亜群の剰余の四分位間区間（ｉｎｔｅｒｑｕａｒｔｉｌｅｉｎｔｅｒｖａｌ）を示す図である。本発明に基づく第１の調整および第２の調整の結果を示す図である。本発明に基づく第１の調整および第２の調整の結果を示す図である。本発明に基づく第１の調整および第２の調整の結果を示す図である。本発明に基づく調整の精度に基づく結果を示す図ある。本発明に基づく調整の精度に基づく結果を示す図ある。微生物亜群レベルにおける同定結果を示す図である。

次に、図１の流れ図を参照して本発明に基づく方法を説明する。

この方法は、群ごとに、前記群に属する微生物として同定された微生物の一組の学習スペクトルから、１つの知識ベースおよび１つの分類モデルを構築する第１のステップ１００を含む。一般に、このステップは、不明微生物の質量スペクトルが前記群に属するのかどうかを取得したスペクトルのピークリストに基づいて判定することを可能にする知識ベースおよび分類モデルを所与の１つまたは複数の群について得ることを目的とする多数の手法で実行することができる。分光計によって実装される後述するステップ１１０を除き、ステップ１００は、コンピュータによって、例えば１つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ（またはＤＳＰ）によって、一般に、例えばコンピュータメモリに記憶するためおよび／または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができるマイクロプロセッサベースのシステムによって実装される。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの１つまたは複数のユニットを備える。

この第１のステップ１００の一実施形態の例が図２に詳細に示されている。したがって、ステップ１００は、１つの群に属する微生物として同定された１種または数種の微生物の一組の学習質量スペクトルおよび外部較正質量スペクトルを、ＭＡＬＤＩ−ＴＯＦ質量分析によって取得するステップ１１０から始めることができる（ＭＡＬＤＩ−ＴＯＦは、Ｍａｔｒｉｘ−ａｓｓｉｓｔｅｄｌａｓｅｒｄｅｓｏｒｐｔｉｏｎ／ｉｏｎｉｚａｔｉｏｎｔｉｍｅ−ｏｆ−ｆｌｉｇｈｔ（マトリックス支援レーザー脱離／イオン化飛行時間型）の頭字語である）。ＭＡＬＤＩ−ＴＯＦ質量分析はそれ自体がよく知られており、したがって以下でより詳細に説明することはしない。読者は例えばＪａｃｋｓｏｎＯ．Ｌａｙ、「Ｍａｌｄｉ−ｔｏｆｓｐｅｃｔｒｏｍｅｔｒｙｏｆｂａｃｔｅｒｉａ」、ＭａｓｓＳｐｅｃｔｒｏｍｅｔｒｙＲｅｖｉｅｗｓ、２００１、２０、１７２〜１９４を参照することができる。次いで、取得したスペクトルを前処理する。具体的には、それ自体が知られている手法で、取得したスペクトルの雑音を除去し、取得したスペクトルを平滑化し、または必要ならば取得したスペクトルのベースラインを除去する。

この質量スペクトルの取得は、ホルダ上の試料の１つの位置またはさまざまな位置にある当該の試料にレーザー光を何度か照射することからなることができる。得られるスペクトルは、加算、平均の計算、中央値の計算、またはそれぞれの照射のそれぞれのスペクトルの強度の寄与に重み付けして「合成」スペクトルを形成することを目的とする任意の他の方法によって得られる「合成」スペクトルからなる。それ自体がよく知られている照射のこの累積は特に、信号対雑音比を増大させ、同時に、試料、装置、取得が実行された条件などに起因する再現不能の（ｎｏｎ−ｒｅｐｅａｔａｂｌｅ）効果の影響を制限することを可能にする。

次いで、１２０で、取得したスペクトル中に存在するピークを、例えば極大の検出に基づくピーク検出アルゴリズムによって検出するステップを実行する。このようにして、取得したそれぞれのスペクトルのピークのリストを作成する。前記リストは、そのスペクトルのピークの箇所（質量対電荷値とも呼ばれる）および強度を含む。

有利には、それらのピークは、予め設定された［ｍ_ｍｉｎ；ｍ_ｍａｘ］トムソン（ｔｈｏｍｓｏｎ：Ｔｈ）の範囲内で、好ましくは［ｍ_ｍｉｎ；ｍ_ｍａｘ］＝［３０００；１７０００］トムソンの範囲で検出される。具体的には、質量対電荷比のこの範囲内には微生物を同定するのに十分な情報が含まれることが観察されており、したがってこれよりも大きな範囲を考慮する必要はない。

この方法は続いて、１３０で、取得した較正質量スペクトルに基づく外部較正ステップを実行する。この外部較正は、観察されるピークがそのピークの理論上の位置と一致するように、参照試料の質量スペクトルのｍ／ｚ軸を調整することからなる。参照試料の内容は既知である。大腸菌（Ｅｓｃｈｅｒｉｃｈｉａｃｏｌｉ）株は、例えば質量対電荷の偏差を検出し、質量対電荷のオフセットを補正する外標準の役目を果たすことができる。このキャリブレーターに対して、特性質量対電荷に対応する参照ピークのリストが予め定義される。この較正ステップでは、そのスペクトルのピークリスト内で、これらの特性質量対電荷に対応する参照ピークの存在を、予想される位置の所与の許容差で探索する。次いで、観察された位置に応じてそのスペクトルを再整列させる。次いで、取得したキャリブレーターピークを参照ピークと再整列させるのに使用した変換を使用して、その試料のスペクトルのピークを再整列させる。

このステップ１３０の実装態様の一例によれば、それぞれの取得群（例えば本出願の出願人によって販売されているＶＩＴＥＫ（登録商標）ＭＳ装置用の取得ホルダ上の４×４個の箇所）について、前記取得群の較正用に予約された箇所に較正大腸菌株（ＡＴＣＣ８７３９）を置く。較正株のスペクトルを取得した後、大腸菌の特性質量対電荷に対応する１１個の参照ピークの存在を、それらのピークの予想される位置の付近で、０．０７％の許容差で探索する。予想される位置区間内で、１１個のピークのうち少なくとも８つのピークが見つかった場合には、較正株のスペクトルのそれらのピークを再整列させて、それらの参照位置を反映させる。次いで、取得したキャリブレーターピークを参照ピークと再整列させるために使用した変換、例えば１次または２次の多項式変換を使用して、取得群の他の全ての箇所のスペクトルのピークを再整列させる。

任意選択で、予防措置として、検出された参照ピークが最小数に達しない場合、例えば検出された特性質量対電荷が８つよりも少ない場合には、この取得操作をやめることができる。予想される参照ピークの位置を中心とする許容差を０．１５％まで増大させることも可能である。その場合に、増大させた新たな許容差で少なくとも５つの特性質量対電荷が検出された場合には、最初にキャリブレータースペクトルのピークを再整列させ、次いで、最初の０．０７％の許容差でより多くの参照ピークを探索することが好ましい。より多くのピークが見つかった場合には、決定された変換を使用して、スペクトルのピークの２回目の再整列を実行する。

この較正ステップの後に、取得群を構成する他の試料のピークの取得、前処理および検出を実行してもよい。決定された変換は、それらの試料のスペクトルに対応するピークリストに適用される。あるいは、ステップ１３０は、取得ステップ１１０で試料と混合されたキャリブレーターに基づく内部調整ステップからなることもでき、またはこのような内部調整ステップによってステップ１３０を補うこともできる。

較正ステップ１３０の後、本発明に基づく方法は、取得したスペクトルの品質を制御するステップ１４０、および／または質量対電荷を離散化するステップ１５０、および／またはスペクトルの強度を処理するステップ１５５を含むことができる。これらのステップ１４０、１５０、１５５を実行する順序は変更することができる。

したがって、任意選択で、この方法は続いて、１４０で、取得したスペクトルの品質を制御するステップを実行する。例えば、同定されたピークの数が十分であることを確かめることができる。ピークの数が少なすぎると、取得したスペクトルを使用して当該の微生物を分類することができず、ピークの数が多すぎるのは雑音のしるしである。加えて、スペクトルの品質を制御するこのステップで、検出されたピークの強度に基づくテストを実行することもできる。

ステップ１３０および任意選択でステップ１４０の後、質量対電荷を離散化するステップ１５０、または質量対電荷をビン（ｂｉｎ）に入れるステップ１５０を実行することができる。そのために、［ｍ_ｍｉｎ；ｍ_ｍａｘ］トムソン範囲を複数の幅区間またはビンにさらに分割する。この幅区間またはビンの幅は例えば一定とするかまたは対数目盛上で一定とする。複数のピークを含むそれぞれの区間について単一のピークを維持することができる。有利には、そのピークが最大強度を有する。したがって、この方法を使用して、スペクトルを整列させ、質量対電荷の位置のわずかな誤差の影響を低下させる。達成される整列は、離散化区間のサイズに直接に関係する。このようにして、測定されたスペクトルのそれぞれのピークリストから、より短いリストを作成する。そのリストのそれぞれの構成要素は、離散化の１つの区間に対応し、その区間に対して維持されるピークの強度を値に対して有する。値「０」は、その区間でピークが検出されなかったことを意味する。

ステップ１３０、任意選択でステップ１４０、および任意選択でステップ１５０の後、スペクトルの強度を処理するステップ１５５を実行することもできる。強度は、スペクトルごとにおよび／または分光計ごとに大幅に変動する量である。この変動性のため、未処理の強度値を分類ツールで使用することは難しい。したがって、質量対電荷の離散化の前またはステップ１５０の後に、未処理のスペクトルに対してこのステップを実行することができる。特に、このステップは、強度をしきい値処理するステップからなることができる。しきい値よりも低い強度はゼロであるとみなされ、しきい値よりも高い強度は維持される。変形ステップとして、ピークがしきい値よりも高いときまたは対応する離散化区間内にピークが存在するときにはリストの構成要素の値を「１」に設定し、ピークがしきい値より低いときまたはこの離散化区間内にピークが存在しないときにはリストの構成要素の値を「０」に設定することにより、このしきい値処理によって得られた強度のリストまたは離散化ステップの後に得られた強度のリストを「２値化」することもできる。あるいは、得られた強度のリストを対数目盛に従って変換し、その区間内にピークが存在しないときまたはピークがしきい値より低いときには構成要素の値を「０」に設定する。最後に、（未処理の、しきい値処理された、「２値化」された、または対数目盛に従って変換された）それぞれの強度リストを正規化することができる。

有利には、強度リストを対数目盛に従って変換し、次いで正規化する。これには、続いて実施される分類アルゴリズムの学習をよりロバストにする効果がある。

１つの群に属する微生物として同定された微生物の学習スペクトルにそれぞれが対応するこれらのピークリストから、この方法は、続いてステップ１６０で、群ごとに１つの知識ベースを作成し、ステップ１７０で、群ごとに１つの分類モデルを作成する。この知識ベースは、分類モデルのパラメータと、学習に使用するそれぞれの微生物の群に関する情報とを含み、学習微生物の群の中から不明微生物を分類することを可能にする。

ステップ１７０で、最近傍法、ロジスティック回帰、判別分析、分類木、「ＬＡＳＳＯ」型または「エラスティックネット」型の回帰法、ＳＶＭアルゴリズム（ＳＶＭは「ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ（サポートベクターマシーン）」の略である）などの知られている教師あり分類アルゴリズムに基づいて、群ごとに１つの分類モデルを確立する。

図１において、この方法は、続いて、ステップ２００で、前の群およびその群の亜群に属する微生物として同定された微生物の一組の学習スペクトルに基づいて、亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する。分光計によって実装される後述するステップ２１０を除き、ステップ２００は、コンピュータによって、例えば１つまたは複数のパーソナルコンピュータ、サーバ、プリント回路板、ディジタル信号プロセッサ（またはＤＳＰ）によって、一般に、例えばコンピュータメモリに記憶するためおよび／または画面上に表示するためにデータを受け取り、記憶し、処理し、処理されたデータを出力として生成することができる任意のマイクロプロセッサベースのシステムによって実施される。このシステムはおそらくそれ自体が、特定のデータの処理およびそれらの中での通信を担当するマイクロプロセッサベースの１つまたは複数のユニットを備える。

ステップ２００は図３ａに詳細に示されている。このステップ２００は、微生物の少なくとも１つのスペクトルを取得すること２１０を含む。その微生物の群および亜群は分かっており、前記亜群のそれぞれの亜群に対してこの取得を実施する。この取得ステップは、ステップ１１０と同様の手法で実行する。したがって、取得したスペクトルを前処理する。具体的には、取得したスペクトルの雑音を除去し、取得したスペクトルを平滑化し、または必要ならば取得したスペクトルのベースラインを除去する。この方法は、続いて、ステップ２２０で、ステップ１２０と同様の手法でスペクトルのピークを同定し、ステップ１３０と同様の手法でそれぞれのスペクトルの内部較正または外部較正を実行し、任意選択で、ステップ１４０と同様の手法でスペクトルの品質を制御する。

ステップ２１０は、この方法のステップ１１０と同時に直接に実行することが好ましい。その目的は、これらの取得ステップにおいて必要となる手動ステップの数を制限することである。その場合には、ステップ１１０とステップ２１０が、その群および亜群が分かっている微生物のスペクトルを取得する単一のステップからなる。次いで、同様に、ステップ１２０および１３０、ならびに任意選択でステップ１４０と同時に、ステップ２２０を実行する。

次いで、ステップ２２０の後、群および亜群が分かっているそれらの微生物のスペクトルを、一組のピークリストの形態で表現する。それぞれのピークリストは、群および亜群が分かっている１つの微生物に対応する。

これらのピークリストに基づいて、この方法は続いて、ステップ２３０で、取得したスペクトルの質量対電荷オフセットを補正することを可能にする調整モデルを構築する。この構築ステップ２３０は、最初に、さまざまな亜群に共通する参照質量対電荷を同定および選択するステップを含む。具体的に言うと、その群のさまざまな亜群に共通しない質量対電荷は、判別質量対電荷であり、したがって、その質量対電荷に基づく調整モデルはバイアスがかかったものになる。その群を詳細に特徴付ける質量対電荷のリストを得るためには、これらの質量対電荷がさまざまな亜群に共通しており、スペクトル中の近接した位置にピークを含まないことが理想的である。

二者択一の第１のステップ２４０によれば、さまざまな亜群に共通するこれらの参照質量対電荷を、統計的基準から推測する。

特に、図３ｂに示されているように、これらの参照質量対電荷は、
・関心の質量対電荷の範囲を離散化する第１のステップ２４１
によって得ることができる。このステップは、微生物の特性質量対電荷の大部分を含むことが知られている取得後に得られた質量対電荷区間に関して制限されたピークリストの質量対電荷区間にわたって、例えば３０００から１７０００Ｔｈまでの質量対電荷範囲にわたって実行することができる。この区間に基づいて、質量対電荷の範囲を、
○規則正しい質量対電荷区間（例えば１Ｔｈ）に、または
○次第に増大する質量対電荷区間に
離散化する。

したがって、離散化後に得られた全ての質量対電荷に対応する集合
｛ｍ（ｉ）｝；ｉ＝１，．．．，Ｉ
を得る。それぞれの値ｍ（ｉ）は、値ｍ（ｉ＋１）から、離散化ピッチと呼ばれる質量対電荷区間だけ分離されている。

それぞれの質量対電荷ｍ（ｉ）を中心とする区間を画定する許容係数ｔ_１を定義する。この方法が適正に機能するためには、選ばれる離散化が、少なくとも、許容係数ｔ_１によって画定される１つの質量対電荷から次の質量対電荷までの区間の重なり、理想的には区間の幅の半分の重なりを保証しなければならないことに留意されたい。したがって、それらの亜群の特性であり、したがって調整に役立つであろう質量対電荷を捨ててしまわないように、離散化ピッチは、大きすぎるよりは小さい方が好ましい。したがって小さな離散化ピッチは、情報の損失を制限することを可能にする。

１つの質量対電荷から次の質量対電荷までの区間の重なりを保証する１つの手法は、式
ｍ（ｉ＋１）＝ｍ（ｉ）＋ｔ_１×ｍ（ｉ）
を用いて離散化を反復的に定義し、ｍ（１）を関心の質量対電荷の範囲の下限に初期値とすることである。上式でｔ_１は許容係数である。したがって、離散化ピッチはｔ_１×ｍ（ｉ）に等しい。例えば、関心の質量対電荷範囲が３０００から１７０００Ｔｈ、許容差がｔ_１＝０．０００８であるときには、３０００Ｔｈにおける離散化ピッチが２．４Ｔｈであり、１７０００Ｔｈにおける離散化ピッチが１３．６Ｔｈである。

１つの質量対電荷から次の質量対電荷までの区間の重なりを保証する別のより単純な手法は、関心の質量対電荷の範囲の下限における離散化を下式を用いて定義するものである。
ｍ（ｉ＋１）＝ｍ（ｉ）＋ｔ_１×ｍ（１）

例えば、関心の質量対電荷範囲が３０００から１７０００Ｔｈ、許容差がｔ_１＝０．０００８であるときには、質量対電荷範囲の全体に適用可能な離散化ピッチが３０００×０．０００８＝２．４Ｔｈである。

続いて、離散化ステップによって画定されたそれぞれの質量対電荷ｍ（ｉ）を中心とするｔ_１に基づく区間内における１つまたは複数のピークの存在または非存在を検出する第２のステップ２４２を実行する。それぞれのスペクトルについて、許容差ｔ_１は、取得したそれぞれのスペクトルの中で探索される質量対電荷の位置の不確かさを考慮することを可能にする。したがって、当該のスペクトルの質量対電荷のリストは
Ｘ＝｛ｘ（ｓ）｝；ｓ＝１，．．．，Ｓ
であり、質量対電荷に適用される許容係数はｔ_１である。この操作は、許容差によって画定された当該の質量対電荷ｍ（ｉ）を中心とする区間、すなわち区間［ｍ（ｉ）−ｍ（ｉ）×ｔ_１；ｍ（ｉ）＋ｍ（ｉ）×ｔ_１］内において、Ｘ＝｛ｘ（ｓ）｝；ｓ＝１，．．．，Ｓの中のピークの存在を探索することからなる。

演算時間を最適化するために、当該の区間内にピークが存在することを１で表し、ピークの非存在または複数のピークの存在を０で表して、下表１の形をとる存在行列を得ることができる。Ｔは、取得した学習スペクトルの数である。

この行列に基づいて、第３のステップ２４３は、亜群ごとのピークの存在の頻度に応じて質量対電荷をフィルリングすることからなる。

それぞれの質量対電荷ｍ（ｉ）を中心とする許容差、すなわち離散化ステップ時に定義した許容差によって画定された区間内におけるピークの存在の頻度を亜群ごとに計算し、百分率に変換する。

このステップが図４に示されている。図４は、当該の群のそれぞれの亜群ＡからＥについて、それぞれのピークの頻度を示している。これらのピークは、前記亜群に対応するスペクトルから、区間５３３０Ｔｈ〜５４１０Ｔｈ内において得られたものである。

次に、判別するそれぞれの亜群について、しきい値よりも高い存在百分率、例えば６０％よりも高い存在百分率を有する質量対電荷ｍ（ｉ）を保持する。図４ではこのしきい値が、破線の水平線によって表されている。

したがって、
｛ｍ（ｉ）｝；ｉ＝１，．．．，Ｉの中から、質量対電荷の集合｛ｍ（ｊ）｝；ｊ＝１，．．．，Ｊ、Ｊ≦Ｉ
を得る。これらの質量対電荷は、頻度に関するフィルタリングステップの後も保持される。例えば、下表２によれば、フィルタリングの後、質量対電荷ｍ（Ｉ−１）およびｍ（Ｉ）だけが保持される。

頻度しきい値に従ってフィルタリングされた質量対電荷のこのリストに基づいて、次のステップ２４４は、前記保持された質量対電荷の位置を近似することからなる。

保持された質量対電荷は、ステップ２４１で実行した離散化に応じたおおよその精度を有する。したがって、質量対電荷ｍ（ｊ）の付近に存在するピークの位置の分布を代表する位置を得るために、これらの質量対電荷の位置を近似するステップを実行する。代表的な位置のこの演算は例えば、ピークの分布を代表するガウス関数を推定し、その関数の極値の位置を探索するステップを含む。別の方法は、質量対電荷ｍ（ｊ）の付近に存在するピークの位置の中央値を反復的に演算する複数のステップを実行することからなることができる。中央値を使用するこの方法では、Ｍ（ｊ）が、質量対電荷の位置の理論値である。Ｍ（ｊ，０）＝ｍ（ｊ）である場合、Ｍ（ｊ，ｎ＋１）は、以下のアルゴリズムを用いて得る。

それぞれのスペクトルについて、この方法の１つのステップは、質量対電荷Ｍ（ｊ，ｎ）を中心とする区間、すなわち区間［Ｍ（ｊ，ｎ）−Ｍ（ｊ，ｎ）×ｔ_２；Ｍ（ｊ，ｎ）＋Ｍ（ｊ，ｎ）×ｔ_２］内に存在する、Ｘ＝｛ｘ（Ｓ）｝；ｓ＝１，．．．，Ｓの中のピークを探索することからなる。ここで、ｔ_２は、質量対電荷Ｍ（ｊ，ｎ）の位置を中心とする許容係数であり、許容係数ｔ_１の値は、ｔ_２よりも大きいかまたはｔ_２に等しい。

次いで、保持されたピークの値の中央値を、Ｍ（ｊ，ｎ）を中心とする区間内の全てのスペクトルにわたって計算することによって、Ｍ（ｊ，ｎ＋１）の値を得る。

この最適化ステップを停止する基準は例えば、予め決められた反復回数とすることができ、かつ／または増分の検査（ｉｎｓｐｅｃｔｉｏｎ）に基づくことができる。

例えば、予め決められた反復回数を定義するケースでは、予め決められた回数がＮである場合に、Ｍ（ｊ）を、

によって近似する。

この方法が、増分を検査するステップを含むケースでは、εを、Ｍ（ｊ）の細分された演算（ｒｅｆｉｎｅｄｃｏｍｐｕｔａｔｉｏｎ）のために設定された許容差とする。この反復は、
｜Ｍ（ｊ，ｎ＋１）−Ｍ（ｊ，ｎ）｜＜ε
となったときに終了となる。

次いで、Ｍ（ｊ）を、

によって近似する。

増分の検査によるこの方法の収束を確実にするため、およびこのステップに必要な演算時間を節約するために、最大反復回数Ｎを予め決めておくともできる。

したがって、本発明の実装態様に対しては、予め決められた反復回数Ｎ＝３に基づく停止基準が好ましい。３つの質量対電荷に対する３反復の反復演算の例が図５ａから５ｉに示されている。図５ａでは、Ｍ（ｊ，０）の付近のピークの値に基づいて計算された中央値Ｍ（ｊ，１）が５３３９．６Ｔｈに等しく、破線の垂直線によって表されている。図５ｄに示されている２回目の反復では、したがってＭ（ｊ，１）の付近のピークの値に基づいて中央値Ｍ（ｊ，２）が計算され、次いで５３３９．８Ｔｈに等しい新たな値が得られている。図５ｄでは、Ｍ（ｊ，１）が実線の垂直線によって表されており、Ｍ（ｊ，２）が破線の垂直線によって表されている。図５ｇに示されている３回目の反復では、したがってＭ（ｊ，２）の付近のピークの値に基づいて中央値Ｍ（ｊ，３）が計算され、次いで５３３９．８Ｔｈに等しい値が再び得られており、この方法の収束を証明している。図５ｇでは、Ｍ（ｊ，２）が実線の垂直線によって表されており、Ｍ（ｊ，３）が破線の垂直線によって表されている。この演算はこの３回目の反復で停止され、５３３８Ｔｈの離散化によって保持された質量対電荷に対して近似値５３３９．８Ｔｈが維持される。

離散化後に得られた理論上のそれぞれの質量対電荷に対して同様の３ステップにおける演算を実行する。したがって図５ｂ、５ｅおよび５ｈは、離散化Ｍ（ｊ＋１，０）＝ｍ（ｊ＋１）によって保持された質量対電荷の値５３４０ＴｈからＭ（ｊ＋１，３）の近似値５３３９．８Ｔｈへの収束を示す。同様に、図５ｃ、５ｆおよび５ｉは、離散化Ｍ（ｊ＋２，０）＝ｍ（ｊ＋２）によって保持された質量対電荷の値５３４２ＴｈからＭ（ｊ＋２，３）の近似値５３３９．８Ｔｈへの収束を示す。

近似ステップ２４４の後、この方法は、続いて、ステップ２４５で、全く同じおおよその質量対電荷を除去する。

この近似の後、リスト

が得られる。最初の離散化は、１つの質量対電荷から次の質量対電荷までの区間の重なりを保証するように選ばれたため、複数の保持された質量対電荷ｍ（ｊ）が、同じおおよその質量対電荷に対応することがある。この場合、これらの質量対電荷の近似値

は、その値の演算において保持された精度に応じて等しいかまたはほぼ等しい。下表３は、離散化ピッチが２Ｔｈである本発明の実装態様の一例について、区間５３３８から５３９８Ｔｈ内の保持されたおおよその質量対電荷の位置を特に示す。

したがって、それぞれの値に対して単一の近似値が維持される。

したがって、その群の参照質量対電荷の新たなリストＲ＝｛Ｒ（ｋ）｝；ｋ＝１，．．．，Ｋ；Ｋ≦Ｊが得られる。

二者択一の第２のステップ２５０によれば、これらのさまざまな亜群に共通するこれらの質量対電荷が予め分かっている。それらの質量対電荷は例えば、群レベル分類のための参照ピークとして使用するピークのリストに基づいて決定することができる。これらのピークはその群を表すことが分かっているため、本発明の文脈における参照質量対電荷としてそれらのピークを使用することができる確率は高い。それらの質量対電荷は、質量分析による以前の分析から知ることもでき、または、それらのさまざまな亜群に特有の分子もしくはタンパク質、したがって当該の群に特有の分子もしくはタンパク質についてピークの理論上の質量対電荷を決定することを可能にする他の分析法によって知ることもできる。

任意選択で、これらの質量対電荷の選択を改善する目的で、それぞれの分かっている参照質量対電荷を中心とする許容区間内の１つまたは複数のピークの存在または非存在を検出するステップ２４２に似たステップを実行することもできる。このステップ２４２の後に、亜群ごとのピークの存在の頻度に応じて質量対電荷をフィルタリングすることからなるステップ２４３に似たステップを実行することができる。

許容差によって画定されたそれぞれの既に分かっている参照質量対電荷を中心とする区間内におけるピークの存在の頻度を亜群ごとに計算し、百分率に変換する。

その代わりにまたはそれに加えて、このステップ２４２の後に、既に分かっている参照質量対電荷の位置を近似するステップ２４４に似たステップを実行することもできる。

ステップ２４０または２５０に従って参照質量対電荷のリストを得た後、この方法は、続いて、図３ａに基づくステップ２６０で、全てのピークリストの質量対電荷を調整する。

ステップ２６０の目的は、ピークリストによって表されたそれぞれのスペクトルについて、参照質量対電荷の位置に基づいて変換モデルを学習することによって、全てのピークの位置を調整することである。このモデルのパラメータは、スペクトル中で観察されるピークが、ステップ２４０の終わりに得られる参照質量対電荷のおおよその位置、またはステップ２５０の終わりに得られる参照質量対電荷の理論上の位置とできるだけよく一致するように推定される。

それぞれのスペクトルについて、このピークリストフォーマットでは、
− Ｘ＝｛ｘ（ｓ）｝；ｓ＝１，．．．，Ｓが、当該のスペクトルのピークの質量対電荷のリストであり、
− Ｒ＝｛Ｒ（ｋ）｝；ｋ＝１，．．．，Ｋが、参照質量対電荷のリストであり、
− ｔ_３が、質量対電荷｛Ｒ（ｋ）｝の位置を中心とする許容係数であり、例えばｔ_３＝０．０００４である。許容係数ｔ_２の値は、ｔ_３よりも大きいかまたはｔ_３に等しい。

それぞれの参照質量対電荷｛Ｒ（ｋ）｝について、この方法は、この許容差によって画定された質量対電荷｛Ｒ（ｋ）｝を中心とする区間、すなわち区間
［Ｒ（ｋ）−Ｒ（ｋ）×ｔ_３；Ｒ（ｋ）＋Ｒ（ｋ）×ｔ_３］
内に存在する、｛ｘ（ｓ）｝；ｓ＝１，．．．，Ｓの中の質量対電荷を探索することからなる。

場合により、スペクトルの質量対電荷のオフセットが大きすぎるとき、または、例えばスペクトルが少数のピークだけを含むときには、当該の区間内でピークが観察されない。

観察列（ｓｅｑｕｅｎｃｅｏｆｏｂｓｅｒｖａｔｉｏｎｓ）｛Ｒ（ｌ）；ｘ（ｌ）｝，ｌ⊆｛１，．．．，Ｋ｝は、当該のスペクトル中の位置ｘ（ｌ）においてピークが観察された参照質量対電荷｛Ｒ（ｌ）｝のリストである。スペクトルの質量対電荷に適用する変換は、モデルＲ＝ｆ（ｘ）によってモデル化され、モデルｆはおそらく以下のモデルである。
・線形回帰モデル：
Ｃ＝β_０＋β_１ｘ；β_０およびβ_１はモデルの定数である。
・２次多項式回帰モデル：
Ｃ＝β_０＋β_１ｘ＋β_２ｘ^２；β_０、β_１およびβ_２はモデルの定数である。
・非パラメトリックまたは非線形回帰モデル、例えばスプライン、ＬｏｅｓｓもしくはＬｏｗｅｓｓ型回帰などの局所回帰モデルまたはカーネル回帰モデルなど

モデルのパラメータを推定するために使用した質量対電荷ドメインの外へ前記モデルが外挿されるときの予測誤差を制限するために、本発明の実装態様に対しては線形回帰モデルが好ましい。外挿が必要となるのは、例えば、選択された参照質量対電荷が、関心の質量対電荷ドメインのサブセットだけをカバーするとき、または、当該のスペクトルの質量対電荷のオフセットが、当該の許容差ｔ_３に比べて大きすぎるときである。

このモデルのパラメータは、通常の最小二乗法を用いて推定することができる。しかしながら、例えば、テストされた試料の特異性によって、または質量対電荷範囲のあるゾーン内における質量対電荷の初期のオフセットがあまりに大きいことによって、ある質量対電荷に対して異常値が観察されることがある。最小二乗法は、たとえ少数であっても、異常値の存在に非常に敏感である。異常点の影響を受けないパラメータ推定を得るために、異常点の検出の問題とモデルのパラメータ推定の問題とを同時に解決することを可能にするロバストな推定法と呼ばれる方法を使用することが好ましい。したがって、本発明の実装態様に対してはＴｕｋｅｙのバイウエイトエスティメータ（Ｔｕｋｅｙ’ｓｂｉｗｅｉｇｈｔｅｓｔｉｍａｔｏｒ）が好ましく、Ｔｕｋｅｙのバイウエイトエスティメータは、反復加重最小二乗（ｉｔｅｒａｔｉｖｅｌｙｒｅｗｅｉｇｈｔｅｄｌｅａｓｔｓｑｕａｒｅｓ：ＩＲＬＳ）アルゴリズムの使用によって解かれることが好ましい。他のロバストな推定法、特に、最小二乗中央値（ｌｅａｓｔｍｅｄｉａｎｏｆｓｑｕａｒｅｓ：ＬＭＳ）法、最小刈込み二乗（ｌｅａｓｔｔｒｉｍｍｅｄｓｑｕａｒｅｓ：ＬＴＳ）法、およびＭエスティメータクラスからとられた方法も明らかに予見される。Ｔｕｋｅｙのバイウエイトエスティメータは、Ｍエスティメータクラスの具体的な一例である。

次いで、参照質量対電荷から予め学習されたモデルによって、スペクトルの全てのピークの調整された位置を推量する。したがって、調整に使用した質量対電荷の区間の範囲を超えて質量対電荷の補正を外挿する。
・それぞれの質量対電荷ｘ（ｓ）に対して、調整された質量対電荷を

を用いて得る。
・スペクトルのピークの調整された位置のリストを

；ｓ＝１，．．．，Ｓで示す。

調整ステップ２６０の後、任意選択のステップ２６５は、参照質量対電荷のリストを最適化することからなることができる。この最適化は、得られた調整の品質に基づく。このステップの目的は、保持されたそれぞれの参照質量対電荷の品質が関心のさまざまな亜群間で同様であることを保証することにある。

それぞれの参照質量対電荷Ｒ＝｛Ｒ（ｋ）｝；ｋ＝１，．．．，Ｋ；Ｋ≦Ｊおよびそれぞれの亜群について、この方法は、許容差ｔ_３によって画定された質量対電荷Ｒ（ｋ）を中心とする区間内のそれぞれのスペクトルの質量対電荷の調整の後に、それぞれの亜群について、ピークの存在の頻度を演算するステップを含む。この頻度が第１のインジケータを形成する。

このステップの後、この方法は、参照質量対電荷の調整後に、それぞれの亜群について、例えば質量対電荷Ｒ（ｋ）に関連した剰余の中央値または平均値を演算することによって、ピークの位置の不一致（ｄｉｓｃｒｅｐａｎｃｙ）を演算するステップを含む。この不一致が第２のインジケータを形成する。

続いて、参照質量対電荷に対する調整の後に、それぞれの亜群について、例えば質量対電荷Ｒ（ｋ）に関連した剰余の標準偏差、範囲または四分位間区間を演算することによって、ピークの位置の分散を演算するステップを実行する。一般に、分散を演算するこのステップは、観察されたピークの位置の値の分散を定量化することを可能にする任意の方法によって実行することができる。この分散が第３のインジケータを形成する。

この演算に基づいて、ステップ２６５は続いて、当該の群の亜群間におけるこれらの３つのインジケータのうちの少なくとも１つのインジケータの不均一性に基づいて、ある参照質量対電荷を除去するステップを実行する。

図６は、２つの質量対電荷アルファおよびベータについて以下の演算を示す。
− それぞれの亜群ＡからＦのピークの存在の頻度。
− それぞれの亜群の剰余の中央値。この中央値は、それぞれの箱ひげ図内の水平線によって表されている。
− それぞれの亜群の剰余の四分位間区間。この四分位間区間は、それぞれの箱ひげ図の大きさによって表されている。

したがって、これらの３つのインジケータは例えば、質量対電荷アルファを維持すること、および質量対電荷ベータを捨てることを許す。具体的には、質量対電荷アルファは、亜群間の約１００％の頻度、それぞれの亜群について０に近い剰余の中央値、およびそれぞれの亜群間で同様の剰余の分散を有する。対照的に、質量対電荷ベータは、ピークの存在の頻度が２つの亜群で６０％未満であり、剰余の中央値が、亜群Ａでは、１または−１（破線）に設定されたしきい値を超えているため、除外すべきである。加えて、亜群ＡおよびＥでは、剰余の四分位間区間が明らかに大きい。したがって、これらの３つの基準の演算は、質量対電荷を統計学的に捨てまたは維持することを許すしきい値を確立することを可能にする。

次いで、ステップ２６５は最後に、ステップ２６０に似た再調整ステップを実行する。
しかしながら、この再調整ステップは、当該の群の亜群間におけるこれらの３つのインジケータのうちの少なくとも１つのインジケータの不均一性に基づいてある参照質量対電荷を除去するステップ後も保持された質量対電荷だけに基づいて実行される。

任意選択で、ステップ２６０またはステップ２６５の後に、亜群ごとの分類のために関心の質量対電荷範囲内で質量対電荷を調整することを可能にする第２のモデルを学習および構築するステップ２７０を実行することができる。

ステップ２７０は、それらのさまざまな亜群に共通する参照質量対電荷を同定および選択するステップ２３０、ならびに、第１の調整を既に受けたピークリスト、したがってより小さいと想定される質量対電荷オフセットを有するピークリストに基づいて第２の調整モデルを構築するために、質量対電荷を調整するモデルを学習および構築するステップ２６０を繰り返す。

具体的には、質量対電荷の初期のかなりのオフセットの結果、ステップ２６０に従った第１の調整ステップが、関心の質量対電荷の範囲のあるゾーン内における質量対電荷のリセットの外挿に至ることがある。より大きな質量対電荷範囲内のピークの位置をより細かく調整するために、多項式回帰モデル、例えば２次多項式回帰モデルによって質量対電荷を調整することを可能にする第２のモデルを学習および構築する第２のステップを実行することができる。そのために、ステップ２３０および２６０、ならびにステップ２６５を再現して、それらのさまざまな亜群に共通する参照質量対電荷のリストを選択し、亜群ごとの分類のために関心の質量対電荷範囲にわたって全てのピークリストの質量対電荷を調整する。

図７ａおよび７ｂは、この第２の調整ステップの利点を示す。

図７ａは、所与の亜群Ａのスペクトルに対する線形回帰モデルによる第１の調整の結果を示す。黒の曲線は、参照質量対電荷と調整前に観察された質量対電荷の位置との間の不一致を表す。灰色の曲線は、それ自体としては参照質量対電荷と調整後の質量対電荷の位置との間の不一致を表す。質量対電荷の初期オフセットが大きかったため、４０００Ｔｈから８０００Ｔｈの間の参照質量対電荷だけが検出された。次いで、質量対電荷を補正するモデルを、当該のスペクトルの全てのピークにわたる質量対電荷のこの区間の外へ外挿する。線形モデルを最初に使用すると、外挿誤差を制限することができる。

図７ｂは、２次多項式回帰モデルによる同じスペクトルの第２の調整の結果を示す。黒の曲線は、参照質量対電荷と、第１の調整の後、第２の調整の前の観察された質量対電荷の位置との間の不一致を表す。灰色の曲線は、それ自体としては参照質量対電荷と第２の調整後の質量対電荷の位置との間の不一致を表す。このモデルは、３０００Ｔｈから１２０００Ｔｈの間で検出された質量対電荷に対して調整されていることに留意されたい。このことは、より広範囲の質量対電荷にわたってピークの位置をより細かく調整することを可能にする。

任意選択で、ｎ番目の調整モデルを構築し、したがってスペクトルの調整を改良するために、ステップ２７０をｎ回繰り返すことができる。

最後に、次のステップ２８０は、専用の知識ベースを学習および構築することからなり、次のステップ２９０では、専用の分類アルゴリズムが、この調整または質量対電荷を調整する前述のステップを受けたスペクトルのピークリストに基づいて亜群を判別することを可能にする。

質量対電荷を調整するこの１つまたは複数のステップが、ピークの箇所の精度を大幅に向上させることを可能にしたため、この分類アルゴリズムは、
− 例えば群レベル分類のための許容距離（ｔｏｌｅｒａｎｃｅｄｉｓｔａｎｃｅ）に等しいか、または有利には、群レベル分類のための許容距離よりも小さい許容距離の演算に基づくことができ、
− 例えばステップ１５０で説明したような質量対電荷の離散化によって得られたピークの行列に基づくことができる。質量対電荷の離散化に使用されるピッチは、群レベル分類に使用されるピッチとまったく同じか、または有利には、群レベル分類に使用されるピッチよりも細かい。

知られている任意の分類アルゴリズム（例えばロジスティック回帰、判別分析、分類木、「ＬＡＳＳＯ」型もしくは「エラスティックネット」型の回帰法、またはＳＶＭ型のアルゴリズム（ＳＶＭは、「ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ（サポートベクターマシーン）」の略である））を使用することができる。

したがって、本発明に基づく方法は、参照質量対電荷の１つからｎ個のリストを含む質量対電荷を調整するモデル、質量対電荷を調整する１つからｎ個のモデル、ならびに当該の群の亜群を判別する専用の知識ベースおよび分類アルゴリズムを得ることを可能にする。

群を判別する専用の知識ベースおよび分類アルゴリズム、ならびに当該の群のうちの少なくとも１つの群の亜群を判別する専用の知識ベースおよび分類アルゴリズムに基づいて、この方法は、続いて、不明微生物を分類するステップを実行する。

この分類ステップは例えば、
■不明微生物の少なくとも１つの質量スペクトルを取得することができる質量分析計と、
■質量分析計によって取得された１つまたは複数の質量スペクトルに応じて不明微生物を同定することができるコンピュータシステムと
を備え、前記システムが、
− コンピュータメモリであり、
○微生物群ごとの分類モデルおよび知識ベースと、
○微生物亜群ごとの分類モデルおよび知識ベースと、
○質量対電荷オフセットを補正する調整モデルと、
○取得した質量スペクトルに基づいてピークリストを作成するコンピュータ命令と、
○前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、不明微生物を、作成されたピークリストに応じた１つの群に分類するコンピュータ命令と、
○調整モデルに従ってピークリストを調整するコンピュータ命令と、
○前記亜群ごとの分類モデルおよび前記亜群ごとの知識ベースに従って、微生物を、調整されたピークリストに応じた１つの亜群に分類するコンピュータ命令と
を記憶したコンピュータメモリ、
− コンピュータメモリに記憶されたコンピュータ命令を実施して、微生物を１つの群および１つの亜群に分類するマイクロプロセッサベースのコンピュータユニット、
− 分類の結果を記憶するコンピュータメモリおよび／または分類の結果を表示する表示画面
を備える、デバイスによって実施される。

したがって、この方法は、続いて、図１の群ごとの分類ステップ３００を実行する。前述のとおり、このステップは、群ごとの知識ベースおよび関連する群ごとの分類アルゴリズムに基づく。この群ごとの知識ベースおよび群ごとの分類アルゴリズムは、既に存在するかまたは微生物の一組のスペクトルに基づいて構築され、この微生物の群は予め同定されている。

図３ｃによれば、群ごとの分類ステップ３００は、前記不明微生物の少なくとも１つの質量スペクトルを取得するステップ３１０から始まる。ステップ３１０は、同定する不明微生物の試料を調製することから始まり、続いて、質量分析計、例えばＭＡＬＤＩ−ＴＯＦ質量分析計によって、調製された試料の１つまたは複数の質量スペクトルを取得する。このステップは、ステップ１１０と同様の手法で実行される。

この取得ステップの後、この方法は、続いて、ステップ１２０と同様の手法でスペクトルのピークを検出するステップ３２０、およびステップ１３０と同様の手法でそれらのスペクトルを外部較正または内部較正するステップ３３０を実行する。このステップの目的は、前記微生物を１つの群に分類することを可能にするピークの整列を得ることである。前述のとおり、外部較正は、観察されるピークがそれらのピークの理論上の位置と一致するように、参照試料の質量スペクトルのｍ／ｚ軸を調整することからなる。参照試料の内容は知られており、参照試料は、プレート上の試料とは異なる点に置かれる。したがって、このステップは、ステップ１３０と同様の手法で実行され、キャリブレーターのスペクトルに適用する変換に応じて、不明微生物のスペクトルのピークを再整列させる。

このステップの後、この方法は、得られた１つまたは複数のピークリストを分類するステップ３４０を含む。そのために、関連する群ごとの知識ベースに関して、群ごとの分類アルゴリズムを実装する。このようにして、分析された試料の１つまたは複数の群（科、属、種など）を同定する。有利には、この群ごとの分類ステップを改良するため、このステップの前に、ステップ１４０と同様の手法でスペクトルの品質を制御するステップを実行することができ、任意選択で、質量対電荷を離散化するステップ１５０と同様のステップおよび／または強度を処理するステップ１５５と同様のステップを実行することができる。

あるいは、分析された微生物の群が分かっており、亜群が不明の場合には、ステップ３４０を実行しなくともよい。この場合、この方法は続いてステップ３５０を直接に実行する。

続くステップ３５０では、分類ステップの結果を、例えば不明微生物が１つまたは複数の群に属する確率を評価するスコアの形態で得る。保持された群または保持された複数の群のうちの少なくとも１つの群が、亜群ごとの知識ベース内に示されている場合、本発明に基づく方法は続いて、亜群ごとの分類ステップ４００を実行する。

前述のとおり、このステップは、構築された亜群ごとの知識ベースおよび関連する亜群ごとの分類アルゴリズムに基づく。この亜群ごとの知識ベースおよび亜群ごとの分類アルゴリズムは、微生物の一組のスペクトルに基づいて得たものであり、この微生物の群および亜群は予め同定されている。

したがって、図３ｄによれば、亜群ごとの分類ステップ４００は、ステップ３５０の群の分類結果を認識するステップ４１０から始まる。この群に対しては、亜群ごとの知識ベースおよび亜群ごとの分類アルゴリズムが存在する。例えば、種としての大腸菌（以後、種大腸菌）およびシゲラ属（Ｓｈｉｇｅｌｌａ）を含む分類群を、非Ｏ１５７大腸菌（亜群Ａ）、Ｏ１５７大腸菌（亜群Ｂ）、シゲラ属の種である志賀赤痢菌（Ｓｈｉｇｅｌｌａｄｙｓｅｎｔｅｒｉａｅ）（亜群Ｃ）、フレクスナー赤痢菌（Ｓｈｉｇｅｌｌａｆｌｅｘｎｅｒｉ）（亜群Ｄ）、ボイド赤痢菌（Ｓｈｉｇｅｌｌａｂｏｙｄｉｉ）（亜群Ｅ）、ソンネ赤痢菌（Ｓｈｉｇｅｌｌａｓｏｎｎｅｉ）（亜群Ｆ）などを分離する亜群ごとの分類知識ベースに関連づけることができる。

次いで、次のステップ４２０は、ステップ２６０に従って得たモデルを使用してステップ３３０に従って得たピークリストの質量対電荷、およびその群の特性であるステップ２４０で定義された参照質量対電荷またはその群の特性であるステップ２５０に従って保持された参照質量対電荷を調整することからなる。第２の調整モデルが作成されている場合には、ステップ２７０に従って得た調整モデルを使用したピークリストの２回目の調整を実行する。そのときに使用する特性質量対電荷は第２のモデルの特性質量対電荷である。同様に、ｎ番目の調整モデルが作成されている場合には、ステップ２７０に従って得た調整モデルを使用してピークリストのｎ回目の調整を実行する。そのときに使用する特性質量対電荷はｎ番目モデルの特性質量対電荷である。

任意選択で、この方法は、続いて、質量対電荷の調整の品質を制御するステップ４３０を実行することができる。そのために、取得した１つまたは複数のスペクトル中で検出される参照質量対電荷の数（または百分率）は、所与のしきい値よりも必ず大きいと定義することができる。その代わりにまたはそれに加えて、それぞれの参照質量対電荷の理論上の位置と、取得した１つまたは複数のスペクトル中のこれらの質量対電荷の調整後の位置との間の２乗平均平方誤差（ｒｏｏｔ−ｍｅａｎ−ｓｑｕａｒｅｄｅｒｒｏｒ：ＲＭＳＥ）は、所与のしきい値よりも必ず小さいと定義することもできる。したがって、この２乗平均平方誤差は、下式を用いた従来の手法で演算することができる。

上式で、
○｛Ｒ（ｌ）｝，ｌ＝｛１，．．．，Ｌ｝は、当該のスペクトル中でピークが観察されたＬ個の参照質量対電荷のリストである。
○ｆは、ステップ２６０および任意選択の２７０に従って得た調整モデルである。
○

は、

を用いて得た調整された質量対電荷である。

ステップ４２０または４３０の後、この方法は、続いて、予め学習および定義された亜群を判別することを可能にする亜群ごとの知識ベースおよび分類アルゴリズムに基づいて、調整されたスペクトルを分類するステップ４４０を実行する。

有利には、亜群ごとの分類ステップを改良するため、このステップの前に、質量対電荷を離散化するステップ１５０と同様のステップおよび／または強度を処理するステップ１５５と同様のステップを実行することができる。

続くステップ４５０では、亜群ごとの分類ステップの結果を、例えば不明微生物が１つまたは複数の亜群に属する確率を評価するスコアの形態で得る。

この群ごとの分類および亜群ごとの分類の結果を、有利にはそれらの分類スコアとともに、コンピュータメモリに記憶し、かつ／またはユーザの注意を引くために画面上に表示する。

種大腸菌およびシゲラ属によって形成された群の亜群ごとの分類の例
本発明に基づく方法を、種大腸菌の血清群（ｓｅｒｏｇｒｏｕｐ）およびシゲラ属の種の血清群の分類に適用する。したがって、この方法の目的は、病原性に応じて亜群を識別することである。

この方法は、本出願の出願人によって販売されているＭＡＬＤＩ−ＴＯＦＶＩＴＥＫ（登録商標）ＭＳ（ｂｉｏＭｅｒｉｅｕｘ（フランス））質量分析計を使用する。ＭＡＬＤＩ−ＴＯＦＶＩＴＥＫ（登録商標）ＭＳは、ＶＩＴＥＫ（登録商標）ＭＳｖ２．０．０群ごとの知識ベースを含み、この知識ベースは、ＶＩＴＥＫ（登録商標）ＭＳｖ２．０．０データベースとも呼ばれている。このＶＩＴＥＫ（登録商標）ＭＳ装置はさらに、多変量分類（ｍｕｌｔｉ−ｖａｒｉａｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎ）を使用する関連する群ごとの分類アルゴリズムを含む。このアルゴリズムは、群ごとの知識ベースに関連づけられている。このアルゴリズムによって不明微生物のスペクトルを分類するステップに従って、それぞれの群に属するスコアを得る。

したがって、本発明に基づく方法は、質量分析装置上でルーチンとして実行することができる２ステップ分類（群ごとに分類し次いで亜群ごとに分類する分類）を提案することを可能にする。最初に、群、ここでは種レベルの分類群を同定し、次いで、この大腸菌／シゲラ属群の場合には、種大腸菌のＯ１５７血清群および種大腸菌の非Ｏ１５７血清群から前記群のシゲラ属の４つの種を区別する２番目の亜群ごとの分類レベルを提案する。

従来の表現型および血清型分類技法を用いて大腸菌およびシゲラ属の群ならびに亜群を同定する、１１６株の微生物からなる第１のバッチＡを調製する。このバッチは、参照亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する目的に使用される。

このバッチＡは、
○亜群Ａを形成する６０株の非Ｏ１５７大腸菌（参照ｅｓｈ−ｃｏｌ）
○亜群Ｂを形成する８株のＯ１５７大腸菌（参照ｅｓｈ−ｏ１５７）
○亜群Ｃを形成する１２株の志賀赤痢菌（参照ｓｈｇ−ｄｙｓ）
○亜群Ｄを形成する１２株のフレクスナー赤痢菌（参照ｓｈｇ−ｆｌｘ）
○亜群Ｅを形成する１２株のボイド赤痢菌（参照ｓｈｇ−ｂｏｙ）
○亜群Ｆを形成する１２株のソンネ赤痢菌（参照ｓｈｇ−ｓｏｎ）
を含む。現在のＶＩＴＥＫ（登録商標）ＭＳ装置はこれらの１１６種類の微生物を識別しない。したがって、この装置の分類アルゴリズムは、これらの微生物を、関連知識ベースの群「大腸菌／シゲラ属」に分類する。

質量分析によるバッチＡの微生物のスペクトルの取得に進むため、従来のプロトコールに従って、これらの微生物を含む試料を調製する。
・ブロス（ｂｒｏｔｈ）を使用した寒天増殖培地上で培養した後、コロニーをサンプリングする。
・脱塩水３００μＬを含む２ｍＬのエッペンドルフ管中でコロニーを懸濁させる。
・無水エタノール０．９ｍＬを加え、（渦流）混合する。
・１００００ｒｐｍで２分間、遠心分離する。
・ピペットを使用して上澄みを除く。
・７０％ギ酸４０μＬを加え、（渦流）混合する。
・アセトニトリル４０μＬを加え、（渦流）混合する。
・１００００ｒｐｍで２分間、遠心分離する。
・上澄み１μＬを付着させる。
・乾燥させる。
・ＨＣＣＡマトリックス１μＬを加える。

それぞれの株のそれぞれの試料のある量を、ＶＩＴＥＫ（登録商標）ＭＳ装置用のＭａｌｄｉプレート上に置く。取得は２連または４連で行う。取得は、ＬａｕｎｃｈＰａｄＶ２．８ソフトウェアパッケージを使用し、以下のパラメータを用いて実行する。
・線形モード
・ラスタリング：レギュラーサーキュラ（ｒｅｇｕｌａｒｃｉｒｃｕｌａｒ）
・１試料当たり１００プロファイル
・１プロファイル当たり５照射
・２０００トムソンから２００００トムソンの間での取得
・オートクオリティパラメータ（ａｕｔｏ−ｑｕａｌｉｔｙｐａｒａｍｅｔｅｒ）の起動

これらのスペクトルを取得した後、このＶＩＴＥＫ（登録商標）ＭＳ装置は、取得群の較正のために予約された箇所に置かれた標準大腸菌株（ＡＴＣＣ８７３９）のスペクトルの取得に基づいて、前処理および外部較正を実行する。この標準株のスペクトルを取得した後、大腸菌の特性質量対電荷に対応する１１個の参照ピークの存在を、それらのピークの予想される位置を中心とする０．０７％の許容差で探索する。予想される位置区間内で１１個の参照ピークのうちの少なくとも８つのピークが見つかった場合には、標準株のスペクトルのピークを、それらのピークの参照位置に応じて再整列させる。得られた変換を使用して、試料の取得されたスペクトルを再整列させる。

バッチＡの群の１１６種類の株に対応する合計３８８個のスペクトルが、したがって群レベル知識ベースおよび関連分類アルゴリズムを生成することを可能にする。ＶＩＴＥＫ（登録商標）ＭＳｖ２．０．０データベースおよび関連アルゴリズムに関して、バッチＡの微生物がこの装置によって識別されないこと、およびバッチＡの微生物が同じ群に属することを確認するため、群ごとの分類ステップを実行する。バッチＡに対するこの分類の結果が下表４に示されている。

バッチＡの９９．７％のスペクトルが、ＶＩＴＥＫ（登録商標）ＭＳｖ２．０．０データベースの大腸菌／シゲラ属群に属するものとして正しく予測されている。フレクスナー赤痢菌の１つの株から得られた単一のスペクトルは、良好な品質を有するものの、同定はされていない。それにもかかわらず、このスペクトルは、以降のステップでの亜群レベル知識ベースの構築のために維持される。

バッチＡおよび大腸菌／シゲラ属群に対応する３８８個のスペクトルのこの基礎を基に、亜群レベル知識ベースおよび関連分類法を生成する。

そのために、２つの調整モデルの連続する構築によって、検出されたピークの質量対電荷の位置を、２つの調整ステップで調整する。ステップ２３０、２４０および２６０と同様の手法で実行される第１の調整ステップでは、３８８個のスペクトルの中で、この群の１０個の特性質量対電荷を探索する。これらの１０個の特性質量対電荷は、予め分かっており、大腸菌／シゲラ属群に対するものであり、４０００から１００００Ｔｈの間に位置し、キャリブレーターの質量対電荷に対応する。取得されたそれぞれのスペクトル中のこれらの質量対電荷の位置を中心とする許容差をｔ＝０．０００５％に設定する。これらの質量対電荷の観察された位置およびそれらの理論上の位置に基づいて、それらの観察された位置をそれらの理論上の位置と再整列させるための線形回帰モデルを演算する。さらに、得られた変換を、取得されたそれぞれのスペクトルの全てのピークに適用する。

この第１のステップに続いて、第２の調整ステップ２７０を、調整された２次多項式回帰モデルによって、ステップ２４０で説明した方法に従って統計学的に決定された参照質量対電荷リストに対して実行する。そのために、第１の調整ステップに従って調整されたそれぞれのスペクトルを、関心の質量対電荷の範囲内で、３０００から６０００Ｔｈの間は１Ｔｈ、６０００から１００００Ｔｈの間は２Ｔｈ、１００００から２００００Ｔｈの間は３Ｔｈのピッチで離散化する。したがって、それぞれのスペクトルを８３６６個の質量対電荷区間に離散化する。この離散化によって画定されたそれぞれの質量対電荷ｍ（ｉ）を中心とする０．０００３％の許容差を用いて、ピークの存在または非存在を、ステップ２４２で説明した方法に従って探索する。次いで、このようにして得た質量対電荷ｍ（ｉ）を、ステップ２４３で説明した方法に従って、それぞれの亜群のピークの存在の頻度に応じてフィルタリングする。それぞれの亜群について最小存在頻度６０％を有する１３３個の質量対電荷が保持される。これは、この群にとりわけ特有の質量対電荷を選択することを可能にする。

次いで、保持された質量対電荷の位置の統計的モデルに従ってこれらの質量対電荷の位置を近似する。このステップは、前述のステップ２４４に対応する。

補正された位置に基づいて、４６個の固有の質量対電荷のリストを保持するために、同一のまたはほぼ同一のおおよその質量対電荷を除去する。このリストはこの群に特有である。２つの質量対電荷間の観察された不一致が０．１Ｔｈよりも小さい場合、近似後に、それらの２つの質量対電荷は同一であるとみなされる。このステップは、前述のステップ２４５に対応する。

上表５は、５３３８から５３９８Ｔｈの質量対電荷区間について、質量対電荷の離散化された空間内の選択された質量対電荷の位置、同じ質量対電荷の近似値、および同一の質量対電荷の除去の後に保持された質量対電荷の最終的なリストを示す。

次に、調整ステップを、したがってステップ２７０と同様の手法で、保持された質量対電荷の位置に基づいて実行する。参照質量対電荷のリストを制御および最適化することを可能にする、得られた調整品質に基づく任意選択のステップは、最終的な３７個の参照質量対電荷からなるより短いリストを保持することを可能にする。このステップは、ステップ２６５で定義した基準などの基準に基づく。５つの質量対電荷を除去する。これは、それらの質量対電荷が、少なくとも１つの亜群について、６０％よりも低い調整後のピークの存在百分率、または１Ｔｈよりも大きい剰余の中央値、または２Ｔｈよりも大きい剰余の四分位間区間を有するためである。この方法は、続いて、このより短い参照質量対電荷リストに基づいて、この群のピークリストの全ての質量対電荷を再調整させる。

図８ａによれば、この方法は、質量対電荷の初期オフセットが大きかったために５０００から１００００Ｔｈの間でのみ検出した参照質量対電荷に対する、調整された線形回帰モデルによるステップ２６０と同様の第１の調整を含む。この質量対電荷区間を超えて質量対電荷のこの補正を外挿する。線形モデルを最初に使用すると、当該のスペクトルの質量対電荷リストの外挿における誤差を制限することができる。図８ｂによれば、この方法は、より幅広い質量対電荷範囲にわたって当該のスペクトルのピークの位置をより細かく調整することを可能にする３０００から１２０００Ｔｈの間で検出された質量対電荷に対する、調整された２次多項式回帰モデルによるステップ２７０と同様の第２の調整を含む。

図９ａは、調整前の群および対応する亜群の全てのスペクトル中のピークの観察された位置を、１つの質量対電荷範囲について示す。図９ｂは、第２の調整後の同じピークの位置を示しており、この図は、実行された調整の品質および参照質量対電荷として選択された質量対電荷の妥当性を実証している。

製造業者が主張しているＶＩＴＥＫ（登録商標）ＭＳ装置の外部較正後の精度は４００ｐｐｍである。すなわち、トムソンに換算すれば３０００Ｔｈにおいて約１．２Ｔｈ／１１０００Ｔｈにおいて約４．４Ｔｈの精度である。中央値を示す図１０ａによれば、当該の一組のデータについて、外部較正後に観察されたトムソンで表した精度は、主張された精度とほぼ同じである。すなわち、３０００Ｔｈ付近の質量対電荷については約１．２Ｔｈ、１１０００Ｔｈ付近の質量対電荷については約３Ｔｈである。図１０ｂによれば、本発明に基づく方法を用いた質量対電荷の第２の調整後の精度は３０００Ｔｈにおいて約０．１２Ｔｈ、１１０００Ｔｈにおいて約０．４４Ｔｈであり、すなわち約４０ｐｐｍの精度である。本発明に基づく方法を用いた調整後のこの精度の増大は、選択された参照質量対電荷の妥当性および実行された調整の品質を実証している。

次いで、前述の調整を経たスペクトルのピークリストに基づいて大腸菌／シゲラ属群の亜群を判別することを可能にする専用知識ベースおよび専用分類アルゴリズムを、ステップ２８０および２９０で説明した方法に従って構築する。

そのために、下記の６つの亜群を識別することを可能にする知識ベースおよび専用分類アルゴリズムを構築する。
■非Ｏ１５７大腸菌、亜群Ａ
■Ｏ１５７大腸菌、亜群Ｂ
■志賀赤痢菌、亜群Ｃ
■フレクスナー赤痢菌、亜群Ｄ
■ボイド赤痢菌、亜群Ｅ
■ソンネ赤痢菌、亜群Ｆ

例として、図１１ａは、調整前の群および対応する亜群の全てのスペクトル中のピークの観察された位置を、Ｏ１５７大腸菌亜群を他の亜群から判別することを可能にする質量を含む１つの質量対電荷範囲について示す。図１１ｂは、第２の調整後の同じピークの位置を示しており、この図は、許容差＋／−２Ｔｈの１０１３９Ｔｈにおけるピークの存在／非存在を使用して、このピークが存在しないＯ１５７大腸菌亜群を検出することが可能であることを実証している。

微生物を亜群に分類する分類モデルおよび関連する亜群ごとの知識ベースの能力を検証するため、大腸菌／シゲラ属群に属する株として同定された３１個の株からなる第２のバッチＢをさらに形成する。これらの株の亜群は、従来の分析法によって決定されている。

評価バッチと呼ばれるこのバッチＢは、６つの異なるＯ血清型、すなわちＯ２６、Ｏ４５、Ｏ１０３、Ｏ１１１、Ｏ１２１およびＯ１４５の３１株の志賀毒素大腸菌（ＳｈｉｇａＴｏｘｉｎＥｓｃｈｅｒｉｃｈｉａＣｏｌｉ：ＳＴＥＣ）を含む。

試料調製プロトコールは上で使用したものと全く同じである。下表６に従って配分された６２個のスペクトルからなるリストを得るために、株ごとに２つのスペクトルを取得する。

これらの株は、刊行物ＡｍｅｒｉｃａｎＴｙｐｅＣｕｌｔｕｒｅＣｏｌｌｅｃｔｉｏｎＡＴＣＣ：「ＢｉｇＳｉｘ」Ｎｏｎ−ｏ１５７ＳｈｉｇａＴｏｘｉｎ−ＰｒｏｄｕｃｉｎｇＥｓｃｈｅｒｉｃｈｉａｃｏｌｉ（ＳＴＥＣ）ＲｅｓｅａｒｃｈＭａｔｅｒｉａｌｓの中で特に識別されている。

バッチＢの微生物が、先行技術の装置および知識ベースによって識別されないこと、したがってバッチＢの微生物が同じ群に属することを確認するために、ステップ３００に基づく群ごとの分類ステップを実行する。バッチＢに対するこの分類の結果が下表７に示されている。

１００％のスペクトルが、ＶＩＴＥＫ（登録商標）ＭＳｖ２．０．０知識ベースおよび分類アルゴリズムによって大腸菌／シゲラ属群に属するものとして正しく予測されている。

ステップ４００に基づく亜群ごとの分類アルゴリズムおよび知識ベースの評価に対して、バッチＢの全てのスペクトルを維持する。

本発明に基づく方法は、予め作成された亜群ごとの知識ベースおよび関連する分類アルゴリズムに基づいて実装される。バッチＢに対する予想される分類の結果は非Ｏ１５７大腸菌亜群型である。

そのために、質量対電荷を調整する第１および第２のモデルを使用して、群レベル分類ステップ中に得られたピークリストの質量対電荷を調整する。これらのモデルは予め定義されている。

分類の性能を向上させるため、任意選択で、質量対電荷の調整に対する品質管理を実行する。それぞれのスペクトルの質量対電荷の調整の品質を保証するために定義される品質基準は以下のとおりである。
− 当該のスペクトルについて、予め決められた３７個の参照質量対電荷のうち少なくとも２８個の質量対電荷が検出されなければならず、それぞれの参照質量対電荷の理論上の位置と、取得されたスペクトル中のこれらの質量対電荷の調整後の位置との間の二乗平均平方根誤差（ＲＭＳＥ）は、１よりも小さくなければならない。

５つのスペクトルはこれらの基準を満たさないが、５８個のスペクトルはこれらの基準を満たす。

予め定義された亜群のレベルでの分類を可能にする知識ベースおよび分類アルゴリズムに基づいて、保持された５８個のスペクトルを分類する。図１２に示されているように、全てのスペクトルが、高スコアで、非Ｏ１５７大腸菌亜群に属するものとして正しく同定されている。加えて、別の亜群で得られた２番目に高いスコアがこれよりもはるかに低いことは明らかである。このことは、この分類のロバストネスを保証している。

Claims

質量分析によって不明微生物亜群を一組の参照亜群の中から同定するための方法であって、それぞれの亜群が、一組の参照群の中の１つの群に属しており、
● 前記一組の参照群に属する微生物として同定された微生物の一組の学習スペクトルに基づいて、関連群ごとに１つの知識ベースおよび１つの分類モデルを構築する第１のステップと、
● 前記１つの群の前記亜群に属する微生物として同定された微生物の少なくとも一組の学習スペクトルの取得に基づいて、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する第２のステップであり、前記一組の参照群の各群について、
○ 前記１つの群の前記亜群の前記学習スペクトルの質量対電荷オフセットを前記１つの群の前記さまざまな亜群に共通する参照質量対電荷に基づいて補正することを可能にする調整モデルを構築すること、
○ 前記１つの群の前記亜群の前記学習スペクトルの全てのピークリストの質量対電荷を調整すること、
○ 前記亜群の調整された前記学習スペクトルに基づいて、亜群ごとに１つの分類モデルおよび関連知識ベースを構築すること
を含む第２のステップと、
● 不明微生物を１つの亜群に分類する第３のステップであり、
○ 前記不明微生物の少なくとも１つのスペクトルを取得すること、
○ 前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、前記スペクトルを１つの群に分類すること、
○ １つの群の前記調整モデルに従って、前記スペクトルの全てのピークリストの質量対電荷を調整し、前記不明微生物のスペクトルの質量対電荷オフセットを補正することを可能にすること、
○ 前記亜群ごとの分類モデルおよび前記亜群ごとの知識ベースを用いて、調整された前記ピークリストを前記１つの群の１つの亜群に分類すること
を含む第３のステップと
を含む方法。
関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する前記ステップの中に、
● 前記さまざまな亜群に共通する参照質量対電荷に基づいて前記取得されたスペクトルの質量対電荷オフセットを補正することを可能にする第２の調整モデルを構築すること、
● 前記第２の調整モデルに基づいて前記学習スペクトルの全てのピークリストの質量対電荷を調整する第２のステップ
を含む、請求項１に記載の同定方法。
前記参照質量対電荷のリストを最適化するステップを含み、前記最適化ステップが、前記調整ステップのうちの少なくとも１つの調整ステップの後に得られた調整の品質に基づく、請求項１または２に記載の同定方法。
調整モデルの前記構築が、前記さまざまな亜群に共通する参照質量対電荷の既知のリストを使用する、請求項１から３のいずれか一項に記載の同定方法。
前記さまざまな亜群に共通する前記既知の参照質量対電荷が、
● 参照質量対電荷の付近のピークの存在または非存在を許容係数に従って検出すること、
● 各前記亜群のピークの存在の頻度に応じて前記質量対電荷をフィルタリングし、かつ／または保持された前記参照質量対電荷の位置を近似すること
からなるステップを用いて選択される、請求項４に記載の同定方法。
前記さまざまな亜群に共通し、前記１つの群の各前記亜群の前記ピークの存在の頻度の統計的基準に従って推測された参照質量対電荷のリストを、調整モデルの前記構築が使用する、請求項１から５のいずれか一項に記載の同定方法。
前記さまざまな亜群に共通する前記参照質量対電荷が、
● 各亜群のそれぞれの前記スペクトルの質量対電荷の空間を離散化すること、
● 前記離散化ステップによって画定された質量対電荷の付近のピークの存在または非存在を許容係数に従って検出すること、
● 各前記亜群のピークの存在の頻度に応じて前記質量対電荷をフィルタリングすること、
● 保持された質量対電荷の位置を近似すること
からなるステップを用いて推測される、請求項６に記載の同定方法。
前記離散化ステップが、前記スペクトルの前記取得の後に得られた質量対電荷の区間に関して制限された質量対電荷の前記区間にわたって実行される、請求項７に記載の同定方法。
前記近似ステップが、保持された各質量対電荷の付近に存在するピークの位置の分布を代表する位置を探索することからなる、請求項５から８のいずれか一項に記載の同定方法。
関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する前記ステップが、前記取得されたスペクトルの質量対電荷を離散化するステップを含む、請求項１から９のいずれか一項に記載の同定方法。
関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する前記ステップが、前記取得されたスペクトルの強度を処理するステップを含む、請求項１から１０のいずれか一項に記載の同定方法。
関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する前記ステップが、前記取得されたスペクトルの品質を制御するステップを含む、請求項１から１１のいずれか一項に記載の同定方法。
前記１つまたは複数の調整モデルのパラメータが、ロバスト推定法と呼ばれる方法を用いて得られる、請求項１から１２のいずれか一項に記載の同定方法。
関連群ごとに１つの知識ベースおよび１つの分類モデルを構築する前記第１のステップのために取得された前記スペクトルが、関連亜群ごとに１つの知識ベースおよび１つの分類モデルを構築する前記第２のステップのために直接に使用され、学習微生物の群および亜群が既知である、請求項１から１３のいずれか一項に記載の同定方法。
質量分析によって微生物を同定するためのデバイスであって、
● 同定する微生物の質量スペクトルを生成することができる質量分析計と、
● 請求項１から１４のいずれか一項に記載の方法を実施することによって、前記質量分析計によって生成された前記質量スペクトルに関連づけられた前記微生物を同定することができるコンピューティングユニットと
を備えるデバイス。
質量分析によって微生物を同定するためのデバイスであって、
● 同定する微生物の少なくとも１つの質量スペクトルを取得することができる質量分析計と、
● 前記質量分析計によって取得された前記少なくとも１つの質量スペクトルに関連づけられた微生物を同定することができるコンピュータシステムと
を備え、前記システムが、
− コンピュータメモリであり、
○ 微生物の群ごとの１つの知識ベースおよび１つの分類モデルと、
○ 微生物の亜群ごとの１つの知識ベースおよび１つの分類モデルと、
○ 前記質量分析計によって取得された前記スペクトルの質量対電荷オフセットを、前記亜群ごとの知識ベースおよび分類モデルの前記さまざまな亜群に共通する参照に基づいて補正するための調整モデルと、
○ 前記取得された質量スペクトルに基づいてピークリストを作成するためのコンピュータ命令と、
○ 前記群ごとの分類モデルおよび前記群ごとの知識ベースに従って、前記微生物を、作成された前記ピークリストに応じて１つの群に分類するためのコンピュータ命令と、
○ 前記調整モデルに従って前記ピークリストを調整するためのコンピュータ命令と、
○ 前記亜群ごとの分類モデルおよび前記亜群ごとの知識ベースに従って、前記微生物を、調整された前記ピークリストに応じて１つの亜群に分類するためのコンピュータ命令と
を記憶したコンピュータメモリ、
− 前記微生物を１つの群および１つの亜群に分類するように前記コンピュータメモリに記憶されたコンピュータ命令を実装するための、マイクロプロセッサベースのコンピュータユニット、
− 前記分類の結果を記憶するためのコンピュータメモリおよび／または前記分類の結果を表示するための表示画面
を備える、
デバイス。