JP6525864B2

JP6525864B2 - スペクトルデータに基づいたサンプルの分類方法、データベースの作成方法及び該データベースの使用方法、並びに対応するコンピュータプログラム、データ記憶媒体及びシステム

Info

Publication number: JP6525864B2
Application number: JP2015505675A
Authority: JP
Inventors: ルネ・ライモント・パルヘン; アルヤン・ラウレンス・ファン・ヴゥイクホイセ; アドリアヌス・ボス
Original assignee: Biosparq BV
Current assignee: Biosparq BV
Priority date: 2012-04-10
Filing date: 2013-04-10
Publication date: 2019-06-05
Anticipated expiration: 2033-04-10
Also published as: US20150066377A1; CN104380311B; JP2015516570A; IN2014DN09363A; EP2836958B1; BR112014025246A8; CN104380311A; NL2009015C2; RU2633797C2; RU2014145011A; EP2836958A1; WO2013154425A1

Description

本発明は、スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法に関する。例えば、スペクトルデータはラマンスペクトル、近赤外スペクトル、ＦＴ−ＩＲスペクトル、周波数スペクトル、ＭＡＬＤＩＭＳスペクトル又はＭＡＬＤＩＴＯＦ−ＭＳスペクトルを含む。これらの技術のうちの１つを用いて得られるスペクトルは、サンプルの成分、すなわちサンプル中に存在する分子に関連し得る。

しかしながら、スペクトルを得るために使用される技術に関わらず、同じクラスに属するサンプルのスペクトル間で変動が生じる。これらの変動は確率的影響に起因し得る。これらの確率的影響は測定技術若しくは調査中のサンプル、又はその両方に関連し得る。

したがって、スペクトルデータを分析する従来の方法は、分類されるスペクトルが多数の粒子、例えば分子を有するサンプルから得られることを必要とする。多数の粒子を必要とすることで、確率過程に起因するスペクトルの特性は、安定過程によって引き起こされる特性と比較して抑制される。しかしながら、これは少数の粒子を含むサンプルの分析において、従来の方法を不適切なものとする。確率的影響が主に測定技術自体に起因するとき、従来の方法は、分類されるスペクトルが累積スペクトルとしても知られている、いわゆる和スペクトルであることを必要とし、それらは同じサンプルの多数のスペクトルを足し合わせることによって得られる。このアプローチによって、測定技術に起因する確率過程は和スペクトルにおいて抑制される。しかしながら、これは和スペクトルが得られないときのサンプルの分類において、従来の方法を不適切なものとする。

上記の問題を例示的な場合について説明する。そこではスペクトルデータは質量分析（ＭＳ）を用いて得られる。

従来のＭＳスペクトル、特に飛行時間（ＴＯＦ）質量スペクトルは、イオン化によって形成されたイオンプルーム中の非常に豊富なイオンの質量に対応する質量で大きなイオン強度を示す。一般に、これらの非常に豊富なイオンは分析物中に存在する非常に豊富な分子から生じる。

しかしながら、分子がイオン化される容易さに大きな変動性があるので、非常に豊富な分子の存在は自動的に大きなイオン強度を生成しない。

さらに、イオン化効率は、イオン化事象によって大きく異なり得る多数の要因に依存する。例としては、存在する分析物の量、マトリックスと分析物との比、マトリックスの結晶構造、及びマトリックス結晶及び分析物の位置でのレーザ光の強度である。したがって、単一イオン化事象によって生成されるイオン強度は大幅に変化する。

その上、イオン化の際に、検討中の分子はより小さな断片に分解し得、いくつかの分子は二重又は三重の電荷を得る可能性があり、分子はプルーム中でクラスター化し得る、等がある。したがって、分析物分子の質量に対応する質量で発生する高イオン強度は別として、単一イオン化事象のスペクトルは、分析物分子の質量と相関しない位置でピークを示す。しかしながら、分解、荷電及びクラスター化の過程は実際には非常に確率的であるため、非相関ピークの位置はイオン化事象によって大きく変化する。

ＭＡＬＤＩＭＳでの従来の分類方法においてしっかりした（ロバスト、ｒｏｂｕｓｔ）かつ安定したスペクトルを生成するために、ターゲットプレートのスポット上の種々の位置で記録された多数の単一イオン化事象が合計される。

こうして、イオン化の際に確率過程によって引き起こされるイオン強度は、安定過程によって引き起こされるイオン強度と比較して抑制される。安定過程は和スペクトルにおいて高強度の狭い領域（ピーク）を生成し、一方で、より確率的な特性を有する過程は和スペクトルにおいて広い低強度応答（ベースライン）を生成する。

和スペクトルにおいて現れるピークは、分析物中の容易に（効率的に）イオン化可能な豊富な分子と関連し得る。一般に、これらのピークはスペクトルの分類に使用され、したがってスペクトルの特徴的な特性であると考えられる。

得られたスペクトルは、ターゲットプレートのスポット上の種々の位置で記録された多数の単一イオン化事象から生じるため、これらの従来のＭＡＬＤＩスペクトルはサンプルの多くの粒子のスペクトルの和である。例えば、サンプルが微生物を含む場合、従来の方法は多くの微生物から得られたスペクトルに依存する。

従来の方法を単一粒子スペクトル、例えば単一エアロゾル粒子スペクトルに適用するときにも同様の問題が生じる。従来の方法では、ロバストかつ安定したスペクトルを生成するために、単一分離株に由来する微生物から得られた多数の単一エアロゾル粒子のスペクトルは和スペクトルに統合される。この和スペクトルは、滑らかなベースラインに重なった有限数の個別のスペクトル特性（ピーク）によって特徴付けられる。

蓄積されたスペクトルを構築する個々の単一粒子スペクトルは、多数のピークと及びベースラインの欠如とによって特徴付けられる。蓄積されたスペクトルにおけるピーク位置とまさに一致した場所で発生するピークもあれば、一致しない場所で発生するピークもある。さらに、単一粒子スペクトルはショット間で示す変動が大きいようである。

図１は、単一分離株に由来するサンプルから得られた多数の単一粒子スペクトルから蓄積されたスペクトル（Ｐ）の例を、基本的な単一粒子スペクトルのいくつかの典型的な例（Ｑ、Ｒ、Ｓ、Ｔ）と共に示している。

ショット間の変動が大きく、そして、単一粒子のピーク位置と蓄積されたスペクトルのピーク位置との間の相関が限られている。そのために、特定の位置（電荷当たりの質量）でのスペクトルの振幅と、関連する質量を有するイオン形成物質の存在との間に決定論的な関係は存在しない。

国際公開第２０１０／０２１５４８号

上記の例では、スペクトルデータを分析することにおける従来の方法の問題点を説明している。これらの方法は、上記のショット間の変動を考慮に入れないので、それらは直接単一粒子スペクトルを扱うことができない。さらに、これらの方法は測定技術に起因した変動、例えば上述したＭＡＬＤＩＭＳにおけるイオン化に起因した変動を扱うことができない。

本発明の目的は、スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類するための改善された方法を提供することであり、該方法は同じクラスに属するスペクトルが変動を示すときに効果的かつロバストである。

この目的は、本発明に従って、スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法によって達成され、該方法は、
ａ）基準スペクトルとして使用するために、第１スペクトルの少なくとも２つのセットを得る工程、各セットは同じクラスに属する基準サンプルのスペクトルを含む；
ｂ）基準スペクトルの各々について、スペクトル特性に関連した同じ少なくとも１つの量の値を決定する工程；
ｃ）決定された値に基づいて、量の種々（ｄｉｆｆｅｒｅｎｔ）の値に確率を関連付ける工程；
ｄ）サンプルからスペクトルを取得し、このスペクトルの同じ少なくとも１つの量の値を決定する工程；及び
ｅ）確率及び前記少なくとも２つのクラスの各々について得られたスペクトルにおける量の値に基づいて、サンプルがそのクラスに属する確率を計算する工程、を含む。

ステップａ）−ｃ）は基準ライブラリの作成を説明している。ステップｄ）及びｅ）はサンプルをこの基準ライブラリと比較することを説明している。

ステップｂ）では、基準スペクトルの各々について、同じ少なくとも１つの量の値が決定される。例えば、この値を得るために、スペクトルデータに対して数学的演算が実行される。言い換えれば、ステップｂ）は、基準スペクトルの各々に所定の関数又は演算を適用することによって、スコア（値）を得ることを説明している。

ステップｂ）の結果は、基準スペクトルの各々はそれを少なくとも１つの値に関連付け、各値は所定の量、すなわちスペクトルに対する所定の演算に対応するということである。次に、基準スペクトルの各セットについて、確率は、そのセットにおけるスペクトルについて決定された値に基づいて、少なくとも１つの量の種々の値に関連付けられる。これにより、確率密度関数（ＰＤＦ）が構成されると考えることができる。例えば、ＰＤＦは離散確率密度関数であり、それは、例えば、アレイ又はヒストグラムとして表され得る。

ステップａ）−ｃ）の最終結果は、基準スペクトルの各セットは、それを少なくとも１つの量の各々について、各量の値のＰＤＦに関連付けるということである。例えば、ＭＳスペクトルデータの場合、選択された量の１つは、Ｍ／Ｚ＝１０００ダルトンでの、スペクトル振幅としても知られているスペクトル強度である。この例では、基準スペクトルの各セットについて、ＰＤＦはＭ／Ｚ＝１０００ダルトンでの強度で作成される。ＰＤＦは一般に、基準スペクトルの種々のセットにおいて非常に異なっており、なぜならそれらは異なるクラスに対応するためであることに留意されたい。

ステップｄ）では、サンプルのスペクトルが得られ、またこのスペクトルについて、少なくとも１つの量の値が決定される。事前に構築されたＰＤＦに基づいて、サンプルが各基準クラスに属する確率がステップｅ）で計算される。

本発明による方法は、各クラスについて（所定の演算／関数に関連した）量の値（スコア）のＰＤＦを使用するため、該方法は同じクラスのスペクトルにおける変動を考慮する。特に、特性の存在及び欠如の両方は、少なくとも１つの量の値によって表されるように、本発明による方法において考慮されることに留意されたい。

本発明による方法のさらなる利点は、ステップｅ）における最終結果は確率であるということである。確率は正規化された量、すなわち確率は０と１との間の値であるため、サンプルのスペクトルが第１の基準クラスに属する確率を、そのスペクトルが第２のクラスに属する確率と比較することができる。これは、スコアは計算されるが正規化されない従来の方法に勝る利点である。

さらに、本発明は分類を合格又は不合格とすることについて基準を定義することが可能である。一般に、サンプルのスペクトルがそのクラスに属する確率が最も高くなるように、スペクトルはクラスに割り当てられる。しかしながら、この確率は、例えば０．２など、比較的低いかもしれない。本発明は、合格とすることができる分類に対して最小値を表す閾値を定義することが可能である。全てのクラスについての最大確率が閾値を下回っているサンプルのスペクトルは分類されない。すなわち、それらは未知のクラスに分類される。非正規化スコアが従来の方法のように使用されるとき、このような手順は不可能である。なぜならその場合、閾値が任意となるためである。

本発明による方法の好ましい実施態様では、スペクトルデータは、ラマンスペクトル、近赤外スペクトル、ＦＴ−ＩＲスペクトル、周波数スペクトル、ＭＡＬＤＩＭＳスペクトル又はＭＡＬＤＩＴＯＦ−ＭＳスペクトル、好ましくはＭＡＬＤＩＴＯＦ−ＭＳスペクトルを含む。

上記で指摘したように、特にＭＡＬＤＩＭＳスペクトル及びＭＡＬＤＩＴＯＦ−ＭＳスペクトルでは、粒子の同じクラスに属するスペクトル間の変動はかなり大きい。したがって、本発明による方法は、特にこれらの測定技術において有利である。

本発明の好ましい実施形態では、基準スペクトル及びサンプルから得られたスペクトルは、単一粒子のスペクトルである。

これは、少数の粒子の極端な例を表す。上述したように、本発明による方法は、特に単一粒子のスペクトルに存在する、同じクラスに属するスペクトルにおける変動を考慮することが可能である。

上述したように、本発明による方法は、単一粒子及び２つ以上の粒子の両方、さらには多数の粒子に適用可能である。

好ましくは、本方法はＭＡＬＤＩＭＳ、好ましくはＭＡＬＤＩＴＯＦ−ＭＳを用いて、サンプルから単一粒子のスペクトルを得るステップを含む。これにより、粒子の混合物の分析が可能となる。混合物の多くの粒子から得られたスペクトル、すなわち複合スペクトルを分析する代わりに、スペクトルは混合物の単一粒子について得られ、個々の粒子は単一粒子のスペクトルに基づいて分類される。

例えば、ＭＡＬＤＩＴＯＦＭＳスペクトルなどのＭＡＬＤＩ質量スペクトルは、サンプルを多くても１つの粒子を含む液滴に分割することによって、単一粒子について得られる。これらの液滴からエアロゾルが形成され、それは続いてイオン化されてＭＡＬＤＩＭＳを用いて分析される。国際公開第２０１０／０２１５４８号を参照し、その全体が参照により援用される。これは、多くても１つの細胞を含む液滴を生成し、その後にＭＡＬＤＩＭＳにより分析するためのシステム及び方法を記載している。このような装置を用いることにより、混合物の個々の細胞のスペクトルが得られる。これらのスペクトルは本発明による方法を用いて分類され、サンプル成分の分類が得られる。

好ましい実施形態では、サンプルは生体サンプルである。

生体サンプルは微生物などの生物の分子、又はタンパク質などのそのような生物によって産生される分子を含む。特に、基準スペクトル及びサンプルから得られるスペクトルは、生体サンプルの単一粒子のスペクトルである。同じクラスに属する生体サンプルのスペクトルの変動は特に顕著であるため、本発明の方法は、特に生体サンプルに有益である。これらの変動は、例えば生物のライフサイクル、及び、例えば種などの同じクラスの生物の個体間の差異から生じる。

本発明によるさらに好ましい実施形態では、生体サンプルは微生物を含み、分類は微生物の分類を含む。

好ましくは、基準スペクトル及びサンプルから得られるスペクトルは、単一微生物のスペクトルである。これにより、微生物の混合物の分析が可能となる。例えば、微生物の混合物は希釈されて、その後、多くとも１つの粒子を含む液滴に分割され、続いてスペクトルは上述したように、ＭＡＬＤＩ−ＭＳを用いて液滴から得られる。

本発明による好ましい実施形態では、少なくとも１つの量は、基準クラスの特徴的なスペクトル特性に基づいて選択される。この内容は請求項６に対応する点を留意されたい。

例えば、ＰＤＦは、クラスＡの特徴的なスペクトル特性に関連する量の値について、クラスＡ、Ｂ及びＣに対してステップａ）〜ｃ）で得られる。例えば、クラスＡのスペクトルは、特徴的なスペクトル特性として、位置Ｘにおいてピークを示す。それに応じて、位置Ｘにおけるスペクトルの強度は値（スコア）として選択される。位置Ｘでのこの強度は、クラスＡ、クラスＢ及びクラスＣ全てについて計算される。位置ＸでのピークがクラスＡに特徴的であるため、クラスＡについて得られたＰＤＦはＸでの高強度において高い確率を示す。一般に、クラスＢ及びクラスＣは、位置Ｘでの高強度において低い確率を示す。そのため、特定のクラスの特徴的なスペクトル特性を少なくとも１つの量の１つとして選択することによって、本方法は特徴的なスペクトル特性の有無に基づいて、スペクトルがこのクラスに属するかどうかを決定することができる。

好ましくは、２つ以上の量は、好ましくは２つ以上の基準クラスの、好ましくは２つ以上の特徴的なスペクトル特性に基づいて選択される。例えば、クラスＡ、Ｂ及びＣについて、スコアＩ₁及びＩ₂が計算され、それらは基準クラスＡの２つの異なるスペクトル特性に関連する。別の例では、スコアＩ₁、Ｉ₂及びＩ₃が計算され、Ｉ₁はクラスＡのスペクトル特性に関連し、Ｉ₂はクラスＢのスペクトル特性に関連し、かつＩ₃はクラスＣのスペクトル特性に関連する。

好ましくは、特徴的なスペクトル特性は基準クラスの累積スペクトルに基づいて決定される。基準クラスの累積スペクトルは、例えば、同じクラスに属する個々の基準サンプルのスペクトルを合計することによって得られる。上述したように、これらの累積スペクトルは、所与のクラスのそれぞれ個々のスペクトルには存在しないかもしれないが、そのクラスにおいて特徴的である特性を示す。各セットの基準スペクトルを足し合わせ、和スペクトルの特徴的なスペクトル特性を決定することによって、量はステップａ）に記載されているように基準スペクトルのセットを用いて決定され得ることに留意されたい。

好ましくは、特徴的なスペクトル特性は基準クラスの累積スペクトルにおけるピークを含む。例えば、特徴的なピークの位置を見つけるために、ピーク検出アルゴリズムが和スペクトルに適用される。そして、選択された量は、これらのピーク位置での、又はこれらの位置を含む所定の間隔での強度である。

本発明の好ましい実施形態では、本方法は、値Ｉ_iがスペクトル特性量Ｑ_iに関連して得られるサンプルスペクトルについて、

に従って、値Ｉ_iを考慮してサンプルが基準クラスＡ^jに属する確率Ｐ（Ａ^j｜Ｉ_i）を計算する工程を含み、
式中、Ｐ（Ｉ_i｜Ａ^j）は基準クラスＡ^jの値Ｉ_iと関連した確率であり、ｋ≠ｊを有するＰ（Ｉ_i｜Ａ^k）は基準クラスＡ^jとは異なる少なくとも１つの基準クラスの値Ｉ_iと関連した確率である。

特性Ｑ_iは、好ましくは特定のクラスの特徴的な特性に関連する。例えば、量Ｑ₁、Ｑ₂はクラスＡ¹の特性に関連し、量Ｑ₃、Ｑ₄及びＱ₅はクラスＡ²の特性に関連する。

量Ｑ_iが特定のクラスＡ^jに関連する場合、この量はまた、異なるクラスＡ^k≠jの確率を得るために使用され得ることに留意されたい。上記の例で示されるように、量Ｑ₂の値Ｉ₂はクラスＡ¹の特徴的な特性についての測定値であるが、それはＰ（Ａ²｜Ｉ₁）、すなわちＩ₁の測定値を考慮してスペクトルがクラスＡ²に属する確率を計算するために使用され得る。

クラスが非常に異なっているとき、これは非常に低い確率をもたらす。しかしながら、そのような計算は、特性がより類似しているクラスにとってより重要となり得る。

本方法のステップｃ）では、ＰＤＦは各基準クラスＡ^jの値Ｉ_iに対して計算される。このＰＤＦを用いて、サンプルについて得られた値の確率、Ｐ（Ｉ_i｜Ａ^j）が計算される。この確率は、サンプルが基準クラスＡ^jに属する場合、サンプルが測定値Ｉ_iを引き起こし得る確率を表している。ベイズの定理によれば、これは、値Ｉ_iの測定値を考慮して、サンプルがクラスＡ^jに属する確率と相関し得る。

式で示されるように、この計算はまた、他の基準クラス全てにわたってＰ（Ｉ_i｜Ａ^k）Ｐ（Ａ^k）の合計を必要とする。再度、各ｋについてのＰ（Ｉ_i｜Ａ^k）の値は、本方法のステップｃ）において得られたＰＤＦを用いて得られる。

好ましくは、確率Ｐ（Ａ^j）は全てのｊ（ｊ＝ｋを含む）について等しいと仮定される。項Ｐ（Ａ^j）及びＰ（Ａ^k）は、式から除去できる。本発明者らが、サンプルのスペクトルが基準クラスに属する確率がライブラリの各基準クラスにおいて等しいと仮定した場合、このアプローチは正当化される。サンプルの内容について、事前の知識が利用できないとき、このアプローチは特に有用である。しかしながら、サンプルが特定のクラスに属する事前の確率が他のクラスよりも高い又は低いということに基づいて知識が利用可能である場合、Ｐ（Ａ^j）の異なる値が本発明に従って使用され得る。

本発明による好ましい実施形態では、ステップｂ）は、基準スペクトルの各々について、スペクトル特性に関連した同じ少なくとも２つの量の値を決定する工程を含み、ステップｅ）は、全ての量について得られた確率をサンプルがそれぞれのクラスに属する全体的な確率に組み合わせる工程を含む。

上述したように本発明の方法を用いてスペクトルを分類するのに１つの量のみが使用される場合、その１つの量に対応して、単一の確率が各基準クラスにおいて得られる。しかしながら、２つ以上の量、すなわち少なくとも２つの異なる量がスペクトルについて決定された場合、次に各基準スペクトルについて、各量に対応して多数の確率が得られる。本発明のこの実施形態によれば、これらの確率は、例えば論理ＯＲ及び／又はＡＮＤによって、全体的な確率に組み合わされる。これは個々の量についての個々の確率の合計及び追加に変換する。

これは、基準クラスＡ^jの各々について、関数Ｆ（Ｐ（Ａ^j｜Ｉ₁）、Ｐ（Ａ^j｜Ｉ₂）、．．．、Ｐ（Ａ^j｜Ｉ_n））として表され得る。

関数Ｆについて、２の極端な形式が定式化され得る：

・全てのｎ個の特性がクラスＡ^jに存在

・任意のｎ個の特性がクラスＡ^jに存在

式中、

上記の２つの極端な形式はさておき、あらゆる他の多変量（自己学習）分類方法、例えば主成分分析又はサポートベクターマシンなどを使用することができる。

本発明者らは、Ｐ（¬Ａ^j｜Ｉ_i）の式は、Ｐ（Ａ^j｜Ｉ_i）について上述した方法と同様の方法で得られることに留意する。この場合、Ｐ（¬Ａ^j｜Ｉ_i）のＰＤＦは、基準クラスのセットからステップａ）−ｃ）において得られる。実際、単一ＰＤＦはクラスＡ^jに属さない全ての基準スペクトル、すなわちｋ≠ｊの全ての基準クラスＡ^kについての値Ｉ_iに基づいて得られる。例えば、３つの基準クラスＡ、Ｂ及びＣが選択されるとき、Ｐ（¬Ｃ｜Ｉ_i）を計算するためのＰＤＦは、基準クラスＡ及びＢのスペクトルについて得られた値に基づいて得られる。

本発明による好ましい実施形態では、値は少なくとも１つの所定のスペクトル値又はスペクトル値の所定の範囲内での強度に関連する。

例えば、値は所定のスペクトル値での強度、すなわちスペクトルのＸ軸に沿った所与の位置での振幅に等しいスカラーである。別の例では、値はスペクトル値の所定の範囲の強度の和に等しい。

例えば、質量スペクトルでは、量は所定の質量対電荷比、又は質量対電荷比の所定の範囲でのピーク強度である。

好ましくは、所定のスペクトル値又は所定のスペクトル範囲は、基準クラスの特徴的なスペクトル特性に基づいて選択される。例えば、スペクトル値又はスペクトル値の範囲は、基準クラスの和スペクトルがスペクトルにおいてピークを示す値又は範囲として選択される。

好ましい実施形態では、得られた値は正規化される。

正規化は、例えば、ＭＳスペクトルにおける全イオン収量の変動に起因した、種々のスペクトル強度における変動を補正する。このような変動は、例えば確率的影響に起因して、又は測定システムのドリフトに起因して発生し得る。さらに、本方法においてスペクトルデータを得るために２つ以上の測定システムを用いるとき、異なるシステムによって得られたスペクトルにおいて強度の違いが予測される。

したがって、正規化はよりロバストなアルゴリズムを導く。例えば、値はそれをスペクトルの全体又は一部にわたる強度の和で割ることによって正規化される。その後、正規化されたスペクトルを用いて、本方法のステップｃ）に従ってＰＤＦを得る。また、サンプルのスペクトルから得られた値を正規化し、対応する量についての各基準クラスのＰＤＦと比較する。

さらに好ましい実施形態では、値はスペクトル値の所定の範囲にわたるそれぞれのスペクトルと重み関数とを乗算することによって決定される。

例えば、スペクトルがベクトル、すなわちスペクトルの振幅を表すスカラーの所定数の配列として表される場合、重み関数は重みベクトルの形態をとる。その場合、重み関数とスペクトルとの乗算は、重みベクトルとスペクトルベクトルとのドット積をとることに相当する。

実際には、スペクトルの特定の領域は他の領域よりも所与の量について関連している。これは、重み関数を乗算することによって説明され得る。例えば、スペクトル全体に重み関数が乗じられる。しかしながら、ほとんどの場合、目的のスペクトルの特定領域のみが選択されて、重み関数が乗じられる。本発明者らは、これは、重み関数が目的領域外で０の値を有する重み関数とスペクトル全体とを乗算することと等しいということに留意する。

好ましくは、本方法は値を正規化するステップ、かつ重み関数を乗算するステップの両方を含む。本発明者らは、これらのステップは適切な重み関数を選択することによって組み合わせられることに留意する。

さらに好ましい実施形態では、重み関数は同じクラスのスペクトルの累積スペクトルに基づくものである。

上述したように、重み関数はスペクトルの重要な部分により多くの重みを与える。スペクトルのどの部分が実際に重要な部分を構成しているかは、それぞれのクラスの累積スペクトルに基づくことができる。例えば、和スペクトルにおけるピークの位置を見つけるために、ピーク検出アルゴリズムを累積スペクトルに適用し、重み関数は、それがスペクトルの他の部分よりもピーク及び/又はピーク付近の位置で強度により多くの重みを置くように選択される。例えば、ピークは累積スペクトルにおいて検出され、かつピークの幅が決定される。その後、重み関数はスペクトルのコピーとして選択され、ピーク幅以外の重み関数の値はゼロに設定される。必要に応じて、重み関数はまた、累積スペクトルのベースラインに対して補正される。好ましくは、重み関数は、その値の合計が１に等しくなるように、又はスペクトル曲線下での面積が１に等しくなるように正規化される。

本質的に、上記の例の重み関数は最大ピークに最も重みを置き、ピークから離れた強度により少ない重みを置く。

本発明によるさらに好ましい実施形態では、値は少なくとも２つの所定のスペクトル値での、又は少なくとも２つの所定のスペクトル範囲内での強度間の比に関連する。

これは、値がスペクトルの特定の領域間での相関に敏感であるという利点を有する。

代替実施形態では、値はスペクトル値の所定の範囲内のピーク位置に関連する。

上述したように、値はスカラー値であり得る。しかしながら、本発明による好ましい実施形態では、値はベクトルである。この場合、ベクトルと関連する確率は、多変量確率密度関数Ｐ（Ｉ₁、Ｉ₂、．．｜Ａ^j）となる。例えば、ベクトルの要素は種々の量に関連する。すなわち値は種々のスペクトル特性に関連する。極端な場合では、１つのベクトルのみが計算され、ベクトルの要素は全ての選択されたスペクトル特性に対応する。この場合、論理ＡＮＤ及び/又はＯＲを用いて種々の量の確率を組み合わせる工程、例えば、上述したように関数Ｆ（．．．）を用いてこれらの確率を組み合わせる工程は必要ではない。

本発明による好ましい実施形態では、ステップｄ）及びｅ）は基準クラスの第１セットに対して、続いて基準クラスの第２セットに対して実施され、第２セットは第１セットの基準クラスのうちの１つへのサンプルの分類に基づいて選択される。

これは基準ライブラリの階層を定義する。サンプルは最初にメインクラス（基準クラスの第１セット）に分類され、続いてメイン基準クラスのサブクラス（基準クラスの第２セット）に分類される。これは、最も低いレベルのクラス全てを含む基準ライブラリを用いて分類するよりも計算上集中度が低い。したがって、本発明による方法は効率的である。

さらに、各分類ステップについて、サンプルは比較的少数の基準クラスを含む基準ライブラリと比較される。したがって、基準クラスのセットは、各セットの基準クラスがほとんど重複を示さず、かつ分類の質が向上するように選択され得る。

好ましくは、第１セット及び第２セットは生物学的な分類階層に基づいて選択される。

例えば、サンプルが生体サンプルを含むとき、サンプルの分類について生物学的な分類階層が用いられ得る。例えば、分類セットの選択は、微生物の目、科、属、種又は株に基づく。

好ましい実施形態では、ステップｄ）はサンプルから少なくとも２つのスペクトルを得る工程、及びこれらの少なくとも２つのスペクトルの同じ少なくとも１つの量の値を決定する工程を含み、ステップｅ）は同じクラスに分類されたサンプルスペクトルを累積スペクトルに統合する工程、及びこの累積スペクトルをそれぞれのクラスの基準スペクトルを統合することによって得られた累積基準スペクトルと比較する工程を含む。

このステップは分類の任意の最終確認を提供する。複数のスペクトルがサンプルから得られる。これらのサンプルのスペクトルは上述されたように分類される。続いて、同じクラスに分類されたスペクトルは統合され、例えば足し合わされて累積サンプルスペクトルが得られる。この累積サンプルスペクトルは、それぞれのクラスの基準スペクトルの累積スペクトルと比較される。

本発明者らは、サンプルは成分の混合物、例えば種々の分子又は微生物の混合物を含んでもよいことに留意する。したがって、このような混合物のスペクトルは種々のクラスに分類され得る。その場合、スペクトルはクラスごとに統合される。

例えば、サンプルは粒子Ａ及びＢを含む。サンプルからは１００個の単一粒子スペクトルが得られる。本発明の方法を用いて、８９個のスペクトルはクラスＡに属するものとして分類され、かつ１１個はクラスＢに属するものとして分類される。続いて、クラスＡの累積サンプルスペクトルは、それぞれ８９個のサンプルスペクトルを統合することにより得られる。また、クラスＢについて、累積サンプルスペクトルは、それぞれ１１個のスペクトルを用いて得られる。その後、クラスＡ及びクラスＢの累積サンプルスペクトルは、クラスＡ及びクラスＢの累積基準スペクトルと比較される。これにより最終確認が提供される。

好ましくは、累積サンプルスペクトルと累積基準スペクトルとの比較では、ステップｂ）の少なくとも１つの量と異なる量により多くの重点を置く。換言すれば、最終確認では、サンプルのスペクトルを分類するのに使用されなかったスペクトル特性により重点を置く。好ましくは、これらの特性のみが考慮される。すなわち、ステップｂ）の少なくとも１つの量は比較には使用されない。

これにより、最終確認は概ね又は完全に分類ステップとの独立性が保証される。

好ましくは、本方法は、基準クラスの第１セットを用いて、続いて基準クラスの第２セットを用いて実施され、第２セットは累積サンプルスペクトルと累積基準スペクトルとの間の比較に基づいて選択される。

階層的な分類手順が定義される。サンプルは、最初に基準クラスの第１ライブラリを用いて分類される。分類は累積サンプルスペクトル及び累積基準スペクトルを用いて検証される。この比較が、サンプルはさらにサブクラスに分類され得るという結論につながる場合には、その後、サンプルは第２ライブラリと比較される。

例えば、累積基準スペクトルと比較すると、追加のピークがサンプルの累積スペクトル中に存在することが比較によって明らかとなる。これは、サンプルが異なるクラスに属する粒子、例えば、分子又は微生物の混合物を含み得ることを示している。したがって、サンプルはその後、基準クラスの第２セットと比較される。

本発明はさらに、スペクトルデータに基づいた少なくとも２つのクラスのうちの１つへのサンプルの分類に使用するデータベースを作成する方法に関し、
ａ）基準スペクトルとして使用するために、第１スペクトルの少なくとも２つのセットを得る工程、各セットは同じクラスに属する基準サンプルのスペクトルを含む；
ｂ）基準スペクトルの各々について、スペクトル特性に関連した同じ少なくとも１つの量の値を決定する工程；及び
ｃ）決定された値に基づいて、量の種々の値に確率を関連付ける工程、を含む。

さらに、本発明は、上記の方法で得られたデータベースを用いて、スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法に関し、該方法は、
ｄ）サンプルからスペクトルを取得し、このスペクトルの同じ少なくとも１つの量の値を決定する工程；及び
ｅ）データベースから得られた確率及び前記少なくとも２つのクラスの各々について得られたスペクトルにおける量の値に基づいて、サンプルがそのクラスに属する確率を計算する工程、を含む。

本発明はさらに、コンピュータ上で実行されたときに、上述の方法のうちの１つのステップを実行するコンピュータプログラム、及びこのようなコンピュータプログラムを含むデータ記憶媒体に関する。

さらに、本発明はスペクトルデータに基づいてサンプルを分類するシステムに関し、
−サンプルからスペクトルを得るように構成された手段；
−上述したように本発明による方法を実施するよう構成された分析手段、を含む。

スペクトルデータに基づいてサンプルを分類する方法について記載したものと同じ利点及び効果が、本発明に従って、データベースを作成する方法、データベースを使用する方法、コンピュータプログラム、記憶媒体及びシステムに適用される。特に、スペクトルデータに基づいてサンプルを分類する方法に関連して記載された特性は、本発明に従って、データベースを作成する方法、データベースを使用する方法、コンピュータプログラム、記憶媒体及びシステムと結び付くことができる。

本発明によるシステムの好ましい実施形態では、システムはサンプルから単一粒子スペクトルを得るように構成された手段を含む。例えば、システムは、液滴が多くても１つの粒子を含むようにサンプルの液滴を形成するよう構成された手段を含み、スペクトルを得るように構成された手段は個々の液滴からスペクトルを得るように構成される。

本発明のさらなる利点、特性及び詳細は、その好ましい実施形態に基づいて明らかとなり、そこでは添付の図面が参照される。

図１は、単一分離株に由来するサンプルから得られた多数の単一粒子スペクトルから蓄積されたスペクトル（Ｐ）、及び前記Ｐのもとになる単一粒子スペクトルのいくつかの典型的な例（Ｑ、Ｒ、Ｓ、Ｔ）を示している。図２は、本発明によるシステムのそのサブシステムを含めた概略図を示している。図３は、生スペクトル（左のグラフ）及び正規化かつベースライン修正されたピーク形状（右のグラフ）について、図表でピーク形状の例を示している。図４は、特性誘導物質を含有する（Ｐ（Ｉ｜Ａ））粒子コレクション（種Ａ）及びこの物質を含有しない（Ｐ（Ｉ｜¬Ａ）コレクション（種Ｂ）それぞれについてのスペクトル特性のスコアにおけるＰＤＦの例を示している。図５は、図４に示される確率密度関数に基づいて、特性誘導物質が単一イオン化事象のスペクトル特性強度の関数として存在／欠如する確率を示している。図６は、縦線で示されるＭ／Ｚ＝５６８９及びＭ／Ｚ＝８３３９でのピークのＰＤＦを推定するために使用される、単一粒子スペクトルを蓄積することによってコンパイルされた、粒子を含有する種Ａの基準を示している。図７は、縦線で示されるＭ／Ｚ＝２１８７及びＭ／Ｚ＝３５５８でのピークのＰＤＦを推定するために使用される、単一粒子スペクトルを蓄積することによってコンパイルされた、粒子を含有する種Ｂの基準を示している。図８は、２つの生物（種Ａ及び種Ｂ）の混合物を含有するサンプルから記録された単一イオン化事象のスペクトルのシーケンスを示している。図９は、単一粒子スペクトルの混合物（上）、種Ａのクラスに割り当てられた単一粒子スペクトル（中央）及び種Ｂのクラスに割り当てられた単一粒子スペクトル（下）の蓄積されたスペクトルを示している。図１０は、種Ａのクラスに割り当てられた粒子の蓄積されたスペクトルと、種Ａの分離株から生じた粒子の蓄積されたスペクトルとの間の比較を示している。図１１は、種Ｂのクラスに割り当てられた粒子の蓄積されたスペクトルと、種Ｂの分離株から生じた粒子の蓄積されたスペクトルとの間の比較を示している。図１２は、９５個の黄色ブドウ球菌（Ｓｔａｐｈｙｌｏｃｏｃｃｕｓａｕｒｅｕｓ）株のコレクションのクラスタグラムの一例を、これらの株から記録されたＭＡＬＤＩ質量スペクトルに基づいて示している。図１３は、本発明による階層的な分類スキームを示している。

例示的な実施形態では、本発明によるシステム２（図２）は、ＭＡＬＤＩＴＯＦＭＳを用いて空気中の細菌などの生物学的物質を検出するために、エアロゾルからスペクトルを作成するよう構成されている。このシステムと古典的なＭＡＬＤＩ機器との間の違いは、エアロゾルビーム発生器４、１２、１４である入口及びサンプル調製であり、そこでマトリックスは順次加えられる。個々の浮遊粒子がエアロゾルビーム６においてシステムに入るように構成されている。これにより、エアロゾルの混合物中の特定の大きさの細菌、ウイルス又は他の生物学的物質などの個々の粒子の分析における可能性が開かれる。例えば、システムの医学的応用が可能である。システムコントローラサブシステム８は、サブシステムからのパラメータを設定、制御、測定、記録及び監視するために使用される。

サンプルのエアロゾルを調製するために、システム２はさらに、とりわけサンプルを希釈するためのサンプル調製ユニット１０、第１ステージ１２、エアロダイナミックレンズ１４、並びにノズル及びスキマーの組立体４を備えている。

レーザサブシステム１６は、トリガ電子装置２２によって制御されるイオン化レーザ１８及びイオン化光学素子２０を備えている。トリガ電子装置２２は、システムコントローラ８及び光電子増倍光学素子２６が備えられた光電子増倍管検出器２４に接続されている。さらに、検出レーザ２８及び検出光学素子３０がサブシステム１６に設けられている。

質量分析サブシステム３２はイオン源３４を備え、それはエアロゾルがレーザ１８からのレーザ束によってイオン化される場所である。ＭＳサブシステム３２はさらに、イオンディフレクタ３６及びＭＳ検出器３８を備えている。イオン源３４、イオンディフレクタ３６及びＭＳ検出器３８は受容器及び飛行管４０に含まれている。この管は圧力計４２、ターボ分子ポンプ４４、４６及びバッキングポンプ４８の組立体によって真空を維持している。イオン源３４及びイオンディフレクタ３６はイオン源制御装置５０に接続されており、これはトリガ電子装置２２並びに信号処理及びデータ管理のサブシステム５２に接続されている。

サブシステム５２は、ＭＳ検出器３８に接続されたデジタイザ５４を備えている。データ管理モジュール５６を介して、デジタイザ５４はシステムコントローラ８に接続されている。システムコントローラ８は分析器５８に接続されている。

システム２はさらに、電源ユニット６０を備えている。接続が全く図面に描かれていないが、このユニットは種々の構成要素に電力を供給する。さらに、システムラック６２及び空気／水の冷却器６４がハウジングシステム２に提供されている。

エアロゾル化された細菌及びタンパク質の粒子を用いて、原理の証明がシステム２において実現された。本発明による方法のステップは、この例示的な実施形態において、分析器５８を用いて実施される。

＜単一粒子中の物質の存在を立証する＞
ＭＳにおける単一イオン化事象スペクトルの非常に確率的である性質により、単一粒子スペクトルの強度Ｉは、分析物の分子の質量に対応する位置で、この分析物の分子Ａが粒子中に存在する確率Ｐ（Ａ｜Ｉ）についての尺度としてのみ考えられ得る。

この確率を定量化することは、ベイズの定理及び確率密度関数Ｐ（Ｉ｜Ａ）に依存しており、それは分析物の分子Ａの存在を考慮して、特性強度Ｉの確率を特定する。

式中、
−Ｐ（Ａ）は物質Ａを含む粒子の割合であり；
−Ｐ（Ｉ｜¬Ａ）は物質Ａを含まない粒子についての強度Ｉの確率密度関数であり；及び
−Ｐ（¬Ａ）は物質Ａを含まない粒子の割合である。

それ故、関数Ｐ（Ｉ｜Ａ）及びＰ（Ｉ｜¬Ａ）が分かっているならば、物質Ａが粒子中に存在する確率は、物質Ａの存在に起因するスペクトル特性の測定強度から導出することができる。

したがって、単一粒子スペクトルを分類するために必要な参照情報は、全ての期待される特性についてのＰＤＦを含む必要がある。

＜単一細胞の起源をその単一粒子質量スペクトルに基づいて立証する＞
細菌などの微生物は、ＭＡＬＤＩ−ＭＳの区別可能な特性をもたらす多くの物質の存在によって特徴付けられる。生物（細菌、ウイルスなど）及び生物の状態（増殖性細胞、芽胞）に応じて、この数は最低５個〜最大５０個又はそれ以上の間で変化し得る。

これらの特性のいくつかは、手元の生物が属する属について代表的なものであり、それらのいくつかは種について、そして、それらのいくつかは株について代表的なものである。

各特性Ｑ_iについて、確率密度関数Ｐ（Ｉ_i｜Ａ^j）は、物質Ａ^jを含むサンプルのスペクトルの特性Ｑ_iについての強度Ｉ_iを測定する確率を表して定義される。

さらに、ｐｄｆのＰ（Ｉ_i｜¬Ａ^j）は、サンプルが物質Ａ^jを含まないとき、特性Ｑ_iについての値Ｉ_iを測定する確率を表して定義される。

これらの２つのｐｄｆは、ベイズの定理に従ってＰ（Ａ^j）とＰ（¬Ａ^j）とともに組み合わされ、測定された特性強度Ｉ_iを考慮して、特性誘導物質Ａ^jが存在する確率Ｐ（Ａ^j｜Ｉ_i）が得られる。

この例では、上述の通り、「クラスＡ^j」の代わりに「物質Ａ^j」が参照されることに留意されたい。実際には、この例は、クラスＡ^jが単一の物質を含む極端な場合を表している。例えば、物質は特定のタンパク質を含む。

単一細胞のＭＡＬＤＩ−ＭＳスペクトルが属、種又は株に属する生物から生じる確率を推定するために、物質Ａ^jがサンプル中に存在する確率を考慮して、関数Ｆ（Ｐ（Ａ^j｜Ｉ₁），Ｐ（Ａ^j｜Ｉ₂），Ｐ（Ａ^j｜Ｉ₃），．．．，Ｐ（Ａ^j｜Ｉ_n））：Ｐ（Ａ^j｜Ｉ₁，Ｉ₂，Ｉ₃，．．．，Ｉ_n）＝Ｆ（Ｐ（Ａ^j｜Ｉ₁），Ｐ（Ａ^j｜Ｉ₂），Ｐ（Ａ^j｜Ｉ₃），．．．，Ｐ（Ａ^j｜Ｉ_n））を用いて、個々の特性についての確率は、属、種又は株がスペクトル中に存在することを表す特性の組合せについての確率に組み合わせられなければならない。

さらに、各物質Ａ^jについての確率は必要に応じて組み合わせることができる。例えば、タンパク質のセットの各タンパク質についての確率を組み合わせることで、所与の微生物の全体的な確率が得られる。

しかしながら、多数の単一細胞スペクトルから蓄積されたスペクトルにおいて確立され得る全ての特性が、全ての単一細胞スペクトル中に存在する必要はない。図１を参照のこと。

例えば、生物のライフサイクルの種々の段階の間（核分裂直前、核分裂直後など）に、細胞は種々のタンパク質を発現し得る。そのため、蓄積されたスペクトルが生物のライフサイクルの全ての段階の間に生物によって産生された全てのイオン化可能なタンパク質を示す一方で、個々の生物のスペクトルは、分析される特定の細胞の特定の段階中に発現かつ産生されたそれらのタンパク質のみを示すことができる。

厳密に言えば、タンパク質発現のライフサイクルにおける段階への依存に関する知識が利用可能であるとき、関数Ｆ（．．．）を定式化することが可能であるかもしれない。あいにく、一般にこの情報は利用できない。

しかしながら、上記で示したように、ライフフェーズにおける差異によって誘発される差異はさておき、単一細胞スペクトル間の変動性についてより多くの原因がある。それ故、上記の情報が利用可能であり得るときでさえ、それに基づく関数Ｆ（．．．）はよくても推定値であろう。

ライフフェーズと単一細胞のタンパク質発現との間の関係に関する情報の可能性を無視すると、関数Ｆ（．．．）の２つの極端な形式が定式化され得る。
−全ての特性が存在

−任意の特性が存在

式中、

＜確率密度関数Ｐ（Ｉ｜Ａ）及びＰ（Ｉ｜¬Ａ）を決定する＞
＜序論＞
Ｐ（Ｉ｜Ａ^j）及びＰ（Ｉ｜¬Ａ^j）のＰＤＦは、物質Ａ^jを確実に含む、及び物質Ａ^jを含まないそれぞれの基準粒子の十分に大きなセットを評価することによって近似され得る。

全ての特性Ｑ_iについてＰ（Ｉ_i｜Ａ^j）を決定するために、特性Ｑ_iを生成する物質Ａ^jを含むことが知られている粒子について単一粒子スペクトルのセットが使用されなければならない。

特性Ｑ_iは、この特性に関連した質量での強度の期待値によって特徴付けられ、それは隣接する質量領域での期待値よりも大きい。したがって、多数の単一粒子スペクトルが合計された場合、蓄積されたスペクトルはピーク（又はポリマーの場合はピークの組み合わせ）を特徴付けるものである。

蓄積されたスペクトルにおけるピークによって特徴付けられた特性についてのＰＤＦは、各単一粒子スペクトルにおいて関連する質量で振幅を記録することによって簡単に推定可能であり、そこでは、これらの振幅を離散振幅容器にビン化し（ｂｉｎｎｉｎｇｔｈｅｓｅａｍｐｌｉｔｕｄｅｓｉｎｔｏｄｉｓｃｒｅｔｅａｍｐｌｉｔｕｄｅｃｏｎｔａｉｎｅｒｓ）、かつ各ビンにおけるスコアを記録された単一粒子スペクトルの総数で除算する。

十分に多数の単一粒子スペクトル及び十分に微細なビン分布を考慮すると、これは確率密度関数の適切な推定をもたらす。

＜特性の抽出＞
あらゆる実際の質量分析計において、蓄積されたスペクトルにおけるピークは有限幅を有する。このため、各特性について単一粒子の振幅を記録するとき、特性が発生し得る有限幅の質量間隔許容しなければならない。

ここで、蓄積されたスペクトルにおけるピークの形状は、有限ピーク幅の影響を考慮に入れるために使用される。この目的のために、ピークが発生し得る質量間隔における蓄積されたスペクトルの形状はコピーされ、間隔の端部でベースライン振幅に対して補正され、かつＡＵＣ＝∫Ｉ（ＭＺ）ｄＭＺ＝１となるように正規化される。

図３は図表でピーク形状の例を示している。

こうして、特性形状関数Ｓ_featureは、

のように定義可能であり、
Ｆ（Ｉ_spectrum（ＭＺ））は、

のように定義される。
最後に、単一粒子スペクトルにつての強度スコアＩＳは、次に質量分析計の全質量範囲にわたる形状関数と単一粒子のイオン強度スペクトルとの積の積分として定義され得る。

イオン強度は有限のサンプリングレートで記録されるので、上記の積分は離散和に置き換えられる。

したがって、強度スコアは２つのベクトルの内積で表すことができる。

式中、

は特性選択ベクトルであり、及び

は単一粒子スペクトルのエネルギーベクトルである。

＜Ｐ（Ｉ｜Ａ）を推定する＞
一般に、微生物のＭＡＬＤＩスペクトルは、典型的には２０００Ｄａ〜２００００Ｄａの間の質量領域において１０〜５０個の限られた数のピークによって特徴付けられる。これらのピークはタンパク質、ペプチドなどの物質の存在を示している。

これらの物質のいくつかは、生物の大規模グループ（属）に特徴的であり、それらのいくつかは小規模グループ（種）に特徴的であり、そしてそれらのいくつかは単一生物（株）にも特徴的であろう。

細菌の基準コレクションを考慮して、十分に特徴的なピークパターンを用いて、確率密度関数のライブラリを構築することができる。このライブラリは、特徴的な物質が粒子中に存在する確率の観点から、単一細菌を含有する未知の粒子の分類を可能とする。

基準ライブラリにおいて表される必要がある特性の総コレクションは、全ての生物についての全ての特性の和集合である。

（分離株あたりの特性の数は、当該生物に依存することに留意されたい）

全特性コレクションが特性選択ベクトルの集合Ｓ_n ^mに変換されると、これらのベクトルは特性選択行列に変換可能であり、

ＮＳ列では、特性コレクションを示す特性の総数に等しく、Ｍ_MZ行では、単一粒子の質量スペクトルにおける時間（質量）サンプルの数に等しい。

単一粒子スペクトルのエネルギーベクトルとこの特性選択行列とを乗算すると、全ての特性についての強度スコアを保持する強度スコアＩＳベクトルが得られる。

上記に示したように、単一分離株に由来する微生物に起因する十分に大きなセットの単一粒子スペクトルを処理することにより、確率密度関数を作成することが可能である。上記の特性選択行列を用いて、特定の分離株ｍと関連する確率密度関数Ｐ^m _1...NSは一度に決定され得る。

＜Ｐ（Ｉ｜¬Ａ）を推定する＞
検討中の生物中に存在する物質に関連する特性についての確率密度関数は、生物中に存在する物質に関連しないそれらとは著しく異なる。例として、図４は、特性誘導物質を含有する粒子コレクション及びこの物質を含有しない粒子コレクションについての特性のＰＤＦからの例を示している。

図４は、物質を含有するコレクションについてのＰＤＦの振幅は、約０．０８を超える特性強度において、この物質を含有しないコレクションについてのＰＤＦの振幅を超え、逆もまた同様であることを示している。

特性Ｑ₁を誘導する物質Ａ¹を含有する粒子タイプ、及び物質Ａ²を含有する粒子タイプの２つの可能な粒子タイプのみを有するこの単純な例では、Ａ¹を含有しない、すなわち¬Ａ¹のコレクションについてのＰＤＦは、Ａ²を含有する粒子のＰＤＦと等しい。
Ｐ（Ｉ｜¬Ａ¹）＝Ｐ（Ｉ｜Ａ²）

上記に示すように、確率密度関数Ｐ（Ｉ｜Ａ）及びＰ（Ｉ｜¬Ａ）を考慮して、個々の粒子が特性誘導物質を含有する確率を決定することができる。

物質Ａが存在する確率を計算するために、ＰＤＦとは別に、Ａに遭遇する確率、Ｐ（Ａ）が提供されなければならない。この単純な例では、Ａを含有する粒子及びＡを含有しない粒子の２種類の粒子のみが考慮される。したがって、Ａに遭遇する確率はＰ（Ａ）＝Ｐ（¬Ａ）＝０．５に等しいと仮定される。

複雑な粒子コレクション
ｎ個の可能な粒子タイプを有し、粒子タイプｌが物質Ａ^jを含有する、より複雑な粒子コレクションが考慮される場合、積Ｐ（Ｉ｜¬Ａ^j）Ｐ（¬Ａ^j）は、

に等しい。
したがって、２成分混合物の場合のように、複雑な混合物では、Ｐ（Ａ^j）に遭遇する確率はＰ（Ａⁱ）＝１／ｎに等しい。

＜２成分混合物の分析＞
図４に示される特性ＰＤＦ及びベイズの定理に基づいて、特性誘導物質Ａが（単一粒子スペクトルの）特性強度の関数として存在（又は欠如）する確率が導出され得る。図５はこの確率を示している。

この図面によれば、（図５において約０．０８にて細い縦線で示される）臨界強度より上で、特性誘導物質が存在する確率はこの物質が欠如する確率よりも一貫して大きい。

したがって、この強度より上では、この特性はこの物質の存在についての信頼できる尺度である。

この強度より下では、確率と特性強度との間の関係は不明瞭である。そのため、特性誘導物質の存在に関して判断を行うことができず、Ｐ（Ａ｜Ｉ）には未定義のマークが付されなければならない。

上述の方法論の機能を説明するために、事前に記録された単一粒子スペクトルの（２成分）混合物はコンパイルされ得る。この混合物を解明するために、両方の粒子タイプについて、特性が定義される必要があり、かつ対応するＰＤＦは推定される必要がある。

図６及び７は、これらの特性ＰＤＦを推定するために使用される粒子の蓄積されたスペクトルを示している。この場合、両方の粒子タイプについて、（図６及び図７において縦線で示される）２つの明確なピークが特性として選択された。

図８は、事前に記録された単一粒子スペクトルの２つのバッチから無作為に選択された単一粒子スペクトルのシーケンスを示している（混合物について、異なるバッチがＰＤＦを推定するために使用されることに留意されたい）。再度、図８は、単一粒子スペクトルにおける極端な変動性及び単一粒子スペクトルと基準スペクトルとの相関の明らかな欠如を示している。

この例では、単一粒子スペクトルは以下の規則に従って分類される。
−単一粒子スペクトルが基準分離株のうちの１つから生じる確率、Ｐ_totalは、上述したように「任意の特性が存在」規則に従って、２つの分離株の各々についての２つの単一特性確率から導出される。
−特性強度Ｉが、不明瞭な特性確率についての臨界強度（図５参照）を超えるときのみ、この特性についての特性確率が割り当てられ、そうでない場合は特性確率は「未定義」とされる。
−スペクトルは、

のとき、クラス（分離株）１に割り当てられ、

のとき、クラス２に割り当てられ、
式中、Ｐ_minはスペクトルを分類するために超えなければならない閾値確率である。この例では、閾値確率Ｐ_min＝０．９が使用される。

閾値確率を超えないそれらのスペクトルは、例えば、両方の特性確率が未定義とされるために、「未知」のクラスに割り当てられる。

クラスのうちの１つに割り当てられているスペクトルが蓄積されると、２つのクラスにおいて得られたスペクトルは、互いに、かつ混合物の蓄積されたスペクトルから大きく異なるようである。図９を参照のこと。

図９の調査により、（縦線で示される）ピーク位置において、ピークは基準分離株に対応するスペクトルにのみ保持されることが示されている。これは、分類アルゴリズムは、特性に寄与するそれらのスペクトルを選択可能であり、かつ特性に寄与しないそれらのスペクトルを無視可能であるという意味で、有効であることを示している。

したがって、アルゴリズムは特性に寄与する単一粒子スペクトルを選択することができ、異なる基準に属する特性に基づいた選択から生じる蓄積されたスペクトルは互いに大きく異なる。しかしながら、いくつかの特定の場合では、これは、アルゴリズムによって生成される２つのクラスが実際に基準に対応するという決定的な証拠ではない。

したがって、最終的な確認として、分類に使用される以外の情報に基づいて、サンプルスペクトルと基準スペクトルとの間で比較が行われ得る。

＜分類結果の確認＞
種々のクラスに割り当てられている単一粒子スペクトルが実際に基準スペクトルに対応することを確認するために、クラスごとに蓄積された単一粒子スペクトルを基準スペクトルと比較することができる。

図１０及び図１１は２つの粒子クラスにおけるこの比較を示している。これらの図は、選択に使用されたピークは別として、分類された粒子からコンパイルされたスペクトル中に存在する他のピークも、基準スペクトルのピークに対応することを示している。

さらに、分類された粒子から蓄積されたスペクトルは、基準スペクトル中に存在しないピークを含まない。

どちらの性質も、分類されたスペクトルのコンパイルされたスペクトルが実際に基準スペクトルに対応することを明らかに示している。それ故、分類されたスペクトルをもたらした粒子は、実際に基準スペクトルに使用された分離株に含まれる細胞に対応する細胞（の断片）を含む。

＜階層的な分類手順＞
一般に、細菌の蓄積されたスペクトルは、ある場所に１０〜４０個の間の区別可能なピークを含む。潜在的に、全てのピーク位置（それらの質量の観点から）は、単一粒子を分類するための特性として使用され得る。

ピークの適切性についての必要条件は、単一粒子のピーク強度における確率密度関数が、同じ質量で基準ライブラリ内の他の分離株における確率密度関数と十分に異なることである。

２つの分布間の差異／同等についての便利な尺度は、コルモゴロフ−スミルノフ統計量である。コルモゴロフ−スミルノフ統計量は、２つのサンプルの２つの経験累積分布関数の間の距離を定量化する。この統計量が十分に大きい場合、２つの基本的な確率密度関数は区別可能であると考えられ得る。

質量分析計の有限な分解能のために、基準ライブラリが込み合えば込み合うほど、種々の分離株のピークが（部分的に）重なり合う可能性が大きくなる。明らかに、種々の分離株のピークの重なりは、それらを分類にはあまり適さないものとする。

したがって、基準ライブラリのライブラリの内容に応じて、スペクトル中に存在するピークの一部のみが効果的に単一粒子の分類に使用され得る。

区別され得るクラスの数は、使用されるピークの数によって決定される。区別され得るクラスの数は２^Nに対応し、Ｎは基準ライブラリ中に存在する非重複ピークの数である。

最初に、全ての可能性のある生物が考慮されなければならないとき、基準ライブラリは非常に込み合う。したがって、非重複ピークの数は少なくなり、区別され得るクラスの数は少なくなる。したがって、混合起源の生物を含有するサンプルを分析するとき、単一のクラスが２種以上を含有するリスクは比較的高い。

しかしながら、単一粒子スペクトルが個々に保存されるとき、それらは２回目に分類され得る。この段階では、これらのスペクトルが割り当てられたクラスに属する基準を考慮する必要があるだけなので、元の基準ライブラリと比べてほとんど込み合っていないクラス固有の基準ライブラリが構築され得る。

クラス固有の基準ライブラリはあまり込み合っていないので、ピーク間の重複の可能性が低減される。したがって、元のライブラリに適していないピークの数は、クラス固有のライブラリに適する。

その結果、サンプルを含有する混合物はさらに区別され得る。

したがって、再帰的に混合物を分類し、かつ基準ライブラリを再定義することにより、混合起源の生物を含有するサンプルは大きな特定性をもって区別され得る。

ピークの存在と分類法との間にはリンクがある。微生物の目、科、属、種又は株に固有のピークの使用を介して、微生物学に基づいてピークの選択を動機付けることができる。このようにして、階層的な分類スキームが実現される。

図１２では、階層的な分類スキームにおけるクラスタグラムの一例が示されている。クラスタグラムでは、黄色ブドウ球菌の種々の株の質量スペクトルにおけるピークが示されている。ｘ軸はｍ／ｚを表している。種々の株はｙ軸に沿ってプロットされている。黒い領域はそれぞれの株のスペクトルにおけるピークに対応している。

クラスタグラムは、全ての株が種に固有のピークＡを含んでいることを示している。しかしながら、それらは領域Ｂ及びＣにおいて株に固有のピークを用いて区別され得る。

例示的な実施形態では、本発明による階層的な分類スキーム１００（図１３）は、入力データとして単一粒子スペクトルを受信し、それはステップ１０２で取得される。続いて、単一粒子スペクトルは、ＰＤＦの第１基準セット１０６を用いてステップ１０４で分類される。この分類に基づいて、サンプルのスペクトルは、クラス１、クラス２、．．．、クラスＭに分類される。

サンプルスペクトルの各グループについて、グループ内のスペクトルと各クラスの基準スペクトルとの間で比較が行われる。これをクラス２について説明する。第１ステップ１０８では、サンプルスペクトルは蓄積される。すなわち累積サンプルスペクトルが作成される。ステップ１１０では、累積基準スペクトルが計算される。累積サンプルスペクトル及び累積基準スペクトルは、パターンマッチングによりステップ１１２で比較される。

ステップ１１４では、累積スペクトル間の一致が計算される。一致が最小閾値を上回る場合、分類は正しいと見なされ、ステップ１１６においてアルゴリズムはこの分類をリターンする（戻す）。一致が閾値未満である場合、すなわち合格とされない場合、ステップ１１８でアルゴリズムは累積サンプルスペクトルが混合スペクトルであるかどうかを確認する。例えば、さらなるピークが累積サンプルスペクトル中に存在し、それが累積基準スペクトル中に存在しない場合、累積サンプルスペクトルは混合スペクトルであると見なされる。

スペクトルが混合スペクトルでないとき、アルゴリズムはこの情報をリターンし、ステップ１２０でスペクトルの最も深く関連する生物との分類学的距離を計算する。換言すれば、生物はライブラリのクラス１０６から外れる。しかしながら、その後のステップでは、スペクトルは異なるライブラリと比較され得る。

ステップ１１８において、スペクトルが混合スペクトルであると判断された場合、アルゴリズムはステップ１０４に戻り、異なるライブラリが使用される。この新たなライブラリは、混合スペクトルのクラスのサブクラス、この場合では、クラス２のサブクラスを含む。

換言すれば、混合スペクトルが観察される場合、アルゴリズムはそれぞれのクラスのサブクラスに着目することによって、階層の更に深いところへと進む。一致が１１４で検出されるとき、この手順は停止する。一致が検出されず、かつ混合スペクトルが観察されない場合、生物は元のクラス１０６から外れる。

以下に、アルゴリズムに従った本方法のステップにおける疑似コードが示されている。

＜確率密度関数の生成及び選択＞
％特性選択ベクトルを生成する％
分離株に対してループする
単一粒子スペクトルファイルに対してループする
単一粒子スペクトルを強度配列として読み取る
総イオンカウントを計算する
スペクトルを総イオンカウントで正規化する
正規化スペクトルを和スペクトルに加える
ループ終了
和スペクトルを表示する
（手動又は自動のどちらかで）スペクトル特性をマークする
特性／分離株の識別を保存する
特性に対してループする
特性形状関数を抜き出す
特性形状関数を特性選択ベクトルとして保存する
ループ終了
ループ終了
％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％

％特性確率密度関数の生成％
分離株に対してループする
単一粒子ファイルに対してループする
単一粒子スペクトルを強度配列として読み取る
全ての分離株に属する全ての特性についての特性強度を抜き出す
対応する特性強度配列における全ての特性についての特性強度を保存する
ループ終了
特性に対してループする
特性強度配列の要素を適切に離隔したコンテナにビン化する
特性強度頻度配列においてコンテナあたりの要素の数を戻す
特性強度頻度配列を処理された単一粒子スペクトルの数で割る
ループ終了
ループ終了
％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％

％特性確率密度関数の選択％
特性確率密度関数に対してループする
累積確率密度関数を生成する
ループ終了
分離株に対してループする
特性／分離株の識別表に従って、分離株についての特性「ネイティブ」を選択する
「ネイティブ」の特性に対してループする
「その他」の特性に対してループする
ネイティブの特性及びその他の特性の各組み合わせに対してコルモゴロフ−スミルノフ統計量を決定して保存する
ループ終了
各「ネイティブ」の特性に対する最小コルモゴロフ−スミルノフ統計量を決定して、ｍｉｎＫＳとして保存する
ループ終了
最大ｍｉｎＫＳを有するＮ個（ユーザーによって指定される数であるが、少なくとも１つである）の特性を選択する
各分離株において特性選択を保存する
ループ終了
％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％

混合物分析
％単一粒子の分類％
ループを待つ
単一粒子の質量スペクトルを読み取る
単一粒子の質量スペクトルを正規化する
（選択された）特性の強度を決定する
（選択された）特性に対してループする
分離株に対してループする
Ｐ（Ｉ｜Ａ^m _n）Ｐ（Ａ）及びＰ（Ｉ｜¬Ａ_n）Ｐ（¬Ａ）への寄与を決定する
ループ終了
Ｐ（Ａ^m _n｜Ｉ）を決定する
ループ終了
分離株に対してループする
「ネイティブ」の特性リストを用いて、各分離株についてＰ_totalを決定する
ループ終了
スペクトルを基準に相当するクラスのうちの１つに、又は未知のクラスに割り当てる
ループ終了
クラスに対してループする
スペクトルの数が最小数よりも多い場合
クラスに割り当てられた全てのスペクトルを合計する
蓄積されたスペクトルを平滑化する
平滑化されたスペクトルをリサンプルする
リサンプルされたスペクトルからベースラインを引く
ピークを抜き出す
ピークリストを検討中のクラス（例えば属）に属するサブクラス（例えば種）に分類する
分類が成功した場合
識別を報告する
その他の場合
クラス内に種の混合物が存在し得るかどうかを確認する
混合物が存在する場合
混合物をさらに区別するために新たな特性セットを生成する
検討中のグループに割り当てられたそれらの粒子について新たな単一粒子の分類を実行する
その他の場合
蓄積されたスペクトルと基準スペクトルとの分類学的距離を決定する
終了
終了
終了
ループ終了
％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％％

このように、本発明を好ましい実施形態を用いて説明してきた。しかしながら、この開示は単に例示であることが理解されるべきである。構造及び機能の様々な詳細を提示したが、添付の特許請求の範囲が表現される用語の一般的な意味によって拡張される最大限のそこに加えられた変更は、本発明の原理の範囲内であると理解される。説明及び図面は特許請求の範囲を解釈するために使用されるものとする。特許請求の範囲は、求められる保護の範囲が、特許請求の範囲において使用される用語の厳密な、文字通りの意味によって定義されるものとして理解されるべきであるという意味で解釈されるべきではなく、説明及び図面は、特許請求の範囲において見られる曖昧性を解決する目的のためのみに使用される。特許請求の範囲によって求められる保護の範囲を決定するために、そこで特定される要素と均等である任意の要素を十分考慮に入れなければならない。
本発明は一側面において以下の発明を包含する。
（発明１）
スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法であって、
ａ）基準スペクトルとして使用するために、第１スペクトルの少なくとも２つのセットを得る工程、各前記セットは同じクラスに属する基準サンプルのスペクトルを含む；
ｂ）前記基準スペクトルの各々について、スペクトル特性に関連した少なくとも１つの同じ量の値を決定する工程；
ｃ）決定された前記値に基づいて、前記量の種々の値に確率を関連付ける工程；
ｄ）前記サンプルからスペクトルを取得し、このスペクトルの少なくとも１つの同じ量の値を決定する工程；及び
ｅ）前記確率及び前記少なくとも２つのクラスの各々について得られたスペクトルにおける前記量の値に基づいて、前記サンプルがそのクラスに属する確率を計算する工程、を含む、方法。
（発明２）
発明１に記載の方法であって、前記スペクトルのデータは、ラマンスペクトル、近赤外スペクトル、ＦＴ−ＩＲスペクトル、周波数スペクトル、ＭＡＬＤＩＭＳスペクトル又はＭＡＬＤＩＴＯＦ−ＭＳスペクトル、好ましくはＭＡＬＤＩＴＯＦ−ＭＳスペクトルを含む、方法。
（発明３）
発明１又は２に記載の方法であって、前記基準スペクトル及び前記サンプルから得られたスペクトルは単一粒子のスペクトルである、方法。
（発明４）
発明１〜３のいずれか一項に記載の方法であって、前記サンプルは生体サンプルである、方法。
（発明５）
発明４に記載の方法であって、前記生体サンプルは微生物を含み、前記分類は前記微生物の分類を含む、方法。
（発明６）
発明１〜５のいずれか一項に記載の方法であって、前記少なくとも１つの量は基準クラスの特徴的なスペクトル特性に基づいて選択される、方法。
（発明７）
発明１〜６のいずれか一項に記載の方法であって、値Ｉ _i がスペクトル特性量Ｑｉに関連して得られるサンプルスペクトルについて、

に従って、前記値Ｉ _i を考慮して、前記サンプルが基準クラスＡ ^j に属する確率Ｐ（Ａ ^j ｜Ｉ _i ）を計算する工程を含み、
式中、Ｐ（Ｉ _i ｜Ａ ^j ）は前記基準クラスＡ ^j の前記値Ｉ _i と関連した確率であり、ｋ≠ｊを有するＰ（Ｉ _i ｜Ａ ^k ）は前記基準クラスＡ ^j とは異なる少なくとも１つの基準クラスの前記値Ｉ _i と関連した確率である、方法。
（発明８）
発明１〜７のいずれか一項に記載の方法であって、前記ステップｂ）は、前記基準スペクトルの各々について、前記スペクトル特性に関連した少なくとも２つの同じ量の値を決定する工程を含み、ステップｅ）は、全ての量において得られた前記確率を前記サンプルがそれぞれのクラスに属する全体的な確率に組み合わせる工程を含む、方法。
（発明９）
発明１〜８のいずれか一項に記載の方法であって、前記値は少なくとも１つの所定のスペクトル値での強度、又はスペクトル値の所定の範囲内での強度に関連する、方法。
（発明１０）
発明１〜９のいずれか一項に記載の方法であって、前記値は正規化される方法。
（発明１１）
発明１〜１０のいずれか一項に記載の方法であって、前記値は、重み関数とスペクトル値の所定の範囲にわたるそれぞれのスペクトルの前記強度とを乗算することによって決定される、方法。
（発明１２）
発明１１に記載の方法であって、前記重み関数は同じクラスのスペクトルの累積スペクトルに基づく、方法。
（発明１３）
発明１〜１２のいずれか一項に記載の方法であって、前記値は所定のスペクトル値での前記強度、又は所定のスペクトル範囲内での前記強度の間の比に関連する、方法。
（発明１４）
発明１〜１３のいずれか一項に記載の方法であって、前記値はスペクトル値の所定の範囲内のピーク位置に関連する、方法。
（発明１５）
発明１〜１４のいずれか一項に記載の方法であって、前記値はベクトルである、方法。
（発明１６）
発明１〜１５のいずれか一項に記載の方法であって、前記ステップｄ）及びｅ）は基準クラスの第１セットに対して、その後基準クラスの第２セットに対して実施され、前記第２セットは、前記第１セットの基準クラスのうちの１つへの前記サンプルの分類に基づいて選択される、方法。
（発明１７）
発明５及び１６に記載の方法であって、前記第１セット及び第２セットは生物学的な分類階層に基づいて選択される、方法。
（発明１８）
発明１〜１７のいずれか一項に記載の方法であって、前記ステップｄ）は前記サンプルから少なくとも２つのスペクトルを得る工程、及びこれらの少なくとも２つのスペクトルの少なくとも１つの同じ量の値を決定する工程を含み、前記ステップｅ）は同じクラスに分類された前記サンプルスペクトルを累積スペクトルに統合する工程、及びこの累積スペクトルをそれぞれのクラスの前記基準スペクトルを統合することによって得られた累積基準スペクトルと比較する工程を含む、方法。
（発明１９）
スペクトルデータに基づいた少なくとも２つのクラスのうちの１つへのサンプルの分類に使用するデータベースを作成する方法であって、
ａ）基準スペクトルとして使用するために、第１スペクトルの少なくとも２つのセットを得る工程、各前記セットは同じクラスに属する基準サンプルのスペクトルを含む；
ｂ）前記基準スペクトルの各々について、スペクトル特性に関連した少なくとも１つの同じ量の値を決定する工程；及び
ｃ）決定された前記値に基づいて、前記量の種々の値に確率を関連付ける工程、を含む、方法。
（発明２０）
発明１９に記載の方法で得られたデータベースを用いて、スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法であって、該方法は、
ｄ）前記サンプルからスペクトルを取得し、このスペクトルの少なくとも１つの同じ量の値を決定する工程；及び
ｅ）前記データベースから得られた前記確率及び前記少なくとも２つのクラスの各々について得られたスペクトルにおける前記量の値に基づいて、前記サンプルがそのクラスに属する確率を計算する工程、を含む、方法。
（発明２１）
コンピュータで実行するとき、発明１〜２０のいずれかに記載の方法におけるステップを実行する、コンピュータプログラム。
（発明２２）
発明２１に記載のコンピュータプログラムを含むデータ記憶媒体。
（発明２３）
スペクトルデータに基づいてサンプルを分類するシステムであって、
−サンプルからスペクトルを得るように構成された手段；
−発明１〜２０のいずれかに記載の方法を実施するように構成された分析手段、を含む、システム。
（発明２４）
発明２３に記載のシステムであって、サンプルから単一粒子スペクトルを得るように構成された手段を含む、システム。

Claims

スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法であって、
前記スペクトルデータは、ＭＡＬＤＩＭＳスペクトル又はＭＡＬＤＩＴＯＦ−ＭＳスペクトルを含み、
前記方法は、
ａ）基準スペクトルとして使用するために、第１スペクトルの少なくとも２つのセットを得る工程、各前記セットは同じクラスに属する基準サンプルのスペクトルを含む；
ｂ）前記基準スペクトルの各々について、前記スペクトルデータのうち選択した１つに含まれるスペクトル特性に関連した少なくとも１つの同じ量の値を決定する工程であって、前記決定は、前記基準スペクトルの各々に対して所定の関数又は演算を適用することによって、行われる工程；
ｃ）各基準スペクトルのセットに関して、工程ｂ）で決定された前記値に基づいて、前記少なくとも１つの量の異なる値に確率を関連付け、前記量の値及び関連付けされた確率からの確率密度関数（ＰＤＦ）を構築する工程；
ｄ）前記サンプルからスペクトルを取得し、このスペクトルの少なくとも１つの同じ量の値を決定する工程；及び
ｅ）工程ｃ）で決定された前記確率密度関数及び前記少なくとも２つのクラスの各々について得られたスペクトルにおける前記量の値に基づいて、前記サンプルがそのクラスに属する確率を計算する工程、
を含み、
前記基準スペクトル及び前記サンプルから得られたスペクトルは単一粒子のスペクトルである、
方法。
請求項１に記載の方法であって、前記サンプルは生体サンプルであり、
前記生体サンプルは微生物を含み、前記分類は前記微生物の分類を含み、及び／又は
前記少なくとも１つの量は基準クラスの特徴的なスペクトル特性に基づいて選択される、
該方法。
請求項１又は２に記載の方法であって、値Ｉ_iがスペクトル特性量Ｑｉに関連して得られるサンプルスペクトルについて、

に従って、前記値Ｉ_iを考慮して、前記サンプルが基準クラスＡ^jに属する確率Ｐ（Ａ^j｜Ｉ_i）を計算する工程を含み、
式中、Ｐ（Ｉ_i｜Ａ^j）は前記基準クラスＡ^jの前記値Ｉ_iと関連した確率であり、ｋ≠ｊを有するＰ（Ｉ_i｜Ａ^k）は前記基準クラスＡ^jとは異なる少なくとも１つの基準クラスの前記値Ｉ_iと関連した確率である、方法。
請求項１〜３のいずれか一項に記載の方法であって、前記ステップｂ）は、前記基準スペクトルの各々について、前記スペクトル特性に関連した少なくとも２つの同じ量の値を決定する工程を含み、ステップｅ）は、全ての量において得られた前記確率を前記サンプルがそれぞれのクラスに属する全体的な確率に組み合わせる工程を含む、方法。
請求項１〜４のいずれか一項に記載の方法であって、
前記値は少なくとも１つの所定のスペクトル値での強度、又はスペクトル値の所定の範囲内での強度に関連する、及び／又は
前記値は正規化される、
方法。
請求項１〜５のいずれか一項に記載の方法であって、前記値は、重み関数とスペクトル値の所定の範囲にわたるそれぞれのスペクトルの前記強度とを乗算することによって決定される、方法であり、
前記重み関数は同じクラスのスペクトルの累積スペクトルに基づく、該方法。
請求項１〜６のいずれか一項に記載の方法であって、
前記値は所定のスペクトル値での前記強度、又は所定のスペクトル範囲内での前記強度の間の比に関連する、及び／又は、
前記値はスペクトル値の所定の範囲内のピーク位置に関連する、及び／又は、
前記値はベクトルである、
方法。
請求項１〜７のいずれか一項に記載の方法であって、前記ステップｄ）及びｅ）は基準クラスの第１セットに対して、その後基準クラスの第２セットに対して実施され、前記第２セットは、前記第１セットの基準クラスのうちの１つへの前記サンプルの分類に基づいて選択される、方法であり、
前記サンプルは生体サンプルであり、前記生体サンプルは微生物を含み、前記分類は前記微生物の分類を含み、
前記第１セット及び第２セットは生物学的な分類階層に基づいて選択される、方法。
請求項１〜８のいずれか一項に記載の方法であって、前記ステップｄ）は前記サンプルから少なくとも２つのスペクトルを得る工程、及びこれらの少なくとも２つのスペクトルの少なくとも１つの同じ量の値を決定する工程を含み、前記ステップｅ）は同じクラスに分類された前記サンプルスペクトルを累積スペクトルに統合する工程、及びこの累積スペクトルをそれぞれのクラスの前記基準スペクトルを統合することによって得られた累積基準スペクトルと比較する工程を含む、方法。
スペクトルデータに基づいた少なくとも２つのクラスのうちの１つへのサンプルの分類に使用するデータベースを作成する方法であって、
前記スペクトルデータは、ＭＡＬＤＩＭＳスペクトル又はＭＡＬＤＩＴＯＦ−ＭＳスペクトルを含み、
前記方法は、
ａ）基準スペクトルとして使用するために、第１スペクトルの少なくとも２つのセットを得る工程、各前記セットは同じクラスに属する基準サンプルのスペクトルを含む；
ｂ）前記基準スペクトルの各々について、前記スペクトルデータのうち選択した１つに含まれるスペクトル特性に関連した少なくとも１つの同じ量の値を決定する工程であって、前記決定は、前記基準スペクトルの各々に対して所定の関数又は演算を適用することによって、行われる工程；及び
ｃ）各基準スペクトルのセットに関して、決定された前記値に基づいて、前記少なくとも１つの量の異なる値に確率を関連付け、前記量の値及び関連付けされた確率からの確率密度関数（ＰＤＦ）を構築する工程、を含み
前記基準スペクトルは単一粒子のスペクトルである、
方法。
請求項１０に記載の方法で得られたデータベースを用いて、スペクトルデータに基づいて、少なくとも２つのクラスのうちの１つにサンプルを分類する方法であって、該方法は、
前記スペクトルデータは、ＭＡＬＤＩＭＳスペクトル又はＭＡＬＤＩＴＯＦ−ＭＳスペクトルを含み、
前記方法は、
ｄ）前記サンプルから単一粒子スペクトルを取得し、このスペクトルの少なくとも１つの同じ量の値を決定する工程；及び
ｅ）前記データベースから得られた前記確率密度関数及び前記少なくとも２つのクラスの各々について得られたスペクトルにおける前記量の値に基づいて、前記サンプルがそのクラスに属する確率を計算する工程、を含む、方法。
コンピュータで実行するとき、請求項１〜１１のいずれか１項に記載の方法におけるステップを実行するコンピュータプログラムを含むデータ記憶媒体。
スペクトルデータに基づいてサンプルを分類するシステムであって、
−サンプルから単一粒子スペクトルを得るように構成された手段；
−請求項１〜１１のいずれか１項に記載の方法を実施するように構成された分析手段、を含む、システム。