JP2015509182A - 質量分析法とスコア正規化による微生物の特定方法 - Google Patents

質量分析法とスコア正規化による微生物の特定方法 Download PDF

Info

Publication number
JP2015509182A
JP2015509182A JP2014544030A JP2014544030A JP2015509182A JP 2015509182 A JP2015509182 A JP 2015509182A JP 2014544030 A JP2014544030 A JP 2014544030A JP 2014544030 A JP2014544030 A JP 2014544030A JP 2015509182 A JP2015509182 A JP 2015509182A
Authority
JP
Japan
Prior art keywords
microorganism
distance
microorganisms
identified
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014544030A
Other languages
English (en)
Other versions
JP6027132B2 (ja
Inventor
グレゴリー・ストゥルブル
モード・アルサク
ドゥニ・デスレ
ピエール−ジャン・コト−パタ
ピエール・マエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomerieux Inc
Original Assignee
Biomerieux Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomerieux Inc filed Critical Biomerieux Inc
Publication of JP2015509182A publication Critical patent/JP2015509182A/ja
Application granted granted Critical
Publication of JP6027132B2 publication Critical patent/JP6027132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6872Methods for sequencing involving mass spectrometry
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • G06V20/698Matching; Classification
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Immunology (AREA)
  • Organic Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Pathology (AREA)
  • Food Science & Technology (AREA)
  • Genetics & Genomics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)

Abstract

質量分析法によって参照データ集合で表した参照微生物から微生物を特定する方法であって、1組の微生物データをスペクトルに従って決定するステップと、参照微生物ごとに、決定した微生物データと参照データ集合の間の距離を計算するステップと、確率f(m)を、関係に従って計算するステップであって、mは当該参照微生物に関して計算した当該距離であり、N(m|μ、σ)は、距離mに対して、特定すべき当該微生物が当該参照微生物であるときに、特定すべき参照微生物と当該参照微生物との間の距離をモデル化するランダム変数の値であり、は、距離mに対して、特定すべき当該微生物が当該参照微生物でないときに、特定すべき微生物と当該参照微生物との間の距離をモデル化するランダム変数の値であり、pは0から1の範囲の所定のスカラである、ステップとを含む、方法である。

Description

本発明は微生物、特にバクテリアを質量分析法により特定することに関する。
質量分析法を用いて微生物、より具体的にはバクテリアを特定することが知られている。微生物のサンプルが用意され、その後、当該サンプルの質量スペクトルを取得し前処理して、特にベースラインを除去し雑音を除去する。次に、前処理されたスペクトルのピークを検出し、このようにして得られたピークのリストを、特定した微生物または1群の微生物に各々が関連付けられたピークのリストから構築した知識ベースのデータ(種、綱、科など)に対して分類ツールを用いて「分析」し「比較する」。
分類ツールのうち、「1対全」タイプのSVM(「サポート・ベクトル・マシン」)分類が知られている(以降、「OVA SVM」)。「1対全」SVMの分類では、1組の類の対象物から成る類ごとに、当該類を当該組の他の類から分離する指向性境界を決定する。多数の「1対全」分類器が存在するので、当該組の類がこのように取得される。未知の対象物の特定では、当該未知の対象物と分類器に関連付けられた境界との間の代数距離を計算することによって分類器の各々を問い合わせる。通常、未知の対象物は、計算された最大距離に関連付けられた類に属するとして決定される。
この原理を図1と図2に概略的に示す。図1と図2は、質量スペクトルの2つのピークのみ、例えば、3つの微生物の質量スペクトルにおいて強度が最大の2つのピークのみ、により特定できる3つの微生物から成る非常に単純なケースを示している。第1の微生物は、値m11にある第1のピークと値m12にある第2のピークにより特徴付けられ(図1A)、第2の微生物は値m21にある第1のピークと値m22にある第2のピークにより特徴付けられ(図1B)、第3の微生物は値m31にある第1のピークと値m32にある第2のピークにより特徴付けられる(図1C)。
Figure 2015509182
Figure 2015509182
勿論、ここで図示したケースは極めて単純である。現実には、実質的に1000個を超えうる数の特定用のピークを有する何百もの微生物から微生物を特定しなければならない。さらに、図示したケースは非常に単純なものである。なぜならば、微生物が互いから非常に離れており、その距離から十分な情報を引き出せるだけの十分な精度で測定が行われているからである。
Figure 2015509182
図3Aに示したケースでは、測定されたベクトルMの境界Fに対する距離は正である。しかし、ベクトルMは第1の微生物の1組のトレーニング・ベクトルから非常に離れているので、未知の微生物が事実上第1の微生物であると確実に推論することはできない。図3Bに示したケースでは、測定されたベクトルMは1組のトレーニング・ベクトルに近いが、他の1組のトレーニング・ベクトルにも非常に近い。このケースでも、未知の微生物が第1の微生物であると推論することは困難である。図3Cに示したケースでは、測定したベクトルMは境界Fから離れており、1組のトレーニング・ベクトルに近く、当該組の境界に存在する。このケースは以前のケースよりも好ましいが、特定すべき微生物がどこに属するかに関する不確実性は依然として存在する。測定の精度を研究することが特に必要である。最後に、図3Dに示したケースは、測定されたベクトルが境界から離れておりかつ1組のトレーニング・ベクトルの間に存在するという稀な典型的ケースである。次いで、測定した距離が第1の微生物を特徴付ける値であり、当該距離を利用することができる。
理解できるように、計算した距離は部分的に関連するにすぎない。例えば、第1のケースでは、0.4に等しい距離は密接に関連するが、別のケースでは、そこから何かを推論することは不可能である。したがって、これらの距離を分析して当該距離から未知の微生物の種類と当該特定の信頼度を推論することが必要である。この追加の分析ステップは従来、生物学者や医者といった、分類ツールで計算した距離からどんな結論を引き出せるかを自己のノウハウにより決定する操作者により実行されている。
Figure 2015509182
欧州特許出願公開第1 253 622号明細書
Jackson O. Lay’s document, "Maldi-tof spectrometry of bacteria", Mass Spectrometry Reviews, 2001, 20, 172-194. R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin.’s document "LIBLINEAR: A Library for Large Linear Classification", Journal of Machine Learning Research 9(2008), 1871-1874
或る程度、質量分析法や距離値を計算する分類ツールによって微生物を特定するための信頼できるツールは依然として存在しないといえる。
本発明は、質量スペクトル測定と分類ツールに基づいて微生物を特定するためのアルゴリズムを提供することによって上述の課題を解決することを目的とする。当該質量スペクトルと分類ツールでは、微生物をより高信頼度で特定することができる。
この目的のため、本発明の1つの目的は、質量分析法によって1群の所定の参照微生物から微生物を特定する方法であって、各参照微生物は1組の参照データにより表され、特定すべき微生物を代表する1組のデータを当該微生物の質量分析法測定に従って決定するステップと、参照微生物ごとに、決定した1組のデータと当該参照微生物の1組の参照データとの間の距離を計算するステップとを含む方法を提供することである。
Figure 2015509182
「1組の参照データ」とは、分類ツールで参照微生物を特徴付けるデータを意味する。例えば、OVA SVM分類に対して、参照微生物に関連付けられた参照データは、ベクトル空間を2つの部分空間に分割するベクトル空間の超平面に対応する。
「1組の代表データ」とは、選択した分類ツールで特定すべき微生物を特徴付けるために使用されるデータを意味する。例えば、OVA SVM分類に対して、これらのデータは、ベクトル空間においてベクトルを形成する検出されたピークのリストである。
換言すれば、本発明は任意の種類の分類に適用される。公知なように、分類により距離が生成される。当該距離は参照要素に対する距離を測定する客観的な量である。本発明によれば、これらの距離は「S字」タイプの法則に従う0と1の間で正規化された確率に変換される。結果として、これらの確率自体は互いに比較可能な客観的な量であり、したがって、未知の微生物と過去に特定した微生物との「類似度」の実際の測定値である。
Figure 2015509182
1実施形態によれば、スカラpは全ての参照微生物に対して同一である。より具体的には、pは1/Nに等しい。Nは参照微生物の集合のサイズである。1つの変形として、スカラpは0.5に等しい。
本発明の1実施形態によれば、当該質量スペクトルの決定と、取得した当該スペクトルと各参照微生物の間の距離の計算により、ベクトル分類アルゴリズムを実現する。
より具体的には、微生物の質量スペクトルの決定は、当該微生物の少なくとも1つの質量スペクトルを取得するステップと、取得した当該少なくとも1つの質量スペクトルにおけるピークを検出して、検出した当該ピークを所定のベクトル空間のベクトルに変換するステップとを含む。当該微生物と各参照微生物の間の距離の計算は、決定したベクトルと、当該参照微生物の第1の部分空間特性と他の参照微生物の第2の部分空間特性の間のベクトル空間を分割する境界との間の代数距離を計算するステップを含む。
特に、参照微生物の境界は、「サポート・ベクトル・マシン」タイプのアルゴリズムと当該参照微生物に対応する1組のベクトルとによって計算される。
1変形として、質量スペクトルの決定と、取得したスペクトルと各参照微生物の間の距離の計算により、許容距離アルゴリズムを実現する。
1実施形態によれば、当該ベクトルは、質量スペクトルの質量対電荷比の範囲における各所定の再分割区間において高々1つのピークを特定することによって計算される。
本発明は、1例としてのみ提供した以下の説明を添付図面と関連して読むことでより良く理解される。添付図面では、同一の参照番号は同一または類似の要素を示す。
微生物の2つのピーク特性を有する質量スペクトルの例を示す図である。 微生物の2つのピーク特性を有する質量スペクトルの例を示す図である。 微生物の2つのピーク特性を有する質量スペクトルの例を示す図である。 「1対全」のSVMアルゴリズムによる図1A、1B、および1Cの生命体に対して3つの境界を取得することを示す図である。 試験した個体からSVMタイプの境界までの距離を示す図である。 試験した個体からSVMタイプの境界までの距離を示す図である。 試験した個体からSVMタイプの境界までの距離を示す図である。 試験した個体からSVMタイプの境界までの距離を示す図である。 本発明に従う方法の流れ図である。 微生物からSVMタイプの境界までの距離から2つのランダム変数を決定することを示す図である。 2つの正規分布とそこから得た確率関数を示す図である。 本発明に従う確率関数に出現しうる単調性欠如を示す図である。 本発明に従う確率関数に出現しうる単調性欠如を示す図である。 本発明に従う確率関数を単調にした結果を示す図である。 本発明によって解決される、分類ツールによる特定が困難なケースを示す図である。 本発明によって解決される、分類ツールによる特定が困難なケースを示す図である。 最新技術に従う、特定すべきスペクトルから超スペクトルまでの許容距離を示す図である。
OVA SVM分類に基づく本発明に従う方法を図4の流れ図と関連して説明する。当該方法は、例えばMALDI−TOF(「Matrix−assisted laser desorption/ionization time of flight」)質量分析法により知識ベースにおいて統合すべき、1組のトレーニング質量スペクトルと1組の新たに特定した微生物の検定質量スペクトルとを取得するステップ10で開始する。MALDI−TOF質量分析法はそれ自体周知であり、以降ではさらに詳細に説明することはしない。例えば、非特許文献1を参照されたい。次いで、それ自体周知なように、取得したスペクトルを前処理して、特に当該スペクトルからノイズを除去し、そのベースラインを除去する。
次いで、ステップ12で、例えば、極大値の検出に基づいたピーク検出アルゴリズムを用いて、取得したスペクトルに存在するピークの特定を行う。このようにして、スペクトル・ピークの位置と強度を含む、取得したスペクトルごとのピークのリストを生成する。
有利なことに、当該ピークは所定のトムソン・レンジ[mmin;mmax]、好ましくはトムソン・レンジ[mmin;mmax]=[3、000;17、000]で特定される。実際、微生物を特定するのに十分な情報はこの質量対電荷比の範囲に含まれていることが分かっており、したがってより広い範囲を考慮する必要はないことが分かっている。
当該方法は、量子化または「ビン化」ステップのステップ14に進む。これを実現するために、範囲[mmin;mmax]を複数の区間に分割する。当該複数の区間は、例えば、一定の幅を有し、区間ごとに幾つかのピークが含まれ、単一のピークが保たれ、有利には当該ピークが最高強度を有する。このように、測定したスペクトルごとにベクトルが生成される。当該ベクトルの各成分は、量子化区間に対応し、当該区間に対して保たれたピークの強度を値として有する。値「0」はピークが当該区間で検出されなかったことを意味する。
1つの変形として、ベクトルは、対応する区間にピークが存在するときには当該ベクトルの成分値を「1」に設定し当該期間にピークが存在しないときには当該ベクトルの成分値を「0」に設定することによって「二値化」される。この結果、後に実施される分類アルゴリズムの検定がより堅牢になる。本願の発明者らは実際、特にバクテリアの特定に関連する情報がピークの不存在および/または存在に原則として含まれること、および、強度情報はあまり関係がないことを指摘した。さらに、強度が一方のスペクトルから他方のスペクトルおよび/または一方の分光計から他方の分光計へと大きく変わりうることが分かる。この可変性のため、生の強度値を分類ツールで考慮することは困難である。
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
Figure 2015509182
パラメータpは、例えば、「距離mが微生物jに対応する」という事象が「距離mが微生物jと異なる微生物に対応する」という事象と同じ重みを有する場合には、0.5に等しい。この仮定のもとに、mが2つの分布から等距離にある場合に、スペクトルが参照微生物jである確率は1/2であり、したがって、N−1個の他の参照微生物のうち何れかである確率は1/2(N−1)である。ここで、Nは知識ベースに記録された微生物の数である。
1つの変形として、パラメータpは1/Nに等しい。ここで、Nは知識ベースに記録された微生物の数である。この仮定のもと、mが2つの分布から等距離にある場合には、スペクトルが参照微生物の何れかである確率は等しいと考えられる。
Figure 2015509182
Figure 2015509182
図6で論じた分布のケースは標準的なものであるが、図7および図8に示すように、関数fはしばしば分布の端部で単調ではないことがある。
Figure 2015509182
Figure 2015509182
例えば、図7では、特定すべき微生物と知識ベースの微生物No.375に関連付けられた境界F375との間の−2に等しい距離m375に対して、具体的な測定がないと、微生物No.375の関数f375は1に等しい。これは、特定すべき微生物が微生物No.375である確率は100%に近いことを意味するが、反対に、測定された微生物が微生物No.375である実際の確率は非常に低いと思われる。さらに、特定すべき微生物の微生物jに関連付けられた境界Fに対する距離mの値が正である他の関数fが存在し、したがって、関連する確率は0よりも非常に大きい。例えば、図8では、特定すべき微生物の確率f375(m375)は、知識ベースの微生物No.1515の境界F1515へのその距離m375に関連付けられ、0.9、即ち、微生物No.375に関連付けられた確率より低い確率に等しく、特定すべき微生物は事実上、微生物No.1515であるようにみえる。この微生物No.1515の特定に関する依存性は、微生物No.375に関連する依存性より高いはずである。
実際には、このような挙動が存在しうる関数fの端部で測定した距離が取得される可能性は低いが、有利なことに、関数fはその単調性を保つと決定される。
この点に関し、正規分布がその計算の簡潔性のために有利に選択され、特定のケースでこの選択から生じうる非単調な挙動は重要でないことに留意されたい。実際、正規曲線を使用すると、分析上予測可能な挙動を有する関数fが生成されるという利点がある。したがって、関係(7)に従って関数fを修正して最終的に全ての距離にわたる単調な挙動を保証することができる。
Figure 2015509182
Figure 2015509182
ステップ22の適用を例えば図9に示す。図9では、図7で示した関数f375は、値eより短い任意の距離に対してはゼロになり、その結果、この時点で関数f375は全ての距離に対してS字形の単調関数である。
ステップ22の終わりに、本発明に従う分類ツールを校正する。OVA SVM分類ツールの境界Fならびに確率関数fを知識ベースに格納する。
当該知識ベースは、質量分光計、例えばMALDI−TOF質量分光計と、当該分光計に接続され取得した質量スペクトルを受信し処理して未知の微生物を特定できるデータ処理ユニットとを含む、質量分析法による微生物特定のシステムに取り込まれる。
より具体的には、未知の微生物を特定するために、当該方法は、1つまたは複数のその質量スペクトルを取得するステップ24と、取得したスペクトルを前処理するステップ26と、例えばステップ10乃至14との関係で前述したように当該スペクトルのピークを検出してピーク・ベクトルVを決定するステップ28を含む。
次のステップ30で、境界Fの各々のベクトルVの距離mを計算し、その後、ステップ32で、距離mの各々を対応する確率f(m)に変換する。
第1の変形では、確率f(m)は式(1)、(2)、および(7)に従って、即ち、以下の関係に従って数値的に計算される。
Figure 2015509182
Figure 2015509182
第2の変形によれば、確率f(m)を以下の関係(14)に従って計算する。
Figure 2015509182
関係(13)は関係(14)と数学的な視点から厳密に等価である。しかし、関係(14)は数値的近似に関してより堅牢であり、不定を生じさせることなく無限値から離れている。
関数fが単調とされるケースでは、関係(11)と関係(12)も適用される。
次に、確率f(m)が降順に分類される。所定の閾値を超えるものがない場合には、例えば特定されるものがないと考えられる。反対に、1つまたは幾つかが所定の閾値を超過した場合には、ステップ34で、それらは例えば関連する微生物のリストとともに特定システムのディスプレイに表示される。例えば、3つの微生物のリストがその対応するf(m)の値とともに表示される。当該値は、微生物の特定に関する信頼度に直接対応する。
Figure 2015509182
距離の直接的な比較を基礎とし追加の分析がない最新技術によれば、特定すべき微生物は微生物No.325であると結論付けられる。ここで、分布を詳細に参照すると、特定すべき微生物が実際には微生物No.325ではあり得ず、微生物No.59である可能性が高いことが分かる。特定の担当者のノウハウに基づく追加の分析によってのみ、特定した微生物が実際にNo.59であることを測定距離から結論付けることができる。
本発明に従う確率による距離変換により、この種の複雑なケースを解くことができる。実際、関数f325(m325)はゼロであり、これは、特定すべき微生物が微生物No.325である確率がゼロであることを意味し、関数f59(m59)が正でこの場合は0.52に等しく、これは特定すべき微生物が微生物No.59である信頼度は52%であることを意味する。
有利なことに、本発明に従う方法により、未知の微生物が知識ベースの参照微生物の1つであるかどうかを判定することもできる。実際、値f(m)は当該微生物と参照微生物の類似度の測定値を表す。したがって、値f(m)が小さい場合には、未知の生物が参照微生物のどれとも類似せず知識ベースでは参照されないと判定することができる。より具体的には、本発明に従う方法は、値f(m)の各々を、所定の閾値s、例えば全ての参照微生物に対して一意な値または参照微生物ごとの特定の値と比較するステップを含む。値f(m)が全てその各々の閾値より小さい場合には、参照微生物が知識ベースの参照微生物のどれとも対応しないと判定する。
有利なことに、単一の閾値sが使用され、この値は60%に等しい。発明者らは実際、当該値により、未知の微生物が知識ベースに含まれないと確実に判定できることを発見した。
有利なことに、当該方法はまた、互いと10%を超えない程度に異なる近傍値f(m)、例えば最大値f(m)を返す。
本発明に従う方法により、確率関数fがそれに基づいて決定される分類器に対して問題を生じさせる多数の困難なケースを解決できるが、本発明に従う方法が、特に例えば表現型の点で参照微生物が非常に類似するとき、異なる参照生命体に対して類似する結果を返す。値f(m)は微生物間の類似性の測定値であり、本発明に従う方法により、分類器が最小のマージンで区別できない本質的に類似の参照微生物に対して十分に近い値を有する結果を返すことができる。
Figure 2015509182
勿論、本発明はこの種のアルゴリズムには限定されず、任意の種類の分類アルゴリズム、特に、例えば、直接的には信頼インデックスでない、参照オブジェクトに対する距離を表す値またはスコアを生成するとすぐに、分類アルゴリズムが「1対全」または「全対全」タイプの2値分類の組合せによって得られる多分類アルゴリズムに適用される。
公知なように、どの分類アルゴリズムを考慮しても、参照微生物の各々を表すデータに関して計算されたスコアまたは距離が常に存在する。本発明に従う方法は当該データに基づくことができる。
特に、本発明は、例えば平均スペクトルまたは特許文献1に開示された「超スペクトル」のような、参照要素との類似度計算を適用する分類アルゴリズムに関する。
特許文献1に開示のアルゴリズムでは、「超スペクトル」とも呼ばれる「合成バックグラウンド・スペクトル」(REF)が構築され、その各々は、所与の種のうち最も典型的なものとして考えられるピークのリストに対応する。質量スペクトルにより微生物を特定するために、この測定されたスペクトルと知識ベースに格納された全ての超スペクトルとの「類似度」を計算する。この類似度は、例えば、Jaccard距離またはHamming距離のような質量に関する許容度を統合した距離であってもよい。
Figure 2015509182
Figure 2015509182

Claims (16)

  1. 質量分析法によって1組の所定の参照微生物から微生物を特定する方法であって、各参照微生物は1組の参照データにより表され、
    特定すべき前記微生物を代表する1組のデータを前記微生物の質量分析法測定に従って決定するステップと、
    参照微生物ごとに、決定した前記1組のデータと前記参照微生物の前記1組の参照データとの間の距離を計算するステップと、
    前記参照微生物として特定すべき前記微生物に対する確率を、関係
    Figure 2015509182
    に従って計算するステップであって、mは前記参照微生物に関して計算した前記距離であり、f(m)は前記距離mに関して計算した確率であり、N(m|μ、σ)は、距離mに対して、特定すべき前記微生物が前記参照微生物であるときに、特定すべき微生物に関連付けられた1組のデータと前記参照微生物の前記1組の参照データとの間の距離をモデル化するランダム変数の値であり、
    Figure 2015509182
    は、距離mに対して、特定すべき前記微生物が前記参照微生物でないときに、特定すべき微生物に関連付けられた1組のデータと前記参照微生物の前記1組の参照データとの間の距離をモデル化するランダム変数の値であり、pは0から1の範囲の所定のスカラである、ステップと、
    を含む、方法。
  2. ランダム変数N(m|μ、σ)と
    Figure 2015509182
    は正規ランダム変数であり、それぞれμと
    Figure 2015509182
    に等しい平均と、それぞれσと
    Figure 2015509182
    に等しい標準偏差を有する、請求項1に記載の方法。
  3. 前記確率は、関係
    Figure 2015509182
    に従って計算される、請求項2に記載の方法。
  4. 論理関係
    Figure 2015509182
    が証明された場合には、前記確率は、
    Figure 2015509182
    より大きい任意の距離mに対して1に設定され、
    Figure 2015509182
    は「排他的論理和」関数を表す、請求項2または3に記載の方法。
  5. 論理関係
    Figure 2015509182
    が証明されない場合には、前記確率は、
    Figure 2015509182
    より小さい任意の距離mに対して0に設定され、
    Figure 2015509182
    は「排他的論理和」関数を表す、請求項2または3に記載の方法。
  6. スカラpは全ての参照微生物に対して同一である、請求項1乃至5の何れか1項に記載の方法。
  7. スカラpは1/Nに等しく、Nは前記1組の参照微生物のサイズである、請求項6に記載の方法。
  8. スカラpは0.5に等しい、請求項1乃至6の何れか1項に記載の方法。
  9. 質量スペクトルの決定と、取得したスペクトルと各参照微生物の間の距離の計算によりベクトル分類アルゴリズムを実現する、請求項1乃至8の何れか1項に記載の方法。
  10. 前記微生物の前記質量スペクトルの決定は、
    前記微生物の少なくとも1つの質量スペクトルを取得するステップと、
    取得した前記少なくとも1つの質量スペクトルにおけるピークを検出して、検出した前記ピークを所定のベクトル空間のベクトルに変換するステップと、
    を含み、
    前記微生物と各参照微生物の間の前記距離の計算は、決定した前記ベクトルと、前記参照微生物の第1の部分空間特性と他の参照微生物の第2の部分空間特性の間の前記ベクトル空間を分割する境界と、の間の代数距離を計算するステップを含む、
    請求項9に記載の方法。
  11. 参照微生物の境界は、「サポート・ベクトル・マシン」タイプのアルゴリズムと前記参照微生物に対応する1組のベクトルとによって計算される、請求項9または10に記載の方法。
  12. 前記ベクトルは、前記質量スペクトルの質量対電荷比の範囲における各所定の再分割区間において高々1つのピークを特定することによって計算される、請求項9、10、または11の何れか1項に記載の方法。
  13. 質量スペクトルの決定と、取得したスペクトルと各参照微生物の間の距離の計算により許容距離アルゴリズムを実現する、請求項1乃至12の何れか1項に記載の方法。
  14. 確率f(m)の各々を所定の閾値と比較するステップと、
    確率f(m)の全てが前記閾値より小さい場合には、特定すべき前記微生物が前記参照微生物の何れとも対応しないと判定するステップと、
    を含む、請求項1乃至13の何れか1項に記載の方法。
  15. 前記閾値は60%に等しい、請求項14に記載の方法。
  16. 特定すべき微生物の質量スペクトルを生成可能な質量分光計と、
    請求項1乃至15の何れか1項の方法を実施することによって、前記質量分光計により生成された前記質量スペクトルに関連付けられた前記微生物を特定可能な計算ユニットと、
    を備える、質量分析法により微生物を特定するための装置。
JP2014544030A 2011-12-02 2012-11-30 質量分析法とスコア正規化による微生物の特定方法 Active JP6027132B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161566029P 2011-12-02 2011-12-02
EP11306609.6 2011-12-02
US61/566,029 2011-12-02
EP11306609.6A EP2600284A1 (fr) 2011-12-02 2011-12-02 Procédé d'identification de microorganismes par spectrométrie de masse et normalisation de scores
PCT/IB2012/056859 WO2013080169A1 (fr) 2011-12-02 2012-11-30 Procede d'identification de microorganismes par spectrometrie de masse et normalisation de scores

Publications (2)

Publication Number Publication Date
JP2015509182A true JP2015509182A (ja) 2015-03-26
JP6027132B2 JP6027132B2 (ja) 2016-11-16

Family

ID=45528919

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014544030A Active JP6027132B2 (ja) 2011-12-02 2012-11-30 質量分析法とスコア正規化による微生物の特定方法

Country Status (7)

Country Link
US (2) US10546735B2 (ja)
EP (2) EP2600284A1 (ja)
JP (1) JP6027132B2 (ja)
CN (1) CN104040561B (ja)
ES (1) ES2665551T3 (ja)
IN (1) IN2014KN01139A (ja)
WO (1) WO2013080169A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020230397A1 (ja) * 2019-05-10 2020-11-19 株式会社島津製作所 理論質量の外れ値検出方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3009387B1 (fr) * 2013-07-31 2016-11-18 Biomerieux Sa Procede et dispositif d'analyse d'un echantillon biologique
FR3035410B1 (fr) * 2015-04-24 2021-10-01 Biomerieux Sa Procede d'identification par spectrometrie de masse d'un sous-groupe de microorganisme inconnu parmi un ensemble de sous-groupes de reference
CN105447527A (zh) * 2015-12-31 2016-03-30 四川木牛流马智能科技有限公司 采用图像识别技术将环境微生物进行分类的方法和系统
CN105608472A (zh) * 2015-12-31 2016-05-25 四川木牛流马智能科技有限公司 一种将环境微生物进行全自动分类的方法和系统
US10930371B2 (en) * 2017-07-10 2021-02-23 Chang Gung Memorial Hospital, Linkou Method of creating characteristic peak profiles of mass spectra and identification model for analyzing and identifying microorganizm
CN107481240B (zh) * 2017-08-17 2020-06-09 重庆青信科技有限公司 基于能谱ct图像全分割方法及系统
CN107481242B (zh) * 2017-08-17 2020-06-05 重庆青信科技有限公司 一种能谱ct图像的分割方法及系统
WO2019079492A1 (en) * 2017-10-18 2019-04-25 The Regents Of The University Of California SOURCE IDENTIFICATION FOR MOLECULES UNKNOWN BY MASS SPECTRUM CORRESPONDENCE
KR20190074890A (ko) * 2017-12-20 2019-06-28 에스케이하이닉스 주식회사 메모리 컨트롤러 및 그 동작 방법
CN116324418A (zh) * 2020-10-06 2023-06-23 赛默飞世尔科学公司 用于快速微生物鉴定的系统和方法
CN112884663B (zh) * 2021-01-18 2023-11-21 北京晶科瑞医学检验实验室有限公司 一种针对组织质谱成像结果识别并划分细胞边界的方法
US11990327B2 (en) 2022-02-18 2024-05-21 Shimadzu Corporation Method, system and program for processing mass spectrometry data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316063A (ja) * 2006-04-28 2007-12-06 National Institute Of Advanced Industrial & Technology 細胞の迅速識別方法及び識別装置
US20110202282A1 (en) * 2010-02-01 2011-08-18 Bruker Daltonik Gmbh Multi-Stage Search for Microbe Mass Spectra in Reference Libraries
JP2012507711A (ja) * 2008-10-31 2012-03-29 バイオメリュー・インコーポレイテッド 質量分析を使用した微生物の分離、キャラクタリゼーションおよび/または同定方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10038694C2 (de) 2000-07-28 2003-09-25 Anagnostec Ges Fuer Analytisch Verfahren zur Identifizierung von Mikroorganismen mittels MALDI-TOF-MS
BRPI0506117A (pt) 2005-10-14 2007-07-03 Fundacao Oswaldo Cruz método de diagnóstico baseado em padrões proteÈmicos e/ou genÈmicos por vetores de suporte aplicado a espectometria de massa
CN101477630A (zh) 2009-02-17 2009-07-08 吴俊� 智能化水处理微生物机器视觉辨识系统和方法
JP5750676B2 (ja) 2011-10-18 2015-07-22 株式会社島津製作所 細胞識別装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316063A (ja) * 2006-04-28 2007-12-06 National Institute Of Advanced Industrial & Technology 細胞の迅速識別方法及び識別装置
JP2012507711A (ja) * 2008-10-31 2012-03-29 バイオメリュー・インコーポレイテッド 質量分析を使用した微生物の分離、キャラクタリゼーションおよび/または同定方法
US20110202282A1 (en) * 2010-02-01 2011-08-18 Bruker Daltonik Gmbh Multi-Stage Search for Microbe Mass Spectra in Reference Libraries

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020230397A1 (ja) * 2019-05-10 2020-11-19 株式会社島津製作所 理論質量の外れ値検出方法
JPWO2020230397A1 (ja) * 2019-05-10 2021-12-09 株式会社島津製作所 理論質量の外れ値検出方法
JP7095805B2 (ja) 2019-05-10 2022-07-05 株式会社島津製作所 理論質量の外れ値検出方法

Also Published As

Publication number Publication date
CN104040561A (zh) 2014-09-10
US20140343864A1 (en) 2014-11-20
EP2600284A1 (fr) 2013-06-05
WO2013080169A1 (fr) 2013-06-06
US10546735B2 (en) 2020-01-28
ES2665551T3 (es) 2018-04-26
JP6027132B2 (ja) 2016-11-16
US20200118805A1 (en) 2020-04-16
EP2798575B1 (fr) 2018-01-10
EP2798575A1 (fr) 2014-11-05
IN2014KN01139A (ja) 2015-10-16
CN104040561B (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
JP6027132B2 (ja) 質量分析法とスコア正規化による微生物の特定方法
Diallo et al. The impact of total and partial inclusion or exclusion of active and inactive time invariant covariates in growth mixture models.
US11144576B2 (en) Target class feature model
JP7132772B2 (ja) 分光法を用いる識別
CN110362677B (zh) 文本数据类别的识别方法及装置、存储介质、计算机设备
CN110850164B (zh) 考虑背景谐波电压波动和阻抗变化的多谐波责任划分方法
CN109271788B (zh) 一种基于深度学习的Android恶意软件检测方法
RU2017143983A (ru) Способы и системы для определения вариантов числа копий
Hamsagayathri et al. Performance analysis of breast cancer classification using decision tree classifiers
JP2018155522A (ja) データ解析装置
WO2020194497A1 (ja) 情報処理装置、個人識別装置、情報処理方法及び記憶媒体
US20200257885A1 (en) High speed reference point independent database filtering for fingerprint identification
US20210350283A1 (en) Data analyzer
JP6244996B2 (ja) 識別関数特定装置、識別関数特定プログラム、識別関数特定方法および生体認証装置
Yang et al. A feature-metric-based affinity propagation technique for feature selection in hyperspectral image classification
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
Grün et al. Dealing with label switching in mixture models under genuine multimodality
Ye et al. A shape based similarity measure for time series classification with weighted dynamic time warping algorithm
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN107067034B (zh) 一种快速识别红外光谱数据分类的方法及系统
JP5940018B2 (ja) データ名称抽出装置及びプログラム
Ortiz et al. Dilation aware multi-image enrollment for iris biometrics
Saha et al. Data Classification based on Decision Tree, Rule Generation, Bayes and Statistical Methods: An Empirical Comparison
CN111797397B (zh) 恶意代码可视化及变种检测方法、设备及存储介质
CN106852171B (zh) 基于声音信息的用户多个行为识别方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150622

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160815

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160916

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161013

R150 Certificate of patent or registration of utility model

Ref document number: 6027132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250