JP2016532443A - 生体サンプルを分析するための方法及びデバイス - Google Patents

生体サンプルを分析するための方法及びデバイス Download PDF

Info

Publication number
JP2016532443A
JP2016532443A JP2016530582A JP2016530582A JP2016532443A JP 2016532443 A JP2016532443 A JP 2016532443A JP 2016530582 A JP2016530582 A JP 2016530582A JP 2016530582 A JP2016530582 A JP 2016530582A JP 2016532443 A JP2016532443 A JP 2016532443A
Authority
JP
Japan
Prior art keywords
vector
biological sample
model
candidate model
intensity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016530582A
Other languages
English (en)
Other versions
JP6370903B2 (ja
Inventor
ピエール・マエ
ジャン−バティスト・ヴェイリエラ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biomerieux SA
Original Assignee
Biomerieux SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biomerieux SA filed Critical Biomerieux SA
Publication of JP2016532443A publication Critical patent/JP2016532443A/ja
Application granted granted Critical
Publication of JP6370903B2 publication Critical patent/JP6370903B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Algebra (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Operations Research (AREA)
  • Computing Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

多次元測定技術によって得られた強度ベクトルによって表される、二つの異なる分類群に属する少なくとも二つの微生物を生体サンプルにおいて検出する方法であって、・測定技術によって生体サンプルのデジタル信号を取得する段階と;・取得されたデジタル信号に従って強度ベクトルを決定する段階と;・以下の関係に従って強度ベクトルをモデリングする候補モデルのセットを構成する段階であって、式中:・、、・、は所定の係数である、段階と;・以下の関係に従ってセットから候補モデルを選択する段階であって、式中・は、候補モデルによって、生体サンプルの強度ベクトルと、強度ベクトルの再構成との間の再構成エラーを定量化する基準であり、・は、候補モデルの複雑性を定量化する基準である、段階と;・のベクトルの少なくとも二つの成分が正のしきいよりも大きいとき、少なくとも二つの分類群の生体サンプルにおける存在を決定する段階と、を含む方法。

Description

本発明は、複数の異なる微生物を含むことが可能な生体サンプルの分析に、より具体的には、分析されている生体サンプルを代表する多次元デジタル信号を生成する測定技術に基づいた、微生物の混合物の検出及び識別に関する。
微生物、及びより具体的にはバクテリアを識別するための分析法(spectrometry)または分光法(spectroscopy)を用いることが既知である。この目的のために、未知の微生物のサンプルが調整され、その後サンプルの質量、振動又は蛍光スペクトルが取得され、前処理され、特に、ベースラインを除去し、ノイズを除去する。前処理されたスペクトルはその後、参照方法によって、識別される微生物の分類群、例えば、種と関連したスペクトルのセットから構成された参照ベースを備える分類ツールによって“比較される”。
より具体的には、分類による微生物の識別は慣例的に、以前から知られているそれらの種を有する微生物のいわゆる“トレーニング”スペクトルに従う分類モデルであって、トレーニングスペクトルの内からこれらの異なる種を区別するルールのセットを定義する分類モデルを、管理された学習によって、決定する第1のステップと、特定の未知の微生物の識別の、又は“予測”の第2のステップと、を含む。この第2のステップは特に、識別されることになる微生物のスペクトルを取得する段階と、スペクトルを前処理する段階と、分類モデルから構成された予測モデルを前処理されたスペクトルへ適用する段階と、を含み、未知の微生物が属する少なくとも一つの種を決定する。
そのため、典型的には、分析法又は分光法識別デバイスは、分光計又は分光器、並びに、測定されたスペクトルを受け取り、多次元デジタル強度ベクトルを得るためにそれらデジタル化し、生成されたデジタルベクトルに従って第2の上記ステップを実行する、取得及び処理ユニットを含む。第1のステップは、分類モデル及び予測モデルを決定し、カスタマーによるその使用前に機器内にそれを統合する、デバイスの製造業者によって実行される。
これまで、考慮された測定技術又は識別アルゴリズムが何であれ、生体サンプルの分析は、単一タイプの微生物を含むサンプルに限定される。実際、複数の異なる微生物を含む生体サンプルの分析は特に異なり、分類モデルに基づいた予測アルゴリズムは、生体サンプルが複数の微生物を含むことを検出することに、そのためまた、このようなサンプルに含まれる微生物を識別することに失敗することが特に観測され得る。
そのため、分析法又は分光法識別の任意のステップの前に、知られることが所望される微生物を含む、試験されることになるサンプルは、異なるタイプの微生物を単離することを目的とする生物学的処理のステップを最初に受ける。分析法又は分光法によって識別されることになる生体サンプルはその後、単離された微生物の単一のタイプから調整される。例えば、バクテリアの識別に関して、試験されることになる生成物の溶液が調整され、その後、得られた溶液は、例えば、一つ又は複数のペトリ皿の上で、一つ又は複数の培地と一緒に置かれる。培養後、異なるバクテリアのコロニーはその後、識別され、単離され、その各々は、後続の識別を受け得る。
現在、このような生体サンプル調整は、長時間を取り得、特定のタイプの微生物は実際、複数日の培養時間を必要とする。さらに、特定の微生物は、成長するために非常に特定の培地を必要とする。
これが生成するコストは別として、試験されることになる生成物において含まれる、異なる微生物の全てが成長しないリスク、そのため、微生物を“見失う”リスクが常に存在する。そのため、複数菌の混合物を効率的に分析するための分類モデルに基づいた識別アルゴリズムの無能力によって強制的に為される、この予備的調整ステップは、エラーの重要な供給源である。
本発明の議論
本発明は、特に分光法、分析法、又は多次元デジタル強度ベクトルを生成する任意のタイプの測定によって、サンプルの単一測定に従って、生体サンプルが一つ又は複数の異なる微生物を含むという事実とは独立して、生体サンプルを分析することが可能な、生体サンプルを分析する方法を提供することを目的とする。
これを達成するために、本発明は、
個の異なる参照分類群
の所定のセット
から二つの異なる分類群に属する少なくとも二つの微生物を生体サンプルにおいて検出する方法を目的とし、各参照分類群
は、参照分類群を示す微生物を含む少なくとも一つの参照生体サンプルを、参照サンプルを代表する多次元デジタル信号を生成する測定技術で検証することによって、及び、前記多次元デジタル信号に従って前記基準ベクトルを決定することによって得られる、空間
の所定の基準強度ベクトル
、つまり“プロトタイプ”によって表され、
は1より大きく、本方法は:
・測定技術によって生体サンプルの多次元デジタル信号を取得する段階と;
・取得された多次元デジタル信号に従って
の強度ベクトル
を決定する段階と;
・以下の関係に従って強度ベクトル
をモデリングする候補モデル
のセット
を構成する段階であって、
式中:

は、モデル
によって強度ベクトル
を再構成する
のベクトルであり;

は実数スカラーであり、Ipは
の単位ベクトルであり;


は、
のベクトル
のj番目の成分であり;





は所定の係数である、段階と;
・候補モデル
のセット
から候補モデル
を選択する段階であって、以下の関係に従う問題の解決法:
式中:

は、候補モデル
によって、生体サンプルの強度ベクトル
と、強度ベクトル
の再構成
との間の再構成エラーを定量化する基準であり;

は、候補モデル
の複雑性を定量化する基準である、段階と;
・選択された候補モデル
のベクトル
の少なくとも二つの成分
が所定の厳密に正のしきい値よりも大きいとき、分類群の所定のセット
の異なる分類群に属する少なくとも二つの微生物の生体サンプルにおける存在を決定する段階と、を含む。
これを達成するために、本発明はまた、
個の異なる参照分類群
の所定のセット
から生体サンプルにおいて存在する微生物を識別する方法を目的とし、各参照分類群
は、参照分類群を示す微生物を含む少なくとも一つの参照生体サンプルを、参照サンプルを代表する多次元デジタル信号を生成する測定技術で検証することによって、及び、前記多次元デジタル信号に従って前記基準ベクトルを決定することによって、得られる空間
の所定の強度ベクトル
によって表され、
は1より大きく、本方法は:
・測定技術によって生体サンプルの多次元デジタル信号を取得する段階と;
・取得された多次元デジタル信号に従って
の強度ベクトル
を決定する段階と;
・以下の関係に従って強度ベクトル
をモデリングする候補モデル
のセット
を構成する段階であって、
式中:

は、モデル
によって強度ベクトル
を再構成する
のベクトルであり;

は実数スカラーであり、Ipは
の単位ベクトルであり;


は、
のベクトル
のj番目の成分であり;





は所定の係数である、段階と;
・候補モデル
のセット
から候補モデル
を選択する段階であって、以下の関係に従う問題の解決法:
式中:

は、候補モデル
によって、生体サンプルの強度ベクトル
と、強度ベクトル
の再構成
との間の再構成エラーを定量化する基準であり;

は、候補モデル
の複雑性を定量化する基準である、段階と;
・厳密に正の所定のしきい値より大きい、選択された候補モデル
のベクトル
の各成分
に関する所定のセット
の分類群
の微生物の生体サンプルにおける存在を決定する段階と、を含む。
これを達成するために、本発明はまた、
個の異なる参照分類群
の所定のセット
から二つの異なる分類群に属する生体サンプルにおける相対存在量を決定する方法を目的とし、各参照分類群
は、参照分類群を示す微生物を含む少なくとも一つの参照生体サンプルを、参照サンプルを代表する多次元デジタル信号を生成する測定技術で検証することによって、及び、前記多次元デジタル信号に従って前記基準ベクトルを決定することによって、得られる空間
の所定の強度ベクトル
によって表され、
が1より大きく、本方法は:
・測定技術によって生体サンプルの多次元デジタル信号を取得する段階と;
・取得された多次元デジタル信号に従って
の強度ベクトル
を決定する段階と;
・以下の関係に従って強度ベクトル
をモデリングする候補モデル
のセット
を構成する段階であって:
式中:

は、モデル
によって強度ベクトル
を再構成する
のベクトルであり;

は実数スカラーであり、Ipは
の単位ベクトルであり;


は、
のベクトル
のj番目の成分であり;





は所定の係数である、段階と;
・候補モデル
のセット
から候補モデル
を選択する段階であって、以下の関係に従う問題の解決法:
式中:

は、候補モデル
によって、生体サンプルの強度ベクトル
と、強度ベクトル
の再構成
との間の再構成エラーを定量化する基準であり;

は、候補モデル
の複雑性を定量化する基準である、段階と、
・以下の関係に従って参照分類群
の生体サンプル
における相対存在量を決定する段階であって:

式中、

における
の行列関数であり、

による
のベクトルであり、
は参照分類群
の相対存在量である、段階と、を含む。
本明細書で“検出”は、生体サンプルの複数菌の性質の決定を意味する。微生物の“識別”は、例えば、その種、そのサブ種、その属、そのグラム等の、微生物特有のデータ、より一般的には、微生物の固有の識別情報の構成において用いられるのに有用であると認められる任意のデータの決定に対応する。
“分類群”との用語は特に、生物の分類学的分類のノードの、リーフの、又はルートの位置を特徴づけるために用いられる“分類群”との用語よりも広い概念を指す。本発明の観点では、分類群との用語は、有用と認められる生物の分類の任意のタイプを指す。特に、本発明は、従来の分類学的分類へ、臨床表現型に基づいた分類へ、並びに、従来の意味における及び臨床表現型上の分類学的評価に基づいたハイブリッド分類へ適用される。
本明細書で“測定技術”とは、デジタル化される複雑な信号を生成することを含む測定を意味する。このタイプの測定の内、例えば、質量分析法、特に、MALDI−TOF分析法及びESI−MS分析法、振動分光法、特に、RAMAN分光法、蛍光分光法、特に、内在蛍光分光法又は赤外線分光法に言及し得る。これらの技術の各々は、デジタル化されるスペクトルを生成するので、測定されているサンプルを代表する多次元デジタル信号を提供する。
言い換えると、本発明は、強度ベクトルを混合することによって得られる候補モデルを生成する段階であって、含まれた測定技術によって、以前に識別された分類群を各々が代表する段階と、その後、分析を受けるサンプルの強度ベクトルの近似値と、候補モデルの複雑性との間のベストなトレードオフを提供する候補モデルを保持する段階と、を含む。実際、生体サンプルを最も忠実に推定するモデルは、強度ベクトルの最も正確な再構成を可能にするものではなく、十分に正確であり且つ適度に複雑の両方であることが観測され得る。そのため、発明者は、このような構造を有するアルゴリズムが、サンプルにおける複数の微生物の存在を検出する、及び、高い成功率でサンプルにおいて存在する微生物を識別することの両方が可能であることを指摘している。
本発明の実施形態によると、

は、参照分類群
及び
の基準ベクトル
及び
間の類似性の係数である。特に、基準ベクトルが、それらのジャッカード係数(Jaccard係数)などの、測定技術によって生成されたスペクトルにおいて含まれるピークをリスト化するとき、類似性係数は、正規化された又はされていない、強度ベクトル間のスカラー積として定義され得る。実際、二つの異なる分類群間の生物学的な近接性は、これらの分類群の二つの基準ベクトルの間の近接性を誘起することが観測され得る。そのため、参照分類群
の微生物は、分類群
の基準ベクトル
に非常に近い基準ベクトル
を有する参照分類群
の微生物に加えて、又は代わりに、生体サンプルにおいて識別され得る。そのため、参照分類群間での生物学的近接性を考慮する調整された基準ベクトル
の生成は、検出及び識別エラーを最小化する。
実施形態によると、
、且つ候補モデル
のセット
の構成が、
のパラメータ
の値に関する最適化問題のセットを解決することを含み、各問題は以下の関係に従って定義され:
式中、
は、ベクトル
のノルムL1である。
言い換えると、候補モデルの構成は、構成エラー
を含む第1の項、及びノルムL1に基づいた第2の重み付け項
を含むLASSOタイプペナルティを含む。ゼロ項
に関して、得られた候補モデルは、モデル係数の正値性(positivity)の制約下で再構成エラーを最小化するものである。本明細書で上述したように、このモデルは一般的に、生体サンプルを最も良く推定するものではない。なぜならそれは通常、大部分の又はすべてですらある非ゼロの成分
に起因する最も高い複雑性を有するからである。パラメータ
が増加するとき、成分
は、一つずつ、順々にゼロに等しくなることが観測され得る。
の値を経過することによって、
の固有構造を各々有する候補モデルのセットがこのようにして得られる。そのため、このタイプのアルゴリズムの適用は、
の可能なモデル構造の内から少数のモデル構造の事前選択を実施することを可能にする。また、各最適化問題は凸状(convex)であるので、候補モデルを非常に迅速に計算することが可能である。本発明に従う本方法の実質的な加速はこのようにして得られる。
変形として、スカラー
は非ゼロであり、上述の最適化問題は、以下の関係に従って書き換えられ得る:
そのため、異なる構造が選択され得る。
他の一つの実施形態によると、
、且つ、候補モデル
のセット
の構成は、
のパラメータ
及び
の値に関する最適化問題のセットを解決することを含み、各問題は以下の関係に従って定義される:
式中:

はノルムL1であり;

はノルムL2であり;

は、ベクトルa及びbの項別の積であり;

及び
は、
の所定のウェイトのベクトルである。
言い換えると、LASSO法による候補モデルの構成は、適応できるペナルティ(
と組み合わされた“エラスティックネット(elastic net)”タイプ(
のペナルティを備える(Least Angle Regression − Elastic Netに関する)LARS−ENタイプアルゴリズムによって実行される。LARS−ENアルゴリズムは例えば、アドレスhttp://cran.r−project.org/web/packages/elasticnet/で入手可能なモジュール“R elasticNet”において含まれるZou及びHastieのものである。変形として、“elastic net”タイプのペナルティのみが実行される、つまり、
は、ゼロであるようにセットされる、又は、適応できるLASSOタイプペナルティのみが実行される、つまり、
及び
は、
の単位ベクトル
に等しくなるようにセットされる。候補モデルに関する異なる構造が得られ得る。有利には、適応可能なバージョンは、生体サンプルに含まれる可能性の高い分類群に関連する事前情報を含むことが可能である。例えば、他の成分よりも小さいベクトル

の成分を選択することは、生体サンプルにおけるこの成分に対応する分類群の存在をより高くすることが可能である。
変形として、スカラー
は非ゼロであり、上述の最適化問題は以下の関係に従って書き換えられ得る:
LARS−ENアルゴリズム以外の事前選択可能な他のアプローチが想定され得、例えば、Annals of Applied Statistics, 2011, vol.5, No.2A, 628−644におけるDaniel Percival等による文献“Structured, sparse regression with application to HIV drug resistance”において説明されるような、例えば、単純な又は構造化された“ステップワイズ”アルゴリズム等である、又は、
個の可能な構造の内の候補モデルのかなりの数の構造を評価することを目的とする網羅的アプローチですらある。
有利には、最適化問題の解決法である各ベクトル
に関して、新しい候補モデル
が計算され、ベクトル
に対応するモデル
を置換し、新しいモデル
のベクトル
の成分は、ベクトル
のゼロ成分に対応し、強制的にゼロにされ、新しいモデル
は、以下の関係に従って最適化問題を解決することによって計算される:
式中:

は、生体サンプル
の強度ベクトルのb番目の成分であり;

は、再構成ベクトル
のb番目の成分である。
言い換えると、候補モデルは、LASSOアプローチ又は同様のものの実行の終わりで得られたベクトルの構造を維持しつつ、標準的な線形モデルによって再計算される。ノルムL1に基づいた項による再構成エラーの重み付けに起因して、LASSOアプローチによって得られる候補モデルは、関連した構造をそれらが示すが、低い尤度を有する。候補モデルは有利には、LASSOアプローチによって決定された構造を維持することによって、及び、標準的な線形モデルにおいて定義されるようなそれらの尤度を最大化することによって再計算される。生体サンプルの分析の品質はこのように強化される。なぜなら、候補モデルの選択、及びそれらの効果の推定は、二つの異なるステップにおいて実行されるからである。
実施形態によると、再構成エラーを定量化する基準
は尤度基準である。より具体的には:
式中:



は、生体サンプル
の強度ベクトルのb番目の成分であり;

は、候補モデル
の再構成ベクトル
のb番目n成分である。
実施形態によると、モデル
の複雑性を定量化する基準
は、ベクトル
の厳密に正の成分
の数に関して、前記複雑性を定量化する。より具体的には:

のとき、
のとき、
式中、関数
は、その引数が真の場合、1に等しく、そうでない場合0である。
変形として、スカラー
が候補モデルの計算上でゼロに等しく設定されるとき、それゆえスカラー
も、基準
は、以下の関係に従って書き換えられ得る:
そのため、好ましい実施形態によると、選択された候補モデル
は、以下の関係に従って関数を最小化するものである:
また、以下の関係に従って関数を最小化するものである:
言い換えると、選択された候補モデルは、高性能モデル選択を提供する“BIC”(“ベイズ情報量基準(Bayesian Information Criterion)”に関する頭文字)基準を最小化するものである。この基準のより詳細な説明に関して、参照は、例えば、文献“Le critere BIC : fondements theoriques et interpretation”, by Emilie Labarbier and Tristan Mary−Huard, INRIA, Rapport de recherche n°5315, September 2004に為され得る。
しかしながら、他の選択基準、例えば、“AIC”(“Akaike Information Criterion”に関する頭文字)、“MLD”(“Minimum Description Length”に関する頭文字)、又は“Cp de Mallows”基準、又は、一般的に、複雑性基準を尤度若しくはエラー再構成基準と組み合わせる任意の基準等、が可能である。
実施形態によると、分類群は、同じ分類レベル、特に、種、属又はサブ種レベルに属する。変形として、分類群は、少なくとも二つの異なる分類レベル、特に、種、属及び/又はサブ種に属する。特に、第1の分類レベル内で定義される分類群のセット間の類似度が所定のしきいよりも大きい場合、そのとき、参照分類群の所定のセット
を形成することに関して、前記分類群は、集められ、第1の分類レベルよりも高い第2の分類レベルで定義される参照分類群によって置換される。
言い換えると、本発明による方法は、異なる微生物記載レベルを選択することを含まない。例えば、種を属と、これに関して任意の特定の問題を上昇させることなく、組み合わせることが可能である。そのため、本発明に起因して、基準ベクトルに関して互いに十分に異なる参照分類群を選択すること、そのため、検出及び識別エラーを最小化することが可能である。例えば、同じ特定の属内で種スペクトルが、それによって検出又は識別アルゴリズムを当惑させるリスクがある、非常に大きい度合の類似性を有するとき、他の微生物に関する種レベルをいまだに優先しつつ、種よりも属を選択することが可能である。
実施形態によると、分類群は第1の分類レベルに属し、ベクトルの新しいモデルは、より高いレベルへ取り付けられたベクトル
の成分を加えることによって、第1の分類レベルよりも高い第2の分類レベルへの前記分類群の寄与を推定することによって計算される。特に、第1のレベル内の類似度が所定のしきいよりも高い場合、ベクトルxのモデルは、より高い分類レベルに関して計算される。
言い換えると、本発明に起因して、より低い分類レベルでアルゴリズムによって得られる結果に起因して微生物のより高い分類レベルを識別することが可能である。これは例えば、すべての微生物に関して同一の分類レベルを維持することが、たとえ微生物が前記レベルで非常に高い類似性を示すことになるとしても、可能であり、より高い分類レベルに関する候補モデルを計算することによってそこから結果として得られる検出及び識別エラーを相殺することが可能である。このアプローチはまた、異なるレベルで考慮される参照分類群に適用され得、特に、最終的に選択された候補モデルが、非常に類似であると考慮される分類群を含むとき、要求に応じて、より高いレベルを計算することが可能である。
実施形態によると、測定技術はスペクトルを生成し、基準強度ベクトル
は、参照分類群
のスペクトルにおいて含まれるピークのリストである。特に、測定技術は質量分析法を含む。
実施形態によると:
式中、

は、選択されたモデル
のベクトル
のj番目の成分である。
本発明はまた、以下を含む生体サンプルを分析するためのデバイスを目的とする:
・生体サンプルのスペクトルを生成可能な分光計又は分光器;
・上述のタイプの方法を実行可能な計算ユニット。
本発明は、添付の図面と関連するのみの例として提供される以下の説明を読むことでより良く理解されることになるであろう。
本発明による方法を示すフローチャートである。 本発明による方法を試験するために用いられる複数のバクテリア種間の類似性の行列である。 上記バクテリアの混合物のピークベクトルである。 (A)混合物上の種レベルで実施された本発明による、検出の及び識別の結果である。(B)混合物上の属レベルで実施された本発明による、検出の及び識別の結果である。
MALDI−TOF(マトリクス支援レーザー脱離イオン化飛行時間“Matrix−assisted laser desorption/ionization time of flight”)質量分析法に適用され、単一の分類レベル、つまり、種レベルに関する、本発明の実施形態は、図1のフローチャートと関連してこれから説明されるであろう。MALDI−TOF質量分析法はそれ自体既知であり、今後さらに詳細に説明されないであろう。例えば、Jackson O Layの文献“Maldi−tof spectrometry of bacteria”、Mass Spectrometry Reviews,2001,20,172−194が参照され得る。
本方法は、各々が以前に識別された微生物参照種
と関連した、
個の基準強度ベクトル
のセット
の構成のステップ10によって開始し、生体サンプルが一つ又は複数の異なる参照種を含むかどうかを知ることが望ましい、及び/又は、含む可能性の高い参照種が識別されることが望ましい、及び/又は、サンプルに存在する微生物の存在量が定量化されることが望ましい、生体サンプルを分析するステップ12によって続く。
ステップ10の実施形態は、参照種
に関してこれから説明される。ステップ10は、MALDI−TOF分析法によって、所定のトムソン範囲
における種
の少なくとも一つのデジタル質量スペクトルを、14で、取得する段階を含む。例えば、種
に属する微生物の複数の菌株が用いられ、スペクトルが各々の菌株に関して取得される。種
に関して取得されたデジタルスペクトルはその後、有利には対数変換の後で、前処理され、特に、それ自体は既知の方法で、それらをノイズ除去して、それらのベースラインを除去する。
取得されたスペクトルに存在するピークはその後、例えば、極大値の検出に基づいたピーク検出アルゴリズムによって、ステップ16で識別される。スペクトルピークの場所及び強度を含む、各取得されたスペクトルに関するピークのリストがこのように生成される。
本方法は、量子化又は“ビニング”ステップによって、ステップ18で、続く。これを達成するために、トンプソン範囲
は、例えば、同一の、所定の幅のpの間隔、又は“ビン”に分けられる。ピークの各リストは、間隔当たりの単一のピーク、例えば、最も強い強度を有するピーク、を保持することによって減少する。各リストはそのため、量子化間隔に関して保持されたピークの強度を成分として有する
のベクトルへ減少され、成分に関するゼロ値は、対応する間隔において、ピークが検出されなかったことを意味するので、維持される。“プロトタイプ”とも呼ばれる、多次元デジタルベクトル
はその後、減少したピークリストに従って、種
に関して生成される。厳密に正である減少したリストの、対応する成分の頻度が、しきい、例えば、30%より低い、そうでなければ、厳密に正である減少したリストの対応する成分のメディアン値に等しい、又は減少したリストの対応する成分の平均に等しいように選択される場合、ベクトル
の各成分は特にゼロへ設定される。
特に、MALDI−TOF分析法に関して、
である。微生物を識別するのに十分なデータがこの質量−ロード比率範囲においてグループ化されること、及び、より幅広い範囲を考慮する必要がないことが実際観測されてきた。範囲
は、p=1,300の一定間隔に分けられる。ベクトル
はそのため、
のベクトルである。変形として、出願EP 2 600 385において説明されるように、間隔の幅は、対数的に増加する。
変形として、ベクトル
は、対応する間隔においてピークが存在するときに“1”へ、この間隔においてピークが存在しないときに“0”へ、ベクトル
の成分の値を設定することによって“二値化”される。これは、ステップ12の生体サンプルの分析をより強固にすることをもたらす。発明者は、特に、バクテリアを識別するための、関連情報が、ピークの欠如及び/又は存在において本質的に含まれること、及び、強度情報が、関連性は低いことを実際に指摘してきた。強度は、一つのスペクトルから他のものへ、及び/又は、一つの分光計から他のものへ非常に変わりやすいことがさらに観測され得る。この変動性に起因して、分類ツールにおいて原強度値を考慮することは困難である。
もちろん、種
のベクトル
は、種
を代表するベクトルを生成するのに有用と認められる任意の方法において得られ得る。例えば、種
の菌株のスペクトルは統計処理を受けて、単一のスペクトルを生成する。単一のスペクトルは、ピーク検出を受け、生成されたピークのリストはその後、最も強い強度のピークを各量子化間隔において維持することのみによって量子化される。統計処理は、例えば、スペクトルの平均の計算、メディアンスペクトルの計算、又は、最も弱い種の全ての他のスペクトルに対する平均距離を示すスペクトルの選択であり得る。同様に、アルゴリズムの堅牢性を保証しつつ、処理されることになるデータの数を著しく減少することが可能な、量子化ステップ18は、任意である。ベクトル
は、例えば、取得及び前処理するステップ14の後で直接得られたデジタルスペクトルで形成され得る。一般的に、この種の単一のサインを含むデジタルベクトルを種
に関して生成することが可能な任意の方法が、適切であり得る。
構成ステップ10によって得られるベクトル
はその後、データベースにおいて格納される。データベースはその後、MALDI−TOFタイプの質量分析計と、分光計へ接続され、分析ステップ12を実行することによって、取得された質量スペクトルを受け入れる、デジタル化する及び処理することが可能なデータ処理ユニットと、を含む質量分析法によって生体サンプル分析のシステムにおいて組み込まれる。分析システムはまた、質量分析計から離れた、データ処理ユニットを含み得る。例えば、デジタル分析は、そこへサーバーも接続される、インターネットへ接続されたパーソナルコンピューターによってユーザーによってアクセス可能な遠方のサーバー上で実行される。ユーザーは、サーバー上へMALDI−TOFタイプ質量分析計によって得られた未処理のデジタル質量スペクトルをロードし、その後分析アルゴリズムを実行し、ユーザーのコンピューターへアルゴリズムの結果を戻す。特に、分析システムにおいて着手されたデータベースは、いつ何時もアップデートされることがあり、特に、基準強度ベクトルを追加する、交換する、及び/又は削除することが留意されるべきである。
生体サンプルが一つ又は複数のタイプの微生物を含むかどうかを知ることを望ましい、及び/又は、それが含む微生物が識別されることが望ましい、及び/又は、サンプルに存在する複数の微生物の相対存在量が定量化されることが望ましい、生体サンプルの分析のステップ12の実施形態が、今から説明されるであろう。
分析ステップ12は、MALDI−TOF分析法に関する生体サンプルを調整する、特に、それ自体は知られているような、マトリクスにおけるサンプルの組み込みの、第1のステップ20を含む。より具体的には、サンプルは、それが含む異なるタイプの微生物を単離することを目的とする予備的なステップを受けない。
分析12は、MALDI−TOF分析計によって生体サンプルのデジタル質量スペクトルを取得するステップ22によって続き、取得されたスペクトルはノイズ除去され、そのベースラインは削除される。
次のステップ24は、デジタルスペクトルのピークを検出する段階、及び、検出されたピークに基づいて
の強度ベクトル
を決定する段階を含む。例えば、以前に説明されたようなトムソン空間(Thomson space)の量子化は、量子化間隔における最も高い強度のピークを維持することのみによって実行される。一般的に、強度ベクトル
は、任意の適切な方法によって生成され得る。
一旦、
の強度ベクトル
が生体サンプルの質量スペクトルに従って得られると、分析は、以下の関係に従う強度ベクトル
をモデリングする候補モデル
のセット
の構成によって、26で、続く:
(1)
式中:

は、モデル
によって強度ベクトル
を再構成する
のベクトルである;

は、データベースに格納される基準強度ベクトル
の数である;

は実数スカラーであり、

の単位ベクトルである;


は、
のベクトル
のj番目の成分である;


;及び


は所定の係数である。
より具体的には、係数
は、基準強度ベクトル
間の類似性、又は“近接性”を定量化する係数、特に、以下の関係に従うジャッカード係数である:
(2)
ここで、
は、ベクトル
の非ゼロ成分の数であり、
は、ベクトル
の非ゼロ成分の数であり、
は、ベクトル
及び
によって共有される非ゼロ成分の数である。
より具体的には、セット
の構成26は、候補モデル
のベクトル
に関する複雑性を増加させる、構造
のセット
を選択する第1のステップ28を含み、
の選択された構造を有する候補モデルを計算するステップ30にが続く。
特に、ステップ28は、ゼロ成分の増加する数を含む
の二値ベクトル
のセット
を選択する段階を含み、各ベクトル
は、候補モデル
のベクトル
の成分が自由、又は強制的に0にされることを示している。特に、ベクトル
の値0の成分は、ベクトル
の対応する成分が強制的に0にされることを示し、ベクトル
の値1の成分は、ベクトル
の対応する成分が非ゼロの正の値を自由にとることを示す。例えば、
に設定することによって、及び、ベクトル
を選択することによって、候補モデル
が、強制的にゼロにされるベクトル
の第2の成分、並びに、自由に非ゼロの正の値をとるベクトル
の第1及び第3の成分を有することによって計算されることになることが決定される。
有利には、ベクトル
の構造
は、LASSOアプローチ又は“ペナルティ”を実行することによって、つまり、各問題が以下の関係に従って定義されている、
のパラメータ
の値に関する最適化問題のセットを解くことによって、選択される:
(3)
式中
は、ベクトル
のノルムL1である。
特に、
から始まると、任意の正の又はゼロ値を自由にとるその成分の各々を有するベクトル
に対応し、パラメータ
が増加するとき、LASSOペナルティは、ベクトル
の成分を、一つずつ、ゼロへ設定して、ゼロベクトル
を得る。少数の、つまり、
より非常に少ない、ほとんどの場合
に近い又は等しい、異なる構造
のベクトル
が、こうして得られる。さらに、LASSOアプローチが制約下で再構成エラー
を最小化することを目的とし、選択された構造の各々は、その複雑性に関する、関連した構造、又はベストの構造さえ、つまりそのゼロ成分の数、を表す。
LASSOアプローチ、及び、“エラスティックネット(elastic net)”ペナルティ等のその変形は、例えば、アドレスhttp://cran.r−project.org/web/packages/elasticnet/で入手可能な“R elasticNet”モジュールにおいて含まれる、Zou及びHastieのLARS−ENアルゴリズムによって実行される。
各選択された構造
に関して、構造
に従うベクトル
を有する候補モデル
を計算するステップ30は、好ましくは、モデル
の再構成ベクトル
と、生体サンプルの強度ベクトルxとの間の尤度基準を最大化する段階を含む。特に、候補モデル
は、以下の関係に従って最適化問題を解くことによって計算される:
(4)
(5)
(6)
式中:

は、ベクトルa及びbの項別の積である;

は、生体サンプルの強度ベクトル
のb番目の成分である;及び

は、再構成ベクトル
のb番目の成分である。
同等に、構造
が、関係(3)のLASSOアプローチによって決定されるとき、候補モデル
は、ベクトル
の対応する成分が0に等しいときに強制的に0にされるそのベクトル
の成分を有し、
として書き換えられ得る再構成ベクトル
に対応する。関係(4)、(5)(6)の関係の最適化問題はその後、以下の関係に従って書き換えられ得る:
(4bis)
(5)
(6bis)
式中
は、非ゼロであるので、厳密に正である、LASSOアプローチによって計算されたベクトル
の成分
を意味する。
一旦、候補モデル
のセット
が計算されると、生体サンプルを分析するステップ12は、セット
の中から候補モデル
を選択するステップ32によって続き、選択された候補モデル
は、分析された生体サンプルの、最も関連して推定する強度ベクトル
として考えられる。
より具体的には、候補モデル
の選択は、ベクトル
の近似値と、モデルの構造の複雑性との間のベストなトレードオフを提供するモデルを選択する段階を含む。これを達成するために、モデル
は、ベクトル
の推定、又は再構成の再構成エラーを定量化する基準
、及び、推定の複雑性、特に、ベクトル
の非ゼロ成分の数、を定量化する基準
を混合する基準を最小化するものである。有利には、モデル
は、“BIC”基準を最小化することによって選択され、モデル
は、以下の関係に従う最適化問題の解決法である:
(7)
(8)
(9)
式中関数
は、その引数が真である場合に1に等しく、そうでなければゼロであり、
である。
そのため、候補モデル
は関係(5)に従って尤度基準を最大化することによって計算されており、それらはまた、関係(8)の尤度基準を最大化する。さらに、候補モデル
の複雑性は、それらの非ゼロベクトル
の成分の数を含む。このタイプの基準による選択が、堅牢であり、関連性があることが観測され得る。特に、最終的に選択されたモデル
は、それぞれベクトル
の成分
によって表される、種
を関連性高くリスト化するものである。
分析ステップ12はその後、選択されたモデル
の、34での、処理によって続き、分析された生体サンプルに関連する情報をそこから推論する。
より具体的には、以下の処理の内の少なくとも一つが実行される:
a.正の又はゼロの所定のしきい値よりも大きいベクトル
の成分の数が2以上である場合、生体サンプルは、微生物の複数の異なる参照種を含むものとして決定される;
b.生体サンプルにおける異なる参照種の数は、正の又はゼロの所定のしきい値より大きいベクトル
の成分の数と等しいものとして計算される;
c.ベクトル
のj番目の成分が、所定の正の又はゼロのしきい値より大きいとき、参照種
は生体サンプルにおいて識別され、しきい値は識別の感度を設定する;
d.生体サンプルにおける種
の相対存在量
は、以下の関係に従って計算される:
(10)
ここで、
は、ベクトル
のj番目の成分である;
e.同一のより高い分類レベル、特にその属、に属する参照種に関連する結果は、前記種に対応するベクトル
の成分の合計に等しいスカラー
を計算することによって集められる。スカラー
が所定の正の又はゼロのしきい値より大きい場合、より高い分類レベルがその後識別される。特に、より高いレベルに属する種の各々に対応するベクトル
のj番目の成分が、しきい値よりも小さいことがあり得、その場合、より高いレベルに属する少なくとも一つの種が生体サンプルにおいて実際に存在するとしても、種は混合物において識別されない。例えば、質量分析法によって区別が困難である参照種


を集める同じ属において、生体サンプルにおける特定の参照種
のみの存在は、非ゼロである種
に対応するその成分を有し、且つゼロに等しい種
及び
に対応するその成分を有するベクトル
よりも、すべて非ゼロであるがしきい値よりも小さい種


に対応するその成分を有するベクトル
をもたらし得る。これらの種の成分を加えることによって、しきいを超え、生体サンプルにおける属の検出を許容する値が得られる。変形として、且つ追加で、より高いレベルに関するスカラー
を計算することによって、より高いレベルの相対存在量が、関係
に従って計算される。
特に、同じ分類レベルの種、例えば、同じ属に属する種が、質量スペクトルに関して非常に類似していることが観測されるとき、集めることは有利には自動的に実施される。特に、種の類似性が、例えば、それらの基準強度ベクトルのジャッカード係数によって計算され、もしも計算された類似性がしきい値よりも高い場合、そのとき、種の結果は、自動的に集められる。
処理の結果はその後、コンピューターメモリー、例えば、分析デバイスのそれに格納され、及び/又はユーザーのためにスクリーン上に表示される。
本発明の特定の実施形態が説明されてきた。しかしながら、多くの変形が可能であり、特に、以下の変形が単独で又は組み合わせで考慮される。
変形によると、候補モデル
は、LASSOアプローチによる選択上で項
を含まない。関係(1)はその後以下のように書き換えられ得る:
(1bis)
変形によると、ステップ30で再計算された候補モデル
、つまり、最終的なモデル
の選択に関して用いられたものは、項
を含まない。関係(4)から(11)は、この単純化から容易に推定され得る。関係(10)は以下の関係に従って書き換えられ得ることが特に留意されるべきである:
(9bis)
変形によると、
であるとき、係数
は1であり、
であるとき0であり、その場合関係(1)は以下の関係へ低減される:
(1ter)
変形によると、2つの基準強度ベクトル

との間の類似性の係数
は、そのスカラー積である。
変形によると、候補モデル
のベクトル
の構造
の選択は、関係(3)のLASSOアプローチに由来するアルゴリズム、特に、以下の関係の内の一つに従う最適化問題、を実行することによって実施される:
(3bis)
(3ter)
(3q)
式中:

は、正の実数パラメータである;

は、ノルムL2である;及び

及び
は、
所定のウェイトのベクトルである。
変形によると、ベクトル
の構造
の選択は、例えば、Annals of Applied Statistics 2011, Vol. 5, No. 2A, 628−644におけるDaniel Percival等による文献“Structured, sparse regression with application to HIV drug resistance”において説明されたアルゴリズムなどの、単純な若しくは構造化された“ステップワイズ”タイプの、又は、ベクトル
に関する、かなりの数の、若しくはすべてさえ、若しくは可能な構造を試験することを含む網羅的アプローチの、アルゴリズムによって実施される。
変形によると、候補モデルを計算するステップ30は省略され、候補モデルはステップ12で得られるものであり、この選択ステップはそのとき、LASSOアルゴリズムによって候補モデルを計算するステップである。
同様に、微生物が種レベルで参照される実施形態が説明されてきた。
変形として、複数の異なる分類レベルが用いられ、例えば、種、サブ種及び属の内から少なくとも二つのレベルである。
変形として、他のタイプの微生物特性評価が用いられ、特に、例えば、バクテリアのグラム等の臨床表現型である。
同様に、MALDI−TOF分光法へ適用される実施形態が説明されてきた。他のタイプの測定が可能であり、本発明は、質量分析法、特にMALDI−TOF分析法及びESI−MS分析法、振動分光法、特にRAMAN分光法、蛍光分光法、特に内在蛍光分光法及び赤外線分光法へ適用される。
本発明に従って得られた生体サンプルの分析の結果がこれから説明されるであろう。より具体的には、MALDI−TOF分光法への適用が考慮される。微生物は種レベルで参照され、候補モデルは関係(1bis)の形態をとり、係数
は、関係(2)のジャッカード係数であり、ベクトル
の構造
の選択は、
を設定することによって関係(3)のLASSOアルゴリズムによって実施され、候補モデルの計算は、強制的に0にされない
によって関係(4bis)、(5)及び(6)によって実施され、候補モデル
の選択は、関係(7)、(8)及び(9)に従って実施される。
参照バクテリア

個の種のセットが考慮され、いくつかはグラム陽性であり、他はグラム陰性であり、9つの異なる属に属し、特定の種が困難さに従って選択されており、質量分析法によってそれらを見分ける。各々の種に関して、11から60の質量スペクトルが、種の7から20の菌株に基づいて測定されてきた。213の菌株に関する571の質量スペクトルのセットがこうして形成される。
各種
の基準強度ベクトル
が、数
の間隔によって3,000と7,000トムソンの間で一定の量子化を適用することによって得られ、各間隔に関して、ピーク強度が、ステップ18で以前説明されたように計算され、ベクトル
を得る。
生体サンプルは、二つの異なる参照種を異なる比率によって混合することによって生成されており、特に:
・同じ属に属する二つの種を含む、参照“A”、“B”、“C”及び“D”を担う、4セットの生体サンプル;
・異なる属に属するが、同じグラムタイプを有する二つの種を含む、参照“E”及び“F”を担う、4セットの生体サンプル;
・異なるグラムを有する二つの種を含む、参照“G”、“H”、“I”及び“J”を担う、4セットの生体サンプル。
より具体的には、混合物を構成する各参照種に関して、種の二つの異なる菌株が最初に選択され、その後、各菌株に関して、菌株を含むのみの“純粋な”サンプルが生成される。二つの種を混合する生体サンプルのセットを得るために、その後、二つの種の純粋なサンプルの二つのペアが、比率1:0,10:1,5:1,2:1,1:1,1:2,1:5,1:10,0:1で混合される。
その後、二つの質量スペクトルが測定され、生成された各生体サンプルに関してデジタル化され、合計で360のスペクトルをもたらし、その内の80は純粋なサンプルに対応する。各質量スペクトルは、基準強度ベクトルの構成に関して実行された量子化を適用することによって、及び、各量子化間隔に関する最大強度のピークを保持することによって、強度ベクトルxを得るために処理される。
図2A及び2Bは、このように生成された試験データのセットの図を提供する。図2Aは、基準強度ベクトル
の類似性の行列であり、相似行列の係数はジャッカード係数である。相似行列の成分が暗くなるほど、対応する種の間の相関が強くなる。中央の四角G1−G9は、9つの考慮される属に対応し、四角G+はグラム陽性バクテリアに、且つ、四角G−はグラム陰性バクテリアに対応する。サンプルセットAからJが相似行列上にさらに位置付けられる。図2Bは、セットD、つまり、同じ属に属する二つの種の混合物のスペクトルのピーク、セットE、つまり、同じグラムを有するバクテリアの二つの種の混合物のスペクトルのピーク、及び、セットI、つまり、異なるグラムのバクテリアの二つの種の混合物のスペクトルのピークを示す。各示されたセットは、第1の種の純粋なサンプルに対応する比率1:0から、第2の種の純粋なサンプルに対応する比率0:1へ、異なる上述の比率に対応する9つのスペクトルを含む。スペクトルは特に、第1の種の基準ベクトルにおいて存在するだけのピーク(ピーク“Peak1”)、第2の種の基準ベクトルにおいて存在するだけのピーク(ピーク“Peak2”)、第1及び第2の種の両方において存在するピーク(ピーク“Peak12”)、並びに、第1の種においても第2の種においても存在しないピーク(ピーク“
”)を示す。同じ属を有するバクテリアの二つの種の混合物に関して、ピークの大部分は、二つの種の基準ベクトルの両方において存在し、それらを区別することが困難であることを意味することを特に留意すべきである。同じグラムを有するバクテリアの二つの種の混合物に関して、混合物のスペクトルにおいて存在する種のピークの割合は、この種の比率によって首尾一貫して変化するものであり、それは、異なるグラムを有するバクテリアの二つの種の混合物に関してはあまり当てはまらないことにも留意すべきである。
複数菌の混合物を検出し、その成分を識別する本発明に従う方法の能力は、本方法の感度基準、及び選択性基準、つまり、それぞれ、二つの種の混合物、及び“純粋な”混合物を検出する方法の能力、によって評価される。さらに、以下の基準もまた評価される:a)二以上の成分が検出されるとき、微生物の混合物の検出が、成功として考慮される;b)混合物を形成する二つの種、及びそれらのみ、が識別されるとき、混合物が、正確に識別されるとして考慮される;c)混合物を形成する二つの種の内の一つが識別されるとき、混合物が、部分的に識別されるとして考慮される;d)混合物に属さない種が識別されるとき、混合物の識別が、失敗したとして考慮される。
図3Aは、種レベルで得られた結果を示す。検出(左側のグラフ)の観点では、複数菌の混合物の53.6%が検出されたことが観測され得る。しかしながら、いわゆる“純粋な”、つまり、単一の種を含む混合物の91.2%が検出され、検出された複数菌の混合物のほぼ75%が、適切に識別されており、このパーセンテージは純粋な混合物に関して86.4%へ上昇する。さらに、識別(右側のグラフ)に関して、複数菌の混合物の42.1%が、部分的に識別されており、ケースの82.1%において上出来な部分的識別をもたらし、識別は、複数菌の混合物及び純粋な混合物の全体でのおよそ18%に関して失敗したことが留意されるべきである。これらの失敗の大部分は、同じ属の種を含む混合物に対応し、分類学的に近いバクテリアを区別することの困難さに対応する。
より高い分類レベル、つまり、属への、検出の及び識別の切り替えは、図3Bに示されるように、結果を大幅に改善する。属に関する結果は、種レベルで本発明に従う方法を実行することによって、その後、前述のように、属レベルで結果を得るためにベクトル
の成分を追加することによって、得られてきた。属レベルでの検出の感度及び選択性はそれぞれ、複数菌の混合物及び純粋な混合物に関して61.3%及び100%に達し、すべての属が実質的に正確に識別される。さらに、正確に識別されていないいくつかの混合物が、部分的に識別される。全体として、混合物の81.4%が正確に識別されており、その0.6%のみに関して識別が失敗している。

Claims (21)

  1. 個の異なる参照分類群
    の所定のセット
    から、二つの異なる分類群に属する少なくとも二つの微生物を、生体サンプルにおいて検出する方法であって、各参照分類群
    が、参照分類群を示す微生物を含む少なくとも一つの参照生体サンプルを、参照サンプルを代表する多次元デジタル信号を生成する測定技術で検証することによって、及び、前記多次元デジタル信号に従って基準ベクトルを決定することによって得られた空間
    の所定の強度ベクトル
    によって表され、
    が1より大きく、
    ・測定技術によって生体サンプルの多次元デジタル信号を取得する段階と;
    ・所得された多次元デジタル信号に従って
    の強度ベクトル
    を決定する段階と;
    ・以下の関係に従って強度ベクトル
    をモデリングする候補モデル
    のセット
    を構成する段階であって、
    式中:

    が、モデル
    によって強度ベクトル
    を再構成する
    のベクトルであり;

    が実数スカラーであり、Ipが
    の単位ベクトルであり;


    が、
    のベクトル
    のj番目の成分であり;





    が所定の係数である、段階と;
    ・候補モデル
    のセット
    から候補モデル
    を選択する段階であって、以下の関係に従う問題の解決法:
    式中:

    は、候補モデル
    によって、生体サンプルの強度ベクトル
    と、強度ベクトル
    の再構成
    との間の再構成エラーを定量化する基準であり;

    は、候補モデル
    の複雑性を定量化する基準である、段階と;
    ・選択された候補モデル
    のベクトル
    の少なくとも二つの成分
    が、厳密に正の所定のしきい値よりも大きいとき、分類群の所定のセット
    の異なる分類群に属する少なくとも二つの微生物の生体サンプルにおける存在を決定する段階と、
    を含む、方法。
  2. 個の異なる参照分類群の所定のセット
    から生体サンプルにおいて存在する微生物を識別する方法であって、各参照分類群
    が、参照分類群を示す微生物を含む少なくとも一つの参照生体サンプルを、参照サンプルを代表する多次元デジタル信号を生成する測定技術で検証することによって、及び、前記多次元デジタル信号に従って基準ベクトルを決定することによって、得られた空間の所定の強度ベクトル
    によって表され、
    が1より大きく、
    ・測定技術によって生体サンプルの多次元信号を取得する段階と;
    ・取得された多次元デジタル信号に従って
    の強度ベクトル
    を決定する段階と;
    ・以下の関係に従って強度ベクトル
    をモデリングする候補モデル
    のセット
    を構成する段階であって、
    式中:

    が、モデル
    によって強度ベクトル
    を再構成する
    のベクトルであり;

    が実数スカラーであり、Ipが
    の単位ベクトルであり;


    が、
    のベクトル
    のj番目の成分であり;





    が所定の係数である、段階と;
    ・候補モデル
    のセット
    から候補モデル
    を選択する段階であって、以下の関係に従う問題の解決法:
    式中:

    は、生体サンプル
    の強度ベクトルと、候補モデル
    との間の再構成エラーを定量化する基準であり;

    は、候補モデル
    の複雑性を定量化する基準である、段階と;
    ・厳密に正の所定のしきい値よりも大きい、選択された候補モデルのベクトル
    の各成分
    に関する所定のセット
    の分類群
    の微生物の生体サンプルにおける存在を決定する段階と、
    を含む、方法。
  3. 個の異なる参照分類群
    の所定のセット
    から、二つの異なる分類群に属する少なくとも二つの微生物を、生体サンプルにおいて相対存在量を検出する方法であって、各参照分類群
    が、参照分類群を示す微生物を含む少なくとも一つの参照生体サンプルを、参照サンプルを代表する多次元デジタル信号を生成する測定技術で検証することによって、及び、前記多次元デジタル信号に従って基準ベクトルを決定することによって、得られた空間
    の所定の強度ベクトル
    によって表され、
    が1より大きく、
    ・測定技術によって生体サンプルの多次元デジタル信号を取得する段階と;
    ・取得された多次元デジタル信号に従って
    の強度ベクトル
    を決定する段階と;
    ・以下の関係に従って強度ベクトル
    をモデリングする候補モデル
    のセット
    を構成する段階であって:
    式中:

    が、モデル
    によって強度ベクトル
    を再構成する
    のベクトルであり;

    が実数スカラーであり、Ipが
    の単位ベクトルであり;


    が、
    のベクトル
    のj番目の成分であり;





    が所定の係数である、段階と;
    ・候補モデル
    のセット
    から候補モデル
    を選択する段階であって、以下の関係に従う問題の解決法:
    式中:

    は、候補モデル
    によって、生体サンプルの強度ベクトル
    と、強度ベクトル
    の再構成
    との間の再構成エラーを定量化する基準であり;

    は、候補モデル
    の複雑性を定量化する基準である、段階と;
    ・以下の関係に従って参照分類群
    の生体サンプル
    における相対存在量を決定する段階であって:

    式中、
    は、
    における
    の行列関数であり、
    は、
    による
    のベクトルであり、
    は、参照分類群
    の相対存在量である、段階と、
    を含む方法。

  4. が、参照分類群
    及び
    の基準ベクトル
    及び
    間の類似性の係数である、請求項1、2又は3に記載の方法。
  5. 基準ベクトル
    及び
    間の類似性
    の係数が、ベクトル
    及び
    の二値化されたバージョン間のジャッカード係数に等しい、請求項4に記載の方法。
  6. であり、候補モデル
    のセット
    の構成が、
    のパラメータ
    の値に関する最適化問題のセットを解決する段階を含み、各問題が、以下の関係に従って定義され:
    式中、
    が、ベクトル
    のノルムL1である、請求項1から5の何れか一項に記載の方法。
  7. であり、候補モデル
    のセット
    の構成が、
    のパラメータ
    及び
    の値に関する最適化問題のセットを解決する段階を含み、各問題が以下の関係に従って定義され:
    式中:

    はノルムL1であり;

    はノルムL2であり;

    は、ベクトルa及びbの項別の積であり;

    及び
    は、
    の所定のウェイトのベクトルである、
    請求項1から5の何れか一項に記載の方法。
  8. 最適化問題の各ベクトル
    の解決法に関して、新しい候補モデル
    が計算され、ベクトル
    に対応するモデル
    を置換し、新しいモデル
    のベクトル
    の成分は、ベクトル
    のゼロ成分に対応し、強制的に0にされ、新しいモデル
    は、以下の関係に従って最適化問題を解決することによって計算され:
    式中:

    は、生体サンプルの強度ベクトル
    のb番目の成分であり;

    は、再構成ベクトル
    のb番目の成分である、
    請求項6又は7に記載の方法。
  9. 再構成エラーを定量化する基準
    が、尤度基準である、請求項1から8の何れか一項に記載の方法。
  10. 式中:



    は、生体サンプルのピークベクトル
    のb番目の成分であり;

    は、候補モデル
    の再構成ベクトル
    のb番目の成分である、
    請求項9に記載の方法。
  11. モデル
    の複雑性を定量化する基準
    が、ベクトル
    の厳密に正の成分
    の数に関して前記複雑性を定量化する、請求項1から10の何れか一項に記載の方法。
  12. の場合、
    の場合、
    式中、関数
    は、その引数が真の場合、1に等しく、そうでなければゼロである、請求項11に記載の方法。
  13. 分類群が、同じ分類レベル、特に、種、属又はサブ種レベルに属する、請求項1から12の何れか一項に記載の方法。
  14. 分類群が、少なくとも二つの異なる分類レベル、特に、種、属及び/又はサブ種に属する、請求項1から12の何れか一項に記載の方法。
  15. 分類群が第1の分類レベルに属し、ベクトルxのモデルが、より高い分類レベルに応じて分類群に対応するベクトル
    の成分を加えることによって、第1の分類レベルよりも高い第2の分類レベルに関して計算される、請求項1から14の何れか一項に記載の方法。
  16. 第1のレベル内の類似度が所定のしきいよりも大きい場合、ベクトルxのモデルが、より高い分類レベルに関して計算される、請求項15に記載の方法。
  17. 第1の分類レベル内で定義する分類群のセット間の類似度が所定のしきいよりも大きい場合、そのとき、参照分類群の所定のセット
    の形成に関して、前記分類群が集められ、第1の分類レベルよりも高い第2の分類レベルで確定された参照分類群によって置換される、請求項1から14の何れか一項に記載の方法。
  18. 測定技術がスペクトルを生成し、基準強度ベクトル
    が、参照分類群
    のスペクトルにおいて含まれるピークのリストである、請求項1から17の何れか一項に記載の方法。
  19. 測定技術が、質量分析法を含む、請求項18に記載の方法。
  20. 式中、

    は、選択されたモデル
    のベクトル
    のj番目の成分である、請求項3から19の何れか一項に記載の方法。
  21. ・生体サンプルのスペクトルを生成可能な分光計又は分光器と;
    ・請求項1から20の何れか一項に記載の方法を実行可能な計算ユニットと、
    を含む、生体サンプルを分析するためのデバイス。
JP2016530582A 2013-07-31 2014-07-28 生体サンプルを分析するための方法及びデバイス Active JP6370903B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1357614 2013-07-31
FR1357614A FR3009387B1 (fr) 2013-07-31 2013-07-31 Procede et dispositif d'analyse d'un echantillon biologique
PCT/FR2014/051952 WO2015015106A1 (fr) 2013-07-31 2014-07-28 Procede et dispositif d'analyse d'un echantillon biologique

Publications (2)

Publication Number Publication Date
JP2016532443A true JP2016532443A (ja) 2016-10-20
JP6370903B2 JP6370903B2 (ja) 2018-08-08

Family

ID=49378490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016530582A Active JP6370903B2 (ja) 2013-07-31 2014-07-28 生体サンプルを分析するための方法及びデバイス

Country Status (8)

Country Link
US (1) US20160371430A1 (ja)
EP (1) EP3028202B1 (ja)
JP (1) JP6370903B2 (ja)
CN (1) CN105431854B (ja)
CA (1) CA2917041A1 (ja)
ES (1) ES2651163T3 (ja)
FR (1) FR3009387B1 (ja)
WO (1) WO2015015106A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091783A (ja) * 2018-12-07 2020-06-11 株式会社島津製作所 データ処理装置、分析装置、データ処理方法およびプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017077618A1 (ja) * 2015-11-05 2017-05-11 株式会社島津製作所 クロマトグラフ質量分析データ処理方法及び処理装置
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
US10930371B2 (en) * 2017-07-10 2021-02-23 Chang Gung Memorial Hospital, Linkou Method of creating characteristic peak profiles of mass spectra and identification model for analyzing and identifying microorganizm
WO2019126824A1 (en) * 2017-12-22 2019-06-27 Trace Genomics, Inc. Metagenomics for microbiomes
CN111381227B (zh) * 2018-12-28 2024-04-26 松下知识产权经营株式会社 推测方法以及推测装置
US11682111B2 (en) * 2020-03-18 2023-06-20 International Business Machines Corporation Semi-supervised classification of microorganism

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138210A1 (en) * 2000-10-10 2002-09-26 The Government Of The United States Of America Microbial identification databases
JP2005534336A (ja) * 2002-08-07 2005-11-17 ユニバーシティ・オブ・サウス・フロリダ 微生物のuv−visスペクトルに対する解釈モデル
JP2012507283A (ja) * 2008-10-31 2012-03-29 バイオメリュー・インコーポレイテッド ラマン分光法を使用した微生物の分離、キャラクタリゼーションおよび/または同定方法
EP2600284A1 (fr) * 2011-12-02 2013-06-05 bioMérieux, Inc. Procédé d'identification de microorganismes par spectrométrie de masse et normalisation de scores

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6906320B2 (en) * 2003-04-02 2005-06-14 Merck & Co., Inc. Mass spectrometry data analysis techniques
US7760342B2 (en) * 2007-12-21 2010-07-20 Wisconsin Alumni Research Foundation Multidimensional spectrometer
US20110295897A1 (en) * 2010-06-01 2011-12-01 Microsoft Corporation Query correction probability based on query-correction pairs
EP2600385A1 (fr) * 2011-12-02 2013-06-05 bioMérieux, Inc. Procédé d'identification de microorganismes par spectrométrie de masse

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020138210A1 (en) * 2000-10-10 2002-09-26 The Government Of The United States Of America Microbial identification databases
JP2005534336A (ja) * 2002-08-07 2005-11-17 ユニバーシティ・オブ・サウス・フロリダ 微生物のuv−visスペクトルに対する解釈モデル
JP2012507283A (ja) * 2008-10-31 2012-03-29 バイオメリュー・インコーポレイテッド ラマン分光法を使用した微生物の分離、キャラクタリゼーションおよび/または同定方法
EP2600284A1 (fr) * 2011-12-02 2013-06-05 bioMérieux, Inc. Procédé d'identification de microorganismes par spectrométrie de masse et normalisation de scores

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
棚橋 誠 外1名: "MIMO空間多重における信号点分布の近似に基づくMMSE型信号分離法", 第33回情報理論とその応用シンポジウム予稿集 [CD−ROM] 第33回情報理論とその応用シンポジウ, JPN6018021876, 23 November 2010 (2010-11-23), JP, pages pp. 67-72 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020091783A (ja) * 2018-12-07 2020-06-11 株式会社島津製作所 データ処理装置、分析装置、データ処理方法およびプログラム
JP7196579B2 (ja) 2018-12-07 2022-12-27 株式会社島津製作所 データ処理装置、分析装置、データ処理方法およびプログラム

Also Published As

Publication number Publication date
JP6370903B2 (ja) 2018-08-08
EP3028202B1 (fr) 2017-09-13
WO2015015106A1 (fr) 2015-02-05
FR3009387B1 (fr) 2016-11-18
FR3009387A1 (fr) 2015-02-06
US20160371430A1 (en) 2016-12-22
ES2651163T3 (es) 2018-01-24
CA2917041A1 (fr) 2015-02-05
CN105431854A (zh) 2016-03-23
CN105431854B (zh) 2018-05-04
EP3028202A1 (fr) 2016-06-08

Similar Documents

Publication Publication Date Title
JP6370903B2 (ja) 生体サンプルを分析するための方法及びデバイス
CN109142317B (zh) 一种基于随机森林模型的拉曼光谱物质识别方法
US6253162B1 (en) Method of identifying features in indexed data
JP6089345B2 (ja) 時および/または空間系列ファイルの多成分回帰/多成分分析
US10910205B2 (en) Categorization data manipulation using a matrix-assisted laser desorption/ionization time-of-flight mass spectrometer
CN103959426B (zh) 用于通过质谱术识别微生物的方法
WO2015037003A1 (en) Method and electronic nose for comparing odors
US11562165B2 (en) Method for identifying by mass spectrometry an unknown microorganism subgroup from a set of reference subgroups
CN111770720A (zh) 用于实时拉曼光谱法以进行癌症检测的系统和方法
CN110702656A (zh) 一种基于三维荧光光谱技术的植物油农药残留检测方法
Urtubia et al. Using data mining techniques to predict industrial wine problem fermentations
WO2004057524A1 (en) Apparatus and method for removing non-discriminatory indices of an indexed dataset
EP2439536A1 (en) New classification method for spectral data
KR20220038602A (ko) 미생물을 동정하는 방법 및 시스템
AU2006247597B2 (en) Identifying statistically linear data
CN114611582A (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
US7647187B2 (en) Identifying statistically linear data
Kaddi et al. Multivariate hypergeometric similarity measure
JP2023521757A (ja) ラマンスペクトルに基づいて試料の特質を識別するためのモデルを決定するための遺伝的アルゴリズムの使用
CN112763448A (zh) 一种基于atr-ftir技术的米糠中多糖含量的快速检测方法
CN108388965B (zh) 油脂掺伪含量检测方法、终端设备及计算机可读存储介质
CN116681944A (zh) 一种快速医学高光谱影像分类方法
da Costa et al. A comparison of regression methods based on dimensional reduction for genomic prediction.
WO2020247781A1 (en) Systems and methods for diagnostics for biological disorders associated with periodic variations in metal metabolism
Okasha Application of Multidimensional Scaling on Identifying Significant Clusters in Microarray Data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170719

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180711

R150 Certificate of patent or registration of utility model

Ref document number: 6370903

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250