JP4950029B2 - 質量分析計 - Google Patents

質量分析計 Download PDF

Info

Publication number
JP4950029B2
JP4950029B2 JP2007510123A JP2007510123A JP4950029B2 JP 4950029 B2 JP4950029 B2 JP 4950029B2 JP 2007510123 A JP2007510123 A JP 2007510123A JP 2007510123 A JP2007510123 A JP 2007510123A JP 4950029 B2 JP4950029 B2 JP 4950029B2
Authority
JP
Japan
Prior art keywords
sample
analyte
molecule
component
data points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007510123A
Other languages
English (en)
Other versions
JP2007535672A (ja
Inventor
デニー、リチャード
リチャードソン、キース
Original Assignee
マイクロマス ユーケー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB0409676.4A external-priority patent/GB0409676D0/en
Application filed by マイクロマス ユーケー リミテッド filed Critical マイクロマス ユーケー リミテッド
Publication of JP2007535672A publication Critical patent/JP2007535672A/ja
Application granted granted Critical
Publication of JP4950029B2 publication Critical patent/JP4950029B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8682Group type analysis, e.g. of components having structural properties in common
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/02Details

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Electron Tubes For Measurement (AREA)

Description

本発明は、質量分析方法および質量分析計に関する。好ましい実施形態は、液体クロマトグラフィー質量分析(「LC−MS」)によって得られたペプチド消化物に関連するデータのクラスタリング、関連付けまたはグループ化に関する。
データは、質量または質量電荷比およびクロマトグラフィー保持時間に基づいてクラスタリングされることが好ましい。特に、別個の取得または実験作業に関連する質量スペクトルデータが関連付けされ、かつ分析されることが好ましい。さらに、2つ以上の異なるサンプル中のペプチドまたはタンパク質等の被分析試料の相対濃度、強度または発現量における変化または差は、検出または認識することができる。2つの異なるサンプル中においてさまざまに発現される被分析試料は、その後、引き続き同定することができる。
k−平均クラスタリングとして知られる非階層クラスタリング方法が公知である。このクラスタリング方法は、理論上は、別個の取得または実験において得られた、液体クロマトグラフィー質量分析実験に関連するデータをどのようにして関連付けるかまたはクラスタリングするかという問題に適用しうる。
公知のk−平均クラスタリング手法は、n個のデータポイントをk個のクラスタに分類することを含む。各ポイントまたはデータは、d個の変数の集合に対する何らかの距離尺度(通常はユークリッド距離)により、その集合に対する平均値が自らの重心に最も近いクラスタに割り当てられる。このような割り当ては、ポイントを再割り当てすること、および重心を(あるクラスタにおけるすべてのポイントにわたって)再計算することによってさらなる変化が起こらなくなるまで反復して計算されうる。
しかし、k−平均クラスタリングは、クラスタリングを行なうにはクラスタの数kをまず特定する必要があるという欠点を有する。また、k−平均クラスタリングは、クラスタ中心のすべての考えられる位置にわたって積分を行なうのではなく、クラスタ中心に対して特定の位置を見出すに過ぎない。2つのデータポイント間の関連付けの確率を得るために特別な距離基準を適切に正規化することもできない。
したがって、当業者は、LC−MSデータのクラスタリングにk−平均クラスタリングを用いることに特有の様々な制限が存在することを理解するであろう。好ましい実施形態は、LC−MSデータをクラスタリングするための確率的またはベイズ的手法を含む、LC−MSデータのクラスタリングへの全く異なる手法に関する。
背景として、ベイズの確率定理は命題の確率を扱う。確率は、ある命題がどれくらい真であるかを表す。例えば、確率1は、絶対に確実であることを意味する。確率0は、絶対に確実であるが、命題が偽であるとことが絶対に確実であることを意味する。確率0.5は、命題が真または偽であるかについての不確実性が最大であることを意味する。
新たな情報を得た際に確率を変更することは、ベイズの推論の重要な側面である。いわゆるベイズ規則は、合理的なエージェントが、新たな情報(証拠)を得た際に、その信念をどのように変えるかを定義する。
ベイズの確率または確実性は、常に条件付きである。このことは、確率が、何らかの背景仮定に照らして推測されるということを意味する。条件付き確率は、P(事象|仮定)という表記を用いて記載されうる。確率は、「仮定」が真であると考えられる場合に「事象」が真であることがどれくらい確実であるかを示す、0と1との間の数である。条件付き確率は、Mを依存モデルとして、Dをデータとして、P(D|M)またはP(M|D)の形で記載されることが多い。したがって、P(D|M)は、モデルMが真のモデルであると考えられる場合にデータDを得る確率を意味する。同様に、P(M|D)は、データDが得られた場合にモデルMが真のモデルである確率を意味する。確率が単にP(M)またはP(D)として表わされる場合もあるが、すべての確率は実際には条件付きであるため、これらは不正確なベイズ表記である。しかし、すべての項が同じ背景仮定を有する場合には、それらを繰り返す必要がない場合もある。理論上は、確率は、Uを背景仮定の集合として、P(D|M,U)およびP(M|D,U)およびP(M|U)およびP(D|U)の形で記載されるのがよい。
エキスパートシステムは、親の事象のそれぞれに重み付けすることにより相互に依する事象の確率を計算することがよくある。ベイジアン信念ネットワークは、事象の互いへの影響を測定する数学的に正しい、したがって、より正確な方法を提供すると考えられる。これに関与する数学は、双方向への計算を可能にする。したがって、例えば、どの事象が別の事象の最も可能性の高い原因であるのかを見出すことが可能である。
独立した事象に対する以下の確率の生成規則が周知である。
Figure 0004950029
ここで、p(AB)は、AおよびBが起こる確率である。
これは、依存した事象に関する以下の生成規則の特別な場合であり、ここで、p(A|B)は、Bが既に起こった場合のAの確率を意味する。
Figure 0004950029
したがって、
Figure 0004950029
であるので、
Figure 0004950029
となる。
上記の式は、ベイズの定理を単純化したものである。この式により、周知の他の確率に関して計算された、Bが既に起こった場合にAが起こる確率が与えられる。
ベイズの定理は、以下の式のように要約される。
Figure 0004950029
0は、アブイニシオ(非経験的)に得られるか、あるいは何らかの事前の観測の集合から導き出された仮説であるが、新たな観測または証拠Eの前の仮説とすることができる。項P(H0)は、H0の事前確率と呼ばれる。項P(E|H0)は、仮説H0が真である場合に観測Eが見られる条件付き確率(Eが与えられたH0の関数)であり、尤度関数と呼ばれる。項P(E)は、Eの周辺確率と呼ばれ、これは正規化定数であり、すべての互いに排反な仮説の総和として計算されうる。
Figure 0004950029
項P(H0|E)は、Eが与えられたH0の事後確率と呼ばれる。スケーリングファクタP(E|H0)/P(E)により、観測が仮説への信頼に与えるインパクトの尺度が得られる。考えられている特定の仮説が真でない場合に観測がなされる可能性が低いならば、このスケーリングファクタは大きくなる。このスケーリングファクタを仮説が正しいとする事前確率と乗算すると、観測が与えられた場合に仮説が正しいとする事後確率の尺度が得られる。
推定作業を行なうための鍵は、仮説および考えられる選択肢に与えられた事前確率の割り当て、および、異なる仮説の下での観測の条件付き確率の計算である。
LC−MSデータの扱いにk−クラスタリング手法を用いる試みには一定の制限があるということを鑑みると、LC−MSデータを正確にクラスタリング、関連付けまたはグループ化する改良された方法を提供することが望まれる。
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
前記第1のサンプル中の成分、分子または被分析試料に関連するデータを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するステップとを含む質量分析方法が提供される。
上記好ましい実施形態によると、上記方法は、1つ以上のさらなるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップであって、前記第1の物理化学的性質は、質量または質量電荷比を含み、前記第2の物理化学的性質は、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップをさらに含む。
前記第1の物理化学的性質の起こりそうな誤差および/または前記第2の物理化学的性質の起こりそうな誤差が決定されることが好ましい。
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料は、液体クロマトグラフィーによって分離されることが好ましい。一実施形態によると、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料は、(i)高速液体クロマトグラフィー(「HPLC」)、(ii)陰イオン交換、(iii)陰イオン交換クロマトグラフィー、(iv)陽イオン交換、(v)陽イオン交換クロマトグラフィー、(vi)イオン対逆相クロマトグラフィー、(vii)クロマトグラフィー、(vii)一次元電気泳動法、(ix)多次元電気泳動法、(x)サイズ排除、(xi)アフィニティー、(xii)逆相クロマトグラフィー、(xiii)キャピラリー電気泳動クロマトグラフィー(「CEC」)、(xiv)電気泳動法、(xv)イオン移動度分離法、(xvi)電界非対称性イオン移動度分離法(Field Asymmetric Ion Mobility Separation)(「FAIMS」)、または(xvi)キャピラリー電気泳動法によってその他の成分、分子または被分析試料から分離される。
前記第1のサンプルに関連するデータおよび/または前記第2のサンプルに関連するデータおよび/またはさらなるサンプルに関連するデータから単一のデータセットが形成されることが好ましい。前記単一のデータセット中のデータにサンプル番号が割り当てられることが好ましい。
前記第1のサンプル中の成分、分子または被分析試料に関連するデータを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータと確率的に関連付ける、クラスタリングする、またはグループ化するステップは、試行錯誤法を使用または採用し、データの最も確からしい関連付け、クラスタリングまたはグループ化を決定するステップをさらに含むことが好ましい。
前記第1のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントは、前記第2のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料に関連するデータポイントと比較されることが好ましい。
各データポイントは、前記第1の物理化学的性質の値および/または前記第2の物理化学的性質の値を含むことが好ましい。前記データポイントは、xダルトンの幅を有する質量または質量電荷比ビンに分割または分離されることが好ましく、xは、(i)1.0000〜1.0001、(ii)1.0001〜1.0002、(iii)1.0002〜1.0003、(iv)1.0003〜1.0004、(v)1.0004〜1.0005、(vi)1.0005〜1.0006、(vii)1.0006〜1.0007、(viii)1.0007〜1.0008、(ix)1.0008〜1.0009、(x)1.0009〜1.0010、(xi)<1.0000、(xii)>1.0010、および(xiii)1.0005からなる群より選択されることが好ましい。
前記データは最初に1つ以上の第1のデータポイントクラスタにクラスタリング、グループ化、または関連付けされることが好ましい。前記データポイントを1つ以上の第1のデータポイントクラスタにクラスタリングする前記ステップは、前記データポイントを確率的にクラスタリングするステップを含むことが好ましいが、やや好ましくは、データを最初にクラスタリングするのに他の手法を用いてもよい。
上記好ましい方法は、データポイントの近似性をペアワイズ(on a pairwise basis)で評価するステップをさらに含むことが好ましい。データポイントの近似性をペアワイズで評価する前記ステップは、決定された質量誤差または質量電荷比誤差が与えられた場合の質量または質量電荷比ビン中のデータポイントの近似性をペアワイズで評価するステップを含むことが好ましい。
上記好ましい方法は、2つのデータポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算するステップをさらに含む。上記方法は、2つのデータポイントが同一の成分、分子または被分析試料に関連するペアワイズ確率pijを決定するステップをさらに含むことが好ましい。
好ましい実施形態によると、上記方法は、前記ペアワイズ確率pijをマトリックス状に配列するステップをさらに含む。前記マトリックスに1つ以上の試みの真理値表が割り当てられることが好ましい。上記方法は、前記マトリックスが推移特性(transivity property)に従っているかどうかを決定することにより、前記マトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含むことが好ましい。前記推移特性は以下の式を含むことが好ましい。
Figure 0004950029
前記マトリックスが前記推移特性に従っていない場合、前記方法は、前記試みの真理値表を棄却するステップをさらに含むことが好ましい。前記マトリックスが前記推移特性に従っている場合、前記方法は、前記試みの真理値表に確率を割り当てるステップをさらに含むことが好ましい。
一実施形態によると、上記方法は、前記マトリックスにさらなる試みの真理値表を割り当てるステップをさらに含む。上記と同様に、上記方法は、前記マトリックスが推移特性に従っているかどうかを決定することにより、前記マトリックスがセルフコンシステントであるかどうかを調べることが好ましく、前記推移特性は以下の式を含むことが好ましい。
Figure 0004950029
前記マトリックスが前記推移特性に従っていない場合、前記方法は、前記さらなる試みの真理値表を棄却するステップをさらに含む。前記マトリックスが前記推移特性に従っている場合、前記方法は、前記さらなる試みの真理値表に確率を割り当てるステップを含む。
上記好ましい実施形態の特に好ましい一局面は、最も確からしい真理値表を決定するステップをさらに含む。
やや好ましい一実施形態によると、前記データは1つ以上の第1のデータポイントクラスタに最初にクラスタリング、グループ化、または関連付けされてもよく、このステップは、k−平均クラスタリング、またはそれ自体が周知である他の方法を使用するステップを含む。
好ましくは確率的手法、やや好ましくは別の手法を用いて、データがひとたび最初にクラスタリングされると、その後、データのクラスタリングは、改善が可能であるかどうかを調べるために任意にテストされる。この任意のテストの最後で、データのクラスタリングは実質的に変更されないかもしれない。実際、一実施形態によると、データは、開示した確率的クラスタリング方法によって最初に最適にクラスタリングすることができ、さらなるステップは、データのクラスタリングにおいて最初の改善をもたらさないと考えられる。
上記好ましい実施形態によると、上記方法は、前記データポイントを1つ以上の第2のデータポイントクラスタに確率的にクラスタリングするステップをさらに含むことが好ましい。上記方法は、前記1つ以上の第2のデータポイントクラスタの全体的な確率または等価性(equivalently)を最大化するステップをさらに含みうる。これは、データポイントを新たなデータポイントクラスタ内に移動させるかまたは入れるステップをさらに含みうる。各データポイントは、最も近接するより高いまたはより低い前記第1の物理化学的性質および/または前記第2の物理化学的性質の値を有するデータポイントと同一のクラスタ内に移動させられるかまたは入れられることが好ましい。
一実施形態によると、各データポイントは、隣接するデータポイントと同一のクラスタ内に最初にあった場合、自身のクラスタ内に移動させられるかまたは入れられることができる。上記方法は、1つのまたは各データポイントが最初に属すると考えられるクラスタを、さらなる改善が実質的に見出されなくなるまで反復的に変更するステップをさらに含むことが好ましい。1つのまたは各データポイントが最初に属すると考えられるクラスタを反復的に変更する上記方法は、予め割り当てられた反復限度に達するまでを継続しうる。
上記好ましい実施形態の特に好ましい一局面によると、上記方法は、前記1つ以上の第2の(やや好ましくは、第1の)データポイントクラスタを問い合わせて、前記第1のサンプル、前記第2のサンプルおよび任意のさらなるサンプルからの分子、被分析試料またはイオンを表す唯一のデータポイントを好ましくは含む1つ以上の第3のデータポイントクラスタを決定するステップをさらに含む。
しかし、やや好ましい実施形態によると、この厳しい要件は、特に、データが大量にある場合には取り下げてもよいと考えられる。したがって、やや好ましい一実施形態によると、上記方法は、前記1つ以上の第2の(やや好ましくは、第1の)データポイントクラスタを問い合わせて、前記第1のサンプル、前記第2のサンプルおよび任意のさらなるサンプルからの分子、被分析試料またはイオンを表す1つのデータポイントを通常(しかし、かならずしもそれだけに限らず)含む1つ以上の第3のデータポイントクラスタを決定するステップをさらに含みうる。
前記第3のデータポイントクラスタに関連する前記データポイントは、高レベルの確実性を有すると仮定されるかもしくは割り当てられているか、または、真もしくは1の値を有すると仮定されるかもしくは割り当てられていることが好ましい。その後、データポイントは、内部基準点として機能する。
前記1つ以上の第3のデータポイントクラスタの少なくとも一部またはそれぞれにおける分子、被分析試料またはイオンの前記第2の物理化学的性質に関連するデータを平均して、前記第2の物理化学的性質に対する平均値を生成することが好ましい。前記第3のデータポイントクラスタを生成するためにクラスタリングされた前記1つ以上のデータポイントのデータは、前記平均値が前記データポイントに対する前記第2の物理化学的性質の値になるように調整されることが好ましい。
ひとたび内部基準点に第2の物理化学的性質(例えば、保持時間)の平均値が割当てられると、これら内部基準点に関して、残りのデータ、より好ましくはデータセット全体がリアライメントまたは較正される。
上記好ましい実施形態によると、上記方法は、観測された第2の物理化学的性質に関連するデータを、前記第2の物理化学的性質に対する前記平均値に相関させるかまたは修正するための較正関数を決定するステップをさらに含むことが好ましい。前記較正関数は、三次スプライン関数、多項式関数または確率的な較正関数を含みうる。
上記方法は、各サンプルからの、または全サンプルからのデータポイントを調整し、すべてのデータセットに対する第2の物理化学的性質をアライメントする、再較正する、修正する、または再割り当てするステップをさらに含むことが好ましい。ひとたびデータがリアライメントまたは再較正されると、上記方法は、前記第2の物理化学的性質(例えば、保持時間)に対する誤差を決定するかまたは割り当てるステップをさらに含むことが好ましい。
上記好ましい方法は、前記第1のサンプル中の成分、分子または被分析試料に関連する調整済みのデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントおよび/またはさらなるサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントと比較するステップをさらに含むことが好ましい。
各調整済みのデータポイントは、前記第1の物理化学的性質の未調整の値および/または前記第2の物理化学的性質の調整済みの値を含むことが好ましい。
前記調整済みのデータポイントは、xダルトンの幅を有する質量または質量電荷比ビンに分割または分離されることが好ましく、xは、(i)1.0000〜1.0001、(ii)1.0001〜1.0002、(iii)1.0002〜1.0003、(iv)1.0003〜1.0004、(v)1.0004〜1.0005、(vi)1.0005〜1.0006、(vii)1.0006〜1.0007、(viii)1.0007〜1.0008、(ix)1.0008〜1.0009、(x)1.0009〜1.0010、(xi)<1.0000、(xii)>1.0010、および(xiii)1.0005からなる群より選択されることが好ましい。
上記好ましい実施形態によると、上記方法は、前記調整済みのデータポイントを1つ以上の第4のデータポイントクラスタにクラスタリングするステップをさらに含むことが好ましい。
前記調整済みのデータポイントを1つ以上の第4のデータポイントクラスタにクラスタリングする前記ステップは、前記データポイントを上記と同様に確率的にクラスタリングするステップを含むことが好ましい。したがって、上記方法は、調整済みのデータポイントの近似性をペアワイズで評価するステップを含むことが好ましく、調整済みのデータポイントの近似性をペアワイズで評価する前記ステップは、決定された質量誤差または質量電荷比誤差が与えられた場合の質量または質量電荷比ビン中の調整済みのデータポイントの近似性をペアワイズで評価するステップを含む。
上記方法は、2つの調整済みのデータポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算するステップをさらに含むことが好ましい。上記方法は、2つの調整済みのデータポイントが同一の成分、分子または被分析試料に関連するペアワイズ確率を決定するステップをさらに含むことが好ましい。
上記好ましい実施形態によると、前記ペアワイズ確率pijは第2のマトリックス状に配列されることが好ましい。前記第2のマトリックスに1つ以上の第2の真理値表が割り当てられることが好ましい。前記第2のマトリックスが推移特性に従っているかどうかを決定することにより、前記第2のマトリックスがセルフコンシステントであるかどうかを調べることが好ましい。前記推移特性は以下の式を含むことが好ましい。
Figure 0004950029
前記第2のマトリックスが前記推移特性に従っていない場合、前記方法は、前記第2の試みの真理値表を棄却するステップをさらに含むことが好ましい。前記第2のマトリックスが前記推移特性に従っている場合、前記方法は、前記第2の試みの真理値表に確率を割り当てるステップをさらに含むことが好ましい。
上記好ましい実施形態によると、上記方法は、前記第2のマトリックスにさらなる第2の試みの真理値表を割り当てるステップをさらに含むことが好ましい。上記方法は、前記第2のマトリックスが推移特性に従っているかどうかを決定することにより、前記第2のマトリックスがセルフコンシステントであるかどうかを調べるステップをさらに含むことが好ましい。前記推移特性は以下の式を含むことが好ましい。
Figure 0004950029
前記第2のマトリックスが前記推移特性に従っていない場合、前記方法は、前記さらなる第2の試みの真理値表を棄却するステップをさらに含むことが好ましい。前記第2のマトリックスが前記推移特性に従っている場合、前記方法は、前記第2のさらなる試みの真理値表に確率を割当てるステップをさらに含むことが好ましい。
一実施形態によると、上記方法は、最も確からしい第2の真理値表を決定するステップをさらに含む。
やや好ましい一実施形態によると、前記データを1つ以上の第4のデータポイントクラスタにクラスタリングする前記ステップは、k−平均クラスタリングを用いるステップを含む。
上記好ましい実施形態は、前記調整済みのデータポイントを1つ以上の第5のデータポイントクラスタに確率的にクラスタリングするステップをさらに含むことが好ましい。このステップは任意であって、必須ではない。
上記好ましい実施形態は、1つ以上の第5のデータポイントクラスタの全体的な確率または等価性を最大化するステップをさらに含むことが好ましい。これは、データポイントを新たなデータポイントクラスタ内に移動させるかまたは入れるステップを含むことが好ましい。各データポイントは、最も近接するより高いまたはより低い前記第1の物理化学的性質および/または前記第2の物理化学的性質の値を有するデータポイントと同一のクラスタ内に移動させられるかまたは入れられることが好ましい。各データポイントは、隣接するデータポイントと同一のクラスタ内に最初にあった場合、自身のクラスタ内に移動させられるかまたは入れられることが好ましい。上記方法は、1つのまたは各データポイントが最初に属すると考えられるクラスタを、さらなる改善が実質的に見出されなくなるまで反復的に変更するステップをさらに含むことが好ましい。
一実施形態によると、上記方法は、1つのまたは各データポイントが最初に属すると考えられるクラスタを、予め割り当てられた反復限度に達するまで反復的に変更するステップをさらに含むことが好ましい。
一実施形態によると、上記方法は、前記第1のサンプル中の第1の成分、分子もしくは被分析試料および/または前記第2のサンプル中の第1の成分、分子もしくは被分析試料および/またはさらなるサンプル中の第1の成分、分子もしくは被分析試料の強度を決定するステップをさらに含む。
前記第1のサンプル中の前記第1の成分、分子もしくは被分析試料の強度は、前記第2のサンプルおよび/またはさらなるサンプル中の対応する第1の成分、分子もしくは被分析試料と比較されることが好ましく、前記第1の成分、分子もしくは被分析試料が、データの同一の関連付け、クラスタリングまたはグループ化に属する。前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルは、複数の異なるバイオポリマー、タンパク質、ペプチド、ポリペプチド、オリゴヌクレオチド、オリゴヌクレオシド、アミノ酸、炭水化物、糖、脂質、脂肪酸、ビタミン、ホルモン、DNAの部分もしくは断片、cDNAの部分もしくは断片、RNAの部分もしくは断片、mRNAの部分もしくは断片、tRNAの部分もしくは断片、ポリクローナル抗体、モノクローナル抗体、リボヌクレアーゼ、酵素、代謝産物、多糖類、リン酸化ペプチド、リン酸化タンパク質、糖ペプチド、糖タンパク質またはステロイドを含みうる。
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルは、異なるアイデンティティを有する、少なくとも2、5、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、または5000の成分、分子または被分析試料を含むのが好ましい。
前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルは、モル濃度の等しくない異種からなる複合混合物を含みうる。
前記第1のサンプル中の前記成分、分子もしくは被分析試料は、前記第2のサンプルおよび/またはさらなるサンプル中の前記成分、分子もしくは被分析試料と実質的に同一であることが好ましい。
前記成分、分子または被分析試料は、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプルに対して内因性または外因性であることが好ましい。
一実施形態によると、(i)前記第1のサンプルは罹患生体からとられ、前記第2のサンプルは非罹患生体からとられる、(ii)前記第1のサンプルは処置生体からとられ、前記第2のサンプルは非処置生体からとられる、または(iii)前記第1のサンプルは変異生体からとられ、前記第2のサンプルは野生型生体からとられる、のいずれかである。
前記方法は、前記第1のサンプルおよび/または前記第2のサンプルおよび/またはさらなるサンプル中の前記成分、分子もしくは被分析試料のうち1つ以上を同定するステップをさらに含むことが好ましい。
一実施形態によると、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料および/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料は、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料の強度と前記第2のサンプルおよび/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料の強度との違いが所定量より大きい場合にのみ同定される。
一実施形態によると、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料および/またはさらなるサンプル中の1つ以上の成分、分子もしくは被分析試料は、前記第1のサンプル中の複数の異なる成分、分子もしくは被分析試料の平均強度と前記第2のサンプルおよび/またはさらなるサンプル中の複数の異なる成分、分子もしくは被分析試料の平均強度との違いが所定量より大きい場合にのみ同定される。
前記所定量は、(i)1%、(ii)2%、(iii)5%、(iv)10%、(v)20%、(vi)50%、(vii)100%、(viii)150%、(ix)200%、(x)250%、(xi)300%、(xii)350%、(xiii)400%、(xiv)450%、(xv)500%、(xvi)1000%、(xvii)5000%、および(xviii)10000%からなる群より選択されることが好ましい。
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するように構成された手段であって、前記第1の物理化学的性質は質量または質量電荷比を含み、前記第2の物理化学的性質は溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するように構成された手段であって、前記第1の物理化学的性質は質量または質量電荷比を含み、前記第2の物理化学的性質は溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段とを備える質量分析計が提供される。
上記質量分析計は、液体クロマトグラフを備えることが好ましい。一実施形態によると、上記質量分析計は、1つ以上の質量フィルタおよび/または1つ以上の質量分析器をさらに備える。前記1つ以上の質量フィルタおよび前記1つ以上の質量分析器は、(i)直交加速飛行時間質量分析器、(ii)軸方向加速飛行時間質量分析器、(iii)ポール(Paul)三次元四重極イオントラップ質量分析器、(iv)二次元またはリニア四重極イオントラップ質量分析器、(v)フーリエ変換イオンサイクロトロン共鳴質量分析器、(vi)扇形磁場質量分析器、(vii)四重極質量分析器、および(viii)ペニングトラップ質量分析器からなる群より選択される。
上記質量分析計は、イオン源をさらに備えることが好ましい。前記イオン源はパルス状イオン源または連続イオン源を備えることが好ましい。前記イオン源は、(i)エレクトロスプレーイオン化(「ESI」)イオン源、(ii)大気圧光イオン化(「APPI」)イオン源、(iii)大気圧化学イオン化(「APCI」)イオン源、(iv)マトリックス支援レーザー脱離イオン化(「MALDI」)イオン源、(v)レーザー脱離イオン化(「LDI」)イオン源、(vi)大気圧イオン化(「API」)イオン源、(vii)シリコン上脱離イオン化(「DIOS」)イオン源、(viii)電子衝撃(「EI」)イオン源、(ix)化学イオン化(「CI」)イオン源、(x)電界イオン化(「FI」)イオン源、(xi)電界脱離(「FD」)イオン源、(xii)誘導結合プラズマ(「ICP」)イオン源、(xiii)高速原子衝撃(「FAB」)イオン源、(xiv)液体二次イオン質量分析(「LSIMS」)イオン源、(xv)脱離エレクトロスプレーイオン化(「DESI」)イオン源、および(xvi)ニッケル63放射性イオン源(Nickel-63 radioactive ion source)からなる群より選択されることが好ましい。
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップと、
第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定するステップと、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するステップとを含む質量分析方法が提供される。
前記第1の物理化学的性質は(i)質量または質量電荷比、(ii)アイソトピックもしくは脱電荷状態(decharged)質量または質量電荷比、または(iii)モノアイソトピックもしくは脱同位体化(deisotoped)質量または質量電荷比を含むことが好ましい。
前記第2の物理化学的性質はクロマトグラフィー保持時間を含むことが好ましい。
前記第2の物理化学的性質は、(i)溶解度、(ii)分子体積またはサイズ、(iii)正味電荷、荷電状態(charge state)、イオン電荷、または複合的な実測荷電状態、(iv)等電点(pI)、(v)解離定数(pKa)、(vi)抗体親和力、(vii)電気泳動移動度、(viii)イオン化ポテンシャル、(ix)双極子モーメント、(x)水素結合可能性(hydrogen-bonding capability)または水素結合能力(hydrogen-bonding capacity)、および(xi)気相中におけるイオン移動度からなる群より選択されることが好ましい。
本発明の一局面によると、第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質を決定するように構成された手段と、
第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質を決定するように構成された手段と、
前記第1のサンプル中の成分、分子または被分析試料を、前記第2のサンプル中の成分、分子または被分析試料と確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段とを備える質量分析計が提供される。
本発明の一局面によると、異なる取得からの液体クロマトグラフィー質量分析ペプチドデータをクラスタリングする確率的方法であって、
異なる実験的取得における関連するサンプルからの複数のイオンの保持時間および質量を測定するステップと、
前記質量および保持時間を含むデータセットを、各測定に固有の不確実性の予測とともに生成するステップと、
質量および保持時間を用いて、異なる取得間でデータを関連付けるステップと、
前記関連付けが各実験的取得からの唯一の代表値を有するクラスタを生じさせる平均保持時間を計算するステップと、
前記平均保持時間を基準点として用いて、各取得に対する保持時間を較正するステップと、
質量および保持時間を用いて、クロマトグラフィーの精度および較正の質によって保証されるのと同程度にデータを強く関連付けるステップとを含む方法が提供される。
データの前記関連付けは、データを1.0005ダルトンの質量ビンに分割することによってなされることが好ましい。
上記方法は、各質量ビンに対して、その質量ビン中の各データ対の関連付けのペアワイズ確率を決定するステップをさらに含むことが好ましい。
上記方法は、前記ペアワイズ確率を組み合わせることにより、前記質量ビン中のデータの任意の試みのクラスタリングに対する確率を決定するステップをさらに含むことが好ましい。
上記好ましい実施形態によると、上記方法は、前記ペアワイズ確率を閾値化することにより、質量および保持時間におけるデータの尤もらしい最初のクラスタリングを見出すステップをさらに含む。
上記方法は、前記尤もらしい最初のクラスタリングを出発点として局所探索を行なうことにより、最も確からしいクラスタリングを見出すステップをさらに含むことが好ましい。
好ましくは質量および保持時間を用いて、異なる取得間でデータを関連付ける前記ステップは、質量よりも弱い制約として保持時間を用いるステップを含むことが好ましい。
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプ中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法が提供される。
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプルの成分、分子もしくは被分析試料に関連するデータと確率的に関連付ける、クラスタリングするまたはグループ化するように構成された手段を備える質量分析計が提供される。
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法が提供される。
本発明の一局面によると、第1のサンプル中の成分、分子もしくは被分析試料または第1のサンプル中の成分、分子もしくは被分析試料に関連するデータを、第2のサンプル中の成分、分子もしくは被分析試料または第2のサンプル中の成分、分子もしくは被分析試料に関連するデータと関連付ける、クラスタリングするまたはグループ化するように構成された手段を備える質量分析計が提供される。
本発明の一局面によると、データを関連付ける、クラスタリングするまたはグループ化するステップを含む質量分析方法が提供される。
本発明の一局面によると、データを関連付ける、クラスタリングするまたはグループ化するように構成された手段を備える質量分析計が提供される。
好ましい実施形態は、別個の実験的取得において、好ましくは質量または質量電荷比およびクロマトグラフィー保持時間などの保持時間に基づいて得られた液体クロマトグラフィー質量分析(LC−MS)データのクラスタリングに関する。上記好ましい手法は、サンプルが、異なる実験データにおいて同一種の被分析試料を見つけるまたは認識するためにサンプルに加えられる別個の較正物質を使うことを必要としないことが有利である。サンプルに導入される校正物質の使用により、データと干渉を起こしたり、データを抑制したりする可能性がある。しかし、校正物質は、実験作業において別の目的、すなわち質量分析計の設定がドリフトしないことを確実にするために周期的に用いてもよい。
好ましい実施形態は、LC−MSデータの処理およびそのようなデータのクラスタリングに関する。しかし、やや好ましくは、開示したデータのクラスタリングに対する確率的またはベイズ的な手法は、ガスクロマトグラフィー質量分析(GC−MS)データ、および成分、分子または被分析試料が他の成分から適切な時期に分離されるその他のタイプの分析にも適用することが可能である。
好ましい実施形態によると、確率尺度を用いてデータポイントの近似性をペアワイズで(on a pair-wise basis)評価する。この尺度では、データが1つのクラスタから生じたという仮説を、データが、好ましくは質量−保持時間面内で均一な確率でランダムに分布されていると演繹的に考えられる2つの別個のクラスタから生じたという仮説と比較する。
クラスタが均一な確率で間隔Δで出現しうる1つの次元において、予測される<N>個のクラスタの(ポアソン分布の)平均および2つのデータポイントの位置は、xiおよびxjであり、2つのデータポイントが同一のクラスタに関連付けられている確率は、以下の式によって得られる。
Figure 0004950029
ここで、平均<N>は、k−平均クラスタリングにおいて用いられる所定の数kとは対照的に、クラスタ数に関する自由度のある事前選択を示す。
上記の式において、L(xi,xj)は、2つのデータポイントxiおよびxjが、2つの別の実験的取得において存在する同一の成分、分子または被分析試料(すなわち、ペプチド消化物)に関連するデータポイントである尤度の確率的計算である。
ガウス差およびクラスタの位置に関する均一な事前確率分布があると仮定すると、2つのデータポイントが同一のペプチドに関連する尤度は、以下の式により得られる。
Figure 0004950029
ここで、σiおよびσjは、それぞれ、位置xiおよびxjにおける不確実性である。これは、2以上の次元に一般化される。
以下の確率尺度は、2つのデータが、異なるクラスタではなく同一のクラスタに属すると解釈される。
Figure 0004950029
k−平均クラスタリングとは異なり、この確率は、クラスタ中心のすべての考えられる位置にわたって積分されたものである。
以下の確率尺度によって定義されるペアワイズ確率値pijを組み合わせることにより、データクラスタのあらゆる試みの構成に、総合確率Qを割り当てることが可能である。
Figure 0004950029
ここで、Ciはデータiが割り当てられたクラスタに割り当てられたデータセットであり、Mはデータポイントの数である。
クラスタの実行可能な最初の試みの構成がひとたび見出されると、クラスタ全体的な確率または等価性Qを最大化するよう努めることにより、これを増加的に改善することが好ましい。
好ましい実施形態によると、ペプチド消化物に関連する被分析試料のうち一部は、マトリックス法を用いてまずクラスタリングされることが好ましい。この方法によると、同一種のペプチド消化物に関連する2つのデータポイントのペアワイズ確率pijは、まずマトリックス状に配列される。マトリックスは、データポイントが2つ毎に同一のクラスタに関連付けられているペアワイズ確率pijを含むことが好ましい。例えば、以下のマトリックスは、4つのデータポイントA〜Dの対の各組み合わせにおけるデータポイントが同一のクラスタに関連する確率を表している。
Figure 0004950029
上記の例において、マトリックスは、ポイントAがポイントBと同一のクラスタに関連する確率pijは0.8であるということを示している。したがって、ポイントAおよびポイントBは、同一のクラスタに関連する可能性が高いのが理にかなっている。これに対し、ポイントBがポイントDと同一のクラスタに関連する確率pijは0.2である。したがって、この可能性は低いのが理にかなっている。
マトリックスは、その後、0と1との間の様々な閾値で分析することができるので、閾値より下の確率には偽の値(例えば0)が割り当てられる一方、閾値より上の値には、どのデータが同一のクラスタに関連付けられているかを示す真の値(例えば1)が割り当てられる。
結果として生じるブール値bijのマトリックスは、以下の式の必要な推移特性に従っていない場合があるため、実行可能なクラスタ構成を表していない場合がある。
Figure 0004950029
したがって、上記条件は確認されることが好ましい。上記推移特性が満たされない場合、試みの真理値表は棄却されることが好ましい。
上記の閾値化方式は、ペアワイズ確率のマトリックスの様々な再構築に作用するように一般化されうる。これらは、最大固有値数および再構築されたマトリックスにおいて用いられる元のマトリックスの対応する固有値数をデクリメントすることにより、反復して生成されることが好ましい。
好ましい実施形態において、最初のクラスタ構成は、その後、質量およびクロマトグラフィー保持時間に基づいてデータポイントの順序を検討することにより改善されうる。次に、データポイントが属するクラスタは、反復方式によって順序ごとに変更が可能である。この方式によると、各データを、新たなクラスタ内に入れることができる。また、前のデータクラスタ(別個の場合)内にも入れられる。また、次のデータクラスタ(別個の場合)内にも入れられる。
この処理は、さらなる改善が見出されなくなるまで、あるいは事前に割り当てられた反復限度に達するまで繰り返すことができる。
好ましい実施形態において、データは、整数質量範囲またはビン(bins)に分割されることが好ましい。2つの隣接する質量ビンの中心間の質量差は、異なるペプチドに関連するデータが同一の質量ビンに含まれない程度に大きいことが好ましい。
アミノ酸は、約1.00009から約1.00074まで様々である質量十分性(mass sufficiency)を有しており、平均質量十分性はおよそ1.0004である。したがって、生物学的サンプルは、一般に、およそ1.0005原子質量単位(ダルトン)の周期性を示し、よって、ビンは、平均的なペプチドバリオンの質量に相当する1.0005ダルトンの質量範囲を有するように構成されることが好ましい。
同一のペプチドに対する多数のデータは、単一の質量ビンの中心の周囲に集中する傾向がある。したがって、隣接する質量ビン内にデータが誤差によって含まれる尤度は、非常に低い。したがって、異なるビン内のデータは、異なるペプチド、すなわち異なるクラスタに関連すると考えることができる。
上記好ましい実施形態の特に好ましい一局面は、各取得からのデータに対する保持時間軸のアライメントである。報告される保持時間は、通常、未較正であり、各取得からのデータセット間で系統誤差がしばしば生じるため、これは非常に有利である。したがって、2つのデータセットからの保持時間を正しくリアライメントすることは有利であり、このようなステップを実行する好ましい実施形態の能力は、当該技術分野における重要な進歩である。
上記好ましい実施形態において、クラスタリングの最初の段階は、保持時間におけるデータの近似性が比較的弱い寄与しかもたらしていない状態で行われる。これは、各データに対する保持時間の不確実性に対して大きい値を割り当てることによって実現されうる。
結果として生じる、各取得からの唯一の代表を有するクラスタは、平均(および標準偏差)を取ることにより、可能性のある基準点(不確実性を有する)のリストを作成するために用いられる。外れ値は棄却されることが好ましく、残りの基準値は、確率的較正システムにより、各取得における保持時間をリアラインメントするために用いられる。
以下に、本発明の様々な実施形態について、単に例示として、添付の図面を用いて説明する。図中、
図1Aは、元の保持時間に対する質量のグラフを示すとともに、質量測定値に関するエラーバーを示し、図1Bは、図1Aに示したものと同一のデータに関する、元の保持時間に対する質量の関連したグラフを示すが、保持時間測定値に関するエラーバーを示しており、
図2Aは、保持時間がリアライメントされた、好ましい実施形態による保持時間に対する質量のグラフを示すとともに、図1Aの質量測定値に関するエラーバーを示しており、図2Bは、図2Aに示したものと同一のデータに関する保持時間に対する質量の関連するグラフを示すが、好ましい実施形態から得られた保持時間測定値に関する著しく低減されたエラーバーを示す。
本発明の好ましい一実施形態について以下に説明する。下記の表は、それらすべてが同一の整数質量2458ダルトンを有するが、クロマトグラフィー保持時間が異なる4つの別個のイオン種に関連する液体クロマトグラフィー質量分析実験から観測された15個のデータポイントに関連している。
ペプチドイオンのそれぞれの質量および対応する保持時間を、各質量測定値における標準偏差とともに示す。データポイントは、6つの別々の取得から得られ、かつ、最初に4つの別個のクラスタに割り当てられた。すなわち、分析されている同一のサンプル中に4つの別個のイオン種が存在すると考えられた。次に、実験データが上記好ましい実施形態に従って処理され、リアライメントされた保持時間が得られた。
Figure 0004950029
図1Aおよび図1Bは、15の実験データポイント、すなわち好ましい実施形態に従って保持時間がリアライメントされる前のプロットを示している。図1Aは、質量のエラーバーを含むプロットを示し、図1Bは、保持時間に関するエラーバーを含む同一のプロットを示している。
当業者に理解されるように、同一のサンプルが液体クロマトグラフィー質量分析によって繰り返し分析される場合、被分析試料であるイオンの質量または質量電荷比は実験から実験へかなり正確に再現されうる一方、測定されたクロマトグラフィー保持時間に、より大きいばらつきが生じる傾向がある。すなわち、液体クロマトグラフィーは、質量分析に比べて、信頼性および再現性が低い。1回のLC作業から次の作業にかけて、LCデータの全般的な尺度がドリフトする傾向にあり、このドリフトは、2つ以上の別個のサンプル中に存在する同一種の成分、分子または被分析試料をクラスタリングまたは認識する際に特に問題となる可能性がある。クロマトグラフィー保持時間におけるドリフトは、温度もしくは圧力ドリフトか、またはLCのカラムの閉塞に起因しうる。
別々の実験またはサンプル中の被分析試料の中には、データの実質的な処理を必要とすることなく同一種であると確信を持って認識が可能なものもある一方、他の種は、少なくとも最初は確信を持って認識ができないことが多いことが理解される。したがって、好ましい実施形態は、複合混合物を取り扱うことが可能であるという点で重要なツールを提供するとともに、2つのデータセットに対するクロマトグラフィーの時間尺度を、その2つのデータセット中のより多くの数の成分が同一種を含むことを確信を持って認識することが出来るようにリアライメントすることを効果的に可能にする。
図1Aおよび図1Bに示すデータは、上述のマトリックス法のアプローチによってまずクラスタリングされている。実験データに関する保持時間におけるエラーバーは、比較的大きい(図1Bからわかるように)ものの、マトリックス法のアプローチは、データを4つの異なる種のペプチドまたは被分析試料が存在することを高い確実性で示す4つの別個のクラスタに分離することが可能であった。
図1Aおよび図1Bに示したエラーバーは、実験に対して予測されたものであり、較正済みで、脱同位体化されており、かつ荷電状態の換算質量に関連している。図1Bに示す保持時間についてのエラーバーは、保持時間精度のユーザ入力推定値から導き出されたものである。保持時間が、最初のクラスタリング手順において正当化される以上に大きい重要度で扱われないことを確実にするために、保持時間のエラーバーは、代表的なものではなく、考えられる最悪の誤差を示すように選択されることが好ましい。
上記の表に示し、かつ図1Aおよび図1Bに示した実験データは、次に、好ましい実施形態に従って処理され、その結果、クロマトグラフィー保持時間は、データセットの全体にわたって大幅にリアライメントされた。
図2Aおよび図2Bは、好ましい実施形態に従って処理およびクラスタリングを行った後の実験データを示している。これらの図、特に図2Bから分かるように、データの保持時間は、実際に、4つのクラスタが異なる別個のクラスタであることが明らかであるように大幅にリアライメントされている。
上記の表に示し、かつ図1A、図1B、図2Aおよび図2Bに示したデータは、ごく少量のデータのみを表していることが理解される。減少されたデータ量は、単に分かりやすくするためにのみ示されている。実際には、データセットは、何千ものデータポイントを含むことができ、その場合には、好ましい実施形態によるデータのクラスタリングにおける大きな改善はより一層顕著なものとなる。
データポイントは、好ましい実施形態に従って処理されている。実験データの上記好ましい処理方法は、2つのデータセットの保持時間をリアライメントするのに効果的であり、それにより、2つの異なるサンプル中の同様の種を確信を持って相関させることが可能になったことは明らかである。図1Aと図2Aの比較から分かるように、各データポイントに対する質量のエラーバーは、好ましい実施形態に従って保持時間をリアライメントした後も同じままである。すなわち、好しい実施形態によると、質量または質量電荷比の決定における誤差は、上記好ましい実施形態に実質的に影響されない。
図2Bの保持時間エラーバーは、好ましい実施形態による確率的分析から自動的に得られる。エラーバーは、各保持時間計算に関する決定の信頼度、および各データポイントに適用されるリアライメント要因の信頼度を含む。各保持時間計算に関する決定の信頼度は、ピークにおいていくつのイオンが存在するかによってほとんど決まり、イオンの数が多いほど信頼度が高い。あるピークの保持時間と、それに最も近接する基準ピークとが非常に近似している場合、その保持時間における較正の信頼度は高い。ピークの保持時間が2つの基準ピークの保持時間の中間に含まれる場合、較正の信頼度は高くない。最も近接する2つのピークがはるかに離れている場合、その中間点における較正の信頼度はさらに低い。
やや好ましい一実施形態によると、(図1Aおよび図1Bに示したように)データを最初にクラスタリングするために用いられた上記好ましいマトリックス法を使用するのではなく、データのクラスタリングにk−平均クラスタリングをまず用いてもよい。データがまずk−平均クラスタリングを用いてクラスタリングされる場合、データのクラスタリングに対する上記好ましい確率的手法を適用することにより、データのクラスタリングは、その後さらに改善されることが好ましい。
ペプチドの質量十分性分布の性質から、ペプチド質量の不均一またはガウスの事前分布は、以下の尤度の計算においてより適切でありうると考えられる。
Figure 0004950029
反復的解決法の改善段階において用いられるデータの質量および保持時間の順序付けの代わりに、ヒルベルトの空間充填曲線に基づく別のアプローチを用いてもよい。これにより、二次元的な質量−保持時間面の局所性の保存性が改善されることになる。
好適な実施形態を参照して本発明を説明したが、添付の請求項に記載された本発明の範囲から逸脱することなく、形態および詳細において様々な変更を行なうことができることが当業者には理解される。
図1Aは、元の保持時間に対する質量のグラフを示すとともに、質量測定値に関するエラーバーを示す。 図1Bは、図1Aに示したものと同一のデータに関する、元の保持時間に対する質量の関連したグラフを示すが、保持時間測定値に関するエラーバーを示す。 図2Aは、保持時間がリアライメントされた、好ましい実施形態による保持時間に対する質量のグラフを示すとともに、図1Aの質量測定値に関するエラーバーを示す。 図2Bは、図2Aに示したものと同一のデータに関する保持時間に対する質量の関連するグラフを示すが、好ましい実施形態から得られた保持時間測定値に関する著しく低減されたエラーバーを示す。

Claims (13)

  1. 第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定することによりデータポイントを得るステップであって、前記第1の物理化学的性質が、質量または質量電荷比を含み、前記第2の物理化学的性質が、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
    第2のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定することによりデータポイントを得るステップであって、前記第1の物理化学的性質が、質量または質量電荷比を含み、前記第2の物理化学的性質が、溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含むステップと、
    前記第1のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントと比較すること
    前記データポイントを1つ以上のデータポイントクラスタにクラスタリングすること;および
    データポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算すること;により、
    前記第1のサンプル中の成分、分子または被分析試料に関連するデータポイントを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータポイント、確率的にクラスタリングするステップと、
    データポイントクラスタのそれぞれのクラスターにおけるデータポイントの前記第2の物理化学的性質を平均して、前記第2の物理化学的性質に対する平均値を生成し、かつ前記第1サンプルおよび第2サンプルにおける、決定された、成分、分子または被分析試料の前記第2の物理化学的性質に関連するデータポイントを、前記第2の物理化学的性質に対する前記平均値に相関させるための較正関数を決定するステップと;ならびに
    各サンプルからのデータポイントを調整し、前記データポイントに対する第2の物理化学的性質を修正するステップとを含む質量分析方法。
  2. 前記第1のサンプルおよび/または前記第2のサンプル中の成分、分子もしくは被分析試料が、液体クロマトグラフィーによって分離される、請求項1に記載の方法。
  3. 前記第1のサンプルおよび/または前記第2のサンプル中の成分、分子もしくは被分析試料が、(i)高速液体クロマトグラフィー(「HPLC」)、(ii)陰イオン交換、(iii)陰イオン交換クロマトグラフィー、(iv)陽イオン交換、(v)陽イオン交換クロマトグラフィー、(vi)イオン対逆相クロマトグラフィー、(vii)クロマトグラフィー、(vii)一次元電気泳動法、(ix)多次元電気泳動法、(x)サイズ排除、(xi)アフィニティー、(xii)逆相クロマトグラフィー、(xiii)キャピラリー電気泳動クロマトグラフィー(「CEC」)、(xiv)電気泳動法、(xv)イオン移動度分離法、(xvi)電界非対称性イオン移動度分離法(Field Asymmetric Ion Mobility Separation)(「FAIMS」)、または(xvi)キャピラリー電気泳動法によってその他の成分、分子または被分析試料から分離される、請求項1または2に記載の方法。
  4. データポイントをデータポイントの1以上のクラスタ中にクラスタリングすることは、ペアワイズ(on a pairwise basis)でデータポイントの近似性を評価することを含む請求項1に記載の方法。
  5. 前記第1のサンプル中の成分、分子または被分析試料に関連する調整済みのデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連する調整済みのデータポイントと比較するステップをさらに含む、請求項1〜4のいずれかに記載の方法。
  6. 各調整済みのデータポイントが、前記第1の物理化学的性質の未調整の値を含む請求項5に記載の方法。
  7. 前記第1のサンプル中の第1の成分、分子もしくは被分析試料および/または前記第2のサンプル中の第1の成分、分子もしくは被分析試料の強度を決定するステップをさらに含む、請求項1〜6のいずれかに記載の方法。
  8. 前記第1のサンプル中の前記第1の成分、分子もしくは被分析試料の強度を、前記第2のサンプル中の対応する第1の成分、分子もしくは被分析試料と比較するステップをさらに含み、前記第1の成分、分子もしくは被分析試料が、データポイントの同一のクラスターに属する、請求項7に記載の方法。
  9. 前記第1のサンプル中の前記成分、分子もしくは被分析試料が、前記第2のサンプル中の前記成分、分子もしくは被分析試料と実質的に同一である、請求項1〜8のいずれかに記載の方法。
  10. (i)前記第1のサンプルが罹患生体からとられたものであり、前記第2のサンプルが非罹患生体からとられたものである、(ii)前記第1のサンプルが処置生体からとられたものであり、前記第2のサンプルが非処置生体からとられたものである、または(iii)前記第1のサンプルが変異生体からとられたものであり、前記第2のサンプルが野生型生体からとられたものである、のいずれかである、請求項1〜9のいずれかに記載の方法。
  11. 前記第1のサンプルおよび/または前記第2のサンプル中の前記成分、分子もしくは被分析試料のうち1つ以上を同定するステップをさらに含む、請求項1〜10のいずれかに記載の方法。
  12. 前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料および/または前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料が、前記第1のサンプル中の1つ以上の成分、分子もしくは被分析試料の強度と前記第2のサンプル中の1つ以上の成分、分子もしくは被分析試料の強度との違いが所定量より大きい場合にのみ同定される、請求項11に記載の方法。
  13. 第1のサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定することによりデータポイントを得るように構成された手段であって、前記第1の物理化学的性質が質量または質量電荷比を含み、前記第2の物理化学的性質が溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
    第2の異なるサンプル中の成分、分子または被分析試料の第1の物理化学的性質および第2の物理化学的性質を決定することによりデータポイントを得るように構成された手段であって、前記第1の物理化学的性質が質量または質量電荷比を含み、前記第2の物理化学的性質が溶出時間、疎水性、親水性、移動時間、またはクロマトグラフィー保持時間を含む手段と、
    前記第1のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントを、前記第2のサンプル中の成分、分子もしくは被分析試料に関連するデータポイントと比較すること
    前記データポイントを1つ以上のデータポイントクラスタにクラスタリングすること;および
    データポイントが同一の成分、分子または被分析試料に関連する尤度を確率的に計算すること;により、
    前記第1のサンプル中の成分、分子または被分析試料に関連するデータポイントを、前記第2のサンプル中の成分、分子または被分析試料に関連するデータポイント確率的にクラスタリングするように構成された手段と、
    データポイントクラスタのそれぞれのクラスターにおけるデータポイントの前記第2の物理化学的性質を平均して、前記第2の物理化学的性質に対する平均値を生成し、かつ前記第1サンプルおよび第2サンプルにおける、決定された、成分、分子または被分析試料の前記第2の物理化学的性質に関連するデータポイントを、前記第2の物理化学的性質に対する前記平均値に相関させるための較正関数を決定するよう構成された手段と、
    各サンプルからのデータポイントを調整し、前記データポイントに対する第2の物理化学的性質を修正するよう構成された手段と
    を含む質量分析計。
JP2007510123A 2004-04-30 2005-05-03 質量分析計 Expired - Fee Related JP4950029B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB0409676.4 2004-04-30
GBGB0409676.4A GB0409676D0 (en) 2004-04-30 2004-04-30 Mass spectrometer
GB0411251.2 2004-05-20
GBGB0411251.2A GB0411251D0 (en) 2004-04-30 2004-05-20 Mass spectrometer
PCT/GB2005/001674 WO2005106920A2 (en) 2004-04-30 2005-05-03 Mass spectrometer

Publications (2)

Publication Number Publication Date
JP2007535672A JP2007535672A (ja) 2007-12-06
JP4950029B2 true JP4950029B2 (ja) 2012-06-13

Family

ID=34680446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007510123A Expired - Fee Related JP4950029B2 (ja) 2004-04-30 2005-05-03 質量分析計

Country Status (5)

Country Link
EP (1) EP1745499B1 (ja)
JP (1) JP4950029B2 (ja)
CA (1) CA2564330C (ja)
GB (1) GB2413696B (ja)
WO (1) WO2005106920A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165820B2 (en) * 2005-06-03 2012-04-24 Waters Technologies Corporation Methods and apparatus for performing retention-time matching
GB0514555D0 (en) 2005-07-15 2005-08-24 Nonlinear Dynamics Ltd A method of analysing separation patterns
GB0514553D0 (en) 2005-07-15 2005-08-24 Nonlinear Dynamics Ltd A method of analysing a representation of a separation pattern
GB2485187A (en) 2010-11-04 2012-05-09 Agilent Technologies Inc Displaying chromatography data
GB201205009D0 (en) * 2012-03-22 2012-05-09 Micromass Ltd Multi-dimensional survey scans for improved data dependent acquisitions (DDA)
WO2023120562A1 (ja) * 2021-12-22 2023-06-29 合同会社H.U.グループ中央研究所 抗体多様性の算出装置、抗体多様性の算出方法、ならびに抗体多様性の算出プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07198703A (ja) * 1993-12-28 1995-08-01 Tokai Rubber Ind Ltd クロマトグラフ分析結果に基づくポリマーの自動解析装置
GB9824444D0 (en) * 1998-11-06 1999-01-06 Univ Manchester Metropolitan Micro-Organism identification
US6487523B2 (en) * 1999-04-07 2002-11-26 Battelle Memorial Institute Model for spectral and chromatographic data
US6647341B1 (en) * 1999-04-09 2003-11-11 Whitehead Institute For Biomedical Research Methods for classifying samples and ascertaining previously unknown classes
US6873915B2 (en) * 2001-08-24 2005-03-29 Surromed, Inc. Peak selection in multidimensional data
CA2484625A1 (en) * 2002-05-09 2003-11-20 Surromed, Inc. Methods for time-alignment of liquid chromatography-mass spectrometry data
AU2003237306A1 (en) * 2002-05-31 2003-12-19 Waters Investments Limited A method of using data binning in the analysis of chromatograhpy/spectrometry data
US7457708B2 (en) * 2003-03-13 2008-11-25 Agilent Technologies Inc Methods and devices for identifying related ions from chromatographic mass spectral datasets containing overlapping components
JP4185933B2 (ja) * 2003-03-31 2008-11-26 株式会社メディカル・プロテオスコープ 試料解析方法及び試料解析プログラム
CA2501003C (en) * 2004-04-23 2009-05-19 F. Hoffmann-La Roche Ag Sample analysis to provide characterization data

Also Published As

Publication number Publication date
GB0508936D0 (en) 2005-06-08
CA2564330A1 (en) 2005-11-10
WO2005106920A3 (en) 2006-09-21
GB2413696A (en) 2005-11-02
EP1745499A2 (en) 2007-01-24
WO2005106920A2 (en) 2005-11-10
JP2007535672A (ja) 2007-12-06
CA2564330C (en) 2013-08-13
EP1745499B1 (en) 2015-10-21
GB2413696B (en) 2006-11-01

Similar Documents

Publication Publication Date Title
US7493225B2 (en) Method for calibrating mass spectrometry (MS) and other instrument systems and for processing MS and other data
Spengler De novo sequencing, peptide composition analysis, and composition-based sequencing: a new strategy employing accurate mass determination by fourier transform ion cyclotron resonance mass spectrometry
US9312110B2 (en) System and method for grouping precursor and fragment ions using selected ion chromatograms
US7202473B2 (en) Mass spectrometer
JP5009784B2 (ja) 質量分析計
US7979258B2 (en) Self-calibration of mass spectra using robust statistical methods
JP4950029B2 (ja) 質量分析計
EP4022665A1 (en) Mass spectrometer calibration
JP4497455B2 (ja) 質量分析計
EP3745443A1 (en) Deconvolution of mass spectrometry data
US8515685B2 (en) Method of mass spectrometry, a mass spectrometer, and probabilistic method of clustering data
EP3523818B1 (en) System and method for real-time isotope identification
EP4078600B1 (en) Method and system for the identification of compounds in complex biological or environmental samples
Bielow et al. Bioinformatics for qualitative and quantitative proteomics

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110803

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110901

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120308

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150316

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4950029

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees