JP2014507672A

JP2014507672A - クロマトグラフィーシステムでのデータを処理するためのシステム及び方法

Info

Publication number: JP2014507672A
Application number: JP2013557939A
Authority: JP
Inventors: ワーン，ジホン; ウィリス，ピーター・マーケル
Original assignee: Leco Corp
Current assignee: Leco Corp
Priority date: 2011-03-11
Filing date: 2012-03-12
Publication date: 2014-03-27
Anticipated expiration: 2032-03-12
Also published as: DE112012001185B4; CN103718036A; DE112012001185T5; WO2012125548A2; JP5941073B2; CN103718036B; US20140088923A1; WO2012125548A3; US10488377B2

Abstract

クロマトグラフィー質量分析法の分析システムでのデータを処理するための方法が記載されており、前記データは、強度と質量値と保持時間から成るイオンピークを表している。或る実施形態では、方法は、前記データを前処理する段階（Ｓ２００）と、因子分析にとって有意な因子を求めるべく前処理されたデータを分析する段階と（Ｓ３００）、生データを調べ直し、データ中に表されていることが確信される何らかの同位体／付加体と関連付けられるデータを処理する段階（Ｓ４００）と、処理されたデータに基づいて結果を用意し提供する段階（Ｓ５００）と、を備えている。
【選択図】図１

Description

[0001]本開示は、クロマトグラフフィー質量分析法システムでの取得されたデータのためのデータ処理技法に関する。

[0002]クロマトグラフィー質量分析計は大量のデータを発生させること、またそれらデータの多くがノイズ又は不要な情報から成ることは知られている。関連情報をノイズから効率的に精度よく区別し、同情報を効率的且つ高分解能な方式で処理するシステム及び方法が所望されている。

米国特許第７，５０１，６２１号米国特許第７，８２５，３７３号米国特許第７，８８４，３１９号米国仮特許出願第６１／４４５，６７４号

[0003]クロマトグラフィーシステムでのデータを処理するためのシステム及び方法が記載されている。或る実施形では、本システム及び方法は、クロマトグラフィーシステムによって生成されたデータを処理して処理されたデータを生成する段階と、処理されたデータを分析する段階と、処理されたデータに基づく結果を用意し提供する段階と、を含んでいる。

[0004]本開示に記載されている或る実施形による、クロマトグラフピークを識別しデコンボリューションするための因子分析技法に関する全般的な処理を描いている。 [0005]ガスクロマトグラフィー質量分析法システムの全体的なブロック図である。 [0006]或る実施形による、本技法の或る特徴を示している。 [0007]或る実施形による、データ捕捉システムからのデータを前処理するための或る例示としての方法を表している。 [0008]或る実施形による、ベースライン補正の或る例示としての方法を表している。 [0009]フィルタリング処理の或る例示としての実施形を識別している。 [0010]本開示で論じられている原理による、実質的に最適化された係数を識別するための代表的な処理を描いている。 [0011]或る実施形態による、サブクラスタのピーク形状の適性認定を行うのに使用することのできる代表的な処理を示している。 [0012]或る実施形による、概ね無関係なデータをサブクラスタから除去してデータを精錬させることのできる方法を述べている。 [0013]ここに記載の実施形の態様によるシーディング法を描いている。 [0014]記載の実施形態に従った因子識別のための処理を示している。 [0015]或る例示としてのシステムでのＭ対ピーク相関閾値の比較を描いている。 [0016]或る実施形でのＭ対ピーク相関閾値をグラフに実例的に示している。 [0017]因子分割を防ぐ方法を提供している。

[0018]様々な図面中の同様の符号は同様の要素を指し示している。
[0019]図１を参照すると、クロマトグラフィー質量分析法システムからのクロマトグラフピークを識別しデコンボリューションする因子分析方法としての或る例示としての方法が開示されている。本方法は、液体及び気体を含むクロマトグラフィーシステムの全型式で使用することができるものと理解されたい。例示されている或る実施形態では、本方法は、（ｉ）分析システムによって受信されたデータを前処理する段階（Ｓ２００）と、（ｉｉ）前処理されたデータを分析する段階（Ｓ３００）と、（ｉｉｉ）データ中に表されていることが確信される何らかの同位体又は付加体と関連付けられるデータを処理する段階（Ｓ４００）と、（ｖ）関連付けられる結果を用意し提供する段階（Ｓ５００）と、を含んでいる。

[0020]或る実施形では、データは、質量分析計と関連付けられているデータ捕捉システムによる分析のために供給される。本開示の解釈上、データ捕捉とは、米国特許第７，５０１，６２１号、米国特許第７，８２５，３７３号、米国特許第７，８８４，３１９号に示されているシステムとされていることを了解されたい。

[0021]更に、その様な分析を施されるのに先立ち、データ捕捉システムからのデータは、米国仮特許出願第６１／４４５，６７４号に示されている様に調整されてもよい。上記及び他の全ての参照されている特許及び出願をここに参考文献としてそっくりそのまま援用する。援用されている参考文献中の用語の定義又は使用が、ここに提供されている当該用語の定義と矛盾しているか又は相容れない場合には、ここに提供されている当該用語の定義が適用され、参考文献中の当該用語の定義は適用されない。

[0022]かいつまめば、上記データ捕捉システムは、概して、質量分析法システムからの生データを、それぞれがイオンピークを表していて強度と正確な質量値と質量分解能値から成っている「スティック」（sticks）と呼ばれる質量中心質量スペクトル（centroided mass spectral）へ変換する。スティックの構築時、アナログ対デジタル変換器からの生データは、約１０^４又は１０^５：１の圧縮を施され、捕捉ノイズと冗長情報の大半は除去されてしまう。しかしながら、このデータ捕捉システムの目的は全イオン情報を以降の処理工程へ回送することなので、結果は、非常に疎な二次元データであり、化学背景ノイズは依然として残っている可能性がある。次に、スティックはドリフト補正され、隣接保持時間の走査で統計的に似通った質量のクラスタへまとめられる。

[0023]或る実施形では、似通った強度プロファィルを有するクラスタ同士は、クロマトグラフカラムから溶離する分子化合物由来の様々な同位体、付加体、及びフラグメントイオンを表していると考えられる。加えて、カラムブリード、移動相汚染物質、雰囲気汚染物質、及び同種のもの、の様な多様な発生源に由来する、クロマトグラフ構造を全く持たない背景イオンのクラスタがある。クラスタフィルタを適用して、所望の最小信号対ノイズレベルより小さいレベルを有するクラスタを除去し、次いで、残っているクラスタを処理システムへ送って、分析を続行させるようにすることができよう。

[0024]本開示の内容に基づいて理解されるべきこととして、データ処理のそれぞれの工程で、優良情報の保持は、図３によって表されている様に幾らかの残留ノイズ保持を代償としていることが典型的に好適である。概して、記載のシステムは、データの完全性を保全するために保持されるノイズの量を最適化した。

[0025]図４は、処理システムによってデータ捕捉システムから受信されるデータを前処理するための或る例示としての方法を表している。或る実施形では、処理（Ｓ２００）は、長いクラスタを短いクラスタから分離し、長いクラスタをベースライン補正する段階（Ｓ２１０）と、データをフィルタ処理して平滑化する段階（Ｓ２２０）と、フィルタ処理されたクラスタをサブクラスタへ分ける段階（Ｓ２３０）と、サブクラスタの適性認定を行う段階（Ｓ２４０）と、を含んでいる。或る実施形態では、サブクラスタの適性認定は、ピーク形状の適性認定を行うことと信号対ノイズの適性認定を行うことのうち少なくとも一方を含んでおり、それぞれは以下に更に詳細に論じられている。

[0026]長いクラスタは全分析の長さに近い持続時間を有しているかもしれないこと、及びこれらの長いクラスタの殆どは正しく取り扱われなかったなら事実上バイアスを掛けてしまう背景イオンであること、が見出されている。更に、長いクラスタは、多くの場合、相対的に強度が高く、典型的にはそれらと関連付けられる高いノイズを有している。また一方で、このデータの一部が、溶離化合物の共有質量による寄与のせいで望ましいクロマトグラフデータを保有しているということもあるため、長いクラスタを一括りに抽出するのではなくむしろ長いクラスタへの更なる分析を提供するのが好適である。その様な長いクラスタは、それらの強度上昇のせいで、或る実施形では、最初にベースライン補正を施されることになる。

[0027]その様なベースライン補正の或る方法をこれより開示してゆく。図５に示されている或る実施形では、データへベースライン補正を遂行するための段階は、以下の手続き、即ち、データをブロックへ分離する段階であって、それぞれのブロックの長さは、クロマトグラフデータの期待半値全幅（full-width half-height）の倍数として求められている、分離する段階（Ｓ２１１）と、ブロックの中心のベースラインの強度を、当該ブロックの下四分位のベースラインの強度に基づいて推定する段階（Ｓ２１２）と、上記の等距離四分位点間を線形補間してベースライン推定を出す段階（Ｓ２１３）と、ベースラインレベルに対しベースラインより上のデータをクリップし、ベースラインより下のデータを温存する段階（Ｓ２１４）と、クリップされたデータ上で曲線を平滑化してベースラインの改善版を出す段階（Ｓ２１５）と、段階（Ｓ２１４）及び段階（Ｓ２１５）を、全て又は実質的に全てのデータが平滑化されたベースラインより上に最小許容誤差内で納まるまで、繰り返す段階と、を備えていてもよい。上記ベースライン補正は、それぞれの所望の分離されたブロックに遂行されてもよく、或る実施形では、分離されたブロック全て又は実質的に全てが含まれている。同様に、補正は、それぞれの長いクラスタに適用されてもよく、或る実施形では、長いクラスタ全て又は実質的に全てが含まれている。

[0028]或る実施形では、段階（Ｓ２１１）中のブロックの長さは、クロマトグラフデータの期待半値全幅の５倍と推定されるが、本開示に基づき、長さは５倍より大きいこともあれば小さいこともあるものと理解されたい。

[0029]論じられている様に、データをクリップする段階（Ｓ２１４）は、クリップされたデータ上で曲線を平滑化することを伴う。或る実施形では、平滑化する段階を提供するのにＳａｖｉｔｚｋｙ−Ｇｏｌａｙ平滑化アルゴリズムが実装されている。他の平滑化アルゴリズムを採用することもでき、本発明はそれによってその様に限定されるものではない。

[0030]引き続き図４を参照して、データは次にフィルタ処理されてノイズが除去されることになる（Ｓ２２０）。その様なフィルタリング処理の実施形が図６に示されている。論じられている或る実施形態では、この段階を遂行する場合に無限インパルス応答フィルタが使用されているが、但し、本明細書の内容に基づき、有限インパルス応答フィルタの様な他の型式のフィルタがそれに置き換えられてもよいものと理解されたい。引き続き図６を参照すると、データ内で最も大きいピークが識別され、当該ピークの半値全幅が推定される（Ｓ２２１）。この推定値は、次に、事前に定義されているルックアップ表と突き合わされて、順逆二次無限インパルス応答フィルタ係数のセットであって、クロマトグラフピークをそれらの半値全幅に基づいて平滑化するために最適化されている係数のセットを識別する（Ｓ２２２）。（Ｓ２２２）で導出されている識別された最適化済みの係数を使用して、データが平滑化される（Ｓ２２３）。次に、平滑化されたデータが生データと比較されて、それぞれのクラスタについてのノイズ指数が識別される（Ｓ２２４）。或る実施形では、それぞれのクラスタについてのノイズ指数は、平滑データと生データの間の残差の標準偏差として計算されている。本開示に基づいて明らかになってくる目的のために、ノイズ指数は、（Ｓ２３０）に従って或るクラスタから導出されているサブクラスタのそれぞれへ割り当てられるものとして保持される。この方法は、高強度データによって不当に影響されない分析を促し低強度データが十分に表されるようにする最尤最小二乗法推定を提供する。

[0031]論じられている様に、或る実施形態では、最適化された係数は、（Ｓ２２２）のルックアップ表の使用を通して識別される。或る実施形では、最適化された係数は、何れかの処理が起こる前に、幾つかの期待半値全幅値について事前に計算されシステムに保存される。図７は、係数を事前に計算することのできる１つのやり方を示している。

[0032]（Ｓ２２５）で、幾つかの純粋なガウスピークがそれぞれの期待半値全幅で形成される。或る実施形では、これらのピークの幅は、実質的に目的の半値全幅の約三分の一（１／３）乃至当該半値全幅の３倍を範囲としており、それらは基準ピークとして格納される。次に、（Ｓ２２６）で、ノイズが、基準ピークの全て又は選択されたものに加えられる。或る実施形では、ノイズはホワイトノイズであり、ガウス分布に従ってピークのそれぞれに加えられている。次いで、（Ｓ２２７）で、フィルタ係数を調整するべく、ピークのそれぞれ又は選択されたものが、平滑化されたノイズのあるピークと基準ピークの間の残差を実質的に最小化する方式で最適化される。最適化（Ｓ２２７）は、非線形Ｌｅｖｅｎｂｕｒｇ−Ｍａｒｑｕａｒｄｔ法を使用して提供されてもよい。最適化中、係数は、安定したインパルス応答を発生させるように制約を付けられる。この処理がそれぞれの又は選択された基準半値全幅について繰り返され（Ｓ２２８）、最適化された係数値がルックアップ表に格納される（Ｓ２２９）。或る実施形では、例示としての得られた平滑化フィルタのインパルス応答は、フィルタの主ローブの幅が目的の半値全幅の大凡二分の一である正弦フィルタのインパルス応答と似ていた。この実施形を使用すれば、ピークの形状と構造は実質的に保全され、検知される偽の正ピーク数は実質的に最小限になることであろう。

[0033]図４に戻って、フィルタ処理されたクラスタは、サブクラスタへ分けられることになる（Ｓ２３０）。或る実施形では、フィルタ処理されたクラスタのデータが調べられて、（２つのピーク又は頂点の間に位置する）谷の最少点が近接のピークの定義されている強度未満であるそれぞれのインスタンスが識別される。一例として、ピーク強度は、近接しているピークの一方又は両方のピークの強度又はその二分の一（１／２）であるとして選択されていてもよい。識別されたら、谷はクラスタ切断点として認識され、それによってクラスタを１つ又はそれ以上のサブクラスタへ分離させる。理解されてゆく様に、分けられるサブクラスタの数は、所与のクラスタのクラスタ切断点の量に依存することになる。

[0034]図８は、サブクラスタのピーク形状の適性認定を行うのに使用することのできる代表的な処理を示している（Ｓ２４０）。この処理は、確実に、関連のサブクラスタがクロマトグラフ情報を保有するようにさせるのに役立つ。実際には、サブクラスタの幾つかは、クロマトグラフ情報を保有しないデータを含んでいることがあり、その様なデータを、これ以後、外れ値と呼称する。それら外れ値のうち関連データを除去することなく実践できる限り多くの外れ値をデータから抽出し省くのが好適である。或る実施形では、所望のサブクラスタを外れ値から分離するのに、次の技法、即ち、（ｉ）最小信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択する（Ｓ２４２）、（ｉｉ）最小品質より大きいピーク形状を有するサブクラスタを選択する（Ｓ２４４）、及び（ｉｉｉ）最小クラスタ長さを有するサブクラスタを選択する（Ｓ２４６）、のうちの１つ又はそれ以上が使用されている。或る実施形では、最小クラスタ長さは、３乃至８スティック、４乃至７スティック、３乃至７スティック、４乃至８スティック、４乃至６スティック、又は５スティック、の長さが選択されている。他の最小クラスタ長さが使用されていてもよい。或る実施形では、前記分離処理のそれぞれが使用されている。開示を分かり易くするために、本開示は、図８に描かれている様に、処理のどれもが使用されている実施形態を論じてゆく。また、どの分離処理が使用されようと、本開示はそれらが処理される順序に限定されるものではない。

[0035]最小又は閾値信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択するための或る例示としての処理（Ｓ２４１）が提供されている。或る実施形では、閾値比は、ハードコードされた値とユーザーが定義した値のうちより小さい方として選択されていてもよい。一例として、閾値は１０又は約１０とすることができよう。他にも技法はあるが中でも特に、ノイズは四分の一（１／４）イオン面積の事前に定義されている捕捉ノイズとして、又は元のクラスタデータと平滑化されたクラスタデータの間の残差の標準偏差として、測定されていてもよい。とはいえ、閾値未満の比を有するサブクラスタでも、それらが適性条件を満たすピークの同位体又は付加体であるなら、因子分析でなお使用されることもあるものと理解されたい。

[0036]閾値より大きい信号対ノイズ比を有するサブクラスタは、冗長データ又はノイズをなおも保有しているかもしれないことから、それらサブクラスタを更にトリミングすることが望ましいであろう。１つのトリミング方法は、その様なサブクラスタのベースラインをピークの左右両側からトリミングすることを伴う。或る実施形では、サブクラスタ内の生データが一方の端又は両方の端から中心へ向かって走査され―強度（左／右）が閾値より上に立ち上がっている場所が、サブクラスタの新しい端となり、ベースラインデータは捨てられる。或る実施形では、閾値強度は、サブクラスタノイズの標準偏差の４倍である。

[0037]前に説明されている様に、所望のサブクラスタを識別し外れ値を除外する別の手法は、最小又は閾値品質より大きいピーク形状を有するサブクラスタを選択すること（Ｓ２４４）である。或る実施形では、閾値品質は、クロマトグラフピークが合理的にモデル化され得る全体形状を有しているとの仮定に基づいていてもよく、モデル化は、二重ガウス（bi-Gaussian）曲線を使用するのが好ましいが、本発明はそれによってその様に限定されるものではない。二重ガウス曲線は、フィッティングの速さと安定性について、ピアソンＩＶの様な他のピーク形状に勝って好適である。従って、図９に描かれている或る実施形態では、それぞれのサブクラスタは、まず、二重ガウスピークにフィットされる（Ｓ２４７）。サブクラスタとフィットさせたピークの間の相関が識別される（Ｓ２４８）。閾値相関より大きいか又は実質的に閾値相関にある相関を有するピークが選択され、閾値より小さい相関を有するピークは外れ値として識別される（Ｓ２４９）。或る実施形では、閾値相関は０．６、好適には０．８とされている。

[0038]本開示に基づいて、理解されるべきこととして、それぞれのサブクラスタは、単一のクロマトグラフピークを保有しているものと見なされるものであり、たとえその様なピークは、２つ又はそれ以上の共溶出化合物からの情報が組み合わさったことに起因する共有質量複合ピークであるかもしれないという可能性、即ち以下に更に詳しく論じられている様にデコンボリューションされることになる現象であり得ることが考えられるにせよ、その様に見なされている。

[0039]図１に戻って、上記に従って前処理されたデータは次に（Ｓ３００）で分析を施される。方法は、この段階で、因子分析のための有意因子の数を求め、それらの因子の初期シード推定を提供するものとして開示されている。ここに論じられている因子シーディングの適用により、方法は、因子分析が不当に局所的最小値に集中することを防止されたものとなる。結果として、より高い精度と分解能で素早く結果を得ることができるようになる。

[0040]図１０に示されている或る実施形態では、開示されているシーディング法は、（Ｓ３１０）で、１つ又はそれ以上の値を充当して、有意因子の数を処理する又は他のやり方で求め、デコンボリューションを制御することを伴う。或る実施形態では、使用することのできる値には、中でもとりわけ、クロマトグラフ分解能の度数、ピーク重なり又はピーク相関閾値、及び得られる因子の最小品質が含まれる。値は、ユーザーが選択したものであってもよいし、事前に定義されていてもよいし、前シーディング処理中に分析結果に基づいて動的に生成されてもよい。

[0041]或る実施形態では、マルチパス処理が因子確定を容易にすることであろう。これより２パス処理を論じてゆくが、本開示に基づいて、様々なパス処理が使用されてもよく、本発明はその幅一杯まで権利が及ぶものと理解されたい。更に、２パス処理は、随意であり、単一パスからもたらされる結果が十分であると判断されれば単一パスが使用されてもよい。かいつまめば、本処理は、因子をその様なピークとしてを求めるときに、結果をぼやけさせるか又はそれ以外に処理を遅行させたりしないとも限らない低品質ピークの除外をやり易くする。とはいえ、後段で論じられている様に、除外されたピークの幾つか又は全ては、その様なピークが同位体又は付加体に関係していると判定された場合には、後刻、処理に加えられることになる。

[0042]或る実施形では、第１パスは、求められる因子の第１推定値を提供する（Ｓ３２０）のに使用される。図１１に示されている様に、このパスは、因子についてのベースピーク又は濃度プロファイルの選択（Ｓ３２１）で始まる。ベースピークは、手動で選択されてもよいし、又は自動的に、例えばアルゴリズム関数又は同種のものの実装を通すなどして、選択されてもよい。或る実施形では、データセットの中で最も強度の高いサブクラスタピークがベースピークとして選択されており、というのも、その様なピークは、比較上強度の低いサブクラスタピークと比較して、純粋な化学物質を最もよく表している可能性が高いと想定できるからである。或る実施形では、選択されたサブクラスタピークは、因子についてのベースピーク又は濃度プロファイルとして選択される。

[0043]ベースピークの選択に続いて、全ての局所データ（例えば、このベースピークを横切るサブクラスタ）が評価され、ベースピークと相関付けられて、ベースピークとの相関値Ｃを充当させる（Ｓ３２２）。既知の相関方法が使用されてもよい。或る実施形態では、既定の最小相関値を有する局所データがベースピークと組み合わされて因子を作成する（Ｓ３２３）。次いで、識別された因子について、スペクトルの初期推定値Ｓが指定される（Ｓ３２４）。

[0044]次に、残っているデータの中で次に最も強度の高いピークが次の因子として選択され、この場合も同様に、相関データが上述の処理に従って組み合わされる（Ｓ３２５）。この処理は、サブクラスタの全てが因子へ初期割り当てされるまで続く。

[0045]次に、第２パス（Ｓ３３０）が採用され、それによって、第１パスからの因子は更に分析され、第１パスで識別された単一の因子を更に個別化された因子に分離できるか又は分離するべきかについて判定が下されることになる。このステップ中、相関パラメータ及び関係のある信頼区間を使用して、第１パスで間違って併合されたかもしれないデータを分離するようにしてもよい。或る実施形では、相関パラメータは、ユーザーが識別したものであってもよいし、事前に定義されたものであってもよい。

[0046]図１２は、その様な第２パス（Ｓ３３０）で使用することのできる実施形を例示している。描かれている様に、因子の中で最も強度の高いサブクラスタが選択され（Ｓ３３１）、当該サブクラスタのことを、他の用語を使用することもできるであろうがベースピークと識別することにする。当該ベースピークと因子中の他のサブクラスタの１つ又は全ての間で相関が計算される（Ｓ３３２）。更に、ベースピークを含め、サブクラスタのそれぞれについて、頂点位置信頼区間が計算される（Ｓ３３３）。或る例示としての信頼区間の求め方は、

とされている。
[0047]上記方程式では、（ｉ）Ｍは、シグマ乗数を指し、所望の標準偏差の数と関係していて、以下で論じられている様にピーク相関閾値と関係付けられる場合もあり、（ｉｉ）ＰｅａｋＷｉｄｔｈは、その信頼区間が所望されているサブクラスタピークの半値全幅であり、（ｉｉｉ）Ｓ／Ｎは、サブクラスタのピーク高さ対ピーク・ツー・ピークノイズの比として計算されているサブクラスタについての信号対ノイズ比であり、ＡｐｅｘＬｏｃａｔｉｏｎは、ピークの頂点の時間位置である。或る例示としての信頼区間の求め方が開示されているが、他の計算が使用されてもよく、特に否定されていない限り、本発明は開示されている例に限定されるものではない。

[0048]好適な場合、前に述べられている様に、或る実施形では、Ｍは図１３に描かれている様に関数的にピーク相関閾値に関係付けることができる。図１３は、可変量で時間推移する２つのガウス分布の相関及び信頼区間の重なりの測定値に基づくＭ対ピーク相関閾値をグラフに実例的に示している。プロットされている関係を使用すると、ピーク相関閾値かＭのどちらかが識別されているとき、他方の値はこの実例的に示されている関係に基づいて自動的に導出されることになる。代わりに、或る実施形態では、独立しているピーク相関閾値とＭを提供するのが望ましいこともある。

[0049]或る実施形では、高信頼は、大きいＭ（２乃至４或いは３又は約３）と広い信頼区間を有する傾向があろう。また、非常に強度の高いピーク（例えば、信号対ノイズ比が上昇している傾向のあるもの）については、信頼区間は狭くなる傾向があり、というのは、頂点位置の不確定さが非常に小さくなるだけの十分な数のイオンがあるからである。例えば、その頂点が時間２０に在るベース（又はサブクラスタ）についてシグマ乗数３を使用した場合、ピークは、幅が２、高さが２５６０、ピーク・ツー・ピークノイズが１０であり、そのとき信頼区間はベースピークの頂点位置について２０±０.３７５である。自身の信頼区間がベースピークの信頼区間と重なり合うサブクラスタ及び自身の基準ピークへの相関がユーザー指定によるピーク相関閾値より大きいサブクラスタは皆ひとまとめに因子へグループ化される（Ｓ３３４）。所望に応じ、何らかの残っているサブクラスタがある場合に残っているサブクラスタのうち最も強度の高いものが新しい因子についてのベースピークとして選択され、残っているサブクラスタがなくなるまで当該処理が繰り返される（Ｓ３３５）。この処理を通して作成される新しい因子の量は、共溶出化合物の量に関係している。第２パスは、実質的に等しい頂点位置を有してはいるが異なった形状を有する２つのピークがデコンボリューションされる方法を提供している。

[0050]上記と同時発生に、又は前に示されている因子識別の１つ、幾つか、又は全てが完了し次第、平均濃度プロファイルがそれぞれの因子について計算されており（Ｓ３４０）、図１０を参照されたし。それぞれの因子について平均濃度プロファイルを求めるのに、一例として、多変量曲線分解（ＭＣＲ）法が採用されてもよい。或る実施形では、因子の１つ又は全てについて、計算された平均濃度プロファイルがそれぞれの因子についての推定ピーク形状として使用される。随意的には、ベースピーク形状が、所望に応じ、因子の１つ又は全てについての推定ピーク形状として識別されてもよい。更に、２つの推定ピーク形状を使用し、計算された平均濃度プロファイルとベースピーク形状が因子の１つ又は全てに使用されるようにしてもよい。

[0051]平均濃度プロファイルの使用を通し、追加の望ましからざる因子を、平均濃度プロファイルのピーク品質（ＰＱ）の測定（Ｓ３５０）によって、更なる計算から抜かすことができる。或る実施形では、ＰＱは、それぞれの濃度プロファイルのフィットの残差の偏差を求めることによって計算することができる。異なった偏差方法が採用されてもよく、例えば、好適には二重ガウス系での標準偏差を使用することができる。或る実施形では、閾値ピーク品質（例えば、０．５）より小さいピーク品質は、データ及び引き続く計算から除去される（Ｓ３６０）。但し、ＰＱ閾値の選択及び偏差計算並びにそのための方法は、所望の結果に依存して変えられてもよく、本発明はそれによってその様に限定されるものではないと理解されたい。

[0052]図１に戻って、データを同位体及び付加体に関係している因子へ加え戻すことが望ましいであろう（Ｓ４００）。或る実施形では、生データは調べ直され、同位体及び付加体に関係していることが確信されるデータが選択され、次いで因子の全て又は選択されたものに対しての適性認定が行われる。因子に対する適性認定は、データが、閾値誤差率より小さい誤差率を有する最小相関より大きい相関を指し示している場合に起こるものとされていてもよい。或る実施形では、最小相関は０．９であり、誤差率は２０％である。データは、適性が認定されたなら、当該因子へ割り当てられる。

[0053]或る実施形では、同位体／付加体は、生データに対し典型的な同位体ｍ／ｚスペーシング及び付加体ｍ／ｚスペーシングを調べ直し、調べ直しに基づいて同位体／付加体を指し示すデータを抽出することによって、生データ中に識別できる。例えば、一価炭素含有化合物は、ｎ＝１,２,３,…として、大凡ｎ＊１．００３質量単位だけ間隔の空いた同位体を有しており、塩素化合物では、同位体は、典型的には、１．９９７質量単位だけ間隔が空いている。付加体については、分子が単一ナトリウムイオンを使用してイオン化された場合、それは、単一水素イオンによってイオン化された同じ分子から２１．９８２質量単位の質量シフトを有しているはずである。

[0054]更に、化合物の同位体／付加体は、近隣の共溶出因子と共に誤ってグループ化されてしまっているかもしれない（例えば、ノイズが原因で、同位体／付加体のピークは、その真のベースピークに対する相関よりも近隣のピークに対する相関の方が高くなっていることがある）。その様な同位体／付加体は、識別されたら、割り当て直されることが望ましいであろう。その様な誤ったグループ化を割り出して割り当て直す１つの方法は、或る因子をその近隣の（単数又は複数の）因子と比較することである。或る実施形では、近隣の因子を構成しているものの身元は、第１因子の濃度プロファイルと近接の因子のそれとの間の相関に基づいている。相関が最小相関より大きい場合には、当該因子は、近隣因子であって、潜在的に第１因子からの同位体又は付加体を含んでいる可能性があると識別される。或る実施形では、最小相関は０．９である。次に、近隣の因子が走査され、同位体／付加体が第１因子に属するとして適性認定された場合には、それらは第１因子へ割り当て直される。或る実施形では、この処理は、次に近接している因子について、相関が最小相関より小さくなるまで繰り返されることになる。因子と同位体／付加体の間の適性認定は、データが、閾値誤り率より小さい誤り率を有する最小相関より大きい相関を指し示している場合に起こるものとされていてもよい。或る実施形では、最小相関は０.９であり、誤り率は２０％である。この処理で、因子がその全ての構成要素を空にされたら、当該因子は除外される。この処理は、データの全て又は選択された部分に対し繰り返すことができる。

[0055]処理中は時として相関閾値が高すぎることが気付かれることもあろう。例えば、その様なことは、密接な共溶出化合物をデコンボリューションしようとしたせいで起こり得る。しかしながら、同位体及び付加体がこれほど高く相関していない場合には、不当に高い相関閾値のせいで因子分割が引き起こされることがある（即ち、単一の溶出化合物が１つより多い因子よってモデル化される事態となる）。因子がこの様に分割するのを防ぐのに役立つ１つの方法が図１４に示されている。或る因子内のベース同位体／付加体サブクラスタ（即ち、最も強度の高いもの）と当該因子内のその他のサブクラスタの間の相関の平均が計算され、「局所相関閾値」とされる（Ｓ６１０）。次に、或る因子の濃度プロファイルとこの因子の近隣の因子の間の相関が求められる（Ｓ６２０）。因子同士の間の相関が局所相関閾値より大きい場合には、当該２つの因子は併合される（Ｓ６３０）。この処理は、因子全てに亘って、それぞれの識別されたベース同位体／付加体サブクラスタについて繰り返されることになる。

[0056]ひとたび因子が識別され、因子について適切な推定濃度プロファイルが選択されたら、推定されたピーク形状が既知のパラメータを有する選択された曲線と比較される（Ｓ３７０）。或る実施形では、推定濃度プロファイルは、正規化され、次いで１つ又はそれ以上の事前に求められ事前に計算された曲線と比較される。正規化は、再サンプリング手続きを通して引き伸ばすこと又は縮めることによって提供することができる。

[0057]新しいデータと定義済みの曲線のセットの間の相関が次いで計算され（Ｓ３８０）、最適整合についての歪度値及び尖度値が、最適化のためのシードとして選択される（Ｓ３９０）。

[0058]或る実施形では、ピアソン関数を使用して、事前に計算されている曲線、好適にはピアソンＩＶ曲線が割り当てられている。ピアソンＩＶ曲線とは、５つのパラメータ、即ち、（ｉ）高さ、（ｉｉ）中心、（ｉｉｉ）幅、（ｉｖ）歪度（３次モーメント）（ｖ）尖度（４次モーメント）、を有しているものをいう。或る実施形では、事前に計算されている曲線は、歪度と尖度の少なくとも一方の順列であり、一方で、残りのパラメータは一定に保持されており、その後、ピーク形状が記録され、それぞれの順列について保存される。他の順列が利用されてもよく、だからといって特許請求の範囲はここに開示されている例示としての実施形に限定されるものではないと理解されたい。例えば、中でもとりわけ、中心、幅、及び尖度、並びに一定の値を保持する一方で、高さと歪度は変えられてもよい。

[0059]ここに記載されているシステム及び技法の様々な実施形は、デジタル電子回路構成、集積回路構成、特定設計ＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組合せ、に実現することができる。これらの様々な実施形は、特殊目的又は汎用のプロセッサであって、データ及び命令を受信するように、またデータ及び命令を送信するように、連結されている少なくとも１つのプログラム可能なプロセッサと、ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスと、を含んでいるプログラム可能なシステム上で実行可能及び／又は翻訳可能な１つ又はそれ以上のコンピュータプログラムでの実施形を含む。

[0060]これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとしても知られている）は、プログラム可能なプロセッサのための機械命令を含んでおり、高級手続き型及び／又はオブジェクト指向型プログラミング言語に、及び／又はアセンブリ／機械言語に、実装されてもよい。ここでの使用に際し、「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含め、機械命令及び／又はデータをプログラム可能なプロセッサへ提供するのに使用される何れのコンピュータプログラム製品、装置、及び／又はデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラム可能論理デバイス（ＰＬＤ））をも指す。「機械可読信号」という用語は、機械命令及び／又はデータをプログラム可能なプロセッサへ提供するのに使用される何れの信号をも指す。

[0061]ユーザーとの対話を提供するために、ここに記載のシステム及び技法は、情報をユーザーへ表示するためのディスプレイデバイス（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザーが入力をコンピュータへ提供できるようにするキーボード及びポインティングデバイス（例えば、マウス又はトラックボール）と、を有するコンピュータ上に実装することができる。ユーザーとの対話を提供するのに他の種類のデバイスを使用することもでき、例えば、ユーザーに提供されるフィードバックは、何らかの形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよいし、またユーザーからの入力は、音響入力、発話入力、又は触覚入力を含む何れの形態で受信されてもよい。

[0062]ここに記載のシステム及び技法は、バックエンド構成要素（例えば、データサーバとして）を含んでいるコンピューティングシステム、又はミドルウェア構成要素（例えば、アプリケーションサーバ）を含んでいるコンピューティングシステム、又はフロントエンド構成要素（例えば、グラフィックユーザーインターフェースを有するクライアントコンピュータ、又はユーザーがここに記載のシステム及び技法の実施形と対話できるようにするウェブブラウザ）を含んでいるコンピューティングシステム、又はその様なバックエンド、ミドルウェア、又はフロントエンドの構成要素の何らかの組合せを含んでいるコンピューティングシステム、に実装することができる。システムの構成要素は、何らかの形態又は何らかの媒体のデジタルデータ通信（例えば、通信ネットワーク）によって相互接続されていてもよい。通信ネットワークの例には、局所エリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）、及びインターネットが含まれる。

[0063]コンピューティングシステムは、クライアントとサーバを含んでいよう。クライアントとサーバは、概して互いから遠隔にあり、典型的には通信ネットワークを通じて対話している。クライアントとサーバの関係は、各々のコンピュータ上で実行していて互いにクライアント−サーバ関係を有しているコンピュータプログラムに基づいて発生する。

[0064]本明細書に記載の主題及び機能的動作の実施形は、デジタル電子回路構成に、又は本明細書に開示されている構造並びにそれらの構造的等価物を含むコンピュータソフトウェア、ファームウェア、又はハードウェアに、又はそれらの１つ又はそれ以上から成る組合せに、実装することができる。本明細書に記載されている主題の実施形は、１つ又はそれ以上のコンピュータプログラム製品として、即ち、データ処理装置による実行のために又はデータ処理装置の動作を制御するようにコンピュータ可読媒体上にエンコードされているコンピュータプログラム命令の１つ又はそれ以上のモジュールとして、実装することができる。コンピュータ可読媒体は、機械可読ストレージデバイス、機械可読ストレージ基板、メモリデバイス、機械可読伝搬信号を実効化する組成物、又はそれらの１つ又はそれ以上から成る組合せであってもよい。「データ処理装置」という用語は、一例としてプログラム可能なプロセッサ、コンピュータ、又は複数のプロセッサ又はコンピュータを含め、データを処理するためのあらゆる装置、デバイス、及び機械を網羅する。装置は、ハードウェアに加え、問題のコンピュータプログラムのための実行環境を作り出すコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらの１つ又はそれ以上から成る組合せ、を構成しているコードを含んでいてもよい。伝播信号は、適した受信側装置への送信に向けて情報をエンコードするために生成されている人工的に生成された信号、例えば、機械生成の電気信号、光信号、又は電磁信号である。

[0065]コンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られている）は、コンパイル又は翻訳された言語を含む何れの形態のプログラミング言語で書かれていてもよく、また、独立型プログラムとしての形態、又はモジュール、構成要素、サブルーチン、又はコンピューティング環境での使用に適した他のユニットとしての形態、を含む何れの形態に配備されていてもよい。コンピュータプログラムは、必ずしも、ファイルシステム中のファイルに対応しているわけではない。プログラムは、ファイルの他のプログラム又はデータを保持している部分に格納されていてもよいし（例えば、マークアップ言語文書に格納されている１つ又はそれ以上のスクリプト）、又は問題のプログラム専用の単一ファイルに格納されていてもよいし、又は複数の連係ファイルに格納されていてもよい（例えば、１つ又はそれ以上のモジュール、サブプログラム、又はコードの部分、を格納している複数ファイル）。コンピュータプログラムは、１つのコンピュータ上で実行されるように配備されていてもよいし、又は１つの現場に設置されているか又は複数の現場をまたいで分散されていて通信ネットワークによって相互接続されている複数のコンピュータ上で実行されるように配備されていてもよい。

[0066]本明細書に記載のプロセス及び論理フローは、１つ又はそれ以上のコンピュータプログラムを実行して入力データに対する動作及び出力の生成によって機能を遂行させる１つ又はそれ以上のプログラム可能なプロセッサによって遂行されてもよい。プロセス及び論理フローは、同様に、特殊目的論理回路構成、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）又はＡＳＩＣ（特定用途向け集積回路）によって遂行されてもよく、装置は、その様な論理回路構成として実装されてもよい。

[0067]コンピュータプログラムの実行に適したプロセッサには、一例として、汎用と特殊目的の両方のマイクロプロセッサ、及び何らかの種類のデジタルコンピュータの何れか１つ又はそれ以上のプロセッサが含まれる。概して、プロセッサは、読み出し専用メモリ又はランダムアクセスメモリ又はその両方から命令及びデータを受信することになろう。コンピュータの必須要素は、命令を遂行するためのプロセッサと、命令及びデータを格納するための１つ又はそれ以上のメモリデバイスである。概して、コンピュータは、更に、データを格納するための１つ又はそれ以上のマスストレージデバイス、例えば、磁気ディスク、光磁気ディスク、光ディスク、を含んでいるか、又はその様なマスストレージデバイスからデータを受信する又は当該デバイスへデータを送信する又はその両方を行うように動作可能に連結されることになろう。とはいえ、コンピュータはその様なデバイスを有していなくてもよい。また、コンピュータは、別のデバイス、例えば、ほんの数例を挙げるなら、移動体電話、パーソナルデジタルアシスタント（ＰＤＡ）、移動体オーディオプレーヤー、全地球測位システム（ＧＰＳ）受信機、に内蔵されていてもよい。コンピュータプログラム命令及びデータを格納するのに適したコンピュータ可読媒体には、あらゆる形態の不揮発性メモリ、媒体、及びメモリデバイスが含まれ、一例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイス；磁気ディスク、例えば、内部ハードディスク又はリムーバブルディスク；光磁気ディスク；及びＣＤＲＯＭ及びＤＶＤ−ＲＯＭディスク、が挙げられる。プロセッサ及びメモリは、特殊目的論理回路構成によって補完されていてもよいし、当該論理回路構成に組み込まれていてもよい。

[0068]ユーザーとの対話を提供するために、本明細書に記載されている主題の実施形は、情報をユーザーへ表示するためのディスプレイデバイス（例えば、ＣＲＴ（ブラウン管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、ユーザーが入力をコンピュータへ提供できるようにするキーボード及びポインティングデバイス、例えば、マウス又はトラックボールと、を有するコンピュータ上に実装することができる。ユーザーとの対話を提供するのに他の種類のデバイスを使用することもでき、例えば、ユーザーに提供されるフィードバックは、何らかの形態の感覚フィードバック、例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック、であってもよいし、またユーザーからの入力は、音響入力、発話入力、又は触覚入力を含む何れの形態で受信されてもよい。

[0069]本明細書は多くの詳細を含んでいるが、これらは本発明の範囲又は特許請求されるものの範囲への限定としてではなく、むしろ本発明の特定の実施形に固有の特徴の記述として解釈されたい。本明細書中に別々の実施形に照らして記載されている一部の特定の特徴は、更に、組み合わせて単一の実施形に実装することもできる。逆に、単一の実施形に照らして記載されている様々な特徴は、同様に、複数の実施形に別々に又は何らかの適した部分的組合せで実装することもできる。また、特徴は特定の組合せで作用するものとして以上に記載されているかもしれないし、更にはそういうものとして冒頭に特許請求されているかもしれないが、特許請求されている組合せからの１つ又はそれ以上の特徴は、場合によっては、当該組合せから削除されることもあり得るし、また特許請求されている組合せは、部分的組合せ又は部分的組合せの変型へ向けられてもよい。

[0070]同様に、動作は図面では特定の順序に描かれているが、このことは、その様な動作が示されている特定の順序で又は連続した順序で遂行されること、又は所望の結果を実現するのに例示されている動作全てが遂行されること、を要求しているものと理解されてはならない。一部の特定の状況では、マルチタスク処理及び並列処理が有利であるかもしれない。また、上述の実施形の様々なシステム構成要素の分離は、その様な分離が全ての実施形で要求されているものと理解されてはならず、また、記載のプログラム構成要素及びシステムは、概して、一体に単一のソフトウェア製品に統合することもできるし、又は複数のソフトウェア製品へパッケージ化することもできるものと理解されたい。

[0071]以上、数多くの実施形を説明してきた。とはいえ、本開示の精神及び範囲から逸脱することなく様々な修正がなされる余地のあることが理解されるであろう。例えば、以上に示されているフローの様々な形態は、諸段階を順序換えしたり、追加したり、或いは除去して使用されてもよい。また、本システム及び方法の幾つかの適用を説明してきたが、数々の他の適用が企図されるものと認識されたい。従って、他の実施形は、付随の特許請求の範囲による範囲内にある。

Claims

クロマトグラフィー質量分析法システムのためのデータ捕捉システムでの質量スペクトルに関係しているデータを処理する方法において、
前記データを処理して処理されたデータを生成する段階と、
前記処理されたデータを分析して、そこからノイズを抽出し、１つ又はそれ以上の溶出化合物について前記質量スペクトルの１つ又はそれ以上の構成要素であって同位体及び付加体及びフラグメントである構成要素をひとまとめにグループ化して、その様な化合物のそれぞれの解明に役立てる段階と、
前記処理されたデータに関係している結果を用意し提供する段階と、を備えている方法。
ノイズとして抽出されてしまっているかもしれない前記同位体及び前記付加体の少なくとも一方と関連付けられている情報を組み入れ直す段階、を更に備えている、請求項１の方法。
前記データは、長いクラスタと短いクラスタを含んでおり、前記処理する段階は、
前記長いクラスタを前記短いクラスタから分離する段階と、
前記データをフィルタ処理して当該データを平滑化し、それにより、フィルタ処理されたクラスタをもたらす段階と、
前記フィルタ処理されたクラスタをサブクラスタへ分ける段階と、
前記サブクラスタの適性認定を行って、そこから望ましからざるサブクラスタを抽出する段階と、を備えている、請求項１の方法。
前記分離する段階は、
前記データをブロックへ分離する段階と、
それぞれのブロックの中心のベースラインの強度を推定する段階と、
それぞれのブロックの等距離四分位点間を線形補間してベースライン推定を出す段階と、
前記ベースラインレベルより上のデータをクリップし、当該ベースラインより下のデータを温存する段階と、
前記クリップされたデータを平滑化して前記ベースラインの改善版を出す段階と、を更に備えている、請求項３の方法。
それぞれのブロックの長さは、前記データの期待半値全幅（full-width half height）の倍数である、請求項４の方法。
それぞれのブロックの長さは、前記データの期待半値全幅の５倍と推定されている、請求項４の方法。
前記平滑化する段階は、Ｓａｖｉｔｚｋｙ−Ｇｏｌａｙ平滑化アルゴリズムの適用を伴っている、請求項４の方法。
ブロックの中心のベースラインの前記強度の推定は、前記ブロックの下四分位の前記ベースラインの強度に基づいている、請求項４の方法。
前記適性認定段階は、
閾値信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタを選択する段階と、
閾値品質より大きいピーク形状を有するサブクラスタを選択する段階と、
最小クラスタ長さを有するサブクラスタを選択する段階と、のうちの少なくとも１つを備えている、請求項３の方法。
前記閾値信号対ノイズ比は１０である、請求項９の方法。
前記ノイズは、四分の一（１／４）イオン面積の事前に定義されている捕捉ノイズである、請求項９の方法。
前記ノイズは、前記元のクラスタデータと前記平滑化されたクラスタデータの間の残差の標準偏差である、請求項９の方法。
前記閾値信号対ノイズ比より大きい信号対ノイズ比を有するサブクラスタは、それらが同位体又は付加体である場合には、なお前記因子分析で使用される、請求項９の方法。
サブクラスタの前記ベースラインをピークの左右の側からトリミングする段階、を更に備えている、請求項９の方法。
前記トリミングする段階は、
前記サブクラスタ内の生データを両端から中心へ向かって走査する段階と、
各端での前記強度が閾値より上に立ち上がっている場所を新しい端点として識別する段階と、
前記新しい端点の外側の前記データを捨てる段階と、を更に備えている、請求項１４の方法。
前記閾値は、前記サブクラスタの標準偏差の４倍である、請求項１５の方法。
前記閾値品質は、前記サブクラスタのフィッティングと事前に定義されている曲線の間の相関に基づいている、請求項９の方法。
前記事前に定義されている曲線は、二重ガウス（bi-Gaussian）曲線である、請求項１７の方法。
前記閾値相関は０．６である、請求項１７の方法。
前記閾値相関は０．８である、請求項１８の方法。
前記フィルタ処理する段階は、有限インパルス応答フィルタを利用している、請求項３の方法。
前記フィルタ処理する段階は、
前記データ内に最も大きいピークを識別する段階と、
前記識別されたピークの前記半値全幅を推定する段階と、
前記推定された半値全幅をルックアップ表と突き合わせて１つ又はそれ以上の最適化されているフィルタ係数を識別する段階と、
前記最適化されているフィルタ係数に基づいて前記データを平滑化する段階と、
それぞれのクラスタについてノイズ指数を識別する段階と、を備えている、請求項３の方法。
前記最適化されているフィルタ係数は、順逆二次有限インパルス応答フィルタ係数のセットである、請求項２２の方法。
前記ノイズ指数は、前記平滑データと前記生データの間の残差の標準偏差である、請求項２３の方法。
前記ノイズ指数は、或るクラスタから導出されている前記サブクラスタのそれぞれへ割り当てられる、請求項２４の方法。
前記最適化されている係数は、次の段階、即ち、
ガウスピークをそれぞれの期待半値全幅で形成する段階と、
前記ガウスピークへノイズを加え、それにより、ノイズのあるガウスピークをもたらす段階と、
前記フィルタ係数を調整するべく、前記ガウスピークを、前記ノイズのあるガウスピークと前記ガウスピークの間の残差を実質的に最小化する方式で最適化する段階と、に従って計算される、請求項２３の方法。
前記最適化する段階は、非線形Ｌｅｖｅｎｂｕｒｇ−Ｍａｒｑｕａｒｄｔ処理を利用している、請求項２６の方法。
前記クラスタはピークと谷を有しており、前記分ける段階は、
フィルタ処理されたクラスタ内に、２つのピークの間に位置する谷が前記２つのピークの定義されている強度より小さい最小点を有しているそれぞれのインスタンスを識別する段階と、
仮にあれば、それぞれの識別されたインスタンスに基づいて、前記クラスタをサブクラスタへ分離する段階と、を更に備えている、請求項３の方法。
前記定義されている強度は、前記２つのピークの一方又は両方の前記強度の二分の一又は約二分の一である、請求項２０に記載の方法。
前記分析する段階は、
因子分析にとって有意な因子を求める段階と、
それらの因子の初期シード推定を提供する段階と、を更に備えている、請求項３に記載の方法。
下四分位ピークを除外する段階、を更に備えている、請求項３０に記載の方法。
前記分析する段階は、
前記データの間でベースピークを選択する段階と、
全ての局所データを評価して、それらを前記ベースピークと相関付ける段階と、
既定の最小相関値を有する局所データを前記ベースピークと組み合わせて因子を作成する段階と、
前記因子について前記スペクトルを推定する段階と、を更に備えている、請求項３に記載の方法。
前記ベースピークは手動で選択されている、請求項３２に記載の方法。
前記データセットの中で最も強度の高いサブクラスタピークが前記ベースピークとして選択されている、請求項３２に記載の方法。
前記最小相関値は０．６である、請求項３２に記載の方法。
Ａ）ひとたび前記ベースピークが識別されたら、残っているデータの中で次に最も強度の高いピークを次の因子として選択する段階と、
Ｂ）前記（Ａ）段階が完了し次第、残っているデータの中で次に最も強度の高いピークを次の因子として選択する段階と、
Ｃ）前記（Ｂ）段階を、全てのサブクラスタが因子を割り当てられるまで繰り返す段階と、を更に備えている、請求項３４に記載の方法。
相関閾値と関係している信頼区間の一方又は両方を比較して、前記組み合わせる段階で組み合わされた前記局所データで組み合わされるべきではなかった局所データを、別々の因子へ分離する段階を、更に備えている、請求項３２に記載の方法。
前記比較する段階は、
前記因子の中で最も強度の高いサブクラスタを選択する段階と、
前記ベースサブクラスタと前記因子の中のその他のサブクラスタのうちの少なくとも１つの間の相関を求める段階と、
前記サブクラスタの少なくとも１つについて頂点位置信頼区間を求める段階と、
（ｉ）重なり合うベースピークと、（ｉｉ）前記ベースピークへの相関で定義されている相関閾値より大きい相関と、を有するサブクラスタをひとまとめにグループ化する段階であって、前記グループ化のそれぞれは因子である、グループ化する段階と、を更に備えている、請求項３６に記載の方法。
それぞれの因子についての平均濃度プロファイルを計算する段階を、更に備えている、請求項３６に記載の方法。
前記計算する段階は、それぞれの因子についての前記平均濃度プロファイルを求めるのに多変量曲線分解法を利用している、請求項３８に記載の方法。
計算された前記平均濃度プロファイルは、それぞれの因子についての推定されたピーク形状として使用される、請求項３９に記載に方法。
前記平均濃度プロファイルの前記ピーク品質を測定する段階と、
閾値ピーク品質より小さいピーク品質を有するデータを除去する段階と、を更に備えている、請求項３８に記載の方法。
前記測定する段階は、それぞれの濃度プロファイルのフィットの残差の偏差を求めることによって計算されている、請求項４１に記載の方法。
前記偏差は、二重ガウス系での標準偏差である、請求項４２に記載の方法。
前記閾値ピーク品質は０．５である、請求項４１に記載の方法。
前記入力相関パラメータは手動入力されている、請求項４４に記載の方法。
前記推定されたピーク形状を、少なくとも１つの事前に選択されている曲線と比較する段階を、更に備えている、請求項４０に記載の方法。
前記推定されたピーク形状を、前記比較する段階に先立って正規化して、正規化された推定ピーク形状を定義する段階を、更に備えている、請求項４６に記載の方法。
前記正規化する段階は、前記推定されたピーク形状を、再サンプリング手続きを通して引き伸すか又は縮めるかのうち少なくとも一方を行い、次いで中心合わせして、前記少なくとも１つの事前に選択されている曲線の幅と中心に整合させる段階、を含んでいる、請求項４７に記載の方法。
前記正規化されたピーク形状と前記少なくとも１つの事前に選択されている曲線の間の相関を計算する段階を、更に備えている、請求項４７に記載の方法。
前記最適整合についての歪度値及び尖度値が前記最適化のためのシードとして選択されている、請求項４９に記載の方法。
前記少なくとも１つの事前に選択されている曲線は、ピアソンＩＶ関数から生成されている、請求項４６に記載の方法。
前記少なくとも１つの事前に選択されている曲線は前記歪度と前記尖度の少なくとも一方の順列であり、一方、残りのパラメータは一定に維持されており、その後、前記ピーク形状が記録され、それぞれの順列について保存される、請求項５１に記載の方法。
同位体と付加体の一方又は両方と関連付けられている情報を求めて前記データを調べ直す段階と、
前記関連付けられているデータを選択する段階と、
前記関連付けられているデータの適性認定を行う段階と、
前記関連付けられているデータが適性を認定された場合、それを因子へ割り当てる段階と、を更に備えている、請求項１の方法。
前記適性認定を行う段階は、
因子に対して前記データの相関を計算する段階と、
前記相関が前記最小相関より大きい場合は、それを因子へ割り当てる段階と、を備えている、請求項５３の方法。
前記最小相関は０．９である、請求項５４の方法。
因子を誤ってグループ化されている同位体／付加体を識別する段階と、
その様な識別された同位体／付加体を正しい因子へ割り当て直す段階と、を
更に備えている、請求項３６の方法。
前記識別する段階は、
因子の濃度プロファイルを近隣の因子の濃度プロファイルに比較して相関を識別する段階と、
第１の因子の前記濃度プロファイルと近隣の因子のそれとの間の前記相関が閾値相関より大きい場合は、前記第１の因子からの同位体／付加体突き止めに対し前記近隣の因子を調べ直す段階と、
前記調べ直す段階に基づいて、前記同位体／付加体を前記第１の因子へ割り当て直す段階と、を備えている、請求項５６の方法。
前記閾値相関は０．９である、請求項５７の方法。
前記相関パラメータは、ユーザーによって定義されている、請求項３６の方法。
因子分割を防止する段階を、更に備えている、請求項３６の方法。
前記防止する段階は、
或る因子内のベース同位体／付加体サブクラスタと前記因子内のその他のサブクラスタの間の平均相関に基づく局所相関閾値を求める段階と、
前記因子と近接の因子の前記濃度プロファイルを相関付ける段階と、
前記相関が局所相関閾値より大きい場合は、前記因子と前記近接の因子を併合する段階と、を更に備えている、請求項６０の方法。
因子が併合される場合、前記因子と次に近接している因子との前記濃度プロファイルの相関付け段階、を更に備えている、請求項６１の方法。
前記閾値相関は０．９である、請求項６１の方法。
前記最小クラスタ長さは５スティックである、請求項９の方法。