JP4679438B2

JP4679438B2 - 品質スペクトルの自動検出

Info

Publication number: JP4679438B2
Application number: JP2006153999A
Authority: JP
Inventors: ゴールドバーグディヴィッド; ダブリューバーンマーシャル; アールイェイツザサードジョン
Original assignee: パロアルトリサーチセンターインコーポレイテッド; ザスクリプスリサーチインスティチュート
Priority date: 2005-05-05
Filing date: 2006-05-02
Publication date: 2011-04-27
Anticipated expiration: 2026-05-02
Also published as: JP2006317457A; US7230235B2; EP1720114A1; US20060249667A1

Description

本出願は、限定されたプールから引き出されたマスを有するモノマーからなるポリマーに向けられる。

モノマーが限定されたアミノ酸の組（典型的には約２０）であるペプチド、又はモノマーが小さな単糖類の組（典型的には約５）である場合のグリカンが例となる。より特定的には、本出願は、こうした分子から生成されるマスフラグメントスペクトルの自動品質評価に向けられる。自動品質評価の詳細は、タンデムマス分光計（ＭＳ／ＭＳ）の使用によって生成されるペプチドのスペクトルに着目して説明される。他の技術を使用して、実質的に同様の結果を得ることもできることを認識すべきである。以下の説明では、ペプチド分析について述べるが、本出願の概念は、他のポリマーに適用可能であることを理解すべきである。本出願の概念は、フラグメントスペクトルを形成することができる他の分子にも適用することができる。

本出願は、スペクトルのピーク対の差異を用いて算出される、マスフラグメントスペクトルの品質を求めるシステム及び／又は方法を提供する。

以下の説明では、スペクトルを識別プロセスに与える等のさらに別の処理の前に、マスフラグメントスペクトルの品質を評価するフィルタに着目する。フィルタ処理は、比較的良好なスペクトルを確実にする際に助けとなり、データベース検索の識別プログラム（中でも、ＳＥＱＵＥＳＴ及びＭａｓｃｏｔ等）又はｄｅｎｏｖｏ配列決定プログラム（Ｌｕｔｅｆｉｓｋ等）のような時間のかかる付加的な処理ステップに送られる。さらに、フィルタのアルゴリズムを用いて、変換後修正データベースをもつＳＥＱＵＥＳＴ、ＧｕｔｅｎＴａｇを用いた部分配列識別のようなさらに時間のかかる分析を保証する高品質スペクトルを識別することもできる。
以下に説明される種々のフィルタは、不良なスペクトルのおよそ７５％又はそれ以上を除去し、高品質（識別可能な）スペクトルはおよそ１０％だけ損失することを示す。

さらに、ペプチド識別の１０％の損失は、タンパク質の識別数において、より小さな損失を負うことも判明した。クラミジア・プロテオームの大規模な研究において、従来技術に基づくフィルタの後に連続して適用される本特許において開示される種類のフィルタは、正しいペプチド識別の５％及び正しいタンパク質識別の３％を損失するに過ぎない。これは、単純なフィルタにより除去されるものを上回り、不良なスペクトルの付加的な４４％を除去して、その結果、コンピュータ処理能力をほぼ２倍に改善し、大きい多種の「誤った選択肢」データベースを検索する場合に、不正確な（クラミジアではない）ペプチド及びタンパク質の識別数を減少させた（それぞれ８％及び１２％だけ）。
例示的な本実施形態の一態様においては、マスフラグメントスペクトル又はこうしたスペクトルの一部にアクセスするステップを与えるコンピュータにより制御されるフィルタ処理方法が記載される。この場合、スペクトルのピーク差異に応じたデータ構造（アレイ等）が構築され、この構築されたデータ構造に応じたスペクトルが選択される。

別の例示的な実施形態では、マスフラグメントスペクトルの一部にアクセスするステップを与えるコンピュータにより制御されるフィルタ処理方法に向けられる。この場合、スペクトルの強度バランスに応じた特徴ベクトルが構築され、この構築されたアレイに応じてスペクトルが選択される。
図１は、タンデムマス分光計のデータをタンパク質配列ライブラリからの配列と相関させるプロセスのブロック図である。図１は、フィルタをどこに使用することができるかについての一例を示す。フィルタは、さらに、品質スペクトルを使用する必要がある統計分析、並びに、本発明によりここで可能になる将来の用途等の他の用途に使用することもできる。このプロセスでは、スペクトルと配列ライブラリとの間の比較の前に、フィルタ処理作用を行うようにフィルタを組み込む。分析のための材料の入力は、未知のペプチド試料１０であり、これらに限定されるものではないが、多糖類、脂質、又はポリヌクレオチドを含む他の試料とすることができる。典型的には、ペプチドは、一部が断片化したタンパク質を分離するのに使用されたクロマトグラフィの列から出力される。タンパク質は、例えば、ゲル濾過クロマトグラフィ及び／又は高性能液体クロマトグラフィ（ＨＰＬＣ）により断片化することができる。試料１０は、電気噴霧イオン化（ＥＳ）等のイオン化法によって、タンデムマス分光計１２に導入される。第１のマス分光計１４において、ペプチド・イオンが選択されて、特定のマスの目標とされる成分が、試料１０の残りから分離される。目標とされる成分は、活性化させられるか又は分解される。ペプチドの場合は、結果として、イオン化された親ペプチド（「先駆体イオン」）と種々の状態にイオン化されるより低いマスの成分ペプチドとの混合物がもたらされる。衝突誘起解離（ＣＩＤ）、電子捕獲解離、マトリックス支援レーザ脱離／イオン化解離等を含む多数の活性化法を使用することができる。

親ペプチド及びそのフラグメントは、第２のマス分光計１６に与えられ、このマス分光計が、フラグメント混合物中の複数のフラグメントごとの強度及びマス電荷比（ｍ／ｚ）を出力する。この情報は、フラグメントマススペクトル１８として出力されて、各々のフラグメントは、横座標値がマス電荷比（ｍ／ｚ）を示し、縦座標値が強度を示すヒストグラムとして表される。スペクトルは、様々なもののうちの１つとすることができるフィルタ２０に供給される。フィルタ２０は、スペクトルを分析して分類し、許容可能と判断されたスペクトルは、分子について１つ又はそれ以上のタンパク質配列を生成するシーケンサ２１（例えば、データベース・シーケンサ又はｄｅｎｏｖｏシーケンサ）に送られる。多くの場合、タンパク質配列を検証することができる。例えば、データベース・シーケンサを用いて、タンパク質配列をタンパク質配列ライブラリからの配列と比べることができる。
追って説明するフィルタを生成する際に、６８，９７８のタンデムマススペクトルは、４つの異なるプロテアーゼ（トリプシン、エラスターゼ、スブチリシン、及びプロテイナーゼＫ）で消化された５つのタンパク質（ウサギ・ホスホリラーゼａ、ウマ・シトクロムｃ、ウマ・アポミオグロビン、ウシ血清アルブミン、及びウシβ−カゼイン）の公知の混合物から取得された。６８，９７８のスペクトルのうち、５，６７８が「良好」と表示が付され、これは、９０７，６５４の入力項目をもつ全米バイオテクノロジ情報センター（ＮＣＢＩ）の非冗長的なタンパク質データベースに対するＳＥＱＵＥＳＴ検索により、混合物中の５つのタンパク質の１つ、又はケラチン若しくは消化に用いられる酵素の１つのような汚染物質と思われるものと整合することを意味する。他の６３，３００のスペクトルは「不良」と表示が付されたが、これらのうちの幾つかは、変異又は改質ペプチドの高品質スペクトルであった。「不良な」スペクトルのこうした大きな割合は、ＨＰＬＣに典型的なものであり、そこで、溶出されたペプチドは、マス分光計の中に連続して電気噴霧される。スペクトル検査に使用することができる１つのＭＳ装置は、ｍ／ｚ（電荷上マス）がカット・オフから２００ないし３００デカまでであり、１０００までのｍ／ｚにおいて解像度が０．３デカまでであるイオン・トラップ装置である。他のＭＳ装置もまた用いることもできる。デカは、単位電荷当たりのダルトンの代わりに略式で書かれるものである。
Ｉ．強度の正規化

ここでは、すべてのＭＳ／ＭＳ分析プロセスに共通する問題、すなわちスペクトル内で生成されるピーク強度に注意が向けられる。ピーク強度は、スペクトル間で極めて変化しやすいものとして広く認識されている。従って、これまでに、例えば、配列データベースとの比較に用いられるアルゴリズムにおいて用いるための強度情報を正規化する合意された手順は存在していなかった。強度に基づく採点は、それ自体の課題の組を提示する。未処理の強度は、最大強度及び合計強度が「良好な」データの群分けの中で２又は３のオーダーの大きさにわたり変化するため、使用するにはあまりに変化が大きすぎる。単一の高いピーク又はノイズ・ピークの低いバックグラウンドは、多くの場合、２又は３倍だけ値をシフトさせるので、相対強度（すなわち、合計強度により除算された未処理の強度）の方が良いとはいえ、やはり極めて変化しやすい。

発明者は、スペクトルのピーク強度を順位付けする手順を実施することによって、強度の変動を最小限にした。これらの順位付けの生成に続いて、相対強度と順位に基づく強度との間で試験を行った。結果を、図２に示す。凹凸の増加する曲線２８は、所与の相対強度のピークがｂイオン又はｙイオンになる確率を示す。この線については、ｘ軸は、百分率の１００分の１であり、すなわち、５０は、このピークにおける合計イオン強度の０．５％であることを意味する。ビンのサイズは、順位曲線３０とおよそ同じ０．１ないし０．８の範囲にわたり延びる曲線を供給するように選ばれた。ｙ軸は、（＃ｂ＋＃ｙ）／（＃ｂ＋＃ｙ＋＃？）を示し、ここで、＃ｂは（１４１６の識別されたスペクトルからの）所与の強度のｂイオンのピーク数であり、＃ｙはｙイオンのピーク数であり、＃？は識別されていないピーク数である。他の識別されたピーク（同位体、ａイオン、水分又はアンモニア損失、内部フラグメント）は、確率の勘定に入れられなかった。より凹凸が少ない、減少する順位曲線３０は、所与の順位のピーク（順位１＝最も強い）がｂイオン又はｙイオンになる確率を示す。滑らかな曲線３２は、比較のために示される指数関数である。順位に基づく強度の正規化（すなわち、順位曲線３０）の方が、相対強度（すなわち、相対強度曲線２８）より凹凸が少ない曲線を与えるという事実は、順位に基づく強度の正規化の使用により、確率推定が改善する（より変動が少ない）ことを示す。

図２は、順位強度及び相対強度が、訓練の組における「良好な」スペクトル上で算出されたピーク品質の事後値とどれだけ良好に相関するか、すなわち、ピークがｂイオン又はｙイオンである確率を示す。各々のスペクトルは、すべての順位（少なくとも順位２００あたりまで）のピークを有するが、スペクトルは相対強度がかなり異なり、そのため、順位による確率推定は、相対強度による推定より、はるかに低い変動を有する。強度における順位についてのこうした利点が、確率に基づく採点及び特徴にまで及ぶ。
図２は、順位を用いるための特に単純な方法を正当化するものである。上述のように、順位対確率のグラフは、負の指数関数に極めて良好に適合する。このように、この文献において支持されている、確率的な採点関数に対するピークｘの寄与は、ピークがｂイオン及びｙイオンである寄与の合計が、定数にログ尤度を加えたものに等しくなるように、定数に１／Ｒａｎｋ（ｘ）を加えたもに比例すると考えられる。従って、最大の堅牢性については、相対強度ではなく、順位に基づく強度の正規化が、フィルタの生成に用いるのに選択され、そこでは、最も強いピークが順位＝１、２番目に強いものが順位＝２等を有する。

図３は、本出願によるフィルタ処理作用についての上位のフロー図を示す。以下に詳細に説明されるように、このフロー図は、スペクトル識別技術と関連させて「良好な」入力スペクトルと「不良な」入力スペクトルデータとを区別するために使用することができる。一般に、「良好」と判断される入力スペクトルは、関心のあるポリマーに対応するスペクトルのことを指し、「不良」と判断される入力スペクトルは、このポリマーに対応しないスペクトルのことを指す。以下は、説明の目的で与えられるものであり、限定するものではないことを認識すべきである。
ステップ３６において、入力スペクトルデータを取得する。或る場合においては、入力スペクトルデータは、種々の長さのペプチド等の、より小さい断片に消化されたタンパク質を含む。より小さい断片は、それぞれの断片についてスペクトルを生成するタンデムマス分光計（ＭＳ／ＭＳ）に与えることができる。他の態様においては、入力スペクトルデータは、スペクトルによって表すことができる他のエンティティと関連付けることができる。さらに、入力スペクトルデータは、ステップ３６において、個別の試料の状態で及び／又はストリームとして与えることができる。ステップ３８において、入力スペクトルデータを、ｎ次元空間内に位置決めする。ここで説明されるように、様々に成形された決定表面は、訓練によって、例えば公知の「良好な」及び「不良な」データをもつ１つ又はそれ以上の訓練の組によって、ｎ次元空間について生成することができる。こうした訓練は、ステップ３８において、入力スペクトルデータを受信する前に実行することができる。別の態様においては、こうした表面を生成し、（例えば、ファイルとして）保存し、必要なときに検索することができる。ステップ４０において、入力スペクトルデータが上述の表面に関して、ｎ次元空間内のその位置の関数として「良好な」データであるか又は「不良な」データであるかについて判断がなされる。例えば、入力スペクトルデータは、ｎ次元空間の「良好な」（又は「ＯＫ」）領域内にあるときに「良好な」データと表示を付すことができ、入力スペクトルデータが、ｎ次元空間の「良好な」領域内にないときには「不良な」データと表示を付すことができる。ステップ４２において、「良好」と判断された入力スペクトルデータは、（例えば、ＳＥＱＵＥＳＴにより）図１と関連させて説明された配列データベースについてのスペクトルの比較／識別のように、さらに処理することができる。「不良」と判断された入力スペクトルデータは、無視、破棄、削除する等してよい。図３においては、入力スペクトルデータの後に続く試料及び／又はストリームについて、これらのステップを繰り返すことができる。

図３で説明されたステップは、図４に示すように、付加的に又は代替的に、状態機械として示すことができる。状態４４は待機状態を表し、ここでは、状態機械が（例えば、所定の間隔で）ポーリングして、入力スペクトルデータが使用可能であるか、及び／又は、例えばイベント、割り込み等によって通知されるまでアイドル状態でいることができるかどうか判断することができる。入力スペクトルデータが使用可能になった場合には、状態機械は状態４６に移行して、入力スペクトルデータを、例えばこの入力スペクトルデータを読み取ることによって取得することができる。入力スペクトルデータは、ブロック（例えば、一度に８バイトずつ）として読み取られて、１つ又はそれ以上のブロックが、同時に及び／又は連続的に分析される。入力スペクトルデータの適当な部分（例えば、１つのブロック、２つのブロック、ストリーム全体等）が取得された場合には、状態機械は状態４８に移行し、入力スペクトルデータが分析されて、「良好な」データ（例えば、ｎ次元空間の「良好な」領域に位置している）であるか又は「不良な」データ（例えば、ｎ次元空間の「良好な」領域に位置していない）であるかが判断される。入力スペクトルデータが「不良な」データであると判断された場合には、状態機械は状態４４に戻るように移行して、次の使用可能な入力スペクトルデータを待機する。入力スペクトルデータが「良好な」データであると判断された場合には、図１に関連して説明された配列データベースについてのスペクトルの比較／識別等のために、この「良好な」データは、格納されるか又は分析される。状態機械は、状態４４に戻るように移行して、次の使用可能な入力スペクトルデータを待機する。幾つかの実施形態においては、良好／不良の結果値が生成される。この値は、試料の良好又は不良の表示を与えることができる。

入力スペクトルデータが「良好」であるか又は「不良」であるかを判断するために図３で使用された表面は、訓練によって生成することができる。図５は、例示的な訓練手法を示す上位のフロー図を示す。ステップ５２において、訓練データが与えられる。訓練データは、フィルタにより作動させることができる任意の適切なデータとすることができる。訓練データは、「良好な」データ及び「不良な」データの１つ又はそれ以上の組を含むことができる。ステップ５４において、訓練データを使用して、ｎ次元（又は多次元）空間内に表面を生成する。ステップ５６において、表面を保存し、次いで採用して、スペクトルを整合させる場合、処理能力及び堅牢性を改善するスペクトルデータベースの検索中に、「不良な」データの使用を減少させるために、入力スペクトルデータが「良好」であるか又は「不良」であるかを判断することを容易にすることができる。或いは、表面を生成し、使用して、破棄することができる。
以下は、図３ないし図５の１つ又はそれ以上と関連させて説明されたステップの１つ又はそれ以上を実施するのに使用することができる例示的な擬似コードを与える。
Ｍａｉｎ｛
ｇｌｏｂａｌｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌ＿ｓｐａｃｅｓｕｒｆａｃｅ[]；
ｓｐｅｃｔｒｕｍ＿ｂｕｆｆｅｒ[]；
ｓｕｒｆａｃｅ＝ｔｒａｉｎ（ｔｒａｉｎｉｎｇ＿ｓａｍｐｌｅｓ）；
ｗｈｉｌｅｔｒｕｅ｛
ｓｐｅｃｔｒｕｍ＿ｂｕｆｆｅｒ＝ｒｅａｄ（ｉｎｐｕｔ＿ｓｐｅｃｔｒｕｍ）；
ｉｆ（ｓｐｅｃｔｒｕｍ＿ＯＫ（ｓｐｅｃｔｒｕｍ＿ｂｕｆｆｅｒ，ｓｕｒｆａｃｅ））ｗｒｉｔｅ（ｓｐｅｃｔｒｕｍ＿ｂｕｆｆｅｒ）；
｝
｝
擬似コード・リスト１

擬似コード・リスト１は、スペクトルのストリームから幾つかのスペクトルを選択し、他のスペクトルを破棄するフィルタを示すが、当業者であれば、別の実施形態は（スペクトルをフィルタ処理する代わりに）各々のスペクトル品質を格付けし、この品質の格付けを各々のスペクトルと関連付けることができることを理解するであろう。後に続くスペクトル処理は、他のスペクトル特性と併せて品質の格付けを考慮することができる。
擬似コード・リスト１に注意して、任意の関数「訓練」は、入力を受け取り、ｎ次元空間内に表面を生成することができる。この関数は、ここで生成されるものではなく、以前に生成された表面を記憶装置（例えば、メモリ、ディスク、ＣＤ等）から読み取ることができるという点で任意的である。例えば、フィルタを最初に訓練して、表面を記憶装置（例えば、ファイル）に保存して、後に続くフィルタの呼び出しにおいて、以前に保存されたファイルから、フィルタにより、この表面を入力することができる。擬似コードは、好適な表面が既に存在するかどうかをチェックして判断する付加的な記述（図示せず）を含むことができる。既存の表面又は新たに生成された表面のいずれかを使用することができる。別の例では、訓練関数を呼び出すべきかどうかを示すフラッグを、引数として又は（例えば、オブジェクト指向プログラミング法の）コンストラクタによって送ることができる。表面が取得されるか又は定められる（すなわち、フィルタが訓練される）と、フィルタは、入力スペクトルデータを読み取り、（スペクトル・バッファ内の）この入力スペクトルデータが表面の関数としてｎ次元空間の「良好な」領域内にあるかどうか判断する。次いで、試験されるスペクトルが「良好」（すなわち、「ＯＫ」）であると判断された場合には、さらに別の識別動作に使用されるべきスペクトルデータが書き込まれる（又は送られる）。訓練データは、良好又は不良の分類を与えられた、以前に分析されたスペクトルである。訓練データは、スペクトル分析プログラムにより生成される「良好」又は「不良」の値を含むことができる。

図２及び擬似コードに関する上記の説明は、主として、バイナリ・フィルタと考えることができるものの概念に向けられている。具体的には、表面はｎ次元空間にあり、この表面の「良好な」側にある点により表されるスペクトルは、さらに別の処理に送られるのに対して、「不良な」側にある点を表すスペクトルは、不良であるとして破棄、無視、フラッグ付けされる等になる。図２及び擬似コード・リスト１は、さらに、統計回帰法に適用して、連続する品質メトリックを生成することができることを認識すべきである。
回帰法を使用する場合には、訓練データは、各々の訓練データのスペクトル上に連続する品質採点を有する。この方法は、この訓練データから回帰関数を生成し、新規なスペクトルが与えられると、訓練データと一致する品質採点を割り当てる。

本実施形態においては、ｎ次元空間内の点には、この点により表されるスペクトルの「品質」を表す数値が割り当てられる。例えば、本実施形態においては、点には、訓練データに関する点の品質を表す数字をもつ値が割り当てられてもよい。
フィルタがバイナリ又は連続する品質メトリック型のものであるかどうかにかかわらず、概して、これらのフィルタを生成するのに２つの手法が存在する。第１の手法が、専門知識を組み込む多数の特化された特徴を考案するものであるのに対して、代替的手法は、これらに限定されるものではないが、訓練データから学習することができる、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ（ＳＶＭ）、ＳｕｐｐｏｒｔＶｅｃｔｏｒＲｅｇｒｅｓｓｉｏｎ（ＳＶＲ）及びＮｅｕｒａｌＮｅｔｗｏｒｋｓ（ＮＮ）等の学習モデル又は分類アルゴリズムに、あまり処理されていない高次元データを供給するものである。
ＩＩ．特化された特徴を用いた分類

ここでは、フィルタへの入力として特化された特徴と、以下の式による正規化された強度：
Ｎｏｒｍ／（ｘ）＝ｍａｘ｛０，Ｃ₁−（Ｃ₂／ＭａｘｍＺ）・Ｒａｎｋ（ｘ）｝
を用いることに注目し、ここで、ＭａｘｍＺは、スペクトル内の最大有効ｍ／ｚ値であり、Ｃ₁及びＣ₂は定数である。ＭａｘｍＺは、一般に、より多いピークが、より長いペプチドに考慮されることを意味する。
特徴ごとのＣ₁及びＣ₂の値は、訓練の組において「良好」と「不良」との間の最良の区別を与えたＣ₁及びＣ₂の値を選出することによって別々に学習された。例えば、Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ特徴については、Ｃ₁＝２８及びＣ₂＝４００であり、典型的な値であるＭａｘｍＺ＝２０００のときに、Ｒａｎｋ（ｘ）が＃１４０である場合には、Ｎｏｒｍ／（ｘ）がゼロより大きいことを意味する。一般に、フィルタを作る際には、Ｃ₁及びＣ₂は、はるかに低い順位のピークを使用する、追って説明する同位体特徴を除いては、異なる特徴についてほぼ同じであった。或るピークが別のピークに対して適切なｍ／ｚ及び強度を有し、ピークの尤度を増加させるという事実は、有意義であるように見える。これは、どのように順位を品質フィルタに組み込むかについての一例に過ぎない。

各々のスペクトルは、特徴データ構造にマップすることができる。好適なデータ構造の例には、ｎ次元アレイ、ベクトル、及びデータ・レコードが含まれる。アレイの参照は、ここで開示される実施形態により使用することができる、データを構造化する多くの方法のうちの１つである。「ベクトル」及び「アレイ」は、プログラムされた手順又は関数の呼び出しにおいて別個の変数を関連付けることを含むフィルタ処理関数を実行する等価な実施形態により用いることができるデータ表現のいずれかを表す。
以下は、７次元データ構造（ｆ₁，ｆ₂，．．．，ｆ₇）、７次元空間（Ｒ⁷）内の点について述べ、ここで、ｆ_iは、下記のｉ番目の特徴値である。以下は、７次元空間より小さい又はこれより大きい次元空間において実施することができるものであり、しかも、７つの特徴により表される７次元空間より大きい又は小さい次元空間において用いるために、本出願の概念により他の特徴を生成することができ、Ｎｐｅａｋｓの特徴１（ｆ₁）、ＴｏｔａｌＩｎｔｅｎｓｉｔｙの特徴２（ｆ₂）、Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎの特徴３（ｆ₃）、Ｉｓｏｔｏｐｅｓの特徴４（ｆ₄）、Ｃｏｍｐｌｅｍｅｎｔｓの特徴５（ｆ₅）、ＷａｔｒｅｒＬｏｓｓｅｓの特徴６（ｆ₆）、及びＩｎｔｅｎｓｉｔｙＢａｌａｎｃｅの特徴７（ｆ₇）を含む、以下に説明される７つの特徴により表され、この７つの特徴は、次のように定義される。
（１）Ｎｐｅａｋｓ。スペクトル内のピーク数。この特徴は、多くの場合、スペクトル品質のヒューマン・アセスメントに使用される。
（２）ＴｏｔａｌＩｎｔｅｎｓｉｔｙ。スペクトル内のピークの未処理の強度の総計。
（３）Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ。この特徴は、２つのピークがアミノ酸のマスにおいて、どれだけ異なる可能性があるかを判断する。或るｉ＝１，２，．．．，２０について、

とし、ここで、Ｍ（ｘ）は、ピークｘのｍ／ｚ値であり、Ｍ₁，Ｍ₂，．．．，Ｍ₂₀は、アミノ酸のマス（そのすべてが固有であるわけではない）である。，により示唆される比較は、対象とするイオン・トラップスペクトルにおいては０．３７デカに設定された公差を使用する。ここで、

とすると、ｆ₃＝ＧｏｏｄＤｉｆｆｓ／ＴｏｔａｌＤｉｆｆｓとなる。
（４）Ｉｓｏｔｏｐｅｓ。関連付けられた同位体ピークとの正規化されたピーク強度の合計。すなわち、次式となる。

（５）Ｃｏｍｐｌｅｍｅｎｔｓ。ｍ／ｚ値が親イオンのマスになる、正規化されたピーク対の強度の合計。特徴は、親イオンについて＋２及び＋３の両方の電荷状態（すなわち、２つの異なるＭ_parentマス）を仮定して算出し、大きい方の特徴値を使用し、プログラム２ないし３において同じ技術を用いて、電荷状態を求める。

（６）ＷａｔｅｒＬｏｓｓｅｓ。ｍ／ｚ値が１８デカだけ異なる、正規化されたピーク対の強度の合計（およそ１８Ｄａだけ異なるとは、水分子のマスだけ異なることを意味し、実際のマスの差異は、分光計の精度に依存する）。

（７）ＩｎｔｅｎｓｉｔｙＢａｌａｎｃｅ。ｍ／ｚ範囲は、３００デカと観測される最大ｍ／ｚと間で１０個の等幅の帯域に分けられる。特徴は、最大の強度をもつ２つの帯域における未処理の強度の合計から、最小の強度をもつ７つの帯域における未処理の強度の合計を引いたものである。

特徴１、特徴２、及び特徴５は、当該技術分野において一般的に説明されている。しかしながら、これらの特徴のいずれかを、上で提示された新規の特徴、すなわち、特徴３、特徴４、特徴６及び特徴７の１つ又はそれ以上と組み合わせて用いることは、新規な特徴のいずれかを排他的に用いるため、新規であると考えられる。同様に、特徴３（Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ）、特徴４（Ｉｓｏｔｏｐｅｓ）及び特徴６（ＷａｔｅｒＬｏｓｓｅｓ）を含む種々の特徴は、ピーク間の差異を取得する新規な手法を用いることによってスペクトルのスペクトル品質を求める。分類器に使用することができるピーク対の差異を生成する１つの方法は、以下の擬似コード及び図６により示される。
ｓｐｅｃｔｒａ＿ＯＫ（ｓｐｅｃｔｒａ＿ｂｕｆｆｅｒ）｛
ｐｅａｋ＿ａｒｒａｙ［］／／ａｒｒａｙｏｆｐｅａｋｓｗｈｅｒｅｅａｃｈｐｅａｋｈａｓａｍａｓｓａｎｄｉｎｔｅｎｓｉｔｙｓｐｅｃｔｒｕｍ＿ｂｕｆｆｅｒ［］；
ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ［ｍａｓｓｅｓ］；／／ａｒｒａｙｏｆｍａｓｓｄｉｆｆｅｒｅｎｃｅｓ
ｐｅａｋ＿ａｒｒａｙ＝ｃｏｎｖｅｒｔ＿ｍａｓｓ＿ｉｎｔｅｎｓｉｔｙ（ｓｐｅｃｔｒｕｍ＿ｂｕｆｆｅｒ）；／／ｄｅｔｅｒｍｉｎｅｐｅａｋｓａｎｄ
／／ｐｅａｋｉｎｔｅｎｓｉｔｉｅｓ
ｆｏｒｅｖｅｒｙｒｅｌｅｖａｎｔｐａｉｒｏｆｐｅａｋｓ（ｐ１，ｐ２）ｉｎｐｅａｋ＿ａｒｒａｙ｛
ｎ＝ｇｅｔ＿ｍａｓｓ＿ｄｉｆｆｅｒｅｎｃｅ（ｐ１．ｐ２）；
ｎ＝ｒｏｕｎｄ（ｎ）／／ｒｏｕｎｄｎｔｏａｎａｐｐｒｏｐｒｉａｔｅｒｅｓｏｌｕｔｉｏｎｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ（ｎ）＋＝ｉｎｔｅｎｓｉｔｙ（ｐ１，ｐ２）；
｝
ｓｐｅｃｔｒａ＿ＯＫ＝ａｎａｌｙｚｅ（ｐｅａｋ＿ａｒｒａｙ，ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ）；／／ａｎａｌｙｚｅｓｐｅｃｔｒｕｍ
｝
擬似コード・リスト２

擬似コード・リスト２及び図６は、マスフラグメントスペクトルの一部のピーク対の差異に応じたアレイを構築する。初期ステップ６２（図６）において、スペクトルのマス強度を変換して、スペクトルのピーク・アレイを求める。その後、ステップ６４において、ピークｐ１のマスがピークｐ２のマスより小さい、ピークｐ１とピークｐ２との間の差異を見出すことにより、ピーク対の間のマスの差異を取得する。次いで、ステップ６６において、スペクトル内のピーク強度から差異アレイ値を取得する。ステップ６８において、関連するピークの別の対が存在するかどうか判断される。別の対が存在する場合は、このピーク対の間のマスの差異を、ステップ６４と関連して上述されたように取得し、スペクトル内のピーク強度から差異ベクトル値を取得する。マスの差異が、すべての可能性のあるピーク対について取得された場合には、ステップ７０において、上で生成されたピーク・ベクトル及び差異ベクトルを考慮して、スペクトルを分析する。（例えば、図３ないし図４と共に）この分析結果を用いて、スペクトルが「良好」と考えられて、さらに別の分析に送られるのか、又は「不良」と考えられて除去されるのかを判断することができる。

図７は、以前に述べられた分析されるべき特化された特徴値を生成するためのプロセスを記述し、特化された特徴により生成されるベクトルがｎ次元空間内のどこに位置するかを求めるための以下の擬似コードに相関するブロック図を示す。
ａｎａｌｙｚｅ（ｐｅａｋ＿ａｒｒａｙ，ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ）｛
ｄｏｕｂｌｅｖｅｃｔｏｒ［］；
ｖｅｃｔｏｒ［１］＝ｆｅａｔｕｒｅ１（ｐｅａｋ＿ａｒｒａｙ，ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ）；
ｖｅｃｔｏｒ［２］＝ｆｅａｔｕｒｅ２（ｐｅａｋ＿ａｒｒａｙ，ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ）；
．．．
ａｎａｌｙｚｅ＝ｃｏｍｐａｒｅ＿ｖ＿ｓ（ｖｅｃｔｏｒ，ｓｕｒｆａｃｅ）；／／ｄｅｔｅｒｍｉｎｅｗｈｅｒｅｖｅｃｔｏｒ
／／ｆａｌｌｓｉｎｔｈｅｎ−ｄｉｍｅｎｓｉｏｎａｌｓｐａｃｅ
｝
擬似コード・リスト３

ステップ８２（図７）において、スペクトルのピーク・アレイ及び差異アレイを分析する手順が与えられる。ステップ８４において、それぞれの特徴（例えば、特徴１ないし特徴７）に対応する特徴ベクトル値を取得する。２つのベクトル要素「ベクトル［１］」及び「ベクトル［２］」が、それぞれ第１及び第２の特徴について生成される。付加的な数の特徴を生成し、使用して、ベクトルの要素を表すことができる。次に、ステップ８６において、ｎ次元空間内の表面に対するベクトル（又は特徴）の比較を行って、それらのベクトルが、訓練データにより定義される表面に対して、ｎ次元空間内のどこに入るかについて分析する。
以下の擬似コード・リスト及び図８は、「特徴４」（Ｉｓｏｔｏｐｅ）の生成を記述するものである。
ｆｅａｔｕｒｅ４（ｐｅａｋ＿ａｒｒａｙ，ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ）｛
ｆｅａｔｕｒｅ４＝０
Ｆｏｒａｌｌｋｎｅａｒ１｛／／ｔｈｅｓｐｅｃｔｒａｐｅａｋｓｔｈａｔｄｉｆｆｅｒｂｙｏｎｅＤａｌｔｏｎ，
／／ｕｐｔｏａｎａｐｐｒｏｐｒｉａｔｅｒｅｓｏｌｕｔｉｏｎ
ｆｅａｔｕｒｅ４＝ｆｅａｔｕｒｅ４＋ｄｉｆｆｅｒｅｎｃｅ＿ａｒｒａｙ［ｋ］；
｝
｝
擬似コード・リスト４

ステップ９０において、１ダルトンだけ異なるスペクトル・ピークからなる差異ベクトルを生成する（すなわち、Ｉｓｏｔｏｐｅｓ特徴）。次に、ステップ９２において、特徴４の値を図７のもののようなフィルタに与える。例えば、特徴４の値を使用して、要素をベクトル（例えば、ベクトル［４］）に表すことができる。従って、生成される特定の特徴は、スペクトル内のピーク間のピーク差異に基づく。しかしながら、ピーク差異の概念を採用しない実施形態において、本出願のフィルタを使用できることを認識すべきである。もっと正確に言えば、特徴が親イオンのマスの総計に基づく上記の特徴５（すなわち、Ｃｏｍｐｌｅｍｅｎｔｓ）等の特徴を使用することもできる。
擬似コード・リスト及び図９のブロック図により示される、差異の対に依存しない「特徴７」（例えば、特徴７（ＩｎｔｅｓｉｔｙＢａｌａｎｃｅ））の記述を以下に示す。
ｆｅａｔｕｒｅ７（ｐｅａｋ＿ｖｅｃｔｏｒ，ｄｉｆｆｅｒｅｎｃｅ＿ｖｅｃｔｏｒ）｛
ｐａｒｔｉｔｉｏｎｓ［］／／ｓｔｏｒｅｓｌｉｍｉｔｓｏｆｅａｃｈｂａｎｄ
ｉｎｔｅｎｓｉｔｙ［］／／ｓｔｏｒｅｓｉｎｔｅｎｓｉｔｙｏｆｅａｃｈｂａｎｄ
ｐａｒｔｉｔｉｏｎｓ＝ｐａｒｔｉｔｉｏｎｖｅｃｔｏｒ（ｐｅａｋ＿ｖｅｃｔｏｒ）；／／ｄｉｖｉｄｅｐｅａｋ＿ｖｅｃｔｏｒｉｎｔｏｂａｎｄｓｂｙ
／／ｍ／ｚ（ｔｈｅｍａｓｓｃｏｏｒｄ）
ｆｏｒｅａｃｈｂａｎｄ
ｉｎｔｅｓｉｔｙ［ｂａｎｄ］＝ｄｅｔｅｒｍｉｎｅ＿ｉｎｔｅｎｓｉｔｙ（ｐｅａｋ＿ｖｅｃｔｏｒ，ｐａｒｔｉｏｎｓ［ｂａｎｄ］）；
ｓｏｒｔ（ｉｎｔｅｓｉｔｙ）；
ｆｅａｔｕｒｅ７＝ｓｕｍ（ｉｎｔｅｎｓｉｔｙｏｆｍｏｓｔｉｎｔｅｎｓｅｂａｎｄｓ）−ｓｕｍ（ｉｎｔｅｎｓｉｔｙｏｆｌｅａｓｔｉｎｔｅｎｓｅｂａｎｄｓ）；
｝
擬似コード・リスト５

擬似コード・リスト５及び図９は、特徴７、ＩｎｔｅｓｉｔｙＢａｌａｎｃｅのものに対応する特化された特徴を反映する。ステップ１００において、ピークをｍ／ｚ値の関数として帯域に分ける。ステップ１０２において、帯域のピーク部分の強度を求める。ステップ１０４において、１つ又はそれ以上の他の帯域の強度を必要とするかどうかが判断される。必要とする場合には、残りの帯域のピーク部分の強度を求める。すべての帯域について強度が求められた場合には、ステップ１０６において、この情報を用いて、第２の特徴ベクトル（すなわち、上記のＩｎｔｅｎｓｉｔｙＢａｌａｎｃｅの特徴７）を生成し、これは、一実施形態においては、最大強度をもつ２つの帯域の未処理の強度の合計から、最小強度をもつ７つの帯域の未処理の強度の合計を引いたものである。その後、「特徴７」をフィルタ（例えば、図７）に与える。例えば、特徴７の値を使用して、フィールドをベクトル「ｖ」に表すことができる（例えば、ｖ［７］）。
フィルタによる分類については、「良好」と「不良」との間の二次的な決定境界を定める二次判別分析（ＱＤＡ）を使用した。この単純な方法は、特に、中心極限定理による近似ガウス分布を有する、ここで使用されるもののような加算特徴と良好に作用する。

発明者による調査では、２つの別個の分類器を上述の手順を用いて、１つが単独で帯電された親イオンと、１つが多重に帯電されたものについて訓練した。ＱＤＡ分類器を訓練することは、特徴について平均及び共分散行列を算出することを含む。適合をより堅牢なものにするために、（いずれかの特徴の値がその特徴の上又は下の１％内に入る場合には）範囲外の特徴ベクトルを除去した。特徴の選択については、特徴の組のすべてのサブセットを試験し、訓練の組において最高のバイナリ分類性能を与えたものを選択した（「良好」の４分の１及び「不良」の８分の１）。オッカムのレーザが加えられ、それにより特徴のサブセットは、その正しい分類の割合（「良好」及び「不良」の両方）が上位集合の０．５％の範囲内にある場合に好ましいとされた。しきい値が決定表面（確率比に対する同等表面）上で調整されて、「良好な」スペクトルの９０％が良好と分類された。このしきい値は、例えば、一次元高性能液体クロマトグラフィ（ＨＰＬＣ）のあまり積極的でないフィルタ処理を用いて、特定の必要条件に応じて調整することができる。単独で帯電したスペクトルについてのバイナリ分類器は、Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ、Ｃｏｍｐｌｅｍｅｎｔｓ、ＷａｔｅｒＬｏｓｓｅｓ、及びＢａｌｌａｎｃｅの４つの特徴を使用した。

多重に帯電したスペクトルについてのバイナリ分類器は、Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ、Ｉｓｏｔｏｐｅｓ、ＷａｔｅｒＬｏｓｓｅｓ、及びＢａｌｌａｎｃｅの４つの多少異なる特徴を使用した。特化された特徴を用いた上述のフィルタについての試験の組（「良好」の３／４及び「不良」の７／８）の結果が表１に示されており、ここでは、例えば、単独で帯電された「良好な」スペクトルの８９．９％が、このバイナリ・フィルタ（分類器）により良好とみなされた。
表１

試験の組に関する誤差率は、本質的には、訓練の組によるものと同じであった。単独で帯電された親イオンからのスペクトルの分類問題は、一般に、単独で帯電された親イオンのフラグメント化は不十分であるために、多重に帯電された親イオンについてよりわずかに困難である。

Ｎｐｅａｋｓ（特徴１）及びＴｏｔａｌＩｎｔｅｓｉｔｙ（特徴２）のみを使用するバイナリ・フィルタは、新たに提示された特徴の種々のものを採用するフィルタよりはるかに弱い結果、すなわち、「良好な」スペクトルの９０％が良好と分類される場合に、不良なスペクトルが５４％しか除去されないという結果を与える。
ｃｏｍｐａｒｅ＿ｖ＿ｓ関数が、ｎ次元空間内にベクトル又は点を位置決めし、ベクトルが表面のどちら側に入るかに応じて、真／偽の値を戻し、このようにしてバイナリ分類法に対応する。回帰法を用いる場合には、当業者であれば、回帰（ＩＶ）のセクションに関して後で説明されるように、回帰関数をベクトルに適用した後で品質採点を戻す異なる関数が呼び出されることになることを理解するであろう。
ＩＩＩ．ＳＶＭ等の学習モデルによる分類

ピーク（Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ、Ｉｓｏｔｏｐｅｓ等）間のｍ／ｚ差異の使用により上で実現された改良点を考慮して、ｍ／ｚ差異のヒストグラムをＳＶＭ、ＳＶＲ、ＮＮ又は他の適切な学習モデル等の学習モデル（又は分類器アルゴリズム）への入力として使用した。以下は、ＳＶＭベースのフィルタに着目するものである。このＳＶＭについては、長さ１８７（アミノ酸残留物の最大マス）のベクトルを、［０．５，１．５］、［１．５，２．５］等から［１８６．５，１８７．５］までのｍ／ｚ差についてビンをもつように生成した。ヒストグラム・ビンへの入力項目ｉは、スペクトル内のすべてのピーク対にわたる総計として定義される。

この式は、Ｎｏｒｍ／（ｘ）＋Ｎｏｒｍ／（ｙ）ではなく、ｍｉｎ｛１／Ｒａｎｋ（ｘ），１／Ｒａｎｋ（ｙ）｝を用いる点で、Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ（特徴４）と異なる。式１／Ｒａｎｋ（ｘ）と式１／Ｎｏｒｍ／（ｘ）と間の差異は、すべてを線形変換でシフトすることにより単純に取得されるため、ここでは重要ではない。総計と最小値との間には差異があり、最小値は、これがより良好なＳＶＭ分類性能を与えるために選択されたものである。ＳＶＭがより良好な正規化の解を学習することができると考えられたため、強度の正規化がＳＶＭ入力データに対して必要であるかどうか試験するために、１／Ｒａｎｋ（ｘ）の代わりに、未処理強度もまた試行した。しかしながら、１／Ｒａｎｋ（ｘ）の正規化は、実際には、分類性能を２ないし３％だけ改善するのに有用であることが見出された。

ＳＶＭフィルタについては、ＳＶＭ−Ｌｉｇｈｔが使用され、「良好な」スペクトルの１／４及び「不良な」スペクトルの１／３２について訓練された。この設計においては、訓練ベクトルの約３０％が、最終的には支持ベクトルとなる。訓練を促進するために、「良好な」データの４分の３及び「不良な」ものの４分の１のみについて試験を行った。ラジアル基底関数を使用し、ガンマについての良好なデータ（５００）、すなわち、基底関数の幅のパラメータを見出す実験を試みた。訓練の組の誤差についてはデフォルトのペナルティ値を使用し、二種類の誤差の相対的なコストを調整して「良好な」スペクトルの９０％の正しい分類を取得した。
図１０及び以下の擬似コード・リストは、異なるベクトルの分類を可能にするＳＶＭフィルタ（分類器）についての手順を示す。
ａｎａｌｙｚｅ（ｄｉｆｆｅｒｅｎｃｅ＿ｖｅｃｔｏｒ）｛
ａｎａｌｙｚｅ＝ｓｖｍ＿ｃｌａｓｓｉｆｙ（ｄｉｆｆｅｒｅｎｃｅ＿ｖｅｃｔｏｒ，ｓｕｒｆａｃｅ）；
｝
擬似コード・リスト６

ＳＶＭ分類器等のモデル化分類器を用いて、ステップ１１０（図１０）において、差異ベクトル及びｎ次元表面の情報を分類器に入力し、次いでステップ１１２において、入力情報を分析するように分類器に要求する。
表ＩＩは、異なるダルトン範囲での動作について、ＳＶＭフィルタの動作により取得された結果を与える。具体的には、１から１８７までの１デカのビンをもつ差異ヒストグラムに加えて、１から３８４までの１デカのビン及び１から１８７までの０．５デカのビンをもつ、より大きい差異ヒストグラムもまたＳＶＭへの入力として考慮された。

表ＩＩ

図１１は、偽陽性と偽陰性との間の妥協を示す、ＳＶＭフィルタの受信オペレータ特性（ＲＯＣ）曲線を与える。例えば、「良好な」スペクトルの１５％の損失が許容できる場合には、「不良な」スペクトルのほぼ８０％を除去することができるが、「良好な」スペクトルの５％の損失が最大に許容できる場合には、「不良な」スペクトルの約６０％しか除去することができない。（より完全なＲＯＣ曲線を作成するために、ラジアル基底関数カーネルについての幅のパラメータのガンマを変更したので、表ＩＩにおいて、数は正確に整合しない。）
ＳＶＭ手法は、特化された特徴の手法より明らかに良好な結果を与えることが判明し、性能は、入力ベクトルの増大するサイズと共に僅かに改善した。稼動時間は、サイズが増加するに伴い遅くなる。一般に、ＳＶＭフィルタ（分類器）は、ＱＤＡフィルタ（分類器）より低速であるが、ＳＥＱＵＥＳＴ自体を稼動させるほど低速ではない。最速のＳＶＭフィルタ（１から１８７までの１デカのビン）は、２０，０００スペクトルを処理するのに３６２秒をかかるのに対して、ＱＤＡフィルタは、同じスペクトルを処理するのに１１４秒かかる。ＳＥＱＵＥＳＴは、小規模（１ＭＢ）データベースを用いると、１スペクトル当たり１秒までかかり、大規模（１００ＭＢ）データベースについては、１スペクトル当たり１５秒までかかる。
ＩＶ．回帰

バイナリ分類器は、ＳＥＱＵＥＳＴの処理能力を改善するために、スペクトルをフィルタ処理するのに十分なものであるが、数値による品質採点を各々のスペクトルに割り当てて、さらに別の処理のために高品質の識別されていないスペクトルを優先させる問題に対処することにも関心がある。これは、バイナリ変数ではなく連続的な値を予測することを試みるので、回帰問題である。
品質の連続的な値は、高強度のピーク間で観測されたｂイオン及びｙイオンの断片であると定義された。より具体的には、Ｌｅｎｇｔｈがペプチド中のアミノ酸の数を示すとすると、Ｑｕａｌｉｔｙは、次式のように定義される。
Ｑｕａｌｉｔｙ＝１／２（＃ｂ＋＃ｙ）／（Ｌｅｎｇｔｈ−１）
ここで、＃ｂは、順位＜６・Ｌｅｎｇｔｈである場合のｂイオンのピーク数であり、＃ｙは、順位＜６・Ｌｅｎｇｔｈである場合のｙイオンのピーク数である。この値は、「良好な」スペクトルの帰納的解析を用いて算出することができる。例えば、ピークの単純な存在／不在ではなく正規化された強度を用いた類似定義のような他のＱｕａｌｉｔｙの定義、及び、識別されていないピークについてペナルティを科された別の定義が考慮された。種々のＱｕａｌｉｔｙ定義が、同様な結果を与えた。引用された定義は、人間により最も解釈可能であるため選択され、この特徴は、いずれのｂイオン及びｙイオンも観測されない０から、すべての可能性のあるｂイオン及びｙイオンが観測された１．０まで及ぶ。さらに、データベース検索及びｄｅｎｏｖｏの両方の多くのペプチド識別プログラムは、或る種の正規化された強度ではなく、ｂイオン及びｙイオンの存在／不在に依存する。

次に、スペクトル品質を予測する特徴の線形結合を求めるために、７つの特化された分類特徴を説明変数とし、Ｑｕａｌｉｔｙを応答変数として、多変量線形回帰を実行した。多変量線形回帰は、Ｐ値により判断されたときには非常に大きい非ゼロ係数である、分類特徴を２つだけ与えた（Ｇｏｏｄ−ＤｉｆｆＦｒａｃｔｉｏｎ及びＣｏｍｐｌｅｍｅｎｔｓ）。回帰についてのＲ²値は、線形結合がＱｕａｌｉｔｙとの相関係数√０．５３７、すなわち、０．７３を有することを意味する０．５３７であった。
回帰は、予測されたＱｕａｌｉｔｙが「良好な」スペクトルの平均Ｑｕａｌｉｔｙより良好な採点である、０．２８までであった数千もの不良なスペクトルを識別し、これは、すべての可能性のあるｂイオン及びｙイオンの２８％のみがスペクトル内の最良順位のピークにおいて出現したことを意味する。６つの最良の「不良な」スペクトル（すべてが、０．４４を上回る予測Ｑｕａｌｉｔｙをもつ）を、Ｌｕｔｅｆｉｓｋ、すなわち、ｄｅｎｏｖｏペプチド・シーケンサにサブミットした。６つのスペクトルのうちの２つについて、Ｌｕｔｅｆｉｓｋは、ＢＬＡＳＴ整合アルゴリズムにより、ウシ血清アルブミンと独特に整合することができる部分配列を与えた。表ＩＩＩは、これらの成功の１つを示し、括弧付きの数値は、そのマスを合計する、場合によっては改質された識別されていない残留物を意味する「マスの相違」を示す。
表ＩＩＩ
最良の不良なスペクトルについての上位５つのＬｕｔｅｆｉｓｋ識別

ＭＤＫＥＡＣＦＡＶＥによるＢＬＡＳＴ検索は、ＥＮＦＶＡＦＶＤＫＣＣＡＡＤＤＫＥＡＣＦＡＶＥＧＰＫの配列を有するウシ血清アルブミンとの整合を与える。文字ＧＰは、１５４．１デカのマスの相違を完全に埋めるため、ウシ血清アルブミンが混合物中のタンパク質の１つであったことを知らなくても高い識別尤度が存在する。しかしながら、正しい配列ＥＮＦＶＡＦＶＤＫＣＣＡＡＤのいずれの接尾文字も、［４３０．２］ＧＳＴＷＷ［２１０．２］ＥＭと同じマスにはならず、これは、スペクトルにおけるすべてのピークが、ウシ血清アルブミンからの改質されていないペプチド内のあるべき場所からシフトされたことを意味する。（実際に、Ｌｕｔｅｆｉｓｋは、ｂイオンからの助けを借りずに、ｙイオンのピークのラダーに基づいてＤＫＥＡＣＦＡＶＥを認識した。）従って、このスペクトルは、改質又は変異ペプチドからなると思われる。

説明された実施形態は、コンピュータ又は他のマイクロプロセッサ・ベースの装置等のコンピュータ・システムの使用（並びに特化された電子回路の使用）によって実施できることを認識すべきである。図１２は、ここで説明された概念を実施することができるコンピュータ・システム１３０を示す。コンピュータ・システム１３０は、ＣＰＵ１３４及びメモリ１３６を組み込み、ネットワーク・インタフェース１３８を含むことができるコンピュータ１３２を含む。ネットワーク・インタフェース１３８は、コンピュータ１３２に、ネットワーク接続１４２上でのネットワーク１４０に対するアクセスを与える。コンピュータ１３２はさらに、ユーザ・インタフェース装置１４６、格納システム１４８、タンデムマス分光計（図示せず）及び取り外し可能媒体データ装置１５０に接続されたＩ／Ｏインタフェース１４４を含む。取り外し可能媒体データ装置１５０は、典型的にはプログラム製品１５４を含むコンピュータ可読媒体１５２を読み取る。（取り外し可能媒体データ装置１５０と併せて）格納システム１４８及びコンピュータ可読媒体１５２は、ファイル格納機構を含む。

コンピュータ可読媒体１５２上のプログラム製品１５４は、一般に、ここで説明されたプロセス並びに他のプロセスを実行するようにＣＰＵ１３４に指示するプログラム１５６としてメモリ１３６に読み込まれる。コンピュータ・プログラム１５６は、装置内のＲＯＭのようなコンピュータ使用可能データキャリアにおいて、取り替え可能ＲＯＭ内で、メモリ・スティック、ＣＤ、フロッピー（登録商標）、ＤＶＤ、又は他の有形の媒体において具体化することができる。さらに、プログラム製品１５４は、ネットワーク・インタフェース１３８によって（信号が変調される搬送波、又は、光、無線、及び電気信号を含む他のデータ送信技術の有無にかかわらず）伝送媒体により具体化されたコンピュータ指示信号として、ネットワーク１４０を用いてアクセスされる装置から与えられる。ネットワーク１４０は、別のコンピュータ使用可能データキャリアである。コンピュータ１３２と通信する装置は、さらに、コンピュータ１３２を用いて、ネットワーク・インタフェース１３８によってネットワーク１４０に接続することもできる。ＭＳ／ＭＳ等のマス分光計システム１５８は、ネットワーク接続１６０にわたるネットワーク１４０上で通信するように構成することができる。システム１５８は、さらに、ネットワーク・インタフェース１３８又はＩ／Ｏインタフェース１４４（図示せず）により、好ましいチャネル１６２上でコンピュータ１３２と通信する。さらに、マス分光計により生成されるスペクトルを、ここに開示される方法を実行する別個のコンピュータにより処理して、スペクトルデータをフィルタ処理し、選択されたスペクトルデータを識別プログラムに供給することができる。
このようなフィルタ処理装置は、タンデムマス分光計と共に含んでもよいし、又はこれに取り付けてもよい。さらに、既存のｄｅｎｏｖｏ又はデータベース検索識別プログラムは、ここで開示されたフィルタを含むことができる。

タンデムマス分光計のデータをタンパク質配列のライブラリからの配列と相関させるプロセスのブロック図である。ピーク品質の事後値との順位及び相対強度の相関を示す。フィルタ処理作用のための上位のフロー図を示す。フィルタ処理作用と関連付けられた例示的な状態を示す。例示的な訓練技術を示す上位のフロー図を示す。マスフラグメントスペクトルの一部のピーク対の差異に応じたアレイを構築する方法を示す。特化された特徴値を生成して、ベクトルがｎ次元空間内のどこに位置するかを求めるプロセスを記述するブロック図である。Ｉｓｏｔｏｐｅ特徴を生成するためのブロック図を示す。Ｉｎｔｅｎｓｉｔｙｂａｌａｎｃｅ特徴を生成するためのブロック図を示す。モデル化分類器を使用して差異アレイ及びｎ次元表面の情報を分析する方法を示す。偽陽性と偽陰性との間の妥協を示す受信オペレータ特性（ＲＯＣ）曲線をＳＶＭベースのフィルタに与える。ここで説明された概念を実施することができるネットワーク化されたコンピュータ・システムを示す。

符号の説明

１２：タンデムマス分光計
１８：フラグメントスペクトル
２０：フィルタ
２１：シーケンサ

Claims

マスフラグメントスペクトルの一部にアクセスするステップと、
前記マスフラグメントスペクトルの一部の強度バランスに応じて、前記マスフラグメントスペクトルの一部を評価するステップと、
前記評価ステップに応じて前記マスフラグメントスペクトルを処理するステップと、
を含み、
前記評価するステップが、
前記マスフラグメントスペクトルの前記強度バランスに応じてベクトルを構築するステップと、
少なくとも１つの表面により分離された複数の領域を含む多次元空間を生成するステップであって、前記少なくとも１つの表面が任意の関数によって決定されるものであるステップと、
前記ベクトルを前記多次元空間内に配置するステップと、
をさらに含み、
前記表面が、前記任意の関数に「良好な」及び「不良な」データ訓練の組を適用することにより決定される、
ことを特徴とするコンピュータにより制御される方法。
前記ベクトルを前記多次元空間内に配置し、該ベクトルが前記表面のいずれの側に入るかに応じて真／偽の値を戻し、バイナリ分類法に対応する、という比較関数を用いるステップをさらに含む、請求項１に記載の方法。
生成された前記表面を再利用のために電子ファイルに格納するステップをさらに含む、請求項１に記載の方法。
前記マスフラグメントスペクトルの前記強度バランスに応じてベクトルを構築するステップをさらに含み、
前記ベクトル及び／又は前記ピーク対の差異が、およそ１８デカ（Ｄａ）だけ異なるｍ／ｚ値を有するピーク対の正規化された強度に応じたものである、請求項１に記載の方法。
前記正規化が、順位に基づいた強度正規化方式を用いたものである、請求項４に記載の方法。