JP2005528609A

JP2005528609A - 質量分析

Info

Publication number: JP2005528609A
Application number: JP2004509407A
Authority: JP
Inventors: メイミカエル; ウェンヤオチン
Original assignee: Shimadzu Research Laboratory Europe Ltd
Current assignee: Shimadzu Research Laboratory Europe Ltd
Priority date: 2002-05-30
Filing date: 2003-05-30
Publication date: 2005-09-22
Anticipated expiration: 2023-05-30
Also published as: EP1508046B1; AU2003240060A8; JP4512486B2; US20140222348A1; EP1508046A2; WO2003102572A3; GB0212470D0; US20060172365A1; WO2003102572A2; AU2003240060A1; US8620588B2

Abstract

本発明は、質量分析装置、特に、(ＭＳ)ⁿ装置から得られたデータを用いるポリペプチドの新規な配列決定の方法に関する。

Description

本発明は、質量分析装置、特に、(ＭＳ)^ｎ装置から得られたデータを用いるポリペプチドの新規な配列決定方法に関する。

現在、質量分析を使用して試料タンパク質／ポリペプチド（特に言及していない限り、本明細書においては、タンパク質とポリペプチドという二つの語は相互に読み替え得るものとする）を同定（確認）することは、当該分野において既知である。MASCOT（MOWSEアルゴリズムに基づく）などのタンパク質質量フィンガープリントプログラムは、タンパク質を酵素（トリプシンなど）分解したものから得られた質量分析データを利用し、一次配列データベースからタンパク質を同定しようとするものである（非特許文献１）。質量分析データからタンパク質を同定しようとする従来の試みにおいては、実験データは、酵素によってタンパク質を分解して得られたペプチドの分子量（質量の電荷に対する比として）であった。別の手法においては、１個またはそれ以上のペプチドから得られたタンデム質量分析データ（MS/MSまたはMS²としても知られている）を使用しており、この手法では、対象イオンを選択して、序列的な（hierarchical）生成物イオンスペクトルが得られるように、フラグメント化する。

注意すべきことは、これらの技術においては、MSまたはMS/MSデータからポリペプチドの配列が実際に得られるわけではなく、データベース上の（既知の）配列と質量分析データを比較することによってスコア（得点）または可能性を示し、そして、実験者は、分析したタンパク質の候補として好ましいデータベース配列（すなわち、最高スコア、または可能性が最も高いもの）を選択することができるにすぎない。

しかしながら、これらの従来法では、最新の質量分析法、すなわち、多数タンデム質量分析（multiple
tandem mass spectrometry；(ＭＳ)^ｎ）（時間／空間的に関してタンデムである）によって得られたデータを直接利用することはできない。なぜならば、そのような分析法によれば、非常に大量の序列的生成物イオンのデータが得られ、それらは非常に複雑であるために、データベースと比較することができない。さらに、従来法では、質量分析データ、特に高度に複雑化した(ＭＳ)^ｎスペクトルから直接的に実際の配列を得ることは不可能である。現在の(ＭＳ)^ｎ装置としては、ＭＳ／ＭＳ（タンデム型、すなわち、ｎ＝２）質量分析装置、およびKratos
Axima QIT TOF質量分析装置などのような装置が挙げられる。

非特許文献２には、ペプチドのＭＳ／ＭＳタンデム質量スペクトルの解析、およびコンピュータープログラムに基づく解法について記載している。しかしながら、この文献記載の方法は非常に主観的なものであり、分子量の小さいペプチド（最大アミノ酸数が約20個）に対してしか適用することができず、与えられた一連のデータを如何に解析してアミノ酸配列候補を決定するのかについての特別な教示は呈示されていない。結論の項には、「さらに、質量分析装置の改良を続けることにより、分子量のより大きなペプチドおよび分子量の小さいタンパク質のタンデムCID質量スペクトルデータを得ることができるようになる：現在のところ、そのようなデータは実際の使用に限界があると考えられるが、・・・」さらに、「構造が未知であるペプチドのタンデムCID質量スペクトルの正確な解析は時として困難ではあるが、・・・・ＭＳ／ＭＳデータを利用してペプチドの予測配列を確認すること、または、既知の配列に存在しない変形を確認することは、タンデム質量分析の利用に強く関心を抱く者であれば可能なことである。・・・・」と結んでいる。

さらに、非特許文献２には多数の誤りがあり、多様な娘イオン、変位（displacement）イオンおよびニュートラルロス（neutral loss）イオンに対する質量の計算が不正確であり、さらに／または、スペクトル中のイオン種へのm/zピークの帰属が不正確である。
従って、非特許文献２の教示に従っても、以下に詳細に示すような本発明の結論に到達することはできない。非特許文献２は、ＭＳ／ＭＳ（すなわち、MS²）スペクトルのみについて考察したものであり、ｎ＞２のＭＳ^ｎについては言及していないことにも注目すべきである。
マトリックス・サイエンス（MatrixScirnce）社；パーキンス（Perkins）ら、Electrophoresis. 1990年12月；20(18): 3551-67;PMID: 10612281 パパヤノポウロス（Papayannopoulos）IA,「ペプチドの衝突誘導性解裂タンデム質量スペクトルの解析（Theinterpretation of collision-induced dissociation tandem mass spectra ofpeptides）」, Mass Spectrom. Rev., 1995,14(1)49-73

本発明は、タンパク質の配列決定の分野において、従来技術の欠点を克服し、有意かつ実質的な進歩を提供するものである。

本発明に従えば、サンプルポリペプチドに対して少なくともひとつの推定（すなわち、候補）アミノ酸配列を決定するための方法が提供され、ここで、該サンプルポリペプチドは部分分解されており、該方法は以下の工程を含む：
（i）前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、該部分分解サンプルポリペプチドから得られるイオン種の一組のm/zピークを与える工程；
（ii）工程（i）で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セット中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸１個の質量分だけ異なっているようにする工程；
（iii）工程（ii）で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程；
（iv）残りのm/zピークセットの中から「差異セット（Difference
Sets）」を選別する工程；
（v）残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程；さらに、
（vi）残りのm/zピーク候補セットの各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程。
或るm/zピークの「少なくとも１つの近隣のピーク」とは、当該m/zピークの値より大きいおよび／または小さいような、最も近いm/z値のものを意味する。例えば、仮にm/z値が375、300、347、372および331であるようなm/zピークのセットにおいては、ピーク値331は、２つの近隣ピーク、すなわち、300と347を有することになる。

サンプルポリペプチドの質量は少なくとも3000Daであり、例えば、少なくとも4000、5000、6000、7000、8000、9000、10000または15000Daである。サンプルポリペプチドを部分分解することにより、例えば、3000または4000Da以下の質量を有するフラグメントを得ることができる。
ソフトイオン化質量スペクトルにより、少なくとも３個のm/zピークが得られ、例えば、４、５、６、７、８、９、10、15、20、25、30、40、50、75または100個のm/zピークが得られる。

各m/zピーク候補セットは、少なくとも３個のm/zピークから成り、例えば、４、５、６、７、８、９、10、15、20、25、30、40、50、75または100個のm/zピークから成る。
本発明により、これまで解析不可能であると考えられてきた、質量スペクトルからのアミノ酸の候補配列の作成が可能になった。これは、工程（iii）において逆配列を使用することによって達成され、そのようなことはこれまで考えられていなかった。サンプルポリペプチドから得られるm/zピークに対応する質量ピークセットについて、考え得る全ての可能性のある候補を作成することにより、考え得る全ての可能性のある候補配列について確実に考慮することもできる。帰納的および／または演繹的過程を利用して差異セット（Difference
Sets）を選別する（identify）ことと併せて、本発明に従えば、サンプルポリペプチドの新規な配列決定（デノボシークエンス）を行うことができ、これは、従来技術に対する有意な効果である。

ソフトイオン化法は当該分野において既知であり、一般的には、イオン化されたサンプルについて最小限のフラグメント化を生じ、特に、極性および熱不安定な化合物について有効である。ソフトイオン化法の例としては、マトリックス支援レーザー脱離イオン化（MALDI）、エレクトロスプレーイオン化（EI）、大気圧化学イオン化（APCI）、高速電子衝撃（FAB）および化学イオン化（CI）などが挙げられるが、これらに限定されるわけではない。本発明においては、特に、MALDI−飛行時間（MALDI-TOF）質量分析が適用される。

MALDIに使用することができるマトリックス分子の例としては、２−アミノ−４−メチル−５−ニトロピリジン、２−アミノ−５−ニトロピリジン、６−アザ−２−チオチミン、カフェ酸、α−シアノ−４−ヒドロキシケイヒ酸（ACH）、２，５−ヒドロキシ安息香酸（ゲンチジン酸、DHB）、２，５−ジヒドロキシ安息香酸とフコース（１：１）、フェルラ酸、ローダミン６G（0.1M）を添加したグリセロール、２−（４−ヒドロキシフェニルアゾ）安息香酸（HABA）、３−ヒドロキシピコリン酸（HPA）、ニコチン酸、３−ニトロベンジルアルコール、ローダミン６Gを添加した３−ニトロベンジルアルコール、１，４−ジフェニル−１，３−ブタジエン（0.1M）を添加した３−ニトロベンジルアルコール、２−ピラジンカルボン酸、３，５−ジメトキシ−４−ヒドロキシケイヒ酸（シナピン酸、SA）およびスクシン酸などが挙げられ、当業者であれば、与えられたサンプルポリペプチドに対して、どのマトリックス分子を使用することができるかを正確に判断することができる。使用可能なその他のマトリックス分子としては、５−クロロ−２−ヒドロキシ安息香酸（５−クロロサリチル酸、CSA）、ｔ−インドール−アクリル酸（IAA）５−メトキシサリチル酸（５−メトキシ−２−ヒドロキシ安息香酸、MSA）、ノーハーマン（９H-ピリド［３，４−ｂ］インドール、nH）、ピコリン酸（２−ピリジンカルボン酸、PA）、２，４，６−トリヒドロキシ−アセトフェノン（THAP）および１，８，９−トリヒドロキシ−アントラセン（ジスラノール）、ならびに金属コバルト超微粉などが挙げられる。

一般的に、ペプチドイオンは、ペプチド骨格の位置で分解されて一連のフラグメントイオンを生成する（例えば、イオン化過程に由来する内部エネルギーの結果として）が、この現象は、例えば、サンプルポリペプチドを中性気体分子と衝突させることなど（すなわち、エレクトロスプレー質量分析において、衝突誘導性分解を利用することなど）によって補うことができる。MALDI分析においては、タンパク質／ペプチドがフラグメント化してイオンになる現象は、初期イオン化の結果のみならず、ポストソース分解（PSD）（時間飛行型（TOF）質量分析装置のイオンの軌跡に従って得られる）などのその他の事象の結果としても生じる。

タンパク質をイオン化することにより、タンパク質の構造に由来する多数のイオン種が生成する（図１参照）。例えば、ＣＨ−ＣＯ結合を解裂することにより、ａ−およびｘ−娘イオンが生成する。ａ−イオンはＮ−末端フラグメントであり、ｘ−イオンはＣ−末端フラグメントである。同様に、骨格のＣＯ−ＮＨ結合が解裂することにより、Ｎ−末端ｂ−娘イオンおよびＣ−末端ｙ−娘イオンが生成する。ＮＨ−ＣＨ結合が解裂することにより、Ｎ−末端ｃ−娘イオンおよびＣ−末端ｚ−娘イオンが生成する。最も生成頻度が高いイオン種は、ｂ−およびｙ−娘イオン、ならびにａ−娘イオンである。

いろいろな娘イオン種の各々からエンドイオンクラスター（End
Ion Clusters）を生成することも可能である。Ｎ−末端イオン種（すなわち、ａ、ｂ−およびｃ−娘イオン）は、それぞれ、娘イオンから末端NH₂基（16ドルトン）の質量を差引いた質量を有するハイブリッドイオンを生成することができる。

さらに、ａ−イオンにはプロトンが付加することができ、娘イオンの質量＋１ドルトンの位置にハイブリッドピークを示す。その他のハイブリッドピークとしては、娘イオンの質量−２ドルトンおよび＋１ドルトンの位置にピークが出現するが、これらはそれぞれ、ｙ_n−２イオンおよびｚ_ｎ＋１イオンに対応する。
例示配列ＮＨ₂−ＣＨＲ₁−ＣＯ−ＮＨ−ＣＨＲ₂−ＣＯ−ＮＨ−ＣＨＲ₃−ＣＯＯＨにおいては、各ＣＨＲ−ＣＯ−ＮＨによってａｂｃクラスター（すなわち、ｃ−イオンはｂ−イオンよりも17ドルトン重く、ｂ−イオンはａ−イオンよりも28ドルトン重い）が生成し、同様に対応するｘｙｚクラスターも生成する。タンパク質中の隣接するアミノ酸に由来するイオンおよびイオンのクラスターは、当該アミノ酸の質量分だけ異なっている。

本明細書においては、一般的に、これらの各種の娘イオンおよびエンドイオンクラスターが「差異イオン（Difference
Ions）」および「差異セット（Difference
Sets）」を構成し、それらは、いろいろな方法でm/zピーク候補セット（複数）の中から選別する（見分ける：identify）ことができる。「差異セット」には、候補のイオン系列（Series）（例えば、ａ−、ｂ−、ｃ−、ｘ−、ｙ−およびｚ−イオンなど）を選別することができる「変位セット（Displacement
Sets）」、およびアミノ酸に関する情報を提供することができる「ニュートラルロスセット（中性消失セット：Neutral
Loss Sets）」が含まれる。

本発明は、各種のフィルター掛け（filtering）工程および選別（identification）工程を採用することにより、与えられたm/zピークセットに帰着する可能性のある全てのあるアミノ酸配列を選別することができ、さらに、誤ったアミノ酸配列または大きな配列セットの連続的部分列（隣接部分列：contiguous subsequence）であるようなアミノ酸配列を除去して、少なくとも１つの推定アミノ酸配列を作成することができる。アミノ酸配列によっては、最終結果が１つの推定アミノ酸配列に絞られることもあれば、その他の（特に大きな）アミノ酸配列に対しては、元のサンプルポリペプチドのフラグメントに対応して、あるいは、特定の一組のm/zピークに対して１つ以上の解が得られることにより、１つ以上の推定アミノ酸配列が作成される場合もある。

重要なことは、本発明は、新規に推定アミノ酸配列を作成するものであり、データベース内にあり、また、サンプルポリペプチドの質量分析によって生成したm/zピークセットに相関づけるサンプルペプチドおよびその対応するm/zピークセットに依存しない。

サンプルポリペプチドは、エクソペプチダーゼ類およびエンドペプチダーゼ類より成る群から選択される酵素を用いて部分分解することができる。プロテアーゼ類には２つの基本的なサブクラスがあり、それらは、N−／Ｃ−末端から内向きにポリペプチドをタンパク質分解するエクソペプチダーゼ類、およびポリペプチド内の特定のアミノ酸配列においてポリペプチドをタンパク質分解するエンドペプチダーゼ類である。

エンドペプチダーゼ類は、少なくとも１つの推定アミノ酸配列が作成または検討された場合には、サンプルポリペプチドに関するさらなる情報を提供することから特に有用であり、さらに、エンドペプチダーゼ類は、サンプルポリペプチド内に存在する特定の配列を確認するのにも用いることができる。
例えば、本発明においては、エンドペプチダーゼであるトリプシンを用いることができる。その他の有用なエンドペプチダーゼ類は当該分野において既知であり、当業者においては自明である。

本発明の方法においては、工程（ii）でm/zピーク候補の複数のセットを選別することができ、この工程は次のような段階による：
（ａ）工程（i）で得られたｘ個のピークを有する一組のm/zピークから、２〜ｘ個のメンバーから成るm/zピーク候補セットの可能性のある全てを選別し；さらに、
（ｂ）任意の１つのm/zピークとその近隣の少なくとも１つのピークとの間の質量差がアミノ酸1個の質量と等しくないようなm/zピーク候補セットを全て排除する。
例えば、段階（ｂ）において、各m/zピーク候補セットについて、各m/zピークとその近隣の少なくとも１つのピークとの間の質量差を求め、次いで、アミノ酸の質量とは異なる質量差を有するm/zピーク候補セットを全て排除する。

このようにして、ある一定数のm/zピーク候補セットのみを選別するのか、または、可能性のある全てのm/zピーク候補セットを全て選別する。２つの選択肢のうちでは、後者がより厳密であることが明らかであり、特に、サンプルポリペプチドについての情報が何もない状況においては、一般的に好ましい選択肢である。しかしながら、サンプルポリペプチドについて、末端アミノ酸配列などのような何らかの情報がある場合には、ポリペプチドに関して既知の情報に合致したm/zピーク候補セットのみを使用することができる。

当然、そのようなフィルター掛け工程は、少なくとも１つの推定アミノ酸配列を決定する過程において、任意の都合の良い段階で実施することができ、また、フィルター掛け工程を行うポイントを判断する場合には、プログラミングの簡便性、柔軟性、および／または、情報源の利用などの問題点も考慮に入れる。

m/zピーク候補のセットを作成するに当たっては、質量差の比較を行うアミノ酸の質量にも影響を受ける。例えば、アミノ酸質量のセットは、標準的なアミノ酸の質量のみから成り立っていることがある。別の場合として、サンプルポリペプチドがある特定のアミノ酸を含んでいないことがわかっているときには、該アミノ酸の質量を除外することができる。同様に、例えば、化学的に修飾された、および／または翻訳後に修飾されたアミノ酸を用いることもできる。その他のアミノ酸（天然に存在するものおよび合成されたものも）を用いることもでき、それらには、変性された、アミノ酸および通常には存在しないアミノ酸、例えば、２−アミノアジピン酸、２−アミノ酪酸、イソデスモシン、６−ｎ−メチルリジンおよびノルバリンなどが含まれる。その他については、WIPO規準23の表４などに記載されている。同様に、放射性同位元素でラベルしたアミノ酸も許容される。

あるアミノ酸がサンプルポリペプチド中に存在していないことがわかっている場合には、m/zピーク候補セットを選定するためにアミノ酸質量のセットから該質量を除外する代わりに、m/zピーク候補セットを作成して、該アミノ酸を含むものを除外することもできる。しかしながら、この方法は、m/zピーク候補セットを選定するためにアミノ酸質量のセットから当該アミノ酸の質量を除外するよりも、計算がより複雑であるため、良い選択とはいえない。

工程（iii）で使用するフィルター掛け法は「反射述語フィルター（Reflective Predicate Filter）」と呼ばれ、当該分野において提案されているものではない。この方法は、質量分析によって発生する娘イオンのセット群の相互関係を明らかにする点において特に有用である。すなわち、m/zピークセットの候補について選定した質量差配列に関して、少なくとも部分的な逆順質量差配列（reverse-order
mass difference sequence）が存在しない場合には、当該m/zピーク候補セットを除外する。この工程により、m/zピーク候補のセット群（すなわち、アミノ酸配列候補群）から不適当な娘イオンを含むm/zピーク候補セットが除去される。例えば、m/zピークセット中の各ピークは、アミノ酸の質量分だけ異なっているが、該セットは多数のｂ−娘イオンとともにｘ−娘イオンを含んでいることもある。ピークセットがｂ−娘イオンピークのみによって構成されている場合には、同等の質量差分離れているｙ−娘イオンピークから成る相補的なセットが存在しているはずであり、その場合には、候補配列を除外しない。しかしながら、ｂ−娘イオンおよびｘ−娘イオンから成るセットの場合には、質量ピークの相補的セットは、ｙ−娘イオンおよびａ−娘イオンから成るセットを含んでいると考えられ、質量差はそれらのアミノ酸の質量差に対応していないか、または、不正確であり、従って、ｘ−娘イオンを含む候補配列を除外する。本明細書においては、「少なくとも部分的に」とは、別のアミノ酸の質量差配列との質量差が少なくとも２、３、４、５、６、７、８、９、10、15、20または25であることを意味している。比較対象となる２つの配列に関しては、一方が他方の連続的部分列でなければならない。

工程（iv）においては、多数の方法によって差異セットを選別することができるが、それらの方法は、大きく、演繹的過程と帰納的過程に分けることができる。演繹的過程では、論理的規則に基づいてm/zピークセットをどのように解釈すべきかを判断する。差異セットを選定するための第一の演繹的過程は、次の段階を含むものである：
（ａ）残りのm/zピーク候補セットの各々を比較する段階；
（ｂ）比較段階（ａ）の結果を相関させて（相互関係を明らかにして）、前記m/zピーク候補セットのうちの第一のセットを含む「差異セット」を選別する段階であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって、−17ｕ、−18ｕ、−34ｕまたは−48ｕ変位しているものの少なくとも一部を形成しているようにする段階；さらに、
（ｃ）−17ｕ「差異セット」のメンバーは、アスパラギン、グルタミン、リジンおよびアルギニンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し（ラベルし）、−18ｕ「差異セット」のメンバーは、セリン、スレオニン、グルタミン酸およびチロシンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し、−34ｕ「差異セット」のメンバーは、システインを含むことが推定されるものとして分類し、−48ｕ「差異セット」のメンバーは、メチオニンを含むことが推定されるものとして分類し、各「差異セット」のうちの質量の軽いメンバーは、ニュートラルロスm/zピーク候補セットとして分類する段階。
そのような差異セットを分類する（ラベルする）ときには、含有が推定されている上述のアミノ酸に従ってm/zピーク候補の第一および第二のセットの両方についてラベルする。

別の方法または追加の方法として、次のような段階を含むようにして「差異セット」を選定することもできる：
（ａ）残りのm/zピーク候補セットの各々を比較する段階；
（ｂ）比較段階（ａ）の結果を相関させて、前記m/zピーク候補セットのうちの第一のセットを含む「差異セット」を選定する工程であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって、＋28ｕ、＋17ｕまたは−26ｕ変位しているものの少なくとも一部を形成しているようにする段階；さらに、
（ｃ）＋28ｕ「差異セット」のうちの重いものと軽いものをそれぞれ推定ｂ−およびａ−差異セットとして分類し（ラベルし）、−26ｕ「差異セット」のうちの重いものと軽いものをそれぞれ推定ｘ−およびｙ−差異セットとして分類し、＋17ｕ「差異セット」のうちの重いものと軽いものをそれぞれ推定ｃ−およびｂ−差異セットとして分類する段階。
m/zピーク候補セットによって表されるアミノ酸配列は、アミノ酸質量と照合しながら、m/zピーク値の間の質量差を調べることにより簡単に決定することができる。かくして、m/zピーク値の或る組合せ（セット）を直ちにアミノ酸配列に翻訳することができる。この操作は、最も重いm/zピーク値から、または最も軽いm/zピーク値から、あるいはその他の任意の順序で開始することができる。しかしながら、得られた配列には、方向性を定める必要が残されている。配列決定に起因するイオン種が、ａ−、ｂ−またはｃ−イオンである場合には、これらは、m/zピーク値の重い方から軽い方に向かって、CからN方向にアミノ酸配列を与える。これとは別に、配列決定に起因するイオン種が、ｘ−、ｙ−またはｚ−イオンである場合には、m/zピーク値の重い方から軽い方に向かって、NからC方向にアミノ酸配列を与える。一般的に、アミノ酸配列はＮからＣ方向に表され、ａ−、ｂ−およびｃ−イオン種に由来する配列は、ｘ−、ｙ−およびｚ−イオン種に由来する配列と混同してはならない。

従って、推定アミノ酸配列を決定する方法におけるひとつの工程は、m/zピーク候補セットによって示されるアミノ酸配列の方向性を確定することであると言うことができ、この工程は、（既述の）パパヤノポウロス（Papayannopoulos）、IAによって記載された方法に従って行うことができる。サンプルポリペプチドのプリカーサー（前駆体）質量を求めておきm/zピーク候補セットの値が既知であれば、各セットのうちの最も重い値をプリカーサーイオン質量と比較して、アミノ酸の質量またはアミノ酸＋18ｕの質量に相関する差異を選別することができる。あるm/zピーク候補セットの最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量からアミノ酸の質量を引いたものと等しい場合には、当該m/zピーク候補セットはｙ−系列（ｙ−シリーズ）であり、そのＣ−末端のアミノ酸が当該質量差に相当するアミノ酸である。これとは別に、あるm/zピーク候補セットの最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量から18を引き、さらにアミノ酸の質量を引いたものと等しい場合には、当該m/zピーク候補セットはｂ−系列であり、そのＮ−末端は質量差＋18に相当するアミノ酸である。

方向性決定の工程は、「類別述語（Classification
Predicate）」ということができる。或るm/zピークセットがａ−、ｂ−、ｃ−、ｘ−、ｙ−またはｚ−系列である（特に、ｂ−またはｙ−系列である）ことが確認されると（したがって、それらの方向性が判定されると）、その系列由来の「差異セット」を選別し、スコアリングに使用することができる（以下を参照）。

かくして、本発明の方法は、サンプルポリペプチドのプリカーサー質量を求める工程を追有する。プリカーサー質量は、「差異セット」の選別以外にも有用であり、いろいろな場合に求められる。
従って、別の方法としては、あるいは、追加の方法として、「差異セット」は次のような段階に従って選定することもできる：
（ａ）残りのm/zピーク候補セットについて、m/zピーク候補セットの各々の中で最も重いm/z値と前記サンプルポリペプチドのプリカーサー質量との差を計算し；
（ｂ）当該差をアミノ酸の質量と、さらにはアミノ酸の質量＋18ｕとを比較し；
（ｃ）比較段階（ｂ）の結果を相関させて、差が或るアミノ酸の質量と等しい場合には、Ｃ−末端に当該アミノ酸を有するｙ−系列「差異セット」であることが示唆され、また、差が或るアミノ酸の質量＋18ｕと等しい場合には、Ｎ−末端に当該アミノ酸を有するｂ−系列「差異セット」であることが示唆されるものとする。

このようにして、或るm/zピーク候補セットの方向性を判定することができ、さらに、そのm/zピーク候補セットに由来する推定アミノ酸配列の方向性を判定することもできる。
特に、上記３つの演繹的方法を組み合わせて「差異セット」を選別することにより、サンプルポリペプチドに対する推定アミノ酸配列を決定することができるような重要な情報が得られる。

「差異セット」の選別は、m/zピーク候補セットを簡単にするためのフィルターとしての働きをすると共に、残りのm/zピーク候補セットの各々に対して（すなわち、各推定アミノ酸配列に対して）スコアを割り当てる（付与する）ためのスコアリングシステムの基礎としても利用することができる。従って、本発明の方法によって得られた結果について判断がなされた場合には、それらの結果はスコアと共に提供される。

いろいろな系列、特に、ｂ−およびｙ−系列に関して、各系列について「変位m/z値（Displacement m/z
values）」〔すなわち、変位質量（Displacement
Masses）〕の数を数え、さらに、この数を対応する適切な系列（例えば、ｂ−またはｙ−系列）内のm/z値の数と比較することによりスコアを算出することができる。そして、系列（例えば、ｂ−またはｙ−系列）内のm/z値の数に対して変位m/z値の可能性があるものの数が多ければ多いほど、配列が正しい可能性が高く、故に、適切なスコアを与えることができる。

例えば、スコアは、各主要系列から得られた各変位系列（Displacement
Series）について変位m/z値（変位質量）の数を数え、この数を主要系列内のm/z値の数で割り、各変位系列について１以下の数値を与えることにより、スコアを算出することができる。かくして、例えば、主要ｂ−系列が５つの質量を有しており、ｂ−18系列が３つの質量を有する場合、３／５（0.6）というスコアが得られる。
ｂ−系列の場合、ｂ−系列のスコアには、ａ−系列の「変位質量」も含まれ得る。従って、ｂ−系列については、ｂ−17、ｂ−18、ａ、ａ−17およびａ−18からなる「変位系列」メンバーが含まれ、これらは、それぞれ、−17、−18、−28、−45および−46という「変位質量」に対応している。
ｙ−系列の場合には、ｙ−系列のスコアには、ｙ−系列の「変位質量」のみが含まれている。従って、ｙ−系列には、ｙ−17およびｙ−18から成る変位系列メンバーが含まれ、これらは、−17および−18という「変位質量」に対応している。
詳細については表７に示す。

かくして、主要ａ−、ｂ−、ｃ−、ｘ−、ｙ−またはｚ−系列から成るm/zピーク候補セットの残りの各々にスコアを割り当てることができ、該スコアは次のようにして計算される：
（ａ）前記主要系列から得ることができる各変位系列中の「変位」m/z値の数を求め；
（ｂ）段階（ａ）の結果を主要系列中のm/z値の数と相関させ；さらに、
（ｃ）相関段階（ｂ）の結果から求められたスコアを主要系列に割り当てる。
特に、この方法は主要系列であるｂ−またはｙ−系列に対して有効である。
ｂ−系列については、系列中の最大質量をｂ−系列中の最大質量または二番目に大きい質量として類別することに基づき、さらなるスコア因子が計算できる。ｙ−系列については、最大質量は、プロトン付加されたプリカーサーイオン質量のそれと同じであることから、最大質量はｙ−系列の二番目に大きい質量としてのみ類別される。ｙ−系列中の最大質量がこの規準に合致しない場合には、系列中の最小質量をｙ１イオンとして類別を行う。ｂ−またはｙ−系列についていずれかの規準が合致する場合には、スコアを増して（例えば、1.0）複合スコア（composite score）が得られる。複合スコアリング法は図６に図示されている。

上述したように、本発明は最新の（MS)ⁿ質量分析装置を使用して実施することができるが、ここで、（MS)^ｎのｎは少なくとも２であり、例えば、３、４または５であり、（MS)^ｎスペクトルは、工程（i）で得られたものである。サンプルポリペプチドについて作成される（MS)^ｎデータに関して、当該データはサンプルポリペプチドの質量スペクトルおよび少なくとも１組の（１セットの）プリカーサーイオン質量スペクトルから構成されており、それらのひとつひとつが選択されたプリカーサーイオンに対して判断される。すなわち、m/zピーク候補セット（複数）を各プリカーサーイオン質量スペクトルの各々に対して選定し、次に、それらのすべてを合わせて、工程（iii）の複数のm/zピーク候補セット（すなわち、m/zピーク候補セット群）が得られる。別の方法としては、プリカーサー質量スペクトルに対するm/zピーク候補セット（複数）をその対応するプリカーサー親イオンに加えて、拡張質量スペクトルを得ることもでき、それらの各々から複数のm/zピーク候補セットを選定することができる。

さらに詳述すれば、（MS)ⁿスペクトルを用いて拡張質量スペクトルを作成する場合、各（MS)ⁿスペクトルは、親の（MS)^n-1スペクトルから選択されたプリカーサーイオン（このプリカーサーイオンは或るm/z値を有する）から作成されるが、このとき、親のMS^n-1スペクトル内のピークであって前記プリカーサーイオンよりも小さいm/z値を有するピークを親の（MS)^n-1スペクトルから除外し、さらに、（MS)ⁿスペクトルを親の（MS)^n-1スペクトルに加えて、ハイブリッドMSⁿMS^n-1スペクトルを作成する。かくして、もし、親のMS²スペクトルが３つのプリカーサーイオンを有する場合には、それら３つをそれぞれ使用してMS³スペクトルを作成し、次に、各MS³スペクトルを用いてハイブリッドMS³MS²スペクトルを作成することができる。かくして、合計４つのスペクトル、すなわち、MS²スペクトルおよび３つのMS³MS²スペクトルを解析することができる。

プリカーサーイオンをMS³スペクトルのうちのひとつから選択し、さらにイオン化して用いることにより、MS⁴スペクトルを作成した場合には、上述に従い、これを用いてハイブリッドMS³MS⁴スペクトルを作成することができる（すなわち、この場合ｎ＝４であり、当該プリカーサーイオンのm/z値より小さい値を有する親のMS^n-1スペクトル中のピークを親のMS^n-1スペクトルから除外し、さらに、MSⁿスペクトルを親のMS^n-1スペクトルに加えることによってハイブリッドMSⁿMS^n-1スペクトルを作成する）。次に、共通の最低MSⁿ値（この場合はｎ＝３）を有するその他のスペクトルにこのハイブリッドMS⁴MS³スペクトルを加え、さらに、それらを用いて、MSⁿ値が共通最低MSⁿ値よりも１小さい少なくとも１つのスペクトル（すなわち、この場合は単一のMS²スペクトル）とのハイブリッドスペクトルを作成することができ、合計５つのスペクトル、すなわち、MS²スペクトル、３つのハイブリッドMS³MS²スペクトルおよび１つのハイブリッドMS⁴MS³MS²スペクトルを解析することができる。

本発明の方法は、ｎ＞２であるようなｎの任意の値、例えば、ｎ＝５、６、７、８、９または10に拡げて適用することができることは自明であろう。この系に関しては、プリカーサーイオンとして作用するイオン種が存在すること以外には基本的な制限はない。実際、本方法は、解析するスペクトルの数を実質的に増やしていくことが可能であり、故に、大量のデータを解析することができる。しかしながら、本発明の多様なフィルター述語、特に、「質量差異述語（Mass Difference Predicate）」（工程（ii））および「反射的述語（Reflective Predicate）」（工程（iii））により、データの量および作成される推定アミノ酸配列の数は容易に減らされる。
従って、ｎ＞２であるようなMSⁿスペクトルを使用することにより、樹木状（free-like）データ構造（すなわち、通常の再帰的ナビゲーションが可能である）が得られ、解析すべきスペクトルは木の幹（ｎ＝２）に作成され、ハイブリッドスペクトルは各枝に作成される。可能性のあるスペクトルに対するこのような再帰的反復およびスペクトルの「樹木状」構造の作成については、図８〜13に示す。
そのようなスペクトルおよびハイブリッドスペクトルの作成については、以下に説明する。
サンプルポリペプチドの推定アミノ酸配列を決定するための上述の方法は、演繹的方法から成るものと考えられる。しかしながら、本発明は、帰納的方法を使用するよう範囲を拡げて、推定アミノ酸配列を決定する。特に、MSおよび（MS)ⁿデータから推定配列を決定することを目的として、監視機械学習アルゴリズム（supervised
machine learning algorithms）を使用することができる。

かくして、追加のまたは別の方法として、帰納的方法を用いて差異セット、特にイオン系列を選別することができる。例えば、「差異セット」（例えば、イオン系列）は、次のようにして選定することができる：
（ａ）差異セットを選別するようにトレーニングされている監視学習アルゴリズム用のコンピューター実行プログラムコードへのインプットとして、m/zピーク候補セットを通過させ；さらに、
（ｂ）残りのm/zピーク候補セットから選別された「差異セット」をコンピューターからアウトプット（出力）する。
本発明において有用な監視学習アルゴリズムとしては、ｋ−NN〔T.M.ミッチェル（Mitchell）、「機械学習（Machine Learning）」、マグロウヒル国際版（McGraw-Hill
iInternational Editions）、1997年〕、C4.5〔J.R.キンラン（Quinlan）、「C4.5：機械学習用プログラム（C4.5: Programs for Machine Learning）」、モーガン・カウフマン（Morgan Kaufmann）社、1993年〕、CN2〔P.クラーク（Clark）およびT.ニブレット（Niblett）、「CN2帰納的アルゴリズム（The CN2 induction
algorithm）」、Machine Learning,
3(4): 261-283, 1989；P.クラーク（Clark）およびR.ボスウェル（Boswell）、「CN2を用いた規則帰納：最新の進歩（Rule induction with CN2: some recent improvements）」、ECML'91の要旨集、pp. 151-163、1991年）；R.ラコトマララ（Rakotomalala）、D.ジグヘッド（Zighed）、F.フェシェット（Feschet）、「規則帰納過程における規則特性付けの実験的評価（Empirical evaluation of rule characterization in rule
induction process）」、第14回サイバネティクスおよびシステム研究に関するヨーロッパ会議（the Fourteenth European Meeting on Cybernetics and System
Research）の要旨集、pp. 779-804、1998年）、RBF（ラジアルベースファンクション（Radial Base Function）ニューラルネットワーク〕、およびOC１〔マーシー（Murthy）, SKら、「斜め決定木誘導のためのシステム（A System for Induction of Oblique Decision Trees）」、Journal of Artificial Intelligence Research 2(1994)1-32〕などが挙げられる。

上記のアルゴリズムについて概説すると、ｋ−NNアルゴリズムでは、新規データセット内に由来する未知のデータポイントと分類済みのデータポイントに由来するｋの最近隣値とを比較する。この方法を用いると、未知のポイントに対するｋの最近隣値は、ポイントの属する適切な母集団に内在する可能性が高い。このアルゴリズムを使用するには、適宜スケーリングすることで、変数に付加された重みを減らす必要がある場合があるが、これは、ある極端な変数が識別上の意味をなさない場合に、その変数を完全に除去するためである。これは実験的に実施することが可能である。

C4.5アルゴリズムは決定木を生成し、効果的にテストから区分データ（partition
data）を生成する。このアルゴリズムは、利用可能なテストの質を判断することを目的として、エントロピーに基づく測定を採用している。しかしながら、このアルゴリズム単独ではテストに偏りがあり、それによってクラスの不確定性のレベルが低下するため、測定方法を一部修正し、偏りのない結果を多くもたらすことを確実にする。このアルゴリズムが他のアルゴリズムよりも優れている点は、予測可能なエラーに基づいたプルーニングをサポートしているので、オーバーフィッティングによる性能の低下がないことである。

ＣＮ２アルゴリズムは、このクラスの類似した方法よりも優れた点を有しており、それはすなわち、データ内の「その他の複雑な要素」を処理することができる能力を有することである。ＣＮ２は、複素数の探索中に、複数の負の例を含むと考えられるグループから複素数を自動的に除去することはなく、探索中に複素数を再び割り当て、与えられたクラスの多数例およびその他のクラスの少数例を網羅していることを統計的に証明する。ＣＮ２が探索を実施する方法は、一般的なものから特殊なものまで、である。それぞれの特殊化の段階で、新しい論理積項（conjunctive
term）を追加するか、または論理和項（disjunctive
term）を削除するか、のいずれかを行う。適切な複素数を発見すると、ＣＮ２アルゴリズムはトレーニングセット（training
set）に含まれている例を除去し、さらに、「複素数」を加え、規則リストの最後の「クラス」を予測する。このプロセスは、複素数をそれ以上リストに追加できなくなったときに、それぞれクラス単位で終了する。

RBFアルゴリズムは、ニューラルネットワーク技術に基づくものであり、ここで、ノード（節）からなるネットワークは、ヒトのシナプス神経接合部位（節として知られている）の作用をまねて作成されている。RBFネットワークはノードの層から構成されており、それらは属性の線形または非線型関数を実行し、さらに、アウトプットが目的ベクターと同じ様式を有するノードに対して加重連結した層を有する。隠れた層の各ノードがインプットのｎ任意関数を計算し、各アウトプットノードの伝達関数（transfer
function）が自明の恒等関数であること以外は、RBFネットワークは多層識別（Multilayer perception: MLP）と類似した構造をとっている。隠れた層は、ガウスの幅および位置などを用いた如何なる関数に対しても適切なパラメーターを有する。

RBFアルゴリズムが他のニューラルネットアルゴリズムに勝っている主な長所は、非線形関数の属性空間内において位置が定められると、線形トレーニング則を有することであり、これは、他のモデルで生じる長距離関数ではなく、属性空間内の局所関数を含む基本的モデルである。線形学習則は、特に、アウトプットの確率的解釈についてステートメントを作成する能力を強化することができるので、局所最小値に関連した問題を回避する。

OC1は、機械学習、決定木アルゴリズムであるが、C4.5とは異なり、単一の属性に基づく多様な境界上で決定を行う〔斜め決定（oblique
decisions）と称する〕。OC1は決定に際して属性の線形結合を利用するので、全ての属性が数値的であることを必要とする。

各監視学習アルゴリズムは、コンピュータープログラムの一部として作動する場合には、トレーニングデータセットを備える必要があり、これにより、新しいデータセットを解析して高い確率で正しい結果を返すことができるように学習することができる。この過程、すなわち、トレーニングデータセットから学習し、次にそれを用いて別のデータセットの予測および／または類別をする過程を「般化（generalization）」と称する。般化の過程においては、データを一連の予め定めたクラス（ｂ−またはｙ−差異セットなど）に分割する。

監視学習アルゴリズムは、「差異セット」の内容を判断するためのものであるので、トレーニングデータセットは「差異セット」、たとえば、ａ−、ｂ−およびｙ−イオン系列を含んでいる必要がある。また、トレーニングデータセットは、m/zピークセットの負（ネガティブ）の例を含むとともに、他の「差異セット」（例えば、ｘ−およびｚ−イオンセットなど）も含む。同様に、トレーニングデータは、例えば、ｗ−「差異セット」用にも供される。さらに、トレーニングデータは、ニュートラルロスセットを表すことにも用いられる。

本発明に従えば、コンピューターを使用してサンプルポリペプチドに対する少なくとも１つの推定アミノ酸配列を決定するための方法も提供され、ここで、該サンプルポリペプチドは部分分解されており、該方法は次のような工程を含む：
（i）前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、部分分解サンプルポリペプチドから得られたイオン種の一組のm/zピークを与える工程；
さらに、前記コンピューターを用い、
（ii）工程（i）で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セットの中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする工程；
（iii）工程（ii）で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程；
（iv）残りのm/zピークセットの中から「差異セット」を選別する工程し；
（v）残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程；さらに、
（vi）残りのm/zピーク候補セット各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程。
質量スペクトルは、手元にまたは遠方に設置された質量分析計からデータセットとして簡単に供給され、例えば、コンピューターデータベースまたはその他の保存媒体に保存することができる。
コンピューターは、その結果を任意の所望する様式（例えば、少なくとも１つの推定配列としてなど）でフィードバックすることができ、さらに、少なくとも１つの推定アミノ酸配列に関して、上述したような任意のスコアを与えたり、または、例えば、統計的データなどを伴うようにしてもよい。

本発明に従えば、サンプルポリペプチドに対する少なくとも１つの推定アミノ酸配列を決定するためのシステム（装置）も提供され、ここで、該サンプルポリペプチドは部分分解されており、該システムは次のものを含む：
（ａ）機械への以下の命令を記憶するメモリー、
（i）前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルから得られ、該部分分解サンプルポリペプチド由来のイオン種の一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする；
（ii）工程（i）で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する；
（iii）残りのm/zピークセットの中から「差異セット」を選別する；
（iv）残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する；さらに、
（v）残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列が、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする。
（ｂ）および、前記メモリーに接続されたプロセッサーであって、前記機械命令を実行することによって前記サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するプロセッサー。

さらに、本発明に従えば、サンプルポリペプチドに対する少なくとも１つの推定アミノ酸配列を決定するためのコンピュータープログラムが提供され、このとき、該サンプルポリペプチドは部分分解されており、該サンプルポリペプチドのソフトイオン化質量スペクトルが得られて、該部分分解されたサンプルポリペプチド由来のイオン種の一組のm/zピークが与えられており、該コンピュータープログラムは次のものを含む：
（i）前記一組のm/zピークから、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにするためのプログラムコード；
（ii）工程（i）で得られた各m/zピーク候補セットから、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外するためのプログラムコード；
（iii）残りのm/zピークセットの中から「差異セット」を選別するためのプログラムコード；
（iv）残りのm/zピーク候補セットから、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外するためのプログラムコード；さらに、
（v）残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにするためのプログラムコード。

さらに、本発明に従えば、サンプルポリペプチドに対して少なくとも１つの推定アミノ酸配列を決定するためのコンピュータープログラム製品（compute program product）が提供され、それには、コンピューターで使用可能な媒体が含まれており、その媒体は、該媒体内で具現化され、本発明に従う、コンピューター読み込み可能なプログラムコード手段を有する。

残りのm/zピークセット内の「差異セット」を選別するためのコンピュータープログラムコードは任意の適切な言語で作成することができるが、本発明者らは、本発明においては、Prologなどの論理プログラミング（Logic Programming）言語が特に有用であり、効果的であることを見出している。

本発明は、添付の図面を参照し、以下の詳細な記述によってさらに明らかになるが、これらは、m/zピークセットから推定アミノ酸配列を判断するひとつの様式の例としてのみ挙げたものである。

以下の実施例は、一組のm/zピークからどのようにして推定アミノ酸配列を決定するかを示すものである。プロリンを除く全てのアミノ酸は、原子団NH₂CHRCOOH（Rは側鎖を表わす）で区切られる。この基本構造は図４Aに示されているように図示することができ、グリシンの構造の例は図４Bに示されている。

図２の質量スペクトルに示される一組のm/zピークから始め、以下の式を用いる。これらは、パパヤノポウロス（Papayanopoulos）、IAの文献（既述）中の図式４に定義されているものとは異なることに注意されたい。ｙ_iイオンの基本構造は図４Cに示されており、ｂ_jイオンのそれは図４Dに示されている。

非修飾アミノ酸については、［C term（Ｃ末端）］＝［ＯＨ］および［N term（Ｎ末端）］＝［Ｈ］であり、これらをａ−およびｘ−娘イオンを表すように書き換えることができる（図５Ａはｘ_jイオンであり、図５Ｂはａ_jイオンである）。これらのイオンの質量を表す式は次のようになる：

図５Cはｚ−系列のイオン化メカニズムを示す。^aＲおよび^bＲは、アミノ酸のβ−炭素原子における置換基を表しており、それらは水素を失い、プロトンを付加したＨ⁺になる。図５Ｄは、ｃ−系列のイオン化メカニズムを示す。すなわち：

上記の式においては、１≦ｊ≦ｎ−１である。

「ａａ_i」は、i番目のアミノ酸の質量を表す。［Ｎ末端］、［Ｃ末端］、［ＣＯ］、［ＮＨ］、［ＮＨ₂］、［ＮＨ₃ ⁺］、［Ｈ］および［Ｈ⁺］は、それぞれの括弧内に含まれている基（原子団）の質量を表しており、すなわち、アミノ酸のＮ−末端に結合している官能基（通常はＨ＝１）、アミノ酸のＣ−末端に結合している官能基（通常はＯＨ＝17）、ＣＯ、ＮＨおよびＮＨ₂の質量を表す。

上記の式は１個のプロトン（陽子）が付加されたａ−、ｂ−、ｃ−、ｘ−、ｙ−およびｚ−ペプチドフラグメントイオンの質量の計算を行うためのものである。下付き文字のjは、ｎ個のアミノ酸から構成されているペプチドのj番目のフラグメントイオンを示す。Ｎ−末端フラグメントイオンの番号付けは、Ｎ−末端から始まっており、Ｃ−末端フラグメントイオンの番号付けはＣ−末端から始まっている。したがって、或るペプチドのＮ−末端からj番目のフラグメントイオンは、始めからj番目までのアミノ酸の質量の総和からなる質量を有する。これに対して、ペプチドのＣ−末端からj番目のフラグメントイオンは、最後からj番目までのアミノ酸の質量の総和からなる質量を有する。

上掲の式から、次のことが導かれる：
ａ_j−ａ_j-1＝ａａ_j
ｘ_j−ｘ_j-1＝ａａ_n-j+1
ｂ_j−ｂ_j-1＝ａａ_j
ｙ_j−ｙ_j-1＝ａａ_n-j+1
ｃ_j−ｃ_j-1＝ａａ_n-j+1
ｚ_j−ｚ_j-1＝ａａ_n-j+1

従って、或るサンプルポリペプチドの質量スペクトルから生成された一連のm/zピーク内の差異は、そのサンプルポリペプチドの配列内のアミノ酸の質量のパターンに従う。本明細書においては、これらの式を「差分方程式（Difference
Equations）」と称する。

さらに、次のような差分方程式が得られる：
ｂ_j−ａ_j＝［ＣＯ］＝28
ｂ_j−ｃ_j＝［ＮＨ₃］＝17
ｙ_j−ｘ_j＝［Ｈ₂］−［ＣＯ］＝−26
ｙ_j−ｚ_j＝［Ｈ₂］＋［ＮＨ］＝17

プリカーサーイオンの関係
プリカーサーイオン質量の相関性は、次の式で求めることもできる：
ｂj式およびｙj式を加え、さらに、［N末端］＝［H］および［Ｃ末端］＝［ＯＨ］と仮定することにより、以下の結果が得られる：

プロトンが付加されたプリカーサーイオン（precursor ion）の質量は、次のようにして計算することができる：

ここで、プリカーサーイオンにプロトンが付加している場合に［Ｈ⁺］が生じる。
従って、ｂ_j＋ｙ_n-j＝［プリカーサーイオン］＋［Ｈ］である。

エレクトロスプレー二重荷電イオンの相関性
エレクトロスプレー二重荷電イオンの相関性は、次のようにして求めることができ、
通常、エレクトロスプレーサンプルは、強力な二重荷電ピークを有する。

従って、ｂ_j＋ｙ_n-j＝２×［プリカーサーイオン］

最も大きい系列イオンとプリカーサーとの関係
１≦ｊ≦ｎ−１のとき、以下の式が導かれる：

すなわち、［プリカーサーイオン］−［ｂ_n-1］＝ａａ_n＋［ＯＨ］＋［Ｈ⁺］および、［プリカーサーイオン］−［ｙ_n-1］＝ａａ₂＋［ＯＨ］＋［Ｈ］＋［Ｈ⁺］−［ＯＨ］−［Ｈ2］
すなわち、［プリカーサーイオン］−［ｙ_n-1］＝ａａ₂

図２の一番上のスペクトルには16個の質量ピークが示されており、これらを用いて非常に多数の質量セットを選定するが、各セットには２〜16個の質量ピークが含まれており、サンプルポリペプチドの配列と相関している可能性がある。m/zピークセットの総数Mは次のように表される：

演繹的方法により、述語計算（predicate calculus）概念を用いて、Mのサブセットであるｍ_DN（DNはデ・ノボの短縮形）を選定する。述語計算は、ブール代数に由来する数学的手法であり、当該分野において既知である。

次の記述は真実である：∀ｍ_DN∈Ｍ、すなわち、各ｍ_DNセットはＭのサブセットである（∀は「全て」を意味し、∈はサブセットを表す）。
かくして、ｍ_DNセットは、セット内の各要素（メンバー）は、少なくともひとつの近隣のメンバーとアミノ酸１個分の質量が相異していなければならないという述語（「質量差異述語（Mass
Difference Predicate）」）を用いて演繹される（推測される）。このことは、（上述の）差分方程式を満たす。既述のように、述語に用いられるアミノ酸の質量セットは、標準的なアミノ酸の質量を用いることができ、または、所望する場合には、ふつうではないもしくは修飾（変性）されたアミノ酸の質量を含むことができ、あるいは、ある種のアミノ酸を除外することもできる。そのような質量を採用し、どのような質量を除外するのかについての決定は、サンプルポリペプチドに関して入手可能な情報に基づいて行うことができ、例えば、サンプルポリペプチドを産生した微生物の培養条件などが挙げられ、これは例えば、サンプルポリペプチド内に同位体元素ラベルしたアミノ酸が含まれている可能性があることなどを意味している。

配列番号１（ＲＥＧＧＡＩＦＥ）の配列を有するサンプルポリペプチドの質量スペクトルから、147、185、197、213、215、225、243、262、296、324、333、342、409、437、455、462、489、506、524、538、542、577、659、664、777、846、864、959、977および1076の値を有する一組のm/zピークが得られた。これらから導かれたm/zピーク候補セットを表１に示す。

これを行うためには、コンピュータープログラムによって「質量差異述語」に対する解を探査するが、コンピュータープログラムに表１に詳記している一組のm/zピーク値を入力し、先ず、根元質量（または「出発点」質量）を選択する。最も大きい質量を使用するが、表１の場合はこの質量は1076である。次に、根元質量よりも正確にアミノ酸１個分質量が小さい全ての質量を探査する。次に、そのような質量をそれぞれ用い、アミノ酸の質量分だけ離れた質量をさらに探し、可能な解が得られなくなるまでこれを繰り返す。

次に、新しい根元質量、すなわち、初めのものより小さい系列のものを用いてこの手法を繰り返す。表１に示す場合では、この質量は977であった。根元質量（1076）から見出された当初の系列に、新規に見出された系列を加えた。終わりから２番目の質量である185までこの手法を繰り返した。

このような手法から得られた結果にはm/zピーク候補セット群が含まれている。計算上の複雑さは非常に大きいが、これは、「質量差異述語」に対して当てはまる大量の解を評価しなければならないからであり、表１に示す単純なm/zピークセットについても、妥当な時間枠内においては、人間が行うことは不可能である。本発明に従えば、より複雑なm/z値のセットからm/zピーク候補セットおよび推定アミノ酸配列を判定することができ、また、考慮すべきセットにさらにm/z値を追加して、可能性のあるm/z値のセットの数が実質的に非線形様式で増えることも注目すべきことである。

表１からわかるように、計19個の基本となるm/zピーク候補セットを選定した。これらに加えて（簡略化のために示してはいないが）、表に示された各々の連続的部分列も導き出して、本発明の方法を用いて評価されるm/zピーク候補としている。連続的部分列の例としては、１欄に示しているｙ10、ｙ９、ｙ８−18系列が挙げられ、２つのサブセットｙ10、ｙ９およびｙ９、ｙ８−18も生成し、本発明の方法に従って解析することができる。同様に、m/z値が409、296および197から成るピークセットも生成し、これは11欄に記載しているセットのサブセットであるが、煩雑さを避けるために示していない。

表１の「系列（Series）」欄には、本発明の方法を実施した結果として得られたm/zピークについての情報を記載している。最初に得られる唯一のデータは、m/zピークデータであり、次にこのm/zピークデータを解析しフィルター掛けをすることによって「系列（Series）」情報が得られる。

表１には、次の５つを含む多数の系列（すなわち、m/zピーク候補セット）を示している：［ｙ10，ｙ９，ｙ８，ｙ７，ｙ６，ｙ５，ｙ４，ｙ３，ｙ２，ｙ１］（すなわち、m/zピークセット1076，977，864，777，664，577，462，333，262および147）、［ｙ９−18，ｙ８−18］（すなわち、m/zピークセット959および846）、［ｂ５，ｂ４，ｂ３，ｂ２］（すなわち、m/zピークセット542，455，342および243）、［ｂ５−18，ｂ４−18，ｂ３−18，ｂ２−18］（すなわち、m/zピークセット524，437，324および255）、および［ａ４−18，ａ３−18，ａ２−18］（すなわち、m/zピークセット409，296および197）。

最初の文字はイオン系列のタイプ（上述したように、後の過程で導かれるものであるが、便宜上ここに入れている。当初のデータにはm/zピーク値のみが含まれている）を表し、二番目の数字は、種（species）からの質量変位を表している。例えば、ｂ−18セットとは、ｂ−系列であり、全て水分子（質量は18ドルトン）変位があることを表している。ある種のアミノ酸は変位ピークを有する。一般的な変位質量（Displacement Masses）は、18ドルトン（Ｈ₂Ｏ）、28ドルトン（ＣＯ）および17ドルトン（ＮＨ₃）である。

ｍ_DNセットの全ての要素（メンバー）を推論するために、例えば、次のようにコンピュータープログラムを使用する。以下に詳述しているコードをProlog言語にフォーマットし、一組の論理的条件（論理的条件セット）、すなわち、述語（この場合は質量差異述語（Mass Difference Predicate））を満たすような全ての解を探す。プログラム言語自身は、逆トラッキング法を利用して一組の解（解セット）を自動的に見つけ出す。かくして、「質量差異述語」の要求を満たすようなｍ_DNセットのメンバーの選別は、以下のPrologコードを用いて行なうことができる：

amino- generator(［HROOTMASS|TAILMASSES］,ACCUMSEQUENCE,RESULT):-findall(X,amino
diff set(HROOTMASS,［HROOTMASS|TAILMASSES］,［］,X),NEXTROOTSEQUENCE),
contact(NEXTROOTSEQUENCE,ACCUMSEQUENCE,NEWAWQUENCE),
amino
generator(TAILMASSES,NEWAWQUENCE.RESULT).
ここで、HROOTMASS＝配列内の次の根元質量
TAILMASSES＝残っている質量
ACCUMSEQUENCE＝現在の解セット
RESULT＝最終結果を受け取るから（空）の計算変数
amino diff set＝Prologのゴール
X＝一般的な未知の変数
NEXTROOTSEQUENCE＝新規に発見された系列
NEWSEQUENCE＝解の最新リスト

ファインドオールゴール（findall goal）（述語）を用い、根元質量（HROOTMASS）から始めて全ての可能な配列を推定する。ファインドオールゴールは、所与の根元質量から全ての配列を生成することができるamino diff setゴール（述語）を使用する。検出された全ての系列は、コンカットゴール（concat goal）を用いて既存の系列に加える。最終的に、ゴールは、TAILMASSESを用いて、それ自身を再帰的にコールする。TAILMASSESとは、最も大きい質量（HROOTMASS）を除いた後の残りの質量ピークセットである。amino generatorに対する次のコールは、新しいHROOTMASS、すなわち、前回の質量セットから一段階小さい質量から始まる。

上記のコードはProlog用にフォーマットしたものであるが、その他の多様な言語、例えば、CC++、C#およびPASCALなどを用いて同様の手法を実施することもできる（例えば、同じプログラムをエミュレートするなど）。

図１にはアミノ酸の完全鎖を示しているが、イオン種のひとつが消失している場合や鎖の一部のみが存在している場合も多い。本発明は、「質量差異述語」を満たす限り、部分的な配列を決定することができる。本発明によれば部分鎖を見出すことも可能であることは、当初のm/zピークセット内の全ての質量を可能出発点ないしは根元質量として使用するという事実に由来する。
かくして、本発明により決定された少なくとも１つの推定アミノ酸配列は、サンプルポリペプチドに対して少なくとも２つの推定部分配列を含む。

表１は、示されている一組のm/z値に対する「質量差異述語」の解を示す。５つの正しい系列から４つの系列が見出されたが、それらは、２、６、９および15欄に記載されているm/zピークセットである。11欄のセットは、ａ−18系列であり、さらに質量数538の位置にもピークがあるが、538のピークは配列番号１に対応していない。
しかしながら、リスト内にはさらに14個の正しくない（または「誤」）系列が存在する。さらなる工程を経て誤系列を削除するが、これらの工程が、フィルター掛け工程とみなされるものである。このようなフィルター掛け工程を用いることにより、表１の「系列」欄内に与えられている情報から、イオン系列を類別することもできる。

反射述語（Reflective Predicate）
フィルター掛けには２つのメカニズムがある。第一のフィルター掛けメカニズムは、「反射述語」を用いるものであり、ｍ_DN対に適用する。アミノ酸の配列は、ａ−、ｂ−およびｃ−イオンとｘ−、ｙ−およびｚ−イオンとの間では逆向きである。この特性は、差分方程式内で数学的に示される。すなわち、Ｃ−末端イオン（ｘ−、ｙ−およびｚ−）はａａ_n-j+1項を有し、他方、Ｎ−末端イオンはａａ_j項を有する。２つのｍ_DNセット内における質量の分離に関する反転的または反射的性質は、図２に図示されており、ｙ質量イオンセットは配列ＥＧＧＡＩＦＥ（配列番号２）によって分離され、ｂイオンセットは配列ＦＩＡＧＧＥＲ（配列番号３）によって分離されおり、これは、部分的にｙセットの逆である。

表２および３は、単純なペプチドＬＹＬＫＧＥＲ（配列番号４）に対するｙ−およびｂ−系列を示す。
ｂ _ｊおよびｙ _ｊ欄は、隣接する質量との差を表している。差異を求める操作は分化（differenciation）と称され、連続したデータの分化によって得られた個々のデータアナログである。表３においては、順序が逆になっている。配列は、分化した系列から得られたものである。両系列は、部分配列ＹＬＫＧＥ（配列番号４のアミノ酸番号２〜６）を共有していることがわかる。

「反射述語フィルター」は、逆向きの分化質量間で一致したｍ_DN対があるだけで働く。この特性は数学的に次のように表される：
Ｒ_j ｍ _DNは_k ｍ _DNの連続的部分列である。
ここで、jｍ _DNは質量差のベクトル、すなわちｍ_DNの一次微分を表す。Rは逆対角行列を示し、例えば、３行３列の行列では次のようになる：
００１
０１０
１００

この「連続的部分列特性（contiguous subsequence property）」では、左辺のベクターは右辺のベクトル内に同じ順序ですべて含まれていることが必要である。例えば、ベクトル［１，２，３］は［７，８，１，２，３，５］の連続的部分列であって、［１，２］または［１，２，５，３］の連続的部分列ではない。以上の特性が満たされれば、_jｍ_DNおよび_kｍ_DNの双方がフィルターを掛けられたサブセットに含まれる。それら２つの系列は反射対（reflective pairs）として知られている。
そのような反射対はｍ_Rとして表される。正常なサブセット条件は次のようになる：
∀ｍ_R∈ｍ_DN∈Ｍ
すなわち、各ｍ_Rセットはｍ_DNセットのサブセットであり、ｍ_DNはＭのサブセットである。

表４は、「反射述語フィルター」の結果を示す。このフィルターは、長い系列をフラグメント化する傾向がある。重要なことは、ａ−18系列11から質量538の誤ピークを削除したことによって示されるように、誤ピークを削除するように作動することである。表４の11欄に示されている系列は、表１の欄11に示されている系列の連続的部分列であり、これは、本発明の方法によって選別されたものであり、これまで示されたことはない。15個の系列のうち、７個は、配列番号１に対応する真正系列の全配列かまたはフラグメントである。

ニュートラルロス述語
「反射述語フィルター（Reflective Predicate Filter）」によるフィルター掛けに続き、さらにフィルター掛けを実施して「置換イオン（Displacement Ions）」を選別する。この場合には「ニュートラルロス述語（Neutral Loss Predicate）」であり、これは演繹的方法の１つである。その他の場合として、または帰納的述語に加えて、「監視機械学習（Supervised Machine
Learning）アルゴリズム」などのような帰納的方法を用いてm/zピーク候補セット（複数）をフィルター掛けし、および／または類別することもできる。ニュートラルロス述語は、上述した「質量差異述語（Mass Differene
Predicate）」と同様に作動するが、ある種のイオン種に生じ得るニュートラルロスに基づいている。ニュートラルロスの特性は、イオン自身の性質によって定められ、従って、ニュートラルロスを選別（確認）することによりイオン種に関する情報を判断することができる。例えば、特定のアミノ酸には特定のニュートラルロスを受ける。したがって、ニュートラルロスを有するイオン種は、特異的なアミノ酸を含むものとして、または、アミノ酸セットのうちのひとつを有するものと判断することができる。ニュートラルロスはイオン種の末端から生じることから、特定のアミノ酸の位置、またはニュートラルロスに関与しているアミノ酸セットのうちの一つの位置を判断することもできる。
アミノ酸について生じるニュートラルロスの詳細については図３に示す。ニュートラルロスの例としては、18（H₂O）、17（NH₃）および34（H₂S）などが挙げられる。

そのようなニュートラルロスが選別されれば、次に、ニュートラルロスセットとしてm/zピーク候補セットをラベルし（分類し）、更には、特定の特性を有するものとして（すなわち、特定のアミノ酸を含むものと推定して）、m/zピーク候補セットを適切に分類することができる。m/zピーク候補セットをさらに単純化するために、ニュートラルセットと、同じ順序のピークを含むm/zピーク候補セットの相互関係を明らかにして、次に、互いの質量ピークを分類し、そして、最も短いm/zピーク候補セットを排除することができる。

表４からわかるように、「反射述語フィルター」の後に残っているm/zピーク候補セットは、他のセットから一定値分だけ変位したm/z値を有するピークを含む。例えば、表４の６欄では、m/zピーク候補セットは959および846という値のメンバーから成る。これらは、表４の５欄に記載されているm/zピーク候補セット（1076、977、864および777という値のメンバーから成る）の中の977および864から18ｕ変位している。
かくして、このフィルター掛けのメカニズムは、既知の「置換質量（Displacement Masses）」によって分けられた２つまたはそれ以上のピークを有するセットの対を選択することによって機能する。「差分方程式」から次のことがわかる：ｂ_j−ａ_j＝28
「質量差異述語」は、フィルター掛けメカニズムを提供すると共に、ａ−およびｂ−系列のみは28ドルトンで変位されることから、系列の類別にも用いることができる。系列の類別については以下にさらに記載している。

ａ−およびｂ−系列と同様に、26ドルトンで分離されるｙ−およびｘ−系列も存するが、実際にはｘ−系列はほとんど見つからない。「反射述語フィルター」を用いた場合のように、「質量差異述語」を持たす両系列は、フィルター掛けが終わったセット内に含まれている。そのような系列の対は「変位対（Displacement Pairs）」として知られている。
「質量差異述語」は、ｂ−およびｃ−系列の間にも適用できる。この場合には質量差はNH₃分（17ドルトン）である。同様に、ｙ−およびｚ−系列イオンは17ドルトンで変位される。

全ての28ドルトン質量差異系列はｍ_DN-28で表され、ここでも、サブセット条件が適用される：
∀ｍ_DN-28∈ｍ_DN∈Ｍ
いくつかの場合においては、質量差異述語は、反射的フィルター掛けを行った系列のサブセットにも適用することができ、その場合には、次の条件を有する：
∀ｍ_DN-28∈ｍ_R∈ｍ_DN∈Ｍ
残りのm/zピーク候補セットについては、追加の工程を実施することにより、他のものの連続的部分列であるm/zピーク候補セット（すなわち、そのメンバーが別のセット（単数または複数）のサブセットを形成はしないが、別のセット（単数または複数）の連続的部分列を形成するm/zピーク候補セット）を除外する。

m/zピーク候補セットで表されるアミノ酸配列は、一組のアミノ酸質量に対するm/zピーク値間の質量差を調べるだけで簡単に決定することができる。従って、m/zピーク値のセットは、直ちにアミノ酸配列に翻訳することができた。この作業は、最も重いm/z値もしくは最も軽いm/z値から、またはその他の任意の順で開始することができる。しかしながら、得られた配列は方向性を定める必要がある。すなわち、配列決定の基礎となるイオン種がａ、ｂまたはｃ−イオンであり、それらが、最も重いm/z値から最も軽い方へ向かっている場合には、アミノ酸配列の方向はＣからＮである。別の場合として、配列決定の基礎となるイオン種がｘ、ｙまたはｚ−イオンであり、それらが最も重いm/z値から最も軽い方へ向かっている場合には、アミノ酸配列の方向はＮからＣである。一般的には、アミノ酸配列はＮからＣ方向で表され、ａ、ｂまたはｃ−イオン種から得られた配列を、ｘ、ｙまたはｚ−イオン種から得られた配列と混同してはならない。

従って、推定アミノ酸配列を決定する方法におけるひとつの工程は、m/zピーク候補セット（複数）によって表されるアミノ酸配列の方向性を判断することであり、これは、パパヤノポウロス,IA（Papayannopoulos）（既述）らによる手法に従って行うことができる。基本的には、サンプルポリペプチドに対するプリカーサー質量がわかっており、m/zピーク候補セット値が既知であることから、各セット内の最も重い値をプリカーサーイオン質量と比較することにより、アミノ酸の質量、またはアミノ酸＋18ｕの質量に相関する差異を選別することができる。或るm/zピーク候補セットにおいて、その最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量から1個のアミノ酸の質量を差し引いたものと等しいことが見出された場合には、当該m/zピーク候補セットはｙ−系列であり、そのＣ−末端のメンバーは、当該質量差に相当するアミノ酸である。別の場合として、或るm/zピーク候補セットにおいて、その最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量から18を引き、さらに1個のアミノ酸の質量を差し引いたものと等しいことが見出された場合には、当該m/zピーク候補セットはｂ−系列であり、そのＮ−末端メンバーは、当該質量差＋18に相当するアミノ酸である。
例えば、図２には、配列ＲＥＧＧＡＩＦＥ（配列番号１）およびＥＦＩＡＧＧＥＲ（配列番号16）に対応する２つのm/zピーク候補セットが示されているが、方向性については示していないが、上述の工程を経ることによってm/zピーク候補セットに方向付けがなされる。

ｂ−ｙ系列の類別（類別述語）
或るm/zピーク候補セットがｂ−系列であるのかｙ−系列であるのかを判断することを目的として、ｂ_jおよびｙ_jの式から次の式が導かれる：

ｙ_n-1＝［プリカーサー（Precursor）＋Ｈ⁺］−ａａ₂ （式２）
従って、次のようになる：
ｂ_n＝［プリカーサーイオン（Precursor ion）＋Ｈ⁺］＋18 （式３）
式１〜式３において設定した条件を最も大きい質量に当てはめた場合、多数の異なるシナリオが得られ、それらはすなわち：
１．系列は、ｙ−およびｂ−系列として曖昧に類別される；
２．系列は、ｙ−系列ではなくｂ−系列として類別される；
３．系列は、ｂ−系列ではなくｙ−系列として類別される；
４．系列は、ｂ−系列にもｙ−系列にも類別されない；
ｂ−およびｙ−系列と考えられるものは、反射述語を満たす対（pairs）として見出される。これらの対に対して、上記の式を用いて対内の各系列の類別を行う。対内の各系列に対して４つのシナリオが存在することから、16個の結果が得られ、これらは行列（マトリックス）で表すことができる。類別に関する決定は、図７に示すように、カルノー図に基づく論理を用いて行うことができる。

図７を参照すると、例えば、もし、系列１はｙ−系列ではなくｂ−系列であると類別されるが、系列２はｂ−およびｙ−系列の両方として曖昧に類別される場合には、系列１はｂ−系列であり、系列２はｙ−系列であると類別されるということが分かる。
16個のシナリオ条件のうち、６個は類別エラーの可能性がある。類別エラーが生じた場合、「差異系列（Difference Series）」を計算して、−28（ａ−系列）、−45（ａ−17系列）および−46（ａ−18系列）から成る差異値を求める。系列１および系列２について、ａ−系列およびそれらのニュートラルロス変位の総数を比較し、大きい方の系列をｂ−系列と類別する。この類別法は、ａ−系列が一般的であり、ｘ−系列は稀であるという仮定に基づいている。

ニュートラルロスならびにｂ−およびｙ−系列からのａ−系列の発見
既にさらなるニュートラルロスおよびａ−系列を、類別済みのｂ−およびｙ−系列について計算することができる。変位値−17、−18、−28、−45および−46を用い、類別済みのｂ−系列からｂ−17、ｂ−18、ａ、ａ−17およびａ−18変位系列をそれぞれ計算することができる。同様に、変位値−17および−18を用い、類別済みのｙ−系列からｙ−17およびｙ−18「変位系列（Displacement Series）」をそれぞれ算出することができる。ｂ−およびｙ−系列とプリカーサー質量との関係は次の式で表される：
ｂ_j＋ｙ_n-j＝［プリカーサーイオン］＋１（式４）
この式から、次のようにして、ｙ−系列からａ−系列を計算し、また、ｂ−系列からｙ−系列を計算することができる：
ａ_j＋ｙ_n-j＝［プリカーサーイオン］−27 （式５）
ｂ_j＋ｙ−17_n-j＝［プリカーサーイオン］−16 （式６）
ｂ−17、ｂ−18、ａ−17およびａ−18イオン系列質量を有するｙ−系列イオン質量とプリカーサーイオン質量とを含む同様の式は、式５の−27を−16、−17、−44および−45に置き換えることによって導くことができる。ｙ−18を有するｂ−系列イオン質量とプリカーサーイオン質量とを含む同様の関係式は、式６の−16を−17に置き換えることによって導くことができる。

上に概説した２つの方法を用い、単純な変位因子を有する同じ末端由来の系列、および単純な変位因子を有する逆の末端由来の系列から「変位系列」を選定することができる。従って、同一の「変位系列」型（例えば、ａ−18）についてペプチドの両末端から計算できる２つの様式がある可能性がある。すなわち、ａ−18系列は、次の２つのセットで表される：
ａ−18_CTerm；および
ａ−18_NTerm
次に、２つのセットを合わせ、合わせたセットが「質量差異述語」を満たす場合には、２つのセットは互いに交換して使用することができる。「質量差異述語」を満たさない場合には、２つのセットは別々に記録する。
従って、
ａ−18combined＝ａ−18_CTerm＋∪ａ−18_NTerm
ｙ_n-1＝［プリカーサー＋Ｈ⁺］−ａａ₂ （式７）
である。
Ｃ−末端がＯＨである場合には、以下のようになる：
ｙ₁＝ａａ_n＋［Ｃ−末端］＋［Ｈ］＋［Ｈ⁺］＝ａａ_n＋19 （式８）

m/zピークセットのスコアリング
ｂ−およびｙ−系列に関するスコアは、各系列に対する可能な「変位質量（Displacement Masses）」の数を合計することによって計算する。他のすべての系列に対しては、スコアは０とする。可能な「変位質量」および相殺値（オフセット）を表７に示す。可能な各変位系列に対する「変位質量」の総数を、適宜、ｂ−またはｙ−系列内の質量の数で除算する（割る）ことにより、≦１の値が得られる。表７には、ｂ−またはｙ−系列に対して使用した「変位系列（Displacement Masses）」を示している。ｂ−系列は５つの「変位系列」が可能であり、最大置換スコアは５である。ｙ−系列は２つの「変位系列」が可能であり、最大スコアは２である。
ｂ−系列に関しては、ｂ−系列内の最大質量または二番目に大きい質量に従って系列内の最大質量を類別することに基づき、さらなる評価因子（スコアリング因子）を計算する。ｙ−系列に関しては、最大質量は、ｙ−系列の二番目に大きい質量に対してのみ類別されるが、これは、ｙ−系列内の最大質量がプリカーサーイオン質量のそれと等しいからである。これらの最大質量条件は、式１〜３で表される。
ｙ−系列の最大質量がこの規準に合致しない場合には、系列内の最小質量（ｙ₁イオン）類別する試みを行う。ｙ−系列内の最小質量は、式１０の条件に適合する場合には、ｙ₁イオンとして類別される。記述されている規準がｂ−系列にもｙ−系列にも適合しない場合には、変位スコアに1.0を加え、合成スコア（複合スコア）を得る。このようなスコア調整に関する論理は図６のフローチャートに示している。図６のチャートにおいては、10が「Ｙｅｓ」であり、20が「Ｎｏ」である。チャートのその他の部分は以下の通りである：
30：ｂ_top＝［プリカーサー＋Ｈ⁺］−18
40：ｂ_top-1＝［プリカーサー＋Ｈ⁺］−18−［アミノ酸質量］
50：ｂ_{adjusted score}＝変位スコア
60：ｂ_{adjusted score}＝変位スコア＋１
70：ｙ_top-1＝［プリカーサー＋Ｈ⁺］−［アミノ酸質量］
80：ｙ_{adjusted score}＝ｂ_{adjusted score}＋１
90：ｙ_bottom＝［アミノ酸質量］＋19
100：ｙ_{adjusted score}＝ｂ_{adjusted score}

［Ｃ末端］は通常ＯＨであるため、ｙ₁は次のように表すことができる：
ｙ₁＝ａａ₁＋19 （式10）

(ＭＳ) ⁿ データからのm/zピーク候補セットの選定
上述したように、本発明はｎ＞２の場合の(ＭＳ)ⁿデータを用いることができる。図８は、複合(ｍｓ)ⁿ樹木状データ構造用に得られた複数の経路を示す。４つの経路すべてに共通して(ｍｓ)^２スペクトルがあるが、各経路は別異の(ｍｓ)³スペクトルを有する。図９から１２は、４つの質量経路をそれぞれどのように解析したかを示している。点線で示した質量は、複合(ｍｓ)ⁿスペクトルの構築には使用しない。すなわち、ｍｓ¹スペクトルからは、単一のプリカーサーイオンm/zピークのみを採用する。後続の(ｍｓ)ⁿスペクトルに関しては、プリカーサーイオンのm/z値よりも大きいかまたは等しいm/z値を有する全てのピークを使用する。従って、更なる(ｍｓ)ⁿスペクトルが得られない場合には、最終スペクトル内の全てのピークを使用する。経路から得られた各質量系列を推定系列述語へのインプットとして使用する。次に、ｂ−ｙ系列他を選定することを目的として、各推定系列を他の述語へのインプットとして使用する。各経路から決定されたアミノ酸配列は、異なっている場合もあれば同一の場合もある。配列が同一である場合にはそれらを結合する。スコアリングも行い、また、配列に合成スコアを導入する。合成スコアは、上述に従って求められた個々の配列のスコアを総計することによって計算される。

「差異セット」の選定は、上述に従って行うか、または、監視学習アルゴリズムを用いることができる。例えば、表５は、監視学習アルゴリズムに通したトレーニングデータセットの一部を示しており、Ｍ１〜Ｍ６とラベルされた６つのm/zピークを有する。表６は、m/zピークに対してなされた類別の例を示す。「系列（Ser）」欄は、m/zピークによって表される系列の型（種類）を示しており、「類別」欄は、監視学習アルゴリズムによって指定された類別を示す。

配列の結合（スプライシング）とスコアリング
図２は、理想的な状況において、隣接の系列質量を差し引くことにより配列を決定する手法を示したものである。Ｎ−末端系列およびＣ−末端系列由来の配列を結合する場合、多数の異なるシナリオが可能になる。そのようなシナリオについては、配列を結合（スプライス）するメカニズムと共に図１４に示している。図１４においては、各円は、ＧまたはＡなどのような配列内の１個のアミノ酸を表している。斜線を付けた円は長い方の系列（配列）を表しており、べた黒の円は短い方の系列（配列）を表している。斜線とべた黒とが半々の円は、長い方の系列および短い方の系列の共通部分、すなわち、オーバラップ（重複）セグメントを示している。

図１４においては、110、140、170、210および250は長い配列を表している。120、150、180、220および260は短い配列を表している。130は、長い配列である110からのスプライシングによって得られたひとつの配列である。160は、配列140および150のスプライシングによって得られたひとつの伸長配列を表している。190は、170および180のスプライシングによって得られた、第一の長い配列（配列１）を表している。200は、170および180のスプライシングによって得られた第二の右スプライス配列（配列２）を表している。230は、210および220のスプライシングによって得られた第一の長い配列（配列１）を表している。240は、210および220のスプライシングによって得られた第二の短い配列（配列２）を表している。270は、250および260のスプライシングによって得られた第一の長い配列を表している。280は、250および260のスプライシングによって得られた第二の左スプライス配列（配列２）を表している。

示されている各シナリオ（110〜130、140〜160、170〜200、210〜240および250〜180）には、３個のアミノ酸が重複（オーバラップ）している領域がある。110〜130および140〜160として示されているシナリオは最も一般的なものであり、長い系列と短い系列とが互いに合致している。これらの場合に関しては、単一の系列（おそらく長い系列）、または長い系列が伸長されたものを採用する。図２においてｂ−およびｙ−系列からそれぞれ推定された単一の配列は、140〜160で示されているシナリオによって表されるものであり、６個のアミノ酸、ＦＩＡＧＧＥ（配列番号３のアミノ酸１〜６）が共通している。

残りのシナリオ（170〜200、210〜240および250〜180）は、配列が互いに一致していない場合に、使用するメカニズムを示している。これらのシナリオにおいては、２つの配列のうちの長い方を解配列（求める配列）のうちのひとつとする。その他の解は、短い方の配列の末端部位が重複セグメントであるか否かに依る。第三のシナリオ（170〜200）では、短い方の配列の右端から3個のアミノ酸が長い方の配列の中央部分と共通している。このような場合は、短い配列の全てに、長い配列の（重複セグメント後の）一部を加えることによって配列２を得る。

第四のシナリオ（210〜240）においては、短い配列は、共通セグメントの両側に異なるニーモニックを有しており、それぞれの配列を結合することはせず、長い配列と短い配列によって２つの解を得る。第五のシナリオ（250〜280）は第三のシナリオと類似するが、この場合は、短い系列の左側に共通セグメントが生じている。

或る配列に付与されるスコア値は、その配列が推定された元になる系列（配列）のスコア値に基づく。２つの配列を結合する第一および第二のシナリオにおいては、得られる単一の配列のスコアは、個々の系列のスコアを加算することによって計算される。他のすべてのシナリオにおいては、配列１には長い系列のスコアが与えられ、配列２には短い系列のスコアが与えられる。
この情報と共に、サンプルポリペプチドに対して少なくとも１つの推定アミノ酸配列を決定した。
上述の実施例は発明を限定するためのものではなく、当業者であれば容易に考えつくような多数の変形も、請求項に定義された発明の範囲を超えることなく実施することができる。

アミノ酸配列の解裂および娘イオン種の生成を示す図。一組のm/zピークの例を示す図であり、この一組のm/zピークから、推定アミノ酸配列を決定した。配列番号１の配列は、化合物スペクトル（一番上）をイオン種スペクトル（中央および一番下）に類別することによって推論した。アミノ酸の特性を示す表。各欄の文字は以下の通り：Ａ−３文字のアミノ酸コード；Ｂ−実験式；Ｃ−モノアイソトピック質量（Ｈ＝1.00782504、Ｃ＝12.0000000、Ｎ＝14.0030740、Ｏ＝15.9949146、Ｓ＝31.9720710）；Ｄ−平均質量（Ｈ＝1.0079、Ｃ＝12.011、Ｎ＝14.007、Ｏ＝15.999、Ｓ＝32.066）；Ｅ−側鎖［公称］；Ｆ−構造；Ｇ−ニュートラルロス（T.マッデン（Madden）ら、Org. MassSpectrom., 26,443(1991)）［公称］；Ｈ−インモニウムイオン（K.アンビハパシー（Ambihapathy）ら、J.Mass Spectrom., 32, 209(1997)、インモニウムイオンはFABMAS（ポジ）によって測定した）［公称］；Ｉ−インモニウムイオンに相対強度（Ｗ＝弱い、Ｓ＝強い、Ｖ＝非常に強い）；Ｊ−種類（Ａ＝無極性、Ｕ＝電荷を持たない極性、Ｃ＝電荷をもつ極性）；Ｋ−ブル＆ブリース（Bull&Breese）値（H.B.ブル（Bull）、K.ブリース（Breese）、Archives Biochem. Biophys., 161, 665-670(1974)）Ｌ−等電点；Ｍ−出現頻度（prowl.rockfeller. edu/aainfo/contents. htmなどを参照）（Ａ）はアミノ酸の基本構造、（Ｂ）はグリシンの構造の表記例、（Ｃ）はｙ_jイオンの基本構造、および（D)はｂ_jイオンの基本構造を示す図。（Ａ）はｘjイオンの基本構造、（Ｂ）はａjイオンの基本構造、（Ｃ）はｚ−系列のイオン化メカニズムであり、ｒ_j ^bおよびｒ_j ^aは互いに入れ換えることができ、（Ｄ）はｃ−系列のイオン化メカニズムを示す図。ｂ−系列およびｙ−系列中の最高値に割り当てられたスコアを調整するため、およびｙ₁イオンのための複合スコアリングシステム。ｂ−およびｙ−系列の類別に使用した、論理に基づくカルノー図。系列１（Series 1）および系列２（Series 2）において、−（上線）がついているものは、それらが当該系列として類別されていないことを示している。１〜４の番号を付けた４つの可能な推定系列（配列）経路を示す複合(ＭＳ)ⁿ樹木構造図。経路１推定系列（配列）質量を示す。経路２推定系列（配列）質量を示す。経路３推定系列（配列）質量を示す。経路４推定系列（配列）質量を示す。 (ｍｓ)²のみを使用した経路５推定系列（配列）質量を示す。Ｎ−およびＣ−末端系列（配列）のスプライシングを示す。

Claims

部分分解されたサンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、
（i）前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、該部分分解サンプルポリペプチドから得られるイオン種の一組のm/zピークを与える工程；
（ii）工程（i）で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セット中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸１個の質量分だけ異なっているようにする工程；
（iii）工程（ii）で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程；
（iv）残りのm/zピークセットの中から「差異セット」を選別する工程；
（v）残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程；さらに、
（vi）残りのm/zピーク候補セットの各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程；
を含むことを特徴とする方法。
請求項１に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
（ａ）残りのm/zピーク候補セットの各々を比較する段階；
（ｂ）比較段階（ａ）の結果を相関させて、前記m/zピーク候補セットのうちの第一のセットを含む「差異セット」を選別する段階であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって−17ｕ、−18ｕ、−34ｕまたは−48ｕ変位しているものの少なくとも一部を形成しているようにする段階；さらに、
（ｃ）−17ｕ「差異セット」のメンバーは、アスパラギン、グルタミン、リジンおよびアルギニンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し、−18ｕ「差異セット」のメンバーは、セリン、スレオニン、グルタミン酸およびチロシンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し、−34ｕ「差異セット」のメンバーは、システインを含むことが推定されるものとして分類し、−48ｕ「差異セット」のメンバーは、メチオニンを含むことが推定されるものとして分類し、各差異セットのうちの質量の軽いメンバーは、ニュートラルロスm/zピーク候補セットとして分類する段階；
を含むことを特徴とする方法。
請求項１または２に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
（ａ）残りのm/zピーク候補セットの各々を比較する段階；
（ｂ）比較段階（ａ）の結果を相関させて、前記m/zピーク候補セットのうちの第一のセットを含む差異セットを選定する工程であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって＋28ｕ、＋17ｕまたは−26ｕ変位しているものの少なくとも一部を形成しているようにする段階；さらに、
（ｃ）＋28ｕ「差異セット」のうちの重いものと軽いものをそれぞれ推定ｂ−およびａ−「差異セット」として分類し、−26ｕ「差異セット」のうちの重いものと軽いものをそれぞれ推定ｘ−およびｙ−「差異セット」として分類し、＋17ｕ「差異セット」のうちの重いものと軽いものをそれぞれ推定ｃ−およびｂ−「差異セット」として分類する段階。
を含むことを特徴とする方法。
請求項１〜３のいずれかに従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
（ａ）残りのm/zピーク候補セットについて、m/zピーク候補セットの各々の中で最も重いm/z値と前記サンプルポリペプチドのプリカーサー質量との差を計算し；
（ｂ）当該差をアミノ酸の質量と、さらにはアミノ酸の質量＋18ｕとを比較し；
（ｃ）比較段階（ｂ）の結果を相関させて、差が或るアミノ酸の質量と等しい場合には、Ｃ−末端に当該アミノ酸を有するｙ−系列「差異セット」であることが示唆され、また、差が或るアミノ酸の質量＋18ｕと等しい場合には、Ｎ−末端に当該アミノ酸を有するｂ−系列「差異セット」であることが示唆されるものとする；
ことによって行なわれることを特徴とする方法。
請求項１〜４のいずれかに従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
（ａ）「差異セット」を選別するようにトレーニングされる監視学習アルゴリズム用のコンピューター実行プログラムコードへのインプットとして、残りのm/zピーク候補セットを通過させ；さらに、
（ｂ）残りのm/zピーク候補セットから選別された「差異セット」をコンピューターからアウトプットする；
ことによって行なわれることを特徴とする方法。
請求項５に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、前記監視学習アルゴリズムが、ｋ−ＮＮ、Ｃ4.5、ＣＮ２、ＲＢＦおよびＯＣ１より成る群から選択されることを特徴とする方法。
請求項５または６に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、前記監視学習アルゴリズムは、ａ−、ｂ−、ｃ−、ｘ−、ｙ−およびｚ−「差異セット」より成る群から選択された「差異セット」を表すトレーニングデータを用いてトレーニングされることを特徴とする方法。
請求項５〜７のいずれかに従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、前記監視学習アルゴリズムは、ニュートラルロス「差異セット」を表すトレーニングデータを用いてトレーニングされることを特徴とする方法。
請求項１〜８のいずれかに従う方法であって、前記サンプルポリペプチドは、エクソペプチダーゼおよびエンドペプチダーゼより成る群から選択される酵素を用いて部分分解されていることを特徴とする方法。
請求項９に従う方法であって、前記サンプルポリペプチドがエンドペプチダーゼであるトリプシンを用いて部分分解されていることを特徴とする方法。
請求項１〜１０のいずれかに従う方法であって、複数のm/zピーク候補セットの選別が、
（ａ）工程（i）で得られたｘ個のピークを有する一組のm/zピークから、２〜ｘ個のメンバーから成るm/zピーク候補セットの可能性のある全てを選別し；さらに、
（ｂ）任意の１つのm/zピークとその近隣の少なくとも１つのピークとの間の質量差がアミノ酸1個の質量と等しくないようなm/zピーク候補セットを全て排除する；
ことによって行なわれることを特徴とする方法。
請求項１〜１１のいずれかに従う方法であって、質量差を比較するアミノ酸質量が化学的および翻訳後修飾されたアミノ酸より成る群から選択されるアミノ酸の質量であることを特徴とする方法。
請求項１〜１２のいずれかに前記質量スペクトルが(MS)ⁿスペクトルであり、ｎは少なくとも２であることを特徴とする方法。
請求項１〜１３のいずれかに従う方法であって、前記サンプルポリペプチドのプリカーサー質量を測定する工程を追有することを特徴とする方法。
請求項１〜１４のいずれかに従う方法であって、m/zピーク候補セットの残りのうちの少なくともひとつについて方向性を決定する工程を追有することを特徴とする方法。
請求項１〜１５のいずれかに従う方法であって、主要ａ−、ｂ−、ｃ−、ｘ−、ｙ−およびｚ−系列を含む残りのm/zピーク候補の各々にスコアを割り当てることを含み、該スコアの計算が、
（ａ）前記主要系列から得ることができる各変位系列中の「変位」m/z値の数を求め；
（ｂ）段階（ａ）の結果を主要系列中のm/z値の数と相関させ；さらに、
（ｃ）相関段階（ｂ）の結果から求められたスコアを主要系列に割り当てる。
ことによって行なわれることを特徴とする方法。
請求項１〜１６のいずれかに従う方法であって、前記サンプルポリペプチドに対して決定された少なくとも１つの推定アミノ酸配列が、前記サンプルポリペプチドの推定部分配列を少なくとも２つ含むことを特徴とする方法。
コンピューターを用いて、部分分解されたサンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、
（i）前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、部分分解サンプルポリペプチドから得られたイオン種の一組のm/zピークを与える工程；
さらに、前記コンピューターを用い、
（ii）工程（i）で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セットの中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする工程；
（iii）工程（ii）で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程；
（iv）残りのm/zピークセットの中から「差異セット」を選別する工程；
（v）残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程；さらに、
（vi）残りのm/zピーク候補セット各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程；
を含むことを特徴とする方法。
サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するための装置であって、
（ａ）機械への以下の命令を記憶するメモリー、
（i）前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルから得られ、該部分分解サンプルポリペプチド由来のイオン種の一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする；
（ii）工程（i）で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する；
（iii）残りのm/zピークセットの中から「差異セット」を選別する；
（iv）残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する；さらに、
（v）残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列が、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする；
（ｂ）および、前記メモリーに接続されたプロセッサーであって、前記機械命令を実行することによって前記サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するプロセッサー、
を含むことを特徴とする装置。
部分分解されたサンプルポリペプチドに対する少なくとも１つの推定アミノ酸配列を決定するためのコンピュータープログラムであって、該サンプルポリペプチドのソフトイオン化質量スペクトルが得られており、該部分分解されたサンプルポリペプチド由来のイオン種の一組のm/zピークが与えられており、：
（i）前記一組のm/zピークから、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも１つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにするためのプログラムコード；
（ii）工程（i）で得られた各m/zピーク候補セットから、各m/zピークと少なくとも１つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外するためのプログラムコード；
（iii）残りのm/zピークセットの中から「差異セット」を選別するためのプログラムコード；
（iv）残りのm/zピーク候補セットから、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外するためのプログラムコード；さらに、
（v）残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも１つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにするためのプログラムコード；
を含むことを特徴とするコンピュータープログラム。
請求項２０に従うコンピュータープログラムであって、残りのm/zピーク候補セットの中から「差異配列」を選別するためのプログラムコードが、論理プログラミング言語で書かれていることを特徴とするコンピュータープログラム。
サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するためのコンピュータープログラム製品であって、請求項２０または２１のいずれかに従う、コンピューターで読みとり可能なプログラムコードを含有しコンピューターで使用可能な媒体から成ることを特徴とするコンピュータープログラム製品。