JP2005528609A - 質量分析 - Google Patents

質量分析 Download PDF

Info

Publication number
JP2005528609A
JP2005528609A JP2004509407A JP2004509407A JP2005528609A JP 2005528609 A JP2005528609 A JP 2005528609A JP 2004509407 A JP2004509407 A JP 2004509407A JP 2004509407 A JP2004509407 A JP 2004509407A JP 2005528609 A JP2005528609 A JP 2005528609A
Authority
JP
Japan
Prior art keywords
peak
amino acid
mass
difference
acid sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004509407A
Other languages
English (en)
Other versions
JP4512486B2 (ja
Inventor
メイ ミカエル
ウェン ヤオ チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Research Laboratory Europe Ltd
Original Assignee
Shimadzu Research Laboratory Europe Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Research Laboratory Europe Ltd filed Critical Shimadzu Research Laboratory Europe Ltd
Publication of JP2005528609A publication Critical patent/JP2005528609A/ja
Application granted granted Critical
Publication of JP4512486B2 publication Critical patent/JP4512486B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • General Health & Medical Sciences (AREA)
  • Immunology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Cell Biology (AREA)
  • Medical Informatics (AREA)
  • Microbiology (AREA)
  • Evolutionary Biology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本発明は、質量分析装置、特に、(MS)n装置から得られたデータを用いるポリペプチドの新規な配列決定の方法に関する。

Description

本発明は、質量分析装置、特に、(MS)装置から得られたデータを用いるポリペプチドの新規な配列決定方法に関する。
現在、質量分析を使用して試料タンパク質/ポリペプチド(特に言及していない限り、本明細書においては、タンパク質とポリペプチドという二つの語は相互に読み替え得るものとする)を同定(確認)することは、当該分野において既知である。MASCOT(MOWSEアルゴリズムに基づく)などのタンパク質質量フィンガープリントプログラムは、タンパク質を酵素(トリプシンなど)分解したものから得られた質量分析データを利用し、一次配列データベースからタンパク質を同定しようとするものである(非特許文献1)。質量分析データからタンパク質を同定しようとする従来の試みにおいては、実験データは、酵素によってタンパク質を分解して得られたペプチドの分子量(質量の電荷に対する比として)であった。別の手法においては、1個またはそれ以上のペプチドから得られたタンデム質量分析データ(MS/MSまたはMS2としても知られている)を使用しており、この手法では、対象イオンを選択して、序列的な(hierarchical)生成物イオンスペクトルが得られるように、フラグメント化する。
注意すべきことは、これらの技術においては、MSまたはMS/MSデータからポリペプチドの配列が実際に得られるわけではなく、データベース上の(既知の)配列と質量分析データを比較することによってスコア(得点)または可能性を示し、そして、実験者は、分析したタンパク質の候補として好ましいデータベース配列(すなわち、最高スコア、または可能性が最も高いもの)を選択することができるにすぎない。
しかしながら、これらの従来法では、最新の質量分析法、すなわち、多数タンデム質量分析(multiple
tandem mass spectrometry;(MS))(時間/空間的に関してタンデムである)によって得られたデータを直接利用することはできない。なぜならば、そのような分析法によれば、非常に大量の序列的生成物イオンのデータが得られ、それらは非常に複雑であるために、データベースと比較することができない。さらに、従来法では、質量分析データ、特に高度に複雑化した(MS)スペクトルから直接的に実際の配列を得ることは不可能である。現在の(MS)装置としては、MS/MS(タンデム型、すなわち、n=2)質量分析装置、およびKratos
Axima QIT TOF質量分析装置などのような装置が挙げられる。
非特許文献2には、ペプチドのMS/MSタンデム質量スペクトルの解析、およびコンピュータープログラムに基づく解法について記載している。しかしながら、この文献記載の方法は非常に主観的なものであり、分子量の小さいペプチド(最大アミノ酸数が約20個)に対してしか適用することができず、与えられた一連のデータを如何に解析してアミノ酸配列候補を決定するのかについての特別な教示は呈示されていない。結論の項には、「さらに、質量分析装置の改良を続けることにより、分子量のより大きなペプチドおよび分子量の小さいタンパク質のタンデムCID質量スペクトルデータを得ることができるようになる:現在のところ、そのようなデータは実際の使用に限界があると考えられるが、・・・」さらに、「構造が未知であるペプチドのタンデムCID質量スペクトルの正確な解析は時として困難ではあるが、・・・・MS/MSデータを利用してペプチドの予測配列を確認すること、または、既知の配列に存在しない変形を確認することは、タンデム質量分析の利用に強く関心を抱く者であれば可能なことである。・・・・」と結んでいる。
さらに、非特許文献2には多数の誤りがあり、多様な娘イオン、変位(displacement)イオンおよびニュートラルロス(neutral loss)イオンに対する質量の計算が不正確であり、さらに/または、スペクトル中のイオン種へのm/zピークの帰属が不正確である。
従って、非特許文献2の教示に従っても、以下に詳細に示すような本発明の結論に到達することはできない。非特許文献2は、MS/MS(すなわち、MS2)スペクトルのみについて考察したものであり、n>2のMSについては言及していないことにも注目すべきである。
マトリックス・サイエンス(MatrixScirnce)社;パーキンス(Perkins)ら、Electrophoresis. 1990年12月;20(18): 3551-67;PMID: 10612281 パパヤノポウロス(Papayannopoulos)IA,「ペプチドの衝突誘導性解裂タンデム質量スペクトルの解析(Theinterpretation of collision-induced dissociation tandem mass spectra ofpeptides)」, Mass Spectrom. Rev., 1995,14(1)49-73
本発明は、タンパク質の配列決定の分野において、従来技術の欠点を克服し、有意かつ実質的な進歩を提供するものである。
本発明に従えば、サンプルポリペプチドに対して少なくともひとつの推定(すなわち、候補)アミノ酸配列を決定するための方法が提供され、ここで、該サンプルポリペプチドは部分分解されており、該方法は以下の工程を含む:
(i)前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、該部分分解サンプルポリペプチドから得られるイオン種の一組のm/zピークを与える工程;
(ii)工程(i)で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セット中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする工程;
(iii)工程(ii)で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程;
(iv)残りのm/zピークセットの中から「差異セット(Difference
Sets)」を選別する工程;
(v)残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程;さらに、
(vi)残りのm/zピーク候補セットの各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程。
或るm/zピークの「少なくとも1つの近隣のピーク」とは、当該m/zピークの値より大きいおよび/または小さいような、最も近いm/z値のものを意味する。例えば、仮にm/z値が375、300、347、372および331であるようなm/zピークのセットにおいては、ピーク値331は、2つの近隣ピーク、すなわち、300と347を有することになる。
サンプルポリペプチドの質量は少なくとも3000Daであり、例えば、少なくとも4000、5000、6000、7000、8000、9000、10000または15000Daである。サンプルポリペプチドを部分分解することにより、例えば、3000または4000Da以下の質量を有するフラグメントを得ることができる。
ソフトイオン化質量スペクトルにより、少なくとも3個のm/zピークが得られ、例えば、4、5、6、7、8、9、10、15、20、25、30、40、50、75または100個のm/zピークが得られる。
各m/zピーク候補セットは、少なくとも3個のm/zピークから成り、例えば、4、5、6、7、8、9、10、15、20、25、30、40、50、75または100個のm/zピークから成る。
本発明により、これまで解析不可能であると考えられてきた、質量スペクトルからのアミノ酸の候補配列の作成が可能になった。これは、工程(iii)において逆配列を使用することによって達成され、そのようなことはこれまで考えられていなかった。サンプルポリペプチドから得られるm/zピークに対応する質量ピークセットについて、考え得る全ての可能性のある候補を作成することにより、考え得る全ての可能性のある候補配列について確実に考慮することもできる。帰納的および/または演繹的過程を利用して差異セット(Difference
Sets)を選別する(identify)ことと併せて、本発明に従えば、サンプルポリペプチドの新規な配列決定(デノボシークエンス)を行うことができ、これは、従来技術に対する有意な効果である。
ソフトイオン化法は当該分野において既知であり、一般的には、イオン化されたサンプルについて最小限のフラグメント化を生じ、特に、極性および熱不安定な化合物について有効である。ソフトイオン化法の例としては、マトリックス支援レーザー脱離イオン化(MALDI)、エレクトロスプレーイオン化(EI)、大気圧化学イオン化(APCI)、高速電子衝撃(FAB)および化学イオン化(CI)などが挙げられるが、これらに限定されるわけではない。本発明においては、特に、MALDI−飛行時間(MALDI-TOF)質量分析が適用される。
MALDIに使用することができるマトリックス分子の例としては、2−アミノ−4−メチル−5−ニトロピリジン、2−アミノ−5−ニトロピリジン、6−アザ−2−チオチミン、カフェ酸、α−シアノ−4−ヒドロキシケイヒ酸(ACH)、2,5−ヒドロキシ安息香酸(ゲンチジン酸、DHB)、2,5−ジヒドロキシ安息香酸とフコース(1:1)、フェルラ酸、ローダミン6G(0.1M)を添加したグリセロール、2−(4−ヒドロキシフェニルアゾ)安息香酸(HABA)、3−ヒドロキシピコリン酸(HPA)、ニコチン酸、3−ニトロベンジルアルコール、ローダミン6Gを添加した3−ニトロベンジルアルコール、1,4−ジフェニル−1,3−ブタジエン(0.1M)を添加した3−ニトロベンジルアルコール、2−ピラジンカルボン酸、3,5−ジメトキシ−4−ヒドロキシケイヒ酸(シナピン酸、SA)およびスクシン酸などが挙げられ、当業者であれば、与えられたサンプルポリペプチドに対して、どのマトリックス分子を使用することができるかを正確に判断することができる。使用可能なその他のマトリックス分子としては、5−クロロ−2−ヒドロキシ安息香酸(5−クロロサリチル酸、CSA)、t−インドール−アクリル酸(IAA)5−メトキシサリチル酸(5−メトキシ−2−ヒドロキシ安息香酸、MSA)、ノーハーマン(9H-ピリド[3,4−b]インドール、nH)、ピコリン酸(2−ピリジンカルボン酸、PA)、2,4,6−トリヒドロキシ−アセトフェノン(THAP)および1,8,9−トリヒドロキシ−アントラセン(ジスラノール)、ならびに金属コバルト超微粉などが挙げられる。
一般的に、ペプチドイオンは、ペプチド骨格の位置で分解されて一連のフラグメントイオンを生成する(例えば、イオン化過程に由来する内部エネルギーの結果として)が、この現象は、例えば、サンプルポリペプチドを中性気体分子と衝突させることなど(すなわち、エレクトロスプレー質量分析において、衝突誘導性分解を利用することなど)によって補うことができる。MALDI分析においては、タンパク質/ペプチドがフラグメント化してイオンになる現象は、初期イオン化の結果のみならず、ポストソース分解(PSD)(時間飛行型(TOF)質量分析装置のイオンの軌跡に従って得られる)などのその他の事象の結果としても生じる。
タンパク質をイオン化することにより、タンパク質の構造に由来する多数のイオン種が生成する(図1参照)。例えば、CH−CO結合を解裂することにより、a−およびx−娘イオンが生成する。a−イオンはN−末端フラグメントであり、x−イオンはC−末端フラグメントである。同様に、骨格のCO−NH結合が解裂することにより、N−末端b−娘イオンおよびC−末端y−娘イオンが生成する。NH−CH結合が解裂することにより、N−末端c−娘イオンおよびC−末端z−娘イオンが生成する。最も生成頻度が高いイオン種は、b−およびy−娘イオン、ならびにa−娘イオンである。
いろいろな娘イオン種の各々からエンドイオンクラスター(End
Ion Clusters)を生成することも可能である。N−末端イオン種(すなわち、a、b−およびc−娘イオン)は、それぞれ、娘イオンから末端NH2基(16ドルトン)の質量を差引いた質量を有するハイブリッドイオンを生成することができる。
さらに、a−イオンにはプロトンが付加することができ、娘イオンの質量+1ドルトンの位置にハイブリッドピークを示す。その他のハイブリッドピークとしては、娘イオンの質量−2ドルトンおよび+1ドルトンの位置にピークが出現するが、これらはそれぞれ、yn−2イオンおよびz+1イオンに対応する。
例示配列NH2−CHR1−CO−NH−CHR2−CO−NH−CHR3−COOHにおいては、各CHR−CO−NHによってabcクラスター(すなわち、c−イオンはb−イオンよりも17ドルトン重く、b−イオンはa−イオンよりも28ドルトン重い)が生成し、同様に対応するxyzクラスターも生成する。タンパク質中の隣接するアミノ酸に由来するイオンおよびイオンのクラスターは、当該アミノ酸の質量分だけ異なっている。
本明細書においては、一般的に、これらの各種の娘イオンおよびエンドイオンクラスターが「差異イオン(Difference
Ions)」および「差異セット(Difference
Sets)」を構成し、それらは、いろいろな方法でm/zピーク候補セット(複数)の中から選別する(見分ける:identify)ことができる。「差異セット」には、候補のイオン系列(Series)(例えば、a−、b−、c−、x−、y−およびz−イオンなど)を選別することができる「変位セット(Displacement
Sets)」、およびアミノ酸に関する情報を提供することができる「ニュートラルロスセット(中性消失セット:Neutral
Loss Sets)」が含まれる。
本発明は、各種のフィルター掛け(filtering)工程および選別(identification)工程を採用することにより、与えられたm/zピークセットに帰着する可能性のある全てのあるアミノ酸配列を選別することができ、さらに、誤ったアミノ酸配列または大きな配列セットの連続的部分列(隣接部分列:contiguous subsequence)であるようなアミノ酸配列を除去して、少なくとも1つの推定アミノ酸配列を作成することができる。アミノ酸配列によっては、最終結果が1つの推定アミノ酸配列に絞られることもあれば、その他の(特に大きな)アミノ酸配列に対しては、元のサンプルポリペプチドのフラグメントに対応して、あるいは、特定の一組のm/zピークに対して1つ以上の解が得られることにより、1つ以上の推定アミノ酸配列が作成される場合もある。
重要なことは、本発明は、新規に推定アミノ酸配列を作成するものであり、データベース内にあり、また、サンプルポリペプチドの質量分析によって生成したm/zピークセットに相関づけるサンプルペプチドおよびその対応するm/zピークセットに依存しない。
サンプルポリペプチドは、エクソペプチダーゼ類およびエンドペプチダーゼ類より成る群から選択される酵素を用いて部分分解することができる。プロテアーゼ類には2つの基本的なサブクラスがあり、それらは、N−/C−末端から内向きにポリペプチドをタンパク質分解するエクソペプチダーゼ類、およびポリペプチド内の特定のアミノ酸配列においてポリペプチドをタンパク質分解するエンドペプチダーゼ類である。
エンドペプチダーゼ類は、少なくとも1つの推定アミノ酸配列が作成または検討された場合には、サンプルポリペプチドに関するさらなる情報を提供することから特に有用であり、さらに、エンドペプチダーゼ類は、サンプルポリペプチド内に存在する特定の配列を確認するのにも用いることができる。
例えば、本発明においては、エンドペプチダーゼであるトリプシンを用いることができる。その他の有用なエンドペプチダーゼ類は当該分野において既知であり、当業者においては自明である。
本発明の方法においては、工程(ii)でm/zピーク候補の複数のセットを選別することができ、この工程は次のような段階による:
(a)工程(i)で得られたx個のピークを有する一組のm/zピークから、2〜x個のメンバーから成るm/zピーク候補セットの可能性のある全てを選別し;さらに、
(b)任意の1つのm/zピークとその近隣の少なくとも1つのピークとの間の質量差がアミノ酸1個の質量と等しくないようなm/zピーク候補セットを全て排除する。
例えば、段階(b)において、各m/zピーク候補セットについて、各m/zピークとその近隣の少なくとも1つのピークとの間の質量差を求め、次いで、アミノ酸の質量とは異なる質量差を有するm/zピーク候補セットを全て排除する。
このようにして、ある一定数のm/zピーク候補セットのみを選別するのか、または、可能性のある全てのm/zピーク候補セットを全て選別する。2つの選択肢のうちでは、後者がより厳密であることが明らかであり、特に、サンプルポリペプチドについての情報が何もない状況においては、一般的に好ましい選択肢である。しかしながら、サンプルポリペプチドについて、末端アミノ酸配列などのような何らかの情報がある場合には、ポリペプチドに関して既知の情報に合致したm/zピーク候補セットのみを使用することができる。
当然、そのようなフィルター掛け工程は、少なくとも1つの推定アミノ酸配列を決定する過程において、任意の都合の良い段階で実施することができ、また、フィルター掛け工程を行うポイントを判断する場合には、プログラミングの簡便性、柔軟性、および/または、情報源の利用などの問題点も考慮に入れる。
m/zピーク候補のセットを作成するに当たっては、質量差の比較を行うアミノ酸の質量にも影響を受ける。例えば、アミノ酸質量のセットは、標準的なアミノ酸の質量のみから成り立っていることがある。別の場合として、サンプルポリペプチドがある特定のアミノ酸を含んでいないことがわかっているときには、該アミノ酸の質量を除外することができる。同様に、例えば、化学的に修飾された、および/または翻訳後に修飾されたアミノ酸を用いることもできる。その他のアミノ酸(天然に存在するものおよび合成されたものも)を用いることもでき、それらには、変性された、アミノ酸および通常には存在しないアミノ酸、例えば、2−アミノアジピン酸、2−アミノ酪酸、イソデスモシン、6−n−メチルリジンおよびノルバリンなどが含まれる。その他については、WIPO規準23の表4などに記載されている。同様に、放射性同位元素でラベルしたアミノ酸も許容される。
あるアミノ酸がサンプルポリペプチド中に存在していないことがわかっている場合には、m/zピーク候補セットを選定するためにアミノ酸質量のセットから該質量を除外する代わりに、m/zピーク候補セットを作成して、該アミノ酸を含むものを除外することもできる。しかしながら、この方法は、m/zピーク候補セットを選定するためにアミノ酸質量のセットから当該アミノ酸の質量を除外するよりも、計算がより複雑であるため、良い選択とはいえない。
工程(iii)で使用するフィルター掛け法は「反射述語フィルター(Reflective Predicate Filter)」と呼ばれ、当該分野において提案されているものではない。この方法は、質量分析によって発生する娘イオンのセット群の相互関係を明らかにする点において特に有用である。すなわち、m/zピークセットの候補について選定した質量差配列に関して、少なくとも部分的な逆順質量差配列(reverse-order
mass difference sequence)が存在しない場合には、当該m/zピーク候補セットを除外する。この工程により、m/zピーク候補のセット群(すなわち、アミノ酸配列候補群)から不適当な娘イオンを含むm/zピーク候補セットが除去される。例えば、m/zピークセット中の各ピークは、アミノ酸の質量分だけ異なっているが、該セットは多数のb−娘イオンとともにx−娘イオンを含んでいることもある。ピークセットがb−娘イオンピークのみによって構成されている場合には、同等の質量差分離れているy−娘イオンピークから成る相補的なセットが存在しているはずであり、その場合には、候補配列を除外しない。しかしながら、b−娘イオンおよびx−娘イオンから成るセットの場合には、質量ピークの相補的セットは、y−娘イオンおよびa−娘イオンから成るセットを含んでいると考えられ、質量差はそれらのアミノ酸の質量差に対応していないか、または、不正確であり、従って、x−娘イオンを含む候補配列を除外する。本明細書においては、「少なくとも部分的に」とは、別のアミノ酸の質量差配列との質量差が少なくとも2、3、4、5、6、7、8、9、10、15、20または25であることを意味している。比較対象となる2つの配列に関しては、一方が他方の連続的部分列でなければならない。
工程(iv)においては、多数の方法によって差異セットを選別することができるが、それらの方法は、大きく、演繹的過程と帰納的過程に分けることができる。演繹的過程では、論理的規則に基づいてm/zピークセットをどのように解釈すべきかを判断する。差異セットを選定するための第一の演繹的過程は、次の段階を含むものである:
(a)残りのm/zピーク候補セットの各々を比較する段階;
(b)比較段階(a)の結果を相関させて(相互関係を明らかにして)、前記m/zピーク候補セットのうちの第一のセットを含む「差異セット」を選別する段階であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって、−17u、−18u、−34uまたは−48u変位しているものの少なくとも一部を形成しているようにする段階;さらに、
(c)−17u「差異セット」のメンバーは、アスパラギン、グルタミン、リジンおよびアルギニンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し(ラベルし)、−18u「差異セット」のメンバーは、セリン、スレオニン、グルタミン酸およびチロシンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し、−34u「差異セット」のメンバーは、システインを含むことが推定されるものとして分類し、−48u「差異セット」のメンバーは、メチオニンを含むことが推定されるものとして分類し、 各「差異セット」のうちの質量の軽いメンバーは、ニュートラルロスm/zピーク候補セットとして分類する段階。
そのような差異セットを分類する(ラベルする)ときには、含有が推定されている上述のアミノ酸に従ってm/zピーク候補の第一および第二のセットの両方についてラベルする。
別の方法または追加の方法として、次のような段階を含むようにして「差異セット」を選定することもできる:
(a)残りのm/zピーク候補セットの各々を比較する段階;
(b)比較段階(a)の結果を相関させて、前記m/zピーク候補セットのうちの第一のセットを含む「差異セット」を選定する工程であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって、+28u、+17uまたは−26u変位しているものの少なくとも一部を形成しているようにする段階;さらに、
(c)+28u「差異セット」のうちの重いものと軽いものをそれぞれ推定b−およびa−差異セットとして分類し(ラベルし)、−26u「差異セット」のうちの重いものと軽いものをそれぞれ推定x−およびy−差異セットとして分類し、+17u「差異セット」のうちの重いものと軽いものをそれぞれ推定c−およびb−差異セットとして分類する段階。
m/zピーク候補セットによって表されるアミノ酸配列は、アミノ酸質量と照合しながら、m/zピーク値の間の質量差を調べることにより簡単に決定することができる。かくして、m/zピーク値の或る組合せ(セット)を直ちにアミノ酸配列に翻訳することができる。この操作は、最も重いm/zピーク値から、または最も軽いm/zピーク値から、あるいはその他の任意の順序で開始することができる。しかしながら、得られた配列には、方向性を定める必要が残されている。配列決定に起因するイオン種が、a−、b−またはc−イオンである場合には、これらは、m/zピーク値の重い方から軽い方に向かって、CからN方向にアミノ酸配列を与える。これとは別に、配列決定に起因するイオン種が、x−、y−またはz−イオンである場合には、m/zピーク値の重い方から軽い方に向かって、NからC方向にアミノ酸配列を与える。一般的に、アミノ酸配列はNからC方向に表され、a−、b−およびc−イオン種に由来する配列は、x−、y−およびz−イオン種に由来する配列と混同してはならない。
従って、推定アミノ酸配列を決定する方法におけるひとつの工程は、m/zピーク候補セットによって示されるアミノ酸配列の方向性を確定することであると言うことができ、この工程は、(既述の)パパヤノポウロス(Papayannopoulos)、IAによって記載された方法に従って行うことができる。サンプルポリペプチドのプリカーサー(前駆体)質量を求めておきm/zピーク候補セットの値が既知であれば、各セットのうちの最も重い値をプリカーサーイオン質量と比較して、アミノ酸の質量またはアミノ酸+18uの質量に相関する差異を選別することができる。あるm/zピーク候補セットの最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量からアミノ酸の質量を引いたものと等しい場合には、当該m/zピーク候補セットはy−系列(y−シリーズ)であり、そのC−末端のアミノ酸が当該質量差に相当するアミノ酸である。これとは別に、あるm/zピーク候補セットの最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量から18を引き、さらにアミノ酸の質量を引いたものと等しい場合には、当該m/zピーク候補セットはb−系列であり、そのN−末端は質量差+18に相当するアミノ酸である。
方向性決定の工程は、「類別述語(Classification
Predicate)」ということができる。或るm/zピークセットがa−、b−、c−、x−、y−またはz−系列である(特に、b−またはy−系列である)ことが確認されると(したがって、それらの方向性が判定されると)、その系列由来の「差異セット」を選別し、スコアリングに使用することができる(以下を参照)。
かくして、本発明の方法は、サンプルポリペプチドのプリカーサー質量を求める工程を追有する。プリカーサー質量は、「差異セット」の選別以外にも有用であり、いろいろな場合に求められる。
従って、別の方法としては、あるいは、追加の方法として、「差異セット」は次のような段階に従って選定することもできる:
(a)残りのm/zピーク候補セットについて、m/zピーク候補セットの各々の中で最も重いm/z値と前記サンプルポリペプチドのプリカーサー質量との差を計算し;
(b)当該差をアミノ酸の質量と、さらにはアミノ酸の質量+18uとを比較し;
(c)比較段階(b)の結果を相関させて、差が或るアミノ酸の質量と等しい場合には、C−末端に当該アミノ酸を有するy−系列「差異セット」であることが示唆され、また、差が或るアミノ酸の質量+18uと等しい場合には、N−末端に当該アミノ酸を有するb−系列「差異セット」であることが示唆されるものとする。
このようにして、或るm/zピーク候補セットの方向性を判定することができ、さらに、そのm/zピーク候補セットに由来する推定アミノ酸配列の方向性を判定することもできる。
特に、上記3つの演繹的方法を組み合わせて「差異セット」を選別することにより、サンプルポリペプチドに対する推定アミノ酸配列を決定することができるような重要な情報が得られる。
「差異セット」の選別は、m/zピーク候補セットを簡単にするためのフィルターとしての働きをすると共に、残りのm/zピーク候補セットの各々に対して(すなわち、各推定アミノ酸配列に対して)スコアを割り当てる(付与する)ためのスコアリングシステムの基礎としても利用することができる。従って、本発明の方法によって得られた結果について判断がなされた場合には、それらの結果はスコアと共に提供される。
いろいろな系列、特に、b−およびy−系列に関して、各系列について「変位m/z値(Displacement m/z
values)」〔すなわち、変位質量(Displacement
Masses)〕の数を数え、さらに、この数を対応する適切な系列(例えば、b−またはy−系列)内のm/z値の数と比較することによりスコアを算出することができる。そして、系列(例えば、b−またはy−系列)内のm/z値の数に対して変位m/z値の可能性があるものの数が多ければ多いほど、配列が正しい可能性が高く、故に、適切なスコアを与えることができる。
例えば、スコアは、各主要系列から得られた各変位系列(Displacement
Series)について変位m/z値(変位質量)の数を数え、この数を主要系列内のm/z値の数で割り、各変位系列について1以下の数値を与えることにより、スコアを算出することができる。かくして、例えば、主要b−系列が5つの質量を有しており、b−18系列が3つの質量を有する場合、3/5(0.6)というスコアが得られる。
b−系列の場合、b−系列のスコアには、a−系列の「変位質量」も含まれ得る。従って、b−系列については、b−17、b−18、a、a−17およびa−18からなる「変位系列」メンバーが含まれ、これらは、それぞれ、−17、−18、−28、−45および−46という「変位質量」に対応している。
y−系列の場合には、y−系列のスコアには、y−系列の「変位質量」のみが含まれている。従って、y−系列には、y−17およびy−18から成る変位系列メンバーが含まれ、これらは、−17および−18という「変位質量」に対応している。
詳細については表7に示す。
かくして、主要a−、b−、c−、x−、y−またはz−系列から成るm/zピーク候補セットの残りの各々にスコアを割り当てることができ、該スコアは次のようにして計算される:
(a)前記主要系列から得ることができる各変位系列中の「変位」m/z値の数を求め;
(b)段階(a)の結果を主要系列中のm/z値の数と相関させ;さらに、
(c)相関段階(b)の結果から求められたスコアを主要系列に割り当てる。
特に、この方法は主要系列であるb−またはy−系列に対して有効である。
b−系列については、系列中の最大質量をb−系列中の最大質量または二番目に大きい質量として類別することに基づき、さらなるスコア因子が計算できる。y−系列については、最大質量は、プロトン付加されたプリカーサーイオン質量のそれと同じであることから、最大質量はy−系列の二番目に大きい質量としてのみ類別される。y−系列中の最大質量がこの規準に合致しない場合には、系列中の最小質量をy1イオンとして類別を行う。b−またはy−系列についていずれかの規準が合致する場合には、スコアを増して(例えば、1.0)複合スコア(composite score)が得られる。複合スコアリング法は図6に図示されている。
上述したように、本発明は最新の(MS)n質量分析装置を使用して実施することができるが、ここで、(MS)のnは少なくとも2であり、例えば、3、4または5であり、(MS)スペクトルは、工程(i)で得られたものである。サンプルポリペプチドについて作成される(MS)データに関して、当該データはサンプルポリペプチドの質量スペクトルおよび少なくとも1組の(1セットの)プリカーサーイオン質量スペクトルから構成されており、それらのひとつひとつが選択されたプリカーサーイオンに対して判断される。すなわち、m/zピーク候補セット(複数)を各プリカーサーイオン質量スペクトルの各々に対して選定し、次に、それらのすべてを合わせて、工程(iii)の複数のm/zピーク候補セット(すなわち、m/zピーク候補セット群)が得られる。別の方法としては、プリカーサー質量スペクトルに対するm/zピーク候補セット(複数)をその対応するプリカーサー親イオンに加えて、拡張質量スペクトルを得ることもでき、それらの各々から複数のm/zピーク候補セットを選定することができる。
さらに詳述すれば、(MS)nスペクトルを用いて拡張質量スペクトルを作成する場合、各(MS)nスペクトルは、親の(MS)n-1スペクトルから選択されたプリカーサーイオン(このプリカーサーイオンは或るm/z値を有する)から作成されるが、このとき、親のMSn-1スペクトル内のピークであって前記プリカーサーイオンよりも小さいm/z値を有するピークを親の(MS)n-1スペクトルから除外し、さらに、(MS)nスペクトルを親の(MS)n-1スペクトルに加えて、ハイブリッドMSnMSn-1スペクトルを作成する。かくして、もし、親のMS2スペクトルが3つのプリカーサーイオンを有する場合には、それら3つをそれぞれ使用してMS3スペクトルを作成し、次に、各MS3スペクトルを用いてハイブリッドMS3MS2スペクトルを作成することができる。かくして、合計4つのスペクトル、すなわち、MS2スペクトルおよび3つのMS3MS2スペクトルを解析することができる。
プリカーサーイオンをMS3スペクトルのうちのひとつから選択し、さらにイオン化して用いることにより、MS4スペクトルを作成した場合には、上述に従い、これを用いてハイブリッドMS3MS4スペクトルを作成することができる(すなわち、この場合n=4であり、当該プリカーサーイオンのm/z値より小さい値を有する親のMSn-1スペクトル中のピークを親のMSn-1スペクトルから除外し、さらに、MSnスペクトルを親のMSn-1スペクトルに加えることによってハイブリッドMSnMSn-1スペクトルを作成する)。次に、共通の最低MSn値(この場合はn=3)を有するその他のスペクトルにこのハイブリッドMS4MS3スペクトルを加え、さらに、それらを用いて、MSn値が共通最低MSn値よりも1小さい少なくとも1つのスペクトル(すなわち、この場合は単一のMS2スペクトル)とのハイブリッドスペクトルを作成することができ、合計5つのスペクトル、すなわち、MS2スペクトル、3つのハイブリッドMS3MS2スペクトルおよび1つのハイブリッドMS4MS3MS2スペクトルを解析することができる。
本発明の方法は、n>2であるようなnの任意の値、例えば、n=5、6、7、8、9または10に拡げて適用することができることは自明であろう。この系に関しては、プリカーサーイオンとして作用するイオン種が存在すること以外には基本的な制限はない。実際、本方法は、解析するスペクトルの数を実質的に増やしていくことが可能であり、故に、大量のデータを解析することができる。しかしながら、本発明の多様なフィルター述語、特に、「質量差異述語(Mass Difference Predicate)」(工程(ii))および「反射的述語(Reflective Predicate)」(工程(iii))により、データの量および作成される推定アミノ酸配列の数は容易に減らされる。
従って、n>2であるようなMSnスペクトルを使用することにより、樹木状(free-like)データ構造(すなわち、通常の再帰的ナビゲーションが可能である)が得られ、解析すべきスペクトルは木の幹(n=2)に作成され、ハイブリッドスペクトルは各枝に作成される。可能性のあるスペクトルに対するこのような再帰的反復およびスペクトルの「樹木状」構造の作成については、図8〜13に示す。
そのようなスペクトルおよびハイブリッドスペクトルの作成については、以下に説明する。
サンプルポリペプチドの推定アミノ酸配列を決定するための上述の方法は、演繹的方法から成るものと考えられる。しかしながら、本発明は、帰納的方法を使用するよう範囲を拡げて、推定アミノ酸配列を決定する。特に、MSおよび(MS)nデータから推定配列を決定することを目的として、監視機械学習アルゴリズム(supervised
machine learning algorithms)を使用することができる。
かくして、追加のまたは別の方法として、帰納的方法を用いて差異セット、特にイオン系列を選別することができる。例えば、「差異セット」(例えば、イオン系列)は、次のようにして選定することができる:
(a)差異セットを選別するようにトレーニングされている監視学習アルゴリズム用のコンピューター実行プログラムコードへのインプットとして、m/zピーク候補セットを通過させ;さらに、
(b)残りのm/zピーク候補セットから選別された「差異セット」をコンピューターからアウトプット(出力)する。
本発明において有用な監視学習アルゴリズムとしては、k−NN〔T.M.ミッチェル(Mitchell)、「機械学習(Machine Learning)」、マグロウヒル国際版(McGraw-Hill
iInternational Editions)、1997年〕、C4.5〔J.R.キンラン(Quinlan)、「C4.5:機械学習用プログラム(C4.5: Programs for Machine Learning)」、モーガン・カウフマン(Morgan Kaufmann)社、1993年〕、CN2〔P.クラーク(Clark)およびT.ニブレット(Niblett)、「CN2帰納的アルゴリズム(The CN2 induction
algorithm)」、Machine Learning,
3(4): 261-283, 1989;P.クラーク(Clark)およびR.ボスウェル(Boswell)、「CN2を用いた規則帰納:最新の進歩(Rule induction with CN2: some recent improvements)」、ECML'91の要旨集、pp. 151-163、1991年);R.ラコトマララ(Rakotomalala)、D.ジグヘッド(Zighed)、F.フェシェット(Feschet)、「規則帰納過程における規則特性付けの実験的評価(Empirical evaluation of rule characterization in rule
induction process)」、第14回サイバネティクスおよびシステム研究に関するヨーロッパ会議(the Fourteenth European Meeting on Cybernetics and System
Research)の要旨集、pp. 779-804、1998年)、RBF(ラジアルベースファンクション(Radial Base Function)ニューラルネットワーク〕、およびOC1〔マーシー(Murthy), SKら、「斜め決定木誘導のためのシステム(A System for Induction of Oblique Decision Trees)」、Journal of Artificial Intelligence Research 2(1994)1-32〕などが挙げられる。
上記のアルゴリズムについて概説すると、k−NNアルゴリズムでは、新規データセット内に由来する未知のデータポイントと分類済みのデータポイントに由来するkの最近隣値とを比較する。この方法を用いると、未知のポイントに対するkの最近隣値は、ポイントの属する適切な母集団に内在する可能性が高い。このアルゴリズムを使用するには、適宜スケーリングすることで、変数に付加された重みを減らす必要がある場合があるが、これは、ある極端な変数が識別上の意味をなさない場合に、その変数を完全に除去するためである。これは実験的に実施することが可能である。
C4.5アルゴリズムは決定木を生成し、効果的にテストから区分データ(partition
data)を生成する。このアルゴリズムは、利用可能なテストの質を判断することを目的として、エントロピーに基づく測定を採用している。しかしながら、このアルゴリズム単独ではテストに偏りがあり、それによってクラスの不確定性のレベルが低下するため、測定方法を一部修正し、偏りのない結果を多くもたらすことを確実にする。このアルゴリズムが他のアルゴリズムよりも優れている点は、予測可能なエラーに基づいたプルーニングをサポートしているので、オーバーフィッティングによる性能の低下がないことである。
CN2アルゴリズムは、このクラスの類似した方法よりも優れた点を有しており、それはすなわち、データ内の「その他の複雑な要素」を処理することができる能力を有することである。CN2は、複素数の探索中に、複数の負の例を含むと考えられるグループから複素数を自動的に除去することはなく、探索中に複素数を再び割り当て、与えられたクラスの多数例およびその他のクラスの少数例を網羅していることを統計的に証明する。CN2が探索を実施する方法は、一般的なものから特殊なものまで、である。それぞれの特殊化の段階で、新しい論理積項(conjunctive
term)を追加するか、または論理和項(disjunctive
term)を削除するか、のいずれかを行う。適切な複素数を発見すると、CN2アルゴリズムはトレーニングセット(training
set)に含まれている例を除去し、さらに、「複素数」を加え、規則リストの最後の「クラス」を予測する。このプロセスは、複素数をそれ以上リストに追加できなくなったときに、それぞれクラス単位で終了する。
RBFアルゴリズムは、ニューラルネットワーク技術に基づくものであり、ここで、ノード(節)からなるネットワークは、ヒトのシナプス神経接合部位(節として知られている)の作用をまねて作成されている。RBFネットワークはノードの層から構成されており、それらは属性の線形または非線型関数を実行し、さらに、アウトプットが目的ベクターと同じ様式を有するノードに対して加重連結した層を有する。隠れた層の各ノードがインプットのn任意関数を計算し、各アウトプットノードの伝達関数(transfer
function)が自明の恒等関数であること以外は、RBFネットワークは多層識別(Multilayer perception: MLP)と類似した構造をとっている。隠れた層は、ガウスの幅および位置などを用いた如何なる関数に対しても適切なパラメーターを有する。
RBFアルゴリズムが他のニューラルネットアルゴリズムに勝っている主な長所は、非線形関数の属性空間内において位置が定められると、線形トレーニング則を有することであり、これは、他のモデルで生じる長距離関数ではなく、属性空間内の局所関数を含む基本的モデルである。線形学習則は、特に、アウトプットの確率的解釈についてステートメントを作成する能力を強化することができるので、局所最小値に関連した問題を回避する。
OC1は、機械学習、決定木アルゴリズムであるが、C4.5とは異なり、単一の属性に基づく多様な境界上で決定を行う〔斜め決定(oblique
decisions)と称する〕。OC1は決定に際して属性の線形結合を利用するので、全ての属性が数値的であることを必要とする。
各監視学習アルゴリズムは、コンピュータープログラムの一部として作動する場合には、トレーニングデータセットを備える必要があり、これにより、新しいデータセットを解析して高い確率で正しい結果を返すことができるように学習することができる。この過程、すなわち、トレーニングデータセットから学習し、次にそれを用いて別のデータセットの予測および/または類別をする過程を「般化(generalization)」と称する。般化の過程においては、データを一連の予め定めたクラス(b−またはy−差異セットなど)に分割する。
監視学習アルゴリズムは、「差異セット」の内容を判断するためのものであるので、トレーニングデータセットは「差異セット」、たとえば、a−、b−およびy−イオン系列を含んでいる必要がある。また、トレーニングデータセットは、m/zピークセットの負(ネガティブ)の例を含むとともに、他の「差異セット」(例えば、x−およびz−イオンセットなど)も含む。同様に、トレーニングデータは、例えば、w−「差異セット」用にも供される。さらに、トレーニングデータは、ニュートラルロスセットを表すことにも用いられる。
本発明に従えば、コンピューターを使用してサンプルポリペプチドに対する少なくとも1つの推定アミノ酸配列を決定するための方法も提供され、ここで、該サンプルポリペプチドは部分分解されており、該方法は次のような工程を含む:
(i)前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、部分分解サンプルポリペプチドから得られたイオン種の一組のm/zピークを与える工程;
さらに、前記コンピューターを用い、
(ii)工程(i)で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セットの中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする工程;
(iii)工程(ii)で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程;
(iv)残りのm/zピークセットの中から「差異セット」を選別する工程し;
(v)残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程;さらに、
(vi)残りのm/zピーク候補セット各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程。
質量スペクトルは、手元にまたは遠方に設置された質量分析計からデータセットとして簡単に供給され、例えば、コンピューターデータベースまたはその他の保存媒体に保存することができる。
コンピューターは、その結果を任意の所望する様式(例えば、少なくとも1つの推定配列としてなど)でフィードバックすることができ、さらに、少なくとも1つの推定アミノ酸配列に関して、上述したような任意のスコアを与えたり、または、例えば、統計的データなどを伴うようにしてもよい。
本発明に従えば、サンプルポリペプチドに対する少なくとも1つの推定アミノ酸配列を決定するためのシステム(装置)も提供され、ここで、該サンプルポリペプチドは部分分解されており、該システムは次のものを含む:
(a)機械への以下の命令を記憶するメモリー、
(i)前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルから得られ、該部分分解サンプルポリペプチド由来のイオン種の一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする;
(ii)工程(i)で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する;
(iii)残りのm/zピークセットの中から「差異セット」を選別する;
(iv)残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する;さらに、
(v)残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列が、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする。
(b)および、前記メモリーに接続されたプロセッサーであって、前記機械命令を実行することによって前記サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するプロセッサー。
さらに、本発明に従えば、サンプルポリペプチドに対する少なくとも1つの推定アミノ酸配列を決定するためのコンピュータープログラムが提供され、このとき、該サンプルポリペプチドは部分分解されており、該サンプルポリペプチドのソフトイオン化質量スペクトルが得られて、該部分分解されたサンプルポリペプチド由来のイオン種の一組のm/zピークが与えられており、該コンピュータープログラムは次のものを含む:
(i)前記一組のm/zピークから、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにするためのプログラムコード;
(ii)工程(i)で得られた各m/zピーク候補セットから、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外するためのプログラムコード;
(iii)残りのm/zピークセットの中から「差異セット」を選別するためのプログラムコード;
(iv)残りのm/zピーク候補セットから、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外するためのプログラムコード;さらに、
(v)残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにするためのプログラムコード。
さらに、本発明に従えば、サンプルポリペプチドに対して少なくとも1つの推定アミノ酸配列を決定するためのコンピュータープログラム製品(compute program product)が提供され、それには、コンピューターで使用可能な媒体が含まれており、その媒体は、該媒体内で具現化され、本発明に従う、コンピューター読み込み可能なプログラムコード手段を有する。
残りのm/zピークセット内の「差異セット」を選別するためのコンピュータープログラムコードは任意の適切な言語で作成することができるが、本発明者らは、本発明においては、Prologなどの論理プログラミング(Logic Programming)言語が特に有用であり、効果的であることを見出している。
本発明は、添付の図面を参照し、以下の詳細な記述によってさらに明らかになるが、これらは、m/zピークセットから推定アミノ酸配列を判断するひとつの様式の例としてのみ挙げたものである。
以下の実施例は、一組のm/zピークからどのようにして推定アミノ酸配列を決定するかを示すものである。プロリンを除く全てのアミノ酸は、原子団NH2CHRCOOH(Rは側鎖を表わす)で区切られる。この基本構造は図4Aに示されているように図示することができ、グリシンの構造の例は図4Bに示されている。
図2の質量スペクトルに示される一組のm/zピークから始め、以下の式を用いる。これらは、パパヤノポウロス(Papayanopoulos)、IAの文献(既述)中の図式4に定義されているものとは異なることに注意されたい。yiイオンの基本構造は図4Cに示されており、bjイオンのそれは図4Dに示されている。
Figure 2005528609
非修飾アミノ酸については、[C term(C末端)]=[OH]および[N term(N末端)]=[H]であり、これらをa−およびx−娘イオンを表すように書き換えることができる(図5Aはxjイオンであり、図5Bはajイオンである)。これらのイオンの質量を表す式は次のようになる:
Figure 2005528609
図5Cはz−系列のイオン化メカニズムを示す。aRおよびbRは、アミノ酸のβ−炭素原子における置換基を表しており、それらは水素を失い、プロトンを付加したH+になる。図5Dは、c−系列のイオン化メカニズムを示す。すなわち:
Figure 2005528609
上記の式においては、1≦j≦n−1である。
「aai」は、i番目のアミノ酸の質量を表す。[N末端]、[C末端]、[CO]、[NH]、[NH2]、[NH3 +]、[H]および[H+]は、それぞれの括弧内に含まれている基(原子団)の質量を表しており、すなわち、アミノ酸のN−末端に結合している官能基(通常はH=1)、アミノ酸のC−末端に結合している官能基(通常はOH=17)、CO、NHおよびNH2の質量を表す。
上記の式は1個のプロトン(陽子)が付加されたa−、b−、c−、x−、y−およびz−ペプチドフラグメントイオンの質量の計算を行うためのものである。下付き文字のjは、n個のアミノ酸から構成されているペプチドのj番目のフラグメントイオンを示す。N−末端フラグメントイオンの番号付けは、N−末端から始まっており、C−末端フラグメントイオンの番号付けはC−末端から始まっている。したがって、或るペプチドのN−末端からj番目のフラグメントイオンは、始めからj番目までのアミノ酸の質量の総和からなる質量を有する。これに対して、ペプチドのC−末端からj番目のフラグメントイオンは、最後からj番目までのアミノ酸の質量の総和からなる質量を有する。
上掲の式から、次のことが導かれる:
j−aj-1=aaj
j−xj-1=aan-j+1
j−bj-1=aaj
j−yj-1=aan-j+1
j−cj-1=aan-j+1
j−zj-1=aan-j+1
従って、或るサンプルポリペプチドの質量スペクトルから生成された一連のm/zピーク内の差異は、そのサンプルポリペプチドの配列内のアミノ酸の質量のパターンに従う。本明細書においては、これらの式を「差分方程式(Difference
Equations)」と称する。
さらに、次のような差分方程式が得られる:
j−aj=[CO]=28
j−cj=[NH3]=17
j−xj=[H2]−[CO]=−26
j−zj=[H2]+[NH]=17
プリカーサーイオンの関係
プリカーサーイオン質量の相関性は、次の式で求めることもできる:
bj式およびyj式を加え、さらに、[N末端]=[H]および[C末端]=[OH]と仮定することにより、以下の結果が得られる:
Figure 2005528609
プロトンが付加されたプリカーサーイオン(precursor ion)の質量は、次のようにして計算することができる:
Figure 2005528609
ここで、プリカーサーイオンにプロトンが付加している場合に[H+]が生じる。
従って、bj+yn-j=[プリカーサーイオン]+[H]である。
エレクトロスプレー二重荷電イオンの相関性
エレクトロスプレー二重荷電イオンの相関性は、次のようにして求めることができ、
通常、エレクトロスプレーサンプルは、強力な二重荷電ピークを有する。
Figure 2005528609
従って、bj+yn-j=2×[プリカーサーイオン]
最も大きい系列イオンとプリカーサーとの関係
1≦j≦n−1のとき、以下の式が導かれる:
Figure 2005528609
すなわち、[プリカーサーイオン]−[bn-1]=aan+[OH]+[H+]および、[プリカーサーイオン]−[yn-1]=aa2+[OH]+[H]+[H+]−[OH]−[H2]
すなわち、[プリカーサーイオン]−[yn-1]=aa2
図2の一番上のスペクトルには16個の質量ピークが示されており、これらを用いて非常に多数の質量セットを選定するが、各セットには2〜16個の質量ピークが含まれており、サンプルポリペプチドの配列と相関している可能性がある。m/zピークセットの総数Mは次のように表される:
Figure 2005528609
演繹的方法により、述語計算(predicate calculus)概念を用いて、MのサブセットであるmDN(DNはデ・ノボの短縮形)を選定する。述語計算は、ブール代数に由来する数学的手法であり、当該分野において既知である。
次の記述は真実である:∀mDN∈M、すなわち、各mDNセットはMのサブセットである(∀は「全て」を意味し、∈はサブセットを表す)。
かくして、mDNセットは、セット内の各要素(メンバー)は、少なくともひとつの近隣のメンバーとアミノ酸1個分の質量が相異していなければならないという述語(「質量差異述語(Mass
Difference Predicate)」)を用いて演繹される(推測される)。このことは、(上述の)差分方程式を満たす。既述のように、述語に用いられるアミノ酸の質量セットは、標準的なアミノ酸の質量を用いることができ、または、所望する場合には、ふつうではないもしくは修飾(変性)されたアミノ酸の質量を含むことができ、あるいは、ある種のアミノ酸を除外することもできる。そのような質量を採用し、どのような質量を除外するのかについての決定は、サンプルポリペプチドに関して入手可能な情報に基づいて行うことができ、例えば、サンプルポリペプチドを産生した微生物の培養条件などが挙げられ、これは例えば、サンプルポリペプチド内に同位体元素ラベルしたアミノ酸が含まれている可能性があることなどを意味している。
配列番号1(REGGAIFE)の配列を有するサンプルポリペプチドの質量スペクトルから、147、185、197、213、215、225、243、262、296、324、333、342、409、437、455、462、489、506、524、538、542、577、659、664、777、846、864、959、977および1076の値を有する一組のm/zピークが得られた。これらから導かれたm/zピーク候補セットを表1に示す。
これを行うためには、コンピュータープログラムによって「質量差異述語」に対する解を探査するが、コンピュータープログラムに表1に詳記している一組のm/zピーク値を入力し、先ず、根元質量(または「出発点」質量)を選択する。最も大きい質量を使用するが、表1の場合はこの質量は1076である。次に、根元質量よりも正確にアミノ酸1個分質量が小さい全ての質量を探査する。次に、そのような質量をそれぞれ用い、アミノ酸の質量分だけ離れた質量をさらに探し、可能な解が得られなくなるまでこれを繰り返す。
次に、新しい根元質量、すなわち、初めのものより小さい系列のものを用いてこの手法を繰り返す。表1に示す場合では、この質量は977であった。根元質量(1076)から見出された当初の系列に、新規に見出された系列を加えた。終わりから2番目の質量である185までこの手法を繰り返した。
このような手法から得られた結果にはm/zピーク候補セット群が含まれている。計算上の複雑さは非常に大きいが、これは、「質量差異述語」に対して当てはまる大量の解を評価しなければならないからであり、表1に示す単純なm/zピークセットについても、妥当な時間枠内においては、人間が行うことは不可能である。本発明に従えば、より複雑なm/z値のセットからm/zピーク候補セットおよび推定アミノ酸配列を判定することができ、また、考慮すべきセットにさらにm/z値を追加して、可能性のあるm/z値のセットの数が実質的に非線形様式で増えることも注目すべきことである。
表1からわかるように、計19個の基本となるm/zピーク候補セットを選定した。これらに加えて(簡略化のために示してはいないが)、表に示された各々の連続的部分列も導き出して、本発明の方法を用いて評価されるm/zピーク候補としている。連続的部分列の例としては、1欄に示しているy10、y9、y8−18系列が挙げられ、2つのサブセットy10、y9およびy9、y8−18も生成し、本発明の方法に従って解析することができる。同様に、m/z値が409、296および197から成るピークセットも生成し、これは11欄に記載しているセットのサブセットであるが、煩雑さを避けるために示していない。
表1の「系列(Series)」欄には、本発明の方法を実施した結果として得られたm/zピークについての情報を記載している。最初に得られる唯一のデータは、m/zピークデータであり、次にこのm/zピークデータを解析しフィルター掛けをすることによって「系列(Series)」情報が得られる。
表1には、次の5つを含む多数の系列(すなわち、m/zピーク候補セット)を示している:[y10,y9,y8,y7,y6,y5,y4,y3,y2,y1](すなわち、m/zピークセット1076,977,864,777,664,577,462,333,262および147)、[y9−18,y8−18](すなわち、m/zピークセット959および846)、[b5,b4,b3,b2](すなわち、m/zピークセット542,455,342および243)、[b5−18,b4−18,b3−18,b2−18](すなわち、m/zピークセット524,437,324および255)、および[a4−18,a3−18,a2−18](すなわち、m/zピークセット409,296および197)。
最初の文字はイオン系列のタイプ(上述したように、後の過程で導かれるものであるが、便宜上ここに入れている。当初のデータにはm/zピーク値のみが含まれている)を表し、二番目の数字は、種(species)からの質量変位を表している。例えば、b−18セットとは、b−系列であり、全て水分子(質量は18ドルトン)変位があることを表している。ある種のアミノ酸は変位ピークを有する。一般的な変位質量(Displacement Masses)は、18ドルトン(H2O)、28ドルトン(CO)および17ドルトン(NH3)である。
DNセットの全ての要素(メンバー)を推論するために、例えば、次のようにコンピュータープログラムを使用する。以下に詳述しているコードをProlog言語にフォーマットし、一組の論理的条件(論理的条件セット)、すなわち、述語(この場合は質量差異述語(Mass Difference Predicate))を満たすような全ての解を探す。プログラム言語自身は、逆トラッキング法を利用して一組の解(解セット)を自動的に見つけ出す。かくして、「質量差異述語」の要求を満たすようなmDNセットのメンバーの選別は、以下のPrologコードを用いて行なうことができる:
amino- generator([HROOTMASS|TAILMASSES],ACCUMSEQUENCE,RESULT):-findall(X,amino
diff set(HROOTMASS,[HROOTMASS|TAILMASSES],[],X),NEXTROOTSEQUENCE),
contact(NEXTROOTSEQUENCE,ACCUMSEQUENCE,NEWAWQUENCE),
amino
generator(TAILMASSES,NEWAWQUENCE.RESULT).
ここで、HROOTMASS=配列内の次の根元質量
TAILMASSES=残っている質量
ACCUMSEQUENCE=現在の解セット
RESULT=最終結果を受け取るから(空)の計算変数
amino diff set=Prologのゴール
X=一般的な未知の変数
NEXTROOTSEQUENCE=新規に発見された系列
NEWSEQUENCE=解の最新リスト
ファインドオールゴール(findall goal)(述語)を用い、根元質量(HROOTMASS)から始めて全ての可能な配列を推定する。ファインドオールゴールは、所与の根元質量から全ての配列を生成することができるamino diff setゴール(述語)を使用する。検出された全ての系列は、コンカットゴール(concat goal)を用いて既存の系列に加える。最終的に、ゴールは、TAILMASSESを用いて、それ自身を再帰的にコールする。TAILMASSESとは、最も大きい質量(HROOTMASS)を除いた後の残りの質量ピークセットである。amino generatorに対する次のコールは、新しいHROOTMASS、すなわち、前回の質量セットから一段階小さい質量から始まる。
上記のコードはProlog用にフォーマットしたものであるが、その他の多様な言語、例えば、CC++、C#およびPASCALなどを用いて同様の手法を実施することもできる(例えば、同じプログラムをエミュレートするなど)。
図1にはアミノ酸の完全鎖を示しているが、イオン種のひとつが消失している場合や鎖の一部のみが存在している場合も多い。本発明は、「質量差異述語」を満たす限り、部分的な配列を決定することができる。本発明によれば部分鎖を見出すことも可能であることは、当初のm/zピークセット内の全ての質量を可能出発点ないしは根元質量として使用するという事実に由来する。
かくして、本発明により決定された少なくとも1つの推定アミノ酸配列は、サンプルポリペプチドに対して少なくとも2つの推定部分配列を含む。
表1は、示されている一組のm/z値に対する「質量差異述語」の解を示す。5つの正しい系列から4つの系列が見出されたが、それらは、2、6、9および15欄に記載されているm/zピークセットである。11欄のセットは、a−18系列であり、さらに質量数538の位置にもピークがあるが、538のピークは配列番号1に対応していない。
しかしながら、リスト内にはさらに14個の正しくない(または「誤」)系列が存在する。さらなる工程を経て誤系列を削除するが、これらの工程が、フィルター掛け工程とみなされるものである。このようなフィルター掛け工程を用いることにより、表1の「系列」欄内に与えられている情報から、イオン系列を類別することもできる。
反射述語(Reflective Predicate)
フィルター掛けには2つのメカニズムがある。第一のフィルター掛けメカニズムは、「反射述語」を用いるものであり、mDN対に適用する。アミノ酸の配列は、a−、b−およびc−イオンとx−、y−およびz−イオンとの間では逆向きである。この特性は、差分方程式内で数学的に示される。すなわち、C−末端イオン(x−、y−およびz−)はaan-j+1項を有し、他方、N−末端イオンはaaj項を有する。2つのmDNセット内における質量の分離に関する反転的または反射的性質は、図2に図示されており、y質量イオンセットは配列EGGAIFE(配列番号2)によって分離され、bイオンセットは配列FIAGGER(配列番号3)によって分離されおり、これは、部分的にyセットの逆である。
表2および3は、単純なペプチドLYLKGER(配列番号4)に対するy−およびb−系列を示す。
および 欄は、隣接する質量との差を表している。差異を求める操作は分化(differenciation)と称され、連続したデータの分化によって得られた個々のデータアナログである。表3においては、順序が逆になっている。配列は、分化した系列から得られたものである。両系列は、部分配列YLKGE(配列番号4のアミノ酸番号2〜6)を共有していることがわかる。
「反射述語フィルター」は、逆向きの分化質量間で一致したmDN対があるだけで働く。この特性は数学的に次のように表される:
j DNk DNの連続的部分列である。
ここで、j DNは質量差のベクトル、すなわちmDNの一次微分を表す。Rは逆対角行列を示し、例えば、3行3列の行列では次のようになる:
001
010
100
この「連続的部分列特性(contiguous subsequence property)」では、左辺のベクターは右辺のベクトル内に同じ順序ですべて含まれていることが必要である。例えば、ベクトル[1,2,3]は[7,8,1,2,3,5]の連続的部分列であって、[1,2]または[1,2,5,3]の連続的部分列ではない。以上の特性が満たされれば、jDNおよびkDNの双方がフィルターを掛けられたサブセットに含まれる。それら2つの系列は反射対(reflective pairs)として知られている。
そのような反射対はmRとして表される。正常なサブセット条件は次のようになる:
∀mR∈mDN∈M
すなわち、各mRセットはmDNセットのサブセットであり、mDNはMのサブセットである。
表4は、「反射述語フィルター」の結果を示す。このフィルターは、長い系列をフラグメント化する傾向がある。重要なことは、a−18系列11から質量538の誤ピークを削除したことによって示されるように、誤ピークを削除するように作動することである。表4の11欄に示されている系列は、表1の欄11に示されている系列の連続的部分列であり、これは、本発明の方法によって選別されたものであり、これまで示されたことはない。15個の系列のうち、7個は、配列番号1に対応する真正系列の全配列かまたはフラグメントである。
ニュートラルロス述語
「反射述語フィルター(Reflective Predicate Filter)」によるフィルター掛けに続き、さらにフィルター掛けを実施して「置換イオン(Displacement Ions)」を選別する。この場合には「ニュートラルロス述語(Neutral Loss Predicate)」であり、これは演繹的方法の1つである。その他の場合として、または帰納的述語に加えて、「監視機械学習(Supervised Machine
Learning)アルゴリズム」などのような帰納的方法を用いてm/zピーク候補セット(複数)をフィルター掛けし、および/または類別することもできる。ニュートラルロス述語は、上述した「質量差異述語(Mass Differene
Predicate)」と同様に作動するが、ある種のイオン種に生じ得るニュートラルロスに基づいている。ニュートラルロスの特性は、イオン自身の性質によって定められ、従って、ニュートラルロスを選別(確認)することによりイオン種に関する情報を判断することができる。例えば、特定のアミノ酸には特定のニュートラルロスを受ける。したがって、ニュートラルロスを有するイオン種は、特異的なアミノ酸を含むものとして、または、アミノ酸セットのうちのひとつを有するものと判断することができる。ニュートラルロスはイオン種の末端から生じることから、特定のアミノ酸の位置、またはニュートラルロスに関与しているアミノ酸セットのうちの一つの位置を判断することもできる。
アミノ酸について生じるニュートラルロスの詳細については図3に示す。ニュートラルロスの例としては、18(H2O)、17(NH3)および34(H2S)などが挙げられる。
そのようなニュートラルロスが選別されれば、次に、ニュートラルロスセットとしてm/zピーク候補セットをラベルし(分類し)、更には、特定の特性を有するものとして(すなわち、特定のアミノ酸を含むものと推定して)、m/zピーク候補セットを適切に分類することができる。m/zピーク候補セットをさらに単純化するために、ニュートラルセットと、同じ順序のピークを含むm/zピーク候補セットの相互関係を明らかにして、次に、互いの質量ピークを分類し、そして、最も短いm/zピーク候補セットを排除することができる。
表4からわかるように、「反射述語フィルター」の後に残っているm/zピーク候補セットは、他のセットから一定値分だけ変位したm/z値を有するピークを含む。例えば、表4の6欄では、m/zピーク候補セットは959および846という値のメンバーから成る。これらは、表4の5欄に記載されているm/zピーク候補セット(1076、977、864および777という値のメンバーから成る)の中の977および864から18u変位している。
かくして、このフィルター掛けのメカニズムは、既知の「置換質量(Displacement Masses)」によって分けられた2つまたはそれ以上のピークを有するセットの対を選択することによって機能する。「差分方程式」から次のことがわかる:bj−aj=28
「質量差異述語」は、フィルター掛けメカニズムを提供すると共に、a−およびb−系列のみは28ドルトンで変位されることから、系列の類別にも用いることができる。系列の類別については以下にさらに記載している。
a−およびb−系列と同様に、26ドルトンで分離されるy−およびx−系列も存するが、実際にはx−系列はほとんど見つからない。「反射述語フィルター」を用いた場合のように、「質量差異述語」を持たす両系列は、フィルター掛けが終わったセット内に含まれている。そのような系列の対は「変位対(Displacement Pairs)」として知られている。
「質量差異述語」は、b−およびc−系列の間にも適用できる。この場合には質量差はNH3分(17ドルトン)である。同様に、y−およびz−系列イオンは17ドルトンで変位される。
全ての28ドルトン質量差異系列はmDN-28で表され、ここでも、サブセット条件が適用される:
∀mDN-28∈mDN∈M
いくつかの場合においては、質量差異述語は、反射的フィルター掛けを行った系列のサブセットにも適用することができ、その場合には、次の条件を有する:
∀mDN-28∈mR∈mDN∈M
残りのm/zピーク候補セットについては、追加の工程を実施することにより、他のものの連続的部分列であるm/zピーク候補セット(すなわち、そのメンバーが別のセット(単数または複数)のサブセットを形成はしないが、別のセット(単数または複数)の連続的部分列を形成するm/zピーク候補セット)を除外する。
m/zピーク候補セットで表されるアミノ酸配列は、一組のアミノ酸質量に対するm/zピーク値間の質量差を調べるだけで簡単に決定することができる。従って、m/zピーク値のセットは、直ちにアミノ酸配列に翻訳することができた。この作業は、最も重いm/z値もしくは最も軽いm/z値から、またはその他の任意の順で開始することができる。しかしながら、得られた配列は方向性を定める必要がある。すなわち、配列決定の基礎となるイオン種がa、bまたはc−イオンであり、それらが、最も重いm/z値から最も軽い方へ向かっている場合には、アミノ酸配列の方向はCからNである。別の場合として、配列決定の基礎となるイオン種がx、yまたはz−イオンであり、それらが最も重いm/z値から最も軽い方へ向かっている場合には、アミノ酸配列の方向はNからCである。一般的には、アミノ酸配列はNからC方向で表され、a、bまたはc−イオン種から得られた配列を、x、yまたはz−イオン種から得られた配列と混同してはならない。
従って、推定アミノ酸配列を決定する方法におけるひとつの工程は、m/zピーク候補セット(複数)によって表されるアミノ酸配列の方向性を判断することであり、これは、パパヤノポウロス,IA(Papayannopoulos)(既述)らによる手法に従って行うことができる。基本的には、サンプルポリペプチドに対するプリカーサー質量がわかっており、m/zピーク候補セット値が既知であることから、各セット内の最も重い値をプリカーサーイオン質量と比較することにより、アミノ酸の質量、またはアミノ酸+18uの質量に相関する差異を選別することができる。或るm/zピーク候補セットにおいて、その最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量から1個のアミノ酸の質量を差し引いたものと等しいことが見出された場合には、当該m/zピーク候補セットはy−系列であり、そのC−末端のメンバーは、当該質量差に相当するアミノ酸である。別の場合として、或るm/zピーク候補セットにおいて、その最も大きいm/zピーク値が、サンプルポリペプチドプリカーサー質量から18を引き、さらに1個のアミノ酸の質量を差し引いたものと等しいことが見出された場合には、当該m/zピーク候補セットはb−系列であり、そのN−末端メンバーは、当該質量差+18に相当するアミノ酸である。
例えば、図2には、配列REGGAIFE(配列番号1)およびEFIAGGER(配列番号16)に対応する2つのm/zピーク候補セットが示されているが、方向性については示していないが、上述の工程を経ることによってm/zピーク候補セットに方向付けがなされる。
b−y系列の類別(類別述語)
或るm/zピーク候補セットがb−系列であるのかy−系列であるのかを判断することを目的として、bjおよびyjの式から次の式が導かれる:
Figure 2005528609
n-1=[プリカーサー(Precursor)+H+]−aa2 (式2)
従って、次のようになる:
n=[プリカーサーイオン(Precursor ion)+H+]+18 (式3)
式1〜式3において設定した条件を最も大きい質量に当てはめた場合、多数の異なるシナリオが得られ、それらはすなわち:
1.系列は、y−およびb−系列として曖昧に類別される;
2.系列は、y−系列ではなくb−系列として類別される;
3.系列は、b−系列ではなくy−系列として類別される;
4.系列は、b−系列にもy−系列にも類別されない;
b−およびy−系列と考えられるものは、反射述語を満たす対(pairs)として見出される。これらの対に対して、上記の式を用いて対内の各系列の類別を行う。対内の各系列に対して4つのシナリオが存在することから、16個の結果が得られ、これらは行列(マトリックス)で表すことができる。類別に関する決定は、図7に示すように、カルノー図に基づく論理を用いて行うことができる。
図7を参照すると、例えば、もし、系列1はy−系列ではなくb−系列であると類別されるが、系列2はb−およびy−系列の両方として曖昧に類別される場合には、系列1はb−系列であり、系列2はy−系列であると類別されるということが分かる。
16個のシナリオ条件のうち、6個は類別エラーの可能性がある。類別エラーが生じた場合、「差異系列(Difference Series)」を計算して、−28(a−系列)、−45(a−17系列)および−46(a−18系列)から成る差異値を求める。系列1および系列2について、a−系列およびそれらのニュートラルロス変位の総数を比較し、大きい方の系列をb−系列と類別する。この類別法は、a−系列が一般的であり、x−系列は稀であるという仮定に基づいている。
ニュートラルロスならびにb−およびy−系列からのa−系列の発見
既にさらなるニュートラルロスおよびa−系列を、類別済みのb−およびy−系列について計算することができる。変位値−17、−18、−28、−45および−46を用い、類別済みのb−系列からb−17、b−18、a、a−17およびa−18変位系列をそれぞれ計算することができる。同様に、変位値−17および−18を用い、類別済みのy−系列からy−17およびy−18「変位系列(Displacement Series)」をそれぞれ算出することができる。b−およびy−系列とプリカーサー質量との関係は次の式で表される:
j+yn-j=[プリカーサーイオン]+1 (式4)
この式から、次のようにして、y−系列からa−系列を計算し、また、b−系列からy−系列を計算することができる:
j+yn-j=[プリカーサーイオン]−27 (式5)
j+y−17n-j=[プリカーサーイオン]−16 (式6)
b−17、b−18、a−17およびa−18イオン系列質量を有するy−系列イオン質量とプリカーサーイオン質量とを含む同様の式は、式5の−27を−16、−17、−44および−45に置き換えることによって導くことができる。y−18を有するb−系列イオン質量とプリカーサーイオン質量とを含む同様の関係式は、式6の−16を−17に置き換えることによって導くことができる。
上に概説した2つの方法を用い、単純な変位因子を有する同じ末端由来の系列、および単純な変位因子を有する逆の末端由来の系列から「変位系列」を選定することができる。従って、同一の「変位系列」型(例えば、a−18)についてペプチドの両末端から計算できる2つの様式がある可能性がある。すなわち、a−18系列は、次の2つのセットで表される:
a−18CTerm;および
a−18NTerm
次に、2つのセットを合わせ、合わせたセットが「質量差異述語」を満たす場合には、2つのセットは互いに交換して使用することができる。「質量差異述語」を満たさない場合には、2つのセットは別々に記録する。
従って、
a−18combined=a−18CTerm+∪a−18NTerm
n-1=[プリカーサー+H+]−aa2 (式7)
である。
C−末端がOHである場合には、以下のようになる:
1=aan+[C−末端]+[H]+[H+]=aan+19 (式8)
m/zピークセットのスコアリング
b−およびy−系列に関するスコアは、各系列に対する可能な「変位質量(Displacement Masses)」の数を合計することによって計算する。他のすべての系列に対しては、スコアは0とする。可能な「変位質量」および相殺値(オフセット)を表7に示す。可能な各変位系列に対する「変位質量」の総数を、適宜、b−またはy−系列内の質量の数で除算する(割る)ことにより、≦1の値が得られる。表7には、b−またはy−系列に対して使用した「変位系列(Displacement Masses)」を示している。b−系列は5つの「変位系列」が可能であり、最大置換スコアは5である。y−系列は2つの「変位系列」が可能であり、最大スコアは2である。
b−系列に関しては、b−系列内の最大質量または二番目に大きい質量に従って系列内の最大質量を類別することに基づき、さらなる評価因子(スコアリング因子)を計算する。y−系列に関しては、最大質量は、y−系列の二番目に大きい質量に対してのみ類別されるが、これは、y−系列内の最大質量がプリカーサーイオン質量のそれと等しいからである。これらの最大質量条件は、式1〜3で表される。
y−系列の最大質量がこの規準に合致しない場合には、系列内の最小質量(y1イオン)類別する試みを行う。y−系列内の最小質量は、式10の条件に適合する場合には、y1イオンとして類別される。記述されている規準がb−系列にもy−系列にも適合しない場合には、変位スコアに1.0を加え、合成スコア(複合スコア)を得る。このようなスコア調整に関する論理は図6のフローチャートに示している。図6のチャートにおいては、10が「Yes」であり、20が「No」である。チャートのその他の部分は以下の通りである:
30:btop=[プリカーサー+H+]−18
40:btop-1=[プリカーサー+H+]−18−[アミノ酸質量]
50:badjusted score=変位スコア
60:badjusted score=変位スコア+1
70:ytop-1=[プリカーサー+H+]−[アミノ酸質量]
80:yadjusted score=badjusted score+1
90:ybottom=[アミノ酸質量]+19
100:yadjusted score=badjusted score
Figure 2005528609
[C末端]は通常OHであるため、y1は次のように表すことができる:
1=aa1+19 (式10)
(MS) n データからのm/zピーク候補セットの選定
上述したように、本発明はn>2の場合の(MS)nデータを用いることができる。図8は、複合(ms)n樹木状データ構造用に得られた複数の経路を示す。4つの経路すべてに共通して(ms)スペクトルがあるが、各経路は別異の(ms)3スペクトルを有する。図9から12は、4つの質量経路をそれぞれどのように解析したかを示している。点線で示した質量は、複合(ms)nスペクトルの構築には使用しない。すなわち、ms1スペクトルからは、単一のプリカーサーイオンm/zピークのみを採用する。後続の(ms)nスペクトルに関しては、プリカーサーイオンのm/z値よりも大きいかまたは等しいm/z値を有する全てのピークを使用する。従って、更なる(ms)nスペクトルが得られない場合には、最終スペクトル内の全てのピークを使用する。経路から得られた各質量系列を推定系列述語へのインプットとして使用する。次に、b−y系列他を選定することを目的として、各推定系列を他の述語へのインプットとして使用する。各経路から決定されたアミノ酸配列は、異なっている場合もあれば同一の場合もある。配列が同一である場合にはそれらを結合する。スコアリングも行い、また、配列に合成スコアを導入する。合成スコアは、上述に従って求められた個々の配列のスコアを総計することによって計算される。
「差異セット」の選定は、上述に従って行うか、または、監視学習アルゴリズムを用いることができる。例えば、表5は、監視学習アルゴリズムに通したトレーニングデータセットの一部を示しており、M1〜M6とラベルされた6つのm/zピークを有する。表6は、m/zピークに対してなされた類別の例を示す。「系列(Ser)」欄は、m/zピークによって表される系列の型(種類)を示しており、「類別」欄は、監視学習アルゴリズムによって指定された類別を示す。
配列の結合(スプライシング)とスコアリング
図2は、理想的な状況において、隣接の系列質量を差し引くことにより配列を決定する手法を示したものである。N−末端系列およびC−末端系列由来の配列を結合する場合、多数の異なるシナリオが可能になる。そのようなシナリオについては、配列を結合(スプライス)するメカニズムと共に図14に示している。図14においては、各円は、GまたはAなどのような配列内の1個のアミノ酸を表している。斜線を付けた円は長い方の系列(配列)を表しており、べた黒の円は短い方の系列(配列)を表している。斜線とべた黒とが半々の円は、長い方の系列および短い方の系列の共通部分、すなわち、オーバラップ(重複)セグメントを示している。
図14においては、110、140、170、210および250は長い配列を表している。120、150、180、220および260は短い配列を表している。130は、長い配列である110からのスプライシングによって得られたひとつの配列である。160は、配列140および150のスプライシングによって得られたひとつの伸長配列を表している。190は、170および180のスプライシングによって得られた、第一の長い配列(配列1)を表している。200は、170および180のスプライシングによって得られた第二の右スプライス配列(配列2)を表している。230は、210および220のスプライシングによって得られた第一の長い配列(配列1)を表している。240は、210および220のスプライシングによって得られた第二の短い配列(配列2)を表している。270は、250および260のスプライシングによって得られた第一の長い配列を表している。280は、250および260のスプライシングによって得られた第二の左スプライス配列(配列2)を表している。
示されている各シナリオ(110〜130、140〜160、170〜200、210〜240および250〜180)には、3個のアミノ酸が重複(オーバラップ)している領域がある。110〜130および140〜160として示されているシナリオは最も一般的なものであり、長い系列と短い系列とが互いに合致している。これらの場合に関しては、単一の系列(おそらく長い系列)、または長い系列が伸長されたものを採用する。図2においてb−およびy−系列からそれぞれ推定された単一の配列は、140〜160で示されているシナリオによって表されるものであり、6個のアミノ酸、FIAGGE(配列番号3のアミノ酸1〜6)が共通している。
残りのシナリオ(170〜200、210〜240および250〜180)は、配列が互いに一致していない場合に、使用するメカニズムを示している。これらのシナリオにおいては、2つの配列のうちの長い方を解配列(求める配列)のうちのひとつとする。その他の解は、短い方の配列の末端部位が重複セグメントであるか否かに依る。第三のシナリオ(170〜200)では、短い方の配列の右端から3個のアミノ酸が長い方の配列の中央部分と共通している。このような場合は、短い配列の全てに、長い配列の(重複セグメント後の)一部を加えることによって配列2を得る。
第四のシナリオ(210〜240)においては、短い配列は、共通セグメントの両側に異なるニーモニックを有しており、それぞれの配列を結合することはせず、長い配列と短い配列によって2つの解を得る。第五のシナリオ(250〜280)は第三のシナリオと類似するが、この場合は、短い系列の左側に共通セグメントが生じている。
或る配列に付与されるスコア値は、その配列が推定された元になる系列(配列)のスコア値に基づく。2つの配列を結合する第一および第二のシナリオにおいては、得られる単一の配列のスコアは、個々の系列のスコアを加算することによって計算される。他のすべてのシナリオにおいては、配列1には長い系列のスコアが与えられ、配列2には短い系列のスコアが与えられる。
この情報と共に、サンプルポリペプチドに対して少なくとも1つの推定アミノ酸配列を決定した。
上述の実施例は発明を限定するためのものではなく、当業者であれば容易に考えつくような多数の変形も、請求項に定義された発明の範囲を超えることなく実施することができる。
Figure 2005528609
Figure 2005528609
Figure 2005528609
Figure 2005528609
Figure 2005528609
Figure 2005528609
Figure 2005528609
アミノ酸配列の解裂および娘イオン種の生成を示す図。 一組のm/zピークの例を示す図であり、この一組のm/zピークから、推定アミノ酸配列を決定した。配列番号1の配列は、化合物スペクトル(一番上)をイオン種スペクトル(中央および一番下)に類別することによって推論した。 アミノ酸の特性を示す表。各欄の文字は以下の通り:A−3文字のアミノ酸コード;B−実験式;C−モノアイソトピック質量(H=1.00782504、C=12.0000000、N=14.0030740、O=15.9949146、S=31.9720710);D−平均質量(H=1.0079、C=12.011、N=14.007、O=15.999、S=32.066);E−側鎖[公称];F−構造;G−ニュートラルロス(T.マッデン(Madden)ら、Org. MassSpectrom., 26,443(1991))[公称];H−インモニウムイオン(K.アンビハパシー(Ambihapathy)ら、J.Mass Spectrom., 32, 209(1997)、インモニウムイオンはFABMAS(ポジ)によって測定した)[公称];I−インモニウムイオンに相対強度(W=弱い、S=強い、V=非常に強い);J−種類(A=無極性、U=電荷を持たない極性、C=電荷をもつ極性);K−ブル&ブリース(Bull&Breese)値(H.B.ブル(Bull)、K.ブリース(Breese)、Archives Biochem. Biophys., 161, 665-670(1974))L−等電点;M−出現頻度(prowl.rockfeller. edu/aainfo/contents. htmなどを参照) (A)はアミノ酸の基本構造、(B)はグリシンの構造の表記例、(C)はyjイオンの基本構造、および(D)はbjイオンの基本構造を示す図。 (A)はxjイオンの基本構造、(B)はajイオンの基本構造、(C)はz−系列のイオン化メカニズムであり、rj bおよびrj aは互いに入れ換えることができ、(D)はc−系列のイオン化メカニズムを示す図。 b−系列およびy−系列中の最高値に割り当てられたスコアを調整するため、およびy1イオンのための複合スコアリングシステム。 b−およびy−系列の類別に使用した、論理に基づくカルノー図。系列1(Series 1)および系列2(Series 2)において、−(上線)がついているものは、それらが当該系列として類別されていないことを示している。 1〜4の番号を付けた4つの可能な推定系列(配列)経路を示す複合(MS)n樹木構造図。 経路1推定系列(配列)質量を示す。 経路2推定系列(配列)質量を示す。 経路3推定系列(配列)質量を示す。 経路4推定系列(配列)質量を示す。 (ms)2のみを使用した経路5推定系列(配列)質量を示す。 N−およびC−末端系列(配列)のスプライシングを示す。

Claims (22)

  1. 部分分解されたサンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、
    (i)前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、該部分分解サンプルポリペプチドから得られるイオン種の一組のm/zピークを与える工程;
    (ii)工程(i)で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セット中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする工程;
    (iii)工程(ii)で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程;
    (iv)残りのm/zピークセットの中から「差異セット」を選別する工程;
    (v)残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程;さらに、
    (vi)残りのm/zピーク候補セットの各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程;
    を含むことを特徴とする方法。
  2. 請求項1に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
    (a)残りのm/zピーク候補セットの各々を比較する段階;
    (b)比較段階(a)の結果を相関させて、前記m/zピーク候補セットのうちの第一のセットを含む「差異セット」を選別する段階であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって−17u、−18u、−34uまたは−48u変位しているものの少なくとも一部を形成しているようにする段階;さらに、
    (c)−17u「差異セット」のメンバーは、アスパラギン、グルタミン、リジンおよびアルギニンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し、−18u「差異セット」のメンバーは、セリン、スレオニン、グルタミン酸およびチロシンからなる群より選択されるアミノ酸を含むことが推定されるものとして分類し、−34u「差異セット」のメンバーは、システインを含むことが推定されるものとして分類し、−48u「差異セット」のメンバーは、メチオニンを含むことが推定されるものとして分類し、 各差異セットのうちの質量の軽いメンバーは、ニュートラルロスm/zピーク候補セットとして分類する段階;
    を含むことを特徴とする方法。
  3. 請求項1または2に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
    (a)残りのm/zピーク候補セットの各々を比較する段階;
    (b)比較段階(a)の結果を相関させて、前記m/zピーク候補セットのうちの第一のセットを含む差異セットを選定する工程であって、該第一のセットは、前記m/zピーク候補セットのうちの第二のセットであって+28u、+17uまたは−26u変位しているものの少なくとも一部を形成しているようにする段階;さらに、
    (c)+28u「差異セット」のうちの重いものと軽いものをそれぞれ推定b−およびa−「差異セット」として分類し、−26u「差異セット」のうちの重いものと軽いものをそれぞれ推定x−およびy−「差異セット」として分類し、+17u「差異セット」のうちの重いものと軽いものをそれぞれ推定c−およびb−「差異セット」として分類する段階。
    を含むことを特徴とする方法。
  4. 請求項1〜3のいずれかに従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
    (a)残りのm/zピーク候補セットについて、m/zピーク候補セットの各々の中で最も重いm/z値と前記サンプルポリペプチドのプリカーサー質量との差を計算し;
    (b)当該差をアミノ酸の質量と、さらにはアミノ酸の質量+18uとを比較し;
    (c)比較段階(b)の結果を相関させて、差が或るアミノ酸の質量と等しい場合には、C−末端に当該アミノ酸を有するy−系列「差異セット」であることが示唆され、また、差が或るアミノ酸の質量+18uと等しい場合には、N−末端に当該アミノ酸を有するb−系列「差異セット」であることが示唆されるものとする;
    ことによって行なわれることを特徴とする方法。
  5. 請求項1〜4のいずれかに従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、「差異セット」の選定が、
    (a)「差異セット」を選別するようにトレーニングされる監視学習アルゴリズム用のコンピューター実行プログラムコードへのインプットとして、残りのm/zピーク候補セットを通過させ;さらに、
    (b)残りのm/zピーク候補セットから選別された「差異セット」をコンピューターからアウトプットする;
    ことによって行なわれることを特徴とする方法。
  6. 請求項5に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、前記監視学習アルゴリズムが、k−NN、C4.5、CN2、RBFおよびOC1より成る群から選択されることを特徴とする方法。
  7. 請求項5または6に従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、前記監視学習アルゴリズムは、a−、b−、c−、x−、y−およびz−「差異セット」より成る群から選択された「差異セット」を表すトレーニングデータを用いてトレーニングされることを特徴とする方法。
  8. 請求項5〜7のいずれかに従い、サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、前記監視学習アルゴリズムは、ニュートラルロス「差異セット」を表すトレーニングデータを用いてトレーニングされることを特徴とする方法。
  9. 請求項1〜8のいずれかに従う方法であって、前記サンプルポリペプチドは、エクソペプチダーゼおよびエンドペプチダーゼより成る群から選択される酵素を用いて部分分解されていることを特徴とする方法。
  10. 請求項9に従う方法であって、前記サンプルポリペプチドがエンドペプチダーゼであるトリプシンを用いて部分分解されていることを特徴とする方法。
  11. 請求項1〜10のいずれかに従う方法であって、複数のm/zピーク候補セットの選別が、
    (a)工程(i)で得られたx個のピークを有する一組のm/zピークから、2〜x個のメンバーから成るm/zピーク候補セットの可能性のある全てを選別し;さらに、
    (b)任意の1つのm/zピークとその近隣の少なくとも1つのピークとの間の質量差がアミノ酸1個の質量と等しくないようなm/zピーク候補セットを全て排除する;
    ことによって行なわれることを特徴とする方法。
  12. 請求項1〜11のいずれかに従う方法であって、質量差を比較するアミノ酸質量が化学的および翻訳後修飾されたアミノ酸より成る群から選択されるアミノ酸の質量であることを特徴とする方法。
  13. 請求項1〜12のいずれかに前記質量スペクトルが(MS)nスペクトルであり、nは少なくとも2であることを特徴とする方法。
  14. 請求項1〜13のいずれかに従う方法であって、前記サンプルポリペプチドのプリカーサー質量を測定する工程を追有することを特徴とする方法。
  15. 請求項1〜14のいずれかに従う方法であって、m/zピーク候補セットの残りのうちの少なくともひとつについて方向性を決定する工程を追有することを特徴とする方法。
  16. 請求項1〜15のいずれかに従う方法であって、主要a−、b−、c−、x−、y−およびz−系列を含む残りのm/zピーク候補の各々にスコアを割り当てることを含み、該スコアの計算が、
    (a)前記主要系列から得ることができる各変位系列中の「変位」m/z値の数を求め;
    (b)段階(a)の結果を主要系列中のm/z値の数と相関させ;さらに、
    (c)相関段階(b)の結果から求められたスコアを主要系列に割り当てる。
    ことによって行なわれることを特徴とする方法。
  17. 請求項1〜16のいずれかに従う方法であって、前記サンプルポリペプチドに対して決定された少なくとも1つの推定アミノ酸配列が、前記サンプルポリペプチドの推定部分配列を少なくとも2つ含むことを特徴とする方法。
  18. コンピューターを用いて、部分分解されたサンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定する方法であって、
    (i)前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルを得て、部分分解サンプルポリペプチドから得られたイオン種の一組のm/zピークを与える工程;
    さらに、前記コンピューターを用い、
    (ii)工程(i)で得られた一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定する工程であって、各m/zピーク候補セットの中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする工程;
    (iii)工程(ii)で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する工程;
    (iv)残りのm/zピークセットの中から「差異セット」を選別する工程;
    (v)残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する工程;さらに、
    (vi)残りのm/zピーク候補セット各々について推定アミノ酸配列を決定する工程であって、各アミノ酸配列は、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする工程;
    を含むことを特徴とする方法。
  19. サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するための装置であって、
    (a)機械への以下の命令を記憶するメモリー、
    (i)前記部分分解サンプルポリペプチドのソフトイオン化質量スペクトルから得られ、該部分分解サンプルポリペプチド由来のイオン種の一組のm/zピークに基づき、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにする;
    (ii)工程(i)で得られた各m/zピーク候補セットについて、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外する;
    (iii)残りのm/zピークセットの中から「差異セット」を選別する;
    (iv)残りのm/zピーク候補セットについて、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外する;さらに、
    (v)残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列が、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにする;
    (b)および、前記メモリーに接続されたプロセッサーであって、前記機械命令を実行することによって前記サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するプロセッサー、
    を含むことを特徴とする装置。
  20. 部分分解されたサンプルポリペプチドに対する少なくとも1つの推定アミノ酸配列を決定するためのコンピュータープログラムであって、該サンプルポリペプチドのソフトイオン化質量スペクトルが得られており、該部分分解されたサンプルポリペプチド由来のイオン種の一組のm/zピークが与えられており、:
    (i)前記一組のm/zピークから、m/zピーク候補の複数のセットを選定して、各m/zピーク候補セットの中の各m/zピークが、少なくとも1つの近隣のピークとアミノ酸1個の質量分だけ異なっているようにするためのプログラムコード;
    (ii)工程(i)で得られた各m/zピーク候補セットから、各m/zピークと少なくとも1つの近隣のピークとの間の質量差の配列を求め、さらに、質量差配列を逆の順序にすると、別のm/zピーク候補セットの質量差配列の少なくとも一部を形成しないようなm/zピーク候補セットを除外するためのプログラムコード;
    (iii)残りのm/zピークセットの中から「差異セット」を選別するためのプログラムコード;
    (iv)残りのm/zピーク候補セットから、別のm/zピーク候補セットの連続的部分列であるようなm/zピーク候補セットを選別して除外するためのプログラムコード;さらに、
    (v)残りのm/zピーク候補セット各々について推定アミノ酸配列を決定して、各アミノ酸配列が、各m/zピークとその少なくとも1つの近隣のピークとの間の質量差に対応しているアミノ酸によって構成されており、各推定アミノ酸配列は、前記サンプルポリペプチドの推定アミノ酸配列の少なくとも一部を含むようにするためのプログラムコード;
    を含むことを特徴とするコンピュータープログラム。
  21. 請求項20に従うコンピュータープログラムであって、残りのm/zピーク候補セットの中から「差異配列」を選別するためのプログラムコードが、論理プログラミング言語で書かれていることを特徴とするコンピュータープログラム。
  22. サンプルポリペプチドに対して少なくともひとつの推定アミノ酸配列を決定するためのコンピュータープログラム製品であって、請求項20または21のいずれかに従う、コンピューターで読みとり可能なプログラムコードを含有しコンピューターで使用可能な媒体から成ることを特徴とするコンピュータープログラム製品。
JP2004509407A 2002-05-30 2003-05-30 質量分析 Expired - Fee Related JP4512486B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB0212470.9A GB0212470D0 (en) 2002-05-30 2002-05-30 Mass spectrometry
PCT/GB2003/002353 WO2003102572A2 (en) 2002-05-30 2003-05-30 Mass spectrometry

Publications (2)

Publication Number Publication Date
JP2005528609A true JP2005528609A (ja) 2005-09-22
JP4512486B2 JP4512486B2 (ja) 2010-07-28

Family

ID=9937700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004509407A Expired - Fee Related JP4512486B2 (ja) 2002-05-30 2003-05-30 質量分析

Country Status (6)

Country Link
US (2) US8620588B2 (ja)
EP (1) EP1508046B1 (ja)
JP (1) JP4512486B2 (ja)
AU (1) AU2003240060A1 (ja)
GB (1) GB0212470D0 (ja)
WO (1) WO2003102572A2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189277A (ja) * 2005-01-04 2006-07-20 Nec Corp タンパク質の解析方法
JP2007278712A (ja) * 2006-04-03 2007-10-25 Shimadzu Corp 質量分析を利用したアミノ酸配列解析システム
JP2008145221A (ja) * 2006-12-08 2008-06-26 Shimadzu Corp 質量分析を用いたアミノ酸配列解析方法、アミノ酸配列解析装置、アミノ酸配列解析用プログラム、及びアミノ酸配列解析用プログラムを記録した記録媒体
JP2009513954A (ja) * 2005-10-28 2009-04-02 エムディーエス アナリティカル テクノロジーズ, ア ビジネス ユニット オブ エムディーエス インコーポレイテッド 特定のニュートラルディファレンスと関連する反応対の特定な同定のための方法、システムおよびコンピュータソフトウェア製品
JP2013160595A (ja) * 2012-02-03 2013-08-19 Shimadzu Corp アミノ酸配列解析方法及び装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0503411D0 (en) * 2005-02-18 2005-03-30 Shimadzu Res Lab Europe Ltd Mass spectrometry precursor ion selection
JP4517925B2 (ja) * 2005-04-13 2010-08-04 株式会社島津製作所 還元性物質を用いるタンパク質又はペプチドの構造解析手法
US7297940B2 (en) * 2005-05-03 2007-11-20 Palo Alto Research Center Incorporated Method, apparatus, and program product for classifying ionized molecular fragments
US7230235B2 (en) * 2005-05-05 2007-06-12 Palo Alto Research Center Incorporated Automatic detection of quality spectra
US20130204582A1 (en) * 2010-05-17 2013-08-08 Dh Technologies Development Pte. Ltd Systems and Methods for Feature Detection in Mass Spectrometry Using Singular Spectrum Analysis
EP2638563B1 (en) * 2010-11-08 2022-10-05 DH Technologies Development Pte. Ltd. Systems and methods for rapidly screening samples by mass spectrometry
GB2501821B (en) * 2012-04-05 2016-09-14 Univ British Columbia MS/MS analysis using ECD or ETD fragmentation
CN104813324B (zh) * 2012-08-09 2017-09-05 珀金埃尔默健康科学公司 用于从质谱法输出识别聚合物物种的方法及设备
WO2014057484A1 (en) * 2012-10-09 2014-04-17 Ramot At Tel-Aviv University Ltd. Peptides for the treatment of neurodegenerative diseases
US10317412B1 (en) * 2017-12-27 2019-06-11 Shimadzu Corporation Method and device for analyzing protein or peptide
WO2021172946A1 (ko) * 2020-02-28 2021-09-02 ㈜베르티스 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07507394A (ja) * 1992-05-29 1995-08-10 ザ ロックフェラー ユニバーシティ 質量スペクトロメータを用いてペプチドの配列決定を行う為の方法及び物質
JP2004505248A (ja) * 2000-07-25 2004-02-19 ザ プロクター アンド ギャンブル カンパニー ポリペプチドの配列決定のための新しい方法及びキット

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5470753A (en) * 1992-09-03 1995-11-28 Selectide Corporation Peptide sequencing using mass spectrometry
EP1317765A2 (en) 2000-09-08 2003-06-11 Oxford GlycoSciences (UK) Limited Automated identification of peptides
US6963807B2 (en) * 2000-09-08 2005-11-08 Oxford Glycosciences (Uk) Ltd. Automated identification of peptides
US6829539B2 (en) 2001-04-13 2004-12-07 The Institute For Systems Biology Methods for quantification and de novo polypeptide sequencing by mass spectrometry

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07507394A (ja) * 1992-05-29 1995-08-10 ザ ロックフェラー ユニバーシティ 質量スペクトロメータを用いてペプチドの配列決定を行う為の方法及び物質
JP2004505248A (ja) * 2000-07-25 2004-02-19 ザ プロクター アンド ギャンブル カンパニー ポリペプチドの配列決定のための新しい方法及びキット

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6009040117, Ioannis A. Papayannopoulos, "The interpretation of collision−induced dissociation tandem mass spectra of peptides", Mass Spectrometry Reviews, 1995, Volume 14, Issue 1, 49−73 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006189277A (ja) * 2005-01-04 2006-07-20 Nec Corp タンパク質の解析方法
JP4543929B2 (ja) * 2005-01-04 2010-09-15 日本電気株式会社 タンパク質の解析方法
JP2009513954A (ja) * 2005-10-28 2009-04-02 エムディーエス アナリティカル テクノロジーズ, ア ビジネス ユニット オブ エムディーエス インコーポレイテッド 特定のニュートラルディファレンスと関連する反応対の特定な同定のための方法、システムおよびコンピュータソフトウェア製品
JP2007278712A (ja) * 2006-04-03 2007-10-25 Shimadzu Corp 質量分析を利用したアミノ酸配列解析システム
JP2008145221A (ja) * 2006-12-08 2008-06-26 Shimadzu Corp 質量分析を用いたアミノ酸配列解析方法、アミノ酸配列解析装置、アミノ酸配列解析用プログラム、及びアミノ酸配列解析用プログラムを記録した記録媒体
JP2013160595A (ja) * 2012-02-03 2013-08-19 Shimadzu Corp アミノ酸配列解析方法及び装置

Also Published As

Publication number Publication date
EP1508046B1 (en) 2013-09-04
AU2003240060A8 (en) 2003-12-19
JP4512486B2 (ja) 2010-07-28
US20140222348A1 (en) 2014-08-07
EP1508046A2 (en) 2005-02-23
WO2003102572A3 (en) 2004-03-04
GB0212470D0 (en) 2002-07-10
US20060172365A1 (en) 2006-08-03
WO2003102572A2 (en) 2003-12-11
AU2003240060A1 (en) 2003-12-19
US8620588B2 (en) 2013-12-31

Similar Documents

Publication Publication Date Title
US20140222348A1 (en) Mass Spectrometry
Colinge et al. OLAV: Towards high‐throughput tandem mass spectrometry data identification
US8271203B2 (en) Methods and systems for sequence-based design of multiple reaction monitoring transitions and experiments
US7409296B2 (en) System and method for scoring peptide matches
Li et al. A Bayesian approach to protein inference problem in shotgun proteomics
Arnold et al. A machine learning approach to predicting peptide fragmentation spectra
Andreotti et al. Antilope—A Lagrangian Relaxation approach to the de novo peptide sequencing problem
US7979214B2 (en) Peptide identification
Zhou et al. A machine learning approach to explore the spectra intensity pattern of peptides using tandem mass spectrometry data
Ng et al. Algorithms for de-novo sequencing of peptides by tandem mass spectrometry: a review
US8137982B2 (en) Mass spectrometry precursor ion selection
Datta et al. Spectrum fusion: using multiple mass spectra for de novo peptide sequencing
Zou et al. Charge state determination of peptide tandem mass spectra using support vector machine (SVM)
Xu et al. Complexity and scoring function of MS/MS peptide de novo sequencing
Gao et al. A programmable fragmentation analysis of proteins by in-source decay in MALDI-TOF mass spectrometry
Kennedy Refinement and Validation of Multi-Source Blood Detection for Operational Use
Fang et al. Feature selection in validating mass spectrometry database search results
Grover et al. Context-sensitive markov models for peptide scoring and identification from tandem mass spectrometry
Yan et al. PRIME: A Mass Spectrum Data Mining Tool for De Nova Sequencing and PTMs Identification
Kramer Quantitative Label-Free Comparative Proteomic Analyses of Eukaryotic Tissues via Mass Spectrometry
Murad et al. Polynomial-time disulfide bond determination using mass spectrometry data
Oh et al. Peptide identification by tandem mass spectra: an efficient parallel searching
Loukil Tandem mass intensity estimation for de novo peptide sequencing
Oh et al. A Two-way Parallel Searching for Peptide Identification via Tandem Mass Spectrometry.
Yang Development of amyloidosis typing method and data acquisition strategies using tandem mass spectrometry

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091109

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091116

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20091209

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20091216

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100108

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100510

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130514

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

LAPS Cancellation because of no payment of annual fees